JP2010160316A - 情報処理装置及びテキスト読み上げ方法 - Google Patents
情報処理装置及びテキスト読み上げ方法 Download PDFInfo
- Publication number
- JP2010160316A JP2010160316A JP2009002346A JP2009002346A JP2010160316A JP 2010160316 A JP2010160316 A JP 2010160316A JP 2009002346 A JP2009002346 A JP 2009002346A JP 2009002346 A JP2009002346 A JP 2009002346A JP 2010160316 A JP2010160316 A JP 2010160316A
- Authority
- JP
- Japan
- Prior art keywords
- sentence
- music
- text
- fixed
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000000034 method Methods 0.000 title claims abstract description 43
- 238000006243 chemical reaction Methods 0.000 claims abstract description 17
- 230000010365 information processing Effects 0.000 claims description 34
- 239000003607 modifier Substances 0.000 claims description 25
- 238000006467 substitution reaction Methods 0.000 claims description 10
- 239000000284 extract Substances 0.000 claims description 4
- 230000004044 response Effects 0.000 abstract description 8
- 230000001755 vocal effect Effects 0.000 abstract 2
- 238000010586 diagram Methods 0.000 description 7
- 230000015572 biosynthetic process Effects 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 238000003786 synthesis reaction Methods 0.000 description 5
- 230000005236 sound signal Effects 0.000 description 4
- 238000004519 manufacturing process Methods 0.000 description 3
- 239000011435 rock Substances 0.000 description 3
- ZYXYTGQFPZEUFX-UHFFFAOYSA-N benzpyrimoxan Chemical compound O1C(OCCC1)C=1C(=NC=NC=1)OCC1=CC=C(C=C1)C(F)(F)F ZYXYTGQFPZEUFX-UHFFFAOYSA-N 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【課題】情報の一部が欠けていても自然な音声フレーズの組み立てにより自然なトークバックをすることが可能な「情報処理装置及びテキスト読み上げ方法」を提供すること。
【解決手段】楽曲を再生する情報処理装置100は、音声読み上げ手段6と、ユーザの質問に対する回答の定型文及び定型文の変換規則が格納された記憶手段10と、ユーザからの質問を入力する入力手段2と、楽曲データを格納した機器から楽曲データ及び楽曲データに付随した楽曲情報を取得する制御手段1とを有する。制御手段1は、ユーザからの楽曲に対する質問を解析して質問に応じた回答文の定型文を選択し、楽曲の楽曲情報から定型文に含まれる置換記号部分を置換する文字を検出して文字が音声再生可能か否かに応じて定型文を変換し、変換した定型文を用いて音声読み上げ用のテキストを生成し、テキストを音声読み上げ手段を介して読み上げさせる。
【選択図】図1
【解決手段】楽曲を再生する情報処理装置100は、音声読み上げ手段6と、ユーザの質問に対する回答の定型文及び定型文の変換規則が格納された記憶手段10と、ユーザからの質問を入力する入力手段2と、楽曲データを格納した機器から楽曲データ及び楽曲データに付随した楽曲情報を取得する制御手段1とを有する。制御手段1は、ユーザからの楽曲に対する質問を解析して質問に応じた回答文の定型文を選択し、楽曲の楽曲情報から定型文に含まれる置換記号部分を置換する文字を検出して文字が音声再生可能か否かに応じて定型文を変換し、変換した定型文を用いて音声読み上げ用のテキストを生成し、テキストを音声読み上げ手段を介して読み上げさせる。
【選択図】図1
Description
本発明は、情報処理装置及びテキスト読み上げ方法に関し、特に、テキスト情報を音声で読み上げる機能(TTS(Text To Speech)エンジン)を備えた情報処理装置において読み上げるテキストを生成する技術に関する。
近年、テキストを入力するとそれを音声で読み上げる機能(TTSエンジン)を備えたシステムが開発され、携帯電話の電話応答サービスなどで広く利用されている。例えば、個人向けポータブルサービスで、ユーザの身近にモバイル端末やコンピュータがないという状況でも、電話をかければEメールやニュース、市場動向等の情報を読み上げてくれる音声サービスとして使用されている。
一方、再生用のオーディオ情報を格納した機器をオーディオ装置に接続して、オーディオ情報を基に音楽を再生出力することが行われている。このようなオーディオ情報としては楽曲データがあり、楽曲データには、楽曲のデジタルデータとともに楽曲のタイトルやアーティスト等の情報が記載されたタグデータが含まれている。このタグデータを基にして再生されている楽曲のタイトル等を表示画面に表示したり、TTSエンジンを利用して音声で読み上げることもできるようになってきている。
TTSエンジンを利用した音声の読み上げでは、TTSエンジンに入力されるテキストを忠実に音声信号に変換している。そのため、正確なテキストをTTSエンジンに入力することが要求される。TTSエンジンへ正確なテキストを入力する方法として、特許文献1には、TTSエンジンに入力するテキストのスペルをチェックしたり、曖昧なテキストをユーザに問い合わせて正しいテキストに変換する技術が記載されている。
上述したように、デジタルオーディオの曲名やアーティスト名等のタグ情報(楽曲情報)を、テキスト−音声変換機能を用いることにより音声で聞くことが可能である。これらの情報は、予め用意されている定型文の所定の置換記号を、デジタルオーディオから取得した楽曲情報の文字に置換することによって音声に変換するテキストを生成している。
この定型文に使用される楽曲情報のすべてが音声再生可能であれば、生成されるテキストは文法的に間違いがなく、質問に対して適切な音声応答がされる。
しかし、TTSエンジンが対応不可能な文字、例えば、米国英語を対象としている場合にタグ情報として漢字が含まれていると、その漢字の部分は音声再生不可能であるため、通常その部分を空白としている。そのため、空白部分の出力音声は無音状態となる。この場合であっても、定型文の空白に置換された部分以外は音声変換されるため、不自然な文の出力になってしまう。例えば、"What song is this?" という質問に対する回答の定型文が、"It is <Song> by <Artist>." であり、<Song>は曲名で置換され、<Artist>はアーティスト名で置換されるものとする。このとき、曲名が "Happy Song"であり、アーティスト名が存在していないとすると、回答文は "It is Happy Song by" となり、不自然な音声出力となってしまう。
本発明は、かかる従来技術の課題に鑑みなされたものであり、情報の一部が欠けていても自然な音声フレーズの組み立てにより自然なトークバックをすることが可能な情報処理装置及びテキスト読み上げ方法を提供することを目的とする。
上述した従来技術の課題を解決するため、本発明の基本形態によれば、再生用の楽曲データを格納した機器と通信可能に接続される情報処理装置であって、テキストを音声データに変換して出力する機能を有した音声読み上げ手段と、ユーザの質問に対する回答の定型文及び定型文の変換規則が格納された記憶手段と、ユーザからの質問を入力する入力手段と、前記楽曲データを格納した機器から楽曲データ及び当該楽曲データに付随した楽曲情報を取得する制御手段とを有し、前記制御手段は、ユーザからの楽曲に対する質問を解析して当該質問に応じた回答文の定型文を選択し、当該楽曲の楽曲情報から定型文に含まれる置換記号部分を置換する文字を検出して当該文字が音声再生可能か否かに応じて前記定型文を変換し、当該変換した定型文を用いて音声読み上げ用のテキストを生成し、当該テキストを前記音声読み上げ手段を介して読み上げさせることを特徴とする情報処理装置が提供される。
この形態に係る情報処理装置において、前記制御手段は、前記楽曲のジャンルに応じて、前記定型文を選択するようにしてもよく、前記制御手段は、前記楽曲情報のいずれかが音声再生不可能であると判定したとき、前記定型文から当該楽曲情報に置換される置換記号を含む修飾語句相当部分を削除した定型文を用いてテキストを生成するか、又は新たな定型文を用いてテキストを生成するようにしてもよい。
また、この形態に係る情報処理装置において、前記制御手段は、前記楽曲情報のうち、アーティスト名が音声再生不可能であると判定したとき、前記定型文から当該アーティスト名に置換される置換記号を含む修飾語句相当部分を削除した定型文を用いてテキストを生成するようにしてもよく、前記制御手段は、前記楽曲情報のうち、アルバム名が音声再生不可能であると判定したとき、前記定型文から当該アルバム名に置換される置換記号を含む修飾語句相当部分を削除した定型文を用いてテキストを生成するようにしてもよく、前記制御手段は、前記楽曲情報のうち、楽曲名が音声再生不可能であると判定したとき、当該楽曲のアーティスト名に置換される置換記号を文の要素とする新たな定型文及び当該楽曲のアルバム名に置換される置換記号を文の要素とする新たな定型文を前記記憶手段から抽出し、当該定型文を用いてテキストを生成するようにしてもよい。
本発明の情報処理装置によれば、デジタルオーディオ機器から取得した楽曲を再生出力しているとき、ユーザからの曲情報の質問に対して定型文を基に回答文を生成している。この回答文の生成において、楽曲情報のうち読み上げができない文字についてはスペースに置き換えるとともに、定型文を一部変更して文法的に不備のないテキストに変換して、TTSエンジンにより音声出力している。例えば、"What am I listening to?" という質問に対する回答の定型文が、"This Song is called <Song> by <Artist> from <Album>."であり、<Song>が曲名に、<Artist>がアーティスト名に、<Album>がアルバム名に置換されるとき、アーティスト名が再生不可能な文字だと判断されると、回答の定型文は、"This Song is called <Song> from <Album>."として音声出力するテキストが生成される。
このように、再生不可能な文字をスペースに変換するとともにその文字及びその文字にかかる前置詞とをあわせた修飾語句に相当する部分を定型文から削除してテキストを生成しているので、自然な文章を音声出力することが可能になる。
また、本発明の他の形態によれば、ユーザからの楽曲に対する質問を解析するステップと、記憶手段に格納されている回答文の定型文から、前記質問に応じた定型文を抽出するステップと、前記楽曲の楽曲情報から前記定型文に含まれる置換記号部分を置換する文字を検出するステップと、当該文字が音声再生可能か否かに応じて前記定型文を変換するステップと、前記変換された定型文の置換記号を当該文字に置換して音声読み上げ用のテキストを生成するステップと、前記テキストを音声データに変換して出力するステップと、を有することを特徴とするテキスト読み上げ方法が提供される。
この形態に係るテキスト読み上げ方法において、前記定型文を抽出するステップは、前記記憶手段に格納されている回答文の定型文から、前記質問に応じた回答文の定型文の候補を選択するステップと、前記楽曲情報を解析して当該楽曲のジャンルを検出するステップと、前記定型文の候補の中から当該ジャンルに応じた定型文を選択するステップと、を含むようにしてもよい。
また、この形態に係るテキスト読み上げ方法において、前記定型文を変換するステップは、前記楽曲情報のいずれかが音声再生不可能か否かを判定するステップと、前記楽曲情報のいずれかが音声再生不可能であると判定したとき、前記定型文を新たな定型文に変換するステップと、を含むようにしてもよい。
以下、本発明の実施形態について、添付の図面を参照して説明する。
図1は、本発明の一実施形態に係る情報処理装置100の構成を示した図である。
本実施形態に係る情報処理装置100は、図1に示すように、制御部1(オーディオ制御部1a及び音声認識/TTS制御部1b)と、音声入力部2と、音声認識エンジン4と、読み上げ文字列生成部5と、TTSエンジン6と、音声再生部7と、表示部8と、マイク3と、スピーカー9と、記憶部10を備えている。
また、情報処理装置100とデジタルオーディオ機器12とがオーディオバス11を介して接続されている。デジタルオーディオ機器12としては、例えば、外付けオーディオ機器12aや、HDDオーディオ12b、CDテキスト12cがある。HDDオーディオ12bは記憶装置にハードディスクを内蔵した携帯音楽プレーヤーであり、CDテキスト12cは、CD−TEXT規格に対応したプレーヤーであり、CDのタイトルや作曲家などのテキスト情報が表示されるものである。
デジタルオーディオ機器12には、例えば、インターネット等を介して配信されたMP3形式等の楽曲ファイルをパーソナルコンピュータ(PC)にいったんダウンロードし、さらにこのPCから転送された楽曲ファイルが格納されている。この楽曲ファイルには、再生用のオーディオ情報の他に、このオーディオ情報を特定する楽曲情報(タイトル、アーティスト名、アルバム名など)が含まれている。
オーディオ制御部1aは、マイクロコンピューターにより構成され、オーディオ再生情報をデジタルオーディオ機器12から取得し、液晶パネルや有機ELパネル等により構成される表示部8に表示させる制御を行う。また、オーディオ再生情報から再生する楽曲に関する情報を抽出して、音声認識/TTS制御1b部に引き渡す。
音声入力部2は、マイク3を介してユーザの音声を入力し、音声信号のデータに変換し、変換した音声データを音声認識/TTS制御部1bに引き渡す。
音声再生部7は、TTSエンジン6によりテキストから変換された音声データを入力し、その音声データに従って音声を再生して音声信号を増幅し、スピーカー9に供給する処理を行う。
音声認識/TTS制御部1bは、再生中の楽曲に関する情報を、必要なときにそのつどオーディオ制御部1aを介して取得する。
また、音声認識/TTS制御部1bは、音声の入力から出力までの全体の制御を行う。音声認識/TTS制御部1bは、マイク3及び音声入力部2を介して入力したユーザの発話音声を音声認識エンジン4に認識させる。音声認識は一般の認識処理と同様に、入力された音声を音響分析して特徴量を算出し、特徴量から発話に対応する音響モデル10a(予めデータ化されてメモリに格納されている)を抽出する。この音響モデル10aと音声認識辞書10bに格納された辞書の単語とを基に認識する。
読み上げ文字列生成部5は、TTSエンジン6に入力する音声読み上げの対象となる文字列を生成する。この文字列は、ユーザの質問に対する回答の定型文と、定型文の置換記号の部分を置換する楽曲に関する情報とを組み合わせて生成される。また、本発明に関連する機能として、定型文の置換記号の部分を置換する文字が音声再生不可能な文字であると判定されたときに、その置換記号の部分を含む修飾語句に相当する部分を削除した新たな定型文に変換する。
TTSエンジン6は、読み上げ用の文字列(テキスト)を入力すると、TTSデータ10dに含まれている言語解析辞書を基にテキスト情報を解析し、読みとアクセントを記した文字列である中間言語を生成する。この中間言語は、TTSデータ10dに含まれている音声合成辞書を参照して音声(波形)データに変換する。
記憶部10は、ハードディスクや半導体メモリ等で構成され、音声認識エンジン4で使用する音響モデル10aや音声認識辞書10b、読み上げ文字列生成部5で参照する文字列処理テーブル10c、TTSエンジン6で読み込まれるTTSデータ10dが、それぞれ領域を分けて格納されている。また、記憶部10には、デジタルオーディオ機器12から取得した再生中の楽曲の楽曲情報データが格納される。再生中の楽曲の更新があるときは、常に、記憶部10に格納される楽曲情報データも更新される。
文字列処理テーブル10cには、ユーザの質問に対する回答の定型文、及び、どのような質問に対してどのような基本定型文を適用するかという規則が格納されている。また、質問に対する回答の定型文に含まれる置換記号の部分を置換する楽曲情報データのテキストが音声再生不可能な場合に、その定型文を変換する規則等が格納されている。
TTSデータ10dには、TTSエンジン6において音声合成を実行する際に使用する辞書(言語解析辞書、音声合成辞書)が含まれている。
言語解析辞書は、音声合成処理の対象となるテキスト情報の構文解析を行う際に参照する辞書であり、あらかじめ各語彙毎に、その表記、読み、アクセント情報、品詞情報等の詳細な情報を対応付けて登録したものである。音声合成辞書は、TTSエンジンで解析されたテキスト情報をその対応する音声(波形)データに変換する際に参照する辞書である。
このように構成された情報処理装置100において、楽曲が再生出力されているときに、ユーザから楽曲に関する質問がされると、質問に対する適切な回答文をテキスト生成し、そのテキストを音声に変換してスピーカー9を通して回答する。
再生中の楽曲に関する情報は、音声認識/TTS制御部1bが必要なときにそのつどオーディオ制御部1aを介して取得するか、再生中の楽曲に関する情報が格納されている記憶部10から取得する。
テキストを音声に変換する処理を行うTTSエンジン12では、入力されたテキストに忠実に音声に変換する。そのため、TTSエンジン12に入力するテキストを最適なテキストに変換している。
例えば、回答文の定型文として、"This song is called <Song> by <Artist> from <Album>."を使用し、<Song>及び<Album>を置換する文字が音声再生可能な文字であり、<Artist>を置換する文字が音声再生不可能な文字であったとき、回答文を"This song is called <Song> from <Album>."と変換し、変換した定型文を用いてテキストを生成してTTSエンジン12に入力する。これにより、文法的に誤りのない自然な回答文を音声出力することが可能となる。
以下に、文法的に誤りのないテキストを生成する処理について説明する。本実施形態では、デジタルオーディオ機器12に格納された楽曲が再生出力される情報処理装置100を対象とする。また、情報処理装置100とデジタルオーディオ機器12とが接続され、デジタルオーディオ機器12に格納されている楽曲データから楽曲情報のすべてが情報処理装置100に送信され、情報処理装置100の記憶部10に楽曲データが格納されているものとする。
情報処理装置100は、オーディオ制御部1aの制御により、指示された楽曲に応じたファイルパス情報をデジタルオーディオ機器12に送信し、デジタルオーディオ機器12から楽曲データを受信しながらスピーカー9から音声を再生出力する。
この情報処理装置100に対して、"What song is this?"という質問がされたものとする。ユーザの発話によるこの質問が、音声認識エンジン4において認識され、再生出力されている曲が何かという楽曲の情報をユーザが要求していると解釈すると、質問に対する回答文の基本定型文を予め用意され格納されている記憶部10の文字列処理テーブル10cから抽出する。この基本定型文の置換記号部分を楽曲情報のテキストに置換して回答文を生成する。この楽曲情報がTTSエンジン6で音声信号を生成可能なテキストか否かを判定し、音声信号を生成することが不可能なテキストであればそのテキストをスペースに置き換える処理を行う。
TTSエンジン6は、入力されたテキストを音声に変換して読み上げるためのものであるが、TTSエンジン6が対応する言語に依存し、言語の文字コードを解釈できない場合は音声に変換することができない。
図2(a)は、文字コード一覧(ISO8859−1)の一例を示した図である。TTSエンジン6によって、この文字コード一覧のうち、音声再生が可能な文字と音声再生ができない文字とが存在する。例えば、これらの文字コードのうち、二重枠で囲んだセル及び太枠で囲んだセルの文字がTTSエンジン6によって音声信号に変換できないものとする。二重枠で囲んだセルの文字コードは音声再生ができないため、これらの文字はTTSエンジンに入力する前にスペースに置換する。また、太枠で囲んだセルの文字コードはそのままでは音声再生できないが、読み方を定義して音声再生が可能なようにしている。図2(b)にその定義の一例を示している。図2(b)に示すように、TTSエンジン6が対応可能な文字コードが米国英語(US English)の場合、文字コード0x23の文字「#」は“number”に変換し、文字コード0x26の文字「&」は“and”に変換し、文字コード0x40の文字「@」は“at”に変換する。対応可能な文字コードがCanadian French,American Spanishのときは、それぞれ図2(b)に示すように変換される。
図3(a)は、楽曲に関する質問に対する回答の基本定型文の一例を示している。図3(a)に示すように、基本定型文として(1)"It is <Song> by <Artist>."、(2)"This song is called <Song> by <Artist> from <Album>."、(3)"This is called <Song> by <Artist> from <Album>."などが用意されている。これらの定型文において、<Song>は、曲名に置換される置換記号、<Artist>は、アーティスト名に置換される置換記号、<Album>は、アルバム名に置換される置換記号である。
これらの基本定型文から回答文の候補を抽出し、音声認識/TTS制御部1bのメモリ(不図示)に一時的に保存する。
次に、楽曲のジャンルを検出し、楽曲のジャンルに応じた質問に対する回答の定型文を選択する。図3(a)に示す基本定型文のうち、楽曲のジャンルがポップ又はロックの場合には(2)の基本定型文が採用され、楽曲のジャンルがクラシック又はインストゥルメンタルの場合は(3)の基本定型文が採用されるものとする。このような基本定型文と楽曲のジャンルとの関係についても予め規定し記憶部10の文字列処理テーブル10cに格納しておく。
次に、再生出力されている楽曲に関する曲名やアーティスト名の楽曲情報を記憶部10から取得して、それらの文字が音声再生可能な文字であるか否か、つまり、TTSエンジン6で採用している言語によって解釈が可能な文字であるか否かを判定する。
回答文の基本定型文に代入される楽曲情報の各項目の文字がすべて音声再生可能な文字であれば、基本定型文に含まれる置換記号の部分を楽曲情報に置換したテキストを読み上げ文字列生成部5にて生成する。これに対して、音声再生できない文字が含まれている場合には、再生できない楽曲情報に応じて基本定型文を一部変更してTTSエンジン6に入力するテキストを生成する。例えば、TTSエンジン6でサポートしている文字コードが米国英語のときに日本語の漢字やひらがなは対応できずその文字については音声再生をすることができない。この場合、基本定型文の置換記号の部分をスペースに置換しただけでは、文法的に誤りを含んだ不自然な文になってしまう場合がある。そこで、音声再生できない楽曲情報に応じて定型文そのものを調整して、適切なテキストを生成するようにしている。
この変更の規則を定めた基本定型文変換規則の一例を図3(b)に示す。基本定型文変換規則として、図3(b)に示すように、音声再生不可能な楽曲情報の項目に応じて定型文をどのように変換するかが定義されている。
例えば、図3(b)の規則No.(1)では、アーティスト名が音声再生不可能であると判定されたときは、基本定型文から、"by <Artist>"の部分を削除してTTSエンジンに入力するテキストを生成するようにしている。同様に、規則No.(2)では、アルバム名が音声再生不可能と判定されたときに、基本定型文から、"from <Album>"の部分を削除するようにしている。また、規則No.(3)では、楽曲名が音声再生不可能と判定されたときに、新たな定型文を使用することが規定されている。
これらの基本定型文変換規則を適用して、楽曲情報(アーティスト名、アルバム名、楽曲名)のうちどの情報が音声再生不可能となった場合であっても、自然な応答文を生成するようにしている。以下に、楽曲情報のうちの少なくとも一つの情報が音声再生不可能な場合における定型文の変換例を示す。
(a)曲名だけが再生不可能な場合
読み上げ文字列生成部5における楽曲情報項目の音声再生可否解析の結果、曲名が音声再生不可能な文字コード、例えば、日本語の漢字やひらがな等で記載されていた場合である。この場合は、アーティスト名及びアルバム名を別々に回答する。例えば、"This Track's Artist is <Artist>. This Track's Album is <Album>."とする。このように、曲名が音声再生不可能な場合には新たな定型文を使用する。これらの新たな定型文も予め記憶部10の文字列処理テーブル10cに格納しておく。
読み上げ文字列生成部5における楽曲情報項目の音声再生可否解析の結果、曲名が音声再生不可能な文字コード、例えば、日本語の漢字やひらがな等で記載されていた場合である。この場合は、アーティスト名及びアルバム名を別々に回答する。例えば、"This Track's Artist is <Artist>. This Track's Album is <Album>."とする。このように、曲名が音声再生不可能な場合には新たな定型文を使用する。これらの新たな定型文も予め記憶部10の文字列処理テーブル10cに格納しておく。
(b)アーティスト名だけが再生不可能な場合
読み上げ文字列生成部5における楽曲情報項目の音声再生可否解析の結果、アーティスト名が音声再生不可能な文字コード、例えば、日本語の漢字やひらがな等で記載されていた場合である。この場合は、定型文からアーティスト名に置換される置換記号部分とその前の前置詞とをあわせた修飾語に相当する部分を削除する。例えば、"This song is called <Song> from <Album>."とする。
読み上げ文字列生成部5における楽曲情報項目の音声再生可否解析の結果、アーティスト名が音声再生不可能な文字コード、例えば、日本語の漢字やひらがな等で記載されていた場合である。この場合は、定型文からアーティスト名に置換される置換記号部分とその前の前置詞とをあわせた修飾語に相当する部分を削除する。例えば、"This song is called <Song> from <Album>."とする。
(c)アルバム名だけが再生不可能な場合
読み上げ文字列生成部5における楽曲情報項目の音声再生可否解析の結果、アルバム名が音声再生不可能な文字コード、例えば、日本語の漢字やひらがな等で記載されていた場合である。この場合は、定型文からアルバム名に置換される置換記号部分とその前の前置詞とを合わせた修飾語に相当する部分を削除する。例えば、"This song is called <Song> by <Artist>."とする。
読み上げ文字列生成部5における楽曲情報項目の音声再生可否解析の結果、アルバム名が音声再生不可能な文字コード、例えば、日本語の漢字やひらがな等で記載されていた場合である。この場合は、定型文からアルバム名に置換される置換記号部分とその前の前置詞とを合わせた修飾語に相当する部分を削除する。例えば、"This song is called <Song> by <Artist>."とする。
(d)アルバム名だけが再生可能な場合
読み上げ文字列生成部5における楽曲情報項目の音声再生可否解析の結果、アーティスト名と楽曲名が音声再生不可能な文字コードで記載されていた場合である。この場合は、アルバム名に置換される置換記号を文の要素とする新たな定型文を採用する。例えば、"This Track's Album is <Album>."とする。
読み上げ文字列生成部5における楽曲情報項目の音声再生可否解析の結果、アーティスト名と楽曲名が音声再生不可能な文字コードで記載されていた場合である。この場合は、アルバム名に置換される置換記号を文の要素とする新たな定型文を採用する。例えば、"This Track's Album is <Album>."とする。
(e)アーティスト名だけが再生可能な場合
読み上げ文字列生成部5における楽曲情報項目の音声再生可否解析の結果、楽曲名とアルバム名が音声再生不可能な文字コードで記載されていた場合である。この場合は、アーティスト名に置換される置換記号を文の要素とする新たな定型文を採用する。例えば、"This track's artist is <Artist>."とする。
読み上げ文字列生成部5における楽曲情報項目の音声再生可否解析の結果、楽曲名とアルバム名が音声再生不可能な文字コードで記載されていた場合である。この場合は、アーティスト名に置換される置換記号を文の要素とする新たな定型文を採用する。例えば、"This track's artist is <Artist>."とする。
(f)曲名だけが再生可能な場合
読み上げ文字列生成部5における楽曲情報項目の音声再生可否解析の結果、アーティスト名とアルバム名が音声再生不可能な文字コードで記載されていた場合である。この場合は、定型文からアーティスト名に置換される置換記号部分とその前の前置詞とをあわせた修飾語に相当する部分、及び定型文からアルバム名に置換される置換記号部分とその前の前置詞とを合わせた修飾語に相当する部分を削除する。例えば、"This song is called <Song>."とする。
読み上げ文字列生成部5における楽曲情報項目の音声再生可否解析の結果、アーティスト名とアルバム名が音声再生不可能な文字コードで記載されていた場合である。この場合は、定型文からアーティスト名に置換される置換記号部分とその前の前置詞とをあわせた修飾語に相当する部分、及び定型文からアルバム名に置換される置換記号部分とその前の前置詞とを合わせた修飾語に相当する部分を削除する。例えば、"This song is called <Song>."とする。
上記各場合における定型文を一部削除する規則や、新たな定型文を使用することを示す規則は、予め記憶部10の文字列処理テーブル10cに格納しておく。
なお、曲名、アーティスト名、及びアルバム名のすべてが再生不可能な文字コードで記載されている場合には、音声による応答はできず、その旨の回答を行う。
また、楽曲のジャンルがクラシック又はインストゥルメンタルの場合には、例えば図3(a)の基本定型文(3)が選択され、この基本定型文を基に上記(a)〜(f)の場合について適応させる。例えば、(b)のアーティスト名だけが再生不可能の場合であれば、基本定型文を"This is called <Song> from <Album>."と変換する。
上記の規則を適用して適切な文を生成した例を、図4を用いて説明する。
図4(a)は、デジタルオーディオ機器12から取得した4つの楽曲データの例を示している。それぞれの例において、曲名、アーティスト名、アルバム名、作曲者名、及びジャンルの楽曲情報が取得されている。
例1は、楽曲のジャンルがポップであり、定型文の置換記号が置換される楽曲情報の文字がすべて音声再生可能な場合である。この場合は、基本定型文の置換記号を楽曲情報に置換してテキストを生成する。生成されるテキストは、"This song is called Happy Song by Mariah Carey from All of you."となる。
例2は、楽曲のジャンルがポップであり、アーティスト名の文字だけが音声再生不可能な場合である。この場合は、基本定型文変換規則No.(1)を適用して基本定型文から"by <Artist>"を削除し、定型文を"This song is called <Song> from <Album>."と変換する。図4(b)は、例2の場合の楽曲情報の各データがTTS入力用のデータに変換された例を示している。読み上げ文字列生成部5では、楽曲情報の文字について、音声再生が可能な文字か否かを判定している。TTSエンジンで対応していない文字コードの文字であると判定したときは、その文字を音声変換が不可能なことがわかるようにスペースに変換している。その結果、図4(b)に示すように、アーティスト名についてデジタルオーディオ機器12から抽出した抽出データに対してTTS入力用データとしてはスペースに変換されている。
読み上げ文字列生成部5では、TTS入力用データを参照して、スペースとなっている楽曲情報があれば、それを音声再生不可能な文字と判定し、基本定型文変換規則を適用して定型文を変換する。例2の場合では、基本定型文が"This song is called <Song> by <Artist> from <Album>."であったが、アーティスト名が音声再生不可能であると判定されたため、定型文を"This song is called <Song> from <Album>."と変換する。
この定型文の置換記号部分を該当するテキストで置換して、TTSエンジンに入力するテキストは、"This song is called One Night Magic from ULTRA BLUE."となる。
例3は、楽曲のジャンルがロックであり、アーティスト名のみが音声再生可能な場合である。この場合は、基本定型文変換規則No.(2)及びNo.(3)が適用されるが、新たな定型文を優先して適用するとともに、新たな定型文のうちのアルバムに関する文を使用しない。従って、新たな定型文の置換記号をアーティスト名に置換して、TTSエンジンに入力するテキストは、"This track's artist is T-BOLAN."となる。
例4は、楽曲のジャンルがクラシックであり、定型文の置換記号を置換する楽曲情報の文字がすべて音声再生可能な場合である。この場合は、基本定型文の置換記号を各楽曲情報に置換してテキストを生成する。生成されるテキストは、"This is called Piano Concerto #21 in C, K467 by Royal Philharmonic Orchestra from The Great Piano Concertos Vol.1."となる。
次に、楽曲に関する質問に対する自然な回答文のテキストを生成する処理について図5から図8を参照しながら説明する。図5は、情報処理装置100が行うTTSによるテキスト読み上げ処理のフローチャートであり、図6は、質問が楽曲の場合の回答処理のフローチャートであり、図7及び図8は、音声再生不可能な楽曲情報に応じた回答文テキスト生成処理の一例を示すフローチャートである。これらの処理において、デジタルオーディオ機器12から取得した楽曲情報などのデータは記憶部10に楽曲毎に格納されているものとする。また、質問に対する回答の定型文は予め定義され記憶部10の文字列処理テーブル10cに格納されているものとし、音声再生不可能な楽曲情報に応じた定型文変換規則も予め定義され記憶部10の文字列処理テーブル10cに格納されているものとする。
まず、図5のステップS11において、ユーザからの音声による質問を受け付ける。音声入力部2がマイク3を介してユーザの音声を入力して音声信号等のデータに変換し、このデータを音声認識/TTS制御部1bに出力する。
次のステップS12において、ユーザからの質問を解析する。音声認識/TTS制御部1bにおいて、入力した音声信号を音声認識エンジン4に引き渡し、音声認識エンジン4は音響モデル10aや音声認識辞書10bを参照してユーザの質問を認識する。
次のステップS13において、ユーザからの質問に対する回答の定型文を選択する。音声認識/TTS制御部1bは、音声認識エンジン4によって認識したユーザの質問から何に関する質問かを判断し、質問に対する回答の定型文を予め格納してある記憶部10から抽出する。また、定型文に含まれている置換記号の部分を置換する文字を、質問に関連したデータから抽出する。例えば、質問が楽曲に関する質問であり、回答文の置換記号が曲名に対応するものであれば、楽曲情報から曲名を抽出する。
次のステップS14において、回答の定型文の置換記号部分を置換する文字が音声再生可能か否かを判定する。再生可能であればステップS16に移行し、再生不可能であればステップS15に移行する。音声再生可能か否かは、TTSエンジン6が対応可能な文字コードの文字か否かによって判断する。
次のステップS15において、当該置換記号を含む修飾語句相当部分を削除した定型文に変換し、その定型文を用いて自然な文のテキストを生成する。
次のステップS17において、ステップS15又はステップS16において生成されたテキストをTTSエンジン6に入力する。
次のステップS18において、音声認識/TTS制御部1bの制御により、TTSエンジンに入力されたテキストを音声信号に変換させる。
次のステップS19では、TTSエンジン6によって音声信号に変換された回答文のテキストを音声再生部7及びスピーカー9を介して音声出力する。
以上の処理によって、ユーザの質問に対して文法的に誤りのないテキストを音声出力している。
次に、ユーザからの問い合わせが楽曲に関する場合の音声による回答の処理について図6から図8を参照しながら説明する。図7及び図8は、図6の処理における音声再生が不可能な楽曲情報項目に応じて回答文のテキストを生成する処理の一例を示すフローチャートである。
まず、図6のステップS21において、質問に対する回答の基本定型文の候補を選択する。本処理においては、楽曲に関する質問であるため、回答の基本定型文のうち、図3に示す基本回答定型文が候補として選択される。選択された基本回答定型文はメモリ(不図示)に一時的に記憶させておく。
次のステップS22において、楽曲情報から楽曲のジャンル情報を取得する。楽曲情報はデジタルオーディオ機器12などから取得して、記憶部10に格納されている。記憶部10に格納された楽曲データの属性の一つとして、楽曲が再生中か否かを示す再生中フラグを用意しておく。再生中フラグを参照して再生中の楽曲データを取得し、その楽曲データの楽曲情報のうちのジャンル情報を参照してジャンルを検出する。
次のステップS23において、ステップS22で取得した楽曲のジャンルに応じた基本定型文を選択する。例えば、楽曲のジャンルがポップやロックの場合は、図3の基本回答定型文(2)を選択し、ジャンルがクラシックやインストゥルメンタルの場合は、基本回答定型文(3)を選択する。選択された基本回答定型文をメモリに残し、選択されなかった基本回答定型文は破棄される。
次のステップS24において、楽曲情報の文字が音声再生可能か否かを判定する。これらの文字は基本定型文の置換記号の部分を置換するものであり、文字が音声再生できない場合、例えば、TTSエンジン6が対象とする文字コードが米国英語のときに漢字などの日本語の場合、その文字をスペースに置き換える。楽曲情報の文字は記憶部10から抽出し、メモリに一時的に保存しておく。
次のステップS25において、楽曲情報に記載されている文字がすべて音声再生可能であるか否かを判定する。すべての文字が音声再生可能と判定されれば、ステップS27に移行し、音声再生不可能な文字が存在すると判定されれば、ステップS26に移行する。楽曲情報の文字のうち音声再生不可能な文字が存在するか否かは、ステップS24において作成したTTS入力用データを参照して判断する。例えば、図4(b)に示すような楽曲データでは、アーティスト名の情報が漢字で記載されているため、この文字をスペースに変換している。このように、TTS入力用データにスペースが含まれている場合、音声再生不可能な文字が存在すると判定する。
ステップS26では、音声再生不可能な楽曲情報項目に応じて回答文のテキストを生成して、本処理を終了する。一方、ステップS27では、ステップS25において楽曲情報がすべて音声再生可能と判定されたため、定型文の各置換記号を楽曲情報に置換して、回答文のテキストを生成して、本処理は終了する。
図7及び図8は、図6のステップS26の処理の詳細を示したフローチャートである。この処理は、楽曲情報のうち定型文に含まれる置換記号を置換する3種類の文字(楽曲名、アーティスト名、アルバム名)が音声再生可能か否かを場合分けして、それぞれの場合においてどのようなテキストを生成するかを示した処理である。
楽曲名が音声再生不可能(ステップS31においてYES)であり、アーティスト名が音声再生可能(ステップS32においてNO)であり、アルバム名が音声再生可能(ステップS33においてNO)であれば、ステップS35において新たな回答定型文を抽出し、ステップS36において回答定型文の置換記号をアーティスト名及びアルバム名に置換してテキストを生成する。
楽曲名が音声再生不可能(ステップS31においてYES)であり、アーティスト名が音声再生可能(ステップS32においてNO)であり、アルバム名が音声再生不可能(ステップS33においてYES)であれば、ステップS37において新たな回答定型文を抽出し、ステップS38において回答定型文の置換記号をアーティスト名に置換してテキストを生成する。
楽曲名が音声再生不可能(ステップS31においてYES)であり、アーティスト名が音声再生不可能(ステップS32においてYES)であり、アルバム名が音声再生可能(ステップS34においてNO)であれば、ステップS39において新たな回答定型文を抽出し、ステップS40において回答定型文の置換記号をアルバム名に置換してテキストを生成する。
楽曲名が音声再生不可能(ステップS31においてYES)であり、アーティスト名が音声再生不可能(ステップS32においてYES)であり、アルバム名が音声再生不可能(ステップS34においてYES)であれば、ステップS41に移行し、回答不可能である旨の出力テキストを生成する。
楽曲名が音声再生可能(ステップS31においてNO)であり、アーティスト名が音声再生不可能(ステップS42においてYES)であり、アルバム名が音声再生可能(ステップS43においてNO)であれば、ステップS45において定型文のうちの一部を削除する。削除する部分は、アーティスト名に置換される置換記号を含む修飾語句相当部分である。ステップS46において、一部削除した定型文の各置換記号を楽曲名及びアルバム名に置換してテキストを生成する。
楽曲名が音声再生可能(ステップS31においてNO)であり、アーティスト名が音声再生不可能(ステップS42においてYES)であり、アルバム名が音声再生不可能(ステップS43においてYES)であれば、ステップS47において定型文の一部を削除する。削除する部分は、アーティスト名に置換される置換記号を含む修飾語句相当部分、及びアルバム名に置換される置換記号を含む修飾語句相当部分である。ステップS48において、一部削除した定型文の置換記号を楽曲名に置換してテキストを生成する。
楽曲名が音声再生可能(ステップS31においてNO)であり、アーティスト名が音声再生可能(ステップS42においてNO)であり、アルバム名が音声再生不可能(ステップS44においてYES)であれば、ステップS49において定型文の一部を削除する。削除する部分は、アルバム名に置換される置換記号を含む修飾語句相当部分である。ステップS50において、一部削除した定型文の各置換記号を楽曲名及びアーティスト名に置換してテキストを生成する。
楽曲名が音声再生可能(ステップS31においてNO)であり、アーティスト名が音声再生可能(ステップS42においてNO)であり、アルバム名が音声再生可能(ステップS44においてNO)であれば、ステップS51において、定型文の各置換記号を楽曲名、アーティスト名、及びアルバム名に置換してテキストを生成する。
図7及び図8を用いて詳細に説明した図6のステップS26におけるテキストが生成されると、TTSエンジン6に入力されて、質問に対する適切な回答が音声応答される。
以上説明したように、本実施形態の情報処理装置及びテキスト読み上げ方法では、ユーザからの問い合わせに対し、置換記号を含む回答の定型文が用意されている。置換記号の部分は、楽曲情報のいずれかの文字に置換される。この楽曲情報の文字が音声再生不可能な文字の場合、定型文からその楽曲情報に置換される置換記号を含む修飾語句に相当する部分を削除して定型文を変換し、変換した定型文を用いてTTSに入力するテキストを生成している。これにより、音声再生が不可能な文字を含むために一部情報が欠けている場合であっても、文法的に誤りがなく自然な回答文を音声出力することが可能になる。
なお、本実施形態では、TTSエンジンがサポートする言語を米国英語として説明したが、これに限定されないことは勿論である。言語に応じて音声出力が不可能な文字をスペースにしたときに文法的に誤りのないような定型文の変換規則を定義することにより、あらゆる言語に適用可能である。
また、図3では楽曲情報の質問に対する3つの回答定型文を示し、定型文に代入される楽曲情報が曲名、アーティスト名、アルバム名の場合について説明したが、これに限らず、作曲者等その他の楽曲情報を対象とするようにしてもよい。
また、楽曲情報について曲名等の文字全体が再生可能か再生不可能な場合を例にとって説明したが、文字の一部に音声再生可能な文字が含まれる場合もある。この場合に、再生可能な部分だけをテキストとして残すようにしてもよいし、その文字全体を音声再生不可能とみなすようにしてもよい。文字全体を音声再生不可能とする場合には、不正確な情報を出力することがなくなる。
100…情報処理装置、
1…制御部、
1a…オーディオ制御部、
1b…音声認識/TTS制御部、
2…音声入力部(入力手段)、
3…マイク(入力手段)、
4…音声認識エンジン、
5…読み上げ文字列生成部、
6…TTSエンジン(音声読み上げ手段)、
7…音声再生部、
8…表示部(表示手段)、
9…スピーカー、
10…記憶部(記憶手段)、
10a…音響モデル、
10b…音声認識辞書、
10c…文字列処理テーブル、
10d…TTSデータ。
1…制御部、
1a…オーディオ制御部、
1b…音声認識/TTS制御部、
2…音声入力部(入力手段)、
3…マイク(入力手段)、
4…音声認識エンジン、
5…読み上げ文字列生成部、
6…TTSエンジン(音声読み上げ手段)、
7…音声再生部、
8…表示部(表示手段)、
9…スピーカー、
10…記憶部(記憶手段)、
10a…音響モデル、
10b…音声認識辞書、
10c…文字列処理テーブル、
10d…TTSデータ。
Claims (20)
- 再生用の楽曲データを格納した機器と通信可能に接続される情報処理装置であって、
テキストを音声データに変換して出力する機能を有した音声読み上げ手段と、
ユーザの質問に対する回答の定型文及び定型文の変換規則が格納された記憶手段と、
ユーザからの質問を入力する入力手段と、
前記楽曲データを格納した機器から楽曲データ及び当該楽曲データに付随した楽曲情報を取得する制御手段とを有し、
前記制御手段は、ユーザからの楽曲に対する質問を解析して当該質問に応じた回答文の定型文を選択し、当該楽曲の楽曲情報から定型文に含まれる置換記号部分を置換する文字を検出して当該文字が音声再生可能か否かに応じて前記定型文を変換し、当該変換した定型文を用いて音声読み上げ用のテキストを生成し、当該テキストを前記音声読み上げ手段を介して読み上げさせることを特徴とする情報処理装置。 - 前記制御手段は、前記楽曲のジャンルに応じて、前記定型文を選択することを特徴とする請求項1に記載の情報処理装置。
- 前記制御手段は、前記楽曲情報のいずれかが音声再生不可能であると判定したとき、前記定型文から当該楽曲情報に置換される置換記号を含む修飾語句相当部分を削除した定型文を用いてテキストを生成するか、又は新たな定型文を用いてテキストを生成することを特徴とする請求項2に記載の情報処理装置。
- 前記制御手段は、前記楽曲情報のうち、アーティスト名が音声再生不可能であると判定したとき、前記定型文から当該アーティスト名に置換される置換記号を含む修飾語句相当部分を削除した定型文を用いてテキストを生成することを特徴とする請求項3に記載の情報処理装置。
- 前記制御手段は、前記楽曲情報のうち、アルバム名が音声再生不可能であると判定したとき、前記定型文から当該アルバム名に置換される置換記号を含む修飾語句相当部分を削除した定型文を用いてテキストを生成することを特徴とする請求項3に記載の情報処理装置。
- 前記制御手段は、前記楽曲情報のうち、楽曲名が音声再生不可能であると判定したとき、当該楽曲のアーティスト名に置換される置換記号を文の要素とする新たな定型文及び当該楽曲のアルバム名に置換される置換記号を文の要素とする新たな定型文を前記記憶手段から抽出し、当該定型文を用いてテキストを生成することを特徴とする請求項3に記載の情報処理装置。
- 前記制御手段は、前記楽曲情報のうち、アーティスト名だけが音声再生可能であると判定したとき、当該アーティスト名に置換される置換記号を文の要素とする新たな定型文を前記記憶手段から抽出して、当該定型文を用いてテキストを生成することを特徴とする請求項3に記載の情報処理装置。
- 前記制御手段は、前記楽曲情報のうち、アルバム名だけが音声再生可能であると判定したとき、当該アルバム名に置換される置換記号を文の要素とする新たな定型文を前記記憶手段から抽出して、当該定型文を用いてテキストを生成することを特徴とする請求項3に記載の情報処理装置。
- 前記制御手段は、前記楽曲情報のうち、楽曲名だけが音声再生可能であると判定したとき、当該楽曲のアーティスト名に置換される置換記号を含む修飾語句相当部分及び当該楽曲のアルバム名に置換される置換記号を含む修飾語句相当部分を前記定型文から削除した定型文を用いてテキストを生成することを特徴とする請求項3に記載の情報処理装置。
- 前記修飾語句相当部分は、所定の楽曲情報に置換される置換記号と前置詞で構成される前置詞句相当部分であることを特徴とする請求項4,5,9のいずれか一項に記載の情報処理装置。
- ユーザからの楽曲に対する質問を解析するステップと、
記憶手段に格納されている回答文の定型文から、前記質問に応じた定型文を抽出するステップと、
前記楽曲の楽曲情報から前記定型文に含まれる置換記号部分を置換する文字を検出するステップと、
当該文字が音声再生可能か否かに応じて前記定型文を変換するステップと、
前記変換された定型文の置換記号を当該文字に置換して音声読み上げ用のテキストを生成するステップと、
前記テキストを音声データに変換して出力するステップと、
を有することを特徴とするテキスト読み上げ方法。 - 前記定型文を抽出するステップは、
前記記憶手段に格納されている回答文の定型文から、前記質問に応じた回答文の定型文の候補を選択するステップと、
前記楽曲情報を解析して当該楽曲のジャンルを検出するステップと、
前記定型文の候補の中から当該ジャンルに応じた定型文を選択するステップと、
を含むことを特徴とする請求項11に記載のテキスト読み上げ方法。 - 前記定型文を変換するステップは、
前記楽曲情報のいずれかが音声再生不可能か否かを判定するステップと、
前記楽曲情報のいずれかが音声再生不可能であると判定したとき、前記定型文を新たな定型文に変換するステップと、
を含むことを特徴とする請求項12に記載のテキスト読み上げ方法。 - 前記定型文を新たな定型文に変換するステップにおいて、
前記楽曲情報のうちのアーティスト名が音声再生不可能であると判定したとき、前記定型文から当該アーティスト名に置換される置換記号を含む修飾語句相当部分を削除した定型文に変換することを特徴とする請求項13に記載のテキスト読み上げ方法。 - 前記定型文を新たな定型文に変換するステップにおいて、
前記楽曲情報のうちのアルバム名が音声再生不可能であると判定したとき、前記定型文から当該アルバム名に置換される置換記号を含む修飾語句相当部分を削除した定型文に変換することを特徴とする請求項13に記載のテキスト読み上げ方法。 - 前記定型文を新たな定型文に変換するステップにおいて、
前記楽曲情報のうち楽曲名が音声再生不可能であると判定したとき、当該楽曲のアーティスト名に置換される置換記号を文の要素とする新たな定型文及び当該楽曲のアルバム名に置換される置換記号を文の要素とする新たな定型文を前記記憶手段から抽出することを特徴とする請求項13に記載のテキスト読み上げ方法。 - 前記定型文を新たな定型文に変換するステップにおいて、
前記楽曲情報のうちのアーティスト名だけが音声再生可能であると判定したとき、当該アーティスト名に置換される置換記号を文の要素とする新たな定型文を前記記憶手段から抽出することを特徴とする請求項13に記載のテキスト読み上げ方法。 - 前記定型文を新たな定型文に変換するステップにおいて、
前記楽曲情報のうちのアルバム名だけが音声再生可能であると判定したとき、当該アルバム名に置換される置換記号項目を文の要素とする新たな定型文を前記記憶手段から抽出することを特徴とする請求項13に記載のテキスト読み上げ方法。 - 前記定型文を新たな定型文に修正するステップにおいて、
前記楽曲情報のうちの楽曲名だけが音声再生可能であると判定したとき、当該楽曲のアーティスト名に置換される置換記号を含む修飾語句相当部分及び当該楽曲のアルバム名に置換される置換記号を含む修飾語句相当部分を前記定型文から削除した定型文に変換することを特徴とする請求項13に記載のテキスト読み上げ方法。 - 前記修飾語句相当部分は、所定の楽曲情報に置換される置換記号と前置詞で構成される前置詞句相当部分であることを特徴とする請求項14,15,19のいずれか一項に記載のテキスト読み上げ方法。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009002346A JP2010160316A (ja) | 2009-01-08 | 2009-01-08 | 情報処理装置及びテキスト読み上げ方法 |
US12/640,534 US8719028B2 (en) | 2009-01-08 | 2009-12-17 | Information processing apparatus and text-to-speech method |
EP10150362.1A EP2207165B1 (en) | 2009-01-08 | 2010-01-08 | Information processing apparatus and text-to-speech method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009002346A JP2010160316A (ja) | 2009-01-08 | 2009-01-08 | 情報処理装置及びテキスト読み上げ方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2010160316A true JP2010160316A (ja) | 2010-07-22 |
Family
ID=42077624
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009002346A Withdrawn JP2010160316A (ja) | 2009-01-08 | 2009-01-08 | 情報処理装置及びテキスト読み上げ方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US8719028B2 (ja) |
EP (1) | EP2207165B1 (ja) |
JP (1) | JP2010160316A (ja) |
Families Citing this family (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9159313B2 (en) | 2012-04-03 | 2015-10-13 | Sony Corporation | Playback control apparatus, playback control method, and medium for playing a program including segments generated using speech synthesis and segments not generated using speech synthesis |
US9355093B2 (en) | 2012-08-30 | 2016-05-31 | Arria Data2Text Limited | Method and apparatus for referring expression generation |
US8762134B2 (en) | 2012-08-30 | 2014-06-24 | Arria Data2Text Limited | Method and apparatus for situational analysis text generation |
US9336193B2 (en) | 2012-08-30 | 2016-05-10 | Arria Data2Text Limited | Method and apparatus for updating a previously generated text |
US9405448B2 (en) | 2012-08-30 | 2016-08-02 | Arria Data2Text Limited | Method and apparatus for annotating a graphical output |
US8762133B2 (en) | 2012-08-30 | 2014-06-24 | Arria Data2Text Limited | Method and apparatus for alert validation |
US9135244B2 (en) | 2012-08-30 | 2015-09-15 | Arria Data2Text Limited | Method and apparatus for configurable microplanning |
US9600471B2 (en) | 2012-11-02 | 2017-03-21 | Arria Data2Text Limited | Method and apparatus for aggregating with information generalization |
WO2014076524A1 (en) | 2012-11-16 | 2014-05-22 | Data2Text Limited | Method and apparatus for spatial descriptions in an output text |
WO2014076525A1 (en) | 2012-11-16 | 2014-05-22 | Data2Text Limited | Method and apparatus for expressing time in an output text |
US9990360B2 (en) | 2012-12-27 | 2018-06-05 | Arria Data2Text Limited | Method and apparatus for motion description |
US10115202B2 (en) | 2012-12-27 | 2018-10-30 | Arria Data2Text Limited | Method and apparatus for motion detection |
WO2014111753A1 (en) | 2013-01-15 | 2014-07-24 | Arria Data2Text Limited | Method and apparatus for document planning |
WO2015028844A1 (en) | 2013-08-29 | 2015-03-05 | Arria Data2Text Limited | Text generation from correlated alerts |
US9396181B1 (en) | 2013-09-16 | 2016-07-19 | Arria Data2Text Limited | Method, apparatus, and computer program product for user-directed reporting |
US9244894B1 (en) | 2013-09-16 | 2016-01-26 | Arria Data2Text Limited | Method and apparatus for interactive reports |
WO2015159133A1 (en) | 2014-04-18 | 2015-10-22 | Arria Data2Text Limited | Method and apparatus for document planning |
US10445432B1 (en) | 2016-08-31 | 2019-10-15 | Arria Data2Text Limited | Method and apparatus for lightweight multilingual natural language realizer |
US10467347B1 (en) | 2016-10-31 | 2019-11-05 | Arria Data2Text Limited | Method and apparatus for natural language document orchestrator |
JP2022047550A (ja) * | 2019-01-23 | 2022-03-25 | ソニーグループ株式会社 | 情報処理装置、及び情報処理方法 |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7711564B2 (en) * | 1995-07-27 | 2010-05-04 | Digimarc Corporation | Connected audio and other media objects |
US6246981B1 (en) * | 1998-11-25 | 2001-06-12 | International Business Machines Corporation | Natural language task-oriented dialog manager and method |
US6604074B2 (en) * | 2001-03-22 | 2003-08-05 | Empirix Inc. | Automatic validation of recognized dynamic audio data from data provider system using an independent data source |
US7693720B2 (en) * | 2002-07-15 | 2010-04-06 | Voicebox Technologies, Inc. | Mobile systems and methods for responding to natural language speech utterance |
JP2004226741A (ja) * | 2003-01-23 | 2004-08-12 | Nissan Motor Co Ltd | 情報提供装置 |
US20040215461A1 (en) | 2003-04-24 | 2004-10-28 | Visteon Global Technologies, Inc. | Text-to-speech system for generating information announcements |
EP1678707B1 (en) | 2003-10-21 | 2008-07-30 | Philips Intellectual Property & Standards GmbH | Intelligent speech recognition with user interfaces |
US20050267757A1 (en) | 2004-05-27 | 2005-12-01 | Nokia Corporation | Handling of acronyms and digits in a speech recognition and text-to-speech engine |
KR20080043358A (ko) | 2005-08-19 | 2008-05-16 | 그레이스노트 아이엔씨 | 재생 디바이스의 동작을 제어하는 방법 및 시스템 |
US20070260460A1 (en) * | 2006-05-05 | 2007-11-08 | Hyatt Edward C | Method and system for announcing audio and video content to a user of a mobile radio terminal |
WO2008057448A2 (en) | 2006-11-06 | 2008-05-15 | Sci Protek, Inc. | Methods of generating phosphorus fertilizers through the utilization of microbial fermentation technology |
US7917368B2 (en) * | 2008-02-25 | 2011-03-29 | Mitsubishi Electric Research Laboratories, Inc. | Method for interacting with users of speech recognition systems |
US8352268B2 (en) * | 2008-09-29 | 2013-01-08 | Apple Inc. | Systems and methods for selective rate of speech and speech preferences for text to speech synthesis |
-
2009
- 2009-01-08 JP JP2009002346A patent/JP2010160316A/ja not_active Withdrawn
- 2009-12-17 US US12/640,534 patent/US8719028B2/en active Active
-
2010
- 2010-01-08 EP EP10150362.1A patent/EP2207165B1/en active Active
Also Published As
Publication number | Publication date |
---|---|
EP2207165B1 (en) | 2018-10-03 |
US20100174545A1 (en) | 2010-07-08 |
EP2207165A1 (en) | 2010-07-14 |
US8719028B2 (en) | 2014-05-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2010160316A (ja) | 情報処理装置及びテキスト読み上げ方法 | |
US8396714B2 (en) | Systems and methods for concatenation of words in text to speech synthesis | |
US8712776B2 (en) | Systems and methods for selective text to speech synthesis | |
US8355919B2 (en) | Systems and methods for text normalization for text to speech synthesis | |
US8583418B2 (en) | Systems and methods of detecting language and natural language strings for text to speech synthesis | |
US8352268B2 (en) | Systems and methods for selective rate of speech and speech preferences for text to speech synthesis | |
US8352272B2 (en) | Systems and methods for text to speech synthesis | |
US20100082327A1 (en) | Systems and methods for mapping phonemes for text to speech synthesis | |
US20100082328A1 (en) | Systems and methods for speech preprocessing in text to speech synthesis | |
US7454345B2 (en) | Word or collocation emphasizing voice synthesizer | |
JP2011033874A (ja) | 多言語音声認識装置及び多言語音声認識辞書作成方法 | |
JP2007206317A (ja) | オーサリング方法、オーサリング装置およびプログラム | |
JP2003295882A (ja) | 音声合成用テキスト構造、音声合成方法、音声合成装置及びそのコンピュータ・プログラム | |
JP2019109278A (ja) | 音声合成システム、統計モデル生成装置、音声合成装置、音声合成方法 | |
JP4697432B2 (ja) | 音楽再生装置、音楽再生方法及び音楽再生用プログラム | |
JP5693834B2 (ja) | 音声認識装置及び音声認識方法 | |
Louw et al. | A general-purpose IsiZulu speech synthesizer | |
JP2010117528A (ja) | 声質変化判定装置、声質変化判定方法、声質変化判定プログラム | |
JP3576848B2 (ja) | 音声合成法方法、装置、および音声合成プログラムを記録した記録媒体 | |
Braude et al. | All Together Now: The Living Audio Dataset. | |
JP4677869B2 (ja) | 音声出力機能付き情報表示制御装置およびその制御プログラム | |
Pucher et al. | Resources for speech synthesis of Viennese varieties | |
JP5431817B2 (ja) | 楽曲データベース更新装置及び楽曲データベース更新方法 | |
JP2004294577A (ja) | 文字情報音声変換方法 | |
JP2006047866A (ja) | 電子辞書装置およびその制御方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A300 | Application deemed to be withdrawn because no request for examination was validly filed |
Free format text: JAPANESE INTERMEDIATE CODE: A300 Effective date: 20120403 |