JP4150198B2 - 音声合成方法、音声合成装置、プログラム及び記録媒体、並びにロボット装置 - Google Patents
音声合成方法、音声合成装置、プログラム及び記録媒体、並びにロボット装置 Download PDFInfo
- Publication number
- JP4150198B2 JP4150198B2 JP2002073385A JP2002073385A JP4150198B2 JP 4150198 B2 JP4150198 B2 JP 4150198B2 JP 2002073385 A JP2002073385 A JP 2002073385A JP 2002073385 A JP2002073385 A JP 2002073385A JP 4150198 B2 JP4150198 B2 JP 4150198B2
- Authority
- JP
- Japan
- Prior art keywords
- data
- singing voice
- prosody
- creating
- natural
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 230000015572 biosynthetic process Effects 0.000 title claims abstract description 27
- 238000003786 synthesis reaction Methods 0.000 title claims abstract description 27
- 238000001308 synthesis method Methods 0.000 title claims description 11
- 230000002194 synthesizing effect Effects 0.000 claims description 18
- 238000000034 method Methods 0.000 claims description 14
- 230000008569 process Effects 0.000 claims description 10
- 238000000926 separation method Methods 0.000 claims description 6
- 238000012545 processing Methods 0.000 abstract description 46
- 238000004458 analytical method Methods 0.000 abstract description 26
- 230000008451 emotion Effects 0.000 description 66
- 230000006399 behavior Effects 0.000 description 39
- 230000009471 action Effects 0.000 description 35
- 230000007704 transition Effects 0.000 description 30
- 238000010586 diagram Methods 0.000 description 10
- 210000002414 leg Anatomy 0.000 description 9
- 238000001514 detection method Methods 0.000 description 6
- 210000004394 hip joint Anatomy 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 230000001133 acceleration Effects 0.000 description 4
- 238000013473 artificial intelligence Methods 0.000 description 4
- 238000012790 confirmation Methods 0.000 description 4
- 210000002683 foot Anatomy 0.000 description 4
- 241000282412 Homo Species 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000002996 emotional effect Effects 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 230000036528 appetite Effects 0.000 description 2
- 235000019789 appetite Nutrition 0.000 description 2
- 210000000544 articulatio talocruralis Anatomy 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 230000000877 morphologic effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 230000035945 sensitivity Effects 0.000 description 2
- 210000000323 shoulder joint Anatomy 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 210000003857 wrist joint Anatomy 0.000 description 2
- 206010048909 Boredom Diseases 0.000 description 1
- 241000282326 Felis catus Species 0.000 description 1
- 241001465754 Metazoa Species 0.000 description 1
- 206010039740 Screaming Diseases 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000003542 behavioural effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 210000002310 elbow joint Anatomy 0.000 description 1
- 210000000245 forearm Anatomy 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 210000001503 joint Anatomy 0.000 description 1
- 210000000629 knee joint Anatomy 0.000 description 1
- 210000003141 lower extremity Anatomy 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000704 physical effect Effects 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 210000001364 upper extremity Anatomy 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/033—Voice editing, e.g. manipulating the voice of the synthesiser
Description
【発明の属する技術分野】
本発明は、人間の声に近い自然な音声により文章や歌声を合成するための音声合成方法、音声合成装置、プログラム及び記録媒体、並びに音声を出力するロボット装置に関する。
【0002】
【従来の技術】
電気的又は磁気的な作用を用いて人間(生物)の動作に似た運動を行う機械装置を「ロボット」という。我が国においてロボットが普及し始めたのは、1960年代末からであるが、その多くは、工場における生産作業の自動化・無人化等を目的としたマニピュレータや搬送ロボット等の産業用ロボット(Industrial Robot)であった。
【0003】
最近では、人間のパートナーとして生活を支援する、すなわち住環境その他の日常生活上の様々な場面における人的活動を支援する実用ロボットの開発が進められている。このような実用ロボットは、産業用ロボットとは異なり、人間の生活環境の様々な局面において、個々に個性の相違した人間、又は様々な環境への適応方法を自ら学習する能力を備えている。例えば、犬、猫のように4足歩行の動物の身体メカニズムやその動作を模した「ペット型」ロボット、或いは、2足直立歩行を行う人間等の身体メカニズムや動作をモデルにしてデザインされた「人間型」又は「人間形」ロボット(Humanoid Robot)等のロボット装置は、既に実用化されつつある。
【0004】
これらのロボット装置は、産業用ロボットと比較して、エンターテインメント性を重視した様々な動作を行うことができるため、エンターテインメントロボットと呼称される場合もある。また、そのようなロボット装置には、外部からの情報や内部の状態に応じて自律的に動作するものがある。
【0005】
この自律的に動作するロボット装置に用いられる人工知能(AI:artificial intelligence)は、推論・判断等の知的な機能を人工的に実現したものであり、さらに感情や本能等の機能をも人工的に実現することが試みられている。このような人工知能の外部への表現手段としての視覚的な表現手段や聴覚的な表現手段等のうちで、聴覚的なものの一例として、音声を用いることが挙げられる。
【0006】
【発明が解決しようとする課題】
ところで、このようなロボット装置に適用する音声合成装置の合成方式としては、テキスト音声合成方式等が挙げられる。しかし、従来のテキストからの音声合成では、音声合成に必要なパラメータは、テキスト解析の結果に応じて自動的に設定される値であったため、例えば歌詞を単純に読み上げることは可能であったが、声の高さや継続時間長を変えるなど、音符情報を考慮することは困難であった。
【0007】
本発明は、このような従来の実情に鑑みて提案されたものであり、人間の声に近い自然な音声により文章や歌声を合成する音声合成方法、音声合成装置、プログラム及び記録媒体、並びにそのような音声を出力するロボット装置を提供することを目的とする。
【0008】
【課題を解決するための手段】
本発明に係る音声合成方法及び装置は、上述した目的を達成するために、入力されたテキストから歌声タグによって指定された歌声データ部分とそれ以外のテキスト部分とを分離し、上記歌声データについては歌声韻律データを作成し、上記テキスト部分については、解析した結果、当該テキスト部分に所定の単語又は文が存在する場合に、予め人間の発声から抽出された上記所定の単語又は文に対応する自然韻律データを記憶手段から選択し、上記所定の単語又は文以外の上記テキスト部分については音声記号列を作成すると共に当該音声記号列から韻律データを作成し、上記歌声韻律データ、上記自然韻律データ又は上記韻律データに基づいて音声を合成する。
【0010】
また、本発明に係るプログラムは、上述したような音声合成処理をコンピュータに実行させるものであり、本発明に係る記録媒体は、このプログラムが記録されたコンピュータ読み取り可能なものである。
【0011】
また、本発明に係るロボット装置は、上述した目的を達成するために、供給された入力情報に基づいて動作を行う自律型のロボット装置であって、入力されたテキストから歌声タグによって指定された歌声データ部分とそれ以外のテキスト部分とを分離する分離手段と、上記歌声データから歌声韻律データを作成する歌声韻律データ作成手段と、上記テキスト部分を解析し、当該テキスト部分に所定の単語又は文が存在する場合に、予め人間の発声から抽出された上記所定の単語又は文に対応する自然韻律データを記憶手段から選択する自然韻律データ選択手段と、上記所定の単語又は文以外の上記テキスト部分について音声記号列を作成する音声記号列作成手段と、上記音声記号列から韻律データを作成する韻律データ作成手段と、上記歌声韻律データ、上記自然韻律データ又は上記韻律データに基づいて音声を合成する音声合成手段とを備える。
【0012】
【発明の実施の形態】
以下、本発明を適用した具体的な実施の形態について、図面を参照しながら詳細に説明する。
【0013】
先ず、本実施の形態における音声合成装置の概略構成を図1に示す。ここで、この音声合成装置は、少なくとも感情モデル、音声合成手段及び発音手段を有する例えばロボット装置に適用することを想定しているが、これに限定されず、各種ロボット装置や、ロボット以外の各種コンピュータAI(artificial intelligence) 等への適用も可能であることは勿論である。また、以下では、主として日本語の単語或いは文章を合成する場合について説明するが、これに限定されず、種々の言語に適用可能であることは勿論である。
【0014】
図1に示すように、音声合成装置200は、言語処理部210と、音声合成部220とで構成される。ここで、言語処理部210は、タグ処理部211と、歌声合成部212と、言語解析部213と、自然韻律辞書記憶部214と、音声記号生成部215とを有している。また、音声合成部220は、韻律生成部221と、韻律データ調整部222と、音素片記憶部223と、波形生成部224とを有している。
【0015】
言語処理部210において、タグ処理部211は、入力されたテキストを解析し、歌声のタグが付されている部分については、その部分のテキストを歌声合成部212に供給する。また、タグ処理部211は、歌声のタグ以外のタグが付されている部分については、通常のテキスト部分とタグとに分割し、テキスト部分を言語解析部213に供給すると共に、タグの情報を言語解析部213に供給する。入力されたテキストにタグが付されていない場合には、タグ処理部211は、入力されたテキストをそのまま言語解析部213に供給する。なお、詳細は後述するが、歌声のタグは、開始タグと終了タグとで挟まれた歌声データについて、最終的に合成される音声にメロディを付け、歌声として表現することを指定するものであり、その他のタグは、最終的に合成される音声に様々な感情やキャラクタ性等を付与することを指定するものである。
【0016】
歌声合成部212は、テキスト中において歌声のタグで挟まれた歌声データから歌声韻律データを作成する。ここで、歌声データとは、楽譜における各音符の高さ及び長さ、その音符に付与される歌詞、休符、速度や強弱等の音楽表現がタグによって指定されたものである。歌声合成部212は、この歌声データに基づいて、歌詞を表す各音韻のピッチ周期、継続時間長、音量等のパラメータを表現した歌声韻律データを作成する。なお、歌声韻律データを作成する際には、後述するように、ピッチ周期等を短い周期で変化させ、合成される歌声にビブラートを付加するようにしても構わない。歌声合成部212は、この歌声韻律データを波形生成部224に供給する。
【0017】
言語解析部213は、タグ処理部211から供給されたテキスト部分を、図示しない単語辞書記憶部や文法規則記憶部を参照しながら言語処理する。すなわち、単語辞書記憶部には、各単語の品詞情報や、読み、アクセント等の情報が記述された単語辞書が記憶されており、また、文法規則記憶部には、単語辞書記憶部の単語辞書に記述された単語について、単語連鎖に関する制約等の文法規則が記憶されている。そして、言語解析部213は、この単語辞書及び文法規則に基づいて、タグ処理部211から供給されるテキスト部分の形態素解析や構文解析等の解析を行う。ここで、言語解析部213は、自然韻律辞書記憶部214の自然韻律辞書に登録されている単語又は文については、タグ情報を参照しながら、この自然韻律辞書に登録されている自然韻律データを選択し、後述する韻律データ調整部222に供給する。この自然韻律辞書及び自然韻律データについての詳細は後述する。一方、言語処理部213は、自然韻律辞書記憶部214の自然韻律辞書に登録されていない単語又は文については、解析結果を音声記号生成部215に供給する。
【0018】
音声記号生成部215は、アクセント規則及びフレーズ規則を参照しながら、言語解析部213から供給される解析結果に基づいて、テキストに対応する音声記号列を生成する。ここで、アクセント規則とは、アクセントを付与する規則であり、音声記号生成部215は、このアクセント規則に従って、音声記号に、アクセントを表すタグを挿入する。また、フレーズ規則とは、フレーズを決定する際の規則であり、音声記号生成部215は、このフレーズ規則に従って、音声記号に、フレーズを表すタグを挿入する。
【0019】
音声合成部220において、韻律生成部221は、音声記号生成部215から供給された音声記号列に基づいて韻律データを作成し、この韻律データを波形合成部224に供給する。この韻律生成部221は、例えば音声記号列から抽出したアクセント型、文中でのアクセント句の数、文中での当該アクセントの位置、当該アクセント句の音韻数、アクセント句内での当該音韻の位置、当該音韻の種類といった情報を用いて、数量化一類等の統計的手法により当該音韻のピッチ周期、継続時間長、音量等のパラメータを表現した韻律データを生成する。
【0020】
また、韻律生成部221は、アプリケーションによってピッチ周期、話速、音量等が指定されている場合には、これを考慮して韻律データのパラメータの調整を行う。さらに、韻律生成部221は、タグ情報によって、韻律データのパラメータの調整を行い、感情或いはキャラクタ性の伴われた音声を合成可能とすることができる。
【0021】
韻律データ調整部222は、音素片記憶部223から、標準で出力する際の音声の平均ピッチ周期、平均話速、平均音量等のデータを得て、言語解析部212から供給された自然韻律データのパラメータがその平均ピッチ周期等になるように、ピッチ周期、継続時間長、音量の調整を行う。また、韻律データ調整部222は、アプリケーションによってピッチ周期、話速、音量等が指定されている場合には、これを考慮して、自然韻律データのパラメータの調整を行う。
【0022】
波形生成部224は、韻律生成部221から供給された韻律データ及び韻律データ調整部222から供給された自然韻律データ、そして歌声生成部212から供給された歌声韻律データを用いて音声波形を生成する。この波形生成部224は、音素片記憶部223を参照しながら、韻律データ、自然韻律データ又は歌声韻律データに示されるピッチ周期、継続時間長及び音量や、音韻系列等をもとに、なるべくこれに近い音素片データを検索してその部分を切り出して並べ、音声波形データを生成する。すなわち、音素片記憶部223には、例えば、CV(Consonant, Vowel)や、VCV、CVC等の形で音素片データが記憶されており、波形生成部224は、韻律データ、自然韻律データ又は歌声韻律データに基づいて、必要な音素片データを接続し、さらに、ポーズ、アクセント、イントネーション等を適切に付加することで、音声波形データを生成する。
【0023】
得られた音声波形データは、D/A(Digital/Analog)変換器やアンプ等を介してスピーカに送られることにより、実際の音声として発せられる。例えば、ロボット装置である場合には、このような処理が、いわゆるバーチャルロボットにおいてなされて、スピーカを介して発話されるようになる。
【0024】
続いて、以上のような構成を有する音声合成装置200の動作について、図2のフローチャートを用いて説明する。先ずステップS1において、発話するためのテキストが入力され、ステップS2において、タグが解析される。なお、入力されたテキストにタグが付されていない場合には、ステップS2を省略することができる。
【0025】
次にステップS3において、歌声韻律データが作成される。すなわち、テキスト中において歌声の開始及び終了を示すタグで挟まれた歌声データから、歌詞を表す各音韻のピッチ周期、継続時間長、音量等のパラメータを表現した歌声韻律データが作成される。この際、ピッチ周期等を短い周期で変化させることにより、合成される歌声にビブラートを付与するようにしても構わない。なお、入力されたテキストに歌声のタグが付されていない場合には、ステップS3を省略することができる。
【0026】
続いてステップS4において、上述した歌声データ以外のテキスト部分についての言語処理が行われる。すなわち、入力されたテキスト中の歌声データ以外の部分について、上述したように、各単語の品詞情報や、読み、アクセント等の情報が記述された単語辞書や単語連鎖に関する制約等の文法規則に基づいて、形態素解析や構文解析等の解析が行われる。
【0027】
ステップS5では、韻律データ又は自然韻律データが生成される。すなわち、ステップS4で言語処理が行われたテキスト部分において、自然韻律辞書に登録されている単語については、自然韻律辞書に登録されている自然韻律データのうち、例えば上述したタグで指定されたものが選択される。また、自然韻律辞書に登録されてない単語については、音声記号列に変換されてから、韻律データが生成される。
【0028】
ステップS6では、韻律データ又は自然韻律データのパラメータが調整される。具体的には、自然韻律データは、自然韻律辞書に登録した際のピッチ周期、継続時間長、音量等となっているため、音素片データから標準で出力する際の音声の平均ピッチ周期、平均話速、平均音量等のデータを得て、自然韻律データのパラメータが調整される。またステップS6では、タグ情報に基づいて韻律データのパラメータが調整される。これにより、合成される音声に感情或いはキャラクタ性を伴わせることができる。さらにステップS6では、アプリケーションによってピッチ周期、話速、音量等が指定されている場合、これを考慮して、韻律データ又は自然韻律データのパラメータが調整される。
【0029】
最後にステップS7では、韻律データ、自然韻律データ及び歌声韻律データを用いて、音声波形データが生成される。すなわち、韻律データ、自然韻律データ及び歌声韻律データに基づいて、必要な音素片データが接続され、さらに、ポーズ、アクセント、イントネーション等が適切に付加されて、音声波形データが生成される。この音声波形データは、D/A変換器やアンプ等を介してスピーカに送られることにより、文章或いは歌声が実際の音声として発せられる。
【0030】
なお、上述のフローチャートにおける各ステップの順番は、説明の便宜上のものであり、必ずしもこの順番で処理が行われることを示したものではない。すなわち、入力されたテキストにおいて歌声のタグで挟まれた部分については、ステップS3に示した処理が施され、それ以外の部分については、ステップS4乃至ステップS6で示した処理が施される。
【0031】
以上説明したように、本実施の形態における音声合成装置200は、テキスト中の歌声データ部分については、歌詞を表す各音韻のピッチ周期、継続時間長、音量等のパラメータを表現した歌声韻律データを作成する。また、音声合成装置200は、予め自然韻律辞書に種々の単語又は文を登録しておき、テキスト中の歌声データ以外の部分の言語処理を行い、自然韻律辞書に登録されている単語又は文については、この自然韻律辞書に登録されている自然韻律データを選択する。一方、登録されていない単語又は文については、通常のテキスト音声合成と同様に、音声記号列を生成してから、韻律データを生成する。そして、韻律データ、自然韻律データ及び歌声韻律データに基づいて、必要な音素片データを接続し、さらに、ポーズ、アクセント、イントネーション等を適切に付加して、音声波形データを生成する。
【0032】
すなわち、歌声データがテキスト中の他の部分と同じテキスト形式で表現されているため、専用のインターフェースや音声合成エンジンを用いることなく、歌声を発することができる。
【0033】
また、自然韻律辞書に登録されていない単語又は文の韻律データと登録されている単語又は文の自然韻律データとが、ピッチ周期、継続時間長、音量等のパラメータに基づいて接続されるため、より自然性の高い音声を合成することができる。
【0034】
以下、具体例を挙げて音声合成装置200の動作についてさらに詳細に説明するが、説明の便宜上、以下ではテキスト中の歌声データ部分の音声を合成する場合と、それ以外のテキスト部分の音声を合成する場合とを分けて説明する。
【0035】
先ず、歌声データ部分に対応する歌声韻律データを作成する場合について説明する。なお、ここでは合成する歌声の一例として、昔話「桃太郎」の歌の冒頭部分である「ももたろさんももたろさん、」を用いる。
【0036】
歌声データは、例えば以下の表に示すように、歌声データの開始を示すタグ¥song¥と終了を示すタグ¥¥song¥によって挟まれた部分として表される。
【0037】
【表1】
【0038】
この表において、「¥dyna mf¥」は、この歌声の音量がmf(メゾフォルテ)であることを表したものである。また、その次の「¥speed 120¥」は、この歌声が1分間に4分音符120個分のテンポであることを表している。また、実際の歌詞は、例えば「¥G4,4+8¥も」というように表される。ここで「G4」は、音符の高さを示し、「4+8」は、この音符が4分音符1つと8分音符1つとを足した長さ、すなわち付点4分音符であることを示し、「も」は、この音符の歌詞が「も」であることを示している。また、「¥PP,4¥」は、4分休符を表している。このようにして、楽譜における各音符の高さ及び長さ、その音符に付与される歌詞、休符、速度や強弱等の音楽表現が表現される。
【0039】
このように表された歌声データは、歌声合成部212において歌声韻律データに変換される。この歌声韻律データは、例えば以下の表のように表される。
【0040】
【表2】
【0041】
この表において、[LABEL]は、各音韻の継続時間長を表したものである。すなわち、「mo」という音韻は、0サンプルから1000サンプルまでの1000サンプルの継続時間長であり、「oo」という音韻は、1000サンプルから14337サンプルまでの13337サンプルの継続時間長である。また、[PITCH]は、ピッチ周期を点ピッチで表したものである。すなわち、0サンプル及び1000サンプルでのピッチ周期は56サンプルであり、2000サンプルでのピッチ周期は59サンプルである。また、[VOLUME]は、各サンプルでの相対的な音量を表したものである。すなわち、デフォルト値を100%としたときに、0サンプルでは66%の音量であり、72669サンプルでは57%の音量である。このようにして、全ての音韻が表現される。
【0042】
ここで、歌声韻律データを作成する際には、各音韻のピッチ周期や継続時間長を変化させることによって、合成される歌声にビブラートをかけることができる。
【0043】
具体例として、「A4」の高さの音符を一定時間伸ばす場合について説明する。ビブラートをかけない場合の歌声韻律データは、以下の表のように表される。
【0044】
【表3】
【0045】
これに対して、ビブラートをかける場合には、歌声データに以下のようなタグが追加される。
【0046】
【表4】
【0047】
この表において、「¥vib_rat=2000¥」は、この歌声におけるビブラートの幅が2000サンプルであることを表している。また、「¥vib_dep=6¥」は、ビブラートの高低が6%であることを表している。すなわち、基準となるピッチ周期が±6%の範囲で変化する。また、「¥vib_del=1000¥」は、ビブラートの開始までの遅れが1000サンプルであることを表している。すなわち、1000サンプル経過後からビブラートが開始される。また、「¥vib_length=6000¥」は、ビブラート対象となる音符の長さの最小値が6000サンプルであることを表している。すなわち、6000サンプル以上の長さの音符に対してのみビブラートがかけられる。
【0048】
このような歌声データのタグにより、以下に示すような歌声韻律データが作成される。
【0049】
【表5】
【0050】
なお、上述の例では、歌声データのタグによりビブラートが指定されるものとして説明したが、これに限定されるものではなく、音符の長さが所定の閾値を超えた場合に自動的にビブラートをかけるようにしても構わない。
【0051】
次に、歌声データ以外のテキスト部分に対応する韻律データ及び自然韻律データを生成する場合について説明する。なお、ここではテキスト部分の一例として「¥happiness¥ ねえ、今日は天気が良いね。」を用い、このテキスト中の「ねえ」の部分が自然韻律辞書に登録されているものとして説明する。ここで、¥happiness¥は、そのテキストを喜び(happiness)の感情を伴わせて合成することを意味するタグである。なお、タグがこの例に限定されないことは勿論であり、その他の感情を指定するものであっても構わない。また、感情に限らず、キャラクタを指定するタグが付されていてもよく、さらには、タグが全く付されていなくても構わない。
【0052】
通常のタグが付されたテキスト部分は、タグ処理部211(図1)において、タグ(¥happiness¥)とテキスト(「ねえ、今日は天気が良いね。」)とに分離され、このタグの情報とテキストとが言語解析部213に供給される。
【0053】
そして、テキスト部分は、言語解析部213において、自然韻律辞書記憶部214の自然韻律辞書を参照しながら言語解析が行われる。ここで、自然韻律辞書は、例えば図3のように構成される。図3に示すように、登録されている単語毎に、標準の自然韻律データのほか、例えば平静(calm)、怒り(anger)、悲しみ(sadness)、喜び(happiness)、落ち着き(comfort)等の各感情や、各キャラクタに対応する自然韻律データが用意される。
【0054】
なお、感情の例がこれらに限定されないことは勿論であり、また、各単語について全ての感情に対応する自然韻律データを用意しておかなければならないわけでもない。指定された感情等に対応する自然韻律データが登録されていない場合には、標準の自然韻律データを選択してもよく、また、類似する感情等の自然韻律データを選択するようにしても構わない。例えば、驚きと怖れ、退屈と悲しみなどのある特定の感情に関しては、発せられる音声の音響特性が類似することが知られているため、代替として用いるようにしても構わない。
【0055】
本具体例では、テキスト部分にタグ(¥happiness¥)が付されているため、喜び(happiness)に対応する「ねえ」の自然韻律データが選択される。この自然韻律データは、例えば以下の表のように表される。
【0056】
【表6】
【0057】
一方、「今日は天気が良いね。」の部分については、自然韻律辞書に登録されていないため、音声記号生成部215に送られ、例えば「Ko'5oowa//te'4xxkiva//yo'2iine..」というような音声記号列に変換される。ここで、タグ「'5」のうちの「’」は、アクセントを表し、続く数字の5は、アクセントの強さを意味する。また、タグ「//」は、アクセント句の区切りを表す。
【0058】
このようにして生成された音声記号列は、韻律生成部221において韻律データに変換される。この韻律データは、上述した自然韻律データと同様な構成を有するものであり、各音韻の継続時間長を表した[LABEL]と、ピッチ周期を点ピッチで表した[PITCH]と、各サンプルでの相対的な音量を表した[VOLUME]とで表現される。
【0059】
ここで上述したように、このテキスト部分にはタグ(¥happiness¥)が付されているため、「ねえ、」の部分と同様に、「今日は天気が良いね。」の部分についても、喜びの感情を表現する必要がある。
【0060】
そこで、本実施の形態では、以下の表に示すような、怒り、悲しみ、喜び及び落ち着き等の各感情に対応して予め決定されているパラメータ(少なくとも各音韻の継続時間長(DUR)、ピッチ(PITCH)及び音量(VOLUME)等)の組合せテーブルを各感情の特質に基づいて予め生成しておき、このテーブルを韻律生成部221に保持しておく。ここで、以下のテーブルにおけるピッチの単位はヘルツであり、継続時間長の単位はミリ秒である。
【0061】
【表7】
【0062】
【表8】
【0063】
【表9】
【0064】
【表10】
【0065】
【表11】
このようにして予め用意しておいた各感情に対応されるパラメータからなるテーブルを実際に判別された感情に応じて切り換え、このテーブルに基づいてパラメータを変更することにより、感情を表現することが可能とされる。
【0066】
具体的には、欧州特許出願第01401880.1号の明細書及び図面に記載された技術を応用することができる。
【0067】
例えば発話される単語に含まれる音韻の平均ピッチ周期がMEANPITCHの値に基づいて計算される値になるように各音韻のピッチ周期を変化させ、また、ピッチ周期の分散値がPITCHVARの値に基づいて計算される値になるように制御する。
【0068】
同様に、発話される単語に含まれる音韻の平均継続時間長がMEANDURの値で計算される値になるように各音韻の継続時間長を変化させ、また、継続時間長の分散値がDURVARの値になるように制御する。
【0069】
また、各音韻の音量についても、各感情のテーブルにおけるVOLUMEで指定される値に制御する。
【0070】
さらに、このテーブルに基づいて各アクセント句のcontour(輪郭)を変更することもできる。すなわち、DEFAULTCONTOUR=risingである場合には、アクセント句のピッチの傾きが上り調子となり、DEFAULTCONTOUR=fallingである場合には、反対に下り調子となる。
【0071】
なお、アプリケーションによってピッチ周期、話速、音量等が設定されている場合には、このデータによっても韻律データのピッチ周期、継続時間長、音量といったパラメータの調整が行われる。
【0072】
一方、「ねえ、」の部分の自然韻律データは、韻律データ調整部222において、ピッチ周期、継続時間長、音量といったパラメータの調整が行われる。すなわち、自然韻律データは、自然韻律辞書に登録した際のピッチ周期、継続時間長、音量等となっているため、波形生成部224が用いる音素片データから、標準で出力する際の音声の平均ピッチ周期、平均話速、平均音量等のデータを得て、自然韻律データのパラメータの調整が行われる。
【0073】
また、韻律データの平均ピッチ周期が上述したように喜びの感情に対応したテーブルの平均ピッチ周期となるように変更されているため、自然韻律データについても、このテーブルの平均ピッチ周期となるように調整される。
【0074】
さらに、アプリケーションによってピッチ周期、話速、音量等が設定されている場合には、このデータによっても自然韻律データのパラメータの調整が行われる。
【0075】
以上のようにして得られた歌声韻律データと、パラメータの変更された韻律データ及び自然韻律データとは、波形生成部224に送られ、これらに基づいて音声波形データが生成される。すなわち、韻律データ、自然韻律データ及び歌声韻律データに基づいて、必要な音素片データが接続され、さらに、ポーズ、アクセント、イントネーション等が適切に付加されて、音声波形データが生成される。この音声波形データは、D/A変換器やアンプ等を介してスピーカに送られることにより、実際の音声として発せられる。
【0076】
なお、上述の説明では、歌声合成部212は、作成した歌声韻律データを波形生成部224に供給するものとして説明したが、これに限定されるものではなく、例えば韻律データ調整部222に供給し、パラメータの調整を行うようにしても構わない。これにより、例えば男声の場合にはピッチを1オクターブ下げるなどすることができる。
【0077】
また、以上の説明では、歌声データ以外のテキスト部分の合成音声に対して、タグで指定された感情又はキャラクタ性を伴わせる例について説明したが、これに限定されるものではなく、外部から与えられた感情状態情報やキャラクタ情報によって指定された感情又はキャラクタ性を合成音声に伴わせるようにしても構わない。
【0078】
感情を例に挙げれば、例えばロボット装置の場合には、行動モデルとして、内部に確率状態遷移モデル(例えば、後述するように、状態遷移表を有するモデル)を有しており、各状態が認識結果や感情や本能の値によって異なる遷移確率テーブルを持ち、その確率に従って次の状態へ遷移し、この遷移に関連付けられた行動を出力する。
【0079】
感情による喜びや悲しみの表現行動がこの確率状態遷移モデル(或いは確率遷移表)に記述されており、この表現行動の1つとして、音声による(発話による)感情表現が含まれている。
【0080】
すなわち、このロボット装置では、感情モデルの感情状態を表すパラメータを行動モデルが参照することにより決定される行動の1つの要素として感情表現があり、行動決定部の一部機能として、感情状態の判別が行われることになる。そして、この判別された感情状態情報が上述した言語解析部212及び韻律生成部221に与えられる。これにより、その感情に応じた自然韻律データが選択され、また、その感情に応じて韻律データ及び自然韻律データのパラメータが調整される。
【0081】
以下、このようなロボット装置の一例として、2本足の自律型ロボットに本発明を適用した例について、図面を参照しながら詳細に説明する。この人間型ロボット装置のソフトウェアに感情・本能モデルを導入し、より人間に近い行動を得ることができるようにしている。本実施の形態では実際に動作をするロボットを用いているが、発話はスピーカを持つコンピュータ・システムであれば容易に実現可能であり、人間と機械とのインタラクション(或いは対話)の場で有効な機能である。したがって本発明の適用範囲はロボットシステムに限られるものではない。
【0082】
具体例として図4に示す人間型のロボット装置は、住環境その他の日常生活上の様々な場面における人的活動を支援する実用ロボットであり、内部状態(怒り、悲しみ、喜び、楽しみ等)に応じて行動できるほか、人間が行う基本的な動作を表出できるエンターテインメントロボットである。
【0083】
図4に示すように、ロボット装置1は、体幹部ユニット2の所定の位置に頭部ユニット3が連結されると共に、左右2つの腕部ユニット4R/Lと、左右2つの脚部ユニット5R/Lが連結されて構成されている(但し、R及びLの各々は、右及び左の各々を示す接尾辞である。以下において同じ。)。
【0084】
このロボット装置1が具備する関節自由度構成を図5に模式的に示す。頭部ユニット3を支持する首関節は、首関節ヨー軸101と、首関節ピッチ軸102と、首関節ロール軸103という3自由度を有している。
【0085】
また、上肢を構成する各々の腕部ユニット4R/Lは、、肩関節ピッチ軸107と、肩関節ロール軸108と、上腕ヨー軸109と、肘関節ピッチ軸110と、前腕ヨー軸111と、手首関節ピッチ軸112と、手首関節ロール軸113と、手部114とで構成される。手部114は、実際には、複数本の指を含む多関節・多自由度構造体である。ただし、手部114の動作は、ロボット装置1の姿勢制御や歩行制御に対する寄与や影響が少ないので、本明細書ではゼロ自由度と仮定する。したがって、各腕部は7自由度を有するとする。
【0086】
また、体幹部ユニット2は、体幹ピッチ軸104と、体幹ロール軸105と、体幹ヨー軸106という3自由度を有する。
【0087】
また、下肢を構成する各々の脚部ユニット5R/Lは、股関節ヨー軸115と、股関節ピッチ軸116と、股関節ロール軸117と、膝関節ピッチ軸118と、足首関節ピッチ軸119と、足首関節ロール軸120と、足部121とで構成される。本明細書中では、股関節ピッチ軸116と股関節ロール軸117の交点は、ロボット装置1の股関節位置を定義する。人体の足部121は、実際には多関節・多自由度の足底を含んだ構造体であるが、ロボット装置1の足底は、ゼロ自由度とする。したがって、各脚部は、6自由度で構成される。
【0088】
以上を総括すれば、ロボット装置1全体としては、合計で3+7×2+3+6×2=32自由度を有することになる。ただし、エンターテインメント向けのロボット装置1が必ずしも32自由度に限定されるわけではない。設計・制作上の制約条件や要求仕様等に応じて、自由度すなわち関節数を適宜増減することができることはいうまでもない。
【0089】
上述したようなロボット装置1が持つ各自由度は、実際にはアクチュエータを用いて実装される。外観上で余分な膨らみを排してヒトの自然体形状に近似させること、2足歩行という不安定構造体に対して姿勢制御を行うことなどの要請から、アクチュエータは小型且つ軽量であることが好ましい。
【0090】
ロボット装置1の制御システム構成を図6に模式的に示す。図6に示すように、体幹部ユニット2には、CPU(Central Processing Unit)10、DRAM(Dynamic Random Access Memory)11、フラッシュROM(Read 0nly Memory)12、PC(Personal Computer)カードインターフェース回路13及び信号処理回路14が内部バス15を介して相互に接続されることにより形成されたコントロール部16と、このロボット装置1の動力源としてのバッテリ17とが収納されている。また、体幹部ユニット2には、ロボット装置1の向きや動きの加速度を検出するための角速度センサ18及び加速度センサ19なども収納されている。
【0091】
また、頭部ユニット3には、外部の状況を撮像するための左右の「眼」に相当するCCD(Charge Coupled Device)カメラ20R/Lと、そのCCDカメラ20R/Lからの画像データに基づいてステレオ画像データを作成するための画像処理回路21と、使用者からの「撫でる」や「叩く」といった物理的な働きかけにより受けた圧力を検出するためのタッチセンサ22と、各脚部ユニット5R/Lの足底が着床したか否かを検出する接地確認センサ23R/Lと、姿勢を計測する姿勢センサ24と、前方に位置する物体までの距離を測定するための距離センサ25と、外部音を集音するためのマイクロホン26と、スピーチ等の音声を出力するためのスピーカ27と、LED(Light Emitting Diode)28などがそれぞれ所定位置に配置されている。
【0092】
ここで、接地確認センサ23R/Lは、例えば足底に設置された近接センサ又はマイクロ・スイッチなどで構成される。また、姿勢センサ24は、例えば、加速度センサとジャイロ・センサの組み合わせによって構成される。接地確認センサ23R/Lの出力によって、歩行・走行などの動作期間中において、左右の各脚部ユニット5R/Lが現在立脚又は遊脚何れの状態であるかを判別することができる。また、姿勢センサ24の出力により、体幹部分の傾きや姿勢を検出することができる。
【0093】
さらに、体幹部ユニット2、腕部ユニット4R/L、脚部ユニット5R/Lの各関節部分などにはそれぞれ上述した自由度数分のアクチュエータ291〜29n及びポテンショメータ301〜30nが配設されている。例えば、アクチュエータ291〜29nはサーボモータを構成として有している。サーボモータの駆動により、例えば腕部ユニット4R/L及び脚部ユニット5R/Lが制御されて、目標の姿勢或いは動作に遷移する。
【0094】
そして、これら角速度センサ18、加速度センサ19、タッチセンサ22、接地確認センサ23R/L、姿勢センサ24、距離センサ25、マイクロホン26、スピーカ27及び各ポテンショメータ301〜30nなどの各種センサ並びにLED28及び各アクチュエータ291 〜29nは、それぞれ対応するハブ311〜31nを介してコントロール部16の信号処理回路14と接続され、バッテリ17及び画像処理回路21は、それぞれ信号処理回路14と直接接続されている。
【0095】
信号処理回路l4は、上述の各センサから供給されるセンサデータや画像データ及び音声データを順次取り込み、これらをそれぞれ内部バス15を介してDRAM11内の所定位置に順次格納する。また信号処理回路14は、これと共にバッテリ17から供給されるバッテリ残量を表すバッテリ残量データを順次取り込み、これをDRAM11内の所定位置に格納する。
【0096】
このようにしてDRAM11に格納された各センサデータ、画像データ、音声データ及びバッテリ残量データは、この後CPU10がこのロボット装置1の動作制御を行う際に利用される。
【0097】
実際上CPU10は、ロボット装置1の電源が投入された初期時、体幹部ユニット2の図示しないPCカードスロットに装填されたメモリカード32又はフラッシュROM12に格納された制御プログラムをPCカードインターフェース回路13を介して又は直接読み出し、これをDRAM11に格納する。
【0098】
また、CPU10は、この後上述のように信号処理回路14よりDRAM11に順次格納される各センサデータ、画像データ、音声データ及びバッテリ残量データに基づいて自己及び周囲の状況や、使用者からの指示及び働きかけの有無などを判断する。
【0099】
さらに、CPU10は、この判断結果及びDRAM11に格納した制御プログラムに基づいて続く行動を決定すると共に、当該決定結果に基づいて必要なアクチュエータ291〜29nを駆動させることにより、各腕部ユニット4R/Lを上下左右に振らせたり、各脚部ユニット5R/Lを駆動させて歩行させるなどの行動を行わせる。
【0100】
また、この際CPU10は、必要に応じて音声データを生成し、これを信号処理回路14を介して音声信号としてスピーカ27に与えることにより当該音声信号に基づく音声を外部に出力させたり、上述のLED28を点灯、消灯又は点滅させる。
【0101】
このようにしてこのロボット装置1においては、自己及び周囲の状況や、使用者からの指示及び働きかけに応じて自律的に行動し得るようになされている。
【0102】
ところで、このロボット装置1は、内部状態に応じて自律的に行動することができる。そこで、ロボット装置1における制御プログラムのソフトウェア構成例について、図7乃至図12を用いて説明する。なお、この制御プログラムは、上述したように、予めフラッシュROM12に格納されており、ロボット装置1の電源投入初期時において読み出される。
【0103】
図7において、デバイス・ドライバ・レイヤ40は、制御プログラムの最下位層に位置し、複数のデバイス・ドライバからなるデバイス・ドライバ・セット41から構成されている。この場合、各デバイス・ドライバは、CCDカメラやタイマ等の通常のコンピュータで用いられるハードウェアに直接アクセスすることを許されたオブジェクトであり、対応するハードウェアからの割り込みを受けて処理を行う。
【0104】
また、ロボティック・サーバ・オブジェクト42は、デバイス・ドライバ・レイヤ40の最下位層に位置し、例えば上述の各種センサやアクチュエータ281〜28n等のハードウェアにアクセスするためのインターフェースを提供するソフトウェア群でなるバーチャル・ロボット43と、電源の切換えなどを管理するソフトウェア群でなるパワーマネージャ44と、他の種々のデバイス・ドライバを管理するソフトウェア群でなるデバイス・ドライバ・マネージャ45と、ロボット装置1の機構を管理するソフトウェア群でなるデザインド・ロボット46とから構成されている。
【0105】
マネージャ・オブジェクト47は、オブジェクト・マネージャ48及びサービス・マネージャ49から構成されている。オブジェクト・マネージャ48は、ロボティック・サーバ・オブジェクト42、ミドル・ウェア・レイヤ50、及びアプリケーション・レイヤ51に含まれる各ソフトウェア群の起動や終了を管理するソフトウェア群であり、サービス・マネージャ49は、メモリカードに格納されたコネクションファイルに記述されている各オブジェクト間の接続情報に基づいて各オブジェクトの接続を管理するソフトウェア群である。
【0106】
ミドル・ウェア・レイヤ50は、ロボティック・サーバ・オブジェクト42の上位層に位置し、画像処理や音声処理などのこのロボット装置1の基本的な機能を提供するソフトウェア群から構成されている。また、アプリケーション・レイヤ51は、ミドル・ウェア・レイヤ50の上位層に位置し、当該ミドル・ウェア・レイヤ50を構成する各ソフトウェア群によって処理された処理結果に基づいてロボット装置1の行動を決定するためのソフトウェア群から構成されている。
【0107】
なお、ミドル・ウェア・レイヤ50及びアプリケーション・レイヤ51の具体なソフトウェア構成をそれぞれ図8に示す。
【0108】
ミドル・ウェア・レイヤ50は、図8に示すように、騒音検出用、温度検出用、明るさ検出用、音階認識用、距離検出用、姿勢検出用、タッチセンサ用、動き検出用及び色認識用の各信号処理モジュール60〜68並びに入力セマンティクスコンバータモジュール69などを有する認識系70と、出力セマンティクスコンバータモジュール78並びに姿勢管理用、トラッキング用、モーション再生用、歩行用、転倒復帰用、LED点灯用及び音再生用の各信号処理モジュール71〜77などを有する出力系79とから構成されている。
【0109】
認識系70の各信号処理モジュール60〜68は、ロボティック・サーバ・オブジェクト42のバーチャル・ロボット43によりDRAMから読み出される各センサデータや画像データ及び音声データのうちの対応するデータを取り込み、当該データに基づいて所定の処理を施して、処理結果を入力セマンティクスコンバータモジュール69に与える。ここで、例えば、バーチャル・ロボット43は、所定の通信規約によって、信号の授受或いは変換をする部分として構成されている。
【0110】
入力セマンティクスコンバータモジュール69は、これら各信号処理モジュール60〜68から与えられる処理結果に基づいて、「うるさい」、「暑い」、「明るい」、「ボールを検出した」、「転倒を検出した」、「撫でられた」、「叩かれた」、「ドミソの音階が聞こえた」、「動く物体を検出した」又は「障害物を検出した」などの自己及び周囲の状況や、使用者からの指令及び働きかけを認識し、認識結果をアプリケーション・レイヤ41に出力する。
【0111】
アプリケーション・レイヤ51は、図9に示すように、行動モデルライブラリ80、行動切換モジュール81、学習モジュール82、感情モデル83及び本能モデル84の5つのモジュールから構成されている。
【0112】
行動モデルライブラリ80には、図10に示すように、「バッテリ残量が少なくなった場合」、「転倒復帰する」、「障害物を回避する場合」、「感情を表現する場合」、「ボールを検出した場合」などの予め選択されたいくつかの条件項目にそれぞれ対応させて、それぞれ独立した行動モデルが設けられている。
【0113】
そして、これら行動モデルは、それぞれ入力セマンティクスコンバータモジュール69から認識結果が与えられたときや、最後の認識結果が与えられてから一定時間が経過したときなどに、必要に応じて後述のように感情モデル83に保持されている対応する情動のパラメータ値や、本能モデル84に保持されている対応する欲求のパラメータ値を参照しながら続く行動をそれぞれ決定し、決定結果を行動切換モジュール81に出力する。
【0114】
なお、この実施の形態の場合、各行動モデルは、次の行動を決定する手法として、図11に示すような1つのノード(状態)NODE0〜NODEnから他のどのノードNODE0〜NODEnに遷移するかを各ノードNODE0〜NODEnに間を接続するアークARC1〜ARCn1に対してそれぞれ設定された遷移確率P1〜Pnに基づいて確率的に決定する有限確率オートマトンと呼ばれるアルゴリズムを用いる。
【0115】
具体的に、各行動モデルは、それぞれ自己の行動モデルを形成するノードNODE0〜NODEnにそれぞれ対応させて、これらノードNODE0〜NODEn毎に図12に示すような状態遷移表90を有している。
【0116】
この状態遷移表90では、そのノードNODE0〜NODEnにおいて遷移条件とする入力イベント(認識結果)が「入力イベント名」の列に優先順に列記され、その遷移条件についてのさらなる条件が「データ名」及び「データ範囲」の列における対応する行に記述されている。
【0117】
したがって、図12の状態遷移表90で表されるノードNODE100では、「ボールを検出(BALL)」という認識結果が与えられた場合に、当該認識結果とともに与えられるそのボールの「大きさ(SIZE)」が「0から1000」の範囲であることや、「障害物を検出(OBSTACLE)」という認識結果が与えられた場合に、当該認識結果とともに与えられるその障害物までの「距離(DISTANCE)」が「0から100」の範囲であることが他のノードに遷移するための条件となっている。
【0118】
また、このノードNODE100では、認識結果の入力がない場合においても、行動モデルが周期的に参照する感情モデル83及び本能モデル84にそれぞれ保持された各情動及び各欲求のパラメータ値のうち、感情モデル83に保持された「喜び(Joy)」、「驚き(Surprise)」又は「悲しみ(Sadness)」の何れかのパラメータ値が「50から100」の範囲であるときには他のノードに遷移することができるようになっている。
【0119】
また、状態遷移表90では、「他のノードヘの遷移確率」の欄における「遷移先ノード」の行にそのノードNODE0〜NODEnから遷移できるノード名が列記されているとともに、「入力イベント名」、「データ名」及び「データの範囲」の列に記述された全ての条件が揃ったときに遷移できる他の各ノードNODE0〜NODEnへの遷移確率が「他のノードヘの遷移確率」の欄内の対応する箇所にそれぞれ記述され、そのノードNODE0〜NODEnに遷移する際に出力すべき行動が「他のノードヘの遷移確率」の欄における「出力行動」の行に記述されている。なお、「他のノードヘの遷移確率」の欄における各行の確率の和は100[%]となっている。
【0120】
したがって、図12の状態遷移表90で表されるノードNODE100では、例えば「ボールを検出(BALL)」し、そのボールの「SIZE(大きさ)」が「0から1000」の範囲であるという認識結果が与えられた場合には、「30[%]」の確率で「ノードNODE120(node 120)」に遷移でき、そのとき「ACTION1」の行動が出力されることとなる。
【0121】
各行動モデルは、それぞれこのような状態遷移表90として記述されたノードNODE0〜 NODEnが幾つも繋がるようにして構成されており、入力セマンティクスコンバータモジュール69から認識結果が与えられたときなどに、対応するノードNODE0〜NODEnの状態遷移表を利用して確率的に次の行動を決定し、決定結果を行動切換モジュール81に出力するようになされている。
【0122】
図9に示す行動切換モジュール81は、行動モデルライブラリ80の各行動モデルからそれぞれ出力される行動のうち、予め定められた優先順位の高い行動モデルから出力された行動を選択し、当該行動を実行すべき旨のコマンド(以下、行動コマンドという。)をミドル・ウェア・レイヤ50の出力セマンティクスコンバータモジュール78に送出する。なお、この実施の形態においては、図10において下側に表記された行動モデルほど優先順位が高く設定されている。
【0123】
また、行動切換モジュール81は、行動完了後に出力セマンティクスコンバータモジュール78から与えられる行動完了情報に基づいて、その行動が完了したことを学習モジュール82、感情モデル83及び本能モデル84に通知する。
【0124】
一方、学習モジュール82は、入力セマンティクスコンバータモジュール69から与えられる認識結果のうち、「叩かれた」や「撫でられた」など、使用者からの働きかけとして受けた教示の認識結果を入力する。
【0125】
そして、学習モジュール82は、この認識結果及び行動切換モジュール71からの通知に基づいて、「叩かれた(叱られた)」ときにはその行動の発現確率を低下させ、「撫でられた(誉められた)」ときにはその行動の発現確率を上昇させるように、行動モデルライブラリ70における対応する行動モデルの対応する遷移確率を変更する。
【0126】
他方、感情モデル83は、「喜び(Joy)」、「悲しみ(Sadness)」、「怒り(Anger)」、「驚き(Surprise)」、「嫌悪(Disgust)」及び「恐れ(Fear)」の合計6つの情動について、各情動毎にその情動の強さを表すパラメータを保持している。そして、感情モデル83は、これら各情動のパラメータ値を、それぞれ入力セマンティクスコンバータモジュール69から与えられる「叩かれた」及び「撫でられた」などの特定の認識結果や、経過時間及び行動切換モジュール81からの通知などに基づいて周期的に更新する。
【0127】
具体的には、感情モデル83は、入力セマンティクスコンバータモジュール69から与えられる認識結果と、そのときのロボット装置1の行動と、前回更新してからの経過時間となどに基づいて所定の演算式により算出されるそのときのその情動の変動量を△E[t]、現在のその情動のパラメータ値をE[t]、その情動の感度を表す係数をkeとして、(1)式によって次の周期におけるその情動のパラメータ値E[t+1]を算出し、これを現在のその情動のパラメータ値E[t]と置き換えるようにしてその情動のパラメータ値を更新する。また、感情モデル83は、これと同様にして全ての情動のパラメータ値を更新する。
【0128】
【数1】
【0129】
なお、各認識結果や出力セマンティクスコンバータモジュール78からの通知が各情動のパラメータ値の変動量△E[t]にどの程度の影響を与えるかは予め決められており、例えば「叩かれた」といった認識結果は「怒り」の情動のパラメータ値の変動量△E[t]に大きな影響を与え、「撫でられた」といった認識結果は「喜び」の情動のパラメータ値の変動量△E[t]に大きな影響を与えるようになっている。
【0130】
ここで、出力セマンティクスコンバータモジュール78からの通知とは、いわゆる行動のフィードバック情報(行動完了情報)であり、行動の出現結果の情報であり、感情モデル83は、このような情報によっても感情を変化させる。これは、例えば、「叫ぶ」といった行動により怒りの感情レベルが下がるといったようなことである。なお、出力セマンティクスコンバータモジュール78からの通知は、上述した学習モジュール82にも入力されており、学習モジュール82は、その通知に基づいて行動モデルの対応する遷移確率を変更する。
【0131】
なお、行動結果のフィードバックは、行動切換モジュール81の出力(感情が付加された行動)によりなされるものであってもよい。
【0132】
一方、本能モデル84は、「運動欲(exercise)」、「愛情欲(affection)」、「食欲(appetite)」及び「好奇心(curiosity)」の互いに独立した4つの欲求について、これら欲求毎にその欲求の強さを表すパラメータを保持している。そして、本能モデル84は、これらの欲求のパラメータ値を、それぞれ入力セマンティクスコンバータモジュール69から与えられる認識結果や、経過時間及び行動切換モジュール81からの通知などに基づいて周期的に更新する。
【0133】
具体的には、本能モデル84は、「運動欲」、「愛情欲」及び「好奇心」については、認識結果、経過時間及び出力セマンティクスコンバータモジュール78からの通知などに基づいて所定の演算式により算出されるそのときのその欲求の変動量をΔI[k]、現在のその欲求のパラメータ値をI[k]、その欲求の感度を表す係数kiとして、所定周期で(2)式を用いて次の周期におけるその欲求のパラメータ値I[k+1]を算出し、この演算結果を現在のその欲求のパラメータ値I[k]と置き換えるようにしてその欲求のパラメータ値を更新する。また、本能モデル84は、これと同様にして「食欲」を除く各欲求のパラメータ値を更新する。
【0134】
【数2】
【0135】
なお、認識結果及び出力セマンティクスコンバータモジュール78からの通知などが各欲求のパラメータ値の変動量△I[k]にどの程度の影響を与えるかは予め決められており、例えば出力セマンティクスコンバータモジュール78からの通知は、「疲れ」のパラメータ値の変動量△I[k]に大きな影響を与えるようになっている。
【0136】
なお、本実施の形態においては、各情動及び各欲求(本能)のパラメータ値がそれぞれ0から100までの範囲で変動するように規制されており、また係数ke、kiの値も各情動及び各欲求毎に個別に設定されている。
【0137】
一方、ミドル・ウェア・レイヤ50の出力セマンティクスコンバータモジュール78は、図8に示すように、上述のようにしてアプリケーション・レイヤ51の行動切換モジュール81から与えられる「前進」、「喜ぶ」、「話す」又は「トラッキング(ボールを追いかける)」といった抽象的な行動コマンドを出力系79の対応する信号処理モジュール71〜77に与える。
【0138】
そしてこれら信号処理モジュール71〜77は、行動コマンドが与えられると当該行動コマンドに基づいて、その行動をするために対応するアクチュエータに与えるべきサーボ指令値や、スピーカから出力する音の音声データ及び又はLEDに与える駆動データを生成し、これらのデータをロボティック・サーバ・オブジェクト42のバーチャル・ロボット43及び信号処理回路を順次介して対応するアクチュエータ又はスピーカ又はLEDに順次送出する。
【0139】
このようにしてロボット装置1は、上述した制御プログラムに基づいて、自己(内部)及び周囲(外部)の状況や、使用者からの指示及び働きかけに応じた自律的な行動ができる。
【0140】
このような制御プログラムは、ロボット装置が読取可能な形式で記録された記録媒体を介して提供される。制御プログラムを記録する記録媒体としては、磁気読取方式の記録媒体(例えば、磁気テープ、フレキシブルディスク、磁気カード)、光学読取方式の記録媒体(例えば、CD−ROM、MO、CD−R、DVD)等が考えられる。記録媒体には、半導体メモリ(いわゆるメモリカード(矩形型、正方形型など形状は問わない。)、ICカード)等の記憶媒体も含まれる。また、制御プログラムは、いわゆるインターネット等を介して提供されてもよい。
【0141】
これらの制御プログラムは、専用の読込ドライバ装置、又はパーソナルコンピュータ等を介して再生され、有線又は無線接続によってロボット装置1に伝送されて読み込まれる。また、ロボット装置1は、半導体メモリ、又はICカード等の小型化された記憶媒体のドライブ装置を備える場合、これら記憶媒体から制御プログラムを直接読み込むこともできる。
【0142】
以上のように構成されたロボット装置1において、上述した音声合成のアルゴリズムは、図8中の音再生モジュール77として実装される。音再生モジュール77では、上位の部分(例えば、行動モデル)にて決定された音出力コマンド(例えば、「喜びで発話せよ」又は「歌を歌え」など)を受け、実際の音声波形データを生成し、順にバーチャルロボット43のスピーカデバイスに対してデータを送信する。これによりロボット装置1は、図6に示すスピーカ27を介して、実際の人間のように感情表現がなされた発話文や歌声を発することができ、エンターテインメント性が向上すると共に、人間との親密性が高められる。
【0143】
なお、本発明は上述した実施の形態のみに限定されるものではなく、本発明の要旨を逸脱しない範囲において種々の変更が可能であることは勿論である。
【0144】
例えば、上述の実施の形態では、歌声データがテキスト中の歌声タグによって指定されており、この歌声データがタグ処理部で分離されるものとして説明したが、これに限定されるものではなく、単に歌声を表す所定の書式の歌声データを入力し、この歌声データから作成された歌声韻律データに基づいて音声を合成するようにしても構わない。これにより、より人間の声に近い自然な音声によって歌声を合成することが可能となる。
【0145】
【発明の効果】
以上詳細に説明したように、本発明に係る音声合成方法及び装置によれば、入力されたテキストから歌声タグによって指定された歌声データ部分とそれ以外のテキスト部分とを分離し、上記歌声データについては歌声韻律データを作成し、上記テキスト部分については、解析した結果、当該テキスト部分に所定の単語又は文が存在する場合に、予め人間の発声から抽出された上記所定の単語又は文に対応する自然韻律データを記憶手段から選択し、上記所定の単語又は文以外の上記テキスト部分については音声記号列を作成すると共に当該音声記号列から韻律データを作成し、上記歌声韻律データ、上記自然韻律データ又は上記韻律データに基づいて音声を合成することにより、より人間の声に近い自然な音声によって文章や歌声を合成することが可能となる。
【0147】
また、本発明に係るプログラムは、上述したような音声合成処理をコンピュータに実行させるものであり、本発明に係る記録媒体は、このプログラムが記録されたコンピュータ読み取り可能なものである。
【0148】
このようなプログラム及び記録媒体によれば、入力されたテキストから歌声タグによって指定された歌声データ部分とそれ以外のテキスト部分とを分離し、上記歌声データについては歌声韻律データを作成し、上記テキスト部分については、解析した結果、当該テキスト部分に所定の単語又は文が存在する場合に、予め人間の発声から抽出された上記所定の単語又は文に対応する自然韻律データを記憶手段から選択し、上記所定の単語又は文以外の上記テキスト部分については音声記号列を作成すると共に当該音声記号列から韻律データを作成し、上記歌声韻律データ、上記自然韻律データ又は上記韻律データに基づいて音声を合成することにより、より人間の声に近い自然な音声によって文章や歌声を合成することが可能となる。
【0149】
また、本発明に係るロボット装置によれば、供給された入力情報に基づいて動作を行う自律型のロボット装置であって、入力されたテキストから歌声タグによって指定された歌声データ部分とそれ以外のテキスト部分とを分離する分離手段と、上記歌声データから歌声韻律データを作成する歌声韻律データ作成手段と、上記テキスト部分を解析し、当該テキスト部分に所定の単語又は文が存在する場合に、予め人間の発声から抽出された上記所定の単語又は文に対応する自然韻律データを記憶手段から選択する自然韻律データ選択手段と、上記所定の単語又は文以外の上記テキスト部分について音声記号列を作成する音声記号列作成手段と、上記音声記号列から韻律データを作成する韻律データ作成手段と、上記歌声韻律データ、上記自然韻律データ又は上記韻律データに基づいて音声を合成する音声合成手段とを備えることにより、より人間の声に近い自然な音声によって文章や歌声を合成することが可能となり、ロボット装置のエンターテインメント性が向上すると共に、人間との親密性が高められる。
【図面の簡単な説明】
【図1】本実施の形態における音声合成装置の概略構成を説明する図である。
【図2】同音声合成装置の動作を説明するフローチャートである。
【図3】同音声合成装置における自然韻律辞書の構成例を説明する図である。
【図4】本実施の形態におけるロボット装置の外観構成を示す斜視図である。
【図5】同ロボット装置の自由度構成モデルを模式的に示す図である。
【図6】同ロボット装置の回路構成を示すブロック図である。
【図7】同ロボット装置のソフトウェア構成を示すブロック図である。
【図8】同ロボット装置のソフトウェア構成におけるミドル・ウェア・レイヤの構成を示すブロック図である。
【図9】同ロボット装置のソフトウェア構成におけるアプリケーション・レイヤの構成を示すブロック図である。
【図10】アプリケーション・レイヤの行動モデルライブラリの構成を示すブロック図である。
【図11】同ロボット装置の行動決定のための情報となる有限確率オートマトンを説明する図である。
【図12】有限確率オートマトンの各ノードに用意された状態遷移表を示す図である。
【符号の説明】
1 ロボット装置、10 CPU、14 信号処理回路、27 スピーカ、80 行動モデル、83 感情モデル、200 音声合成装置、210 言語処理部、211 タグ処理部、212 歌声合成部、213 言語解析部、214 自然韻律辞書記憶部、215 音声記号生成部、220 音声合成部、221 韻律生成部、222 韻律データ調整部、223 音素片記憶部、224 波形生成部
Claims (10)
- 入力されたテキストから歌声タグによって指定された歌声データ部分とそれ以外のテキスト部分とを分離する分離工程と、
上記歌声データから歌声韻律データを作成する歌声韻律データ作成工程と、
上記テキスト部分を解析し、当該テキスト部分に所定の単語又は文が存在する場合に、予め人間の発声から抽出された上記所定の単語又は文に対応する自然韻律データを記憶手段から選択する自然韻律データ選択工程と、
上記所定の単語又は文以外の上記テキスト部分について音声記号列を作成する音声記号列作成工程と、
上記音声記号列から韻律データを作成する韻律データ作成工程と、
上記歌声韻律データ、上記自然韻律データ又は上記韻律データに基づいて音声を合成する音声合成工程と
を有することを特徴とする音声合成方法。 - 上記歌声データは、少なくとも各音符の高さ及び長さ、その音符に付与される歌詞、休符、速度並びに強弱がタグによって指定されたものであることを特徴とする請求項1記載の音声合成方法。
- 上記歌声韻律データ作成工程では、上記歌声韻律データにおける各音韻のピッチ周期及び継続時間長が変更されることによりビブラートが付与されることを特徴とする請求項1記載の音声合成方法。
- 上記歌声韻律データ作成工程では、所定の継続時間長以上の音韻に対してビブラートが付与されることを特徴とする請求項3記載の音声合成方法。
- 上記歌声韻律データ作成工程では、上記歌声データにおけるタグで指定された部分の音韻に対してビブラートが付与されることを特徴とする請求項3記載の音声合成方法。
- 上記歌声韻律データにおける各音韻のピッチを調整するパラメータ調整工程を有することを特徴とする請求項1記載の音声合成方法。
- 入力されたテキストから歌声タグによって指定された歌声データ部分とそれ以外のテキスト部分とを分離する分離手段と、
上記歌声データから歌声韻律データを作成する歌声韻律データ作成手段と、
上記テキスト部分を解析し、当該テキスト部分に所定の単語又は文が存在する場合に、予め人間の発声から抽出された上記所定の単語又は文に対応する自然韻律データを記憶手段から選択する自然韻律データ選択手段と、
上記所定の単語又は文以外の上記テキスト部分について音声記号列を作成する音声記号列作成手段と、
上記音声記号列から韻律データを作成する韻律データ作成手段と、
上記歌声韻律データ、上記自然韻律データ又は上記韻律データに基づいて音声を合成する音声合成手段と
を備えることを特徴とする音声合成装置。 - 所定の処理をコンピュータに実行させるためのプログラムであって、
入力されたテキストから歌声タグによって指定された歌声データ部分とそれ以外のテキスト部分とを分離する分離工程と、
上記歌声データから歌声韻律データを作成する歌声韻律データ作成工程と、
上記テキスト部分を解析し、当該テキスト部分に所定の単語又は文が存在する場合に、予め人間の発声から抽出された上記所定の単語又は文に対応する自然韻律データを記憶手段から選択する自然韻律データ選択工程と、
上記所定の単語又は文以外の上記テキスト部分について音声記号列を作成する音声記号列作成工程と、
上記音声記号列から韻律データを作成する韻律データ作成工程と、
上記歌声韻律データ、上記自然韻律データ又は上記韻律データに基づいて音声を合成する音声合成工程と
を有することを特徴とするプログラム。 - 所定の処理をコンピュータに実行させるためのプログラムが記録されたコンピュータ読み取り可能な記録媒体であって、
入力されたテキストから歌声タグによって指定された歌声データ部分とそれ以外のテキスト部分とを分離する分離工程と、
上記歌声データから歌声韻律データを作成する歌声韻律データ作成工程と、
上記テキスト部分を解析し、当該テキスト部分に所定の単語又は文が存在する場合に、予め人間の発声から抽出された上記所定の単語又は文に対応する自然韻律データを記憶手段から選択する自然韻律データ選択工程と、
上記所定の単語又は文以外の上記テキスト部分について音声記号列を作成する音声記号列作成工程と、
上記音声記号列から韻律データを作成する韻律データ作成工程と、
上記歌声韻律データ、上記自然韻律データ又は上記韻律データに基づいて音声を合成する音声合成工程と
を有することを特徴とするプログラムが記録された記録媒体。 - 供給された入力情報に基づいて動作を行う自律型のロボット装置であって、
入力されたテキストから歌声タグによって指定された歌声データ部分とそれ以外のテキスト部分とを分離する分離手段と、
上記歌声データから歌声韻律データを作成する歌声韻律データ作成手段と、
上記テキスト部分を解析し、当該テキスト部分に所定の単語又は文が存在する場合に、予め人間の発声から抽出された上記所定の単語又は文に対応する自然韻律データを記憶手段から選択する自然韻律データ選択手段と、
上記所定の単語又は文以外の上記テキスト部分について音声記号列を作成する音声記号列作成手段と、
上記音声記号列から韻律データを作成する韻律データ作成手段と、
上記歌声韻律データ、上記自然韻律データ又は上記韻律データに基づいて音声を合成する音声合成手段と
を備えることを特徴とするロボット装置。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002073385A JP4150198B2 (ja) | 2002-03-15 | 2002-03-15 | 音声合成方法、音声合成装置、プログラム及び記録媒体、並びにロボット装置 |
US10/388,107 US7062438B2 (en) | 2002-03-15 | 2003-03-13 | Speech synthesis method and apparatus, program, recording medium and robot apparatus |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002073385A JP4150198B2 (ja) | 2002-03-15 | 2002-03-15 | 音声合成方法、音声合成装置、プログラム及び記録媒体、並びにロボット装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2003271173A JP2003271173A (ja) | 2003-09-25 |
JP4150198B2 true JP4150198B2 (ja) | 2008-09-17 |
Family
ID=29203062
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002073385A Expired - Fee Related JP4150198B2 (ja) | 2002-03-15 | 2002-03-15 | 音声合成方法、音声合成装置、プログラム及び記録媒体、並びにロボット装置 |
Country Status (2)
Country | Link |
---|---|
US (1) | US7062438B2 (ja) |
JP (1) | JP4150198B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020045658A1 (ja) * | 2018-08-30 | 2020-03-05 | Groove X株式会社 | ロボット及び音声生成プログラム |
Families Citing this family (135)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8645137B2 (en) | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
JP2003271172A (ja) * | 2002-03-15 | 2003-09-25 | Sony Corp | 音声合成方法、音声合成装置、プログラム及び記録媒体、並びにロボット装置 |
US7421418B2 (en) * | 2003-02-19 | 2008-09-02 | Nahava Inc. | Method and apparatus for fundamental operations on token sequences: computing similarity, extracting term values, and searching efficiently |
US20040260551A1 (en) * | 2003-06-19 | 2004-12-23 | International Business Machines Corporation | System and method for configuring voice readers using semantic analysis |
US7505892B2 (en) * | 2003-07-15 | 2009-03-17 | Epistle Llc | Multi-personality chat robot |
EP1530138A1 (en) * | 2003-11-10 | 2005-05-11 | Robert Bosch Gmbh | Generic measurement and calibration interface for development of control software |
US7472065B2 (en) * | 2004-06-04 | 2008-12-30 | International Business Machines Corporation | Generating paralinguistic phenomena via markup in text-to-speech synthesis |
US7558389B2 (en) * | 2004-10-01 | 2009-07-07 | At&T Intellectual Property Ii, L.P. | Method and system of generating a speech signal with overlayed random frequency signal |
JP4929604B2 (ja) * | 2005-03-11 | 2012-05-09 | ヤマハ株式会社 | 歌データ入力プログラム |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US7737354B2 (en) * | 2006-06-15 | 2010-06-15 | Microsoft Corporation | Creating music via concatenative synthesis |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US20080126093A1 (en) * | 2006-11-28 | 2008-05-29 | Nokia Corporation | Method, Apparatus and Computer Program Product for Providing a Language Based Interactive Multimedia System |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US10496753B2 (en) | 2010-01-18 | 2019-12-03 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US7977562B2 (en) * | 2008-06-20 | 2011-07-12 | Microsoft Corporation | Synthesized singing voice waveform generator |
US8494854B2 (en) * | 2008-06-23 | 2013-07-23 | John Nicholas and Kristin Gross | CAPTCHA using challenges optimized for distinguishing between humans and machines |
US9186579B2 (en) | 2008-06-27 | 2015-11-17 | John Nicholas and Kristin Gross Trust | Internet based pictorial game system and method |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
US9959870B2 (en) | 2008-12-11 | 2018-05-01 | Apple Inc. | Speech recognition involving a mobile device |
US20110298810A1 (en) * | 2009-02-18 | 2011-12-08 | Nec Corporation | Moving-subject control device, moving-subject control system, moving-subject control method, and program |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US20120311585A1 (en) | 2011-06-03 | 2012-12-06 | Apple Inc. | Organizing task items that represent tasks to perform |
US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
US20110066438A1 (en) * | 2009-09-15 | 2011-03-17 | Apple Inc. | Contextual voiceover |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US10679605B2 (en) | 2010-01-18 | 2020-06-09 | Apple Inc. | Hands-free list-reading by intelligent automated assistant |
US10553209B2 (en) | 2010-01-18 | 2020-02-04 | Apple Inc. | Systems and methods for hands-free notification summaries |
US10705794B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
DE112011100329T5 (de) | 2010-01-25 | 2012-10-31 | Andrew Peter Nelson Jerram | Vorrichtungen, Verfahren und Systeme für eine Digitalkonversationsmanagementplattform |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US10762293B2 (en) | 2010-12-22 | 2020-09-01 | Apple Inc. | Using parts-of-speech tagging and named entity recognition for spelling correction |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US8994660B2 (en) | 2011-08-29 | 2015-03-31 | Apple Inc. | Text correction processing |
US9711134B2 (en) * | 2011-11-21 | 2017-07-18 | Empire Technology Development Llc | Audio interface |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US9483461B2 (en) | 2012-03-06 | 2016-11-01 | Apple Inc. | Handling speech synthesis of content for multiple languages |
FR2989209B1 (fr) * | 2012-04-04 | 2015-01-23 | Aldebaran Robotics | Robot apte a integrer des dialogues naturels avec un utilisateur dans ses comportements, procedes de programmation et d'utilisation dudit robot |
US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
JP5978027B2 (ja) * | 2012-06-28 | 2016-08-24 | 本田技研工業株式会社 | 移動ロボットの制御装置 |
US9495129B2 (en) | 2012-06-29 | 2016-11-15 | Apple Inc. | Device, method, and user interface for voice-activated navigation and browsing of a document |
US9576574B2 (en) | 2012-09-10 | 2017-02-21 | Apple Inc. | Context-sensitive handling of interruptions by intelligent digital assistant |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
KR102579086B1 (ko) | 2013-02-07 | 2023-09-15 | 애플 인크. | 디지털 어시스턴트를 위한 음성 트리거 |
US9368114B2 (en) | 2013-03-14 | 2016-06-14 | Apple Inc. | Context-sensitive handling of interruptions |
US9922642B2 (en) | 2013-03-15 | 2018-03-20 | Apple Inc. | Training an at least partial voice command system |
WO2014144579A1 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | System and method for updating an adaptive speech recognition model |
WO2014197336A1 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
EP3937002A1 (en) | 2013-06-09 | 2022-01-12 | Apple Inc. | Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
JP2016521948A (ja) | 2013-06-13 | 2016-07-25 | アップル インコーポレイテッド | 音声コマンドによって開始される緊急電話のためのシステム及び方法 |
JP6163266B2 (ja) | 2013-08-06 | 2017-07-12 | アップル インコーポレイテッド | リモート機器からの作動に基づくスマート応答の自動作動 |
US9620105B2 (en) | 2014-05-15 | 2017-04-11 | Apple Inc. | Analyzing audio input for efficient speech and music recognition |
US10592095B2 (en) | 2014-05-23 | 2020-03-17 | Apple Inc. | Instantaneous speaking of content on touch devices |
US9502031B2 (en) | 2014-05-27 | 2016-11-22 | Apple Inc. | Method for supporting dynamic grammars in WFST-based ASR |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
EP3149728B1 (en) | 2014-05-30 | 2019-01-16 | Apple Inc. | Multi-command single utterance input method |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US10078631B2 (en) | 2014-05-30 | 2018-09-18 | Apple Inc. | Entropy-guided text prediction using combined word and character n-gram language models |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US9785630B2 (en) | 2014-05-30 | 2017-10-10 | Apple Inc. | Text prediction using combined word N-gram and unigram language models |
US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
US9734193B2 (en) | 2014-05-30 | 2017-08-15 | Apple Inc. | Determining domain salience ranking from ambiguous words in natural speech |
US9760559B2 (en) | 2014-05-30 | 2017-09-12 | Apple Inc. | Predictive text input |
US10289433B2 (en) | 2014-05-30 | 2019-05-14 | Apple Inc. | Domain specific language for encoding assistant dialog |
US10659851B2 (en) | 2014-06-30 | 2020-05-19 | Apple Inc. | Real-time digital assistant knowledge updates |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US10446141B2 (en) | 2014-08-28 | 2019-10-15 | Apple Inc. | Automatic speech recognition based on user feedback |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
US10552013B2 (en) | 2014-12-02 | 2020-02-04 | Apple Inc. | Data detection |
US9711141B2 (en) | 2014-12-09 | 2017-07-18 | Apple Inc. | Disambiguating heteronyms in speech synthesis |
US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
DK179309B1 (en) | 2016-06-09 | 2018-04-23 | Apple Inc | Intelligent automated assistant in a home environment |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
DK201770439A1 (en) | 2017-05-11 | 2018-12-13 | Apple Inc. | Offline personal assistant |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK201770432A1 (en) | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
DK179549B1 (en) | 2017-05-16 | 2019-02-12 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
CN109599079B (zh) * | 2017-09-30 | 2022-09-23 | 腾讯科技(深圳)有限公司 | 一种音乐的生成方法和装置 |
CN112786004A (zh) * | 2020-12-30 | 2021-05-11 | 科大讯飞股份有限公司 | 语音合成方法以及电子设备、存储装置 |
CN113035228A (zh) * | 2021-03-23 | 2021-06-25 | 广州酷狗计算机科技有限公司 | 声学特征提取方法、装置、设备及存储介质 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2119397C (en) * | 1993-03-19 | 2007-10-02 | Kim E.A. Silverman | Improved automated voice synthesis employing enhanced prosodic treatment of text, spelling of text and rate of annunciation |
JP3333022B2 (ja) * | 1993-11-26 | 2002-10-07 | 富士通株式会社 | 歌声合成装置 |
US6226614B1 (en) * | 1997-05-21 | 2001-05-01 | Nippon Telegraph And Telephone Corporation | Method and apparatus for editing/creating synthetic speech message and recording medium with the method recorded thereon |
US6304846B1 (en) * | 1997-10-22 | 2001-10-16 | Texas Instruments Incorporated | Singing voice synthesis |
US6446040B1 (en) * | 1998-06-17 | 2002-09-03 | Yahoo! Inc. | Intelligent text-to-speech synthesis |
JP2000105595A (ja) * | 1998-09-30 | 2000-04-11 | Victor Co Of Japan Ltd | 歌唱装置及び記録媒体 |
US6823309B1 (en) * | 1999-03-25 | 2004-11-23 | Matsushita Electric Industrial Co., Ltd. | Speech synthesizing system and method for modifying prosody based on match to database |
US6810378B2 (en) * | 2001-08-22 | 2004-10-26 | Lucent Technologies Inc. | Method and apparatus for controlling a speech synthesis system to provide multiple styles of speech |
-
2002
- 2002-03-15 JP JP2002073385A patent/JP4150198B2/ja not_active Expired - Fee Related
-
2003
- 2003-03-13 US US10/388,107 patent/US7062438B2/en not_active Expired - Fee Related
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020045658A1 (ja) * | 2018-08-30 | 2020-03-05 | Groove X株式会社 | ロボット及び音声生成プログラム |
JPWO2020045658A1 (ja) * | 2018-08-30 | 2021-09-24 | Groove X株式会社 | ロボット及び音声生成プログラム |
JP7420385B2 (ja) | 2018-08-30 | 2024-01-23 | Groove X株式会社 | ロボット及び音声生成プログラム |
Also Published As
Publication number | Publication date |
---|---|
US7062438B2 (en) | 2006-06-13 |
JP2003271173A (ja) | 2003-09-25 |
US20040019485A1 (en) | 2004-01-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4150198B2 (ja) | 音声合成方法、音声合成装置、プログラム及び記録媒体、並びにロボット装置 | |
US7412390B2 (en) | Method and apparatus for speech synthesis, program, recording medium, method and apparatus for generating constraint information and robot apparatus | |
KR100940630B1 (ko) | 로봇 장치와, 문자 인식 장치 및 문자 인식 방법과, 제어프로그램 및 기록 매체 | |
US20020198717A1 (en) | Method and apparatus for voice synthesis and robot apparatus | |
KR100814569B1 (ko) | 로봇 제어 장치 | |
JP2001154681A (ja) | 音声処理装置および音声処理方法、並びに記録媒体 | |
WO2004084174A1 (ja) | 歌声合成方法、歌声合成装置、プログラム及び記録媒体並びにロボット装置 | |
JP4687936B2 (ja) | 音声出力装置および音声出力方法、並びにプログラムおよび記録媒体 | |
US7233900B2 (en) | Word sequence output device | |
JP4415573B2 (ja) | 歌声合成方法、歌声合成装置、プログラム及び記録媒体並びにロボット装置 | |
JP2002318594A (ja) | 言語処理装置および言語処理方法、並びにプログラムおよび記録媒体 | |
JP2003271172A (ja) | 音声合成方法、音声合成装置、プログラム及び記録媒体、並びにロボット装置 | |
JP4016316B2 (ja) | ロボット装置およびロボット制御方法、記録媒体、並びにプログラム | |
JP2002258886A (ja) | 音声合成装置および音声合成方法、並びにプログラムおよび記録媒体 | |
WO2004111993A1 (ja) | 信号合成方法及び装置、歌声合成方法及び装置、プログラム及び記録媒体並びにロボット装置 | |
JP2003044080A (ja) | ロボット装置、文字認識装置及び文字認識方法、並びに、制御プログラム及び記録媒体 | |
JP2002311981A (ja) | 自然言語処理装置および自然言語処理方法、並びにプログラムおよび記録媒体 | |
JP2002304187A (ja) | 音声合成装置および音声合成方法、並びにプログラムおよび記録媒体 | |
JP2002175091A (ja) | 音声合成方法及び装置、並びにロボット装置 | |
JP2002321177A (ja) | 脚式移動ロボット及びその制御方法 | |
JP2002318593A (ja) | 言語処理装置および言語処理方法、並びにプログラムおよび記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20041227 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20050125 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20050328 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20051213 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20060210 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20071203 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20080627 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110704 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110704 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110704 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120704 Year of fee payment: 4 |
|
LAPS | Cancellation because of no payment of annual fees |