JP2018146906A

JP2018146906A - 音声対話方法および音声対話装置

Info

Publication number: JP2018146906A
Application number: JP2017044557A
Authority: JP
Inventors: 嘉山　啓; Hiroshi Kayama; 啓嘉山; 松原　弘明; Hiroaki Matsubara; 弘明松原; 純也浦; Junya Ura
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2017-03-09
Filing date: 2017-03-09
Publication date: 2018-09-20
Anticipated expiration: 2037-03-09
Also published as: WO2018164278A1; CN110431622A; US20190392814A1; JP6911398B2

Abstract

【課題】自然な音声対話の実現を目的とする。
【解決手段】音声対話装置１００は、対話のための対話音声の音高に応じて、当該対話音声に先行して再生される先行音声の音高を調整する音高調整部４３と、音高調整部４３が調整した先行音声の再生を指示する第１再生指示部４５と、第１再生指示部４５による先行音声の再生後における対話音声の再生を指示する第２再生指示部４７とを具備する。
【選択図】図１

Description

本発明は、音声対話に関する。

利用者による発話に対する応答（例えば質問に対する回答）の音声を再生することで利用者との対話を実現する音声対話の技術が従来から提案されている。例えば特許文献１には、利用者の発話音声に対する音声認識で発話内容を解析し、解析結果に応じた応答音声を合成および再生する技術が開示されている。

特開２０１２−１２８４４０号公報

しかし、特許文献１を含む既存の技術のもとでは、現実の人間同士の対話の傾向を忠実に反映した自然な音声対話を実現することは実際には困難であり、機械的で不自然な印象を利用者が感取し得るという問題がある。以上の事情を考慮して、本発明は、自然な音声対話の実現を目的とする。

以上の課題を解決するために、本発明の好適な態様に係る音声対話方法は、対話のための対話音声の音高に応じて、当該対話音声に先行して再生される先行音声の音高を調整する音高調整ステップと、前記音高調整ステップにおいて調整した前記先行音声の再生を指示する第１再生指示ステップと、前記第１再生指示ステップによる前記先行音声の再生後における前記対話音声の再生を指示する第２再生指示ステップとを含む。

本発明の好適な態様に係る音声対話装置は、対話のための対話音声の音高に応じて、当該対話音声に先行して再生される先行音声の音高を調整する音高調整部と、前記音高調整部が調整した前記先行音声の再生を指示する第１再生指示部と、前記第１再生指示部による前記先行音声の再生後における前記対話音声の再生を指示する第２再生指示部とを具備する。

第１実施形態における音声対話装置の構成図である。第１実施形態における間投詞音声および応答音声の説明図である。第１実施形態における制御装置が実行する処理のフローチャートである。第２実施形態における発話音声，２個の間投詞音声および応答音声の説明図である。第２実施形態における制御装置が実行する処理のフローチャートである。

＜第１実施形態＞
図１は、本発明の第１実施形態に係る音声対話装置１００の構成図である。第１実施形態の音声対話装置１００は、利用者Ｕが発音した音声（以下「発話音声」という）Ｖxに対する応答の音声（以下「応答音声」という）Ｖzを再生する音声対話システムである。例えば携帯電話機やスマートフォン等の可搬型の情報処理装置、または、パーソナルコンピュータ等の情報処理装置が音声対話装置１００として利用され得る。また、動物等の外観を模擬した玩具（例えば動物のぬいぐるみ等の人形）やロボットの形態で音声対話装置１００を実現することも可能である。

発話音声（speech sound）Ｖxは、例えば問掛け（質問）および話掛けを含む発話の音声であり、応答音声（対話音声の例示）Ｖzは、問掛けに対する回答または話掛けに対する受応えを含む応答の音声である。第１実施形態の応答音声（対話音声）Ｖzは、１個以上の語句で構成される特定の意味を持った音声である。例えば、発話音声Ｖx「学校の場所をおしえて？」に対する応答音声Ｖzは、「三丁目の角」が想定され得る。ここで、現実の人間同士の対話において、発話者の発話音声と対話相手が発音する応答音声との間には、対話相手により何らかの音声（典型的には間投詞の音声）が発声されるという傾向がある。したがって、発話音声Ｖxの直後に応答音声Ｖzが再生されると利用者Ｕに機械的で不自然な印象を与える。そこで、第１実施形態の音声対話装置１００は、図２に例示される通り、発話音声Ｖxの発生（例えば発話音声Ｖxの発音終了時）から応答音声Ｖzの再生（例えば応答音声Ｖzの再生開始時）までの期間（以下「待機期間」という）Ｑ内に、間投詞の音声（以下「間投詞音声」という）Ｖyを再生する。つまり、間投詞音声（先行音声の例示）Ｖyは、応答音声（対話音声）Ｖzに先行して再生される音声である。

間投詞音声（先行音声）Ｖyは、間投詞を意味する音声である。間投詞は、他の文節から独立して利用されて活用のない自立語（感動詞または感嘆詞）である。具体的には、発話に対する相づちを表す「うん（un）」および「ええ（ee）」等の語句（英語では“aha”または“right”）、言淀み（応答の停滞）を表す「え〜と（eto）」および「あの〜（ano）」等の語句（英語では“um”または“er”）、応答（質問に対する肯定または否定）を表す「はい（hai）」および「いいえ（iie）」等の語句（英語では“yes”または“no”）、話者の感動を表す「ああ（aa）」および「おお（oo）」等の語句（英語では“ah”または“woo”）、ならびに、発話に対する問返し（聞き直し）を意味する「え？（e）」「なに？（nani）」等の語句（英語では“pardon?”または“sorry?”）が、間投詞として例示され得る。

応答音声（対話音声）Ｖzは、発話音声Ｖxに対する必要的な応答と位置付けられるのに対し、間投詞音声（先行音声）Ｖyは応答音声Ｖzに先立って補足的（補助的）ないし追加的に発音される任意的な応答（対話において省略され得る応答）と位置付けられる。間投詞音声Ｖyは、応答音声Ｖzには含まれない別個の音声であるとも換言され得る。図２に例示される通り、第１実施形態では、「学校の場所をおしえて？」という問掛けの発話音声Ｖxに対して、「え〜と」という言淀みを表す間投詞音声Ｖyが再生され、間投詞音声Ｖyに後続して「三丁目の角」という回答の応答音声Ｖzが再生される場合を例示する。

第１実施形態の音声対話装置１００は、図１に例示される通り、収音装置２０と記憶装置２２と制御装置２４と放音装置２６とを具備する。収音装置２０（例えばマイクロホン）は、利用者Ｕの発話音声Ｖxを表す信号（以下「発話信号」という）Ｘを生成する。なお、収音装置２０が生成した発話信号Ｘをアナログからデジタルに変換するＡ/Ｄ変換器の図示は便宜的に省略した。放音装置２６（例えばスピーカまたはヘッドホン）は、制御装置２４から供給される信号に応じた音を再生する。第１実施形態の放音装置２６は、間投詞音声Ｖyと応答音声Ｖzとを制御装置２４の指示により再生する。

記憶装置２２は、制御装置２４が実行するプログラムや制御装置２４が使用する各種のデータを記憶する。例えば半導体記録媒体または磁気記録媒体等の公知の記録媒体、あるいは、複数の記録媒体の組合せが記憶装置２２として任意に採用され得る。具体的には、記憶装置２２は、言淀みの間投詞音声Ｖyを表す音声信号Ｙ1を記憶する。以下の説明では、言淀み「え〜と」を表す任意の韻律(例えば音高)の間投詞音声Ｖyを表す音声信号Ｙ1が記憶装置２２に記憶された場合を例示する。音声信号Ｙ1は、事前に収録され、例えばwav形式等の任意の形式の音声ファイルとして記憶装置２２に記憶される。

制御装置２４は、音声対話装置１００の各要素を統括的に制御する演算処理装置（例えばＣＰＵ）である。制御装置２４は、記憶装置２２に記憶されたプログラムを実行することで、利用者Ｕとの対話を成立させるための複数の機能（応答生成部４１，音高調整部４３，第１再生指示部４５および第２再生指示部４７）を実現する。なお、制御装置２４の機能を複数の装置（すなわちシステム）で実現した構成、または、制御装置２４の機能の一部を専用の電子回路が分担する構成も採用され得る。

図１の応答生成部４１は、発話音声Ｖxに対する応答音声Ｖzを生成する。第１実施形態の応答生成部４１は、発話信号Ｘに対する音声認識と、当該音声認識の結果を利用した音声合成とにより、応答音声Ｖzを表す応答信号Ｚを生成する。具体的には、応答生成部４１は、第１に、収音装置２０が生成した発話信号Ｘに対する音声認識で発話音声Ｖxの内容（以下「発話内容」という）を特定する。第１実施形態では、発話音声Ｖx「学校の場所をおしえて？」の発話内容が特定される。発話信号Ｘの音声認識には、例えばＨＭＭ（Hidden Markov Model）等の音響モデルと言語的な制約を示す言語モデルとを利用した認識技術等の公知の技術が任意に採用され得る。

応答生成部４１は、第２に、特定した発話内容（音韻）の意味を解析し、発話内容に対応する応答の文字列（以下「応答文字列」という）を生成する。応答文字列の生成には、公知の自然言語処理技術が任意に採用され得る。第１実施形態では、発話音声Ｖx「学校の場所をおしえて？」に対応する応答文字列「三丁目の角」が生成され得る。応答生成部４１は、第３に、生成した応答文字列を発音した音声（すなわち応答音声Ｖz）を表す応答信号Ｚを生成する。応答信号Ｚの生成には、公知の音声合成技術が任意に採用され得る。例えば、特定の発声者の収録音声から事前に採取された複数の音声素片の集合から応答文字列に対応する音声素片を順次選択し、当該音声素片を時間軸上で相互に連結することで応答信号Ｚが生成される。応答信号Ｚが表す応答音声Ｖzの音高は、例えば応答文字列の内容または音声合成処理の内容に応じて変化し得る。生成された応答信号Ｚは、第２再生指示部４７により放音装置２６に供給される。なお、応答信号Ｚを生成する方法は、音声合成技術には限定されない。例えば、発話内容が相違する複数の応答信号Ｚを記憶装置２２に記憶させ、当該複数の応答信号Ｚのうち特定した発話内容に応じた応答信号Ｚを選択して放音装置２６に供給する構成も好適に採用され得る。複数の応答信号Ｚの各々は、事前に収録され、例えばwav形式等の任意の形式の音声ファイルとして記憶装置２２に記憶される。

ここで、現実の人間が複数の音声を順次に発声する場合、各々の音声の音高は相互に影響を受ける。例えば、先行する音声の音高は後続する音声の音高に依存する。特に、間投詞音声と応答音声とを発話者が順次に発声する場合に、間投詞音声の音高が直後の応答音声の音高に依存するという傾向がある。そこで、第１実施形態では、応答音声Ｖzの音高に応じた音高の間投詞音声Ｖyを再生させる。

図１の音高調整部４３は、応答音声Ｖzの音高Ｐzに応じて間投詞音声Ｖyの音高を調整する。第１実施形態の音高調整部４３は、記憶装置２２に記憶された音声信号Ｙ1の音高を、応答音声Ｖzの音高Ｐzに応じて調整することで、間投詞音声Ｖyの音声信号Ｙ2を生成する。

図１の第１再生指示部４５は、待機期間Ｑ内に、音高調整部４３により音高が調整された間投詞音声Ｖyの再生を指示する。具体的には、第１再生指示部４５は、間投詞音声Ｖy「え〜と」の音声信号Ｙ2を放音装置２６に供給する。図２に例示される通り、発話音声Ｖxの終点ｔxから応答音声Ｖzの再生が開始される時点ｔZまでの待機期間Ｑ内の途中の時点ｔYにおいて、間投詞音声Ｖyの再生が指示される。

第２再生指示部４７は、第１再生指示部４５による間投詞音声Ｖyの再生後における応答音声Ｖzの再生を指示する。具体的には、第２再生指示部４７は、間投詞音声Ｖyの再生後（典型的には間投詞音声Ｖyの再生直後）に、応答生成部４１が生成した応答信号Ｚを放音装置２６に供給する。

放音装置２６は、第１再生指示部４５から供給された音声信号Ｙ2が表わす間投詞音声Ｖy「え〜と」と、第２再生指示部４７から供給された応答信号Ｚが表わす応答音声Ｖz「三丁目の角」とを順次に再生する。なお、音声信号Ｙ2と応答信号Ｚとをデジタルからアナログに変換するＤ/Ａ変換器の図示は便宜的に省略した。以上の説明から理解される通り、利用者Ｕが発話音声Ｖx「学校の場所をおしえて？」を発声すると、言淀みを表す間投詞音声Ｖy「え〜と」が再生され、間投詞音声Ｖyの再生に後続して応答音声Ｖz「三丁目の角」が再生される。

図３は、第１実施形態の制御装置２４が実行する処理のフローチャートである。例えば利用者Ｕの発話音声Ｖxの終了を契機として図３の処理が開始される。

図３の処理を開始すると、応答生成部４１は、発話音声Ｖx「学校の場所をおしえて？」を表す発話信号Ｘを収音装置２０から取得し、当該発話信号Ｘに対する音声認識で発話内容を特定する（ＳA1）。応答生成部４１は、特定した発話内容の意味を解析し、発話内容に対応する応答文字列「三丁目の角」を生成する（ＳA2）。応答生成部４１は、生成した応答文字列「三丁目の角」を発音した応答音声Ｖzを表す応答信号Ｚを生成する（ＳA3）。

音高調整部４３は、応答音声Ｖzの音高Ｐzを特定する（ＳA4）。音高Ｐzは、図２に例示される通り、例えば、応答音声Ｖzのうち終点ｔzを含む末尾区間Ｅz内の音高の最低値（以下「最低音高」という）Ｐzminである。末尾区間Ｅzは、例えば応答音声Ｖzのうち終点ｔz以前の所定長（例えば数秒）にわたる一部の区間である。例えば、図２から理解される通り、平叙文「三丁目の角」の応答音声Ｖzでは終点ｔzにかけて音高が単調に低下する傾向がある。したがって、応答音声Ｖzの終点ｔzでの音高（最低音高Ｐzmin）が音高Ｐzとして特定される。なお、末尾区間Ｅzは、応答音声Ｖzのうち終点ｔzを含む所定の割合の区間に限定されない。例えば、応答音声Ｖzのうち終点ｔzを含む所定の割合の区間を末尾区間Ｅzとして画定することも可能である。また、応答音声Ｖzのうち終点ｔzの近傍の時点（終点ｔzよりも過去の時点）を終点として末尾区間Ｅzを画定する（すなわち応答音声Ｖzのうち終点ｔzの近傍の区間を除外して末尾区間Ｅzを特定する）ことも可能である。以上の例示から理解される通り、末尾区間Ｅzは、応答音声Ｖzのうち終点ｔz付近の区間として包括的に表現される。

音高調整部４３は、応答音声Ｖz「三丁目の角」について特定した音高Ｐz（最低音高Ｐzmin）に応じて間投詞音声Ｖy「え〜と」の音高を調整する（ＳA5）。現実の対話の場合、発話者の発話音声に対して対話相手が発声する間投詞音声の終点付近の音高は、間投詞音声の直後に対話相手により発声される応答音声の終点付近の最低音高と一致する傾向がある。そこで、第１実施形態の音高調整部４３は、応答音声Ｖz「三丁目の角」について特定した音高Ｐzに間投詞音声Ｖy「え〜と」の音高が一致するように調整する。具体的には、音高調整部４３は、間投詞音声Ｖyを表す音声信号Ｙ1のうち時間軸上の特定の時点（以下「目標点」という）τyでの音高が応答音声Ｖzの音高Ｐzに一致するように当該間投詞音声Ｖyの音高を調整することで、間投詞音声Ｖyを表す音声信号Ｙ2を生成する。目標点τyの好適例は、間投詞音声Ｖyの終点ｔyである。具体的には、音高調整部４３は、図２に例示される通り、間投詞音声Ｖy「え〜と」を表す音声信号Ｙ1の終点ｔyの音高が応答音声Ｖzの音高Ｐzに一致するように音声信号Ｙ1の全区間にわたる音高を調整（ピッチシフト）することで、音声信号Ｙ2を生成する。なお、音高の調整には公知の技術が任意に採用され得る。また、目標点τyは、間投詞音声Ｖyの終点ｔyに限定されない。例えば、間投詞音声Ｖyの始点（時点ｔY）を目標点τyとして音高を調整することも可能である。

第１再生指示部４５は、待機期間Ｑ内に、音高調整部４３が生成した音声信号Ｙ2を放音装置２６に供給することで、音高を調整した間投詞音声Ｖy「え〜と」の再生を指示する（ＳA6）。第２再生指示部４７は、間投詞音声Ｖy「え〜と」の再生後に、応答生成部４１が生成した応答信号Ｚを放音装置２６に供給することで、応答音声Ｖz「三丁目の角」の再生を指示する（ＳA7）。以上に説明した処理により、利用者Ｕによる発話音声Ｖx「学校の場所をおしえて？」に対して、間投詞音声Ｖy「え〜と」と応答音声Ｖz「三丁目の角」とが順次に再生される音声対話が実現される。

以上に説明した通り、第１実施形態では、発話音声Ｖxに対する応答音声Ｖzの再生の前に間投詞音声Ｖyが再生される。したがって、発話者の発話音声と対話相手が発声する応答音声との間に対話相手による何らかの音声（典型的には間投詞音声）が発声されるという現実の対話の傾向を模擬した自然な音声対話を実現することができる。また、第１実施形態では、応答音声Ｖzの音高に応じて間投詞音声Ｖyの音高が調整されるので、間投詞音声の音高が当該間投詞音声の直後に発声される応答音声の音高の影響を受けるという現実の発話者の傾向を模擬した自然な音声対話を実現することが可能である。

＜第２実施形態＞
本発明の第２実施形態を説明する。なお、以下に例示する各形態において作用や機能が第１実施形態と同様である要素については、第１実施形態の説明で使用した符号を流用して各々の詳細な説明を適宜に省略する。

第１実施形態の音声対話装置１００は、発話音声Ｖxから応答音声Ｖzの再生までの待機期間Ｑ内に間投詞音声（先行音声の例示）Ｖyを再生する。それに対して、第２実施形態の音声対話装置１００は、図４に例示される通り、待機期間Ｑ内に、第１実施形態と同様の間投詞音声（先行音声の例示）Ｖyの再生に加えて、間投詞音声Ｖyの再生の前に他の間投詞音声（初期音声の例示）Ｖwを再生する。つまり、間投詞音声（初期音声）Ｖwは、間投詞音声（先行音声）Ｖyに先行して再生される音声である。以上の説明から理解される通り、待機期間Ｑ内に間投詞音声Ｖwと間投詞音声Ｖyとが順次に再生される。間投詞音声Ｖwは、間投詞音声Ｖyと同様に間投詞を意味する音声である。第２実施形態の間投詞音声Ｖwの発話内容（音韻）は、間投詞音声Ｖyの発話内容とは相違する。

現実の対話の場面では、発話者の発話内容によっては、応答音声の発声までに複数の間投詞音声が対話相手により発声される場合がある。例えば、現実の対話では、発話音声「学校の場所をおしえて？」が発声される場合、発話音声に対する相づちを表す「うん」の間投詞音声と言淀み「え〜と」を表す間投詞音声とを順次に発声してから、応答音声「三丁目の角」が発声される。以上の傾向を考慮して、第２実施形態の音声対話装置１００は、前述の通り、待機期間Ｑ内に複数の間投詞音声Ｖw，Ｖyを再生する。第２実施形態では、相づちを表す間投詞音声Ｖw「うん」と、言淀みを表す間投詞音声Ｖy「え〜と」とを待機期間Ｑ内に順次に再生させる場合を例示する。

また、現実の対話において、発話者の発話音声から対話相手の応答音声Ｖzまでに、複数の間投詞音声が対話相手により発声される場合、発話音声の直後に発声される音声の音高は発話音声の音高に依存し、応答音声の直前に発声される音声の音高は応答音声の音高に依存するという傾向がある。以上の傾向を前提として、第２実施形態では、発話音声Ｖxの音高に応じた音高の間投詞音声Ｖwと、応答音声Ｖzの音高に応じた音高の間投詞音声Ｖyとを再生する。

第２実施形態の音声対話装置１００は、第１実施形態と同様に、収音装置２０と記憶装置２２と制御装置２４と放音装置２６とを具備する。第２実施形態の収音装置２０は、第１実施形態と同様に、利用者Ｕの発話音声Ｖxを表す発話信号Ｘを生成する。第２実施形態の記憶装置２２は、第１実施形態と同様の間投詞音声Ｖy「え〜と」を表す音声信号Ｙ1に加えて、所定の音高の間投詞音声Ｖw「うん」を表す音声信号Ｗ1を記憶する。

第２実施形態の制御装置２４は、第１実施形態と同様に、利用者Ｕとの対話を成立させるための複数の機能（応答生成部４１，音高調整部４３，第１再生指示部４５および第２再生指示部４７）を実現する。第２実施形態の応答生成部４１は、第１実施形態と同様に、発話音声Ｖx「学校の場所をおしえて？」に対する応答音声Ｖz「三丁目の角」を生成する。具体的には、応答生成部４１は、発話音声Ｖx「学校の場所をおしえて？」の発話信号Ｘに対する音声認識により発話内容を特定し、発話内容に対する応答文字列を表す応答信号Ｚを生成する。

第２実施形態の音高調整部４３は、利用者Ｕの発話音声Ｖxの音高Ｐxに応じて間投詞音声Ｖwの音高を調整するとともに、応答音声Ｖzの音高Ｐzに応じて間投詞音声Ｖyの音高を調整する。間投詞音声Ｖwの音高の調整については、音高調整部４３は、記憶装置２２に記憶された音声信号Ｗ1の音高を、発話音声Ｖxの音高Ｐxに応じて調整することで、間投詞音声Ｖwの音声信号Ｗ2を生成する。なお、間投詞音声Ｖyの音高の調整については、音高調整部４３は、第１実施形態と同様に、音声信号Ｙ1が表す初期的な間投詞音声Ｖy「え〜と」を応答音声Ｖzの音高Ｐzに応じて調整することで、間投詞音声Ｖy「え〜と」を表す音声信号Ｙ2を生成する。

第２実施形態の第１再生指示部４５は、待機期間Ｑ内に、音高調整部４３により音高が調整された間投詞音声Ｖw「うん」および間投詞音声Ｖy「え〜と」の再生を指示する、つまり間投詞音声Ｖwを表す音声信号Ｗ2と間投詞音声Ｖyを表す音声信号Ｙ2とを放音装置２６に供給する。具体的には、第１再生指示部４５は、図４の待機期間Ｑにおける間投詞音声Ｖwの再生と、待機期間Ｑのうちの間投詞音声Ｖwの再生後における間投詞音声Ｖyの再生とを指示する。

第２実施形態の第２再生指示部４７は、第１実施形態と同様に、間投詞音声Ｖyの再生後に応答生成部４１が生成した応答信号Ｚを放音装置２６に供給することで、間投詞音声Ｖyの再生後における応答音声Ｖzの再生を指示する。

放音装置２６は、第１再生指示部４５から供給された音声信号Ｗ2が表す間投詞音声Ｖw「うん」と音声信号Ｙ2が表わす間投詞音声Ｖy「え〜と」とを順次に再生した後に、第２再生指示部４７から供給された応答信号Ｚが表わす応答音声Ｖz「三丁目の角」を再生する。発話音声Ｖxの終点ｔxから応答音声Ｖzの再生が開始される時点ｔZまでの待機期間Ｑ内の途中の時点ｔWにおいて、間投詞音声Ｖwの再生が指示され、終点ｔwから時点ｔZまでの期間の途中の時点ｔYにおいて間投詞音声Ｖyの再生が指示される。以上の説明から理解される通り、利用者Ｕが発話音声Ｖx「学校の場所をおしえて？」を発声すると、相づちを表す間投詞音声Ｖw「うん」と言淀みを表す間投詞音声Ｖy「え〜と」との再生に後続して応答音声Ｖz「三丁目の角」が再生される。

図５は、第２実施形態の制御装置２４が実行する処理のフローチャートである。第２実施形態では、第１実施形態で例示したスッテップＳA1〜ＳA7に、間投詞音声Ｖwを再生させるための処理（ＳB1〜ＳB3）を追加する。処理の開始から応答信号Ｚを生成する処理（ＳA3）までは第１実施形態と同様である。

音高調整部４３は、収音装置２０が生成した発話信号Ｘから発話音声Ｖx「学校の場所をおしえて？」の音高Ｐxを特定する（ＳB1）。音高Ｐxは、図４に例示される通り、例えば、発話音声Ｖxのうち終点ｔxを含む末尾区間Ｅx内の音高の最低値（以下「最低音高」という）Ｐxminである。末尾区間Ｅxは、例えば発話音声Ｖxのうち終点ｔx以前の所定長（例えば数秒）にわたる一部の区間である。例えば、図４から理解される通り、疑問文の発話音声Ｖx「学校の場所をおしえて？」では終点ｔxの近傍にて音高が上昇する傾向がある。したがって、発話音声Ｖxの音高の推移が低下から上昇に転換する極小点での音高（最低音高Ｐxmin）が音高Ｐとして特定される。なお、末尾区間Ｅxは、発話音声Ｖxのうち終点ｔxを含む所定の割合の区間に限定されない。例えば、発話音声Ｖxのうち終点ｔxを含む所定の割合の区間を末尾区間Ｅxとして画定することも可能である。また、発話音声Ｖxのうち終点ｔxの近傍の時点（終点ｔxよりも過去の時点）を終点として末尾区間Ｅxを画定する（すなわち発話音声Ｖxのうち終点ｔxの近傍の区間を除外して末尾区間Ｅxを特定する）ことも可能である。以上の例示から理解される通り、末尾区間Ｅxは、発話音声Ｖxのうち終点ｔx付近の区間として包括的に表現される。

音高調整部４３は、発話音声Ｖx「学校の場所をおしえて？」について特定した音高Ｐx（最低音高Ｐxmin）応じて間投詞音声Ｖw「うん」の音高を調整する（ＳB2）。具体的には、第２実施形態の音高調整部４３は、発話音声Ｖxについて特定した最低音高Ｐxminに間投詞音声Ｖwの音声信号Ｗ1のうち時間軸上の特定の時点（以下「目標点」という）τwでの音高が一致するように当該間投詞音声Ｖwの音高を調整することで、間投詞音声Ｖw「うん」を表す音声信号Ｗ2を生成する。目標点τwの好適例は、間投詞音声Ｖwを構成する複数のモーラのうち特定のモーラ（典型的には最後のモーラ）の始点である。例えば、「うん」という間投詞音声Ｖwの音声信号Ｗ1を想定すると、図４から理解される通り、音声信号Ｗ1のうち最後のモーラである「ん」の始点の音高が最低音高Ｐxminに一致するように音声信号Ｗ1の全区間にわたる音高を調整（ピッチシフト）することで、間投詞音声Ｖwの音声信号Ｗ2が生成される。なお、音高の調整には公知の技術が任意に採用され得る。また、目標点τwは、間投詞音声Ｖwのうち最後のモーラの始点に限定されない。例えば、間投詞音声Ｖwの始点（時点ｔW）や終点ｔwを目標点τwとして音高を調整することも可能である。

第１再生指示部４５は、待機期間Ｑ内に、音高調整部４３が生成した音声信号Ｗ2を放音装置２６に供給することで、音高を調整した間投詞音声Ｖw「うん」の再生を指示する（ＳB3）。間投詞音声Ｖwの再生が指示された後に、間投詞音声Ｖyの音高の調整および再生の指示（ＳA4〜ＳA6）と、応答音声Ｖzの再生の指示（ＳA7）とが、第１実施形態と同様に順次実行される。

第２実施形態においても第１実施形態と同様の効果が実現される。第２実施形態では、待機期間Ｑ内に複数の間投詞音声Ｖw，Ｖyが再生されるので、現実の対話をより適切に模擬した音声対話の実現が可能である。また、第２実施形態では、発話音声Ｖxの直後に再生される間投詞音声Ｖwは発話音声Ｖxの音高Ｐxに応じた音高で再生され、応答音声Ｖzの直前に再生される間投詞音声Ｖyは応答音声Ｖzの音高Ｐzに応じた音高で再生されるので、より現実の対話に近い自然な音声対話を模擬できる。

＜変形例＞
以上に例示した各態様は多様に変形され得る。具体的な変形の態様を以下に例示する。以下の例示から任意に選択された２個以上の態様は、相互に矛盾しない範囲で適宜に併合され得る。

（１）前述の各形態では、間投詞音声Ｖyの再生後に発話音声Ｖxに対する応答音声Ｖzを再生したが、利用者Ｕが発話音声Ｖxを発声していない状態で、音声対話装置１００が間投詞音声Ｖyおよび応答音声Ｖzを再生することも想定され得る。つまり、発話音声Ｖxは省略され得る。音声対話装置１００は、例えば、間投詞音声Ｖy「え〜と」の再生後に、利用者Ｕに質問をする音声「今日の天気は？」を再生する。また、利用者Ｕが入力機器により入力した文字列に対する応答を表す応答音声Ｖzを再生する構成も採用され得る。以上の説明から理解される通り、間投詞音声Ｖyの再生後に再生される音声は、発話音声Ｖxに対する応答の音声には限定されず、対話のための（つまり対話を構成する）対話音声として包括的に表現される。前述の各形態における応答音声Ｖzは、対話音声の例示である。

（２）前述の各形態では、応答音声Ｖzの再生前に間投詞音声Ｖyを再生したが、応答音声Ｖzの再生前に再生する音声の内容は以上の例示（つまり間投詞）に限定されない。例えば応答音声Ｖzの再生前に特定の意味を持つ音声（例えば複数の語句で構成される文章）が再生されることも想定され得る。以上の説明から理解される通り、応答音声Ｖzの再生前に再生される音声は、応答音声Ｖzに先行して再生される先行音声として包括的に表現され、間投詞音声Ｖyは先行音声の例示である。なお、第２実施形態の間投詞音声Ｖwについても、間投詞音声Ｖyの再生前に間投詞音声Ｖwを再生したが、間投詞音声Ｖyの再生前に再生する音声の内容は以上の例示（つまり間投詞）に限定されない。間投詞音声Ｖyの再生前に再生される音声は、間投詞を表す音声には限定されず、間投詞音声Ｖyに先行して再生される初期音声として包括的に表現される。前述の各形態における間投詞音声Ｖwは、初期音声の例示である。

（３）第２実施形態では、２個の間投詞音声Ｖw，Ｖyを待機期間Ｑ内に再生させたが、３個以上の音声を待機期間Ｑ内に再生させる構成も採用され得る。待機期間Ｑ内の音声の総数に関わらず、発話音声Ｖxの直後に再生される音声が発話音声Ｖxの音高Ｐxに応じて調整され、応答音声Ｖzの直前の音声が応答音声Ｖzの音高Ｐzに応じて調整する構成が好適である。以上の構成によれば、前述の各形態と同様に、より現実の対話に近い自然な音声対話を模擬できるという効果は担保される。なお、待機期間Ｑ内に再生される複数の音声の内容（音韻）の異同は不問である。

（４）前述の各形態では、間投詞音声Ｖyのうち目標点τyの音高を応答音声Ｖzの末尾区間Ｅz内の最低音高Ｐzminに一致させる構成を例示したが、間投詞音声Ｖyの目標点τyでの音高と応答音声Ｖzの音高Ｐzとの関係は以上の例示（両者が一致する関係）に限定されない。例えば、間投詞音声Ｖyの目標点τyでの音高を、応答音声Ｖzの音高Ｐzに所定の調整値（オフセット）を加算または減算した音高に一致させることも可能である。調整値は、事前に選定された固定値（例えば最低音高Ｐzminに対して５度等の音程に相当する数値）または利用者Ｕからの指示に応じた可変値である。なお、第２実施形態においても、間投詞音声Ｖwの目標点τwでの音高と発話音声Ｖxの最低音高Ｐxminとの関係は両者が一致する関係に限定されない。第２実施形態において調整値をオクターブの整数倍に相当する数値に設定した構成を採用する場合、最低音高Ｐxminをオクターブシフトした音高の間投詞音声Ｖwが再生される。なお、調整値を適用するか否かを利用者Ｕからの指示に応じて切替えることも可能である。

（５）前述の各形態では、応答音声Ｖzの末尾区間Ｅzの最低音高Ｐzminに応じて間投詞音声Ｖyの音高を調整したが、応答音声Ｖzにおける任意の時点の音高Ｐzが間投詞音声Ｖyの音高の調整に利用され得る。ただし、現実の対話に近い自然な音声対話の実現という観点からは、応答音声Ｖzの末尾区間（つまり終点ｔz付近）Ｅzの音高Ｐz（特に最低音高Ｐzmin）に応じて調整する構成が好適に採用され得る。なお、第２実施形態においても、発話音声Ｖxにおける任意の時点の音高Ｐxが間投詞音声Ｖwの音高の調整に利用され得る。

（６）前述の各形態において、発話音声Ｖxに応じて、間投詞音声Ｖyの再生を指示するか否かを第１再生指示部４５が決定する構成も好適に採用され得る。例えば発話内容に応じて間投詞音声Ｖyの再生を指示するか否かを決定することも可能である。第１再生指示部４５は、例えば、発話内容が疑問文である場合は間投詞音声Ｖyの再生を指示するのに対して、発話内容が平叙文である場合は間投詞音声Ｖyの再生を指示しない。また、発話音声Ｖxの時間長に応じて間投詞音声Ｖyの再生を指示するか否かを決定することも可能である。第１再生指示部４５は、例えば、発話音声Ｖxの時間長が所定値を上回る場合は間投詞音声Ｖyの再生を指示するのに対して、発話音声Ｖxの時間長が所定値を下回る場合は間投詞音声Ｖyの再生を指示しない。

また、応答音声Ｖzに応じて間投詞音声Ｖyの再生を指示するか否かを第１再生指示部４５が決定する構成も好適に採用され得る。例えば応答音声Ｖzの内容に応じて間投詞音声Ｖyの再生を指示するか否かを決定することも可能である。第１再生指示部４５は、例えば、応答音声Ｖzの内容が複数の語句で構成される文章である場合は間投詞音声Ｖyの再生を指示するのに対して、応答音声Ｖzの内容が１つの語句（例えば指示代名詞「そこ」）で構成される場合は間投詞音声Ｖyの再生を指示しない。また、応答音声Ｖzの時間長に応じて間投詞音声Ｖyの再生を指示するか否かを決定することも可能である。第１再生指示部４５は、例えば、応答音声Ｖzの時間長が所定値を上回る場合は間投詞音声Ｖyの再生を指示するのに対して、応答音声Ｖzの時間長が所定値を下回る場合は間投詞音声Ｖyの再生を指示しない。以上の説明から理解される通り、発話音声Ｖxまたは応答音声Ｖzに応じて、間投詞音声Ｖyの再生を指示するか否かを決定する構成も好適に採用され得る。以上の構成によれば、発話音声Ｖxおよび応答音声Ｖzに依存せずに常に先行音声が再生される構成と比較して、より現実の対話に近い自然な音声対話を模擬できる。なお、第２実施形態においては、発話音声Ｖxまたは応答音声Ｖzに応じて、間投詞音声Ｖwの再生を指示するか否かを決定することも可能である。

（７）前述の各形態では、待機期間Ｑ内の途中の時点ｔYにおいて間投詞音声Ｖyの再生を指示したが、間投詞音声Ｖyの再生を指示する時点ｔYを発話音声Ｖxまたは応答音声Ｖzの時間長に応じて可変に設定することも可能である。例えば、発話音声Ｖxまたは応答音声Ｖzの時間長が長い場合（例えば複数の語句から構成される文章を表す応答音声Ｖzの場合）は、応答音声Ｖzの再生が開始される時点ｔZに近い時点ｔYを設定するのに対して、発話音声Ｖxまたは応答音声Ｖzの時間長が短い場合（例えば１つの語句を表す応答音声Ｖzの場合）は、発話音声Ｖxの終点ｔxに近い時点ｔYを設定する。

ここで、利用者Ｕの発話音声Ｖxの発声と音声対話装置１００の応答音声Ｖzの再生とは、現実の人間同士の対話と同様に、往復して複数回実行され得る。そこで、待機期間Ｑ内の途中の時点ｔYを応答音声Ｖzの終点tzから、次の発話音声Ｖxが利用者により開始される時点ｔXまでの時間長に応じて可変に設定することも可能である。以上の構成によれば、利用者Ｕの発話のペースで音声対話装置１００との対話が実現できるという利点がある。なお、間投詞音声Ｖyの再生を指示する時点ｔYを対話毎に無作為に設定する構成も採用され得る。

（８）前述の各形態では、記憶装置２２に記憶された音声信号Ｙ1の音高を、応答音声Ｖzの音高Ｐzに応じて調整することで、間投詞音声Ｖyの音声信号Ｙ2を生成する構成を例示したが、間投詞音声Ｖyを表す音声信号Ｙ2を生成する方法は以上の例示に限定されない。例えば、間投詞「え〜と」の文字列を発話した音声（すなわち間投詞音声Ｖy）を表す音声信号Ｙ2を公知の音声合成技術により生成する構成も好適に採用され得る。具体的には、音高調整部４３は、応答音声Ｖzの音高Ｐzに応じて調整した音高の間投詞音声Ｖyを表す音声信号Ｙ2を生成する。つまり、記憶装置２２への音声信号Ｙ1の記憶は省略され得る。以上の説明から理解される通り、応答音声Ｖzの音高Ｐzに応じて間投詞音声Ｖyの音高を調整する方法（つまり間投詞音声Ｖyの音声信号Ｙ2を生成する方法）は任意である。なお、第２実施形態の間投詞音声Ｖwの音声信号Ｗ2の生成についても、間投詞「うん」の文字列を発話した音声（すなわち間投詞音声Ｖw）を表す音声信号Ｗ2を発話音声Ｖxの音高Ｐxに応じた音高で、公知の音声合成技術により生成することも可能である。すなわち、発話音声Ｖxの音高Ｐxに応じて間投詞音声Ｖwの音高を調整する方法（つまり間投詞音声Ｖwの音声信号Ｗ2を生成する方法）は任意である。

（９）前述の各形態では、応答音声Ｖzの音高Ｐzに応じて間投詞音声Ｖyの音高を調整したが、調整対象となる間投詞音声Ｖyの韻律の種類は音高に限定されない。韻律（プロソディ）は、音声の受聴者が知覚し得る言語学的および音声学的な特性であり、言語の一般的な表記（例えば韻律を表す特別な表記を除いた表記）のみからでは把握できない性質を意味する。韻律は、発話者の意図または感情を受聴者に想起ないし推測させ得る特性とも換言され得る。具体的には、音量，抑揚（音声の調子の変化もしくはイントネーション），音調（音声の高低もしくは強弱），音長（発話長），話速，リズム（音調の時間的な変化の構造），またはアクセント（高低もしくは強弱のアクセント）等の種々の特徴が、韻律の概念には包含され得るが、韻律の典型例は音高である。応答音声Ｖzの韻律に応じて間投詞音声Ｖyの韻律を調整する構成であれば、自然な音声対話を実現することが可能である。なお、発話音声Ｖxの音高Ｐxに応じて間投詞音声Ｖwの音高を調整する第２実施形態についても、調整対象となる間投詞音声Ｖwの韻律の種類は音高に限定されない。

（１０）前述の各形態で例示した音声対話装置１００は、前述の通り、制御装置２４と音声対話用のプログラムとの協働で実現され得る。音声対話用のプログラムは、コンピュータが読取可能な記録媒体に格納された形態で提供されてコンピュータにインストールされ得る。記録媒体は、例えば非一過性（non-transitory）の記録媒体であり、ＣＤ-ＲＯＭ等の光学式記録媒体（光ディスク）が好例であるが、半導体記録媒体や磁気記録媒体等の公知の任意の形式の記録媒体を包含し得る。また、通信網を介した配信の形態でプログラムをコンピュータに配信することも可能である。

（１１）本発明は、前述の各形態に係る音声対話装置１００の動作方法（音声対話方法）としても特定され得る。音声対話方法の動作主体となるコンピュータ（音声対話装置１００）は、例えば単体のコンピュータまたは複数のコンピュータで構成されるシステムである。具体的には、本発明の好適な態様の音声対話方法は、対話のための対話音声の音高に応じて、当該対話音声に先行して再生される先行音声の音高を調整する音高調整ステップと、音高調整ステップが調整した先行音声の再生を指示する第１再生指示ステップと、第１再生指示ステップによる先行音声の再生後における対話音声の再生を指示する第２再生指示ステップとを含む。

（１２）以上に例示した形態から、例えば以下の構成が把握される。
＜態様１＞
本発明の好適な態様（態様１）に係る音声対話方法は、対話のための対話音声の音高に応じて、当該対話音声に先行して再生される先行音声の音高を調整する音高調整ステップと、前記音高調整ステップにおいて調整した前記先行音声の再生を指示する第１再生指示ステップと、前記第１再生指示ステップによる前記先行音声の再生後における前記対話音声の再生を指示する第２再生指示ステップとを含む。現実の人間が複数の音声を順次に発声する場合、各々の音声の音高が相互に影響を受ける（つまり先行する音声の音高は後続する音声の音高に依存する）という傾向がある。以上の方法では、対話音声の再生に先立って、対話音声の音高に応じて音高を調整した先行音声が再生されるので、前述の傾向を模擬した自然な音声対話を実現することが可能である。

＜態様２＞
態様１の好適例（態様２）に係る音声対話方法において、前記対話音声は、発話音声に対する応答音声であり、前記先行音声は、間投詞の音声であり、前記第１再生指示ステップでは、前記発話音声から前記応答音声の再生までの待機期間内に前記先行音声の再生を指示する。現実の人間同士の対話において、発話者の発話音声と対話相手が発音する応答音声との間には、対話相手による何らかの音声（典型的には間投詞）が発声されるという傾向がある。発話音声に対する応答音声の再生の前に間投詞の音声が再生される以上の方法によれば、現実の対話の傾向を模擬した自然な音声対話を実現することができる。また、間投詞音声と応答音声とを発話者が順次に発声する場合に、間投詞音声の音高が直後の応答音声の音高に依存するという傾向は顕著である。したがって、発話音声に対する応答音声の再生の前に間投詞の音声が再生される以上の方法によれば、自然な音声対話を実現できるという前述の効果は特に有効である。

＜態様３＞
態様１または態様２の好適例（態様３）に係る音声対話方法において、前記音高調整ステップでは、前記対話音声のうち終点付近の音高に応じて前記先行音声の音高を調整する。以上の方法では、対話音声のうち終点付近の音高に応じた音高の先行音声が再生されるから、現実の対話に近い自然な音声対話を実現できるという効果は格別に顕著である。

＜態様４＞
態様３の好適例（態様４）に係る音声対話方法において、前記音高調整ステップでは、前記対話音声のうち終点付近の最低音高に前記先行音声の終点の音高が一致するように調整する。以上の方法では、対話音声の終点付近の最低音高に先行音声の終点の音高が一致するように先行音声が再生されるので、現実の対話に近い自然な音声対話を実現できるという効果は格別に顕著である。

＜態様５＞
態様２の好適例（態様５）に係る音声対話方法において、前記第１再生指示ステップでは、前記発話音声または前記対話音声に応じて、前記先行音声の再生を指示するか否かを決定することを含む。以上の方法では、発話音声または対話音声に応じて、先行音声を再生させるか否かが決定するから、発話音声および対話音声によらず常に先行音声が再生される方法と比較して、より現実の対話に近い自然な音声対話を模擬できる。

＜態様６＞
態様５の好適例（態様６）に係る音声対話方法において、前記第１再生指示ステップでは、前記発話音声または前記対話音声の時間長に応じて、前記先行音声の再生を指示するか否かを決定する。以上の方法では、発話音声または対話音声の時間長に応じて、先行音声の再生の有無が決定する。

＜態様７＞
態様２の好適例（態様７）に係る音声対話方法において、前記第１再生指示ステップでは、前記待機期間のうち前記発話音声または前記対話音声の時間長に応じた時点において前記先行音声の再生を指示する。以上の方法では、待機期間のうち発話音声または対話音声の時間長に応じた時点において先行音声が再生されるので、先行音声が再生さされる時点が発話音声または対話音声の時間長に関わらず変化しない構成と比較して、利用者に機械的に印象を与えることを低減することができる。

＜態様８＞
態様２の好適例（態様８）に係る音声対話方法において、前記音高調整ステップでは、前記発話音声の音高に応じて、前記先行音声に先行して再生される初期音声の音高を調整し、前記第１再生指示ステップでは、前記待機期間における前記調整後の前記初期音声の再生と、前記待機期間のうち当該初期音声の再生後における前記先行音声の再生とを指示する。以上の方法では、発話音声から先行音声の再生までの期間に、発話音声の音高に応じた音高の初期音声が再生されるので、より現実の対話に近い自然な音声対話を模擬できる。

＜態様９＞
本発明の好適な態様（態様９）に係る音声対話装置は、対話のための対話音声の音高に応じて、当該対話音声に先行して再生される先行音声の音高を調整する音高調整部と、前記音高調整部が調整した前記先行音声の再生を指示する第１再生指示部と、前記第１再生指示部による前記先行音声の再生後における前記対話音声の再生を指示する第２再生指示部とを具備する。現実の人間が複数の音声を順次に発声する場合、各々の音声の音高が相互に影響を受ける（つまり先行する音声の音高は後続する音声の音高に依存する）という傾向がある。以上の構成では、対話音声の再生に先立って、対話音声の音高に応じて音高を調整した先行音声が再生されるので、前述の傾向を模擬した自然な音声対話を実現することが可能である。

１００……音声対話装置、２０……収音装置、２２……記憶装置、２４……制御装置、２６……放音装置、４１……応答生成部、４３……音高調整部、４５……第１再生指示部、４７……第２再生指示部。

Claims

対話のための対話音声の音高に応じて、当該対話音声に先行して再生される先行音声の音高を調整する音高調整ステップと、
前記音高調整ステップにおいて調整した前記先行音声の再生を指示する第１再生指示ステップと、
前記第１再生指示ステップによる前記先行音声の再生後における前記対話音声の再生を指示する第２再生指示ステップと
を含む音声対話方法。
前記対話音声は、発話音声に対する応答音声であり、
前記先行音声は、間投詞の音声であり、
前記第１再生指示ステップでは、前記発話音声から前記応答音声の再生までの待機期間内に前記先行音声の再生を指示する
請求項１の音声対話方法。
前記音高調整ステップでは、前記対話音声のうち終点付近の音高に応じて前記先行音声の音高を調整する
請求項１または請求項２の音声対話方法。
前記音高調整ステップでは、前記対話音声のうち終点付近の最低音高に前記先行音声の終点の音高が一致するように調整する
請求項３の音声対話方法。
前記第１再生指示ステップでは、前記発話音声または前記対話音声に応じて、前記先行音声の再生を指示するか否かを決定することを含む
請求項２の音声対話方法。
前記第１再生指示ステップでは、前記発話音声または前記対話音声の時間長に応じて、前記先行音声の再生を指示するか否かを決定する
請求項５の音声対話方法。
前記第１再生指示ステップでは、前記待機期間のうち前記発話音声または前記対話音声の時間長に応じた時点において前記先行音声の再生を指示する
請求項２の音声対話方法。
前記音高調整ステップでは、前記発話音声の音高に応じて、前記先行音声に先行して再生される初期音声の音高を調整し、
前記第１再生指示ステップでは、前記待機期間における前記調整後の前記初期音声の再生と、前記待機期間のうち当該初期音声の再生後における前記先行音声の再生とを指示する
請求項２の音声対話方法。
対話のための対話音声の音高に応じて、当該対話音声に先行して再生される先行音声の音高を調整する音高調整部と、
前記音高調整部が調整した前記先行音声の再生を指示する第１再生指示部と、
前記第１再生指示部による前記先行音声の再生後における前記対話音声の再生を指示する第２再生指示部と
を具備する音声対話装置。