JP2019060941A

JP2019060941A - 音声処理方法

Info

Publication number: JP2019060941A
Application number: JP2017183546A
Authority: JP
Inventors: 嘉山　啓; Hiroshi Kayama; 啓嘉山
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2017-09-25
Filing date: 2017-09-25
Publication date: 2019-04-18
Also published as: WO2019059094A1

Abstract

【課題】自然な音声対話を実現する。【解決手段】コンピュータが、発話信号Ｘが表す発話音声Ｖxの韻律Ｐxを特定し、発話音声Ｖxの韻律Ｐxの変化に応じた韻律Ｐyの応答音声Ｖyを表す応答信号Ｙを生成する。【選択図】図２

Description

本発明は、音声対話に好適な技術に関する。

利用者による発話に対する応答（例えば質問に対する回答）の音声を再生することで利用者との対話を実現する音声対話の技術が従来から提案されている。例えば特許文献１には、利用者の発話音声に対する音声認識で発話内容を解析し、解析結果に応じた応答音声を合成および再生する技術が開示されている。

特開２０１２−１２８４４０号公報

しかし、特許文献１を含む既存の技術のもとでは、現実の人間同士の対話の傾向を忠実に反映した自然な音声対話を実現することは実際には困難であり、機械的で不自然な印象を利用者が感取し得るという問題がある。以上の事情を考慮して、本発明は、自然な音声対話の実現を目的とする。

以上の課題を解決するために、本発明の好適な態様に係る音声処理方法は、コンピュータが、第１音声信号が表す第１音声の韻律を発音期間毎に特定し、複数の発音期間における前記第１音声の韻律の変化に応じた韻律の第２音声を表す第２音声信号を生成する。

第１実施形態に係る音声対話装置の構成を示すブロック図である。音声対話装置の動作を示すフローチャートである。発話音声の韻律と応答音声の韻律との関係を示す説明図である。韻律変化指標と応答音声の韻律の変化量との関係を示すグラフである。発音間隔を韻律とした場合における応答音声の韻律の説明図である。発音長を韻律とした場合における応答音声の韻律の説明図である。第２実施形態における音声対話装置の動作を示すフローチャートである。

＜第１実施形態＞
図１は、本発明の第１実施形態に係る音声対話装置１００の構成図である。第１実施形態の音声対話装置１００は、利用者Ｕが発音した入力音声（以下「発話音声」という）Ｖxに対して応答する音声（以下「応答音声」という）Ｖyを再生するコンピュータシステムである。例えば携帯電話機またはスマートフォン等の可搬型の情報処理装置、または、パーソナルコンピュータ等の情報処理装置が音声対話装置１００として利用される。また、動物等の外観を模擬した玩具（例えば動物のぬいぐるみ等の人形）またはロボットの形態で音声対話装置１００を実現することも可能である。

発話音声（speech sound）Ｖxは、例えば問掛け（質問）および話掛けを含む発話の音声であり、応答音声Ｖyは、問掛けに対する回答または話掛けに対する受応えを含む応答の音声である。応答音声Ｖyには、例えば間投詞を意味する音声も含まれる。間投詞は、他の分節から独立して利用されて活用のない自立語（感動詞または感嘆詞）である。具体的には、発話に対する相鎚を表す「うん（un）」および「ええ（ee）」等の語句（英語では“aha”または“right”）、言淀み（応答の停滞）を表す「え〜と（eto）」および「あの〜（ano）」等の語句（英語では“um”または“er”）、応答（質問に対する肯定または否定）を表す「はい（hai）」および「いいえ（iie）」等の語句（英語では“yes”または“no”）、話者の感動を表す「ああ（aa）」および「おお（oo）」等の語句（英語では“ah”または“woo”）、ならびに、発話に対する問返し（聞き直し）を意味する「え？（e）」「なに？（nani）」等の語句（英語では“pardon?”または“sorry?”）が、間投詞として例示される。

第１実施形態の音声対話装置１００は、発話音声Ｖx（第１音声の例示）の韻律に応じた韻律の応答音声Ｖy（第２音声の例示）を生成する音声処理装置である。韻律（プロソディ）は、音声の受聴者が知覚し得る言語学的および音声学的な特性であり、言語の一般的な表記（例えば韻律を表す特別な表記を除いた表記）のみからでは把握できない性質を意味する。韻律は、発話者の意図または感情を受聴者に想起ないし推測させ得る特性とも換言される。具体的には、抑揚（音声の調子の変化もしくはイントネーション），音調（音声の高低もしくは強弱），音長（発話長），話速，リズム（音調の時間的な変化の構造），またはアクセント（高低もしくは強弱のアクセント）等の種々の特徴が、韻律の概念には包含されるが、韻律の典型例は音高（基本周波数）または音量である。

図１に例示される通り、第１実施形態の音声対話装置１００は、制御装置２０と記憶装置２２と音声入力装置２４と再生装置２６とを具備する。音声入力装置２４は、例えば利用者Ｕの発話音声Ｖxを表す音声信号（以下「発話信号」という）Ｘを生成する要素であり、収音装置２４２とＡ/Ｄ変換器２４４とを具備する。収音装置２４２は、利用者Ｕが発音した発話音声Ｖx（第１音声信号の例示）を収音して当該発話音声Ｖxの音圧変動を表すアナログの音声信号を生成する。Ａ/Ｄ変換器２４４は、収音装置２４２が生成した音声信号をデジタルの発話信号（speech signal）Ｘに変換する。

制御装置２０は、音声対話装置１００の各要素を統括的に制御する演算処理装置（例えばＣＰＵ）である。第１実施形態の制御装置２０は、音声入力装置２４から供給される発話信号Ｘを取得し、発話音声Ｖxに対する応答音声Ｖyを表す応答信号Ｙ（第２音声信号の例示）を生成する。再生装置２６は、制御装置２０が生成した応答信号Ｙに応じた応答音声Ｖyを再生する要素であり、Ｄ/Ａ変換器２６２と放音装置２６４とを具備する。Ｄ/Ａ変換器２６２は、制御装置２０が生成したデジタルの応答信号Ｙをアナログの音声信号に変換し、放音装置２６４（例えばスピーカまたはヘッドホン）は、変換後の音声信号に応じた応答音声Ｖyを音波として放音する。再生装置２６には、応答信号Ｙを増幅する増幅器等の処理回路も包含される。発話信号Ｘおよび応答信号Ｙは、例えばwav形式の音声データである。

記憶装置２２は、制御装置２０が実行するプログラムと制御装置２０が使用する各種のデータとを記憶する。例えば半導体記録媒体または磁気記録媒体等の公知の記録媒体、あるいは、複数の記録媒体の組合せが記憶装置２２として任意に採用される。第１実施形態の記憶装置２２は、特定の発話内容の応答音声を表す音声信号Ｚを記憶する。以下の説明では、間投詞の一例である相鎚を意味する「うん」等の応答音声の音声信号Ｚが記憶装置２２に記憶された場合を例示する。音声信号Ｚは、事前に収録され、例えばwav形式等の任意の形式の音声データとして記憶装置２２に記憶される。

制御装置２０は、記憶装置２２に記憶されたプログラムを実行することで、利用者Ｕとの音声対話を成立させるための複数の機能（音声解析部３４および応答生成部３６）を実現する。なお、制御装置２０の機能を複数の装置（すなわちシステム）で実現した構成、または、制御装置２０の機能の一部を専用の電子回路が実現する構成を採用してもよい。

音声解析部３４は、音声入力装置２４が生成した発話信号Ｘから発話音声Ｖxの韻律Ｐxを特定する。韻律Ｐxは、発話信号Ｘから抽出可能な音響的な特徴量である。第１実施形態の音声解析部３４は、発話音声Ｖxの発音期間毎に韻律Ｐxを順次に特定する。前述の通り発話音声Ｖxについては複数種の韻律が特定され得るが、音声解析部３４は、複数種のうち実行中のプログラムが必要とする特定の種類の韻律Ｐxの数値を特定する。任意の１個の発音期間は、利用者Ｕによる１回分の発話（例えば問掛けおよび話掛け）として把握される一連の期間であり、例えば発話音声Ｖxの音量が継続的に所定の閾値を上回る期間である。１回の応答に対応する発話の期間を発音期間として定義してもよい。具体的には、音声解析部３４は、発音期間内において所定の周期で特定された複数の韻律の代表値（例えば平均値）を当該発音期間の韻律Ｐxとして特定する。また、発音期間内の特定の時点（例えば終点）における韻律を当該発音期間の韻律Ｐxとして特定してもよい。発音期間のうち発話音声Ｖxの最後の音韻の直前の時点から韻律Ｐxを特定してもよい。

応答生成部３６は、応答音声Ｖyを表す応答信号Ｙを生成する。具体的には、応答生成部３６は、音声解析部３４が特定した韻律Ｐxの時間的な変化に応じた韻律Ｐyの応答音声Ｖyを表す応答信号Ｙを生成する。前述の通り韻律Ｐxは発音期間毎に特定されるから、韻律Ｐxの時間的な変化は、相前後する発音期間の間における韻律Ｐxの変化を意味し、１個の発音期間内における韻律の変化ではない。韻律Ｐyは、韻律Ｐxと同種の特徴量であるが数値は相違する。第１実施形態の応答生成部３６は、記憶装置２２に記憶された音声信号Ｚの韻律Ｐzを韻律Ｐyに調整することで応答信号Ｙを生成する。応答生成部３６が生成した応答信号Ｙが再生装置２６に供給されることで応答音声Ｖyが再生される。すなわち、音声信号Ｚが表す初期的な応答音声を発話音声Ｖxの韻律Ｐxに応じて調整した応答音声Ｖyが再生装置２６から再生される。

図２は、第１実施形態の制御装置２０が実行する処理のフローチャートである。例えば音声対話装置１００に対する利用者Ｕからの指示（例えば音声対話用のプログラムの起動指示）を契機として図２の処理が開始される。図２の処理を開始すると、音声解析部３４は、音声入力装置２４が生成した発話信号Ｘを解析することで、発話音声Ｖxの１個の発音期間Ｔxについて韻律Ｐxを特定する（Ｓa1）。なお、韻律Ｐxは、基本的には発音期間Ｔxの終了とともに数値が確定するが、発音期間Ｔxの途中の時点で数値を確定させてもよい。図３には、発話音声Ｖxの第ｎ番目の発音期間Ｔx_nについて算定された韻律Ｐx_nが図示されている（ｎは自然数）。すなわち、図３は、利用者Ｕによる発音期間Ｔx_nの発話（例えば問掛けまたは話掛け）が完了した段階で実行される処理の説明図である。

応答生成部３６は、発話音声Ｖxの韻律Ｐxの変化の指標（以下「韻律変化指標」という）Ｄxを算定する（Ｓa2）。具体的には、音声解析部３４は、図３に例示される通り、発話音声Ｖxの最新の発音期間Ｔx_nについて算定された韻律Ｐx_nと、直前の発音期間Ｔx_n-1について算定された韻律Ｐx_n-1との差分を、韻律変化指標Ｄx_n（Ｄx_n＝Ｐx_n−Ｐx_n-1）として算定する。すなわち、韻律変化指標Ｄx_nは、相前後する２回分の発話音声Ｖxの間における韻律の差分（相前後する２回の発話の間における韻律の変化）の指標である。

応答生成部３６は、韻律変化指標Ｄx_nに応じた韻律Ｐyの応答信号Ｙを生成する（Ｓa3）。具体的には、応答生成部３６は、図３に例示される通り、韻律変化指標Ｄx_nに応じた変化量Ｄy_nだけ音声信号Ｚの韻律Ｐzを変化させることで、韻律Ｐyの応答音声Ｖyを表す応答信号Ｙを生成する。なお、最初の発音期間Ｔx_1の発話音声Ｖxが発音された段階では、相前後する２個の発音期間Ｔxについて韻律Ｐxの差分を算定できない。したがって、変化量Ｄy_1は所定の初期値に設定される。また、韻律変化指標Ｄx_n-1は、発話音声Ｖxの発音期間Ｔx_n-1について算定された韻律Ｐx_n-1と、直前の発音期間Ｔx_n-2について算定された韻律Ｐx_n-2との差分に応じて、以上に説明したのと同様の手順で算定される。

図４は、韻律変化指標Ｄxと変化量Ｄy（韻律Ｐzと韻律Ｐyとの差分）との関係を示すグラフである。図４のグラフは、韻律変化指標Ｄxから変化量Ｄyを決定するためのルールに相当する。図４に実線で例示される通り、韻律変化指標Ｄxの増加に対して変化量Ｄyが直線状に増加するように変化量Ｄyが決定される。例えば、変化量Ｄyは、韻律変化指標Ｄxと等しい数値に設定される。したがって、韻律Ｐx_nが韻律Ｐx_n-1を上回る場合（すなわち発話音声Ｖxの韻律Ｐxが増加した場合）には、応答音声Ｖyの韻律Ｐyは音声信号Ｚの韻律Ｐzを上回る数値に設定される。他方、韻律Ｐx_nが韻律Ｐx_n-1を下回る場合（すなわち発話音声Ｖxの韻律Ｐxが減少した場合）には、応答音声Ｖyの韻律Ｐyは音声信号Ｚの韻律Ｐzを下回る数値に設定される。なお、韻律変化指標Ｄxと変化量Ｄyとの関係は以上の例示に限定されない。例えば図４の破線で例示される通り、韻律変化指標Ｄxに対して変化量Ｄyを非線形に変化させてもよい。また、例えば、韻律変化指標Ｄx_nと初期値との加算値を変化量Ｄy_nとして算定してもよい。すなわち、韻律変化指標Ｄxと変化量Ｄyとの関係は、応答音声Ｖyの韻律Ｐyが発話音声Ｖxの韻律Ｐxに適した韻律となる関係であればよい。

以上の説明から理解される通り、図４に例示した所定のルールのもとで、応答音声Ｖyの韻律Ｐyを変化させる度合を表す変化量Ｄyが設定される。すなわち、相前後する発話音声Ｖxの韻律Ｐxの変化を示す韻律変化指標Ｄxから、直後に出力する応答音声Ｖyの韻律Ｐyを調整するための変化量Ｄyが設定される。以上の方法で設定された応答音声Ｖyの韻律Ｐyは、音声信号Ｚの韻律Ｐzを、問掛けまたは話掛け等の発話に調和するように調整した結果の韻律である。

応答生成部３６は、以上の処理で生成した応答信号Ｙを再生装置２６に供給することで応答音声Ｖyを再生する（Ｓa4）。応答音声Ｖyの再生が完了すると、制御装置２０は、音声対話の終了が利用者Ｕから指示されたか否かを判定する（Ｓa5）。音声対話の終了が指示されていない場合（Ｓa5：NO）、制御装置２０は処理をステップＳa1に移行する。以上の説明から理解される通り、発話音声Ｖxの韻律Ｐxの特定（Ｓa1）と、韻律変化指標Ｄxの算定（Ｓa2）と、韻律変化指標Ｄxに応じた韻律Ｐyの応答信号Ｙの生成（Ｓa3）と、応答音声Ｖyの再生（Ｓa4）とが、発話音声Ｖxの発音期間Ｔx毎に反復される。すなわち、利用者Ｕによる発話音声Ｖxの発音毎（発話信号Ｘの入力毎）にステップＳa1からステップＳa4の処理が実行される。したがって、利用者Ｕによる任意の発話音声Ｖxの発音と、当該発話音声Ｖxに対する応答音声Ｖyの再生とが交互に反復される音声対話が実現される。ステップＳa1からステップＳa4の処理は、利用者Ｕによる発話（入力）に発音期間Ｔx毎に逐次的に実行され、１回分の発話音声Ｖxに対する応答を生成する動作に相当する。

以上に説明した通り、第１実施形態では、発話音声Ｖxの韻律Ｐxの時間的な変化に応じた韻律Ｐyの応答音声Ｖyを表す応答信号Ｙが生成される。すなわち、発話音声Ｖxの韻律Ｐxに連動して応答音声Ｖyの韻律Ｐyが変化する。したがって、発話音声の韻律の変化に対話相手の応答音声の韻律が連動するという現実の対話の傾向を模擬した自然な音声対話を実現することが可能である。

＜韻律Ｐxおよび韻律Ｐyの具体例＞
第１実施形態における韻律Ｐxおよび韻律Ｐyの具体例を説明する。

（１）韻律Ｐxおよび韻律Ｐyの第１例は音高（基本周波数）である。利用者Ｕが発話音声Ｖxの音高を経時的に（すなわち相前後する２個の発音期間Ｔxの間で）上昇させると、その上昇に連動して各発話音声Ｖxに対する応答音声Ｖyの音高も上昇する。

（２）韻律Ｐxおよび韻律Ｐyの第２例は音量である。利用者Ｕが発話音声Ｖxの音量を経時的に増加させると、その増加に連動して応答音声Ｖyの音量が増加する。

（３）韻律Ｐxおよび韻律Ｐyの第３例は話速である。話速は、発話の速度を意味する。例えば単位時間内の音声に含まれる音素の個数が話速に相当する。利用者Ｕが発話音声Ｖxの話速を経時的に上昇させると、その上昇に連動して応答音声Ｖyの話速が上昇する。

（４）韻律Ｐxおよび韻律Ｐyの第４例はスペクトル幅である。スペクトル幅は、例えば音声の周波数スペクトルの包絡線（スペクトルエンベロープ）における最大値と最小値との差分である。発話音声Ｖxのスペクトル幅が経時的に増加するように利用者Ｕが発音すると、その増加に連動して応答音声Ｖyのスペクトル幅が増加する。

（５）韻律Ｐxおよび韻律Ｐyの第５例は音高幅である。音高幅は、発音期間内における音高の変動幅（すなわち発音期間内における音高の最大値と最小値との差分）である。利用者Ｕが発話音声Ｖxの音高幅を経時的に増加させると、その増加に連動して応答音声Ｖyの音高幅が増加する。

（６）韻律Ｐxおよび韻律Ｐyの第６例は音量幅である。音量幅は、発音期間内における音量の変動幅（すなわち発音期間内における音量の最大値と最小値との差分）である。利用者Ｕが発話音声Ｖxの音量幅を経時的に増加させると、その増加に連動して応答音声Ｖyの音量幅が経時的に増加する。なお、音高幅および音量幅は、音声の抑揚（調子）に相当する。したがって、第５例および第６例では、発話音声Ｖxにおける抑揚の変化に連動して、応答音声Ｖyの抑揚が変化する。

（７）韻律Ｐxおよび韻律Ｐyの第７例は発話間隔である。発話間隔は、音声対話において相前後する２個の発音期間の間隔（前方の発音期間の終点から後方の発音期間の始点までの時間長）である。第１実施形態では、発話音声Ｖxの発音期間Ｔxと応答音声Ｖyの発音期間Ｔyとの間隔が発音間隔に相当する。

例えば図５に例示される通り、応答音声Ｖyの第(n-2)番目の発音期間Ｔy_n-2と発話音声Ｖxの第(n-1)番目の発音期間Ｔx_n-1との発音間隔が韻律Ｐx_n-1として特定され、応答音声Ｖyの第(n-1)番目の発音期間Ｔy_n-1と発話音声Ｖxの第ｎ番目の発音期間Ｔx_nとの発音間隔が韻律Ｐx_nとして特定された場合を想定する。韻律変化指標Ｄx_nは、韻律Ｐx_nと韻律Ｐx_n-1との差分に相当する時間長として算定される。

応答生成部３６は、韻律変化指標Ｄx_nに応じた変化量Ｄy_nが発音期間Ｔx_nの終点から経過した時点で応答音声Ｖyの発音期間Ｔy_nが開始するように応答信号Ｙを生成する。すなわち、応答音声Ｖyの韻律Ｐy_n（発音間隔）として変化量Ｄy_nが適用される。なお、韻律変化指標Ｄx_n（すなわち韻律Ｐx_nと韻律Ｐx_n-1との差分）と所定の初期値とに応じて変化量Ｄy_nを算定してもよい。例えば、韻律変化指標Ｄx_nと初期値との加算値を変化量Ｄy_nとして算定してもよい。以上の説明から理解される通り、韻律Ｐxおよび韻律Ｐyを発話間隔とした構成においても、発話音声Ｖxの韻律Ｐxの変化（韻律変化指標Ｄx_n）に応じた韻律Ｐyの応答音声Ｖyを表す応答信号Ｙが生成される。

なお、図５においては発音期間Ｔx_nと発音期間Ｔy_nとの発話間隔に着目したが、図５における発音期間Ｔx_n-1と発音期間Ｔy_n-1との発話間隔は、以上に説明したのと同様の手順で設定された韻律変化指標Ｄx_n-1に応じて設定される。また、音声対話の開始の当初において、相前後する２個の発音期間Ｔxについて韻律Ｐxの差分を算定できない段階では、変化量Ｄyは所定の初期値に設定される。

（８）韻律Ｐxおよび韻律Ｐyの第８例は発音期間の時間長（以下「発話長」という）である。発話長は、発音期間の始点から終点までの時間である。具体的には、図６に例示される通り、発話音声Ｖxの第(n-1)番目の発音期間Ｔx_n-1の時間長が韻律Ｐx_n-1として特定され、発話音声Ｖxの第ｎ番目の発音期間Ｔx_nの時間長が韻律Ｐx_nとして特定された場合を想定する。韻律変化指標Ｄx_nは、韻律Ｐx_nと韻律Ｐx_n-1との差分に相当する時間長として算定される。なお、韻律変化指標Ｄx_n-1は、発話音声Ｖxの発音期間Ｔx_n-1について算定された韻律Ｐx_n-1と、直前の発音期間Ｔx_n-2について算定された韻律Ｐx_n-2との差分に応じて、以上に説明したのと同様の手順で算定される。

応答生成部３６は、発音期間Ｔx_nの発話音声Ｖxに対する応答音声Ｖyの韻律Ｐy_n（すなわち発話長）が、韻律変化指標Ｄx_nに応じた時間長（変化量Ｄy_n）となるように、応答信号Ｙを生成する。すなわち、応答音声Ｖyの韻律Ｐy_nとして変化量Ｄy_nが適用される。なお、例えば、韻律変化指標Ｄx_nと初期値との加算値を変化量Ｄy_nとして算定してもよい。以上の説明から理解される通り、韻律Ｐxおよび韻律Ｐyを発話長とした構成においても、発話音声Ｖxの韻律Ｐxの変化（韻律変化指標Ｄx_n）に応じた韻律Ｐyの応答音声Ｖyを表す応答信号Ｙが生成される。なお、音声対話の開始の当初において、相前後する２個の発音期間Ｔxについて韻律Ｐxの差分を算定できない段階では、変化量Ｄyは所定の初期値に設定される。

＜第２実施形態＞
本発明の第２実施形態を説明する。なお、以下に例示する各態様において作用または機能が第１実施形態と同様である要素については、第１実施形態の説明で使用した符号を流用して各々の詳細な説明を適宜に省略する。

第１実施形態の応答生成部３６は、発話音声Ｖxの韻律Ｐxの時間的な変化に応じた韻律Ｐyの応答音声Ｖyを表す応答信号Ｙを生成する。第２実施形態の応答生成部３６は、発話音声Ｖxの韻律Ｐxの数値に応じた韻律Ｐyの応答音声Ｖyを表す応答信号Ｙを生成する。すなわち、第１実施形態では、韻律Ｐxの相対値（すなわち韻律変化指標Ｄx）に応じて応答音声Ｖyの韻律Ｐyが制御されるのに対し、第２実施形態では、韻律Ｐxの１個の数値に応じて応答音声Ｖyの韻律Ｐyが制御される。なお、第２実施形態でも第１実施形態と同様に、応答生成部３６は、記憶装置２２に記憶された音声信号Ｚの韻律Ｐzを韻律Ｐyに調整することで応答信号Ｙを生成する。また、韻律Ｐyは韻律Ｐxと同種の特徴量であるが数値は相違する。

なお、第２実施形態における韻律Ｐxおよび韻律Ｐyの具体例は、第１実施形態と同様である。例えば、音高，音量，話速，スペクトル幅，音高幅，音量幅，発話間隔および発話長が、韻律Ｐxおよび韻律Ｐyの好適例である。また、音高または音量等の韻律の時間的な変化の傾向を示す指標値（例えば増加率または減少率等の変化率）を韻律Ｐxおよび韻律Ｐyとして採用してもよい。

図７は、第２実施形態の制御装置２０が実行する処理のフローチャートである。例えば音声対話装置１００に対する利用者Ｕからの指示（例えば音声対話用のプログラムの起動指示）を契機として図７の処理が開始される。図７の処理を開始すると、音声解析部３４は、音声入力装置２４が生成した発話信号Ｘを解析することで、発話音声Ｖxの１個の発音期間について韻律Ｐxを特定する（Ｓb1）。

応答生成部３６は、韻律Ｐxに応じた韻律Ｐyの応答信号Ｙを生成する（Ｓb2）。具体的には、応答生成部３６は、韻律Ｐyに応じて音声信号Ｚの韻律Ｐzを変化させることで、韻律Ｐyの応答音声Ｖyを表す応答信号Ｙを生成する。そして、応答生成部３６は、以上の処理で生成した応答信号Ｙを再生装置２６に供給することで応答音声Ｖyを再生する（Ｓb3）。

応答音声Ｖyの再生が完了すると、制御装置は、音声対話の終了が利用者Ｕから指示されたか否かを判定する（Ｓb4）。音声対話の終了が指示されていない場合（Ｓb4：NO）、処理はステップＳb1に遷移する。すなわち、発話音声Ｖxの韻律Ｐxの特定（Ｓb1）と、韻律Ｐxに応じた韻律Ｐyの応答信号Ｙの生成（Ｓb2）と、応答音声Ｖyの再生（Ｓb3）とが、発話音声Ｖxの発音期間Ｔx毎に反復される。したがって、第１実施形態と同様に、利用者Ｕによる任意の発話音声Ｖxの発音と、当該発話音声Ｖxに対する応答音声Ｖyの再生とが交互に反復される音声対話が実現される。

以上に説明した通り、第２実施形態では、発話音声Ｖxの韻律Ｐxに応じた韻律Ｐyの応答音声Ｖyを表す応答信号Ｙが生成される。したがって、発話音声の韻律の変化に対話相手の応答音声の韻律が連動するという現実の対話の傾向を模擬した自然な音声対話を実現することが可能である。

＜変形例＞
以上に例示した各態様に付加される具体的な変形の態様を以下に例示する。以下の例示から任意に選択された２個以上の態様を、相互に矛盾しない範囲で適宜に併合してもよい。

（１）前述の各形態では、発話音声Ｖxの韻律Ｐxに応じて応答音声Ｖyの同種の韻律Ｐyを制御したが、発話音声Ｖxの韻律Ｐxと当該韻律Ｐxに応じて制御される応答音声Ｖyの韻律Ｐyとを相異なる種類の特徴量としてもよい。例えば、発話音声Ｖxの音高（韻律Ｐx）の変化に応じて応答音声Ｖyの音量（韻律Ｐy）を制御してもよい。

（２）前述の各形態では、発話音声Ｖxの韻律Ｐxに応じて応答音声Ｖyの韻律Ｐyを制御したが、応答音声Ｖyの複数種の韻律Ｐyを発話音声Ｖxの１種類の韻律Ｐxに応じて制御してもよい。例えば、音高，音量，話速，スペクトル幅，音高幅，音量幅，発話間隔および発話長から任意に選択された２以上の韻律Ｐyが、発話音声Ｖxの１種類の韻律Ｐxに応じて制御される。韻律Ｐxに応じて制御される応答音声Ｖyの韻律Ｐyの組合せ（種類および総数）は任意である。

発話音声Ｖxの複数種の韻律Ｐxに応じて応答音声Ｖyの韻律Ｐyを制御してもよい。例えば、音高，音量，話速，スペクトル幅，音高幅，音量幅，発話間隔および発話長から任意に選択された２以上の韻律Ｐxが発話音声Ｖxから特定され、応答音声Ｖyの１種類の韻律Ｐyの制御に利用される。複数種の韻律Ｐxに応じて複数種の韻律Ｐyを制御してもよい。以上の説明から理解される通り、応答音声Ｖyの韻律Ｐyの制御に適用される発話音声Ｖxの韻律Ｐxの組合せ（種類および総数）は任意である。

（３）前述の各形態では、発話音声Ｖxの韻律Ｐxに応じて応答音声Ｖyの韻律Ｐyを制御したが、発話音声Ｖxの韻律Ｐx以外の要素を応答音声Ｖyの韻律Ｐyの制御に適用してもよい。例えば、発話音声Ｖxの韻律Ｐxと、韻律Ｐxとは無関係に設定された補正値（オフセット）とに応じて、応答音声Ｖyの韻律Ｐyを制御してもよい。例えば、韻律Ｐxに応じて設定された暫定値に補正値を加算することで最終的な韻律Ｐyが算定される。補正値は、固定値および可変値の何れでもよい。例えば、音声対話装置１００を利用した音声対話の時間が長いほど補正値を減少させてもよい。

（４）応答音声Ｖyの韻律Ｐyを所定の範囲に制限してもよい。例えば、発話音声Ｖxの韻律Ｐxに応じて算定された韻律の暫定値が所定の閾値を上回る場合（または下回る場合）には、当該閾値が韻律Ｐyとして採択される。以上の構成によれば、応答音声Ｖyの韻律Ｐyが異常値となり音声対話が不自然となる可能性を低減することが可能である。また、例えば発話音声Ｖxの韻律Ｐxに応じて算定された韻律の暫定値が所定の閾値を上回る場合（または下回る場合）に、発話に対する問返し（聞き直し）を表す応答音声Ｖyを生成してもよい。

（５）第１実施形態では、発話音声Ｖxの発音期間Ｔx_nの韻律Ｐx_nと直前の発音期間Ｔx_n-1の韻律Ｐx_n-1との差分を韻律変化指標Ｄx_nとして算定したが、韻律Ｐx_nの変化の基準となる数値は、直前の発音期間Ｔx_n-1の韻律Ｐx_n-1に限定されない。例えば、直前の発音期間Ｔx_n-1以外の発音期間Ｔx（例えば２個以上前の発音期間Ｔx）の韻律Ｐxに対する韻律Ｐx_nの変化を、韻律変化指標Ｄx_nとして算定してもよい。また、３個以上の発音期間Ｔxにわたる韻律Ｐxの変化に応じて韻律変化指標Ｄx_nを算定してもよい。例えば、過去の複数の発音期間Ｔxにわたる韻律Ｐxの代表値（例えば平均値）に対する現時点の韻律Ｐx_nの変化に応じて韻律変化指標Ｄx_nを算定してもよい。

（６）第１実施形態では、発話音声Ｖxに関する韻律Ｐx_nと韻律Ｐx_n-1との差分を韻律変化指標Ｄx_nとして算定したが、韻律変化指標Ｄx_nの算定方法は以上の例示に限定されない。例えば、韻律Ｐx_nと韻律Ｐx_n-1との比を韻律変化指標Ｄx_n（Ｄx_n＝Ｐx_n／Ｐx_n-1）として算定してもよい。すなわち、韻律変化指標Ｄx_nは、発話音声Ｖxの韻律Ｐxの変化に応じた指標として包括的に表現される。

（７）前述の各形態では、発話音声Ｖxの発音期間Ｔx_nの韻律Ｐx_nと直前の発音期間Ｔx_n-1の韻律Ｐx_n-1との差分（韻律変化指標Ｄx_n）に応じて応答音声Ｖyの韻律Ｐyを設定したが、応答音声Ｖyの韻律Ｐyに反映される変数は、韻律変化指標Ｄx_nに限定されない。例えば、韻律変化指標Ｄx_nと直前の応答音声Ｖyの韻律Ｐy_n-1とに応じて現在の応答音声Ｖyの韻律Ｐy_nを設定してもよい。また、過去の複数の応答音声Ｖyにおける韻律の差分（Ｐy_n-2−Ｐy_n-1）を韻律変化指標Ｄx_nとともに応答音声Ｖyの韻律Ｐy_nの設定に適用してもよい。

（８）前述の各形態では、記憶装置２２に記憶された音声信号Ｚから応答信号Ｙを生成および再生したが、特定の発話内容の応答音声Ｖyを表す応答信号Ｙを、例えば公知の音声合成技術により合成することも可能である。応答信号Ｙの合成には、例えば、素片接続型の音声合成、または、隠れマルコフモデル等の統計モデルを利用した音声合成が好適に利用される。また、発話音声Ｖxおよび応答音声Ｖyは人間の発声音に限定されない。例えば動物の鳴き声を発話音声Ｖxおよび応答音声Ｖyとすることも可能である。

（９）前述の各形態では、音声対話装置１００が音声入力装置２４と再生装置２６とを具備する構成を例示したが、音声対話装置１００とは別体の装置（音声入出力装置）に音声入力装置２４および再生装置２６を設置することも可能である。音声対話装置１００は、例えば携帯電話機またはスマートフォン等の端末装置で実現され、音声入出力装置は、例えば動物型の玩具またはロボット等の電子機器で実現される。音声対話装置１００と音声入出力装置とは無線または有線で通信可能である。すなわち、音声入出力装置の音声入力装置２４が生成した発話信号Ｘは無線または有線で音声対話装置１００に送信され、音声対話装置１００が生成した応答信号Ｙは無線または有線で音声入出力装置の再生装置２６に送信される。

（１０）前述の各形態では、携帯電話機等またはパーソナルコンピュータ等の情報処理装置で音声対話装置１００を実現したが、音声対話装置１００の一部または全部の機能をサーバ装置（いわゆるクラウドサーバ）で実現することも可能である。具体的には、移動通信網またはインターネット等の通信網を介して端末装置と通信するサーバ装置により音声対話装置１００が実現される。例えば、音声対話装置１００は、端末装置の音声入力装置２４が生成した発話信号Ｘを当該端末装置から受信し、前述の各形態に係る構成により発話信号Ｘから応答信号Ｙを生成する。そして、音声対話装置１００は、発話信号Ｘから生成した応答信号Ｙを端末装置に送信し、当該端末装置の再生装置２６に応答音声Ｖyを再生させる。音声対話装置１００は、単体の装置または複数の装置の集合（すなわちサーバシステム）で実現される。音声対話装置１００が実現する各機能をサーバ装置および端末装置の何れで実現するか（機能の分担）は任意である。

（１１）前述の各形態では、発話音声Ｖxに対して特定の発話内容（例えば「うん」等の相鎚）の応答音声Ｖyを再生したが、応答音声Ｖyの発話内容は以上の例示に限定されない。例えば、発話信号Ｘに対する音声認識および形態素解析で発話音声Ｖxの発話内容を解析し、当該発話内容に対して適切な内容の応答音声Ｖyを複数の候補から選択または合成して再生装置２６に再生させることも可能である。なお、音声認識および形態素解析を実行しない構成では、発話音声Ｖxとは無関係に事前に用意された発話内容の応答音声Ｖyが再生される。したがって、単純に考えると、自然な対話は成立しないようにも推測され得るが、前述の各形態の例示のように応答音声Ｖyの韻律が多様に制御されることで、実際には、人間同士の自然な対話のような感覚を利用者Ｕは感取することが可能である。他方、音声認識および形態素解析を実行しない構成によれば、これらの処理に起因した処理遅延および処理負荷が低減ないし解消されるという利点がある。

（１２）前述の各形態では、音声信号Ｚの韻律Ｐzを調整することで応答音声Ｖyの応答信号Ｙを生成したが、応答信号Ｙの生成方法は以上の例示に限定されない。例えば、韻律Ｐzが相違する複数の音声信号Ｚを記憶装置２２に記憶しておき、複数の音声信号Ｚのうち韻律変化指標Ｄxに応じた韻律の数値（以下「目標値」という）に最も近い韻律Ｐzの音声信号Ｚを応答信号Ｙとして選択することも可能である。すなわち、複数の候補（音声信号Ｚ）から応答信号Ｙを選択する処理は、応答信号Ｙを生成する処理の一例である。また、複数の音声信号Ｚのうち韻律Ｐzが目標値に近い順番で選択した２以上の音声信号Ｚから応答信号Ｙを生成してもよい。例えば、２以上の音声信号Ｚの加重和または補間により応答信号Ｙが生成される。

（１３）前述の各形態で例示した音声対話装置１００を、実際の人間同士の対話の評価に利用することも可能である。例えば、実際の人間同士の対話で観測される応答音声（以下「観測音声」という）の韻律を、前述の形態で生成された応答音声Ｖyの韻律と比較し、両者間で韻律が類似する場合には観測音声を適切と評価する一方、両者間で韻律が乖離する場合には観測音声を不適切と評価することが可能である。以上に例示した評価を実行する装置（対話評価装置）は、人間同士の対話の訓練に利用してもよい。

（１４）前述の各形態で例示した音声対話装置１００は、前述の通り、制御装置２０と音声対話用のプログラムとの協働で実現される。

本発明の第１態様（例えば第１実施形態）に係るプログラムは、コンピュータに、第１音声信号が表す第１音声の韻律を発音期間毎に特定する音声解析処理（Ｓa1）と、複数の発音期間における前記第１音声の韻律の変化に応じた韻律の第２音声を表す第２音声信号を生成する応答生成処理（Ｓa2およびｓa3）とを実行させる。また、本発明の第２態様（例えば第２実施形態）に係るプログラムは、コンピュータに、第１音声信号が表す第１音声の韻律を特定する音声解析処理（Ｓb1）と、前記第１音声の韻律に応じた韻律の第２音声を表す第２音声信号を生成する応答生成処理（Ｓb2）とを実行させる。

以上の各態様に係るプログラムは、コンピュータが読取可能な記録媒体に格納された形態で提供されてコンピュータにインストールされる。記録媒体は、例えば非一過性（non-transitory）の記録媒体であり、ＣＤ-ＲＯＭ等の光学式記録媒体（光ディスク）が好例であるが、半導体記録媒体または磁気記録媒体等の公知の任意の形式の記録媒体を包含し得る。なお、「非一過性の記録媒体」とは、一過性の伝搬信号（transitory, propagating signal）を除く全てのコンピュータ読み取り可能な記録媒体を含み、揮発性の記録媒体を除外するものではない。また、通信網を介した配信の形態でプログラムをコンピュータに配信してもよい。

（１５）以上に例示した形態から、例えば以下の構成が把握される。
＜態様１＞
本発明の好適な態様に係る音声処理方法は、コンピュータが、第１音声信号が表す第１音声の韻律を発音期間毎に特定し、複数の発音期間における前記第１音声の韻律の変化に応じた韻律の第２音声を表す第２音声信号を生成する。以上の態様では、第１音声の韻律の変化に応じた韻律の第２音声を表す第２音声信号が生成される。したがって、例えば発話音声の韻律の変化に対話相手の応答音声の韻律が連動するという現実の対話の傾向を模擬した自然な音声対話を実現することが可能である。

＜他の態様＞
態様１の好適例において、前記第１音声の韻律、および、当該韻律の変化に応じた前記第２音声の韻律は、音高、音量、話速、スペクトル幅（スペクトル包絡の変動量）、発音期間内における音高の変動幅、発音期間内における音量の変動幅、相前後する発音期間の間隔、および、発音期間の時間長のうちの少なくともひとつを含む。

１００……音声対話装置、２０……制御装置、２２……記憶装置、２４……音声入力装置、２４２……収音装置、２４４……Ａ/Ｄ変換器、２６……再生装置、２６２……Ｄ/Ａ変換器、２６４……放音装置、３２……音声取得部、３４……音声解析部、３６……応答生成部。

Claims

コンピュータが、
第１音声信号が表す第１音声の韻律を発音期間毎に特定し、
複数の発音期間における前記第１音声の韻律の変化に応じた韻律の第２音声を表す第２音声信号を生成する
音声処理方法。
前記第１音声の韻律の変化に応じた前記第２音声の韻律は、音高を含む
請求項１の音声処理方法。
前記第１音声の韻律の変化に応じた前記第２音声の韻律は、音量を含む
請求項１または請求項２の音声処理方法。
前記第１音声の韻律の変化に応じた前記第２音声の韻律は、話速を含む
請求項１から請求項３の何れかの音声処理方法。
前記第１音声の韻律の変化に応じた前記第２音声の韻律は、スペクトル包絡の変動量であるスペクトル幅を含む
請求項１から請求項４の何れかの音声処理方法。
前記第１音声の韻律の変化に応じた前記第２音声の韻律は、発音期間内における音高の変動幅を含む
請求項１から請求項５の何れかの音声処理方法。
前記第１音声の韻律の変化に応じた前記第２音声の韻律は、発音期間内における音量の変動幅を含む
請求項１から請求項６の何れかの音声処理方法。
前記第１音声の韻律の変化に応じた前記第２音声の韻律は、相前後する発音期間の間隔を含む
請求項１から請求項７の何れかの音声処理方法。
前記第１音声の韻律の変化に応じた前記第２音声の韻律は、発音期間の時間長を含む
請求項１から請求項８の何れかの音声処理方法。