JP2019060941A - 音声処理方法 - Google Patents
音声処理方法 Download PDFInfo
- Publication number
- JP2019060941A JP2019060941A JP2017183546A JP2017183546A JP2019060941A JP 2019060941 A JP2019060941 A JP 2019060941A JP 2017183546 A JP2017183546 A JP 2017183546A JP 2017183546 A JP2017183546 A JP 2017183546A JP 2019060941 A JP2019060941 A JP 2019060941A
- Authority
- JP
- Japan
- Prior art keywords
- prosody
- speech
- voice
- response
- change
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims description 12
- 230000008859 change Effects 0.000 claims abstract description 101
- 238000001228 spectrum Methods 0.000 claims description 12
- 230000004044 response Effects 0.000 abstract description 164
- 230000003993 interaction Effects 0.000 abstract description 26
- 230000033764 rhythmic process Effects 0.000 abstract description 4
- 238000000034 method Methods 0.000 description 17
- 238000004458 analytical method Methods 0.000 description 16
- 238000012545 processing Methods 0.000 description 13
- 230000008569 process Effects 0.000 description 12
- 230000005236 sound signal Effects 0.000 description 11
- 230000002452 interceptive effect Effects 0.000 description 9
- 230000006870 function Effects 0.000 description 7
- 230000002123 temporal effect Effects 0.000 description 6
- 241001465754 Metazoa Species 0.000 description 4
- 238000012937 correction Methods 0.000 description 4
- 230000015572 biosynthetic process Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 230000010365 information processing Effects 0.000 description 3
- 230000000877 morphologic effect Effects 0.000 description 3
- 238000003786 synthesis reaction Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 230000001413 cellular effect Effects 0.000 description 2
- 230000003247 decreasing effect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- RZVAJINKPMORJF-UHFFFAOYSA-N Acetaminophen Chemical compound CC(=O)NC1=CC=C(O)C=C1 RZVAJINKPMORJF-UHFFFAOYSA-N 0.000 description 1
- 241000282412 Homo Species 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
- G10L13/10—Prosody rules derived from text; Stress or intonation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
Abstract
【課題】自然な音声対話を実現する。【解決手段】コンピュータが、発話信号Xが表す発話音声Vxの韻律Pxを特定し、発話音声Vxの韻律Pxの変化に応じた韻律Pyの応答音声Vyを表す応答信号Yを生成する。【選択図】図2
Description
本発明は、音声対話に好適な技術に関する。
利用者による発話に対する応答(例えば質問に対する回答)の音声を再生することで利用者との対話を実現する音声対話の技術が従来から提案されている。例えば特許文献1には、利用者の発話音声に対する音声認識で発話内容を解析し、解析結果に応じた応答音声を合成および再生する技術が開示されている。
しかし、特許文献1を含む既存の技術のもとでは、現実の人間同士の対話の傾向を忠実に反映した自然な音声対話を実現することは実際には困難であり、機械的で不自然な印象を利用者が感取し得るという問題がある。以上の事情を考慮して、本発明は、自然な音声対話の実現を目的とする。
以上の課題を解決するために、本発明の好適な態様に係る音声処理方法は、コンピュータが、第1音声信号が表す第1音声の韻律を発音期間毎に特定し、複数の発音期間における前記第1音声の韻律の変化に応じた韻律の第2音声を表す第2音声信号を生成する。
<第1実施形態>
図1は、本発明の第1実施形態に係る音声対話装置100の構成図である。第1実施形態の音声対話装置100は、利用者Uが発音した入力音声(以下「発話音声」という)Vxに対して応答する音声(以下「応答音声」という)Vyを再生するコンピュータシステムである。例えば携帯電話機またはスマートフォン等の可搬型の情報処理装置、または、パーソナルコンピュータ等の情報処理装置が音声対話装置100として利用される。また、動物等の外観を模擬した玩具(例えば動物のぬいぐるみ等の人形)またはロボットの形態で音声対話装置100を実現することも可能である。
図1は、本発明の第1実施形態に係る音声対話装置100の構成図である。第1実施形態の音声対話装置100は、利用者Uが発音した入力音声(以下「発話音声」という)Vxに対して応答する音声(以下「応答音声」という)Vyを再生するコンピュータシステムである。例えば携帯電話機またはスマートフォン等の可搬型の情報処理装置、または、パーソナルコンピュータ等の情報処理装置が音声対話装置100として利用される。また、動物等の外観を模擬した玩具(例えば動物のぬいぐるみ等の人形)またはロボットの形態で音声対話装置100を実現することも可能である。
発話音声(speech sound)Vxは、例えば問掛け(質問)および話掛けを含む発話の音声であり、応答音声Vyは、問掛けに対する回答または話掛けに対する受応えを含む応答の音声である。応答音声Vyには、例えば間投詞を意味する音声も含まれる。間投詞は、他の分節から独立して利用されて活用のない自立語(感動詞または感嘆詞)である。具体的には、発話に対する相鎚を表す「うん(un)」および「ええ(ee)」等の語句(英語では“aha”または“right”)、言淀み(応答の停滞)を表す「え〜と(eto)」および「あの〜(ano)」等の語句(英語では“um”または“er”)、応答(質問に対する肯定または否定)を表す「はい(hai)」および「いいえ(iie)」等の語句(英語では“yes”または“no”)、話者の感動を表す「ああ(aa)」および「おお(oo)」等の語句(英語では“ah”または“woo”)、ならびに、発話に対する問返し(聞き直し)を意味する「え?(e)」「なに?(nani)」等の語句(英語では“pardon?”または“sorry?”)が、間投詞として例示される。
第1実施形態の音声対話装置100は、発話音声Vx(第1音声の例示)の韻律に応じた韻律の応答音声Vy(第2音声の例示)を生成する音声処理装置である。韻律(プロソディ)は、音声の受聴者が知覚し得る言語学的および音声学的な特性であり、言語の一般的な表記(例えば韻律を表す特別な表記を除いた表記)のみからでは把握できない性質を意味する。韻律は、発話者の意図または感情を受聴者に想起ないし推測させ得る特性とも換言される。具体的には、抑揚(音声の調子の変化もしくはイントネーション),音調(音声の高低もしくは強弱),音長(発話長),話速,リズム(音調の時間的な変化の構造),またはアクセント(高低もしくは強弱のアクセント)等の種々の特徴が、韻律の概念には包含されるが、韻律の典型例は音高(基本周波数)または音量である。
図1に例示される通り、第1実施形態の音声対話装置100は、制御装置20と記憶装置22と音声入力装置24と再生装置26とを具備する。音声入力装置24は、例えば利用者Uの発話音声Vxを表す音声信号(以下「発話信号」という)Xを生成する要素であり、収音装置242とA/D変換器244とを具備する。収音装置242は、利用者Uが発音した発話音声Vx(第1音声信号の例示)を収音して当該発話音声Vxの音圧変動を表すアナログの音声信号を生成する。A/D変換器244は、収音装置242が生成した音声信号をデジタルの発話信号(speech signal)Xに変換する。
制御装置20は、音声対話装置100の各要素を統括的に制御する演算処理装置(例えばCPU)である。第1実施形態の制御装置20は、音声入力装置24から供給される発話信号Xを取得し、発話音声Vxに対する応答音声Vyを表す応答信号Y(第2音声信号の例示)を生成する。再生装置26は、制御装置20が生成した応答信号Yに応じた応答音声Vyを再生する要素であり、D/A変換器262と放音装置264とを具備する。D/A変換器262は、制御装置20が生成したデジタルの応答信号Yをアナログの音声信号に変換し、放音装置264(例えばスピーカまたはヘッドホン)は、変換後の音声信号に応じた応答音声Vyを音波として放音する。再生装置26には、応答信号Yを増幅する増幅器等の処理回路も包含される。発話信号Xおよび応答信号Yは、例えばwav形式の音声データである。
記憶装置22は、制御装置20が実行するプログラムと制御装置20が使用する各種のデータとを記憶する。例えば半導体記録媒体または磁気記録媒体等の公知の記録媒体、あるいは、複数の記録媒体の組合せが記憶装置22として任意に採用される。第1実施形態の記憶装置22は、特定の発話内容の応答音声を表す音声信号Zを記憶する。以下の説明では、間投詞の一例である相鎚を意味する「うん」等の応答音声の音声信号Zが記憶装置22に記憶された場合を例示する。音声信号Zは、事前に収録され、例えばwav形式等の任意の形式の音声データとして記憶装置22に記憶される。
制御装置20は、記憶装置22に記憶されたプログラムを実行することで、利用者Uとの音声対話を成立させるための複数の機能(音声解析部34および応答生成部36)を実現する。なお、制御装置20の機能を複数の装置(すなわちシステム)で実現した構成、または、制御装置20の機能の一部を専用の電子回路が実現する構成を採用してもよい。
音声解析部34は、音声入力装置24が生成した発話信号Xから発話音声Vxの韻律Pxを特定する。韻律Pxは、発話信号Xから抽出可能な音響的な特徴量である。第1実施形態の音声解析部34は、発話音声Vxの発音期間毎に韻律Pxを順次に特定する。前述の通り発話音声Vxについては複数種の韻律が特定され得るが、音声解析部34は、複数種のうち実行中のプログラムが必要とする特定の種類の韻律Pxの数値を特定する。任意の1個の発音期間は、利用者Uによる1回分の発話(例えば問掛けおよび話掛け)として把握される一連の期間であり、例えば発話音声Vxの音量が継続的に所定の閾値を上回る期間である。1回の応答に対応する発話の期間を発音期間として定義してもよい。具体的には、音声解析部34は、発音期間内において所定の周期で特定された複数の韻律の代表値(例えば平均値)を当該発音期間の韻律Pxとして特定する。また、発音期間内の特定の時点(例えば終点)における韻律を当該発音期間の韻律Pxとして特定してもよい。発音期間のうち発話音声Vxの最後の音韻の直前の時点から韻律Pxを特定してもよい。
応答生成部36は、応答音声Vyを表す応答信号Yを生成する。具体的には、応答生成部36は、音声解析部34が特定した韻律Pxの時間的な変化に応じた韻律Pyの応答音声Vyを表す応答信号Yを生成する。前述の通り韻律Pxは発音期間毎に特定されるから、韻律Pxの時間的な変化は、相前後する発音期間の間における韻律Pxの変化を意味し、1個の発音期間内における韻律の変化ではない。韻律Pyは、韻律Pxと同種の特徴量であるが数値は相違する。第1実施形態の応答生成部36は、記憶装置22に記憶された音声信号Zの韻律Pzを韻律Pyに調整することで応答信号Yを生成する。応答生成部36が生成した応答信号Yが再生装置26に供給されることで応答音声Vyが再生される。すなわち、音声信号Zが表す初期的な応答音声を発話音声Vxの韻律Pxに応じて調整した応答音声Vyが再生装置26から再生される。
図2は、第1実施形態の制御装置20が実行する処理のフローチャートである。例えば音声対話装置100に対する利用者Uからの指示(例えば音声対話用のプログラムの起動指示)を契機として図2の処理が開始される。図2の処理を開始すると、音声解析部34は、音声入力装置24が生成した発話信号Xを解析することで、発話音声Vxの1個の発音期間Txについて韻律Pxを特定する(Sa1)。なお、韻律Pxは、基本的には発音期間Txの終了とともに数値が確定するが、発音期間Txの途中の時点で数値を確定させてもよい。図3には、発話音声Vxの第n番目の発音期間Tx_nについて算定された韻律Px_nが図示されている(nは自然数)。すなわち、図3は、利用者Uによる発音期間Tx_nの発話(例えば問掛けまたは話掛け)が完了した段階で実行される処理の説明図である。
応答生成部36は、発話音声Vxの韻律Pxの変化の指標(以下「韻律変化指標」という)Dxを算定する(Sa2)。具体的には、音声解析部34は、図3に例示される通り、発話音声Vxの最新の発音期間Tx_nについて算定された韻律Px_nと、直前の発音期間Tx_n-1について算定された韻律Px_n-1との差分を、韻律変化指標Dx_n(Dx_n=Px_n−Px_n-1)として算定する。すなわち、韻律変化指標Dx_nは、相前後する2回分の発話音声Vxの間における韻律の差分(相前後する2回の発話の間における韻律の変化)の指標である。
応答生成部36は、韻律変化指標Dx_nに応じた韻律Pyの応答信号Yを生成する(Sa3)。具体的には、応答生成部36は、図3に例示される通り、韻律変化指標Dx_nに応じた変化量Dy_nだけ音声信号Zの韻律Pzを変化させることで、韻律Pyの応答音声Vyを表す応答信号Yを生成する。なお、最初の発音期間Tx_1の発話音声Vxが発音された段階では、相前後する2個の発音期間Txについて韻律Pxの差分を算定できない。したがって、変化量Dy_1は所定の初期値に設定される。また、韻律変化指標Dx_n-1は、発話音声Vxの発音期間Tx_n-1について算定された韻律Px_n-1と、直前の発音期間Tx_n-2について算定された韻律Px_n-2との差分に応じて、以上に説明したのと同様の手順で算定される。
図4は、韻律変化指標Dxと変化量Dy(韻律Pzと韻律Pyとの差分)との関係を示すグラフである。図4のグラフは、韻律変化指標Dxから変化量Dyを決定するためのルールに相当する。図4に実線で例示される通り、韻律変化指標Dxの増加に対して変化量Dyが直線状に増加するように変化量Dyが決定される。例えば、変化量Dyは、韻律変化指標Dxと等しい数値に設定される。したがって、韻律Px_nが韻律Px_n-1を上回る場合(すなわち発話音声Vxの韻律Pxが増加した場合)には、応答音声Vyの韻律Pyは音声信号Zの韻律Pzを上回る数値に設定される。他方、韻律Px_nが韻律Px_n-1を下回る場合(すなわち発話音声Vxの韻律Pxが減少した場合)には、応答音声Vyの韻律Pyは音声信号Zの韻律Pzを下回る数値に設定される。なお、韻律変化指標Dxと変化量Dyとの関係は以上の例示に限定されない。例えば図4の破線で例示される通り、韻律変化指標Dxに対して変化量Dyを非線形に変化させてもよい。また、例えば、韻律変化指標Dx_nと初期値との加算値を変化量Dy_nとして算定してもよい。すなわち、韻律変化指標Dxと変化量Dyとの関係は、応答音声Vyの韻律Pyが発話音声Vxの韻律Pxに適した韻律となる関係であればよい。
以上の説明から理解される通り、図4に例示した所定のルールのもとで、応答音声Vyの韻律Pyを変化させる度合を表す変化量Dyが設定される。すなわち、相前後する発話音声Vxの韻律Pxの変化を示す韻律変化指標Dxから、直後に出力する応答音声Vyの韻律Pyを調整するための変化量Dyが設定される。以上の方法で設定された応答音声Vyの韻律Pyは、音声信号Zの韻律Pzを、問掛けまたは話掛け等の発話に調和するように調整した結果の韻律である。
応答生成部36は、以上の処理で生成した応答信号Yを再生装置26に供給することで応答音声Vyを再生する(Sa4)。応答音声Vyの再生が完了すると、制御装置20は、音声対話の終了が利用者Uから指示されたか否かを判定する(Sa5)。音声対話の終了が指示されていない場合(Sa5:NO)、制御装置20は処理をステップSa1に移行する。以上の説明から理解される通り、発話音声Vxの韻律Pxの特定(Sa1)と、韻律変化指標Dxの算定(Sa2)と、韻律変化指標Dxに応じた韻律Pyの応答信号Yの生成(Sa3)と、応答音声Vyの再生(Sa4)とが、発話音声Vxの発音期間Tx毎に反復される。すなわち、利用者Uによる発話音声Vxの発音毎(発話信号Xの入力毎)にステップSa1からステップSa4の処理が実行される。したがって、利用者Uによる任意の発話音声Vxの発音と、当該発話音声Vxに対する応答音声Vyの再生とが交互に反復される音声対話が実現される。ステップSa1からステップSa4の処理は、利用者Uによる発話(入力)に発音期間Tx毎に逐次的に実行され、1回分の発話音声Vxに対する応答を生成する動作に相当する。
以上に説明した通り、第1実施形態では、発話音声Vxの韻律Pxの時間的な変化に応じた韻律Pyの応答音声Vyを表す応答信号Yが生成される。すなわち、発話音声Vxの韻律Pxに連動して応答音声Vyの韻律Pyが変化する。したがって、発話音声の韻律の変化に対話相手の応答音声の韻律が連動するという現実の対話の傾向を模擬した自然な音声対話を実現することが可能である。
<韻律Pxおよび韻律Pyの具体例>
第1実施形態における韻律Pxおよび韻律Pyの具体例を説明する。
第1実施形態における韻律Pxおよび韻律Pyの具体例を説明する。
(1)韻律Pxおよび韻律Pyの第1例は音高(基本周波数)である。利用者Uが発話音声Vxの音高を経時的に(すなわち相前後する2個の発音期間Txの間で)上昇させると、その上昇に連動して各発話音声Vxに対する応答音声Vyの音高も上昇する。
(2)韻律Pxおよび韻律Pyの第2例は音量である。利用者Uが発話音声Vxの音量を経時的に増加させると、その増加に連動して応答音声Vyの音量が増加する。
(3)韻律Pxおよび韻律Pyの第3例は話速である。話速は、発話の速度を意味する。例えば単位時間内の音声に含まれる音素の個数が話速に相当する。利用者Uが発話音声Vxの話速を経時的に上昇させると、その上昇に連動して応答音声Vyの話速が上昇する。
(4)韻律Pxおよび韻律Pyの第4例はスペクトル幅である。スペクトル幅は、例えば音声の周波数スペクトルの包絡線(スペクトルエンベロープ)における最大値と最小値との差分である。発話音声Vxのスペクトル幅が経時的に増加するように利用者Uが発音すると、その増加に連動して応答音声Vyのスペクトル幅が増加する。
(5)韻律Pxおよび韻律Pyの第5例は音高幅である。音高幅は、発音期間内における音高の変動幅(すなわち発音期間内における音高の最大値と最小値との差分)である。利用者Uが発話音声Vxの音高幅を経時的に増加させると、その増加に連動して応答音声Vyの音高幅が増加する。
(6)韻律Pxおよび韻律Pyの第6例は音量幅である。音量幅は、発音期間内における音量の変動幅(すなわち発音期間内における音量の最大値と最小値との差分)である。利用者Uが発話音声Vxの音量幅を経時的に増加させると、その増加に連動して応答音声Vyの音量幅が経時的に増加する。なお、音高幅および音量幅は、音声の抑揚(調子)に相当する。したがって、第5例および第6例では、発話音声Vxにおける抑揚の変化に連動して、応答音声Vyの抑揚が変化する。
(7)韻律Pxおよび韻律Pyの第7例は発話間隔である。発話間隔は、音声対話において相前後する2個の発音期間の間隔(前方の発音期間の終点から後方の発音期間の始点までの時間長)である。第1実施形態では、発話音声Vxの発音期間Txと応答音声Vyの発音期間Tyとの間隔が発音間隔に相当する。
例えば図5に例示される通り、応答音声Vyの第(n-2)番目の発音期間Ty_n-2と発話音声Vxの第(n-1)番目の発音期間Tx_n-1との発音間隔が韻律Px_n-1として特定され、応答音声Vyの第(n-1)番目の発音期間Ty_n-1と発話音声Vxの第n番目の発音期間Tx_nとの発音間隔が韻律Px_nとして特定された場合を想定する。韻律変化指標Dx_nは、韻律Px_nと韻律Px_n-1との差分に相当する時間長として算定される。
応答生成部36は、韻律変化指標Dx_nに応じた変化量Dy_nが発音期間Tx_nの終点から経過した時点で応答音声Vyの発音期間Ty_nが開始するように応答信号Yを生成する。すなわち、応答音声Vyの韻律Py_n(発音間隔)として変化量Dy_nが適用される。なお、韻律変化指標Dx_n(すなわち韻律Px_nと韻律Px_n-1との差分)と所定の初期値とに応じて変化量Dy_nを算定してもよい。例えば、韻律変化指標Dx_nと初期値との加算値を変化量Dy_nとして算定してもよい。以上の説明から理解される通り、韻律Pxおよび韻律Pyを発話間隔とした構成においても、発話音声Vxの韻律Pxの変化(韻律変化指標Dx_n)に応じた韻律Pyの応答音声Vyを表す応答信号Yが生成される。
なお、図5においては発音期間Tx_nと発音期間Ty_nとの発話間隔に着目したが、図5における発音期間Tx_n-1と発音期間Ty_n-1との発話間隔は、以上に説明したのと同様の手順で設定された韻律変化指標Dx_n-1に応じて設定される。また、音声対話の開始の当初において、相前後する2個の発音期間Txについて韻律Pxの差分を算定できない段階では、変化量Dyは所定の初期値に設定される。
(8)韻律Pxおよび韻律Pyの第8例は発音期間の時間長(以下「発話長」という)である。発話長は、発音期間の始点から終点までの時間である。具体的には、図6に例示される通り、発話音声Vxの第(n-1)番目の発音期間Tx_n-1の時間長が韻律Px_n-1として特定され、発話音声Vxの第n番目の発音期間Tx_nの時間長が韻律Px_nとして特定された場合を想定する。韻律変化指標Dx_nは、韻律Px_nと韻律Px_n-1との差分に相当する時間長として算定される。なお、韻律変化指標Dx_n-1は、発話音声Vxの発音期間Tx_n-1について算定された韻律Px_n-1と、直前の発音期間Tx_n-2について算定された韻律Px_n-2との差分に応じて、以上に説明したのと同様の手順で算定される。
応答生成部36は、発音期間Tx_nの発話音声Vxに対する応答音声Vyの韻律Py_n(すなわち発話長)が、韻律変化指標Dx_nに応じた時間長(変化量Dy_n)となるように、応答信号Yを生成する。すなわち、応答音声Vyの韻律Py_nとして変化量Dy_nが適用される。なお、例えば、韻律変化指標Dx_nと初期値との加算値を変化量Dy_nとして算定してもよい。以上の説明から理解される通り、韻律Pxおよび韻律Pyを発話長とした構成においても、発話音声Vxの韻律Pxの変化(韻律変化指標Dx_n)に応じた韻律Pyの応答音声Vyを表す応答信号Yが生成される。なお、音声対話の開始の当初において、相前後する2個の発音期間Txについて韻律Pxの差分を算定できない段階では、変化量Dyは所定の初期値に設定される。
<第2実施形態>
本発明の第2実施形態を説明する。なお、以下に例示する各態様において作用または機能が第1実施形態と同様である要素については、第1実施形態の説明で使用した符号を流用して各々の詳細な説明を適宜に省略する。
本発明の第2実施形態を説明する。なお、以下に例示する各態様において作用または機能が第1実施形態と同様である要素については、第1実施形態の説明で使用した符号を流用して各々の詳細な説明を適宜に省略する。
第1実施形態の応答生成部36は、発話音声Vxの韻律Pxの時間的な変化に応じた韻律Pyの応答音声Vyを表す応答信号Yを生成する。第2実施形態の応答生成部36は、発話音声Vxの韻律Pxの数値に応じた韻律Pyの応答音声Vyを表す応答信号Yを生成する。すなわち、第1実施形態では、韻律Pxの相対値(すなわち韻律変化指標Dx)に応じて応答音声Vyの韻律Pyが制御されるのに対し、第2実施形態では、韻律Pxの1個の数値に応じて応答音声Vyの韻律Pyが制御される。なお、第2実施形態でも第1実施形態と同様に、応答生成部36は、記憶装置22に記憶された音声信号Zの韻律Pzを韻律Pyに調整することで応答信号Yを生成する。また、韻律Pyは韻律Pxと同種の特徴量であるが数値は相違する。
なお、第2実施形態における韻律Pxおよび韻律Pyの具体例は、第1実施形態と同様である。例えば、音高,音量,話速,スペクトル幅,音高幅,音量幅,発話間隔および発話長が、韻律Pxおよび韻律Pyの好適例である。また、音高または音量等の韻律の時間的な変化の傾向を示す指標値(例えば増加率または減少率等の変化率)を韻律Pxおよび韻律Pyとして採用してもよい。
図7は、第2実施形態の制御装置20が実行する処理のフローチャートである。例えば音声対話装置100に対する利用者Uからの指示(例えば音声対話用のプログラムの起動指示)を契機として図7の処理が開始される。図7の処理を開始すると、音声解析部34は、音声入力装置24が生成した発話信号Xを解析することで、発話音声Vxの1個の発音期間について韻律Pxを特定する(Sb1)。
応答生成部36は、韻律Pxに応じた韻律Pyの応答信号Yを生成する(Sb2)。具体的には、応答生成部36は、韻律Pyに応じて音声信号Zの韻律Pzを変化させることで、韻律Pyの応答音声Vyを表す応答信号Yを生成する。そして、応答生成部36は、以上の処理で生成した応答信号Yを再生装置26に供給することで応答音声Vyを再生する(Sb3)。
応答音声Vyの再生が完了すると、制御装置は、音声対話の終了が利用者Uから指示されたか否かを判定する(Sb4)。音声対話の終了が指示されていない場合(Sb4:NO)、処理はステップSb1に遷移する。すなわち、発話音声Vxの韻律Pxの特定(Sb1)と、韻律Pxに応じた韻律Pyの応答信号Yの生成(Sb2)と、応答音声Vyの再生(Sb3)とが、発話音声Vxの発音期間Tx毎に反復される。したがって、第1実施形態と同様に、利用者Uによる任意の発話音声Vxの発音と、当該発話音声Vxに対する応答音声Vyの再生とが交互に反復される音声対話が実現される。
以上に説明した通り、第2実施形態では、発話音声Vxの韻律Pxに応じた韻律Pyの応答音声Vyを表す応答信号Yが生成される。したがって、発話音声の韻律の変化に対話相手の応答音声の韻律が連動するという現実の対話の傾向を模擬した自然な音声対話を実現することが可能である。
<変形例>
以上に例示した各態様に付加される具体的な変形の態様を以下に例示する。以下の例示から任意に選択された2個以上の態様を、相互に矛盾しない範囲で適宜に併合してもよい。
以上に例示した各態様に付加される具体的な変形の態様を以下に例示する。以下の例示から任意に選択された2個以上の態様を、相互に矛盾しない範囲で適宜に併合してもよい。
(1)前述の各形態では、発話音声Vxの韻律Pxに応じて応答音声Vyの同種の韻律Pyを制御したが、発話音声Vxの韻律Pxと当該韻律Pxに応じて制御される応答音声Vyの韻律Pyとを相異なる種類の特徴量としてもよい。例えば、発話音声Vxの音高(韻律Px)の変化に応じて応答音声Vyの音量(韻律Py)を制御してもよい。
(2)前述の各形態では、発話音声Vxの韻律Pxに応じて応答音声Vyの韻律Pyを制御したが、応答音声Vyの複数種の韻律Pyを発話音声Vxの1種類の韻律Pxに応じて制御してもよい。例えば、音高,音量,話速,スペクトル幅,音高幅,音量幅,発話間隔および発話長から任意に選択された2以上の韻律Pyが、発話音声Vxの1種類の韻律Pxに応じて制御される。韻律Pxに応じて制御される応答音声Vyの韻律Pyの組合せ(種類および総数)は任意である。
発話音声Vxの複数種の韻律Pxに応じて応答音声Vyの韻律Pyを制御してもよい。例えば、音高,音量,話速,スペクトル幅,音高幅,音量幅,発話間隔および発話長から任意に選択された2以上の韻律Pxが発話音声Vxから特定され、応答音声Vyの1種類の韻律Pyの制御に利用される。複数種の韻律Pxに応じて複数種の韻律Pyを制御してもよい。以上の説明から理解される通り、応答音声Vyの韻律Pyの制御に適用される発話音声Vxの韻律Pxの組合せ(種類および総数)は任意である。
(3)前述の各形態では、発話音声Vxの韻律Pxに応じて応答音声Vyの韻律Pyを制御したが、発話音声Vxの韻律Px以外の要素を応答音声Vyの韻律Pyの制御に適用してもよい。例えば、発話音声Vxの韻律Pxと、韻律Pxとは無関係に設定された補正値(オフセット)とに応じて、応答音声Vyの韻律Pyを制御してもよい。例えば、韻律Pxに応じて設定された暫定値に補正値を加算することで最終的な韻律Pyが算定される。補正値は、固定値および可変値の何れでもよい。例えば、音声対話装置100を利用した音声対話の時間が長いほど補正値を減少させてもよい。
(4)応答音声Vyの韻律Pyを所定の範囲に制限してもよい。例えば、発話音声Vxの韻律Pxに応じて算定された韻律の暫定値が所定の閾値を上回る場合(または下回る場合)には、当該閾値が韻律Pyとして採択される。以上の構成によれば、応答音声Vyの韻律Pyが異常値となり音声対話が不自然となる可能性を低減することが可能である。また、例えば発話音声Vxの韻律Pxに応じて算定された韻律の暫定値が所定の閾値を上回る場合(または下回る場合)に、発話に対する問返し(聞き直し)を表す応答音声Vyを生成してもよい。
(5)第1実施形態では、発話音声Vxの発音期間Tx_nの韻律Px_nと直前の発音期間Tx_n-1の韻律Px_n-1との差分を韻律変化指標Dx_nとして算定したが、韻律Px_nの変化の基準となる数値は、直前の発音期間Tx_n-1の韻律Px_n-1に限定されない。例えば、直前の発音期間Tx_n-1以外の発音期間Tx(例えば2個以上前の発音期間Tx)の韻律Pxに対する韻律Px_nの変化を、韻律変化指標Dx_nとして算定してもよい。また、3個以上の発音期間Txにわたる韻律Pxの変化に応じて韻律変化指標Dx_nを算定してもよい。例えば、過去の複数の発音期間Txにわたる韻律Pxの代表値(例えば平均値)に対する現時点の韻律Px_nの変化に応じて韻律変化指標Dx_nを算定してもよい。
(6)第1実施形態では、発話音声Vxに関する韻律Px_nと韻律Px_n-1との差分を韻律変化指標Dx_nとして算定したが、韻律変化指標Dx_nの算定方法は以上の例示に限定されない。例えば、韻律Px_nと韻律Px_n-1との比を韻律変化指標Dx_n(Dx_n=Px_n/Px_n-1)として算定してもよい。すなわち、韻律変化指標Dx_nは、発話音声Vxの韻律Pxの変化に応じた指標として包括的に表現される。
(7)前述の各形態では、発話音声Vxの発音期間Tx_nの韻律Px_nと直前の発音期間Tx_n-1の韻律Px_n-1との差分(韻律変化指標Dx_n)に応じて応答音声Vyの韻律Pyを設定したが、応答音声Vyの韻律Pyに反映される変数は、韻律変化指標Dx_nに限定されない。例えば、韻律変化指標Dx_nと直前の応答音声Vyの韻律Py_n-1とに応じて現在の応答音声Vyの韻律Py_nを設定してもよい。また、過去の複数の応答音声Vyにおける韻律の差分(Py_n-2−Py_n-1)を韻律変化指標Dx_nとともに応答音声Vyの韻律Py_nの設定に適用してもよい。
(8)前述の各形態では、記憶装置22に記憶された音声信号Zから応答信号Yを生成および再生したが、特定の発話内容の応答音声Vyを表す応答信号Yを、例えば公知の音声合成技術により合成することも可能である。応答信号Yの合成には、例えば、素片接続型の音声合成、または、隠れマルコフモデル等の統計モデルを利用した音声合成が好適に利用される。また、発話音声Vxおよび応答音声Vyは人間の発声音に限定されない。例えば動物の鳴き声を発話音声Vxおよび応答音声Vyとすることも可能である。
(9)前述の各形態では、音声対話装置100が音声入力装置24と再生装置26とを具備する構成を例示したが、音声対話装置100とは別体の装置(音声入出力装置)に音声入力装置24および再生装置26を設置することも可能である。音声対話装置100は、例えば携帯電話機またはスマートフォン等の端末装置で実現され、音声入出力装置は、例えば動物型の玩具またはロボット等の電子機器で実現される。音声対話装置100と音声入出力装置とは無線または有線で通信可能である。すなわち、音声入出力装置の音声入力装置24が生成した発話信号Xは無線または有線で音声対話装置100に送信され、音声対話装置100が生成した応答信号Yは無線または有線で音声入出力装置の再生装置26に送信される。
(10)前述の各形態では、携帯電話機等またはパーソナルコンピュータ等の情報処理装置で音声対話装置100を実現したが、音声対話装置100の一部または全部の機能をサーバ装置(いわゆるクラウドサーバ)で実現することも可能である。具体的には、移動通信網またはインターネット等の通信網を介して端末装置と通信するサーバ装置により音声対話装置100が実現される。例えば、音声対話装置100は、端末装置の音声入力装置24が生成した発話信号Xを当該端末装置から受信し、前述の各形態に係る構成により発話信号Xから応答信号Yを生成する。そして、音声対話装置100は、発話信号Xから生成した応答信号Yを端末装置に送信し、当該端末装置の再生装置26に応答音声Vyを再生させる。音声対話装置100は、単体の装置または複数の装置の集合(すなわちサーバシステム)で実現される。音声対話装置100が実現する各機能をサーバ装置および端末装置の何れで実現するか(機能の分担)は任意である。
(11)前述の各形態では、発話音声Vxに対して特定の発話内容(例えば「うん」等の相鎚)の応答音声Vyを再生したが、応答音声Vyの発話内容は以上の例示に限定されない。例えば、発話信号Xに対する音声認識および形態素解析で発話音声Vxの発話内容を解析し、当該発話内容に対して適切な内容の応答音声Vyを複数の候補から選択または合成して再生装置26に再生させることも可能である。なお、音声認識および形態素解析を実行しない構成では、発話音声Vxとは無関係に事前に用意された発話内容の応答音声Vyが再生される。したがって、単純に考えると、自然な対話は成立しないようにも推測され得るが、前述の各形態の例示のように応答音声Vyの韻律が多様に制御されることで、実際には、人間同士の自然な対話のような感覚を利用者Uは感取することが可能である。他方、音声認識および形態素解析を実行しない構成によれば、これらの処理に起因した処理遅延および処理負荷が低減ないし解消されるという利点がある。
(12)前述の各形態では、音声信号Zの韻律Pzを調整することで応答音声Vyの応答信号Yを生成したが、応答信号Yの生成方法は以上の例示に限定されない。例えば、韻律Pzが相違する複数の音声信号Zを記憶装置22に記憶しておき、複数の音声信号Zのうち韻律変化指標Dxに応じた韻律の数値(以下「目標値」という)に最も近い韻律Pzの音声信号Zを応答信号Yとして選択することも可能である。すなわち、複数の候補(音声信号Z)から応答信号Yを選択する処理は、応答信号Yを生成する処理の一例である。また、複数の音声信号Zのうち韻律Pzが目標値に近い順番で選択した2以上の音声信号Zから応答信号Yを生成してもよい。例えば、2以上の音声信号Zの加重和または補間により応答信号Yが生成される。
(13)前述の各形態で例示した音声対話装置100を、実際の人間同士の対話の評価に利用することも可能である。例えば、実際の人間同士の対話で観測される応答音声(以下「観測音声」という)の韻律を、前述の形態で生成された応答音声Vyの韻律と比較し、両者間で韻律が類似する場合には観測音声を適切と評価する一方、両者間で韻律が乖離する場合には観測音声を不適切と評価することが可能である。以上に例示した評価を実行する装置(対話評価装置)は、人間同士の対話の訓練に利用してもよい。
(14)前述の各形態で例示した音声対話装置100は、前述の通り、制御装置20と音声対話用のプログラムとの協働で実現される。
本発明の第1態様(例えば第1実施形態)に係るプログラムは、コンピュータに、第1音声信号が表す第1音声の韻律を発音期間毎に特定する音声解析処理(Sa1)と、複数の発音期間における前記第1音声の韻律の変化に応じた韻律の第2音声を表す第2音声信号を生成する応答生成処理(Sa2およびsa3)とを実行させる。また、本発明の第2態様(例えば第2実施形態)に係るプログラムは、コンピュータに、第1音声信号が表す第1音声の韻律を特定する音声解析処理(Sb1)と、前記第1音声の韻律に応じた韻律の第2音声を表す第2音声信号を生成する応答生成処理(Sb2)とを実行させる。
以上の各態様に係るプログラムは、コンピュータが読取可能な記録媒体に格納された形態で提供されてコンピュータにインストールされる。記録媒体は、例えば非一過性(non-transitory)の記録媒体であり、CD-ROM等の光学式記録媒体(光ディスク)が好例であるが、半導体記録媒体または磁気記録媒体等の公知の任意の形式の記録媒体を包含し得る。なお、「非一過性の記録媒体」とは、一過性の伝搬信号(transitory, propagating signal)を除く全てのコンピュータ読み取り可能な記録媒体を含み、揮発性の記録媒体を除外するものではない。また、通信網を介した配信の形態でプログラムをコンピュータに配信してもよい。
(15)以上に例示した形態から、例えば以下の構成が把握される。
<態様1>
本発明の好適な態様に係る音声処理方法は、コンピュータが、第1音声信号が表す第1音声の韻律を発音期間毎に特定し、複数の発音期間における前記第1音声の韻律の変化に応じた韻律の第2音声を表す第2音声信号を生成する。以上の態様では、第1音声の韻律の変化に応じた韻律の第2音声を表す第2音声信号が生成される。したがって、例えば発話音声の韻律の変化に対話相手の応答音声の韻律が連動するという現実の対話の傾向を模擬した自然な音声対話を実現することが可能である。
<態様1>
本発明の好適な態様に係る音声処理方法は、コンピュータが、第1音声信号が表す第1音声の韻律を発音期間毎に特定し、複数の発音期間における前記第1音声の韻律の変化に応じた韻律の第2音声を表す第2音声信号を生成する。以上の態様では、第1音声の韻律の変化に応じた韻律の第2音声を表す第2音声信号が生成される。したがって、例えば発話音声の韻律の変化に対話相手の応答音声の韻律が連動するという現実の対話の傾向を模擬した自然な音声対話を実現することが可能である。
<他の態様>
態様1の好適例において、前記第1音声の韻律、および、当該韻律の変化に応じた前記第2音声の韻律は、音高、音量、話速、スペクトル幅(スペクトル包絡の変動量)、発音期間内における音高の変動幅、発音期間内における音量の変動幅、相前後する発音期間の間隔、および、発音期間の時間長のうちの少なくともひとつを含む。
態様1の好適例において、前記第1音声の韻律、および、当該韻律の変化に応じた前記第2音声の韻律は、音高、音量、話速、スペクトル幅(スペクトル包絡の変動量)、発音期間内における音高の変動幅、発音期間内における音量の変動幅、相前後する発音期間の間隔、および、発音期間の時間長のうちの少なくともひとつを含む。
100……音声対話装置、20……制御装置、22……記憶装置、24……音声入力装置、242……収音装置、244……A/D変換器、26……再生装置、262……D/A変換器、264……放音装置、32……音声取得部、34……音声解析部、36……応答生成部。
Claims (9)
- コンピュータが、
第1音声信号が表す第1音声の韻律を発音期間毎に特定し、
複数の発音期間における前記第1音声の韻律の変化に応じた韻律の第2音声を表す第2音声信号を生成する
音声処理方法。 - 前記第1音声の韻律の変化に応じた前記第2音声の韻律は、音高を含む
請求項1の音声処理方法。 - 前記第1音声の韻律の変化に応じた前記第2音声の韻律は、音量を含む
請求項1または請求項2の音声処理方法。 - 前記第1音声の韻律の変化に応じた前記第2音声の韻律は、話速を含む
請求項1から請求項3の何れかの音声処理方法。 - 前記第1音声の韻律の変化に応じた前記第2音声の韻律は、スペクトル包絡の変動量であるスペクトル幅を含む
請求項1から請求項4の何れかの音声処理方法。 - 前記第1音声の韻律の変化に応じた前記第2音声の韻律は、発音期間内における音高の変動幅を含む
請求項1から請求項5の何れかの音声処理方法。 - 前記第1音声の韻律の変化に応じた前記第2音声の韻律は、発音期間内における音量の変動幅を含む
請求項1から請求項6の何れかの音声処理方法。 - 前記第1音声の韻律の変化に応じた前記第2音声の韻律は、相前後する発音期間の間隔を含む
請求項1から請求項7の何れかの音声処理方法。 - 前記第1音声の韻律の変化に応じた前記第2音声の韻律は、発音期間の時間長を含む
請求項1から請求項8の何れかの音声処理方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017183546A JP2019060941A (ja) | 2017-09-25 | 2017-09-25 | 音声処理方法 |
PCT/JP2018/034010 WO2019059094A1 (ja) | 2017-09-25 | 2018-09-13 | 音声処理方法および音声処理装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017183546A JP2019060941A (ja) | 2017-09-25 | 2017-09-25 | 音声処理方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2019060941A true JP2019060941A (ja) | 2019-04-18 |
Family
ID=65810887
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017183546A Pending JP2019060941A (ja) | 2017-09-25 | 2017-09-25 | 音声処理方法 |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP2019060941A (ja) |
WO (1) | WO2019059094A1 (ja) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0247700A (ja) * | 1988-08-10 | 1990-02-16 | Nippon Hoso Kyokai <Nhk> | 音声合成方法および装置 |
JP2004086001A (ja) * | 2002-08-28 | 2004-03-18 | Sony Corp | 会話処理装置、および会話処理方法、並びにコンピュータ・プログラム |
US20050261905A1 (en) * | 2004-05-21 | 2005-11-24 | Samsung Electronics Co., Ltd. | Method and apparatus for generating dialog prosody structure, and speech synthesis method and system employing the same |
JP2006208460A (ja) * | 2005-01-25 | 2006-08-10 | Honda Motor Co Ltd | 音声認識型機器制御装置および車両 |
JP2015069038A (ja) * | 2013-09-30 | 2015-04-13 | ヤマハ株式会社 | 音声合成装置およびプログラム |
JP2017106990A (ja) * | 2015-12-07 | 2017-06-15 | ヤマハ株式会社 | 音声対話装置およびプログラム |
-
2017
- 2017-09-25 JP JP2017183546A patent/JP2019060941A/ja active Pending
-
2018
- 2018-09-13 WO PCT/JP2018/034010 patent/WO2019059094A1/ja active Application Filing
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0247700A (ja) * | 1988-08-10 | 1990-02-16 | Nippon Hoso Kyokai <Nhk> | 音声合成方法および装置 |
JP2004086001A (ja) * | 2002-08-28 | 2004-03-18 | Sony Corp | 会話処理装置、および会話処理方法、並びにコンピュータ・プログラム |
US20050261905A1 (en) * | 2004-05-21 | 2005-11-24 | Samsung Electronics Co., Ltd. | Method and apparatus for generating dialog prosody structure, and speech synthesis method and system employing the same |
JP2006208460A (ja) * | 2005-01-25 | 2006-08-10 | Honda Motor Co Ltd | 音声認識型機器制御装置および車両 |
JP2015069038A (ja) * | 2013-09-30 | 2015-04-13 | ヤマハ株式会社 | 音声合成装置およびプログラム |
JP2017106990A (ja) * | 2015-12-07 | 2017-06-15 | ヤマハ株式会社 | 音声対話装置およびプログラム |
Also Published As
Publication number | Publication date |
---|---|
WO2019059094A1 (ja) | 2019-03-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10854219B2 (en) | Voice interaction apparatus and voice interaction method | |
CN101578659B (zh) | 音质转换装置及音质转换方法 | |
JP4456537B2 (ja) | 情報伝達装置 | |
CN101627427B (zh) | 声音强调装置及声音强调方法 | |
US10217452B2 (en) | Speech synthesis device and method | |
US10176797B2 (en) | Voice synthesis method, voice synthesis device, medium for storing voice synthesis program | |
WO2017006766A1 (ja) | 音声対話方法および音声対話装置 | |
JP5593244B2 (ja) | 話速変換倍率決定装置、話速変換装置、プログラム、及び記録媒体 | |
RU2003129075A (ru) | Способ и система динамической адаптации синтезатора речи для повышения разборчивости синтезтруемой им речи | |
US11727949B2 (en) | Methods and apparatus for reducing stuttering | |
JP6821970B2 (ja) | 音声合成装置および音声合成方法 | |
WO2019181767A1 (ja) | 音処理方法、音処理装置およびプログラム | |
JP6569588B2 (ja) | 音声対話装置およびプログラム | |
JP6657888B2 (ja) | 音声対話方法、音声対話装置およびプログラム | |
JP6657887B2 (ja) | 音声対話方法、音声対話装置およびプログラム | |
JP6728660B2 (ja) | 音声対話方法、音声対話装置およびプログラム | |
WO2019059094A1 (ja) | 音声処理方法および音声処理装置 | |
Aso et al. | Speakbysinging: Converting singing voices to speaking voices while retaining voice timbre | |
WO2017098940A1 (ja) | 音声対話装置および音声対話方法 | |
JP6911398B2 (ja) | 音声対話方法、音声対話装置およびプログラム | |
JP2018146907A (ja) | 音声対話方法および音声対話装置 | |
JP6182894B2 (ja) | 音響処理装置および音響処理方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200717 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210921 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20220315 |