JP6911398B2 - 音声対話方法、音声対話装置およびプログラム - Google Patents

音声対話方法、音声対話装置およびプログラム Download PDF

Info

Publication number
JP6911398B2
JP6911398B2 JP2017044557A JP2017044557A JP6911398B2 JP 6911398 B2 JP6911398 B2 JP 6911398B2 JP 2017044557 A JP2017044557 A JP 2017044557A JP 2017044557 A JP2017044557 A JP 2017044557A JP 6911398 B2 JP6911398 B2 JP 6911398B2
Authority
JP
Japan
Prior art keywords
voice
pitch
reproduction
dialogue
response
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017044557A
Other languages
English (en)
Other versions
JP2018146906A (ja
Inventor
嘉山 啓
啓 嘉山
松原 弘明
弘明 松原
純也 浦
純也 浦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Priority to JP2017044557A priority Critical patent/JP6911398B2/ja
Priority to PCT/JP2018/009354 priority patent/WO2018164278A1/ja
Priority to CN201880017267.8A priority patent/CN110431622A/zh
Publication of JP2018146906A publication Critical patent/JP2018146906A/ja
Priority to US16/561,348 priority patent/US20190392814A1/en
Application granted granted Critical
Publication of JP6911398B2 publication Critical patent/JP6911398B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • G10L13/0335Pitch control
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Manipulator (AREA)
  • Machine Translation (AREA)

Description

本発明は、音声対話に関する。
利用者による発話に対する応答(例えば質問に対する回答)の音声を再生することで利用者との対話を実現する音声対話の技術が従来から提案されている。例えば特許文献1には、利用者の発話音声に対する音声認識で発話内容を解析し、解析結果に応じた応答音声を合成および再生する技術が開示されている。
特開2012−128440号公報
しかし、特許文献1を含む既存の技術のもとでは、現実の人間同士の対話の傾向を忠実に反映した自然な音声対話を実現することは実際には困難であり、機械的で不自然な印象を利用者が感取し得るという問題がある。以上の事情を考慮して、本発明は、自然な音声対話の実現を目的とする。
以上の課題を解決するために、本発明の好適な態様に係る音声対話方法は、対話のための対話音声の音高に応じて、当該対話音声に先行して再生される先行音声の音高を調整する音高調整ステップと、前記音高調整ステップにおいて調整した前記先行音声の再生を指示する第1再生指示ステップと、前記第1再生指示ステップによる前記先行音声の再生後における前記対話音声の再生を指示する第2再生指示ステップとを含む。
本発明の好適な態様に係る音声対話装置は、対話のための対話音声の音高に応じて、当該対話音声に先行して再生される先行音声の音高を調整する音高調整部と、前記音高調整部が調整した前記先行音声の再生を指示する第1再生指示部と、前記第1再生指示部による前記先行音声の再生後における前記対話音声の再生を指示する第2再生指示部とを具備する。
第1実施形態における音声対話装置の構成図である。 第1実施形態における間投詞音声および応答音声の説明図である。 第1実施形態における制御装置が実行する処理のフローチャートである。 第2実施形態における発話音声,2個の間投詞音声および応答音声の説明図である。 第2実施形態における制御装置が実行する処理のフローチャートである。
<第1実施形態>
図1は、本発明の第1実施形態に係る音声対話装置100の構成図である。第1実施形態の音声対話装置100は、利用者Uが発音した音声(以下「発話音声」という)Vxに対する応答の音声(以下「応答音声」という)Vzを再生する音声対話システムである。例えば携帯電話機やスマートフォン等の可搬型の情報処理装置、または、パーソナルコンピュータ等の情報処理装置が音声対話装置100として利用され得る。また、動物等の外観を模擬した玩具(例えば動物のぬいぐるみ等の人形)やロボットの形態で音声対話装置100を実現することも可能である。
発話音声(speech sound)Vxは、例えば問掛け(質問)および話掛けを含む発話の音声であり、応答音声(対話音声の例示)Vzは、問掛けに対する回答または話掛けに対する受応えを含む応答の音声である。第1実施形態の応答音声(対話音声)Vzは、1個以上の語句で構成される特定の意味を持った音声である。例えば、発話音声Vx「学校の場所をおしえて?」に対する応答音声Vzは、「三丁目の角」が想定され得る。ここで、現実の人間同士の対話において、発話者の発話音声と対話相手が発音する応答音声との間には、対話相手により何らかの音声(典型的には間投詞の音声)が発声されるという傾向がある。したがって、発話音声Vxの直後に応答音声Vzが再生されると利用者Uに機械的で不自然な印象を与える。そこで、第1実施形態の音声対話装置100は、図2に例示される通り、発話音声Vxの発生(例えば発話音声Vxの発音終了時)から応答音声Vzの再生(例えば応答音声Vzの再生開始時)までの期間(以下「待機期間」という)Q内に、間投詞の音声(以下「間投詞音声」という)Vyを再生する。つまり、間投詞音声(先行音声の例示)Vyは、応答音声(対話音声)Vzに先行して再生される音声である。
間投詞音声(先行音声)Vyは、間投詞を意味する音声である。間投詞は、他の文節から独立して利用されて活用のない自立語(感動詞または感嘆詞)である。具体的には、発話に対する相づちを表す「うん(un)」および「ええ(ee)」等の語句(英語では“aha”または“right”)、言淀み(応答の停滞)を表す「え〜と(eto)」および「あの〜(ano)」等の語句(英語では“um”または“er”)、応答(質問に対する肯定または否定)を表す「はい(hai)」および「いいえ(iie)」等の語句(英語では“yes”または“no”)、話者の感動を表す「ああ(aa)」および「おお(oo)」等の語句(英語では“ah”または“woo”)、ならびに、発話に対する問返し(聞き直し)を意味する「え?(e)」「なに?(nani)」等の語句(英語では“pardon?”または“sorry?”)が、間投詞として例示され得る。
応答音声(対話音声)Vzは、発話音声Vxに対する必要的な応答と位置付けられるのに対し、間投詞音声(先行音声)Vyは応答音声Vzに先立って補足的(補助的)ないし追加的に発音される任意的な応答(対話において省略され得る応答)と位置付けられる。間投詞音声Vyは、応答音声Vzには含まれない別個の音声であるとも換言され得る。図2に例示される通り、第1実施形態では、「学校の場所をおしえて?」という問掛けの発話音声Vxに対して、「え〜と」という言淀みを表す間投詞音声Vyが再生され、間投詞音声Vyに後続して「三丁目の角」という回答の応答音声Vzが再生される場合を例示する。
第1実施形態の音声対話装置100は、図1に例示される通り、収音装置20と記憶装置22と制御装置24と放音装置26とを具備する。収音装置20(例えばマイクロホン)は、利用者Uの発話音声Vxを表す信号(以下「発話信号」という)Xを生成する。なお、収音装置20が生成した発話信号Xをアナログからデジタルに変換するA/D変換器の図示は便宜的に省略した。放音装置26(例えばスピーカまたはヘッドホン)は、制御装置24から供給される信号に応じた音を再生する。第1実施形態の放音装置26は、間投詞音声Vyと応答音声Vzとを制御装置24の指示により再生する。
記憶装置22は、制御装置24が実行するプログラムや制御装置24が使用する各種のデータを記憶する。例えば半導体記録媒体または磁気記録媒体等の公知の記録媒体、あるいは、複数の記録媒体の組合せが記憶装置22として任意に採用され得る。具体的には、記憶装置22は、言淀みの間投詞音声Vyを表す音声信号Y1を記憶する。以下の説明では、言淀み「え〜と」を表す任意の韻律(例えば音高)の間投詞音声Vyを表す音声信号Y1が記憶装置22に記憶された場合を例示する。音声信号Y1は、事前に収録され、例えばwav形式等の任意の形式の音声ファイルとして記憶装置22に記憶される。
制御装置24は、音声対話装置100の各要素を統括的に制御する演算処理装置(例えばCPU)である。制御装置24は、記憶装置22に記憶されたプログラムを実行することで、利用者Uとの対話を成立させるための複数の機能(応答生成部41,音高調整部43,第1再生指示部45および第2再生指示部47)を実現する。なお、制御装置24の機能を複数の装置(すなわちシステム)で実現した構成、または、制御装置24の機能の一部を専用の電子回路が分担する構成も採用され得る。
図1の応答生成部41は、発話音声Vxに対する応答音声Vzを生成する。第1実施形態の応答生成部41は、発話信号Xに対する音声認識と、当該音声認識の結果を利用した音声合成とにより、応答音声Vzを表す応答信号Zを生成する。具体的には、応答生成部41は、第1に、収音装置20が生成した発話信号Xに対する音声認識で発話音声Vxの内容(以下「発話内容」という)を特定する。第1実施形態では、発話音声Vx「学校の場所をおしえて?」の発話内容が特定される。発話信号Xの音声認識には、例えばHMM(Hidden Markov Model)等の音響モデルと言語的な制約を示す言語モデルとを利用した認識技術等の公知の技術が任意に採用され得る。
応答生成部41は、第2に、特定した発話内容(音韻)の意味を解析し、発話内容に対応する応答の文字列(以下「応答文字列」という)を生成する。応答文字列の生成には、公知の自然言語処理技術が任意に採用され得る。第1実施形態では、発話音声Vx「学校の場所をおしえて?」に対応する応答文字列「三丁目の角」が生成され得る。応答生成部41は、第3に、生成した応答文字列を発音した音声(すなわち応答音声Vz)を表す応答信号Zを生成する。応答信号Zの生成には、公知の音声合成技術が任意に採用され得る。例えば、特定の発声者の収録音声から事前に採取された複数の音声素片の集合から応答文字列に対応する音声素片を順次選択し、当該音声素片を時間軸上で相互に連結することで応答信号Zが生成される。応答信号Zが表す応答音声Vzの音高は、例えば応答文字列の内容または音声合成処理の内容に応じて変化し得る。生成された応答信号Zは、第2再生指示部47により放音装置26に供給される。なお、応答信号Zを生成する方法は、音声合成技術には限定されない。例えば、発話内容が相違する複数の応答信号Zを記憶装置22に記憶させ、当該複数の応答信号Zのうち特定した発話内容に応じた応答信号Zを選択して放音装置26に供給する構成も好適に採用され得る。複数の応答信号Zの各々は、事前に収録され、例えばwav形式等の任意の形式の音声ファイルとして記憶装置22に記憶される。
ここで、現実の人間が複数の音声を順次に発声する場合、各々の音声の音高は相互に影響を受ける。例えば、先行する音声の音高は後続する音声の音高に依存する。特に、間投詞音声と応答音声とを発話者が順次に発声する場合に、間投詞音声の音高が直後の応答音声の音高に依存するという傾向がある。そこで、第1実施形態では、応答音声Vzの音高に応じた音高の間投詞音声Vyを再生させる。
図1の音高調整部43は、応答音声Vzの音高Pzに応じて間投詞音声Vyの音高を調整する。第1実施形態の音高調整部43は、記憶装置22に記憶された音声信号Y1の音高を、応答音声Vzの音高Pzに応じて調整することで、間投詞音声Vyの音声信号Y2を生成する。
図1の第1再生指示部45は、待機期間Q内に、音高調整部43により音高が調整された間投詞音声Vyの再生を指示する。具体的には、第1再生指示部45は、間投詞音声Vy「え〜と」の音声信号Y2を放音装置26に供給する。図2に例示される通り、発話音声Vxの終点txから応答音声Vzの再生が開始される時点tZまでの待機期間Q内の途中の時点tYにおいて、間投詞音声Vyの再生が指示される。
第2再生指示部47は、第1再生指示部45による間投詞音声Vyの再生後における応答音声Vzの再生を指示する。具体的には、第2再生指示部47は、間投詞音声Vyの再生後(典型的には間投詞音声Vyの再生直後)に、応答生成部41が生成した応答信号Zを放音装置26に供給する。
放音装置26は、第1再生指示部45から供給された音声信号Y2が表わす間投詞音声Vy「え〜と」と、第2再生指示部47から供給された応答信号Zが表わす応答音声Vz「三丁目の角」とを順次に再生する。なお、音声信号Y2と応答信号Zとをデジタルからアナログに変換するD/A変換器の図示は便宜的に省略した。以上の説明から理解される通り、利用者Uが発話音声Vx「学校の場所をおしえて?」を発声すると、言淀みを表す間投詞音声Vy「え〜と」が再生され、間投詞音声Vyの再生に後続して応答音声Vz「三丁目の角」が再生される。
図3は、第1実施形態の制御装置24が実行する処理のフローチャートである。例えば利用者Uの発話音声Vxの終了を契機として図3の処理が開始される。
図3の処理を開始すると、応答生成部41は、発話音声Vx「学校の場所をおしえて?」を表す発話信号Xを収音装置20から取得し、当該発話信号Xに対する音声認識で発話内容を特定する(SA1)。応答生成部41は、特定した発話内容の意味を解析し、発話内容に対応する応答文字列「三丁目の角」を生成する(SA2)。応答生成部41は、生成した応答文字列「三丁目の角」を発音した応答音声Vzを表す応答信号Zを生成する(SA3)。
音高調整部43は、応答音声Vzの音高Pzを特定する(SA4)。音高Pzは、図2に例示される通り、例えば、応答音声Vzのうち終点tzを含む末尾区間Ez内の音高の最低値(以下「最低音高」という)Pzminである。末尾区間Ezは、例えば応答音声Vzのうち終点tz以前の所定長(例えば数秒)にわたる一部の区間である。例えば、図2から理解される通り、平叙文「三丁目の角」の応答音声Vzでは終点tzにかけて音高が単調に低下する傾向がある。したがって、応答音声Vzの終点tzでの音高(最低音高Pzmin)が音高Pzとして特定される。なお、末尾区間Ezは、応答音声Vzのうち終点tzを含む所定の割合の区間に限定されない。例えば、応答音声Vzのうち終点tzを含む所定の割合の区間を末尾区間Ezとして画定することも可能である。また、応答音声Vzのうち終点tzの近傍の時点(終点tzよりも過去の時点)を終点として末尾区間Ezを画定する(すなわち応答音声Vzのうち終点tzの近傍の区間を除外して末尾区間Ezを特定する)ことも可能である。以上の例示から理解される通り、末尾区間Ezは、応答音声Vzのうち終点tz付近の区間として包括的に表現される。
音高調整部43は、応答音声Vz「三丁目の角」について特定した音高Pz(最低音高Pzmin)に応じて間投詞音声Vy「え〜と」の音高を調整する(SA5)。現実の対話の場合、発話者の発話音声に対して対話相手が発声する間投詞音声の終点付近の音高は、間投詞音声の直後に対話相手により発声される応答音声の終点付近の最低音高と一致する傾向がある。そこで、第1実施形態の音高調整部43は、応答音声Vz「三丁目の角」について特定した音高Pzに間投詞音声Vy「え〜と」の音高が一致するように調整する。具体的には、音高調整部43は、間投詞音声Vyを表す音声信号Y1のうち時間軸上の特定の時点(以下「目標点」という)τyでの音高が応答音声Vzの音高Pzに一致するように当該間投詞音声Vyの音高を調整することで、間投詞音声Vyを表す音声信号Y2を生成する。目標点τyの好適例は、間投詞音声Vyの終点tyである。具体的には、音高調整部43は、図2に例示される通り、間投詞音声Vy「え〜と」を表す音声信号Y1の終点tyの音高が応答音声Vzの音高Pzに一致するように音声信号Y1の全区間にわたる音高を調整(ピッチシフト)することで、音声信号Y2を生成する。なお、音高の調整には公知の技術が任意に採用され得る。また、目標点τyは、間投詞音声Vyの終点tyに限定されない。例えば、間投詞音声Vyの始点(時点tY)を目標点τyとして音高を調整することも可能である。
第1再生指示部45は、待機期間Q内に、音高調整部43が生成した音声信号Y2を放音装置26に供給することで、音高を調整した間投詞音声Vy「え〜と」の再生を指示する(SA6)。第2再生指示部47は、間投詞音声Vy「え〜と」の再生後に、応答生成部41が生成した応答信号Zを放音装置26に供給することで、応答音声Vz「三丁目の角」の再生を指示する(SA7)。以上に説明した処理により、利用者Uによる発話音声Vx「学校の場所をおしえて?」に対して、間投詞音声Vy「え〜と」と応答音声Vz「三丁目の角」とが順次に再生される音声対話が実現される。
以上に説明した通り、第1実施形態では、発話音声Vxに対する応答音声Vzの再生の前に間投詞音声Vyが再生される。したがって、発話者の発話音声と対話相手が発声する応答音声との間に対話相手による何らかの音声(典型的には間投詞音声)が発声されるという現実の対話の傾向を模擬した自然な音声対話を実現することができる。また、第1実施形態では、応答音声Vzの音高に応じて間投詞音声Vyの音高が調整されるので、間投詞音声の音高が当該間投詞音声の直後に発声される応答音声の音高の影響を受けるという現実の発話者の傾向を模擬した自然な音声対話を実現することが可能である。
<第2実施形態>
本発明の第2実施形態を説明する。なお、以下に例示する各形態において作用や機能が第1実施形態と同様である要素については、第1実施形態の説明で使用した符号を流用して各々の詳細な説明を適宜に省略する。
第1実施形態の音声対話装置100は、発話音声Vxから応答音声Vzの再生までの待機期間Q内に間投詞音声(先行音声の例示)Vyを再生する。それに対して、第2実施形態の音声対話装置100は、図4に例示される通り、待機期間Q内に、第1実施形態と同様の間投詞音声(先行音声の例示)Vyの再生に加えて、間投詞音声Vyの再生の前に他の間投詞音声(初期音声の例示)Vwを再生する。つまり、間投詞音声(初期音声)Vwは、間投詞音声(先行音声)Vyに先行して再生される音声である。以上の説明から理解される通り、待機期間Q内に間投詞音声Vwと間投詞音声Vyとが順次に再生される。間投詞音声Vwは、間投詞音声Vyと同様に間投詞を意味する音声である。第2実施形態の間投詞音声Vwの発話内容(音韻)は、間投詞音声Vyの発話内容とは相違する。
現実の対話の場面では、発話者の発話内容によっては、応答音声の発声までに複数の間投詞音声が対話相手により発声される場合がある。例えば、現実の対話では、発話音声「学校の場所をおしえて?」が発声される場合、発話音声に対する相づちを表す「うん」の間投詞音声と言淀み「え〜と」を表す間投詞音声とを順次に発声してから、応答音声「三丁目の角」が発声される。以上の傾向を考慮して、第2実施形態の音声対話装置100は、前述の通り、待機期間Q内に複数の間投詞音声Vw,Vyを再生する。第2実施形態では、相づちを表す間投詞音声Vw「うん」と、言淀みを表す間投詞音声Vy「え〜と」とを待機期間Q内に順次に再生させる場合を例示する。
また、現実の対話において、発話者の発話音声から対話相手の応答音声Vzまでに、複数の間投詞音声が対話相手により発声される場合、発話音声の直後に発声される音声の音高は発話音声の音高に依存し、応答音声の直前に発声される音声の音高は応答音声の音高に依存するという傾向がある。以上の傾向を前提として、第2実施形態では、発話音声Vxの音高に応じた音高の間投詞音声Vwと、応答音声Vzの音高に応じた音高の間投詞音声Vyとを再生する。
第2実施形態の音声対話装置100は、第1実施形態と同様に、収音装置20と記憶装置22と制御装置24と放音装置26とを具備する。第2実施形態の収音装置20は、第1実施形態と同様に、利用者Uの発話音声Vxを表す発話信号Xを生成する。第2実施形態の記憶装置22は、第1実施形態と同様の間投詞音声Vy「え〜と」を表す音声信号Y1に加えて、所定の音高の間投詞音声Vw「うん」を表す音声信号W1を記憶する。
第2実施形態の制御装置24は、第1実施形態と同様に、利用者Uとの対話を成立させるための複数の機能(応答生成部41,音高調整部43,第1再生指示部45および第2再生指示部47)を実現する。第2実施形態の応答生成部41は、第1実施形態と同様に、発話音声Vx「学校の場所をおしえて?」に対する応答音声Vz「三丁目の角」を生成する。具体的には、応答生成部41は、発話音声Vx「学校の場所をおしえて?」の発話信号Xに対する音声認識により発話内容を特定し、発話内容に対する応答文字列を表す応答信号Zを生成する。
第2実施形態の音高調整部43は、利用者Uの発話音声Vxの音高Pxに応じて間投詞音声Vwの音高を調整するとともに、応答音声Vzの音高Pzに応じて間投詞音声Vyの音高を調整する。間投詞音声Vwの音高の調整については、音高調整部43は、記憶装置22に記憶された音声信号W1の音高を、発話音声Vxの音高Pxに応じて調整することで、間投詞音声Vwの音声信号W2を生成する。なお、間投詞音声Vyの音高の調整については、音高調整部43は、第1実施形態と同様に、音声信号Y1が表す初期的な間投詞音声Vy「え〜と」を応答音声Vzの音高Pzに応じて調整することで、間投詞音声Vy「え〜と」を表す音声信号Y2を生成する。
第2実施形態の第1再生指示部45は、待機期間Q内に、音高調整部43により音高が調整された間投詞音声Vw「うん」および間投詞音声Vy「え〜と」の再生を指示する、つまり間投詞音声Vwを表す音声信号W2と間投詞音声Vyを表す音声信号Y2とを放音装置26に供給する。具体的には、第1再生指示部45は、図4の待機期間Qにおける間投詞音声Vwの再生と、待機期間Qのうちの間投詞音声Vwの再生後における間投詞音声Vyの再生とを指示する。
第2実施形態の第2再生指示部47は、第1実施形態と同様に、間投詞音声Vyの再生後に応答生成部41が生成した応答信号Zを放音装置26に供給することで、間投詞音声Vyの再生後における応答音声Vzの再生を指示する。
放音装置26は、第1再生指示部45から供給された音声信号W2が表す間投詞音声Vw「うん」と音声信号Y2が表わす間投詞音声Vy「え〜と」とを順次に再生した後に、第2再生指示部47から供給された応答信号Zが表わす応答音声Vz「三丁目の角」を再生する。発話音声Vxの終点txから応答音声Vzの再生が開始される時点tZまでの待機期間Q内の途中の時点tWにおいて、間投詞音声Vwの再生が指示され、終点twから時点tZまでの期間の途中の時点tYにおいて間投詞音声Vyの再生が指示される。以上の説明から理解される通り、利用者Uが発話音声Vx「学校の場所をおしえて?」を発声すると、相づちを表す間投詞音声Vw「うん」と言淀みを表す間投詞音声Vy「え〜と」との再生に後続して応答音声Vz「三丁目の角」が再生される。
図5は、第2実施形態の制御装置24が実行する処理のフローチャートである。第2実施形態では、第1実施形態で例示したスッテップSA1〜SA7に、間投詞音声Vwを再生させるための処理(SB1〜SB3)を追加する。処理の開始から応答信号Zを生成する処理(SA3)までは第1実施形態と同様である。
音高調整部43は、収音装置20が生成した発話信号Xから発話音声Vx「学校の場所をおしえて?」の音高Pxを特定する(SB1)。音高Pxは、図4に例示される通り、例えば、発話音声Vxのうち終点txを含む末尾区間Ex内の音高の最低値(以下「最低音高」という)Pxminである。末尾区間Exは、例えば発話音声Vxのうち終点tx以前の所定長(例えば数秒)にわたる一部の区間である。例えば、図4から理解される通り、疑問文の発話音声Vx「学校の場所をおしえて?」では終点txの近傍にて音高が上昇する傾向がある。したがって、発話音声Vxの音高の推移が低下から上昇に転換する極小点での音高(最低音高Pxmin)が音高Pとして特定される。なお、末尾区間Exは、発話音声Vxのうち終点txを含む所定の割合の区間に限定されない。例えば、発話音声Vxのうち終点txを含む所定の割合の区間を末尾区間Exとして画定することも可能である。また、発話音声Vxのうち終点txの近傍の時点(終点txよりも過去の時点)を終点として末尾区間Exを画定する(すなわち発話音声Vxのうち終点txの近傍の区間を除外して末尾区間Exを特定する)ことも可能である。以上の例示から理解される通り、末尾区間Exは、発話音声Vxのうち終点tx付近の区間として包括的に表現される。
音高調整部43は、発話音声Vx「学校の場所をおしえて?」について特定した音高Px(最低音高Pxmin)応じて間投詞音声Vw「うん」の音高を調整する(SB2)。具体的には、第2実施形態の音高調整部43は、発話音声Vxについて特定した最低音高Pxminに間投詞音声Vwの音声信号W1のうち時間軸上の特定の時点(以下「目標点」という)τwでの音高が一致するように当該間投詞音声Vwの音高を調整することで、間投詞音声Vw「うん」を表す音声信号W2を生成する。目標点τwの好適例は、間投詞音声Vwを構成する複数のモーラのうち特定のモーラ(典型的には最後のモーラ)の始点である。例えば、「うん」という間投詞音声Vwの音声信号W1を想定すると、図4から理解される通り、音声信号W1のうち最後のモーラである「ん」の始点の音高が最低音高Pxminに一致するように音声信号W1の全区間にわたる音高を調整(ピッチシフト)することで、間投詞音声Vwの音声信号W2が生成される。なお、音高の調整には公知の技術が任意に採用され得る。また、目標点τwは、間投詞音声Vwのうち最後のモーラの始点に限定されない。例えば、間投詞音声Vwの始点(時点tW)や終点twを目標点τwとして音高を調整することも可能である。
第1再生指示部45は、待機期間Q内に、音高調整部43が生成した音声信号W2を放音装置26に供給することで、音高を調整した間投詞音声Vw「うん」の再生を指示する(SB3)。間投詞音声Vwの再生が指示された後に、間投詞音声Vyの音高の調整および再生の指示(SA4〜SA6)と、応答音声Vzの再生の指示(SA7)とが、第1実施形態と同様に順次実行される。
第2実施形態においても第1実施形態と同様の効果が実現される。第2実施形態では、待機期間Q内に複数の間投詞音声Vw,Vyが再生されるので、現実の対話をより適切に模擬した音声対話の実現が可能である。また、第2実施形態では、発話音声Vxの直後に再生される間投詞音声Vwは発話音声Vxの音高Pxに応じた音高で再生され、応答音声Vzの直前に再生される間投詞音声Vyは応答音声Vzの音高Pzに応じた音高で再生されるので、より現実の対話に近い自然な音声対話を模擬できる。
<変形例>
以上に例示した各態様は多様に変形され得る。具体的な変形の態様を以下に例示する。以下の例示から任意に選択された2個以上の態様は、相互に矛盾しない範囲で適宜に併合され得る。
(1)前述の各形態では、間投詞音声Vyの再生後に発話音声Vxに対する応答音声Vzを再生したが、利用者Uが発話音声Vxを発声していない状態で、音声対話装置100が間投詞音声Vyおよび応答音声Vzを再生することも想定され得る。つまり、発話音声Vxは省略され得る。音声対話装置100は、例えば、間投詞音声Vy「え〜と」の再生後に、利用者Uに質問をする音声「今日の天気は?」を再生する。また、利用者Uが入力機器により入力した文字列に対する応答を表す応答音声Vzを再生する構成も採用され得る。以上の説明から理解される通り、間投詞音声Vyの再生後に再生される音声は、発話音声Vxに対する応答の音声には限定されず、対話のための(つまり対話を構成する)対話音声として包括的に表現される。前述の各形態における応答音声Vzは、対話音声の例示である。
(2)前述の各形態では、応答音声Vzの再生前に間投詞音声Vyを再生したが、応答音声Vzの再生前に再生する音声の内容は以上の例示(つまり間投詞)に限定されない。例えば応答音声Vzの再生前に特定の意味を持つ音声(例えば複数の語句で構成される文章)が再生されることも想定され得る。以上の説明から理解される通り、応答音声Vzの再生前に再生される音声は、応答音声Vzに先行して再生される先行音声として包括的に表現され、間投詞音声Vyは先行音声の例示である。なお、第2実施形態の間投詞音声Vwについても、間投詞音声Vyの再生前に間投詞音声Vwを再生したが、間投詞音声Vyの再生前に再生する音声の内容は以上の例示(つまり間投詞)に限定されない。間投詞音声Vyの再生前に再生される音声は、間投詞を表す音声には限定されず、間投詞音声Vyに先行して再生される初期音声として包括的に表現される。前述の各形態における間投詞音声Vwは、初期音声の例示である。
(3)第2実施形態では、2個の間投詞音声Vw,Vyを待機期間Q内に再生させたが、3個以上の音声を待機期間Q内に再生させる構成も採用され得る。待機期間Q内の音声の総数に関わらず、発話音声Vxの直後に再生される音声が発話音声Vxの音高Pxに応じて調整され、応答音声Vzの直前の音声が応答音声Vzの音高Pzに応じて調整する構成が好適である。以上の構成によれば、前述の各形態と同様に、より現実の対話に近い自然な音声対話を模擬できるという効果は担保される。なお、待機期間Q内に再生される複数の音声の内容(音韻)の異同は不問である。
(4)前述の各形態では、間投詞音声Vyのうち目標点τyの音高を応答音声Vzの末尾区間Ez内の最低音高Pzminに一致させる構成を例示したが、間投詞音声Vyの目標点τyでの音高と応答音声Vzの音高Pzとの関係は以上の例示(両者が一致する関係)に限定されない。例えば、間投詞音声Vyの目標点τyでの音高を、応答音声Vzの音高Pzに所定の調整値(オフセット)を加算または減算した音高に一致させることも可能である。調整値は、事前に選定された固定値(例えば最低音高Pzminに対して5度等の音程に相当する数値)または利用者Uからの指示に応じた可変値である。なお、第2実施形態においても、間投詞音声Vwの目標点τwでの音高と発話音声Vxの最低音高Pxminとの関係は両者が一致する関係に限定されない。第2実施形態において調整値をオクターブの整数倍に相当する数値に設定した構成を採用する場合、最低音高Pxminをオクターブシフトした音高の間投詞音声Vwが再生される。なお、調整値を適用するか否かを利用者Uからの指示に応じて切替えることも可能である。
(5)前述の各形態では、応答音声Vzの末尾区間Ezの最低音高Pzminに応じて間投詞音声Vyの音高を調整したが、応答音声Vzにおける任意の時点の音高Pzが間投詞音声Vyの音高の調整に利用され得る。ただし、現実の対話に近い自然な音声対話の実現という観点からは、応答音声Vzの末尾区間(つまり終点tz付近)Ezの音高Pz(特に最低音高Pzmin)に応じて調整する構成が好適に採用され得る。なお、第2実施形態においても、発話音声Vxにおける任意の時点の音高Pxが間投詞音声Vwの音高の調整に利用され得る。
(6)前述の各形態において、発話音声Vxに応じて、間投詞音声Vyの再生を指示するか否かを第1再生指示部45が決定する構成も好適に採用され得る。例えば発話内容に応じて間投詞音声Vyの再生を指示するか否かを決定することも可能である。第1再生指示部45は、例えば、発話内容が疑問文である場合は間投詞音声Vyの再生を指示するのに対して、発話内容が平叙文である場合は間投詞音声Vyの再生を指示しない。また、発話音声Vxの時間長に応じて間投詞音声Vyの再生を指示するか否かを決定することも可能である。第1再生指示部45は、例えば、発話音声Vxの時間長が所定値を上回る場合は間投詞音声Vyの再生を指示するのに対して、発話音声Vxの時間長が所定値を下回る場合は間投詞音声Vyの再生を指示しない。
また、応答音声Vzに応じて間投詞音声Vyの再生を指示するか否かを第1再生指示部45が決定する構成も好適に採用され得る。例えば応答音声Vzの内容に応じて間投詞音声Vyの再生を指示するか否かを決定することも可能である。第1再生指示部45は、例えば、応答音声Vzの内容が複数の語句で構成される文章である場合は間投詞音声Vyの再生を指示するのに対して、応答音声Vzの内容が1つの語句(例えば指示代名詞「そこ」)で構成される場合は間投詞音声Vyの再生を指示しない。また、応答音声Vzの時間長に応じて間投詞音声Vyの再生を指示するか否かを決定することも可能である。第1再生指示部45は、例えば、応答音声Vzの時間長が所定値を上回る場合は間投詞音声Vyの再生を指示するのに対して、応答音声Vzの時間長が所定値を下回る場合は間投詞音声Vyの再生を指示しない。以上の説明から理解される通り、発話音声Vxまたは応答音声Vzに応じて、間投詞音声Vyの再生を指示するか否かを決定する構成も好適に採用され得る。以上の構成によれば、発話音声Vxおよび応答音声Vzに依存せずに常に先行音声が再生される構成と比較して、より現実の対話に近い自然な音声対話を模擬できる。なお、第2実施形態においては、発話音声Vxまたは応答音声Vzに応じて、間投詞音声Vwの再生を指示するか否かを決定することも可能である。
(7)前述の各形態では、待機期間Q内の途中の時点tYにおいて間投詞音声Vyの再生を指示したが、間投詞音声Vyの再生を指示する時点tYを発話音声Vxまたは応答音声Vzの時間長に応じて可変に設定することも可能である。例えば、発話音声Vxまたは応答音声Vzの時間長が長い場合(例えば複数の語句から構成される文章を表す応答音声Vzの場合)は、応答音声Vzの再生が開始される時点tZに近い時点tYを設定するのに対して、発話音声Vxまたは応答音声Vzの時間長が短い場合(例えば1つの語句を表す応答音声Vzの場合)は、発話音声Vxの終点txに近い時点tYを設定する。
ここで、利用者Uの発話音声Vxの発声と音声対話装置100の応答音声Vzの再生とは、現実の人間同士の対話と同様に、往復して複数回実行され得る。そこで、待機期間Q内の途中の時点tYを応答音声Vzの終点tzから、次の発話音声Vxが利用者により開始される時点tXまでの時間長に応じて可変に設定することも可能である。以上の構成によれば、利用者Uの発話のペースで音声対話装置100との対話が実現できるという利点がある。なお、間投詞音声Vyの再生を指示する時点tYを対話毎に無作為に設定する構成も採用され得る。
(8)前述の各形態では、記憶装置22に記憶された音声信号Y1の音高を、応答音声Vzの音高Pzに応じて調整することで、間投詞音声Vyの音声信号Y2を生成する構成を例示したが、間投詞音声Vyを表す音声信号Y2を生成する方法は以上の例示に限定されない。例えば、間投詞「え〜と」の文字列を発話した音声(すなわち間投詞音声Vy)を表す音声信号Y2を公知の音声合成技術により生成する構成も好適に採用され得る。具体的には、音高調整部43は、応答音声Vzの音高Pzに応じて調整した音高の間投詞音声Vyを表す音声信号Y2を生成する。つまり、記憶装置22への音声信号Y1の記憶は省略され得る。以上の説明から理解される通り、応答音声Vzの音高Pzに応じて間投詞音声Vyの音高を調整する方法(つまり間投詞音声Vyの音声信号Y2を生成する方法)は任意である。なお、第2実施形態の間投詞音声Vwの音声信号W2の生成についても、間投詞「うん」の文字列を発話した音声(すなわち間投詞音声Vw)を表す音声信号W2を発話音声Vxの音高Pxに応じた音高で、公知の音声合成技術により生成することも可能である。すなわち、発話音声Vxの音高Pxに応じて間投詞音声Vwの音高を調整する方法(つまり間投詞音声Vwの音声信号W2を生成する方法)は任意である。
(9)前述の各形態では、応答音声Vzの音高Pzに応じて間投詞音声Vyの音高を調整したが、調整対象となる間投詞音声Vyの韻律の種類は音高に限定されない。韻律(プロソディ)は、音声の受聴者が知覚し得る言語学的および音声学的な特性であり、言語の一般的な表記(例えば韻律を表す特別な表記を除いた表記)のみからでは把握できない性質を意味する。韻律は、発話者の意図または感情を受聴者に想起ないし推測させ得る特性とも換言され得る。具体的には、音量,抑揚(音声の調子の変化もしくはイントネーション),音調(音声の高低もしくは強弱),音長(発話長),話速,リズム(音調の時間的な変化の構造),またはアクセント(高低もしくは強弱のアクセント)等の種々の特徴が、韻律の概念には包含され得るが、韻律の典型例は音高である。応答音声Vzの韻律に応じて間投詞音声Vyの韻律を調整する構成であれば、自然な音声対話を実現することが可能である。なお、発話音声Vxの音高Pxに応じて間投詞音声Vwの音高を調整する第2実施形態についても、調整対象となる間投詞音声Vwの韻律の種類は音高に限定されない。
(10)前述の各形態で例示した音声対話装置100は、前述の通り、制御装置24と音声対話用のプログラムとの協働で実現され得る。音声対話用のプログラムは、コンピュータが読取可能な記録媒体に格納された形態で提供されてコンピュータにインストールされ得る。記録媒体は、例えば非一過性(non-transitory)の記録媒体であり、CD-ROM等の光学式記録媒体(光ディスク)が好例であるが、半導体記録媒体や磁気記録媒体等の公知の任意の形式の記録媒体を包含し得る。また、通信網を介した配信の形態でプログラムをコンピュータに配信することも可能である。
(11)本発明は、前述の各形態に係る音声対話装置100の動作方法(音声対話方法)としても特定され得る。音声対話方法の動作主体となるコンピュータ(音声対話装置100)は、例えば単体のコンピュータまたは複数のコンピュータで構成されるシステムである。具体的には、本発明の好適な態様の音声対話方法は、対話のための対話音声の音高に応じて、当該対話音声に先行して再生される先行音声の音高を調整する音高調整ステップと、音高調整ステップが調整した先行音声の再生を指示する第1再生指示ステップと、第1再生指示ステップによる先行音声の再生後における対話音声の再生を指示する第2再生指示ステップとを含む。
(12)以上に例示した形態から、例えば以下の構成が把握される。
<態様1>
本発明の好適な態様(態様1)に係る音声対話方法は、対話のための対話音声の音高に応じて、当該対話音声に先行して再生される先行音声の音高を調整する音高調整ステップと、前記音高調整ステップにおいて調整した前記先行音声の再生を指示する第1再生指示ステップと、前記第1再生指示ステップによる前記先行音声の再生後における前記対話音声の再生を指示する第2再生指示ステップとを含む。現実の人間が複数の音声を順次に発声する場合、各々の音声の音高が相互に影響を受ける(つまり先行する音声の音高は後続する音声の音高に依存する)という傾向がある。以上の方法では、対話音声の再生に先立って、対話音声の音高に応じて音高を調整した先行音声が再生されるので、前述の傾向を模擬した自然な音声対話を実現することが可能である。
<態様2>
態様1の好適例(態様2)に係る音声対話方法において、前記対話音声は、発話音声に対する応答音声であり、前記先行音声は、間投詞の音声であり、前記第1再生指示ステップでは、前記発話音声から前記応答音声の再生までの待機期間内に前記先行音声の再生を指示する。現実の人間同士の対話において、発話者の発話音声と対話相手が発音する応答音声との間には、対話相手による何らかの音声(典型的には間投詞)が発声されるという傾向がある。発話音声に対する応答音声の再生の前に間投詞の音声が再生される以上の方法によれば、現実の対話の傾向を模擬した自然な音声対話を実現することができる。また、間投詞音声と応答音声とを発話者が順次に発声する場合に、間投詞音声の音高が直後の応答音声の音高に依存するという傾向は顕著である。したがって、発話音声に対する応答音声の再生の前に間投詞の音声が再生される以上の方法によれば、自然な音声対話を実現できるという前述の効果は特に有効である。
<態様3>
態様1または態様2の好適例(態様3)に係る音声対話方法において、前記音高調整ステップでは、前記対話音声のうち終点付近の音高に応じて前記先行音声の音高を調整する。以上の方法では、対話音声のうち終点付近の音高に応じた音高の先行音声が再生されるから、現実の対話に近い自然な音声対話を実現できるという効果は格別に顕著である。
<態様4>
態様3の好適例(態様4)に係る音声対話方法において、前記音高調整ステップでは、前記対話音声のうち終点付近の最低音高に前記先行音声の終点の音高が一致するように調整する。以上の方法では、対話音声の終点付近の最低音高に先行音声の終点の音高が一致するように先行音声が再生されるので、現実の対話に近い自然な音声対話を実現できるという効果は格別に顕著である。
<態様5>
態様2の好適例(態様5)に係る音声対話方法において、前記第1再生指示ステップでは、前記発話音声または前記対話音声に応じて、前記先行音声の再生を指示するか否かを決定することを含む。以上の方法では、発話音声または対話音声に応じて、先行音声を再生させるか否かが決定するから、発話音声および対話音声によらず常に先行音声が再生される方法と比較して、より現実の対話に近い自然な音声対話を模擬できる。
<態様6>
態様5の好適例(態様6)に係る音声対話方法において、前記第1再生指示ステップでは、前記発話音声または前記対話音声の時間長に応じて、前記先行音声の再生を指示するか否かを決定する。以上の方法では、発話音声または対話音声の時間長に応じて、先行音声の再生の有無が決定する。
<態様7>
態様2の好適例(態様7)に係る音声対話方法において、前記第1再生指示ステップでは、前記待機期間のうち前記発話音声または前記対話音声の時間長に応じた時点において前記先行音声の再生を指示する。以上の方法では、待機期間のうち発話音声または対話音声の時間長に応じた時点において先行音声が再生されるので、先行音声が再生さされる時点が発話音声または対話音声の時間長に関わらず変化しない構成と比較して、利用者に機械的に印象を与えることを低減することができる。
<態様8>
態様2の好適例(態様8)に係る音声対話方法において、前記音高調整ステップでは、前記発話音声の音高に応じて、前記先行音声に先行して再生される初期音声の音高を調整し、前記第1再生指示ステップでは、前記待機期間における前記調整後の前記初期音声の再生と、前記待機期間のうち当該初期音声の再生後における前記先行音声の再生とを指示する。以上の方法では、発話音声から先行音声の再生までの期間に、発話音声の音高に応じた音高の初期音声が再生されるので、より現実の対話に近い自然な音声対話を模擬できる。
<態様9>
本発明の好適な態様(態様9)に係る音声対話装置は、対話のための対話音声の音高に応じて、当該対話音声に先行して再生される先行音声の音高を調整する音高調整部と、前記音高調整部が調整した前記先行音声の再生を指示する第1再生指示部と、前記第1再生指示部による前記先行音声の再生後における前記対話音声の再生を指示する第2再生指示部とを具備する。現実の人間が複数の音声を順次に発声する場合、各々の音声の音高が相互に影響を受ける(つまり先行する音声の音高は後続する音声の音高に依存する)という傾向がある。以上の構成では、対話音声の再生に先立って、対話音声の音高に応じて音高を調整した先行音声が再生されるので、前述の傾向を模擬した自然な音声対話を実現することが可能である。
100……音声対話装置、20……収音装置、22……記憶装置、24……制御装置、26……放音装置、41……応答生成部、43……音高調整部、45……第1再生指示部、47……第2再生指示部。

Claims (11)

  1. 対話のための対話音声のうち終点付近の音高に応じて、当該対話音声に先行して再生される先行音声の音高を調整する音高調整ステップと、
    前記音高調整ステップにおいて調整した前記先行音声の再生を指示する第1再生指示ステップと、
    前記第1再生指示ステップによる前記先行音声の再生後における前記対話音声の再生を指示する第2再生指示ステップと
    を含む音声対話方法。
  2. 前記音高調整ステップでは、前記対話音声のうち終点付近の最低音高に前記先行音声の終点の音高が一致するように調整する
    請求項の音声対話方法。
  3. 発話音声に対する応答音声の音高に応じて、当該応答音声に先行して再生される間投詞音声の音高を調整する音高調整ステップと、
    前記発話音声から前記応答音声の再生までの待機期間内に、前記音高調整ステップにおいて調整した前記間投詞音声の再生を指示する第1再生指示ステップと、
    前記第1再生指示ステップによる前記間投詞音声の再生後における前記応答音声の再生を指示する第2再生指示ステップと
    を含む音声対話方法。
  4. 前記第1再生指示ステップ、前記発話音声または前記応答音声に応じて、前記間投詞音声の再生を指示するか否かを決定することを含む
    請求項の音声対話方法。
  5. 前記第1再生指示ステップでは、前記発話音声または前記応答音声の時間長に応じて、前記間投詞音声の再生を指示するか否かを決定する
    請求項の音声対話方法。
  6. 前記第1再生指示ステップでは、前記待機期間のうち前記発話音声または前記応答音声の時間長に応じた時点において前記間投詞音声の再生を指示する
    請求項の音声対話方法。
  7. 前記音高調整ステップでは、前記発話音声の音高に応じて、前記間投詞音声に先行して再生される初期音声の音高を調整し、
    前記第1再生指示ステップでは、前記待機期間における前記調整後の前記初期音声の再生と、前記待機期間のうち当該初期音声の再生後における前記間投詞音声の再生とを指示する
    請求項の音声対話方法。
  8. 対話のための対話音声のうち終点付近の音高に応じて、当該対話音声に先行して再生される先行音声の音高を調整する音高調整部と、
    前記音高調整部が調整した前記先行音声の再生を指示する第1再生指示部と、
    前記第1再生指示部による前記先行音声の再生後における前記対話音声の再生を指示する第2再生指示部と
    を具備する音声対話装置。
  9. 発話音声に対する応答音声の音高に応じて、当該応答音声に先行して再生される間投詞音声の音高を調整する音高調整部と、
    前記発話音声から前記応答音声の再生までの待機期間内に、前記音高調整部が調整した前記間投詞音声の再生を指示する第1再生指示部と、
    前記第1再生指示部による前記間投詞音声の再生後における前記応答音声の再生を指示する第2再生指示部と
    を具備する音声対話装置。
  10. 対話のための対話音声のうち終点付近の音高に応じて、当該対話音声に先行して再生される先行音声の音高を調整する音高調整部、
    前記音高調整部が調整した前記先行音声の再生を指示する第1再生指示部、および、
    前記第1再生指示部による前記先行音声の再生後における前記対話音声の再生を指示する第2再生指示部
    としてコンピュータを機能させるプログラム。
  11. 発話音声に対する応答音声の音高に応じて、当該応答音声に先行して再生される間投詞音声の音高を調整する音高調整部、
    前記発話音声から前記応答音声の再生までの待機期間内に、前記音高調整部が調整した前記間投詞音声の再生を指示する第1再生指示部、および、
    前記第1再生指示部による前記間投詞音声の再生後における前記応答音声の再生を指示する第2再生指示部
    としてコンピュータを機能させるプログラム。
JP2017044557A 2017-03-09 2017-03-09 音声対話方法、音声対話装置およびプログラム Active JP6911398B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2017044557A JP6911398B2 (ja) 2017-03-09 2017-03-09 音声対話方法、音声対話装置およびプログラム
PCT/JP2018/009354 WO2018164278A1 (ja) 2017-03-09 2018-03-09 音声対話方法および音声対話装置
CN201880017267.8A CN110431622A (zh) 2017-03-09 2018-03-09 语音对话方法及语音对话装置
US16/561,348 US20190392814A1 (en) 2017-03-09 2019-09-05 Voice dialogue method and voice dialogue apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017044557A JP6911398B2 (ja) 2017-03-09 2017-03-09 音声対話方法、音声対話装置およびプログラム

Publications (2)

Publication Number Publication Date
JP2018146906A JP2018146906A (ja) 2018-09-20
JP6911398B2 true JP6911398B2 (ja) 2021-07-28

Family

ID=63447734

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017044557A Active JP6911398B2 (ja) 2017-03-09 2017-03-09 音声対話方法、音声対話装置およびプログラム

Country Status (4)

Country Link
US (1) US20190392814A1 (ja)
JP (1) JP6911398B2 (ja)
CN (1) CN110431622A (ja)
WO (1) WO2018164278A1 (ja)

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3721101B2 (ja) * 2001-05-30 2005-11-30 株式会社東芝 音声合成編集装置及び音声合成編集方法並びに音声合成編集プログラム
JP2009047957A (ja) * 2007-08-21 2009-03-05 Toshiba Corp ピッチパターン生成方法及びその装置
JP5025550B2 (ja) * 2008-04-01 2012-09-12 株式会社東芝 音声処理装置、音声処理方法及びプログラム
JP6270661B2 (ja) * 2014-08-08 2018-01-31 国立大学法人京都大学 音声対話方法、及び音声対話システム
JP2017021125A (ja) * 2015-07-09 2017-01-26 ヤマハ株式会社 音声対話装置

Also Published As

Publication number Publication date
JP2018146906A (ja) 2018-09-20
CN110431622A (zh) 2019-11-08
US20190392814A1 (en) 2019-12-26
WO2018164278A1 (ja) 2018-09-13

Similar Documents

Publication Publication Date Title
US10789937B2 (en) Speech synthesis device and method
JP4246792B2 (ja) 声質変換装置および声質変換方法
WO2017006766A1 (ja) 音声対話方法および音声対話装置
Stylianou Voice transformation: a survey
US8898062B2 (en) Strained-rough-voice conversion device, voice conversion device, voice synthesis device, voice conversion method, voice synthesis method, and program
US10854219B2 (en) Voice interaction apparatus and voice interaction method
Doi et al. Esophageal speech enhancement based on statistical voice conversion with Gaussian mixture models
JP5580019B2 (ja) 語学学習支援システム及び語学学習支援方法
JP2006517037A (ja) 韻律的模擬語合成方法および装置
US11727949B2 (en) Methods and apparatus for reducing stuttering
CN111837184A (zh) 声音处理方法、声音处理装置及程序
JP6569588B2 (ja) 音声対話装置およびプログラム
JP6911398B2 (ja) 音声対話方法、音声対話装置およびプログラム
JP6728660B2 (ja) 音声対話方法、音声対話装置およびプログラム
JP3617603B2 (ja) 音声情報の符号化方法及びその生成方法
JP6657887B2 (ja) 音声対話方法、音声対話装置およびプログラム
JP6657888B2 (ja) 音声対話方法、音声対話装置およびプログラム
WO2018173295A1 (ja) ユーザインタフェース装置及び方法、並びに音操作システム
JP2022065554A (ja) 音声合成方法およびプログラム
JP2018146907A (ja) 音声対話方法および音声対話装置
WO2017098940A1 (ja) 音声対話装置および音声対話方法
JP6922306B2 (ja) 音声再生装置、および音声再生プログラム
JP2019060941A (ja) 音声処理方法
JPH08328575A (ja) 音声合成装置
JP2018159778A (ja) 音声再生制御装置、および音声再生制御プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200124

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20201215

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210128

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210608

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210621

R151 Written notification of patent or utility model registration

Ref document number: 6911398

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151