JP2015064480A - 音声合成装置およびプログラム - Google Patents
音声合成装置およびプログラム Download PDFInfo
- Publication number
- JP2015064480A JP2015064480A JP2013198218A JP2013198218A JP2015064480A JP 2015064480 A JP2015064480 A JP 2015064480A JP 2013198218 A JP2013198218 A JP 2013198218A JP 2013198218 A JP2013198218 A JP 2013198218A JP 2015064480 A JP2015064480 A JP 2015064480A
- Authority
- JP
- Japan
- Prior art keywords
- pitch
- answer
- question
- voice
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 38
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 38
- 230000005236 sound signal Effects 0.000 claims description 8
- 230000004044 response Effects 0.000 abstract description 25
- 239000011295 pitch Substances 0.000 description 240
- 238000000034 method Methods 0.000 description 20
- 230000008569 process Effects 0.000 description 11
- 238000010586 diagram Methods 0.000 description 9
- 238000001514 detection method Methods 0.000 description 6
- 238000006243 chemical reaction Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 208000019901 Anxiety disease Diseases 0.000 description 2
- 230000036506 anxiety Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 230000002194 synthesizing effect Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000036651 mood Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000035807 sensation Effects 0.000 description 1
- 230000008961 swelling Effects 0.000 description 1
- 230000002889 sympathetic effect Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Landscapes
- Toys (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
【解決手段】音声信号による問いを入力する音声入力部102と、問いのうち特定の第1区間の音高を解析する音高解析部106と、問いに対する回答を取得する取得部110と、問いおよび回答の言語情報を解析する言語解析部108と、回答を音声合成する音声合成部112と、音声合成部112による音声合成を、回答における特定の第2区間の音高が第1区間の音高に対して所定の関係にある音高となるように変更させ、かつ、問いおよび回答の言語情報にしたがって制御する音声制御部109とを具備する。
【選択図】図1
Description
また、利用者が入力した音声を認識する一方で、シナリオで指定された内容を音声合成で出力して、利用者との音声対話を実現する音声対話システムも提案されている(例えば特許文献3参照)。
本発明は、このような事情に鑑みてなされたものであり、その目的の一つは、利用者に自然な感じを与えるような、具体的には、利用者に対して心理的に良い印象を与えるとともに、より人と対話しているかのような印象を利用者に与えることが可能な音声合成装置およびプログラムを提供することにある。
図に示されるように、人の音声を周波数解析して得られるスペクトルは、時間的に移動する複数のピーク、すなわちフォルマントとして現れる。詳細には、「そうでしょ?」に相当するフォルマント、および、「あ、はい」に相当するフォルマントは、それぞれ3つのピーク帯(時間軸に沿って移動する白い帯状の部分)として現れている。
これらの3つのピーク帯のうち、周波数の最も低いものについて着目してみると、「そうでしょ?」の音「しょ」に相当する符号A(の中心部分)の周波数はおおよそ400Hzである。一方、符号Bは、「あ、はい」の音「い」に相当する符号Bの周波数はおおよそ260Hzである。このため、符号Aの周波数は、符号Bの周波数に対して、ほぼ3/2となっていることが判る。
例えば、問いに対して「Yes(はい)」と回答する場合、問いに対して比較的素早く応答するが、「No(いいえ)」と回答する場合には、例えば相手への印象を考慮して一呼吸を置いて応答する点などである。
したがって、利用者による問いに対する回答を音声合成で出力(返答)する対話システムを検討したときに、当該問いの音高のみならず、当該問いおよび回答の言語的な意味についても、回答を音声合成する上で重要な要素となり得る。
そこで、当該音声合成について上記目的を達成するために、次のような構成とした。
この一態様では、回答における特定の第2区間の音高を、問いのうち特定の第1区間の音高に対して所定の関係にある音高となるように変更するので、音声合成される回答により、利用者に心地良く安心するような好印象を与えることができる。また、問いおよび回答の言語情報にしたがって音声合成が制御されるので、より人と対話しているかのような印象を利用者に与えることが可能になる。
また、所定の関係は、完全1度を除いた協和音程の関係であることが好ましい。ここで、協和とは、複数の楽音が同時に発生したときに、それらが互いに溶け合って良く調和する関係をいい、これらの音程関係を協和音程という。協和の程度は、2音間の周波数比(振動数比)が単純なものほど高い。周波数比が最も単純な1/1(完全1度)と、2/1(完全8度)とを、特に絶対協和音程といい、これに3/2(完全5度)と4/3(完全4度)とを加えて完全協和音程という。5/4(長3度)、6/5(短3度)、5/3(長6度)および8/5(短6度)を不完全協和音程といい、これ以外のすべての周波数比の関係(長・短の2度と7度、各種の増・減音程など)を不協和音程という。
上記態様において、所定の関係として最も望ましい例は、上述したように第2区間の音高が、第1区間の音高に対して5度下の協和音程の関係である、と考えられる。ただし、所定の関係としては、完全1度を除く協和音程に限られず、不協和音程の関係でも良いし、同一を除く、上下1オクターブの範囲内の音高関係でも良い。
また、回答には、質問に対する具体的な答えに限られず、「なるほど」、「そうですね」などの相槌(間投詞)も含まれる。
なお、肯定の回答には、「はい」以外にも、「そうそう」、「その通り」などの同意を含み、また、否定の回答には、「いいえ」以外にも、「あいにく」、「賛成しかねます」などの不同意を含む。
いずれの場合でも、問いから、具体的内容を回答するまでの間が空くと、問いを発した側(利用者)に一種の不安感を与えてしまうとともに、以降の会話が弾まない。
また、逆に回答までの間が詰まり過ぎると、意識的に被されているかのような感覚、または、人の話をまともに聞いていないのでは?、という感覚になり、不快感を与えてしまう。
そこで、上記態様において、問いの言語情報が所定の内容である場合に、音声合成部は、予め定められた内容の回答を音声合成し、音声制御部は、問いが発せられてから当該回答を出力するまでの間を、所定時間の範囲内となるように音声合成部を制御する構成としても良い。
この構成によれば、問いに対する具体的内容の回答の前に、予め定められた内容の回答が、所定時間の範囲内で音声合成されるので、利用者に対して不安感を与えないことができる。
なお、予め定められた内容の回答としては、例えば「うーん」や「そうですねぇ」などの間投詞が挙げられる。また、所定時間の範囲内としては、例えば0.5秒から2.0秒までの時間範囲が適切である、と考えられる。
なお、本発明では、問いの音高(周波数)を解析対象とし、回答の音高を制御対象としているが、ヒトの音声は、上述したフォルマントの例でも明らかなように、ある程度の周波数域を有するので、解析や制御についても、ある程度の周波数範囲を持ってしまうのは避けられない。また、解析や制御については、当然のことながら誤差が発生する。このため、本件において、音高の解析や制御については、音高(周波数)の数値が同一であることのみならず、ある程度の範囲を伴うことが許容される。
図1は、実施形態に係る音声合成装置10の構成を示す図である。この図において、音声合成装置10は、例えば音声入力部102とスピーカ142とを有する携帯電話のような端末装置であり、予めインストールされたアプリケーションプログラムをCPUが実行することによって、複数の機能ブロックが次のように構築される。詳細には、音声合成装置10では、発話区間検出部104、音高解析部106、言語解析部108、音声制御部109、回答作成部(取得部)110、音声合成部112、言語データベース122、回答データベース124、情報取得部126および音声ライブラリ128が構築される。
なお、特に図示しないが、このほかにも表示部や操作入力部なども構築されて、利用者が装置の状況を確認したり、装置に対して各種の操作を入力したりすることができるようになっている。また、音声合成装置10は、ノート型やタブレット型のパーソナルコンピュータでも良い。
発話区間検出部104は、デジタル信号に変換された音声信号を処理して発話(有音)区間を検出する。詳細には、発話区間検出部104は、例えば当該音声信号のうち振幅が閾値以下の状態が所定期間以上連続する区間を無音区間とし、それ以外の区間を発話区間として検出する。
また、言語解析部108は、音声信号による問いだけでなく、後述する回答作成部110による回答の意味を解析する。
言語解析部108は、問いの意味の解析結果を回答作成部110に供給する一方、当該回答作成部110から回答を受け取った場合には、当該回答の解析結果を音声制御部109に供給する。
なお、本実施形態において、回答作成部110が作成する回答には、
(1)肯定等の意を示す回答、
(2)否定等の意を示す回答、
(3)問いに対する具体的な回答、
(4)当該具体的な回答に先立って発せられる交感的な回答(相槌を含む)、
が想定される。(1)の回答の例としては「Yes」、「はい」などが挙げられ、(2)の回答の例としては「No」、「いいえ」などが挙げられる。(3)としては、例えば「あすのてんきは?(明日の天気は?)」という問いに対して「はれです」と具体的に回答する例などが挙げられる。(4)としては、「はれです」という回答の前の「えーと」、「そうですねぇ」などが挙げられる。
(1)および(2)の回答については、例えば「いま3時頃?」という問いに対して、内蔵のリアルタイムクロック(図示省略)から時刻情報を取得すれば、回答作成部110が、当該問いに対して例えば「はい」または「いいえ」のうち、どちらで回答すれば良いのかを判別することができる。
一方で、例えば「あすははれ(明日は晴れ)?」という問いに対しては、外部サーバにアクセスして天気情報を取得しないと、音声合成装置10の単体で回答することができない。このように、音声合成装置10のみでは回答できない場合、情報取得部126は、インターネットを介し外部サーバにアクセスし、回答の作成に必要な情報を取得して、回答作成部110に供給すれば、当該回答作成部110は、当該問いが正しいか否かを判別して回答することができる。
(3)の回答については、例えば「いまなんじ?(今、何時?)」という問いに対しては、回答作成部110は、上記時刻情報を取得するとともに、時刻情報以外の情報を回答データベース124から取得することで、「ただいま○○時○○分です」という回答を作成することが可能である。一方で、「あすのてんきは?(明日の天気は?)」という問いに対しては、情報取得部126が、外部サーバにアクセスして、回答に必要な情報を取得するとともに、回答作成部110が、問いに対して例えば「はれです」という回答を、回答データベース124および外部サーバから作成する構成となっている。
ただし、本実施形態において音声合成部112は、音声シーケンスで規定される基本音声を、音声制御部109の制御内容にしたがって変更して音声合成する。
ここで、音声制御部109は、音声合成部112による音声合成を次のように制御する。すなわち、音声制御部109は、音声シーケンスのうち、特定の区間(第2区間)の音高を、音高データに対して所定の関係となるように音高を変更するとともに、音声シーケンスの発音タイミングを、言語解析部108による回答の解析結果の意味内容に応じて決定する。
なお、本実施形態では、第2区間を回答の語尾とするが、後述するように語尾に限られない。また、本実施形態では、音高データに対して所定の関係にある音高を、5度の下の関係にある音高とするが、後述するように、5度下以外の関係にある音高としても良い。
なお、音声合成部112によって音声合成された音声信号は、図示省略したD/A変換部によってアナログ信号に変換された後、スピーカ142によって音響変換されて出力される。
図4は、音声合成装置10における処理動作を示すフローチャートである。
はじめに、利用者が所定の操作をしたとき、例えば当該対話のための処理に対応したアイコンなどをメインメニュー画面(図示省略)において選択したとき、CPUが当該処理に対応したアプリケーションプログラムを起動する。このアプリケーションプログラムを実行することによって、CPUは、図1で示した機能ブロックを構築する。
問いを発した人が、当該問い対する回答を欲するような対話を想定した場合、問いの語尾に相当する部分では、音量が他の部分として比較して一時的に大きくなる、と考えられる。そこで、音高解析部106による第1区間(語尾)の音高については、例えば次のようにして求めることできる。
第1に、音高解析部106は、発話区間として検出された問いの音声信号を、音量と音高(ピッチ)とに分けて波形化する。図5の(a)は、音声信号についての音量を縦軸で、経過時間を横軸で表した音量波形の一例であり、(b)は、同じ音声信号について周波数解析して得られる第1フォルマントの音高を縦軸で、経過時間を横軸で表した音高波形である。なお、(a)の音量波形と(b)の音高波形との時間軸は共通である。
第2に、音高解析部106は、(a)の音量波形のうち、時間的に最後の極大P1のタイミングを特定する。
第3に、音高解析部106は、特定した極大P1のタイミングを前後に含む所定の時間範囲(例えば100μ秒〜300μ秒)を語尾であると認定する。
第4に、音高解析部106は、(b)の音高波形のうち、認定した語尾に相当する区間Q1の平均音高を、音高データとして出力する。
このように、発話区間における音量波形について最後の極大P1を、問いの語尾に相当するタイミングとして特定することによって、会話としての問いの語尾の誤検出を少なくすることができる、と考えられる。
回答作成部110は、回答データベース124や、必要に応じて情報取得部126を用いることにより、解析された言葉(問い)に対応する回答を作成して(ステップSa15)、当該回答を、言語解析部108に供給する。
なお、ここで、作成される(回答データベース124から読み出される)回答は、問いに対する(1)、(2)、(4)の回答である。(3)の具体的な回答については、このフローチャートでは省略するが、(4)の回答の後に作成される。
また、回答作成部110は、作成・取得等した回答の音声シーケンスを出力する(ステップSa16)。
なお、図7(a)は、(2)の否定の意を示す回答「いいえ」の、音声シーケンスの一例であり、図8(a)は、(4)の回答「えーと」の、音声シーケンスの一例である。
音声制御部109は、音高解析部106から供給された音高データに対して、回答作成部110から出力された音声シーケンスの語尾の音高が、次のような関係となるように、回答の意味内容を考慮して決定する(ステップSa18)。
一方、音声制御部109は、(2)の否定の意を示す回答については、音高データで示される音高に対して当該回答の語尾の音高が6度下となるように、当該回答の音声シーケンス全体の音高をシフトすることを決定する。すなわち、問いに対して(1)の回答の音高については、(2)の否定の回答の音高よりも高くするように決定される。
なお、音声制御部109は、(4)の回答については、例えば(1)の回答と同様に音高データで示される音高に対して当該回答の語尾の音高が5度下となるように、当該回答の音声シーケンス全体の音高をシフトすることを決定する。
一方、図7(b)のように、同じ問いに対して(2)の否定の意を示す回答の「いいえ」については、音声制御部109は、符号Cで示される語尾の「え」の音高を「ミ」に対して6度下の関係にある「ソ」となるように、音声シーケンスで規定される音高のシフトを決定する。
なお、図8(b)のように、「あすのてんきは?」という問いのうち、符号Aで示される語尾の「は(わ)」の音高が音高データによって「ミ」であることが示される場合、(4)の回答の「え−と」の音声シーケンスについては、音声制御部109は、符号Dで示される語尾の「と」の音高を「ミ」に対して5度下の関係にある「ラ」となるように、音声シーケンスで規定される音高のシフトを決定する。
なお、音声制御部109は、(4)の回答については、間として(1)と同様に、例えば0.5秒から2.0秒までの範囲で設定する。
なお、回答の出力タイミングについて、音声制御部109は、問いの語尾、例えば上述した極大P1のタイミングを起算点としてリアルタイムクロック(図示省略)によって計測された時間が、設定時間が経過した時点で、音声シーケンスの出力を開始するように音声合成部112を制御すれば良い。
また、この後、特に図示しないが、(4)の回答を出力したのであれば、当該(4)の回答の出力後に、(3)の具体的な回答を出力する構成となっている。これにより、当該アプリケーションプログラムの実行が終了して、処理手順は、メニュー画面に戻る。
この図の例では、「はい」、「いいえ」の語尾の音高が、問いの語尾の音高に対して5度下、6度下の協和音程の関係となるように音声合成されるので、利用者に不自然な感じを与えず、あたかも人と対話しているかのような印象を与えることができる。
また、図の例において、問いの語尾に相当する音高に対して、(1)の「はい」の語尾に相当する音高、(2)の「いいえ」の語尾に相当する音高が、どのような関係になるかについてはすでに図6、図7で説明した通りであり、肯定の意の「はい」という回答(の語尾)の音高に対して、否定の意の「いいえ」という回答(の語尾)の音高が、低くなる。
このため、本実施形態によれば、否定の意で回答する際に相手の機嫌を損なわないように配慮した低い声で回答が出力されるので、この意味においても、人と対話しているかのような印象を利用者に与えることができる。
また、(2)の否定の意の回答を出力する場合、音声制御部109は、当該回答の音量を、(1)の肯定の意の回答の音量よりも控えめに(低く)しても良い。
この図の例では、問いに対して、具体的な回答の「はれです」という(3)の回答の前に、「えーと」という(4)の回答が出力される。具体的な回答については様々なデータベースや外部サーバにアクセスする必要があるので、当該回答の作成に時間を要する場合がある。具体的な回答が作成されるまでに音声合成装置10において無音状態が継続してしまうと、利用者に対して不安感を与えてしまうが、本実施形態では、(3)の回答の前に、とりあえず(4)の回答が出力されるので、そのような一種の不安感を利用者に与えない。
また、人同士の対話においても、具体的な内容を回答する前に、(4)のような回答をすることは良く見られる行為である。本実施形態では、このような行為を真似て、回答を音声合成するので、その意味において、人と対話しているかのような印象を利用者に与えることができる。
また、「はれです」のような具体的な回答の作成に時間を要する場合、(4)として、同じ回答、または、別の回答を繰り返して間を長くしても良い。
本発明は、上述した実施形態に限定されるものではなく、例えば次に述べるような各種の応用・変形が可能である。また、次に述べる応用・変形の態様は、任意に選択された一または複数を適宜に組み合わせることもできる。
実施形態では、音声入力部102は、利用者の音声(発言)をマイクロフォンで入力して音声信号に変換する構成としたが、この構成に限られず、他の処理部で処理された音声信号や、他の装置から供給(または転送された)音声信号を入力する構成としても良い。すなわち、音声入力部102は、音声信号による発言をなんらかの形で入力する構成であれば良い。
実施形態では、回答作成部110が、問いに対する回答として、一音一音に音高が割り当てられた音声シーケンスを出力する構成としたが、当該回答の、例えばwav形式の音声波形データを出力する構成としても良い。
なお、音声波形データは、上述した音声シーケンスのように一音一音に音高が割り当てられないので、例えば、音声制御部109が、単純に再生した場合の語尾の音高を特定して、音高データで示される音高に対して、特定した音高が所定の関係となるようにフィルタ処理などの音高変換(ピッチ変換)をした上で、音声波形データを出力(再生)する構成とすれば良い。
また、カラオケ機器では周知である、話速を変えずに音高(ピッチ)をシフトする、いわゆるキーコントロール技術によって音高変換をしても良い。
実施形態では、問いの語尾の音高に対応して回答の語尾の音高を制御する構成としたが、言語や、方言、言い回しなどによっては回答の語尾以外の部分、例えば語頭が特徴的となる場合もある。このような場合には、問いを発した人は、当該問いに対する回答があったときに、当該問いの語尾の音高と、当該回答の特徴的な語頭の音高とを無意識のうち比較して当該回答に対する印象を判断する。したがって、この場合には、問いの語尾の音高に対応して回答の語頭の音高を制御する構成とすれば良い。この構成によれば、回答の語頭が特徴的である場合、当該回答を受け取る利用者に対して心理的な印象を与えることが可能となる。具体的には、図6(b)、図7(b)、図8(b)の右側の図を参照のこと。
上述した実施形態では、問いの語尾等に対して回答の語尾等の音高が5度下となるように音声合成を制御する構成としたが、5度下以外の協和音程の関係に制御する構成であっても良い。例えば、上述したように完全8度、完全5度、完全4度、長・短3度、長・短6度であっても良い。
また、協和音程の関係でなくても、経験的に良い(または悪い)印象を与える音程の関係の存在が認められる場合もあるので、当該音程の関係に回答の音高を制御する構成としても良い。ただし、この場合においても、問いの語尾等の音高と回答の語尾等の音高との2音間の音程が離れ過ぎると、問いに対する回答が不自然になりやすいので、問いの音高と回答の音高とが上下1オクターブの範囲内にあることが望ましい。
ところで、音声シーケンスなどで規定される回答の語尾等の音高を、問いの語尾等の音高に対して所定の関係となるように制御する構成では、詳細には、実施形態のように例えば5度下、6度下となるように変更する構成では、変更しようとする音高が低すぎると、不自然な低音で回答が音声合成されてしまう場合がある。そこで次に、このような場合を回避するための応用例(その1、および、その2)について説明する。
まず、音声制御部109は、音高解析部106からの音高データで示される音高に対して、例えば(1)の回答であれば、5度下の関係にある音高を求めて仮決定し、(2)の回答であれば、6度下の関係にある音高を求めて仮決定する(ステップSb171)。
次に、音声制御部109は、仮決定した音高が予め定められた閾値音高よりも低いか否かを判別する(ステップSb172)。なお、閾値音高は、音声合成する際の下限周波数に相当する音高や、これより低くければ不自然な感じを与えるような音高などに設定される。
一方、求めた音高が閾値音高以上であれば(ステップSb172の判別結果が「No」であれば)、上記ステップSb173の処理がスキップされる。
そして、音声制御部109は、回答をシフトする際に目標となる語尾の音高を、次のような音高に本決定する(ステップSb174)。すなわち、音声制御部109は、仮決定した音高が閾値音高よりも低ければ、仮決定した音高を1オクターブ上に変更した音高に、また、仮決定した音高が閾値音高以上であれば、当該仮決定した音高をそのまま、それぞれ目標となる音高を本決定する。
なお、処理手順は、ステップSb174の後においては、図4のステップSa20に移行して、音声制御部109は、制御内容として、回答の音高を本決定した音高にシフトし、回答の出力タイミングをステップSa19で決定されたタイミングに決定する。これにより、音声合成部112は、決定された制御内容で音声シーケンスの音声を合成して出力することになる。
ここでは、回答の語尾等の音高を1オクターブ上の音高にシフトした例であったが、1オクターブ下の音高にシフトしても良い。詳細には、利用者が発した問いの語尾等の音高が高いために、当該音高に対して5度下の音高が高すぎると、不自然な高音で回答が音声合成されてしまう。これを回避するために、音高データで示される音高に対して5度下の関係にある音高(仮決定した音高)が閾値音高より高ければ、回答の語尾等の音高を、仮決定した音高よりも1オクターブ下の音高にシフトすれば良い。
この応用例(その2)によれば、女性や子供の声で回答させることが設定されていれば、仮決定の音高よりも1オクターブ上の音高となるようにシフトされるので、所定の音程関係を維持しつつ、不自然な低音で回答が音声合成される不具合を回避することができる。
ここでは、属性として女性や子供が指定されていれば、1オクターブ上の音高にシフトする例であったが、例えば属性として成人男性が指定されていれば、当該属性に対応したキャラクタに不似合いの高音で回答が音声合成されてしまうのを回避するために、1オクターブ下の音高にシフトしても良い。
上述した実施形態では、問いの語尾等に対して、回答の語尾等の音高が協和音程の関係となるように音声合成を制御する構成としたが、不協和音程の関係になるように音声合成を制御しても良い。なお、回答を不協和音程の関係にある音高で合成すると、問いを発した利用者に、不自然な感じや、悪印象、険悪な感じなどを与えて、スムーズな対話が成立しなくなる、という懸念もあるが、このような感じが逆にストレス解消に良いという見解もある。
そこで、動作モードとして、好印象等の回答を望むモード(第1モード)、悪印象等の回答を望むモード(第2モード)を用意しておき、いずれかのモードに応じて音声合成を制御する構成としても良い。
したがって、この応用例(その3)によれば、第1モードが設定されていれば、問いの音高に対して協和音程の関係にある音高で回答が音声合成される一方、第2モードが設定されていれば、問いの音高に対して不協和音程の関係にある音高で回答が音声合成されるので、利用者は、適宜動作モードを使い分けることができることになる。
実施形態にあっては、問いに対する回答を取得する構成である言語解析部108、言語データベース122および回答データベース124を音声合成装置10の側に設けたが、端末装置などでは、処理の負荷が重くなる点や、記憶容量に制限がある点などを考慮して、外部サーバの側に設ける構成としても良い。すなわち、音声合成装置10において回答作成部110は、問いに対する回答をなんらかの形で取得するとともに、当該回答の音声を規定するデータを出力する構成であれば足り、その回答を、音声合成装置10の側で作成するのか、音声合成装置10以外の他の構成(例えば外部サーバ)の側で作成するのか、については問われない。
なお、音声合成装置10において、問いに対する回答について、外部サーバ等にアクセスしないで作成可能な用途であれば、情報取得部126は不要である。
Claims (5)
- 音声信号による問いを入力する音声入力部と、
前記問いのうち、特定の第1区間の音高を解析する音高解析部と、
前記問いに対する回答を取得する取得部と、
前記問いおよび前記回答の言語情報を解析する言語解析部と、
取得された回答を音声合成する音声合成部と、
前記音声合成部による音声合成を、当該回答における特定の第2区間の音高が前記第1区間の音高に対して所定の関係にある音高となるように変更させ、かつ、前記問いおよび前記回答の言語情報にしたがって制御する音声制御部と、
を具備することを特徴とする音声合成装置。 - 前記音声制御部は、前記問いに対する肯定の回答の音高については、否定の回答の音高よりも高くするように前記音声合成部を制御する
ことを特徴とする請求項1に記載の音声合成装置。 - 前記音声制御部は、前記問いが発せられてから前記肯定の回答を出力するまでの間を、前記否定の回答の間よりも短くするように前記音声合成部を制御する
ことを特徴とする請求項2に記載の音声合成装置。 - 前記問いの言語情報が所定の内容である場合に、
前記音声合成部は、予め定められた内容の回答を音声合成し、
前記音声制御部は、前記問いが発せられてから当該回答を出力するまでの間を、所定時間の範囲内となるように前記音声合成部を制御する、
ことを特徴とする請求項1乃至3のいずれかに記載の音声合成装置。 - コンピュータを、
入力された音声信号による問いに対する回答を取得する取得部、
前記問いのうち、特定の第1区間の音高を解析する音高解析部、
前記問いおよび前記回答の言語情報を解析する言語解析部、
取得された回答を音声合成する音声合成部、および、
前記音声合成部による音声合成を、当該回答における特定の第2区間の音高が前記第1区間の音高に対して所定の関係にある音高となるように変更させ、かつ、前記問いおよび前記回答の言語情報にしたがって制御する音声制御部、
として機能させることを特徴とするプログラム。
Priority Applications (8)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013198218A JP6375604B2 (ja) | 2013-09-25 | 2013-09-25 | 音声制御装置、音声制御方法およびプログラム |
PCT/JP2014/064631 WO2014192959A1 (ja) | 2013-05-31 | 2014-06-02 | 音声合成を用いて発言に応答する技術 |
EP18178496.8A EP3399521B1 (en) | 2013-05-31 | 2014-06-02 | Technology for responding to remarks using speech synthesis |
CN201910272063.5A CN109887485A (zh) | 2013-05-31 | 2014-06-02 | 利用言语合成对话语进行响应的技术 |
US14/892,624 US9685152B2 (en) | 2013-05-31 | 2014-06-02 | Technology for responding to remarks using speech synthesis |
CN201480031099.XA CN105247609B (zh) | 2013-05-31 | 2014-06-02 | 利用言语合成对话语进行响应的方法及装置 |
EP14803435.8A EP3007165B1 (en) | 2013-05-31 | 2014-06-02 | Technology for responding to remarks using speech synthesis |
US15/375,984 US10490181B2 (en) | 2013-05-31 | 2016-12-12 | Technology for responding to remarks using speech synthesis |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013198218A JP6375604B2 (ja) | 2013-09-25 | 2013-09-25 | 音声制御装置、音声制御方法およびプログラム |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018140060A Division JP6648786B2 (ja) | 2018-07-26 | 2018-07-26 | 音声制御装置、音声制御方法およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2015064480A true JP2015064480A (ja) | 2015-04-09 |
JP6375604B2 JP6375604B2 (ja) | 2018-08-22 |
Family
ID=52832404
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013198218A Expired - Fee Related JP6375604B2 (ja) | 2013-05-31 | 2013-09-25 | 音声制御装置、音声制御方法およびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6375604B2 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018072805A (ja) * | 2017-04-20 | 2018-05-10 | 株式会社カプコン | 音声生成プログラムおよびゲーム装置 |
JP2021067907A (ja) * | 2019-10-28 | 2021-04-30 | 株式会社日立製作所 | 対話システム、対話プログラムおよび対話システムの制御方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS62115199A (ja) * | 1985-11-14 | 1987-05-26 | 日本電気株式会社 | 音声応答装置 |
JPH11231885A (ja) * | 1998-02-19 | 1999-08-27 | Fujitsu Ten Ltd | 音声合成装置 |
JP2001134283A (ja) * | 1999-11-04 | 2001-05-18 | Mitsubishi Electric Corp | 音声合成装置および音声合成方法 |
WO2004092967A1 (ja) * | 2003-04-14 | 2004-10-28 | Fujitsu Limited | 対話装置、対話方法及び対話プログラム |
JP2007183421A (ja) * | 2006-01-06 | 2007-07-19 | Matsushita Electric Ind Co Ltd | 音声合成装置 |
JP2010152119A (ja) * | 2008-12-25 | 2010-07-08 | Toyota Central R&D Labs Inc | 応答生成装置及びプログラム |
WO2010116549A1 (ja) * | 2009-03-30 | 2010-10-14 | 株式会社東芝 | 音声モデル生成装置、音声合成装置、音声モデル生成プログラム、音声合成プログラム、音声モデル生成方法および音声合成方法 |
-
2013
- 2013-09-25 JP JP2013198218A patent/JP6375604B2/ja not_active Expired - Fee Related
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS62115199A (ja) * | 1985-11-14 | 1987-05-26 | 日本電気株式会社 | 音声応答装置 |
JPH11231885A (ja) * | 1998-02-19 | 1999-08-27 | Fujitsu Ten Ltd | 音声合成装置 |
JP2001134283A (ja) * | 1999-11-04 | 2001-05-18 | Mitsubishi Electric Corp | 音声合成装置および音声合成方法 |
WO2004092967A1 (ja) * | 2003-04-14 | 2004-10-28 | Fujitsu Limited | 対話装置、対話方法及び対話プログラム |
JP2007183421A (ja) * | 2006-01-06 | 2007-07-19 | Matsushita Electric Ind Co Ltd | 音声合成装置 |
JP2010152119A (ja) * | 2008-12-25 | 2010-07-08 | Toyota Central R&D Labs Inc | 応答生成装置及びプログラム |
WO2010116549A1 (ja) * | 2009-03-30 | 2010-10-14 | 株式会社東芝 | 音声モデル生成装置、音声合成装置、音声モデル生成プログラム、音声合成プログラム、音声モデル生成方法および音声合成方法 |
Non-Patent Citations (2)
Title |
---|
グリーンバーグ 陽子: ""語彙が与える印象に基づく対話韻律生成 "", 日本音響学会誌 第67巻 第2号, vol. 第67巻, JPN6017032543, pages 65 - 74, ISSN: 0003824928 * |
伊藤 敏彦 TOSHIHIKO ITOH, 1998年度人工知能学会全国大会(第12回)論文集 PROCEEDINGS OF THE 12TH ANNUAL CONFERENCE OF JSA, JPN6017032542, ISSN: 0003712218 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018072805A (ja) * | 2017-04-20 | 2018-05-10 | 株式会社カプコン | 音声生成プログラムおよびゲーム装置 |
JP2021067907A (ja) * | 2019-10-28 | 2021-04-30 | 株式会社日立製作所 | 対話システム、対話プログラムおよび対話システムの制御方法 |
Also Published As
Publication number | Publication date |
---|---|
JP6375604B2 (ja) | 2018-08-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10490181B2 (en) | Technology for responding to remarks using speech synthesis | |
WO2016063879A1 (ja) | 音声合成装置および方法 | |
JP3660937B2 (ja) | 音声合成方法および音声合成装置 | |
Cohn et al. | Perception of concatenative vs. neural text-to-speech (TTS): Differences in intelligibility in noise and language attitudes | |
CN107004428B (zh) | 会话评价装置和方法 | |
JP6648805B2 (ja) | 音声制御方法、音声制御装置およびプログラム | |
Roberts et al. | The perceptual organization of sine-wave speech under competitive conditions | |
Vojtech et al. | The effects of modulating fundamental frequency and speech rate on the intelligibility, communication efficiency, and perceived naturalness of synthetic speech | |
JP2011186143A (ja) | ユーザ挙動を学習する音声合成装置、音声合成方法およびそのためのプログラム | |
JP6343895B2 (ja) | 音声制御装置、音声制御方法およびプログラム | |
JP6375604B2 (ja) | 音声制御装置、音声制御方法およびプログラム | |
JP6375605B2 (ja) | 音声制御装置、音声制御方法およびプログラム | |
JP6566076B2 (ja) | 音声合成方法およびプログラム | |
Vipperla et al. | 8. Spoken Dialogue Interfaces for Older People | |
JP6424419B2 (ja) | 音声制御装置、音声制御方法およびプログラム | |
Ngo et al. | Effect of articulatory and acoustic features on the intelligibility of speech in noise: an articulatory synthesis study | |
JP6648786B2 (ja) | 音声制御装置、音声制御方法およびプログラム | |
JP6232892B2 (ja) | 音声合成装置およびプログラム | |
JP6343896B2 (ja) | 音声制御装置、音声制御方法およびプログラム | |
JP6536713B2 (ja) | 音声制御装置、音声制御方法およびプログラム | |
JP2014202777A (ja) | マスカー音信号の生成装置、生成方法およびプログラム | |
WO2018050212A1 (en) | Telecommunication terminal with voice conversion |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20150410 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20160720 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20170829 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20171026 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20180109 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20180228 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20180626 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20180709 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 6375604 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |
|
LAPS | Cancellation because of no payment of annual fees |