JP2015064481A - 符号化復号化装置、音声合成装置およびプログラム - Google Patents
符号化復号化装置、音声合成装置およびプログラム Download PDFInfo
- Publication number
- JP2015064481A JP2015064481A JP2013198219A JP2013198219A JP2015064481A JP 2015064481 A JP2015064481 A JP 2015064481A JP 2013198219 A JP2013198219 A JP 2013198219A JP 2013198219 A JP2013198219 A JP 2013198219A JP 2015064481 A JP2015064481 A JP 2015064481A
- Authority
- JP
- Japan
- Prior art keywords
- pitch
- answer
- data
- section
- converter
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000005236 sound signal Effects 0.000 claims description 17
- 230000008859 change Effects 0.000 claims description 14
- 230000004044 response Effects 0.000 abstract description 27
- 230000015572 biosynthetic process Effects 0.000 abstract description 22
- 238000003786 synthesis reaction Methods 0.000 abstract description 22
- 238000013500 data storage Methods 0.000 abstract description 11
- 239000011295 pitch Substances 0.000 description 264
- 238000000034 method Methods 0.000 description 34
- 238000012545 processing Methods 0.000 description 29
- 230000008569 process Effects 0.000 description 27
- 238000010586 diagram Methods 0.000 description 8
- 230000000694 effects Effects 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 3
- 125000002066 L-histidyl group Chemical group [H]N1C([H])=NC(C([H])([H])[C@](C(=O)[*])([H])N([H])[H])=C1[H] 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 230000002194 synthesizing effect Effects 0.000 description 2
- 230000002153 concerted effect Effects 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Images
Landscapes
- Electrophonic Musical Instruments (AREA)
- Machine Translation (AREA)
Abstract
【解決手段】音声信号をデジタル信号に変換するA/D変換器132と、デジタル信号による発言のうち、特定の第1区間の音高を解析する音高解析部136と、発言に対して相槌を返す場合に、発言の意味内容に応じた相槌データを相槌データ記憶部143から読み出す読出部142と、読み出された相槌データのうち、特定の第2区間の音高を、第1区間の音高に対して所定の関係にある音高に変更する音高制御部144と、音高が変更された相槌データをアナログ信号に変換して出力するD/A変換器134と、を具備する。
【選択図】図2
Description
また、利用者が入力した音声を認識する一方で、シナリオで指定された内容を音声合成で出力して、利用者との音声対話を実現する音声対話システムも提案されている(例えば特許文献3参照)。
本発明は、このような事情に鑑みてなされたものであり、その目的の一つは、利用者の音声による発言に対して、あたかも人と対話しているかのように自然な感じの回答を音声合成により出力することが可能な技術を提供することにある。
図に示されるように、人の音声を周波数解析して得られるスペクトルは、時間的に移動する複数のピーク、すなわちフォルマントとして現れる。詳細には、「そうでしょ?」に相当するフォルマント、および、「あ、はい」に相当するフォルマントは、それぞれ3つのピーク帯(時間軸に沿って移動する白い帯状の部分)として現れている。
これらの3つのピーク帯のうち、周波数の最も低い第1フィルマントについて着目してみると、「そうでしょ?」の「しょ」に相当する符号A(の中心部分)の周波数はおおよそ400Hzである。一方、符号Bは、「あ、はい」の「い」に相当する符号Bの周波数はおおよそ260Hzである。このため、符号Aの周波数は、符号Bの周波数に対して、ほぼ3/2となっていることが判る。
したがって、利用者による発言に対して、回答を音声合成で出力(返答)する対話システムを検討した場合に、回答として相槌をレスポンス良く出力することができるようにすることは重要である。
そこで、当該音声合成について上記目的を達成するために、次のような構成とした。
この一態様によれば、入力された音声信号による言葉に対して相槌をうつような場合に、当該言葉の意味内容に応じた相槌データを取得するので、相槌をレスポンス良く出力することができる。また音声合成される相槌に、不自然な感じが伴わないようにすることができる。
また、所定の関係は、完全1度を除いた協和音程の関係であることが好ましい。ここで、協和とは、複数の楽音が同時に発生したときに、それらが互いに溶け合って良く調和する関係をいい、これらの音程関係を協和音程という。協和の程度は、2音間の周波数比(振動数比)が単純なものほど高い。周波数比が最も単純な1/1(完全1度)と、2/1(完全8度)とを、特に絶対協和音程といい、これに3/2(完全5度)と4/3(完全4度)とを加えて完全協和音程という。5/4(長3度)、6/5(短3度)、5/3(長6度)および8/5(短6度)を不完全協和音程といい、これ以外のすべての周波数比の関係(長・短の2度と7度、各種の増・減音程など)を不協和音程という。
なお、第2区間の音高が、第1区間の音高と同一となる場合には、対話として不自然な感じを伴うと考えられるので、発言の音高と回答の音高との関係において、完全1度が除かれる。
上記態様において、所定の関係として最も望ましい例は、上述したように第2区間の音高が、第1区間の音高に対して5度下の協和音程の関係である、と考えられる。ただし、所定の関係としては、完全1度を除く協和音程に限られず、不協和音程の関係でも良いし、同一を除く、上下1オクターブの範囲内の音高関係でも良い。
この構成によれば、相槌については、符号化復号化装置の単体によってレスポンス良く、相槌データによる相槌以外の回答については、ホストコンピュータによって精度良く、作成(取得)することができる。
なお、本発明では、発言の音高(周波数)を解析対象とし、回答の音高を制御対象としているが、ヒトの音声は、上述したフォルマントの例でも明らかなように、ある程度の周波数域を有するので、解析や制御についても、ある程度の周波数範囲を持ってしまうのは避けられない。また、解析や制御については、当然のことながら誤差が発生する。このため、本件において、音高の解析や制御については、音高(周波数)の数値が同一であることのみならず、ある程度の範囲を伴うことが許容される。
まず、本発明の第1実施形態に係る符号化復号化装置について説明する。
図1は、第1実施形態に係る符号化復号化装置を適用した音声合成装置10のハードウェア構成を示す図である。
この図において、音声合成装置10は、例えば携帯電話機のような端末装置であり、音声入力部102と、スピーカ104と、符号化復号化装置(以下「CODEC」という:coder decoder)120と、当該CODEC120からみて上位となるホストコンピュータ160とを含んだ構成となっている。
音声入力部102は、詳細については省略するが、利用者の音声を電気信号に変換するマイクロフォンと、変換された音声信号の高域成分をカットするLPF(ローパスフィルタ)とで構成される。スピーカ104は、CODEC120によってアナログ信号に変換された音声信号を音響変換して出力する。
ホストコンピュータ(ホスト)160は、CPU(Central Processing Unit)162およびメモリ164を有する。CPU162は、バスBを介して、CODEC120およびメモリ164に接続される。
メモリ164には、オペレーティングシステムのほか、音声処理のプログラムP2が格納される。この音声処理には、利用者が発言したときに、当該発言に対する回答や相槌を音声合成で出力する対話処理のほか、利用者の発言を文字列に変換する音声認識処理、ホスト160の側で処理された音楽、音声などを再生出力する再生処理などが含まれる。
この図に示されるように、CODEC120では、音高解析部136、言語解析部138、連携部140、読出部142、相槌データ記憶部143および音高制御部144がそれぞれ構築され、ホスト160では、言語解析部178、連携部180、回答作成部182、言語データベース184、回答データベース186および音声ライブラリ188がそれぞれ構築される。
ここで、第1区間とは、例えば発言の語尾である。また、ここでいう音高とは、例えば音声信号を周波数解析して得られる複数のフォルマントのうち、周波数の最も低い成分である第1フォルマント、図3でいえば、末端が符号Aとなっているピーク帯で示される周波数(音高)をいう。周波数解析については、FFT(Fast Fourier Transform)や、その他公知の方法を用いることができる。発言における語尾を特定するための具体的手法の一例については後述する。
なお、言語解析部138が判別不能である場合、または、言語解析部138による判別結果の信頼性が低い場合、敢えて当該判別については後段のホスト160(言語解析部178)に委ねるルールにしても良い。また、相槌は会話の、いわゆるノリを良くするものであり、その意味については軽視できるので、発言が、質問であるにもかかわらず、相槌を返してしまったとしても、実用上、大きな問題にはならない。
また、連携部140は、発言の内容が相槌以外の回答を返すべきものであると判別された場合(上記ルールの適用下においては、発言の内容が判別不能である場合、判別結果の信頼性が低い場合を含む)、音高制御部144に対して処理の対象を、後述する回答作成部182により作成された回答データとさせるよう制御する一方、ホスト160の側に、当該発言に対する回答を作成(取得)すべき旨を通知する。
読出部142は、言語解析部138によって発言が相槌を返すべきものであると判別された場合、相槌データ記憶部143に記憶された複数の相槌データのうち、いずれかを所定の順番で(またはランダムに)選択して読み出し、音高制御部144に供給する。
なお、このように発言の内容とは無関係に相槌データを読み出す構成では、当該発言に対して的外れの相槌が出力されてしまう場合もあるが、上述したように相槌の意味は軽視できるので、大きな問題にはならない。
ただし、このような音声波形データを単純に再生しただけでは、この相槌の契機となった発言の音高を無視している。このため、利用者の発言に対して、相槌データを単純に再生しても、機械的な感じとなるは否めない。
詳細には、音高制御部144は、相槌データまたは回答データのうち、特定の区間(第2区間)の音高を、音高データで示される音高に対して所定の関係となるように、音声合成を制御する。
音高制御部144によって合成された音声信号は、D/A変換部134によってアナログ信号に変換された後、スピーカ104によって音響変換されて出力される。
具体的には、言語解析部178は、A/D変換器132によってデジタル信号に変換された音声信号の発言の意味内容を解析する。詳細には、言語解析部178は、音声信号がどの音素に近いのかを、言語データベース184に予め作成された音素モデルを参照することにより判定して、当該音声信号で規定される発言の意味内容を解析する。なお、このような音素モデルには、例えば隠れマルコフモデルを用いることができる。
回答データベース186は、発言の意味内容に対する回答(文字列)を作成する際に参照されるデータベースである。音声ライブラリ188は、回答の文字列を読み上げた形式の回答データを作成する際に必要となるデータベースである。詳細には、音声ライブラリ188には、単一の音素や音素から音素への遷移部分など、音声の素材となる各種の音声素片の波形を定義した音声素片データが、予めデータベース化されている。
例えば、回答作成部182は、音声信号による発言が「いまなんじ?(今、何時?)」という内容であれば、内蔵のリアルタイムクロック(図示省略)から時刻情報を取得するとともに、時刻情報以外の情報を回答データベース186から取得することで、「ただいま○○時○○分です」という回答を作成し、この後、当該回答を音声で読み上げた音声波形データの形式の回答データを作成する。
なお、「あしたのてんきは?(明日の天気は?)」という発言に対しては、音声合成装置10の単体では回答を作成することができない。このように、音声合成装置10のみでは回答が作成できない場合、回答作成部182は、特に図示しないがインターネットを介し外部サーバにアクセスして、回答の作成に必要な情報を取得する構成となっている。
また、上記ルールの適用下にあっては、言語解析部138において発言の内容が判別不能であった場合、または、判別結果の信頼性が低かった場合には、回答作成部182は、当該発言に対する相槌を回答として作成することもある。
ところで、回答作成部182は、回答から、回答データを自身で作成する必要性はない。例えば、別の外部サーバに回答を供給して、回答データの作成を依頼し、当該別の外部サーバで作成された回答データを取得しても良い。
このように、回答作成部182は、発言に対する回答と、当該回答に対応した回答データとについては、自身で作成しても良いし、他のサーバなどが作成したものを用いても良い。すなわち、回答作成部182は、発言に対する回答データをなんらかの形で取得できれば良い。
回答作成部182により作成・取得された回答データは、音高制御部144に供給される。
はじめに、利用者が所定の操作をしたとき、例えば音声処理に対応したアイコンなどをメインメニュー画面(図示省略)において選択したとき、CPU162がプログラムP2を起動する。これにより、CODEC120およびホスト160では、図2で示した機能ブロックが構築される。
ホスト160の設定において、連携部180は、起動された音声処理のうち、対話処理の実行が指定されているか否かを判別する(ステップS12)。
対話処理の実行が指定されていなければ(ステップS12の判別結果が「No」であれば)、その他の処理が実行される(ステップS16)。その他の処理としては、例えば、デジタル信号に変換された音声信号を、図2において※1で示されるように、ホスト160における他の機能ブロック(図示省略)に供給して、当該他の機能ブロックにおいて、利用者の発言を文字列に変換させる音声認識処理や、また、※2で示されるように、別の機能ブロックで処理されたデータをD/A変換器134によりアナログ信号に変換させて、スピーカ104により出力させる再生処理などが挙げられる。
入力された発言の内容が相槌を返すべきものであれば(ステップS13の判別結果が「Yes」であれば)、次に説明する相槌処理が実行される(ステップS14)一方、当該発言の内容が相槌を返すべきものでなければ(ステップS13の判別結果が「No」であれば)、後述する回答処理が実行される(ステップS15)。
なお、ステップS14、S15、S16の後、この音声処理は終了する。
まず、入力された発言の内容が相槌を返すべきものであると判別した言語解析部138は、その旨を連携部140に通知し、当該連携部140は、ホスト160における連携部180に対して、当該発言に対する回答の作成等が不要である旨を通知する(ステップSa11)。
この通知を受け取った連携部180は、言語解析部178に対して、当該発言に相当するデジタル信号を無視することを指示する。これにより、当該発言についての音声処理は、ホスト160側で実行されない(ステップSb11)。
詳細には、第1に、音高解析部136は、発言に相当する音声信号を、音量と音高(ピッチ)とに分けて波形化する。図8の(a)は、音声信号についての音量を縦軸で、経過時間を横軸で表した音量波形の一例であり、(b)は、同じ音声信号について周波数解析して得られた第1フォルマントの音高を縦軸で、経過時間を横軸で表した音高波形である。なお、(a)の音量波形と(b)の音高波形との時間軸は共通である。
第2に、音高解析部136は、(a)の音量波形のうち、時間的に最後の極大P1のタイミングを特定する。
第3に、音高解析部136は、特定した極大P1のタイミングを前後に含む所定の時間範囲(例えば100μ秒〜300μ秒)を語尾であると認定する。
第4に、音高解析部136は、(b)の音高波形のうち、認定した語尾に相当する区間Q1の平均音高を、音高データとして出力する。
このように、発言における音量波形について最後の極大P1を、発言の語尾に相当するタイミングとして特定することによって、対話としての発言の語尾の誤検出を少なくすることができる、と考えられる。
ここでは、(a)の音量波形のうち、時間的に最後の極大P1のタイミングを前後に含む所定の時間範囲を語尾であると認定したが、極大P1のタイミングを始期または終期とする所定の時間範囲を語尾と認定しても良い。認定した語尾に相当する区間Q1の平均音高ではなく、区間Q1の始期、終期や、極大P1のタイミングの音高を、音高データとして出力する構成としても良い。また、語尾の音高については、これ以外の解析によって特定しても良い。
これにより、スピーカ104からは、発言に対応して音高がシフトされた相槌が出力される。当該相槌データの出力後、この相槌処理とともに音声処理(図5参照)が終了することになる。
一方、「あ、はい」という相槌データの音高をシフトしない場合、語尾に相当する「い」の音高は、相槌データ記憶部143に記憶された状態が反映されて、利用者Wによる発言の音高は考慮されない。このため、仮に同図の(c)に示されるように、相槌の語尾に相当する「い」の音高が「ファ」であった場合、「そうでしょ?」という発言の語尾に相当する「しょ」の音高の「ソ」に対して不協和音程の関係になってしまう。すなわち、図4を参照すれば、「ソ」の周波数(396.0Hz)は「ファ」の周波数(352.0Hz)に対して9/8の関係にある。このため、利用者Wに、ワーストケースを想定してみると、嫌悪のような悪印象を与えてしまう。
なお、後述するように、音声合成装置10において、このような悪印象を利用者に積極的に与える構成もあり得る。
図7は、この回答処理の詳細を示すフローチャートである。
入力された発言の内容が相槌を返すべきものではないと判別した言語解析部138は、その旨を連携部140に通知し、当該連携部140は、ホスト160における連携部180に対して、当該発言に対する回答を作成すべき旨(回答要求)を通知する(ステップSa31)。
この通知を受け取った連携部180は、言語解析部178に対して、当該発言の意味内容の解析を指示する。この指示にしたがって言語解析部178は、上述したように当該発言の意味内容を解析する(ステップSb31)。そして、回答作成部182は、意味内容に対する回答データを作成(取得)して、当該回答データを音高制御部144に供給する(ステップSb32)。
そして、音高制御部144は、回答データを単純に再生した場合での語尾に相当する部分の音高を解析するとともに、当該解析した音高が音高解析部136からの音高データで示される音高に対して例えば5度下の関係となるように、回答データの音高をシフトした上で、当該シフト後の回答データを出力する(ステップSa34)。
なお、当該回答データの出力後、この回答処理とともに音声処理が終了することになる。
本実施形態において、発言に対して相槌をうつ場合、ホスト160の側で処理されず、CODEC120で完結した処理になるので、当該発言に対して当該相槌をレスポンス良く出力することが可能になる。また、発言に対して相槌以外の回答を出力する場合、当該回答についてはホスト160の側で作成・取得する構成になるので、当該回答の精度を高めることができる。このため、本実施形態では、相槌をレスポンス良く出力できる一方で、相槌以外の回答を精度の良く出力できることとなる。
本発明は、上述した実施形態に限定されるものではなく、例えば次に述べるような各種の応用・変形が可能である。また、次に述べる応用・変形の態様は、任意に選択された一または複数を適宜に組み合わせることもできる。
実施形態では、音声入力部102は、利用者の音声(発言)をマイクロフォンで入力して音声信号に変換する構成としたが、この構成に限られず、他の処理部で処理された音声信号や、他の装置から供給(または転送された)音声信号を入力する構成としても良い。すなわち、音声入力部102は、音声信号による発言をなんらかの形で入力する構成であれば良い。
実施形態では、発言が相槌を返すべきものであると判別された場合、相槌データ記憶部143に記憶された複数の相槌データのうち、いずれかが読み出される構成としたが、この構成では、上述したように(問題になることは少ないながらも)当該発言に対して的外れの相槌が出力されてしまうときがある。そこで、相槌データを、その相槌の根拠となる発言の音量・音高の典型的な変化パターンに対応付けておくとともに、音高解析部136から供給された発言の音量変化および音高変化が、ある発言の音量・音高の変化パターンに合致すると言語解析部138が判別したときに、当該発言に対応付けられた相槌データの読み出しを読出部142に指定する構成としても良い。この構成によれば、例えば「さむいなぁ」という発言の音量・音高の変化パターンに「そうですね」という相槌データを対応付けて相槌データ記憶部143に記憶させておけば、利用者が実際に「さむいなぁ」と発言した場合において、当該発言の音量変化および音高変化が、記憶させた「さむいなぁ」という発言の音量・音高の変化パターンに合致すれば、「そうですね」という適切な相槌が出力される。したがって、この場合において「さむいなぁ」という利用者の発言に対して「えーと」や、「なるほど」、「それで」などのような的外れの相槌が出力されてしまうのを回避することができる。
実施形態では、CODEC120に言語解析部138を持たせ、ホスト160に言語解析部178を持たせているが、どちらか一方、例えば言語解析部138については省略することができる。
言語解析部138を省略する場合、言語解析部178が、言語解析部138の機能を負うことになる。すなわち、言語解析部178が、デジタル信号の音声信号で示される発言が相槌を返すべきものであるか否かを判別し、発言が相槌を返すべきものであると判別すれば、その旨の情報を、CODEC120の読出部142に、直接的に、または、連携部180、140を介して間接的に供給して、相槌データの読み出しを指示すれば良い。
実施形態では、発言の語尾の音高に対応して相槌を含む回答の語尾の音高を制御する構成としたが、言語や、方言、言い回しなどによっては回答の語尾以外の部分、例えば語頭が特徴的となる場合もある。このような場合には、発言した人は、当該発言に対する回答があったときに、当該発言の音高と、当該回答の特徴的な語頭の音高とを無意識のうち比較して当該回答に対する印象を判断する。したがって、この場合には、発言の語尾の音高に対応して回答の語頭の音高を制御する構成とすれば良い。この構成によれば、回答の語頭が特徴的である場合、当該回答を受け取る利用者に対して心理的な印象を与えることが可能となる。
上述した実施形態では、問いの語尾等に対して回答の語尾等の音高が5度下となるように音声合成を制御する構成としたが、5度下以外の協和音程の関係に制御する構成であっても良い。例えば、上述したように完全8度、完全5度、完全4度、長・短3度、長・短6度であっても良い。
また、協和音程の関係でなくても、経験的に良い(または悪い)印象を与える音程の関係の存在が認められる場合もあるので、当該音程の関係に回答の音高を制御する構成としても良い。ただし、この場合においても、問いの語尾等の音高と回答の語尾等の音高との2音間の音程が離れ過ぎると、問いに対する回答が不自然になりやすいので、問いの音高と回答の音高とが上下1オクターブの範囲内にあることが望ましい。
ところで、発言の語尾等における音高に対して、相槌を含む回答の音高が所定の関係となるように制御しようとする構成では、詳細には、実施形態のように例えば5度下となるようにシフトする構成では、5度下とすべき音高が低すぎると、不自然な低音で回答が音声合成されてしまう場合がある。そこで次に、このような場合を回避するための応用例(その1、および、その2)について説明する。
次に、音高制御部144は、仮決定した音高が予め定められた閾値音高よりも低いか否かを判別する(ステップSc12)。なお、閾値音高は、音声合成する際の下限周波数に相当する音高や、これより低ければ不自然な感じを与えるような音高などに設定される。
続いて、音高制御部144は、相槌データ(回答データ)の音高をシフトする際に目標となる語尾の音高を、次のような音高に本決定する(ステップSc14)。すなわち、音高制御部144は、仮決定した音高が閾値音高よりも低ければ、仮決定した音高を1オクターブ上に変更した音高に、また、仮決定した音高が閾値音高以上であれば、当該仮決定した音高をそのまま、それぞれ目標となる音高を本決定する。
ここでは、回答の語尾等の音高を1オクターブ上の音高にシフトした例であったが、1オクターブ下の音高にシフトしても良い。詳細には、利用者が発した問いの語尾等の音高が高いために、当該音高に対して5度下の音高が高すぎると、不自然な高音で回答が音声合成されてしまう。これを回避するために、音高データで示される音高に対して5度下の関係にある音高(仮決定した音高)が閾値音高より高ければ、回答の語尾等の音高を、仮決定した音高よりも1オクターブ下の音高にシフトすれば良い。
図11と異なる点を中心に説明すると、ステップSd11において、音高制御部144は、音高解析部136からの音高データで示される音高に対して5度下の関係にある音高を求めて仮決定した後、女性や子供の属性が指定されているか否かを判別する(ステップSd12)。
この応用例(その2)によれば、相槌・回答を女性や子供の声で出力する場合に、仮決定の音高よりも1オクターブ上の音高となるようにシフトされるので、不自然な低音で相槌・回答が音声合成される、という点を回避することができる。
ここでは、属性として女性や子供が指定されていれば、1オクターブ上の音高にシフトする例であったが、例えば属性として成人男性が指定されていれば、当該属性に対応したキャラクタに不似合いの高音で回答が音声合成されてしまうのを回避するために、1オクターブ下の音高にシフトしても良い。
上述した実施形態では、発言の語尾等に対して、相槌・回答の語尾等の音高が協和音程の関係となるように音声合成を制御する構成としたが、不協和音程の関係になるように音声合成を制御しても良い。なお、相槌・回答を不協和音程の関係にある音高で合成すると、発言した利用者に、不自然な感じや、悪印象、険悪な感じなどを与えて、スムーズな対話が成立しなくなる、という懸念もあるが、このような感じが逆にストレス解消に良いという見解もある。
そこで、動作モードとして、好印象等の相槌・回答を望むモード(第1モード)、悪印象を与えるような相槌・回答を望むモード(第2モード)を用意しておき、いずれかのモードに応じて音声合成を制御する構成としても良い。
図10と異なる点を中心に説明すると、音高制御部144は、動作モードとして第1モードが設定されているか否かを判別する(ステップSe11)。
実施形態にあっては、発言に対して相槌以外の回答を、ホスト160で作成する構成としたが、端末装置などでは、処理の負荷が重くなる点や、記憶容量に制限がある点などを考慮して、外部サーバの側に設ける構成としても良い。すなわち、音声合成装置10において、回答作成部182は、発言に対する回答を示す回答データを音高制御部144に供給する構成であれば足り、その回答および回答データを、音声合成装置10の側で作成するのか、音声合成装置10以外の他の構成(例えば外部サーバ)の側で作成するのか、については問われない。
Claims (4)
- 音声信号による発言をデジタル信号に変換するA/D変換器と、
前記デジタル信号による発言のうち、特定の第1区間の音高を解析する音高解析部と、
前記発言に対して相槌を返す場合に、前記発言の意味内容に応じた相槌データを取得する相槌取得部と、
取得された相槌データのうち、特定の第2区間の音高を、前記第1区間の音高に対して所定の関係にある音高に変更する音高制御部と、
音高が変更された相槌データをアナログ信号に変換して出力するD/A変換器と、
を具備することを特徴とする符号化復号化装置。 - 前記A/D変換器は、デジタル信号に変換した音声信号をホストコンピュータに供給し、
前記発言に対して前記相槌データによる相槌以外を返す場合に、
前記音高制御部は、前記ホストコンピュータから供給された前記発言に対する回答データのうち、前記第2区間の音高を、前記第1区間の音高に対して前記所定の関係にある音高に変更し、
前記D/A変換器は、前記音高が変更された回答データをアナログ信号に変換する、
ことを特徴とする請求項1に記載の符号化復号化装置。 - 符号化復号化装置とホストコンピュータとを有し、
前記符号化復号化装置は、
音声信号による発言をデジタル信号に変換するA/D変換器と、
前記デジタル信号による発言のうち、特定の第1区間の音高を解析する音高解析部と、
前記発言に対して相槌を返す場合に、前記発言の意味内容に応じた相槌データを取得する相槌取得部と、
音高制御部と、
D/A変換器と、
を有し、
前記ホストコンピュータは、
前記発言に対して前記相槌データによる相槌以外を返す場合に、当該発言に対する回答データを取得する回答取得部、
を有し、
前記音高制御部は、取得された相槌データまたは回答データのうち、特定の第2区間の音高を、前記第1区間の音高に対して所定の関係にある音高に変更し、
前記D/A変換器は、音高が変更された相槌データまたは回答データをアナログ信号に変換して出力する
ことを特徴とする音声合成装置。 - マイクロプロセッサと、音声信号による発言をデジタル信号に変換するA/D変換器と、デジタル信号をアナログ信号に変換するD/A変換器と、
を有する符号化復号化装置のプログラムであって、
前記マイクロプロセッサを、
前記デジタル信号による発言のうち、特定の第1区間の音高を解析する音高解析部、
前記発言に対して相槌を返す場合に、前記発言の意味内容に応じた相槌データを取得する相槌取得部、および、
取得された相槌データのうち、特定の第2区間の音高を、前記第1区間の音高に対して所定の関係にある音高に変更して、前記D/A変換器に供給する音高制御部、
として機能させることを特徴とするプログラム。
Priority Applications (8)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013198219A JP6375605B2 (ja) | 2013-09-25 | 2013-09-25 | 音声制御装置、音声制御方法およびプログラム |
US14/892,624 US9685152B2 (en) | 2013-05-31 | 2014-06-02 | Technology for responding to remarks using speech synthesis |
CN201910272063.5A CN109887485A (zh) | 2013-05-31 | 2014-06-02 | 利用言语合成对话语进行响应的技术 |
PCT/JP2014/064631 WO2014192959A1 (ja) | 2013-05-31 | 2014-06-02 | 音声合成を用いて発言に応答する技術 |
EP18178496.8A EP3399521B1 (en) | 2013-05-31 | 2014-06-02 | Technology for responding to remarks using speech synthesis |
EP14803435.8A EP3007165B1 (en) | 2013-05-31 | 2014-06-02 | Technology for responding to remarks using speech synthesis |
CN201480031099.XA CN105247609B (zh) | 2013-05-31 | 2014-06-02 | 利用言语合成对话语进行响应的方法及装置 |
US15/375,984 US10490181B2 (en) | 2013-05-31 | 2016-12-12 | Technology for responding to remarks using speech synthesis |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013198219A JP6375605B2 (ja) | 2013-09-25 | 2013-09-25 | 音声制御装置、音声制御方法およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2015064481A true JP2015064481A (ja) | 2015-04-09 |
JP6375605B2 JP6375605B2 (ja) | 2018-08-22 |
Family
ID=52832405
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013198219A Expired - Fee Related JP6375605B2 (ja) | 2013-05-31 | 2013-09-25 | 音声制御装置、音声制御方法およびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6375605B2 (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101891489B1 (ko) * | 2017-11-03 | 2018-08-24 | 주식회사 머니브레인 | 적시에 간투사 답변을 제공함으로써 자연어 대화를 제공하는 방법, 컴퓨터 장치 및 컴퓨터 판독가능 기록 매체 |
JP2018200386A (ja) * | 2017-05-26 | 2018-12-20 | トヨタ自動車株式会社 | 音声対話装置 |
CN111542814A (zh) * | 2017-11-03 | 2020-08-14 | 财富智慧股份有限公司 | 改变应答以提供表现丰富的自然语言对话的方法、计算机装置及计算机可读存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS62115199A (ja) * | 1985-11-14 | 1987-05-26 | 日本電気株式会社 | 音声応答装置 |
JP2005196134A (ja) * | 2003-12-12 | 2005-07-21 | Toyota Central Res & Dev Lab Inc | 音声対話システム及び方法並びに音声対話プログラム |
JP2007206888A (ja) * | 2006-01-31 | 2007-08-16 | Toyota Central Res & Dev Lab Inc | 応答生成装置、方法及びプログラム |
JP2010262147A (ja) * | 2009-05-08 | 2010-11-18 | Toyota Central R&D Labs Inc | 応答生成装置及びプログラム |
-
2013
- 2013-09-25 JP JP2013198219A patent/JP6375605B2/ja not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS62115199A (ja) * | 1985-11-14 | 1987-05-26 | 日本電気株式会社 | 音声応答装置 |
JP2005196134A (ja) * | 2003-12-12 | 2005-07-21 | Toyota Central Res & Dev Lab Inc | 音声対話システム及び方法並びに音声対話プログラム |
JP2007206888A (ja) * | 2006-01-31 | 2007-08-16 | Toyota Central Res & Dev Lab Inc | 応答生成装置、方法及びプログラム |
JP2010262147A (ja) * | 2009-05-08 | 2010-11-18 | Toyota Central R&D Labs Inc | 応答生成装置及びプログラム |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018200386A (ja) * | 2017-05-26 | 2018-12-20 | トヨタ自動車株式会社 | 音声対話装置 |
KR101891489B1 (ko) * | 2017-11-03 | 2018-08-24 | 주식회사 머니브레인 | 적시에 간투사 답변을 제공함으로써 자연어 대화를 제공하는 방법, 컴퓨터 장치 및 컴퓨터 판독가능 기록 매체 |
WO2019088383A1 (ko) * | 2017-11-03 | 2019-05-09 | 주식회사 머니브레인 | 적시에 간투사 답변을 제공함으로써 자연어 대화를 제공하는 방법, 컴퓨터 장치 및 컴퓨터 판독가능 기록 매체 |
CN111542814A (zh) * | 2017-11-03 | 2020-08-14 | 财富智慧股份有限公司 | 改变应答以提供表现丰富的自然语言对话的方法、计算机装置及计算机可读存储介质 |
CN111557001A (zh) * | 2017-11-03 | 2020-08-18 | 财富智慧股份有限公司 | 通过提供即时应答性语言应答以提供自然语言对话的方法、计算机装置及计算机可读存储介质 |
US11481443B2 (en) | 2017-11-03 | 2022-10-25 | Deepbrain Ai Inc. | Method and computer device for providing natural language conversation by providing interjection response in timely manner, and computer-readable recording medium |
CN111557001B (zh) * | 2017-11-03 | 2023-12-29 | 株式会社明芒科技 | 提供自然语言对话的方法、计算机装置及计算机可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
JP6375605B2 (ja) | 2018-08-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2014192959A1 (ja) | 音声合成を用いて発言に応答する技術 | |
US10147416B2 (en) | Text-to-speech processing systems and methods | |
JP6446993B2 (ja) | 音声制御装置およびプログラム | |
US20090228271A1 (en) | Method and System for Preventing Speech Comprehension by Interactive Voice Response Systems | |
CN114203147A (zh) | 用于文本到语音的跨说话者样式传递以及用于训练数据生成的系统和方法 | |
US20180130462A1 (en) | Voice interaction method and voice interaction device | |
JPWO2007148493A1 (ja) | 感情認識装置 | |
JP6464703B2 (ja) | 会話評価装置およびプログラム | |
JP2009003162A (ja) | 力み音声検出装置 | |
JPWO2011151956A1 (ja) | 声質変換装置及びその方法 | |
JP6375605B2 (ja) | 音声制御装置、音声制御方法およびプログラム | |
JP6343895B2 (ja) | 音声制御装置、音声制御方法およびプログラム | |
JP4648878B2 (ja) | 様式指定型音声合成方法、及び様式指定型音声合成装置とそのプログラムと、その記憶媒体 | |
JP6566076B2 (ja) | 音声合成方法およびプログラム | |
JP6424419B2 (ja) | 音声制御装置、音声制御方法およびプログラム | |
JP6375604B2 (ja) | 音声制御装置、音声制御方法およびプログラム | |
JP4778402B2 (ja) | 休止時間長算出装置及びそのプログラム、並びに音声合成装置 | |
JP6648786B2 (ja) | 音声制御装置、音声制御方法およびプログラム | |
JP6232892B2 (ja) | 音声合成装置およびプログラム | |
JP6343896B2 (ja) | 音声制御装置、音声制御方法およびプログラム | |
JP2018151661A (ja) | 音声制御装置、音声制御方法およびプログラム | |
JP6179094B2 (ja) | 発話特性付与装置、発話特性付与方法、音声合成装置および音声合成方法 | |
WO2018050212A1 (en) | Telecommunication terminal with voice conversion |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20150410 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20160720 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20170926 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20171124 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20180109 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20180201 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20180626 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20180709 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 6375605 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |
|
LAPS | Cancellation because of no payment of annual fees |