JP6343895B2 - 音声制御装置、音声制御方法およびプログラム - Google Patents
音声制御装置、音声制御方法およびプログラム Download PDFInfo
- Publication number
- JP6343895B2 JP6343895B2 JP2013203840A JP2013203840A JP6343895B2 JP 6343895 B2 JP6343895 B2 JP 6343895B2 JP 2013203840 A JP2013203840 A JP 2013203840A JP 2013203840 A JP2013203840 A JP 2013203840A JP 6343895 B2 JP6343895 B2 JP 6343895B2
- Authority
- JP
- Japan
- Prior art keywords
- pitch
- answer
- speech
- ending
- utterance
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims description 25
- 230000008859 change Effects 0.000 claims description 49
- 230000005236 sound signal Effects 0.000 claims description 8
- 230000003247 decreasing effect Effects 0.000 claims description 3
- 239000011295 pitch Substances 0.000 description 292
- 230000015572 biosynthetic process Effects 0.000 description 28
- 238000003786 synthesis reaction Methods 0.000 description 28
- 230000004044 response Effects 0.000 description 16
- 230000008569 process Effects 0.000 description 13
- 238000012545 processing Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 7
- 238000001514 detection method Methods 0.000 description 5
- 238000006243 chemical reaction Methods 0.000 description 3
- 230000007423 decrease Effects 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000002194 synthesizing effect Effects 0.000 description 3
- 230000000630 rising effect Effects 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 125000002066 L-histidyl group Chemical group [H]N1C([H])=NC(C([H])([H])[C@](C(=O)[*])([H])N([H])[H])=C1[H] 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Landscapes
- Electrically Operated Instructional Devices (AREA)
- Machine Translation (AREA)
Description
また、利用者が入力した音声を認識する一方で、シナリオで指定された内容を音声合成で出力して、利用者との音声対話を実現する音声対話システムも提案されている(例えば特許文献3参照)。
本発明は、このような事情に鑑みてなされたものであり、その目的の一つは、利用者の発言に対して、当該利用者に自然な感じを与えるような、具体的には、あたかも人と対話しているかのような印象を与えることが可能な音声制御装置、音声制御方法およびプログラムを提供することにある。
図に示されるように、人の音声を周波数解析して得られるスペクトルは、時間的に移動する複数のピーク、すなわちフォルマントとして現れる。詳細には、「そうでしょ?」に相当するフォルマント、および、「あ、はい」に相当するフォルマントは、それぞれ3つのピーク帯(時間軸に沿って移動する白い帯状の部分)として現れている。
これらの3つのピーク帯のうち、周波数の最も低い第1フォルマントについて着目してみると、「そうでしょ?」の「しょ」に相当する符号A(の中心部分)の周波数はおおよそ400Hzである。一方、符号Bは、「あ、はい」の「い」に相当する符号Bの周波数はおおよそ260Hzである。このため、符号Aの周波数は、符号Bの周波数に対して、ほぼ3/2となっていることが判る。
一方で、音高だけでなく、例えば音高の変化具合で、回答の仕方が異なる点も経験的に認められる。例えば、音声による発言が「あすははれ(明日は晴れ)」という体言止めであっても、例えば語尾に向かって音高が上がれば、その発言は「明日は晴れですか?」という意味内容の質問(疑問文)になる。
また、「あすははれ」という発言において、音高がほぼ一定であれば、その発言は、単なる独り言、つぶやきの類である。このため、当該発言に対する回答(相槌)の例えば「そうですね」の音高もほぼ一定となる。
したがって、利用者による発言に対する回答を音声合成で出力(返答)する対話システムを検討したときに、当該発言の音高のみならず、当該音高の変化具合という非言語情報も回答を音声合成する上で、重要な要素となり得る。
そこで、当該音声合成について上記目的を達成するために、次のような構成とした。
この一態様によれば、回答における特定の第2区間の音高が、発言のうち特定の第1区間の音高に対して所定の関係にある音高となるように変更される。また、発言の音高の変化具合にしたがって回答の音高の変化が制御される。このため、あたかも人と対話しているかのような印象を利用者に与えることが可能になる。
なお、発言の音高の変化具合にしたがって回答の音高を変化させる制御例としては、発言の音高の変化具合がほとんどない場合(平坦である場合)であれば、相槌としての回答の音高も平坦にする例などが挙げられ、また、発言の音高が語尾に向かって高くなるような疑問文の場合であれば、回答の音高を語尾に向かって低くする例などが挙げられる。
また、前記所定の関係は、完全1度を除いた協和音程の関係であることが好ましい。ここで、協和とは、複数の楽音が同時に発生したときに、それらが互いに溶け合って良く調和する関係をいい、これらの音程関係を協和音程という。協和の程度は、2音間の周波数比(振動数比)が単純なものほど高い。周波数比が最も単純な1/1(完全1度)と、2/1(完全8度)とを、特に絶対協和音程といい、これに3/2(完全5度)と4/3(完全4度)とを加えて完全協和音程という。5/4(長3度)、6/5(短3度)、5/3(長6度)および8/5(短6度)を不完全協和音程といい、これ以外のすべての周波数比の関係(長・短の2度と7度、各種の増・減音程など)を不協和音程という。
上記態様において、所定の関係として最も望ましい例は、上述したように第2区間の音高が、第1区間の音高に対して5度下の協和音程の関係である、と考えられる。ただし、所定の関係としては、完全1度を除く協和音程に限られず、不協和音程の関係でも良いし、同一を除く、上下1オクターブの範囲内の音高関係でも良い。
また、回答には、質問に対する具体的な答えに限られず、「なるほど」、「そうですね」などの相槌(間投詞)も含まれる。
この構成によれば、回答の音声合成が、音高以外の非言語情報の変化具合に応じて制御されるので、より人と対話しているかのような印象を利用者に与えることが可能になる。なお、音高以外の非言語情報の例としては、典型的には、音量が挙げられ、発言の音量に合わせて、回答の平均音量を制御したり、発言の音量変化に合わせて、回答の音量の変化具合を制御したりしても良い。ほかにも発言の速度(話速)が挙げられ、発言の話速に合わせて、回答の話速を制御しても良い。
なお、本発明では、発言の音高(周波数)を解析対象とし、回答の音高を制御対象としているが、ヒトの音声は、上述したフォルマントの例でも明らかなように、ある程度の周波数域を有するので、解析や制御についても、ある程度の周波数範囲を持ってしまうのは避けられない。また、解析や制御については、当然のことながら誤差が発生する。このため、本件において、音高の解析や制御については、音高(周波数)の数値が同一であることのみならず、ある程度の範囲を伴うことが許容される。
<音声合成装置>
この図において、音声合成装置10は、CPU(Central Processing Unit)や、音声入力部102、スピーカ142を有する、例えば携帯電話機のような端末装置である。音声合成装置10においてCPUが、予めインストールされたアプリケーションプログラムを実行することによって、複数の機能ブロックが次のように構築される。
詳細には、音声合成装置10では、発話区間検出部104、非言語解析部106、言語解析部108、音声制御部109、回答作成部(取得部)110、音声合成部112、言語データベース122、回答データベース124、情報取得部126および音声ライブラリ128が構築される。
なお、特に図示しないが、このほかにも音声合成装置10は、表示部や操作入力部なども有し、利用者が装置の状況を確認したり、装置に対して各種の操作を入力したりすることができるようになっている。また、音声合成装置10は、携帯電話機のような端末装置10に限られず、ノート型やタブレット型のパーソナルコンピュータであっても良い。
発話区間検出部104は、デジタル信号に変換された音声信号を処理して発話(有音)区間を検出する。
なお、音高を示すデータは、音声制御部109に供給され、音高の変化具合を示すデータは、音声制御部109および回答作成部110にそれぞれ供給される。
ここで、第1区間とは、例えば発言の語尾である。また、ここでいう音高とは、例えば音声信号を周波数解析して得られる複数のフォルマントのうち、周波数の最も低い成分である第1フォルマント、図2でいえば、末端が符号Aとなっているピーク帯で示される周波数(音高)をいう。周波数解析については、FFT(Fast Fourier Transform)や、その他公知の方法を用いることができる。発言における語尾を特定するための具体的手法および、音高の変化具合を特定するための具体的手法の一例については後述する。
なお、本実施形態において、回答作成部110が作成する回答には、
(1)発言に対する肯定または否定等の意を示す回答、
(2)発言に対する具体的内容の回答、
(3)発言に対する相槌としての回答、
が想定されている。(1)の回答の例としては「はい」、「いいえ」などが挙げられ、(2)としては、例えば「あすのてんきは?(明日の天気は?)」という発言に対して「はれです」と具体的に内容を回答する例などが挙げられる。(3)としては、「そうですね」、「えーと」などが挙げられ、発言が、(1)のように「はい」、「いいえ」の回答で済む発言、および、(2)のように具体的な内容を回答する必要がある発言以外の場合において作成(取得)される。
一方で、例えば「あすははれですか(明日は晴れですか)?」という発言に対しては、外部サーバにアクセスして天気情報を取得しないと、音声合成装置10の単体で回答することができない。このように、音声合成装置10のみでは回答できない場合、情報取得部126は、インターネットを介し外部サーバにアクセスし、回答の作成に必要な情報を取得して、回答作成部110に供給する。これにより、当該回答作成部110は、当該発言が正しいか否かを判別して回答を作成することができる。
(2)の回答については、例えば「いまなんじ?(今、何時?)」という発言に対しては、回答作成部110は、上記時刻情報を取得するとともに、時刻情報以外の情報を回答データベース124から取得することで、「ただいま○○時○○分です」という回答を作成することが可能である。一方で、「あすのてんきは?(明日の天気は?)」という発言に対しては、情報取得部126が、外部サーバにアクセスして、回答に必要な情報を取得するとともに、回答作成部110が、発言に対して例えば「はれです」という回答を、回答データベース124を参照して作成する構成となっている。
なお、(1)、(3)の回答については、例えば回答に対応する音声シーケンスを回答データベース124に格納しておく一方で、判別結果に対応した音声シーケンスを回答データベース124から読み出す構成にしても良い。詳細には、回答作成部110は、(1)の回答にあっては、判別結果に応じた例えば「はい」、「いいえ」などの音声シーケンスを読み出せば良いし、(3)の回答にあっては、発言の解析結果および回答作成部110での判別結果に応じて「そうですね」、「えーと」などの音声シーケンスを読み出せば良い。
なお、回答作成部110で作成・取得された音声シーケンスは、音声制御部109と音声合成部112とにそれぞれ供給される。
そこで、本実施形態において音声合成部112は、音声シーケンスで規定される基本音声を、音声制御部109の制御内容にしたがって次のように変更して、音声合成する。すなわち、音声制御部109は、音声シーケンスのうち、特定の区間(第2区間)の音高を、音高データに対して所定の関係となるように音高を変更するとともに、当該語尾に至るまでの音高の変化を、発言における音高の変化具合を示すデータに応じて変更する場合がある。
なお、本実施形態では、第2区間を回答の語尾とするが、後述するように語尾に限られない。また、本実施形態において、音高データに対して所定の関係にある音高を、5度の下の関係にある音高とするが、後述するように、5度下以外の関係にある音高としても良い。
なお、音声合成された音声信号は、図示省略したD/A変換部によってアナログ信号に変換された後、スピーカ142によって音響変換されて出力される。
図4は、音声合成装置10における音声合成処理を示すフローチャートである。
はじめに、利用者が所定の操作をしたとき、例えば対話処理に対応したアイコンなどをメインメニュー画面(図示省略)において選択する操作をしたとき、CPUが当該処理に対応したアプリケーションプログラムを起動する。このアプリケーションプログラムを実行することによって、CPUは、図1で示した機能ブロックを構築する。
言語解析部108は、供給された音声信号における発言を言語解析して、その意味を示すデータを、回答作成部110に供給する(ステップSa13)。
すなわち、第1に、非言語解析部106は、図5の(a)の音量波形のうち、時間的に最後の極大P1のタイミングを特定する。
第2に、非言語解析部106は、特定した極大P1のタイミングを前後に含む所定の時間範囲(例えば100μ秒〜300μ秒)を語尾Q1であると認定する。
第3に、非言語解析部106は、(b)の音高波形のうち、認定した語尾Q1に相当する区間の平均音高N1を求めて、当該音高N1を示す音高データを出力する。
このように、発話区間における音量波形について最後の極大P1を、発言の語尾に相当するタイミングとして特定することによって、会話としての発言の語尾Q1の誤検出を少なくすることができる、と考えられる。
ここでは、(a)の音量波形のうち、時間的に最後の極大P1のタイミングを前後に含む時間範囲を語尾Q1であると認定したが、極大P1のタイミングを始期または終期とする時間範囲を語尾Q1と認定しても良い。また、認定した語尾に相当する区間の平均音高ではなく、語尾Q1の始期、終期や、極大P1のタイミングの音高を、音高データとして出力する構成としても良い。
すなわち、第1に、非言語解析部106は、図5の(a)の音量波形の極大P1のタイミングよりも時間Ts(例えば0.3秒)だけ遡ったタイミングP0の音高N0を求める。
第2に、非言語解析部106は、音高N0から音高N1への音高変化分(N1−N0)を求めて、音声制御部109および回答作成部110に供給する。
なお、タイミングP0については、発言の語頭に相当するタイミングとして、発言の語頭から語尾までに至る音高の変化具合として捉えても良いし、発言の一語一語の音高における変化パターンを、発言における音高の変化具合として捉えても良い。
一方、利用者による発言の言語解析結果が「あすははれ」であっても、発言の音高が語尾に向かって平坦であれば、または、下がれば、その発言は「あすははれ(かぁ)」というような意味の独り言(または、つぶやき)になる。このため、回答作成部110が、例えば「そうですね」のような相槌の音声シーケンスを、回答データベース124から読み出して出力する。
なお、回答作成部110は、例えば発言の音高変化分が閾値を超えていれば、発言の音高が語尾に向かって上がっていると判別し、閾値以下であれば、発言の音高が語尾に向かって平坦である(または下がっている)と判別する。
また、利用者による発言の言語解析結果が「あすのてんきは?」であれば、回答作成部110は、外部サーバから取得した天気情報にしたがって例えば「はれです」、「くもりです」などのような音声シーケンスを出力する。
次に、音声制御部109は、当該音声シーケンスの音高に対する変更内容を、非言語解析部106から供給された音高データ、および、音高の変化具合を示すデータに基づいて次のように決定する(ステップSa20)。詳細には、音声制御部109は、利用者による発言の音高が語尾に向かって上がっていれば、当該音声シーケンスで規定された語尾の初期音高が音高データで示される音高に対して5度下の関係となるように、当該音声シーケンス全体の音高を変更する旨を決定する。一方、音声制御部109は、利用者による発言の音高が当該発言の語尾に向かって平坦であれば(または下がっていれば)、当該音声シーケンスの音高のすべてを、上記5度下の音高に変更する旨を決定する。
音声制御部109は、決定した内容で音声合成部112による音声合成を制御する(ステップSa21)。これにより、音声合成部112は、音声制御部109によって変更が決定された音声シーケンスの音声を、決定された音高で合成して出力する。
なお、回答の音声が出力されると、特に図示しないが、CPUは、当該アプリケーションプログラムの実行を終了させて、メニュー画面に戻す。
図6の(a)は、「はい」の音声シーケンスの一例であり、この例では、一音一音に音符を割り当てて、基本音声の各語(音素)の音高や発音タイミングを規定している。なお、この例では、説明簡略化のために、一音(音素)に音符を1つ割り当てているが、スラーやタイなどのように、一音に複数の音符を割り当てても良い。
この音声シーケンスは、音声制御部109によって次のように変更される。
すなわち、(b)の左欄に示した発言のうち、符号Aで示される語尾の「れ」の区間の音高が音高データによって「ソ」であると示される場合、音声制御部109は、「はい」という回答のうち、符号Bで示される語尾の「い」の区間の音高が「ソ」に対して5度下の音高である「ド」になるように、音声シーケンス全体の音高を変更する(図6の(b)の右欄参照)。
なお、ここでは「はい」を例にとって説明したが、特に図示しないが「いいえ」の場合も同様に音声シーケンス全体の音高が変更される。また、「あすのてんきは?」という発言に対して、例えば「はれです」と具体的に内容を回答する場合も同様に音声シーケンス全体の音高が変更される。
図7の(a)は、「そうですね」の音声シーケンスの一例である。
この音声シーケンスは、音声制御部109によって次のように変更される。
すなわち、同図の(b)の左欄に示した発言のうち、符号Aで示される語尾の「れ」の区間の音高が音高データによって「ソ」であると示される場合、音声制御部109は、「そうですね」という回答の音高のすべてを(符号Bで示される語尾の「ね」を含めて)、「ソ」に対して5度下の音高である「ド」になるように、音声シーケンスの音高を変更する(図7の(b)の右欄参照)。
また、本実施形態では、発言の言語解析結果が同じ場合であっても、当該発言における語尾に向かう音高変化に応じて、回答が作成される。さらに、発言の音高が平坦であれば、当該発言に対する相槌の音高も平坦されて、すなわち、元の音声シーケンスで規定された音高の変化具合も変更される。このため、マシンとではなく、あたかも人と対話しているかのような印象を利用者に与えることができる。
本発明は、上述した実施形態に限定されるものではなく、例えば次に述べるような各種の応用・変形が可能である。また、次に述べる応用・変形の態様は、任意に選択された一または複数を適宜に組み合わせることもできる。
実施形態では、音声入力部102は、利用者の音声(発言)をマイクロフォンで入力して音声信号に変換する構成としたが、特許請求の範囲に記載された音声入力部は、この構成に限られない。すなわち、特許請求の範囲に記載された音声入力部は、音声信号による発言をなんらかの形で入力する、または、入力される構成であれば良い。詳細には、特許請求の範囲に記載された音声入力部は、他の処理部で処理された音声信号や、他の装置から供給(または転送された)音声信号を入力する構成、さらには、LSIに内蔵され、単に音声信号を受信し後段に転送する入力インターフェース回路等を含んだ概念である。
実施形態では、回答作成部110が、発言に対する回答として、一音一音に音高が割り当てられた音声シーケンスを出力する構成としたが、当該回答を、例えばwav形式の音声波形データを出力する構成としても良い。
なお、音声波形データは、上述した音声シーケンスのように一音一音に音高が割り当てられないので、例えば、音声制御部109が、単純に再生した場合の語尾の音高を特定して、音高データで示される音高に対して、特定した音高が所定の関係となるようにフィルタ処理などの音高変換(ピッチ変換)をした上で、音声波形データを出力(再生)する構成とすれば良い。
また、カラオケ機器では周知である、話速を変えずに音高(ピッチ)をシフトする、いわゆるキーコントロール技術によって音高変換をしても良い。
実施形態では、発言の語尾の音高に対応して回答の語尾の音高を制御する構成としたが、言語や、方言、言い回しなどによっては回答の語尾以外の部分、例えば語頭が特徴的となる場合もある。このような場合には、発言した人は、当該発言に対する回答があったときに、当該発言の音高と、当該回答の特徴的な語頭の音高とを無意識のうち比較して当該回答に対する印象を判断する。したがって、この場合には、発言の語尾の音高に対応して回答の語頭の音高を制御する構成とすれば良い。この構成によれば、回答の語頭が特徴的である場合、当該回答を受け取る利用者に対して心理的な印象を与えることが可能となる。
実施形態では、発言の語尾等の音高に対して、回答の音高の語尾等の音高が、例えば5度下となるように、音声シーケンス全体の音高をシフトすることによって、または、音声シーケンスの音高を平坦化することによって、元の音声シーケンスで規定された回答の音高の変化具合、および、回答の平均音高が結果的に変更される構成となっていた。
この構成に限られず、例えば、発言の音高が語尾に向かって上がっているであれば、回答の音高を語尾に向かって下がるように、また、発言の音高が語尾に向かって下がっているであれば、回答の音高を語尾に向かって上がるように、元の音声シーケンスの音高の変化具合を変更する構成としても良い。
また、回答の全体の平均音高が、発言の語尾等の音高や、発言の音高変化に応じて変化するように、元の音声シーケンスの全体または一部の音高を変更する構成としても良い。
実施形態では、発言の音量変化を用いて当該発言の語尾を特定したが、発言の音量については、音高以外の非言語情報として様々な用途が考えられる。例えば、発言の平均的な音量に応じて、音声合成した回答の音量を制御する構成としても良い。また、発言の音量変化(振幅エンベロープ)に合わせて回答の音量変化を制御する構成としても良い。
実施形態では、利用者の発言に対して、音声合成装置10が回答を音声合成で出力した時点で動作終了する構成としたが、人同士の対話では、発言と、当該発言に対する回答とで終了するのではなく、発言と、回答とが繰り返されることが多く、また、この繰り返しの数も、発言と回答との意味内容に応じて大きくなったり、小さくなったりする。
そこで、図8に示されるように、言語解析部108が、利用者による発言のみならず、回答作成部110で作成された回答についても言語解析し、その言語解析結果を音声制御部109に供給して、当該音声制御部109が、回答の語尾等の音高や、回答の音高の変化具合、回答の平均音高などを制御する構成としても良い。
上述した実施形態では、発言の語尾等に対して回答の語尾等の音高が5度下となるように音声合成を制御する構成としたが、5度下以外の協和音程の関係に制御する構成であっても良い。例えば、上述したように完全8度、完全5度、完全4度、長・短3度、長・短6度であっても良い。
また、協和音程の関係でなくても、経験的に良い(または悪い)印象を与える音程の関係の存在が認められる場合もあるので、当該音程の関係に回答の音高を制御する構成としても良い。ただし、この場合においても、発言の語尾等の音高と回答の語尾等の音高との2音間の音程が離れ過ぎると、発言に対する回答が不自然になりやすいので、発言の音高と回答の音高とが上下1オクターブの範囲内にあることが望ましい。
ところで、音声シーケンスなどで規定される回答の語尾等の音高を、発言の語尾等の音高に対して所定の関係となるように制御する構成では、詳細には、実施形態のように例えば5度下となるように変更する構成では、変更しようとする音高が低すぎると、不自然な低音で回答が音声合成されてしまう場合がある。そこで次に、このような場合を回避するための応用例(その1、および、その2)について説明する。
まず、音声制御部109は、非言語解析部106からの音高データで示される音高に対して、回答の語尾等の音高を、5度下の関係にある音高に仮決定する(ステップSb171)。
次に、音声制御部109は、仮決定した音高が予め定められた閾値音高よりも低いか否かを判別する(ステップSb172)。なお、閾値音高は、音声合成する際の下限周波数に相当する音高や、これより低くければ不自然な感じを与えるような音高などに設定される。
一方、仮決定した音高が閾値音高以上であれば(ステップSb172の判別結果が「No」であれば)、上記ステップSb173の処理がスキップされる。
そして、音声制御部109は、回答をシフトする際に目標となる語尾の音高を、次のような音高に本決定する(ステップSb174)。すなわち、音声制御部109は、仮決定した音高が閾値音高よりも低ければ、仮決定した音高を1オクターブ上に変更した音高に、また、仮決定した音高が閾値音高以上であれば、当該仮決定した音高をそのまま、それぞれ目標となる音高を本決定する。
なお、処理手順は、ステップSb174の後においては、図4のステップSa21に移行して、音声制御部109は、制御内容として、回答の語尾の音高を本決定した音高にシフトする旨の制御内容を決定し、これにより、音声合成部112は、決定された制御内容で音声シーケンスの音声を合成して出力することになる。
ここでは、回答の語尾等の音高を1オクターブ上の音高にシフトした例であったが、1オクターブ下の音高にシフトしても良い。詳細には、利用者が発した発言の語尾等の音高が高いために、当該音高に対して5度下の音高が高すぎると、不自然な高音で回答が音声合成されてしまう。これを回避するために、音高データで示される音高に対して5度下の関係にある音高(仮決定した音高)が閾値音高より高ければ、回答の語尾等の音高を、仮決定した音高よりも1オクターブ下の音高にシフトすれば良い。
この応用例(その2)によれば、女性や子供の声で回答させることが設定されていれば、仮決定の音高よりも1オクターブ上の音高となるようにシフトされるので、所定の音程関係を維持しつつ、不自然な低音で回答が音声合成される不具合を回避することができる。
ここでは、属性として女性や子供が指定されていれば、1オクターブ上の音高にシフトした例であったが、例えば属性として成人男性が指定されていれば、当該属性に対応したキャラクタに不似合いの高音で回答が音声合成されてしまうのを回避するために、1オクターブ下の音高にシフトしても良い。
上述した実施形態では、発言の語尾等に対して、回答の語尾等の音高が協和音程の関係となるように音声合成を制御する構成としたが、不協和音程の関係になるように音声合成を制御しても良い。なお、回答を不協和音程の関係にある音高で合成すると、発言を発した利用者に、不自然な感じや、悪印象、険悪な感じなどを与えて、スムーズな対話が成立しなくなる、という懸念もあるが、このような感じが逆にストレス解消に良いという見解もある。
そこで、動作モードとして、好印象等の回答を望むモード(第1モード)、悪印象等の回答を望むモード(第2モード)を用意しておき、いずれかのモードに応じて音声合成を制御する構成としても良い。
したがって、この応用例(その3)によれば、第1モードが設定されていれば、発言の語尾の音高に対して回答の語尾が協和音程の関係にある音高で音声合成される一方、第2モードが設定されていれば、発言の語尾の音高に対して回答の語尾が不協和音程の関係にある音高で音声合成されるので、利用者は、適宜動作モードを使い分けることができることになる。
実施形態にあっては、発言に対する回答を取得する構成である言語解析部108、言語データベース122および回答データベース124を音声合成装置10の側に設けたが、端末装置などでは、処理の負荷が重くなる点や、記憶容量に制限がある点などを考慮して、外部サーバの側に設ける構成としても良い。すなわち、音声合成装置10において回答作成部110は、発言に対する回答をなんらかの形で取得するとともに、当該回答の音声を規定するデータを出力する構成であれば足り、その回答を、音声合成装置10の側で作成するのか、音声合成装置10以外の他の構成(例えば外部サーバ)の側で作成するのか、については問われない。
なお、音声合成装置10において、発言に対する回答について、外部サーバ等にアクセスしないで作成可能な用途であれば、情報取得部126は不要である。
Claims (6)
- 音声信号による発言を入力する音声入力部と、
前記発言のうち、語尾の音高と、前記発言のうち、前記語尾を含む一部区間の音高変化の具合とを解析する非言語解析部と、
前記発言に対する回答を取得する取得部と、
前記回答の音声信号における特定の区間の音高を、前記発言の語尾の音高に対して所定の関係にある音高となるように制御し、かつ、当該回答の音声信号における音高の変化具合を、前記発言の音高の変化具合にしたがって制御する音声制御部と、
を具備することを特徴とする音声制御装置。 - 前記非言語解析部は、前記音高以外の非言語情報の変化具合も解析し、
前記音声制御部は、
前記回答の音声信号を、前記音高以外の非言語情報の変化具合に応じて制御する、
ことを特徴とする請求項1に記載の音声制御装置。 - 前記音声制御部は、
前記発言の音高が語尾に向かって上がっている場合、前記回答の音声信号における語尾の音高が前記発言の語尾の音高に対して所定の関係にある音高となるように前記回答の音声信号の全体の音高を制御し、
前記発言の音高が語尾に向かって下がっている場合、または、平坦である場合、前記回答の音声信号の音高が前記発言の語尾の音高に対して所定の関係の音高で平坦となるように制御する、
ことを特徴とする請求項1に記載の音声制御装置。 - 前記取得部は、
前記音高が語尾に向かって上がっている場合、前記発言の意味内容に対応した回答を取得し、
前記音高が語尾に向かって下がっている場合、または、平坦である場合、前記発言に対する回答として相槌を取得する、
ことを特徴とする請求項1に記載の音声制御装置。 - 音声信号による発言を入力し、
前記発言のうち、語尾の音高と、前記発言のうち、前記語尾を含む一部区間の音高変化の具合とを解析し、
前記発言に対する回答を取得し、
前記回答の音声信号における特定の区間の音高を、前記発言の語尾の音高に対して所定の関係にある音高となるように制御し、かつ、当該回答の音声信号における音高の変化具合を、前記発言の音高の変化具合にしたがって制御する、
ことを特徴とする音声制御方法。 - コンピュータを、
入力された音声信号による発言のうち、語尾の音高と、前記発言のうち、前記語尾を含む一部区間の音高変化の具合とを解析する非言語解析部、
前記発言に対する回答を取得する取得部、および、
前記回答の音声信号における特定の区間の音高を、前記発言の語尾の音高に対して所定の関係にある音高となるように制御し、かつ、当該回答の音声信号における音高の変化具合を、前記発言の音高の変化具合にしたがって制御する音声制御部、
として機能させることを特徴とするプログラム。
Priority Applications (8)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013203840A JP6343895B2 (ja) | 2013-09-30 | 2013-09-30 | 音声制御装置、音声制御方法およびプログラム |
CN201480031099.XA CN105247609B (zh) | 2013-05-31 | 2014-06-02 | 利用言语合成对话语进行响应的方法及装置 |
EP14803435.8A EP3007165B1 (en) | 2013-05-31 | 2014-06-02 | Technology for responding to remarks using speech synthesis |
CN201910272063.5A CN109887485A (zh) | 2013-05-31 | 2014-06-02 | 利用言语合成对话语进行响应的技术 |
US14/892,624 US9685152B2 (en) | 2013-05-31 | 2014-06-02 | Technology for responding to remarks using speech synthesis |
PCT/JP2014/064631 WO2014192959A1 (ja) | 2013-05-31 | 2014-06-02 | 音声合成を用いて発言に応答する技術 |
EP18178496.8A EP3399521B1 (en) | 2013-05-31 | 2014-06-02 | Technology for responding to remarks using speech synthesis |
US15/375,984 US10490181B2 (en) | 2013-05-31 | 2016-12-12 | Technology for responding to remarks using speech synthesis |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013203840A JP6343895B2 (ja) | 2013-09-30 | 2013-09-30 | 音声制御装置、音声制御方法およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2015069038A JP2015069038A (ja) | 2015-04-13 |
JP6343895B2 true JP6343895B2 (ja) | 2018-06-20 |
Family
ID=52835734
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013203840A Expired - Fee Related JP6343895B2 (ja) | 2013-05-31 | 2013-09-30 | 音声制御装置、音声制御方法およびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6343895B2 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200065057A1 (en) * | 2016-11-08 | 2020-02-27 | Sharp Kabushiki Kaisha | Audio adjusting device, computer-readable non-transitory storage medium storing control program, electronic apparatus, and method for controlling audio adjusting device |
JP2019060941A (ja) * | 2017-09-25 | 2019-04-18 | ヤマハ株式会社 | 音声処理方法 |
JP2020067495A (ja) * | 2018-10-22 | 2020-04-30 | ヤマハ株式会社 | 音声を分析する装置、方法およびプログラム |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS62115199A (ja) * | 1985-11-14 | 1987-05-26 | 日本電気株式会社 | 音声応答装置 |
JP3437064B2 (ja) * | 1997-08-25 | 2003-08-18 | シャープ株式会社 | 音声合成装置 |
JPH11175082A (ja) * | 1997-12-10 | 1999-07-02 | Toshiba Corp | 音声対話装置及び音声対話用音声合成方法 |
JP2001272991A (ja) * | 2000-03-24 | 2001-10-05 | Sanyo Electric Co Ltd | 音声対話方法及び音声対話装置 |
JP4129989B2 (ja) * | 2006-08-21 | 2008-08-06 | インターナショナル・ビジネス・マシーンズ・コーポレーション | テキスト音声合成を支援するシステム |
-
2013
- 2013-09-30 JP JP2013203840A patent/JP6343895B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2015069038A (ja) | 2015-04-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2014192959A1 (ja) | 音声合成を用いて発言に応答する技術 | |
JP4246792B2 (ja) | 声質変換装置および声質変換方法 | |
US20190139535A1 (en) | Speech Synthesis Device and Method | |
JP3660937B2 (ja) | 音声合成方法および音声合成装置 | |
US20180130462A1 (en) | Voice interaction method and voice interaction device | |
JP6464703B2 (ja) | 会話評価装置およびプログラム | |
JP6648805B2 (ja) | 音声制御方法、音声制御装置およびプログラム | |
JP6343895B2 (ja) | 音声制御装置、音声制御方法およびプログラム | |
JP2011186143A (ja) | ユーザ挙動を学習する音声合成装置、音声合成方法およびそのためのプログラム | |
JP6013104B2 (ja) | 音声合成方法、装置、及びプログラム | |
JP6375605B2 (ja) | 音声制御装置、音声制御方法およびプログラム | |
JP6375604B2 (ja) | 音声制御装置、音声制御方法およびプログラム | |
JP6566076B2 (ja) | 音声合成方法およびプログラム | |
JP6424419B2 (ja) | 音声制御装置、音声制御方法およびプログラム | |
JP6648786B2 (ja) | 音声制御装置、音声制御方法およびプログラム | |
JP6232892B2 (ja) | 音声合成装置およびプログラム | |
JP6343896B2 (ja) | 音声制御装置、音声制御方法およびプログラム | |
JP6536713B2 (ja) | 音声制御装置、音声制御方法およびプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20150410 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20160720 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20170926 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20171124 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20180424 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20180507 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 6343895 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |
|
LAPS | Cancellation because of no payment of annual fees |