JP6536713B2 - 音声制御装置、音声制御方法およびプログラム - Google Patents
音声制御装置、音声制御方法およびプログラム Download PDFInfo
- Publication number
- JP6536713B2 JP6536713B2 JP2018096720A JP2018096720A JP6536713B2 JP 6536713 B2 JP6536713 B2 JP 6536713B2 JP 2018096720 A JP2018096720 A JP 2018096720A JP 2018096720 A JP2018096720 A JP 2018096720A JP 6536713 B2 JP6536713 B2 JP 6536713B2
- Authority
- JP
- Japan
- Prior art keywords
- pitch
- answer
- speech
- voice
- rule
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims description 26
- 230000004044 response Effects 0.000 claims description 29
- 230000005236 sound signal Effects 0.000 claims description 9
- 239000011295 pitch Substances 0.000 description 237
- 238000011156 evaluation Methods 0.000 description 50
- 230000015572 biosynthetic process Effects 0.000 description 47
- 238000003786 synthesis reaction Methods 0.000 description 47
- 230000008569 process Effects 0.000 description 12
- 238000012545 processing Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 6
- 238000001514 detection method Methods 0.000 description 5
- 238000006243 chemical reaction Methods 0.000 description 4
- 239000000203 mixture Substances 0.000 description 4
- 230000002194 synthesizing effect Effects 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 101150029610 asun gene Proteins 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 101150017817 ints13 gene Proteins 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Landscapes
- Machine Translation (AREA)
Description
本発明は、音声制御装置、音声制御方法およびプログラムに関する。
近年、音声合成技術としては、次のようなものが提案されている。すなわち、利用者の話調や声質に対応した音声を合成出力することによって、より人間らしく発音する技術(例えば特許文献1参照)や、利用者の音声を分析して、当該利用者の心理状態や健康状態などを診断する技術(例えば特許文献2参照)が提案されている。
また、利用者が入力した音声を認識する一方で、シナリオで指定された内容を音声合成で出力して、利用者との音声対話を実現する音声対話システムも提案されている(例えば特許文献3参照)。
また、利用者が入力した音声を認識する一方で、シナリオで指定された内容を音声合成で出力して、利用者との音声対話を実現する音声対話システムも提案されている(例えば特許文献3参照)。
ところで、上述した音声合成技術と音声対話システムとを組み合わせて、利用者の音声による発言に対し、データを検索して音声合成により出力する対話システムを想定する。この場合、音声合成によって出力される音声が利用者に不自然な感じ、具体的には、いかにも機械が喋っている感じを与えるときがある、という問題が指摘されている。
本発明は、このような事情に鑑みてなされたものであり、その目的の一つは、利用者の発言に対する回答が自然な感じになるような音声制御装置、音声制御方法およびプログラムを提供することにある。
本発明は、このような事情に鑑みてなされたものであり、その目的の一つは、利用者の発言に対する回答が自然な感じになるような音声制御装置、音声制御方法およびプログラムを提供することにある。
本件発明者は、利用者による発言に対する回答を音声合成で出力(返答)するマン・マシンのシステムを検討するにあたって、まず、人同士では、どのような対話がなされるかについて、音高(周波数)に着目して考察した。
ここでは、人同士の対話として、一方の人(aとする)による発言(質問、独り言、問い等を含む)に対し、他方の人(bとする)が回答(相槌を含む)する場合について検討する。この場合において、aが発言したとき、aだけでなく、当該発言に対して回答しようとするbも、当該発言のうちの、ある区間における音高を強い印象で残していることが多い。bは、同意や、賛同、肯定などの意で回答するときには、印象に残っている発言の音高に対し、当該回答を特徴付ける部分、例えば語尾や語頭の音高が、所定の関係、具体的には協和音程の関係となるように発声する。当該回答を聞いたaは、自己の発言について印象に残っている音高と当該発言に対する回答を特徴付ける部分の音高とが上記関係にあるので、bの回答に対して心地良く、安心するような好印象を抱くことになる、と、本件発明者は考えた。
例えば、aが「そうでしょ?」と発言したとき、aおよびbは、当該発言のうち、念押しや確認などの意が強く表れる語尾の「しょ」の音高を記憶に残した状態となる。この状態において、bが、当該発言に対して「あ、はい」と肯定的に回答しようとする場合に、印象に残っている「しょ」の音高に対して、回答を特徴付ける部分、例えば語尾の「い」の音高が上記関係になるように「あ、はい」と回答する。
図2は、このような実際の対話におけるフォルマントを示している。この図において、横軸が時間であり、縦軸が周波数であって、スペクトルは、白くなるにつれて強度が強い状態を示している。
図に示されるように、人の音声を周波数解析して得られるスペクトルは、時間的に移動する複数のピーク、すなわちフォルマントとして現れる。詳細には、「そうでしょ?」に相当するフォルマント、および、「あ、はい」に相当するフォルマントは、それぞれ3つのピーク帯(時間軸に沿って移動する白い帯状の部分)として現れている。
これらの3つのピーク帯のうち、周波数の最も低い第1フォルマントについて着目してみると、「そうでしょ?」の「しょ」に相当する符号A(の中心部分)の周波数はおおよそ400Hzである。一方、符号Bは、「あ、はい」の「い」に相当する符号Bの周波数はおおよそ260Hzである。このため、符号Aの周波数は、符号Bの周波数に対して、ほぼ3/2となっていることが判る。
図に示されるように、人の音声を周波数解析して得られるスペクトルは、時間的に移動する複数のピーク、すなわちフォルマントとして現れる。詳細には、「そうでしょ?」に相当するフォルマント、および、「あ、はい」に相当するフォルマントは、それぞれ3つのピーク帯(時間軸に沿って移動する白い帯状の部分)として現れている。
これらの3つのピーク帯のうち、周波数の最も低い第1フォルマントについて着目してみると、「そうでしょ?」の「しょ」に相当する符号A(の中心部分)の周波数はおおよそ400Hzである。一方、符号Bは、「あ、はい」の「い」に相当する符号Bの周波数はおおよそ260Hzである。このため、符号Aの周波数は、符号Bの周波数に対して、ほぼ3/2となっていることが判る。
周波数の比が3/2であるという関係は、音程でいえば、「ソ」に対して同じオクターブの「ド」や、「ミ」に対して1つ下のオクターブの「ラ」などの関係をいい、後述するように、完全5度の関係にある。この周波数の比(音高同士における所定の関係)については、好適な一例であるが、後述するように様々な例が挙げられる。
なお、図3は、音名(階名)と人の声の周波数との関係について示す図である。この例では、第4オクターブの「ド」を基準にしたときの周波数比も併せて示しており、「ソ」は「ド」を基準にすると、上記のように3/2である。また、第3オクターブの「ラ」を基準にしたときの周波数比についても並列に例示している。
このように人同士の対話では、発言の音高と返答する回答の音高とは無関係ではなく、上記のような関係がある、と考察できる。そして、本件発明者は、多くの対話例を分析し、多くの人による評価を統計的に集計して、この考えがおおよそ正しいことを裏付けた。
ただし、統計的には正しいかもしれないが、心地良い等と感じる音高の関係は、人それぞれである。また、利用者の発言に対する回答を音声合成で出力(返答)する対話システムを検討したときに、当該利用者に対して、発言回数・頻度を高める、端的にいえばマシンとの対話を弾ませることは重要である。
そこで、利用者による発言に対する回答を音声合成する際に、上記目的を達成するために、次のような構成とした。
ただし、統計的には正しいかもしれないが、心地良い等と感じる音高の関係は、人それぞれである。また、利用者の発言に対する回答を音声合成で出力(返答)する対話システムを検討したときに、当該利用者に対して、発言回数・頻度を高める、端的にいえばマシンとの対話を弾ませることは重要である。
そこで、利用者による発言に対する回答を音声合成する際に、上記目的を達成するために、次のような構成とした。
すなわち、上記目的を達成するために、本発明の一態様に係る音声合成装置は、音声信号による発言を入力する音声入力部と、前記発言のうち、特定の第1区間の音高を解析する音高解析部と、前記発言に対する回答を取得する取得部と、取得された回答を音声合成する音声合成部と、前記音声合成部に対し、当該回答における特定の第2区間の音高を前記第1区間の音高に対して予め設定された音高ルールで定められた関係にある音高に変更させ、前記回答に対して発言がなされたことに応じて、前記音高ルールを設定する音声制御部と、を具備することを特徴とする。
この一態様によれば、回答における特定の第2区間の音高が、発言のうち特定の第1区間の音高に対して音高ルールで定められた関係にある音高に変更されて音声合成が制御される。音高ルールは、回答に対して発言がなされたことに応じて設定されるので、マシンとの対話を弾ませる方向に導くことができる。
この一態様によれば、回答における特定の第2区間の音高が、発言のうち特定の第1区間の音高に対して音高ルールで定められた関係にある音高に変更されて音声合成が制御される。音高ルールは、回答に対して発言がなされたことに応じて設定されるので、マシンとの対話を弾ませる方向に導くことができる。
この態様において、第1区間は、例えば発言の語尾であり、第2区間は、回答の語頭または語尾であることが好ましい。上述したように、発言の印象を特徴付ける区間は、当該発言の語尾であり、回答の印象を特徴付ける区間は、回答の語頭または語尾であることが多いからである。
また、前記所定の関係は、完全1度を除いた協和音程の関係であることが好ましい。ここで、協和とは、複数の楽音が同時に発生したときに、それらが互いに溶け合って良く調和する関係をいい、これらの音程関係を協和音程という。協和の程度は、2音間の周波数比(振動数比)が単純なものほど高い。周波数比が最も単純な1/1(完全1度)と、2/1(完全8度)とを、特に絶対協和音程といい、これに3/2(完全5度)と4/3(完全4度)とを加えて完全協和音程という。5/4(長3度)、6/5(短3度)、5/3(長6度)および8/5(短6度)を不完全協和音程といい、これ以外のすべての周波数比の関係(長・短の2度と7度、各種の増・減音程など)を不協和音程という。
また、前記所定の関係は、完全1度を除いた協和音程の関係であることが好ましい。ここで、協和とは、複数の楽音が同時に発生したときに、それらが互いに溶け合って良く調和する関係をいい、これらの音程関係を協和音程という。協和の程度は、2音間の周波数比(振動数比)が単純なものほど高い。周波数比が最も単純な1/1(完全1度)と、2/1(完全8度)とを、特に絶対協和音程といい、これに3/2(完全5度)と4/3(完全4度)とを加えて完全協和音程という。5/4(長3度)、6/5(短3度)、5/3(長6度)および8/5(短6度)を不完全協和音程といい、これ以外のすべての周波数比の関係(長・短の2度と7度、各種の増・減音程など)を不協和音程という。
なお、回答の語頭または語尾の音高が、発言の語尾の音高と同一となる場合には、対話として不自然な感じを伴うと考えられるので、上記協和音程の関係としては、完全1度が除かれている。
また、回答には、質問に対する具体的な答えに限られず、「なるほど」、「そうですね」などの相槌(間投詞)も含まれる。
また、回答には、質問に対する具体的な答えに限られず、「なるほど」、「そうですね」などの相槌(間投詞)も含まれる。
人同士の対話において、当該発言から回答までの期間、いわゆる間は、対話の弾み具合を決める1つの要素である。そこで、上記態様において、前記音声制御部は、発言から前記回答を出力するまでの間を、予め設定された出力ルールで制御し、前記回答に対して発言がなされたことに応じて、前記出力ルールを設定する構成としても良い。この構成によれば、発言から回答を出力するまでの間が回答に対して発言がなされたことに応じて設定されるので、マシンとの対話を弾ませる方向に導くことができる。
上記態様において、前記音高ルールは、予め用意された複数の場面のうち、いずれかに応じて設定される構成としても良い。ここでいう場面とは、発言者の性別、年齢と、音声合成する声の性別、年齢との組み合わせや、発言の速度(早口、遅口)と、音声合成する回答の速度との組み合わせ、対話目的(音声案内)などである。
同様に、前記出力ルールは、予め用意された複数の場面のうち、いずれかに応じて設定される構成としても良い。
同様に、前記出力ルールは、予め用意された複数の場面のうち、いずれかに応じて設定される構成としても良い。
本発明の態様について、音声合成装置のみならず、コンピュータを当該音声合成装置として機能させるプログラムとして概念することも可能である。
なお、本発明では、発言の音高(周波数)を解析対象とし、回答の音高を制御対象としているが、ヒトの音声は、上述したフォルマントの例でも明らかなように、ある程度の周波数域を有するので、解析や制御についても、ある程度の周波数範囲を持ってしまうのは避けられない。また、解析や制御については、当然のことながら誤差が発生する。このため、本件において、音高の解析や制御については、音高(周波数)の数値が同一であることのみならず、ある程度の範囲を伴うことが許容される。
なお、本発明では、発言の音高(周波数)を解析対象とし、回答の音高を制御対象としているが、ヒトの音声は、上述したフォルマントの例でも明らかなように、ある程度の周波数域を有するので、解析や制御についても、ある程度の周波数範囲を持ってしまうのは避けられない。また、解析や制御については、当然のことながら誤差が発生する。このため、本件において、音高の解析や制御については、音高(周波数)の数値が同一であることのみならず、ある程度の範囲を伴うことが許容される。
以下、本発明の実施形態について図面を参照して説明する。
<第1実施形態>
図1は、本発明の実施形態に係る音声合成装置10の構成を示す図である。
この図において、音声合成装置10は、CPU(Central Unit)や、音声入力部102、スピーカ142を有する、例えば携帯電話機のような端末装置である。音声合成装置10においてCPUが、予めインストールされたアプリケーションプログラムを実行することによって、複数の機能ブロックが次のように構築される。
詳細には、音声合成装置10では、発話区間検出部104、音高解析部106、言語解析部108、音声制御部109、回答作成部(取得部)110、音声合成部112、言語データベース122、回答データベース124、情報取得部126、管理用データベース127および音声ライブラリ128が構築される。
なお、特に図示しないが、このほかにも音声合成装置10は、表示部や操作入力部なども有し、利用者が装置の状況を確認したり、装置に対して各種の操作を入力したりすることができるようになっている。同様に特に図示しないが、音声合成装置10は、リアルタイムクロックを内蔵して、現在時刻などの時間情報を取得する構成となっている。また、音声合成装置10は、携帯電話機のような端末装置10に限られず、ノート型やタブレット型のパーソナルコンピュータであっても良い。
図1は、本発明の実施形態に係る音声合成装置10の構成を示す図である。
この図において、音声合成装置10は、CPU(Central Unit)や、音声入力部102、スピーカ142を有する、例えば携帯電話機のような端末装置である。音声合成装置10においてCPUが、予めインストールされたアプリケーションプログラムを実行することによって、複数の機能ブロックが次のように構築される。
詳細には、音声合成装置10では、発話区間検出部104、音高解析部106、言語解析部108、音声制御部109、回答作成部(取得部)110、音声合成部112、言語データベース122、回答データベース124、情報取得部126、管理用データベース127および音声ライブラリ128が構築される。
なお、特に図示しないが、このほかにも音声合成装置10は、表示部や操作入力部なども有し、利用者が装置の状況を確認したり、装置に対して各種の操作を入力したりすることができるようになっている。同様に特に図示しないが、音声合成装置10は、リアルタイムクロックを内蔵して、現在時刻などの時間情報を取得する構成となっている。また、音声合成装置10は、携帯電話機のような端末装置10に限られず、ノート型やタブレット型のパーソナルコンピュータであっても良い。
音声入力部102は、詳細については省略するが、利用者による音声(発言)を電気信号に変換するマイクロフォンと、変換された音声信号の高域成分をカットするLPF(ローパスフィルタ)と、高域成分をカットした音声信号をデジタル信号に変換するA/D変換器とで構成される。
発話区間検出部104は、デジタル信号に変換された音声信号を処理して発話(有音)区間を検出する。
発話区間検出部104は、デジタル信号に変換された音声信号を処理して発話(有音)区間を検出する。
音高解析部106は、発話区間として検出された音声信号の発言を音量解析および周波数解析して、当該発言のうち、特定の区間(第1区間)における音高を示す音高データを、音声制御部109に供給する。
ここで、第1区間とは、例えば発言の語尾である。また、ここでいう音高とは、例えば音声信号を周波数解析して得られる複数のフォルマントのうち、周波数の最も低い成分である第1フォルマント、図2でいえば、末端が符号Aとなっているピーク帯で示される周波数(音高)をいう。周波数解析については、FFT(Fast Transform)や、その他公知の方法を用いることができる。発言における語尾を特定するための具体的手法の一例については後述する。
ここで、第1区間とは、例えば発言の語尾である。また、ここでいう音高とは、例えば音声信号を周波数解析して得られる複数のフォルマントのうち、周波数の最も低い成分である第1フォルマント、図2でいえば、末端が符号Aとなっているピーク帯で示される周波数(音高)をいう。周波数解析については、FFT(Fast Transform)や、その他公知の方法を用いることができる。発言における語尾を特定するための具体的手法の一例については後述する。
一方、言語解析部108は、発話区間として検出された音声信号がどの音素に近いのかを、言語データベース122に予め作成された音素モデルを参照することにより判定して、音声信号で規定される発言を解析(特定)し、その解析結果を回答作成部110に供給する。
回答作成部110は、言語解析部108によって解析された発言に対応する回答を、回答データベース124および情報取得部126を参照して作成する。
なお、本実施形態において、回答作成部110が作成する回答には、
(1)発言に対する肯定または否定等の意を示す回答、
(2)発言に対する具体的内容の回答、
(3)発言に対する相槌としての回答、
が想定されている。(1)の回答の例としては「はい」、「いいえ」などが挙げられ、(2)としては、例えば「あすのてんきは?(明日の天気は?)」という発言に対して「はれです」と具体的に内容を回答する例などが挙げられる。(3)としては、「そうですね」、「えーと」などが挙げられ、発言が、(1)のように「はい」、「いいえ」の回答で済む発言、および、(2)のように具体的な内容を回答する必要がある発言以外の場合において作成(取得)される。
なお、本実施形態において、回答作成部110が作成する回答には、
(1)発言に対する肯定または否定等の意を示す回答、
(2)発言に対する具体的内容の回答、
(3)発言に対する相槌としての回答、
が想定されている。(1)の回答の例としては「はい」、「いいえ」などが挙げられ、(2)としては、例えば「あすのてんきは?(明日の天気は?)」という発言に対して「はれです」と具体的に内容を回答する例などが挙げられる。(3)としては、「そうですね」、「えーと」などが挙げられ、発言が、(1)のように「はい」、「いいえ」の回答で済む発言、および、(2)のように具体的な内容を回答する必要がある発言以外の場合において作成(取得)される。
(1)の回答については、例えば「いま3時ですか?」という発言に対して、内蔵のリアルタイムクロック(図示省略)から時刻情報を取得すれば、回答作成部110が、当該発言に対して例えば「はい」または「いいえ」のうち、どちらで回答すれば良いのかを判別することができる。
一方で、例えば「あすははれですか(明日は晴れですか)?」という発言に対しては、外部サーバにアクセスして天気情報を取得しないと、音声合成装置10の単体で回答することができない。このように、音声合成装置10のみでは回答できない場合、情報取得部126は、インターネットを介し外部サーバにアクセスし、回答の作成に必要な情報を取得して、回答作成部110に供給する。これにより、当該回答作成部110は、当該発言に対して例えば「はい」または「いいえ」のどちらで回答すれば良いのかを判別することができる。
(2)の回答については、例えば「いまなんじ?(今、何時?)」という発言に対しては、回答作成部110は、上記時刻情報を取得するとともに、時刻情報以外の情報を回答データベース124から取得することで、「ただいま○○時○○分です」という回答を作成することが可能である。一方で、「あすのてんきは?(明日の天気は?)」という発言に対しては、情報取得部126が、外部サーバにアクセスして、回答に必要な情報を取得するとともに、回答作成部110が、発言に対して例えば「はれです」という回答を、回答データベース124および外部サーバから作成する構成となっている。
一方で、例えば「あすははれですか(明日は晴れですか)?」という発言に対しては、外部サーバにアクセスして天気情報を取得しないと、音声合成装置10の単体で回答することができない。このように、音声合成装置10のみでは回答できない場合、情報取得部126は、インターネットを介し外部サーバにアクセスし、回答の作成に必要な情報を取得して、回答作成部110に供給する。これにより、当該回答作成部110は、当該発言に対して例えば「はい」または「いいえ」のどちらで回答すれば良いのかを判別することができる。
(2)の回答については、例えば「いまなんじ?(今、何時?)」という発言に対しては、回答作成部110は、上記時刻情報を取得するとともに、時刻情報以外の情報を回答データベース124から取得することで、「ただいま○○時○○分です」という回答を作成することが可能である。一方で、「あすのてんきは?(明日の天気は?)」という発言に対しては、情報取得部126が、外部サーバにアクセスして、回答に必要な情報を取得するとともに、回答作成部110が、発言に対して例えば「はれです」という回答を、回答データベース124および外部サーバから作成する構成となっている。
回答作成部110は、作成・取得した回答から音声シーケンスを作成して出力する。この音声シーケンスは、音素列であって、各音素に対応する音高や発音タイミングを規定したものである。
なお、(1)、(3)の回答については、例えば回答に対応する音声シーケンスを回答データベース124に格納しておく一方で、判別結果に対応した音声シーケンスを回答データベース124から読み出す構成にしても良い。詳細には、回答作成部110は、(1)の回答にあっては、判別結果に応じた例えば「はい」、「いいえ」などの音声シーケンスを読み出せば良いし、(3)の回答にあっては、発言の解析結果および回答作成部110での判別結果に応じて「そうですね」、「えーと」などの音声シーケンスを読み出せば良い。
なお、回答作成部110で作成・取得された音声シーケンスは、音声制御部109と音声合成部112とにそれぞれ供給される。
なお、(1)、(3)の回答については、例えば回答に対応する音声シーケンスを回答データベース124に格納しておく一方で、判別結果に対応した音声シーケンスを回答データベース124から読み出す構成にしても良い。詳細には、回答作成部110は、(1)の回答にあっては、判別結果に応じた例えば「はい」、「いいえ」などの音声シーケンスを読み出せば良いし、(3)の回答にあっては、発言の解析結果および回答作成部110での判別結果に応じて「そうですね」、「えーと」などの音声シーケンスを読み出せば良い。
なお、回答作成部110で作成・取得された音声シーケンスは、音声制御部109と音声合成部112とにそれぞれ供給される。
音声制御部109は、音声合成部112における音声合成を制御する。
音声シーケンスは、発声の音高や発音タイミングが規定されているので、音声合成部112が、単純に音声シーケンスにしたがって音声合成することで、当該回答の基本音声を出力することができる。
ただし、回答の基本音声は、発言における語尾等の音高を考慮していないので、機械が喋っている感じを与えるときがあるのは上述した通りである。そこで、本実施形態では、第1に、音声制御部109が、回答作成部110から供給された音声シーケンスのうち、特定の区間(第2区間)の音高を、音高データに対して所定の関係の音高となるように、当該音声シーケンス全体の音高を変更させる構成とした。なお、本実施形態では、第2区間を回答の語尾とするが、語尾に限られない。
音声シーケンスは、発声の音高や発音タイミングが規定されているので、音声合成部112が、単純に音声シーケンスにしたがって音声合成することで、当該回答の基本音声を出力することができる。
ただし、回答の基本音声は、発言における語尾等の音高を考慮していないので、機械が喋っている感じを与えるときがあるのは上述した通りである。そこで、本実施形態では、第1に、音声制御部109が、回答作成部110から供給された音声シーケンスのうち、特定の区間(第2区間)の音高を、音高データに対して所定の関係の音高となるように、当該音声シーケンス全体の音高を変更させる構成とした。なお、本実施形態では、第2区間を回答の語尾とするが、語尾に限られない。
一方、回答の第2区間の音高を、発言の語尾の音高に対してどのような関係(音高ルール)にすれば、心地良い等と感じ、対話が弾むのかについては、上述したように利用者等によって異なるところである。そこで、第2に、本実施形態では、動作期間として評価期間を設けるとともに、当該評価期間において、発言に対して複数の音高ルールで回答を音声合成し、当該評価期間の終了時において、最も対話が弾んだ音高ルールに設定して、以降の音声合成に反映させる構成とした。
管理用データベース127は、音声制御部109によって管理されて、音高ルールと対話の弾み具合を示す指標とを対応付けたテーブル(指標テーブル)などを記憶する。
管理用データベース127は、音声制御部109によって管理されて、音高ルールと対話の弾み具合を示す指標とを対応付けたテーブル(指標テーブル)などを記憶する。
図4は、指標テーブルにおける記憶内容の一例を示す図である。この図に示されるように、指標テーブルでは、音高ルール毎に、発言回数と適用回数とが対応付けられている。
ここで、音高ルールとは、回答の語尾の音高を、発言の語尾の音高に対してのような関係とするのかを規定するものであり、例えば同図に示されるように、4度上、3度下、5度下、6度下、8度下のように規定されている。
また、発言回数とは、評価期間において、利用者による発言に対し音声合成装置10が回答を音声合成した場合、当該回答に対して、所定時間内にさらに利用者が発言したときの回数をカウントした値である。逆にいえば、評価期間において、利用者による発言に対して回答が音声合成された場合であっても、当該回答後に、利用者による発言がなく、または、発言があっても所定時間経過後であれば、発言回数としてカウントされない。
適用回数とは、評価期間において、対応している音高ルールが適用された回数を示す。
このため、発言回数を適用回数で割った値同士を比較することによって、利用者が回答に対して発言する回数が最大となったケース、すなわち、最も対話が弾んだケースは、どの音高ルールを適用した場合であったのかを利用者は知ることができる。
なお、ある音高ルールが適用されて回答が音声合成されても、当該回答に対して所定時間内に利用者が発言しない場合があるので、図の例のように、発言回数よりも適用回数が多くなっている。
ここで、音高ルールとは、回答の語尾の音高を、発言の語尾の音高に対してのような関係とするのかを規定するものであり、例えば同図に示されるように、4度上、3度下、5度下、6度下、8度下のように規定されている。
また、発言回数とは、評価期間において、利用者による発言に対し音声合成装置10が回答を音声合成した場合、当該回答に対して、所定時間内にさらに利用者が発言したときの回数をカウントした値である。逆にいえば、評価期間において、利用者による発言に対して回答が音声合成された場合であっても、当該回答後に、利用者による発言がなく、または、発言があっても所定時間経過後であれば、発言回数としてカウントされない。
適用回数とは、評価期間において、対応している音高ルールが適用された回数を示す。
このため、発言回数を適用回数で割った値同士を比較することによって、利用者が回答に対して発言する回数が最大となったケース、すなわち、最も対話が弾んだケースは、どの音高ルールを適用した場合であったのかを利用者は知ることができる。
なお、ある音高ルールが適用されて回答が音声合成されても、当該回答に対して所定時間内に利用者が発言しない場合があるので、図の例のように、発言回数よりも適用回数が多くなっている。
音声合成部112は、音声制御部109による制御にしたがって、音声シーケンスから音声を合成する。具体的には、音声合成部112は、音声合成にあたって、音声ライブラリ128に登録された音声素片データを用いる。音声ライブラリ128は、単一の音素や音素から音素への遷移部分など、音声の素材となる各種の音声素片の波形を定義した音声素片データを予めデータベース化したものである。音声合成部112は、音声シーケンスの一音一音(音素)の音声素片データを組み合わせて、繋ぎ部分が連続するように修正しつつ、音声制御部109によって決定された音高ルールにしたがって回答の音高を変更して音声信号を生成する。
なお、音声合成された音声信号は、図示省略したD/A変換部によってアナログ信号に変換された後、スピーカ142によって音響変換されて出力される。
なお、音声合成された音声信号は、図示省略したD/A変換部によってアナログ信号に変換された後、スピーカ142によって音響変換されて出力される。
次に、音声合成装置10の動作について説明する。
はじめに、利用者が所定の操作をしたとき、例えば対話処理に対応したアイコンなどをメインメニュー画面(図示省略)において選択する操作をしたとき、CPUが当該処理に対応したアプリケーションプログラムを起動する。このアプリケーションプログラムを実行することによって、CPUは、図1で示した機能ブロックを構築する。
はじめに、利用者が所定の操作をしたとき、例えば対話処理に対応したアイコンなどをメインメニュー画面(図示省略)において選択する操作をしたとき、CPUが当該処理に対応したアプリケーションプログラムを起動する。このアプリケーションプログラムを実行することによって、CPUは、図1で示した機能ブロックを構築する。
図5は、当該アプリケーションプログラムの実行による動作期間を示す図である。同図に示されるように、本実施形態では、動作期間においてはルール固定期間と評価期間とが交互に繰り返される。このうち、ルール固定期間とは、評価期間の終了時において設定された音高ルールで回答が音声合成される期間である。なお、ここでは、設定されている音高ルールは、図4において白抜き三角印で示されている5度下とする。
一方、評価期間とは、利用者による発言に対して複数の音高ルールで回答を音声合成するとともに、最も対話が弾んだ音高ルールを設定するための期間である。
本実施形態では、図5に示されるようにルール固定期間と評価期間とが所定の時間毎に交互に繰り返される構成とするが、所定の条件を満たしたときだけ、例えば利用者の指示があったときだけ、評価期間に移行する構成としても良い。
本実施形態では、図5に示されるようにルール固定期間と評価期間とが所定の時間毎に交互に繰り返される構成とするが、所定の条件を満たしたときだけ、例えば利用者の指示があったときだけ、評価期間に移行する構成としても良い。
図6は、音声合成処理を示すフローチャートである。この音声合成処理は、ルール固定期間および評価期間に関係なく実行される。
まず、利用者によって、音声入力部102に対して音声で発言が入力される(ステップSa11)。発話区間検出部104は、例えば当該音声の振幅を閾値と比較することにより発話区間を検出し、当該発話区間の音声信号を音高解析部106および言語解析部108のそれぞれに供給する(ステップSa12)。
言語解析部108は、供給された音声信号における発言の意味を解析して、その意味内容を示すデータを、回答作成部110に供給する(ステップSa13)。
回答作成部110は、発言の言語解析結果に対応した回答を、回答データベース124を用いたり、必要に応じて情報取得部126を介し外部サーバから取得したりして、作成する(ステップSa14)。そして、回答作成部110は、当該回答に基づく音声シーケンスを作成し、音声合成部112に供給する(ステップSa15)。
回答作成部110は、発言の言語解析結果に対応した回答を、回答データベース124を用いたり、必要に応じて情報取得部126を介し外部サーバから取得したりして、作成する(ステップSa14)。そして、回答作成部110は、当該回答に基づく音声シーケンスを作成し、音声合成部112に供給する(ステップSa15)。
例えば、利用者による発言の言語解析結果が「あすははれですか(明日は晴れですか)?」という意味であれば、回答作成部110は、外部サーバにアクセスして、回答に必要な天気情報を取得し、取得した天気情報が晴れであれば「はい」という音声シーケンスを、晴れ以外であれば「いいえ」という音声シーケンスを、それぞれ出力する。
また、利用者による発言の言語解析結果が「あすのてんきは(明日の天気は)?」であれば、回答作成部110は、外部サーバから取得した天気情報にしたがって例えば「はれです」、「くもりです」などの音声シーケンスを出力する。
一方、利用者による発言の言語解析結果が「あすははれかぁ」という意味であれば、それは独り言(または、つぶやき)なので、回答作成部110が、例えば「そうですね」のような相槌の音声シーケンスを、回答データベース124から読み出して出力する。
また、利用者による発言の言語解析結果が「あすのてんきは(明日の天気は)?」であれば、回答作成部110は、外部サーバから取得した天気情報にしたがって例えば「はれです」、「くもりです」などの音声シーケンスを出力する。
一方、利用者による発言の言語解析結果が「あすははれかぁ」という意味であれば、それは独り言(または、つぶやき)なので、回答作成部110が、例えば「そうですね」のような相槌の音声シーケンスを、回答データベース124から読み出して出力する。
音声制御部109は、回答作成部110から供給された音声シーケンスから、当該音声シーケンスにおける語尾の音高(初期音高)を特定する(ステップSa16)。
次に、音声制御部109は、現時点がルール固定期間であるか否かを判別する(ステップSa17)。現時点がルール固定期間であれば(ステップSa17の判別結果が「Yes」であれば)、音声制御部109は、当該ルール固定期間の前の評価期間において設定した音高ルールを適用する(ステップSa18)。
一方、現時点がルール固定期間でなく、評価期間であれば(ステップSa17の判別結果が「No」であれば)、音声制御部109は、例えば当該評価期間の1つ前の評価期間で設定された音高ルールと、指標テーブルにおいて当該音高ルールを上下に挟む音高ルールの計3つのうち、いずれか1つを選択して、選択した音高ルールを適用する(ステップSa19)。具体的には、音声制御部109は、設定された音高ルールが図4において白抜き三角印で示されている5度下であったとすれば、当該5度下と、指標テーブルにおいて5度下を上下に挟む3度下と、6度下との3つの音高ルールのうち、いずれか1つを、ランダムで、または、所定の順番で選択する。
一方、現時点がルール固定期間でなく、評価期間であれば(ステップSa17の判別結果が「No」であれば)、音声制御部109は、例えば当該評価期間の1つ前の評価期間で設定された音高ルールと、指標テーブルにおいて当該音高ルールを上下に挟む音高ルールの計3つのうち、いずれか1つを選択して、選択した音高ルールを適用する(ステップSa19)。具体的には、音声制御部109は、設定された音高ルールが図4において白抜き三角印で示されている5度下であったとすれば、当該5度下と、指標テーブルにおいて5度下を上下に挟む3度下と、6度下との3つの音高ルールのうち、いずれか1つを、ランダムで、または、所定の順番で選択する。
一方、音高解析部106は、検出された発話区間における発言の音声信号を解析し、当該発言における第1区間(語尾)の音高を特定して、当該音高を示す音高データを音声制御部109に供給する(ステップSa20)。ここで、音高解析部106における発言の語尾を特定する具体的手法の一例について説明する。
発言をする人が、当該発言に対する回答を欲するような対話を想定した場合、発言の語尾に相当する部分では、音量が他の部分として比較して一時的に大きくなる、と考えられる。そこで、音高解析部106による第1区間(語尾)の音高については、例えば次のようにして求めることできる。
第1に、音高解析部106は、発話区間として検出された発言の音声信号を、音量と音高(ピッチ)とに分けて波形化する。図8の(a)は、音声信号についての音量を縦軸で、経過時間を横軸で表した音量波形の一例であり、(b)は、同じ音声信号について周波数解析して得られる第1フォルマントの音高を縦軸で、経過時間を横軸で表した音高波形である。なお、(a)の音量波形と(b)の音高波形との時間軸は共通である。
第2に、音高解析部106は、(a)の音量波形のうち、時間的に最後の極大P1のタイミングを特定する。
第3に、音高解析部106は、特定した極大P1のタイミングを前後に含む所定の時間範囲(例えば100μ秒〜300μ秒)を語尾であると認定する。
第4に、音高解析部106は、(b)の音高波形のうち、認定した語尾に相当する区間Q1の平均音高を、音高データとして音声制御部109に供給する。
このように、発話区間における音量波形について最後の極大P1を、発言の語尾に相当するタイミングとして特定することによって、会話としての発言の語尾の誤検出を少なくすることができる、と考えられる。
ここでは、(a)の音量波形のうち、時間的に最後の極大P1のタイミングを前後に含む所定の時間範囲を語尾であると認定したが、極大P1のタイミングを始期または終期とする所定の時間範囲を語尾と認定しても良い。また、認定した語尾に相当する区間Q1の平均音高ではなく、区間Q1の始期、終期や、極大P1のタイミングの音高を、音高データとして出力する構成としても良い。
第1に、音高解析部106は、発話区間として検出された発言の音声信号を、音量と音高(ピッチ)とに分けて波形化する。図8の(a)は、音声信号についての音量を縦軸で、経過時間を横軸で表した音量波形の一例であり、(b)は、同じ音声信号について周波数解析して得られる第1フォルマントの音高を縦軸で、経過時間を横軸で表した音高波形である。なお、(a)の音量波形と(b)の音高波形との時間軸は共通である。
第2に、音高解析部106は、(a)の音量波形のうち、時間的に最後の極大P1のタイミングを特定する。
第3に、音高解析部106は、特定した極大P1のタイミングを前後に含む所定の時間範囲(例えば100μ秒〜300μ秒)を語尾であると認定する。
第4に、音高解析部106は、(b)の音高波形のうち、認定した語尾に相当する区間Q1の平均音高を、音高データとして音声制御部109に供給する。
このように、発話区間における音量波形について最後の極大P1を、発言の語尾に相当するタイミングとして特定することによって、会話としての発言の語尾の誤検出を少なくすることができる、と考えられる。
ここでは、(a)の音量波形のうち、時間的に最後の極大P1のタイミングを前後に含む所定の時間範囲を語尾であると認定したが、極大P1のタイミングを始期または終期とする所定の時間範囲を語尾と認定しても良い。また、認定した語尾に相当する区間Q1の平均音高ではなく、区間Q1の始期、終期や、極大P1のタイミングの音高を、音高データとして出力する構成としても良い。
音高データの供給を受けた音声制御部109は、回答の語尾の音高が当該音高データで示される音高に対して、適用する音高ルールで定められる関係となるように、音声合成部112に指示する(ステップSa21)。この指示により、音声合成部112は、回答の語尾の音高が当該音高ルールで定められた音高となるように、音声シーケンス全体の音高を変更して出力する。
本実施形態にあっては、回答が音声合成で出力されても、当該回答に続いて利用者が発言する場合があるので、処理手順がステップSa11に戻る。なお、音声合成処理は、利用者による明示の操作(例えばソフトウェアボタンの操作)によって終了する。
本実施形態にあっては、回答が音声合成で出力されても、当該回答に続いて利用者が発言する場合があるので、処理手順がステップSa11に戻る。なお、音声合成処理は、利用者による明示の操作(例えばソフトウェアボタンの操作)によって終了する。
図7は、テーブル更新処理の動作を示すフローチャートである。
このテーブル更新処理は、図6における音声合成処理とは独立して実行され、主に、評価期間において指標テーブル(図4参照)を更新して、ルール固定期間で適用する音高ルールを設定するための処理である。
このテーブル更新処理は、図6における音声合成処理とは独立して実行され、主に、評価期間において指標テーブル(図4参照)を更新して、ルール固定期間で適用する音高ルールを設定するための処理である。
まず、音声制御部109は、現時点(現在時刻)が評価期間であるか否かを判別する(ステップSb11)。現時点が評価期間でなければ(ステップSb11の判別結果が「No」であれば)、音声制御部109は、処理手順を再びステップSb11に戻す。
現時点が評価期間であれば(ステップSb11の判別結果が「Yes」であれば)、音声制御部109は、音声合成部112により音声合成された回答の出力があったか否かを判別する(ステップSb12)。
回答の出力がなければ(ステップSb12の判別結果が「No」であれば)、音声制御部109は、処理手順をステップSb11に戻す。このため、現時点が評価期間であって、回答が出力されない限り、以降の処理が実行されない構成となっている。
一方、回答の出力があれば(ステップSb12の判別結果が「Yes」であれば)、音声制御部109は、当該回答の出力後、所定時間(例えば5秒)内に、利用者の発言があったか否かを判別する(ステップSb13)。これは、例えば音声制御部109において回答の出力後に音高解析部106から音高データが所定時間内に供給されたか否かによって、判別することができる。
現時点が評価期間であれば(ステップSb11の判別結果が「Yes」であれば)、音声制御部109は、音声合成部112により音声合成された回答の出力があったか否かを判別する(ステップSb12)。
回答の出力がなければ(ステップSb12の判別結果が「No」であれば)、音声制御部109は、処理手順をステップSb11に戻す。このため、現時点が評価期間であって、回答が出力されない限り、以降の処理が実行されない構成となっている。
一方、回答の出力があれば(ステップSb12の判別結果が「Yes」であれば)、音声制御部109は、当該回答の出力後、所定時間(例えば5秒)内に、利用者の発言があったか否かを判別する(ステップSb13)。これは、例えば音声制御部109において回答の出力後に音高解析部106から音高データが所定時間内に供給されたか否かによって、判別することができる。
回答の出力後に、利用者の発言が所定時間経過内にあった場合(ステップSb13の判別結果が「Yes」である場合)、指標テーブルを更新するために、音声制御部109は、当該回答の音声合成にあたって適用した音高ルールを特定する(ステップSb14)。なお、この音高ルールについては、例えば、上記ステップSa19において音高ルールを選択したときに、選択した音高ルールと選択した時刻情報とを対応付けて管理用データベース127に格納しておく一方で、最も時刻情報が新しい音高ルールを検索することで特定可能である。
音声制御部109は、指標テーブルにおいて、当該回答の音声合成にあたって適用した音高ルールの項目(発言回数および適用回数)をそれぞれ「1」だけインクリメントする(ステップSb15)。
音声制御部109は、指標テーブルにおいて、当該回答の音声合成にあたって適用した音高ルールの項目(発言回数および適用回数)をそれぞれ「1」だけインクリメントする(ステップSb15)。
一方、回答の出力後に、利用者の発言がなければ、あるいは、発言があっても所定時間経過後であった場合(ステップSb13の判別結果が「No」である場合)、音声制御部109は、ステップSb14と同様に、当該回答の音声合成にあたって適用した音高ルールを特定する(ステップSb16)。ただし、この場合、当該回答によって、利用者の発言がなかったものとみなすので、音声制御部109は、指標テーブルにおいて、当該回答の音声合成にあたって適用した音高ルールの適用回数のみを「1」だけインクリメントする(ステップSb17)。
次に、音声制御部109は、現時点が評価期間の終了タイミングである否かを判別する(ステップSb18)。
評価期間の終了タイミングでなければ(ステップSb18の判別結果が「No」であれば)、音声制御部109は、回答後の発言があったときに備えるため、処理手順をステップSb11に戻す。
一方、評価期間の終了タイミングであれば(ステップSb18の判別結果が「Yes」であれば)、当該評価期間において3つの音高ルールにつき、発言回数を適用回数で割った値同士を比較して、当該評価期間において最も対話が弾んだケースに適用された音高ルールを、当該評価期間後のルール固定期間に適用する音高ルールとして設定する(ステップSb19)。例えば、ステップSb18の処理時において、評価期間における3つの音高ルールが3度下、5度下、6度下であって、各音高ルールでの発言回数および適用回数が図4に示されるような値であった場合、ルール固定期間で適用する音高ルールが、それまで設定されていた5度下から、黒塗り潰しの三角印で示される3度下に変更される。
この後、音声制御部109は、当該評価期間において評価した3つの音高ルールにおける発言回数および適用回数をクリアした(ステップSb20)上で、次回の評価期間においても同様な処理をするため、処理手順をステップSb11に戻す。
評価期間の終了タイミングでなければ(ステップSb18の判別結果が「No」であれば)、音声制御部109は、回答後の発言があったときに備えるため、処理手順をステップSb11に戻す。
一方、評価期間の終了タイミングであれば(ステップSb18の判別結果が「Yes」であれば)、当該評価期間において3つの音高ルールにつき、発言回数を適用回数で割った値同士を比較して、当該評価期間において最も対話が弾んだケースに適用された音高ルールを、当該評価期間後のルール固定期間に適用する音高ルールとして設定する(ステップSb19)。例えば、ステップSb18の処理時において、評価期間における3つの音高ルールが3度下、5度下、6度下であって、各音高ルールでの発言回数および適用回数が図4に示されるような値であった場合、ルール固定期間で適用する音高ルールが、それまで設定されていた5度下から、黒塗り潰しの三角印で示される3度下に変更される。
この後、音声制御部109は、当該評価期間において評価した3つの音高ルールにおける発言回数および適用回数をクリアした(ステップSb20)上で、次回の評価期間においても同様な処理をするため、処理手順をステップSb11に戻す。
このように本実施形態では、評価期間において異なる音高ルールを適用して、回答を音声合成させるとともに、当該回答に対して利用者の発言が所定時間内にあれば、適用した音高ルールの発言回数および適用回数を更新し、当該回答に対して利用者の発言が所定時間内になければ、適用した音高ルールの適用回数だけを更新する。そして、評価期間の終了タイミングにおいて、最も対話が弾んだ音高ルールが設定されて、次のルール固定期間に適用される。
次に、発言の音高と、音声シーケンスの基本音高と、変更された音声シーケンスの音高とについて、具体的な例を挙げて説明する。
図9の(a)は、利用者による発言の一例である。この図においては、発言の言語解析結果が「あすははれですか(明日は晴れですか)?」であって、当該発言の一音一音の音高が同図のように音符で示される場合の例である。なお、発言の音高波形は、実際には、図8の(b)に示されるような波形となるが、ここでは、説明の便宜のために音高を音符で表現している。
この場合の例において、回答作成部110は、上述したように、当該発言に応じて取得した天気情報が晴れであれば、例えば「はい」の音声シーケンスを出力し、晴れ以外であれば、「いいえ」の音声シーケンスを出力する。
図9の(b)は、「はい」の音声シーケンスの一例であり、この例では、一音一音に音符を割り当てて、基本音声の各語(音素)の音高や発音タイミングを規定している。なお、この例では、説明簡略化のために、一音(音素)に音符を1つ割り当てているが、スラーやタイなどのように、一音に複数の音符を割り当てても良い。
この場合の例において、回答作成部110は、上述したように、当該発言に応じて取得した天気情報が晴れであれば、例えば「はい」の音声シーケンスを出力し、晴れ以外であれば、「いいえ」の音声シーケンスを出力する。
図9の(b)は、「はい」の音声シーケンスの一例であり、この例では、一音一音に音符を割り当てて、基本音声の各語(音素)の音高や発音タイミングを規定している。なお、この例では、説明簡略化のために、一音(音素)に音符を1つ割り当てているが、スラーやタイなどのように、一音に複数の音符を割り当てても良い。
音高ルールとして3度下が適用されるのであれば、回答作成部110による音声シーケンスは、音声制御部109によって次のように変更される。すなわち、(a)に示した発言のうち、符号Aで示される語尾の「か」の区間の音高が音高データによって「ミ」であると示される場合、音声制御部109は、「はい」という回答のうち、符号Bで示される語尾の「い」の区間の音高が「ミ」に対して3度下の音高である「ド」になるように、音声シーケンス全体の音高を変更する(図9の(c)参照)。
音高ルールとして5度下が適用されるのであれば、回答作成部110による音声シーケンスは、音声制御部109によって次のように変更される。すなわち、音声制御部109は、「はい」という回答のうち、符号Bで示される語尾の「い」の区間の音高が符号Aの「ミ」に対して5度下の音高である「ラ」になるように、音声シーケンス全体の音高を変更する(図9の(d)参照)。
音高ルールとして6度下が適用されるのであれば、音声制御部109は、符号Bで示される語尾の「い」の区間の音高が符号Aの「ミ」に対して6度下の音高である「ソ」になるように、音声シーケンス全体の音高を変更する(図9の(e)参照)。
音高ルールとして6度下が適用されるのであれば、音声制御部109は、符号Bで示される語尾の「い」の区間の音高が符号Aの「ミ」に対して6度下の音高である「ソ」になるように、音声シーケンス全体の音高を変更する(図9の(e)参照)。
特に図示しないが、音高ルールとして4度上が適用されるのであれば、音声制御部109は、符号Bで示される語尾の「い」の区間の音高が符号Aの「ミ」に対して4度上の音高である「ラ」になるように、音声シーケンス全体の音高を変更し、音高ルールとして8度下が適用されるのであれば、音声制御部109は、符号Bで示される語尾の「い」の区間の音高が符号Aの「ミ」に対して8度(1オクターブ)下の音高である「ミ」になるように、音声シーケンス全体の音高を変更する。
また、ここでは「はい」を例にとって説明したが、特に図示しないが「いいえ」の場合も同様に音声シーケンス全体の音高が変更される。また、「あすのてんきは?」という発言に対して、例えば「はれです」と具体的に内容を回答する場合も同様に音声シーケンス全体の音高が変更される。
本実施形態において、発言の語尾の音高に対して回答の語尾の音高が協和音程の関係となるように、当該回答が音声合成されるので、発言に対する回答が不自然であるような感じを利用者に与えない。
また、ルール固定期間において適用される音高ルールは、当該ルール固定期間の前の評価期間において最も対話が弾んだ音高ルールである。このため、ルール固定期間においても、対話が弾みやすく、端的にいえば利用者にとって発言しやすくなる。そして、この音高ルールは、評価期間となる毎に設定されるので、利用者にとって心地良い、安心させるような、かつ、対話が弾む条件に収束することになる。
また、ルール固定期間において適用される音高ルールは、当該ルール固定期間の前の評価期間において最も対話が弾んだ音高ルールである。このため、ルール固定期間においても、対話が弾みやすく、端的にいえば利用者にとって発言しやすくなる。そして、この音高ルールは、評価期間となる毎に設定されるので、利用者にとって心地良い、安心させるような、かつ、対話が弾む条件に収束することになる。
<第2実施形態>
上述した第1実施形態では、評価期間において複数の音高ルールを適用するとともに、そのうち、最も対話が弾んだ音高ルールを設定して、ルール固定期間において用いる構成としたが、対話を弾ませる要因は音高のほかにも「間」、すなわち発言から回答までの期間が挙げられる。
そこで、第2実施形態として、第1実施形態の音高ルールの設定による回答の音高制御に加えて、評価期間において複数の間で回答を出力させるとともに、そのうちの最も対話が弾んだ間に設定して、ルール固定期間において適用して回答の間を制御する例について説明する。
上述した第1実施形態では、評価期間において複数の音高ルールを適用するとともに、そのうち、最も対話が弾んだ音高ルールを設定して、ルール固定期間において用いる構成としたが、対話を弾ませる要因は音高のほかにも「間」、すなわち発言から回答までの期間が挙げられる。
そこで、第2実施形態として、第1実施形態の音高ルールの設定による回答の音高制御に加えて、評価期間において複数の間で回答を出力させるとともに、そのうちの最も対話が弾んだ間に設定して、ルール固定期間において適用して回答の間を制御する例について説明する。
この第2実施形態において上記アプリケーションプログラムの実行により構築される機能ブロックは、第1実施形態(図1)とほぼ同様である。
ただし、第2実施形態では、指標テーブルとしては、図4に示したような音高ルールを評価するためのテーブルに加えて、例えば図10に示されるような回答の出力ルールを評価するためのテーブルが用いられる。
ただし、第2実施形態では、指標テーブルとしては、図4に示したような音高ルールを評価するためのテーブルに加えて、例えば図10に示されるような回答の出力ルールを評価するためのテーブルが用いられる。
図10に示されるように、回答の出力ルールを評価するための指標テーブルでは、出力ルール毎に、発言回数と適用回数とが対応付けられている。なお、ここでいう出力ルールとは、回答を音声合成するにあたって、例えば発言の終了(語尾)から回答の開始(語頭)までの期間を規定するものであり、同図に示されるように、0.5秒、1.0秒、1.5秒、2.0秒、2.5秒というように段階的に規定されている。
なお、出力ルールの各々に対応付けられた発言回数と適用回数とは、第1実施形態と同様である。
なお、出力ルールの各々に対応付けられた発言回数と適用回数とは、第1実施形態と同様である。
第2実施形態の動作については、おおよそ第1実施形態における図6、図7の「音高ルール」を、「音高ルールおよび出力ルール」と読み替えた内容となる。
詳細には、図6のステップSa18において、現時点がルール固定期間であれば、音声制御部109は、当該ルール固定期間の前の評価期間において設定した音高ルールおよび出力ルールを適用して音声合成することを決定する。一方、ステップSa19において、現時点が評価期間であれば、音声制御部109は、3つの音高ルールのうち1つを選択するとともに、当該評価期間の1つ前の評価期間において設定した出力ルールと、指標テーブル(図10参照)において当該出力ルールを上下に挟む出力ルールの計3つのうち、いずれか1つを選択して、選択した音高ルールおよび出力ルールを適用する。ステップSa21において、音高データの供給を受けた音声制御部109は、回答の語尾の音高が当該音高データで示される音高に対して、適用する音高ルールで定められる関係となるように、かつ、発言の語尾から回答が出力開始されるまでの期間が適用する出力ルールで定められる期間となるように、音声合成部112に指示する。
詳細には、図6のステップSa18において、現時点がルール固定期間であれば、音声制御部109は、当該ルール固定期間の前の評価期間において設定した音高ルールおよび出力ルールを適用して音声合成することを決定する。一方、ステップSa19において、現時点が評価期間であれば、音声制御部109は、3つの音高ルールのうち1つを選択するとともに、当該評価期間の1つ前の評価期間において設定した出力ルールと、指標テーブル(図10参照)において当該出力ルールを上下に挟む出力ルールの計3つのうち、いずれか1つを選択して、選択した音高ルールおよび出力ルールを適用する。ステップSa21において、音高データの供給を受けた音声制御部109は、回答の語尾の音高が当該音高データで示される音高に対して、適用する音高ルールで定められる関係となるように、かつ、発言の語尾から回答が出力開始されるまでの期間が適用する出力ルールで定められる期間となるように、音声合成部112に指示する。
また、音声制御部109は、図7のステップSb14、Sb16において、2つの指標テーブルを更新するために、当該回答に適用した音高ルールと出力ルールとを特定し、ステップSb15において、当該回答に適用した音高ルールの両項目をそれぞれ「1」だけインクリメントし、当該回答に適用した出力ルールの両項目をそれぞれ「1」だけインクリメントする。ステップSb17において、当該回答に適用した音高ルールの適用回数のみを「1」だけインクリメントし、当該回答に適用した出力ルールの適用回数のみを「1」だけインクリメントする。
評価期間の終了タイミングであれば、音声制御部109は、ステップSb19において、評価期間において最も対話が弾んだケースに適用された音高ルールおよび出力ルールをそれぞれ設定し、この後、ステップSb20において、当該評価期間において評価した音高ルールおよび出力ルールの項目をクリアする。
評価期間の終了タイミングであれば、音声制御部109は、ステップSb19において、評価期間において最も対話が弾んだケースに適用された音高ルールおよび出力ルールをそれぞれ設定し、この後、ステップSb20において、当該評価期間において評価した音高ルールおよび出力ルールの項目をクリアする。
第2実施形態によれば、評価期間において最も対話が弾んだ音高ルールおよび出力ルールが当該評価期間後のルール固定期間に適用されるので、利用者にとって心地良い、好印象の回答が、発言しやすい間で返されることになる。
例えば、図11に示されるように、利用者Wが「あすのてんきは?」と発言した場合に、音声合成装置10が例えば「はれです」という回答を出力する場合に、当該発言の語尾である「は」から、当該回答の語頭である「は」までの期間Taが、当該利用者Wにとって対話が弾みやすい期間に設定される。なお、この場合に、特に図示しないが、回答の語尾である「す」の音高が、発言の語尾である「は」の音高に対して、対話が弾みやすい音高ルールの関係に設定される。
したがって、第2実施形態では、第1実施形態と同様に、発言の語尾の音高に対して回答の語尾の音高が協和音程の関係となるように当該回答が音声合成されるとともに、第1実施形態と比較して、当該回答が発言しやすい間で音声合成されるので、さらに、利用者との対話を弾みやすくすることができる。
例えば、図11に示されるように、利用者Wが「あすのてんきは?」と発言した場合に、音声合成装置10が例えば「はれです」という回答を出力する場合に、当該発言の語尾である「は」から、当該回答の語頭である「は」までの期間Taが、当該利用者Wにとって対話が弾みやすい期間に設定される。なお、この場合に、特に図示しないが、回答の語尾である「す」の音高が、発言の語尾である「は」の音高に対して、対話が弾みやすい音高ルールの関係に設定される。
したがって、第2実施形態では、第1実施形態と同様に、発言の語尾の音高に対して回答の語尾の音高が協和音程の関係となるように当該回答が音声合成されるとともに、第1実施形態と比較して、当該回答が発言しやすい間で音声合成されるので、さらに、利用者との対話を弾みやすくすることができる。
なお、第2実施形態では、第1実施形態における回答の音高制御に加えて、発言から回答までの間を制御する構成としたが、上記音高制御から切り離して、間を制御するだけの構成としても良い。間を制御する構成としては、第1実施形態における図6、図7の「音高ルール」を、「出力ルール」と読み替えた内容となるが、この内容については、当業者からすれば、上記第2実施形態の説明から十分に類推できるであろう。
<第3実施形態>
次に、第3実施形態について説明する。
第3実施形態の前提について簡単に説明すると、上述したように発言の語尾の音高に対して回答の語尾の音高が心地良い等と感じる音高の関係は、人それぞれである。特に女性と男性とでは、発言の音高が大きく異なることから(女性が高く、男性は低いので)、その感じ方に大きな違いがあると思われる。
また、近年では、音声合成の際に、性別や年齢などが定められた仮想的なキャラクタの声で出力できる場合がある。回答するキャラクタの声が変更されると、特に性別が変更されると、利用者は、それまで受けていた回答の印象が異なる、と思われる。
そこで、第3実施形態では、場面として、利用者の性別(女性、男性)と音声合成する声の性別との組み合わせを想定し、これらの場面毎に指標テーブルを用意して、利用者による発言時に対応した場面の指標テーブルを用いることにした。
次に、第3実施形態について説明する。
第3実施形態の前提について簡単に説明すると、上述したように発言の語尾の音高に対して回答の語尾の音高が心地良い等と感じる音高の関係は、人それぞれである。特に女性と男性とでは、発言の音高が大きく異なることから(女性が高く、男性は低いので)、その感じ方に大きな違いがあると思われる。
また、近年では、音声合成の際に、性別や年齢などが定められた仮想的なキャラクタの声で出力できる場合がある。回答するキャラクタの声が変更されると、特に性別が変更されると、利用者は、それまで受けていた回答の印象が異なる、と思われる。
そこで、第3実施形態では、場面として、利用者の性別(女性、男性)と音声合成する声の性別との組み合わせを想定し、これらの場面毎に指標テーブルを用意して、利用者による発言時に対応した場面の指標テーブルを用いることにした。
図12は、第3実施形態における指標テーブルの例を示す図であり、指標テーブルが、利用者の性別と、音声合成される声の性別との組み合わせに応じた分だけ用意される。具体的には、同図に示されるように、利用者の女性・男性の2通りと、回答する声(装置)の女性・男性の2通りとの計4通りの指標テーブルが管理用テーブル127に用意される。
音声制御部109は、この4通りのうち1つを次のように選択する。
音声制御部109は、この4通りのうち1つを次のように選択する。
詳細には、音声制御部109は、利用者の性別を、例えば音声合成装置10としての端末装置にログインした利用者の個人情報から特定する。あるいは、音声制御部109は、利用者の発言を音量解析や周波数解析などして、予め記憶しておいた男性・女性のパターンと比較等し、類似度の高い方のパターンの性別を当該利用者の性別として特定しても良い。また、音声制御部109は、回答の声の性別を、設定された情報(対話エージェントの性別情報)から特定する。このようにして、音声制御部109が、利用者の性別と回答の声の性別とを特定すると、当該特定した性別の組み合わせに対応した指標テーブルを選択する。
指標テーブルを選択した後については、第1実施形態と同様に、ルール固定期間と評価期間とが繰り返されることになる。
指標テーブルを選択した後については、第1実施形態と同様に、ルール固定期間と評価期間とが繰り返されることになる。
第3実施形態によれば、利用者による発言時に対応した場面の指標テーブルが用いられるとともに、ルール固定期間において発言の語尾の音高に対して回答の語尾の音高が当該指標テーブルに設定された音高ルールの関係になるように、当該回答の語尾の音高が制御されるとともに、評価期間において当該指標テーブルのうち、対話が弾んだ音高ルールが設定される。
このため、第3実施形態では、様々な場面に対応して、利用者に心地良く、対話を弾みやすくすることができる。
このため、第3実施形態では、様々な場面に対応して、利用者に心地良く、対話を弾みやすくすることができる。
第1実施形態においても、ルール固定期間と評価期間との繰り返しによって、場面が変わっても、利用者に心地良く、対話を弾みやすい条件に収束することになるが、それまでに要する時間(ルール固定期間と評価期間との繰り返し数)は長くかかることが予想される。これに対して、第3実施形態では、場面毎の初期状態として適切な音高ルールを設定しておければ、対話を弾みやすい条件に収束するまでの時間を短くすることができる。
なお、第3実施形態では、指標テーブルとして、第1実施形態の音高ルールを用いた例で説明したが、第2実施形態の出力ルールについても併用して場面に応じて切り替える構成としても良い。
また、場面については、性別のみならず、年齢(年代)を組み合わせても良い。場面としては、利用者や回答のキャラクタについての性別・年齢に限られず、発言の速度、回答の速度、音声合成装置10の用途、例えば施設(博物館、美術館、動物園など)における音声案内、自動販売機における音声対話などの用途を想定して用意しても良い。
また、場面については、性別のみならず、年齢(年代)を組み合わせても良い。場面としては、利用者や回答のキャラクタについての性別・年齢に限られず、発言の速度、回答の速度、音声合成装置10の用途、例えば施設(博物館、美術館、動物園など)における音声案内、自動販売機における音声対話などの用途を想定して用意しても良い。
<応用例、変形例>
本発明は、上述した実施形態に限定されるものではなく、例えば次に述べるような各種の応用・変形が可能である。また、次に述べる応用・変形の態様は、任意に選択された一または複数を適宜に組み合わせることもできる。
本発明は、上述した実施形態に限定されるものではなく、例えば次に述べるような各種の応用・変形が可能である。また、次に述べる応用・変形の態様は、任意に選択された一または複数を適宜に組み合わせることもできる。
<音声入力部>
実施形態では、音声入力部102は、利用者の音声(発言)をマイクロフォンで入力して音声信号に変換する構成としたが、特許請求の範囲に記載された音声入力部は、この構成に限られない。すなわち、特許請求の範囲に記載された音声入力部は、音声信号による発言をなんらかの形で入力する、または、入力される構成であれば良い。詳細には、特許請求の範囲に記載された音声入力部は、他の処理部で処理された音声信号や、他の装置から供給(または転送された)音声信号を入力する構成、さらには、LSIに内蔵され、単に音声信号を受信し後段に転送する入力インターフェース回路等を含んだ概念である。
実施形態では、音声入力部102は、利用者の音声(発言)をマイクロフォンで入力して音声信号に変換する構成としたが、特許請求の範囲に記載された音声入力部は、この構成に限られない。すなわち、特許請求の範囲に記載された音声入力部は、音声信号による発言をなんらかの形で入力する、または、入力される構成であれば良い。詳細には、特許請求の範囲に記載された音声入力部は、他の処理部で処理された音声信号や、他の装置から供給(または転送された)音声信号を入力する構成、さらには、LSIに内蔵され、単に音声信号を受信し後段に転送する入力インターフェース回路等を含んだ概念である。
<音声波形データ>
各実施形態では、回答作成部110が、発言に対する回答として、一音一音に音高が割り当てられた音声シーケンスを出力する構成としたが、当該回答を、例えばwav形式の音声波形データを出力する構成としても良い。
なお、音声波形データは、上述した音声シーケンスのように一音一音に音高が割り当てられないので、例えば、音声制御部109が、単純に再生した場合の語尾の音高を特定して、音高データで示される音高に対して、特定した音高が所定の関係となるようにフィルタ処理などの音高変換(ピッチ変換)をした上で、音声波形データを出力(再生)する構成とすれば良い。
また、カラオケ機器では周知である、話速を変えずに音高(ピッチ)をシフトする、いわゆるキーコントロール技術によって音高変換をしても良い。
各実施形態では、回答作成部110が、発言に対する回答として、一音一音に音高が割り当てられた音声シーケンスを出力する構成としたが、当該回答を、例えばwav形式の音声波形データを出力する構成としても良い。
なお、音声波形データは、上述した音声シーケンスのように一音一音に音高が割り当てられないので、例えば、音声制御部109が、単純に再生した場合の語尾の音高を特定して、音高データで示される音高に対して、特定した音高が所定の関係となるようにフィルタ処理などの音高変換(ピッチ変換)をした上で、音声波形データを出力(再生)する構成とすれば良い。
また、カラオケ機器では周知である、話速を変えずに音高(ピッチ)をシフトする、いわゆるキーコントロール技術によって音高変換をしても良い。
<回答等の語尾、語頭>
各実施形態では、発言の語尾の音高に対応して回答の語尾の音高を制御する構成としたが、言語や、方言、言い回しなどによっては回答の語尾以外の部分、例えば語頭が特徴的となる場合もある。このような場合には、発言した人は、当該発言に対する回答があったときに、当該発言の語尾の音高と、当該回答の特徴的な語頭の音高とを無意識のうち比較して当該回答に対する印象を判断する。したがって、この場合には、発言の語尾の音高に対応して回答の語頭の音高を制御する構成とすれば良い。この構成によれば、回答の語頭が特徴的である場合、当該回答を受け取る利用者に対して心理的な印象を与えることが可能となる。
各実施形態では、発言の語尾の音高に対応して回答の語尾の音高を制御する構成としたが、言語や、方言、言い回しなどによっては回答の語尾以外の部分、例えば語頭が特徴的となる場合もある。このような場合には、発言した人は、当該発言に対する回答があったときに、当該発言の語尾の音高と、当該回答の特徴的な語頭の音高とを無意識のうち比較して当該回答に対する印象を判断する。したがって、この場合には、発言の語尾の音高に対応して回答の語頭の音高を制御する構成とすれば良い。この構成によれば、回答の語頭が特徴的である場合、当該回答を受け取る利用者に対して心理的な印象を与えることが可能となる。
発言についても同様であり、語尾に限られず、語頭で判断される場合も考えられる。また、発言、回答については、語頭、語尾に限られず、平均的な音高で判断される場合や、最も強く発音した部分の音高で判断される場合なども考えられる。このため、発言の第1区間および回答の第2区間は、必ずしも語頭や語尾に限られない、ということができる。
<音程の関係>
上述した各実施形態では、音高ルールを、4度上、3度下、5度下、6度下、8度下を例示したが、これ以外を用いても良い。また、協和音程の関係でなくても、経験的に良い(または悪い)印象を与える音程の関係の存在が認められる場合もあるので、当該音程の関係に回答の音高を制御する構成としても良い。ただし、この場合においても、発言の語尾等の音高と回答の語尾等の音高との2音間の音程が離れ過ぎると、発言に対する回答が不自然になりやすいので、発言の音高と回答の音高とが上下1オクターブの範囲内にあることが望ましい。
上述した各実施形態では、音高ルールを、4度上、3度下、5度下、6度下、8度下を例示したが、これ以外を用いても良い。また、協和音程の関係でなくても、経験的に良い(または悪い)印象を与える音程の関係の存在が認められる場合もあるので、当該音程の関係に回答の音高を制御する構成としても良い。ただし、この場合においても、発言の語尾等の音高と回答の語尾等の音高との2音間の音程が離れ過ぎると、発言に対する回答が不自然になりやすいので、発言の音高と回答の音高とが上下1オクターブの範囲内にあることが望ましい。
<その他>
実施形態にあっては、発言に対する回答を取得する構成である言語解析部108、言語データベース122および回答データベース124を音声合成装置10の側に設けたが、端末装置などでは、処理の負荷が重くなる点や、記憶容量に制限がある点などを考慮して、外部サーバの側に設ける構成としても良い。すなわち、音声合成装置10において回答作成部110は、発言に対する回答をなんらかの形で取得するとともに、当該回答の音声を規定するデータを出力する構成であれば足り、その回答を、音声合成装置10の側で作成するのか、音声合成装置10以外の他の構成(例えば外部サーバ)の側で作成するのか、については問われない。
なお、音声合成装置10において、発言に対する回答について、外部サーバ等にアクセスしないで作成可能な用途であれば、情報取得部126は不要である。
実施形態にあっては、発言に対する回答を取得する構成である言語解析部108、言語データベース122および回答データベース124を音声合成装置10の側に設けたが、端末装置などでは、処理の負荷が重くなる点や、記憶容量に制限がある点などを考慮して、外部サーバの側に設ける構成としても良い。すなわち、音声合成装置10において回答作成部110は、発言に対する回答をなんらかの形で取得するとともに、当該回答の音声を規定するデータを出力する構成であれば足り、その回答を、音声合成装置10の側で作成するのか、音声合成装置10以外の他の構成(例えば外部サーバ)の側で作成するのか、については問われない。
なお、音声合成装置10において、発言に対する回答について、外部サーバ等にアクセスしないで作成可能な用途であれば、情報取得部126は不要である。
102…音声入力部、104…発話区間検出部、106…音高解析部、108…言語解析部、109…音声制御部、110…回答作成部、112…音声合成部、126…情報取得部。
Claims (4)
- 音声信号による発言を入力する音声入力部と、
前記発言に対する回答を取得する取得部と、
前記発言の音声信号を入力してから、前記回答の音声信号を出力するまでの間を、予め設定された複数の出力ルールのうちの1つの出力ルールで定められた関係にある間に変更させ、
前記複数の出力ルールのうち、前記回答に対して発言がなされた割合が所定期間内で所定条件を満たす1つの出力ルールを設定する音声制御部と、
を具備することを特徴とする音声制御装置。 - 前記出力ルールは、予め用意された複数の場面のうち、いずれかに応じて設定される
ことを特徴とする請求項1に記載の音声制御装置。 - コンピュータが、
入力された音声信号による発言に対する回答を取得し、
前記発言の音声信号を入力してから、前記回答の音声信号を出力するまでの間を、予め設定された複数の出力ルールのうちの1つの出力ルールで定められた関係にある間に変更し、
前記複数の出力ルールのうち、前記回答に対して発言がなされた割合が所定期間内で所定条件を満たす1つの出力ルールを設定する
ことを特徴とする音声制御方法。 - コンピュータを、
音声信号による発言を入力する音声入力部、
前記発言に対する回答を取得する取得部、および、
前記発言の音声信号を入力してから、前記回答の音声信号を出力するまでの間を、予め設定された複数の出力ルールのうちの1つの出力ルールで定められた関係にある間に変更させ、
前記複数の出力ルールのうち、前記回答に対して発言がなされた割合が所定期間内で所定条件を満たす1つの出力ルールを設定する音声制御部、
として機能させることを特徴とするプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018096720A JP6536713B2 (ja) | 2018-05-21 | 2018-05-21 | 音声制御装置、音声制御方法およびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018096720A JP6536713B2 (ja) | 2018-05-21 | 2018-05-21 | 音声制御装置、音声制御方法およびプログラム |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013205261A Division JP6343896B2 (ja) | 2013-05-31 | 2013-09-30 | 音声制御装置、音声制御方法およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018151661A JP2018151661A (ja) | 2018-09-27 |
JP6536713B2 true JP6536713B2 (ja) | 2019-07-03 |
Family
ID=63681634
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018096720A Expired - Fee Related JP6536713B2 (ja) | 2018-05-21 | 2018-05-21 | 音声制御装置、音声制御方法およびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6536713B2 (ja) |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3514372B2 (ja) * | 1999-06-04 | 2004-03-31 | 日本電気株式会社 | マルチモーダル対話装置 |
JP5195405B2 (ja) * | 2008-12-25 | 2013-05-08 | トヨタ自動車株式会社 | 応答生成装置及びプログラム |
-
2018
- 2018-05-21 JP JP2018096720A patent/JP6536713B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2018151661A (ja) | 2018-09-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3399521B1 (en) | Technology for responding to remarks using speech synthesis | |
WO2016063879A1 (ja) | 音声合成装置および方法 | |
JPH05333900A (ja) | 音声合成方法および装置 | |
CN107004428B (zh) | 会话评价装置和方法 | |
JP2019045867A (ja) | 音声制御方法、音声制御装置およびプログラム | |
JP2006227589A (ja) | 音声合成装置および音声合成方法 | |
JP6013104B2 (ja) | 音声合成方法、装置、及びプログラム | |
JP2011186143A (ja) | ユーザ挙動を学習する音声合成装置、音声合成方法およびそのためのプログラム | |
JP4005360B2 (ja) | 合成すべき音声応答の基本周波数の時間特性を定めるための方法 | |
JP6343895B2 (ja) | 音声制御装置、音声制御方法およびプログラム | |
JP6536713B2 (ja) | 音声制御装置、音声制御方法およびプログラム | |
JP6424419B2 (ja) | 音声制御装置、音声制御方法およびプログラム | |
JP6375604B2 (ja) | 音声制御装置、音声制御方法およびプログラム | |
JP2001242882A (ja) | 音声合成方法及び音声合成装置 | |
JP6566076B2 (ja) | 音声合成方法およびプログラム | |
EP1271469A1 (en) | Method for generating personality patterns and for synthesizing speech | |
JP6648786B2 (ja) | 音声制御装置、音声制御方法およびプログラム | |
JPH08335096A (ja) | テキスト音声合成装置 | |
JP6343896B2 (ja) | 音声制御装置、音声制御方法およびプログラム | |
JP6232892B2 (ja) | 音声合成装置およびプログラム | |
JPH07140996A (ja) | 音声規則合成装置 | |
JP3575919B2 (ja) | テキスト音声変換装置 | |
JP3883780B2 (ja) | 音声合成装置 | |
KR19980065482A (ko) | 스피킹 스타일을 변경하는 음성 합성 방법 | |
JPH1195797A (ja) | 音声合成装置及び方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20190419 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190507 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190520 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 6536713 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |
|
LAPS | Cancellation because of no payment of annual fees |