JP6232892B2 - 音声合成装置およびプログラム - Google Patents
音声合成装置およびプログラム Download PDFInfo
- Publication number
- JP6232892B2 JP6232892B2 JP2013205260A JP2013205260A JP6232892B2 JP 6232892 B2 JP6232892 B2 JP 6232892B2 JP 2013205260 A JP2013205260 A JP 2013205260A JP 2013205260 A JP2013205260 A JP 2013205260A JP 6232892 B2 JP6232892 B2 JP 6232892B2
- Authority
- JP
- Japan
- Prior art keywords
- pitch
- answer
- speech
- voice
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
また、利用者が入力した音声を認識する一方で、シナリオで指定された内容を音声合成で出力して、利用者との音声対話を実現する音声対話システムも提案されている(例えば特許文献3参照)。
本発明は、このような事情に鑑みてなされたものであり、その目的の一つは、利用者の発言に対する回答に、当該利用者に自然な感じを与えるとともに、当該利用者に対話することに一種の喜びのような感じを与えるような音声合成装置およびプログラムを提供することにある。
図に示されるように、人の音声を周波数解析して得られるスペクトルは、時間的に移動する複数のピーク、すなわちフォルマントとして現れる。詳細には、「そうでしょ?」に相当するフォルマント、および、「あ、はい」に相当するフォルマントは、それぞれ3つのピーク帯(時間軸に沿って移動する白い帯状の部分)として現れている。
これらの3つのピーク帯のうち、周波数の最も低い第1フォルマントについて着目してみると、「そうでしょ?」の「しょ」に相当する符号A(の中心部分)の周波数はおおよそ400Hzである。一方、符号Bは、「あ、はい」の「い」に相当する符号Bの周波数はおおよそ260Hzである。このため、符号Aの周波数は、符号Bの周波数に対して、ほぼ3/2となっていることが判る。
このため、対話システムにおいては、利用者の話者属性とエージェントの属性との組み合わせが多岐にわたることを考慮しなければならない。
具体的には、例えば発言者が女性であり、回答者が男性である場合、当該女性による発言の語尾の音高に対し、当該男性が、当該発言に対する回答の語尾等の音高が所定の関係となるように回答しようとしても、当該回答の語尾等の音高が男性にとっては高過ぎて、却って不自然になる。逆に、発言者が男性であり、回答者が女性である場合、当該男性による発言の語尾の音高に対し、当該女性が、当該発言に対する回答の語尾等の音高が所定の関係となるように回答しようとしても、当該回答の語尾等の音高が女性にとっては低すぎることになる。
そこで、利用者による発言に対する回答を音声合成する際に、上記目的を達成するために、次のような構成とした。
この一態様によれば、回答における特定の第2区間の音高が、発言のうち特定の第1区間の音高に対して所定の関係にある音高となるように変更される規則で音声合成が制御される。さらに、発言者の話者属性、または、エージェント属性の少なくとも一方にしたがって規則が修正される。このため、利用者の発言に対する回答に、当該利用者に自然な感じを与えるとともに、当該利用者に対話することに一種の喜びを与えることが可能になる。
発言者の話者属性とは、例えば、当該発言者の性別である。性別には、男性、女性のほか、中性を含む。また、話者属性としては、性別のほかに、年齢や、年代、子供・大人・老人の年代別を含んでもよい。この話者属性は、音声合成装置に対して予め設定しても良いし、音声合成装置の側で求めても良い。
また、エージェント属性とは、音声合成する際のモデルの属性であって、上記話者属性と同様に、性別や年齢(年代)である。このエージェント属性は、例えば音声合成装置に予め設定される。
また、前記所定の関係は、完全1度を除いた協和音程の関係であることが好ましい。ここで、協和とは、複数の楽音が同時に発生したときに、それらが互いに溶け合って良く調和する関係をいい、これらの音程関係を協和音程という。協和の程度は、2音間の周波数比(振動数比)が単純なものほど高い。周波数比が最も単純な1/1(完全1度)と、2/1(完全8度)とを、特に絶対協和音程といい、これに3/2(完全5度)と4/3(完全4度)とを加えて完全協和音程という。5/4(長3度)、6/5(短3度)、5/3(長6度)および8/5(短6度)を不完全協和音程といい、これ以外のすべての周波数比の関係(長・短の2度と7度、各種の増・減音程など)を不協和音程という。
上記態様において、所定の関係として最も望ましい例は、上述したように第2区間の音高が、第1区間の音高に対して5度下の協和音程の関係である、と考えられる。ただし、所定の関係としては、完全1度を除く協和音程に限られず、不協和音程の関係でも良いし、同一を除く、上下1オクターブの範囲内の音高関係でも良い。
また、回答には、質問に対する具体的な答えに限られず、「なるほど」、「そうですね」などの相槌(間投詞)も含まれる。
なお、相槌の出力の制御態様としては、相槌の出力タイミングを制御するほか、相槌の繰り返し出力(連呼)する制御、相槌を出力しない(黙る)制御も含む。
なお、本発明では、発言の音高(周波数)を解析対象とし、回答の音高を制御対象としているが、ヒトの音声は、上述したフォルマントの例でも明らかなように、ある程度の周波数域を有するので、解析や制御についても、ある程度の周波数範囲を持ってしまうのは避けられない。また、解析や制御については、当然のことながら誤差が発生する。このため、本件において、音高の解析や制御については、音高(周波数)の数値が同一であることのみならず、ある程度の範囲を伴うことが許容される。
<音声合成装置>
この図において、音声合成装置10は、CPU(Central Processing Unit)や、音声入力部102、スピーカ142を有する、例えば携帯電話機のような端末装置である。音声合成装置10においてCPUが、予めインストールされたアプリケーションプログラムを実行することによって、複数の機能ブロックが次のように構築される。
詳細には、音声合成装置10では、発話区間検出部104、音高解析部106、言語解析部108、音声制御部109、回答作成部(取得部)110、音声合成部112、言語データベース122、回答データベース124、情報取得部126および音声ライブラリ128が構築される。
なお、特に図示しないが、このほかにも音声合成装置10は、表示部や操作入力部なども有し、利用者が装置の状況を確認したり、装置に対して各種の操作を入力したりすることができるようになっている。また、音声合成装置10は、携帯電話機のような端末装置10に限られず、ノート型やタブレット型のパーソナルコンピュータであっても良い。
発話区間検出部104は、デジタル信号に変換された音声信号を処理して発話(有音)区間を検出する。
ここで、第1区間とは、例えば発言の語尾である。また、ここでいう音高とは、例えば音声信号を周波数解析して得られる複数のフォルマントのうち、周波数の最も低い成分である第1フォルマント、図2でいえば、末端が符号Aとなっているピーク帯で示される周波数(音高)をいう。周波数解析については、FFT(Fast Fourier Transform)や、その他公知の方法を用いることができる。発言における語尾を特定するための具体的手法の一例については後述する。
なお、本実施形態において、回答作成部110が作成する回答には、
(1)発言に対する肯定または否定等の意を示す回答、
(2)発言に対する具体的内容の回答、
(3)発言に対する相槌としての回答、
が想定されている。(1)の回答の例としては「はい」、「いいえ」などが挙げられ、(2)としては、例えば「あすのてんきは?(明日の天気は?)」という発言に対して「はれです」と具体的に内容を回答する例などが挙げられる。(3)としては、「そうですね」、「えーと」などが挙げられ、発言が、(1)のように「はい」、「いいえ」の回答で済む発言、および、(2)のように具体的な内容を回答する必要がある発言以外の場合において作成(取得)される。
一方で、例えば「あすははれですか(明日は晴れですか)?」という発言に対しては、外部サーバにアクセスして天気情報を取得しないと、音声合成装置10の単体で回答することができない。このように、音声合成装置10のみでは回答できない場合、情報取得部126は、インターネットを介し外部サーバにアクセスし、回答の作成に必要な情報を取得して、回答作成部110に供給する。これにより、当該回答作成部110は、当該発言が正しいか否かを判別して回答を作成することができる。
(2)の回答については、例えば「いまなんじ?(今、何時?)」という発言に対しては、回答作成部110は、上記時刻情報を取得するとともに、時刻情報以外の情報を回答データベース124から取得することで、「ただいま○○時○○分です」という回答を作成することが可能である。一方で、「あすのてんきは?(明日の天気は?)」という発言に対しては、情報取得部126が、外部サーバにアクセスして、回答に必要な情報を取得するとともに、回答作成部110が、発言に対して例えば「はれです」という回答を、回答データベース124および取得した情報を基に作成する構成となっている。
なお、(1)、(3)の回答については、例えば回答に対応する音声シーケンスを回答データベース124に格納しておく一方で、判別結果に対応した音声シーケンスを回答データベース124から読み出す構成にしても良い。詳細には、回答作成部110は、(1)の回答にあっては、判別結果に応じた例えば「はい」、「いいえ」などの音声シーケンスを読み出せば良いし、(3)の回答にあっては、発言の解析結果および回答作成部110での判別結果に応じて「そうですね」、「えーと」などの音声シーケンスを読み出せば良い。
なお、回答作成部110で作成・取得された音声シーケンスは、音声制御部109と音声合成部112とにそれぞれ供給される。
そこで、本実施形態において音声制御部109は、音声シーケンス全体の音高を、次のように規則を適用して変更させる。すなわち、音声制御部109は、回答作成部110からの音声シーケンスのうち、特定の区間(第2区間)の音高を、音高データに対して所定の関係の音高に変更させる規則(デフォルトルール)とする。ただし、この規則を貫くと、音声合成される回答が却って不自然になる場合があるので、話者属性およびエージェント属性に応じて、上記デフォルトルールを適宜修正する。
なお、音声合成された音声信号は、図示省略したD/A変換部によってアナログ信号に変換された後、スピーカ142によって音響変換されて出力される。
図4は、音声合成装置10における音声合成処理を示すフローチャートである。
はじめに、利用者が所定の操作をしたとき、例えば対話処理に対応したアイコンなどをメインメニュー画面(図示省略)において選択する操作をしたとき、CPUが当該処理に対応したアプリケーションプログラムを起動する。このアプリケーションプログラムを実行することによって、CPUは、図1で示した機能ブロックを構築する。
回答作成部110は、発言の言語解析結果に対応した回答を、回答データベース124を用いたり、必要に応じて情報取得部126を介し外部サーバから取得したりして、作成する(ステップSa14)。そして、回答作成部110は、上述したように当該回答に基づく音声シーケンスを作成し、音声合成部112に供給する(ステップSa15)。
また、利用者による発言の言語解析結果が「あすのてんきは(明日の天気は)?」であれば、回答作成部110は、外部サーバから取得した天気情報にしたがって例えば「はれです」、「くもりです」などのような音声シーケンスを出力する。
一方、利用者による発言の言語解析結果が「あすははれかぁ」という意味であれば、それは独り言(または、つぶやき)なので、回答作成部110が、例えば「そうですね」のような相槌の音声シーケンスを、回答データベース124から読み出して出力する。
音声制御部109は、回答作成部110から供給された音声シーケンスから、当該音声シーケンスにおける語尾の音高(初期音高)を特定する(ステップSa16)。
第1に、音高解析部106は、発話区間として検出された発言の音声信号を、音量と音高(ピッチ)とに分けて波形化する。図6の(a)は、音声信号についての音量を縦軸で、経過時間を横軸で表した音量波形の一例であり、(b)は、同じ音声信号について周波数解析して得られる第1フォルマントの音高を縦軸で、経過時間を横軸で表した音高波形である。なお、(a)の音量波形と(b)の音高波形との時間軸は共通である。
第2に、音高解析部106は、(a)の音量波形のうち、時間的に最後の極大P1のタイミングを特定する。
第3に、音高解析部106は、特定した極大P1のタイミングを前後に含む所定の時間範囲(例えば100μ秒〜300μ秒)を語尾であると認定する。
第4に、音高解析部106は、(b)の音高波形のうち、認定した語尾に相当する区間Q1の平均音高を、音高データとして出力する。
このように、発話区間における音量波形について最後の極大P1を、発言の語尾に相当するタイミングとして特定することによって、会話としての発言の語尾の誤検出を少なくすることができる、と考えられる。
ここでは、(a)の音量波形のうち、時間的に最後の極大P1のタイミングを前後に含む所定の時間範囲を語尾であると認定したが、極大P1のタイミングを始期または終期とする所定の時間範囲を語尾と認定しても良い。また、認定した語尾に相当する区間Q1の平均音高ではなく、区間Q1の始期、終期や、極大P1のタイミングの音高を、音高データとして出力する構成としても良い。
図5は、この規則修正処理の詳細を示すフローチャートである。まず、音声制御部109は、話者属性を示すデータと、エージェント属性を示すデータとを取得する(ステップSb11)。
話者属性が女性であれば(ステップSb12の判別結果が「Yes」であれば)、音声制御部109は、回答の語尾の音高を、音高データで示される音高に対して5度下の音高ではなく、例えば1ランク下の協和音程の関係にある6度下の音高とするように、デフォルトルールを修正する。これにより、回答の語尾の音高が、デフォルトルールで定められていた音高よりも下げられる(ステップSb13)。
なお、ここでいうランクとは、音楽的な意味ではなく、あくまでも便宜的なものであり、音高データで示される音高に対して5度下の音高を基準にして、ランクを1つ下げたときでは6度(長6度)下の音高をいい、さらに1つ下げたときでは8度下の音高をいう。また、5度下の音高を基準にして、ランクを1つ上げたときでは3度(長3度)下の音高をいい、さらに1つ上げたときでは4度上の音高をいう。
一方、利用者の話者属性が女性でなければ(ステップSb12の判別結果が「No」であれば)、音声制御部109は、当該話者属性が男性であるか否かを判別する(ステップSb14)。
話者属性が男性であれば(ステップSb14の判別結果が「Yes」であれば)、音声制御部109は、回答の語尾の音高を、音高データで示される音高に対して、3度下の音高とするように、デフォルトルールを修正する。これにより、回答の語尾の音高が、デフォルトルールで定められていた音高よりも上げられる(ステップSb15)。
なお、話者属性が中性である場合や、話者属性が未登録である場合(ステップSb14の判別結果が「No」である場合)、音声制御部109は、ステップSb13またはSb15の処理をスキップさせて、デフォルトルールを未修正とする。
例えば、音声制御部109は、ステップSb13において回答の語尾の音高を、音高データで示される音高に対して1ランク下の6度下の音高とするようにデフォルトルールを修正したのであれば、ステップSb17において、元の5度下の音高とするように、デフォルトルールに戻す。また、音声制御部109は、ステップSb15において回答の語尾の音高を、音高データで示される音高に対して1ランク上の3度下の音高とするようにデフォルトルールを修正したのであれば、ステップSb17において、さらに1ランク上の4度上の音高とするようにルールを再修正する。
なお、ステップSb13またはSb15の処理をスキップさせた場合であれば、音声制御部109は、ステップSb17において、回答の語尾の音高を、音高データで示される音高に対して、1ランク上の3度下の関係にある音高とするように、当該デフォルトルールを修正する。
例えば、音声制御部109は、ステップSb13において回答の語尾の音高を、音高データで示される音高に対して1ランク下の6度下の音高とするようにデフォルトルールを修正したのであれば、ステップSb19において、さらに1ランク下の8度下の音高とするようにルールを再修正する。また、音声制御部109は、ステップSb15において回答の語尾の音高を、音高データで示される音高に対して1ランク上の3度下の音高とするようにデフォルトルールを修正したのであれば、ステップSb19において、元の5度下の音高とするように、デフォルトルールに戻す。なお、ステップSb13またはSb15の処理をスキップさせた場合であれば、音声制御部109は、ステップSb19において、回答の語尾の音高を、音高データで示される音高に対して、1ランク下の6度下の関係にある音高とするように、当該デフォルトルールを修正する。
音声制御部109は、決定した内容で音声合成部112による音声合成を制御する(ステップSa20)。これにより、音声合成部112は、音声制御部109によって変更が決定された音声シーケンスの音声を、決定された音高で合成して出力する。
なお、回答の音声が出力されると、特に図示しないが、CPUは、当該アプリケーションプログラムの実行を終了させて、メニュー画面に戻す。
この場合の例において、回答作成部110は、上述したように、当該発言に応じて取得した天気情報が晴れであれば、例えば「はい」の音声シーケンスを出力し、晴れ以外であれば、「いいえ」の音声シーケンスを出力する。
図7の(a)は、「はい」の音声シーケンスの一例であり、この例では、一音一音に音符を割り当てて、基本音声の各語(音素)の音高や発音タイミングを規定している。なお、この例では、説明簡略化のために、一音(音素)に音符を1つ割り当てているが、スラーやタイなどのように、一音に複数の音符を割り当てても良い。
なお、本実施形態において、デフォルトルールが適用される場合として、図5において、第1に、ステップSb12、Sb14、Sb16、Sb18の判別結果がいずれも「No」である場合と、第2に、ステップSb12の判別結果が「Yes」であって、ステップSb16の判別結果が「Yes」である場合と、第3に、ステップSb12の判別結果が「No」、ステップSb14の判別結果が「Yes」であって、ステップSb16の判別結果が「No」、ステップSb18の判別結果が「Yes」である場合と、の3通りがある。
なお、本実施形態において、6度下のルールが適用される場合として、第1に、ステップSb12の判別結果が「Yes」であって、ステップSb16、Sb18の判別結果が「No」である場合と、第2に、ステップSb12、Sb14の判別結果が「No」であって、ステップSb16の判別結果が「No」、ステップSb18の判別結果が「Yes」である場合と、の2通りがある。
なお、本実施形態において、8度下のルールが適用される場合として、ステップSb12の判別結果が「Yes」であって、ステップSb16の判別結果が「No」、ステップSb18の判別結果が「Yes」である場合の1通りがある。
なお、本実施形態において、3度下のルールが適用される場合として、第1に、ステップSb12の判別結果が「No」、ステップSb14の判別結果が「Yes」であって、ステップSb16、Sb18の判別結果が「No」である場合と、第2に、ステップSb12、Sb14の判別結果が「No」であって、ステップSb16の判別結果が「Yes」である場合との2通りがある。
なお、本実施形態において、4度上のルールが適用される場合には、ステップSb12の判別結果が「No」、ステップSb14の判別結果が「Yes」であって、ステップSb16の判別結果が「Yes」である場合の1通りがある。
本実施形態によれば、発言の語尾の音高に対して回答の語尾の音高が5度下の関係とするデフォルトルールにおいて、話者属性が女性であれば音高を1ランク下げ、話者属性が男性であれば音高を1ランク上げるように、回答が音声合成される。また、デフォルトルールにおいて、エージェント属性が女性であれば音高を1ランク上げ、エージェント属性が男性であれば音高を1ランク下げるように、回答が音声合成される。このように、話者属性、エージェント属性に合わせて回答の音高が変更されるので、利用者に一種の新鮮さ、喜びを与えることができる。
本発明は、上述した実施形態に限定されるものではなく、例えば次に述べるような各種の応用・変形が可能である。また、次に述べる応用・変形の態様は、任意に選択された一または複数を適宜に組み合わせることもできる。
実施形態では、音声入力部102は、利用者の音声(発言)をマイクロフォンで入力して音声信号に変換する構成としたが、特許請求の範囲に記載された音声入力部は、この構成に限られない。すなわち、特許請求の範囲に記載された音声入力部は、音声信号による発言をなんらかの形で入力する、または、入力される構成であれば良い。詳細には、特許請求の範囲に記載された音声入力部は、他の処理部で処理された音声信号や、他の装置から供給(または転送された)音声信号を入力する構成、さらには、LSIに内蔵され、単に音声信号を受信し後段に転送する入力インターフェース回路等を含んだ概念である。
実施形態では、回答作成部110が、発言に対する回答として、一音一音に音高が割り当てられた音声シーケンスを出力する構成としたが、当該回答を、例えばwav形式の音声波形データを出力する構成としても良い。
なお、音声波形データは、上述した音声シーケンスのように一音一音に音高が割り当てられないので、例えば、音声制御部109が、単純に再生した場合の語尾の音高を特定して、音高データで示される音高に対して、特定した音高が所定の関係となるようにフィルタ処理などの音高変換(ピッチ変換)をした上で、音声波形データを出力(再生)する構成とすれば良い。
また、カラオケ機器では周知である、話速を変えずに音高(ピッチ)をシフトする、いわゆるキーコントロール技術によって音高変換をしても良い。
実施形態では、発言の語尾の音高に対応して回答の語尾の音高を制御する構成としたが、言語や、方言、言い回しなどによっては回答の語尾以外の部分、例えば語頭が特徴的となる場合もある。このような場合には、発言した人は、当該発言に対する回答があったときに、当該発言の語尾の音高と、当該回答の特徴的な語頭の音高とを無意識のうち比較して当該回答に対する印象を判断する。したがって、この場合には、発言の語尾の音高に対応して回答の語頭の音高を制御する構成とすれば良い。この構成によれば、回答の語頭が特徴的である場合、当該回答を受け取る利用者に対して心理的な印象を与えることが可能となる。
実施形態では、話者属性として、音声合成装置10としての端末装置に登録された利用者の個人情報を用いたが、音声合成装置10の側で検出する構成としても良い。例えば利用者の発言を、音量解析や周波数解析などして、予め記憶しておいた各種の性別、年齢の組み合わせに対応したパターンと比較等し、類似度の高いパターンの属性を、話者属性として検出すれば良い。
なお、話者属性の検出ができなかった場合、図5におけるステップSb12、Sb14は「No」と判別される。
実施形態では、エージェント属性を性別としたが、性別・年齢などを組み合わせて3種以上としても良い。
ところで、人同士の対話を、発言者の性別という観点でみたとき、次のような傾向が見られる場合がある。例えば、女性であれば、対話において雰囲気や調和などを重視する傾向や、場を盛り上げるような傾向が見られる。具体的には、相槌を多用したり、相槌を連呼したり、発言から回答までの間を短くしたり、するなどの傾向が見られる。このため、利用者が女性であれば、発言に対する回答を音声合成で出力する音声合成装置10に対しても、そのような傾向を期待するはずである。そこで、音声制御部109は、話者属性が女性であれば、その旨を回答作成部110に通知して、当該回答作成部110が、発言に対する相槌としての(3)の回答の作成頻度を高くしたり、同じ相槌の音声シーケンスを繰り返し出力したりしても良い。また、音声制御部109は、音声合成部112に対して、利用者による発言の終了から回答を出力開始するまでの時間を、相対的に早めるように制御しても良い。
一方、男性であれば、対話において内容や、論理性、個性などを重視する傾向が見られる場合がある。具体的には、必要以上に相槌を用いず、状況によっては敢えて無回答としたり(黙ったり)、発言から回答までの間を長くしたり、するなどの傾向が見られる。
そこで、音声制御部109は、話者属性が男性であれば、その旨を回答作成部110に通知して、当該回答作成部110が、発言に対する相槌の作成頻度を低くするとともに、所定の確率で無回答としても良い。また、音声制御部109は、音声合成部112に対して、利用者による発言の終了から回答を出力開始するまでの時間を、相対的に遅くするように制御しても良い。
上述した実施形態では、デフォルトルールを、発言の語尾等に対して回答の語尾等の音高が5度下にする、という内容であったが、5度下以外の協和音程の関係に制御する構成であっても良い。例えば、上述したように完全8度、完全5度、完全4度、長・短3度、長・短6度であっても良い。
なお、協和音程の関係でなくても、経験的に良い(または悪い)印象を与える音程の関係の存在が認められる場合もあるので、当該音程の関係に回答の音高を制御する構成としても良い。ただし、この場合においても、発言の語尾等の音高と回答の語尾等の音高との2音間の音程が離れ過ぎると、発言に対する回答が不自然になりやすいので、発言の音高と回答の音高とが上下1オクターブの範囲内にあることが望ましい。
同様に、上記ステップSb15において、回答の語尾の音高を、デフォルトルールで定められていた音高よりも上げるときの条件として、話者属性が男性であることに対して、さらに、発言の語尾等の音高が第2閾値音高以下であることを加重しても良い(ステップSb15における※)。男性による発言の音高が低い場合に、音声合成による回答が不自然に低くなってしまうのを回避するためである。
実施形態にあっては、発言に対する回答を取得する構成である言語解析部108、言語データベース122および回答データベース124を音声合成装置10の側に設けたが、端末装置などでは、処理の負荷が重くなる点や、記憶容量に制限がある点などを考慮して、外部サーバの側に設ける構成としても良い。すなわち、音声合成装置10において回答作成部110は、発言に対する回答をなんらかの形で取得するとともに、当該回答の音声を規定するデータを出力する構成であれば足り、その回答を、音声合成装置10の側で作成するのか、音声合成装置10以外の他の構成(例えば外部サーバ)の側で作成するのか、については問われない。
なお、音声合成装置10において、発言に対する回答について、外部サーバ等にアクセスしないで作成可能な用途であれば、情報取得部126は不要である。
Claims (2)
- 発言者による発言を入力する音声入力部と、
前記発言のうち、特定の第1区間の音高を解析する音高解析部と、
前記発言に対する回答を取得する取得部と、
取得された回答を所定のエージェント属性で音声合成する音声合成部と、
前記音声合成部に対し、当該回答における特定の第2区間の音高が前記第1区間の音高に対して所定の関係にある音高となるように変更させる規則で音声合成を制御するとともに、前記発言者の話者属性、または、前記エージェント属性の少なくとも一方にしたがって前記規則を修正する音声制御部と、
を具備することを特徴とする音声合成装置。 - コンピュータを、
発言者による発言に対する回答を取得する取得部、
前記発言のうち、特定の第1区間の音高を解析する音高解析部、
取得された回答を所定のエージェント属性で音声合成する音声合成部、および、
前記音声合成部に対し、当該回答における特定の第2区間の音高が前記第1区間の音高に対して所定の関係にある音高となるように変更させる規則で音声合成を制御するとともに、前記発言者の話者属性、または、前記エージェント属性の少なくとも一方にしたがって前記規則を修正する音声制御部、
として機能させることを特徴とするプログラム。
Priority Applications (8)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013205260A JP6232892B2 (ja) | 2013-09-30 | 2013-09-30 | 音声合成装置およびプログラム |
US14/892,624 US9685152B2 (en) | 2013-05-31 | 2014-06-02 | Technology for responding to remarks using speech synthesis |
EP18178496.8A EP3399521B1 (en) | 2013-05-31 | 2014-06-02 | Technology for responding to remarks using speech synthesis |
PCT/JP2014/064631 WO2014192959A1 (ja) | 2013-05-31 | 2014-06-02 | 音声合成を用いて発言に応答する技術 |
CN201910272063.5A CN109887485A (zh) | 2013-05-31 | 2014-06-02 | 利用言语合成对话语进行响应的技术 |
EP14803435.8A EP3007165B1 (en) | 2013-05-31 | 2014-06-02 | Technology for responding to remarks using speech synthesis |
CN201480031099.XA CN105247609B (zh) | 2013-05-31 | 2014-06-02 | 利用言语合成对话语进行响应的方法及装置 |
US15/375,984 US10490181B2 (en) | 2013-05-31 | 2016-12-12 | Technology for responding to remarks using speech synthesis |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013205260A JP6232892B2 (ja) | 2013-09-30 | 2013-09-30 | 音声合成装置およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2015069138A JP2015069138A (ja) | 2015-04-13 |
JP6232892B2 true JP6232892B2 (ja) | 2017-11-22 |
Family
ID=52835816
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013205260A Expired - Fee Related JP6232892B2 (ja) | 2013-05-31 | 2013-09-30 | 音声合成装置およびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6232892B2 (ja) |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS62115199A (ja) * | 1985-11-14 | 1987-05-26 | 日本電気株式会社 | 音声応答装置 |
JPH0538700U (ja) * | 1991-04-11 | 1993-05-25 | 沖電気工業株式会社 | 音声応答装置 |
-
2013
- 2013-09-30 JP JP2013205260A patent/JP6232892B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2015069138A (ja) | 2015-04-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2014192959A1 (ja) | 音声合成を用いて発言に応答する技術 | |
JP6446993B2 (ja) | 音声制御装置およびプログラム | |
US20180130462A1 (en) | Voice interaction method and voice interaction device | |
JP6464703B2 (ja) | 会話評価装置およびプログラム | |
JP6648805B2 (ja) | 音声制御方法、音声制御装置およびプログラム | |
JP2011186143A (ja) | ユーザ挙動を学習する音声合成装置、音声合成方法およびそのためのプログラム | |
JP6343895B2 (ja) | 音声制御装置、音声制御方法およびプログラム | |
JP6375605B2 (ja) | 音声制御装置、音声制御方法およびプログラム | |
JP6566076B2 (ja) | 音声合成方法およびプログラム | |
JP6424419B2 (ja) | 音声制御装置、音声制御方法およびプログラム | |
JP6232892B2 (ja) | 音声合成装置およびプログラム | |
JP6375604B2 (ja) | 音声制御装置、音声制御方法およびプログラム | |
JP6648786B2 (ja) | 音声制御装置、音声制御方法およびプログラム | |
JP6343896B2 (ja) | 音声制御装置、音声制御方法およびプログラム | |
JP6536713B2 (ja) | 音声制御装置、音声制御方法およびプログラム | |
JP6289950B2 (ja) | 読み上げ装置、読み上げ方法及びプログラム | |
JP2018159778A (ja) | 音声再生制御装置、および音声再生制御プログラム | |
WO2018050212A1 (en) | Telecommunication terminal with voice conversion | |
JP2018159776A (ja) | 音声再生制御装置、およびプログラム | |
JP2014202777A (ja) | マスカー音信号の生成装置、生成方法およびプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20150410 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20160720 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20170926 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20171009 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 6232892 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |
|
LAPS | Cancellation because of no payment of annual fees |