JP6375604B2 - 音声制御装置、音声制御方法およびプログラム - Google Patents

音声制御装置、音声制御方法およびプログラム Download PDF

Info

Publication number
JP6375604B2
JP6375604B2 JP2013198218A JP2013198218A JP6375604B2 JP 6375604 B2 JP6375604 B2 JP 6375604B2 JP 2013198218 A JP2013198218 A JP 2013198218A JP 2013198218 A JP2013198218 A JP 2013198218A JP 6375604 B2 JP6375604 B2 JP 6375604B2
Authority
JP
Japan
Prior art keywords
pitch
answer
question
voice
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2013198218A
Other languages
English (en)
Other versions
JP2015064480A (ja
Inventor
松原 弘明
弘明 松原
純也 浦
純也 浦
川▲原▼ 毅彦
毅彦 川▲原▼
久湊 裕司
裕司 久湊
克二 吉村
克二 吉村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority to JP2013198218A priority Critical patent/JP6375604B2/ja
Application filed by Yamaha Corp filed Critical Yamaha Corp
Priority to US14/892,624 priority patent/US9685152B2/en
Priority to CN201480031099.XA priority patent/CN105247609B/zh
Priority to EP14803435.8A priority patent/EP3007165B1/en
Priority to CN201910272063.5A priority patent/CN109887485A/zh
Priority to PCT/JP2014/064631 priority patent/WO2014192959A1/ja
Priority to EP18178496.8A priority patent/EP3399521B1/en
Publication of JP2015064480A publication Critical patent/JP2015064480A/ja
Priority to US15/375,984 priority patent/US10490181B2/en
Application granted granted Critical
Publication of JP6375604B2 publication Critical patent/JP6375604B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • User Interface Of Digital Computer (AREA)
  • Toys (AREA)

Description

本発明は、音声制御装置、音声制御方法およびプログラムに関する。
近年、音声合成技術としては、次のようなものが提案されている。すなわち、利用者の話調や声質に対応して合成した音声で応答することによって、より人間らしく発音する技術(例えば特許文献1参照)や、利用者の音声を分析して、当該利用者の心理状態や健康状態などを診断する技術(例えば特許文献2参照)が提案されている。
また、利用者が入力した音声を認識する一方で、シナリオで指定された内容を音声合成で出力して、利用者との音声対話を実現する音声対話システムも提案されている(例えば特許文献3参照)。
特開2003−271194号公報 特許第4495907号公報 特許第4832097号公報
ところで、上述した音声合成技術と音声対話システムとを組み合わせて、利用者の音声による問いに対し、データを検索して音声合成により出力する対話システムを想定する。この場合、音声合成によって出力される音声が利用者に不自然な感じ、具体的にはいかにも機械が喋っているかのような感じを与えるという問題が指摘されている。
本発明は、このような事情に鑑みてなされたものであり、その目的の一つは、利用者に自然な感じを与えるような、具体的には、利用者に対して心理的に良い印象を与えるとともに、より人と対話しているかのような印象を利用者に与えることが可能な音声制御装置、音声制御方法およびプログラムを提供することにある。
利用者による問いに対する回答を音声合成で出力(返答)するマン・マシンのシステムを検討するにあたって、本件発明者は、まず、人同士では、どのように対話がなされるかについて、音高(周波数)に着目して考察した。
ここでは、人同士の対話として、一方の人(aとする)による問い(問い掛け)に対し、他方の人(bとする)が回答する場合について検討する。この場合において、aが問いを発したとき、aだけなく、当該問いに対して回答しようとするbも、当該問いのうちの、ある区間における音高を強い印象で残していることが多い。bは、同意や、賛同、肯定などの意で回答するときには、印象に残っている問いの音高に対し、当該回答を特徴付ける部分、例えば語尾や語頭の音高が、所定の関係となるように返答する。当該回答を聞いたaは、自己の問いについて印象に残っている音高と当該問いに対する回答を特徴付ける部分の音高とが上記関係にあるので、bの回答に対して心地良く、安心するような好印象を抱くことになる、と、本件の発明者は考えた。
例えば、aが「そうでしょ?」という問いを発したとき、aおよびbは、当該の問いのうち、例えば念押しや確認などの意が強く表れる語尾の「しょ」の音高を記憶に残した状態となる。この状態において、bが、当該問いに対して「あ、はい」と肯定的に回答しようとする場合に、印象に残っている「しょ」の音高に対して、回答を特徴付ける部分、例えば語尾の「い」の音高が上記関係になるように「あ、はい」と回答する。
図2は、このような実際の対話におけるフォルマントを示している。この図において、横軸が時間であり、縦軸が周波数であって、スペクトルは、白くなるにつれて強度が強い状態を示している。
図に示されるように、人の音声を周波数解析して得られるスペクトルは、時間的に移動する複数のピーク、すなわちフォルマントとして現れる。詳細には、「そうでしょ?」に相当するフォルマント、および、「あ、はい」に相当するフォルマントは、それぞれ3つのピーク帯(時間軸に沿って移動する白い帯状の部分)として現れている。
これらの3つのピーク帯のうち、周波数の最も低いものについて着目してみると、「そうでしょ?」の音「しょ」に相当する符号A(の中心部分)の周波数はおおよそ400Hzである。一方、符号Bは、「あ、はい」の音「い」に相当する符号Bの周波数はおおよそ260Hzである。このため、符号Aの周波数は、符号Bの周波数に対して、ほぼ3/2となっていることが判る。
周波数の比が3/2であるという関係は、音程でいえば、「ソ」に対して同じオクターブの「ド」や、「ミ」に対して1つ下のオクターブの「ラ」などでいい、後述するように、完全5度である。また、この周波数の比(音高同士における所定の関係)については、好適な一例であるが、後述するように様々な例が挙げられる。
なお、図3は、音名(階名)と人の声の周波数との関係について示す図である。この例では、第4オクターブの「ド」を基準にしたときの周波数比も併せて示しており、「ソ」は「ド」を基準にすると、上記のように3/2である。また、第3オクターブの「ラ」を基準にしたときの周波数比についても並列に例示している。
このように、人同士の対話において、問いの音高は、当該問いの印象を特徴付ける要素である。一方で、問いや回答の言語的な内容次第では、回答の仕方が異なる点も経験的に認められる。
例えば、問いに対して「Yes(はい)」と回答する場合、問いに対して比較的素早く応答するが、「No(いいえ)」と回答する場合には、例えば相手への印象を考慮して一呼吸を置いて応答する点などである。
したがって、利用者による問いに対する回答を音声合成で出力(返答)する対話システムを検討したときに、当該問いの音高のみならず、当該問いおよび回答の言語的な意味についても、回答を音声合成する上で重要な要素となり得る。
そこで、当該音声合成について上記目的を達成するために、次のような構成とした。
すなわち、上記目的を達成するために、本発明の一態様に係る音声合成装置は、音声信号による問いを入力する音声入力部と、問いのうち、特定の第1区間の音高を解析する音高解析部と、問いに対する回答を取得する取得部と、問いおよび回答の言語情報を解析する言語解析部と、取得された回答を音声合成する音声合成部と、音声合成部による音声合成を、当該回答における特定の第2区間の音高が第1区間の音高に対して所定の関係にある音高となるように変更させ、かつ、問いおよび回答の言語情報にしたがって制御する音声制御部と、を具備することを特徴とする。
この一態様では、回答における特定の第2区間の音高を、問いのうち特定の第1区間の音高に対して所定の関係にある音高となるように変更するので、音声合成される回答により、利用者に心地良く安心するような好印象を与えることができる。また、問いおよび回答の言語情報にしたがって音声合成が制御されるので、より人と対話しているかのような印象を利用者に与えることが可能になる。
この態様において、第1区間は、例えば問いの語尾であり、第2区間は、回答の語頭または語尾であることが好ましい。上述したように、問いの印象を特徴付ける区間は、当該問いの語尾であり、回答の印象を特徴付ける区間は、回答の語頭または語尾であることが多いからである。
また、所定の関係は、完全1度を除いた協和音程の関係であることが好ましい。ここで、協和とは、複数の楽音が同時に発生したときに、それらが互いに溶け合って良く調和する関係をいい、これらの音程関係を協和音程という。協和の程度は、2音間の周波数比(振動数比)が単純なものほど高い。周波数比が最も単純な1/1(完全1度)と、2/1(完全8度)とを、特に絶対協和音程といい、これに3/2(完全5度)と4/3(完全4度)とを加えて完全協和音程という。5/4(長3度)、6/5(短3度)、5/3(長6度)および8/5(短6度)を不完全協和音程といい、これ以外のすべての周波数比の関係(長・短の2度と7度、各種の増・減音程など)を不協和音程という。
なお、回答の語頭または語尾の音高を、問いの語尾の音高と同一となる場合には、対話として不自然な感じを伴うと考えられるので、上記協和音程の関係としては、完全1度が除かれている。
上記態様において、所定の関係として最も望ましい例は、上述したように第2区間の音高が、第1区間の音高に対して5度下の協和音程の関係である、と考えられる。ただし、所定の関係としては、完全1度を除く協和音程に限られず、不協和音程の関係でも良いし、同一を除く、上下1オクターブの範囲内の音高関係でも良い。
また、回答には、質問に対する具体的な答えに限られず、「なるほど」、「そうですね」などの相槌(間投詞)も含まれる。
また、人同士の対話において、例えば「はい」、「いいえ」の二択で回答を迫るような問いに対して「はい」と回答する場合の音高を比較的高くする一方で、「いいえ」と回答する場合の音高を比較的低くする点は、経験上よく見られる行為である。そこで、上記態様において、音声制御部は、問いに対する肯定の回答の音高については、否定の回答の音高よりも高くする構成としても良い。この構成によれば、利用者に対して、あたかも人同士と対話しているかのような雰囲気をつくりだすことが可能になる。
なお、肯定の回答には、「はい」以外にも、「そうそう」、「その通り」などの同意を含み、また、否定の回答には、「いいえ」以外にも、「あいにく」、「賛成しかねます」などの不同意を含む。
ところで、人同士の対話において問いに対して回答する場合、音高以外にも考慮される要素がある。この要素の1つに、問いが発せられてから回答が出力されるまでの間がある。例えば、上記のように二択で回答を迫るような問いに対して「いいえ」と回答する場合、慎重を期するために、一呼吸遅れるように間を取る点も、経験上よく見られる行為である。そこで、音声制御部は、問いが発せられてから肯定の回答を出力するまでの間を、否定の回答の間よりも短くするように音声合成部を制御しても良い。
人同士の対話において、二択ではなく、例えばWho(誰が)、What(何を)、When(いつ)、Where(どこで)、Why(なぜ)、How(どのようにして)のような5W1Hの問いに対しては、ゆっくりと時間をかけて具体的内容を回答する場合がある。一方で、音声合成装置においても、その具体的内容の回答を取得するのに時間を要する場合がある。
いずれの場合でも、問いから、具体的内容を回答するまでの間が空くと、問いを発した側(利用者)に一種の不安感を与えてしまうとともに、以降の会話が弾まない。
また、逆に回答までの間が詰まり過ぎると、意識的に被されているかのような感覚、または、人の話をまともに聞いていないのでは?、という感覚になり、不快感を与えてしまう。
そこで、上記態様において、問いの言語情報が所定の内容である場合に、音声合成部は、予め定められた内容の回答を音声合成し、音声制御部は、問いが発せられてから当該回答を出力するまでの間を、所定時間の範囲内となるように音声合成部を制御する構成としても良い。
この構成によれば、問いに対する具体的内容の回答の前に、予め定められた内容の回答が、所定時間の範囲内で音声合成されるので、利用者に対して不安感を与えないことができる。
なお、予め定められた内容の回答としては、例えば「うーん」や「そうですねぇ」などの間投詞が挙げられる。また、所定時間の範囲内としては、例えば0.5秒から2.0秒までの時間範囲が適切である、と考えられる。
本発明の態様について、音声合成装置のみならず、コンピュータを当該音声合成装置として機能させるプログラムとして概念することも可能である。
なお、本発明では、問いの音高(周波数)を解析対象とし、回答の音高を制御対象としているが、ヒトの音声は、上述したフォルマントの例でも明らかなように、ある程度の周波数域を有するので、解析や制御についても、ある程度の周波数範囲を持ってしまうのは避けられない。また、解析や制御については、当然のことながら誤差が発生する。このため、本件において、音高の解析や制御については、音高(周波数)の数値が同一であることのみならず、ある程度の範囲を伴うことが許容される。
実施形態に係る音声合成装置の構成を示すブロック図である。 対話における音声のフォルマントの例を示す図である。 音名と周波数等との関係を示す図である。 音声合成装置の動作を示すフローチャートである。 語尾の特定の具体例を示す図である。 音声シーケンスに対する音高シフトの例を示す図である。 音声シーケンスに対する音高シフトの例を示す図である。 音声シーケンスに対する音高シフトの例を示す図である。 回答の出力タイミングについて説明する図である。 回答の出力タイミングについて説明する図である。 応用例(その1)における処理の要部を示す図である。 応用例(その2)における処理の要部を示す図である。 応用例(その3)における処理の要部を示す図である。
以下、本発明の実施形態について図面を参照して説明する。
図1は、実施形態に係る音声合成装置10の構成を示す図である。この図において、音声合成装置10は、例えば音声入力部102とスピーカ142とを有する携帯電話のような端末装置であり、予めインストールされたアプリケーションプログラムをCPUが実行することによって、複数の機能ブロックが次のように構築される。詳細には、音声合成装置10では、発話区間検出部104、音高解析部106、言語解析部108、音声制御部109、回答作成部(取得部)110、音声合成部112、言語データベース122、回答データベース124、情報取得部126および音声ライブラリ128が構築される。
なお、特に図示しないが、このほかにも表示部や操作入力部なども構築されて、利用者が装置の状況を確認したり、装置に対して各種の操作を入力したりすることができるようになっている。また、音声合成装置10は、ノート型やタブレット型のパーソナルコンピュータでも良い。
音声入力部102は、詳細については特に図示しないが、音声を電気信号に変換するマイクロフォンと、変換された音声信号の高域成分をカットするLPF(ローパスフィルタ)と、高域成分がカットされた音声信号をデジタル信号に変換するA/D変換器とで構成される。
発話区間検出部104は、デジタル信号に変換された音声信号を処理して発話(有音)区間を検出する。詳細には、発話区間検出部104は、例えば当該音声信号のうち振幅が閾値以下の状態が所定期間以上連続する区間を無音区間とし、それ以外の区間を発話区間として検出する。
音高解析部106は、発話区間として検出された音声信号を周波数解析するとともに、解析して得られた第1フォルマントのうち、特定の区間(第1区間)の音高を求めて、当該音高を示す音高データを出力する。なお、第1区間とは、例えば問いの語尾である。また、第1フォルマントとは、例えば音声を周波数解析したときに得られる複数のフォルマントのうち、周波数の最も低い成分をいい、図2の例でいえば、末端が符号Aとなっているピーク帯をいう。周波数解析については、FFT(Fast Fourier Transform)や、その他公知の方法を用いることができる。問いにおける語尾を特定するための具体的手法の一例については後述する。
言語解析部108は、発話区間として検出された音声信号がどの音素に近いのかを、言語データベース122に予め作成された音素モデルを参照することにより判定して、音声信号で規定される言葉(問い)の意味を解析(特定)する。なお、このような音素モデルには、例えば隠れマルコフモデルを用いることができる。
また、言語解析部108は、音声信号による問いだけでなく、後述する回答作成部110による回答の意味を解析する。
言語解析部108は、問いの意味の解析結果を回答作成部110に供給する一方、当該回答作成部110から回答を受け取った場合には、当該回答の解析結果を音声制御部109に供給する。
回答作成部110は、言語解析部108によって解析された言葉の意味に対応する回答を、回答データベース124および情報取得部126を参照して作成する。
なお、本実施形態において、回答作成部110が作成する回答には、
(1)肯定等の意を示す回答、
(2)否定等の意を示す回答、
(3)問いに対する具体的な回答、
(4)当該具体的な回答に先立って発せられる交感的な回答(相槌を含む)、
が想定される。(1)の回答の例としては「Yes」、「はい」などが挙げられ、(2)の回答の例としては「No」、「いいえ」などが挙げられる。(3)としては、例えば「あすのてんきは?(明日の天気は?)」という問いに対して「はれです」と具体的に回答する例などが挙げられる。(4)としては、「はれです」という回答の前の「えーと」、「そうですねぇ」などが挙げられる。
(1)および(2)の回答については、例えば「いま3時頃?」という問いに対して、内蔵のリアルタイムクロック(図示省略)から時刻情報を取得すれば、回答作成部110が、当該問いに対して例えば「はい」または「いいえ」のうち、どちらで回答すれば良いのかを判別することができる。
一方で、例えば「あすははれ(明日は晴れ)?」という問いに対しては、外部サーバにアクセスして天気情報を取得しないと、音声合成装置10の単体で回答することができない。このように、音声合成装置10のみでは回答できない場合、情報取得部126は、インターネットを介し外部サーバにアクセスし、回答の作成に必要な情報を取得して、回答作成部110に供給すれば、当該回答作成部110は、当該問いが正しいか否かを判別して回答することができる。
(3)の回答については、例えば「いまなんじ?(今、何時?)」という問いに対しては、回答作成部110は、上記時刻情報を取得するとともに、時刻情報以外の情報を回答データベース124から取得することで、「ただいま○○時○○分です」という回答を作成することが可能である。一方で、「あすのてんきは?(明日の天気は?)」という問いに対しては、情報取得部126が、外部サーバにアクセスして、回答に必要な情報を取得するとともに、回答作成部110が、問いに対して例えば「はれです」という回答を、回答データベース124および外部サーバから作成する構成となっている。
なお、回答作成部110は、作成・取得した回答を言語解析部108に供給するとともに、当該回答から音声シーケンスを作成して出力する。この音声シーケンスは、音素列であって、各音素に対応する音高や発音タイミングを規定したものである。(1)、(2)、(4)については、例えば予め回答に対応する音声シーケンスを回答データベース124に格納しておく一方で、回答に応じた音声シーケンスを回答データベース124から読み出せば良い。詳細には、回答作成部110は、(1)、(2)の回答にあっては、判別結果に応じた例えば「はい」、「いいえ」などの音声シーケンスを読み出せば良いし、(4)にあっては、(3)の回答に対応した音声シーケンスを出力する前に、予め定められた「えーと」、「そうですねぇ」などのいずれかの音声シーケンスを読み出せば良い。当該音声シーケンスは、音声制御部109と音声合成部112とにそれぞれ供給される。
音声制御部109は、音高解析部106から供給された音高データと、言語解析部108から供給された回答の意味とに応じて、音声シーケンスに対する制御内容を決定する。なお、音声制御部109による制御内容については後述する。
音声合成部112は、音高や発音タイミングが規定された回答の音声シーケンスにしたがって音声を合成する。したがって、音声合成部112は、単純に音声シーケンスにしたがって音声を合成すれば、当該回答の基本音声を出力することができる。
ただし、本実施形態において音声合成部112は、音声シーケンスで規定される基本音声を、音声制御部109の制御内容にしたがって変更して音声合成する。
ここで、音声制御部109は、音声合成部112による音声合成を次のように制御する。すなわち、音声制御部109は、音声シーケンスのうち、特定の区間(第2区間)の音高を、音高データに対して所定の関係となるように音高を変更するとともに、音声シーケンスの発音タイミングを、言語解析部108による回答の解析結果の意味内容に応じて決定する。
なお、本実施形態では、第2区間を回答の語尾とするが、後述するように語尾に限られない。また、本実施形態では、音高データに対して所定の関係にある音高を、5度の下の関係にある音高とするが、後述するように、5度下以外の関係にある音高としても良い。
また、音声合成部112は、音声を合成するにあたって、音声ライブラリ128に登録された音声素片データを用いる。音声ライブラリ128は、単一の音素や音素から音素への遷移部分など、音声の素材となる各種の音声素片の波形を定義した音声素片データを、予めデータベース化したものである。音声合成部112は、具体的には、音声シーケンスの一音一音(音素)の音声素片データを組み合わせて、繋ぎ部分が連続するように修正しつつ、上記のように回答の音高を変更して音声信号を生成する。
なお、音声合成部112によって音声合成された音声信号は、図示省略したD/A変換部によってアナログ信号に変換された後、スピーカ142によって音響変換されて出力される。
次に、音声合成装置10の動作について説明する。
図4は、音声合成装置10における処理動作を示すフローチャートである。
はじめに、利用者が所定の操作をしたとき、例えば当該対話のための処理に対応したアイコンなどをメインメニュー画面(図示省略)において選択したとき、CPUが当該処理に対応したアプリケーションプログラムを起動する。このアプリケーションプログラムを実行することによって、CPUは、図1で示した機能ブロックを構築する。
まず、利用者によって、音声入力部102に対して音声で問いが入力される(ステップSa11)。発話区間検出部104は、当該音声の振幅を閾値と比較することにより発話区間を検出し、当該発話区間の音声信号を音高解析部106および言語解析部108のそれぞれに供給する(ステップSa12)。
音高解析部106は、検出された発話区間における問いの音声信号を解析し、当該問いにおける第1区間(語尾)の音高を特定して、当該音高を示す音高データを音声制御部109に供給する(ステップSa13)。ここで、音高解析部106における問いの語尾を特定する具体的手法の一例について説明する。
問いを発した人が、当該問い対する回答を欲するような対話を想定した場合、問いの語尾に相当する部分では、音量が他の部分として比較して一時的に大きくなる、と考えられる。そこで、音高解析部106による第1区間(語尾)の音高については、例えば次のようにして求めることできる。
第1に、音高解析部106は、発話区間として検出された問いの音声信号を、音量と音高(ピッチ)とに分けて波形化する。図5の(a)は、音声信号についての音量を縦軸で、経過時間を横軸で表した音量波形の一例であり、(b)は、同じ音声信号について周波数解析して得られる第1フォルマントの音高を縦軸で、経過時間を横軸で表した音高波形である。なお、(a)の音量波形と(b)の音高波形との時間軸は共通である。
第2に、音高解析部106は、(a)の音量波形のうち、時間的に最後の極大P1のタイミングを特定する。
第3に、音高解析部106は、特定した極大P1のタイミングを前後に含む所定の時間範囲(例えば100μ秒〜300μ秒)を語尾であると認定する。
第4に、音高解析部106は、(b)の音高波形のうち、認定した語尾に相当する区間Q1の平均音高を、音高データとして出力する。
このように、発話区間における音量波形について最後の極大P1を、問いの語尾に相当するタイミングとして特定することによって、会話としての問いの語尾の誤検出を少なくすることができる、と考えられる。
なお、ここでは(a)の音量波形のうち、時間的に最後の極大P1のタイミングを前後に含む所定の時間範囲を語尾であると認定したが、極大P1のタイミングを始期または終期とする所定の時間範囲を語尾と認定しても良い。また、認定した語尾に相当する区間Q1の平均音高ではなく、区間Q1の始期、終期や、極大P1のタイミングの音高を、音高データとして出力する構成としても良い。
一方、言語解析部108は、音声信号で規定される言葉(問い)の意味を解析して、その意味内容を示すデータを、回答作成部110に供給する(ステップSa14)。
回答作成部110は、回答データベース124や、必要に応じて情報取得部126を用いることにより、解析された言葉(問い)に対応する回答を作成して(ステップSa15)、当該回答を、言語解析部108に供給する。
なお、ここで、作成される(回答データベース124から読み出される)回答は、問いに対する(1)、(2)、(4)の回答である。(3)の具体的な回答については、このフローチャートでは省略するが、(4)の回答の後に作成される。
また、回答作成部110は、作成・取得等した回答の音声シーケンスを出力する(ステップSa16)。
図6(a)は、(1)の肯定の意を示す回答「はい」の、音声シーケンスの一例である。この図の例では、「はい」という回答の一音一音に音符を割り当てて、各語(音素)の音高や発音タイミングを示している。なお、この例では、説明簡略化のために、一音(音素)に音符を1つ割り当てているが、スラーやタイなどのように、一音に複数の音符を割り当てても良い。
なお、図7(a)は、(2)の否定の意を示す回答「いいえ」の、音声シーケンスの一例であり、図8(a)は、(4)の回答「えーと」の、音声シーケンスの一例である。
言語解析部108は、回答作成部110による回答の意味内容を解析する(ステップSa17)。本実施形態では、上記(1)、(2)、(4)の回答のいずれかであるかを特定して、その特定結果を示す情報を音声制御部109に供給する。
音声制御部109は、音高解析部106から供給された音高データに対して、回答作成部110から出力された音声シーケンスの語尾の音高が、次のような関係となるように、回答の意味内容を考慮して決定する(ステップSa18)。
詳細には、音声制御部109は、(1)の肯定の意を示す回答については、例えば音高データで示される音高に対して当該回答の語尾の音高が5度下となるように、当該回答の音声シーケンス全体の音高をシフトすることを決定する。
一方、音声制御部109は、(2)の否定の意を示す回答については、音高データで示される音高に対して当該回答の語尾の音高が6度下となるように、当該回答の音声シーケンス全体の音高をシフトすることを決定する。すなわち、問いに対して(1)の回答の音高については、(2)の否定の回答の音高よりも高くするように決定される。
なお、音声制御部109は、(4)の回答については、例えば(1)の回答と同様に音高データで示される音高に対して当該回答の語尾の音高が5度下となるように、当該回答の音声シーケンス全体の音高をシフトすることを決定する。
具体的には、図6(b)のように、「あすははれ?(明日は晴れ?)」という問いのうち、符号Aで示される語尾の「れ」の音高が音高データによって「ミ」であることが示される場合、(1)の肯定の意を示す回答の「はい」の音声シーケンスについては、音声制御部109は、符号Bで示される語尾の「い」の音高を「ミ」に対して5度下の関係にある「ラ」となるように、音声シーケンスで規定される音高のシフトを決定する。
一方、図7(b)のように、同じ問いに対して(2)の否定の意を示す回答の「いいえ」については、音声制御部109は、符号Cで示される語尾の「え」の音高を「ミ」に対して6度下の関係にある「ソ」となるように、音声シーケンスで規定される音高のシフトを決定する。
なお、図8(b)のように、「あすのてんきは?」という問いのうち、符号Aで示される語尾の「は(わ)」の音高が音高データによって「ミ」であることが示される場合、(4)の回答の「え−と」の音声シーケンスについては、音声制御部109は、符号Dで示される語尾の「と」の音高を「ミ」に対して5度下の関係にある「ラ」となるように、音声シーケンスで規定される音高のシフトを決定する。
一方、音声制御部109は、回答の意味内容の特定結果に応じて、音声シーケンスの出力タイミング、すなわち間を決定する(ステップSa19)。具体的には、音声制御部109は、当該問いの語尾から回答を出力するまでの間として、(1)の肯定の意の回答については、例えば0.5秒から2.0秒までの範囲で設定し、(2)の否定の意の回答については、(1)の回答よりも遅く、例えば3.0秒程度に設定する。これにより、(1)の肯定の意の回答については、(2)の否定の意の回答より時間的に早く出力されることになる。
なお、音声制御部109は、(4)の回答については、間として(1)と同様に、例えば0.5秒から2.0秒までの範囲で設定する。
音声制御部109は、回答作成部110からの音声シーケンスを、決定した音高にシフトして、決定したタイミングで出力するように音声合成部112を制御する(ステップSa20)。この制御にしたがって、音声合成部112は、音声シーケンスの音高を変更した上で、回答を音声合成して出力することになる。
なお、回答の出力タイミングについて、音声制御部109は、問いの語尾、例えば上述した極大P1のタイミングを起算点としてリアルタイムクロック(図示省略)によって計測された時間が、設定時間が経過した時点で、音声シーケンスの出力を開始するように音声合成部112を制御すれば良い。
また、この後、特に図示しないが、(4)の回答を出力したのであれば、当該(4)の回答の出力後に、(3)の具体的な回答を出力する構成となっている。これにより、当該アプリケーションプログラムの実行が終了して、処理手順は、メニュー画面に戻る。
図9は、利用者が発した問いに対して(1)または(2)の回答の出力について説明する図であり、利用者Wによる「あすははれ?」という問いに対して、「はい」または「いいえ」の回答を端末装置である音声合成装置10が出力する場合の例である。
この図の例では、「はい」、「いいえ」の語尾の音高が、問いの語尾の音高に対して5度下、6度下の協和音程の関係となるように音声合成されるので、利用者に不自然な感じを与えず、あたかも人と対話しているかのような印象を与えることができる。
また、図の例において、問いの語尾に相当する音高に対して、(1)の「はい」の語尾に相当する音高、(2)の「いいえ」の語尾に相当する音高が、どのような関係になるかについてはすでに図6、図7で説明した通りであり、肯定の意の「はい」という回答(の語尾)の音高に対して、否定の意の「いいえ」という回答(の語尾)の音高が、低くなる。
このため、本実施形態によれば、否定の意で回答する際に相手の機嫌を損なわないように配慮した低い声で回答が出力されるので、この意味においても、人と対話しているかのような印象を利用者に与えることができる。
また、(2)の否定の意の回答を出力する場合、音声制御部109は、当該回答の音量を、(1)の肯定の意の回答の音量よりも控えめに(低く)しても良い。
また、この図において、当該問いが発せられたタイミング、例えば問いの語尾の「れ」のタイミングを(a)とし、「はい」の回答の語頭が発せられるタイミングを(b)とし、「いいえ」の回答の語頭が発せられるタイミングを(c)としている。この例において、問いが発せられてから、「はい」の回答が出力されるまでの期間T1は、「いいえ」の回答が出力されるまでの期間T2よりも早い。すなわち、T1<T2であり、換言すれば、実施形態に係る音声合成装置10において、「いいえ」と回答する場合には、「はい」と回答する場合と比較して、一呼吸遅れて出力される。このため、本実施形態によれば、人と対話しているときにみられるような間の取り方で「はい」、「いいえ」のような回答を音声合成で出力することができる。
図10は、利用者が発した問いに対して(3)および(4)の回答の出力について説明する図であり、利用者Wによる「あすのてんきは?」という問いに対して具体的な回答を音声合成装置10が出力する場合の例である。
この図の例では、問いに対して、具体的な回答の「はれです」という(3)の回答の前に、「えーと」という(4)の回答が出力される。具体的な回答については様々なデータベースや外部サーバにアクセスする必要があるので、当該回答の作成に時間を要する場合がある。具体的な回答が作成されるまでに音声合成装置10において無音状態が継続してしまうと、利用者に対して不安感を与えてしまうが、本実施形態では、(3)の回答の前に、とりあえず(4)の回答が出力されるので、そのような一種の不安感を利用者に与えない。
また、人同士の対話においても、具体的な内容を回答する前に、(4)のような回答をすることは良く見られる行為である。本実施形態では、このような行為を真似て、回答を音声合成するので、その意味において、人と対話しているかのような印象を利用者に与えることができる。
なお、図において、当該問いが発せられたタイミング、問いの語尾の「は」のタイミングを(d)とし、「えーと」の回答の語頭が発せられるタイミングを(e)とし、「はれです」の回答の語頭が発せられるタイミングを(f)としている。この例において、問いが発せられてから、「えーと」の回答が出力されるまでの期間T3は、上記(1)の回答と同程度であることが好ましい。
また、「はれです」のような具体的な回答の作成に時間を要する場合、(4)として、同じ回答、または、別の回答を繰り返して間を長くしても良い。
<応用例・変形例>
本発明は、上述した実施形態に限定されるものではなく、例えば次に述べるような各種の応用・変形が可能である。また、次に述べる応用・変形の態様は、任意に選択された一または複数を適宜に組み合わせることもできる。
<音声入力部>
実施形態では、音声入力部102は、利用者の音声(発言)をマイクロフォンで入力して音声信号に変換する構成としたが、この構成に限られず、他の処理部で処理された音声信号や、他の装置から供給(または転送された)音声信号を入力する構成としても良い。すなわち、音声入力部102は、音声信号による発言をなんらかの形で入力する構成であれば良い。
<音声波形データ>
実施形態では、回答作成部110が、問いに対する回答として、一音一音に音高が割り当てられた音声シーケンスを出力する構成としたが、当該回答の、例えばwav形式の音声波形データを出力する構成としても良い。
なお、音声波形データは、上述した音声シーケンスのように一音一音に音高が割り当てられないので、例えば、音声制御部109が、単純に再生した場合の語尾の音高を特定して、音高データで示される音高に対して、特定した音高が所定の関係となるようにフィルタ処理などの音高変換(ピッチ変換)をした上で、音声波形データを出力(再生)する構成とすれば良い。
また、カラオケ機器では周知である、話速を変えずに音高(ピッチ)をシフトする、いわゆるキーコントロール技術によって音高変換をしても良い。
<回答等の語尾、語頭>
実施形態では、問いの語尾の音高に対応して回答の語尾の音高を制御する構成としたが、言語や、方言、言い回しなどによっては回答の語尾以外の部分、例えば語頭が特徴的となる場合もある。このような場合には、問いを発した人は、当該問いに対する回答があったときに、当該問いの語尾の音高と、当該回答の特徴的な語頭の音高とを無意識のうち比較して当該回答に対する印象を判断する。したがって、この場合には、問いの語尾の音高に対応して回答の語頭の音高を制御する構成とすれば良い。この構成によれば、回答の語頭が特徴的である場合、当該回答を受け取る利用者に対して心理的な印象を与えることが可能となる。具体的には、図6(b)、図7(b)、図8(b)の右側の図を参照のこと。
問いについても同様であり、語尾に限られず、語頭で判断される場合も考えられる。また、問い、回答については、語頭、語尾に限られず、平均的な音高で判断される場合や、最も強く発音した部分の音高で判断される場合なども考えられる。このため、問いの第1区間および回答の第2区間は、必ずしも語頭や語尾に限られない、ということができる。
<音程の関係>
上述した実施形態では、問いの語尾等に対して回答の語尾等の音高が5度下となるように音声合成を制御する構成としたが、5度下以外の協和音程の関係に制御する構成であっても良い。例えば、上述したように完全8度、完全5度、完全4度、長・短3度、長・短6度であっても良い。
また、協和音程の関係でなくても、経験的に良い(または悪い)印象を与える音程の関係の存在が認められる場合もあるので、当該音程の関係に回答の音高を制御する構成としても良い。ただし、この場合においても、問いの語尾等の音高と回答の語尾等の音高との2音間の音程が離れ過ぎると、問いに対する回答が不自然になりやすいので、問いの音高と回答の音高とが上下1オクターブの範囲内にあることが望ましい。
<回答の音高シフト>
ところで、音声シーケンスなどで規定される回答の語尾等の音高を、問いの語尾等の音高に対して所定の関係となるように制御する構成では、詳細には、実施形態のように例えば5度下、6度下となるように変更する構成では、変更しようとする音高が低すぎると、不自然な低音で回答が音声合成されてしまう場合がある。そこで次に、このような場合を回避するための応用例(その1、および、その2)について説明する。
図11は、このうちの応用例(その1)における処理の要部を示す図である。なお、ここでいう処理の要部とは、図4におけるステップSa18の「回答の音高決定」で実行される処理をいう。すなわち、応用例(その1)では、図4に示されるステップSa18において、図11で示される処理が実行される、という関係にあり、詳細については次の通りである。
まず、音声制御部109は、音高解析部106からの音高データで示される音高に対して、例えば(1)の回答であれば、5度下の関係にある音高を求めて仮決定し、(2)の回答であれば、6度下の関係にある音高を求めて仮決定する(ステップSb171)。
次に、音声制御部109は、仮決定した音高が予め定められた閾値音高よりも低いか否かを判別する(ステップSb172)。なお、閾値音高は、音声合成する際の下限周波数に相当する音高や、これより低くければ不自然な感じを与えるような音高などに設定される。
仮決定した音高、すなわち問いにおける語尾の音高よりも5度下または6度下の音高が閾値音高よりも低ければ(ステップSb172の判別結果が「Yes」であれば)、音声制御部109は、仮決定した音高を1オクターブ上の音高にシフトする(ステップSb173)。
一方、求めた音高が閾値音高以上であれば(ステップSb172の判別結果が「No」であれば)、上記ステップSb173の処理がスキップされる。
そして、音声制御部109は、回答をシフトする際に目標となる語尾の音高を、次のような音高に本決定する(ステップSb174)。すなわち、音声制御部109は、仮決定した音高が閾値音高よりも低ければ、仮決定した音高を1オクターブ上に変更した音高に、また、仮決定した音高が閾値音高以上であれば、当該仮決定した音高をそのまま、それぞれ目標となる音高を本決定する。
なお、処理手順は、ステップSb174の後においては、図4のステップSa20に移行して、音声制御部109は、制御内容として、回答の音高を本決定した音高にシフトし、回答の出力タイミングをステップSa19で決定されたタイミングに決定する。これにより、音声合成部112は、決定された制御内容で音声シーケンスの音声を合成して出力することになる。
この応用例(その1)によれば、変更しようとする音高が閾値音高よりも低ければ、当該音高よりも1オクターブ上の音高となるようにシフトされるので、不自然な低音で回答が音声合成される、という点を回避することができる。
ここでは、回答の語尾等の音高を1オクターブ上の音高にシフトした例であったが、1オクターブ下の音高にシフトしても良い。詳細には、利用者が発した問いの語尾等の音高が高いために、当該音高に対して5度下の音高が高すぎると、不自然な高音で回答が音声合成されてしまう。これを回避するために、音高データで示される音高に対して5度下の関係にある音高(仮決定した音高)が閾値音高より高ければ、回答の語尾等の音高を、仮決定した音高よりも1オクターブ下の音高にシフトすれば良い。
また、音声合成する際には、性別や年齢別(子供/大人の別)などが定められた仮想的なキャラクタの声で出力することができる場合がある。この場合のように女性や子供のキャラクタが指定されているとき、一律に問いの語尾に対して5度下や6度下の音高に下げてしまうと、当該キャラクタに不似合いの低音で回答が音声合成されてしまうので、同様に、1オクターブ上の音高となるようにシフトする構成としても良い。
図12は、このような応用例(その2)における処理の要部を示す図であり、図4におけるステップSa18の「回答の音高決定」で実行される処理を示している。図11と異なる点を中心に説明すると、ステップSb171において、音声制御部109は、音高解析部106からの音高データで示される音高に対して5度下、6度下の関係にある音高を求めて仮決定した後、当該キャラクタを規定する属性として女性や子供が指定されているか否かを判別する(ステップSc172)。
音声制御部109は、当該属性として女性や子供が指定されていれば(ステップSc172の判別結果が「Yes」であれば)、仮決定した音高を1オクターブ上の音高にシフトし(ステップSb173)、一方、当該属性として女性や子供が指定されていなければ、例えば男性や大人が指定されていれば(ステップSc172の判別結果が「No」であれば)、上記ステップSb173の処理がスキップされる。以降については応用例(その1)と同様である。
この応用例(その2)によれば、女性や子供の声で回答させることが設定されていれば、仮決定の音高よりも1オクターブ上の音高となるようにシフトされるので、所定の音程関係を維持しつつ、不自然な低音で回答が音声合成される不具合を回避することができる。
ここでは、属性として女性や子供が指定されていれば、1オクターブ上の音高にシフトする例であったが、例えば属性として成人男性が指定されていれば、当該属性に対応したキャラクタに不似合いの高音で回答が音声合成されてしまうのを回避するために、1オクターブ下の音高にシフトしても良い。
<不協和音程>
上述した実施形態では、問いの語尾等に対して、回答の語尾等の音高が協和音程の関係となるように音声合成を制御する構成としたが、不協和音程の関係になるように音声合成を制御しても良い。なお、回答を不協和音程の関係にある音高で合成すると、問いを発した利用者に、不自然な感じや、悪印象、険悪な感じなどを与えて、スムーズな対話が成立しなくなる、という懸念もあるが、このような感じが逆にストレス解消に良いという見解もある。
そこで、動作モードとして、好印象等の回答を望むモード(第1モード)、悪印象等の回答を望むモード(第2モード)を用意しておき、いずれかのモードに応じて音声合成を制御する構成としても良い。
図13は、このような応用例(その3)における処理の要部を示す図であり、図4におけるステップSa18の「回答の音高決定」で実行される処理を示している。図11と異なる点を中心に説明すると、音声制御部109は、動作モードとして第1モードが設定されているか否かを判別する(ステップSd172)。
音声制御部109は、動作モードとして第1モードが設定されていれば(ステップSd172の判別結果が「Yes」であれば)、回答の例えば語尾の音高を、問いの例えば語尾の音高に対して協和音程の関係にある音高となるように決定する(ステップSd173A)。一方、音声制御部109は、動作モードとして第2モードが設定されていれば(ステップSd172の判別結果が「No」であれば)、回答の語尾の音高を、問いの語尾の音高に対して不協和音程の関係にある音高となるように決定する(ステップSd173B)。以降については応用例(その1)、応用例(その2)と同様である。
したがって、この応用例(その3)によれば、第1モードが設定されていれば、問いの音高に対して協和音程の関係にある音高で回答が音声合成される一方、第2モードが設定されていれば、問いの音高に対して不協和音程の関係にある音高で回答が音声合成されるので、利用者は、適宜動作モードを使い分けることができることになる。
なお、応用例(その1)や、応用例(その2)、応用例(その3)は、第1実施形態のような音声シーケンスを用いる例で説明したが、音声波形データを用いる場合であっても良いのはもちろんである。
<その他>
実施形態にあっては、問いに対する回答を取得する構成である言語解析部108、言語データベース122および回答データベース124を音声合成装置10の側に設けたが、端末装置などでは、処理の負荷が重くなる点や、記憶容量に制限がある点などを考慮して、外部サーバの側に設ける構成としても良い。すなわち、音声合成装置10において回答作成部110は、問いに対する回答をなんらかの形で取得するとともに、当該回答の音声を規定するデータを出力する構成であれば足り、その回答を、音声合成装置10の側で作成するのか、音声合成装置10以外の他の構成(例えば外部サーバ)の側で作成するのか、については問われない。
なお、音声合成装置10において、問いに対する回答について、外部サーバ等にアクセスしないで作成可能な用途であれば、情報取得部126は不要である。
102…音声入力部、104…発話区間検出部、106…音高解析部、108…言語解析部、109…音声制御部、110…回答作成部、112…音声合成部。

Claims (7)

  1. 問いの音声信号を入力する音声入力部と、
    前記問いの音声信号のうち、特定の第1区間の音高を解析して、当該音高を示す音高データを出力する音高解析部と、
    前記問いに対する回答を取得する取得部と、
    前記回答の意味内容を解析する言語解析部と、
    前記回答の音声信号における特定の第2区間の音高を、前記音高データで示される音高に対して前記回答の意味内容にしたがった関係の音高となるように制御する音声制御部と、
    を具備し、
    前記音声制御部は、前記問いに対する肯定の回答の音高については、否定の回答の音高よりも高くする
    ことを特徴とする音声制御装置。
  2. 前記音声制御部は、さらに、前記問いの音声信号が入力され終わってから、前記肯定の回答の音声信号を出力するまでの間を、前記否定の回答の音声信号を出力するまでの間よりも短くする
    ことを特徴とする請求項に記載の音声制御装置。
  3. 問いの音声信号を入力する音声入力部と、
    前記問いの音声信号のうち、特定の第1区間の音高を解析して、当該音高を示す音高データを出力する音高解析部と、
    前記問いに対する回答を取得する取得部と、
    前記回答の意味内容を解析する言語解析部と、
    前記回答の音声信号における特定の第2区間の音高を、前記音高データで示される音高に対して前記回答の意味内容にしたがった関係の音高となるように制御する音声制御部と、
    を具備し、
    前記音声制御部は、さらに、前記問いの音声信号が入力され終わってから前記回答の音声信号を出力するまでの間を、前記回答の意味内容にしたがって制御する
    ことを特徴とする音声制御装置。
  4. 問いの音声信号を入力し、
    前記問いの音声信号のうち、特定の第1区間の音高を解析して、当該音高を示す音高データを出力し、
    前記問いに対する回答を取得し、
    前記回答の意味内容を解析し、
    前記回答の音声信号における特定の第2区間の音高を、前記音高データで示される音高に対して前記回答の意味内容にしたがった関係の音高となるように制御するとともに、前記問いに対する肯定の回答の音高については、否定の回答の音高よりも高くする
    ことを特徴とする音声制御方法。
  5. 問いの音声信号を入力し、
    前記問いの音声信号のうち、特定の第1区間の音高を解析して、当該音高を示す音高データを出力し、
    前記問いに対する回答を取得し、
    前記回答の意味内容を解析し、
    前記回答の音声信号における特定の第2区間の音高を、前記音高データで示される音高に対して前記回答の意味内容にしたがった関係の音高となるように制御するとともに、前記問いの音声信号が入力され終わってから前記回答の音声信号を出力するまでの間を、前記回答の意味内容にしたがって制御する
    ことを特徴とする音声制御方法。
  6. コンピュータを、
    問いの音声信号を入力する音声入力部、
    前記問いの音声信号のうち、特定の第1区間の音高を解析して、当該音高を示す音高データを出力する音高解析部、
    前記問いに対する回答を取得する取得部、
    前記回答の意味内容を解析する言語解析部、および、
    前記回答の音声信号における特定の第2区間の音高を、前記音高データで示される音高に対して前記回答の意味内容にしたがった関係の音高となるように制御する音声制御部、
    として機能させ、
    前記音声制御部は、前記問いに対する肯定の回答の音高については、否定の回答の音高よりも高くする
    ことを特徴とするプログラム。
  7. コンピュータを、
    問いの音声信号を入力する音声入力部、
    前記問いの音声信号のうち、特定の第1区間の音高を解析して、当該音高を示す音高データを出力する音高解析部、
    前記問いに対する回答を取得する取得部、
    前記回答の意味内容を解析する言語解析部、および、
    前記回答の音声信号における特定の第2区間の音高を、前記音高データで示される音高に対して前記回答の意味内容にしたがった関係の音高となるように制御する音声制御部、
    として機能させ、
    前記音声制御部は、さらに、前記問いの音声信号が入力され終わってから前記回答の音声信号を出力するまでの間を、前記回答の意味内容にしたがって制御する
    ことを特徴とするプログラム。
JP2013198218A 2013-05-31 2013-09-25 音声制御装置、音声制御方法およびプログラム Expired - Fee Related JP6375604B2 (ja)

Priority Applications (8)

Application Number Priority Date Filing Date Title
JP2013198218A JP6375604B2 (ja) 2013-09-25 2013-09-25 音声制御装置、音声制御方法およびプログラム
CN201480031099.XA CN105247609B (zh) 2013-05-31 2014-06-02 利用言语合成对话语进行响应的方法及装置
EP14803435.8A EP3007165B1 (en) 2013-05-31 2014-06-02 Technology for responding to remarks using speech synthesis
CN201910272063.5A CN109887485A (zh) 2013-05-31 2014-06-02 利用言语合成对话语进行响应的技术
US14/892,624 US9685152B2 (en) 2013-05-31 2014-06-02 Technology for responding to remarks using speech synthesis
PCT/JP2014/064631 WO2014192959A1 (ja) 2013-05-31 2014-06-02 音声合成を用いて発言に応答する技術
EP18178496.8A EP3399521B1 (en) 2013-05-31 2014-06-02 Technology for responding to remarks using speech synthesis
US15/375,984 US10490181B2 (en) 2013-05-31 2016-12-12 Technology for responding to remarks using speech synthesis

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013198218A JP6375604B2 (ja) 2013-09-25 2013-09-25 音声制御装置、音声制御方法およびプログラム

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2018140060A Division JP6648786B2 (ja) 2018-07-26 2018-07-26 音声制御装置、音声制御方法およびプログラム

Publications (2)

Publication Number Publication Date
JP2015064480A JP2015064480A (ja) 2015-04-09
JP6375604B2 true JP6375604B2 (ja) 2018-08-22

Family

ID=52832404

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013198218A Expired - Fee Related JP6375604B2 (ja) 2013-05-31 2013-09-25 音声制御装置、音声制御方法およびプログラム

Country Status (1)

Country Link
JP (1) JP6375604B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6625089B2 (ja) * 2017-04-20 2019-12-25 株式会社カプコン 音声生成プログラムおよびゲーム装置
JP7348027B2 (ja) * 2019-10-28 2023-09-20 株式会社日立製作所 対話システム、対話プログラムおよび対話システムの制御方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62115199A (ja) * 1985-11-14 1987-05-26 日本電気株式会社 音声応答装置
JPH11231885A (ja) * 1998-02-19 1999-08-27 Fujitsu Ten Ltd 音声合成装置
JP2001134283A (ja) * 1999-11-04 2001-05-18 Mitsubishi Electric Corp 音声合成装置および音声合成方法
JP4145302B2 (ja) * 2003-04-14 2008-09-03 富士通株式会社 対話装置、対話方法及び対話プログラム
JP2007183421A (ja) * 2006-01-06 2007-07-19 Matsushita Electric Ind Co Ltd 音声合成装置
JP5195405B2 (ja) * 2008-12-25 2013-05-08 トヨタ自動車株式会社 応答生成装置及びプログラム
JP5457706B2 (ja) * 2009-03-30 2014-04-02 株式会社東芝 音声モデル生成装置、音声合成装置、音声モデル生成プログラム、音声合成プログラム、音声モデル生成方法および音声合成方法

Also Published As

Publication number Publication date
JP2015064480A (ja) 2015-04-09

Similar Documents

Publication Publication Date Title
WO2014192959A1 (ja) 音声合成を用いて発言に応答する技術
WO2016063879A1 (ja) 音声合成装置および方法
JP3660937B2 (ja) 音声合成方法および音声合成装置
CN107004428B (zh) 会话评价装置和方法
JP6648805B2 (ja) 音声制御方法、音声制御装置およびプログラム
Cohn et al. Perception of concatenative vs. neural text-to-speech (TTS): Differences in intelligibility in noise and language attitudes
Roberts et al. The perceptual organization of sine-wave speech under competitive conditions
KR20220140599A (ko) 대화의 사람 참가자를 대신하여 생성된 합성 스피치 오디오 데이터
JP2011186143A (ja) ユーザ挙動を学習する音声合成装置、音声合成方法およびそのためのプログラム
JP6343895B2 (ja) 音声制御装置、音声制御方法およびプログラム
JP6375604B2 (ja) 音声制御装置、音声制御方法およびプログラム
JP6375605B2 (ja) 音声制御装置、音声制御方法およびプログラム
JP6566076B2 (ja) 音声合成方法およびプログラム
JP6424419B2 (ja) 音声制御装置、音声制御方法およびプログラム
Vipperla et al. Spoken dialogue interfaces for older people
Ngo et al. Effect of articulatory and acoustic features on the intelligibility of speech in noise: an articulatory synthesis study
JP6648786B2 (ja) 音声制御装置、音声制御方法およびプログラム
JP6232892B2 (ja) 音声合成装置およびプログラム
JP6536713B2 (ja) 音声制御装置、音声制御方法およびプログラム
JP6343896B2 (ja) 音声制御装置、音声制御方法およびプログラム
Moore " I'm Having Trouble Understanding You Right Now": A Multi-DimensionalEvaluation of the Intelligibility of Dysphonic Speech
McCarron Acoustic Variability in the Fluent Connected Speech of Adults Who Stutter
JP2014202777A (ja) マスカー音信号の生成装置、生成方法およびプログラム
WO2018050212A1 (en) Telecommunication terminal with voice conversion

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20150410

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160720

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170829

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20171026

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180109

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180228

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180626

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180709

R151 Written notification of patent or utility model registration

Ref document number: 6375604

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

LAPS Cancellation because of no payment of annual fees