JP2015069037A - 音声合成装置およびプログラム - Google Patents
音声合成装置およびプログラム Download PDFInfo
- Publication number
- JP2015069037A JP2015069037A JP2013203839A JP2013203839A JP2015069037A JP 2015069037 A JP2015069037 A JP 2015069037A JP 2013203839 A JP2013203839 A JP 2013203839A JP 2013203839 A JP2013203839 A JP 2013203839A JP 2015069037 A JP2015069037 A JP 2015069037A
- Authority
- JP
- Japan
- Prior art keywords
- pitch
- voice
- answer
- question
- section
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Electrically Operated Instructional Devices (AREA)
- Telephone Function (AREA)
Abstract
【解決手段】音声信号による問いを入力する音声入力部102と、問いに対する回答の音声シーケンスを出力する回答作成部110と、問いのうち、例えば語尾の音高を解析する音高解析部106と、問いのうち、音高以外の非言語情報、例えば音量、速度を解析する非言語解析部107と、音声シーケンスで示される回答を音声で合成する音声合成部112と、音声制御部109とを有する。音声制御部109は、音声シーケンスにおける語尾の音高を、問いの語尾の音高に対して所定の関係にある音高となるように、変更して出力する音声合成部112を制御する。
【選択図】図1
Description
また、利用者が入力した音声を認識する一方で、シナリオで指定された内容を音声合成で出力して、利用者との音声対話を実現する音声対話システムも提案されている(例えば特許文献3参照)。
本発明は、このような事情に鑑みてなされたものであり、その目的の一つは、利用者に自然な感じを与えることが可能な音声合成装置およびプログラムを提供することにある。
図に示されるように、人の音声を周波数解析して得られるスペクトルは、時間的に移動する複数のピーク、すなわちフォルマントとして現れる。詳細には、「そうでしょ?」に相当するフォルマント、および、「あ、はい」に相当するフォルマントは、それぞれ3つのピーク帯(時間軸に沿って移動する白い帯状の部分)として現れている。
これらの3つのピーク帯のうち、周波数の最も低い第1フォルマントについて着目してみると、「そうでしょ?」の「しょ」に相当する符号A(の中心部分)の周波数はおおよそ400Hzである。一方、符号Bは、「あ、はい」の「い」に相当する符号Bの周波数はおおよそ260Hzである。このため、符号Aの周波数は、符号Bの周波数に対して、ほぼ3/2となっていることが判る。
したがって、利用者による問いに対する回答を音声合成で出力(返答)する対話システムを検討したときに、当該問いの音高のみならず、当該音高以外の非言語情報も回答を音声合成する上で、重要な要素となり得る。
そこで、当該音声合成について上記目的を達成するために、次のような構成とした。
この一態様によれば、入力された音声信号による問いに対して、音声合成される回答に、不自然な感じが伴わないようにすることができる。
ここで、第1区間は、例えば問いの語尾であり、第2区間は、回答の語頭または語尾であることが好ましい。上述したように、問いの印象を特徴付ける区間は、当該問いの語尾であり、回答の印象を特徴付ける区間は、回答の語頭または語尾であることが多いからである。
また、所定の関係は、完全1度を除いた協和音程の関係であることが好ましい。ここで、協和とは、複数の楽音が同時に発生したときに、それらが互いに溶け合って良く調和する関係をいい、これらの音程関係を協和音程という。協和の程度は、2音間の周波数比(振動数比)が単純なものほど高い。周波数比が最も単純な1/1(完全1度)と、2/1(完全8度)とを、特に絶対協和音程といい、これに3/2(完全5度)と4/3(完全4度)とを加えて完全協和音程という。5/4(長3度)、6/5(短3度)、5/3(長6度)および8/5(短6度)を不完全協和音程といい、これ以外のすべての周波数比の関係(長・短の2度と7度、各種の増・減音程など)を不協和音程という。
なお、第2区間の音高が、第1区間の音高と同一となる場合には、対話として不自然な感じを伴うと考えられるので、問いの音高と回答の音高との関係において、完全1度が除かれる。
上記態様において、所定の関係として最も望ましい例は、上述したように第2区間の音高が、第1区間の音高に対して5度下の協和音程の関係である、と考えられる。ただし、所定の関係としては、完全1度を除く協和音程に限られず、不協和音程の関係でも良いし、同一を除く、上下1オクターブの範囲内の音高関係でも良い。
例えば、動作モードが第2モードであれば、不協和音程の関係にある回答が、所定時間範囲外の間となるように制御されるので、問いを発した利用者に違和感を与えることができる。逆にいえば、第2モードにすることによって、利用者に、注意喚起したり、意図的に嫌悪な感じを与えたりすることができる。
なお、動作モードが第1モードであれば、完全1度を除いた協和音程の関係にある回答が、所定時間範囲内の間となるように制御されるので、問いを発した利用者に違和感を与えることがない。ここで、所定時間の範囲内としては、例えば0.5秒から2.0秒までの時間範囲が適切な間である、と考えられる。
なお、本発明では、問いの音高(周波数)を解析対象とし、回答の音高を制御対象としているが、ヒトの音声は、上述したフォルマントの例でも明らかなように、ある程度の周波数域を有するので、解析や制御についても、ある程度の周波数範囲を持ってしまうのは避けられない。また、解析や制御については、当然のことながら誤差が発生する。このため、本件において、音高の解析や制御については、音高(周波数)の数値が同一であることのみならず、ある程度の範囲を伴うことが許容される。
まず、第1実施形態に係る音声合成装置について説明する。
図1は、本発明の第1実施形態に係る音声合成装置10の構成を示す図である。
この図において、音声合成装置10は、CPU(Central Processing Unit)や、音声入力部102、スピーカ142を有する、例えば携帯電話機のような端末装置である。音声合成装置10においてCPUが、予めインストールされたアプリケーションプログラムを実行することによって、複数の機能ブロックが次のように構築される。
詳細には、音声合成装置10では、発話区間検出部104、音高解析部106、非言語解析部107、言語解析部108、音声制御部109、回答作成部110、音声合成部112、言語データベース122、回答データベース124、情報取得部126および音声ライブラリ128が構築される。
なお、特に図示しないが、このほかにも音声合成装置10は、表示部や操作入力部なども有し、利用者が装置の状況を確認したり、装置に対して各種の操作を入力したりすることができるようになっている。また、音声合成装置10は、携帯電話機のような端末装置に限られず、ノート型やタブレット型のパーソナルコンピュータであっても良い。
発話区間検出部104は、デジタル信号に変換された音声信号を処理して発話(有音)区間を検出する。
なお、問いにおける音高以外の非言語情報が音量を含む場合、上記音高解析部106は、詳細については後述するように、問いにおける第1区間の音高を特定するにあたって、図において破線で示されるように、当該音量を補助情報として用いることができる。
一方で、音声合成装置10は、「あしたのてんきは?(明日の天気は?)」という問いに対しては、外部サーバにアクセスして天気情報を取得しないと、音声合成装置10の単体で回答を作成することができない。このように、回答データベース124のみでは回答が作成できない場合、情報取得部126が、インターネットを介し外部サーバにアクセスして、回答に必要な情報を取得する構成となっている。すなわち、回答作成部110は、問いに対する回答を、回答データベース124または外部サーバから取得する構成となっている。
なお、回答作成部110は、本実施形態では回答を、音素列であって、各音素に対応する音高や発音タイミングを規定した音声シーケンスにて出力する。当該音声シーケンスは、音声制御部109および音声合成部112にそれぞれ供給される。
ただし、本実施形態では、音声合成部112は、音声シーケンスで規定される基本音声を、音声制御部109の指示にしたがって変更して音声合成する。
ここで、音声制御部109は、音声合成部112による音声合成を次のように制御する。すなわち、音声制御部109は、音声シーケンスのうち、特定の区間(第2区間)の音高を、音高データに対して所定の関係となるように、さらに、非言語情報のスピードに応じた速度となるように、非言語情報の音量に応じた大きさとなるように、音声合成を制御する。
なお、本実施形態において第2区間を、回答の語尾とするが、後述するように語尾に限られない。また、本実施形態において、音高データに対して所定の関係にある音高を、5度の下の関係にある音高とするが、後述するように、5度下以外の関係にある音高としても良い。
なお、音声合成部112によって音声合成された音声信号は、図示省略したD/A変換部によってアナログ信号に変換された後、スピーカ142によって音響変換されて出力される。
はじめに、利用者が所定の操作をしたとき、例えば対話処理に対応したアイコンなどをメインメニュー画面(図示省略)において選択したとき、CPUが当該処理に対応したアプリケーションプログラムを起動する。このアプリケーションプログラムを実行することによって、CPUは、図1で示した機能ブロックを構築する。
また、非言語解析部107は、上記ステップSa13における速度解析と並行して、ステップSa14において次のような音量解析を実行する。すなわち、非言語解析部107は、検出された発話区間における問いの音声信号の例えば平均的な音量を求めて、当該音量を示す音量データを出力するとともに、この音量データの出力とは別に、当該音声信号の音量波形を求める。図5の(a)は、この音量波形の一例を示す図であり、音量を縦軸に、経過時間を横軸にとってある。
問いを発した人が、当該問いに対する回答を欲するような対話を想定した場合、問いの語尾に相当する部分では、音量が他の部分として比較して一時的に大きくなる、と考えられる。このため、非言語解析部107は、(a)の音量波形のうち、時間的に最後の極大P1のタイミングを特定するデータを音高解析部106に供給する。
詳細には、第1に、音高解析部106は、発話区間として検出された問いの音声信号を解析して、音高波形を求める。図5の(b)は、(a)と同じ音声信号について周波数解析して得られる第1フォルマントの音高を縦軸で、経過時間を横軸で表した音高波形の一例である。
第2に、音高解析部106は、(b)の音高波形のうち、ステップSa14で特定された極大P1のタイミングを前後に含む所定の時間範囲(例えば100μ秒〜300μ秒)を語尾であると認定する。
第3に、音高解析部106は、(b)の音高波形のうち、認定した語尾に相当する区間Q1の平均音高を、音高データとして出力する。
このように、発話区間における音量波形について最後の極大P1を、問いの語尾に相当するタイミングとして特定することによって、会話としての問いの語尾の誤検出を少なくすることができる、と考えられる。
ここでは、(a)の音量波形のうち、時間的に最後の極大P1のタイミングを前後に含む所定の時間範囲を語尾であると認定したが、極大P1のタイミングを始期または終期とする所定の時間範囲を語尾と認定しても良い。また、認定した語尾に相当する区間Q1の平均音高ではなく、区間Q1の始期、終期や、極大P1のタイミングの音高を、音高データとして出力する構成としても良い。
例えば図6の(b)で示されるように、「あしたのてんきは?」という問いのうち、符号Aで示される語尾の「は」の区間の音高が音高データによって「ソ」であると示される場合、音声制御部109は、「はれです」という回答の音声シーケンスのうち、符号Bで示される語尾の「す」の区間の音高が「ソ」に対して5度下の音高である「ド」になるように、音声シーケンス全体の変更内容を決定する。
なお、回答の音声を出力すると、特に図示しないが、CPUは、当該アプリケーションプログラムの実行を終了させて、メニュー画面に戻す。
一方、同図の(c)で示されるように「はれです」という音声シーケンスの音高をシフトしないで音声合成した場合、語尾に相当する「す」の音高が「ファ」で出力される。この場合において音高の「ファ」は、「あしたのてんきは?」という問いの語尾に相当する「は」の音高の「ソ」に対して不協和音程の関係にある。すなわち、図3を参照すれば、「ソ」の周波数(396.0Hz)は「ファ」の周波数(352.0Hz)に対して9/8の関係にある。このため、利用者Wに不自然な感じを与えるのでなく、むしろ嫌悪のような悪印象を与えてしまう。ただし、後述するように、音声合成装置10において、このような悪印象を利用者に積極的に与える構成もあり得る。
このように、本実施形態では、問いの音高に加えて、音量およびスピードを反映させて、回答を音声合成するので、あたかも人同士が対話しているかのように、問いに対する回答を利用者に自然な感じで与えることが可能になる。
なお、早口は緊張の表れという説もある。このため、問いの速度が高ければ、音声合成装置10が、逆にゆっくりとした速度で回答を音声合成する構成にすると、その緊張を解きほぐすという効果が期待できる。このため、問いの速度が高ければ、音声合成の速度も高くする、という構成には限定されない。
次に、第2実施形態について説明する。
図8は、第2実施形態に係る音声合成装置10の構成を示すブロック図である。
第1実施形態では、回答作成部110が、問いに対する回答として、一音一音に音高が割り当てられた音声シーケンスを出力する構成としたが、第2実施形態では、回答音声出力部113が、問いに対する回答を取得して、当該回答の音声波形データを出力する。
なお、取得した回答には、回答音声出力部113が作成したものや、外部サーバから取得したもの、予め複数用意された回答のうち、選択されたものなどが含まれる。また、音声波形データは、例えばwav形式のようなデータであり、上述した音声シーケンスのように一音一音に音高が割り当てられない。したがって、このような音声波形データを単純に再生しただけでは、図9の(a)に示されるように、抑揚があるだけで、機械的な感じになる。
人同士の対話において、問いを早口で発した人は、一般的には、せっかちである、急いでいる、などのような性格・心理状態であり、したがって、当該問いに対する回答を迅速に得たい、と考えられる。一方、問いをゆっくりと発した人は、一般的には、慎重を期している、落ち着いているなどのような状態であり、したがって、当該問いに対する回答を、じっくり待つ、と考えられる。
そこで、第3実施形態では、問いの非言語情報に応じて、ここでは問いのスピードに応じて、音声合成を開始するタイミング(問いが終了してから回答の音声合成を開始するまでの間)を制御する構成としたものである。
第3実施形態に係る音声合成装置10は、音声シーケンスを用いる構成であれば、第1実施形態における図1とほぼ同様である。ただし、音声制御部109は、音声合成部112に対し、例えば非言語情報のスピードデータで示される問いのスピードが遅くなるにつれて、音声合成の開始タイミングを遅らせるように制御する。
一方、同図の(b)に示されるように、利用者Wが同じ問いをゆっくりと、入力した場合、回答例である「はれです」が音声出力されるタイミングは、比較的遅くなる。また、当該回答例の全体の速度も遅くなる。
なお、この図において、問いが発せられてから回答の音声合成が開始するまでの間を、問いの語尾から回答の語頭までの期間Ta、Tb(Ta<Tb)で表している。もちろん、間については、これ以外で規定されても良い。また、図において、問い・回答を示す文字間が狭いほど、早口であることを示している。
なお、第3実施形態において、音声シーケンスではなく音声波形データを用いる構成であれば、第2実施形態における図8とほぼ同様な構成になる。この構成において、後処理部114は、非言語情報のスピードが遅くなるにつれて、音声出力の開始タイミングを遅らせる。また、ここでは、音声出力の開始タイミングを、問いのスピードで制御する構成としたが、スピードに替えて音量、音高を用いても良いし、スピード、音量、音高以外の情報などを適宜組み合わせて用いても良い。
上述した各実施形態では、問いの語尾に対して、回答の語尾の音高が協和音程の関係となるように音声合成を制御する構成としたが、不協和音程の関係になるように音声合成を制御しても良い。回答を不協和音程の関係にある音高で合成した口調では、問いを発した利用者に、不自然な感じや、悪印象、険悪な感じなどを与えて、スムーズな対話が成立しなくなる、という懸念もあるが、このような口調が逆にストレス解消に良いという見解もある。
そこでまず、第4実施形態では、動作モードとして、好印象等の回答を望むモード(第1モード)に加えて、悪印象をあえるような口調の回答を望むモード(第2モード)が用意される。なお、いずれかのモードにするかについては、利用者によって適宜設定される。
図11は、第4実施形態における処理の要部を示す図であり、図4におけるステップSa19の「回答の音高決定」で実行される処理を示している。すなわち、第4実施形態では、図4に示されるステップSa19において、図11で示される処理が実行される、という関係にある。
まず、図11において、音声制御部109は、動作モードとして第1モードが設定されているか否かを判別する(ステップSd172)。
次に、音声制御部109は、音声合成部112に対する指示として、音声合成を、問いの語尾から所定時間の範囲内で開始するように決定する(ステップSd174A)。なお、所定時間の範囲とは、上述したように例えば0.5秒から2.0秒までの時間範囲であり、この時間範囲内にあれば、適切な間である、と考えられるからである。
次に、音声制御部109は、音声合成部112に対する指示として、音声合成を、問いの語尾から所定時間の範囲外で開始するように決定する(ステップSd174B)。
なお、処理手順は、ステップSd174AまたはSd174Bの後においては、図4のステップSa20に戻り、音声制御部109が、回答の全体の音量を決定し、ステップSa21において回答の全体の速度を決定し、この後、ステップSa22において音声合成部112は、音声制御部109によって変更が決定された音声シーケンスの音声を、決定されたタイミングで、決定された音量で、決定された速度で合成して出力することになる。
なお、第4実施形態においても、音声シーケンスではなく音声波形データを用いる構成が可能である。
上述した各実施形態では、非言語情報として音高、音量、速度などのように、利用者が発した問い(音)自体に関連する情報を用いたが、非言語情報としては、このほかにも、利用者の表情や、ジェスチャ、服装などを用いることができる。そこで、非言語情報として、音以外の情報を用いる第5実施形態について説明する。
このような音高解析部106における音高解析結果を、利用者の表情に応じて補正することによって、音高の検出・解析の精度を高めることができる。
このように利用者の表情に応じて音高解析や音声合成を制御することによって、音声合成する回答を違和感のない方向に導くことができる。
また、撮影部130に限られず、湿度センサなどの周辺環境の情報を用いて音声合成を制御しても良い。例えば蒸し暑い環境下ではイライラを緩和させるような回答を音声合成するよう構成しても良い。
本発明は、上述した各実施形態に限定されるものではなく、例えば次に述べるような各種の応用・変形が可能である。また、次に述べる応用・変形の態様は、任意に選択された一または複数を適宜に組み合わせることもできる。
実施形態では、音声入力部102は、利用者の音声(発言)をマイクロフォンで入力して音声信号に変換する構成としたが、特許請求の範囲に記載された音声入力部は、この構成に限られない。すなわち、特許請求の範囲に記載された音声入力部は、音声信号による発言をなんらかの形で入力する、または、入力される構成であれば良い。詳細には、特許請求の範囲に記載された音声入力部は、他の処理部で処理された音声信号や、他の装置から供給(または転送された)音声信号を入力する構成、さらには、LSIに内蔵され、単に音声信号を受信し後段に転送する入力インターフェース回路等を含んだ概念である。
各実施形態では、問いの語尾の音高に対応して回答の語尾の音高を制御する構成としたが、言語や、方言、言い回しなどによっては回答の語尾以外の部分、例えば語頭が特徴的となる場合もある。このような場合には、問いを発した人は、当該問いに対する回答があったときに、当該問いの語尾の音高と、当該回答の特徴的な語頭の音高とを無意識のうち比較して当該回答に対する印象を判断する。したがって、この場合には、問いの語尾の音高に対応して回答の語頭の音高を制御する構成とすれば良い。この構成によれば、回答の語頭が特徴的である場合、当該回答を受け取る利用者に対して心理的な印象を与えることが可能となる。
上述した実施形態では、問いの語尾等に対して回答の語尾等の音高が5度下となるように音声合成を制御する構成としたが、5度下以外の協和音程の関係に制御する構成であっても良い。例えば、上述したように完全8度、完全5度、完全4度、長・短3度、長・短6度であっても良い。
また、協和音程の関係でなくても、経験的に良い(または悪い)印象を与える音程の関係の存在が認められる場合もあるので、当該音程の関係に回答の音高を制御する構成としても良い。ただし、この場合においても、問いの語尾等の音高と回答の語尾等の音高との2音間の音程が離れ過ぎると、問いに対する回答が不自然になりやすいので、問いの音高と回答の音高とが上下1オクターブの範囲内にあることが望ましい。
上述した実施形態では、問いの音量、速度に対して上述したルールにたがって、回答の音量、速度、間を決定したが、このルールを固定的にすると、利用者に対して回答が単調であるという印象を与えかねない。そこで、例えば不自然な感じを与えない範囲で上記ルールに揺らぎを与えて変更する構成としても良いし、上記範囲内のルールを複数用意しておき、音声合成する場合に適用するルールをランダムに1つ選択する構成としても良い。
このような構成により、利用者に対して単調な回答を与えてしまうことを回避することができる。
ところで、音声シーケンスや音声波形データで規定される回答の語尾等の音高を、問いの語尾等の音高に対して所定の関係となるように制御する構成では、詳細には、実施形態のように例えば5度下となるようにシフトする構成では、5度下の音高が低すぎると、不自然な低音で回答が音声合成されてしまう場合がある。そこで次に、このような場合を回避するための応用例(その1、および、その2)について説明する。
まず、音声制御部109は、音高解析部106からの音高データで示される音高に対して、例えば5度下の関係にある音高を求めて仮決定する(ステップSb171)。
次に、音声制御部109は、仮決定した音高が予め定められた閾値音高よりも低いか否かを判別する(ステップSb172)。なお、閾値音高は、音声合成する際の下限周波数に相当する音高や、これより低くければ不自然な感じを与えるような音高などに設定される。
一方、求めた音高が閾値音高以上であれば(ステップSb172の判別結果が「No」であれば)、上記ステップSb173の処理がスキップされる。
そして、音声制御部109は、回答をシフトする際に目標となる語尾の音高を、次のような音高に本決定する(ステップSb174)。すなわち、音声制御部109は、仮決定した音高が閾値音高よりも低ければ、仮決定した音高を1オクターブ上に変更した音高に、また、仮決定した音高が閾値音高以上であれば、当該仮決定した音高をそのまま、それぞれ目標となる音高を本決定する。
なお、処理手順は、ステップSb174の後においては、図4のステップSa20に戻り、音声制御部109が、回答の全体の音量を決定し、ステップSa21において回答の全体の速度を決定し、この後、ステップSa22において音声合成部112は、音声制御部109によって変更が決定された音声シーケンスの音声を、決定されたタイミングで、決定された音量で、決定された速度で合成して出力することになる。
ここでは、回答の語尾等の音高を1オクターブ上の音高にシフトした例であったが、1オクターブ下の音高にシフトしても良い。詳細には、利用者が発した問いの語尾等の音高が高いために、当該音高に対して5度下の音高が高すぎると、不自然な高音で回答が音声合成されてしまう。これを回避するために、音高データで示される音高に対して5度下の関係にある音高(仮決定した音高)が閾値音高より高ければ、回答の語尾等の音高を、仮決定した音高よりも1オクターブ下の音高にシフトすれば良い。
この応用例(その2)によれば、女性や子供の声で回答させることが設定されていれば、仮決定の音高よりも1オクターブ上の音高となるようにシフトされるので、所定の音程関係を維持しつつ、不自然な低音で回答が音声合成される不具合を回避することができる。
ここでは、属性として女性や子供が指定されていれば、1オクターブ上の音高にシフトする例であったが、例えば属性として成人男性が指定されていれば、当該属性に対応したキャラクタに不似合いの高音で回答が音声合成されてしまうのを回避するために、1オクターブ下の音高にシフトしても良い。
実施形態にあっては、問いに対する回答を取得する構成である言語解析部108、言語データベース122および回答データベース124を音声合成装置10の側に設けたが、端末装置などでは、処理の負荷が重くなる点や、記憶容量に制限がある点などを考慮して、外部サーバの側に設ける構成としても良い。すなわち、音声合成装置10において回答作成部110(回答音声出力部113)は、問いに対する回答をなんらかの形で取得するとともに、当該回答の音声シーケンス(音声波形データ)を出力する構成であれば足り、その回答を、音声合成装置10の側で作成するのか、音声合成装置10以外の他の構成(例えば外部サーバ)の側で作成するのか、については問われない。
なお、音声合成装置10において、問いに対する回答について、外部サーバ等にアクセスしないで作成可能な用途であれば、情報取得部126は不要である。
Claims (4)
- 音声信号による問いを入力する音声入力部と、
前記問いのうち、特定の第1区間の音高を解析する音高解析部と、
前記問いにおける音高以外の非言語情報を解析する非言語解析部と、
前記問いに対する回答を取得する取得部と、
取得された回答を音声合成する音声合成部と、
前記音声合成部に対し、当該回答における特定の第2区間の音高が前記第1区間の音高に対して所定の関係にある音高となるように変更させ、かつ、解析された非言語情報にしたがって音声合成を制御する音声制御部と、
を具備することを特徴とする音声合成装置。 - 前記音声制御部は、
問いが発せられてから前記回答を出力するまでの間を、少なくとも解析された非言語情報に応じて制御する、
ことを特徴とする請求項1に記載の音声合成装置。 - 動作モードとして第1モードおよび第2モードがあり、
前記音声制御部は、前記音声合成部に対し、
前記動作モードが前記第1モードであれば、前記第2区間の音高を前記第1区間の音高に対して、完全1度を除いた協和音程の関係にある音高となるように変更させ、かつ、前記間を所定時間の範囲内となるように制御し、
前記動作モードが前記第2モードであれば、前記第2区間の音高を前記第1区間の音高に対して、不協和音程の関係にある音高となるように変更させ、かつ、前記間を前記所定時間の範囲外とするように制御する、
ことを特徴とする請求項2に記載の音声合成装置。 - コンピュータを、
入力された音声信号による問いに対する回答を取得する取得部、
前記問いのうち、特定の第1区間の音高を解析する音高解析部、
前記問いにおける音高以外の非言語情報を解析する非言語解析部、
取得された回答を音声合成する音声合成部、および、
前記音声合成部に対し、当該回答における特定の第2区間の音高が前記第1区間の音高に対して所定の関係にある音高となるように変更させ、かつ、解析された非言語情報にしたがって音声合成を制御する音声制御部、
として機能させることを特徴とするプログラム。
Priority Applications (8)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013203839A JP6424419B2 (ja) | 2013-09-30 | 2013-09-30 | 音声制御装置、音声制御方法およびプログラム |
PCT/JP2014/064631 WO2014192959A1 (ja) | 2013-05-31 | 2014-06-02 | 音声合成を用いて発言に応答する技術 |
EP18178496.8A EP3399521B1 (en) | 2013-05-31 | 2014-06-02 | Technology for responding to remarks using speech synthesis |
CN201910272063.5A CN109887485A (zh) | 2013-05-31 | 2014-06-02 | 利用言语合成对话语进行响应的技术 |
US14/892,624 US9685152B2 (en) | 2013-05-31 | 2014-06-02 | Technology for responding to remarks using speech synthesis |
CN201480031099.XA CN105247609B (zh) | 2013-05-31 | 2014-06-02 | 利用言语合成对话语进行响应的方法及装置 |
EP14803435.8A EP3007165B1 (en) | 2013-05-31 | 2014-06-02 | Technology for responding to remarks using speech synthesis |
US15/375,984 US10490181B2 (en) | 2013-05-31 | 2016-12-12 | Technology for responding to remarks using speech synthesis |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013203839A JP6424419B2 (ja) | 2013-09-30 | 2013-09-30 | 音声制御装置、音声制御方法およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2015069037A true JP2015069037A (ja) | 2015-04-13 |
JP6424419B2 JP6424419B2 (ja) | 2018-11-21 |
Family
ID=52835733
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013203839A Expired - Fee Related JP6424419B2 (ja) | 2013-05-31 | 2013-09-30 | 音声制御装置、音声制御方法およびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6424419B2 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019109424A (ja) * | 2017-12-20 | 2019-07-04 | 株式会社日立製作所 | 計算機、言語解析方法、及びプログラム |
WO2021153102A1 (ja) * | 2020-01-27 | 2021-08-05 | ソニーグループ株式会社 | 情報処理装置、情報処理システム、情報処理方法および情報処理プログラム |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS62115199A (ja) * | 1985-11-14 | 1987-05-26 | 日本電気株式会社 | 音声応答装置 |
JPS62145322A (ja) * | 1985-12-20 | 1987-06-29 | Canon Inc | 音声出力装置 |
JPH05289691A (ja) * | 1992-04-10 | 1993-11-05 | Nippon Telegr & Teleph Corp <Ntt> | 発話速度測定装置 |
JPH1165597A (ja) * | 1997-08-25 | 1999-03-09 | Sharp Corp | 音声合成装置、音声合成及びcg合成出力装置、ならびに対話装置 |
JP2012128440A (ja) * | 2012-02-06 | 2012-07-05 | Denso Corp | 音声対話装置 |
-
2013
- 2013-09-30 JP JP2013203839A patent/JP6424419B2/ja not_active Expired - Fee Related
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS62115199A (ja) * | 1985-11-14 | 1987-05-26 | 日本電気株式会社 | 音声応答装置 |
JPS62145322A (ja) * | 1985-12-20 | 1987-06-29 | Canon Inc | 音声出力装置 |
JPH05289691A (ja) * | 1992-04-10 | 1993-11-05 | Nippon Telegr & Teleph Corp <Ntt> | 発話速度測定装置 |
JPH1165597A (ja) * | 1997-08-25 | 1999-03-09 | Sharp Corp | 音声合成装置、音声合成及びcg合成出力装置、ならびに対話装置 |
JP2012128440A (ja) * | 2012-02-06 | 2012-07-05 | Denso Corp | 音声対話装置 |
Non-Patent Citations (2)
Title |
---|
MATTIAS HELDNER ET AL.: ""Pitch Similarity in the Vicinity of Backchannels"", PROC. INTERSPEECH 2010, JPN6016011304, 26 September 2010 (2010-09-26), pages 3054 - 3057, ISSN: 0003643160 * |
東海林圭輔 他: ""対話に関するリズムや同調作用を考慮した音声対話システム"", 情報処理学会研究報告, vol. 2006, no. 40, JPN6011009280, 11 May 2006 (2006-05-11), pages 43 - 48, ISSN: 0003643161 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019109424A (ja) * | 2017-12-20 | 2019-07-04 | 株式会社日立製作所 | 計算機、言語解析方法、及びプログラム |
WO2021153102A1 (ja) * | 2020-01-27 | 2021-08-05 | ソニーグループ株式会社 | 情報処理装置、情報処理システム、情報処理方法および情報処理プログラム |
Also Published As
Publication number | Publication date |
---|---|
JP6424419B2 (ja) | 2018-11-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2014192959A1 (ja) | 音声合成を用いて発言に応答する技術 | |
WO2016063879A1 (ja) | 音声合成装置および方法 | |
JP6648805B2 (ja) | 音声制御方法、音声制御装置およびプログラム | |
JP6464703B2 (ja) | 会話評価装置およびプログラム | |
JP2017021125A (ja) | 音声対話装置 | |
JP2011186143A (ja) | ユーザ挙動を学習する音声合成装置、音声合成方法およびそのためのプログラム | |
JP6343895B2 (ja) | 音声制御装置、音声制御方法およびプログラム | |
JP6375605B2 (ja) | 音声制御装置、音声制御方法およびプログラム | |
JP6566076B2 (ja) | 音声合成方法およびプログラム | |
JP2015069037A (ja) | 音声合成装置およびプログラム | |
JP6375604B2 (ja) | 音声制御装置、音声制御方法およびプログラム | |
JP6648786B2 (ja) | 音声制御装置、音声制御方法およびプログラム | |
JP6232892B2 (ja) | 音声合成装置およびプログラム | |
JP6343896B2 (ja) | 音声制御装置、音声制御方法およびプログラム | |
JP6536713B2 (ja) | 音声制御装置、音声制御方法およびプログラム | |
JP2019184813A (ja) | ロボット及びロボット制御プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20150410 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20160720 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20170926 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20171124 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20180424 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20180522 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20180925 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20181008 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 6424419 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |
|
LAPS | Cancellation because of no payment of annual fees |