JP6424419B2

JP6424419B2 - 音声制御装置、音声制御方法およびプログラム

Info

Publication number: JP6424419B2
Application number: JP2013203839A
Authority: JP
Inventors: 松原　弘明; 弘明松原; 純也浦; 川▲原▼　毅彦; 毅彦川▲原▼; 久湊　裕司; 裕司久湊; 克二吉村
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2013-09-30
Filing date: 2013-09-30
Publication date: 2018-11-21
Anticipated expiration: 2033-09-30
Also published as: JP2015069037A

Description

本発明は、音声制御装置、音声制御方法およびプログラムに関する。

近年、音声合成技術としては、次のようなものが提案されている。すなわち、利用者の話調や声質に対応した音声を合成出力することによって、より人間らしく発音する技術（例えば特許文献１参照）や、利用者の音声を分析して、当該利用者の心理状態や健康状態などを診断する技術（例えば特許文献２参照）が提案されている。
また、利用者が入力した音声を認識する一方で、シナリオで指定された内容を音声合成で出力して、利用者との音声対話を実現する音声対話システムも提案されている（例えば特許文献３参照）。

特開２００３−２７１１９４号公報特許第４４９５９０７号公報特許第４８３２０９７号公報

ところで、上述した音声合成技術と音声対話システムとを組み合わせて、利用者の音声による発言に対し、データを検索して音声合成により出力する対話システムを想定する。この場合、音声合成によって出力される音声が利用者に不自然な感じ、具体的には、いかにも機械が喋っている感じを与えるときがある、という問題が指摘されている。
本発明は、このような事情に鑑みてなされたものであり、その目的の一つは、利用者の発言に対する回答が自然な感じになるような音声制御装置、音声制御方法およびプログラムを提供することにある。

本件発明者は、利用者による問いに対する回答を音声合成で出力（返答）するマン・マシンのシステムを検討するにあたって、まず、人同士では、どのような対話がなされるかについて、言葉が意味する言語的情報以外の非言語情報、とりわけ対話を印象付ける音高（周波数）に着目して考察した。

ここでは、人同士の対話として、一方の人（ａとする）による問い（問い掛け）に対し、他方の人（ｂとする）が返答する場合について検討する。この場合において、ａが問いを発したとき、ａだけなく、当該問いに対して回答しようとするｂも、当該問いのうちの、ある区間における音高を強い印象で残していることが多い。ｂは、同意や、賛同、肯定などの意で回答するときには、印象に残っている問いの音高に対し、当該回答を特徴付ける部分、例えば語尾や語頭の音高が、所定の関係、具体的には協和音程の関係となるように発声する。当該回答を聞いたａは、自己の問いについて印象に残っている音高と当該問いに対する回答を特徴付ける部分の音高とが上記関係にあるので、ｂの回答に対して心地良く、安心するような好印象を抱くことになる、と、本件発明者は考えた。

例えば、ａが「そうでしょ？」という問いを発したとき、ａおよびｂは、当該問いのうち、念押しや確認などの意が強く表れる語尾の「しょ」の音高を記憶に残した状態となる。この状態において、ｂが、当該問いに対して「あ、はい」と肯定的に回答しようとする場合に、印象に残っている「しょ」の音高に対して、回答を特徴付ける部分、例えば語尾の「い」の音高が上記関係になるように「あ、はい」と回答する。

図２は、このような実際の対話におけるフォルマントを示している。この図において、横軸が時間であり、縦軸が周波数であって、スペクトルは、白くなるにつれて強度が強い状態を示している。
図に示されるように、人の音声を周波数解析して得られるスペクトルは、時間的に移動する複数のピーク、すなわちフォルマントとして現れる。詳細には、「そうでしょ？」に相当するフォルマント、および、「あ、はい」に相当するフォルマントは、それぞれ３つのピーク帯（時間軸に沿って移動する白い帯状の部分）として現れている。
これらの３つのピーク帯のうち、周波数の最も低い第１フォルマントについて着目してみると、「そうでしょ？」の「しょ」に相当する符号Ａ（の中心部分）の周波数はおおよそ４００Ｈｚである。一方、符号Ｂは、「あ、はい」の「い」に相当する符号Ｂの周波数はおおよそ２６０Ｈｚである。このため、符号Ａの周波数は、符号Ｂの周波数に対して、ほぼ３／２となっていることが判る。

周波数の比が３／２であるという関係は、音程でいえば、「ソ」に対して同じオクターブの「ド」や、「ミ」に対して１つ下のオクターブの「ラ」などをいい、後述するように、完全５度の関係にある。この周波数の比（音高同士における所定の関係）については、好適な一例であるが、後述するように様々な例が挙げられる。

なお、図３は、音名（階名）と人の声の周波数との関係について示す図である。この例では、第４オクターブの「ド」を基準にしたときの周波数比も併せて示しており、「ソ」は「ド」を基準にすると、上記のように３／２である。また、第３オクターブの「ラ」を基準にしたときの周波数比についても並列に例示している。

このように人同士の対話では、問いの音高と返答する回答の音高とは無関係ではなく、上記のような関係がある、と考察できる。そして、本件発明者は、多くの対話例を分析し、多くの人による評価を統計的に集計して、この考えがおおよそ正しいことを裏付けた。

さて、人同士の対話において、問いの音高は、当該問いの印象を特徴付ける要素ではあるが、音高以外の非言語情報によっても、当該問いの印象が大きく左右される。例えば、ひそひそ話のように、小声で問いを発する場合、当該問いに対する回答について小声で発することが暗に要求されている、という印象を相手に与える。また、悲しい表情で「悲しくないよ」と発言しても、それは言語的には、悲しくないかもしれないが、非言語的には悲しい、と捉えられるので、非言語的な意味内容に応じて回答しなければならない、という印象を相手に与える。
したがって、利用者による問いに対する回答を音声合成で出力（返答）する対話システムを検討したときに、当該問いの音高のみならず、当該音高以外の非言語情報も回答を音声合成する上で、重要な要素となり得る。
そこで、当該音声合成について上記目的を達成するために、次のような構成とした。

すなわち、上記目的を達成するために、本発明の一態様に係る音声合成装置は、音声信号による問いを入力する音声入力部と、前記問いのうち、特定の第１区間の音高を解析する音高解析部と、前記問いにおける音高以外の非言語情報を解析する非言語解析部と、前記問いに対する回答を取得する取得部と、取得された回答を音声合成する音声合成部と、前記音声合成部に対し、当該回答における特定の第２区間の音高が前記第１区間の音高に対して所定の関係にある音高となるように変更させ、かつ、解析された非言語情報にしたがって音声合成を制御する音声制御部と、を具備することを特徴とする。
この一態様によれば、入力された音声信号による問いに対して、音声合成される回答に、不自然な感じが伴わないようにすることができる。

なお、回答には、質問に対する具体的な答えに限られず、「ええ」、「なるほど」、「そうですね」などの相槌（間投詞）も含まれる。また、問いにおける音高以外の非言語情報には、例えば音量、声質、スピード（話す速度）などのように問いの音声に関係するもののほか、問いを発した利用者の表情や、ジェスチャ、服装などが含まれる。
ここで、第１区間は、例えば問いの語尾であり、第２区間は、回答の語頭または語尾であることが好ましい。上述したように、問いの印象を特徴付ける区間は、当該問いの語尾であり、回答の印象を特徴付ける区間は、回答の語頭または語尾であることが多いからである。
また、所定の関係は、完全１度を除いた協和音程の関係であることが好ましい。ここで、協和とは、複数の楽音が同時に発生したときに、それらが互いに溶け合って良く調和する関係をいい、これらの音程関係を協和音程という。協和の程度は、２音間の周波数比（振動数比）が単純なものほど高い。周波数比が最も単純な１／１（完全１度）と、２／１（完全８度）とを、特に絶対協和音程といい、これに３／２（完全５度）と４／３（完全４度）とを加えて完全協和音程という。５／４（長３度）、６／５（短３度）、５／３（長６度）および８／５（短６度）を不完全協和音程といい、これ以外のすべての周波数比の関係（長・短の２度と７度、各種の増・減音程など）を不協和音程という。
なお、第２区間の音高が、第１区間の音高と同一となる場合には、対話として不自然な感じを伴うと考えられるので、問いの音高と回答の音高との関係において、完全１度が除かれる。
上記態様において、所定の関係として最も望ましい例は、上述したように第２区間の音高が、第１区間の音高に対して５度下の協和音程の関係である、と考えられる。ただし、所定の関係としては、完全１度を除く協和音程に限られず、不協和音程の関係でも良いし、同一を除く、上下１オクターブの範囲内の音高関係でも良い。

一方、人同士の対話においては、当該問いに関する非言語情報、例えば話者の表情や、話す速度などにしたがって、回答を開始するまでの間が適切にとられる場合が多い。このため、利用者による問いに対する回答を音声合成で出力する場合、前記音声制御部は、問いが発せられてから前記回答を出力するまでの間を、少なくとも解析された非言語情報に応じて制御する構成としても良い。

上記構成において、動作モードとして第１モードおよび第２モードがあり、前記音声制御部は、前記音声合成部に対し、前記動作モードが前記第１モードであれば、前記第２区間の音高を前記第１区間の音高に対して、完全１度を除いた協和音程の関係にある音高となるように変更させ、かつ、前記間を所定時間の範囲内となるように制御し、前記動作モードが前記第２モードであれば、前記第２区間の音高を前記第１区間の音高に対して、不協和音程の関係にある音高となるように変更させ、かつ、前記間を前記所定時間の範囲外とするように制御しても良い。
例えば、動作モードが第２モードであれば、不協和音程の関係にある回答が、所定時間範囲外の間となるように制御されるので、問いを発した利用者に違和感を与えることができる。逆にいえば、第２モードにすることによって、利用者に、注意喚起したり、意図的に嫌悪な感じを与えたりすることができる。
なお、動作モードが第１モードであれば、完全１度を除いた協和音程の関係にある回答が、所定時間範囲内の間となるように制御されるので、問いを発した利用者に違和感を与えることがない。ここで、所定時間の範囲内としては、例えば０．５秒から２．０秒までの時間範囲が適切な間である、と考えられる。

本発明の態様について、音声合成装置のみならず、コンピュータを当該音声合成装置として機能させるプログラムとして概念することも可能である。
なお、本発明では、問いの音高（周波数）を解析対象とし、回答の音高を制御対象としているが、ヒトの音声は、上述したフォルマントの例でも明らかなように、ある程度の周波数域を有するので、解析や制御についても、ある程度の周波数範囲を持ってしまうのは避けられない。また、解析や制御については、当然のことながら誤差が発生する。このため、本件において、音高の解析や制御については、音高（周波数）の数値が同一であることのみならず、ある程度の範囲を伴うことが許容される。

第１実施形態に係る音声合成装置の構成を示すブロック図である。対話における音声のフォルマントの例を示す図である。音名と周波数等との関係を示す図である。音声合成装置の動作を示すフローチャートである。語尾の特定の具体例を示す図である。音声シーケンスに対する音高シフトの例を示す図である。利用者による問いに対し合成音声の与える心理的影響を示す図である。第２実施形態に係る音声合成装置の構成を示すブロック図である。音声波形データに対する音高変換の例を示す図である。第３実施形態における音声合成を説明するための図である。第４実施形態に係る音声合成装置における処理の要部を示す図である。第５実施形態に係る音声合成装置の構成を示すブロック図である。応用例（その１）における処理の要部を示す図である。応用例（その２）における処理の要部を示す図である。

以下、本発明の実施形態について図面を参照して説明する。

＜第１実施形態＞
まず、第１実施形態に係る音声合成装置について説明する。
図１は、本発明の第１実施形態に係る音声合成装置１０の構成を示す図である。
この図において、音声合成装置１０は、ＣＰＵ（Central Processing Unit）や、音声入力部１０２、スピーカ１４２を有する、例えば携帯電話機のような端末装置である。音声合成装置１０においてＣＰＵが、予めインストールされたアプリケーションプログラムを実行することによって、複数の機能ブロックが次のように構築される。
詳細には、音声合成装置１０では、発話区間検出部１０４、音高解析部１０６、非言語解析部１０７、言語解析部１０８、音声制御部１０９、回答作成部１１０、音声合成部１１２、言語データベース１２２、回答データベース１２４、情報取得部１２６および音声ライブラリ１２８が構築される。
なお、特に図示しないが、このほかにも音声合成装置１０は、表示部や操作入力部なども有し、利用者が装置の状況を確認したり、装置に対して各種の操作を入力したりすることができるようになっている。また、音声合成装置１０は、携帯電話機のような端末装置に限られず、ノート型やタブレット型のパーソナルコンピュータであっても良い。

音声入力部１０２は、詳細については省略するが、音声を電気信号に変換するマイクロフォンと、変換された音声信号の高域成分をカットするＬＰＦ（ローパスフィルタ）と、高域成分をカットした音声信号をデジタル信号に変換するＡ／Ｄ変換器とで構成される。
発話区間検出部１０４は、デジタル信号に変換された音声信号を処理して発話（有音）区間を検出する。

音高解析部１０６は、発話区間として検出された音声信号を周波数解析するとともに、解析して得られた第１フォルマントのうち、特定の区間（第１区間）の音高を求めて、当該音高を示す音高データを出力する。なお、第１区間とは、例えば問いの語尾である。また、第１フォルマントとは、例えば音声を周波数解析したときに得られる複数のフォルマントのうち、周波数の最も低い成分をいい、図２の例でいえば、末端が符号Ａとなっているピーク帯をいう。周波数解析については、ＦＦＴ（Fast Fourier Transform）や、その他公知の方法を用いることができる。問いにおける語尾を特定するための具体的手法の一例については後述する。

本実施形態において非言語解析部１０７は、発話区間として検出された音声信号を解析して、音高以外の非言語情報を出力する。非言語情報としては、上述したように例えば音声のスピード（話す速度）や、声質、音量、問いを発した利用者の表情、ジェスチャ、服装などが想定されるが、本実施形態では、スピードおよび音量とする。すなわち、本実施形態において非言語解析部１０７は、問いのスピードおよび音量を、問いにおける音高以外の非言語情報として出力する。
なお、問いにおける音高以外の非言語情報が音量を含む場合、上記音高解析部１０６は、詳細については後述するように、問いにおける第１区間の音高を特定するにあたって、図において破線で示されるように、当該音量を補助情報として用いることができる。

音声制御部１０９は、音高解析部１０６による音高データおよび非言語解析部１０７による非言語情報（スピードおよび音量）に応じて、音声合成部１１２を制御する。なお、音声制御部１０９による音声合成部１１２の制御内容については後述する。

一方、言語解析部１０８は、発話区間として検出された音声信号がどの音素に近いのかを、言語データベース１２２に予め作成された音素モデルを参照することにより判定して、音声信号で規定される言葉の意味を解析（特定）する。なお、このような音素モデルには、例えば隠れマルコフモデルを用いることができる。

回答作成部１１０は、言語解析部１０８によって解析された言葉の意味に対応する回答を、回答データベース１２４および情報取得部１２６を参照して作成する。例えば「いまなんじ？（今、何時？）」という問いに対しては、音声合成装置１０は、内蔵のリアルタイムクロック（図示省略）から時刻情報を取得するとともに、時刻情報以外の情報を回答データベース１２４から取得することで、「ただいま○○時○○分です」という回答を作成することが可能である。
一方で、音声合成装置１０は、「あしたのてんきは？（明日の天気は？）」という問いに対しては、外部サーバにアクセスして天気情報を取得しないと、音声合成装置１０の単体で回答を作成することができない。このように、回答データベース１２４のみでは回答が作成できない場合、情報取得部１２６が、インターネットを介し外部サーバにアクセスして、回答に必要な情報を取得する構成となっている。すなわち、回答作成部１１０は、問いに対する回答を、回答データベース１２４または外部サーバから取得する構成となっている。
なお、回答作成部１１０は、本実施形態では回答を、音素列であって、各音素に対応する音高や発音タイミングを規定した音声シーケンスにて出力する。当該音声シーケンスは、音声制御部１０９および音声合成部１１２にそれぞれ供給される。

音声合成部１１２は、音高や発音タイミングが規定された音声シーケンスにしたがって音声合成すれば、当該回答の基本音声を出力することができる。
ただし、本実施形態では、音声合成部１１２は、音声シーケンスで規定される基本音声を、音声制御部１０９の指示にしたがって変更して音声合成する。
ここで、音声制御部１０９は、音声合成部１１２による音声合成を次のように制御する。すなわち、音声制御部１０９は、音声シーケンスのうち、特定の区間（第２区間）の音高を、音高データに対して所定の関係となるように、さらに、非言語情報のスピードに応じた速度となるように、非言語情報の音量に応じた大きさとなるように、音声合成を制御する。
なお、本実施形態において第２区間を、回答の語尾とするが、後述するように語尾に限られない。また、本実施形態において、音高データに対して所定の関係にある音高を、５度の下の関係にある音高とするが、後述するように、５度下以外の関係にある音高としても良い。

また、音声合成部１１２は、音声を合成するにあたって、音声ライブラリ１２８に登録された音声素片データを用いる。音声ライブラリ１２８は、単一の音素や音素から音素への遷移部分など、音声の素材となる各種の音声素片の波形を定義した音声素片データを、予めデータベース化したものである。音声合成部１１２は、具体的には、音声シーケンスの一音一音（音素）の音声素片データを組み合わせて、繋ぎ部分が連続するように修正しつつ、上記のように回答の語尾の音高を変更して音声信号を生成する。
なお、音声合成部１１２によって音声合成された音声信号は、図示省略したＤ／Ａ変換部によってアナログ信号に変換された後、スピーカ１４２によって音響変換されて出力される。

次に、音声合成装置１０の動作について説明する。図４は、音声合成装置１０における処理動作を示すフローチャートである。
はじめに、利用者が所定の操作をしたとき、例えば対話処理に対応したアイコンなどをメインメニュー画面（図示省略）において選択したとき、ＣＰＵが当該処理に対応したアプリケーションプログラムを起動する。このアプリケーションプログラムを実行することによって、ＣＰＵは、図１で示した機能ブロックを構築する。

まず、ステップＳａ１１において利用者が音声入力部１０２に対して音声で問いを入力する。次に、ステップＳａ１２において発話区間検出部１０４は、当該音声の大きさ、すなわち音量が閾値以下となる状態が所定期間以上連続する区間を無音区間とし、それ以外の区間を発話区間として検出して、当該発話区間の音声信号を音高解析部１０６、非言語解析部１０７および言語解析部１０８のそれぞれに供給する。

ステップＳａ１３において非言語解析部１０７は、検出された発話区間の音声信号から、問いにおけるスピード（話す速度）を解析して、当該スピードを示すスピードデータを出力する。
また、非言語解析部１０７は、上記ステップＳａ１３における速度解析と並行して、ステップＳａ１４において次のような音量解析を実行する。すなわち、非言語解析部１０７は、検出された発話区間における問いの音声信号の例えば平均的な音量を求めて、当該音量を示す音量データを出力するとともに、この音量データの出力とは別に、当該音声信号の音量波形を求める。図５の（ａ）は、この音量波形の一例を示す図であり、音量を縦軸に、経過時間を横軸にとってある。
問いを発した人が、当該問いに対する回答を欲するような対話を想定した場合、問いの語尾に相当する部分では、音量が他の部分として比較して一時的に大きくなる、と考えられる。このため、非言語解析部１０７は、（ａ）の音量波形のうち、時間的に最後の極大Ｐ１のタイミングを特定するデータを音高解析部１０６に供給する。

ステップＳａ１５において音高解析部１０６は、検出された発話区間における問いの音声信号を例えば次のように解析し、当該問いにおける第１区間（語尾）の音高を特定して、当該音高を示す音高データを音声制御部１０９に供給する。
詳細には、第１に、音高解析部１０６は、発話区間として検出された問いの音声信号を解析して、音高波形を求める。図５の（ｂ）は、（ａ）と同じ音声信号について周波数解析して得られる第１フォルマントの音高を縦軸で、経過時間を横軸で表した音高波形の一例である。
第２に、音高解析部１０６は、（ｂ）の音高波形のうち、ステップＳａ１４で特定された極大Ｐ１のタイミングを前後に含む所定の時間範囲（例えば１００μ秒〜３００μ秒）を語尾であると認定する。
第３に、音高解析部１０６は、（ｂ）の音高波形のうち、認定した語尾に相当する区間Ｑ１の平均音高を、音高データとして出力する。
このように、発話区間における音量波形について最後の極大Ｐ１を、問いの語尾に相当するタイミングとして特定することによって、会話としての問いの語尾の誤検出を少なくすることができる、と考えられる。
ここでは、（ａ）の音量波形のうち、時間的に最後の極大Ｐ１のタイミングを前後に含む所定の時間範囲を語尾であると認定したが、極大Ｐ１のタイミングを始期または終期とする所定の時間範囲を語尾と認定しても良い。また、認定した語尾に相当する区間Ｑ１の平均音高ではなく、区間Ｑ１の始期、終期や、極大Ｐ１のタイミングの音高を、音高データとして出力する構成としても良い。

一方、ステップＳａ１６において言語解析部１０８は、問いの音声信号における言葉の意味を解析し、その意味内容を示すデータを、回答作成部１１０に供給する。ステップＳａ１７において、回答作成部１１０は、解析された言葉の意味に対応する回答を、回答データベース１２４を用いて作成したり、必要に応じて情報取得部１２６を介し外部サーバから取得したりして、当該回答に基づく音声シーケンスを作成し、音声制御部１０９および音声合成部１１２にそれぞれ供給する。

図６の（ａ）は、例えば「あしたのてんきは？」という問いに対して作成された回答の音声（音声シーケンス）の一例である。この図の例では、回答である「はれです」の一音一音に音符を割り当てて、音声シーケンスによる基本音声の各語（音素）の音高や発音タイミングを示している。なお、この例では、説明簡略化のために、一音（音素）に音符を１つ割り当てているが、スラーやタイなどのように、一音に複数の音符を割り当てても良い。

次に、ステップＳａ１８において、音声制御部１０９は、回答作成部１１０から供給された音声シーケンスから、当該音声シーケンスにおける語尾の音高（初期音高）を特定する。

続いて、ステップＳａ１９において、音声制御部１０９は、上記初期音高が音高解析部１０６からの音高データで示される音高に対して５度下の関係となるように、回答作成部１１０から供給される音声シーケンスの変更内容を決定する。
例えば図６の（ｂ）で示されるように、「あしたのてんきは？」という問いのうち、符号Ａで示される語尾の「は」の区間の音高が音高データによって「ソ」であると示される場合、音声制御部１０９は、「はれです」という回答の音声シーケンスのうち、符号Ｂで示される語尾の「す」の区間の音高が「ソ」に対して５度下の音高である「ド」になるように、音声シーケンス全体の変更内容を決定する。

音声制御部１０９は、音声合成部１１２に対して、ステップＳａ２０において、問いの平均的な音量を示す音量データに対応する音量で回答の全体を音声合成すべき旨を決定し、引き続き、ステップＳａ２１において、スピードデータに対応する速度で回答の全体を音声合成すべき旨を決定する。

そして、ステップＳａ２２において音声合成部１１２は、音声制御部１０９によって変更が決定された音声シーケンスの音声を、決定された音量で、決定された速度で合成して出力する。
なお、回答の音声を出力すると、特に図示しないが、ＣＰＵは、当該アプリケーションプログラムの実行を終了させて、メニュー画面に戻す。

図７は、本実施形態に係る音声合成装置１０が利用者に与える印象を説明するための図である。同図の（ａ）に示されるように、利用者Ｗが「あしたのてんきは？」という問いを端末装置である音声合成装置１０に入力する。このときの問いの語尾に相当する「は」の音高が「ソ」であれば、実施形態では、同図の（ｂ）で示されるように、または、上述したように「はれです」という音声シーケンスにおいて、語尾に相当する「す」の音高が「ド」になるように音高がシフトされて音声合成される。このため、利用者Ｗに不自然な感じを与えず、あたかも対話しているかのような好印象を与えることができる。
一方、同図の（ｃ）で示されるように「はれです」という音声シーケンスの音高をシフトしないで音声合成した場合、語尾に相当する「す」の音高が「ファ」で出力される。この場合において音高の「ファ」は、「あしたのてんきは？」という問いの語尾に相当する「は」の音高の「ソ」に対して不協和音程の関係にある。すなわち、図３を参照すれば、「ソ」の周波数（３９６．０Ｈｚ）は「ファ」の周波数（３５２．０Ｈｚ）に対して９／８の関係にある。このため、利用者Ｗに不自然な感じを与えるのでなく、むしろ嫌悪のような悪印象を与えてしまう。ただし、後述するように、音声合成装置１０において、このような悪印象を利用者に積極的に与える構成もあり得る。

また、利用者Ｗが、例えば、ひそひそ話のように小さい声で問いを発声したとき、音声合成装置１０は、問いの音声に合わせて小さな音量で回答を音声合成する。逆に、利用者Ｗが大きな声で問いを発声したとき、音声合成装置１０は、大きな音量で回答を音声合成する。さらに、利用者Ｗが、例えば、捲し立てて問いを発声したとき、音声合成装置１０は、問いのスピードに合わせて早口で回答を音声合成する。逆に、利用者Ｗがゆっくりと発声したとき、音声合成装置１０は、それに合わせてゆっくりした速度で回答を音声合成する。
このように、本実施形態では、問いの音高に加えて、音量およびスピードを反映させて、回答を音声合成するので、あたかも人同士が対話しているかのように、問いに対する回答を利用者に自然な感じで与えることが可能になる。
なお、早口は緊張の表れという説もある。このため、問いの速度が高ければ、音声合成装置１０が、逆にゆっくりとした速度で回答を音声合成する構成にすると、その緊張を解きほぐすという効果が期待できる。このため、問いの速度が高ければ、音声合成の速度も高くする、という構成には限定されない。

＜第２実施形態＞
次に、第２実施形態について説明する。
図８は、第２実施形態に係る音声合成装置１０の構成を示すブロック図である。
第１実施形態では、回答作成部１１０が、問いに対する回答として、一音一音に音高が割り当てられた音声シーケンスを出力する構成としたが、第２実施形態では、回答音声出力部１１３が、問いに対する回答を取得して、当該回答の音声波形データを出力する。
なお、取得した回答には、回答音声出力部１１３が作成したものや、外部サーバから取得したもの、予め複数用意された回答のうち、選択されたものなどが含まれる。また、音声波形データは、例えばｗａｖ形式のようなデータであり、上述した音声シーケンスのように一音一音に音高が割り当てられない。したがって、このような音声波形データを単純に再生しただけでは、図９の（ａ）に示されるように、抑揚があるだけで、機械的な感じになる。

さて、音声波形データを再生したときに、問いの語尾の音高に対して回答の語尾の音高が協和音程の関係となるように変更するのが、後処理部１１４である。詳細には、後処理部１１４は、音声波形データを単純に再生した場合における語尾に相当する部分の音高を解析するとともに、当該解析した音高が音高解析部１０６からの音高データで示される音高に対して例えば５度下の関係となるように、回答音声出力部１１３から出力される音声波形データを音高変換（ピッチ変換）する。また、後処理部１１４は、音声波形データの全体を、非言語情報の音量に応じた大きさで、当該非言語情報のスピードに応じた速度で再生する。すなわち、第２実施形態では、後処理部１１４が、取得された回答の語尾の音高を、問いの語尾の音高に対して協和音程の一例である５度下の音高となるように変更するとともに、回答の全体の音量、再生速度を制御することになる。

この変換の結果は、図９の（ｂ）に示されるように、図６の（ｂ）に示した音高シフトとほぼ同様である。この構成によれば、問いに対する回答が具体的であることが必要でない場合、例えば「はい」や「いいえ」のような単純な返事や「そうですね」のような相槌などのように回答する場合には、回答音声出力部１１３は、予め複数記憶させた音声波形データのち、当該問いに対して、いずれかの音声波形データを選択して出力する構成で済む。

＜第３実施形態＞
人同士の対話において、問いを早口で発した人は、一般的には、せっかちである、急いでいる、などのような性格・心理状態であり、したがって、当該問いに対する回答を迅速に得たい、と考えられる。一方、問いをゆっくりと発した人は、一般的には、慎重を期している、落ち着いているなどのような状態であり、したがって、当該問いに対する回答を、じっくり待つ、と考えられる。
そこで、第３実施形態では、問いの非言語情報に応じて、ここでは問いのスピードに応じて、音声合成を開始するタイミング（問いが終了してから回答の音声合成を開始するまでの間）を制御する構成としたものである。
第３実施形態に係る音声合成装置１０は、音声シーケンスを用いる構成であれば、第１実施形態における図１とほぼ同様である。ただし、音声制御部１０９は、音声合成部１１２に対し、例えば非言語情報のスピードデータで示される問いのスピードが遅くなるにつれて、音声合成の開始タイミングを遅らせるように制御する。

図１０は、第３実施形態における音声合成を説明するための図である。同図の（ａ）に示されるように、利用者Ｗが「あしたのてんきは？」という問いを早口で、音声合成装置１０に入力した場合、回答例である「はれです」が音声出力されるタイミングは、比較的早くなる。また、当該回答例の全体の速度も速くなる。
一方、同図の（ｂ）に示されるように、利用者Ｗが同じ問いをゆっくりと、入力した場合、回答例である「はれです」が音声出力されるタイミングは、比較的遅くなる。また、当該回答例の全体の速度も遅くなる。
なお、この図において、問いが発せられてから回答の音声合成が開始するまでの間を、問いの語尾から回答の語頭までの期間Ｔａ、Ｔｂ（Ｔａ＜Ｔｂ）で表している。もちろん、間については、これ以外で規定されても良い。また、図において、問い・回答を示す文字間が狭いほど、早口であることを示している。

第３実施形態によれば、人同士が対話するかのように、問いに対する回答を得たい利用者に対し、自然な感じに加えて、当該利用者の性格、心理状態等に合わせて回答を与えることが可能になる。
なお、第３実施形態において、音声シーケンスではなく音声波形データを用いる構成であれば、第２実施形態における図８とほぼ同様な構成になる。この構成において、後処理部１１４は、非言語情報のスピードが遅くなるにつれて、音声出力の開始タイミングを遅らせる。また、ここでは、音声出力の開始タイミングを、問いのスピードで制御する構成としたが、スピードに替えて音量、音高を用いても良いし、スピード、音量、音高以外の情報などを適宜組み合わせて用いても良い。

＜第４実施形態＞
上述した各実施形態では、問いの語尾に対して、回答の語尾の音高が協和音程の関係となるように音声合成を制御する構成としたが、不協和音程の関係になるように音声合成を制御しても良い。回答を不協和音程の関係にある音高で合成した口調では、問いを発した利用者に、不自然な感じや、悪印象、険悪な感じなどを与えて、スムーズな対話が成立しなくなる、という懸念もあるが、このような口調が逆にストレス解消に良いという見解もある。
そこでまず、第４実施形態では、動作モードとして、好印象等の回答を望むモード（第１モード）に加えて、悪印象をあえるような口調の回答を望むモード（第２モード）が用意される。なお、いずれかのモードにするかについては、利用者によって適宜設定される。

また、人同士の対話を検討してみると、問いに対して意図的に悪印象を与えるかのように回答する場合、問いに対する回答の間は、そうでない場合と比較して、極端に詰められるか、または、極端に空けられる。例えば、喧嘩のような場面では、一方の発言に対して、すかさずに（間をおかずに）反論する、または、わざと間をおいて返答する。

このため、第４実施形態では、次のような処理を実行する。
図１１は、第４実施形態における処理の要部を示す図であり、図４におけるステップＳａ１９の「回答の音高決定」で実行される処理を示している。すなわち、第４実施形態では、図４に示されるステップＳａ１９において、図１１で示される処理が実行される、という関係にある。
まず、図１１において、音声制御部１０９は、動作モードとして第１モードが設定されているか否かを判別する（ステップＳｄ１７２）。

音声制御部１０９は、動作モードとして第１モードが設定されていれば（ステップＳｄ１７２の判別結果が「Ｙｅｓ」であれば）、音声合成部１１２に対する指示として、回答の例えば語尾の音高を、問いの例えば語尾の音高に対して協和音程の関係にある音高となるように決定する（ステップＳｄ１７３Ａ）。
次に、音声制御部１０９は、音声合成部１１２に対する指示として、音声合成を、問いの語尾から所定時間の範囲内で開始するように決定する（ステップＳｄ１７４Ａ）。なお、所定時間の範囲とは、上述したように例えば０．５秒から２．０秒までの時間範囲であり、この時間範囲内にあれば、適切な間である、と考えられるからである。

一方、音声制御部１０９は、動作モードとして第２モードが設定されていれば（ステップＳｄ１７２の判別結果が「Ｎｏ」であれば）、回答の語尾の音高を、問いの語尾の音高に対して不協和音程の関係にある音高となるように決定する（ステップＳｄ１７３Ｂ）。
次に、音声制御部１０９は、音声合成部１１２に対する指示として、音声合成を、問いの語尾から所定時間の範囲外で開始するように決定する（ステップＳｄ１７４Ｂ）。
なお、処理手順は、ステップＳｄ１７４ＡまたはＳｄ１７４Ｂの後においては、図４のステップＳａ２０に戻り、音声制御部１０９が、回答の全体の音量を決定し、ステップＳａ２１において回答の全体の速度を決定し、この後、ステップＳａ２２において音声合成部１１２は、音声制御部１０９によって変更が決定された音声シーケンスの音声を、決定されたタイミングで、決定された音量で、決定された速度で合成して出力することになる。

このように、第４実施形態では、第１モードであれば、回答の語尾の音高が、問いの語尾の音高に対して、完全１度を除いた協和音程、例えば５度下の関係にある音高となるように変更され、かつ、間が所定時間の範囲内となるように制御される一方で、第２モードであれば、回答の語尾の音高が、問いの語尾の音高に対して、不協和音程となるように変更され、かつ、間を所定時間の範囲外となるように制御されるので、利用者は、適宜動作モードを使い分けることができることになる。
なお、第４実施形態においても、音声シーケンスではなく音声波形データを用いる構成が可能である。

＜第５実施形態＞
上述した各実施形態では、非言語情報として音高、音量、速度などのように、利用者が発した問い（音）自体に関連する情報を用いたが、非言語情報としては、このほかにも、利用者の表情や、ジェスチャ、服装などを用いることができる。そこで、非言語情報として、音以外の情報を用いる第５実施形態について説明する。

図１２は、第５実施形態に係る音声合成装置１０の構成を示すブロック図であり、音声合成装置１０において周囲を撮影する撮影部１３０が設けられている。本実施形態において、非言語解析部１０７は、撮影部１３０で撮影された静止画から、例えば、利用者の表情（笑い、困惑、怒りなど）を解析して、音声合成における処理において次のように反映させる。

例えば利用者が笑いながら問いを発した場合、音高解析部１０６が当該問いの音高解析において、音高が高く検出される傾向がある。このため、非言語解析部１０７は、当該音高解析部１０６に対し、検出される音高を低くするように補正させる。一方、利用者が怒りながら問いを発した場合、当該問いを音高解析において、音高が低く検出される傾向がある。このため、非言語解析部１０７は、当該音高解析部１０６に対し、検出される音高を高くするように補正させる。
このような音高解析部１０６における音高解析結果を、利用者の表情に応じて補正することによって、音高の検出・解析の精度を高めることができる。

また、音声合成装置１０が回答を音声合成して出力した後、利用者が困惑した表情であれば、回答が不自然な感じ、例えば音声合成装置１０は、回答の語尾の音高が問いの語尾の音高に対して５度下の関係となるようにしているが、この関係が正しく保たれていないことが考えられる。このため、非言語解析部１０７は、音声制御部１０９に対し、問いの音高に対する回答の音高の関係を、５度下から別の関係、例えば４度下の関係に変更させる。あるいは、上記のように音高解析部１０６における問いの音高解析の精度が低下していることも考えられるので、非言語解析部１０７は、当該音高解析部１０６における音高の解析アルゴリズム（音高波形のうち、どの極大を語尾とするのか、語尾のどの部分の音高を決定するのか、など）を変更させる。
このように利用者の表情に応じて音高解析や音声合成を制御することによって、音声合成する回答を違和感のない方向に導くことができる。

なおここでは、利用者の表情で説明したが、撮影部１３０により撮影された利用者の動画から当該利用者のジェスチャ、服装などを解析して、当該ジェスチャ等に応じて音高解析や音声合成を制御する構成としても良い。
また、撮影部１３０に限られず、湿度センサなどの周辺環境の情報を用いて音声合成を制御しても良い。例えば蒸し暑い環境下ではイライラを緩和させるような回答を音声合成するよう構成しても良い。

＜応用例・変形例＞
本発明は、上述した各実施形態に限定されるものではなく、例えば次に述べるような各種の応用・変形が可能である。また、次に述べる応用・変形の態様は、任意に選択された一または複数を適宜に組み合わせることもできる。

＜音声入力部＞
実施形態では、音声入力部１０２は、利用者の音声（発言）をマイクロフォンで入力して音声信号に変換する構成としたが、特許請求の範囲に記載された音声入力部は、この構成に限られない。すなわち、特許請求の範囲に記載された音声入力部は、音声信号による発言をなんらかの形で入力する、または、入力される構成であれば良い。詳細には、特許請求の範囲に記載された音声入力部は、他の処理部で処理された音声信号や、他の装置から供給（または転送された）音声信号を入力する構成、さらには、ＬＳＩに内蔵され、単に音声信号を受信し後段に転送する入力インターフェース回路等を含んだ概念である。

＜回答等の語尾、語頭＞
各実施形態では、問いの語尾の音高に対応して回答の語尾の音高を制御する構成としたが、言語や、方言、言い回しなどによっては回答の語尾以外の部分、例えば語頭が特徴的となる場合もある。このような場合には、問いを発した人は、当該問いに対する回答があったときに、当該問いの語尾の音高と、当該回答の特徴的な語頭の音高とを無意識のうち比較して当該回答に対する印象を判断する。したがって、この場合には、問いの語尾の音高に対応して回答の語頭の音高を制御する構成とすれば良い。この構成によれば、回答の語頭が特徴的である場合、当該回答を受け取る利用者に対して心理的な印象を与えることが可能となる。

問いについても同様であり、語尾に限られず、語頭で判断される場合も考えられる。また、問い、回答については、語頭、語尾に限られず、平均的な音高で判断される場合や、最も強く発音した部分の音高で判断される場合なども考えられる。このため、問いの第１区間および回答の第２区間は、必ずしも語頭や語尾に限られない、ということができる。

＜音程の関係＞
上述した実施形態では、問いの語尾等に対して回答の語尾等の音高が５度下となるように音声合成を制御する構成としたが、５度下以外の協和音程の関係に制御する構成であっても良い。例えば、上述したように完全８度、完全５度、完全４度、長・短３度、長・短６度であっても良い。
また、協和音程の関係でなくても、経験的に良い（または悪い）印象を与える音程の関係の存在が認められる場合もあるので、当該音程の関係に回答の音高を制御する構成としても良い。ただし、この場合においても、問いの語尾等の音高と回答の語尾等の音高との２音間の音程が離れ過ぎると、問いに対する回答が不自然になりやすいので、問いの音高と回答の音高とが上下１オクターブの範囲内にあることが望ましい。

＜適用ルールの揺らぎ等＞
上述した実施形態では、問いの音量、速度に対して上述したルールにたがって、回答の音量、速度、間を決定したが、このルールを固定的にすると、利用者に対して回答が単調であるという印象を与えかねない。そこで、例えば不自然な感じを与えない範囲で上記ルールに揺らぎを与えて変更する構成としても良いし、上記範囲内のルールを複数用意しておき、音声合成する場合に適用するルールをランダムに１つ選択する構成としても良い。
このような構成により、利用者に対して単調な回答を与えてしまうことを回避することができる。

＜回答の音高シフト＞
ところで、音声シーケンスや音声波形データで規定される回答の語尾等の音高を、問いの語尾等の音高に対して所定の関係となるように制御する構成では、詳細には、実施形態のように例えば５度下となるようにシフトする構成では、５度下の音高が低すぎると、不自然な低音で回答が音声合成されてしまう場合がある。そこで次に、このような場合を回避するための応用例（その１、および、その２）について説明する。

図１３は、このうちの応用例（その１）における処理の要部を示す図である。
まず、音声制御部１０９は、音高解析部１０６からの音高データで示される音高に対して、例えば５度下の関係にある音高を求めて仮決定する（ステップＳｂ１７１）。
次に、音声制御部１０９は、仮決定した音高が予め定められた閾値音高よりも低いか否かを判別する（ステップＳｂ１７２）。なお、閾値音高は、音声合成する際の下限周波数に相当する音高や、これより低くければ不自然な感じを与えるような音高などに設定される。

仮決定した音高、すなわち問いにおける語尾の音高よりも５度下の音高が閾値音高よりも低ければ（ステップＳｂ１７２の判別結果が「Ｙｅｓ」であれば）、音声制御部１０９は、仮決定した音高を１オクターブ上の音高にシフトする（ステップＳｂ１７３）。
一方、求めた音高が閾値音高以上であれば（ステップＳｂ１７２の判別結果が「Ｎｏ」であれば）、上記ステップＳｂ１７３の処理がスキップされる。
そして、音声制御部１０９は、回答をシフトする際に目標となる語尾の音高を、次のような音高に本決定する（ステップＳｂ１７４）。すなわち、音声制御部１０９は、仮決定した音高が閾値音高よりも低ければ、仮決定した音高を１オクターブ上に変更した音高に、また、仮決定した音高が閾値音高以上であれば、当該仮決定した音高をそのまま、それぞれ目標となる音高を本決定する。
なお、処理手順は、ステップＳｂ１７４の後においては、図４のステップＳａ２０に戻り、音声制御部１０９が、回答の全体の音量を決定し、ステップＳａ２１において回答の全体の速度を決定し、この後、ステップＳａ２２において音声合成部１１２は、音声制御部１０９によって変更が決定された音声シーケンスの音声を、決定されたタイミングで、決定された音量で、決定された速度で合成して出力することになる。

この応用例（その１）によれば、変更しようとする音高が閾値音高よりも低ければ、当該音高よりも１オクターブ上の音高となるようにシフトされるので、不自然な低音で回答が音声合成される、という点を回避することができる。
ここでは、回答の語尾等の音高を１オクターブ上の音高にシフトした例であったが、１オクターブ下の音高にシフトしても良い。詳細には、利用者が発した問いの語尾等の音高が高いために、当該音高に対して５度下の音高が高すぎると、不自然な高音で回答が音声合成されてしまう。これを回避するために、音高データで示される音高に対して５度下の関係にある音高（仮決定した音高）が閾値音高より高ければ、回答の語尾等の音高を、仮決定した音高よりも１オクターブ下の音高にシフトすれば良い。

また、音声合成する際には、性別や年齢別（子供／大人の別）などが定められた仮想的なキャラクタの声で出力することができる場合がある。この場合のように女性や子供のキャラクタが指定されているとき、一律に問いの語尾に対して５度下の音高に下げてしまうと、当該キャラクタに不似合いの低音で回答が音声合成されてしまうので、同様に、１オクターブ上の音高となるようにシフトする構成としても良い。

図１４は、このような応用例（その２）における処理の要部を示す図であり、図４におけるステップＳａ１７の「回答の音高決定」で実行される処理を示している。図１３と異なる点を中心に説明すると、ステップＳｂ１７１において、音声制御部１０９は、音高解析部１０６からの音高データで示される音高に対して５度下の関係にある音高を求めて仮決定した後、当該キャラクタを規定する属性として女性や子供が指定されているか否かを判別する（ステップＳｃ１７２）。

音声制御部１０９は、当該属性として女性や子供が指定されていれば（ステップＳｃ１７２の判別結果が「Ｙｅｓ」であれば）、仮決定した音高を１オクターブ上の音高にシフトし（ステップＳｂ１７３）、一方、当該属性として女性や子供が指定されていなければ、例えば男性や大人が指定されていれば（ステップＳｃ１７２の判別結果が「Ｎｏ」であれば）、上記ステップＳｂ１７３の処理がスキップされる。以降については応用例（その１）と同様である。
この応用例（その２）によれば、女性や子供の声で回答させることが設定されていれば、仮決定の音高よりも１オクターブ上の音高となるようにシフトされるので、所定の音程関係を維持しつつ、不自然な低音で回答が音声合成される不具合を回避することができる。
ここでは、属性として女性や子供が指定されていれば、１オクターブ上の音高にシフトする例であったが、例えば属性として成人男性が指定されていれば、当該属性に対応したキャラクタに不似合いの高音で回答が音声合成されてしまうのを回避するために、１オクターブ下の音高にシフトしても良い。

なお、応用例（その１）や応用例（その２）においては第１実施形態のような音声シーケンスを用いる例で説明したが、第２実施形態のような音声波形データを用いる場合であっても良いのはもちろんである。

＜その他＞
実施形態にあっては、問いに対する回答を取得する構成である言語解析部１０８、言語データベース１２２および回答データベース１２４を音声合成装置１０の側に設けたが、端末装置などでは、処理の負荷が重くなる点や、記憶容量に制限がある点などを考慮して、外部サーバの側に設ける構成としても良い。すなわち、音声合成装置１０において回答作成部１１０（回答音声出力部１１３）は、問いに対する回答をなんらかの形で取得するとともに、当該回答の音声シーケンス（音声波形データ）を出力する構成であれば足り、その回答を、音声合成装置１０の側で作成するのか、音声合成装置１０以外の他の構成（例えば外部サーバ）の側で作成するのか、については問われない。
なお、音声合成装置１０において、問いに対する回答について、外部サーバ等にアクセスしないで作成可能な用途であれば、情報取得部１２６は不要である。

１０２…音声入力部、１０４…発話区間検出部、１０６…音高解析部、１０８…言語解析部、１０９…音声制御部、１１０…回答作成部、１１２…音声合成部、１２６…情報取得部。

Claims

音声信号による問いを入力する音声入力部と、
前記問いのうち、特定の第１区間の音高を解析する音高解析部と、
前記問いに対する回答を取得する取得部と、
前記回答の音声信号における特定の第２区間の音高が前記第１区間の音高に対して所定の関係にある音高となるように制御するとともに、前記問いの音声信号が入力されてから前記回答の音声信号を出力するまでの間を、動作モードが第１モードであれば、所定時間の範囲内に制御し、前記動作モードが第２モードであれば、前記所定時間の範囲外に制御する音声制御部と、
を具備することを特徴とする音声制御装置。
前記音声制御部は、
前記動作モードが前記第１モードであれば、前記第２区間の音高を前記第１区間の音高に対して、協和音程の関係にある音高となるように制御し、
前記動作モードが前記第２モードであれば、前記第２区間の音高を前記第１区間の音高に対して、不協和音程の関係にある音高となるように制御する、
ことを特徴とする請求項１に記載の音声制御装置。
前記問いにおける音高以外の非言語情報を解析する非言語解析部を備え、
前記音声制御部は、さらに、解析された非言語情報にしたがって前記回答の音声信号を制御する、
ことを特徴とする請求項１に記載の音声制御装置。
問いを発する利用者を含んだ撮影画像を解析し、当該解析結果に基づいて、前記音高解析部に対して解析した前記第１区間の音高を補正させる非言語解析部を、さらに有する
ことを特徴とする請求項１に記載の音声制御装置。
音声信号による問いを入力し、
前記問いのうち、特定の第１区間の音高を解析し、
前記問いに対する回答を取得し、
前記回答の音声信号における特定の第２区間の音高が前記第１区間の音高に対して所定の関係にある音高となるように制御するとともに、前記問いの音声信号が入力されてから前記回答の音声信号を出力するまでの間を、動作モードが第１モードであれば、所定時間の範囲内に制御し、前記動作モードが第２モードであれば、前記所定時間の範囲外に制御する、
ことを特徴とする音声制御方法。
コンピュータを、
入力された音声信号による問いに対する回答を取得する取得部、
前記問いのうち、特定の第１区間の音高を解析する音高解析部、および、
前記回答の音声信号における特定の第２区間の音高が前記第１区間の音高に対して所定の関係にある音高となるように制御するとともに、前記問いの音声信号が入力されてから前記回答の音声信号を出力するまでの間を、動作モードが第１モードであれば、所定時間の範囲内に制御し、前記動作モードが第２モードであれば、前記所定時間の範囲外に制御する音声制御部、
として機能させることを特徴とするプログラム。