JP6446993B2

JP6446993B2 - 音声制御装置およびプログラム

Info

Publication number: JP6446993B2
Application number: JP2014213852A
Authority: JP
Inventors: 嘉山　啓; 啓嘉山; 松原　弘明; 弘明松原
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2014-10-20
Filing date: 2014-10-20
Publication date: 2019-01-09
Anticipated expiration: 2034-10-20
Also published as: CN107077840A; US10217452B2; CN107077840B; EP3211637A4; EP3211637A1; US10789937B2; US20190139535A1; JP2016080944A; EP3211637B1; WO2016063879A1; US20170221470A1

Description

本発明は、音声制御装置およびプログラムに関する。

近年、音声合成技術としては、次のようなものが提案されている。すなわち、利用者の話調や声質に対応した音声を合成出力することによって、より人間らしく発音する技術（例えば特許文献１参照）や、利用者の音声を分析して、当該利用者の心理状態や健康状態などを診断する技術（例えば特許文献２参照）が提案されている。また、利用者が入力した音声を認識する一方で、シナリオで指定された内容を音声合成で出力して、利用者との音声対話を実現する音声対話システムも提案されている（例えば特許文献３参照）。

特開２００３−２７１１９４号公報特許第４４９５９０７号公報特許第４８３２０９７号公報

ところで、上述した音声合成技術と音声対話システムとを組み合わせて、利用者の音声による問いに対し、データを検索して音声合成により出力する対話システムを想定する。この場合、音声合成によって出力される音声が利用者に不自然な感じ、具体的には、いかにも機械が喋っている感じを与えるときがある、という問題が指摘されている。
本発明は、このような事情に鑑みてなされたものであり、その目的の一つは、利用者に自然な感じを与えることが可能な音声制御装置およびプログラムを提供することにある。

まず、利用者による問いに対する回答を音声合成で出力するマン・マシンのシステムを検討するにあたって、まず、人同士では、どのような対話がなされるかについて、言語的情報以外の情報、とりわけ対話を特徴付ける音高（周波数）に着目して考察する。

人同士の対話として、一方の人（ａとする）による問い（問い掛け）に対し、他方の人（ｂとする）が返答する場合について検討する。この場合において、ａが問いを発したとき、ａだけなく、当該問いに対して回答しようとするｂも、当該問いのうちの、特定区間における音高を強い印象で残していることが多い。ｂは、同意や、賛同、肯定などの意で回答するときには、印象に残っている問いの音高に対し、当該回答を特徴付ける部分の音高が、特定の関係、具体的には協和音程の関係となるように発声する。当該回答を聞いたａは、自己の問いについて印象に残っている音高と当該問いに対する回答を特徴付ける部分の音高とが上記関係にあるので、ｂの回答に対して心地良く、安心するような好印象を抱くことになる、と考えられる。

このように人同士の対話では、問いの音高と回答の音高とは無関係ではなく、上記のような関係がある、と考察できる。このような考察を踏まえて、利用者による問いに対する回答を音声合成で出力（返答）する対話システムを検討したときに、当該音声合成について上記目的を達成するために、次のような構成とした。

すなわち、上記目的を達成するために、本発明の一態様に係る音声合成装置は、入力された音声信号による問いのうち、特定区間の音高を取得する第１音高取得部と、前記問いに対する回答の音声データを取得する回答取得部と、取得された回答の音声データに基づく音高を取得する第２音高取得部と、前記回答の音声データに基づく音高に対して所定の音高範囲内の目標音高であって、かつ、前記特定区間の音高に対して特定の関係を維持する目標音高までの音高シフト量を決定する音高シフト量決定部と、前記回答の音声データに基づく音高を前記音高シフト量だけシフトして回答を合成する回答合成部と、を具備することを特徴とする。

この一態様によれば、本実施形態によれば、利用者が発した問いに対する回答を、不自然でなく、かつ、聴感上の品質の劣化を防いで、合成（再生）することができる。
なお、回答には、問いに対する具体的な答えに限られず、相槌（間投詞）も含まれる。また、回答には、人による声のほかにも、「ワン」（bowwow）、「ニャー」（meow）などの動物の鳴き声も含まれる。すなわち、ここでいう回答や音声とは、人が発する声のみならず、動物の鳴き声を含む概念である。
問いのうち、特定区間の音高とは、強い印象で残している部分での音高をいい、具体的には、音量が所定値以上である区間の音高最高値や、問いの末尾区間の音高であることが好ましい。
また、音声データに基づく音高とは、例えば音声データを標準で再生したときの特徴的な部分での音高であり、特徴的な部分とは語頭部分の音高、音量が最も高い部分での音高のほか、平均音高などである。
ここで、特定の関係としては、協和音程の関係であることが好ましい。協和とは、複数の楽音が同時に発生したときに、それらが互いに溶け合って良く調和する関係をいい、これらの音程関係を協和音程という。協和の程度は、２音間の周波数比（振動数比）が単純なものほど高い。

上記一態様において、前記音高シフト量決定部は、前記回答の音声データに基づく音高に対し、前記音高範囲に収まるように、前記音高シフト量をオクターブ単位で変更する構成としても良い。音声データを音高シフト量だけシフトする場合に、そのシフト量が大きければ、劣化するが、当該一態様によれば、このような劣化を防止することができる。

また、前記第１音高取得部は、入力された音声信号の音量が所定値以上である区間の音高最高値を、特定区間の音高として取得する構成が好ましい。このときの所定値以上であることの判別においてヒステリシス特性を持たせて判別しても良いし、音高の検出可能であることを条件として加重しても良い。
本発明の態様について、音声合成装置のみならず、コンピュータを当該音声合成装置として機能させるプログラムとして概念することも可能である。

実施形態に係る音声合成装置の構成を示すブロック図である。音声合成装置の動作を示すフローチャートである。音声合成装置の動作を示すフローチャートである。利用者による問いと、音声合成装置による回答との音高例を示す図である。応用例の前提を説明するための図である。応用例（その１）における処理の要部を示す図である。応用例（その２）における処理の要部を示す図である。応用例（その３）における処理の要部を示す図である。応用例（その４）の動作概要を示す図である。

以下、本発明の実施形態について図面を参照して説明する。

図１は、本発明の実施形態に係る音声合成装置１０の構成を示す図である。
この音声合成装置１０は、例えば、ぬいぐるみに組み込まれて、利用者が当該ぬいぐるみに問いを発したときに、相槌などの回答を音声合成して出力する装置である。音声合成装置１０は、ＣＰＵ（Central Processing Unit）や、音声入力部１０２、スピーカ１４２を有し、当該ＣＰＵが、予めインストールされたアプリケーションプログラムを実行することによって、複数の機能ブロックが次のように構築される。詳細には、音声合成装置１０では、音声特徴量取得部１０６、回答選択部１１０、回答音高取得部１１２、音高シフト量決定部１１４および回答合成部１１６が構築される。

なお、特に図示しないが、このほかにも音声合成装置１０は、表示部や操作入力部なども有し、利用者が装置の状況を確認したり、装置に対して各種の操作を入力したり、各種の設定などができるようになっている。また、音声合成装置１０は、ぬいぐるみのような玩具に限られず、いわゆるペットロボットや、携帯電話機のような端末装置、タブレット型のパーソナルコンピュータなどであっても良い。

音声入力部１０２は、詳細については省略するが、音声を電気信号に変換するマイクロフォンと、変換された音声信号をデジタル信号に変換するＡ／Ｄ変換器とで構成される。

音声特徴量取得部１０６（第１音高取得部）は、デジタル信号に変換された音声信号を解析処理して、当該音声信号を発話区間および非発話区間に分別するとともに、発話区間のうち、有声区間における特定区間の音高を検出し、当該音高を示すデータを回答選択部１１０および音高シフト量決定部１１４に供給する。ここで、発話区間とは、例えば音声信号の音量が閾値以上となる区間をいい、反対に、非発話区間とは、音声信号の音量が閾値未満となる区間をいう。また、有声区間とは、発話区間のうち、音声信号の音高（ピッチ）が検出可能な区間をいう。音高が検出可能な区間とは、音声信号に周期的な部分があって、その部分が検出可能であることを意味する。
なお、ここでは、特定区間を有声区間のうちの末尾区間とし、音高として、当該末尾区間における最高値としている。また、末尾区間とは、有声区間の終了から時間的に前方に向けた所定時間（例えば１８０ｍｓｅｃ）の区間である。有声区間については後述するように、音声信号の音量を２つ（または３つ以上）の閾値で判別しても良い。

回答ライブラリ１２４は、利用者による問いに対する回答の音声データを、予め複数記憶する。この音声データは、モデルとなる人物の音声を録音したものであり、例えば「はい」、「いいえ」、「そう」、「うん」、「ふーん」、「なるほど」のような、質問に対する返事や相槌などである。回答の音声データについては、例えばｗａｖやｍｐ３などのフォーマットであり、標準で再生したときの波形サンプル毎（または波形周期毎）の音高と、それらを平均した平均音高が予め求められて、その平均音高（回答に基づく音高）を示すデータが音声データに対応付けられて回答ライブラリ１２４に記憶されている。なお、ここでいう標準で再生とは、音声データを録音時の条件（サンプリング周波数）と同じ条件で再生する、という意味である。

回答選択部１１０（回答取得部）は、音声特徴量取得部１０６から特定区間の音高を示すデータが出力された場合、当該音声に対する回答の音声データを、回答ライブラリ１２４から１つを選択し、当該選択した回答の音声データを、対応付けられた平均音高を示すデータとともに、読み出して出力する。
回答選択部１１０が、複数の音声データのうち、１つの音声データをどのようなルールで選択するかについては、例えばランダムでも良いし、問いの特定区間の音高に対して平均音高が最も近い音声データを選択する、としても良い。

なお、本実施形態において、選択される回答については、利用者の問いの意味内容が考慮されないことになるが、この音声合成装置１０を、利用者が発した問いに対し、回答として相槌等を返す装置としてみれば、これで十分である。
一方で、図において破線で示されるように言語解析部１０８を設けて、当該言語解析部１０８が音声信号で規定される問いの意味内容を解析し、回答選択部１１０が、データベース等を介して当該問いに対する回答を作成する構成としても良い。

回答音高取得部１１２（第２音高取得部）は、回答選択部１１０で読み出されたデータのうち、回答の平均音高を示すデータを抜き出して、音高シフト量決定部１１４に供給する。
音高シフト量決定部１１４は、音声特徴量取得部１０６から出力された音声信号における特定区間の音高と、回答音高取得部１１２から出力された回答の平均音高との差から、回答の音声データを再生する際における音高のシフト量を、後述するように決定する。
回答合成部１１６は、回答ライブラリ１２４から読み出された回答の音声データを、音高シフト量決定部１１４で決定された音高のシフト量だけシフトさせて再生（合成）する。なお、音高がシフトされた音声信号は、図示省略したＤ／Ａ変換部によってアナログ信号に変換された後、スピーカ１４２によって音響変換されて出力される。
また、回答の音高に対応付けられたデータについては、すなわち、回答ライブラリ１２４に記憶されるとともに、音高シフト量決定部１１４で音高シフト量の決定に用いられるデータについては、平均音高を示すデータ以外であっても良い。例えば、音高の中間値でも良いし、音声データの所定区間の平均音高でも良い。

次に、音声合成装置１０の動作について説明する。
図２は、音声合成装置１０における処理動作を示すフローチャートである。
はじめに、音声合成装置１０が適用されたぬいぐるみに対して、利用者が音声で問いを発したときに、このフローチャートで示される処理が起動される。なお、ここでは便宜的に、利用者の音声（問い）の音高に対して回答の音声データの音高が高い場合を例にとって説明する。

まず、ステップＳａ１１において、音声入力部１０２によって変換された音声信号が音声特徴量取得部１０６に供給される。
次に、ステップＳａ１２において、音声特徴量取得部１０６は、音声入力部１０２からの音声信号に対して解析処理、すなわち利用者が発した問いの音高を検出する処理を実行する。
ステップＳａ１３において、回答合成部１１６によって回答が再生中であるか否かが判別される。

回答が再生中でなければ（ステップＳａ１３の判別結果が「Ｎｏ」であれば）、音声特徴量取得部１０６は、音声入力部１０２からの音声信号の問い（発話）が終了したか否かを判別する（ステップＳａ１４）。なお、問いが終了したか否かについては、具体的には、例えば、音声信号の音量が所定の閾値未満となった状態が所定時間継続したか否かで判別される。
問いが終了していなければ（ステップＳａ１４の判別結果が「Ｎｏ」であれば）、処理手順がステップＳａ１１に戻り、これにより、音声特徴量取得部１０６は、音声入力部１０２からの音声信号の解析処理を継続する。
問いが終了していれば（ステップＳａ１４の判別結果が「Ｙｅｓ」であれば）、音高シフト量決定部１１４は、回答選択部１１０により選択された回答の音声データを再生する際の音高シフト量を、後述するように決定する（ステップＳａ１５）。
そして、音高シフト量決定部１１４は、決定した音高シフト量を回答合成部１１６に通知して、回答選択部１１０により選択された回答の音声データの再生を指示する（ステップＳａ１６）。この指示にしたがって回答合成部１１６は、当該音声データを、音高シフト量決定部１１４で決定された音高シフト量だけシフトして再生する（ステップＳａ１７）。

なお、ステップＳａ１３において、回答合成部１１６によって回答が再生中であると判別される場合（ステップＳａ１３の判別結果が「Ｙｅｓ」となる場合）とは、ある問いに応じて回答を再生中に、次の問いが利用者によって発せられた場合などである。この場合、処理手順は、ステップＳａ１４、Ｓａ１１という経路を戻らず、ステップＳａ１７に移行するので、回答の再生が優先されることになる。

図３は、図２におけるステップＳａ１５の処理、すなわち回答の音声データの音高シフト量を決定する処理の詳細を示すフローチャートである。
なお、この処理が実行されるための前提は、回答合成部１１６が回答を再生中でなく（ステップＳａ１３の判別結果が「Ｎｏ」）、かつ、利用者により問いの入力が終了している（ステップＳａ１４の判別結果が「Ｙｅｓ」）、ことである。
まず、ステップＳｂ１１において、音高シフト量決定部１１４は、音声特徴量取得部１０６から、問いの特定区間の音高を示すデータを取得する。

一方、回答選択部１１０は、利用者による問いに対する回答の音声データを、回答ライブラリ１２４から選択し、当該選択した回答の音声データと、当該音声データに対応付けられた平均音高を示すデータとを読み出す。このうち、回答音高取得部１１２は、読み出されたデータのうちの平均音高を示すデータを音高シフト量決定部１１４に供給する。これにより、音高シフト量決定部１１４は、回答選択部１１０により選択された回答の平均音高を示すデータを取得する（ステップＳｂ１２）。

次に、音高シフト量決定部１１４は、問いの特定区間の音高に対して、所定の関係（例えば５度下）にある音高を、音声データで回答する際の音高として仮決定する（ステップＳｂ１３）。

続いて、音高シフト量決定部１１４は、回答選択部１１０により選択された回答の平均音高から、仮決定した音高（ステップＳｂ１３のほか、後述するステップＳｂ１６、Ｓｂ１８で変更された音高を含む）までの音高シフト量を算出する（ステップＳｂ１４）。音高シフト量決定部１１４は、回答の平均音高を音高シフト量だけシフトした場合の音高（シフト後の音高）が下限閾値よりも低いか否かを判別する（ステップＳｂ１５）。ここで、下限閾値とは、回答の平均音高に対して、どれだけ低い音高まで許容するのかを示す閾値であり、詳細について後述する。

シフト後の音高が下限閾値よりも低ければ（ステップＳｂ１５の判別結果が「Ｙｅｓ」であれば）、音高シフト量決定部１１４は、仮決定した回答の音高を１オクターブ引き上げて、当該１オクターブ上げた音高を、音声データで回答する際の音高として再度仮決定する（ステップＳｂ１６）。なお、この後、処理手順がステップＳｂ１４に戻り、再度、音高シフト量が算出されて、ステップＳｂ１５、Ｓｂ１７の判別が実行されることになる。

一方、シフト後の音高が下限閾値よりも低くなければ（ステップＳｂ１５の判別結果が「Ｎｏ」であれば）、音高シフト量決定部１１４は、当該シフト後の音高が上限閾値よりも高いか否かを判別する（ステップＳｂ１７）。ここで、上限閾値とは、回答の平均音高に対して、どれだけ高い音高まで許容するのかを示す閾値であり、詳細については後述する。
シフト後の音高が上限閾値よりも高ければ（ステップＳｂ１７の判別結果が「Ｙｅｓ」であれば）、音高シフト量決定部１１４は、仮決定した回答の音高を１オクターブ引き下げて、当該１オクターブ下げた音高を、音声データで回答する際の音高として再度仮決定する（ステップＳｂ１８）。なお、この後、処理手順がステップＳｂ１４に戻り、再度、音高シフト量が算出されて、ステップＳｂ１５、Ｓｂ１７の判別が実行されることになる。

シフト後の音高が上限閾値よりも高くなければ（ステップＳｂ１７の判別結果が「Ｎｏ」であれば）、当該シフト後の音高が、下限閾値以上であって上限閾値以下の所定の音高範囲内に収まっていることを意味する。このため、音高シフト量決定部１１４は、処理手順をステップＳｂ１９に移行させ、現時点において仮決定の段階にある音高を本決定として、その音高シフト量を回答合成部１１６に通知する。

図４は、利用者によって音声入力された問いと、音声合成装置１０により合成される回答との関係を、音高を縦軸に、時間を横軸にとって例示した図である。
この図において、符号Ｔ１で示される実線は、利用者による問いの音高変化を簡易的に直線で示している。符号Ｐ１は、この問いＴ１における特定区間の音高である。
また、図において、符号Ａ１で示される実線は、問いＴ１に対して選択された回答の音声データを標準で再生したときの音高変化を簡易的に示す図であり、符号Ｐ２は、その平均音高である。

問いＴ１に対して、回答Ａ１の音高をシフトさせずに再生すると、機械的な感じを受けやすい。このため、本実施形態では、第１に、問いＴ１の特徴的で印象的な部分である特定区間（語尾）の音高Ｐ１に対して、協和音程の例えば５度下の関係にある音高Ｐ２−１となるように、回答Ａ１をシフトさせた回答Ａ１−１で再生しようとする。なお、符号Ｄ１は、音高Ｐ１と音高Ｐ２−１との音高差である。
ただし、回答Ａ１に対する回答Ａ１−１の音高シフト量Ｄ２が大きすぎると、音高シフトした回答Ａ１−１を再生したときに聴感上の品質が劣化する。特に、問いの特定区間の音高と回答の平均音高とが大きく離れている場合（例えば、問いを発する利用者が男性で、回答のモデルが女性である場合）、音高を低くする方向にシフトさせて再生すると、不自然になりやすく、また、著しく劣化しやすい。

そこで、本実施形態では、第２に、回答合成部１１６で合成させる回答の音高が音高Ｐ１に対して特定の関係となることを維持しつつ、元の回答Ａ１の平均音高Ｐ２に対して、所定の音高範囲に収まるまで、回答Ａ１−１の音高Ｐ２−１を、オクターブを単位として段階的にシフトさせる構成となっている。図４の例において、回答Ａ１−４は、回答Ａ１の音高Ｐ２を基準にした音高範囲に収まるまで、回答Ａ１−１から回答Ａ１−２、回答Ａ１−３を経て、３オクターブ高めた例である。
図４において、回答Ａ１の平均音高Ｐ２を基準にして設定される音高範囲のうち、当該平均音高Ｐ２から、下限閾値Ｐth_Lまでの音高差分量が符号Ｔ_Lで規定され、上限閾値Ｐth_Hまでの音高差分量が符号Ｔ_Hで規定される。すなわち、下限閾値Ｐth_Lは、回答Ａ１の平均音高Ｐ２を基準にして音高差分量Ｔ_Lで規定される相対値であり、同様に、上限閾値Ｐth_Hは、平均音高Ｐ２を基準にして音高差分量Ｔ_Hで規定される相対値である。回答ライブラリ１２４に記憶された回答の音声データは複数存在するので、回答の音高範囲を規定する下限閾値Ｐth_Lおよび上限閾値Ｐth_Hについては、回答毎に異なることになるが、このように平均音高Ｐ２を基準にして音高差分量で相対的に規定することによって、回答の音声データ毎に下限閾値Ｐth_Lおよび上限閾値Ｐth_Hを予め対応付けて記憶させる必要がない。
なお、音高Ｐ２−１は、問いＴ１の音高Ｐ１に対して協和音程の関係にあり、音高Ｐ２−４は、当該音高Ｐ２−１に対して３オクターブの上の関係にある。このため、音高Ｐ２−４の周波数と、音高Ｐ２−１の周波数とは、整数比の関係が維持されていることになるので、音高Ｐ１と音高Ｐ２−４とについても、ほぼ協和音程の関係が維持されることになる。

また例えば、回答Ａ１−２を本決定して再生して良い場合もあるが、回答Ａ１−１よりも１オクターブシフトしただけでは、元の回答Ａ１からのシフト量が大きく、なおも不自然であったり、聴感上の品質劣化の程度が看過できなったりすることがあるので、所定の音高範囲に収まるようにしている。

本実施形態によれば、利用者が発した問いに対する回答を、機械的ではなく、調子が不自然でもなく、かつ、聴感上の品質の劣化を防いで、合成（再生）することができる。また、回答の音声データに、当該回答は女性であるのか、男性であるのかを示す属性情報を付与して、当該属性情報に応じて音高のシフト量を決定する必要もない。

本実施形態では、次に例示するように回答を合成することで、怒りの回答、気のない回答など、感情を伴った回答を合成することができる。
なお、図５は、次の各用語を説明するための図であり、図において、符号Ａｖは、回答Ａ１の音高変化幅であり、符号ｄは、問いＴ１の終了から回答Ａ１が再生開始されるまでの時間であり、符号Ａｄは、回答Ａ１の再生時間である。また、符号Ｔｇは、問いＴ１における音量の時間的変化を示し、符号Ａｇは、回答Ａ１における音量の時間的変化を示す。

例えば、図６に示される応用例（その１）では、回答Ａ１の再生速度を高めて回答Ａ１１のように再生し、問いＴ１の終了から回答Ａ１１が再生開始されるまでの時間ｄ１１を、時間ｄよりも短くし、かつ、回答Ａ１１の音量Ａｇ１１を音量Ａｇよりも大きくしている。これによって、怒りを表現した回答を、出力することができる。なお、回答Ａ１１の再生速度が高められているので、当該回答Ａ１１の再生時間Ａｄ１１は、回答Ａ１の再生時間Ａｄよりも短くなっている。

また例えば、図７に示される応用例（その２）では、回答Ａ１の再生速度を遅くして回答Ａ１２のように再生し、問いＴ１の終了から回答Ａ１２が再生開始されるまでの時間ｄ１２を、時間ｄよりも長くし、かつ、回答Ａ１２の音量Ａｇ１２を音量Ａｇよりも小さくしている。これによって、いわゆる、気のないを表現した回答を、出力することができる。なお、回答Ａ１２の再生速度が遅くなっているので、当該回答Ａ１２の再生時間Ａｄ１２は、回答Ａ１の再生時間Ａｄより長くなっている。

くわえて、図８に示される応用例（その３）では、回答Ａ１に対して末尾に向かって音高が上昇するように回答Ａ１３のように再生することによって、すなわち、回答Ａ１３が音高変化幅Ａｖ１３だけ上昇するように再生している。これによって、問い掛けるような回答を出力することができる。

このように感情を伴った回答を合成する際に、問いＴ１に対する回答の音高変化幅（高低方向含む）や、問いＴ１の終了から回答が再生開始されるまでの時間、回答の再生音量、回答の再生速度などについては、利用者等が上記操作入力部などを介して設定できる構成としても良い。
また、怒りの回答、気のない回答、問い掛けるような回答の種類を利用者が選択できる構成としても良い。

また、利用者により発せられた問いの音声信号から、発話区間、有声区間等を次のように検出しても良い。

図９は、応用例（その４）において、発話区間、非発話区間および有声区間の検出と、音量の閾値との関係を示す図である。
この図では、利用者が発した問いについて、音高の時間的変化が（ａ）に、音量の時間的変化が（ｂ）に、それぞれ示される。詳細には、音高および音量が徐々に上昇し、途中から下降に転じる様子が示されている。

ここで、閾値Ｔhvg_Hは、音声信号から音高（ピッチ）が検出可能な場合であって、問いの音量が上昇方向であるときに適用され、音量が当該閾値Ｔhvg_H以上になったときに発話区間および有声区間の開始と検出される。
閾値Ｔhvg_Lは、音声信号から音高が検出可能な場合であって、問いの音量が下降方向であるときに適用され、音量が当該閾値Ｔhvg_L未満になったときに有声区間の終了と検出される。
発話においては、音量が閾値Ｔhvg_L未満になっても、音量の揺れ戻しなどがある。そこで、この図の例では、問いの音声信号から音高が検出できる下限の閾値Ｔhuvgを用意し、問いの音量が下降方向である場合であって、当該音量が閾値Ｔhvg_L未満になった後、さらに閾値Ｔhuvg未満になったときに、発話区間が終了（非発話区間の開始）と検出している。
なお、閾値Ｔhvg_H、Ｔhvg_L、Ｔhuvgについては、
Ｔhvg_H＞Ｔhvg_L＞Ｔhuvg
の関係にある。

閾値Ｔhvg_H、Ｔhvg_Lによって検出した有声区間における音高の最高値を、問いにおける特定区間の音高として検出しても良い。
また、このようにして検出される有声区間は、比較的短い時間であれば、音声信号としてノイズを拾ってしまうことが想定される。このため、有声区間として検出されることの条件として、音声信号から音高が検出可能な場合であって、問いの音量が上昇方向であるときに、閾値Ｔhvg_H以上になってから所定時間以経過したことを要件としても良い。
非有声（無声）区間は、比較的短い時間であれば、問いが終了していないことが想定されるので、無声区間として検出されることの条件として、音声信号から音高が検出可能な場合であって、問いの音量が下降方向であるときに、閾値Ｔhvg_L未満になってから所定時間経過したことを要件としても良い。
もちろん、音量が閾値Ｔhvg_H以上になってから所定時間以経過したことを要件として検出した有声区間の後に、音量が閾値Ｔhvg_L未満になってから所定時間経過したことを要件として無声区間を検出したときに、先の有声区間での音高の最高値を、問いにおける特定区間の音高として検出しても良い。

また、利用者による問いにおいて、有声区間の末尾区間が無声音（端的にいえば、発声の際に声帯の振動を伴わない音）である場合、直前の有声音部分から、当該無声音部分の音高を推定しても良い。
利用者による問いの特定区間については、有声区間の末尾区間としたが、例えば語頭区間であっても良いし、問いのうち、どの部分の音高を特定するかについて、利用者が任意に設定できる構成としても良い。
また、有声区間の検出のために音量および音高の２つを用いるのではなく、いずれか一方を用いて検出しても良いし、どれを用いて有声区間の検出をするのかを利用者が選択しても良い。

回答ライブラリ１２４に記憶する回答の音声データについては、人物Ａ、Ｂ、Ｃ、…のように複数人にわたって、同一内容の回答を記憶させても良い。人物Ａ、Ｂ、Ｃ、…については例えば有名人、タレント、歌手などとして、各人物毎に音声データをライブラリ化する。
このようにライブラリ化する場合、メモリーカードなどの媒体を介して回答の音声データを回答ライブラリ１２４に格納させても良いし、音声合成装置１０にネットワーク接続機能を持たせて、特定のサーバから回答の音声データをダウンロードし、回答ライブラリ１２４に格納させても良い。メモリーカードやサーバから回答の音声データを入手する場合、無償であっても良いし、有償であっても良い。
一方で、問いに対しては、どの人物をモデルとして回答して欲しいのかを、利用者が操作入力部等によって選択可能な構成としても良いし、各種条件（日、週、月など）毎にランダムで決定する構成としても良い。

また、回答の音声データについては、音声入力部１０２のマイクロフォンを介して、利用者自身や、当該利用者の家族、知人の音声を録音したもの（または別途の装置によってデータ化したもの）をライブラリ化しても良い。
このように身近な人物の音声で回答がなされると、問いを発したときに、あたかも当該人物と対話しているかのような感覚を得ることができる。

また、回答については、動物（イヌ、ネコなど）などの鳴き声であっても良いし、犬種などを適宜選択可能な構成としても良い。このように回答を動物の鳴き声とすることで、あたかも当該動物と対話しているかのような、一種の癒しの効果を得ることができる。

回答音高取得部１１２が、回答選択部１１０により決定された回答の音声データを解析して、当該音声データを標準で再生したときの平均音高を取得し、この音高を示すデータを音高シフト量決定部１１４に供給する構成としても良い。この構成によれば、音高を示すデータを回答の音声データに、予め対応付けて回答ライブラリ１２４に記憶させる必要がなくなる。

なお、実施形態では、利用者による問いの音高に対して回答の音声データの音高が高い場合を例にとって説明したが、逆に、利用者による問いの音高に対して回答の音声データの音高が低い場合にも適用可能である。

１０２…音声入力部、１０６…音声特徴量取得部（第１音高取得部）、１１０…回答選択部、１１２…回答音高取得部（第２音高取得部）、１１４…音高シフト量決定部、１１６…回答合成部、１２４…回答ライブラリ。

Claims

入力された音声信号による問いのうち、特定の一部区間の音高を取得する第１音高取得部と、
前記問いに対する回答を取得する回答取得部と、
取得された回答の音声信号に基づく音高を取得する第２音高取得部と、
前記回答の音声信号に基づく音高に対して所定の音高範囲内の目標音高であって、かつ、前記一部区間の音高に対して特定の関係を維持する目標音高までの音高シフト量を決定する音高シフト量決定部と、
前記回答の音声信号に基づく音高を前記音高シフト量だけシフトする音声制御部と、
を具備することを特徴とする音声制御装置。
前記音高シフト量決定部は、
前記回答の音声信号に基づく音高に対し、前記音高範囲に収まるように、前記音高シフト量をオクターブ単位で変更する
ことを特徴とする請求項１に記載の音声制御装置。
前記第１音高取得部は、
入力された音声信号の音量が所定値以上である区間の音高最高値を、前記一部区間の音高として取得する
ことを特徴とする請求項１または２に記載の音声制御装置。
前記第１音高取得部は、
入力された音声信号の有声区間のうちの末尾区間の音高を、前記一部区間の音高として取得する
ことを特徴とする請求項１または２に記載の音声制御装置。
前記末尾区間は、音高を検出可能な前記音声信号の音量が下降して所定の閾値未満に下がった終了の時点から、時間的に前方に向けた所定時間の区間である
ことを特徴とする請求項４に記載の音声制御装置。
前記第１音高取得部は、
入力された音声信号の語頭区間の音高を、前記一部区間の音高として取得する
ことを特徴とする請求項１または２に記載の音声制御装置。
入力された音声信号のうちのどの部分を前記一部区間とするか、利用者が任意に設定できる
ことを特徴とする請求項１または２に記載の音声制御装置。
前記一部区間は、入力された音声信号のうちの、その音声信号を聞いた人に強い印象を残す区間である
ことを特徴とする請求項１または２に記載の音声制御装置。
前記回答の音声信号に基づく音高は、前記回答の音声信号の音高の平均値または中間値である
ことを特徴とする請求項１または２に記載の音声制御装置。
コンピュータを、
入力された音声信号による問いのうち、特定の一部区間の音高を取得する第１音高取得部、
前記問いに対する回答の音声信号を取得する回答取得部、
取得された回答の音声信号に基づく音高を取得する第２音高取得部、
前記回答の音声信号に基づく音高に対して所定の音高範囲内の目標音高であって、かつ、前記一部区間の音高に対して特定の関係を維持する目標音高までの音高シフト量を決定する音高シフト量決定部、および、
前記回答の音声信号に基づく音高を前記音高シフト量だけシフトする音声制御部、
として機能させることを特徴とするプログラム。