JP2015064481A

JP2015064481A - 符号化復号化装置、音声合成装置およびプログラム

Info

Publication number: JP2015064481A
Application number: JP2013198219A
Authority: JP
Inventors: 松原　弘明; Hiroaki Matsubara; 弘明松原; 純也浦; Junya Ura; 川▲原▼　毅彦; Takehiko Kawahara; 毅彦川▲原▼; 久湊　裕司; Yuji Hisaminato; 裕司久湊; 克二吉村; Katsuji Yoshimura
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2013-09-25
Filing date: 2013-09-25
Publication date: 2015-04-09
Anticipated expiration: 2033-09-25
Also published as: JP6375605B2

Abstract

【課題】利用者の音声による発言に対して、あたかも人と対話しているかのように自然な感じの回答を音声合成により出力する。
【解決手段】音声信号をデジタル信号に変換するＡ／Ｄ変換器１３２と、デジタル信号による発言のうち、特定の第１区間の音高を解析する音高解析部１３６と、発言に対して相槌を返す場合に、発言の意味内容に応じた相槌データを相槌データ記憶部１４３から読み出す読出部１４２と、読み出された相槌データのうち、特定の第２区間の音高を、第１区間の音高に対して所定の関係にある音高に変更する音高制御部１４４と、音高が変更された相槌データをアナログ信号に変換して出力するＤ／Ａ変換器１３４と、を具備する。
【選択図】図２

Description

本発明は、符号化復号化装置、音声合成装置およびプログラムに関する。

近年、音声合成技術としては、次のようなものが提案されている。すなわち、利用者の話調や声質に対応した音声を合成出力することによって、より人間らしく発音する技術（例えば特許文献１参照）や、利用者の音声を分析して、当該利用者の心理状態や健康状態などを診断する技術（例えば特許文献２参照）が提案されている。
また、利用者が入力した音声を認識する一方で、シナリオで指定された内容を音声合成で出力して、利用者との音声対話を実現する音声対話システムも提案されている（例えば特許文献３参照）。

特開２００３−２７１１９４号公報特許第４４９５９０７号公報特許第４８３２０９７号公報

ところで、上述した音声合成技術と音声対話システムとを組み合わせて、利用者の音声による発言に対し、なんらかの回答を音声合成により出力する対話システムを想定する。この場合、音声合成によって出力される音声が利用者に不自然な感じ、具体的には、いかにも機械が喋っている感じを与えるときがある、ということが指摘されている。
本発明は、このような事情に鑑みてなされたものであり、その目的の一つは、利用者の音声による発言に対して、あたかも人と対話しているかのように自然な感じの回答を音声合成により出力することが可能な技術を提供することにある。

本件発明者は、利用者による発言に対する回答を音声合成で出力（返答）するマン・マシンのシステムを検討するにあたって、まず、人同士では、どのような対話がなされるかについて、対話を印象付ける音高（周波数）に着目して考察した。

ここでは、人同士の対話として、一方の人（ａとする）による発言（質問、問いを含む）に対し、他方の人（ｂとする）が回答（相槌を含む）する場合について検討する。この場合において、ａが発言したとき、ａだけなく、当該発言に対して回答しようとするｂも、当該発言のうちの、ある区間における音高を強い印象で残していることが多い。ｂは、同意や、賛同、肯定などの意で回答するときには、印象に残っている発言の音高に対し、当該回答を特徴付ける部分、例えば語尾や語頭の音高が、所定の関係、具体的には協和音程の関係となるように発声する。当該回答を聞いたａは、自己の発言について印象に残っている音高と当該発言に対する回答を特徴付ける部分の音高とが上記関係にあるので、ｂの回答に対して心地良く、安心するような好印象を抱くことになる、と、本件発明者は考えた。

例えば、ａが「そうでしょ？」と発言したとき、ａおよびｂは、当該発言のうち、念押しや確認などの意が強く表れる語尾の「しょ」の音高を記憶に残した状態となる。この状態において、ｂが、当該発言に対して「あ、はい」と肯定的に回答しようとする場合に、印象に残っている「しょ」の音高に対して、回答を特徴付ける部分、例えば語尾の「い」の音高が上記関係になるように「あ、はい」と回答する。

図３は、このような実際の対話におけるフォルマントを示している。この図において、横軸が時間であり、縦軸が周波数であって、スペクトルは、白くなるにつれて強度が強い状態を示している。
図に示されるように、人の音声を周波数解析して得られるスペクトルは、時間的に移動する複数のピーク、すなわちフォルマントとして現れる。詳細には、「そうでしょ？」に相当するフォルマント、および、「あ、はい」に相当するフォルマントは、それぞれ３つのピーク帯（時間軸に沿って移動する白い帯状の部分）として現れている。
これらの３つのピーク帯のうち、周波数の最も低い第１フィルマントについて着目してみると、「そうでしょ？」の「しょ」に相当する符号Ａ（の中心部分）の周波数はおおよそ４００Ｈｚである。一方、符号Ｂは、「あ、はい」の「い」に相当する符号Ｂの周波数はおおよそ２６０Ｈｚである。このため、符号Ａの周波数は、符号Ｂの周波数に対して、ほぼ３／２となっていることが判る。

周波数の比が３／２であるという関係は、音程でいえば、「ソ」に対して同じオクターブの「ド」や、「ミ」に対して１つ下のオクターブの「ラ」などをいい、後述するように、完全５度の関係にある。この周波数の比（音高同士における所定の関係）については、好適な一例であるが、後述するように様々な例が挙げられる。

図４は、音名（階名）と人の声の周波数との関係について示す図である。この例では、第４オクターブの「ド」を基準にしたときの周波数比も併せて示しており、「ソ」は「ド」を基準にすると、上記のように３／２である。また、第３オクターブの「ラ」を基準にしたときの周波数比についても並列に例示している。

このように人同士の対話では、発言の音高と返答する回答の音高とは無関係ではなく、上記のような関係がある、と考察できる。そして、本件発明者は、多くの対話例を分析し、多くの人による評価を統計的に集計して、この考えがおおよそ正しいことを裏付けた。

さて、人同士の対話は、典型的には、ａによる発言と、当該発言に対するｂの発言とであるが、ｂの発言は、必ずしもａの発言に対して具体的な文章で構成された回答だけでなく、上述したような「あ、はい」や、「うんうん」、「そうですね」、「それで」などの相槌も含まれる。さらに、人同士の対話では、このような相槌は、ａの発言に対してレスポンス良く返される点は、経験則上、良く知られていることである。
したがって、利用者による発言に対して、回答を音声合成で出力（返答）する対話システムを検討した場合に、回答として相槌をレスポンス良く出力することができるようにすることは重要である。
そこで、当該音声合成について上記目的を達成するために、次のような構成とした。

すなわち、上記目的を達成するために、本発明の一態様に係る符号化復号化装置は、音声信号による発言をデジタル信号に変換するＡ／Ｄ変換器と、前記デジタル信号による発言のうち、特定の第１区間の音高を解析する音高解析部と、前記発言に対して相槌を返す場合に、前記発言の意味内容に応じた相槌データを取得する相槌取得部と、取得された相槌データのうち、特定の第２区間の音高を、前記第１区間の音高に対して所定の関係にある音高に変更する音高制御部と、音高が変更された相槌データをアナログ信号に変換して出力するＤ／Ａ変換器と、を具備することを特徴とする。
この一態様によれば、入力された音声信号による言葉に対して相槌をうつような場合に、当該言葉の意味内容に応じた相槌データを取得するので、相槌をレスポンス良く出力することができる。また音声合成される相槌に、不自然な感じが伴わないようにすることができる。

なお、第１区間は、例えば発言の語尾であり、第２区間は、相槌の語頭または語尾であることが好ましい。上述したように、発言の印象を特徴付ける区間は、当該発言の語尾であり、当該発言に対する回答としての相槌の印象を特徴付ける区間は、当該相槌の語頭または語尾であることが多いからである。
また、所定の関係は、完全１度を除いた協和音程の関係であることが好ましい。ここで、協和とは、複数の楽音が同時に発生したときに、それらが互いに溶け合って良く調和する関係をいい、これらの音程関係を協和音程という。協和の程度は、２音間の周波数比（振動数比）が単純なものほど高い。周波数比が最も単純な１／１（完全１度）と、２／１（完全８度）とを、特に絶対協和音程といい、これに３／２（完全５度）と４／３（完全４度）とを加えて完全協和音程という。５／４（長３度）、６／５（短３度）、５／３（長６度）および８／５（短６度）を不完全協和音程といい、これ以外のすべての周波数比の関係（長・短の２度と７度、各種の増・減音程など）を不協和音程という。
なお、第２区間の音高が、第１区間の音高と同一となる場合には、対話として不自然な感じを伴うと考えられるので、発言の音高と回答の音高との関係において、完全１度が除かれる。
上記態様において、所定の関係として最も望ましい例は、上述したように第２区間の音高が、第１区間の音高に対して５度下の協和音程の関係である、と考えられる。ただし、所定の関係としては、完全１度を除く協和音程に限られず、不協和音程の関係でも良いし、同一を除く、上下１オクターブの範囲内の音高関係でも良い。

上記態様において、前記Ａ／Ｄ変換器は、デジタル信号に変換した音声信号をホストコンピュータに供給し、前記発言に対して前記相槌データによる相槌以外を返す場合に、前記音高制御部は、前記ホストコンピュータから供給された前記発言に対する回答データのうち、前記第２区間の音高を、前記第１区間の音高に対して前記所定の関係にある音高に変更し、前記Ｄ／Ａ変換器は、前記音高が変更された回答データをアナログ信号に変換する、構成としても良い。
この構成によれば、相槌については、符号化復号化装置の単体によってレスポンス良く、相槌データによる相槌以外の回答については、ホストコンピュータによって精度良く、作成（取得）することができる。

本発明の態様については、符号化復号化装置のみならず、当該符号化復号化装置とホストコンピュータとを含む音声合成装置や、当該符号化復号化装置として機能させるプログラムとして概念することも可能である。
なお、本発明では、発言の音高（周波数）を解析対象とし、回答の音高を制御対象としているが、ヒトの音声は、上述したフォルマントの例でも明らかなように、ある程度の周波数域を有するので、解析や制御についても、ある程度の周波数範囲を持ってしまうのは避けられない。また、解析や制御については、当然のことながら誤差が発生する。このため、本件において、音高の解析や制御については、音高（周波数）の数値が同一であることのみならず、ある程度の範囲を伴うことが許容される。

第１実施形態に係る音声合成装置の構成を示すブロック図である。音声合成装置の機能ブロックの構成を示す図である。対話における音声のフォルマントの例を示す図である。音名と周波数等との関係を示す図である。音声合成装置における音声処理の動作を示すフローチャートである。音声処理における相槌処理の動作を示すフローチャートである。音声処理における回答処理の動作を示すフローチャートである。語尾の特定の具体例を示す図である。音声波形データに対する音高変換の例を示す図である。利用者による発言に対し合成音声の与える心理的影響を示す図である。応用例（その１）における処理の要部を示す図である。応用例（その２）における処理の要部を示す図である。応用例（その３）における処理の要部を示す図である。

以下、本発明の実施形態について図面を参照して説明する。

＜第１実施形態＞
まず、本発明の第１実施形態に係る符号化復号化装置について説明する。
図１は、第１実施形態に係る符号化復号化装置を適用した音声合成装置１０のハードウェア構成を示す図である。
この図において、音声合成装置１０は、例えば携帯電話機のような端末装置であり、音声入力部１０２と、スピーカ１０４と、符号化復号化装置（以下「ＣＯＤＥＣ」という：coder decoder）１２０と、当該ＣＯＤＥＣ１２０からみて上位となるホストコンピュータ１６０とを含んだ構成となっている。
音声入力部１０２は、詳細については省略するが、利用者の音声を電気信号に変換するマイクロフォンと、変換された音声信号の高域成分をカットするＬＰＦ（ローパスフィルタ）とで構成される。スピーカ１０４は、ＣＯＤＥＣ１２０によってアナログ信号に変換された音声信号を音響変換して出力する。

ＣＯＤＥＣ１２０は、例えばワンチップまたはマルチチップで構成されたモジュールであり、マイクロプロセッサ１２２、メモリ１２４、Ａ／Ｄ変換器１３２、Ｄ／Ａ変換器１３４を含む。そして、ＣＯＤＥＣ１２０では、マイクロプロセッサ１２２がメモリ１２４に記憶されたプログラムＰ１（ファームウェア）を実行することによって音声信号を処理する構成となっている。
ホストコンピュータ（ホスト）１６０は、ＣＰＵ（Central Processing Unit）１６２およびメモリ１６４を有する。ＣＰＵ１６２は、バスＢを介して、ＣＯＤＥＣ１２０およびメモリ１６４に接続される。
メモリ１６４には、オペレーティングシステムのほか、音声処理のプログラムＰ２が格納される。この音声処理には、利用者が発言したときに、当該発言に対する回答や相槌を音声合成で出力する対話処理のほか、利用者の発言を文字列に変換する音声認識処理、ホスト１６０の側で処理された音楽、音声などを再生出力する再生処理などが含まれる。

また、特に図示しないが、このほかにも音声合成装置１０は、表示部や操作入力部なども有し、利用者が装置の状況を確認したり、装置に対して各種の操作を入力したりすることができるようになっている。また、音声合成装置１０は、携帯電話機のような端末装置に限られず、ノート型やタブレット型のパーソナルコンピュータであっても良い。

図２は、音声合成装置１０の構成を示す機能ブロックを示す図である。この機能ブロックは、ＣＯＤＥＣ１２０ではマイクロプロセッサ１２２がプログラムＰ１を実行することによって、また、ホスト１６０ではＣＰＵ１６２がプログラムＰ２を実行することによって、それぞれ構築される。
この図に示されるように、ＣＯＤＥＣ１２０では、音高解析部１３６、言語解析部１３８、連携部１４０、読出部１４２、相槌データ記憶部１４３および音高制御部１４４がそれぞれ構築され、ホスト１６０では、言語解析部１７８、連携部１８０、回答作成部１８２、言語データベース１８４、回答データベース１８６および音声ライブラリ１８８がそれぞれ構築される。

さて、ＣＯＤＥＣ１２０の側において音高解析部１３６は、詳細については後述するが、デジタル信号の音声信号で示される発言を音量解析および周波数解析して、当該発言のうち、特定の区間（第１区間）の音高を求めて、当該音高を示す音高データを出力する。また、音高解析部１３６は、音量解析に用いた音量波形および周波数解析に用いた音高波形をそれぞれ言語解析部１３８に供給する。
ここで、第１区間とは、例えば発言の語尾である。また、ここでいう音高とは、例えば音声信号を周波数解析して得られる複数のフォルマントのうち、周波数の最も低い成分である第１フォルマント、図３でいえば、末端が符号Ａとなっているピーク帯で示される周波数（音高）をいう。周波数解析については、ＦＦＴ（Fast Fourier Transform）や、その他公知の方法を用いることができる。発言における語尾を特定するための具体的手法の一例については後述する。

言語解析部１３８は、デジタル信号の音声信号で示される発言を解析して、次のような判別を実行する。詳細には、言語解析部１３８は、当該発言の内容が相槌を返すべきものであるか、それとも相槌以外の回答を返すべきものであるか、を判別する。言語解析部１３８における判別の具体的手法としては、例えば典型的な質問（相槌以外の回答を返すべき発言）の語尾に向かう音量・音高の変化パターンを予め記憶しておくともに、音高解析部１３６からの音量波形で示される音量変化と音高波形で示される音高変化とが、記憶した音量・音高の変化パターンに合致していれば（または類似度が高ければ）、当該発言が質問であると判別する一方、記憶した変化パターンに合致していなければ（または類似度が低ければ）、当該発言が相槌を返すべきものであると判別する、など手法が挙げられる。
なお、言語解析部１３８が判別不能である場合、または、言語解析部１３８による判別結果の信頼性が低い場合、敢えて当該判別については後段のホスト１６０（言語解析部１７８）に委ねるルールにしても良い。また、相槌は会話の、いわゆるノリを良くするものであり、その意味については軽視できるので、発言が、質問であるにもかかわらず、相槌を返してしまったとしても、実用上、大きな問題にはならない。

連携部１４０は、発言の内容が相槌を返すべきものであると判別された場合、例えば音高制御部１４４に対して処理の対象を相槌データとさせるように制御する一方、ホスト１６０の側に、当該発言についての処理が不要である旨を通知する。
また、連携部１４０は、発言の内容が相槌以外の回答を返すべきものであると判別された場合（上記ルールの適用下においては、発言の内容が判別不能である場合、判別結果の信頼性が低い場合を含む）、音高制御部１４４に対して処理の対象を、後述する回答作成部１８２により作成された回答データとさせるよう制御する一方、ホスト１６０の側に、当該発言に対する回答を作成（取得）すべき旨を通知する。

相槌データ記憶部１４３は、複数の相槌データを記憶するものである。ここで、相槌データとは、例えば「えーと」や、「なるほど」、「そうですね」、「あ、はい」、「ん〜」などのように返事を含む相槌の音声波形データである。音声波形データの形式としては、例えばｗａｖ形式などが挙げられる。
読出部１４２は、言語解析部１３８によって発言が相槌を返すべきものであると判別された場合、相槌データ記憶部１４３に記憶された複数の相槌データのうち、いずれかを所定の順番で（またはランダムに）選択して読み出し、音高制御部１４４に供給する。
なお、このように発言の内容とは無関係に相槌データを読み出す構成では、当該発言に対して的外れの相槌が出力されてしまう場合もあるが、上述したように相槌の意味は軽視できるので、大きな問題にはならない。

なお、読出部１４２により読み出された相槌データと、回答作成部１８２により供給された回答データとは、いずれも音声波形データであるので、そのまま再生すれば、相槌、回答を音声で出力することはできる。例えば相槌が「あ、はい」であれば、図９の（ａ）で示されるように、抑揚が伴って出力される。
ただし、このような音声波形データを単純に再生しただけでは、この相槌の契機となった発言の音高を無視している。このため、利用者の発言に対して、相槌データを単純に再生しても、機械的な感じとなるは否めない。

このため、音高制御部１４４は、相槌データ記憶部１４３から読み出された相槌データ、または、後述する回答作成部１８２から供給された回答データに基づく音声合成を、音高解析部１３６による音高データにしたがって制御する。
詳細には、音高制御部１４４は、相槌データまたは回答データのうち、特定の区間（第２区間）の音高を、音高データで示される音高に対して所定の関係となるように、音声合成を制御する。
音高制御部１４４によって合成された音声信号は、Ｄ／Ａ変換部１３４によってアナログ信号に変換された後、スピーカ１０４によって音響変換されて出力される。

なお、本実施形態において第２区間を、相槌データで規定される相槌または回答データで規定される回答の語尾とするが、上述したように語尾に限られない。また、本実施形態において、音高データに対して所定の関係にある音高を、５度の下の関係にある音高とするが、後述するように、５度下以外の関係にある音高としても良い。

一方、ホスト１６０の側において、連携部１８０は、各種パラメータや各種の状態などの情報を、ＣＯＤＥＣ１２０の連携部１４０に供給する一方、連携部１４０から回答の作成依頼が通知された場合に、言語解析部１７８および回答作成部１８２を制御する。
具体的には、言語解析部１７８は、Ａ／Ｄ変換器１３２によってデジタル信号に変換された音声信号の発言の意味内容を解析する。詳細には、言語解析部１７８は、音声信号がどの音素に近いのかを、言語データベース１８４に予め作成された音素モデルを参照することにより判定して、当該音声信号で規定される発言の意味内容を解析する。なお、このような音素モデルには、例えば隠れマルコフモデルを用いることができる。
回答データベース１８６は、発言の意味内容に対する回答（文字列）を作成する際に参照されるデータベースである。音声ライブラリ１８８は、回答の文字列を読み上げた形式の回答データを作成する際に必要となるデータベースである。詳細には、音声ライブラリ１８８には、単一の音素や音素から音素への遷移部分など、音声の素材となる各種の音声素片の波形を定義した音声素片データが、予めデータベース化されている。

回答作成部１８２は、第１に、言語解析部１７８によって解析された発言の意味内容に対応する回答（文字列）を、回答データベース１８６を参照して作成し、第２に、当該回答に応じた回答データを、音声ライブラリ１８８を参照して作成する。
例えば、回答作成部１８２は、音声信号による発言が「いまなんじ？（今、何時？）」という内容であれば、内蔵のリアルタイムクロック（図示省略）から時刻情報を取得するとともに、時刻情報以外の情報を回答データベース１８６から取得することで、「ただいま○○時○○分です」という回答を作成し、この後、当該回答を音声で読み上げた音声波形データの形式の回答データを作成する。
なお、「あしたのてんきは？（明日の天気は？）」という発言に対しては、音声合成装置１０の単体では回答を作成することができない。このように、音声合成装置１０のみでは回答が作成できない場合、回答作成部１８２は、特に図示しないがインターネットを介し外部サーバにアクセスして、回答の作成に必要な情報を取得する構成となっている。
また、上記ルールの適用下にあっては、言語解析部１３８において発言の内容が判別不能であった場合、または、判別結果の信頼性が低かった場合には、回答作成部１８２は、当該発言に対する相槌を回答として作成することもある。
ところで、回答作成部１８２は、回答から、回答データを自身で作成する必要性はない。例えば、別の外部サーバに回答を供給して、回答データの作成を依頼し、当該別の外部サーバで作成された回答データを取得しても良い。
このように、回答作成部１８２は、発言に対する回答と、当該回答に対応した回答データとについては、自身で作成しても良いし、他のサーバなどが作成したものを用いても良い。すなわち、回答作成部１８２は、発言に対する回答データをなんらかの形で取得できれば良い。
回答作成部１８２により作成・取得された回答データは、音高制御部１４４に供給される。

次に、音声合成装置１０の動作について説明する。図５は、音声合成装置１０における音声処理の動作を示すフローチャートである。
はじめに、利用者が所定の操作をしたとき、例えば音声処理に対応したアイコンなどをメインメニュー画面（図示省略）において選択したとき、ＣＰＵ１６２がプログラムＰ２を起動する。これにより、ＣＯＤＥＣ１２０およびホスト１６０では、図２で示した機能ブロックが構築される。

まず、利用者が音声入力部１０２に対して発言して音声を入力すると、当該音声は、音声入力部１０２によって音声信号に変換された後、Ａ／Ｄ変換器１３２によってデジタル信号に変換される（ステップＳ１１）。
ホスト１６０の設定において、連携部１８０は、起動された音声処理のうち、対話処理の実行が指定されているか否かを判別する（ステップＳ１２）。
対話処理の実行が指定されていなければ（ステップＳ１２の判別結果が「Ｎｏ」であれば）、その他の処理が実行される（ステップＳ１６）。その他の処理としては、例えば、デジタル信号に変換された音声信号を、図２において※１で示されるように、ホスト１６０における他の機能ブロック（図示省略）に供給して、当該他の機能ブロックにおいて、利用者の発言を文字列に変換させる音声認識処理や、また、※２で示されるように、別の機能ブロックで処理されたデータをＤ／Ａ変換器１３４によりアナログ信号に変換させて、スピーカ１０４により出力させる再生処理などが挙げられる。

一方、対話処理の実行が指定されていれば（ステップＳ１２の判別結果が「Ｙｅｓ」であれば）、連携部１８０は、その旨をＣＯＤＥＣ１２０における連携部１４０に通知し、当該連携部１４０は、言語解析部１３８に対して、入力された発言の内容が相槌を返すべきものであるか否か、すなわち、ＣＯＤＥＣ１２０だけで済む処理であるか否かを判別させる（ステップＳ１３）。
入力された発言の内容が相槌を返すべきものであれば（ステップＳ１３の判別結果が「Ｙｅｓ」であれば）、次に説明する相槌処理が実行される（ステップＳ１４）一方、当該発言の内容が相槌を返すべきものでなければ（ステップＳ１３の判別結果が「Ｎｏ」であれば）、後述する回答処理が実行される（ステップＳ１５）。
なお、ステップＳ１４、Ｓ１５、Ｓ１６の後、この音声処理は終了する。

図６は、ステップＳ１４における相槌処理の詳細を示すフローチャートである。
まず、入力された発言の内容が相槌を返すべきものであると判別した言語解析部１３８は、その旨を連携部１４０に通知し、当該連携部１４０は、ホスト１６０における連携部１８０に対して、当該発言に対する回答の作成等が不要である旨を通知する（ステップＳａ１１）。
この通知を受け取った連携部１８０は、言語解析部１７８に対して、当該発言に相当するデジタル信号を無視することを指示する。これにより、当該発言についての音声処理は、ホスト１６０側で実行されない（ステップＳｂ１１）。

一方、音高解析部１３６は、入力された発言の音声信号を例えば次のように解析し、当該発言における語尾の音高を特定して、当該音高を示す音高データを音高制御部１４４に供給する（ステップＳａ１２）。
詳細には、第１に、音高解析部１３６は、発言に相当する音声信号を、音量と音高（ピッチ）とに分けて波形化する。図８の（ａ）は、音声信号についての音量を縦軸で、経過時間を横軸で表した音量波形の一例であり、（ｂ）は、同じ音声信号について周波数解析して得られた第１フォルマントの音高を縦軸で、経過時間を横軸で表した音高波形である。なお、（ａ）の音量波形と（ｂ）の音高波形との時間軸は共通である。
第２に、音高解析部１３６は、（ａ）の音量波形のうち、時間的に最後の極大Ｐ１のタイミングを特定する。
第３に、音高解析部１３６は、特定した極大Ｐ１のタイミングを前後に含む所定の時間範囲（例えば１００μ秒〜３００μ秒）を語尾であると認定する。
第４に、音高解析部１３６は、（ｂ）の音高波形のうち、認定した語尾に相当する区間Ｑ１の平均音高を、音高データとして出力する。
このように、発言における音量波形について最後の極大Ｐ１を、発言の語尾に相当するタイミングとして特定することによって、対話としての発言の語尾の誤検出を少なくすることができる、と考えられる。
ここでは、（ａ）の音量波形のうち、時間的に最後の極大Ｐ１のタイミングを前後に含む所定の時間範囲を語尾であると認定したが、極大Ｐ１のタイミングを始期または終期とする所定の時間範囲を語尾と認定しても良い。認定した語尾に相当する区間Ｑ１の平均音高ではなく、区間Ｑ１の始期、終期や、極大Ｐ１のタイミングの音高を、音高データとして出力する構成としても良い。また、語尾の音高については、これ以外の解析によって特定しても良い。

一方、この音高解析と並列して、読出部１４２は、相槌データ記憶部１４３に記憶された複数の相槌データのうち、いずれかを選択して読み出し、音高制御部１４４に供給する（ステップＳａ１３）。

図９の（ａ）は、例えば「あ、はい」という相槌データの一例であって、音高を変更しない状態で再生した場合における各音の音高を黒丸で示している。この状態では相槌データを再生しても、抑揚があるだけで、機械的な感じになることが多い。

そこで、音高制御部１４４は、相槌データを単純に再生した場合での語尾に相当する部分の音高を解析するとともに、当該解析した音高が音高解析部１３６からの音高データで示される音高に対して例えば５度下の関係となるように、相槌データ全体の音高（ピッチ）をシフトした上で、当該シフト後の相槌データを出力する（ステップＳａ１４）。

図９の（ｂ）は、利用者が「そうでしょ？」と発言した場合に、当該発言のうち、符号Ａで示される語尾の「しょ」の区間（語尾）の音高が音高データによって「ソ」であると示されるときに、（ａ）の相槌データにおける音高シフトの例を示す図である。この図に示されるように、音高制御部１４４は、「あ、はい」という回答のうち、符号Ｂで示される語尾の「い」の区間（語尾）の音高が「ソ」に対して５度下の音高である「ド」になるように、相槌データ全体の音高をシフトする。そして、音高制御部１４４は、音高をシフトした相槌データを再生して、Ｄ／Ａ変換器１３４に供給する。
これにより、スピーカ１０４からは、発言に対応して音高がシフトされた相槌が出力される。当該相槌データの出力後、この相槌処理とともに音声処理（図５参照）が終了することになる。

図１０は、本実施形態に係る音声合成装置１０が利用者に与える印象を説明するための図である。同図の（ａ）に示されるように、利用者Ｗが「そうでしょ？」という発言を端末装置である音声合成装置１０に入力する。このときの発言の語尾に相当する「しょ」の音高が「ソ」であれば、実施形態では、同図の（ｂ）で示されるように、「あ、はい」という相槌において、語尾に相当する「い」の音高が「ド」になるように音高がシフトされて出力される。このため、自己の発言に対して、あたかも端末装置である音声合成装置１０が賛同して相槌をうっているかのような好印象を、利用者Ｗに与えることができる。
一方、「あ、はい」という相槌データの音高をシフトしない場合、語尾に相当する「い」の音高は、相槌データ記憶部１４３に記憶された状態が反映されて、利用者Ｗによる発言の音高は考慮されない。このため、仮に同図の（ｃ）に示されるように、相槌の語尾に相当する「い」の音高が「ファ」であった場合、「そうでしょ？」という発言の語尾に相当する「しょ」の音高の「ソ」に対して不協和音程の関係になってしまう。すなわち、図４を参照すれば、「ソ」の周波数（３９６．０Ｈｚ）は「ファ」の周波数（３５２．０Ｈｚ）に対して９／８の関係にある。このため、利用者Ｗに、ワーストケースを想定してみると、嫌悪のような悪印象を与えてしまう。
なお、後述するように、音声合成装置１０において、このような悪印象を利用者に積極的に与える構成もあり得る。

次に、音声処理のステップＳ１５における回答処理について説明する。
図７は、この回答処理の詳細を示すフローチャートである。
入力された発言の内容が相槌を返すべきものではないと判別した言語解析部１３８は、その旨を連携部１４０に通知し、当該連携部１４０は、ホスト１６０における連携部１８０に対して、当該発言に対する回答を作成すべき旨（回答要求）を通知する（ステップＳａ３１）。
この通知を受け取った連携部１８０は、言語解析部１７８に対して、当該発言の意味内容の解析を指示する。この指示にしたがって言語解析部１７８は、上述したように当該発言の意味内容を解析する（ステップＳｂ３１）。そして、回答作成部１８２は、意味内容に対する回答データを作成（取得）して、当該回答データを音高制御部１４４に供給する（ステップＳｂ３２）。

一方、回答処理において、音高解析部１３６は、相槌処理におけるステップＳａ１２と同様に、入力された発言における語尾の音高を特定して、当該音高を示す音高データを音高制御部１４４に供給する（ステップＳａ３２）。
そして、音高制御部１４４は、回答データを単純に再生した場合での語尾に相当する部分の音高を解析するとともに、当該解析した音高が音高解析部１３６からの音高データで示される音高に対して例えば５度下の関係となるように、回答データの音高をシフトした上で、当該シフト後の回答データを出力する（ステップＳａ３４）。

ここでは、回答データの音高をシフトした結果については、相槌データが回答データに置き換わっただけであるので、図９の（ｂ）とほぼ同様となり、利用者Ｗに与える印象についても図１０に示した内容とほぼ同様となる。
なお、当該回答データの出力後、この回答処理とともに音声処理が終了することになる。

この実施形態に係る音声合成装置１０によれば、利用者による発言に対し、相槌データにより相槌を出力する場合でも、回答データにより相槌以外の回答を出力する場合でも、あたかも人同士が対話しているかのような自然な感じを利用者に与えることが可能になる。
本実施形態において、発言に対して相槌をうつ場合、ホスト１６０の側で処理されず、ＣＯＤＥＣ１２０で完結した処理になるので、当該発言に対して当該相槌をレスポンス良く出力することが可能になる。また、発言に対して相槌以外の回答を出力する場合、当該回答についてはホスト１６０の側で作成・取得する構成になるので、当該回答の精度を高めることができる。このため、本実施形態では、相槌をレスポンス良く出力できる一方で、相槌以外の回答を精度の良く出力できることとなる。

＜応用例・変形例＞
本発明は、上述した実施形態に限定されるものではなく、例えば次に述べるような各種の応用・変形が可能である。また、次に述べる応用・変形の態様は、任意に選択された一または複数を適宜に組み合わせることもできる。

＜音声入力部＞
実施形態では、音声入力部１０２は、利用者の音声（発言）をマイクロフォンで入力して音声信号に変換する構成としたが、この構成に限られず、他の処理部で処理された音声信号や、他の装置から供給（または転送された）音声信号を入力する構成としても良い。すなわち、音声入力部１０２は、音声信号による発言をなんらかの形で入力する構成であれば良い。

＜発言と相槌＞
実施形態では、発言が相槌を返すべきものであると判別された場合、相槌データ記憶部１４３に記憶された複数の相槌データのうち、いずれかが読み出される構成としたが、この構成では、上述したように（問題になることは少ないながらも）当該発言に対して的外れの相槌が出力されてしまうときがある。そこで、相槌データを、その相槌の根拠となる発言の音量・音高の典型的な変化パターンに対応付けておくとともに、音高解析部１３６から供給された発言の音量変化および音高変化が、ある発言の音量・音高の変化パターンに合致すると言語解析部１３８が判別したときに、当該発言に対応付けられた相槌データの読み出しを読出部１４２に指定する構成としても良い。この構成によれば、例えば「さむいなぁ」という発言の音量・音高の変化パターンに「そうですね」という相槌データを対応付けて相槌データ記憶部１４３に記憶させておけば、利用者が実際に「さむいなぁ」と発言した場合において、当該発言の音量変化および音高変化が、記憶させた「さむいなぁ」という発言の音量・音高の変化パターンに合致すれば、「そうですね」という適切な相槌が出力される。したがって、この場合において「さむいなぁ」という利用者の発言に対して「えーと」や、「なるほど」、「それで」などのような的外れの相槌が出力されてしまうのを回避することができる。

＜言語解析部＞
実施形態では、ＣＯＤＥＣ１２０に言語解析部１３８を持たせ、ホスト１６０に言語解析部１７８を持たせているが、どちらか一方、例えば言語解析部１３８については省略することができる。
言語解析部１３８を省略する場合、言語解析部１７８が、言語解析部１３８の機能を負うことになる。すなわち、言語解析部１７８が、デジタル信号の音声信号で示される発言が相槌を返すべきものであるか否かを判別し、発言が相槌を返すべきものであると判別すれば、その旨の情報を、ＣＯＤＥＣ１２０の読出部１４２に、直接的に、または、連携部１８０、１４０を介して間接的に供給して、相槌データの読み出しを指示すれば良い。

＜回答等の語尾、語頭＞
実施形態では、発言の語尾の音高に対応して相槌を含む回答の語尾の音高を制御する構成としたが、言語や、方言、言い回しなどによっては回答の語尾以外の部分、例えば語頭が特徴的となる場合もある。このような場合には、発言した人は、当該発言に対する回答があったときに、当該発言の音高と、当該回答の特徴的な語頭の音高とを無意識のうち比較して当該回答に対する印象を判断する。したがって、この場合には、発言の語尾の音高に対応して回答の語頭の音高を制御する構成とすれば良い。この構成によれば、回答の語頭が特徴的である場合、当該回答を受け取る利用者に対して心理的な印象を与えることが可能となる。

発言についても同様であり、語尾に限られず、語頭で判断される場合も考えられる。また、相槌を含む回答については、語頭、語尾に限られず、平均的な音高で判断される場合や、最も強く発音した部分の音高で判断される場合なども考えられる。このため、発言の第１区間と、回答の第２区間は、必ずしも語頭や語尾に限られない、ということができる。

＜音程の関係＞
上述した実施形態では、問いの語尾等に対して回答の語尾等の音高が５度下となるように音声合成を制御する構成としたが、５度下以外の協和音程の関係に制御する構成であっても良い。例えば、上述したように完全８度、完全５度、完全４度、長・短３度、長・短６度であっても良い。
また、協和音程の関係でなくても、経験的に良い（または悪い）印象を与える音程の関係の存在が認められる場合もあるので、当該音程の関係に回答の音高を制御する構成としても良い。ただし、この場合においても、問いの語尾等の音高と回答の語尾等の音高との２音間の音程が離れ過ぎると、問いに対する回答が不自然になりやすいので、問いの音高と回答の音高とが上下１オクターブの範囲内にあることが望ましい。

＜回答の音高シフト＞
ところで、発言の語尾等における音高に対して、相槌を含む回答の音高が所定の関係となるように制御しようとする構成では、詳細には、実施形態のように例えば５度下となるようにシフトする構成では、５度下とすべき音高が低すぎると、不自然な低音で回答が音声合成されてしまう場合がある。そこで次に、このような場合を回避するための応用例（その１、および、その２）について説明する。

図１１は、このうちの応用例（その１）における処理の要部を示す図である。なお、ここでいう処理の要部とは、図６におけるステップＳａ１４の「相槌の音高制御」または図７におけるステップＳａ３４の「回答の音高制御」で実行される処理をいう。すなわち、応用例（その１）では、ステップＳａ１４またはＳａ３４において、図１１で示される処理が実行される、という関係にあり、詳細については次の通りである。

まず、音高制御部１４４は、音高解析部１３６からの音高データで示される音高に対して、例えば５度下の関係にある音高を求めて仮決定する（ステップＳｃ１１）。
次に、音高制御部１４４は、仮決定した音高が予め定められた閾値音高よりも低いか否かを判別する（ステップＳｃ１２）。なお、閾値音高は、音声合成する際の下限周波数に相当する音高や、これより低ければ不自然な感じを与えるような音高などに設定される。

仮決定した音高、すなわち発言における語尾の音高よりも５度下の音高が閾値音高よりも低ければ（ステップＳｃ１２の判別結果が「Ｙｅｓ」であれば）、音高制御部１４４は、仮決定した音高を１オクターブ上の音高に変更する（ステップＳｃ１３）。一方、仮決定した目高が閾値音高以上であれば（ステップＳｃ１２の判別結果が「Ｎｏ」であれば）、上記ステップＳｃ１３の処理がスキップされる。
続いて、音高制御部１４４は、相槌データ（回答データ）の音高をシフトする際に目標となる語尾の音高を、次のような音高に本決定する（ステップＳｃ１４）。すなわち、音高制御部１４４は、仮決定した音高が閾値音高よりも低ければ、仮決定した音高を１オクターブ上に変更した音高に、また、仮決定した音高が閾値音高以上であれば、当該仮決定した音高をそのまま、それぞれ目標となる音高を本決定する。

そして、音高制御部１４４は、読出部１４２から供給された相槌データ（または回答作成部１８２から供給された回答データ）を単純に再生した場合での語尾に相当する部分の音高を解析するとともに、当該解析した音高が、本決定した音高となるように、相槌データ（回答データ）の音高をシフトした上で、当該シフト後の相槌データ（回答データ）を出力する（ステップＳｃ１５）。

この応用例（その１）によれば、仮にシフトした場合における音高が閾値音高よりも低ければ、当該音高よりも１オクターブ上の音高にシフトされるので、不自然な低音で相槌・回答が音声合成される、という点を回避することができる。
ここでは、回答の語尾等の音高を１オクターブ上の音高にシフトした例であったが、１オクターブ下の音高にシフトしても良い。詳細には、利用者が発した問いの語尾等の音高が高いために、当該音高に対して５度下の音高が高すぎると、不自然な高音で回答が音声合成されてしまう。これを回避するために、音高データで示される音高に対して５度下の関係にある音高（仮決定した音高）が閾値音高より高ければ、回答の語尾等の音高を、仮決定した音高よりも１オクターブ下の音高にシフトすれば良い。

また、音声合成する際には、性別や年齢別（子供／大人の別）などに分けて出力することができる場合がある。例えば、相槌データについては、相槌データ記憶部１４３に予め性別や年齢別などで分けるとともに、当該性別等の属性を規定する属性データに関連付けて相槌データを記憶させておけば、属性データに関連付けられる相槌データを読み出すことができる。一方、音声ライブラリ１８８において、音声素片データを同様に予め性別や年齢別などで分けて属性データに関連付けてデータベース化しておけば、属性データに関連付けられた回答データを作成することができる。

この場合のように女性や子供の属性が指定されているとき、発言の語尾に対して一律に５度下の音高に下げてしまうと、当該属性には不似合いの低音で相槌・回答が音声合成されてしまうので、同様に、１オクターブ上の音高となるようにシフトする構成としても良い。

図１２は、このような応用例（その２）における処理の要部を示す図であり、図６のステップＳａ１４または図７のＳａ３４において実行される処理を示している。
図１１と異なる点を中心に説明すると、ステップＳｄ１１において、音高制御部１４４は、音高解析部１３６からの音高データで示される音高に対して５度下の関係にある音高を求めて仮決定した後、女性や子供の属性が指定されているか否かを判別する（ステップＳｄ１２）。

音高制御部１４４は、所定の属性、すなわち女性や子供などの属性が指定されていれば（ステップＳｄ１２の判別結果が「Ｙｅｓ」であれば）、仮決定した音高を１オクターブ上の音高にシフトし（ステップＳｄ１３）、一方、当該属性として女性や子供が指定されていなければ、例えば男性や大人が指定されていれば（ステップＳｄ１２の判別結果が「Ｎｏ」であれば）、上記ステップＳｂ１３の処理がスキップされる。以降については応用例（その１）と同様である。
この応用例（その２）によれば、相槌・回答を女性や子供の声で出力する場合に、仮決定の音高よりも１オクターブ上の音高となるようにシフトされるので、不自然な低音で相槌・回答が音声合成される、という点を回避することができる。
ここでは、属性として女性や子供が指定されていれば、１オクターブ上の音高にシフトする例であったが、例えば属性として成人男性が指定されていれば、当該属性に対応したキャラクタに不似合いの高音で回答が音声合成されてしまうのを回避するために、１オクターブ下の音高にシフトしても良い。

＜不協和音程＞
上述した実施形態では、発言の語尾等に対して、相槌・回答の語尾等の音高が協和音程の関係となるように音声合成を制御する構成としたが、不協和音程の関係になるように音声合成を制御しても良い。なお、相槌・回答を不協和音程の関係にある音高で合成すると、発言した利用者に、不自然な感じや、悪印象、険悪な感じなどを与えて、スムーズな対話が成立しなくなる、という懸念もあるが、このような感じが逆にストレス解消に良いという見解もある。
そこで、動作モードとして、好印象等の相槌・回答を望むモード（第１モード）、悪印象を与えるような相槌・回答を望むモード（第２モード）を用意しておき、いずれかのモードに応じて音声合成を制御する構成としても良い。

図１３は、このような応用例（その３）における処理の要部を示す図であり、図６のステップＳａ１４または図７のＳａ３４において実行される処理を示している。
図１０と異なる点を中心に説明すると、音高制御部１４４は、動作モードとして第１モードが設定されているか否かを判別する（ステップＳｅ１１）。

音高制御部１４４は、動作モードとして第１モードが設定されていれば（ステップＳｅ１１の判別結果が「Ｙｅｓ」であれば）、相槌・回答の例えば語尾の音高を、発言の例えば語尾の音高に対して協和音程の関係にある音高となるように決定する（ステップＳｅ１２）。一方、音高制御部１４４は、動作モードとして第２モードが設定されていれば（ステップＳｄ１１の判別結果が「Ｎｏ」であれば）、相槌・回答の語尾の音高を、発言の語尾の音高に対して不協和音程の関係にある音高となるように決定する（ステップＳｅ１３）。以降については応用例（その１）、応用例（その２）と同様である。

したがって、この応用例（その３）によれば、第１モードが設定されていれば、発言の音高に対して協和音程の関係にある音高で相槌・回答が音声合成される一方、第２モードが設定されていれば、発言の音高に対して不協和音程の関係にある音高で相槌・回答が音声合成されるので、利用者は、適宜動作モードを使い分けることができることになる。

＜その他＞
実施形態にあっては、発言に対して相槌以外の回答を、ホスト１６０で作成する構成としたが、端末装置などでは、処理の負荷が重くなる点や、記憶容量に制限がある点などを考慮して、外部サーバの側に設ける構成としても良い。すなわち、音声合成装置１０において、回答作成部１８２は、発言に対する回答を示す回答データを音高制御部１４４に供給する構成であれば足り、その回答および回答データを、音声合成装置１０の側で作成するのか、音声合成装置１０以外の他の構成（例えば外部サーバ）の側で作成するのか、については問われない。

１０…音声合成装置、１２０…符号化復号化装置、１３２…Ａ／Ｄ変換器、１３４…Ｄ／Ａ変換器、１６０…ホストコンピュータ、１３６…音高解析部、１３８…言語解析部、１４３…相槌データ記憶部、１４４…音高制御部。

Claims

音声信号による発言をデジタル信号に変換するＡ／Ｄ変換器と、
前記デジタル信号による発言のうち、特定の第１区間の音高を解析する音高解析部と、
前記発言に対して相槌を返す場合に、前記発言の意味内容に応じた相槌データを取得する相槌取得部と、
取得された相槌データのうち、特定の第２区間の音高を、前記第１区間の音高に対して所定の関係にある音高に変更する音高制御部と、
音高が変更された相槌データをアナログ信号に変換して出力するＤ／Ａ変換器と、
を具備することを特徴とする符号化復号化装置。
前記Ａ／Ｄ変換器は、デジタル信号に変換した音声信号をホストコンピュータに供給し、
前記発言に対して前記相槌データによる相槌以外を返す場合に、
前記音高制御部は、前記ホストコンピュータから供給された前記発言に対する回答データのうち、前記第２区間の音高を、前記第１区間の音高に対して前記所定の関係にある音高に変更し、
前記Ｄ／Ａ変換器は、前記音高が変更された回答データをアナログ信号に変換する、
ことを特徴とする請求項１に記載の符号化復号化装置。
符号化復号化装置とホストコンピュータとを有し、
前記符号化復号化装置は、
音声信号による発言をデジタル信号に変換するＡ／Ｄ変換器と、
前記デジタル信号による発言のうち、特定の第１区間の音高を解析する音高解析部と、
前記発言に対して相槌を返す場合に、前記発言の意味内容に応じた相槌データを取得する相槌取得部と、
音高制御部と、
Ｄ／Ａ変換器と、
を有し、
前記ホストコンピュータは、
前記発言に対して前記相槌データによる相槌以外を返す場合に、当該発言に対する回答データを取得する回答取得部、
を有し、
前記音高制御部は、取得された相槌データまたは回答データのうち、特定の第２区間の音高を、前記第１区間の音高に対して所定の関係にある音高に変更し、
前記Ｄ／Ａ変換器は、音高が変更された相槌データまたは回答データをアナログ信号に変換して出力する
ことを特徴とする音声合成装置。
マイクロプロセッサと、音声信号による発言をデジタル信号に変換するＡ／Ｄ変換器と、デジタル信号をアナログ信号に変換するＤ／Ａ変換器と、
を有する符号化復号化装置のプログラムであって、
前記マイクロプロセッサを、
前記デジタル信号による発言のうち、特定の第１区間の音高を解析する音高解析部、
前記発言に対して相槌を返す場合に、前記発言の意味内容に応じた相槌データを取得する相槌取得部、および、
取得された相槌データのうち、特定の第２区間の音高を、前記第１区間の音高に対して所定の関係にある音高に変更して、前記Ｄ／Ａ変換器に供給する音高制御部、
として機能させることを特徴とするプログラム。