JP5677137B2

JP5677137B2 - 韻律変換装置およびプログラム

Info

Publication number: JP5677137B2
Application number: JP2011044022A
Authority: JP
Inventors: 礼子齋藤; 信正清山; 都木　徹; 徹都木
Original assignee: Japan Broadcasting Corp
Current assignee: Japan Broadcasting Corp
Priority date: 2011-03-01
Filing date: 2011-03-01
Publication date: 2015-02-25
Anticipated expiration: 2031-03-01
Also published as: JP2012181345A

Description

本発明は、入力される音声の韻律を変換する韻律変換装置、およびそのプログラムに関する。

音声を聞き易くするなどの目的で変換するために、音声の聞き取りに重要な音響特徴量を変換することは有効である。そして、複数の音響特徴量をそれぞれ変換する技術が知られている。例えば、特許文献１には、音声波形を元に、ピッチ（基本周波数）、パワー、継続長等の韻律変数とスペクトル情報等の音質変数に分離し、この韻律変数および音質変数を、選択された変換係数により更新させることにより声質を変換する技術が記載されている。また、非特許文献１（特に、「２．２．１音声の基本周波数パターン生成過程とそのモデル」）には、基本周波数の生成機構に対応付けることができるフレーズ指令およびアクセント指令に基づき、音声の基本周波数に時間変動を生じさせるモデルについて記載されている。そして、これらフレーズ指令およびアクセント指令のパラメータで基本周波数の時間変動パターンが定まる。

特開平１０−９７２６７号公報

広瀬啓吉編著，「韻律と音声言語情報処理アクセント・イントネーション・リズムの科学」，２００６年，丸善，ｐ．９−２３

音声を聞き取りやすく変換することができれば非常に有用であり、そのような技術が求められている。雑踏などの様々な状況において音声を聞き取ることが困難な場合があり、単に音量を大きくすること以外の方法で可聴性を向上させることができれば非常に便利である。特に高齢者などは音声を聞き取るのが困難な場合が多いが、音声の変換によって可聴性を向上させることができれば、高齢者だけでなく、広く一般にもメリットが得られる。

そのための方法の１つとして韻律を変換する方法が考えられるが、音声の了解度を向上させることを目的とする韻律変換方法は、従来考案されていない。
また、非特許文献１に記載されたフレーズ成分とアクセント成分を考慮することによって韻律変換を行うことも考えられるが、それらのパラメータの自動抽出は容易ではないことと、個々のパラメータの制御量には詳細な設定が必要になることから、人手を介する必要が多くなるという問題がある。

本発明は、このような事情に鑑みて為されたものであり、適切なパラメータを定め、そのパラメータを用いた制御を行うことによって、入力される音声の韻律を変換することのできる韻律変換装置およびそのプログラムを提供するものである。

［１］上記の課題を解決するため、本発明の一態様による韻律変換装置は、音声の韻律データを記憶する韻律データ記憶部と、前記韻律データに関する基準値をパラメータとして記憶するパラメータ記憶部と、韻律変換処理のための係数を設定値として記憶する設定部と、入力音声を分析し前記入力音声の韻律データを前記韻律データ記憶部に書き込むとともに、前記韻律データに関する基準値を求めて前記パラメータ記憶部に書き込む音声分析部と、前記設定部から読み出した前記設定値を用いて前記パラメータ記憶部に記憶された前記基準値からの韻律の変位量を変化させることによって前記韻律データ記憶部に記憶された前記韻律データを変換し、変換後の韻律データを用いて前記入力音声の韻律を変化させて出力する韻律変換部と、を具備する韻律変換装置であって、前記設定部は、前記基準値からの正方向の変位量を変化させるための正方向係数と、前記基準値からの負方向の変位量を変化させるための負方向係数とを、設定値として記憶し、前記韻律変換部は、前記基準値からの変位量が正の場合には当該変位量に前記正方向係数を乗じ、前記基準値からの変位量が負の場合には当該変位量に前記負方向係数を乗ずる、ことによって前記韻律データ記憶部に記憶された前記韻律データを変換する、ことを特徴とする。

この構成によれば、韻律変換装置は、韻律データの基準値からの変位量を制御して韻律変換し、変換後の音声を出力することができる。
韻律データは、例えば、音声の基本周波数の時間変動を表わすデータとして表現できる。
なお上記構成において、上記設定部が、設定値を書き換え可能とするように構成してもよい。この構成により、韻律データの基準値からの変位量を変化させる度合いを、適宜変更することが可能となる。
上記の構成により、基準値からの変位量が正方向か負方向かに応じて、異なる係数を用いることができ、きめ細かいパラメータ制御が可能となる。

［２］また、本発明の一態様による韻律変換装置は、音声の韻律データを記憶する韻律データ記憶部と、前記韻律データに関する基準値をパラメータとして記憶するパラメータ記憶部と、韻律変換処理のための係数を設定値として記憶する設定部と、入力音声を分析し前記入力音声の韻律データを前記韻律データ記憶部に書き込むとともに、前記韻律データに関する基準値を求めて前記パラメータ記憶部に書き込む音声分析部と、前記設定部から読み出した前記設定値を用いて前記パラメータ記憶部に記憶された前記基準値からの韻律の変位量を変化させることによって前記韻律データ記憶部に記憶された前記韻律データを変換し、変換後の韻律データを用いて前記入力音声の韻律を変化させて出力する韻律変換部と、前記入力音声の音声認識処理を行って前記入力音声に対応するテキストを出力する認識処理部と、を具備する韻律変換装置であって、前記パラメータ記憶部は、前記入力音声における時間区間ごとの基本周波数の変動の基準を表す前記パラメータと、前記入力音声の全体における基本周波数の代表値を表す前記パラメータとを記憶し、前記韻律変換部は、前記時間区間ごとに、当該時間区間における基本周波数の変動の基準からの前記入力音声の基本周波数の変位量を、前記設定部から読み出した係数を用いて変化させることによって前記韻律データを変更する第１のパラメータ制御部と、前記入力音声全体における、前記基本周波数の代表値からの変位量を、前記設定部から読み出した係数を用いて変化させることによって前記韻律データを変更する第２のパラメータ制御部と、を具備し、前記韻律変換部は、前記認識処理部から出力された前記テキストの構文解析処理を行って、前記テキストが文を含む場合には前記第１のパラメータ制御部と前記第２のパラメータ制御部の両方の処理結果に基づき変換後の前記韻律データを用いて前記入力音声の韻律を変化させて出力し、前記テキストが文を含まない場合には前記第１のパラメータ制御部のみ処理結果に基づき変換後の前記韻律データを用いて前記入力音声の韻律を変化させて出力する、ことを特徴とする。

上記時間区間は、例えば、基本周波数の変動に応じて区切られるものとすることができる。また、一例としては、基本周波数の時間変動の微分値に基づいて上記時間区間を区切ることができる。さらに、具体例としては、基本周波数の時間変動における変曲点、極大点、極小点などを基準として、上記区間を区切ることができる。
また、上記構成において、第１のパラメータ制御部は、制御の対象とする区間毎に、基準からの入力音声の基本周波数の変位量が所定量を超えた場合にのみ基本周波数の変位量を変化させるようにすることもできる。

上記の構成により、異なる時間長の区間におけるそれぞれの特徴量に応じて、第１のパラメータ制御および第２のパラメータ制御の両方を行うことができる。これは、具体的には後述するアクセント制御とイントネーション制御である。
上記の構成において、入力音声の全体における基本周波数の代表値とは、例えば、入力音声の全体における最高基本周波数と最低基本周波数の中間値とすることができる。また、例えば、基本周波数の分布頻度で重み付けした平均値などを、基本周波数の代表値としても良い。
また、第１のパラメータ制御と、第２のパラメータ制御に、それぞれ異なる係数を用いるよう、設定部に設定することもできる。

［３］また、本発明の一態様によるプログラムは、コンピュータを、上に記載の韻律変換装置として機能させるためのプログラムである。

本発明によれば、入力される音声を、簡便且つ効果的に、より聞き取り易い音声へ自動変換することができる。

本発明の第１の実施形態による韻律変換装置の機能構成を示すブロック図である。同実施形態による韻律データ記憶部が記憶する韻律データの構成とデータレイを示す概略図である。同実施形態によるパラメータ記憶部が記憶するパラメータデータの構成およびデータ例を示す概略図である。同実施形態による設定部が記憶する設定データの構成とデータ例を示す概略図である。同実施形態による音声分析部の内部における詳細機能構成を示すブロック図である。同実施形態による韻律変換部の内部における詳細機能構成を示すブロック図である。同実施形態によるアクセント用パラメータ制御の処理概略を説明するために基本周波数の時間変動を示すグラフである。同実施形態によるイントネーション用パラメータ制御の処理概略を説明するために基本周波数の時間変動を示すグラフである。同実施形態による韻律変換装置の全体的な処理手順を示すフローチャートである。本発明の第２の実施形態による韻律変換装置の機能構成を示すブロック図である。同実施形態による韻律変換装置の全体的な処理手順を示すフローチャートである。

以下、図面を参照しながら、本発明の複数の実施形態について説明する。

［第１の実施の形態］
図１は、第１の実施形態による韻律変換装置の機能構成を示すブロック図である。図示するように、韻律変換装置１は、音声分析部２０と、音声データ記憶部３１と、韻律データ記憶部３２と、パラメータ記憶部３３と、韻律変換部４０と、設定部５０とを備えて構成される。

音声がより聞き取り易くなるように韻律変換するため、韻律変換装置１は、音声の聞き取りに重要な基本周波数の変化幅を拡大させる制御を行う。人が発話する音声における基本周波数の時間変動は、呼気に応じて「へ」の字型に基本周波数が低くなるパターン（ここではイントネーションと呼ぶ）や、その上に重畳するアクセントパターンから構成される。それらの要素を個別に制御することで、柔軟な制御が可能となり、特に補聴のためのさらなる聞き取り易さの向上への、効果的な制御方法につながる。
韻律変換装置１は、以下において説明する構成により、音声全体のイントネーション、及び、アクセントに対応するパラメータの制御を行い、必要に応じて対象のパラメータとその制御量の設定を変更でき、韻律変換を行う。

音声分析部２０は、外部からの入力音声の特徴量を分析して韻律データを生成するとともに、韻律変換に用いるためのパラメータを抽出する。そして、音声分析部２０は、入力音声を表す音声データを音声データ記憶部３１に書き込み、生成された韻律データを韻律データ記憶部３２に書き込み、韻律データに関する基準値をパラメータとして抽出し、抽出されたパラメータをパラメータ記憶部３３に書き込む。なおここで、入力音声は、自然音声または合成音声のいずれであってもよく、またそれらの録音物であっても良い。また、入力音声の形式はデジタル音声データである。
音声分析部２０は、入力音声に対し少なくとも基本周波数と有声区間・無声区間の情報を分析し、さらに必要に応じて基本周波数に対し有声区間・無声区間の情報も用いて平滑化処理を行い、その後、制御対象となるパラメータを基本周波数から抽出する。ここで、抽出するパラメータは、音声のイントネーション用およびアクセント用のパラメータである。音声分析部２０のより詳細な構成については後述する。

音声データ記憶部３１は、入力音声に対応する音声データを記憶する。音声データ記憶部３１が記憶する音声データは、例えば、所定のサンプリング周波数による時系列サンプルの音圧レベルを量子化して表したデータである。
韻律データ記憶部３２は、入力音声の韻律データを記憶する。韻律データは、基本周波数の時間変動を表わすとともに、有声区間・無声区間の情報を表わす。
パラメータ記憶部３３は、韻律データに関する基準値をパラメータとして記憶する。具体的には、パラメータ記憶部３３は、基本周波数が時間に応じて変動する場合における、基準となる周波数のデータを記憶する。具体的には、パラメータ記憶部３３は、入力音声全体を代表する基本周波数の代表値のデータ（イントネーション制御のためのパラメータ）と、入力音声の時間区間ごとに基準となる周波数に関するデータ（アクセント制御のためのパラメータ）とを、それぞれ基準値として記憶する。

韻律変換部４０は、パラメータ記憶部３３から読み出したパラメータを用いて、韻律データ記憶部３２から読み出した韻律データを変換し、変換後の韻律データに基づいて音声データ記憶部３１から読み出した音声データの韻律を変換し、韻律変換後の音声を出力する。つまり、韻律変換部４０は、音声分析部２０によって抽出されたパラメータに対して制御を行い、それらのパラメータから変換の目標となる基本周波数を作成し、少なくともその基本周波数を用いて、入力音声に対する変換処理を行う。言い換えれば、韻律変換部４０は、設定部５０から読み出した設定値を用いてパラメータ記憶部３３に記憶された基準値からの韻律の変位量を変化させることによって韻律データ記憶部３２に記憶された韻律データを変換し、変換後の韻律データを用いて入力音声の韻律を変化させて出力する。なお、韻律変換部４０ののより詳細な構成については後述する。

設定部５０は、設定データを記憶するとともに、利用者からの操作に応じて設定データの更新を行う。つまり、設定データは、適宜書き換え可能である。設定データは、イントネーション制御用およびアクセント制御用の設定値を含む。イントネーション制御およびアクセント制御の詳細と設定値の使用方法については、後で詳述する。

なお、韻律変換装置１を構成する各部の機能は、電子回路を用いて構成される。また、音声データ記憶部３１と、韻律データ記憶部３２と、パラメータ記憶部３３とは、記憶媒体として磁気ディスク装置または半導体メモリを含んで構成される。

次に、韻律変換装置１が用いる主要なデータについて、説明する。
図２は、韻律データ記憶部３２が記憶する韻律データの構成とデータ例を示す概略図である。図示するように、韻律データは、表形式で表され、相対時刻と基本周波数との対応関係を時系列に並べて構成されるデータである。ここで、相対時刻は、入力音声の開始時からの相対時刻であり、「ＨＨ：ＭＭ：ＳＳ．ｈｈ」（ＨＨは時、ＭＭは分、ＳＳは秒、ｈｈは百分の一秒）の形式で表現される。図示する例では相対時刻の刻み幅を百分の一秒（１／１００秒）としているが、異なる刻み幅を用いても良い。また、基本周波数は、音声が有する周波数成分の最も低い周波数である。言い換えれば、基本周波数は、音声信号を正弦波の合成で表したときの最も低い周波数成分の周波数である。基本周波数の単位はヘルツ（Ｈｅｒｔｚ）である。このように、韻律は、基本周波数の時間変動で表される。また、韻律データ記憶部は、相対時刻に対応して、「有声／無声」のデータを含んでいる。このデータ「有声／無声」は、当該相対時刻から始まり次の相対時刻までの時間区間が、有声区間であるか無声区間であるかを表わす。なお、無声区間に対応する基本周波数のデータとしては、韻律データ記憶部３２がヌルデータを記憶するようにしても良い。
図示するデータでは、例えば、相対時刻「００：００：００．０３」における入力音声の基本周波数は９９．７ヘルツであり、同時刻から百分の一秒間の区間は有声区間である。

なお、図２に示したデータ形式の代わりに、有声／無声情報として、有声区間と無声区間の変わり目の相対時刻のデータ系列を、韻律データ記憶部３２が保持するようにしても良い。これらのデータ形式の変換は、双方向に容易に行うことができる。

図３は、パラメータ記憶部３３が記憶するパラメータデータの構成およびデータ例を示す概略図である。図示するように、パラメータ記憶部３３は、基本周波数中央値（入力音声における基本周波数の代表値）のデータと、基本周波数変曲点のデータとを記憶する。基本周波数中央値のデータは、音声の基本周波数の中央値を表わし、単位はヘルツである。また、基本周波数変曲点のデータは、相対時刻と基本周波数の組の集合として構成されるデータである。基本周波数が相対時刻の関数として与えられたとき、この関数を用いて表わされるグラフは基本周波数の時間変動に対応する。また、この関数の２階導関数がそのグラフの曲率（曲率は、正、負、ゼロのいずれの値も取り得る）であり、曲率が正から負に、または負から正に変わる点が、基本周波数の変曲点である。各々の変曲点は、（相対時刻，基本周波数）で表わされる。

図４は、設定部５０が記憶する設定データの構成とデータ例を示す概略図である。図示するように、設定データは、イントネーション制御用およびアクセント制御用のデータを含んでいる。設定部５０は、イントネーション制御用の設定データとしては、正方向倍率値Ｒ_ｉｐと負方向倍率値Ｒ_ｉｎとを記憶する。また、アクセント制御用の設定データとしては、正方向倍率値Ｒ_ａｐと負方向倍率値Ｒ_ａｎとを記憶する。

次に、韻律変換装置１の、より詳細な機能構成について説明する。
図５は、音声分析部２０の内部における詳細な機能構成を示すブロック図である。図示するように、音声分析部２０は、特徴量分析部２１と、基本周波数平滑化処理部２２と、パラメータ抽出部２３とを含んで構成される。

特徴量分析部２１は、入力音声を取り込み、その特徴量の分析を行う。具体的には、特徴量分析部２１は、入力音声の基本周波数を分析するとともに、それぞれの時間区間が有声区間であるか無声区間であるかを分析する。基本周波数を分析する処理自体は、既存の技術を用いて行う。有声区間と無声区間の判別は、フレーム毎の判断に基づき、例えば次の手順で行う。即ち、特徴量分析部２１は、入力波形を元に、例えばフレーム幅６．６６ミリ秒、シフト幅３．３３ミリ秒の各フレーム毎に、そのパワーと零交差数を計算する。パワーが所定の最低値Ｐ_ｍｉｎ以下の場合には、そのフレームは無音と判断する（判断１）。判断１で無音と判断されなかったとき、零交差数が所定の最高値Ｚ_ｍａｘ以上であれば、そのフレームは無声と判断する（判断２）。判断２で無声と判断されなかったとき、パワーが所定の最高値Ｐ_ｍａｘ以上であれば、そのフレームは有声と判断する（判断３）。判断３で有声と判断されない場合も、零交差数が所定の最低値Ｚ_ｍｉｎ以下であれば、そのフレームは有声と判断する（判断４）。判断４で有声と判断されない場合も、所定の時間遅れでの波形自己相関値が基準レベルよりも高い場合には、そのフレームは有声と判断する（判断５）。この判断５においては、入力波形の分析窓区間（時間区間）における標本値を用いて様々な時間遅れでの自己相関関数値用いる。例えば、遅れなしの場合の自己相関値に対して、ピーク値を与える遅れの場合の自己相関値が０．６倍以上である場合に、そのフレームは有声と判断する。判断５において有声と判断されなかった場合にはそのフレームは無声と判断する。そして、有声と判断されたフレームが６つ（約２０ミリ秒に相当）以上連続する場合に、その区間を有声区間と判断する。また、特徴量分析部２１は、無音と判断されなかった区間のうち有声区間と判断されなかった区間を無声区間と判断する。基本周波数が特徴量分析部２１は、入力音声に基づき、音声データ記憶部３１に音声データを書き込む。また、特徴量分析部２１は、分析の結果得られた基本周波数の情報、および有声区間と無声区間の開始時刻および終了時刻を表わす情報を、基本周波数平滑化処理部２２に渡す。
なお、特徴量分析部２１が、求められた基本周波数をセミトーンなどの対数値に変換して、以後の処理ではこの対数値を使用するようにしても良い。例えば、セミトーンの対数値は、次の式（１）により算出される。

Semitones(x) ＝ 12・log(x/y) ／ log(2) ・・・（１）

上の式（１）において、ｘは入力音声の基本周波数、ｙは基準周波数（例えば、１００ヘルツ）であり、Ｓｅｍｉｔｏｎｅｓ（ｘ）がセミトーンの対数値である。

基本周波数平滑化処理部２２は、特徴量分析部２１から出力された基本周波数の時系列データを用いて、基本周波数の時間変動を平滑化する処理を行う。平滑化処理の手法の例は次の通りである。即ち、基本周波数が得られる有声区間については、基本周波数平滑化処理部２２は、その区間において一定時間間隔で得られた基本周波数のサンプルに対し低域通過処理（ローパス処理）を行う。この低域通過処理における遮断周波数としては、例えば１０ヘルツを採用する。またこれに限らず、８ヘルツ〜１０ヘルツの間程度の周波数から適宜選択して遮断周波数として使用しても良い。また、基本周波数が得られない無声区間については、基本周波数平滑化処理部２２は、前後の有声区間における基本周波数の変動に基づき、例えばスプライン補間などの補間処理を行い、その結果を擬似的に平滑化後の基本周波数の値とする。そして、基本周波数平滑化処理部２２は、基本周波数の変動に関するデータを韻律データ記憶部３２に書き込む。
なお、基本周波数を平滑化する必要がない場合には、基本周波数平滑化処理部２２は低域通過処理等の実行を省略する。

パラメータ抽出部２３は、基本周波数平滑化処理部２２から出力される基本周波数の時間変動（平滑化済）の情報に基づき、パラメータを抽出する処理を行う。具体的には、パラメータ抽出部２３は、基本周波数中央値と基本周波数変曲点のデータを求め、それらのデータをパラメータ記憶部３３に書き込む。
さらに具体的な処理は、次の通りである。まず、パラメータ抽出部２３は、平滑化済の基本周波数データを入力音声の時間区間全体に渡って読み込み、短い時間区間毎（例えば、百分の一秒毎）の基本周波数の統計を取り、そのメジアンｆ_０Mを求める。言い換えれば、ｆ_０M、は、基本周波数中央値（入力音声全体における代表値）である。そして、求めた基本周波数中央値を、パラメータ抽出部２３は、パラメータ記憶部３３に書き込む。
次に、パラメータ抽出部２３は、時系列の基本周波数のデータを順次読み込み、基本周波数の時間変動における変曲点を求める。なお、ここではサンプル時刻における基本周波数を用いて、パラメータ抽出部２３は２階導関数の値の近似値を求める。その近似値は、次の式（２）により求められる。

ｃ（ｔ）＝｛ｆ_０（ｔ＋２Δｔ）−２ｆ_０（ｔ＋Δｔ）＋ｆ_０（ｔ）｝／｛（Δｔ）＾２｝・・・（２）

上の式（２）において、ｃ（ｔ）は基本周波数の２階導関数（曲率）の近似値である。また、ｆ_０（ｔ）は相対時刻ｔにおける基本周波数である。また、Δｔは、相対時刻のサンプル間の微小幅であり、一定の正値である。また「＾」は、べき乗計算のための演算子である。そして、求められたｃ（ｔ）の極性が、正から負に、あるいは負から正に変化する点が、求めるべき変曲点である。予め基本周波数平滑化処理部２２による平滑化処理を行っているため、パラメータ抽出部２３は、ノイズの影響を受けずに良好に変曲点を求めることができる。
このようにして求めた複数の変曲点のそれぞれの相対時刻および基本周波数の値のペアを、パラメータ抽出部２３は、パラメータ記憶部３３に書き込む。

図６は、韻律変換部４０の内部における機能構成を示すブロック図である。図示するように、韻律変換部は、アクセント用パラメータ制御部４１（第１のパラメータ制御部）と、イントネーション用パラメータ制御部４２（第２のパラメータ制御部）と、基本周波数構成部４３と、変換処理部４４とを含んで構成される。

アクセント用パラメータ制御部４１およびイントネーション用パラメータ制御部４２は、パラメータ記憶部３３からパラメータデータを読み出し、それぞれ、アクセント制御およびイントネーション制御により韻律変換のためのパラメータ制御の処理を行い、更新されたパラメータを出力する。なお、このとき、アクセント用パラメータ制御部４１およびイントネーション用パラメータ制御部４２は、設定部５０によって設定されている設定値を使用する。なお、アクセント用のパラメータを制御する処理とイントネーション用のパラメータを制御する処理との順序は、任意である。

ここで、アクセントとは、発話中の一単語程度の時間の長さにおける基本周波数の時間変動のことである。但し、必ずしも厳密に一単語の長さでなくても良い。アクセント用パラメータ制御部４１は、そのような区間を対象として、韻律変換用のパラメータの制御を行う。また、イントネーションとは、発話における一文程度の時間の長さにおける、基本周波数の時間変動のことである。但し、必ずしも厳密に一文の長さでなくても良い。イントネーション用パラメータ制御部４２は、そのような区間を対象として、韻律変換用のパラメータの制御を行う。

基本周波数構成部４３は、アクセント用パラメータ制御部４１およびイントネーション用パラメータ制御部４２によって更新されたパラメータを用いて、音声の基本周波数の時系列を再構成する処理を行う。言い換えれば、基本周波数構成部４３は、パラメータを用いて韻律データ記憶部３２に記憶されている韻律データを更新する。この処理によって変換後の韻律に対応する基本周波数の時間変動データを得られる。変換後の韻律に対応する基本周波数を、目標基本周波数とも呼ぶ。

変換処理部４４は、基本周波数構成部４３によって再構成された韻律データに従って、音声データ記憶部３１から読み出した音声データの韻律変換を行い、変換後の音声を出力する。なお、韻律データ、即ち基本周波数の時間変動を表わすデータに基づいて音声データの高さ（目標基本周波数）のみを変更する処理自体は、既存の技術を用いて行うことができる。

次に、上述のアクセント制御およびイントネーション制御のそれぞれについて、より詳細に説明する。
図７は、アクセント用パラメータ制御部４１によるアクセント制御（基本周波数変更）の処理を示すグラフである。同図において、横軸は時刻であり、縦軸は基本周波数（ｓｅｍｉｔｏｎｅ，セミトーン)である。このグラフにおける細い実線は、基本周波数平滑化処理部２２による平滑化後の基本周波数を表わす。また、破線は、パラメータ抽出部２３によって求められた基本周波数変曲点のデータに基づき、隣接する変曲点同士を結んで得られる直線分を表わし、この直線分はアクセント制御のための基準となる。また、太い実線は、アクセント制御の結果として得られる基本周波数の時間変動を表わす。
隣接する２つの変曲点（ｔ_１，ｆ_１）と（ｔ_２，ｆ_２）の間の区間についてみたとき、グラフ上のこの２点を通る破線は、次の式（３）で表わされる。

ｆ_ｂ（ｔ）＝（ａ・ｔ）＋ｂ・・・（３）

ここで、ｔ_１＜ｔ＜ｔ_２とする。また、ｆ_ｂ（ｔ）は相対時刻ｔにおいて基準となる基本周波数である。なお、ａおよびｂは、変曲点の座標（ｔ_１，ｆ_１）と（ｔ_２，ｆ_２）が与えられたときに定まる定数である。
また、時刻ｔにおける入力音声の基本周波数（アクセント制御による変更前）をｆ_０（ｔ）と表わしたとき、（ｆ_０（ｔ）−ｆ_ｂ（ｔ））が正か負かに応じて、言い換えれば、時刻ｔにおける入力音声の基本周波数（アクセント制御による変更前）が基準となる基本周波数（グラフにおける破線）よりも高いか低いかに応じて、次の式（４）および（５）によって変換後の基本周波数を求める。
（ｆ_０（ｔ）−ｆ_ｂ（ｔ））が正または零のとき、アクセント用パラメータ制御部４１は、式（４）を用いて変換後の基本周波数ｆ_０ａ（ｔ）を計算する。

ｆ_０ａ（ｔ）＝ｆ_ｂ（ｔ）＋Ｒ_ａｐ（ｆ_０（ｔ）−ｆ_ｂ（ｔ））・・・（４）

また、（ｆ_０（ｔ）−ｆ_ｂ（ｔ））が負のとき、アクセント用パラメータ制御部４１は、式（５）を用いて変換後の基本周波数ｆ_０ａ（ｔ）を計算する。

ｆ_０ａ（ｔ）＝ｆ_ｂ（ｔ）＋Ｒ_ａｎ（ｆ_０（ｔ）−ｆ_ｂ（ｔ））・・・（５）

つまり、（ｆ_０（ｔ）−ｆ_ｂ（ｔ））が、基準となる基本周波数からの変位量であり、式（４）および（５）においては、それぞれ、係数Ｒ_ａｐおよびＲ_ａｎを乗算することにより、上記変位量を変化させるような制御を行っている。なお、アクセント制御用の係数Ｒ_ａｐおよびＲ_ａｎは、設定部５０によって設定された値であり、図４を参照しながら説明した通りである。係数Ｒ_ａｐおよびＲ_ａｎを１より大きい数として設定することにより、アクセント用パラメータ制御部４１は、アクセントの抑揚の幅（基本周波数の変動幅、基本周波数の基準からの変位量）を拡大するように、韻律変換における目標基本周波数を計算することとなる。図７に描かれた上方向および下方向の矢印は、それぞれ、基準となる基本周波数に基づく、基本周波数変動幅の拡大を表わしている。

なお、図７においては縦軸の基本周波数をセミトーン（対数軸）で表しているが、対数に基づくアクセント制御を行っても良く、また「ヘルツ」を単位とする基本周波数に基づくアクセント制御を行っても良い。また、ここでは、正方向のアクセント制御用係数Ｒ_ａｐと負方向のアクセント制御用係数Ｒ_ａｎとを異なる値に設定できるようにしているが、正方向と負方向で常に同じ係数を用いるようにしても良い。
このようにして、アクセント用パラメータ制御部４１は、アクセント制御を行い、韻律データとして保持している時系列の基本周波数データを更新する。

図８は、イントネーション用パラメータ制御部４２によるイントネーション制御（基本周波数変更）の処理を示すグラフである。同図においても、図７と同様に、横軸は時刻であり、縦軸は基本周波数（ｓｅｍｉｔｏｎｅ)である。また、グラフにおける細い実線は、基本周波数平滑化処理部２２による平滑化後の基本周波数を表わす。また、破線は、パラメータ抽出部２３によって求められた基本周波数中央値を表わし、この基本周波数中央値はイントネーション制御のための基準となる。また、太い実線は、イントネーション制御の結果として得られる基本周波数の時間変動を表わす。

パラメータ記憶部３３から読み出した基本周波数中央値をｆ_０Mとして、入力音声の全区間（例えば、一文に相当する区間であるがこれに限らない。）における相対時刻ｔにおける基本周波数（イントネーション制御による変更前）をｆ_０（ｔ）と表わしたとき、（ｆ_０（ｔ）−ｆ_０M）が正か負かに応じて、言い換えれば、時刻ｔにおける入力音声の基本周波数（イントネーション制御による変更前）が基準となる基本周波数（グラフにおける破線）よりも高いか低いかに応じて、次の式（６）および（７）によって変換後の基本周波数を求める。
（ｆ_０（ｔ）−ｆ_０M）が正または零のとき、イントネーション用パラメータ制御部４２は、式（６）を用いて変換後の基本周波数ｆ_０ｉ（ｔ）を計算する。

ｆ_０ｉ（ｔ）＝ｆ_０M＋Ｒ_ｉｐ（ｆ_０（ｔ）−ｆ_０M）・・・（６）

また、（ｆ_０（ｔ）−ｆ_０M）が負のとき、イントネーション用パラメータ制御部４２は、式（７）を用いて変換後の基本周波数ｆ_０ｉ（ｔ）を計算する。

ｆ_０ｉ（ｔ）＝ｆ_０M＋Ｒ_ｉｎ（ｆ_０（ｔ）−ｆ_０M）・・・（７）

つまり、（ｆ_０（ｔ）−ｆ_０M）が、基準となる基本周波数からの変位量であり、式（６）および（７）においては、それぞれ、係数Ｒ_ｉｐおよびＲ_ｉｎを乗算することにより、上記変位量を変化させるような制御を行っている。なお、イントネーション制御用の係数Ｒ_ｉｐおよびＲ_ｉｎは、設定部５０によって設定された値であり、図４を参照しながら説明した通りである。係数Ｒ_ｉｐおよびＲ_ｉｎを１より大きい数として設定することにより、イントネーション用パラメータ制御部４２は、イントネーションの抑揚の幅（基本周波数の変動幅、基本周波数の基準からの変位量）を拡大するように、韻律変換における目標基本周波数を計算することとなる。図８に描かれた上方向および下方向の矢印は、それぞれ、基準となる基本周波数に基づく、基本周波数変動幅の拡大を表わしている。

なお、図８においては縦軸の基本周波数をセミトーン（対数軸）で表しているが、対数に基づくイントネーション制御を行っても良く、また「ヘルツ」を単位とする基本周波数に基づくイントネーション制御を行っても良い。また、ここでは、正方向のイントネーション制御用係数Ｒ_ｉｐと負方向のイントネーション制御用係数Ｒ_ｉｎとを異なる値に設定できるようにしているが、正方向と負方向で常に同じ係数を用いるようにしても良い。
このようにして、イントネーション用パラメータ制御部４１は、イントネーション制御を行い、韻律データとして保持している時系列の基本周波数データを更新する。

図９は、韻律変換装置１の全体的な処理の手順を示すフローチャートである。以下、このフローチャートに沿って説明する。
まずステップＳ１において、音声分析部２０内の特徴量分析部２１が、入力音声を分析し、その時刻毎の基本周波数を求める。
次にステップＳ２において、音声分析部２０内の特徴量分析部２１が、基本周波数を求めた結果に基づいて、時間区間毎に、その区間が有声区間であるか無声区間であるかを判定する。

次にステップＳ３において、音声分析部２０内の基本周波数平滑化処理部２２が、基本周波数変動の平滑化処理を行う。具体的には、基本周波数平滑化処理部２２は、有声区間については基本周波数の変動周波数に関する低域通過処理を行い、無声区間については隣接する有声区間における基本周波数の値に基づくスプライン補間等の処理を行う。これにより、平滑化済の韻律データが得られる。
次にステップＳ４において、音声分析部２０内のパラメータ抽出部２３が、パラメータを抽出する処理を行う。具体的には、パラメータ抽出部２３は、平滑化済の韻律データに基づき、基本周波数中央値を求めるとともに、基本周波数の変動における変曲点を特定し、それら変曲点の相対時刻およびその時刻における基本周波数を求める。

次にステップＳ５において、韻律変換部４０内のイントネーション用パラメータ制御部４２が、パラメータ記憶部３３から読み出したパラメータに基づいて、イントネーション用パラメータ制御の処理を行う。
次にステップＳ６において、韻律変換部４０内のアクセント用パラメータ制御部４１が、パラメータ記憶部３３から読み出したパラメータに基づいて、アクセント用パラメータ制御の処理を行う。
なお、既に述べたように、アクセント用パラメータ制御の処理を行ってから、その結果に対してイントネーション用パラメータ制御の処理を行っても良い。つまり、ステップＳ５とＳ６の処理順序を逆にしても良い。

次にステップＳ７において、韻律変換部４０内の基本周波数構成部４３が、アクセント用パラメータ制御部４１およびイントネーション用パラメータ制御部４２による制御に基づいて、基本周波数の時系列データを再構成する。つまり、基本周波数構成部４３は、韻律データ記憶部３２に格納されていた韻律データを再構成して、再構成後の韻律データを変換処理部４４に渡す。
次にステップＳ８において、韻律変換部４０内の変換処理部４４は、基本周波数構成部４３によって変更された韻律データに基づき、元の音声データの韻律を変更するとともに、韻律変換された音声を出力する。

［第１の実施の形態の変形例］
第１の実施形態の変形例について説明する。
上述した第１の実施形態では、アクセント用パラメータ制御部４１は、式（４）および式（５）に従って、設定された値を乗算することによって、基準となる基本周波数からの変位を拡大するようなパラメータ制御を行った。ここに記載する変形例においては、基準となる基本周波数から所定の幅の範囲内においては基本周波数変動幅の拡大を行わず、当該幅を越えた分についてのみ基本周波数変動の拡大を行う。

具体的には次の通りである。
ひとつの区間（ある変曲点から隣接する次の変曲点までの間）について見たときに、ｆ_０（ｔ）−ｆ_ｂ（ｔ）≧０であるものの、その区間内で一度もｆ_０（ｔ）−ｆ_ｂ（ｔ）≧Ｃ_Ｕとはならない場合には、アクセント用パラメータ制御部４１は、その区間においては基本周波数変動幅の拡大を行わない。即ち、そのような場合には、ｆ_０ａ（ｔ）＝ｆ_０（ｔ）である。
ひとつの区間について見たときに、ｆ_０（ｔ）−ｆ_ｂ（ｔ）≧０であって、その区間内で一瞬でもｆ_０（ｔ）−ｆ_ｂ（ｔ）≧Ｃ_Ｕとなる場合には、アクセント用パラメータ制御部４１は、その区間においては基本周波数変動幅の拡大を行う。即ち、前記の式（４）によって変換後の基本周波数ｆ_０ａ（ｔ）を計算する。

また、ひとつの区間について見たときに、ｆ_０（ｔ）−ｆ_ｂ（ｔ）＜０であるものの、その区間内で一度もｆ_０（ｔ）−ｆ_ｂ（ｔ）≦−Ｃ_Ｌとはならない場合には、その区間においては基本周波数変動幅の拡大を行わない。即ち、そのような場合には、ｆ_０ａ（ｔ）＝ｆ_０（ｔ）である。
ひとつの区間について見たときに、ｆ_０（ｔ）−ｆ_ｂ（ｔ）＜０であって、その区間内で一瞬でもｆ_０（ｔ）−ｆ_ｂ（ｔ）≦−Ｃ_Ｌとなる場合には、その区間においては基本周波数変動幅の拡大を行う。即ち、前記の式（５）によって変換後の基本周波数ｆ_０ａ（ｔ）を計算する。

なお、上において、周波数の幅Ｃ_ＵおよびＣ_Ｌの値は適宜定めるが、例えば、Ｃ_Ｕ＝１５Ｈｚ、Ｃ_Ｌ＝１０Ｈｚなどと設定する。また、基準となる周波数よりも高い側と低い側の幅を同じにして、例えば、Ｃ_Ｕ＝Ｃ_Ｌ＝１０Ｈｚなどと設定しても良い。

この変形例では、アクセント用パラメータ制御において、基準となる基本周波数から所定の幅の範囲内においては基本周波数変動幅の拡大を行わず、当該幅を越えた分についてのみ基本周波数変動の拡大を行う。このため、変位の大きい部分（抑揚がつくべき部分）の抑揚を強調して聞き取りやすさを得ながら、抑揚が付かなくても良い基本周波数変化の単なる揺れに対しては基本周波数変動の拡大を行わずに入力音声の韻律を維持するので、より一層自然な韻律を得ることができる。

［第２の実施の形態］
図１０は、第２の実施形態による韻律変換装置の機能構成を示すブロック図である。図示するように、韻律変換装置２は、音声分析部２０と、音声データ記憶部３１と、韻律データ記憶部３２と、パラメータ記憶部３３と、韻律変換部４０と、設定部５０と、認識処理部６０を備えて構成される。
なお、以下では、前述の実施形態との共通の事項については記載を省略し、本実施形態特有の技術事項のみを記す。また、前述の実施形態と共通の機能ブロックについては、同一の符号を付している。

認識処理部６０は、音声データ記憶部３１から音声データを読み出し、その音声認識処理を行って、入力音声に対応するテキストを得る。そして、認識処理部６０は、認識処理によって得られたテキストのデータを韻律変換部４０ａに渡す。なお、音声認識処理自体は、既存の技術を利用する。即ち、認識処理部６０は、音声の音響的特徴とそれに対応する音素または単語等の言語要素との統計的数値情報を音響モデルとして保持するとともに、単語等の連鎖の出現確率に関する数値情報を言語モデルとして保持し、入力音声に対応する最尤テキストを求めることにより音声認識処理を行う。

韻律変換部４０ａは、内部に言語処理部（不図示）を備え、認識処理部６０から取得したテキストの形態素解析処理および構文解析処理を行う。言語処理部が有する機能自体は、既存技術を用いて実現する。なお、韻律変換部４０ａは、言語の種類（日本語、英語、フランス語など）によらず、形態素解析処理および構文解析処理を行うことができる。

そして、韻律変換部４０ａは、構文解析処理の結果に基づき、入力音声が文（sentence）を含んでいるか否かを判定し、入力音声が文を含む場合にはイントネーション用パラメータ制御とアクセント用パラメータ制御の両方の方法によってパラメータ制御を行う。そして、入力音声が文を含まない場合には、イントネーション用パラメータ制御の処理をスキップしてアクセント用パラメータ制御の処理のみによってパラメータ制御を行う。そして、韻律変換部４０ａは、これらの場合ごとのパラメータ制御の結果に基づき、変換後の韻律データを用いて、入力音声の韻律を変化させて出力する。

なお、入力音声が文を含むか否かの判定は、上記の構文解析処理において、音声認識結果として得られたテキストが、文の生成規則にマッチするか否かによって行うことができる。

本実施形態の構成により、入力音声が文を含む場合と、含まない場合（例えば、単語の羅列のみで構成される音声など）とで、異なる制御を行うことができるようになる。例えば、単語の羅列のみの音声が入力された場合などには、アクセント制御のみを行い、イントネーション制御を行わないため、より自然な韻律への変換を行うことができる。

［第２の実施の形態の変形例］
ここに記載する変形例では、韻律変換装置２は、認識処理部６０による音声認識結果を用いて、入力音声を一文単位に区切って、その区切られた単位ごとに韻律変換処理を行う。具体的には、韻律変換部４０ａは、内部に言語処理部（不図示）を備え、認識処理部６０から取得したテキストの形態素解析処理および構文解析処理を行う。そして、韻律変換部４０ａは、構文解析の結果を利用して、入力音声の音声データと韻律データを一文の長さに区切る。そして、音声分析部２０内のパラメータ抽出部２３が、その区切られた区間についてパラメータの抽出をし直す。そして、その区切られた区間について、韻律変換部４０ａが韻律変換の処理をする。
この構成により、文単位で、イントネーション用パラメータ制御の処理およびアクセント用パラメータ制御の処理を行うことができるようになる。

なお、上述した各実施形態およびその変形例における韻律変換装置の機能をコンピュータで実現するようにしても良い。その場合、この機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現しても良い。なお、ここでいう「コンピュータシステム」とは、ＯＳや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ−ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時刻の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時刻プログラムを保持しているものも含んでも良い。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。

以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。
例えば、上述した実施形態においては、韻律データ記憶部３２は、一定の等間隔に並んだ時刻ごとの基本周波数の値を表形式のデータとして保持するようにしたが、基本周波数の時間変動を表す他の形式のデータを用いて構成するようにしてもよい。例えば、基本周波数のサンプル値を取る間隔は一定でなくてもよく、また、サンプル値の集合としてではなく数式等で基本周波数の時間変動を表すようにしてもよい。

本発明は音、声による案内装置や、テレビおよびラジオ等の放送受信機や、電話網あるいは電話端末装置など、人の音声を扱う装置等に幅広く利用できる。

１，２韻律変換装置
２０音声分析部
２１特徴量分析部
２２基本周波数平滑化処理部
２３パラメータ抽出部
３１音声データ記憶部
３２韻律データ記憶部
３３パラメータ記憶部
４０，４０ａ韻律変換部
４１アクセント用パラメータ制御部（第１のパラメータ制御部）
４２イントネーション用パラメータ制御部（第２のパラメータ制御部）
４３基本周波数構成部
４４変換処理部
５０設定部
６０認識処理部

Claims

音声の韻律データを記憶する韻律データ記憶部と、
前記韻律データに関する基準値をパラメータとして記憶するパラメータ記憶部と、
韻律変換処理のための係数を設定値として記憶する設定部と、
入力音声を分析し前記入力音声の韻律データを前記韻律データ記憶部に書き込むとともに、前記韻律データに関する基準値を求めて前記パラメータ記憶部に書き込む音声分析部と、
前記設定部から読み出した前記設定値を用いて前記パラメータ記憶部に記憶された前記基準値からの韻律の変位量を変化させることによって前記韻律データ記憶部に記憶された前記韻律データを変換し、変換後の韻律データを用いて前記入力音声の韻律を変化させて出力する韻律変換部と、
を具備する韻律変換装置であって、
前記設定部は、前記基準値からの正方向の変位量を変化させるための正方向係数と、前記基準値からの負方向の変位量を変化させるための負方向係数とを、設定値として記憶し、
前記韻律変換部は、前記基準値からの変位量が正の場合には当該変位量に前記正方向係数を乗じ、前記基準値からの変位量が負の場合には当該変位量に前記負方向係数を乗ずる、ことによって前記韻律データ記憶部に記憶された前記韻律データを変換する、
ことを特徴とする韻律変換装置。
音声の韻律データを記憶する韻律データ記憶部と、
前記韻律データに関する基準値をパラメータとして記憶するパラメータ記憶部と、
韻律変換処理のための係数を設定値として記憶する設定部と、
入力音声を分析し前記入力音声の韻律データを前記韻律データ記憶部に書き込むとともに、前記韻律データに関する基準値を求めて前記パラメータ記憶部に書き込む音声分析部と、
前記設定部から読み出した前記設定値を用いて前記パラメータ記憶部に記憶された前記基準値からの韻律の変位量を変化させることによって前記韻律データ記憶部に記憶された前記韻律データを変換し、変換後の韻律データを用いて前記入力音声の韻律を変化させて出力する韻律変換部と、
前記入力音声の音声認識処理を行って前記入力音声に対応するテキストを出力する認識処理部と、
を具備する韻律変換装置であって、
前記パラメータ記憶部は、前記入力音声における時間区間ごとの基本周波数の変動の基準を表す前記パラメータと、前記入力音声の全体における基本周波数の代表値を表す前記パラメータとを記憶し、
前記韻律変換部は、前記時間区間ごとに、当該時間区間における基本周波数の変動の基準からの前記入力音声の基本周波数の変位量を、前記設定部から読み出した係数を用いて変化させることによって前記韻律データを変更する第１のパラメータ制御部と、前記入力音声全体における、前記基本周波数の代表値からの変位量を、前記設定部から読み出した係数を用いて変化させることによって前記韻律データを変更する第２のパラメータ制御部と、を具備し、
前記韻律変換部は、前記認識処理部から出力された前記テキストの構文解析処理を行って、前記テキストが文を含む場合には前記第１のパラメータ制御部と前記第２のパラメータ制御部の両方の処理結果に基づき変換後の前記韻律データを用いて前記入力音声の韻律を変化させて出力し、前記テキストが文を含まない場合には前記第１のパラメータ制御部のみ処理結果に基づき変換後の前記韻律データを用いて前記入力音声の韻律を変化させて出力する、
ことを特徴とする韻律変換装置。
コンピュータを、請求項１に記載の韻律変換装置として機能させるためのプログラム。