JP5830364B2

JP5830364B2 - 韻律変換装置およびそのプログラム

Info

Publication number: JP5830364B2
Application number: JP2011263672A
Authority: JP
Inventors: 礼子齋藤; 信正清山; 今井　篤; 篤今井
Original assignee: Japan Broadcasting Corp
Current assignee: Japan Broadcasting Corp
Priority date: 2011-12-01
Filing date: 2011-12-01
Publication date: 2015-12-09
Anticipated expiration: 2031-12-01
Also published as: JP2013117556A

Description

本発明は、入力される音声の韻律を逐次的に変換する逐次型韻律変換装置、およびそのプログラムに関する。

音声を聞き易くするなどの目的で変換するために、音声の聞き取りに重要な音響特徴量を変換することは有効である。そして、複数の音響特徴量をそれぞれ変換する技術が知られている。例えば、特許文献１には、音声波形を元に、ピッチ（基本周波数）、パワー、継続長等の韻律変数とスペクトル情報等の音質変数に分離し、この韻律変数および音質変数を、選択された変換係数によって更新させることにより声質を変換する技術が記載されている。また、非特許文献１（特に、「２．２．１音声の基本周波数パターン生成過程とそのモデル」）には、基本周波数の生成機構に対応付けることができるフレーズ指令およびアクセント指令に基づき、音声の基本周波数に時間変動を生じさせるモデルについて記載されている。そして、これらフレーズ指令およびアクセント指令のパラメータで基本周波数の時間変動パターンが定まる。

特開平１０−０９７２６７号公報

広瀬啓吉編著，「韻律と音声言語情報処理アクセント・イントネーション・リズムの科学」，２００６年，丸善，ｐ．９−２３

音声を聞き取りやすく変換することができれば非常に有用であり、そのような技術が求められている。雑踏などの様々な状況において音声を聞き取ることが困難な場合があり、単に音量を大きくすること以外の方法で可聴性を向上させることができれば非常に便利である。特に高齢者などは音声を聞き取るのが困難な場合が多いが、音声の変換によって可聴性を向上させることができれば、高齢者だけでなく、広く一般にもメリットが得られる。

そのための方法の１つとして韻律を変換する方法が考えられるが、音声の了解度を向上させることを目的とする逐次型の韻律変換方法は、従来考案されていない。
また、非特許文献１に記載されたフレーズ成分とアクセント成分を考慮することによって韻律変換を行うことも考えられるが、それらのパラメータの自動抽出は容易ではないことと、個々のパラメータの制御量には詳細な設定が必要になることから、人手を介する必要が多くなるという問題がある。

本発明は、このような事情に鑑みて為されたものであり、適切なパラメータを定め、そのパラメータを用いた制御を逐次的に行なうことによって、入力される音声の韻律を変換することのできる逐次型の韻律変換装置およびそのプログラムを提供するものである。

［１］上記の課題を解決するため、本発明の一態様による韻律変換装置は、入力音声を分析し前記入力音声の韻律データを出力する音声分析部と、前記韻律データを変換し変換後の韻律データを出力する韻律データ作成部と、前記韻律データ作成部から出力される前記変換後の韻律データに従って前記入力音声の韻律を変換し、変換後の音声を出力する韻律変換部とを具備する韻律変換装置であって、前記韻律データ作成部は、前記音声分析部から出力される前記韻律データの所定の時間窓内のデータをフィルタリングして強調成分データを抽出するアクセント用パラメータ制御部と、前記韻律データに前記強調成分データを合成して前記変換後の韻律データを作成する基本周波数構成部とを具備する。

この構成によれば、韻律データ作成部において、アクセント用パラメータ制御部が所定の時間窓内のデータに基づく強調成分データを抽出する。そして、基本周波数構成部は、変換前の韻律データと強調成分データとに基づき変換後の韻律データを作成する。つまり、時間窓内のデータに基づいて韻律データを変換できる。つまり、韻律変換装置が韻律変換処理を行うために当該時間窓よりも後のデータを待つ必要がない。つまり、韻律変換装置は、逐次、限られた所定の遅延で、韻律変換を行うことができる。

［２］また、本発明の一態様は、上記の韻律変換装置において、前記韻律データ作成部は、前記韻律データにおける基本周波数の代表値を基準として、所定の係数を用いて、前記代表値からの基本周波数の変位量を変化させるよう前記基本周波数構成部を制御するイントネーション用パラメータ制御部、を更に具備する。

［３］また、本発明の一態様は、上記の韻律変換装置において、韻律の強調度合いを制御するための強調成分係数をパラメータとして記憶するパラメータ記憶部を具備し、前記基本周波数構成部は、前記パラメータ記憶部から読み出した前記強調成分係数を前記強調成分データに乗じて得たデータを、変換前の前記韻律データに加算することにより、前記変換後の韻律データを作成する。

［４］また、本発明の一態様は、上記の韻律変換装置において、前記入力音声の音声認識処理を行って前記入力音声に対応するテキストを出力する認識処理部を更に具備するとともに、前記韻律データ作成部は、前記認識処理部から出力された前記テキストが文を含む場合には前記アクセント用パラメータ制御部と前記イントネーション用パラメータ制御部の両方の処理結果に基づき前記変換後の韻律データを作成し、前記テキストが文を含まない場合には前記アクセント用パラメータ制御部のみの処理結果に基づき前記変換後の韻律データを作成する。

［５］また、本発明の一態様は、上記の韻律変換装置において、前記アクセント用パラメータ制御部は、ラプラシアン・オブ・ガウシアン関数またはディファレンス・オブ・ガウシアン関数のいずれかにより変換前の前記韻律データから前記強調成分データを抽出する。

［６］また、本発明の一態様は、コンピューターを、入力音声を分析し前記入力音声の韻律データを出力する音声分析部と、前記韻律データを変換し変換後の韻律データを出力する韻律データ作成部と、前記韻律データ作成部から出力される前記変換後の韻律データに従って前記入力音声の韻律を変換し、変換後の音声を出力する韻律変換部とを具備し、前記韻律データ作成部が、前記音声分析部から出力される前記韻律データの所定の時間窓内のデータをフィルタリングして強調成分データを抽出するアクセント用パラメータ制御部と、前記韻律データに前記強調成分データを合成して前記変換後の韻律データを作成する基本周波数構成部とを具備する韻律変換装置として機能させるためのプログラムである。

本発明によれば、韻律変換装置は、時間窓よりも後のデータを待つことなく、逐次、限られた所定の遅延で、韻律変換を行うことができる。つまり、リアルタイムでの（所定の限られた微小な遅延での）韻律変換処理が可能となる。また、韻律変換のために、手作業でパラメータ調整等を行なうことなく、韻律変換処理を自動的に行うことができるようになる。

本発明の第１の実施形態による韻律変換装置の機能構成を示すブロック図である。同実施形態による音声分析部が作成し、韻律データ作成部が更新する韻律データの構成とデータ例を示す概略図である。同実施形態によるパラメータ記憶部が記憶するパラメータデータの構成およびデータ例を示す概略図である。同実施形態による音声分析部の詳細な機能構成を示すブロック図である。同実施形態による韻律データ作成部の詳細な機能構成を示すブロック図である。同実施形態による韻律変換部の詳細な機能構成を示すブロック図である。同実施形態によるアクセント用パラメータ制御部の機能構成例（ＬｏＧフィルタ関数を使用）を示すブロック図である。同実施形態によるアクセント用パラメータ制御部別の機能構成例（ＤｏＧフィルタ関数を使用）を示すブロック図である。同実施形態によるイントネーション用パラメータ制御部によるイントネーション制御の処理を説明するためのグラフである。同実施形態による韻律変換装置による韻律変換処理の手順を示すフローチャートである。本発明の第２の実施形態による韻律変換装置の機能構成を示すブロック図である。実施例１で実際に音声データを処理した結果を表わすグラフである。実施例２で実際に音声データを処理した結果を表わすグラフである。

以下、図面を参照しながら、本発明の複数の実施形態について説明する。

［第１の実施形態］
図１は、本実施形態による韻律変換装置の機能構成を示すブロック図である。図示するように、韻律変換装置１は、音声分析部２０と、韻律データ作成部３２と、パラメータ記憶部３３と、韻律変換部４０と、設定データ更新部５０とを備えて構成される。

より聞き取り易くなるように音声の韻律変換を行うため、韻律変換装置１は、音声の聞き取りに重要な基本周波数の変化幅を拡大させる制御を行なう。人が発話する音声における基本周波数は、呼気に応じて日本語の平仮名の「へ」の字型に時間変動する。つまり基本周波数が、最初に高くなってから、その後低くなっていくというパターンである。これをここではイントネーションと呼ぶ。また、そのようなイントネーションの上に重畳するアクセントパターンもある。つまり、基本周波数は、イントネーションとアクセントとから構成される。これらの２つの要素を個別に制御することにより、柔軟な制御が可能となるとともに、特に補聴のためのさらなる聞き取り易さの向上のための制御が可能となる。

韻律変換装置１は、以下で説明する構成により、音声全体のイントネーションに対応するパラメータの制御、およびアクセントに対応するパラメータの制御を逐次行う。また、韻律変換装置１は、必要に応じて対象のパラメータとその制御量の設定を変更することができる。そして韻律変換装置１は、これらの制御に基づいて、音声の韻律変換を行なう。

音声分析部２０は、入力音声を分析しこの入力音声の韻律データを出力する。具体的には、音声分析部２０は、外部からの入力音声の特徴量をフレーム単位で逐次分析して韻律データを生成する。そして、音声分析部２０は、入力音声を表す音声データを韻律変換部４０に渡すとともに、生成された韻律データを韻律データ作成部３２に渡す。なおここで、入力音声は、自然音声または合成音声のいずれであってもよく、またそれらの録音物であっても良い。また、入力音声の形式はデジタル音声データである。

音声分析部２０は、入力音声に対し少なくとも基本周波数と有声区間・無声区間の情報を分析し、さらに必要に応じて基本周波数に対し有声区間・無声区間の情報も用いて平滑化処理を行う。音声分析部２０のより詳細な構成については後述する。

韻律データ作成部３２は、音声分析部２０によって作成された韻律データを受け取り、パラメータ制御に基づいて韻律変換を行い、変換後の韻律データを出力する。韻律データは、基本周波数の時間変動を表わすとともに、有声区間・無声区間の情報を表わす。

パラメータ記憶部３３は、韻律データに関する基準値と制御量をパラメータとして記憶する。具体的には、パラメータ記憶部３３は、基本周波数が時間に応じて変動する場合における、基準となる周波数のデータと制御関数のパラメータを記憶する。具体的には、パラメータ記憶部３３は、入力音声全体を代表する基本周波数の代表値のデータ（イントネーション制御のためのパラメータ）と、アクセント制御のために制御関数で用いる制御倍率（アクセント制御のためのパラメータ）とを、それぞれ記憶する。

設定データ更新部５０は、利用者からの操作等に応じて、パラメータ記憶部３３に記憶されている設定データの更新を行う。パラメータ記憶部３３が記憶する設定データは、適宜書き換えることができる。イントネーション制御およびアクセント制御の詳細と設定値の使用方法については、後で詳述する。

韻律変換部４０は、韻律データ作成部３２から出力される変換後の韻律データに従って、入力音声の韻律を変換し、変換後の音声を出力する。具体的には、韻律変換部４０は、入力音声に対応する音声データを音声分析部２０から受け取り、一時的にバッファに記憶する。そして、韻律変換部４０は、韻律データ作成部３２で作成された韻律データに基づいて、音声分析部２０から受け取った音声データの韻律を変換する。そして韻律変換部４０は、変換後の出力可能な音声を出力する。なお、韻律変換部４０のより詳細な構成については後述する。

なお、韻律変換装置１を構成する各部の機能は、電子回路を用いて構成される。また、パラメータ記憶部３３は、記憶媒体として磁気ディスク装置または半導体メモリなどを含んで構成される。

次に、韻律変換装置１が用いる主要なデータについて、説明する。
図２は、音声分析部２０が作成し、韻律データ作成部３２が更新する韻律データの構成とデータ例を示す概略図である。図示するように、韻律データは、表形式で表され、各フレームのフレーム番号と相対時刻と基本周波数との対応関係を時系列に並べて構成されるデータである。ここで、相対時刻は、入力音声の開始時からの相対時刻であり、「ＨＨ：ＭＭ：ＳＳ．ｈｈ」（ＨＨは時、ＭＭは分、ＳＳは秒、ｈｈは百分の一秒）の形式で表現される。図示する例では相対時刻の刻み幅を百分の一秒（１／１００秒）としているが、異なる刻み幅を用いても良い。また、基本周波数は、音声が有する周波数成分の最も低い周波数である。言い換えれば、基本周波数は、音声信号を正弦波の合成で表したときの最も低い周波数成分の周波数である。基本周波数の単位はヘルツ（Ｈｅｒｔｚ）である。このように、韻律は、基本周波数の時間変動で表される。また、この韻律データは、相対時刻に対応して「有声／無声」のデータを含んでいる。このデータ「有声／無声」は、当該相対時刻から始まり次の相対時刻までの時間区間が、有声区間であるか無声区間であるかを表わす。なお、無声区間に対応する基本周波数のデータをヌルデータとしても良い。図示するデータでは、例えば、相対時刻「００：００：００．０３」における入力音声の基本周波数は９９．７ヘルツであり、同時刻から百分の一秒間の区間は有声区間である。

図３は、パラメータ記憶部３３が記憶するパラメータデータの構成およびデータ例を示す概略図である。図示するように、パラメータ記憶部３３は、入力音声における基本周波数の代表値と、アクセント制御用およびイントネーション制御用のそれぞれのパラメータ（制御倍率）と、変動上限を記憶する。基本周波数の代表値の単位は、ヘルツである。基本周波数の代表値としては、男性の声用と女性の声用のそれぞれに予め定められた固定的な値を記憶するようにしても良く、また、音声分析部２０が入力音声を分析した結果として代表値を定めるようにしても良い。図示する例では、パラメータ記憶部３３は、男性の声用の基本周波数代表値として１５０Ｈｚを記憶し、女性の声用の基本周波数代表値として２００Ｈｚを記憶している。またパラメータ記憶部３３は、設定値として、イントネーション制御用およびアクセント制御用の倍率の値を記憶する。イントネーション制御用の設定データは、正方向倍率値Ｒ_ｉｐと負方向倍率値Ｒ_ｉｎである。アクセント制御用の設定データは、ＬｏＧ関数用の正方向倍率値Ｒ_ＬｐとＬｏＧ関数用の負方向倍率値Ｒ_ＬｎとＤｏＧ関数用の正方向倍率値Ｒ_ＤｐとＤｏＧ関数用の負方向倍率値Ｒ_Ｄｎである。また、変動上限のパラメータＣ_ｕの単位はヘルツである。

次に、韻律変換装置１の、より詳細な機能構成について説明する。
図４は、音声分析部２０の内部における詳細な機能構成を示すブロック図である。図示するように、音声分析部２０は、特徴量分析部２１と、基本周波数平滑化処理部２２と、パラメータ抽出部２３とを含んで構成される。

特徴量分析部２１は、入力音声に分析窓を掛けた分析フレームを取り込み、その特徴量の分析を行う。具体的には、特徴量分析部２１は、入力音声の基本周波数を分析するとともに、それぞれの時間区間が有声区間であるか無声区間であるかを分析する。基本周波数を分析する処理自体は、既存の技術を用いて行う。有声区間と無声区間の判別は、フレーム毎の判断に基づき、例えば次の手順で行う。即ち、特徴量分析部２１は、入力波形を元に、例えばフレーム幅６．６６ミリ秒、シフト幅３．３３ミリ秒の各フレーム毎に、そのパワーと零交差数を計算する。

そして、パワーが所定の最低値Ｐ_ｍｉｎ以下の場合には、特徴量分析部２１は、そのフレームを無音と判断する（判断１）。この判断１で無音と判断されなかったとき、零交差数が所定の最高値Ｚ_ｍａｘ以上であれば、特徴量分析部２１は、そのフレームを無声と判断する（判断２）。この判断２で無声と判断されなかったとき、パワーが所定の最高値Ｐ_ｍａｘ以上であれば、特徴量分析部２１は、そのフレームを有声と判断する（判断３）。この判断３で有声と判断されない場合も、零交差数が所定の最低値Ｚ_ｍｉｎ以下であれば、特徴量分析部２１は、そのフレームを有声と判断する（判断４）。この判断４で有声と判断されない場合も、所定の時間遅れでの波形自己相関値が基準レベルよりも高い場合には、特徴量分析部２１は、そのフレームを有声と判断する（判断５）。この判断５においては、入力波形の分析窓区間（時間区間）における標本値を用いて様々な時間遅れでの自己相関関数値を用いる。例えば、遅れなしの場合の自己相関値に対して、ピーク値を与える遅れの場合の自己相関値が０．６倍以上である場合に、そのフレームを有声と判断する。判断５において有声と判断されなかった場合には、特徴量分析部２１は、そのフレームを無声と判断する。そして、特徴量分析部２１は、有声と判断されたフレームが６つ（約２０ミリ秒に相当）以上連続する場合に、その区間を有声区間と判断する。また、特徴量分析部２１は、無音と判断されなかった区間のうち有声区間と判断されなかった区間を無声区間と判断する。

特徴量分析部２１は、入力音声に基づき、韻律変換部４０に音声データを渡す。また、特徴量分析部２１は、分析の結果得られた基本周波数の情報、および有声区間と無声区間の開始時刻および終了時刻を表わす情報を、基本周波数平滑化処理部２２に渡す。

なお、特徴量分析部２１が、求められた基本周波数をセミトーンなどの対数値に変換して、以後の処理ではこの対数値を使用するようにしても良い。例えば、セミトーンの対数値は、次の式（１）により算出される。

上の式（１）において、ｘは入力音声の基本周波数、ｙは基準周波数（例えば、５０ヘルツ）であり、Ｓｅｍｉｔｏｎｅｓ（ｘ）がセミトーンの対数値である。

基本周波数平滑化処理部２２は、特徴量分析部２１から出力された基本周波数の時系列データを用いて、基本周波数の時間変動を平滑化する処理を行う。平滑化処理の手法の例は次の通りである。即ち、基本周波数が得られる有声区間については、基本周波数平滑化処理部２２は、その区間において一定時間間隔で得られた基本周波数のサンプルに対し低域通過処理（ローパス処理）を行う。この低域通過処理における遮断周波数としては、例えば１０ヘルツを採用する。またこれに限らず、８ヘルツ〜１０ヘルツの間程度の周波数から適宜選択して遮断周波数として使用しても良い。また、基本周波数が得られない無声区間については、基本周波数平滑化処理部２２は、前後の有声区間における基本周波数の変動に基づき、例えばスプライン補間などの補間処理を行い、その結果を擬似的に平滑化後の基本周波数の値とする。そして、基本周波数平滑化処理部２２は、基本周波数の変動に関するデータを韻律データ作成部３２に渡す。なお、基本周波数を平滑化する必要がない場合には、基本周波数平滑化処理部２２は低域通過処理等の実行を省略する。

パラメータ抽出部２３は、基本周波数平滑化処理部２２から出力される基本周波数の時間変動（平滑化済）の情報に基づき、基本周波数の代表値を求め、そのデータをパラメータ記憶部３３に書き込む。基本周波数の代表値としては、例えば、過去における短い時間区間毎（例えば、百分の一秒毎）の基本周波数のメジアンを用いることができる。なお、予め固定的に定められた代表値を用いる場合には、パラメータ抽出部による処理を省略してよい。

図５は、韻律データ作成部３２の内部における機能構成を示すブロック図である。図示するように、韻律データ作成部３２は、アクセント用パラメータ制御部３２１と、イントネーション用パラメータ制御部３２２と、基本周波数構成部３２３とを含んで構成される。

アクセント用パラメータ制御部３２１およびイントネーション用パラメータ制御部３２２は、パラメータ記憶部３３からパラメータデータを読み出し、それぞれ、アクセント制御およびイントネーション制御により、韻律変換のためのパラメータ制御の処理を行い、更新されたパラメータを出力する。なお、このとき、アクセント用パラメータ制御部３２１およびイントネーション用パラメータ制御部３２２は、パラメータ記憶部３３に記憶されている設定値を使用する。なお、アクセント用のパラメータを制御する処理とイントネーション用のパラメータを制御する処理との順序は、任意である。

ここで、アクセントとは、発話中の一単語程度の時間の長さにおける基本周波数の時間変動のことである。但し、必ずしも厳密に一単語の長さでなくても良い。アクセント用パラメータ制御部３２１は、そのような区間を対象として、韻律変換用のパラメータの制御を行う。また、イントネーションとは、発話における一文程度の時間の長さにおける、基本周波数の時間変動のことである。但し、必ずしも厳密に一文の長さでなくても良い。イントネーション用パラメータ制御部３２２は、そのような区間を対象として、韻律変換用のパラメータの制御を行う。

基本周波数構成部３２３は、アクセント用パラメータ制御部３２１およびイントネーション用パラメータ制御部３２２によって更新されたパラメータを用いて、音声の基本周波数の時系列を再構成する処理を行う。言い換えれば、基本周波数構成部３２３は、パラメータを用いて音声分析部２０から渡された韻律データを更新する。この処理によって変換後の韻律に対応する基本周波数の時間変動データを得られる。変換後の韻律に対応する基本周波数を、目標基本周波数とも呼ぶ。

基本周波数構成部３２３は、アクセント用パラメータ制御に関しては、韻律変換前の韻律データに、アクセント用パラメータ制御部３２１から渡される制御データ（強調成分データ）を所定の割合で合成して変換後の韻律データを作成する。

図６は、韻律変換部４０の内部における機能構成を示すブロック図である。図示するように、韻律変換部４０は、波形変換処理部４１と、音声出力部４２とを含んで構成される。波形変換処理部４１は、韻律データ作成部３２によって再構成された韻律データに従って、音声分析部２０から渡された入力音声データに対して、フレーム単位での韻律変換を行ない、変換後のフレーム音声を接続する。そして、音声出力部４２は、波形変換処理部４１の処理結果に基づき、音声データを出力する。なお、韻律データ、即ち、基本周波数の時間変動を表わすデータに基づいて音声データの高さ（基本周波数）のみを変更する処理自体は、既存技術を用いることにより可能である。また、韻律変換の逐次処理も、既存技術を用いることにより可能である。

アクセント用パラメータ制御部３２１による処理の詳細について、図７および図８を参照しながら説明する。アクセント用パラメータ制御部３２１は、音声分析部２０から出力される韻律データの所定の時間窓内のデータをフィルタリングして、制御データ（強調成分データ）を抽出する。具体的には、アクセント用パラメータ制御部３２１は、ＬｏＧフィルタ関数またはＤｏＧフィルタ関数のいずれかを用いて、変換前の韻律データから、韻律制御のための制御用データ（強調成分データ）を抽出する。なお、ＬｏＧフィルタ関数を用いるか、ＤｏＧフィルタ関数を用いるかは、予めユーザーによって設定される。また、ＬｏＧフィルタ関数によるアクセントパラメータ制御、またはＤｏＧフィルタ関数によるアクセントパラメータ制御のいずれか一方のみを実装する構成としても良い。

図７は、アクセント用パラメータ制御部３２１の機能構成例を示すブロック図である。図示するように、本構成では、アクセント用パラメータ制御部３２１は、ＬｏＧ関数処理部３２１１を含んで構成される。ＬｏＧ関数処理部３２１１は、音声分析部２０から渡される変換前の韻律データを元に、韻律変換のための制御用データを算出する。

ＬｏＧ（ラプラシアン・オブ・ガウシアン，Laplacian of Gaussian，ガウス関数の２次微分）フィルタ関数は、下の式（２）で表わされる。

なお式（２）において、ｎは離散時刻である。また、σは時間幅に応じてフィルタ関数を作用させる度合いを調整するための係数である。上記のＬｏＧフィルタ関数を用いて、アクセント用パラメータ制御部３２１は、韻律データを変換するための制御用データを作成する。制御用データＥ（ｔ）は、下の式（３）により計算される。

なお、式（３）において、ｔは、離散時刻である。時刻ｔは、フレーム番号に相当するとも言える。また、ｐ（ｔ）は変換前の韻律データである。このＥ（ｔ）は、変換前の韻律データの所定の時間窓内（式（３）におけるｎが、−ｗからｗまでの範囲）のデータに基づく強調成分データである。アクセント用パラメータ制御部３２１は、式（３）によってＬｏＧ関数処理部３２１１が算出した制御用データＥ（ｔ）を、基本周波数構成部３２３に渡す。

なお、式（２）における係数σの値を適宜変更することができる。σの値を変更することにより、韻律データのどの周波数成分を強調して制御するかを変更することができる。

図８は、アクセント用パラメータ制御部３２１の別の機能構成例を示すブロック図である。図示するように、本構成では、アクセント用パラメータ制御部３２１は、ＤｏＧ関数処理部３２１２を含んで構成される。ＤｏＧ関数処理部３２１２は、音声分析部２０から渡される変換前の韻律データを元に、韻律変換のための制御用データを算出する。

ＤｏＧ（ディファレンス・オブ・ガウシアン，Difference of Gaussian，ガウス関数の差分）フィルタ関数は、下の式（４）で表わされる。

なお式（４）において、ｔは離散時刻である。また、ｔ_ｃはフィルタ関数の作用におけるピーク時刻である。また、αは時間幅に応じてフィルタ関数を作用させる度合いを調整するための係数である。ＬｏＧフィルタ関数を用いる場合と同様に、上記のＤｏＧフィルタ関数を用いて、アクセント用パラメータ制御部３２１は、韻律データを変換するための制御用データを作成する。アクセント用パラメータ制御部３２１は、式（４）によるＤｏＧフィルタ関数を用いて算出された制御用データを基本周波数構成部３２３に渡す。なお、ＤｏＧ関数処理部３２１２は、式（３）におけるＬｏＧフィルタ関数をＤｏＧフィルタ関数で置き換えることにより、ＤｏＧフィルタ関数を用いた場合の制御データを算出する。この制御データは、ＤｏＧフィルタ関数を用いる場合の強調成分データである。

なお、上記のＬｏＧフィルタ関数またはＤｏＧフィルタ関数を用いて韻律データを変換するにあたって、バッファ記憶に蓄積されている未変換の過去韻律データを用いて、時間長の長いバッファとして処理しても良い。また、時間方向の内挿により、バッファ記憶に記憶されている韻律データのサンプル数を増やしても良い。

次に、イントネーション用パラメータ制御部３２２による処理の詳細について説明する。

図９は、イントネーション用パラメータ制御部３２２によるイントネーション制御（基本周波数変更）の処理を示すグラフである。同図において、横軸は時刻であり、縦軸は基本周波数（ｓｅｍｉｔｏｎｅ)である。また、グラフにおける細い実線は、基本周波数平滑化処理部２２による平滑化後の基本周波数を表わす。また、破線は、パラメータ記憶部３３が記憶する基本周波数代表値を示す。この基本周波数代表値はイントネーション制御のための基準となる。また、太い実線は、イントネーション制御の結果として得られる変換後の基本周波数の時間変動を表わす。

イントネーション用パラメータ制御部３２２は、韻律変換前の韻律データにおける基本周波数の代表値を基準として、所定の係数を用いて、代表値からの基本周波数の変位量を変化させるよう基本周波数構成部３２３を制御する。具体的な計算方法を以下に説明する。イントネーション用パラメータ制御部３２２がパラメータ記憶部３３から読み出した基本周波数代表値をｆ_０Mとして、入力音声の全区間（例えば、一文に相当する区間であるがこれに限らない。）における相対時刻ｔにおける基本周波数（イントネーション制御による変更前）をｆ_０（ｔ）と表わしたとき、（ｆ_０（ｔ）−ｆ_０M）が正か負かに応じて、変換後の基本周波数を求める。言い換えれば、イントネーション用パラメータ制御部３２２は、時刻ｔにおける入力音声の基本周波数（イントネーション制御による変更前）が基準となる基本周波数（グラフにおける破線）よりも高いか低いかに応じて、次の式（５）または（６）によって変換後の基本周波数を求める。

（ｆ_０（ｔ）−ｆ_０M）が正または零のとき、イントネーション用パラメータ制御部３２２は、下の式（５）を用いて変換後の基本周波数ｆ_０ｉ（ｔ）を計算する。

ｆ_０ｉ（ｔ）＝ｆ_０M＋Ｒ_ｉｐ（ｆ_０（ｔ）−ｆ_０M）・・・（５）

また、（ｆ_０（ｔ）−ｆ_０M）が負のとき、イントネーション用パラメータ制御部３２２は、式（６）を用いて変換後の基本周波数ｆ_０ｉ（ｔ）を計算する。

ｆ_０ｉ（ｔ）＝ｆ_０M＋Ｒ_ｉｎ（ｆ_０（ｔ）−ｆ_０M）・・・（６）

なお、式（５）におけるＲ_ｉｐおよび式（６）におけるＲ_ｉｎは、イントネーション用パラメータ制御部３２２がパラメータ記憶部３３から読み出す係数である。

上記の（ｆ_０（ｔ）−ｆ_０M）が、基準となる基本周波数からの変位量であり、式（５）および（６）においては、それぞれ、係数Ｒ_ｉｐおよびＲ_ｉｎを乗算することにより、上記変位量を変化させるような制御を行っている。係数Ｒ_ｉｐおよびＲ_ｉｎを１より大きい数として設定することにより、イントネーション用パラメータ制御部３２２は、イントネーションの抑揚の幅（基本周波数の変動幅、基本周波数の基準からの変位量）を拡大するように、韻律変換における目標基本周波数を計算することとなる。図９に描かれた上方向および下方向の矢印は、それぞれ、基準となる基本周波数に基づく、基本周波数変動幅の拡大を表わしている。

なお、図９においては縦軸の基本周波数をセミトーン（対数軸）で表しているが、対数に基づくイントネーション制御を行っても良く、また「ヘルツ」を単位とする基本周波数（線形軸）に基づくイントネーション制御を行っても良い。また、ここでは、正方向のイントネーション制御用係数Ｒ_ｉｐと負方向のイントネーション制御用係数Ｒ_ｉｎとを異なる値に設定できるようにしているが、正方向と負方向で常に同じ係数を用いるようにしても良い。このようにして、イントネーション用パラメータ制御部３２２は、イントネーション制御を行い、制御用データを基本周波数構成部３２３に渡す。

基本周波数構成部３２３は、アクセント用パラメータ制御部３２１およびイントネーション用パラメータ制御部３２２からの制御用データに基づいて、韻律データ（韻律変換後）を作成する。そして、基本周波数構成部３２３は、変換後の韻律データを韻律変換部４０に渡す。

基本周波数構成部３２３による処理の詳細は、次の通りである。

（ａ）アクセント用パラメータに基づく韻律変換
アクセント用パラメータ制御部３２１から受け取る制御用データに基づいて、基本周波数構成部３２３は、時刻ｔごとに、関数の種類に応じて、また制御用データＥ（ｔ）の値の正負に応じて、下の式（７）〜（１０）によって韻律データの変換を行う。

関数としてＬｏＧフィルタ関数を用いる場合：
Ｐ（ｔ）＝ｐ（ｔ）＋Ｒ_Ｌｐ・Ｅ（ｔ）（Ｅ（ｔ）≧０のとき）・・・（７）
Ｐ（ｔ）＝ｐ（ｔ）＋Ｒ_Ｌｎ・Ｅ（ｔ）（Ｅ（ｔ）＜０のとき）・・・（８）

関数としてＤｏＧフィルタ関数を用いる場合：
Ｐ（ｔ）＝ｐ（ｔ）＋Ｒ_Ｄｐ・Ｅ（ｔ）（Ｅ（ｔ）≧０のとき）・・・（９）
Ｐ（ｔ）＝ｐ（ｔ）＋Ｒ_Ｄｎ・Ｅ（ｔ）（Ｅ（ｔ）＜０のとき）・・・（１０）

なお、式（７）〜（１０）において、Ｒ_Ｌｐ，Ｒ_Ｌｎ，Ｒ_Ｄｐ，Ｒ_Ｄｎのそれぞれは、パラメータ記憶部３３から読み出される係数（強調成分係数）である。これらの強調成分係数は、韻律の強調度合いを制御する作用を有するものである。また、ｐ（ｔ）は、アクセント用パラメータ制御による変換前の韻律データである。また、Ｐ（ｔ）は、アクセント用パラメータ制御による変換後の韻律データである。つまり、アクセント用パラメータ制御に基づく韻律変換では、元の韻律データにフィルタ関数（ＬｏＧフィルタ関数またはＤｏＧフィルタ関数）を適用して得られた制御用データ（強調成分データ、Ｅ（ｔ））に所定の強調成分係数を乗じ、その結果を元の韻律データに加算する。

（ｂ）イントネーション用パラメータに基づく韻律変換
基本周波数構成部３２３は、式（５）および（６）で表わした制御に基づき、韻律データを構成する。

次に、韻律変換装置１の全体的な処理手順を説明する。
図１０は、韻律変換装置１による韻律変換処理の手順を示すフローチャートである。

図示するように、ステップＳ１において、特徴量分析部２１が、入力音声の基本周波数を求める。
次に、ステップＳ２において、特徴量分析部２１が、有声区間であるか無声区間であるかを判別する。
次に、ステップＳ３において、基本周波数平滑化処理部２２が、韻律データの平滑化を行なう。このとき、基本周波数平滑化処理部２２は、その区間が有声区間であるか無声区間であるかを示す情報も用いる。

次に、ステップＳ４において、パラメータ抽出部２３が、必要に応じてパラメータの抽出を行なう。入力音声に基づいて抽出すべきパラメータは、例えば、基本周波数の代表値である。なお、基本周波数の代表値として予め定められた値を用いるなど、パラメータを抽出する必要がない場合には、このステップの処理を省略する。

次に、ステップＳ５において、アクセント用パラメータ制御部３２１が、入力音声に対応する韻律データに関して、アクセント用のパラメータ制御を行なう。
次に、ステップＳ６において、イントネーション用パラメータ制御部３２２が、入力音声に対応する韻律データに関して、イントネーション用のパラメータ制御を行なう。
なお、ステップＳ５とＳ６の順序を入れ替えても良い。

次に、ステップＳ７において、基本周波数構成部３２３が、アクセント用およびイントネーション用のパラメータ制御の結果に従い変換済基本周波数を作成する。つまり、基本周波数構成部３２３が、変換済みの韻律データを作成する。
そして、ステップＳ８において、韻律変換部４０が、変換済基本周波数を用いて韻律変換を行い、変換後の音声データを出力する。

なお、韻律変換装置１は、上記のステップＳ１からＳ８までの一連の処理を、所定の微小な長さの時間における入力音声データに対して行ない、それらの処理を終えると、次の時間の入力音声データの処理に移り、以後これらを繰り返す。ステップＳ１からＳ８までの各処理は、処理対象の時間の入力音声データに応じて行なわれるが、処理対象の時間よりも後のデータには依存しない。つまり、韻律変換装置１は、発話される文あるいは文章全体の入力が完了するのを待つことなく、逐次、韻律変換処理を行うことができる。つまり、韻律変換装置１は、所定の微小な時間のみの遅延で、リアルタイムに音声の韻律変換処理を行うことができる。

［第１の実施形態の変形例］
次に、第１の実施形態の変形例を説明する。
変形例１では、ＬｏＧフィルタ関数を利用する場合において、正方向の強調成分係数と負方向の強調成分係数とを同一とする。つまり、Ｒ_Ｌｐ＝Ｒ_Ｌｎとする。
変形例２では、ＤｏＧフィルタ関数を利用する場合において、正方向の強調成分係数と負方向の強調成分係数とを同一とする。つまり、Ｒ_Ｄｐ＝Ｒ_Ｄｎとする。
変形例３では、ＬｏＧフィルタ関数を利用する場合において、負方向の強調成分係数を０とする。つまり、Ｒ_Ｌｎ＝０とする。これにより、韻律変換のアクセント用パラメータ制御において、基本周波数が高くなる方向の強調のみが行なわれ、基本周波数が低くなる方向には強調が行なわれない。
変形例４では、ＤｏＧフィルタ関数を利用する場合において、負方向の強調成分係数を０とする。つまり、Ｒ_Ｄｎ＝０とする。これにより、韻律変換のアクセント用パラメータ制御において、基本周波数が高くなる方向の強調のみが行なわれ、基本周波数が低くなる方向には強調が行なわれない。
変形例５では、アクセント用パラメータ制御部３２１が、ＬｏＧフィルタ関数の結果得られる値に対して、時系列変動における複数の山の部分の基本周波数が所定の範囲内に収まるように変更を加えるとともに、時系列変動における複数の谷の部分の基本周波数が所定の範囲内に収まるように変更を加える

変形例６では、イントネーション用パラメータ制御において、正方向の係数と負方向の係数を等しくする。つまり、Ｒ_ｉｐ＝Ｒ_ｉｎとする。
変形例７では、イントネーション用パラメータ制御において、負方向の係数を１とする。つまり、Ｒ_ｉｎ＝１とする。これにより、イントネーション用パラメータ制御において、基本周波数が高くなる方向の強調のみが行なわれ、基本周波数が低くなる方向には強調が行なわれない。

変形例８では、ある時刻ｔにおける韻律データサンプルについて見たときに、変換前と変換後の差（絶対値）の上限をＣ_ｕに制限する。この変動上限Ｃ_ｕは、パラメータ記憶部３３から読み出される値である。
変形例９では、韻律データ作成部３２が、アクセント用パラメータ制御のみを行ない、イントネーション用パラメータ制御を行なわないようにする。この場合、韻律データ作成部３２は、イントネーション用パラメータ制御部３２２を具備しない。このような構成においても、韻律変換装置１は、逐次的にアクセント用パラメータのみの制御による韻律変換処理を行うことができる。

［第２の実施形態］
図１１は、第２の実施形態による韻律変換装置の機能構成を示すブロック図である。図示するように、韻律変換装置２は、音声分析部２０と、韻律データ作成部３２と、パラメータ記憶部３３と、韻律変換部４０と、設定データ更新部５０と、認識処理部６０を備えて構成される。なお、以下では、前述の実施形態との共通の事項については記載を省略し、本実施形態特有の技術事項のみを記す。また、前述の実施形態と共通の機能ブロックについては、同一の符号を付している。

認識処理部６０は、音声分析部２０から入力音声データを受け取り、その音声認識処理を行って、入力音声に対応するテキストを得る。そして、認識処理部６０は、認識処理によって得られたテキストのデータを韻律データ作成部３２ａに渡す。なお、音声認識処理自体は、既存の技術を利用する。即ち、認識処理部６０は、音声の音響的特徴とそれに対応する音素または単語等の言語要素との統計的数値情報を音響モデルとして保持するとともに、単語等の連鎖の出現確率に関する数値情報を言語モデルとして保持し、入力音声に対応する最尤テキストを求めることにより音声認識処理を行う。

韻律データ作成部３２ａは、内部に言語処理部（不図示）を備え、認識処理部６０から取得したテキストの形態素解析処理および構文解析処理を行う。言語処理部が有する機能自体は、既存技術を用いて実現する。なお、韻律データ作成部３２ａは、言語の種類（日本語、英語、フランス語など）によらず、形態素解析処理および構文解析処理を行うことができる。そして、韻律データ作成部３２ａは、構文解析処理の結果に基づき、入力音声が文（sentence）を含んでいるか否かを判定し、入力音声が文を含む場合にはイントネーション用パラメータ制御とアクセント用パラメータ制御の両方の方法によってパラメータ制御を行う。そして、入力音声が文を含まない場合には、イントネーション用パラメータ制御の処理をスキップしてアクセント用パラメータ制御の処理のみによってパラメータ制御を行う。なお、入力音声が文を含むか否かの判定を終えるまでの間、韻律データ作成部３２ａは、イントネーション用パラメータ制御による処理の実行を待機する。そして、韻律変換部４０は、これらの場合ごとのパラメータ制御の結果に基づき、変換後の韻律データを用いて、入力音声の韻律を変化させて出力する。なお、入力音声が文を含むか否かの判定は、上記の構文解析処理において、音声認識結果として得られたテキストが、文の生成規則にマッチするか否かによって行うことができる。

なお、上述した認識処理部６０による認識結果を用いる手法を、第１の実施形態における様々な変形例と組み合わせるようにしても良い。

本実施形態の構成により、入力音声が文を含む場合と、含まない場合（例えば、単語の羅列のみで構成される音声など）とで、異なる制御を行うことができるようになる。例えば、単語の羅列のみの音声が入力された場合などには、アクセント制御のみを行い、イントネーション制御を行わないため、より自然な韻律への変換を行うことができる。

なお、上述した実施形態における韻律変換装置の機能をコンピューターで実現するようにしても良い。その場合、韻律変換装置の機能を実現するためのプログラムをコンピューター読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピューターシステムに読み込ませ、実行することによって実現しても良い。なお、ここでいう「コンピューターシステム」とは、ＯＳや周辺機器等のハードウェアを含むものとする。また、「コンピューター読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ−ＲＯＭ等の可搬媒体、コンピューターシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピューター読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバーやクライアントとなるコンピューターシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでも良い。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピューターシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。

以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。
例えば、上述した実施形態においては、韻律データ作成部３２は、一定の等間隔に並んだ時刻ごとの基本周波数の値をデータとして出力するようにしたが、基本周波数の時間変動を表す他の形式のデータを用いて構成するようにしてもよい。例えば、基本周波数のサンプル値を取る間隔は一定でなくてもよく、また、サンプル値の集合としてではなく数式等で基本周波数の時間変動を表すようにしてもよい。

図１２は、第１の実施形態により実際に音声データを処理した結果を表わすグラフである。この実施例においては、有声区間に関しては、基本周波数平滑化処理部２２が、１０ヘルツのローパスフィルタでスムージングを行なった。また、無声区間については、基本周波数平滑化処理部２２が、各無声区間の前後の有声区間の平滑化後の値を用いてスプライン補間した。つまり、無声区間については、その後の有声区間の所定の長さのデータを取得できるまで、処理を待機した。

同図のＡ１、Ａ２、Ａ３は、フィルタ関数としてＬｏＧ関数を用いた場合の結果を示す。また、同図のＢ１、Ｂ２、Ｂ３は、フィルタ関数としてＤｏＧ関数を用いた場合の結果を示す。Ａ１のグラフは、入力音声に基づく基本周波数の時間推移を示す。つまり、Ａ１のグラフは、変換前の韻律データである。Ａ２のグラフは、Ａ１に基づくＬｏＧ関数の結果である。Ａ２においては、基本周波数の推移における山と谷が強調された結果が得られている。そして、Ａ３のグラフは、Ａ２に示すデータに所定の係数を乗じてＡ１のデータに加算した結果を示す。なお、Ａ３のグラフには、元の韻律データ（Ａ１に示すデータ）も重ねて表示している。Ｂ１のグラフは、入力音声に基づく基本周波数の時間推移を示す。つまり、Ｂ１のグラフは、変換前の韻律データである。Ｂ２のグラフは、Ｂ１に基づくＤｏＧ関数の結果である。Ｂ２においては、基本周波数の推移における山と谷が強調された結果が得られている。そして、Ｂ３のグラフは、Ｂ２に示すデータに所定の係数を乗じてＢ１のデータに加算した結果を示す。なお、Ｂ３のグラフには、元の韻律データ（Ｂ１に示すデータ）も重ねて表示している。

グラフで示したように、韻律変換装置１による処理で、韻律が変換され、抑揚が強調されることによってより聞きやすい音声を得ることができる。

図１３は、第１の実施形態により実際に音声データを処理した結果を表わすグラフである。この実施例においては、有声区間に関しては、基本周波数平滑化処理部２２が、各フレームの基本周波数のデータをスムージングせずそのまま用いた。また、無声区間については、基本周波数平滑化処理部２２が、各無声区間の前後の有声区間の値を用いてスプライン補間した。つまり、無声区間については、その後の有声区間の所定の長さのデータを取得できるまで、処理を待機した。

本発明は音、声による案内装置や、テレビおよびラジオ等の放送受信機や、電話網あるいは電話端末装置など、人の音声を扱う装置等に幅広く利用できる。

１，２韻律変換装置
２０音声分析部
２１特徴量分析部
２２基本周波数平滑化処理部
２３パラメータ抽出部
３２，３２ａ韻律データ作成部
３２１アクセント用パラメータ制御部
３２１１ＬｏＧ関数処理部
３２１２ＤｏＧ関数処理部
３２２イントネーション用パラメータ制御部
３２３基本周波数構成部
３３パラメータ記憶部
４０韻律変換部
４１波形変換処理部
４２音声出力部
５０設定データ更新部
６０認識処理部

Claims

入力音声を分析し前記入力音声の韻律データを出力する音声分析部と、
前記韻律データを変換し変換後の韻律データを出力する韻律データ作成部と、
前記韻律データ作成部から出力される前記変換後の韻律データに従って前記入力音声の韻律を変換し、変換後の音声を出力する韻律変換部と、
を具備する韻律変換装置であって、
前記韻律データ作成部は、
前記音声分析部から出力される前記韻律データの所定の時間窓内のデータをフィルタリングして強調成分データを抽出するアクセント用パラメータ制御部と、
前記韻律データに前記強調成分データを合成して前記変換後の韻律データを作成する基本周波数構成部と、
を具備することを特徴とする韻律変換装置。
請求項１に記載の韻律変換装置であって、
前記韻律データ作成部は、
前記韻律データにおける基本周波数の代表値を基準として、所定の係数を用いて、前記代表値からの基本周波数の変位量を変化させるよう前記基本周波数構成部を制御するイントネーション用パラメータ制御部、
を更に具備することを特徴とする韻律変換装置。
請求項１または２のいずれか一項に記載の韻律変換装置であって、
韻律の強調度合いを制御するための強調成分係数をパラメータとして記憶するパラメータ記憶部を具備し、
前記基本周波数構成部は、前記パラメータ記憶部から読み出した前記強調成分係数を前記強調成分データに乗じて得たデータを、変換前の前記韻律データに加算することにより、前記変換後の韻律データを作成する、
ことを特徴とする韻律変換装置。
請求項２に記載の韻律変換装置であって、
前記入力音声の音声認識処理を行って前記入力音声に対応するテキストを出力する認識処理部を更に具備するとともに、
前記韻律データ作成部は、前記認識処理部から出力された前記テキストが文を含む場合には前記アクセント用パラメータ制御部と前記イントネーション用パラメータ制御部の両方の処理結果に基づき前記変換後の韻律データを作成し、前記テキストが文を含まない場合には前記アクセント用パラメータ制御部のみの処理結果に基づき前記変換後の韻律データを作成する、
ことを特徴とする韻律変換装置。
請求項１から４までのいずれか一項に記載の韻律変換装置であって、
前記アクセント用パラメータ制御部は、ラプラシアン・オブ・ガウシアン関数またはディファレンス・オブ・ガウシアン関数のいずれかにより変換前の前記韻律データから前記強調成分データを抽出する、
ことを特徴とする韻律変換装置。
コンピューターを、
入力音声を分析し前記入力音声の韻律データを出力する音声分析部と、
前記韻律データを変換し変換後の韻律データを出力する韻律データ作成部と、
前記韻律データ作成部から出力される前記変換後の韻律データに従って前記入力音声の韻律を変換し、変換後の音声を出力する韻律変換部と、を具備し、
前記韻律データ作成部が、
前記音声分析部から出力される前記韻律データの所定の時間窓内のデータをフィルタリングして強調成分データを抽出するアクセント用パラメータ制御部と、
前記韻律データに前記強調成分データを合成して前記変換後の韻律データを作成する基本周波数構成部と、
を具備する韻律変換装置として機能させるためのプログラム。