JP5830364B2 - 韻律変換装置およびそのプログラム - Google Patents

韻律変換装置およびそのプログラム Download PDF

Info

Publication number
JP5830364B2
JP5830364B2 JP2011263672A JP2011263672A JP5830364B2 JP 5830364 B2 JP5830364 B2 JP 5830364B2 JP 2011263672 A JP2011263672 A JP 2011263672A JP 2011263672 A JP2011263672 A JP 2011263672A JP 5830364 B2 JP5830364 B2 JP 5830364B2
Authority
JP
Japan
Prior art keywords
data
prosody
unit
fundamental frequency
prosodic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2011263672A
Other languages
English (en)
Other versions
JP2013117556A (ja
Inventor
礼子 齋藤
礼子 齋藤
信正 清山
信正 清山
今井 篤
篤 今井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Japan Broadcasting Corp filed Critical Japan Broadcasting Corp
Priority to JP2011263672A priority Critical patent/JP5830364B2/ja
Publication of JP2013117556A publication Critical patent/JP2013117556A/ja
Application granted granted Critical
Publication of JP5830364B2 publication Critical patent/JP5830364B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、入力される音声の韻律を逐次的に変換する逐次型韻律変換装置、およびそのプログラムに関する。
音声を聞き易くするなどの目的で変換するために、音声の聞き取りに重要な音響特徴量を変換することは有効である。そして、複数の音響特徴量をそれぞれ変換する技術が知られている。例えば、特許文献1には、音声波形を元に、ピッチ(基本周波数)、パワー、継続長等の韻律変数とスペクトル情報等の音質変数に分離し、この韻律変数および音質変数を、選択された変換係数によって更新させることにより声質を変換する技術が記載されている。また、非特許文献1(特に、「2.2.1 音声の基本周波数パターン生成過程とそのモデル」)には、基本周波数の生成機構に対応付けることができるフレーズ指令およびアクセント指令に基づき、音声の基本周波数に時間変動を生じさせるモデルについて記載されている。そして、これらフレーズ指令およびアクセント指令のパラメータで基本周波数の時間変動パターンが定まる。
特開平10−097267号公報
広瀬啓吉 編著,「韻律と音声言語情報処理 アクセント・イントネーション・リズムの科学」,2006年,丸善,p.9−23
音声を聞き取りやすく変換することができれば非常に有用であり、そのような技術が求められている。雑踏などの様々な状況において音声を聞き取ることが困難な場合があり、単に音量を大きくすること以外の方法で可聴性を向上させることができれば非常に便利である。特に高齢者などは音声を聞き取るのが困難な場合が多いが、音声の変換によって可聴性を向上させることができれば、高齢者だけでなく、広く一般にもメリットが得られる。
そのための方法の1つとして韻律を変換する方法が考えられるが、音声の了解度を向上させることを目的とする逐次型の韻律変換方法は、従来考案されていない。
また、非特許文献1に記載されたフレーズ成分とアクセント成分を考慮することによって韻律変換を行うことも考えられるが、それらのパラメータの自動抽出は容易ではないことと、個々のパラメータの制御量には詳細な設定が必要になることから、人手を介する必要が多くなるという問題がある。
本発明は、このような事情に鑑みて為されたものであり、適切なパラメータを定め、そのパラメータを用いた制御を逐次的に行なうことによって、入力される音声の韻律を変換することのできる逐次型の韻律変換装置およびそのプログラムを提供するものである。
[1]上記の課題を解決するため、本発明の一態様による韻律変換装置は、入力音声を分析し前記入力音声の韻律データを出力する音声分析部と、前記韻律データを変換し変換後の韻律データを出力する韻律データ作成部と、前記韻律データ作成部から出力される前記変換後の韻律データに従って前記入力音声の韻律を変換し、変換後の音声を出力する韻律変換部とを具備する韻律変換装置であって、前記韻律データ作成部は、前記音声分析部から出力される前記韻律データの所定の時間窓内のデータをフィルタリングして強調成分データを抽出するアクセント用パラメータ制御部と、前記韻律データに前記強調成分データを合成して前記変換後の韻律データを作成する基本周波数構成部とを具備する。
この構成によれば、韻律データ作成部において、アクセント用パラメータ制御部が所定の時間窓内のデータに基づく強調成分データを抽出する。そして、基本周波数構成部は、変換前の韻律データと強調成分データとに基づき変換後の韻律データを作成する。つまり、時間窓内のデータに基づいて韻律データを変換できる。つまり、韻律変換装置が韻律変換処理を行うために当該時間窓よりも後のデータを待つ必要がない。つまり、韻律変換装置は、逐次、限られた所定の遅延で、韻律変換を行うことができる。
[2]また、本発明の一態様は、上記の韻律変換装置において、前記韻律データ作成部は、前記韻律データにおける基本周波数の代表値を基準として、所定の係数を用いて、前記代表値からの基本周波数の変位量を変化させるよう前記基本周波数構成部を制御するイントネーション用パラメータ制御部、を更に具備する。
[3]また、本発明の一態様は、上記の韻律変換装置において、韻律の強調度合いを制御するための強調成分係数をパラメータとして記憶するパラメータ記憶部を具備し、前記基本周波数構成部は、前記パラメータ記憶部から読み出した前記強調成分係数を前記強調成分データに乗じて得たデータを、変換前の前記韻律データに加算することにより、前記変換後の韻律データを作成する。
[4]また、本発明の一態様は、上記の韻律変換装置において、前記入力音声の音声認識処理を行って前記入力音声に対応するテキストを出力する認識処理部を更に具備するとともに、前記韻律データ作成部は、前記認識処理部から出力された前記テキストが文を含む場合には前記アクセント用パラメータ制御部と前記イントネーション用パラメータ制御部の両方の処理結果に基づき前記変換後の韻律データを作成し、前記テキストが文を含まない場合には前記アクセント用パラメータ制御部のみの処理結果に基づき前記変換後の韻律データを作成する。
[5]また、本発明の一態様は、上記の韻律変換装置において、前記アクセント用パラメータ制御部は、ラプラシアン・オブ・ガウシアン関数またはディファレンス・オブ・ガウシアン関数のいずれかにより変換前の前記韻律データから前記強調成分データを抽出する。
[6]また、本発明の一態様は、コンピューターを、入力音声を分析し前記入力音声の韻律データを出力する音声分析部と、前記韻律データを変換し変換後の韻律データを出力する韻律データ作成部と、前記韻律データ作成部から出力される前記変換後の韻律データに従って前記入力音声の韻律を変換し、変換後の音声を出力する韻律変換部とを具備し、前記韻律データ作成部が、前記音声分析部から出力される前記韻律データの所定の時間窓内のデータをフィルタリングして強調成分データを抽出するアクセント用パラメータ制御部と、前記韻律データに前記強調成分データを合成して前記変換後の韻律データを作成する基本周波数構成部とを具備する韻律変換装置として機能させるためのプログラムである。
本発明によれば、韻律変換装置は、時間窓よりも後のデータを待つことなく、逐次、限られた所定の遅延で、韻律変換を行うことができる。つまり、リアルタイムでの(所定の限られた微小な遅延での)韻律変換処理が可能となる。また、韻律変換のために、手作業でパラメータ調整等を行なうことなく、韻律変換処理を自動的に行うことができるようになる。
本発明の第1の実施形態による韻律変換装置の機能構成を示すブロック図である。 同実施形態による音声分析部が作成し、韻律データ作成部が更新する韻律データの構成とデータ例を示す概略図である。 同実施形態によるパラメータ記憶部が記憶するパラメータデータの構成およびデータ例を示す概略図である。 同実施形態による音声分析部の詳細な機能構成を示すブロック図である。 同実施形態による韻律データ作成部の詳細な機能構成を示すブロック図である。 同実施形態による韻律変換部の詳細な機能構成を示すブロック図である。 同実施形態によるアクセント用パラメータ制御部の機能構成例(LoGフィルタ関数を使用)を示すブロック図である。 同実施形態によるアクセント用パラメータ制御部別の機能構成例(DoGフィルタ関数を使用)を示すブロック図である。 同実施形態によるイントネーション用パラメータ制御部によるイントネーション制御の処理を説明するためのグラフである。 同実施形態による韻律変換装置による韻律変換処理の手順を示すフローチャートである。 本発明の第2の実施形態による韻律変換装置の機能構成を示すブロック図である。 実施例1で実際に音声データを処理した結果を表わすグラフである。 実施例2で実際に音声データを処理した結果を表わすグラフである。
以下、図面を参照しながら、本発明の複数の実施形態について説明する。
[第1の実施形態]
図1は、本実施形態による韻律変換装置の機能構成を示すブロック図である。図示するように、韻律変換装置1は、音声分析部20と、韻律データ作成部32と、パラメータ記憶部33と、韻律変換部40と、設定データ更新部50とを備えて構成される。
より聞き取り易くなるように音声の韻律変換を行うため、韻律変換装置1は、音声の聞き取りに重要な基本周波数の変化幅を拡大させる制御を行なう。人が発話する音声における基本周波数は、呼気に応じて日本語の平仮名の「へ」の字型に時間変動する。つまり基本周波数が、最初に高くなってから、その後低くなっていくというパターンである。これをここではイントネーションと呼ぶ。また、そのようなイントネーションの上に重畳するアクセントパターンもある。つまり、基本周波数は、イントネーションとアクセントとから構成される。これらの2つの要素を個別に制御することにより、柔軟な制御が可能となるとともに、特に補聴のためのさらなる聞き取り易さの向上のための制御が可能となる。
韻律変換装置1は、以下で説明する構成により、音声全体のイントネーションに対応するパラメータの制御、およびアクセントに対応するパラメータの制御を逐次行う。また、韻律変換装置1は、必要に応じて対象のパラメータとその制御量の設定を変更することができる。そして韻律変換装置1は、これらの制御に基づいて、音声の韻律変換を行なう。
音声分析部20は、入力音声を分析しこの入力音声の韻律データを出力する。具体的には、音声分析部20は、外部からの入力音声の特徴量をフレーム単位で逐次分析して韻律データを生成する。そして、音声分析部20は、入力音声を表す音声データを韻律変換部40に渡すとともに、生成された韻律データを韻律データ作成部32に渡す。なおここで、入力音声は、自然音声または合成音声のいずれであってもよく、またそれらの録音物であっても良い。また、入力音声の形式はデジタル音声データである。
音声分析部20は、入力音声に対し少なくとも基本周波数と有声区間・無声区間の情報を分析し、さらに必要に応じて基本周波数に対し有声区間・無声区間の情報も用いて平滑化処理を行う。音声分析部20のより詳細な構成については後述する。
韻律データ作成部32は、音声分析部20によって作成された韻律データを受け取り、パラメータ制御に基づいて韻律変換を行い、変換後の韻律データを出力する。韻律データは、基本周波数の時間変動を表わすとともに、有声区間・無声区間の情報を表わす。
パラメータ記憶部33は、韻律データに関する基準値と制御量をパラメータとして記憶する。具体的には、パラメータ記憶部33は、基本周波数が時間に応じて変動する場合における、基準となる周波数のデータと制御関数のパラメータを記憶する。具体的には、パラメータ記憶部33は、入力音声全体を代表する基本周波数の代表値のデータ(イントネーション制御のためのパラメータ)と、アクセント制御のために制御関数で用いる制御倍率(アクセント制御のためのパラメータ)とを、それぞれ記憶する。
設定データ更新部50は、利用者からの操作等に応じて、パラメータ記憶部33に記憶されている設定データの更新を行う。パラメータ記憶部33が記憶する設定データは、適宜書き換えることができる。イントネーション制御およびアクセント制御の詳細と設定値の使用方法については、後で詳述する。
韻律変換部40は、韻律データ作成部32から出力される変換後の韻律データに従って、入力音声の韻律を変換し、変換後の音声を出力する。具体的には、韻律変換部40は、入力音声に対応する音声データを音声分析部20から受け取り、一時的にバッファに記憶する。そして、韻律変換部40は、韻律データ作成部32で作成された韻律データに基づいて、音声分析部20から受け取った音声データの韻律を変換する。そして韻律変換部40は、変換後の出力可能な音声を出力する。なお、韻律変換部40のより詳細な構成については後述する。
なお、韻律変換装置1を構成する各部の機能は、電子回路を用いて構成される。また、パラメータ記憶部33は、記憶媒体として磁気ディスク装置または半導体メモリなどを含んで構成される。
次に、韻律変換装置1が用いる主要なデータについて、説明する。
図2は、音声分析部20が作成し、韻律データ作成部32が更新する韻律データの構成とデータ例を示す概略図である。図示するように、韻律データは、表形式で表され、各フレームのフレーム番号と相対時刻と基本周波数との対応関係を時系列に並べて構成されるデータである。ここで、相対時刻は、入力音声の開始時からの相対時刻であり、「HH:MM:SS.hh」(HHは時、MMは分、SSは秒、hhは百分の一秒)の形式で表現される。図示する例では相対時刻の刻み幅を百分の一秒(1/100秒)としているが、異なる刻み幅を用いても良い。また、基本周波数は、音声が有する周波数成分の最も低い周波数である。言い換えれば、基本周波数は、音声信号を正弦波の合成で表したときの最も低い周波数成分の周波数である。基本周波数の単位はヘルツ(Hertz)である。このように、韻律は、基本周波数の時間変動で表される。また、この韻律データは、相対時刻に対応して「有声/無声」のデータを含んでいる。このデータ「有声/無声」は、当該相対時刻から始まり次の相対時刻までの時間区間が、有声区間であるか無声区間であるかを表わす。なお、無声区間に対応する基本周波数のデータをヌルデータとしても良い。図示するデータでは、例えば、相対時刻「00:00:00.03」における入力音声の基本周波数は99.7ヘルツであり、同時刻から百分の一秒間の区間は有声区間である。
図3は、パラメータ記憶部33が記憶するパラメータデータの構成およびデータ例を示す概略図である。図示するように、パラメータ記憶部33は、入力音声における基本周波数の代表値と、アクセント制御用およびイントネーション制御用のそれぞれのパラメータ(制御倍率)と、変動上限を記憶する。基本周波数の代表値の単位は、ヘルツである。基本周波数の代表値としては、男性の声用と女性の声用のそれぞれに予め定められた固定的な値を記憶するようにしても良く、また、音声分析部20が入力音声を分析した結果として代表値を定めるようにしても良い。図示する例では、パラメータ記憶部33は、男性の声用の基本周波数代表値として150Hzを記憶し、女性の声用の基本周波数代表値として200Hzを記憶している。またパラメータ記憶部33は、設定値として、イントネーション制御用およびアクセント制御用の倍率の値を記憶する。イントネーション制御用の設定データは、正方向倍率値Ripと負方向倍率値Rinである。アクセント制御用の設定データは、LoG関数用の正方向倍率値RLpとLoG関数用の負方向倍率値RLnとDoG関数用の正方向倍率値RDpとDoG関数用の負方向倍率値RDnである。また、変動上限のパラメータCの単位はヘルツである。
次に、韻律変換装置1の、より詳細な機能構成について説明する。
図4は、音声分析部20の内部における詳細な機能構成を示すブロック図である。図示するように、音声分析部20は、特徴量分析部21と、基本周波数平滑化処理部22と、パラメータ抽出部23とを含んで構成される。
特徴量分析部21は、入力音声に分析窓を掛けた分析フレームを取り込み、その特徴量の分析を行う。具体的には、特徴量分析部21は、入力音声の基本周波数を分析するとともに、それぞれの時間区間が有声区間であるか無声区間であるかを分析する。基本周波数を分析する処理自体は、既存の技術を用いて行う。有声区間と無声区間の判別は、フレーム毎の判断に基づき、例えば次の手順で行う。即ち、特徴量分析部21は、入力波形を元に、例えばフレーム幅6.66ミリ秒、シフト幅3.33ミリ秒の各フレーム毎に、そのパワーと零交差数を計算する。
そして、パワーが所定の最低値Pmin以下の場合には、特徴量分析部21は、そのフレームを無音と判断する(判断1)。この判断1で無音と判断されなかったとき、零交差数が所定の最高値Zmax以上であれば、特徴量分析部21は、そのフレームを無声と判断する(判断2)。この判断2で無声と判断されなかったとき、パワーが所定の最高値Pmax以上であれば、特徴量分析部21は、そのフレームを有声と判断する(判断3)。この判断3で有声と判断されない場合も、零交差数が所定の最低値Zmin以下であれば、特徴量分析部21は、そのフレームを有声と判断する(判断4)。この判断4で有声と判断されない場合も、所定の時間遅れでの波形自己相関値が基準レベルよりも高い場合には、特徴量分析部21は、そのフレームを有声と判断する(判断5)。この判断5においては、入力波形の分析窓区間(時間区間)における標本値を用いて様々な時間遅れでの自己相関関数値を用いる。例えば、遅れなしの場合の自己相関値に対して、ピーク値を与える遅れの場合の自己相関値が0.6倍以上である場合に、そのフレームを有声と判断する。判断5において有声と判断されなかった場合には、特徴量分析部21は、そのフレームを無声と判断する。そして、特徴量分析部21は、有声と判断されたフレームが6つ(約20ミリ秒に相当)以上連続する場合に、その区間を有声区間と判断する。また、特徴量分析部21は、無音と判断されなかった区間のうち有声区間と判断されなかった区間を無声区間と判断する。
特徴量分析部21は、入力音声に基づき、韻律変換部40に音声データを渡す。また、特徴量分析部21は、分析の結果得られた基本周波数の情報、および有声区間と無声区間の開始時刻および終了時刻を表わす情報を、基本周波数平滑化処理部22に渡す。
なお、特徴量分析部21が、求められた基本周波数をセミトーンなどの対数値に変換して、以後の処理ではこの対数値を使用するようにしても良い。例えば、セミトーンの対数値は、次の式(1)により算出される。
Figure 0005830364
上の式(1)において、xは入力音声の基本周波数、yは基準周波数(例えば、50ヘルツ)であり、Semitones(x)がセミトーンの対数値である。
基本周波数平滑化処理部22は、特徴量分析部21から出力された基本周波数の時系列データを用いて、基本周波数の時間変動を平滑化する処理を行う。平滑化処理の手法の例は次の通りである。即ち、基本周波数が得られる有声区間については、基本周波数平滑化処理部22は、その区間において一定時間間隔で得られた基本周波数のサンプルに対し低域通過処理(ローパス処理)を行う。この低域通過処理における遮断周波数としては、例えば10ヘルツを採用する。またこれに限らず、8ヘルツ〜10ヘルツの間程度の周波数から適宜選択して遮断周波数として使用しても良い。また、基本周波数が得られない無声区間については、基本周波数平滑化処理部22は、前後の有声区間における基本周波数の変動に基づき、例えばスプライン補間などの補間処理を行い、その結果を擬似的に平滑化後の基本周波数の値とする。そして、基本周波数平滑化処理部22は、基本周波数の変動に関するデータを韻律データ作成部32に渡す。なお、基本周波数を平滑化する必要がない場合には、基本周波数平滑化処理部22は低域通過処理等の実行を省略する。
パラメータ抽出部23は、基本周波数平滑化処理部22から出力される基本周波数の時間変動(平滑化済)の情報に基づき、基本周波数の代表値を求め、そのデータをパラメータ記憶部33に書き込む。基本周波数の代表値としては、例えば、過去における短い時間区間毎(例えば、百分の一秒毎)の基本周波数のメジアンを用いることができる。なお、予め固定的に定められた代表値を用いる場合には、パラメータ抽出部による処理を省略してよい。
図5は、韻律データ作成部32の内部における機能構成を示すブロック図である。図示するように、韻律データ作成部32は、アクセント用パラメータ制御部321と、イントネーション用パラメータ制御部322と、基本周波数構成部323とを含んで構成される。
アクセント用パラメータ制御部321およびイントネーション用パラメータ制御部322は、パラメータ記憶部33からパラメータデータを読み出し、それぞれ、アクセント制御およびイントネーション制御により、韻律変換のためのパラメータ制御の処理を行い、更新されたパラメータを出力する。なお、このとき、アクセント用パラメータ制御部321およびイントネーション用パラメータ制御部322は、パラメータ記憶部33に記憶されている設定値を使用する。なお、アクセント用のパラメータを制御する処理とイントネーション用のパラメータを制御する処理との順序は、任意である。
ここで、アクセントとは、発話中の一単語程度の時間の長さにおける基本周波数の時間変動のことである。但し、必ずしも厳密に一単語の長さでなくても良い。アクセント用パラメータ制御部321は、そのような区間を対象として、韻律変換用のパラメータの制御を行う。また、イントネーションとは、発話における一文程度の時間の長さにおける、基本周波数の時間変動のことである。但し、必ずしも厳密に一文の長さでなくても良い。イントネーション用パラメータ制御部322は、そのような区間を対象として、韻律変換用のパラメータの制御を行う。
基本周波数構成部323は、アクセント用パラメータ制御部321およびイントネーション用パラメータ制御部322によって更新されたパラメータを用いて、音声の基本周波数の時系列を再構成する処理を行う。言い換えれば、基本周波数構成部323は、パラメータを用いて音声分析部20から渡された韻律データを更新する。この処理によって変換後の韻律に対応する基本周波数の時間変動データを得られる。変換後の韻律に対応する基本周波数を、目標基本周波数とも呼ぶ。
基本周波数構成部323は、アクセント用パラメータ制御に関しては、韻律変換前の韻律データに、アクセント用パラメータ制御部321から渡される制御データ(強調成分データ)を所定の割合で合成して変換後の韻律データを作成する。
図6は、韻律変換部40の内部における機能構成を示すブロック図である。図示するように、韻律変換部40は、波形変換処理部41と、音声出力部42とを含んで構成される。波形変換処理部41は、韻律データ作成部32によって再構成された韻律データに従って、音声分析部20から渡された入力音声データに対して、フレーム単位での韻律変換を行ない、変換後のフレーム音声を接続する。そして、音声出力部42は、波形変換処理部41の処理結果に基づき、音声データを出力する。なお、韻律データ、即ち、基本周波数の時間変動を表わすデータに基づいて音声データの高さ(基本周波数)のみを変更する処理自体は、既存技術を用いることにより可能である。また、韻律変換の逐次処理も、既存技術を用いることにより可能である。
アクセント用パラメータ制御部321による処理の詳細について、図7および図8を参照しながら説明する。アクセント用パラメータ制御部321は、音声分析部20から出力される韻律データの所定の時間窓内のデータをフィルタリングして、制御データ(強調成分データ)を抽出する。具体的には、アクセント用パラメータ制御部321は、LoGフィルタ関数またはDoGフィルタ関数のいずれかを用いて、変換前の韻律データから、韻律制御のための制御用データ(強調成分データ)を抽出する。なお、LoGフィルタ関数を用いるか、DoGフィルタ関数を用いるかは、予めユーザーによって設定される。また、LoGフィルタ関数によるアクセントパラメータ制御、またはDoGフィルタ関数によるアクセントパラメータ制御のいずれか一方のみを実装する構成としても良い。
図7は、アクセント用パラメータ制御部321の機能構成例を示すブロック図である。図示するように、本構成では、アクセント用パラメータ制御部321は、LoG関数処理部3211を含んで構成される。LoG関数処理部3211は、音声分析部20から渡される変換前の韻律データを元に、韻律変換のための制御用データを算出する。
LoG(ラプラシアン・オブ・ガウシアン,Laplacian of Gaussian,ガウス関数の2次微分)フィルタ関数は、下の式(2)で表わされる。
Figure 0005830364
なお式(2)において、nは離散時刻である。また、σは時間幅に応じてフィルタ関数を作用させる度合いを調整するための係数である。上記のLoGフィルタ関数を用いて、アクセント用パラメータ制御部321は、韻律データを変換するための制御用データを作成する。制御用データE(t)は、下の式(3)により計算される。
Figure 0005830364
なお、式(3)において、tは、離散時刻である。時刻tは、フレーム番号に相当するとも言える。また、p(t)は変換前の韻律データである。このE(t)は、変換前の韻律データの所定の時間窓内(式(3)におけるnが、−wからwまでの範囲)のデータに基づく強調成分データである。アクセント用パラメータ制御部321は、式(3)によってLoG関数処理部3211が算出した制御用データE(t)を、基本周波数構成部323に渡す。
なお、式(2)における係数σの値を適宜変更することができる。σの値を変更することにより、韻律データのどの周波数成分を強調して制御するかを変更することができる。
図8は、アクセント用パラメータ制御部321の別の機能構成例を示すブロック図である。図示するように、本構成では、アクセント用パラメータ制御部321は、DoG関数処理部3212を含んで構成される。DoG関数処理部3212は、音声分析部20から渡される変換前の韻律データを元に、韻律変換のための制御用データを算出する。
DoG(ディファレンス・オブ・ガウシアン,Difference of Gaussian,ガウス関数の差分)フィルタ関数は、下の式(4)で表わされる。
Figure 0005830364
なお式(4)において、tは離散時刻である。また、tはフィルタ関数の作用におけるピーク時刻である。また、αは時間幅に応じてフィルタ関数を作用させる度合いを調整するための係数である。LoGフィルタ関数を用いる場合と同様に、上記のDoGフィルタ関数を用いて、アクセント用パラメータ制御部321は、韻律データを変換するための制御用データを作成する。アクセント用パラメータ制御部321は、式(4)によるDoGフィルタ関数を用いて算出された制御用データを基本周波数構成部323に渡す。なお、DoG関数処理部3212は、式(3)におけるLoGフィルタ関数をDoGフィルタ関数で置き換えることにより、DoGフィルタ関数を用いた場合の制御データを算出する。この制御データは、DoGフィルタ関数を用いる場合の強調成分データである。
なお、上記のLoGフィルタ関数またはDoGフィルタ関数を用いて韻律データを変換するにあたって、バッファ記憶に蓄積されている未変換の過去韻律データを用いて、時間長の長いバッファとして処理しても良い。また、時間方向の内挿により、バッファ記憶に記憶されている韻律データのサンプル数を増やしても良い。
次に、イントネーション用パラメータ制御部322による処理の詳細について説明する。
図9は、イントネーション用パラメータ制御部322によるイントネーション制御(基本周波数変更)の処理を示すグラフである。同図において、横軸は時刻であり、縦軸は基本周波数(semitone)である。また、グラフにおける細い実線は、基本周波数平滑化処理部22による平滑化後の基本周波数を表わす。また、破線は、パラメータ記憶部33が記憶する基本周波数代表値を示す。この基本周波数代表値はイントネーション制御のための基準となる。また、太い実線は、イントネーション制御の結果として得られる変換後の基本周波数の時間変動を表わす。
イントネーション用パラメータ制御部322は、韻律変換前の韻律データにおける基本周波数の代表値を基準として、所定の係数を用いて、代表値からの基本周波数の変位量を変化させるよう基本周波数構成部323を制御する。具体的な計算方法を以下に説明する。イントネーション用パラメータ制御部322がパラメータ記憶部33から読み出した基本周波数代表値をf0Mとして、入力音声の全区間(例えば、一文に相当する区間であるがこれに限らない。)における相対時刻tにおける基本周波数(イントネーション制御による変更前)をf(t)と表わしたとき、(f(t)−f0M)が正か負かに応じて、変換後の基本周波数を求める。言い換えれば、イントネーション用パラメータ制御部322は、時刻tにおける入力音声の基本周波数(イントネーション制御による変更前)が基準となる基本周波数(グラフにおける破線)よりも高いか低いかに応じて、次の式(5)または(6)によって変換後の基本周波数を求める。
(f(t)−f0M)が正または零のとき、イントネーション用パラメータ制御部322は、下の式(5)を用いて変換後の基本周波数f0i(t)を計算する。
0i(t)=f0M+Rip(f(t)−f0M) ・・・(5)
また、(f(t)−f0M)が負のとき、イントネーション用パラメータ制御部322は、式(6)を用いて変換後の基本周波数f0i(t)を計算する。
0i(t)=f0M+Rin(f(t)−f0M) ・・・(6)
なお、式(5)におけるRipおよび式(6)におけるRinは、イントネーション用パラメータ制御部322がパラメータ記憶部33から読み出す係数である。
上記の(f(t)−f0M)が、基準となる基本周波数からの変位量であり、式(5)および(6)においては、それぞれ、係数RipおよびRinを乗算することにより、上記変位量を変化させるような制御を行っている。係数RipおよびRinを1より大きい数として設定することにより、イントネーション用パラメータ制御部322は、イントネーションの抑揚の幅(基本周波数の変動幅、基本周波数の基準からの変位量)を拡大するように、韻律変換における目標基本周波数を計算することとなる。図9に描かれた上方向および下方向の矢印は、それぞれ、基準となる基本周波数に基づく、基本周波数変動幅の拡大を表わしている。
なお、図9においては縦軸の基本周波数をセミトーン(対数軸)で表しているが、対数に基づくイントネーション制御を行っても良く、また「ヘルツ」を単位とする基本周波数(線形軸)に基づくイントネーション制御を行っても良い。また、ここでは、正方向のイントネーション制御用係数Ripと負方向のイントネーション制御用係数Rinとを異なる値に設定できるようにしているが、正方向と負方向で常に同じ係数を用いるようにしても良い。このようにして、イントネーション用パラメータ制御部322は、イントネーション制御を行い、制御用データを基本周波数構成部323に渡す。
基本周波数構成部323は、アクセント用パラメータ制御部321およびイントネーション用パラメータ制御部322からの制御用データに基づいて、韻律データ(韻律変換後)を作成する。そして、基本周波数構成部323は、変換後の韻律データを韻律変換部40に渡す。
基本周波数構成部323による処理の詳細は、次の通りである。
(a)アクセント用パラメータに基づく韻律変換
アクセント用パラメータ制御部321から受け取る制御用データに基づいて、基本周波数構成部323は、時刻tごとに、関数の種類に応じて、また制御用データE(t)の値の正負に応じて、下の式(7)〜(10)によって韻律データの変換を行う。
関数としてLoGフィルタ関数を用いる場合:
P(t)=p(t)+RLp・E(t) (E(t)≧0のとき)・・・ (7)
P(t)=p(t)+RLn・E(t) (E(t)<0のとき)・・・ (8)
関数としてDoGフィルタ関数を用いる場合:
P(t)=p(t)+RDp・E(t) (E(t)≧0のとき)・・・ (9)
P(t)=p(t)+RDn・E(t) (E(t)<0のとき)・・・ (10)
なお、式(7)〜(10)において、RLp,RLn,RDp,RDnのそれぞれは、パラメータ記憶部33から読み出される係数(強調成分係数)である。これらの強調成分係数は、韻律の強調度合いを制御する作用を有するものである。また、p(t)は、アクセント用パラメータ制御による変換前の韻律データである。また、P(t)は、アクセント用パラメータ制御による変換後の韻律データである。つまり、アクセント用パラメータ制御に基づく韻律変換では、元の韻律データにフィルタ関数(LoGフィルタ関数またはDoGフィルタ関数)を適用して得られた制御用データ(強調成分データ、E(t))に所定の強調成分係数を乗じ、その結果を元の韻律データに加算する。
(b)イントネーション用パラメータに基づく韻律変換
基本周波数構成部323は、式(5)および(6)で表わした制御に基づき、韻律データを構成する。
次に、韻律変換装置1の全体的な処理手順を説明する。
図10は、韻律変換装置1による韻律変換処理の手順を示すフローチャートである。
図示するように、ステップS1において、特徴量分析部21が、入力音声の基本周波数を求める。
次に、ステップS2において、特徴量分析部21が、有声区間であるか無声区間であるかを判別する。
次に、ステップS3において、基本周波数平滑化処理部22が、韻律データの平滑化を行なう。このとき、基本周波数平滑化処理部22は、その区間が有声区間であるか無声区間であるかを示す情報も用いる。
次に、ステップS4において、パラメータ抽出部23が、必要に応じてパラメータの抽出を行なう。入力音声に基づいて抽出すべきパラメータは、例えば、基本周波数の代表値である。なお、基本周波数の代表値として予め定められた値を用いるなど、パラメータを抽出する必要がない場合には、このステップの処理を省略する。
次に、ステップS5において、アクセント用パラメータ制御部321が、入力音声に対応する韻律データに関して、アクセント用のパラメータ制御を行なう。
次に、ステップS6において、イントネーション用パラメータ制御部322が、入力音声に対応する韻律データに関して、イントネーション用のパラメータ制御を行なう。
なお、ステップS5とS6の順序を入れ替えても良い。
次に、ステップS7において、基本周波数構成部323が、アクセント用およびイントネーション用のパラメータ制御の結果に従い変換済基本周波数を作成する。つまり、基本周波数構成部323が、変換済みの韻律データを作成する。
そして、ステップS8において、韻律変換部40が、変換済基本周波数を用いて韻律変換を行い、変換後の音声データを出力する。
なお、韻律変換装置1は、上記のステップS1からS8までの一連の処理を、所定の微小な長さの時間における入力音声データに対して行ない、それらの処理を終えると、次の時間の入力音声データの処理に移り、以後これらを繰り返す。ステップS1からS8までの各処理は、処理対象の時間の入力音声データに応じて行なわれるが、処理対象の時間よりも後のデータには依存しない。つまり、韻律変換装置1は、発話される文あるいは文章全体の入力が完了するのを待つことなく、逐次、韻律変換処理を行うことができる。つまり、韻律変換装置1は、所定の微小な時間のみの遅延で、リアルタイムに音声の韻律変換処理を行うことができる。
[第1の実施形態の変形例]
次に、第1の実施形態の変形例を説明する。
変形例1では、LoGフィルタ関数を利用する場合において、正方向の強調成分係数と負方向の強調成分係数とを同一とする。つまり、RLp=RLnとする。
変形例2では、DoGフィルタ関数を利用する場合において、正方向の強調成分係数と負方向の強調成分係数とを同一とする。つまり、RDp=RDnとする。
変形例3では、LoGフィルタ関数を利用する場合において、負方向の強調成分係数を0とする。つまり、RLn=0とする。これにより、韻律変換のアクセント用パラメータ制御において、基本周波数が高くなる方向の強調のみが行なわれ、基本周波数が低くなる方向には強調が行なわれない。
変形例4では、DoGフィルタ関数を利用する場合において、負方向の強調成分係数を0とする。つまり、RDn=0とする。これにより、韻律変換のアクセント用パラメータ制御において、基本周波数が高くなる方向の強調のみが行なわれ、基本周波数が低くなる方向には強調が行なわれない。
変形例5では、アクセント用パラメータ制御部321が、LoGフィルタ関数の結果得られる値に対して、時系列変動における複数の山の部分の基本周波数が所定の範囲内に収まるように変更を加えるとともに、時系列変動における複数の谷の部分の基本周波数が所定の範囲内に収まるように変更を加える
変形例6では、イントネーション用パラメータ制御において、正方向の係数と負方向の係数を等しくする。つまり、Rip=Rinとする。
変形例7では、イントネーション用パラメータ制御において、負方向の係数を1とする。つまり、Rin=1とする。これにより、イントネーション用パラメータ制御において、基本周波数が高くなる方向の強調のみが行なわれ、基本周波数が低くなる方向には強調が行なわれない。
変形例8では、ある時刻tにおける韻律データサンプルについて見たときに、変換前と変換後の差(絶対値)の上限をCに制限する。この変動上限Cは、パラメータ記憶部33から読み出される値である。
変形例9では、韻律データ作成部32が、アクセント用パラメータ制御のみを行ない、イントネーション用パラメータ制御を行なわないようにする。この場合、韻律データ作成部32は、イントネーション用パラメータ制御部322を具備しない。このような構成においても、韻律変換装置1は、逐次的にアクセント用パラメータのみの制御による韻律変換処理を行うことができる。
[第2の実施形態]
図11は、第2の実施形態による韻律変換装置の機能構成を示すブロック図である。図示するように、韻律変換装置2は、音声分析部20と、韻律データ作成部32と、パラメータ記憶部33と、韻律変換部40と、設定データ更新部50と、認識処理部60を備えて構成される。なお、以下では、前述の実施形態との共通の事項については記載を省略し、本実施形態特有の技術事項のみを記す。また、前述の実施形態と共通の機能ブロックについては、同一の符号を付している。
認識処理部60は、音声分析部20から入力音声データを受け取り、その音声認識処理を行って、入力音声に対応するテキストを得る。そして、認識処理部60は、認識処理によって得られたテキストのデータを韻律データ作成部32aに渡す。なお、音声認識処理自体は、既存の技術を利用する。即ち、認識処理部60は、音声の音響的特徴とそれに対応する音素または単語等の言語要素との統計的数値情報を音響モデルとして保持するとともに、単語等の連鎖の出現確率に関する数値情報を言語モデルとして保持し、入力音声に対応する最尤テキストを求めることにより音声認識処理を行う。
韻律データ作成部32aは、内部に言語処理部(不図示)を備え、認識処理部60から取得したテキストの形態素解析処理および構文解析処理を行う。言語処理部が有する機能自体は、既存技術を用いて実現する。なお、韻律データ作成部32aは、言語の種類(日本語、英語、フランス語など)によらず、形態素解析処理および構文解析処理を行うことができる。そして、韻律データ作成部32aは、構文解析処理の結果に基づき、入力音声が文(sentence)を含んでいるか否かを判定し、入力音声が文を含む場合にはイントネーション用パラメータ制御とアクセント用パラメータ制御の両方の方法によってパラメータ制御を行う。そして、入力音声が文を含まない場合には、イントネーション用パラメータ制御の処理をスキップしてアクセント用パラメータ制御の処理のみによってパラメータ制御を行う。なお、入力音声が文を含むか否かの判定を終えるまでの間、韻律データ作成部32aは、イントネーション用パラメータ制御による処理の実行を待機する。そして、韻律変換部40は、これらの場合ごとのパラメータ制御の結果に基づき、変換後の韻律データを用いて、入力音声の韻律を変化させて出力する。なお、入力音声が文を含むか否かの判定は、上記の構文解析処理において、音声認識結果として得られたテキストが、文の生成規則にマッチするか否かによって行うことができる。
なお、上述した認識処理部60による認識結果を用いる手法を、第1の実施形態における様々な変形例と組み合わせるようにしても良い。
本実施形態の構成により、入力音声が文を含む場合と、含まない場合(例えば、単語の羅列のみで構成される音声など)とで、異なる制御を行うことができるようになる。例えば、単語の羅列のみの音声が入力された場合などには、アクセント制御のみを行い、イントネーション制御を行わないため、より自然な韻律への変換を行うことができる。
なお、上述した実施形態における韻律変換装置の機能をコンピューターで実現するようにしても良い。その場合、韻律変換装置の機能を実現するためのプログラムをコンピューター読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピューターシステムに読み込ませ、実行することによって実現しても良い。なお、ここでいう「コンピューターシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピューター読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピューターシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピューター読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバーやクライアントとなるコンピューターシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでも良い。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピューターシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。
以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。
例えば、上述した実施形態においては、韻律データ作成部32は、一定の等間隔に並んだ時刻ごとの基本周波数の値をデータとして出力するようにしたが、基本周波数の時間変動を表す他の形式のデータを用いて構成するようにしてもよい。例えば、基本周波数のサンプル値を取る間隔は一定でなくてもよく、また、サンプル値の集合としてではなく数式等で基本周波数の時間変動を表すようにしてもよい。
図12は、第1の実施形態により実際に音声データを処理した結果を表わすグラフである。この実施例においては、有声区間に関しては、基本周波数平滑化処理部22が、10ヘルツのローパスフィルタでスムージングを行なった。また、無声区間については、基本周波数平滑化処理部22が、各無声区間の前後の有声区間の平滑化後の値を用いてスプライン補間した。つまり、無声区間については、その後の有声区間の所定の長さのデータを取得できるまで、処理を待機した。
同図のA1、A2、A3は、フィルタ関数としてLoG関数を用いた場合の結果を示す。また、同図のB1、B2、B3は、フィルタ関数としてDoG関数を用いた場合の結果を示す。A1のグラフは、入力音声に基づく基本周波数の時間推移を示す。つまり、A1のグラフは、変換前の韻律データである。A2のグラフは、A1に基づくLoG関数の結果である。A2においては、基本周波数の推移における山と谷が強調された結果が得られている。そして、A3のグラフは、A2に示すデータに所定の係数を乗じてA1のデータに加算した結果を示す。なお、A3のグラフには、元の韻律データ(A1に示すデータ)も重ねて表示している。B1のグラフは、入力音声に基づく基本周波数の時間推移を示す。つまり、B1のグラフは、変換前の韻律データである。B2のグラフは、B1に基づくDoG関数の結果である。B2においては、基本周波数の推移における山と谷が強調された結果が得られている。そして、B3のグラフは、B2に示すデータに所定の係数を乗じてB1のデータに加算した結果を示す。なお、B3のグラフには、元の韻律データ(B1に示すデータ)も重ねて表示している。
グラフで示したように、韻律変換装置1による処理で、韻律が変換され、抑揚が強調されることによってより聞きやすい音声を得ることができる。
図13は、第1の実施形態により実際に音声データを処理した結果を表わすグラフである。この実施例においては、有声区間に関しては、基本周波数平滑化処理部22が、各フレームの基本周波数のデータをスムージングせずそのまま用いた。また、無声区間については、基本周波数平滑化処理部22が、各無声区間の前後の有声区間の値を用いてスプライン補間した。つまり、無声区間については、その後の有声区間の所定の長さのデータを取得できるまで、処理を待機した。
同図のA1、A2、A3は、フィルタ関数としてLoG関数を用いた場合の結果を示す。また、同図のB1、B2、B3は、フィルタ関数としてDoG関数を用いた場合の結果を示す。A1のグラフは、入力音声に基づく基本周波数の時間推移を示す。つまり、A1のグラフは、変換前の韻律データである。A2のグラフは、A1に基づくLoG関数の結果である。A2においては、基本周波数の推移における山と谷が強調された結果が得られている。そして、A3のグラフは、A2に示すデータに所定の係数を乗じてA1のデータに加算した結果を示す。なお、A3のグラフには、元の韻律データ(A1に示すデータ)も重ねて表示している。B1のグラフは、入力音声に基づく基本周波数の時間推移を示す。つまり、B1のグラフは、変換前の韻律データである。B2のグラフは、B1に基づくDoG関数の結果である。B2においては、基本周波数の推移における山と谷が強調された結果が得られている。そして、B3のグラフは、B2に示すデータに所定の係数を乗じてB1のデータに加算した結果を示す。なお、B3のグラフには、元の韻律データ(B1に示すデータ)も重ねて表示している。
グラフで示したように、韻律変換装置1による処理で、韻律が変換され、抑揚が強調されることによってより聞きやすい音声を得ることができる。
本発明は音、声による案内装置や、テレビおよびラジオ等の放送受信機や、電話網あるいは電話端末装置など、人の音声を扱う装置等に幅広く利用できる。
1,2 韻律変換装置
20 音声分析部
21 特徴量分析部
22 基本周波数平滑化処理部
23 パラメータ抽出部
32,32a 韻律データ作成部
321 アクセント用パラメータ制御部
3211 LoG関数処理部
3212 DoG関数処理部
322 イントネーション用パラメータ制御部
323 基本周波数構成部
33 パラメータ記憶部
40 韻律変換部
41 波形変換処理部
42 音声出力部
50 設定データ更新部
60 認識処理部

Claims (6)

  1. 入力音声を分析し前記入力音声の韻律データを出力する音声分析部と、
    前記韻律データを変換し変換後の韻律データを出力する韻律データ作成部と、
    前記韻律データ作成部から出力される前記変換後の韻律データに従って前記入力音声の韻律を変換し、変換後の音声を出力する韻律変換部と、
    を具備する韻律変換装置であって、
    前記韻律データ作成部は、
    前記音声分析部から出力される前記韻律データの所定の時間窓内のデータをフィルタリングして強調成分データを抽出するアクセント用パラメータ制御部と、
    前記韻律データに前記強調成分データを合成して前記変換後の韻律データを作成する基本周波数構成部と、
    を具備することを特徴とする韻律変換装置。
  2. 請求項1に記載の韻律変換装置であって、
    前記韻律データ作成部は、
    前記韻律データにおける基本周波数の代表値を基準として、所定の係数を用いて、前記代表値からの基本周波数の変位量を変化させるよう前記基本周波数構成部を制御するイントネーション用パラメータ制御部、
    を更に具備することを特徴とする韻律変換装置。
  3. 請求項1または2のいずれか一項に記載の韻律変換装置であって、
    韻律の強調度合いを制御するための強調成分係数をパラメータとして記憶するパラメータ記憶部を具備し、
    前記基本周波数構成部は、前記パラメータ記憶部から読み出した前記強調成分係数を前記強調成分データに乗じて得たデータを、変換前の前記韻律データに加算することにより、前記変換後の韻律データを作成する、
    ことを特徴とする韻律変換装置。
  4. 請求項2に記載の韻律変換装置であって、
    前記入力音声の音声認識処理を行って前記入力音声に対応するテキストを出力する認識処理部を更に具備するとともに、
    前記韻律データ作成部は、前記認識処理部から出力された前記テキストが文を含む場合には前記アクセント用パラメータ制御部と前記イントネーション用パラメータ制御部の両方の処理結果に基づき前記変換後の韻律データを作成し、前記テキストが文を含まない場合には前記アクセント用パラメータ制御部のみの処理結果に基づき前記変換後の韻律データを作成する、
    ことを特徴とする韻律変換装置。
  5. 請求項1から4までのいずれか一項に記載の韻律変換装置であって、
    前記アクセント用パラメータ制御部は、ラプラシアン・オブ・ガウシアン関数またはディファレンス・オブ・ガウシアン関数のいずれかにより変換前の前記韻律データから前記強調成分データを抽出する、
    ことを特徴とする韻律変換装置。
  6. コンピューターを、
    入力音声を分析し前記入力音声の韻律データを出力する音声分析部と、
    前記韻律データを変換し変換後の韻律データを出力する韻律データ作成部と、
    前記韻律データ作成部から出力される前記変換後の韻律データに従って前記入力音声の韻律を変換し、変換後の音声を出力する韻律変換部と、を具備し、
    前記韻律データ作成部が、
    前記音声分析部から出力される前記韻律データの所定の時間窓内のデータをフィルタリングして強調成分データを抽出するアクセント用パラメータ制御部と、
    前記韻律データに前記強調成分データを合成して前記変換後の韻律データを作成する基本周波数構成部と、
    を具備する韻律変換装置として機能させるためのプログラム。
JP2011263672A 2011-12-01 2011-12-01 韻律変換装置およびそのプログラム Active JP5830364B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011263672A JP5830364B2 (ja) 2011-12-01 2011-12-01 韻律変換装置およびそのプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011263672A JP5830364B2 (ja) 2011-12-01 2011-12-01 韻律変換装置およびそのプログラム

Publications (2)

Publication Number Publication Date
JP2013117556A JP2013117556A (ja) 2013-06-13
JP5830364B2 true JP5830364B2 (ja) 2015-12-09

Family

ID=48712177

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011263672A Active JP5830364B2 (ja) 2011-12-01 2011-12-01 韻律変換装置およびそのプログラム

Country Status (1)

Country Link
JP (1) JP5830364B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6433650B2 (ja) * 2013-11-15 2018-12-05 国立大学法人佐賀大学 気分誘導装置および気分誘導プログラムならびにコンピュータの動作方法
DE102013224417B3 (de) * 2013-11-28 2015-05-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Hörhilfevorrichtung mit Grundfrequenzmodifizierung, Verfahren zur Verarbeitung eines Sprachsignals und Computerprogramm mit einem Programmcode zur Durchführung des Verfahrens
CN113689837B (zh) 2021-08-24 2023-08-29 北京百度网讯科技有限公司 音频数据处理方法、装置、设备以及存储介质

Also Published As

Publication number Publication date
JP2013117556A (ja) 2013-06-13

Similar Documents

Publication Publication Date Title
US10789290B2 (en) Audio data processing method and apparatus, and computer storage medium
JP4705203B2 (ja) 声質変換装置、音高変換装置および声質変換方法
Doi et al. Esophageal speech enhancement based on statistical voice conversion with Gaussian mixture models
JPH031200A (ja) 規則型音声合成装置
JP6386237B2 (ja) 音声明瞭化装置及びそのためのコンピュータプログラム
WO2010032405A1 (ja) 音声分析装置、音声分析合成装置、補正規則情報生成装置、音声分析システム、音声分析方法、補正規則情報生成方法、およびプログラム
JP5830364B2 (ja) 韻律変換装置およびそのプログラム
JP6013104B2 (ja) 音声合成方法、装置、及びプログラム
KR102072627B1 (ko) 음성 합성 장치 및 상기 음성 합성 장치에서의 음성 합성 방법
JP6349112B2 (ja) サウンドマスキング装置、方法及びプログラム
JP6330069B2 (ja) 統計的パラメトリック音声合成のためのマルチストリームスペクトル表現
JP2008292587A (ja) 韻律生成装置、韻律生成方法、および、韻律生成プログラム
US5748838A (en) Method of speech representation and synthesis using a set of high level constrained parameters
JP2904279B2 (ja) 音声合成方法および装置
JP7339151B2 (ja) 音声合成装置、音声合成プログラム及び音声合成方法
JP5677137B2 (ja) 韻律変換装置およびプログラム
JP2013033103A (ja) 声質変換装置および声質変換方法
JP5518621B2 (ja) 音声合成装置およびコンピュータプログラム
JPH0580791A (ja) 音声規則合成装置および方法
JP5745453B2 (ja) 音声明瞭度変換装置、音声明瞭度変換方法及びそのプログラム
JP2019070775A (ja) 信号解析装置、方法、及びプログラム
JP6371531B2 (ja) 音声信号処理装置及びプログラム
JP4644879B2 (ja) 調音パラメータ補間用データ生成装置及びコンピュータプログラム
JP6011758B2 (ja) 音声合成システム、音声合成方法、およびプログラム
KR101567566B1 (ko) 개인 음색을 반영한 통계적 음성합성 시스템 및 방법

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20141104

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20150924

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150929

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20151026

R150 Certificate of patent or registration of utility model

Ref document number: 5830364

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250