JP5677137B2 - 韻律変換装置およびプログラム - Google Patents
韻律変換装置およびプログラム Download PDFInfo
- Publication number
- JP5677137B2 JP5677137B2 JP2011044022A JP2011044022A JP5677137B2 JP 5677137 B2 JP5677137 B2 JP 5677137B2 JP 2011044022 A JP2011044022 A JP 2011044022A JP 2011044022 A JP2011044022 A JP 2011044022A JP 5677137 B2 JP5677137 B2 JP 5677137B2
- Authority
- JP
- Japan
- Prior art keywords
- prosody
- data
- unit
- fundamental frequency
- parameter
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Description
また、非特許文献1に記載されたフレーズ成分とアクセント成分を考慮することによって韻律変換を行うことも考えられるが、それらのパラメータの自動抽出は容易ではないことと、個々のパラメータの制御量には詳細な設定が必要になることから、人手を介する必要が多くなるという問題がある。
韻律データは、例えば、音声の基本周波数の時間変動を表わすデータとして表現できる。
なお上記構成において、上記設定部が、設定値を書き換え可能とするように構成してもよい。この構成により、韻律データの基準値からの変位量を変化させる度合いを、適宜変更することが可能となる。
上記の構成により、基準値からの変位量が正方向か負方向かに応じて、異なる係数を用いることができ、きめ細かいパラメータ制御が可能となる。
また、上記構成において、第1のパラメータ制御部は、制御の対象とする区間毎に、基準からの入力音声の基本周波数の変位量が所定量を超えた場合にのみ基本周波数の変位量を変化させるようにすることもできる。
上記の構成において、入力音声の全体における基本周波数の代表値とは、例えば、入力音声の全体における最高基本周波数と最低基本周波数の中間値とすることができる。また、例えば、基本周波数の分布頻度で重み付けした平均値などを、基本周波数の代表値としても良い。
また、第1のパラメータ制御と、第2のパラメータ制御に、それぞれ異なる係数を用いるよう、設定部に設定することもできる。
図1は、第1の実施形態による韻律変換装置の機能構成を示すブロック図である。図示するように、韻律変換装置1は、音声分析部20と、音声データ記憶部31と、韻律データ記憶部32と、パラメータ記憶部33と、韻律変換部40と、設定部50とを備えて構成される。
韻律変換装置1は、以下において説明する構成により、音声全体のイントネーション、及び、アクセントに対応するパラメータの制御を行い、必要に応じて対象のパラメータとその制御量の設定を変更でき、韻律変換を行う。
音声分析部20は、入力音声に対し少なくとも基本周波数と有声区間・無声区間の情報を分析し、さらに必要に応じて基本周波数に対し有声区間・無声区間の情報も用いて平滑化処理を行い、その後、制御対象となるパラメータを基本周波数から抽出する。ここで、抽出するパラメータは、音声のイントネーション用およびアクセント用のパラメータである。音声分析部20のより詳細な構成については後述する。
韻律データ記憶部32は、入力音声の韻律データを記憶する。韻律データは、基本周波数の時間変動を表わすとともに、有声区間・無声区間の情報を表わす。
パラメータ記憶部33は、韻律データに関する基準値をパラメータとして記憶する。具体的には、パラメータ記憶部33は、基本周波数が時間に応じて変動する場合における、基準となる周波数のデータを記憶する。具体的には、パラメータ記憶部33は、入力音声全体を代表する基本周波数の代表値のデータ(イントネーション制御のためのパラメータ)と、入力音声の時間区間ごとに基準となる周波数に関するデータ(アクセント制御のためのパラメータ)とを、それぞれ基準値として記憶する。
図2は、韻律データ記憶部32が記憶する韻律データの構成とデータ例を示す概略図である。図示するように、韻律データは、表形式で表され、相対時刻と基本周波数との対応関係を時系列に並べて構成されるデータである。ここで、相対時刻は、入力音声の開始時からの相対時刻であり、「HH:MM:SS.hh」(HHは時、MMは分、SSは秒、hhは百分の一秒)の形式で表現される。図示する例では相対時刻の刻み幅を百分の一秒(1/100秒)としているが、異なる刻み幅を用いても良い。また、基本周波数は、音声が有する周波数成分の最も低い周波数である。言い換えれば、基本周波数は、音声信号を正弦波の合成で表したときの最も低い周波数成分の周波数である。基本周波数の単位はヘルツ(Hertz)である。このように、韻律は、基本周波数の時間変動で表される。また、韻律データ記憶部は、相対時刻に対応して、「有声/無声」のデータを含んでいる。このデータ「有声/無声」は、当該相対時刻から始まり次の相対時刻までの時間区間が、有声区間であるか無声区間であるかを表わす。なお、無声区間に対応する基本周波数のデータとしては、韻律データ記憶部32がヌルデータを記憶するようにしても良い。
図示するデータでは、例えば、相対時刻「00:00:00.03」における入力音声の基本周波数は99.7ヘルツであり、同時刻から百分の一秒間の区間は有声区間である。
図5は、音声分析部20の内部における詳細な機能構成を示すブロック図である。図示するように、音声分析部20は、特徴量分析部21と、基本周波数平滑化処理部22と、パラメータ抽出部23とを含んで構成される。
なお、特徴量分析部21が、求められた基本周波数をセミトーンなどの対数値に変換して、以後の処理ではこの対数値を使用するようにしても良い。例えば、セミトーンの対数値は、次の式(1)により算出される。
なお、基本周波数を平滑化する必要がない場合には、基本周波数平滑化処理部22は低域通過処理等の実行を省略する。
さらに具体的な処理は、次の通りである。まず、パラメータ抽出部23は、平滑化済の基本周波数データを入力音声の時間区間全体に渡って読み込み、短い時間区間毎(例えば、百分の一秒毎)の基本周波数の統計を取り、そのメジアンf0Mを求める。言い換えれば、f0M、は、基本周波数中央値(入力音声全体における代表値)である。そして、求めた基本周波数中央値を、パラメータ抽出部23は、パラメータ記憶部33に書き込む。
次に、パラメータ抽出部23は、時系列の基本周波数のデータを順次読み込み、基本周波数の時間変動における変曲点を求める。なお、ここではサンプル時刻における基本周波数を用いて、パラメータ抽出部23は2階導関数の値の近似値を求める。その近似値は、次の式(2)により求められる。
このようにして求めた複数の変曲点のそれぞれの相対時刻および基本周波数の値のペアを、パラメータ抽出部23は、パラメータ記憶部33に書き込む。
図7は、アクセント用パラメータ制御部41によるアクセント制御(基本周波数変更)の処理を示すグラフである。同図において、横軸は時刻であり、縦軸は基本周波数(semitone,セミトーン)である。このグラフにおける細い実線は、基本周波数平滑化処理部22による平滑化後の基本周波数を表わす。また、破線は、パラメータ抽出部23によって求められた基本周波数変曲点のデータに基づき、隣接する変曲点同士を結んで得られる直線分を表わし、この直線分はアクセント制御のための基準となる。また、太い実線は、アクセント制御の結果として得られる基本周波数の時間変動を表わす。
隣接する2つの変曲点(t1,f1)と(t2,f2)の間の区間についてみたとき、グラフ上のこの2点を通る破線は、次の式(3)で表わされる。
また、時刻tにおける入力音声の基本周波数(アクセント制御による変更前)をf0(t)と表わしたとき、(f0(t)−fb(t))が正か負かに応じて、言い換えれば、時刻tにおける入力音声の基本周波数(アクセント制御による変更前)が基準となる基本周波数(グラフにおける破線)よりも高いか低いかに応じて、次の式(4)および(5)によって変換後の基本周波数を求める。
(f0(t)−fb(t))が正または零のとき、アクセント用パラメータ制御部41は、式(4)を用いて変換後の基本周波数f0a(t)を計算する。
このようにして、アクセント用パラメータ制御部41は、アクセント制御を行い、韻律データとして保持している時系列の基本周波数データを更新する。
(f0(t)−f0M)が正または零のとき、イントネーション用パラメータ制御部42は、式(6)を用いて変換後の基本周波数f0i(t)を計算する。
このようにして、イントネーション用パラメータ制御部41は、イントネーション制御を行い、韻律データとして保持している時系列の基本周波数データを更新する。
まずステップS1において、音声分析部20内の特徴量分析部21が、入力音声を分析し、その時刻毎の基本周波数を求める。
次にステップS2において、音声分析部20内の特徴量分析部21が、基本周波数を求めた結果に基づいて、時間区間毎に、その区間が有声区間であるか無声区間であるかを判定する。
次にステップS4において、音声分析部20内のパラメータ抽出部23が、パラメータを抽出する処理を行う。具体的には、パラメータ抽出部23は、平滑化済の韻律データに基づき、基本周波数中央値を求めるとともに、基本周波数の変動における変曲点を特定し、それら変曲点の相対時刻およびその時刻における基本周波数を求める。
次にステップS6において、韻律変換部40内のアクセント用パラメータ制御部41が、パラメータ記憶部33から読み出したパラメータに基づいて、アクセント用パラメータ制御の処理を行う。
なお、既に述べたように、アクセント用パラメータ制御の処理を行ってから、その結果に対してイントネーション用パラメータ制御の処理を行っても良い。つまり、ステップS5とS6の処理順序を逆にしても良い。
次にステップS8において、韻律変換部40内の変換処理部44は、基本周波数構成部43によって変更された韻律データに基づき、元の音声データの韻律を変更するとともに、韻律変換された音声を出力する。
第1の実施形態の変形例について説明する。
上述した第1の実施形態では、アクセント用パラメータ制御部41は、式(4)および式(5)に従って、設定された値を乗算することによって、基準となる基本周波数からの変位を拡大するようなパラメータ制御を行った。ここに記載する変形例においては、基準となる基本周波数から所定の幅の範囲内においては基本周波数変動幅の拡大を行わず、当該幅を越えた分についてのみ基本周波数変動の拡大を行う。
ひとつの区間(ある変曲点から隣接する次の変曲点までの間)について見たときに、f0(t)−fb(t)≧0 であるものの、その区間内で一度も f0(t)−fb(t)≧CU とはならない場合には、アクセント用パラメータ制御部41は、その区間においては基本周波数変動幅の拡大を行わない。即ち、そのような場合には、 f0a(t)=f0(t) である。
ひとつの区間について見たときに、f0(t)−fb(t)≧0 であって、その区間内で一瞬でも f0(t)−fb(t)≧CU となる場合には、アクセント用パラメータ制御部41は、その区間においては基本周波数変動幅の拡大を行う。即ち、前記の式(4)によって変換後の基本周波数f0a(t)を計算する。
ひとつの区間について見たときに、f0(t)−fb(t)<0 であって、その区間内で一瞬でも f0(t)−fb(t)≦−CL となる場合には、その区間においては基本周波数変動幅の拡大を行う。即ち、前記の式(5)によって変換後の基本周波数f0a(t)を計算する。
図10は、第2の実施形態による韻律変換装置の機能構成を示すブロック図である。図示するように、韻律変換装置2は、音声分析部20と、音声データ記憶部31と、韻律データ記憶部32と、パラメータ記憶部33と、韻律変換部40と、設定部50と、認識処理部60を備えて構成される。
なお、以下では、前述の実施形態との共通の事項については記載を省略し、本実施形態特有の技術事項のみを記す。また、前述の実施形態と共通の機能ブロックについては、同一の符号を付している。
ここに記載する変形例では、韻律変換装置2は、認識処理部60による音声認識結果を用いて、入力音声を一文単位に区切って、その区切られた単位ごとに韻律変換処理を行う。具体的には、韻律変換部40aは、内部に言語処理部(不図示)を備え、認識処理部60から取得したテキストの形態素解析処理および構文解析処理を行う。そして、韻律変換部40aは、構文解析の結果を利用して、入力音声の音声データと韻律データを一文の長さに区切る。そして、音声分析部20内のパラメータ抽出部23が、その区切られた区間についてパラメータの抽出をし直す。そして、その区切られた区間について、韻律変換部40aが韻律変換の処理をする。
この構成により、文単位で、イントネーション用パラメータ制御の処理およびアクセント用パラメータ制御の処理を行うことができるようになる。
例えば、上述した実施形態においては、韻律データ記憶部32は、一定の等間隔に並んだ時刻ごとの基本周波数の値を表形式のデータとして保持するようにしたが、基本周波数の時間変動を表す他の形式のデータを用いて構成するようにしてもよい。例えば、基本周波数のサンプル値を取る間隔は一定でなくてもよく、また、サンプル値の集合としてではなく数式等で基本周波数の時間変動を表すようにしてもよい。
20 音声分析部
21 特徴量分析部
22 基本周波数平滑化処理部
23 パラメータ抽出部
31 音声データ記憶部
32 韻律データ記憶部
33 パラメータ記憶部
40,40a 韻律変換部
41 アクセント用パラメータ制御部(第1のパラメータ制御部)
42 イントネーション用パラメータ制御部(第2のパラメータ制御部)
43 基本周波数構成部
44 変換処理部
50 設定部
60 認識処理部
Claims (3)
- 音声の韻律データを記憶する韻律データ記憶部と、
前記韻律データに関する基準値をパラメータとして記憶するパラメータ記憶部と、
韻律変換処理のための係数を設定値として記憶する設定部と、
入力音声を分析し前記入力音声の韻律データを前記韻律データ記憶部に書き込むとともに、前記韻律データに関する基準値を求めて前記パラメータ記憶部に書き込む音声分析部と、
前記設定部から読み出した前記設定値を用いて前記パラメータ記憶部に記憶された前記基準値からの韻律の変位量を変化させることによって前記韻律データ記憶部に記憶された前記韻律データを変換し、変換後の韻律データを用いて前記入力音声の韻律を変化させて出力する韻律変換部と、
を具備する韻律変換装置であって、
前記設定部は、前記基準値からの正方向の変位量を変化させるための正方向係数と、前記基準値からの負方向の変位量を変化させるための負方向係数とを、設定値として記憶し、
前記韻律変換部は、前記基準値からの変位量が正の場合には当該変位量に前記正方向係数を乗じ、前記基準値からの変位量が負の場合には当該変位量に前記負方向係数を乗ずる、ことによって前記韻律データ記憶部に記憶された前記韻律データを変換する、
ことを特徴とする韻律変換装置。 - 音声の韻律データを記憶する韻律データ記憶部と、
前記韻律データに関する基準値をパラメータとして記憶するパラメータ記憶部と、
韻律変換処理のための係数を設定値として記憶する設定部と、
入力音声を分析し前記入力音声の韻律データを前記韻律データ記憶部に書き込むとともに、前記韻律データに関する基準値を求めて前記パラメータ記憶部に書き込む音声分析部と、
前記設定部から読み出した前記設定値を用いて前記パラメータ記憶部に記憶された前記基準値からの韻律の変位量を変化させることによって前記韻律データ記憶部に記憶された前記韻律データを変換し、変換後の韻律データを用いて前記入力音声の韻律を変化させて出力する韻律変換部と、
前記入力音声の音声認識処理を行って前記入力音声に対応するテキストを出力する認識処理部と、
を具備する韻律変換装置であって、
前記パラメータ記憶部は、前記入力音声における時間区間ごとの基本周波数の変動の基準を表す前記パラメータと、前記入力音声の全体における基本周波数の代表値を表す前記パラメータとを記憶し、
前記韻律変換部は、前記時間区間ごとに、当該時間区間における基本周波数の変動の基準からの前記入力音声の基本周波数の変位量を、前記設定部から読み出した係数を用いて変化させることによって前記韻律データを変更する第1のパラメータ制御部と、前記入力音声全体における、前記基本周波数の代表値からの変位量を、前記設定部から読み出した係数を用いて変化させることによって前記韻律データを変更する第2のパラメータ制御部と、を具備し、
前記韻律変換部は、前記認識処理部から出力された前記テキストの構文解析処理を行って、前記テキストが文を含む場合には前記第1のパラメータ制御部と前記第2のパラメータ制御部の両方の処理結果に基づき変換後の前記韻律データを用いて前記入力音声の韻律を変化させて出力し、前記テキストが文を含まない場合には前記第1のパラメータ制御部のみ処理結果に基づき変換後の前記韻律データを用いて前記入力音声の韻律を変化させて出力する、
ことを特徴とする韻律変換装置。 - コンピュータを、請求項1に記載の韻律変換装置として機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011044022A JP5677137B2 (ja) | 2011-03-01 | 2011-03-01 | 韻律変換装置およびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011044022A JP5677137B2 (ja) | 2011-03-01 | 2011-03-01 | 韻律変換装置およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012181345A JP2012181345A (ja) | 2012-09-20 |
JP5677137B2 true JP5677137B2 (ja) | 2015-02-25 |
Family
ID=47012598
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011044022A Active JP5677137B2 (ja) | 2011-03-01 | 2011-03-01 | 韻律変換装置およびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5677137B2 (ja) |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2612867B2 (ja) * | 1987-10-06 | 1997-05-21 | 日本放送協会 | 音声ピッチ変換方法 |
JP5282469B2 (ja) * | 2008-07-25 | 2013-09-04 | ヤマハ株式会社 | 音声処理装置およびプログラム |
-
2011
- 2011-03-01 JP JP2011044022A patent/JP5677137B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2012181345A (ja) | 2012-09-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4705203B2 (ja) | 声質変換装置、音高変換装置および声質変換方法 | |
US8255222B2 (en) | Speech separating apparatus, speech synthesizing apparatus, and voice quality conversion apparatus | |
JP2885372B2 (ja) | 音声符号化方法 | |
Doi et al. | Esophageal speech enhancement based on statistical voice conversion with Gaussian mixture models | |
JP5039865B2 (ja) | 声質変換装置及びその方法 | |
JP4516157B2 (ja) | 音声分析装置、音声分析合成装置、補正規則情報生成装置、音声分析システム、音声分析方法、補正規則情報生成方法、およびプログラム | |
JP6013104B2 (ja) | 音声合成方法、装置、及びプログラム | |
JP5830364B2 (ja) | 韻律変換装置およびそのプログラム | |
JP6330069B2 (ja) | 統計的パラメトリック音声合成のためのマルチストリームスペクトル表現 | |
JP6349112B2 (ja) | サウンドマスキング装置、方法及びプログラム | |
JP6314879B2 (ja) | 音読評価装置、音読評価方法、及びプログラム | |
JP3841596B2 (ja) | 音素データの生成方法及び音声合成装置 | |
JP2904279B2 (ja) | 音声合成方法および装置 | |
JP5677137B2 (ja) | 韻律変換装置およびプログラム | |
JP5518621B2 (ja) | 音声合成装置およびコンピュータプログラム | |
JPH05307395A (ja) | 音声合成装置 | |
JP2013033103A (ja) | 声質変換装置および声質変換方法 | |
JP2011141470A (ja) | 素片情報生成装置、音声合成システム、音声合成方法、及び、プログラム | |
JP2008058379A (ja) | 音声合成システム及びフィルタ装置 | |
JP6213217B2 (ja) | 音声合成装置及び音声合成用コンピュータプログラム | |
JP5745453B2 (ja) | 音声明瞭度変換装置、音声明瞭度変換方法及びそのプログラム | |
JPH08254992A (ja) | 話速変換装置 | |
JP6011758B2 (ja) | 音声合成システム、音声合成方法、およびプログラム | |
JP2019070775A (ja) | 信号解析装置、方法、及びプログラム | |
JP5679451B2 (ja) | 音声処理装置およびそのプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20130812 |
|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A711 Effective date: 20130812 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20130812 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20140220 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140311 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140507 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20141202 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20141226 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5677137 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |