JP5328703B2 - Prosody pattern generator - Google Patents
Prosody pattern generator Download PDFInfo
- Publication number
- JP5328703B2 JP5328703B2 JP2010066289A JP2010066289A JP5328703B2 JP 5328703 B2 JP5328703 B2 JP 5328703B2 JP 2010066289 A JP2010066289 A JP 2010066289A JP 2010066289 A JP2010066289 A JP 2010066289A JP 5328703 B2 JP5328703 B2 JP 5328703B2
- Authority
- JP
- Japan
- Prior art keywords
- pitch
- pattern
- similar
- prosodic
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
本発明は、入力されるユーザの発声から韻律パターンを生成する韻律パターン生成装置に関するものである。 The present invention relates to a prosodic pattern generation device that generates a prosodic pattern from an input user's utterance.
従来より、ユーザの発声から抽出した韻律情報を用いることで、ユーザの意図する韻律パターンに修正するための技術が提案されている。ここで、韻律情報とは、発声から抽出された韻律(ピッチ、音韻継続長、パワーなど)そのものを示す。また、韻律パターンとは、合成音声で利用出来る品質・形式に整備された韻律を示す。
例えば、特許文献1にはマイクより入力した音声のピッチパターンを判断し、入力したテキストデータからピッチパターンの候補を生成し、入力された音声から判断されたピッチパターンとピッチパターンの候補とを照合して、合致する度合いの高い音声のピッチパターンを設定する音声出力装置が開示されている。また、特許文献2には、表記対応韻律辞書に未知語を登録する場合に、未知語の表記及び読みを取得すると共に、未知語に対応する音声情報を、音声入力を介して取得し、音声情報から抽出した韻律を表記対応韻律辞書に登録する音声合成装置が開示されている。
Conventionally, a technique for correcting to a prosodic pattern intended by the user by using prosodic information extracted from the user's utterance has been proposed. Here, the prosody information indicates the prosody (pitch, phoneme duration, power, etc.) itself extracted from the utterance. The prosodic pattern indicates a prosody arranged in quality and format that can be used in synthesized speech.
For example, in Patent Document 1, a pitch pattern of speech input from a microphone is determined, a pitch pattern candidate is generated from input text data, and the pitch pattern determined from the input speech is compared with the pitch pattern candidate. Thus, an audio output device that sets a pitch pattern of audio with a high degree of matching is disclosed. Further, in
しかしながら、従来ではテキストデータから生成されたピッチパターンの候補から選択して修正後のピッチパターンとして用いており、テキストデータから生成されたピッチパターンは規則に基づいて生成された人工的な韻律パターンである規則韻律パターンであり、自然性に欠けるという課題があった。また、テキストデータを基にピッチパターン(韻律パターン)の候補を得るため、未知語や新語などにおいて、テキストデータに対応したピッチパターン(韻律パターン)の候補を生成するのが困難であるという課題もあった。 However, conventionally, a pitch pattern candidate generated from text data is selected and used as a corrected pitch pattern, and the pitch pattern generated from the text data is an artificial prosodic pattern generated based on a rule. There was a problem that it was a regular prosodic pattern and lacked naturalness. In addition, in order to obtain pitch pattern (prosodic pattern) candidates based on text data, it is difficult to generate pitch pattern (prosodic pattern) candidates corresponding to text data in unknown words, new words, and the like. there were.
さらに、未知語に対する発声から韻律を抽出し、未知語の韻律として用いるため、ユーザの声質や収録環境などの影響で、発声された音声情報から韻律(韻律情報)がうまく抽出できるとは限らない。また、発声はプロのナレータに限られないため、安定したユーザの発声が得られず、抽出された韻律(韻律情報)が局所的な劣化を伴うなど、ユーザが何度も発声を繰り返す必要が生じるという課題もあった。 Furthermore, because prosody is extracted from utterances of unknown words and used as prosody of unknown words, prosody (prosodic information) cannot always be successfully extracted from uttered speech information due to the influence of the user's voice quality and recording environment. . In addition, since the utterance is not limited to a professional narrator, the user's utterance cannot be obtained, and the extracted prosody (prosodic information) is accompanied by local deterioration. There was also a problem that occurred.
この発明は上記のような課題を解決するためになされたもので、音声データから抽出した韻律情報である肉声韻律情報に対し、抽出誤りの補正などの整備を行った韻律パターンである肉声韻律パターンを複数格納した韻律パターン辞書を予め用意し、この韻律パターン辞書から、入力された音声データの肉声韻律情報に近い肉声韻律パターンを選択することで、未知語や新語など類似したテキストの肉声韻律パターンが無い場合や、安定した発声や肉声韻律情報が得られないユーザの声質や収録環境においても、自然性の高い肉声韻律パターンを生成して出力する韻律パターン生成装置を得ることを目的とする。
なお、以下では特に記載がない場合には肉声韻律パターンおよび肉声ピッチパターンを韻律パターンおよびピッチパターンとして記載する。
The present invention has been made to solve the above-described problems, and a real voice prosody pattern, which is a prosodic pattern in which correction of extraction errors and the like is performed on real voice prosody information that is prosodic information extracted from speech data. A prosody pattern dictionary that stores multiple words is prepared in advance, and from this prosody pattern dictionary, a real voice prosody pattern of similar text such as unknown words or new words is selected by selecting a real voice prosody pattern close to the real voice prosody information of the input voice data It is an object of the present invention to provide a prosody pattern generation apparatus that generates and outputs a natural voice real prosody pattern even when there is no voice, or even in a voice quality or recording environment of a user who cannot obtain stable utterance or real voice prosody information.
In the following description, the real voice prosody pattern and the real voice pitch pattern are described as the prosodic pattern and the pitch pattern unless otherwise specified.
この発明に係る韻律パターン生成装置は、音声データおよびテキストデータの入力を受
け付け、音声データから韻律情報を抽出し、当該韻律情報をテキストデータに対応付けた
肉声韻律情報を生成する肉声韻律情報抽出部と、複数の韻律パターンを格納する韻律パタ
ーン辞書と、当該韻律パターン辞書から肉声韻律情報の部分あるいは全体に類似した韻律
パターンを1つ以上検索して類似韻律パターンとして出力する類似韻律パターン検索部と、肉声韻律情報抽出部から入力される肉声韻律情報に対して、韻律パターン辞書に格納された韻律パターンに近似させる加工を行い、類似韻律パターン検索部に出力する肉声韻律情報加工部と、類似韻律パターンをユーザが認識可能な形式に変換して提示し、ユーザに類似韻律パターンの選択を要求する類似韻律パターン提示部と、類似韻律パターン提示部が提示した類似韻律パターンのうち、ユーザが選択した類似韻律パターンを出力する韻律パターン出力部とを備えるように構成したものである。
The prosody pattern generation device according to the present invention receives an input of speech data and text data, extracts prosodic information from the speech data, and generates a real voice prosody information extracting unit that associates the prosodic information with the text data. A prosodic pattern dictionary that stores a plurality of prosodic patterns, and a similar prosodic pattern search unit that searches the prosodic pattern dictionary for one or more prosodic patterns similar to the real voice prosodic information part or the whole and outputs them as similar prosodic patterns The real voice prosody information input from the real voice prosody information extraction unit is processed to approximate the prosody pattern stored in the prosodic pattern dictionary and output to the similar prosody pattern search unit, and the similar prosody Converts the pattern into a user-recognizable format and presents it, requiring the user to select a similar prosodic pattern And similar prosodic pattern presenting unit that, among the similar prosodic pattern similar prosody pattern presentation unit is presented, which is constituted to include the prosody pattern output unit for outputting the similarity prosody pattern selected by the user.
音声データおよびテキストデータに基づき生成された肉声韻律情報の部分あるいは全体に類似した韻律パターンを韻律パターン辞書から検索し、類似韻律パターンとしてユーザに提示し、ユーザが選択した類似韻律パターンを出力するように構成したので、補正整備などが行われた韻律パターンを格納した韻律パターン辞書から肉声韻律情報に類似した韻律パターンを選択することができ、自然性の高い韻律パターンを生成することができる。また、未知語や新語など類似したテキストデータが存在しない場合にも、自然性の高い韻律パターンを生成することができる。さらに、集音状況に影響されずに安定した韻律パターンを生成することができる。 Search prosody patterns similar to part or whole of real voice prosody information generated based on speech data and text data from the prosodic pattern dictionary, present them to the user as similar prosodic patterns, and output the similar prosodic pattern selected by the user Thus, a prosodic pattern similar to the real voice prosodic information can be selected from the prosodic pattern dictionary storing the prosody pattern subjected to correction and maintenance, and a highly natural prosodic pattern can be generated. Also, prosody patterns with high naturalness can be generated even when similar text data such as unknown words or new words does not exist. Furthermore, a stable prosodic pattern can be generated without being affected by the sound collection situation.
実施の形態1.
図1は、この発明の実施の形態1による韻律パターン生成装置を有する音声合成システムの構成を示すブロック図である。なお、この実施の形態1では、韻律情報および韻律パターンとしてピッチのみを扱うピッチパターン生成装置を用いて説明する。そこで、以下では韻律パターン生成装置をピッチパターン生成装置として記載する。実施の形態2および実施の形態3においても同様である。
音声合成システム100は、入力装置1、ピッチパターン生成装置(韻律パターン生成装置)2および出力装置3で構成されている。
Embodiment 1 FIG.
FIG. 1 is a block diagram showing a configuration of a speech synthesis system having a prosodic pattern generation device according to Embodiment 1 of the present invention. In the first embodiment, description will be made using a pitch pattern generation apparatus that handles only pitches as prosodic information and prosodic patterns. Therefore, hereinafter, the prosodic pattern generation device is described as a pitch pattern generation device. The same applies to the second embodiment and the third embodiment.
The
次に各構成の詳細について説明する。入力装置1は、音声入力部11、テキスト入力部12、ピッチパターン選択部13で構成されている。
音声入力部11は、例えばマイクなどで構成され、発声を収集して音声データを生成してピッチパターン生成装置2に出力する。また、マイクから発声を直接収録する他、予め収録した発声データを蓄えた記録装置(図示せず)から音声データを読み込む、またはストリームデータから音声データを収集するように構成してもよく、発声の音声データが得られる構成であれば適宜変更可能である。また、音声データはユーザ自身の声でもよく、別のユーザの声であってもよい。テキスト入力部12は、発声に対応するテキストデータ(例えば読みや表記、ポーズ情報など)を収集してテキストデータを作成し、ピッチパターン生成装置2に出力する。ピッチパターン選択部13は、ユーザが入力するピッチパターン選択結果をピッチパターン選択情報としてピッチパターン生成装置2に出力する。
Next, details of each component will be described. The input device 1 includes a
The
ピッチパターン生成装置(韻律パターン生成装置)2は、肉声ピッチ情報抽出部(肉声韻律情報抽出部)21、類似ピッチパターン検索部(類似韻律パターン検索部)22、ピッチパターン辞書(韻律パターン辞書)23、類似ピッチパターン提示部(類似韻律パターン提示部)24、ピッチパターン出力部(韻律パターン出力部)25で構成され、入力装置1から入力される音声データおよびテキストデータに基づき類似ピッチパターンを検索し、検索された類似ピッチパターンを出力装置3に出力してユーザに提示すると共に、入力装置1から入力されたピッチパターン選択情報に対応する類似ピッチパターンをピッチパターンとして出力する。
A pitch pattern generation device (prosodic pattern generation device) 2 includes a real voice pitch information extraction unit (real voice prosody information extraction unit) 21, a similar pitch pattern search unit (similar prosody pattern search unit) 22, and a pitch pattern dictionary (prosody pattern dictionary) 23. , A similar pitch pattern presentation unit (similar prosody pattern presentation unit) 24, and a pitch pattern output unit (prosody pattern output unit) 25, and searches for similar pitch patterns based on speech data and text data input from the input device 1. The retrieved similar pitch pattern is output to the
肉声ピッチ情報抽出部21は、音声入力部11から入力される音声データを解析してピッチ情報を抽出し、当該ピッチ情報にテキスト入力部12から入力されるテキストデータを対応付けした肉声ピッチ情報を生成して類似ピッチパターン検索部22に出力する。なお、ピッチ情報の抽出には、ケプストラム法や自己相関関数法などの公知の処理方法を適用することができる。なお当該処理方法は公知のため詳細な説明を省略する。
The real voice pitch
類似ピッチパターン検索部22は、類似度算出部22aを有している。類似度算出部22aは、肉声ピッチ情報抽出部21から入力される肉声ピッチ情報とピッチパターン辞書23に記憶されたピッチパターン(以下、蓄積ピッチパターンと称する)との類似度を算出し、類似ピッチパターン検索部22は当該類似度に基づき肉声ピッチ情報の部分(例えば、連続する有声音区間の単位)あるいは全体に類似した蓄積ピッチパターンを1つ以上検索し、検索した蓄積ピッチパターンを類似ピッチパターンとして類似ピッチパターン提示部24に出力する。
The similar pitch
ここで、類似度の算出および類似ピッチパターンの検索例について図2を参照しながら具体的に説明を行う。図2は、実施の形態1によるピッチ(韻律)パターン生成装置の類似度の算出方法および類似ピッチパターンの検索方法を示す説明図である。
図2に示すように「インターチェンジ」という肉声ピッチ情報が入力されると、類似度算出部22aはピッチパターン辞書23に記憶された複数の蓄積ピッチパターン(図3では、ピッチパターン1、ピッチパターン2、ピッチパターン3・・・)を読み出す。
Here, a calculation example of similarity and a search example of a similar pitch pattern will be specifically described with reference to FIG. FIG. 2 is an explanatory diagram showing a similarity calculation method and a similar pitch pattern search method of the pitch (prosodic) pattern generation device according to the first embodiment.
As shown in FIG. 2, when the real voice pitch information “interchange” is input, the
次に、入力された肉声ピッチ情報と読み出した蓄積ピッチパターン1を有声音区間で分割し、分割した有声音区間毎に距離および尤度(d11、d12、d13、d14)を算出する。さらに、各有声音区間の距離および尤度の和(d11+d12+d13+d14)を算出する。当該算出された距離および尤度の和を肉声ピッチ情報と蓄積ピッチパターンとの類似度とする。 Next, the input real voice pitch information and the read accumulated pitch pattern 1 are divided into voiced sound sections, and the distance and likelihood (d 11 , d 12 , d 13 , d 14 ) are calculated for each divided voiced sound section. To do. Furthermore, the sum of distances and likelihoods (d 11 + d 12 + d 13 + d 14 ) of each voiced sound section is calculated. The sum of the calculated distance and likelihood is used as the similarity between the real voice pitch information and the accumulated pitch pattern.
この処理を全ての蓄積ピッチパターン2,3・・・に対して実行し、類似度((d21+d22+d23+d24),(d31+d32+d33+d34)・・・)を算出する。類似ピッチパターン検索部22は、類似度算出部22aが算出した類似度を比較し、類似度の上位あるいは類似度が閾値以上の蓄積ピッチパターンを類似ピッチパターンとする。
This process is executed for all the accumulated
ピッチパターン辞書23は、音声データから抽出した肉声ピッチ情報に対し、抽出誤りやピッチの揺らぎなどによる劣化箇所の補正などの整備を行ったピッチパターンおよび当該整備を行ったピッチパターンに対応したテキストデータ(表記や読みなど)が複数登録されているメモリである。なお、当該ピッチパターン辞書23に記憶されているピッチパターンを蓄積ピッチパターンと称する。
The
類似ピッチパターン提示部24は、類似ピッチパターン検索部22から入力される類似ピッチパターンをピッチパターン出力部25に出力する。さらに、類似ピッチパターン提示部24は出力変換部24aを有し、類似ピッチパターンをユーザが確認できる形式に変換し、出力用類似ピッチパターンとして出力装置3に出力する。
ユーザが確認できる形式としては、ピッチパターンの時間変化を数値化した表あるいは図示したグラフの表示が挙げられる。また、公知の音声合成装置を用いてピッチパターンを利用した合成音声を生成してスピーカなどの合成音声を視聴できる出力装置3へ出力する、または音声合成装置用のピッチパターンを音声合成機能および音声出力機能を有する出力装置3へ出力するなど適宜構成可能である。
なお、出力装置3に出力された出力用類似ピッチパターンは、類似ピッチパターン出力部31を介してユーザに提示される。ユーザは、提示された出力用類似ピッチパターンから最適なピッチパターンを選択し、ピッチパターン選択部13を介してピッチパターン選択結果を入力する。
The similar pitch
As a format that can be confirmed by the user, there is a display of a table in which the time change of the pitch pattern is quantified or an illustrated graph. Also, a synthesized speech using a pitch pattern is generated using a known speech synthesizer and is output to the
The output similar pitch pattern output to the
ピッチパターン出力部25は、ピッチパターン選択部13から入力されるピッチパターン選択情報に基づき、類似ピッチパターン提示部24から入力された類似ピッチパターンの中から出力すべきピッチパターンを選択して出力する。
The pitch
出力装置3は、類似ピッチパターン出力部31を有し、例えば、図示されたグラフを表示する機能を有する装置などで構成される。類似ピッチパターン提示部24から入力される出力用類似ピッチパターンをユーザに提示する。
The
次に、音声合成システム100の動作について説明を行う。図3は、この発明の実施の形態1によるピッチ(韻律)パターン生成装置の動作を示すフローチャートである。以下、このフローチャートに従って説明を行う。
音声入力部11およびテキスト入力部12から肉声ピッチ情報抽出部21に音声データおよびテキストデータが入力される(ステップST1)。肉声ピッチ情報抽出部21は、入力された音声データを解析してピッチ情報を抽出する(ステップST2)。ピッチ情報としては、例えばピッチを一定時間間隔で抽出したデータである。また抽出の間隔は、一定時間間隔のみに限られず、有声音区間を等間隔に分割した数点の代表点、ピッチの変化の激しい点など、用途やデータ合せて適宜変更可能である。
Next, the operation of the
Voice data and text data are input from the
さらに肉声ピッチ情報抽出部21は、抽出したピッチ情報をテキストデータに対応付け、肉声ピッチ情報として類似ピッチパターン検索部22に出力する(ステップST3)。類似ピッチパターン検索部22の類似度算出部22aは、ステップST3において肉声ピッチ情報が入力されると、ピッチパターン辞書23から蓄積ピッチパターンを読み出し、読み出した各蓄積ピッチパターンと入力された肉声ピッチ情報の類似度を算出する(ステップST4)。さらに類似ピッチパターン検索部22は、ステップST4で算出した類似度に基づき、肉声ピッチ情報の部分(例えば、連続する有声音区間の単位)あるいは全体に類似した蓄積ピッチパターンを1つ以上検索し、類似ピッチパターンとして類似ピッチパターン提示部24に出力する(ステップST5)。
Further, the real voice pitch
類似ピッチパターン提示部24は、ステップST5で入力された類似ピッチパターンをピッチパターン出力部25に出力すると共に、出力変換部24aが類似ピッチパターンをユーザが確認できる形式に変換し、出力用類似ピッチパターンとして出力装置3の類似ピッチパターン出力部31に出力し、検索された類似ピッチパターンをユーザに提示する(ステップST6)。
The similar pitch
その後、ユーザは類似ピッチパターン出力部31により提示された出力用類似ピッチパターンから所望のピッチパターンを選択し、選択結果であるピッチパターン選択情報がピッチパターン選択部13を介してピッチパターン出力装置3に入力される(ステップST7)。ピッチパターン出力部25は、ステップST7で入力されたピッチパターン選択情報に基づき、ステップST5で入力された類似ピッチパターンの中から出力すべきピッチパターンを選択して出力し(ステップST8)、処理を終了する。
Thereafter, the user selects a desired pitch pattern from the output similar pitch patterns presented by the similar pitch
次に、肉声ピッチ情報抽出部21の他の構成例を示す。図4は、肉声ピッチ情報抽出部の他の構成例を示すブロック図である。
肉声ピッチ情報抽出部21に、テキストデータを言語解析して付加情報を取得して肉声ピッチ情報に与える付加情報取得部21aを追加して設けても良い。具体的には、表記のみのテキストデータが入力された場合、当該テキストデータを言語解析して読みや品詞情報などの付加情報を取得して肉声ピッチ情報に与える。
Next, another configuration example of the real voice pitch
The real voice pitch
さらに、その他の構成例として、肉声ピッチ情報抽出部21に、入力されたテキストデータから公知の音声認識技術を用いて、例えば音韻情報として音韻毎に発声音声データのセグメンテーションを行うセグメンテーション部21bを追加して設けても良い。肉声ピッチ情報抽出部21は、セグメンテーション部21bにおいて得られた音韻情報に対応付けられた肉声ピッチ情報を抽出する。
Furthermore, as another configuration example, a
さらに、その他の構成例として、肉声ピッチ情報抽出部21に、音声データからピッチパターンを生成したい箇所を指定するピッチパターン生成指定部21cを追加して設けても良い。具体的には、例えば、「このインターチェンジです。」という合成音声の生成において「インターチェンジ」部分のピッチパターンを生成する場合、ユーザの「このインターチェンジです。」という発声データに対して、ピッチパターン指定部が「インターチェンジ」部分のみを肉声ピッチ情報の抽出対象とするように指定する。
なお、図4の例では、付加情報取得部21a、セグメンテーション部21bおよびピッチパターン生成指定部21cを全て同時に設ける構成を示しているが、全て同時に設ける必要はなく、各構成を適宜選択して構成してよい。
Furthermore, as another configuration example, a pitch pattern
In the example of FIG. 4, a configuration in which the additional
次に、類似ピッチパターン検索部22の類似度算出部22aの詳細および算出方法の例を示す。
類似度算出部22aは、肉声ピッチ情報と蓄積ピッチパターンのデータ形式が異なる場合(例えば、肉声ピッチ情報は5ms毎にピッチを算出、これに対して蓄積ピッチパターンでは50ms毎にピッチを算出している場合など)、肉声ピッチ情報のデータ形式を蓄積ピッチパターンのデータ形式に変換してから類似度を算出する。
Next, details of the
When the data format of the real voice pitch information and the accumulated pitch pattern is different (for example, the real voice pitch information calculates the pitch every 5 ms, while the accumulated pitch pattern calculates the pitch every 50 ms. In other words, the similarity is calculated after converting the data format of the real voice pitch information into the data format of the accumulated pitch pattern.
類似度算出部22aの距離や尤度の計算には、例えば、ピッチパターンを所定のn次のベクトルに正規化した上でのピッチパターン間の二乗誤差や内積などの他、DP(動的計画法)マッチング手法やHMM(隠れマルコフモデル)を用いた統計的手法などの処理を適用することができる。DPマッチング手法やHMMを用いた統計的手法は、公知であるため詳細な説明を省略する。例えば、HMMを利用する場合には、音声データの有声音区間(あるいは音素や音節、単語、文章などの単位)毎に1つ以上の状態数・ガウス分布を持った肉声ピッチ情報に関するHMMを作成し、尤度の算出に用いる。
For calculating the distance and likelihood of the
次に類似度算出方法を例示する。
<算出方法例>
1.肉声ピッチ情報と有声音区間の数が一致する蓄積ピッチパターンに絞って類似度を算出する。
2.肉声ピッチ情報内の複数の有声音区間を連接して1つの有声音区間として類似度を算出する。
3.蓄積ピッチパターンの複数の有声音区間を連接して1つの有声音区間として類似度を算出する。
上記算出方法例2.および3.は部分的な有声/無声の発声誤りやピッチの抽出誤りによって、本来一つの有声音区間であるものが分割されてしまう、あるいは二つの有声音区間が一つになってしまう場合があることを考慮したものである。
4.部分的な有声/無声の発声誤りやピッチの抽出誤りがあると推測される有声音区間を除いた有声音区間の距離、尤度から類似度を算出する(例えば、距離が短いまたは尤度の高い上位の有声音区間のみを類似度の算出に用いる)。
5.距離、尤度の計算単位は、有声音区間のみではなく、一定時間単位とする。音素や音節、単語、文章単位で区切られた肉声ピッチ情報および蓄積ピッチパターンが得られればそれらの単位で距離、尤度を用いて算出する。
Next, a similarity calculation method will be exemplified.
<Example of calculation method>
1. The similarity is calculated by focusing on the accumulated pitch pattern in which the number of real voice pitch information and the number of voiced sound sections are the same.
2. A plurality of voiced sound sections in the real voice pitch information are concatenated to calculate the similarity as one voiced sound section.
3. A plurality of voiced sound sections of the accumulated pitch pattern are concatenated to calculate the similarity as one voiced sound section.
Calculation method example 2 above. And 3. Is that a voiced / unvoiced utterance error or pitch extraction error may result in the division of one voiced sound segment, or two voiced sound segments. It is taken into consideration.
4). The similarity is calculated from the distance and likelihood of the voiced sound section excluding the voiced sound section estimated to have partial voiced / unvoiced utterance errors and pitch extraction errors (for example, the distance is short or the likelihood is low) Only high-order voiced segments are used to calculate similarity).
5. The unit for calculating the distance and likelihood is not only a voiced sound section but a fixed time unit. If real voice pitch information and accumulated pitch patterns separated by phonemes, syllables, words, and sentences are obtained, calculation is made using the distance and likelihood in those units.
次に、類似ピッチパターン検索部22の検索動作の他の構成例を示す。
類似ピッチパターン検出部は、肉声ピッチ情報を用いて類似ピッチパターンを検索する以外に、発声された音声のテキストデータを入力し、有声音/無声音情報や、音素情報、音節情報、品詞情報、言語の出現位置などを組み合わせた検索を行い、肉声ピッチ情報と蓄積ピッチパターンが一致しやすいと想定される、言語的に近い蓄積ピッチパターンから検索を行うことも可能である。例えば、子音の種類(破裂性子音や摩擦性子音など)が同じテキストの蓄積ピッチパターンから検索することにより、子音母音間のピッチパターン遷移が似る、文末の発声であれば同じ文末のテキストデータのピッチパターンから収束感のあるピッチパターンが選ばれる。
Next, another configuration example of the search operation of the similar pitch
In addition to searching for similar pitch patterns using real voice pitch information, the similar pitch pattern detection unit inputs text data of uttered speech, voiced / unvoiced sound information, phoneme information, syllable information, part of speech information, language It is also possible to perform a search combining the appearance positions of the voices, and to perform a search from a linguistic storage pitch pattern that is assumed that the real voice pitch information and the storage pitch pattern are likely to match. For example, by searching from the stored pitch pattern of text with the same consonant type (burst consonant, frictional consonant, etc.), the pitch pattern transition between consonant vowels is similar. A pitch pattern with a sense of convergence is selected from the pitch patterns.
さらに類似ピッチパターン検索部22は、蓄積ピッチパターンを調整した後に類似ピッチパターン検索に用いるように構成することができる。調整例を以下に示す。
1.入力された音声の時間長に合せて蓄積ピッチパターンを時間軸上で伸縮変形させた後に類似ピッチパターンの検索を行う。これにより、話速の異なるピッチパターンからも類似するピッチパターンを検索することができる。
2.肉声ピッチ情報の平均ピッチに合せて蓄積ピッチパターンの平均ピッチを調整した後に類似ピッチパターンの検索を行う。これにより声の高さの異なるピッチパターンからも類似するピッチパターンが検索できる。
3.肉声ピッチ情報のピッチの変化幅に合せて蓄積ピッチパターンのピッチの変化幅を調整した後に類似ピッチパターンの検索を行う。これにより、抑揚の調子が異なるピッチパターンからも類似するピッチパターンが検索できる。
Furthermore, the similar pitch
1. A similar pitch pattern is searched after the accumulated pitch pattern is stretched and deformed on the time axis in accordance with the time length of the input voice. Thereby, a similar pitch pattern can be searched from pitch patterns having different speaking speeds.
2. After adjusting the average pitch of the accumulated pitch patterns in accordance with the average pitch of the real voice pitch information, the similar pitch pattern is searched. As a result, a similar pitch pattern can be retrieved from pitch patterns with different voice pitches.
3. A similar pitch pattern is searched after adjusting the pitch change width of the stored pitch pattern in accordance with the pitch change width of the real voice pitch information. As a result, a similar pitch pattern can be retrieved from pitch patterns having different tones.
次に、類似ピッチパターン提示部24の他の構成例を示す。図5は、類似ピッチパターン提示部24の他の構成例を示すブロック図である。
類似ピッチパターン提示部24の出力変換部24aは、出力用類似ピッチパターンの出力において、生成するピッチパターンのテキストデータに加えてその前後のテキストデータを与え、それらを合せて出力用類似ピッチパターンとして構成するテキストデータ合成部24bを追加して設けても良い。例えば、生成するピッチパターンのテキストデータが「インターチェンジ」であり、「次のインターチェンジです。」という合成音声での利用を想定したテキストデータを入力することにより、生成された「インターチェンジ」のピッチパターンを利用した「次のインターチェンジです。」という出力用類似ピッチパターンを生成する。
Next, another configuration example of the similar pitch
The
さらに、類似ピッチパターン提示部24に、ユーザが入力する類似ピッチパターンの選択指示を受け付けるトリガー入力部24cを設けてもよい。類似ピッチパターン提示部24は選択された類似ピッチパターンを出力用類似ピッチパターンとして出力装置3に出力する。
Further, the similar pitch
さらに、類似ピッチパターン提示部24に、ユーザが類似ピッチパターンを絞り込む絞込み部24dを設けても良い。例えば、ユーザは絞込み部24dにより「声の高さが発声に近い」や「声の高さが変化する部分が発声に近い」などの条件で類似ピッチパターンを絞り込み、絞り込み後のピッチパターンを出力用類似ピッチパターンとして出力装置3に出力する。
Further, the similar pitch
以上のように、この実施の形態1によれば、ユーザの発声に基づく音声データから肉声ピッチ情報を抽出する肉声ピッチ情報抽出部21と、肉声ピッチ情報とピッチパターン辞書23に記憶された蓄積ピッチパターンから類似度を算出する類似度算出部22aを有し、肉声ピッチ情報に近い蓄積ピッチパターンを1つ以上検索する類似ピッチパターン検索部22と、ユーザが選択した類似ピッチパターンをピッチパターンとして出力するピッチパターン出力部25を備えるように構成したので、抽出誤りの補正などの整備を行った肉声のピッチパターンを複数格納したピッチパターン辞書23から、入力された音声データの肉声ピッチ情報に近いピッチパターンを検索することが可能となり、自然性の高いピッチパターンを生成することができる。
As described above, according to the first embodiment, the real voice pitch
また、この実施の形態1によれば、入力された音声データの肉声ピッチ情報に近い蓄積ピッチパターンを選択する類似ピッチパターン検索部22を備えるように構成したので、未知語や新語など類似したテキストデータの蓄積ピッチパターンが無い場合にも、自然性の高いピッチパターンを生成することができる。
Moreover, according to this Embodiment 1, since it comprised so that the similar pitch
さらに、この実施の形態1によれば、音声データから抽出した肉声ピッチ情報の抽出誤りの補正などの整備を行った肉声のピッチパターンを予め複数格納したピッチパターン辞書23を備え、入力された音声データの肉声ピッチ情報に近いピッチパターンを検索する類似ピッチパターン検索部22を備えるように構成したので、図6に示す説明図のように安定した発声やピッチパターンが得られないユーザおよび収録環境における肉声ピッチ情報からも劣化を含まないピッチパターンを生成することができる。
Furthermore, according to the first embodiment, the
さらに、この実施の形態1では、肉声ピッチ情報抽出部21に、入力されたテキストデータを言語解析し、付加情報を取得する付加情報取得部21aを追加して設けた場合には、表記のみなど入力情報が少ない場合であっても、類似ピッチパターン検索や出力用類似ピッチパターンにおける合成音声の生成に有用な読みや品詞情報などの付加情報を得ることができる。
Further, in the first embodiment, when the additional
さらに、この実施の形態1では、肉声ピッチ情報抽出部21に、入力されたテキストデータから音声認識技術を用いて音韻毎に発声データのセグメンテーションを行うセグメンテーション部21bを追加して設けた場合には、類似ピッチパターン検索においてセグメンテーションされた音韻情報単位での類似ピッチパターン検索が行えるため、類似度計算の精度を向上させることができる。
Further, in the first embodiment, when the real voice pitch
さらに、この実施の形態1では、肉声ピッチ情報抽出部21に、音声データからピッチパターンを生成したい箇所を指定するピッチパターン生成指定部21cを追加して設けた場合には、実際に生成されるピッチパターンが利用される文を発声し、前後の言語環境まで考慮した発声から肉声ピッチ情報を抽出することができるので、前後の繋がりがよく、自然性の高いピッチパターンを生成することができる。
Further, in the first embodiment, when the real pitch
さらに、この実施の形態1では、類似ピッチパターンの検索において、肉声ピッチ情報内あるいはピッチパターン辞書23内の蓄積ピッチパターンの複数の有声音区間を連接して一つの区間として類似度を計算した場合には、部分的な有声/無声の発声誤りやピッチの抽出誤りにより抽出された肉声ピッチ情報の有声音区間が分割あるいは統合されている場合にも、本来所望されるピッチパターンに近いピッチパターンを検索できる。
Furthermore, in the first embodiment, in the search for similar pitch patterns, when similarity is calculated as a single segment by concatenating a plurality of voiced sound intervals of accumulated pitch patterns in the real voice pitch information or in the
さらに、この実施の形態1では、類似ピッチパターン検索において類似度の計算の際にすべての区間の距離、尤度を用いずに一部の区間の距離、尤度を用いるように構成した場合には、部分的な有声/無声の発声誤りやピッチの抽出誤りを持つと推測される区間を除いた区間から類似度を計算することができる。 Further, in the first embodiment, when similarities are calculated in similarity pitch pattern search, the distances and likelihoods of some sections are used without using the distances and likelihoods of all sections. Can calculate the similarity from the section excluding the section estimated to have partial voiced / unvoiced utterance errors and pitch extraction errors.
さらに、この実施の形態1では、類似ピッチパターンの検索において、肉声ピッチ情報の他にテキストデータを併せて検索に利用するように構成した場合には、肉声ピッチ情報とピッチパターンの類似度が高くなりやすいと想定されるピッチパターン辞書23内のテキストデータに検索対象を絞ることができ、検索処理量の削減、あるいはテキストデータが近い蓄積ピッチパターンを検索することにより遷移の類似したピッチパターンが得られやすくなり類似ピッチパターンの検索精度を向上させることができる。
Furthermore, in the first embodiment, in the search for the similar pitch pattern, when the text data is used together with the real voice pitch information for the search, the similarity between the real voice pitch information and the pitch pattern is high. The search target can be narrowed down to the text data in the
さらに、この実施の形態1では、類似ピッチパターンの検索において、肉声ピッチ情報に合わせて蓄積ピッチパターンの話速や平均ピッチ、ピッチの変化幅などを加工するように構成した場合には、蓄積ピッチパターンと大きく異なる異性などの肉声ピッチ情報でも、肉声ピッチ情報に近いピッチパターンを生成することができる。 Furthermore, in the first embodiment, in the search for similar pitch patterns, when the configuration is such that the speaking speed, average pitch, pitch change width, etc. of the accumulated pitch pattern are processed according to the real voice pitch information, the accumulated pitch A pitch pattern close to the real voice pitch information can be generated even with real voice pitch information such as the opposite sex greatly different from the pattern.
さらに、この実施の形態1では、類似ピッチパターン提示部24の出力変換部24aに、生成するピッチパターンのテキストデータに加えてその前後のテキストデータを与え、それらのピッチパターンを併せて出力用類似ピッチパターンとして構成するテキストデータ合成部24bを追加して設けた場合には、実際に生成されるピッチパターンが利用される文における前後の言語環境まで考慮した類似ピッチパターンの確認ができ、前後と繋がりが良く、自然性の高い類似ピッチパターンを選択することができる。
Furthermore, in this Embodiment 1, in addition to the text data of the pitch pattern to produce | generate, the text data before and behind that is given to the
さらに、この実施の形態1では、類似ピッチパターン提示部24に、ユーザから出力する類似ピッチパターンの選択を受け付けるトリガー入力部24cを追加して設けた場合には、すべての類似ピッチパターンの出力用類似ピッチパターンを生成しなくて良いため、処理量を削減することができる。また、類似ピッチパターンを再度確認したい場合など、操作や手順を簡単にすることができる。
Furthermore, in the first embodiment, when the similar pitch
さらに、この実施の形態1では、類似ピッチパターン提示部24に、ユーザの所望する条件で提示される類似ピッチパターンを絞り込む絞込み部24dを追加して設けた場合には、処理量の削減およびユーザの類似ピッチパターン選択を容易に行うことができる。
Further, in the first embodiment, when the similar pitch
さらに、この実施の形態1では、類似ピッチパターン提示部24の出力変換部24aが、合成音声を出力してユーザが確認できる形式で出力するように構成したので、実際に生成されるピッチパターンが利用される合成音声をユーザが聴覚的に考慮して選択することができ、ピッチなどの音声情報に関する専門知識や経験が無いユーザでも容易にピッチパターン生成が可能になる。
Furthermore, in the first embodiment, the
なお、この実施の形態1ではピッチパターンを用いて説明したが、これに限ることは無く、例えば、ピッチパターンを制御するためのパラメータに対して行うことも可能である。 In the first embodiment, the pitch pattern has been described. However, the present invention is not limited to this, and for example, it can be performed on a parameter for controlling the pitch pattern.
なお、この実施の形態1ではピッチ情報及びピッチパターンとしてピッチのみを扱うピッチ情報及びピッチパターンを用いて説明したが、ピッチ以外にも音韻継続長やパワーなど、その他のピッチを組み合わせたピッチ情報及びピッチパターンでも適用可能である。 In the first embodiment, the pitch information and the pitch pattern that handle only the pitch as the pitch information and the pitch pattern have been described. However, in addition to the pitch, the pitch information that combines other pitches such as phonological continuation length and power, and A pitch pattern is also applicable.
なお、この実施の形態1では入力言語として日本語を用いて説明しているが、英語や中国語などの他言語においても適用可能である。 In the first embodiment, the description is made using Japanese as the input language, but the present invention can also be applied to other languages such as English and Chinese.
実施の形態2.
上記実施の形態1において示したピッチパターン生成装置では肉声ピッチ情報抽出部21が抽出した肉声ピッチ情報をそのまま類似ピッチパターン検索に用いる構成を示したが、この実施の形態2では、肉声ピッチ情報をピッチパターン辞書23の蓄積ピッチパターンに近づけるように加工処理を行った後、類似ピッチパターン検索に用いる構成を示す。
In the pitch pattern generation device shown in the first embodiment, the configuration in which the real voice pitch information extracted by the real voice pitch
図7は、実施の形態2によるピッチ(韻律)パターン生成装置を有する音声合成システムの構成を示すブロック図であり、実施の形態1のピッチパターン生成装置2に肉声ピッチ情報加工部(肉声韻律情報加工部)26を追加して設けている。なお以下では、実施の形態1に係る音声合成システムの構成要素と同一または相当する部分には実施の形態1で使用した符号と同一の符号を付して説明を省略または簡略化する。
FIG. 7 is a block diagram showing a configuration of a speech synthesis system having a pitch (prosody) pattern generation apparatus according to the second embodiment. The pitch
肉声ピッチ情報抽出部21は、抽出した肉声ピッチ情報を肉声ピッチ情報加工部26に出力する。肉声ピッチ情報加工部26は、肉声ピッチ情報抽出部21から入力される肉声ピッチ情報に対して蓄積ピッチパターンに近づけるように平均ピッチなどを加工し、加工肉声ピッチ情報として類似ピッチパターン検索部22に出力する。類似ピッチパターン検索部22は、肉声ピッチ情報加工部26から入力される加工肉声ピッチ情報を基に、ピッチパターン辞書23から肉声ピッチ情報の部分あるいは全体に類似した蓄積ピッチパターンを検索する。そして検索された蓄積ピッチパターンを類似ピッチパターンとして類似ピッチパターン提示部24に出力する。
The real voice pitch
次に、肉声ピッチ情報加工部26の具体的な加工方法を以下に挙げる。
A.肉声ピッチ情報の平均ピッチを検索対象のピッチパターン辞書23の平均ピッチと一致するように調整する。これにより、異性などのピッチの大きく異なる発声が入力された場合にも検索することができる。
B.肉声ピッチ情報のピッチ変化幅を検索対象のピッチパターン辞書23のピッチ変化幅に合せて調整する。これにより異性などのピッチの大きく異なる発声であっても検索することができる。
C.肉声ピッチ情報(音声)の平均時間長を検索対象のピッチパターン辞書23の発声の平均時間長に合せて時間軸上で伸縮させる。これにより、話速の大きく異なる発声であっても検索することができる。
D.上記AからCのように肉声ピッチ情報の平均値や変化幅を基準に加工するのではなく、ユーザが故意に韻律を変化(高めや低め、速めや遅めなど)させて発声している場合を考慮して、予め設定されたパラメータを基準として肉声ピッチ情報を加工してもよい。
E.入力された肉声ピッチ情報において抽出誤りと考えられるピッチを補正し、加工肉声ピッチ情報とする。
例えば、周囲のピッチとの比較、ユーザの音域から倍ピッチや半ピッチと想定されるピッチの区間、無声化あるいは声のもれ込みなどによる局所的にピッチが抽出されている区間、および声の震えによりピッチのふらついている区間など、抽出された肉声ピッチ情報が異常であると推定される区間について、周囲のピッチからの補間や平均化処理を行う、あるいは類似ピッチパターン検索部22において検索時に考慮しない区間として設定する。
F.予めユーザの発声において劣化しやすいピッチ特徴を想定し、それらを補う変換ポリシーを用いて加工肉声ピッチ情報を一つ以上生成する。例えば、抑揚が大きく(小さく)なりすぎる場合を想定しピッチパターンの変化幅を小さく(大きく)する、長い文ほど話速が早くなりやすい場合を想定し話速を遅くする、楽しげな発声のピッチパターン辞書23に対し暗い発声になる場合を想定し語頭から語末まで高いピッチを維持するように加工するなどである。
G.肉声ピッチ情報抽出部21から入力される肉声ピッチ情報に加えて、発声の読みや有声無声情報や音韻継続長などのテキストデータを入力し、このテキストデータを組み合わせた補間処理を行う。例えば、テキストデータから本来有声的な発声である母音連鎖区間内にも関わらずピッチの無い区間が存在した場合、ピッチの欠落あるいは抽出誤りと判断しピッチの補間を行う。
Next, a specific processing method of the real voice pitch
A. The average pitch of the real voice pitch information is adjusted to match the average pitch of the
B. The pitch change width of the real voice pitch information is adjusted according to the pitch change width of the
C. The average time length of the real voice pitch information (speech) is expanded or contracted on the time axis according to the average time length of the utterance in the
D. When the user intentionally changes the prosody (higher or lower, faster or slower, etc.) instead of processing based on the average value or range of the real voice pitch information as in A to C above. In consideration of the above, the real voice pitch information may be processed based on a preset parameter.
E. The pitch considered to be an extraction error in the input real voice pitch information is corrected to obtain processed real voice pitch information.
For example, comparison with surrounding pitches, sections of pitches that are assumed to be double pitch or half pitch from the user's range, sections in which pitches are locally extracted by devoicing or voice leakage, and voice For sections where the extracted real voice pitch information is estimated to be abnormal, such as sections where the pitch fluctuates due to tremors, interpolation or averaging is performed from surrounding pitches, or when similar pitch
F. One or more pieces of processed real voice pitch information are generated using a conversion policy that compensates for pitch characteristics that are likely to deteriorate in the user's utterance in advance. For example, it is assumed that the inflection is too large (small) and the pitch pattern change width is small (large). The longer the sentence, the slower the speech speed. For example, the
G. In addition to the real voice pitch information input from the real voice pitch
次に、この実施の形態2のピッチパターン生成装置の動作を図8のフローチャートに従って説明する。なお、実施の形態1と同一の処理を行うステップには図3で使用した符号と同一の符号を付し、説明を省略または簡略化する。
肉声ピッチ情報抽出部21は、抽出したピッチ情報をテキスト入力部12から入力されたテキストデータに対応付け、肉声ピッチ情報として肉声ピッチ情報加工部26に出力する(ステップST11)。
Next, the operation of the pitch pattern generation apparatus according to the second embodiment will be described with reference to the flowchart of FIG. Note that the same reference numerals as those used in FIG. 3 are assigned to steps performing the same processing as in the first embodiment, and description thereof will be omitted or simplified.
The real voice pitch
肉声ピッチ情報加工部26は、ステップST11において入力された肉声ピッチ情報の解析を行い、平均ピッチの補正、変化幅の大きさの補正および抽出誤りと推定される箇所の補正など、ピッチパターン辞書23内の蓄積ピッチパターンに近づける加工を施し、加工肉声ピッチ情報として類似ピッチパターン検索部22に出力する(ステップST12)。類似ピッチパターン検索部22の類似度算出部22aは、ステップST12において加工肉声ピッチ情報が入力されると、ピッチパターン辞書23から蓄積ピッチパターンを読み出し、読み出した各蓄積ピッチパターンと入力された加工肉声ピッチ情報の類似度を算出する(ステップST13)。
以降の処理は、実施の形態1と同様であるため、説明を省略する。
The real voice pitch
Since the subsequent processing is the same as that of the first embodiment, description thereof is omitted.
以上のように、この実施の形態2によれば、肉声ピッチ情報をピッチパターン辞書23内の蓄積ピッチパターンに近づける加工を行う肉声ピッチ情報加工部26を設け、加工した肉声ピッチ情報を類似ピッチパターン検索に利用するように構成したので、異性や話調などのピッチパターン辞書23内の蓄積ピッチパターンとは大きく異なるユーザの肉声ピッチ情報であっても、類似ピッチパターン検索に利用することができる。
As described above, according to the second embodiment, the real voice pitch
また、この実施の形態2によれば、入力された肉声ピッチ情報において抽出誤りと考えられるピッチを補正し、加工肉声ピッチ情報として類似ピッチパターン検索に利用するように構成したので、安定した発声やピッチが得られないユーザおよび収録環境における肉声ピッチ情報からの類似ピッチパターンの検索精度を向上させることができる。これにより、読み直しなどのユーザの負担を軽減することができる。 In addition, according to the second embodiment, the pitch that is considered to be an extraction error in the input real voice pitch information is corrected and used as a similar pitch pattern search as processed real voice pitch information. It is possible to improve the search accuracy of the similar pitch pattern from the user who cannot obtain the pitch and the real voice pitch information in the recording environment. Thereby, a user's burden, such as re-reading, can be reduced.
さらに、この実施の形態2によれば、肉声ピッチ情報の加工において、肉声ピッチ情報の平均値や変化幅を基準に加工するのではなく、予め設定されたパラメータを基準に加工するように構成したので、ユーザが故意にピッチを変化(高めや低め、速めや遅めなど)させて発声している場合であっても、当該変化を反映させた加工を行った上で類似ピッチパターン検索に利用することができる。 Further, according to the second embodiment, in the processing of the real voice pitch information, the processing is not performed based on the average value or the change width of the real voice pitch information, but is processed based on a preset parameter. Therefore, even when the user intentionally changes the pitch (higher or lower, faster or slower) and uses it for similar pitch pattern search after processing that reflects the change. can do.
さらに、この実施の形態2によれば、ユーザの発声において劣化しやすいピッチ特徴(例えば抑揚が大きくなりやすいなど)を補う変換ポリシーを用いて肉声ピッチ情報を加工するように構成したので、ユーザが通常の発声方法を変えることなく肉声ピッチ情報をピッチパターン辞書23内の蓄積ピッチパターンに近づけることができる。
Further, according to the second embodiment, since the configuration is such that the real voice pitch information is processed using the conversion policy that compensates for the pitch characteristics that are likely to deteriorate in the user's utterance (for example, the inflection tends to be large), the user can The real voice pitch information can be brought close to the accumulated pitch pattern in the
さらに、この実施の形態2によれば、肉声ピッチ情報に加えて、発声の読みや有声無声情報や音韻継続長などのテキストデータを入力し、このテキストデータと組み合わせて補正処理を行うように構成したので、無声音区間あるいは有声音区間の数の不一致からのピッチ抽出誤りの有無の検出や、音韻継続長から有声音区間におけるピッチ抽出誤り箇所の特定及び推測を行うことができ、補正精度を向上させることができる。 Further, according to the second embodiment, in addition to the real voice pitch information, text data such as utterance reading, voiced / unvoiced information, and phoneme duration is input, and correction processing is performed in combination with the text data. Therefore, it is possible to detect the presence or absence of pitch extraction error from the mismatch of the number of unvoiced sound sections or voiced sound sections, and to identify and estimate the location of pitch extraction errors in the voiced sound section from the phoneme duration, improving the correction accuracy Can be made.
なお、上記実施の形態2では、肉声ピッチ情報加工部26が肉声ピッチ情報を加工する構成を示したが、ユーザが肉声ピッチ情報を加工する手段を設けても良い。これにより、ユーザ自身が発声の誤りあるいはピッチ抽出誤りに伴う肉声ピッチ情報の修正を適切に行うことができる。
In the second embodiment, the configuration in which the real voice pitch
なお、上記実施の形態2では、肉声ピッチ情報に1つの加工を施す構成を示したが、肉声ピッチ情報に複数の加工を施すように構成してもよい。これにより、類似ピッチパターン検索において検索される類似ピッチパターンの数およびバリエーションが増加し、ユーザの所望に近いピッチパターンを生成し易くなる。 In the second embodiment, a configuration is shown in which one processing is performed on the real voice pitch information. However, a plurality of processing may be performed on the real voice pitch information. Thereby, the number and variation of the similar pitch patterns searched in the similar pitch pattern search increase, and it becomes easy to generate a pitch pattern close to the user's desire.
なお、この実施の形態2ではピッチパターンを用いて説明したが、これに限ることは無く、例えば、ピッチパターンを制御するためのパラメータに対して行うことも可能である。 Although the second embodiment has been described using the pitch pattern, the present invention is not limited to this, and for example, it can be performed on a parameter for controlling the pitch pattern.
なお、この実施の形態2ではピッチ情報及びピッチパターンとしてピッチのみを扱うピッチ情報及びピッチパターンを用いて説明したが、ピッチ以外にも音韻継続長やパワーなど、その他のピッチを組み合わせたピッチ情報及びピッチパターンでも適用可能である。 In the second embodiment, the pitch information and the pitch pattern that handle only the pitch as the pitch information and the pitch pattern have been described. However, in addition to the pitch, the pitch information that combines other pitches such as phonological continuation length and power, and A pitch pattern is also applicable.
実施の形態3.
上記実施の形態1および2では、類似ピッチパターン検索部22が検索した類似ピッチパターンをそのままユーザに提示するあるいはピッチパターンとして出力する構成を示したが、この実施の形態3では、類似ピッチパターン検索部22が検索した類似ピッチパターンに加工を施してより肉声ピッチ情報に近づけた後、ユーザに提示するあるいはピッチパターンとして出力する構成を示す。
In the first and second embodiments, the configuration in which the similar pitch pattern searched by the similar pitch
図9は、実施の形態3によるピッチ(韻律)パターン生成装置の構成を示すブロック図であり、実施の形態2のピッチパターン生成装置2にピッチパターン候補生成部(韻律パターン候補生成部)27を追加して設けている。なお以下では、実施の形態1および実施の形態2によるピッチパターン生成装置の構成要素と同一または相当する部分には実施の形態1および実施の形態2で使用した符号と同一の符号を付して説明を省略または簡略化する。
FIG. 9 is a block diagram showing the configuration of the pitch (prosody) pattern generation apparatus according to the third embodiment. A pitch pattern candidate generation unit (prosody pattern candidate generation unit) 27 is added to the pitch
類似ピッチパターン検索部22は、肉声ピッチ情報抽出部21から入力された肉声ピッチ情報を基に、ピッチパターン辞書23から肉声ピッチ情報の部分あるいは全体に類似した蓄積ピッチパターンを1つ以上検索する。検索した蓄積ピッチパターンを類似ピッチパターンとしてピッチパターン候補生成部27に出力する。ピッチパターン候補生成部27は、類似ピッチパターン検索部22から入力される類似ピッチパターンを加工し、入力された音声データの肉声ピッチ情報に近い1つ以上のピッチパターンの候補を生成して新たな類似ピッチパターンの一つとし、類似ピッチパターン提示部24に出力する。
Based on the real voice pitch information input from the real voice pitch
次に、この実施の形態3のピッチパターン生成装置の動作を図10のフローチャートに従って説明する。なお、実施の形態2と同一の処理を行うステップには図8で使用した符号と同一の符号を付し、説明を省略または簡略化する。
類似ピッチパターン検索部22は、ステップST13で算出した類似度に基づき、肉声ピッチ情報の部分(例えば、連続する有声音区間の単位)あるいは全体に類似したピッチパターンを1つ以上検索し、類似ピッチパターンとして類似ピッチパターン候補生成部27に出力する(ステップST21)。
Next, the operation of the pitch pattern generation apparatus according to the third embodiment will be described with reference to the flowchart of FIG. Note that the same reference numerals as those used in FIG. 8 are attached to steps for performing the same processing as in the second embodiment, and description thereof will be omitted or simplified.
Based on the similarity calculated in step ST13, the similar pitch
ピッチパターン候補生成部27は、ステップST21で入力された類似ピッチパターンを加工し、肉声ピッチ情報に近い類似ピッチパターンを生成して類似ピッチパターン提示部24に出力する(ステップST22)。
以降の処理は、実施の形態1および2と同様のため、説明を省略する。
The pitch pattern
Since the subsequent processing is the same as in the first and second embodiments, description thereof is omitted.
次に、ピッチパターン候補生成処理の具体例を示す。図11は、この実施の形態3によるピッチ(韻律)パターン生成装置のピッチパターン候補生成処理を示す説明図である。
ピッチパターン候補生成処理は、例えば複数の類似ピッチパターンを接続し、入力装置1に入力された音声データの肉声ピッチ情報に近い1つ以上のピッチパターン候補を生成する。図11の例において、「インターチェンジ」という発生の肉声ピッチ情報が入力された場合に、類似ピッチパターン検索部22はピッチパターン辞書23から1および2番目の有声音区間に当たる「インター」の肉声ピッチ情報に類似した「演奏」という2つの有声音区間を持つ発声の類似ピッチパターンと、3および4番目の有声音区間に当たる「チェンジ」の肉声ピッチ情報に類似した「ハイツ」という2つの有声音区間を持つ発声の類似ピッチパターンを検索し、ピッチパターン候補生成部27に出力する。ピッチパターン候補生成部27は、入力された2つの類似ピッチパターンを接続し、「インターチェンジ」という肉声ピッチ情報に近い新たな類似ピッチパターンを得る。
Next, a specific example of the pitch pattern candidate generation process is shown. FIG. 11 is an explanatory view showing pitch pattern candidate generation processing of the pitch (prosodic) pattern generation device according to the third embodiment.
In the pitch pattern candidate generation process, for example, a plurality of similar pitch patterns are connected, and one or more pitch pattern candidates close to the real voice pitch information of the audio data input to the input device 1 are generated. In the example of FIG. 11, when the generated real voice pitch information “interchange” is inputted, the similar pitch
図11において示した有声音区間の数に基づき類似ピッチパターンを接続する以外にも、以下の処理方法を適用することができる。
a.音素や音節、単語、および文章単位で区切られた肉声ピッチ情報およびピッチパターン辞書23内のピッチパターンが得られれば、それらの単位を利用して類似ピッチパターンを接続する。
b.ピッチパターンの接続は、そのまま接続する以外にも、接続部の遷移が滑らかになるようにスムージング処理あるいは補間処理を行いピッチを変形してから接続してもよい。
c.接続する類似ピッチパターン同士の平均ピッチやピッチの変化幅の話速の繋がりがよくなるように変形してから接続する。
d.生成するピッチパターンのテキストデータに加えてその前後のテキストデータを与え、類似ピッチパターンと前後のピッチパターンの接続部のピッチに平滑化あるいはスムージング処理などの加工を行う。
e.ユーザが類似ピッチパターンの修正を行う手段を設け、たとえば局所的なピッチの修正や、肉声ピッチ情報と類似ピッチパターンの重み付け加算による補間を行う。
f.ユーザの指摘箇所(時間情報や音韻情報など)とユーザの指摘内容(アクセント位置や声の高さ、抑揚など)を入力として、指摘箇所及び指摘内容における差分をつけた類似ピッチパターンの加工を行う。
In addition to connecting similar pitch patterns based on the number of voiced sound sections shown in FIG. 11, the following processing method can be applied.
a. If the real voice pitch information divided in units of phonemes, syllables, words, and sentences and the pitch patterns in the
b. In addition to connecting the pitch pattern as it is, the pitch pattern may be connected after the smoothing process or the interpolation process is performed so that the transition of the connection portion is smooth and the pitch is changed.
c. The connection is made after deformation so that the average pitch of similar pitch patterns to be connected and the speaking speed of the change width of the pitch are improved.
d. In addition to the text data of the pitch pattern to be generated, the text data before and after the text data are given, and the pitch of the connection portion between the similar pitch pattern and the front and back pitch patterns is subjected to processing such as smoothing or smoothing processing.
e. The user provides means for correcting the similar pitch pattern, and performs, for example, local pitch correction or interpolation by weighted addition of the real voice pitch information and the similar pitch pattern.
f. Using the user's pointed location (time information, phonological information, etc.) and the user's pointed content (accent position, voice pitch, intonation, etc.) as input, process similar pitch patterns with differences in the pointed location and pointed content .
以上のように、この実施の形態3によれば、類似ピッチパターン検索部22において検索された類似ピッチパターンに対して、部分的な類似ピッチパターンを組み合わせて入力音声データの肉声ピッチ情報に近づける加工を行って類似ピッチパターンの一つとするピッチパターン候補生成部27を設けるように構成したので、同規模のピッチパターン辞書であっても類似ピッチパターンのバリエーションが増加し、肉声ピッチ情報に近い類似ピッチパターンがより得られ易くなる。
As described above, according to the third embodiment, the similar pitch pattern searched by the similar pitch
また、この実施の形態3によれば、部分的な類似ピッチパターンを組み合わせる際に、接続部の遷移が滑らかになるようにピッチの変形を行ってから接続するように構成した場合、前後の言語環境が異なる発声の類似ピッチパターン同士の接続による不連続感を解消することができる。 Further, according to the third embodiment, when combining similar partial pitch patterns, if the connection is made after changing the pitch so that the transition of the connection portion is smooth, Discontinuity caused by connection of similar pitch patterns of utterances in different environments can be eliminated.
また、この実施の形態3によれば、部分的な類似ピッチパターンを組み合わせる際に、各類似ピッチパターンの平均ピッチやピッチの変化幅や話速を繋がりが良くなるように変形してから接続するようにした場合、肉声ピッチ情報との類似度は高いが抑揚などが異なる類似ピッチパターン同士の接続においても、繋がりが良く自然性の高い類似ピッチパターンを生成することができる。 Further, according to the third embodiment, when partial similar pitch patterns are combined, the average pitch of each similar pitch pattern, the change width of the pitch, and the speech speed are deformed so as to improve the connection and then connected. In such a case, a similar pitch pattern having a good connection and high naturalness can be generated even in the connection of similar pitch patterns having high similarity to the real voice pitch information but different inflections.
また、この実施の形態3によれば、ピッチパターン候補生成において、生成する類似ピッチパターンのテキストデータに加えてその前後のテキストデータを与え、生成する類似ピッチパターンと前後のピッチパターンとの接続部のピッチを接続性が良くなるように加工するように構成した場合には、実際に生成されるピッチパターンが利用される文における前後の言語環境まで考慮し、繋がりが良く自然性の高い類似ピッチパターンの生成が可能になる。 Further, according to the third embodiment, in the generation of pitch pattern candidates, in addition to the text data of the similar pitch pattern to be generated, the text data before and after the text data is given, and the connection portion between the generated similar pitch pattern and the front and rear pitch patterns If the pitch is processed so as to improve the connectivity, the similar pitch with good connection and naturalness will be taken into consideration even before and after the language environment in the sentence where the actually generated pitch pattern is used A pattern can be generated.
また、この実施の形態3によれば、ピッチパターン候補の生成において、ユーザが類似ピッチパターンを修正する手段を備えるように構成した場合、ユーザの所望するピッチパターンを容易に生成することができる。 Further, according to the third embodiment, when the pitch pattern candidate is generated so that the user includes a means for correcting the similar pitch pattern, the pitch pattern desired by the user can be easily generated.
なお、ここではピッチパターン候補生成部27で生成されたピッチパターンが選択された場合に、ピッチパターン辞書23に記憶させ、新しいピッチパターンとして検索に利用するように構成してもよい。ピッチパターンのバリエーションが増加すると共に、ユーザの個性が反映されたピッチパターンをピッチパターン辞書23に追加することができる。
Here, when the pitch pattern generated by the pitch pattern
なお、上記実施の形態3では、実施の形態2のピッチパターン生成装置にピッチパターン候補生成部27を追加して設ける構成を示したが、実施の形態1のピッチパターン生成装置にピッチパターン候補生成部27を追加して設けてもよい。
In the third embodiment, the pitch pattern
なお、この実施の形態3ではピッチパターンを用いて説明したが、これに限ることは無く、例えば、ピッチパターンを制御するためのパラメータに対して行うことも可能である。 In the third embodiment, the pitch pattern has been described. However, the present invention is not limited to this, and for example, it can be performed on a parameter for controlling the pitch pattern.
なお、この実施の形態3ではピッチ情報及びピッチパターンとしてピッチのみを扱うピッチ情報及びピッチパターンを用いて説明したが、ピッチ以外にも音韻継続長やパワーなど、その他のピッチを組み合わせたピッチ情報及びピッチパターンでも適用可能である。 In the third embodiment, the pitch information and the pitch pattern that handle only the pitch are described as the pitch information and the pitch pattern. However, in addition to the pitch, the pitch information that combines other pitches such as phonological continuation length and power, and A pitch pattern is also applicable.
1 入力装置、2 ピッチパターン生成装置、3 出力装置、11 音声入力部、12 テキスト入力部、13 ピッチパターン選択部、21 肉声ピッチ情報抽出部、21a 付加情報取得部、21b セグメンテーション部、21c ピッチパターン生成指定部、22 類似ピッチパターン検索部、22a 類似度算出部、23 ピッチパターン辞書、24 類似ピッチパターン提示部、24a 出力変換部、24b テキストデータ合成部、24c トリガー入力部、24d 絞込み部、25 ピッチパターン出力部、26 肉声ピッチ情報加工部、27 ピッチパターン候補生成部、31 類似ピッチパターン出力部、100 音声合成システム。 DESCRIPTION OF SYMBOLS 1 Input device, 2 Pitch pattern production | generation apparatus, 3 Output device, 11 Voice input part, 12 Text input part, 13 Pitch pattern selection part, 21 Real voice pitch information extraction part, 21a Additional information acquisition part, 21b Segmentation part, 21c Pitch pattern Generation designation unit, 22 Similar pitch pattern search unit, 22a Similarity calculation unit, 23 Pitch pattern dictionary, 24 Similar pitch pattern presentation unit, 24a Output conversion unit, 24b Text data synthesis unit, 24c Trigger input unit, 24d Narrowing unit, 25 Pitch pattern output unit, 26 Real voice pitch information processing unit, 27 Pitch pattern candidate generation unit, 31 Similar pitch pattern output unit, 100 Speech synthesis system.
Claims (3)
出し、前記韻律情報を前記テキストデータに対応付けた肉声韻律情報を生成する肉声韻律
情報抽出部と、
複数の韻律パターンを格納する韻律パターン辞書と、
前記韻律パターン辞書から、前記肉声韻律情報の部分あるいは全体に類似した韻律パターンを1つ以上検索して類似韻律パターンとして出力する類似韻律パターン検索部と、
前記肉声韻律情報抽出部から入力される前記肉声韻律情報に対して、前記韻律パターン辞書に格納された韻律パターンに近似させる加工を行い、前記類似韻律パターン検索部に出力する肉声韻律情報加工部と、
前記類似韻律パターンをユーザが認識可能な形式に変換して提示し、前記ユーザに前記
類似韻律パターンの選択を要求する類似韻律パターン提示部と、
前記類似韻律パターン提示部が提示した前記類似韻律パターンのうち、前記ユーザが選
択した類似韻律パターンを出力する韻律パターン出力部とを備えたことを特徴とする韻律パターン生成装置。 A real voice prosody information extraction unit that accepts input of voice data and text data, extracts prosody information from the voice data, and generates real voice prosody information in which the prosody information is associated with the text data;
A prosodic pattern dictionary storing a plurality of prosodic patterns;
A similar prosodic pattern search unit that searches one or more prosodic patterns similar to part or the whole of the real voice prosodic information from the prosodic pattern dictionary and outputs them as similar prosodic patterns;
The real voice prosody information input from the real voice prosody information extraction unit is processed to approximate the prosody pattern stored in the prosodic pattern dictionary, and is output to the similar prosody pattern search unit; ,
A similar prosodic pattern presenting unit that presents the similar prosodic pattern converted into a user-recognizable format and requests the user to select the similar prosodic pattern;
A prosodic pattern generation device comprising: a prosodic pattern output unit that outputs a similar prosodic pattern selected by the user among the similar prosodic patterns presented by the similar prosodic pattern presentation unit.
出し、前記韻律情報を前記テキストデータに対応付けた肉声韻律情報を生成する肉声韻律
情報抽出部と、
複数の韻律パターンを格納する韻律パターン辞書と、
前記韻律パターン辞書から、前記肉声韻律情報の部分あるいは全体に類似した韻律パターンを1つ以上検索して類似韻律パターンとして出力する類似韻律パターン検索部と、
前記類似韻律パターンをユーザが認識可能な形式に変換して提示し、前記ユーザに前記
類似韻律パターンの選択を要求する類似韻律パターン提示部と、
前記類似韻律パターンを加工し、前記肉声韻律情報に近似する韻律パターン候補を1つ以上生成し、当該韻律パターン候補を前記類似韻律パターンとして前記類似韻律パターン提示部に出力する韻律パターン候補生成部と、
前記類似韻律パターン提示部が提示した前記類似韻律パターンのうち、前記ユーザが選
択した類似韻律パターンを出力する韻律パターン出力部とを備えたことを特徴とする韻律
パターン生成装置。 Accepts input of speech data and text data and extracts prosodic information from the speech data
And generating real voice prosody information in which the prosody information is associated with the text data.
An information extractor;
A prosodic pattern dictionary storing a plurality of prosodic patterns;
A similar prosodic pattern search unit that searches one or more prosodic patterns similar to part or the whole of the real voice prosodic information from the prosodic pattern dictionary and outputs them as similar prosodic patterns;
The similar prosodic pattern is converted into a user-recognizable format and presented to the user.
A similar prosodic pattern presentation unit that requests selection of a similar prosodic pattern;
Processing the similar prosodic pattern, and the real voice prosody pattern candidates approximating to the prosodic information generated one or more prosodic pattern candidate generating unit that outputs the prosody pattern candidate to the similar prosodic pattern presenting unit as the similar prosodic pattern ,
Of the similar prosodic patterns presented by the similar prosodic pattern presentation unit, the user selects
Prosody pattern generator you comprising the prosodic pattern output unit for outputting the-option was similar prosodic patterns.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010066289A JP5328703B2 (en) | 2010-03-23 | 2010-03-23 | Prosody pattern generator |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010066289A JP5328703B2 (en) | 2010-03-23 | 2010-03-23 | Prosody pattern generator |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011197542A JP2011197542A (en) | 2011-10-06 |
JP5328703B2 true JP5328703B2 (en) | 2013-10-30 |
Family
ID=44875789
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010066289A Active JP5328703B2 (en) | 2010-03-23 | 2010-03-23 | Prosody pattern generator |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5328703B2 (en) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017168544A1 (en) * | 2016-03-29 | 2017-10-05 | 三菱電機株式会社 | Prosody candidate presentation device |
CN107731232A (en) * | 2017-10-17 | 2018-02-23 | 深圳市沃特沃德股份有限公司 | Voice translation method and device |
WO2020145353A1 (en) * | 2019-01-10 | 2020-07-16 | グリー株式会社 | Computer program, server device, terminal device, and speech signal processing method |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6118999A (en) * | 1984-07-05 | 1986-01-27 | 日本電気株式会社 | Pitch pattern register |
JP4542400B2 (en) * | 2004-09-15 | 2010-09-15 | 日本放送協会 | Prosody generation device and prosody generation program |
JP4856560B2 (en) * | 2007-01-31 | 2012-01-18 | 株式会社アルカディア | Speech synthesizer |
JP2009053522A (en) * | 2007-08-28 | 2009-03-12 | Panasonic Electric Works Co Ltd | Speech output device |
-
2010
- 2010-03-23 JP JP2010066289A patent/JP5328703B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2011197542A (en) | 2011-10-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4551803B2 (en) | Speech synthesizer and program thereof | |
JP3910628B2 (en) | Speech synthesis apparatus, speech synthesis method and program | |
US20200410981A1 (en) | Text-to-speech (tts) processing | |
JP6266372B2 (en) | Speech synthesis dictionary generation apparatus, speech synthesis dictionary generation method, and program | |
JP4829477B2 (en) | Voice quality conversion device, voice quality conversion method, and voice quality conversion program | |
Bellur et al. | Prosody modeling for syllable-based concatenative speech synthesis of Hindi and Tamil | |
Bettayeb et al. | Speech synthesis system for the holy quran recitation. | |
JP6013104B2 (en) | Speech synthesis method, apparatus, and program | |
Kayte et al. | A Marathi Hidden-Markov Model Based Speech Synthesis System | |
Mukherjee et al. | A bengali hmm based speech synthesis system | |
JP5328703B2 (en) | Prosody pattern generator | |
JP5983604B2 (en) | Segment information generation apparatus, speech synthesis apparatus, speech synthesis method, and speech synthesis program | |
Abdelmalek et al. | High quality Arabic text-to-speech synthesis using unit selection | |
JP5874639B2 (en) | Speech synthesis apparatus, speech synthesis method, and speech synthesis program | |
JP2009133890A (en) | Voice synthesizing device and method | |
Sakti et al. | Development of HMM-based Indonesian speech synthesis | |
JP2009122381A (en) | Speech synthesis method, speech synthesis device, and program | |
Bonafonte et al. | The UPC TTS system description for the 2008 blizzard challenge | |
Chunwijitra et al. | A tone-modeling technique using a quantized F0 context to improve tone correctness in average-voice-based speech synthesis | |
Rouibia et al. | Unit selection for speech synthesis based on a new acoustic target cost. | |
Sawada et al. | The NITECH HMM-based text-to-speech system for the Blizzard Challenge 2015 | |
JP2004054063A (en) | Method and device for basic frequency pattern generation, speech synthesizing device, basic frequency pattern generating program, and speech synthesizing program | |
JP2006084854A (en) | Device, method, and program for speech synthesis | |
Shah et al. | Influence of various asymmetrical contextual factors for TTS in a low resource language | |
Balyan et al. | Development and implementation of Hindi TTS |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20120809 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130415 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130423 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130607 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130625 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130723 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5328703 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |