JP6756607B2 - Accent type judgment device and program - Google Patents
Accent type judgment device and program Download PDFInfo
- Publication number
- JP6756607B2 JP6756607B2 JP2016252329A JP2016252329A JP6756607B2 JP 6756607 B2 JP6756607 B2 JP 6756607B2 JP 2016252329 A JP2016252329 A JP 2016252329A JP 2016252329 A JP2016252329 A JP 2016252329A JP 6756607 B2 JP6756607 B2 JP 6756607B2
- Authority
- JP
- Japan
- Prior art keywords
- accent
- pitch
- mora
- representative value
- calculation unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Machine Translation (AREA)
Description
本発明は、音声波形データから抽出した基本周波数に基づいて、音声のアクセント型を判定する装置及びプログラムに関する。 The present invention relates to a device and a program for determining a voice accent type based on a fundamental frequency extracted from voice waveform data.
従来、統計的な情報を用いて、任意のテキストに対する音声を合成するテキスト音声合成技術が知られている。テキスト音声合成を実現するためには、事前準備として、音声波形データ、その発話内容のテキスト、読み方、アクセント等の情報を多量に用意しておく必要がある。 Conventionally, there is known a text-to-speech synthesis technique for synthesizing speech for arbitrary text using statistical information. In order to realize text-to-speech synthesis, it is necessary to prepare a large amount of information such as voice waveform data, text of the utterance content, reading, accent, etc. as a preliminary preparation.
多量の音声波形データに対し、読み方及びアクセント等を正しく付与する事前準備を行うためには、アナウンサー等の、アクセントを聞き分けることのできる専門家による作業が必要となる。しかし、このような事前準備を行うには、コストがかかるという問題があった。 In order to make advance preparations for correctly assigning readings and accents to a large amount of voice waveform data, work by an announcer or other specialist who can distinguish accents is required. However, there is a problem that it is costly to perform such advance preparation.
この問題を解決するために、音声波形データに対してアクセント型を自動的に判定する手法が提案されている(例えば非特許文献1を参照)。 In order to solve this problem, a method for automatically determining the accent type for voice waveform data has been proposed (see, for example, Non-Patent Document 1).
この非特許文献1に記載された手法は、音声波形データを構成するアクセント句内において、アクセント句を構成するモーラ(子音+母音、母音、促音または撥音)を単位として、各モーラを代表するピッチを求める。そして、隣接するモーラのピッチの差分値により、(モーラ数−1)次元の特徴ベクトルを構成し、同じアクセント型を持つアクセント句の特徴ベクトルを用いて、アクセント型毎に(モーラ数−1)次元の正規分布を求めることにより、モデルを学習する。 The method described in Non-Patent Document 1 is a pitch representing each mora in the accent phrase constituting the voice waveform data in units of the mora (consonant + vowel, vowel, sokuon or syllabary) constituting the accent phrase. Ask for. Then, a feature vector of (mora number -1) dimension is constructed by the difference value of the pitches of adjacent mora, and the feature vector of the accent phrase having the same accent type is used for each accent type (mora number -1). Learn the model by finding the normal distribution of dimensions.
そして、この手法は、判定対象のアクセント句について(モーラ数−1)次元の特徴ベクトルを算出し、学習したモデルを用いて、判定対象のアクセント句の特徴ベクトルに対応するアクセント型を判定する。 Then, this method calculates a (mora number-1) -dimensional feature vector for the accent phrase to be determined, and uses the learned model to determine the accent type corresponding to the feature vector of the accent phrase to be determined.
また、音声波形データのアクセントの種類を判定する手法として、テキスト音声合成を支援することを目的としたものも提案されている(例えば特許文献1を参照)。 Further, as a method for determining the type of accent of voice waveform data, a method for supporting text-speech synthesis has also been proposed (see, for example, Patent Document 1).
この特許文献1に記載された手法は、所定の語句に対応する音声波形データを複数のアクセント句に分割し、判定対象のアクセント句について、アクセント句を構成するモーラを単位とし、ピッチの時間変化の傾き及び最終ピッチを算出する。そして、ピッチの時間変化の傾き及び最終ピッチを用いて、モーラ単位でH(High)、L(Low)、U(Up)及びD(Down)の4種類の評価関数の値を算出する。さらに、アクセント句を構成するモーラ全体の評価関数の値を加算し、その加算値が最大となる組み合わせを求めて、アクセントの種類を判定する。 In the method described in Patent Document 1, the voice waveform data corresponding to a predetermined phrase is divided into a plurality of accent phrases, and the accent phrase to be determined is changed with time in pitch with the mora constituting the accent phrase as a unit. Calculate the slope and final pitch of. Then, the values of four types of evaluation functions, H (High), L (Low), U (Up), and D (Down), are calculated in mora units using the slope of the time change of the pitch and the final pitch. Further, the value of the evaluation function of the entire mora constituting the accent phrase is added, the combination in which the added value is maximized is obtained, and the type of accent is determined.
しかしながら、非特許文献1の手法では、隣接するモーラのピッチの差分値を用いるから、(モーラ数−1)種類のアクセント型しか判定できない。また、特許文献1の手法は、アクセント句についてモーラ単位のH、L、U及びDの評価関数を組み合わせ、その組み合わせに応じてアクセントの種類を判断するものであり、アクセント型を判定するものではない。 However, in the method of Non-Patent Document 1, since the difference value of the pitches of adjacent mora is used, only (number of mora-1) types of accent types can be determined. Further, the method of Patent Document 1 combines evaluation functions of H, L, U, and D in mora units for accent phrases, and determines the type of accent according to the combination, and does not determine the accent type. Absent.
さらに、非特許文献1及び特許文献1のいずれの手法においても、音声波形データを構成する個々のアクセント句のみのピッチに基づいて、アクセント型を判定したり、アクセントの種類を判定したりしている。 Further, in both the methods of Non-Patent Document 1 and Patent Document 1, the accent type is determined and the accent type is determined based on the pitch of only the individual accent phrases constituting the voice waveform data. There is.
アクセント句のアクセント型を正しく判定するためには、アクセント句の区間よりも長いテキストの文章全体またはフレーズ(文節)単位におけるピッチの変動を考慮する必要がある。非特許文献1及び特許文献1の手法のように、個々のアクセント句のみに着目したのでは、必ずしも精度の高いアクセント型を得ることができるとは限らない。 In order to correctly determine the accent type of an accent phrase, it is necessary to consider the fluctuation of the pitch in the whole sentence of the text longer than the interval of the accent phrase or in the phrase (phrase) unit. It is not always possible to obtain a highly accurate accent type by focusing only on individual accent phrases as in the methods of Non-Patent Document 1 and Patent Document 1.
このように、従来の手法では、アクセント型の判定精度が低下するという問題があった。判定した音声のアクセント型は、例えば音声合成の事前学習の際に、音響モデルの一部のデータ(韻律データ)として格納される。そして、任意のテキストに対する音声を合成するテキスト音声合成の際に、この音響モデルが用いられる。アクセント型の判定精度が低下すると、当該アクセント型が学習された音響モデルを用いてテキスト音声合成したときに、音声のアクセントが不自然となり、精度の高い音声合成を実現することができなくなる。 As described above, the conventional method has a problem that the accuracy of the accent type determination is lowered. The determined speech accent type is stored as a part of the acoustic model data (prosody data) at the time of pre-learning of speech synthesis, for example. Then, this acoustic model is used in text-to-speech synthesis for synthesizing speech for arbitrary text. If the determination accuracy of the accent type is lowered, the accent of the voice becomes unnatural when the text voice is synthesized using the acoustic model in which the accent type is learned, and it becomes impossible to realize the voice synthesis with high accuracy.
このため、アクセント型を精度高く判定するために、アクセント句の区間よりも長いテキストの文章全体またはフレーズ単位の音声波形データ全体を考慮する新たな手法が所望されていた。 Therefore, in order to determine the accent type with high accuracy, a new method that considers the entire sentence of the text longer than the interval of the accent phrase or the entire voice waveform data of each phrase has been desired.
そこで、本発明は前記課題を解決するためになされたものであり、その目的は、音声波形データからアクセント型を精度高く判定することが可能なアクセント型判定装置及びプログラムを提供することにある。 Therefore, the present invention has been made to solve the above problems, and an object of the present invention is to provide an accent type determination device and a program capable of accurately determining an accent type from voice waveform data.
前記課題を解決するために、請求項1のアクセント型判定装置は、音声波形データから複数のアクセント句を切り出し、前記アクセント句のアクセント型を判定するアクセント型判定装置において、前記音声波形データからフレーム毎のピッチを算出する音声波形ピッチ算出部と、前記音声波形データから複数のアクセント句を切り出し、前記アクセント句から複数のモーラを切り出し、前記音声波形ピッチ算出部により算出された前記フレーム毎のピッチから、モーラ毎のピッチ代表値を算出し、前記音声波形データの前記アクセント句に含まれる前記モーラ毎のピッチ代表値を出力する第1のピッチ代表値算出部と、前記音声波形データに対応するテキストについて、当該テキストに含まれる文節、アクセント句、モーラ及びアクセント位置の情報を含む文脈依存音素ラベルを作成する音素ラベル作成部と、前記音素ラベル作成部により作成された前記文脈依存音素ラベルに基づいて、前記テキストから複数のアクセント句を切り出し、前記アクセント句から複数のモーラを切り出し、前記アクセント句について、全てのアクセント型を表現するように、当該アクセント句に含まれる前記モーラの数に基づいてアクセント位置を変更し、複数のアクセント型文脈依存音素ラベルを作成するアクセント型ラベル作成部と、前記アクセント型ラベル作成部により作成された前記アクセント型文脈依存音素ラベル毎に、フレーム毎のピッチを、前記テキストの文章全体または文節におけるピッチの変動が反映されたピッチ推定値として求めるピッチ推定部と、前記ピッチ推定部により求めた前記フレーム毎のピッチ推定値から、モーラ毎のピッチ代表値を算出し、前記アクセント型文脈依存音素ラベル毎に、前記テキストの前記アクセント句に含まれる前記モーラ毎のピッチ代表値を出力する第2のピッチ代表値算出部と、前記第1のピッチ代表値算出部により出力された前記音声波形データの前記アクセント句に含まれる前記モーラ毎のピッチ代表値と、前記第2のピッチ代表値算出部により前記アクセント型文脈依存音素ラベル毎に出力された前記テキストの前記アクセント句に含まれる前記モーラ毎のピッチ代表値との間の距離をそれぞれ算出し、前記アクセント型文脈依存音素ラベル毎に、前記距離を出力する距離算出部と、前記距離算出部により前記アクセント型文脈依存音素ラベル毎に出力された前記距離が最小となる前記アクセント型文脈依存音素ラベルを特定し、当該アクセント型文脈依存音素ラベルのアクセント型を、前記アクセント句のアクセント型として判定するアクセント型判定部と、を備えたことを特徴とする。 In order to solve the above problem, the accent type determination device according to claim 1 cuts out a plurality of accent phrases from the voice waveform data, and in the accent type determination device for determining the accent type of the accent phrase, a frame from the voice waveform data. A voice waveform pitch calculation unit that calculates each pitch, a plurality of accent phrases cut out from the voice waveform data, a plurality of mora cut out from the accent phrase, and a pitch for each frame calculated by the voice waveform pitch calculation unit. Corresponds to the first pitch representative value calculation unit that calculates the pitch representative value for each mora and outputs the pitch representative value for each mora included in the accent phrase of the voice waveform data, and the voice waveform data. Based on a phonetic label creation unit that creates a context-dependent phonetic label that includes information on phrases, accent phrases, mora, and accent positions contained in the text, and the context-dependent phonetic label created by the phonetic label creation section. Then, a plurality of accent phrases are cut out from the text, a plurality of mora are cut out from the accent phrase, and the accent clause is based on the number of the mora contained in the accent phrase so as to express all accent types. The pitch for each frame is set for each accent type label creation unit that changes the accent position and creates a plurality of accent type context-dependent phonetic labels, and for each of the accent type context-dependent phoneme labels created by the accent type label creation unit. The pitch representative value for each mora is calculated from the pitch estimation unit obtained as the pitch estimation value reflecting the pitch fluctuation in the entire sentence or the phrase of the text and the pitch estimation value for each frame obtained by the pitch estimation unit. For each accent type context-dependent phonetic label, a second pitch representative value calculation unit that outputs a pitch representative value for each mora included in the accent phrase of the text and the first pitch representative value calculation unit The pitch representative value for each mora included in the accent clause of the output voice waveform data and the accent of the text output for each accent type context-dependent phonetic label by the second pitch representative value calculation unit. A distance calculation unit that calculates the distance between the pitch representative value for each mora included in the clause and outputs the distance for each accent type context-dependent phonetic label, and the accent type context by the distance calculation unit. The distance output for each dependent accent label is the minimum The accent type context-dependent phoneme label is specified, and the accent type determination unit for determining the accent type of the accent type context-dependent phoneme label as the accent type of the accent phrase is provided.
また、請求項2のアクセント型判定装置は、請求項1に記載のアクセント型判定装置において、前記第1のピッチ代表値算出部が、前記モーラに含まれる前記フレーム毎のピッチの値を所定式に近似し、前記所定式における最終フレームのピッチの値を、当該モーラのピッチ代表値として求め、前記第2のピッチ代表値算出部が、前記モーラに含まれる前記フレーム毎のピッチ推定値を所定式に近似し、前記所定式における最終フレームのピッチ推定値の値を、当該モーラのピッチ代表値として求める、ことを特徴とする。 Further, in the accent type determination device according to claim 2, in the accent type determination device according to claim 1, the first pitch representative value calculation unit determines a pitch value for each frame included in the mora. The pitch value of the final frame in the predetermined formula is obtained as the pitch representative value of the mora, and the second pitch representative value calculation unit determines the pitch estimation value for each frame included in the mora. Approximate to the equation, the value of the pitch estimated value of the final frame in the predetermined equation is obtained as the pitch representative value of the mora.
また、請求項3のアクセント型判定装置は、請求項1または2に記載のアクセント型判定装置において、前記ピッチ推定部が、予め学習された韻律モデルを用いて、前記ピッチ推定値を求める、ことを特徴とする。 Further, in the accent type determination device according to claim 3, in the accent type determination device according to claim 1, the pitch estimation unit obtains the pitch estimation value by using a prosody model learned in advance. It is characterized by.
また、請求項4のアクセント型判定装置は、請求項3に記載のアクセント型判定装置において、前記韻律モデルを、前記音声波形データの話者と同一の話者が発した音声を用いて学習されたモデルとする、ことを特徴とする。 Further, the accent type determination device according to claim 4 is the accent type determination device according to claim 3, and the prosody model is learned by using the voice emitted by the same speaker as the speaker of the voice waveform data. It is characterized by being a model.
さらに、請求項5のプログラムは、コンピュータを、請求項1から4までのいずれか一項に記載のアクセント型判定装置として機能させることを特徴とする。 Further, the program of claim 5 is characterized in that the computer functions as the accent type determination device according to any one of claims 1 to 4.
以上のように、本発明によれば、音声波形データからアクセント型を精度高く判定することが可能となる。 As described above, according to the present invention, it is possible to accurately determine the accent type from the voice waveform data.
以下、本発明を実施するための形態について図面を用いて詳細に説明する。図1は、本発明の実施形態によるアクセント型判定装置の構成例を示すブロック図であり、図2は、アクセント型判定装置の処理例を示すフローチャートである。また、図3は、音声波形データのピッチ、モーラ、アクセント句、テキスト、フレーム、モーラのピッチ代表値を説明する図である。図3において、音声波形データのピッチの曲線は、音声波形データに対応するテキストの区間における息継ぎを含む大方の傾向を示している。 Hereinafter, embodiments for carrying out the present invention will be described in detail with reference to the drawings. FIG. 1 is a block diagram showing a configuration example of an accent type determination device according to an embodiment of the present invention, and FIG. 2 is a flowchart showing a processing example of the accent type determination device. Further, FIG. 3 is a diagram for explaining the pitch, mora, accent phrase, text, frame, and pitch representative value of the mora of the voice waveform data. In FIG. 3, the pitch curve of the voice waveform data shows most of the trends including breathing in the text section corresponding to the voice waveform data.
図1を参照して、このアクセント型判定装置1は、音声テキスト解析部10、音声波形ピッチ算出部11、ピッチ代表値算出部12、テキスト解析部(音素ラベル作成部)13、アクセント型ラベル作成部14、韻律モデル15、ピッチ推定部16、ピッチ代表値算出部17、距離算出部18及びアクセント型判定部19を備えている。音声波形データは、標本化周波数を16kHz、変換ビット数を16ビットとして標本化されており、音声波形データに対応する書き起こしテキストが存在するものとする。
With reference to FIG. 1, the accent type determination device 1 includes a voice
図1及び図2を参照して、アクセント型判定装置1は、音声波形データ及び当該音声波形データに対応する書き起こしテキストを入力する(ステップS201)。 With reference to FIGS. 1 and 2, the accent type determination device 1 inputs the voice waveform data and the transcript text corresponding to the voice waveform data (step S201).
音声テキスト解析部10は、音声波形データ及びテキストを入力する。そして、音声テキスト解析部10は、テキストを解析することで、テキストに対しアクセント句の区切り位置を設定する(ステップS202)。アクセント句の区切り位置を設定する技術は既知であるから、ここでは説明を省略する。
The voice text analysis unit 10 inputs voice waveform data and text. Then, the voice
音声テキスト解析部10は、音声波形データ及びテキストを解析することで、音素セグメンテーションを行い、音素の区切り位置を設定する(ステップS203)。
The voice
音素セグメンテーションの処理は既知であり、例えば強制アライメント(Forced Alignments)の技術が用いられる。強制アライメントの技術の詳細については、以下のURLを参照されたい。
“The HTK Book(for HTK Version 3.4)”,インターネット<URL:http://htk.eng.cam.ac.uk/>
The processing of phoneme segmentation is known and, for example, the technique of forced alignment is used. For details on the forced alignment technology, refer to the following URL.
"The HTK Book (for HTK Version 3.4)", Internet <URL: http://htk.eng.cam.ac.uk/>
音声テキスト解析部10は、アクセント句の区切り位置に関するデータ及び音素の区切り位置に関するデータをピッチ代表値算出部12に出力する。
The voice
音声波形ピッチ算出部11は、音声波形データを入力し、音声波形データから5ms単位のフレーム毎に基本周波数を抽出し(ステップS204)、基本周波数の対数を算出する(ステップS205)。以下、基本周波数の対数をピッチという。
The voice waveform
フレーム毎の基本周波数を抽出する処理は既知であり、例えば音声信号処理の技術(pitchコマンド)が用いられる。この技術の詳細については、以下のURLを参照されたい。
“REFERENCE MANUAL for Speech Signal Processing Toolkit Ver. 3.9”,インターネット<URL:http://sp-tk.sourceforge.net/>
The process of extracting the fundamental frequency for each frame is known, and for example, an audio signal processing technique (pitch command) is used. For details of this technology, refer to the following URL.
"REFERENCE MANUAL for Speech Signal Processing Toolkit Ver. 3.9", Internet <URL: http://sp-tk.sourceforge.net/>
音声波形ピッチ算出部11は、音声波形データにおけるフレーム毎のピッチをピッチ代表値算出部12に出力する。
The voice waveform
ピッチ代表値算出部12は、音声波形ピッチ算出部11から音声波形データにおけるフレーム毎のピッチを入力すると共に、音声テキスト解析部10からアクセント句の区切り位置に関するデータ及び音素の区切り位置に関するデータを入力する。
The pitch representative
ピッチ代表値算出部12は、アクセント句の区切り位置に関するデータに基づいて、音声波形データを構成する複数のアクセント句を特定する(切り出す)。そして、ピッチ代表値算出部12は、音素の区切り位置に関するデータに基づいて、アクセント句を構成する複数のモーラを特定する(切り出す)(ステップS206)。
The pitch representative
図3に示すように、アクセント句は、アクセント句の区切り位置(矢印の先端位置)で区切られた区間(矢印の区間)となる。また、音素の区切り位置から特定されたモーラは、その矢印の先端位置で区切られた区間(矢印の区間)となる。 As shown in FIG. 3, the accent phrase is a section (arrow section) separated by the delimiter position (tip position of the arrow) of the accent phrase. Further, the mora specified from the phoneme dividing position is a section (arrow section) separated by the tip position of the arrow.
ピッチ代表値算出部12は、モーラの区間(モーラ区間)におけるフレーム毎のピッチから、モーラ毎のピッチ代表値を算出する(ステップS207)。これにより、音声波形データを構成するアクセント句のそれぞれについて、当該アクセント句を構成するモーラのピッチ代表値が算出される。
The pitch representative
具体的には、ピッチ代表値算出部12は、アクセント句を構成するモーラを切り出し、モーラの開始時間から終了時間までのモーラ区間に含まれるフレーム毎のピッチを特定する。ピッチ代表値算出部12は、ピッチが存在しない無声区間については、隣接する有声区間におけるフレーム毎のピッチを補間することで、補間した値をピッチとして扱う。また、ピッチ代表値算出部12は、無声区間の部分が文頭、文末または文内のポーズ(間)に隣接する場合、文章全体の有声区間におけるフレーム毎のピッチから算出した平均値を、補間すべき無声区間の端点の値に内挿する。図3に示すように、モーラは、複数のフレームにより構成され、モーラ区間に含まれるフレーム毎のピッチが特定される。
Specifically, the pitch representative
次に、ピッチ代表値算出部12は、モーラ区間に含まれるフレーム毎のピッチの値を、最小二乗法により1次関数の式として近似し、1次関数の式における最終フレームのピッチの値を、当該モーラのピッチ代表値として設定する。そして、ピッチ代表値算出部12は、アクセント句の区間(アクセント句区間)における各モーラのピッチ代表値を距離算出部18に出力する。
Next, the pitch representative
図3に示すように、モーラ区間のフレーム数をN、開始時間のフレーム番号をx1、ピッチの値をy1、終了時間のフレーム番号をxN 、ピッチの値をyN、最小二乗法により近似した1次関数の式をf(x)=ax+bとする。aは1次関数f(x)の傾き、bはその切片である。 As shown in FIG. 3, the number of frames in the mora section is N, the frame number of the start time is x 1 , the pitch value is y 1 , the frame number of the end time is x N , the pitch value is y N , and the least squares method. Let f (x) = ax + b be the equation of the linear function approximated by. a is the slope of the linear function f (x), and b is the intercept.
1次関数f(x)の傾きa及び切片bは、以下の式で表される。
このように、ピッチ代表値算出部12は、近似した1次関数の式f(x)のうち最終フレームxNのピッチの値f(xN)=yNを当該モーラのピッチ代表値とし、アクセント句区間における各モーラのピッチ代表値Smを算出する。mはモーラの番号である。
In this way, the pitch representative
テキスト解析部13は、音声波形データに対応するテキストを入力し、テキストを解析することで、テキストに対する文脈依存音素ラベルを作成する(ステップS208)。文脈依存音素ラベルは、テキスト全体の文脈に依存した、音素を単位としたラベルである。文脈依存音素ラベルは、例えば、テキスト全体に含まれる文節の位置、数及び番号、文節に含まれるアクセント句の位置、数及び番号、アクセント句に含まれるモーラの位置、数及び番号、アクセント句内のアクセントの位置等の、テキスト全体の文脈を特定するための情報が含まれる。
The
文脈依存音素ラベルの作成処理は既知である。詳細については、例えば以下のURLで提供される日本語音声合成システムの技術を参照されたい。
“OPEN JTalk”,インターネット<URL:http://open-jtalk.sourceforge.net/>
The process of creating context-sensitive phoneme labels is known. For details, refer to, for example, the technology of the Japanese speech synthesis system provided at the following URL.
"OPEN JTalk", Internet <URL: http://open-jtalk.sourceforge.net/>
テキスト解析部13は、テキストの文脈依存音素ラベルをアクセント型ラベル作成部14に出力する。
The
アクセント型ラベル作成部14は、テキスト解析部13からテキストの文脈依存音素ラベルを入力する。そして、アクセント型ラベル作成部14は、文脈依存音素ラベルに含まれる情報に基づいて、テキストを構成する複数のアクセント句の区切り位置を特定し、テキストを構成する複数のアクセント句を特定する(切り出す)。アクセント型ラベル作成部14により特定されたアクセント句は、ピッチ代表値算出部12によりピッチ代表値が算出される前に特定されたアクセント句と同じである。
The accent type
アクセント型ラベル作成部14は、文脈依存音素ラベルに含まれる情報に基づいて、アクセント句を構成する複数のモーラを特定する(切り出す)。そして、アクセント型ラベル作成部14は、アクセント句について、全てのアクセント型を表現するように、アクセント核の位置(アクセントのあるモーラの位置)を変更した文脈依存音素ラベル(アクセント型文脈依存音素ラベル)を作成する(ステップS209)。アクセント型ラベル作成部14により作成される文脈依存音素ラベルの数は、アクセント句を構成するモーラの数により決定される。テキストの文章がL個のアクセント句で構成され、l(エル)番目のアクセント句のモーラの数がMlの場合、Ml種類の異なる文脈依存音素ラベルが作成される。ここで、lは1以上、L以下の整数であり、Mlは1以上の整数である。
The accent type
アクセント型ラベル作成部14は、l番目のアクセント句に対して、Ml個の文脈依存音素ラベル(アクセント型毎の文脈依存音素ラベル)をピッチ推定部16に出力する。
The accent type
ピッチ推定部16は、アクセント型ラベル作成部14から、l番目のアクセント句に対して、Ml個の文脈依存音素ラベルを入力する。そして、ピッチ推定部16は、Ml個の文脈依存音素ラベルのそれぞれについて、予め学習された韻律モデル15を用いて、モーラ区間におけるフレーム毎のピッチを推定し、ピッチ推定値を求める(ステップS210)。
The
文脈依存音素ラベルについてピッチを推定する処理は既知であり、詳細については、例えば前記のURLで提供される日本語音声合成システムの技術、または以下のURLで提供される音声合成技術を参照されたい。
“HTS”,インターネット<URL:http://hts-engine.sourceforge.net/>
The process of estimating the pitch for context-sensitive phoneme labels is known, and for details, refer to, for example, the technology of the Japanese speech synthesis system provided at the above URL or the speech synthesis technology provided at the following URL. ..
"HTS", Internet <URL: http://hts-engine.sourceforge.net/>
ピッチ推定部16は、Ml個の文脈依存音素ラベル(アクセント型毎の文脈依存音素ラベル)のそれぞれについて、アクセント句毎に、モーラ区間におけるフレーム毎のピッチ推定値をピッチ代表値算出部17に出力する。
The
韻律モデル15は、図示しないモデル学習部により予め作成されたDB(データベース)である。モデル学習部は、様々なテキストの文章またはフレーズ等の音声波形データ及び当該音声波形データに対応するテキストに対して文脈依存音素ラベルを作成し、当該音声波形データからピッチを算出し、これに対応する文脈依存音素ラベルを用いて、ピッチを推定できるように学習したモデルを韻律モデル15に格納する。
The
したがって、この韻律モデル15を用いて算出されたピッチ推定値は、テキストの文章全体またはフレーズ等の区間における(アクセント句よりも長い区間における)ピッチの変動が反映された値となる。つまり、ピッチ推定値は、テキストの文章全体またはフレーズ等の中で、アクセント位置が反映された値となる。
Therefore, the pitch estimation value calculated using the
ここで、韻律モデル15は、当該アクセント型判定装置1によりアクセント型が判定される音声波形データの話者と同一の話者が発した音声を学習用データとして、当該話者の音声波形データを用いて学習されたDBであることが望ましい。これにより、アクセント型判定装置1において、音声波形データからアクセント型を一層精度高く判定することができる。
Here, the
ピッチ代表値算出部17は、ピッチ推定部16から、Ml個の文脈依存音素ラベルのそれぞれについて、アクセント句毎に、モーラ区間におけるフレーム毎のピッチ推定値を入力する。そして、ピッチ代表値算出部17は、ピッチ代表値算出部12と同様の処理により、モーラ区間におけるフレーム毎のピッチ推定値からモーラ毎のピッチ代表値を算出する(ステップS211)。これにより、Ml個の文脈依存音素ラベルのそれぞれについて、音声波形データに対応するテキストを構成するそれぞれのアクセント句について、当該アクセント句を構成するモーラのピッチ代表値が算出される。
The pitch representative
具体的には、ピッチ代表値算出部17は、文脈依存音素ラベルに基づいて、アクセント句を構成するモーラを切り出し、モーラの開始時間から終了時間までのモーラ区間に含まれるフレーム毎のピッチを特定する。ピッチ代表値算出部17は、ピッチが存在しない無声区間について、ピッチ代表値算出部12と同様に補間処理等を行う。そして、ピッチ代表値算出部17は、モーラ区間に含まれるフレーム毎のピッチの値を、最小二乗法により1次関数の式として近似し、1次関数の式における最終フレームのピッチを、当該モーラのピッチ代表値として設定する。
Specifically, the pitch representative
l番目のアクセント句における、Ml個の文脈依存音素ラベルのうち、n番目の文脈依存音素ラベルについて、m番目のモーラのピッチ代表値をTl,n,mとする。 Of the M l context-sensitive phoneme labels in the l-th accent phrase, the pitch representative value of the m-th mora is T l, n, m for the n-th context-sensitive phoneme label.
ピッチ代表値算出部17は、Ml個の文脈依存音素ラベル(アクセント型毎の文脈依存音素ラベル)のそれぞれについて、アクセント句区間における各モーラのピッチ代表値を距離算出部18に出力する。
The pitch representative
距離算出部18は、ピッチ代表値算出部12から、音声波形データについてのアクセント句区間における各モーラのピッチ代表値を入力する。また、距離算出部18は、ピッチ代表値算出部17から、Ml個の文脈依存音素ラベル(アクセント型毎の文脈依存音素ラベル)のそれぞれについてのアクセント句区間における各モーラのピッチ代表値を入力する。
The
距離算出部18は、音声波形データについてのl番目のアクセント句区間における各モーラのピッチ代表値と、Ml個の文脈依存音素ラベルのそれぞれについて、アクセント句区間における各モーラのピッチ代表値との間の距離を算出する(ステップS212)。
The
前述のとおり、音声波形データについてのl番目のアクセント句区間におけるm番目のモーラのピッチ代表値をSl,mとし、l番目のアクセント句における、Ml個の文脈依存音素ラベルのうちn番目の文脈依存音素ラベルについて、アクセント句におけるm番目のモーラのピッチ代表値をTl,n,mとする。両者の距離Cl,nは、以下の式にて算出される。
距離算出部18は、アクセント句毎に、Ml個の文脈依存音素ラベル(アクセント型毎の文脈依存音素ラベル)のそれぞれについての距離(Cl,1,・・・,Cl,Ml)をアクセント型判定部19に出力する。
The
アクセント型判定部19は、アクセント句毎に、Ml個の文脈依存音素ラベルのそれぞれについての距離(Cl,1,・・・,Cl,Ml)を入力する。そして、アクセント型判定部19は、Ml個の文脈依存音素ラベルのうち距離が最小となる文脈依存音素ラベルを特定し、特定した文脈依存音素ラベルのアクセント型を判定する(ステップS213)。そして、アクセント型判定部19は、判定したアクセント型を当該アクセント句のアクセント型として出力する。
The accent
l番目のアクセント句における、距離が最小となるアクセント型nlminは、以下の式にて算出される。
以上のように、本発明の実施形態のアクセント型判定装置1によれば、ピッチ代表値算出部12は、音声波形データについて、モーラ区間に含まれるフレーム毎のピッチの値を最小二乗法により1次関数の式に近似し、1次関数の式における最終フレームのピッチを、当該モーラのピッチ代表値として設定する。これにより、音声波形データについて、アクセント句を構成するモーラのピッチ代表値が算出される。
As described above, according to the accent type determination device 1 of the embodiment of the present invention, the pitch representative
アクセント型ラベル作成部14は、テキスト解析部13により生成されたテキストの文脈依存音素ラベルに基づいて、アクセント句毎に、アクセント核の位置を変更したアクセント型毎のMl個の文脈依存音素ラベルを作成する。
The accent type
ピッチ推定部16は、Ml個の文脈依存音素ラベルのそれぞれについて、韻律モデル15を用いて、モーラ区間におけるフレーム毎のピッチを推定し、ピッチ推定値を求める。ピッチ代表値算出部17は、ピッチ代表値算出部12と同様の処理により、モーラ区間におけるフレーム毎のピッチ推定値から当該モーラのピッチ代表値を算出する。これにより、Ml個の文脈依存音素ラベルのそれぞれについて、音声波形データに対応するテキストについて、アクセント句を構成するモーラのピッチ代表値が算出される。
The
距離算出部18は、ピッチ代表値算出部12により算出された音声波形データについてのアクセント句区間における各モーラのピッチ代表値と、ピッチ代表値算出部17により算出されたMl個の文脈依存音素ラベルのそれぞれについてのアクセント句区間における各モーラのピッチ代表値との間の距離を算出する。アクセント型判定部19は、アクセント句毎に、Ml個の文脈依存音素ラベルについての距離が最小となるアクセント型を判定し、判定したアクセント型を当該アクセント句のアクセント型として出力する。
The
従来技術では、音声波形データを構成する個々のアクセント句のみのピッチに基づいて、当該アクセント句のアクセント型を判定する。これに対し、本発明の実施形態では、ピッチ推定部16は、アクセント型毎の文脈依存音素ラベルにつき、様々なテキストと対応する音声波形データを用いて学習した韻律モデル15に基づいてピッチ推定値を算出し、アクセント型判定部19は、このピッチ推定値から算出した距離を用いて、アクセント型を判定する。このピッチ推定値は、テキストの文章またはフレーズ等の区間におけるピッチの変動、すなわちアクセント句よりも長い区間のピッチの変動を考慮した値である。判定されたアクセント型も、アクセント句よりも長い文章全体またはフレーズ等を考慮した結果となる。したがって、音声波形データからアクセント型を精度高く判定することが可能となる。
In the prior art, the accent type of the accent phrase is determined based on the pitch of only each accent phrase constituting the voice waveform data. On the other hand, in the embodiment of the present invention, the
さらに、判定されたアクセント型は、例えば音声合成の事前学習の際に、音響モデルの一部のデータ(韻律データ)として格納され、テキスト音声合成の際に、この音響モデルが用いられる。したがって、アクセント型の判定精度が良くなると、当該アクセント型が学習された音響モデルを用いてテキスト音声合成したときに、音声のアクセントが自然となり、精度の高い音声合成を実現することができる。 Further, the determined accent type is stored as a part of the data (prosody data) of the acoustic model at the time of pre-learning of speech synthesis, and this acoustic model is used at the time of text speech synthesis. Therefore, if the determination accuracy of the accent type is improved, the accent of the voice becomes natural when the text voice is synthesized using the acoustic model in which the accent type is learned, and the voice synthesis with high accuracy can be realized.
尚、本発明の実施形態によるアクセント型判定装置1のハードウェア構成としては、通常のコンピュータを使用することができる。アクセント型判定装置1は、CPU、RAM等の揮発性の記憶媒体、ROM等の不揮発性の記憶媒体、及びインターフェース等を備えたコンピュータによって構成される。アクセント型判定装置1に備えた音声テキスト解析部10、音声波形ピッチ算出部11、ピッチ代表値算出部12、テキスト解析部13、アクセント型ラベル作成部14、韻律モデル15、ピッチ推定部16、ピッチ代表値算出部17、距離算出部18及びアクセント型判定部19の各機能は、これらの機能を記述したプログラムをCPUに実行させることによりそれぞれ実現される。これらのプログラムは、前記記憶媒体に格納されており、CPUに読み出されて実行される。また、これらのプログラムは、磁気ディスク(フロッピー(登録商標)ディスク、ハードディスク等)、光ディスク(CD−ROM、DVD等)、半導体メモリ等の記憶媒体に格納して頒布することもでき、ネットワークを介して送受信することもできる。
As the hardware configuration of the accent type determination device 1 according to the embodiment of the present invention, a normal computer can be used. The accent type determination device 1 is composed of a computer provided with a volatile storage medium such as a CPU and RAM, a non-volatile storage medium such as a ROM, and an interface. Voice
以上、実施形態を挙げて本発明を説明したが、本発明は前記実施形態に限定されるものではなく、その技術思想を逸脱しない範囲で種々変形可能である。例えば、前記実施形態では、アクセント型判定装置1のピッチ推定部16は、Ml個の文脈依存音素ラベルのそれぞれについて、韻律モデル15を用いて、テキストの文章全体またはフレーズ等のピッチの変動を考慮したピッチ推定値を算出するようにした。本発明では、必ずしも韻律モデル15を用いる必要はない。ピッチ推定部16は、韻律モデル15を用いることなく、既知の手法にて、テキストの文章全体またはフレーズ等のピッチの変動を考慮したピッチ推定値を算出するようにしてもよい。
Although the present invention has been described above with reference to embodiments, the present invention is not limited to the above-described embodiments, and various modifications can be made without departing from the technical idea. For example, in the above embodiment, the
また、前記実施形態では、ピッチ代表値算出部12は、モーラ区間に含まれるフレーム毎のピッチの値を、最小二乗法により1次関数の式として近似し、1次関数の式における最終フレームのピッチの値を、当該モーラのピッチ代表値として設定するようにした。これに対し、ピッチ代表値算出部12は、最小二乗法以外の他の手法にて、モーラ区間に含まれるフレーム毎のピッチの値を1次関数の式として近似するようにしてもよい。また、ピッチ代表値算出部12は、モーラ区間に含まれるフレーム毎のピッチの値を、最小二乗法等の手法により、1次関数の式以外の所定式として近似するようにしてもよい。また、ピッチ代表値算出部12は、1次関数等の所定式における最終フレーム以外のフレームのピッチの値を、当該モーラのピッチ代表値として設定するようにしてもよい。ピッチ代表値算出部17についても同様である。
Further, in the above-described embodiment, the pitch representative
1 アクセント型判定装置
10 音声テキスト解析部
11 音声波形ピッチ算出部
12 ピッチ代表値算出部
13 テキスト解析部
14 アクセント型ラベル作成部
15 韻律モデル
16 ピッチ推定部
17 ピッチ代表値算出部
18 距離算出部
19 アクセント型判定部
1 Accent
Claims (5)
前記音声波形データからフレーム毎のピッチを算出する音声波形ピッチ算出部と、
前記音声波形データから複数のアクセント句を切り出し、前記アクセント句から複数のモーラを切り出し、前記音声波形ピッチ算出部により算出された前記フレーム毎のピッチから、モーラ毎のピッチ代表値を算出し、前記音声波形データの前記アクセント句に含まれる前記モーラ毎のピッチ代表値を出力する第1のピッチ代表値算出部と、
前記音声波形データに対応するテキストについて、当該テキストに含まれる文節、アクセント句、モーラ及びアクセント位置の情報を含む文脈依存音素ラベルを作成する音素ラベル作成部と、
前記音素ラベル作成部により作成された前記文脈依存音素ラベルに基づいて、前記テキストから複数のアクセント句を切り出し、前記アクセント句から複数のモーラを切り出し、前記アクセント句について、全てのアクセント型を表現するように、当該アクセント句に含まれる前記モーラの数に基づいてアクセント位置を変更し、複数のアクセント型文脈依存音素ラベルを作成するアクセント型ラベル作成部と、
前記アクセント型ラベル作成部により作成された前記アクセント型文脈依存音素ラベル毎に、フレーム毎のピッチを、前記テキストの文章全体または文節におけるピッチの変動が反映されたピッチ推定値として求めるピッチ推定部と、
前記ピッチ推定部により求めた前記フレーム毎のピッチ推定値から、モーラ毎のピッチ代表値を算出し、前記アクセント型文脈依存音素ラベル毎に、前記テキストの前記アクセント句に含まれる前記モーラ毎のピッチ代表値を出力する第2のピッチ代表値算出部と、
前記第1のピッチ代表値算出部により出力された前記音声波形データの前記アクセント句に含まれる前記モーラ毎のピッチ代表値と、前記第2のピッチ代表値算出部により前記アクセント型文脈依存音素ラベル毎に出力された前記テキストの前記アクセント句に含まれる前記モーラ毎のピッチ代表値との間の距離をそれぞれ算出し、前記アクセント型文脈依存音素ラベル毎に、前記距離を出力する距離算出部と、
前記距離算出部により前記アクセント型文脈依存音素ラベル毎に出力された前記距離が最小となる前記アクセント型文脈依存音素ラベルを特定し、当該アクセント型文脈依存音素ラベルのアクセント型を、前記アクセント句のアクセント型として判定するアクセント型判定部と、
を備えたことを特徴とするアクセント型判定装置。 In an accent type determination device that cuts out a plurality of accent phrases from voice waveform data and determines the accent type of the accent phrase.
A voice waveform pitch calculation unit that calculates the pitch for each frame from the voice waveform data,
A plurality of accent phrases are cut out from the voice waveform data, a plurality of mora are cut out from the accent phrase, and a pitch representative value for each mora is calculated from the pitch for each frame calculated by the voice waveform pitch calculation unit. A first pitch representative value calculation unit that outputs a pitch representative value for each mora included in the accent phrase of the voice waveform data, and a first pitch representative value calculation unit.
A phoneme label creation unit that creates a context-dependent phoneme label that includes information on phrases, accent phrases, mora, and accent positions included in the text for the text corresponding to the speech waveform data.
Based on the context-dependent phoneme label created by the phoneme label creation unit, a plurality of accent phrases are cut out from the text, a plurality of mora are cut out from the accent phrase, and all accent types are expressed for the accent phrase. As described above, the accent type label creation unit that changes the accent position based on the number of the mora included in the accent clause and creates a plurality of accent type context-dependent phoneme labels.
A pitch estimation unit that obtains the pitch for each frame for each accent-type context-sensitive phoneme label created by the accent-type label creation unit as a pitch estimation value that reflects pitch fluctuations in the entire sentence or phrase of the text. ,
A pitch representative value for each mora is calculated from the pitch estimation value for each frame obtained by the pitch estimation unit, and the pitch for each mora included in the accent phrase of the text for each accent type context-sensitive phoneme label. A second pitch representative value calculation unit that outputs representative values, and
The pitch representative value for each mora included in the accent clause of the voice waveform data output by the first pitch representative value calculation unit, and the accent type context-dependent phoneme label by the second pitch representative value calculation unit. A distance calculation unit that calculates the distance between the pitch representative value for each mora included in the accent clause of the text output for each, and outputs the distance for each accent type context-dependent phoneme label. ,
The distance calculation unit identifies the accent-type context-dependent phoneme label that minimizes the distance output for each accent-type context-dependent phoneme label, and sets the accent type of the accent-type context-dependent phoneme label as the accent phrase. Accent type judgment unit that judges as accent type,
An accent type judgment device characterized by being equipped with.
前記第1のピッチ代表値算出部は、
前記モーラに含まれる前記フレーム毎のピッチの値を所定式に近似し、前記所定式における最終フレームのピッチの値を、当該モーラのピッチ代表値として求め、
前記第2のピッチ代表値算出部は、
前記モーラに含まれる前記フレーム毎のピッチ推定値を所定式に近似し、前記所定式における最終フレームのピッチ推定値の値を、当該モーラのピッチ代表値として求める、ことを特徴とするアクセント型判定装置。 In the accent type determination device according to claim 1,
The first pitch representative value calculation unit is
The pitch value for each frame included in the mora is approximated to a predetermined formula, and the pitch value of the final frame in the predetermined formula is obtained as the pitch representative value of the mora.
The second pitch representative value calculation unit is
Accent type determination characterized in that the pitch estimation value for each frame included in the mora is approximated to a predetermined formula, and the value of the pitch estimation value of the final frame in the predetermined formula is obtained as the pitch representative value of the mora. apparatus.
前記ピッチ推定部は、
予め学習された韻律モデルを用いて、前記ピッチ推定値を求める、ことを特徴とするアクセント型判定装置。 In the accent type determination device according to claim 1 or 2.
The pitch estimation unit
An accent type determination device characterized in that the pitch estimation value is obtained using a prosody model learned in advance.
前記韻律モデルを、前記音声波形データの話者と同一の話者が発した音声を用いて学習されたモデルとする、ことを特徴とするアクセント型判定装置。 In the accent type determination device according to claim 3,
An accent type determination device, characterized in that the prosody model is a model learned by using a voice uttered by the same speaker as the speaker of the voice waveform data.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016252329A JP6756607B2 (en) | 2016-12-27 | 2016-12-27 | Accent type judgment device and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016252329A JP6756607B2 (en) | 2016-12-27 | 2016-12-27 | Accent type judgment device and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018106012A JP2018106012A (en) | 2018-07-05 |
JP6756607B2 true JP6756607B2 (en) | 2020-09-16 |
Family
ID=62786968
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016252329A Active JP6756607B2 (en) | 2016-12-27 | 2016-12-27 | Accent type judgment device and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6756607B2 (en) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111402842B (en) * | 2020-03-20 | 2021-11-19 | 北京字节跳动网络技术有限公司 | Method, apparatus, device and medium for generating audio |
CN112331176B (en) * | 2020-11-03 | 2023-03-10 | 北京有竹居网络技术有限公司 | Speech synthesis method, speech synthesis device, storage medium and electronic equipment |
-
2016
- 2016-12-27 JP JP2016252329A patent/JP6756607B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2018106012A (en) | 2018-07-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11410684B1 (en) | Text-to-speech (TTS) processing with transfer of vocal characteristics | |
US11443733B2 (en) | Contextual text-to-speech processing | |
US20200410981A1 (en) | Text-to-speech (tts) processing | |
JP5119700B2 (en) | Prosody modification device, prosody modification method, and prosody modification program | |
DiCanio et al. | Using automatic alignment to analyze endangered language data: Testing the viability of untrained alignment | |
WO2017067206A1 (en) | Training method for multiple personalized acoustic models, and voice synthesis method and device | |
JP6266372B2 (en) | Speech synthesis dictionary generation apparatus, speech synthesis dictionary generation method, and program | |
US11763797B2 (en) | Text-to-speech (TTS) processing | |
US9508338B1 (en) | Inserting breath sounds into text-to-speech output | |
JP2018146803A (en) | Voice synthesizer and program | |
CN113327574A (en) | Speech synthesis method, device, computer equipment and storage medium | |
JP5807921B2 (en) | Quantitative F0 pattern generation device and method, model learning device for F0 pattern generation, and computer program | |
JP6013104B2 (en) | Speech synthesis method, apparatus, and program | |
JP6756607B2 (en) | Accent type judgment device and program | |
US9484014B1 (en) | Hybrid unit selection / parametric TTS system | |
WO2012160767A1 (en) | Fragment information generation device, audio compositing device, audio compositing method, and audio compositing program | |
JP5874639B2 (en) | Speech synthesis apparatus, speech synthesis method, and speech synthesis program | |
JP7406418B2 (en) | Voice quality conversion system and voice quality conversion method | |
KR102051235B1 (en) | System and method for outlier identification to remove poor alignments in speech synthesis | |
JP6523423B2 (en) | Speech synthesizer, speech synthesis method and program | |
JP6137708B2 (en) | Quantitative F0 pattern generation device, model learning device for F0 pattern generation, and computer program | |
JP4751230B2 (en) | Prosodic segment dictionary creation method, speech synthesizer, and program | |
Iyanda et al. | Development of a Yorúbà Textto-Speech System Using Festival | |
JP2016142936A (en) | Preparing method for data for speech synthesis, and preparing device data for speech synthesis | |
JP3854593B2 (en) | Speech synthesis apparatus, cost calculation apparatus therefor, and computer program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20191028 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20200720 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200803 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20200827 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6756607 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |