JP2015212845A - Voice processing device, voice processing method, and filter produced by voice processing method - Google Patents

Voice processing device, voice processing method, and filter produced by voice processing method Download PDF

Info

Publication number
JP2015212845A
JP2015212845A JP2015164768A JP2015164768A JP2015212845A JP 2015212845 A JP2015212845 A JP 2015212845A JP 2015164768 A JP2015164768 A JP 2015164768A JP 2015164768 A JP2015164768 A JP 2015164768A JP 2015212845 A JP2015212845 A JP 2015212845A
Authority
JP
Japan
Prior art keywords
speech
filter
histogram
cumulative frequency
cumulative
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2015164768A
Other languages
Japanese (ja)
Inventor
大和 大谷
Yamato Otani
大和 大谷
正統 田村
Masanori Tamura
正統 田村
眞弘 森田
Shinko Morita
眞弘 森田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2015164768A priority Critical patent/JP2015212845A/en
Publication of JP2015212845A publication Critical patent/JP2015212845A/en
Pending legal-status Critical Current

Links

Images

Abstract

PROBLEM TO BE SOLVED: To implement a voice processing device capable of appropriately controlling filter characteristics when emphasizing a voice.SOLUTION: The voice processing device includes: histogram calculation means which calculates a first histogram from a first voice feature quantity extracted from voice data and calculates a second histogram from a second voice feature quantity different from the first voice feature quantity; cumulative frequency calculation means which calculates a first cumulative frequency resulting from accumulation of frequencies in the first histogram and a second cumulative frequency resulting from accumulation of frequencies in the second histogram; and filter generation means which generates a filter having such filter characteristics that the second cumulative frequency is closer to the first cumulative frequency, on the basis of the first cumulative frequency and the second cumulative frequency.

Description

本発明の実施形態は、音声処理装置、音声処理方法および音声処理方法により作成されたフィルタに関する。 Embodiments described herein relate generally to a voice processing device, a voice processing method, and a filter created by the voice processing method.

音声合成技術により合成された音声波形は、人の実際の音声と比較してこもったような音質になるという問題があった。これを解決するために、音声波形に変換する前の音声特徴量にフィルタを適用して、音声スペクトルの凹凸を強調することが提案されている。 The voice waveform synthesized by the voice synthesis technique has a problem that it has a sound quality as compared with the actual voice of a person. In order to solve this problem, it has been proposed to apply a filter to a speech feature amount before being converted into a speech waveform to emphasize the unevenness of the speech spectrum.

音声スペクトルの凹凸の強調する処理では、従来は、ユーザによって設定された2組の補間関数を用いて、入力されたLSP係数とフラットな周波数特性を持つLSP係数との間におけるフィルタの補正量を決定していた。 In the process of emphasizing the unevenness of the speech spectrum, conventionally, the correction amount of the filter between the input LSP coefficient and the LSP coefficient having a flat frequency characteristic is calculated using two sets of interpolation functions set by the user. It was decided.

しかしながら、上述した方法では、音声を強調する際のフィルタ特性が、ユーザが設定した補間関数によって調整されていた。そのため、音声スペクトルの凹凸を強調する際のフィルタ特性を適切に制御することができなかった。 However, in the method described above, the filter characteristics for enhancing the voice are adjusted by the interpolation function set by the user. For this reason, it has not been possible to appropriately control the filter characteristics when emphasizing the unevenness of the speech spectrum.

特開平9−230869号公報Japanese Patent Laid-Open No. 9-230869

Keiichi Tokuda, Takayoshi Yoshimura, Takashi Masuko, Takao Kobayashi, Tadashi Kitamura, “Speech parameter generation algorithms for HMM-based speech synthesis,” Proc. of ICASSP, June 2000, p.1315-1318.Keiichi Tokuda, Takayoshi Yoshimura, Takashi Masuko, Takao Kobayashi, Tadashi Kitamura, “Speech parameter generation algorithms for HMM-based speech synthesis,” Proc. Of ICASSP, June 2000, p.1315-1318. Tomoki Toda, Alan W. Black, Keiichi Tokuda, “Voice conversion based on maximum likelihood estimation of spectral parameter trajectory,” IEEE Transactions on Audio, Speech and Language Processing, Nov. 2007, Vol.15, No.8, p.2222-2235.Tomoki Toda, Alan W. Black, Keiichi Tokuda, “Voice conversion based on maximum likelihood estimation of spectral parameter trajectory,” IEEE Transactions on Audio, Speech and Language Processing, Nov. 2007, Vol.15, No.8, p.2222 -2235.

発明が解決しようとする課題は、音声を強調する際のフィルタ特性を適切に制御できる音声処理装置を実現することである。 The problem to be solved by the invention is to realize a speech processing apparatus capable of appropriately controlling the filter characteristics when enhancing speech.

実施形態の音声処理装置は、音声データから抽出された第1の音声特徴量から第1のヒストグラムを計算し、前記第1の音声特徴量とは異なる第2の音声特徴量から第2のヒストグラムを計算するヒストグラム計算手段と、前記第1のヒストグラムの度数を累積した第1の累積度数と、前記第2のヒストグラムの度数を累積した第2の累積度数とを計算する累積度数計算手段と、前記第1および第2の累積度数に基づいて、前記第2の累積度数を前記第1の累積度数に近づける特性をもつフィルタを作成するフィルタ作成手段とを備える音声処理装置である。 The speech processing apparatus according to the embodiment calculates a first histogram from a first speech feature amount extracted from speech data, and calculates a second histogram from a second speech feature amount that is different from the first speech feature amount. A histogram calculation means for calculating the frequency, a first cumulative frequency obtained by accumulating the frequency of the first histogram, and a cumulative frequency calculation means for calculating a second cumulative frequency obtained by accumulating the frequency of the second histogram, And a filter creating unit that creates a filter having a characteristic of bringing the second cumulative frequency closer to the first cumulative frequency based on the first and second cumulative frequencies.

第1の実施形態の音声処理装置を示すブロック図。1 is a block diagram showing a speech processing apparatus according to a first embodiment. 実施形態の音声処理装置のフローチャート(フィルタ作成部)。The flowchart (filter preparation part) of the audio processing apparatus of embodiment. 実施形態の第1の正規化累積度数分布を示す図。The figure which shows the 1st normalization accumulation frequency distribution of embodiment. 実施形態の音声処理装置のフローチャート(音声合成部)。6 is a flowchart (speech synthesizer) of the speech processing apparatus according to the embodiment. 実施形態の第1および第2の正規化累積度数分布を示す図。The figure which shows the 1st and 2nd normalization accumulation frequency distribution of embodiment. 実施形態の第1、第3、第4の音声特徴量の正規化累積度数分を示す図。The figure which shows the part for normalization accumulation frequency of the 1st, 3rd, 4th audio | voice feature-value of embodiment. 実施形態の音声波形のスペクトルを示す図。The figure which shows the spectrum of the audio | voice waveform of embodiment. 変形例1の音声処理装置を示すブロック図。The block diagram which shows the audio | voice processing apparatus of the modification 1. FIG. 変形例3の音声処理装置を示すブロック図。The block diagram which shows the audio | voice processing apparatus of the modification 3. FIG.

以下、本発明の実施形態について図面を参照しながら説明する。 Hereinafter, embodiments of the present invention will be described with reference to the drawings.

(第1の実施形態)
第1の実施形態の音声処理装置は、任意のテキストから音声波形を生成する音声合成を想定しており、フィルタを用いて音声スペクトルの凹凸を強調することにより、音声合成により生成された人工的な音声波形の音質を目標となる実音声データに近づけることを目的としている。ここでは、オフラインで音声スペクトルの凹凸を強調するためのフィルタを作成し、オンラインでこのフィルタを用いて任意のテキストを読み上げるための音声波形を生成する。
(First embodiment)
The speech processing apparatus according to the first embodiment assumes speech synthesis in which a speech waveform is generated from arbitrary text, and artificially generated by speech synthesis by enhancing the unevenness of the speech spectrum using a filter. The purpose is to bring the sound quality of a simple sound waveform closer to the target actual sound data. Here, a filter for emphasizing the unevenness of the speech spectrum is created offline, and a speech waveform for reading out an arbitrary text is generated online using this filter.

フィルタを作成するオフライン処理では、目標となる実音声データから抽出した第1の音声特徴量と、この実音声データのコンテキスト情報および音声合成辞書を用いて生成した第2の音声特徴量とから、それぞれ第1および第2のヒストグラムを計算する。そして、第1のヒストグラムの度数を累積して計算した第1の累積度数および第2のヒストグラムの度数を累積して計算した第2の累積度数に基づいてフィルタを作成する。ここで、本実施形態の音声処理装置は、ユーザの手動調整ではなく、第2の累積度数を目標となる実音声データから求めた第1の累積度数に近づけるという基準でフィルタを作成する。これにより、フィルタ特性を適切に制御することができる。 In the off-line processing for creating the filter, from the first speech feature amount extracted from the target actual speech data, and the second speech feature amount generated using the context information of the actual speech data and the speech synthesis dictionary, First and second histograms are calculated, respectively. Then, a filter is created based on the first cumulative frequency calculated by accumulating the frequencies of the first histogram and the second cumulative frequency calculated by accumulating the frequencies of the second histogram. Here, the speech processing apparatus according to the present embodiment creates a filter based on a criterion that the second cumulative frequency is close to the first cumulative frequency obtained from the target actual speech data, instead of manual adjustment by the user. Thereby, a filter characteristic can be controlled appropriately.

任意のテキストの音声波形を生成するオンライン処理では、読み上げ対象となるテキストを解析し音声合成辞書を用いて生成した音声合成のための第3の音声特徴量を、オフライン処理で生成したフィルタを用いて第4の音声特徴量に変換する。最後に、第4の音声特徴量から音声スペクトルの凹凸を強調した音声波形を生成する。 In the online processing for generating a speech waveform of an arbitrary text, a third speech feature amount for speech synthesis generated by analyzing a text to be read out and using a speech synthesis dictionary is used by a filter generated by offline processing. To convert to the fourth voice feature amount. Finally, a speech waveform in which the unevenness of the speech spectrum is emphasized is generated from the fourth speech feature quantity.

本実施形態では、音声合成のための第3の音声特徴量は、フィルタ作成の際に生成された第2の音声特徴量と同様な方法で抽出された音声特徴量である。したがって、第2の累積度数を第1の累積度数に近づける基準で作成されたフィルタを用いて、第3の音声特徴量を第4の音声特徴量に変換することにより、第4の音声特徴量の累積度数自体を第1の累積度数に近づけることができる。累積度数が近づくことは、音声特徴量のスペクトル特性が近づくことを意味しており、結果として、第4の音声特徴量から生成される人工的な音声波形の音質を目標となる実音声データに近づけることができる。 In the present embodiment, the third speech feature amount for speech synthesis is a speech feature amount extracted by the same method as the second speech feature amount generated at the time of filter creation. Therefore, the fourth voice feature value is obtained by converting the third voice feature value into the fourth voice feature value by using the filter created based on the criterion for making the second cumulative frequency close to the first cumulative frequency. Can be brought close to the first cumulative frequency. When the cumulative frequency approaches, it means that the spectral characteristics of the speech feature amount approach, and as a result, the sound quality of the artificial speech waveform generated from the fourth speech feature amount becomes the target actual speech data. You can get closer.

(ブロック構成)
図1は、第1の実施形態にかかる音声処理装置を示すブロック図である。本実施形態の音声処理装置は、隠れマルコフモデルを利用して任意のテキストから音声波形を生成する。この音声処理装置は、オフラインでフィルタを作成するフィルタ作成部101と、作成されたフィルタを用いてオンラインで音声波形を合成する音声合成部102とを備える。
(Block configuration)
FIG. 1 is a block diagram showing a speech processing apparatus according to the first embodiment. The speech processing apparatus of this embodiment generates a speech waveform from arbitrary text using a hidden Markov model. The speech processing apparatus includes a filter creation unit 101 that creates a filter offline and a speech synthesis unit 102 that synthesizes a speech waveform online using the created filter.

フィルタ作成部101は、音声データ格納部111に格納された実音声データからスペクトルに関する第1の音声特徴量を抽出する第1特徴量抽出部103と、第1の音声特徴量から第1のヒストグラムを計算する第1ヒストグラム計算部104と、第1のヒストグラムから第1の累積度数を計算する第1累積度数計算部105と、音声データ格納部111に記憶されたコンテキスト情報および音声合成辞書106に記憶された隠れマルコフモデルを用いて、スペクトルに関する第2の音声特徴量を生成する第2特徴量抽出部107と、第2の音声特徴量から第2のヒストグラムを計算する第2ヒストグラム計算部108と、第2のヒストグラムから第2の累積度数を計算する第2累積度数計算部109と、第1および第2の累積度数に基づいて、第3の音声特徴量を第4の音声特徴量に変換するフィルタを作成するフィルタ作成処理部110とを備える。   The filter creation unit 101 includes a first feature amount extraction unit 103 that extracts a first speech feature amount related to a spectrum from real speech data stored in the speech data storage unit 111, and a first histogram based on the first speech feature amount. The first histogram calculation unit 104 for calculating the first cumulative frequency from the first histogram, the first cumulative frequency calculation unit 105 for calculating the first cumulative frequency from the first histogram, and the context information stored in the voice data storage unit 111 and the voice synthesis dictionary 106 Using the stored hidden Markov model, a second feature amount extraction unit 107 that generates a second speech feature amount related to the spectrum, and a second histogram calculation unit 108 that calculates a second histogram from the second speech feature amount. And a second cumulative frequency calculation unit 109 for calculating the second cumulative frequency from the second histogram, and based on the first and second cumulative frequencies. Te, and a filter creation unit 110 to create a filter that converts the third audio feature to the fourth speech features.

音声データ格納部111は、フィルタを設計する際の目標となる実音声データおよびこの実音声データのコンテキスト情報を記憶している。コンテキスト情報とは、実音声データの発話内容に関する音韻情報、文中の位置、品詞や係り先などの言語情報である。また、音声合成辞書106は、第2特徴量抽出部107および第3特徴量抽出部113で音声特徴量を生成する際に利用する隠れマルコフモデルを記憶している。   The voice data storage unit 111 stores real voice data that is a target when designing a filter and context information of the real voice data. The context information is phonological information related to the utterance content of the actual speech data, language information such as position in the sentence, part of speech and dependency. Further, the speech synthesis dictionary 106 stores a hidden Markov model used when the second feature amount extraction unit 107 and the third feature amount extraction unit 113 generate speech feature amounts.

音声合成部102は、読み上げ対象となる第1のテキストを解析してコンテキスト情報を抽出するテキスト解析部112と、コンテキスト情報および音声合成辞書106の隠れマルコフモデルを用いてスペクトルに関する第3の音声特徴量を生成する第3特徴量抽出部113と、フィルタ作成部101で作成されたフィルタを用いて、第3の音声特徴量を第4の音声特徴量に変換する特徴量変換部114と、コンテキスト情報および音声合成辞書106の隠れマルコフモデルを用いて音源に関する特徴量(音源特徴量)を生成する音源特徴量抽出部115と、第4の音声特徴量および音源特徴量から音声波形を生成する波形生成部116とを備える。   The speech synthesis unit 102 analyzes the first text to be read out and extracts context information, and uses the context information and the hidden Markov model of the speech synthesis dictionary 106 to provide a third speech feature relating to the spectrum. A third feature quantity extraction unit 113 that generates a quantity, a feature quantity conversion unit 114 that converts the third voice feature quantity into a fourth voice feature quantity using the filter created by the filter creation unit 101, and a context A sound source feature amount extraction unit 115 that generates a sound source feature amount (sound source feature amount) using a hidden Markov model of the information and speech synthesis dictionary 106, and a waveform that generates a speech waveform from the fourth sound feature amount and the sound source feature amount And a generation unit 116.

(フローチャート: フィルタ作成部)
図2は、本実施形態にかかる音声処理装置において、オフラインでフィルタを作成する際のフローチャートである。まず、ステップS1では、第1特徴量抽出部103は、音声データ格納部111から実音声データを取得し、取得した音声波形を20〜30ms程度の長さのフレームに分割する。
(Flowchart: Filter creation part)
FIG. 2 is a flowchart when the filter is created offline in the speech processing apparatus according to the present embodiment. First, in step S1, the first feature quantity extraction unit 103 acquires real audio data from the audio data storage unit 111, and divides the acquired audio waveform into frames having a length of about 20 to 30 ms.

次に、ステップS2では、第1特徴量抽出部103は、各フレームの音響分析を行い第1の音声特徴量を抽出する。ここで、第1の音声特徴量は、音声の声色や音韻情報を表すスペクトルに関する特徴量であり、例えば、音声データをフーリエ変換することにより得られる離散スペクトル、LPC係数、ケプストラム、メルケプストラム、LSP係数、メルLSP係数などを用いることができる。本実施形態では、第1の音声特徴量としてメルLSP係数を用いる。メルLSP係数は短時間フーリエ変換により得られたスペクトルをメルスケールに変換した後にLSP分析を行うことで抽出する。   Next, in step S <b> 2, the first feature quantity extraction unit 103 performs an acoustic analysis of each frame and extracts a first voice feature quantity. Here, the first speech feature amount is a feature amount related to a spectrum representing the voice color and phonological information of the speech. For example, a discrete spectrum obtained by Fourier transforming speech data, an LPC coefficient, a cepstrum, a mel cepstrum, an LSP Coefficients, Mel LSP coefficients, etc. can be used. In this embodiment, the mel LSP coefficient is used as the first audio feature amount. The mel LSP coefficient is extracted by performing LSP analysis after converting the spectrum obtained by the short-time Fourier transform to mel scale.

第1の音声特徴量の次元数はDとし、n番目のフレームから抽出した第1の音声特徴量yは、(1)式で表わされる。Tは転置を表す。

Figure 2015212845
The number of dimensions of the first speech feature quantity is D, the first audio feature y n extracted from the n-th frame is represented by equation (1). T represents transposition.
Figure 2015212845

ステップS3では、第1ヒストグラム計算部104は、総数Nフレームの第1の音声特徴量から第1のヒストグラムを計算する。ステップS3の詳細を説明する。まず、第1ヒストグラム計算部104は、第1の音声特徴量の各次元について最大値ymax(d)および最小値ymin(d)を計算する(ステップS201)。dは次元を表す。そして、この最大値および最小値の範囲内でI+1個の階級を設定し(ステップS202)、各階級における第3の音声特徴量の頻度を計算することで、(2)式で表される各次元のヒストグラムを得る(ステップS203)。

Figure 2015212845
In step S <b> 3, the first histogram calculation unit 104 calculates a first histogram from the first audio feature amount of N frames in total. Details of step S3 will be described. First, the first histogram calculation unit 104 calculates the maximum value y max (d) and the minimum value y min (d) for each dimension of the first audio feature amount (step S201). d represents a dimension. Then, I + 1 classes are set within the range of the maximum value and the minimum value (step S202), and the frequency of the third speech feature amount in each class is calculated, thereby each of the expressions represented by the expression (2). A dimension histogram is obtained (step S203).
Figure 2015212845

ステップS4では、第1累積度数計算部105は、第1の正規化累積度数を計算する。具体的には、第1のヒストグラムから各階級の度数を累積することにより累積度数を求め(ステップS204)、求めた累積度数を総数Nで割ることで正規化する(ステップS205)。正規化された第1の累積度数(第1の正規化累積度数)は、(3)式で表される。

Figure 2015212845
In step S4, the first cumulative frequency calculation unit 105 calculates a first normalized cumulative frequency. Specifically, the cumulative frequency is obtained by accumulating the frequency of each class from the first histogram (step S204), and normalized by dividing the obtained cumulative frequency by the total number N (step S205). The normalized first cumulative frequency (first normalized cumulative frequency) is expressed by equation (3).
Figure 2015212845

正規化後の累積度数の値域は、0〜1になる。 The range of the cumulative frequency after normalization is 0-1.

次に、ステップS5では、第2特徴量抽出部107は、音声データ格納部111に格納された音声データに関するコンテキスト情報を取得する。   Next, in step S <b> 5, the second feature amount extraction unit 107 acquires context information regarding audio data stored in the audio data storage unit 111.

ステップS6では、第2特徴量抽出部107は、ステップS5で取得したコンテキスト情報と音声合成辞書106の隠れマルコフモデルを用いてスペクトルに関する第2の音声特徴量を生成する。本実施形態では、第2の音声特徴量は第1の音声特徴量と同様にメルLSPとなる。第2の音声特徴量の次元数は、第1の音声特徴量と同様にDであり、m番目のフレームから抽出した第2の音声特徴量xは、(4)式で表される。

Figure 2015212845
In step S <b> 6, the second feature amount extraction unit 107 generates a second speech feature amount related to the spectrum using the context information acquired in step S <b> 5 and the hidden Markov model of the speech synthesis dictionary 106. In the present embodiment, the second audio feature quantity is the mel LSP as with the first audio feature quantity. The number of dimensions of the second audio feature quantity is D, as is the case with the first audio feature quantity, and the second audio feature quantity x m extracted from the m-th frame is expressed by equation (4).
Figure 2015212845

ステップS7では、総数Mフレームの第2の音声特徴量から第2のヒストグラムを計算する。ステップS206〜S208の処理は、それぞれステップS201〜S203と同様であるため説明を省略する。なお、ステップS206において、第2の音声特徴量の最大値および最小値を、第1の音声特徴量の最大値および最小値で代用することもできる。   In step S7, a second histogram is calculated from the second audio feature quantity of the total number M frames. Since the processing of steps S206 to S208 is the same as that of steps S201 to S203, description thereof will be omitted. In step S206, the maximum value and the minimum value of the second sound feature amount can be substituted with the maximum value and the minimum value of the first sound feature amount.

ステップS8では、(5)式で表される正規化された第2の累積度数(第2の正規化累積度数)を求める。

Figure 2015212845
In step S8, a normalized second cumulative frequency (second normalized cumulative frequency) expressed by equation (5) is obtained.
Figure 2015212845

ステップS209およびS210の処理は、それぞれステップS204およびS205と同様であるため説明を省略する。 Since the processes in steps S209 and S210 are the same as those in steps S204 and S205, respectively, description thereof will be omitted.

次に、ステップS9では、フィルタ作成処理部110は、第1および第2の正規化累積度数に基づいて、後述する第3の音声特徴量を第4の音声特徴量に変換するフィルタを作成する。ここでは、第2の累積度数を実音声データから計算した第1の累積度数に近づけるという基準でフィルタを作成する。 Next, in step S <b> 9, the filter creation processing unit 110 creates a filter that converts a later-described third voice feature quantity into a fourth voice feature quantity based on the first and second normalized cumulative frequencies. . Here, the filter is created on the basis of bringing the second cumulative frequency closer to the first cumulative frequency calculated from the actual voice data.

ステップS9の詳細を説明する。まず、K個の正規化累積度数p(0≦k<K)を設定する(ステップS211)。例えば、Kを11として、(6)式のように0.1刻みに設定する。

Figure 2015212845
Details of step S9 will be described. First, K normalized cumulative frequencies p k (0 ≦ k <K) are set (step S211). For example, assuming that K is 11, it is set in increments of 0.1 as in equation (6).
Figure 2015212845

なお、pはステップS9の処理ではなく、事前に設定してもよい。 Incidentally, p k is not in the process of step S9, it may be set in advance.

次に、全てのp(0≦k<K)について、第1の正規化累積度数分布において(7)式を満たす階級iを探索する(ステップS212)。

Figure 2015212845
Next, for all p k (0 ≦ k <K), the class i satisfying the expression (7) is searched for in the first normalized cumulative frequency distribution (step S212).
Figure 2015212845

同様に第2の正規化累積度数分布についても、(8)式を満たす階級jを探索する(ステップS212)。

Figure 2015212845
Similarly, for the second normalized cumulative frequency distribution, a class j that satisfies the equation (8) is searched (step S212).
Figure 2015212845

次に、(9)式の線形補間により、第1の正規化累積度数分布においてpに対応する音声特徴量の値y(p,d)を求める(ステップS213)。

Figure 2015212845
Then, (9) by linear interpolation, the value of the voice feature amount corresponding to p k in the first normalized cumulative frequency distribution y - (p k, d) obtaining the (step S213).
Figure 2015212845

ここで、i(k)は、ステップS212で探索された階級である。また、第1の正規化累積分布において、y(i(k),d)は、階級i(k)に対応する音声特徴量の値である。図3に、第1の正規化累積分布上でのpとy(p,d)の関係を示す。 Here, i (k) is the class searched in step S212. In the first normalized cumulative distribution, y (i (k), d) is a value of the speech feature amount corresponding to the class i (k). Figure 3, p k and y on a first normalized cumulative distribution - indicating the (p k, d) relationship.

同様に、(10)式の線形補間により、第2の正規化累積度数分布においてpに対応する値x(p,d)を求める(ステップS213)。

Figure 2015212845
Similarly, (10) by linear interpolation of the equation, the value x corresponds to the p k in the second normalization cumulative frequency distribution - (p k, d) obtaining the (step S213).
Figure 2015212845

ステップS214では、フィルタ作成処理部110は、ステップS213で計算された音声特徴量の値をフィルタとして記憶する。d次元目の特徴量に対応するフィルタT(d)は(11)式で表される。

Figure 2015212845
In step S214, the filter creation processing unit 110 stores the audio feature value calculated in step S213 as a filter. The filter T (d) corresponding to the d-dimensional feature amount is expressed by the equation (11).
Figure 2015212845

ここで、第1および第2の音声特徴量の最大値および最小値を用いて、フィルタT(d)の値を(12)式および(13)式のように置き換えてもよい。

Figure 2015212845
Figure 2015212845
Here, using the maximum value and the minimum value of the first and second audio feature values, the value of the filter T (d) may be replaced as in the expressions (12) and (13).
Figure 2015212845
Figure 2015212845

以上の処理により、本実施形態の音声処理装置は、音声特徴量の各次元についてフィルタT(d)を作成する。フィルタT(d)は、所定の正規化累積度数pを用いて、第1および第2の正規化累積度数の対応関係を保存している。これにより、後述する特徴量変換部114は、フィルタT(d)を用いて第2の正規化累積度数を第1の正規化累積度数に近づけるような変換を実現できる。 Through the above processing, the speech processing apparatus according to the present embodiment creates a filter T (d) for each dimension of the speech feature amount. Filter T (d), using a predetermined normalization cumulative frequency p k, it has saved correspondence relationship between the first and second normalized cumulative frequency. Thereby, the feature amount conversion unit 114 to be described later can realize conversion that causes the second normalized cumulative frequency to approach the first normalized cumulative frequency using the filter T (d).

(フローチャート: 音声合成部)
図4は、本実施形態にかかる音声処理装置において、フィルタを用いて音声スペクトルの凹凸が強調された音声波形を生成する際のフローチャートである。まず、ステップS41では、テキスト解析部112は、読み上げ対象となる第1のテキストを解析してコンテキスト情報を抽出する。コンテキスト情報は、音素情報、アクセント句長、品詞情報などを含んでおり、構文解析により抽出できる。
(Flowchart: Speech synthesis unit)
FIG. 4 is a flowchart when the speech processing apparatus according to the present embodiment generates a speech waveform in which the unevenness of the speech spectrum is enhanced using a filter. First, in step S41, the text analysis unit 112 analyzes the first text to be read out and extracts context information. The context information includes phoneme information, accent phrase length, part of speech information, and the like, and can be extracted by syntax analysis.

次に、ステップS42では、第3特徴量抽出部113は、抽出されたコンテキスト情報および音声合成辞書106の隠れマルコフモデルを用いて(14)式で表される第3の音声特徴量を生成する。

Figure 2015212845
Next, in step S42, the third feature quantity extraction unit 113 generates a third voice feature quantity represented by Expression (14) using the extracted context information and the hidden Markov model of the voice synthesis dictionary 106. .
Figure 2015212845

第3の音声特徴量はスペクトルに関する特徴量であり、第1および第2の音声特徴量と同様にメルLSPを用いる。また、第3の音声特徴量の抽出方法は、第2の音声特徴量の抽出方法と同様である。 The third voice feature value is a spectrum-related feature value, and Mel LSP is used in the same manner as the first and second voice feature values. The third audio feature quantity extraction method is the same as the second audio feature quantity extraction method.

次に、ステップS43では、特徴量変換部114は、オフライン処理で作成されたフィルタT(d)を用いて第3の音声特徴量を第4の音声特徴量に変換する。 Next, in step S43, the feature quantity conversion unit 114 converts the third voice feature quantity into the fourth voice feature quantity by using the filter T (d) created by the offline processing.

ステップS43の詳細を説明する。まず、特徴量変換部114は、第3の音声特徴量の各次元について、(15)式を満たすk(d)を探索する(ステップS401)。

Figure 2015212845
Details of step S43 will be described. First, the feature quantity conversion unit 114 searches for k (d) satisfying the expression (15) for each dimension of the third audio feature quantity (step S401).
Figure 2015212845

次に、特徴量変換部114は、各次元の第3の音声特徴量x (d)を第4の音声特徴量y (d)に変換する(ステップS402)。変換は(16)式で表すことができる。

Figure 2015212845
Next, the feature quantity conversion unit 114 converts the third audio feature quantity x t to (d) of each dimension into the fourth audio feature quantity y t to (d) (step S402). The conversion can be expressed by equation (16).
Figure 2015212845

図5を用いて(16)式の動作を説明する。まず、図5(a)に示す第2の正規化累積度数分布において、変換前の第3の音声特徴量x (d)の正規化累積度数pを、x(pk(d)d)、x(pk(d)+1d)、pk(d)およびpk(d)+1を用いた線形補間により求める。次に、図5(b)に示す第1の正規化累積度数分布において、上記正規化累積頻度pに対応する変換後の音声特徴量y (d)を、y(pk(d),d)、y(pk(d)+1,d)、pおよびpk+1を用いて線形補間により求める。これらの処理をまとめたものが(16)式に相当する。 The operation of equation (16) will be described with reference to FIG. First, in the second normalized cumulative frequency distribution shown in FIG. 5A, the normalized cumulative frequency p of the third speech feature amount x t to (d) before conversion is expressed as x ( pk (d)). ,, d), x - ( p k (d) +1,, d), determined by linear interpolation using p k (d) and p k (d) +1. Next, in the first normalized cumulative frequency distribution shown in FIG. 5B, the converted speech feature value y t to (d) corresponding to the normalized cumulative frequency p is expressed as y ( pk (d ), d), y - ( p k (d) +1, d), determined by linear interpolation using p k and p k + 1. A summary of these processes corresponds to equation (16).

図6に、変換前後における第3の音声特徴量の正規化累積度数分布を示す。この図より、第4の音声特徴量y (d)から計算した正規化累積度数分布の形状は、実音声データから計算した第1の正規化累積度数分布の形状に近付いていることが分かる。つまり、第4の音声特徴量がもつスペクトル特性が、音声データ格納部111に格納された実音声データがもつスペクトル特性に近づいたことを意味する。これは、変換前の第3の音声特徴量は第2の音声特徴量と同様な方法で抽出されており、かつ、フィルタT(d)は、第2の正規化累積度数を第1の正規化累積度数に近づけるという基準で設計されているからである。 FIG. 6 shows the normalized cumulative frequency distribution of the third speech feature before and after conversion. From this figure, it can be seen that the shape of the normalized cumulative frequency distribution calculated from the fourth speech feature value y t to (d) is close to the shape of the first normalized cumulative frequency distribution calculated from the actual speech data. I understand. That is, it means that the spectrum characteristic of the fourth voice feature amount is close to the spectrum characteristic of the actual voice data stored in the voice data storage unit 111. This is because the third speech feature value before conversion is extracted in the same manner as the second speech feature value, and the filter T (d) uses the second normalized cumulative frequency as the first normal feature value. This is because it is designed on the basis of approaching the cumulative accumulation frequency.

なお、ステップS42で生成した第3の音声特徴量x (d)が、第2の音声特徴量の最大値を超えたり最小値を下回ったりする場合は、変換をせずに出力したり、x (d)を最大値あるいは最小値に置き換えて変換したりすることができる。 If the third audio feature quantity x t to (d) generated in step S42 exceeds the maximum value of the second audio feature quantity or falls below the minimum value, it is output without conversion. , X t to (d) can be converted to the maximum value or the minimum value.

ステップS44では、音源特徴量抽出部115は、コンテキスト情報および音声合成辞書106の隠れマルコフモデルを用いて音源特徴量を生成する。音源特徴量には、非周期成分や基本周波数がある。   In step S44, the sound source feature extraction unit 115 generates a sound source feature using the context information and the hidden Markov model of the speech synthesis dictionary 106. Sound source features include aperiodic components and fundamental frequencies.

最後に、ステップS45では、波形生成部116は、第4の音声特徴量y (d)および音源特徴量から音声波形を生成する。図7に、変換前後の音声波形のスペクトルを示す。この図からも、本実施形態のフィルタを用いた変換により、音声スペクトルの凹凸が強調されることが分かる。 Finally, in step S45, the waveform generation unit 116 generates a speech waveform from the fourth speech feature amount y t to (d) and the sound source feature amount. FIG. 7 shows the spectrum of the speech waveform before and after conversion. Also from this figure, it can be seen that the unevenness of the speech spectrum is enhanced by the conversion using the filter of the present embodiment.

(効果)
このように、本実施形態にかかる音声処理装置は、実音声データから計算した第1の累積度数と音声合成辞書を用いて計算した第2の累積度数に基づいて、第2の累積度数を第1の累積度数に近づけるという基準でフィルタを作成する。これにより、フィルタ特性を適切に制御することができる。
(effect)
As described above, the speech processing apparatus according to the present embodiment calculates the second cumulative frequency based on the first cumulative frequency calculated from the actual speech data and the second cumulative frequency calculated using the speech synthesis dictionary. A filter is created on the basis of approaching the cumulative frequency of 1. Thereby, a filter characteristic can be controlled appropriately.

また、本実施形態にかかる音声処理装置は、フィルタ特性をユーザの手動で調整する必要がないため、フィルタ作成に必要な時間的コストを削減することができる。 Moreover, since the audio processing apparatus according to the present embodiment does not require the user to manually adjust the filter characteristics, it is possible to reduce the time cost required for creating the filter.

さらに、本実施形態にかかる音声処理装置は、音声合成辞書を用いて計算した第2の累積度数を実音声データから計算した第1の累積度数に近づける基準でフィルタを作成する。そして、このフィルタを用いて音声合成のための第3の音声特徴量を第4の音声特徴量に変換する。これにより、第4の音声特徴量から生成された音声波形の音質を実音声データに近づけることができる。 Furthermore, the speech processing apparatus according to the present embodiment creates a filter on the basis of bringing the second cumulative frequency calculated using the speech synthesis dictionary close to the first cumulative frequency calculated from the actual speech data. Then, the third voice feature quantity for voice synthesis is converted into a fourth voice feature quantity using this filter. Thereby, the sound quality of the speech waveform generated from the fourth speech feature value can be brought close to the actual speech data.

(変形例1)
本実施形態では、第1ヒストグラム計算部104および第2ヒストグラム計算部108の2つのヒストグラム計算部を設けたが、これらを1つにまとめることもできる。第1累積度数計算部105および第2累積度数計算部109についても同様である。
(Modification 1)
In the present embodiment, two histogram calculation units, the first histogram calculation unit 104 and the second histogram calculation unit 108, are provided, but these may be combined into one. The same applies to the first cumulative frequency calculation unit 105 and the second cumulative frequency calculation unit 109.

また、本実施形態では、第1〜第3の音声特徴量としてスペクトルに関するメルLSPを音声特徴量として用いたが、この他にも、音声に含まれる周期・非周期性の度合いを表す非周期成分、声の高さを表す基本周波数を音声特徴量として用いることができる。また、特徴量の時間方向の変化、周波数方向の変化の度合い、特徴量の次元間の差分、対数値を用いてもよい。 Further, in this embodiment, the mel LSP relating to the spectrum is used as the voice feature quantity as the first to third voice feature quantities. However, in addition to this, the non-period representing the degree of period / aperiodicity included in the voice The fundamental frequency representing the component and the pitch of the voice can be used as the voice feature amount. Also, a change in the feature amount in the time direction, a degree of change in the frequency direction, a difference between the feature amount dimensions, and a logarithmic value may be used.

また、図8に示すように、第2特徴量抽出部107がテキスト解析部112で抽出されたコンテキスト情報を利用して第2の音声特徴量を抽出してもよい。この場合、第2の音声特徴量と第3の音声特徴量が同一となり、フィルタ作成部101は読み上げ対象となるテキスト毎にフィルタT(d)を作成する。これにより、各テキストに最適なフィルタが作成することができる。 Further, as shown in FIG. 8, the second feature quantity extraction unit 107 may extract the second voice feature quantity using the context information extracted by the text analysis unit 112. In this case, the second voice feature quantity and the third voice feature quantity are the same, and the filter creation unit 101 creates a filter T (d) for each text to be read out. This makes it possible to create an optimum filter for each text.

また、本実施形態では、累積度数を正規化したが、正規化せずにフィルタを作成することもできる。   In the present embodiment, the cumulative frequency is normalized, but a filter can be created without normalization.

また、特徴量変換部114が、全ての次元ではなく特定の次元についてフィルタを適用するようにしてもよい。例えば、音声特徴量の総次元数が50であれば、1から30次元はフィルタT(d)を用いて変換し、残りの31〜50次元は変換を行わないなどの処理が可能である。   Further, the feature amount conversion unit 114 may apply the filter not to all dimensions but to a specific dimension. For example, if the total number of dimensions of the audio feature amount is 50, processing can be performed such that 1 to 30 dimensions are converted using the filter T (d), and the remaining 31 to 50 dimensions are not converted.

(変形例2)
フィルタ作成処理部110では、第2の正規化累積度数分布を第1の正規化累積度数分布に近づけるd次元目のフィルタT(d)として、(17)式を満たす係数a 、b を用いることができる。

Figure 2015212845
(Modification 2)
The filter generation unit 110, the coefficient meets the second normalized cumulative frequency distribution as the first normalized cumulative frequency close to the distribution d-th dimension of the filter T (d), the (17) a d ^, b d ^ Can be used.
Figure 2015212845

(17)式を解くと(18)式となる。

Figure 2015212845
When equation (17) is solved, equation (18) is obtained.
Figure 2015212845

特徴量変換部114では、(19)式を用いて各次元の第3の音声特徴量x (d)を第4の音声特徴量y (d)に変換する。

Figure 2015212845
The feature amount conversion unit 114 converts the third speech feature amount x t to (d) of each dimension into the fourth speech feature amount y t to (d) using the equation (19).
Figure 2015212845

(変形例3)
本実施形態では、テキスト音声合成における音声強調について説明したが、他の用途に音声強調を用いることもできる。図9は、入力された音声データの声質を変換する機能を有した音声処理装置のブロック図を示している。この音声処理装置は、声質変換部121に入力された変換前の音声データの声質を、音声データ格納部111に格納された実音声データの声質に近づけることを目的としている。例えば、音声データ格納部111にユーザの実音声データを格納しておけば、声質変換部121に入力された任意の音声波形の声質をユーザの声質に近づくよう変換することができる。
(Modification 3)
In the present embodiment, speech enhancement in text-to-speech synthesis has been described, but speech enhancement can be used for other purposes. FIG. 9 shows a block diagram of a voice processing apparatus having a function of converting the voice quality of inputted voice data. The purpose of this speech processing apparatus is to bring the speech quality of the speech data before conversion input to the speech quality conversion unit 121 closer to the speech quality of the actual speech data stored in the speech data storage unit 111. For example, if the user's actual voice data is stored in the voice data storage unit 111, the voice quality of an arbitrary voice waveform input to the voice quality conversion unit 121 can be converted so as to approach the voice quality of the user.

この音声処理装置は、音声データの声質を変換する声質変換部121を備えている。第2の特徴量抽出部117および第3の特徴量抽出部118は、音声データからそれぞれ第2および第3の音声特徴量を抽出する。声質変換処理部119は、声質を変換するためのフィルタである声質変換フィルタ125を用いて第3の音声特徴量の声質を変換する。特徴量変換部114は、声質変換後の第3の音声特徴量を、フィルタT(d)により音声スペクトルの凹凸を強調した第4の音声特徴量に変換する。   This voice processing apparatus includes a voice quality conversion unit 121 that converts voice quality of voice data. The second feature quantity extraction unit 117 and the third feature quantity extraction unit 118 extract the second and third voice feature quantities from the voice data, respectively. The voice quality conversion processing unit 119 converts the voice quality of the third voice feature amount by using the voice quality conversion filter 125 that is a filter for converting the voice quality. The feature amount conversion unit 114 converts the third speech feature amount after the voice quality conversion into a fourth speech feature amount in which the unevenness of the speech spectrum is emphasized by the filter T (d).

本変形例では、第2音声特徴量抽出部117および第3音声特徴量抽出部118は、互いに同じ方法で音声特徴量を抽出する。また、声質変換処理部124および声質変換処理部119も同じ方法で声質を変換することから、第2ヒストグラム計算部108に入力される音声特徴量と音声特徴量変換部114に入力される音声特徴量は同一なものになる。フィルタT(d)は、声質変換処理部124により声質が変換された第2の音声特徴量の累積度数を、実音声データから計算した第1の累積度数に近づける基準で生成される。このフィルタT(d)を用いた変換により、第4の音声特徴量から生成された音声波形の音質を実音声データの音質に近づけることができる。   In this modification, the second audio feature quantity extraction unit 117 and the third audio feature quantity extraction unit 118 extract the audio feature quantity by the same method. Further, since the voice quality conversion processing unit 124 and the voice quality conversion processing unit 119 also convert the voice quality by the same method, the voice feature amount input to the second histogram calculation unit 108 and the voice feature input to the voice feature amount conversion unit 114 The amount will be the same. The filter T (d) is generated on the basis of bringing the cumulative frequency of the second voice feature amount whose voice quality is converted by the voice quality conversion processing unit 124 closer to the first cumulative frequency calculated from the actual voice data. By the conversion using the filter T (d), the sound quality of the sound waveform generated from the fourth sound feature amount can be brought close to the sound quality of the actual sound data.

このように、本実施形態で説明した音声強調処理は、音声合成だけでなく、声質変換、音声符号化等に用いられる音声特徴量に対しても適用可能である。   As described above, the speech enhancement processing described in the present embodiment can be applied not only to speech synthesis but also to speech feature amounts used for voice quality conversion, speech coding, and the like.

なお、以上説明した本実施形態における一部機能もしくは全ての機能は、ソフトウェア処理により実現可能である。 Note that some or all of the functions in the present embodiment described above can be realized by software processing.

本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。 Although several embodiments of the present invention have been described, these embodiments are presented by way of example and are not intended to limit the scope of the invention. These novel embodiments can be implemented in various other forms, and various omissions, replacements, and changes can be made without departing from the scope of the invention. These embodiments and modifications thereof are included in the scope and gist of the invention, and are included in the invention described in the claims and the equivalents thereof.

101、122、123 フィルタ作成部
102 音声合成部
103 第1特徴量抽出部
104 第1ヒストグラム計算部
105 第1累積度数計算部
106 音声合成辞書
107、117 第2特徴量抽出部
108 第2ヒストグラム計算部
109 第2累積度数計算部
110 フィルタ作成処理部
111 音声データ格納部
112 テキスト解析部
113、118 第3特徴量抽出部
114 特徴量変換部
115、120 音源特徴量抽出部
116 波形生成部
119、124 声質変換処理部
121 声質変換部
125 声質変換フィルタ
101, 122, 123 Filter creation unit 102 Speech synthesis unit 103 First feature amount extraction unit 104 First histogram calculation unit 105 First cumulative frequency calculation unit 106 Speech synthesis dictionary 107, 117 Second feature amount extraction unit 108 Second histogram calculation Unit 109 second cumulative frequency calculation unit 110 filter creation processing unit 111 audio data storage unit 112 text analysis unit 113, 118 third feature amount extraction unit 114 feature amount conversion unit 115, 120 sound source feature amount extraction unit 116 waveform generation unit 119, 124 voice quality conversion processing unit 121 voice quality conversion unit 125 voice quality conversion filter

Claims (7)

フィルタを設計する際の目標となる実音声データから抽出されたスペクトルに関する第1の音声特徴量から第1のヒストグラムを計算し、前記実音声データのコンテキスト情報および音声合成辞書を用いて生成したスペクトルに関する第2の音声特徴量 から第2のヒストグラムを計算するヒストグラム計算手段と、
前記第1のヒストグラムの度数を累積した第1の累積度数と、前記第2のヒストグラムの度数を累積した第2の累積度数とを計算する累積度数計算手段と、
前記第1および第2の累積度数に基づいて、前記第2の累積度数を前記第1の累積度数に近づける特性をもつフィルタを作成するフィルタ作成手段と、
読み上げ対象となるテキストのコンテキスト情報および前記音声合成辞書を用いて生成したスペクトルに関する第3の音声特徴量を、前記フィルタ作成手段で作成されたフィルタを用いて、第4の音声特徴量に変換する特徴量変換手段と、
を備える音声処理装置。
A spectrum generated by calculating a first histogram from a first speech feature amount related to a spectrum extracted from actual speech data to be a target when designing a filter, and using the context information of the actual speech data and a speech synthesis dictionary Histogram calculating means for calculating a second histogram from the second audio feature value for
A cumulative frequency calculation means for calculating a first cumulative frequency obtained by accumulating the frequency of the first histogram and a second cumulative frequency obtained by accumulating the frequency of the second histogram;
Filter creating means for creating a filter having a characteristic of bringing the second cumulative frequency closer to the first cumulative frequency based on the first and second cumulative frequencies;
Using the filter created by the filter creating means, the third speech feature value related to the spectrum generated using the context information of the text to be read out and the speech synthesis dictionary is converted into the fourth speech feature value. Feature amount conversion means;
A speech processing apparatus comprising:
フィルタを設計する際の目標となる実音声データから抽出されたスペクトルに関する第1の音声特徴量から第1のヒストグラムを計算し、読み上げ対象となるテキストのコンテキスト情報および音声合成辞書を用いて生成したスペクトルに関する第2の音声特徴量 から第2のヒストグラムを計算するヒストグラム計算手段と、
前記第1のヒストグラムの度数を累積した第1の累積度数と、前記第2のヒストグラムの度数を累積した第2の累積度数とを計算する累積度数計算手段と、
前記第1および第2の累積度数に基づいて、前記第2の累積度数を前記第1の累積度数に近づける特性をもつフィルタを作成するフィルタ作成手段と、
読み上げ対象となるテキストのコンテキスト情報および前記音声合成辞書を用いて生成したスペクトルに関する第3の音声特徴量を、前記フィルタ作成手段で作成されたフィルタを用いて、第4の音声特徴量に変換する特徴量変換手段と、
を備える音声処理装置。
The first histogram is calculated from the first speech feature amount related to the spectrum extracted from the actual speech data as a target when designing the filter, and is generated using the context information of the text to be read out and the speech synthesis dictionary A histogram calculating means for calculating a second histogram from the second speech feature quantity related to the spectrum;
A cumulative frequency calculation means for calculating a first cumulative frequency obtained by accumulating the frequency of the first histogram and a second cumulative frequency obtained by accumulating the frequency of the second histogram;
Filter creating means for creating a filter having a characteristic of bringing the second cumulative frequency closer to the first cumulative frequency based on the first and second cumulative frequencies;
Using the filter created by the filter creating means, the third speech feature value related to the spectrum generated using the context information of the text to be read out and the speech synthesis dictionary is converted into the fourth speech feature value. Feature amount conversion means;
A speech processing apparatus comprising:
前記フィルタ作成手段が、前記第1および第2の累積度数の値域において所定値を設定し、前記第1の累積度数の分布において前記所定値を累積度数とした場合に対応する音声特徴量の値と、前記第2の累積度数の分布において前記所定値を累積度数とした場合に対応する音声特徴量の値とを用いて前記フィルタを作成する請求項1乃至請求項2記載の音声処理装置。 The audio feature value corresponding to the case where the filter creation means sets a predetermined value in the range of the first and second cumulative frequencies and sets the predetermined value as the cumulative frequency in the distribution of the first cumulative frequencies. The sound processing apparatus according to claim 1, wherein the filter is created using a value of a sound feature amount corresponding to a case where the predetermined value is the cumulative power in the second cumulative power distribution. 前記累積度数計算手段で計算される前記第1および第2の累積度数が、それぞれ前記第1の音声特徴量の総数および前記第2の音声特徴量の総数で正規化されたものである請求項1乃至請求項2記載の音声処理装置。 The first and second cumulative frequencies calculated by the cumulative frequency calculation means are normalized by the total number of the first speech feature amounts and the total number of the second speech feature amounts, respectively. The speech processing apparatus according to claim 1 or 2. 前記第1から第3の音声特徴量が、スペクトル包絡、スペクトル包絡を示すパラメータ、音声の周期性・非周期性を示すパラメータのいずれかである請求項1乃至請求項2記載の音声処理装置。 3. The speech processing apparatus according to claim 1, wherein the first to third speech feature values are any one of a spectrum envelope, a parameter indicating the spectrum envelope, and a parameter indicating the periodicity / non-periodicity of the speech. フィルタを設計する際の目標となる実音声データから抽出されたスペクトルに関する第1の音声特徴量から第1のヒストグラムを計算し、前記実音声データのコンテキスト情報および音声合成辞書を用いて生成したスペクトルに関する第2の音声特徴量から第2のヒストグラムを計算するステップと、
前記第1のヒストグラムの度数を累積した第1の累積度数と、前記第2のヒストグラムの度数を累積した第2の累積度数とを計算するステップと、
前記第1および第2の累積度数に基づいて、前記第2の累積度数を前記第1の累積度数に近づける特性をもつフィルタを作成するステップと、
読み上げ対象となるテキストのコンテキスト情報および前記音声合成辞書を用いて生成したスペクトルに関する第3の音声特徴量を、前記作成されたフィルタを用いて、第4の音声特徴量に変換するステップと、
を備える音声処理方法。
A spectrum generated by calculating a first histogram from a first speech feature amount related to a spectrum extracted from actual speech data to be a target when designing a filter, and using the context information of the actual speech data and a speech synthesis dictionary Calculating a second histogram from a second audio feature quantity for
Calculating a first cumulative frequency obtained by accumulating the frequency of the first histogram and a second cumulative frequency obtained by accumulating the frequency of the second histogram;
Creating a filter having a characteristic of bringing the second cumulative frequency closer to the first cumulative frequency based on the first and second cumulative frequencies;
Converting a third speech feature amount related to a spectrum generated by using the context information of the text to be read out and the speech synthesis dictionary into a fourth speech feature amount using the created filter;
A voice processing method comprising:
フィルタを設計する際の目標となる実音声データから抽出されたスペクトルに関する第1の音声特徴量から第1のヒストグラムを計算し、読み上げ対象となるテキストのコンテキスト情報および音声合成辞書を用いて生成したスペクトルに関する第2の音声特徴量から第2のヒストグラムを計算するステップと、
前記第1のヒストグラムの度数を累積した第1の累積度数と、前記第2のヒストグラムの度数を累積した第2の累積度数とを計算するステップと、
前記第1および第2の累積度数に基づいて、前記第2の累積度数を前記第1の累積度数に近づける特性をもつフィルタを作成するステップと、
読み上げ対象となるテキストのコンテキスト情報および前記音声合成辞書を用いて生成したスペクトルに関する第3の音声特徴量を、前記作成されたフィルタを用いて、第4の音声特徴量に変換するステップと、
を備える音声処理方法。
The first histogram is calculated from the first speech feature amount related to the spectrum extracted from the actual speech data as a target when designing the filter, and is generated using the context information of the text to be read out and the speech synthesis dictionary Calculating a second histogram from a second audio feature for the spectrum;
Calculating a first cumulative frequency obtained by accumulating the frequency of the first histogram and a second cumulative frequency obtained by accumulating the frequency of the second histogram;
Creating a filter having a characteristic of bringing the second cumulative frequency closer to the first cumulative frequency based on the first and second cumulative frequencies;
Converting a third speech feature amount related to a spectrum generated by using the context information of the text to be read out and the speech synthesis dictionary into a fourth speech feature amount using the created filter;
A voice processing method comprising:
JP2015164768A 2015-08-24 2015-08-24 Voice processing device, voice processing method, and filter produced by voice processing method Pending JP2015212845A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015164768A JP2015212845A (en) 2015-08-24 2015-08-24 Voice processing device, voice processing method, and filter produced by voice processing method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015164768A JP2015212845A (en) 2015-08-24 2015-08-24 Voice processing device, voice processing method, and filter produced by voice processing method

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2011136776A Division JP2013003470A (en) 2011-06-20 2011-06-20 Voice processing device, voice processing method, and filter produced by voice processing method

Publications (1)

Publication Number Publication Date
JP2015212845A true JP2015212845A (en) 2015-11-26

Family

ID=54697082

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015164768A Pending JP2015212845A (en) 2015-08-24 2015-08-24 Voice processing device, voice processing method, and filter produced by voice processing method

Country Status (1)

Country Link
JP (1) JP2015212845A (en)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005266349A (en) * 2004-03-18 2005-09-29 Nec Corp Device, method, and program for voice quality conversion
US20070208562A1 (en) * 2006-03-02 2007-09-06 Samsung Electronics Co., Ltd. Method and apparatus for normalizing voice feature vector by backward cumulative histogram
JP2008058379A (en) * 2006-08-29 2008-03-13 Seiko Epson Corp Speech synthesis system and filter device
JP2008242317A (en) * 2007-03-28 2008-10-09 Toshiba Corp Meter pattern generating device, speech synthesizing device, program, and meter pattern generating method
WO2009044525A1 (en) * 2007-10-01 2009-04-09 Panasonic Corporation Voice emphasis device and voice emphasis method

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005266349A (en) * 2004-03-18 2005-09-29 Nec Corp Device, method, and program for voice quality conversion
US20070208562A1 (en) * 2006-03-02 2007-09-06 Samsung Electronics Co., Ltd. Method and apparatus for normalizing voice feature vector by backward cumulative histogram
JP2008058379A (en) * 2006-08-29 2008-03-13 Seiko Epson Corp Speech synthesis system and filter device
JP2008242317A (en) * 2007-03-28 2008-10-09 Toshiba Corp Meter pattern generating device, speech synthesizing device, program, and meter pattern generating method
WO2009044525A1 (en) * 2007-10-01 2009-04-09 Panasonic Corporation Voice emphasis device and voice emphasis method

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
ANGEL DE LA TORRE, JOSE C.SEGURA, CARMEN BENITEZ, ANTONIO M.PEINADO, ANTONIO L.RUBIO: "Non-linear transformations of the feature space for robust Speech Recognition", 2002 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING (ICASSP), vol. 1, JPN6014046831, 13 May 2002 (2002-05-13), pages 401 - 402, ISSN: 0003410176 *
ZHI-ZHENG WU, TOMI KINNUNEN, ENG SIONG CHNG, HAIZHOU LI: "Text-Independent F0 Transformation with Non-Parallel Data for Voice Conversion", INTERSPEECH-2010, JPN7014003166, 26 September 2010 (2010-09-26), pages 1732 - 1735, ISSN: 0003410175 *
大谷 大和、田村 正統、森田 眞弘: "HMM音声合成におけるヒストグラムに基づくスペクトル強調法の検討", 日本音響学会 2011年 秋季研究発表会, JPN6014046832, 13 September 2011 (2011-09-13), JP, pages 349 - 350, ISSN: 0003410177 *

Similar Documents

Publication Publication Date Title
US10186252B1 (en) Text to speech synthesis using deep neural network with constant unit length spectrogram
US11423874B2 (en) Speech synthesis statistical model training device, speech synthesis statistical model training method, and computer program product
EP0970466B1 (en) Voice conversion
US8594993B2 (en) Frame mapping approach for cross-lingual voice transformation
US8321222B2 (en) Synthesis by generation and concatenation of multi-form segments
JP4302788B2 (en) Prosodic database containing fundamental frequency templates for speech synthesis
US7792672B2 (en) Method and system for the quick conversion of a voice signal
JP2006330200A (en) Pitch pattern generation method and its system
JP4829477B2 (en) Voice quality conversion device, voice quality conversion method, and voice quality conversion program
CN112735454A (en) Audio processing method and device, electronic equipment and readable storage medium
CN108369803B (en) Method for forming an excitation signal for a parametric speech synthesis system based on a glottal pulse model
Ramani et al. A multi-level GMM-based cross-lingual voice conversion using language-specific mixture weights for polyglot synthesis
US10446133B2 (en) Multi-stream spectral representation for statistical parametric speech synthesis
JP2013003470A (en) Voice processing device, voice processing method, and filter produced by voice processing method
JP6468519B2 (en) Basic frequency pattern prediction apparatus, method, and program
WO2012032748A1 (en) Audio synthesizer device, audio synthesizer method, and audio synthesizer program
JP6902759B2 (en) Acoustic model learning device, speech synthesizer, method and program
JP6840124B2 (en) Language processor, language processor and language processing method
JP2015212845A (en) Voice processing device, voice processing method, and filter produced by voice processing method
JP6234134B2 (en) Speech synthesizer
JP7079455B1 (en) Acoustic model learning devices, methods and programs, as well as speech synthesizers, methods and programs
Banerjee et al. Voice intonation transformation using segmental linear mapping of pitch contours
JP6468518B2 (en) Basic frequency pattern prediction apparatus, method, and program
Güner A hybrid statistical/unit-selection text-to-speech synthesis system for morphologically rich languages
Mangayyagari et al. Pitch conversion based on pitch mark mapping

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150824

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20160920

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160930

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20170220

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20170317