JP2005189483A - Sound quality model generation method, sound quality conversion method, computer program for them, recording medium with program recorded thereon, and computer programmed with program - Google Patents
Sound quality model generation method, sound quality conversion method, computer program for them, recording medium with program recorded thereon, and computer programmed with program Download PDFInfo
- Publication number
- JP2005189483A JP2005189483A JP2003430209A JP2003430209A JP2005189483A JP 2005189483 A JP2005189483 A JP 2005189483A JP 2003430209 A JP2003430209 A JP 2003430209A JP 2003430209 A JP2003430209 A JP 2003430209A JP 2005189483 A JP2005189483 A JP 2005189483A
- Authority
- JP
- Japan
- Prior art keywords
- waveform
- unit
- voice quality
- voice
- wave
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
Description
この発明は音声の声質を制御する方法に関し、特に、音声の声質をパラメータにより表し、当該パラメータの値を用いて声質を変化させる方法および装置に関する。 The present invention relates to a method for controlling voice quality, and more particularly, to a method and apparatus for expressing voice quality by a parameter and changing the voice quality using the value of the parameter.
ここ二、三十年の間に、コンピュータを用いた音声処理技術は格段に進歩した。例えば、音声認識技術についてはかなり高精度で認識が行なわれるようになり、また音声合成についてもある程度の聞き取りやすさで音声を合成することが可能になっている。 In the last few decades, computer-based speech processing technology has made significant progress. For example, speech recognition technology can be recognized with considerably high accuracy, and speech synthesis can be performed with a certain degree of ease of hearing.
しかし、人間が普段行なっている音声処理とコンピュータを用いた音声処理との間には、まだ多くの点で相違がある。その典型的な例はパラ言語情報の取り扱いである。 However, there are still many differences between voice processing that humans usually perform and voice processing using a computer. A typical example is the handling of paralinguistic information.
パラ言語情報とは、話し言葉のうち、文字では表現できない要素のことをいう。例えば発話時の身振り、顔つき、声の調子などがパラ言語情報を構成する。人間であれば、声の調子の微妙な変化により話者の気持ちを感じ取ることができる。それに対し、音声認識によって得られるのは文字で表現できる要素のみであり、パラ言語情報を捕らえることはできない。同様に、人間であれば、同じ発話内容であっても、発話時の声の調子によって発話時の種々の気持ちを伝えることができる。しかし音声合成ではそのような音声を合成することは難しい。 Paralinguistic information refers to elements of spoken language that cannot be expressed in letters. For example, gestures at the time of utterance, facial appearance, voice tone, etc. constitute paralinguistic information. Humans can feel the speaker's feelings through subtle changes in the tone of their voices. On the other hand, only the elements that can be expressed by characters can be obtained by speech recognition, and paralinguistic information cannot be captured. Similarly, even if the content of the utterance is the same, a person can convey various feelings at the time of utterance by the tone of the voice at the time of utterance. However, in speech synthesis, it is difficult to synthesize such speech.
パラ言語情報の中で代表的なものとして、声質がある。声質については、種々の領域(例えば調音的、音響的、知覚的な領域)での、種々のレベル(例えば音声の機能的側面等)での定義が可能である。広い意味では、声質とは、話者により生成された人間の音声であって、かつ複数個の音声単位(例えば音素)にわたって聴者により知覚された音声の属性のことをいう。 Voice quality is a typical paralinguistic information. The voice quality can be defined at various levels (for example, functional aspects of speech) in various areas (for example, articulatory, acoustic, and perceptual areas). In a broad sense, voice quality refers to the attributes of speech that is human speech generated by a speaker and perceived by a listener over multiple speech units (eg, phonemes).
現在の技術では、音声認識においても音声合成においても、人間が発声する場合の声質の変化に対応した処理を行なうことは困難である。この分野は音韻学と音声処理技術との間で共同して研究を行なうのに格好の分野であると考えられる。 With the current technology, it is difficult to perform processing corresponding to a change in voice quality when a human utters in both speech recognition and speech synthesis. This field is considered to be a good field for joint research between phonology and speech processing technology.
人間とコンピュータとの間のインタフェースとして、音声処理技術は今後ますます多くの局面で使用されることになることは間違いない。その際、パラ言語的な情報もコミュニケーションに利用できれば、人間同士のコミュニケーションに近いものを実現できる。 There is no doubt that speech processing technology will be used in more and more aspects as an interface between humans and computers. At that time, if paralinguistic information can also be used for communication, it is possible to realize something close to human communication.
しかし、現在までのところ、音声認識によって人間の音声の声質を判定したりすることは困難で、ましてや声質から話者の感情を判断することは非常に難しい。また、音声合成においても、あるパラ言語的な情報を伝達するためには声質をどのように制御すればよいかは、今のところ判明していない。 However, until now, it has been difficult to determine the voice quality of human voice by voice recognition, and it is very difficult to judge the emotion of the speaker from the voice quality. In speech synthesis, how to control voice quality in order to transmit certain paralinguistic information has not yet been clarified.
また、声質を制御するためのパラメータの数はできるだけ少ないことが望ましく、さらに理想的には、そうしたパラメータは、生理学上の観点からも、知覚上の観点からも意味あるものであって、声質という現象に関するこれらふたつの領域における理解をより深めるようなものであることが望まれる。 In addition, it is desirable that the number of parameters for controlling voice quality is as small as possible, and more ideally, such parameters are meaningful from both physiological and perceptual viewpoints. It would be desirable to deepen the understanding of these phenomena in these two areas.
しかし従来は、そのような声質を判定したり制御したりするパラメータとしてどのようなものを使用すればよいかは不明であり、したがって当然、どのようにパラメータを変化させれば音声合成の声質を所望のものにすることができるかは分からなかった。 Conventionally, however, it is unclear what parameters should be used as parameters for determining and controlling such voice quality, and naturally, how to change the parameters will improve the voice quality of speech synthesis. I didn't know if it could be what I wanted.
それ故にこの発明の目的は、声質を表すための声質モデルを生成する声質モデル生成方法を提供することである。 Therefore, an object of the present invention is to provide a voice quality model generation method for generating a voice quality model for expressing voice quality.
それ故にこの発明の目的は、少数のパラメータで声質を表すための声質モデルを生成する声質モデル生成方法を提供することである。 SUMMARY OF THE INVENTION Therefore, an object of the present invention is to provide a voice quality model generation method for generating a voice quality model for expressing voice quality with a small number of parameters.
この発明の他の目的は、声質を所望のものに変換することが可能な声質変換装置及び方法を提供することである。 Another object of the present invention is to provide a voice quality conversion apparatus and method capable of converting a voice quality to a desired one.
この発明の他の目的は、少数のパラメータで声質を所望のものに変換することが可能な声質変換装置及び方法を提供することである。 Another object of the present invention is to provide a voice quality conversion apparatus and method capable of converting a voice quality to a desired one with a small number of parameters.
本発明の第1の局面に係る声質モデル生成方法は、それぞれ予め所定の声質に対応して準備された、基準となる複数の音声波形のうち、所定の条件を充足する部分から、当該部分が発声されたときの声帯波の単位波形を推定する声帯波形推定ステップと、声帯波の単位波形の各々を所定のパラメータ化方法にしたがってパラメータ化するパラメータ化ステップと、パラメータ化された声帯波の単位波形に対する主成分分析を行なうことにより、声帯波の単位波形の各々の主成分表現を取得する主成分分析ステップと、声帯波の単位波形の各々の波形と、当該波形に対応する主成分表現とを、当該声帯波が得られた音声波形に対応する声質のモデルとして出力するステップとを含む。 In the voice quality model generation method according to the first aspect of the present invention, a portion of a plurality of reference speech waveforms prepared in advance corresponding to a predetermined voice quality satisfies a predetermined condition from a portion satisfying a predetermined condition. A vocal cord waveform estimation step for estimating a unit waveform of a vocal cord wave when uttered; a parameterization step for parameterizing each of the unit waveforms of the vocal cord wave according to a predetermined parameterization method; and a unit of the parameterized vocal cord wave A principal component analysis step of obtaining a principal component representation of each unit waveform of the vocal fold wave by performing principal component analysis on the waveform, each waveform of the unit waveform of the vocal fold wave, and a principal component representation corresponding to the waveform; Outputting as a voice quality model corresponding to the voice waveform from which the vocal fold wave is obtained.
好ましくは、声帯波形推定ステップは、それぞれ予め所定の音質に対応して準備された、複数の音声波形の音節核を抽出するステップと、抽出された音節核の各々に対し、声道の影響を除去して音声が発生された際の声門気流の体積速度波形を検出するための逆フィルタを適用するステップと、逆フィルタが適用された後の音節核の各々から声帯波の単位波形を抽出する単位波形抽出ステップとを含む。 Preferably, the vocal cord waveform estimating step extracts a syllable nucleus of a plurality of speech waveforms prepared in advance corresponding to a predetermined sound quality, and influences of the vocal tract on each of the extracted syllable nuclei. Applying an inverse filter to detect the volume velocity waveform of the glottal airflow when speech is generated by removing, and extracting a unit waveform of the vocal cord wave from each of the syllable nuclei after the inverse filter is applied Unit waveform extraction step.
より好ましくは、単位波形抽出ステップは、音節核の中央部に存在する、体積速度波形の極小部分を起点とし、そこから当該音節核を含む所定領域の基本周波数により定まる周期の1周期分だけ遡った部分までを単位波形として抽出するステップを含む。 More preferably, the unit waveform extraction step starts from a minimum portion of the volume velocity waveform existing in the center of the syllable nucleus, and goes back by one period determined by the fundamental frequency of a predetermined region including the syllable nucleus. A step of extracting up to a certain portion as a unit waveform.
さらに好ましくは、単位波形抽出ステップに先立って、声門気流の体積速度波形を所定の正規化方法にしたがって正規化するステップをさらに含む。 More preferably, prior to the unit waveform extraction step, the method further includes a step of normalizing the volume velocity waveform of the glottal airflow according to a predetermined normalization method.
好ましくは、主成分分析ステップは、パラメータ化された声帯波の単位波形に対する主成分分析を行なうことにより、声帯波の単位波形の各々の、先頭から所定個数までの主成分による主成分表現を取得するステップを含む。 Preferably, the principal component analysis step obtains principal component representations of up to a predetermined number of principal components from the head of each unit waveform of the vocal fold wave by performing principal component analysis on the parameterized vocal fold unit waveform. Including the steps of:
より好ましくは、所定個数までの主成分は、第1主成分から第4主成分までである。 More preferably, the predetermined number of main components is from the first main component to the fourth main component.
さらに好ましくは、パラメータ化ステップは、声帯波の単位波形を複数の等長部分に分割する所定個数のサンプリング点において、声帯波の単位波形を再サンプリングする再サンプリングステップを含む。 More preferably, the parameterizing step includes a resampling step of resampling the unit waveform of the vocal fold wave at a predetermined number of sampling points that divide the unit waveform of the vocal fold wave into a plurality of equal length portions.
より好ましくは、再サンプリングステップによって再サンプリングされた声帯波の単位波形の差分をとることにより、声帯波の単位波形の微分データ列を求める微分ステップをさらに含み、主成分分析ステップは、微分データ列に対し主成分分析を行なうことにより、声帯波の単位波形の各々の微分量に対する主成分表現を取得するステップを含む。 More preferably, it further includes a differentiation step of obtaining a differential data string of the unit waveform of the vocal fold wave by taking a difference of the unit waveform of the vocal fold wave resampled by the re-sampling step, and the principal component analysis step includes the differential data string The principal component analysis is performed on the unit waveform to obtain a principal component expression for each differential amount of the unit waveform of the vocal fold wave.
さらに好ましくは、微分ステップによって求められた微分データ列の各々は、再サンプリング時間の差分と、当該再サンプリング時間の差分に対応する声帯波の単位波形の差分との対を含み、声質モデル生成方法はさらに、主成分分析ステップに先立って、微分データ列を求めるステップによって求められた微分データ列の各々に対し、時間軸方向の変動による影響と振幅方向の変動による影響とを等化するための予め定められる規準化処理を行なうステップをさらに含む。 More preferably, each of the differential data sequences obtained by the differentiation step includes a pair of a difference in resampling time and a difference in unit waveform of a vocal cord wave corresponding to the difference in resampling time, and a voice quality model generation method Further, prior to the principal component analysis step, for each of the differential data sequences obtained by the step of obtaining the differential data sequence, the effect due to the fluctuation in the time axis direction and the influence due to the fluctuation in the amplitude direction are equalized. The method further includes a step of performing a predetermined normalization process.
本発明の第2の局面に係る声質変換方法は、それぞれ所定の声質に対応付けられた複数のプロトタイプ声帯波の単位波形と、当該複数のプロトタイプ声帯波の単位波形の各々に対して予め定める主成分分析によって得られた先頭から所定個数の主成分表現との対からなる声門波形モデルを用いて、入力音声波形の声質を変換する声質変換方法であって、入力音声波形のうち、所定の条件を充足している部分からそれぞれ声帯波の単位波形を抽出する単位波形抽出ステップと、入力音声波形の声質として予め指定される声質に対応する声門波形モデルと、ユーザにより指定される声質に対応する声門波形モデルとに基づいて、入力音声波形から抽出される声帯波の単位波形を、ユーザにより指定される声質に変換して出力音声波形を生成する音声波形生成ステップとを含む。 The voice quality conversion method according to the second aspect of the present invention includes a main waveform predetermined for each of a plurality of prototype vocal cord wave unit waveforms respectively associated with a predetermined voice quality and a plurality of prototype vocal cord wave unit waveforms. A voice quality conversion method for converting the voice quality of an input speech waveform using a glottal waveform model consisting of pairs with a predetermined number of principal component expressions from the beginning obtained by component analysis. A unit waveform extraction step for extracting a unit waveform of a vocal cord wave from a portion satisfying the above, a glottal waveform model corresponding to a voice quality specified in advance as a voice quality of an input voice waveform, and a voice quality specified by a user Based on the glottal waveform model, the sound that generates the output speech waveform by converting the unit waveform of the vocal cords extracted from the input speech waveform into the voice quality specified by the user And a waveform generation step.
好ましくは、音声波形生成ステップは、入力音声波形の声質に対応する声門波形モデルから第1のプロトタイプ声帯波を選択するステップと、ユーザにより指定された声質に対応する声門波形モデルから第2のプロトタイプ声帯波を選択するステップと、第1の波形と第2の波形との間で所定の演算を行なうことにより、入力音声波形をユーザにより指定された声質の音声波形に変換するための変換関数を算出する変換関数算出ステップと、入力音声波形の声帯波の単位波形に対して変換関数を適用することにより、出力音声波形を生成するステップとを含む。 Preferably, the voice waveform generation step includes a step of selecting a first prototype vocal cord wave from a glottal waveform model corresponding to the voice quality of the input voice waveform, and a second prototype from the glottal waveform model corresponding to the voice quality specified by the user. A step of selecting a vocal fold wave, and a conversion function for converting the input voice waveform into a voice waveform of voice quality designated by the user by performing a predetermined calculation between the first waveform and the second waveform. A conversion function calculating step for calculating, and a step of generating an output speech waveform by applying the conversion function to a unit waveform of a vocal cord wave of the input speech waveform.
より好ましくは、変換関数算出ステップは、第2の波形から第1の波形を減算することにより、変換関数を算出するステップを含む。 More preferably, the conversion function calculating step includes a step of calculating the conversion function by subtracting the first waveform from the second waveform.
さらに好ましくは、音声波形生成ステップは、入力音声波形の声帯波の単位波形に対して変換関数を加算することにより、出力音声波形を生成するステップを含む。 More preferably, the speech waveform generation step includes a step of generating an output speech waveform by adding a conversion function to a unit waveform of a vocal cord wave of the input speech waveform.
好ましくは、単位波形抽出ステップは、入力音声波形の音節核を抽出するステップと、抽出された音節核の各々に対し、声道の影響を除去して音声が発生された際の声門気流の体積速度波形を検出するための逆フィルタを適用するステップと、逆フィルタが適用された後の音節核の各々から声帯波の単位波形を抽出するステップとを含む。 Preferably, the unit waveform extraction step includes a step of extracting a syllable nucleus of the input speech waveform, and a volume of glottal airflow when a voice is generated by removing the influence of the vocal tract for each of the extracted syllable nuclei. Applying an inverse filter for detecting the velocity waveform, and extracting a unit waveform of a vocal cord wave from each of the syllable nuclei after the inverse filter is applied.
より好ましくは、単位波形を抽出するステップは、音節核の中央部に存在する、体積速度波形の極小部分を起点とし、そこから当該音節核を含む所定領域の基本周波数により定まる周期の1周期分だけ遡った部分までを単位波形として抽出するステップを含む。 More preferably, the step of extracting the unit waveform starts from a minimum portion of the volume velocity waveform existing in the center of the syllable nucleus, and from there is one period determined by the fundamental frequency of a predetermined region including the syllable nucleus. This includes a step of extracting as a unit waveform up to a portion that is traced back.
さらに好ましくは、波形を抽出するステップに先立って、声門気流の体積速度波形を所定の正規化方法にしたがって正規化するステップをさらに含む。 More preferably, the method further includes the step of normalizing the volume velocity waveform of the glottal airflow according to a predetermined normalization method prior to the step of extracting the waveform.
好ましくは、先頭から所定個数の主成分表現は、第1主成分から第4主成分によるものである。 Preferably, the predetermined number of principal component representations from the top are based on the first principal component to the fourth principal component.
この発明の第3の局面にかかるコンピュータプログラムは、コンピュータにより実行されると、上記したいずれかの方法の全てのステップを実現するようにコンピュータを動作させるように構成されている。 When executed by a computer, the computer program according to the third aspect of the present invention is configured to operate the computer so as to realize all the steps of any one of the methods described above.
この発明の第4の局面に係るコンピュータは、上記したコンピュータプログラムによりプログラムされている。 A computer according to the fourth aspect of the present invention is programmed by the computer program described above.
この発明の第5の局面に係るコンピュータ読取可能な記録媒体は、上記したコンピュータプログラムを記録したものである。 A computer-readable recording medium according to a fifth aspect of the present invention records the above-described computer program.
‐構成‐
図1は、本発明の一実施の形態に係る声質変換システム30のブロック図である。図1を参照して、この声質変換システム30は、それぞれ特定の声質を持つ音声として選ばれた、声質を制御するパラメータの基準値を定めるための基準音声波形32から、声門波形モデルとしての、声質を制御するパラメータを表すPCAパラメータモデル36を主成分分析(PCA)によって作成するためのモデル作成部34と、入力音声波形50と当該入力音声波形50の声質を特定する声質特定情報51とを受け、入力音声波形50に対して、モデル作成部34が行なうのと同様の分析を行なって声帯波の波形を抽出し、声質特定情報51と、ユーザにより設定されたターゲットの声質とに基づいて、PCAパラメータモデル36を用いて音声波形54をターゲットの声質で再生成するための声質変換装置52とを含む。
-Constitution-
FIG. 1 is a block diagram of a voice
本実施の形態では、基準音声波形32としては、予めそれぞれ特徴的な声質の音声であるとして選ばれた13種類の人間の音声波形を用いる。それら音声波形には、そうした声質を示すラベル付けが予めなされている。本実施の形態では、この音声波形として非特許文献1に添付された音声データを用いている。それら音声とその声質とについては図6を参照して後述する。なお、本実施の形態で使用する音声データは、所定のサンプリング速度でフレーム単位でサンプリングされたデジタルデータとして予め準備されるものとする。
In the present embodiment, as the
図2は、モデル作成部34の詳細な構成を示すブロック図である。図2を参照して、モデル作成部34は、音声波形のうち、話者の発声機構によって安定して発声されている領域(これを以後「音節核」と呼ぶ。)を抽出するための音節核抽出部80を含む。より具体的には、音節核抽出部80は、音響エネルギーの時間軸上の波形分布を算出し、その分布波形の輪郭に対して凸包アルゴリズムを適用することにより音響エネルギーの輪郭中の谷部分を検出し、入力音声を当該谷部分で擬似音節に分割する。音節核抽出部80はさらに、上記のようにして得られた擬似音節中の、音響エネルギーの最大値が得られる点をまず音節核の起点とする。音節核抽出部80はさらに、音節核の左右に、音響エネルギーが所定のしきい値(0.8×音響エネルギーの最大値)より大きく、かつ有声と判定されたフレームであって、かつ同じ擬似音節中のフレームがあればそれらのフレームを擬似音節に1フレームずつ追加していくことにより、連続した領域を音節核として抽出する。
FIG. 2 is a block diagram showing a detailed configuration of the
モデル作成部34はさらに、音節核抽出部80により抽出された音節核の各々について、線形予測(LP)ケプストラムを用いた線形予測によって最初の4つのフォルマント周波数及び帯域を推定するためのフォルマント推定部81を含む。フォルマント推定部81は、所定の線形ケプストラム‐フォルマントマッピングを利用しており、かつ予め母音フォルマントに対するマッピングを学習させてある。この音節核抽出部80及びフォルマント推定部81には、上記した特開2003−330478において開示されたものと同様のものを用いている。
The
モデル作成部34はさらに、音節核抽出部80及びフォルマント推定部81により抽出された音節核の各々に対して、音声に対する声道の影響を除去するための逆フィルタを生成し音声波形に対して適用するための逆フィルタ処理部82と、逆フィルタ処理部82の出力から、当該音節核を発声したときの話者の声帯の声門の体積速度波形を検出するための体積速度波形検出部84とを含む。
The
モデル作成部34はさらに、体積速度波形検出部84が検出した声門の体積速度波形を正規化するための正規化部86と、正規化部86により正規化された声門の体積速度波形から、各音節核の中央近くの1サイクル分の波形(声帯波)の波形データを抽出するための波形抽出部87と、波形抽出部87の抽出した1サイクル分の声帯波の波形データに対し、後述するようなPCA分析を行ない第4主成分までを算出するためのPCA分析部88とを含む。
The
PCA分析部88が出力するPCA分析の主成分の値は、対応する声帯波の波形(これをプロトタイプ声帯波と呼ぶ。)と対応付けられてPCAパラメータモデル36を構成する。PCA分析部88によるPCA分析に先立って音声波形データをパラメータ化する必要があるが、その詳細については後述する。後述するように、こうして得られたPCAパラメータモデルは、基準音声波形32を構成する各音声波形の声質をよく表すものと考えられる。
The value of the principal component of the PCA analysis output from the
図3は、図2に示す逆フィルタ処理部82のより詳細なブロック図である。図3を参照して、逆フィルタ処理部82は、音節核の各々に対し、分析及び総合による最適化によって、ケプストラム‐フォルマントマッピングにより推定されたフォルマントの精度をより高め、さらに時間とともに変化する、声道の影響を除去するための逆フィルタを生成するための逆フィルタ生成部120と、入力される音節核の音声波形のうち、周波数の低いはっきりしない音声成分を減衰させるためのハイパスフィルタ122と、ハイパスフィルタ122の出力のうち、第4フォルマントより上のスペクトル成分を減衰させるためのローパスフィルタ124と、ローパスフィルタ124の出力する音声信号に対して、逆フィルタ生成部120の生成した逆フィルタを適用することにより、声道の最初の4つの共鳴成分の影響を除去するための逆フィルタ適用部126とを含む。
FIG. 3 is a more detailed block diagram of the inverse
図2に示す体積速度波形検出部84は、逆フィルタ適用部126により出力される、声道の影響の除去された音声信号を積分することにより、唇による放射の影響を除去し、声門気流の体積速度波の推定波形を出力する機能を持つ。
The volume velocity
図2に示す正規化部86は、体積速度波形検出部84の出力する声門気流の体積速度波の推定波形を正規化するためのものである。この波形の振幅がどのようなものかは前もって分からないので、このように正規化することが必要である。本実施の形態に係る正規化部86は、音節核の全体にわたる体積速度波の振幅の平均値を求め、元の値から減算することにより波形の正規化を行なっている。
The
図2に示す波形抽出部87は、音節核の近くの声帯波を以下のようにして抽出する。すなわち、波形抽出部87は、音節核の近くの、波形の極小値部分を探し、そこを起点として、そこから1周期分だけ遡った部分までを1サイクルの声帯波として抽出する。この場合の周期は、基本周波数F0の逆数として定められる。
The
図4は、図2に示すPCA分析部88の詳細なブロック図である。PCA分析のためには、波形を一定数のパラメータにより表現する必要がある。PCA分析部88は、声帯波の1サイクルの周期と振幅との双方の値に関連したPCA分析を可能とするために、以下に述べるような特定の方法により声帯波をパラメータ化している。
FIG. 4 is a detailed block diagram of the
図4を参照して、PCA分析部88は、分析対象の声帯波波形の第15高調波により決定されるカットオフ周波数を有するローパスフィルタ140と、ローパスフィルタ140により低周波数成分が減衰された声帯波波形を、30個の互いに等しい間隔の部分波形により構成されるように再サンプリングするための再サンプリング部142とを含む。再サンプリング部142によるサンプリングでは、波形自身に沿ったサンプリング点間の距離が互いに等しくなるようなサンプリングが行なわれる。このようなサンプリングにより、波形の振幅軸と時間軸との間の共分散を考慮に入れることができ、二つの次元の双方に同時に関連するような変化についても柔軟にモデル化することができる。したがって各サンプリング点は、時間軸方向の値と、振幅軸方向の値との二つの値の組となる。
Referring to FIG. 4,
図5に、例となる声帯波160と、声帯波160に対するサンプリング点の例(0〜30により示す。)とを概念的に示す。図5に示すように、サンプリング点は31個あり、その結果声帯波160は30個の互いに等しい長さの部分波形に分割される。
FIG. 5 conceptually shows an example
本実施の形態において、サンプリング点は31個である。この個数は、波形の詳細部分を十分に保存しつつ、パラメータの数をできるだけ少なくするために選択されたものである。もちろん、サンプリング点の数が31に限定されるわけではなく、使用する装置の性能、必要とされる精度などによりサンプリング点の数を選択することができる。 In the present embodiment, there are 31 sampling points. This number was chosen to minimize the number of parameters while preserving the detailed portions of the waveform. Of course, the number of sampling points is not limited to 31, and the number of sampling points can be selected according to the performance of the apparatus used, the required accuracy, and the like.
サンプリング定理によれば、互いに等しい間隔の31個のサンプリング点でサンプリングすることにより、各声帯波形のスペクトルの第15高調波までが保存されることになる。したがって、エイリアシングを避けるため、ローパスフィルタ140のカットオフ周波数を声帯波形の第15高調波に設定してある。 According to the sampling theorem, by sampling at 31 sampling points that are equally spaced from each other, up to the 15th harmonic of the spectrum of each vocal cord waveform is preserved. Therefore, in order to avoid aliasing, the cut-off frequency of the low-pass filter 140 is set to the fifteenth harmonic of the vocal cord waveform.
図4を再度参照して、PCA分析部88はさらに、再サンプリング部142によりサンプリングされた波形の一次差分を算出するための差分算出部144を含む。これは、逆フィルタにより推定された声帯波の振幅のオフセットが未知であるため、その影響をなくすためである。また、種々の声帯波形の間の振幅の相違によってPCA分析に不自然な結果が生じることを避けるためでもある。この結果、30個の座標点においてサンプリングされた、60個のパラメータからなる、声帯波の微分量が得られる。これら60個のパラメータに対してPCA分析を行なうことが可能である。
Referring back to FIG. 4, the
図4を参照して、PCA分析部88はさらに、差分算出部144により算出された声帯波の微分量に対して規準化処理を行なうための規準化処理部146を含む。声帯波の微分の時間及び振幅の次元は互いに無関係であり、そのためPCA分析がそれら次元のうち変化量の大きな次元の方を不当に反映した形で行なわれてしまう可能性があり、それらの影響を等化しておくのが望ましい。そのため、PCA分析に先立ち、各次元について、その全体の平均値を各サンプリング点の値から減算し、さらにそれらサンプリング点の各次元の値をそれらの標準偏差で除算することにより規準化する。規準化処理部146が行なうのはその処理である。
Referring to FIG. 4,
PCA分析部88はさらに、規準化処理部146により規準化された30個のサンプリング点での計60個の値に対してPCA分析を行ない、その第4主成分までを算出するためのPCA計算部148を含む。
The
図6に、基準音声波形32から得られた声帯波と、それらに対するサンプリング結果を示す。図6に示す波形は、特定の声質を表すと判断された複数の音節核に対して算出された波形を、声質ごとに平均することによって得られたものである。(なお、実際には波形の微分量が得られるので、図6に示すのはそれを積分して得られた波形ということになる。)以下、これらをプロトタイプ声帯波と呼ぶ。
FIG. 6 shows vocal cord waves obtained from the
図6において、各波形の上部に記載された1〜3個のアルファベットは、そのプロトタイプ声帯波の声質を表す。アルファベットの組とその意味とを次のテーブル1に示す。 In FIG. 6, 1 to 3 alphabets described at the top of each waveform represent the voice quality of the prototype vocal cord wave. Table 1 below shows the alphabet sets and their meanings.
図7に示す4つのグラフは、それぞれ第1、第2、第3、及び第4主成分について、テスト対象となった全ての声帯波の平均値(実線で示す。)、及び平均値±標準偏差(それぞれ「+」と「□」とを含む線により示す。)を示したものである。ここでは、テスト対象は77種類の声帯波の集団からなる。 The four graphs shown in FIG. 7 show the average value (shown by a solid line) of all the vocal cords that were tested for the first, second, third, and fourth principal components, and the average value ± standard. Deviations (indicated by lines including “+” and “□”, respectively) are shown. Here, the test object is composed of a group of 77 types of vocal cord waves.
これら先頭の4つの主成分により説明される全分散の累計値は、それぞれ57.6%、80.8%、88.2%、及び92.1%である。したがって、60次元の空間により表されるデータに対するPCA分析の結果、直交基底関数が得られるが、そのうちの4つだけで分散の90%以上を説明することが可能なことが分かる。 The cumulative total variance explained by these four leading principal components is 57.6%, 80.8%, 88.2%, and 92.1%, respectively. Therefore, as a result of PCA analysis on data represented by a 60-dimensional space, orthogonal basis functions are obtained, but it is understood that only four of them can explain 90% or more of the variance.
図7の第1番目のグラフは、分散の57.6%を説明する第1主成分から得られる波形を示す。このグラフから、この主成分が主として波形の持続期間、すなわち声帯波の基本周波数を表す。またこの第1主成分は、波形の随伴的な変形についても説明する。周期が短くなると波形はより対称的になり、頂点はより丸くなる。周期が長くなると波形はより広く、頂部は平らになる。したがってこの第1主成分は、波形の立ち上がり部分(声門の開口時)と立下り部分(声門の閉鎖時)との変化は反映していない。 The first graph in FIG. 7 shows the waveform obtained from the first principal component that explains 57.6% of the variance. From this graph, this main component mainly represents the duration of the waveform, that is, the fundamental frequency of the vocal fold wave. The first principal component also describes the accompanying deformation of the waveform. As the period is shortened, the waveform becomes more symmetric and the vertices become more rounded. The longer the period, the wider the waveform and the top becomes flat. Therefore, this first principal component does not reflect the change between the rising portion of the waveform (when the glottis is opened) and the falling portion (when the glottis are closed).
第2主成分を図7の2番目のグラフで示す。第2主成分は、もとの分散のうち、23.2%を説明するものであり、主として声門の開口時の波形の変動を説明するものである。特に、波形の中央部分は、中央のやや右側に偏った単一の頂点を持つ高振幅であるか、又は二重音系の発音の二つのパルスの間のくぼみを説明するような低い振幅であるかのいずれかである。第1主成分と異なり、この第2成分は波形の基本周期とはそれほど大きな関係はない。 The second principal component is shown in the second graph of FIG. The second principal component explains 23.2% of the original variance, and mainly explains the fluctuation of the waveform when the glottis is opened. In particular, the central part of the waveform is either high amplitude with a single apex biased slightly to the right of the center, or low amplitude that accounts for the indentation between the two pulses of the diphonic sound. Either. Unlike the first principal component, this second component has no significant relationship with the fundamental period of the waveform.
第3主成分を図7の3番目のグラフで示す。第3主成分は元の分散の7.4%を説明するが、主として開口時の波形の傾斜と声帯波のピークの形とを反映するようである。例えば、一方の極では開口時の傾斜は急でその後に比較的平坦な頂部が続くが、他方の極では開口時の傾斜はゆるく、その後にさらにピークに続くより緩やかな傾斜部分が続く。 The third principal component is shown in the third graph of FIG. The third principal component accounts for 7.4% of the original variance, but seems to primarily reflect the slope of the waveform at the time of opening and the peak shape of the vocal cords. For example, one pole has a sharp slope at the opening and is followed by a relatively flat top, while the other pole has a gentle slope at the opening, followed by a more gentle slope following the peak.
図7の4番目のグラフは、第4主成分による波形を示す。第4主成分は元の分散のうちわずか3.9%しか説明しないが、パルスのスキューと閉鎖時の速度とを反映する。一方の極では声帯波形は比較的対称形でより緩やかな閉鎖時の傾斜を示すが、他方の極では声帯波形のパルスはやや右側に偏り、より急な閉鎖時の傾斜を示す。 The fourth graph in FIG. 7 shows a waveform based on the fourth principal component. The fourth principal component accounts for only 3.9% of the original variance, but reflects the pulse skew and closing speed. At one pole, the vocal cord waveform is relatively symmetric and exhibits a more gentle closing gradient, while at the other pole, the vocal cord waveform pulses are slightly biased to the right, indicating a steeper closing gradient.
第5主成分以降は、波形のより詳細な部分について説明するものであるが、いずれも元の分散の2%に満たない部分を説明するものでしかない。したがって本実施の形態ではそれらについては考慮しない。 From the fifth principal component onwards, more detailed portions of the waveform will be described, but in any case, only portions that are less than 2% of the original variance will be described. Therefore, they are not considered in this embodiment.
もちろん、第5主成分以降まで考慮してもよい。利用可能な計算機資源と、アプリケーションが必要とする速度との兼ね合いでどの主成分まで考慮するかを決定すればよい。もっとも、上記したように第4主成分までで波形の変化の大方は説明できるので、第5主成分以降を考慮する実益は少ないと思われる。 Of course, you may consider even after a 5th main component. It is only necessary to determine which principal component is to be considered in consideration of the available computer resources and the speed required by the application. However, as described above, since most of the change in the waveform can be explained up to the fourth principal component, it seems that there is little practical benefit considering the fifth and subsequent principal components.
再び図1を参照して、声質変換装置52は、モデル作成部34により生成されたPCAパラメータモデル36を、それぞれのプロトタイプ声帯波の波形データとともに記憶するためのプロトタイプデータ記憶部68と、モデル作成部34で行なわれたのと同様の方法で入力音声波形50から声帯波の1サイクル分の波形を抽出するための声帯波形抽出部60と、声質特定情報51、プロトタイプデータ記憶部68に記憶されているプロトタイプ声帯波データ、及びユーザにより入力されたターゲットの声質に基づいて、入力音声波形50から抽出された声帯波形を、ユーザにより指定された声質の声帯波形に変換する機能を持つ音声波形変換関数を生成するための変換関数生成部62と、変換関数生成部62により得られた変換関数を用いて声帯波形抽出部60から出力される声帯波形を変換することにより、ユーザが指定した声質の音声波形54を生成するための波形再生成部64とを含む。
Referring again to FIG. 1, the voice
声帯波形抽出部60は、処理対象が入力音声波形50であることを除き、モデル作成部34と同様の処理をして声帯波の波形を抽出する機能を持つ。したがってここでは声帯波形抽出部60の詳細な説明は行なわない。
The vocal cord
図8は、変換関数生成部62のより詳細なブロック図である。図8を参照して、変換関数生成部62は、キーボード及びモニタなど、ユーザとの間の対話を実現する入出力装置184と、声質特定情報51に基づいて決定される、入力音声波形50の声質に対応するPCAパラメータを入出力装置184を用いてユーザに提示し、さらにPCAパラメータのターゲットとしてユーザにより指定された値を入出力装置184を介して受け取るためのターゲット設定部182とを含む。ターゲット設定部182はこのとき、プロトタイプデータ記憶部68に記憶されたPCAパラメータモデルを参照する。
FIG. 8 is a more detailed block diagram of the
変換関数生成部62はさらに、ターゲット設定部182により設定されたターゲットPCAパラメータに対するプロトタイプ声帯波の波形から、声質特定情報51に基づいて決定される、入力音声波形50の声質に対応するプロトタイプ声帯波の波形を減算することにより、波形変換関数を生成するための波形減算処理部188とを含む。
The conversion
図9に、ターゲット設定部182によるPCAパラメータの表示とターゲットPCAパラメータの設定との一手法を示す。図9を参照して、図8に示す入出力装置184の出力画面200には、二つのPCAパラメータ設定領域202及び204が表示される。PCAパラメータ設定領域202は第1主成分(PC1)及び第2主成分(PC2)の値を設定するためのものである。PCAパラメータ設定領域204は第3主成分(PC3)及び第4主成分(PC4)の値を設定するためのものである。
FIG. 9 shows one method of displaying the PCA parameters and setting the target PCA parameters by the
PCAパラメータ設定領域202及び204はそれぞれ、二次元の座標(PC1,PC2)及び(PC3,PC4)により表される点を表示することができる。入力音声波形50の声質が指定されることによりプロトタイプデータ記憶部68に記憶された声門波形モデルからPC1〜PC4が決定される。それに対応する点として点210及び214をそれぞれPCAパラメータ設定領域202及び204に表示できる。この2点の表示により入力音声波形50の第1主成分〜第4主成分が特定される。
The PCA
表示上において、例えばユーザがPCAパラメータ設定領域202において点212を新たに指定することにより、PC1及びPC2のターゲットの値が点212に対応する各軸上の値として定まる。同様に、ユーザがPCAパラメータ設定領域204において点216を新たに指定することにより、PC3及びPC4のターゲットの値が定まる。図8に示すターゲット設定部182は、このようにしてユーザにより設定された、第1主成分から第4主成分までのターゲット値を取得する。
On the display, for example, when the user newly designates a
もちろん、図9に示した手法はターゲットを設定するための一つの手法に過ぎない、これ以外にも、例えば各主成分ごとに値を直接入力する方法、予め準備されたプロトタイプを表示し、その中からターゲットとなるプロトタイプを指定させる方法等、様々な手法を用いることができる。 Of course, the method shown in FIG. 9 is only one method for setting a target. Besides this, for example, a method for directly inputting values for each principal component, a prototype prepared in advance, and the like are displayed. Various methods such as a method for designating a target prototype from among them can be used.
図10は、図1に示す波形再生成部64の詳細なブロック図である。図10を参照して、波形再生成部64は、声帯波形抽出部60から出力される各声帯波に、変換関数生成部62により生成された変換関数を加算することにより、入力音声波形50から抽出された声帯波を修正するための波形加算部240と、波形加算部240の出力する変換後の声帯波形に対し、その音声のピッチ及び発話の持続時間を適切なものに調整し、さらに物理的に現実的でない、又は極端な変形により生じる声帯波形の不自然なフォールドバック等を避ける処理を行なうための波形調整部242とを含む。
FIG. 10 is a detailed block diagram of the
前述したとおり、規準化された声帯波形の微分は、それぞれ30個の時間座標及び振幅座標の対により表される。そのため、変換関数生成部62により生成される変換関数は、波形を振幅軸方向だけでなく時間軸方向へも変形させる。これにより、声質が不適切に変わってしまう可能性がある。そのため、波形調整部242により、波形を調整しそうした問題が生じないようにする。
As described above, the differentiation of the normalized vocal cord waveform is represented by 30 time coordinate and amplitude coordinate pairs, respectively. Therefore, the conversion function generated by the conversion
波形再生成部64はさらに、波形調整部242の出力する、変換後の音声波形の微分に対して、図1に示す声帯波形抽出部60内で生成される逆フィルタ(図3に示す逆フィルタ処理部82に相当)の逆フィルタ(逆・逆フィルタ)を適用することにより、元のフォルマントを復元し、変換後の音声信号を出力するための逆・逆フィルタ244を含む。
The
‐動作‐
以上構成を説明した声質変換システム30は以下のように動作する。声質変換システム30の動作には二つの局面がある。第1の局面はPCAパラメータモデル36を作成する処理に関し、第2の局面はこのPCAパラメータモデル36を用い、入力音声波形50の声質をユーザ入力に従い変化させて音声波形54を生成する局面である。以下、まず第1の局面、次に第2の局面を順に説明する。
-Operation-
The voice
まず、第1の局面を説明する。図1を参照して、予め基準音声波形32が準備されているものとする。これら基準音声波形32の各々には、予めその声の声質を特定するラベル付けがなされているものとする。
First, the first aspect will be described. Referring to FIG. 1, it is assumed that a
モデル作成部34のうち、音節核抽出部80及びフォルマント推定部81は、基準音声波形32の各音声に対し、前述した処理を行ない、音節核を抽出する。すなわち、図2を参照して、音節核抽出部80は、音声波形の時間軸上のパワーの分布波形などに基づき、音節核を抽出する。フォルマント推定部81は、各音節核におけるフォルマント周波数及び帯域を推定する。こうして抽出された音節核は、基準音声波形32の音声のうちでも、発話者の発話機構により判定して発話されている部分を示す。
Of the
図2に示す逆フィルタ処理部82は、音節核抽出部80及びフォルマント推定部81により抽出された音節核の各々に対し、逆フィルタ処理を行なうことにより声道による影響を除去する。すなわち、図3を参照して、逆フィルタ生成部120は、音節核の各々に対し、分析及び総合による最適化によって、声道の影響を除去するための逆フィルタのためのパラメータを生成する。このパラメータは時間とともに変化する。ハイパスフィルタ122及びローパスフィルタ124によって低周波数成分及び第4フォルマントより上の成分が除去された音声信号は逆フィルタ適用部126に与えられ、逆フィルタ適用部126によって音声信号から声道の最初の4つの共鳴成分の影響が除去される。逆フィルタ適用部126の出力は図2に示す体積速度波形検出部84に与えられる。
The inverse
体積速度波形検出部84は、逆フィルタ処理部82の出力に基づいて、各音声の音節核における声門気流の体積速度波形を検出する。検出された体積速度波形は正規化部86により正規化され波形抽出部87に与えられる。
The volume
波形抽出部87は、正規化された体積速度波形のうち、音節核の中心付近に存在する1サイクル分の波形を抽出し、PCA分析部88に与える。
The
図4を参照して、PCA分析部88のローパスフィルタ140は、対象の音声波形の第15高調波により決定されるカットオフ周波数より上の周波数成分を除去し、音声信号を再サンプリング部142に与える。再サンプリング部142は、入力される音声波形に対し、波形上で互いに等しい30個の部分波形に分割されるように選ばれた31個の点で音声波形をサンプリングし、時間及び振幅の対を31個生成する。差分算出部144は、これら31個の対の一次差分をとることにより、30個のサンプリング点でサンプリングされた、声帯波の微分量を出力する。規準化処理部146はこの微分量を構成する時間及び振幅の値から、処理対象となる一つの波形全体にわたって得られたそれらの平均値を減算し、さらにその結果の値をそれらの標準偏差で除算することにより規準化し、得られた60個の値(30個の時間及び振幅の微分量の対)をPCA計算部148に与える。PCA計算部148は、このようにして与えられたパラメータに対してPCA分析を行ない、各声質を代表する音声について、第1主成分から第4主成分を算出し、対応する基準音声の声帯波の波形とともにPCAパラメータモデル36を作成する。このPCAパラメータモデル36は、声質変換装置52のプロトタイプデータ記憶部68に記憶される。
Referring to FIG. 4, low-pass filter 140 of
以上でPCAパラメータモデル36の作成処理は終了である。
This completes the
次に、第2の局面における声質変換装置52の動作について説明する。図1を参照して、声帯波形抽出部60は、入力音声波形50に対し、モデル作成部34と同様の処理を行なうことにより入力音声波形50の声帯波の波形を抽出し、波形再生成部64に与える。
Next, the operation of the voice
図8を参照して、ターゲット設定部182は、入力音声波形50に対応する声質を特定する声質特定情報51を受け、プロトタイプデータ記憶部68に記憶されているPCAモデルを参照して、当該声質に対応するPCA分析の第1主成分から第4主成分の値PC1〜PC4をユーザに対して図9に示す形式で提示する。ユーザは、入出力装置184を用い、前述したような操作によってこれらの値を所望の声質に対応する値にそれぞれ変更する。ターゲット設定部182はユーザにより変更された値をPCAのターゲット値として設定し、波形減算処理部188に与える。波形減算処理部188は、ターゲット設定部182により設定されたPCAパラメータのターゲット値に相当するプロトタイプ声門波の波形から、入力音声の声質として指定されたプロトタイプ声門波の波形を減算することにより、波形を変換するための変換関数を生成し、図1に示す波形再生成部64に与える。
Referring to FIG. 8,
図10を参照して、波形再生成部64の波形加算部240は、入力音声波形50から得られた声帯波の波形に対し、波形減算処理部188から与えられた変換関数を加算し、結果を波形調整部242に与える。波形調整部242は、前述したとおり波形加算部240の出力が不自然なものとならないように調整し、その結果を逆・逆フィルタ244に与える。逆・逆フィルタ244は、図1に示す声帯波形抽出部60内で生成された逆フィルタの逆フィルタ(逆・逆フィルタ)処理を入力に対して実行する。これにより、波形調整部242により生成された声門波形に対して、声道による変化が再び加えられ、声質が変化された後の音声波形が得られる。こうして、入力音声波形50と同じ発話内容であって、かつその声質がユーザにより設定されたPCAパラメータにより決定される声質に変換された音声波形54が出力される。
Referring to FIG. 10,
‐実験結果‐
図11に、本実施の形態による処理結果の例を示す。図11は、Laver(非特許文献1)のModalによる発話の一部のスペクトログラム260と、その発話をよりCreakyな声に変換した後のスペクトログラム262とを対照して示す。この例では、変換関数はModalプロトタイプに基づいて生成され、ターゲットをCreakyに設定した。
-Experimental result-
FIG. 11 shows an example of the processing result according to the present embodiment. FIG. 11 shows a contrast of a
本実施の形態では、いずれの入力音声の声質も、予め準備されたプロトタイプの声質に十分近く、そのプロトタイプを変換関数の基礎として選択すれば、入力音声の声質はほぼ正しくターゲットに変換されることを仮定している。図11に示す例では、入力音声の声質はModalの声質に十分近いものと仮定している。 In this embodiment, the voice quality of any input voice is sufficiently close to the voice quality of the prototype prepared in advance, and if the prototype is selected as the basis of the conversion function, the voice quality of the input voice is almost correctly converted to the target. Is assumed. In the example shown in FIG. 11, it is assumed that the voice quality of the input voice is sufficiently close to the voice quality of Modal.
しかし実際には声門波形は、全体としてある特定の声質を持つと感じられる発話中でも、大きく変動するものである。したがって、上記した仮定が常に成立するとは限らない。それでも、図11からは、この変換により、音響的な情報と発話の持続時間とが明らかに保存されていることがわかる。さらに、垂直方向の縞模様からわかるように、この変換によって声帯波がより長くなっている。これは、F0がよりCreakyな声の方向にシフトしていることからも予測されたことである。実際にこの音声波形に基づき音声を合成することにより、変換後の音声が変換前の音声と同じ音声情報を持っており、かつ声質が明らかにCreakyな声に近くなっていることが分かる。 However, in reality, the glottal waveform fluctuates greatly even during utterances that are felt as having a specific voice quality as a whole. Therefore, the above assumption is not always true. Nevertheless, it can be seen from FIG. 11 that this conversion clearly preserves the acoustic information and the duration of the utterance. Furthermore, as can be seen from the vertical stripes, this conversion results in longer vocal cord waves. This is also predicted from the fact that F0 is shifting in the direction of a more crisp voice. By actually synthesizing speech based on this speech waveform, it can be seen that the speech after conversion has the same speech information as the speech before conversion, and the voice quality is clearly close to a clear voice.
以上説明した声質変換システム30を構成するモデル作成部34及び声質変換装置52は、いずれもコンピュータハードウェア及びその上で動作するコンピュータプログラムにより実現できる。このコンピュータハードウェアとしては、音声信号を扱う設備を持ったものであれば、汎用のものを用いることができる。また、上で説明した装置の各機能ブロックは、この明細書の記載に基づき、当業者であればプログラムで実現することができる。そうしたプログラムもまた1つのデータであり、記憶媒体に記憶させて流通させることができる。
Both the
今回開示された実施の形態は単に例示であって、本発明が上記した実施の形態のみに制限されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味および範囲内でのすべての変更を含む。 The embodiment disclosed herein is merely an example, and the present invention is not limited to the above-described embodiment. The scope of the present invention is indicated by each of the claims after taking into account the description of the detailed description of the invention, and all modifications within the meaning and scope equivalent to the wording described therein are intended. Including.
30 声質変換システム、32 基準音声波形、34 モデル作成部、36 PCAパラメータモデル、50 入力音声波形、51 声質特定情報、52 声質変換装置、54 音声波形、60 入力波形抽出部、62 変換関数生成部、64 波形再生成部、80 音節核抽出部、81 フォルマント推定部、82 逆フィルタ処理部、84 体積速度波形検出部、86 正規化部、87 声帯波形抽出部、88 PCA分析部、120 逆フィルタ生成部、122 ハイパスフィルタ、124,140 ローパスフィルタ、126 逆フィルタ適用部、142 再サンプリング部、144 差分算出部、146 規準化処理部、148 PCA計算部、182 ターゲット設定部、184 入出力装置、188 波形減算処理部、240 波形加算部、242 波形調整部、244 逆・逆フィルタ、246 積分処理部
30 voice quality conversion system, 32 reference speech waveform, 34 model creation unit, 36 PCA parameter model, 50 input speech waveform, 51 voice quality identification information, 52 voice quality conversion device, 54 speech waveform, 60 input waveform extraction unit, 62 conversion function generation unit , 64 waveform regeneration unit, 80 syllable nucleus extraction unit, 81 formant estimation unit, 82 inverse filter processing unit, 84 volume velocity waveform detection unit, 86 normalization unit, 87 vocal cord waveform extraction unit, 88 PCA analysis unit, 120 inverse filter Generator, 122 high-pass filter, 124,140 low-pass filter, 126 inverse filter application unit, 142 re-sampling unit, 144 difference calculation unit, 146 normalization processing unit, 148 PCA calculation unit, 182 target setting unit, 184 input / output device, 188 Waveform subtraction processing unit, 240 Waveform addition unit, 242 Waveform adjustment unit, 244 And inverse filter 246 integration processing unit
Claims (20)
前記声帯波の単位波形の各々を所定のパラメータ化方法にしたがってパラメータ化するパラメータ化ステップと、
前記パラメータ化された声帯波の単位波形に対する主成分分析を行なうことにより、前記声帯波の単位波形の各々の主成分表現を取得する主成分分析ステップと、
前記声帯波の単位波形の各々の波形と、当該波形に対応する主成分表現とを、当該声帯波が得られた音声波形に対応する声質のモデルとして出力するステップとを含む、声質モデル生成方法。 A vocal fold waveform that estimates a unit waveform of a vocal fold wave when a portion of a plurality of reference sound waveforms prepared in advance corresponding to a predetermined voice quality satisfies a predetermined condition when the portion is uttered An estimation step;
A parameterization step of parameterizing each of the unit waveforms of the vocal fold according to a predetermined parameterization method;
A principal component analysis step of obtaining a principal component representation of each of the unit waveforms of the vocal fold wave by performing a principal component analysis on the unit waveform of the parameterized vocal fold wave;
Outputting a waveform of each unit waveform of the vocal fold wave and a principal component expression corresponding to the waveform as a voice quality model corresponding to the speech waveform from which the vocal fold wave is obtained. .
それぞれ予め所定の音質に対応して準備された、前記複数の音声波形の音節核を抽出するステップと、
抽出された前記音節核の各々に対し、声道の影響を除去して音声が発生された際の声門気流の体積速度波形を検出するための逆フィルタを適用するステップと、
前記逆フィルタが適用された後の前記音節核の各々から前記声帯波の単位波形を抽出する単位波形抽出ステップとを含む、請求項1に記載の声質モデル生成方法。 The vocal cord waveform estimation step includes:
Extracting syllable nuclei of the plurality of speech waveforms, each prepared in advance corresponding to a predetermined sound quality;
Applying, to each of the extracted syllable nuclei, an inverse filter for detecting the volume velocity waveform of glottal airflow when sound is generated by removing the influence of the vocal tract;
The voice quality model generation method according to claim 1, further comprising: a unit waveform extraction step of extracting a unit waveform of the vocal cord wave from each of the syllable nuclei after the inverse filter is applied.
前記パラメータ化された声帯波の単位波形に対する主成分分析を行なうことにより、前記声帯波の単位波形の各々の、先頭から所定個数までの主成分による主成分表現を取得するステップを含む、請求項1〜請求項4のいずれかに記載の声質モデル生成方法。 The principal component analysis step includes:
The method includes: obtaining principal component representations of principal components from the head to a predetermined number of each of the unit waveforms of the vocal fold wave by performing principal component analysis on the unit waveform of the parameterized vocal fold wave. The voice quality model generation method according to any one of claims 1 to 4.
前記主成分分析ステップは、前記微分データ列に対し前記主成分分析を行なうことにより、前記声帯波の単位波形の各々の微分量に対する主成分表現を取得するステップを含む、請求項7に記載の声質モデル生成方法。 A differential step of obtaining a differential data string of the unit waveform of the vocal fold wave by taking a difference of the unit waveform of the vocal fold wave resampled by the re-sampling step;
The principal component analysis step includes the step of acquiring a principal component expression for each differential amount of the unit waveform of the vocal fold wave by performing the principal component analysis on the differential data string. Voice quality model generation method.
前記声質モデル生成方法はさらに、前記主成分分析ステップに先立って、前記微分データ列を求めるステップによって求められた微分データ列の各々に対し、時間軸方向の変動による影響と振幅方向の変動による影響とを等化するための予め定められる規準化処理を行なうステップをさらに含む、請求項8に記載の声質モデル生成方法。 Each of the differential data strings obtained by the differentiation step includes a pair of a difference in re-sampling time and a difference in unit waveform of the vocal fold wave corresponding to the difference in re-sampling time,
The voice quality model generation method further includes the influence of fluctuation in the time axis direction and the influence of fluctuation in the amplitude direction on each of the differential data strings obtained by the step of obtaining the differential data string prior to the principal component analysis step. The voice quality model generation method according to claim 8, further comprising a step of performing a predetermined normalization process for equalizing.
入力音声波形のうち、所定の条件を充足している部分からそれぞれ声帯波の単位波形を抽出する単位波形抽出ステップと、
入力音声波形の声質として予め指定される声質に対応する声門波形モデルと、ユーザにより指定される声質に対応する声門波形モデルとに基づいて、前記入力音声波形から抽出された声帯波の単位波形を、前記ユーザにより指定される声質に変換して出力音声波形を生成する音声波形生成ステップとを含む、声質変換方法。 A plurality of prototype vocal cord wave unit waveforms each associated with a predetermined voice quality, and a predetermined number of principal component representations from the head obtained by a predetermined principal component analysis for each of the plurality of prototype vocal cord wave unit waveforms A voice quality conversion method for converting the voice quality of an input voice waveform using a glottal waveform model consisting of
A unit waveform extraction step for extracting a unit waveform of each vocal fold wave from a portion satisfying a predetermined condition in the input speech waveform;
Based on the glottal waveform model corresponding to the voice quality specified in advance as the voice quality of the input voice waveform and the glottal waveform model corresponding to the voice quality specified by the user, the unit waveform of the vocal cord wave extracted from the input voice waveform A voice waveform conversion step including a voice waveform generation step of generating an output voice waveform by converting the voice quality specified by the user.
前記入力音声波形の声質に対応する声門波形モデルから第1のプロトタイプ声帯波を選択するステップと、
前記ユーザにより指定された声質に対応する声門波形モデルから第2のプロトタイプ声帯波を選択するステップと、
前記第1の波形と前記第2の波形との間で所定の演算を行なうことにより、前記入力音声波形を前記ユーザにより指定された声質の音声波形に変換するための変換関数を算出する変換関数算出ステップと、
前記入力音声波形の声帯波の単位波形に対して前記変換関数を適用することにより、前記出力音声波形を生成するステップとを含む、請求項10に記載の声質変換方法。 The speech waveform generation step includes
Selecting a first prototype vocal cord wave from a glottal waveform model corresponding to the voice quality of the input speech waveform;
Selecting a second prototype vocal cord wave from a glottal waveform model corresponding to the voice quality specified by the user;
A conversion function for calculating a conversion function for converting the input speech waveform into a speech waveform of voice quality designated by the user by performing a predetermined calculation between the first waveform and the second waveform. A calculation step;
The voice quality conversion method according to claim 10, further comprising: generating the output voice waveform by applying the conversion function to a unit waveform of a vocal cord wave of the input voice waveform.
前記入力音声波形の音節核を抽出するステップと、
抽出された前記音節核の各々に対し、声道の影響を除去して音声が発生された際の声門気流の体積速度波形を検出するための逆フィルタを適用するステップと、
前記逆フィルタが適用された後の前記音節核の各々から前記声帯波の単位波形を抽出するステップとを含む、請求項1〜請求項13のいずれかに記載の声質変換方法。 The unit waveform extraction step includes:
Extracting a syllable nucleus of the input speech waveform;
Applying, to each of the extracted syllable nuclei, an inverse filter for detecting the volume velocity waveform of glottal airflow when sound is generated by removing the influence of the vocal tract;
The voice quality conversion method according to claim 1, further comprising: extracting a unit waveform of the vocal cord wave from each of the syllable nuclei after the inverse filter is applied.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003430209A JP4177751B2 (en) | 2003-12-25 | 2003-12-25 | Voice quality model generation method, voice quality conversion method, computer program therefor, recording medium recording the program, and computer programmed by the program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003430209A JP4177751B2 (en) | 2003-12-25 | 2003-12-25 | Voice quality model generation method, voice quality conversion method, computer program therefor, recording medium recording the program, and computer programmed by the program |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2005189483A true JP2005189483A (en) | 2005-07-14 |
JP2005189483A5 JP2005189483A5 (en) | 2005-08-25 |
JP4177751B2 JP4177751B2 (en) | 2008-11-05 |
Family
ID=34788644
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003430209A Expired - Fee Related JP4177751B2 (en) | 2003-12-25 | 2003-12-25 | Voice quality model generation method, voice quality conversion method, computer program therefor, recording medium recording the program, and computer programmed by the program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4177751B2 (en) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2008142836A1 (en) * | 2007-05-14 | 2008-11-27 | Panasonic Corporation | Voice tone converting device and voice tone converting method |
JP2010026068A (en) * | 2008-07-16 | 2010-02-04 | Toshiba Corp | Information processing device |
JP5039865B2 (en) * | 2010-06-04 | 2012-10-03 | パナソニック株式会社 | Voice quality conversion apparatus and method |
US8898062B2 (en) | 2007-02-19 | 2014-11-25 | Panasonic Intellectual Property Corporation Of America | Strained-rough-voice conversion device, voice conversion device, voice synthesis device, voice conversion method, voice synthesis method, and program |
-
2003
- 2003-12-25 JP JP2003430209A patent/JP4177751B2/en not_active Expired - Fee Related
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8898062B2 (en) | 2007-02-19 | 2014-11-25 | Panasonic Intellectual Property Corporation Of America | Strained-rough-voice conversion device, voice conversion device, voice synthesis device, voice conversion method, voice synthesis method, and program |
WO2008142836A1 (en) * | 2007-05-14 | 2008-11-27 | Panasonic Corporation | Voice tone converting device and voice tone converting method |
US8898055B2 (en) | 2007-05-14 | 2014-11-25 | Panasonic Intellectual Property Corporation Of America | Voice quality conversion device and voice quality conversion method for converting voice quality of an input speech using target vocal tract information and received vocal tract information corresponding to the input speech |
JP2010026068A (en) * | 2008-07-16 | 2010-02-04 | Toshiba Corp | Information processing device |
JP5039865B2 (en) * | 2010-06-04 | 2012-10-03 | パナソニック株式会社 | Voice quality conversion apparatus and method |
Also Published As
Publication number | Publication date |
---|---|
JP4177751B2 (en) | 2008-11-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Drugman et al. | Glottal source processing: From analysis to applications | |
Banbrook et al. | Speech characterization and synthesis by nonlinear methods | |
EP1667108B1 (en) | Speech synthesis system, speech synthesis method, and program product | |
Drugman et al. | A comparative study of glottal source estimation techniques | |
WO2014062521A1 (en) | Emotion recognition using auditory attention cues extracted from users voice | |
Alku et al. | Closed phase covariance analysis based on constrained linear prediction for glottal inverse filtering | |
JP4516157B2 (en) | Speech analysis device, speech analysis / synthesis device, correction rule information generation device, speech analysis system, speech analysis method, correction rule information generation method, and program | |
JP4568826B2 (en) | Glottal closure segment detection device and glottal closure segment detection program | |
Raitio et al. | Deep neural network based trainable voice source model for synthesis of speech with varying vocal effort. | |
JP2019008206A (en) | Voice band extension device, voice band extension statistical model learning device and program thereof | |
JP3673507B2 (en) | APPARATUS AND PROGRAM FOR DETERMINING PART OF SPECIFIC VOICE CHARACTERISTIC CHARACTERISTICS, APPARATUS AND PROGRAM FOR DETERMINING PART OF SPEECH SIGNAL CHARACTERISTICS WITH HIGH RELIABILITY, AND Pseudo-Syllable Nucleus Extraction Apparatus and Program | |
Narendra et al. | Estimation of the glottal source from coded telephone speech using deep neural networks | |
WO2015025788A1 (en) | Quantitative f0 pattern generation device and method, and model learning device and method for generating f0 pattern | |
Ananthakrishnan et al. | Mapping between acoustic and articulatory gestures | |
JP3174777B2 (en) | Signal processing method and apparatus | |
JP4177751B2 (en) | Voice quality model generation method, voice quality conversion method, computer program therefor, recording medium recording the program, and computer programmed by the program | |
Airaksinen et al. | Quadratic programming approach to glottal inverse filtering by joint norm-1 and norm-2 optimization | |
Buza et al. | Voice signal processing for speech synthesis | |
JPH08305396A (en) | Device and method for expanding voice band | |
Tanaka et al. | An evaluation of excitation feature prediction in a hybrid approach to electrolaryngeal speech enhancement | |
Athanasopoulos et al. | 3D immersive karaoke for the learning of foreign language pronunciation | |
Alku et al. | Parameterization of the voice source by combining spectral decay and amplitude features of the glottal flow | |
JP6137708B2 (en) | Quantitative F0 pattern generation device, model learning device for F0 pattern generation, and computer program | |
Savran et al. | Speaker-independent 3D face synthesis driven by speech and text | |
WO2018043708A1 (en) | Method for extracting intonation structure of speech, and computer program therefor |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20050405 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050405 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20070813 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070904 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20071026 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20080805 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20080822 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110829 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120829 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120829 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130829 Year of fee payment: 5 |
|
LAPS | Cancellation because of no payment of annual fees |