JP2655902B2 - Audio features extraction system - Google Patents

Audio features extraction system

Info

Publication number
JP2655902B2
JP2655902B2 JP2337789A JP2337789A JP2655902B2 JP 2655902 B2 JP2655902 B2 JP 2655902B2 JP 2337789 A JP2337789 A JP 2337789A JP 2337789 A JP2337789 A JP 2337789A JP 2655902 B2 JP2655902 B2 JP 2655902B2
Authority
JP
Grant status
Grant
Patent type
Prior art keywords
vowel
position
articulatory
step
articulation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2337789A
Other languages
Japanese (ja)
Other versions
JPH02203396A (en )
Inventor
憲治 坂本
耕市 山口
Original Assignee
シャープ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Grant date

Links

Description

【発明の詳細な説明】 <産業上の利用分野> この発明は、入力音声から話者や言語に依存しない特徴量を抽出する音声の特徴抽出装置に関する。 DETAILED DESCRIPTION OF THE INVENTION <FIELD OF THE INVENTION> The present invention relates to a feature extraction apparatus of the speech to extract a feature value that does not depend from the input speech to the speaker and language.

<従来の技術> 従来、音声認識装置によって入力音声を認識する場合には、次のようにして行っている。 <Prior Art> Conventionally, when recognizing an input speech by the speech recognition device is performed as follows. すなわち、特徴抽出部によって、入力された音声信号を周波数分析して認識対象の幾つかの音素の特徴量を予め抽出しておく。 That is, the feature extraction unit in advance extracts a feature of a number of phonemes recognized the input audio signal to frequency analysis. そして、この複数の音素の特徴量を各音素の標準パターンとして記憶部に記憶しておく。 Then, it stores the feature amounts of the plurality of phonemes in the storage unit as a reference pattern for each phoneme. 次に、各単語をそれらの音素標準パターンの系列として表現し、この音素標準パターン系列を単語の音素列と対応付けて各単語毎に記憶部に記憶し、単語辞書として蓄えておく。 Then, each word is represented as a sequence of their phonemes standard pattern, and stores the phoneme standard pattern sequence in association with the phoneme sequence of words in the memory unit for each word, set aside as a word dictionary. 一方、未知の音声が入力されると、上記特徴抽出部によって、上述のようにして入力音声の特徴量をフレーム毎に抽出する。 On the other hand, if the unknown speech is inputted by the feature extraction unit extracts a feature amount of the input speech for each frame as described above. そして、抽出された未知の音声のフレーム毎の特徴量と上記記憶部に記憶された音素標準パターンとの類似度を調べ、最も類似度の高い音素標準パターンを有する音素をそのフレームの音素として決定する。 Then, examine the similarity between the extracted unknown speech frames each feature quantity and the phoneme standard pattern stored in the storage unit, determining the phonemes with high phoneme standard patterns most similarity as a phoneme of the frame to. 以下同様にして、 In the same manner,
順次各フレームの音素を決定して未知の音声を音素の系列として表す。 Sequentially determining a phoneme of each frame representing an unknown speech as a phoneme sequence. そして、この未知の音声からの音素系列と上記記憶部に格納されている単語辞書の各単語の音素標準パターン系列との類似度を調べ、最も類似度の高い音素標準パターン系列を有する単語を、入力音声の単語として決定するのである。 Then, examine the similarity between each word phoneme standard pattern sequence of the word dictionary stored in the phoneme sequence and the storage unit from the unknown speech, words having the highest similarity phoneme standard pattern sequence, than is determined as the word of the input speech.

また、調音器官の構造に基づいて、声道形を直接表現する調音モデルを設定し、モデルマッチングの手法によって、音声波から調音状態を推定する方法が提案されている(白井,誉田:“音声波からの調音パラメータの推定”電子通信学会論文誌'78/5 Vol.J61−A No.5)。 Further, based on the structure of the articulator, set the articulatory model that directly represent the vocal tract shape, the model matching method, a method of estimating the articulatory state is proposed from the sound wave (Shirai, Honda: "Voice estimation of articulatory parameters from the wave, "the Institute of Electronics and communication Engineers Journal '78 / 5 Vol.J61-a No.5). この方法においては、調音器官の位置を表す調音パラメータから音声スペクトルに関する音響パラメータへ変換する非線形な関数モデルが与えられるものと仮定し、逆に上記音響パラメータから非線形最適化問題を解くことによって上記調音パラメータを求めて(すなわち、上記関数モデルの適合誤差を最小にするように調音パラメータを求めて)、調音状態を推定するものである。 In this way, the articulation by assuming that nonlinear function model that converts articulatory parameters representing the position of the articulator to the acoustic parameters relating to the speech spectrum is given, solving nonlinear optimization problems from the acoustic parameter in the opposite seeking parameters (i.e., seeking articulatory parameters to minimize the fitting error of the function model) is to estimate the articulatory state.

<発明が解決しようとする課題> しかしながら、上記従来の入力音声の認識方法には次のような問題がある。 <SUMMARY invention> However, the recognition method of the conventional input speech has the following problems. すなわち、音素標準パターンに基づく方法においては、上記特徴抽出部によって抽出される音素の特徴量は、同じ表記の音素記号を発声した音声であっても話者の生理的差(例えば、声道長の差等)によって異なるだけでなく、単語中の母音の場合には前後の音韻環境による調音結合の影響によっても異なってしまうという問題がある。 That is, in the method based on phoneme standard patterns, characteristic of phonemes are extracted by the feature extraction unit, physiological difference even speaker a sound phoneme symbols uttered the same notation (e.g., vocal tract length of vary not only by differentially), in the case of the vowel in the word there is a problem that also different due to the effect of coarticulation by the before and after of the phoneme environment. すなわち、このような音素の特徴量を用いて音声認識を行うと、同じ音素記号を発声した音声であっても異なる音素であると判断されて、リジェクトされる場合や誤認識される場合があり、高い認識性能が得られないのである。 That is, when performing speech recognition by using the feature amounts of such phonemes, it is determined that it is also a voice uttered the same phoneme symbol different phonemes, there may be and misrecognition when rejected , is not high recognition performance can not be obtained. このような問題は、話者や音韻環境によってその特徴量が変動する音素の特徴量を用いて音声認識を行っているために生じる。 This problem occurs because of performing speech recognition by using the feature amount of a phoneme varying its characteristic quantity by a speaker and phoneme environment.

したがって、このような問題を解決するためには、話者が変わったり音韻環境が変わっても変動しない、すなわち、話者や言語に依存しない音声の発声に固有の特徴量を抽出する必要がある。 Therefore, in order to solve such a problem does not vary even changed phoneme environment may change talker, i.e., it is necessary to extract the characteristic amount proper to the utterance of the sound speaker-independent or language .

また、調音モデルを用いて音響パラメータから調音パラメータを推定する方法においては、解の唯一性や収束の安定性が問題となる。 Further, in the method of estimating the articulatory parameters from an acoustic parameter using the articulatory model, the stability of the uniqueness and convergence problems solutions. そこで、白井等は、調音パラメータの変動範囲および分析フレーム間の連続性の制約を評価関数に取り入れること、声道特性の分離基準として関数モデルの特性を考慮すること、適切な初期値の設定値の制限を設けることによって解を求めている。 Accordingly, Hitoshi Shirai is to incorporate continuity constraints between variation range and analysis frame of articulatory parameters into the evaluation function, taking into account the characteristics of the function model as a separate reference vocal tract characteristics, appropriate initial value of the set value seeking solutions by providing a limit. しかしながら、上述のような解の求め方は複雑であるため、処理に時間がかかり、母音中心等の安定した所でしか適用できず、特定の話者にしか適応できな等の問題がある。 However, because of obtaining the solution as described above is complicated, the process takes time, can be applied only in a stable at the vowel center such, there is a problem name, etc. can be adapted only to a particular speaker.

そこで、この発明の目的は、簡単な処理によって、話者や言語に依存しない音声の発声に固有な特徴量である調音位置(声道中に形成される狭めの位置)を抽出することができる音声の特徴抽出装置を提供することにある。 It is an object of the present invention, by a simple process, it is possible to extract the articulation position is a unique feature quantity utterance of speech speaker-independent or language (position of narrowing is formed along the way voice) and to provide a speech feature extractor.

<課題を解決するため手段> 上記目的を達成するため、この発明は、入力音声を周波数分析し,得られた周波数成分から音声の特徴量を抽出する音声の特徴抽出装置において、入力音声の母音区間および子音区間を判定する母音/子音区間判定部と、 To achieve the above object <means for solving the problems>, the present invention is an input audio frequency analysis, the feature extractor of the speech for extracting a feature value of the audio from the obtained frequency components of the input speech vowel and determining a vowel / consonant segment determination unit section and consonant segment,
母音における少なくとも2つの周波数成分を調音位置に変換するためのテーブルであって,発声内容が既知である複数の単母音に係る要素値を含む変換テーブルと、発声内容が既知の対象母音の調音位置を求める調音位置抽出部を備えて、上記調音位置抽出部は、上記母音/子音区間判定部によって母音区間であると判定された発声内容が既知の対象母音に係る上記変換テーブルの上の位置を,上記単母音に係る上記2つの周波数成分と上記変換テーブル上の位置とに基づいて求め,この求められた変換テーブル上の位置に在る要素値を用いて当該対象母音の調音位置を算出する第1の調音位置算出手段と、発声内容および調音位置が既知である複数の単母音の周波数成分に基づいて,上記母音/子音区間判定部によって母音区間であると判 At least two frequency components in the vowels a table for converting the articulation position, the conversion table utterance contents includes an element value of the plurality of single vowels known utterance contents articulatory positions of known object vowel comprise articulatory position extraction unit for obtaining the said articulation position extraction unit, a position on the conversion table uttered content is determined to be a vowel interval by the vowel / consonant segment determination unit according to the known object vowel , calculated on the basis of the position on the two frequency components and the conversion table according to the vowel, and calculates the articulation position of the target vowel with element values ​​at the position on the sought conversion table a first articulation position calculating means, based on the frequency components of a plurality of vowel utterance contents and articulation position is known, if it is vowel interval by the vowel / consonant segment determination unit determine され,且つ,上記第1の調音位置算出手段によって調音位置が算出されない発声内容が既知の対象母音の調音位置を,この対象母音の周波数成分から所定のアルゴリズムに従って算出する第2の調音位置算出手段を有し、上記音声の周波数成分から、話者や言語に依存しない音声の特徴量である調音位置を抽出することを特徴としている。 Is, and, the utterance contents articulatory position is not calculated articulatory positions of known object vowel by a first articulation position calculating means, a second articulation position calculating means for calculating according to a predetermined algorithm from the frequency components of the target vowel It has, are the frequency components of the speech, and extracting articulatory position which is a feature quantity of the sound speaker-independent or language.

<作用> 音声が入力されると、この入力音声が周波数分析されて周波数成分が得られる。 <Operation> When speech is input, the frequency components are obtained the input speech is frequency analyzed. また、母音/子音区間判定部によって、入力された音声が母音区間であるか子音区間であるかが判定される。 Also, the vowel / consonant segment determination unit, voice input is either a consonant segment or a vowel interval is determined.

そうすると、調音位置抽出部における第1の調音位置算出手段によって、上記母音/子音区間判定部で母音区間であると判定された発声内容が既知の対象母音に係る変換テーブル上の位置が、発声内容が既知である複数の単母音に係る少なくとも2つの周波数成分と上記変換テーブル上の位置とに基づいて求められる。 Then, by the first articulation position calculating means in articulatory position extraction unit, a position on the conversion table uttered content is determined to be a vowel interval above vowel / consonant segment determination unit according to the known object vowel utterance contents it is determined based on a plurality of the positions on the at least two frequency components and the conversion table according to the vowel is known. そして更に、 And further,
この求められた変換テーブル上の位置に在る要素値を用いて、当該対象母音の調音位置が算出される。 Using the element values ​​at the position on the sought conversion table, articulation position of the target vowel is calculated. 一方、上記母音/子音区間判定部によって母音区間であると判定され、且つ、上記第1の調音位置算出手段によって調音位置が算出されない発声内容が既知の対象母音の調音位置は、上記調音位置抽出部における第2の調音位置算出手段によって、発声内容および調音位置が既知である複数の単母音の周波数成分に基づいて、上記対象母音の周波数成分から所定のアルゴリズムに従って算出される。 On the other hand, it is determined as a vowel interval by the vowel / consonant segment determination unit, and, the articulation point of articulation contents known target vowel articulatory position is not calculated by the first articulation position calculating means, the articulation position extraction by a second articulation position calculating means in part, based on the frequency components of a plurality of vowel utterance contents and articulation position is known, it is calculated according to a predetermined algorithm from the frequency components of the target vowel.

こうして、音声の周波数成分から、話者や言語に依存しない調音位置が抽出される。 Thus, from the sound of the frequency components, articulation position that does not depend on the speaker and language are extracted.

<実施例> 以下、この発明の図示の実施例により詳細に説明する。 <Example> Hereinafter, will be explained in more detail by the examples illustrated in the present invention.

第1図はこの発明に係る音声認識装置のブロック図である。 FIG. 1 is a block diagram of a speech recognition apparatus according to the present invention. マイクロホン1から入力された音声信号はアンプ2によって増幅され、音響分析部3に入力される。 Audio signal input from a microphone 1 is amplified by the amplifier 2 is input to the acoustic analysis section 3. この音響分析部3では、帯域濾波器(以下、BPFと言う)群を用いて、あるいは、音声波形データに窓を掛けた値に対する高速フーリエ変換によって入力音声信号の周波数分析が行われる。 In the acoustic analysis section 3, the bandpass filters using (hereinafter, BPF say) group, or a frequency analysis of the input speech signal is performed by the fast Fourier transform with respect to the value obtained by multiplying the window to the audio waveform data.

母音/子音区間判定部4は、音声信号の母音区間および子音区間の判定を行う。 Vowel / consonant segment determination unit 4 decides vowel section and consonant segment of the audio signal. この母音区間と子音区間との判定は、入力音声のパワーやスペクトル変化等を参照して行われる。 The determination of the vowel section and consonant segment is made with reference to the power and spectral changes of the input speech. その結果、母音区間であると判定された場合は、この発明に係る調音位置抽出部5によって母音の調音位置が抽出される。 As a result, if it is determined that the vowel interval, articulation position of the vowel is extracted by articulatory position extraction unit 5 according to the present invention. この母音の調音位置の抽出は、 Extraction of the articulation position of the vowel,
音声の周波数成分から調音位置を算出する際の変換式や規則を変換式格納部6から読み込み、この読み込んだ変換式や規則を用いて行われる。 Reads the conversion formulas and rules for calculating the articulatory position from the audio frequency components from the conversion equation storage unit 6 is performed using the read conversion formula and rules. 一方、母音/子音区間判定部4によって子音区間であると判定された場合は、子音パターン格納部8に格納されている子音パターンと子音区間の周波数成分とのマッチングが子音パターン変換部7によって行われ、子音パターンの候補が出力される。 On the other hand, the vowel / when it is determined that the consonant segment by consonant segment determination unit 4, the line matching the frequency components of the consonants pattern consonant segment stored in the consonant pattern storage unit 8 by the consonant pattern conversion section 7 We, the candidate consonant pattern is outputted. このようにして、入力音声は母音の調音位置と子音パターンとの時系列に変換されるのである。 In this way, the input speech is being converted into a time series of the articulatory position and consonant patterns of vowels.

パターンマッチング部9は、上述のようにして入力音声から求められた母音の調音位置と子音パターンとの時系列と、予め既知の単語毎に上述と同様の手法によって求められて標準パターン格納部10に格納されている単語毎の標準パターンとの類似度が計算され、この類似度計算結果に基づいて単語が認識される。 Pattern matching unit 9 includes a time series of the articulatory position and consonant patterns of vowel obtained from the input speech as described above, the standard pattern storage section 10 is obtained in advance by the same manner as described above for each known word technique similarity between the standard pattern of each word stored in is calculated, the word is recognized on the basis of the similarity calculation result. そして、その認識結果が結果表示部11に表示されるのである。 Then, it is the result of the recognition is displayed on the result display section 11.

この発明は、上記調音位置抽出部5において実行される母音の調音位置抽出動作に関するものであって、入力された単語中における発声内容が既知の母音(以下、単語中の母音と言う)の調音位置をその音声の周波数成分から所定のアルゴリズムに従って算出するものである。 This invention relates to a articulatory position extraction operation of a vowel to be executed in the articulation position extraction unit 5, articulation of utterance contents is known vowel in the word that is input (hereinafter, referred to as vowels in the word) position from the frequency components of the sound and calculates in accordance with a predetermined algorithm.

以下、この発明に係る第1実施例について詳細に述べる。 Hereinafter, a first embodiment according to the present invention will be described in detail.

第1実施例 本実施例は、上述のように、発声内容および調音位置が既知の単母音の周波数成分を基にして、単語中の母音の調音位置をその音声の周波数成分から所定のアルゴリズムに従って算出するものである。 Embodiment the first embodiment, as described above, the utterance contents and articulation position based on the frequency components of the known single vowel, the articulation position of the vowels in the word in accordance with the predetermined algorithm from the frequency components of the speech and it calculates. 本実施例においては、調音位置が既知の単母音として、日本語母音(/ア In this embodiment, a single vowel is known articulatory positions, Japanese vowels (/ A
/,/イ/,/ウ/,/エ/,/オ/)を用いる。 /, / B /, / c /, / d /, / o /) is used. 第2図は種々の母音の調音位置を示す図である。 Figure 2 is a view showing the articulation positions of the various vowels. xは調音位置の前後を表し、数字の大きいほうが前方である。 x represents the before and after of articulation position, more of the numbers large is a front. また、yは調音位置の上下を表し、数字の大きい方が下方である。 Moreover, y represents the vertical articulation position, towards numbers greater is lower. 図中、 In the figure,
○によって囲まれた片仮名表記が上記日本語母音である。 Katakana notation is surrounded by ○ is the above-mentioned Japanese vowel. 以下、調音位置を下記のような範囲内にある座標(x,y)によって表す。 Hereinafter, represented by coordinates (x, y) in the articulation position within as follows.

1≦x,y≦7 ただしx,y:整数値 本実施例においては、各調音位置は座標の格子点上にあるとする。 1 ≦ x, y ≦ 7 except x, y: In the integer embodiment, the respective articulation position is on the grid points of coordinates. このことは、人間の聴感上の精度から妥当であると言える。 This is true from the accuracy of the human hearing to be valid. すなわち、ここでは、単母音/ア/の調音位置を(2,7)、単母音/イ/の調音位置を(6, In other words, in this case, a single vowel / A / of the articulation position (2,7), vowel / i / of the articulation position (6,
2)、単母音/ウ/の調音位置を(2,2)、単母音/エ/ 2), vowel / U / of the articulation position (2,2), vowel / e /
の調音位置を(5,4)、単母音/オ/の調音位置を(1, Of the articulation position (5,4), vowel / o / in the articulation position (1,
4)とするのである。 4) than it is the. そして、このように設定された単母音の調音位置に基づいて、単語中の母音の調音位置を上記座標(x,y)によって表現するのである。 Then, based on the thus set articulatory position of vowel, the articulation position of the vowels in the word is to represent by the coordinates (x, y).

次に、上記母音の調音位置とその調音位置において発声された母音の周波数成分との関係について述べる。 Next, describe the relationship between the frequency components of the vowels uttered in articulation position and its articulation position of the vowel. 第3図は第2図における日本語母音の第1ホルマント周波数(以下、F(1)と表す)と第2ホルマント周波数(以下、F(2)と表す)との範囲を、男女別に表示した図である。 Figure 3 is a first formant frequency of Japanese vowels in FIG. 2 (hereinafter, F (1) and represented) and the second formant frequency (hereinafter, F (2) represents a) a range of, displayed by gender it is a diagram. また、第4図は第2図における日本語母音以外の種々の母音を特定の話者が発声した場合のF Further, Fig. 4 F when the particular speaker different vowels other than Japanese vowels uttered in Figure 2
(1)とF(2)との関係を示した図である。 (1) it is a diagram showing the relationship between F (2). すなわち、第2図と第3図および第4図から、一般にホルマント周波数と調音位置との関係は、F(1)は増減がyの増減に対応し、F(2)の増減がxの増減に対応していることが分かる。 That is, the second figure and FIGS. 3 and 4, the relationship between the general formant frequencies and articulation position, F (1) increase or decrease corresponds to the decrease of the y, increase or decrease changes in F (2) of x it can be seen that corresponds to. また、一部の母音(/イ/および/エ/)においては、第3ホルマント周波数(以下、F Further, in some vowels (/ i / and / d /), third formant frequency (hereinafter, F
(3)と表す)の増減がx,yの増減に影響している。 (3) represent) Change in is affecting x, the increase or decrease of y. したがって、これらの関係と単語中の母音の周波数成分とから、単語中の母音の調音位置を推定するである。 Therefore, from the vowel frequency components of these relationships and in the word, it is to estimate the articulatory position for the vowel in the word.

次に、単語中の母音の調音位置を推定する方法について具体的に説明する。 Next, specifically described method of estimating the articulation position of the vowels in the word.

入力された音声波形は、第1図において説明したように、音響分析部3および母音/子音区間判定部4によって、予め母音区間あるいは子音区間に切り出されてラベリングされると共に音響分析が行われてホルマント周波数が抽出される。 Input speech waveform, as described in FIG. 1, the acoustic analysis section 3 and vowel / consonant segment determination unit 4, and acoustic analysis is performed with the labeled cut out in advance vowel section or consonant segment formant frequency is extracted. そして、本実施例においては、上述のようにして母音のラベルが付けられた音素区間のホルマント周波数が用いられる。 Then, in the present embodiment, the formant frequency of the phoneme section vowel label as described above is attached is used.

第5図は第1図の調音位置抽出部5において実行される単語中における一つの母音の調音位置算出動作のフローチャートである。 FIG. 5 is a flowchart of articulation position calculation operation of one vowel in the word that is executed in place of articulation extraction unit 5 of Figure 1.

ステップS1で、母音/子音区間判定部4によって母音区間であると判定された区間のホルマント周波数が入力され、その入力された母音区間のホルマント周波数に付加されたラベル(すなわち、発声内容)がいずれのラベルであるかが判別される。 In step S1, the formant frequency of the vowel / consonant segment determination unit 4 is determined to be a vowel interval by the interval is inputted, the added labels formant frequency of the inputted vowel section (i.e., the utterance contents) is either whether the label is determined. その結果、判別されたラベルの内容に従ってステップS2,ステップS3,ステップS4,ステップS5,ステップS6のいずれかに進む。 As a result, step S2, step S3 according to the contents of the discrimination label, step S4, step S5, the process proceeds to either step S6.

ステップS2で、後に詳述する母音/ア/の調音位置算出ルーチンが実行され、一母音の調音位置算出動作が終了する。 In step S2, the vowel / A / articulatory position calculating routine to be described later is executed, articulation position calculation operation of one vowel is completed.

ステップS3で、後に詳述する母音/イ/の調音位置算出ルーチンが実行され、一母音の調音位置算出動作が終了する。 In step S3, the vowel / i / articulatory position calculating routine to be described later is executed, articulation position calculation operation of one vowel is completed.

ステップS4で、後に詳述する母音/ウ/の調音位置算出ルーチンが実行され、一母音の調音位置算出動作が終了する。 In step S4, the vowel / U / articulatory position calculating routine to be described later is executed, articulation position calculation operation of one vowel is completed.

ステップS5で、後に詳述する母音/エ/の調音位置算出ルーチンが実行され、一母音の調音位置算出動作が終了する。 In step S5, the vowel / e / articulatory position calculating routine to be described later is executed, articulation position calculation operation of one vowel is completed.

ステップS6で、後に詳述する母音/オ/の調音位置算出ルーチンが実行され、一母音の調音位置算出動作が終了する。 In step S6, the vowel / o / articulatory position calculating routine to be described later is executed, articulation position calculation operation of one vowel is completed.

以下、上記各ステップS2〜ステップS6において実行される各母音の調音位置算出ルーチンについて、さらに詳細に述べる。 Hereinafter, the articulatory position calculating routine of each vowel to be executed in the respective steps S2~ step S6, described in more detail.

(A) 母音/ア/の調音位置算出ルーチン 単母音/ア/の調音位置近傍においては、調音位置が変化するとF(1),F(2)が非線形に変化する。 In articulation position near the (A) the vowel / A / articulatory position calculating routine vowel / A /, the articulatory position changes F (1), F (2) is changed nonlinearly. そこで、単語中の母音/ア/のF(1),F(2)の値を調音位置に直接変換するためのテーブル(以下、変換テーブルと言う)を用意し(第1表にその一例を示す)変換式格納部6に格納しておく。 Therefore, the vowel / A / of F in the word (1), F (2) a table for the value directly converting articulation position (hereinafter, a conversion table referred to) were prepared an example thereof (Table 1 shown) and stored in the conversion equation storage unit 6.

この変換テーブルは、種々の話者によって種々の調音位置において発声してもらい、調音位置とホルマントとの関係を考察することによって得たものである。 This conversion table is asked to utterance at various articulation position by various speakers are those obtained by considering the relationship between the articulatory positions and formant. 変換テーブル上における単母音の座標(以下、テーブル位置と言う)を(I,J)で表すと次のようになる。 Vowel of coordinates on the translation table (hereinafter, referred to as a table position) (I, J) is represented by as follows. すなわち、 That is,
単母音/ア/のテーブル位置は(8,11)、単母音/エ/ Vowel / A / table positions (8, 11), vowel / e /
のテーブル位置は(2,4)、単母音/オ/のテーブル位置は(2,15)である。 The table position is (2,4), vowel / o / table positions (2, 15). ここで、Iの増減方向はF(1) Here, the increase or decrease direction of the I F (1)
の増減の方向(すなわち、yの増減方向)を示し、Jの増減方向はF(2)の増減の方向(すなわち、xの増減方向)を示している。 Direction of increase or decrease (i.e., increasing or decreasing direction of y) indicates the increase or decrease direction of the J denotes the F direction of increase or decrease of (2) (i.e., increasing or decreasing direction of x).

上述のような変換テーブルを用いて、単語中の母音のF(1),F(2)からその母音の調音位置を算出するには次のようにして行う。 Using the conversion table as described above, the vowel in the word F (1), carried out as follows to calculate the articulation position of the vowel from F (2). すなわち、単語中の母音/ア/ That is, in a word vowel / A /
のF(2)が単母音/ア/のF(2)よりも高い場合には、調音位置が単母音/エ/の調音位置の方にずれている。 F (2) of the higher than vowel / A / of F (2), the articulation position is shifted toward the vowel / e / in articulation position. したがって、単母音/ア/のF(1)と単母音/エ/のF(1)とで単語中の母音/ア/のF(1)を正規化して単語中の母音/ア/のテーブル位置(I,J)のI Thus, vowel / A / of F (1) and the vowel / e / in F (1) and de vowels in the word / A / of F (1) a in the word normalized vowel / A / table I position (I, J)
を求める。 The seek. さらに、単母音/ア/のF(2)と単母音/ Furthermore, vowel / A / of F (2) and the vowel /
エ/のF(2)とで単語中の母音/ア/のF(2)を正規化して単語中の母音/ア/のテーブル位置(I,J)のJを求める。 Request J of d / a F (2) and the vowel / A / of normalized F (2) vowel / A / of the table position in the word in the word de (I, J). こうして、単語中の母音/ア/のテーブル位置(I,J)を算出すものである。 Thus, those to calculate the vowel / A / of the table position in the word (I, J). また、単語中の母音のF(2)が単母音/ア/のF(2)よりも低い場合には、調音位置が単母音/オ/の調音位置の方にずれている。 Also, the vowel in the word F (2) is lower than the vowel / A / of F (2), the articulation position is shifted toward the articulation position of the vowel / o /. したがって、単母音/ア/のF(1)と単母音/オ/のF(1)とで単語中の母音のF(1)を正規化して単語中の母音/ア/のテーブル位置(I,J)のIを求める。 Thus, vowel / A / of F (1) and the vowel / o / a F (1) and the vowel / A / of the table position in the word is normalized and F (1) of the vowel in the word de (I , determine the I of J). さらに、単母音/ア/のF(2)と単母音/オ/のF(2)とで単語中の母音のF(2)を正規化して単語中の母音/ア/のテーブル位置(I,J)のJを求める。 Furthermore, vowel / A / of F (2) and the vowel / o / a F (2) and the vowel / A / of the table position in the word is normalized and vowel in the word F (2) de (I , determine the J of J).
こうして、単語中の母音のテーブル位置(I,J)を算出する。 Thus, to calculate the table position of the vowels in the word (I, J).

そして、この算出されたテーブル位置(I,J)における変換テーブル上の値(以下、TEBLE(I,J)と言う)を変換テーブルから求め、下記のTABLE(I,J)と調音位置(x,y)との関係式(1)を用いて、変換テーブルから求めたTABLE(I,J)に基づいて単語中の母音/ア/の調音位置(x,y)を算出するのである。 Then, the calculated table position (I, J) values ​​on the conversion table in determined from the conversion table (hereinafter, TEBLE (I, referred to as J)), the following TABLE (I, J) and articulation position (x using y) and the relationship (1), is to calculate the vowel / a / articulation position in the word (x, y) on the basis of tABLE obtained from the conversion table (I, J).

[N]はNを越えない最大の整数 第6図は第5図のフローチャートにおける単語中の母音/ア/の調音位置算出ルーチンのフローチャートである。 [N] is the maximum integer FIG. 6 does not exceed N is a flowchart of vowel / A / articulatory position calculating routine in the word in the flowchart of FIG. 5. ここで、以下に述べる各母音の調音位置算出ルーチンの説明において使用される各変数について説明する。 Here, a description for each variable used in the description of the articulation position calculation routine for each vowel described below.

F V (n)(V=a,i,u,e,o、n=1,2,3) …単語中の母音Vの第nホルマント周波数 F V lV (n)(V=a,i,u,e,o、n=1,2,3) …単母音Vの第nホルマント周波数 (I,J)(V=a,i,u,e,o) …単語中の母音Vのテーブル位置 (I V ,J V )(V=a,j,u,e,o) …単母音Vのテーブル位置 次に、第6図に従って単語中の母音/ア/の調音位置算出ルーチンについて詳細に説明する。 F V (n) (V = a, i, u, e, o, n = 1,2,3) ... n-th formant frequency of vowels V in the word F V lV (n) (V = a, i, u, e, o, n = 1,2,3) ... n-th formant frequency (I single vowel V, J) (V = a, i, u, e, o) ... table position of the vowel V in the word (I V, J V) ( V = a, j, u, e, o) ... Next table position of the vowel V, the vowel / a / articulatory position calculating routine in the word in detail with FIG. 6 described to.

ステップS11で、F a (2)がF a lV (2)よりも高いか否かが判定される。 In step S11, F a (2) whether higher is determined than F a lV (2). その結果F a (2)がF a lV (2)よりも高い場合にはステップS12に進み、そうでなければステップS14に進む。 As a result when F a (2) is F a lV (2) higher than the process proceeds to step S12, the process proceeds to step S14 if not.

ステップS12で、F a lV (1):F a (1):F e lV (1)=I In step S12, F a lV (1) : F a (1): F e lV (1) = I
a :I:I eに、F a lV (1),F a (1),F e lV (1),I aおよびI a: I: to I e, F a lV (1 ), F a (1), F e lV (1), I a and I
eを代入してIが算出される。 I is calculated by substituting e. また,F a lV (2):F In addition, F a lV (2): F
a (2):F e lV (2)=J a :J:J eに、F a lV (2),F a (2): F e lV (2) = J a: J: the J e, F a lV (2 ), F
a (2),F e lV (2),J aおよびJ eを代入してJが算出される。 a (2), F e lV (2), J is calculated by substituting J a and J e.

ここで、上述の単母音/ア/のテーブル位置(I,J) Here, a single vowel / A / of the table position of the above (I, J)
=(8,11)からI a =8,J a =11であり、単母音/エ/のテーブル位置(I,J)=(2,4)からI e =2,J e =4である。 = (8, 11) from a I a = 8, J a = 11, is I e = 2, J e = 4 from vowel / e / in the table position (I, J) = (2, 4) .
また、F a lV (1),F a lV (2),F a (1),F a (2),F e lV Further, F a lV (1), F a lV (2), F a (1), F a (2), F e lV
(1)およびF e lV (2)の値は、上述のように音響分析部3によって抽出された値が用いられる。 The value of (1) and F e lV (2), the value extracted by the acoustic analysis section 3 as described above is used.

ステップS13で、上記ステップS12において算出された単語中の母音/ア/のテーブル位置(I,J)に基づいて、変換テーブルに従ってTABLE(I,J)が求められる。 In step S13, the vowel / A / of the table position in the word which is calculated in step S12 (I, J) on the basis of, TABLE (I, J) is calculated according to the conversion table.
そして、この求められたTABLE(I,J)に基づいて(1) Then, based on thus determined was TABLE (I, J) (1)
式から調音位置(x,y)が算出されて、単語中の母音/ Articulatory position from the equation (x, y) is calculated, in the word vowel /
ア/の調音位置算出ルーチンが終了する。 A / articulation position calculation routine is finished.

ステップS14で、F a lV (1):F a (1):F o lV (1)=I In step S14, F a lV (1) : F a (1): F o lV (1) = I
a :I:I oからIが算出され、F a lV (2):F a (2):F a: I: I o I is calculated from, F a lV (2): F a (2): F
o lV (2)=J a :J:J oからJが算出される。 o lV (2) = J a : J: J is calculated from the J o.

ここで、上述の単母音/オ/のテーブル位置(I,J) Here, a single vowel / o / table positions the above (I, J)
=(2,15)からI o =2,J o =15である。 = A I o = 2, J o = 15 from (2, 15).

ステップS15で、上記ステップS14において算出された単語中の母音/ア/のテーブル位置(I,J)に基づいて、変換テーブルに従ってTABLE(I,J)が求められる。 In step S15, the vowel / A / of the table position in the word which is calculated in step S14 (I, J) on the basis of, TABLE (I, J) is calculated according to the conversion table.
そして、この求められたTABLE(I,J)に基づいて(1) Then, based on thus determined was TABLE (I, J) (1)
式から調音位置(x,y)が算出されて、単語中の母音/ Articulatory position from the equation (x, y) is calculated, in the word vowel /
ア/の調音位置算出ルーチンが終了する。 A / articulation position calculation routine is finished.

(B) 母音/イ/の調音位置算出ルーチン 母音/イ/の調音位置の上下方向(すなわち、yの値)は、おもにF(1)の高低によって決まる。 (B) the vowel / i / articulatory position calculating routine vowel / i / the vertical direction of the articulation position (i.e., the value of y) is mainly determined by the height of the F (1). そこで、単語中の母音/イ/の調音位置yの値は、単母音/ Therefore, the value of the vowel / i / articulation position y in a word, a single vowel /
イ/のF(1)の値と単母音/エ/のF(1)の値とに応じて決められる閾値“BNDIE1"および“BNDIE2"と、単語中の母音/イ/のF(1)との比較結果に従って決定される。 A threshold "BNDIE1" and "BNDIE2" which is determined according to the value of the value and vowel / e / in F (1) i / of F (1), the vowel in the word / Lee / of F (1) It is determined according to a comparison result between.

また、単語中の単母音/イ/の調音位置の前後方向(すなわち、xの値)は、上述のようにして決定された調音位置yの値の大小によって算出方法が異なる。 The single vowel / i / in the front-rear direction of the articulation position in the word (i.e., the value of x) is, the calculation method is different depending on the magnitude of the value of articulation position y that is determined as described above. すなわち、y≦2の場合には、単語中の母音/イ/の調音位置は単母音/ウ/の調音位置の方向にずれている。 That is, in the case of y ≦ 2, the articulation position of the vowel / i / in the word is shifted in the direction of the vowel / U / articulation position. ここで、上述のように母音/イ/における調音位置x,yの増減にはF(3)が関係するので、F(3)の高低によって調音位置xが算出されるのである。 Here, the articulatory position x in the vowel / i / as described above, since the F (3) is involved in the increase and decrease of the y, it is the articulatory position x is calculated by the height of the F (3). すなわち、母音/ In other words, vowel /
イ/の調音位置が単母音/イ/の調音位置から単母音/ B / of articulation position is a single vowel / i / of articulation position from single vowel /
ウ/の調音位置まで連続的に変化する場合、F(3)が低下してF(2)に近付き、F(2)に重なるかあるいは最接近する(この間、F(2)の値は殆ど変化しない)。 Vary continuously until U / articulatory position, close to the F (2) F (3) is reduced, overlap F (2) or closest together (during which the value of F (2) Most It does not change). ここまでの範囲が母音/イ/の領域である。 Range up to this point is a vowel / i / region. さらに、調音位置が後ろになると母音/ウ/の領域に入り、 Furthermore, when the articulation position is behind enters the vowel / U / region,
今度はF(3)は余り変化せずF(2)が低下して再度F(2)はF(3)から離れる。 Now F (3) F again reduced F (2) does not change much in (2) is separated from the F (3).

したがって、y≦2の場合における母音/イ/の領域においては、単語中の母音/イ/の調音位置xの値は、 Therefore, in the vowel / i / regions in the case of y ≦ 2, the values ​​of the vowel / i / articulation position x in the word,
母音/イ/のF(2),F(3)の値が重なる場合の調音位置x=jx(=5)におけるF(3)の値(以下、Fjx Vowel / i / of F (2), the value of F (3) in F (3) articulation position x = jx when values ​​overlap of (= 5) (hereinafter, Fjx
とする)と単母音/イ/のF(3)の値とから決まる閾値“BNDX"と、単語中の母音/イ/のF(3)の値との比較結果に従って算出される。 To) and the threshold "BNDX" determined from the value of the vowel / i / of F (3), is calculated according to a comparison result between the value of the vowel / i / of F (3) in the word.

一方、y>2の場合においては、単語中の母音/イ/ On the other hand, in the case of y> 2, the vowels in the word / Lee /
の調音位置は単母音/エ/の調音位置の方向にずれている。 Articulation position of is displaced in the direction of the articulation position of the vowel / e /. その際に、単語中の母音/イ/の調音位置が単母音/イ/の調音位置から単母音/エ/の調音位置まで連続的に変化する場合、F(2)が低下すると共にF(3) At that time, if the vowel / i / articulation position in the word varies continuously until vowel / e / articulatory position from the vowel / i / articulatory positions, with F (2) is reduced F ( 3)
も低下する。 It is also reduced. そこで、F(2)とF(3)との変化が調音位置の変化におよぼす寄与度2:1であるとし、単母音/イ/のF(2),F(3)の値と単母音/エ/のF Therefore, F (2) and F (3) the contribution degree change on change in the articulation position of the two: a is 1, the single vowel / i / of F (2), the value of F (3) and vowel / d / of F
(2),F(3)の値とで単語中の母音/イ/のF (2), vowels in the word with the value of F (3) / b / of F
(2),F(3)の値を正規化して、単語中の母音/イ/ (2), by normalizing the value of F (3), vowels in the word / Lee /
の調音位置xを算出するのである。 It is to calculate the articulatory position x.

第7図は第5図のフローチャートにおける単語中の単語/イ/の調音位置算出ルーチンのフローチャートである。 FIG. 7 is a flowchart of a word / Lee / articulatory position calculating routine in the word in the flowchart of FIG. 5. 以下、第7図に従って、単語中の母音/イ/の調音位置算出ルーチンについて詳細に説明する。 Hereinafter, according to FIG. 7, the vowel / i / articulatory position calculating routine in the word will be described in detail.

ステップS21で、F i (1)の値が250Hzよりも小さいか否かが判定される。 In step S21, whether the value of F i (1) is less than 250Hz is determined. その結果、250Hzよりも小さい場合にはステップS22に進み、そうでなければステップS23に進む。 As a result, the process proceeds to step S22 if less than 250 Hz, the process proceeds to step S23 if not.

ステップS22で、調音位置yがy=1に設定され、ステップS28に進む。 In step S22, articulation position y is set to y = 1, the process proceeds to step S28.

ステップS23で、F i (1)の値が“BNDIE1"よりも小さいか否かが判別される。 In step S23, whether or not F value of i (1) is "BNDIE1" less than or not. その結果、“BNDIE1"よりも小さい場合にはステップS24に進み、そうでなければステップS25に進む。 As a result, if less than "BNDIE1" proceeds to step S24, the process proceeds to step S25 if not.

ここで、上記閾値“BNDIE1"は下記のように設定される値である。 Here, the threshold value "BNDIE1" is the value to be set as follows.

BNDIE1=(5F i lV (1)+F e lV (1))/6 ステップS24で、調音位置yがy=2に設定され、ステップS28に進む。 BNDIE1 = In (5F i lV (1) + F e lV (1)) / 6 Step S24, articulation position y is set to y = 2, the process proceeds to step S28.

ステップS25で、F i (1)の値が“BNDIE2"よりも小さいか否かが判別される。 In step S25, whether or not F value of i (1) is "BNDIE2" less than or not. その結果、“BNDIE2"よりも小さい場合にはステップS26に進み、そうでなければステップS27に進む。 As a result, when it is smaller than the "BNDIE2", the process proceeds to step S26, the process proceeds to step S27 otherwise.

ここで、上記閾値“BNDIE2"は下記のように設定される値である。 Here, the threshold value "BNDIE2" is the value to be set as follows.

BNDIE2=(F i lV (1)+2 e lV (1))/3 ステップS26で、調音位置yがy=3に設定され、ステップS28に進む。 In BNDIE2 = (F i lV (1 ) +2 e lV (1)) / 3 Step S26, articulation position y is set to y = 3, the process proceeds to step S28.

ステップS27で、調音位置yがy=4に設定され、ステップS28に進む。 In step S27, articulation position y is set to y = 4, the process proceeds to step S28.

ステップS28で、上記ステップS22,ステップS24,ステップS26およびステップ27において設定された調音位置yの値が2以下であるか否かが判別される。 In step S28, step S22, step S24, the value of the articulation position y set in step S26 and step 27 whether it is 2 or less is determined. その結果、 as a result,
2以下であればステップS29に進み、そうでなければステップS34に進む。 Proceed to the case if step S29 2 or less, the process proceeds to step S34 otherwise.

ステップS29で、F i (3)の値が“BNDX"よりも小さいか否かが判別される。 In step S29, whether F i (3) the value is smaller than "BNDX" is determined. その結果、“BNDX"よりも小さい場合にはステップS30に進み、そうでなければステップS As a result, if less than "BNDX" proceeds to step S30, step S otherwise
31に進む。 Proceed to 31.

ここで、上記閾値“BNDX"は下記のように設定される値である。 Here, the threshold value "BNDX" is the value to be set as follows.

BNDX=(F i lV (3)+F jx )/2 F jx =(F i lV (2)+F u lV (3))/2 ステップS30で、調音位置xがx=5に設定され、単語中の母音/イ/の調音位置算出ルーチンが終了する。 BNDX = In (F i lV (3) + F jx) / 2 F jx = (F i lV (2) + F u lV (3)) / 2 step S30, articulation position x is set to x = 5, in a word vowel / i / of articulation position calculation routine ends of.

ステップ31で、F jx :F i (3):F i lV (3)=x j :x:x iからxが算出される。 In step 31, F jx: F i ( 3): F i lV (3) = x j: x: x is calculated from the x i.

ここで、単母音/イ/の調音位置(x,y)=(6,2)からx i =6である。 Here, a x i = 6 of a single vowel / i / articulatory position (x, y) = (6,2 ). また、母音/イ/の調音位置が単母音/イ/の調音位置から単母音/ウ/の調音位置まで連続的に変化する際にF(2)とF(3)とが重なる調音位置x=xj=5からx j =5である。 Also, the vowel / i / of F (3) and F (2) when the articulation position changes continuously until vowel / U / articulatory position from the vowel / i / articulatory position and overlap articulation position x = a x j = 5 from xj = 5.

ステップS32で、上記ステップS31において算出された調音位置xの値が6より小さいか否かが判別される、その結果、6より小さければステップS33に進み、そうでなければ単語中の母音/イ/の調音位置算出ルーチンを終了する。 In step S32, whether the value is less than 6 of the calculated articulatory position x in step S31 is determined, as a result, the process proceeds to step S33 if less than 6, a vowel / i in the word otherwise / of to end the articulation position calculation routine.

ステップS33で、調音位置xがx=6に設定され、単語中の母音/イ/の調音位置算出ルーチンが終了する。 In step S33, articulation position x is set to x = 6, vowel / i / articulatory position calculating routine in the word is completed.

ステップS34で、{2F i lV (2)+F i lV (3)}:{2F In step S34, {2F i lV (2 ) + F i lV (3)}: {2F
i (2)+F i (3)}:{2F e lV (2)+F e lV (3)}= i (2) + F i ( 3)}: {2F e lV (2) + F e lV (3)} =
x i :x:x eからxが算出される。 x i: x: x is calculated from the x e.

ここで、単母音/イ/の調音位置(x,y)=(6,2)からx i =6であり、単母音/エ/の調音位置(x,y)= Here, a single vowel / i / articulatory position (x, y) = (6, 2) from an x i = 6, vowel / e / articulatory position (x, y) =
(5,4)からx e =5である。 (5,4) from a x e = 5.

ステップS35で、上記ステップS34において算出されたxの値が4より小さいか否かが判別される。 In step S35, whether 4 is smaller than the value of the calculated x is in the step S34 is determined. その結果、 as a result,
4より小さければステップS36に進み、そうでなければ単語中の母音/イ/の調音位置算出ルーチンを終了する。 Smaller than 4 proceeds to step S36, and ends the vowel / i / articulatory position calculating routine in the word otherwise.

ステップS36で、調音位置xがx=4に設定され、単語中の母音/イ/の調音位置算出ルーチンが終了する。 In step S36, articulation position x is set to x = 4, vowel / i / articulatory position calculating routine in the word is completed.

(C) 母音/ウ/の調音位置算出ルーチン 母音/ウ/の調音位置yはF(1)の高低によって求めることができる。 (C) vowel / U / articulatory position calculating routine vowel / U / articulatory position y may be determined by the level of the F (1). すなわち、単語中の母音/ウ/のF In other words, the vowel / U / of F in the word
(1)が単母音/ウ/のF(1)より高い場合には、単語中の母音/ウ/の調音位置が単母音/オ/の調音位置側にずれているので、単母音/ウ/のF(1)の値と単母音/オ/のF(1)の値とで単語中の母音/ウ/のF (1) is higher than the vowel / U / of F (1), since the vowel / U / articulation position in the word is shifted in the articulation position side of the vowel / o /, vowel / U / of F (1) of the value and the vowel / U / F-words in between the value of a single vowel / o / of F (1)
(1)の値を正規化して、単語中の母音/ウ/の調音位置yを算出する。 (1) value by normalizing the calculated vowel / U / articulation position y in a word. 逆に、単語中の母音/ウ/のF(1) On the other hand, vowel in the word / c / of F (1)
が単母音/ウ/のF(1)より低い場合には、単語中の母音/ウ/の調音位置yがy=1側にずれているので、 There is lower than the vowel / U / of F (1), since the vowel / U / articulation position y in the word is shifted in the y = 1 side,
単母音/ウ/のF(1)の値とy=1に対応したF F corresponding to the value and y = 1 of the vowel / U / of F (1)
(1)の値とで単語中の母音/ウ/のF(1)の値を正規化して、単語中の母音/ウ/の調音位置yを算出するのである。 (1) the value the value of the vowel / U / of F (1) in the word is normalized by the a is to calculate the vowel / U / articulation position y in a word.

一方、母音/ウ/の調音位置xはF(2)の高低によって求めることができる。 On the other hand, the vowel / U / articulatory position x can be determined by the level of the F (2). すなわち、単語中の母音/ウ/のF(2)が単母音/ウ/のF(2)より高い場合には、単語中の母音/ウ/の調音位置が単母音/イ/の調音位置側にずれているので、単母音/ウ/のF(2)の値と上記調音位置x=jx(=5)におけるF(2)=Fj That is, when vowels in the word / U / of F (2) is higher than the vowel / U / of F (2), the vowel / U / articulatory position articulation position vowel / i / of in the word since the shift to the side, F in the value and the articulation position x = jx single vowel / U / of F (2) (= 5) (2) = Fj
xの値とで単語中の母音/ウ/のF(2)の値を正規化して、単語中の母音/ウ/の調音位置yを算出する。 Vowel / U / of F in the word with the value of x the value of (2) is normalized to calculate the vowel / U / articulation position y in a word. 逆に、単語中の母音/ウ/のF(2)が単母音/ウ/のF Conversely, in a word vowel / U / of F (2) is a single vowel / U / of F
(2)より低い場合には、単語中の母音/ウ/の調音位置が単母音/オ/の調音位置側にずれているので、単母音/ウ/のF(2)の値と単母音/オ/のF(2)の値とで単語中の母音/ウ/のF(2)の値を正規化して、 If less than (2), since the vowel / U / articulation position in the word is shifted in the articulation position side of the vowel / o /, the vowel / U / of F (2) values ​​and vowel / o / vowel in the word with the value of F (2) / U / of F values ​​of (2) is normalized,
単語中の母音/ウ/の調音位置xを算出するのである。 Than it calculates the vowel / U / articulation position x in the word.

第8図は第5図のフローチャートにおける単語中の母音/ウ/の調音位置算出ルーチンのフローチャートである。 FIG. 8 is a flow chart of vowel / U / articulatory position calculating routine in the word in the flowchart of FIG. 5. 以下、第8図に従って、単語中の母音/ウ/の調音位置算出ルーチンについて説明する。 Hereinafter, according to FIG. 8, it will be described vowel / U / articulatory position calculating routine in the word.

ステップS41で、F o lV (1)の値がF u lV (1)の値よりも大きく、かつ、F u (1)の値がF u lV (1)の値よりも大きいか否かが判別される。 In step S41, F o lV greater than the value of the value F u lV (1) (1), and, whether or not the value of F u (1) is greater than the value of F u lV (1) is It is determined. その結果、F o lV (1)の値がF u lV (1)の値よりも大きく、F u (1)の値がF u lV As a result, F o lV greater than the value of the value F u lV (1) (1), the value F u lV of F u (1)
(1)の値よりも大きい場合にはステップS42に進み、 (1) is greater than the value of the proceeds to step S42,
そうでなければステップS43に進む。 Otherwise, the process proceeds to step S43.

ステップS42で、F u lV (1):F u (1):F o lV (1)=y In step S42, F u lV (1) : F u (1): F o lV (1) = y
u :y:y oからyが算出される。 u: y: y is calculated from the y o.

ここで、単母音/ウ/の調音位置(x,y)=(2,2)からy u =2である。 Here, a single vowel / U / articulatory position (x, y) = a (2,2) and y u = 2. また、単母音/オ/の調音位置(x, In addition, single vowel / o / of the articulation position (x,
y)=(1,4)からy o =4である。 a y o = 4 from y) = (1,4).

ステップS43で、F u lV (1)=F u (1):200=y u :y:1 In step S43, F u lV (1) = F u (1): 200 = y u: y: 1
からyが算出される。 y is calculated from.

ステップS44で、上記ステップS42およびステップS43 In step S44, the steps S42 and Step S43
で求められた調音位置yの値が2より小さく、かつ、F u The value of the articulation position y obtained by the less than 2, and, F u
(1)の値が300Hz以上であるか否かが判別される。 (1) the value of it is determined whether at 300Hz or more. その結果、調音位置yの値が2より小さく、F u (1)の値が300Hz以上である場合にはステップS45に進み、そうでなければステップS46に進む。 As a result, less than the value of the articulatory position y is 2, the process proceeds to step S45 if the value of F u (1) is 300Hz or more, the process proceeds to step S46 if not.

ステップS45で、調音位置yの値がy=2に設定され、ステップS46に進む。 In step S45, the value of the articulation position y is set to y = 2, the process proceeds to step S46.

ステップS46で、上記ステップS42およびステップS43 In step S46, the steps S42 and Step S43
で求められた調音位置yの値が3よりも大きいか否かが判別される。 The value of the articulation position y obtained by whether greater than 3 is determined. その結果、3よりも大きい場合にはステップS47に進み、そうでなければステップS48に進む。 As a result, the flow advances to step S47 is larger than 3, the process proceeds to step S48 if not.

ステップS47で、調音位置yの値がy=3に設定され、ステップS48に進む。 In step S47, the value of the articulation position y is set to y = 3, the process proceeds to step S48.

ステップS48で、F u (2)の値がF u lV (2)の値よりも大きいか否かが判別される。 In step S48, the whether or not the value of F u (2) is greater than the value of F u lV (2) is determined. その結果、F u (2)の値がF u lV (2)の値よりも大きい場合にはステップS49に進み、そうでなければステップS50に進む。 As a result, the process proceeds to step S49 if the value of F u (2) is greater than the value of F u lV (2), the process proceeds to step S50 if not.

ステップS49で、F jx :F u (2):F u lV (2)=x j :x:x u In step S49, F jx: F u ( 2): F u lV (2) = x j: x: x u
からxが算出される。 x is calculated from.

ここで、単母音/ウ/の調音位置(x,y)=(2,2)からx u =2である。 Here, a x u = 2 from a single vowel / U / articulatory position (x, y) = (2,2 ). また、上記調音位置=x=xj=5から Further, from the articulation position = x = xj = 5
x j =5である。 a x j = 5.

ステップS50で、F u lV (2):F u (2):F o lV (2)=x In step S50, F u lV (2) : F u (2): F o lV (2) = x
u :x:x oからxが算出される。 u: x: x is calculated from the x o.

ここで、単母音/オ/の調音位置(x,y)=(1,4)からx o =1である。 Here, a x o = 1 from a single vowel / o / articulatory position (x, y) = (1,4 ).

ステップS51で、上記ステップS49およびステップS50 In step S51, the step S49 and step S50
で求められた調音位置xの値が5よりも大きいか否かが判別される。 The value of the articulation position x obtained in is greater or not than 5 or not. その結果、5よりも大きい場合にはステップS52に進み、そうでなければステップS53に進む。 As a result, the process proceeds to step S52 in the case greater than 5, the process proceeds to step S53 otherwise.

ステップS52で、調音位置xの値がx=5に設定され、ステップS53に進む。 In step S52, the value of the articulation position x is set to x = 5, the process proceeds to step S53.

ステップS53で、上記ステップS49およびステップS50 In step S53, the step S49 and step S50
で求められた調音位置xの値がx=5であり、かつ、F u The value of the articulation position x obtained in is x = 5, and, F u
(2)の値が0.9F jxよりも小さいか否かが判別される。 (2) the value of whether smaller is determined than 0.9F jx.
その結果、x=5であり、F u (2)の値が0.9F jxよりも小さい場合にはステップS54に進み、そうでなければ単語中の一つの母音/ウ/の調音位置算出ルーチンを終了する。 As a result, an x = 5, the process proceeds to step S54 when the value of F u (2) is less than 0.9F jx, the otherwise one vowel / U / articulatory position calculating routine in the word finish.

ステップS54で、調音位置xの値がx=4に設定され、単語中の母音/ウ/の調音位置算出ルーチンが終了する。 In step S54, the value of the articulation position x is set to x = 4, vowel / U / articulatory position calculating routine in the word is completed.

(D) 母音/エ/の調音位置算出ルーチン 母音/エ/の調音位置の算出ルーチンは、母音/エ/ (D) the vowel / e / articulatory position calculating routine vowel / e / routine for calculating the articulation position of the vowel / e /
の調音位置が単母音/ア/の調音位置側にずれている場合と単母音/イ/の調音位置側にずれている場合とによって異なる。 Different by the case of articulatory position is shifted when the vowel / i / articulatory position side are offset to the vowel / A / articulatory position. すなわち、単語中の母音/エ/のF(1) In other words, the vowel in the word / d / of F (1)
の値が調音位置y=3とy=4との境界を定めるためのF(1)の閾値“BNDIE2"よりも大きければ、単語中の母音/エ/の調音位置は単母音/ア/の調音位置側にずれていると判定する。 Value is greater than the threshold value "BNDIE2" of F (1) for determining the boundary between the articulation position y = 3 and y = 4, in the word vowel / e / articulatory positions vowel / A / of the determines that the shift to the articulation position. そして、(A)において説明したように、単母音/ア/のF(1)と単母音/エ/のF Then, as described (A), the vowel / A / of F (1) and the vowel / e / in F
(1)とで単語中の母音/エ/のF(1)を正規化し、 (1) and the vowel / e / in F in words (1) normalizes de,
単母音/ア/のF(2)と単母音/エ/のF(2)とで単語中の母音/エ/のF(2)の正規化することによって単語中の母音/エ/のテーブル位置(I,J)を算出する。 Vowel / e / in the table in the word by normalizing the vowel / e / in F in the word out with vowel / A / of F (2) and the vowel / e / in F (2) (2) position (I, J) is calculated. そして、このテーブル位置(I,J)に基づいて上記変換テーブルからTABLE(I,J)を求め、(1)式より単語中の母音/エ/の調音位置(x,y)を算出するのである。 Then, the table position (I, J) based on the search of TABLE (I, J) from the conversion table, so to calculate the (1) vowel / e / in articulation position in the word from the equation (x, y) is there.

逆に、単語中の母音/エ/のF(1)の値が閾値“BN Conversely, the value of the vowel / e / in F (1) in the word threshold "BN
DIE2"よりも小さければ、単語中の母音/エ/の調音位置は単母音/イ/の調音位置側にずれていると判定する。その場合には、(B)において説明した単語中の母音/イ/の調音位置が単母音/エ/の調音位置側にずれている場合の調音位置算出アルゴリズム(第7図)と同様のアルゴリズムによって、単語中の母音/エ/の調音位置を算出する。ただし、この場合には、調音位置yの値をy=1に設定するステップと、y=1のときのxを算出するステップは除かれる。 Is smaller than DIE2 ", articulation position of the vowel / e / in the word is determined to have shifted to the vowel / i / articulatory position. In this case, the vowel in the word described in (B) / by the same algorithm as the articulation position calculation algorithm (Figure 7) when b / articulation position is shifted in the vowel / e / articulatory position, calculates the vowel / e / in articulation position in the word . However, in this case, setting a value of articulation position y to y = 1, calculating an x ​​when the y = 1 is excluded.

第9図は第5図のフローチャートにおける単語中の母音/エ/の調音位置算出ルーチンのフローチャートである。 Figure 9 is a flow chart of a vowel / e / articulatory position calculating routine in the word in the flowchart of FIG. 5. 以下、第9図に従って、単語中の母音/エ/の調音位置算出ルーチンについて説明する。 Hereinafter, according to FIG. 9, a description will be given vowel / e / articulatory position calculating routine in the word.

ステップS61で、F e (1)の値が上記閾値“BNDIE2"の値よりも大きいか否かが判別される。 In step S61, the value of F e (1) whether greater than the value of the threshold "BNDIE2" is determined. その結果、“BNDI As a result, "BNDI
E2"の値よりも大きい場合にはステップS62に進み、そうでなければステップS64に進む。 Proceeds to step S62 is larger than the value of E2 ", the process proceeds to step S64 otherwise.

ステップS62で、F a lV (1):F e (1):F e lV (1): In step S62, F a lV (1) : F e (1): F e lV (1):
I a :I:I eからIが算出され、F a lV (2):F e (2):F e lV I a: I: I e I is calculated from, F a lV (2): F e (2): F e lV
(2)=J a :J:J eからJが算出される。 (2) = J a: J : J is calculated from the J e.

ステップS63で、上記ステップS62において算出された単語中の母音/エ/のテーブル位置(I,J)に基づいて、変換テーブルに従ってTABLE(I,J)が求められる。 In step S63, the vowel / e / in the table position in the word which is calculated in step S62 (I, J) on the basis of, TABLE (I, J) is calculated according to the conversion table.
そして、この求められたTABLE(I,J)に基づいて(1) Then, based on thus determined was TABLE (I, J) (1)
式から調音位置(x,y)が算出されて、単語中の母音/ Articulatory position from the equation (x, y) is calculated, in the word vowel /
エ/の調音位置算出ルーチンが終了する。 D / of articulation position calculation routine is finished.

ステップS64で、F e (1)の値が“BNDIE1"よりも小さいか否かが判別される。 In step S64, whether or not F value of e (1) is "BNDIE1" less than or not. その結果、“BNDIE1"よりも小さい場合にはステップS65に進み、そうでなければステップS66に進む。 As a result, when it is smaller than the "BNDIE1", the process proceeds to step S65, the process proceeds to step S66 otherwise.

ステップS65で、調音位置yの値がy=2に設定され、ステップS69に進む。 In step S65, the value of the articulation position y is set to y = 2, the process proceeds to step S69.

ステップS66で、F e (1)の値が“BNDIE2"よりも小さいか否かが判別される。 In step S66, the whether F value of e (1) is "BNDIE2" less than or not. その結果、“BNDIE2"よりも小さい場合にはステップS67に進み、そうでなければステップS68に進む。 As a result, when it is smaller than the "BNDIE2", the process proceeds to step S67, the process proceeds to step S68 otherwise.

ステップS67で、調音位置yの値がy=3に設定され、ステップS69に進む。 In step S67, the value of the articulation position y is set to y = 3, the process proceeds to step S69.

ステップS68で、調音位置yの値がy=4に設定され、ステップS69に進む。 In step S68, the value of the articulation position y is set to y = 4, the process proceeds to step S69.

ステップS69で、{2F i lV (2)+F i lV (3)}:{2F In step S69, {2F i lV (2 ) + F i lV (3)}: {2F
e (2)+F e (3)}:{2F e lV (2)+F e lV (3)}= e (2) + F e ( 3)}: {2F e lV (2) + F e lV (3)} =
x i :x:x eからxが算出され、単語中の母音/エ/の調音位置算出ルーチンが終了する。 x i: x: x e x is calculated from, the vowel / e / of articulation position calculating routine in the word is completed.

(E) 母音/オ/の調音位置算出ルーチン 母音/オ/の調音位置の算出ルーチンは、母音/オ/ (E) vowel / o / routine for calculating the articulation position calculation routine vowel / o / of the articulation position of the vowel / o /
の調音位置が単母音/ア/の調音位置側にずれている場合と単母音/ウ/の調音位置側にずれている場合とによって異なる。 Different by the case of articulatory position is shifted when the vowel / U / articulatory position side are offset to the vowel / A / articulatory position. すなわち、単語中の母音/オ/のF(1) In other words, the vowel in the word / o / of F (1)
の値が調音位置y=3とy=4との境界を定めるためのF(1)の閾値“BNDOU2"よりも大きければ、単語中の母音/エ/の調音位置は単母音/ア/の調音位置側にずれていると判定する。 Value is greater than the threshold value "BNDOU2" of F (1) for determining the boundary between the articulation position y = 3 and y = 4, in the word vowel / e / articulatory positions vowel / A / of the determines that the shift to the articulation position. そして、(A)において説明したように、単母音/ア/のF(1)と単母音/オ/のF Then, as described (A), the single vowel / A / F (1) and the vowel / o / a F
(1)とで単語中の母音/オ/のF(1)を正規化する一方、単母音/ア/のF(2)と単母音/オ/のF (1) a de while normalizing F (1) of the vowel / o / in the word, vowel / A / of F (2) and the vowel / o / a F
(2)とで単語中の母音/オ/のF(2)を正規化することによって単語中の母音/オ/のテーブル位置(I, (2) the de vowel / o / table positions in the word vowel / o / of F in words (2) by normalizing (I,
J)を算出する。 J) is calculated. そして、このテーブル位置(I,J)に基づいて上記変換デーブルからTABLE(I,J)を求め、 Then, a TABLE (I, J) from the conversion Deburu on the basis of the table position (I, J),
(1)式より単語中の母音/オ/の調音位置(x,y)を算出するのである。 (1) it is to calculate the vowel / o / articulation position in the word (x, y) from the equation.

逆に、単語中の母音/オ/のF(1)の値が閾値“BN Conversely, the value of the vowel / o / a F (1) in the word threshold "BN
DOU2"よりも小さければ、単語中の母音/オ/の調音位置は単母音/ウ/の調音位置側にずれていると判定する。その場合には、(C)において説明した単語中の母音/ウ/の調音位置が単母音/オ/の調音位置側にずれている場合の調音位置算出アルゴリズム(第8図)と同様のアルゴリズムによって、単語中の母音/オ/の調音位置を算出する。ただし、この場合には、調音位置yの値は閾値“BNDOU1",“BNDOU2"に基づいて設定する。 Is smaller than DOU2 ", articulation position of the vowel / o / in the word is determined to have shifted to the vowel / U / articulatory position. In this case, the vowel in the word that described in (C) / c / articulatory positions by the same algorithm as the articulation position calculation algorithm when the image is shifted vowel / o / articulatory position side (Figure 8), to calculate the vowel / o / articulation position in the word . However, in this case, the value of the articulation position y is set based on a threshold "BNDOU1", "BNDOU2".

第10図は第5図のフローチャートにおける単語中の母音/オ/の調音位置算出ルーチンのフローチャートである。 FIG. 10 is a flowchart of a vowel / o / articulatory position calculating routine in the word in the flowchart of FIG. 5. 以下、第10図に従って、単語中の母音/オ/の調音位置算出ルーチンについて説明する。 Hereinafter, according to FIG. 10, a description will be given vowel / o / articulatory position calculating routine in the word.

ステップS71で、F o (1)の値が上記閾値“BNDOU2"の値よりも大きいか否かが判別される。 In step S71, the value of F o (1) whether greater than the value of the threshold "BNDOU2" is determined. その結果、“BNDO As a result, "BNDO
U2"の値よりも大きい場合にはステップS72に進み、そうでなければステップS74に進む。 Proceeds to step S72 is larger than the value of U2 ", the process proceeds to step S74 otherwise.

ここで、上記“BNDOU2"下記のように設定される値である。 Here, a value set as above "BNDOU2" below.

BNDOU2=(F u lV (1)+2F o lV (1))/3 ステップS72で、F a lV (1):F o (1):F o lV (1)=I BNDOU2 = In (F u lV (1) + 2F o lV (1)) / 3 Step S72, F a lV (1) : F o (1): F o lV (1) = I
a :I:I oからIが算出され、F a lV (2):F o (2):F a: I: I o I is calculated from, F a lV (2): F o (2): F
o lV (2)=J a :J:J oからJが算出される。 o lV (2) = J a : J: J is calculated from the J o.

ステップS73で、上記ステップS72において算出された単語中の母音/オ/のテーブル位置(I,J)に基づいて、変換テーブルに従ってTABLE(I,J)が求められる。 In step S73, the vowel / o / table positions in the word which is calculated in step S72 (I, J) on the basis of, TABLE (I, J) is calculated according to the conversion table.
そして、この求められたTABLE(I,J)に基づいて(1) Then, based on thus determined was TABLE (I, J) (1)
式から調音位置(x,y)が算出されて、単語中の母音/ Articulatory position from the equation (x, y) is calculated, in the word vowel /
オ/の調音位置算出ルーチンが終了する。 O / of articulation position calculation routine is finished.

ステップS74で、F o (1)の値が“BNDOU1"よりも小さいか否かが判別される。 In step S74, the whether F value of o (1) is "BNDOU1" less than or not. その結果、“BNDOU1"よりも小さい場合にはステップS75に進み、そうでなければステップS76に進む。 As a result, when it is smaller than the "BNDOU1", the process proceeds to step S75, the process proceeds to step S76 otherwise.

ここで、上記“BNDOU1"は下記のように設定される値である。 Here, the "BNDOU1" is the value to be set as follows.

BNDOU1=(5F u lV (1)+F o lV (1))/6 ステップS75で、調音位置yの値がy=2に設定され、ステップS79に進む。 BNDOU1 = In (5F u lV (1) + F o lV (1)) / 6 step S75, the value of the articulation position y is set to y = 2, the process proceeds to step S79.

ステップS76で、F o (1)の値が“BNDOU2"よりも小さいか否かが判別される。 In step S76, whether or not F value of o (1) is "BNDOU2" less than or not. その結果、“BNDOU2"よりも小さい場合にはステップS77に進み、そうでなければステップS78に進む。 As a result, when it is smaller than the "BNDOU2", the process proceeds to step S77, the process proceeds to step S78 otherwise.

ステップS77で、調音位置yの値がy=3に設定され、ステップS79に進む。 In step S77, the value of the articulation position y is set to y = 3, the process proceeds to step S79.

ステップS78で、調音位置yの値がy=4に設定され、ステップS79に進む。 In step S78, the value of the articulation position y is set to y = 4, the process proceeds to step S79.

ステップS79で、F u lV (2):F u (2):F o lV (2)=x In step S79, F u lV (2) : F u (2): F o lV (2) = x
u :x:x oからxが算出され、単語中の母音/オ/の調音位置算出ルーチンが終了する。 u: x: x o x is calculated from, the vowel / o / of articulation position calculating routine in the word is completed.

上述のような各単語中の母音の調音位置算出アルゴリズムや各単母音のホルマント周波数,各単母音の調音位置(x,y),各単母音のテーブル位置(I V ,J V ),上記変換テーブルおよび各閾値等は第1図の変換式格納部6に格納され、調音位置抽出部5が単語中の母音の調音位置算出動作を実行する際に、必要に応じて変換式格納部6 Vowel articulatory position calculation algorithms and formant frequency of each vowel in each word, as described above, articulation position of each single vowel (x, y), the table position of each vowel (I V, J V), the conversion tables and threshold values ​​and the like are stored in the conversion equation storing section 6 of FIG. 1, when the articulatory position extraction unit 5 executes the articulatory position calculation operation of vowels in the word, the conversion equation storage unit as needed 6
から読み出される。 It is read from. ここで、本実施例においては、上記第1の調音位置算出手段は、第6図中のステップS11〜S In the present embodiment, the first articulation position calculating means, steps in FIG. 6 S11~S
15と、第9図中のステップS61〜S63と、第10図中のステップS71〜S73に対応する。 15, a step S61~S63 in FIG. 9 corresponds to step S71~S73 in Figure 10. 一方、上記第2の調音位置算出手段は、第7図中のステップS21〜S36と、第8図中のステップS41〜S54と、第9図中のステップS64〜S69と、 On the other hand, the second articulation position calculating means, and steps S21~S36 in FIG. 7, step S41~S54 in FIG. 8, step S64~S69 in FIG. 9,
第10図中のステップS74〜S79に対応するのである。 It is to correspond to steps S74~S79 in Figure 10.

上述のように、本実施例においては、既知の単母音のホルマント周波数を用いて、入力された音声における単語中の母音のホルマント周波数から、所定のアルゴリズムに従って単語中の母音の調音位置を算出するようにしている。 As described above, in the present embodiment, by using the formant frequency of the known single vowel, from formant frequencies of vowels in the word in the input speech, and calculates the articulation position of the vowels in the word according to a predetermined algorithm It is way. したがって、本実施例によれば、音素を特徴づけるホルマント周波数に基づいて話者や言語に依存しない音声の特徴量である調音位置を抽出することができる。 Therefore, according to this embodiment, it is possible to extract the articulation position which is a feature quantity of the sound speaker-independent or language based on the formant frequencies characterizing the phonemes.

本実施例における変換テーブルは第1表に例示したものに限らないことは言うまでもない。 It goes without saying that the conversion table in the present embodiment is not limited to those exemplified in Table 1.

次に、第2実施例について詳細に述べる。 Next, described in detail for the second embodiment.

第2実施例 本実施例は、上記ニューラル・ネットワークを用いて、上記単語中の母音の周波数成分から、この母音の調音位置を生成する規則を学習によって自動的に作成し、 This embodiment the second embodiment, by using the neural network, from the frequency components of the vowels in the word, automatically created by learning rules to generate articulation position of the vowel,
この規則に従って単語中の母音の調音位置を生成するものである。 And it generates an articulation position of the vowels in the word in accordance with this rule.

ここで、ニューラル・ネットワークの概略について説明する。 Here, the outline of the neural network. ニューラル・ネットワークとは、人間の脳の構造を真似たネットワークであって、脳のニューロンに対応したユニットが複数個複雑に接続しあって形成されている。 A neural network, a network that mimics the structure of the human brain, units corresponding to the neurons of the brain is formed by each other plurality complicatedly connected.

上記ユニットの構造は他のユニットからの入力信号を受ける部分と、入力信号を一定の規則で変換する部分と、変換した結果を出力する部分とから成る。 Structure of the unit consists of a part for receiving an input signal from another unit, a portion for converting an input signal with a constant rule, and the portion for outputting the converted result. 上記複数のユニットは、後に詳述するように入力層,中間層および出力層からなる階層構造のネットワークを形成し、他のユニットとの結合部には結合の強さを表す結合係数が付けられている。 The plurality of units, the input layer as described in detail later, the network is formed of a hierarchical structure consisting of the intermediate and output layers, the coupling portion between the other units bear the coupling coefficient representing the coupling strength ing.

上記結合係数はユニット間の結合の強さをあらわすものであり、この結合係数の値を変えるとネットワークの構造が変わるのである。 The coupling coefficient is intended to represent the strength of the coupling between the units is the structure of the network changes when changing the value of the coupling coefficient. すなわち、上記ニューラル・ネットワークの学習とは、ある既知の関係を有する2つの事象の一方の事象に属するデータを次々に上記階層構造に形成されたネットワークの入力層に入力し、その際に、出力層に出力される出力データと上記入力されたデータに対応する他の事象に属するデータ(すなわち、目標値=教師データ)との間の差を減らすように、上記結合係数を変更することである。 That is, the Neural of network learning is input to the input layer of the two networks formed data belonging to one of the events of the event to the hierarchical structure one after another with a certain known relationship, at that time, the output data belonging to another event corresponding to the output data and the input data to be output to the layer (i.e., target value = teacher data) to reduce the difference between, is to change the coupling coefficient . 換言すれば、所定の関係を有する2つの事象のうちの一方の事象に属するデータを入力すると、そのデータに対応する他方の事象に属するデータを出力するようにネットワークの構造を変えることである。 In other words, if you enter the data belonging to one event of the two events having a predetermined relationship, it is to change the structure of the network so as to output the data belonging to another event corresponding to the data.

本実施例において用いたニューラル・ネットワークは第11図に示すように構造を有している。 Neural network used in this embodiment has a structure as shown in FIG. 11. すなわち、このニューラル・ネットワークは図中下側から順に入力層2 That is, the neural network input layer 2 in this order from the lower side in FIG
1,中間層22および出力層23から成る3層構造を有する。 1, having a three-layer structure composed of the intermediate layer 22 and output layer 23.
入力層21には16個のユニット24,24,…を配し、中間層22 16 units 24, 24 to the input layer 21, ... arranged, the intermediate layer 22
には10個のユニット25,25,…配し、出力層23には7個のユニット26a,26b,…,26gと7個のユニット27a,27b,…,2 10 units 25, 25 in, ... arranged, seven units 26a to the output layer 23, 26b, ..., 26 g and seven units 27a, 27b, ..., 2
7gとから成る14個のユニットを配している。 And arranged 14 units consisting of 7 g.

ここで、入力層21の16個のユニット24の一つには、16 Here, one of the 16 units 24 of the input layer 21, 16
チャンネルのBPF群の一つのチャンネルから出力信号が入力される。 The output signal from one channel of the BPF group channel is inputted. また、出力層23の一方の7個のユニット26 Also, one of the seven units 26 of the output layer 23
a,…,26gは、調音位置xの座標値(第2図に示す1〜 a, ..., 26 g the coordinate values ​​of the articulation position x (. 1 to that shown in Figure 2
7)のいずれか(例えば、ユニット26a→26gの順にxの座標1→7が対応しているとする)を出力し、他方の7 7) any of (e.g., the coordinates 1 → 7 of x in the order of the unit 26a → 26 g corresponds) outputs, the other 7
個のユニット27a,…,27gは、調音位置yの座標値(第2 Number of units 27a, ..., 27 g the coordinate values ​​of the articulation position y (second
図に示す1〜7)のいずれか(例えば、ユニット27a→2 Any of 1 to 7) shown in FIG. (E.g., units 27a → 2
7gの順にyの座標1→7が対応しているとする)を出力するのである。 In the order of 7g coordinates 1 → 7 of y is to output to) correspond. 入力層21の各ユニット24,24,…は夫々中間層22の全ユニット25,…,25と接続している。 Each unit 24, 24 of the input layer 21, ... are all units of each intermediate layer 22 25, ..., are connected to the 25. また、中間層22の各ユニット25,25,…は夫々出力層23の全ユニット26a,…,26g,27a,…,27gと接続している。 Also, all units 26a of the respective units 25, 25 of the intermediate layer 22, ... are respectively output layer 23, ..., 26 g, 27a, ..., are connected to the 27 g. しかしながら、各層内のユニット間は接続されない。 However, it is not connected between the units in each layer.

上記構造のニューラル・ネットワークは結合係数と共に上記変換式格納部6に格納されている。 Neural network having the above structure is stored in the conversion equation storage unit 6 together with the coupling coefficient.

上記構造のニューラル・ネットワークは次のように動作する。 Neural network of the above structure operates as follows.

上記入力層21の各ユニット24,24,…に入力音声における母音の周波数成分を入力する。 Each unit 24, 24 of the input layer 21, and inputs the frequency components of the vowels in the input speech to .... すなわち、本実施例においては、16チャンネルのBPF群からの出力値が各チャンネル別に入力層21の対応するユニット24,…,24に入力するのである。 That is, in this embodiment, the unit 24 the output value from the BPF group 16 channels corresponding in the input layer 21 for each channel, ..., is to enter the 24. このBPF群の中心周波数は、300Hz〜3400 The center frequency of the BPF group, 300Hz~3400
Hzの周波数をメルスケールで16個に等間隔に分割した値を用いる。 It uses a value of the frequency divided equally into 16 at Mel scale Hz.

そうすると、この入力されたBPF群からの出力値は各ユニット24,24…において、シグモイド(sigmoid)関数によって変換されて、中間層22の各ユニット25,25,…に伝えられる。 Then, the output value from the input BPF group in each unit 24, 24 ..., is converted by a Sigmoid (sigmoid) function, the units 25, 25 of the intermediate layer 22, is transmitted to .... その際に、中間層22の各ユニット25,25,… At that time, each unit 25, 25 of the intermediate layer 22, ...
には、入力層21の各ユニット24,24,…の出力値に対して上記結合係数を掛けた値の総和が入力される。 The respective units 24, 24 of the input layer 21, the sum of a value obtained by multiplying the coupling coefficient is input to ... output value. 同様に、 Similarly,
中間層22の各ユニット25,25,…は入力層21の各ユニット Each unit 25, 25 of the intermediate layer 22, ... Each unit of the input layer 21
24,24,…から入力された値をシグモイド関数によって変換し、出力層23の各ユニット26a,…,26g,27a,…,27gに出力する。 24 and 24, and converts the value input from ... by sigmoid function, each unit 26a of the output layer 23, ..., 26 g, 27a, ..., and outputs the 27 g. 出力層23の各ユニット26a,…,26g,27a,…,27 Each unit 26a of the output layer 23, ..., 26g, 27a, ..., 27
gには中間層22の各ユニット25,25,…の出力値に対して結合係数を掛けた値の総和が入力される。 Each unit 25, 25 is in g the intermediate layer 22, the sum of the value obtained by multiplying the coupling coefficient is input to ... output value. そして、出力層23の各ユニット26a,…,26g,27a,…,27gは中間層22の各ユニット25,25,…から入力された値をシグモイド関数によって変換して出力する。 Each unit 26a of the output layer 23, ..., 26 g, 27a, ..., 27 g Each unit 25, 25 of the intermediate layer 22, and outputs the value input from ... to convert the sigmoid function.

ここで、上記シグモイド関数f(x)は次式で与えられる。 Here, the sigmoid function f (x) is given by the following equation.

f(x)=1/(1+exp(−x+a)) a:定数 上述のように、出力層23の各ユニット26a,…,26g,27 f (x) = 1 / (1 + exp (-x + a)) a: as in constant above, each unit 26a of the output layer 23, ..., 26 g, 27
a,…,27gから出力された出力値から、次のようにして調音位置(x,y)を決定する。 a, ..., from output value output from the 27 g, as follows to determine the articulation position (x, y). すなわち、出力層23の調音位置xに対応する一方の7個のユニット26a,…,26gのうち、一番大きな値を出力しているユニット(例えば、ユニット26b)に対応したxの座標値(例えば、x=2) That is, one of the seven units 26a corresponding to the articulation position x of the output layer 23, ..., among the 26 g, units that outputs the largest value (e.g., unit 26b) coordinate values ​​of x corresponding to ( For example, x = 2)
を調音位置xの値とする。 The to the value of the articulation position x. また、調音位置yに対応する一方の7個のユニット27a,…,27gのうち、一番大きな値を出力しているユニット(例えば、27g)に対応したy Also, one of the seven units 27a corresponding to the articulation position y, ..., of 27 g, corresponding to a unit that outputs the largest value (e.g., 27 g) y
の座標値(例えば、y=7)を調音位置yの値とする。 Coordinate values ​​(e.g., y = 7) and the value of the articulation position y.
こうして、調音位置(x,y)(例えば、(2,7))が決定されるのである。 Thus, articulation position (x, y) (e.g., (2,7)) is being determined.

上記ニューラル・ネットワークの学習は、学習アルゴリズムとして誤差逆伝播アルゴリズムを用いて次のようにして行う。 Learning of the neural network is carried out as follows using the backpropagation algorithm as a learning algorithm. すなわち、まず、入力層21のユニット24,2 That is, first, the input layer 21 Unit 24,2
4,…,24にBPF群からの出力値(例えば、目標値(2,7) 4, ..., the output value from the BPF group 24 (e.g., a target value (2,7)
を出力するような値)を入力する。 Entering a value) so as to output. 次に、出力層23の調音位置xの座標値を出力するユニット26a,26b,…,26gのうち、調音位置xの目標値(例えば、x=2)に対応するユニット(例えば、ユニット26b)にのみ“1"を入力し、他のユニット(例えば、ユニット26a,26c,…,26g) Then, the unit 26a, 26b for outputting the coordinate values ​​of the articulation position x of the output layer 23, ..., among the 26 g, units corresponding to the target value of the articulation position x (e.g., x = 2) (e.g., unit 26b) enter "1" only in the other units (e.g., units 26a, 26c, ..., 26 g)
には“0"を入力する。 To enter "0". 一方、出力層23の調音位置yの座標値を出力するユニット27a,27b,…,27gのうち、調音位置yの目標値(例えば、y=7)に対応するユニット(例えば、ユニット27g)にのみ“1"を入力し、他のユニット(例えば、ユニット26a,26b,…,26f)には“0"を入力する。 On the other hand, the unit 27a for outputting the coordinate values ​​of the articulation position y of the output layer 23, 27b, ..., of 27 g, the target value of the articulation position y (e.g., y = 7) units corresponding to (e.g., unit 27 g) in only type "1", other units (e.g., units 26a, 26b, ..., 26f) to enter "0". そして、誤差逆伝播アルゴリズムによって目標値(例えば、(2,7))に対する結合係数の変化量が求められ、新たな各ユニット間の結合係数が設定されるのである。 Then, the target value by the error back propagation algorithm (e.g., (2,7)) variation of the coupling coefficient is obtained for, is the coupling coefficient between each new unit is set. 上述の操作を数回繰り返すと、やがて、出力層23の調音位置xの座標値を出力するユニット26a,26b, Repeated several times the operations described above, eventually, unit 26a outputs a coordinate value of the articulation position x of the output layer 23, 26b,
…,26gのうち、目標値(例えば、x=2)に対応したユニット(例えば、ユニット26b)のみが“1"を出力して他のユニットは“0"を出力する一方、出力層23の調音位置yの座標値を出力するユニット27a,27b,…,27gのうち、目標値(例えば、y=7)に対応したユニット(例えば、ユニット27g)のみが“1"を出力して他のユニットは“0"を出力するように、入力層21と中間層22との間および中間層22と出力層23との間の各結合係数が設定される。 ..., of 26 g, the target value (e.g., x = 2) unit corresponding to (e.g., unit 26b) while outputting the other units "0" and outputs only "1", the output layer 23 unit 27a for outputting the coordinate values ​​of the articulation position y, 27b, ..., of 27 g, the target value (e.g., y = 7) unit corresponding to (e.g., unit 27 g) only the other outputs "1" unit to output "0", the coupling coefficient and between the intermediate layer 22 and output layer 23 between the input layer 21 and the intermediate layer 22 is set.

上述のような学習を、種々の話者や言語について行う。 Learning as described above, it performed for a variety of speakers and language. そうすると、最終的に上記結合係数の値は収束して、殆どの単語中の母音における周波数成分の入力に対して正しい調音位相(x,y)を出力するようになる。 Then, the value of the finally the coupling coefficient is converged, so that outputs the correct articulatory phase (x, y) for the input of the frequency components in the vowel most in the word. すなわち、上述のようにして十分な学習が行われたニューラル・ネットワークでは、上記各BPF群の出力値(単語中の母音の周波数成分)から直接調音位置を生成する規則が自動的に作成されている。 That is, in the neural network is sufficient learning as described above is performed, rules for generating a direct articulation position from the output values ​​of the BPF group (the frequency component of vowels in the word) is created automatically there. したがって、学習後のニューラル・ネットワークは総ての入力値に対して正しい調音位置(x,y)を出力することができるのである。 Therefore, the neural network after learning it is possible to output the correct articulatory position (x, y) for all input values.

このように、本実施例においては、単語中の母音におけるBPF群の出力値(すなわち、周波数成分)から、単語中の母音の調音位置の値を生成することができる。 Thus, in the present embodiment, the output value of the BPF group in vowels in the word (i.e., frequency components) from the can generate the value of the articulation position of the vowels in the word. したがって、本実施例によれば、音声の周波数成分に基づいて話者や言語に依存しない音声の特徴量である調音位置を直接抽出することができる。 Therefore, according to this embodiment, it is possible to directly extract the articulation position which is a feature quantity of the sound speaker-independent or language based on the frequency components of the sound.

上記第2実施例において、入力層21に音声波形のピッチの値を入力するユニットを一つ追加し、入力層21のユニット数を17としてもよい。 In the second embodiment, one adds a unit for inputting a value of the pitch of the speech waveform to the input layer 21, the number of units of the input layer 21 may be 17. この場合、上記ピッチの値は従来より行われている手法である自己相関法やケプストラム法等の手法を用いて求めればよい。 In this case, the value of the pitch may be determined using a technique of auto-correlation method or the cepstrum method is a technique that has been conventionally performed. 男性のピッチの平均値と標準偏差は夫々125Hzおよび20.5Hzであり、 The average value of the pitch of the male and the standard deviation are respectively 125Hz and 20.5Hz,
女性のピッチの平均値と標準偏差は夫々男性の値の約2 The average value and standard deviation of the pitch of the woman is about 2 of the value of each man
倍に等しい。 Equal to double. また、一般的に、女性の周波数成分は男性の周波数成分より高域側にシフトした形になっている。 Also, in general, the frequency components of the woman is in a form shifted from the high frequency band frequency components of the male.
これは、男性と女性との生理的差異によるものである。 This is due to physiological differences between men and women.
したがって、ピッチの値の情報を入力層21に入力することによって、ニューラル・ネットワークによって男性の周波数成分と女性の周波数成分とが正規化され、単語中の母音の調音位置をより正確に算出することが期待できる。 Therefore, by inputting the information of the value of the pitch in the input layer 21, it is normalized and the frequency components of the male and female frequency components by the neural network, to calculate the articulation position of the vowels in the word more accurately There can be expected.

上記第2実施例において、入力層21のユニット24,24, In the second embodiment, the input layer 21 units 24, 24,
…にBPF群からの出力値を入力するようにしている。 So that receives an output value from the BPF group to .... しかしながら、この発明はこれに限定されるものではなく、第1実施例において用いたホルマント周波数を入力して、ホルマント周波数から調音位置を求めるようにしてもよい。 However, the present invention is not limited thereto, and enter the formant frequency used in the first embodiment, may be obtained articulatory position from the formant frequencies.

上記第2実施例においては、入力層21あるいは中間層 In the above-described second embodiment, the input layer 21 or the intermediate layer
22に入力された入力信号を変換する際の変換関数として、シグモイド関数を用いている。 As conversion function in converting inputted input signal 22, it is used sigmoid function. しかしながら、この発明においてはこれに限定されるものではなく、閾値関数を用いてもよい。 However, not limited thereto in the present invention may be used threshold function.

上記第2実施例において、ニューラル・ネットワークを構成する入力層21,中間層22および出力層23のユニットの数は、ニューラル・ネットワークへ入力する周波数成分を出力するBPF群のチャンネル数や調音位置を表すためのx座標値およびy座標値の数に応じて適当に変更してもよいことは言うまでもない。 In the second embodiment, input layer 21 constituting the neural network, the number of units of the intermediate layer 22 and output layer 23, the number of channels and articulatory positions of the BPF group outputs the frequency components to be input to the neural network it goes without saying that it may be suitably modified depending on the number of x coordinate values ​​and y-coordinate values ​​for representing.

<発明の効果> 以上より明らかなように、この発明の音声の特徴抽出装置においては、母音/子音区間判定部,変換テーブルおよび調音位置抽出部を設けて、上位調音位置抽出部の第1の調音位置算出手段によって、上記母音/子音区間判定部で母音区間とあると判定された発声内容が既知の対象母音に係る上記変換テーブル上の位置を上記変換テーブルを用いて求め、そして更に、この求められた変換テーブル上の位置に在る要素値を用いて当該対象母音の調音位置を算出する一方、第2の調音位置算出手段によって、発声内容および調音位置が既知である複数の単母音の周波数成分に基づいて、上記母音/子音区間判定部によって母音区間であると判定され、且つ、上記第1の調音位置算出手段で調音位置が算出されない発声内容が既知 As is apparent from the above <Effects of the Invention> In the feature extractor of the speech of the invention, the vowel / consonant segment determination unit, provided with a conversion table and articulation position extraction unit, a first upper articulation position extraction unit the articulation position calculating means obtains a position on the conversion table utterance contents is determined that the vowel interval according to the known object vowel above vowel / consonant segment determination unit by using the conversion table, and further, this while calculating the articulation position of the target vowel with element values ​​at the position on the obtained conversion table, the second articulation position calculating means, the utterance contents and articulation position a plurality of single vowel is known based on the frequency component, it is determined as a vowel interval by the vowel / consonant segment determination unit, and utterance contents articulation position in the first articulatory position calculating means does not calculate the known の対象母音の調音位置を、この対象母音の周波数成分から算出するようにしたので、母音の周波数成分から話者や言語に依存しない音声の特徴量である調音位置を生成することができる。 The articulation position of the target vowel, since to calculate from the frequency components of the target vowel, it is possible to generate the articulation position which is a feature quantity of the sound speaker-independent or language from frequency components of the vowels.

したがって、この発明を用いれば、音声の発声に固有な特徴量を簡単な処理で精度良く抽出することができる。 Therefore, using this invention, it is possible to accurately extract a simple process unique feature quantity utterance of speech.

【図面の簡単な説明】 BRIEF DESCRIPTION OF THE DRAWINGS

第1図はこの発明に係る音声認識装置における一実施例のブロック図、第2図は種々の母音の調音位置を示す図、第3図は日本語母音における第1ホルマント周波数と第2ホルマント周波数との関係を示す図、第4図はある話者の種々の母音における第1ホルマント周波数と第2ホルマント周波数との関係を示す図、第5図は単語中における一つの母音の調音位置算出動作のフローチャート、第6図は第5図における単語中の母音/ア/の調音位置算出ルーチンのフローチャート、第7図は第5図における単語中の母音/イ/の調音位置算出ルーチンのフローチャート、第8図は第5図における単語中の母音/ Figure 1 is a block diagram of an embodiment of speech recognition apparatus according to the present invention, FIG. FIG. 2 showing the articulation positions of the various vowels, FIG. 3 is a first formant frequency in Japanese vowels second formant frequency diagram showing the relationship between, FIG. 4 is a diagram showing a relationship between the first formant frequency and the second formant frequency in the various vowels speaker is, Fig. 5 articulation position calculation operation of one vowel in the word of the flowchart, FIG. 6 is a flow chart of the vowel / a / articulatory position calculating routine in the word in FIG. 5, FIG. 7 is a flow chart of the vowel / i / articulatory position calculating routine in the word in Figure 5, the 8 illustration vowels in the word in Figure 5 /
ウ/の調音位置算出ルーチンのフローチャート、第9図は第5図における単語中の母音/エ/の調音位置算出ルーチンのフローチャート、第10図は第5図における単語中の母音/オ/の調音位置算出ルーチンのフローチャート、第11図はニューラル・ネットワークの製造の説明図である。 C / a flowchart of articulatory position calculating routine, FIG. 9 is a flow chart of the vowel / e / articulatory position calculating routine in the word in FIG. 5, FIG. 10 vowel / o / articulation in the word in Figure 5 flow position calculating routine, FIG. 11 is an explanatory view of the manufacturing of the neural network. 1……マイクロホン、2……アンプ、3……音響分析部、4……母音/子音区間判定部、 5……調音位置抽出部、6……変換式格納部、7……子音パターン変換部、 8……子音パターン格納部、9……パターンマッチング部、 10……標準パターン格納部、11……結果表示部、21…… 1 ...... microphone, 2 ...... amplifiers, 3 ...... acoustic analysis section, 4 ...... vowel / consonant segment determination unit, 5 ...... articulatory position extraction unit, 6 ...... conversion equation storage unit, 7 ...... consonant pattern conversion section , 8 ...... consonant pattern storage unit, 9 ...... pattern matching unit, 10 ...... standard pattern storing unit, 11 ...... result display unit, 21 ......
入力層、 22……中間層、23……出力層、24……入力層のユニット、 25……中間層のユニット、26a〜26g……調音位置xを出力するユニット、 27a〜27g……調音位置yを出力するユニット。 Input layer, 22 ...... intermediate layer, 23 ...... output layer, 24 ...... input layer unit, 25 ...... of hidden units, units for outputting 26a to 26g ...... articulatory position x, 27A~27g ...... articulation unit for outputting the position y.

Claims (1)

    (57)【特許請求の範囲】 (57) [the claims]
  1. 【請求項1】入力音声を周波数分析し、得られた周波数成分から音声の特徴量を抽出する音声の特徴抽出装置において、 入力音声の母音区間および子音区間を判定する母音/子音区間判定部と、 母音における少なくとも2つの周波数成分を調音位置に変換するためのテーブルであって、発声内容が既知である複数の単母音に係る要素値を含む変換テーブルと、 発声内容が既知の対象母音の調音位置を求める調音位置抽出部を備えて、 上記調音位置抽出部は、 上記母音/子音区間判定部によって母音区間であると判定された発声内容が既知の対象母音に係る上記変換テーブルの上の位置を、上記単母音に係る上記2つの周波数成分と上記変換テーブル上の位置とに基づいて求め、この求められた変換テーブル上の位置に在る要素値を用いて 1. A input audio frequency analysis, the feature extractor of the speech for extracting a feature value of the audio from the obtained frequency components and determining a vowel / consonant segment determination unit vowel section and consonant segment of input speech , a table for converting at least two frequency components in the vowel articulatory position, a conversion table utterance contents includes an element value of the plurality of single vowels known utterance content of known object vowel articulatory comprise articulatory position extraction unit for determining the position, the articulation position extraction unit, a position on the above conversion table uttered content is determined to be a vowel interval by the vowel / consonant segment determination unit according to the known object vowel and calculated on the basis of the position on the two frequency components and the conversion table according to the vowel, using the element values ​​at the position on the sought conversion table 該対象母音の調音位置を算出する第1の調音位置算出手段と、 発声内容および調音位置が既知である複数の単母音の周波数成分に基づいて、上記母音/子音区間判定部によって母音区間であると判定され、且つ、上記第1の調音位置算出手段によって調音位置が算出されない発声内容が既知の対象母音の調音位置を、この対象母音の周波数成分から所定のアルゴリズムに従って算出する第2の調音位置算出手段を有し、 上記音声の周波数成分から、話者や言語に依存しない音声の特徴量である調音位置を抽出することを特徴とする音声の特徴抽出装置。 A first articulation position calculating means for calculating the articulation position of the subject vowel, based on the frequency components of a plurality of single vowels are known utterance contents and articulation position is the vowel section by the vowel / consonant segment determination unit is determined, and utterance contents articulatory position is not calculated by the first articulation position calculating means articulatory positions of known object vowel, a second articulation position is calculated according to a predetermined algorithm from the frequency components of the target vowel a calculation means, from the frequency components of the speech, speech feature extraction apparatus and extracting articulatory position which is a feature quantity of the sound speaker-independent or language.
JP2337789A 1989-02-01 1989-02-01 Audio features extraction system Expired - Fee Related JP2655902B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2337789A JP2655902B2 (en) 1989-02-01 1989-02-01 Audio features extraction system

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2337789A JP2655902B2 (en) 1989-02-01 1989-02-01 Audio features extraction system
US07473238 US5175793A (en) 1989-02-01 1990-01-31 Recognition apparatus using articulation positions for recognizing a voice

Publications (2)

Publication Number Publication Date
JPH02203396A true JPH02203396A (en) 1990-08-13
JP2655902B2 true JP2655902B2 (en) 1997-09-24

Family

ID=12108845

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2337789A Expired - Fee Related JP2655902B2 (en) 1989-02-01 1989-02-01 Audio features extraction system

Country Status (1)

Country Link
JP (1) JP2655902B2 (en)

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS59195300A (en) * 1983-04-20 1984-11-06 Matsushita Electric Ind Co Ltd Voice recognition equipment

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Complex Systems No.1(昭和62年)P.145〜168

Also Published As

Publication number Publication date Type
JPH02203396A (en) 1990-08-13 application

Similar Documents

Publication Publication Date Title
US5220639A (en) Mandarin speech input method for Chinese computers and a mandarin speech recognition machine
Nose et al. A style control technique for HMM-based expressive speech synthesis
Muda et al. Voice recognition algorithms using mel frequency cepstral coefficient (MFCC) and dynamic time warping (DTW) techniques
US5638486A (en) Method and system for continuous speech recognition using voting techniques
US5526466A (en) Speech recognition apparatus
US4590605A (en) Method for production of speech reference templates
US5940797A (en) Speech synthesis method utilizing auxiliary information, medium recorded thereon the method and apparatus utilizing the method
US5860062A (en) Speech recognition apparatus and speech recognition method
US6490555B1 (en) Discriminatively trained mixture models in continuous speech recognition
US7016833B2 (en) Speaker verification system using acoustic data and non-acoustic data
US20020143542A1 (en) Training of text-to-speech systems
US20050060155A1 (en) Optimization of an objective measure for estimating mean opinion score of synthesized speech
US5307442A (en) Method and apparatus for speaker individuality conversion
Taylor Analysis and synthesis of intonation using the tilt model
Mari et al. Automatic word recognition based on second-order hidden Markov models
US4969194A (en) Apparatus for drilling pronunciation
US5905972A (en) Prosodic databases holding fundamental frequency templates for use in speech synthesis
US4837831A (en) Method for creating and using multiple-word sound models in speech recognition
US20030009338A1 (en) Methods and apparatus for text to speech processing using language independent prosody markup
US5528728A (en) Speaker independent speech recognition system and method using neural network and DTW matching technique
US5956679A (en) Speech processing apparatus and method using a noise-adaptive PMC model
Shichiri et al. Eigenvoices for HMM-based speech synthesis
Masuko et al. Voice characteristics conversion for HMM-based speech synthesis system
US6553342B1 (en) Tone based speech recognition
US20030093265A1 (en) Method and system of chinese speech pitch extraction

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees