JP2862306B2 - Voice recognition device - Google Patents
Voice recognition deviceInfo
- Publication number
- JP2862306B2 JP2862306B2 JP2023205A JP2320590A JP2862306B2 JP 2862306 B2 JP2862306 B2 JP 2862306B2 JP 2023205 A JP2023205 A JP 2023205A JP 2320590 A JP2320590 A JP 2320590A JP 2862306 B2 JP2862306 B2 JP 2862306B2
- Authority
- JP
- Japan
- Prior art keywords
- phoneme
- word
- voice
- unit
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Description
【発明の詳細な説明】 [産業上の利用分野] 本発明は音声認識方法に関するものであって、特に任
意の話者が発生した音声を認識可能な音声認識方法に関
するものである。Description: FIELD OF THE INVENTION The present invention relates to a speech recognition method, and more particularly to a speech recognition method capable of recognizing speech generated by an arbitrary speaker.
不特定話者認識に関する認識手法は、いくつか考案さ
れているが、現状で最も一般的かつ本提案に比較的近い
構成を持つ不特定話者認識システムの従来例について述
べる。Several recognition methods related to unspecified speaker recognition have been devised, but a conventional example of an unspecified speaker recognition system having the most common configuration at present and relatively close to the present proposal will be described.
従来、不特定大語彙を目指した認識システムは第3図
のような構成になっている。音声入力部1から入力され
た音声は音声分析部2により音声のパワー項等を含むフ
イルタバンク出力、LPCケプストラム等の特徴パラメー
タが求められ、ここでパラメータの圧縮等(フイルタバ
ンク出力の場合、K−L変換等による次元圧縮)も行わ
れる。(分析はフレーム単位で行われるので、以下、圧
縮後の特徴パラメータを特徴ベクトルと呼ぶ) 次に連続音声中から音素境界を決定するための処理が
音素境界検出部3により行われる。音素識別部4では、
統計的な手法により音素が決定される。5は多数の音素
サンプルから作成した音素標準パタンを格納する音素標
準パタン格納部。6は音素識別4の出力結果から単語辞
書7あるいは出力された候補音素の中から修正規制部8
により修正を行って、最終的な認識結果を出力する単語
識別部、9は認識結果を表示する認識結果表示部であ
る。Conventionally, a recognition system aiming at an unspecified large vocabulary has a configuration as shown in FIG. The voice input from the voice input unit 1 is used by the voice analysis unit 2 to obtain a filter bank output including a power term of the voice and characteristic parameters such as an LPC cepstrum. Here, parameter compression and the like (in the case of a filter bank output, K -Dimensional conversion by -L conversion or the like). (Because the analysis is performed on a frame basis, the feature parameter after compression is hereinafter referred to as a feature vector.) Next, a process for determining a phoneme boundary from continuous speech is performed by the phoneme boundary detection unit 3. In the phoneme identification unit 4,
Phonemes are determined by a statistical method. A phoneme standard pattern storage unit 5 stores phoneme standard patterns created from a large number of phoneme samples. Reference numeral 6 denotes a word dictionary 7 based on the output result of the phoneme identification 4 or a correction restricting unit 8 from the output candidate phonemes.
Is a word identification unit that outputs the final recognition result after the correction, and 9 is a recognition result display unit that displays the recognition result.
通常、音素境界検出部3では、判別関数等を用いてお
り、音素識別部4でも同様に判別される。これら各構成
要素の出力は一般的にある一定の閾値を満足した候補が
出力される。それぞれの候補について更に複数の候補が
出力されるが、7、8の様なTop down的な情報等が用
いられ最終点な単語に絞られる。Usually, the phoneme boundary detection unit 3 uses a discriminant function or the like, and the phoneme discrimination unit 4 performs the same determination. Generally, as the output of each of these components, a candidate satisfying a certain threshold is output. Although a plurality of candidates are further output for each candidate, top-down information such as 7 or 8 is used to narrow down the word to the final point.
しかしながら、上記従来例の認識装置は基本的な構成
がボトム・アツプ型であるので、認識・過程のある箇所
で誤りが生じた場合、後の過程に悪影響を及ぼし易い形
になっている。(例えば、音素境界検出部3において、
音素境界を誤った場合、その誤り方によっては音素識別
部4、単語識別部6に与える影響は大きい)つまり、最
終的な音声の認識率は各過程の誤り率の積に比例して下
がるので、高い認識率が得られなかった。However, since the basic configuration of the above-described conventional recognition apparatus is a bottom-up type, if an error occurs at a certain point in the recognition / process, it is likely to have a bad influence on a subsequent process. (For example, in the phoneme boundary detection unit 3,
If the phoneme boundary is incorrect, the effect on the phoneme discriminator 4 and the word discriminator 6 is large depending on the way of the error. That is, the final speech recognition rate decreases in proportion to the product of the error rates in each process. , High recognition rate could not be obtained.
又、特に、不特定話者を対象とする認識装置を構成す
る場合各過程での判定の為の閾値の設定が非常に難し
い。少なくとも候補の中に目的とするものが存在する様
に閾値を設定すると、各過程における候補群の数が多く
なり、複数候補単語の中から目的とする単語を正確に絞
り込む方法が非常に難しくなっていた。また、実環境下
で認識装置を使用しようとした場合、非定常ノイズ等が
かなり多く、少数単語の認識装置であっても認識率が低
く、実際、使いにくいものとなっていた。In particular, when configuring a recognition device for an unspecified speaker, it is very difficult to set a threshold value for determination in each process. If the threshold is set so that at least the target exists in the candidates, the number of candidate groups in each process increases, and it becomes very difficult to accurately narrow down the target word from a plurality of candidate words. I was In addition, when an attempt is made to use a recognition device in a real environment, non-stationary noise and the like are considerably large, and even a recognition device for a small number of words has a low recognition rate and is actually difficult to use.
[課題を解決するための手段] 上記従来の課題を解決するために、本発明は、辞書用
単語データを記憶した単語辞書と、辞書用音素データを
記憶した音素辞書とを利用する音声認識方法であって、
音声データを入力し、前記単語辞書に記憶されている辞
書用単語データをスポッティング法を用いて前記入力し
た音声データとマッチングすることにより、前記入力し
た音声データの音声区間と当該音声区間に対応する候補
単語とを選出し、前記選出された候補単語を構成し得る
音素の辞書用音素データを前記音素辞書から選択的に取
り出して、前記選出された音声区間の入力音声データと
マッチングし、前記辞書用音素データと入力音声データ
とのマッチングの結果に基づいて前記入力音声データの
認識結果を決定する音声認識方法を提供する。Means for Solving the Problems In order to solve the above conventional problems, the present invention provides a speech recognition method using a word dictionary storing dictionary word data and a phoneme dictionary storing dictionary phoneme data. And
By inputting voice data and matching the dictionary word data stored in the word dictionary with the input voice data using a spotting method, the voice section of the input voice data corresponds to the voice section. Selecting a candidate word, selectively extracting phoneme data for a dictionary of phonemes that can constitute the selected candidate word from the phoneme dictionary, matching the input phonemic data with the input voice data of the selected voice section, and A voice recognition method for determining a recognition result of the input voice data based on a result of matching between phoneme data for use and input voice data.
〔実施例1〕 第1図は本発明による音声認識システムの基本構成図
で、100は音声入力部、101は入力された音声を分析、圧
縮し、特徴ベクトルの時系列に変換する音声分析部、10
3は多数の話者が発声した単語データから求めた標準パ
タンを格納する単語標準パタン格納部、102は音声分析
部101の特徴ベクトル系列と単語標準パタン格納部103に
格納されている各々の標準パタンを入力データのフレー
ムごとに連続マハラノビスDPを用いて距離を算出する連
続マハラノビスアDPによる単語距離計算部、104は連続
マハラノビスDPより求めた各フレームと単語標準パタン
との距離の値により単語標準パタンの中から候補となる
単語を判別する候補単語判別部、105は候補になった1
つ以上の単語区間の特徴ベクトルのパラメータを格納す
るパラメータ格納部、106は多数話者の発声した音声の
中から音素単位で作成された標準パタンを格納する音素
標準パタン格納部、107は候補となった単語の特徴ベク
トル系列について音素単位で連続マハラノビスDPにより
入力データと音素標準パタンの距離計算を行う連続マハ
ラノビスDPによる音素距離計算部、108は1つ以上の候
補単語のそれぞれについてマツチングされた各音素列か
ら最も適当な単語を識別して出力する音素単位の認識結
果による識別部。109は例えば音声応答等の手段により
音声認識結果を出力する結果出力部である。図中、第1
部は音声区間の切り出しと供に単語の候補の絞り込み、
第2部は候補単語内での音素単位の認識部を示す。Embodiment 1 FIG. 1 is a basic configuration diagram of a speech recognition system according to the present invention. 100 is a speech input unit, 101 is a speech analysis unit that analyzes and compresses inputted speech and converts it into a time series of feature vectors. ,Ten
3 is a word standard pattern storage unit for storing standard patterns obtained from word data uttered by many speakers, 102 is a feature vector sequence of the speech analysis unit 101 and each standard stored in the word standard pattern storage unit 103 A word distance calculation unit using a continuous Mahalanobis DP that calculates a pattern using a continuous Mahalanobis DP for each frame of input data, and a word standard calculation unit 104 uses a word standard value based on a distance value between each frame obtained from the continuous Mahalanobis DP and a word standard pattern. A candidate word discriminating unit for discriminating candidate words from patterns, 105 is a candidate word
A parameter storage unit that stores parameters of feature vectors of one or more word sections, a phoneme standard pattern storage unit that stores a standard pattern created in phoneme units from speech uttered by many speakers, and 107 is a candidate A continuous Mahalanobis DP phoneme distance calculation unit that calculates a distance between input data and a phoneme standard pattern using a continuous Mahalanobis DP for each phoneme unit for a feature vector sequence of a word that has become a word, and 108 is a phoneme distance calculation unit for each of one or more candidate words. An identification unit that identifies and outputs the most appropriate word from a phoneme sequence based on a recognition result in phoneme units. Reference numeral 109 denotes a result output unit that outputs a voice recognition result by means such as a voice response. In the figure, the first
The section narrows down word candidates along with voice segmentation,
The second part shows a recognition unit for each phoneme in the candidate word.
次に動作の流れを説明する。まず、音素入力部100
は、マイクから音声信号を入力し、音声分析部101に入
力波形を転送する。音声入力部100は音声入力の受付時
間中は常に音声又は周囲のノイズ信号等を取り込み、音
声入力波形をデイジタル値に変換した波形として音声分
析部101へ転送する。音声分析部101では、常に入力され
て来る波形を10msec〜30msec程度の窓幅で分析を行い、
2msec〜10msecの長さを持つフレームごとに、特徴パラ
メータを求める特徴パラメータの種類としては比較的高
速に分析可能なLPCケプストラム、LPCメルケプストラ
ム、高精度にパラメータを抽出したい場合はFFTケプス
トラム、FFTメルケプストラム等が一般的で、他にフイ
ルタバンク出力値もある。Next, the operation flow will be described. First, the phoneme input unit 100
Receives an audio signal from a microphone and transfers the input waveform to the audio analysis unit 101. The voice input unit 100 always captures voice or a surrounding noise signal during the reception time of voice input, and transfers the voice input waveform to the voice analysis unit 101 as a digital value converted waveform. The voice analysis unit 101 analyzes a waveform that is always input with a window width of about 10 msec to 30 msec,
For each frame having a length of 2 msec to 10 msec, the types of feature parameters for obtaining feature parameters are LPC cepstrum and LPC mel cepstrum, which can be analyzed at relatively high speed. Cepstrum and the like are common, and there is also a filter bank output value.
また、正規化されたパワー情報を用いたり、パラメー
タの各次元ごとに重み係数を掛けたりして、システムの
使用状況に最も適したパラメータで、フレームごとに分
析される。次に、分析された特徴パラメータの次元につ
いて圧縮を行う。ケプストラムパラメータは、通常係数
の1次の項〜12次の項の中から必要な次元数(例えば6
次元)だけ抜き出し、これを特徴ベクトルとする。フイ
ルタバンク出力を特徴パラメータとした場合、例えばK
−L変換、フーリエ変換等の直交変換により次元圧縮
し、低次項を用いる。これら圧縮された1フレム分のパ
ラメータを特徴ベクトル、次元圧縮された後の特徴ベク
トルの時系列を特徴ベクトルの系列(或は、単にパラメ
ータ)と呼ぶことにする。The normalized power information is used, or a weighting coefficient is multiplied for each dimension of the parameter, and the parameter is analyzed for each frame with a parameter most suitable for the usage state of the system. Next, compression is performed on the dimensions of the analyzed feature parameters. The cepstrum parameter is usually the required number of dimensions (eg, 6
(Dimension)), and this is used as a feature vector. When the filter bank output is used as a feature parameter, for example, K
-Dimensionally compressed by orthogonal transformation such as L transformation or Fourier transformation, and use lower order terms. These compressed parameters for one frame are called a feature vector, and the time series of the dimensionally compressed feature vectors are called a series of feature vectors (or simply, parameters).
本実施例では分析窓長を25.6msecで分析し、フレーム
周期10msec、FFTスペクトルのピークを通るスペクトル
包絡から、メルケプストラム係数を求めた後、係数の2
次〜6次を用い、これを1フレーム分の特徴ベクトルと
する。ここでメルケプストラムの0次項はパワーを表わ
す。In this embodiment, the analysis window length is analyzed at 25.6 msec, the mel cepstrum coefficient is obtained from the spectrum envelope passing through the peak of the FFT spectrum at a frame period of 10 msec, and then the coefficient 2
The next to sixth orders are used as feature vectors for one frame. Here, the 0th order term of the mel cepstrum represents power.
次に、単語標準パタン格納部103に格納する標準パタ
ンの作成方法について述べる。本システムでは例として
発声変形を含めた10数字“ゼロ、サン、ニ、レイ、ナ
ナ、ヨン、ゴ、マル、シ、ロク、ク、ハチ、シチ、キユ
ウ、イチ”と“ハイ”、イイエ”の計17単語の認識につ
いて述べる。標準パタンは多数話者の発声した単語音声
から作成する。本実施例では1単語の標準パタンを作成
するのに50人分の音声サンプルを用いる。(音声サンプ
ル数は多ければ多い程良い) 第2図(a)に、標準パタンの作成手順を表わすフロ
ーチヤートを示す。Next, a method of creating a standard pattern stored in the word standard pattern storage unit 103 will be described. In this system, as an example, 10 digits including vocal transformations “Zero, San, Ni, Ray, Nana, Yon, Go, Maru, Shi, Roku, Ku, Hachi, Shichi, Kiyu, Ichi” and “High”, “No” The standard pattern is created from word voices uttered by many speakers, and in this embodiment, voice samples of 50 people are used to create a standard pattern of one word (voice sample). FIG. 2 (a) shows a flowchart illustrating a procedure for creating a standard pattern.
まず、音声サンプルから標準パタンを作成する際の仮
の比較対象となるコアパタン(核パタン)を選択する
(S200)。選択方法は50単語の中で発声時間長と発声パ
タンが最も平均的な単語を用いる。次に、サンプルの単
語を入力し(S201)、入力単語とコアパタンとの時間軸
伸縮マツチングを行い、時間正規化距離が最小となるマ
ツチング経路に沿って、各フレームごとに平均ベクト
ル、及び分散共分散行列を作成する(S202)。ここで時
間軸伸縮マツチングの方法としてDPマツチングを用い
る。次に入力単語の話者番号を次々変えてゆき(S204)
50名分の単語Si(i=1〜50)について、各フレームご
とに特徴ベクトルの平均値及び、分散共分散行列を求め
る(S203、S205)。この様にして計17単語についてそれ
ぞれ上記過程と同様にして単語標準パタンを作成し単語
標準パタン格納部103に格納しておく。First, a core pattern (core pattern) that is a temporary comparison target when a standard pattern is created from a voice sample is selected (S200). The selection method uses the word with the longest utterance time and utterance pattern among 50 words. Next, a sample word is input (S201), time-axis expansion / contraction matching between the input word and the core pattern is performed, and an average vector and a variance share are set for each frame along a matching path that minimizes the time-normalized distance. A variance matrix is created (S202). Here, DP matching is used as a method of time axis expansion matching. Next, change the speaker number of the input word one after another (S204)
For 50 words Si (i = 1 to 50), the average value of the feature vectors and the variance-covariance matrix are obtained for each frame (S203, S205). In this way, a word standard pattern is created for each of the 17 words in the same manner as described above, and stored in the word standard pattern storage unit 103.
連続マハラノビスDPによる単語距離計算部102では、
連続マハラノビスDPにより次々と入力される特徴ベクト
ルの時系列について単語標準パタン格納部103に格納さ
れている全ての単語の標準パタンとの連続マハラノビス
DPによるマツチングを行い、距離を計算する。In the continuous Mahalanobis DP word distance calculation unit 102,
The continuous Mahalanobis with the standard patterns of all the words stored in the word standard pattern storage unit 103 for the time series of the feature vectors successively input by the continuous Mahalanobis DP
Perform matching by DP and calculate the distance.
ここで、連続マハラノビスDPについて説明する。連続
DPの手法は一般的で、特定話者が連続に発声した文章の
中から目的とする単語、或は、音節等の単位を探し出す
方法である。これはワードスポツテイングと呼ばれ、目
的とする音声区間の切り出しと同時に認識を行ってしま
うという画期的な方法である。本実施例では連続DP法の
各々のフレーム内における距離にマハラノビス距離を用
いる事により、不特定性を吸収している。Here, the continuous Mahalanobis DP will be described. Continuous
The DP method is a general method in which a target word or a unit such as a syllable or the like is searched for in a sentence continuously uttered by a specific speaker. This is called word spotting, and is an epoch-making method in which recognition is performed simultaneously with extraction of a target voice section. In this embodiment, the unspecifiedness is absorbed by using the Mahalanobis distance as the distance in each frame of the continuous DP method.
第2図(b)は、“ゼロ”という単語の標準パタンと
“ゼロ”という単語を発声した時の入力音声を無声区間
も含めて特徴ベクトルの時系列に分析したものとを連続
マハラノビスDPによりマツチングした結果を示したもの
である。図中、黒が濃く出ている所は標準パタンと入力
パタンの距離が大きい所、黒が薄く、白に近い所は標準
パタンと入力パタンの距離が小さい所である。マツチン
グを行った結果の下には累積距離の時間変化を示す。こ
の累積距離はその時点が終端となるDPパスの距離を示す
もので、DPパスを求めてその値をメモリに保存する。こ
のメモリに保存したDPパスは、音声区間の始端を求める
為につかう。例えばこの図においては距離が最小となっ
た時のDPパスを示したが、標準パタンと入力パタンが似
ていた場合、累積距離が任意に定めた閾値より小さくな
り、その標準パタンの単語を候補単語と認める。そし
て、入力パタンから音声区間を切り出すために、累積距
離が閾値より小さく、更に最小である時点からDPパスを
メモリから呼び出してバツクトラツクすることにより、
音声区間の始端が求められる。こうして求められた音声
区間の特徴ベクトルの時系列をパラメータ格納部105に
格納する。FIG. 2 (b) shows a continuous Mahalanobis DP of a standard pattern of the word “zero” and a time series of feature vectors including an unvoiced section of the input voice when the word “zero” is uttered. It shows the result of matching. In the figure, the places where the black pattern appears dark are where the distance between the standard pattern and the input pattern is large, and the places where the black pattern is light and close to white are where the distance between the standard pattern and the input pattern is small. The time change of the cumulative distance is shown below the result of the matching. This accumulated distance indicates the distance of the DP path ending at that time. The DP path is obtained and the value is stored in the memory. The DP path stored in this memory is used to find the beginning of the voice section. For example, in this figure, the DP path when the distance is minimum is shown, but if the standard pattern and the input pattern are similar, the cumulative distance will be smaller than the arbitrarily determined threshold, and the words of the standard pattern will be candidates. Admit it as a word. Then, in order to cut out a voice section from the input pattern, the DP path is called from the memory and backtracked from the time when the accumulated distance is smaller than the threshold value and is further minimum, and
The beginning of the voice section is determined. The time series of the feature vector of the voice section thus obtained is stored in the parameter storage unit 105.
今まで説明してきた処理系により、まず候補単語と、
その音声区間を分析した特徴ベクトルの系列と、連続マ
ハラノビスDPによる累積距離の結果が得られる。ここ
で、候補単語の中で“シチ”と“シ”の様に音声区間が
重なっているものが複数選択された時、この場合“シ
チ”の方を選択し“シ”は切り捨てる。“ロク”と
“ク”も同様に、“ク”の音声区間の大部分が(ここで
は80%以上とする)“ロク”に含まれている時は、
“ク”は切り捨てて“ロク”のみについて検証を行う。With the processing system described so far, first, candidate words,
A series of feature vectors obtained by analyzing the voice section and a result of the cumulative distance by the continuous Mahalanobis DP are obtained. Here, when a plurality of candidate words having overlapping voice sections, such as “Shichi” and “Shii”, are selected, in this case, “Shichi” is selected and “Shishi” is discarded. Similarly, when “Roku” and “G” are included in “Roku” when most of the voice section of “G” is included (here, 80% or more),
"K" is rounded down, and only "Roku" is verified.
本実施例では音素標準パタン格納部106に母音(a、
i、u、e、o)と子音(z、s、n、r、g、m、sh
i、k、h、ci)について音素の標準パタンを作成して
おく、作成方法は単語標準パタン格納部103と同様の方
法であらかじめ作成しておく。連続マハラノビスDPによ
る音素距離計算部107ではパラメータ格納部105に格納さ
れている候補単語として切り出された音声区間について
各音素とのマツチングを行う。In the present embodiment, the vowels (a,
i, u, e, o) and consonants (z, s, n, r, g, m, sh)
A phoneme standard pattern is created for i, k, h, and ci). The creation method is created in advance in the same manner as the word standard pattern storage unit 103. The phoneme distance calculation unit 107 based on the continuous Mahalanobis DP performs matching with each phoneme in a speech section cut out as a candidate word stored in the parameter storage unit 105.
連続マハラノビスDPによる単語距離計算部102と同様
に累積距離が最小となった位置からその音素の区間を計
算する。(候補単語判別部104と同様、累積距離が最小
となった時点をその音素の終端とし、始端は連続DPパス
のバツクトラツクにより求める) 本実施例では例えば“ゼロ”⇒“zero"が候補単語の
場合その音声区間について“z"、“e"、“r"、“o"の4
種類の音素についてのみマツチングを行う。4種の音素
と上記“zero"と判別され、候補となった音声区間のマ
ツチングの結果、各音素の累積距離が最小となる点につ
いてその位置関係と、最小距離の平均値を求めるこの様
子を第2図(c)に示す。Similar to the word distance calculation unit 102 using the continuous Mahalanobis DP, the section of the phoneme is calculated from the position where the cumulative distance is minimized. (Similar to the candidate word discriminating unit 104, the time point at which the cumulative distance becomes the minimum is taken as the end of the phoneme, and the starting point is obtained by the backtracking of the continuous DP path.) In this embodiment, for example, “zero” → “zero” In this case, four “z”, “e”, “r”, “o”
Matching is performed only for each type of phoneme. As a result of matching of the four phonemes and the above-mentioned "zero" and matching of candidate voice sections, the positional relationship and the average value of the minimum distances at the point where the cumulative distance of each phoneme is the minimum are shown. This is shown in FIG.
各々の音素についてマツチングの結果の距離の最小値
と、その位置をフレームで表わし音素単位の認識結果に
よる認識部108に送る。この例では“z"について最小値
は“j"、フレーム位置は“zf"である。音素単位の認識
結果による認識部108では、連続マハラノビスDPによる
音素距離計算部107から送られてきたデータを基に最終
的な単語の識別を行う。まず、候補単語の音素列の順番
(フレームの位置)がzf<ef<rf<ofであるか否かを調
べる。もしこの順番であれば認識単語は“ゼロ”(zer
o)“平均 を求めXの値が閾値Hよりも小さいならば、認識結果と
して“ゼロ”を出力する。The minimum value of the distance as a result of matching for each phoneme and its position are represented by a frame and sent to the recognition unit 108 based on the recognition result for each phoneme. In this example, the minimum value of “z” is “j” and the frame position is “z f ”. The recognition unit 108 based on the recognition result for each phoneme performs final word recognition based on the data transmitted from the phoneme distance calculation unit 107 using the continuous Mahalanobis DP. First, the order of the phoneme sequence of the candidate words (position of the frame) is examined whether or not z f <e f <r f <o f. If this order, the recognized word is "zero" (zer
o) “Average And if the value of X is smaller than the threshold value H, "zero" is output as the recognition result.
第2図(d)は単語候補の出力結果(候補単語判別部
104の出力結果)を示したものである。は単語“ハ
チ”、は単語“シチ”、は単語“シ”が候補として
出力される。が、ここで前に述べたようにはの区間
に80%以上含まれており、かつ同一の“シ”が中に存
在するので音素レベルでの認別はについて行なう。FIG. 2D shows the output result of the word candidate (candidate word discriminating unit).
104 output result). Is the word "bee", the word "shi", and the word "shi" are output as candidates. However, as described above, since 80% or more is included in the section and the same "shi" is present in the section, discrimination at the phoneme level is performed.
ケース 単語S1の音素列“|h|a|c|i|"と単語S2の音素
列“|sh|i|c|i|"についてマツチングした結果、どちら
も音素の順番が、候補単語と等しい場合、かつ、個々の
音素の距離がH(閾値)より小さい場合⇒平均累積距離
Xの小さい方、を出力する。Case word S 1 of the phoneme string "| h | a | c | i |" and the phoneme string of words S 2 "| sh | i | c | i |" As a result of Matsuchingu for, both of phoneme the order is, the candidate word And the distance between the individual phonemes is smaller than H (threshold) ⇒ the smaller of the average cumulative distance X is output.
ケース どちらも順番が異なるが個々の音素の距離が
閾値(H)より小さい場合⇒単語と音素列の文字列によ
るDPマツチングを行い。その距離の閾値(I)により決
定する。Case Both orders are different, but the distance between individual phonemes is smaller than the threshold value (H) ⇒ Perform DP matching with words and phoneme strings. The distance is determined by the threshold value (I).
ケース 順番が合っているか、個々の音素の閾値が
(H)をクリアしていない場合⇒リジエクト ケース 順番が異なり、音素の閾値もクリアしていな
い場合⇒リジエクト 音素単位の認識結果による単語の識別方法は前記の方
法に限らない。後に他の実施例でも述べるが音素の単位
をどの様な形で定義し、標準パタンを作成しておくか、
或は同一の音素でも複数用意する事によって音素判別に
用いる閾値Hの値、或は識別アルゴリズムは異なる。よ
って、平均累積距離と音素順位のどちらを優先させるか
等の識別アルゴリズムは一意に決まらない。Case The order is correct or the threshold of each phoneme does not clear (H) ⇒ reject case The order is different and the threshold of phoneme is not clear ⇒ reject Recognition method of words based on recognition result of phoneme unit Is not limited to the above method. As will be described later in other examples, how to define the unit of phoneme and create a standard pattern,
Alternatively, by preparing a plurality of the same phonemes, the value of the threshold value H used for phoneme determination or the identification algorithm is different. Therefore, an identification algorithm for determining which of the average cumulative distance and the phoneme rank is prioritized is not uniquely determined.
音素単位の認識結果による認識部108で最終結果とし
て出力した例えば音声(単語)を結果出力部109で出力
する。電話等の音声情報のみで認識させる場合、認識結
果を『“ゼロ”ですね?』と、例えば音声合成手段を用
いて確認する。単語の識別の結果、距離が十分小さけれ
ば認識結果を確認をせずに、それに対応した次の処理へ
と移行する。For example, a speech (word) output as a final result by the recognition unit 108 based on the recognition result for each phoneme is output by the result output unit 109. In the case of performing recognition using only voice information such as telephones, the recognition result is “zero”. ], For example, using voice synthesis means. As a result of the word identification, if the distance is sufficiently small, the process proceeds to the next process corresponding to the recognition result without checking the recognition result.
〔実施例2〕 前記実施例1では、後半の音素単位の認識結果を、認
識対象とする単語に含まれる全ての音素について標準パ
タンを作成しておいた。しかし、音素はその種類によっ
ては、周囲の音韻環境、話者等の相異により、変形も激
しい。よって同一の音素でもパタンの異なる音素はパタ
ンに応じ複数用意しておくと、より確度の高い認識結果
が得られる、例えば母音i|についてみると“イチ”、
“ハチ”、“シチ”に見られる様に話者によって無声化
する事がかなりある。音素レベルでの認識は候補となっ
た単語と、その音声区間において厳密に検定して結果を
出さなければならないので、母音|i|でも、有声の|i|、
無声化の|i|それぞれについて、数種類の標準パタンを
作っておく、他の音素についても同様で、例えば|g|な
どパス部が存在するものとしないものがある。但しこれ
らの音素について標準パタンを作成する場合、少なくと
も1つの標準パタンを作成する為に、各フレームの特徴
ベクトルの次元数をnとするとn2+α個程度の音声デー
タを必要とする。[Second Embodiment] In the first embodiment, a standard pattern is created for all phonemes included in a word to be recognized based on the recognition result of the latter phoneme unit. However, depending on the types of phonemes, phonemes undergo severe deformation due to differences in the surrounding phonemic environment, speakers, and the like. Therefore, if a plurality of phonemes with different patterns are prepared for the same phoneme in accordance with the pattern, a more accurate recognition result can be obtained. For example, for the vowel i |
There are quite a few cases where the voice is muted by the speaker as seen in "bees" and "shichi". Recognition at the phoneme level must be strictly tested in the candidate word and its voice section to produce a result, so even if the vowel | i |
For each of the unvoiced | i |, several types of standard patterns are created. The same applies to other phonemes, for example, some have a path portion such as | g | and others do not. However, when creating a standard pattern for these phonemes, in order to create at least one standard pattern, about n 2 + α voice data is required, where n is the number of dimensions of the feature vector of each frame.
〔実施例3〕 また、音素単位で識別する別の例として、音素の単位
を変えると更に良い結果となる。前記実施例1では、|a
|、|i|、…、|m|、|n|、|r|に示す様に、音声の単位と
してはかなり小さい母音、子音、を別々に扱っていた。Third Embodiment Further, as another example of identification by phoneme unit, a better result can be obtained by changing the phoneme unit. In the first embodiment, | a
As shown in |, | i |,…, | m |, | n |, and | r |, vowels and consonants, which are quite small, were treated separately.
実際、人間が発声する連続した単語音声はアナウンサ
ー等を別にして日常生活においては、個々の音素の特徴
を明確に発声している事は少ない。データを見てもここ
が|a|でここが|m|であると判定出来る部分は時間的にも
かなり短く、大部分は調音結合部である。(調音結合部
とは、例えば“イア”と発声した場合“イ”の定常部か
ら“ア”の定常部に遷移する(中途半端な)部分であ
る。) よって、音素の単位を調音結合部を含むVCV型とし、
語頭に関してはCVを用いると、前記実施例1で述べた複
数候補の単語が出現した時も、順番が異なって来る場合
の割合が減少するため、最終出力単語の判別がしやす
い。(V…母音Vowel、C…子音ConsonantでVCVは、母
音−子音−母音、連鎖の事)もちろん、VCVの標準パタ
ンは、連続音声中から切り出したサンプルから作成す
る。In fact, continuous word voices uttered by humans rarely clearly utter the characteristics of individual phonemes in everyday life apart from an announcer and the like. Even when looking at the data, the part where | a | can be determined to be | m | here is considerably short in terms of time, and most are articulation coupling parts. (The articulation coupling unit is, for example, a (halfway) part that transits from the stationary part of “a” to the stationary part of “a” when “ear” is uttered.) Therefore, the unit of the phoneme is the articulation coupling unit. VCV type including
When CV is used for the head of a word, even when a plurality of candidate words appearing in the first embodiment appear, the ratio of cases where the order is different is reduced, so that it is easy to determine the final output word. (V: vowel Vowel, C: consonant, VCV is vowel-consonant-vowel, chain) Of course, the standard pattern of VCV is created from samples cut out from continuous speech.
〔実施例4〕 前記実施例では音素標準パタン格納部106に格納する
音素のパタンのマルチ化、音素単位の定義、方法につい
て述べた。Embodiment 4 In the above-described embodiment, the description has been given of the multiplication of the phoneme pattern stored in the phoneme standard pattern storage unit 106, the definition of the phoneme unit, and the method.
単語標準パタン格納部103についても同様の事が言え
る。しかし、単語標準パタンについては、厳密にパタン
をカテゴライズしようとするとパタンの数が多くなり過
ぎる場合がある。また、個々の単語について多数話者の
発声サンプルを集め、分析する事は容易でないので、こ
こでは、個々の単語の発声時間長によりカテゴライズを
行う。本認識システムの第1段階では、候補単語の中
に、目的とする単語が100%入っている事が前提条件で
ある。本方式は基本的に時間伸縮マツチングを行ってい
るので、標準パタンから極端に外れた発声時間長の単語
だし、リジエクトされてしまう可能性が高いからであ
る。The same can be said for the word standard pattern storage unit 103. However, with regard to the word standard pattern, if the patterns are strictly categorized, the number of patterns may be too large. In addition, since it is not easy to collect and analyze the utterance samples of many speakers for each word, here, the categorization is performed according to the utterance time length of each word. In the first stage of the recognition system, a precondition is that 100% of the target word is included in the candidate words. This method basically performs time-expansion matching, which is a word having a utterance time length extremely deviating from the standard pattern, and is highly likely to be rejected.
よって、少なくとも認識装置に対し、協力的な話者が
発声する音声の時間長を調べ、その全時間長をカバーす
る様、標準パタンをマルチ化する。マルチ化する際、極
端に長い発声のサンプルは得られにくいので、平均的な
特徴ベクトルのフレーム数を第2図(e)に示す様に2
倍、3倍に増やしても良い。Therefore, at least the recognition device checks the time length of the voice uttered by the cooperative speaker and multiplies the standard pattern so as to cover the entire time length. At the time of multiplexing, it is difficult to obtain a sample of an extremely long utterance, so that the average number of feature vector frames is set to 2 as shown in FIG.
It may be doubled or tripled.
第2図(e)では、音素|a|m|u|“アム”を単位とし
た基準パタンの発声時間長を2倍にした例を示す。FIG. 2 (e) shows an example in which the utterance time length of the reference pattern in units of the phoneme | a | m | u |
発声時間長を拡大する際、気をつけなければならない
点は、例えば|p|,|t|,|k|等の破裂子音等を含む場合で
ある。この例に示す様に子音によっては発声時間長が長
くなっても、子音部の発声時間長はそれほど変わらな
い。よって、子音によって拡大の方法をテーブル等によ
り、個々に変える手段を持つと、簡易に正確かつ、時間
長の異なる標準パタンが作成できる。When expanding the utterance time length, it is necessary to be careful when, for example, plosive consonants such as | p |, | t |, | k | are included. As shown in this example, even if the utterance time length is longer for some consonants, the utterance time length of the consonant part does not change so much. Therefore, if means for individually changing the enlargement method by a consonant using a table or the like is provided, it is possible to easily and accurately create a standard pattern having a different time length.
実際に発声時間長の長い音声サンプルを集め、これら
のデータから標準パタンを作成する方法がより良い標準
パタンを作成できる。In practice, a method of collecting voice samples having a long utterance time length and generating a standard pattern from these data can create a better standard pattern.
第2図(f)は、母音の1フレームを2倍、3倍、4
倍と重複させて標準パタン長を拡大した時、子音部のフ
レームの重複倍率を示したテーブルである。第2図
(g)に“ログ”の(母音の)倍率を“3倍”にした時
の様子を示す。FIG. 2 (f) shows that one vowel frame is doubled, tripled,
9 is a table showing the overlap magnification of the consonant part frame when the standard pattern length is enlarged by overlapping with the double. FIG. 2 (g) shows a state in which the magnification of the "log" (of the vowel) is set to "3 times".
また、第1図の単語標準パタン格納部103は単語単位
に限らない。文節単位でも良いし、無意味音節の連鎖で
も良い。この場合単語標準パタン格納部103の単位を(V
CV、VCVCV、CV、VV、CVCV、…等)とし、音素標準パタ
ン格納部106の単位(CV、VC、V…等)にする事も可能
である。Further, the word standard pattern storage unit 103 in FIG. 1 is not limited to word units. It may be a phrase unit or a chain of meaningless syllables. In this case, the unit of the word standard pattern storage unit 103 is (V
CV, VCVCV, CV, VV, CVCV,...), And the unit (CV, VC, V, etc.) of the phoneme standard pattern storage unit 106.
〔実施例5〕 前記実施例1では、第1図に示す処理系基本構成の第
2部において第1部の出力として得た候補単語について
更に細かい音素単位(例えばC、V、CV、CVC、VCV等)
で連続DP等のスポツテイング処理を行い、結果を出力す
る方法について述べた。しかし、本実施例においては第
1部の出力する候補単語を音素単位で認識する方法とし
て、スポツテイング以外の方法を述べる。それは、複数
の音声サンプルから得た音素標準パタンを候補単語の音
素系列に合わせて接続して作った単語と、音声区間とし
て切り出された入力音声の特徴ベクトルとのマツチング
を行うという方法である。この方法によっても高い認識
率が得られる。Fifth Embodiment In the first embodiment, in the second part of the basic processing system configuration shown in FIG. 1, candidate words obtained as outputs of the first part are further divided into phoneme units (for example, C, V, CV, CVC, VCV, etc.)
Described the method of performing spotting processing such as continuous DP and outputting the result. However, in this embodiment, a method other than spotting will be described as a method of recognizing candidate words output by the first part in phoneme units. This is a method of matching a word formed by connecting phoneme standard patterns obtained from a plurality of speech samples in accordance with a phoneme sequence of a candidate word, and a feature vector of an input speech cut out as a speech section. Even with this method, a high recognition rate can be obtained.
本実施例における音素単位の認識処理系の基本構成を
第4図に示す。FIG. 4 shows the basic configuration of a recognition processing system for each phoneme in this embodiment.
第1図候補単語判別部104において判別された候補単
語と音声区間として切り出された入力音声の特徴ベクト
ルは以後第4図に示す構成において処理される。まず、
入力音声の特徴ベクトルはパラメータ格納部105に、候
補単語は標準パタン生成規則部110に送られる。標準パ
タン生成規則部110では音素標準パタン格納部106中の音
素標準パタンを候補単語の音素系列に従って接続し、こ
れとパラメータ格納部105に格納しておいた入力音声の
特徴ベクトルのパタンマツチングをパタンマツチング部
111において行う。パタンマツチングで得た音声の認識
結果を結果出力部109より出力する。The candidate words determined by the candidate word determination unit 104 in FIG. 1 and the feature vector of the input voice cut out as a voice section are thereafter processed in the configuration shown in FIG. First,
The feature vector of the input speech is sent to the parameter storage unit 105, and the candidate words are sent to the standard pattern generation rule unit 110. The standard pattern generation rule unit 110 connects the phoneme standard patterns in the phoneme standard pattern storage unit 106 according to the phoneme sequence of the candidate word, and performs pattern matching of the feature vector of the input speech stored in the parameter storage unit 105. Pattern matching department
Perform at 111. A speech recognition result obtained by pattern matching is output from a result output unit 109.
標準パタン生成規則部110の詳細な構成図を第5図に
示す。まず、第1部の結果として出力される候補単語の
音素系列と、音声区間として切り出された入力音声の特
徴ベクトルが出力される。ここでは、例えば“tokusima
si(徳島市)”と入力した時に、候補単語として“toku
simasi"、“fukusimasi(福島市)“、“hirosimasi
(広島市)”の3単語が選出された場合の処理について
述べる。まず、これらの候補単語は標準パタン生成規則
部110において、連続音声認識に最適な音素に分割され
る。本実施例では、語頭の音素とCV(子音+母音)、語
中、語尾の音素をVCV(母音+子音+母音)としてい
る。A detailed configuration diagram of the standard pattern generation rule section 110 is shown in FIG. First, a phoneme sequence of a candidate word output as a result of the first part and a feature vector of an input voice cut out as a voice section are output. Here, for example, “tokusima
si (Tokushima City) "as a candidate word
simasi "," fukusimasi (Fukushima City) "," hirosimasi
(Hiroshima City) "will be described. First, these candidate words are divided into optimal phonemes for continuous speech recognition in the standard pattern generation rule unit 110. In this embodiment, The phoneme and CV (consonant + vowel) at the beginning of the word are VCV (vowel + consonant + vowel).
次に、入力音声の特徴パラメータの長さを音素の数で
割り、1モーラ当たりの平均継続時間長を平均継続時間
長検出部152において求め、時間長の違い等により複数
種あるいは音素標準パタンの中から適した音素標準パタ
ンを選択する際に用いる。Next, the length of the feature parameter of the input speech is divided by the number of phonemes, and the average duration per mora is obtained by the average duration detector 152. Used to select a suitable phoneme standard pattern from among them.
第6図(a)は候補単語として出力された単語を音素
分割処理部150において音素記号列に分割した例であ
る。第6図(c)は各音素との標準パタンが格納されて
いるメモリのアドレスとの対応表である。音素位置ラベ
ル付加部151は候補単語の音素位置に対応させて複数の
音素標準パタンの中から選択するところであるが、アド
レスの表記を[D1−D2、D3]とすると、D1は音素の種
類、D2は音素標準パタンの時間長、D3は音素標準パタン
の複数の状況における種別であり、例えば音素|a|の標
準パタンは、アドレス001−1から入っている。また、
アドレス001−1、1は、無声化した|a|の標準パタンが
入っている。|asa|のようなVCV型の音素は、アドレス93
1−1に入っている標準ものの他に、VCV全体が無声化し
た音 が931−1、1に、VCVの中、CV音が無声化した音 が931−1、2に、VCVの中、VC音が無声化した音 が931−1、3に入っている。また、これだけでなく1
つの音素単位につき、複数の標準パタンを持っている。FIG. 6A shows an example in which a word output as a candidate word is divided into phoneme symbol strings by the phoneme division processing unit 150. FIG. 6 (c) is a table of correspondence between each phoneme and an address of a memory where a standard pattern is stored. The phoneme position label adding unit 151 is to select from a plurality of phoneme standard patterns corresponding to the phoneme positions of the candidate words. If the address notation is [D 1 −D 2 , D 3 ], D 1 becomes type of phonemes, D 2 is the time length of the phoneme standard pattern, D 3 is the type of a plurality of conditions of the phoneme standard pattern, for example a phoneme | a | standard pattern of has entered the address 001-1. Also,
Addresses 001-1 and 001-1 contain a standard pattern of unvoiced | a |. VCV type phonemes like | asa |
In addition to the standard ones in 1-1, the sound of the entire VCV is muted. Is 931-1 and 1 is a voice in which the CV sound is devoiced in VCV Is 931-1, 2 and VCV is a voice in which VC sound is devoiced. Are in 931-1 and 3. Also, not only this one
Each phoneme unit has multiple standard patterns.
第6図(b)は3つの候補単語の音素標準パタンの時
間長(D2)が1の時の音素を選択し、そのアドレスを対
応けたものである。ここでは、「語頭・語尾は母音部が
無声化するパタンも含めて考える」という規制から“to
kusimasi"という単語は、第6図(b)に示した音素の
アドレスを使って第6図(d)に示す4通りのパタンの
組み合わせができる。FIG. 6 (b) is a diagram in which the phoneme when the time length (D 2 ) of the phoneme standard pattern of three candidate words is 1 is selected, and its address is corresponded. Here, from the regulation that "the beginning and end of a word include a pattern in which the vowel part is devoiced,"
The word "kusimasi" can be combined with the four patterns shown in FIG. 6D using the phoneme addresses shown in FIG. 6B.
ここで、標準パタンの持続をする際に、前の音素の後
半と後ろの音素の前半の有声・無声が揃っていないと接
続できない。音素の標準パタンの種別、D3により接続が
可能な組み合わせを第6図(e)に示す。この第6図
(e)には、ある音素の標準パタンの時間長D2と種別D3
だけを示してある。例えば一番上の段のb/bは、ある音
素の標準パタンの、ある時間長(b=とおく)であり有
声であるもの、b同志の接続を示す。次の段のb/b、2
はある音素の標準パタンの、ある時間長(=bとおく)
の有声であるものbと、ある音素の標準パタンの、ある
時間長(b=とおく)の前半が有声音、後半が無声音の
もの、b、2との接続を示している。ここで、接続する
音素の種類は、接続部の前の音素の後半と、接続部の後
ろの音素の前半が等しければ良い訳だから、第6図
(e)にD1を示す必要はなく、音素の標準パタンの時間
長D2は1モーラ発声時間長検出部152において1モーラ
当たりの平均継続時間長が求めてあるので、これがbと
なり、その単語内では一定である。Here, when maintaining the standard pattern, connection cannot be established unless voiced and unvoiced voices of the latter half of the preceding phoneme and the former half of the following phoneme are complete. Class of a standard pattern of the phoneme, shown in Figure 6 the possible combinations connected by D 3 (e). The FIG. 6 (e), the time length D 2 of the reference pattern of a phoneme type D 3
Only shown. For example, b / b at the top indicates a connection between b and b, which is a standard pattern of a certain phoneme, has a certain length of time (b =) and is voiced. Next stage b / b, 2
Is a certain time length of a standard pattern of a certain phoneme (= b)
In the standard pattern of a certain phoneme, the first half of a certain time length (b =) is a voiced sound, the latter half is an unvoiced sound, and b and 2 are connected. Here, the type of phonemes to be connected, and the second half of the previous phoneme connections, because translation may equal the first half of the phoneme after the connection portion is not necessary to show D 1 to FIG. 6 (e), since the time length D 2 of the standard pattern of the phoneme, calculated in the average duration per mora in one mora utterance duration detector 152, which is b, and the constant in the word within.
しかし、第6図(e)に示したのは音素結合規則の一
部であり、他に音声を発声する際の音響的な音素結合規
則も多くある。第6図(d)には、“tokusimasi"の組
み合わせのみを示したが、同様にして他の候補単語につ
いても組み合わせを作成する。音素標準パタンの組み合
わせができたら、音素標準パタン接続部153において音
素標準パタンを接続し、単語標準パタンを作成する。接
続の方法は、直接接続、線形補間等があるが、音素O、
P、Q、Rを接続する例を第5図に示し、以下に説明す
る。However, FIG. 6 (e) shows a part of the phoneme connection rules, and there are many other acoustic phoneme connection rules when uttering speech. FIG. 6 (d) shows only the combination of "tokusimasi", but the combination is similarly created for other candidate words. When the combination of phoneme standard patterns is completed, the phoneme standard patterns are connected in the phoneme standard pattern connection unit 153, and a word standard pattern is created. The connection method includes direct connection, linear interpolation, etc.
An example of connecting P, Q, and R is shown in FIG. 5 and will be described below.
第7図の(a)は直接接続し、単語OPQRを生成する例
であり、(b)は音素O、P、Q、Rから補間部分とし
て母音部分を数フレーム切り取ったものをO′、P′、
Q′、R′とし、これの空白の部分を各次元のパラメー
タの要素について線形補間しながら埋めていき、連続し
た単語標準パタンを生成する例である。音素の補間方法
は、パラメータの性質によって適・不適があるので、こ
こではパラメータに最適な補間法を用いる事にする。最
後に、音素標準パタン接続部153から出力された複数の
単語標準パタンと入力パタンをパタンマツチング部111
においてマツチングし、距離が最小となる単語を結果出
力部109より例えば音声として出力する。FIG. 7 (a) shows an example in which the word OPQR is directly connected and the word OPQR is generated. FIG. 7 (b) is a diagram in which vowel parts are cut out from the phonemes O, P, Q, R by interpolation as O ', P ′,
In this example, Q 'and R' are used, and blank portions of these are filled in while linearly interpolating the elements of the parameters of each dimension to generate a continuous word standard pattern. Since the phoneme interpolation method is suitable or unsuitable depending on the properties of the parameters, the optimum interpolation method for the parameters is used here. Finally, a plurality of word standard patterns and input patterns output from the phoneme standard pattern connection unit 153 are stored in the pattern matching unit 111.
, And the word having the shortest distance is output from the result output unit 109 as, for example, a voice.
パタンマツチング方式は、線形伸縮、DPマツチング法
等多数あるが、DPマツチングが良い結果が得られる。こ
こで、距離尺度はマハラノビス距離等を代表とする統計
的な距離尺度を用いる。There are many pattern matching methods such as linear expansion and contraction, and DP matching, and good results are obtained with DP matching. Here, a statistical distance scale represented by a Mahalanobis distance or the like is used as the distance scale.
[発明の効果] 以上説明したように、本発明によれば、辞書用単語デ
ータを記憶した単語辞書と、辞書用音素データを記憶し
た音素辞書とを利用する音声認識方法であって、音声デ
ータを入力し、前記単語辞書に記憶されている辞書用単
語データをスポッティング法を用いて前記入力した音声
データとマッチングすることにより、前記入力した音声
データの音声区間と当該音声区間に対応する候補単語と
を選出し、前記選出された候補単語を構成し得る音素の
辞書用音素データを前記音素辞書から選択的に取り出し
て、前記選出された音声区間の入力音声データとマッチ
ングし、前記辞書用音素データと入力音声データとのマ
ッチングの結果に基づいて前記入力音声データの認識結
果を決定することにより、単語辞書と音素辞書という、
異なる区間で作成された辞書用データとのマッチングを
二段階で行ない、また、その二段目のマッチングでは一
段目のマッチングで得た結果を利用するので、効率良
く、更に認識率の高い音声認識を提供することが出来
る。[Effects of the Invention] As described above, according to the present invention, there is provided a speech recognition method using a word dictionary storing dictionary word data and a phoneme dictionary storing dictionary phoneme data. And matching the dictionary word data stored in the word dictionary with the input voice data using a spotting method, so that a voice section of the input voice data and a candidate word corresponding to the voice section are input. , Phoneme data for dictionary of phonemes that can constitute the selected candidate word is selectively extracted from the phoneme dictionary, and is matched with input speech data of the selected voice section, and the phoneme for dictionary is selected. By determining the recognition result of the input voice data based on the result of the matching between the data and the input voice data, a word dictionary and a phoneme dictionary,
Matching with dictionary data created in different sections is performed in two steps, and the second-stage matching uses the results obtained in the first-stage matching, so that speech recognition with high efficiency and high recognition rate is performed. Can be provided.
第1図は本発明の第1の実施例の処理系の基本構成図、 第2図(a)は標準パタン作成の動作の流れを示すフロ
ーチヤート、 第2図(b)は連続マハラノビスDPの様子を示す図、 第2図(c)は音素マツチングの様子を示す図、 第2図(d)は複数の候補単語と入力信号との関係を示
す図、 第2図(e)は発声時間長を2倍にした標準パタンの様
子を示す図、 第2図(f)は発声時間長の倍率変化による音素に対応
した倍率を示す図、 第2図(g)は第1図(f)の倍率に従って発声時間長
を3倍にした時の様子を示す図、 第3図は従来の不特定話者音声認識システムの構成図、 第4図は本発明の第2の音素認識処理の構成図、 第5図は標準パタン生成規則部の構成図、 第6図(a)は候補単語の音素分解の様子を示す図、 第6図(b)は候補単語の各音素の標準パタンのアドレ
スを示す図、 第6図(c)は音素標準パタンの種類によるアドレス例
を示す図、 第6図(d)は生成された標準パタンの組み合わせを示
す図、 第6図(e)は接続可能な標準パタンの組み合わせ例を
示す図、 第7図は補間方法を示す図である。 図中、1は音声入力装置、2は音声分析部、3は音素境
界検出部、4は音素識別部、5は音素標準パタン格納
部、6は単語識別部、7は単語辞書、8は修正規則部、
9は認識結果表示部、100は音声入力部、101は音声分析
部、102は連続マハラノビスDPによる距離計算部、103は
単語標準パタン格納部、104は候補単語判別部、105はパ
ラメータ格納部、106は音素標準パタン格納部、107は連
続マハラノビスDPによる距離計算部、108は音素単位の
認識結果による識別部、109は結果出力部、110は標準パ
タン生成規則部、111はパタンマツチング部、150は音素
分割処理部、151は音素ラベル付加部、152は1モーラ発
声時間長検出部、153は音素標準パタン接続部である。FIG. 1 is a diagram showing the basic configuration of a processing system according to a first embodiment of the present invention. FIG. 2 (a) is a flowchart showing the flow of an operation for creating a standard pattern. FIG. 2 (b) is a flowchart showing a continuous Mahalanobis DP. FIG. 2 (c) is a diagram showing phoneme matching, FIG. 2 (d) is a diagram showing a relationship between a plurality of candidate words and an input signal, and FIG. 2 (e) is a utterance time. FIG. 2 (f) is a diagram showing a state of a standard pattern whose length is doubled, FIG. 2 (f) is a diagram showing a magnification corresponding to a phoneme due to a change in magnification of the utterance time length, and FIG. 2 (g) is FIG. 1 (f). FIG. 3 is a diagram showing a state in which the utterance time length is tripled according to the magnification of FIG. 3, FIG. 3 is a configuration diagram of a conventional speaker-independent speech recognition system, and FIG. 4 is a configuration of a second phoneme recognition process of the present invention. FIG. 5 is a configuration diagram of a standard pattern generation rule unit. FIG. 6 (a) is a diagram showing a state of phoneme decomposition of a candidate word. ) Shows the address of the standard pattern of each phoneme of the candidate word, FIG. 6 (c) shows an example of the address according to the type of the phoneme standard pattern, and FIG. 6 (d) shows the combination of the generated standard patterns. FIG. 6E is a diagram showing an example of combinations of connectable standard patterns, and FIG. 7 is a diagram showing an interpolation method. In the figure, 1 is a voice input device, 2 is a voice analysis unit, 3 is a phoneme boundary detection unit, 4 is a phoneme identification unit, 5 is a phoneme standard pattern storage unit, 6 is a word identification unit, 7 is a word dictionary, and 8 is a correction. Rules department,
9 is a recognition result display unit, 100 is a speech input unit, 101 is a speech analysis unit, 102 is a distance calculation unit using continuous Mahalanobis DP, 103 is a word standard pattern storage unit, 104 is a candidate word discrimination unit, 105 is a parameter storage unit, 106 is a phoneme standard pattern storage unit, 107 is a distance calculation unit based on continuous Mahalanobis DP, 108 is a recognition unit based on recognition results in phoneme units, 109 is a result output unit, 110 is a standard pattern generation rule unit, 111 is a pattern matching unit, Reference numeral 150 denotes a phoneme division processing unit, 151 denotes a phoneme label addition unit, 152 denotes a 1-molar utterance time length detection unit, and 153 denotes a phoneme standard pattern connection unit.
───────────────────────────────────────────────────── フロントページの続き (56)参考文献 特開 昭63−165900(JP,A) 特開 昭60−121499(JP,A) 特開 昭63−46496(JP,A) 特公 昭63−798(JP,B2) (58)調査した分野(Int.Cl.6,DB名) G10L 3/00 - 9/18 JICST(JOIS)──────────────────────────────────────────────────続 き Continuation of the front page (56) References JP-A-63-165900 (JP, A) JP-A-60-121499 (JP, A) JP-A-63-46496 (JP, A) 798 (JP, B2) (58) Field surveyed (Int. Cl. 6 , DB name) G10L 3/00-9/18 JICST (JOIS)
Claims (4)
辞書用音素データを記憶した音素辞書とを利用する音声
認識方法であって、 音声データを入力し、 前記単語辞書に記憶されている辞書用単語データをスポ
ッティング法を用いて前記入力した音声データとマッチ
ングすることにより、前記入力した音声データの音声区
間と当該音声区間に対応する候補単語とを選出し、 前記選出された候補単語を構成し得る音素の辞書用音素
データを前記音素辞書から選択的に取り出して、前記選
出された音声区間の入力音声データとマッチングし、 前記辞書用音素データと入力音声データとのマッチング
の結果に基づいて前記入力音声データの認識結果を決定
することを特徴とする音声認識方法。1. A word dictionary storing dictionary word data,
A speech recognition method using a phoneme dictionary that stores dictionary phoneme data, wherein speech data is input, and the dictionary-use word data stored in the word dictionary is input using the spotting method. By performing matching, a voice section of the input voice data and a candidate word corresponding to the voice section are selected, and phoneme data for a dictionary of phonemes that can constitute the selected candidate word is selected from the phoneme dictionary. And matching with the input voice data of the selected voice section, and determining a recognition result of the input voice data based on a result of matching between the dictionary phoneme data and the input voice data. Voice recognition method.
タとのマッチングは、連続マハラノビスDPにより行うこ
とを特徴とする請求項1に記載の音声認識方法。2. The speech recognition method according to claim 1, wherein matching between the input speech data and dictionary word data is performed by continuous Mahalanobis DP.
タとのマッチングは、連続マハラノビスDPにより行うこ
とを特徴とする請求項1に記載の音声認識方法。3. The speech recognition method according to claim 1, wherein the matching between the input speech data and the phoneme data for dictionary is performed by continuous Mahalanobis DP.
を特徴とする請求項1に記載の音声認識方法。4. The voice recognition method according to claim 1, wherein said voice data is inputted from a microphone.
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2023205A JP2862306B2 (en) | 1990-02-01 | 1990-02-01 | Voice recognition device |
US08/194,807 US6236964B1 (en) | 1990-02-01 | 1994-02-14 | Speech recognition apparatus and method for matching inputted speech and a word generated from stored referenced phoneme data |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2023205A JP2862306B2 (en) | 1990-02-01 | 1990-02-01 | Voice recognition device |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH03228100A JPH03228100A (en) | 1991-10-09 |
JP2862306B2 true JP2862306B2 (en) | 1999-03-03 |
Family
ID=12104167
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2023205A Expired - Fee Related JP2862306B2 (en) | 1990-02-01 | 1990-02-01 | Voice recognition device |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2862306B2 (en) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6497651B2 (en) * | 2015-03-19 | 2019-04-10 | 株式会社レイトロン | Speech recognition apparatus and speech recognition program |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS60121499A (en) * | 1983-12-05 | 1985-06-28 | 富士通株式会社 | Voice collation system |
JPS63165900A (en) * | 1986-12-27 | 1988-07-09 | 沖電気工業株式会社 | Conversation voice recognition system |
-
1990
- 1990-02-01 JP JP2023205A patent/JP2862306B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JPH03228100A (en) | 1991-10-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6236964B1 (en) | Speech recognition apparatus and method for matching inputted speech and a word generated from stored referenced phoneme data | |
Vergin et al. | Generalized mel frequency cepstral coefficients for large-vocabulary speaker-independent continuous-speech recognition | |
JP4302788B2 (en) | Prosodic database containing fundamental frequency templates for speech synthesis | |
JP4054507B2 (en) | Voice information processing method and apparatus, and storage medium | |
US20200410981A1 (en) | Text-to-speech (tts) processing | |
JP4829477B2 (en) | Voice quality conversion device, voice quality conversion method, and voice quality conversion program | |
US20010010039A1 (en) | Method and apparatus for mandarin chinese speech recognition by using initial/final phoneme similarity vector | |
Khelifa et al. | Constructing accurate and robust HMM/GMM models for an Arabic speech recognition system | |
Nivetha | A survey on speech feature extraction and classification techniques | |
WO2010104040A1 (en) | Voice synthesis apparatus based on single-model voice recognition synthesis, voice synthesis method and voice synthesis program | |
Manjunath et al. | Automatic phonetic transcription for read, extempore and conversation speech for an Indian language: Bengali | |
JP2862306B2 (en) | Voice recognition device | |
JP2001312293A (en) | Method and device for voice recognition, and computer- readable storage medium | |
JP3378547B2 (en) | Voice recognition method and apparatus | |
Houidhek et al. | Statistical modelling of speech units in HMM-based speech synthesis for Arabic | |
Kaur et al. | Formant Text to Speech Synthesis Using Artificial Neural Networks | |
JP3277522B2 (en) | Voice recognition method | |
JP2980382B2 (en) | Speaker adaptive speech recognition method and apparatus | |
JP2003271185A (en) | Device and method for preparing information for voice recognition, device and method for recognizing voice, information preparation program for voice recognition, recording medium recorded with the program, voice recognition program and recording medium recorded with the program | |
JP2943473B2 (en) | Voice recognition method | |
Manjunath et al. | Improvement of phone recognition accuracy using source and system features | |
JP3438293B2 (en) | Automatic Word Template Creation Method for Speech Recognition | |
EP1589524A1 (en) | Method and device for speech synthesis | |
Shah et al. | Influence of various asymmetrical contextual factors for TTS in a low resource language | |
Zacharie et al. | Keyword spotting on word lattices |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
LAPS | Cancellation because of no payment of annual fees |