JPH02239290A - Voice recognizing device - Google Patents

Voice recognizing device

Info

Publication number
JPH02239290A
JPH02239290A JP1061928A JP6192889A JPH02239290A JP H02239290 A JPH02239290 A JP H02239290A JP 1061928 A JP1061928 A JP 1061928A JP 6192889 A JP6192889 A JP 6192889A JP H02239290 A JPH02239290 A JP H02239290A
Authority
JP
Japan
Prior art keywords
phoneme
group
frequency band
speech recognition
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP1061928A
Other languages
Japanese (ja)
Other versions
JPH0640274B2 (en
Inventor
Yasuhiro Komori
康弘 小森
Koichiro Hatasaki
畑崎 香一郎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
A T R JIDO HONYAKU DENWA KENKYUSHO KK
Original Assignee
A T R JIDO HONYAKU DENWA KENKYUSHO KK
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by A T R JIDO HONYAKU DENWA KENKYUSHO KK filed Critical A T R JIDO HONYAKU DENWA KENKYUSHO KK
Priority to JP1061928A priority Critical patent/JPH0640274B2/en
Publication of JPH02239290A publication Critical patent/JPH02239290A/en
Publication of JPH0640274B2 publication Critical patent/JPH0640274B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Abstract

PURPOSE:To improve the phoneme recognition rate by recognizing a voice based on the position or the section of each phoneme group detected by a detecting means and the phoneme discriminated by a discriminating means. CONSTITUTION:This device consists of an amplifier 1, a low pass filter 2, an A/D converter 3, and a processor 4. The processor 4 consists of a computer 5, a magnetic disk 6, a terminal 7 or the like, and a printer 8, and the computer 5 recognizes the voice based on the digital signal of the voice inputted from the A/D converter 3. That is, the position or the section of each phoneme group is detected by the detecting means, and a phoneme in the phoneme group preliminarily set from the inputted voice is discriminated by the discriminating means. Thus, the phoneme is recognized with a high performance, and a voice recognizing device of high performance is constituted.

Description

【発明の詳細な説明】 [産業上の利用分野] この発明は音声認識装置に関し、特に、入力された音声
の音韻グループごとの位置または区間を検出してセグメ
ンテーションを行ない、検出した位置または区間に対し
て音韻を認識するような音声認識装置に関する。
[Detailed Description of the Invention] [Field of Industrial Application] The present invention relates to a speech recognition device, and in particular, detects the position or interval of each phoneme group of input speech, performs segmentation, and performs segmentation on the detected position or interval. The present invention relates to a speech recognition device that recognizes phonemes.

[従来の技術および発明が解決しようとする課題]従来
の音声認識の方法は、連続した音声波形に時間区分を入
れてセグメンテーションを行なった後に、音韻認識を行
なう方法と、連続した音声波形の時間区分およびその部
分の音韻認識を同時に行なういわゆる音韻スボッティン
グ方法とが提案されている。
[Prior art and problems to be solved by the invention] Conventional speech recognition methods include a method in which a continuous speech waveform is segmented by time division, and then phoneme recognition is performed; A so-called phoneme swapping method has been proposed that simultaneously performs segmentation and phoneme recognition of the segment.

しかしながら、前者の方法においては、各音韻の存在す
る音韻環境にかかわらず画一的なパワーやスペクトルの
変化などの単純なパラメータの組合わせでセグメンテー
ションを行なっているため、高精度のセグメンテーショ
ンを行なうことができない。その結果、高い音韻認識率
を得ることができない。また、後者の方法においては、
連続する音韻の境界付近で音韻の誤認識や挿入誤りが多
く、その結果高い音韻認識率が得られないという欠点が
あった。
However, in the former method, segmentation is performed using a combination of simple parameters such as uniform power and spectral changes regardless of the phonological environment in which each phoneme exists, so it is difficult to perform highly accurate segmentation. I can't. As a result, a high phoneme recognition rate cannot be obtained. Also, in the latter method,
This method has the disadvantage that there are many phoneme recognition errors and insertion errors near the boundaries of consecutive phonemes, and as a result, a high phoneme recognition rate cannot be obtained.

それゆえに、この発明の主たる目的は、セグメンテーシ
ョン誤りによる音韻の誤認鷹および音韻スボッティング
法による音韻境界における音韻の誤認識や挿入誤りを解
決して、高い音韻認識が可能な音声認識装置を提供する
ことである。
Therefore, the main object of the present invention is to provide a speech recognition device capable of high level phoneme recognition by solving phoneme misrecognition caused by segmentation errors and phoneme recognition errors and insertion errors at phoneme boundaries caused by the phoneme swapping method. It is.

[課題を解決するための手段コ この発明はく入力された音声を認識する音声認識装置で
あって、入力された音声から予め設定された音韻グルー
プごとの位置または区間を検出する検出手段と、入力さ
れた音声から予め設定された音韻グループ内の音鎚を識
別する識別手段とを備えて構成される。
[Means for Solving the Problems] This invention is a speech recognition device that recognizes input speech, comprising a detection means for detecting a position or section of each preset phoneme group from the input speech; and identification means for identifying a tone hammer within a preset phoneme group from input speech.

より好ましくは、検出手段は入力された音声の或る周波
数帯域におけるパワーの大きさと、その周波数帯域にお
けるパワー変化量と、その周波数帯域におけるスペクト
ルの変化量と、或る周波数帯域と他の周波数帯域とにお
けるパワーの比とに基づいて音韻グループごとの位置ま
たは区間を検出する手段を含む。
More preferably, the detection means detects the magnitude of the power of the input voice in a certain frequency band, the amount of change in power in that frequency band, the amount of change in spectrum in that frequency band, and the difference between one frequency band and another frequency band. and a means for detecting a position or section for each phoneme group based on the power ratio between the two phoneme groups.

より好ましくは、識別手段は予め設定された音韻グルー
プ内の音韻を識別するように設計された統計的な手法を
用いて識別する。
More preferably, the identification means identify using statistical methods designed to identify phonemes within predefined phoneme groups.

さらに、予め設定された音韻グループごとの位置または
区間を検出した後に、予め設定された音韻グループ内の
音韻を識別するようにする。
Furthermore, after detecting the position or section of each preset phoneme group, the phonemes within the preset phoneme group are identified.

[作用] この発明に係る音声認識装置は、検出手段によって音韻
グループごとの位置または区間を検出すると同時に、入
力された音声から予め設定された音鎚グループ内の音韻
を識別手段によって識別する。その結果、高い性能の音
韻認識を可能にし、高性能な音声認識装置を構築できる
[Operation] In the speech recognition device according to the present invention, the detection means detects the position or section of each phoneme group, and at the same time, the identification means identifies phonemes within a preset tone group from the input speech. As a result, high-performance phoneme recognition becomes possible, and a high-performance speech recognition device can be constructed.

[発明の実施例コ 第1図はこの発明が適用される音声認識装置の概略ブロ
ック図である。第1図を参照して、音声認識装置はアン
ブ1とローパスフィルタ2とA/D変換器3と処理装置
4とを含む。アンブ1は入力された音声信号を増幅し、
ローバスフィル2は増幅された音声信号から折返し雑音
を除去する。
[Embodiment of the Invention] FIG. 1 is a schematic block diagram of a speech recognition device to which the present invention is applied. Referring to FIG. 1, the speech recognition device includes an amplifier 1, a low-pass filter 2, an A/D converter 3, and a processing device 4. Anbu 1 amplifies the input audio signal,
The low bass filter 2 removes aliasing noise from the amplified audio signal.

A/D変換器3は音声信号を12kHzのサンプリング
信号により、16ビットのデジタル信号に変換する。処
理装置4はコンピュータ5と磁気ディスク6と端末類7
とプリンタ8とを含む。コンピュータ5はA/D変換器
3から入力された音声のディジタル信号に基づいて、後
述の第2図ないし第5図に示した手法を用いて音声認識
を行なう。
The A/D converter 3 converts the audio signal into a 16-bit digital signal using a 12 kHz sampling signal. The processing device 4 includes a computer 5, a magnetic disk 6, and terminals 7.
and a printer 8. The computer 5 performs voice recognition based on the voice digital signal input from the A/D converter 3 using the method shown in FIGS. 2 to 5, which will be described later.

第2図はこの発明の一実施例による音韻グループごとに
区間を検出する手順を示す図であり、第3図はスベクト
口ダラムの一例を示す図であり、第4図は認識結果を示
す図であり、第5図はニューラルネットワークを用いて
音韻を識別する一例を示す図である。
FIG. 2 is a diagram showing a procedure for detecting a section for each phoneme group according to an embodiment of the present invention, FIG. 3 is a diagram showing an example of subekto mouth duram, and FIG. 4 is a diagram showing recognition results. FIG. 5 is a diagram showing an example of identifying phonemes using a neural network.

次に、第1図ないし第5図を参照して、この発明の一実
施例の具体的な動作について説明する。
Next, with reference to FIGS. 1 to 5, a specific operation of an embodiment of the present invention will be described.

第1図に示したA/D変換器3からディジタル化された
音韻スペクトルがコンピュータ5に与えられる。コンピ
ュータ5はステップ(図示ではSP1と略称する)SP
Iにおいて、入力された音韻スペクトルに基づいて、ス
ペクト口ダラム上の大まかな音韻特徴を参照する。第3
図は[sukunakutomoJと発音したときのス
ベクトログラムであり、縦軸は周波数を示し、横軸は時
間経過を示している。このスベクトログラムにおいて黒
く示されている部分はパワーの大きいことを示しており
、白くなるに従ってパワーの小さいことを示している。
A digitized phonetic spectrum is provided to a computer 5 from the A/D converter 3 shown in FIG. The computer 5 performs step (abbreviated as SP1 in the figure) SP
In I, rough phoneme features on the spectrum mouth durum are referred to based on the input phoneme spectrum. Third
The figure is a vectorogram when pronouncing [sukunakutomoJ, where the vertical axis shows the frequency and the horizontal axis shows the passage of time. In this spectrogram, black areas indicate large power, and white areas indicate small power.

第2図のステップSP2において音韻候補が検出される
。すなわち、前述のステップSPiにおける音韻特徴の
参照結果に基づいて、音韻グループごとの大まかな位置
を大まかな特徴を用いて音韻候補が検出される。ここで
の音韻グループは、たとえば無声摩擦音,有声破裂音,
鼻音,流音などである。
In step SP2 of FIG. 2, phoneme candidates are detected. That is, based on the reference result of the phoneme features in step SPi described above, phoneme candidates are detected using the rough features for the rough position of each phoneme group. The phonological groups here include, for example, voiceless fricatives, voiced plosives,
These include nasal sounds and flowing sounds.

第3図に示したスベクトログラムでは、/S/に対応し
て、335msec〜492msecの区間において、
4000Hz〜6000Hzの周波数帯域のパワーが大
きく、1000Hz〜2000Hz付近の周波数帯域で
はパワーが小さく、カットオフ点は5 0 0 Q H
 z付近にあることから、ほぼ無声摩擦音または有声摩
擦音に近いと判断され、無声摩擦音と有声摩擦音とが音
韻候補とされる。
In the spectrum shown in FIG. 3, in the interval from 335 msec to 492 msec, corresponding to /S/,
The power in the frequency band from 4000Hz to 6000Hz is large, and the power is small in the frequency band around 1000Hz to 2000Hz, and the cutoff point is 500QH
Since it is near z, it is determined that it is almost a voiceless fricative or a voiced fricative, and the voiceless fricative and the voiced fricative are considered as phoneme candidates.

次に、/S/に引き続いて、/k/に対応して、492
〜562msecの区間におけるパワーの変化,スペク
トルの変化などに基づいて、無声破裂音を音韻候補とす
る。
Next, following /S/, corresponding to /k/, 492
Based on changes in power, changes in spectrum, etc. in the interval of ~562 msec, unvoiced plosives are selected as phoneme candidates.

次に、ステップSP3において、音韻環境の仮説が行な
われる。すなわち、上述のステップsP2において検出
された音韻候補ごとに予め設定された前後の音韻の種類
,音韻変形が仮説される。
Next, in step SP3, a hypothesis of the phonetic environment is made. That is, for each phoneme candidate detected in step sP2 described above, types of phonemes and phoneme transformations before and after the phoneme are hypothesized.

すなわち、前述のステップSP2で検出された無声摩擦
音と有声摩擦音のそれぞれの前後の音韻の種類が仮説さ
れる。/ s /という無声摩擦音に対して、その前に
は無音,閉鎖音,母音が仮説され、後の音韻に対して閉
鎖音,無音,母音,摩擦音が仮説される。ステップSP
2で検出された有声摩擦音に対しても、前後の音韻の種
類が仮設され、前の音韻が無音と母音であり、後の音韻
として母音が仮説される。
That is, the types of phonemes before and after each of the voiceless fricative and voiced fricative detected in step SP2 are hypothesized. For the voiceless fricative /s/, a silence, a stop, and a vowel are hypothesized before it, and a stop, a stop, a vowel, and a fricative are hypothesized for the phoneme after it. Step SP
For the voiced fricative detected in step 2, the types of phonemes before and after are tentatively assumed, with the preceding phoneme being silent and a vowel, and the subsequent phoneme being a vowel.

上述のステップSP3において仮説された音韻環境ごと
に可能性のある音韻境界の検出および仮説の検証が行な
われる。正しい仮説の下では、仮説ごとに高い確信度が
得られ、結果として音韻環境が検出される。逆に誤った
仮説では確信度が低くなり、音韻環境を得るに至らない
。仮説が正しいか否かの判断はスペクトログラム上の音
響特徴、すなわち、入力された音声の或る周波数帯域に
おけるパワーの大きと、パワーの変化量と、スペクトル
の変化量と、他の周波数帯域に対するパワーの比とに基
づいて判別される。
Possible phoneme boundaries are detected and hypotheses are verified for each phoneme environment hypothesized in step SP3 described above. Under correct hypotheses, a high degree of confidence is obtained for each hypothesis, and as a result, the phonological environment is detected. On the other hand, if the hypothesis is incorrect, the confidence level will be low and the phonological environment will not be obtained. Judging whether the hypothesis is correct or not depends on the acoustic features on the spectrogram, that is, the magnitude of the power in a certain frequency band of the input voice, the amount of change in power, the amount of change in the spectrum, and the power in other frequency bands. It is determined based on the ratio of

ステップSP5において、各音韻グループが決定された
区間のうち、最も確信度の高い区間を最終セグメンテー
ションおよび音韻グループの結果とされる。この最終セ
グメンテーションの結果に対して、ステップSP6で対
応する音韻グループの識別が行なわれる。ステップSP
3における無音の仮説に対して、335msecから無
声摩擦音がスタートし、その確信度(c f)が0,6
4であるという結果が得られ、母音の仮説に対しては結
果が得られず、閉鎖音の仮説に対しては325msec
からスタートし、その確信度が0.60であるという結
果が得られる。また、破裂音の仮説に対してはスタート
する492msecの境界が/s/の終端であり、その
確信度が0.66であると仮説される。
In step SP5, among the sections in which each phoneme group has been determined, the section with the highest confidence is determined as the final segmentation and phoneme group result. Based on the final segmentation result, a corresponding phoneme group is identified in step SP6. Step SP
Regarding the hypothesis of silence in 3, the voiceless fricative starts from 335 msec, and its confidence (c f) is 0.6.
4, no result was obtained for the vowel hypothesis, and 325 msec for the stop consonant hypothesis.
Starting from , the result is that the confidence level is 0.60. Furthermore, for the plosive hypothesis, it is hypothesized that the starting boundary of 492 msec is the end of /s/, and the confidence level thereof is 0.66.

ステップSP6において、確信度の最も高い結果が選ば
れ、ステップSP7において、/S/は335msec
からスタートし、492msecでエンドであることが
識別され、それによってセグメンテーションが決定され
ると同時に音韻グループの識別が行なわれる。
In step SP6, the result with the highest confidence is selected, and in step SP7, /S/ is 335 msec.
The end is identified at 492 msec, and segmentation is determined based on this, and at the same time phoneme group identification is performed.

次に、第5図を参照して、検出されたセグメンテーショ
ンの音韻を識別する方法について説明する。第5図に示
した時間遅れニューラルネットワークは、18の子音を
有声破裂音,無声破裂音,鼻音,有声摩擦音,無声摩擦
音.流音の6つのクラスにグループ化し、それぞれのグ
ループを入力層10として用いる。入力層10は従来か
ら知られているパックブロバゲーションの学習により、
セグメンテーションされた音韻の識別を行なう。
Next, a method for identifying the phoneme of the detected segmentation will be described with reference to FIG. The time-delayed neural network shown in Figure 5 divides the 18 consonants into voiced plosives, voiceless plosives, nasals, voiced fricatives, and voiceless fricatives. The flowing sounds are grouped into six classes, and each group is used as the input layer 10. The input layer 10 is trained by the conventionally known pack blobagation.
Identify segmented phonemes.

各クラスの識別は入力層11によって行なわれる。Identification of each class is performed by the input layer 11.

時間遅れニューラルネットワークの学習は、すべての子
音の終端位置の入力層10の150msecの前から1
00msecの位置に合わせて行なわれ、同様に、音韻
識別ではセグメンテーション結果の終端は入力層10の
同じ位置に適用され、時間遅れニューラルネットワーク
の出力層12が出力する最大確信度を与える音韻を識別
結果とする。この識別結果の一例を示したのが、第4図
である。
The learning of the time-delayed neural network starts from 150 msec before the input layer 10 of the final position of all consonants.
Similarly, in phoneme identification, the end of the segmentation result is applied to the same position of the input layer 10, and the output layer 12 of the time-delayed neural network outputs the phoneme that gives the maximum confidence as the identification result. shall be. FIG. 4 shows an example of this identification result.

なお、上述の実施例における位置検出においては、音韻
グループとその区間を示した。しかし、この方法の他に
、たとえば破裂の特徴を有する音韻グループと破裂位置
,局所的パワーのディップの特徴を有する音韻グループ
とディップの位置などのように、或る特徴を有する音韻
グループとその特徴の位置による方法でも可能である。
Note that in the position detection in the above-described embodiment, phoneme groups and their sections are shown. However, in addition to this method, it is also possible to identify phonological groups with certain characteristics and their characteristics, such as phonological groups with rupture characteristics and rupture positions, phonological groups with local power dip characteristics and dip positions, etc. It is also possible to use a method based on the position of .

また、上述の第5図に示した音韻識別方式においては、
時間遅れニューラルネットワークを用いたが、その他の
一般的な統計的手法による音韻グループ内の音韻識別方
法でも可能である。たとえば、一般のニューラルネット
ワークによる音韻識別方法や、HMMによる音韻識別方
法や、ベイズ則による音韻識別方法や、線形判別による
音韻識別方法や、LVQなどの方法にて設計した標準パ
ターンを用いた音韻識別方法などが適用可能である。
Furthermore, in the phoneme identification method shown in FIG. 5 above,
Although a time-delay neural network was used, it is also possible to identify phonemes within phoneme groups using other general statistical methods. For example, phoneme identification methods using general neural networks, phoneme identification methods using HMM, phoneme identification methods using Bayes' rule, phoneme identification methods using linear discrimination, and phoneme identification methods using standard patterns designed using methods such as LVQ. methods etc. are applicable.

[発明の効果] 以上のように、この発明によれば、入力された音声から
予め設定された音韻グループごとの位置または区間を検
出するとともに、予め設定された音韻グループ内の音韻
を識別するようにしたので、従来のようにセグメンテー
ション誤りによる音韻の誤認識や音韻スボッティングに
よる音韻境界における音韻の誤認識や挿入誤りを解決す
ることができ、音韻認識の高性能化を図ることができる
[Effects of the Invention] As described above, according to the present invention, the position or section of each preset phoneme group is detected from input speech, and the phonemes within the preset phoneme group are identified. As a result, it is possible to solve the conventional misrecognition of phonemes due to segmentation errors, misrecognition of phonemes at phoneme boundaries due to phoneme swapping, and insertion errors, and improve the performance of phoneme recognition.

【図面の簡単な説明】[Brief explanation of drawings]

第1図はこの発明の一実施例が適用される音声認識装置
の全体の構成を示すブロック図である。 第2図はこの発明の一実施例による音韻グループごとに
区間を検出する手順を示す図である。第3図はスペクト
ログラムの一例を示す図である。第4図は音声認識結果
を示す図である。第5図は時間遅れニューラルネットを
用いて音声認忠する一例を示す図である。 図において、1はアンプ、2はローパスフィルタ、3は
A/D変換器、4は処理装置、5はコンピュータ、6は
磁気ディスク、7は端末類、8はプリンタを示す。 特許出願人 株式会社エイ・テイ・アール自動補正の対
象 平成1年8月2日 図面の第4図
FIG. 1 is a block diagram showing the overall configuration of a speech recognition device to which an embodiment of the present invention is applied. FIG. 2 is a diagram showing a procedure for detecting intervals for each phoneme group according to an embodiment of the present invention. FIG. 3 is a diagram showing an example of a spectrogram. FIG. 4 is a diagram showing the voice recognition results. FIG. 5 is a diagram showing an example of voice recognition using a time-delay neural network. In the figure, 1 is an amplifier, 2 is a low-pass filter, 3 is an A/D converter, 4 is a processing device, 5 is a computer, 6 is a magnetic disk, 7 is a terminal, and 8 is a printer. Patent applicant: A.T.R. Co., Ltd. Subject of automatic correction: Figure 4 of the drawing dated August 2, 1999

Claims (4)

【特許請求の範囲】[Claims] (1)入力された音声を認識する音声認識装置において
、 前記入力された音声から予め設定された音韻グループご
との位置またはパターンを検出する検出手段と、 前記入力された音声から予め設定された音韻グループ内
の音韻を識別する識別手段とを備え、前記検出手段によ
って検出された音韻グループごとの位置または区間と、
前記識別手段によって識別された音韻とに基づいて音声
認識を行なうようにしたことを特徴とする、音声認識装
置。
(1) A speech recognition device that recognizes input speech, comprising: a detection means for detecting a position or pattern for each preset phoneme group from the input speech; and a detection means for detecting a preset phoneme group from the input speech. an identification means for identifying phonemes within the group, and a position or section of each phoneme group detected by the detection means;
A speech recognition device, characterized in that speech recognition is performed based on the phoneme identified by the identification means.
(2)前記検出手段は、前記入力された音声の或る周波
数帯域におけるパワーの大きさと、或る周波数帯域にお
けるパワーの変化量と、或る周波数帯域におけるスペク
トルの変化量と、或る周波数帯域と他の或る周波数帯域
とにおけるパワーの比とに基づいて、音韻グループごと
の位置または区間を検出するようにしたことを特徴とす
る、請求項1項記載の音声認識装置。
(2) The detection means detects the magnitude of the power of the input voice in a certain frequency band, the amount of change in power in a certain frequency band, the amount of change in spectrum in a certain frequency band, and the amount of change in the power in a certain frequency band. 2. The speech recognition device according to claim 1, wherein the position or section of each phoneme group is detected based on the ratio of power in a certain frequency band and a certain other frequency band.
(3)前記識別手段は、予め設定された音韻グループ内
の音韻を識別するように設計された統計的な手法を用い
ることを特徴とする、請求項1項記載の音声認識装置。
(3) The speech recognition device according to claim 1, wherein the identification means uses a statistical method designed to identify phonemes within a preset phoneme group.
(4)前記検出手段によって予め設定された音韻グルー
プごとの位置または区間を検出した後に、前記識別手段
によって予め設定された音韻グループ内の音韻を識別す
るようにしたことを特徴とする、請求項1項記載の音声
認識装置。
(4) After the detecting means detects the position or section of each preset phoneme group, the identifying means identifies the phoneme within the preset phoneme group. The speech recognition device according to item 1.
JP1061928A 1989-03-13 1989-03-13 Voice recognizer Expired - Fee Related JPH0640274B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP1061928A JPH0640274B2 (en) 1989-03-13 1989-03-13 Voice recognizer

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP1061928A JPH0640274B2 (en) 1989-03-13 1989-03-13 Voice recognizer

Publications (2)

Publication Number Publication Date
JPH02239290A true JPH02239290A (en) 1990-09-21
JPH0640274B2 JPH0640274B2 (en) 1994-05-25

Family

ID=13185312

Family Applications (1)

Application Number Title Priority Date Filing Date
JP1061928A Expired - Fee Related JPH0640274B2 (en) 1989-03-13 1989-03-13 Voice recognizer

Country Status (1)

Country Link
JP (1) JPH0640274B2 (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0398098A (en) * 1989-09-11 1991-04-23 A T R Jido Honyaku Denwa Kenkyusho:Kk Voice recognition device
JP5257680B2 (en) * 2006-03-30 2013-08-07 本田技研工業株式会社 Voice recognition device

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0398098A (en) * 1989-09-11 1991-04-23 A T R Jido Honyaku Denwa Kenkyusho:Kk Voice recognition device
JP5257680B2 (en) * 2006-03-30 2013-08-07 本田技研工業株式会社 Voice recognition device

Also Published As

Publication number Publication date
JPH0640274B2 (en) 1994-05-25

Similar Documents

Publication Publication Date Title
JP3180655B2 (en) Word speech recognition method by pattern matching and apparatus for implementing the method
JPH0222960B2 (en)
Yavuz et al. A Phoneme-Based Approach for Eliminating Out-of-vocabulary Problem Turkish Speech Recognition Using Hidden Markov Model.
JPH02239290A (en) Voice recognizing device
JPH0398098A (en) Voice recognition device
JP3110025B2 (en) Utterance deformation detection device
AlDahri et al. Detection of Voice Onset Time (VOT) for unvoiced stop sound in Modern Standard Arabic (MSA) based on power signal
Medhi et al. Different acoustic feature parameters ZCR, STE, LPC and MFCC analysis of Assamese vowel phonemes
Patil et al. Acoustic features for detection of phonemic aspiration in voiced plosives.
Datta et al. State Phase Analysis: PDA/VDA Algorithm
Waardenburg et al. The automatic recognition of stop consonants using hidden Markov models
Zieliński et al. Application of Human Factor Cepstral Coefficients to Robust Recognition of Pathological Pronunciation in Noisy Environment
KR970050115A (en) Speech Recognition Method of Variation Unit using Korean Variation Grouping Tree
JPH0316038B2 (en)
Hult Speaker-independent recognition of connected Swedish digits
JPS63217399A (en) Voice section detecting system
Rabiner et al. Some preliminary experiments in the recognition of connected digits
JPH0235500A (en) Speed recognition system
JPH026078B2 (en)
White Linear predictive residual analysis compared to bandpass filtering for automatic speech recognition
Baker On the similarity of noisy phonetic strings produced by different words
JPH02240700A (en) Voice recognizing device
Blomberg A COMMON PHONE MODEL REPRESENTATION FOR SPEECH þEC ()(NITION AND SYNTHESIS
JPH08110797A (en) Pattern matching device
Ganesan et al. Algorithm to detect the beginning and end points of a speech utterance

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees