JPH0619492A - Speech recognizing device - Google Patents
Speech recognizing deviceInfo
- Publication number
- JPH0619492A JPH0619492A JP4178226A JP17822692A JPH0619492A JP H0619492 A JPH0619492 A JP H0619492A JP 4178226 A JP4178226 A JP 4178226A JP 17822692 A JP17822692 A JP 17822692A JP H0619492 A JPH0619492 A JP H0619492A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- pattern
- speech
- standard
- input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Abstract
Description
【0001】[0001]
【産業上の利用分野】本発明は、音声認識装置に関する
ものであり、特に周囲雑音の影響に左右されずに認識可
能な音声認識装置である。BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a voice recognition device, and more particularly to a voice recognition device capable of recognizing regardless of the influence of ambient noise.
【0002】[0002]
【従来の技術】従来の音声認識装置のブロック図を図6
に示す。2. Description of the Related Art A block diagram of a conventional voice recognition apparatus is shown in FIG.
Shown in.
【0003】同図において、1aは音声を入力するマイ
クロフォン、2aはマイクロフォン1aから入力された
音声を分析し、その特徴パラメータを抽出する特徴抽出
手段、3aはマイクロフォン1aから入力された音声の
雑音パラメータの更新を行なう雑音更新部、3bは雑音
更新部3aにて更新された雑音パラメータに基づいて、
音声区間を決定するための閾値を設定する閾値設定部で
あり、これらの雑音更新部3a及び閾値設定部3bから
閾値設定手段3が構成されている。In the figure, 1a is a microphone for inputting a voice, 2a is a feature extracting means for analyzing a voice input from the microphone 1a and extracting a feature parameter thereof, 3a is a noise parameter of the voice input from the microphone 1a. Based on the noise parameters updated by the noise updating unit 3a,
This is a threshold value setting unit that sets a threshold value for determining a voice section, and the noise updating unit 3a and the threshold value setting unit 3b constitute a threshold value setting unit 3.
【0004】4は特徴抽出手段2aにて抽出された特徴
パラメータ、及び閾値設定部3bにて設定された閾値に
基づいて、入力された音声の始端、終端の検出を行って
認識するのに有効な音声区間の切り出しを行なう入力音
声区間決定手段、5は入力音声区間決定手段4、及び雑
音更新部3aの雑音パラメータに基づいて、雑音除去並
びにパターン作成を行なう入力音声パターン作成手段、
6はマイクロフォン1aから入力された音声の中で、入
力音声パターン作成手段5にて作成された標準音声パタ
ーンを記憶しておく第1標準音声パターン記憶手段、7
は入力音声パターン作成手段5にて作成された入力音声
の音声パターンと、第1標準音声パターン記憶手段6に
記憶された音声パターンとを比較照合する識別手段であ
る。Numeral 4 is effective for detecting and recognizing the start and end of the input voice based on the feature parameter extracted by the feature extracting means 2a and the threshold value set by the threshold value setting section 3b. Input voice section determining means 5 for cutting out a different voice section, reference numeral 5 denotes an input voice pattern creating means for removing noise and creating a pattern based on the noise parameters of the input voice section determining means 4 and the noise updating section 3a,
Reference numeral 6 denotes a first standard voice pattern storage means for storing the standard voice pattern created by the input voice pattern creation means 5 in the voice input from the microphone 1a, 7
Is an identification means for comparing and collating the voice pattern of the input voice created by the input voice pattern creating means 5 with the voice pattern stored in the first standard voice pattern storage means 6.
【0005】斯る構成において、例えば図7(a)のよ
うな、例えば「アップ」という、雑音を含まない標準音
声が入力された際の標準音声パターンを第1標準音声パ
ターン記憶手段6へ登録する方法について述べる。In such a configuration, a standard voice pattern when a standard voice that does not include noise, for example, "up" as shown in FIG. 7A, is input is registered in the first standard voice pattern storage means 6. How to do is described.
【0006】まず、図示しない登録スイッチを押下して
登録モードに設定し、第1標準音声パターン記憶手段6
を書き込み可能状態にする。この後、マイクロフォン1
aを介して標準音声パターンの音声を入力する。First, a registration switch (not shown) is pressed to set the registration mode, and the first standard voice pattern storage means 6 is set.
To the writable state. After this, microphone 1
The voice of the standard voice pattern is input via a.
【0007】特徴抽出手段2aでは、入力された標準音
声パターンの逐次変化する入力レベルを雑音更新部3a
に送ると共に、その標準音声パターンの特徴パラメータ
を、例えばフィルタバンク法を用いて抽出する。その標
準音声パターンの特徴パラメータの抽出方法を具体的に
述べると、音声帯域を8つのバンドパスフィルタで分割
し、その音声の特徴を抽出し、フィルタからの出力を一
定の時間間隔でA/D変換することによって、音声スペ
クトルの時系列、即ち音声パターンである特徴パラメー
タが得られる。In the feature extracting means 2a, the noise updating unit 3a calculates the input level of the input standard speech pattern which changes successively.
And the characteristic parameters of the standard speech pattern are extracted using, for example, the filter bank method. The method of extracting the characteristic parameters of the standard speech pattern will be described in detail. The speech band is divided by eight bandpass filters, the characteristic of the speech is extracted, and the output from the filter is A / D at regular time intervals. By the conversion, the time series of the voice spectrum, that is, the characteristic parameter that is the voice pattern is obtained.
【0008】雑音更新部3aでは、特徴抽出手段2aか
ら逐次送られてくる入力レベルに基づいて雑音パラメー
タの更新を行ない、この雑音パラメータを閾値設定部3
bに送る。閾値設定部3bでは、雑音更新部3aから送
られる雑音パラメータに基づいて閾値を設定し、この閾
値情報を入力音声区間決定手段4に送る。これと同時
に、入力音声区間決定手段4は最終的な閾値が決定され
ると、雑音更新部3aに雑音パラメータの更新を中止す
る指令を送る。The noise updating section 3a updates the noise parameter based on the input level successively sent from the feature extracting means 2a, and the noise parameter is set to the threshold setting section 3a.
send to b. The threshold value setting unit 3b sets a threshold value based on the noise parameter sent from the noise updating unit 3a, and sends this threshold value information to the input voice section determining means 4. At the same time, when the final threshold value is determined, the input voice section determining means 4 sends a command to the noise updating section 3a to stop updating the noise parameters.
【0009】なお、上記閾値は、通常入力される音声の
入力レベルの約1.5乃至2倍程度に設定されることが
好ましい。The threshold value is preferably set to about 1.5 to 2 times the input level of the normally input voice.
【0010】入力音声区間決定手段4では、特徴抽出手
段2aから送られた特徴パラメータと閾値設定部3bで
設定された閾値とを比較し、その音声区間の始端、及び
終端を決定する。The input voice section determining means 4 compares the feature parameter sent from the feature extracting means 2a with the threshold value set by the threshold setting section 3b, and determines the beginning and end of the voice section.
【0011】入力音声パターン作成手段5では、図7
(a)の如く音声区間A−Bが決定された標準音声パタ
ーンを第1標準音声パターン記憶手段6に送り、その音
声パターンを登録する。上述の如き、複数個の異なる標
準の音声入力を繰り返し行うことによって、第1標準音
声パターン記憶手段6には多くの標準音声パターンが登
録されている。The input voice pattern creating means 5 is shown in FIG.
As shown in (a), the standard voice pattern in which the voice section AB is determined is sent to the first standard voice pattern storage means 6, and the voice pattern is registered. As described above, many standard voice patterns are registered in the first standard voice pattern storage means 6 by repeatedly inputting a plurality of different standard voice inputs.
【0012】次に、斯る標準音声パターンの登録後に、
この標準音声パターンを基にして未知の音声を認識する
場合について述べる。Next, after registering such a standard voice pattern,
A case of recognizing an unknown voice based on this standard voice pattern will be described.
【0013】図示しない認識スイッチを押下して認識モ
ードに設定する。この後、マイクロフォン1aから雑音
と共に音声が入力されると、特徴抽出手段2aでは、音
声の入力レベルを雑音更新部3aに送ると共に、登録時
に行った処理と同様に、その音声の特徴パラメータを抽
出する。A recognition switch (not shown) is pressed to set the recognition mode. After that, when a voice is input together with noise from the microphone 1a, the feature extraction means 2a sends the input level of the voice to the noise updating unit 3a and also extracts the feature parameter of the voice as in the process performed at the time of registration. To do.
【0014】雑音更新部3aでは、特徴抽出手段2aか
ら送られる入力レベルに基づいて、雑音パラメータを更
新する。このとき、入力された音声は、周囲の雑音と共
に入力されているので、その初期の入力レベルは、標準
の音声パターンの入力時の入力レベルと比較すると、大
きな値になる。即ち、図7(b)に示すように、閾値設
定部3bでは、雑音による入力レベルの漸増に従って、
閾値も追従して大きな値になる。The noise updating section 3a updates the noise parameter based on the input level sent from the feature extracting means 2a. At this time, since the input voice is input together with the ambient noise, the initial input level becomes a large value as compared with the input level when the standard voice pattern is input. That is, as shown in FIG. 7B, in the threshold setting unit 3b, as the input level gradually increases due to noise,
The threshold value also follows and becomes a large value.
【0015】入力音声区間決定手段4では、閾値設定部
3bで決定された閾値を越える入力レベルに対応して、
音声区間C−Dが決定される。The input voice section determining means 4 corresponds to the input level exceeding the threshold value determined by the threshold value setting section 3b.
The voice section C-D is determined.
【0016】入力音声パターン作成手段5では、その音
声パターンの音声区間C−D内の特徴パラメータの雑音
除去を行なうと共に、一定時間毎に音声パターンを作成
し直し、識別手段7に送る。識別手段7では、第1標準
音声パターン記憶手段6に記憶されている標準音声パタ
ーンと、入力音声パターン作成手段5の音声パターンと
を、例えば線形マッチング法、又はDPマッチング法に
よって比較し、最も類似している標準パターンを選び出
す。The input voice pattern creating means 5 removes noise from the characteristic parameters in the voice section CD of the voice pattern, recreates the voice pattern at regular intervals, and sends the voice pattern to the identifying means 7. The identification unit 7 compares the standard voice pattern stored in the first standard voice pattern storage unit 6 with the voice pattern of the input voice pattern creating unit 5 by, for example, a linear matching method or a DP matching method, and finds the most similar. Select the standard pattern that you are using.
【0017】[0017]
【発明が解決しようとする課題】上述の如く、現存する
認識手法では、標準音声パターンは雑音の殆どない環境
下で作成されているのに対して、認識すべき音声は雑音
を多く含んでいるので、雑音によって閾値が上昇して、
認識すべき音声の有効な音声区間の切り出しの際に音声
区間A−Bとすべきところを、音声区間C−Dと誤認し
てしまい、この結果、音声区間の検出誤りが音声の誤認
識を招いてしまう。As described above, in the existing recognition method, the standard speech pattern is created in an environment where there is almost no noise, whereas the speech to be recognized contains much noise. So, the threshold rises due to noise,
When the effective voice section of the voice to be recognized is cut out, the place which should be the voice section AB is mistakenly recognized as the voice section C-D, and as a result, the detection error of the voice section causes the false recognition of the voice. I will invite you.
【0018】本発明は、雑音環境下で入力された音声を
認識する際に、その音声の入力レベルがたとえ雑音レベ
ルに基づいて設定された閾値より下まわる場合であって
も、マッチング時の誤りを減らすことができ、認識性能
を向上させることが可能な音声認識装置を提供すること
を目的とする。According to the present invention, when recognizing a voice input in a noisy environment, even if the input level of the voice is lower than a threshold value set based on the noise level, an error in matching is generated. It is an object of the present invention to provide a voice recognition device capable of reducing the number of noises and improving the recognition performance.
【0019】[0019]
【課題を解決するための手段】本発明は、入力された雑
音を含む認識すべき音声の音声信号の特徴抽出を行なう
特徴抽出手段と、該音声信号の入力に応じて変化する入
力レベルの雑音パラメータを基にして閾値を設定する閾
値設定手段と、該閾値設定手段にて設定された閾値に基
づいて認識すべき音声パターンの有効な音声区間を決定
する入力音声区間決定手段と、認識すべき音声の有効な
音声区間の音声パターンを作成する入力音声パターン作
成手段と、標準音声パターンを記憶する第1標準音声パ
ターン記憶手段と、上記閾値設定手段にて設定された閾
値に基づいて、上記第1標準音声パターン記憶手段に記
憶された標準音声パターンの音声区間を決定する標準音
声区間決定手段と、該標準音声区間決定手段にて音声区
間が決定された標準音声パターンのパターン作成を行な
う標準音声パターン作成手段と、上記入力音声パターン
作成手段にて作成された認識すべき音声の音声パターン
と上記標準音声パターン作成手段にて作成された標準音
声パターンとを比較識別する識別手段と、を具備したこ
とを特徴とする。DISCLOSURE OF THE INVENTION The present invention is directed to a feature extracting means for extracting features of a voice signal of a voice to be recognized which includes input noise, and an input level noise which changes according to the input of the voice signal. Threshold value setting means for setting a threshold value based on a parameter, input voice section determining means for determining an effective voice section of a voice pattern to be recognized based on the threshold value set by the threshold setting means, and to be recognized Based on the threshold value set by the threshold value setting means, an input voice pattern creating means for creating a voice pattern of a valid voice section of the voice, a first standard voice pattern storing means for storing the standard voice pattern, 1 standard voice section determining means for determining the voice section of the standard voice pattern stored in the standard voice pattern storing means, and a target whose voice section has been determined by the standard voice section determining means A standard voice pattern creating means for creating a voice pattern is compared with the voice pattern of the voice to be recognized created by the input voice pattern creating means and the standard voice pattern created by the standard voice pattern creating means. Identification means for identifying.
【0020】[0020]
【作用】予め、第1標準音声パターン記憶手段に標準音
声パターンを記憶させておき、認識すべき音声が入力さ
れたときの周囲の雑音に応じて設定された閾値レベルに
基づいて、その認識すべき音声の音声パターン、及び第
1標準音声パターン記憶手段に記憶された標準音声パタ
ーンの音声区間の切り出しを夫々行ない、それらの音声
パターン同士の比較識別を行なう。The standard voice pattern is stored in the first standard voice pattern storing means in advance, and the standard voice pattern is recognized based on the threshold level set according to the ambient noise when the voice to be recognized is input. The voice pattern of the desired voice and the voice section of the standard voice pattern stored in the first standard voice pattern storage means are respectively cut out, and the voice patterns are compared and identified.
【0021】[0021]
【実施例】本発明を図1乃至図5に基づいて説明する。
1a乃至7は、図6の従来構成と同じものであり、その
説明を割愛する。DESCRIPTION OF THE PREFERRED EMBODIMENTS The present invention will be described with reference to FIGS.
1a to 7 are the same as the conventional configuration of FIG. 6, and the description thereof will be omitted.
【0022】図1において、8は雑音更新部3aから送
られる雑音パラメータに基づいて第1標準音声パターン
記憶手段6に記憶されている標準音声パターンの音声区
間の切り出しを行なう標準音声区間決定手段、9は雑音
更新部3aの雑音パラメータを基にして、標準音声区間
決定手段8にて切り出された標準音声パターンの音声区
間における雑音除去並びにパターン作成を行なう標準音
声パターン作成手段、10は標準音声パターン作成手段
9にて作成された標準音声パターンを記憶しておく第2
標準音声パターン記憶手段である。In FIG. 1, reference numeral 8 is a standard voice section determining means for cutting out a voice section of the standard voice pattern stored in the first standard voice pattern storage means 6 based on the noise parameter sent from the noise updating section 3a. Reference numeral 9 is a standard voice pattern creating means for performing noise removal and pattern creation in the voice section of the standard voice pattern cut out by the standard voice section determining means 8 based on the noise parameter of the noise updating section 3a. Second, storing the standard voice pattern created by the creating means 9
It is a standard voice pattern storage means.
【0023】標準音声パターンの第1標準音声パターン
記憶手段6への登録に関しては、従来と同一の方法によ
って行われるので、その説明を省略する。The registration of the standard voice pattern in the first standard voice pattern storage means 6 is performed by the same method as the conventional one, and therefore the description thereof is omitted.
【0024】従来と異なる点は、雑音を含む認識すべき
音声が入力されたときの、その雑音に応じて決定された
閾値レベルに基づいて、第1標準音声パターン記憶手段
6に記憶された標準音声パターンの音声区間の切り出し
を行ない、この標準音声パターンと認識すべき音声パタ
ーンとの比較識別を行うことである。The point different from the conventional method is that the standard stored in the first standard voice pattern storage means 6 is based on the threshold level determined according to the noise when the voice to be recognized including the noise is input. That is, the voice section of the voice pattern is cut out, and the standard voice pattern and the voice pattern to be recognized are compared and identified.
【0025】第1標準音声パターン記憶手段6には、例
えば、図2(a)ような音声「アップ」の標準音声パタ
ーンが記憶されている。この後、認識すべき音声がマイ
クロフォン1aから入力されると、雑音更新部3aから
その音声の入力時の入力レベルである雑音パラメータ
が、標準音声区間決定手段8に送られる。入力音声パタ
ーン作成手段5では、従来と同様に図2(b)のように
入力された識別すべき音声の音声パターンが作成され、
この音声パターンは識別手段7に送られる。The first standard voice pattern storage means 6 stores, for example, a standard voice pattern of voice "up" as shown in FIG. After that, when the voice to be recognized is input from the microphone 1a, the noise parameter, which is the input level at the time of inputting the voice, is sent from the noise updating unit 3a to the standard voice section determining means 8. The input voice pattern creating means 5 creates a voice pattern of the input voice to be identified as shown in FIG.
This voice pattern is sent to the identification means 7.
【0026】一方、標準音声区間決定手段8では、雑音
更新部3aから送られた雑音パラメータを基にして、第
1標準音声パターン記憶手段6に記憶されている標準音
声パターンの音声区間を、図2(c)のように切り出
し、その音声パターンを標準音声パターン作成手段9に
送る。標準音声パターン作成手段9では、切り出された
標準音声パターンの作成を行ない、第2標準音声パター
ン記憶手段10に送る。On the other hand, in the standard voice section determining means 8, the voice section of the standard voice pattern stored in the first standard voice pattern storage means 6 is calculated based on the noise parameter sent from the noise updating section 3a. 2 (c) is cut out and the voice pattern is sent to the standard voice pattern creating means 9. The standard voice pattern creating means 9 creates the cut out standard voice pattern and sends it to the second standard voice pattern storing means 10.
【0027】識別手段7では、入力音声パターン作成手
段5から送られてきた認識すべき音声の音声パターン
と、第2標準音声パターン記憶手段10から送られてき
た標準音声パターンとの比較照合を行ない、最も類似し
ている標準パターンを選び出す。The identifying means 7 compares and verifies the voice pattern of the voice to be recognized sent from the input voice pattern creating means 5 with the standard voice pattern sent from the second standard voice pattern storing means 10. , Select the most similar standard pattern.
【0028】ここで、本発明の音声認識装置の認識処理
を図3のフローチャートに示す。尚、第1標準音声パタ
ーン記憶手段6には既に標準音声パターンが記憶保持さ
れているものとする。Here, the recognition processing of the speech recognition apparatus of the present invention is shown in the flowchart of FIG. Incidentally, it is assumed that the standard voice pattern is already stored and held in the first standard voice pattern storage means 6.
【0029】ステップS1において、マイクロフォン1
aから入力された認識すべき音声が入力されると、その
音声の特徴パラメータを求める。ステップS2におい
て、その音声の認識すべき有効な音声区間の始端検出を
行ない、始端検出済みであればステップS4に進み、始
端検出済みでなければステップS3に進む。ステップS
3において、入力される音声の入力レベルに追従して雑
音パラメータの更新を行なう。ステップS5において、
ステップS3にて設定された雑音パラメータに基づい
て、閾値の更新を行ない、ステップS1に戻る。その閾
値は、通常入力される音声の入力レベルの約1.5乃至
2倍程度に設定される。In step S1, the microphone 1
When the voice to be recognized input from a is input, the characteristic parameter of the voice is obtained. In step S2, the start of a valid voice section to be recognized for the voice is detected. If the start is detected, the process proceeds to step S4. If the start is not detected, the process proceeds to step S3. Step S
In 3, the noise parameter is updated by following the input level of the input voice. In step S5,
The threshold value is updated based on the noise parameter set in step S3, and the process returns to step S1. The threshold value is set to about 1.5 to 2 times the input level of the normally input voice.
【0030】ステップS1において、ステップS5にて
設定された閾値に基づいて、入力される音声の特徴パラ
メータを求める。In step S1, the characteristic parameter of the input voice is obtained based on the threshold value set in step S5.
【0031】ステップS4において、その音声を認識す
るのに有効な音声区間の終端検出を行ない、終端検出済
みであればステップS6に進み、終端検出済みでなけれ
ばステップS1に戻る。In step S4, the end of the voice section effective for recognizing the voice is detected. If the end has been detected, the process proceeds to step S6. If the end has not been detected, the process returns to step S1.
【0032】ステップS6において、ステップS5にお
いて決定された音声区間のパターン作成を行なう。ステ
ップS7において、ステップS3でおいて、更新を行っ
た最終の雑音パラメータの読み込みを行なう。ステップ
S8において、ステップS7にて読み込んだ雑音パラメ
ータに基づいて、第1音声メモリ7に記憶された標準音
声パターンの音声区間の切り出しを行う。In step S6, the pattern of the voice section determined in step S5 is created. In step S7, the final noise parameter updated in step S3 is read. In step S8, the voice section of the standard voice pattern stored in the first voice memory 7 is cut out based on the noise parameter read in step S7.
【0033】ステップS9において、ステップS7で読
み込んだ雑音パラメータを基にして標準音声パターンの
雑音除去を行なうと共に、切り出された標準音声パター
ンのパターン作成を行なう。ステップS10において、
認識すべき音声のパターンと切り出された標準音声パタ
ーンとの比較を行ない、最も類似している標準パターン
を選び出し、この音声パターンが認識結果として出力さ
れる。In step S9, the standard voice pattern noise is removed based on the noise parameters read in step S7, and the cut-out standard voice pattern is created. In step S10,
The voice pattern to be recognized is compared with the clipped standard voice pattern, the most similar standard pattern is selected, and this voice pattern is output as the recognition result.
【0034】ここで、上述の実施例では、雑音パラメー
タによって閾値が一旦設定されると、その閾値を定常的
に固定して音声区間を決定したが、例えば図5(a)に
示すように雑音の入力レベルが急激に上昇するような場
合には、これに伴って認識すべき音声の入力レベルも上
昇するので、音声区間の始端を決めることはできたとし
ても、終端を決めることはできず、結局音声区間を決め
ることは不可能になってしまう。この場合には上述の実
施例を補足するべく、図4に示すように、雑音を含む認
識すべき音声が入力されるマイクロフォン1aとは別
に、認識すべき音声が入力される際のその周囲の雑音の
みを入力するマイクロフォン1bを設けることによって
実現される。Here, in the above-mentioned embodiment, once the threshold is set by the noise parameter, the threshold is constantly fixed and the voice section is determined. For example, as shown in FIG. If the input level of the voice suddenly rises, the input level of the voice to be recognized also rises accordingly, so even if the start end of the voice section can be determined, the end cannot be determined. After all, it becomes impossible to decide the voice section. In this case, in order to supplement the above-described embodiment, as shown in FIG. 4, in addition to the microphone 1a to which the voice including the noise to be recognized is input, the surrounding area around the time when the voice to be recognized is input. This is realized by providing the microphone 1b that inputs only noise.
【0035】音声区間の決定に際しては、マイクロフォ
ン1bから入力されてくる逐次変化する雑音の音声信号
の特徴パラメータを雑音音声特徴抽出手段2bにて抽出
し、雑音更新部3aを介して閾値設定手段3bに送る。When determining the voice section, the noise voice feature extracting means 2b extracts the characteristic parameters of the voice signal of the noise which is successively input from the microphone 1b, and the threshold setting means 3b via the noise updating portion 3a. Send to.
【0036】閾値設定手段3bでは、逐次変化する雑音
パラメータに追従して、その雑音レベルの約1.5乃至
2倍の閾値を設定し、この閾値情報を入力音声区間決定
手段4に送り、ここでその閾値を越える入力レベルを音
声区間として決定する。The threshold setting means 3b sets a threshold of about 1.5 to 2 times the noise level following the noise parameter which changes successively, and sends this threshold information to the input voice section determining means 4, where The input level exceeding the threshold is determined as a voice section.
【0037】即ち、図5(b)に示すように、認識すべ
き音声が、雑音パラメータによって設定された閾値を越
えたときから、その認識すべき音声がその値を下回ると
きまでを音声区間E−Fとして決定することが可能であ
る。That is, as shown in FIG. 5 (b), the voice section E starts from when the voice to be recognized exceeds the threshold value set by the noise parameter to when the voice to be recognized falls below that value. It can be determined as -F.
【0038】従って、雑音レベルが逐次変化する場合に
は、認識すべき音声が入力される際のその周囲の雑音に
追従し乍ら閾値を決めることができるので、精度よく音
声区間を決めることができる。Therefore, when the noise level changes successively, the threshold value can be determined by following the noise around the voice to be recognized, so that the voice segment can be determined with high accuracy. it can.
【0039】[0039]
【発明の効果】本発明によれば、予め、第1標準音声パ
ターン記憶手段に標準音声パターンを記憶させておき、
認識すべき音声が入力されたときの周囲の雑音に応じて
設定された閾値レベルに基づいて、その認識すべき音声
の音声パターンと、第1標準音声パターン記憶手段に記
憶された標準音声パターンとの音声区間の切り出しを夫
々行なうので、雑音環境下で入力された音声を認識する
際に、その音声の語尾の入力レベルがたとえ雑音レベル
に基づいて設定された閾値より下まわる場合であって
も、マッチング時の誤りを減らすことができ、認識性能
を向上させることが可能になる。According to the present invention, the standard voice pattern is stored in the first standard voice pattern storage means in advance,
The voice pattern of the voice to be recognized and the standard voice pattern stored in the first standard voice pattern storage means based on the threshold level set according to the ambient noise when the voice to be recognized is input. Since each voice segment is cut out, when recognizing a voice input in a noisy environment, even if the input level of the ending of the voice falls below a threshold set based on the noise level. , It is possible to reduce errors at the time of matching and improve the recognition performance.
【図1】本発明に係る音声認識装置のブロック図FIG. 1 is a block diagram of a voice recognition device according to the present invention.
【図2】本発明の音声認識処理で使用する音声パターン
を示す図FIG. 2 is a diagram showing a voice pattern used in the voice recognition processing of the present invention.
【図3】本発明における音声認識処理に関するフローチ
ャートFIG. 3 is a flowchart regarding voice recognition processing according to the present invention.
【図4】本発明に係る他の音声認識装置のブロック図FIG. 4 is a block diagram of another voice recognition device according to the present invention.
【図5】本発明の図4に示す音声認識装置で使用する音
声パターンを示す図5 is a diagram showing a voice pattern used in the voice recognition apparatus shown in FIG. 4 of the present invention.
【図6】従来の音声認識装置のブロック図FIG. 6 is a block diagram of a conventional voice recognition device.
【図7】従来の音声認識処理で使用する音声パターンを
示す図FIG. 7 is a diagram showing a voice pattern used in conventional voice recognition processing.
1a、1b マイクロフォン 2a 音声特徴抽出手段 2b 雑音音声特徴抽出手段 3 閾値設定手段 3a 雑音更新部 3b 閾値設定部 4 入力音声区間決定手段 5 入力音声パターン作成手段 6 第1標準音声パターン記憶手段 7 識別手段 8 標準音声区間決定手段 9 標準音声パターン作成手段 10 第2標準音声パターン記憶手段 1a, 1b Microphone 2a Speech feature extraction means 2b Noise speech feature extraction means 3 Threshold setting means 3a Noise updating section 3b Threshold setting section 4 Input speech section determining means 5 Input speech pattern creating means 6 First standard speech pattern storing means 7 Discriminating means 8 standard voice section determining means 9 standard voice pattern creating means 10 second standard voice pattern storing means
Claims (1)
音声信号の特徴抽出を行なう特徴抽出手段と、該音声信
号の入力に応じて変化する入力レベルの雑音パラメータ
を基にして閾値を設定する閾値設定手段と、該閾値設定
手段にて設定された閾値に基づいて認識すべき音声パタ
ーンの有効な音声区間を決定する入力音声区間決定手段
と、認識すべき音声の有効な音声区間の音声パターンを
作成する入力音声パターン作成手段と、標準音声パター
ンを記憶する第1標準音声パターン記憶手段と、上記閾
値設定手段にて設定された閾値に基づいて、上記第1標
準音声パターン記憶手段に記憶された標準音声パターン
の音声区間を決定する標準音声区間決定手段と、該標準
音声区間決定手段にて音声区間が決定された標準音声パ
ターンのパターン作成を行なう標準音声パターン作成手
段と、上記入力音声パターン作成手段にて作成された認
識すべき音声の音声パターンと上記標準音声パターン作
成手段にて作成された標準音声パターンとを比較識別す
る識別手段と、を具備したことを特徴とする音声認識装
置。1. A feature extracting means for extracting a feature of a voice signal of a voice to be recognized including an input noise, and a threshold value is set based on a noise parameter of an input level which changes according to the input of the voice signal. Threshold setting means, input voice section determining means for determining a valid voice section of a voice pattern to be recognized based on the threshold set by the threshold setting means, and voice of a valid voice section of a voice to be recognized Input voice pattern creating means for creating a pattern, first standard voice pattern storing means for storing a standard voice pattern, and storage in the first standard voice pattern storing means based on the threshold value set by the threshold value setting means. Standard voice section determining means for determining the voice section of the standard voice pattern that has been generated, and a pattern production of the standard voice pattern for which the voice section has been determined by the standard voice section determining means. And a standard voice pattern created by the input voice pattern creating means and a standard voice pattern created by the standard voice pattern creating means. A voice recognition device comprising:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP4178226A JPH0619492A (en) | 1992-07-06 | 1992-07-06 | Speech recognizing device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP4178226A JPH0619492A (en) | 1992-07-06 | 1992-07-06 | Speech recognizing device |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH0619492A true JPH0619492A (en) | 1994-01-28 |
Family
ID=16044802
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP4178226A Pending JPH0619492A (en) | 1992-07-06 | 1992-07-06 | Speech recognizing device |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH0619492A (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1988000972A1 (en) * | 1986-07-25 | 1988-02-11 | Taiyo Kagaku Co., Ltd. | Dna for shuttle vector |
CN104345649A (en) * | 2013-08-09 | 2015-02-11 | 晨星半导体股份有限公司 | Controller applied to sound control device and relevant method |
-
1992
- 1992-07-06 JP JP4178226A patent/JPH0619492A/en active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1988000972A1 (en) * | 1986-07-25 | 1988-02-11 | Taiyo Kagaku Co., Ltd. | Dna for shuttle vector |
CN104345649A (en) * | 2013-08-09 | 2015-02-11 | 晨星半导体股份有限公司 | Controller applied to sound control device and relevant method |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107958669B (en) | Voiceprint recognition method and device | |
JP2829014B2 (en) | Speech recognition device and method | |
JPH0619492A (en) | Speech recognizing device | |
JPS6332394B2 (en) | ||
JPH06130984A (en) | Voice recognizing device | |
JP3063855B2 (en) | Finding the minimum value of matching distance value in speech recognition | |
JPH05210397A (en) | Voice recognizing device | |
JPH0651792A (en) | Speech recognizing device | |
JP2856429B2 (en) | Voice recognition method | |
JPS62211699A (en) | Voice section detecting circuit | |
JP2792939B2 (en) | Audio clipping method | |
JP2844592B2 (en) | Discrete word speech recognition device | |
JPS6257037B2 (en) | ||
JP3439602B2 (en) | Voice recognition device | |
JPH08146996A (en) | Speech recognition device | |
JPS63798B2 (en) | ||
JPH0443277B2 (en) | ||
JPS63132300A (en) | Voice recognition method and apparatus | |
KR20000040572A (en) | Method for post process voice recognition using correlation | |
JP3063856B2 (en) | Finding the minimum value of matching distance value in speech recognition | |
JP2892004B2 (en) | Word speech recognition device | |
JP2901976B2 (en) | Pattern matching preliminary selection method | |
JPH02239297A (en) | Voice recognizing method | |
JPS5977500A (en) | Word voice recognition system | |
JPH05297887A (en) | Method and device for speech and noise discrimination of speech recognizing device |