JP2009031809A - Speech recognition apparatus - Google Patents

Speech recognition apparatus Download PDF

Info

Publication number
JP2009031809A
JP2009031809A JP2008240988A JP2008240988A JP2009031809A JP 2009031809 A JP2009031809 A JP 2009031809A JP 2008240988 A JP2008240988 A JP 2008240988A JP 2008240988 A JP2008240988 A JP 2008240988A JP 2009031809 A JP2009031809 A JP 2009031809A
Authority
JP
Japan
Prior art keywords
learning
unit
voice
signal
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2008240988A
Other languages
Japanese (ja)
Inventor
Hiroshi Ono
宏 大野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Denso Corp
Original Assignee
Denso Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Denso Corp filed Critical Denso Corp
Priority to JP2008240988A priority Critical patent/JP2009031809A/en
Publication of JP2009031809A publication Critical patent/JP2009031809A/en
Pending legal-status Critical Current

Links

Images

Abstract

<P>PROBLEM TO BE SOLVED: To improve accuracy of speech recognition by appropriately removing a noise component included in a speech signal. <P>SOLUTION: A speech recognition apparatus includes an adaptive filter for removing the noise component from the speech signal which is input from a microphone. An LMS learning section repeatedly learns a filter coefficient based on an LMS method (S220), and the filter coefficient obtained as the result of the learning is set to the adaptive filter (S230). When a learning prohibition instruction is input from a control section concurrently with the start of the speech recognition, learning of the filter coefficient is stopped. Thereafter, when the speech signal required for the speech recognition is given to the speech recognition section, the filter coefficient is learned and updated again, according to a learning resumption instruction which is input from the control section (S260). <P>COPYRIGHT: (C)2009,JPO&INPIT

Description

本発明は、マイクロフォンから得た音声信号に基づいて、利用者がマイクロフォンに入力した音声を認識する音声認識装置に関する。   The present invention relates to a speech recognition apparatus that recognizes speech input to a microphone by a user based on a speech signal obtained from a microphone.

従来より、利用者から発せられた音声をマイクロフォンで集音し、これを予め認識語として記憶された音声のパターンと比較し、一致度の高い認識語を利用者が発声した語彙であると認識する音声認識装置が知られている。この種の音声認識装置は、例えばカーナビゲーション装置などに組み込まれている。   Conventionally, a voice uttered by a user is collected by a microphone, and compared with a voice pattern stored in advance as a recognized word, a recognized word with a high degree of matching is recognized as a vocabulary spoken by the user. A voice recognition device is known. This type of speech recognition device is incorporated in, for example, a car navigation device.

このような音声認識装置の音声認識率(音声認識の正解率)は、マイクロフォンから入力される音声信号に含まれる雑音量によって左右されることがよく知られているが、特に自動車などの車両内においては、車載オーディオ機器の動作時に、再生される音楽等が雑音として利用者の音声と共にマイクロフォンで集音されてしまう問題がある。   It is well known that the speech recognition rate (accuracy rate of speech recognition) of such a speech recognition device depends on the amount of noise included in the speech signal input from the microphone. However, there is a problem that music or the like to be reproduced is collected by a microphone together with the user's voice as noise during operation of the in-vehicle audio device.

この問題に対し、従来では、車載オーディオ機器と、音声認識装置とを連動させ、音声認識処理の際に、車載オーディオ機器にて再生される音楽等のボリュームを調節する(例えば車載オーディオ機器をミュートに設定する)ことで、再生される音楽等がマイクロフォンに入力されないようにし、一定度以上の音声認識率を確保するようにしていた。尚、このような先行技術は周知公用のため、関連文献を非開示とする。   To solve this problem, conventionally, the volume of music played on the in-vehicle audio device is adjusted during the speech recognition process by linking the in-vehicle audio device and the voice recognition device (for example, muting the in-vehicle audio device). In other words, the reproduced music or the like is not input to the microphone, and a voice recognition rate of a certain level or more is ensured. Since such prior art is well known and publicly used, related documents are not disclosed.

しかしながら、従来の音声認識装置では、車載オーディオ機器にて再生される音楽等のボリュームを調節するので、一時的に音楽等が利用者に聞こえなくなってしまい、その事が原因で利用者に不満が及ぶ可能性があった。   However, the conventional speech recognition apparatus adjusts the volume of music or the like played on the in-vehicle audio device, so the music or the like is temporarily inaudible to the user, which causes the user to be dissatisfied. There was a possibility.

そこで、本発明者らは、雑音源(車載オーディオ機器)から得られる参照信号に基づき、マイクロフォンから得られる音声信号に含まれる雑音成分を学習し、その音声信号から学習した雑音成分を除去する雑音除去部を音声認識装置に設けることにした。   Therefore, the present inventors learn a noise component included in an audio signal obtained from a microphone based on a reference signal obtained from a noise source (vehicle audio device), and remove noise learned from the audio signal. The removal unit is provided in the speech recognition apparatus.

しかしながら、最小二乗平均(Least Mean Square:LMS)法などの周知の学習法では、雑音除去後の信号が小さくなる方向に学習を繰り返すため、利用者がマイクロフォンに音声を入力している間に雑音成分の学習が繰り返されると、その利用者による発話の影響を受けて雑音除去部が誤学習をし、音声信号に含まれる雑音成分が適切に除去できなくなってしまう問題があった。したがって、このような雑音除去部を音声認識装置に導入しても、音声認識の精度向上には限界があった。   However, in a known learning method such as the least mean square (LMS) method, learning is repeated in such a direction that the signal after noise reduction becomes smaller, so that noise is generated while the user is inputting sound into the microphone. When the component learning is repeated, there is a problem in that the noise removing unit erroneously learns due to the influence of the utterance by the user, and the noise component included in the voice signal cannot be removed appropriately. Therefore, even if such a noise removing unit is introduced into the speech recognition apparatus, there is a limit to improving speech recognition accuracy.

本発明はこうした問題に鑑みなされたものであり、音声認識対象の音声信号に含まれる雑音成分を適切に除去して高精度に音声認識可能な音声認識装置を提供することを目的とする。   The present invention has been made in view of these problems, and an object of the present invention is to provide a speech recognition apparatus capable of accurately recognizing speech by appropriately removing a noise component contained in a speech signal to be recognized.

かかる目的を達成するためになされた請求項1に記載の音声認識装置によれば、予め設定されたフィルタ係数に従い雑音源から入力される参照信号を濾波することで雑音除去信号生成手段が生成した雑音除去信号を用いて、雑音除去手段が、マイクロフォンから入力される音声信号に含まれる雑音成分を除去し、雑音除去後の音声信号を出力する。また、この音声認識装置は、係数更新手段を備えており、雑音除去手段から出力される音声信号に基づき、係数更新手段にて、雑音除去信号生成手段に設定すべきフィルタ係数を学習し、その結果得たフィルタ係数を、雑音除去信号生成手段に対して設定する。   According to the speech recognition apparatus of claim 1 made to achieve the above object, the noise removal signal generating means generates the reference signal input from the noise source in accordance with a preset filter coefficient. Using the noise removal signal, the noise removal means removes a noise component included in the voice signal input from the microphone, and outputs the voice signal after the noise removal. In addition, the speech recognition apparatus includes a coefficient updating unit. The coefficient updating unit learns a filter coefficient to be set in the noise removal signal generation unit based on the voice signal output from the noise removal unit. The obtained filter coefficient is set for the noise removal signal generating means.

一方、音声認識手段は、外部(例えば、PTTスイッチ等の操作スイッチ)から動作開始指令が入力されると、所定期間、雑音除去手段から出力される音声信号を取得し、その音声信号に基づき、マイクロフォンに入力された音声を認識する。   On the other hand, when an operation start command is input from the outside (for example, an operation switch such as a PTT switch), the voice recognition unit acquires a voice signal output from the noise removal unit for a predetermined period, and based on the voice signal, Recognizes the voice input to the microphone.

また、この音声認識装置では、学習速度切替手段が、音声認識手段の非動作時に、第一の学習速度で、係数更新手段にフィルタ係数を学習させ、音声認識手段が雑音除去手段から出力される音声信号を取得している間には、第一の学習速度より低い第二の学習速度で、係数更新手段にフィルタ係数を学習させる。   In this speech recognition apparatus, the learning speed switching means causes the coefficient updating means to learn the filter coefficient at the first learning speed when the speech recognition means is not operating, and the speech recognition means is output from the noise removal means. While the voice signal is being acquired, the coefficient updating means is made to learn the filter coefficient at a second learning speed lower than the first learning speed.

マイクロフォンに入力される利用者の音声は、定常及び準定常的な音とは異なり、突発的に発生する非定常的な音声であることから、音声認識手段が雑音除去手段から出力される音声信号を取得している期間、フィルタ係数の学習速度を遅くすれば、フィルタ係数の学習時に利用者の音声が与える影響を抑えることができ、係数更新手段によるフィルタ係数の誤学習を抑制することができる。   Unlike the normal and quasi-stationary sounds, the user's voice input to the microphone is a non-stationary voice that occurs suddenly. Therefore, the voice signal output from the noise removal unit by the voice recognition unit If the learning rate of the filter coefficient is slowed during the period when the filter coefficient is acquired, the influence of the user's voice during learning of the filter coefficient can be suppressed, and erroneous learning of the filter coefficient by the coefficient updating means can be suppressed. .

即ち、請求項1に記載の音声認識装置によれば、従来と比較して、適切にフィルタ係数の学習を係数更新手段に実行させることができ、雑音除去の精度を向上させることができる。したがって、本発明によれば、音声認識装置における音声認識の精度を向上させることができる。   That is, according to the speech recognition apparatus of the first aspect, the coefficient update unit can appropriately perform learning of the filter coefficient, and the noise removal accuracy can be improved as compared with the conventional case. Therefore, according to the present invention, the accuracy of speech recognition in the speech recognition apparatus can be improved.

尚、学習速度切替手段は、少なくとも音声認識手段が雑音除去手段から音声信号の取得を開始した時点から終了する時点まで、第二の学習速度で、係数更新手段にフィルタ係数の学習を行わせる構成にされていればよく、例えば、音声信号の取得完了後、音声認識手段による音声の認識が完了し音声認識手段の動作が停止するまで、第二の学習速度で、フィルタ係数の学習を係数更新手段に実行させても構わない。   The learning speed switching means is configured to cause the coefficient updating means to learn the filter coefficient at the second learning speed at least from the time when the voice recognition means starts to acquire the voice signal from the noise removal means to the time when it ends. For example, after the acquisition of the audio signal is completed, the learning of the filter coefficient is updated at the second learning speed until the recognition of the audio by the audio recognition unit is completed and the operation of the audio recognition unit stops. The means may be executed.

また、学習速度切替手段は、少なくとも音声認識手段の非動作時に第一の学習速度で係数更新手段にフィルタ係数を学習させる構成にされていればよく、音声認識手段の非動作時に加え、音声認識手段の動作時であって音声認識手段が雑音除去手段から出力される音声信号を取得していない期間に、第一の学習速度で係数更新手段にフィルタ係数を学習させる構成にされていてもよい。即ち、学習速度切替手段は、音声認識手段が音声の認識を行っているか否かにかかわらず、音声認識手段が音声信号を取得した直後から第一の学習速度で係数更新手段にフィルタ係数の学習を行わせる構成にされていてもよい。   The learning speed switching means may be configured to cause the coefficient updating means to learn the filter coefficient at the first learning speed at least when the speech recognition means is not operating. The filter updating unit may be made to learn the filter coefficient at the first learning speed during the operation of the unit and during the period when the voice recognition unit does not acquire the voice signal output from the noise removing unit. . That is, the learning speed switching means learns the filter coefficient to the coefficient updating means at the first learning speed immediately after the voice recognition means acquires the voice signal regardless of whether or not the voice recognition means performs voice recognition. It may be configured to perform.

その他、本発明の音声認識装置における音声認識手段は、外部から動作開始指令が入力された後、利用者による発声がなされた発声期間に限定して、雑音除去手段から出力される音声信号を取得する構成にされていると良い。音声認識手段をこのような構成とすれば、利用者による発話内容が含まれない雑音区間の音声信号を、音声認識の際に用いずに済み、音声認識の精度が向上する。   In addition, the speech recognition means in the speech recognition apparatus of the present invention acquires the speech signal output from the noise removal means only during the utterance period in which the user uttered after the operation start command was input from the outside. It is good to be configured to do. If the speech recognition means has such a configuration, it is not necessary to use a speech signal in a noise section that does not include the content of the utterance by the user at the time of speech recognition, and the accuracy of speech recognition is improved.

また、このように利用者による発声期間の音声信号を選択的に音声認識手段に取得させる場合には、雑音除去手段から出力される音声信号に基づいて、利用者による発声がなされた発声期間を判別し、雑音除去手段から出力される音声信号の内、その発声期間に該当する音声信号のみを選択的に、音声認識手段に取得させる取得制御手段を装置内に設ければ良い。   Further, when the voice recognition unit selectively acquires the voice signal during the utterance period by the user as described above, the utterance period during which the user uttered is changed based on the voice signal output from the noise removal unit. It is only necessary to provide in the apparatus an acquisition control means for making the voice recognition means selectively obtain only the voice signal corresponding to the utterance period among the voice signals output from the noise removal means.

ところで、動作開始指令と同時に音声認識手段が雑音除去手段から音声信号を取得しない場合には、音声認識手段が雑音除去手段から出力される音声信号を取得している期間のみ第二の学習速度でフィルタ係数が学習されるようにすると、装置構成が煩雑になる可能性がある。   By the way, when the voice recognition unit does not acquire a voice signal from the noise removal unit at the same time as the operation start command, only the period during which the voice recognition unit acquires the voice signal output from the noise removal unit is obtained at the second learning speed. If the filter coefficients are learned, the apparatus configuration may become complicated.

したがって、上述の音声認識装置においては、動作開始指令が音声認識手段に入力されると同時に、第二の学習速度で、係数更新手段にフィルタ係数を学習させ、音声認識手段が音声信号の取得を終了するまでの期間は、第二の学習速度によるフィルタ係数の学習を係数更新手段に継続させるように、学習速度切替手段を構成するとよい。   Therefore, in the above-described voice recognition device, the operation start command is input to the voice recognition unit, and at the same time, the coefficient update unit learns the filter coefficient at the second learning speed, and the voice recognition unit acquires the voice signal. The learning speed switching means may be configured so that the coefficient update means continues to learn the filter coefficient at the second learning speed during the period until the end.

このような構成にされた請求項2に記載の音声認識装置によれば、音声認識手段に外部から動作開始指令が入力されたか否かを監視する程度で、音声認識手段が雑音除去手段から音声信号を取得する際には、係数更新手段に第二の学習速度でフィルタ係数を学習させることができる。つまり、この音声認識装置によれば、簡単な装置構成(制御)で、係数更新手段の学習速度を適切に切り替えることができる。   According to the speech recognition apparatus of the second aspect configured as described above, the speech recognition means performs speech to the speech recognition means from the noise removal means only by monitoring whether or not an operation start command is externally input to the speech recognition means. When acquiring the signal, the coefficient updating means can learn the filter coefficient at the second learning speed. That is, according to this voice recognition device, the learning speed of the coefficient updating means can be appropriately switched with a simple device configuration (control).

その他、上述した発明は、請求項3に記載のように、係数更新手段が、LMS法を用いて、雑音除去信号生成手段に設定すべきフィルタ係数を学習する音声認識装置に適用される良い。   In addition, the above-described invention may be applied to a speech recognition apparatus in which the coefficient updating unit learns a filter coefficient to be set in the noise removal signal generating unit using the LMS method.

LMS法を用いる場合には、マイクロフォンに入力される音声に、雑音源以外の音源から発生した音声(即ち、利用者の音声)が含まれると、フィルタ係数の誤学習を引き起こしやすい。したがって、請求項3に記載のように、LMS法を用いて学習を行う音声認識装置に、本発明(請求項1又は請求項2)を適用すれば、音声認識の精度を効果的に向上させることができる。   When the LMS method is used, if the voice input to the microphone includes voice generated from a sound source other than the noise source (that is, user voice), erroneous learning of the filter coefficient is likely to occur. Therefore, if the present invention (Claim 1 or Claim 2) is applied to a speech recognition apparatus that performs learning using the LMS method as described in Claim 3, the accuracy of speech recognition is effectively improved. be able to.

また、請求項1〜請求項3に記載の発明は、請求項4に記載のように、雑音源がオーディオ機器である音声認識装置に適用されるとよい。
請求項4に記載の音声認識装置によれば、オーディオ機器の動作によりスピーカから再生される音楽等のボリュームを調節しなくても、高精度に音声認識を行うことが可能であるので、便利である。
In addition, the invention described in claims 1 to 3 may be applied to a speech recognition apparatus in which the noise source is an audio device as described in claim 4.
According to the voice recognition device of the fourth aspect, it is possible to perform voice recognition with high accuracy without adjusting the volume of music or the like reproduced from the speaker by the operation of the audio device. is there.

以下に本発明の実施例について、図面とともに説明する。尚、図1は、音声認識装置1の概略構成を表すブロック図である。
図1に示す本実施例の音声認識装置1は、カーナビゲーション装置3に接続されており、マイクロフォン5に入力された利用者の音声を認識し、その音声に従う操作信号をカーナビゲーション装置3に入力することで、利用者の音声に従った操作をカーナビゲーション装置3に対して施す。
Embodiments of the present invention will be described below with reference to the drawings. FIG. 1 is a block diagram illustrating a schematic configuration of the speech recognition apparatus 1.
A voice recognition device 1 according to this embodiment shown in FIG. 1 is connected to a car navigation device 3, recognizes a user's voice input to a microphone 5, and inputs an operation signal according to the voice to the car navigation device 3. Thus, an operation according to the user's voice is performed on the car navigation device 3.

この音声認識装置1は、主に、マイクロフォン5及び車載オーディオ機器7にアナログ−デジタル変換器(ADC)11,13を介して接続されたオーディオキャンセラ部20と、音声抽出部31と、音声認識部33と、PTT(Push to Talk)スイッチ35と、制御部37と、音声合成部39と、から構成されている。   The speech recognition apparatus 1 mainly includes an audio canceller unit 20, a speech extraction unit 31, and a speech recognition unit connected to the microphone 5 and the in-vehicle audio device 7 via analog-digital converters (ADC) 11 and 13. 33, a PTT (Push to Talk) switch 35, a control unit 37, and a speech synthesis unit 39.

オーディオキャンセラ部20は、主に、適応フィルタ21と、減算部23と、LMS学習部25と、から構成されており、マイクロフォン5からADC11を介して入力される音声信号y(t)を減算部23に入力すると共に、車載オーディオ機器7からスピーカ9に入力されるオーディオ信号x(t)をADC13から取得し、そのオーディオ信号x(t)を適応フィルタ21に入力する。   The audio canceller unit 20 is mainly composed of an adaptive filter 21, a subtracting unit 23, and an LMS learning unit 25, and a subtracting unit for the audio signal y (t) input from the microphone 5 via the ADC 11. The audio signal x (t) input to the speaker 9 from the in-vehicle audio device 7 is acquired from the ADC 13 and the audio signal x (t) is input to the adaptive filter 21.

適応フィルタ21は、フィルタ係数wを記憶する図示しないレジスタ等を備えている。
w=(w[0],w[1],…,w[J])T …式(1)
尚、上付き記号Tは、転置行列を意味する。また、パラメータJ+1は、タップ長を表す。
The adaptive filter 21 includes a register (not shown) that stores the filter coefficient w.
w = (w [0], w [1], ..., w [J]) T ... Formula (1)
The superscript T means a transposed matrix. The parameter J + 1 represents the tap length.

この適応フィルタ21は、LMS学習部25の動作(詳細後述)により予めレジスタに設定されたフィルタ係数wと、雑音源としての車載オーディオ機器7から参照信号として得た上記オーディオ信号x(t)とを、次式に代入し演算することで、オーディオ信号x(t)をフィルタ係数wに従い濾波し、音声信号y(t)から雑音成分を除去するための雑音除去信号c(t)を生成する。そして、雑音除去信号c(t)を減算部23に入力する。   The adaptive filter 21 includes a filter coefficient w set in a register in advance by an operation of the LMS learning unit 25 (details will be described later), and the audio signal x (t) obtained as a reference signal from the in-vehicle audio device 7 as a noise source. Is calculated by substituting into the following equation, the audio signal x (t) is filtered according to the filter coefficient w, and the noise removal signal c (t) for removing the noise component from the audio signal y (t) is generated. . Then, the noise removal signal c (t) is input to the subtraction unit 23.

c(t)=xT・w …式(2)
但し、パラメータxは、下式で表されるオーディオ信号x(t)の時系列ベクトルである。また、ここでいうパラメータtは、サンプリング周期を単位とする時間パラメータである。
c (t) = x T · w Equation (2)
However, the parameter x is a time series vector of the audio signal x (t) represented by the following equation. The parameter t here is a time parameter with a sampling period as a unit.

x=(x(t),x(t−1),
x(t−2),…x(t−J))T …式(3)
一方、減算部23は、ADC11を介してマイクロフォン5より入力される音声信号y(t)から雑音除去信号c(t)を減算することで、音声信号y(t)に含まれる雑音成分(即ち、車載オーディオ機器7の動作によりスピーカ9から再生される音声成分)を除去し、雑音除去後の音声信号z(t)を得る。
x = (x (t), x (t−1),
x (t-2), ... x (t-J)) T ... Formula (3)
On the other hand, the subtracting unit 23 subtracts the noise removal signal c (t) from the audio signal y (t) input from the microphone 5 via the ADC 11, so that the noise component included in the audio signal y (t) (that is, The audio component reproduced from the speaker 9 by the operation of the in-vehicle audio device 7 is removed, and the audio signal z (t) after noise removal is obtained.

z(t)=y(t)−c(t) …式(4)
また、減算部23は、減算した結果得られた雑音除去後の音声信号z(t)を、音声抽出部31に入力する。
z (t) = y (t) −c (t) (formula 4)
Further, the subtractor 23 inputs the audio signal z (t) after noise removal obtained as a result of the subtraction to the audio extractor 31.

音声抽出部31は、制御部37からの動作開始指令を受けて動作を開始する構成にされており、動作を開始すると、オーディオキャンセラ部20から入力された雑音除去後の音声信号z(t)が、音声区間(即ち、利用者による発声がなされた発声期間)の信号であるか、それとも、利用者の音声が含れず音声区間に属さない雑音区間の信号であるのかを判定し、音声区間の信号であると判定した場合には、その音声信号z(t)を音声認識部33に入力する。そして音声区間が終了すると、動作を停止する。   The voice extraction unit 31 is configured to start operation upon receiving an operation start command from the control unit 37. When the operation starts, the voice signal z (t) after noise removal input from the audio canceller unit 20 is started. Is a signal in a speech section (ie, a speech period in which the user utters) or a noise section signal that does not include the user's voice and does not belong to the speech section, If it is determined that the signal is a signal, the voice signal z (t) is input to the voice recognition unit 33. When the voice section ends, the operation is stopped.

尚、判定方法としては、例えば入力信号の短時間パワーを一定時間毎に抽出していき、所定の閾値以上の短時間パワーが一定以上継続したか否かによって音声区間であるか雑音区間であるかを判定する手法がよく採用されている。   As a determination method, for example, the short-time power of the input signal is extracted at fixed time intervals, and is a voice interval or a noise interval depending on whether or not the short-time power equal to or greater than a predetermined threshold continues for a certain time. The method of determining whether or not is often adopted.

一方、音声認識部33は、制御部37から入力される動作開始指令に従い動作を開始し、音声抽出部31から出力される音声信号z(t)を取得することにより、音声抽出部31を介して、減算部23から音声区間の信号z(t)を選択的に取得する。また、音声認識部33は、音声信号z(t)の取得後に、その音声信号z(t)を音響分析し、音声信号z(t)から特徴量(例えばケプストラム)を抽出することで、特徴量の時系列データを得る。   On the other hand, the voice recognition unit 33 starts operation according to the operation start command input from the control unit 37 and acquires the voice signal z (t) output from the voice extraction unit 31, so that the voice recognition unit 33 passes through the voice extraction unit 31. Thus, the signal z (t) of the voice section is selectively acquired from the subtracting unit 23. Further, the voice recognition unit 33 acoustically analyzes the voice signal z (t) after obtaining the voice signal z (t), and extracts a feature amount (for example, a cepstrum) from the voice signal z (t). Get quantity time-series data.

その後、音声認識部33は、特徴量の時系列データを、周知の技法を用いて、自身が備える図示しない音声辞書に登録された音声パターンと比較し、一致度の高い音声パターンに対応する語彙を、利用者が発声した語彙であると認識して、その認識結果を制御部37に入力し、この後動作を停止する。   After that, the speech recognition unit 33 compares the time-series data of the feature amount with a speech pattern registered in a speech dictionary (not shown) provided in itself using a well-known technique, and the vocabulary corresponding to the speech pattern having a high degree of coincidence. Is recognized as a vocabulary spoken by the user, the recognition result is input to the control unit 37, and then the operation is stopped.

制御部37は、PTTスイッチ35が押されたタイミングや戻されたタイミングを監視する構成にされており、PTTスイッチ35が押され、PTTスイッチ35から動作開始指令信号が入力されたと判断すると(S100でYes)、オーディオキャンセラ部20のLMS学習部25に対して学習禁止指令を入力し(S110)、その後に音声認識部33及び音声抽出部31に動作開始指令を入力することで、音声認識部33及び音声抽出部31を作動させて、音声認識を開始する(S120)。尚、図2は、制御部37の処理動作を表すフローチャートである。   The control unit 37 is configured to monitor the timing when the PTT switch 35 is pressed or returned, and determines that the PTT switch 35 is pressed and an operation start command signal is input from the PTT switch 35 (S100). Yes), a learning prohibition command is input to the LMS learning unit 25 of the audio canceller unit 20 (S110), and then an operation start command is input to the voice recognition unit 33 and the voice extraction unit 31, thereby the voice recognition unit. 33 and the voice extraction unit 31 are operated to start voice recognition (S120). FIG. 2 is a flowchart showing the processing operation of the control unit 37.

その後、制御部37は、音声区間が終了し音声認識部33による音声信号の取得が完了したか否かを、音声抽出部31の動作状態に基づき判断し(S130)、音声区間が終了したと判断すると(S130でYes)、LMS学習部25に学習再開指令を入力する(S140)と共に、音声認識部33から認識結果を取得する(S150)。そして認識結果が正しいか否かを利用者に問い合わせるために、認識結果をトークバックする(S160)。   After that, the control unit 37 determines whether or not the voice section is finished and the voice recognition unit 33 has completed the acquisition of the voice signal based on the operation state of the voice extraction unit 31 (S130), and the voice section is finished. When the determination is made (Yes in S130), a learning restart command is input to the LMS learning unit 25 (S140), and a recognition result is acquired from the speech recognition unit 33 (S150). Then, in order to inquire the user whether or not the recognition result is correct, the recognition result is talked back (S160).

即ち、制御部37は、音声合成部39を制御して、音声合成部39に、認識結果に従う音声信号を生成させ、その音声信号をスピーカ9に入力させる。尚、音声合成部39は、図示しない波形データベース内に格納されている音声波形を用い、制御部37からの音声の出力指示に基づく音声信号を合成してスピーカ9に出力する。従って、S160においては、認識結果が音声で利用者に通知される。   That is, the control unit 37 controls the voice synthesis unit 39 to cause the voice synthesis unit 39 to generate a voice signal according to the recognition result and input the voice signal to the speaker 9. The voice synthesizer 39 synthesizes a voice signal based on a voice output instruction from the controller 37 using a voice waveform stored in a waveform database (not shown) and outputs the synthesized voice signal to the speaker 9. Therefore, in S160, the recognition result is notified to the user by voice.

この後、制御部37は、利用者の操作によりPTTスイッチ35等の操作スイッチから認識結果が正しいことを表す認識結果確定信号が入力されたか否か判断し(S170)、認識結果確定信号が入力されたと判断すると(S170でYes)、確定後処理を実行する(S180)。一方、認識結果確定信号が入力されなかったと判断すると(S170でNo)、確定後処理を実行せずに、当該処理を終了する。   Thereafter, the control unit 37 determines whether or not a recognition result confirmation signal indicating that the recognition result is correct is input from an operation switch such as the PTT switch 35 by the user's operation (S170), and the recognition result confirmation signal is input. If it is determined (Yes in S170), post-determination processing is executed (S180). On the other hand, if it is determined that the recognition result confirmation signal has not been input (No in S170), the process is terminated without executing the post-confirmation process.

尚、S180で行われる確定後処理において、制御部37は、認識結果に従う操作信号をカーナビゲーション装置3に入力する。このような確定後処理は、周知の技術を用いたものであるので、詳細な説明を省略する。   In the post-confirmation process performed in S180, the control unit 37 inputs an operation signal according to the recognition result to the car navigation device 3. Such post-determination processing uses a well-known technique and will not be described in detail.

次に、オーディオキャンセラ部20のLMS学習部25の処理動作について図3を用いて説明する。図3は、音声認識装置1に電源が投入されると同時に、LMS学習部25が実行する学習処理を表すフローチャートである。   Next, the processing operation of the LMS learning unit 25 of the audio canceller unit 20 will be described with reference to FIG. FIG. 3 is a flowchart showing a learning process executed by the LMS learning unit 25 at the same time when the speech recognition apparatus 1 is turned on.

LMS学習部25は、学習処理の実行を開始すると、まず最初に、適応フィルタ21に対して初期設定を施す(S210)。即ち、LMS学習部25は、予め定められた所定のフィルタ係数(初期値)を適応フィルタ21に設定する。   When the LMS learning unit 25 starts executing the learning process, first, the LMS learning unit 25 performs initial setting on the adaptive filter 21 (S210). That is, the LMS learning unit 25 sets predetermined filter coefficients (initial values) in the adaptive filter 21.

その後、LMS学習部25は、減算部23から出力される音声信号z(t)を用い、LMS法に基づく次式に従い係数w’を算出することで、次に適応フィルタ21に設定すべきフィルタ係数w’を学習する(S220)。   Thereafter, the LMS learning unit 25 uses the audio signal z (t) output from the subtracting unit 23 to calculate the coefficient w ′ according to the following equation based on the LMS method, and thereby the filter to be set to the adaptive filter 21 next. The coefficient w ′ is learned (S220).

Figure 2009031809
ここで、代入する係数wは、既に適応フィルタ21に設定したフィルタ係数wの値である。また、αは、係数w’が発散するのを防止するための忘却係数であり、βは、除数がゼロになるのを防止するための正の定数である。その他μは、ステップサイズパラメータと呼ばれるものであり、フィルタ係数の学習速度に対応するパラメータである。
Figure 2009031809
Here, the coefficient w to be substituted is the value of the filter coefficient w that has already been set in the adaptive filter 21. Further, α is a forgetting factor for preventing the coefficient w ′ from diverging, and β is a positive constant for preventing the divisor from becoming zero. Other μ is called a step size parameter, and is a parameter corresponding to the learning rate of the filter coefficient.

S220におけるフィルタ係数w’の計算が完了すると、LMS学習部25は、S220で算出したフィルタ係数w’を、新たなフィルタ係数wとして、適応フィルタ21に設定する(S230)。   When the calculation of the filter coefficient w ′ in S220 is completed, the LMS learning unit 25 sets the filter coefficient w ′ calculated in S220 as the new filter coefficient w in the adaptive filter 21 (S230).

この後、LMS学習部25は、学習禁止指令が制御部37より入力されているか否か判断し(S240)、入力されていなければ(S240でNo)、当該装置の電源オフやエラー等により学習処理の終了指令が制御部37から入力されているか否か判断する(S250)。そして、終了指令が入力されていれば(S250でYes)、当該処理を終了し、終了指令が入力されていなければ(S250でNo)、処理をS220に戻して、フィルタ係数w’を学習し、その後フィルタ係数を更新する(S230)。   Thereafter, the LMS learning unit 25 determines whether or not a learning prohibition command is input from the control unit 37 (S240). If not input (No in S240), the LMS learning unit 25 learns by turning off the power of the device, an error, or the like. It is determined whether or not a processing end command is input from the control unit 37 (S250). If an end command is input (Yes in S250), the process ends. If no end command is input (No in S250), the process returns to S220 to learn the filter coefficient w ′. Thereafter, the filter coefficient is updated (S230).

また、S240において、学習禁止指令が制御部37より入力されていると判断すると(S240でYes)、LMS学習部25は、処理をS260に移して、学習再開指令が制御部37から入力されているか否か判断する。そして学習再開指令が入力されていなければ(S260でNo)、続くS270にて終了指令が入力されているか否か判断し、終了指令が入力されていれば(S270でYes)、当該処理を終了し、終了指令が入力されていなければ(S270でNo)、処理をS260に戻して、学習再開指令が制御部37より入力されるまで待機する。   In S240, if it is determined that the learning prohibition command is input from the control unit 37 (Yes in S240), the LMS learning unit 25 moves the process to S260, and the learning restart command is input from the control unit 37. Determine whether or not. If a learning restart command is not input (No in S260), it is determined in S270 that an end command is input. If an end command is input (Yes in S270), the process ends. If the end command is not input (No in S270), the process returns to S260 and waits until the learning restart command is input from the control unit 37.

そして、学習再開指令が入力されたと判断すると(S260でYes)、処理をS220に戻して、フィルタ係数w’を学習し、その結果得られたフィルタ係数w’を、新たなフィルタ係数wとして、適応フィルタ21に設定する(S230)。   If it is determined that a learning restart command has been input (Yes in S260), the process returns to S220, the filter coefficient w ′ is learned, and the filter coefficient w ′ obtained as a result is set as a new filter coefficient w. The adaptive filter 21 is set (S230).

LMS学習部25は、このような動作を繰り返すことによって、図4に示すように、PTTスイッチ35が押下(オン)されてから音声区間が終了するまでの間、フィルタ係数の学習動作を停止する。また、音声区間が終了して学習再開指令が入力されると、再び、次の学習禁止指令が入力されるまで、フィルタ係数の学習を継続する。尚、図4は、LMS学習部25の動作切替タイミングを表すタイムチャートである。   By repeating such an operation, the LMS learning unit 25 stops the filter coefficient learning operation from when the PTT switch 35 is pressed (turned on) until the end of the speech period, as shown in FIG. . Further, when the speech interval ends and the learning restart command is input, the filter coefficient learning is continued until the next learning prohibition command is input again. FIG. 4 is a time chart showing the operation switching timing of the LMS learning unit 25.

以上、本実施例の音声認識装置1について説明したが、この音声認識装置1では、制御部37の動作により、音声認識部33が音声抽出部31を介してオーディオキャンセラ部20から音声信号を取得している間、LMS学習部25によるフィルタ係数の学習が禁止されるので、音声認識のために利用者が発した音声がマイクロフォン5に入力される際に、フィルタ係数wの学習更新が行われるのを防止することができる。   The speech recognition device 1 according to the present embodiment has been described above. In this speech recognition device 1, the speech recognition unit 33 acquires a speech signal from the audio canceller unit 20 via the speech extraction unit 31 by the operation of the control unit 37. During this period, the learning of the filter coefficient by the LMS learning unit 25 is prohibited, so that the learning update of the filter coefficient w is performed when the voice uttered by the user for voice recognition is input to the microphone 5. Can be prevented.

したがって、この音声認識装置1によれば、音声認識部33による音声信号取得の際に、マイクロフォン5に入力される利用者の音声の影響によって、フィルタ係数が不適切に学習更新されるのを防止することができ、音声認識の対象となる音声信号から精度よく雑音成分を取り除くことができる。結果、本実施例によれば、音声認識装置1における音声認識の精度を高めることができ、高い音声認識率を実現することが可能である。   Therefore, according to the voice recognition apparatus 1, when the voice signal is acquired by the voice recognition unit 33, the filter coefficient is prevented from being inappropriately learned and updated due to the influence of the voice of the user input to the microphone 5. Therefore, the noise component can be accurately removed from the speech signal that is the target of speech recognition. As a result, according to the present embodiment, the accuracy of speech recognition in the speech recognition apparatus 1 can be increased, and a high speech recognition rate can be realized.

その他、本実施例では、オーディオキャンセラ部20から出力される音声信号z(t)に基づき、音声抽出部31にて、利用者による発声がなされた発声期間を判別し、オーディオキャンセラ部20から出力される音声信号の内、その発声期間に該当する音声信号のみを選択的に音声認識部33に入力するようにしているので、利用者による発話内容が含まれない雑音区間の音声信号を、音声認識部33に入力せずに済み、雑音に影響されず、音声認識部33に正確な音声認識を行わせることができる。また、本実施例では、音声抽出部31が、自動で発声期間を判別するので、利用者に発声期間に関する情報を操作スイッチから入力させなくて済み便利である。   In addition, in this embodiment, based on the audio signal z (t) output from the audio canceller unit 20, the audio extraction unit 31 determines the utterance period during which the user has made an utterance, and the audio canceller unit 20 outputs the utterance period. Since only the speech signal corresponding to the speech period is selectively input to the speech recognition unit 33, the speech signal in the noise section that does not include the utterance content by the user is It is not necessary to input the signal to the recognition unit 33, and the voice recognition unit 33 can perform accurate voice recognition without being affected by noise. In this embodiment, since the voice extraction unit 31 automatically determines the utterance period, it is convenient that the user does not input information regarding the utterance period from the operation switch.

また、本実施例では、PTTスイッチ35から動作開始指令が入力されると同時に、その時点から音声抽出部31が音声区間の検出を終了して音声認識部33が音声信号の取得を終了するまでの期間、LMS学習部25によるフィルタ係数の学習を禁止するように制御部37を構成しているので、簡単な制御で、利用者の発声期間には、フィルタ係数の学習を停止することができる。   Further, in this embodiment, at the same time when an operation start command is input from the PTT switch 35, the voice extraction unit 31 ends detection of the voice section from that time until the voice recognition unit 33 ends the acquisition of the voice signal. Since the control unit 37 is configured to prohibit the learning of the filter coefficient by the LMS learning unit 25 during this period, it is possible to stop the learning of the filter coefficient during the user's utterance period with simple control. .

さて、上記実施例ではフィルタ係数の学習を禁止することにより音声認識装置1の高性能化を実現したが、利用者の発声期間中に、フィルタ係数の学習速度を遅くすることで、従来と比較して高精度に音声認識を行えるようにすることも可能である。   In the above embodiment, the speech recognition apparatus 1 has been improved in performance by prohibiting the learning of filter coefficients. However, during the user's utterance period, the learning speed of the filter coefficients is slowed down, so that the comparison with the prior art is achieved. Thus, it is possible to perform voice recognition with high accuracy.

次には、このような構成にされた変形例の音声認識装置について説明することにする。尚、変形例の音声認識装置は、制御部37及びLMS学習部25の一部処理動作が異なる程度の構成であり、その他の装置内各部の構成は上述の音声認識装置1と同一である。したがって、以下では、上述の音声認識装置1と同一構成の各部の説明を省略することにし、図5及び図6を用いて、制御部37及びLMS学習部25の動作を説明する程度に留める。   Next, a modified speech recognition apparatus having such a configuration will be described. Note that the modified speech recognition apparatus has a configuration in which the partial processing operations of the control unit 37 and the LMS learning unit 25 are different, and the configuration of each other part in the apparatus is the same as that of the speech recognition apparatus 1 described above. Therefore, below, description of each part of the same structure as the speech recognition apparatus 1 described above will be omitted, and only the operation of the control unit 37 and the LMS learning unit 25 will be described with reference to FIGS. 5 and 6.

図5は、変形例の音声認識装置における制御部37の処理動作を表すフローチャートである。図5に示すように、制御部37は、PTTスイッチ35から動作開始指令信号が入力されたと判断すると(S300でYes)、フィルタ係数の学習速度を遅くするための低速学習指令をオーディオキャンセラ部20のLMS学習部25に入力し(S310)、その後に音声認識部33及び音声抽出部31を作動させて音声認識を開始する(S320)。   FIG. 5 is a flowchart showing the processing operation of the control unit 37 in the voice recognition device according to the modification. As shown in FIG. 5, when the control unit 37 determines that the operation start command signal is input from the PTT switch 35 (Yes in S300), the audio canceller unit 20 sends a low speed learning command for slowing down the learning rate of the filter coefficient. Is input to the LMS learning unit 25 (S310), and then the speech recognition unit 33 and the speech extraction unit 31 are operated to start speech recognition (S320).

その後、制御部37は、音声区間が終了し音声抽出部31から音声認識部33への音声信号入力が完了したか否かを、音声抽出部31の動作状態に基づき判断し(S330)、音声区間が終了したと判断すると(S330でYes)、フィルタ係数の学習速度を通常の学習速度に変更するための通常学習指令をLMS学習部25に入力する(S340)。また、同時に、音声認識部33から認識結果を取得する(S350)。そして認識結果が正しいか否かを利用者に問い合わせるために、認識結果をトークバックする(S360)。   Thereafter, the control unit 37 determines whether or not the voice section is finished and the voice signal input from the voice extraction unit 31 to the voice recognition unit 33 is completed based on the operation state of the voice extraction unit 31 (S330). If it is determined that the section has ended (Yes in S330), a normal learning command for changing the learning speed of the filter coefficient to the normal learning speed is input to the LMS learning unit 25 (S340). At the same time, a recognition result is acquired from the voice recognition unit 33 (S350). Then, in order to inquire the user whether or not the recognition result is correct, the recognition result is talked back (S360).

この後、制御部37は、利用者の操作によりPTTスイッチ35等の操作スイッチから認識結果が正しいことを表す認識結果確定信号が入力されたか否か判断し(S370)、認識結果確定信号が入力されたと判断すると(S370でYes)、確定後処理を実行する(S380)。一方、認識結果確定信号が入力されなかったと判断すると(S370でNo)、確定後処理を実行せずに、当該処理を終了する。   Thereafter, the control unit 37 determines whether or not a recognition result confirmation signal indicating that the recognition result is correct is input from an operation switch such as the PTT switch 35 by the user's operation (S370), and the recognition result confirmation signal is input. If it is determined (Yes in S370), post-confirmation processing is executed (S380). On the other hand, if it is determined that the recognition result confirmation signal has not been input (No in S370), the process is terminated without executing the post-confirmation process.

次に、変形例の音声認識装置におけるLMS学習部25の処理動作について図6を用いて説明する。図6は、音声認識装置に電源が投入されると同時に、変形例のLMS学習部25が実行する学習処理を表すフローチャートである。   Next, the processing operation of the LMS learning unit 25 in the voice recognition device according to the modification will be described with reference to FIG. FIG. 6 is a flowchart showing a learning process executed by the LMS learning unit 25 of the modified example at the same time when the voice recognition apparatus is turned on.

LMS学習部25は、学習処理を開始するとS410で、初期設定として、予め定められた所定のフィルタ係数(初期値)を適応フィルタ21に対して設定すると共に、フィルタ係数w’算出の際に用いる式(5)のパラメータμを、初期値μHに設定する(μ=μH)。 When the learning process is started, the LMS learning unit 25 sets a predetermined predetermined filter coefficient (initial value) for the adaptive filter 21 as an initial setting and uses it in calculating the filter coefficient w ′ in S410. The parameter μ in the equation (5) is set to the initial value μ H (μ = μ H ).

この後、LMS学習部25は、減算部23から出力される音声信号z(t)を用いて、LMS法に基づく式(5)に従い係数w’を算出する(S420)。この動作によりLMS学習部25は、次に適応フィルタ21に設定すべきフィルタ係数w’を学習し、S430にて、フィルタ係数w’を、新たなフィルタ係数wとして、適応フィルタ21に設定する。   Thereafter, the LMS learning unit 25 uses the audio signal z (t) output from the subtraction unit 23 to calculate the coefficient w ′ according to Expression (5) based on the LMS method (S420). By this operation, the LMS learning unit 25 learns the filter coefficient w ′ to be set next in the adaptive filter 21, and sets the filter coefficient w ′ in the adaptive filter 21 as a new filter coefficient w in S 430.

続いて、LMS学習部25は、低速学習指令が制御部37より入力されているか否か判断し(S440)、入力されていると判断すると(S440でYes)、S450にて、学習速度を表すパラメータμに、予め定められた値μLを設定する(μ=μL)。尚、値μL及び値μHには、不等式μL<μHの関係が成立する。 Subsequently, the LMS learning unit 25 determines whether or not a low-speed learning command is input from the control unit 37 (S440). If it is determined that the low-speed learning command is input (Yes in S440), the learning speed is represented in S450. the parameter mu, sets the predetermined value μ L (μ = μ L) . Incidentally, the value mu L and the value mu H, the relationship of inequality μ LH is established.

式(5)を見れば理解できるように、パラメータμの値を小さくすると、フィルタ係数w’の変化量を、小さくすることができる。つまり、パラメータμを小さくすることで、フィルタ係数w’が収束するまでの時間を長期化することができ、学習速度を抑えることができる。LMS学習部25は、このようにパラメータμを通常より小さい値μLに設定することで、フィルタ係数の学習速度を低くしているのである。 As can be understood from the expression (5), when the value of the parameter μ is reduced, the amount of change in the filter coefficient w ′ can be reduced. That is, by reducing the parameter μ, the time until the filter coefficient w ′ converges can be lengthened, and the learning speed can be suppressed. LMS learning section 25, by thus setting the parameter mu Usually smaller value mu L, with each other to lower the learning speed of the filter coefficients.

この後、制御部37は、処理をS420に移して、μ=μLである式(5)に従い、フィルタ係数w’を算出し、その後フィルタ係数wを更新する(S430)。
一方、制御部37は、S440にて、低速学習指令が入力されていないと判断すると(S440でNo)、S460にて、制御部37から通常学習指令が入力されているか否か判断する。
Thereafter, the control unit 37 moves the processing to S420, in accordance with Equation (5) is a mu = mu L, and calculates the filter coefficient w ', then update the filter coefficients w (S430).
On the other hand, when determining that the low speed learning command is not input in S440 (No in S440), the control unit 37 determines whether or not the normal learning command is input from the control unit 37 in S460.

ここで、通常学習指令が入力されていると判断すると(S460でYes)、制御部37は、S470にて、学習速度を表すパラメータμを、μHに変更する(μ=μH)。そして、再び処理をS420に移し、μ=μHである式(5)に従い、フィルタ係数w’を算出し、その後フィルタ係数wを更新する(S430)。 Here, the normal learning command is judged to be inputted (Yes in S460), the control unit 37, at S470, a parameter mu representing the learning speed is changed to μ H (μ = μ H) . Then, the process again proceeds to S420, the filter coefficient w ′ is calculated according to the equation (5) where μ = μ H , and then the filter coefficient w is updated (S430).

また、制御部37は、S440及びS460でNoと判断すると、S480にて、当該学習処理の終了指令が制御部37から入力されているか否か判断する。そして、終了指令が入力されていないと判断すると(S480でNo)、処理をS420に戻して、フィルタ係数w’を学習し、その後フィルタ係数を更新する(S430)。一方、終了指令が入力されていると判断すると(S480でYes)、当該学習処理を終了する。   In addition, when the control unit 37 determines No in S440 and S460, the control unit 37 determines whether an instruction to end the learning process is input from the control unit 37 in S480. If it is determined that an end command has not been input (No in S480), the process returns to S420, the filter coefficient w 'is learned, and then the filter coefficient is updated (S430). On the other hand, if it is determined that an end command has been input (Yes in S480), the learning process ends.

LMS学習部25は、このような処理を実行することによって、図7に示すように、PTTスイッチ35が押下(オン)されてから、音声区間が終了するまでの間は、フィルタ係数の学習速度を低くする。また、音声区間が終了して通常学習指令が入力されると、再び、次の低速学習指令が入力されるまで、通常の学習速度でフィルタ係数の学習を行う。尚、図7は、学習速度の切替タイミングを表すタイムチャートである。   As shown in FIG. 7, the LMS learning unit 25 performs such processing, so that the learning speed of the filter coefficient is reduced from when the PTT switch 35 is pressed (turned on) until the end of the speech period. Lower. Further, when the normal learning command is input after the end of the speech section, the filter coefficient is learned at the normal learning speed until the next low-speed learning command is input again. FIG. 7 is a time chart showing learning speed switching timing.

以上、変形例について説明したが、変形例の音声認識装置では、音声認識部33及び音声抽出部31の作動と共にLMS学習部25に低速学習指令を入力することで、音声認識部33が音声抽出部31を介してオーディオキャンセラ部20から音声信号を取得している間、通常より低学習速度で、LMS学習部25に、フィルタ係数を学習させているので、その期間においてフィルタ係数の学習動作に及ぶ利用者の音声の影響を抑えることができ、LMS学習部25におけるフィルタ係数の誤学習を抑制することができる。   Although the modification has been described above, in the voice recognition device of the modification, the voice recognition unit 33 extracts the voice by inputting the low speed learning command to the LMS learning unit 25 together with the operation of the voice recognition unit 33 and the voice extraction unit 31. While the audio signal is acquired from the audio canceller unit 20 via the unit 31, the LMS learning unit 25 is learning the filter coefficient at a lower learning speed than usual. It is possible to suppress the influence of the user's voice, and to suppress erroneous learning of the filter coefficient in the LMS learning unit 25.

この結果、変形例の音声認識装置によれば、LMS学習部25に適切にフィルタ係数の学習を行わせることができ、オーディオキャンセラ部20における雑音除去の精度を向上させることができる。したがって、変形例によれば、高精度に音声認識可能な音声認識装置を提供することができる。   As a result, according to the speech recognition apparatus of the modification, the LMS learning unit 25 can appropriately learn the filter coefficient, and the accuracy of noise removal in the audio canceller unit 20 can be improved. Therefore, according to the modified example, it is possible to provide a voice recognition device capable of voice recognition with high accuracy.

また、変形例では、制御部37が、音声認識部33の非動作時に加え、音声認識部33が音声信号を取得した直後(即ち音声区間が終了した直後)から通常の学習速度でLMS学習部25にフィルタ係数の学習を行わせる構成にされているので、連続してPTTスイッチ35から動作開始指令信号が入力され音声認識部33が動作する場合にも、オーディオキャンセラ部20にて適切な雑音除去が可能である。   In the modification, the LMS learning unit is operated at a normal learning speed immediately after the voice recognition unit 33 acquires the voice signal (that is, immediately after the voice section is finished), in addition to when the voice recognition unit 33 is not operating. 25, the filter coefficient learning is performed. Therefore, even when the operation start command signal is continuously input from the PTT switch 35 and the voice recognition unit 33 is operated, the audio canceller unit 20 performs appropriate noise. Removal is possible.

その他、変形例においても、音声抽出部31が、利用者による発声がなされた発声期間に該当する音声信号のみを選択的に音声認識部33に入力するので、利用者による発話内容が含まれない雑音区間の音声信号を、音声認識部33に入力せずに済み、雑音に影響されず、音声認識部33にて正確な音声認識を行うことができる。   In addition, in the modified example, since the voice extraction unit 31 selectively inputs only the voice signal corresponding to the utterance period in which the utterance is made by the user to the voice recognition unit 33, the utterance content by the user is not included. It is not necessary to input the speech signal in the noise section to the speech recognition unit 33, and the speech recognition unit 33 can perform accurate speech recognition without being affected by noise.

また、変形例の音声認識装置においては、PTTスイッチ35から動作開始指令信号が入力されると同時に、低学習速度でLMS学習部25にフィルタ係数を学習させる手法を採用しているので、簡単な制御で確実に、フィルタ係数の誤学習を抑制することができる。   In the modified speech recognition apparatus, since the operation start command signal is input from the PTT switch 35 and the LMS learning unit 25 learns the filter coefficient at a low learning speed at the same time, a simple method is adopted. It is possible to reliably suppress erroneous learning of filter coefficients by the control.

その他、上記実施例の音声認識装置によれば、車載オーディオ機器7の動作によりスピーカ9から再生される音楽等のボリュームを調節しなくても、高精度に音声認識を行うことができるので、ボリューム調整などによって利用者に不満が及ぶといった従来問題を解消することができる。   In addition, according to the speech recognition apparatus of the above embodiment, since the volume of music or the like reproduced from the speaker 9 is not adjusted by the operation of the in-vehicle audio device 7, speech recognition can be performed with high accuracy. Conventional problems such as dissatisfaction with users due to adjustments can be solved.

以上、本発明の実施例について説明したが、本発明の雑音除去信号生成手段は、本実施例の適応フィルタ21に相当し、本発明の雑音除去手段は、減算部23に相当する。また、係数更新手段は、LMS学習部25に相当し、音声認識手段は、音声区間における音声信号z(t)を取得して音声認識を行う音声認識部33に相当する。   Although the embodiments of the present invention have been described above, the noise removal signal generating means of the present invention corresponds to the adaptive filter 21 of this embodiment, and the noise removal means of the present invention corresponds to the subtracting unit 23. The coefficient updating unit corresponds to the LMS learning unit 25, and the speech recognition unit corresponds to the speech recognition unit 33 that acquires the speech signal z (t) in the speech section and performs speech recognition.

その他、学習速度切替手段は、制御部37が図5に示す処理に従うタイミングで低速学習指令及び通常学習指令をLMS学習部25に入力する動作にて実現されている。尚、学習速度切替手段が、第二の学習速度で係数更新手段にフィルタ係数を学習させる動作は、本実施例において、LMS学習部25に、第二の学習速度に対応するパラメータμ=μLでフィルタ係数w’の演算を行わせる動作にて実現されている。また、学習速度切替手段が、第一の学習速度で係数更新手段にフィルタ係数を学習させる動作は、本実施例において、LMS学習部25に、第一の学習速度に対応するパラメータμ=μHでフィルタ係数w’の演算を行わせる動作にて実現されている。 In addition, the learning speed switching means is realized by an operation in which the control unit 37 inputs a low speed learning command and a normal learning command to the LMS learning unit 25 at a timing according to the processing shown in FIG. Note that the operation in which the learning speed switching means causes the coefficient updating means to learn the filter coefficient at the second learning speed is the parameter μ = μ L corresponding to the second learning speed in the LMS learning unit 25 in this embodiment. This is realized by the operation of calculating the filter coefficient w ′. In addition, the operation in which the learning speed switching unit causes the coefficient updating unit to learn the filter coefficient at the first learning speed causes the LMS learning unit 25 to use the parameter μ = μ H corresponding to the first learning speed in the present embodiment. This is realized by the operation of calculating the filter coefficient w ′.

また、本発明の音声認識装置は、上記実施例に限定されるものではなく、種々の態様を採ることができる。
例えば、制御部37は、少なくとも音声認識部33による音声信号の取得期間において、LMS学習部25の動作を禁止する、若しくは、LMS学習部25におけるフィルタ係数の学習速度を低速度化する構成にされていればよく、音声区間の終了後音声認識部33における音声認識が完了し、音声認識の結果が得られるまで、LMS学習部25によるフィルタ係数の学習を禁止してもよいし、低学習速度でLMS学習部25を動作させてもよい。
Moreover, the speech recognition apparatus of the present invention is not limited to the above-described embodiments, and can take various forms.
For example, the control unit 37 is configured to prohibit the operation of the LMS learning unit 25 or reduce the learning rate of the filter coefficient in the LMS learning unit 25 at least during the acquisition period of the audio signal by the audio recognition unit 33. And the learning of the filter coefficient by the LMS learning unit 25 may be prohibited until the speech recognition in the speech recognition unit 33 is completed and the result of speech recognition is obtained. The LMS learning unit 25 may be operated.

また、上記実施例では、フィルタ係数の学習方法としてLMS法、具体的にはNormalizedLMS(NLMS)アルゴリズムが採用された音声認識装置に、本発明を適用した例を示したが、その他の学習方法でフィルタ係数を学習する音声認識装置に本発明を適用しても構わない。尚、本発明を適用可能な学習方法としては、上述した適応アルゴリズム以外に、例えば、複素LMSアルゴリズム、FastLMS(FLMS)アルゴリズム、射影アルゴリズム、RLS(Recursive Least Square)アルゴリズム、SHARF(Simple Hyperstable Adaptive Recursive Filter)アルゴリズム、DCT(Discrete Cosine Transform)を用いた適応フィルタ、SAN(Single Frequency Adaptive Notch)フィルタ、ニューラルネットワーク、遺伝的アルゴリズム等が挙げられる。   In the above embodiment, an example in which the present invention is applied to a speech recognition apparatus that employs the LMS method, specifically, the Normalized LMS (NLMS) algorithm, as a filter coefficient learning method has been described. The present invention may be applied to a speech recognition apparatus that learns filter coefficients. As a learning method to which the present invention can be applied, in addition to the adaptive algorithm described above, for example, complex LMS algorithm, FastLMS (FLMS) algorithm, projection algorithm, RLS (Recursive Least Square) algorithm, SHARF (Simple Hyperstable Adaptive Recursive). ) Algorithm, adaptive filter using DCT (Discrete Cosine Transform), SAN (Single Frequency Adaptive Notch) filter, neural network, genetic algorithm, and the like.

本実施例の音声認識装置1の概略構成を表すブロック図である。It is a block diagram showing schematic structure of the speech recognition apparatus 1 of a present Example. 制御部37の処理動作を表すフローチャートである。7 is a flowchart illustrating a processing operation of a control unit 37. LMS学習部25が実行する学習処理を表すフローチャートである。It is a flowchart showing the learning process which the LMS learning part 25 performs. LMS学習部25の動作切替タイミングを表すタイムチャートである。3 is a time chart showing operation switching timing of an LMS learning unit 25. 変形例の制御部37における処理動作を表すフローチャートである。It is a flowchart showing the processing operation in the control part 37 of a modification. 変形例のLMS学習部25が実行する学習処理を表すフローチャートである。It is a flowchart showing the learning process which the LMS learning part 25 of a modification performs. 学習速度の切替タイミングを表すタイムチャートである。It is a time chart showing the switching timing of learning speed.

符号の説明Explanation of symbols

1…音声認識装置、3…カーナビゲーション装置、5…マイクロフォン、7…車載オーディオ機器、9…スピーカ、11,13…ADC、20…オーディオキャンセラ部、21…適応フィルタ、23…減算部、25…LMS学習部、31…音声抽出部、33…音声認識部、35…PTTスイッチ、37…制御部、39…音声合成部 DESCRIPTION OF SYMBOLS 1 ... Voice recognition apparatus, 3 ... Car navigation apparatus, 5 ... Microphone, 7 ... Car-mounted audio equipment, 9 ... Speaker, 11, 13 ... ADC, 20 ... Audio canceller part, 21 ... Adaptive filter, 23 ... Subtraction part, 25 ... LMS learning unit, 31 ... speech extraction unit, 33 ... speech recognition unit, 35 ... PTT switch, 37 ... control unit, 39 ... speech synthesis unit

Claims (4)

雑音源から入力される参照信号を、予め設定されたフィルタ係数に従い濾波することで、雑音を除去するための雑音除去信号を生成する雑音除去信号生成手段と、
該雑音除去信号生成手段が生成した前記雑音除去信号を用いて、マイクロフォンから入力される音声信号に含まれる雑音成分を除去し、その雑音除去後の音声信号を出力する雑音除去手段と、
該雑音除去手段が出力する音声信号に基づいて、前記雑音除去信号生成手段に設定すべきフィルタ係数を学習し、学習した結果得たフィルタ係数を、前記雑音除去信号生成手段に設定する係数更新手段と、
外部から動作開始指令が入力されると、所定期間、前記雑音除去手段から出力される音声信号を取得して、その音声信号に基づき、前記マイクロフォンに入力された音声を認識する音声認識手段と、
該音声認識手段の非動作時に、第一の学習速度で、前記係数更新手段にフィルタ係数を学習させ、前記音声認識手段が前記雑音除去手段から出力される音声信号を取得している期間には、前記第一の学習速度より低い第二の学習速度で、前記係数更新手段にフィルタ係数を学習させる学習速度切替手段と、
を備えることを特徴とする音声認識装置。
A noise removal signal generating means for generating a noise removal signal for removing noise by filtering a reference signal input from a noise source according to a preset filter coefficient;
Using the noise removal signal generated by the noise removal signal generation means, a noise removal means for removing a noise component included in a voice signal input from a microphone and outputting the voice signal after the noise removal;
Coefficient updating means for learning filter coefficients to be set in the noise removal signal generating means based on the audio signal output from the noise removing means, and setting the filter coefficients obtained as a result of learning in the noise removal signal generating means When,
When an operation start command is input from the outside, a voice recognition unit that acquires a voice signal output from the noise removal unit for a predetermined period and recognizes a voice input to the microphone based on the voice signal;
When the voice recognition means is not operating, the coefficient update means learns the filter coefficient at the first learning speed, and the voice recognition means acquires the voice signal output from the noise removal means. Learning speed switching means for causing the coefficient update means to learn the filter coefficient at a second learning speed lower than the first learning speed;
A speech recognition apparatus comprising:
前記学習速度切替手段は、前記動作開始指令が前記音声認識手段に入力されると同時に、前記音声認識手段が前記音声信号の取得を終了するまでの期間、前記第二の学習速度で、前記係数更新手段にフィルタ係数を学習させることを特徴とする請求項1に記載の音声認識装置。   The learning speed switching means is configured to apply the coefficient at the second learning speed for a period until the voice recognition means ends acquisition of the voice signal at the same time when the operation start command is input to the voice recognition means. The speech recognition apparatus according to claim 1, wherein the update means is made to learn the filter coefficient. 前記係数更新手段は、前記雑音除去手段が出力する音声信号に基づき、LMS法を用いて、前記雑音除去信号生成手段に設定すべきフィルタ係数を学習することを特徴とする請求項1又は請求項2に記載の音声認識装置。   2. The coefficient updating unit learns a filter coefficient to be set in the noise removal signal generation unit by using an LMS method based on an audio signal output from the noise removal unit. The speech recognition apparatus according to 2. 雑音源がオーディオ機器である請求項1〜請求項3のいずれかに記載の音声認識装置。   The speech recognition apparatus according to claim 1, wherein the noise source is an audio device.
JP2008240988A 2008-09-19 2008-09-19 Speech recognition apparatus Pending JP2009031809A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008240988A JP2009031809A (en) 2008-09-19 2008-09-19 Speech recognition apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008240988A JP2009031809A (en) 2008-09-19 2008-09-19 Speech recognition apparatus

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2002368441A Division JP2004198810A (en) 2002-12-19 2002-12-19 Speech recognition device

Publications (1)

Publication Number Publication Date
JP2009031809A true JP2009031809A (en) 2009-02-12

Family

ID=40402290

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008240988A Pending JP2009031809A (en) 2008-09-19 2008-09-19 Speech recognition apparatus

Country Status (1)

Country Link
JP (1) JP2009031809A (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012163788A (en) * 2011-02-07 2012-08-30 Jvc Kenwood Corp Noise cancellation apparatus and noise cancellation method
CN106796779A (en) * 2014-06-13 2017-05-31 美国思睿逻辑有限公司 System and method for selectively enabling and disabling the adjustment of self-adapted noise elimination system
US11183180B2 (en) 2018-08-29 2021-11-23 Fujitsu Limited Speech recognition apparatus, speech recognition method, and a recording medium performing a suppression process for categories of noise

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS60103400A (en) * 1983-11-11 1985-06-07 日産自動車株式会社 Voice recognitioin equipment
JPH09311698A (en) * 1996-05-21 1997-12-02 Oki Electric Ind Co Ltd Background noise eliminating apparatus
JP2001195085A (en) * 1999-11-05 2001-07-19 Alpine Electronics Inc Audio canceling device for speech recognition

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS60103400A (en) * 1983-11-11 1985-06-07 日産自動車株式会社 Voice recognitioin equipment
JPH09311698A (en) * 1996-05-21 1997-12-02 Oki Electric Ind Co Ltd Background noise eliminating apparatus
JP2001195085A (en) * 1999-11-05 2001-07-19 Alpine Electronics Inc Audio canceling device for speech recognition

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012163788A (en) * 2011-02-07 2012-08-30 Jvc Kenwood Corp Noise cancellation apparatus and noise cancellation method
CN106796779A (en) * 2014-06-13 2017-05-31 美国思睿逻辑有限公司 System and method for selectively enabling and disabling the adjustment of self-adapted noise elimination system
CN106796779B (en) * 2014-06-13 2020-12-22 美国思睿逻辑有限公司 System and method for selectively enabling and disabling adjustment of an adaptive noise cancellation system
US11183180B2 (en) 2018-08-29 2021-11-23 Fujitsu Limited Speech recognition apparatus, speech recognition method, and a recording medium performing a suppression process for categories of noise

Similar Documents

Publication Publication Date Title
JP4333369B2 (en) Noise removing device, voice recognition device, and car navigation device
JP2005084253A (en) Sound processing apparatus, method, program and storage medium
JP6545419B2 (en) Acoustic signal processing device, acoustic signal processing method, and hands-free communication device
JP2006163231A (en) Device, program, and method for noise elimination
KR20120072243A (en) Apparatus for removing noise for sound/voice recognition and method thereof
JP5431282B2 (en) Spoken dialogue apparatus, method and program
JP4520596B2 (en) Speech recognition method and speech recognition apparatus
JP2009527024A (en) Communication device with speaker-independent speech recognition
JP3907194B2 (en) Speech recognition apparatus, speech recognition method, and speech recognition program
JP4705414B2 (en) Speech recognition apparatus, speech recognition method, speech recognition program, and recording medium
JP2004198810A (en) Speech recognition device
JP2009031809A (en) Speech recognition apparatus
JP2018072599A (en) Voice recognition device and voice recognition method
JP2016061888A (en) Speech recognition device, speech recognition subject section setting method, and speech recognition section setting program
JP2019020678A (en) Noise reduction device and voice recognition device
JP2007292814A (en) Voice recognition apparatus
JP3270866B2 (en) Noise removal method and noise removal device
JPH1185185A (en) Voice recognition system and storage medium with voice recognition control program
JP4608670B2 (en) Speech recognition apparatus and speech recognition method
JP2006145694A (en) Voice recognition method, system implementing the method, program, and recording medium for the same
JP4924652B2 (en) Voice recognition device and car navigation device
JP2007058237A (en) Noise removing method
JP2010041188A (en) Speech recognition device
JP5025753B2 (en) Echo canceling apparatus and method
JP2005321539A (en) Voice recognition method, its device and program and its recording medium

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110705

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20111108