JP5109319B2 - Speech recognition device, speech recognition method, the mobile, and the robot - Google Patents

Speech recognition device, speech recognition method, the mobile, and the robot

Info

Publication number
JP5109319B2
JP5109319B2 JP2006262865A JP2006262865A JP5109319B2 JP 5109319 B2 JP5109319 B2 JP 5109319B2 JP 2006262865 A JP2006262865 A JP 2006262865A JP 2006262865 A JP2006262865 A JP 2006262865A JP 5109319 B2 JP5109319 B2 JP 5109319B2
Authority
JP
Grant status
Grant
Patent type
Prior art keywords
filter bank
microphone
speech recognition
output
noise component
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2006262865A
Other languages
Japanese (ja)
Other versions
JP2008085613A (en )
Inventor
生聖 渡部
Original Assignee
トヨタ自動車株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Grant date

Links

Images

Abstract

<P>PROBLEM TO BE SOLVED: To provide a voice recognition method capable of simply achieving accurate voice recognition, to provide a voice recognition device, to provide a mobile body using it, and to provide a robot. <P>SOLUTION: The voice recognition device comprises a voice detection microphone 121; a contact type microphone 122; and a voice recognition module 12 for recognizing a voice based on a received sound signal. The voice recognition module 12 comprises a frequency conversion part 21 for calculating a spectrum by transforming the received sound signal to a frequency domain; a filter bank analyzing part 22 for calculating a filter bank output by performing filter bank analysis to the spectrum; a noise component subtraction part 23 for calculating a noise component subtraction output based on a filter bank output; a recognition feature quantity conversion part 24 for converting a noise component subtraction output to a voice recognition feature quantity; and a voice recognition part 25 for performing voice recognition based on the voice recognition feature quantity. <P>COPYRIGHT: (C)2008,JPO&amp;INPIT

Description

本発明は、音声認識装置、音声認識方法、移動体、及びロボットに関し、特に詳しくは音声認識装置、及び音声認識方法、並びにその音声認識装置を用いた移動体、ロボットに関する。 The present invention, speech recognition device, speech recognition method, mobile, and to a robot, in particular details speech recognition device, and a speech recognition method, and the moving body using the voice recognition device, a robot.

利用者が発した音声に基づいて音声を認識して処理を行う音声認識装置が利用されている。 Speech recognition apparatus for performing a process to recognize speech based on the speech by the user is emitted are used. このような音声認識装置では、利用者が発した音声を認識して、認識された音声情報に応じた処理を行っている。 Such a voice recognition device recognizes the voice the user has issued is performed a process corresponding to the recognized speech information. 例えば、カーナビゲーションシステムでは、利用者が発した地名を認識して、その地名を目的地として設定する。 For example, in a car navigation system, to recognize the place name that the user has issued, to set the place name as the destination. あるいは、ロボットでは、ユーザが発した音声に応じて、所定の応答がなされる。 Alternatively, the robot, in response to the voice generated by a user, a predetermined response is performed. このような音声処理装置では、利用者が発した音声に加えて、周囲の雑音(ノイズ)がマイクロフォンに受音されてしまう。 In such voice processing apparatus, in addition to voice the user has issued, the ambient noise (noise) from being received sound to the microphone. 従って、この雑音を除去することで、利用者が発した音声を正確に認識することができる。 Therefore, by removing the noise, it is possible to accurately recognize the voice the user has issued.

このような雑音を低減するためのノイズ低減方法が開示されている(特許文献1参照)。 Noise reduction method for reducing such noise have been disclosed (see Patent Document 1). このノイズ低減方法では、音声を受音するマイクとともに、振動を検出するセンサが使用されている。 In the noise reduction method is provided with a microphone for sound reception sound, a sensor for detecting vibration is used. また、センサの出力信号からノイズ帯域を抽出するノイズ抽出手段が設けられている。 Further, noise extracting means for extracting a noise bandwidth is provided from the output signal of the sensor. そして、ノイズ抽出手段からの出力信号を参照入力信号とする時間領域の適応フィルタを用いて、マイクの出力信号からノイズを低減している。 Then, by using the adaptive filter in the time domain to the reference input signal an output signal from the noise extraction means, thereby reducing the noise from the output signal of the microphone. さらに、この時間領域の適応フィルタを更新して、ノイズを低減している。 Further, by updating the adaptive filter of the time domain, thereby reducing the noise.

特開2005−57437号公報 JP 2005-57437 JP

しかしながら、特許文献1のノイズ低減方法では、時間領域の適応フィルタを用いるため、フィルタ更新頻度、及び雑音推定精度の条件がシビアになる。 However, the noise reduction method of Patent Document 1, for using an adaptive filter in the time domain, filter update frequency, and the noise estimation accuracy of the conditions become severe. よって、演算処理の負荷が大きくなり、リアルタイムの処理を行うことが困難になってしまうという問題点がある。 Therefore, the load of the calculation processing is increased, there is a problem that it is possible to perform real-time processing becomes difficult. さらに、上記のノイズ低減方法をロボットや車などの移動体に用いた場合、音声認識を誤ってしまうことがある。 Furthermore, when using the above-described noise reduction method in a mobile object such as a robot or a car, may sometimes incorrectly speech recognition. すなわち、ロボットや車などの移動体では、移動体の移動に伴って、ノイズが急激かつ頻繁に変化する。 That is, in the mobile object such as a robot or a car, with the movement of the moving body, noise changes rapidly and frequently. 例えば、ロボットが歩行する、首を振る、車が加減速するタイミングでは、ノイズが急激に発生する。 For example, the robot is walking, shaking his head, car at the timing of acceleration and deceleration, the noise suddenly occurs. 従って、上記の時間領域の適応フィルタでは、原信号に歪みが生じ、音声が誤認識されてしまうという問題点がある。 Thus, the adaptive filter of the time domain, distortion occurs in the original signal, there is a problem that the sound from being erroneously recognized.

本発明は、かかる課題を解決するためになされたものであり、正確な音声認識を簡便に行なうことができる音声認識方法、音声認識装置、並びにそれを用いた移動体、ロボットを提供することを目的とする。 The present invention has been made to solve the above problems, the speech recognition method capable of performing accurate speech recognition conveniently, voice recognition device, and the moving body using it, to provide a robot for the purpose.

本発明の第1の態様にかかる音声認識装置は、第1のマイクと、受音側を接触させて用いる接触型の第2のマイクと、前記第1のマイクから出力された第1の受音信号と、前記第2のマイクから出力された第2の受音信号とに基づいて音声を認識する音声認識モジュールと、を備える音声認識装置であって、前記音声認識モジュールが、前記第1の受音信号を周波数領域に変換して第1のスペクトルを算出し、かつ前記第2の受音信号を周波数領域に変換して第2のスペクトルを算出する周波数変換部と、前記第1のスペクトルに対してフィルタバンク分析を行い第1のフィルタバンク出力を算出し、かつ前記第2のスペクトルに対して前記フィルタバンク分析を行い第2のフィルタバンク出力を算出するフィルタバンク分析部と、前記第1 Speech recognition apparatus according to the first aspect of the present invention includes a first microphone, a second microphone contact for use in contact with the sound receiving side, the first received output from the first microphone a speech recognition apparatus and a speech recognition module recognizing a speech based sound signal, and a second received sound signal outputted from said second microphone, the voice recognition module, the first the received sound signals to calculate a first spectrum is converted into the frequency domain, and a frequency conversion unit for calculating a second spectrum by converting the second received sound signal into the frequency domain, the first of a filter bank analyzer which calculates a first filter bank output performs filter bank analysis, and calculates the filter bank analysis was carried out the second filter bank output to the second spectral relative spectral, wherein first び第2のフィルタバンク出力に基づいて雑音成分を減算して、雑音成分減算出力を算出する雑音成分減算部と、前記雑音成分減算出力を音声認識特徴量に変換する認識特徴量変換部と、前記音声認識特徴量に基づいて音声認識を行なう音声認識部と、を備えたものである。 Beauty by subtracting the noise component based on the second filter bank output, a noise component subtraction section for calculating a noise component subtraction output, and recognition feature transformation unit for converting the noise component subtraction output to the speech recognition features, it is obtained and a speech recognition unit which performs speech recognition on the basis of the speech recognition features. これにより、簡便に音声を認識することができる。 This makes it possible to easily recognize the voice.

本発明の第2の態様にかかる音声認識装置は、上記の音声認識装置であって、前記雑音成分減算部が、同じタイミングの雑音成分を含む第1及び第2のフィルタバンク出力に基づいて雑音成分を減算することを特徴とするものである。 Speech recognition apparatus according to a second aspect of the present invention is the above-described speech recognition apparatus, the noise component subtraction unit, the noise on the basis of the first and second filter bank output including noise components of the same timing it is characterized in that subtracts the component. これにより、より正確に音声を認識することができる。 Thus, it is possible to recognize the speech more accurately.

本発明の第3の態様にかかる音声認識装置は、上記の音声認識装置であって、前記接触型マイクがNAMマイクロフォンであることを特徴とするものである。 Speech recognition apparatus according to the third aspect of the present invention is the above-described speech recognition apparatus, the contact-type microphone is characterized in that a NAM microphone. これにより、雑音成分を効果的に除去することができる。 Thus, it is possible to effectively remove noise components.

本発明の第4の態様にかかる音声認識装置は、上記の音声認識装置であって、前記フィルタバンク分析に用いられるフィルタでフィルタ処理された前記第1及び第2のスペクトルの周波数領域における面積に基づいて前記第1及び第2のフィルタバンク出力が算出されていることを特徴とするものである。 Fourth speech recognition apparatus according to an aspect of the present invention is the above-described speech recognition device, the area of ​​the first and second frequency region of the spectrum filtered by the filter used in the filter bank analysis is characterized in that said first and second filter bank output is calculated based on.

本発明の第5の態様にかかる移動体は、上記の音声認識装置を備えるものである。 Moving body according to a fifth aspect of the present invention is provided with the above-described speech recognition device. これにより、移動体における音声認識を簡便に行なうことができる。 This makes it possible to carry out conveniently speech recognition in a mobile.

本発明の第6の態様にかかる移動体は、上記の移動体であって、振動源となる駆動機構を備え、前記駆動機構に対して前記接触型マイクが取り付けられているものである。 Moving body according to a sixth aspect of the present invention is a moving body of the above, a drive mechanism for the vibration source, the one in which the contact-type microphone is attached to the drive mechanism. これにより、振動が急激に変化する場合でも、雑音成分を効果的に除去することができる。 Thus, even if the vibration is rapidly changed, it is possible to effectively remove noise components.

本発明の第7の態様にかかるロボットは、上記の音声認識装置を備えたロボットであって、前記第1のマイクが外部環境の音を受音し、前記第2のマイクがロボット内部の音を受音し、前記第1のマイクからの第1の受音信号と、前記第2のマイクからの第2の受音信号とに基づいて、外部環境から得られた音声を認識することを特徴とするものである。 Robot according to a seventh aspect of the present invention is a robot having the above-described speech recognition apparatus, the first microphone to the sound receiving sound of the external environment, the second microphone is inside the robot sound It was received sound, the first received sound signal from the first microphone, based on the second received sound signal from the second microphone, to recognize speech obtained from the external environment it is an feature. これにより、ロボットにおける音声認識を簡便に行なうことができる。 Thus, it is possible to perform the speech recognition in a robot conveniently.

本発明の第8の態様にかかるロボットは、上記のロボットであって、前記ロボットを駆動するためのモータが前記ロボット内部に設けられ、前記接触型マイクが前記モータに対して取り付けられているものである。 Robot according to an eighth aspect of the present invention is the above-described robot, the motor is provided inside the robot for driving the robot, which the contact type microphone is attached to the motor it is. これにより、モータ駆動に起因する雑音成分を効果的に除去することができる。 Thus, it is possible to effectively remove the noise component caused by motor driving.

本発明の第9の態様にかかる移動体は、上記の移動体であって、振動源となる動力機構を備え、前記移動体が、前記動力機構としてエンジンを備えた自動車であることを特徴とするるものである。 Moving body according to a ninth aspect of the present invention, said the a mobile of the above, with the power mechanism as a vibration source, wherein the moving body is a vehicle with an engine as the power mechanism those Ruru be. これにより、自動車における音声認識を簡便に行なうことができる。 This makes it possible to easily perform the speech recognition in the automotive.

本発明の第10の態様にかかる移動体は、上記の移動体であって、前記接触型マイクが前記自動車のエンジンに対して取り付けられていることを特徴とするものである。 Tenth moving body according to the aspect of the present invention is a moving body of the above, the contact microphone is characterized in that attached to the automobile engine. これにより、エンジンに駆動に起因する雑音成分を効果的に除去することができる。 Thus, it is possible to effectively remove the noise component caused by driving the engine.

本発明の第11の態様にかかる音声認識方法は、第1のマイクからの第1の受音信号を周波数領域に変化して、第1のスペクトルを算出するステップと、受音側を接触させて用いる接触型の第2のマイクからの第2の受音信号を周波数領域に変換して、第2のスペクトルを算出するステップと、前記第1のスペクトルにフィルタバンク分析を行い、第1のフィルタバンク出力を算出するステップと、前記第2のスペクトルにフィルタバンク分析を行い、第2のフィルタバンク出力を算出するステップと、前記第1及び第2のフィルタバンク出力に基づいて、雑音成分を減算して、雑音成分減算出力を算出するステップと、前記雑音成分減算出力を音声認識特徴量に変換するステップと、前記音声認識特徴量に基づいて音声認識を行なうステッ 11th speech recognition method according to an aspect of the present invention, the first received sound signal from the first microphone changes in the frequency domain, calculating a first spectrum, contacting the sound receiving side the second received sound signal from the contact-type second microphone used Te is converted into frequency domain, and calculating a second spectrum, performs filter bank analysis on the first spectrum, the first calculating a filter bank output, performs a filter bank analysis on the second spectrum, calculating a second filter bank output, based on said first and second filter bank output, a noise component subtraction to performs the steps of calculating a noise component subtraction output, converting the noise component subtraction output to the speech recognition features, voice recognition on the basis of the speech recognition features step とを備えたものである。 It is those with a door.

本発明の第12の態様にかかる音声認識方法は、上記の音声認識方法であって、前記雑音成分減算出力を算出するステップでは、同じタイミングの雑音成分を含む第1及び第2のフィルタバンク出力に基づいて、雑音成分を減算することを特徴とするものである。 Speech recognition method according to a twelfth aspect of the present invention is the above-described speech recognition process, the step of calculating the noise component subtraction output, first and second filter bank output including noise components of the same timing based on, it is characterized in that subtracts the noise component. これにより、より正確に音声を認識することができる。 Thus, it is possible to recognize the speech more accurately.

本発明の第13の態様にかかる音声認識方法は、上記の音声認識方法であって、前記フィルタバンクに含まれるフィルタでフィルタ処理された前記第1及び第2のスペクトルの周波数領域における面積に基づいて前記第1及び第2のフィルタバンク出力が算出されていることを特徴とするものである。 Speech recognition method according to a thirteenth aspect of the present invention is the above-described speech recognition process, based on the area of ​​the first and second frequency region of the spectrum is filtered by a filter included in the filter bank and it is characterized in that it is calculated the first and second filter bank output is Te. これにより、簡便に雑音除去することができる。 Thus, it is possible to easily denoising.

本発明によれば、正確な音声認識を簡便に行なうことができる音声認識方法、音声認識装置、並びにそれを用いた移動体、ロボットを提供することができる。 According to the present invention, it is possible to provide a speech recognition method capable of performing accurate speech recognition conveniently, voice recognition device, and the moving body using it, a robot.

本実施の形態にかかる移動体について図1を用いて説明する。 The mobile body according to the present embodiment will be described with reference to FIG. 図1は移動体の構成を模式的に示す外観図である。 Figure 1 is an external view showing a configuration of a mobile schematically. 本実施の形態では、移動体100が、ユーザが発した音声に基づいて応答する対話ロボットとして説明する。 In this embodiment, the moving body 100 will be described as an interactive robot that responds based on the sound generated by a user. 移動体100は、車輪2と、筐体3と、を備えている。 The moving body 100 includes a wheel 2, a housing 3, a. そして、筐体3の内部には、車輪2と接続されたモータが設けられている。 Then, inside the housing 3, a motor connected to the wheel 2 is provided. このモータが移動体100を移動させるための駆動機構となる。 The motor is a drive mechanism for moving the moving body 100. モータを駆動することによって、車輪2が回転して、移動体100が移動する。 By driving the motor, the wheel 2 rotates, the moving body 100 moves. さらに、移動体100は、音声検出マイク121、及び接触型マイク122を備えている。 Further, the moving body 100 includes a sound detection microphone 121 and contact microphone 122,. 音声検出マイク121、及び接触型マイク122からの受音信号に基づいて音声認識処理を行う。 Performing speech recognition processing based on the received sound signals from the sound detection microphone 121 and contact microphone 122,. そして、図示しないスピーカによって、認識された音声に応じた応答を返す。 Then, by an unillustrated speaker and returns a response corresponding to the recognized speech.

次に、移動体100の制御系について図2を用いて説明する。 Will now be described with reference to FIG. 2 the control system of the moving body 100. 移動体100は、制御部101、入出力部102、駆動部103、電源部104、及び外部記憶部105などを有している。 The moving body 100 includes a control unit 101, input unit 102, the driving unit 103, and the like power supply unit 104, and an external storage unit 105. これらは、例えば、筐体3の内部に設けられている。 These are, for example, it is provided in the housing 3.

入出力部102は、周囲の音を受音するための音声検出マイク121、及び接触型マイク122を備えている。 Output unit 102 includes a speech detection microphone 121 and contact microphone 122, for sound receiving ambient sounds. さらに、移動体100は、音声を出力してユーザと対話等を行なうためのスピーカ123、ユーザへの応答や感情等を表現するためのLED124、タッチセンサなどからなるセンサ部125などを備える。 Further, the moving body 100 is provided with a sensor unit 125 made of LED package 124, a touch sensor for expressing a speaker 123, the response and feelings like to a user for performing dialogues with the user by outputting audio.

駆動部103は、モータ131及びモータ131を駆動するドライバ132などを有し、ユーザの指示などに従って車輪2を回転させる。 Drive unit 103 has a like driver 132 for driving the motor 131 and the motor 131 rotates the wheel 2 in accordance with such user's instruction. これにより、移動体100が所定の位置まで移動する。 Thus, the moving body 100 is moved to a predetermined position. モータ131は移動体100の内部に取り付けられている。 Motor 131 is mounted inside the mobile unit 100. 電源部104は、バッテリ141及びその放充電を制御するバッテリ制御部142を有し、各部に電源を供給する。 Power unit 104 includes a battery control unit 142 for controlling the battery 141 and its discharge-charge, and supplies power to each unit.

外部記憶部105は、着脱可能なHDD、光ディスク、光磁気ディスク等からなり、各種プログラムや制御パラメータなどを記憶し、そのプログラムやデータを必要に応じて制御部101内のメモリ(不図示)等に供給する。 The external storage unit 105, removable HDD, optical disc, made from the magneto-optical disk, etc., etc. and stores various programs and control parameters, the memory of the program and the data control unit 101 as necessary (not shown) supplied to.

制御部101は、CPU(Central Processing Unit)、ROM(Read Only Memory)、RAM(Random Access Memory)、通信用のインターフェースなどを有し、移動体100の各種動作を制御する。 Control unit 101, CPU (Central Processing Unit), ROM (Read Only Memory), RAM (Random Access Memory), have such interfaces for communication, and controls various operations of the mobile body 100. そして、この制御部101は、例えばROMに格納された制御プログラムに従って音声認識を行なう音声認識モジュール12、認識結果に基づきユーザに発話動作をする音声発話モジュール13を有する。 Then, the control unit 101, an audio speech module 13 for the speech operation to the user based on the voice recognition module 12, the recognition result of speech recognition in accordance with a control program stored, for example, in ROM.

次に、音声検出マイク121と接触型マイク122の一例について説明する。 Next, an example of a contact type microphone 122 and sound detecting microphone 121. 例えば、音声検出マイク121として、コンデンサーマイクロフォンを用いることができる。 For example, as a sound detection microphone 121 can be used a condenser microphone. 音声検出マイク121は、ユーザの発した音声を受音する。 Voice detection microphone 121 sound receiving the sound produced by the user. すなわち、音声検出マイク121は空気振動を検出して、空気を伝播した音声を受音する。 That is, the sound detecting microphone 121 detects the air vibrations to the sound receiving sound propagated through air. そして、音声検出マイク121は受音した音声に基づく受音信号を出力する。 The voice detection microphone 121 outputs a received sound signal based on sound and received sound. しかしながら、音声検出マイク121は、モータ131などによって発生する機械的な振動も検出してしまう。 However, the sound detecting microphone 121, would detect the mechanical vibration generated by a motor 131. すなわち、モータ131が回転することによって発生する機械的な振動が空気を伝播して、音声検出マイク121で検出されてしまう。 That is, mechanical vibration motor 131 is generated by the rotating and propagating air, it would be detected by the speech detection microphone 121. そこで、周囲の雑音(ノイズ)を低減するために接触型マイク122が設けられている。 Therefore, the contact-type microphone 122 is provided in order to reduce ambient noise (noise). 接触型マイク122は受音部が接触された状態で使用されるものである。 Contact microphone 122 is intended to be used in a state where the sound receiving unit is touched. この接触型マイク122として、例えば、NAM(Non-Audible Murmur)マイクロフォンが用られる。 As a contact type microphone 122, for example, NAM (Non-Audible Murmur) microphone is use. NAMマイクである接触型マイク122は、通常の音声に加えて、非可聴つぶやき音を受音することができる。 Contact microphone 122 is NAM microphone, in addition to the normal voice and sound receiving the non-audible murmurs sound. この接触型マイク122の構成について図3を用いて説明する。 The configuration of the contact type microphone 122 is described with reference to FIG. 図3は、接触型マイク122の構成を示す側面断面図である。 Figure 3 is a side sectional view showing the structure of a contact type microphone 122.

接触型マイク122は、遮音カバー31と、ゴム32と、ソフトシリコーン33と、コンデンサーマイクロフォン34と、導線35とを備えている。 Contact microphone 122, a sound insulation cover 31, a rubber 32, a soft silicone 33, the condenser microphone 34, and a conductor 35. コンデンサーマイクロフォン34は所定の間隔を隔てた2枚の電極を有している。 Condenser microphone 34 has two electrodes at a predetermined interval. そして、コンデンサーマイクロフォン34は、電極間容量の変化で音声振動を検知する。 The condenser microphone 34 detects the sound vibrations by a change in the inter-electrode capacitance. すなわち、振動が加わると、コンデンサーマイクロフォン34の電極間距離が変化する。 That is, when the vibration is applied, the distance between electrodes of the condenser microphone 34 is changed. これにより、コンデンサーの容量が変化するため、音声振動を検知することができる。 Thus, the capacitance of the capacitor is changed, it is possible to detect the sound vibrations. コンデンサーマイクロフォン34の反受音側からは、導線35が延びている。 From the anti-sound receiving side of the condenser microphone 34, wires 35 extend. この導線35は複数設けられている。 The conductor 35 is provided with a plurality. そして、導線35を介して、コンデンサーマイクロフォン34に所定の電圧を印加する。 Then, via conductor 35, a predetermined voltage is applied to the condenser microphone 34. これにより、導線35を介してコンデンサーマイクロフォン34からの出力信号が電気信号として伝達される。 Thus, the output signal from the condenser microphone 34 via a line 35 is transmitted as an electric signal. コンデンサーマイクロフォン34の受音側には、ソフトシリコーン33が設けられている。 The sound receiving side of the condenser microphone 34, soft silicone 33 is provided. そして、ソフトシリコーン33とコンデンサーマイクロフォン34とを収納するように遮音カバー31が設けられている。 Then, the sound insulation cover 31 is provided to house the soft silicone 33 and the condenser microphone 34. 遮音カバー31は、例えば、金属、又は樹脂で形成される。 Sound insulation cover 31 is formed, for example, a metal, or resin. 遮音カバー31の受音側は開口している。 Sound receiving side of the sound insulation cover 31 is open. 遮音カバー31とソフトシリコーン33との間には、ゴム32が設けられている。 Between the sound insulation cover 31 and the soft silicone 33, rubber 32 is provided. なお、遮音カバー31とソフトシリコーン33の間には、ゴム32の代わりに外部雑音を防音するための空間が形成されていてもよい。 Incidentally, between the sound insulating cover 31 and the soft silicone 33, the external noise space may be formed for soundproofing instead of the rubber 32. この遮音カバー31によって、外部雑音が遮断される。 This sound insulation cover 31, the external noise is blocked.

ここで、遮音カバー31の受音側が開口されているため、接触型マイク122の受音側ではソフトシリコーン33が露出している。 Here, since the sound receiving side of the sound insulation cover 31 is opened, the soft silicone 33 in the sound receiving side of the contact microphone 122 is exposed. このソフトシリコーン33が露出している部分を受音部30とする。 The portion where the soft silicone 33 is exposed to the sound receiving unit 30. 接触型マイク122は、受音部30が対象物に接触した状態で使用される。 Contact microphone 122, sound receiving unit 30 is used in contact with the object. 本実施の形態では、雑音を検出するため、振動源36に受音部30を接触させる。 In this embodiment, for detecting noise, contacting the sound receiving unit 30 to the vibration source 36. 振動源36が機械的に駆動すると、空気が振動するため、音声に対する雑音が発生する。 When vibration source 36 is mechanically driven, since the air is vibrated, noise is generated for the audio. この、機械的振動による雑音を効率よく検出するため、接触型マイクを振動源36に直接接触させる。 This, in order to efficiently detect the noise due to mechanical vibrations, a contact microphone is in direct contact with the vibration source 36. 従って、振動源36で発生した機械的振動は、ソフトシリコーン33を伝播して、コンデンサーマイクロフォン34で検出される。 Thus, the mechanical vibration generated by the vibration source 36 propagates through the soft silicone 33 is detected by the condenser microphone 34. 接触型マイク122は、受音部30に対する機械的な振動を検出している。 Contact microphone 122 detects the mechanical vibration on the sound receiving portion 30.

このように、接触型マイク122を振動源36と接触させる。 Thus, the contact-type microphone 122 is contacted with a vibration source 36. ここで、本実施の形態にかかる移動体100では、駆動用のモータ131が振動源36となる。 Here, the moving body 100 according to this embodiment, the motor 131 for driving the vibration source 36. すなわち、モータ131が駆動すると、モータ131の回転によって空気が振動して雑音が発生する。 That is, when the motor 131 is driven, noise is generated air is vibrated by the rotation of the motor 131. この雑音は、音声検出マイク121に検出されてしまう。 This noise would be detected in the sound detecting microphone 121. モータ131による雑音を除去するため、接触型マイク122を用いている。 To remove the noise due to the motor 131, and using a contact type microphone 122. モータ131で発生する機械的振動が空気を介さずに、接触型マイク122で検出される。 Mechanical vibration generated by the motor 131 without passing through the air, is detected by the contact-type microphone 122. これにより、雑音を効率よく受音することができる。 This makes it possible to efficiently sound reception noise. なお、接触型マイク122は、振動源36に対して取り付けられていればよく、例えば、振動源36となるモータ131に、剛体を介して接触させてもよい。 The contact-type microphone 122 has only to be attached to the vibration source 36, for example, a motor 131 serving as a vibration source 36 may be contacted through the rigid body. 具体的には、モータ131をモータカバーなどで囲む場合、接触型マイク122をモータカバーに接触させてもよい。 Specifically, when surrounding the motor 131 such as a motor cover, a contact microphone 122 may be brought into contact with the motor cover.

ここで、本実施の形態にかかる移動体100は、ユーザ又はオペレータの呼びかけ等の音声を認識し、音声認識結果に基づき応答する対話ロボットである。 Here, the moving body 100 according to this embodiment recognizes the voice, such as calling the user or operator, an interactive robot that responds on the basis of the speech recognition result. そして、上記の音声検出マイク121、接触型マイク122、及び音声認識モジュール12が音声認識装置を構成する。 Then, the above-mentioned voice detection microphone 121, contact microphone 122, and a voice recognition module 12 constitute the speech recognition device. 次に、本実施の形態にかかる音声認識装置について図3を用いて説明する。 Next, the speech recognition apparatus according to the present embodiment will be described with reference to FIG.

図4は、音声認識装置の構成を示すブロック図である。 Figure 4 is a block diagram showing a configuration of a speech recognition device. 音声認識装置は、音声検出マイク121と、接触型マイク122と、音声認識モジュール12とを備えている。 Speech recognition apparatus includes a speech detection microphone 121, a contact-type microphone 122, and a voice recognition module 12. 音声認識モジュール12は、周波数変換部21、フィルタバンク分析部22、雑音成分減算部23、及び認識特徴量変換部24を備え、音声検出マイク121、及び接触型マイク122からの受音信号に対して所定の処理を行う。 Speech recognition module 12, the frequency converter 21, the filter bank analysis unit 22, the noise component subtraction section 23, and includes a recognition feature transformation unit 24, with respect to received sound signals from the sound detection microphone 121 and contact microphone 122, It performs a predetermined processing Te. なお、音声検出マイク121から出力される信号を第1の受音信号とし、接触型マイク122から出力される受音信号を第2の受音信号とする。 Incidentally, the signal outputted from the sound detecting microphone 121 and the first received sound signal and a received sound signal outputted from the contact microphone 122 and the second received sound signal. もちろん、受音信号は、アンプなどによって増幅されていてもよい。 Of course, the received sound signal may be amplified by an amplifier.

周波数変換部21は、周波数変換部21a、及び周波数変換部21aを備えている。 Frequency converter 21 includes a frequency conversion section 21a, and the frequency converter 21a. 音声検出マイク121から出力された第1の受音信号は、周波数変換部21aで周波数領域に変換され、接触型マイク122から出力された第2の受音信号は、周波数変換部21bで周波数領域に変換される。 First received sound signal outputted from the sound detecting microphone 121 is converted into the frequency domain by the frequency conversion unit 21a, a second received sound signal outputted from the contact-type microphone 122, the frequency domain by the frequency converter unit 21b It is converted to. 例えば、周波数変換部21は、受音信号をAD変換してデジタル信号にする。 For example, the frequency converter 21 to a digital signal received sound signal by AD conversion. そして、デジタル化された離散的な受音信号に、離散フーリエ変換(DFT)を行なう。 Then, the digitized discrete received sound signal, performing discrete Fourier transform (DFT). 例えば、周波数変換部21は、高速フーリエ変換(FFT)を行い、受音信号を周波数領域に変換する。 For example, the frequency converting unit 21 performs a fast Fourier transform (FFT), converts the received sound signal into the frequency domain. これにより、受音信号のパワースペクトルが得られる。 Thus, the power spectrum of the received sound signal. なお、第1の受音信号対応するパワースペクトルを第1のパワースペクトルとし、第2の受音信号に対応するパワースペクトルを第2のパワースペクトルとする。 Incidentally, the first received sound signal corresponding power spectrum as a first power spectrum, the power spectrum corresponding to the second received sound signal and the second power spectrum.

フィルタバンク分析部22は、複数のフィルタを有するフィルタバンクを用いて、パワースペクトルに対するフィルタバンク分析を行う。 Filter bank analysis unit 22 uses a filter bank having a plurality of filters, performing filterbank analysis on the power spectrum. 具体的には、フィルタバンク分析部22aが第1のパワースペクトルに対してフィルタバンク分析を行い、フィルタバンク分析部22bが第2のパワースペクトルに対してフィルタバンク分析を行う。 Specifically, the filter bank analyzer 22a performs the filter bank analysis on the first power spectrum, a filter bank analysis unit 22b performs a filter bank analysis on the second power spectrum. 例えば、周波数変換部21において、図5に示すパワースペクトルが得られたとする。 For example, in the frequency converting unit 21, and was obtained power spectrum shown in FIG. なお、図5では、横軸が周波数f(Hz)を示し、縦軸が信号強度(dB)を示している。 In FIG. 5, the horizontal axis represents the frequency f (Hz), the vertical axis indicates the signal strength (dB). そして、図5に示す三角形状のメルフィルタ(三角窓)を複数するフィルタバンクを用いて、フィルタバンク分析を行う。 Then, using a filter bank for a plurality of triangular mel filter shown in FIG. 5 (triangular window), and a filter bank analysis. ここで、メルフィルタは、メル周波数上で等間隔に配置される。 Here, Mel filter is arranged at equal intervals on the mel frequency. メル周波数とは、音の高低に対する人間の感覚尺度であり、次の式で表される。 The Mel frequency, a human senses measure for the level of the sound is expressed by the following equation.
Mel(f)=2595log 10 (1+f/700) Mel (f) = 2595log 10 ( 1 + f / 700)

図5では、4つのメルフィルタが示されている。 In Figure 5, there is shown a four Mel filter. 4つのメルフィルタはメル周波数上で等間隔に配置されている。 Four Mel filters are arranged at equal intervals on the mel frequency. そのため、実際の周波数上では周波数が高くなる程、三角形の底辺が長くなる。 Therefore, as the frequency is higher than on the actual frequency, the base of the triangle is longer. すなわち、周波数が高くなる程、1つのフィルタに含まれる帯域が広くなる。 That, as the frequency increases, the band included in one filter is widened. 従って、高周波領域に対して鈍感になる。 Therefore, insensitive to high frequency range. フィルタバンクに含まれる各フィルタは隣のフィルタの一部と重複する帯域を有している。 Each filter contained in the filter bank has a band that overlaps with a portion of the adjacent filter. このように、フィルタバンク分析部22は異なる特性を有する複数のフィルタを用いてフィルタ処理を行う。 Thus, to filter by using a plurality of filters having a filter bank analyzer 22 different properties. なお、フィルタバンクに含まれるフィルタの数は4に限られるものではない。 The number of filters included in the filter bank is not limited to four. 実際には10〜数10個のフィルタを用いることができる。 In practice, it is possible to use 10 to number 10 of the filter. 例えば、12個のフィルタを用いて、0Hz〜8Hzまでを12の帯域に分割している。 For example, using a twelve filter is divided up 0Hz~8Hz the band 12. また、メルフィルタ以外のフィルタを用いてフィルタバンク分析を行ってもよい。 It may also be carried out filter bank analysis with a filter other than Mel filter.

フィルタバンク分析部22は、パワースペクトルに対してフィルタバンク出力を求める。 Filter bank analysis unit 22 obtains the filter bank output to the power spectrum. そのため、フィルタバンク分析部22は、スペクトルパワー和を算出する。 Therefore, the filter bank analysis unit 22 calculates the spectral power sum. そのため、フィルタバンク分析部22は、まず、パワースペクトルに対して各フィルタでフィルタ処理を行なう。 Therefore, the filter bank analyzer 22 first performs a filtering process on each filter to the power spectrum. すなわち、フィルタである三角窓によってパワースペクトルに重み付けを行なう。 That is, for weighting the power spectrum by the triangular window is a filter. 具体的には、三角形状のフィルタと、そのフィルタに含まれるパワースペクトルの値との積を離散的に求める。 Specifically, a triangular filter, a product of the value of the power spectrum contained in the filter discretely determined. すなわち、フィルタに含まれる周波数毎に、信号強度とフィルタの積が算出される。 That is, for each frequency contained in the filter, the product of the signal intensity and the filter is calculated. ここでは、フィルタに含まれる離散的なパワースペクトルの値の数だけ、積が算出される。 Here, the number of discrete power spectrum of the values ​​contained in the filter, the product is calculated. さらに、フィルタバンク分析部22は、フィルタに含まれる帯域全体における積を足し合わせる。 Further, the filter bank analysis unit 22 sums the product in the entire band included in the filter. この積の和がスペクトルパワー和となる。 The sum of this product is the spectral power sum. 従って、各フィルタ毎に、パワースペクトルに応じた一つのスペクトルパワー和が算出される。 Thus, for each filter, the spectral power sum of one in accordance with the power spectrum is calculated. 例えば、4つのフィルタを用いたフィルタバンク分析では、4つのスペクトルパワー和が算出される。 For example, the filter bank analysis with four filters, four spectral power sum is calculated. そして、この4つのスペクトルパワー和がフィルタバンク出力となる。 Then, the four spectral power sum to the filter bank output. なお、スペクトルパワー和は、フィルタ処理されたパワースペクトルの周波数領域における面積を示してる。 Incidentally, the spectral power sum represents the area in the filtered frequency domain power spectrum was. 従って、スペクトルパワー和は、フィルタ処理されたパワースペクトルの周波数領域における面積に基づいた値となる。 Therefore, the spectral power sum becomes a value based on the area in the filtered frequency domain power spectrum was.

このように、フィルタバンク分析部22は、パワースペクトルに対してフィルタバンク分析を行い、フィルタバンク出力を算出する。 Thus, the filter bank analysis unit 22 performs a filter bank analysis on the power spectrum, calculates the filter bank output. ここで、第1のパワースペクトルに対するフィルタバンク出力を第1のフィルタバンク出力とし、第2のパワースペクトルに対するフィルタバンク出力を第2のフィルタバンク出力とする。 Here, the filter bank output for the first power spectrum and the first filter bank output, a filter bank output for the second power spectrum and the second filter bank output. なお、フィルタバンク分析部22aとフィルタバンク分析部22bとでは、同じフィルタバンクが用いられている。 In the filter bank analyzer 22a and a filter bank analysis unit 22b, the same filter bank is used. よって、第1及び第2のフィルタバンク出力には、同じ数のスペクトルパワー和が含まれる。 Therefore, the first and second filter bank output, includes spectral power sum of the same number. フィルタバンク出力に含まれるスペクトルパワー和は、受音信号の特徴に基づく(メル)周波数領域の成分となる Spectral power sum included in the filter bank output is to be based on the characteristics of the received sound signal (Mel) frequency domain components of the

ここで、図4の説明に戻る。 Now, the description returns to FIG. 第1及び第2のフィルタバンク出力は、雑音成分減算部23に入力される。 First and second filter bank output is input to the noise component subtraction section 23. 雑音成分減算部23は、第1のフィルタバンク出力から第2のフィルタバンク出力を成分減算することによって、第1のフィルタバンク出力から雑音成分を減算している。 Noise component subtraction unit 23 by the first filter bank output to component subtract the second filter bank output is subtracted noise component from the first filter bank output. すなわち、雑音成分減算部23は、雑音を低減するため、スペクトルパワー和の差を算出している。 That is, the noise component subtraction unit 23, to reduce noise, and calculates the difference in spectral power sum. ここでは、対応するフィルタ毎に差が算出される。 Here, a difference for each corresponding filter is calculated. 従って、フィルタバンク出力に含まれるスペクトルパワー和の数だけ、差が算出される。 Therefore, the number of spectral power sum included in the filter bank output, a difference is calculated. 第1及び第2のフィルタバンク出力の差を雑音成分減算出力とする。 The first and second differential filter bank output to a noise component subtraction output. 例えば、各フィルタバンク出力に4つのスペクトルパワー和が含まれる場合、雑音成分減算出力には、4つの差が含まれる。 For example, if it contains four spectral power sum each filter bank output, noise component subtraction output includes four differences.

ここで、第2のフィルタバンク出力は、接触型マイク122からの受音信号に基づくものとなっている。 Here, the second filter bank output is made to be based on the received sound signals from the contact-type microphone 122. 接触型マイク122は、振動源36と接触した状態で配置される。 Contact microphone 122 is placed in contact with the vibration source 36. このため、接触型マイク122からの第2の受音信号はユーザの発した音声に比べて雑音による振動の強度が高くなっている。 Accordingly, the second received sound signal from the contact microphone 122 is the intensity of the vibration due to noise in comparison with the sound produced by the user is high. すなわち、第2の受音信号では、実際に認識したいユーザの音声に基づく信号成分(S)の影響は小さく、雑音成分(N)の影響が支配的になっている。 In other words, in the second received sound signal, actually the influence of the recognized desired signal component based on the voice of the user (S) small, the influence of the noise component (N) becomes dominant. 一方、音声検出マイク121は、受音部が物体と接触していないコンデンサーマイクであるため、空気の振動を検出する。 On the other hand, voice detection microphone 121, since sound receiving unit is a condenser microphone that is not in contact with the object, for detecting vibration of the air. 第1の受音信号では、ユーザの発した音声と雑音による振動とが同程度になる。 In the first received sound signal, and the vibration caused by sound and noise emitted users become comparable. すなわち、第1の受音信号では、信号成分(S)、及び雑音成分(N)が同様に影響を与える。 That is, in the first received sound signal, the signal component (S), and a noise component (N) influences as well. 雑音発生時の第1の受音信号には、信号成分(S)と雑音成分(N)とが同程度に含まれる。 The first received sound signal at the time of noise generation, the signal component (S) and a noise component (N) is included in the same degree. 第2の受音信号では、雑音成分(N)の影響が支配的になっている。 In the second received sound signal, the influence of the noise component (N) becomes dominant. 従って、第1の受音信号に対応する第1のフィルタバンク出力から第2の受音信号に対応する第2のフィルタバンク出力を減算すると、雑音成分(N)が低減される。 Therefore, when subtracting the second filter bank output corresponding from the first filter bank output corresponding to the first received sound signal to the second received sound signal, the noise component (N) is reduced. このように、タイプの異なる2つのマイクを用いることによって、簡便に信号成分(S)から雑音成分(N)を減算することができる。 Thus, by using different types of two microphones, it is possible to subtract the noise component (N) from conveniently signal component (S).

なお、雑音成分減算部23で減算処理される第1及び第2のフィルタバンク出力には、同じタイミングにおける雑音成分が含まれていることが好ましい。 Incidentally, the first and second filter bank output to be subtracted by the noise component subtraction section 23, it preferably includes a noise component at the same timing. すなわち、第1のフィルタバンク出力に含まれる雑音成分(N)が第2のフィルタバンク出力にも含まれるように、タイミングを調整している。 In other words, as the noise component contained in the first filter bank output (N) is also included in the second filter bank output, and adjust the timing. 例えば、音声検出マイク121と接触型マイク122の間の距離に応じて、第2の受音信号を遅延させて、同期させている。 For example, depending on the distance between the contact microphone 122 and sound detection microphone 121 delays the second received sound signal, is synchronized. これにより、第1及び第2のフィルタバンク出力に同じタイミングでの雑音成分が含まれるようになり、確実に雑音成分(N)を除去することができる。 Thus, to include the noise components of the first and second same timing filterbank output, it can be removed reliably noise component (N). 従って、モータ131の動作に応じて雑音が急激かつ頻繁に変化した場合でも、雑音成分を確実に除去することが可能となる。 Therefore, even if the noise changes rapidly and frequently in response to operation of the motor 131, it is possible to reliably remove the noise components.

このように、雑音成分減算部23はフィルタバンク出力に基づいて雑音成分減算処理を行っている。 Thus, the noise component subtraction section 23 is performing a noise component subtraction processing based on filter bank output. フィルタバンク出力を用いることによって、雑音成分減算の誤差を低減することができる。 By using a filter bank output, it is possible to reduce the error of the noise component is subtracted. 例えば、図6に示すように、実際に認識したい音声による信号成分(S)のスペクトルの真値を真値スペクトルStとし、第1のパワースペクトルと第2のパワースペクトルとに基づいて推定された信号成分(S)のスペクトルを推定スペクトルSpとする。 For example, as shown in FIG. 6, actually the true value spectrum St the true value of the spectrum of the recognized desired signal components by voice (S), was estimated based on the first power spectrum and the second power spectrum the spectrum of the signal component (S) and estimated spectrum Sp. 具体的には、理想的な状態で音声のみを受音した時のスペクトルが真値スペクトルStとなり、第1のパワースペクトルと第2のパワースペクトルとの差が推定スペクトルSpとなる。 Specifically, an ideal condition true value spectrum St next spectrum when the sound receiving sound only, the difference between the first power spectrum and the second power spectrum the estimated spectrum Sp. なお、真値スペクトルStと推定スペクトルSpは、フィルタバンクによってフィルタ処理されたものである。 Incidentally, the estimated spectrum Sp is the true value spectrum St, is one that is filtered by the filter bank. ここで、真値スペクトルStと推定スペクトルSpとの間には、様々な要因から誤差が生じている。 Here, between the true value spectrum St and estimated spectrum Sp, errors arise from various factors. 例えば、A、B、Cの周波数においては、推定スペクトルSpの値と真値スペクトルStの値にずれが生じている。 For example, A, B, in the frequency and C, deviation occurs in the values ​​of the true value spectrum St of estimated spectrum Sp. しかしながら、雑音成分減算部23では、スペクトルパワー和に基づいて雑音成分を減算している。 However, the noise component subtraction section 23, and subtracts the noise component based on spectral power sum. これにより、各周波数での誤差が相殺され、誤差を低減することができる。 Thus, the error at each frequency is canceled, it is possible to reduce the error. すなわち、フィルタバンク分析部22でスペクトルパワー和を求めているため、各周波数での誤差が相殺される。 That is, since the seeking spectral power sum by the filter bank analysis unit 22, the error at each frequency is offset. よって、各周波数での誤差が累積されることがなくなり、誤差が大きくなるのを防ぐことができる。 Therefore, it is not an error at each frequency is accumulated, it is possible to prevent the error becomes large. よって、正確に雑音成分を除去することができる。 Therefore, it is possible to remove the accurate noise component.

このように、雑音成分減算部23はフィルタバンク出力に基づいて雑音成分減算処理を行っている。 Thus, the noise component subtraction section 23 is performing a noise component subtraction processing based on filter bank output. そして、図4に示すように、雑音成分減算部23は雑音成分減算出力を認識特徴量変換部24に出力する。 Then, as shown in FIG. 4, the noise component subtraction section 23 outputs the noise component subtraction output recognition feature transformation unit 24. 認識特徴量変換部24では、雑音成分減算出力を音声認識特徴量に変換する。 In recognition feature transformation unit 24 converts the noise component subtraction output to the speech recognition features. そして、後述する音声認識部25は、この音声認識特徴量に基づいて音声を認識する。 Then, the voice recognition unit 25 described later recognizes the speech based on the speech recognition features. ここでは、音声認識特徴量としてMFCC(Mel Frequency Cepstrum Coefficient)を算出する。 Here, we calculate the MFCC (Mel Frequency Cepstrum Coefficient) as speech recognition features. 具体的には、スペクトルパワー和の対数(log)を取り、離散コサイン変換(DCT)を行なう。 Specifically, the logarithm (log) of the spectral power sum, performs discrete cosine transform (DCT). これにより、メル周波数領域のケプストラム係数を算出される。 Thus, it is calculated cepstrum coefficients of mel-frequency domain. このような処理を行うことによって、MFCCが音声認識特徴量となる。 By performing such processing, MFCC is a speech recognition features. 従って、第1及び第2の受音信号から音声認識特徴量が抽出される。 Therefore, the speech recognition features are extracted from the first and second received sound signals.

音声認識部25は、音声認識特徴量に基づいて音声認識を行なう。 Speech recognition unit 25 performs speech recognition based on the sound recognition features. 具体的には、MFCCに基づいてユーザが発した音声の単語等の認識を行なう。 Specifically, to recognize words such as voice generated by a user based on the MFCC. 例えば、音素に応じたテンプレートを予め複数登録させておく。 For example, it allowed to advance register multiple templates corresponding to phonemes. 複数のテンプレートは、例えば、外部記憶部105にデータベースとして記憶されている。 The plurality of templates, for example, is stored as a database in the external storage unit 105. 音声認識部25は、雑音成分減算部23からの音声認識特徴量がこのテンプレートにマッチングするか否かを判定する。 Speech recognition unit 25, the speech recognition features from the noise component subtraction section 23 determines whether or not matching the template. これにより、ユーザが発生した音声をテキストとして認識することができる。 This makes it possible to recognize the voice user occurs as text. さらに、上記の処理を所定の時間間隔(フレーム周期)毎に繰り返し行う。 Furthermore, it repeats the above processing for each predetermined time interval (frame period). これにより、ユーザの発した単語等をテキストとして認識することができる。 Thus, it is possible to recognize a word or the like emitted user as text. なお、音声認識特徴量から音声認識を行なう方法としては、公知の方法を用いることができ、必要に応じて適当な処理方法が選択される。 As a method for performing speech recognition from the speech recognition features it can be used a known method, a suitable processing method as required are selected.

このように、本実施の形態では、フィルタバンク出力の差である雑音成分減算出力を音声認識特徴量に直接変換するため、雑音減算による遅延が非常に小さい。 Thus, in the present embodiment, in order to directly convert a noise component subtraction output which is the difference of the filter bank output to the speech recognition features, the delay due to noise subtraction is very small. すなわち、スペクトルを再度時間領域に逆フーリエ変換することなく処理しているため、雑音減算処理に起因する遅延を小さくすることが可能となる。 That is, since the processing without inverse Fourier transform again time domain spectrum, it is possible to reduce the delay caused by the noise subtraction process. 従って、同時刻の受音信号によって雑音低減することが可能になる。 Therefore, it is possible to noise reduction by received sound signals at the same time. さらに、メル周波数領域のスペクトルパワー和が音声認識特徴量として用いられるため、処理負荷の増大を低減することができる。 Furthermore, since the spectral power sum of Mel-frequency domain is used as the speech recognition features, it is possible to reduce the increase in the processing load. 例えば、フィルタバンク分析では、100未満のパラメータで処理が行われ、通常、多くとも数十程度のパラメータで処理が行われる。 For example, the filter bank analysis, carried out the processing of less than 100 parameters, typically, the process parameter of about several tens at most take place. 一方、従来技術の時間領域の適応フィルタを用いた場合、更新パラメータ数は、数百〜数千(典型的には、512〜2048)である。 On the other hand, when using an adaptive filter in the time domain in the prior art, the number of update parameter (typically, 512 to 2048) hundreds to thousands is. 従って、リアルタイムでの雑音減算が可能となる。 Therefore, it becomes possible noise subtraction in real time. これにより、雑音が急激かつ頻繁に変化した場合でも、確実に雑音を除去することが可能となる。 Thus, even if the noise changes rapidly and frequently, it is possible to reliably removed noise. 従って、急激に動作するモータ131を振動源として備える移動体100に好適である。 Therefore, it is suitable to the mobile 100 with a motor 131 which operates rapidly as a vibration source. また、フィルタバンク処理であるため、細かな周波数帯の誤差の和が、フィルタバンク出力の誤差とは一致しない。 Further, since the filter bank processing, error sum of fine frequency band does not coincide with the error of the filter bank output. そのため、厳密な雑音推定ができなくても音声認識精度の低下を防ぐことができる。 Therefore, it is possible to prevent a decrease in speech recognition accuracy may not be strict noise estimation. このように、本実施の形態では、簡便かつ確実に雑音除去を行なうことができる。 Thus, in the present embodiment, it is possible to easily and reliably denoising. 従って、音声認識の精度を向上することができる。 Therefore, it is possible to improve the accuracy of speech recognition. さらに、各フィルタにおけるスペクトルパワー和に基づいて雑音成分減算を行なっているため、処理負荷が小さい。 Furthermore, since doing the noise component is subtracted based on the spectral power sum at each filter, the processing load is small. 従って、リアルタイムでの雑音除去に好適である。 Therefore, it is preferable to remove noise in real time.

なお、上記の説明では、受音信号をメル周波数に変換したが、これに限るものではない。 In the above description, but to convert the received sound signal into mel-frequency, not limited to this. 例えば、線形周波数に変換してもよい。 For example, it may be converted to linear frequency. また、フィルタとして三角窓を用いたが、これに限られるものではない。 Although using a triangular window as a filter is not limited thereto. 例えば、ハミング窓を用いることができる。 For example, it is possible to use a Hamming window.

接触型マイク122としてNAMマイクを用いたがこれに限られるものではない。 Using NAM microphone as a contact-type microphone 122 is not limited thereto. 例えば、ピエゾマイクを接触型マイク122として用いることも可能である。 For example, it is also possible to use a piezo microphone as a contact-type microphone 122. なお、接触型マイク122は、機械的な振動を検出するため、受音部を物体に接触させた状態で用いるタイプのものであれば、これら以外のマイクであってもよい。 The contact-type microphone 122 is used to detect the mechanical vibrations, as long as the type using a sound receiving unit in a state in contact with the object, it may be a microphone other than the above. 接触型マイク122の受音部30にはソフトシリコーン33以外の軟弾性材料を用いることができる。 The sound receiving unit 30 of the contact type microphone 122 can be used soft elastic material other than soft silicone 33. また、音声検出マイク121はコンデンサーマイクに限られるものではなく、例えば、ムービングコイル型やリボン型のダイナミックマイク、あるいはカーボンマイクなどの様々なマイクを用いることができる。 The audio detection microphone 121 is not limited to the condenser microphone, for example, may use a variety of microphones, such as moving coil type and a ribbon type dynamic microphone or a carbon microphone.

さらに、音声検出マイク121を複数設けても良い。 Further it may be provided a plurality of sound detecting microphone 121. 例えば、音声検出マイク121をマイクロフォンアレイにしてもよい。 For example, the voice detection microphone 121 may be a microphone array. この場合、音声の受音方向に応じてアレイ状に配列されたマイクロフォンの受音信号の位相を同期させてもよい。 In this case, it is possible to synchronize the phase of the received sound signal of the microphone arranged in an array in accordance with the sound reception direction of the voice. これにより、信号成分(S)が強調されるため、より正確に音声認識を行なうことができる。 Thus, since the signal component (S) is emphasized, it is possible to perform a more accurate speech recognition.

次に、上記の音声認識装置によって、単語を認識した結果を簡単に説明する。 Then, by the speech recognition apparatus will be briefly described the result of recognizing words. なお、以下に説明する測定結果は、移動体100であるロボットが静止した状態において、単語認識を行なったときの結果である。 Incidentally, the measurement results described below, in a state where the robot is stationary is a mobile 100 is the result when performing word recognition. ここでは、ユーザが単語を発声した時の単語正解精度の測定を行なった時の結果について説明する。 Here, a description will be given results when measurements were made word accuracy when the user utters a word. なお、単語正解精度とは、単語を発生し、発声した単語がテキストとして正確に認識される確率を示している。 Note that the word accuracy, generates a word uttered words indicates the probability of being accurately recognized as text. 雑音減算処理を行わない場合、単語正解精度は、64.7%であった。 If you do not noise subtraction processing, word accuracy was 64.7%. なお、この場合の音声検出マイクの数は1つである。 The number of voice detection microphone in this case is one. また、雑音減算処理では、音声検出マイク121として、4個のマイクを用いた場合(以下、4マイク)と8個のマイクを用いた場合(以下、8マイク)の2通りの測定を行なった。 Further, in the noise subtraction process, a sound detection microphone 121, when using four microphones (hereinafter, 4 microphone) in the case of using eight microphones (hereinafter, 8 microphone) measurements were made two types of . 接触型マイク122としてNAMマイクロフォンを用いた場合、単語正解精度は69.06%、68.44%であった。 When using the NAM microphone as a contact-type microphone 122, word accuracy 69.06%, it was 68.44%. また、接触型マイク122の代わりに接触型ではないコンデンサーマイクロフォンを用いて上記の雑音減算処理を行った場合、単語正解精度は、66.99%(4マイク)、66.15%(8マイク)であった。 Also, in the case of performing the noise subtraction process using a condenser microphone not contact instead of contact type microphone 122, word accuracy, 66.99% (4 microphone), 66.15% (8 microphone) Met. 従って、NAMマイクロフォンを接触型マイク122として用いることにより、単語正確精度を向上することができた。 Accordingly, by using the NAM microphone as a contact-type microphone 122, it is possible to improve the word accuracy accuracy. なお、上記の測定において、単語正解精度の上限値は、76.04%である。 Note that in the above measurement, the upper limit of the word accuracy is 76.04%.

上記の音声認識装置は、ロボットや車などの移動体100に好適である。 It said speech recognition apparatus is suitable for mobile 100 such as a robot or a car. すなわち、雑音が急激かつ頻繁に変化するような移動体100でも、正確に音声認識を行なうことができる。 That is, even the moving body 100 as noise changes rapidly and frequently, it is possible to perform accurate speech recognition. この場合、移動体100に設けられた駆動機構が駆動すると振動が発生するため、この駆動機構が振動源36となる。 In this case, since the driving mechanism provided in the moving body 100 and vibration is driven occurs, the drive mechanism is vibration source 36. 従って、駆動機構に対して、接触型マイク122を取り付けることが好ましい。 Therefore, the drive mechanism, it is preferable to attach a contact microphone 122. 駆動機構としては、ロボットを駆動するためのモータ131や、自動車の動力機構であるエンジンなどがある。 As the driving mechanism, and a motor 131 for driving the robot, and the like engines as a power mechanism of an automobile. 例えば、接触型マイク122をエンジンやモータなどに接触させる。 For example, a contact microphone 122 is contacted such as an engine or a motor. あるいは、接触型マイク122を、振動源36に連結されている剛体と接触させてもよい。 Alternatively, a contact microphone 122 may be contacted with the rigid body is connected to the vibration source 36. 例えば、モータ131のカバーや、モータが固定されている移動体100の筐体3に接触させてもよい。 For example, the cover and the motor 131 may be contacted to the housing 3 of the moving body 100 which motor is fixed. この場合、接触型マイク122を音声検出マイク121の近傍に配置することができる。 In this case, it is possible to arrange the contact microphone 122 in the vicinity of the sound detection microphone 121. そのため、音声検出マイク121で検出される雑音成分と同じ雑音成分を接触型マイク122で検出することができる。 Therefore, it is possible to detect the same noise component and the noise component detected by the speech detection microphone 121 in contact microphone 122. なお、自動車に音声認識装置を搭載する場合、例えば、接触型マイク122をエンジンカバーに接触させる。 In the case of mounting the voice recognition device in an automobile, for example, a contact microphone 122 is brought into contact with the engine cover. もちろん、ハイブリッド自動車や電気自動車に設けられているモータやモータカバーに接触型マイク122を取り付けてもよい。 Of course, it may be attached to contact microphone 122 to the motor and the motor cover are provided in a hybrid vehicle or an electric vehicle. また、1つの移動体100の振動源36毎に接触型マイク122と取り付けてもよい。 It may also be attached to the contact-type microphone 122 for each vibration source 36 of one mobile 100. そした、複数の接触型マイク122からの信号に基づいて雑音減算処理を行ってもよい。 And the, it may be subjected to noise subtraction processing based on signals from a plurality of contact type microphone 122. すなわち、ロボットが複数のモータ131を有する場合、それぞれのモータ131に対して接触型マイク122を取り付けてもよい。 That is, if the robot has a plurality of motors 131 may be attached to contact microphone 122 for each motor 131. そして、音声検出マイク121で外部環境の音を受音し、接触型マイク122でロボット内部のモータの音を受音する。 Then, the sound receiving sound of the external environment in the speech detection microphone 121 and the sound receiving sound robot inside the motor in contact microphone 122. そして、上記の雑音低減処理を行った後、外部環境から得られる音声の内容を認識する。 Then, after the noise reduction processing described above, it recognizes the contents of the audio obtained from the external environment. このような音声認識装置を自動車にカーナビゲーションシステムに用いることで、確実に操作を行なうことができる。 Such speech recognition devices by using a car navigation system in an automobile, can be reliably operated. よって、カーナビゲーションシステムの利便性を向上することができる。 Therefore, it is possible to improve the convenience of the car navigation system.

本発明の実施の形態にかかる移動体の構成を示す図である。 It is a diagram showing a configuration of a moving body according to the embodiment of the present invention. 本発明の実施の形態にかかる移動体の制御部の構成を示すブロック図である。 Is a block diagram showing a configuration of a control unit of the moving body according to the embodiment of the present invention. 本発明の実施の形態にかかる移動体に用いられるNAMマイクの構成を示す側面断面図である。 Is a side sectional view showing a NAM microphone configuration used in a mobile according to an embodiment of the present invention. 本発明の実施の形態にかかる移動体の音声認識装置の構成を示すブロック図である。 Is a block diagram showing a configuration of a speech recognition apparatus for a mobile body according to the embodiment of the present invention. 本発明の実施の形態にかかる移動体の音声認識モジュールに用いられるフィルタバンクを示す図である。 It is a diagram illustrating a filter bank used in the speech recognition module of the mobile body according to the embodiment of the present invention. 本発明の実施の形態1の移動体のフィルタバンク出力での誤差を示す図である。 It is a diagram illustrating an error of the filter bank output moving body of the first embodiment of the present invention.

符号の説明 DESCRIPTION OF SYMBOLS

2 車輪、3 筐体12 音声認識モジュール、13 音声発話モジュール、 2 wheel, 3 a housing 12 speech recognition module, 13 utterances module,
21 周波数変換部、22 フィルタバンク分析部、23 雑音成分減算部、 21 frequency conversion unit, 22 filter bank analysis unit, 23 noise component subtraction unit,
24 認識特徴量変換部、25 音声認識部、100移動体101 制御部、102 入出力部、103 駆動部、104 電源部、 24 recognition feature transformation unit, 25 the speech recognition unit, 100 mobile 101 control unit, 102 input unit, 103 drive section, 104 a power supply unit,
105 外部記憶部、121 音声検出マイク、122 接触型マイク、 105 external storage unit, 121 voice detection microphone, 122 contact microphone,
123 スピーカ、124 LED、125 センサ部、131 モータ、 123 speaker, 124 LED, 125 sensor unit, 131 a motor,
132 ドライバ、143 バッテリ、144 バッテリ制御部 132 driver, 143 battery, 144 battery control unit

Claims (13)

  1. 第1のマイクと、 And the first microphone,
    振動を検知するマイクロフォンと、受音部に設けられ、振動源に直接又は剛体を介して接触し、前記振動源の機械的振動を前記マイクロフォンに伝播するための伝播部材と、を有する接触型の第2のマイクと、 A microphone for detecting vibration, provided sound receiving unit, in contact either directly or via a rigid body vibration source, a mechanical vibration of said vibration source in contact with, and propagation member for propagating said microphone and a second microphone,
    前記第1のマイクから出力された第1の受音信号と、前記第2のマイクから出力された第2の受音信号とに基づいて音声を認識する音声認識モジュールと、を備える音声認識装置であって、 A first received sound signal outputted from the first microphone, a voice recognition apparatus and a speech recognition module recognizing the speech based on the second received sound signal outputted from said second microphone there is,
    前記音声認識モジュールが、 The voice recognition module,
    前記第1の受音信号を周波数領域に変換して第1のスペクトルを算出し、かつ前記第2の受音信号を周波数領域に変換して第2のスペクトルを算出する周波数変換部と、 A frequency conversion unit for calculating a second spectrum the first received sound signal to calculate a first spectrum is converted into the frequency domain, and converts the second received sound signal into the frequency domain,
    前記第1のスペクトルに対してフィルタバンク分析を行い第1のフィルタバンク出力を算出し、かつ前記第2のスペクトルに対して前記フィルタバンク分析を行い第2のフィルタバンク出力を算出するフィルタバンク分析部と、 Filter bank analysis for calculating the first calculating a first filter bank output performs filter bank analysis on the spectrum, and the second filter bank performs the filter bank analysis on the second spectral output and parts,
    前記第1及び第2のフィルタバンク出力に基づいて雑音成分を減算して、雑音成分減算出力を算出する雑音成分減算部と、 Wherein by subtracting the noise component based first and second filter bank output, a noise component subtraction section for calculating a noise component subtraction output,
    前記雑音成分減算出力を音声認識特徴量に変換する認識特徴量変換部と、 Recognition feature transformation unit for converting the noise component subtraction output to the speech recognition features,
    前記音声認識特徴量に基づいて音声認識を行なう音声認識部と、を備えた音声認識装置。 Speech recognition apparatus and a speech recognition unit which performs speech recognition on the basis of the speech recognition features.
  2. 前記雑音成分減算部が、同じタイミングの雑音成分を含む第1及び第2のフィルタバンク出力に基づいて雑音成分を減算することを特徴とする請求項1に記載の音声認識装置。 It said noise component subtractor section, the speech recognition apparatus according to claim 1, wherein the subtracting the noise component based on the first and second filter bank output including noise components of the same timing.
  3. 前記接触型マイクがNAMマイクロフォンであることを特徴とする請求項1又は2に記載の音声認識装置。 The contact microphone is a voice recognition device according to claim 1 or 2, characterized in that the NAM microphone.
  4. 前記フィルタバンク分析に用いられるフィルタでフィルタ処理された前記第1及び第2のスペクトルの周波数領域における面積に基づいて前記第1及び第2のフィルタバンク出力が算出されていることを特徴とする請求項1乃至3のいずれかに記載の音声認識装置。 Claims, characterized in that said first and second filter bank output based on the area in the filtering said first and second frequency region of the spectrum was has been calculated by the filter used in the filter bank analysis speech recognition apparatus according to any one of claim 1 to 3.
  5. 請求項1乃至4のいずれかに記載の音声認識装置を備える移動体。 Mobile with a speech recognition apparatus according to any one of claims 1 to 4.
  6. 振動源となる駆動機構を備え、 A drive mechanism for the vibration source,
    前記駆動機構に対して前記接触型マイクが取り付けられている請求項5に記載の移動体。 Mobile body according to claim 5, wherein the contact microphone is attached to the drive mechanism.
  7. 請求項1乃至4のいずれかに記載の音声認識装置を備えたロボットであって、 A robot having a voice recognition device according to any one of claims 1 to 4,
    前記第1のマイクが外部環境の音を受音し、 It said first microphone to the sound receiving sound of the external environment,
    前記第2のマイクがロボット内部の音を受音し、 It said second microphone is sound receiving sound of the internal robot,
    前記第1のマイクからの第1の受音信号と、前記第2のマイクからの第2の受音信号とに基づいて、外部環境から得られた音声を認識することを特徴とするロボット。 Wherein the first received sound signal from the first microphone, the second based on the second received sound signal from the microphone, robot and recognizes the speech obtained from the external environment.
  8. 前記ロボットを駆動するためのモータが前記ロボット内部に設けられ、 Motor is provided inside the robot for driving the robot,
    前記接触型マイクが前記モータに対して取り付けられていることを特徴とする請求項7に記載のロボット。 The robot of claim 7, wherein the contact microphone is attached to the motor.
  9. 振動源となる動力機構を備え、 It comprises a power mechanism as a vibration source,
    前記移動体が、前記動力機構としてのエンジンを備えた自動車であることを特徴とする請求項5に記載の移動体。 Mobile body according to claim 5, wherein the moving body, characterized in that it is a motor vehicle with an engine as the power mechanism.
  10. 前記接触型マイクが前記自動車のエンジンに対して取り付けられていることを特徴とする請求項9に記載の移動体。 Mobile body according to claim 9, wherein the contact microphone is attached to the vehicle engine.
  11. 第1のマイクからの第1の受音信号を周波数領域に変化して、第1のスペクトルを算出するステップと、 The first received sound signal from the first microphone changes in the frequency domain, calculating a first spectrum,
    振動を検知するマイクロフォンと、受音部に設けられ、振動源の機械的振動を前記マイクロフォンに伝播するための伝播部材と、を有する接触型の第2のマイクの前記受音部が前記振動源に直接又は剛体を介して接触した状態で、当該第2のマイクが受音した音に基づく第2の受音信号を周波数領域に変換して、第2のスペクトルを算出するステップと、 A microphone for detecting vibration, provided in the sound receiving portion, the contact-type second said sound receiving unit is the source of vibration microphone with a spreader for propagating mechanical vibration of the vibration source to the microphone a step in contact directly or through a rigid, which converts the second received sound signal based on sound which the second microphone has a sound receiving the frequency domain, and calculates a second spectrum,
    前記第1のスペクトルにフィルタバンク分析を行い、第1のフィルタバンク出力を算出するステップと、 Performs filter bank analysis on the first spectrum, calculating a first filter bank output,
    前記第2のスペクトルにフィルタバンク分析を行い、第2のフィルタバンク出力を算出するステップと、 Performs filter bank analysis on the second spectrum, calculating a second filter bank output,
    前記第1及び第2のフィルタバンク出力に基づいて、雑音成分を減算して、雑音成分減算出力を算出するステップと、 A step on the basis of the first and the second filter bank output, by subtracting the noise component, to calculate a noise component subtraction output,
    前記雑音成分減算出力を音声認識特徴量に変換するステップと、 Converting said noise component subtraction output to the speech recognition features,
    前記音声認識特徴量に基づいて音声認識を行なうステップとを備えた音声認識方法。 Speech recognition method comprising the steps of performing speech recognition on the basis of the speech recognition features.
  12. 前記雑音成分減算出力を算出するステップでは、同じタイミングの雑音成分を含む第1及び第2のフィルタバンク出力に基づいて、雑音成分を減算することを特徴とする請求項11に記載の音声認識方法。 In the step of calculating the noise component subtraction output, based on the first and second filter bank output including noise components of the same timing, the speech recognition method according to claim 11, wherein the subtracting the noise component .
  13. 前記フィルタバンク分析に用いられるフィルタでフィルタ処理された前記第1及び第2のスペクトルの周波数領域における面積に基づいて前記第1及び第2のフィルタバンク出力が算出されていることを特徴とする請求項11又は12に記載の音声認識方法。 Claims, characterized in that said first and second filter bank output based on the area in the filtering said first and second frequency region of the spectrum was has been calculated by the filter used in the filter bank analysis speech recognition method according to claim 11 or 12.
JP2006262865A 2006-09-27 2006-09-27 Speech recognition device, speech recognition method, the mobile, and the robot Active JP5109319B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006262865A JP5109319B2 (en) 2006-09-27 2006-09-27 Speech recognition device, speech recognition method, the mobile, and the robot

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006262865A JP5109319B2 (en) 2006-09-27 2006-09-27 Speech recognition device, speech recognition method, the mobile, and the robot

Publications (2)

Publication Number Publication Date
JP2008085613A true JP2008085613A (en) 2008-04-10
JP5109319B2 true JP5109319B2 (en) 2012-12-26

Family

ID=39356019

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006262865A Active JP5109319B2 (en) 2006-09-27 2006-09-27 Speech recognition device, speech recognition method, the mobile, and the robot

Country Status (1)

Country Link
JP (1) JP5109319B2 (en)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101233260B1 (en) 2010-10-07 2013-02-14 도요타 지도샤(주) Microphone unit and sound collecting device
JP2018052425A (en) * 2016-09-30 2018-04-05 本田技研工業株式会社 The mobile station controller, and mobile

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03172900A (en) * 1989-12-01 1991-07-26 Ricoh Co Ltd Voice command input device
JPH0488400A (en) * 1990-08-01 1992-03-23 Clarion Co Ltd Voice recognizer for mounting on vehicle
FR2764694B1 (en) * 1997-06-17 1999-09-03 Aerospatiale A noise measurement in a conduit through which a fluid
JP3510458B2 (en) * 1997-09-05 2004-03-29 沖電気工業株式会社 Recording medium storing a speech recognition system and speech recognition control program
JP4325044B2 (en) * 1999-11-08 2009-09-02 株式会社デンソー Voice recognition system
JP2001215990A (en) * 2000-01-31 2001-08-10 Japan Science & Technology Corp Robot hearing device
JP2002258893A (en) * 2001-02-28 2002-09-11 Nippon Hoso Kyokai <Nhk> Noise-estimating device, noise eliminating device and storage medium
JP2003195886A (en) * 2001-12-26 2003-07-09 Sony Corp Robot
JP4655572B2 (en) * 2004-03-25 2011-03-23 日本電気株式会社 Signal processing method and signal processing device, and the robot
JP2005326497A (en) * 2004-05-12 2005-11-24 Nippon Telegr & Teleph Corp <Ntt> Method, device and program for speech recognition and recording medium
JP2006149805A (en) * 2004-11-30 2006-06-15 Asahi Kasei Corp Nam sound responding toy device and nam sound responding toy system
JP4283212B2 (en) * 2004-12-10 2009-06-24 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Maschines Corporation Noise removal device, the noise elimination program, and a noise removing method
JP4571871B2 (en) * 2005-02-03 2010-10-27 日本電信電話株式会社 Apparatus for implementing the audio signal analysis method and the analysis method, the speech recognition apparatus using the audio signal analyzer, the program and the storage medium to perform this analysis method
JP4586577B2 (en) * 2005-03-02 2010-11-24 株式会社国際電気通信基礎技術研究所 Disturbance component suppressing apparatus, a computer program, and a speech recognition system

Also Published As

Publication number Publication date Type
JP2008085613A (en) 2008-04-10 application

Similar Documents

Publication Publication Date Title
Bou-Ghazale et al. A comparative study of traditional and newly proposed features for recognition of speech under stress
US5537647A (en) Noise resistant auditory model for parametrization of speech
US20070088544A1 (en) Calibration based beamforming, non-linear adaptive filtering, and multi-sensor headset
US6182036B1 (en) Method of extracting features in a voice recognition system
US6173258B1 (en) Method for reducing noise distortions in a speech recognition system
US20090119096A1 (en) Partial speech reconstruction
Bozkurt et al. Chirp group delay analysis of speech signals
US5758022A (en) Method and apparatus for improved speech recognition from stress-induced pronunciation variations with a neural network utilizing non-linear imaging characteristics
Xiao et al. Normalization of the speech modulation spectra for robust speech recognition
US20080069364A1 (en) Sound signal processing method, sound signal processing apparatus and computer program
Narayanan et al. Investigation of speech separation as a front-end for noise robust speech recognition
Shrawankar et al. Techniques for feature extraction in speech recognition system: A comparative study
Yapanel et al. A new perspective on feature extraction for robust in-vehicle speech recognition
US20080215322A1 (en) Method and System for Generating Training Data for an Automatic Speech Recogniser
Yu et al. A minimum-mean-square-error noise reduction algorithm on mel-frequency cepstra for robust speech recognition
US20080077403A1 (en) Speech recognition method, speech recognition apparatus and computer program
JP2006163231A (en) Device, program, and method for noise elimination
US20030046069A1 (en) Noise reduction system and method
US20090281804A1 (en) Processing unit, speech recognition apparatus, speech recognition system, speech recognition method, storage medium storing speech recognition program
CN1339774A (en) Method for controlling equipment, particularly the equipment in automobile by voice signal
JP2007180896A (en) Voice signal processor and voice signal processing method
JP2004347761A (en) Voice recognition device, voice recognition method, computer executable program and storage medium for performing the voice recognition method to computer
US6785648B2 (en) System and method for performing speech recognition in cyclostationary noise environments
JP2009058708A (en) Voice processing system, method and program
JP2003308092A (en) Device and method for eliminating noise

Legal Events

Date Code Title Description
A621 Written request for application examination

Effective date: 20090211

Free format text: JAPANESE INTERMEDIATE CODE: A621

A977 Report on retrieval

Effective date: 20110607

Free format text: JAPANESE INTERMEDIATE CODE: A971007

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110614

A521 Written amendment

Effective date: 20110721

Free format text: JAPANESE INTERMEDIATE CODE: A523

A131 Notification of reasons for refusal

Effective date: 20120207

Free format text: JAPANESE INTERMEDIATE CODE: A131

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120222

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Effective date: 20120911

Free format text: JAPANESE INTERMEDIATE CODE: A01

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120924

FPAY Renewal fee payment (prs date is renewal date of database)

Year of fee payment: 3

Free format text: PAYMENT UNTIL: 20151019

FPAY Renewal fee payment (prs date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151019

Year of fee payment: 3