JP4425718B2 - Voice recognition device for vehicles - Google Patents

Voice recognition device for vehicles Download PDF

Info

Publication number
JP4425718B2
JP4425718B2 JP2004175666A JP2004175666A JP4425718B2 JP 4425718 B2 JP4425718 B2 JP 4425718B2 JP 2004175666 A JP2004175666 A JP 2004175666A JP 2004175666 A JP2004175666 A JP 2004175666A JP 4425718 B2 JP4425718 B2 JP 4425718B2
Authority
JP
Japan
Prior art keywords
voice
noise
stationary noise
unit
voice input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2004175666A
Other languages
Japanese (ja)
Other versions
JP2005352397A (en
Inventor
達哉 京光
俊哉 鹿野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Honda Motor Co Ltd
Original Assignee
Honda Motor Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Honda Motor Co Ltd filed Critical Honda Motor Co Ltd
Priority to JP2004175666A priority Critical patent/JP4425718B2/en
Publication of JP2005352397A publication Critical patent/JP2005352397A/en
Application granted granted Critical
Publication of JP4425718B2 publication Critical patent/JP4425718B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、入力された音声を認識して機械が理解できる情報に変換する車両用音声認識装置に関する。   The present invention relates to a vehicle voice recognition apparatus that recognizes input voice and converts it into information that can be understood by a machine.

従来、入力された音声を認識して機械が理解できる情報に変換する音声認識装置には、例えば音声の平均スペクトルに類似した、性質の明らかなノイズを入力音声に付加し、ノイズを付加した入力音声から得られる特徴パラメータと音声の標準パターンとの照合を行なうことによって音声を認識するようにしたものがある。具体的には、性質のよく分ったノイズ(人の声に近い性質のノイズ)を入力音声に積極的に加えることによって、マイクから混入する環境騒音や入力系に重畳する電気的ノイズ(白色雑音に近い)など、性質のよく分らないノイズの影響を軽減する。これにより、入力音声にマイクから種々の環境騒音が混入した場合や、入力回路の電気的ノイズが重畳した場合においても、安定した高い認識率の得られる音声認識装置を実現することが可能となる(例えば、特許文献1参照。)。
特開平6−43892号公報
Conventionally, a speech recognition device that recognizes input speech and converts it into information that can be understood by the machine is, for example, by adding noise with obvious characteristics similar to the average spectrum of speech to the input speech and adding the noise. Some voices are recognized by collating feature parameters obtained from voice with a standard pattern of voice. Specifically, by actively adding well-known noise (noise close to human voice) to the input voice, environmental noise mixed from the microphone and electrical noise superimposed on the input system (white) Reduce the effects of noise that is not well understood, such as (close to noise). Thereby, even when various environmental noises are mixed into the input voice from the microphone or when the electrical noise of the input circuit is superimposed, it is possible to realize a voice recognition device that can obtain a stable and high recognition rate. (For example, refer to Patent Document 1).
JP-A-6-43892

ところで、従来の音声認識装置では、例えば音声認識装置を自動車等の車両に搭載した場合についての考慮がされていないという問題がある。具体的には、音声認識装置を自動車等の車両に搭載した場合には、車両が停止している時と車両が走行している時とでは車室内のノイズ量が異なり、特に車両が走行している場合には車室内に常に定常ノイズが存在しているため、従来の音声認識装置のように、入力音声に常にノイズを積極的に付加しても付加されたノイズの効果が少なく無駄が多いという問題がある。
一方、運手席と助手席の乗員が同時に音声を発することがあり、例えば運転席の乗員の音声を認識しようとする場合、助手席の乗員の音声は、運転席の乗員の音声の音声認識を妨害する非定常ノイズとなるため、特に車両が停止しているような場合には車室内が静かなので、積極的にこのような非定常ノイズを打ち消すために、従来の音声認識装置のように定常ノイズを付加したいという要求もある。
By the way, in the conventional speech recognition apparatus, there is a problem that consideration is not given to the case where the speech recognition apparatus is mounted on a vehicle such as an automobile. Specifically, when the speech recognition device is mounted on a vehicle such as an automobile, the amount of noise in the passenger compartment differs between when the vehicle is stopped and when the vehicle is running. If there is always a steady noise in the passenger compartment, the added noise is less effective and wasteful even if the noise is always positively added to the input voice as in the conventional voice recognition device. There is a problem that there are many.
On the other hand, the passenger in the passenger seat and the passenger in the passenger seat may make a voice at the same time. For example, when trying to recognize the voice of the passenger in the driver seat, the voice of the passenger in the passenger seat is recognized by the voice of the driver in the driver seat. Since the interior of the vehicle is quiet especially when the vehicle is stopped, it is possible to actively cancel out such unsteady noise as in the case of a conventional voice recognition device. There is also a demand to add stationary noise.

本発明は、上記課題に鑑みてなされたもので、周囲の環境に応じて効率的かつ正確に音声を認識可能な車両用音声認識装置を提供することを目的とする。   The present invention has been made in view of the above problems, and an object of the present invention is to provide a vehicle voice recognition device capable of recognizing voice efficiently and accurately according to the surrounding environment.

上記課題を解決するために、請求項1の発明に係る車両用音声認識装置は、音声による入力が可能な音声入力手段(例えば後述する実施例の音声入力部4)と、前記音声入力手段により入力された音声の音声認識を実行する音声認識手段(例えば後述する実施例の音声認識部6、または音声認識部7)と、車室内の定常ノイズ量が所定値以上か否かを判定する定常ノイズ量判断手段(例えば後述する実施例の車内定常ノイズ判断部1)と、前記車室内の定常ノイズ量が所定値よりも小さいと前記定常ノイズ量判断手段が判断した場合に、前記音声入力手段により入力された音声に定常ノイズを加算する必要があるか否かを判断する定常ノイズ加算判断手段(例えば後述する実施例のノイズ加算要否判断部2)と、前記音声入力手段により入力された音声に定常ノイズを加算する必要があると前記定常ノイズ加算判断手段が判断した場合に、前記音声入力手段により入力された音声に定常ノイズを加算する定常ノイズ加算手段(例えば後述する実施例の定常ノイズ発生部3及び定常ノイズ加算部5)とを備え、前記定常ノイズ加算判断手段が、前記車室内の乗員を検知する乗員検知手段(例えば後述する実施例の着座センサ等)を備え、前記乗員検知手段により検知された前記車室内の乗員の数、もしくは前記車室内の乗員の位置に基づいて、前記音声入力手段により入力された音声に定常ノイズを加算する必要があるか否かを判断することを特徴とする。 In order to solve the above problems, a vehicle voice recognition apparatus according to the invention of claim 1 includes a voice input unit (for example, a voice input unit 4 in an embodiment described later) capable of inputting by voice and the voice input unit. A voice recognition means (for example, a voice recognition unit 6 or a voice recognition unit 7 in an embodiment to be described later) that performs voice recognition of the input voice and a steady state that determines whether or not the steady noise amount in the vehicle interior is equal to or greater than a predetermined value. When the steady noise amount determining means determines that the steady noise amount in the vehicle interior is smaller than a predetermined value (for example, in-vehicle steady noise determining unit 1 in an embodiment to be described later) and the steady noise amount determining means. A stationary noise addition judging means for judging whether or not stationary noise needs to be added to the voice inputted by (for example, a noise addition necessity judging section 2 in an embodiment to be described later), and input by the voice input means. When the stationary noise addition determining means determines that it is necessary to add stationary noise to the received voice, stationary noise adding means (for example, an embodiment described later) adds the stationary noise to the voice input by the voice input means. A stationary noise generating unit 3 and a stationary noise adding unit 5), and the stationary noise addition determining unit includes an occupant detecting unit (for example, a seating sensor of an embodiment described later) for detecting an occupant in the vehicle interior, Based on the number of occupants in the passenger compartment detected by the occupant detection means or the position of the occupants in the passenger compartment, whether or not it is necessary to add stationary noise to the voice input by the voice input means. It is characterized by judging.

以上の構成を備えた車両用音声認識装置は、音声入力手段により入力された音声の音声認識を音声認識手段により実行する際に、車室内の定常ノイズ量が所定値よりも小さいと定常ノイズ量判断手段が判断した場合は、定常ノイズ加算判断手段が音声入力手段により入力された音声に定常ノイズを加算する必要があるか否かを判断する。そして、音声入力手段により入力された音声に定常ノイズを加算する必要があると定常ノイズ加算判断手段が判断した場合には、定常ノイズ加算手段が音声入力手段により入力された音声に定常ノイズを加算してから音声認識を実行することで、車室内の定常ノイズ量が所定値よりも小さく、かつ定常ノイズを加算する必要がある場合には、定常ノイズが加算された音声の音声認識を実行し、それ以外の場合には、音声入力手段により入力されたそのままの音声の音声認識を実行することができる。   The vehicle speech recognition apparatus having the above configuration is configured such that when the speech recognition unit executes speech recognition of the speech input by the speech input unit, the steady noise amount is smaller than a predetermined value. If the determination means determines, the steady noise addition determination means determines whether or not the steady noise needs to be added to the voice input by the voice input means. When the stationary noise addition determining unit determines that it is necessary to add stationary noise to the voice input by the voice input unit, the stationary noise adding unit adds the stationary noise to the voice input by the voice input unit. If the steady noise amount in the passenger compartment is smaller than the predetermined value and it is necessary to add the steady noise, the voice recognition of the voice with the steady noise added is executed. In other cases, it is possible to execute voice recognition of the voice as it is inputted by the voice input means.

請求項2の発明に係る車両用音声認識装置は、請求項1に記載の車両用音声認識装置において、前記定常ノイズ加算判断手段が、前記車室内の乗員を検知する乗員検知手段(例えば後述する実施例の着座センサ等)を備え、前記乗員検知手段により検知された前記車室内の乗員の数、もしくは前記車室内の乗員の位置に基づいて、前記音声入力手段により入力された音声に定常ノイズを加算する必要があるか否かを判断することを特徴とする。   According to a second aspect of the present invention, there is provided a vehicular voice recognition apparatus according to the first aspect, wherein the stationary noise addition determining means detects an occupant in the vehicle compartment (for example, described later). A seating sensor of the embodiment), and the noise input to the voice input means based on the number of passengers detected by the passenger detection means or the position of the passengers in the passenger compartment. It is characterized by determining whether it is necessary to add.

また、定常ノイズ加算判断手段が、乗員検知手段により検知された車室内の乗員の数、もしくは車室内の乗員の位置に基づいて、入力された音声に定常ノイズを加算する必要があるか否かを判断することで、音声認識するべき話者以外の車室内の乗員が発話する音声、すなわち音声認識するべき話者の音声の音声認識を妨害する非定常ノイズの発生及びその影響を予測して、必要な時に入力された音声に定常ノイズを加算することができる。 Further, stationary noise addition determining means, whether the number of passengers in the cabin, which is detected by the passenger detecting means or on the basis of the occupant position in the vehicle compartment, it is necessary to add the stationary noise in the input speech Therefore, it is possible to predict the occurrence of non-stationary noise that interferes with the voice recognition of the voice of the passenger in the vehicle other than the speaker who should recognize the voice, that is, the voice of the speaker who should recognize the voice, and its influence. The stationary noise can be added to the input voice when necessary.

請求項の発明に係る車両用音声認識装置は、請求項1に記載の車両用音声認識装置において、前記定常ノイズ加算判断手段が、前記車室内に備えられた音響機器の動作状態に基づいて、前記音声入力手段により入力された音声に定常ノイズを加算する必要があるか否かを判断することを特徴とする。 According to a second aspect of the present invention, there is provided the vehicular voice recognition device according to the first aspect, wherein the stationary noise addition determining means is based on an operating state of an acoustic device provided in the vehicle interior. It is determined whether or not it is necessary to add stationary noise to the voice input by the voice input means.

以上の構成を備えた車両用音声認識装置は、定常ノイズ加算判断手段が、車室内に備えられた音響機器の動作状態に基づいて、入力された音声に定常ノイズを加算する必要があるか否かを判断することで、車室内の音響機器が出力する音声、すなわち音声認識するべき話者の音声の音声認識を妨害する非定常ノイズの発生を予測して、必要な時に入力された音声に定常ノイズを加算することができる。   In the vehicle speech recognition apparatus having the above configuration, whether or not the steady noise addition determination unit needs to add steady noise to the input voice based on the operating state of the acoustic device provided in the vehicle interior. By predicting the occurrence of non-stationary noise that interferes with the voice recognition of the voice of the speaker that should be recognized, that is, the voice output by the acoustic equipment in the vehicle interior, the voice input when necessary Stationary noise can be added.

請求項の発明に係る車両用音声認識装置は、請求項1又は2に記載の車両用音声認識装置において、前記音声認識手段が、音声に関する複数の標準パターンを記憶する標準パターン記憶手段(例えば後述する実施例の標準パターン格納部15)と、前記標準パターン記憶手段から、音声認識に利用する標準パターンを選択する標準パターン選択手段(例えば後述する実施例の標準パターン選択部16)と、前記音声入力手段により入力された音声と前記標準パターン選択手段により選択された前記標準パターンとを照合して音声を認識する音声照合手段(例えば後述する実施例の照合部14)とを備え、前記標準パターン選択手段が、前記定常ノイズ量判断手段及び前記定常ノイズ加算判断手段の判断結果に基づいて、前記標準パターンを選択することを特徴とする。 According to a third aspect of the present invention, there is provided a vehicular voice recognition apparatus according to the first or second aspect , wherein the voice recognition means stores a plurality of standard patterns related to voice (for example, A standard pattern storage unit 15) of an embodiment to be described later, a standard pattern selection unit (for example, a standard pattern selection unit 16 of an example to be described later) for selecting a standard pattern used for speech recognition from the standard pattern storage unit, Voice collation means (for example, collation unit 14 in an embodiment to be described later) that recognizes voice by collating the voice input by voice input means with the standard pattern selected by the standard pattern selection means; A pattern selection unit selects the standard pattern based on the determination results of the stationary noise amount determination unit and the stationary noise addition determination unit. Characterized in that it-option.

以上の構成を備えた車両用音声認識装置は、音声認識手段に備えられた標準パターン選択手段が、定常ノイズ量判断手段及び定常ノイズ加算判断手段の判断結果に基づいて、音声に関する複数の標準パターンを記憶する標準パターン記憶手段から、音声認識に利用する標準パターンを選択し、音声照合手段が、音声入力手段により入力された音声と標準パターン選択手段により選択された標準パターンとを照合して音声を認識することで、定常ノイズ量判断手段及び定常ノイズ加算判断手段の判断結果に基づいて、音声に対する定常ノイズの付加の有無を判断し、音声認識に利用する標準パターンを適切なものに変更することができる。   In the vehicle speech recognition apparatus having the above-described configuration, the standard pattern selection unit included in the speech recognition unit includes a plurality of standard patterns related to speech based on the determination results of the steady noise amount determination unit and the steady noise addition determination unit. The standard pattern used for voice recognition is selected from the standard pattern storage means for storing the voice, and the voice collation means collates the voice input by the voice input means with the standard pattern selected by the standard pattern selection means to obtain the voice. Is recognized based on the determination results of the steady noise amount determination means and the steady noise addition determination means, and whether or not stationary noise is added to the speech is determined, and the standard pattern used for speech recognition is changed to an appropriate one. be able to.

請求項1に記載の車両用音声認識装置によれば、車室内の定常ノイズ量が所定値よりも小さく、かつ定常ノイズを加算する必要がある場合には、定常ノイズが加算された音声の音声認識を実行し、それ以外の場合には、音声入力手段により入力されたそのままの音声の音声認識を実行することができる。
従って、車室内が静かで定常ノイズが少なく、音声認識するべき話者の音声の音声認識を妨害する非定常ノイズが目立つ場合にのみ定常ノイズを付加して音声認識を実行し、車室内が静かで更に非定常ノイズも発生していない場合や、車室内に十分な定常ノイズが発生している場合等、定常ノイズを付加する必要がない場合には不必要にノイズを付加することなく音声認識を実行するような、音声認識装置の周囲の環境に応じて効率的かつ正確に音声を認識可能な車両用音声認識装置を実現することができるという効果が得られる。
According to the vehicle voice recognition device of claim 1, when the steady noise amount in the vehicle compartment is smaller than the predetermined value and the steady noise needs to be added, the voice of the voice to which the steady noise is added. In other cases, it is possible to execute voice recognition of the voice as it is input by the voice input means.
Therefore, voice recognition is performed by adding stationary noise only when the vehicle interior is quiet and there is little stationary noise, and non-stationary noise that interferes with the speech recognition of the speaker to be recognized is conspicuous. If there is no need to add stationary noise, such as when there is no unsteady noise, or when there is sufficient stationary noise in the passenger compartment, voice recognition is performed without adding unnecessary noise. Thus, there is an effect that it is possible to realize a vehicle voice recognition device that can recognize voice efficiently and accurately according to the environment around the voice recognition device.

さらに、車室内の乗員の数、もしくは車室内の乗員の位置に基づき、音声認識するべき話者の音声の音声認識を妨害する非定常ノイズの発生及びその影響を予測して、必要な時に入力された音声に定常ノイズを加算することができる。
従って、車室内の状態を適切に判断し、必要な時に入力された音声に定常ノイズを付加して、音声認識率を向上させることができるという効果が得られる。
Furthermore , based on the number of passengers in the passenger compartment or the position of the passengers in the passenger compartment, the occurrence of non-stationary noise that interferes with the voice recognition of the speaker who should recognize the speech and its effects are predicted and input when necessary. Stationary noise can be added to the generated voice.
Therefore, it is possible to appropriately determine the state of the passenger compartment, add stationary noise to the input voice when necessary, and improve the voice recognition rate.

請求項に記載の車両用音声認識装置によれば、車室内に備えられた音響機器の動作状態に基づき、音声認識するべき話者の音声の音声認識を妨害する非定常ノイズの発生を予測して、必要な時に入力された音声に定常ノイズを加算することができる。
従って、車室内の状態を適切に判断し、必要な時に入力された音声に定常ノイズを付加して、音声認識率を向上させることができるという効果が得られる。
According to the vehicular voice recognition device according to claim 2 , the occurrence of unsteady noise that interferes with the voice recognition of the voice of the speaker to be voice-recognized is predicted based on the operating state of the acoustic device provided in the vehicle interior. Thus, stationary noise can be added to the input voice when necessary.
Therefore, it is possible to appropriately determine the state of the passenger compartment, add stationary noise to the input voice when necessary, and improve the voice recognition rate.

請求項に記載の車両用音声認識装置によれば、定常ノイズ量判断手段及び定常ノイズ加算判断手段の判断結果に基づいて、音声に対する定常ノイズの付加の有無を判断し、音声認識に利用する標準パターンを適切なものに変更することができる。
従って、例えば車室内が静かで、更に音声認識するべき話者の音声の音声認識を妨害する非定常ノイズが発生していない時は、音声認識に静かな場合に用いる標準パターンを利用し、音声に定常ノイズが付加されている場合には、音声認識に定常ノイズを加算して作成した標準パターンを利用するような、入力されてくる音声や音声認識装置の周囲の環境に応じた適切な標準パターンを利用して更に音声認識率を向上させ、効率的かつ正確に音声を認識可能な車両用音声認識装置を実現することができるという効果が得られる。
According to the vehicle voice recognition apparatus of the third aspect , the presence / absence of addition of stationary noise to the voice is determined based on the determination results of the stationary noise amount determination means and the stationary noise addition determination means, and is used for voice recognition. The standard pattern can be changed to an appropriate one.
Therefore, for example, when the vehicle interior is quiet and there is no non-stationary noise that interferes with the speech recognition of the speaker to be recognized, the standard pattern used when the speech recognition is quiet is used. Appropriate standard according to the input voice and the environment around the voice recognition device, such as using a standard pattern created by adding steady noise to voice recognition. The effect of further improving the voice recognition rate using the pattern and realizing the vehicle voice recognition device capable of recognizing the voice efficiently and accurately is obtained.

以下、図面を参照して本発明の実施例について説明する。   Embodiments of the present invention will be described below with reference to the drawings.

(全体構成)
図1は、本発明の第1の実施例の車両用音声認識装置の構成を示すブロック図である。
図1において、本実施例の車両用音声認識装置は、該車両用音声認識装置が搭載された車両における車室内の定常ノイズの発生量を判断する車内定常ノイズ判断部1と、車内定常ノイズ判断部1の判断結果、及び同乗者の有無や人数等から推定した音声認識するべき話者以外の別人の音声等の音声認識の妨げとなる非定常ノイズの有無から、入力される音声に性質の明らかな定常ノイズを加算する必要があるか否かを判断するノイズ加算要否判断部2とを備えている。
(overall structure)
FIG. 1 is a block diagram showing the configuration of a vehicle speech recognition apparatus according to a first embodiment of the present invention.
In FIG. 1, the vehicle speech recognition apparatus according to the present embodiment includes an in-vehicle steady noise determination unit 1 that determines the amount of steady noise generated in a vehicle compartment in a vehicle equipped with the vehicle speech recognition apparatus, and an in-vehicle steady noise determination. Depending on the judgment result of part 1 and the presence or absence of passengers and the presence or absence of non-stationary noise that hinders speech recognition of other people other than the speaker who should be recognized by speech estimation based on the number of passengers, etc. And a noise addition necessity determination unit 2 that determines whether or not it is necessary to add clear stationary noise.

また、本実施例の車両用音声認識装置は、入力される音声に加算するための性質の明らかな定常ノイズを生成する定常ノイズ発生部3と、音声を取得するためのマイクロフォン等を備えた音声入力部4と、ノイズ加算要否判断部2の判断結果に基づいて、定常ノイズ発生部3の生成する定常ノイズを音声入力部4により入力された音声に加算する定常ノイズ加算部5と、定常ノイズ加算部5の出力する音声を、予め記憶している標準パターンと比較して音声認識する音声認識部6とを備えている。   In addition, the vehicle speech recognition apparatus according to the present embodiment includes a stationary noise generating unit 3 that generates stationary noise with a clear property to be added to input speech, a microphone that acquires a speech, and the like. Based on the determination result of the input unit 4, the noise addition necessity determination unit 2, the stationary noise addition unit 5 that adds the stationary noise generated by the stationary noise generation unit 3 to the voice input by the voice input unit 4, A speech recognition unit 6 that recognizes speech by comparing the speech output from the noise addition unit 5 with a standard pattern stored in advance is provided.

また、音声認識部6について更に詳細に説明すると、音声認識部6は、定常ノイズ加算部5の出力する音声を、例えば線形予測分析を利用して分析する分析部11と、分析部11の出力する分析結果から、例えばLPC(線形予測)ケプストラム係数を音声の特徴パラメータとして求める特徴パラメータ抽出部12と、特徴パラメータ抽出部12の出力する特徴パラメータと比較するための音声の標準パターンを予め記憶している標準パターン格納部13とを備えている。   The speech recognition unit 6 will be described in more detail. The speech recognition unit 6 analyzes the speech output from the stationary noise addition unit 5 using, for example, linear prediction analysis, and the output of the analysis unit 11. For example, a feature parameter extraction unit 12 that obtains, for example, an LPC (linear prediction) cepstrum coefficient as a feature parameter of speech, and a speech standard pattern for comparison with the feature parameter output from the feature parameter extraction unit 12 are stored in advance. The standard pattern storage unit 13 is provided.

また、音声認識部6は、特徴パラメータ抽出部12の出力する特徴パラメータの時系列データと標準パターン格納部13の出力する音声の標準パターンとのパターンマッチングを行い、特徴パラメータとの類似度が最大になる標準パターンに対応する音声を音声認識結果として出力する照合部14とを備えている。なお、標準パターン格納部13に記憶する音声の標準パターンは、認識対象とする各音声に対して、標準パターン作成用データを用いて予め作成しておく。   In addition, the speech recognition unit 6 performs pattern matching between the time series data of the feature parameters output from the feature parameter extraction unit 12 and the standard pattern of speech output from the standard pattern storage unit 13, and the degree of similarity with the feature parameters is maximized. And a collation unit 14 that outputs a voice corresponding to the standard pattern as a voice recognition result. Note that the standard pattern of speech stored in the standard pattern storage unit 13 is created in advance using standard pattern creation data for each speech to be recognized.

(音声認識処理)
次に、図面を参照して、本実施例の車両用音声認識装置の音声認識処理について説明する。図2は、本実施例の車両用音声認識装置の音声認識処理動作を示すフローチャートである。
図2において、車内定常ノイズ判断部1は、本実施例の車両用音声認識装置の利用者が発話を行うためにトークスイッチを押下して音声を入力した際に(ステップS1)、車室内の定常ノイズ量を測定し、車室内の定常ノイズ量が所定値以上であるか否かを判定する(ステップS2)。具体的には、例えばトークスイッチが押下されて利用者の発話が開始された時の車室内の定常ノイズ量を測定すると共に、利用者の音声と車室内の定常ノイズとのS/N比がしきい値TH1以下であるか否かを判定し、利用者の音声と車室内の定常ノイズとのS/N比がしきい値TH1以下である場合には、車室内の定常ノイズ量が所定値以上であると判定する。なお、直接的に車両の走行速度Vsが所定値TH2以上であるか否かを判定するようにしても良い。
(Voice recognition processing)
Next, with reference to the drawings, the voice recognition processing of the vehicle voice recognition apparatus of the present embodiment will be described. FIG. 2 is a flowchart showing the voice recognition processing operation of the vehicle voice recognition apparatus of the present embodiment.
In FIG. 2, when the user of the vehicle speech recognition apparatus of this embodiment presses the talk switch and inputs a voice in order to speak (step S <b> 1), the vehicle interior steady noise determination unit 1 The steady noise amount is measured, and it is determined whether or not the steady noise amount in the passenger compartment is equal to or greater than a predetermined value (step S2). Specifically, for example, the steady noise amount in the passenger compartment when the talk switch is pressed and the user's utterance is started is measured, and the S / N ratio between the user's voice and the stationary noise in the passenger compartment is determined. It is determined whether or not the threshold value TH1 is equal to or less than the threshold value TH1, and when the S / N ratio between the user's voice and the steady noise in the vehicle interior is equal to or less than the threshold value TH1, the steady noise amount in the vehicle interior is predetermined. Determined to be greater than or equal to the value. Note that it may be directly determined whether or not the traveling speed Vs of the vehicle is equal to or greater than a predetermined value TH2.

そして、ステップS2において、車内定常ノイズ判断部1が車室内の定常ノイズ量は所定値以上ではないと判断した場合(ステップS2のNO)、次にノイズ加算要否判断部2が、音声入力部4により入力された音声に性質の明らかな定常ノイズを加算する必要があるか否かを判断する(ステップS3)。具体的には、ノイズ加算要否判断部2は、例えば車両の座席に設置された着座センサ等の乗員検知手段を利用して、車室内の乗員の数を検知すると共に、音声認識するべき話者(車両用音声認識装置の利用者)以外の乗員(同乗者)の数や車室内の乗員の位置に基づいて、入力された音声に性質の明らかな定常ノイズを加算する必要があるか否かを判断する。   In step S2, if the vehicle interior steady noise determination unit 1 determines that the amount of steady noise in the vehicle interior is not equal to or greater than a predetermined value (NO in step S2), then the noise addition necessity determination unit 2 performs the voice input unit. 4 determines whether it is necessary to add stationary noise with a clear nature to the voice input in step 4 (step S3). Specifically, the noise addition necessity determination unit 2 detects the number of passengers in the passenger compartment using a passenger detection means such as a seating sensor installed in a vehicle seat, for example, and a speech to be recognized. Whether it is necessary to add stationary noise with obvious characteristics to the input speech based on the number of passengers (passengers) other than passengers (users of the vehicle voice recognition device) and the positions of passengers in the passenger compartment Determine whether.

例えば、車両用音声認識装置の利用者以外の乗員が存在すれば、音声認識するべき話者以外の別人の音声が、音声認識するべき話者の音声の音声認識を妨害する非定常ノイズとして入力される可能性があるので、これを打ち消すために性質の明らかな定常ノイズを加算する必要があると判断する。   For example, if there is an occupant other than the user of the vehicle voice recognition device, the voice of another person other than the speaker who should recognize the voice is input as non-stationary noise that interferes with the voice recognition of the voice of the speaker who should recognize the voice. In order to cancel this, it is determined that it is necessary to add stationary noise with obvious properties.

また、このような場合でも、例えば車両用音声認識装置のマイクロフォン(音声入力部4)が車室内前方のインストルメントパネルやセンタコンソールに設置され、音声認識するべき話者(車両用音声認識装置の利用者)以外の乗員が、車両用音声認識装置のマイクロフォン(音声入力部4)から遠い後部座席に存在する場合は、音声認識を妨害する非定常ノイズの影響は少ないと推定できるので、ノイズ加算要否判断部2は、入力された音声に定常ノイズを加算する必要はないと判断することができる。なお、車室内の乗員の位置に基づいて入力された音声に定常ノイズを加算する必要があるか否かを判断する場合は、実際の車両用音声認識装置のマイクロフォン(音声入力部4)の設置位置と乗員の位置とから判断する。   Even in such a case, for example, a microphone (speech input unit 4) of a vehicle speech recognition device is installed on an instrument panel or a center console in front of the passenger compartment, and a speaker (a vehicle speech recognition device When a passenger other than the user is present in the rear seat far from the microphone (speech input unit 4) of the vehicle speech recognition device, it can be estimated that the influence of non-stationary noise that disturbs speech recognition is small. The necessity determination unit 2 can determine that it is not necessary to add stationary noise to the input voice. When it is determined whether it is necessary to add stationary noise to the input voice based on the position of the passenger in the vehicle compartment, the microphone (voice input unit 4) of the actual vehicle voice recognition device is installed. Judging from the position and the position of the occupant.

また、ノイズ加算要否判断部2は、入力された音声に定常ノイズを加算する必要があるか否かを、音声入力部4に同時に入力される音声の話者の数に基づいて判断しても良い。すなわち、音声認識するべき話者(車両用音声認識装置の利用者)以外の乗員が車室内に存在しても、この乗員が発話していなければ、音声認識するべき話者の音声の音声認識を妨害する非定常ノイズは存在しない。そこで、音声入力部4に同時に入力される音声の話者の数が一人と認識できる場合、ノイズ加算要否判断部2は、入力された音声に定常ノイズを加算する必要はないと判断する。また、音声入力部4に同時に入力される音声の話者の数が複数と認識できる場合、ノイズ加算要否判断部2は、入力された音声に定常ノイズを加算する必要があると判断する。   Further, the noise addition necessity determination unit 2 determines whether or not it is necessary to add stationary noise to the input voice based on the number of voice speakers simultaneously input to the voice input unit 4. Also good. That is, even if there is an occupant other than the speaker (user of the vehicle speech recognition device) that should be speech-recognized, if the occupant is not speaking, the speech recognition of the speaker to be speech-recognized. There is no non-stationary noise that interferes. Therefore, when it is possible to recognize that the number of voice speakers simultaneously input to the voice input unit 4 is one, the noise addition necessity determination unit 2 determines that it is not necessary to add stationary noise to the input voice. When the number of voice speakers simultaneously input to the voice input unit 4 can be recognized as plural, the noise addition necessity determination unit 2 determines that it is necessary to add stationary noise to the input voice.

また、上述の説明では、音声認識を妨害する非定常ノイズの発生源は、音声認識するべき話者(車両用音声認識装置の利用者)以外の乗員として説明したが、テレビやラジオ、あるいはオーディオ等、車室内に備えられた音響機器の出力音声も音声認識を妨害する非定常ノイズの1つとして考えることができるので、ノイズ加算要否判断部2は、入力された音声に定常ノイズを加算する必要があるか否かを、車室内に備えられた音響機器の動作状態に基づいて判断しても良い。そこで、車室内に備えられた音響機器が作動していない場合、ノイズ加算要否判断部2は、入力された音声に定常ノイズを加算する必要はないと判断する。また、車室内に備えられた音響機器が作動している場合、ノイズ加算要否判断部2は、入力された音声に定常ノイズを加算する必要があると判断する。   In the above description, the source of non-stationary noise that interferes with speech recognition has been described as an occupant other than a speaker (a user of a vehicle speech recognition device) that should be speech-recognized. Since the output sound of the acoustic equipment provided in the vehicle interior can also be considered as one of the non-stationary noises that disturb the speech recognition, the noise addition necessity determination unit 2 adds the steady noise to the input sounds. Whether or not it is necessary to do so may be determined based on the operating state of the audio equipment provided in the passenger compartment. Therefore, when the acoustic device provided in the passenger compartment is not operating, the noise addition necessity determination unit 2 determines that it is not necessary to add stationary noise to the input voice. Moreover, when the audio equipment provided in the vehicle interior is operating, the noise addition necessity determination unit 2 determines that it is necessary to add stationary noise to the input voice.

なお、ノイズ加算要否判断部2は、入力された音声に定常ノイズを加算する必要があるか否かを、上述の音声認識するべき話者以外の乗員の数や位置、あるいは音声入力部4に同時に入力される音声の話者の数、あるいは車室内に備えられた音響機器の動作状態のいずれかの条件だけで判断しても良いし、これらの条件を組み合わせて判断しても良い。   The noise addition necessity determination unit 2 determines whether or not it is necessary to add stationary noise to the input voice. The number or position of passengers other than the speaker to be voice-recognized or the voice input unit 4 Judgment may be made based only on the condition of the number of voice speakers that are input simultaneously or the operating state of the acoustic equipment provided in the vehicle interior, or a combination of these conditions.

一方、ステップS3において、ノイズ加算要否判断部2が音声入力部4により入力された音声に定常ノイズを加算する必要があると判断した場合(ステップS3のYES)、定常ノイズ加算部5が、音声入力部4により入力された音声に、定常ノイズ発生部3の生成する性質の明らかな定常ノイズを加算する(ステップS4)。具体的には、入力された音声と加算する定常ノイズを示す図3のように、図3(a)に示す入力された音声の信号に、図3(b)に示すような定常ノイズを加算して、図3(a)に示す信号のA部あるいはB部にある非定常ノイズが音声認識に与える影響を軽減する。   On the other hand, when the noise addition necessity determination unit 2 determines in step S3 that it is necessary to add stationary noise to the voice input by the voice input unit 4 (YES in step S3), the stationary noise addition unit 5 Stationary noise with obvious properties generated by the stationary noise generator 3 is added to the voice input by the voice input unit 4 (step S4). Specifically, as shown in FIG. 3 showing the stationary noise to be added to the input voice, the stationary noise as shown in FIG. 3B is added to the input voice signal shown in FIG. Thus, the influence of the non-stationary noise in the A part or B part of the signal shown in FIG.

また、音声入力部4により入力された音声に、定常ノイズ加算部5により定常ノイズを加算することができたら、分析部11が線形予測分析を行い、特徴パラメータ抽出部12が入力された音声の特徴パラメータを抽出する(ステップS5)。
そして、音声の特徴パラメータを抽出することができたら、照合部14が、特徴パラメータ抽出部12の出力する特徴パラメータの時系列データと標準パターン格納部13の出力する音声の標準パターンとのパターンマッチングを行い(ステップS6)、特徴パラメータとの類似度が最大になる標準パターンに対応する音声を音声認識結果として出力し(ステップS7)、音声認識処理を終了する。
If the stationary noise can be added to the speech input by the speech input unit 4 by the stationary noise addition unit 5, the analysis unit 11 performs linear prediction analysis, and the feature parameter extraction unit 12 inputs the speech. Feature parameters are extracted (step S5).
When the speech feature parameters can be extracted, the matching unit 14 performs pattern matching between the feature parameter time-series data output from the feature parameter extraction unit 12 and the speech standard pattern output from the standard pattern storage unit 13. (Step S6), the voice corresponding to the standard pattern that maximizes the similarity to the feature parameter is output as the voice recognition result (step S7), and the voice recognition process is terminated.

また、ステップS2において、車内定常ノイズ判断部1が車室内の定常ノイズ量は所定値以上であると判断した場合は(ステップS2のYES)、入力された音声に定常ノイズの加算は行わず、ステップS5において、そのまま分析部11が音声入力部4により入力された音声の線形予測分析を行い、特徴パラメータ抽出部12が入力された音声の特徴パラメータを抽出する(ステップS5)。   In step S2, if the in-vehicle steady noise determining unit 1 determines that the amount of steady noise in the vehicle interior is equal to or greater than a predetermined value (YES in step S2), the steady noise is not added to the input voice. In step S5, the analysis unit 11 performs linear prediction analysis of the speech input by the speech input unit 4 as it is, and the feature parameter extraction unit 12 extracts the feature parameters of the input speech (step S5).

また、ステップS3において、ノイズ加算要否判断部2が音声入力部4により入力された音声に定常ノイズを加算する必要はないと判断した場合も(ステップS3のNO)、入力された音声に定常ノイズの加算は行わず、ステップS5において、そのまま分析部11が音声入力部4により入力された音声の線形予測分析を行い、特徴パラメータ抽出部12が入力された音声の特徴パラメータを抽出する(ステップS5)。   In step S3, when the noise addition necessity determination unit 2 determines that it is not necessary to add stationary noise to the voice input by the voice input unit 4 (NO in step S3), the input voice is steady. In step S5, noise is not added, and the analysis unit 11 performs linear prediction analysis of the speech input by the speech input unit 4 as it is, and the feature parameter extraction unit 12 extracts the feature parameters of the input speech (step S5). S5).

以上説明したように、本実施例の車両用音声認識装置は、車内定常ノイズ判断部1が車室内の定常ノイズ量は所定値以上ではないと判断した場合、ノイズ加算要否判断部2が、音声認識するべき話者以外の乗員の数や位置、あるいは音声入力部4に同時に入力される音声の話者の数、あるいは車室内に備えられた音響機器の動作状態等から、音声入力部4により入力された音声に、性質の明らかな定常ノイズを加算する必要があるか否かを判断する。そして、もし入力された音声に定常ノイズを加算する必要があると判断された場合、定常ノイズ加算部5が、入力された音声に定常ノイズ発生部3の生成する性質の明らかな定常ノイズを加算する。次に、分析部11が線形予測分析を行い、特徴パラメータ抽出部12が入力された音声の特徴パラメータを抽出する。そして、照合部14が、特徴パラメータ抽出部12の出力する特徴パラメータの時系列データと標準パターン格納部13の出力する音声の標準パターンとのパターンマッチングを行い、特徴パラメータとの類似度が最大になる標準パターンに対応する音声を音声認識結果として出力する。   As described above, in the vehicle speech recognition apparatus according to the present embodiment, when the in-vehicle steady noise determination unit 1 determines that the amount of steady noise in the vehicle interior is not equal to or greater than a predetermined value, the noise addition necessity determination unit 2 The voice input unit 4 is determined based on the number and positions of passengers other than the speakers to be recognized by voice, the number of voice speakers simultaneously input to the voice input unit 4, or the operating state of the acoustic equipment provided in the vehicle interior. To determine whether it is necessary to add stationary noise with a clear nature to the input voice. If it is determined that it is necessary to add stationary noise to the input speech, the stationary noise adding unit 5 adds the stationary noise that is clearly generated by the stationary noise generating unit 3 to the input speech. To do. Next, the analysis unit 11 performs linear prediction analysis, and the feature parameter extraction unit 12 extracts the feature parameters of the input speech. Then, the matching unit 14 performs pattern matching between the time series data of the feature parameter output from the feature parameter extraction unit 12 and the standard pattern of the voice output from the standard pattern storage unit 13, and the similarity with the feature parameter is maximized. The voice corresponding to the standard pattern is output as the voice recognition result.

これにより、車室内の定常ノイズ量が所定値よりも小さく、かつ定常ノイズを加算する必要がある場合には、定常ノイズが加算された音声の音声認識を実行し、それ以外の場合には、音声入力部4により入力されたそのままの音声の音声認識を実行することができる。
従って、例えば車両が停止している場合等、車室内が静かで定常ノイズが少なく、同乗者の音声等、音声認識するべき話者の音声の音声認識を妨害する非定常ノイズが目立つ場合にのみ定常ノイズを付加して音声を認識し、例えば車室内が静かで更に非定常ノイズも発生していない場合や、あるいは車両が走行しているために十分な定常ノイズが発生している場合等、定常ノイズを付加する必要がない場合には不必要にノイズを付加することなく音声を認識するような、音声認識装置の周囲の環境に応じて効率的かつ正確に音声を認識可能な車両用音声認識装置を実現することができるという効果が得られる。
Thereby, when the steady noise amount in the passenger compartment is smaller than the predetermined value and it is necessary to add the steady noise, the voice recognition of the voice to which the steady noise is added is executed, and in other cases, Voice recognition of the voice as it is input by the voice input unit 4 can be executed.
Therefore, for example, when the vehicle is stationary, the vehicle interior is quiet and there is little steady noise, and only when there is noticeable non-stationary noise that interferes with voice recognition of the speaker's voice, such as the passenger's voice. Recognize voice by adding stationary noise, for example, when the vehicle interior is quiet and no non-stationary noise is generated, or when sufficient stationary noise is generated because the vehicle is running, etc. Voice for vehicles that can recognize voice efficiently and accurately according to the surrounding environment of the voice recognition device, such as recognizing voice without adding noise unnecessarily when it is not necessary to add stationary noise The effect that a recognition device can be realized is obtained.

また、ノイズ加算要否判断部2が、音声認識するべき話者以外の乗員の数や位置、あるいは音声入力部4に同時に入力される音声の話者の数、あるいは車室内に備えられた音響機器の動作状態等から、音声入力部4により入力された音声に、性質の明らかな定常ノイズを加算する必要があるか否かを判断することで、同乗者の音声や車室内の音響機器が出力する音声等、音声認識するべき話者の音声の音声認識を妨害する非定常ノイズの発生及びその影響を予測したり、非定常ノイズの発生を直接検知して、必要な時に入力された音声に定常ノイズを加算することができる。
従って、定常ノイズを付加するべき状態をより正確に判断し、入力された音声に定常ノイズを付加することで、音声認識率を向上させることができるという効果が得られる。
Further, the noise addition necessity determination unit 2 determines the number and position of passengers other than the speaker to be recognized by voice, the number of voice speakers input simultaneously to the voice input unit 4, or the sound provided in the passenger compartment. By determining whether or not it is necessary to add stationary noise with obvious characteristics to the voice input by the voice input unit 4 based on the operating state of the equipment, the passenger's voice and the acoustic equipment in the passenger compartment Voice that is input when necessary by predicting the occurrence and effects of non-stationary noise that interferes with the voice recognition of the speaker's voice that should be recognized, such as the output voice Stationary noise can be added to.
Therefore, it is possible to improve the speech recognition rate by more accurately determining the state to which stationary noise should be added and adding stationary noise to the input speech.

次に、本発明の第2の実施例について説明する。
(全体構成)
図4は、本発明の第2の実施例の車両用音声認識装置の構成を示すブロック図である。
図4において、本実施例の車両用音声認識装置は、車内定常ノイズ判断部1と、ノイズ加算要否判断部2と、定常ノイズ発生部3と、音声入力部4と、定常ノイズ加算部5と、音声認識部7とを備えている。ここで、車内定常ノイズ判断部1と、ノイズ加算要否判断部2と、定常ノイズ発生部3と、音声入力部4と、定常ノイズ加算部5は、図1に示す本発明の第1の実施例の車両用音声認識装置を構成する構成要素と同一なので、説明は省略する。
Next, a second embodiment of the present invention will be described.
(overall structure)
FIG. 4 is a block diagram showing the configuration of the vehicle voice recognition apparatus according to the second embodiment of the present invention.
In FIG. 4, the vehicle speech recognition apparatus according to the present embodiment includes a vehicle interior steady noise determination unit 1, a noise addition necessity determination unit 2, a steady noise generation unit 3, a speech input unit 4, and a steady noise addition unit 5. And a voice recognition unit 7. Here, the in-vehicle steady noise determining unit 1, the noise addition necessity determining unit 2, the steady noise generating unit 3, the voice input unit 4, and the steady noise adding unit 5 are the first of the present invention shown in FIG. Since it is the same as the component which comprises the speech recognition apparatus for vehicles of an Example, description is abbreviate | omitted.

一方、音声認識部7について更に詳細に説明すると、音声認識部7は、定常ノイズ加算部5の出力する音声を、例えば線形予測分析を利用して分析する分析部11と、分析部11の出力する分析結果から、例えばLPC(線形予測)ケプストラム係数を音声の特徴パラメータとして求める特徴パラメータ抽出部12と、特徴パラメータ抽出部12の出力する特徴パラメータと比較するための音声の標準パターンを予め記憶している標準パターン格納部15とを備えている。   On the other hand, the speech recognition unit 7 will be described in more detail. The speech recognition unit 7 analyzes the speech output from the stationary noise addition unit 5 using, for example, linear prediction analysis, and the output of the analysis unit 11. For example, a feature parameter extraction unit 12 that obtains, for example, an LPC (linear prediction) cepstrum coefficient as a feature parameter of speech, and a speech standard pattern for comparison with the feature parameter output from the feature parameter extraction unit 12 are stored in advance. The standard pattern storage unit 15 is provided.

なお、標準パターン格納部15に予め記憶しておく音声の標準パターンには、認識対象とする各音声に対して、何も手を加えない標準パターン作成用データを用いて予め作成しておくものと、認識対象とする各音声に対して、定常ノイズ発生部3で生成される定常ノイズと同質のものを一定の割合で加えた標準パターン作成用データを用いて予め作成しておくものと、複数種類の標準パターンを用意する。   In addition, the standard pattern of the voice stored in advance in the standard pattern storage unit 15 is created in advance using standard pattern creation data that does not change anything for each voice to be recognized. And for each voice to be recognized, created in advance using standard pattern creation data obtained by adding the same quality of stationary noise generated by the stationary noise generating unit 3 at a constant rate, Prepare multiple types of standard patterns.

また、音声認識部7は、車内定常ノイズ判断部1、及びノイズ加算要否判断部2の判断結果に基づいて、標準パターン格納部15に、標準パターン格納部15に記憶された複数種類の標準パターンの中のどの標準パターンを音声認識に利用するかを指示する標準パターン選択部16と、特徴パラメータ抽出部12の出力する特徴パラメータの時系列データと標準パターン選択部16の選択に基づいて標準パターン格納部15が出力する音声の標準パターンとのパターンマッチングを行い、特徴パラメータとの類似度が最大になる標準パターンに対応する音声を音声認識結果として出力する照合部14とを備えている。   The voice recognition unit 7 also includes a plurality of types of standards stored in the standard pattern storage unit 15 in the standard pattern storage unit 15 based on the determination results of the in-vehicle steady noise determination unit 1 and the noise addition necessity determination unit 2. A standard pattern selection unit 16 for instructing which standard pattern in the pattern is used for speech recognition, time series data of feature parameters output from the feature parameter extraction unit 12, and a standard pattern selection unit 16 based on the selection A matching unit 14 is provided that performs pattern matching with a standard pattern of speech output from the pattern storage unit 15 and outputs speech corresponding to a standard pattern that maximizes the similarity to the feature parameter as a speech recognition result.

(音声認識処理)
次に、図面を参照して、本実施例の車両用音声認識装置の音声認識処理について説明する。図5は、本実施例の車両用音声認識装置の音声認識処理動作を示すフローチャートである。
図5において、車内定常ノイズ判断部1は、本実施例の車両用音声認識装置の利用者が発話を行うためにトークスイッチを押下して音声を入力した際に(ステップS11)、車室内の定常ノイズ量を測定し、車室内の定常ノイズ量が所定値以上であるか否かを判定する(ステップS12)。なお、ステップS12における車室内の定常ノイズ量の判断方法は、第1の実施例の車両用音声認識装置のステップS2の処理と同一とする。
(Voice recognition processing)
Next, with reference to the drawings, the voice recognition processing of the vehicle voice recognition apparatus of the present embodiment will be described. FIG. 5 is a flowchart showing the voice recognition processing operation of the vehicle voice recognition apparatus of the present embodiment.
In FIG. 5, when the user of the vehicle speech recognition apparatus of the present embodiment presses the talk switch and inputs a voice in order to speak (step S11), the in-vehicle steady noise determination unit 1 The steady noise amount is measured, and it is determined whether or not the steady noise amount in the passenger compartment is a predetermined value or more (step S12). Note that the determination method of the steady noise amount in the vehicle interior in step S12 is the same as the processing in step S2 of the vehicle speech recognition apparatus of the first embodiment.

そして、ステップS12において、車内定常ノイズ判断部1が車室内の定常ノイズ量は所定値以上ではないと判断した場合(ステップS12のNO)、次にノイズ加算要否判断部2が、音声入力部4により入力された音声に性質の明らかな定常ノイズを加算する必要があるか否かを判断する(ステップS13)。なお、ステップS13における入力された音声に対する定常ノイズの加算の要否の判断方法は、第1の実施例の車両用音声認識装置のステップS3の処理と同一とする。   In step S12, if the vehicle interior steady noise determination unit 1 determines that the amount of steady noise in the vehicle interior is not greater than or equal to a predetermined value (NO in step S12), then the noise addition necessity determination unit 2 performs the voice input unit. 4 determines whether it is necessary to add stationary noise with a clear nature to the voice input in step 4 (step S13). Note that the method for determining whether or not stationary noise needs to be added to the input speech in step S13 is the same as the processing in step S3 of the vehicle speech recognition apparatus of the first embodiment.

また、ステップS13において、ノイズ加算要否判断部2が音声入力部4により入力された音声に定常ノイズを加算する必要があると判断した場合(ステップS13のYES)、第1の実施例において図3を参照して説明したように、定常ノイズ加算部5が、音声入力部4により入力された音声に、定常ノイズ発生部3の生成する性質の明らかな定常ノイズを加算する(ステップS14)。
また、音声入力部4により入力された音声に、定常ノイズ加算部5により定常ノイズを加算することができたら、分析部11が線形予測分析を行い、特徴パラメータ抽出部12が入力された音声の特徴パラメータを抽出する(ステップS15)。
Also, in step S13, when the noise addition necessity determination unit 2 determines that it is necessary to add stationary noise to the voice input by the voice input unit 4 (YES in step S13), FIG. As described with reference to FIG. 3, the stationary noise adding unit 5 adds the stationary noise that is clearly generated by the stationary noise generating unit 3 to the voice input by the voice input unit 4 (step S14).
If the stationary noise can be added to the speech input by the speech input unit 4 by the stationary noise addition unit 5, the analysis unit 11 performs linear prediction analysis, and the feature parameter extraction unit 12 inputs the speech. Feature parameters are extracted (step S15).

また、ステップS12において、車内定常ノイズ判断部1が車室内の定常ノイズ量は所定値以上であると判断した場合は(ステップS12のYES)、入力された音声に定常ノイズの加算は行わず、ステップS15において、そのまま分析部11が音声入力部4により入力された音声の線形予測分析を行い、特徴パラメータ抽出部12が入力された音声の特徴パラメータを抽出する(ステップS15)。   In step S12, when the vehicle interior stationary noise determination unit 1 determines that the amount of stationary noise in the vehicle interior is equal to or greater than a predetermined value (YES in step S12), the stationary noise is not added to the input voice. In step S15, the analysis unit 11 performs the linear prediction analysis of the speech input by the speech input unit 4 as it is, and the feature parameter extraction unit 12 extracts the feature parameter of the input speech (step S15).

一方、ステップS14において音声入力部4により入力された音声に定常ノイズが加算された場合、あるいはステップS12において車室内の定常ノイズ量は所定値以上であると判断された場合は、定常ノイズが付加されている音声が音声認識の対象となるので、標準パターン選択部16は、車内定常ノイズ判断部1、あるいはノイズ加算要否判断部2の判断結果に基づいて、標準パターン格納部15に、標準パターン格納部15に記憶された複数種類の標準パターンの中から、定常ノイズ発生部3で生成される定常ノイズと同質のものを一定の割合で加えた標準パターン作成用データから作成した標準パターン1を音声認識に利用するように指示する(ステップS16)。   On the other hand, when the stationary noise is added to the voice input by the voice input unit 4 in step S14, or when it is determined in step S12 that the stationary noise amount in the vehicle interior is equal to or greater than the predetermined value, the stationary noise is added. Therefore, the standard pattern selection unit 16 stores the standard pattern storage unit 15 in the standard pattern storage unit 15 based on the determination result of the in-vehicle steady noise determination unit 1 or the noise addition necessity determination unit 2. A standard pattern 1 created from standard pattern creation data obtained by adding, at a constant rate, the same quality as the stationary noise generated by the stationary noise generating unit 3 from a plurality of types of standard patterns stored in the pattern storage unit 15 Is used for voice recognition (step S16).

そして、音声の特徴パラメータを抽出し、音声認識に利用する音声の標準パターンを指定することができたら、照合部14が、特徴パラメータ抽出部12の出力する特徴パラメータの時系列データと標準パターン選択部16の選択に基づいて標準パターン格納部15が出力する音声の標準パターン1とのパターンマッチングを行い(ステップS17)、特徴パラメータとの類似度が最大になる標準パターンに対応する音声を音声認識結果として出力し(ステップS18)、音声認識処理を終了する。   Then, after extracting the speech feature parameters and designating the speech standard pattern to be used for speech recognition, the collating unit 14 selects the feature parameter time-series data output from the feature parameter extracting unit 12 and the standard pattern selection. Based on the selection of the unit 16, pattern matching with the standard pattern 1 of the voice output from the standard pattern storage unit 15 is performed (step S17), and the voice corresponding to the standard pattern having the maximum similarity with the feature parameter is recognized as voice. As a result (step S18), the speech recognition process is terminated.

また、ステップS13において、ノイズ加算要否判断部2が音声入力部4により入力された音声に定常ノイズを加算する必要はないと判断した場合(ステップS13のNO)、入力された音声に定常ノイズの加算は行わず、そのまま分析部11が音声入力部4により入力された音声の線形予測分析を行い、特徴パラメータ抽出部12が入力された音声の特徴パラメータを抽出する(ステップS19)。   In Step S13, when the noise addition necessity determination unit 2 determines that it is not necessary to add stationary noise to the voice input by the voice input unit 4 (NO in Step S13), the stationary noise is added to the input voice. The analysis unit 11 performs the linear prediction analysis of the speech input by the speech input unit 4 as it is, and the feature parameter extraction unit 12 extracts the feature parameter of the input speech (step S19).

なお、ステップS13において音声入力部4により入力された音声に定常ノイズを加算する必要はないと判断された場合は、定常ノイズが加算されていない音声が音声認識の対象となるので、標準パターン選択部16は、ノイズ加算要否判断部2の判断結果に基づいて、標準パターン格納部15に、標準パターン格納部15に記憶された複数種類の標準パターンの中から、何も手を加えない標準パターン作成用データから作成した標準パターン2を音声認識に利用するように指示する(ステップS20)。   If it is determined that it is not necessary to add stationary noise to the voice input by the voice input unit 4 in step S13, the voice to which the stationary noise is not added is subject to voice recognition. Based on the determination result of the noise addition necessity determination unit 2, the unit 16 causes the standard pattern storage unit 15 to change the standard from among a plurality of types of standard patterns stored in the standard pattern storage unit 15. The standard pattern 2 created from the pattern creation data is instructed to be used for voice recognition (step S20).

そして、音声の特徴パラメータを抽出し、音声認識に利用する音声の標準パターンを指定することができたら、照合部14が、特徴パラメータ抽出部12の出力する特徴パラメータの時系列データと標準パターン選択部16の選択に基づいて標準パターン格納部15が出力する音声の標準パターン2とのパターンマッチングを行い(ステップS21)、ステップS18において特徴パラメータとの類似度が最大になる標準パターンに対応する音声を音声認識結果として出力し(ステップS18)、音声認識処理を終了する。   Then, after extracting the speech feature parameters and designating the speech standard pattern to be used for speech recognition, the collating unit 14 selects the feature parameter time-series data output from the feature parameter extracting unit 12 and the standard pattern selection. Based on the selection of the unit 16, pattern matching with the standard pattern 2 of the voice output from the standard pattern storage unit 15 is performed (step S21), and the voice corresponding to the standard pattern that maximizes the similarity with the feature parameter in step S18 Is output as a voice recognition result (step S18), and the voice recognition process is terminated.

以上説明したように、本実施例の車両用音声認識装置は、第1の実施例の車両用音声認識装置と同様に、車内定常ノイズ判断部1が車室内の定常ノイズ量は所定値以上ではないと判断した場合、ノイズ加算要否判断部2が、音声入力部4により入力された音声に、性質の明らかな定常ノイズを加算する必要があるか否かを判断する。そして、もし入力された音声に定常ノイズを加算する必要があると判断された場合、定常ノイズ加算部5が、入力された音声に定常ノイズ発生部3の生成する性質の明らかな定常ノイズを加算する。次に、分析部11が線形予測分析を行い、特徴パラメータ抽出部12が入力された音声の特徴パラメータを抽出する。一方、もし入力された音声に定常ノイズを加算する必要がないと判断された場合、入力された音声に定常ノイズの加算は行わず、そのまま分析部11が入力された音声の線形予測分析を行い、特徴パラメータ抽出部12が入力された音声の特徴パラメータを抽出する。   As described above, the vehicular speech recognition apparatus of the present embodiment is similar to the vehicular speech recognition apparatus of the first embodiment in that the steady noise amount in the vehicle interior 1 is equal to or greater than a predetermined value. When it is determined that there is no noise, the noise addition necessity determination unit 2 determines whether it is necessary to add stationary noise with a clear nature to the voice input by the voice input unit 4. If it is determined that it is necessary to add stationary noise to the input speech, the stationary noise adding unit 5 adds the stationary noise that is clearly generated by the stationary noise generating unit 3 to the input speech. To do. Next, the analysis unit 11 performs linear prediction analysis, and the feature parameter extraction unit 12 extracts the feature parameters of the input speech. On the other hand, if it is determined that it is not necessary to add stationary noise to the input speech, the stationary noise is not added to the input speech, and the analysis unit 11 performs linear prediction analysis of the input speech as it is. The feature parameter extraction unit 12 extracts the feature parameters of the input speech.

また、本実施例の車両用音声認識装置では、入力された音声に定常ノイズを加算する必要があると判断された場合は、標準パターン選択部16が標準パターン格納部15に対して、定常ノイズ発生部3で生成される定常ノイズと同質のものを一定の割合で加えた標準パターン作成用データから作成した標準パターン1を音声認識に利用するように指示する。一方、入力された音声に定常ノイズを加算する必要がないと判断された場合には、何も手を加えない標準パターン作成用データから作成した標準パターン2を音声認識に利用するように指示する。そして、照合部14が、特徴パラメータ抽出部12の出力する特徴パラメータの時系列データと標準パターン格納部15の出力する音声の標準パターン1とのパターンマッチングを行い、特徴パラメータとの類似度が最大になる標準パターンに対応する音声を音声認識結果として出力する。   In the vehicle speech recognition apparatus according to the present embodiment, when it is determined that it is necessary to add stationary noise to the input voice, the standard pattern selection unit 16 makes a stationary noise to the standard pattern storage unit 15. An instruction is given to use the standard pattern 1 created from the data for creating the standard pattern in which the same quality as the stationary noise generated by the generating unit 3 is added at a constant rate for speech recognition. On the other hand, when it is determined that it is not necessary to add stationary noise to the input voice, an instruction is given to use the standard pattern 2 created from the standard pattern creation data without any modification for voice recognition. . Then, the matching unit 14 performs pattern matching between the time series data of the feature parameter output from the feature parameter extraction unit 12 and the standard pattern 1 of the voice output from the standard pattern storage unit 15, and the degree of similarity with the feature parameter is maximized. The voice corresponding to the standard pattern is output as the voice recognition result.

これにより、車室内の定常ノイズ量が所定値よりも小さく、かつ定常ノイズを加算する必要がある場合には、定常ノイズが加算された音声の音声認識を実行し、それ以外の場合には、音声入力部4により入力されたそのままの音声の音声認識を実行すると共に、車内定常ノイズ判断部1及びノイズ加算要否判断部2の判断結果に基づいて、音声に対する定常ノイズの付加の有無を判断し、音声認識に利用する標準パターンを適切なものに変更することができる。
従って、第1の実施例と同様に、車室内が静かで、同乗者の音声等、音声認識するべき話者の音声の音声認識を妨害する非定常ノイズが目立つ場合には定常ノイズを付加して音声を認識し、非定常ノイズが発生していない時や車両が走行しているために十分な定常ノイズが発生している場合等、定常ノイズを付加する必要がない場合には不必要にノイズを付加することなく音声を認識すると共に、音声に定常ノイズが付加されていない場合には、音声認識に静かな場合に用いる標準パターンを利用し、音声に定常ノイズが付加されている場合には、音声認識に定常ノイズを加算して作成した標準パターンを利用するような、入力されてくる音声や音声認識装置の周囲の環境に応じた適切な標準パターンを利用して更に音声認識率を向上させて、効率的かつ正確に音声を認識可能な車両用音声認識装置を実現することができるという効果が得られる。
Thereby, when the steady noise amount in the passenger compartment is smaller than the predetermined value and it is necessary to add the steady noise, the voice recognition of the voice to which the steady noise is added is executed, and in other cases, While performing speech recognition of the speech as it is input by the speech input unit 4, it is determined whether or not stationary noise is added to the speech based on the determination results of the in-vehicle steady noise determining unit 1 and the noise addition necessity determining unit 2. Thus, the standard pattern used for speech recognition can be changed to an appropriate one.
Therefore, as in the first embodiment, when the vehicle interior is quiet and unsteady noise that disturbs the voice recognition of the speaker to be recognized, such as the passenger's voice, is noticeable, the stationary noise is added. This is unnecessary when there is no need to add steady noise, such as when there is no steady noise or when there is sufficient steady noise because the vehicle is running. When recognizing speech without adding noise and when steady noise is not added to the speech, use a standard pattern that is used when the speech is quiet, and when stationary noise is added to the speech Uses a standard pattern created by adding stationary noise to speech recognition and uses an appropriate standard pattern according to the input speech and the surrounding environment of the speech recognition device. Improve Effect that efficiently and accurately can be realized recognizable speech recognition device for a vehicle audio.

本発明の第1の実施例の車両用音声認識装置の構成を示すブロック図である。It is a block diagram which shows the structure of the speech recognition apparatus for vehicles of 1st Example of this invention. 同実施例の車両用音声認識装置の音声認識処理動作を示すフローチャートである。It is a flowchart which shows the speech recognition process operation | movement of the speech recognition apparatus for vehicles of the Example. 入力された音声と加算する定常ノイズを示す図である。It is a figure which shows the stationary noise added with the input audio | voice. 本発明の第2の実施例の車両用音声認識装置の構成を示すブロック図である。It is a block diagram which shows the structure of the speech recognition apparatus for vehicles of 2nd Example of this invention. 同実施例の車両用音声認識装置の音声認識処理動作を示すフローチャートである。It is a flowchart which shows the speech recognition process operation | movement of the speech recognition apparatus for vehicles of the Example.

符号の説明Explanation of symbols

1 車内定常ノイズ判断部(定常ノイズ量判断手段)
2 ノイズ加算要否判断部(定常ノイズ加算判断手段)
3 定常ノイズ発生部(定常ノイズ加算手段)
4 音声入力部(音声入力手段)
5 定常ノイズ加算部(定常ノイズ加算手段)
6、7 音声認識部(音声認識手段)
14 照合部(音声照合手段)
15 標準パターン格納部(標準パターン記憶手段)
16 標準パターン選択部(標準パターン選択手段)



1 Car interior steady noise judgment section (steady noise amount judgment means)
2 Noise addition necessity judgment section (stationary noise addition judgment means)
3 Stationary noise generator (stationary noise addition means)
4 Voice input part (voice input means)
5 Stationary noise addition unit (stationary noise addition means)
6, 7 Voice recognition unit (voice recognition means)
14 Verification unit (voice verification means)
15 Standard pattern storage (standard pattern storage means)
16 Standard pattern selection unit (standard pattern selection means)



Claims (3)

音声による入力が可能な音声入力手段と、
前記音声入力手段により入力された音声の音声認識を実行する音声認識手段と、
車室内の定常ノイズ量が所定値以上か否かを判定する定常ノイズ量判断手段と、
前記車室内の定常ノイズ量が所定値よりも小さいと前記定常ノイズ量判断手段が判断した場合に、前記音声入力手段により入力された音声に定常ノイズを加算する必要があるか否かを判断する定常ノイズ加算判断手段と、
前記音声入力手段により入力された音声に定常ノイズを加算する必要があると前記定常ノイズ加算判断手段が判断した場合に、前記音声入力手段により入力された音声に定常ノイズを加算する定常ノイズ加算手段と
を備え
前記定常ノイズ加算判断手段が、
前記車室内の乗員を検知する乗員検知手段を備え、
前記乗員検知手段により検知された前記車室内の乗員の数、もしくは前記車室内の乗員の位置に基づいて、前記音声入力手段により入力された音声に定常ノイズを加算する必要があるか否かを判断することを特徴とする車両用音声認識装置。
Voice input means capable of voice input;
Voice recognition means for executing voice recognition of the voice input by the voice input means;
Steady noise amount determination means for determining whether or not the steady noise amount in the passenger compartment is equal to or greater than a predetermined value;
When the steady noise amount determining means determines that the steady noise amount in the passenger compartment is smaller than a predetermined value, it is determined whether or not the steady noise needs to be added to the voice input by the voice input means. Stationary noise addition determination means;
Stationary noise addition means for adding stationary noise to the voice input by the voice input means when the stationary noise addition judgment means determines that it is necessary to add stationary noise to the voice input by the voice input means It equipped with a door,
The stationary noise addition determining means is
Occupant detection means for detecting an occupant in the passenger compartment,
Based on the number of occupants in the passenger compartment detected by the occupant detection means or the position of the occupants in the passenger compartment, whether or not it is necessary to add stationary noise to the voice input by the voice input means. A vehicle speech recognition apparatus characterized by determining .
前記定常ノイズ加算判断手段が、前記車室内に備えられた音響機器の動作状態に基づいて、前記音声入力手段により入力された音声に定常ノイズを加算する必要があるか否かを判断する
ことを特徴とする請求項1に記載の車両用音声認識装置。
The stationary noise addition determining means determines whether or not it is necessary to add stationary noise to the voice input by the voice input means, based on the operating state of the acoustic device provided in the vehicle interior. The vehicular voice recognition device according to claim 1, wherein
前記音声認識手段が、
音声に関する複数の標準パターンを記憶する標準パターン記憶手段と、
前記標準パターン記憶手段から、音声認識に利用する標準パターンを選択する標準パターン選択手段と、
前記音声入力手段により入力された音声と前記標準パターン選択手段により選択された前記標準パターンとを照合して音声を認識する音声照合手段とを備え、
前記標準パターン選択手段が、前記定常ノイズ量判断手段及び前記定常ノイズ加算判断手段の判断結果に基づいて、前記標準パターンを選択する
ことを特徴とする請求項1又は2に記載の車両用音声認識装置。
The voice recognition means
Standard pattern storage means for storing a plurality of standard patterns related to speech;
Standard pattern selection means for selecting a standard pattern used for speech recognition from the standard pattern storage means;
Voice collating means for recognizing voice by collating the voice input by the voice input means and the standard pattern selected by the standard pattern selecting means;
The standard pattern selecting means, on the basis of the determination result of the stationary noise amount determining means and the stationary noise addition determining unit, a vehicle for speech recognition according to claim 1 or 2, characterized in that selects the reference pattern apparatus.
JP2004175666A 2004-06-14 2004-06-14 Voice recognition device for vehicles Expired - Fee Related JP4425718B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004175666A JP4425718B2 (en) 2004-06-14 2004-06-14 Voice recognition device for vehicles

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004175666A JP4425718B2 (en) 2004-06-14 2004-06-14 Voice recognition device for vehicles

Publications (2)

Publication Number Publication Date
JP2005352397A JP2005352397A (en) 2005-12-22
JP4425718B2 true JP4425718B2 (en) 2010-03-03

Family

ID=35586897

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004175666A Expired - Fee Related JP4425718B2 (en) 2004-06-14 2004-06-14 Voice recognition device for vehicles

Country Status (1)

Country Link
JP (1) JP4425718B2 (en)

Also Published As

Publication number Publication date
JP2005352397A (en) 2005-12-22

Similar Documents

Publication Publication Date Title
EP2056295B1 (en) Speech signal processing
EP2151821B1 (en) Noise-reduction processing of speech signals
US8285545B2 (en) Voice command acquisition system and method
WO2017081960A1 (en) Voice recognition control system
JP2003308079A (en) Voice input device
CN107918637B (en) Service providing apparatus and service providing method
CN112397065A (en) Voice interaction method and device, computer readable storage medium and electronic equipment
JP7192222B2 (en) speech system
KR100201256B1 (en) Starting control system using voice for a vehicle
JP2010128099A (en) In-vehicle voice information providing system
JP2007219207A (en) Speech recognition device
CN112078590B (en) Driving behavior monitoring method and system
GB2522506A (en) Audio based system method for in-vehicle context classification
JP4345675B2 (en) Engine tone control system
CN108780644A (en) The system and method for means of transport, speech pause length for adjusting permission in voice input range
JP2018116130A (en) In-vehicle voice processing unit and in-vehicle voice processing method
JP2019101805A (en) Dialogue system
JP2007298592A (en) Speech processing apparatus
CN112823387A (en) Speech recognition device, speech recognition system, and speech recognition method
CN113674754A (en) Audio-based processing method and device
JP2008250236A (en) Speech recognition device and speech recognition method
JP4425718B2 (en) Voice recognition device for vehicles
JP4201470B2 (en) Speech recognition system
JP2007043356A (en) Device and method for automatic sound volume control
JP2019053785A (en) Service providing device

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20061128

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20090901

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090908

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20091105

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20091201

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20091209

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121218

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees