JP2005157086A - Speech recognition device - Google Patents
Speech recognition device Download PDFInfo
- Publication number
- JP2005157086A JP2005157086A JP2003397451A JP2003397451A JP2005157086A JP 2005157086 A JP2005157086 A JP 2005157086A JP 2003397451 A JP2003397451 A JP 2003397451A JP 2003397451 A JP2003397451 A JP 2003397451A JP 2005157086 A JP2005157086 A JP 2005157086A
- Authority
- JP
- Japan
- Prior art keywords
- speaker
- voice
- speech recognition
- recognition
- detected
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
Description
本発明は、不特定話者の音声を音声認識し、接続される他の装置の制御等を行うための音声認識装置に関する。 The present invention relates to a voice recognition apparatus for recognizing voices of unspecified speakers and controlling other connected apparatuses.
従来、複数話者を想定した音声認識装置として、それぞれの話者の近傍に複数のマイクを配置し、これらのマイクを介して収音された信号を用いるものが知られている(例えば、特許文献1参照。)。図6は、特許文献1に開示された従来の音声認識装置の構成を示す概念図である。図6に示す従来の音声認識装置は、以下に説明するように動作する。
2. Description of the Related Art Conventionally, as a speech recognition apparatus that assumes a plurality of speakers, a device that uses a plurality of microphones in the vicinity of each speaker and uses signals collected through these microphones is known (for example, patents). Reference 1). FIG. 6 is a conceptual diagram showing a configuration of a conventional speech recognition apparatus disclosed in
まず、話者の音声である話者音声は、マイク601a〜601cによって収音され、マイク601a〜601cによって電気信号である収音信号に変換される。マイク601a〜601cによって得られた収音信号は、アンプ602a〜602cによって増幅された後、フィルタ603a〜603cによってそれぞれ帯域制限される。その後、フィルタ603a〜603cのうち、最も高いレベルの信号(帯域制限して得られた信号)を出力したフィルタ(以下、このフィルタをフィルタ603aとする。)の信号をコンパレータ604が検出し、CPU(Central Proseccing Unit)607が検出結果に応じて音声切替部605を制御し、音声認識対象の「音声入力」とし、音声認識部606が音声入力を音声認識するようになっている。そして、音声入力を出力したフィルタ603aに対応するマイク(この場合は、マイク601a。)以外のマイク601b、601cからの信号は、音声認識対象外の信号である「騒音入力」として判定されていた。
First, the speaker voice, which is the voice of the speaker, is collected by the
さらに、上記の音声入力のスペクトルから騒音入力のスペクトルを減算して音声入力に含まれる騒音成分を削減した後、騒音成分削除後の信号が音声認識部606に入力されていた。音声認識部606は、音声入力と予め定められたキーワードが一致するか否かを検出することにより、音声認識開始スイッチを用いずに音声認識を起動させるようになっていた。
しかし、このような従来の音声認識装置では、音声認識の待機中に常時キーワード検出を行っているために、本来キーワード検出の不要な話者同士の会話に対してもキーワード検出を行うために誤認識が発生するという問題があった。 However, in such a conventional speech recognition apparatus, since keyword detection is always performed during speech recognition standby, an error occurs because keyword detection is performed even for conversations between speakers that originally do not require keyword detection. There was a problem that recognition occurred.
また、音声認識中には、認識対象の話者音声に他の話者音声が重畳されることに起因する誤認識が発生し、さらにその誤認識の発生要因が他の話者音声が重畳することによるものか否かが判断できないために、話者に対し、他の話者音声が重畳するために音声認識ができない旨の指示を与えることもできなかった。このため、音声認識を再度繰り返しても誤認識が発生してしまうという課題を有していた。 Moreover, during speech recognition, misrecognition caused by superimposing other speaker speech on the speaker speech to be recognized occurs, and the cause of the misrecognition is superimposed on other speaker speech. Since it cannot be determined whether or not it is due to the situation, it has not been possible to give an instruction to the speaker that speech recognition cannot be performed because other speaker's voice is superimposed. For this reason, there has been a problem that erroneous recognition occurs even if the speech recognition is repeated again.
本発明はこのような問題を解決するためになされたもので、複数の話者音声が存在する場合でも誤認識の発生を低減することが可能な音声認識装置を提供するものである。 The present invention has been made to solve such a problem, and provides a speech recognition apparatus capable of reducing the occurrence of erroneous recognition even when a plurality of speaker voices exist.
本発明の音声認識装置は、話者が発話した話者音声を含む音声を収音する複数の収音手段と、各前記収音手段が収音した音声に複数話者の話者音声の候補が含まれる場合に、複数の話者の話者音声の候補を強調する話者音声強調手段と、前記話者音声強調手段が強調した話者音声の候補のパワーを算出するパワー算出手段と、前記パワー算出手段が算出したパワーに基づいて前記話者音声の候補中の話者音声を検出する音声検出手段と、前記音声検出手段が過去の一定時間内に複数話者の話者音声を検出したか否かを検出する会話検出手段と、前記音声検出手段が話者音声を検出したときに、検出した話者音声の音声認識を行い、音声認識で認識された言葉が予め決められたキーワードと一致するとき、所定の信号を出力する音声認識手段と、前記音声検出手段が過去の一定時間内に複数話者の話者音声を検出したことを前記会話検出手段が検出した場合、複数話者の話者音声が検出された前記一定時間内に発話された話者音声の音声認識を前記音声認識手段が行うことを抑制する認識制御手段とを備えた構成を有している。 The speech recognition apparatus according to the present invention includes a plurality of sound collecting means for collecting sound including a speaker sound uttered by a speaker, and a plurality of speaker sound candidates for the sound collected by each of the sound collecting means. Is included, speaker voice emphasizing means for emphasizing speaker voice candidates of a plurality of speakers, power calculating means for calculating power of speaker voice candidates emphasized by the speaker voice emphasizing means, Based on the power calculated by the power calculation means, a voice detection means for detecting a speaker voice among the candidate speaker voices, and the voice detection means detects speaker voices of a plurality of speakers within a predetermined time in the past. A conversation detecting means for detecting whether or not the voice is detected, and when the voice detecting means detects a speaker voice, the detected voice of the speaker is recognized, and the words recognized by the voice recognition are predetermined keywords. Voice recognition means for outputting a predetermined signal when the If the speech detection means detects that the voice detection means has detected speaker voices of a plurality of speakers within a certain past time, the speech is spoken within the predetermined time when the speaker voices of the plurality of speakers are detected. And a recognition control means for suppressing the voice recognition means from performing voice recognition of the speaker's voice.
この構成により、会話検出手段を用いて、検出された話者音声が会話を構成する一部の話者音声か否かを判断し、会話を構成する話者音声であると判断した場合、キーワードの検出処理を行わないこととしたため、複数の話者音声が存在する場合でも誤認識の発生を低減することが可能な音声認識装置を実現することができる。 With this configuration, when the conversation detection means is used to determine whether or not the detected speaker voice is a part of the speaker voice constituting the conversation, and if it is determined that the detected speaker voice is the speaker voice constituting the conversation, the keyword Therefore, it is possible to realize a speech recognition apparatus that can reduce the occurrence of misrecognition even when there are a plurality of speaker voices.
また、本発明の音声認識装置は、さらに、前記会話検出手段が過去の前記一定時間内に複数話者の話者音声があったことを検出したことによって、前記音声認識手段が前記話者音声の音声認識を行わなかったとき、複数話者の話者音声の存在が理由で音声認識を行わなかったことを通知する信号を生成するガイダンス出力手段を備えた構成を有している。 In the speech recognition apparatus of the present invention, the speech recognition means further detects the speaker voice of a plurality of speakers within the predetermined time in the past. When the voice recognition is not performed, there is provided a configuration including guidance output means for generating a signal for notifying that the voice recognition is not performed due to the presence of speaker voices of a plurality of speakers.
この構成により、ガイダンス出力手段を設けて会話を検出して音声認識を行わなかったことを出力できるようにしたため、操作性を向上することが可能な音声認識装置を実現することができる。 With this configuration, a guidance output unit is provided to detect that a conversation has been detected and voice recognition has not been performed. Therefore, a voice recognition device capable of improving operability can be realized.
また、本発明の音声認識装置は、話者が発話した話者音声を含む音声を収音して収音信号を生成する複数の収音手段と、各前記収音手段が収音した音声に複数話者の話者音声の候補が含まれる場合に、複数の話者の話者音声の候補を強調する話者音声強調手段と、複数の前記収音手段が生成した収音信号間の相関値を前記収音信号間の遅延時間を変えて算出する相関算出手段と、前記収音信号間の相関値が最大となる遅延時間が予め決められた時間の範囲内にあるか否かに基づいて話者の居る方向を検出することによって話者を特定すると共に特定した話者の話者音声の候補中の話者音声を検出する話者方向検出手段と、前記話者方向検出手段が過去の一定時間内に複数話者の話者音声を検出したか否かを検出する会話検出手段と、前記話者方向検出手段が話者音声を検出したときに、検出した話者音声の音声認識を行い、音声認識で認識された言葉が予め決められたキーワードと一致するとき、所定の信号を出力する音声認識手段と、前記話者方向検出手段が過去の一定時間内に複数話者の話者音声を検出したことを前記会話検出手段が検出した場合、複数話者の話者音声が検出された前記一定時間内に発話された話者音声の音声認識を前記音声認識手段が行うことを抑制する認識制御手段とを備えた構成を有している。 The speech recognition apparatus according to the present invention also includes a plurality of sound collection means for collecting a sound including a speaker sound uttered by a speaker to generate a sound collection signal, and a sound collected by each of the sound collection means. Correlation between speaker voice enhancement means for emphasizing speaker voice candidates for a plurality of speakers and sound pickup signals generated by the plurality of sound pickup means when speaker voice candidates for a plurality of speakers are included Correlation calculating means for calculating a value by changing a delay time between the collected sound signals, and whether or not a delay time at which the correlation value between the collected sound signals is maximum is within a predetermined time range. A speaker direction detecting means for identifying a speaker by detecting a direction in which the speaker is present and detecting a speaker voice in a candidate speaker voice of the specified speaker; and the speaker direction detecting means in the past A conversation detecting means for detecting whether or not speaker voices of a plurality of speakers are detected within a predetermined time, and the speaker Speech recognition that performs speech recognition of the detected speaker speech when the direction detection means detects the speaker speech, and outputs a predetermined signal when the words recognized by speech recognition match a predetermined keyword And when the conversation detecting unit detects that the speaker direction detecting unit has detected speaker voices of a plurality of speakers within a predetermined time in the past, And a recognition control unit that suppresses the voice recognition unit from recognizing the voice of the speaker spoken in time.
この構成により、会話検出手段を設け、検出された話者音声が会話を構成する一部の話者音声か否かを判断し、会話を構成する話者音声であると判断した場合、キーワードの検出処理を行わないこととしたため、複数の話者音声が存在する場合でも誤認識の発生を低減することができると共に、話者の特定をより的確に行うことが可能な音声認識装置を実現することができる。 With this configuration, a conversation detecting means is provided, and it is determined whether or not the detected speaker voice is a part of the speaker voice constituting the conversation. Since the detection process is not performed, it is possible to reduce the occurrence of misrecognition even when a plurality of speaker voices exist, and to realize a voice recognition device capable of more accurately specifying a speaker. be able to.
また、本発明の音声認識装置は、さらに、前記会話検出手段が過去の前記一定時間内に複数話者の話者音声があったことを検出したことによって、前記音声認識手段が前記話者音声の音声認識を行わなかったとき、複数話者の話者音声の存在が理由で音声認識を行わなかったことを通知する信号を生成するガイダンス出力手段を備えた構成を有している。 In the speech recognition apparatus of the present invention, the speech recognition means further detects the speaker voice of a plurality of speakers within the predetermined time in the past. When the voice recognition is not performed, there is provided a configuration including guidance output means for generating a signal for notifying that the voice recognition is not performed due to the presence of speaker voices of a plurality of speakers.
この構成により、ガイダンス出力手段を設けて会話を検出して音声認識を行わなかったことを出力できるようにしたため、操作性を向上することが可能な音声認識装置を実現することができる。 With this configuration, a guidance output unit is provided to detect that a conversation has been detected and voice recognition has not been performed. Therefore, a voice recognition device capable of improving operability can be realized.
本発明は、複数の話者音声が存在する場合でも誤認識の発生を低減することが可能な音声認識装置を提供することができるものである。 The present invention can provide a speech recognition apparatus capable of reducing the occurrence of erroneous recognition even when there are a plurality of speaker voices.
以下、本発明の実施の形態について、図面を用いて説明する。 Hereinafter, embodiments of the present invention will be described with reference to the drawings.
(第1の実施の形態)
図1は、本発明の第1の実施の形態に係る音声認識装置のブロック構成を示す概念図である。図1において、音声認識装置100は、車両200の室内で音声認識を行い、音声認識されたキーワードに対応する対応信号を外部に出力する構成となっており、話者が発話した話者音声を含む音声を収音する複数の収音手段(図1には、マイク101aおよびアンプ102aからなる収音手段と、マイク101bおよびアンプ102bからなる収音手段とが示されている。)と、各収音手段が収音した音声に複数話者の話者音声の候補が含まれる場合に、収音手段毎に一人の話者の話者音声の候補を強調する話者音声強調手段(図1に、話者音声強調部と示す。以下、話者音声強調部という。)103と、話者音声強調部103が強調した話者音声の候補のパワーを算出するパワー算出手段(図1に、パワー算出器と示す。以下、パワー算出器という。)107a、107bと、パワー算出器107a、107bが算出したパワーに基づいて話者音声の候補中の話者音声を検出する音声検出手段(図1に、音声検出器と示す。以下、音声検出器という。)108a、108bと、音声検出器108a、108bが過去の一定時間内に複数話者の話者音声を検出したか否かを検出する会話検出手段(図1に、会話検出器と示す。以下、会話検出器という。)109と、音声検出器108a、108bが話者音声を検出したときに、検出した話者音声の音声認識を行い、音声認識で認識された言葉が予め決められたキーワードと一致するとき、所定の信号を出力する音声認識手段(図1に、音声認識部と示す。以下、音声認識部という。)113と、音声検出器108a、108bが過去の一定時間内に複数話者の話者音声を検出したことを会話検出器109が検出した場合、複数話者の話者音声が検出された一定時間内に発話された話者音声の音声認識を音声認識部113が行うことを抑制する認識制御手段(図1に、認識制御器と示す。以下、認識制御器という。)110とを含むように構成される。
(First embodiment)
FIG. 1 is a conceptual diagram showing a block configuration of the speech recognition apparatus according to the first embodiment of the present invention. In FIG. 1, a
ここで、収音手段を構成するマイク101a、101bは、例えば、車両200中に設けられ、各座席に座った人の話者音声を収音しやすくなっている。そして、各話者が発話した話者音声を含む音声を収音して収音信号を生成するようになっている。また、収音手段を構成するアンプ102a、102bは、マイク101aから出力された収音信号を増幅して増幅収音信号を生成するようになっている。ただし、マイク101a、101bから出力された収音信号のレベルが十分高い場合は、アンプ102a、102bを省略した構成とするのでもよい。
Here, the
ここで、話者音声強調部103は、さらに、アンプ102aから出力された増幅収音信号を遅延させて遅延信号を生成する遅延器104a、アンプ102bから出力された増幅収音信号を遅延させて遅延信号を生成する遅延器104b、アンプ102aからの増幅収音信号と遅延器104bからの遅延信号とを加算する加算器105a、アンプ102bからの増幅収音信号と遅延器104aからの遅延信号とを加算する加算器105b、加算器105aの出力信号の周波数スペクトルを所定の規則で変化させるイコライザ106a、加算器105bの出力信号の周波数スペクトルを所定の規則で変化させるイコライザ106bを含むように構成される。イコライザ106aからの出力は、パワー算出器107aおよびバッファ112に入力され、イコライザ106bからの出力は、パワー算出器107bおよびバッファ112に入力されるようになっている。
Here, the speaker
ここで、加算器105a、105bが、遅延器104a、104bが生成した遅延信号を、符号を反転してそれぞれアンプ102b、102aが生成した増幅収音信号に加算すること(以下、加算処理という。)によって、遅延成分を除去することができ、特定の話者音声(例えば、マイクに最も接近している話者の話者音声)を強調することができる。また、イコライザ106a、106bは、加算処理を行うことによってレベルが低下した低周波成分をもとの周波数スペクトルに復元させる(近づける)ように設けられたものである。
Here, the
音声認識装置100は、図1に示すように、さらに、認識制御器110の制御の下に所定のメッセージ等を出力するガイダンス出力部114を有するのでもよい。ガイダンス出力部114は、会話検出器109が過去の一定時間内に複数話者の話者音声があったこと(すなわち、会話があったこと)を検出したことによって、音声認識部113が話者音声の音声認識を行わなかったとき、複数話者の話者音声の存在が理由で音声認識を行わなかったことを通知する信号を生成するようになっているのでもよい。この場合、アンプ115とスピーカ116とを音声認識装置100に接続し、ガイダンス出力部114からの出力信号をアンプ115で増幅し、スピーカ116を介して出力するのでもよい。
As shown in FIG. 1, the
音声認識装置100は、図1に示すように、さらに、話者音声強調部103からの出力信号を記憶するバッファ112、認識制御器110の制御の下にバッファ112に記憶されたデータを選択する入力選択器111、認識制御器110の制御の下に所定のメッセージ等を出力するガイダンス出力部114を含み、認識制御器110の制御の下にバッファ112に記憶されたデータを選択し、音声認識部113が選択したデータに対して音声認識を行うようになっているのでもよい。
As shown in FIG. 1, the
以下、本発明の第1の実施の形態に係る音声認識装置100の動作について図2、図3を用いて説明する。図2に示すように、音声認識装置100は、待機モードと音声認識モードの2つのモードで動作するものとする。待機モードS210では、音声認識を開始するトリガとなるキーワードが発話されたことを検出するようになっており、音声認識開始ボタンを押すこと等の発話以外の手段または方法による音声認識開始の合図をユーザに要求することなく、発話のみで音声認識が開始できる。
Hereinafter, the operation of the
音声認識モードS220は、待機モードS210において音声認識を開始するトリガとなるキーワードが検出された場合に移るモードであり、音声コマンドを認識できるモードである。音声認識装置100は、音声認識モードS220での動作が終了すると待機モードS210に戻るようになっている。
The voice recognition mode S220 is a mode in which a voice command is recognized when the keyword that becomes a trigger for starting voice recognition is detected in the standby mode S210. The
待機モードS210では、まず、終了条件が成立しているか否かについての判断が認識制御器110によって行われる(S211)。ここで、終了条件とは、音声認識装置の電源オフの命令などの予め終了処理を行う際に満たすべき条件をいうものとする。ステップS211で終了条件が成立していないと判断された場合、処理はステップS212に進む。
In the standby mode S210, first, the
ステップS211で終了条件が成立していないと判断された場合、マイク101aおよびマイク101bが生成した収音信号中の話者音声の候補が強調される(S212)。以下、ステップS212での処理を行う動作を「話者音声強調動作」といい、話者音声強調動作の詳細を、図3を用いて説明する。
If it is determined in step S211 that the end condition is not satisfied, the speaker voice candidates in the collected sound signals generated by the
まず、話者音声が収音されて収音信号がマイク101a、101bによって生成される(S301)。車両200内で話者Aと話者Bが発話する話者音声とは、マイク101aとマイク101bとにそれぞれ重畳されて収音される。ただし、車両走行騒音等の話者音声以外の音源がある場合、マイク101aとマイク101bには話者音声以外の音源から出力される音も収音されることになる。
First, a speaker voice is collected and a collected signal is generated by the
収音信号は、アンプ102aとアンプ102bによって所定の信号レベルまで増幅される。マイク101a、101bが話者音声を収音して得られた直後の信号は、一般にアナログ信号であるが、デジタル信号にして信号処理を行う方がその後の信号処理が効率的である。そのため、以下では、収音信号はデジタル信号で出力されるものとする。ここで、アナログ信号からデジタル信号への変換には、いわゆるAD(Analogue to Digital)変換器を用いることができ、AD変換器については公知であり、その説明を省略する。デジタル信号への変換の際のサンプリング周波数は、音声の周波数帯域をカバーできれば良く、一般的には、10〜48kHzの範囲が用いられる。
The collected sound signal is amplified to a predetermined signal level by the
ステップS301で話者音声の収音信号が生成されたら、特定の話者方向に指向性を持たせるための遅延付加処理が行われる(S302)。指向性を持たせるための遅延付加処理は、本発明の構成の場合、遅延器104a、104bが収音信号(または増幅収音信号)を遅延させて遅延信号を生成し、遅延信号を符号反転して収音信号(または増幅収音信号)に重畳することによって行われる。
When the collected sound signal of the speaker voice is generated in step S301, a delay addition process for giving directivity to a specific speaker direction is performed (S302). In the case of the configuration of the present invention, the delay adding process for providing directivity is such that the
なお、指向性を持たせる方法は、上記の方法に限られるものではなく、例えば非特許文献1に示された複数の方法を適用できる。具体的には、複数のマイクを配置し、特定の方向から到達する音声を同相にして加算して強調する、いわゆる、遅延和アレイ等も含まれる。本発明の第1の実施の形態においては、複数のマイクからの収音信号の遅延時間を、特定の方向から到来する信号が互いに打ち消されるよう設定してその他の方向からの音声を強調する、減算型アレイを用いて動作を説明する。
Note that the method of imparting directivity is not limited to the above method, and for example, a plurality of methods shown in
話者音声強調部103を構成する加算器105aは、話者Bの方向から到来する音声に由来する信号(以下、B話者到来信号という。)を打ち消すことにより話者Aの方向から到来する音声に由来する信号(以下、A話者到来信号という。)を強調する処理を行う。すなわち、話者Bとマイク101aの距離は、話者Bとマイク101bの距離より長いため、話者Bの発話する音声はマイク101bに時間的に先に到達し、マイク101aに遅れて到達する。
The
そこで、話者Bから発話された音声がマイク101aとマイク101bに到達する時間差を遅延器104bに設定してマイク101a、101bが収音する話者Bの話者音声の収音信号の時間差が加算器105aの入力端でなくなるように設定した後、遅延器104bの出力信号の極性を反転させた信号と、アンプ102aの出力信号とを加算器105aが加算するようになっている。その結果、加算器105aの出力信号からは、B話者到来信号は打ち消されるが、A話者到来信号はB話者到来信号に比べて打ち消される程度が少ないため、B話者到来信号に対してA話者到来信号が強調されることとなる。遅延器の実現方法は、非特許文献1に記載されるFIR(Finite Impulse Response)フィルタによる方法でも良く、1次または2次の全域通過型IIR(Infinite Impulse Response)フィルタによる方法も演算量が小さいため有利である。
Therefore, the time difference between the voices of speakers B collected by the
加算器105bにおいて、A話者到来信号を打ち消すことによりB話者到来信号を強調する処理を行う。その処理は、加算器105aが行う上記処理において、打ち消す信号をA話者到来信号として同様の処理を行う。これにより、加算器105bの出力信号からは、A話者到来信号は打ち消されるが、B話者到来信号は比較的打ち消されないため、A話者到来信号に対してB話者到来信号が強調されることとなる。なお、ステップS302以降の処理は、サンプル点毎に実施するサンプル処理でも可能であるが、一定のフレーム長毎に処理を実施するフレーム処理による方が、演算量が少なく有利であるため、以下では、フレーム処理を行うものとして説明を行う。
The
ステップS302で遅延加算が行われ各話者A、Bからの話者音声が強調されたら、遅延加算によって変化した各話者A、Bの話者音声の周波数スペクトルを元の周波数スペクトルに戻すようにするための処理(以下、「イコライジング」処理という。)が、イコライザ106aによって行われる(S303)。例えば、イコライジング処理により、A話者到来信号の周波数スペクトルの変化が補正される。
When delay addition is performed in step S302 and the speaker voices from the speakers A and B are emphasized, the frequency spectrum of the speaker voices of the speakers A and B changed by the delay addition is returned to the original frequency spectrum. The process (hereinafter referred to as “equalizing” process) is performed by the
これは、加算器105aにおいて、マイク101aの出力信号からマイク101bの出力信号を減算することにより、A話者到来信号が、加算器105aの出力信号において、低域ほど感度が低下する周波数スペクトルとなるため等によって必要とされる。この周波数スペクトルの変化を補正するため、低周波数ほどレベルを高くする補正がイコライザ106aによって行われ、話者Aの方向から到来する音声に対する感度の周波数特性が平坦化される。イコライザ106aの実現方法は、入力信号を複数の周波数帯域の信号に分割し、各周波数帯域の信号のゲインを調整した後、各周波数帯域の信号を加算する方法でも良いが、2次程度のIIRフィルタを用いて周波数スペクトルの補正を行う方法が一般的である。
This is because the
イコライザ106aと同様に、イコライザ106bを用いて、加算器105bが行う上記処理により、話者Bの方向から到来する信号の周波数スペクトルの変化を補正するイコライジング処理を行う。補正により、話者Bの方向から到来する音声に対する感度の周波数スペクトルが平坦化される。
Similarly to the
以上の処理により、イコライザ106aの出力信号として、A話者到来信号を強調した信号が得られ、またイコライザ106bの出力信号として、B話者到来信号を強調した信号が得られる。その結果、A話者到来信号を強調した信号およびB話者到来信号を強調した信号が話者音声強調部103から出力される。
With the above processing, a signal in which the A speaker arrival signal is emphasized is obtained as the output signal of the
ステップS212で話者音声の候補の強調が行われたら、話者音声の候補を検出する(S213)。具体的には、以下の処理を行う。まず、イコライザ106aからの出力信号のパワーが、パワー算出器107aによって算出される。パワーの算出方法としては、イコライザ106aの出力信号の全周波数成分を対象に算出する方法もとりうるが、音声が卓越する帯域に帯域制限した後、振幅を二乗する方法の方が好適である。パワー算出器107aからは、振幅が二乗された後に時間平滑化が行われた後の信号が出力される。なお、時間平滑化の時定数は100ms〜1s程度が適当である。パワー算出器107bにおいても、上記パワー算出器107aと同様に、イコライザ106bの出力信号を用いてパワーを算出する。
If the speaker voice candidate is emphasized in step S212, the speaker voice candidate is detected (S213). Specifically, the following processing is performed. First, the power of the output signal from the
パワー算出器107a、107bによって算出されたパワーに基づいて、話者Aの音声の有無が音声検出器108aによって検出される。音声の有無の検出方法としては、例えば、パワー算出器107aの出力を観測し、出力が予め定めた基準値を超える場合に話者音声の候補があると判断する方法がある。また、他の検出方法として、パワー算出器107aの出力をさらに時間平滑化することにより平滑化パワーを算出し、パワー算出器107aの出力と平滑化パワーとを比較して、パワー算出器107aの出力が平滑化パワーより予め定めた相対基準値を超える場合に話者音声の候補があると判断する方法がある。
Based on the power calculated by the
後者の方法は、基準値が相対的に定められるため、周囲騒音がある場合に有効である。さらに、その他の話者音声の候補の検出方法として、パワー算出器107aの出力とパワー算出器107bの出力を用いて、パワー算出器107aの出力がパワー算出器107bの出力と比較して、パワー算出器107aの出力がパワー算出器107bの出力より予め定めた相対基準値を超える場合に話者音声の候補があると判断する方法がある。この方法は、話者Aのみが発話するとき、パワー算出器107aの出力がパワー算出器107bの出力に比べて相対的に大きくなることを用いたもので、話者Aのみが発話する場合の音声の検出精度を高めることができ有効である。
The latter method is effective when there is ambient noise because the reference value is relatively determined. Further, as another method for detecting a speaker voice candidate, the output of the
音声検出器108bは、上記の音声検出器108aと同様の処理を行い、話者Bの話者音声の候補の有無を検出する。
The
ステップS213で話者音声の候補が検出されたら、検出された話者音声の候補が話者音声であるか否かの判断を行い(S214)、音声検出器108aまたは音声検出器108bの少なくともいずれか1つから話者音声が検出された場合、処理はステップS215に進み、いずれからも検出されない場合、処理は、ステップS211に戻る。
If a speaker voice candidate is detected in step S213, it is determined whether the detected speaker voice candidate is a speaker voice (S214), and at least one of the
ステップS214で、検出された話者音声の候補が話者音声であると判断された場合、その話者音声を含む話者間の会話を検出する処理が会話検出器109によってなされる(S215)。具体的には、ある話者(例えば、話者A)の話者音声が検出された場合、一定時間内に他の話者(この場合は、話者B)の話者音声が収音されたかを検出する。ここで、上記の「一定時間」としては、10秒から30秒が適当である。
If it is determined in step S214 that the detected speaker voice candidate is a speaker voice, the
ステップS215で話者間の会話を検出処理が行われたら、検出処理によって会話が検出されたか否かの判断を行う(S216)。ステップS216で会話が検出されたと判断された場合、ステップS214で話者音声とされた音声は、話者Aと話者Bとの間で行われる会話の一部であるため、キーワード検出を行う対象の音声ではないものとして、処理はステップS211に戻る。また、ステップS216で会話が検出されないと判断された場合、話者Aもしくは話者Bによる単独の発話であると判断し、処理はステップS217に移る。 If the process for detecting the conversation between the speakers is performed in step S215, it is determined whether or not the conversation is detected by the detection process (S216). If it is determined in step S216 that a conversation has been detected, the speech detected as the speaker voice in step S214 is part of the conversation between speaker A and speaker B, and thus keyword detection is performed. The processing returns to step S211 as not being the target voice. If it is determined in step S216 that no conversation is detected, it is determined that the speech is a single utterance by speaker A or speaker B, and the process proceeds to step S217.
ステップS216で単独の発話であると判断された場合、発話された音声を対象にキーワード検出を行う(S217)。キーワード検出は、音声認識を用いて行うものとし、音声認識としては公知の音声認識を用いるものでよく、その詳細は本発明の本質ではないので省略する。ここで、キーワード検出の対象となるキーワードは予め設定されているものとし、予め設定されているキーワードは、例えば、「音声認識開始」、「音声認識スタート」等の音声認識の開始を意味するものでよい。 If it is determined in step S216 that the utterance is a single utterance, keyword detection is performed on the uttered voice (S217). The keyword detection is performed using speech recognition, and publicly known speech recognition may be used as speech recognition, and details thereof are omitted because they are not the essence of the present invention. Here, it is assumed that the keyword that is the target of keyword detection is set in advance, and the preset keyword means the start of voice recognition such as “start voice recognition”, “start voice recognition”, etc. It's okay.
キーワード検出は、認識制御器110により制御される。具体的には、ステップS214で音声検出器108aによって話者音声が検出されたと判断された場合、バッファ112に蓄積されたイコライザ106aからの出力を入力選択器111により選択する。また、音声検出器108bにおいて音声が検出された場合には、バッファ112に蓄積されたイコライザ106bからの出力を入力選択器111により選択する。さらに、音声認識部113により入力選択器111の出力に対しキーワード検出を行う。
Keyword detection is controlled by the
ステップS217でキーワード検出を行った後、予め設定されたキーワードが検出されたか否かを判断し(S218)、予め設定されたキーワードが検出された場合、音声認識装置100の動作は音声認識モードS220に移り、そうでない場合にはステップS211に戻る。
After performing keyword detection in step S217, it is determined whether or not a preset keyword is detected (S218). When a preset keyword is detected, the operation of the
音声認識装置100は、音声認識モードS220で音声認識コマンドを受け付ける処理を行う。まず、音声認識モードS220のモード終了条件が成立しているか否かを判断し(S221)、予め定めた音声認識終了を表すキーワードの検出等のモード終了条件が成立していると判断した場合、待機モードS210に移る。モード終了条件が成立していない場合にはステップS222に進む。
The
ステップS222〜ステップS224で、それぞれステップS212〜ステップS214での処理と同じ処理を行い、話者音声が検出された場合にはステップS225に進み、そうでない場合にはステップS221に戻る。 In steps S222 to S224, the same processes as those in steps S212 to S214 are performed. If a speaker voice is detected, the process proceeds to step S225. If not, the process returns to step S221.
ステップS224で話者音声が検出されたと判断された場合、音声認識コマンドや地名、機器の設定など、予め定められたキーワードの検出処理を行う(S225)。キーワードの検出処理は公知の音声認識を用いて行うものであれば良く、音声認識の詳細は本発明の本質ではないので省略する。キーワードの検出処理は、認識制御器110により制御され、ステップS223で、音声検出器108aによって話者音声が検出された場合には、バッファ112に蓄積されたイコライザ106aの出力を入力選択器111により選択する。また、音声検出器108bにおいて音声が検出された場合には、バッファ112に蓄積されたイコライザ106bの出力を入力選択器111により選択する。
If it is determined in step S224 that speaker voice has been detected, predetermined keyword detection processing such as voice recognition commands, place names, and device settings is performed (S225). The keyword detection process may be performed using publicly known speech recognition, and details of the speech recognition are not the essence of the present invention, and will be omitted. The keyword detection process is controlled by the
ステップS225でキーワードの検出処理が行われたら、キーワードの検出処理の対象となった話者音声が予め決められたキーワードと一致するか否かの判断が音声認識部113によって行われ、キーワードと一致する場合、処理はステップS227に移り、一致しない場合、処理はステップS228に進む。
When the keyword detection process is performed in step S225, the
ステップS226でキーワードが検出されたと判断した場合には、車両に搭載された機器やネットワークで接続されたセンター等にキーワードに対応する信号(以下、対応信号という。)を出力または送信をし(S227)、ステップS221に戻る。キーワードが検出されないと判断した場合、処理はステップS228に移る。 If it is determined in step S226 that the keyword has been detected, a signal corresponding to the keyword (hereinafter referred to as a corresponding signal) is output or transmitted to a device mounted on the vehicle, a center connected via a network, or the like (S227). ), The process returns to step S221. If it is determined that no keyword is detected, the process proceeds to step S228.
ステップS228では、妨害話者の判定を行う。ステップS223で、音声検出器108aと音声検出器108bのいずれにも音声が検出された場合には、複数の話者が発話しているためキーワードを検出できないものと判断し、処理は、ステップS229に進む。そうでない場合にはステップS221に戻る。
In step S228, the disturbing speaker is determined. If the voice is detected by both the
ステップS229では、ユーザに対し、複数の話者があるために音声認識が不可能である旨の情報を伝達する。情報の伝達手段は、モニタ等に文字や絵で表示する方法や音声により伝達する方法がある。本実施の形態では音声により伝達する方法をとり、ガイダンス出力部114より音声信号を出力し、アンプ115により増幅した後スピーカ116より出力する。伝達する音声の内容は、例えば、「音声認識を行いますのでドライバーの方以外はお静かに願います」等が考えられ、車両搭乗者に音声認識が出来ない原因を伝達できれば良い。このような情報を伝達することにより、他の話者がいることにより音声認識を失敗しても、情報伝達後に再度音声認識を行う際には音声認識を操作する話者のみが発話することが期待でき、音声認識が可能になる。ステップS229が終了するとステップS221に戻る。
In step S229, information indicating that speech recognition is impossible due to a plurality of speakers is transmitted to the user. As information transmission means, there are a method of displaying characters and pictures on a monitor or the like, and a method of transmitting by voice. In this embodiment, a method of transmitting by voice is used, and a voice signal is output from the
以上説明したように、本発明の第1の実施の形態に係る音声認識装置は、複数の話者方向に指向性を持たせて話者音声を収音し、それぞれの指向性収音出力を用いて判定した音声検出結果を用いる会話検出器を設け、搭乗者相互の会話が行われている場合には、音声認識待機時におけるキーワード検出を行わないことにより、音声認識起動における誤検出を抑制することができる。 As described above, the speech recognition apparatus according to the first embodiment of the present invention collects speaker speech with directivity in a plurality of speaker directions, and outputs each directional sound collection output. Conversation detectors that use the voice detection results determined by using them are provided, and when there is a conversation between passengers, keyword detection during voice recognition standby is not performed, thereby suppressing false detection during voice recognition activation. can do.
また、ガイダンス出力部を設けて会話を検出して音声認識を行わなかったことを出力できるようにしたため、操作性を向上することができる。 In addition, since the guidance output unit is provided so that conversation is detected and voice recognition is not performed, operability can be improved.
(第2の実施の形態)
図4は、本発明の第2の実施の形態に係る音声認識装置のブロック構成を示す図である。図4において、本発明の第2の実施の形態に係る音声認識装置400は、本発明の第1の実施の形態に係る音声認識装置100同様、車両200の室内で音声認識を行い、音声認識されたキーワードに対応する対応信号を外部に出力する構成となっており、話者が発話した話者音声を含む音声を収音して収音信号を生成する複数の収音手段(図4には、マイク101aおよびアンプ102aからなる収音手段と、マイク101bおよびアンプ102bからなる収音手段とが示されている。)と、各収音手段が収音した音声に複数話者の話者音声の候補が含まれる場合に、収音手段毎に一人の話者の話者音声の候補を強調する話者音声強調手段(図1に、話者音声強調部と示す。以下、話者音声強調部という。)403と、複数の収音手段が生成した収音信号間の相関値を収音信号間の遅延時間を変えて算出する相関算出手段(図1に、相関算出器と示す。以下、相関算出器という。)401と、収音信号間の相関値が最大となる遅延時間が予め決められた時間の範囲内にあるか否かに基づいて話者の居る方向を検出することによって話者を特定すると共に特定した話者の話者音声の候補中の話者音声を検出する話者方向検出手段(図1に、話者方向検出器と示す。以下、話者方向検出器という。)402と、話者方向検出器402が過去の一定時間内に複数話者の話者音声を検出したか否かを検出する会話検出手段(図1に、会話検出器と示す。以下、会話検出器という。)409と、話者方向検出器402が話者音声を検出したときに、検出した話者音声の音声認識を行い、音声認識で認識された言葉が予め決められたキーワードと一致するとき、所定の信号を出力する音声認識手段(図1に、音声認識部と示す。以下、音声認識部という。)113と、話者方向検出器402が過去の一定時間内に複数話者の話者音声を検出したことを会話検出部409が検出した場合、複数話者の話者音声が検出された一定時間内に発話された話者音声の音声認識を音声認識部113が行うことを抑制する認識制御手段(図1に、認識制御器と示す。以下、認識制御器という。)110とを含むように構成される。
(Second Embodiment)
FIG. 4 is a diagram showing a block configuration of a speech recognition apparatus according to the second embodiment of the present invention. In FIG. 4, the
本発明の第2の実施の形態に係る音声認識装置400の構成手段のうち、本発明の第1の実施の形態に係る音声認識装置100の構成手段と同様の構成手段には同一の符号を付し、その説明を省略する。本発明の第2の実施の形態に係る話者音声強調部403は、話者音声強調部403を構成する遅延器404a、404bの遅延時間を音声認識装置400の動作中に設定できる点を除けば、本発明の第1の実施の形態の話者音声強調部103と同様の機能であるため、その説明を省略する。
Of the constituent means of the
音声認識装置400は、図4に示すように、さらに、遅延器404a、404bの遅延時間を設定する遅延時間設定器408を有し、話者方向検出器402が検出した話者の方向に応じて遅延器404a、404bに設定されている時間を更新するようになっているのでもよい。
As shown in FIG. 4, the
以下、本発明の第2の実施の形態に係る音声認識装置400の動作について図5を用いて説明する。図5に示すように、音声認識装置400は、本発明の第1の実施の形態に係る音声認識装置100と同様に、待機モードと音声認識モードの2つのモードで動作するものとする。待機モードS510では、音声認識を開始するトリガとなるキーワードが発話されたことを検出するようになっており、音声認識開始ボタンを押すこと等の発話以外の手段または方法による音声認識開始の合図をユーザに要求することなく、発話のみで音声認識が開始できる。また、本発明の第1の実施の形態で説明した各ステップでの処理と同様の処理を行うステップについては、同一の番号を付し、その説明を省略する。
Hereinafter, the operation of the
ステップS212で収音信号中の話者音声が強調された後、アンプ102aの出力信号とアンプ102bの出力信号との間の相互相関関数が相関算出器401によって算出される(S5131)。相互相関関数の算出方法として、時間領域において、アンプ102aの出力信号をアンプ102bの出力信号に対し、時間遅れ(タイムラグ)τだけずらし、ずらした信号と他の信号との相関係数を算出する方法がある。また、その他の相互相関関数の算出方法としては、公知のFFT(Fast Fourier Transform)等の方法によりアンプ102aの出力信号とアンプ102bの出力信号を周波数領域に変換し、両者のクロススペクトルを算出した後、公知の逆FFT等の方法により時間領域に戻すことにより算出する方法がある。この方法は演算量が少ないという特徴がある。
After the speaker voice in the collected sound signal is emphasized in step S212, a cross-correlation function between the output signal of the
ステップS5131で相関関数が算出されたら、話者方向の検出を行うことによって話者を特定すると共に特定した話者の話者音声の候補中の話者音声を検出する(S5132)。話者方向の検出は、前記ステップS5131で算出された相互相関関数の最大値をとるタイムラグτが、予め定められた話者方向に相当する時間差の許容範囲内にあるかによって行われる。予め定めた許容範囲以内にある場合にその方向に話者がいると話者方向検出器402により判定される。なお、許容範囲としては、幾何学的に算出される話者方向±10°〜30°に相当する時間差を設定することが適当である。ここで、タイムラグτは、話者のいる方向を特定する情報とすることができる。
When the correlation function is calculated in step S5131, the speaker direction is detected to identify the speaker, and the speaker voice among the speaker voice candidates identified is detected (S5132). The detection of the speaker direction is performed depending on whether or not the time lag τ that takes the maximum value of the cross-correlation function calculated in step S5131 is within the allowable time difference corresponding to the predetermined speaker direction. When it is within the predetermined allowable range, the
ステップS214で話者音声が検出された際のタイムラグの最大値(以下、相関時間という。)が予め設定されている相関時間と異なるとき、新たに検出された相関時間を話者方向検出器402を介して遅延器404a、404bに設定する(S530)。相関時間を話者方向検出器402に設定することは、話者方向の情報を設定することと同等である。この処理は、処理フレーム毎に実施する必要はなく、検出される話者方向の長時間平均値を用いて、処理フレーム長よりも長い適当な時間間隔で実施すれば良く、例えば、音声認識装置の終了時や起動時などにのみ実施する構成でも良い。また、この処理は、必ずしも必須ではないのでステップS530を省いた構成も可能である。
When the maximum value of the time lag (hereinafter referred to as correlation time) when the speaker voice is detected in step S214 is different from the preset correlation time, the newly detected correlation time is used as the
ステップS222で話者音声の候補を強調したら、ステップS5131での処理と同様にアンプ102aの出力とアンプ102bの出力の間の相関関数を算出する(S5231)。ステップS5231で相関関数が算出されたら、ステップS5232での処理と同様に話者方向が検出される(S5132)。話者方向が検出されたら、ステップS224以上でのステップでの処理が本発明の第1の実施の形態で説明したようになされる。
When the speaker voice candidate is emphasized in step S222, a correlation function between the output of the
以上説明したように、本発明の第2の実施の形態に係る音声認識装置は、複数のマイクを用いて収音した信号の相関を用いて話者方向を検出し、その話者方向を用いて搭乗者相互の会話が行われているか否かを判定し、搭乗者相互の会話が行われている場合には、音声認識待機時におけるキーワード検出を行わないことにより、音声認識起動における誤検出を抑制することができる。 As described above, the speech recognition apparatus according to the second embodiment of the present invention detects the speaker direction using the correlation of signals collected using a plurality of microphones, and uses the speaker direction. It is determined whether or not there is a conversation between passengers, and if a conversation between passengers is being performed, the keyword detection at the time of voice recognition standby is not performed, so that false detection at the time of voice recognition activation is performed. Can be suppressed.
本発明にかかる音声認識装置は、複数の話者がある場合の誤認識を削減できるという効果を有し、音声認識を行って車載機器等を操作する操作装置等として有用である。 The speech recognition apparatus according to the present invention has an effect of reducing misrecognition when there are a plurality of speakers, and is useful as an operation device that performs speech recognition and operates an in-vehicle device or the like.
100、400、600 音声認識装置
101a、101b、601a、601b、601c マイク
102a、102b、115、602a、602b、602c アンプ
103、403 話者音声強調部
104a、104b、404a、404b 遅延器
105a、105b 加算器
106a、106b イコライザ
107a、107b パワー算出器
108a、108b 音声検出器
109、409 会話検出器
110 認識制御器
111 入力選択器
112 バッファ
113、606 音声認識部
114 ガイダンス出力部
116 スピーカ
200 車両
401 相関算出器
402 話者方向検出器
408 遅延時間設定器
603a、603b、603c フィルタ
604 コンパレータ
605 音声切替部
607 CPU
100, 400, 600
Claims (4)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003397451A JP2005157086A (en) | 2003-11-27 | 2003-11-27 | Speech recognition device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003397451A JP2005157086A (en) | 2003-11-27 | 2003-11-27 | Speech recognition device |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2005157086A true JP2005157086A (en) | 2005-06-16 |
Family
ID=34722608
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003397451A Pending JP2005157086A (en) | 2003-11-27 | 2003-11-27 | Speech recognition device |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2005157086A (en) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008309864A (en) * | 2007-06-12 | 2008-12-25 | Fujitsu Ten Ltd | Voice recognition device and voice recognition method |
WO2012001928A1 (en) * | 2010-06-30 | 2012-01-05 | パナソニック株式会社 | Conversation detection device, hearing aid and conversation detection method |
WO2012042768A1 (en) * | 2010-09-28 | 2012-04-05 | パナソニック株式会社 | Speech processing device and speech processing method |
US8214219B2 (en) | 2006-09-15 | 2012-07-03 | Volkswagen Of America, Inc. | Speech communications system for a vehicle and method of operating a speech communications system for a vehicle |
WO2017042906A1 (en) * | 2015-09-09 | 2017-03-16 | 三菱電機株式会社 | In-vehicle speech recognition device and in-vehicle equipment |
JP2018533064A (en) * | 2015-10-09 | 2018-11-08 | ユウトウ・テクノロジー(ハンジョウ)・カンパニー・リミテッド | Rapid identification method and intelligent robot for home use |
CN115240689A (en) * | 2022-09-15 | 2022-10-25 | 深圳市水世界信息有限公司 | Target sound determination method, device, computer equipment and medium |
-
2003
- 2003-11-27 JP JP2003397451A patent/JP2005157086A/en active Pending
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8214219B2 (en) | 2006-09-15 | 2012-07-03 | Volkswagen Of America, Inc. | Speech communications system for a vehicle and method of operating a speech communications system for a vehicle |
JP2008309864A (en) * | 2007-06-12 | 2008-12-25 | Fujitsu Ten Ltd | Voice recognition device and voice recognition method |
CN102474681B (en) * | 2010-06-30 | 2014-12-10 | 松下电器产业株式会社 | Conversation detection device, hearing aid and conversation detection method |
WO2012001928A1 (en) * | 2010-06-30 | 2012-01-05 | パナソニック株式会社 | Conversation detection device, hearing aid and conversation detection method |
US9084062B2 (en) | 2010-06-30 | 2015-07-14 | Panasonic Intellectual Property Management Co., Ltd. | Conversation detection apparatus, hearing aid, and conversation detection method |
JPWO2012001928A1 (en) * | 2010-06-30 | 2013-08-22 | パナソニック株式会社 | Conversation detection device, hearing aid, and conversation detection method |
CN102474681A (en) * | 2010-06-30 | 2012-05-23 | 松下电器产业株式会社 | Conversation detection device, hearing aid and conversation detection method |
JP5581329B2 (en) * | 2010-06-30 | 2014-08-27 | パナソニック株式会社 | Conversation detection device, hearing aid, and conversation detection method |
US9064501B2 (en) | 2010-09-28 | 2015-06-23 | Panasonic Intellectual Property Management Co., Ltd. | Speech processing device and speech processing method |
JPWO2012042768A1 (en) * | 2010-09-28 | 2014-02-03 | パナソニック株式会社 | Audio processing apparatus and audio processing method |
JP5740575B2 (en) * | 2010-09-28 | 2015-06-24 | パナソニックIpマネジメント株式会社 | Audio processing apparatus and audio processing method |
WO2012042768A1 (en) * | 2010-09-28 | 2012-04-05 | パナソニック株式会社 | Speech processing device and speech processing method |
WO2017042906A1 (en) * | 2015-09-09 | 2017-03-16 | 三菱電機株式会社 | In-vehicle speech recognition device and in-vehicle equipment |
JPWO2017042906A1 (en) * | 2015-09-09 | 2017-11-24 | 三菱電機株式会社 | In-vehicle voice recognition device and in-vehicle device |
JP2018533064A (en) * | 2015-10-09 | 2018-11-08 | ユウトウ・テクノロジー(ハンジョウ)・カンパニー・リミテッド | Rapid identification method and intelligent robot for home use |
CN115240689A (en) * | 2022-09-15 | 2022-10-25 | 深圳市水世界信息有限公司 | Target sound determination method, device, computer equipment and medium |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8462190B2 (en) | Voice communication device, voice communication method, and voice communication program | |
US9113241B2 (en) | Noise removing apparatus and noise removing method | |
CN106664473B (en) | Information processing apparatus, information processing method, and program | |
US9269367B2 (en) | Processing audio signals during a communication event | |
KR100860805B1 (en) | Voice enhancement system | |
US8755546B2 (en) | Sound processing apparatus, sound processing method and hearing aid | |
JP4854630B2 (en) | Sound processing apparatus, gain control apparatus, gain control method, and computer program | |
WO2010131470A1 (en) | Gain control apparatus and gain control method, and voice output apparatus | |
JPH09212196A (en) | Noise suppressor | |
JP5834088B2 (en) | Dynamic microphone signal mixer | |
JP2008064733A (en) | Apparatus and method of estimating sound source direction, and computer program | |
US10937418B1 (en) | Echo cancellation by acoustic playback estimation | |
JP5246120B2 (en) | Sound collecting device, gain control method, and program | |
JP3434215B2 (en) | Sound pickup device, speech recognition device, these methods, and program recording medium | |
JP2005157086A (en) | Speech recognition device | |
US9972338B2 (en) | Noise suppression device and noise suppression method | |
WO2016017229A1 (en) | Speech segment detection device, voice processing system, speech segment detection method, and program | |
JP2007251354A (en) | Microphone and sound generation method | |
JP2019020678A (en) | Noise reduction device and voice recognition device | |
JP2002023790A (en) | Speech feature amount extracting device | |
CN111226278B (en) | Low complexity voiced speech detection and pitch estimation | |
JP5251473B2 (en) | Audio processing apparatus and audio processing method | |
JPH07111527A (en) | Voice processing method and device using the processing method | |
JP5339849B2 (en) | Speech intelligibility improving method and speech intelligibility improving system | |
US20230360662A1 (en) | Method and device for processing a binaural recording |