JP2023113171A - Voice processing unit, voice processing method, voice processing program and voice processing system - Google Patents
Voice processing unit, voice processing method, voice processing program and voice processing system Download PDFInfo
- Publication number
- JP2023113171A JP2023113171A JP2022015324A JP2022015324A JP2023113171A JP 2023113171 A JP2023113171 A JP 2023113171A JP 2022015324 A JP2022015324 A JP 2022015324A JP 2022015324 A JP2022015324 A JP 2022015324A JP 2023113171 A JP2023113171 A JP 2023113171A
- Authority
- JP
- Japan
- Prior art keywords
- signal
- audio
- unit
- level
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims description 5
- 230000005236 sound signal Effects 0.000 claims description 32
- 238000001514 detection method Methods 0.000 abstract description 11
- 238000000034 method Methods 0.000 description 20
- 230000008569 process Effects 0.000 description 18
- 230000003044 adaptive effect Effects 0.000 description 11
- 238000010586 diagram Methods 0.000 description 6
- 230000010365 information processing Effects 0.000 description 6
- 230000000694 effects Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000007274 generation of a signal involved in cell-cell signaling Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
Abstract
Description
本開示は、音声処理装置、音声処理方法、音声処理プログラム、および音声処理システムに関する。 The present disclosure relates to an audio processing device, an audio processing method, an audio processing program, and an audio processing system.
発話者により発話された音声に基づいて、音声認識コマンドを処理する音声処理システムが知られている。例えば、マイクロホンで収音された音声を第1の音声認識部で認識し、スピーカから出音される音声を第2の音声認識部で認識する。そして、第2の音声認識部で認識された音声に音声認識コマンドが含まれる場合、第1の音声認識部による認識を停止させる構成が開示されている(例えば、特許文献1参照)。 Speech processing systems are known that process speech recognition commands based on speech uttered by a speaker. For example, the first speech recognition unit recognizes the sound picked up by the microphone, and the second speech recognition unit recognizes the sound output from the speaker. A configuration is disclosed that stops recognition by the first speech recognition unit when the speech recognized by the second speech recognition unit includes a speech recognition command (for example, see Patent Document 1).
しかしながら、従来技術では、マイクロホンで収音された音声にエコーキャンセラでは除去しきれない残エコー成分等のノイズ成分が含まれる場合には、音声認識の誤検出が発生する場合があった。すなわち、従来技術では、音声認識の誤検出を抑制することが困難となる場合があった。 However, in the prior art, when the voice picked up by the microphone contains noise components such as residual echo components that cannot be completely removed by the echo canceller, erroneous detection of voice recognition may occur. That is, in the prior art, it was sometimes difficult to suppress erroneous detection of voice recognition.
本開示は、音声認識の誤検出を抑制することができる、音声処理装置、音声処理方法、音声処理プログラム、および音声処理システムを提供することを目的とする。 An object of the present disclosure is to provide a speech processing device, a speech processing method, a speech processing program, and a speech processing system capable of suppressing erroneous detection of speech recognition.
本開示の一態様に係る音声処理装置は、音声取得部と、判定部と、音声処理部と、切替部と、を備える。音声取得部は、空間の音声を収音するマイクから音声信号を取得する。判定部は、前記空間に出音するスピーカから再生される再生信号である参照信号のレベルが閾値以上であるか否かを判定する。音声処理部は、前記音声信号から前記参照信号の音声成分を除去した除去信号を出力信号として音声認識部へ出力する。切替部は、前記参照信号のレベルが前記閾値以上と判定された場合、前記除去信号に換えて、コンフォートノイズおよびミュート信号の少なくとも一方である置換信号を前記出力信号として前記音声認識部へ出力する。 A speech processing device according to an aspect of the present disclosure includes a speech acquisition unit, a determination unit, a speech processing unit, and a switching unit. The audio acquisition unit acquires an audio signal from a microphone that picks up spatial audio. The determination unit determines whether or not the level of a reference signal, which is a reproduction signal reproduced from a speaker emitting sound in the space, is equal to or higher than a threshold. The speech processing unit outputs a removal signal obtained by removing the speech component of the reference signal from the speech signal to the speech recognition unit as an output signal. The switching unit outputs a replacement signal, which is at least one of comfort noise and a mute signal, as the output signal to the speech recognition unit in place of the removal signal when the level of the reference signal is determined to be equal to or higher than the threshold. .
本開示によれば、音声認識の誤検出を抑制することができる。 According to the present disclosure, erroneous detection of speech recognition can be suppressed.
以下、適宜図面を参照しながら、本開示の実施形態を詳細に説明する。ただし、必要以上に詳細な説明は省略する場合がある。なお、添付図面及び以下の説明は、当業者が本開示を十分に理解するために提供されるのであって、これらにより特許請求の範囲に記載の主題を限定することは意図されていない。 Hereinafter, embodiments of the present disclosure will be described in detail with reference to the drawings as appropriate. However, more detailed description than necessary may be omitted. It should be noted that the accompanying drawings and the following description are provided for a thorough understanding of the present disclosure by those skilled in the art and are not intended to limit the claimed subject matter.
図1は、本実施形態の音声処理システム1の概略構成の一例を示す図である。
FIG. 1 is a diagram showing an example of a schematic configuration of a
音声処理システム1は、空間内の音声を認識するためのシステムである。本実施形態では、空間が車両2の車室内の空間である場合を一例として説明する。また、本実施形態では、音声処理システム1が車両2に搭載された形態を一例として説明する。なお、空間は、車両2の車室内に限定されない。
The
音声処理システム1は、マイクMC、スピーカSP、音声処理装置10、音源装置30、音声認識部40、電子機器50、およびディスプレイ60を備える。マイクMC、スピーカSP、音声認識部40、およびディスプレイ60と、音声処理装置10とは、通信可能に接続されている。音声処理システム1は、マイクMC、スピーカSP、音声処理装置10、および音声認識部40を少なくとも備える構成であればよい。
The
マイクMCは、空間の音声を収音する。本実施形態では、マイクMCは、少なくとも車両2の車室内の空間の音声を収音する。本実施形態では、マイクMCが車両2の運転者hm1の座席である運転席の近傍に設けられた形態を一例として説明する。このため、本実施形態では、マイクMCは、運転者hm1によって発話された音声成分を少なくとも含む音声を収音する。
A microphone MC picks up sounds in the space. In this embodiment, the microphone MC picks up at least the sound of the space inside the
車両2には、複数のマイクMCが設けられた構成であってもよい。この場合、これらの複数のマイクMCは、車両2の車室内における互いに異なる位置に配置されていることが好ましい。詳細には、例えば、車両2の運転者hm1、乗員hm2、乗員hm3、および乗員hm3の各々の座席の近傍に、それぞれマイクMCが配置されていてもよい。本実施形態では、車両2には、1つのマイクMCが設けられた形態を一例として説明する。
The
マイクMCは、指向性マイク、無指向性マイク、の何れであってもよい。マイクMCは、小型のMEMS(Micro Electro Mechanical Systems)マイク、ECM(Electret Condenser Microphone)の何れであってもよい。マイクMCは、ビームフォーミング可能なマイクであってもよい。例えば、マイクMCは、特定の方向に指向性を有し、指向方向の音声を収音可能なマイクアレイでもよい。 The microphone MC may be either a directional microphone or an omnidirectional microphone. The microphone MC may be either a small MEMS (Micro Electro Mechanical Systems) microphone or an ECM (Electret Condenser Microphone). Microphone MC may be a beamforming microphone. For example, the microphone MC may be a microphone array that has directivity in a specific direction and is capable of picking up sound in the directional direction.
マイクMCは、収音した音声の音声信号を音声処理装置10へ出力する。音声処理装置10は、マイクMCに対応付けて設けられている。このため、音声処理システム1が複数のマイクMCを備えた構成である場合、音声処理システム1は、複数のマイクMCの各々に対応する複数の音声処理装置10を備えた構成であればよい。本実施形態では、音声処理システム1が、1つのマイクMCと、該マイクMCに通信可能に接続された1つの音声処理装置10と、を備える形態を一例として説明する。
The microphone MC outputs an audio signal of the collected audio to the
スピーカSPは、マイクMCによる収音対象の空間と同じ空間に出音する。本実施形態では、スピーカSPは、少なくとも車両2の車室内の空間に出音する。
The speaker SP emits sound to the same space as the sound pickup target space of the microphone MC. In this embodiment, the speaker SP emits sound at least to the space inside the
本実施形態では、車両2の車室内にスピーカSP1~スピーカSP4の4つのスピーカSPが配置された形態を一例として説明する。なお、音声処理システム1は、少なくとも1つのスピーカSPを備えた構成であればよく、スピーカSPの数および配置位置は限定されない。本実施形態では、車両2の車室内の運転者hm1、乗員hm2、乗員hm3、および乗員hm3の各々の座席の近傍に、それぞれ、スピーカSP1、スピーカSP2、スピーカSP3、およびスピーカSP4が配置された形態を一例として説明する。なお、これらのスピーカSP1~スピーカSP4を総称して説明する場合には、単にスピーカSPと称して説明する。
In the present embodiment, as an example, a form in which four speakers SP of speakers SP1 to SP4 are arranged in the vehicle interior of the
スピーカSPは、音源装置30に電気的に接続されている。スピーカSPは、音源装置30から受付けた再生信号によって表される音を出音する。再生信号とは、音源装置30からスピーカSPに出力される信号である。スピーカSPは、音源装置30から受付けた再生信号に応じた音を出音する。詳細には、スピーカSPは、音源装置30から受付けた再生信号のレベルに応じた音量の音を出音する。すなわち、本実施形態では、レベルとは、信号のレベルを意味し、具体的には、信号によって表される音の大きさを意味する。
The speaker SP is electrically connected to the
音源装置30は、例えば、ラジオ受信装置、テレビ放送装置、オーディオ機器、などである。ラジオ受信装置は、ラジオ放送信号を受信し、受信したラジオ放送信号から再生信号を生成してスピーカSPに出力する。この場合、再生信号は、例えば、ラジオ音声のラジオ音声信号である。テレビ放送装置は、テレビ放送信号を受信し、受信したテレビ放送信号から再生信号を生成してスピーカSPに出力する。この場合、再生信号は、例えば、テレビ音声のテレビ音声信号である。オーディオ機器は、メモリ等に記録されたオーディオ信号などの再生信号をスピーカSPに出力する。この場合、再生信号は、例えば、オーディオ信号、などである。
The
本実施形態では、音源装置30は、4つのスピーカSP(スピーカSP1~スピーカSP4)を利用するために4チャンネルの再生信号を生成し、参照信号として4つのスピーカSPの各々に出力する。詳細には、音源装置30は、スピーカSP1に再生信号である参照信号1を出力し、スピーカSP2に再生信号である参照信号2を出力し、スピーカSP3に再生信号である参照信号3を出力し、スピーカSP4に再生信号である参照信号4を出力する。これらの参照信号1~参照信号4は、複数のスピーカSPの各々に出力される再生信号である。参照信号1~参照信号4を総称して説明する場合には、単に参照信号と称して説明する。
In this embodiment, the
音声処理装置10は、マイクMCから受付けた音声信号およびスピーカSPから再生される再生信号である参照信号に基づいた出力信号を、音声認識部40へ出力する。音声処理装置10の詳細は後述する。
The
音声認識部40は、音声処理装置10から受付けた出力信号によって表される音声を認識し、音声認識結果を表す信号を電子機器50へ出力する。例えば、音声認識部40は、出力信号によって表される音声コマンドを認識し、電子機器50へ出力する。音声コマンドは、電子機器50に各種の処理を実行させるための信号である。音声コマンドは、音声認識コマンド、キーワード、ウェイクアップワード、等と称される場合がある。
The
電子機器50は、音声認識部40から受付けた音声認識結果を表す信号である音声コマンドに応じた処理を実行する。例えば、電子機器50は、音声コマンドに基づいて、窓を開閉する処理、車両2の運転に関する処理、エアコンの温度を変更する処理、オーディオ機器のボリュームを変更する処理、等を実行する。電子機器50は、例えば、カーナビゲーション装置、エアコンディショナ、パネルメータ、テレビ、携帯端末、車両2の各部を駆動する駆動装置、等である。
ディスプレイ60は、各種の情報を表示する表示装置である。ディスプレイ60は、例えば、車両2に設けられた各種のディスプレイ、ヘッドアップディスプレイ、カーナビゲーションシステムのディスプレイ、車両2のメータ内に設けられたマルチインフォメーションディスプレイ、オーディオ操作等を受付け可能なセンターディスプレイ、等である。本実施形態では、ディスプレイ60には後述する音声処理装置10によって情報が表示される。なお、ディスプレイ60は、電子機器50の一例として機能してもよい。
The
音声処理装置10について詳細に説明する。まず、音声処理装置10のハードウェア構成の一例を説明する。
The
図2は、音声処理装置10の一例のハードウェア構成図である。
FIG. 2 is a hardware configuration diagram of an example of the
音声処理装置10は、CPU(Central Processing Unit)11A、ROM(Read Only Memory)11B、RAM11C、およびI/F11D等がバス11Eにより相互に接続されており、通常のコンピュータを利用したハードウェア構成となっている。
The
CPU11Aは、本実施形態の音声処理装置10を制御する演算装置である。ROM11Bは、CPU11Aによる各種の処理を実現するプログラム等を記憶する。RAM11Cは、CPU11Aによる各種の処理に必要なデータを記憶する。I/F11Dは、データを送受信するためのインタフェースである。
The
本実施形態の音声処理装置10で実行される情報処理を実行するためのプログラムは、ROM11B等に予め組み込んで提供される。なお、本実施形態の音声処理装置10で実行されるプログラムは、音声処理装置10にインストール可能な形式又は実行可能な形式のファイルでCD-ROM、フレキシブルディスク(FD)、CD-R、DVD(Digital Versatile Disk)等のコンピュータで読み取り可能な記録媒体に記録されて提供するように構成してもよい。
A program for executing information processing executed by the
次に、音声処理装置10の構成について詳細に説明する。
Next, the configuration of the
図3は、音声処理装置10の構成の一例を示すブロック図である。図3には説明のために、音声処理装置10に加えて、マイクMC、音源装置30、音声認識部40、電子機器50、およびディスプレイ60を示す。
FIG. 3 is a block diagram showing an example of the configuration of the
音声処理装置10は、音声取得部20と、判定部22と、音声処理部24と、切替部26と、生成部28と、出力制御部29と、を備える。
The
音声取得部20、判定部22、音声処理部24、切替部26、生成部28、および出力制御部29の一部または全ては、例えば、CPU11Aなどの処理装置にプログラムを実行させること、すなわち、ソフトウェアにより実現してもよいし、IC(Integrated Circuit)などのハードウェアにより実現してもよいし、ソフトウェアおよびハードウェアを併用して実現してもよい。また、音声取得部20、判定部22、音声処理部24、切替部26、生成部28、および出力制御部29の少なくとも1つを、ネットワークなどを介して音声処理装置10と通信可能に接続された外部の情報処理装置に搭載した構成としてもよい。
Some or all of the
音声取得部20は、マイクMCから音声信号を取得する。音声取得部20は、取得した音声信号を音声処理部24へ出力する。
The
判定部22は、スピーカSPから再生される再生信号である参照信号のレベルが閾値以上であるか否かを判定する。参照信号のレベルとは、参照信号である再生信号によって表される音の大きさを表す。上述したように、スピーカSPは、音源装置30から受付けた再生信号のレベルに応じた音量の音を出音する。このため、再生信号である参照信号のレベルが大きいほど、スピーカSPから出音される音の音量は大きくなる。
The
閾値は、再生信号のレベルを徐々に大きくし、該再生信号に応じてスピーカSPから出音される音に歪みが発生し始めたときの該再生信号のレベル以下であり、且つ該レベルに近い値を予め定めればよい。また、閾値は、再生信号のレベルを徐々に大きくし、再生信号に応じてスピーカSPから出音される音に歪みが発生し始めたときの該再生信号のレベルと一致する値であってもよい。スピーカSPから出音される音の歪みは、音割れと称される場合もある。 The threshold value is equal to or lower than, and close to, the level of the reproduced signal when the level of the reproduced signal is gradually increased and distortion begins to occur in the sound output from the speaker SP according to the reproduced signal. A value may be determined in advance. Also, the threshold value may be a value that coincides with the level of the reproduced signal when the level of the reproduced signal is gradually increased and distortion begins to occur in the sound emitted from the speaker SP according to the reproduced signal. good. Distortion of the sound output from the speaker SP is sometimes referred to as sound distortion.
例えば、判定部22は、複数のスピーカSP1~スピーカSP4の各々ごとに、上記条件を満たす閾値を定める。
For example, the
そして、判定部22は、複数のスピーカSP1~スピーカSP4の各々から受付けた参照信号1~参照信号4の各々のレベルの内の少なくとも1つが、それぞれのスピーカSP1~スピーカSP4に対応する閾値以上であるか否かを判定する。
Then, the
また、判定部22は、複数のスピーカSP1~スピーカSP4の各々の、上記条件を満たす閾値の最低値、平均値、または最大値を、複数のスピーカSP1~スピーカSP4に共通する閾値として設定してもよい。そして、判定部22は、複数のスピーカSP1~スピーカSP4の各々から受付けた参照信号1~参照信号4の各々のレベルの内の少なくとも1つが、共通する閾値として設定した該閾値以上であるか否かを判定してもよい。
Further, the
本実施形態では、判定部22は、複数のスピーカSP1~スピーカSP4の各々から受付けた参照信号1~参照信号4の各々のレベルの内の少なくとも1つが、それぞれのスピーカSP1~スピーカSP4に対応する閾値以上であるか否かを判定する形態を一例として説明する。
In this embodiment, the
なお、複数のスピーカSP1~スピーカSP4の各々に対応する閾値は、判定部22のメモリ等に予め記憶しておけばよい。また、複数のスピーカSP1~スピーカSP4の各々に対応する閾値は、音声処理システム1に設けられるスピーカSPの種類や設置位置等に応じて、ユーザによる操作指示等によって上記条件を満たす範囲で適宜変更可能としてもよい。
Note that threshold values corresponding to each of the plurality of speakers SP1 to SP4 may be stored in advance in the memory or the like of the
音声処理部24は、音声取得部20から受付けた音声信号から参照信号の音声成分を除去した除去信号を生成する。
The audio processing unit 24 generates a removal signal by removing the audio component of the reference signal from the audio signal received from the
音声処理部24は、音声取得部20から受付けた音声信号に含まれる、再生信号である参照信号の音声成分を除去する。音声処理部24は、公知のエコーキャンセラ、および、クロストークキャンセラの少なくとも一方の方式を用いて、音声信号に含まれる参照信号の音声成分を除去すればよい。
The audio processing unit 24 removes the audio component of the reference signal, which is the reproduced signal, included in the audio signal received from the
例えば、音声処理部24は、適応フィルタFと、適応フィルタ制御部24Aと、減算部24Bと、を有する。 For example, the audio processing unit 24 has an adaptive filter F, an adaptive filter control unit 24A, and a subtraction unit 24B.
適応フィルタFは、参照信号の特性を変化させる機能を備えたフィルタである。本実施形態では、適応フィルタFは、適応フィルタF1~適応フィルタF4を含む。適応フィルタFの数は、入力される参照信号の数等に基づいて適宜設定される。 The adaptive filter F is a filter having a function of changing the characteristics of the reference signal. In this embodiment, the adaptive filter F includes adaptive filters F1 to F4. The number of adaptive filters F is appropriately set based on the number of input reference signals and the like.
適応フィルタ制御部24Aは、減算部24Bから出力される除去信号に応じて、公知の方法で適応フィルタF1~適応フィルタF4の各々のフィルタ係数を設定する。適応フィルタF1~適応フィルタF4は、それぞれで受け付けた参照信号1~参照信号4の各々および設定されたフィルタ係数に基づいた通過信号を、減算信号として減算部24Bへ出力する。このため、減算部24Bには、適応フィルタF1~適応フィルタF4の各々から出力された、参照信号1~参照信号4の各々および設定されたフィルタ係数に基づいた通過信号を足し合わせた信号である減算信号が出力される。
The adaptive filter control section 24A sets the filter coefficients of the adaptive filters F1 to F4 by a known method according to the removal signal output from the subtraction section 24B. The adaptive filters F1 to F4 output passing signals based on the respective received
減算部24Bは、音声取得部20から受付けた音声信号から上記減算信号を減算することで、音声信号から参照信号の音声成分を除去する除去処理を実行する。減算部24Bは、除去処理によって得られた除去信号、すなわち音声信号から参照信号の音声成分を除去した除去信号を、適応フィルタ制御部24Aおよび切替部26へ出力する。
The subtraction unit 24B subtracts the subtraction signal from the audio signal received from the
切替部26は、参照信号のレベルが閾値以上と判定された場合、音声処理部24から受付けた除去信号に換えて、コンフォートノイズおよびミュート信号の少なくとも一方である置換信号を出力信号として音声認識部40へ出力する。
When it is determined that the level of the reference signal is equal to or higher than the threshold, the switching
詳細には、切替部26は、判定部22によって参照信号のレベルが閾値以上と判定された場合、音声処理部24から受付けた除去信号に変えて、生成部28から受付けた置換信号を音声認識部40へ出力するように切り替える。
Specifically, when the
生成部28は、コンフォートノイズおよびミュート信号の少なくとも一方である置換信号を生成し、切替部26へ出力する。ミュート信号は、音のレベルが”0”である信号である。ミュート信号は、言い換えると、無音状態、消音状態、または無信号(MUTE)を表す信号である。
The
生成部28は、コンフォートノイズを置換信号として生成する場合には、判定部22によって閾値以上と判定される直前のタイミングの音声信号に含まれるノイズレベルに応じたレベルのコンフォートノイズを生成することが好ましい。例えば、音声取得部20は、マイクMCから取得した音声信号を、音声処理部24および生成部28に出力する。生成部28は、音声取得部20から受付けた音声信号における、判定部22によって閾値以上と判定される直前のタイミングの音声信号に含まれるノイズレベルを公知の方法で特定する。そして、生成部28は、特定したノイズレベルに応じたレベルのコンフォートノイズを生成する。例えば、生成部28は、特定したノイズレベルと同じレベル、すなわち同じレベルの音量を表すコンフォートノイズを生成する。
When generating the comfort noise as the replacement signal, the
生成部28が、閾値以上と判定される直前のタイミングの音声信号に含まれるノイズレベルに応じたレベルのコンフォートノイズを置換信号として生成することで、音声認識部40に出力される出力信号のレベルが急激に変動することが抑制される。例えば、車両2の走行環境の変化等に応じて空間の音環境が変動する場合、空間の音環境の変動に応じたレベルのコンフォートノイズが置換信号として音声認識部40に出力される。このため、音声認識部40に出力される出力信号が置換信号から除去信号へ又は除去信号から置換信号に切り替わるときに、出力信号のレベルが急激に変動することが抑制される。このため、出力信号のレベルの急激な変動による、音声認識部40の音声認識性能の低下を抑制することができる。
The level of the output signal output to the
また、生成部28は、コンフォートノイズおよびミュート信号の双方を含む置換信号を生成し、切替部26へ出力してもよい。例えば、生成部28は、コンフォートノイズとミュート信号とを交互に配列した置換信号を生成する。この場合、生成部28は、コンフォートノイズとミュート信号とが切り替わるときのレベルが徐々に変化するようにレベルを調整した出力信号を生成することが好ましい。
Further, the generating
なお、生成部28は、置換信号を常時生成してもよいが、判定部22によって参照信号のレベルが閾値以上と判定された場合に、置換信号を生成し切替部26へ出力することが好ましい。そして、生成部28は、判定部22によって参照信号のレベルが閾値未満と判定された場合には、置換信号の生成処理を停止してもよい。
Note that the
判定部22によって参照信号のレベルが閾値未満と判定された場合、生成部28が置換信号の生成処理を停止することで、音声処理装置10の処理演算量の削減を図ることができる。
When the
切替部26は、判定部22によって参照信号のレベルが閾値以上と判定された場合、音声処理部24から受付けた除去信号に変えて、生成部28から受付けた置換信号を出力信号として音声認識部40へ出力する。このため、判定部22によって参照信号のレベルが閾値以上と判定された場合、音声認識部40には除去信号に変えて置換信号が出力される。
When the
なお、切替部26は、判定部22によって参照信号のレベルが閾値以上と判定されている期間、除去信号に換えて置換信号を出力信号として音声認識部40へ出力してよい。そして、切替部26は、判定部22によって参照信号のレベルが閾値未満と判定されている期間には、音声処理部24から受付けた除去信号を出力信号として音声認識部40へ出力してよい。
Note that the switching
この場合、参照信号のレベルが閾値以上である期間は、音声認識部40には置換信号が出力信号として出力される。また、参照信号のレベルが閾値未満である期間は、音声認識部40には除去信号が出力信号として出力される。
In this case, while the level of the reference signal is equal to or higher than the threshold, the replacement signal is output to the
また、切替部26は、参照信号のレベルが閾値以上と判定された場合、除去信号に換えて置換信号を出力信号として、予め定めた第1の時間継続して音声認識部40へ出力してもよい。
Further, when it is determined that the level of the reference signal is equal to or higher than the threshold, the switching
第1の時間は、予め定めればよい。例えば、第1の時間には、音声認識部40へ出力される出力信号が除去信号と置換信号とに短時間で繰り返し切り替わることで音声認識部40の性能低下が発生するときの、音声認識部40への置換信号の継続出力時間より長い時間を定めればよい。また、例えば、第1の時間には、1つの音声コマンドの発話に要する平均発話期間以上であり、且つ、2つの音声コマンドが連続して発話されたときの平均発話期間未満の値などを定めてもよい。また、第1の時間は、ユーザによる操作指示等に応じて適宜変更可能としてもよい。
The first time may be determined in advance. For example, at the first time, the output signal output to the
この場合、参照信号のレベルが閾値以上となったタイミングから少なくとも第1の時間継続して、置換信号が出力信号として音声認識部40へ出力される。そして、該第1の時間経過後に、除去信号が出力信号として音声認識部40へ出力される。
In this case, the replacement signal is output as the output signal to the
また、切替部26は、判定部22によって参照信号のレベルが予め定めた第2の時間以上継続して閾値以上と判定された場合、除去信号に換えて置換信号を出力信号として音声認識部40へ出力してもよい。
Further, when the
第2の時間は、予め定めればよい。例えば、第2の時間には、音声認識部40へ出力される出力信号が除去信号と置換信号とに短時間で繰り返し切り替わることで音声認識部40の性能低下が発生するときの、音声認識部40への除去信号または置換信号の継続出力時間より長い時間を定めればよい。また、例えば、第2の時間には、1つの音声コマンドの発話に要する平均発話期間以上であり、且つ、2つの音声コマンドが連続して発話されたときの平均発話期間未満の値などを定めてもよい。また、第2の時間は、ユーザによる操作指示等に応じて適宜変更可能としてもよい。
The second time may be determined in advance. For example, at the second time, the output signal output to the
この場合、参照信号のレベルが閾値以上である状態が第2の時間継続した場合に、置換信号が出力信号として音声認識部40へ出力される。そして、参照信号のレベルが閾値未満または該レベルが閾値以上である状態の継続時間が第2の時間未満である場合、除去信号が出力信号として音声認識部40へ出力される。
In this case, when the state in which the level of the reference signal is equal to or higher than the threshold continues for the second time, the replacement signal is output to the
なお、音声処理部24は、音声信号から参照信号の音声成分を除去する除去処理を常時行ってもよいが、判定部22によって参照信号のレベルが閾値以上と判定された場合、除去処理を停止してもよい。例えば、判定部22は、参照信号のレベルが閾値以上と判定した場合、除去処理を停止するように音声処理部24を制御する。
Note that the audio processing unit 24 may always perform removal processing for removing the audio component of the reference signal from the audio signal, but if the
参照信号のレベルが閾値以上と判定された場合、音声処理部24が除去処理を停止することで、音声処理装置10の処理演算量の削減を図ることができる。
When it is determined that the level of the reference signal is equal to or higher than the threshold, the audio processing unit 24 stops the removal processing, thereby reducing the amount of processing computation of the
出力制御部29は、参照信号のレベルが閾値以上と判定された場合、音声認識停止中であることを表す情報を出力する。出力制御部29は、例えば、音声認識停止中であることを表す情報をディスプレイ60に出力する。
When the level of the reference signal is determined to be equal to or higher than the threshold, the
上述したように、参照信号のレベルが閾値以上である場合、音声認識部40には置換信号が出力信号として出力される。置換信号は、コンフォートノイズおよびミュート信号の少なくとも一方であるため、置換信号を受付けている期間、音声認識部40は音声認識を行わない。このため、例えば、車両2の車室内の空間にスピーカSPによって閾値以上のレベルの再生信号に応じた音量の音が出音されている状況では、運転者hm1などが音声コマンドなどを発話した場合であっても、音声認識部40による音声認識が行われない状態となる。そこで、再生信号である参照信号のレベルが閾値以上と判定された場合、出力制御部29が音声認識停止中であることを表す情報を出力することで、ユーザに対して音声認識部40の音声認識の状況を容易に提示することができる。
As described above, when the level of the reference signal is equal to or higher than the threshold, the replacement signal is output to the
なお、出力制御部29による情報の出力対象は、ディスプレイ60に限定されない。例えば、出力制御部29は、音声認識停止中であることを表す情報を、予め登録された運転者hm1によって管理される携帯端末などの情報処理装置へ送信してもよい。また、出力制御部29は、音声認識停止中であることを表す情報を、スピーカSPから出力してもよい。この場合、音声認識停止中であることを表す情報の再生信号のレベルは、上記閾値未満のレベルとすればよい。
Note that the output target of information by the
次に、本実施形態の音声処理装置10で実行される情報処理の流れの一例を説明する。
Next, an example of the flow of information processing executed by the
図4は、本実施形態の音声処理装置10で実行される情報処理の流れの一例を表すフローチャートである。
FIG. 4 is a flowchart showing an example of the flow of information processing executed by the
音声取得部20が、マイクMCから音声信号を取得する(ステップS100)。
The
判定部22は、スピーカSPから再生される再生信号である参照信号のレベルが閾値以上であるか否かを判定する(ステップS102)。参照信号のレベルが閾値以上であると判定された場合(ステップS102:Yes)、処理がステップS104へ進む。
The
ステップS104では、判定部22は、除去処理を停止するように音声処理部24を制御する。ステップS104の処理によって、音声処理部24は除去処理を停止する。
In step S104, the
生成部28は、コンフォートノイズおよびミュート信号の少なくとも一方である置換信号を生成し、切替部26へ出力する(ステップS106)。
The
切替部26は、生成部28で生成された置換信号を出力信号として音声認識部40へ出力する(ステップS108)。置換信号はコンフォートノイズおよびミュート信号の少なくとも一方であるため、置換信号には音声コマンドが含まれない。このため、置換信号を受付けつけている期間、音声認識部40は、音声コマンドの認識を行わない状態となる。
The switching
出力制御部29は、音声認識停止中であることを表す情報をディスプレイ60に出力する(ステップS110)。
The
次に、音声処理装置10は、処理を終了するか否かを判断する(ステップS112)。例えば、音声処理装置10は、ユーザによる操作指示等によって音声処理装置10への電力供給の遮断が指示されたか否かを判別することで、ステップS112の判断を行う。ステップS112で肯定判断すると(ステップS112:Yes)、音声処理装置10は本ルーチンを終了する。音声処理装置10がステップS112で否定判断すると(ステップS112:No)、処理が上記ステップS100へ戻る。
Next, the
一方、上記ステップS102において、スピーカSPから再生される再生信号である参照信号のレベルが閾値未満であると判定されると(ステップS102:No)、処理がステップS114へ進む。 On the other hand, if it is determined in step S102 that the level of the reference signal, which is the reproduction signal reproduced from the speaker SP, is less than the threshold (step S102: No), the process proceeds to step S114.
ステップS114では、音声処理部24が除去処理を実行し、音声取得部20から受付けた音声信号から参照信号の音声成分を除去した除去信号を生成する。なお、上記ステップS104の処理によって音声処理部24による除去処理が停止されている場合には、判定部22が除去処理の停止を解除するように音声処理部24を制御した後に、音声処理部24がステップS114の除去処理を実行すればよい。
In step S<b>114 , the audio processing unit 24 performs removal processing to generate a removed signal by removing the audio component of the reference signal from the audio signal received from the
切替部26は、音声処理部24で生成された除去信号を出力信号として音声認識部40へ出力する(ステップS116)。除去信号は、音声信号から参照信号である再生信号を除去した信号であるため、除去信号には音声コマンドが含まれる場合がある。このため、除去信号を出力信号として受付けつけている期間、音声認識部40は、音声コマンドの認識を行うことが可能な状態となる。そして、処理が上記ステップS112へ進む。
The switching
以上説明したように、本実施形態の音声処理装置10は、音声取得部20と、判定部22と、音声処理部24と、切替部26と、を備える。音声取得部20は、空間の音声を収音するマイクMCから音声信号を取得する。判定部22は、空間に出音するスピーカSPから再生される再生信号である参照信号のレベルが閾値以上であるか否かを判定する。音声処理部24は、音声信号から参照信号の音声成分を除去した除去信号を出力信号として音声認識部40へ出力する。切替部26は、参照信号のレベルが閾値以上と判定された場合、除去信号に換えて、コンフォートノイズおよびミュート信号の少なくとも一方である置換信号を出力信号として音声認識部40へ出力する。
As described above, the
ここで、従来技術には、マイクロホンで収音された音声を第1の音声認識部で認識し、スピーカから出音される音声を第2の音声認識部で認識し、第2の音声認識部で認識された音声に音声認識コマンドが含まれる場合、第1の音声認識部による認識を停止させる構成が開示されている。しかし、従来技術では、マイクロホンで収音された音声にエコーキャンセラ等では除去しきれない残エコー成分等のノイズ成分が含まれる場合には、音声認識の誤検出が発生する場合があった。すなわち、従来技術では、音声認識の誤検出を抑制することが困難となる場合があった。また、従来技術では、第2の音声認識部の性能等によって、第1の音声認識部による音声認識に誤検出が発生する場合があった。 Here, in the conventional technology, a first voice recognition unit recognizes voice picked up by a microphone, a second voice recognition unit recognizes voice output from a speaker, and a second voice recognition unit recognizes voice. A configuration is disclosed that stops recognition by a first speech recognition unit when a speech recognition command is included in the speech recognized by . However, in the prior art, if the voice picked up by the microphone contains noise components such as residual echo components that cannot be removed by an echo canceller or the like, erroneous detection of voice recognition may occur. That is, in the prior art, it was sometimes difficult to suppress erroneous detection of voice recognition. Further, in the prior art, there have been cases where erroneous detection occurs in speech recognition by the first speech recognition unit, depending on the performance of the second speech recognition unit.
一方、本実施形態の音声処理装置10では、再生信号である参照信号のレベルが閾値以上と判定された場合、マイクMCから取得した音声信号から参照信号の音声成分を除去した除去信号に換えて、コンフォートノイズおよびミュート信号の少なくとも一方である置換信号を出力信号として音声認識部40へ出力する。置換信号はコンフォートノイズおよびミュート信号の少なくとも一方であるため、置換信号には音声コマンドが含まれない。このため、置換信号を受付けつけている期間、音声認識部40は、音声コマンドの認識を行わない状態となる。
On the other hand, in the
このため、本実施形態の音声処理装置10では、例えばスピーカSPから再生される再生信号のレベルが大きく、マイクMCで収音された音声信号に除去処理によってキャンセルしきれない成分が残存する音環境であっても、再生信号に起因する音声認識の誤検出を抑制することができる。
Therefore, in the
従って、本実施形態の音声処理装置10は、音声認識の誤検出を抑制することができる。
Therefore, the
また、本実施形態の音声処理装置10では、判定部22は、マイクMCから取得した音声信号のレベルではなく、スピーカSPから再生される再生信号のレベルが閾値以上であるか否かを判断する。このため、本実施形態の音声処理装置10では、ユーザによって発話された音声のレベルの大小に拘わらず、再生信号のレベルが閾値未満である場合、マイクMCによって収音された該ユーザの音声成分を含む除去信号を音声認識対象として音声認識部40へ出力することができる。よって、本実施形態の音声処理装置10は、上記効果に加えて、ユーザによって発話された音声コマンド等を含む音声信号を、効率よく音声認識可能とすることができる。
Further, in the
また、本実施形態の音声処理システム1では、スピーカSPの再生信号に対しては音声認識部40による音声認識が行われないことから、上記効果に加えて、音声処理システム1の処理演算量の削減を図ることができる。また、本実施形態では、再生信号に対しては音声認識が行われないため、音声認識部40の音声認識精度に拘わらず、音声認識の誤検出を抑制することができる。
In addition, in the
なお、本実施形態では、音声処理システム1は、車両2に搭載された形態を一例として説明した。しかし、音声処理システム1は、音声処理対象の任意の空間に配置された構成であればよく、車両2に搭載された形態に限定されない。
In addition, in this embodiment, the
なお、上記には実施形態を説明したが、上記実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。上記新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。上記実施形態は、発明の範囲または要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。 Although the embodiment has been described above, the embodiment is presented as an example and is not intended to limit the scope of the invention. The novel embodiments described above can be embodied in various other forms, and various omissions, replacements, and modifications can be made without departing from the scope of the invention. The above embodiments are included in the scope or gist of the invention, and are included in the scope of the invention described in the claims and equivalents thereof.
1 音声処理システム
10 音声処理装置
20 音声取得部
22 判定部
24 音声処理部
26 切替部
28 生成部
40 音声認識部
50 電子機器
60 ディスプレイ
MC マイク
SP スピーカ
1
Claims (10)
前記空間に出音するスピーカから再生される再生信号である参照信号のレベルが閾値以上であるか否かを判定する判定部と、
前記音声信号から前記参照信号の音声成分を除去した除去信号を出力信号として音声認識部へ出力する音声処理部と、
前記参照信号のレベルが前記閾値以上と判定された場合、前記除去信号に換えて、コンフォートノイズおよびミュート信号の少なくとも一方である置換信号を前記出力信号として前記音声認識部へ出力する切替部と、
を備える音声処理装置。 an audio acquisition unit that acquires an audio signal from a microphone that picks up spatial audio;
a determination unit that determines whether a level of a reference signal, which is a reproduction signal reproduced from a speaker that emits sound in the space, is equal to or higher than a threshold;
a speech processing unit that outputs a removal signal obtained by removing the speech component of the reference signal from the speech signal to a speech recognition unit as an output signal;
a switching unit that outputs a replacement signal, which is at least one of comfort noise and a mute signal, as the output signal to the speech recognition unit instead of the removal signal when the level of the reference signal is determined to be equal to or higher than the threshold;
A speech processing device comprising:
前記参照信号のレベルが前記閾値以上と判定した場合、前記音声信号から前記参照信号の音声成分を除去する除去処理を停止するように、前記音声処理部を制御する、
請求項1に記載の音声処理装置。 The determination unit
When the level of the reference signal is determined to be equal to or higher than the threshold, controlling the audio processing unit to stop removal processing for removing the audio component of the reference signal from the audio signal;
The audio processing device according to claim 1.
前記生成部は、
前記閾値以上と判定される直前の前記音声信号に含まれるノイズレベルに応じた前記コンフォートノイズである前記置換信号を生成する、
請求項1または請求項2に記載の音声処理装置。 Further comprising a generation unit that generates the replacement signal,
The generating unit
generating the replacement signal that is the comfort noise according to the noise level included in the audio signal immediately before it is determined to be equal to or greater than the threshold;
3. The audio processing device according to claim 1 or 2.
前記参照信号のレベルが前記閾値以上と判定されている期間、前記除去信号に換えて前記置換信号を前記出力信号として前記音声認識部へ出力する、
請求項1~請求項3の何れか1項に記載の音声処理装置。 The switching unit is
outputting the replacement signal as the output signal to the speech recognition unit in place of the removal signal during a period in which the level of the reference signal is determined to be equal to or higher than the threshold;
The audio processing device according to any one of claims 1 to 3.
前記参照信号のレベルが前記閾値以上と判定された場合、前記除去信号に換えて前記置換信号を前記出力信号として、予め定めた第1の時間継続して前記音声認識部へ出力する、
請求項1~請求項3の何れか1項に記載の音声処理装置。 The switching unit is
when the level of the reference signal is determined to be equal to or higher than the threshold, continuously outputting the replacement signal as the output signal instead of the removal signal to the speech recognition unit for a predetermined first time;
The audio processing device according to any one of claims 1 to 3.
前記参照信号のレベルが予め定めた第2の時間以上継続して前記閾値以上と判定された場合、前記除去信号に換えて前記置換信号を前記出力信号として前記音声認識部へ出力する、請求項1~請求項3の何れか1項に記載の音声処理装置。 The switching unit is
3. Outputting the replacement signal to the speech recognition unit as the output signal in place of the removal signal when the level of the reference signal is continuously determined to be the threshold value or more for a predetermined second time period or longer. The audio processing device according to any one of claims 1 to 3.
を更に備える請求項1~請求項6の何れか1項に記載の音声処理装置。 an output control unit that outputs information indicating that speech recognition is stopped when the level of the reference signal is determined to be equal to or higher than the threshold;
The audio processing device according to any one of claims 1 to 6, further comprising:
空間の音声を収音するマイクから音声信号を取得するステップと、
前記空間に出音するスピーカから再生される再生信号である参照信号のレベルが閾値以上であるか否かを判定するステップと、
前記音声信号から前記参照信号の音声成分を除去した除去信号を出力信号として音声認識部へ出力するステップと、
前記参照信号のレベルが前記閾値以上と判定された場合、前記除去信号に換えて、コンフォートノイズおよびミュート信号の少なくとも一方である置換信号を前記出力信号として前記音声認識部へ出力するステップと、
を含む音声処理方法。 A speech processing method executed by a speech processing device,
acquiring an audio signal from a microphone that picks up spatial audio;
a step of determining whether the level of a reference signal, which is a reproduction signal reproduced from a speaker emitting sound in the space, is equal to or higher than a threshold;
a step of outputting, as an output signal, a removed signal obtained by removing the audio component of the reference signal from the audio signal to a speech recognition unit;
a step of outputting a replacement signal, which is at least one of comfort noise and a mute signal, as the output signal to the speech recognition unit in place of the removal signal when the level of the reference signal is determined to be equal to or higher than the threshold;
audio processing methods, including
前記空間に出音するスピーカから再生される再生信号である参照信号のレベルが閾値以上であるか否かを判定するステップと、
前記音声信号から前記参照信号の音声成分を除去した除去信号を出力信号として音声認識部へ出力するステップと、
前記参照信号のレベルが前記閾値以上と判定された場合、前記除去信号に換えて、コンフォートノイズおよびミュート信号の少なくとも一方である置換信号を前記出力信号として前記音声認識部へ出力するステップと、
をコンピュータに実行させるための音声処理プログラム。 acquiring an audio signal from a microphone that picks up spatial audio;
a step of determining whether the level of a reference signal, which is a reproduction signal reproduced from a speaker emitting sound in the space, is equal to or higher than a threshold;
a step of outputting, as an output signal, a removed signal obtained by removing the audio component of the reference signal from the audio signal to a speech recognition unit;
a step of outputting a replacement signal, which is at least one of comfort noise and a mute signal, as the output signal to the speech recognition unit in place of the removal signal when the level of the reference signal is determined to be equal to or higher than the threshold;
A sound processing program that causes a computer to execute
前記音声処理装置は、
前記マイクから音声信号を取得する音声取得部と、
前記スピーカから再生される再生信号である参照信号のレベルが閾値以上であるか否かを判定する判定部と、
前記音声信号から前記参照信号の音声成分を除去した除去信号を出力信号として前記音声認識部へ出力する音声処理部と、
前記参照信号のレベルが前記閾値以上と判定された場合、前記除去信号に換えて、コンフォートノイズおよびミュート信号の少なくとも一方である置換信号を前記出力信号として前記音声認識部へ出力する切替部と、
を備える音声処理システム。 A voice processing system comprising a voice processing device, a microphone that collects voice in a space, a speaker that outputs sound to the space, and a voice recognition unit that recognizes voice,
The audio processing device is
an audio acquisition unit that acquires an audio signal from the microphone;
a determination unit that determines whether a level of a reference signal, which is a reproduction signal reproduced from the speaker, is equal to or higher than a threshold;
a speech processing unit that outputs a removal signal obtained by removing the speech component of the reference signal from the speech signal to the speech recognition unit as an output signal;
a switching unit that outputs a replacement signal, which is at least one of comfort noise and a mute signal, as the output signal to the speech recognition unit instead of the removal signal when the level of the reference signal is determined to be equal to or higher than the threshold;
An audio processing system comprising:
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022015324A JP2023113171A (en) | 2022-02-03 | 2022-02-03 | Voice processing unit, voice processing method, voice processing program and voice processing system |
PCT/JP2022/037014 WO2023149015A1 (en) | 2022-02-03 | 2022-10-03 | Speech processing device, speech processing method, speech processing program, and speech processing system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022015324A JP2023113171A (en) | 2022-02-03 | 2022-02-03 | Voice processing unit, voice processing method, voice processing program and voice processing system |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2023113171A true JP2023113171A (en) | 2023-08-16 |
Family
ID=87552043
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022015324A Pending JP2023113171A (en) | 2022-02-03 | 2022-02-03 | Voice processing unit, voice processing method, voice processing program and voice processing system |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP2023113171A (en) |
WO (1) | WO2023149015A1 (en) |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009181025A (en) * | 2008-01-31 | 2009-08-13 | Mitsubishi Electric Corp | On-vehicle speech recognition device |
KR101590332B1 (en) * | 2012-01-09 | 2016-02-18 | 삼성전자주식회사 | Imaging apparatus and controlling method thereof |
JP2019176431A (en) * | 2018-03-29 | 2019-10-10 | トヨタ自動車株式会社 | Sound recognition device |
JP7270140B2 (en) * | 2019-09-30 | 2023-05-10 | パナソニックIpマネジメント株式会社 | Audio processing system and audio processing device |
CN111369999A (en) * | 2020-03-12 | 2020-07-03 | 北京百度网讯科技有限公司 | Signal processing method and device and electronic equipment |
-
2022
- 2022-02-03 JP JP2022015324A patent/JP2023113171A/en active Pending
- 2022-10-03 WO PCT/JP2022/037014 patent/WO2023149015A1/en unknown
Also Published As
Publication number | Publication date |
---|---|
WO2023149015A1 (en) | 2023-08-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106664473B (en) | Information processing apparatus, information processing method, and program | |
US9002028B2 (en) | Noisy environment communication enhancement system | |
JP6225920B2 (en) | Device with speech recognition and speech recognition method | |
US9978355B2 (en) | System and method for acoustic management | |
JP5694063B2 (en) | Indoor communication system for vehicle cabin | |
CN108141663B (en) | Sound collecting device and control method of sound collecting device | |
JP4333369B2 (en) | Noise removing device, voice recognition device, and car navigation device | |
US10339951B2 (en) | Audio signal processing in a vehicle | |
US10932042B2 (en) | Conversation assist apparatus and conversation assist method | |
US20200245066A1 (en) | Sound processing apparatus and sound processing method | |
EP2482566B1 (en) | Method for generating an audio signal | |
JP2007180896A (en) | Voice signal processor and voice signal processing method | |
KR20200033617A (en) | In-vehicle apparatus for recognizing voice and method of controlling the same | |
WO2023149015A1 (en) | Speech processing device, speech processing method, speech processing program, and speech processing system | |
US20220189450A1 (en) | Audio processing system and audio processing device | |
JP5383008B2 (en) | Speech intelligibility improvement system and speech intelligibility improvement method | |
JP2021173881A (en) | Voice processing device and voice processing method | |
EP3833046A1 (en) | Sound collecting/amplifying device, method therefor, and program | |
US20230096846A1 (en) | Controlling playback of audio data | |
JP4924652B2 (en) | Voice recognition device and car navigation device | |
JP2017030671A (en) | Noise reduction device, noise reduction method, and on-vehicle system | |
JP2007295347A (en) | Voice processor | |
JP2023036332A (en) | Acoustic system | |
JP2022026270A (en) | Speech processing system, speech processing unit, and speech processing method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A711 Effective date: 20240226 |