JP2020039048A - Voice collecting device and voice collecting method - Google Patents
Voice collecting device and voice collecting method Download PDFInfo
- Publication number
- JP2020039048A JP2020039048A JP2018165139A JP2018165139A JP2020039048A JP 2020039048 A JP2020039048 A JP 2020039048A JP 2018165139 A JP2018165139 A JP 2018165139A JP 2018165139 A JP2018165139 A JP 2018165139A JP 2020039048 A JP2020039048 A JP 2020039048A
- Authority
- JP
- Japan
- Prior art keywords
- microphone
- user
- voice
- specified
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Circuit For Audible Band Transducer (AREA)
Abstract
Description
本発明は、音声収集装置および音声収集方法に関する。 The present invention relates to a voice collecting device and a voice collecting method.
近年、ユーザが発話した音声を収集し、収集した音声に基づいてコマンドを特定し、特定したコマンドに対応する処理を実行する情報処理装置が使用されている。このような音声入力可能な情報処理装置によれば、ユーザは、タッチパネルやキーボード、マウスといった入力デバイスを操作することなく、所望の処理を実行させることができる。例えば、車両に搭載された音声入力可能なカーナビゲーションシステムに対し、車両を運転するユーザは、音声を発話することによって、運転動作を中断することなく目的地を設定するなどの所望の処理を実行させることができる。 2. Description of the Related Art In recent years, an information processing apparatus that collects voice spoken by a user, specifies a command based on the collected voice, and executes a process corresponding to the specified command has been used. According to such an information processing apparatus capable of voice input, a user can execute a desired process without operating an input device such as a touch panel, a keyboard, and a mouse. For example, a user driving a vehicle performs a desired process such as setting a destination without interrupting the driving operation by speaking a voice to a car navigation system capable of voice input mounted on the vehicle. Can be done.
ユーザが発話した音声は、マイクによって取得されて音声信号に変換され、音声認識装置に入力される。音声認識装置が音声認識処理(入力された音声信号に基づいてコマンドを特定する処理)を適切に実行するためには、ユーザが発話した音声に忠実に対応する音声信号を取得することが望ましい。 The voice spoken by the user is acquired by a microphone, converted into a voice signal, and input to a voice recognition device. In order for the voice recognition device to appropriately execute voice recognition processing (processing for specifying a command based on an input voice signal), it is desirable to obtain a voice signal that faithfully corresponds to the voice uttered by the user.
ユーザが発話した音声に忠実に対応する音声信号を取得するため、それぞれ異なる指向特性を有する複数のマイクによってユーザの発話した音声を取得する場合がある。この場合、複数のマイクの取得した音声信号が取捨選択され、音声認識処理に使用される。 In order to obtain an audio signal faithfully corresponding to the voice uttered by the user, the voice uttered by the user may be obtained by a plurality of microphones having different directional characteristics. In this case, the audio signals obtained by the plurality of microphones are selected and used for voice recognition processing.
特許文献1には、発話者の方向を検出し、発話者の音声を検出し、指向特性を発話者の方向において高めるように調整し、調整された発話者の音声を認識する車載用音声認識装置が記載されている。かかる車載用音声認識装置は、発話者の音声以外のノイズを低減して音声認識率を向上することができる。
特許文献1に記載の音声認識装置では、複数のマイクの出力における信号レベルおよび遅延時間に基づいて算出する発話者の方向に基づいて、各マイクのゲインを調整する。
In the speech recognition device described in
ここで、マイクは、直接マイクに到達する音声(直接音)と壁面などの周辺の物体により反射されてマイクに到達する音声(反射音)とが混在した音声を取得する場合がある。特に、車両の車室のように狭い閉ざされた状況では、反射音の影響を受けやすくなる。反射音は直接音よりも遅延するため、反射音が混在することにより直接音による音声認識処理の阻害要因となり得る。 Here, the microphone may acquire a sound in which a sound (direct sound) directly reaching the microphone and a sound (reflected sound) reaching the microphone by being reflected by a peripheral object such as a wall surface are mixed. In particular, in a narrow closed situation such as a vehicle cabin, the vehicle is easily affected by reflected sound. Since the reflected sound is delayed more than the direct sound, the mixed sound may hinder the voice recognition processing by the direct sound.
信号レベルおよび遅延時間に基づいて選択されたマイクの取得する音声が反射音の影響を受けている場合があり、このような場合、選択されたマイクが音声認識処理に最適のマイクとは限らない。 The sound obtained by the microphone selected based on the signal level and the delay time may be affected by the reflected sound, and in such a case, the selected microphone is not always the best microphone for the voice recognition processing. .
そして、マイクが反射音の影響を受けやすいか否かは、発話したユーザの声の特徴により決まる傾向があり、例えば、声の大きいユーザによる発話は反射音の影響を受けやすい。 Whether or not the microphone is easily affected by the reflected sound tends to be determined by the characteristics of the voice of the uttering user. For example, an utterance by a loud user is easily affected by the reflected sound.
そこで、本発明は、反射音の影響を受けやすい状況でも適切にマイクを選択可能な、音声収集装置および音声収集方法を提供することを目的とする。 Therefore, an object of the present invention is to provide a sound collection device and a sound collection method that can appropriately select a microphone even in a situation easily affected by a reflected sound.
本発明にかかる音声収集装置は、複数のマイクから音声信号を取得する音声取得部と、マイクから取得した音声信号の強度および/または到達時間に基づいてマイクを特定する第1マイク特定部と、マイクから取得した音声信号に対応するユーザを特定するユーザ特定部と、ユーザごとに複数のマイクのうち一のマイクを関連づけるユーザテーブルにおいて、特定されたユーザに関連づけられたマイクを特定する第2マイク特定部と、第2マイク特定部によりマイクが特定され、かつ、第1マイク特定部により特定されたマイクと第2マイク特定部により特定されたマイクとが一致しない場合、第2マイク特定部により特定されたマイクを、音声認識処理に使用するマイクとして選択するマイク選択部と、を備えることを特徴とする。 A sound collection device according to the present invention includes a sound obtaining unit that obtains sound signals from a plurality of microphones, a first microphone specifying unit that specifies a microphone based on the strength and / or arrival time of the sound signals obtained from the microphones, A user identification unit that identifies a user corresponding to an audio signal acquired from a microphone, and a second microphone that identifies a microphone associated with the identified user in a user table that associates one of a plurality of microphones for each user If the microphone is specified by the specifying unit and the second microphone specifying unit, and the microphone specified by the first microphone specifying unit does not match the microphone specified by the second microphone specifying unit, the second microphone specifying unit A microphone selection unit that selects the specified microphone as a microphone used for the voice recognition processing.
また、本発明にかかる音声収集装置において、マイクは、車両における車室内の音声に応じた音声信号を取得可能に配置されており、ユーザテーブルは、ユーザに加え、車室への案内音声の出力レベル、車室内のノイズレベル、車両の速度、および/または、車室の密閉状態ごとに、複数のマイクのうち一のマイクを関連づけており、第2マイク特定部は、ユーザテーブルにおいて、特定されたユーザ、および、車室への案内音声の出力レベル、車室内のノイズレベル、車両の速度、および/または、車室内の密閉状態に関連づけられるマイクを特定することが好ましい。 Further, in the sound collection device according to the present invention, the microphone is arranged so as to be able to acquire a sound signal corresponding to the sound in the vehicle cabin of the vehicle, and the user table is configured to output guidance voice to the vehicle room in addition to the user. One microphone among the plurality of microphones is associated with each of the level, the noise level in the vehicle compartment, the speed of the vehicle, and / or the closed state of the vehicle compartment, and the second microphone specifying unit is specified in the user table. It is preferable to specify the user who has been connected and the output level of the guidance voice to the passenger compartment, the noise level in the passenger compartment, the speed of the vehicle, and / or the microphone associated with the closed state of the passenger compartment.
また、本発明にかかる音声収集装置において、ユーザ特定部は、車両と無線接続可能な情報端末ごとにユーザを関連づける端末テーブルにおいて、車両と無線接続された情報端末の識別子に関連づけられるユーザを、音声信号に対応するユーザとして特定することが好ましい。 Also, in the voice collection device according to the present invention, the user identification unit may include, in a terminal table for associating a user with each information terminal wirelessly connectable to the vehicle, a user associated with the identifier of the information terminal wirelessly connected to the vehicle. It is preferable to specify the user corresponding to the signal.
また、本発明にかかる音声収集装置は、複数のマイクごとに、取得した音声信号を一時記憶させ、選択されたマイクにより取得されて一時記憶された音声信号を出力させるバッファ制御部をさらに備えることが好ましい。 In addition, the audio collection device according to the present invention may further include a buffer control unit that temporarily stores the obtained audio signal for each of the plurality of microphones and outputs the audio signal obtained and temporarily stored by the selected microphone. Is preferred.
また、本発明にかかる音声収集装置は、選択されたマイクにより取得された音声信号の音声認識の結果を受信し、当該結果に基づいて、ユーザテーブルにおいて、特定されたユーザとマイクとの関連づけを変更する学習部をさらに備えることが好ましい。 In addition, the voice collection device according to the present invention receives a result of voice recognition of a voice signal acquired by the selected microphone, and associates the specified user with the microphone in the user table based on the result. It is preferable to further include a learning unit for changing.
本発明にかかる音声収集方法は、複数のマイクから音声信号を取得する音声取得ステップと、マイクから取得した音声信号の強度および/または到達時間に基づいてマイクを特定する第1マイク特定ステップと、マイクから取得した音声信号に対応するユーザを特定するユーザ特定ステップと、ユーザごとに複数のマイクのうち一のマイクを関連づけるユーザテーブルにおいて、特定されたユーザに関連づけられたマイクを特定する第2マイク特定ステップと、第2マイク特定ステップにおいてマイクが特定され、かつ、第1マイク特定ステップにおいて特定されたマイクと第2マイク特定ステップにおいて特定されたマイクとが一致しない場合、第2マイク特定ステップにおいて特定されたマイクを音声認識処理に使用するマイクとして選択するマイク選択ステップと、を含むことを特徴とする。 A voice collecting method according to the present invention includes: a voice obtaining step of obtaining voice signals from a plurality of microphones; a first microphone specifying step of specifying a microphone based on the strength and / or arrival time of the voice signals obtained from the microphones; A user identification step of identifying a user corresponding to an audio signal acquired from the microphone, and a second microphone identifying a microphone associated with the identified user in a user table associating one of a plurality of microphones for each user If the microphone is specified in the specifying step and the second microphone specifying step, and the microphone specified in the first microphone specifying step does not match the microphone specified in the second microphone specifying step, the microphone is specified in the second microphone specifying step. Select the specified microphone as the microphone to be used for speech recognition processing. Characterized in that it comprises a microphone selection step of, a.
本発明の音声収集装置によれば、発話するユーザに応じて、反射音の影響を受けやすい状況でも適切にマイクを選択することができる。 ADVANTAGE OF THE INVENTION According to the audio | voice collection apparatus of this invention, a microphone can be appropriately selected according to the user who speaks even in the situation which is easily influenced by a reflected sound.
本発明の音声収集方法によれば、発話するユーザに応じて、反射音の影響を受けやすい状況でも適切にマイクを選択することができる。 ADVANTAGE OF THE INVENTION According to the audio | voice collection method of this invention, a microphone can be appropriately selected according to the user who speaks even in the situation easily affected by the reflected sound.
以下、図面を参照して音声収集装置および音声収集方法について詳細に説明する。ただし、本発明は図面または以下に記載される実施形態に限定されないことを理解されたい。 Hereinafter, the voice collecting apparatus and the voice collecting method will be described in detail with reference to the drawings. However, it should be understood that the invention is not limited to the drawings or the embodiments described below.
本発明の音声収集装置は、マイクから取得した音声信号の強度および/または到達時間に基づいてマイクを特定する。一方で、上述したように、マイクが反射の影響を受けやすいか否かは、ユーザの声の特徴により決まる傾向がある。そこで、音声収集装置は、ユーザごとに、反射の影響の受けやすさを反映して、マイクを関連づけて記憶しておく。そして、音声収集装置は、マイクから取得した音声信号に対応するユーザを特定し、特定されたユーザに関連づけられたマイクを特定する。音声収集装置は、ユーザに関連づけられたマイクが特定され、かつ、音声の強度および/または到達時間に基づいて特定されたマイクとユーザに関連づけられたマイクとが一致しない場合、ユーザに関連づけられたマイクを、音声認識処理に使用するマイクとして選択する。これにより、音声収集装置は、発話するユーザに応じて、反射音の影響を受けやすい状況でも適切にマイクを選択することができる。 The sound collection device of the present invention specifies a microphone based on the strength and / or arrival time of a sound signal acquired from the microphone. On the other hand, as described above, whether or not a microphone is susceptible to reflection tends to be determined by characteristics of a user's voice. Therefore, the voice collecting apparatus stores a microphone in association with a microphone, reflecting the susceptibility of the user to the reflection. Then, the sound collection device specifies the user corresponding to the sound signal acquired from the microphone, and specifies the microphone associated with the specified user. The voice collection device may be configured to identify the microphone associated with the user, and if the microphone identified based on the sound intensity and / or the arrival time does not match the microphone associated with the user, Select the microphone as the microphone to be used for the voice recognition processing. Accordingly, the voice collection device can appropriately select a microphone according to the user who speaks even in a situation where the sound is easily affected by the reflected sound.
なお、発話したユーザが特定できない場合や、発話したユーザが新規のユーザであることなどによりそのユーザにマイクが関連づけて記憶されていない場合は、音声収集装置は、音声の強度および/または到達時間に基づいて特定されたマイクを選択する。また、新規のユーザの場合でも、後述する学習部によって、そのユーザにおける反射の影響の受けやすさを反映して、マイクを新たに関連づけて記憶しておくことにより、次回からはそのユーザに関連づけられたマイクを特定することができる。 If the user who made the utterance cannot be identified, or if the user who made the utterance is a new user and no microphone is stored in association with the user, the voice collection device will use the voice intensity and / or arrival time. Select the specified microphone based on the. Also, even in the case of a new user, the learning unit described later reflects the susceptibility of the user to the influence of the reflection, and the microphone is newly associated and stored. The microphone which was made can be specified.
図1は、音声収集装置の動作概要を説明する図である。 FIG. 1 is a diagram illustrating an outline of the operation of the voice collection device.
車両1は、音声収集装置2と、マイク3a〜3cと、ストレージ装置5を有する。ユーザXは、端末Pを携帯して車両1に乗車し、発話する。音声収集装置2は、ユーザXの発話をマイク3a〜3cから取得する。
The
グラフG1は、マイク3aから取得した音声信号の入力レベルを縦軸とし、時間を横軸として表したグラフである。同様に、グラフG2、グラフG3は、マイク3b、マイク3cから取得した音声信号の入力レベルを表している。
The graph G1 is a graph in which the vertical axis represents the input level of the audio signal acquired from the
グラフG1において、系列G11はマイク3aから取得した直接音の入力レベルを表し、系列G12はマイク3aから取得した反射音の入力レベルを表している。グラフG1では、説明を簡単にするため、直接音と反射音とを別の系列で表しているが、実際にはこれらの音が合成された状態でマイク3aから音声信号が取得される。
In the graph G1, a series G11 represents an input level of a direct sound acquired from the
ユーザの発話した音声の直接音は、時刻t0にマイク3aに到達する。ユーザの発話した音声の直接音の入力レベルは、L1である。ユーザの発話した音声の反射音は、時刻t3にマイク3aに到達する。ユーザの発話した音声の反射音の入力レベルは、L5である。
Direct sound of the voice uttered the user arrives at the
グラフG2において系列G21で表されるマイク3bから取得した直接音は、時刻t1にマイク3bに到達し、その入力レベルはL2である。また、グラフG2において系列G22で表されるマイク3bから取得した反射音は、時刻t4にマイク3bに到達し、その入力レベルは、L6である。
Direct sound acquired from the
グラフG3において系列G31で表されるマイク3cから取得した直接音は、時刻t2にマイク3cに到達し、その入力レベルはL3である。また、グラフG3において系列G32で表されるマイク3cから取得した反射音は、時刻t5にマイク3cに到達し、その入力レベルは、L4である。
Direct sound acquired from the
このように各マイクから取得した音声信号の強度および/または到達時間に基づいて、音声収集装置2はマイクを特定する。図1の例では、音声収集装置2は、取得した音声信号の強度および到達時間に基づいて、音声信号の強度が最も大きく、かつ、音声信号が最も早く到達するマイク3aを特定する。
Thus, the
また、音声収集装置2は、取得した音声信号の強度または到達時間に基づいてマイクを特定してもよい。例えば、音声収集装置2は、音声信号の強度が最も大きいマイクを特定してもよく、音声信号が最も早く到達するマイクを特定してもよい。
Further, the
一方、音声収集装置2は、マイクから取得した音声信号に対応するユーザを特定する。具体的には、音声収集装置2はまず、ユーザが携帯する端末Pの識別子を検出する。
On the other hand, the
そして、音声収集装置2は、ストレージ装置5に記憶された端末テーブル51を参照し、端末Pに対応するユーザであるユーザXを特定する。
Then, the
さらに、音声収集装置2は、ストレージ装置5に記憶されたユーザテーブル52を参照し、ユーザXに関連づけられるマイクであるマイク3bを特定する。
Further, the
次に、音声収集装置2は、音声信号の強度および/または到達時間に基づいて特定されたマイクと、ユーザに関連づけられたマイクとが同一であるか否かを判定する。図1の例では、音声信号の強度および/または到達時間に基づいて特定されたマイクはマイク3aであり、特定されたユーザXに対応するマイクはマイク3bであるので、音声収集装置2はマイクが一致しないと判定する。
Next, the
マイクが一致しないと判定した音声収集装置2は、特定されたユーザに対応するマイクを、音声認識処理に使用するマイクとして選択する。図1の例では、音声収集装置2は、マイクが一致しないと判定し、特定されたユーザに対応するマイクであるマイク3bを、音声認識処理に使用するマイクとして選択する。
The
このようにマイクを選択することにより、音声収集装置は、発話するユーザに応じて、反射音の影響を受けやすい状況でも、音声認識処理に使用するマイクを適切に選択することができる。 By selecting a microphone in this way, the voice collecting apparatus can appropriately select a microphone to be used for the voice recognition process, depending on the user who speaks, even in a situation that is easily affected by the reflected sound.
図2は、音声収集装置を備えた車両のハードウェア模式図である。 FIG. 2 is a schematic hardware diagram of a vehicle including the voice collecting device.
車両1は、音声収集装置2と、マイク3と、無線インタフェース4と、ストレージ装置5と、音声認識装置6と、カーナビゲーションシステム7とを備える。
The
音声収集装置2は、複数のマイク3から音声信号を取得し、選択した1のマイクの音声信号を音声認識装置6に出力する情報処理装置である。音声収集装置2の詳細な構成は後述する。
The
マイク3は、音声に応じた電気信号である音声信号を出力する入力デバイスである。マイク3は音声収集装置2と接続され、音声信号を音声収集装置2に提供する。マイク3は複数のマイクを含み、マイク3に含まれる複数のマイクのそれぞれは、車両の客室内の各所に取り付けられる。
The
例えば、マイク3aはフロントガラス上端中央近傍に、マイク3bは右側Bピラー上部に、マイク3cは左側Bピラー上部に取り付けられる。
For example, the
無線インタフェース4は、外部機器と無線による通信を行うために用いられるインタフェースである。無線インタフェース4はBluetooth(登録商標)インタフェースを提供するデバイスであり、音声収集装置2と接続されてスマートフォン、タブレットコンピュータといったBluetoothに対応する外部機器との通信を可能とする。無線インタフェース4は、IEEE802.11acなどの無線ローカルエリアネットワーク、ISO/IEC 18092などの近距離無線通信規格などであってもよい。
The
ストレージ装置5は、データを記憶する装置である。ストレージ装置5は記憶素子として半導体素子メモリを用いたSSD(Solid State Drive)であり、音声収集装置2と接続されてデータの送受信を行う。ストレージ装置5は、ハードディスクドライブであってもよい。
The
ストレージ装置5は、端末テーブル51とユーザテーブル52とを記憶する。端末テーブル51とユーザテーブル52の詳細については後述する。
The
音声認識装置6は、音声収集装置2が出力する音声信号を周辺機器へのコマンドに変換する装置である。音声認識装置6は、メインメモリに展開された音声認識プログラムをプロセッサが実行することにより構成される。音声認識装置6は、音声収集装置2と接続されて音声収集装置2から音声信号を受信する。
The voice recognition device 6 is a device that converts a voice signal output from the
カーナビゲーションシステム7は、車両1の現在位置に基づいて目的地への経路案内を行う装置である。カーナビゲーションシステム7は、ローカルエリアネットワークを介して音声認識装置6と接続され、音声認識装置6が受信したコマンドに基づいて、目的地の設定または表示の変更などの動作を行う。
The
図3(a)は端末テーブルの例であり、図3(b)はユーザテーブルの例である。 FIG. 3A is an example of a terminal table, and FIG. 3B is an example of a user table.
ストレージ装置5に記憶される端末テーブル51は、車両1と無線接続可能な情報端末ごとにユーザを関連づけている。例えば、端末テーブル51において、端末PにはユーザXが関連づけられている。
The terminal table 51 stored in the
ストレージ装置5は、ユーザによる設定に従って、情報端末とユーザとの関連付けを端末テーブル51に記憶する。
The
ストレージ装置5に記憶されるユーザテーブル52には、ユーザごとに複数のマイク3のうち一のマイクを関連づけられている。例えば、ユーザテーブル52において、ユーザXにはマイク3bが関連づけられている。
In the user table 52 stored in the
また、ユーザテーブル52には、ユーザに加えて、車両1の車室への案内音声の出力レベル、車室内のノイズレベル、車両1の速度、および/または、車室の密閉状態ごとに、複数のマイク3のうち一のマイクが関連づけられていてもよい。この場合、例えばユーザXに対し、案内音声の出力レベルが所定の閾値以上であるか否かに応じて異なるマイクを割り当てることができる。
In addition to the user, the user table 52 has a plurality of output levels for the guidance sound to the vehicle interior of the
車室への案内音声の出力レベルとは、カーナビゲーションシステム7が乗員のための案内として出力する音声のレベルである。ユーザは、案内音声が聞きとりにくいときに案内音声の出力レベルを上げると考えられる。したがって、ユーザが案内音声の出力レベルを通常よりも上げている場合、車室内は案内音声が聞きとりにくい状況にあると考えられる。案内音声の出力レベルごとにマイクを関連づけることにより、音声収集装置2は、案内音声が聞きとりにくい状況にある車室内に適したマイクを選択することができる。
The output level of the guidance voice to the cabin is the level of the voice that the
同様に、車室内のノイズレベル、車両1の速度、車室の密閉状態も、マイク3によるユーザの発話音声の取得に影響を与え得る要因であり、これらにマイクを関連づけることにより、音声収集装置2は、車室内の状況に適したマイクを選択することができる。
Similarly, the noise level in the vehicle compartment, the speed of the
なお、車室への案内音声の出力レベルは、カーナビゲーションシステム7から取得することができる。車室内のノイズレベルは、マイク3から取得した音声信号に基づいて算出することができる。車両1の速度は、車両1の走行を司る走行制御ECUから取得することができる。車室の密閉状態は、ドアウィンドウの開度に基づいて取得することができる。
Note that the output level of the guidance voice to the cabin can be acquired from the
ストレージ装置5は、ユーザによる設定に従って、ユーザとマイク3との関連づけをユーザテーブル52に記憶する。また、ストレージ装置5は、後述する学習処理により、ユーザとマイク3との関連づけを変更する。
The
図4は、音声収集装置の概略構成を示す模式図である。 FIG. 4 is a schematic diagram showing a schematic configuration of the voice collecting device.
音声収集装置2は、入力部21と、出力部22と、記憶部23と、演算部24とを有する。音声収集装置2は、ECU(Electronic Control Unit)として車両1に搭載される。
The
入力部21は、マイク3、無線インタフェース4、ストレージ装置5等から信号を受信する回路である。入力部21は、受信した信号を演算部24に供給する。
The
出力部22は、ストレージ装置5、音声認識装置6等に信号を送信する回路である。出力部22は、演算部24から供給された信号を、ストレージ装置5、音声認識装置6等に送信する。
The output unit 22 is a circuit that transmits a signal to the
記憶部23は、情報を記憶する不揮発メモリである。記憶部23は、演算部24による演算に用いられる命令、データ、および閾値を記憶する。
The
また、記憶部23は、バッファ231を有する。バッファ231は、複数のマイク3gごとに、取得した音声信号を一時記憶する。
The
演算部24は、入力部21から供給された信号に基づき演算を行い、出力部22に信号を出力する。演算部24は、所定のプログラムを実行することにより演算を行うプロセッサを有する。
The
演算部24は、音声取得部241と、第1マイク特定部242と、ユーザ特定部243と、第2マイク特定部244と、マイク選択部245と、バッファ制御部246と、学習部247とを有する。演算部24が有するこれらの各部は、演算部24が有するプロセッサ上で実行される機能モジュールである。あるいは、演算部24が有するこれらの各部は、専用回路により実現されてもよい。
The
音声取得部241は、複数のマイク3から音声信号を取得する。
The
第1マイク特定部242は、マイク3から取得した音声信号の強度および/または到達時間に基づいてマイクを特定する。
The first
ユーザ特定部243は、マイク3から取得した音声信号に対応するユーザを特定する。
The
第2マイク特定部244は、複数のユーザごとに複数のマイク3のうち一のマイクを関連づけるユーザテーブル52において、特定されたユーザに関連づけられたマイクを特定する。
The second
また、ユーザテーブル52に、ユーザに加えて、車両1の車室への案内音声の出力レベル、車室内のノイズレベル、車両1の速度、および/または、車室の密閉状態ごとに、複数のマイク3のうち一のマイクが関連づけられている場合、第2マイク特定部244は、これらに関連づけられたマイクを特定してもよい。
In addition, in addition to the user, a plurality of output levels of the guidance sound to the cabin of the
マイク選択部245は、第1マイク特定部242により特定されたマイクと第2マイク特定部244により特定されたマイクとが一致しない場合、第2マイク特定部244により特定されたマイクを、音声認識処理に使用するマイクとして選択する。
When the microphone specified by the first
バッファ制御部246は、複数のマイク3ごとに、取得した音声信号をバッファ231に一時記憶させる。また、バッファ制御部246は、選択されたマイクにより取得されてバッファ231に一時記憶された音声信号を出力する。
The
バッファ制御部246が一時記憶させた音声信号を出力することにより、音声収集装置2は、マイクが選択されるまでにユーザが発話した内容も音声認識の対象として音声認識装置6に出力することができる。
By outputting the audio signal temporarily stored by the
学習部247は、選択されたマイクにより取得された音声信号の音声認識の結果を受信し、当該結果に基づいて、ユーザテーブル52において特定されたユーザとマイクとの関連づけを変更する。
The
学習部247が音声認識の結果に基づいてユーザテーブル52における関連づけを変更することにより、音声収集装置2は音声認識に適したマイクをユーザごとに選択することができる。
By the
本実施形態の音声収集装置2は、上述した各部を含む構成により、発話するユーザに応じて、反射音の影響を受けやすい状況でも、音声認識処理に使用するマイクを適切に選択することができる。
With the configuration including the above-described units, the
図5は、音声収集装置の処理フローチャートである。 FIG. 5 is a processing flowchart of the voice collection device.
まず、音声取得部241は、複数のマイク3から音声信号を取得する(ステップS11)。このとき、バッファ制御部246は、複数のマイクごとに、取得した音声信号をバッファ231に一時記憶させる。
First, the
次に、第1マイク特定部242は、マイク3から取得した音声信号の強度および/または到達時間に基づいてマイク3を特定する(ステップS12)。
Next, the first
次に、ユーザ特定部243は、マイク3から取得した音声信号に対応するユーザを特定し(ステップS13)、ユーザを特定できない場合(ステップS13:N)、音声収集装置2の処理は後述するステップS18に遷移する。
Next, the
ステップS13において、ユーザ特定部243は、まず、ユーザが携帯する端末の識別子を検出する。ユーザ特定部243は、無線インタフェース4により端末の識別子を検出することができる。そして、ユーザ特定部243は、端末テーブル51において検出された識別子に関連づけられるユーザを、音声信号に対応するユーザとして特定する。
In step S13, the
音声収集装置2は、このようにユーザが通常携帯する端末の識別子に基づいてユーザを特定するので、ユーザに特段の動作を要求することなく確実にユーザの特定を行うことができる。
Since the
また、ユーザ特定部243は、シートに組み込まれた重量センサの出力、ステアリングに組み込まれた指紋センサの出力等に基づいてユーザの特定を行ってもよい。その場合、ストレージ装置5には、これらの出力とユーザとを関連づけるテーブルが、端末テーブル51に代えて記憶される。
Further, the
次に、第2マイク特定部244は、ユーザごとに複数のマイク3のうち一のマイクを関連づけるユーザテーブル52において、特定されたユーザに関連づけられたマイクを特定し(ステップS14)、特定されたユーザに関連づけられたマイクを特定できない場合(ステップS14:N)、音声収集装置2の処理は、後述するステップS18に遷移する。
Next, the second
また、ユーザテーブル52に、ユーザに加えて、車両1の車室への案内音声の出力レベル、車室内のノイズレベル、車両1の速度、および/または、車室の密閉状態ごとに、複数のマイク3のうち一のマイクが関連づけられている場合、ステップS14において、第2マイク特定部244は、これらに関連づけられたマイクを特定してもよい。
In addition, in addition to the user, a plurality of output levels of the guidance sound to the cabin of the
次に、マイク選択部245は、ステップS12において特定されたマイクとステップS14において特定されたマイクが一致するか否かを判定する(ステップS15)。
Next, the
ステップS12において特定されたマイクとステップS14において特定されたマイクが一致すると判定すると(ステップS15:Y)、マイク選択部245は、一致したマイクを音声認識処理に使用するマイクとして選択する(ステップS16)。
If it is determined that the microphone specified in step S12 matches the microphone specified in step S14 (step S15: Y), the
ステップS12において特定されたマイクとステップS14において特定されたマイクが一致しないと判定すると(ステップS15:N)、マイク選択部245は、ステップS14において特定されたマイクを音声認識処理に使用するマイクとして選択する(ステップS17)。
If it is determined that the microphone specified in Step S12 does not match the microphone specified in Step S14 (Step S15: N), the
ステップS13においてユーザを特定できない場合(ステップS13:N)、および、ステップS14において特定されたユーザに関連づけられたマイクを特定できない場合(ステップS14:N)、マイク選択部245は、ステップS12において特定されたマイクを音声認識処理に使用するマイクとして選択する(ステップS18)。
If the user cannot be specified in step S13 (step S13: N), and if the microphone associated with the user specified in step S14 cannot be specified (step S14: N), the
次に、バッファ制御部246は、選択されたマイクにより取得されてバッファ231に一時記憶された音声信号を、音声認識処理のために音声認識装置6へ出力させる(ステップS19)。
Next, the
次に、学習部247は、選択されたマイクにより取得された音声信号の音声認識結果を音声認識装置6から受信する。そして、学習部247は、当該結果に基づいて、ユーザテーブル52において、特定されたユーザとマイクとの関連づけを変更する(ステップS20)。
Next, the
音声収集装置2は、ユーザの発話を検出するたびに上述した一連の処理を実行する。また、音声収集装置2は、ステップS11からS19までの処理回数が所定回に到達する度にステップS20を実行するようにしてもよい。
The
本実施形態の音声収集方法は、上述したステップを含む処理を実行することで、発話するユーザに応じて、反射音の影響を受けやすい状況でも、音声認識処理に使用するマイクを適切に選択することを可能とする。 The voice collection method according to the present embodiment executes the processing including the above-described steps to appropriately select a microphone to be used for the voice recognition processing according to the uttering user even in a situation where the reflected sound is susceptible. To make things possible.
当業者は、本発明の精神および範囲から外れることなく、種々の変更、置換および修正をこれに加えることが可能であることを理解されたい。 It will be understood by those skilled in the art that various changes, substitutions and modifications can be made without departing from the spirit and scope of the invention.
1 車両
2 音声収集装置
241 音声取得部
242 第1マイク特定部
243 ユーザ特定部
244 第2マイク特定部
245 マイク選択部
246 バッファ制御部
247 学習部
3、3a〜3c マイク
Claims (6)
前記マイクから取得した音声信号の強度および/または到達時間に基づいてマイクを特定する第1マイク特定部と、
前記マイクから取得した音声信号に対応するユーザを特定するユーザ特定部と、
ユーザごとに前記複数のマイクのうち一のマイクを関連づけるユーザテーブルにおいて、前記特定されたユーザに関連づけられたマイクを特定する第2マイク特定部と、
前記第2マイク特定部によりマイクが特定され、かつ、前記第1マイク特定部により特定されたマイクと前記第2マイク特定部により特定されたマイクとが一致しない場合、前記第2マイク特定部により特定されたマイクを、音声認識処理に使用するマイクとして選択するマイク選択部と、
を備える音声収集装置。 An audio acquisition unit that acquires audio signals from a plurality of microphones;
A first microphone identification unit that identifies the microphone based on the intensity and / or arrival time of the audio signal acquired from the microphone;
A user identification unit that identifies a user corresponding to the audio signal acquired from the microphone,
A second microphone identification unit that identifies a microphone associated with the identified user in a user table that associates one microphone among the plurality of microphones for each user;
When the microphone is specified by the second microphone specifying unit and the microphone specified by the first microphone specifying unit does not match the microphone specified by the second microphone specifying unit, the microphone is specified by the second microphone specifying unit. A microphone selection unit that selects the identified microphone as a microphone to be used for voice recognition processing;
An audio collection device comprising:
前記ユーザテーブルは、前記ユーザに加え、前記車室への案内音声の出力レベル、前記車室内のノイズレベル、前記車両の速度、および/または、前記車室の密閉状態ごとに、前記複数のマイクのうち一のマイクを関連づけており、
前記第2マイク特定部は、前記ユーザテーブルにおいて、前記特定されたユーザ、および、前記車室への案内音声の出力レベル、前記車室内のノイズレベル、前記車両の速度、および/または、前記車室の密閉状態に関連づけられるマイクを特定する、請求項1に記載の音声収集装置。 The microphone is arranged so as to be able to acquire an audio signal according to the audio in the vehicle compartment of the vehicle,
The user table includes, in addition to the user, the plurality of microphones for each of an output level of a guidance voice to the cabin, a noise level in the cabin, a speed of the vehicle, and / or a closed state of the cabin. One of the microphones,
The second microphone identification unit is configured to output, in the user table, the identified user and an output level of a guidance voice to the cabin, a noise level in the cabin, a speed of the vehicle, and / or The sound collection device according to claim 1, wherein a microphone associated with the closed state of the room is specified.
前記マイクから取得した音声信号の強度および/または到達時間に基づいてマイクを特定する第1マイク特定ステップと、
前記マイクから取得した音声信号に対応するユーザを特定するユーザ特定ステップと、
ユーザごとに前記複数のマイクのうち一のマイクを関連づけるユーザテーブルにおいて、前記特定されたユーザに関連づけられたマイクを特定する第2マイク特定ステップと、
前記第2マイク特定ステップにおいてマイクが特定され、かつ、前記第1マイク特定ステップにおいて特定されたマイクと前記第2マイク特定ステップにおいて特定されたマイクとが一致しない場合、前記第2マイク特定ステップにおいて特定されたマイクを音声認識処理に使用するマイクとして選択するマイク選択ステップと、
を含む音声収集方法。 An audio acquisition step of acquiring audio signals from a plurality of microphones;
A first microphone identification step of identifying a microphone based on the strength and / or arrival time of an audio signal acquired from the microphone;
A user identification step of identifying a user corresponding to the audio signal obtained from the microphone,
A second microphone identification step of identifying a microphone associated with the identified user in a user table that associates one microphone among the plurality of microphones for each user;
When the microphone is specified in the second microphone specifying step, and the microphone specified in the first microphone specifying step does not match the microphone specified in the second microphone specifying step, the microphone is specified in the second microphone specifying step. A microphone selection step of selecting the identified microphone as a microphone to be used for speech recognition processing;
Voice collection method including.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018165139A JP2020039048A (en) | 2018-09-04 | 2018-09-04 | Voice collecting device and voice collecting method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018165139A JP2020039048A (en) | 2018-09-04 | 2018-09-04 | Voice collecting device and voice collecting method |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2020039048A true JP2020039048A (en) | 2020-03-12 |
Family
ID=69738306
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018165139A Pending JP2020039048A (en) | 2018-09-04 | 2018-09-04 | Voice collecting device and voice collecting method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2020039048A (en) |
-
2018
- 2018-09-04 JP JP2018165139A patent/JP2020039048A/en active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11348581B2 (en) | Multi-modal user interface | |
CN107851437B (en) | Voice operation system, server device, vehicle-mounted device, and voice operation method | |
JP5137853B2 (en) | In-vehicle speech recognition device | |
CN111095400A (en) | Selection system and method | |
EP2581901A2 (en) | Information terminal, server device, searching system and corresponding searching method | |
JP6604151B2 (en) | Speech recognition control system | |
JP2017090612A (en) | Voice recognition control system | |
JP2014203031A (en) | Speech recognition control device | |
JPWO2018235191A1 (en) | Gesture operating device and gesture operating method | |
US11521612B2 (en) | Vehicle control apparatus and method using speech recognition | |
US11626104B2 (en) | User speech profile management | |
JP2010156825A (en) | Voice output device | |
JP2009251388A (en) | Native language utterance device | |
JP6459330B2 (en) | Speech recognition apparatus, speech recognition method, and speech recognition program | |
US9262796B2 (en) | Communication apparatus | |
US20200286479A1 (en) | Agent device, method for controlling agent device, and storage medium | |
JP4410378B2 (en) | Speech recognition method and apparatus | |
JP6522009B2 (en) | Speech recognition system | |
JP4478146B2 (en) | Speech recognition system, speech recognition method and program thereof | |
JP2015028566A (en) | Response control system, on-vehicle device and center | |
JP7274404B2 (en) | INFORMATION PROVIDING DEVICE, INFORMATION PROVIDING METHOD AND PROGRAM | |
JP5986468B2 (en) | Display control apparatus, display system, and display control method | |
JP7338489B2 (en) | AUDIO SIGNAL CONTROL DEVICE, AUDIO SIGNAL CONTROL SYSTEM AND AUDIO SIGNAL CONTROL PROGRAM | |
JP2020039048A (en) | Voice collecting device and voice collecting method | |
JP2020144264A (en) | Agent device, control method of agent device, and program |