JP2021196550A - Voice recognition device, voice recognition method, program, and storage medium - Google Patents
Voice recognition device, voice recognition method, program, and storage medium Download PDFInfo
- Publication number
- JP2021196550A JP2021196550A JP2020104448A JP2020104448A JP2021196550A JP 2021196550 A JP2021196550 A JP 2021196550A JP 2020104448 A JP2020104448 A JP 2020104448A JP 2020104448 A JP2020104448 A JP 2020104448A JP 2021196550 A JP2021196550 A JP 2021196550A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- voice recognition
- recognition device
- input
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims description 55
- 230000006870 function Effects 0.000 abstract description 10
- 230000004044 response Effects 0.000 description 13
- 238000010586 diagram Methods 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000007257 malfunction Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
Images
Landscapes
- Circuit For Audible Band Transducer (AREA)
Abstract
Description
本発明は、音声認識装置、音声認識方法、プログラム、および記録媒体に関する。 The present invention relates to a voice recognition device, a voice recognition method, a program, and a recording medium.
音声認識機能を持つ家電製品などの機器が限られた空間内に複数存在する場合、それぞれの機器がその機器としての独立した動作を行いながらも、ユーザからの音声コマンドに対しては相互に情報交換を行いながら音声認識が行えるようにすることで、誤認識やそれによる誤動作を回避でき、さらに、雑音除去などを機能的に行えるようにして適切な機器制御を可能とする技術が知られている。(例えば、特許文献1参照)。 When there are multiple devices such as home appliances with voice recognition function in a limited space, each device operates independently as the device, but information is provided to each other for voice commands from the user. It is known that by enabling voice recognition while exchanging, it is possible to avoid misrecognition and malfunction due to it, and further, it is possible to functionally perform noise removal and enable appropriate device control. There is. (See, for example, Patent Document 1).
音声認識機能を有する装置が空間内に複数存在するケースにおいて、装置の位置関係に基づきユーザがどの装置に対して音声コマンドを発話したのかを特定し、特定された装置が音声認識を行う場合、他の装置が音声を再生している場合に特定された装置がユーザの音声に対する音声認識を行うと、音声認識の精度が悪くなる。 In the case where there are multiple devices having a voice recognition function in the space, it is specified to which device the user has spoken a voice command based on the positional relationship of the devices, and the specified device performs voice recognition. If the specified device performs voice recognition for the user's voice when another device is playing the voice, the accuracy of the voice recognition deteriorates.
その理由は次のとおりである。自機器の音声認識処理について、他の機器が再生する音声の除去は、自機器がマイクから入力した信号と、他の機器がスピーカーから出力する音声を自機器のマイクから入力した場合の信号(参照信号)と、を比較し、これに基づいて処理することが理想である。 The reason is as follows. Regarding the voice recognition processing of the own device, the removal of the voice played by the other device is the signal when the signal input by the own device from the microphone and the voice output by the other device from the speaker are input from the microphone of the own device ( It is ideal to compare with the reference signal) and process based on this.
しかしながら、例えば、特許文献1のシステムにおいては、他の機器がスピーカーから出力する音声は他の機器の情報処理部で解析され雑音情報として出力され、ネットワーク接続部経由で自機器に入力される。つまり、他の機器のスピーカーの前段の回路、他の機器のスピーカー、他の機器から自機器までの音声の伝搬路、自機器のマイク、自機器のマイクの後段の回路を経由しない。よって、特許文献1のシステムにおいては、理想的な参照信号からのずれが存在し、この分音声認識の精度が悪くなる。 However, for example, in the system of Patent Document 1, the sound output from the speaker by another device is analyzed by the information processing unit of the other device, output as noise information, and input to the own device via the network connection unit. That is, it does not pass through the circuit before the speaker of the other device, the speaker of the other device, the sound propagation path from the other device to the own device, the microphone of the own device, and the circuit after the microphone of the own device. Therefore, in the system of Patent Document 1, there is a deviation from the ideal reference signal, and the accuracy of speech recognition deteriorates by this amount.
本発明の一態様は、音声認識機能を有する装置が複数存在する場合に、音声認識の精度を向上することを目的とする。 One aspect of the present invention is to improve the accuracy of voice recognition when there are a plurality of devices having a voice recognition function.
本発明の一態様に係る音声認識装置は、ユーザの音声が入力される音声入力部と、前記音声入力部に入力された前記ユーザの音声の認識を行う音声認識部と、他の音声認識装置が他の音声を再生中であるか否かに基づいて、前記音声認識部により認識される前記ユーザの音声に応じた処理を行う制御部と、を備える。 The voice recognition device according to one aspect of the present invention includes a voice input unit for inputting a user's voice, a voice recognition unit for recognizing the user's voice input to the voice input unit, and another voice recognition device. Includes a control unit that performs processing according to the user's voice recognized by the voice recognition unit based on whether or not another voice is being reproduced.
本発明の一態様に係る音声認識方法は、ユーザの音声が入力され、入力された前記ユーザの音声の認識を行い、他の音声認識装置が他の音声を再生中であるか否かに基づいて、前記音声認識部により認識される前記ユーザの音声に応じた処理を行う、処理を備える。 The voice recognition method according to one aspect of the present invention is based on whether or not a user's voice is input, the input user's voice is recognized, and another voice recognition device is playing another voice. Further, it includes a process of performing a process according to the voice of the user recognized by the voice recognition unit.
本発明の一態様に係るプログラムは、ユーザの音声が入力されるコンピュータに、入力された前記ユーザの音声の認識を行い、他の音声認識装置が他の音声を再生中であるか否かに基づいて、前記音声認識部により認識される前記ユーザの音声に応じた処理を行う、処理を実行させる。 The program according to one aspect of the present invention recognizes the input user's voice to the computer to which the user's voice is input, and determines whether or not another voice recognition device is playing another voice. Based on this, the process of performing the process according to the voice of the user recognized by the voice recognition unit is executed.
本発明の一態様に係るコンピュータ読み取り可能な記録媒体は、ユーザの音声が入力されるコンピュータに、入力された前記ユーザの音声の認識を行い、他の音声認識装置が他の音声を再生中であるか否かに基づいて、前記音声認識部により認識される前記ユーザの音声に応じた処理を行う、処理を実行させるプログラムを記録する。 The computer-readable recording medium according to one aspect of the present invention recognizes the input user's voice to the computer to which the user's voice is input, and another voice recognition device is playing another voice. A program for executing a process for performing a process according to the voice of the user recognized by the voice recognition unit is recorded based on the presence or absence.
以下、実施の形態について、図面を参照しつつ説明する。なお、図面については、同一又は同等の要素には同一の符号を付し、重複する説明は省略する。 Hereinafter, embodiments will be described with reference to the drawings. In the drawings, the same or equivalent elements are designated by the same reference numerals, and duplicate description will be omitted.
図1は、実施の形態に係るシステムの構成図の一例である。 FIG. 1 is an example of a configuration diagram of a system according to an embodiment.
システム10は、音声認識装置101−i(i=1〜3)を有する。
The
音声認識装置101−iは、ユーザ201の音声を認識し、音声認識結果に応じた処理を行う。具体的には、例えば、音声認識装置101−iは、ユーザ201の発話による質問を検出し、当該質問に対する回答を音声で出力する。また、具体的には、例えば、音声認識装置101−iは、ユーザ201の発話による音声認識装置101−iに対する指示(例えば、電源のオン/オフ、または音量の増減など)を検出し、当該指示に従った音声認識装置101−iの制御(例えば、電源のオン/オフ、または音量の増減など)を行う。
The voice recognition device 101-i recognizes the voice of the
音声認識装置101−iは、LAN(Local Area Network)等のネットワーク301に接続され、互いに通信可能である。音声認識装置101−iは、WAN(Wide Area Network)等の外部のネットワークにさらに接続していてもよい。
The voice recognition device 101-i is connected to a
音声認識装置101−iは、例えば、テレビ受像機、スマートスピーカー、スマートフォン、空気調和機、音響機器、またはPC(Personal Computer)等のコンピュータである。 The voice recognition device 101-i is, for example, a computer such as a television receiver, a smart speaker, a smartphone, an air conditioner, an audio device, or a PC (Personal Computer).
また、音声認識装置101−iは、音声を出力可能であり、例えば、ユーザ201の質問に対する回答、テレビ放送の音声、ネットワークを介して受信した動画の音声、CD(Compact Disc)等の記録媒体から読み出した音声、または音声認識装置101−i内に記憶されている音声などを出力してもよい。
Further, the voice recognition device 101-i can output voice, for example, an answer to a question of
尚、実施の形態における音声認識装置101−iの数は、一例であり、これに限られるものではない。また、実施の形態における音声認識装置101−iの位置およびユーザ201の位置は、一例であり、これに限られるものではない。
The number of voice recognition devices 101-i in the embodiment is an example, and the number is not limited to this. Further, the position of the voice recognition device 101-i and the position of the
図2は、実施の形態に係る音声認識装置の構成図の一例である。 FIG. 2 is an example of a configuration diagram of the voice recognition device according to the embodiment.
図2では、音声認識装置101−1の構成について説明する。尚、音声認識装置101−2、101−3の構成は、音声認識装置101−1の構成と同様であるため、詳細な説明は省略する。 FIG. 2 describes the configuration of the voice recognition device 101-1. Since the configurations of the voice recognition devices 101-2 and 101-3 are the same as the configurations of the voice recognition devices 101-1, detailed description thereof will be omitted.
音声認識装置101−1は、マイク111、エコーキャンセル部121、音声認識部131、制御部141、記憶部151、通信部161、音声処理部171、およびスピーカー181を有する。
The voice recognition device 101-1 includes a
マイク111は、マイク111に入力される音声(例えば、ユーザ201が発話した音声、およびスピーカー181や他の音声認識装置101−j(j=2、3)から出力された音声など)を電気信号に変換し、入力された音声を示す当該電気信号(入力音声信号)をエコーキャンセル部121に出力する。マイク111は、音声入力部の一例である。
The
エコーキャンセル部121は、入力音声信号に対してエコーキャンセル処理を行い、エコーキャンセル後の音声信号を音声認識部131に出力する。具体的には、例えば、音声処理部171から出力されたスピーカー181から出力する音声に対応する出力音声信号に基づいて、入力音声信号に対してエコーキャンセル処理を行い、エコーキャンセル後の音声信号を音声認識部131に出力する。
The
また、エコーキャンセル部121は、マイク111に入力される音声の大きさを算出し、算出した音声の大きさを示す音量情報を制御部141に出力する。具体的には、例えば、入力音声信号から音圧レベルを算出し、算出した音圧レベルを示す音量情報を制御部141に出力する。
Further, the
音声認識部131は、エコーキャンセル後の音声信号に対して音声認識処理を行い、音声認識結果を制御部141に出力する。音声認識結果は、例えば、マイク111に入力される音声を音声認識処理によってテキスト化したテキストデータである。
The
制御部141は、他の音声認識装置が音声を再生中であるか否かに基づいて、ユーザ201の発話によるマイク111に入力される音声の音声認識結果に基づく、ユーザ201の発話によるマイク111に入力される音声に応じた処理を行う。また、制御部141は、自装置が音声再生中であるか否かおよび他の音声認識装置が音声を再生中であるか否かに基づいて、ユーザ201の発話によるマイク111に入力される音声の音声認識結果に基づく、ユーザ201の発話によるマイク111に入力される音声に応じた処理を行ってもよい。また、制御部141は、マイク111に入力される特定の言葉の音声の大きさ、他の音声認識装置101−jに入力される特定の言葉の音声の大きさ、自装置が音声再生中であるか否か、および他の音声認識装置が音声を再生中であるか否かに基づいて、ユーザ201の発話によるマイク111に入力される音声の音声認識結果に基づく、ユーザ201の発話によるマイク111に入力される音声に応じた処理を行ってもよい。
The
具体的には、例えば、制御部141は、自装置が音声再生中であるか否かおよび他の音声認識装置が音声を再生中であるか否かに基づいて、ユーザ201の発話によるマイク111に入力される音声(例えば、ユーザ201の発話)が示す質問または指示に応じた処理を行う。具体的には、例えば、制御部141は、マイク111に入力されるユーザ201の質問に応じて、インターネット等を検索し、検索結果に基づく質問に対する回答を出力する。例えば、制御部141は、自装置が音声再生中であるか否かおよび他の音声認識装置が音声を再生中であるか否かに基づいて、ユーザ201の発話によるマイク111に入力される指示に応じて、音声認識装置101−1の制御(例えば、電源のオン/オフ、音量の調整、または指示に応じた特定の機能の実行)、または他の音声認識装置への指示などの処理を行う。
Specifically, for example, the
また、制御部141は、スピーカー181から音声を出力するための処理を行ってもよく、具体的には、例えば、ネットワーク301を介して受信した動画の音声、CD等の記録媒体から読み出した音声、または音声認識装置101−i内に記憶されている音声のそれぞれの音声信号を音声処理部171に出力してもよい。
Further, the
記憶部151は、音声認識装置101−1で利用されるプログラムやデータ等を記憶する。記憶部151は、例えば、RAM(Random Access Memory)、HDD(Hard Disk Drive)、またはフラッシュメモリ等である。
The
通信部161は、LAN等のネットワーク301に接続され、通信に伴うデータ変換を行う通信インターフェースである。通信部161は、音声認識装置101−2、101−3と通信を行う。また、通信部161は、音声認識装置101−2、101−3以外の装置とさらに通信を行ってもよい。
The
具体的には、例えば、通信部161は、他の音声認識装置101−jが他の音声認識装置101−jのスピーカーから音声を再生中であることを示す再生中情報を他の音声認識装置101−jから受信する。
Specifically, for example, the
また、具体的には、例えば、通信部161は、他の音声認識装置101−jのマイクに入力された音声の大きさを示す音量情報を他の音声認識装置101−jから受信する。音声の大きさは、例えば、音声の音圧レベルである。
Specifically, for example, the
また、具体的には、例えば、通信部161は、自装置(すなわち、音声認識装置101−1)にユーザ201からの音声による質問または指示に応じた処理を任せることを示す委任情報を受信する。
Further, specifically, for example, the
音声処理部171は、スピーカー181から出力する音声に対応する音声信号(出力音声信号)をスピーカー181およびエコーキャンセル部121に出力する。例えば、音声処理部171は、入力された発話データに対応する音声信号をスピーカー181およびエコーキャンセル部121に出力する。また、音声処理部171は、制御部161またはチューナー(不図示)等から入力される、テレビ放送の音声、ネットワーク301を介して受信した動画の音声、CD等の記録媒体から読み出した音声、または音声認識装置101−i内に記憶されている音声のそれぞれの音声信号をスピーカー181およびエコーキャンセル部121に出力してもよい。
The
スピーカー181は、音声処理部171から出力された出力音声信号を音声に変換して出力する。
The
図3A〜3Cは、実施の形態に係る音声認識方法(その1)のフローチャートの一例である。図3A〜3Cでは、音声認識装置101−1の処理について説明する。尚、音声認識装置101−2、101−3も同様に音声認識方法(その1)を行う。 3A to 3C are examples of a flowchart of the voice recognition method (No. 1) according to the embodiment. In FIGS. 3A to 3C, the processing of the voice recognition device 101-1 will be described. The voice recognition devices 101-2 and 101-3 also perform the voice recognition method (No. 1) in the same manner.
ステップS301において、制御部141は、ユーザ201の発話にホットワードが含まれているか否か判定し、ユーザ201の発話にホットワードが含まれていると判定された場合、制御はステップS302に進む。ここで、ホットワード(または、ウェイクワードとも呼ばれる)とは、予め定められた特定の言葉であり、特定の処理や機能(例えば、実施の形態のステップS302以降の処理)の開始のトリガーとなる言葉である。ホットワードは、例えば、記憶部151に予め記憶されている。ホットワードは、例えば、「OK ○○」または「ハロー ○○」(○○は、例えば、音声認識装置101−iの製品名や音声認識装置101−iに搭載された音声アシスタントの名称)等である。
In step S301, the
具体的には、例えば、制御部141は、音声認識部131から入力される音声認識結果にホットワードが含まれているか否か判定し、ホットワードが含まれていると判定された場合、制御はステップS302に進む。ホットワードが含まれていないと判定された場合、制御部141は、音声認識結果が入力されるのを待つ。
Specifically, for example, the
ステップS302において、制御部141は、マイク111に入力される音声の大きさを示す音量情報を取得する。具体的には、エコーキャンセル部121は、マイク111に入力される音声の大きさを算出し、算出した音声の大きさを示す音量情報を制御部141に出力し、制御部141は、音量情報を取得する。音声の大きさは、例えば、音声の音圧レベルである。
In step S302, the
ステップS303において、制御部141は、自装置(音声認識装置101−1)が音声を再生中か否か判定する。例えば、制御部141は、音声処理部171が音声信号を出力しているか否か、および制御部141が発話データまたは音声信号を出力しているか否かに基づいて、自装置(音声認識装置101−1)が音声を再生中か否か判定する。自装置(音声認識装置101−1)が音声を再生中と判定された場合(ステップS303:Yes)、制御はステップS304に進み、自装置(音声認識装置101−1)が音声を再生中でないと判定された場合(ステップS303:No)、制御はステップS306に進む。
In step S303, the
ステップS304において、制御部141は、他の音声認識装置101−jに、自装置(音声認識装置101−1)が音声再生中であることを示す再生中情報を通信部161から送信する。
In step S304, the
ステップS305において、制御部141は、通信部161が他の音声認識装置101−jが音声再生中であることを示す再生中情報を、他の音声認識装置101−jのいずれかから受信したか否か判定する。再生中情報を受信したと判定された場合(ステップS305:Yes)、制御はステップS308に進み、再生中情報を受信していないと判定された場合(ステップS305:No)、制御はステップS311に進む。
In step S305, the
ステップS306において、制御部141は、通信部161が他の音声認識装置101−jが音声再生中であることを示す再生中情報を、他の音声認識装置101−jのいずれかから受信したか否か判定する。再生中情報を受信したと判定された場合(ステップS306:Yes)、制御はステップS307に進み、再生中情報を受信していないと判定された場合(ステップS306:No)、制御はステップS308に進む。
In step S306, has the
ステップS307において、制御部141は、通信部161が他の音声認識装置101−jが音声再生中であることを示す再生中情報を、複数の他の音声認識装置101−jから受信したか否か判定する。すなわち、制御部141は、複数の再生中情報を受信したか否か判定する。例えば、図1のシステムにおいて、制御部141は、音声認識装置101−2および音声認識装置101−3の両方から再生中情報を受信したか否か判定する。複数の他の音声認識装置101−jから再生中情報を受信したと判定された場合(ステップS307:Yes)、制御はステップS308に進み、複数の他の音声認識装置101−jから再生中情報を受信していないと判定された場合(ステップS307:No)、処理は終了する。ステップS307において、複数の再生中情報を受信していないと判定された場合、すなわち、1つの他の音声認識装置からのみ再生中情報を受信している場合、自装置(音声認識装置101−1)は音声を再生中ではなく、且つ当該1つの他の音声認識装置が音声を再生中である。そのため、自装置(音声認識装置101−1)は、後述のユーザ201の質問または指示に応じた処理を行わず、ホットワードを検出し且つ音声を再生中である当該1つの他の音声認識装置がユーザ201の質問または指示に応じた処理を行う。
In step S307, the
ステップS308の説明の前に、実施の形態における親機について説明する。実施の形態において、音声認識装置101−1〜101−3のうちの1つの音声認識装置が予め親機に定められており、親機に定められている音声認識装置の記憶部151には、自装置が親機であることを示す情報が記憶されている。また、親機に定められていない音声認識装置の記憶部151には、親機を示す親機に定められている音声認識装置を示す情報が記憶されている。制御部141は、例えば、ステップS308またはステップS308以前のいずれかのタイミングで、記憶部151に自身が親機であることを示す情報が記憶されているか否かに基づいて、自身が親機であるか否か判定する。
Prior to the description of step S308, the master unit according to the embodiment will be described. In the embodiment, one of the voice recognition devices 101-1 to 101-3 has a voice recognition device defined in advance in the master unit, and the
ステップS308において、制御部141は、自装置(音声認識装置101−1)が親機でない場合、ステップS302で取得した音量情報を親機に通信部161から送信する。自装置(音声認識装置101−1)が親機であり、他の音声認識装置101−jが音量情報を親機に送信している場合、通信部161は、他の音声認識装置101−jから音量情報を受信する。
In step S308, when the own device (voice recognition device 101-1) is not the master unit, the
ステップS309において、制御部141は、自装置(音声認識装置101−1)が親機である場合、ステップS302で取得した音量情報と他の音声認識装置101−jから受信した音量情報から、音声認識装置101−iのそれぞれに入力された音声の大きさを比較し、1番大きい音声が入力された音声認識装置を判定し、1番大きい音声が入力されたと判定された音声認識装置にユーザ201からの音声による質問または指示に応じた処理を任せることを示す委任情報を送信する。そして、1番大きい音声が入力されたと判定された音声認識装置は、親機から委任情報を受信する。尚、自装置が親機であり且つ1番大きい音声が入力された音声認識装置であると判定された場合、制御部141は、自装置に委任情報を実際に送信してもよいし、実際には自装置に委任情報を送信せずに親機から委任情報を受信したことにしてもよい。
In step S309, when the own device (voice recognition device 101-1) is the master unit, the
ステップS310において、制御部141は、親機から委任情報を受信したか否か判定し、委任情報を受信したと判定された場合、制御はステップS311に進み、委任情報を受信していないと判定された場合、処理を終了する。
In step S310, the
ステップS311において、制御部141は、ユーザ201からの音声による質問または指示の待ち受けを開始する。具体的に、例えば、制御部141は、音声認識部131から入力される音声認識結果に基づいて、ユーザ201からの質問または指示を検出し、ユーザ201の音声による質問または指示に応じて、情報の検索や装置の操作などの処理を行う音声アシスタントを開始する。
In step S311 the
ステップS312において、制御部141は、ユーザ201からの音声による質問または指示の入力があるか否か判定し、質問または指示の入力があると判定された場合、制御はステップS313に進む。質問または指示の入力がないと判定された場合、制御部141は、質問または指示が入力されるのを待つ。具体的に、例えば、制御部141は、音声認識部131から入力される音声認識結果に基づいて、ユーザ201からの質問または指示が入力されたか否か判定し、質問または指示の入力があると判定された場合、制御はステップS313に進む。
In step S312, the
ステップS313において、制御部141は、ユーザ201からの音声による質問または指示に応じた処理を行う。具体的には、例えば、制御部141は、ユーザ201からの質問に対する回答を検索し、当該回答のテキストデータ(発話データ)を音声処理部171に出力し、音声処理部171は当該回答を音声でスピーカー181から出力する。具体的には、例えば、制御部141は、ユーザ201からの音声による指示に応じた音声認識装置101−1の制御(例えば、電源のオン/オフ、音量の調整、または指示に応じた特定の機能の実行)、または他の音声認識装置への指示などの処理を行う。
In step S313, the
ステップS314において、制御部141は、ユーザ201からの音声による質問または指示が終了したか否か判定し、質問または指示が終了したと判定された場合、処理を終了し、質問または指示が終了していないと判定された場合、制御はステップS311に戻る。
In step S314, the
上述の音声認識方法(その1)では、ホットワードを検出した音声認識装置101−iのそれぞれにおいて、自装置が音声再生中であるか、および他の音声認識装置が音声再生中であることを示す再生中情報を受信したかに基づいて、ユーザ201の音声による質問または指示に応じた情報の検索や装置の操作などの処理を行う音声アシスタントを実行している。ホットワードを検出した音声認識装置101−iのそれぞれは、自装置が音声再生中であるか、および再生中情報を受信したかについて、以下の4つのパターン(1)〜(4)に応じた処理を行う。
In the above-mentioned voice recognition method (No. 1), in each of the voice recognition devices 101-i that have detected the hot word, it is determined that the own device is playing a voice or another voice recognition device is playing a voice. A voice assistant that performs processing such as searching for information according to a question or instruction by the voice of the
(1)自装置が音声再生中であり、且つ再生中情報を受信した場合(ステップS303:Yes、且つステップS305:Yes)
自装置が音声再生しているときかつ、再生中情報を受信したときは、複数の音声認識装置が音声を再生していると判断できるので、ユーザ201と一番近い音声認識装置に音声認識をさせると音声認識の精度が一番良くなる。よって次のように動作させる。
(1) When the own device is playing audio and receives playback information (step S303: Yes, and step S305: Yes).
When the own device is playing voice and the information being played is received, it can be determined that a plurality of voice recognition devices are playing voice, so voice recognition is applied to the voice recognition device closest to the
自装置が音声再生していることを判断したあと、他の音声認識機器に再生中情報を送信する。 After determining that the own device is playing voice, the information being played is transmitted to another voice recognition device.
その後、自装置が再生中情報を受信した後、あらかじめ決められた音量情報を送信する。これにより、親機は音声再生中の各音声認識装置の音量情報を収集できる。 After that, after the own device receives the playback information, it transmits a predetermined volume information. As a result, the master unit can collect volume information of each voice recognition device during voice reproduction.
その後、親機は、集められた音量情報の中で一番大きい音量情報を送信した音声認識装置に委任情報を送り、各音声認識装置は親機から通知を受信したか判定する。 After that, the master unit sends the delegated information to the voice recognition device that has transmitted the loudest volume information among the collected volume information, and each voice recognition device determines whether or not the notification has been received from the master unit.
委任情報を受信した音声認識装置はユーザ201の音声による質問または指示に応じた処理を行い、委任情報を受信しなかった音声認識装置は処理を終了する。このように、親機は、ユーザ201とどの音声認識装置の距離が一番近いか判断を行い、ユーザ201と一番近い音声認識装置がユーザ201の音声による質問または指示に応じた処理を行う。
The voice recognition device that has received the delegation information performs processing according to the question or instruction by the voice of the
(2)自装置が音声再生中であり、且つ再生中情報を受信しない場合(ステップS303:Yes、且つステップS305:No)
自装置が音声再生していることを判断したあと、他の音声認識機器に再生中情報を送信する。
(2) When the own device is playing audio and does not receive playback information (step S303: Yes, and step S305: No).
After determining that the own device is playing voice, the information being played is transmitted to another voice recognition device.
また、再生中情報を受信していない状態は他の音声認識機器が音声を再生していないと判断できるので、自装置がユーザ201の音声による質問または指示に応じた処理を行う。
Further, since it can be determined that the other voice recognition device is not playing the voice in the state where the information during playback is not received, the own device performs the process according to the question or instruction by the voice of the
このように音声を再生中の音声認識機器がユーザ201の音声による質問または指示に応じた処理を行うことができる。
In this way, the voice recognition device that is playing back the voice can perform processing according to the question or instruction by the voice of the
(3)自装置が音声再生中でなく、且つ再生中情報を受信した場合(ステップS303:No、且つステップS306:Yes)
自装置が音声を再生していないときかつ、再生中情報を受信したときは、他の音声認識機器が音声を再生していると判断できるので、自装置は音声認識を行わず処理を終了する。
(3) When the own device is not playing audio and receives playback information (step S303: No, and step S306: Yes).
When the own device is not playing the voice and the information being played is received, it can be determined that another voice recognition device is playing the voice, so the own device ends the process without performing voice recognition. ..
自装置が複数から再生中情報を受けていた場合は複数の音声認識機器が音声を再生している状況なので、「(1)自装置が音声再生中であり、且つ再生中情報を受信した場合」と同様に親機に音圧情報を送信し、親機は、ユーザ201とどの音声認識装置の距離が一番近いか判断を行い、ユーザ201と一番近い音声認識装置がユーザ201の音声による質問または指示に応じた処理を行う。
If the own device receives playback information from multiple devices, it means that multiple voice recognition devices are playing the voice. Therefore, "(1) When the own device is playing the voice and receives the playback information. The sound pressure information is transmitted to the master unit, the master unit determines which voice recognition device is the closest to the
(4)自装置が音声再生中でなく、且つ再生中情報を受信しない場合(ステップS303:No、且つステップS306:No)
自装置が音声を再生していないときかつ、再生中情報を受信しなかったときは、どの音声認識装置も音声を再生していないと判断できるので「(1)自装置が音声再生中であり、且つ再生中情報を受信した場合」と同様に親機に音圧情報を送信し、親機は、集められた音量情報の中で一番大きい音量情報を送信した音声認識装置に委任情報を送り、各音声認識装置は親機から通知を受信したか判定する。そして、委任情報を受信した音声認識装置はユーザ201の音声による質問または指示に応じた処理を行い、委任情報を受信しなかった音声認識装置は処理を終了する。
(4) When the own device is not playing audio and does not receive playback information (step S303: No, and step S306: No).
When the own device is not playing the voice and does not receive the playback information, it can be determined that no voice recognition device is playing the voice. Therefore, "(1) The own device is playing the voice. , And when the playback information is received ", the sound pressure information is transmitted to the master unit, and the master unit sends the delegated information to the voice recognition device that transmitted the loudest volume information among the collected volume information. Send, and each voice recognition device determines whether a notification has been received from the master unit. Then, the voice recognition device that has received the delegation information performs processing according to the question or instruction by the voice of the
上記4つのパターンに応じた処理を各音声認識装置が実行することで、各音声認識装置は状況にあった動作を行うことができる。 By each voice recognition device performing processing according to the above four patterns, each voice recognition device can perform an operation suitable for the situation.
実施の形態の音声認識方法(その1)によれば、自装置が音声再生中であるか、および他の音声認識装置が音声再生中であることを示す再生中情報を受信したかに基づいて、ユーザの音声に応じた処理を行うことで、音声認識の精度を向上することができる。詳細には、例えば、他の音声認識装置が音声を再生中の場合は、自装置は音声認識を用いたユーザの音声に応じた処理は行わないので、他の音声認識装置が再生している音声を除去する必要がなくなり、音声を再生している他の音声認識装置自身が自身で再生している音声をマイクから入力された音声から除去(エコーキャンセル処理)して音声認識を行うので、音声認識の精度が向上する。 According to the voice recognition method (No. 1) of the embodiment, it is based on whether the own device is playing voice or another voice recognition device receives playing information indicating that the voice is being played. , The accuracy of voice recognition can be improved by performing processing according to the voice of the user. Specifically, for example, when another voice recognition device is playing a voice, the own device does not perform processing according to the user's voice using voice recognition, so that the other voice recognition device is playing. It is no longer necessary to remove the voice, and the other voice recognition device itself that is playing the voice removes the voice that is being played by itself from the voice input from the microphone (echo cancel processing), so voice recognition is performed. The accuracy of voice recognition is improved.
また、音声認識装置101−iは、音声認識方法(その1)に代えて、以下に説明するような音声認識方法(その2)を行ってもよい。 Further, the voice recognition device 101-i may perform the voice recognition method (No. 2) as described below instead of the voice recognition method (No. 1).
図4A〜4Cは、実施の形態に係る音声認識方法(その2)のフローチャートの一例である。図4A〜4Cでは、音声認識装置101−1の処理について説明する。尚、音声認識装置101−2、101−3も同様に音声認識方法(その2)を行っている。 4A to 4C are examples of the flowchart of the voice recognition method (No. 2) according to the embodiment. In FIGS. 4A to 4C, the processing of the voice recognition device 101-1 will be described. The voice recognition devices 101-2 and 101-3 also use the voice recognition method (No. 2) in the same manner.
ステップS401において、制御部141は、ユーザ201の発話にホットワードが含まれているか否か判定し、ユーザ201の発話にホットワードが含まれていると判定された場合、制御はステップS402に進む。具体的には、例えば、制御部141は、音声認識部131から入力される音声認識結果にホットワードが含まれているか否か判定し、ホットワードが含まれていると判定された場合、制御はステップS402に進む。ホットワードが含まれていないと判定された場合、制御部141は、音声認識結果が入力されるのを待つ。
In step S401, the
ステップS402において、制御部141は、マイク111に入力される音声の大きさを示す音量情報を取得し、音量情報を他の音声認識装置101−jに送信する。具体的には、エコーキャンセル部121は、マイク111に入力されるホットワードの音声の大きさを算出し、算出した音声の大きさを示す音量情報を制御部141に出力し、制御部141は、音量情報を取得し、音量情報を他の音声認識装置101−jに送信する。音声の大きさは、例えば、音声の音圧レベルである。
In step S402, the
ステップS403において、制御部141は、自装置(音声認識装置101−1)が音声再生中であるか否か判定し、自装置(音声認識装置101−1)が音声再生中であると判定された場合、他の音声認識装置101−jに、自装置(音声認識装置101−1)が音声再生中であることを示す再生中情報を通信部161から他の音声認識装置101−jに送信する。
In step S403, the
ステップS404において、制御部141は、所定時間、他の音声認識装置101−jから通知(音量情報または再生中情報)を受信するのを待つ。制御部141は、他の音声認識装置101−jが音量情報または再生中情報を送信した場合、他の音声認識装置101−jに入力されたホットワードの音声の大きさを示す音量情報または他の音声認識装置101−jが音声再生中であることを示す再生中情報を通信部161を介して受信する。
In step S404, the
ステップS405において、制御部141は、ステップS404の所定時間の間に、他の音声認識装置101−jから通知(音量情報または再生中情報)を受信したか判定し、他の音声認識装置101−jから通知を受信したと判定された場合(ステップS405:Yes)、制御はステップS406に進み、他の音声認識装置101−jから通知を受信していないと判定された場合(ステップS405:No)、制御はステップS411に進む。
In step S405, the
ステップS406において、制御部141は、音声再生中の他の音声認識装置101−jがあるか否か判定し、音声再生中の他の音声認識装置101−jがあると判定された場合(ステップS406:Yes)、制御はステップS409に進み、音声再生中の他の音声認識装置101−jがないと判定された場合(ステップS406:No)、制御はステップS407に進む。具体的には、例えば、制御部141は、他の音声認識装置101−jのいずれかから再生中情報を受信した場合、音声再生中の他の音声認識装置101−jがあると判定し、再生中情報を受信していない場合、音声再生中の他の音声認識装置101−jが無いと判定する。
In step S406, the
ステップS407において、制御部141は、自装置(音声認識装置101−1)が音声を再生中か否か判定する。例えば、制御部141は、音声処理部171が音声信号を出力しているか否か、および制御部141が発話データまたは音声信号を出力しているか否かに基づいて、自装置(音声認識装置101−1)が音声を再生中か否か判定する。自装置(音声認識装置101−1)が音声を再生中と判定された場合(ステップS407:Yes)、制御はステップS411に進み、自装置(音声認識装置101−1)が音声を再生中でないと判定された場合(ステップS407:No)、制御はステップS408に進む。
In step S407, the
ステップS408において、制御部141は、自装置(音声認識装置101−1)に入力されたホットワードの音声の大きさ(受信音量)が音声再生中でない他の音声認識装置101−jに入力されたホットワードの音声の大きさより大きいか否か判定する。すなわち、制御部141は、自装置(音声認識装置101−1)に入力されたホットワードの音声よりも大きいホットワードの音声が入力された音声再生中でない他の音声認識装置101−jがあるか否か判定する。具体的には、例えば、制御部141は、ステップS402で取得した自装置の音量情報とステップS404で受信した他の音声認識装置101−jから受信した音量情報から、自装置に入力されたホットワードの音声の大きさが音声再生中でない他の音声認識装置101−jに入力されたホットワードの音声の大きさより大きいか否か判定する。自装置(音声認識装置101−1)に入力されたホットワードの音声の大きさが音声再生中でない他の音声認識装置101−jに入力されたホットワードの音声の大きさより大きいと判定された場合(すなわち、自装置(音声認識装置101−1)に入力されたホットワードの音声よりも大きいホットワードの音声が入力された音声再生中でない他の音声認識装置101−jがない場合)(ステップS408:Yes)、制御はステップS411に進み、自装置(音声認識装置101−1)に入力されたホットワードの音声の大きさが音声再生中でない他の音声認識装置101−jに入力されたホットワードの音声の大きさより大きくないと判定された場合(すなわち、自装置(音声認識装置101−1)に入力されたホットワードの音声よりも大きいホットワードの音声が入力された音声再生中でない他の音声認識装置101−jがある場合)(ステップS408:No)、制御はステップS401に戻る。
In step S408, the
ステップS409において、制御部141は、自装置(音声認識装置101−1)が音声を再生中か否か判定する。例えば、制御部141は、音声処理部171が音声信号を出力しているか否か、および制御部141が発話データまたは音声信号を出力しているか否かに基づいて、自装置(音声認識装置101−1)が音声を再生中か否か判定する。自装置(音声認識装置101−1)が音声を再生中と判定された場合(ステップS409:Yes)、制御はステップS410に進み、自装置(音声認識装置101−1)が音声を再生中でないと判定された場合(ステップS409:No)、制御はステップS401に戻る。
In step S409, the
ステップS410において、制御部141は、自装置(音声認識装置101−1)に入力されたホットワードの音声の大きさ(受信音量)が音声再生中の他の音声認識装置101−jに入力されたホットワードの音声の大きさより大きいか否か判定する。すなわち、制御部141は、自装置(音声認識装置101−1)に入力されたホットワードの音声よりも大きいホットワードの音声が入力された音声再生中の他の音声認識装置101−jがあるか否か判定する。具体的には、例えば、制御部141は、他の音声認識装置101−jから再生中情報を受信したか否かに基づいて、他の音声認識装置101−jが音声再生中であるか判定する。例えば、制御部141は、音声認識装置101−2から再生中情報を受信した場合、音声認識装置101−2は音声再生中であると判定する。そして、制御部141は、ステップS402で取得した自装置の音量情報とステップS404で受信した音声再生中と判定された他の音声認識装置101−jから受信した音量情報から、自装置(音声認識装置101−1)に入力されたホットワードの音声の大きさが音声再生中の他の音声認識装置101−jに入力されたホットワードの音声の大きさより大きいか否か判定する。自装置(音声認識装置101−1)に入力されたホットワードの音声の大きさが音声再生中の他の音声認識装置101−jに入力されたホットワードの音声の大きさより大きいと判定された場合(すなわち、自装置(音声認識装置101−1)に入力されたホットワードの音声よりも大きいホットワードの音声が入力された音声再生中の他の音声認識装置101−jがない場合)(ステップS410:Yes)、制御はステップS411に進み、自装置(音声認識装置101−1)に入力されたホットワードの音声の大きさが音声再生中の他の音声認識装置101−jに入力されたホットワードの音声の大きさより大きくないと判定された場合(すなわち、自装置(音声認識装置101−1)に入力されたホットワードの音声よりも大きいホットワードの音声が入力された音声再生中の他の音声認識装置101−jがある場合)(ステップS410:No)、制御はステップS401に戻る。
In step S410, the
ステップS411において、制御部141は、ユーザ201からの音声による質問または指示の待ち受けを開始する。具体的に、例えば、制御部141は、音声認識部131から入力される音声認識結果に基づいて、ユーザ201からの質問または指示を検出し、ユーザ201の音声による質問または指示に応じて、情報の検索や装置の操作などの処理を行う音声アシスタントを開始する。
In step S411, the
ステップS412において、制御部141は、ユーザ201からの音声による質問または指示の入力があるか否か判定し、質問または指示の入力があると判定された場合、制御はステップS413に進む。質問または指示の入力がないと判定された場合、制御部141は、ステップS414に進む。具体的に、例えば、制御部141は、音声認識部131から入力される音声認識結果に基づいて、ユーザ201からの質問または指示が入力されたか否か判定し、質問または指示の入力があると判定された場合、制御はステップS413に進む。
In step S412, the
ステップS413において、制御部141は、ユーザ201からの音声による質問または指示に応じた処理を行う。具体的には、例えば、制御部141は、ユーザ201からの質問に対する回答を検索し、当該回答のテキストデータ(発話データ)を音声処理部171に出力し、音声処理部171は当該回答を音声でスピーカー181から出力する。具体的には、例えば、制御部141は、ユーザ201からの音声による指示に応じた音声認識装置101−1の制御(例えば、電源のオン/オフ、音量の調整、または指示に応じた特定の機能の実行)、または他の音声認識装置への指示などの処理を行う。
In step S413, the
ステップS414において、制御部141は、ステップS411のユーザ201からの音声による質問または指示の待ち受けの開始から、予め定められた所定時間を経過したか判定し、所定時間経過したと判定された場合、制御はステップS401に戻り、所定時間経過していないと判定された場合、制御はステップS412に戻る。
In step S414, the
実施の形態の音声認識方法(その2)によれば、自装置が音声再生中であるか、および他の音声認識装置が音声再生中であることを示す再生中情報を受信したかに基づいて、ユーザの音声に応じた処理を行うことで、音声認識の精度を向上することができる。詳細には、例えば、他の音声認識装置が音声を再生中の場合は、自装置は音声認識を用いたユーザの音声に応じた処理は行わないので、他の音声認識装置が再生している音声を除去する必要がなくなり、音声を再生している他の音声認識装置自身が自身で再生している音声をマイクから入力された音声から除去(エコーキャンセル処理)して音声認識を行うので、音声認識の精度が向上する。 According to the voice recognition method (No. 2) of the embodiment, it is based on whether the own device is playing voice or another voice recognition device receives playing information indicating that the voice is being played. , The accuracy of voice recognition can be improved by performing processing according to the voice of the user. Specifically, for example, when another voice recognition device is playing a voice, the own device does not perform processing according to the user's voice using voice recognition, so that the other voice recognition device is playing. It is no longer necessary to remove the voice, and the other voice recognition device itself that is playing the voice removes the voice that is being played by itself from the voice input from the microphone (echo cancel processing), so voice recognition is performed. The accuracy of voice recognition is improved.
また、音声認識装置101−iは、音声認識方法(その1)および音声認識方法(その2)に代えて、以下に説明するような音声認識方法(その3)を行ってもよい。 Further, the voice recognition device 101-i may perform the voice recognition method (No. 3) as described below instead of the voice recognition method (No. 1) and the voice recognition method (No. 2).
上述の音声認識方法(その2)では、音声認識装置101−iのそれぞれは、受信音量の比較よりも音声再生中か否かの比較を優先させて、ユーザからの質問または指示に対する処理を行うか判定していた。 In the above-mentioned voice recognition method (No. 2), each of the voice recognition devices 101-i gives priority to the comparison of whether or not the voice is being played over the comparison of the received volume, and processes the question or instruction from the user. I was judging.
そのため、上述の音声認識方法(その2)では、図5に示すように、音声認識装置101−1、101−3は音声を再生しておらず、音声認識装置101−2は動画等のコンテンツの音声再生中である場合、音声認識装置101−1の近くのユーザ201が発話すると、ユーザ201にとって音声認識装置101−1よりも遠くにある音声認識装置101−2が応答する。しかしながら、図5に示すような場合では、ユーザ201は、音声認識装置101−2が音声再生中であっても、一般的には、音声認識装置101−1に話しかけている場合が多い。このような場合に、音声認識方法(その3)では、音声認識装置101−1が応答するようにする。
Therefore, in the above-mentioned voice recognition method (No. 2), as shown in FIG. 5, the voice recognition devices 101-1 and 101-3 do not reproduce the voice, and the voice recognition device 101-2 is the content such as a moving image. When the
図6A〜6Dは、実施の形態に係る音声認識方法(その3)のフローチャートの一例である。図6A〜6Dでは、音声認識装置101−1の処理について説明する。尚、音声認識装置101−2、101−3も同様に音声認識方法(その3)を行っている。 6A to 6D are examples of the flowchart of the voice recognition method (No. 3) according to the embodiment. 6A to 6D describe the processing of the voice recognition device 101-1. The voice recognition devices 101-2 and 101-3 also use the voice recognition method (No. 3) in the same manner.
ステップS601において、制御部141は、ユーザ201の発話にホットワードが含まれているか否か判定し、ユーザ201の発話にホットワードが含まれていると判定された場合、制御はステップS602に進む。具体的には、例えば、制御部141は、音声認識部131から入力される音声認識結果にホットワードが含まれているか否か判定し、ホットワードが含まれていると判定された場合、制御はステップS602に進む。ホットワードが含まれていないと判定された場合、制御部141は、音声認識結果が入力されるのを待つ。
In step S601, the
ステップS602において、制御部141は、マイク111に入力される音声の大きさを示す音量情報を取得し、音量情報を他の音声認識装置101−jに送信する。具体的には、エコーキャンセル部121は、マイク111に入力されるホットワードの音声の大きさを算出し、算出した音声の大きさを示す音量情報を制御部141に出力し、制御部141は、音量情報を取得し、音量情報を他の音声認識装置101−jに送信する。音声の大きさは、例えば、音声の音圧レベルである。
In step S602, the
ステップS603において、制御部141は、自装置(音声認識装置101−1)が音声再生中であるか否か判定し、自装置(音声認識装置101−1)が音声再生中であると判定された場合、他の音声認識装置101−jに、自装置(音声認識装置101−1)が音声再生中であることを示す再生中情報を通信部161から他の音声認識装置101−jに送信する。
In step S603, the
ステップS604において、制御部141は、予め定められた所定時間、他の音声認識装置101−jから通知(音量情報または再生中情報)を受信するのを待つ。制御部141は、他の音声認識装置101−jが音量情報または再生中情報を送信した場合、音量情報または再生中情報を通信部161を介して受信する。
In step S604, the
ステップS605において、制御部141は、ステップS604の所定時間の間に、他の音声認識装置101−jから通知(音量情報または再生中情報)を受信したか判定し、他の音声認識装置101−jから通知を受信したと判定された場合(ステップS605:Yes)、制御はステップS606に進み、他の音声認識装置101−jから通知を受信していないと判定された場合(ステップS605:No)、制御はステップS615に進む。
In step S605, the
ステップS606において、制御部141は、音声再生中の他の音声認識装置101−jがあるか否か判定し、音声再生中の他の音声認識装置101−jがあると判定された場合(ステップS606:Yes)、制御はステップS610に進み、音声再生中の他の音声認識装置101−jがないと判定された場合(ステップS606:No)、制御はステップS607に進む。具体的には、例えば、制御部141は、他の音声認識装置101−jのいずれかから再生中情報を受信した場合、音声再生中の他の音声認識装置101−jがあると判定し、再生中情報を受信していない場合、音声再生中の他の音声認識装置101−jが無いと判定する。
In step S606, the
ステップS607において、制御部141は、自装置(音声認識装置101−1)が音声を再生中か否か判定する。例えば、制御部141は、音声処理部171が音声信号を出力しているか否か、および制御部141が発話データまたは音声信号を出力しているか否かに基づいて、自装置(音声認識装置101−1)が音声を再生中か否か判定する。自装置(音声認識装置101−1)が音声を再生中と判定された場合(ステップS607:Yes)、制御はステップS609に進み、自装置(音声認識装置101−1)が音声を再生中でないと判定された場合(ステップS607:No)、制御はステップS608に進む。
In step S607, the
ステップS608において、制御部141は、自装置(音声認識装置101−1)に入力されたホットワードの音声の大きさ(受信音量)が音声再生中でない他の音声認識装置101−jに入力されたホットワードの音声の大きさより大きいか否か判定する。すなわち、制御部141は、自装置(音声認識装置101−1)に入力されたホットワードの音声よりも大きいホットワードの音声が入力された音声再生中でない他の音声認識装置101−jがあるか否か判定する。具体的には、例えば、制御部141は、ステップS602で取得した自装置の音量情報とステップS604で受信した他の音声認識装置101−jから受信した音量情報から、自装置に入力されたホットワードの音声の大きさが音声再生中でない他の音声認識装置101−jに入力されたホットワードの音声の大きさより大きいか否か判定する。自装置(音声認識装置101−1)に入力されたホットワードの音声の大きさが音声再生中でない他の音声認識装置101−jに入力されたホットワードの音声の大きさより大きいと判定された場合(すなわち、自装置(音声認識装置101−1)に入力されたホットワードの音声よりも大きいホットワードの音声が入力された音声再生中でない他の音声認識装置101−jがない場合)(ステップS608:Yes)、制御はステップS615に進み、自装置(音声認識装置101−1)に入力されたホットワードの音声の大きさが音声再生中でない他の音声認識装置101−jに入力されたホットワードの音声の大きさより大きくないと判定された場合(すなわち、自装置(音声認識装置101−1)に入力されたホットワードの音声よりも大きいホットワードの音声が入力された音声再生中でない他の音声認識装置101−jがある場合)(ステップS608:No)、制御はステップS601に戻る。
In step S608, the
ステップS609において、制御部141は、音声再生中でない他の音声認識装置101−jに入力されたホットワードの音声の大きさ(受信音量)のうちの最大の音声の大きさが自装置(音声認識装置101−1)に入力されたホットワードの音声の大きさより十分大きいか否か判定する。具体的には、例えば、制御部141は、ステップS602で取得した自装置の音量情報とステップS604で受信した音声再生中でない他の音声認識装置101−jから受信した音量情報から、音声再生中でない他の音声認識装置101−jに入力されたホットワードの音声の大きさのうちの最大の音声の大きさが自装置に入力されたホットワードの音声の大きさより十分大きいか否か判定する。尚、他の音声認識装置101−jが音声再生中であるか否かは、当該他の音声認識装置101−jから再生中情報を受信したか否かにより判定される。
In step S609, the
十分大きいか否かの判定に関して、例えば、制御部141は、音声再生中でない他の音声認識装置101−jから受信した1つ以上の音量情報のうち最大の音量情報の値Aが、自装置の音量情報の値に所定値を加算した値Bよりも大きい場合に、音声再生中でない他の音声認識装置101−jに入力されたホットワードの音声の大きさのうちの最大の音声の大きさが自装置(音声認識装置101−1)に入力されたホットワードの音声の大きさより十分大きいと判定する。また、例えば、制御部141は、音声再生中でない他の音声認識装置101−jから受信した1つ以上の音量情報のうち最大の音量情報の値Aが、自装置の音量情報の値に所定値を乗算した値Bよりも大きい場合に、音声再生中でない他の音声認識装置101−jに入力されたホットワードの音声の大きさのうちの最大の音声の大きさが自装置(音声認識装置101−1)に入力されたホットワードの音声の大きさより十分大きいと判定してもよい。音声再生中でない他の音声認識装置101−jに入力されたホットワードの音声の大きさのうちの最大の音声の大きさが自装置(音声認識装置101−1)に入力されたホットワードの音声の大きさより十分大きいと判定された場合(ステップS609:Yes)、制御はステップS601に戻り、音声再生中でない他の音声認識装置101−jに入力されたホットワードの音声の大きさのうちの最大の音声の大きさが自装置(音声認識装置101−1)に入力されたホットワードの音声の大きさより十分大きくない判定された場合(ステップS609:No)、制御はステップS615に進む。
Regarding the determination of whether or not it is sufficiently large, for example, the
ステップS610において、制御部141は、自装置(音声認識装置101−1)が音声を再生中か否か判定する。例えば、制御部141は、音声処理部171が音声信号を出力しているか否か、および制御部141が発話データまたは音声信号を出力しているか否かに基づいて、自装置(音声認識装置101−1)が音声を再生中か否か判定する。自装置(音声認識装置101−1)が音声を再生中と判定された場合(ステップS610:Yes)、制御はステップS611に進み、自装置(音声認識装置101−1)が音声を再生中でないと判定された場合(ステップS610:No)、制御はステップS613に進む。
In step S610, the
ステップS611において、制御部141は、自装置(音声認識装置101−1)に入力されたホットワードの音声の大きさ(受信音量)が音声再生中の他の音声認識装置101−jに入力されたホットワードの音声の大きさより大きいか否か判定する。すなわち、制御部141は、自装置(音声認識装置101−1)に入力されたホットワードの音声よりも大きいホットワードの音声が入力された音声再生中の他の音声認識装置101−jがあるか否か判定する。具体的には、例えば、制御部141は、他の音声認識装置101−jから再生中情報を受信したか否かに基づいて、他の音声認識装置101−jが音声再生中であるか判定する。例えば、制御部141は、音声認識装置101−2から再生中情報を受信した場合、音声認識装置101−2は音声再生中であると判定する。そして、制御部141は、ステップS602で取得した自装置の音量情報とステップS604で受信した音声再生中と判定された他の音声認識装置101−jから受信した音量情報から、自装置(音声認識装置101−1)に入力されたホットワードの音声の大きさが音声再生中の他の音声認識装置101−jに入力されたホットワードの音声の大きさより大きいか否か判定する。自装置(音声認識装置101−1)に入力されたホットワードの音声の大きさが音声再生中の他の音声認識装置101−jに入力されたホットワードの音声の大きさより大きいと判定された場合(すなわち、自装置(音声認識装置101−1)に入力されたホットワードの音声よりも大きいホットワードの音声が入力された音声再生中の他の音声認識装置101−jがない場合)(ステップS611:Yes)、制御はステップS612に進み、自装置(音声認識装置101−1)に入力されたホットワードの音声の大きさが音声再生中の他の音声認識装置101−jに入力されたホットワードの音声の大きさより大きくないと判定された場合(すなわち、自装置(音声認識装置101−1)に入力されたホットワードの音声よりも大きいホットワードの音声が入力された音声再生中でない他の音声認識装置101−jがある場合)(ステップS611:No)、制御はステップS601に戻る。
In step S611, the
ステップS612において、制御部141は、音声再生中でない他の音声認識装置101−jに入力されたホットワードの音声の大きさ(受信音量)のうちの最大の音声の大きさが自装置(音声認識装置101−1)に入力されたホットワードの音声の大きさより十分大きいか否か判定する。具体的には、例えば、制御部141は、ステップS602で取得した自装置の音量情報とステップS604で受信した他の音声認識装置101−jから受信した音量情報から、音声再生中でない他の音声認識装置101−jに入力されたホットワードの音声の大きさのうちの最大の音声の大きさが自装置に入力されたホットワードの音声の大きさより十分大きいか否か判定する。尚、他の音声認識装置101−jが音声再生中であるか否かは、当該他の音声認識装置101−jから再生中情報を受信したか否かにより判定される。十分大きいか否かの判定方法に関しては、ステップ609で説明したものと同様であるため詳細な説明は省略する。音声再生中でない他の音声認識装置101−jに入力されたホットワードの音声の大きさのうちの最大の音声の大きさが自装置(音声認識装置101−1)に入力されたホットワードの音声の大きさより十分大きいと判定された場合(ステップS612:Yes)、制御はステップS601に戻り、音声再生中でない他の音声認識装置101−jに入力されたホットワードの音声の大きさのうちの最大の音声の大きさが自装置(音声認識装置101−1)に入力されたホットワードの音声の大きさより十分大きくない判定された場合(ステップS612:No)、制御はステップS615に進む。
In step S612, the
ステップS613において、制御部141は、自装置(音声認識装置101−1)に入力されたホットワードの音声の大きさ(受信音量)が音声再生中でない他の音声認識装置101−jに入力されたホットワードの音声の大きさより大きいか否か判定する。すなわち、制御部141は、自装置(音声認識装置101−1)に入力されたホットワードの音声よりも大きいホットワードの音声が入力された音声再生中でない他の音声認識装置101−jがあるか否か判定する。具体的には、例えば、制御部141は、ステップS602で取得した自装置の音量情報とステップS604で受信した他の音声認識装置101−jから受信した音量情報から、自装置に入力されたホットワードの音声の大きさが音声再生中でない他の音声認識装置101−jに入力されたホットワードの音声の大きさより大きいか否か判定する。自装置(音声認識装置101−1)に入力されたホットワードの音声の大きさが音声再生中でない他の音声認識装置101−jに入力されたホットワードの音声の大きさより大きいと判定された場合(すなわち、自装置(音声認識装置101−1)に入力されたホットワードの音声よりも大きいホットワードの音声が入力された音声再生中でない他の音声認識装置101−jがない場合)(ステップS613:Yes)、制御はステップS614に進み、自装置(音声認識装置101−1)に入力されたホットワードの音声の大きさが音声再生中でない他の音声認識装置101−jに入力されたホットワードの音声の大きさより大きくないと判定された場合(すなわち、自装置(音声認識装置101−1)に入力されたホットワードの音声よりも大きいホットワードの音声が入力された音声再生中でない他の音声認識装置101−jがある場合)(ステップS613:No)、制御はステップS601に戻る。
In step S613, the
ステップS614において、制御部141は、自装置(音声認識装置101−1)に入力されたホットワードの音声の大きさ(受信音量)が音声再生中の他の音声認識装置101−jに入力されたホットワードの音声の大きさのうちの最大の音声の大きさより十分大きいか否か判定する。具体的には、例えば、制御部141は、他の音声認識装置101−jから再生中情報を受信したか否かに基づいて、他の音声認識装置101−jが音声再生中であるか判定する。そして、制御部141は、ステップS602で取得した自装置の音量情報とステップS604で受信した音声再生中と判定された他の音声認識装置101−jから受信した音量情報から、自装置に入力されたホットワードの音声の大きさが音声再生中の他の音声認識装置101−jに入力されたホットワードの音声の大きさのうちの最大の音声の大きさより十分大きいか否か判定する。
In step S614, the
十分大きいか否かの判定に関して、例えば、制御部141は、自装置の音量情報の値Aが、音声再生中の他の音声認識装置101−jから受信した1つ以上の音量情報のうち最大の音量情報の値に所定値を加算した値Bよりも大きい場合に、自装置(音声認識装置101−1)に入力されたホットワードの音声の大きさが音声再生中の他の音声認識装置101−jに入力されたホットワードの音声の大きさのうちの最大の音声の大きさより十分大きいと判定する。また、例えば、制御部141は、自装置の音量情報の値Aが、音声再生中の他の音声認識装置101−jから受信した1つ以上の音量情報のうち最大の音量情報の値に所定値を乗算した値Bよりも大きい場合に、自装置(音声認識装置101−1)に入力されたホットワードの音声の大きさが音声再生中の他の音声認識装置101−jに入力されたホットワードの音声の大きさのうちの最大の音声の大きさより十分大きいと判定してもよい。自装置(音声認識装置101−1)に入力されたホットワードの音声の大きさが音声再生中の他の音声認識装置101−jに入力されたホットワードの音声の大きさのうちの最大の音声の大きさより十分大きいと判定された場合(ステップS614:Yes)、制御はステップS615に進み、自装置(音声認識装置101−1)に入力されたホットワードの音声の大きさが音声再生中の他の音声認識装置101−jに入力されたホットワードの音声の大きさのうちの最大の音声の大きさより十分大きくないと判定された場合(ステップS614:No)、制御はステップS601に戻る。
Regarding the determination of whether or not it is sufficiently large, for example, the
ステップS615において、制御部141は、ユーザ201からの音声による質問または指示の待ち受けを開始する。具体的に、例えば、制御部141は、音声認識部131から入力される音声認識結果に基づいて、ユーザ201からの質問または指示を検出し、ユーザ201の音声による質問または指示に応じて、情報の検索や装置の操作などの処理を行う音声アシスタントを開始する。
In step S615, the
ステップS616において、制御部141は、ユーザ201からの音声による質問または指示の入力があるか否か判定し、質問または指示の入力があると判定された場合、制御はステップS617に進む。質問または指示の入力がないと判定された場合、制御部141は、ステップS618に進む。具体的に、例えば、制御部141は、音声認識部131から入力される音声認識結果に基づいて、ユーザ201からの質問または指示が入力されたか否か判定し、質問または指示の入力があると判定された場合、制御はステップS617に進む。
In step S616, the
ステップS617において、制御部141は、ユーザ201からの音声による質問または指示に応じた処理を行う。具体的には、例えば、制御部141は、ユーザ201からの質問に対する回答を検索し、当該回答のテキストデータ(発話データ)を音声処理部171に出力し、音声処理部171は当該回答を音声でスピーカー181から出力する。具体的には、例えば、制御部141は、ユーザ201からの音声による指示に応じた音声認識装置101−1の制御(例えば、電源のオン/オフ、音量の調整、または指示に応じた特定の機能の実行)、または他の音声認識装置への指示などの処理を行う。
In step S617, the
ステップS618において、制御部141は、ステップS615のユーザ201からの音声による質問または指示の待ち受けの開始から、予め定められた所定時間を経過したか判定し、所定時間経過したと判定された場合、制御はステップS601に戻り、所定時間経過していないと判定された場合、制御はステップS616に戻る。
In step S618, the
実施の形態の音声認識方法(その3)によれば、自装置が音声再生中であるか、および他の音声認識装置が音声再生中であることを示す再生中情報を受信したかに基づいて、ユーザの音声に応じた処理を行うことで、音声認識の精度を向上することができる。 According to the voice recognition method (No. 3) of the embodiment, it is based on whether the own device is playing voice or another voice recognition device receives playing information indicating that the voice is being played. , The accuracy of voice recognition can be improved by performing processing according to the voice of the user.
また、実施の形態の音声認識方法(その3)によれば、ユーザと近い自装置が音声を再生しておらず、ユーザと遠い他の音声認識装置が音声再生中の場合でも、ユーザとの距離が近く、ユーザが話しかけていると考えられる自装置がユーザの音声に応じた処理を行うことができる。 Further, according to the voice recognition method (No. 3) of the embodiment, even when the own device close to the user does not play the voice and another voice recognition device far from the user is playing the voice, the user and the user. The distance is short, and the own device, which is considered to be the user talking to, can perform processing according to the user's voice.
(ソフトウェアによる実現例)
音声認識装置101の制御ブロック(特に、エコーキャンセル部121、音声認識部131、制御部141、および音声処理部171)は、集積回路(IC(Integrated Circuit)チップ)等に形成された論理回路(ハードウェア)によって実現可能であり、またCPU(Central Processing Unit)等のプロセッサを用いてソフトウェアによって実現してもよい。後者の場合、例えば、コンピュータである音声認識装置101は、各機能を実現するソフトウェアであるプログラムの命令を実行するCPU、上記プログラムおよび各種データがコンピュータ(またはCPU)で読み取り可能に記録されたROMまたは記憶装置(これらを「記録媒体」と称する)、上記プログラムを展開するRAM等を備えている。そして、コンピュータ(またはCPU)が上記プログラムを上記記録媒体から読み取って実行することにより、エコーキャンセル部121、音声認識部131、制御部141、および音声処理部171として動作し、本発明の目的が達成される。上記記録媒体としては、「一時的でない有形の媒体」、例えば、テープ、ディスク、カード、半導体メモリ、プログラマブルな論理回路等を用いることができる。また、上記プログラムは、伝送可能な任意の伝送媒体を介して上記コンピュータに供給されてよい。
(Example of realization by software)
The control block of the voice recognition device 101 (particularly, the
なお、本発明は、上述した実施の形態に限定されるものではなく変形可能であり、上記の構成は、実質的に同一の構成、同一の作用効果を奏する構成又は同一の目的を達成することができる構成で置き換えることができる。 It should be noted that the present invention is not limited to the above-described embodiment, but can be modified, and the above-mentioned configuration is to achieve substantially the same configuration, a configuration having the same action and effect, or the same object. Can be replaced with a configuration that allows.
10 システム
101 音声認識装置
111 マイク
121 エコーキャンセル部
131 音声認識部
141 制御部
151 記憶部
161 通信部
171 音声処理部
181 スピーカー
10 System 101
Claims (10)
前記音声入力部に入力された前記ユーザの音声の認識を行う音声認識部と、
他の音声認識装置が他の音声を再生中であるか否かに基づいて、前記音声認識部により認識される前記ユーザの音声に応じた処理を行う制御部と、
を備える音声認識装置。 The voice input section where the user's voice is input, and
A voice recognition unit that recognizes the user's voice input to the voice input unit, and
A control unit that performs processing according to the user's voice recognized by the voice recognition unit based on whether or not another voice recognition device is playing another voice.
A voice recognition device equipped with.
入力された前記ユーザの音声の認識を行い、
他の音声認識装置が他の音声を再生中であるか否かに基づいて、前記音声認識部により認識される前記ユーザの音声に応じた処理を行う、
処理を備える音声認識方法。 The user's voice is input,
The input voice of the user is recognized, and the voice is recognized.
Based on whether or not another voice recognition device is playing another voice, processing according to the user's voice recognized by the voice recognition unit is performed.
A speech recognition method with processing.
入力された前記ユーザの音声の認識を行い、
他の音声認識装置が他の音声を再生中であるか否かに基づいて、前記音声認識部により認識される前記ユーザの音声に応じた処理を行う、
処理を実行させるプログラム。 To the computer where the user's voice is input
The input voice of the user is recognized, and the voice is recognized.
Based on whether or not another voice recognition device is playing another voice, processing according to the user's voice recognized by the voice recognition unit is performed.
A program that executes processing.
入力された前記ユーザの音声の認識を行い、
他の音声認識装置が他の音声を再生中であるか否かに基づいて、前記音声認識部により認識される前記ユーザの音声に応じた処理を行う、
処理を実行させるプログラムを記録するコンピュータ読み取り可能な記録媒体。 To the computer where the user's voice is input
The input voice of the user is recognized, and the voice is recognized.
Based on whether or not another voice recognition device is playing another voice, processing according to the user's voice recognized by the voice recognition unit is performed.
A computer-readable recording medium that records the program that performs the process.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020104448A JP2021196550A (en) | 2020-06-17 | 2020-06-17 | Voice recognition device, voice recognition method, program, and storage medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020104448A JP2021196550A (en) | 2020-06-17 | 2020-06-17 | Voice recognition device, voice recognition method, program, and storage medium |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2021196550A true JP2021196550A (en) | 2021-12-27 |
Family
ID=79195523
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020104448A Pending JP2021196550A (en) | 2020-06-17 | 2020-06-17 | Voice recognition device, voice recognition method, program, and storage medium |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2021196550A (en) |
-
2020
- 2020-06-17 JP JP2020104448A patent/JP2021196550A/en active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP1133768B1 (en) | Consumer electronics system with speech recognizer | |
CN102056036A (en) | Reproducing device, headphone and reproducing method | |
JP2006504130A (en) | Device control based on voice | |
JP3838029B2 (en) | Device control method using speech recognition and device control system using speech recognition | |
JP7436564B2 (en) | Headphones and headphone status detection method | |
KR102374054B1 (en) | Method for recognizing voice and apparatus used therefor | |
JP7197992B2 (en) | Speech recognition device, speech recognition method | |
CN104157292A (en) | Anti-howling audio signal processing method and device thereof | |
US11900730B2 (en) | Biometric identification | |
WO2020017518A1 (en) | Audio signal processing device | |
JP2002149428A (en) | Audio signal processor, and method for rewriting inside data of the audio signal processor | |
JP2021196550A (en) | Voice recognition device, voice recognition method, program, and storage medium | |
JP7456387B2 (en) | Information processing device and information processing method | |
US11289114B2 (en) | Content reproducer, sound collector, content reproduction system, and method of controlling content reproducer | |
US20210195320A1 (en) | Recording and playback device | |
JP5489537B2 (en) | Sound reproduction system, sound reproduction device, and control method thereof | |
WO2018100742A1 (en) | Content reproduction device, content reproduction system, and content reproduction device control method | |
CN114420158A (en) | Model training method and device, and target frequency response information determining method and device | |
JP2016186646A (en) | Voice translation apparatus, voice translation method and voice translation program | |
JP2015187738A (en) | Speech translation device, speech translation method, and speech translation program | |
JP7105320B2 (en) | Speech Recognition Device, Speech Recognition Device Control Method, Content Playback Device, and Content Transmission/Reception System | |
US20100087954A1 (en) | Robot and robot control system | |
JP7158480B2 (en) | Audio signal processing system and audio signal processing device | |
US6711545B1 (en) | Hand-held transmitter having speech storage actuated by transmission failure | |
JP4143487B2 (en) | Time-series information control system and method, and time-series information control program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230322 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20240118 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20240206 |