JP6791356B2

JP6791356B2 - 音声端末、音声コマンド生成システム、及び音声コマンド生成システムの制御方法

Info

Publication number: JP6791356B2
Application number: JP2019506918A
Authority: JP
Inventors: 太介三井; 井上　貴之; 貴之井上
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2017-03-24
Filing date: 2017-03-24
Publication date: 2020-11-25
Anticipated expiration: 2037-03-24
Also published as: JPWO2018173293A1; WO2018173293A1; US20190392832A1; US11302318B2

Description

本発明は、音声端末、音声コマンド生成システム、及び音声コマンド生成システムの制御方法に関する。

下記特許文献１には、車両内のドライバーと、車両外の通話相手とが、音声端末を用いて通話を行う技術が開示されている。また、通話相手が、音声コマンドにより通話音声の音質や音量を調整する技術が開示されている。

特開２００８−２８８８５号公報

従来の音声端末では、通話相手が音声コマンドで操作を行う際に、会話とは関係の無い通話相手の音声が、ドライバーに届いてしまうため、両者の会話の妨げになってしまっていた。

本発明は、上記問題点に鑑みてなされたものであり、その目的は、音声コマンドで操作する際の音声を、通話相手側に送信しない構成を実現することである。

本開示に係る音声端末は、音データを取得し、前記音データを出力する出力制御部と、前記出力制御部内の前記音データの伝達を遅延させた状態で、前記音データについての音声認識を行い、前記音声認識の結果に応じて、前記出力制御部の出力を制限する音声認識部と、を含む。

本開示に係る音声コマンド生成システムは、音データを取得し、前記音データを出力する出力制御部と、前記出力制御部内の前記音データの伝達を遅延させた状態で、前記音データにトリガーワードが含まれているか否かを判断し、前記判断の結果に応じて、前記出力制御部の出力を制限するトリガーワード判定部と、前記音データを用いてコマンド信号を生成するサーバーと、を含む。

本開示に係る音声コマンド生成システムの制御方法は、音データを取得し、前記音データを出力する音データ出力ステップと、出力制御部内の前記音データの伝達を遅延させるディレイステップと、前記音データにトリガーワードが含まれているか否かを判断するトリガーワード有無判定ステップと、前記判断の結果に応じて、前記出力制御部の出力を制限するミュートステップと、を含む。

図１は第１の実施形態に係る音声コマンド生成システムの概念図である。図２は第１の実施形態、及び第２の実施形態に係る第１の音声端末の制御方法を示すフローチャートである。図３は第１の実施形態、及び第２の実施形態に係る第１の音声端末の無音声圧縮方法を示すフローチャートである。図４は第２の実施形態に係る音声コマンド生成システムの概念図である。図５は第２の実施形態における第１の音声端末の音声認識ステップを示すフローチャートである。

［第１の実施形態］
本開示の第１の実施形態について、図面を用いて以下に説明する。

［音声コマンド生成システム３００］
図１は、本実施形態に係る音声コマンド生成システム３００の概念図である。音声コマンド生成システム３００は、図１に示すように、通信機器１９０に接続された第１の音声端末１００と、通信機器２９０に接続された第２の音声端末２００とを含む。第１の音声端末１００と第２の音声端末２００は、異なる会議室などに配置されている。第１の音声端末１００と第２の音声端末２００は、ネットワーク４００を介して各種信号の送受信を行う。

ここで、音声コマンド生成システム３００は、例えば音声会議システムとして用いられる。なお、音声会議システムは、必ずしも会議に用いられる必要はなく、異なる場所にいる複数のユーザーが、互いにコミュニケーションをとるために用いることができるシステムであればよい。

［ネットワーク４００］
ネットワーク４００は、Ｗｉ−Ｆｉ（Wireless-Fidelity、登録商標）などの無線ＬＡＮ（Local Area Network）、有線ＬＡＮ、ＷＡＮ（Wide Area Network）などを含み、第１の音声端末１００と第２の音声端末２００との間の信号伝達経路として利用される。

［第１の音声端末１００］
第１の音声端末１００は、第１の音声端末１００が配置された会議室にいる発話者の音声を収音し、アナログ音データを生成する収音部１１０を有する。収音部１１０により生成されたアナログ音データは、ＡＤコンバーター１２０に送信され、ＡＤコンバーター１２０にて、デジタル音データに変換される。デジタル音データは、第１の音声端末１００に含まれる、音声認識部１３０、音声制御部１４０、及び音声判定部１５０に送信される。なお、第１の音声端末１００が収音部１１０を含まず、第１の音声端末１００の外部に配置された収音部１１０と接続される構成としても構わない。

［音声認識部１３０］
音声認識部１３０は、ＡＤコンバーター１２０から送信されたデジタル音データに含まれたトリガーワードの少なくとも最初の一部を受信すると、音声制御部１４０に対して、デジタル音データの出力を遅延させることを指示するディレイ信号を送信する。トリガーワードとは、音データからコマンド信号を生成させることを指示するキーワードである。なお、トリガーワードの最初の一部とは、トリガーワードの最初の音素、音節、単語等である。本実施形態においては、音声認識部１３０は、ＡＤコンバーター１２０から送信されたデジタル音データに含まれたトリガーワードの最初の音素を受信すると、音声制御部１４０に対して、デジタル音データの出力を遅延させることを指示するディレイ信号を送信する例を説明する。

また、音声認識部１３０は、デジタル音データからコマンド信号を生成するためのコマンド信号生成用データを記憶している。音声認識部１３０は、ＡＤコンバーター１２０より送信されたデジタル音データの認識処理を行い、デジタル音データからテキストデータを生成する。音声認識部１３０は、この音声認識処理により生成したテキストデータと、予め記憶しているコマンド信号生成用データとを用いて、コマンド信号を生成し、このコマンド信号を、各種制御部１７０に送信する。なお、本実施形態においては、音声認識部１３０がコマンド信号生成用データを記憶し、コマンド信号を生成する構成を例に挙げて説明したが、音声認識部１３０外に、コマンド信号を生成する制御部を別途設ける構成としてもよい。

更に、音声認識部１３０は、トリガーワードを受信すると、コマンド音ミュート部１６０に対し、デジタル音データの出力をミュート状態に切り替えるミュート信号を送信する。

［音声制御部１４０］
音声制御部１４０は、音声認識部１３０から送信されたディレイ信号に応じて、ＡＤコンバーター１２０より送信されたデジタル音データの出力を遅らせるディレイ機能を有する。また、音声制御部１４０は、ディレイを行った際、遅らせた分のパケット数に関するディレイ情報を音声判定部１５０に送信する。更に、音声制御部１４０は、音声判定部１５０から送信された無音圧縮指示信号に応じて、無音声部分のディレイパケットを削除し、後述する無音声圧縮を行う。また、音声制御部１４０は、削除したディレイパケットに関するディレイ情報を音声判定部１５０に送信する。音声制御部１４０は、後述するコマンド音ミュート部１６０とともに、出力制御部１４６を構成する。

［音声判定部１５０］
音声判定部１５０は、ＡＤコンバーター１２０より、人の音声に関するデジタル音データが送信されてきているか否かを判定する機能を有する。

音声判定部１５０は、音声制御部１４０より上述したディレイ情報を受信しており、蓄積されたディレイパケット数を適宜更新する。音声判定部１５０は、蓄積されたディレイが残っている状態で、且つＡＤコンバーター１２０から人の音声についてのデジタル音データが送信されてきていない、即ち無音声状態であると判断した場合、音声判定部１５０は、音声制御部１４０に無音声圧縮を指示する無音圧縮指示信号を送信する。

また、コマンド音ミュート部１６０がミュート状態にあり、且つ無音声状態がある一定時間以上経過した場合、コマンド音ミュート部１６０に対して出力をオン状態にするミュート解除信号を送付する。

［コマンド音ミュート部１６０］
コマンド音ミュート部１６０は、音声認識部１３０から送信されてきたミュート信号に応じて、音声制御部１４０から送信されてきたデジタル音データの出力をミュート状態に切り替える。また、コマンド音ミュート部１６０は、音声判定部１５０から送信されてきたミュート解除信号に応じて、音声制御部１４０から送信されてきたデジタル音データの出力をオン状態に切り替える。

コマンド音ミュート部１６０は、上述した音声制御部１４０とともに、出力制御部１４６を構成する。

［通信機器１９０］
通信機器１９０は、コマンド音ミュート部１６０がデジタル音データを出力する場合、ネットワーク４００を介して、第２の音声端末２００に接続された通信機器２９０にデジタル音データを送信する。また、第２の音声端末２００から送信されたデジタル音データを、ネットワーク４００を介して受信し、第１の音声端末１００内のＤＡコンバーター１８０に送信する。

なお、通信機器１９０は、例えば第１の音声端末１００に接続されたパーソナルコンピューター等で構成してもよく、第１の音声端末１００に内蔵される構成としてもよい。

［ＤＡコンバーター１８０］
ＤＡコンバーター１８０は、第２の音声端末２００から送信されたデジタル音データをアナログ音データに変換する。アナログ音データは、スピーカー１８６より出力され、第１の音声端末１００が配置された会議室にいる参加者が、第２の音声端末２００が配置された会議室にいる発話者の音声を聞くことができる。

なお、スピーカー１８６は、第１の音声端末１００に内蔵される構成としてもよく、第１の音声端末１００に外部接続される構成としてもよい。

［各種制御部１７０］
各種制御部１７０は、音声認識部１３０から送信されてきたコマンド信号を用いて、スピーカー１８６の音量の調整や、収音部１１０における音声入力の受付可否の切り替えを行う等、第１の音声端末１００に対する各種パラメーター制御を行う。

［第２の音声端末２００］
第２の音声端末２００は、第２の音声端末２００が配置された会議室にいる発話者の音声を収音する収音部２１０を有する。収音部２１０により収音された発話者の音データは、ＡＤコンバーター２２０に送信され、ＡＤコンバーター２２０にて、デジタル音データに変換される。デジタル音データは、第２の音声端末２００に接続された通信機器２９０によって、ネットワーク４００を介して第１の音声端末１００に送信される。なお、第２の音声端末２００が収音部２１０を含まず、第２の音声端末２００の外部に配置された収音部２１０と接続される構成としても構わない。

また、通信機器２９０は、第１の音声端末１００から送信されたデジタル音データを、ネットワーク４００を介して受信し、第２の音声端末２００内のＤＡコンバーター２８０に送信する。なお、通信機器２９０は、例えば第２の音声端末２００に接続されたパーソナルコンピューター等で構成してもよく、第２の音声端末２００に内蔵される構成としてもよい。

ＤＡコンバーター２８０は、第１の音声端末１００から送信されたデジタル音データをアナログ音データに変換する。アナログ音データは、スピーカー２８６より出力され、第２の音声端末２００が配置された会議室にいる参加者が、第１の音声端末１００が配置された会議室にいる発話者の音声を聞くことができる。

なお、スピーカー２８６は、第２の音声端末２００が内蔵する構成としてもよく、第２の音声端末２００に外部接続される構成としてもよい。

［第１の音声端末の制御方法］
図２は、本実施形態に係る第１の音声端末１００の制御方法を示すフローチャートである。図３は、本実施形態に係る第１の音声端末１００の無音声圧縮方法を示すフローチャートである。以下、図２、３を用いて、本実施形態に係る第１の音声端末１００の制御方法について説明する。

［収音ステップＳ１０１］
図２に示すように、まず収音ステップＳ１０１が行われる。この収音ステップＳ１０１においては、第１の音声端末１００が配置された会議室にいる発話者の音声を、第１の音声端末１００に含まれる収音部１１０が収音し、アナログ音データを生成することにより行われる。

［デジタル音データ入力ステップＳ１０２］
次に、デジタル音データ入力ステップＳ１０２が行われる。デジタル音データ入力ステップＳ１０２において、収音部１１０により生成されたアナログ音データは、ＡＤコンバーター１２０に送信され、ＡＤコンバーター１２０にて、デジタル音データに変換される。

ＡＤコンバーター１２０から送信されたデジタル音データは、第１の音声端末１００に含まれる、音声認識部１３０、音声制御部１４０、及び音声判定部１５０に入力される。

［トリガーワードの最初の音素の有無判定ステップＳ１０３］
次に、トリガーワードの最初の音素の有無判定ステップＳ１０３が行われる。トリガーワードとは、音声認識部１３０に、デジタル音データからコマンド信号を生成させるためのキーワードであり、例えば、「ＯＫ，（機器名）」や、「Ｈｅｙ，（機器名）」などが挙げられる。トリガーワードが「ＯＫ，（機器名）」（音素の並び：ＯＷＫＥＹ）の場合は「ＯＷ」が、トリガーワードが「Ｈｅｙ，（機器名）」（音素の並び：ＨＨＥＹ）の場合「ＨＨ」が、トリガーワードの最初の音素となる。

まず、音声認識部１３０は、受信したデジタル音データをテキストデータに変換する。即ち、音声認識部１３０は、デジタル音データの音声認識を行う。その結果、音声認識部１３０が、受信したデジタル音データから生成したテキストデータの中に、トリガーワードの最初の音素を認識した場合、音声認識部１３０は、音声制御部１４０に対して、デジタル音データの出力を遅延させることを指示するディレイ信号を送信する。このディレイ信号の送信により、制御フローは次のディレイステップＳ１０４に移行する。なお、音声認識部１３０がトリガーワードの最初の音素を認識しなかった場合、フローはデジタル音データ出力ステップＳ１１５に移行し、ＡＤコンバーター１２０から出力されたデジタル音データが、音声制御部１４０から出力される。

なお、本実施形態においては、音声認識部１３０が、デジタル音データから生成したテキストデータの中から、トリガーワードの最初の音素が含まれているか否かを判断する例を示したが、本開示はこの例に限定されない。例えば、音声認識部１３０が、トリガーワードの二つ目の音素までが、デジタル音データに含まれているか否かを判断する方法としてもよく、あるいは、音声認識部１３０が、トリガーワードに含まれる特定の音節、単語が、デジタル音データに含まれているか否かを判断する方法としてもよい。

［ディレイステップＳ１０４］
次に、ディレイステップＳ１０４が行われる。音声制御部１４０は、トリガーワードの最初の音素を認識した音声認識部１３０から送信されたデジタル音データの出力を遅延させることを指示するディレイ信号を受信する。このディレイ信号を受信した音声制御部１４０は、ＡＤコンバーター１２０から受信したデジタル音データの出力を遅延させた上で、コマンド音ミュート部１６０にデジタル音データを出力する。即ち、音声認識部１３０から送信されたディレイ信号により、出力制御部１４６内のデジタル音データの伝達が遅延される。

また、音声制御部１４０がディレイを行った際、遅らせた分のパケット数に関するディレイ情報を、後述するディレイパケット数送信ステップＳ１１３において、音声判定部１５０に出力する。これにより、音声判定部１５０には、現在どれだけのディレイが生じているのかを認識することができる。

［トリガーワードの有無判定ステップＳ１０５］
上述したトリガーワードの最初の音素の有無判定ステップＳ１０３において、音声認識部１３０が、トリガーワードの最初の音素がデジタル音データに含まれていると判断したとしても、最初の音素だけがトリガーワードと共通した、トリガーワード以外の音声が発話者から発せられている可能性がある。従って、このトリガーワードの有無判定ステップＳ１０５においては、音声認識部１３０が、トリガーワードの最初の音素のみならず、実際にトリガーワードが発せられたか否かを判定する。

音声認識部１３０が、デジタル音データから生成したテキストデータの中から、トリガーワードを認識した場合、音声認識部１３０は、コマンド音ミュート部１６０に対し、デジタル音データの出力をミュート状態にさせるミュート信号を送信する。その後、制御フローはミュートステップＳ１０６に移行する。

また、音声認識部１３０が、デジタル音データから生成したテキストデータの中から、トリガーワードを認識しなかった場合は、音声認識部１３０は、音声制御部１４０に対して、ディレイを停止することを指示するディレイ停止信号を送信し、制御フローはディレイ停止ステップＳ１１２に移行する。

本実施形態においては、まず音声認識部１３０がトリガーワードを認識した場合のミュートステップＳ１０６について説明し、ディレイ停止ステップＳ１１２については後述する。

［ミュートステップＳ１０６］
ミュートステップＳ１０６においては、コマンド音ミュート部１６０が、音声認識部１３０から、デジタル音データの出力のミュート状態にさせる制御信号であるミュート信号を受信する。このミュート信号を受信したコマンド音ミュート部１６０は、音声制御部１４０から送信されてきたデジタル音データの出力をミュート状態とする。ミュート状態とする方法としては適宜選択すればよく、例えば出力をオフ状態にする、又はコマンド音ミュート部１６０にキャッシュされているデジタル音データを削除するなどを行うことができる。

このような制御方法とすることにより、発話者が、音声コマンドで操作する際の音声を、通話相手側、即ち第２の音声端末２００に送信しない構成を実現することができる。

このミュートステップＳ１０６の後、制御フローは蓄積ディレイ削除ステップＳ１０７に移行する。

［蓄積ディレイ削除ステップＳ１０７］
蓄積ディレイ削除ステップＳ１０７においては、音声制御部１４０が、デジタル音データ出力のディレイを停止し、ミュート状態となっているコマンド音ミュート部１６０に対して、デジタル音データの出力を開始する。更に、音声制御部１４０が、ディレイステップＳ１０４からディレイさせていたデジタル音データをすべて削除する。

このような制御方法とすることにより、ディレイステップＳ１０４から蓄積されてきたディレイを削除することができ、後述するミュート解除ステップＳ１１１後の発話者の音データを、第２の音声端末２００に対してリアルタイムに近い状態で伝えることが可能となる。

［コマンド音声認識ステップＳ１０８］
次に、制御フローは、コマンド音声認識ステップＳ１０８に移行する。

音声認識部１３０は、ＡＤコンバーター１２０より送信されたデジタル音データの認識処理を行い、デジタル音データからテキストデータを生成する。音声認識部１３０は、この音声認識処理により生成したテキストデータと、予め記憶しているコマンド信号生成用データとを用いて、コマンド信号を生成する。

コマンド信号生成用データは、複数の音素（又は音節、単語）に関するデータと、コマンド信号と複数の音素（又は音節、単語）の並びとを対応付けるデータとを含む。音声認識部１３０は、デジタル音データから生成したテキストデータの音素解析（又は音節解析、単語解析）を行い、この音素解析から得られた音素（又は音節、単語）の並びと一致する、又は類似するデータをコマンド信号生成用データの中から抽出し、これに対応付けられたコマンド信号を生成する。

音声認識部１３０が生成するコマンド信号は、例えば、スピーカー１８６の音量の調整や、収音部１１０における音声入力の受付可否の切り替えを、各種制御部１７０に対して指示する信号等である。音声認識部１３０は、生成したコマンド信号を、各種制御部１７０に送信する。

コマンド信号を受信した各種制御部１７０は、音声認識部１３０から送信されてきたコマンド信号を用いて、スピーカー１８６の音量の調整や、収音部１１０における音声入力の受付可否の切り替え等を行うなど、第１の音声端末１００のパラメーター制御を行う。

［コマンド音声認識完了判定ステップＳ１０９］
コマンド音声認識完了判定ステップＳ１０９においては、音声認識部１３０又は音声判定部１５０が、発話者からの音声コマンドの入力が完了又は途中で終了したか否かを判定する。

第１の例としては、音声認識部１３０が、ＡＤコンバーター１２０から受信したデジタル音データが、予め用意されているコマンド信号生成用データと一致すると判断した時に、音声認識部１３０が、音声コマンドの入力が完了したと判定する。この時、制御フローは、第１の音声端末制御ステップＳ１１０、及びミュート解除ステップＳ１１１に移行する。

第２の例としては、音声判定部１５０が、ＡＤコンバーター１２０からのデジタル音データが送信されてこない状態、即ち無音声状態が一定時間以上継続したと判断した場合には、音声判定部１５０が、発話者からの音声コマンドの入力が途中で終了したと判断し、制御フローは、ミュート解除ステップＳ１１１に移行する。

音声認識部１３０及び音声判定部１５０が、発話者からの音声コマンドの入力が完了又は途中で終了したと判断していない状態においては、制御フローはコマンド音声認識ステップＳ１０８に戻り、音声認識部１３０による音声認識が継続される。

［第１の音声端末制御ステップＳ１１０］
第１の音声端末制御ステップＳ１１０においては、コマンド信号を受信した各種制御部１７０が、コマンド信号に応じた処理を行う。

例えば、音声認識部１３０から送信されたコマンド信号に応じて、スピーカー１８６の音量の調整や、収音部１１０における音声入力の受付可否の切り替えを行う。

［ミュート解除ステップＳ１１１］
ミュート解除ステップにおいては、音声判定部１５０又は音声認識部１３０が、ミュートステップＳ１０６よりミュート状態にある、コマンド音ミュート部１６０のミュートを解除するミュート解除信号を送信する。これは、発話者からの音声コマンドの入力が終了したと判断した音声判定部１５０又は音声認識部１３０が、コマンド音ミュート部１６０のミュートを解除することにより、その後の発話者からの音声に関するデジタル音データを、第２の音声端末２００に向けて出力することができるようになる。

この、第１の音声端末制御ステップＳ１１０とミュート解除ステップＳ１１１を経て、制御フローは終了し、収音ステップＳ１０１に戻る。

［ディレイ停止ステップＳ１１２］
次に、ディレイ停止ステップＳ１１２について説明する。上述したトリガーワードの有無判定ステップＳ１０５において、音声認識部１３０が、デジタル音データの中からトリガーワードを認識しなかった場合、音声認識部１３０は、音声制御部１４０に対して、ディレイを停止することを指示するディレイ停止信号を送信する。

即ち、デジタル音データの中にトリガーワードが含まれていなかった場合には、第２の音声端末２００とのリアルタイムに近い音声会議を実現するために、ディレイステップＳ１０４から継続している音声制御部１４０のディレイを停止する。

［ディレイパケット数送信ステップＳ１１３］
次に、音声制御部１４０は、ディレイパケット数送信ステップＳ１１３を実行する。このディレイパケット数送信ステップＳ１１３においては、上述したディレイ停止ステップＳ１１２においてディレイを停止した音声制御部１４０が、ディレイステップＳ１０４からディレイ停止ステップＳ１１２までのディレイパケット数Ｄｐｎに関するディレイ情報を音声判定部１５０に送信する。

［総ディレイパケット更新ステップＳ１１４］
次に、総ディレイパケット更新ステップＳ１１４において、ディレイパケット数Ｄｐｎに関するディレイ情報を受信した音声判定部１５０は、総ディレイパケット数ＤｐにＤｐｎを加算し、総ディレイパケット数Ｄｐを更新する。

［デジタル音データ出力ステップＳ１１５］
音声制御部１４０から出力されたデジタル音データは、コマンド音ミュート部１６０を通過し、通信機器１９０に送信される。通信機器１９０は、ネットワーク４００を介して、通信機器２９０にデジタル音データを送信する。通信機器２９０は、第１の音声端末１００から送信されたデジタル音データを、ネットワーク４００を介して受信し、第２の音声端末２００内のＤＡコンバーター２８０に送信する。ＤＡコンバーター２８０は、第１の音声端末１００から送信されたデジタル音データをアナログ音データに変換する。アナログ音データは、スピーカー２８６より出力され、第２の音声端末２００が配置された会議室にいる参加者が、第１の音声端末１００が配置された会議室にいる発話者の音声を聞くことができる。

この、デジタル音データ出力ステップＳ１１５を経て、制御フローは終了し、収音ステップＳ１０１に戻る。

なお、以下に説明する無音声圧縮方法を利用することにより、第１の音声端末１００と第２の音声端末２００との間における音データ通信を、更にリアルタイムに近づけることが可能となる。

［無音声圧縮方法］
以下、図３を用いて、本開示の第１の音声端末１００における無音声圧縮方法について説明する。この無音声圧縮フローは、図２に示したデジタル音データ入力ステップＳ１０２とトリガーワードの最初の音素の有無判定ステップＳ１０３との間に含めることができる。

［総ディレイパケット数判定ステップＳ２０１］
デジタル音データ入力ステップＳ１０２の後に、音声判定部１５０は、総ディレイパケット数判定ステップＳ２０１を行う。

この総ディレイパケット数判定ステップＳ２０１において、音声判定部１５０は、現時点での総ディレイパケット数が０よりも大きいか否かを判定する。

総ディレイパケット数が０の場合、無音声圧縮を行う必要はないため、制御フローは、図２を用いて上述した、トリガーワードの最初の音素の有無判定ステップＳ１０３に移行する。

総ディレイパケット数が０より大きい場合、制御フローは音声有無判定ステップＳ２０２に移行する。

［音声有無判定ステップＳ２０２］
音声有無判定ステップＳ２０２においては、音声判定部１５０が、デジタル音データについて周波数分析を行うことにより、単なる雑音と人の声とを判別し、人の音声が発せられたか否かを判定する。具体例としては、音声判定部１５０は、デジタル音データを時間領域から周波数領域に変換し、人の声の周波数として適切な所定の範囲内（例えば０．２ｋＨｚ〜４ｋＨｚ）に含まれるデジタル音データを人の声と判断し、所定の範囲に含まれないデジタル音データは雑音であると判断する。

デジタル音データに人の音声が含まれている場合、無音声圧縮を行うことができないため、制御フローはトリガーワードの最初の音素の有無判定ステップＳ１０３に移行する。

デジタル音データに人の音声が含まれていない場合、無音声圧縮を実行することが可能であるため、制御フローは、無音声部分パケット削除ステップＳ２０３に移行する。

［無音声部分パケット削除ステップＳ２０３］
無音声部分パケット削除ステップＳ２０３において、音声判定部１５０は、音声制御部１４０に無音声圧縮を指示する無音圧縮指示信号を送信する。この無音圧縮指示信号を受信した音声制御部１４０は、この無音圧縮指示信号に応じて、無音声部分のパケットを削除する。無音性部分のパケットを削除した音声制御部１４０は、音声判定部１５０に、削除したディレイパケット数Ｄｐｍに関するディレイ情報を送信する。

［総ディレイパケット数更新ステップＳ２０４］
音声制御部１４０から、削除されたディレイパケット数Ｄｐｍに関するディレイ情報を受け取った音声判定部１５０は、総ディレイパケット数更新ステップＳ２０４を行う。総ディレイパケット数更新ステップＳ２０４において、音声判定部１５０は、総ディレイパケット数ＤｐからＤｐｍを減算し、総ディレイパケット数Ｄｐを更新する。

その後、制御フローはデジタル音データ入力Ｓ１０２へと移行する。その後、総ディレイパケット数判定ステップＳ２０１において、総ディレイパケット数が０と判断されるか、音声有無判定ステップＳ２０２において、デジタル音データに人の音声が含まれていると判断されるまで、デジタル音データ入力Ｓ１０２から総ディレイパケット数更新ステップＳ２０４までのフローが繰り返される。

［第２の実施形態］
本開示の第２の実施形態について、図面を用いて以下に説明する。なお、第１の実施形態と同様の構成については、同じ符号を付して、その説明を省略する。

［音声コマンド生成システム３００Ａ］
図４は、本実施形態に係る音声コマンド生成システム３００Ａの概念図である。音声コマンド生成システム３００Ａに含まれる第１の音声端末１００Ａは、音声認識部１３０の代わりに、トリガーワード判定部５１０、ネットワーク通信部５２０を含み、音声コマンド生成システム３００Ａは、サーバー５３０を備えている。また、ＡＤコンバーター１２０から出力されるデジタル音データは、音声制御部１４０、音声判定部１５０、トリガーワード判定部５１０、及びネットワーク通信部５２０に送信される。

［トリガーワード判定部５１０］
トリガーワード判定部５１０は、ＡＤコンバーター１２０から送信されたデジタル音データに含まれたトリガーワードの少なくとも最初の一部を受信すると、音声制御部１４０に対して、デジタル音データの出力を遅延させることを指示するディレイ信号を送信する。

また、トリガーワード判定部５１０は、トリガーワードを受信すると、コマンド音ミュート部１６０に対し、音声制御部１４０から送信されるデジタル音データの出力をミュート状態に切り替えるミュート信号を送信する。

更に、トリガーワード判定部５１０は、トリガーワードを受信すると、ネットワーク通信部５２０に対し、トリガーワードの後に発せられたコマンド音声に関するデジタル音データをサーバー５３０へ送信することを指示する制御信号を送信する。

なお、トリガーワード判定部５１０は、デジタル音データからコマンド信号を生成するためのコマンド信号生成用データを記憶している必要はない。即ち、本実施形態においては、トリガーワード判定部５１０は、トリガーワードの有無を判定するために、デジタル音データをテキストデータに変換する音声認識処理を行うが、この音声認識処理により生成したテキストデータを用いて、コマンド信号の生成を行う必要はない。

なお、このトリガーワード判定部５１０が、音声認識処理自体を行わず、後述するサーバー５３０が音声認識処理を行い、トリガーワード判定部５１０は、サーバー５３０が音声認識処理により生成したテキストデータをネットワーク通信部５２０を介して取得し、当該テキストデータを用いて、トリガーワードの有無を判定する構成としてもよい。

［ネットワーク通信部５２０］
ネットワーク通信部５２０は、ＡＤコンバーター１２０から受信したコマンド音声に関するデジタル音データ（トリガーワード判定部５１０が音声認識処理を行う場合は、デジタル音データから生成されたテキストデータ）を、第１の音声端末１００Ａの外部に設けられたサーバー５３０に送信する。

また、ネットワーク通信部５２０は、サーバー５３０から送信されてきたコマンド信号を受信し、そのコマンド信号を各種制御部１７０に送信する。なお、サーバー５３０との接続は、有線・無線どちらの形態でも構わない。

［サーバー５３０］
サーバー５３０は、クラウドサーバー、社内サーバーなどであり、デジタル音データからコマンド信号を生成するためのコマンド信号生成用データを記憶する。

サーバー５３０は、ネットワーク通信部５２０より送信されたデジタル音データを受信し、当該デジタル音データの音声認識処理を行い、テキストデータを生成する。なお、トリガーワード判定部５１０が音声認識処理を行う場合は、トリガーワード判定部５１０により生成されたテキストデータを、ネットワーク通信部５２０を介して取得する。

サーバー５３０は、上述したコマンド信号生成用データと、デジタル音データより生成されたテキストデータとを用いて、コマンド信号を生成し、このコマンド信号を、ネットワーク通信部５２０に送信する。

このように、コマンド信号生成機能を有するサーバー５３０を利用した構成とすることにより、トリガーワード判定部５１０がコマンド信号生成用データを記憶せず、コマンド信号を生成しない構成を実現することができる。

なお、本実施形態においては、トリガーワード判定部５１０が、第１の音声端末１００Ａに含まれる構成を例に挙げて説明したが、サーバー５３０側にトリガーワード判定部５１０が含まれる構成としてもよい。サーバー５３０側にトリガーワード判定部５１０が含まれる場合、トリガーワード判定部５１０は、ネットワーク通信部５２０を介して、第１の音声端末１００に含まれる各部と、音データ及び各種信号の送受信を行う。

［第１の音声端末１００Ａの制御方法］
本実施形態における第１の音声端末１００Ａの制御方法が、第１の実施形態と異なるのは、図２に示したコマンド音声認識ステップＳ１０８の部分である。それ以外のステップについては、図２、図３を用いて第１の実施形態において上述した通りであるため、その説明を割愛する。

なお、第１の実施形態において説明した、デジタル音データ入力ステップＳ１０２からミュートステップＳ１０６までのステップ、コマンド音声認識完了判定ステップＳ１０９、及びディレイ停止ステップＳ１１２において、音声認識部１３０が行う制御は、第２の実施形態においてはトリガーワード判定部５１０が行う。また、第１の実施形態における第１の音声端末制御ステップＳ１１０の、「音声認識部１３０から送信されたコマンド信号」との表現は、第２の実施形態においては、「ネットワーク通信部５２０から送信されたコマンド信号」に読み替えるものとする。

本実施形態においては、このコマンド音声認識ステップＳ１０８が、図５に示す５つのステップによって行われる。本実施形態における第１の音声端末１００Ａの音声認識ステップを示すフローチャートである。以下、図５を用いて、本実施形態における第１の音声端末１００Ａの音声認識ステップについて説明する。

［ネットワーク通信部へのデジタル音データ送信ステップＳ３０１］
トリガーワード判定部５１０は、ＡＤコンバーター１２０から受信したデジタル音声データの中にトリガーワードが含まれていると判断すると、ネットワーク通信部５２０へのデジタル音データ送信ステップＳ３０１を行う。このステップにおいて、トリガーワード判定部５１０は、ネットワーク通信部５２０に対し、トリガーワードの後に発せられたコマンド音声に関するデジタル音データをサーバー５３０へ送信することを指示する制御信号を送信する。なお、トリガーワード判定部５１０が音声認識を行う場合は、このステップＳ３０１において、トリガーワード判定部５１０が、デジタル音データから生成したテキストデータをネットワーク通信部５２０へ送信する。

［サーバーへのデジタル音データ送信ステップＳ３０２］
次に、ネットワーク通信部５２０が、サーバーへのデジタル音データ送信ステップＳ３０２を行う。ネットワーク通信部５２０は、ネットワーク４００を介して、サーバー５３０にコマンド音声に関するデジタル音データを送信する。

［コマンド信号生成ステップＳ３０３］
ネットワーク通信部５２０から、コマンド音声に関するデジタル音データを受信したサーバー５３０は、コマンド信号生成ステップＳ３０３を行う。

サーバー５３０は、クラウドサーバー、社内サーバーなどであり、デジタル音データからコマンド信号を生成するためのコマンド信号生成用データを記憶している。

サーバー５３０は、ネットワーク通信部５２０より送信されたデジタル音データを受信し、当該デジタル音データについての音声認識処理を行い、テキストデータを生成する。なお、トリガーワード判定部５１０が音声認識処理を行う場合は、トリガーワード判定部５１０により生成されたテキストデータを、ネットワーク通信部５２０を介して取得する。サーバー５３０は、上述したコマンド信号生成用データと、デジタル音データより生成されたテキストデータとを用いて、コマンド信号を生成する。

その後、制御フローは、ネットワーク通信部へのコマンド信号送信ステップＳ３０４へ移行する。

［ネットワーク通信部へのコマンド信号送信ステップＳ３０４］
デジタル音データから生成されたテキストデータを用いて、コマンド信号を生成したサーバー５３０は、コマンド信号を、ネットワーク４００を介してネットワーク通信部５２０に送信する。

その後、制御フローは、各種制御部へのコマンド信号送信ステップＳ３０５へ移行する。

［各種制御部へのコマンド信号送信ステップＳ３０５］
ネットワーク４００を介してコマンド信号を受信したネットワーク通信部５２０は、各種制御部１７０へ、コマンド信号を送信する。

コマンド信号を受信した各種制御部１７０は、サーバー５３０から送信されてきたコマンド信号を用いて、スピーカー１８６の音量の調整や、収音部１１０における音声入力の受付可否の切り替え等を行うなど、第１の音声端末１００のパラメーター制御を行う。

その後、制御フローは、第１の実施形態において説明した、コマンド音声認識完了判定ステップＳ１０９に移行する。

１００第１の音声端末、１００Ａ第１の音声端末、１１０収音部、１２０ＡＤコンバーター、１３０音声認識部、１４０音声制御部、１４６出力制御部、１５０音声判定部、１６０コマンド音ミュート部、１７０各種制御部、１８０ＤＡコンバーター、１８６スピーカー、１９０通信機器、２００第２の音声端末、２１０収音部、２２０ＡＤコンバーター、２８０ＤＡコンバーター、２８６スピーカー、２９０通信機器、３００音声コマンド生成システム、３００Ａ音声コマンド生成システム、４００ネットワーク、５１０トリガーワード判定部、５２０ネットワーク通信部、５３０サーバー、Ｓ１０１収音ステップ、Ｓ１０２デジタル音データ入力ステップ、Ｓ１０３トリガーワードの最初の音素の有無判定ステップ、Ｓ１０４ディレイステップ、Ｓ１０５トリガーワードの有無判定ステップ、Ｓ１０６ミュートステップ、Ｓ１０７蓄積ディレイ削除ステップ、Ｓ１０８コマンド音声認識ステップ、Ｓ１０９コマンド音声認識完了判定ステップ、Ｓ１１０第１の音声端末制御ステップ、Ｓ１１１ミュート解除ステップ、Ｓ１１２ディレイ停止ステップ、Ｓ１１３ディレイパケット数送信ステップ、Ｓ１１４総ディレイパケット更新ステップ、Ｓ１１５デジタル音データ出力ステップ、Ｓ２０１総ディレイパケット数判定ステップ、Ｓ２０２音声有無判定ステップ、Ｓ２０３無音声部分パケット削除ステップ、Ｓ２０４総ディレイパケット数更新ステップ、Ｓ３０１ネットワーク通信部へのデジタル音データ送信ステップ、Ｓ３０２サーバーへのデジタル音データ送信ステップ、Ｓ３０３コマンド信号生成ステップ、Ｓ３０４ネットワーク通信部へのコマンド信号送信ステップ、Ｓ３０５各種制御部へのコマンド信号送信ステップ。

Claims

音声の入力を受け付け、音データを生成する収音部と、
音データを取得し、前記音データを出力する出力制御部と、
前記音データの伝達を遅延させた状態で、前記音データについての音声認識を行い、前記音声認識の結果に応じて、前記出力制御部の出力を制限する音声認識部と、
を含み、
前記出力制御部は、
前記収音部から出力された前記音データを取得し、出力する音声制御部と、
前記音声制御部から出力された前記音データを取得し、通信機器に前記音データを出力するミュート部と、
を含み、
前記音声認識部は、
前記音声制御部に、前記音データの出力を遅延させるディレイ信号を送信し、
前記ミュート部に、前記音データの出力をミュート状態にするミュート信号を送信する、音声端末。
前記音声認識部は、前記音声認識によりコマンド信号を生成する、
請求項１に記載の音声端末。
前記音声認識部は、前記音データに含まれるトリガーワードの少なくとも最初の一部を認識した場合に前記ディレイ信号を送信し、前記音データに含まれる前記トリガーワードを認識した場合に、前記ミュート信号を送信する、
請求項１に記載の音声端末。
前記トリガーワードの最初の一部は、前記トリガーワードの最初の音素、音節、及び単語の内の少なくともいずれか一つである、
請求項３に記載の音声端末。
前記音データを取得し、前記音データに人の音声が含まれていない無音声状態であるか否かを判断し、前記無音声状態であると判断した場合には、前記音声制御部に無音声圧縮を指示する制御信号を送信する音声判定部を更に備えた、
請求項１乃至４のいずれか一つに記載の音声端末。
前記音声制御部は、前記ディレイ信号を受信すると、前記音データの出力を遅延させ、前記音データのディレイパケットに関するディレイ情報を前記音声判定部に送信する、
請求項５に記載の音声端末。
前記無音声圧縮指示信号を受信した前記音声制御部が、無音声部分の前記ディレイパケットを削除する、
請求項６に記載の音声端末。
前記音声制御部が、削除した前記ディレイパケットに関する前記ディレイ情報を前記音声判定部に送信する、
請求項７に記載の音声端末。
前記音声判定部は、前記ディレイ情報を受信し、蓄積された前記ディレイパケットの数を更新する、
請求項６又は８に記載の音声端末。
前記音声判定部は、蓄積された前記ディレイパケットの数が０の場合には、前記音声制御部に無音声圧縮を指示する前記制御信号を送信しない、
請求項９に記載の音声端末。
前記音声判定部は、前記無音声状態が一定時間以上経過した場合には、前記ミュート部に対して出力をオン状態にするミュート解除信号を送信する、
請求項５乃至１０のいずれか一つに記載の音声端末。
前記音声判定部は、前記音データについて周波数分析を行うことにより、前記音データに人の音声が含まれているか否かを判断する、
請求項５乃至１１のいずれか一つに記載の音声端末。
前記音声認識部が、前記トリガーワードの一部を認識して前記ディレイ信号を送信した後に、前記トリガーワードを認識しなかった場合には、前記音声制御部に前記出力の遅延を停止させるディレイ停止信号を送信する、
請求項３に記載の音声端末。
前記音声認識部は、前記音データから前記コマンド信号を生成するためのコマンド信号生成用データを記憶する、
請求項２に記載の音声端末。
前記コマンド信号生成用データは、複数の音素に関するデータと、前記コマンド信号と複数の前記音素の並びとを対応付けるデータとを含む、
請求項１４に記載の音声端末。
前記音声認識部が、前記コマンド信号を各種制御部に送信する、
請求項２に記載の音声端末。
音声の入力を受け付け、音データを生成する収音部と、
音データを取得し、前記音データを出力する出力制御部と、
前記音データの伝達を遅延させた状態で、前記音データにトリガーワードが含まれているか否かを判断し、前記判断の結果に応じて、前記出力制御部の出力を制限するトリガーワード判定部と、
を含み、
前記出力制御部は、
前記収音部から出力された前記音データを取得し、出力する音声制御部と、
前記音声制御部から出力された前記音データを取得し、通信機器に前記音データを出力するミュート部と、
を含み、
前記トリガーワード判定部は、
前記音声制御部に、前記音データの出力を遅延させるディレイ信号を送信し、
前記ミュート部に、前記音データの出力をミュート状態にするミュート信号を送信する、音声コマンド生成システム。
前記音声コマンド生成システムは、音声会議システムである、
請求項１７に記載の音声コマンド生成システム。
音データを取得し、前記音データを出力し、
前記音データの伝達を遅延させ、
前記音データにトリガーワードが含まれているか否かを判断し、
前記判断の結果に応じて、前記音データの出力をミュート状態にすることで前記出力を制限する、
音声コマンド生成システムの制御方法。