JP2021089310A - Voice operation device, voice operation system and voice operation method - Google Patents
Voice operation device, voice operation system and voice operation method Download PDFInfo
- Publication number
- JP2021089310A JP2021089310A JP2019217954A JP2019217954A JP2021089310A JP 2021089310 A JP2021089310 A JP 2021089310A JP 2019217954 A JP2019217954 A JP 2019217954A JP 2019217954 A JP2019217954 A JP 2019217954A JP 2021089310 A JP2021089310 A JP 2021089310A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- word
- data
- voice data
- recognition engine
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- User Interface Of Digital Computer (AREA)
Abstract
Description
本発明は、音声操作装置、音声操作システムおよび音声操作方法に関する。 The present invention relates to a voice control device, a voice control system, and a voice control method.
乗員の発話を音声認識することにより車載機器を操作する音声操作装置が知られている。また、車載端末とサーバとの間で音声対話を行う音声対話システムが知られている(例えば、特許文献1、2等を参照)。 There is known a voice control device that operates an in-vehicle device by recognizing a voice of an occupant. Further, a voice dialogue system that performs voice dialogue between an in-vehicle terminal and a server is known (see, for example, Patent Documents 1 and 2).
また、ユーザの発話による要求に応じて、タスク又はサービスを行うインテリジェントパーソナルアシスタント(AIアシスタントとも称す)が知られている。 Further, an intelligent personal assistant (also referred to as an AI assistant) that performs a task or a service in response to a request from a user's utterance is known.
AIアシスタント等のような音声認識エンジンを利用してユーザの発話内容を音声認識する場合、ユーザは「Alexa(登録商標)」、「Hey Siri(登録商標)」などのように、
特定の起動ワード(WuW:Wake-up Word)を発した後、「○○して」といった要求を発する必要がある。すなわち、ユーザは、音声入力をする度に起動ワードを発声する必要があり、ユーザビリティが高いとは言えなかった。一方、ユーザによる起動ワードを含まない発話を全て音声認識しようとすると、通信負荷や処理負荷の過度な増加を招いてしまうことが懸念される。
When voice recognition of the user's utterance content using a voice recognition engine such as AI Assistant, the user uses "Alexa (registered trademark)", "Hey Siri (registered trademark)", etc.
After issuing a specific activation word (WuW: Wake-up Word), it is necessary to issue a request such as "○○". That is, the user needs to utter the activation word every time the voice is input, and it cannot be said that the usability is high. On the other hand, if an attempt is made to voice-recognize all utterances that do not include the activation word by the user, there is a concern that the communication load and the processing load will increase excessively.
そこで、本発明の目的は、ユーザが発した発話の音声データを音声認識エンジンに送信し、音声認識エンジンによる音声認識処理結果に基づいて生成された操作コマンドに応じて関連機器を操作する音声操作装置において、通信負荷や処理負荷の過度な増加を抑えつつユーザビリティを高めるための技術を提供することにある。 Therefore, an object of the present invention is a voice operation in which voice data of a speech uttered by a user is transmitted to a voice recognition engine and a related device is operated according to an operation command generated based on a voice recognition processing result by the voice recognition engine. The purpose of the device is to provide a technique for improving usability while suppressing an excessive increase in communication load and processing load.
上記課題を解決するため、本発明は以下の構成を採用する。すなわち、本発明は、ユーザが発した発話の音声データに音声認識エンジンを起動する起動ワードが含まれている場合に少なくとも当該起動ワードに後続する発話を含む音声データを前記音声認識エンジンに送信し、当該音声認識エンジンによる音声認識処理結果に基づいて生成された操作コマンドに応じて関連機器の操作を行う音声操作装置であって、ユーザが発した発話に関する音声データを取得する音声取得部と、前記音声取得部が新たに取得した音声データが起動ワードを含まない起動ワード無し音声データである場合に、前回の操作コマンドに応じて操作した関連機器に関連する操作関連ワードを新たに取得した起動ワード無し音声データから検出する関連ワード検出部と、前記関連ワード検出部が前記起動ワード無し音声データから操作関連ワードを検出した場合に、前記起動ワード無し音声データを前記音声認識エンジンに送信する音声データ送信部と、を備える。 In order to solve the above problems, the present invention adopts the following configuration. That is, the present invention transmits to the voice recognition engine at least the voice data including the speech following the activation word when the voice data of the speech uttered by the user includes an activation word for activating the speech recognition engine. , A voice operation device that operates related devices in response to operation commands generated based on the result of voice recognition processing by the voice recognition engine, and a voice acquisition unit that acquires voice data related to speech made by the user. When the voice data newly acquired by the voice acquisition unit is voice data without a start word that does not include a start word, the start that newly acquires an operation-related word related to the related device operated in response to the previous operation command. When the related word detection unit that detects from the wordless voice data and the related word detection unit detect the operation related word from the activation wordless voice data, the voice that transmits the activation wordless voice data to the voice recognition engine. It includes a data transmission unit.
また、本発明に係る音声操作装置は、前記音声取得部が取得した音声データを記憶する音声記憶部をさらに備え、前記関連ワード検出部は、前記音声記憶部に記憶されている前回の音声データから、関連機器ごとに対応付けて予め定められた機器別関連ワードを検出
することによって前回の操作コマンドに応じて操作した関連機器を特定してもよい。
Further, the voice operation device according to the present invention further includes a voice storage unit that stores voice data acquired by the voice acquisition unit, and the related word detection unit is the previous voice data stored in the voice storage unit. Therefore, the related device operated in response to the previous operation command may be specified by detecting a predetermined device-specific related word associated with each related device.
また、本発明に係る音声操作装置は、前記音声認識エンジンによる音声データの音声認識処理結果に基づいて生成された操作コマンドに関する操作コマンド情報を記憶するコマンド情報記憶部をさらに備え、前記関連ワード検出部は、前記コマンド情報記憶部に記憶されている操作コマンド情報に基づいて前回の操作コマンドに応じて操作した関連機器を特定してもよい。 Further, the voice operation device according to the present invention further includes a command information storage unit that stores operation command information related to the operation command generated based on the voice recognition processing result of the voice data by the voice recognition engine, and detects the related word. The unit may specify the related device operated in response to the previous operation command based on the operation command information stored in the command information storage unit.
また、本発明は音声操作システムとして特定することができる。すなわち、本発明に係る音声操作システムは、上述までの何れかの音声操作装置と、前記音声認識エンジンと、前記音声認識エンジンによる音声データの音声認識処理結果に基づいて前記音声操作装置に送信するための操作コマンドを生成する操作コマンド生成サーバと、を含む。 Further, the present invention can be specified as a voice operation system. That is, the voice operation system according to the present invention transmits to the voice operation device based on any of the above-mentioned voice operation devices, the voice recognition engine, and the voice recognition processing result of the voice data by the voice recognition engine. Includes an operation command generation server that generates operation commands for.
また、本発明は音声操作方法として特定することができる。すなわち、本発明は、ユーザが発した発話の音声データに音声認識エンジンを起動する起動ワードが含まれている場合に少なくとも当該起動ワードに後続する発話を含む音声データを前記音声認識エンジンに送信し、当該音声認識エンジンによる音声認識処理結果に基づいて生成された操作コマンドに応じて関連機器の操作を音声操作装置が実行する音声操作方法であって、ユーザが発した発話に関する音声データを取得する音声取得工程と、前記音声取得工程で新たに取得した音声データが起動ワードを含まない起動ワード無し音声データである場合に、前回の操作コマンドに応じて操作した関連機器に関連する操作関連ワードを新たに取得した起動ワード無し音声データから検出する関連ワード検出工程と、前記関連ワード検出工程において前記起動ワード無し音声データから操作関連ワードを検出した場合に、前記起動ワード無し音声データを前記音声認識エンジンに送信する音声データ送信工程と、を含む。なお、上述の音声操作方法は、上述した各工程に係る処理を、音声操作装置のコンピュータが実行する。 Further, the present invention can be specified as a voice operation method. That is, the present invention transmits to the voice recognition engine at least the voice data including the speech following the activation word when the voice data of the speech uttered by the user includes an activation word for activating the speech recognition engine. , A voice operation method in which the voice operation device executes the operation of the related device in response to the operation command generated based on the voice recognition processing result by the voice recognition engine, and acquires the voice data related to the speech uttered by the user. When the voice acquisition process and the voice data newly acquired in the voice acquisition process are voice data without a start word that does not include a start word, operation-related words related to the related device operated in response to the previous operation command are displayed. When the related word detection step of detecting from the newly acquired voice data without activation word and the operation related word are detected from the voice data without activation word in the related word detection step, the voice data without activation word is recognized by the voice. Includes a voice data transmission process to be transmitted to the engine. In the above-mentioned voice operation method, the computer of the voice operation device executes the processing related to each of the above-mentioned steps.
また、本発明は、音声操作方法における各工程に係る処理をコンピュータに実行させるためのプログラムであってもよい。また、本発明は、上記プログラムをコンピュータが読取可能であって非一時的に記憶した記憶媒体であってもよい。 Further, the present invention may be a program for causing a computer to execute a process related to each step in the voice operation method. Further, the present invention may be a storage medium in which the program can be read by a computer and stored non-temporarily.
本発明によれば、ユーザが発した発話の音声データを音声認識エンジンに送信し、音声認識エンジンによる音声認識処理結果に基づいて生成された操作コマンドに応じて関連機器を操作する音声操作装置において、通信負荷や処理負荷の過度な増加を抑えつつユーザビリティを高めるための技術を提供できる。 According to the present invention, in a voice operation device that transmits voice data of a speech uttered by a user to a voice recognition engine and operates a related device in response to an operation command generated based on the voice recognition processing result by the voice recognition engine. , It is possible to provide a technique for improving usability while suppressing an excessive increase in communication load and processing load.
<実施形態1>
以下、図面を参照して本発明の実施の形態について例示的に説明する。
<Embodiment 1>
Hereinafter, embodiments of the present invention will be exemplified with reference to the drawings.
図1は、実施形態1に係る音声操作システム100の概略構成図である。図1に示すように、音声操作システム100は、音声操作装置10、音声認識エンジン30、コマンド生成サーバ50を含んで構成されている。音声操作装置10、音声認識エンジン30、コマンド生成サーバ50は、通信回線Nを介して互いに通信可能に接続されている。通信回線Nは、例えば、インターネット等の通信ネットワークである。また、通信回線Nは、少なくとも一部がWiFiやLTE等の無線通信方式を用いた回線であってもよい。本実施形態では、多数の音声操作装置10が通信回線Nを介して音声認識エンジン30、コマンド生成サーバ50に接続されている。
FIG. 1 is a schematic configuration diagram of the
音声操作装置10は、車両1に搭載された車載機であり、車両1に搭載されている各種の関連機器2を音声入力によって操作するための制御装置である。音声操作装置10は、例えば、AVN機(車載用オーディオ・ビジュアル・ナビゲーション一体機)の一部を構成していてもよい。関連機器2(図2を参照)は、音声操作装置10による操作対象となる機器であり、例えば、エアコンディショナ(エアコン)2A、オーディオ機器2B、ヘッドライト(照明装置)2C等が例示できる。但し、関連機器2は、上記例示に限られず、ワイパー、ウィンカー、パワーウィンドウ、車両1のドアロック装置等が関連機器2に含まれていてもよい。
The
音声操作装置10は、車載ネットワーク(CAN、LINなど)を介して各関連機器2と接続されている。例えば、音声操作装置10は、車両1に乗車するユーザ(発話者)の発話内容に応じて各関連機器2を制御する。また、車両1には、マイクロフォン(マイク)3やスピーカ4が設けられており、これらと音声操作装置10は車載ネットワークを介して接続されている。なお、車両1に設けられるマイクロフォン3、スピーカ4の位置、設置数については特に限定されない。
The
図2は、実施形態1に係る音声操作装置10のハードウェア構成図である。音声操作装置10は、接続バス11によって相互に接続されたプロセッサ12、メモリ13、入出力IF(インターフェース)14、通信IF(インターフェース)15を有するコンピュータである。プロセッサ12は、入力された情報を処理し、処理結果を出力することにより、装置全体の制御を行う中央処理演算装置である。プロセッサ12は、CPU(Central Processing Unit)や、MPU(Micro-processing unit)とも呼ばれる。プロセッサ12は、単一のプロセッサに限られず、マルチプロセッサ構成であってもよい。また、単一のソケットで接続される単一のチップ内に複数のコアを有したマルチコア構成であってもよい。
FIG. 2 is a hardware configuration diagram of the
メモリ13は、例えば主記憶装置と補助記憶装置とを含む。主記憶装置は、プロセッサ12の作業領域、プロセッサ12で処理される情報を一時的に記憶する記憶領域、通信データのバッファ領域として使用される。主記憶装置は、プロセッサ12がプログラムやデータをキャッシュしたり、作業領域を展開したりするための記憶媒体である。主記憶装置は、例えば、RAM(Random Access Memory)やROM(Read Only Memory)、フラッシュメモリを含む。補助記憶装置は、プロセッサ12により実行されるプログラムや、情報
処理に用いられるデータ、動作の設定情報などを記憶する記憶媒体である。補助記憶装置は、例えば、HDD(Hard-disk Drive)やSSD(Solid State Drive)、EPROM(Erasable Programmable ROM)、フラッシュメモリ、USBメモリ、メモリカード等であ
る。また、メモリ13における補助記憶装置には、音声操作装置10の各処理部が参照するデータの格納先として、音声認識辞書DBを備える。
The
入出力IF14は、音声操作装置10に接続される各関連機器2との間でデータの入出力を行うインターフェースである。音声操作装置10は、例えば、入出力IF14を介し、マイクロフォン3やスピーカ4等に接続されている。マイクロフォン3は、車両1の乗員等の発する音声(発話)が入力される入力デバイスである。マイクロフォン3から入力された情報は、接続バス11を介してプロセッサ12に通知される。スピーカ4は、プロセッサ12等で処理された音声データが音声として出力される出力デバイスである。
The input / output IF 14 is an interface for inputting / outputting data to / from each related device 2 connected to the
通信IF15は、通信回線Nを介して他装置との通信を行うインターフェースである。通信IF15は、例えば、WiMAX(Worldwide Interoperability for Microwave Access)やLTE(Long Term Evolution)、WiFi、ブルートゥース(登録商標)等の無線通信方式で通信を行ってもよい。 The communication IF 15 is an interface for communicating with another device via the communication line N. The communication IF15 may perform communication by a wireless communication method such as WiMAX (Worldwide Interoperability for Microwave Access), LTE (Long Term Evolution), WiFi, or Bluetooth (registered trademark).
具体的な処理内容は後述するが、音声操作装置10は、車両1の乗員(ユーザ、発話者)が発した発話の音声データ(発話データ)に音声認識エンジン30を起動する所定の起動ワードが含まれている場合に少なくとも当該起動ワードに後続する発話を含む音声データを音声認識エンジン30に送信し、当該音声認識エンジン30による音声認識処理結果に基づいて生成された操作コマンドを取得し、取得した操作コマンドに応じて関連機器2の操作を行う。起動ワードは、音声認識エンジン30等に対応付けて予め定められた特定のワードであり、例えば待機状態にある音声認識エンジン30を起動させるために音声操作装置10から音声データを送信するトリガとなる。起動ワードは、WuW(Wake Up Word)、ウェイクアップワード、ウェイクワードとも称される場合がある。このような起動ワードは、例えば「Alexa(登録商標)」、「Hey Siri(登録商標)」等が例示できる。
なお、本明細書において、「起動ワード」は、1つの単語に限られず、複数の単語を含むターム、フレーズ等であってもよい。また、「起動ワード」は、「ハロー、マイ・カー」、「ハイ、マイ・ビークル」等、種々のものを採用することができる。
Although the specific processing content will be described later, in the
In addition, in this specification, the "starting word" is not limited to one word, and may be a term, a phrase or the like including a plurality of words. Further, as the "startup word", various things such as "hello, my car", "high, my vehicle" and the like can be adopted.
本実施形態に係る音声操作システム100においては、上記のように乗員が起動ワードを発したことをトリガとして音声操作装置10から音声認識エンジン30に音声データが送信される。図3は、実施形態1に係る音声認識エンジン30のハードウェア構成図である。音声認識エンジン30は、接続バス31によって相互に接続されたプロセッサ32、メモリ33、通信IF34等を有するコンピュータである。プロセッサ32は、入力された情報を処理し、処理結果を出力することにより、装置全体の制御を行う中央処理演算装置である。プロセッサ32は、CPU(Central Processing Unit)や、MPU(Micro-processing unit)とも呼ばれる。プロセッサ32は、単一のプロセッサに限られず、マルチプロセッサ構成であってもよい。また、単一のソケットで接続される単一のチップ内に複数のコアを有したマルチコア構成であってもよい。
In the
メモリ33は、主記憶装置と補助記憶装置とを含む。主記憶装置は、プロセッサ32の作業領域、プロセッサ32で処理される情報を一時的に記憶する記憶領域、通信データのバッファ領域として使用される。主記憶装置は、プロセッサ32がプログラムやデータをキャッシュしたり、作業領域を展開したりするための記憶媒体である。主記憶装置は、例えば、RAM(Random Access Memory)やROM(Read Only Memory)、フラッシュメモリを含む。補助記憶装置は、プロセッサ32により実行されるプログラムや、情報処理に用いられるデータ、動作の設定情報などを記憶する記憶媒体である。補助記憶装置は、例
えば、HDD(Hard-disk Drive)やSSD(Solid State Drive)、EPROM(Erasable Programmable ROM)、フラッシュメモリ、USBメモリ、メモリカード等である。通
信IF34は、通信回線Nを介して他装置との通信を行うインターフェースである。なお、音声認識エンジン30は、クラウド上に存在していてもよい。
The
音声操作装置10から音声データを受け取った音声認識エンジン30は、音声データに対して音声認識処理を行うことで、音声データを発話者の発話内容を表すテキスト(文字列)データへと変換する。さらに、音声認識エンジン30は、得られたテキストデータに対して自然言語解析処理を行うことで、発話者の要求内容を示すデータである発話者要求データを生成し、この発話者要求データをコマンド生成サーバ50に送信する。図4は、実施形態1に係るコマンド生成サーバ50のハードウェア構成図である。コマンド生成サーバ50は、接続バス51によって相互に接続されたプロセッサ52、メモリ53、通信IF54等を有するコンピュータである。プロセッサ52は、入力された情報を処理し、処理結果を出力することにより、装置全体の制御を行う中央処理演算装置である。プロセッサ52は、CPU(Central Processing Unit)や、MPU(Micro-processing unit)とも呼ばれる。プロセッサ52は、単一のプロセッサに限られず、マルチプロセッサ構成であってもよい。また、単一のソケットで接続される単一のチップ内に複数のコアを有したマルチコア構成であってもよい。
The
メモリ53は、主記憶装置と補助記憶装置とを含む。主記憶装置は、プロセッサ52の作業領域、プロセッサ52で処理される情報を一時的に記憶する記憶領域、通信データのバッファ領域として使用される。主記憶装置は、プロセッサ52がプログラムやデータをキャッシュしたり、作業領域を展開したりするための記憶媒体である。主記憶装置は、例えば、RAM(Random Access Memory)やROM(Read Only Memory)、フラッシュメモリを含む。補助記憶装置は、プロセッサ52により実行されるプログラムや、情報処理に用いられるデータ、動作の設定情報などを記憶する記憶媒体である。補助記憶装置は、例えば、HDD(Hard-disk Drive)やSSD(Solid State Drive)、EPROM(Erasable Programmable ROM)、フラッシュメモリ、USBメモリ、メモリカード等である。通
信IF54は、通信回線Nを介して他装置との通信を行うインターフェースである。なお、コマンド生成サーバ50は、クラウド上に存在するウェブサーバとして構成されていてもよい。
The
コマンド生成サーバ50は、音声認識エンジン30から受け取った発話者要求データに基づいて、音声操作装置10に送信するための操作コマンドデータを生成する。操作コマンドデータは、音声操作装置10が操作対象としている関連機器2の操作内容に関する情報が格納されているデータである。勿論、この操作コマンドデータは、発話者の要求が反映された内容となっている。コマンド生成サーバ50が生成した操作コマンドデータは、通信回線Nを介してコマンド生成サーバ50から音声操作装置10へと送信される。音声操作装置10は、コマンド生成サーバ50から受け取った操作コマンドデータに基づいて、発話者の要求内容を示す操作コマンドデータに則して対象となる関連機器2を操作する。さらに、コマンド生成サーバ50は、生成した操作コマンドデータに対応する応答音声を生成するための応答音声生成用テキストデータを生成し、この応答音声生成用テキストデータを音声認識エンジン30に送信する。音声認識エンジン30は、コマンド生成サーバ50から受け取った応答音声生成用テキストデータに対して音声合成処理を行うことにより、応答音声生成用テキストデータを音声データ(以下、「応答用音声データ」という)に変換する。音声認識エンジン30は、生成した応答用音声データを音声操作装置10に送信する。そして、音声操作装置10は、音声認識エンジン30から受け取った応答用音声データに対応する音声(以下、「音声アシスタント発話」という)をスピーカ4に出力させることで、乗員にアナウンスする。
The
次に、音声操作システム100における具体的な制御内容について説明する。音声操作システム100は、例えば、車両1のACC(アクセサリ)電源がオンに切り替えられる
ことを契機に起動する。
Next, specific control contents in the
図5は、発話者の発話内容と音声アシスタント発話内容の一例を示す図である。図6は、実施形態1に係る音声操作装置10の機能ブロック図である。音声操作装置10では、プロセッサ12がアプリケーションプログラムを実行することにより、音声取得部21、起動ワード検出部22、音声データ送信部23、関連ワード検出部24、コマンド取得部25、応答用音声取得部26、操作処理部27、応答音声出力部28といった各処理部として機能する。但し、上記各処理部の少なくとも一部の処理がDigital Signal Processor(DSP)、Application Specific Integrated Circuit(ASIC)等によって提供されてもよい。また、上記各処理部の少なくとも一部が、Field-Programmable Gate Array(FPGA)等の
専用large scale integration(LSI)、その他のデジタル回路であってもよい。また、上記各処理部の少なくとも一部にアナログ回路を含んでいてもよい。
FIG. 5 is a diagram showing an example of the utterance content of the speaker and the utterance content of the voice assistant. FIG. 6 is a functional block diagram of the
音声取得部21は、マイクロフォン3に入力された乗員(発話者)の発話を、入出力IF14を介して受け付けることで音声データを取得する。ここで、メモリ13は、マイクロフォン3から取得した乗員の発話に関する音声データを記憶する音声記憶部131を有している。記憶領域である音声記憶部131は、メモリ13の一部に割り当てられた記憶領域である。音声取得部21は、マイクロフォン3から取得した発話者の音声データを、音声記憶部131に記憶させる。
The
起動ワード検出部22は、音声取得部21が新たに取得した発話者の音声データ(すなわち、メモリ13の音声記憶部131に記憶されている最新の音声データ)に基づき、当該音声データに起動ワードが含まれているか否かを判定することで、音声データにおける起動ワードの有無を検出する。起動ワード検出部22は、例えば、音声データに対して音声認識処理を行うことで、起動ワードを検出する。音声認識処理は、公知の音声信号マッチングモデルに対応するアルゴリズムに従い、音声認識辞書DB(データベース)を参照して行うことができる。音声認識処理に用いる音声認識辞書DBや音声信号マッチングモデルは、例えば、メモリ13の補助記憶装置に格納されていてもよい。
The activation
図5には、車両1のACC(アクセサリ)電源がオンの状態で、乗員が「〇〇(起動ワ
ード)、エアコンの温度を3度上げて」(左記「〇〇」は、起動ワード(WuW)を表す。以下、同様。)と発話する例が示されている。この場合、「〇〇(起動ワード)、エアコンの温度を3度上げて」という発話がマイクロフォン3によって収音され、当該発話の音声データを音声取得部21が取得すると共に、メモリ13の音声記憶部131に記憶される。そして、「〇〇(起動ワード)、エアコンの温度を3度上げて」という音声データ中の「〇〇(起動ワード)」が起動ワード検出部22によって検出される。
In FIG. 5, with the ACC (accessory) power of the vehicle 1 turned on, the occupant "○○ (starting word), raise the temperature of the air conditioner by 3 degrees"("○○" on the left is the starting word (WuW). ) Is shown. The same applies hereinafter.). In this case, the utterance "○○ (starting word), raise the temperature of the air conditioner by 3 degrees" is picked up by the
音声データ送信部23は、音声データを音声認識エンジン30に送信する処理を行う。起動ワード検出部22が起動ワードを検出すると、音声データ送信部23は、少なくとも起動ワードに後続する発話を含む音声データを音声認識エンジン30に送信する。ここでは、音声データのうち、起動ワードに後続する発話部分、すなわち、「エアコンの温度を3度上げて」という発話部分に対応する音声データ(以下、「要求内容音声データ」という)を音声データ送信部23が音声認識エンジン30に送信する。また、音声データ送信部23は、上記要求内容音声データと併せてID識別情報を音声認識エンジン30に送信する。要求内容音声データおよびID識別情報は、音声操作装置10の通信IF15、通信回線Nを介して音声認識エンジン30に送信される。
The voice data transmission unit 23 performs a process of transmitting voice data to the
なお、ID識別情報は、車両1に搭載されている音声操作装置10を識別するために音
声操作装置10毎に割り当てられた識別情報である。要求内容音声データと併せてID識別情報を音声認識エンジン30に送信することで、音声認識エンジン30は、受け取った要求内容音声データの送信元を特定することができる。音声操作装置10における関連ワード検出部24、コマンド取得部25、操作処理部27、応答音声出力部28については後述する。
The ID identification information is identification information assigned to each
図7は、実施形態1に係る音声認識エンジン30の機能ブロック図である。音声認識エンジン30では、プロセッサ32がアプリケーションプログラムを実行することにより、データ取得部36、解析処理部37、音声合成部38といった各処理部として機能する。
FIG. 7 is a functional block diagram of the
音声認識エンジン30のデータ取得部36は、音声操作装置10の音声データ送信部23が送信した要求内容音声データおよびID識別情報を取得する。そして、データ取得部36は要求内容音声データを解析処理部37に引き渡し、解析処理部37は、受け取った要求内容音声データに対して音声認識処理および自然言語解析処理を行う。例えば、解析処理部37は、要求内容音声データに対して音声認識処理を行うことで、当該要求内容音声データをテキストデータへと変換する。さらに、解析処理部37は、このテキストデータに対して自然言語解析を行うことで、テキストデータに含まれる発話者の要求の意図を解釈する。解析処理部37が実行する自然言語解析には、形態素解析処理、構文解析処理、意味解析処理、文脈解析処理等が含まれていてもよい。
The
以上のように、解析処理部37は、要求内容音声データに基づいて、発話者の要求内容を示す発話者要求データを生成する。解析処理部37は、生成した発話者要求データをID識別情報と対応付けてコマンド生成サーバ50に送信する。なお、発話者要求データおよびID識別情報は、音声認識エンジン30の通信IF34、通信回線Nを介してコマンド生成サーバ50に送信される。音声認識エンジン30における音声合成部38の機能については後述する。また、音声認識エンジン30は、音声操作装置10から受け取った要求内容音声データおよびID識別情報をメモリ33の記憶領域に記憶させてもよい。また、音声認識エンジン30における解析処理部37は、人工知能(AI)により実現されてもよい。すなわち、音声認識エンジン30のメモリ33に機械学習モデルを格納しておき、当該機械学習モデルを用いて解析処理部37が発話者要求データを生成してもよい。このような構成は、音声認識エンジン30が所謂AIアシスタントとして構築される。
As described above, the
図8は、実施形態1に係るコマンド生成サーバ50の機能ブロック図である。コマンド生成サーバ50では、プロセッサ52がアプリケーションプログラムを実行することにより、コマンド生成部56、応答音声用テキスト生成部57といった各処理部として機能する。
FIG. 8 is a functional block diagram of the
コマンド生成サーバ50のコマンド生成部56は、音声認識エンジン30から受信した発話者要求データおよびID識別情報に基づいて、音声操作装置10に送信するための操作コマンドデータを生成する。図9は、操作コマンドデータのデータ構造の一例を示す図である。図9に示す例では、操作コマンドデータは、操作コマンドによって操作する対象となる関連機器2(Object)、操作内容(Action)、およびID識別情報が対応付けられて格納されている。ここでの例では、操作対象となる関連機器2(Object)が「エアコンディショナ」、操作内容(Action)が「3度上げる」、コンディショナーID識別情報がNo1となっている。但し、図9に示す操作コマンドデータのデータ構造は一例であり、上記例には限定されない。コマンド生成部56は、操作コマンドデータを、ID識別情報に対応する音声操作装置10へと送信する。操作コマンドデータは、コマンド生成サーバ50の通信IF54、通信回線Nを介して音声操作装置10に送信される。
The
また、応答音声用テキスト生成部57は、音声認識エンジン30から受信した発話者要
求データ、或いは、コマンド生成部56が生成した操作コマンドデータに基づいて、音声認識エンジン30に送信するための応答音声生成用テキストデータを生成する。応答音声生成用テキストデータは、操作コマンドデータに対応するテキストデータであり、音声操作装置10のスピーカ4から音声出力させる音声アシスタント発話の元となるテキスト(文字列)データである。応答音声生成用テキストデータは、操作コマンドデータに格納されている操作対象となる関連機器2(Object)と、操作内容(Action)を含んでいる。ここでの例では、「エアコンの温度を3度上げます」というテキスト(文字列)を含んでいる。応答音声用テキスト生成部57は、応答音声生成用テキストデータをID識別情報と併せて音声認識エンジン30に送信する。応答音声生成用テキストデータおよびID識別情報は、コマンド生成サーバ50の通信IF54、通信回線Nを介して音声認識エンジン30に送信される。
Further, the response voice
コマンド生成サーバ50から応答音声生成用テキストデータおよびID識別情報を受け取った音声認識エンジン30は、音声合成部38が応答音声生成用テキストデータに対して音声合成処理を行う。これにより、応答音声生成用テキストデータが応答用音声データに変換される。音声認識エンジン30の音声合成部38は、応答音声生成用テキストデータから変換した応答用音声データを、ID識別情報に対応する音声操作装置10に送信する。応答用音声データは、音声認識エンジン30の通信IF34、通信回線Nを介して音声操作装置10に送信される。
In the
以上のようにして、音声操作装置10は、音声認識エンジン30から応答用音声データを受信し、コマンド生成サーバ50から操作コマンドデータを受信する。ここで、音声操作装置10のコマンド取得部25は、コマンド生成サーバ50から送信された操作コマンドデータを受信する。音声操作装置10におけるメモリ13は、操作コマンドデータ(操作コマンド情報)を記憶するコマンド情報記憶部132を有する。コマンド情報記憶部132は、メモリ13の一部に割り当てられた記憶領域である。音声操作装置10のコマンド取得部25は、取得した操作コマンドデータをコマンド情報記憶部132に記憶する。
As described above, the
音声操作装置10の操作処理部27は、コマンド情報記憶部132に記憶されている最新の操作コマンドデータを読み込み、操作コマンドデータに則して操作対象となる関連機器2を操作する。ここでの例では、図9で説明したように、操作対象となる関連機器2(Object)が「エアコンディショナ2A」であり、操作内容(Action)が「3度上げる」処理内容となっている。そこで、操作処理部27は、操作コマンドデータに定義されている操作内容に則してエアコンディショナ2Aの設定温度が3度高い温度に変更されるように、エアコンディショナ2Aに制御信号を出力する。その結果、エアコンディショナ2Aの設定温度が操作コマンドデータに応じて変更される。
The
また、音声操作装置10の応答用音声取得部26は、音声認識エンジン30から送信された応答用音声データを取得する。応答用音声取得部26は、取得した応答用音声データを応答音声出力部28に引き渡す。応答音声出力部28は、スピーカ4に制御信号を出力し、応答用音声取得部26から受け取った応答用音声データに基づいてスピーカ4に音声アシスタント発話を音声出力させる。ここでの例では、「エアコンの温度を3度上げます」という音声がスピーカ4から出力される。
Further, the response
なお、本実施形態における音声操作システム100において、音声認識エンジン30は、1回のセッションが終了してから一定時間(例えば、数秒間)が経過すると、再び待機状態となる。ここでいうセッションとは、音声操作装置10から音声データを受信することで音声認識エンジン30が起動し、生成した発話者要求データをコマンド生成サーバ50に送信した後、コマンド生成サーバ50から応答音声生成用テキストデータを受信し、応答音声生成用テキストデータから生成した応答用音声データを音声操作装置10に送信
するまでの一連の処理を指す。ここで、上述までの、発話者が「〇〇(起動ワード)、エアコンの温度を3度上げて」という発話を契機として開始されたセッションを「第1セッション」と呼ぶ。
In the
ここで、従来の音声操作システムにおいては、発話者の音声入力によって関連機器を操作する場合には、音声入力をする度に発話者は起動ワード(WuW)を発声してから、起動ワードに続けて要求内容を発話する必要があり、ユーザの利便性が高いとは言えなかった。一方、音声操作装置が取得した発話者の音声データが起動ワード(WuW)を含んでいない起動ワード無し音声データである場合にまで、常に、起動ワード無し音声データを音声認識エンジン30に送信し、起動ワード無し音声データに対して音声認識処理や言語解析処理を実行しようとすると、通信負荷や処理負荷の過度な増加を招いてしまう。そこで、本実施形態の音声操作装置10においては、発話者が起動ワード(WuW)の発話を省略した場合においても、通信負荷や処理負荷の過度な増加を招くことなく関連機器2の音声操作を可能としている。以下、音声操作装置10の特徴的な処理内容について説明する。
Here, in the conventional voice operation system, when the related device is operated by the voice input of the speaker, the speaker utters the activation word (WuW) each time the voice is input, and then the activation word is continued. It was necessary to speak the request contents, and it could not be said that the convenience of the user was high. On the other hand, even when the voice data of the speaker acquired by the voice control device is the voice data without the activation word that does not include the activation word (WuW), the voice data without the activation word is always transmitted to the
図5に示す例では、第1セッションが終了した後、車両1の乗員が「温度を1度下げて」と発話している。この発話には、起動ワードが含まれていない。この場合、音声操作装置10の音声取得部21が新たに取得した発話者の音声データは起動ワードを含まない起動ワード無し音声データであり、当該起動ワード無し音声データがメモリ13の音声記憶部131に記憶される。従って、この場合には、起動ワード検出部22によって起動ワード無し音声データから起動ワードは検出されない。
In the example shown in FIG. 5, after the first session is completed, the occupant of the vehicle 1 utters "lower the temperature by 1 degree". This utterance does not include the activation word. In this case, the voice data of the speaker newly acquired by the
このように、音声取得部21が新たに取得した発話者の音声データが起動ワード無し音声データである場合に、音声操作装置10における関連ワード検出部24は、前回の操作コマンドに応じて操作した関連機器2に関連する操作関連ワードを、新たに取得した起動ワード無し音声データから検出する。以下、発話者が起動ワードを発声せずに「温度を1度下げて」と発話したことを契機に開始される「第2セッション」での各処理を説明する。
In this way, when the voice data of the speaker newly acquired by the
第2セッションにおいて、関連ワード検出部24は、メモリ13の音声記憶部131に記憶されている前回の音声データ(図5に示す制御例では、「〇〇(起動ワード)、エアコンの温度を3度上げて」という発話が該当)から、関連機器2ごとに対応付けて予め定められると共に関連機器2に関連する単語である機器別関連ワードを検出することで、前回の操作コマンドに応じて操作した関連機器2を特定する。
In the second session, the related
ここで、音声操作装置10のメモリ13には、図10に示す機器別関連ワード定義テーブルTB1が格納されている。機器別関連ワード定義テーブルTB1には、音声操作装置10によって音声操作する関連機器2と関連機器2ごとに対応付けて予め定められた機器別関連ワードの対応関係が定義されている。関連機器2は、エアコンディショナ2A、オーディオ機器2B、ヘッドライト2C等である。
Here, the device-specific word definition table TB1 shown in FIG. 10 is stored in the
図10に示す例では、エアコンディショナ2Aに対応する機器別関連ワードとしては、「エアコン(エアコンディショナ)」、「温度」、「度」、「上げ」、「下げ」、「止め」、「つけて」等の単語が定義されている。また、オーディオ機器2Bに対応する機器別関連ワードとしては、「オーディオ」、「CD」、「DVD、「ボリューム」、「音量」、「再生」、「停止」、「トラックアップ」、「トラックダウン」等の単語が定義されている。また、ヘッドライト2Cに対応する機器別関連ワードとしては、「ヘッドライト」、「ライト」、「照明」、「明るく、「暗く」等の単語が定義されている。但し、これら関連機器2毎に設定された機器別関連ワードは例示的なものである。 In the example shown in FIG. 10, as the related words for each device corresponding to the air conditioner 2A, "air conditioner (air conditioner)", "temperature", "degree", "raise", "lower", "stop", Words such as "attach" are defined. In addition, as device-specific related words corresponding to audio device 2B, "audio", "CD", "DVD," volume "," volume "," play "," stop "," track up "," track down " Words such as "" are defined. Further, as the device-specific related words corresponding to the headlight 2C, words such as "headlight", "light", "lighting", and "bright and dark" are defined. However, the device-specific related words set for each of these related devices 2 are exemplary.
上記のように、関連ワード検出部24は、メモリ13に格納されている機器別関連ワード定義テーブルTB1を参照し、音声記憶部131に記憶されている前回の音声データから機器別関連ワードを検出する。ここでの例では、「〇〇(起動ワード)、エアコンの温度を3度上げて」という前回の発話に含まれる「エアコン」、「温度」、「度」が機器別関連ワードとして検出される。そして、関連ワード検出部24は、定義テーブルTB1を参照することで、検出した機器別関連ワード(「エアコン」、「温度」、「度」)が関連付けられている関連機器2を読み出す。これにより、関連ワード検出部24は、前回の操作コマンドに応じて操作した関連機器2を特定することができる。ここでの制御例では、前回の操作コマンドに応じて操作した関連機器2として、エアコンディショナ2Aが特定される。
As described above, the related
そして、音声操作装置10における関連ワード検出部24は、前回の操作コマンドに応じて操作した関連機器2に関連する操作関連ワードを、新たに取得した起動ワード無し音声データから検出する。上記のように、前回の操作コマンドに応じて操作した関連機器2はエアコンディショナ2Aに特定されているため、関連ワード検出部24はエアコンディショナ2Aに関連する「エアコン(エアコンディショナ)」、「温度」、「度」、「上げ」、「下げ」、「止め」、「つける」等の単語が新たに取得した起動ワード無し音声データに含まれているか否か判定する。その結果、関連ワード検出部24は、「温度を1度下げて」という発話に関する起動ワード無し音声データから「温度」、「度」という単語を操作関連ワードとして検出する。
Then, the related
上記のように、関連ワード検出部24が、前回の操作コマンドに応じて操作した関連機器2に関連する操作関連ワードを、新たに取得した起動ワード無し音声データから検出した場合に、音声データ送信部23は、起動ワード無し音声データおよびID識別情報を音声認識エンジン30に送信する。このようにして起動ワード無し音声データおよびID識別情報が音声操作装置10から音声認識エンジン30に送信されることをトリガとして、待機状態にあった音声認識エンジン30が起動する。
As described above, when the related
音声認識エンジン30において実行される各処理については、第1セッションのときと実質的に同様である。すなわち、音声認識エンジン30の解析処理部37が、起動ワード無し音声データに対して音声認識処理を行うことで、「温度を1度下げて」という起動ワード無し音声データをテキストデータへと変換し、このテキストデータに対して自然言語解析処理を行うことでテキストデータに含まれる発話者の要求の意図を解釈する。このようにして、解析処理部37は、起動ワード無し音声データに基づいて、発話者の要求内容を示す発話者要求データを生成する。音声認識エンジン30において生成された発話者要求データは、ID識別情報と対応付けてコマンド生成サーバ50に送信され、コマンド生成サーバ50において操作コマンドデータおよび応答音声生成用テキストデータが生成される。
Each process executed in the
ここで、コマンド生成サーバ50が音声認識エンジン30から受け取った発話者要求データには、操作対象となる関連機器2(Object)に対応する情報が格納されていない。そこで、コマンド生成サーバ50は、操作コマンドデータおよび応答音声生成用テキストデータを生成するに際して、関連機器2(Object)に対応する情報を補完する。
Here, the speaker request data received by the
コマンド生成サーバ50のメモリ53は、コマンド生成部56が生成した操作コマンドデータを記憶するコマンドデータ記憶部151を有する。コマンドデータ記憶部151は、メモリ53の一部に割り当てられた記憶領域である。コマンド生成サーバ50のコマンド生成部56は、前回のセッションにおいて生成した操作コマンドデータをコマンドデータ記憶部151から読み出す。そして、コマンド生成部56は、音声認識エンジン30か
ら新たに受け取った発話者要求データにブランク(null)となっている操作対象の関連機器2(Object)に対応する情報を、前回のセッションにおいて生成した操作コマンドデータから読み込み、補完する。これにより、図11に示す操作コマンドデータが生成される。ここでの制御例では、図11に示すように、操作対象となる関連機器2(Object)が「エアコンディショナ」、操作内容(Action)が「1度下げる」となっている。なお、図11において、エアコンディショナに付した括弧は、前回のセッションにおいて生成した操作コマンドデータから補完されたことを意味する。そして、コマンド生成部56は、生成した操作コマンドデータを、第1セッションと同様、ID識別情報に対応する音声操作装置10に送信する。
The
また、コマンド生成サーバ50の応答音声用テキスト生成部57は、第1セッションと同様、コマンド生成部56が生成した操作コマンドデータに基づいて、操作コマンドデータに対応する内容の応答音声生成用テキストデータを生成し、生成した応答音声生成用テキストデータをID識別情報と併せて音声認識エンジン30に送信する。そして、コマンド生成サーバ50から応答音声生成用テキストデータおよびID識別情報を受信した音声認識エンジン30は、音声合成部38が応答音声生成用テキストデータに基づいて応答用音声データを生成し、生成した応答用音声データをID識別情報に対応する音声操作装置10に送信する。
Further, the response voice
そして、コマンド生成サーバ50から操作コマンドデータを受信した音声操作装置10は、第1セッションと同様、操作コマンドデータに基づいて操作対象となる関連機器2を
操作する。具体的には、音声操作装置10の操作処理部27は、操作コマンドデータに定義されている操作内容に則してエアコンディショナ2Aの設定温度が1度低い温度に設定されるように、エアコンディショナ2Aを操作する。また、音声操作装置10の応答用音声取得部26は、音声認識エンジン30から取得した応答用音声データを応答音声出力部28に引き渡し、応答音声出力部28は、応答用音声データに基づいてスピーカ4に音声アシスタント発話を音声出力させる。その結果、「エアコンの温度を1度下げます」という音声がスピーカ4から出力される。これにより、第2セッションが終了する。
Then, the
次に、図5を参照して第3セッションについて説明する。第3セッションは、第2セッションが終了して音声認識エンジン30が待機状態にあるときに、乗員が「〇〇(起動ワード)、CDを再生して」と発話したことを契機に開始される。このように、乗員の発話に起動ワードが含まれる場合には、第1セッションと同様の処理が行われる。すなわち、「CDを再生して」という発話部分に対応する要求内容音声データが音声操作装置10から音声認識エンジン30に送信される。それ以降の処理内容についても、第1セッションと同様である。すなわち、最終的に、音声操作装置10は、コマンド生成サーバ50から操作コマンドデータを受信すると共に、音声認識エンジン30から応答用音声データを受信する。そして、音声操作装置10の操作処理部27はオーディオ機器2Bに制御信号を出力し、CDを再生させる。また、音声操作装置10の応答音声出力部28が応答用音声データに基づいてスピーカ4を操作することで、「CDを再生します」という音声アシスタント発話がスピーカ4から音声出力される。これにより、第3セッションが終了する。
Next, the third session will be described with reference to FIG. The third session is started when the occupant says "○○ (startup word), play the CD" when the
なお、第3セッションにおいて、乗員が「〇〇(起動ワード)、CDを再生して」と発話する代わりに「エアコンを止めて」と発話した場合、当該発話に起動ワードが含まれないため、起動ワード無し音声データから操作関連ワードを検出する処理が関連ワード検出部24によって行われる。この場合、関連ワード検出部24は、メモリ13に格納されている機器別関連ワード定義テーブルTB1を参照し、音声記憶部131に記憶されている前回(第2セッション)の音声データから機器別関連ワードを検出する。具体的には、「温度を1度下げて」という発話に含まれる「温度」、「度」という単語が機器別関連ワードとして検出され、前回の操作コマンドに応じて操作した関連機器2がエアコンディショ
ナ2Aに特定される。
In the third session, if the occupant says "Turn off the air conditioner" instead of saying "○○ (starting word), play the CD", the starting word is not included in the utterance. The process of detecting the operation-related word from the voice data without the activation word is performed by the related
そして、音声操作装置10の関連ワード検出部24は、前回の操作コマンドに応じて操作した関連機器2に関連する操作関連ワードを、新たに取得した「エアコンを止めて」という起動ワード無し音声データから検出する。その結果、関連ワード検出部24は、エアコンディショナ2Aに関連する「エアコン」、「止め」という単語を操作関連ワードとして検出する。このようにして、関連ワード検出部24が操作関連ワードを起動ワード無し音声データから検出することで、起動ワード無し音声データが音声認識エンジン30に送信される。以降の処理内容については、第2セッションで説明した処理内容と同様であるため説明を省略する。
Then, the related
次に、第3セッションにおいて、乗員が「〇〇(起動ワード)、CDを再生して」と発話する代わりに「CDを再生して」と発話した場合について説明する。この場合、発話に起動ワードが含まれていないため、起動ワード無し音声データから操作関連ワードを検出する処理が関連ワード検出部24によって行われる。すなわち、関連ワード検出部24は、メモリ13に格納されている機器別関連ワード定義テーブルTB1を参照し、音声記憶部131に記憶されている前回(第2セッション)の音声データから機器別関連ワードを検出する。具体的には、「温度を1度下げて」という発話に含まれる「温度」、「度」という単語が機器別関連ワードとして検出され、前回の操作コマンドに応じて操作した関連機器2がエアコンディショナ2Aに特定される。
Next, in the third session, a case where the occupant says "play the CD" instead of saying "OO (startup word), play the CD" will be described. In this case, since the utterance does not include the activation word, the related
そして、音声操作装置10の関連ワード検出部24は、前回の操作コマンドに応じて操作した関連機器2(コンディショナ2A)に関連する操作関連ワードを、新たに取得した「CDを再生して」という起動ワード無し音声データから検出する。このケースにおいては、「CDを再生して」という起動ワード無し音声データには、エアコンディショナ2Aに関連する操作関連ワードが含まれていないため、操作関連ワードが関連ワード検出部24によって検出されない。そのため、「CDを再生して」という起動ワード無し音声データは音声認識エンジン30に送信されず、音声認識エンジン30は起動されない。すなわち、このケースにおいては、音声操作装置10は発話者の発話に応答せず、オーディオ機器2Bを操作しない。
Then, the related
なお、上述した第2セッションの説明において、関連ワード検出部24は、音声記憶部131に記憶されている前回の音声データから、関連機器2ごとに対応付けて予め定められる機器別関連ワードを検出することで、前回の操作コマンドに応じて操作した関連機器2を特定したが、関連ワード検出部24は他の処理によって前回の操作コマンドに応じて操作した関連機器2を特定してもよい。例えば、関連ワード検出部24は、コマンド情報記憶部132に記憶されている操作コマンドデータに基づいて前回の操作コマンドに応じて操作した関連機器2を特定してもよい。
In the above description of the second session, the related
次に、車両1の乗員が発話した際に、音声操作装置10から音声認識エンジン30に音声データを送信するときにプロセッサ12が実行する制御フローについて説明する。図12は、音声操作装置10が音声認識エンジン30に音声データを送信する際の制御内容を示すフローチャートである。ステップS10において、車両1の乗員が発話した音声データをプロセッサ12(音声取得部21)が新たに取得する(音声取得工程)。また、プロセッサ12(音声取得部21)は、取得した発話者の音声データをメモリ13の音声記憶部131に記憶させる。
Next, the control flow executed by the
次に、ステップS20において、プロセッサ12(起動ワード検出部22)は、新たに取得した音声データに起動ワードが含まれているか否かを判定する。プロセッサ12(起動ワード検出部22)は、新たに取得した音声データに起動ワードが含まれていると判定
した場合、音声データから起動ワードを検出し、ステップS30に進む。一方、新たに取得した音声データに起動ワードが含まれず、プロセッサ12(起動ワード検出部22)が起動ワードを当該音声データから検出しなかった場合には、ステップS40に進む。なお、この場合には、新たに取得した音声データは、起動ワード無し音声データであったことを意味する。
Next, in step S20, the processor 12 (starting word detection unit 22) determines whether or not the newly acquired voice data includes the starting word. When the processor 12 (starting word detection unit 22) determines that the newly acquired voice data includes the starting word, the
ステップS30において、プロセッサ12(音声データ送信部23)は、新たに取得した音声データのうち、起動ワードに後続する発話部分に関する要求内容音声データを、ID識別情報と併せて音声認識エンジン30に送信する。これにより、音声操作装置10から要求内容音声データを受け取った音声認識エンジン30は、要求内容音声データに対して音声認識処理や自然言語解析処理などを行うことで、発話者の要求内容を示す発話者要求データを生成することができる。プロセッサ12は、ステップS3の処理が終了すると、本制御フローに係るルーチンを終了する。
In step S30, the processor 12 (voice data transmission unit 23) transmits the request content voice data regarding the utterance portion following the activation word among the newly acquired voice data to the
ステップS40において、プロセッサ12(関連ワード検出部24)は、前回の操作コマンドに応じて操作した関連機器2に関連する操作関連ワードを、新たに取得した起動ワード無し音声データから検出する(関連ワード検出工程)。本ステップにおいて、プロセッサ12(関連ワード検出部24)は、上記のように、メモリ13の音声記憶部131に記憶されている前回の音声データから、関連機器2ごとに対応付けて予め定められる機器別関連ワードを検出することで、前回の操作コマンドに応じて操作した関連機器2を特定することができる。或いは、プロセッサ12(関連ワード検出部24)は、メモリ13のコマンド情報記憶部132に記憶されている操作コマンドデータに基づいて前回の操作コマンドに応じて操作した関連機器2を特定してもよい。
In step S40, the processor 12 (related word detection unit 24) detects an operation-related word related to the related device 2 operated in response to the previous operation command from the newly acquired voice data without an activation word (related word). Detection process). In this step, the processor 12 (related word detection unit 24) is a device that is determined in advance in association with each related device 2 from the previous voice data stored in the voice storage unit 131 of the
そして、ステップS40においては、プロセッサ12(関連ワード検出部24)は、前回の操作コマンドに応じて操作した関連機器2に関連する操作関連ワードが、新たに取得した起動ワード無し音声データに含まれているか否かを判定する。そして、プロセッサ12(関連ワード検出部24)は、新たに取得した起動ワード無し音声データに上記操作関連ワードが含まれていない場合、すなわち新たに取得した起動ワード無し音声データから操作関連ワードを検出しなかった場合、起動ワード無し音声データは前回の操作コマンドによる操作に関連しない発話内容であると判断されるため、本制御フローに係るルーチンを終了する。この場合、起動ワード無し音声データは音声操作装置10から音声認識エンジン30に送信されず、音声認識エンジン30は起動されない。
Then, in step S40, the processor 12 (related word detection unit 24) includes the operation-related words related to the related device 2 operated in response to the previous operation command in the newly acquired voice data without the activation word. Determine if it is. Then, the processor 12 (related word detection unit 24) detects the operation-related word from the newly acquired voice data without activation word when the operation-related word is not included in the newly acquired voice data without activation word, that is, from the newly acquired voice data without activation word. If not, it is determined that the voice data without the activation word is the utterance content not related to the operation by the previous operation command, so the routine related to this control flow is terminated. In this case, the voice data without the activation word is not transmitted from the
一方、ステップS40において、プロセッサ12(関連ワード検出部24)は、新たに取得した起動ワード無し音声データに操作関連ワードが含まれていると判定した場合、起動ワード無し音声データから操作関連ワードを検出し、ステップS50に進む。ステップS50において、プロセッサ12(音声データ送信部23)は、新たに取得した起動ワード無し音声データを、ID識別情報と併せて音声認識エンジン30に送信する(音声データ送信工程)。これにより、音声操作装置10から起動ワード無し音声データを受け取った音声認識エンジン30は、起動ワード無し音声データに対して音声認識処理や自然言語解析処理などを行うことで、発話者の要求内容を示す発話者要求データを生成することができる。プロセッサ12は、ステップS5の処理が終了すると、本制御フローに係るルーチンを終了する。
On the other hand, in step S40, when the processor 12 (related word detection unit 24) determines that the newly acquired voice data without activation words includes operation-related words, the
上記制御フローで説明したように、本実施形態に係る音声操作装置10は、車両1の乗員(ユーザ)が発した発話に関する音声データを取得し、新たに取得した音声データが起動ワードを含まない起動ワード無し音声データである場合に、前回の操作コマンドに応じて操作した関連機器に関連する操作関連ワードを新たに取得した起動ワード無し音声データから検出する。そして、起動ワード無し音声データから操作関連ワードを検出した場合
には、起動ワード無し音声データを音声認識エンジンに送信することを特徴とする。そのため、ユーザは、音声認識エンジン30が待機状態のときに関連機器2を音声操作する際、音声操作の度に起動ワード(WuW)を発声しなくても関連機器2を音声入力によって操作することができ、ユーザの利便性を高めることができる。すなわち、ユーザビリティの優れた音声操作装置10および音声操作システム100を提供することができる。
As described in the above control flow, the
また、ユーザの発話に起動ワードが含まれない場合、その発話内容が前回の音声操作に関連しない場合には起動ワード無し音声データを音声認識エンジン30に送信せず、発話内容が前回の音声操作に関連する場合に起動ワード無し音声データを音声認識エンジン30に送信し、音声認識エンジン30を起動するようにしたので、通信負荷や処理負荷の過度な増加を招くことを抑制しつつ、関連機器2の音声操作を実現することができる。以上より、本実施形態に係る音声操作装置10およびこれを含む音声操作システム100は、従来に比べて通信負荷や処理負荷の過度な増加を招くことを抑制しつつユーザビリティを向上することができる。また、音声操作装置10およびこれを含む音声操作システム100によれば、音声認識エンジン30として、既存の音声認識エンジンに大掛かりな改変を加えることなく使用することができるため、システムの開発コスト、構築コストを抑えることができる。
Further, when the user's utterance does not include the activation word, and if the utterance content is not related to the previous voice operation, the voice data without the activation word is not transmitted to the
また、音声操作装置10のプロセッサ12(関連ワード検出部24)は、前回の操作コマンドに応じて操作した関連機器2に関連する操作関連ワードを新たに取得した起動ワード無し音声データから検出する際、メモリ13の音声記憶部131に記憶されている前回の音声データから、関連機器2ごとに対応付けて予め定められた機器別関連ワードを検出することで前回の操作コマンドに応じて操作した関連機器2を特定するようにした。これによれば、関連機器2ごとに関連付けられた機器別関連ワードに基づいて、前回の操作コマンドによる操作対象の関連機器2を容易に特定することができる。よって、ユーザが起動ワードを発声せずに発話した場合に、その発話内容が前回の操作コマンドによる操作に関連する発話かどうかを容易に判定し、その発話に応答して関連機器2を操作すべきかどうかを容易に判定できる。
Further, when the processor 12 (related word detection unit 24) of the
また、音声操作装置10のプロセッサ12(関連ワード検出部24)は、前回の操作コマンドに応じて操作した関連機器2に関連する操作関連ワードを新たに取得した起動ワード無し音声データから検出する際、メモリ13のコマンド情報記憶部132に記憶されている操作コマンドデータに基づいて前回の操作コマンドに応じて操作した関連機器2を特定するようにした。このように、コマンド情報記憶部132に記憶されている操作コマンドデータを参照することで、前回の操作コマンドによる操作対象の関連機器2を容易に特定することができる。よって、ユーザが起動ワードを発声せずに発話した場合に、その発話内容が前回の操作コマンドによる操作に関連する発話かどうかを容易に判定し、その発話に応答して関連機器2を操作すべきかどうかを容易に判定できる。
Further, when the processor 12 (related word detection unit 24) of the
以上、本発明の実施の形態を説明したが、これらはあくまで例示にすぎず、本発明はこれらに限定されるものではなく、上記構成を組み合わせるなど、特許請求の範囲の趣旨を逸脱しない限りにおいて、当業者の知識に基づく種々の変更が可能である。 Although the embodiments of the present invention have been described above, these are merely examples, and the present invention is not limited thereto, as long as the above configurations are combined and the like does not deviate from the scope of the claims. , Various changes are possible based on the knowledge of those skilled in the art.
例えば、上記実施形態では、音声操作装置10が車両に搭載される車載機として構成される例を説明したが、これには限られない。すなわち、音声操作装置10は車載機でなくてもよく、例えばスマートフォンや、タブレットPC、スマートスピーカ等であってもよい。また、音声操作システム100は、音声認識エンジン30およびコマンド生成サーバ50が単一のサーバ装置として提供されてもよい。また、音声認識エンジン30の機能が音声操作装置10に備えられていてもよいし、コマンド生成サーバ50の機能が音声認識エンジン30に備えられていてもよい。
For example, in the above embodiment, the example in which the
また、本実施形態における音声操作装置10、音声認識エンジン30およびコマンド生成サーバ50において実現される各処理は、これら各々のプロセッサがメモリに記憶されている各種アプリケーションプログラムを実行することによって実現されている。また、音声操作装置10、音声認識エンジン30およびコマンド生成サーバ50における各々のプロセッサに上述した各処理を実行させるプログラムは、コンピュータが読み取り可能な記録媒体に記録することができる。ここで、コンピュータ読み取り可能な記録媒体とは、データやプログラム等の情報を電気的、磁気的、光学的、機械的、または化学的作用によって蓄積し、コンピュータから読み取ることができる記録媒体をいう。このような記録媒体のうちコンピュータから取り外し可能なものとしては、例えばフレキシブルディスク、光磁気ディスク、CD−ROM、CD−R/W、DVD、DAT、8mmテープ、メモリカード等がある。また、コンピュータに固定された記録媒体としてハードディスクやROM等がある。
Further, each process realized by the
1・・・車両
2・・・関連機器
3・・・マイクロフォン
4・・・スピーカ
10・・・音声操作装置
21・・・音声取得部
22・・・起動ワード検出部
23・・・音声データ送信部
24・・・関連ワード検出部
25・・・コマンド取得部
26・・・応答用音声取得部
27・・・操作処理部
28・・・応答音声出力部
30・・・音声認識エンジン
50・・・コマンド生成サーバ
100・・・音声操作システム
1 ... Vehicle 2 ...
Claims (5)
ユーザが発した発話に関する音声データを取得する音声取得部と、
前記音声取得部が新たに取得した音声データが起動ワードを含まない起動ワード無し音声データである場合に、前回の操作コマンドに応じて操作した関連機器に関連する操作関連ワードを新たに取得した起動ワード無し音声データから検出する関連ワード検出部と、
前記関連ワード検出部が前記起動ワード無し音声データから操作関連ワードを検出した場合に、前記起動ワード無し音声データを前記音声認識エンジンに送信する音声データ送信部と、
を備える、
音声操作装置。 When the voice data of the speech uttered by the user includes a start word for activating the voice recognition engine, at least the voice data including the utterance following the start word is transmitted to the voice recognition engine, and the voice recognition engine transmits the voice data. It is a voice operation device that operates related devices according to the operation commands generated based on the voice recognition processing result.
A voice acquisition unit that acquires voice data related to utterances made by the user,
When the voice data newly acquired by the voice acquisition unit is voice data without a start word that does not include a start word, the start that newly acquires an operation-related word related to the related device operated in response to the previous operation command. Related word detector that detects from wordless voice data,
When the related word detection unit detects an operation-related word from the voice data without the activation word, the voice data transmission unit that transmits the voice data without the activation word to the voice recognition engine
To prepare
Voice control device.
前記関連ワード検出部は、前記音声記憶部に記憶されている前回の音声データから、関連機器ごとに対応付けて予め定められた機器別関連ワードを検出することによって前回の操作コマンドに応じて操作した関連機器を特定する、
請求項1に記載の音声操作装置。 A voice storage unit for storing voice data acquired by the voice acquisition unit is further provided.
The related word detection unit operates according to the previous operation command by detecting a predetermined device-specific related word associated with each related device from the previous voice data stored in the voice storage unit. Identify related equipment
The voice operating device according to claim 1.
前記関連ワード検出部は、前記コマンド情報記憶部に記憶されている操作コマンド情報に基づいて前回の操作コマンドに応じて操作した関連機器を特定する、
請求項1に記載の音声操作装置。 Further, a command information storage unit for storing operation command information related to the operation command generated based on the voice recognition processing result of the voice data by the voice recognition engine is provided.
The related word detection unit identifies the related device operated in response to the previous operation command based on the operation command information stored in the command information storage unit.
The voice operating device according to claim 1.
ユーザが発した発話に関する音声データを取得する音声取得工程と、
前記音声取得工程で新たに取得した音声データが起動ワードを含まない起動ワード無し音声データである場合に、前回の操作コマンドに応じて操作した関連機器に関連する操作関連ワードを新たに取得した起動ワード無し音声データから検出する関連ワード検出工程と、
前記関連ワード検出工程において前記起動ワード無し音声データから操作関連ワードを検出した場合に、前記起動ワード無し音声データを前記音声認識エンジンに送信する音声データ送信工程と、
を含む、
音声操作方法。 When the voice data of the speech uttered by the user includes a start word for activating the voice recognition engine, at least the voice data including the utterance following the start word is transmitted to the voice recognition engine, and the voice recognition engine transmits the voice data. It is a voice operation method in which the voice operation device executes the operation of the related device according to the operation command generated based on the voice recognition processing result.
A voice acquisition process that acquires voice data related to utterances made by the user,
When the voice data newly acquired in the voice acquisition process is voice data without a start word that does not include a start word, the operation-related word related to the related device operated in response to the previous operation command is newly acquired and started. Related word detection process to detect from wordless voice data,
A voice data transmission step of transmitting the voice data without the activation word to the voice recognition engine when an operation-related word is detected from the voice data without the activation word in the related word detection step.
including,
Voice operation method.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019217954A JP2021089310A (en) | 2019-12-02 | 2019-12-02 | Voice operation device, voice operation system and voice operation method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019217954A JP2021089310A (en) | 2019-12-02 | 2019-12-02 | Voice operation device, voice operation system and voice operation method |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2021089310A true JP2021089310A (en) | 2021-06-10 |
Family
ID=76220340
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019217954A Pending JP2021089310A (en) | 2019-12-02 | 2019-12-02 | Voice operation device, voice operation system and voice operation method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2021089310A (en) |
-
2019
- 2019-12-02 JP JP2019217954A patent/JP2021089310A/en active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11817094B2 (en) | Automatic speech recognition with filler model processing | |
KR101986354B1 (en) | Speech-controlled apparatus for preventing false detections of keyword and method of operating the same | |
JP6200516B2 (en) | Speech recognition power management | |
WO2019019812A1 (en) | Customizable wake-up voice commands | |
JP2021508842A (en) | Audio processing system and method | |
US20160004501A1 (en) | Audio command intent determination system and method | |
US10685664B1 (en) | Analyzing noise levels to determine usability of microphones | |
JP2008256802A (en) | Voice recognition device and voice recognition method | |
JP2019090942A (en) | Information processing unit, information processing system, information processing method and information processing program | |
KR20200025226A (en) | Electronic apparatus and thereof control method | |
US20230298575A1 (en) | Freeze Words | |
US20150310853A1 (en) | Systems and methods for speech artifact compensation in speech recognition systems | |
JP6459330B2 (en) | Speech recognition apparatus, speech recognition method, and speech recognition program | |
KR102061206B1 (en) | Speech-controlled apparatus for preventing false detections of keyword and method of operating the same | |
KR20230025457A (en) | Dynamic adaptation of on-device models of grouped assistant devices for cooperative processing of assistant requests | |
JP2021089310A (en) | Voice operation device, voice operation system and voice operation method | |
WO2019202351A1 (en) | Device control apparatus, and control method for controlling devices | |
JP2023553994A (en) | Adaptation of automatic speech recognition parameters based on hotword characteristics | |
US11699444B1 (en) | Speech recognition using multiple voice-enabled devices | |
US11735178B1 (en) | Speech-processing system | |
US20210241771A1 (en) | Electronic device and method for controlling the electronic device thereof | |
US11564194B1 (en) | Device communication | |
KR102417899B1 (en) | Apparatus and method for recognizing voice of vehicle | |
US11205433B2 (en) | Method and apparatus for activating speech recognition | |
JP6811865B2 (en) | Voice recognition device and voice recognition method |