JP2019020589A - Voice recognition system and processing stop method in the same - Google Patents
Voice recognition system and processing stop method in the same Download PDFInfo
- Publication number
- JP2019020589A JP2019020589A JP2017138891A JP2017138891A JP2019020589A JP 2019020589 A JP2019020589 A JP 2019020589A JP 2017138891 A JP2017138891 A JP 2017138891A JP 2017138891 A JP2017138891 A JP 2017138891A JP 2019020589 A JP2019020589 A JP 2019020589A
- Authority
- JP
- Japan
- Prior art keywords
- stop
- user
- reservation
- voice
- recognition system
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- User Interface Of Digital Computer (AREA)
Abstract
Description
本発明は、音声を常時解析する音声認識システムに関するものである。 The present invention relates to a speech recognition system that constantly analyzes speech.
周囲で発せられた音声を常時解析することによってユーザの音声指示を認識する音声認識システムが知られている。そのような音声認識システムでは、ユーザの発話が意図せずして音声指示として認識されるという誤認識の防止が課題となる。 2. Description of the Related Art A voice recognition system that recognizes a user's voice instruction by constantly analyzing voice emitted in the surroundings is known. In such a voice recognition system, there is a problem of preventing erroneous recognition that a user's utterance is unintentionally recognized as a voice instruction.
例えば下記の特許文献1には、音声指示(音声操作)を行う意図がユーザにあるか否かを判断し、その意図が無いと判断した場合には、意図が有ると判断した場合に比して、被制御装置の制御態様をユーザに意識させない方向(ユーザの邪魔にならない方向)に変更する音声認識システムが提案されている。例えば、当該音声認識システムが音声認識に失敗した場合、当該音声認識システムは、ユーザに音声指示の意図があると判断すれば「もう一度発話してください」という音声メッセージを出力し、ユーザに音声指示の意図がない判断すれば何も行わない。 For example, in Patent Document 1 below, it is determined whether or not the user has an intention to perform a voice instruction (voice operation), and when it is determined that the intention is not present, it is compared with a case where it is determined that there is an intention. Thus, there has been proposed a speech recognition system that changes the control mode of the controlled device in a direction that does not make the user aware of it (a direction that does not disturb the user). For example, if the voice recognition system fails in voice recognition, the voice recognition system outputs a voice message “Please speak again” if the user judges that the voice is intended to be voiced. If there is no intention, do nothing.
特許文献1の音声認識システムでは、ユーザの意図を判断することによって誤認識の発生を抑制しているが、その判断はユーザが発話した時点で行われ、発話後のユーザの挙動などは考慮されない。そのため、音声指示が一旦誤認識されるとそれを取り消すことができない。特に、実行中の処理を停止(終了あるいは中断を含む)させる音声指示が誤って認識されて、当該処理がユーザの意図に反して停止すると、例えば未保存のデータの消失などの問題が生じる。例えば、車両に搭載された音声認識システムが、搭乗者の「車を止めて」という発話の「止めて」を、実行中の処理を停止させる音声指示と誤認するようなケースが考えられる。 In the speech recognition system of Patent Document 1, the occurrence of misrecognition is suppressed by determining the user's intention, but the determination is made when the user utters, and the behavior of the user after the utterance is not considered. . For this reason, once a voice instruction is erroneously recognized, it cannot be canceled. In particular, if a voice instruction for stopping (including ending or interrupting) a process being executed is erroneously recognized and the process is stopped against the user's intention, a problem such as loss of unsaved data occurs. For example, a case may be considered in which a voice recognition system mounted on a vehicle misidentifies a passenger's utterance “stop the car” as a voice instruction to stop the process being executed.
本発明は以上のような課題を解決するためになされたものであり、実行中の処理の停止指示が誤って認識された場合でも、その停止指示の取り消しが可能な音声認識システムを提供することを目的とする。 The present invention has been made to solve the above-described problems, and provides a voice recognition system capable of canceling a stop instruction even if the stop instruction for the process being executed is erroneously recognized. With the goal.
本発明に係る音声認識システムは、周囲の音声を常時解析することによって音声指示を認識する音声認識部と、音声認識部により認識された音声指示に応じた処理を実行する処理実行部とを備え、処理実行部は、音声指示が実行中の処理の停止指示であった場合に、実行中の処理の停止処理を予約する停止予約設定部と、停止処理の予約から予め定められた時間が経過すると、予約された停止処理を実行する停止予約実行部と、音声指示以外の情報からユーザの意思を推定するユーザ意思推定部と、停止処理の予約から予め定められた時間が経過する前に、ユーザ意思推定部によりユーザに実行中の処理の停止意思がないと推定されると、停止処理の予約を解除する停止予約解除部と、を備える。 The voice recognition system according to the present invention includes a voice recognition unit that recognizes a voice instruction by constantly analyzing surrounding voices, and a process execution unit that executes a process according to the voice instruction recognized by the voice recognition unit. The process execution unit includes a stop reservation setting unit for reserving a stop process for a process being executed when a voice instruction is an instruction to stop the process being executed, and a predetermined time has elapsed from the reservation of the stop process. Then, the stop reservation execution unit that executes the reserved stop process, the user intention estimation unit that estimates the user's intention from information other than the voice instruction, and before a predetermined time elapses from the reservation of the stop process, When the user intention estimation unit estimates that the user does not intend to stop the process being executed, the user intention estimation unit includes a stop reservation cancellation unit that cancels the reservation of the stop process.
本発明に係る音声認識システムは、実行中の処理の停止指示を認識した場合に、実行中の処理を即時に停止させるのではなく、予め定められた時間後に停止するように停止処理を予約する。ただし、上記時間が経過する前に、ユーザに実行中の処理を停止させる意思がないと推定されると、当該音声認識システムは、停止処理の予約を解除する。そのため、停止指示が誤って認識された場合でも、ユーザの意思に応じて事後的にその取り消しを行うことができる。 The speech recognition system according to the present invention reserves a stop process so that it stops after a predetermined time, instead of immediately stopping the process being executed, when it recognizes a stop instruction of the process being executed. . However, if it is estimated that the user does not intend to stop the process being executed before the time has elapsed, the speech recognition system cancels the reservation for the stop process. Therefore, even when the stop instruction is recognized by mistake, it can be canceled afterwards according to the user's intention.
<実施の形態1>
図1は、実施の形態1に係る音声認識システム10の構成を示す機能ブロック図である。図1のように、音声認識システム10には、ユーザが音声認識システム10に音声を入力するためのマイク1と、ユーザが手で音声認識システム10を操作するための手操作入力装置2と、音声認識システム10がユーザに情報を提示するための情報出力装置3とが接続されている。
<Embodiment 1>
FIG. 1 is a functional block diagram showing the configuration of the
手操作入力装置2は、例えば、キーボードやタッチパッド、押しボタンなどで構成される。情報出力装置3は、例えば、画像や文字メッセージを表示する画面、音声メッセージや効果音を出力するスピーカなどで構成される。また、手操作入力装置2としてのタッチパッドを、情報出力装置3の画面上に配置することで、手操作入力装置2および情報出力装置3を1つのタッチパネルモニタとして構成してもよい。
The manual
音声認識システム10は、音声認識部11、手操作認識部12および処理実行部13を備えている。音声認識部11は、マイク1が取得した周囲の音声を常時解析することによって、ユーザの音声指示を認識する。手操作認識部12は、手操作入力装置2に入力された操作(以下「手操作」という)を認識する。処理実行部13は、音声認識部11により認識された音声指示、あるいは手操作認識部12により認識された手操作に応じた処理を実行する。
The
図1に示すように、処理実行部13は、停止予約設定部131、停止予約実行部132、停止予約解除部133およびユーザ意思推定部134を備えている。
As illustrated in FIG. 1, the
停止予約設定部131は、音声認識部11から取得した音声指示が、実行中の処理の停止させる指示であった場合に、その停止に係る処理が予め定められた時間後に実行されるように、停止処理を予約する。以下、実行中の処理を「実行中処理」、実行中処理の停止を指示する音声指示を「停止指示」、実行中処理を停止させる処理を「停止処理」、停止処理の予約から実行までの時間(上記の「予め定められた時間」)を「停止保留時間」という。なお、本明細書において、処理の「停止」とは、処理を完全に停止させる「終了」(停止時点からの再開ができない停止)や、一時的に停止させる「中断」(停止時点からの再開ができる停止)など、広い概念を含むものとする。
When the voice instruction acquired from the
停止予約実行部132は、停止予約設定部131が停止処理の予約を設定した時点からの経過時間を測定し、停止処理の予約から停止保留時間だけ経過したときに、予約されている停止処理を実行する。
The stop
ユーザ意思推定部134は、音声認識部11によって認識される音声指示以外の情報から、ユーザの意思、具体的には、ユーザに実行中処理を停止させる意思があるか否かを推定する。本実施の形態では、ユーザ意思推定部134は、ユーザが手操作入力装置2を用いて何らかの手操作を行ったときには、ユーザに実行中処理を停止させる意思がないと推定する。逆に、実行中処理の停止処理が予約されて以降、何の手操作も行われていなければ、ユーザ意思推定部134は、ユーザに実行中処理を停止させる意思があると推定する。
The user
停止予約解除部133は、停止処理の予約から停止保留時間が経過する前に、ユーザ意思推定部134がユーザに実行中処理の停止意思がないと推定すると、停止処理の予約を解除する。
If the user
ここで、図2〜図4のフローチャートを用いて、実施の形態1に係る音声認識システム10の動作について説明する。
Here, the operation of the
まず、図2を参照しつつ、音声認識システム10の音声指示に対する動作を説明する。音声認識システム10が起動すると、音声認識部11は、マイク1が取得した音声を解析する(ステップS101)。音声認識部11によりユーザの音声指示が認識されなければ(ステップS102でNO)、ステップS101が繰り返される。つまり、音声認識部11による周囲の音声の解析は常時行われる。
First, the operation of the
音声認識部11によりユーザの音声指示が認識されると(ステップS102でYES)、その認識結果が処理実行部13へ伝達され、処理実行部13は、当該音声指示が実行中処理の停止指示であるか否かを確認する(ステップS103)。
When the
音声認識部11により認識されたユーザの音声指示が、実行中処理の停止指示以外のものであった場合には(ステップS103でNO)、処理実行部13は、当該音声指示に応じた処理を実行し(ステップS104)、ステップS101へ戻る。なお、処理実行部13が実行する処理の内容によっては、情報出力装置3から画像や音声が出力される。
When the voice instruction of the user recognized by the
一方、音声認識部11により認識されたユーザの音声指示が、実行中処理の停止指示であった場合には(ステップS103でNO)、その実行中処理の停止処理が停止保留時間だけ経過した後に実行されるように、停止予約設定部131が停止処理を予約して(ステップS105)、ステップS101へ戻る。
On the other hand, when the voice instruction of the user recognized by the
このように、音声認識システム10は、ユーザの音声指示を認識するとそれに応じた処理を即時に実行するが、例外的に、音声指示が実行中処理の停止指示であった場合には、実行中処理を即時に停止させるのではなく、停止保留時間が経過した後に停止させる。
As described above, when the
次に、図3を参照しつつ、音声認識システム10の手操作に対する動作を説明する。音声認識システム10が起動すると、手操作認識部12は、手操作入力装置2にユーザの手操作が入力されたか否かを確認する(ステップS201)。手操作入力装置2に手操作が入力されると(ステップS201でYES)、手操作認識部12が手操作の内容を認識し、その認識結果が処理実行部13へ伝達される。処理実行部13は、当該手操作に応じた処理を実行し(ステップS202)、ステップS201へ戻る。なお、手操作入力装置2に手操作を入力されない間は(ステップS201でNO)、ステップS201が繰り返される。
Next, the operation | movement with respect to the manual operation of the
このように、音声認識システム10は、ユーザが入力した手操作に応じた処理(実行中処理を停止処理を含む)を即時に実行する。
As described above, the
図2のフローと図3のフローは並行して行われる。また、図2のステップS104で処理実行部13が実行する処理と、図3のステップS202で処理実行部13が実行する処理との間には、実質的な差はない。例えば、音声指示に応じて処理実行部13が実行した処理を、手操作によって停止させることもできるし、逆に、手操作に応じて処理実行部13が実行した処理を、音声操作によって停止させることもできる(この場合は停止処理の予約が行われる)。
The flow in FIG. 2 and the flow in FIG. 3 are performed in parallel. Further, there is no substantial difference between the process executed by the
次に、図4を参照して、音声認識システム10の予約された停止処理に関する動作を説明する。図4のフローは、処理実行部13の停止予約実行部132、停止予約解除部133およびユーザ意思推定部134により実行される。
Next, with reference to FIG. 4, an operation related to the reserved stop process of the
音声認識システム10が起動すると、停止予約実行部132は、停止予約設定部131によって設定された有効な停止処理の予約が存在するか否かを確認する(ステップS301)。すでに解除された予約や、すでに実行された予約、すでに停止した処理に対する予約などは、有効なものではない。有効な停止処理の予約が存在しなければ(ステップS301でNO)、新たな予約が設定されるまでステップS301が繰り返される。
When the
有効な停止処理の予約が存在する場合(ステップS301でYES)、ユーザ意思推定部134が、手操作認識部12による手操作の認識結果に基づいて、ユーザに実行中処理の停止意思があるか否かを推定する(ステップS302)。すなわち、ユーザ意思推定部134は、ユーザにより何らかの手操作が行われれば、ユーザに実行中処理の停止意思がないと推定する。逆に、実行中処理の停止処理が予約されて以降、何の手操作も行われていなければ、ユーザ意思推定部134は、ユーザに実行中処理の停止意思があると推定する。
If there is a reservation for a valid stop process (YES in step S301), whether the user
ユーザ意思推定部134により、ユーザに実行中処理の停止意思がないと推定された場合には(ステップS303でNO)、停止予約解除部133が停止処理の予約を解除して(ステップS304)、ステップS301へ戻る。
When the user
一方、ユーザ意思推定部134により、ユーザに実行中処理の停止意思があると推定された場合には(ステップS303でYES)、停止予約実行部132が、停止処理の予約から停止保留時間だけ経過したか否かを確認する(ステップS305)。このとき、停止保留時間が経過していれば(ステップS305でYES)、停止予約実行部132が予約されている停止処理を実行して(ステップS306)、ステップS301へ戻る。しかし、停止保留時間が経過していなければ(ステップS305でNO)、停止処理の予約を維持したまま、ステップS301へ戻る。
On the other hand, if the user
以上のように、実施の形態1に係る音声認識システム10は、実行中処理の停止指示が認識されても、当該実行中処理を即時に停止させるのではなく、停止保留時間だけ経過した後に停止させる。ただし、停止保留時が経過する前に、実行中処理を停止させる意思がユーザにないと推定されると、停止処理の予約は解除される。よって、停止指示が誤って認識された場合でも、ユーザの意思に応じて事後的にその取り消しを行うことができる。
As described above, the
なお、本発明に係る音声認識システム10の適用は特に限られず、例えば、PC(パーソナルコンピュータ)、携帯電話、スマートフォン、ナビゲーション装置など、音声指示を入力可能な電子機器に広く適用可能である。
The application of the
図5および図6は、それぞれ音声認識システム10のハードウェア構成の一例を示す図である。図1に示した音声認識システム10の各要素(音声認識部11、手操作認識部12および処理実行部13)は、例えば図5に示す処理回路50により実現される。すなわち、処理回路50は、周囲の音声を常時解析することによって音声指示を認識する音声認識部11と、ユーザの手操作を認識する手操作認識部12と、音声認識部11により認識された音声指示に応じた処理を実行する処理実行部13とを備える。また、その処理実行部13には、音声指示が実行中処理の停止指示であった場合に、実行中処理の停止処理を予約する停止予約設定部131と、停止処理の予約から停止保留時間が経過すると、予約された停止処理を実行する停止予約実行部132と、音声指示以外の情報からユーザの意思を推定するユーザ意思推定部134と、停止処理の予約から停止保留時間が経過する前に、ユーザ意思推定部134によりユーザに実行中処理の停止意思がないと推定されると、停止処理の予約を解除する停止予約解除部133とが、備えられる。処理回路50には、専用のハードウェアが適用されてもよいし、メモリに格納されるプログラムを実行するプロセッサ(中央処理装置(CPU:Central Processing Unit)、処理装置、演算装置、マイクロプロセッサ、マイクロコンピュータ、DSP(Digital Signal Processor)ともいう)が適用されてもよい。
FIG. 5 and FIG. 6 are diagrams each illustrating an example of a hardware configuration of the
処理回路50が専用のハードウェアである場合、処理回路50は、例えば、単一回路、複合回路、プログラム化したプロセッサ、並列プログラム化したプロセッサ、ASIC(Application Specific Integrated Circuit)、FPGA(Field-Programmable Gate Array)、またはこれらを組み合わせたものなどが該当する。音声認識システム10の各要素の機能のそれぞれは、複数の処理回路で実現されてもよいし、それらの機能がまとめて一つの処理回路で実現されてもよい。
When the
図6は、処理回路50がプロセッサを用いて構成されている場合における音声認識システム10のハードウェア構成を示している。この場合、音声認識システム10の各要素の機能は、ソフトウェア等(ソフトウェア、ファームウェア、またはソフトウェアとファームウェア)との組み合わせにより実現される。ソフトウェア等はプログラムとして記述され、メモリ52に格納される。処理回路50としてのプロセッサ51は、メモリ52に記憶されたプログラムを読み出して実行することにより、各部の機能を実現する。すなわち、音声認識システム10は、処理回路50により実行されるときに、周囲の音声を常時解析することによってユーザの音声指示を認識する処理と、認識された音声指示に応じた処理を実行する処理と、音声指示が実行中処理の停止指示であった場合に実行中処理の停止処理を予約する処理と、音声指示以外の情報からユーザの意思を推定する処理と、停止処理の予約から予め定められた時間が経過すると予約された停止処理を実行する処理と、停止処理の予約から予め定められた時間が経過する前に、ユーザに実行中処理の停止意思がないと推定されると停止処理の予約を解除する処理と、が結果的に実行されることになるプログラムを格納するためのメモリ52を備える。換言すれば、このプログラムは、音声認識システム10の各要素の動作の手順や方法をコンピュータに実行させるものであるともいえる。
FIG. 6 shows a hardware configuration of the
ここで、メモリ52は、例えば、RAM(Random Access Memory)、ROM(Read Only Memory)、フラッシュメモリー、EPROM(Erasable Programmable Read Only Memory)、EEPROM(Electrically Erasable Programmable Read Only Memory)などの、不揮発性または揮発性の半導体メモリ、HDD(Hard Disk Drive)、磁気ディスク、フレキシブルディスク、光ディスク、コンパクトディスク、ミニディスク、DVD(Digital Versatile Disc)およびそのドライブ装置等、または、今後使用されるあらゆる記憶媒体であってもよい。
Here, the
以上、音声認識システム10の各要素の機能が、ハードウェアおよびソフトウェア等のいずれか一方で実現される構成について説明した。しかしこれに限ったものではなく、音声認識システム10の一部の要素を専用のハードウェアで実現し、別の一部の要素をソフトウェア等で実現する構成であってもよい。例えば、一部の要素については専用のハードウェアとしての処理回路50でその機能を実現し、他の一部の要素についてはプロセッサ51としての処理回路50がメモリ52に格納されたプログラムを読み出して実行することによってその機能を実現することが可能である。
The configuration in which the function of each element of the
以上のように、音声認識システム10は、ハードウェア、ソフトウェア等、またはこれらの組み合わせによって、上述の各機能を実現することができる。
As described above, the
<実施の形態2>
処理実行部13が実行する処理の中には、停止する前に、ユーザに対して停止の許可を求めるものがあることが想定される。実施の形態2の音声認識システム10は、実行中処理をユーザの手操作に応じて停止させるときにはユーザに許可を要求するが、音声指示に応じて停止させるときにはその要求を省略する。
<
It is assumed that some of the processes executed by the
図7は、実施の形態2に係る音声認識システム10における実行中処理の停止処理を示すフローチャートである。すなわち、図7のフローは、図3のステップS202において、手操作に応じて実行中処理の停止処理が行われるとき、あるいは、図4のステップS306において、予約された停止処理が実行されるときに行われる。
FIG. 7 is a flowchart showing a stop process of the ongoing process in the
処理実行部13は、実行中処理の停止処理を開始する際に、停止対象である実行中処理が、ユーザに停止の許可を求めるフロー(停止許可要求フロー)を有しているか否か確認する(ステップS401)。当該実行中処理が停止許可要求フローを有していなければ(ステップS401でNO)、処理実行部13は、当該実行中処理をそのまま停止させて(ステップS405)、図7のフローを終了する。
When the
一方、停止対象である実行中処理が停止許可要求フローを有していれば(ステップS401でYES)、処理実行部13は、現在の停止処理が、ユーザの手操作に応じて行われているか、あるいは、停止予約実行部132からの指示によって行われているかを確認する(ステップS402)。言い換えれば、ステップS402では、現在の停止処理が、図3のステップS202で行われているか、あるいは、図4のステップS306で行われているかが確認される。
On the other hand, if the ongoing process to be stopped has a stop permission request flow (YES in step S401), the
現在の停止処理がユーザの手操作に応じて行われている場合(ステップS402でNO)、処理実行部13は、実行中処理の停止許可要求フローを実行する(ステップS403)。停止許可要求フローにおいては、処理実行部13が、情報出力装置3を用いてユーザに実行中処理の停止許可を求める。例えば、「○○処理を停止しますか?」などの音声メッセージを情報出力装置3のスピーカから出力させたり、同様の文字メッセージを情報出力装置3の画面に表示させたりする。ユーザは、当該実行中処理の停止を許可するか否かの応答を、音声指示または手操作によって行うことができる。
When the current stop process is performed according to the user's manual operation (NO in step S402), the
処理実行部13は、停止許可要求フローにおいてユーザの許可を得られれば(ステップS404でYES)、停止対象の実行中処理を停止させて(ステップS405)、図7のフローを終了する。しかし、ユーザの許可を得ることができなければ(ステップS404でNO)、実行中処理を停止させることなく、図7のフローを終了する。
If the
一方、現在の停止処理が、停止予約実行部132からの指示によって行われている場合には(ステップS402でYES)、処理実行部13は停止許可要求フローの実行を省略し(ステップS406)、停止対象の実行中処理を停止させて(ステップS405)、図7のフローを終了する。
On the other hand, when the current stop process is performed according to an instruction from the stop reservation execution unit 132 (YES in step S402), the
このように、本実施の形態では、処理実行部13は、手操作に応じて実行中処理の停止処理を行うときはユーザの許可を要求し、停止予約実行部132からの指示により実行中処理の停止処理を行うときはユーザの許可を要求しない。それにより、ユーザは、実行中処理の停止指示を行ってから当該実行中処理が停止するまでの間に、追加の音声指示や手操作を行う必要がなくなり、音声認識システム10の利便性が向上する。
As described above, in the present embodiment, the
<実施の形態3>
実施の形態1,2の音声認識システム10においては、実行中処理の停止処理を予約された後、停止保留時間が経過するまでの間は、ユーザがその予約を取り消すことができる。しかし、停止処理が予約されたことにユーザが気づかなかった場合には、ユーザの意思に反して、実行中処理が停止することも考えられる。そこで、実施の形態3では、音声認識システム10が、実行中処理の停止処理を予約するとユーザへの通知を行うようにする。
<Embodiment 3>
In the
図8は、実施の形態3に係る音声認識システム10の音声指示に対する動作を示す図である。図8のフローは、図2のフローに対し、停止処理の予約を行うステップS105の次に、停止処理を予約した旨をユーザに通知するステップS106が追加されたものとなっている。
FIG. 8 is a diagram illustrating an operation in response to a voice instruction of the
ステップS106では、停止処理の予約を設定した停止予約設定部131が、情報出力装置3を用いて、停止処理を予約した旨をユーザへ通知する。例えば、停止予約設定部131が、「○○処理の停止が予約されました」、「○秒後にデータを自動保存して終了します」などの音声メッセージを、情報出力装置3のスピーカから出力させたり、同様の文字メッセージを情報出力装置3の画面に表示させたりする。また、停止処理が予約されると、情報出力装置3の画面の色を変更したり、アイコンの色を変化させたり、アイコンを点滅させたりしてもよい。また、予約された停止処理が実行されるまでの残り時間を示すインジケータを、情報出力装置3の画面に表示させてもよい。
In step S <b> 106, the stop
本実施の形態によれば、停止処理が予約されたことにユーザが気づかせることができるため、ユーザの意思に反して実行中処理が停止することが防止される。 According to the present embodiment, since the user can be aware that the stop process is reserved, it is possible to prevent the ongoing process from stopping against the user's intention.
<実施の形態4>
図9は、実施の形態4に係る音声認識システム10の構成を示す機能ブロック図である。図9の音声認識システム10は、図1の構成に対し、手操作認識部12に代えてユーザ挙動情報取得部14を備える構成となっている。また、ユーザ挙動情報取得部14には、ユーザの映像を撮影するカメラ4と、ユーザの生体情報を取得するセンサ5とが接続されている。カメラ4およびセンサ5はいずれか片方のみでもよい。
<
FIG. 9 is a functional block diagram showing the configuration of the
ユーザ挙動情報取得部14は、カメラ4またはセンサ5から、ユーザの挙動を示す情報であるユーザ挙動情報を取得する。ユーザ挙動情報の内容としては、例えば、ユーザの位置、動作(仕草)、顔の向き、口の動き、視線の方向、発話時の呼吸動作などである。
The user behavior
また本実施の形態のユーザ意思推定部134は、ユーザ挙動情報取得部14が取得したユーザ挙動情報から、ユーザに実行中処理を停止させる意思があるか否かを推定する。例えば、ユーザの視線の方向または顔の向きが情報出力装置3の画面を向いている場合や、ユーザが手操作入力装置2へ向けて手を伸ばす動作をした場合、ユーザが(音声指示のために)口を開いたり大きく息を吸い込んだりした場合などには、ユーザ意思推定部134は、ユーザに実行中処理の停止意思がないと推定する。また、ユーザが上記のような挙動をとったとしても、ユーザの位置がマイク1、手操作入力装置2または情報出力装置3から一定距離以上離れている場合や、ユーザがマイク1、手操作入力装置2または情報出力装置3の前から立ち去った場合などには、ユーザ意思推定部134は、ユーザに実行中処理の停止意思があると推定してもよい。
Further, the user
実施の形態4に係る音声認識システム10の動作は、基本的に実施の形態1(図2〜図4)と同様である。ただし、図4のステップS302において、ユーザ意思推定部134は、ユーザ挙動情報から、ユーザに実行中処理の停止意思があるか否かを推定する。
The operation of the
実施の形態4においては、ユーザに実行中処理を停止させる意思があるか否かの判断基準が実施の形態1とは異なるが、実施の形態1と同様の効果が得られる。 In the fourth embodiment, although the criterion for determining whether or not the user has the intention to stop the running process is different from that in the first embodiment, the same effect as in the first embodiment can be obtained.
また、実施の形態4は、実施の形態1〜3と組み合わせることも可能である。つまり、図10のように、音声認識システム10に、手操作認識部12およびユーザ挙動情報取得部14の両方を設けてもよい。その場合、ユーザ意思推定部134は、手操作入力装置2にユーザの手操作が入力されたとき、および、ユーザの挙動が予め定められた条件を満たしたときの両方に、ユーザに実行中処理の停止意思がないと推定する。
The fourth embodiment can be combined with the first to third embodiments. That is, as shown in FIG. 10, the
<変形例>
本発明において、音声認識部11が実行中処理の停止指示と判断する音声は、基本的には「止めて」や「停止」、「終了」などの言語であるが、例えば、子供の泣き声などの非言語の音声でもよい。
<Modification>
In the present invention, the voice that the
例えば、ユーザが、PCを用いてインターネット通販サービスを利用しているときに子供の泣き声が聞こえると、ユーザはPCの前を離れて子供の世話をするであろう。このとき、ユーザが買い物データを一時保存し忘れて、通販サービスのシステム側がタイムアウトすると、買い物途中の情報が消えてしまい、買い物を再開するときには始めから買い物をやり直す必要が生じる。 For example, if a user hears a child's cry while using an Internet mail order service using a PC, the user will leave the PC and take care of the child. At this time, when the user forgets to temporarily save the shopping data and the system side of the mail order service times out, the information in the middle of shopping is lost, and when shopping is resumed, it is necessary to redo the shopping from the beginning.
上記のインターネット通販サービスの例において、子供の泣き声を停止指示と判断する音声認識システム10がPCに搭載されていれば、音声認識システム10が子供の泣き声を検出すると、買い物機能の処理の停止処理が予約される。その後、停止保留時間が経過すると、PC側で自動的に停止処理(買い物データの一時保存の処理を含む)が実行されため、買い物途中の情報が消えてしまうことを回避できる。また、停止保留時間が経過する前に、ユーザが子供の世話を終えて手操作または特定の仕草を行うと、買い物機能の処理の停止処理の予約が解除され、買い物を続行することができる。
In the example of the Internet mail order service described above, if the
実行中処理の停止指示と判断される非言語音声としては、子供の泣き声の他、ペットの鳴き声や、地震の衝撃音(ガタガタ音)などが考えられる。 As non-verbal speech that is determined to be an instruction to stop processing during execution, in addition to a child's cry, a pet's cry, an earthquake impact sound, and the like can be considered.
なお、本発明は、その発明の範囲内において、各実施の形態を自由に組み合わせたり、各実施の形態を適宜、変形、省略することが可能である。 It should be noted that the present invention can be freely combined with each other within the scope of the invention, and each embodiment can be appropriately modified or omitted.
1 マイク、2 手操作入力装置、3 情報出力装置、4 カメラ、5 センサ、10 音声認識システム、11 音声認識部、12 手操作認識部、13 処理実行部、14 ユーザ挙動情報取得部、131 停止予約設定部、132 停止予約実行部、133 停止予約解除部、134 ユーザ意思推定部、50 処理回路、51 プロセッサ、52 メモリ。 1 microphone, 2 hand operation input device, 3 information output device, 4 camera, 5 sensor, 10 speech recognition system, 11 speech recognition unit, 12 hand operation recognition unit, 13 process execution unit, 14 user behavior information acquisition unit, 131 stop Reservation setting part, 132 Stop reservation execution part, 133 Stop reservation cancellation part, 134 User intention estimation part, 50 Processing circuit, 51 Processor, 52 Memory.
Claims (7)
前記音声認識部により認識された前記音声指示に応じた処理を実行する処理実行部とを備え、
前記処理実行部は、
前記音声指示が実行中の処理の停止指示であった場合に、前記実行中の処理の停止処理を予約する停止予約設定部と、
前記停止処理の予約から予め定められた時間が経過すると、予約された前記停止処理を実行する停止予約実行部と、
前記音声指示以外の情報からユーザの意思を推定するユーザ意思推定部と、
前記停止処理の予約から前記予め定められた時間が経過する前に、前記ユーザ意思推定部により前記ユーザに前記実行中の処理の停止意思がないと推定されると、前記停止処理の予約を解除する停止予約解除部と、
を備える音声認識システム。 A voice recognition unit that recognizes voice instructions by constantly analyzing surrounding voices;
A process execution unit that executes a process according to the voice instruction recognized by the voice recognition unit;
The process execution unit
A stop reservation setting unit for reserving a stop process of the running process when the voice instruction is a stop instruction of the running process;
When a predetermined time has elapsed from the reservation of the stop process, a stop reservation execution unit that executes the reserved stop process;
A user intention estimation unit that estimates a user's intention from information other than the voice instruction;
If the user intention estimation unit estimates that the user does not intend to stop the process being executed before the predetermined time has elapsed since the reservation of the stop process, the reservation of the stop process is canceled. A stop reservation canceling section,
A speech recognition system comprising:
前記ユーザ意思推定部は、前記停止処理の予約から前記予め定められた時間が経過する前に前記手操作が認識されると、前記ユーザに前記実行中の処理の停止意思がないと推定する、
請求項1に記載の音声認識システム。 A manual operation recognition unit that recognizes the user's manual operation;
The user intention estimation unit estimates that the user does not intend to stop the process being executed when the manual operation is recognized before the predetermined time elapses from the reservation of the stop process.
The speech recognition system according to claim 1.
前記処理実行部は、前記手操作に応じて前記実行中の処理の停止処理を行うときは前記ユーザの許可を要求し、前記停止予約実行部からの指示により前記実行中の処理の停止処理を行うときは前記ユーザの許可を要求しない
請求項1または請求項2に記載の音声認識システム。 A manual operation recognition unit that recognizes the user's manual operation;
The process execution unit requests permission of the user when performing the process stop process in response to the manual operation, and performs the process stop process according to an instruction from the stop reservation execution unit. The voice recognition system according to claim 1 or 2, wherein when performing the operation, permission of the user is not requested.
前記ユーザ意思推定部は、前記停止処理の予約から前記予め定められた時間が経過する前に前記ユーザの挙動が予め定められた条件を満たすと、前記ユーザに前記実行中の処理の停止意思がないと推定する、
請求項1から請求項3のいずれか一項に記載の音声認識システム。 A user behavior information acquisition unit for acquiring information indicating the user behavior;
If the user behavior satisfies a predetermined condition before the predetermined time has elapsed since the reservation of the stop process, the user intention estimation unit may stop the user from stopping the process being executed. Presumed not,
The voice recognition system according to any one of claims 1 to 3.
請求項1から請求項4のいずれか一項に記載の音声認識システム。 The speech recognition system according to any one of claims 1 to 4, wherein the stop reservation setting unit notifies the user when the stop process is reserved.
請求項5に記載の音声認識システム。 The voice recognition system according to claim 5, wherein the notification to the user is a display or voice notification.
前記音声認識システムの音声認識部が、周囲の音声を常時解析することによって音声指示を認識し、
前記音声認識システムの処理実行部が、前記音声認識部により認識された前記音声指示に応じた処理を実行し、
前記音声指示が実行中の処理の停止指示であった場合に、前記音声認識システムの停止予約設定部が、前記実行中の処理の停止処理を予約し、
前記音声認識システムのユーザ意思推定部が、前記音声指示以外の情報からユーザの意思を推定し、
前記停止処理の予約から予め定められた時間が経過すると、前記音声認識システムの停止予約実行部が、予約された前記停止処理を実行し、
前記停止処理の予約から前記予め定められた時間が経過する前に、前記ユーザ意思推定部により前記ユーザに前記実行中の処理の停止意思がないと推定されると、前記音声認識システムの停止予約解除部が、前記停止処理の予約を解除する、
処理停止方法。 A method for stopping processing in a voice recognition system in a voice recognition system,
The voice recognition unit of the voice recognition system recognizes voice instructions by constantly analyzing surrounding voices,
A processing execution unit of the voice recognition system executes a process according to the voice instruction recognized by the voice recognition unit;
When the voice instruction is an instruction to stop the process being executed, the stop reservation setting unit of the voice recognition system reserves the stop process of the process being executed,
The user intention estimation unit of the voice recognition system estimates the user's intention from information other than the voice instruction,
When a predetermined time has elapsed since the reservation of the stop process, the stop reservation execution unit of the voice recognition system executes the reserved stop process,
If the user intention estimation unit estimates that the user does not intend to stop the process being executed before the predetermined time has elapsed since the reservation of the stop process, the stop reservation of the speech recognition system is performed. The cancellation unit cancels the reservation for the stop process,
How to stop processing.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017138891A JP2019020589A (en) | 2017-07-18 | 2017-07-18 | Voice recognition system and processing stop method in the same |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017138891A JP2019020589A (en) | 2017-07-18 | 2017-07-18 | Voice recognition system and processing stop method in the same |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2019020589A true JP2019020589A (en) | 2019-02-07 |
Family
ID=65355464
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017138891A Pending JP2019020589A (en) | 2017-07-18 | 2017-07-18 | Voice recognition system and processing stop method in the same |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2019020589A (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20190065199A (en) | 2019-05-21 | 2019-06-11 | 엘지전자 주식회사 | Apparatus and method of input/output for speech recognition |
-
2017
- 2017-07-18 JP JP2017138891A patent/JP2019020589A/en active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20190065199A (en) | 2019-05-21 | 2019-06-11 | 엘지전자 주식회사 | Apparatus and method of input/output for speech recognition |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106462383B (en) | Hands-free device with directional interface | |
US9953654B2 (en) | Voice command recognition apparatus and method | |
JP6227209B2 (en) | In-vehicle voice recognition device and in-vehicle device | |
KR20220123153A (en) | Augmentation of key phrase user recognition | |
US11373635B2 (en) | Information processing apparatus that fades system utterance in response to interruption | |
EP3540565A1 (en) | Control method for translation device, translation device, and program | |
JP2018097029A (en) | Voice recognition device and voice recognition method | |
WO2019142418A1 (en) | Information processing device and information processing method | |
JP5355898B2 (en) | In-vehicle device, function setting method, function setting program, and recording medium | |
JP2018171683A (en) | Robot control program, robot device, and robot control method | |
JP2008122483A (en) | Information processing apparatus, method and program | |
US20210058505A1 (en) | Device-based privacy activation for audio play mode | |
JP2014240856A (en) | Voice input system and computer program | |
JP2019020589A (en) | Voice recognition system and processing stop method in the same | |
JP2018116206A (en) | Voice recognition device, voice recognition method and voice recognition system | |
JP6950708B2 (en) | Information processing equipment, information processing methods, and information processing systems | |
US12051412B2 (en) | Control device, system, and control method | |
JP6496220B2 (en) | Information distribution apparatus and information distribution program | |
WO2021234839A1 (en) | Conversation indication detection device and conversation indication detection method | |
KR20190053392A (en) | Dialogue processing system(apparatus), and method for controlling thereof | |
JP2019132997A (en) | Voice processing device, method and program | |
US12062362B2 (en) | Information processing device, information processing system, and information processing method | |
WO2019175960A1 (en) | Voice processing device and voice processing method | |
WO2018056169A1 (en) | Interactive device, processing method, and program | |
CN110929241A (en) | Rapid start method, device, medium and electronic equipment of small program |