JP6350903B2 - 操作補助装置および操作補助方法 - Google Patents

操作補助装置および操作補助方法 Download PDF

Info

Publication number
JP6350903B2
JP6350903B2 JP2014104187A JP2014104187A JP6350903B2 JP 6350903 B2 JP6350903 B2 JP 6350903B2 JP 2014104187 A JP2014104187 A JP 2014104187A JP 2014104187 A JP2014104187 A JP 2014104187A JP 6350903 B2 JP6350903 B2 JP 6350903B2
Authority
JP
Japan
Prior art keywords
keyword
determination
predetermined
evaluation value
sight
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2014104187A
Other languages
English (en)
Other versions
JP2015219440A (ja
Inventor
國枝 伸行
伸行 國枝
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Intellectual Property Management Co Ltd
Original Assignee
Panasonic Intellectual Property Management Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Intellectual Property Management Co Ltd filed Critical Panasonic Intellectual Property Management Co Ltd
Priority to JP2014104187A priority Critical patent/JP6350903B2/ja
Priority to US14/711,774 priority patent/US9489941B2/en
Publication of JP2015219440A publication Critical patent/JP2015219440A/ja
Application granted granted Critical
Publication of JP6350903B2 publication Critical patent/JP6350903B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • G06F3/013Eye tracking input arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/083Recognition networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • G10L15/25Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2203/00Indexing scheme relating to G06F3/00 - G06F3/048
    • G06F2203/038Indexing scheme relating to G06F3/038
    • G06F2203/0381Multimodal input, i.e. interface arrangements enabling the user to issue commands by simultaneous use of input devices of different nature, e.g. voice plus gesture on digitizer
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Theoretical Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • User Interface Of Digital Computer (AREA)

Description

本発明は、キーワードの発話による操作を補助する操作補助装置および操作補助方法に関する。
近年、予め定められたキーワードが発話されたときにこれを検出し、システムを起動させる等の所定の機器動作を開始させる技術が、広く実用化されている。
キーワードが発話されたか否かの判定(以下「キーワード判定」という)は、通常、発話音声にキーワードが含まれていることの尤もらしさ(以下「尤度」という)を示す評価値(スコア)を算出し、当該評価値が所定の閾値以上となっているか否かを判定することによって行われる。評価値は、例えば、発話音声に対する音声認識処理によって算出される。
ところが、実際にキーワードが発話されていても、周囲の音や発話の不明瞭さ等に起因して、評価値が低くなる場合がある。この場合、キーワードが発話されているにもかかわらず機器操作を行うことができないといった状況(以下「検出漏れ」という)となる。また、逆に、実際にはキーワードが発話されていないにもかかわらず、周囲の音やキーワード以外の発話音声の評価値が高くなる場合がある。この場合、キーワードが発話されていないにもかかわらず機器操作が勝手に行われてしまうといった状況(以下「誤検出」という)となる。
そこで、発話による操作を補助する装置の側から、ユーザに対してキーワードを発話すべきタイミングを音声によって提示し、当該タイミングについてのみキーワード判定を行う技術が、例えば特許文献1に記載されている。かかる技術によれば、装置側が決定したタイミングで行われる操作について、検出漏れおよび誤検出の発生を低減することができる。
また、ユーザの視線の方向を検出し、ユーザが操作対象であるであるロボットに視線を向けている区間に、キーワード判定の閾値を低くする技術が、例えば特許文献2に記載されている。閾値が低いほど、検出漏れを低減することができ、閾値が高いほど、誤検出を低減することができる。したがって、かかる技術によれば、ユーザがロボットに話し掛けて行う操作について、検出漏れおよび誤検出の発生を低減することができる。
特開2010−281855号公報 特開2012−242609号公報 国際公開第2008/007781号
しかしながら、特許文献1に記載の技術は、装置側が決定したタイミングでしか、キーワード発話による操作(以下「キーワード発話操作」という)を行うことができない。また、特許文献2に記載の技術は、比較的長い時間、対象物に視線を向け続けることができる用途にしか、適用することができない。
例えば、車の運転者が、運転中にカーエアコンをオンにするといった操作は、通常、当該運転者が決定した任意のタイミングで行われる。また、かかる操作を、装置に視線を向け続けながら行うことはできない。したがって、特許文献1および特許文献2に記載の技術は、このような用途には適用することができない。すなわち、これらの従来技術は、非常に限られた用途でしか、高精度のキーワード発話操作を実現することができない、という課題を有する。
本発明の目的は、より広い用途において高精度なキーワード発話操作を実現することができる、操作補助装置および操作補助方法を提供することである。
本開示の操作補助装置は、所定の対象物に関連するキーワードが発話音声に含まれていることの尤度を示す評価値に基づいて、前記キーワードが発話されたか否かの判定を行う操作補助装置であって、ユーザの視線が前記所定の対象物に向いたとき、その旨を検出する視線入力部と、前記評価値が所定の範囲内である後に前記視線が前記所定の対象物に向いたことを条件として、前記判定の基準を緩和する判定基準調整部と、を有する。
本開示の操作補助装置は、所定の対象物に関連するキーワードが発話音声に含まれていることの尤度を示す評価値に基づいて、前記キーワードが発話されたか否かの判定を行う操作補助装置であって、前記判定を行うキーワード判定部から、前記評価値を取得し、ユーザの視線が前記所定の対象物に向いたとき、その旨を検出する視線入力部から、前記視線が前記所定の対象物に向いたか否かの検出結果を取得し、前記評価値が所定の範囲内である後に、前記ユーザの視線が前記所定の対象物に向いたことを条件として、前記キーワード判定部に対し前記判定の基準を緩和させる判定基準調整部、を有する。
本開示の操作補助装置は、発話音声を入力する音声入力部と、入力された前記発話音声を、所定の被操作対象に関連するキーワードが前記発話音声に含まれていることの尤度を示す評価値を算出し、算出された前記評価値に基づいて前記キーワードが発話されたか否かの判定を行う、キーワード検出装置へ送信する送信部と、前記キーワード検出装置から、前記キーワードが発話されたと判定されたことを示す発話検出情報が送信されたとき、当該発話検出情報を受信する受信部と、を有し、ユーザの視線が所定の対象物に向いたとき、その旨を検出する視線入力部、を更に有し、前記送信部は、前記視線が前記所定の対象物に向いたか否かを示す情報を、前記キーワード検出装置へ送信し、前記キーワード検出装置は、前記評価値が所定の範囲内である後に前記視線が前記所定の対象物に向いたことを条件として、前記判定の基準を緩和する装置である。
本開示の操作補助方法は、所定の対象物に関連するキーワードが発話音声に含まれていることの尤度を示す評価値に基づいて、前記キーワードが発話されたか否かの判定を行う操作補助装置における操作補助方法であって、ユーザの視線が前記所定の対象物に向いたとき、その旨を検出するステップと、前記評価値が所定の範囲内である後に前記視線が前記所定の対象物に向いたことを条件として、前記判定の基準を緩和するステップと、を有する。
本開示によれば、より広い用途において高精度なキーワード発話操作を実現することができる。
本発明の実施の形態1に係る操作補助装置の構成の一例を示すブロック図 本実施の形態1におけるユーザの動作の例を示す図 本実施の形態1におけるキーワード判定の基準の緩和の様子の一例を示す図 本実施の形態1に係る操作補助装置の動作の一例を示すフローチャート 本実施の形態1に係る操作補助装置を用いた場合のユーザおよび対象物の動作の一例を示す図 本実施の形態1における判定閾値の変更の仕方の他の例を示す図 本発明の実施の形態2に係る操作補助装置の構成の一例を示すブロック図 本実施の形態2におけるキーワード判定の基準の緩和の様子の一例を示す図 本実施の形態2に係る操作補助装置の動作の一例を示すフローチャート 本実施の形態2における二次判定処理の一例を示すフローチャート 本実施の形態2における操作補助装置を用いた場合のユーザおよび対象物の動作の一例を示す図 本発明の実施の形態の変形例におけるキーワードと視線方向とを対応付けたテーブルの一例を示す図
以下、本発明の各施の形態について、図面を参照して詳細に説明する。
(実施の形態1)
本発明の実施の形態1は、本発明を、車両の運転席近傍に設置される対象物に適用した場合の、具体的態様の例である。
<操作補助装置の構成>
まず、本実施の形態に係る操作補助装置の構成について説明する。
図1は、本実施の形態に係る操作補助装置の構成の一例を示すブロック図である。
図1において、操作補助装置100は、音声入力部200、視線入力部300、キーワード判定部410、および判定基準調整部420を有する。なお、操作補助装置100は、キーワード発話操作の対象となる対象物500(例えば、カーエアコン制御装置)に接続されている。なお、対象物500は、操作補助装置100と一体的に構成されていてもよい。
対象物500に関連するキーワードは、予め定められているものとする。また、かかるキーワードは、対象物500に対して所定の動作(例えば、ユーザとの対話処理)を開始させるためのキーワードであるものとする。
音声入力部200は、発話音声を入力し、入力された発話音声をキーワード判定部410へ出力する。例えば、音声入力部200は、マイクロフォン(図示せず)を備え、周囲の音を収集して音声データに変換し、キーワード判定部410へ出力する。例えば、車両の運転者あるいは同乗者が発話を行っている場合、当該音声データには、その発話音声が含まれることになる。
視線入力部300は、ユーザ(例えば、車両の運転者)の視線が対象物500に向いたとき、その旨を検出し、判定基準調整部420へ通知する。例えば、視線入力部300は、デジタルビデオカメラ(図示せず)を備え、ユーザの顔を撮影して得られた映像を解析し、ユーザの視線が対象物500に向いているか否かを、逐次判定する。なお、デジタルビデオカメラは、可視光カメラであってもよいし、赤外線カメラであってもよい。
ユーザの視線が対象物500に向いているか否かの判定(以下、「視線判定」という)は、例えば、特許文献3に記載の手法等の公知の視線方向検出手法を採用し、デジタルビデオカメラの位置および向きと対象物500の位置との間の相対位置関係を予め設定することにより、行うことができる。なお、視線入力部300は、視線の方向と、ユーザから見た対象物500の方向との差が、所定の範囲内であるとき、ユーザが対象物500に視線を向けていると判定してもよい。かかる所定の範囲は、例えば、視線方向の検出誤差や、各機器の設置誤差を考慮して、決定される。
キーワード判定部410は、音声入力部200から入力された音声データ(発話音声)に対する音声認識処理を逐次行って、発話音声に上記キーワードが含まれていることの尤度を示す評価値を算出する。そして、キーワード判定部410は、算出された評価値に基づいて、キーワードが発話されたか否かの判定を行う。
より具体的には、キーワード判定部410は、評価値が、比較的高い値に対応する第1のレベルであるという、第1の条件が満たされているか否かの判定(以下「キーワード判定」という)を行う。キーワード判定部410は、第1の条件が満たされているとき、とき、キーワードが発話されたと判定し、制御信号の出力等により、対象物500に対して所定の動作を開始させる。
また、キーワード判定部410は、第1の条件が満たされないとき、評価値が、第1のレベルよりも低い第2のレベルである否か(所定の範囲内であるか否か)を判定する。そして、キーワード判定部410は、評価値が第2のレベルであるとき、その旨を判定基準調整部420へ通知する。キーワード判定部410は、評価値が第2のレベル以下であるとき、原則、キーワードが発話されていないと判定する。
評価値は、例えば、発声された音声がキーワードらしいほど大きな値となるように設定される。評価値としては、例えば、公知の音声認識処理により得られる、音声データに含まれる音声がキーワードに一致することを判定する際に用いられる信頼度を、採用することができる。信頼度は、隠れマルコフモデル(HMM: Hidden Markov Model)における事後確率や、音声認識処理で得られた尤度(音響的な尤度や言語的な尤度)をもとに算出できる。この場合、キーワード判定部410は、上記キーワードに関する音響モデル、辞書、および言語モデルを予め格納しており、これらの情報を参照して音声認識処理を行い、上記評価値を算出する。
あるいは、評価値としては、例えば、予め登録されたキーワードの音声データと入力された音声データとの間の距離から計算される類似度を採用することができる。類似度は、音声データ間の距離を、例えば、スペクトル等の所定の音特徴量を使った公知の距離算出手法により計算し、音声区間でDP(Dynamic Programing)マッチングを行う等して算出することができる。この場合、キーワード判定部410は、上記キーワードの音声データあるいは音特徴量を、予め格納している。
判定基準調整部420は、評価値が、第2のレベルであり、その直後に視線が対象物500に向いたことを条件として、上記判定の基準を緩和する。より具体的には、判定基準調整部420は、第1のレベルと第2のレベルとの間の境界値を一時的に低くなるように変更して、キーワード判定部410に対し、上記判定を行わせる。すなわち、判定基準調整部420は、同様の発話音声あるいは評価値であっても、キーワードが発話された判定する可能性が高くなるようにする。第1のレベルと第2のレベルとの間の境界値は、第1のレベルの下限値に相当する。かかる境界値は、以下、適宜「判定閾値」という。
判定基準調整部420は、失敗判定部421およびパラメータ設定部422を有する。
失敗判定部421は、評価値が第2のレベルである後にユーザの視線が対象物500に向いたという、第2の条件が満たされているか否かを判定する。例えば、失敗判定部421は、キーワード判定部410からの通知および視線入力部300からの通知の有無、および、各通知の通知タイミングに基づき、かかる判定を行う。そして、失敗判定部421は、第2の条件が満たされているとき、その旨をパラメータ設定部422へ通知する。
パラメータ設定部422は、上記第2の条件が満たされているとき、キーワード判定部410に対し、判定閾値をより低い値に変更して、第1の条件が満たされているか否かの二次判定(以下、適宜「キーワード二次判定」という)を行わせる。例えば、パラメータ設定部422は、失敗判定部421からの通知を受けて、キーワード判定部410に対し、音声入力部200から新たに入力される発話音声、つまり、キーワード判定がまだ行われていない発話音声を対象として、変更後の判定閾値を用いて、キーワード二次判定を行わせる。
操作補助装置100は、図示しないが、例えば、CPU(Central Processing Unit)、制御プログラムを格納したROM(Read Only Memory)等の記憶媒体、およびRAM(Random Access Memory)等の作業用メモリを有する。この場合、上記した各部の機能は、CPUが制御プログラムを実行することにより実現される。
このような構成を有する操作補助装置100は、評価値が第2のレベルである後にユーザの視線が対象物500に向いたという第2の条件が満たされるとき、キーワード判定の基準を緩和して、キーワード二次判定を行うことができる。
<判定基準の緩和>
判定基準の緩和のトリガとなる第2の条件が満たされる場合とは、キーワードの検出漏れが生じた可能性が高い場合である。ここで、その理由について説明する。
図2は、キーワード発話操作を行うときのユーザの動作の例を示す図である。
ここでは、図2に示すように、対象物500が、ディスプレイ画面およびスピーカを備えたカーエアコン制御装置である場合を例示する。操作補助装置100は、例えば、カーエアコン制御装置としての対象物500に組み込まれている。
ここで、ユーザとの音声対話による対象物500に対する音声操作機能を起動させるためのキーワードとして、「ハロー、エージェント」が、操作補助装置100に予め登録されているものとする。なお、音声操作機能は、対象物500が発話音声による操作を受け付ける機能であり、例えば、操作補助装置100の音声認識機能を用いて実現される。また、以下の説明において、キーワードが発話されたときに、キーワードが発話されたと判定することを、「キーワード検出」という。
ユーザ600が発話した「ハロー、エージェント」という発話音声に対するキーワード検出が成功した場合、例えば、図2Aに示すように、対象物500は、上述の所定の動作として、音声対話を開始する。対象物500は、例えば、「はい、何を操作しますか?」という音声を出力する。続けて、ユーザが「エアコンをつけて」と発話したとき、対象物500はこれを検出し、「はい、エアコンを動作させます」という返答の音声を出力して、カーエアコンをオンにする。
一方、キーワード検出が失敗した場合、図2Bに示すように、対象物500は、上述の所定の動作を開始せず、「はい、何を操作しますか?」という音声を出力しない。すると、対象物500が何らかの反応を示すことを期待していたユーザ600は、図2Bに示すように、対象物500に対して、無意識に視線610を向ける。また、キーワード検出が連続して失敗する回数が多いほど、ユーザ600が対象物500に視線610を向ける率が高くなる。
したがって、ユーザ600の視線610が対象物500に向いた場合であって、その直前に、判定閾値よりも低いものの比較的高めの評価値が算出されていた場合、キーワードの検出漏れが生じた可能性が高いといえる。
図3は、キーワード判定の基準の緩和の様子の一例を示す図である。
図3Aは、入力音声の時間波形を示す図である。図3Bは、視線方向の検出結果を示す図である。図3Cは、判定閾値と評価値との関係を示す図である。図3A〜図3Cの横軸は、同一の時間軸に対応している。
例えば、時刻T1〜T2の区間に、キーワードが発話されたとする。この場合、図3Aに示すように、時刻T1〜T2の区間に対応する波形711が現れ、図3Cに示すように、当該区間に対応するタイミングで、評価値712が値Wで算出される。
ここで、図3Cに示すように、値Wは、第1のレベルの下限値(判定閾値)713のデフォルト値Th未満であり、かつ、第2のレベルの下限値Th以上であったとする。すなわち、値Wは、第2のレベルであったとする。この場合、キーワード検出は、原則、失敗となる。
ところが、図3Bに示すように、時刻T2の後の時刻Txに、ユーザの視線が対象物500に向いていることを示す検出結果714が得られたとする。
この場合、上述の第2の条件が満たされていることから、第1のレベルの下限値(判定閾値)713は、図3Cに示すように、より低い値Thに変更される。変更後の値Thは、例えば、デフォルト値Thの80%の値である。すると、例えば、時刻T3〜T4の区間に同様の発話が再度行われたときに、同様の値Wの評価値であっても、第1のレベルの下限値(判定閾値)713以上となる。その結果、2回目のキーワード検出は成功となる。
このように、操作補助装置100は、キーワードが繰り返し発話されたときの検出漏れを、より確実に防ぐことができる。また、操作補助装置100は、第2の条件が満たされるときに限定して判定基準を緩和するので、誤検出をできるだけ低減しつつ、上記検出漏れの防止を実現することができる。
<操作補助装置の動作>
次に、操作補助装置100の動作について説明する。
図4は、操作補助装置100の動作の一例を示すフローチャートである。
まず、ステップS1100において、音声入力部200は、一定間隔での音声データの入力を開始する。
そして、ステップS1200において、キーワード判定部410は、新たに入力された音声データの区間について、キーワードの評価値を算出する。
そして、ステップS1300において、キーワード判定部410は、算出された評価値が、第1のレベルであるか否かを判定する。すなわち、キーワード判定部410は、評価値を、判定閾値と比較する。初期状態において比較の対象となる判定閾値は、デフォルト値Thである。
キーワード判定部410は、評価値が第1のレベルである場合(S1300:YES)、処理をステップS1400へ進める。また、キーワード判定部410は、評価値が第1のレベルではない場合(S1300:NO)、処理をステップS1500へ進める。
ステップS1400において、キーワード判定部410は、対象物500に対して、例えば、図2に説明した音声対話等の所定の動作を開始させて、後述のステップS1900へ進む。
ステップS1500において、失敗判定部421は、評価値が、第2のレベルであるか否かを判定する。すなわち、失敗判定部421は、キーワード判定部410から、算出された評価値が第2のレベルである旨の通知を受けたか否かを判定する。
失敗判定部421は、評価値が第2のレベルではない場合(S1500:NO)、処理を後述のステップS1900へ進める。また、失敗判定部421は、評価値が第2のレベルである場合(S1500:YES)、処理をステップS1600へ進める。
ステップS1600において、視線入力部300は、視線の方向の入力を開始する。すなわち、視線入力部300は、一定間隔での視線判定を開始する。視線入力部300は、視線判定の間隔が十分に短い場合、視線が対象物500に向けられた時間がほんの一瞬であっても、これを検出することができる。なお、ステップS1600の視線の方向の入力を開始する処理は、ステップS1100等、より早い段階で行われてもよい。
そして、ステップS1700において、失敗判定部421は、評価値が第2のレベルである発話音声の区間から所定の第1の時間内に、視線が対象物500に向いたか否かを判定する。すなわち、失敗判定部421は、視線入力部300から、ユーザの視線が対象物500に向いている旨の通知を受けたか否かを判断する。失敗判定部421は、発話音声の区間からの経過時間を、例えば、処理がステップS1700へ進んだタイミングを起点として、タイマ(図示せず)を用いて計測する。
第1の時間は、対象物500が所定の動作を開始しなかった場合において、キーワードが発話されてからユーザが対象物500に視線を向けるまでの時間よりもやや長い時間であることが望ましく、例えば、5秒である。
なお、キーワードが発話されてから、対象物500の反応がないことに気付いてユーザが視線を対象物500に向けるまでには、通常、数秒程度の時間が掛かる。したがって、失敗判定部421は、発話音声の区間から所定の時間が経過するまでは、ステップS1700の判断処理を行わないようにしてもよい。
失敗判定部421は、第1の時間内に視線が対象物500に向かなかった場合(S1700:NO)、処理を後述のステップS1900へ進める。また、失敗判定部421は、第1の時間内に視線が対象物500に向いた場合(S1700:YES)、処理をステップS1800へ進める。
ステップS1800において、パラメータ設定部422は、キーワード判定部410がキーワード判定に用いる判定閾値(第1のレベルの下限値)を、第2の時間の間だけ下げさせて、処理をステップS1900へ進める。すなわち、キーワード判定部410は、パラメータ設定部422からの指示により判定閾値を変更した場合、変更してから所定の第2の時間が経過したとき、判定閾値を変更前の値に戻す。
第2の時間は、対象物500が所定の動作を開始しなかった場合において、ユーザが対象物500に視線を向けてから再びキーワードが発話されるまでの時間よりもやや長い時間であることが望ましく、例えば、3秒である。
ステップS1900において、キーワード判定部410は、ユーザ操作等によりキーワード発話操作の処理の終了が指示されたか否かを判断する。キーワード判定部410は、処理の終了が指示されていない場合(S1900:NO)、処理をステップS1200へ戻す。
すなわち、新たに入力された音声データの区間についてのキーワード判定(S1200)が繰り返されることになるが、ステップS1800を経た場合、第2の時間の間だけ、判定閾値が下がる。したがって、かかる時間の間に再びキーワードが発話された場合、かかる発話が検出され易くなる(図3C参照)。
そして、キーワード判定部410は、処理の終了が指示された場合(S1900:YES)、一連の動作を終了する。
このような動作により、操作補助装置100は、上述の第1の条件が満たされない場合に、上述の第2の条件が満たされるか否かを逐次判定することができる。そして、操作補助装置100は、第2の条件が満たされる場合に、一定時間キーワード判定の基準を緩和して、新たに入力される発話音声を対象として、キーワード二次判定を行うことができる。
図5は、操作補助装置100を用いた場合のユーザおよび対象物500の動作の一例を示す図であり、図2に対応するものである。
図5に示すように、ユーザ600が発話した「ハロー、エージェント」という発話音声に対するキーワード検出が失敗し、ユーザ600が対象物500に視線610を向けたとする。すると、操作補助装置100の機能により、キーワード判定の判定基準が一時的に緩和される。そして、判定基準が緩和されている間にユーザ600が再度「ハロー、エージェント」と発話すると、評価値は同等であっても、当該発話音声に対するキーワード検出は成功する。そして、「はい、何を操作しますか?」という音声が、対象物500から出力される。すなわち、キーワード発話操作が不能となる状態は、回避される。
<本実施の形態の効果>
以上のように、本実施の形態に係る操作補助装置100は、評価値に基づいてキーワード判定を行う状況において、評価値が所定の範囲内である後にユーザ600の視線が対象物500に向いたことを条件として、キーワード判定の判定基準を緩和する。
これにより、操作補助装置100は、誤検出の低減と検出漏れの低減とを両立した、高精度なキーワード発話操作を実現することができる。すなわち、操作補助装置100は、雑音に強いキーワード検出の特徴を保持した状態で、キーワードを繰り返し発話しても対象物500を操作することができないという事態を回避することができる。
また、本実施の形態に係る操作補助装置100は、ユーザが決定したタイミングで発話されたキーワードについて、キーワード判定を行うことができる。また、本実施の形態に係る操作補助装置100は、ユーザ600が無意識に一瞬視線を向ける動作があればよく、ユーザ600が対象物500を見続けながらキーワードを発話することを必要としない。
したがって、本実施の形態に係る操作補助装置100は、従来技術に比べて、より広い用途において、上述の効果を実現することができる。
ボタンを押す等の手動操作を要さずに機器操作ができることのメリットとしては、例えば、離れた場所にいても何も持たずに操作できることが挙げられる。ボタン操作が不要な音声インターフェースは、車の運転中といった手が離せないような状況に好適であり、助手席に同乗者に声で頼むような感覚での機器操作を実現することができる。
<本実施の形態の変形例>
なお、判定閾値の変更の仕方は、上述の例に限定されない。
図6は、判定閾値の変更の仕方の他の例を示す図であり、図3Cに対応するものである。
図6に示すように、キーワード判定部410は、第1のレベルの下限値(判定閾値)713を、第2の条件が満たされたと判定された時刻Txに、デフォルト値Thよりも低い値Thに変更した後、ゆっくりと増加させてもよい。この際、キーワード判定部410は、ユーザが再度キーワードを発話する可能性が十分に低い時刻Tyに、デフォルト値Thに戻るような速度で、第1のレベルの下限値(判定閾値)713を変化させることが望ましい。
これにより、第2の条件が満たされてからの経過時間が短いほど、キーワード検出が成功となり易くすることができる。また、ノイズの影響による誤判定を減らすことができる。
また、キーワード判定部410は、評価値が第2のレベルであると所定の時間以内の間隔で連続して判定された場合、その判定の回数の増大に応じて、判定閾値を段階的に低下させていくようにしてもよい。
また、キーワード判定部410は、視線が対象物500に連続して向けられた時間が長いほど、あるいは、視線が対象物500に向けられた可能性が高いほど、判定閾値をより大きく低下させてもよい。また、キーワード判定部410は、発話音声の音量が大きいほど、あるいは、第2のレベルであると複数回判定されたときの時間間隔が短いほど、判定閾値をより大きく低下させてもよい。
また、対象物500が、音声対話を行う装置であり、操作補助装置100が、かかる音声対話におけるキーワードを認識する機能を担ってもよい。この場合、操作補助装置100は、音声対話を開始するためのキーワードについて、判定閾値をより低い値に変更した場合には、音声対話における検出漏れを低減するために、音声対話が終了するまで、低い判定閾値を維持してもよい。
(実施の形態2)
本発明の実施の形態2は、判定基準を緩和して行われるキーワード二次判定を、そのトリガとなった元の発話音声を対象として行うようにした例である。
<操作補助装置の構成>
図7は、本実施の形態に係る操作補助装置の構成の一例を示すブロック図であり、実施の形態1の図1に対応するものである。図1と同一部分には同一符号を付し、これについての説明を省略する。
図7に示すように、本実施の形態に係る操作補助装置100aは、キーワード判定部410aおよび情報保存部430aを有する。
情報保存部430aは、メモリ等の情報記録媒体を有し、キーワード判定部410aにより使用される。具体的には、情報保存部430aは、評価値が第2のレベルであると判定された区間の発話音声と、当該評価値とを、保存する。
キーワード判定部410aは、実施の形態1のキーワード判定部410と同様の機能を有する。但し、キーワード判定部410aは、評価値が第2のレベルであると判定した区間、つまり、キーワードが発話された可能性が比較的高い区間の音声データを、逐次、情報保存部430aに保存する。また、キーワード判定部410aは、第2のレベルであると判定された上記評価値も、併せて情報保存部430aに保存する。そして、キーワード判定部410aは、パラメータ設定部422から判定閾値をより低い値に変更して、第1の条件が満たされているか否かの二次判定を行う旨の指示を受けたとき、情報保存部430aに保存し発話音声(つまり、過去に入力された発話音声)の音声データを対象として、かかる二次判定を行う。
<判定基準の緩和>
図8は、キーワード判定の基準の緩和の様子の一例を示す図であり、実施の形態1の図3に対応するものである。図8と同一部分には同一符号を付し、これについての説明を省略する。
図8Aは、入力音声の時間波形を示す図である。図8Bは、視線方向の検出結果を示す図である。図8Cは、初期状態における判定閾値と評価値との関係を示す図である。図8Dは、二次判定の対象となる音声データの様子を示す図である。図8Eは、二次判定時の判定閾値と評価値との関係を示す図である。図8A〜図8Eの横軸は、同一の時間軸に対応している。
図8Aに示すように、キーワードが発話され、対応する波形711が現れたとする。ところが、図8Cに示すように、評価値712の値Wは、第1のレベルの下限値(判定閾値)713のデフォルト値Th未満かつ第2のレベルの下限値Th以上であったとする。この場合、図8Dに示すように、値Wが得られる元となった区間の音声データ(以下「キーワード候補データ」という)711aが、情報保存部430aに保存される。
そして、図8Bに示すように、ユーザの視線が対象物500に向いていることを示す検出結果714が得られたとする。この場合、図8Eに示すように、キーワード判定部410aは、第1のレベルの下限値(判定閾値)713をより低い値Thに変更する。そして、キーワード判定部410aは、保存されたキーワード候補データ711aを情報保存部430aから読み出して、かかる変更後の値Thを判定閾値713として用いる。すると、例えば、同様の値Wの評価値712aであっても、判定閾値713以上となる。その結果、やり直しのキーワード検出は成功となる。
<操作補助装置の動作>
図9は、操作補助装置100aの動作の一例を示すフローチャートであり、実施の形態1の図4に対応するものである。図4と同一部分には同一ステップ番号を付し、これについての説明を省略する。
キーワード判定部410aは、算出された評価値が第2のレベルである場合(S1500:YES)、ステップS1510aにおいて、評価値が第2のレベルであると判定された発話音声(音声データ)を情報保存部430aに保存して、ステップS1600へ進む。
そして、キーワード判定部410aは、第1の時間内に視線が対象物500に向いた場合(S1700:YES)、ステップS1800aにおいて、二次判定処理を実行する。二次判定処理は、保存された発話音声に対してキーワード二次判定を行う処理である。
図10は、二次判定処理(図9のステップS1800a)の一例を示すフローチャートである。
ステップS1810aにおいて、キーワード判定部410aは、キーワード判定に用いる判定閾値(第1のレベルの下限値)を、第2の時間の間だけ下げて、過去に入力された区間についてのキーワードの評価値を取得する。評価値は、情報保存部430aに保存された発話音声に対して再度音声認識処理を行って評価値を算出することによって取得してもよいし、情報保存部430aに保存された評価値を読み出すことによって取得してもよい。
そして、ステップS1820aにおいて、キーワード判定部410aは、図4および図9のステップS1300と同様に、算出された評価値が、第1のレベルであるか否かを判定する。キーワード判定部410aは、評価値が第1のレベルである場合(S1820a:YES)、処理をステップS1830aへ進める。また、キーワード判定部410aは、評価値が第1のレベルではない場合(S1820a:NO)、処理をステップS1840aへ進める。
ステップS1830aにおいて、キーワード判定部410aは、図4および図9のステップS1400と同様に、対象物500に対して所定の動作を開始させて、図9の処理へ戻る。
また、ステップS1840aにおいて、キーワード判定部410aは、情報保存部430aに保存された情報(音声データおよび評価値)を無効化して、図9の処理へ戻る。キーワード判定部410aは、例えば、保存された情報を、情報保存部430aから削除する。
このような処理により、操作補助装置100aは、判定基準を緩和して行われるキーワード判定を、そのトリガとなった元の発話音声を対象として行うことができる。
図11は、操作補助装置100aを用いた場合のユーザおよび対象物500の動作の一例を示す図であり、実施の形態1の図2および図5に対応するものである。
図11に示すように、ユーザ600が発話した「ハロー、エージェント」という発話音声に対するキーワード検出が失敗し、ユーザ600が対象物500に視線610を向けたとする。すると、操作補助装置100aの機能により、キーワード判定の判定基準を緩和して、過去に発話された「ハロー、エージェント」という発話音声に基づいて保存された情報(音声データ、評価値)を用いて、キーワード二次判定が行われる。この結果、再度の発話が行われる前にキーワード検出が成功し、「はい、何を操作しますか?」という音声が対象物500から出力される。
<本実施の形態の効果>
以上のように、本実施の形態にかかる操作補助装置100aは、ユーザによる再度のキーワード発話を必要とせずに、判定基準を緩和してキーワードの二次判定を行うことができる。
したがって、本実施の形態にかかる操作補助装置100aは、実施の形態1に比べて、より早い時刻に、キーワードが発話されたとの判定結果を得ることができ、対象物500に対して所定の動作を開始させることができる。また、本実施の形態にかかる操作補助装置100aは、キーワードの再度の発話を必要としないため、ユーザの負担を軽減することができる。
なお、キーワード判定部410aは、判定基準を緩和して行われるキーワード二次判定を、そのトリガとなった元の発話音声以外の、既にキーワード判定が行われた発話音声を対象として行ってもよい。この場合、キーワード判定部410aは、例えば、直前の所定の時間に入力された音声データに対して音声認識処理を行い、変更後の判定閾値以上となる評価値が得られるかどうかを判定すればよい。
(各実施の形態の応用例)
なお、以上説明した操作補助装置は、複数のキーワードを検出の対象としてもよい。また、操作補助装置には、同一の対象物に対して複数の動作に対応するキーワードが登録されていてもよい。例えば、エアコン操作に関して、「エアコンをつける」、「エアコンを強く」、「エアコンを止める」等の動作に関連付けられたキーワードを、検出対象としてもよい。また、複数の対象物について、異なるキーワードが登録されている場合には、対象物毎に、視線が向いているか否かの判定を行う必要がある。この場合、操作補助装置は、例えば、登録された各キーワードと対象物の方向(検出されるべき視線方向)とを対応付けたテーブルを使用する。
図12は、キーワードと視線方向とを対応付けたテーブルの一例を示す図である。
操作補助装置は、例えば、図12に示すテーブル720を、格納する。テーブル720は、識別情報(No)721に対応付けて、登録されたキーワード722と、視線方向を示す情報723とが、対応付けて記述している。なお、視線方向を示す情報723としては、実際には、例えば、カメラ位置を基準とした座標系における方向ベクトルが記述される。
また、判定閾値のデフォルト値および変更後の値は、評価値の種別、操作補助装置の用途、およびユーザが要求する精度等により、適切な値が採用されることが望ましい。適切な値は、例えば、実験や経験則から決定される。
また、操作補助装置は、第2の条件が満たされた時点、つまり、評価値が所定の範囲内である後に視線が所定の対象物に向いたことを条件として、キーワード判定を再度行うことなく、キーワードが発話されたと判定してもよい。すなわち、操作補助装置は、既に行われたキーワード判定そのものの基準を緩和してもよい。この場合、第2のレベルの下限値は、誤検出を必要な精度で防ぐことができる程度に、高い値であることが望ましい。
また、操作補助装置が採用する評価値の種別、評価値の取得手法、視線判定の手法、およびキーワード検出結果の用途は、上述の例に限定されるものではない。例えば、カーナビゲーション装置やカーオーディオ装置等の各種車載機器の他、家電機器や工場設備等、各種の機器や設備を、上記対象物とすることができる。
また、操作補助装置の構成の一部を、所定の対象物の近傍にクライアント側装置として配置し、操作補助装置の構成の他の部分を、クライアント装置と離隔した装置あるいはシステムとして配置してもよい。
例えば、上述のキーワード判定部および判定基準調整部は、通信ネットワーク上に配置されたサーバ等に、キーワード検出装置として配置することができる。
この場合、例えば、操作補助装置には、入力された発話音声および視線が所定の対象物に向いたか否かを示す情報をキーワード検出装置に送信する送信部と、キーワード検出装置から送信された発話検出情報を受信する受信部とを設ければよい。ここで、発話検出情報とは、キーワードが発話されたと判定されたことを示す情報である。
また、キーワード検出装置には、操作補助装置から送信された発話音声および視線が所定の対象物に向いたか否かを示す情報を受信する受信部と、キーワード判定部によるキーワード判定の結果に応じて発話検出情報を操作補助装置へ送信する送信部とを設ければよい。
更に、キーワード判定部と判定基準調整部とは、別の装置に配置することも可能である。この場合、判定基準調整部は、少なくとも、通信等により、キーワード判定部から評価値を取得し、視線入力部から視線が所定の対象物に向いたか否かの検出結果を取得する必要がある。
このような分散型のシステムを採用することにより、各装置の処理負荷を軽減したり、1つの機能部を複数のユーザで共用することが容易となる。
また、各装置のハードウェア構成は、上述の例に限定されない。
例えば、各機能部は、典型的には、集積回路であるIC(Integrated Circuit)として実現されてもよい。各機能部は、個別に1チップ化されてもよいし、その一部または全部を含むように1チップ化されてもよい。なお、かかる集積回路は、集積度の違いにより、LSI(Large Scale Integration)、システムLSI、スーパーLSI、ウルトラLSI等とも称される。
また、集積回路化の手法はICに限るものではなく、専用回路で実現してもよい。すなわち、各機能部は、LSI製造後に、プログラムすることが可能なFPGA(Field Programmable Gate Array)や、LSI内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル・プロセッサを利用することにより、実現されるものであってもよい。
更には、半導体技術の進歩または派生する別技術によってLSIに置き換えることができる各種集積回路化の技術を用いて、回路の集積化を行ってもよい。このような技術としては、例えば、バイオ技術の適用が挙げられる。
また、各装置のメモリは、不揮発性メモリであればよく、例えば、ディップスイッチのように、スイッチでデータを保持するものであってもよい。
本開示の操作補助装置は、所定の対象物に関連するキーワードが発話音声に含まれていることの尤度を示す評価値に基づいて、前記キーワードが発話されたか否かの判定を行う操作補助装置であって、ユーザの視線が前記所定の対象物に向いたとき、その旨を検出する視線入力部と、前記評価値が所定の範囲内である後に前記視線が前記所定の対象物に向いたことを条件として、前記判定の基準を緩和する判定基準調整部と、を有する。
なお、上記操作補助装置は、前記発話音声を入力する音声入力部と、入力された前記発話音声に基づいて前記評価値を算出し、算出された前記評価値が所定の判定閾値以上であるとき、前記キーワードが発話されたと判定するキーワード判定部と、を有し、前記所定の範囲は、前記評価値が取り得る値の最小値よりも高く、前記所定の判定閾値よりも低い所定の数値範囲であってもよい。
また、上記操作補助装置において、前記判定基準調整部は、前記キーワードが発話されたと判定したとき、前記所定の対象物に対して前記所定の動作を開始させてもよい。
また、上記操作補助装置において、前記判定基準調整部は、前記キーワードが発話されたと判定したとき、前記所定の対象物に対する音声操作機能を起動させてもよい。
また、上記操作補助装置において、前記キーワード判定部は、前記評価値が前記所定の判定閾値よりも高いという、第1の条件が満たされているか否かを判定し、前記第1の条件が満たされるとき、前記キーワードが発話されたと判定し、前記判定基準調整部は、前記評価値が前記所定の数値範囲に属する値である後に前記視線が前記所定の対象物に向いたという、第2の条件が満たされているか否かを判定する失敗判定部と、前記第2の条件が満たされているとき、前記キーワード判定部に対し、前記所定の判定閾値をより低い値に変更して、前記第1の条件が満たされているか否かの二次判定を行わせるパラメータ設定部と、を有してもよい。
また、上記操作補助装置において、前記失敗判定部は、前記評価値が前記所定の数値範囲に属する値である前記発話音声の区間から所定の第1の時間内に前記視線が前記対象物に向いたことを条件として、前記第2の条件が満たされていると判定してもよい。
また、上記操作補助装置において、前記キーワード判定部は、前記二次判定を、前記判定が行われていない前記発話音声を対象として行ってもよい。
また、上記操作補助装置において、前記キーワード判定部は、前記所定の判定閾値を変更してから所定の第2の時間が経過したとき、前記所定の判定閾値を変更前の値に戻してもよい。
また、上記操作補助装置は、入力された前記発話音声あるいは算出された前記評価値を示す情報を保存する情報保存部、を有し、前記キーワード判定部は、前記二次判定を、保存された前記情報を用いて、既に前記判定が行われた前記発話音声を対象として行ってもよい。
本開示の操作補助装置は、所定の対象物に関連するキーワードが発話音声に含まれていることの尤度を示す評価値に基づいて、前記キーワードが発話されたか否かの判定を行う操作補助装置であって、前記判定を行うキーワード判定部から、前記評価値を取得し、ユーザの視線が前記所定の対象物に向いたとき、その旨を検出する視線入力部から、前記視線が前記所定の対象物に向いたか否かの検出結果を取得し、前記評価値が所定の値である後に、前記ユーザの視線が前記所定の対象物に向いたことを条件として、前記キーワード判定部に対し前記判定の基準を緩和させる判定基準調整部、を有する。
本開示の操作補助装置は、発話音声を入力する音声入力部と、入力された前記発話音声を、所定の被操作対象に関連するキーワードが前記発話音声に含まれていることの尤度を示す評価値を算出し、算出された前記評価値に基づいて前記キーワードが発話されたか否かの判定を行う、キーワード検出装置へ送信する送信部と、前記キーワード検出装置から、前記キーワードが発話されたと判定されたことを示す発話検出情報が送信されたとき、当該発話検出情報を受信する受信部と、を有し、ユーザの視線が所定の対象物に向いたとき、その旨を検出する視線入力部、を更に有し、前記送信部は、前記視線が前記所定の対象物に向いたか否かを示す情報を、前記キーワード検出装置へ送信し、前記キーワード検出装置は、前記評価値が所定の範囲内である後に前記視線が前記所定の対象物に向いたことを条件として、前記判定の基準を緩和する装置である。
本開示の操作補助方法は、所定の対象物に関連するキーワードが発話音声に含まれていることの尤度を示す評価値に基づいて、前記キーワードが発話されたか否かの判定を行う操作補助装置における操作補助方法であって、ユーザの視線が前記所定の対象物に向いたとき、その旨を検出するステップと、前記評価値が所定の範囲内である後に前記視線が前記所定の対象物に向いたことを条件として、前記判定の基準を緩和するステップと、を有する。
本発明は、より広い用途において、高精度なキーワード発話操作を実現することができる、操作補助装置および操作補助方法として有用である。本発明は、例えば、車載器搭載の音声認識装置および音声対話装置に好適である。
100、100a 操作補助装置
200 音声入力部
300 視線入力部
410、410a キーワード判定部
420 判定基準調整部
421 失敗判定部
422 パラメータ設定部
430a 情報保存部
500 対象物

Claims (12)

  1. 所定の対象物に関連するキーワードが発話音声に含まれていることの尤度を示す評価値に基づいて、前記キーワードが発話されたか否かの判定を行う操作補助装置であって、
    ユーザの視線が前記所定の対象物に向いたとき、その旨を検出する視線入力部と、
    前記評価値が所定の範囲内である後に前記視線が前記所定の対象物に向いたことを条件として、前記判定の基準を緩和する判定基準調整部と、を有する、
    操作補助装置。
  2. 前記発話音声を入力する音声入力部と、
    入力された前記発話音声に基づいて前記評価値を算出し、算出された前記評価値が所定の判定閾値以上であるとき、前記キーワードが発話されたと判定するキーワード判定部と、を有し、
    前記所定の範囲は、前記評価値が取り得る値の最小値よりも高く、前記所定の判定閾値よりも低い所定の数値範囲である、
    請求項1に記載の操作補助装置。
  3. 前記キーワード判定部は、
    前記キーワードが発話されたと判定したとき、前記所定の対象物に対して所定の動作を開始させる、
    請求項に記載の操作補助装置。
  4. 前記キーワード判定部は、
    前記キーワードが発話されたと判定したとき、前記所定の対象物に対する音声操作機能を起動させる、
    請求項に記載の操作補助装置。
  5. 前記キーワード判定部は、
    前記評価値が前記所定の判定閾値よりも高いという、第1の条件が満たされているか否かを判定し、前記第1の条件が満たされるとき、前記キーワードが発話されたと判定し、
    前記判定基準調整部は、
    前記評価値が前記所定の数値範囲に属する値である後に前記視線が前記所定の対象物に向いたという、第2の条件が満たされているか否かを判定する失敗判定部と、
    前記第2の条件が満たされているとき、前記キーワード判定部に対し、前記所定の判定閾値をより低い値に変更して、前記第1の条件が満たされているか否かの二次判定を行わせるパラメータ設定部と、を有する、
    請求項2に記載の操作補助装置。
  6. 前記失敗判定部は、
    前記評価値が前記所定の数値範囲に属する値である前記発話音声の区間から所定の第1の時間内に前記視線が前記対象物に向いたことを条件として、前記第2の条件が満たされていると判定する、
    請求項5に記載の操作補助装置。
  7. 前記キーワード判定部は、
    前記二次判定を、前記判定が行われていない前記発話音声を対象として行う、
    請求項5に記載の操作補助装置。
  8. 前記キーワード判定部は、
    前記所定の判定閾値を変更してから所定の第2の時間が経過したとき、前記所定の判定閾値を変更前の値に戻す、
    請求項7に記載の操作補助装置。
  9. 入力された前記発話音声あるいは算出された前記評価値を示す情報を保存する情報保存部、を有し、
    前記キーワード判定部は、
    前記二次判定を、保存された前記情報を用いて、既に前記判定が行われた前記発話音声を対象として行う、
    請求項5に記載の操作補助装置。
  10. 所定の対象物に関連するキーワードが発話音声に含まれていることの尤度を示す評価値に基づいて、前記キーワードが発話されたか否かの判定を行う操作補助装置であって、
    前記判定を行うキーワード判定部から、前記評価値を取得し、ユーザの視線が前記所定の対象物に向いたとき、その旨を検出する視線入力部から、前記視線が前記所定の対象物に向いたか否かの検出結果を取得し、前記評価値が所定の範囲内である後に、前記ユーザの視線が前記所定の対象物に向いたことを条件として、前記キーワード判定部に対し前記判定の基準を緩和させる判定基準調整部、を有する、
    操作補助装置。
  11. 発話音声を入力する音声入力部と、
    入力された前記発話音声を、所定の被操作対象に関連するキーワードが前記発話音声に含まれていることの尤度を示す評価値を算出し、算出された前記評価値に基づいて前記キーワードが発話されたか否かの判定を行う、キーワード検出装置へ送信する送信部と、
    前記キーワード検出装置から、前記キーワードが発話されたと判定されたことを示す発話検出情報が送信されたとき、当該発話検出情報を受信する受信部と、を有し、
    ユーザの視線が所定の対象物に向いたとき、その旨を検出する視線入力部、を更に有し、
    前記送信部は、
    前記視線が前記所定の対象物に向いたか否かを示す情報を、前記キーワード検出装置へ送信し、
    前記キーワード検出装置は、前記評価値が所定の範囲内である後に前記視線が前記所定の対象物に向いたことを条件として、前記判定の基準を緩和する装置である、
    操作補助装置。
  12. 所定の対象物に関連するキーワードが発話音声に含まれていることの尤度を示す評価値に基づいて、前記キーワードが発話されたか否かの判定を行う操作補助装置における操作補助方法であって、
    ユーザの視線が前記所定の対象物に向いたとき、その旨を検出するステップと、
    前記評価値が所定の範囲内である後に前記視線が前記所定の対象物に向いたことを条件として、前記判定の基準を緩和するステップと、を有する、
    操作補助方法。
JP2014104187A 2014-05-20 2014-05-20 操作補助装置および操作補助方法 Expired - Fee Related JP6350903B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2014104187A JP6350903B2 (ja) 2014-05-20 2014-05-20 操作補助装置および操作補助方法
US14/711,774 US9489941B2 (en) 2014-05-20 2015-05-14 Operation assisting method and operation assisting device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014104187A JP6350903B2 (ja) 2014-05-20 2014-05-20 操作補助装置および操作補助方法

Publications (2)

Publication Number Publication Date
JP2015219440A JP2015219440A (ja) 2015-12-07
JP6350903B2 true JP6350903B2 (ja) 2018-07-04

Family

ID=54556501

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014104187A Expired - Fee Related JP6350903B2 (ja) 2014-05-20 2014-05-20 操作補助装置および操作補助方法

Country Status (2)

Country Link
US (1) US9489941B2 (ja)
JP (1) JP6350903B2 (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6739907B2 (ja) * 2015-06-18 2020-08-12 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 機器特定方法、機器特定装置及びプログラム
US9990921B2 (en) * 2015-12-09 2018-06-05 Lenovo (Singapore) Pte. Ltd. User focus activated voice recognition
US20180061396A1 (en) * 2016-08-24 2018-03-01 Knowles Electronics, Llc Methods and systems for keyword detection using keyword repetitions
US10079015B1 (en) * 2016-12-06 2018-09-18 Amazon Technologies, Inc. Multi-layer keyword detection
WO2019077012A1 (en) * 2017-10-18 2019-04-25 Soapbox Labs Ltd. METHODS AND SYSTEMS FOR SPEECH DETECTION
US10465349B2 (en) 2017-12-12 2019-11-05 Care Barrier Limited Illuminated barrier apparatus
CN110351647A (zh) * 2019-07-17 2019-10-18 东莞市实优特电子有限公司 一种新型耳机防水测试装置
JP7242873B2 (ja) * 2019-09-05 2023-03-20 三菱電機株式会社 音声認識補助装置および音声認識補助方法

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0981309A (ja) * 1995-09-13 1997-03-28 Toshiba Corp 入力装置
US20020107695A1 (en) * 2001-02-08 2002-08-08 Roth Daniel L. Feedback for unrecognized speech
EP1262954A1 (en) * 2001-05-30 2002-12-04 Telefonaktiebolaget L M Ericsson (Publ) Method and apparatus for verbal entry of digits or commands
WO2008007781A1 (fr) 2006-07-14 2008-01-17 Panasonic Corporation Dispositif de détection de la direction d'axe visuel et procédé de détection de la direction de ligne visuelle
JP2008058409A (ja) * 2006-08-29 2008-03-13 Aisin Aw Co Ltd 音声認識方法及び音声認識装置
US8515754B2 (en) * 2009-04-06 2013-08-20 Siemens Aktiengesellschaft Method for performing speech recognition and processing system
JP2010281855A (ja) * 2009-06-02 2010-12-16 Nissan Motor Co Ltd 音声対話装置および音声対話方法
JP5797009B2 (ja) 2011-05-19 2015-10-21 三菱重工業株式会社 音声認識装置、ロボット、及び音声認識方法
US9934780B2 (en) * 2012-01-17 2018-04-03 GM Global Technology Operations LLC Method and system for using sound related vehicle information to enhance spoken dialogue by modifying dialogue's prompt pitch
EP2871640B1 (en) * 2012-07-09 2021-01-06 LG Electronics, Inc. Speech recognition apparatus and method
US9245523B2 (en) * 2013-07-25 2016-01-26 Nice-Systems Ltd Method and apparatus for expansion of search queries on large vocabulary continuous speech recognition transcripts

Also Published As

Publication number Publication date
US9489941B2 (en) 2016-11-08
US20150340029A1 (en) 2015-11-26
JP2015219440A (ja) 2015-12-07

Similar Documents

Publication Publication Date Title
JP6350903B2 (ja) 操作補助装置および操作補助方法
JP6233650B2 (ja) 操作補助装置および操作補助方法
EP3619707B1 (en) Customizable wake-up voice commands
US10019992B2 (en) Speech-controlled actions based on keywords and context thereof
EP3414759B1 (en) Techniques for spatially selective wake-up word recognition and related systems and methods
US9354687B2 (en) Methods and apparatus for unsupervised wakeup with time-correlated acoustic events
US20160086609A1 (en) Systems and methods for audio command recognition
US10147423B2 (en) Context-aware query recognition for electronic devices
KR20180113516A (ko) 키 프레이즈 검출을 개선하기 위한 중간 스코어링 및 거부 루프백
US9335966B2 (en) Methods and apparatus for unsupervised wakeup
US11289085B2 (en) Automatic turn delineation in multi-turn dialogue
CN111656437A (zh) 信息处理装置、信息处理方法、程序和信息处理系统
JP6459330B2 (ja) 音声認識装置、音声認識方法、及び音声認識プログラム
EP3195314B1 (en) Methods and apparatus for unsupervised wakeup
JP2018116206A (ja) 音声認識装置、音声認識方法及び音声認識システム
JP6966374B2 (ja) 音声認識システム及びコンピュータプログラム
JP7242873B2 (ja) 音声認識補助装置および音声認識補助方法
JP6999236B2 (ja) 音声認識システム
JP2022054667A (ja) 音声対話装置、音声対話システム、および、音声対話方法
JP2006154658A (ja) 音声認識辞書作成システム、音声認識辞書作成方法、音声認識システムおよびロボット

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20161129

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20171003

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170929

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20171128

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180424

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180524

R151 Written notification of patent or utility model registration

Ref document number: 6350903

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

LAPS Cancellation because of no payment of annual fees