JP6233650B2

JP6233650B2 - 操作補助装置および操作補助方法

Info

Publication number: JP6233650B2
Application number: JP2014104188A
Authority: JP
Inventors: 威関口; 國枝　伸行; 伸行國枝
Original assignee: Panasonic Intellectual Property Management Co Ltd
Current assignee: Panasonic Intellectual Property Management Co Ltd
Priority date: 2014-05-20
Filing date: 2014-05-20
Publication date: 2017-11-22
Anticipated expiration: 2034-05-20
Also published as: US20150340030A1; JP2015219441A; US9418653B2

Description

本発明は、キーワードの発話による操作を補助する操作補助装置および操作補助方法に関する。

近年、予め定められたキーワードが発話されたときにこれを検出し、システムを起動させる等の所定の機器動作を開始させる技術が、広く実用化されている。

キーワードが発話されたか否かの判定（以下「キーワード判定」という）は、通常、発話音声にキーワードが含まれていることの尤もらしさ（以下「尤度」という）を示す評価値（スコア）を算出し、当該評価値が所定の閾値以上となっているか否かを判定することによって行われる。評価値は、例えば、発話音声に対する音声認識処理によって算出される。

ところが、実際にキーワードが発話されていても、周囲の音や発話の不明瞭さ等に起因して、評価値が低くなる場合がある。この場合、ユーザはキーワードを発話しているつもりであるにもかかわらず機器操作を行うことができないといった状況（以下「操作失敗」という）となる。

そこで、キーワードと発話音声との間の類似度を算出し、算出された類似度が所定の範囲内であるとき、キーワードが発話されたと判定する技術が、例えば特許文献１に記載されている。かかる従来技術によれば、操作失敗の発生を低減することができる。

特開平１１−２３１８９６号公報国際公開第２００８／００７７８１号

しかしながら、ユーザがキーワードを忘れていたり勘違いして覚えているような場合、キーワードと発話音声との間の類似度は低くなる。このため、従来技術では、操作失敗を回避することができずに、キーワード発話による操作（以下「キーワード発話操作」という）が不能となるおそれがある。

本発明の目的は、キーワード発話操作が不能となることを回避できる操作補助装置および操作補助方法を提供することである。

本開示の操作補助装置は、発話音声を入力する音声入力部と、ユーザの視線が所定の対象物に向いたとき、その旨を検出する視線入力部と、入力された複数の前記発話音声の間の類似度が所定の範囲内である後に、前記視線が前記所定の対象物に向いたことを条件として、前記所定の対象物に関連するキーワードが発話されたと判定するキーワード検出部と、を有する。

本開示の操作補助装置は、発話音声を入力する音声入力部から、入力された前記発話音声を取得し、ユーザの視線が所定の対象物に向いたとき、その旨を検出する視線入力部から、前記視線が前記所定の対象物に向いたか否かの検出結果を取得し、取得された複数の前記発話音声の間の類似度が所定の範囲内である後に、前記視線が所定の対象物に向いたことを条件として、前記所定の対象物に関連するキーワードが発話されたと判定するキーワード検出部、を有する。

本開示の操作補助装置は、発話音声を入力する音声入力部と、入力された前記発話音声を、所定の対象物に関連するキーワードが発話されたか否かの判定を行うキーワード検出装置へ送信する送信部と、前記キーワード検出装置から、前記キーワードが発話されたと判定されたことを示す発話検出情報が送信されたとき、当該発話検出情報を受信するクライアント側受信部と、を有し、ユーザの視線が前記所定の対象物に向いたとき、その旨を検出する視線入力部、を更に有し、前記送信部は、前記視線が前記所定の対象物に向いたか否かを示す情報を、前記キーワード検出装置へ送信し、前記キーワード検出装置は、複数の前記発話音声の間の類似度が所定の範囲内である後に、前記視線が所定の対象物に向いたことを条件として、前記所定の対象物に関連するキーワードが発話されたと判定する装置である。

本開示の操作補助方法は、発話音声を入力するステップと、ユーザの視線が前記所定の対象物に向いたとき、その旨を検出するステップと、入力された複数の前記発話音声の間の類似度が所定の範囲内である後に、前記視線が所定の対象物に向いたことを条件として、前記所定の対象物に関連するキーワードが発話されたと判定するステップと、を有する。

本開示によれば、キーワード発話操作が不能となることを回避できる。

本発明の実施の形態に係る操作補助装置の構成の一例を示すブロック図本実施の形態におけるユーザの動作の例を示す図本実施の形態におけるキーワード発話操作が試みられた場合に検出される情報の一例を示す図本実施の形態に係る操作補助装置の動作の一例を示すフローチャート本実施の形態に係る操作補助装置を用いた場合のユーザおよび対象物の動作の一例を示す図

以下、本発明の一実施の形態について、図面を参照して詳細に説明する。

本実施の形態は、本発明を、車両の運転席近傍に設置される対象物に適用した場合の、具体的態様の例である。

＜操作補助装置の構成＞
まず、本実施の形態に係る操作補助装置の構成について説明する。

図１は、本実施の形態に係る操作補助装置の構成の一例を示すブロック図である。

図１において、操作補助装置１００は、音声入力部２００、視線入力部３００、およびキーワード検出部４００を有する。なお、操作補助装置１００は、キーワード発話操作の対象となる対象物５００（例えば、カーエアコン制御装置）に接続されている。なお、対象物５００は、操作補助装置１００と一体的に構成されていてもよい。

対象物５００に関連するキーワードは、予め定められているものとする。また、かかるキーワードは、対象物５００に対して所定の動作（例えば、ユーザとの対話処理）を開始させるためのキーワードであるものとする。

音声入力部２００は、ユーザの発話音声を入力し、入力された発話音声をキーワード検出部４００へ出力する。例えば、音声入力部２００は、マイクロフォン（図示せず）を備え、周囲の音を収集して音声データに変換し、キーワード検出部４００へ出力する。例えば、車両の運転者あるいは同乗者が発話を行っている場合、当該音声データには、その発話音声が含まれることになる。

視線入力部３００は、ユーザ（例えば、車両の運転者）の視線が前記所定の対象物に向いたとき、その旨を検出し、キーワード検出部４００へ通知する。例えば、視線入力部３００は、デジタルビデオカメラ（図示せず）を備え、ユーザの顔を撮影して得られた映像を解析し、ユーザの視線が対象物５００に向いているか否かを、逐次判定する。なお、デジタルビデオカメラは、可視光カメラであってもよいし、赤外線カメラであってもよい。

ユーザの視線が対象物５００に向いているか否かの判定（以下、「視線判定」という）は、例えば、特許文献２に記載の手法等の公知の視線方向検出手法を採用した上で、デジタルビデオカメラと対象物５００との配置関係を設定することにより、行うことができる。なお、視線入力部３００は、視線の方向と、ユーザから見た対象物５００の方向との差が、所定の範囲内であるとき、ユーザが対象物５００に視線を向けていると判定してもよい。かかる所定の範囲は、例えば、視線方向の検出誤差や、各機器の設置誤差を考慮して、決定される。

キーワード検出部４００は、入力された複数の発話音声の間の類似度が所定の範囲内である直後に、ユーザの視線が対象物５００に向いたことを条件として、対象物５００に関連するキーワードが発話されたと判定する。そして、キーワード検出部４００は、キーワードが発話されたと判定したとき、対象物５００に対して前記所定の動作を開始させる。

キーワード検出部４００は、キーワード判定部４１０、情報保存部４２０、および発話判定部４３０を有する。

キーワード判定部４１０は、キーワードが発話音声に含まれていることの尤度を示す評価値を算出する。そして、算出された前記評価値が、キーワード判定部４１０は、比較的高い値に対応する、第１の閾値以上の第１のレベルであるとき、キーワードが発話されたと判定する。また、キーワード判定部４１０は、キーワードが発話されたと判定すると、制御信号の出力等により、対象物５００に対して所定の動作を開始させる。

評価値は、例えば、発声された音声がキーワードらしいほど大きな値となるように設定される。評価値としては、例えば、公知の音声認識処理により得られる、音声データに含まれる音声がキーワードに一致することを判定する際に用いられる信頼度を、採用することができる。信頼度は、隠れマルコフモデル（HMM: Hidden Markov Model）における事後確率や、音声認識処理で得られた尤度（音響的な尤度や言語的な尤度）をもとに算出できる。この場合、キーワード判定部４１０は、上記キーワードに関する音響モデル、辞書、および言語モデルを予め格納しており、これらの情報を参照して音声認識処理を行い、上記評価値を算出する。

あるいは、評価値としては、例えば、予め登録されたキーワードの音声データと入力された音声データとの間の距離から計算される類似度を採用することができる。類似度は、音声データ間の距離を、例えば、スペクトル等の所定の音特徴量を使った公知の距離算出手法により計算し、音声区間でＤＰ（Dynamic Programming）マッチングを行う等して算出することができる。この場合、キーワード判定部４１０は、上記キーワードの音声データあるいは音特徴量を、予め格納している。

また、キーワード判定部４１０は、評価値が第１の閾値未満かつ第２の閾値以上という第２のレベルであるとき、当該評価値に対応する発話音声を、情報保存部４２０に保存する。なお、ここで保存される発話音声とは、音声データそのものであってもよいし、音声データ間の類似度の算出に必要な音特徴量であってもよい。

情報保存部４２０は、メモリ等の情報記録媒体を有し、キーワード判定部４１０および発話判定部４３０により使用される。すなわち、情報保存部４２０は、評価値が第２のレベルであると判定された区間の発話音声を保存する。

発話判定部４３０は、ユーザの視線が対象物５００に向いたタイミングから遡った所定の時間内に入力された発話音声が、情報保存部４２０に２以上の所定数保存されているとき、情報保存部４２０から該当する発話音声を読み出す。ユーザの視線が対象物５００に向いたタイミングから遡った所定の時間内とは、例えば、当該タイミングから１０秒遡った時刻から、当該タイミングまでの区間である。そして、発話判定部４３０は、当該発話音声の間の類似度を算出し、算出された類似度が所定の範囲内であることを条件として、キーワードが発話されたと判定する。そして、発話判定部４３０は、キーワードが発話されたと判定すると、制御信号の出力等により、対象物５００に対して所定の動作を開始させる。

なお、所定の時間は、キーワード発話操作のための発話が開始されてから、所定の動作が開始されない場合に、無意識に対象物５００に視線を向けるまでの時間よりも若干長い時間であることが望ましく、例えば、１０秒である。

また、所定数とは、キーワード発話操作のための発話が開始されたにもかかわらず所定の動作が開始されない場合に、無意識に対象物５００に視線を向けるまでに同じ発話が繰り返される回数であることが望ましく、例えば、３である。

また、類似度は、公知の登録型の音声認識アルゴリズムによって算出すればよい。すなわち、発話判定部４３０は、情報保存部４２０に保存されたいずれかの音声データを登録された音声とみなし、別の保存された音声データとのマッチング処理を行うことによって類似度を算出できる。また、類似度としては、例えば、上述の評価値と同様に、スペクトル等の所定の音特徴量について、複数の音声データ間の距離から計算される値を採用することができる。また、３つ以上の音声データ間の類似度は、例えば、音声データのペア毎に音声データ間の類似度を算出し、算出されたペア毎の類似度の平均値を採用することができる。

また、類似度の判定の対象となる上記所定の範囲とは、同一の言葉の発話音声であることの尤度が十分に高いレベルであり、例えば、所定の閾値以上という数値範囲である。

操作補助装置１００は、図示しないが、例えば、ＣＰＵ（Central Processing Unit）、制御プログラムを格納したＲＯＭ（Read Only Memory）等の記憶媒体、およびＲＡＭ（Random Access Memory）等の作業用メモリを有する。この場合、上記した各部の機能は、ＣＰＵが制御プログラムを実行することにより実現される。

このような構成を有する操作補助装置１００は、キーワードに近く互いに類似する言葉が繰り返し発話された後に、ユーザの視線が対象物５００に向いたとき、キーワードが発話されたと判定することができる。そして、操作補助装置１００は、キーワードが発話されたと判定することにより、対象物５００に対して所定の動作を開始させることができる。すなわち、操作補助装置１００は、ユーザがキーワード発話操作を行いたいにもかかわらず、キーワードを誤って繰り返し発声した場合のキーワード発話操作を許容することができる。

＜キーワード発話操作の許容＞
キーワード発話操作の許容のトリガとなる、類似する言葉が繰り返し発話された後にユーザの視線が対象物５００に向いた場合とは、キーワード発話操作が試みられた可能性が高い場合である。ここで、その理由について説明する。

図２は、キーワード発話操作を行うときのユーザの動作の例を示す図である。

ここでは、図２に示すように、対象物５００が、ディスプレイ画面およびスピーカを備えたカーエアコン制御装置である場合を例示する。操作補助装置１００は、例えば、カーエアコン制御装置としての対象物５００に組み込まれている。

ここで、ユーザとの音声対話による対象物５００に対する音声操作機能を起動させるためのキーワードとして、「音声認識スタート」が予め登録されているものとする。なお、音声操作機能は、対象物５００が発話音声による操作を受け付ける機能であり、例えば、操作補助装置１００の音声認識機能を用いて実現される。

ユーザ６００が、「音声認識スタート」と発話した場合、例えば、図２Ａに示すように、対象物５００は、上述の所定の動作として、音声対話を開始する。対象物５００は、例えば、「はい、何を操作しますか？」という音声を出力する。続けて、ユーザが「エアコンをつけて」と発話したとき、対象物５００はこれを検出し、「はい、エアコンを動作させます」という返答の音声を出力しながら、カーエアコンをオンにする。

一方、ユーザ６００が、キーワードを勘違いし、「音認スタート」と発話した場合、図２Ｂに示すように、対象物５００は、上述の所定の動作を開始せず、「はい、何を操作しますか？」という音声を出力しない。すると、キーワードが認識されなかったと感じたユーザ６００は、「音認スタート」と、同じ言葉の発話を繰り返す。そして、同じ言葉の発話を繰り返したにもかかわらず、対象物５００が相変わらず動作を開始しない場合、ユーザ６００は、図２Ｂに示すように、対象物５００に対して、無意識に視線６１０を向ける。また、発話したキーワードが連続して認識されない回数が多いほど、ユーザ６００が対象物５００に視線６１０を向ける率が高くなる。

したがって、似たような言葉が繰り返し発話され、その後にユーザ６００の視線６１０が対象物５００に向いた場合、ユーザ６００（あるいは、同乗者等の他の人）がキーワード発話操作を試みた可能性が高いといえる。

図３は、キーワード発話操作が試みられた場合に操作補助装置１００で検出される情報の一例を示す図である。

図３Ａは、入力音声の時間波形を示す図である。図３Ｂは、視線方向の検出結果を示す図である。図３Ｃは、第１および第２の閾値と評価値との関係を示す図である。図３Ａ〜図３Ｃの横軸は、同一の時間軸に対応している。

ユーザは、区間Ｐ１、Ｐ２、Ｐ３に、「音認スタート」という、誤ったキーワードを発話したとする。この場合、図３Ａに示すように、区間Ｐ１、Ｐ２、Ｐ３のそれぞれに、対応する波形の音声データ７１１、７１２、７１３が現れる。そして、図３Ｃに示すように、区間Ｐ１、Ｐ２、Ｐ３のそれぞれに対応する時刻Ｔ１、Ｔ２、Ｔ３に、評価値７２１、７２２、７２３が算出される。

「音認スタート」は、正しいキーワードである「音声認識スタート」とは異なるものの、大部分の音が重複している。したがって、図３Ｃに示すように、評価値７２１、７２２、７２３は、全て、第１の閾値Ｔｈ未満、かつ、第２の閾値Ｔｈ_Ｓ以上（つまり、第２のレベル）となる。この場合、キーワード検出は失敗となるが、図３Ｄに示すように、区間Ｐ１、Ｐ２、Ｐ３の音声データ７１１、７１２、７１３は、情報保存部４２０に保存される。

そして、図３Ｂに示すように、時刻Ｔ１から所定の時間が経過する前の時刻Ｔｖに、ユーザの視線が対象物５００に向いていることを示す検出結果７３０が得られたとする。

この場合、保存された音声データ７１１、７１２、７１３の間の類似度が算出される。ここでは、「音認スタート」という同一の言葉が発話されているため、比較的高い値に対応する所定の範囲に属する値で類似度が算出される。すると、「音認スタート」という誤ったキーワードしか発話されていないにもかかわらず、操作補助装置１００は、正しいキーワードが発話されたと判定し、キーワード発話操作を許容する。

このように、操作補助装置１００は、ユーザが誤ったキーワードを使用してキーワード発話操作を試みたときに、これを検出し、かかるキーワード発話操作を許容することができる。したがって、操作補助装置１００は、ユーザがキーワードを忘れていたり勘違いして覚えている場合であっても、キーワード発話操作が不能となることを回避できる。

＜操作補助装置の動作＞
次に、操作補助装置１００の動作について説明する。

図４は、操作補助装置１００の動作の一例を示すフローチャートである。操作補助装置１００は、例えば、対象物５００が所定の動作を行っていない間、以下に説明する処理を繰り返し実行する。

まず、ステップＳ１１００において、音声入力部２００は、一定間隔での音声データの入力を開始する。また、視線入力部３００は、視線の方向の入力を開始する。すなわち、視線入力部３００は、一定間隔での視線判定を開始する。視線入力部３００は、視線判定の間隔が十分に短い場合、視線が対象物５００に向けられた時間がほんの一瞬であっても、これを検出することができる。

そして、ステップＳ１２００において、キーワード判定部４１０は、新たに入力された音声データの区間について、キーワードの評価値を算出する。

そして、ステップＳ１３００において、キーワード判定部４１０は、算出された評価値が、第１のレベル（つまり、第１の閾値以上）であるか否かを判定する。キーワード判定部４１０は、評価値が第１のレベルである場合（Ｓ１３００：ＹＥＳ）、処理をステップＳ１４００へ進める。また、キーワード判定部４１０は、評価値が第１のレベルではない場合（Ｓ１３００：ＮＯ）、処理をステップＳ１５００へ進める。

ステップＳ１４００において、キーワード判定部４１０は、対象物５００に対して、例えば、図２に説明した音声対話等の所定の動作を開始させて、一連の処理を終了する。

ステップＳ１５００において、キーワード判定部４１０は、評価値が、第２のレベル（つまり、第１の閾値未満かつ第２の閾値以上）であるか否かを判定する。キーワード判定部４１０は、評価値が第２のレベルである場合（Ｓ１５００：ＹＥＳ）、処理をステップＳ１６００へ進める。また、キーワード判定部４１０は、評価値が第２のレベルではない場合（Ｓ１５００：ＮＯ）、処理を後述のステップＳ１７００へ進める。

ステップＳ１６００において、キーワード判定部４１０は、評価値が第２のレベルであると判定された発話音声（音声データ）を情報保存部４２０に保存して、ステップＳ１７００へ進む。なお、キーワード判定部４１０は、発話音声に対応付けて、発話音声が入力された時刻を示す時刻情報についても、情報保存部４２０に保存する。

ユーザがキーワードを勘違いしており、誤ったキーワードを繰り返し発話した場合、その都度、ステップＳ１６００において、発話音声の音声データが蓄積されることになる。

なお、キーワード判定部４１０は、発話音声が入力された時刻から上述の所定の時間が経過する毎に、当該発話音声を、情報保存部４２０から削除してもよい。この場合、キーワード判定部４１０は、必ずしも上述の時刻を示す時刻情報を保存しなくてもよい。

ステップＳ１７００において、発話判定部４３０は、視線が対象物５００に向いたか否かを判定する。すなわち、発話判定部４３０は、視線入力部３００から、ユーザの視線が対象物５００に向いている旨の通知を受けたか否かを判断する。発話判定部４３０は、視線が対象物５００に向いた場合（Ｓ１７００：ＹＥＳ）、処理をステップＳ１８００へ進める。また、発話判定部４３０は、視線が対象物５００に向いていない場合（Ｓ１７００：ＮＯ）、処理を後述のステップＳ２０００へ進める。

ステップＳ１８００において、発話判定部４３０は、情報保存部４２０に保存された複数の発話音声の間の類似度を算出する。なお、発話判定部４３０は、所定の時間内に入力された発話音声のみを、類似度算出の対象とする。また、発話判定部４３０は、情報保存部４２０に保存された複数の発話音声の個数が所定値未満の場合、類似度を算出しないようにする。

なお、キーワード（誤ったキーワードを含む）が発話されてから、対象物５００の反応がないことに気付いてユーザが視線を対象物５００に向けるまでには、通常、数秒程度の時間が掛かる。したがって、発話判定部４３０は、直前の短い区間に入力された発話音声については、類似度算出の対象外としてもよい。

そして、ステップＳ１９００において、発話判定部４３０は、算出された類似度が所定の範囲内であるか否かを判断する。発話判定部４３０は、類似度が所定の範囲内である場合（ステップＳ１９００：ＹＥＳ）、処理をステップＳ１４００へ進める。すなわち、発話判定部４３０は、対象物５００に対して所定の動作を開始させて、一連の処理を終了する。なお、ステップＳ１４００における動作の開始指示は、キーワード判定部４１０および発話判定部４３０のいずれが行ってもよい。

また、発話判定部４３０は、類似度が所定の範囲内ではない場合（ステップＳ１９００：ＮＯ）、処理をステップＳ２０００へ進める。

ステップＳ２０００において、キーワード検出部４００は、ユーザ操作等によりキーワード発話操作の処理の終了が指示されたか否かを判断する。キーワード検出部４００は、処理の終了が指示されていない場合（Ｓ２０００：ＮＯ）、処理をステップＳ１２００へ戻す。また、キーワード検出部４００は、処理の終了が指示された場合（Ｓ２０００：Ｙ
ＥＳ）、一連の動作を終了する。

このような動作により、操作補助装置１００は、キーワードが発話された場合のみならず、キーワードに近い言葉が繰り返し発話された後にユーザの視線が対象物５００に向いた場合にも、キーワードが発話されたと判定することができる。

図５は、操作補助装置１００を用いた場合のユーザおよび対象物５００の動作の一例を示す図であり、図２に対応するものである。

図５に示すように、ユーザ６００が、正しいキーワードに近い「音認スタート」という発話を繰り返したが、被操作対象５００が反応しないため、対象物５００に視線６１０を向けたとする。すると、操作補助装置１００の機能により、正しいキーワードが発話されたものと擬制され、「はい、何を操作しますか？」という音声が対象物５００から出力される。すなわち、対象物５００に対するキーワード発話操作が行われる。

＜本実施の形態の効果＞
以上のように、本実施の形態に係る操作補助装置１００は、複数の発話音声の間の類似度が所定の範囲内である後に、ユーザ６００の視線が対象物５００に向いたことを条件として、対象物５００を操作するためのキーワードが発話されたと判定する。

これにより、操作補助装置１００は、誤ったキーワードしか発話できないことによる操作失敗を回避し、キーワード発話操作が不能となることを回避できる。

ボタンを押す等の手動操作を要さずに機器操作ができることのメリットとしては、例えば、離れた場所にいても何も持たずに操作できることが挙げられる。ボタン操作が不要な音声インターフェースは、車の運転中といった手が離せないような状況に好適であり、助手席に同乗者に声で頼むような感覚での機器操作を実現することができる。

（実施の形態の応用例）
なお、以上説明した操作補助装置は、複数のキーワードを検出の対象としてもよい。また、複数の対象物について、異なるキーワードが登録されている場合には、対象物毎に、視線が向いているか否かの判定を行う必要がある。この場合、操作補助装置は、例えば、登録された各キーワードと対象物の方向（検出されるべき視線方向）とを対応付けたテーブルを使用する。

また、上述の各閾値、類似度の判定の対象となるレベル、および所定の時間は、評価値の種別、類似度の種別、操作補助装置の用途、およびユーザが要求する精度等により、適切な値が採用されることが望ましい。適切な値は、例えば、実験や経験則から決定される。

また、発話判定部は、ユーザに対してキーワードが発話されたか否かを、スピーカとマイクロフォンを用いた音声対話等により、問い合わせてもよい。そして、発話判定部は、キーワードが発話された旨の回答がユーザから得られ、かつ、算出した類似度が所定の範囲内であるとき、キーワードが発話されたと判定してもよい。

また、発話判定部は、類似度が所定の範囲内であるとき、スピーカからの音声出力等により、ユーザに対して、キーワードを通知してもよい。この場合、新たに入力される発話音声に対するキーワード検出が成功する可能性が高くなる。

あるいは、発話判定部は、ユーザに対して、スピーカとマイクロフォンを用いた音声対話等により、所定の情報を問い合わせてもよい。そして、発話判定部は、正しい回答がユーザから得られたとき、ユーザに対してキーワードを通知してもよい。更に、発話判定部は、正しい回答が得られ、かつ、算出した類似度が所定の範囲内である場合にのみ、ユーザに対してキーワードを通知するようにしてもよい。

また、キーワード検出部は、発話音声の評価値が第１の閾値以上であった場合と、発話音声の評価値が第１の閾値未満であった場合（キーワード発話操作を許容した場合）とで、音声対話の仕方を変えてもよい。例えば、キーワード検出部は、キーワード発話操作を許容した場合には、「はい、何を操作しますか？」ではなく、「はい、何か御用ですか？」という音声を出力させる。

また、操作補助装置は、評価値を考慮せずに、つまり、キーワードと発話音声との関係を考慮せずに、キーワード発話操作を許容してもよい。この場合、操作補助装置は、正しいキーワードとは全く異なる言葉が繰り返し発話された場合であっても、その後に視線が対象物に向いた場合には、キーワードが発話されたと判定することになる。これにより、キーワード発話操作が不能となるのを、より確実に回避することができる。但し、この場合、ユーザがキーワード発話操作を意図していないにもかかわらず、キーワードが発話されたと判定される可能性が高くなる。

また、操作補助装置が採用する評価値の種別、評価値の取得手法、視線判定の手法、類似度の種別、類似度の取得手法、およびキーワード検出結果の用途は、上述の例に限定されるものではない。例えば、カーナビゲーション装置やカーオーディオ装置等の各種車載機器の他、家電機器や工場設備等、各種の機器や設備を、上記対象物とすることができる。

また、操作補助装置の構成の一部を、所定の対象物の近傍にクライアント側装置として配置し、操作補助装置の構成の他の部分を、クライアント装置と離隔した装置あるいはシステムとして配置してもよい。

例えば、上述のキーワード検出部は、通信ネットワーク上に配置されたサーバ等に、キーワード検出装置として配置することができる。

この場合、例えば、操作補助装置には、入力された発話音声および視線が前記所定の対象物に向いたか否かを示す情報をキーワード検出装置に送信する送信部と、キーワード検出装置から送信された発話検出情報を受信する受信部とを設ければよい。ここで、発話検出情報とは、キーワードが発話されたと判定されたことを示す情報である。

また、キーワード検出装置には、操作補助装置から送信された発話音声および視線が所定の対象物に向いたか否かを示す情報を受信する受信部と、キーワード検出部によるキーワード判定の結果に応じて発話検出情報を操作補助装置へ送信する送信部とを設ければよい。

更に、キーワード検出部のうち、キーワード判定部、情報保存部、および発話判定部は、それぞれ別の装置に配置することも可能である。この場合、発話判定部は、音声入力部あるいは情報保存部から、入力された発話音声を取得し、視線入力部から、視線が前記所定の対象物に向いたか否かの検出結果を取得する必要がある。

このような分散型のシステムを採用することにより、各装置の処理負荷を軽減したり、１つの機能部を複数のユーザで共用することが容易となる。

また、各装置のハードウェア構成は、上述の例に限定されない。

例えば、各機能部は、典型的には、集積回路であるＩＣ（Integrated Circuit）として実現されてもよい。各機能部は、個別に１チップ化されてもよいし、その一部または全部を含むように１チップ化されてもよい。なお、かかる集積回路は、集積度の違いにより、ＬＳＩ（Large Scale Integration）、システムＬＳＩ、スーパーＬＳＩ、ウルトラＬＳＩ等とも称される。

また、集積回路化の手法はＩＣに限るものではなく、専用回路で実現してもよい。すなわち、各機能部は、ＬＳＩ製造後に、プログラムすることが可能なＦＰＧＡ（Field Programmable Gate Array）や、ＬＳＩ内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル・プロセッサを利用することにより、実現されるものであってもよい。

更には、半導体技術の進歩または派生する別技術によってＬＳＩに置き換えることができる各種集積回路化の技術を用いて、回路の集積化を行ってもよい。このような技術としては、例えば、バイオ技術の適用が挙げられる。

また、各装置のメモリは、不揮発性メモリであればよく、例えば、ディップスイッチのように、スイッチでデータを保持するものであってもよい。

なお、上記操作補助装置において、前記キーワード検出部は、前記キーワードが発話されたと判定したとき、前記所定の対象物に対して所定の動作を開始させてもよい。

また、上記操作補助装置において、前記キーワード検出部は、前記キーワードが発話されたと判定したとき、前記所定の対象物に対する音声操作機能を起動させてもよい。

また、上記操作補助装置において、前記キーワード検出部は、前記視線が前記所定の対象物に向いたタイミングから遡った所定の時間内に入力された、２以上の所定数の前記発話音声の間の類似度が前記所定の範囲内であることを条件として、前記キーワードが発話されたと判定してもよい。

また、上記操作補助装置において、前記キーワード検出部は、前記キーワードが前記発話音声に含まれていることの尤度を示す評価値を算出し、算出された前記評価値が所定の閾値以上である複数の前記発話音声の間の類似度が、前記所定の範囲内である後に、前記視線が前記所定の対象物に向いたことを条件として、前記キーワードが発話されたと判定してもよい。

また、上記操作補助装置において、前記キーワード検出部は、前記キーワードが前記発話音声に含まれていることの尤度を示す評価値を算出し、算出された前記評価値が第１の閾値以上であるとき、前記キーワードが発話されたと判定するキーワード判定部と、前記評価値が、第１の閾値未満かつ第２の閾値以上であるとき、当該評価値に対応する前記発話音声を保存する情報保存部と、前記視線が所定の対象物に向いたタイミングから遡った所定の時間内に入力された前記発話音声が前記情報保存部に所定数保存されているとき、当該発話音声の間の類似度を算出し、算出された前記類似度が前記所定の範囲内であることを条件として、前記キーワードが発話されたと判定する発話判定部と、を有してもよい。

また、上記操作補助装置において、前記発話判定部は、前記ユーザに対して前記キーワードが発話されたか否かを問い合わせ、前記キーワードが発話された旨の回答が前記ユーザから得られ、かつ、前記類似度が前記所定の範囲内であるとき、前記キーワードが発話されたと判定してもよい。

また、上記操作補助装置において、前記発話判定部は、前記類似度が前記所定の範囲内であるとき、前記ユーザに対して前記キーワードを通知してもよい。

また、上記操作補助装置において、前記発話判定部は、前記ユーザに対して所定の情報を問い合わせ、正しい回答が前記ユーザから得られ、かつ、前記類似度が前記所定の範囲内であるとき、前記ユーザに対して前記キーワードを通知してもよい。

本発明は、キーワード発話操作が不能となることを回避できる操作補助装置および操作補助方法として有用である。本発明は、例えば、車載器搭載の音声認識装置および音声対話装置に好適である。

１００操作補助装置
２００音声入力部
３００視線入力部
４００キーワード検出部
４１０キーワード判定部
４２０情報保存部
４３０発話判定部
５００対象物

Claims

発話音声を入力する音声入力部と、
ユーザの視線が所定の対象物に向いたとき、その旨を検出する視線入力部と、
入力された複数の前記発話音声の間の類似度が所定の範囲内である後に、前記視線が前記所定の対象物に向いたことを条件として、前記所定の対象物に関連するキーワードが発話されたと判定するキーワード検出部と、を有する、
操作補助装置。
前記キーワード検出部は、
前記キーワードが発話されたと判定したとき、前記所定の対象物に対して所定の動作を開始させる、
請求項１に記載の操作補助装置。
前記キーワード検出部は、
前記キーワードが発話されたと判定したとき、前記所定の対象物に対する音声操作機能を起動させる、
請求項１に記載の操作補助装置。
前記キーワード検出部は、
前記視線が前記所定の対象物に向いたタイミングから遡った所定の時間内に入力された、２以上の所定数の前記発話音声の間の類似度が前記所定の範囲内であることを条件として、前記キーワードが発話されたと判定する、
請求項１に記載の操作補助装置。
前記キーワード検出部は、
前記キーワードが前記発話音声に含まれていることの尤度を示す評価値を算出し、算出された前記評価値が所定の閾値以上である複数の前記発話音声の間の類似度が、前記所定の範囲内である後に、前記視線が前記所定の対象物に向いたことを条件として、前記キーワードが発話されたと判定する、
請求項１に記載の操作補助装置。
前記キーワード検出部は、
前記キーワードが前記発話音声に含まれていることの尤度を示す評価値を算出し、算出された前記評価値が第１の閾値以上であるとき、前記キーワードが発話されたと判定するキーワード判定部と、
前記評価値が、第１の閾値未満かつ第２の閾値以上であるとき、当該評価値に対応する前記発話音声を保存する情報保存部と、
前記視線が所定の対象物に向いたタイミングから遡った所定の時間内に入力された前記発話音声が前記情報保存部に所定数保存されているとき、当該発話音声の間の類似度を算出し、算出された前記類似度が前記所定の範囲内であることを条件として、前記キーワードが発話されたと判定する発話判定部と、を有する、
請求項１に記載の操作補助装置。
前記発話判定部は、
前記ユーザに対して前記キーワードが発話されたか否かを問い合わせ、前記キーワードが発話された旨の回答が前記ユーザから得られ、かつ、前記類似度が前記所定の範囲内であるとき、前記キーワードが発話されたと判定する、
請求項６に記載の操作補助装置。
前記発話判定部は、
前記類似度が前記所定の範囲内であるとき、前記ユーザに対して前記キーワードを通知する、
請求項６に記載の操作補助装置。
前記発話判定部は、
前記ユーザに対して所定の情報を問い合わせ、正しい回答が前記ユーザから得られ、かつ、前記類似度が前記所定レベルであるとき、前記ユーザに対して前記キーワードを通知する、
請求項６に記載の操作補助装置。
発話音声を入力する音声入力部から、入力された前記発話音声を取得し、ユーザの視線が所定の対象物に向いたとき、その旨を検出する視線入力部から、前記視線が前記所定の対象物に向いたか否かの検出結果を取得し、取得された複数の前記発話音声の間の類似度が所定の範囲内である後に、前記視線が所定の対象物に向いたことを条件として、前記所定の対象物に関連するキーワードが発話されたと判定するキーワード検出部、を有する、
操作補助装置。
発話音声を入力する音声入力部と、
入力された前記発話音声を、所定の対象物に関連するキーワードが発話されたか否かの判定を行うキーワード検出装置へ送信する送信部と、
前記キーワード検出装置から、前記キーワードが発話されたと判定されたことを示す発話検出情報が送信されたとき、当該発話検出情報を受信するクライアント側受信部と、を有し、
ユーザの視線が前記所定の対象物に向いたとき、その旨を検出する視線入力部、を更に有し、
前記送信部は、
前記視線が前記所定の対象物に向いたか否かを示す情報を、前記キーワード検出装置へ送信し、
前記キーワード検出装置は、
複数の前記発話音声の間の類似度が所定の範囲内である後に、前記視線が所定の対象物に向いたことを条件として、前記所定の対象物に関連するキーワードが発話されたと判定する装置である、
操作補助装置。
発話音声を入力するステップと、
ユーザの視線が前記所定の対象物に向いたとき、その旨を検出するステップと、
入力された複数の前記発話音声の間の類似度が所定の範囲内である後に、前記視線が所定の対象物に向いたことを条件として、前記所定の対象物に関連するキーワードが発話されたと判定するステップと、を有する、
操作補助方法。