JP5127201B2

JP5127201B2 - 情報処理装置及び方法並びにプログラム

Info

Publication number: JP5127201B2
Application number: JP2006303380A
Authority: JP
Inventors: 誠廣田; 俊明深田
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2006-11-08
Filing date: 2006-11-08
Publication date: 2013-01-23
Anticipated expiration: 2026-11-08
Also published as: US20080109223A1; US7983921B2; JP2008122483A

Description

本発明は、情報処理装置及び方法並びにプログラムに関し、特に、音声ユーザインタフェースを備える情報処理装置及び方法並びにプログラムに関する。

音声認識や音声合成技術を利用したＵＩ（User Interface）が、カーナビゲーションなどの機器に適用されるようになってきた。音声認識は一般に、誤認識の問題を伴う。誤認識の原因は周囲雑音などさまざまであるが、ユーザの発声の仕方が不適切であることが誤認識につながることも多い。例えば、発声開始のタイミングが早すぎて入力音声の先頭が欠落したり、あるいは、発声が大きすぎたり小さすぎたりすることもある。不適切な発声による誤認識を軽減するための方法としては、システムが、ユーザに対して適切な発声方法をアドバイスすることが考えられる。つまり、ユーザの入力音声から、発声が不適切な要因を求め、その要因を修正するよう、適当なタイミングでユーザにアドバイスするのである。

特許文献１は、入力音声を分析し、発声開始が早すぎる、声が大きすぎる／小さすぎる、などといった分類を行う技術を開示している。

米国特許第６３３６０９１号

特許文献１には、ユーザの入力音声から、発声が不適切な要因を求める方法が示されているものの、それを元にユーザにアドバイスをする対話方法については示されていない。
ユーザへのアドバイスで問題となるのは、そのタイミングである。ユーザの入力音声から、何らかの不適切な要因、例えば、「声が大きすぎる」という要因を特定できたとする。これに対して「声が大きすぎるので、少し小さな声で発声してください」、「マイク感度を調整してください」などのアドバイスを即座に行う方法が考えられる。しかし、その入力音声に対する音声認識が誤認識になるとは限らない。もし正しく認識されて機器を正しく操作できた場合に、上記のようなアドバイスがなされたら、ユーザは困惑する、という問題がある。

本発明は、ユーザの発声方法について適切なタイミングで適切な内容のアドバイスを行うことのできる情報処理装置及び方法を提供することを目的とする。

本発明の一側面に係る情報処理装置は、入力音声に対して音声認識を行う音声認識手段と、前記入力音声を音声認識誤りが発生する要因別に分類することにより、前記入力音声の前記音声認識に対する適性を分析する分析手段と、前記音声認識の結果を表示部に表示する表示制御手段と、前記表示制御手段によって表示された前記音声認識の結果の取り消し指示を入力する取り消し指示手段と、前記取り消し指示手段で前記取り消し指示が入力された頻度を記憶する記憶手段と、前記記憶手段に記憶された前記頻度が予め定められた値を超えた場合に、前記分析手段による分析結果に基づいて音声入力に関するガイダンスをユーザに通知する通知手段とを有することを特徴とする。

本発明によれば、ユーザの発声方法について適切なタイミングで適切な内容のアドバイスを行うことができ、もって発声方法に起因する誤認識の確率を低減することができる。

以下、図面を参照して本発明の好適な実施形態について詳細に説明する。なお、本発明は以下の実施形態に限定されるものではなく、本発明の実施に有利な具体例を示すにすぎない。また、以下の実施形態の中で説明されている特徴の組み合わせの全てが本発明の課題解決手段として必須のものであるとは限らない。

（実施形態１）
本実施形態では、図４に示すような、情報処理装置としての携帯端末４０１で実行される乗り換え案内のアプリケーションを音声で操作するケースを説明する。ユーザが、図４の携帯端末４０１の画面に表示されている「出発駅」及び「到着駅」フィールドへの入力を行おうとしているとする。フィールドへは、音声による入力が可能であり、ユーザは、発話ボタン４０３を押しながら、例えば、「シブヤ」のように発声する。発声は音声認識され、認識結果が、図４のようにフィールド内に表示される。ユーザは、取り消しボタン４０２を押すことで、入力を取り消すことができる。例えば、音声認識誤りによって意図しない駅名がフィールドに表示された場合、取り消しボタン４０２を押せば、そのフィールドは空欄、あるいは、その直前に表示されていた駅名に戻る。

図１は、本実施形態に係る携帯端末４０１の機能構成を示すブロック図である。同図において、１０１は音声入力部、１０２は音声認識部である。本実施形態では、音声認識部１０２は、駅名を認識対象語とする音声認識を行う。１０３は音声認識結果に基づいた処理の実行を行う処理実行手段としての実行部である。本実施形態では、実行部１０３は、音声認識結果の駅名を所定のフィールドに表示する処理を実行する。

１０４は音声入力部１０１から入力される音声を分析する分析部である。１０５は分析部１０４の分析結果を管理する管理部である。１０６は取り消し指示部である。１０７は取り消し指示部１０６を通じてユーザが実行の取り消し指示を行った場合に、ユーザに発声方法のガイドを行うか否かを判定する判定部である。１０８はガイダンス生成部、１０９は通知部である。

図２は、本実施形態に係る携帯端末４０１のハードウェア構成を示すブロック図である。同図において、２０１はＣＰＵであり、後述する動作手順を実現するプログラムに従って動作する。２０２はＲＡＭであり、ＣＰＵ２０１の動作に必要な記憶領域を提供する。２０３はＲＯＭであり、後述する動作手順を実現するプログラムなどを保持する。２０４は物理ボタンであり、図４の発話ボタン４０３、取り消しボタン４０２を含む。２０６はマイクロホンである。２０５はマイクロホン２０６からの電気音響信号をディジタル信号に変換するＡ／Ｄコンバータである。２０７は液晶表示画面（ＬＣＤ）である。２０８はバスである。

次に、図３のフローチャートに沿って、本実施形態の動作を説明する。このフローチャートに対応するプログラムはＲＯＭ２０３に記憶されており、携帯端末４０１の起動後、ＲＡＭ２０２にロードされてＣＰＵ２０１によって実行される。

まず、マイクロホン２０６を通じて音声入力があるか否かを監視し（Ｓ３０１）、音声入力があれば、分析部１０４でその入力音声の音声認識に対する適性を分析する（Ｓ３０２）。具体的には例えば、入力音声が以下の５種類のいずれに該当するかを判別する。
（１）発声タイミングが早すぎる（発話ボタン４０３を押下する前に話し始めた）
（２）発話ボタン４０３を離すのが早すぎる
（３）声が大きすぎる
（４）声が小さすぎる
（５）上記のいずれにも該当しない

この判別結果は、管理部１０５に記録される。続いて、音声認識部１０２で入力音声を認識し（Ｓ３０３）、実行部１０３でその認識結果に応じた処理を実行する（Ｓ３０４）。本実施形態では、処理の実行とは、認識結果の駅名を所定のフィールドに表示することである。ここで、ユーザが取り消しボタン４０２を押したかどうかをチェックする（Ｓ３０５）。取り消しボタン４０２が押された場合、音声認識結果が誤りであった可能性がある。音声認識誤りはユーザの発声方法に原因がある可能性があるので、判定部１０７で、ユーザに発声のガイダンス通知を行うか否かを判定する（Ｓ３０６）。この判定には、管理部１０５に記録された入力音声分析結果を用いる。分析結果が、上記の「（５）上記のいずれにも該当しない」の場合は、ユーザの発声方法には問題がないと考えられるので、ガイダンスは行わないと判定する。一方、分析結果が１〜４のいずれかの場合は、それに応じたガイダンスを行うと判定する。ガイダンスは、ガイダンス生成部１０８で、分析結果１〜４の種類に応じて生成される（Ｓ３０７）。例えば、分析結果が、「（１）発声タイミングが早すぎる」の場合は、「話し始めが早すぎるようです。発話ボタンを押してから発声するようにしましょう」といったガイダンスを生成する。そして、通知部１０９で、その生成されたガイダンスをユーザに通知する（Ｓ３０８）。なお本実施形態では、Ｓ３０６でガイダンス通知を行うと判定された後で、ガイダンス生成部１０８がガイダンスを生成する例をあげて説明したが、本発明はこれに限られない。あらかじめガイダンスを生成して保持しておき、ガイダンス通知を行うと判定された後で保持してあるガイダンスから選択して、選択したガイダンスを通知するよう構成しても構わない。この場合、ガイダンス生成部１０８はガイダンス選択部となり、ガイダンス生成（Ｓ３０７）はガイダンス選択（Ｓ３０７）となる。

図５に例を示す。（ａ）は、ユーザが「シブヤ」と発声したが、これが「日比谷」と誤認識されて結果がフィールドに表示された例を示している。ユーザがこの表示を見て取り消しボタン４０２を押した後の状態が（ｂ）である。このように、認識結果の表示は取り消されて空欄に戻るとともに、発声の分析結果に応じたガイダンス５０１が表示される。

以上のように、ユーザは、発声方法に対して適切な内容のアドバイスを得ることができ、その後の発声方法に起因する誤認識の確率を低減することができる。このアドバイスは、取り消しボタン４０２を押したタイミングで行われるため、ユーザが望まないタイミングで不要なアドバイスをしてユーザを困惑させる可能性を低くすることができる。

（実施形態２）
上述した実施形態１では、分析部１０４によって入力音声の分析が行われる都度、分析結果に応じてユーザに発声に関するガイダンス通知を行うようにしていた。これに対し、このような分析結果が一定頻度以上、例えば５回以上検出された場合だけガイダンスを行うようにしてもよい。

例えば、管理部１０５は、図６に示されるような構造の頻度テーブルを記憶し、発声分析結果の頻度を要因別に管理する。図６の例では、例えば、「（１）発声タイミングが早すぎる」に該当する発声は５回あったことを意味する。ここで、ユーザの音声入力が「発声タイミングが早すぎる」と分析され、かつ、音声認識に応じた実行が取り消されたとする。「発声タイミングが早すぎる」が検出された頻度は閾値の５以上であるので、判定部１０７は、ユーザにガイダンス通知をするよう判定する。一方、分析結果の要因が、「（３）声が大きすぎる」であった場合は、図６の例によればその発声頻度は１であるので、判定部１０７は、ユーザにガイダンス通知はしないと判定し、ガイダンスは行われない。

このようにすることで、ユーザの発声の「癖」をより確実に検出することができ、より適切なアドバイスを行うことができる。

（実施形態３）
上述の実施形態２は、分析結果として得られた要因別にその発生頻度を管理するものであった。しかし、要因とは無関係に、取り消しボタン４０２の押下により取り消し指示が行われた回数を管理し、その回数が一定回数を超えた場合に、ユーザにガイダンス通知を行うようにしてもよい。

（実施形態４）
上述の実施形態では、物理ボタン２０４としての取り消しボタン４０２を押下することで音声入力の取り消し指示を入力する例を示した。しかし、取り消し指示の入力手段はこのような物理ボタンに限られないことは当業者には理解されよう。例えば、ペンやスタイラスで「取り消し」を意味する所定の手書き入力によって取り消し指示を入力する構成にしてもよいし、あるいは、音声で「取り消し」と発声するなどによって取り消し指示を入力する構成をとることも可能である。

（実施形態５）
さらには、非明示的な取り消し指示を導入することも可能である。図７の例を参照して説明する。ユーザが「シブヤ」と発声したが、これが「日比谷」と誤認識されてその結果が出発駅フィールドに表示されたとする（図７（ａ））。ここで、ユーザが再度「シブヤ」と発声して同じフィールドへの入力を行った場合には、これを最初の認識結果の取り消しとみなし、上記実施形態のようなガイダンス判定を行って、必要と判定されればガイダンス通知を行うようにしてもよい（図７（ｂ））。

（実施形態６）
上述の実施形態では、図６に示したように、入力音声の分析結果として４つの要因への分類を行っていたが、これ以外の要因に分類してもかまわない。例えば、「周囲雑音が大きすぎる」といった要因を検出する。この要因が検出された場合には、「周囲雑音が大きいので、静かな環境で発声するか、音声以外の入力手段を用いてください」といったガイダンスを通知するとよい。

（実施形態７）
上述の実施形態では、判定部１０７がガイダンスを行うと判定した場合、無条件にガイダンスを生成しユーザに通知していたが、ユーザに、ガイダンスが必要か否かを確認し、必要との指示があればガイダンス通知するようにしてもよい。図８の例を参照して説明する。例えば、図８に示すように、取り消しボタン４０２、発話ボタン４０３に加え、ガイダンス確認用のＯＫボタン８０１を設ける。いま、ユーザが「シブヤ」と発声したが、これが「日比谷」と誤認識されてその結果が出発駅フィールドに表示されたとする（図８（ａ））。ここで、判定部１０７がガイダンスを行うと判定した場合、すぐさま対応するガイダンスを表示するのではなく、図８（ｂ）の８０３のような、いったんガイダンスの存在を示す表示を行いユーザにガイダンスが必要か否かの確認を求める。そして、ここでＯＫボタン８０１が押下された場合にはガイダンスを表示する。

（他の実施形態）
以上、本発明の実施形態を詳述したが、本発明は、複数の機器から構成されるシステムに適用してもよいし、また、一つの機器からなる装置に適用してもよい。

なお、本発明は、前述した実施形態の各機能を実現するプログラムを、システム又は装置に直接又は遠隔から供給し、そのシステム又は装置に含まれるコンピュータがその供給されたプログラムコードを読み出して実行することによっても達成される。

したがって、本発明の機能・処理をコンピュータで実現するために、そのコンピュータにインストールされるプログラムコード自体も本発明を実現するものである。つまり、上記機能・処理を実現するためのコンピュータプログラム自体も本発明の一つである。

その場合、プログラムの機能を有していれば、オブジェクトコード、インタプリタにより実行されるプログラム、ＯＳに供給するスクリプトデータ等、プログラムの形態を問わない。

プログラムを供給するための記録媒体としては、例えば、フレキシブルディスク、ハードディスク、光ディスク、光磁気ディスク、ＭＯ、ＣＤ−ＲＯＭ、ＣＤ−Ｒ、ＣＤ−ＲＷなどがある。また、記録媒体としては、磁気テープ、不揮発性のメモリカード、ＲＯＭ、ＤＶＤ（ＤＶＤ−ＲＯＭ，ＤＶＤ−Ｒ）などもある。

また、プログラムは、クライアントコンピュータのブラウザを用いてインターネットのホームページからダウンロードしてもよい。すなわち、ホームページから本発明のコンピュータプログラムそのもの、若しくは圧縮され自動インストール機能を含むファイルをハードディスク等の記録媒体にダウンロードしてもよい。また、本発明のプログラムを構成するプログラムコードを複数のファイルに分割し、それぞれのファイルを異なるホームページからダウンロードする形態も考えられる。つまり、本発明の機能・処理をコンピュータで実現するためのプログラムファイルを複数のユーザに対してダウンロードさせるＷＷＷサーバも、本発明の構成要件となる場合がある。

また、本発明のプログラムを暗号化してＣＤ−ＲＯＭ等の記憶媒体に格納してユーザに配布してもよい。この場合、所定条件をクリアしたユーザにのみ、インターネットを介してホームページから暗号化を解く鍵情報をダウンロードさせ、その鍵情報で暗号化されたプログラムを復号して実行し、プログラムをコンピュータにインストールしてもよい。

また、コンピュータが、読み出したプログラムを実行することによって、前述した実施形態の機能が実現されてもよい。なお、そのプログラムの指示に基づき、コンピュータ上で稼動しているＯＳなどが、実際の処理の一部又は全部を行ってもよい。もちろん、この場合も、前述した実施形態の機能が実現され得る。

さらに、記録媒体から読み出されたプログラムが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれてもよい。そのプログラムの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるＣＰＵなどが実際の処理の一部又は全部を行ってもよい。このようにして、前述した実施形態の機能が実現されることもある。

本発明の実施形態に係る携帯端末の機能構成を示すブロック図である。本発明の実施形態に係る携帯端末のハードウェア構成図である。本発明の実施形態に係る携帯端末の動作を説明するフローチャートである。本発明の実施形態に係る携帯端末の乗り換え案内アプリケーションによる画面表示例を示す図である。本発明の実施形態に係る携帯端末への音声入力及びガイダンス表示の例を示す図である。本発明の実施形態に係る頻度テーブルの例を示す図である。本発明の実施形態に係る携帯端末への音声入力及びガイダンス表示の例を示す図である。本発明の実施形態に係る携帯端末への音声入力及び、ガイダンス表示の要否確認メッセージの表示例を示す図である。

Claims

入力音声に対して音声認識を行う音声認識手段と、
前記入力音声を音声認識誤りが発生する要因別に分類することにより、前記入力音声の前記音声認識に対する適性を分析する分析手段と、
前記音声認識の結果を表示部に表示する表示制御手段と、
前記表示制御手段によって表示された前記音声認識の結果の取り消し指示を入力する取り消し指示手段と、
前記取り消し指示手段で前記取り消し指示が入力された頻度を記憶する記憶手段と、
前記記憶手段に記憶された前記頻度が予め定められた値を超えた場合に、前記分析手段による分析結果に基づいて音声入力に関するガイダンスをユーザに通知する通知手段と、
を有することを特徴とする情報処理装置。
音声認識手段、分析手段、表示制御手段、取消指示手段、格納手段、通知手段を備える情報処理装置を制御する情報処理方法であって、
前記音声認識手段が、入力音声に対して音声認識を行う音声認識ステップと、
前記分析手段が、前記入力音声を音声認識誤りが発生する要因別に分類することにより、前記入力音声の前記音声認識に対する適性を分析する分析ステップと、
前記表示制御手段が、前記音声認識の結果を表示部に表示する表示制御ステップと、
前記取消指示手段が、前記表示制御ステップによって表示された前記音声認識の結果の取り消し指示を入力する取り消し指示ステップと、
前記格納手段が、前記取り消し指示ステップで前記取り消し指示が入力された頻度を記憶手段に格納する格納ステップと、
前記通知手段が、前記記憶手段に記憶された前記頻度が予め定められた値を超えた場合に、前記分析ステップによる分析結果に基づいて音声入力に関するガイダンスをユーザに通知する通知ステップと、
を有することを特徴とする情報処理方法。
コンピュータを、請求項１に記載の情報処理装置が有する各手段として機能させるためのプログラム。