JP4667138B2

JP4667138B2 - 音声認識方法及び音声認識装置

Info

Publication number: JP4667138B2
Application number: JP2005191538A
Authority: JP
Inventors: 賢一郎中川; 誠廣田
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2005-06-30
Filing date: 2005-06-30
Publication date: 2011-04-06
Anticipated expiration: 2025-06-30
Also published as: EP1739656A3; CN1892819A; DE602006007062D1; JP2007010971A; KR20070003640A; CN1892819B; US7668719B2; ATE433180T1; EP1739656B1; US20070005371A1; EP1739656A2; KR100815731B1

Description

本発明は、音声認識文法を用いて入力音声を認識する音声認識装置に関するものである。

音声は、人間にとって自然なインタフェースであり、子供や老人等の機器に不慣れなユーザ、あるいは視覚に障害がある者にとって特に有効なＵＩ（ＵｓｅｒＩｎｔｅｒｆａｃｅ）として受け入れられている。この音声ＵＩとＧＵＩ（ＧｒａｐｈｉｃａｌＵｓｅｒＩｎｔｅｒｆａｃｅ）を組み合わせたデータ入力の手法が近年注目されており、Ｗ３ＣＭｕｌｔｉｍｏｄａｌＩｎｔｅｒａｃｔｉｏｎＡｃｔｉｖｉｔｙ（ｈｔｔｐ：／／ｗｗｗ．ｗ３．ｏｒｇ／２００２／ｍｍｉ／）やＳＡＬＴＦｏｒｕｍ（ｈｔｔｐ：／／ｗｗｗ．ｓａｌｔｆｏｒｕｍ．ｏｒｇ／）で議論が進んでいる。

音声でのデータ入力は、公知の技術である音声認識を使うことが一般的である。この音声認識は、入力音声と音声認識文法中に記述された認識対象の語彙とを比較し、もっとも適合度の高い語彙を認識結果として出力する処理である。このため、音声認識文法の規模や数が増えるに従い、認識性能が低下するという問題がある。これを回避するため特許文献１では、ＧＵＩで現在ユーザに表示されている項目を検出し、その項目に対応している音声認識文法を用いて音声認識を行うという技術が開示されている。これにより、音声認識で用いる認識対象語彙数を制限することができ、音声認識の認識性能低下を防ぐことが可能となる。

ところで、音声ＵＩを備えたシステムでは、特定のキー（ＰｕｓｈＴｏＴａｌｋキーと呼ぶ）を押してからユーザに発声を開始してもらうものが多い。この方式の利点は、システムの音声区間の検出が容易となることであり、雑音の大きい環境下でも音声認識の性能低下を抑えることができる。このようなＰｕｓｈＴｏＴａｌｋキーを複数備え、それぞれのキーに意味を持たせる先行技術がある。例えば、特許文献２では、使用されたＰｕｓｈＴｏＴａｌｋキーによって使用する音声認識文法のセットが切り替わる技術が開示されている。これにより、ユーザはキー押下によって発声開始タイミングを通知すると同時に、使用する音声認識文法のセットを選択することが可能となる。
特願２００２−５２７２１８号公報特開２００３−２０２８９０号公報

音声認識で用いる認識語彙を削減する先行技術に関しては、上で述べたとおり、特許文献１がある。しかし、特許文献１では、ＧＵＩとして表示されている範囲の入力対象へ音声による入力が可能であるが、表示されていない入力対象への音声入力については考慮されていない。例えば操作に慣れているユーザの場合は表示されていない入力対象に対して入力を行いたい場合も考えられるが特許文献１ではこれに対応することが難しい。

また複数のＰｕｓｈＴｏＴａｌｋキーを用いた先行技術には、上記の通り特許文献２がある。しかし、これらは表示に応じて音声認識文法を切り替えるものではない。

本発明は上記課題を解決するための、複数の項目の夫々にデータを設定する情報処理方法であって、音声認識開始を指示する指示手段の指示が、表示画面に表示されていない項目を有効にする指示であった場合に、表示されていない項目に対応する音声認識文法を用いて、受信した音声情報を認識する認識工程と、前記認識工程で認識した結果を用いて、前記項目に対して設定を行う設定工程とを備えたことを特徴とする。

本発明により、各項目の表示状態に応じた音声認識文法の調整が可能となる。

以下、図面を参照しながら本発明の好適な実施例について説明していく。

図１は、実施例１の情報処理装置の機能構成図である。図２は、情報処理装置の動作フローである。また、図５は、この装置のＧＵＩ部分を例示したものである。ここでは、これらの図を用いて説明する。なお、ここでは複写機の設定を音声ＵＩとＧＵＩで行う例を用いる。

まず、本装置にはディスプレイやタッチパネルといったＧＵＩ表示部（１０１）が備わっており、ここでＧＵＩをユーザに提示する。このときのＧＵＩ画面の例が図５である。なお、装置のＧＵＩ表示デバイスの制限により、一度に全ての情報が表示できるとは限らない。この際、図５の５０１、５０２のように、スクロールバー（５０４）を上下にスライドさせることにより、ユーザは表示領域を変更することが可能である。

音声入力モード開始等の特定のイベントが生じると、本発明の処理が開始され、図２のフローに入る。ここでは、そのときのＧＵＩ画面が５０１の状態であったとして説明する。

まず、ＧＵＩ検知手段（１０２）により、現在描画されているＧＵＩコンポーネントを１つ取得する（Ｓ２０１）。ここでは、描画と表示という言葉を使い分けて説明する。描画とは出力デバイスのメモリ（例えばＶＲＡＭ）にＧＵＩコンポーネントのビューデータを配置することである。表示は、実際にユーザが目視できる形でディスプレイ等に出力することである。

ＧＵＩ検知手段により取得されたＧＵＩコンポーネントをＧＵＩコンポーネントＡとする。ＧＵＩコンポーネントとは、ＧＵＩを構成する要素で、ＧＵＩによるボタンやテキストボックス、リストボックス等があり、設定対象の項目等を表す。次に、取得されたＧＵＩコンポーネントが現在ディスプレイに表示されているかどうかを判定し、表示されているＧＵＩコンポーネント、表示されていないＧＵＩコンポーネントを検知する（Ｓ２０２）。表示されているかどうかは、各ＧＵＩコンポーネントの位置、ＧＵＩ画面の大きさ、スクロールバーの状態等から判断することが可能である。例えば、５０１の状態で、ＧＵＩ画面と実際の表示領域の関係を表したものが図８である。このとき、完全に見えているものだけを“表示されている”と定義すると、表示されているＧＵＩコンポーネントは“ＰａｐｅｒＳｉｚｅ”に対応するテキストエリア２と、“ＣｏｐｙＲａｔｉｏ”に対応するテキストエリア３だけである。

ＧＵＩコンポーネントＡが表示されていると判断されると、表示領域グラマ選択部（１０５）が音声認識グラマ格納部（１０４）にアクセスし、ＧＵＩコンポーネントＡに対応する音声認識グラマを選択し取得する。そして、取得したグラマをグラマＡとする（Ｓ２０３）。ＧＵＩコンポーネントに対応する音声認識グラマを選択するには、ＧＵＩコンポーネント名と音声認識グラマ名の対応表を用いてもよい。図７はこの対応表の例である。例えば、この表を用い、ＧＵＩコンポーネントＡがテキストエリア２である場合、その音声認識グラマ名はＰａｐｅｒＳｉｚｅ．ｘｍｌとなる。

一方、ＧＵＩコンポーネントＡが表示されていないと判断されると、非表示領域グラマ選択部（１０３）が音声認識グラマ格納部（１０４）にアクセスし、ＧＵＩコンポーネントＡに対応する音声認識グラマを選択し取得する。なお、本実施例では文法をグラマと表現して説明する。そして、取得したグラマをグラマＡ’とする（Ｓ２０４）。このときも図７のようなＧＵＩコンポーネント名と音声認識グラマ名の対応表を用いてもよい。選択された音声認識グラマＡ’は制限済み非表示領域グラマ生成部（１０６）に送られる。ここで音声認識グラマＡ’の内容を解析し、音声認識グラマＡ’から語彙を制限した音声認識グラマＡを生成する（Ｓ２０５）。この語彙を制限した音声認識グラマは予め生成しておいても良い。

グラマ内の語彙の制限を説明するために、図６のグラマを用いて説明する。この音声認識グラマは、“Ａ４”、“Ａ３”等のコピー用紙のサイズを受理する音声認識グラマであり、ＳｐｅｅｃｈＲｅｃｏｇｎｉｔｉｏｎＧｒａｍｍａｒＳｐｅｃｉｆｉｃａｔｉｏｎＶｅｒｓｉｏｎ１．０（ｈｔｔｐ：／／ｗｗｗ．ｗ３．ｏｒｇ／ＴＲ／ｓｐｅｅｃｈ−ｇｒａｍｍａｒ／）の言語仕様で記述されている。この音声認識グラマ（６０１）は、ルートルール名が“ｍａｉｎ”ルールである（６０２）。そのため、この音声認識グラマを一般的な手法で解析すると、まず“ｍａｉｎ”という名のルール（６０３）が展開される。ｍａｉｎルールは、内部で“ｓｌｏｔ＿ｎａｍｅ”、“ｓｌｏｔ＿ｖａｌｕｅ”という二つのルールを参照している（６０４）。“ｓｌｏｔ＿ｎａｍｅ”は、設定の項目名（設定の種類）に対応する語彙セットであり、“ｓｌｏｔ＿ｖａｌｕｅ”は項目値（設定項目に入れる具体的なデータ）に対応する語彙セットである。これら二つのルールの実体は、６０５で記述されている。

つまり、この音声認識グラマを手を加えずに解析すると、“ｓｌｏｔ＿ｎａｍｅ”、“ｓｌｏｔ＿ｖａｌｕｅ”というルールが展開され、“ＰａｐｅｒＳｉｚｅ”といった項目名や、“Ａ４”、“Ａ３”といった項目値が認識可能となる。しかし、展開するルールを“ｓｌｏｔ＿ｎａｍｅ”だけに制限することにより、“ＰａｐｅｒＳｉｚｅ”や“Ｓｉｚｅ”といった項目名しか受理しないようになる。

５０１の例では、ＧＵＩコンポーネントのテキストエリア１とテキストエリア４が非表示であるとみなされるため、図７より、“ＰａｐｅｒＮｕｍｂｅｒ．ｘｍｌ”と“Ｄｅｎｓｉｔｙ．ｘｍｌ”が非表示領域グラマ（音声認識グラマＡ’）として選択される。更に、この二つのグラマは、展開するルールを“ｓｌｏｔ＿ｎａｍｅ”だけに制限することにより、項目名しか受理できないようにする。制限されたグラマを音声認識グラマＡとする。

ＧＵＩコンポーネントＡに対応する音声認識グラマＡは、音声認識部（１０７）に送られ、音声認識エンジンに登録される（Ｓ２０６）。そして、全てのＧＵＩコンポーネントが処理されたかを確認し（Ｓ２０７）、されていた場合は登録されたグラマを用いて音声認識を実行する（Ｓ２０８）。

５０１の例では、“ＰａｐｅｒＳｉｚｅ．ｘｍｌ”、“ＣｏｐｙＲａｔｉｏ．ｘｍｌ”がそのまま音声認識エンジンに登録され、“ＰａｐｅｒＮｕｍｂｅｒ．ｘｍｌ”と“Ｄｅｎｓｉｔｙ．ｘｍｌ”が項目名しか発声できない形で制限され登録される。従って、ユーザは、“ＰａｐｅｒＳｉｚｅ”と“ＣｏｐｙＲａｔｉｏ”に関する項目値（例、“Ａ４”、“４００％”）、項目名（例、“ＰａｐｅｒＳｉｚｅ”、“ＣｏｐｙＲａｔｉｏ”）、“ＰａｐｅｒＮｕｍｂｅｒ”と“Ｄｅｎｓｉｔｙ”に関する項目名（例、“ＰａｐｅｒＮｕｍｂｅｒ”、“Ｄｅｎｓｉｔｙ”）を発声することで入力することが可能である。“ＰａｐｅｒＮｕｍｂｅｒ”と“Ｄｅｎｓｉｔｙ”に関する項目値を発声しても認識されないことになる。

以上が、実施例１の装置の動作である。この装置を用いると、次のようなアプリケーションが構築可能である。音声認識の結果として項目値が出力された場合、結果を対応するテキストエリアに入力する。例えば、５０１の状態で“Ａ４”が認識結果として出力された場合は、ＰａｐｅｒＳｉｚｅのテキストエリアに“Ａ４”という文字列が入る。“Ｄｅｎｓｉｔｙ”のような項目名が認識結果として出力された場合、その項目名に対応する場所を表示するよう制御する。具体的には、その項目名に対応する場所にスクロール移動する。例えば、５０２のようにスクロール移動する。一般的に、ユーザはＧＵＩに表示されていない項目の項目値を発声することが少ない。このため、表示されていない項目の項目値を認識語彙から外してもユーザビリティはそれほど低下しないものと思われる。逆に、認識語彙が削減されることにより、認識性能の向上が見込まれる。

実施例１に対して更に、複数の音声認識トリガを組み合わせることも可能である。音声入力を用いた対話装置では、発声開始時に特定キーの押下を強いるものが多い。これは、音声認識の前処理である音声区間検出処理の精度を向上させるためである。ここではこのキーをＰｕｓｈＴｏＴａｌｋキーと呼ぶ。このＰｕｓｈＴｏＴａｌｋキーを複数備え、ユーザに押し分けてもらうことで、ユーザビリティを向上させることが可能である。ここは、図３、図４を用いて説明する。なお、図３において図１と同じ部分は同じ番号を振っている。

音声入力モード開始等の特定のイベントが生じると、本発明の処理が開始され、図４のフローに入る。ここでは、このときのＧＵＩ画面が５０１の状態であったとして説明する。Ｓ４０１〜Ｓ４０４まではＳ２０１〜Ｓ２０４と同じ処理のため、ここでの説明は省略する。

非表示領域グラマ選択部により非表示領域グラマが選択されると（Ｓ４０４）、そのグラマをＧＵＩコンポーネントＡに対するグラマＡとする。そして、音声認識部（１０７）により、グラマＡを音声認識エンジンに登録する（Ｓ４０５）。これらの処理を全てのＧＵＩコンポーネントに対して行う（Ｓ４０６）。

次に、音声認識トリガ取り込み部（３０１）から、音声認識トリガの取り込みを行う（Ｓ４０７）。音声認識トリガとは、音声認識開始を指示する指示手段であり、先に説明したＰｕｓｈＴｏＴａｌｋキーのことである。ここでは音声認識トリガを発生させるデバイスとして、“表示”と“非表示”と書かれた二つのＰｕｓｈＴｏＴａｌｋキーが備わっていると仮定する。図９がこの例であり、９０３、９０４が“表示”キー、“非表示”キーに相当する。ユーザが、“表示”キーを押してから発声した場合、音声認識エンジンに登録された音声認識グラマの内、表示領域グラマだけを用いて音声認識を行う（Ｓ４０８）。“非表示”キーを押してから発声を行なった場合、非表示領域グラマだけを用いて音声認識を行う。

これにより、表示されている領域に関する発声であるか、表示されていない領域に関する発声であるかを、ユーザがキー入力により指定することが可能となる。キーを分けることで、音声認識処理での認識語彙削減に貢献でき、認識率を向上することが可能となる。また、キーを”表示”、”非表示”で分けるためユーザも直感的に判断することが可能である。

実施例２では、“表示”、“非表示”と書かれた２つのＰｕｓｈＴｏＴａｌｋキーを用いた。しかし、これは一例であり、その他のキーあるいはイベントを音声認識開始トリガとしてもよい。例えば、キーが押されずに発声を検知することを一つの音声認識開始トリガとみなすことも可能である。これにより、キーが押された場合は、非表示領域グラマで音声認識を行い、キーが押されずに発声を検知した場合は表示領域グラマを用いて音声認識を行うといったことも可能である。

これにより、ユーザは、表示されている領域に関しては、ＰｕｓｈＴｏＴａｌｋキーを押さずに発声できるようになる。逆に、キーが押された場合は、表示領域グラマで音声認識を行い、キーが押されずに発声を検知した場合は非表示領域グラマを用いて音声認識を行うといったことも可能であることは言うまでもない。

実施例１では、表示されているＧＵＩコンポーネントに対応した音声認識グラマ（表示領域グラマ）と、表示されていないＧＵＩコンポーネントに対応した音声認識グラマに制限を与えたもの（制限済み非表示領域グラマ）を音声認識に用いた。これと実施例２で用いた複数の音声認識開始トリガを組み合わせてもよい。

例えば、“表示”と“非表示”と書かれた二つのＰｕｓｈＴｏＴａｌｋキーを用い、ユーザが“表示”キーを押してから発声した場合、音声認識エンジンに登録された音声認識グラマの内、表示領域グラマだけを用いて音声認識を行う。“非表示”キーを押してから発声を行なった場合、制限済み非表示領域グラマだけを用いて音声認識を行う。

これにより、画面に表示されていないＧＵＩコンポーネントに対応した音声認識語彙を制限することができるため、音声認識性能の向上が見込まれる。更に、ＰｕｓｈＴｏＴａｌｋキーの選択によっても、音声認識グラマを制限することになるため、更なる音声認識語彙の削減が期待できる。

なお、本発明の目的は、前述した実施例の機能を実現するソフトウェアのプログラムコードを記録した記憶媒体を、システムあるいは装置に供給し、そのシステムあるいは装置のコンピュータ（またはＣＰＵやＭＰＵ）が記憶媒体に格納されたプログラムコードを読み出し実行することによっても達成されることは言うまでもない。

この場合、記憶媒体から読み出されたプログラムコード自体が前述した実施形態の機能を実現することになり、そのプログラムコードを記憶した記憶媒体は本発明を構成することになる。

プログラムコードを供給するための記憶媒体としては、例えば、フレキシブルディスク、ハードディスク、光ディスク、光磁気ディスク、ＣＤ−ＲＯＭ、ＣＤ−Ｒ、磁気テープ、不揮発性のメモリカード、ＲＯＭなどを用いることができる。

また、コンピュータが読出したプログラムコードを実行することにより、前述した実施形態の機能が実現されるだけでなく、そのプログラムコードの指示に基づき、コンピュータ上で稼働しているＯＳ（オペレーティングシステム）などが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。

さらに、記憶媒体から読出されたプログラムコードが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書込まれた後、そのプログラムコードの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるＣＰＵなどが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。

実施例１の情報処理装置の機能構成図である。実施例１の情報処理装置の動作フローである。実施例２の情報処理装置の機能構成図である。実施例２の情報処理装置の動作フローである。実施例の情報処理装置のＧＵＩ画面例である。実施例で用いる音声認識グラマの例である。実施例の情報処理装置のＧＵＩコンポーネント名と音声認識グラマ名の対応表の例である。ＧＵＩ画面とＧＵＩ表示領域との関係を表した図である。実施例２の情報処理装置のＧＵＩ画面例である。

Claims

複数の項目の夫々にデータを設定する情報処理方法であって、
音声認識開始を指示する指示手段の指示が、表示画面に表示されていない項目を有効にする指示であった場合に、表示されていない項目に対応する音声認識文法を用いて、受信した音声情報を認識する認識工程と、
前記認識工程で認識した結果を用いて、前記項目に対して設定を行う設定工程とを備えたことを特徴とする情報処理方法。
前記表示されていない項目に対応する音声認識文法は、該項目が表示されている場合に用いられる音声認識文法よりも制限がかけられた音声認識文法であることを特徴とする請求項１記載の情報処理方法。
前記認識工程は、音声認識開始を指示する指示手段の指示が、表示画面に表示されている項目を有効にする指示であった場合に、表示されている項目に対応する音声認識文法を用いて、受信した音声情報を認識することを特徴とする請求項２記載の情報処理方法。
前記音声認識開始を指示する指示手段とはボタンであり、表示画面に表示されている項目を有効にするボタン及び表示画面に表示されていない項目を有効にするボタンの少なくとも２つであることを特徴とする請求項３記載の情報処理方法。
請求項１乃至４のいずれかに記載の情報処理方法をコンピュータに実行させるための制御プログラム。
複数の項目の夫々にデータを設定する情報処理装置であって、
表示画面に表示されていない項目を検知する検知手段と、
音声認識開始を指示する指示手段の指示が、表示画面に表示されていない項目を有効にする指示であった場合に、前記検知手段で検知した表示されていない項目に対応する音声認識文法を用いて、受信した音声情報を認識する認識手段と、
前記認識手段で認識した結果を用いて、前記項目に対して設定を行う設定手段とを備えたことを特徴とする情報処理装置。