JP2005004032A

JP2005004032A - 音声認識装置及び音声認識方法

Info

Publication number: JP2005004032A
Application number: JP2003168943A
Authority: JP
Inventors: Tomofumi Toda; 倫史戸田
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2003-06-13
Filing date: 2003-06-13
Publication date: 2005-01-06

Abstract

【課題】認識率を向上し、利用者にストレスを感じさせることなく、画面に表示された所望の項目が選択できるような音声認識装置及び音声認識方法を提供する。
【解決手段】発声対象表示部１１は、選択するための１つの項目に対して関連付けされた複数の発声対象を表示デバイス２０の画面２０ａ上に表示し、音声認識部１２により利用者が発声した声に応じた音声データを取り込んで音声認識した結果が、複数の発声対象のいずれかに対応していた場合に、判定部１３はその発声対象が関連付けられている項目が選択されたと判定する。これにより、１つの項目を選択するために、利用者は表示された複数の発声対象のいずれかを音声認識部１２にて認識可能なように発声すればよい。
【選択図】図１

Description

【０００１】
【発明の属する技術分野】
本発明は、音声認識装置及び音声認識方法に関し、特に、表示デバイスの画面上に表示された項目を、利用者による声で選択させる音声認識装置及び音声認識方法に係わるものである。
【０００２】
【従来の技術】
従来、テレビジョン受像機（以下ＴＶと呼ぶ）やエアコンディショナー（以下エアコンと呼ぶ）、などの家庭電化製品（以下家電製品と呼ぶ）の高機能化に伴って、操作が複雑化してきており、利用者が使いづらいものとなってしまうことが少なくなかった。
【０００３】
そこで近年では、シンプルな機能のものや、リモートコントローラ（以下リモコンと呼ぶ）のボタンも大きなものにして、高齢者や子供にも使いやすいものが出てきている。
【０００４】
さらに最近では、音声認識システムを搭載することによって、リモコンなどを使わずに、手足の不自由な人でも声で操作できるような家電製品も登場してきている。
【０００５】
例えば、エアコンを利用者の声により操作するような、音声操作システムが開示されている（特許文献１参照）。
また、利用者の声により、録画予約を行えるようなＴＶも近年登場している。
【０００６】
図４は、従来の録画予約の際に表示される音声入力用のメニュー画面の例である。
図では、利用者の声により、所望のジャンルを指定して録画予約する際の表示例を示している。
【０００７】
画面５０には、録画予約する番組に関する項目が、“邦画”、“洋画”、“ニュース”など複数表示される。利用者は、選択したい項目の名称そのもの（例えば、“邦画”、“洋画”など）を発声することによって番組を選択することができる。また、利用者は、“邦画”を選択する際、「ほうが」と発声しても「にほんえいが」と発声してもよく、図示はしていないが、例えば“１ＣＨ（チャンネル）”を選択する際、「イチ」と発声してもよいなど、似通ったものを前もって複数登録しておき、誤って選択されても、目的の言葉に置き換える処理を施している場合もあった。
【０００８】
【特許文献１】
特開２００２−１６９５８４号公報（第１図）
【０００９】
【発明が解決しようとする課題】
しかし、画面を表示させて、利用者の声で項目を選択するような場合に、発声すべきデータが長すぎたり、短すぎたり、似通ったものがあるような場合に選択を誤ってしまうという問題があった。
【００１０】
また、利用者のイントネーションやその他の要因で、正確に認識できない場合があるという問題があった。
上記のような要因で、所望の選択項目が選ばれなかった場合に、利用者は正しいものが選択されるまで発声し直さなければならず、ストレスを感じることがあった。
【００１１】
さらには、似通った言葉を数多く登録しておく必要があり、大きなメモリ量が必要であるという問題があった。
本発明はこのような点に鑑みてなされたものであり、認識率を向上し、利用者にストレスを感じさせることなく、所望の項目が選択可能な音声認識装置及び音声認識方法を提供することを目的とする。
【００１２】
【課題を解決するための手段】
本発明では上記課題を解決するために、表示デバイスの画面上に表示された項目を、利用者による声で選択させる音声認識装置において、１つの前記項目に対して関連付けされた複数の発声対象を、前記画面上に表示する発声対象表示部と、前記声に応じた音声データを取り込んで音声認識する音声認識部と、音声認識の結果、前記音声データが前記発声対象のいずれかに対応していれば、前記項目が選択されたと判定する判定部と、を有することを特徴とする音声認識装置が提供される。
【００１３】
上記の構成によれば、発声対象表示部は、選択するための項目１つに対して関連付けされた複数の発声対象を表示デバイスの画面上に表示し、音声認識部により利用者の声に応じた音声データを取り込んで音声認識した結果が、複数の発声対象のいずれかに対応していた場合に、判定部はその発声対象が関連付けられている項目が選択されたと判定する。これにより、１つの項目を選択するために、利用者は表示された複数の発声対象のいずれかを音声認識部にて認識可能なように発声すればよい。
【００１４】
【発明の実施の形態】
以下本発明の実施の形態を図面を参照して説明する。
図１は、本発明の実施の形態の音声認識装置の機能ブロック図である。
【００１５】
音声認識装置１０は、表示デバイス２０の画面２０ａ上に表示された項目を、利用者による声で選択させるものであり、発声対象表示部１１と、音声認識部１２と、判定部１３とからなる。
【００１６】
発声対象表示部１１は、ＣＲＴ（ＣａｔｈｏｄｅＲａｙＴｕｂｅ）ディスプレイや液晶ディスプレイなどの表示デバイス２０の画面２０ａ上に、利用者による発声により選択させるための複数の項目を表示する。例えば、図１の画面２０ａはテレビジョン放送などの番組の録画予約の際に表示される画面の一例であるが、選択させたい項目２１ａ（邦画）、２２ａ（洋画）、２３ａ（ドラマ）が表示されている。
【００１７】
さらに、本発明の実施の形態の音声認識装置１０における発声対象表示部１１では、選択対象の項目と関連付けされた複数の発声対象を画面２０ａ上に表示する。なお、ここで発声対象とは、選択対象の項目名のほか、色や形状、項目名とは別の言葉などがある。例えば、図１のように、項目２１ａについては、項目名“邦画”のほかに、アイコン２１ｂを表示する。アイコン２１ｂにおいて、発声対象となるのは、アイコン２１ｂの形状である“まる”、項目名とは別の言葉である、“りんご”などである。このように、１つの項目２１ａに対し複数の発声対象を表示させる。さらに、画面２０ａの例では項目２２ａについて、項目名“洋画”のほかに、アイコン２２ｂを表示して、発声対象として、アイコン２２ｂの形状である“さんかく”、項目名とは別の言葉である“ゆず”を表示させている。また、項目２３ａについて、項目名“ドラマ”のほかに、アイコン２３ｂを表示して、発声対象として、アイコン２３ｂの形状である“しかく”、項目名とは別の言葉である“あんず”を表示させている。
【００１８】
また、発声対象は色でもよく、各項目を色付けすることによって画面２０ａ上で表示する。
音声認識部１２は、利用者による発声でマイクなどの音声入力装置１２ａにより電気信号に変換された音声データを取り込み、言葉に変換する機能を持つ。認識の際には、利用者により発声され入力された音声データは、例えば、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）に格納された音響モデルや、音声データに対応した言葉が記述されている認識辞書などを用いて言葉に変換される。
【００１９】
判定部１３は、音声認識部１２で認識された言葉が、選択対象の項目と関連付けされた前述したような発声対象のいずれかに対応しているか否かを判定し、対応していれば選択対象の項目が選択されたと判定する機能を有する。また、判定された項目が選択された旨の信号（図１ではこの信号を“判定結果”としている）を、その項目が示す機能を実行するための実行手段（図示せず）へ送信する。またその信号を発声対象表示部１１に送り、その項目が選択された旨を表示デバイス２０の画面２０ａに表示させてもよい。
【００２０】
実行手段は様々なものがあるが、例えば、図１のような画面２０ａで録画予約が可能なＴＶ（またはビデオテープレコーダなどの記録装置）の録画予約を制御する制御部などである。
【００２１】
また、このような制御部に上記の判定部１３の機能を持たせるようにしてもよい。
なお、音声認識装置１０は、例えば、１つまたは複数のＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、ＲＯＭまたはフラッシュメモリ、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）などによって実現される。ここで、ＣＰＵはＲＯＭまたはフラッシュメモリなどに格納されているプログラムを、一時ＲＡＭに展開して実行し各部を制御する。また、前述したそれぞれの機能ブロックは、それぞれ独立してこれらのハードウェアを持つようなＩＣ（ＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）チップであってもよい。
【００２２】
以下、本発明の実施の形態の音声認識装置１０における、音声認識処理の流れを、フローチャートを用いて説明する。
図２は、音声認識処理の流れを説明するフローチャートである。
【００２３】
処理が開始すると、例えば、図１で示したように、ＴＶ番組の録画予約の場合のような選択すべき項目２１ａ、２２ａ、２３ａを複数表示した画面２０ａにおいて、発声対象表示部１１は、選択対象の１つの項目に対して関連付けされた複数の発声対象を画面２０ａ上に表示する（ステップＳ１）。
【００２４】
次に、音声認識部１２では、音声入力装置１２ａにより、利用者の声が入力されたか否かを判断する。ここで、入力された場合には、ステップＳ３の処理に進み、入力されない場合には待機してステップＳ２の処理を繰り返す（ステップＳ２）。
【００２５】
利用者の発声により音声データが入力されると、音声認識部１２では、音声データを、例えば、ＲＯＭに格納された音響モデルや、音声データに対応した言葉が記述されている認識辞書などを用いて言葉に変換する。変換された言葉は判定部１３に送られる（ステップＳ３）。
【００２６】
判定部１３は、画面に表示されている発声対象と入力された音声データ（ステップＳ３の処理により言葉として認識されている）とを比較して、発声対象のいずれかに、入力された音声データが対応するか否かを判定する。
【００２７】
ここで、対応していると判定された場合には、その発声対象が関連付けられている選択対象の項目が選択されたと判定し、その選択対象の項目が選択された旨の信号を出力する。対応していない場合には、選択対象の項目が選択されていないと判定する（ステップＳ４）。
【００２８】
判定処理が終了すると、選択対象の項目の選択処理が完了したか否かを判断する。ここで、選択が完了したと判断された場合には処理を終了し、選択が未だ完了していないと判断された場合には、ステップＳ１からの処理を繰り返す（ステップＳ５）。
【００２９】
上記の処理により、図１のような画面において、録画予約を行うような場合、選択対象の項目２１ａの“邦画”を録画予約したい場合は、「ほうが」と発声して選択する以外に、「りんご」と発声しても、「まる」と発声しても、音声認識処理（ステップＳ３）でいずれかが正確に認識されれば、“邦画”が選択されることになり、録画予約を行うことができる。
【００３０】
また、同様に、選択対象の項目２２ａの“洋画”を録画予約する場合は、「ようが」、「ゆず」、「さんかく」のいずれかが発声され、正確に認識されれば、“洋画”が選択されることになり、選択対象の項目２３ａの“ドラマ”を録画予約したい場合は、「ドラマ」、「あんず」、「しかく」のいずれかが発声され、正確に認識されれば、“ドラマ”が選択されることになり、録画予約を行うことができる。
【００３１】
このように、１つの選択対象の項目に対し、複数の発声対象を表示し、これを利用者に発声させることで、従来のように、“洋画”を選択する場合は「ようが」、“邦画”を選択する場合は「ほうが」などと似通った発声となる場合に生じる認識間違いを防止することができる。
【００３２】
また、従来のように、近似する言葉を数多く登録しておく必要が少なくなるので、ＣＰＵパワーやメモリ量を節約することが可能になる。
なお、発声対象は利用者の所望により発声対象を設定可能にすることにより、音声認識による操作を、より利用者がなじみやすいものとすることができる。
【００３３】
図３は、利用者により発声対象を設定する発声対象設定部を有した音声認識装置の機能ブロック図である。
音声認識装置１０ａにおいて、発声対象設定部１４以外は、図１の構成と同じであるので説明を省略する。
【００３４】
発声対象設定部１４は、利用者（もしくは発声対象の作成者）が処理選択に使用を希望する“記号”、“図形”、“色”、“任意の言葉”などの発声対象をＧＵＩ（ＧｒａｐｈｉｃａｌＵｓｅｒＩｎｔｅｒｆａｃｅ）操作などによって予め登録することを可能にする処理を担当する。
【００３５】
利用者（もしくは作成者）が選択した発声対象は、判定部１３に通知され、実際に割り当てられた操作処理に関連付けされる。さらに発声対象表示部１１に通知され、アイコンなど、表示する情報に変換される。
【００３６】
例えば、上記では選択対象の項目とは異なる言葉として、果物の名前を用いた場合について説明しているが、花の名前でもよく、利用者が区別しやすいもの（または発声しやすいもの）を発声対象として設定できるようにすることで、利用者の負担やわずらわしさを軽減させることができる。
【００３７】
なお、上記では、録画予約の場合の選択画面において、本発明の音声認識方法を適用した場合について説明したが、これ以外にも画面上に選択項目を表示して選択させるような各種場面にて適用することが可能である。例えば、カーナビゲーション装置や、ＰＤＡ（ＰｅｒｓｏｎａｌＤｉｇｉｔａｌＡｓｓｉｓｔａｎｔ）、パーソナルコンピュータ、その他、エアコンや種々の家電製品にも適用できる。
【００３８】
【発明の効果】
以上説明したように本発明では、１つの選択対象の項目に対し関連付けされた複数の発声対象を表示し、これを利用者に発声させ、発声対象のいずれかに対応していれば、その発声対象に関連付けられた項目が選択されたと判定するので、認識率が向上し、利用者はストレスを感じることなく、所望の項目を選択することができるようになる。
【図面の簡単な説明】
【図１】本発明の実施の形態の音声認識装置の機能ブロック図である。
【図２】音声認識処理の流れを説明するフローチャートである。
【図３】利用者により発声対象を設定する発声対象設定部を有した音声認識装置の機能ブロック図である。
【図４】従来の録画予約の際に表示される音声入力用のメニュー画面の例である。
【符号の説明】
１０……音声認識装置、１１…発声対象表示部、１２……音声認識部、１２ａ……音声入力装置、１３……判定部、２０……表示デバイス、２０ａ……画面、２１ａ，２２ａ，２３ａ……項目、２１ｂ，２２ｂ，２３ｂ……アイコン

Claims

表示デバイスの画面上に表示された項目を、利用者による声で選択させる音声認識装置において、
１つの前記項目に対して関連付けされた複数の発声対象を、前記画面上に表示する発声対象表示部と、
前記声に応じた音声データを取り込んで音声認識する音声認識部と、
音声認識の結果、前記音声データが前記発声対象のいずれかに対応していれば、前記項目が選択されたと判定する判定部と、
を有することを特徴とする音声認識装置。
前記発声対象は前記項目と関連付けされた形状であることを特徴とする請求項１記載の音声認識装置。
前記発声対象は前記項目と関連付けされた、前記項目の項目名とは異なる言葉であることを特徴とする請求項１記載の音声認識装置。
前記発声対象は前記項目と関連付けされた色であることを特徴とする請求項１記載の音声認識装置。
利用者の所望に応じて前記発声対象を設定する発声対象設定部をさらに有することを特徴とする請求項１記載の音声認識装置。
表示デバイスの画面上に表示された項目を、利用者による声で選択させる音声認識方法において、
１つの前記項目に対して関連付けされた複数の発声対象を、前記画面上に表示し、
前記声に応じた音声データを取り込んで音声認識し、
音声認識の結果、前記音声データが前記発声対象のいずれかに対応していれば、前記項目が選択されたと判定する、
ことを特徴とする音声認識方法。