JP2008096577A

JP2008096577A - Ａｖ機器に対する音声操作システム

Info

Publication number: JP2008096577A
Application number: JP2006276423A
Authority: JP
Inventors: Yasuaki Ohashi; 靖明大橋
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 2006-10-10
Filing date: 2006-10-10
Publication date: 2008-04-24

Abstract

【課題】複雑な操作が必要になるＡＶ機器において、音声認識とＯＳＤ表示を用いることにより、操作の簡易化を目指す。
【解決手段】リモコンから送信された音声信号を、雑音抑圧及び音声認識特徴量へ変換し、各ＡＶ機器の操作項目で構成されている単語辞書から成る音響モデル及び言語モデルを用いてマッチングを行い、尤度もしくは単語信頼度の上位Ｎ個を上位順にＯＳＤに表示する。ユーザはその操作候補から選択することで、各ＡＶ機器が依頼された動作を行う。
【選択図】図１

Description

本発明は、音声操作及びＯＳＤ（オンスクリーンディスプレイ）表示が可能な状態であるＡＶ機器に関する。

近年ＡＶ機器の機能増加によって利便性が向上している。しかしその反面、リモコンのボタン数が増加したり、ユーザが望むメニュー画面に辿り着きにくい等、操作が複雑になってしまうといった問題も挙げられる。これからの高齢化社会において、ユーザビリティの向上は必要不可欠である。

ここで、ユーザの負担を軽減することが可能な新たな操作方法として、音声認識が挙げられる（例えば、特許文献１、特許文献２を参照）。ただし、従来は主に番組検索等のキーワード入力に限り音声認識が用いられている。しかし、ユーザビリティの向上を目的とするならば、ＡＶ機器の操作自体も音声入力で行えるほうが望ましい。
特開２００５−６５１５６号公報特開２００５−８０２４７号公報

しかしながら、音声認識は実環境における雑音や誤発話等の影響によって、少なからず誤認識が発生してしまう。例えば、ユーザが「録画リスト」と音声入力したのに対し、「録画停止」と誤認識されてしまった場合、ユーザの判断なしに動作されると操作方法として致命傷である。動作実施の確認（実行する・実行しない）をＯＳＤ（オンスクリーンディスプレイ）で表示されればユーザが誤動作を防止できるが、本来不完全さを払拭できない音声認識を用いた操作方法を搭載する以上、誤認識も許容したシステムを設計する必要がある。ただし、認識精度が低いままであればユーザは使用しないため、精度の改善が求められる。

そこで本発明は、ＡＶ機器を音声で操作することにより、リモコンのボタン数減少、及びユーザが望むメニュー画面に辿り着き易くする事を目的とする。

前記課題を解決するために、本発明は次のような構成を採用する。音声操作が可能であるテレビもしくは該テレビに接続されＯＳＤ表示が可能な該テレビ以外のＡＶ機器であって、リモコンから送信された音声信号を、雑音抑圧もしくはテレビからの回り込み音声を抑圧する手段により音声認識特徴量へ変換する手段と、各ＡＶ機器に格納された単語辞書から成る、性別もしくは年齢層でカテゴライズされた複数の音響モデルと、当該単語辞書から成る言語モデルを用いて、該音響認識特徴量に変換された音声信号と該複数の音響モデルおよび言語モデルとをマッチングする手段と、各音響モデルを用いてマッチングした場合の認識結果の中から、尤度もしくは単語信頼度の最も高い順に上位Ｎ個の音響モデルによる認識結果を選定する手段と、選定された音響モデルによる認識結果の上位Ｎ個を上位順にＯＳＤ表示する手段と、該ＯＳＤ表示からユーザが各ＡＶ機器の操作を選択しうる手段とからなる。

また本発明は、前記雑音もしくはテレビからの回り込み音の抑圧を行った音声信号をコピーしてバッファに格納する手段と、前記選定された音響モデルの情報と、ユーザが選択した操作に対し、当該操作に対して抽出された単語情報を、バッファに格納された音声信号と共にデータベースに格納する手段と、一定数以上のデータが格納された場合において、ユーザが比較的使用しない時間帯、もしくはユーザの指定した時間帯に、音響モデルの学習を行う手段とから構成される。

本発明によると、ユーザが音声入力によってＡＶ機器の操作が可能になり、ユーザが望むメニュー画面に辿り着きやすくなり、かつボタン数の減少が見込めるため、操作性の複雑さを解消することができる。

本発明の実施形態に係るシステムについて、図１〜図６を参照しながら以下説明する。図１は本発明の実施形態に係るシステムの構成例を示すブロック図である。図２は、図１のようにテレビが本発明の処理をしているのに対し、他のＡＶ機器が本発明の処理を行う場合の構成例である。図３は本実施形態に係るＡＶ機器のリモコン設計例を示す図である。図４及び図５は本実施形態に係る認識結果の表示例及び選択された操作の流れを示す図である。図６は本実施形態に係る単語辞書例である。

図面において、１はマイクロホンが搭載されたリモコン、２は音声操作が可能なテレビ（ＡＶ機器の１つ）、３はテレビ以外のＡＶ機器、４は音声入力処理、５は音声信号を雑音抑圧する処理、６はバッファ格納処理、７は音声認識特徴量への変換処理、８はマッチング処理、９は選定された音響モデルによる認識結果のＯＳＤ表示処理、１０はテレビ操作に対する実動作処理、１１はテレビ以外のＡＶ機器操作に対する実動作処理、１２は性別もしくは年齢層別から成る音響モデル、１３は言語モデル、１４はテレビ操作用の単語辞書、１５はテレビ以外のＡＶ機器操作用の単語辞書、１６は入力された音声信号のデータベース、１７は１と同様にマイクロホンが搭載されたリモコン、１８は本発明の音声認識処理を行うテレビ以外のＡＶ機器、１９はＯＳＤ表示に用いるテレビ、２０はリモコンに搭載する指向性マイクロホン、２１は音声操作用ボタン、をそれぞれ表す。

図１の本発明の実施形態においては、テレビ２が本発明の処理を行う例とする。マイクロホンの搭載されたリモコン１を用い、音声入力４によってテレビ２またはテレビ以外のＡＶ機器３を操作する。転送された音声信号に対し、公知の技術である雑音抑圧５を施す。この雑音は、音声の入力時にＡＶ機器がミュート状態になるのであれば環境雑音にあたり、またミュート状態にならないのであれば、環境雑音及びＡＶ機器からの回り込み音に該当する。ここで音声操作とは別に、雑音抑圧された音声信号をコピーし、バッファ格納６を行う。

次にＭＦＣＣなど公知の音声認識特徴量への変換処理７を行った後、性別もしくは年齢層別にカテゴライズされた複数の音響モデル１２と、言語モデル１３を用いて、マッチング処理８を行う。ここで、各音響モデルを用いてマッチングした場合の認識結果のうち、上位Ｎ個の尤度もしくは単語信頼度の最も平均値が高い音響モデルを選定する。また、テレビ操作用の単語辞書１４及びテレビ以外のＡＶ機器操作用の単語辞書１５には、発話される可能性のある操作に関する単語のみ格納されているため、それ以外の認識結果であれば棄却される。

マッチング処理８で選定された音響モデルの認識結果の上位Ｎ個を上位順にＯＳＤ表示９でユーザに示し、ユーザはその中から操作を選択する。この選択された操作内容に対し、選定された音響モデル情報と、単語辞書１４もしくは単語辞書１５で単語情報を抽出し、バッファに格納された音声信号と共に音声信号データベース１６に格納する。

ここで、意図した操作が表示されなかった場合、ユーザは選択処理を終了し、再度音声を入力する。選定された操作がテレビに対してであれば、動作処理１０を施し、テレビ以外のＡＶ機器であれば、ＨＤＭＩ（登録商標）もしくはｉＬｉｎｋ（登録商標）等の接続端子より伝送し、動作処理１１を行う。音声信号データベース１６内に、一定以上のデータが格納されれば、ユーザの指定した時間帯もしくは深夜等のユーザが使用しない時間帯に音響モデルの学習を行う。

図２は、レコーダー等テレビ以外のＡＶ機器が本発明の音声認識処理を行う場合の構成例である。リモコン１７から音声入力された信号を、テレビ以外のＡＶ機器１８に送信する。ＡＶ機器１８はマッチング処理を行い、その結果をテレビ１９に送信しＯＳＤ表示を行う。ユーザが選択した操作を基に、テレビ以外のＡＶ機器１８またはテレビ１９が実動作処理を行う。

図３は、音声操作に必要な指向性マイクロホン２０及び音声操作用ボタン２１を搭載したリモコン例である。当該リモコンはＢｌｕｅｔｏｏｔｈ（登録商標）等の短距離無線通信が用いられ、赤外線通信のように受光部同士を向ける必要がないと仮定し、ユーザは人差し指で音声操作用ボタン２１を押さえ、トランシーバに発話するような体勢で、正面にあるテレビを見つめながら発話することが可能である。また、複数のＡＶ機器に対する操作が可能なリモコンと比べ、ボタン数を減らし、操作の複雑さを低減させている。
図４及び図５に、認識結果のＯＳＤ表示例を示す。認識結果は、尤度もしくは単語信頼度の上位Ｎ個順に表示するものとする。例えば、ユーザが「予約リスト」を選択した場合、従来のメニューボタンから辿れるＯＳＤ表示に移行すればよい。ただし、ユーザが依頼する操作の中には抽象的な場合も多く、従来のＯＳＤ表示にはないものもあると考えられる。そこで、例えばユーザが「予約録画」を選択した場合、主な予約の種類を表示させ、ユーザに選択してもらう。また図５において、ユーザが追いかけ再生できない状態で「追いかけ再生」を選択した場合、説明文を表示する。追いかけ再生が可能であれば、ＡＶ機器が動作を行う。

図６に、図１の単語辞書１４及び１５に格納されているリストの例を示す。各ＡＶ機器には、その機器の操作に関する単語のみ登録されているものとする。よって、番組のキーワード検索などを音声で入力する場合、ネットワークに接続されたサーバ側に存在する番組等の単語辞書を用いることとする。

また、図１にある単語情報抽出の処理は、このリスト内からユーザにより選択された操作に対応する単語を取り出すことを意味し、取り出された単語情報と、バッファに格納された音声信号のコピーをセットにして、データベースに保存する。音響モデルの学習を行う場合、音声信号と音韻系列の照らし合わせにより行われる。学習された音声信号はデータベースより解放される。

以上説明したように、本発明によると、ユーザが音声入力によってＡＶ機器の操作が可能になり、ユーザが望むメニュー画面に辿り着きやすくなり、かつボタン数の減少が見込めるため、操作性の複雑さが解消される。また、誤認識が生じても誤動作を防止でき、かつ音声認識の不完全さを許容した構成となっている（認識精度が低い場合、１つの誤認識結果を提示させるより、複数の認識結果から選択してもらったほうが、ユーザが繰り返し音声入力する可能性が低くなる）。

さらに、性別もしくは年齢層ごとの音響モデルに対し、音声信号のデータベースから音響モデルの学習が可能になるため、家族内の各ユーザに対する話者適応及び、ＡＶ機器が存在する空間やマイクロホンゲインに対する環境適応が施せるため、認識性能が改善される。

本発明の実施形態に係るシステムの構成例を示す図である。他のＡＶ機器が本発明の処理を行う場合の構成例を示す図である。本発明の実施形態に係るＡＶ機器のリモコン設計例を示す図である。本発明の実施形態に係る認識結果の表示例を示す図である。本発明の実施形態に係る認識結果の選択された操作の流れを示す図である。本発明の実施形態に係る単語辞書例を示す図である。

符号の説明

１マイクロホンが搭載されたリモコン
２音声操作可能なテレビ
３テレビ以外のＡＶ機器
４音声入力処理
５雑音抑圧処理
６バッファ格納
７音声認識特徴量への変換処理
８マッチング処理
９選定された音響モデルによる認識結果のＯＳＤ表示処理
１０テレビ操作に対する実動作処理
１１テレビ以外のＡＶ機器操作に対する実動作処理
１２性別もしくは年齢層別から成る音響モデル
１３言語モデル
１４テレビ操作用の単語辞書
１５テレビ以外のＡＶ機器操作用の単語辞書
１６入力された音声信号のデータベース
１７マイクロホンが搭載されたリモコン
１８音声認識処理を行うテレビ以外のＡＶ機器
１９ＯＳＤ表示に用いるテレビ
２０リモコンに搭載する指向性マイクロホン
２１音声操作用ボタン

Claims

音声操作が可能であるテレビもしくは該テレビに接続されＯＳＤ表示が可能な該テレビ以外のＡＶ機器であって、
ユーザの音声信号を音声認識特徴量へ変換する手段と、
各ＡＶ機器に格納された単語辞書から成る複数の音響モデル及び言語モデルとを用いて、該音声認識特徴量に変換された音声信号と該複数の音響モデルおよび言語モデルとをマッチングする手段と、
該マッチングした場合の認識結果の中から、尤度もしくは単語信頼度の最も高い順に上位Ｎ個の音響モデルによる認識結果を選定する手段と、
該選定された音響モデルによる認識結果の上位Ｎ個をＯＳＤ表示する手段と、
該ＯＳＤ表示からユーザが各ＡＶ機器の操作を選択しうる手段と、からなるＡＶ機器に対する音声操作システム。
請求項１に記載の音声操作システムであって、
入力された音声信号をコピーしてバッファに格納する手段と、
ユーザが選択した操作に対応する単語情報を該バッファに格納された前記音声信号とセットにしてデータベースに格納する手段と、
一定数以上の該データベース内の前記音声信号および単語情報を用いて音響モデルの学習を行う手段と、を有して認識性能を改善する音声操作システム。
請求項１に記載の音声操作システムであって、
前記音響モデルは、性別もしくは年齢層別に生成された複数の音響モデルからなり、
該複数の音響モデルの中から最も適した音響モデルを選定するため、各音響モデルを用いてマッチングした場合の尤度もしくは単語信頼度の上位Ｎ個の平均値を算出し、該算出した平均値が最も大きくなる音響モデルを選定する手段を有する音声操作システム。
請求項２または３に記載の音声操作システムであって、
それぞれのユーザによって選択された複数の音響モデルの情報と該音響モデルに対応する音声信号とセットにしてデータベースに格納する手段と、
該データベース中の該音響モデルの情報と音声信号とを用いてユーザが比較的使用しない時間帯、もしくはユーザの指定した時間帯に、それぞれのユーザごとに音響モデルの学習を行う手段と、を有する音声操作システム。