JP2008096577A - Av機器に対する音声操作システム - Google Patents

Av機器に対する音声操作システム Download PDF

Info

Publication number
JP2008096577A
JP2008096577A JP2006276423A JP2006276423A JP2008096577A JP 2008096577 A JP2008096577 A JP 2008096577A JP 2006276423 A JP2006276423 A JP 2006276423A JP 2006276423 A JP2006276423 A JP 2006276423A JP 2008096577 A JP2008096577 A JP 2008096577A
Authority
JP
Japan
Prior art keywords
user
voice
acoustic model
acoustic
models
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2006276423A
Other languages
English (en)
Inventor
Yasuaki Ohashi
靖明 大橋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP2006276423A priority Critical patent/JP2008096577A/ja
Publication of JP2008096577A publication Critical patent/JP2008096577A/ja
Pending legal-status Critical Current

Links

Abstract

【課題】複雑な操作が必要になるAV機器において、音声認識とOSD表示を用いることにより、操作の簡易化を目指す。
【解決手段】リモコンから送信された音声信号を、雑音抑圧及び音声認識特徴量へ変換し、各AV機器の操作項目で構成されている単語辞書から成る音響モデル及び言語モデルを用いてマッチングを行い、尤度もしくは単語信頼度の上位N個を上位順にOSDに表示する。ユーザはその操作候補から選択することで、各AV機器が依頼された動作を行う。
【選択図】図1

Description

本発明は、音声操作及びOSD(オンスクリーンディスプレイ)表示が可能な状態であるAV機器に関する。
近年AV機器の機能増加によって利便性が向上している。しかしその反面、リモコンのボタン数が増加したり、ユーザが望むメニュー画面に辿り着きにくい等、操作が複雑になってしまうといった問題も挙げられる。これからの高齢化社会において、 ユーザビリティの向上は必要不可欠である。
ここで、ユーザの負担を軽減することが可能な新たな操作方法として、音声認識が挙げられる(例えば、特許文献1、特許文献2を参照)。ただし、従来は主に番組検索等のキーワード入力に限り音声認識が用いられている。しかし、ユーザビリティの向上を目的とするならば、AV機器の操作自体も音声入力で行えるほうが望ましい。
特開2005−65156号公報 特開2005−80247号公報
しかしながら、音声認識は実環境における雑音や誤発話等の影響によって、少なからず誤認識が発生してしまう。例えば、ユーザが「録画リスト」と音声入力したのに対し、「録画停止」と誤認識されてしまった場合、ユーザの判断なしに動作されると操作方法として致命傷である。動作実施の確認(実行する・実行しない)をOSD(オンスクリーンディスプレイ)で表示されればユーザが誤動作を防止できるが、本来不完全さを払拭できない音声認識を用いた操作方法を搭載する以上、誤認識も許容したシステムを設計する必要がある。ただし、認識精度が低いままであればユーザは使用しないため、精度の改善が求められる。
そこで本発明は、AV機器を音声で操作することにより、リモコンのボタン数減少、及びユーザが望むメニュー画面に辿り着き易くする事を目的とする。
前記課題を解決するために、本発明は次のような構成を採用する。音声操作が可能であるテレビもしくは該テレビに接続されOSD表示が可能な該テレビ以外のAV機器であって、リモコンから送信された音声信号を、雑音抑圧もしくはテレビからの回り込み音声を抑圧する手段により音声認識特徴量へ変換する手段と、各AV機器に格納された単語辞書から成る、性別もしくは年齢層でカテゴライズされた複数の音響モデルと、当該単語辞書から成る言語モデルを用いて、該音響認識特徴量に変換された音声信号と該複数の音響モデルおよび言語モデルとをマッチングする手段と、各音響モデルを用いてマッチングした場合の認識結果の中から、尤度もしくは単語信頼度の最も高い順に上位N個の音響モデルによる認識結果を選定する手段と、選定された音響モデルによる認識結果の上位N個を上位順にOSD表示する手段と、該OSD表示からユーザが各AV機器の操作を選択しうる手段とからなる。
また本発明は、前記雑音もしくはテレビからの回り込み音の抑圧を行った音声信号をコピーしてバッファに格納する手段と、前記選定された音響モデルの情報と、ユーザが選択した操作に対し、当該操作に対して抽出された単語情報を、バッファに格納された音声信号と共にデータベースに格納する手段と、一定数以上のデータが格納された場合において、ユーザが比較的使用しない時間帯、もしくはユーザの指定した時間帯に、音響モデルの学習を行う手段とから構成される。
本発明によると、ユーザが音声入力によってAV機器の操作が可能になり、ユーザが望むメニュー画面に辿り着きやすくなり、かつボタン数の減少が見込めるため、操作性の複雑さを解消することができる。
本発明の実施形態に係るシステムについて、図1〜図6を参照しながら以下説明する。図1は本発明の実施形態に係るシステムの構成例を示すブロック図である。図2は、図1のようにテレビが本発明の処理をしているのに対し、他のAV機器が本発明の処理を行う場合の構成例である。図3は本実施形態に係るAV機器のリモコン設計例を示す図である。図4及び図5は本実施形態に係る認識結果の表示例及び選択された操作の流れを示す図である。図6は本実施形態に係る単語辞書例である。
図面において、1はマイクロホンが搭載されたリモコン、2は音声操作が可能なテレビ(AV機器の1つ)、3はテレビ以外のAV機器、4は音声入力処理、5は音声信号を雑音抑圧する処理、6はバッファ格納処理、7は音声認識特徴量への変換処理、8はマッチング処理、9は選定された音響モデルによる認識結果のOSD表示処理、10はテレビ操作に対する実動作処理、11はテレビ以外のAV機器操作に対する実動作処理、12は性別もしくは年齢層別から成る音響モデル、13は言語モデル、14はテレビ操作用の単語辞書、15はテレビ以外のAV機器操作用の単語辞書、16は入力された音声信号のデータベース、17は1と同様にマイクロホンが搭載されたリモコン、18は本発明の音声認識処理を行うテレビ以外のAV機器、19はOSD表示に用いるテレビ、20はリモコンに搭載する指向性マイクロホン、21は音声操作用ボタン、をそれぞれ表す。
図1の本発明の実施形態においては、テレビ2が本発明の処理を行う例とする。マイクロホンの搭載されたリモコン1を用い、音声入力4によってテレビ2またはテレビ以外のAV機器3を操作する。転送された音声信号に対し、公知の技術である雑音抑圧5を施す。この雑音は、音声の入力時にAV機器がミュート状態になるのであれば環境雑音にあたり、またミュート状態にならないのであれば、環境雑音及びAV機器からの回り込み音に該当する。ここで音声操作とは別に、雑音抑圧された音声信号をコピーし、バッファ格納6を行う。
次にMFCCなど公知の音声認識特徴量への変換処理7を行った後、性別もしくは年齢層別にカテゴライズされた複数の音響モデル12と、言語モデル13を用いて、マッチング処理8を行う。ここで、各音響モデルを用いてマッチングした場合の認識結果のうち、上位N個の尤度もしくは単語信頼度の最も平均値が高い音響モデルを選定する。また、テレビ操作用の単語辞書14及びテレビ以外のAV機器操作用の単語辞書15には、発話される可能性のある操作に関する単語のみ格納されているため、それ以外の認識結果であれば棄却される。
マッチング処理8で選定された音響モデルの認識結果の上位N個を上位順にOSD表示9でユーザに示し、ユーザはその中から操作を選択する。この選択された操作内容に対し、選定された音響モデル情報と、単語辞書14もしくは単語辞書15で単語情報を抽出し、バッファに格納された音声信号と共に音声信号データベース16に格納する。
ここで、意図した操作が表示されなかった場合、ユーザは選択処理を終了し、再度音声を入力する。選定された操作がテレビに対してであれば、動作処理10を施し、テレビ以外のAV機器であれば、HDMI(登録商標)もしくはi Link(登録商標)等の接続端子より伝送し、動作処理11を行う。音声信号データベース16内に、一定以上のデータが格納されれば、ユーザの指定した時間帯もしくは深夜等のユーザが使用しない時間帯に音響モデルの学習を行う。
図2は、レコーダー等テレビ以外のAV機器が本発明の音声認識処理を行う場合の構成例である。リモコン17から音声入力された信号を、テレビ以外のAV機器18に送信する。AV機器18はマッチング処理を行い、その結果をテレビ19に送信しOSD表示を行う。ユーザが選択した操作を基に、テレビ以外のAV機器18 またはテレビ19が実動作処理を行う。
図3は、音声操作に必要な指向性マイクロホン20及び音声操作用ボタン21を搭載したリモコン例である。当該リモコンはBluetooth(登録商標)等の短距離無線通信が用いられ、赤外線通信のように受光部同士を向ける必要がないと仮定し、ユーザは人差し指で音声操作用ボタン21を押さえ、トランシーバに発話するような体勢で、正面にあるテレビを見つめながら発話することが可能である。また、複数のAV機器に対する操作が可能なリモコンと比べ、ボタン数を減らし、操作の複雑さを低減させている。
図4及び図5に、認識結果のOSD表示例を示す。認識結果は、尤度もしくは単語信頼度の上位N個順に表示するものとする。例えば、ユーザが「予約リスト」を選択した場合、従来のメニューボタンから辿れるOSD表示に移行すればよい。ただし、ユーザが依頼する操作の中には抽象的な場合も多く、従来のOSD表示にはないものもあると考えられる。そこで、例えばユーザが「予約録画」を選択した場合、主な予約の種類を表示させ、ユーザに選択してもらう。また図5において、ユーザが追いかけ再生できない状態で「追いかけ再生」を選択した場合、説明文を表示する。追いかけ再生が可能であれば、AV機器が動作を行う。
図6に、図1の単語辞書14及び15に格納されているリストの例を示す。各AV機器には、その機器の操作に関する単語のみ登録されているものとする。よって、番組のキーワード検索などを音声で入力する場合、ネットワークに接続されたサーバ側に存在する番組等の単語辞書を用いることとする。
また、図1にある単語情報抽出の処理は、このリスト内からユーザにより選択された操作に対応する単語を取り出すことを意味し、取り出された単語情報と、バッファに格納された音声信号のコピーをセットにして、データベースに保存する。音響モデルの学習を行う場合、音声信号と音韻系列の照らし合わせにより行われる。学習された音声信号はデータベースより解放される。
以上説明したように、本発明によると、ユーザが音声入力によってAV機器の操作が可能になり、ユーザが望むメニュー画面に辿り着きやすくなり、かつボタン数の減少が見込めるため、操作性の複雑さが解消される。また、誤認識が生じても誤動作を防止でき、かつ音声認識の不完全さを許容した構成となっている(認識精度が低い場合、1つの誤認識結果を提示させるより、複数の認識結果から選択してもらったほうが、ユーザが繰り返し音声入力する可能性が低くなる)。
さらに、性別もしくは年齢層ごとの音響モデルに対し、音声信号のデータベースから音響モデルの学習が可能になるため、家族内の各ユーザに対する話者適応及び、AV機器が存在する空間やマイクロホンゲインに対する環境適応が施せるため、認識性能が改善される。
本発明の実施形態に係るシステムの構成例を示す図である。 他のAV機器が本発明の処理を行う場合の構成例を示す図である。 本発明の実施形態に係るAV機器のリモコン設計例を示す図である。 本発明の実施形態に係る認識結果の表示例を示す図である。 本発明の実施形態に係る認識結果の選択された操作の流れを示す図である。 本発明の実施形態に係る単語辞書例を示す図である。
符号の説明
1 マイクロホンが搭載されたリモコン
2 音声操作可能なテレビ
3 テレビ以外のAV機器
4 音声入力処理
5 雑音抑圧処理
6 バッファ格納
7 音声認識特徴量への変換処理
8 マッチング処理
9 選定された音響モデルによる認識結果のOSD表示処理
10 テレビ操作に対する実動作処理
11 テレビ以外のAV機器操作に対する実動作処理
12 性別もしくは年齢層別から成る音響モデル
13 言語モデル
14 テレビ操作用の単語辞書
15 テレビ以外のAV機器操作用の単語辞書
16 入力された音声信号のデータベース
17 マイクロホンが搭載されたリモコン
18 音声認識処理を行うテレビ以外のAV機器
19 OSD表示に用いるテレビ
20 リモコンに搭載する指向性マイクロホン
21 音声操作用ボタン

Claims (4)

  1. 音声操作が可能であるテレビもしくは該テレビに接続されOSD表示が可能な該テレビ以外のAV機器であって、
    ユーザの音声信号を音声認識特徴量へ変換する手段と、
    各AV機器に格納された単語辞書から成る複数の音響モデル及び言語モデルとを用いて、該音声認識特徴量に変換された音声信号と該複数の音響モデルおよび言語モデルとをマッチングする手段と、
    該マッチングした場合の認識結果の中から、尤度もしくは単語信頼度の最も高い順に上位N個の音響モデルによる認識結果を選定する手段と、
    該選定された音響モデルによる認識結果の上位N個をOSD表示する手段と、
    該OSD表示からユーザが各AV機器の操作を選択しうる手段と、からなるAV機器に対する音声操作システム。
  2. 請求項1に記載の音声操作システムであって、
    入力された音声信号をコピーしてバッファに格納する手段と、
    ユーザが選択した操作に対応する単語情報を該バッファに格納された前記音声信号とセットにしてデータベースに格納する手段と、
    一定数以上の該データベース内の前記音声信号および単語情報を用いて音響モデルの学習を行う手段と、を有して認識性能を改善する音声操作システム。
  3. 請求項1に記載の音声操作システムであって、
    前記音響モデルは、性別もしくは年齢層別に生成された複数の音響モデルからなり、
    該複数の音響モデルの中から最も適した音響モデルを選定するため、各音響モデルを用いてマッチングした場合の尤度もしくは単語信頼度の上位N個の平均値を算出し、該算出した平均値が最も大きくなる音響モデルを選定する手段を有する音声操作システム。
  4. 請求項2または3に記載の音声操作システムであって、
    それぞれのユーザによって選択された複数の音響モデルの情報と該音響モデルに対応する音声信号とセットにしてデータベースに格納する手段と、
    該データベース中の該音響モデルの情報と音声信号とを用いてユーザが比較的使用しない時間帯、もしくはユーザの指定した時間帯に、それぞれのユーザごとに音響モデルの学習を行う手段と、を有する音声操作システム。
JP2006276423A 2006-10-10 2006-10-10 Av機器に対する音声操作システム Pending JP2008096577A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006276423A JP2008096577A (ja) 2006-10-10 2006-10-10 Av機器に対する音声操作システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006276423A JP2008096577A (ja) 2006-10-10 2006-10-10 Av機器に対する音声操作システム

Publications (1)

Publication Number Publication Date
JP2008096577A true JP2008096577A (ja) 2008-04-24

Family

ID=39379507

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006276423A Pending JP2008096577A (ja) 2006-10-10 2006-10-10 Av機器に対する音声操作システム

Country Status (1)

Country Link
JP (1) JP2008096577A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012133243A (ja) * 2010-12-22 2012-07-12 Toshiba Corp 音声認識装置、音声認識方法および音声認識装置を搭載したテレビ受像機

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012133243A (ja) * 2010-12-22 2012-07-12 Toshiba Corp 音声認識装置、音声認識方法および音声認識装置を搭載したテレビ受像機

Similar Documents

Publication Publication Date Title
JP6824316B2 (ja) 映像処理装置及びその制御方法、並びに映像処理システム
US7848926B2 (en) System, method, and program for correcting misrecognized spoken words by selecting appropriate correction word from one or more competitive words
JP5746111B2 (ja) 電子装置及びその制御方法
JP5819269B2 (ja) 電子装置及びその制御方法
JP6111030B2 (ja) 電子装置及びその制御方法
US10089974B2 (en) Speech recognition and text-to-speech learning system
JP4854259B2 (ja) 音声コマンドを明瞭化する集中化された方法およびシステム
JP5706384B2 (ja) 音声認識装置、音声認識システム、音声認識方法および音声認識プログラム
JP6244560B2 (ja) 音声認識処理装置、音声認識処理方法、および表示装置
WO2015098109A1 (ja) 音声認識処理装置、音声認識処理方法、および表示装置
JP2013037689A (ja) 電子装置及びその制御方法
JP2014532933A (ja) 電子装置及びその制御方法
JP7328265B2 (ja) 音声インタラクション制御方法、装置、電子機器、記憶媒体及びシステム
KR20130018464A (ko) 전자 장치 및 그의 제어 방법
KR20140089863A (ko) 디스플레이 장치, 및 이의 제어 방법, 그리고 음성 인식 시스템의 디스플레이 장치 제어 방법
KR101819459B1 (ko) 음성 인식 오류 수정을 지원하는 음성 인식 시스템 및 장치
US8126715B2 (en) Facilitating multimodal interaction with grammar-based speech applications
JP6897677B2 (ja) 情報処理装置及び情報処理方法
US10540973B2 (en) Electronic device for performing operation corresponding to voice input
JP6675078B2 (ja) 誤認識訂正方法、誤認識訂正装置及び誤認識訂正プログラム
JP6327745B2 (ja) 音声認識装置、及びプログラム
JP2006208486A (ja) 音声入力装置
WO2019163242A1 (ja) 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム
JP2008096577A (ja) Av機器に対する音声操作システム
US20210327420A1 (en) Enhancing signature word detection in voice assistants