JP5771002B2 - 音声認識装置、音声認識方法および音声認識装置を搭載したテレビ受像機 - Google Patents

音声認識装置、音声認識方法および音声認識装置を搭載したテレビ受像機 Download PDF

Info

Publication number
JP5771002B2
JP5771002B2 JP2010286759A JP2010286759A JP5771002B2 JP 5771002 B2 JP5771002 B2 JP 5771002B2 JP 2010286759 A JP2010286759 A JP 2010286759A JP 2010286759 A JP2010286759 A JP 2010286759A JP 5771002 B2 JP5771002 B2 JP 5771002B2
Authority
JP
Japan
Prior art keywords
recognition
voice
input
speech
speech recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2010286759A
Other languages
English (en)
Other versions
JP2012133243A (ja
Inventor
一成 大内
一成 大内
土井 美和子
美和子 土井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2010286759A priority Critical patent/JP5771002B2/ja
Priority to US13/332,697 priority patent/US8421932B2/en
Publication of JP2012133243A publication Critical patent/JP2012133243A/ja
Application granted granted Critical
Publication of JP5771002B2 publication Critical patent/JP5771002B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/422Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
    • H04N21/42203Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS] sound input device, e.g. microphone

Description

本発明の実施形態は、音声認識装置、音声認識方法および音声認識装置を搭載したテレビ受像機に関する。
手による機器操作や文字入力の代替手段として、ユーザの音声を認識して所望の動作を実現する音声認識がある。従来、音声認識には、対象機器内で閉じて音声認識処理を行うローカル型の音声認識が用いられてきた。これに対し近年、ネットワークの大容量化、分散処理技術の進歩により、機器のマイクに入力されたユーザの音声(もしくは音声から抽出した特徴量)をネットワーク経由で外部サーバに送信し、外部サーバ上で音声認識処理の一部を行う分散型の音声認識が普及しつつある。
ローカル型音声認識と分散型音声認識は、対照的な特徴を持つ。ローカル型音声認識は、外部サーバと接続せずに使用できるためレスポンスが早いが、ローカルに使用できる処理能力の制限により大規模な認識語彙への対応が困難である。これに対し、分散型音声認識は、高い処理能力を持つ外部サーバを分散的に利用できるため大規模な認識語彙に対応することができるが、外部サーバとの接続が必要となるためレスポンスが遅くなる。
このように、ローカル型音声認識と分散型音声認識は対照的な特徴を持つため、音声認識を使用する目的に応じて使い分けることが望ましい。従来の技術では、リモコンのボタン押下等によって分散型を使うのかローカル型を使うのかを切り替えており、ユーザ自身が音声認識の切り替えを明確に意識する必要があった。
特表2002−540479号公報 特開2002−182896号公報
発明が解決しようとする課題は、ローカル型と分散型の音声認識の切り替えをユーザに意識させることなく、音声認識の使い分けを実現することである。
実施形態の音声認識装置は、音声を入力する音声入力手段と、当該音声入力手段に入力された音声を認識する第1の音声認識手段と、外部サーバと通信する通信手段と、当該通信手段で接続された外部サーバ上で前記音声入力手段に入力された音声を認識する第2の音声認識手段と、リモコン信号を入力するリモコン信号入力手段と、当該リモコン信号入力手段に入力されたリモコン信号から認識開始指示を検出した場合は前記第2の音声認識手段で前記音声入力手段に入力された音声を認識し、前記音声入力手段に入力された音声から認識開始指示を検出した場合は前記第1の音声認識手段で前記音声入力手段に入力された音声を認識するよう第1と第2の音声認識手段を切り替える音声認識切替手段とを備え、前記第1の音声認識手段が前記第2の音声認識手段が出力した2以上の認識結果を認識語彙に登録して前記音声入力手段に入力された音声を認識する。
第1の実施形態の音声認識装置を示すブロック図。 第1の実施形態のテレビの外観を示した模式図。 第1の実施形態のテレビおよび音声認識装置のハードウェア構成を示す図。 第1の実施形態の音声認識装置の処理の全体の流れを示すフローチャート。 第1の実施形態の認識語彙のリストを示す図。 第1の実施形態の認識語彙のリストを示す図。 第1の実施形態のN件の認識結果のリストを示す図。 第1の実施形態の番組検索結果のリストを示す図。 第1の実施形態のN件の認識結果のリストを示す図。 第2の実施形態の音声認識装置を示すブロック図。 第2の実施形態のテレビの外観を示した模式図。 第2の実施形態の音声認識装置の処理の全体の流れを示すフローチャート。
以下、本発明の実施形態について図面を参照しながら説明する。
(第1の実施形態)
図1は、第1の実施形態にかかるテレビ受像機200に内蔵された音声認識装置100を示すブロック図である。図2は、テレビ受像機200の外観を示した模式図である。第1の実施形態では、ユーザが音声でテレビを操作したり番組名等の情報を検索したりする状況を想定しており、音声認識装置100はテレビ受像機200の本体に内蔵される。本実施形態の音声認識装置100は、ローカル型の第1の音声認識部101と分散型の第2の音声認識部102を備えている。これらの音声認識は、ユーザによって音声認識を開始する旨の指示(認識開始指示)が出された場合に起動する。本実施形態においてユーザは、リモコンのボタン押下もしくは所定の合図音のいずれかの操作によって認識開始指示を出すことができる。所定の合図音は、ユーザの音声、ユーザの動作で発生する動作音などである。音声認識装置100は、検出された認識開始指示に応じてユーザの音声の認識に使用する音声認識部を切り替える。具体的には、リモコンによる認識開始指示を検出した場合は第2の音声認識部102を、合図音による認識開始指示を検出した場合には第1の音声認識部101を使用する。
図2のテレビ受像機200は、テレビ本体を支持する筐体201と、情報を表示するディスプレイ202と、リモコンからの赤外線を受信する赤外線受信部203と、ユーザの音声(合図音を含む)を取得する2本のマイク204と、制御信号を赤外線で送信するリモコン205とを備える。図1の音声認識装置100は、リモコンからの信号を入力するリモコン信号入力部103と、音声(合図音を含む)を入力する音声入力部104と、音声入力部104が取得した音声から合図音を検出する合図音検出部105と、リモコン信号入力部103が取得したリモコン信号と合図音検出部105が検出した合図音とに応じて音声認識を切り替える音声認識切替部106と、ローカル型の第1の音声認識部101と、分散型の第2の音声認識部102と、外部サーバ110と通信する通信部107とを備える。第1の音声認識部101および第2の音声認識部102の認識結果は、テレビの操作等を行うテレビ操作部108に送信される。テレビ操作部108は、テレビ受像機200に内蔵されている。更に、分散型の第2の音声認識部102は、通信部107を介して外部サーバ110と接続しており、外部サーバ110は、音声認識装置100と通信する通信部111と、音声認識処理の一部を実行するサーバ処理部112とを備える。
音声認識装置100および外部サーバ110は、図3に示すような通常のコンピュータを利用したハードウェアで構成されており、装置全体を制御するCPU(Central Processing Unit)等の制御部130と、各種データや各種プログラムを記憶するROM(Read Only Memory)やRAM(Random Access Memory)等の記憶部131と、各種データや各種プログラムを記憶するHDD(Hard Disk Drive)やCD(Compact Disk)ドライブ装置等の外部記憶部132と、ユーザの指示入力を受け付ける操作部133と、外部装置との通信を制御する通信部134と、これらを接続するバス135とを備えている。さらに、音声認識装置100には、音声が入力されるマイクなどの音声入力部136が接続される。ここで、外部サーバ110は、複数台のハードウェアで構成できる。
このようなハードウェア構成において、制御部130がROM等の記憶部131や外部記憶部132に記憶された各種プログラムを実行することにより以下の機能が実現される。
音声認識装置100のリモコン信号入力部103は、赤外線受信部203を介してリモコン205のボタン押下によって発せられた認識開始指示を取得する。認識開始指示とは、ユーザからの音声認識を開始する旨の指示を表している。音声認識装置100の音声入力部104は、2本のマイク204を介してユーザの音声もしくは合図音を取得する。音声入力部104は、マイクアレー技術を用いて、認識開始指示の到来方向の推定およびこの推定方向への指向性付与を実行できる。合図音検出部105は、音声入力部104が取得した音声からユーザの認識開始指示である合図音を検出する。音声認識切替部106は、リモコン信号入力部103もしくは合図音検出部105で検出された認識開始指示に応じて、使用する音声認識部を切り替える。本実施形態では、合図音による認識開始指示が検出された場合はローカル型の第1の音声認識部101を、リモコンによる認識開始指示が検出された場合は分散型の第2の音声認識部102を使用する。第2の音声認識部102は、通信部107を介して外部サーバ110と接続しており、音声認識処理の一部を外部サーバ110のサーバ処理部112で実行する。通信部107および通信部111は有線もしくは無線のネットワークで接続される。テレビ受像機200のテレビ操作部108は、第1の音声認識部101もしくは第2の音声認識部102で得られた認識結果を取得し、チャンネル切替等のテレビ受像機の操作や番組名等の情報検索を行う。テレビ操作部108から出力される認識結果や各種情報はディスプレイ202に表示される。
このように構成された第1の実施形態にかかる音声認識装置100の動作について説明する。図4は、第1の実施形態における音声認識装置100の処理の全体の流れを示すフローチャートである。本実施形態における音声認識装置100は、テレビ受像機200に内蔵されており、ユーザが音声でテレビを操作したり番組名等の情報を検索したりすることを実現する。ここで、テレビ受像機の操作をする場合は合図音を使って、情報を検索する場合はリモコンを使って認識開始指示を出すようマニュアルでユーザに通知しておく。テレビ受像機の操作には、例えば100〜200程度の小規模な語彙が必要であり、その性質上早急なレスポンスが求められる。一方、情報検索には、例えば10万程度の大規模な語彙が必要であり、十分な計算機リソースを利用した認識精度の確保が求められる。したがって、テレビ受像機の操作の場合はローカル型の第1の音声認識部101を、情報検索の場合は分散型の第2の音声認識部102を使用してユーザの音声を認識する。さらに、第2の音声認識部102は、認識結果に正解が含まれる確率を高めるため、正解候補として尤度が高い順にN件の認識結果(Nは2以上)を出力する。以下、図4のフローチャートにおける各ステップの詳細を説明する。
まず、音声認識装置100は、ユーザからの認識開始指示を待つ(ステップS1)。本実施形態において、ユーザは、リモコンのボタン押下による認識開始指示もしくは合図音による認識開始指示を行うことができる。
本実施形態では、リモコンのボタン押下による認識開始指示を可能にするため、リモコンの所定ボタンに認識開始を指示する制御信号を割り当てる。音声認識切替部106は、リモコン信号入力部103で取得された信号に制御信号が含まれるか否かを判別し、制御信号が含まれていると判別した場合、ユーザからの認識開始指示を検出したものとする(ステップS2)。
合図音による認識開始指示の場合、合図音検出部105は、音声入力部104が取得した信号からユーザの認識開始指示を検出し、検出結果を音声認識切替部106に送信する。ここで、合図音としては、特定単語(例えば、「テレビくん」)を発声したユーザの音声、もしくは手のひらを2回叩く、親指と中指で音を鳴らすなどの動作音が考えられる。特定単語を発声したユーザの音声を合図音として使用する場合、合図音検出部105は、特定単語を認識語彙として登録したローカル型の第1の音声認識部101を起動させておく。そして、この特定単語に対する認識の尤度が所定値より大きくなった場合に、ユーザの認識開始指示を検出したものとする(ステップS2)。ここで、合図音検出部105は、第1の音声認識部101以外の音声認識を用いて特定単語を認識してもよい。
ユーザの動作音を合図音として使用する場合、合図音検出部105は、音声入力部104で取得した信号のレベルを抽出する。そして、このレベルが所定値を超えたか否か、所定値を超えるレベルが連続して2回発生したか否か等の、予め決められた動作音検出のルールに基づいて認識開始指示を検出する(ステップS2)。例えば、認識開始指示として拍手を使用する場合、信号のレベルが2回連続して所定値を超えたか否か、を動作音検出のルールとして用いる。これにより、物を落とす、ドアを閉める等といった単発的な音に対する語検出を防ぐことができる。
音声認識切替部106は、検出された認識開始指示に応じて使用する音声認識を切り替える(ステップS3)。本実施形態では、音声入力部104の信号から認識開始指示を検出した場合(ユーザが合図音で認識開始指示を行った場合)はローカル型の第1の音声認識部101を、リモコン信号入力部103の信号から認識開始指示を検出した場合(ユーザがリモコンで認識開始指示を行った場合)は分散型の第2の音声認識部102を使用する。
第1の音声認識部101を使用した場合の音声認識処理(ステップS4)について説明する。ローカル型の第1の音声認識部101は、100〜200程度の比較的小規模な認識語彙を対象としており、テレビ受像機200の操作に利用される。第1の音声認識部101に登録された認識語彙は、図5のようなテレビのチャンネル切替、音量調節、電源オン/オフや、図6のような天気予報、ニュースなどの各種情報画面の起動など、テレビ受像機200の操作に関する語彙である。これらの認識語彙は、予め固定的に保持していてもよいし、各種情報の見出しなどを解析して動的に生成してもよい。そして、第1の音声認識部101は、音声入力部104に入力されたユーザの音声からMFCC(Mel-Frequency Cepstral Coefficient)などの特徴量の抽出と、特徴量と音響モデルの照合とを行い、最も尤度が高い認識語彙を認識結果としてテレビ操作部108に出力する。そして、テレビ操作部108は、認識結果に応じたテレビ受像機の操作とディスプレイ202への表示画面出力を実行する(ステップS11)。
次に、第2の音声認識部102を使用した場合の音声認識処理(ステップS5)について説明する。第2の音声認識部102は、分散型音声認識であり10万程度の大規模な認識語彙を対象とした情報検索に利用される。第2の音声認識部102の認識語彙は、EPG(Electronic Program Guide:電子番組表)から抽出した番組名、出演者名や、それらの略称・愛称など情報検索の対象となる語彙である。ここで、EPGなどは日々変動するため、定期的に(例えば、一日に一度)認識語彙を更新する。
第2の音声認識部102は、外部サーバ110のサーバ処理部112で音声認識処理の一部を実行する。例えば、第2の音声認識部102で音声認識の特徴量(MFCC)を抽出し、この特徴量と音響モデルの照合を外部サーバ110のサーバ処理部112で実行する。また、音声入力部104で取得した信号の取り込みと通信部107への送信のみを第2の音声認識部102で行い、その他の音声認識処理(特徴量の抽出および特徴量と音響モデルの照合)をサーバ処理部112で実行することもできる。いずれの場合も、サーバ処理部112での処理結果は、通信部111を介して第2の音声認識部102に送信される。第2の音声認識部102は、認識処理で得られたN件の認識結果をテレビ操作部108に伝える。そして、テレビ操作部108は、第2の音声認識部102で得られたN件の認識結果をディスプレイ202にリスト表示する(ステップS6)。図7は、Nが3に設定された場合のリスト表示の例である。
次に、ディスプレイ202に表示されたN件の認識結果の中から正解を選択する方法について説明する。正解の選択方法には、リモコンによる選択と音声認識による選択の2通りがある(ステップS7)。リモコンを使用する場合、ユーザは十字キーなどを用いて正解にカーソルを移動させ、決定ボタンを押して選択する(ステップS8)。テレビ操作部108は、図7の認識結果リストの最上位(東芝太郎)が選択された場合、図8のように東芝太郎が出演している番組をEPGから検索しリストアップする(ステップS11)。また、所望の番組をリモコンで選択して番組情報を確認したり、録画予約したりすることもできる(ステップS11)。
正解の選択に音声認識を使用する場合は、N件の認識結果をローカル型の第1の音声認識部101の認識語彙として動的に登録する(ステップS9)。そして、音声入力部104に入力されたユーザの音声を第1の音声認識部101で認識する(ステップS10)。これにより、ユーザは、音声を使ってN件の認識結果から正解を選択できる。ここで、図9のように認識結果のリストに通し番号を付与し、その番号もあわせて第1の音声認識部101の認識語彙に登録すれば、番号による指定も可能になる。また、同様な枠組みにより、図8のような番組検索結果が表示された場合も、リモコンによる選択と音声認識による選択とのいずれかで所望の番組を選択できる。
このように、第1の実施形態にかかる音声認識装置100では、リモコンもしくは合図音による認識開始指示によって、情報検索やテレビ受像機の操作といったタスクを起動する。そして、起動されるタスクに連動してローカル型の第1の音声認識部101と分散型の第2の音声認識部102が切り替えられる。これにより、音声認識装置100は、分散型とローカル型の使い分けをユーザに意識させることなく、音声認識を切り替えることができる。
また、テレビ受像機の操作などの小規模な認識語彙にはローカル型の第1の音声認識が、情報検索などの大規模な認識語彙には分散型の第2の音声認識が使用されるよう音声認識が切り替えられるため、ユーザの認識開始指示によって目的に応じた音声認識を選択できる。
また、第1の実施形態にかかる音声認識装置100では、合図音でテレビ受像機操作のタスクを起動できる。これにより、ユーザはリモコン等の機器を一切持たずにテレビ受像機を操作できる。
また、第1の実施形態にかかる音声認識装置100では、情報検索に用いられる第2の音声認識部102が2つ以上の認識結果を出力するよう動作する。これにより、大規模な認識語彙が対象となる場合においても認識結果に正解が含まれる確率を高めることができる。
また、第1の実施形態にかかる音声認識装置100では、第2の音声認識部102が出力した2つ以上の認識結果からの正解の選択に、認識語彙を動的に生成した第1の音声認識部101を利用している。これにより、ユーザはリモコン等の機器操作を用いずに正解を選択できる。
また、第1の実施形態にかかる音声認識装置100では、分散型の第2の音声認識部102の認識語彙を定期的に更新する。これにより、ユーザは最新の情報を利用して情報検索を行うことができる。
(第2の実施形態)
図10は、第2の実施形態にかかる音声認識装置150の構成を示すブロック図である。図11は、第2の実施形態にかかるテレビ受像機300の外観を示した模式図である。第2の実施形態が第1の実施形態と異なるのは、テレビ受像機300に画像を撮影するカメラ301が追加されている点と、音声認識装置150にカメラ301からの画像を入力する画像入力部151と画像入力部151で取得した画像に含まれるジェスチャを認識するジェスチャ認識部152が追加されている点と、合図音認識部105が削除されている点である。
本実施形態においてユーザは、リモコンのボタン押下もしくは所定のジェスチャのいずれかの操作によって認識開始指示を行うことができる。ここで、ジェスチャとしては、ユーザが手を振る、指で特定の方向を指すなどの所定の動作が考えられる。ジェスチャ認識部152は、映像入力部151が取得したジェスチャの映像を画像認識技術で認識する。そして、予め設定した所定のジェスチャを認識した場合、ユーザの認識開始指示を検出したものとする。
音声認識切替部106は、検出された認識開始指示に応じて、ユーザの音声を認識する際に使用する音声認識部を切り替える。本実施形態では、ユーザのジェスチャによる認識開始指示が検出された場合はローカル型の第1の音声認識部101を、リモコンによる認識開始指示が検出された場合は分散型の第2の音声認識部102を使用する。
このように構成された第2の実施形態にかかる音声認識装置150の動作について説明する。図12は、第2の実施形態における音声認識装置150の処理の全体の流れを示すフローチャートである。第1の実施形態にかかる音声認識装置150と異なる処理は、ステップS23およびステップS29である。
ステップS23では、検出された認識開始指示に応じて使用する音声認識部を切り替えている。本実施形態では、映像入力部151の信号から認識開始指示を検出した場合(ユーザがジェスチャで認識開始指示を行った場合)はローカル型の第1の音声認識部101を、リモコン信号入力部103の信号から認識開始指示を検出した場合(ユーザがリモコンで認識開始指示を行った場合)は分散型の第2の音声認識部102を使用する。
ステップS29は、第2の音声認識部102のN件の認識結果の中から正解を選択する際にジェスチャを利用している。例えば、図7のフォーカス700を手の位置で動かし、目的の候補にフォーカス700が移った後に親指を立てて決定するなど、予め定めたジェスチャによって選択する。なお、ジェスチャの画像認識には、ジェスチャ認識部152を利用する。
このように、第2の実施形態にかかる音声認識装置150では、ジェスチャで分散型の第1の音声認識部101に認識開始指示を行うことができる。これにより、ユーザはリモコン等の機器を一切持たずにテレビ受像機を操作することができる。
以上述べた少なくとも一つの実施形態の音声認識装置によれば、ユーザの認識開始指示によって、情報検索やテレビ受像機の操作といったタスクを起動する。そして、起動されるタスクに連動してローカル型の第1の音声認識部101と分散型の第2の音声認識部102が切り替えられる。これにより、音声認識装置100は、分散型とローカル型の使い分けをユーザに意識させることなく、音声認識を切り替えることができる。
また、テレビ受像機の操作等の小規模な認識語彙にはローカル型の第1の音声認識部101が、情報検索等の大規模な認識語彙には分散型の第2の音声認識部102が使用されるよう音声認識が切り替えられる。これにより、音声認識装置は、ユーザの認識開始指示によって目的に応じた音声認識を選択できる。
また、ユーザがリモコンを用いずにテレビ受像機を操作するための認識開始指示を行うことができる。これにより、ユーザはリモコン等の機器を一切持たずにテレビ受像機を操作することができる。
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
100 音声認識装置
101 第1の音声認識部
102 第2の音声認識部
103 リモコン信号入力部
104 音声入力部
105 合図音検出部
106 音声認識切替部
107 通信部
108 テレビ操作部
110 外部サーバ
111 通信部
112 サーバ処理部
130 制御部
131 記憶部
132 外部記憶部
133 操作部
134 通信部
135 バス
136 音声入力部
150 音声認識装置
151 画像入力部
152 ジェスチャ認識部
200 テレビ受像機
201 筐体
202 ディスプレイ
203 赤外線受信部
204 マイク
205 リモコン
300 テレビ受像機
301 カメラ
700 フォーカス

Claims (7)

  1. 音声を入力する音声入力手段と、
    当該音声入力手段に入力された音声を認識する第1の音声認識手段と、
    外部サーバと通信する通信手段と、
    当該通信手段で接続された外部サーバ上で前記音声入力手段に入力された音声を認識す
    る第2の音声認識手段と、
    リモコン信号を入力するリモコン信号入力手段と、
    当該リモコン信号入力手段に入力されたリモコン信号から認識開始指示を検出した場合
    は前記第2の音声認識手段で前記音声入力手段に入力された音声を認識し、
    前記音声入力手段に入力された音声から認識開始指示を検出した場合は前記第1の音声認
    識手段で前記音声入力手段に入力された音声を認識するよう第1と第2の音声認識手段を
    切り替える音声認識切替手段と、を備え、
    前記第1の音声認識手段が前記第2の音声認識手段が出力した2以上の認識結果を認識
    語彙に登録して前記音声入力手段に入力された音声を認識することを特徴とする音声認識
    装置。
  2. 音声を入力する音声入力手段と、
    当該音声入力手段に入力された音声を認識する第1の音声認識手段と、
    外部サーバと通信する通信手段と、
    当該通信手段で接続された外部サーバ上で前記音声入力手段に入力された音声を認識す
    る第2の音声認識手段と、
    リモコン信号を入力するリモコン信号入力手段と、
    画像を入力する画像入力手段と、
    当該リモコン信号入力手段に入力されたリモコン信号から認識開始指示を検出した場合
    は前記第2の音声認識手段で前記音声入力手段に入力された音声を認識し、
    前記画像入力手段に入力された画像から認識開始指示を検出した場合は前記第1の音声認
    識手段で前記音声入力手段に入力された音声を認識するよう第1と第2の音声認識手段を
    切り替える音声認識切替手段と、を備え、
    前記第1の音声認識手段が前記第2の音声認識手段が出力した2以上の認識結果を認識
    語彙に登録して前記音声入力手段に入力された音声を認識することを特徴とする音声認識
    装置。
  3. 前記第2の音声認識手段が2以上の認識結果を出力する請求項1乃至2に記載の音声認
    識装置。
  4. 前記第2の音声認識手段が音声認識の認識語彙を定期的に更新する請求項1乃至請求項
    2に記載の音声認識装置。
  5. 請求項1乃至請求項2に記載の音声認識装置を搭載したテレビ受像機であって、
    前記第2の音声認識手段の認識語彙が情報検索の語彙で構成され、前記第1の音声認識手
    段の認識語彙が前記テレビ受像機の操作の語彙で構成されたテレビ受像機。
  6. 音声を入力する音声入力工程と、
    リモコン信号を入力するリモコン信号入力工程と、
    当該リモコン信号入力工程で取得したリモコン信号から認識開始指示を検出した場合は
    第1の音声認識工程で前記音声を認識し、前記音声入力工程で取得した音声から認識開始
    指示を検出した場合は外部サーバを利用した第2の音声認識工程で前記音声を認識するよ
    う第1と第2の音声認識工程を切り替える音声認識切替工程と、を備え、
    前記第1の音声認識行程が前記第2の音声認識行程が出力した2以上の認識結果を認識
    語彙に登録して前記音声入力行程に入力された音声を認識することを特徴とする音声認識
    方法。
  7. 音声を入力する音声入力工程と、
    リモコン信号を入力するリモコン信号入力工程と、
    画像を入力する画像入力工程と、
    前記リモコン信号入力工程で取得したリモコン信号から認識開始指示を検出した場合は
    第1の音声認識工程で前記音声を認識し、前記画像入力工程で取得した映像から認識開始
    指示を検出した場合は外部サーバを利用した第2の音声認識工程で前記音声を認識するよ
    う第1と第2の音声認識工程を切り替える音声認識切替工程と、を備え、
    前記第1の音声認識行程が前記第2の音声認識行程が出力した2以上の認識結果を認識
    語彙に登録して前記音声入力行程に入力された音声を認識することを特徴とする音声認識
    方法。
JP2010286759A 2010-12-22 2010-12-22 音声認識装置、音声認識方法および音声認識装置を搭載したテレビ受像機 Expired - Fee Related JP5771002B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2010286759A JP5771002B2 (ja) 2010-12-22 2010-12-22 音声認識装置、音声認識方法および音声認識装置を搭載したテレビ受像機
US13/332,697 US8421932B2 (en) 2010-12-22 2011-12-21 Apparatus and method for speech recognition, and television equipped with apparatus for speech recognition

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010286759A JP5771002B2 (ja) 2010-12-22 2010-12-22 音声認識装置、音声認識方法および音声認識装置を搭載したテレビ受像機

Publications (2)

Publication Number Publication Date
JP2012133243A JP2012133243A (ja) 2012-07-12
JP5771002B2 true JP5771002B2 (ja) 2015-08-26

Family

ID=46316286

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010286759A Expired - Fee Related JP5771002B2 (ja) 2010-12-22 2010-12-22 音声認識装置、音声認識方法および音声認識装置を搭載したテレビ受像機

Country Status (2)

Country Link
US (1) US8421932B2 (ja)
JP (1) JP5771002B2 (ja)

Families Citing this family (107)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
WO2011055410A1 (ja) 2009-11-06 2011-05-12 株式会社 東芝 音声認識装置
JP5695447B2 (ja) * 2011-03-01 2015-04-08 株式会社東芝 テレビジョン装置及び遠隔操作装置
JP2013080015A (ja) * 2011-09-30 2013-05-02 Toshiba Corp 音声認識装置および音声認識方法
KR101309794B1 (ko) * 2012-06-27 2013-09-23 삼성전자주식회사 디스플레이 장치, 디스플레이 장치의 제어 방법 및 대화형 시스템
US20140019462A1 (en) * 2012-07-15 2014-01-16 Microsoft Corporation Contextual query adjustments using natural action input
KR101330671B1 (ko) * 2012-09-28 2013-11-15 삼성전자주식회사 전자장치, 서버 및 그 제어방법
FR2996399B3 (fr) * 2012-09-28 2015-05-15 Samsung Electronics Co Ltd Appareil de traitement d'image et procede de commande de celui-ci et systeme de traitement d'image
KR20140039946A (ko) * 2012-09-28 2014-04-02 삼성전자주식회사 영상처리장치 및 그 제어방법, 영상처리 시스템
JP2014126600A (ja) * 2012-12-25 2014-07-07 Panasonic Corp 音声認識装置、音声認識方法、およびテレビ
KR20140093303A (ko) * 2013-01-07 2014-07-28 삼성전자주식회사 디스플레이 장치 및 그의 제어 방법
KR102009316B1 (ko) * 2013-01-07 2019-08-09 삼성전자주식회사 대화형 서버, 디스플레이 장치 및 그 제어 방법
KR20140089862A (ko) * 2013-01-07 2014-07-16 삼성전자주식회사 디스플레이 장치 및 그의 제어 방법
KR102019719B1 (ko) * 2013-01-17 2019-09-09 삼성전자 주식회사 영상처리장치 및 그 제어방법, 영상처리 시스템
KR102112742B1 (ko) 2013-01-22 2020-05-19 삼성전자주식회사 전자장치 및 그 음성 처리 방법
EP2954514B1 (en) 2013-02-07 2021-03-31 Apple Inc. Voice trigger for a digital assistant
US9390716B2 (en) 2013-04-19 2016-07-12 Panasonic Intellectual Property Corporation Of America Control method for household electrical appliance, household electrical appliance control system, and gateway
JP2015011170A (ja) * 2013-06-28 2015-01-19 株式会社ATR−Trek ローカルな音声認識を行なう音声認識クライアント装置
KR102210433B1 (ko) * 2014-01-21 2021-02-01 삼성전자주식회사 전자 장치 및 이의 음성 인식 방법
CN103943105A (zh) * 2014-04-18 2014-07-23 安徽科大讯飞信息科技股份有限公司 一种语音交互方法及系统
US10089985B2 (en) 2014-05-01 2018-10-02 At&T Intellectual Property I, L.P. Smart interactive media content guide
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
JP6729382B2 (ja) * 2014-10-16 2020-07-22 ソニー株式会社 送信装置、送信方法、受信装置および受信方法
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10095470B2 (en) 2016-02-22 2018-10-09 Sonos, Inc. Audio response playback
US10743101B2 (en) 2016-02-22 2020-08-11 Sonos, Inc. Content mixing
US10264030B2 (en) 2016-02-22 2019-04-16 Sonos, Inc. Networked microphone device control
US10509626B2 (en) 2016-02-22 2019-12-17 Sonos, Inc Handling of loss of pairing between networked devices
US9947316B2 (en) 2016-02-22 2018-04-17 Sonos, Inc. Voice control of a media playback system
US9965247B2 (en) 2016-02-22 2018-05-08 Sonos, Inc. Voice controlled media playback system based on user profile
US9978390B2 (en) 2016-06-09 2018-05-22 Sonos, Inc. Dynamic player selection for audio signal processing
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
US10152969B2 (en) 2016-07-15 2018-12-11 Sonos, Inc. Voice detection by multiple devices
US10115400B2 (en) 2016-08-05 2018-10-30 Sonos, Inc. Multiple voice services
KR20180024927A (ko) * 2016-08-31 2018-03-08 삼성전자주식회사 디스플레이 장치 및 디스플레이 장치의 제어 방법
US9942678B1 (en) 2016-09-27 2018-04-10 Sonos, Inc. Audio playback settings for voice interaction
US9743204B1 (en) 2016-09-30 2017-08-22 Sonos, Inc. Multi-orientation playback device microphones
US10181323B2 (en) 2016-10-19 2019-01-15 Sonos, Inc. Arbitration-based voice recognition
US10950230B2 (en) 2016-10-28 2021-03-16 Panasonic Intellectual Property Corporation Of America Information processing device and information processing method
DK180048B1 (en) 2017-05-11 2020-02-04 Apple Inc. MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION
DK201770427A1 (en) 2017-05-12 2018-12-20 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
KR102392087B1 (ko) * 2017-07-10 2022-04-29 삼성전자주식회사 원격 조정 장치 및 원격 조정 장치의 사용자 음성 수신방법
CN107340991B (zh) * 2017-07-18 2020-08-25 百度在线网络技术(北京)有限公司 语音角色的切换方法、装置、设备以及存储介质
US10475449B2 (en) 2017-08-07 2019-11-12 Sonos, Inc. Wake-word detection suppression
US10048930B1 (en) 2017-09-08 2018-08-14 Sonos, Inc. Dynamic computation of system response volume
CN109561335A (zh) * 2017-09-26 2019-04-02 中兴通讯股份有限公司 一种机顶盒的控制方法、机顶盒及计算机可读介质
US10446165B2 (en) 2017-09-27 2019-10-15 Sonos, Inc. Robust short-time fourier transform acoustic echo cancellation during audio playback
US10482868B2 (en) 2017-09-28 2019-11-19 Sonos, Inc. Multi-channel acoustic echo cancellation
US10621981B2 (en) 2017-09-28 2020-04-14 Sonos, Inc. Tone interference cancellation
US10466962B2 (en) 2017-09-29 2019-11-05 Sonos, Inc. Media playback system with voice assistance
US10880650B2 (en) 2017-12-10 2020-12-29 Sonos, Inc. Network microphone devices with automatic do not disturb actuation capabilities
US10818290B2 (en) 2017-12-11 2020-10-27 Sonos, Inc. Home graph
WO2019152722A1 (en) 2018-01-31 2019-08-08 Sonos, Inc. Device designation of playback and network microphone device arrangements
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US11175880B2 (en) 2018-05-10 2021-11-16 Sonos, Inc. Systems and methods for voice-assisted media content selection
US10847178B2 (en) 2018-05-18 2020-11-24 Sonos, Inc. Linear filtering for noise-suppressed speech detection
US10959029B2 (en) 2018-05-25 2021-03-23 Sonos, Inc. Determining and adapting to changes in microphone performance of playback devices
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
US10681460B2 (en) 2018-06-28 2020-06-09 Sonos, Inc. Systems and methods for associating playback devices with voice assistant services
CN108922536A (zh) * 2018-06-28 2018-11-30 深圳市沃特沃德股份有限公司 语音唤醒处理器工作的方法及系统
US11076035B2 (en) 2018-08-28 2021-07-27 Sonos, Inc. Do not disturb feature for audio notifications
US10461710B1 (en) 2018-08-28 2019-10-29 Sonos, Inc. Media playback system with maximum volume setting
US10587430B1 (en) 2018-09-14 2020-03-10 Sonos, Inc. Networked devices, systems, and methods for associating playback devices based on sound codes
US11024331B2 (en) 2018-09-21 2021-06-01 Sonos, Inc. Voice detection optimization using sound metadata
US10811015B2 (en) 2018-09-25 2020-10-20 Sonos, Inc. Voice detection optimization based on selected voice assistant service
US11100923B2 (en) 2018-09-28 2021-08-24 Sonos, Inc. Systems and methods for selective wake word detection using neural network models
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US10692518B2 (en) 2018-09-29 2020-06-23 Sonos, Inc. Linear filtering for noise-suppressed speech detection via multiple network microphone devices
US11899519B2 (en) 2018-10-23 2024-02-13 Sonos, Inc. Multiple stage network microphone device with reduced power consumption and processing load
EP3654249A1 (en) 2018-11-15 2020-05-20 Snips Dilated convolutions and gating for efficient keyword spotting
US11183183B2 (en) 2018-12-07 2021-11-23 Sonos, Inc. Systems and methods of operating media playback systems having multiple voice assistant services
US11132989B2 (en) 2018-12-13 2021-09-28 Sonos, Inc. Networked microphone devices, systems, and methods of localized arbitration
US10602268B1 (en) 2018-12-20 2020-03-24 Sonos, Inc. Optimization of network microphone devices using noise classification
US11315556B2 (en) 2019-02-08 2022-04-26 Sonos, Inc. Devices, systems, and methods for distributed voice processing by transmitting sound data associated with a wake word to an appropriate device for identification
US10867604B2 (en) 2019-02-08 2020-12-15 Sonos, Inc. Devices, systems, and methods for distributed voice processing
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
US11120794B2 (en) 2019-05-03 2021-09-14 Sonos, Inc. Voice assistant persistence across multiple network microphone devices
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
US11227599B2 (en) 2019-06-01 2022-01-18 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
US11361756B2 (en) 2019-06-12 2022-06-14 Sonos, Inc. Conditional wake word eventing based on environment
US11200894B2 (en) 2019-06-12 2021-12-14 Sonos, Inc. Network microphone device with command keyword eventing
US10586540B1 (en) 2019-06-12 2020-03-10 Sonos, Inc. Network microphone device with command keyword conditioning
US11138975B2 (en) 2019-07-31 2021-10-05 Sonos, Inc. Locally distributed keyword detection
US11138969B2 (en) 2019-07-31 2021-10-05 Sonos, Inc. Locally distributed keyword detection
US10871943B1 (en) 2019-07-31 2020-12-22 Sonos, Inc. Noise classification for event detection
US11189286B2 (en) * 2019-10-22 2021-11-30 Sonos, Inc. VAS toggle based on device orientation
US11200900B2 (en) 2019-12-20 2021-12-14 Sonos, Inc. Offline voice control
CN210839894U (zh) 2019-12-30 2020-06-23 深圳Tcl数字技术有限公司 一种具有透镜功能的远场语音支架及电器设备
US11562740B2 (en) 2020-01-07 2023-01-24 Sonos, Inc. Voice verification for media playback
US11556307B2 (en) 2020-01-31 2023-01-17 Sonos, Inc. Local voice data processing
US11308958B2 (en) 2020-02-07 2022-04-19 Sonos, Inc. Localized wakeword verification
US11061543B1 (en) 2020-05-11 2021-07-13 Apple Inc. Providing relevant data items based on context
US11308962B2 (en) 2020-05-20 2022-04-19 Sonos, Inc. Input detection windowing
US11482224B2 (en) 2020-05-20 2022-10-25 Sonos, Inc. Command keywords with input detection windowing
US11727919B2 (en) 2020-05-20 2023-08-15 Sonos, Inc. Memory allocation for keyword spotting engines
US11490204B2 (en) 2020-07-20 2022-11-01 Apple Inc. Multi-device audio adjustment coordination
US11438683B2 (en) 2020-07-21 2022-09-06 Apple Inc. User identification using headphones
US11698771B2 (en) 2020-08-25 2023-07-11 Sonos, Inc. Vocal guidance engines for playback devices
US11551700B2 (en) 2021-01-25 2023-01-10 Sonos, Inc. Systems and methods for power-efficient keyword detection
CN116052668B (zh) * 2023-03-28 2023-06-02 北京集度科技有限公司 一种语音识别处理方法、装置、车辆及计算机程序产品

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7174299B2 (en) 1995-08-18 2007-02-06 Canon Kabushiki Kaisha Speech recognition system, speech recognition apparatus, and speech recognition method
JP2002182896A (ja) * 2000-12-12 2002-06-28 Canon Inc 音声認識システム及び音声認識装置ならびにそれらの方法
JPH10143191A (ja) * 1996-11-13 1998-05-29 Hitachi Ltd 音声認識システム
US6188985B1 (en) * 1997-01-06 2001-02-13 Texas Instruments Incorporated Wireless voice-activated device for control of a processor-based host system
JP2002540477A (ja) 1999-03-26 2002-11-26 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ クライアント−サーバ音声認識
US6408272B1 (en) * 1999-04-12 2002-06-18 General Magic, Inc. Distributed voice user interface
JP2001067091A (ja) * 1999-08-25 2001-03-16 Sony Corp 音声認識装置
US6738743B2 (en) 2001-03-28 2004-05-18 Intel Corporation Unified client-server distributed architectures for spoken dialogue systems
US7023498B2 (en) * 2001-11-19 2006-04-04 Matsushita Electric Industrial Co. Ltd. Remote-controlled apparatus, a remote control system, and a remote-controlled image-processing apparatus
JP2003195880A (ja) 2001-12-28 2003-07-09 Nec Corp サーバ・クライアント型音声認識装置
JP2005065156A (ja) * 2003-08-20 2005-03-10 Victor Co Of Japan Ltd 音声認識処理システム及びそれに用いる映像信号記録再生装置
JP2005249829A (ja) * 2004-03-01 2005-09-15 Advanced Media Inc 音声認識を行うコンピュータネットワークシステム
KR100703696B1 (ko) * 2005-02-07 2007-04-05 삼성전자주식회사 제어 명령 인식 방법 및 이를 이용한 제어 장치
JP2007121579A (ja) * 2005-10-26 2007-05-17 Matsushita Electric Works Ltd 操作装置
JP2008096577A (ja) * 2006-10-10 2008-04-24 Sharp Corp Av機器に対する音声操作システム
JP2010072507A (ja) 2008-09-22 2010-04-02 Toshiba Corp 音声認識検索装置及び音声認識検索方法
JP5049934B2 (ja) 2008-09-22 2012-10-17 株式会社東芝 対話文生成装置及び方法
JP4902617B2 (ja) * 2008-09-30 2012-03-21 株式会社フュートレック 音声認識システム、音声認識方法、音声認識クライアントおよびプログラム
JP5646146B2 (ja) 2009-03-18 2014-12-24 株式会社東芝 音声入力装置、音声認識システム及び音声認識方法

Also Published As

Publication number Publication date
US8421932B2 (en) 2013-04-16
JP2012133243A (ja) 2012-07-12
US20120162540A1 (en) 2012-06-28

Similar Documents

Publication Publication Date Title
JP5771002B2 (ja) 音声認識装置、音声認識方法および音声認識装置を搭載したテレビ受像機
AU2015375326B2 (en) Headless task completion within digital personal assistants
JP4416643B2 (ja) マルチモーダル入力方法
JP6440513B2 (ja) 音声認識機能を用いた情報提供方法および機器の制御方法
US10049665B2 (en) Voice recognition method and apparatus using video recognition
US9547716B2 (en) Displaying additional data about outputted media data by a display device for a speech search command
KR20130082339A (ko) 음성 인식을 사용하여 사용자 기능을 수행하는 방법 및 장치
JP2003032510A (ja) 音声及び映像システム
CN107544684B (zh) 一种候选词显示方法及装置
WO2020079941A1 (ja) 情報処理装置及び情報処理方法、並びにコンピュータプログラム
US20030191629A1 (en) Interface apparatus and task control method for assisting in the operation of a device using recognition technology
CN107092424A (zh) 一种纠错项的显示方法、装置和用于纠错项的显示的装置
JP4967519B2 (ja) 音声認識装置
CN105302335B (zh) 词汇推荐方法和装置及计算机可读存储介质
CN113936697B (zh) 语音处理方法、装置以及用于语音处理的装置
WO2016103465A1 (ja) 音声認識システム
JP5902359B2 (ja) 方法、電子機器およびプログラム
WO2017203764A1 (ja) 情報処理装置および情報処理方法
CN110069143A (zh) 一种信息防误纠方法、装置和电子设备
JP6670364B2 (ja) 音声認識機能を用いた情報提供方法および機器の制御方法
JP2016029495A (ja) 映像表示装置および映像表示方法
JPWO2016006088A1 (ja) 電子機器及び方法及びプログラム
JP4682199B2 (ja) 音声認識装置、情報処理装置、音声認識方法、音声認識プログラムおよび記録媒体
JPH07311656A (ja) マルチモーダル文字入力装置
CN113589954A (zh) 一种数据处理方法、装置和电子设备

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20131025

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140626

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140711

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140909

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150130

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20150216

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20150218

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150225

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150529

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150626

LAPS Cancellation because of no payment of annual fees