JP6731581B2

JP6731581B2 - 音声認識システム、音声認識装置、音声認識方法、および制御プログラム

Info

Publication number: JP6731581B2
Application number: JP2017509245A
Authority: JP
Inventors: 小沼　知浩; 知浩小沼
Original assignee: Panasonic Intellectual Property Management Co Ltd
Current assignee: Panasonic Intellectual Property Management Co Ltd
Priority date: 2015-03-27
Filing date: 2016-03-16
Publication date: 2020-07-29
Anticipated expiration: 2036-03-16
Also published as: EP3276616A1; WO2016157782A1; US10304449B2; US20180053506A1; EP3276616A4; JPWO2016157782A1

Description

本開示は、ユーザが発声した音声を認識する音声認識システム、音声認識装置、音声認識方法、および制御プログラムに関する。

入力音声とマッチングするためのワードの音響特徴量を登録した辞書を用いて、音声認識を行う技術が開示されている。

特許文献１は、音声認識に関する技術を開示する。特許文献１に開示された技術では、辞書内に、認識すべきワードの音響特徴量と、認識すべきワード以外のワード（不要なワード）の音響特徴量と、が登録される。そして、音声認識により認識された複数のワード（単語）から不要なワードが除去される。

特開平７−７７９９８号公報

本開示は、音声認識の対象となるワード（以下、「対象ワード」という）と誤認識される音声を特定するための棄却情報を定め、棄却情報を音声認識に用いる音声認識装置、音声認識システム、音声認識方法、および制御プログラムを提供する。

本開示における音声認識装置は、入力音声を対象ワードと認識する音声認識装置である。音声認識装置は、記憶部と、音声認識部と、棄却情報生成部と、を備える。記憶部は、音声の特定に用いられる棄却情報を記憶する。音声認識部は、当該棄却情報により特定される音声と入力音声との類似度があらかじめ定められた閾値より低いことを条件の１つとして、当該入力音声を対象ワードと認識する。棄却情報生成部は、所定状態において音声認識部が入力音声を対象ワードと認識した場合に、当該入力音声に基づいて棄却情報を定め、その棄却情報を記憶部に記憶する。

本開示における音声認識システムは、入力音声を対象ワードと認識する第１音声認識装置と、入力音声に対応するワードを認識する第２音声認識装置と、を備える。第１音声認識装置は、記憶部と、第１音声認識部と、棄却情報生成部と、を備える。記憶部は、音声の特定に用いられる棄却情報を記憶する。第１音声認識部は、当該棄却情報により特定される音声と入力音声との類似度があらかじめ定められた閾値より低いことを条件の１つとして、当該入力音声を対象ワードと認識する。棄却情報生成部は、所定状態において第１音声認識部が入力音声を対象ワードと認識した場合に、当該入力音声を第２音声認識装置に送信し、当該入力音声に基づいて第２音声認識装置により認識されたワードを表す音声に係る情報を第２音声認識装置から受信し、受信した当該情報を棄却情報として定め、当該棄却情報を記憶部に記憶する。第２音声認識装置は、第２音声認識部を有する。第２音声認識部は、第１音声認識装置から受信した入力音声に基づいて当該入力音声に対応するワードを認識し、当該ワードを第１音声認識装置に送信する。

本開示における音声認識方法は、音声認識装置で用いられる音声認識方法である。音声認識装置は、記憶部と、音声認識部と、を備える。記憶部は、音声の特定に用いられる棄却情報を記憶する。音声認識部は、当該棄却情報により特定される音声と入力音声との類似度があらかじめ定められた閾値より低いことを条件の１つとして、当該入力音声を対象ワードと認識する。音声認識方法は、対象ワードが認識されるべきでない所定状態において音声認識部が入力音声を対象ワードと認識したか否かを判定するステップと、当該所定状態において音声認識部が入力音声を対象ワードと認識したと判定された場合に、入力音声に基づいて棄却情報を定め、その棄却情報を記憶部に記憶するステップと、を含む。

本開示における制御プログラムは、音声認識装置のプロセッサに音声認識処理を実行させるための制御プログラムである。音声認識装置は、記憶部と、音声認識部と、を備える。記憶部は、音声の特定に用いられる棄却情報を記憶する。音声認識部は、当該棄却情報により特定される音声と入力音声との類似度があらかじめ定められた閾値より低いことを条件の１つとして、当該入力音声を対象ワードと認識する。音声認識処理は、対象ワードが認識されるべきでない所定状態において音声認識部が入力音声を対象ワードと認識したか否かを判定するステップと、当該所定状態において音声認識部が入力音声を対象ワードと認識したと判定された場合に、入力音声に基づいて棄却情報を定め、その棄却情報を記憶部に記憶するステップと、を含む。

本開示における音声認識装置、音声認識システム、音声認識方法、および制御プログラムは、音声認識に用いる棄却情報を自ら定めることができる。

図１は、実施の形態１における音声認識システムの概略図である。図２は、実施の形態１における音声認識システムの一構成例を模式的に示すブロック図である。図３は、実施の形態１における認識用情報の構成例および内容例を模式的に示す図である。図４は、実施の形態１における棄却情報リストの構成例を模式的に示す図である。図５は、実施の形態１における音声認識装置で実行される音声入力対応処理の一例を示すフローチャートである。図６は、実施の形態１における音声認識装置で実行される音声認識処理の一例を示すフローチャートである。図７は、実施の形態１における音声認識システムで実行されるサーバ音声認識処理の一例を示すフローチャートである。図８は、実施の形態１における音声認識装置で実行される棄却情報送信処理の一例を示すフローチャートである。図９は、実施の形態１における表示画面の一例を模式的に示す図である。

以下、適宜図面を参照しながら、実施の形態を詳細に説明する。ただし、必要以上に詳細な説明は省略する場合がある。例えば、すでによく知られた事項の詳細説明、および実質的に同一の構成に対する重複説明等を省略する場合がある。これは、以下の説明が不必要に冗長になるのを避け、当業者の理解を容易にするためである。

なお、添付図面および以下の説明は、当業者が本開示を十分に理解するために提供されるのであって、これらにより特許請求の範囲に記載の主題を限定することは意図されていない。

すなわち、以下の具体例を用いた説明で示される数値、形状、構成要素、構成要素の配置および接続形態、並びに、ステップ（工程）およびステップの順序等は、一例であって、特許請求の範囲に記載の主題を限定するものではない。以下の実施の形態における構成要素のうち、独立請求項に記載されていない構成要素については、任意に付加可能な構成要素である。

また、各図は、模式図であり、必ずしも厳密に図示されたものではない。また、各図において、実質的に同じ構成要素については同じ符号を付し、説明を省略または簡略化する場合がある。

（実施の形態１）
実施の形態１では、主に、音声認識装置を含む音声認識システム１について説明する。音声認識装置は、ユーザ９０が発声した音声（以下、「入力音声」という）に基づいて、棄却情報を定めることができる。棄却情報は、音声認識用の辞書で定められた１以上の認識対象のワードが誤認識されることを防止するための情報である。

以下、図１〜図９を用いて、実施の形態１を説明する。実施の形態１に示すテレビジョン受信機１０は音声認識機能を有し、ユーザ９０は、音声によりテレビジョン受信機１０を操作（以下、「音声操作」という）することができる。

［１−１．構成］
図１は、実施の形態１における音声認識システム１の概略図である。

図１には、テレビジョン受信機１０を含む音声認識システム１に加え、テレビジョン受信機１０のユーザ９０を示している。

音声認識システム１は、図１に示すように、テレビジョン受信機１０と、音声認識サーバ５０と、これらを相互に通信可能に接続するネットワーク４０と、を備える。ネットワーク４０は、例えば、インターネット等の広域通信網を含む。

テレビジョン受信機１０は、プロセッサ、メモリ、ハードディスク装置等の記憶媒体、放送受信回路、通信インタフェース、等を有する。また、テレビジョン受信機１０は、ユーザインタフェースとして、マイクロホン（以下、「マイク」という）１３０およびディスプレイ１４０、を備える。

ディスプレイ１４０には、例えば液晶ディスプレイ、プラズマディスプレイ、または有機ＥＬ（ＥｌｅｃｔｒｏＬｕｍｉｎｅｓｃｅｎｃｅ）ディスプレイ、等を用いることができる。テレビジョン受信機１０は、ユーザ操作に応じて、テレビジョン放送を、放送波または通信ケーブル等の通信路を通して受信し、受信した放送番組の映像等をディスプレイ１４０に表示する。

マイク１３０は、ディスプレイ１４０に対面するユーザ９０が発声した音声を集音することができる。テレビジョン受信機１０は、ユーザ９０が発声した音声（入力音声）をマイク１３０を通して取得する。そして、テレビジョン受信機１０は、入力音声に基づいてワードを認識することができる音声認識機能を有する。

入力音声は、テレビジョン受信機１０においては、音声を表す信号またはデータとして処理される。

ユーザ９０は、リモートコントローラ（図示せず）等により、テレビジョン受信機１０を操作することができる。また、ユーザは、ディスプレイ１４０に向かってワードを発声することで、テレビジョン受信機１０に音声入力を行うことができる。本実施の形態では、ユーザがテレビジョン受信機１０に音声入力を行うときの、テレビジョン受信機１０の動作を説明する。

ワードは、例えば、日本語、英語等の各種言語における１または複数の語からなる語句である。

音声認識サーバ５０は、プロセッサ、メモリ、ハードディスク装置等の記憶媒体、通信インタフェース、等を備え、音声認識機能を有するコンピュータである。音声認識サーバ５０は、音声認識システム１において、音声認識サービス等を提供する。

音声認識サービスは、例えば、ネットワークを通して送信されてくる入力音声を受信し、受信した入力音声に基づいて音声認識を行い、音声認識されたワードを表す音声に係る情報（例えば、ワードおよびそのワードの音響特徴、等）を、入力音声の送信元に返信するサービスである。

図１に示す例では、テレビジョン受信機１０が、ネットワーク４０を通して、音声認識サーバ５０に入力音声を送信する。したがって、上述の入力音声の送信元は、図１に示す例では、テレビジョン受信機１０である。

図１では、テレビジョン受信機１０を１台しか示していない。しかし、例えば複数の住宅に設置された複数台のテレビジョン受信機１０が１台の音声認識サーバ５０と通信するように音声認識システム１を構成することも可能である。また、例えば、テレビジョン受信機１０が有する音声認識機能による認識対象のワード（以下、「対象ワード」という）の数よりも、音声認識サーバ５０の音声認識機能による対象ワードの数を多くすることも可能である。なお、対象ワードの数は、音声認識用の辞書のデータ量と関連する。

音声認識サーバ５０は、複数種類（例えば、二十数種類）の言語に対応した複数（例えば、１０万以上）のワードを含む辞書を有し、入力音声に対して何らかのワードを認識する。また、音声認識サーバ５０は、棄却情報をテレビジョン受信機１０から受信する機能を有する。その棄却情報は、テレビジョン受信機１０が有する音声認識機能により、テレビジョン受信機１０において入力音声に基づいて定められた情報である。

テレビジョン受信機１０が備える通信インタフェースおよび音声認識サーバ５０が備える通信インタフェースのそれぞれは、ネットワーク４０を介して他の装置との間で情報の送受信を行うための通信回路等である。また、上述した各メモリはＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）等であり、不揮発性メモリを含んでいてもよい。これらのメモリには後述する各機能構成要素の処理を実現するための制御プログラムやその制御プログラムで利用するための設定値等があらかじめ記憶されていてもよい。また、メモリは、制御プログラムをプロセッサが実行する際に用いられる各値（パラメータ、等）を一時的に記憶するため用いられてもよい。

以下、上述した音声認識システム１を構成する各装置について説明する。

図２は、実施の形態１における音声認識システム１の一構成例を模式的に示すブロック図である。図２には、音声認識システム１を構成するテレビジョン受信機１０の音声認識装置１００、および音声認識サーバ５０、の機能構成を主に示す。

テレビジョン受信機１０は、図２に示すように、音声認識装置１００、マイク１３０、ディスプレイ１４０、通信部１５０、チューナ１６０、および記憶部１７０、を備える。なお、テレビジョン受信機１０は、ユーザ９０がテレビジョン受信機１０を利用しないときに、使用電力を低減してディスプレイ１４０への電力供給を停止する待機状態（スタンバイ状態）になる機能を有する。

なお、図２には、テレビジョン受信機１０が備える複数の構成要素のうち、本実施の形態に関係する構成要素のみを示し、他の構成要素（例えば、電源部、等）は省略している。

通信部１５０は、通信インタフェースの一例である。通信部１５０は、ネットワーク４０を介して、音声認識サーバ５０との間で通信を行う。

チューナ１６０は、放送信号受信回路である。チューナ１６０は、放送波または通信ケーブル等を介して送信されるテレビジョン放送の放送信号を受信する。

記憶部１７０は、メモリまたはハードディスク装置等の記憶媒体の一領域である。記憶部１７０は、テレビジョン受信機１０の各部の制御に用いる情報や制御用プログラム等を記憶している。

音声認識装置１００は、音声認識機能を担う。音声認識装置１００は、メモリに記憶された制御プログラムを実行するプロセッサ、およびメモリ、等で実現される。音声認識装置１００は、図２に示すように、機能構成要素として、音声認識部１０１、記憶部１０２、棄却情報生成部１０３、制御部１０４、および出力部１０５、を有する。

記憶部１０２は、メモリまたはハードディスク装置等の記憶媒体の一領域で実現される。記憶部１０２は、音声認識用の辞書として対象ワードを定める認識用情報を記憶する。記憶部１０２は、対象ワードの誤認識を防止するために用いられる棄却情報を記憶するための領域を有する。なお、記憶部１０２および記憶部１７０は、それぞれが互いに異なる記憶媒体で実現されてもよいし、同一の記憶媒体の互いに異なる領域として実現されてもよい。

次に、図３を用いて認識用情報を説明し、図４を用いて棄却情報リストを説明する。

図３は、実施の形態１における認識用情報の構成例および内容例を模式的に示す図である。

認識用情報は、図３に示すように、認識対象となる対象ワード毎に、対象ワードと、その対象ワードを表す音声の音響特徴を示す音響特徴情報と、を互いに対応付けた情報である。音響特徴情報は、例えば、統計モデル（ＨＭＭ：ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ）等で表現された音素ラベルで構成される記号列、等である。

記憶部１０２が記憶する認識用情報における対象ワードは、例えば、テレビジョン受信機１０の制御用のコマンド等を表すワードを含む。図３には、「電源オン」というワードを例示している。「電源オン」は、テレビジョン受信機１０の電源オン機能を起動するためのコマンドを表す。電源オン機能は、例えば、テレビジョン受信機１０においてディスプレイ１４０等への電力供給を開始する機能である。また、図３には、「マイクオン」というワードを例示している。「マイクオン」は、音声入力の受け付け（音声受け付け）を開始するときのトリガーとなるワードであり、音声認識装置１００における音声受付機能を起動するためのコマンドである。

図４は、実施の形態１における棄却情報リストの構成例を模式的示す図である。

棄却情報リストは、記憶部１０２に記憶された１以上の棄却情報の集合である。棄却情報は、図４に示すように、対象ワードと、棄却ワードと、棄却ワードの音響特徴情報と、を互いに対応付けた情報である。棄却ワードとは、発声（発音）された場合の音響特徴が、その棄却ワードに対応する対象ワードと類似しており、認識用情報のみを用いて音声認識が行われる場合に、その対象ワードと誤認識される可能性のあるワードである。

音声認識部１０１は、制御プログラムを実行するプロセッサ等で実現される。音声認識部１０１は、マイク１３０を通して集音される入力音声を音声認識する機能を有する。音声認識部１０１は、記憶部１０２に記憶された音声認識用の辞書に基づき、マイク１３０を通して集音される入力音声に該当する対象ワードを特定することで音声認識する。

具体的には、音声認識部１０１は、記憶部１０２に記憶された認識用情報に基づいて、対象ワードの音声を特定するための音響特徴と、入力音声の音響特徴と、を互いに比較して類似度を判定することにより、音声認識を行う。このように、音声認識部１０１は、対象ワードの音声と入力音声との類似度から音声認識を行う。

類似度の定め方としては、例えば、対象ワードの音声と入力音声の各音響特徴を複数の数値パラメータで表し、各パラメータの数値を互いに比較し、比較した数値が互いに近い程、類似度が高いように定める方法を一例として挙げることができる。しかし、本開示は、類似度の定め方を限定しない。類似度の定め方には、この方法以外の既存の方法が適用されてもよい。

音声認識部１０１は、ある対象ワードと入力音声とが、あらかじめ定められた類似度判定用の閾値を超えて類似する場合に、その対象ワードを、入力音声に対する音声認識の結果として特定してもよい。

ただし、音声認識部１０１は、記憶部１０２に棄却情報が記憶されている場合には、対象ワードに対応する棄却ワードの音響特徴により特定される音声と、入力音声との類似度を算出する。そして、その類似度が、あらかじめ定められた閾値より低い場合に、音声認識部１０１は、その対象ワードを入力音声の音声認識の結果として特定する。

音声認識部１０１は、音声認識の結果として１つの対象ワードを特定する際に、尤度を特定する。尤度とは、その音声認識の結果のもっともらしさを表す指標である。尤度は、類似度等の、音声認識部１０１で行った比較および判断の結果に基づいて定められる。例えば、一例として、対象ワードで表される音声と入力音声との類似度が尤度として用いられてもよい。

棄却情報生成部１０３は、制御プログラムを実行するプロセッサ等で実現される。棄却情報生成部１０３は、所定状態におけるマイク１３０からの入力音声に基づき棄却情報を生成し、生成した棄却情報を記憶部１０２に記憶する機能を有する。棄却情報は、棄却情報リストを構成する。また、この所定状態とは、例えば、音声認識装置１００が対象ワードの入力待ちでない状態、のことである。音声認識装置１００では、対象ワードの入力待ちでない状態においては、通常、入力音声からその対象ワードが認識されるべきではない。

ある対象ワードの入力待ちでない状態（すなわち、所定状態）において音声入力がなされ、音声認識部１０１により入力音声がその対象ワードであると音声認識され、かつ、音声認識の結果の尤度が後述の閾値Ｓ１を超えていた場合、棄却情報生成部１０３は、通信部１５０およびネットワーク４０を介して、その入力音声を音声認識サーバ５０に送信する。そして、棄却情報生成部１０３は、その入力音声に対する音声認識サーバ５０における音声認識の結果であるワードを音声認識サーバ５０から受信する。そして、棄却情報生成部１０３は、そのワードを棄却ワードとした棄却情報を生成し、生成した棄却情報を記憶部１０２に記憶する。

なお、対象ワードの入力待ちでない状態（すなわち、所定状態）は、対象ワード毎に異なっていてもよい。具体的な一例を挙げると、例えば、テレビジョン受信機１０において、電源オン機能が実行され、テレビジョン受信機１０の電源がすでにオンした状態であれば、音声認識装置１００は、「電源オン」という対象ワードの入力待ちではない。したがって、「電源オン」という対象ワードに関しては、テレビジョン受信機１０の電源がオンした状態を、所定状態としてもよい。

この「電源オン」という対象ワードの入力待ちではない状態（すなわち、「電源オン」という対象ワードに関する所定状態）において、音声認識装置１００により「電源オン」と認識された入力音声があれば、その入力音声を、棄却情報生成部１０３は、音声認識サーバ５０に送信する。そして、棄却情報生成部１０３は、音声認識サーバ５０から、その入力音声についての音声認識の結果であるワードを受信する。そして、棄却情報生成部１０３は、受信したワードを棄却ワードとする棄却情報を記憶部１０２に記憶する。上述の動作例では、この棄却ワードは、「電源オン」ではなく、「電源オン」に音響が似た「電源オン」以外の語句であると推定される。その理由は、テレビジョン受信機１０がすでに電源オン機能が実行された状態（例えば、ディスプレイ１４０に電力が供給されて放送番組等がディスプレイ１４０に表示されている状態）であれば、ユーザ９０は「電源オン」というコマンドの音声入力を行わない可能性が高いと推定できるからである。

制御部１０４は、制御プログラムを実行するプロセッサ等で実現される。制御部１０４は、音声認識部１０１が認識した対象ワードで表されるコマンドに応じた制御（すなわち、音声認識された入力音声に対応するアクションとしてあらかじめ定められた制御処理）を行う機能を有する。制御部１０４は、対象ワードで表されるコマンドが、テレビジョン受信機１０の各部（例えば、ディスプレイ１４０、チューナ１６０、等）を制御するコマンドの場合には、その各部に対して、そのコマンドに応じた制御信号を送信する。なお、制御部１０４は、対象ワードで表されるコマンドに応じた制御を行うために、特定の対象ワード（例えば、「電源オン」、「マイクオン」、等）が認識された場合には、その音声認識の結果の尤度が閾値Ｓ１を超えていることを条件とし、その条件が満たされた場合にその制御を行う。

出力部１０５は、制御プログラムを実行するプロセッサ等で実現される。出力部１０５は、記憶部１０２に棄却情報リスト（すなわち、１以上の棄却情報）が記憶されている場合に、棄却情報リストを通信部１５０およびネットワーク４０を介して外部サーバ（例えば、音声認識サーバ５０）に送信する機能を有する。

音声認識サーバ５０は、図２に示すように、機能構成要素として音声認識部５１および記憶部５２を備える。

なお、図２には、音声認識サーバ５０が備える複数の構成要素のうち、本実施の形態に関係する構成要素のみを示し、サーバコンピュータが一般的に備える構成要素（例えば、プロセッサ、通信インタフェース、電源部、等）は省略している。

記憶部５２は、音声認識用の辞書を記憶する機能を有する。記憶部５２は、例えば、比較的大容量のハードディスク装置等の記憶媒体で構成されてもよい。記憶部５２は、音声認識装置１００が有する音声認識用の辞書よりもデータ量の多い辞書を記憶してもよい。

音声認識部５１は、記憶部５２に記憶された辞書を用い、テレビジョン受信機１０から受信した入力音声に基づく音声認識を行い、その入力音声に該当するワードを特定してそのワードをテレビジョン受信機１０に返信する機能を有する。

［１−２．動作］
以下、上述の構成を備える音声認識システム１における音声認識機能に関する動作について説明する。

［１−２−１．テレビジョン受信機１０の音声認識装置１００における音声入力対応処理］
テレビジョン受信機１０は、電力の供給を受けると、まず待機状態（スタンバイ状態）になり、音声入力対応処理を開始する。ユーザ９０は、テレビジョン受信機１０を、リモートコントローラ等で操作することも可能である。しかし、ここでは、ユーザ９０が、音声入力によってテレビジョン受信機１０を操作（音声操作）する動作例を説明する。

図５は、実施の形態１における音声認識装置１００で実行される音声入力対応処理の一例を示すフローチャートである。以下、図５のフローチャートを参照して、音声認識装置１００の音声入力対応処理に係る動作を説明する。

音声認識装置１００は、テレビジョン受信機１０のマイク１３０を通して、ユーザ９０が発した音声（入力音声）を取得する（ステップＳ１１）。

音声認識装置１００は、ユーザ９０が発した音声（入力音声）が取得されるまで待機する（ステップＳ１１でＮｏ）。この状態が、「入力待ち」の状態である。

音声認識装置１００は、ステップＳ１１において、ユーザ９０が発した音声（入力音声）が取得されると（ステップＳ１１でＹｅｓ）、音声認識部１０１により音声認識処理を行う（ステップＳ１２）。

ここで、図６を用いてステップＳ１２の音声認識処理の詳細を説明する。

図６は、実施の形態１における音声認識装置１００で実行される音声認識処理の一例を示すフローチャートである。

音声認識部１０１は、記憶部１０２に記憶されている認識用情報を参照し、入力音声の音響特徴と、１以上の対象ワードの各音響特徴とを互いに比較する。また、記憶部１０２に棄却情報リストが記憶されている場合には棄却情報リストも参照し、入力音声の音響特徴と、棄却ワードの音響特徴とを互いに比較する（ステップＳ３１）。

音声認識部１０１は、音響特徴に関する入力音声との類似度があらかじめ定められた閾値より低い棄却ワードを選出する。そして、音声認識部１０１は、それらの棄却ワードに対する対象ワードのうち、音響特徴に関する入力音声との類似度が最も高い対象ワード、を選出する（ステップＳ３２）。

棄却ワードは、音声認識部１０１において誤認識の発生を防止するために用いられる。ステップＳ３２での対象ワードの選出処理においては、認識用情報の各対象ワードのうち音響特徴に関する入力音声との類似度が最も高い対象ワードが選出される。ただし、この選出には、対象ワードに対応して誤認識防止用に定められた棄却ワードのうち、入力音声との類似度が高い棄却ワードに対応した対象ワードが選出されないための条件が設定されている。

音声認識部１０１は、ステップＳ３２で選出された対象ワードと入力音声との音響特徴に関する類似度に基づいて、尤度を特定する（ステップＳ３３）。

音声認識部１０１は、ステップＳ３２で選出された対象ワードを音声認識の結果として特定し（ステップＳ３４）、音声認識処理を終える。

図５に戻り、ステップＳ１２以降の音声入力対応処理の説明を続ける。

音声認識装置１００の制御部１０４は、ステップＳ１２における音声認識部１０１の音声認識の結果が「電源オン」であり、かつステップＳ１２におけるステップＳ３３で特定された尤度が閾値Ｓ０を超えているか否か、を判断する（ステップＳ１３）。

閾値Ｓ０は、実験等に基づいて、あらかじめ定められた数値である。閾値Ｓ０は、例えば、テレビジョン受信機１０のディスプレイ１４０に対面したユーザが、コマンドを音声で入力しようとしてコマンドに該当する対象ワード（例えば、「電源オン」、「マイクオン」、等）を明瞭に発声した場合に、そのときの尤度が閾値Ｓ０を超えるように定められている。

ステップＳ１３において制御部１０４がＮｏと判断した場合（すなわち、ステップＳ１２における音声認識の結果が「電源オン」でない場合、またはステップＳ１２におけるステップＳ３３で特定された尤度が閾値Ｓ０以下である場合）には、音声認識装置１００は、処理をステップＳ１１に戻し、ユーザ９０が発した音声（入力音声）が取得されるまで待機する。したがって、ここでのステップＳ１１〜ステップＳ１３の処理は、音声認識装置１００において「電源オン」のコマンドの音声入力を待機する処理になる。

ステップＳ１３において制御部１０４がＹｅｓと判断した場合（すなわち、ステップＳ１２における音声認識の結果が「電源オン」であり、かつステップＳ１２におけるステップＳ３３で特定された尤度が閾値Ｓ０を超えている場合）には、制御部１０４は、入力音声に対応するアクションとして電源オン機能を起動し、例えばディスプレイ１４０等への電力供給を開始する（ステップＳ１４）。

音声認識装置１００は、テレビジョン受信機１０のマイク１３０を通して、ユーザ９０が発した音声（入力音声）を取得する（ステップＳ１５）。

音声認識装置１００は、ユーザ９０が発した音声（入力音声）が取得されるまで待機する（ステップＳ１５でＮｏ）。すなわち、音声認識装置１００は、「入力待ち」の状態である。

ただし、ステップＳ１４で電源オン機能は起動済みであるため、音声認識装置１００は、ステップＳ１５では、「電源オン」のコマンドを表す対象ワードの音声については入力待ちではない状態である。

音声認識装置１００は、ステップＳ１５において、ユーザ９０が発した音声（入力音声）が取得されると（ステップＳ１５でＹｅｓ）、音声認識部１０１により音声認識処理を行う（ステップＳ１６）。ステップＳ１６の音声認識処理は、図６を用いて説明したステップＳ１２の音声認識処理と実質的に同じであるので、詳細な説明は省略する。

音声認識装置１００の制御部１０４は、ステップＳ１６における音声認識部１０１の音声認識の結果が「マイクオン」であり、かつステップＳ１６におけるステップＳ３３で特定された尤度が閾値Ｓ０を超えているか否か、を判断する（ステップＳ１７）。

ステップＳ１７において制御部１０４がＮｏと判断した場合（すなわち、ステップＳ１６における音声認識の結果が「マイクオン」でない場合、またはステップＳ１６におけるステップＳ３３で特定された尤度が閾値Ｓ０以下である場合）には、制御部１０４は、ステップＳ１６における音声認識部１０１の音声認識の結果が「電源オン」であり、かつステップＳ１６におけるステップＳ３３で特定された尤度が閾値Ｓ１を超えているか否か、を判断する（ステップＳ１８）。

閾値Ｓ１は、閾値Ｓ０以下に設定された値である。閾値Ｓ１は、閾値Ｓ０と同値でもよい。しかし、閾値Ｓ１を閾値Ｓ０より若干低い値に設定することは、後段のステップ（手順）において、棄却情報生成部１０３が、音声認識の際の誤認識を防止するための棄却情報を定める上で、有効である。

ステップＳ１８において制御部１０４がＮｏと判断した場合（すなわち、ステップＳ１６における音声認識の結果が「電源オン」でない場合、またはステップＳ１６におけるステップＳ３３で特定された尤度が閾値Ｓ１以下である場合）には、音声認識装置１００は、処理をステップＳ１５に戻し、ユーザ９０が発した音声（入力音声）が取得されるまで待機する。

ステップＳ１８において制御部１０４がＹｅｓと判断した場合（すなわち、ステップＳ１６における音声認識の結果が「電源オン」であり、かつステップＳ１６におけるステップＳ３３で特定された尤度が閾値Ｓ１を超えている場合）には、棄却情報生成部１０３は、サーバ音声認識処理を開始する（ステップＳ１９）。サーバ音声認識処理は、音声認識部１０１の音声認識に用いられた入力音声が音声認識サーバ５０に送信されることで開始される。

なお、ステップＳ１８で制御部１０４がＹｅｓと判断した場合、制御部１０４は、すでに電源オン機能を実行済みであるため、電源オン機能を実行しない。つまり、制御部１０４は、所定状態でない状態において音声認識部１０１が入力音声を対象ワードと認識した場合には、あらかじめ定められた制御処理を実行し、所定状態において音声認識部１０１が入力音声を対象ワードと認識した場合には、その制御処理を実行しない。なお、この場合の所定状態は、例えば、ディスプレイ１４０に電力が供給されている状態である。また、この場合の所定状態でない状態は、例えば、テレビジョン受信機１０がスタンバイの状態である。また、この場合の対象ワードは、例えば、電源オンである。また、この場合のあらかじめ定められた制御処理は、例えば、ディスプレイ１４０等への電力を供給する処理である。

ここで、図７を用いてステップＳ１９のサーバ音声認識処理の詳細を説明する。

図７は、実施の形態１における音声認識システム１で実行されるサーバ音声認識処理の一例を示すフローチャートである。図７には、テレビジョン受信機１０の棄却情報生成部１０３が音声認識サーバ５０と連携して実行するサーバ音声認識処理の一例を示す。

テレビジョン受信機１０の棄却情報生成部１０３は、入力音声を、通信部１５０およびネットワーク４０を介して、音声認識サーバ５０に送信する（ステップＳ４１）。

音声認識サーバ５０は、テレビジョン受信機１０から送信されてくる入力音声を、ネットワーク４０を介して受信する。

音声認識サーバ５０では、音声認識部５１が、記憶部５２に記憶されている音声認識用の辞書に基づいて入力音声を音声認識し、その音声認識の結果として入力音声が表すワードを特定する。そして、音声認識サーバ５０は、音声認識の結果として特定したワードと、そのワードを表す音声の音響特徴を、ネットワーク４０を介してテレビジョン受信機１０の通信部１５０に送信する（ステップＳ４２）。

テレビジョン受信機１０の棄却情報生成部１０３は、音声認識の結果としてのワードおよび音響特徴に係る情報を、ネットワーク４０および通信部１５０を介して受信する（ステップＳ４３）。

テレビジョン受信機１０の音声認識装置１００では、「電源オン」のコマンドの入力待ちではない状態において、図７に示すサーバ音声認識処理が実行される。そのため、「電源オン」と誤認識される可能性のある「電源オン」以外のワードと、そのワードの音響特徴を示す情報とが、音声認識サーバ５０からの音声認識の結果として、棄却情報生成部１０３で受信される。

図５に戻り、ステップＳ１９以降の音声入力対応処理の説明を続ける。

棄却情報生成部１０３は、音声認識サーバ５０から受信した音声認識の結果に基づいて棄却情報を生成し、生成した棄却情報を記憶部１０２の棄却情報リストに追加する（ステップＳ２０）。

具体的には、棄却情報生成部１０３は、音声認識サーバ５０から受信したワードおよびそのワードの音響特徴を、棄却ワードおよびその棄却ワードの音響特徴とし、それらを、対象ワードである「電源オン」と対応付けた棄却情報（図４参照）として記憶部１０２に記憶する。

棄却情報が記憶部１０２に記憶された後は、音声認識部１０１は、入力音声の音声認識を行う際に、棄却情報で示される棄却ワードとの音響特徴に関する類似度があらかじめ定められた閾値以上のワード（例えば、「電源オン」とよく似た「電源オン」以外のワード）は、そのワード（棄却ワード）に対応する対象ワード（例えば、「電源オン」）を、音声認識の結果として採用しない。したがって、音声認識システム１では、ユーザ９０が棄却ワードを発声した場合、その入力音声が対象ワードと誤認識されることが防止される。

ステップＳ２０の後は、音声認識装置１００は、処理をステップＳ１５に戻し、ユーザ９０が発した音声（入力音声）が取得されるまで待機する。

ステップＳ１７において制御部１０４がＹｅｓと判断した場合（すなわち、ステップＳ１６における音声認識の結果が「マイクオン」であり、かつステップＳ１６におけるステップＳ３３で特定された尤度が閾値Ｓ０を超えている場合）には、制御部１０４は、入力音声に対応するアクションとして音声受付機能を実行し、音声の受け付けを開始する（ステップＳ２１）。

音声受付機能は、テレビジョン受信機１０で電源オン機能が実行された後に、ユーザ９０に、音声認識装置１００がコマンド等を受け付けるタイミングを与える機能である。例えば、「マイクオン」のワードは、音声認識装置１００が音声受け付けを開始するときのトリガーとなるワードである。

音声の受け付けを開始した音声認識装置１００は、テレビジョン受信機１０のマイク１３０を通して、ユーザ９０が発した音声（入力音声）を取得する（ステップＳ２２）。

音声認識装置１００は、ユーザ９０が発した音声（入力音声）が取得されるまで待機する（ステップＳ２２でＮｏ）。すなわち、音声認識装置１００は、「入力待ち」の状態である。

音声認識装置１００は、ステップＳ２２において、ユーザ９０が発した音声（入力音声）が取得されると（ステップＳ２２でＹｅｓ）、音声認識部１０１により音声認識処理を行う（ステップＳ２３）。ステップＳ２３の音声認識処理は、図６を用いて説明したステップＳ１２の音声認識処理と実質的に同じであるので、詳細な説明は省略する。

音声認識装置１００の制御部１０４は、ステップＳ２３における音声認識処理の結果として入力音声から認識された対象ワードに応じた制御を行う（ステップＳ２４）。

ステップＳ２４では、制御部１０４は、入力音声に対応するアクションとして、あらかじめ定められた制御を行う。すなわち、ステップＳ２４では、制御部１０４は、対象ワードで表されるコマンドに応じて、テレビジョン受信機１０の各部を制御するための制御信号を各部に送信する。一例を挙げると、ステップＳ２３の音声認識処理で「電源オフ」という対象ワードが音声認識部１０１により認識された場合には、制御部１０４は、ステップＳ２４において、ディスプレイ１４０への電力供給を停止するための制御信号を各部に送信する。この結果、テレビジョン受信機１０はスタンバイ状態になる。

ステップＳ２４の後は、音声認識装置１００は、処理をステップＳ１５に戻し、ユーザ９０が発した音声（入力音声）が取得されるまで待機する。

［１−２−２．テレビジョン受信機１０の音声認識装置１００における棄却情報送信処理］
音声認識装置１００は、上述した音声入力対応処理とは別に、棄却情報送信処理を実行する。

図８は、実施の形態１における音声認識装置１００で実行される棄却情報送信処理の一例を示すフローチャートである。以下、図８のフローチャートを参照して、音声認識装置１００の棄却情報送信処理に係る動作を説明する。

音声認識装置１００の出力部１０５は、記憶部１０２に棄却情報が記憶されている場合に、棄却情報を、通信部１５０およびネットワーク４０を介して外部サーバ（例えば、音声認識サーバ５０）に送信する（ステップＳ５１）。

出力部１０５は、ステップＳ５１の処理を実行してから一定時間（例えば、１ヶ月、等）が経過したか否かを判断する（ステップＳ５２）。

出力部１０５は、ステップＳ５１の処理を実行してから一定時間（例えば、１ヶ月、等）が経つまで待機する（ステップＳ５２でＮｏ）。

出力部１０５は、ステップＳ５１の処理を実行してから一定時間（例えば、１ヶ月、等）が経ったと判断した場合は（ステップＳ５２でＹｅｓ）、処理をステップＳ５１に戻し、ステップＳ５１の処理を実行する。

これにより、音声認識システム１では、音声認識システム１が複数のテレビジョン受信機１０を有する場合に、それら複数のテレビジョン受信機１０からの棄却情報を１台の外部サーバ（例えば、音声認識サーバ５０）で収集することが可能となる。これにより、例えば複数の家庭のそれぞれに設置されたテレビジョン受信機１０から、ある対象ワード（例えば、「電源オン」）と誤認識され易いワードの情報である棄却情報を収集することができる。このようにして収集された棄却情報は、音声認識装置１００における音声認識の精度向上に活用することができる。例えば、このようにして収集された棄却情報に基づく棄却情報リストを、テレビジョン受信機１０を製造するときに、テレビジョン受信機１０の記憶部１０２にあらかじめ記憶させてもよい。あるいは、このようにして収集された棄却情報に基づく棄却情報リストを、ネットワーク４０を通してテレビジョン受信機１０に配信してもよい。棄却情報の量が増えることで、音声認識装置１００における音声認識の精度をより向上することが可能となる。

［１−３．効果等］
以上のように、本実施の形態において、音声認識装置は、入力音声を対象ワードと認識する音声認識装置である。音声認識装置は、記憶部と、音声認識部と、棄却情報生成部と、を備える。記憶部は、音声の特定に用いられる棄却情報を記憶する。音声認識部は、当該棄却情報により特定される音声と入力音声との類似度があらかじめ定められた閾値より低いことを条件の１つとして、当該入力音声を対象ワードと認識する。棄却情報生成部は、所定状態において音声認識部が入力音声を対象ワードと認識した場合に、当該入力音声に基づいて棄却情報を定め、その棄却情報を記憶部に記憶する。

なお、対象ワードは、音声認識の対象となるワードである。音声認識装置１００は音声認識装置の一例である。記憶部１０２は記憶部の一例である。音声認識部１０１は音声認識部の一例である。棄却情報生成部１０３は棄却情報生成部の一例である。図４に示した棄却情報は、棄却情報の一例である。

例えば、実施の形態１に示した例では、音声認識システム１は、一定条件下で入力音声を対象ワード（例えば、「電源オン」）と認識する音声認識装置１００と、入力音声に対応するワードを認識する音声認識サーバ５０と、を備える。音声認識装置１００は、記憶部１０２と、音声認識部１０１と、棄却情報生成部１０３と、を備える。記憶部１０２は、音声の特定に用いられる棄却情報を記憶する。音声認識部１０１は、当該棄却情報により特定される音声と入力音声との類似度があらかじめ定められた閾値より低いことを条件の１つとして、当該入力音声を対象ワードと認識する。棄却情報生成部１０３は、所定状態（例えば「電源オン」の入力待ちではない状態）において音声認識部１０１が入力音声を対象ワードと認識した場合に、当該入力音声を音声認識サーバ５０に送信し、当該入力音声に基づいて音声認識サーバ５０により認識されたワードを表す音声に係る情報を音声認識サーバ５０から受信し、受信した当該情報を棄却情報として定めて記憶部１０２に記憶する。音声認識サーバ５０は、音声認識部５１を有する。音声認識部５１は、音声認識装置１００から受信した入力音声に基づいて当該入力音声に対応するワードを認識し、当該ワードを音声認識装置１００に送信する。

これにより、例えば実施の形態１に示した例では、音声認識装置１００は、音声認識装置１００を利用するユーザ９０により発声された音声に基づいて、棄却ワード等の棄却情報を定めることができる。そのため、音声認識装置１００は、対象ワードの誤認識を低減し、精度の高い音声認識を実現することが可能となる。また、棄却情報を定めるために要する作業を軽減することができる。

このように、音声認識装置１００では、音声認識の対象ワードと誤認識される音声を特定する棄却情報を適切に定めて、音声認識に活用することができるので、音声認識の精度が高まり、音声入力を行うユーザの利便性を向上することができる。

音声認識装置は、さらに制御部を備えてもよい。制御部は、所定状態ではない状態において音声認識部が入力音声を対象ワードと認識した場合には、あらかじめ定められた制御処理を実行してもよく、所定状態において音声認識部が入力音声を対象ワードと認識した場合には、制御処理を実行しなくてもよい。

なお、制御部１０４は制御部の一例である。

これにより、例えば実施の形態１に示した例では、対象ワードが音声で入力されても制御処理が実行されない状態（例えば、音声入力が不要な状態、あるいは、音声入力が無効な状態）においてユーザ９０により発声された音声に基づいて、適切に、対象ワードと誤認識されることを防止するための棄却情報を定めることができる。

棄却情報生成部は、入力音声に基づいて、音声認識部に依らずに認識されるワードを表す音声に係る情報を、棄却情報として定めてもよい。

これにより、例えば、他の音声認識機能を有する構成要素あるいは外部装置により入力音声に基づいて認識されるワードを表す音響特徴等を、棄却情報として定めることができる。このため、例えば実施の形態１に示した例では、対象ワードとして意図的に発声されたものではないワード、例えば会話や独り言等により発せられたワード、が、音声認識装置１００の音声認識部１０１により対象ワードと誤認識されることを防止することができる。

棄却情報生成部は、入力音声に基づく音声認識を外部装置に行わせた結果としてのワードを表す音声に係る情報を、当該外部装置から取得し、当該ワードを表す音声に係る情報を棄却情報として定めてもよい。

なお、音声認識サーバ５０は外部装置の一例である。

これにより、例えば実施の形態１に示した例では、音声認識装置１００は、入力音声に基づいて音声認識サーバ５０により認識されるワードを表す音響特徴等を棄却情報として定めることができる。これは、音声認識用の辞書を記憶する記憶媒体の容量の制約等により、例えば多種言語対応あるいは高い認識精度等の特徴を有する音声認識機構を音声認識装置１００内に構成できない場合に、有用となる。音声認識装置１００は、そのような音声認識機構を含む音声認識サーバ５０と連携して、棄却情報の生成を行うことができる。

棄却情報生成部は、所定状態において音声認識部が入力音声を対象ワードと認識した場合、所定入力を受けたときに棄却情報を記憶部に記憶してもよい。

なお、図９に示す表示画面は、所定入力の受け付け画面の一例である。

これにより、例えば実施の形態１に示した例では、棄却情報生成部１０３は、所定入力によるユーザ９０の確認を得ることで、適切に棄却情報を定めることができる。

音声認識装置は、マイクロホンおよびディスプレイを有するテレビジョン受信機に備えられてもよい。制御処理は、ディスプレイへ電力を供給する処理であってもよい。所定状態は、ディスプレイへ電力を供給している状態であることとしてもよい。

なお、テレビジョン受信機１０はテレビジョン受信機の一例である。マイク１３０はマイクロホンの一例である。ディスプレイ１４０はディスプレイの一例である。

これにより、例えば実施の形態１に示した例では、テレビジョン受信機１０が待機状態（スタンバイ状態）のときに、電源オン機能を実行するコマンドをユーザ９０がテレビジョン受信機１０に音声入力する際に、棄却情報により、電源オン機能を実行するコマンドでない入力音声が電源オン機能を実行するコマンドと誤認識されることが防止される。したがって、テレビジョン受信機１０において精度の高い音声認識が可能となる。このため、テレビジョン受信機１０では、音声認識開始のトリガーとなる音声を、電源オン機能に係るコマンドに先行してユーザ９０が発声することを必要とせず、これにより誤認識の防止が図れる。したがって、ユーザ９０は、迅速に、テレビジョン受信機１０を視聴可能な状態にすることができる。

音声認識装置は、さらに出力部を備えてもよい。出力部は、記憶部に記憶された棄却情報を外部に出力してもよい。

なお、出力部１０５は出力部の一例である。

これにより、例えば実施の形態１に示した例では、音声認識装置１００を利用するユーザ９０により発声された音声（入力音声）に基づいて生成された棄却情報を、外部の音声認識サーバ５０において取得できる。これにより、例えば、音声認識サーバ５０において取得された棄却情報を、音声認識装置の更なる精度向上や、音声認識機構の製造等、に活用することができる。

音声認識装置においては、対象ワードの入力待ちでない状態または対象ワードが認識されるべきでない状態を、所定状態としてもよい。

音声認識装置が、マイクロホンおよびディスプレイを有するテレビジョン受信機に備えられ、対象ワードがディスプレイへ電力を供給する指示を表すワードである場合、ディスプレイへ電力が供給されている状態を所定状態としてもよい。

なお、「電源オン」という対象ワードは、ディスプレイへ電力を供給する指示を表すワードの一例である。

例えば、実施の形態１に示した動作例では、テレビジョン受信機１０がすでに電源オン機能が実行された状態（ディスプレイ１４０に電力が供給されて放送番組等がディスプレイ１４０に表示されている状態）であれば、ユーザ９０は「電源オン」というコマンドの音声入力を行わない可能性が高い。したがって、この状態で音声認識装置１００により「電源オン」と認識された入力音声があれば、その入力音声によるワードは、「電源オン」ではなく、「電源オン」に音響が似た「電源オン」以外のワードである可能性が高い。したがって、「電源オン」という対象ワードに関する所定状態を、「電源オン」という対象ワードの入力待ちではない状態、すなわち、ディスプレイ１４０に電力が供給されている状態、とすることで、音声認識装置１００は、音声認識サーバ５０を利用して、「電源オン」に音響が似た「電源オン」以外のワードを棄却ワードと定めることができる。そして、音声認識装置１００は、そのワードを棄却ワードとする棄却情報を記憶部１０２に記憶することで、音声認識の精度をさらに高めることができる。

本実施の形態において、音声認識システムは、入力音声を対象ワードと認識する第１音声認識装置と、入力音声に対応するワードを認識する第２音声認識装置と、を備える。第１音声認識装置は、記憶部と、第１音声認識部と、棄却情報生成部と、を備える。記憶部は、音声の特定に用いられる棄却情報を記憶する。第１音声認識部は、当該棄却情報により特定される音声と入力音声との類似度があらかじめ定められた閾値より低いことを条件の１つとして、当該入力音声を対象ワードと認識する。棄却情報生成部は、所定状態において第１音声認識部が入力音声を対象ワードと認識した場合に、当該入力音声を第２音声認識装置に送信し、当該入力音声に基づいて第２音声認識装置により認識されたワードを表す音声に係る情報を第２音声認識装置から受信し、受信した当該情報を棄却情報として定め、当該棄却情報を記憶部に記憶する。第２音声認識装置は、第２音声認識部を有する。第２音声認識部は、第１音声認識装置から受信した入力音声に基づいて当該入力音声に対応するワードを認識し、当該ワードを第１音声認識装置に送信する。

なお、音声認識システム１は音声認識システムの一例である。音声認識装置１００は第１音声認識装置の一例である。音声認識サーバ５０は第２音声認識装置の一例である。音声認識部１０１は第１音声認識部の一例である。音声認識部５１は第２音声認識部の一例である。

この音声認識システムは、音声認識機構を２系統有する。第２音声認識装置は、第１音声認識装置が有する制約（例えば、大容量の記憶媒体を備えることが困難である、等）に縛られずに構成されてもよい。例えば、第２音声認識装置は、音声認識用の辞書を、第１音声認識装置よりも大容量の記憶媒体で構成されてもよい。

そして、この音声認識システムでは、第１音声認識装置は、第２音声認識装置を利用し、第１音声認識装置へ入力される入力音声に基づいて、第２音声認識装置に音声認識を実行させてもよい。これにより、第１音声認識装置は、第２音声認識装置におけるより高精度な音声認識の結果を活用して棄却ワード等の棄却情報を定めることができるので、より精度の高い音声認識を行えるようになる。

例えば実施の形態１に示した例では、音声認識サーバ５０は、音声認識装置１００が有する音声認識用の辞書よりも大容量の音声認識用の辞書を有することができる。そして、音声認識システム１では、音声認識装置１００は、音声認識サーバ５０を利用し、音声認識装置１００へ入力される入力音声に基づいて、音声認識サーバ５０に音声認識を実行させることが可能である。したがって、音声認識装置１００は、音声認識サーバ５０におけるより高精度な音声認識の結果を利用して棄却ワード等の棄却情報を定めることができるので、より精度の高い音声認識を行えるようになる。

このように音声認識システム１では、音声認識の対象ワードと誤認識される音声を特定する棄却情報を適切に定めて、音声認識に活用することができるので、音声認識の精度を高め、音声入力を行うユーザの利便性を向上することができる。

本実施の形態において、音声認識方法は、音声認識装置で用いられる音声認識方法である。音声認識装置は、記憶部と、音声認識部と、を備える。記憶部は、音声の特定に用いられる棄却情報を記憶する。音声認識部は、当該棄却情報により特定される音声と入力音声との類似度があらかじめ定められた閾値より低いことを条件の１つとして、当該入力音声を対象ワードと認識する。音声認識方法は、対象ワードが認識されるべきでない所定状態において音声認識部が入力音声を対象ワードと認識したか否かを判定するステップと、当該所定状態において音声認識部が入力音声を対象ワードと認識したと判定された場合に、入力音声に基づいて棄却情報を定め、その棄却情報を記憶部に記憶するステップと、を含む。

これにより、例えば実施の形態１に示した例では、音声認識装置１００は、音声認識装置１００を利用するユーザ９０により発声された音声に基づいて、棄却情報を適切に定めることができる。したがって、音声認識装置１００は、より精度の高い音声認識を行うことが可能となる。

また、本実施の形態において、制御プログラムは、音声認識装置のプロセッサに音声認識処理を実行させるための制御プログラムである。音声認識装置は、記憶部と、音声認識部と、を備える。記憶部は、音声の特定に用いられる棄却情報を記憶する。音声認識部は、当該棄却情報により特定される音声と入力音声との類似度があらかじめ定められた閾値より低いことを条件の１つとして、当該入力音声を対象ワードと認識する。音声認識処理は、対象ワードが認識されるべきでない所定状態において音声認識部が入力音声を対象ワードと認識したか否かを判定するステップと、当該所定状態において音声認識部が入力音声を対象ワードと認識したと判定された場合に、入力音声に基づいて棄却情報を定め、その棄却情報を記憶部に記憶するステップと、を含む。

これにより、この制御プログラムが実行される音声認識装置は、音声認識装置を利用するユーザにより発声された音声に基づいて、棄却情報を適切に定めることができる。

例えば実施の形態１に示した例では、この制御プログラムが実行される音声認識装置１００は、音声認識装置１００を利用するユーザ９０により発声された音声に基づいて、棄却情報を適切に定めることができる。したがって、音声認識装置１００は、より精度の高い音声認識を行うことが可能となる。

なお、これらの包括的または具体的な各種態様には、装置、システム、方法、集積回路、コンピュータプログラム、コンピュータで読み取り可能な記録媒体、等の１つまたは複数の組合せが含まれる。

（他の実施の形態）
以上のように、本出願において開示する技術の例示として、実施の形態１を説明した。しかしながら、本開示における技術は、これに限定されず、変更、置き換え、付加、省略等を行った実施の形態にも適用できる。また、上記実施の形態１で説明した各構成要素を組み合わせて、新たな実施の形態とすることも可能である。

そこで、以下、他の実施の形態を例示する。

実施の形態１では、音声認識装置１００が、テレビジョン受信機１０の各部を制御する機能を備える構成例を説明した。しかし、音声認識装置１００は、テレビジョン受信機１０の各部を制御する機能を備えていなくてもよい。音声認識装置１００は、テレビジョン受信機１０あるいは他の装置類において、入力音声を与えられたときに音声認識の結果を出力する部品であってもよい。

実施の形態１では、音声認識装置１００が、テレビジョン受信機１０に備えられた構成例を示した。しかし、本開示はこの構成例に限定されない。音声認識装置１００は、例えば、音声入力インタフェースを適用可能な様々な装置類（例えば、各種入力装置、家電機器、情報端末、ロボット、車載装置、車両、等）に、備えられてもよい。あるいは、音声認識装置１００が、テレビジョン放送の受信機能、映像の表示機能、音声合成機能、移動機能、その他の各種機能部、を備えてもよい。

実施の形態１で示した音声認識サーバ５０は、音声認識装置１００から離れた場所に設置されなくてもよい。音声認識サーバ５０は、例えば、音声認識装置１００が設置された施設内に設置され、音声認識装置１００とＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）で接続されてもよい。あるいは、音声認識サーバ５０は、音声認識装置１００を備える装置（例えば、テレビジョン受信機）内に設けられてもよい。また、音声認識サーバ５０が音声認識できるワードの数は、音声認識部１０１が音声認識できるワードの数より多くなくてもよい。

音声認識装置１００は、入力音声を取得する毎に、音声認識サーバ５０に入力音声を送信し、音声認識サーバ５０から音声認識の結果を受信し、受信した音声認識の結果を利用してもよい。例えば、音声認識装置１００は、音声認識部１０１での音声認識の結果として入力音声が対象ワードのいずれにも該当しなかった場合に、音声認識サーバ５０からの音声認識の結果であるワードがコマンドに該当するか否かを判断してもよい。また、音声認識部１０１での入力音声の音声認識の結果が、対象ワードのいずれにも該当しなかった場合に、音声認識サーバ５０からの音声認識の結果であるワードを検索対象とした検索機能を起動してもよい。この検索機能は、例えば、インターネット上の外部サーバ（例えば、いわゆる検索エンジン）にアクセスすることで、検索対象のワードに関連する情報を取得してディスプレイ１４０に表示する機能である。

実施の形態１では、「電源オン」という対象ワードを例に挙げ、すでに電源オン機能が実行された状態を、棄却情報が生成されてもよい所定状態とする動作例を説明した。しかし、音声認識部１０１は、例えば、音声受け付け用のトリガーとなるワードがユーザ９０に発声された直後は、入力音声に基づく棄却情報の生成を行わなくてもよい。

実施の形態１では、音声認識装置１００の棄却情報生成部１０３が、音声認識サーバ５０から取得したワードを棄却ワードとして棄却情報を定める動作例を説明した。しかし、音声認識装置１００は、所定の条件下で棄却情報を定めてもよい。例えば、音声認識装置１００は、音声認識サーバ５０から取得したワードを、棄却ワードとして定めてよいか否かをユーザ９０に確認してもよい。例えば、音声認識装置１００は、音声認識サーバ５０から取得したワードをディスプレイ１４０に表示し、その表示されたワードに対するユーザ９０の入力（例えば、リモートコントローラの操作による入力、または音声入力、等）に基づき、そのワードを棄却ワードとして定めてもよい。すなわち、音声認識装置１００は、ユーザ９０から所定の入力を受けたときに棄却情報を定めてもよい。このような動作を音声認識装置１００が行う場合の表示画面の例を図９に示す。

図９は、実施の形態１における表示画面の一例を模式的に示す図である。図９に示す例では、ディスプレイ１４０の画面に、音声認識サーバ５０から取得したワード「ｘｘｘｘ」を棄却ワードとして登録するか否かをユーザに確認するメッセージ１４１が表示されている。そして、音声認識装置１００は、ユーザ９０から「はい」が入力された場合はワード「ｘｘｘｘ」を棄却ワードとして登録し、ユーザ９０から「いいえ」が入力された場合はワード「ｘｘｘｘ」を棄却ワードとして登録しない。音声認識装置１００は、このような動作を行ってもよい。

実施の形態１では、音声認識装置１００の制御部１０４が、音声認識部１０１における音声認識の結果の尤度を閾値（閾値Ｓ０、Ｓ１）と比較し、尤度がその閾値を超える場合と尤度がその閾値以下の場合とで互いに異なる処理手順を行う動作例を説明した。しかし、音声認識装置１００は、尤度を用いなくてもよい。その場合、音声認識部１０１は、尤度を特定しなくてもよい。あるいは、音声認識部１０１は、尤度がその閾値を超えることを対象ワードの認識における条件の一つとして、音声認識を行ってもよい。尤度がその閾値を超えることを条件として音声認識が行われる場合には、音声認識部１０１は、棄却情報に係る条件に加えて尤度に係る条件を用いることになる。したがって、例えば、このような場合に、尤度がその閾値を超えないときには、音声認識装置１００は、音声認識の結果が無いものとしてもよい。

また、音声認識部１０１は、入力音声の音量が一定レベルより小さいもの、あるいは、人が発声可能な周波数帯域以外の音は、ワードを表す音声が入力されなかったもの（すなわち、該当する対象ワードを特定する等の音声認識処理を行わない）としてもよい。

実施の形態１では、認識用情報（図３参照）の対象ワードが複数ある例（例えば、「電源オン」、「マイクオン」、等）を示した。しかし、対象ワードは１つであってもよい。

実施の形態１では、棄却情報（図４参照）が対象ワードの項目を含む例を示した。しかし、例えば、音声認識の誤認識を防止すべき対象ワードが「電源オン」だけであるような場合、棄却情報に「対象ワード」の項目はなくてもよい。

実施の形態１では、棄却情報は、棄却ワードと、その棄却ワードの音響特徴情報と、を含む例を示した。しかし、棄却情報は、誤認識を防止すべき対象ワードと誤認識されてしまう可能性のある音声の特定に用いられる情報であればよい。例えば、「電源オン」という対象ワードに対して、その「電源オン」の入力待ちでない状態において、入力音声を音声認識部１０１が「電源オン」と誤認識した場合に、その入力音声の音声波形を特定するデータである棄却波形データを、棄却ワードの代わりに棄却情報に含ませてもよい。この場合には、音声認識装置１００は、音声認識処理（図６）のステップＳ３２において、音声波形に関する入力音声との類似度があらかじめ定められた閾値より低い棄却波形データに対する対象ワードのうち、音響特徴に関する入力音声との類似度が最も高い対象ワードを選出してもよい。また、この場合には、音声認識装置１００は、棄却情報の生成のために音声認識サーバ５０を用いなくてもよい。ただし、音声認識装置１００が、音声認識サーバ５０の音声認識の結果であるワードおよびその音響特徴に基づいて棄却情報を生成することは、対象ワードと誤認識されやすいワードが、声質、声の高さ、等を変化させてユーザ９０に発声された場合に、誤認識を防止できる可能性を高めることができる。また、このため、音声認識サーバ５０では、複数の人における声質、声の高さ、等に基づき、複数の人に共通する音響特徴をワード毎に定めた辞書を用いてもよい。

実施の形態１では、棄却情報生成部１０３は、音声認識サーバ５０から、入力音声に基づいて音声認識サーバ５０で認識されたワードとその音響特徴とを取得する動作例を説明した。しかし、棄却情報生成部１０３は、音声認識サーバ５０からワードのみを取得し、そのワードに基づく音響特徴を音声認識サーバ５０以外の装置から取得してもよい。

実施の形態１で示した音声認識システム１における各種処理の実行順序（例えば、図５〜図８に示した手順、等）は、実施の形態１に示した順序に限定されない。各処理の順序は、本開示の要旨が満たされる範囲で入れ替えられてもよい。なお、音声認識システム１においては、音声認識部１０１が入力音声を対象ワードと認識した場合に、当該対象ワードが認識されるべきでない所定状態であるか否かを判定するステップと、そのステップにおいて所定状態であると判定された場合に、入力音声に基づいて棄却情報を定めて記憶部１０２に記憶するステップと、を少なくとも含む音声認識方法が実行されればよい。

実施の形態１で示した音声認識装置１００、あるいは音声認識サーバ５０の各機能構成要素は、それぞれが互いに分離した別個の装置内に設置されてもよい。分離した各装置内の各機能構成要素は、有線または無線で通信することにより互いに連携して動作し、実施の形態１で示した音声認識装置１００あるいは音声認識サーバ５０により行われる処理と実質的に同じ処理が実現されてもよい。

音声認識システム１における各装置類の機能構成要素（機能ブロック）は、ＩＣ（ＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）またはＬＳＩ（ＬａｒｇｅＳｃａｌｅＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）等の半導体装置により個別に１チップ化されてもよく、あるいは、それらの一部または全部を含むように１チップ化されてもよい。また、集積回路化の手法はＬＳＩに限るものではなく、専用回路または汎用プロセッサで実現されてもよい。ＬＳＩ製造後に、回路の構成を任意にプログラムすることが可能なＦＰＧＡ（ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）や、ＬＳＩ内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル・プロセッサが利用されてもよい。さらには、半導体技術の進歩または派生する別技術によりＬＳＩに置き換わる集積回路化の技術が登場すれば、その技術を用いて機能ブロックの集積化が行われてもよい。バイオ技術が適用されてもよい。

また、上述した各種処理（例えば、図５〜図８に示した手順、等）の全部または一部は、各装置類のハードウェアにより実現されてもよく、ソフトウェアを用いて実現されてもよい。なお、ソフトウェアによる処理は、各装置類に含まれるプロセッサがメモリに記憶された制御プログラムを実行することにより実現されるものである。また、その制御プログラムが記録媒体に記録されて、頒布や流通がなされてもよい。例えば、頒布された制御プログラムが装置類にインストールされて、装置類のプロセッサに実行されることで、装置類で各種処理（例えば、図５〜図８に示す処理、等）が行われてもよい。

以上のように、本開示における技術の例示として、実施の形態を説明した。そのために、添付図面および詳細な説明を提供した。

したがって、添付図面および詳細な説明に記載された構成要素の中には、課題解決のために必須な構成要素だけでなく、上記技術を例示するために、課題解決のためには必須でない構成要素も含まれ得る。そのため、それらの必須ではない構成要素が添付図面や詳細な説明に記載されていることをもって、直ちに、それらの必須ではない構成要素が必須であるとの認定をするべきではない。

また、上述の実施の形態は、本開示における技術を例示するためのものであるから、特許請求の範囲またはその均等の範囲において種々の変更、置き換え、付加、省略などを行うことができる。

本開示は、ユーザが発声した音声を音声認識する音声認識システム、音声認識装置、音声認識方法、および制御プログラムに適用可能である。具体的には、テレビジョン受信機、録画再生装置、コンピュータ、スマートフォン、携帯端末、タブレットコンピュータ、ゲーム機、サーバ装置、等に、本開示は適用可能である。

１音声認識システム
１０テレビジョン受信機
４０ネットワーク
５０音声認識サーバ
５１音声認識部
５２記憶部
９０ユーザ
１００音声認識装置
１０１音声認識部
１０２記憶部
１０３棄却情報生成部
１０４制御部
１０５出力部
１３０マイク
１４０ディスプレイ
１４１メッセージ
１５０通信部
１６０チューナ
１７０記憶部

Claims

入力音声を対象ワードと認識する音声認識装置であって、
音声の特定に用いられる棄却情報を記憶する記憶部と、
前記棄却情報により特定される音声と前記入力音声との類似度があらかじめ定められた閾値より低いことを条件の１つとして、前記入力音声を前記対象ワードと認識する音声認識部と、
所定状態において前記音声認識部が前記入力音声を前記対象ワードと認識した場合に、前記入力音声に基づいて前記棄却情報を定め、前記棄却情報を前記記憶部に記憶する棄却情報生成部と、
前記所定状態ではない状態において前記音声認識部が前記入力音声を前記対象ワードと認識した場合には、あらかじめ定められた制御処理を実行し、前記所定状態において前記音声認識部が前記入力音声を前記対象ワードと認識した場合には、前記制御処理を実行しない制御部と、を備える、
音声認識装置。
前記棄却情報生成部は、前記入力音声に基づいて、前記音声認識部に依らずに認識されるワードを表す音声に係る情報を、前記棄却情報として定める、
請求項１に記載の音声認識装置。
前記棄却情報生成部は、前記入力音声に基づく音声認識を外部装置に行わせた結果としてのワードを表す音声に係る情報を、前記外部装置から取得し、当該ワードを表す音声に係る情報を前記棄却情報として定める、
請求項２に記載の音声認識装置。
前記棄却情報生成部は、前記所定状態において前記音声認識部が前記入力音声を前記対象ワードと認識した場合、所定入力を受けたときに前記棄却情報を前記記憶部に記憶する、
請求項１に記載の音声認識装置。
前記音声認識装置は、ディスプレイを有するテレビジョン受信機に備えられ、
前記制御処理は、前記ディスプレイへ電力を供給する処理であり、
前記所定状態は、前記ディスプレイへ電力を供給している状態である、
請求項１に記載の音声認識装置。
入力音声を対象ワードと認識する音声認識装置であって、
音声の特定に用いられる棄却情報を記憶する記憶部と、
前記棄却情報により特定される音声と前記入力音声との類似度があらかじめ定められた閾値より低いことを条件の１つとして、前記入力音声を前記対象ワードと認識する音声認識部と、
所定状態において前記音声認識部が前記入力音声を前記対象ワードと認識した場合に、前記入力音声に基づいて前記棄却情報を定め、前記棄却情報を前記記憶部に記憶する棄却情報生成部と、を備え、
前記対象ワードの入力待ちでない状態または前記対象ワードが認識されるべきでない状態を、前記所定状態とする、
音声認識装置。
入力音声を対象ワードと認識する音声認識装置であって、
音声の特定に用いられる棄却情報を記憶する記憶部と、
前記棄却情報により特定される音声と前記入力音声との類似度があらかじめ定められた閾値より低いことを条件の１つとして、前記入力音声を前記対象ワードと認識する音声認識部と、
所定状態において前記音声認識部が前記入力音声を前記対象ワードと認識した場合に、前記入力音声に基づいて前記棄却情報を定め、前記棄却情報を前記記憶部に記憶する棄却情報生成部と、を備え、
前記音声認識装置は、ディスプレイを有するテレビジョン受信機に備えられ、
前記対象ワードが前記ディスプレイへ電力を供給する指示を表すワードである場合、前記ディスプレイへ電力が供給されている状態を前記所定状態とする、
音声認識装置。
入力音声を対象ワードと認識する第１音声認識装置と、入力音声に対応するワードを認識する第２音声認識装置と、を備え、
前記第１音声認識装置は、
音声の特定に用いられる棄却情報を記憶する記憶部と、
前記棄却情報により特定される音声と前記入力音声との類似度があらかじめ定められた閾値より低いことを条件の１つとして、前記入力音声を前記対象ワードと認識する第１音声認識部と、
所定状態において前記第１音声認識部が前記入力音声を前記対象ワードと認識した場合に、前記入力音声を前記第２音声認識装置に送信し、前記入力音声に基づいて前記第２音声認識装置により認識されたワードを表す音声に係る情報を前記第２音声認識装置から受信し、受信した前記情報を前記棄却情報として定め、前記棄却情報を前記記憶部に記憶する棄却情報生成部と、を有し、
前記第２音声認識装置は、前記第１音声認識装置から受信した前記入力音声に基づいて前記入力音声に対応するワードを認識し、当該ワードを前記第１音声認識装置に送信する第２音声認識部、を有する、
音声認識システム。
音声の特定に用いられる棄却情報を記憶する記憶部と、前記棄却情報により特定される音声と入力音声との類似度があらかじめ定められた閾値より低いことを条件の１つとして、前記入力音声を対象ワードと認識する音声認識部と、を備える音声認識装置で用いられる音声認識方法であって、
前記対象ワードが認識されるべきでない所定状態において前記音声認識部が前記入力音声を前記対象ワードと認識したか否かを判定するステップと、
前記所定状態において前記音声認識部が前記入力音声を前記対象ワードと認識したと判定された場合に、前記入力音声に基づいて前記棄却情報を定め、前記棄却情報を前記記憶部に記憶するステップと、
前記所定状態ではない状態において前記音声認識部が前記入力音声を前記対象ワードと認識した場合には、あらかじめ定められた制御処理を実行し、前記所定状態において前記音声認識部が前記入力音声を前記対象ワードと認識した場合には、前記制御処理を実行しないステップと、を含む、
音声認識方法。
音声の特定に用いられる棄却情報を記憶する記憶部と、前記棄却情報により特定される音声と入力音声との類似度があらかじめ定められた閾値より低いことを条件の１つとして、前記入力音声を対象ワードと認識する音声認識部と、を備える音声認識装置で用いられる音声認識方法であって、
前記対象ワードが認識されるべきでない所定状態において前記音声認識部が前記入力音声を前記対象ワードと認識したか否かを判定するステップと、
前記所定状態において前記音声認識部が前記入力音声を前記対象ワードと認識したと判定された場合に、前記入力音声に基づいて前記棄却情報を定め、前記棄却情報を前記記憶部に記憶するステップと、を含み、
前記対象ワードの入力待ちでない状態または前記対象ワードが認識されるべきでない状態を、前記所定状態とする、
音声認識方法。
音声の特定に用いられる棄却情報を記憶する記憶部と、前記棄却情報により特定される音声と入力音声との類似度があらかじめ定められた閾値より低いことを条件の１つとして、前記入力音声を対象ワードと認識する音声認識部と、を備える音声認識装置で用いられる音声認識方法であって、
前記対象ワードが認識されるべきでない所定状態において前記音声認識部が前記入力音声を前記対象ワードと認識したか否かを判定するステップと、
前記所定状態において前記音声認識部が前記入力音声を前記対象ワードと認識したと判定された場合に、前記入力音声に基づいて前記棄却情報を定め、前記棄却情報を前記記憶部に記憶するステップと、を含み、
前記音声認識装置は、ディスプレイを有するテレビジョン受信機に備えられ、
前記対象ワードが前記ディスプレイへ電力を供給する指示を表すワードである場合、前記ディスプレイへ電力が供給されている状態を前記所定状態とする、
音声認識方法。
音声の特定に用いられる棄却情報を記憶する記憶部と、前記棄却情報により特定される音声と入力音声との類似度があらかじめ定められた閾値より低いことを条件の１つとして、前記入力音声を対象ワードと認識する音声認識部と、を備える音声認識装置のプロセッサに音声認識処理を実行させるための制御プログラムであって、
前記音声認識処理は、
前記対象ワードが認識されるべきでない所定状態において前記音声認識部が前記入力音声を前記対象ワードと認識したか否かを判定するステップと、
前記所定状態において前記音声認識部が前記入力音声を前記対象ワードと認識したと判定された場合に、前記入力音声に基づいて前記棄却情報を定め、前記棄却情報を前記記憶部に記憶するステップと、
前記所定状態ではない状態において前記音声認識部が前記入力音声を前記対象ワードと認識した場合には、あらかじめ定められた制御処理を実行し、前記所定状態において前記音声認識部が前記入力音声を前記対象ワードと認識した場合には、前記制御処理を実行しないステップと、を含む、
制御プログラム。
音声の特定に用いられる棄却情報を記憶する記憶部と、前記棄却情報により特定される音声と入力音声との類似度があらかじめ定められた閾値より低いことを条件の１つとして、前記入力音声を対象ワードと認識する音声認識部と、を備える音声認識装置のプロセッサに音声認識処理を実行させるための制御プログラムであって、
前記音声認識処理は、
前記対象ワードが認識されるべきでない所定状態において前記音声認識部が前記入力音声を前記対象ワードと認識したか否かを判定するステップと、
前記所定状態において前記音声認識部が前記入力音声を前記対象ワードと認識したと判定された場合に、前記入力音声に基づいて前記棄却情報を定め、前記棄却情報を前記記憶部に記憶するステップと、を含み、
前記対象ワードの入力待ちでない状態または前記対象ワードが認識されるべきでない状態を、前記所定状態とする、
制御プログラム。
音声の特定に用いられる棄却情報を記憶する記憶部と、前記棄却情報により特定される音声と入力音声との類似度があらかじめ定められた閾値より低いことを条件の１つとして、前記入力音声を対象ワードと認識する音声認識部と、を備える音声認識装置のプロセッサに音声認識処理を実行させるための制御プログラムであって、
前記音声認識処理は、
前記対象ワードが認識されるべきでない所定状態において前記音声認識部が前記入力音声を前記対象ワードと認識したか否かを判定するステップと、
前記所定状態において前記音声認識部が前記入力音声を前記対象ワードと認識したと判定された場合に、前記入力音声に基づいて前記棄却情報を定め、前記棄却情報を前記記憶部に記憶するステップと、を含み、
前記音声認識装置は、ディスプレイを有するテレビジョン受信機に備えられ、
前記対象ワードが前記ディスプレイへ電力を供給する指示を表すワードである場合、前記ディスプレイへ電力が供給されている状態を前記所定状態とする、
制御プログラム。