JP7248564B2

JP7248564B2 - 情報処理装置及びプログラム

Info

Publication number: JP7248564B2
Application number: JP2019220035A
Authority: JP
Inventors: 俊一千葉
Original assignee: TVS Regza Corp
Current assignee: TVS Regza Corp
Priority date: 2019-12-05
Filing date: 2019-12-05
Publication date: 2023-03-29
Anticipated expiration: 2039-12-05
Also published as: CN113228170A; WO2021109751A1; JP2021089376A; CN113228170B

Description

本発明の実施形態は、情報処理装置及びプログラムに関する。

音声認識機能を備えるテレビジョン装置等の機器では、例えばユーザが音声によって機器の操作をすることができる。このような機器は、ユーザが発したトリガワードを検出すると音声認識サービスを起動する。

特開２０１２－００８５５４号公報

しかしながら、ユーザの発話の仕方および周囲の環境等によっては、トリガワードの検出精度が低くなってしまう。検出精度の低下には種々の要因が考えられるため、トリガワードが検出されない原因が何であるのかユーザが判断できない場合がある。

本発明が解決しようとする課題は、トリガワードを検出させるために試行するユーザの判断を支援することができる情報処理装置及びプログラムを提供することにある。

実施形態の情報処理装置は、音声入力部に入力されたユーザの音声を音声信号として取得する取得部と、音声認識サービスを開始させるためのトリガワードを前記音声信号から検出するための基準となる音声データに対する前記音声信号のスコアを算出するスコア算出部と、前記スコアを表示部に表示させる表示制御部と、を備え、前記スコア算出部は、前記音声データと前記音声信号との一致度であり、前記音声信号を分解して得られる複数の要素の前記音声信号における出現確率を正規化して前記スコアを算出し、前記出現確率についての正規化は、前記複数の要素の前記出現率の一致度Ｘｎについて、それぞれ、前記一致度Ｘｎが取り得る最大値Ａｎ及び前記一致度Ｘｎが満たすべき閾値Ｔｎが設定されている場合において、前記一致度Ｘｎが前記閾値Ｔｎ未満である場合には式（１）を適用し、前記一致度Ｘｎが前記閾値Ｔｎ超である場合には式（２）を適用して行われる。

図１は、実施形態にかかる音声認識システムの構成の一例を示す図である。図２は、実施形態にかかるテレビジョン装置のハードウェア構成の一例を示す図である。図３は、実施形態にかかるテレビジョン装置の機能構成の一例を示す図である。図４は、実施形態にかかるテレビジョン装置が表示するスコア表示画面の一例を示す図である。図５は、実施形態にかかるテレビジョン装置によるスコア算出方法の幾つかの例を示す図である。図６は、実施形態にかかるテレビジョン装置におけるトリガワード検出処理の手順の一例を示すフロー図である。図７は、実施形態の変形例１にかかるテレビジョン装置が表示するスコア表示画面の一例を示す図である。図８は、実施形態の変形例２のテレビジョン装置の機能構成の一例を示す図である。図９は、実施形態の変形例２にかかるテレビジョン装置が表示するスコア表示画面の一例を示す図である。図１０は、実施形態の変形例２にかかるテレビジョン装置が表示するスコア表示画面の他の例を示す図である。図１１は、実施形態の変形例３にかかるテレビジョン装置が表示するスコア表示画面の一例を示す図である。

（音声認識システムの構成）
図１は、実施形態にかかる音声認識システム１の構成の一例を示す図である。図１に示すように、音声認識システム１は、テレビジョン装置１０及び音声認識サーバ２０を備え、例えばテレビジョン装置１０のユーザに音声認識サービスを提供する。音声認識サービスによって、ユーザは、例えば音声によりテレビジョン装置１０の操作をすることができる。

テレビジョン装置１０と音声認識サーバ２０とは、例えばインターネット等のネットワーク４０を介して、無線または有線にて相互に接続されている。ネットワーク４０は、例えばＤＬＮＡ（ＤｉｇｉｔａｌＬｉｖｉｎｇＮｅｔｗｏｒｋＡｌｌｉａｎｃｅ）（登録商標）に基づくホームネットワークや家庭内ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）等であってもよい。

情報処理装置としてのテレビジョン装置１０は、例えば放送局からの放送信号を受信して各種の番組を受信することができる。また、テレビジョン装置１０は、音声認識機能を有し、ユーザが発したトリガワードを検出すると音声認識サービスを開始する。トリガワードは、音声認識サービス開始のトリガとなる所定の音声コマンドである。テレビジョン装置１０の音声認識機能は、専ら、このトリガワードを検出するために用いられる。音声認識サービス開始後は、テレビジョン装置１０は、例えば音声認識サーバ２０の音声認識機能を利用して、音声認識サービスをユーザに提供する。このように、テレビジョン装置１０は、音声認識サーバ２０との通信を行う通信装置としても機能する。

音声認識サーバ２０は、例えばクラウド上に置かれたクラウドサーバ等として構成されている。ただし、音声認識サーバ２０は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、及びＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）等の物理的な構成を備える１つ以上のコンピュータとして構成されていてもよい。クラウドサーバ若しくはコンピュータを構成するＣＰＵが、例えばＲＯＭ等に記憶されているプログラムを実行することにより、音声認識サーバ２０の音声認識機能等の機能が実現される。

音声認識サーバ２０は、音声認識機能等を実現するための機能部として、音声認識部２１、処理部２２、通信部２３、及び記憶部２４を備える。

音声認識部２１は、テレビジョン装置１０から通信部２３を介して送信されてきたユーザの発話による音声信号等を解析して認識する。その際、音声認識部２１は、記憶部２４の音声辞書２４ａを参照する。

処理部２２は、音声信号の認識結果に基づいて各種処理を行う。例えば、音声信号が、テレビジョン装置１０の操作を指示するものであった場合には、処理部２２は、通信部２３を介して指示内容をテレビジョン装置１０に送信する。また例えば、音声信号が、インターネットからの情報取得を指示するものであった場合には、処理部２２は、インターネット上において情報を検索し、通信部２３を介して検索結果をテレビジョン装置１０に送信する。また例えば、音声信号が、対話を求めるものであった場合には、処理部２２は、通信部２３を介して返答の内容をテレビジョン装置１０に送信してもよい。

通信部２３は、テレビジョン装置１０との通信を行う。例えば、通信部２３は、テレビジョン装置１０から、ユーザの音声信号を受信する。また例えば、通信部２３は、処理部２２による処理結果をテレビジョン装置１０に送信する。

記憶部２４は、音声認識サーバ２０の上記のような機能の実現に必要な各種パラメータ及び情報等を記憶する。一例として、記憶部２４は、ユーザからの音声信号の解析に用いるデータが格納された音声辞書２４ａを備える。後述のように、テレビジョン装置１０もまた、音声認識に用いる音声辞書を有する。しかし、音声認識サーバ２０の記憶部２４は大容量記憶装置として構成されており、記憶部２４が有する音声辞書２４ａには、より詳細かつ多岐に亘るデータが格納されている。

このように、音声認識サービスに関わる機能の主要な部分を、処理能力の高い音声認識サーバ２０に担わせることで、ユーザからの音声信号の認識精度および認識速度を高め、また、より充実した内容の音声認識サービスを提供することができる。

（テレビジョン装置のハードウェア構成）
図２は、実施形態にかかるテレビジョン装置１０のハードウェア構成の一例を示す図である。

図２に示すように、テレビジョン装置１０は、アンテナ１０１、入力端子１０２ａ～１０２ｃ、チューナ１０３、デモジュレータ１０４、デマルチプレクサ１０５、Ａ／Ｄ（アナログ／デジタル）変換器１０６、セレクタ１０７、信号処理部１０８、スピーカ１０９、表示パネル１１０、操作部１１１、受光部１１２、ＩＰ通信部１１３、ＣＰＵ１１４、メモリ１１５、ストレージ１１６、マイクロフォン１１７、及びオーディオＩ／Ｆ（インターフェース）１１８を備える。

アンテナ１０１は、デジタル放送の放送信号を受信し、受信した放送信号を、入力端子１０２ａを介してチューナ１０３に供給する。

チューナ１０３は、アンテナ１０１から供給された放送信号から所望のチャンネルの放送信号を選局し、選局した放送信号をデモジュレータ１０４に供給する。

デモジュレータ１０４は、チューナ１０３から供給された放送信号を復調し、復調した放送信号をデマルチプレクサ１０５に供給する。

デマルチプレクサ１０５は、デモジュレータ１０４から供給された放送信号を分離して映像信号および音声信号を生成し、生成した映像信号および音声信号をセレクタ１０７に供給する。

セレクタ１０７は、デマルチプレクサ１０５、Ａ／Ｄ変換器１０６、及び入力端子１０２ｃから供給される複数の信号から１つを選択し、選択した１つの信号を信号処理部１０８に供給する。

信号処理部１０８は、セレクタ１０７から供給された映像信号に所定の信号処理を施し、処理後の映像信号を表示パネル１１０に供給する。また、信号処理部１０８は、セレクタ１０７から供給された音声信号に所定の信号処理を施し、処理後の音声信号をスピーカ１０９に供給する。

スピーカ１０９は、信号処理部１０８から供給された音声信号に基づいて音声、または各種の音を出力する。また、スピーカ１０９は、ＣＰＵ１１４による制御に基づいて、出力する音声または各種の音の音量を変更する。

表示部としての表示パネル１１０は、信号処理部１０８から供給された映像信号またはＣＰＵ１１４による制御に基づいて、静止画および動画などの映像、その他の画像、並びに文字情報等を表示する。

入力端子１０２ｂは、外部から入力される映像信号および音声信号等のアナログ信号を受け付ける。また、入力端子１０２ｃは、外部から入力される映像信号および音声信号等のデジタル信号を受け付ける。例えば、入力端子１０２ｃは、ＢＤ（Ｂｌｕ－ｒａｙＤｉｓｃ）（登録商標）などの録画再生用の記録媒体を駆動して録画および再生するドライブ装置を搭載したレコーダ等から、デジタル信号の入力が可能である。

Ａ／Ｄ変換器１０６は、入力端子１０２ｂから供給されたアナログ信号にＡ／Ｄ変換を施すことにより生成したデジタル信号をセレクタ１０７に供給する。

操作部１１１は、ユーザの操作入力を受け付ける。

受光部１１２は、リモートコントローラ１１９からの赤外線を受光する。

ＩＰ通信部１１３は、ネットワーク４０を介したＩＰ（インターネットプロトコル）通信を行うための通信インターフェースである。

制御部としてのＣＰＵ１１４は、テレビジョン装置１０全体を制御する。

メモリ１１５は、ＣＰＵ１１４が実行する各種コンピュータプログラムを格納するＲＯＭ、及びＣＰＵ１１４に作業エリアを提供するＲＡＭ等である。例えば、ＲＯＭには、テレビジョン装置１０がトリガワードを検出するための音声認識プログラム、及び音声認識サービスを提供するためのアプリケーションプログラム等が格納されている。

ストレージ１１６は、ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）またはＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）等である。ストレージ１１６は、例えば、セレクタ１０７により選択された信号を録画データとして記録する。

音声入力部としてのマイクロフォン１１７は、ユーザが発話した音声を取得して、オーディオＩ／Ｆ１１８に送出する。

オーディオＩ／Ｆ１１８は、マイクロフォン１１７が取得した音声をアナログ／デジタル変換して、音声信号としてＣＰＵ１１４に送出する。なお、このように、オーディオＩ／Ｆ１１８によって変換されたデジタルな「音声信号」を、以下、単に「音声」とも称する場合がある。

（テレビジョン装置の機能構成）
次に、図３を用いて、実施形態のテレビジョン装置１０の機能構成例について説明する。図３は、実施形態にかかるテレビジョン装置１０の機能構成の一例を示す図である。

テレビジョン装置１０では、上述のＣＰＵ１１４が、例えばＲＯＭ等に記憶されているプログラムを実行することにより、テレビジョン装置１０の音声認識機能等が実現される。テレビジョン装置１０で実行されるプログラムは、以下に述べる各機能部を含むモジュール構成となっている。

図３に示すように、テレビジョン装置１０は、テレビジョン装置１０の機能を実現するための機能部として、入力受付部１１、テスト機能設定部１２、トリガワード検出部１３、スコア算出部１４、表示制御部１５、アプリケーション実行部１６、機器制御部１７、通信部１８、及び記憶部１９を備える。

取得部としての入力受付部１１は、ユーザからの各種入力を受け付ける。例えば、入力受付部１１は、マイクロフォン１１７に入力されたユーザの音声を、オーディオＩ／Ｆ１１８を介して取得する。また例えば、入力受付部１１は、操作部１１１またはリモートコントローラ１１９からの操作入力による各種指示を取得する。

テスト機能設定部１２は、操作部１１１またはリモートコントローラ１１９からの操作入力によりテスト機能の開始が指示されると、テスト機能が有効となるよう設定する。テスト機能が有効となった状態では、後述するように、ユーザからの音声信号に対するスコアが算出され、そのスコアがテレビジョン装置１０の表示パネル１１０に表示される。

トリガワード検出部１３は、得られたユーザの音声信号に対してノイズキャンセル処理等の音響処理を施す。そして、トリガワード検出部１３は、記憶部１９の音声辞書１９ａを参照し、音響処理を施された音声信号からトリガワードを検出する。このとき、トリガワード検出部１３は、音声辞書１９ａに格納された、トリガワード検出の基準となる音声データと、ユーザの音声信号との一致度を算出する。そして、トリガワード検出部１３は、音声データと音声信号との一致度が所定値以上であった場合、音声信号がトリガワードを含んでいると認識し、トリガワードが検出されたものと判断する。トリガワード検出部１３は、音声データと音声信号との一致度が所定値未満であった場合、取得された音声信号はトリガワードではないと認識し、トリガワードは検出されなかったものと判断する。

スコア算出部１４は、テスト機能が有効となっている場合、トリガワード検出の基準となる音声データに対するユーザの音声信号のスコアを算出する。より具体的には、スコア算出部１４は、算出された音声データと音声信号との一致度を正規化してスコアを算出する。したがって、スコアが高ければ音声データと音声信号との一致度が高く、また、スコアが所定値以上となることで、トリガワード検出部１３によって、その音声信号がトリガワードを示していると認識されることを意味する。

表示制御部１５は、表示パネル１１０への各種の表示を制御する。例えば、入力受付部１１がリモートコントローラ１１９等に入力されたユーザの操作を取得した場合に、その操作に応じた操作画面を表示パネル１１０に表示する。また例えば、表示制御部１５は、テスト機能が有効となっている場合、算出されたスコアを表示パネル１１０に表示させる。また例えば、表示制御部１５は、トリガワードの検出により音声認識サービスが開始されると、音声に対して応答するメッセージまたはアイコン等を、表示パネル１１０に表示させる。音声に対して応答するメッセージまたはアイコン等は、例えば、ユーザの発話を促す内容でもよいし、ユーザの音声の認識結果を文字データとして表示するものでもよい。

アプリケーション実行部１６は、音声信号からトリガワードが検出されると音声認識サービスを開始させる。より具体的には、アプリケーション実行部１６は、音声信号からトリガワードが検出されると、音声認識サービス提供アプリケーションを起動する。音声認識サービス提供アプリケーションは、音声認識サーバ２０とユーザとの情報交換のためのユーザインターフェースである。つまり、音声認識サービス提供アプリケーションは、通信部１８を介して、テレビジョン装置１０と音声認識サーバ２０との通信を可能にする。そして、音声認識サービス提供アプリケーションは、ユーザの音声信号を音声認識サーバ２０へと送信し、その音声信号が示す内容についての応答を音声認識サーバ２０から受信する。

機器制御部１７は、テレビジョン装置１０の各部を制御する。例えば、機器制御部１７は、トリガワードの検出後、スピーカ１０９を制御して音量を下げる。これは、ユーザがトリガワードの後に発話する音声の入力が、コンテンツの音に干渉されることを低減するためである。また例えば、機器制御部１７は、音声認識サービスの提供中、ユーザの音声に含まれる命令に基づいて、テレビジョン装置１０の各部を制御する。

通信部１８は、ネットワーク４０を介した外部機器等との通信を制御する。例えば、通信部１８は、音声認識サービス提供アプリケーションにしたがって、音声認識サーバ２０とテレビジョン装置１０との通信を制御する。

記憶部１９は、テレビジョン装置１０の上記のような機能の実現に必要な各種パラメータ及び情報等を記憶する。一例として、記憶部１９は、ユーザからの音声信号からトリガワードを検出するための基準となる音声データが格納された音声辞書１９ａを備える。音声データは、例えばトリガワードに含まれる音素および特徴等の各種要素についての情報を有し、トリガワード検出部１３が、この音声データとユーザからの音声信号とを比較することで、音声信号がトリガワードを含んでいるか否かを認識するための指標となる。ただし、音声辞書１９ａに格納される音声データは複数あってもよい。例えば、複数の音声データには、男性用、女性用、及び子供用等の、性別および年齢に依存した各種音声データが含まれていてよい。

（テレビジョン装置の詳細機能）
次に、図４及び図５を用いて、実施形態のテレビジョン装置１０の機能の詳細について説明する。図４は、実施形態にかかるテレビジョン装置１０が表示するスコア表示画面１１０ａの一例を示す図である。スコア表示画面１１０ａは、ユーザがテスト機能を有効にすると表示パネル１１０に表示される。

ユーザは、例えばリモートコントローラ１１９等を操作して、テスト機能を開始する指示を入力することができる。テスト機能を開始する指示を入力受付部１１が受け付けると、テスト機能設定部１２がテスト機能を有効にする設定を行う。テスト機能が有効にされると、表示制御部１５はスコア表示画面１１０ａを表示パネル１１０に表示させる。

図４に示すように、スコア表示画面１１０ａには、まず、ユーザによるトリガワードの発話を促すメッセージが表示される。例えば、トリガワードが「ねえ、テレビ」である場合には、“「ねえ、テレビ」と発話してください。”等のメッセージが表示される。

また、スコア表示画面１１０ａには、ユーザによる音声がトリガワードとして検出されるためのスコアの閾値を示すメッセージが表示されてもよい。閾値が例えば５０である場合には、“スコア５０以上で、音声認識サービスがスタートします。”等のメッセージが表示される。

さらに、スコア表示画面１１０ａには、そのときのテレビジョン装置１０の音量設定等が表示されてもよい。テレビジョン装置１０の発する音量は、トリガワード検出の障害となり得るため、音量設定を表示することで、ユーザの注意を喚起することができる。

スコア表示画面１１０ａのメッセージにしたがって、ユーザが「ねえ、テレビ」などと発話すると、その音声がマイクロフォン１１７によって取得され、オーディオＩ／Ｆ１１８によって音声信号に変換されて、入力受付部１１がそれを受け付ける。そして、トリガワード検出部１３が、記憶部１９の音声辞書１９ａに格納された音声データと、入力受付部１１の受け付け後に音響処理が施された音声信号との一致度を算出すると、スコア算出部１４は、その一致度を例えば０～１００の数値に正規化することでスコアを算出する。表示制御部１５は、算出されたスコアを、例えば０～１００のバー形式でスコア表示画面１１０ａに表示する。

音声データと音声信号との一致度が充分でなくスコアが閾値未満であった場合、より高いスコアを得るためには、例えば滑舌を良くすることが有効であるかもしれないし、ゆっくり発話することが有効であるかもしれないし、声を大きくすることが有効であるかもしれない。ユーザは、スコア表示画面１１０ａに表示されたスコアを参照しながら、より高いスコアを得るために様々な発話方法を試すことができる。リモートコントローラ１１９等を操作して、テレビジョン装置１０の音量を下げてみてもよい。このとき、表示制御部１５は、ユーザの音声の現在のスコアのほか、例えば過去に取得されたスコアの最大値をスコア表示画面１１０ａに表示してもよい。

ところで、トリガワード検出部１３は、音声データと音声信号との一致度を算出する際、音声データと音声信号とを、トリガワードが有する複数の要素に分解したうえで、それらの要素ごとに一致度を求める。スコア算出部１４は、これらの複数の一致度からスコア表示画面１１０ａに表示するためのスコアを算出する。スコアの算出には種々の方法が考えられる。

図５は、実施形態にかかるテレビジョン装置１０によるスコア算出方法の幾つかの例を示す図である。図５の例では、説明を単純化するため、音声データと音声信号とが複数の音素１～音素５に分解されて、一致度およびスコアが算出される場合を示す。ただし、音声データと音声信号とは、音素１～音素５だけでなく、特徴および抑揚等の他の要素に関する情報を含んでいてもよく、これらの要素についても一致度およびスコアが算出されてもよい。

図５（ａ）（ｂ）の左図に示すように、トリガワード検出部１３は、例えば複数の音素１～音素５の音声信号における出現確率Ｘを求める。これらの出現確率Ｘは、音声信号を音声データと比較することにより得られた数値であり、上述の音声信号と音声データとの一致度に相当する。図５（ａ）（ｂ）の左図の例では、出現確率Ｘは例えば０～１．００までの数値で表されている。

図５（ａ）（ｂ）の右図に示すように、スコア算出部１４は、これらの出現確率Ｘについて正規化したスコアである計算結果Ｙを算出する。このとき、スコア算出部１４は、例えば以下の式（１）（２）を用いて出現確率Ｘを正規化する。

以下の式（１）は、例えば出現確率Ｘ等の一致度Ｘｎが閾値Ｔｎ未満である場合に適用される。

以下の式（２）は、例えば出現確率Ｘ等の一致度Ｘｎが閾値Ｔｎ超である場合に適用される。

上記の式（１）（２）によれば、一致度Ｘｎを正規化した計算結果Ｙｎとして０～１００までの範囲内の数値が求まる。なお、一致度Ｘｎが閾値Ｔｎと同値である場合には、式（１）（２）のいずれを用いても計算結果Ｙｎは同じになる。

ここで、音声信号と音声データとはＬ個の要素を含み、Ｌ個の一致度Ｘｎについて、それぞれ、一致度Ｘｎが取り得る最大値Ａｎ及び一致度Ｘｎが満たすべき閾値Ｔｎが設定されているものとする。つまり、或る要素の一致度Ｘｎが閾値Ｔｎ以上であれば、その要素については、音声信号が音声データと一致していると判定される。そして、上記の式（１）または式（２）に、適宜、１～Ｌまでの要素の一致度Ｘｎ及び閾値Ｔｎが代入されて、Ｌ個の計算結果Ｙｎが求められる。

図５（ａ）（ｂ）の右図の例は、全ての出現確率Ｘについての閾値Ｔが０．９０であるものとし、全ての出現確率Ｘが取り得る最大値Ａが１．００であるものとして得られた計算結果Ｙである。スコア算出部１４は、これらの計算結果Ｙに基づき、スコア表示画面１１０ａに表示させるスコアを得る。上述のように、それには幾つかの方法がある。

図５（ａ）の例では、スコア算出部１４は、音素１～音素５について得られた計算結果Ｙのうちの最小値である音素５の計算結果３０を、スコア表示画面１１０ａに表示させるスコアとして採用する。

図５（ｂ）の例では、スコア算出部１４は、音素１～音素５について得られた計算結果Ｙのうち５０超となった、音素１の計算結果７５と音素３の計算結果６０とについて、図５（ｂ）右下に示すように、５０を超える部分を端数として切り捨てて計算結果５０とする。そのうえで、音素１～音素５についての計算結果Ｙの平均値４４を、スコア表示画面１１０ａに表示させるスコアとして採用する。

なお、スコア算出部１４によるスコアの求め方は、図５（ａ）（ｂ）の例に限られない。ユーザが、トリガワードの検出に必要なスコアと自身のスコアとの差を直感的に把握でき、より高いスコアを得るための指標とすることが可能なスコアであれば、どのような方法を用いて算出されてもよい。

（テレビジョン装置のトリガワード検出処理）
次に、図６を用いて、実施形態のテレビジョン装置１０におけるトリガワード検出処理の例について説明する。図６は、実施形態にかかるテレビジョン装置１０におけるトリガワード検出処理の手順の一例を示すフロー図である。

図６に示すように、入力受付部１１は、ユーザによるテスト機能の使用指示を受け付ける（ステップＳ１０１）。すなわち、ユーザが操作部１１１またはリモートコントローラ１１９を操作してテスト機能の開始を指示すると、入力部１１がその指示を受け付けて（ステップＳ１０１：Ｙｅｓ）、テスト機能設定部１２がテスト機能の設定を有効とし、表示制御部１５が表示パネル１１０にスコア表示画面１１０ａを表示する（ステップＳ１０２）。ユーザによるテスト機能の開始指示がなかった場合には（ステップＳ１０１：Ｎｏ）、ステップＳ１０２の処理を行うことなくステップＳ１０３の処理へと進む。

入力受付部１１は、ユーザの発話による音声信号を受け付ける（ステップＳ１０３）。ユーザにより何らかの発話がなされるまで、入力受付部１１は待機する（ステップＳ１０３：Ｎｏ）。ユーザがテレビジョン装置１０のマイクロフォン１１７に向かって発話すると、マイクロフォン１１７から取得された音声がオーディオＩ／Ｆ１１８により音声信号に変換される。入力受付部１１がその音声信号を取得すると（ステップＳ１０３：Ｙｅｓ）、トリガワード検出部１３は、音声辞書１９ａを参照して、音声辞書１９ａに格納される音声データと、ユーザの発話による音声信号との一致度を算出する（ステップＳ１０４）。

スコア算出部１４は、テスト機能の設定が有効になっているか否かを確認する（ステップＳ１０５）。テスト機能の設定が有効であれば（ステップＳ１０５：Ｙｅｓ）、スコア算出部１４は算出された一致度に基づきスコアを算出する（ステップＳ１０６）。また、表示制御部１５は、算出されたスコアを表示パネル１１０のスコア表示画面１１０ａに表示する（ステップＳ１０７）。テスト機能の設定が有効になっていなければ（ステップＳ１０５：Ｎｏ）、ステップＳ１０６～Ｓ１０７の処理が行われることなくステップＳ１０８の処理へと進む。

トリガワード検出部１３は、音声データと音声信号とについての全ての要素の一致度が閾値以上であるか否かを判定する（ステップＳ１０８）。音声データと音声信号とについて一致度が閾値未満の要素があるときは（ステップＳ１０８：Ｎｏ）、トリガワード検出部１３は、音声信号はトリガワードではないものとしてトリガワードの検出処理を行わず、ステップＳ１０３からの処理が繰り返される。

音声データと音声信号とについての全ての一致度が閾値以上である場合には（ステップＳ１０８：Ｙｅｓ）、トリガワード検出部１３は、音声信号がトリガワードを含むものであるとしてトリガワードの検出を行う（ステップＳ１０９）。アプリケーション実行部１７は、音声認識サービス提供アプリケーションを起動して音声認識サービスを開始する（ステップＳ１１０）。

以上により、実施形態のテレビジョン装置１０におけるトリガワード検出処理が終了する。

近年、音声認識機能を備えるテレビジョン装置等が知られている。トリガワードを検出すると、テレビジョン装置は音声認識サービスの提供を開始する。ユーザの発話の仕方および周囲の環境等によって、このトリガワードの検出精度が低下する場合がある。

このような場合、ユーザは、テレビジョン装置にトリガワードを検出させようと、声を大きくしたり、ゆっくり発話したりと種々の試行錯誤を繰り返すこととなる。しかしながら、ユーザは、このような試行錯誤のうち何が有効であるかを、音声認識サービスの提供開始によってしか判断することができない。

実施形態のテレビジョン装置１０によれば、音声データに対する音声信号のスコアを算出し、そのスコアを表示パネル１１０に表示させる。これにより、ユーザは、スコアの変動の様子を参照しつつ試行を重ねることで、自身の音声がトリガワードとして検出されやすくなる方向性を容易に見極めることができる。このように、実施形態のテレビジョン装置１０は、トリガワードを検出させるために試行するユーザの判断を支援することができる。

実施形態のテレビジョン装置１０によれば、音声データと音声信号との一致度を正規化してスコアを算出する。トリガワードを検出するため、例えばトリガワード検出部１３は、音声データと音声信号との一致度を算出する。しかしながら、このような一致度は多岐の内容に亘る様々な要素について算出される。このため、例えば算出された一致度をそのままユーザに提示しても、ユーザが容易にその内容を理解し、自身の試みがトリガワードの検出に近付いているのか否か把握することが困難である。テレビジョン装置１０は、このような一致度を正規化してユーザに提示するので、ユーザが直感的にその内容を理解し、より高いスコアを得るための指標とすることができる。

（変形例１）
次に、図７を用いて、実施形態の変形例１のテレビジョン装置について説明する。変形例１のテレビジョン装置は、算出したスコアを音素ごとに表示する点が、上述の実施形態とは異なる。

図７は、実施形態の変形例１にかかるテレビジョン装置が表示するスコア表示画面１１０ｂの一例を示す図である。図７に示すように、変形例１のテレビジョン装置が備える表示制御部は、スコア算出部が音声データに含まれる音素ごとに算出した音声信号のスコアをスコア表示画面１１０ｂに表示する。

これにより、ユーザは、自身の発話のウィークポイントを見極めることができる。例えば、図７に示す例では、ユーザの音声中、「え」及び「び」の音素のスコアが低いことが判る。このユーザは、例えば１語１語の語尾に留意することで、スコアを高めて自身の音声をトリガワードとして検出させることができるかもしれない。

（変形例２）
次に、図８～図１０を用いて、実施形態の変形例２のテレビジョン装置３０について説明する。変形例２のテレビジョン装置３０は、算出したスコアとともに、ユーザに対するアドバイスを表示する点が、上述の実施形態とは異なる。

図８は、実施形態の変形例２のテレビジョン装置３０の機能構成の一例を示す図である。図８に示すように、変形例２のテレビジョン装置３０は、上述の実施形態のテレビジョン装置１０の構成に替えて表示制御部３５を備え、更に音量判定部３１を備える。

例えばテスト機能の設定が有効である場合、音量判定部３１はテレビジョン装置３０のスピーカの音量設定が所定値を超えているか否かを判定する。表示制御部３５は、音量設定が所定値を超えていた場合には、算出したスコアとともに、音量設定を下げることをユーザに促すメッセージを表示する。

図９は、実施形態の変形例２にかかるテレビジョン装置３０が表示するスコア表示画面１１０ｃの一例を示す図である。図９に示すように、スコア表示画面１１０ｃには、“テレビの音が大きすぎるようです。音量設定を１０以下にしてみましょう。”などとのメッセージが表示される。

トリガワードが検出され難くなることの最も明確で大きな要因の１つは、テレビジョン装置のスピーカが発する音である。音量設定を下げることを促すメッセージを表示させることで、ユーザが、テレビジョン装置３０の音量が検出精度を低下させている可能性に気づくことができ、トリガワードが検出されやすくなる。

また、変形例２のテレビジョン装置３０が備える表示制御部３５は、スコアを高めてトリガワードを検出させやすくするためのアドバイスを、ランダムに、あるいは、所定の順番で表示させてもよい。

図１０は、実施形態の変形例２にかかるテレビジョン装置３０が表示するスコア表示画面１１０ｄの他の例を示す図である。図１０に示すように、スコア表示画面１１０ｄには、“はっきりと発話してみましょう。”“ゆっくり発話してみましょう。”“大きな声で発話してみましょう。”などの、トリガワードが検出されない一般的な要因を解消するようなメッセージが、例えば次々に流動表示される。

これにより、例えばユーザが思いつかなかった試みを提示して、ユーザの音声がトリガワードとして検出されるための一助とすることができる。

（変形例３）
次に、図１１を用いて、実施形態の変形例３のテレビジョン装置について説明する。変形例３のテレビジョン装置は、複数のトリガワードについてスコアを表示する点が、上述の実施形態とは異なる。

図１１は、実施形態の変形例３にかかるテレビジョン装置が表示するスコア表示画面１１０ｅの一例を示す図である。図１１に示すように、変形例３のテレビジョン装置には、「ねえ、テレビ」「もしもし、テレビ」「ハロー、テレビ」などの複数のトリガワードが設定されている。そして、変形例３のテレビジョン装置のスコア算出部は、これらのトリガワードについて、それぞれスコアを算出する。表示制御部は、複数のトリガワードについてのスコアをスコア表示画面１１０ｅに表示する。

ユーザは、“「ねえ、テレビ」と発話してください。”等の所定のトリガワードの発話を促すスコア表示画面１１０ｅ上のメッセージにしたがって、例えばそれぞれのトリガワードを発話し、それらに対するスコアを参照することができる。図１１に示す例では、複数のトリガワード中、ユーザは、「もしもし、テレビ」というトリガワードにおいて最も高いスコアを獲得している。そこで、このユーザが複数のトリガワードの中から「もしもし、テレビ」というトリガワードの使用を選択することで、自身の音声をトリガワードとして検出させることが容易になるかもしれない。

なお、上述の実施形態および変形例１～３では、テレビジョン装置１０等の外部機器である音声認識サーバ２０が、主要な音声認識サービスを提供することとしたが、実施形態の構成はこれに限られない。テレビジョン装置１０等が、自身で音声認識サービスの全般に関わる機能を有しており、独立して、音声認識サービスを提供してもよい。

また、上述の実施形態および変形例１～３では、音声認識機能を備える情報処理装置がテレビジョン装置１０等であることとしたが、実施形態の構成はこれに限られない。例えば、音声認識機能を備える情報処理装置または通信装置が、スマートスピーカ等のような他の機器であってもよい。情報処理装置がスマートスピーカである場合、音声データに対する音声信号のスコアを表示させる表示部は、スマートスピーカに取り付けた別体のモニタ等であってもよい。

なお、テレビジョン装置１０等に上述の各種機能を実現させるプログラムは、インストール可能な形式または実行可能な形式のコンピュータプログラムプロダクトとして提供される。すなわち、上記プログラムは、ＣＤ－ＲＯＭ、フレキシブルディスク（ＦＤ）、ＣＤ－Ｒ、ＤＶＤなどの、非一時的で、コンピュータで読み取り可能な記録媒体を有するコンピュータプログラムプロダクトに含まれた状態で提供される。

また、上記プログラムは、インターネットなどのネットワークに接続されたコンピュータに格納された状態で、ネットワーク経由で提供または配布されてもよい。上記プログラムは、ＲＯＭなどに予め組み込まれた状態で提供されてもよい。

このようなプログラムをテレビジョン装置１０等にインストールすることにより、テレビジョン装置１０等のＣＰＵがＲＯＭからプログラムを読み出して、ＲＡＭ上に上記の各機能構成が展開される。

ただし、上記プログラムはクラウドサーバ等に格納されたウェブアプリケーションとして提供されてもよく、この場合、プログラムはテレビジョン装置１０等にインストールされることなく実行される。

本発明の実施形態について説明したが、この実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。この新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

１…音声認識システム、１０，３０…テレビジョン装置、１１…入力受付部、１２…テスト機能設定部、１３…トリガワード検出部、１４…スコア算出部、１５，３５…表示制御部、１６…アプリケーション実行部、１７…機器制御部、１８…通信部、１９…記憶部、１９ａ…音声辞書、２０…音声認識サーバ、３１…音量判定部、４０…ネットワーク。

Claims

音声入力部に入力されたユーザの音声を音声信号として取得する取得部と、
音声認識サービスを開始させるためのトリガワードを前記音声信号から検出するための基準となる音声データに対する前記音声信号のスコアを算出するスコア算出部と、
前記スコアを表示部に表示させる表示制御部と、を備え、
前記スコア算出部は、
前記音声データと前記音声信号との一致度であり、前記音声信号を分解して得られる複数の要素の前記音声信号における出現確率を正規化して前記スコアを算出し、
前記出現確率についての正規化は、
前記複数の要素の前記出現確率の一致度Ｘｎについて、それぞれ、前記一致度Ｘｎが取り得る最大値Ａｎ及び前記一致度Ｘｎが満たすべき閾値Ｔｎが設定されている場合において、前記一致度Ｘｎが前記閾値Ｔｎ未満である場合には式（１）を適用し、前記一致度Ｘｎが前記閾値Ｔｎ超である場合には式（２）を適用して行われる、

情報処理装置。
前記音声信号から前記トリガワードを検出するトリガワード検出部を備え、
前記トリガワード検出部は、
前記音声データと前記音声信号とを前記複数の要素に分解し、前記複数の要素について算出された前記一致度に基づいて前記音声信号から前記トリガワードを検出する、
請求項１に記載の情報処理装置。
前記スコア算出部は、
前記複数の要素ごとの前記一致度のそれぞれに対して前記スコアを算出する、
請求項１または請求項２に記載の情報処理装置。
前記表示制御部は、
前記スコアのうち、最小のスコアを前記表示部に表示させる、
請求項３に記載の情報処理装置。
前記表示制御部は、
前記一致度のそれぞれに対して算出された前記スコアを前記表示部に表示させる、
請求項３に記載の情報処理装置。
前記表示制御部は、
前記一致度のそれぞれに対して算出された前記スコアの平均値を前記表示部に表示させる、
請求項３に記載の情報処理装置。
前記複数の要素は、
前記トリガワードに含まれる音素である、
請求項２乃至請求項６のいずれか１項に記載の情報処理装置。
前記スコア算出部は、
複数の前記トリガワードについて前記スコアを算出する、
請求項１乃至請求項７のいずれか１項に記載の情報処理装置。
前記表示制御部は、
複数の前記トリガワードについて算出された前記スコアを前記表示部に表示させる、
請求項８に記載の情報処理装置。
前記表示制御部は、
前記スコアを高めるためのアドバイスを前記表示部に表示させる、
請求項１乃至請求項９のいずれか１項に記載の情報処理装置。
前記取得部は、
前記表示部に前記スコアを表示させる指示の入力を受け付ける、
請求項１乃至請求項１０のいずれか１項に記載の情報処理装置。
前記音声信号から前記トリガワードが検出されると前記音声認識サービスを開始させるアプリケーション実行部を備える、
請求項１乃至請求項１１のいずれか１項に記載の情報処理装置。
前記音声認識サービスは、
ネットワークにより接続される音声認識サーバにより提供される、
請求項１乃至請求項１２のいずれか１項に記載の情報処理装置。
コンピュータに、
音声入力部に入力されたユーザの音声を音声信号として取得させ、
音声認識サービスを開始させるためのトリガワードを前記音声信号から検出するための基準となる音声データに対する前記音声信号のスコアを算出させ、
前記スコアを表示部に表示させ、
前記スコアを算出させるときは、
前記音声データと前記音声信号との一致度であり、前記音声信号を分解して得られる複数の要素の前記音声信号における出現確率を正規化して前記スコアを算出させ、
前記出現確率についての正規化は、
前記複数の要素の前記出現確率の一致度Ｘｎについて、それぞれ、前記一致度Ｘｎが取り得る最大値Ａｎ及び前記一致度Ｘｎが満たすべき閾値Ｔｎが設定されている場合において、前記一致度Ｘｎが前記閾値Ｔｎ未満である場合には式（１）を適用させ、前記一致度Ｘｎが前記閾値Ｔｎ超である場合には式（２）を適用させて行わせる、

プログラム。