JP2020012954A

JP2020012954A - 情報処理装置、情報処理方法、およびプログラム

Info

Publication number: JP2020012954A
Application number: JP2018134664A
Authority: JP
Inventors: 奈夕子渡辺; Nayuko Watanabe; 籠嶋　岳彦; Takehiko Kagoshima; 岳彦籠嶋; 浩司藤村; Koji Fujimura
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2018-07-18
Filing date: 2018-07-18
Publication date: 2020-01-23
Anticipated expiration: 2038-07-18
Also published as: CN110808039A; JP7000268B2; US20200027453A1; US11062705B2; CN110808039B

Abstract

【課題】音声認識向上を図る。【解決手段】情報処理装置１０は、検出部１２Ｂと、音声認識部１２Ｃと、を備える。検出部１２Ｂは、音声信号４０から音声認識開始を示すトリガを検出する。音声認識部１２Ｃは、検出された前記トリガに対応するトリガ付音声認識辞書２６Ｂを用いて、トリガを含むトリガ音区間に後続する認識音区間を音声認識する。【選択図】図１

Description

本発明の実施形態は、情報処理装置、情報処理方法、およびプログラムに関する。

ユーザが発話したコマンドを認識し機器の操作を行う音声認識装置が実用化されている。このような装置では、特定のキーワードの発声などによる音声認識開始を示すトリガを検出したときに、その後に発話された音声認識を行うことが行われている。

しかしながら、従来では、連続発話がなされた場合、トリガの検出およびトリガの後に発話された音声の音声認識を行うことが出来ない場合があった。

特開２０１５−１９４７６６号公報

本発明が解決しようとする課題は、音声認識向上を図ることができる、情報処理装置、情報処理方法、および情報処理プログラムに関する。

実施形態の情報処理装置は、検出部と、音声認識部と、を備える。検出部は、音声信号から音声認識開始を示すトリガを検出する。音声認識部は、検出された前記トリガに対応するトリガ付音声認識辞書を用いて、前記トリガを含むトリガ音区間に後続する認識音区間を音声認識する。

情報処理装置の機能ブロック図。トリガ辞書のデータ構成の一例を示す模式図。複数のトリガ辞書のデータ構成の一例を示す模式図。トリガ検出と音声認識処理の一例の説明図。単位区間の一例の説明図。単位区間の一例の説明図。単位区間の一例の説明図。音声認識処理の一例の説明図。音声認識処理の手順の一例を示すフローチャート。従来技術の音声認識の説明図。従来技術の音声認識の説明図。音声認識の説明図。音声認識の説明図。ハードウェア構成例を示すブロック図。

以下に添付図面を参照して、情報処理装置、情報処理方法、およびプログラムを詳細に説明する。

図１は、本実施形態の情報処理装置１０の機能ブロック図の一例である。情報処理装置１０は、音声信号を音声認識する。

情報処理装置１０は、制御部１２と、受信部１５と、出力部１７と、入力部２２と、音声記憶部２４と、記憶部２６と、を備える。制御部１２と、受信部１５、出力部１７、入力部２２、音声記憶部２４、および記憶部２６とは、データや信号を授受可能に接続されている。

受信部１５は、音声信号を受付ける。音声信号は、音声を示す信号である。音声信号は、音信号の時系列集合によって表される。音信号は、あるタイミングに集音された音を示す信号である。すなわち、音声信号は、各タイミングに集音された音信号の時系列集合によって表される。

本実施形態では、音声信号は、ユーザの発話した音声を示す信号である場合を一例として説明する。なお、音声信号は、機械などの物から発生した音声を含んでいてもよい。また、音声信号は、ユーザの発話した音声および物から発生した音声の双方を含んでいてもよい。

受信部１５は、マイク１４および通信部１６の少なくとも一方を含む。マイク１４は、音声を集音して電気信号に変換し、音声信号として制御部１２へ出力する。通信部１６は、ネットワーク等を介して有線または無線により外部装置と通信する。通信部１６が受信部１５として機能する場合、通信部１６は、外部装置に記憶または外部装置で集音した音声の音声信号を、該外部装置から受信する。

出力部１７は、各種情報を出力する。本実施形態では、出力部１７は、制御部１２による音声認識結果を出力する（詳細後述）。

出力部１７は、通信部１６、ディスプレイ１８、およびスピーカ２０の少なくとも１つを含む。通信部１６が出力部１７として機能する場合、通信部１６は、音声認識結果を、ネットワーク等を介して外部装置へ送信する。ディスプレイ１８は、音声認識結果を示す情報を表示する。ディスプレイ１８は、公知の液晶表示装置や、有機ＥＬ（エレクトロルミネッセンス）ディスプレイなどである。なお、ディスプレイ１８は、入力機能と表示機能を一体に備えたタッチパネルであってもよい。

入力部２２は、ユーザによる操作入力を受付ける。入力部２２は、キーボード、マウス、ポインティングデバイスなどである。

なお、マイク１４、ディスプレイ１８、スピーカ２０、および入力部２２の少なくとも一つは、情報処理装置１０とは別体として構成してもよい。例えば、マイク１４、ディスプレイ１８、スピーカ２０、および入力部２２の少なくとも１つを、ネットワークなどを介して有線または無線により情報処理装置１０と通信可能に接続してもよい。また、マイク１４やディスプレイ１８を、ネットワークを介して情報処理装置１０に接続された端末装置などに搭載してもよい。

音声記憶部２４は、各種データを記憶する。音声記憶部２４は、公知の記憶媒体である。本実施形態では、音声記憶部２４は、受信部１５で受信した音声信号を記憶するバッファとして機能する。なお、音声記憶部２４は、音声信号に含まれるトリガのトリガ音区間を超える長さの音声信号を記憶可能な容量であればよい。ここで、トリガとは何らかの動作を開始するためのきっかけとなる命令や信号のことをさすが、トリガおよびトリガ音区間の詳細は後述する。

記憶部２６は、各種データを記憶する。記憶部２６は、公知の記憶媒体である。本実施形態では、記憶部２６は、トリガ辞書２６Ａと、トリガ付音声認識辞書２６Ｂと、音声認識辞書２６Ｃと、を予め記憶する。

図２Ａは、トリガ辞書２６Ａのデータ構成の一例を示す模式図である。トリガ辞書２６Ａは、１または複数のトリガを予め登録した辞書である。トリガとは、音声認識開始を示すキーワードとなる音声である。トリガは、トリガを示すワード（トリガワード）であってもよいし、トリガを示す音量変化のパターンであってもよい。本実施形態では、トリガは、トリガワードである場合を一例として説明する。なお、トリガは、音声認識開始を示す共に、電子機器に対する指示コマンドを示すものであってもよい。

記憶部２６は、予め定めた複数のトリガをトリガ辞書２６Ａに登録する。なお、トリガ辞書２６Ａに登録されたトリガは、ユーザによる入力部２２の操作指示などによって適宜変更可能としてもよい。

図２Ａには、“型番”、“お願い”をトリガの一例として示した。なお、トリガは、これらに限定されない。

なお、トリガは、段階的に発話される場合がある。例えば、ユーザは、概要の指示を示すトリガワードを発話した後に、より詳細な指示に向かって段階的にトリガワードを発話する場合がある。このため、記憶部２６は、トリガの発話順に沿って、複数のトリガ辞書２６Ａを階層的に記憶してもよい。

図２Ｂは、複数のトリガ辞書２６Ａのデータ構成の一例を示す模式図である。例えば、記憶部２６は、電子機器への概要の指示を示すトリガをトリガ辞書２６Ａ１に登録する。そして、記憶部２６は、該トリガ辞書２６Ａ１に登録された複数のトリガの各々に対応付けて、次に発話される１段階詳細な指示を示すトリガを登録したトリガ辞書２６Ａ２（トリガ辞書２６Ａ２ａ、トリガ辞書２６Ａ２ｂ）を記憶する。さらに、記憶部２６は、トリガ辞書２６Ａ２に登録された複数のトリガの各々に対応付けて、次に発話される更に１段階詳細な指示を示すトリガを登録したトリガ辞書２６Ａ３を記憶する。

このように、記憶部２６は、複数のトリガ辞書２６Ａを階層的に記憶してもよい。

図１に戻り説明を続ける。次に、トリガ付音声認識辞書２６Ｂおよび音声認識辞書２６Ｃについて説明する。

記憶部２６は、トリガごとに、トリガに対応するトリガ付音声認識辞書２６Ｂおよび音声認識辞書２６Ｃを予め記憶する。本実施形態では、記憶部２６は、トリガ辞書２６Ａに登録されているトリガごとに、トリガに対応するトリガ付音声認識辞書２６Ｂおよび音声認識辞書２６Ｃを予め記憶する。

例えば、記憶部２６は、トリガ辞書２６Ａに登録されているトリガを識別するトリガＩＤに対応付けて、トリガ付音声認識辞書２６Ｂおよび音声認識辞書２６Ｃを予め記憶する。

トリガ付音声認識辞書２６Ｂは、トリガ音区間および認識音区間から、認識音区間の音声認識結果を導出するための辞書である。

トリガ音区間とは、音声信号における、トリガを示す音声の区間を示す。区間とは、時間的な長さ（期間）を示す。すなわち、トリガ音区間は、トリガを示す音信号の時系列集合によって表される。認識音区間とは、音声信号における、トリガのトリガ音区間の後に連続する区間である。

トリガ付音声認識辞書２６Ｂは、具体的には、音声認識を行うために使用する文法を定義したグラマデータである。トリガ付音声認識辞書２６Ｂは、トリガ音区間および認識音区間を入力データとして用いる辞書である。すなわち、トリガ付音声認識辞書２６Ｂは、トリガ音区間および認識音区間を入力データとして該トリガ付音声認識辞書２６Ｂに入力することで、該入力データに含まれるトリガ音区間および認識音区間を音声認識し、認識音区間の音声認識結果を得るための辞書である。

音声認識辞書２６Ｃは、有音区間から、該有音区間の音声認識結果を導出するための辞書である。有音区間とは、音声信号における、音声の含まれる区間である。音声が含まれるとは、予め定めた閾値以上の音量の音を含むことを意味する。該閾値は、無音と有音とを区別するための音量を示す値であればよく、予め定めればよい。すなわち、有音区間は、有音を示す何等かの音信号の時系列集合によって表される。

音声認識辞書２６Ｃは、音声認識を行うために使用する文法を定義したグラマデータである。音声認識辞書２６Ｃは、有音区間を入力データとして用いる辞書である。すなわち、音声認識辞書２６Ｃは、有音区間を入力データとして入力することで、該有音区間を該音声認識辞書２６Ｃに従い音声認識し、該有音区間の音声認識結果を得るための辞書である。

本実施形態では、トリガ付音声認識辞書２６Ｂおよび音声認識辞書２６Ｃは、トリガ辞書２６Ａに登録されているトリガごとに予め作成され、トリガのトリガＩＤに対応付けて記憶部２６に予め記憶されている。すなわち、記憶部２６には、トリガ辞書２６Ａに登録されているトリガごとに、トリガ付音声認識辞書２６Ｂおよび音声認識辞書２６Ｃが予め登録されている。

なお、音声記憶部２４および記憶部２６を、１つの記憶部として構成してもよい。また、記憶部２６に記憶されているデータの少なくとも一部を、外部サーバなどの外部装置に記憶してもよい。

次に、制御部１２について説明する。制御部１２は、情報処理装置１０を制御する。制御部１２は、音声取得部１２Ａと、検出部１２Ｂと、音声認識部１２Ｃと、出力制御部１２Ｄと、受付部１２Ｅと、を有する。

音声取得部１２Ａ、検出部１２Ｂ、音声認識部１２Ｃ、出力制御部１２Ｄ、および受付部１２Ｅは、例えば、１または複数のプロセッサにより実現される。例えば上記各部は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）などのプロセッサにプログラムを実行させること、すなわちソフトウェアにより実現してもよい。上記各部は、専用のＩＣ（ＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）などのプロセッサ、すなわちハードウェアにより実現してもよい。上記各部は、ソフトウェアおよびハードウェアを併用して実現してもよい。複数のプロセッサを用いる場合、各プロセッサは、各部のうち１つを実現してもよいし、各部のうち２以上を実現してもよい。

音声取得部１２Ａは、音声信号を取得する。本実施形態では、音声取得部１２Ａは、マイク１４または通信部１６から音声信号を取得する。音声取得部１２Ａは、取得した音声信号を、音声記憶部２４へ記憶する。

上述したように、音声記憶部２４は、トリガ音区間を超える長さの音声信号を記憶可能な容量である。また、音声信号は、音信号の時系列集合である。このため、音声記憶部２４の容量が一杯の場合、音声取得部１２Ａは、音声記憶部２４に記憶されている音声信号を構成する音信号を古い音信号から順に削除して、新しい音信号を上書きして記憶する。このため、音声記憶部２４には、最新の音声信号が記憶される。

検出部１２Ｂは、音声信号から音声認識開始を示すトリガを検出する。検出部１２Ｂは、音声記憶部２４に記憶されている音声信号を時系列に沿って読取り、トリガ辞書２６Ａに登録されている何れかのトリガと一致する音信号の時系列集合を特定することで、トリガを検出する。なお、検出部１２Ｂは、公知の方法でトリガを検出すればよい。例えば、検出部１２Ｂは、音声信号を先頭から時系列に順次読取り、トリガ辞書２６Ａに記憶されているトリガの各々を音信号の時系列集合に変換した変換信号と比較し、該変換信号と一致する区間の有無を判別することで、トリガを検出すればよい。

なお、上述したように、音声記憶部２４は、複数のトリガ辞書２６Ａを階層的に記憶してもよい。この場合、検出部１２Ｂは、音声信号を時系列に沿って読取り、トリガを検出するごとに、検出したトリガに対応する一段階下の階層のトリガ辞書２６Ａ（例えば、トリガ辞書２６Ａ２）を、次のトリガの検出に用いることが好ましい。このように、検出部１２Ｂが、階層的に記憶された複数のトリガ辞書２６Ａの上位階層から下位階層に向かって順にトリガ辞書２６Ａを読取り、次のトリガの検出に用いることで、検出するべきトリガの候補が少なるため、トリガ検出精度の向上を図ることができる。

検出部１２Ｂは、トリガを検出すると、検出したトリガのトリガＩＤと、該トリガのトリガ音区間の始端を示す始端情報と、を検出部１２Ｂへ通知する。トリガ音区間の始端は、トリガ音区間における、時系列の最上流側端部を示す。トリガ音区間の始端情報は、トリガ音区間の始端を示す情報であればよい。始端情報は、例えば、トリガ音区間の始端を示す始端時刻で表される。以下、始端および始端情報を、始端時刻と称して説明する場合がある。

音声認識部１２Ｃは、検出部１２Ｂで検出されたトリガに対応するトリガ付音声認識辞書２６Ｂを用いて、音声信号における、検出されたトリガのトリガ音区間に後続する認識音区間を音声認識する。言い換えると、音声認識部１２Ｃは、検出されたトリガのトリガ音区間および該トリガ音区間に後続する認識音区間を、該トリガ音区間のトリガに対応するトリガ付音声認識辞書２６Ｂに従って音声認識することで、該認識音区間の音声認識結果を得る。本実施形態では、検出部１２Ｂおよび音声認識部１２Ｃは、検出処理と音声認識処理を並列で実行する。

詳細には、音声認識部１２Ｃは、検出部１２Ｂによる音声信号の読取および検出処理と並列して、音声記憶部２４から音声信号を時系列順に読取る。音声認識部１２Ｃは、検出部１２ＢからトリガＩＤおよびトリガ音区間の始端情報を受付けたときに、トリガが検出されたと判断する。そして、音声認識部１２Ｃは、検出部１２Ｂから受付けたトリガＩＤに対応するトリガ付音声認識辞書２６Ｂを、記憶部２６から読取る。

そして、音声認識部１２Ｃは、読取った該トリガ付音声認識辞書２６Ｂと、音声信号における、検出されたトリガのトリガ音区間の始端から該トリガ音区間より後の予め定めた終端までの単位区間と、を用いて、該単位区間における該トリガ音区間に後続する区間である認識音区間を音声認識する。

単位区間は、音声認識部１２Ｃがトリガ付音声認識辞書２６Ｂを用いた音声認識処理を行うときの、音声認識の単位となる区間である。言い換えると、単位区間は、音声認識部１２Ｃがトリガ付音声認識辞書２６Ｂを用いて音声認識処理を行うときに、音声認識辞書２６Ｃへ入力する、音声信号４０の区間の単位である。単位区間の終端は、検出されたトリガのトリガ音区間より後であればよい。

図３は、トリガ検出と音声認識処理の一例の説明図である。例えば、ユーザＵの発話により、音声取得部１２Ａが、「型番ＡＡ電圧２０Ｖ」という音声信号４０を取得したと想定する。また、この音声信号４０おける「型番」および「電圧」が、トリガを示すトリガワードであると想定する。また、これらのトリガは、トリガ辞書２６Ａに予め登録されていると想定する。

検出部１２Ｂが音声信号４０を先頭から時系列順に読取り、トリガの検出処理を実行する（矢印Ａ１参照）。検出部１２Ｂは、音声信号４０におけるトリガ「型番」のトリガ音区間Ｔ１を読取った時に、トリガ「型番」を検出する。トリガ音区間Ｔ１はトリガ音区間Ｔの一例である。そして、検出部１２Ｂは、検出したトリガ「型番」のトリガＩＤと、トリガ音区間Ｔ１の始端時刻ｔ１と、を音声認識部１２Ｃへ通知する。

音声認識部１２Ｃは、検出されたトリガ「型番」のトリガＩＤとトリガ音区間Ｔ１の始端時刻ｔ１を検出部１２Ｂから受付けると、音声信号４０における、トリガ音区間Ｔ１の始端時刻ｔ１から、該トリガ音区間Ｔ１より後の終端までの単位区間Ｂ１を読取る。単位区間Ｂ１は、単位区間Ｂの一例である。そして、音声認識部１２Ｃは、該トリガ「型番」のトリガＩＤに対応するトリガ付音声認識辞書２６Ｂと、該トリガ音区間Ｔ１を含む単位区間Ｂ１と、を用いて、単位区間Ｂ１の音声認識を行い、単位区間Ｂ１内の認識音区間Ｓ１の音声認識結果を出力する。認識音区間Ｓ１は、認識音区間Ｓの一例であり、単位区間Ｂ１における、トリガ音区間Ｔ１に後続する区間である。

一方、検出部１２Ｂは音声信号４０の読取と検出処理を並列して実行し（矢印Ａ２参照）、トリガ「電圧」のトリガ音区間Ｔ２を読取った時に、トリガ「電圧」を検出する。そして、検出部１２Ｂは、検出したトリガ「電圧」のトリガＩＤとトリガ音区間Ｔ２の始端時刻ｔ３を音声認識部１２Ｃへ通知する。トリガ音区間Ｔ２はトリガ音区間Ｔの一例である。そして、更に、検出部１２Ｂは、音声信号４０の読取と検出処理を継続する（矢印Ａ３参照）。

音声認識部１２Ｃは、検出されたトリガ「電圧」のトリガＩＤとトリガ音区間Ｔ２の始端時刻ｔ３を検出部１２Ｂから受付けると、音声信号４０における、トリガ音区間Ｔ２の始端時刻ｔ３から、該トリガ音区間Ｔ２より後の終端までの単位区間Ｂ２を読取る。単位区間Ｂ２は、単位区間Ｂの一例である。そして、音声認識部１２Ｃは、該トリガ「電圧」のトリガＩＤに対応するトリガ付音声認識辞書２６Ｂと、単位区間Ｂ２と、を用いて、単位区間Ｂ２の音声認識を行い、単位区間Ｂ２内の認識音区間Ｓ２の音声認識結果を出力する。認識音区間Ｓ２は、認識音区間Ｓの一例であり、単位区間Ｂ２における、トリガ音区間Ｔ２に後続する区間である。

このように、音声認識部１２Ｃは、認識対象の認識音区間Ｓのみではなく、トリガ音区間Ｔおよび認識音区間Ｓの双方を含む単位区間Ｂを、トリガに対応するトリガ付音声認識辞書２６Ｂに入力する入力データとして用いることで、該トリガ付音声認識辞書２６Ｂに従って認識音区間Ｓの音声認識結果を出力する。

なお、上述したように、単位区間Ｂは、音声信号４０における、検出されたトリガのトリガ音区間Ｔの始端から該トリガ音区間Ｔより後の予め定めた終端までの区間であればよい。

例えば、単位区間Ｂは、検出されたトリガのトリガ音区間Ｔの始端から該トリガ音区間Ｔを超える予め定めた長さの区間である。また、例えば、単位区間Ｂは、検出されたトリガのトリガ音区間Ｔの始端から該トリガ音区間Ｔの後に隣接する他のトリガ音区間Ｔの始端までの区間である。また、例えば、単位区間Ｂは、検出されたトリガのトリガ音区間Ｔの始端から該トリガ音区間Ｔの後に隣接する無音区間までの区間である。

図４Ａ、図４Ｂ、および図４Ｃは、単位区間Ｂの一例の説明図である。

図４Ａに示すように、例えば、単位区間Ｂは、検出されたトリガのトリガ音区間Ｔの始端から該トリガ音区間Ｔを超える予め定めた長さＬの区間である。この場合、単位区間Ｂ１は、トリガ「型番」のトリガ音区間Ｔ１の始端時刻ｔ１から長さＬの区間である。単位区間Ｂ２は、トリガ音区間Ｔ２の始端時刻ｔ２から長さＬの区間である。なお、この長さＬは、トリガ辞書２６Ａに登録されているトリガのトリガ音区間の内、最も長いトリガ音区間の長さを超える長さを、予め定めればよい。

ここで、単位区間Ｂが、検出されたトリガのトリガ音区間Ｔの始端から予め定めた長さＬの区間である場合、単位区間Ｂに含まれる認識音区間Ｓ（例えば、認識音区間Ｓ１）に、次に検出されるトリガのトリガ音区間Ｔ（例えば、トリガ音区間Ｔ２）が含まれる場合がある。本実施形態では、単位区間Ｂは、時系列の先頭をトリガ音区間Ｔとする区間であればよく、該トリガ音区間Ｔに後続する認識音区間Ｓ内に他のトリガ音区間Ｔが含まれていてもよい。

この場合、音声認識部１２Ｃは、検出部１２Ｂによってトリガが検出される毎に、互いに同じ長さＬの単位区間Ｂを用いて、音声認識処理を行うことができる。

図４Ｂに示すように、単位区間Ｂは、検出されたトリガのトリガ音区間Ｔの始端から該トリガ音区間Ｔの後に隣接する他のトリガ音区間Ｔの始端までの区間であってもよい。この場合、単位区間Ｂ１は、トリガ音区間Ｔ１の始端時刻ｔ１から次のトリガ音区間Ｔ２の始端時刻ｔ３までの区間である。また、単位区間Ｂ２は、トリガ音区間Ｔ２の始端時刻ｔ３から次のトリガ音区間Ｔ３の始端時刻ｔ４までの区間である。

単位区間Ｂが、検出されたトリガのトリガ音区間Ｔの始端から該トリガ音区間Ｔの後に隣接する他のトリガ音区間Ｔの始端までの区間である場合、単位区間Ｂに含まれる認識音区間Ｓ（認識音区間Ｓ１、認識音区間Ｓ２）には、他のトリガ音区間Ｔが含まれない形態となる。

この場合、音声認識部１２Ｃは、トリガごとに、トリガの後に連続し且つ他のトリガを含まない認識音区間Ｓについて、音声認識処理を行うことができる。すなわち、音声認識部１２Ｃは、トリガ単位で、該トリガの後に連続する認識音区間Ｓを音声認識することができる。

なお、単位区間Ｂは、検出されたトリガのトリガ音区間Ｔの始端から該トリガ音区間Ｔの後に隣接するほかのトリガ音区間Ｔの終端までの区間であってもよい。この場合、単位区間Ｂに含まれる認識音区間Ｓには、他のトリガ音区間Ｔが含まれる形態となる。

図４Ｃに示すように、単位区間Ｂは、検出されたトリガのトリガ音区間Ｔの始端から該トリガ音区間Ｔの後に隣接する無音区間Ｎまでの区間であってもよい。この場合、図４Ｃに示すように、単位区間Ｂ１は、トリガ音区間Ｔ１の始端時刻ｔ１から、該トリガ音区間Ｔ１の後に隣接する無音区間Ｎ１までの区間である。無音区間Ｎ１は、無音区間Ｎの一例である。なお、単位区間Ｂ１の終端は、該無音区間Ｎ１の始端時刻ｔ２から終端時刻ｔ３までの何れの時刻であってもよい。また、単位区間Ｂ２は、トリガ音区間Ｔ２の始端時刻ｔ３から該トリガ音区間Ｔ２の後に隣接する無音区間Ｎ２までの区間であればよい。無音区間Ｎ２は、無音区間Ｎの一例である。単位区間Ｂ２の終端は、単位区間Ｂ１の終端と同様に、該無音区間Ｎ２の始端時刻から終端時刻までの何れの時刻であってもよい。

この場合、音声認識部１２Ｃは、音声信号４０を、無音区間Ｎごとに区切って音声認識処理することができる。

なお、音声認識部１２Ｃは、公知の方法を用いて、音声信号４０における無音区間Ｎを判断すればよい。なお、検出部１２Ｂで音声信号４０における無音区間Ｎを更に検出してもよい。この場合、音声認識部１２Ｃは、検出部１２Ｂから無音区間Ｎを示す情報を受付けることで、無音区間Ｎを判断すればよい。また、情報処理装置１０に、音声信号４０における無音区間Ｎを特定する公知の検出器を搭載してもよい。この場合、音声認識部１２Ｃは、該検出器から無音区間Ｎの特定結果を取得することで、無音区間Ｎを判断すればよい。

図１に戻り説明を続ける。このように、本実施形態では、音声認識部１２Ｃは、音声信号４０における検出されたトリガのトリガ音区間Ｔと該トリガ音区間Ｔに後続する認識音区間Ｓを、検出されたトリガに対応するトリガ付音声認識辞書２６Ｂに従って音声認識することで、該認識音区間Ｓの音声認識結果を得る。

このため、本実施形態の情報処理装置１０は、音声信号４０に含まれるトリガの全てについて、トリガのトリガ音区間Ｔに後続する認識音区間Ｓの音声認識を欠落することなく実行することができる。すなわち、複数のトリガを含む複数の単語が連続して発話された場合であっても、本実施形態の情報処理装置１０は、該発話の音声信号４０に含まれる全てのトリガの各々の後に連続する認識音区間Ｓについて、音声認識を実行することができる。

なお、上述したように、音声認識部１２Ｃがトリガ付音声認識辞書２６Ｂを用いて音声認識を行う単位である単位区間Ｂを、検出されたトリガのトリガ音区間Ｔの始端から該トリガ音区間Ｔの後に隣接する無音区間Ｎまでの区間としたと想定する。そして、音声信号４０が、単位区間Ｂの後に、始端にトリガ音区間Ｔを含まない有音区間を含むと想定する。この場合、該有音区間は、トリガ付音声認識辞書２６Ｂによって音声認識処理されない。

そこで、この場合、音声認識部１２Ｃは、トリガ付音声認識辞書２６Ｂと音声認識辞書２６Ｃを繰り替えて、音声認識処理を実行する。

詳細には、音声認識部１２Ｃは、検出されたトリガに対応するトリガ付音声認識辞書２６Ｂと、音声信号４０における、検出された該トリガのトリガ音区間Ｔの始端から該トリガ音区間Ｔの後に隣接する無音区間Ｎまでの単位区間Ｂと、を用いて該単位区間Ｂにおける認識音区間Ｓを音声認識する。そして、音声認識部１２Ｃは、音声信号４０における、該無音区間Ｎに後続する有音区間を、検出された該トリガに対応する音声認識辞書２６Ｃを用いて音声認識する。

図５は、トリガ付音声認識辞書２６Ｂと音声認識辞書２６Ｃを切替えて音声認識処理する場合の一例の説明図である。図５に示すように、検出部１２Ｂが音声信号４０を先頭から時系列順に読取り、トリガの検出処理を実行する（矢印Ａ１参照）。そして、検出部１２Ｂは、音声信号４０におけるトリガ「型番」のトリガ音区間Ｔ１を読取った時に、トリガ「型番」を検出する。そして、検出部１２Ｂは、検出したトリガ「型番」のトリガＩＤとトリガ音区間Ｔ１の始端時刻ｔ１を、音声認識部１２Ｃへ通知する。

音声認識部１２Ｃは、トリガ「型番」のトリガＩＤとトリガ音区間Ｔ１の始端時刻ｔ１を検出部１２Ｂから受付けると、音声信号４０における、トリガ音区間Ｔ１の始端時刻ｔ１から、該トリガ音区間Ｔ１の後に隣接する無音区間Ｎ１までの単位区間Ｂ１を読取る。そして、音声認識部１２Ｃは、該トリガＩＤに対応するトリガ付音声認識辞書２６Ｂと、単位区間Ｂ１と、を用いて、単位区間Ｂ１内の認識音区間Ｓ１の音声認識を行う。

そして、音声認識部１２Ｃは、該単位区間Ｂ１の終端の無音区間Ｎ１の後に連続する有音区間Ｖ１を、直前に検出されたトリガ「型番」に対応する音声認識辞書２６Ｃを用いて音声認識する。有音区間Ｖ１は、有音区間Ｖの一例であり、無音区間Ｎ１と無音区間Ｎ２との間に存在する有音区間Ｖである。

そして、音声認識部１２Ｃは、検出部１２Ｂが次のトリガ（図５の例の場合、トリガ「電圧」）を検出するまで、単位区間Ｂ１に後続する有音区間Ｖ（有音区間Ｖ１、有音区間Ｖ２）の各々について、直前に検出されたトリガ「型番」に対応する音声認識辞書２６Ｃを用いて、音声認識を実行する。

なお、音声認識部１２Ｃは、新たなトリガＩＤおよび該トリガＩＤによって識別されるトリガのトリガ音区間Ｔの始端時刻を、検出部１２Ｂから受付けたときに、検出部１２Ｂが次のトリガを検出したと判断すればよい。

すなわち、検出部１２Ｂは、音声信号４０の読取と検出処理を並列して実行し（矢印Ａ２参照）、次のトリガ「電圧」のトリガ音区間Ｔ２を読取った時に、トリガ「電圧」を検出する。そして、検出したトリガ「電圧」のトリガＩＤとトリガ音区間Ｔ２の始端時刻ｔ３を音声認識部１２Ｃへ通知する。そして、更に、検出部１２Ｂは、音声信号４０の読取と検出処理を継続する（矢印Ａ３参照）。

新たなトリガ「電圧」のトリガＩＤおよびトリガ音区間Ｔ２の始端時刻ｔ３を受付けると、音声認識部１２Ｃは、トリガ「型番」に対応する音声認識辞書２６Ｃを用いた有音区間Ｖの音声認識処理を終了する。そして、音声認識部１２Ｃは、音声信号４０におけるトリガ音区間Ｔ２の始端時刻ｔ３から、該トリガ音区間Ｔ２の後に隣接する無音区間Ｎまでの単位区間Ｂ２を読取る。そして、音声認識部１２Ｃは、上記と同様にして、該トリガ「電圧」のトリガＩＤに対応するトリガ付音声認識辞書２６Ｂと、単位区間Ｂ２と、を用いて、単位区間Ｂ２内の認識音区間Ｓ２の音声認識を行えばよい。

このように、単位区間Ｂを、トリガ音区間Ｔの始端から該トリガ音区間Ｔの後に隣接する無音区間Ｎまでの区間とする場合、音声認識部１２Ｃは、トリガ付音声認識辞書２６Ｂと音声認識辞書２６Ｃとを切替えて音声認識処理することによって、音声信号４０に含まれる全てのトリガの各々の後に連続する認識音区間Ｓ、およびトリガの後に非連続の有音区間Ｖについて、取りこぼすことなく音声認識を実行することができる。

図１に戻り説明を続ける。出力制御部１２Ｄは、音声認識部１２Ｃの音声認識結果を出力部１７へ出力する。例えば、出力制御部１２Ｄは、音声認識結果を、通信部１６を介して外部装置へ送信する。また、例えば、出力制御部１２Ｄは、音声認識結果をディスプレイ１８へ表示する。また、例えば、出力制御部１２Ｄは、音声認識結果を示す音をスピーカ２０から出力する。

なお、上述したように、音声認識部１２Ｃは、音声信号４０に含まれるトリガごとに、トリガのトリガ音区間Ｔに連続する認識音区間Ｓの音声認識結果を導出する。このため、音声認識部１２Ｃは、複数の音声認識結果を導出することとなる。

ここで、図４Ａを用いて説明したように、音声認識部１２Ｃは、検出されたトリガのトリガ音区間Ｔの始端から該トリガ音区間Ｔを超える予め定めた長さＬの区間を、単位区間Ｂとして用いる場合がある。この場合、１つの単位区間Ｂに含まれる認識音区間Ｓに、次に検出されるトリガ音区間Ｔや該トリガ音区間Ｔの後に連続する認識音区間Ｓが含まれる場合がある。すなわち、この場合、トリガごとに導出された音声認識結果には、音声信号４０における、重複する区間の音声認識結果が含まれる場合がある。

そこで、出力制御部１２Ｄは、複数の音声認識結果の各々について、音声認識結果から、音声信号４０における該音声認識結果に対応する区間の後の区間の他の音声認識結果を除去した結果を出力してもよい。

具体的には、図４Ａに示すように、出力制御部１２Ｄは、認識音区間Ｓ１の音声認識結果から、次のトリガ音区間Ｔ２および認識音区間Ｓ２の音声認識結果を除去した結果を、トリガ「型番」の後に連続する認識音区間Ｓ１の音声認識結果として用いてもよい。

図１に戻り説明を続ける。また、出力制御部１２Ｄは、複数の音声認識結果の内、出力対象の音声認識結果を選択し、選択した音声認識結果を出力部１７へ出力してもよい。

この場合、受付部１２Ｅは、出力対象の音声認識結果の選択入力を、入力部２２から受付ける。例えば、出力制御部１２Ｄは、音声認識部１２Ｃによる複数の音声認識結果の一覧を、ディスプレイ１８へ表示する。ユーザは、入力部２２を操作することで、ディスプレイ１８に表示された複数の音声認識結果から、出力対象の音声認識結果を選択する。なお、出力対象の音声認識結果を選択するユーザは、音声信号４０の発話者とは異なるユーザであることが好ましい。具体的には、出力対象の音声認識結果を選択するユーザは、情報処理装置１０の管理者であることが好ましい。

そして、受付部１２Ｅが、入力部２２から出力対象の音声認識結果の選択入力を受付けると、出力制御部１２Ｄは、音声認識部１２Ｃで音声認識された複数の音声認識結果の内、受付部１２Ｅで受付けた出力対象の音声認識結果を出力部１７へ出力すればよい。

例えば、音声を発話するユーザが、誤ったトリガワードを発話した後に、正しいトリガワードを発話する場合がある。このような場合、管理者による入力部２２の操作指示によって、出力対象の音声認識結果が選択されることで、出力制御部１２Ｄは、適切な音声認識結果を選択的に出力することができる。

次に、本実施形態の情報処理装置１０が実行する音声認識処理の手順の一例を説明する。

図６は、情報処理装置１０が実行する音声認識処理の手順の一例を示す、フローチャートである。なお、図６には、音声取得部１２Ａが、検出されたトリガのトリガ音区間Ｔの始端から該トリガ音区間Ｔの後に隣接する無音区間Ｎまでの区間を、単位区間Ｂとして用いる場合を一例として示した。

音声取得部１２Ａは、受信部１５から音声信号４０を取得すると（ステップＳ１００）、音声記憶部２４へ記憶する（ステップＳ１０２）。音声取得部１２Ａは、受信部１５が音声信号４０を受信するごとに、音声記憶部２４への音声信号４０の記憶（上書き）を継続して実行する。

次に、検出部１２Ｂが、音声記憶部２４に記憶されている音声信号４０の時系列に沿った読取りを開始する（ステップＳ１０４）。そして、検出部１２Ｂは、トリガ辞書２６Ａに登録されている何れかのトリガを検出するまで否定判断を繰返す（ステップＳ１０６：Ｎｏ）。検出部１２Ｂは、トリガを検出すると（ステップＳ１０６：Ｙｅｓ）、検出したトリガのトリガＩＤおよびトリガ音区間Ｔの始端時刻を、音声認識部１２Ｃへ通知する。

出力制御部１２Ｄは、ステップＳ１０６または後述するステップＳ１１６で検出されたトリガを出力部１７へ出力する（ステップＳ１０８）。

音声認識部１２Ｃは、検出部１２Ｂで新たなトリガが検出される毎に、ステップＳ１１０〜ステップＳ１１２の処理を実行する。

詳細には、音声認識部１２Ｃは、検出されたトリガに対応するトリガ付音声認識辞書２６Ｂを、記憶部２６から取得する（ステップＳ１１０）。音声認識部１２Ｃは、検出部１２Ｂから直前に受付けたトリガＩＤに対応するトリガ付音声認識辞書２６Ｂを記憶部２６から読取ることで、トリガ付音声認識辞書２６Ｂを取得する。

次に、音声認識部１２Ｃは、音声信号４０における、検出部１２Ｂから直前に受付けたトリガ音区間Ｔの始端時刻から、該トリガ音区間Ｔの後に隣接する無音区間Ｎまでの単位区間Ｂと、ステップＳ１１０で取得したトリガ付音声認識辞書２６Ｂと、を用いて該単位区間Ｂに含まれる認識音区間Ｓを音声認識する（ステップＳ１１２）。

次に、出力制御部１２Ｄは、ステップＳ１１２または後述するステップＳ１２２の音声認識結果を出力部１７へ出力する（ステップＳ１１４）。

次に、音声認識部１２Ｃは、新たなトリガが検出されたか否かを判断する（ステップＳ１１６）。音声認識部１２Ｃは、検出部１２Ｂから新たなトリガＩＤおよびトリガ音区間Ｔの始端時刻を受付けたか否かを判別することで、ステップＳ１１６の判断を行う。

新たなトリガが検出されない場合（ステップＳ１１６：Ｎｏ）、ステップＳ１１８へ進む。ステップＳ１１８では、音声認識部１２Ｃは、音声信号４０における、直前に音声認識した単位区間Ｂまたは直前に音声認識した有音区間Ｖの次に、有音区間Ｖが有るか否かを判断する（ステップＳ１１８）。

ステップＳ１１８で否定判断すると（ステップＳ１１８：Ｎｏ）、上記ステップＳ１１６へ戻る。ステップＳ１１８で肯定判断すると（ステップＳ１１８：Ｙｅｓ）、ステップＳ１２０へ進む。

ステップＳ１２０では、音声認識部１２Ｃは、直前に検出されたトリガに対応する音声認識辞書２６Ｃ記憶部２６から取得する（ステップＳ１２０）。

そして、音声認識部１２Ｃは、ステップＳ１２０で取得した音声認識辞書２６Ｃを用いて、ステップＳ１１８で特定した有音区間Ｖの音声認識処理を行う（ステップＳ１２２）。そして、上記ステップＳ１１４へ戻る。

一方、ステップＳ１１６で肯定判断すると（ステップＳ１１６：Ｙｅｓ）、検出部１２Ｂは、ステップＳ１１６で検出したトリガが、音声認識処理の終了を示す終了トリガであるか否かを判断する（ステップＳ１２４）。ステップＳ１２４で否定判断すると（ステップＳ１２４：Ｎｏ）、上記ステップＳ１０８へ戻る。一方、ステップＳ１２４で肯定判断すると（ステップＳ１２４：Ｙｅｓ）、ステップＳ１２６へ進む。

ステップＳ１２６では、出力制御部１２Ｄが、上記音声認識処理による音声認識結果を、出力部１７へ出力する（ステップＳ１２６）。そして、本ルーチンを終了する。

以上説明したように、本実施形態の情報処理装置１０は、検出部１２Ｂと、音声認識部１２Ｃと、を備える。検出部１２Ｂは、音声信号４０から音声認識開始を示すトリガを検出する。音声認識部１２Ｃは、検出されたトリガに対応するトリガ付音声認識辞書２６Ｂを用いて、トリガを含むトリガ音区間Ｔに後続する認識音区間Ｓを音声認識する。

このように、本実施形態の情報処理装置１０では、音声認識部１２Ｃは、音声信号４０における検出されたトリガのトリガ音区間Ｔと該トリガ音区間Ｔに後続する認識音区間Ｓを、検出されたトリガに対応するトリガ付音声認識辞書２６Ｂに従って音声認識することで、該認識音区間Ｓの音声認識結果を得る。また、トリガ付音声認識辞書２６Ｂは、トリガ音区間Ｔのみではなく、トリガ音区間Ｔおよび認識音区間Ｓから、認識音区間Ｓの音声認識結果を導出するための辞書である。

ここで、従来技術では、複数のトリガを含む複数の単語が連続して発話された音声信号４０について、音声認識を行うことは困難であった。

図７Ａおよび図７Ｂは、従来技術による音声認識の説明図である。例えば、ユーザＵの発話により、「お願いエアコンつけてお願い温度２８度」という音声信号４００を音声認識する場合を想定する。また、この音声信号４００における「お願い」が、トリガであると想定する。

例えば、図７Ａに示すように、トリガとトリガ以外の単語の各々が間をあけて発話されたと想定する。この場合、従来技術では、音声信号４００を先頭から時系列順に読取り、音声信号４００におけるトリガ「お願い」を検出した後に（矢印Ａ１０参照）、該トリガの後ろに連続する単語「エアコンつけて」を認識する（矢印Ｓ１０参照）。そして、更に、トリガ「お願い」を更に検出した後に（矢印Ａ１１参照）、該トリガの後ろに連続する単語「温度２８度」を認識する（矢印Ｓ１１参照）。このように、トリガとトリガ以外の単語の各々が間をあけて発話される場合、従来技術であっても、各々のトリガの後に発話された単語を音声認識していた。

しかし、図７Ｂに示すように、複数のトリガを含む複数の単語が連続して発話された場合、従来技術では、音声信号４００の音声認識を行うことが困難であった。詳細には、従来技術では音声信号４００に含まれる１番目のトリガ「お願い」を検出すると、その後の音声信号に含まれる「エアコンつけてお願い温度２８度」を音声認識していた。このため、１番目の「お願い」が検出された際には画面上に「お願い」が検出された旨を表示できるが、２番目の「お願い」が検出された旨は表示できない。また、図３のように１番目のトリガが「型番」で２番目のトリガが「電圧」であり、「型番」が英字、「電圧」が数字＋単位であることがわかっている場合、型番にあたる部分「ＡＡＢ」は英字のみ認識する音声認識辞書、電圧にあたる部分「２０Ｖ」は数字＋単位のみ認識する音声認識辞書を用いて音声認識することで音声認識精度を上げることができる。しかし従来技術では型番にあたる部分と電圧にあたる部分で１つの音声認識辞書を用いて音声認識するため、音声認識精度を上げることができなかった。

また別の従来技術では、音声信号４００に含まれるトリガ「お願い」を検出すると（矢印Ａ１０参照）、該トリガ「お願い」に後続する区間Ｓ１０’の音声認識を開始する。そして、この区間Ｓ１０’の音声認識中に、次のトリガ「お願い」が検出されると（矢印Ａ１１参照）、該区間Ｓ１０’の音声認識を無効にし、２番目に検出されたトリガ「お願い」に後続する区間Ｓ１１’は音声認識されなかった。

また、従来技術では、トリガとトリガ後の発話との間や、発話と次のトリガとの間に、ポーズを入れずに連続した発話がなされた場合、トリガの検出およびトリガ後の発話の音声認識を行うことが出来ない場合があった。

このため、従来技術では、複数のトリガを含む複数の単語が連続して発話された場合、音声信号４００に含まれる複数のトリガの各々の後に連続する単語の内の少なくとも一部が、音声認識されない場合、トリガに続く発話の音声認識精度が下がる場合があった。

また、従来技術では、音声信号４００の音声認識に、トリガ音区間を含まない辞書（すなわち、本実施形態の音声認識辞書２６Ｃに相当）のみを用いていた。このため、従来技術では、トリガの後に隣接する単語の始端の欠けやノイズの混入などによる、トリガの終端や該単語の始端の特定不良などにより、該単語の音声認識がなされない場合があった。

一方、本実施形態の情報処理装置１０では、音声認識部１２Ｃが、音声信号４０における検出されたトリガのトリガ音区間Ｔと該トリガ音区間Ｔに後続する認識音区間Ｓを、検出されたトリガに対応するトリガ付音声認識辞書２６Ｂに従って音声認識することで、該認識音区間Ｓの音声認識結果を得る。また、トリガ付音声認識辞書２６Ｂは、トリガ音区間Ｔのみではなく、トリガ音区間Ｔおよび認識音区間Ｓから、認識音区間Ｓの音声認識結果を導出するための辞書である。

このため、本実施形態の情報処理装置１０は、音声信号４０に含まれるトリガの全てについて、トリガのトリガ音区間Ｔに後続する認識音区間Ｓの音声認識を欠落することなく実行することができる。すなわち、複数のトリガを含む複数の単語が連続して発話された場合であっても、本実施形態の情報処理装置１０は、該発話の音声信号４０に含まれる全てのトリガの各々の後に連続する認識音区間Ｓについて、検出されたトリガに対応した辞書を用いた、音声認識を実行することができる。

従って、本実施形態の情報処理装置１０は、音声認識向上を図ることができる。

（変形例１）
なお、上記実施形態では、トリガとして「お願い」という言葉を設定する例を示した。しかし、情報処理装置１０は、トリガとして、別のトリガ（トリガワード）を複数用意してもよい。

図８Ａおよび図８Ｂは、本変形例の音声認識の説明図である。例えば、ユーザＵの発話により、「お願いエアコンつけて設定２８℃」という音声信号４１を音声認識する場合を想定する。また、この音声信号４１における「お願い」および「設定」が、トリガであると想定する。

この場合、検出部１２Ｂが音声信号４１を先頭から時系列順に読取り、トリガの検出処理を実行する（矢印Ａ２０参照）。検出部１２Ｂは、音声信号４１におけるトリガ「お願い」のトリガ音区間を読取った時に、トリガ「お願い」を検出する。音声認識部１２Ｃは、検出されたトリガ「お願い」のトリガＩＤに対応するトリガ付音声認識辞書２６Ｂと、該トリガ音区間を含む単位区間Ｂ１０と、を用いて、該単位区間Ｂ１０を上記実施例と同様にして音声認識する。

そして、更に、検出部１２Ｂは、トリガの検出処理を継続し（矢印Ａ２１参照）、トリガ「設定」を読取ったときに、トリガ「設定」を検出する。そして、音声認識部１２Ｃは、検出されたトリガ「設定」のトリガＩＤに対応するトリガ付音声認識辞書２６Ｂと、該トリガ音区間を含む単位区間と、を用いて、該単位区間を上記実施例と同様にして音声認識する。

このため、本変形例では、情報処理装置１０は、トリガ「お願い」の後では“エアコン”などの機器の用語に対してより精度のよいトリガ付音声認識辞書２６Ｂを用いて音声認識を行い、トリガ「設定」の後では“２８”という数字に対してより精度のよい認識をするように、トリガ付音声認識辞書２６Ｂを切替えることができる。

なお、複数のトリガ（トリガワード）はあらかじめ設定されたものであってもよいし、ユーザが追加して用いてもよい。例えば、出力制御部１２Ｄは、利用されることはあるが、利用頻度の低い音声や単語の一覧を、ディスプレイ１８等に表示する。この表示により、出力制御部１２Ｄは、これらの音声や単語の一覧を、ユーザに提示する。そして、制御部１２は、ユーザの入力部２２などの操作などによって選択された音声や単語を、トリガとして設定すればよい。

（変形例２）
なお、音声を発話した話者推定が可能である場合、情報処理装置１０は、トリガと話者との組合せを予め用意してもよい。話者推定とは、音声取得部１２Ａで取得した音声信号から、該音声信号の音声を発話した個人を識別することを指す。制御部１２が、トリガと話者との組合せを予め用意することで、同じトリガワードが発せられた場合であっても、異なる話者の場合には、音声認識に用いる辞書（トリガ付音声認識辞書２６Ｂ、音声認識辞書２６Ｃ）を変更することが可能となる。

また、情報処理装置１０は、トリガと話者との組み合わせを別に有することで、話者の情報に応じて音声認識結果を有効にしたり無効にしたりしてもよい。例えば、制御部１２は、機器の制御において管理者に相当する話者の認識結果は制御信号としてそのまま出力するが、一般的な利用者に相当する話者の発したトリガを検出した場合には音声認識を所定時間取りやめてもよい。

（ハードウェア構成）
次に、上記実施形態の情報処理装置１０の、ハードウェア構成について説明する。図９は、上記実施形態の情報処理装置１０のハードウェア構成例を示すブロック図である。

上記実施形態の情報処理装置１０は、ＣＰＵ８０、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）８２、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）８４、ＨＤＤ８６、およびＩ／Ｆ部８８等が、バス９０により相互に接続されており、通常のコンピュータを利用したハードウェア構成となっている。

ＣＰＵ８０は、上記実施形態の情報処理装置１０で実行する情報処理を制御する演算装置である。ＲＡＭ８４は、ＣＰＵ８０による各種処理に必要なデータを記憶する。ＲＯＭ８２は、ＣＰＵ８０による各種処理を実現するプログラム等を記憶する。ＨＤＤ８６は、上述した音声記憶部２４や記憶部２６に格納されるデータを記憶する。Ｉ／Ｆ部８８は、他の装置との間でデータを送受信するためのインターフェースである。

上記実施形態の情報処理装置１０で実行される上記各種処理を実行するためのプログラムは、ＲＯＭ８２等に予め組み込んで提供される。

なお、上記実施形態の情報処理装置１０で実行されるプログラムは、これらの装置にインストール可能な形式又は実行可能な形式のファイルでＣＤ−ＲＯＭ、フレキシブルディスク（ＦＤ）、ＣＤ−Ｒ、ＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｋ）等のコンピュータで読み取り可能な記録媒体に記録されて提供するように構成してもよい。

また、上記実施形態の情報処理装置１０で実行されるプログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。また、上記実施形態の情報処理装置１０における上記各処理を実行するためのプログラムを、インターネット等のネットワーク経由で提供または配布するように構成してもよい。

上記実施形態の情報処理装置１０で実行される上記各種処理を実行するためのプログラムは、上述した各部が主記憶装置上に生成されるようになっている。

なお、上記ＨＤＤ８６に格納されている各種情報は、外部装置に格納してもよい。この場合には、該外部装置とＣＰＵ８０と、を、ネットワーク等を介して接続した構成とすればよい。

なお、上記には、本開示の実施形態を説明したが、上記実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これらの新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これらの実施形態やその変形例は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

１０情報処理装置
１２Ｂ検出部
１２Ｃ音声認識部
１２Ｄ出力制御部
１２Ｅ受付部
２６Ｂトリガ付音声認識辞書
２６Ｃ音声認識辞書

Claims

音声信号から音声認識開始を示すトリガを検出する検出部と、
検出された前記トリガに対応するトリガ付音声認識辞書を用いて、前記トリガを含むトリガ音区間に後続する認識音区間を音声認識する音声認識部と、
を備える情報処理装置。
前記音声認識部は、
検出された前記トリガに対応する前記トリガ付音声認識辞書と、前記トリガ音区間の始端から該トリガ音区間より後の予め定めた終端までの単位区間と、を用いて、該単位区間における前記認識音区間を音声認識する、
請求項１に記載の情報処理装置。
前記単位区間は、
検出された前記トリガの前記トリガ音区間の始端から該トリガ音区間を超える予め定めた長さの区間、検出された前記トリガの前記トリガ音区間の始端から該トリガ音区間の後に隣接する他の前記トリガ音区間の始端までの区間、または、検出された前記トリガの前記トリガ音区間の始端から該トリガ音区間の後に隣接する無音区間までの区間である、
請求項２に記載の情報処理装置。
前記音声認識部は、
検出された前記トリガに対応する前記トリガ付音声認識辞書と、前記音声信号における、検出された該トリガの前記トリガ音区間の始端から該トリガ音区間の後に隣接する無音区間までの前記単位区間と、を用いて該単位区間における前記認識音区間を音声認識し、
前記音声信号における、該無音区間に後続する有音区間を、検出された該トリガに対応する、有音区間から該有音区間の音声認識結果を導出するための音声認識辞書を用いて音声認識する、
請求項２または請求項３に記載の情報処理装置。
前記音声認識部の音声認識結果を出力する出力制御部、
を備える、請求項１〜請求項４の何れか１項に記載の情報処理装置。
前記出力制御部は、
複数の前記音声認識結果の各々について、
前記音声認識結果から、前記音声信号における該音声認識結果に対応する区間の後の区間に対応する他の前記音声認識結果を除去した結果を出力する、
請求項５に記載の情報処理装置。
出力対象の前記音声認識結果の選択入力を受付ける受付部を備え、
前記出力制御部は、
複数の前記音声認識結果の内、受付けた出力対象の前記音声認識結果を出力する、
請求項５または請求項６に記載の情報処理装置。
音声信号から音声認識開始を示すトリガを検出するステップと、
検出された前記トリガに対応するトリガ付音声認識辞書を用いて、前記トリガを含むトリガ音区間に後続する認識音区間を音声認識するステップと、
を含む情報処理方法。
音声信号から音声認識開始を示すトリガを検出するステップと、
検出された前記トリガに対応するトリガ付音声認識辞書を用いて、前記トリガを含むトリガ音区間に後続する認識音区間を音声認識するステップと、
をコンピュータに実行させるためのプログラム。