JP6203343B2

JP6203343B2 - 音声認識方法及び音声認識装置

Info

Publication number: JP6203343B2
Application number: JP2016151383A
Authority: JP
Inventors: 剛樹西川
Original assignee: Panasonic Corp; Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Corp; Panasonic Holdings Corp
Priority date: 2015-11-19
Filing date: 2016-08-01
Publication date: 2017-09-27
Anticipated expiration: 2036-08-01
Also published as: JP2017097330A

Description

本開示は、特に音声認識の性能又はレスポンスを向上させるための音声認識方法又は音声認識装置に関する。

従来の音声認識方法では、音声認識の前処理として、符号化又は雑音除去などの音声処理が行われるが、その際にフレームごとに音声データが処理されていた。また、リアルタイム処理の場合、次のフレームにおいて、前のフレームのデータを処理し終わる必要がある。

特開昭５９−１９５２９８号公報

前述の音声処理を、処理リソースが限られたチップに実装する場合、音声認識の性能向上と音声認識のレスポンス向上とはトレードオフの関係にある。

本開示は、このようなトレードオフの関係にある、音声認識の性能とレスポンスとを適切に調整できる音声認識方法又は音声認識装置を提供することを目的とする。

上記目的を達成するために、本開示の一態様に係る音声認識方法は、処理区間に含まれる第１無音区間の長さを決定するための基準値を決定する基準値決定ステップと、互いに処理量が異なる複数の音声処理の処理モードから、前記基準値に応じて、使用する処理モードを決定する処理モード決定ステップと、前記処理区間を含む入力区間の音声情報から、前記基準値を用いて、対象区間と、前記対象区間の後の前記第１無音区間とを含む前記処理区間の音声情報を取得する終話判定ステップと、前記処理区間の音声情報のうち前記対象区間の音声情報に対して、決定された前記処理モードで音声処理を実行する音声処理ステップと、前記音声処理が実行された前記対象区間の音声情報に対して音声認識処理を実行する音声認識ステップとを含む。

なお、これらの全般的または具体的な態様は、システム、方法、集積回路、コンピュータプログラムまたはコンピュータ読み取り可能なＣＤ−ＲＯＭなどの記録媒体で実現されてもよく、システム、方法、集積回路、コンピュータプログラム及び記録媒体の任意な組み合わせで実現されてもよい。

本開示は、音声認識の性能とレスポンスとを適切に調整できる音声認識方法又は音声認識装置を提供できる。

図１は、音声処理を説明するための図である。図２は、実施の形態１に係る音声認識装置のブロック図である。図３は、実施の形態１に係る音声認識処理のフローチャートである。図４は、実施の形態１に係る音声処理を説明するための図である。図５は、実施の形態１に係る音声処理を説明するための図である。図６は、実施の形態２に係る音声認識装置のブロック図である。図７は、実施の形態２に係る音声認識処理のフローチャートである。図８は、実施の形態２に係る終話判定処理のフローチャートである。図９は、実施の形態２に係る終話判定処理を説明するための図である。図１０は、実施の形態３に係る音声認識装置のブロック図である。図１１は、実施の形態３に係る音声認識処理のフローチャートである。図１２は、実施の形態３に係る終話判定処理を説明するための図である。図１３は、実施の形態４に係る音声認識装置のブロック図である。図１４は、実施の形態５に係る音声認識システムのブロック図である。図１５は、実施の形態５に係る符号化処理のフローチャートである。図１６は、実施の形態５に係る音声認識処理のフローチャートである。図１７は、実施の形態６に係る音声認識装置のブロック図である。図１８は、実施の形態６に係る無音区間除去処理を説明するための図である。図１９は、実施の形態７に係る音声認識装置のブロック図である。図２０は、実施の形態７に係る処理モード更新処理のフローチャートである。

（本発明の基礎となった知見）
まず、音声処理後の音声情報を用いて音声認識処理を行った場合の課題について図１を用いて説明する。図１に示すように、音声情報に対して音声処理を行う際には、予め定められた期間Ｔのフレーム単位で音声処理が行われる。例えば、音声認識のレスポンスを向上するためには、図１に示すようにＭ個のフレームを処理する場合、このＭ個のフレームを処理期間（Ｔ×Ｍ）の間に処理することで必要がある。つまり、各フレームを時間Ｔ以内に処理する必要がある。

一方で、音声認識の性能を向上させるために、音声処理（例えば雑音除去処理）として性能の高い（つまり、処理負荷が高い）処理を用いた場合には、各フレームの処理時間がＳ＞Ｔとなり、Ｍ個のフレームの処理に要する時間はＳ×Ｍとなる。これにより、音声認識処理を開始するまでに遅延が発生し、その結果、音声認識のレスポンスが低下する。

このように、音声認識の性能向上を優先させた場合、高性能の音声処理を前処理として実施する必要があり、処理負荷の高い音声処理アルゴリズムを採用することになる。その結果、処理速度が遅くなり、音声認識のレスポンスが遅くなる、という課題があった。

また、音声認識のレスポンス向上を優先させた場合、処理負荷の高い音声処理アルゴリズムは採用できなくなり、高性能の音声処理を前処理として実施できない。その結果、音声認識の性能が悪くなる、という課題があった。

本開示の一態様に係る音声認識方法は、処理区間に含まれる第１無音区間の長さを決定するための基準値を決定する基準値決定ステップと、互いに処理量が異なる複数の音声処理の処理モードから、前記基準値に応じて、使用する処理モードを決定する処理モード決定ステップと、前記処理区間を含む入力区間の音声情報から、前記基準値を用いて、対象区間と、前記対象区間の後の前記第１無音区間とを含む前記処理区間の音声情報を取得する終話判定ステップと、前記処理区間の音声情報のうち前記対象区間の音声情報に対して、決定された前記処理モードで音声処理を実行する音声処理ステップと、前記音声処理が実行された前記対象区間の音声情報に対して音声認識処理を実行する音声認識ステップとを含む。

これによれば、第１無音区間の長さに応じて処理モードを変更することで、第１無音区間を利用して対象区間の音声情報に音声処理を行うことを考慮した処理モードを選択できる。これにより、当該音声認識方法は、音声認識の性能とレスポンスとを適切に調整できる。

例えば前記基準値決定ステップでは、前記基準値として、前記処理区間の終端を判定するための情報であり、前記第１無音区間の長さを示す閾値を決定し、前記処理モード決定ステップでは、前記閾値に基づいて前記処理モードを決定し、前記音声認識方法は、さらに、前記入力区間の音声情報から無音区間を検出する検出ステップを含み、前記終話判定ステップでは、無音区間の長さが前記閾値を超えた時刻を、前記処理区間の終端であると判定することで、前記入力区間の音声情報から前記処理区間の音声情報を抽出してもよい。

これによれば、入力された音声情報に応じて適応的に処理区間を設定できる。また、このよう適応的に処理区間を決定する場合において、閾値を用いて処理モードを変更することで、容易に処理モードを変更できる。

例えば、前記基準値決定ステップでは、前記基準値として、前記処理区間及び前記対象区間の長さを決定し、前記処理モード決定ステップでは、決定された前記処理区間の長さと前記対象区間の長さとの差分である前記第１無音区間の長さに基づいて、前記音声処理の処理モードを決定し、前記終話判定ステップでは、前記入力区間の音声情報から、前記決定された長さの前記処理区間の音声情報を抽出してもよい。

これによれば、予め定められた区間を抽出できるので処理量を低減できる。また、このよう固定時間長の処理区間を決定する場合において、当該固定区間長を用いて処理モードを変更することで、容易に処理モードを変更できる。

例えば、前記音声処理ステップでは、前記対象区間に含まれる無音区間を除去し、前記無音区間を除去した前記対象区間の音声情報に対して前記音声処理を実行してもよい。

これによれば、処理量を低減できるとともにレスポンスを向上できる。

例えば、前記音声認識方法は、さらに、決定された前記処理モードでの前記音声処理の処理時間を計測する処理時間計測ステップと、計測された前記処理時間に基づき、前記音声処理の処理モードを変更する処理モード変更ステップとを含んでもよい。

これによれば、実際に要した処理時間に応じて処理モードを調整できるので、音声認識の性能とレスポンスとをより適切に調整できる。

例えば、前記音声処理は、前記音声情報の雑音抑圧処理であり、前記処理モード決定ステップでは、前記処理モードとして、雑音抑圧アルゴリズム、又は雑音抑圧パラメータを決定してもよい。

例えば、前記音声処理は、前記音声情報の符号化処理であり、前記処理モード決定ステップでは、前記処理モードとして、符号化アルゴリズム、又は符号化パラメータを決定し、前記音声認識方法は、さらに、前記音声処理として符号化が実行された音声情報を音声認識装置に伝送する伝送ステップと、前記音声認識装置にて、伝送された前記音声情報を復号する復号ステップとを含み、前記音声認識ステップでは、前記音声認識装置により、復号された前記音声情報に対して前記音声認識処理が実行されてもよい。

例えば、音声処理ステップにおいて前記処理区間の時間長の間に前記対象区間の音声情報に前記音声処理が行われるように、前記処理モード決定ステップでは前記処理モードが決定されてもよい。

これによれば、第１無音区間を利用して対象区間の音声情報に音声処理を行うことができる。

また、本開示の一態様に係る音声認識装置は、処理区間に含まれる第１無音区間の長さを決定するための基準値を決定する基準値決定部と、互いに処理量が異なる複数の音声処理の処理モードから、前記基準値に応じて、使用する処理モードを決定する処理モード決定部と、前記処理区間を含む入力区間の音声情報を取得する音声取得部と、前記入力区間の音声情報から、前記基準値を用いて、対象区間と、前記対象区間の後の前記第１無音区間とを含む前記処理区間の音声情報を取得する終話判定部と、前記処理区間の音声情報のうち前記対象区間の音声情報に対して、決定された前記処理モードで音声処理を実行する音声処理部と、前記音声処理が実行された前記対象区間の音声情報に対して音声認識処理を実行する音声認識部とを備える。

これによれば、音声認識装置は、第１無音区間の長さに応じて処理モードを変更することで、第１無音区間を利用して対象区間の音声情報に音声処理を行うことを考慮した処理モードを選択できる。これにより、当該音声認識装置は、音声認識の性能とレスポンスとを適切に調整できる。

また、本開示の遺体用に係るプログラムは、前記音声認識方法をコンピュータに実行させるためのプログラムである。

なお、これらの包括的または具体的な態様は、システム、方法、集積回路、コンピュータプログラムまたはコンピュータ読み取り可能なＣＤ−ＲＯＭなどの記録媒体で実現されてもよく、システム、方法、集積回路、コンピュータプログラム及び記録媒体の任意な組み合わせで実現されてもよい。

以下、実施の形態について、図面を参照しながら具体的に説明する。なお、以下で説明する実施の形態は、いずれも本発明の一具体例を示すものである。以下の実施の形態で示される数値、形状、材料、構成要素、構成要素の配置位置及び接続形態、ステップ、ステップの順序などは、一例であり、本発明を限定する主旨ではない。また、以下の実施の形態における構成要素のうち、最上位概念を示す独立請求項に記載されていない構成要素については、任意の構成要素として説明される。

（実施の形態１）
本実施の形態に係る音声認識装置は、処理区間に含まれる無音区間の長さに応じて、音声処理の処理モードを変更する。これにより、当該音声認識装置は、音声認識の性能とレスポンスとを適切に調整できる。

まず、本実施の形態に係る音声認識装置の構成を説明する。図１は、本実施の形態に係る音声認識装置１００の構成を示すブロック図である。図１に示す音声認識装置１００は、音声情報に対して音声処理を実行し、音声処理後の音声情報を用いて音声認識処理を行う。この音声認識装置１００は、例えば、ユーザと端末とが音声によりリアルタイムに音声翻訳を行う音声翻訳システムやリアルタイムに対話を行う音声対話システム等に用いられる。

音声認識装置１００は、基準値決定部１０１と、処理モード決定部１０２と、音声取得部１０３と、終話判定部１０４と、音声処理部１０５と、音声認識部１０６とを備える。なお、音声認識装置１００の機能は、単一の装置により実現されてもよい、複数の装置により実現されてもよい。

次に、音声認識装置１００による音声認識処理について説明する。図３は、当該音声認識処理のフローチャートである。図４及び図５は、音声情報及び音声処理を説明するための模式図である。

まず、基準値決定部１０１は、処理区間に含まれる無音区間（第１無音区間）の長さを決定するための基準値を決定する（Ｓ１０１）。

なお、上述したように、音声情報に対して、予め定められた期間Ｔのフレームが設定され、当該フレーム単位で音声処理が行われる。

また、処理区間とは、例えば、１発話に対応する音声区間であり、音声認識処理の処理単位に相当する。処理区間は、図４に示すように、例えば有音区間である対象区間と、対象区間の後の無音区間（第１無音区間）とを含む。具体的には、対象区間は、処理区間の先頭に位置する。また、無音区間は、対象区間の直後であり、かつ、処理区間の終端に位置する。

なお、有音区間とは、音声が含まれる区間であり、具体的には、音声情報で示される音声強度が、予め定められた値以上の区間である。また、無音区間とは、音声が含まれない区間であり、具体的には、音声情報で示される音声強度が、上記値未満の区間である。なお、各フレームの音声強度とは、当該フレームに含まれる複数のサンプルの平均値、最大値、又は中央値等である。なお、有音区間や無音区間を決める際には、雑音除去後の音声に対する音声強度を用いても構わない。また、音声強度ではなく、音声らしさを測る尤度を使用しても構わない。

また、対象区間とは、音声処理が行われる区間であり、無音区間（第１無音区間）とは、音声処理が行われない非対象区間である。

次に、処理モード決定部１０２は、ステップＳ１０１で決定された基準値に応じて、処理区間に含まれる無音区間が長いか否かを判定する（Ｓ１０２）。具体的には、処理モード決定部１０２は、基準値に応じて、処理区間に含まれる無音区間の長さが予め定められた値より長いかを判定する。無音区間が長い場合（Ｓ１０２でＹｅｓ）、処理モード決定部１０２は、高処理量かつ高性能の処理モードを選択する（Ｓ１０３）。なお、上述したように処理量（処理負荷）と、処理性能とはトレードオフの関係にある。また、処理モードとは、例えば、音声処理アルゴリズム又は音声処理パラメータである。

一方、無音区間が短い場合（Ｓ１０２でＮｏ）、処理モード決定部１０２は、低処理量かつ低性能の処理モードを選択する（Ｓ１０４）。

なお、ここでは、簡単化のため、２つの処理モードのみが存在する例を示しているが、処理モードは複数であれてばよい。つまり、複数の閾値が用いられ、無音区間が長いほど高処理量の処理モードが用いられてもよい。

このように、処理モード決定部１０２は、互いに処理量が異なる複数の音声処理の処理モードから、基準値に応じて、使用する処理モードを決定する。言い換えると、処理モード決定部１０２は、処理区間に含まれる無音区間の長さに応じて、使用する処理モードを決定する。

次に、音声取得部１０３は、時系列に入力される音声情報を順次取得する。つまり、音声取得部１０３は、処理区間を含む入力区間の音声情報を取得する。終話判定部１０４は、入力区間の音声情報から、基準値を用いて、処理区間の音声情報を取得する（Ｓ１０５）。なお、基準値の具体例、及び、時系列に入力される音声情報から基準値を用いて処理区間を決定する方法については、実施の形態２及び実施の形態３で詳しく説明する。

次に、音声処理部１０５は、処理区間の音声情報のうち対象区間の音声情報に対して、ステップＳ１０３又はＳ１０４で決定された処理モードで音声処理を実行する（Ｓ１０６）。つまり、音声処理部１０５は、対象区間の音声情報に対してのみ音声処理を実行し、無音区間の音声情報に対しては音声処理を実行しない。また、音声処理とは、例えば、雑音抑制処理等である。

なお、図３では、音声情報の取得（Ｓ１０５）と、音声処理（Ｓ１０６）とを個別の処理として記載しているが、これらの処理は並列に行われてもよい。例えば、フレーム単位で音声情報の取得と音声処理とが連続的に行われてもよい。つまり、対象区間の音声情報の全てが取得された後に、対象区間の音声情報の音声処理を行う必要はなく、取得されたフレームの音声情報が順に音声処理が行われてもよい。

次に、音声認識部１０６は、ステップＳ１０５で音声処理が実行された音声情報に対して音声認識処理を実行する（Ｓ１０７）。具体的には、音声認識部１０６は、音声情報を、発話内容を示すテキストデータに変換する。また、このテキストデータで示される発話内容に応じて音声翻訳処理が行われる。

ここで本実施の形態では、処理区間に含まれる無音区間も対象区間の音声処理に利用される。つまり、ステップＳ１０３及びＳ１０４では、音声処理において処理区間の時間長の間に対象区間の音声情報に音声処理が行われるように処理モードが決定される。具体的には、図４に示すように、対象区間の音声処理に、当該対象区間だけでなく、対象区間に無音区間を加えた処理区間が処理期間として割り当てられる。例えば、図４に示すように、対象区間がＮフレームであり、無音区間がｎフレームである場合には、Ｎ＋ｎフレームに相当する処理期間において、Ｎフレームの対象区間の音声処理が行われる。これにより、各フレームの処理時間として（Ｔ×（Ｎ＋ｎ））／Ｎを割り当てることが可能となり、図１に示す場合に比べて、各フレームの処理時間を長くできる。これにより、より高性能（高負荷）の処理モードを使用できるので、音声処理の性能を向上できる。これにより、音声認識の性能も向上できる。

ここで、音声認識で利用される発話では、発話区間（有音区間）の後に発話の区切りとなる無音区間が存在する。本実施の形態では、この無音区間を発話区間である対象区間の音声処理に利用することで、より高性能の処理を実現できる。また、上述した処理モードの決定において、このように無音区間を利用する場合を前提とした適切な処理モードを決定できる。つまり、無音区間の長さに応じて処理モードを変更することにより、無音区間を利用して対象区間の音声情報に音声処理を行うことを考慮した処理モードを選択できる。

例えば、図５は、図４に対して、無音区間が長い場合の動作例を示す。図５に示すように、無音区間がｌフレーム（ｌ＞ｎ）であり、図４に示すｎフレームより長い場合には、各フレームの処理に割り当てられる時間（Ｔ×（Ｎ＋ｌ））／Ｎも長くなるように処理モードが決定される。

なお、図４及び図５では、対象区間の音声処理に割り当てられる処理期間が、処理区間と等しい例を示しているが、必ずしも処理期間は処理区間と等しい必要はなく、処理期間は処理区間より短くてもよいし、長くてもよい。

（実施の形態２）
本実施の形態では、時系列に入力される音声情報から処理区間を決定する第１の方法について説明する。なお、以下では、先の実施の形態との相違点を主に説明し、重複する説明は省略する。

図６は、本実施の形態に係る音声認識装置１００Ａの構成を示すブロック図である。図６に示す音声認識装置１００Ａは、図２に示す基準値決定部１０１の一例である閾値決定部１０１Ａと、図２に示す終話判定部１０４の一例である終話判定部１０４Ａとを備える。また、音声認識装置１００Ａは、さらに、検出部１０７を備える。

検出部１０７は、入力区間の音声情報から無音区間を検出する。具体的には、検出部１０７は時系列に入力される音声情報の各フレームが有音区間であるか無音区間であるかを判定する。

閾値決定部１０１Ａは、処理区間の終端を判定するための情報であり、処理区間に含まれる無音区間（第１無音区間）の長さを示す閾値Ｔ０を決定する。

終話判定部１０４Ａは、決定された閾値Ｔ０を用いて、時系列に入力される音声情報から処理区間の音声情報を抽出する。

図７は、本実施の形態に係る音声認識処理のフローチャートである。まず、閾値決定部１０１Ａは、閾値Ｔ０を決定する（Ｓ１０１Ａ）。例えば、この閾値Ｔ０は数百ｍ秒程度である。

次に、処理モード決定部１０２は、閾値Ｔ０に基づいて処理モードを決定する（Ｓ１０２Ａ）。具体的には、処理モード決定部１０２は、閾値Ｔ０が予め定められた値より長いかを判定する。閾値Ｔ０が長い場合（Ｓ１０２ＡでＹｅｓ）、処理モード決定部１０２は、高処理量かつ高性能の処理モードを選択する（Ｓ１０３）。一方、閾値Ｔ０が短い場合（Ｓ１０２ＡでＮｏ）、処理モード決定部１０２は、低処理量かつ低性能の処理モードを選択する（Ｓ１０４）。なお、処理モードは複数であればよく、３段階以上の切り替えが用いられ、例えば、閾値Ｔ０が長いほど高処理量の処理モードが用いられてもよい。

なお、ステップＳ１０１Ａにおける閾値Ｔ０の決定方法としては、以下の方法を用いることができる。例えば、閾値決定部１０１Ａは、予め設定されているパラメータ等に基づき、閾値を決定してもよい。このパラメータ等の設定は、システム開発時に行われてもよいし、ユーザにより設定されてもよい。つまり、閾値Ｔ０は、外部からの入力又は操作に基づき決定されてもよい。この場合、使用時には動的に閾値Ｔ０が変化しないため、ステップＳ１０１Ａの閾値決定処理は、所定のタイミングで一度のみ行われればよい。

または、閾値決定部１０１Ａは、この閾値Ｔ０を動的に変更してもよい。例えば、音声認識装置１００は、音声情報に基づき、発話者を識別し、識別した発話者に適した閾値Ｔ０を動的に設定してもよい。例えば、発話者の年齢等に応じて閾値Ｔ０を変更することが考えられる。なお、発話者の年齢等の閾値Ｔ０の変更に用いる情報は、発話者毎に予め登録されていてもよい。また、発話者毎の閾値又は閾値を変更するためのパラメータ（例えば、会話速度の速さを示す情報）が予め登録されており、閾値決定部１０１Ａはこれらの情報を用いて閾値Ｔ０を変更してもよい。また、閾値Ｔ０は、音声対話のシーン等に応じて変更されてもよい。例えば、発話者の発話内容が、「はい」、「いいえ」等の単純な回答と想定される場合と、長文になると想定される場合とで異なる閾値Ｔ０が設定されてもよい。

次に、終話判定部１０４Ａは、ステップＳ１０１Ａで決定された閾値Ｔ０を用いて、時系列に入力される音声情報から処理区間の音声情報を抽出する（Ｓ１０５Ａ）。

図８は、この処理区間抽出処理（Ｓ１０５Ａ）のフローチャートである。まず、処理区間の先頭が判定される。具体的には、音声取得部１０３は、ある時刻において１フレームの音声情報を取得する（Ｓ１１１）。次に、検出部１０７は、当該フレームが有音区間であるか無音区間であるかを判定する（Ｓ１１２）。

フレームが無音区間である場合（Ｓ１１２でＮｏ）、次のフレームに対してステップＳ１１１以降の処理が行われる。一方、フレームが有音区間である場合（Ｓ１１２でＹｅｓ）、終話判定部１０４Ａは、当該フレームを処理区間の先頭のフレームに設定する（Ｓ１１３）。

次に、処理区間の終端が判定される。具体的には、音声取得部１０３は、次の１フレームの音声情報を取得する（Ｓ１１４）。検出部１０７は、当該フレームが無音区間であるかを判定する（Ｓ１１５）。当該フレームが無音区間である場合（Ｓ１１５でＹｅｓ）、終話判定部１０４Ａは、当該フレームを含む連続する無音区間の長さが閾値Ｔ０以上になったかを判定する（Ｓ１１６）。無音区間の長さが閾値Ｔ０以上になった場合（Ｓ１１６でＹｅｓ）、終話判定部１０４Ａは、当該フレームを処理区間の終端のフレームに設定する（Ｓ１１７）。

また、上記以外の場合（Ｓ１１５でＮｏ、又はＳ１１６でＮｏ）、次のフレームに対してステップＳ１１４以降の処理が行われる。

つまり、図９に示すように、終話判定部１０４Ａは、無音区間の長さが閾値Ｔ０を超えた時刻（フレーム）を処理区間の終端と判定することで、入力区間の音声情報から処理区間の音声情報を抽出する。

実施の形態１と同様に、次に、音声処理部１０５は、対象区間の音声情報に対して音声処理を実行する（Ｓ１０６）。なお、実施の形態１と同様に、音声情報の取得（Ｓ１０５Ａ）と、音声処理（Ｓ１０６）とは、例えば、フレーム単位で行われてもよい。次に、音声認識部１０６は、音声処理が実行された音声情報に対して音声認識処理を実行する（Ｓ１０７）。

以上のように、本実施の形態に係る音声認識装置１００Ａは、入力された音声情報に応じて適応的に処理区間を設定できる。また、このよう適応的に処理区間を決定する場合において、閾値Ｔ０を用いて処理モードを変更することで、容易に処理モードを変更できる。

（実施の形態３）
本実施の形態では、時系列に入力される音声情報から処理区間を決定する第２の方法について説明する。本実施の形態では、無音区間を判定することなく予め定められた長さの区間を処理区間として抽出する。例えば、発話者の発話内容が、「はい」、「いいえ」等の単純な回答と想定される場合等には、有音区間（対象区間）の長さを予想することが可能である。よって、この予想に基づき、予め処理区間、対象区間、及び無音区間の長さを決定しておくことが可能である。

図１０は、本実施の形態に係る音声認識装置１００Ｂの構成を示すブロック図である。図６に示す音声認識装置１００Ａは、図２に示す基準値決定部１０１の一例である区間決定部１０１Ｂと、図２に示す終話判定部１０４の一例である終話判定部１０４Ｂとを備える。

区間決定部１０１Ｂは、処理区間の長さである処理区間長Ｔ１及び対象区間の長さである対象区間長Ｔ２を決定する。なお、処理区間長Ｔ１及び対象区間長Ｔ２の決定方法としては、上述した閾値Ｔ０と同様の方法を用いることができる。

終話判定部１０４Ｂは、入力区間の音声情報から、処理区間長Ｔ１の音声情報を抽出する。

図１１は、本実施の形態に係る音声認識処理のフローチャートである。まず、区間決定部１０１Ｂは、処理区間長Ｔ１及び対象区間長Ｔ２を決定する（Ｓ１０１Ｂ）。

次に、処理モード決定部１０２は、図１２に示すように、処理区間長Ｔ１と対象区間長Ｔ２との差分Ｔ１−Ｔ２を無音区間の長さである無音区間長として算出する。次に、処理モード決定部１０２は、算出された無音区間長に基づいて処理モードを決定する（Ｓ１０２Ｂ）。具体的には、処理モード決定部１０２は、無音区間長が予め定められた値より長いかを判定する。無音区間長が長い場合（Ｓ１０２ＢでＹｅｓ）、処理モード決定部１０２は、高処理量かつ高性能の処理モードを選択する（Ｓ１０３）。一方、無音区間長が短い場合（Ｓ１０２ＢでＮｏ）、処理モード決定部１０２は、低処理量かつ低性能の処理モードを選択する（Ｓ１０４）。なお、処理モードは複数であれてばよく、３段階以上の切り替えが用いられ、例えば、無音区間長が長いほど高処理量の処理モードが用いられてもよい。

なお、上記説明では、区間決定部１０１Ｂにおいて、処理区間長と対象区間長とが決定されているか、処理区間長、対象区間長及び無音区間長とのうちいずれか二つが決定さればよい。この場合、他の一つの区間長は、決定された二つの区間長から算出できる。さらに、これらのうちいずれか一つの区間長を固定とし、他の二つの区間のうち一つの区間のみが決定されてもよい。また、この場合において、処理区間長又は対象区間長を用いて無音区間長を一意に特定できる場合には、処理モード決定部１０２は、処理区間長又は対象区間長に応じて処理モードを決定してもよい。例えば、対象区間長が固定の場合には、処理区間長に応じて無音区間長も変化するので、処理区間長に応じて処理モードを決定することができる。

次に、終話判定部１０４Ｂは、時系列に入力される音声情報から、ステップＳ１０１Ｂで決定された処理区間長Ｔ１の処理区間の音声情報を抽出する（Ｓ１０５Ｂ）。例えば、終話判定部１０４Ｂは、処理区間の先頭を、図８と同様の方法により検出する。次に、終話判定部１０４Ｂは、当該先頭から処理区間長Ｔ１の音声情報を処理区間の音声情報と判定する。また、終話判定部１０４Ｂは、当該先頭から対象区間長Ｔ２の音声情報を対象区間の音声情報と判定する。また、終話判定部１０４Ｂは、対象区間の終端から処理区間の終端までを無音区間と判定する。

実施の形態１と同様に、次に、音声処理部１０５は、対象区間の音声情報に対して音声処理を実行する（Ｓ１０６）。なお、実施の形態１と同様に、音声情報の取得（Ｓ１０５Ｂ）と、音声処理（Ｓ１０６）とは、例えば、フレーム単位で行われてもよい。次に、音声認識部１０６は、音声処理が実行された音声情報に対して音声認識処理を実行する（Ｓ１０７）。

以上のように、本実施の形態に係る音声認識装置１００Ｂは、予め定められた区間を抽出できるので処理量を低減できる。また、このよう固定時間長の処理区間を決定する場合において、当該固定区間長を用いて処理モードを変更することで、容易に処理モードを変更できる。

（実施の形態４）
本実施の形態では、音声処理の具体例として雑音抑制処理を行う場合を説明する。図１３は、本実施の形態に係る音声認識装置１００Ｃの構成を示すブロック図である。図１３に示すように、音声認識装置１００Ｃは、処理モード決定部１０２の具体例である雑音抑制モード決定部１０２Ｃと、音声処理部１０５の具体例である雑音抑制部１０５Ｃとを備える。

雑音抑制モード決定部１０２Ｃは、上記処理モードとして、雑音抑圧アルゴリズム、又は雑音抑圧パラメータを決定する。雑音抑制部１０５Ｃは、決定された雑音抑圧アルゴリズム、又は雑音抑圧パラメータに基づく雑音抑制処理を、対象区間の音声情報に対して行う。

（実施の形態５）
本実施の形態では、音声処理の具体例として符号化処理を行う場合を説明する。図１４は、本実施の形態に係る音声認識システム１００Ｄの構成を示すブロック図である。この音声認識システム１００Ｄは、音声情報を符号化する音声符号化装置１２１と、音声認識装置１２２とを含む。

音声符号化装置１２１は、基準値決定部１０１と、処理モード決定部１０２の具体例である符号化モード決定部１０２Ｄと、音声取得部１０３と、終話判定部１０４と、音声処理部１０５の具体例である符号化部１０５Ｄと、伝送部１２３とを備える。音声認識装置１２２は、復号部１２４と、音声認識部１０６とを備える。

図１５は、音声符号化装置１２１による音声符号化処理のフローチャートである。なお、ステップＳ１０１〜Ｓ１０２、Ｓ１０５の処理は、図３と同様である。

符号化モード決定部１０２Ｄは、上記処理モードとして、符号化アルゴリズム、又は符号化パラメータを決定する（Ｓ１０３、Ｓ１０４）。また、符号化部１０５Ｄは、決定された符号化アルゴリズム、又は符号化パラメータに基づく符号化処理を、対象区間の音声情報に対して行う（Ｓ１２１）。次に、伝送部１２３は、符号化が実行された音声情報を音声認識装置１２２に伝送する（Ｓ１２２）。

図１６は、音声認識装置１２２による音声認識処理のフローチャートである。まず、復号部１２４は、音声符号化装置１２１から伝送された、符号化された音声情報を取得し（Ｓ１３１）、当該音声情報を復号する（Ｓ１３２）。音声認識部１０６は、復号された音声情報に対して音声認識処理を実行する（Ｓ１３３）。なお、音声認識処理の詳細は、実施の形態１と同様である。

なお、ここでは、音声処理が雑音抑制処理又は符号化処理である例を述べたが、音声処理は他の処理であってもよい。例えば、音源の方向を推定する方向推定等であってもよい。

（実施の形態６）
本実施の形態では、実施の形態２の変形例について説明する。図１７は、本実施の形態に係る音声認識装置１００Ｅの構成を示すブロック図である。この音声認識装置１００Ｅは、図６に示す音声認識装置１００Ａの構成に加え、さらに、無音区間除去部１３１を備える。

無音区間除去部１３１は、対象区間に含まれる無音区間を除去する。音声処理部１０５は、無音区間を除去した対象区間の音声情報に対して音声処理を実行する。

例えば、図１８に示す例では、フレームＪは無音区間であるが、無音区間の長さが閾値Ｔ０より短いため、対象区間に含まれる。無音区間除去部１３１は、このフレームＪを対象区間から除去する。

これにより、音声処理部１０５において、フレームＪの処理が不要となるため、処理量を低減できるとともにレスポンスを向上できる。

なお、ここでは、実施の形態２の構成をベースに本変形例を適用した例を説明したが、実施の形態３の構成に対しても同様の変形例を適用できる。

（実施の形態７）
本実施の形態では、実施の形態１の変形例について説明する。図１９は、本実施の形態に係る音声認識装置１００Ｆの構成を示すブロック図である。この音声認識装置１００Ｅは、実施の形態１に係る音声認識装置１００に対して、処理モード決定部１０２Ｆ及び音声処理部１０５Ｆに機能が追加されている。

図２０は、音声認識装置１００Ｆによる追加機能のフローチャートである。まず、音声処理部１０５Ｆは、例えば、図３に示す音声処理（Ｓ１０６）を行った後、当該音声処理に要した処理時間を計測する（Ｓ１４１）。

次に、処理モード決定部１０２は、計測された処理時間に基づき、音声処理の処理モードを変更する。具体的には、処理モード決定部１０２Ｆは、計測された処理時間が基準値以上であるかを判定する（Ｓ１４２）。ここで基準値とは、例えば、上記処理期間であり、想定されている処理時間の上限値である。

処理時間が基準値以上である場合（Ｓ１４２でＹｅｓ）、処理モード決定部１０２Ｆは、現在の処理モード（図３に示すステップＳ１０３又はＳ１０４で決定された処理モード）より処理量が少ない処理モードに、使用する処理モードを変更する（Ｓ１４３）。一方、処理時間が基準値未満である場合（Ｓ１４２でＮｏ）、処理モード決定部１０２Ｆは、処理モードの変更は行わない。

また、図２０に示す処理は、例えば、処理区間毎に行われる。なお、図２０に示す処理は、複数の処理区間を含む所定の周期で行われてもよい。この場合、当該周期に含まれる複数処理区間の処理時間の平均値等に基づき処理が行われてもよい。

これにより、音声認識装置１００Ｆは、実際に要した処理時間に応じて処理モードを調整できるので、音声認識の性能とレスポンスとをより適切に調整できる。

以上、本開示の実施の形態に係る音声認識装置及び音声認識システムについて説明したが、本開示は、この実施の形態に限定されるものではない。

例えば、上記実施の形態に係る音声認識装置又は音声認識システムに含まれる各処理部は典型的には集積回路であるＬＳＩとして実現される。これらは個別に１チップ化されてもよいし、一部又は全てを含むように１チップ化されてもよい。

また、集積回路化はＬＳＩに限るものではなく、専用回路又は汎用プロセッサで実現してもよい。ＬＳＩ製造後にプログラムすることが可能なＦＰＧＡ（ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）、又はＬＳＩ内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル・プロセッサを利用してもよい。

また、上記各実施の形態において、各構成要素は、専用のハードウェアで構成されるか、各構成要素に適したソフトウェアプログラムを実行することによって実現されてもよい。各構成要素は、ＣＰＵまたはプロセッサなどのプログラム実行部が、ハードディスクまたは半導体メモリなどの記録媒体に記録されたソフトウェアプログラムを読み出して実行することによって実現されてもよい。

また、本開示は、音声認識装置又は音声認識システムにより実行される音声認識方法として実現されてもよい。

また、上記で用いた数字は、全て本開示を具体的に説明するために例示するものであり、本開示は例示された数字に制限されない。また、ブロック図における機能ブロックの分割は一例であり、複数の機能ブロックを一つの機能ブロックとして実現したり、一つの機能ブロックを複数に分割したり、一部の機能を他の機能ブロックに移してもよい。また、類似する機能を有する複数の機能ブロックの機能を単一のハードウェア又はソフトウェアが並列又は時分割に処理してもよい。

また、フローチャートにおける各ステップが実行される順序は、本開示を具体的に説明するために例示するためのものであり、上記以外の順序であってもよい。また、上記ステップの一部が、他のステップと同時（並列）に実行されてもよい。

以上、一つまたは複数の態様に係る音声認識装置について、実施の形態に基づいて説明したが、本開示は、この実施の形態に限定されるものではない。本開示の趣旨を逸脱しない限り、当業者が思いつく各種変形を本実施の形態に施したものや、異なる実施の形態における構成要素を組み合わせて構築される形態も、一つまたは複数の態様の範囲内に含まれてもよい。

本開示は、音声認識装置及び音声認識システムに適用でき、例えば、音声対話システム等に適用できる。

１００、１００Ａ、１００Ｂ、１００Ｃ、１００Ｅ、１００Ｆ、１２２音声認識装置
１００Ｄ音声認識システム
１０１基準値決定部
１０１Ａ閾値決定部
１０１Ｂ区間決定部
１０２、１０２Ｆ処理モード決定部
１０２Ｃ雑音抑制モード決定部
１０２Ｄ符号化モード決定部
１０３音声取得部
１０４、１０４Ａ、１０４Ｂ終話判定部
１０５、１０５Ｆ音声処理部
１０５Ｃ雑音抑制部
１０５Ｄ符号化部
１０６音声認識部
１０７検出部
１２１音声符号化装置
１２３伝送部
１２４復号部
１３１無音区間除去部

Claims

音声認識方法であって、
処理区間に含まれる第１無音区間の長さを決定するための基準値を決定する基準値決定ステップと、
互いに処理量が異なる複数の音声処理の処理モードから、前記基準値に応じて、使用する処理モードを決定する処理モード決定ステップと、
前記処理区間を含む入力区間の音声情報から、前記基準値を用いて、対象区間と、前記対象区間の後の前記第１無音区間とを含む前記処理区間の音声情報を取得する終話判定ステップと、
前記処理区間の音声情報のうち前記対象区間の音声情報に対して、決定された前記処理モードで音声処理を実行する音声処理ステップと、
前記音声処理が実行された前記対象区間の音声情報に対して音声認識処理を実行する音声認識ステップとを含み、
前記基準値決定ステップでは、前記基準値として、前記処理区間の終端を判定するための情報であり、前記第１無音区間の長さを示す閾値を決定し、
前記処理モード決定ステップでは、前記閾値に基づいて前記処理モードを決定し、
前記音声認識方法は、さらに、
前記入力区間の音声情報から無音区間を検出する検出ステップを含み、
前記終話判定ステップでは、無音区間の長さが前記閾値を超えた時刻を、前記処理区間の終端であると判定することで、前記入力区間の音声情報から前記処理区間の音声情報を抽出し、
前記音声処理は、前記音声情報の雑音抑圧処理であり、
前記処理モード決定ステップでは、前記処理モードとして、雑音抑圧アルゴリズム、又は雑音抑圧パラメータを決定する
音声認識方法。
音声認識方法であって、
処理区間に含まれる第１無音区間の長さを決定するための基準値を決定する基準値決定ステップと、
互いに処理量が異なる複数の音声処理の処理モードから、前記基準値に応じて、使用する処理モードを決定する処理モード決定ステップと、
前記処理区間を含む入力区間の音声情報から、前記基準値を用いて、対象区間と、前記対象区間の後の前記第１無音区間とを含む前記処理区間の音声情報を取得する終話判定ステップと、
前記処理区間の音声情報のうち前記対象区間の音声情報に対して、決定された前記処理モードで音声処理を実行する音声処理ステップと、
前記音声処理が実行された前記対象区間の音声情報に対して音声認識処理を実行する音声認識ステップとを含み、
前記基準値決定ステップでは、前記基準値として、前記処理区間の終端を判定するための情報であり、前記第１無音区間の長さを示す閾値を決定し、
前記処理モード決定ステップでは、前記閾値に基づいて前記処理モードを決定し、
前記音声認識方法は、さらに、
前記入力区間の音声情報から無音区間を検出する検出ステップを含み、
前記終話判定ステップでは、無音区間の長さが前記閾値を超えた時刻を、前記処理区間の終端であると判定することで、前記入力区間の音声情報から前記処理区間の音声情報を抽出し、
前記音声処理は、前記音声情報の符号化処理であり、
前記処理モード決定ステップでは、前記処理モードとして、符号化アルゴリズム、又は符号化パラメータを決定し、
前記音声認識方法は、さらに、
前記音声処理として符号化が実行された音声情報を音声認識装置に伝送する伝送ステップと、
前記音声認識装置にて、伝送された前記音声情報を復号する復号ステップとを含み、
前記音声認識ステップでは、前記音声認識装置により、復号された前記音声情報に対して前記音声認識処理が実行される
音声認識方法。
前記音声処理ステップでは、前記対象区間に含まれる無音区間を除去し、前記無音区間を除去した前記対象区間の音声情報に対して前記音声処理を実行する
請求項１又は２記載の音声認識方法。
前記音声認識方法は、さらに、
決定された前記処理モードでの前記音声処理の処理時間を計測する処理時間計測ステップと、
計測された前記処理時間に基づき、前記音声処理の処理モードを変更する処理モード変更ステップとを含む
請求項１〜３のいずれか１項に記載の音声認識方法。
前記音声処理ステップにおいて前記処理区間の時間長の間に前記対象区間の音声情報に前記音声処理が行われるように、前記処理モード決定ステップでは前記処理モードが決定される
請求項１〜４のいずれか１項に記載の音声認識方法。
音声認識装置であって、
処理区間に含まれる第１無音区間の長さを決定するための基準値を決定する基準値決定部と、
互いに処理量が異なる複数の音声処理の処理モードから、前記基準値に応じて、使用する処理モードを決定する処理モード決定部と、
前記処理区間を含む入力区間の音声情報を取得する音声取得部と、
前記入力区間の音声情報から、前記基準値を用いて、対象区間と、前記対象区間の後の前記第１無音区間とを含む前記処理区間の音声情報を取得する終話判定部と、
前記処理区間の音声情報のうち前記対象区間の音声情報に対して、決定された前記処理モードで音声処理を実行する音声処理部と、
前記音声処理が実行された前記対象区間の音声情報に対して音声認識処理を実行する音声認識部とを備える
前記基準値決定部は、前記基準値として、前記処理区間の終端を判定するための情報であり、前記第１無音区間の長さを示す閾値を決定し、
前記処理モード決定部は、前記閾値に基づいて前記処理モードを決定し、
前記音声認識装置は、さらに、
前記入力区間の音声情報から無音区間を検出する検出部を備え、
前記終話判定部は、無音区間の長さが前記閾値を超えた時刻を、前記処理区間の終端であると判定することで、前記入力区間の音声情報から前記処理区間の音声情報を抽出し、
前記音声処理は、前記音声情報の雑音抑圧処理であり、
前記処理モード決定部は、前記処理モードとして、雑音抑圧アルゴリズム、又は雑音抑圧パラメータを決定する
音声認識装置。
音声認識装置であって、
処理区間に含まれる第１無音区間の長さを決定するための基準値を決定する基準値決定部と、
互いに処理量が異なる複数の音声処理の処理モードから、前記基準値に応じて、使用する処理モードを決定する処理モード決定部と、
前記処理区間を含む入力区間の音声情報から、前記基準値を用いて、対象区間と、前記対象区間の後の前記第１無音区間とを含む前記処理区間の音声情報を取得する終話判定部と、
前記処理区間の音声情報のうち前記対象区間の音声情報に対して、決定された前記処理モードで音声処理を実行する音声処理部と、
前記音声処理が実行された前記対象区間の音声情報に対して音声認識処理を実行する音声認識部とを備え、
前記基準値決定部は、前記基準値として、前記処理区間の終端を判定するための情報であり、前記第１無音区間の長さを示す閾値を決定し、
前記処理モード決定部は、前記閾値に基づいて前記処理モードを決定し、
前記音声認識装置は、さらに、
前記入力区間の音声情報から無音区間を検出する検出部を備え、
前記終話判定部は、無音区間の長さが前記閾値を超えた時刻を、前記処理区間の終端であると判定することで、前記入力区間の音声情報から前記処理区間の音声情報を抽出し、
前記音声処理は、前記音声情報の符号化処理であり、
前記処理モード決定部は、前記処理モードとして、符号化アルゴリズム、又は符号化パラメータを決定し、
前記音声認識装置は、さらに、
前記音声処理として符号化が実行された音声情報を復号する復号部を含み、
前記音声認識部は、復号された前記音声情報に対して前記音声認識処理を実行する
音声認識装置。
請求項１記載の音声認識方法をコンピュータに実行させるための
プログラム。
請求項２記載の音声認識方法をコンピュータに実行させるための
プログラム。