JP6203343B2 - 音声認識方法及び音声認識装置 - Google Patents

音声認識方法及び音声認識装置 Download PDF

Info

Publication number
JP6203343B2
JP6203343B2 JP2016151383A JP2016151383A JP6203343B2 JP 6203343 B2 JP6203343 B2 JP 6203343B2 JP 2016151383 A JP2016151383 A JP 2016151383A JP 2016151383 A JP2016151383 A JP 2016151383A JP 6203343 B2 JP6203343 B2 JP 6203343B2
Authority
JP
Japan
Prior art keywords
processing
section
voice
speech
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016151383A
Other languages
English (en)
Other versions
JP2017097330A5 (ja
JP2017097330A (ja
Inventor
剛樹 西川
剛樹 西川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Corp
Panasonic Holdings Corp
Original Assignee
Panasonic Corp
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Corp, Matsushita Electric Industrial Co Ltd filed Critical Panasonic Corp
Priority to US15/344,653 priority Critical patent/US10079020B2/en
Priority to EP16198319.2A priority patent/EP3171360B1/en
Publication of JP2017097330A publication Critical patent/JP2017097330A/ja
Publication of JP2017097330A5 publication Critical patent/JP2017097330A5/ja
Application granted granted Critical
Publication of JP6203343B2 publication Critical patent/JP6203343B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Telephonic Communication Services (AREA)

Description

本開示は、特に音声認識の性能又はレスポンスを向上させるための音声認識方法又は音声認識装置に関する。
従来の音声認識方法では、音声認識の前処理として、符号化又は雑音除去などの音声処理が行われるが、その際にフレームごとに音声データが処理されていた。また、リアルタイム処理の場合、次のフレームにおいて、前のフレームのデータを処理し終わる必要がある。
特開昭59−195298号公報
前述の音声処理を、処理リソースが限られたチップに実装する場合、音声認識の性能向上と音声認識のレスポンス向上とはトレードオフの関係にある。
本開示は、このようなトレードオフの関係にある、音声認識の性能とレスポンスとを適切に調整できる音声認識方法又は音声認識装置を提供することを目的とする。
上記目的を達成するために、本開示の一態様に係る音声認識方法は、処理区間に含まれる第1無音区間の長さを決定するための基準値を決定する基準値決定ステップと、互いに処理量が異なる複数の音声処理の処理モードから、前記基準値に応じて、使用する処理モードを決定する処理モード決定ステップと、前記処理区間を含む入力区間の音声情報から、前記基準値を用いて、対象区間と、前記対象区間の後の前記第1無音区間とを含む前記処理区間の音声情報を取得する終話判定ステップと、前記処理区間の音声情報のうち前記対象区間の音声情報に対して、決定された前記処理モードで音声処理を実行する音声処理ステップと、前記音声処理が実行された前記対象区間の音声情報に対して音声認識処理を実行する音声認識ステップとを含む。
なお、これらの全般的または具体的な態様は、システム、方法、集積回路、コンピュータプログラムまたはコンピュータ読み取り可能なCD−ROMなどの記録媒体で実現されてもよく、システム、方法、集積回路、コンピュータプログラム及び記録媒体の任意な組み合わせで実現されてもよい。
本開示は、音声認識の性能とレスポンスとを適切に調整できる音声認識方法又は音声認識装置を提供できる。
図1は、音声処理を説明するための図である。 図2は、実施の形態1に係る音声認識装置のブロック図である。 図3は、実施の形態1に係る音声認識処理のフローチャートである。 図4は、実施の形態1に係る音声処理を説明するための図である。 図5は、実施の形態1に係る音声処理を説明するための図である。 図6は、実施の形態2に係る音声認識装置のブロック図である。 図7は、実施の形態2に係る音声認識処理のフローチャートである。 図8は、実施の形態2に係る終話判定処理のフローチャートである。 図9は、実施の形態2に係る終話判定処理を説明するための図である。 図10は、実施の形態3に係る音声認識装置のブロック図である。 図11は、実施の形態3に係る音声認識処理のフローチャートである。 図12は、実施の形態3に係る終話判定処理を説明するための図である。 図13は、実施の形態4に係る音声認識装置のブロック図である。 図14は、実施の形態5に係る音声認識システムのブロック図である。 図15は、実施の形態5に係る符号化処理のフローチャートである。 図16は、実施の形態5に係る音声認識処理のフローチャートである。 図17は、実施の形態6に係る音声認識装置のブロック図である。 図18は、実施の形態6に係る無音区間除去処理を説明するための図である。 図19は、実施の形態7に係る音声認識装置のブロック図である。 図20は、実施の形態7に係る処理モード更新処理のフローチャートである。
(本発明の基礎となった知見)
まず、音声処理後の音声情報を用いて音声認識処理を行った場合の課題について図1を用いて説明する。図1に示すように、音声情報に対して音声処理を行う際には、予め定められた期間Tのフレーム単位で音声処理が行われる。例えば、音声認識のレスポンスを向上するためには、図1に示すようにM個のフレームを処理する場合、このM個のフレームを処理期間(T×M)の間に処理することで必要がある。つまり、各フレームを時間T以内に処理する必要がある。
一方で、音声認識の性能を向上させるために、音声処理(例えば雑音除去処理)として性能の高い(つまり、処理負荷が高い)処理を用いた場合には、各フレームの処理時間がS>Tとなり、M個のフレームの処理に要する時間はS×Mとなる。これにより、音声認識処理を開始するまでに遅延が発生し、その結果、音声認識のレスポンスが低下する。
このように、音声認識の性能向上を優先させた場合、高性能の音声処理を前処理として実施する必要があり、処理負荷の高い音声処理アルゴリズムを採用することになる。その結果、処理速度が遅くなり、音声認識のレスポンスが遅くなる、という課題があった。
また、音声認識のレスポンス向上を優先させた場合、処理負荷の高い音声処理アルゴリズムは採用できなくなり、高性能の音声処理を前処理として実施できない。その結果、音声認識の性能が悪くなる、という課題があった。
本開示の一態様に係る音声認識方法は、処理区間に含まれる第1無音区間の長さを決定するための基準値を決定する基準値決定ステップと、互いに処理量が異なる複数の音声処理の処理モードから、前記基準値に応じて、使用する処理モードを決定する処理モード決定ステップと、前記処理区間を含む入力区間の音声情報から、前記基準値を用いて、対象区間と、前記対象区間の後の前記第1無音区間とを含む前記処理区間の音声情報を取得する終話判定ステップと、前記処理区間の音声情報のうち前記対象区間の音声情報に対して、決定された前記処理モードで音声処理を実行する音声処理ステップと、前記音声処理が実行された前記対象区間の音声情報に対して音声認識処理を実行する音声認識ステップとを含む。
これによれば、第1無音区間の長さに応じて処理モードを変更することで、第1無音区間を利用して対象区間の音声情報に音声処理を行うことを考慮した処理モードを選択できる。これにより、当該音声認識方法は、音声認識の性能とレスポンスとを適切に調整できる。
例えば 前記基準値決定ステップでは、前記基準値として、前記処理区間の終端を判定するための情報であり、前記第1無音区間の長さを示す閾値を決定し、前記処理モード決定ステップでは、前記閾値に基づいて前記処理モードを決定し、前記音声認識方法は、さらに、前記入力区間の音声情報から無音区間を検出する検出ステップを含み、前記終話判定ステップでは、無音区間の長さが前記閾値を超えた時刻を、前記処理区間の終端であると判定することで、前記入力区間の音声情報から前記処理区間の音声情報を抽出してもよい。
これによれば、入力された音声情報に応じて適応的に処理区間を設定できる。また、このよう適応的に処理区間を決定する場合において、閾値を用いて処理モードを変更することで、容易に処理モードを変更できる。
例えば、前記基準値決定ステップでは、前記基準値として、前記処理区間及び前記対象区間の長さを決定し、前記処理モード決定ステップでは、決定された前記処理区間の長さと前記対象区間の長さとの差分である前記第1無音区間の長さに基づいて、前記音声処理の処理モードを決定し、前記終話判定ステップでは、前記入力区間の音声情報から、前記決定された長さの前記処理区間の音声情報を抽出してもよい。
これによれば、予め定められた区間を抽出できるので処理量を低減できる。また、このよう固定時間長の処理区間を決定する場合において、当該固定区間長を用いて処理モードを変更することで、容易に処理モードを変更できる。
例えば、前記音声処理ステップでは、前記対象区間に含まれる無音区間を除去し、前記無音区間を除去した前記対象区間の音声情報に対して前記音声処理を実行してもよい。
これによれば、処理量を低減できるとともにレスポンスを向上できる。
例えば、前記音声認識方法は、さらに、決定された前記処理モードでの前記音声処理の処理時間を計測する処理時間計測ステップと、計測された前記処理時間に基づき、前記音声処理の処理モードを変更する処理モード変更ステップとを含んでもよい。
これによれば、実際に要した処理時間に応じて処理モードを調整できるので、音声認識の性能とレスポンスとをより適切に調整できる。
例えば、前記音声処理は、前記音声情報の雑音抑圧処理であり、前記処理モード決定ステップでは、前記処理モードとして、雑音抑圧アルゴリズム、又は雑音抑圧パラメータを決定してもよい。
例えば、前記音声処理は、前記音声情報の符号化処理であり、前記処理モード決定ステップでは、前記処理モードとして、符号化アルゴリズム、又は符号化パラメータを決定し、前記音声認識方法は、さらに、前記音声処理として符号化が実行された音声情報を音声認識装置に伝送する伝送ステップと、前記音声認識装置にて、伝送された前記音声情報を復号する復号ステップとを含み、前記音声認識ステップでは、前記音声認識装置により、復号された前記音声情報に対して前記音声認識処理が実行されてもよい。
例えば、音声処理ステップにおいて前記処理区間の時間長の間に前記対象区間の音声情報に前記音声処理が行われるように、前記処理モード決定ステップでは前記処理モードが決定されてもよい。
これによれば、第1無音区間を利用して対象区間の音声情報に音声処理を行うことができる。
また、本開示の一態様に係る音声認識装置は、処理区間に含まれる第1無音区間の長さを決定するための基準値を決定する基準値決定部と、互いに処理量が異なる複数の音声処理の処理モードから、前記基準値に応じて、使用する処理モードを決定する処理モード決定部と、前記処理区間を含む入力区間の音声情報を取得する音声取得部と、前記入力区間の音声情報から、前記基準値を用いて、対象区間と、前記対象区間の後の前記第1無音区間とを含む前記処理区間の音声情報を取得する終話判定部と、前記処理区間の音声情報のうち前記対象区間の音声情報に対して、決定された前記処理モードで音声処理を実行する音声処理部と、前記音声処理が実行された前記対象区間の音声情報に対して音声認識処理を実行する音声認識部とを備える。
これによれば、音声認識装置は、第1無音区間の長さに応じて処理モードを変更することで、第1無音区間を利用して対象区間の音声情報に音声処理を行うことを考慮した処理モードを選択できる。これにより、当該音声認識装置は、音声認識の性能とレスポンスとを適切に調整できる。
また、本開示の遺体用に係るプログラムは、前記音声認識方法をコンピュータに実行させるためのプログラムである。
なお、これらの包括的または具体的な態様は、システム、方法、集積回路、コンピュータプログラムまたはコンピュータ読み取り可能なCD−ROMなどの記録媒体で実現されてもよく、システム、方法、集積回路、コンピュータプログラム及び記録媒体の任意な組み合わせで実現されてもよい。
以下、実施の形態について、図面を参照しながら具体的に説明する。なお、以下で説明する実施の形態は、いずれも本発明の一具体例を示すものである。以下の実施の形態で示される数値、形状、材料、構成要素、構成要素の配置位置及び接続形態、ステップ、ステップの順序などは、一例であり、本発明を限定する主旨ではない。また、以下の実施の形態における構成要素のうち、最上位概念を示す独立請求項に記載されていない構成要素については、任意の構成要素として説明される。
(実施の形態1)
本実施の形態に係る音声認識装置は、処理区間に含まれる無音区間の長さに応じて、音声処理の処理モードを変更する。これにより、当該音声認識装置は、音声認識の性能とレスポンスとを適切に調整できる。
まず、本実施の形態に係る音声認識装置の構成を説明する。図1は、本実施の形態に係る音声認識装置100の構成を示すブロック図である。図1に示す音声認識装置100は、音声情報に対して音声処理を実行し、音声処理後の音声情報を用いて音声認識処理を行う。この音声認識装置100は、例えば、ユーザと端末とが音声によりリアルタイムに音声翻訳を行う音声翻訳システムやリアルタイムに対話を行う音声対話システム等に用いられる。
音声認識装置100は、基準値決定部101と、処理モード決定部102と、音声取得部103と、終話判定部104と、音声処理部105と、音声認識部106とを備える。なお、音声認識装置100の機能は、単一の装置により実現されてもよい、複数の装置により実現されてもよい。
次に、音声認識装置100による音声認識処理について説明する。図3は、当該音声認識処理のフローチャートである。図4及び図5は、音声情報及び音声処理を説明するための模式図である。
まず、基準値決定部101は、処理区間に含まれる無音区間(第1無音区間)の長さを決定するための基準値を決定する(S101)。
なお、上述したように、音声情報に対して、予め定められた期間Tのフレームが設定され、当該フレーム単位で音声処理が行われる。
また、処理区間とは、例えば、1発話に対応する音声区間であり、音声認識処理の処理単位に相当する。処理区間は、図4に示すように、例えば有音区間である対象区間と、対象区間の後の無音区間(第1無音区間)とを含む。具体的には、対象区間は、処理区間の先頭に位置する。また、無音区間は、対象区間の直後であり、かつ、処理区間の終端に位置する。
なお、有音区間とは、音声が含まれる区間であり、具体的には、音声情報で示される音声強度が、予め定められた値以上の区間である。また、無音区間とは、音声が含まれない区間であり、具体的には、音声情報で示される音声強度が、上記値未満の区間である。なお、各フレームの音声強度とは、当該フレームに含まれる複数のサンプルの平均値、最大値、又は中央値等である。なお、有音区間や無音区間を決める際には、雑音除去後の音声に対する音声強度を用いても構わない。また、音声強度ではなく、音声らしさを測る尤度を使用しても構わない。
また、対象区間とは、音声処理が行われる区間であり、無音区間(第1無音区間)とは、音声処理が行われない非対象区間である。
次に、処理モード決定部102は、ステップS101で決定された基準値に応じて、処理区間に含まれる無音区間が長いか否かを判定する(S102)。具体的には、処理モード決定部102は、基準値に応じて、処理区間に含まれる無音区間の長さが予め定められた値より長いかを判定する。無音区間が長い場合(S102でYes)、処理モード決定部102は、高処理量かつ高性能の処理モードを選択する(S103)。なお、上述したように処理量(処理負荷)と、処理性能とはトレードオフの関係にある。また、処理モードとは、例えば、音声処理アルゴリズム又は音声処理パラメータである。
一方、無音区間が短い場合(S102でNo)、処理モード決定部102は、低処理量かつ低性能の処理モードを選択する(S104)。
なお、ここでは、簡単化のため、2つの処理モードのみが存在する例を示しているが、処理モードは複数であれてばよい。つまり、複数の閾値が用いられ、無音区間が長いほど高処理量の処理モードが用いられてもよい。
このように、処理モード決定部102は、互いに処理量が異なる複数の音声処理の処理モードから、基準値に応じて、使用する処理モードを決定する。言い換えると、処理モード決定部102は、処理区間に含まれる無音区間の長さに応じて、使用する処理モードを決定する。
次に、音声取得部103は、時系列に入力される音声情報を順次取得する。つまり、音声取得部103は、処理区間を含む入力区間の音声情報を取得する。終話判定部104は、入力区間の音声情報から、基準値を用いて、処理区間の音声情報を取得する(S105)。なお、基準値の具体例、及び、時系列に入力される音声情報から基準値を用いて処理区間を決定する方法については、実施の形態2及び実施の形態3で詳しく説明する。
次に、音声処理部105は、処理区間の音声情報のうち対象区間の音声情報に対して、ステップS103又はS104で決定された処理モードで音声処理を実行する(S106)。つまり、音声処理部105は、対象区間の音声情報に対してのみ音声処理を実行し、無音区間の音声情報に対しては音声処理を実行しない。また、音声処理とは、例えば、雑音抑制処理等である。
なお、図3では、音声情報の取得(S105)と、音声処理(S106)とを個別の処理として記載しているが、これらの処理は並列に行われてもよい。例えば、フレーム単位で音声情報の取得と音声処理とが連続的に行われてもよい。つまり、対象区間の音声情報の全てが取得された後に、対象区間の音声情報の音声処理を行う必要はなく、取得されたフレームの音声情報が順に音声処理が行われてもよい。
次に、音声認識部106は、ステップS105で音声処理が実行された音声情報に対して音声認識処理を実行する(S107)。具体的には、音声認識部106は、音声情報を、発話内容を示すテキストデータに変換する。また、このテキストデータで示される発話内容に応じて音声翻訳処理が行われる。
ここで本実施の形態では、処理区間に含まれる無音区間も対象区間の音声処理に利用される。つまり、ステップS103及びS104では、音声処理において処理区間の時間長の間に対象区間の音声情報に音声処理が行われるように処理モードが決定される。具体的には、図4に示すように、対象区間の音声処理に、当該対象区間だけでなく、対象区間に無音区間を加えた処理区間が処理期間として割り当てられる。例えば、図4に示すように、対象区間がNフレームであり、無音区間がnフレームである場合には、N+nフレームに相当する処理期間において、Nフレームの対象区間の音声処理が行われる。これにより、各フレームの処理時間として(T×(N+n))/Nを割り当てることが可能となり、図1に示す場合に比べて、各フレームの処理時間を長くできる。これにより、より高性能(高負荷)の処理モードを使用できるので、音声処理の性能を向上できる。これにより、音声認識の性能も向上できる。
ここで、音声認識で利用される発話では、発話区間(有音区間)の後に発話の区切りとなる無音区間が存在する。本実施の形態では、この無音区間を発話区間である対象区間の音声処理に利用することで、より高性能の処理を実現できる。また、上述した処理モードの決定において、このように無音区間を利用する場合を前提とした適切な処理モードを決定できる。つまり、無音区間の長さに応じて処理モードを変更することにより、無音区間を利用して対象区間の音声情報に音声処理を行うことを考慮した処理モードを選択できる。
例えば、図5は、図4に対して、無音区間が長い場合の動作例を示す。図5に示すように、無音区間がlフレーム(l>n)であり、図4に示すnフレームより長い場合には、各フレームの処理に割り当てられる時間(T×(N+l))/Nも長くなるように処理モードが決定される。
なお、図4及び図5では、対象区間の音声処理に割り当てられる処理期間が、処理区間と等しい例を示しているが、必ずしも処理期間は処理区間と等しい必要はなく、処理期間は処理区間より短くてもよいし、長くてもよい。
(実施の形態2)
本実施の形態では、時系列に入力される音声情報から処理区間を決定する第1の方法について説明する。なお、以下では、先の実施の形態との相違点を主に説明し、重複する説明は省略する。
図6は、本実施の形態に係る音声認識装置100Aの構成を示すブロック図である。図6に示す音声認識装置100Aは、図2に示す基準値決定部101の一例である閾値決定部101Aと、図2に示す終話判定部104の一例である終話判定部104Aとを備える。また、音声認識装置100Aは、さらに、検出部107を備える。
検出部107は、入力区間の音声情報から無音区間を検出する。具体的には、検出部107は時系列に入力される音声情報の各フレームが有音区間であるか無音区間であるかを判定する。
閾値決定部101Aは、処理区間の終端を判定するための情報であり、処理区間に含まれる無音区間(第1無音区間)の長さを示す閾値T0を決定する。
終話判定部104Aは、決定された閾値T0を用いて、時系列に入力される音声情報から処理区間の音声情報を抽出する。
図7は、本実施の形態に係る音声認識処理のフローチャートである。まず、閾値決定部101Aは、閾値T0を決定する(S101A)。例えば、この閾値T0は数百m秒程度である。
次に、処理モード決定部102は、閾値T0に基づいて処理モードを決定する(S102A)。具体的には、処理モード決定部102は、閾値T0が予め定められた値より長いかを判定する。閾値T0が長い場合(S102AでYes)、処理モード決定部102は、高処理量かつ高性能の処理モードを選択する(S103)。一方、閾値T0が短い場合(S102AでNo)、処理モード決定部102は、低処理量かつ低性能の処理モードを選択する(S104)。なお、処理モードは複数であればよく、3段階以上の切り替えが用いられ、例えば、閾値T0が長いほど高処理量の処理モードが用いられてもよい。
なお、ステップS101Aにおける閾値T0の決定方法としては、以下の方法を用いることができる。例えば、閾値決定部101Aは、予め設定されているパラメータ等に基づき、閾値を決定してもよい。このパラメータ等の設定は、システム開発時に行われてもよいし、ユーザにより設定されてもよい。つまり、閾値T0は、外部からの入力又は操作に基づき決定されてもよい。この場合、使用時には動的に閾値T0が変化しないため、ステップS101Aの閾値決定処理は、所定のタイミングで一度のみ行われればよい。
または、閾値決定部101Aは、この閾値T0を動的に変更してもよい。例えば、音声認識装置100は、音声情報に基づき、発話者を識別し、識別した発話者に適した閾値T0を動的に設定してもよい。例えば、発話者の年齢等に応じて閾値T0を変更することが考えられる。なお、発話者の年齢等の閾値T0の変更に用いる情報は、発話者毎に予め登録されていてもよい。また、発話者毎の閾値又は閾値を変更するためのパラメータ(例えば、会話速度の速さを示す情報)が予め登録されており、閾値決定部101Aはこれらの情報を用いて閾値T0を変更してもよい。また、閾値T0は、音声対話のシーン等に応じて変更されてもよい。例えば、発話者の発話内容が、「はい」、「いいえ」等の単純な回答と想定される場合と、長文になると想定される場合とで異なる閾値T0が設定されてもよい。
次に、終話判定部104Aは、ステップS101Aで決定された閾値T0を用いて、時系列に入力される音声情報から処理区間の音声情報を抽出する(S105A)。
図8は、この処理区間抽出処理(S105A)のフローチャートである。まず、処理区間の先頭が判定される。具体的には、音声取得部103は、ある時刻において1フレームの音声情報を取得する(S111)。次に、検出部107は、当該フレームが有音区間であるか無音区間であるかを判定する(S112)。
フレームが無音区間である場合(S112でNo)、次のフレームに対してステップS111以降の処理が行われる。一方、フレームが有音区間である場合(S112でYes)、終話判定部104Aは、当該フレームを処理区間の先頭のフレームに設定する(S113)。
次に、処理区間の終端が判定される。具体的には、音声取得部103は、次の1フレームの音声情報を取得する(S114)。検出部107は、当該フレームが無音区間であるかを判定する(S115)。当該フレームが無音区間である場合(S115でYes)、終話判定部104Aは、当該フレームを含む連続する無音区間の長さが閾値T0以上になったかを判定する(S116)。無音区間の長さが閾値T0以上になった場合(S116でYes)、終話判定部104Aは、当該フレームを処理区間の終端のフレームに設定する(S117)。
また、上記以外の場合(S115でNo、又はS116でNo)、次のフレームに対してステップS114以降の処理が行われる。
つまり、図9に示すように、終話判定部104Aは、無音区間の長さが閾値T0を超えた時刻(フレーム)を処理区間の終端と判定することで、入力区間の音声情報から処理区間の音声情報を抽出する。
実施の形態1と同様に、次に、音声処理部105は、対象区間の音声情報に対して音声処理を実行する(S106)。なお、実施の形態1と同様に、音声情報の取得(S105A)と、音声処理(S106)とは、例えば、フレーム単位で行われてもよい。次に、音声認識部106は、音声処理が実行された音声情報に対して音声認識処理を実行する(S107)。
以上のように、本実施の形態に係る音声認識装置100Aは、入力された音声情報に応じて適応的に処理区間を設定できる。また、このよう適応的に処理区間を決定する場合において、閾値T0を用いて処理モードを変更することで、容易に処理モードを変更できる。
(実施の形態3)
本実施の形態では、時系列に入力される音声情報から処理区間を決定する第2の方法について説明する。本実施の形態では、無音区間を判定することなく予め定められた長さの区間を処理区間として抽出する。例えば、発話者の発話内容が、「はい」、「いいえ」等の単純な回答と想定される場合等には、有音区間(対象区間)の長さを予想することが可能である。よって、この予想に基づき、予め処理区間、対象区間、及び無音区間の長さを決定しておくことが可能である。
図10は、本実施の形態に係る音声認識装置100Bの構成を示すブロック図である。図6に示す音声認識装置100Aは、図2に示す基準値決定部101の一例である区間決定部101Bと、図2に示す終話判定部104の一例である終話判定部104Bとを備える。
区間決定部101Bは、処理区間の長さである処理区間長T1及び対象区間の長さである対象区間長T2を決定する。なお、処理区間長T1及び対象区間長T2の決定方法としては、上述した閾値T0と同様の方法を用いることができる。
終話判定部104Bは、入力区間の音声情報から、処理区間長T1の音声情報を抽出する。
図11は、本実施の形態に係る音声認識処理のフローチャートである。まず、区間決定部101Bは、処理区間長T1及び対象区間長T2を決定する(S101B)。
次に、処理モード決定部102は、図12に示すように、処理区間長T1と対象区間長T2との差分T1−T2を無音区間の長さである無音区間長として算出する。次に、処理モード決定部102は、算出された無音区間長に基づいて処理モードを決定する(S102B)。具体的には、処理モード決定部102は、無音区間長が予め定められた値より長いかを判定する。無音区間長が長い場合(S102BでYes)、処理モード決定部102は、高処理量かつ高性能の処理モードを選択する(S103)。一方、無音区間長が短い場合(S102BでNo)、処理モード決定部102は、低処理量かつ低性能の処理モードを選択する(S104)。なお、処理モードは複数であれてばよく、3段階以上の切り替えが用いられ、例えば、無音区間長が長いほど高処理量の処理モードが用いられてもよい。
なお、上記説明では、区間決定部101Bにおいて、処理区間長と対象区間長とが決定されているか、処理区間長、対象区間長及び無音区間長とのうちいずれか二つが決定さればよい。この場合、他の一つの区間長は、決定された二つの区間長から算出できる。さらに、これらのうちいずれか一つの区間長を固定とし、他の二つの区間のうち一つの区間のみが決定されてもよい。また、この場合において、処理区間長又は対象区間長を用いて無音区間長を一意に特定できる場合には、処理モード決定部102は、処理区間長又は対象区間長に応じて処理モードを決定してもよい。例えば、対象区間長が固定の場合には、処理区間長に応じて無音区間長も変化するので、処理区間長に応じて処理モードを決定することができる。
次に、終話判定部104Bは、時系列に入力される音声情報から、ステップS101Bで決定された処理区間長T1の処理区間の音声情報を抽出する(S105B)。例えば、終話判定部104Bは、処理区間の先頭を、図8と同様の方法により検出する。次に、終話判定部104Bは、当該先頭から処理区間長T1の音声情報を処理区間の音声情報と判定する。また、終話判定部104Bは、当該先頭から対象区間長T2の音声情報を対象区間の音声情報と判定する。また、終話判定部104Bは、対象区間の終端から処理区間の終端までを無音区間と判定する。
実施の形態1と同様に、次に、音声処理部105は、対象区間の音声情報に対して音声処理を実行する(S106)。なお、実施の形態1と同様に、音声情報の取得(S105B)と、音声処理(S106)とは、例えば、フレーム単位で行われてもよい。次に、音声認識部106は、音声処理が実行された音声情報に対して音声認識処理を実行する(S107)。
以上のように、本実施の形態に係る音声認識装置100Bは、予め定められた区間を抽出できるので処理量を低減できる。また、このよう固定時間長の処理区間を決定する場合において、当該固定区間長を用いて処理モードを変更することで、容易に処理モードを変更できる。
(実施の形態4)
本実施の形態では、音声処理の具体例として雑音抑制処理を行う場合を説明する。図13は、本実施の形態に係る音声認識装置100Cの構成を示すブロック図である。図13に示すように、音声認識装置100Cは、処理モード決定部102の具体例である雑音抑制モード決定部102Cと、音声処理部105の具体例である雑音抑制部105Cとを備える。
雑音抑制モード決定部102Cは、上記処理モードとして、雑音抑圧アルゴリズム、又は雑音抑圧パラメータを決定する。雑音抑制部105Cは、決定された雑音抑圧アルゴリズム、又は雑音抑圧パラメータに基づく雑音抑制処理を、対象区間の音声情報に対して行う。
(実施の形態5)
本実施の形態では、音声処理の具体例として符号化処理を行う場合を説明する。図14は、本実施の形態に係る音声認識システム100Dの構成を示すブロック図である。この音声認識システム100Dは、音声情報を符号化する音声符号化装置121と、音声認識装置122とを含む。
音声符号化装置121は、基準値決定部101と、処理モード決定部102の具体例である符号化モード決定部102Dと、音声取得部103と、終話判定部104と、音声処理部105の具体例である符号化部105Dと、伝送部123とを備える。音声認識装置122は、復号部124と、音声認識部106とを備える。
図15は、音声符号化装置121による音声符号化処理のフローチャートである。なお、ステップS101〜S102、S105の処理は、図3と同様である。
符号化モード決定部102Dは、上記処理モードとして、符号化アルゴリズム、又は符号化パラメータを決定する(S103、S104)。また、符号化部105Dは、決定された符号化アルゴリズム、又は符号化パラメータに基づく符号化処理を、対象区間の音声情報に対して行う(S121)。次に、伝送部123は、符号化が実行された音声情報を音声認識装置122に伝送する(S122)。
図16は、音声認識装置122による音声認識処理のフローチャートである。まず、復号部124は、音声符号化装置121から伝送された、符号化された音声情報を取得し(S131)、当該音声情報を復号する(S132)。音声認識部106は、復号された音声情報に対して音声認識処理を実行する(S133)。なお、音声認識処理の詳細は、実施の形態1と同様である。
なお、ここでは、音声処理が雑音抑制処理又は符号化処理である例を述べたが、音声処理は他の処理であってもよい。例えば、音源の方向を推定する方向推定等であってもよい。
(実施の形態6)
本実施の形態では、実施の形態2の変形例について説明する。図17は、本実施の形態に係る音声認識装置100Eの構成を示すブロック図である。この音声認識装置100Eは、図6に示す音声認識装置100Aの構成に加え、さらに、無音区間除去部131を備える。
無音区間除去部131は、対象区間に含まれる無音区間を除去する。音声処理部105は、無音区間を除去した対象区間の音声情報に対して音声処理を実行する。
例えば、図18に示す例では、フレームJは無音区間であるが、無音区間の長さが閾値T0より短いため、対象区間に含まれる。無音区間除去部131は、このフレームJを対象区間から除去する。
これにより、音声処理部105において、フレームJの処理が不要となるため、処理量を低減できるとともにレスポンスを向上できる。
なお、ここでは、実施の形態2の構成をベースに本変形例を適用した例を説明したが、実施の形態3の構成に対しても同様の変形例を適用できる。
(実施の形態7)
本実施の形態では、実施の形態1の変形例について説明する。図19は、本実施の形態に係る音声認識装置100Fの構成を示すブロック図である。この音声認識装置100Eは、実施の形態1に係る音声認識装置100に対して、処理モード決定部102F及び音声処理部105Fに機能が追加されている。
図20は、音声認識装置100Fによる追加機能のフローチャートである。まず、音声処理部105Fは、例えば、図3に示す音声処理(S106)を行った後、当該音声処理に要した処理時間を計測する(S141)。
次に、処理モード決定部102は、計測された処理時間に基づき、音声処理の処理モードを変更する。具体的には、処理モード決定部102Fは、計測された処理時間が基準値以上であるかを判定する(S142)。ここで基準値とは、例えば、上記処理期間であり、想定されている処理時間の上限値である。
処理時間が基準値以上である場合(S142でYes)、処理モード決定部102Fは、現在の処理モード(図3に示すステップS103又はS104で決定された処理モード)より処理量が少ない処理モードに、使用する処理モードを変更する(S143)。一方、処理時間が基準値未満である場合(S142でNo)、処理モード決定部102Fは、処理モードの変更は行わない。
また、図20に示す処理は、例えば、処理区間毎に行われる。なお、図20に示す処理は、複数の処理区間を含む所定の周期で行われてもよい。この場合、当該周期に含まれる複数処理区間の処理時間の平均値等に基づき処理が行われてもよい。
これにより、音声認識装置100Fは、実際に要した処理時間に応じて処理モードを調整できるので、音声認識の性能とレスポンスとをより適切に調整できる。
以上、本開示の実施の形態に係る音声認識装置及び音声認識システムについて説明したが、本開示は、この実施の形態に限定されるものではない。
例えば、上記実施の形態に係る音声認識装置又は音声認識システムに含まれる各処理部は典型的には集積回路であるLSIとして実現される。これらは個別に1チップ化されてもよいし、一部又は全てを含むように1チップ化されてもよい。
また、集積回路化はLSIに限るものではなく、専用回路又は汎用プロセッサで実現してもよい。LSI製造後にプログラムすることが可能なFPGA(Field Programmable Gate Array)、又はLSI内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル・プロセッサを利用してもよい。
また、上記各実施の形態において、各構成要素は、専用のハードウェアで構成されるか、各構成要素に適したソフトウェアプログラムを実行することによって実現されてもよい。各構成要素は、CPUまたはプロセッサなどのプログラム実行部が、ハードディスクまたは半導体メモリなどの記録媒体に記録されたソフトウェアプログラムを読み出して実行することによって実現されてもよい。
また、本開示は、音声認識装置又は音声認識システムにより実行される音声認識方法として実現されてもよい。
また、上記で用いた数字は、全て本開示を具体的に説明するために例示するものであり、本開示は例示された数字に制限されない。また、ブロック図における機能ブロックの分割は一例であり、複数の機能ブロックを一つの機能ブロックとして実現したり、一つの機能ブロックを複数に分割したり、一部の機能を他の機能ブロックに移してもよい。また、類似する機能を有する複数の機能ブロックの機能を単一のハードウェア又はソフトウェアが並列又は時分割に処理してもよい。
また、フローチャートにおける各ステップが実行される順序は、本開示を具体的に説明するために例示するためのものであり、上記以外の順序であってもよい。また、上記ステップの一部が、他のステップと同時(並列)に実行されてもよい。
以上、一つまたは複数の態様に係る音声認識装置について、実施の形態に基づいて説明したが、本開示は、この実施の形態に限定されるものではない。本開示の趣旨を逸脱しない限り、当業者が思いつく各種変形を本実施の形態に施したものや、異なる実施の形態における構成要素を組み合わせて構築される形態も、一つまたは複数の態様の範囲内に含まれてもよい。
本開示は、音声認識装置及び音声認識システムに適用でき、例えば、音声対話システム等に適用できる。
100、100A、100B、100C、100E、100F、122 音声認識装置
100D 音声認識システム
101 基準値決定部
101A 閾値決定部
101B 区間決定部
102、102F 処理モード決定部
102C 雑音抑制モード決定部
102D 符号化モード決定部
103 音声取得部
104、104A、104B 終話判定部
105、105F 音声処理部
105C 雑音抑制部
105D 符号化部
106 音声認識部
107 検出部
121 音声符号化装置
123 伝送部
124 復号部
131 無音区間除去部

Claims (9)

  1. 音声認識方法であって、
    処理区間に含まれる第1無音区間の長さを決定するための基準値を決定する基準値決定ステップと、
    互いに処理量が異なる複数の音声処理の処理モードから、前記基準値に応じて、使用する処理モードを決定する処理モード決定ステップと、
    前記処理区間を含む入力区間の音声情報から、前記基準値を用いて、対象区間と、前記対象区間の後の前記第1無音区間とを含む前記処理区間の音声情報を取得する終話判定ステップと、
    前記処理区間の音声情報のうち前記対象区間の音声情報に対して、決定された前記処理モードで音声処理を実行する音声処理ステップと、
    前記音声処理が実行された前記対象区間の音声情報に対して音声認識処理を実行する音声認識ステップとを含み、
    前記基準値決定ステップでは、前記基準値として、前記処理区間の終端を判定するための情報であり、前記第1無音区間の長さを示す閾値を決定し、
    前記処理モード決定ステップでは、前記閾値に基づいて前記処理モードを決定し、
    前記音声認識方法は、さらに、
    前記入力区間の音声情報から無音区間を検出する検出ステップを含み、
    前記終話判定ステップでは、無音区間の長さが前記閾値を超えた時刻を、前記処理区間の終端であると判定することで、前記入力区間の音声情報から前記処理区間の音声情報を抽出し、
    前記音声処理は、前記音声情報の雑音抑圧処理であり、
    前記処理モード決定ステップでは、前記処理モードとして、雑音抑圧アルゴリズム、又は雑音抑圧パラメータを決定する
    音声認識方法。
  2. 音声認識方法であって、
    処理区間に含まれる第1無音区間の長さを決定するための基準値を決定する基準値決定ステップと、
    互いに処理量が異なる複数の音声処理の処理モードから、前記基準値に応じて、使用する処理モードを決定する処理モード決定ステップと、
    前記処理区間を含む入力区間の音声情報から、前記基準値を用いて、対象区間と、前記対象区間の後の前記第1無音区間とを含む前記処理区間の音声情報を取得する終話判定ステップと、
    前記処理区間の音声情報のうち前記対象区間の音声情報に対して、決定された前記処理モードで音声処理を実行する音声処理ステップと、
    前記音声処理が実行された前記対象区間の音声情報に対して音声認識処理を実行する音声認識ステップとを含み、
    前記基準値決定ステップでは、前記基準値として、前記処理区間の終端を判定するための情報であり、前記第1無音区間の長さを示す閾値を決定し、
    前記処理モード決定ステップでは、前記閾値に基づいて前記処理モードを決定し、
    前記音声認識方法は、さらに、
    前記入力区間の音声情報から無音区間を検出する検出ステップを含み、
    前記終話判定ステップでは、無音区間の長さが前記閾値を超えた時刻を、前記処理区間の終端であると判定することで、前記入力区間の音声情報から前記処理区間の音声情報を抽出し、
    前記音声処理は、前記音声情報の符号化処理であり、
    前記処理モード決定ステップでは、前記処理モードとして、符号化アルゴリズム、又は符号化パラメータを決定し、
    前記音声認識方法は、さらに、
    前記音声処理として符号化が実行された音声情報を音声認識装置に伝送する伝送ステップと、
    前記音声認識装置にて、伝送された前記音声情報を復号する復号ステップとを含み、
    前記音声認識ステップでは、前記音声認識装置により、復号された前記音声情報に対して前記音声認識処理が実行される
    声認識方法。
  3. 前記音声処理ステップでは、前記対象区間に含まれる無音区間を除去し、前記無音区間を除去した前記対象区間の音声情報に対して前記音声処理を実行する
    請求項1又は2記載の音声認識方法。
  4. 前記音声認識方法は、さらに、
    決定された前記処理モードでの前記音声処理の処理時間を計測する処理時間計測ステップと、
    計測された前記処理時間に基づき、前記音声処理の処理モードを変更する処理モード変更ステップとを含む
    請求項1〜のいずれか1項に記載の音声認識方法。
  5. 前記音声処理ステップにおいて前記処理区間の時間長の間に前記対象区間の音声情報に前記音声処理が行われるように、前記処理モード決定ステップでは前記処理モードが決定される
    請求項1〜のいずれか1項に記載の音声認識方法。
  6. 音声認識装置であって、
    処理区間に含まれる第1無音区間の長さを決定するための基準値を決定する基準値決定部と、
    互いに処理量が異なる複数の音声処理の処理モードから、前記基準値に応じて、使用する処理モードを決定する処理モード決定部と、
    前記処理区間を含む入力区間の音声情報を取得する音声取得部と、
    前記入力区間の音声情報から、前記基準値を用いて、対象区間と、前記対象区間の後の前記第1無音区間とを含む前記処理区間の音声情報を取得する終話判定部と、
    前記処理区間の音声情報のうち前記対象区間の音声情報に対して、決定された前記処理モードで音声処理を実行する音声処理部と、
    前記音声処理が実行された前記対象区間の音声情報に対して音声認識処理を実行する音声認識部とを備える
    前記基準値決定部は、前記基準値として、前記処理区間の終端を判定するための情報であり、前記第1無音区間の長さを示す閾値を決定し、
    前記処理モード決定部は、前記閾値に基づいて前記処理モードを決定し、
    前記音声認識装置は、さらに、
    前記入力区間の音声情報から無音区間を検出する検出部を備え、
    前記終話判定部は、無音区間の長さが前記閾値を超えた時刻を、前記処理区間の終端であると判定することで、前記入力区間の音声情報から前記処理区間の音声情報を抽出し、
    前記音声処理は、前記音声情報の雑音抑圧処理であり、
    前記処理モード決定部は、前記処理モードとして、雑音抑圧アルゴリズム、又は雑音抑圧パラメータを決定する
    音声認識装置。
  7. 音声認識装置であって、
    処理区間に含まれる第1無音区間の長さを決定するための基準値を決定する基準値決定部と、
    互いに処理量が異なる複数の音声処理の処理モードから、前記基準値に応じて、使用する処理モードを決定する処理モード決定部と、
    前記処理区間を含む入力区間の音声情報から、前記基準値を用いて、対象区間と、前記対象区間の後の前記第1無音区間とを含む前記処理区間の音声情報を取得する終話判定部と、
    前記処理区間の音声情報のうち前記対象区間の音声情報に対して、決定された前記処理モードで音声処理を実行する音声処理部と、
    前記音声処理が実行された前記対象区間の音声情報に対して音声認識処理を実行する音声認識部とを備え、
    前記基準値決定部は、前記基準値として、前記処理区間の終端を判定するための情報であり、前記第1無音区間の長さを示す閾値を決定し、
    前記処理モード決定部は、前記閾値に基づいて前記処理モードを決定し、
    前記音声認識装置は、さらに、
    前記入力区間の音声情報から無音区間を検出する検出部を備え、
    前記終話判定部は、無音区間の長さが前記閾値を超えた時刻を、前記処理区間の終端であると判定することで、前記入力区間の音声情報から前記処理区間の音声情報を抽出し、
    前記音声処理は、前記音声情報の符号化処理であり、
    前記処理モード決定部は、前記処理モードとして、符号化アルゴリズム、又は符号化パラメータを決定し、
    前記音声認識装置は、さらに、
    前記音声処理として符号化が実行された音声情報を復号する復号部を含み、
    前記音声認識部は、復号された前記音声情報に対して前記音声認識処理を実行する
    音声認識装置。
  8. 請求項1記載の音声認識方法をコンピュータに実行させるための
    プログラム。
  9. 請求項2記載の音声認識方法をコンピュータに実行させるための
    プログラム。
JP2016151383A 2015-11-19 2016-08-01 音声認識方法及び音声認識装置 Active JP6203343B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
US15/344,653 US10079020B2 (en) 2015-11-19 2016-11-07 Speech recognition method and speech recognition apparatus to improve performance or response of speech recognition
EP16198319.2A EP3171360B1 (en) 2015-11-19 2016-11-11 Speech recognition with determination of noise suppression processing mode

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US201562257368P 2015-11-19 2015-11-19
US62/257,368 2015-11-19

Publications (3)

Publication Number Publication Date
JP2017097330A JP2017097330A (ja) 2017-06-01
JP2017097330A5 JP2017097330A5 (ja) 2017-07-13
JP6203343B2 true JP6203343B2 (ja) 2017-09-27

Family

ID=58817799

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016151383A Active JP6203343B2 (ja) 2015-11-19 2016-08-01 音声認識方法及び音声認識装置

Country Status (1)

Country Link
JP (1) JP6203343B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019211599A (ja) * 2018-06-04 2019-12-12 本田技研工業株式会社 音声認識装置、音声認識方法およびプログラム
JP7251953B2 (ja) * 2018-11-19 2023-04-04 トヨタ自動車株式会社 音声認識装置、音声認識方法及び音声認識プログラム
JP7131362B2 (ja) * 2018-12-20 2022-09-06 トヨタ自動車株式会社 制御装置、音声対話装置及びプログラム
WO2022070792A1 (ja) * 2020-09-29 2022-04-07 株式会社Nttドコモ パラメータ設定システム

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000276189A (ja) * 1999-03-25 2000-10-06 Toshiba Corp 日本語ディクテーションシステム
JP2003059173A (ja) * 2001-08-16 2003-02-28 Kenwood Corp 録音方法及び録音システム

Also Published As

Publication number Publication date
JP2017097330A (ja) 2017-06-01

Similar Documents

Publication Publication Date Title
JP6203343B2 (ja) 音声認識方法及び音声認識装置
JP6350536B2 (ja) 音声検出装置、音声検出方法及びプログラム
RU2670785C1 (ru) Способ и устройство для обнаружения голосовой активности
AU2012206122B2 (en) Signal processing device, method and program
JP2019531494A (ja) 音声品質評価方法及び装置
JP6436088B2 (ja) 音声検出装置、音声検出方法及びプログラム
RU2009107043A (ru) Системы, способы и устройство для широкополосного кодирования и декодирования неактивных кадров
US10269371B2 (en) Techniques for decreasing echo and transmission periods for audio communication sessions
TR201907596T4 (tr) Ses kodlama usulü ve aygıtı.
JP2020067566A (ja) 情報処理方法、情報処理装置、及び、プログラム
JP5764488B2 (ja) 復号装置及び復号方法
JP2017097330A5 (ja)
EP3171360A1 (en) Speech recognition method and speech recognition apparatus to improve performance or response of speech recognition
JP6843701B2 (ja) 音響信号処理のパラメータ予測装置及びパラメータ予測方法
JP4102745B2 (ja) 音声区間検出装置および方法
JP2008186033A (ja) オーディオ情報分類装置
JP5342621B2 (ja) 音響モデル生成装置、音響モデル生成方法、プログラム
JP6106618B2 (ja) 音声区間検出装置、音声認識装置、その方法、及びプログラム
TWI275074B (en) Method for analyzing energy consistency to process data
RU2785944C1 (ru) Многоканальный аудиокодер, декодер, способы и компьютерная программа для переключения между параметрическим многоканальным режимом работы и режимом работы с отдельными каналами
TWI782268B (zh) 用於在參數多通道操作和單獨通道操作之間切換的多通道音訊編碼器、解碼器、方法和電腦程式
JP4959025B1 (ja) 発話区間検出装置及びプログラム
RU2400831C1 (ru) Способ выделения сегментов квазистационарности при анализе речевого сигнала в вокодерах с линейным предсказанием
Song et al. Voice Activity Detection Based on Generalized Normal-Laplace Distribution Incorporating Conditional MAP
JP2002268669A (ja) 音響信号分析方法、音響信号分析装置、音響信号分析プログラム、音響信号分析プログラムを記憶したコンピュータが読取り可能な記憶媒体

Legal Events

Date Code Title Description
A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170515

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170515

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20170515

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20170801

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170808

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170829

R151 Written notification of patent or utility model registration

Ref document number: 6203343

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151