JP2019526070A

JP2019526070A - 音声認識のための方法及び装置

Info

Publication number: JP2019526070A
Application number: JP2018568770A
Authority: JP
Inventors: チーチュントゥー; ナンワン
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2016-06-28
Filing date: 2017-06-16
Publication date: 2019-09-12
Anticipated expiration: 2037-06-16
Also published as: KR20190021421A; CN106910494A; EP3477632A1; KR102220964B1; JP6750048B2; TWI659410B; US11133022B2; WO2018001125A1; US20210125628A1; US10910000B2; US20190115044A1; TW201801066A; EP3477632A4; CN106910494B

Abstract

【課題】本願は、音声認識のための方法及び装置を提供する。【解決手段】方法は、音声データの複数のフレームを取得するために、認識される音声データを分割すること（Ｓ１）と、複数のフレームの間及び複数のフレームの各々の内の音声変化傾向に基づいて、認識される音声データの各フレームの特性値を計算すること（Ｓ２）と、認識結果を取得するために、認識される音声データの各フレームの特性値と予め確立される音声特性値対照表との照合を行うことであって、音声特性値対照表は、複数のフレームの間及び複数のフレームの各々の内の音声変化傾向に基づいて確立されること（Ｓ３）と、を備える。この方法及び装置によって、雑音排除性、照合成功率及び照合結果の精度を向上させることができる。【選択図】図２

Description

本願は、２０１６年６月２８日に出願した「音声認識のための方法及び装置」の表題の中国特許出願第２０１６１０４８７５８４．９号の優先権を主張し、参照により全体をここに組み込む。

本願は、データ処理技術の分野に属し、特に、音声認識のための方法及び装置に関する。

知識のレベルの継続的な向上に伴い、スマート端末が、最近出て来た双方向ＴＶ、音声認識等のような人々の生活において広く用いられている。例えば、カーオーディオで演奏されている曲のタイトルを見つけるために、従来最大限に行うことができたことは、曲を録音した後に友人に質問すること又は歌詞に耳を傾けるとともにオンラインで検索するために歌詞を用いることである。

しかしながら、インテリジェント化技術及び認識技術の継続的な発展に伴い、音声認識を、スマート端末を介して直接実現することができる。音楽認識を端末で行うのであれば、現在演奏されている曲のタイトル又は歌手を自動的に認識することができる。端末を、曲を演奏するために音楽ソフトに直接接続することもできる。

上述したことは、音声フィンガープリントベースの双方向ＴＶ又は音楽認識の簡単な実現方法であるが、正確な音声認識技術に依存する。現在、主要な音声認識技術は、特徴点の対の抽出並びに音声を認識及び決定するための特徴点の使用である。例えば、図１に示すように、音楽は、先ず、ソノグラムに変換され、図１に示す複数の極値点がソノグラムから抽出される。認識の困難性を減少させるとともに認識効率を向上させるために、認識を、点の対、すなわち、一対の点を形成する二つの極値点を用いて行うことができる。図１は、複数の点の対を示す。認識の間、同一の点の対の存在は、正確な照合として扱われる。

しかしながら、雑音の影響により、極値点が必ずしも一貫した位置に生じず、これによって、点の対の照合の可能性は低くなる。さらに、これらの極値点は、雑音により干渉される傾向があり、非常に安定しているわけではない。雑音が大きいときに比較的安定した認識結果を取得することができない。

既存の音声認識技術の問題、すなわち、低い雑音排除性が原因の低い照合成功及び低い認識精度に関する有効な解決は、現在のところ提案されていない。

本願の目的は、照合成功率及び照合結果の精度を効果的に向上させることができる音声認識のための方法及び装置を提供することである。

本願による音声認識のための方法及び装置は、次のようにして実現される。

音声認識のための方法であって、
音声データの複数のフレームを取得するために、認識される音声データを分割することと、
複数のフレームの間及び複数のフレームの各々の内の音声変化傾向に基づいて、認識される音声データの各フレームの特性値を計算することと、
認識結果を取得するために、認識される音声データの各フレームの特性値と予め確立された音声特性値比較表との照合を行うことであって、音声特性値比較表は、複数のフレームの間及び複数のフレームの各々の内の音声変化傾向に基づいて確立されることと、
を備える方法。

音声認識のための装置であって、
音声データの複数のフレームを取得するために、認識される音声データを分割するように構成されたフレーム分割モジュールと、
複数のフレームの間及び複数のフレームの各々の内の音声変化傾向に基づいて、認識される音声データの各フレームの特性値を計算するように構成された計算モジュールと、
認識結果を取得するために、認識される音声データの各フレームの特性値と予め確立される音声特性値比較表との照合を行い、音声特性値比較表は、複数のフレームの間及び複数のフレームの各々の内の音声変化傾向に基づいて確立されるように構成された照合及び認識モジュールと、
を備える装置。

本願による音声認識のための方法及び装置は、音声データの複数のフレームを取得するために、認識される音声データを分割し、複数のフレームの間及び複数のフレームの各々の内の音声変化傾向に基づいて、認識される音声データの各フレームの特性値を計算し、認識結果を取得するために、認識される音声データの各フレームの特性値と予め確立される音声特性値比較表との照合を行う。すなわち、極値点が周波数領域から抽出されない。代わりに、比較的安定した符号化結果を取得するために、複数のフレームの間及びフレーム内の比較関係を使用し、これによって、雑音による干渉に侵されなくなり、更に正確な認識結果となる。本願による解決は、雑音排除性を著しく向上させるだけでなく認識成功率及び認識結果の精度を効果的に向上させることができる。

本願の実施の形態又は現在の技術の技術的解決法を更に詳しく説明するために、実施の形態又は現在の技術の説明によって用いられる添付図面を、後に簡単に説明する。明らかに、後に説明する添付図面は、本願の一部の実施の形態にすぎない。当業者は、創造的な活動を行うことなくこれらの添付図面から他の図面を導き出すことができる。

特徴点対の抽出に基づく音声認識の既存の方法の模式図である。本願による音声認識の例示的な方法のフローチャートである。本願による特徴ベクトルの模式図である。本願による音声特性値比較表の模式図である。本願による認識される音声データの認識及び照合の模式図である。本願による２進ビットの総和を求めることの模式図である。本願による音声認識のための装置のモジュール構造の模式図である。

当業者が本願の技術的解決法をよりよく理解できるようにするために、本願の実施の形態の技術的解決法を、本願の実施の形態の添付図面を参照しながら後に明瞭かつ十分に説明する。明らかに、説明する実施の形態は、本願の一部の実施の形態に過ぎず、本願の全ての実施の形態ではない。当業者によって創造的な活動を行うことなく本願の実施の形態に基づいて得ることができる他の全ての実施の形態は、本願の範囲内にある。

図２は、本願による音声認識の例示的な方法のフローチャートである。本願は、以下の実施の形態又は添付図面に示すような方法の動作ステップ又は装置構造を提供するが、更に多い又は更に少ない動作ステップ又はモジュラーユニットを、従来に従って又は創造的な活動を行うことなく方法又は装置に含めることができる。論理に関する必要な因果関係のないステップ又は構造において、これらのステップの実行順序又は装置のモジュール構造は、本願の実施の形態において説明する又は本願の添付図面に示す実行順序又は装置のモジュールに限定されない。例示的な装置又は端末製品に適用するとき、方法又はモジュール構造を、（例えば、並列プロセッサによって、マルチスレッド環境において又は分散処理環境において）実施の形態又は添付図面に示す方法又はモジュール構造に従って順次又は並列に実施することができる。

図２に示すように、本願の一部の実施の形態による音声認識のための方法は、以下のものを備えることができる。

Ｓ１：音声データの複数のフレームを取得するために、認識される音声データを分割すること。

認識される音声データを、音声認識ソフトによって記録される音声のセグメント又は双方向ＴＶからの音声のセグメントとすることができる。主目的は、典型的には、音声のセグメントのソースを認識することである。記録後、音声のセグメントをフレームに分割することができる。例えば、３０ミリ秒（ｍｓ）をデータの１フレームとして用いることができる。音声データの１フレームの長さとして選択されるｍｓの数は、本願によって限定されず、実際の要求に従って選択することができ、２０ｍｓ、２５ｍｓ、４０ｍｓ等とすることができる。しかしながら、認識される音声データのフレーム分割の規則が予め確立される音声特性値比較表のフレーム分割の原則と同一でなければならないことが保証されるべきである。

さらに、フレーム分割の影響により照合及び認識中に誤差が予測される。誤差の影響を低減するために、フレーム分割中に互いに重なり合うようにフレームを設定する必要がある。一例としてフレームごとに３０ｍｓを用いる場合、第１のフレームは、０ｍｓ〜３０ｍｓであり、第１のフレームは、１６ｍｓ〜４５ｍｓであり、第３のフレームは、３０ｍｓ〜６０ｍｓである。すなわち、既定の数のミリ秒の重複を有するように隣接するフレームが設定される分割規則に従って、認識される音声データがフレームに分割される。換言すれば、隣接するフレームは重複し、これによって、フレーム分割又は照合規則によって生じる分割の影響を回避する。

その後のデータ処理の前に、音声データの各フレームを、音声データを周波数領域に変換するとともに周波数領域の信号を分析するために高速フーリエ変換（ＦＦＴ）を用いて処理することができる。

Ｓ２：複数のフレームの間及び複数のフレームの各々の内の音声変化傾向に基づいて、認識される音声データの各フレームの特性値を計算すること。

特徴を決定する処理において、既定の数の次元（例えば、１２次元）の特徴ベクトルを、上述したＦＦＴの後に取得した周波数領域結果にＭＦＣＣ特徴パラメータ抽出アルゴリズムを適用することによって取得してもよい。ＭＦＣＣ特徴パラメータ抽出アルゴリズムを用いる理由は、ＭＦＣＣ特徴の音声認識において信号の著しい変化領域を抽出して良好な区別を行うことができるからであり、ＭＦＣＣは、メル周波数ケプストラム係数の頭字語であり、メル周波数は、人間の聴覚の特徴に基づいて表され、Ｈｚの周波数の非線形的な対応関係を有する。メル周波数ケプストラム係数（ＭＦＣＣ）は、メル周波数とＨｚの周波数の間の関係を用いた計算によって取得されるＨｚのスペクトル特性である。メル周波数とＨｚの周波数の間の非線形的な対応関係のために、ＭＦＣＣ計算精度は、周波数が上がるに従って下がる。したがって、低周波数のＭＦＣＣのみが応用において使用され、中間周波数から高周波数までのＭＣＣＣは捨てられる。

ＭＣＣＣ特徴計算の後、各フレームの信号は、既定の数の次元のベクトルに変換される。ベクトルが１２次元ベクトルであると仮定すると、図３に示すように、ｉ番目のフレームを（ｄ_ｉ０，ｄ_ｉ１，．．．ｄ_ｉ１０，ｄ_ｉ１１）として表すことができ、ｄは、ｆｌｏａｔ型データである。さらに、次の比較及び照合を更に簡単にするために、取得したベクトルをコード化して２進シーケンス又は２進シーケンスに対応する正の数に変換する。例えば、図３に示すフレーム特徴ベクトルは、以下のようにコード化して変換される。

ｄ_{ｉ−２，ｊ}は、音声データのｉ−２番目のフレームのｊ次元のベクトル値を表し、ｄ_{ｉ−２，ｊ＋１}は、音声データのｉ−２番目のフレームのｊ＋１次元のベクトル値を表し、ｄ_{ｉ−１，ｊ}は、音声データのｉ−１番目のフレームのｊ次元のベクトル値を表し、ｄ_{ｉ−１，ｊ＋１}は、音声データのｉ−１番目のフレームのｊ＋１次元のベクトル値を表し、ｄ_{ｉ＋１，ｊ}は、音声データのｉ＋１番目のフレームのｊ次元のベクトル値を表し、ｄ_{ｉ＋１，ｊ＋１}は、音声データのｉ＋１番目のフレームのｊ＋１次元のベクトル値を表し、ｄ_{ｉ＋２，ｊ}は、音声データのｉ＋２番目のフレームのｊ次元のベクトル値を表し、ｄ_{ｉ＋２，ｊ＋１}は、音声データのｉ＋２番目のフレームのｊ＋１次元のベクトル値を表し、ｔ１、ｔ２、ｔ３、ｔ４及びdiffは、中間変数を表し、Bit_ｉ，ｊは、音声データのｉ番目のフレームの２進シーケンスのｊ番目のビットの値を表し、ｍ、ｎは、一定係数を表す。

隣接する次元の間のベクトル値及び音声データの各フレームのベクトルデータの隣接するフレームのベクトル値に従う計算によって２進シーケンスが得られることが、上記の式からわかる。すなわち、先ず、認識される音声データの各フレームが、既定の数の次元のベクトルデータに変換され、その後、音声データの各フレームのベクトルデータが、隣接する次元の間のベクトル値及び音声データの各フレームのベクトルデータの隣接するフレームのベクトル値に従って２進シーケンスに変換される。

例えば、上記の式において、２進シーケンスは、データの二つの隣接するフレームのベクトル値及び同一のフレームの隣接するベクトル値に従って取得される。このようにして、フレームの間の及びフレーム内の関係は、特性値の計算に有効に含まれる。

しかしながら、上述したｍ，ｎを必要に応じて選択できることに留意されたい。例えば、ｍ，ｎはそれぞれ、２及び３の値を有することができる。したがって、以下のようになる。

さらに、二つの隣接するフレームは、上述した例及び式の計算の基礎として用いられる。例示的な実現において、隣接する三つのフレーム、隣接する四つのフレーム等を用いることもできる。適切な数のフレームを、プロセッサの実際の計算精度及び処理能力に基づいて選択することができる。異なる数のフレームを選択するとき、上記の式をそれに応じて調整する必要がある。しかしながら、調整の概念は、同様であり、本願において制約されない。

上述した手法で計算によって２進シーケンスを取得するプロセスにおいて、元のベクトルの次元がＮである場合、計算によって得られる２進シーケンスの桁はＮ−１である。例えば、１２次元特徴ベクトルを取得する場合、取得される２進シーケンスは１１桁である。

本例において、取得される２進シーケンスを特性値として用いることができる。代替的には、２進シーケンスに対応する１０進数を特性値として用いることができる。例えば、音声データのフレームの２進シーケンスが００００００００１０１である場合、００００００００１０１を最終的な特性値として用いることができる又は５を最終的な特性値として用いることができる。

要約すると、フレーム内の隣接関係の係数を比較することができ、それは、イントラフレーム係数の比較と考えられる。その後、二つの隣接するフレームの比較情報を取得する。これらの二つの隣接するフレームの情報及びフレームの各々の内の情報は、最終的な値diffを形成するために用いられる。値diffと零（０）との比較の結果は、対応する桁の最終的なコード化された値を構成する。例えば、１フレームの信号がＭＦＣＣによって１２次元の特徴ベクトルに変換された後、ベクトルは、１１桁の２進シーケンス（Bit_ｉ，０，Bit_ｉ，１．．．Bit_ｉ，１０）となるようにコード化される。２進シーケンスが１０進数に変換される場合、対応する範囲は０〜２^１１となる。

Ｓ３：認識結果を取得するために、認識される音声データの各フレームの特性値と予め確立された音声特性値比較表との照合を行うことであって、音声特性値比較表は、複数のフレームの間及び複数のフレームの各々の内の音声変化傾向に基づいて確立されること。

音声データの有効な照合を実現するために、データの各フレーム及びデータのフレームに対応する特性値を記録する音声特性比較表を予め確立する必要がある。特性値が音声特性値比較表において２進形式で表される場合、それに応じて、音声認識の間に、認識される音声データは、特性値として２進シーケンスに変換される。特性値が音声特性値比較表において１０進形式で表される場合、それに応じて、音声認識の間に、認識される音声データは、特性値として１０進シーケンスに変換される。

例えば、音声特性値比較表を、次のように確立することができる。
ステップＳ１：サンプル音声の複数のセグメントを備えるサンプルデータを取得する。
ステップＳ２：サンプル音声の各セグメントに対する音声データの複数のフレームを取得するために、サンプル音声の複数のセグメントの各々を分割する。
ステップＳ３：サンプル音声の各セグメントの各フレームの特性値を、複数のフレームの間及び複数のフレームの各々の内の音声変化傾向に基づいて計算する。
ステップＳ４：特性値をルートノードとして使用し、対応関係を形成するために、サンプル音声の各セグメントの各フレームの特性値に従って、サンプル音声の各セグメントの各フレームをルートノードのうちの対応するものの後ろに取り付ける。
ステップＳ５：対応関係を音声特性値比較表として使用する。

音声特性値比較表を確立する上述したステップにおいて、特性値計算のプロセス並びにそれに伴う原理及び手法は、認識される音声データの特性値を取得する場合と同一であり、ここでは繰り返さない。違いについては、音声特性値比較表を確立するときに、特性値をルートノードとして使用する必要があり、サンプル音声の各セグメントの各フレームの特性値に従って、サンプル音声の各セグメントの各フレームをルートノードのうちの対応するものの後ろに取り付ける。例えば、最初に取得したベクトルが１２次元であると仮定すると、最終的に取得する確立された音声特性値比較表を図４に示す。

その後の迅速な認識を可能にするために、図４に示す音声特性値比較表に加えて、特徴アレイを、サンプル音声の全てのセグメントの特性値を記録するために含めることができる。

ベクトルが１２次元であるので、特性値は、２０４８（２^１１）の可能性がある。したがって、音声特性値比較表は、２０４８個のルートノードを有する。各ルートノードに対応する特性値を有する音声データの全てのフレーム（すなわち、音声信号のフレーム）は、各ルートノードの後ろに順次格納される。例えば、０番目のルートノードは、０番目のルートノードの後ろに格納された０の特性値を有する全てのフィンガープリント情報を有する。ｉ番目の音声のｊ番目のフレームに対応する特性値が０であるとともにｋ番目の音声のｌ番目のフレームに対応する特性値が０である場合、これらの音声セグメント（ｉ，ｊ）（ｋ，ｌ）は０番目のルートノードの下に格納される。

最終的な検索及び認識を実現するために、比較的正確な照合結果を、投票行列を確立することによって決定することができる。例えば、プロセスは、サンプル音声のセグメントの数及びサンプル音声の各セグメントのフレームの数に従って確立される投票行列を確立することを備えることができる。すなわち、投票行列を２次元行列とすることができ、２次元行列の次元の数は、データベースのサンプル音声のセグメントの量、すなわち、データベースの音声信号の数及び音声信号ごとの最大数のデータフレームを表す。投票行列を確立した後、音声特性比較表において、現在のフレームの特性値と同一の特性値を有する音声データの一つ以上のフレームを調べることと、現在のフレームの特性値と同一の特性値を有する音声データの一つ以上のフレームに対応する投票行列の位置に投票ラベルを付すことと、既定のしきい値を超える投票ラベルの最大数を有するサンプル音声のセグメントを認識結果として使用することと、を認識される音声データの各フレームについて行うことができる。

例えば、図５に示すように、認識される音声データのセグメントの各フレームに対する特性値を計算によって取得した後、投票動作を、音声特性値比較表に従って各フレームに対して順次行うことができる。例えば、認識される音声データの各フレームの信号に対して、特性値“ｖ”を最初に見つけ、対応するルートノードを特性指標表で見つけ、“ｖ”の特性値を有する全ての音声信号が、ノードの下に格納される。例えば、認識される音声データの１番目のフレームの特性値が２０４６である場合、音声特性値比較表の２０４６番目のルートノードを見つける。このノードの下には、ｋ−１番目の音声信号のｌ番目のフレームが格納され、ｋ−１番目の音声信号のｌ番目のフレームの特性値は、２０４６である。したがって、投票行列の位置（ｋ−１，ｌ）で“＋１”動作が行われる。“＋１”動作は、投票を表し、投票動作の意味は、認識される音声データのセグメントをｋ−１番目の音源のｌ番目のフレームの付近からのものとすることができることを意味する。

投票が、認識される音声データの全てのフレームの特性値に行われた後、最高票を取得する音声セグメントのフレームを決定するために、最終的な投票結果を考慮することができ、最高票は、認識される信号がデータベースのこれらの音声セグメントに最も類似することを表す。

しかしながら、投票中に変換プロセスが存在することを留意すべきであり、すなわち、認識される音声データの１番目のフレーム及び５番目のサンプル音声の３番目のフレームが照合の際に同一の特性値を有する場合、認識される音声データの４番目のフレーム及び５番目のサンプル音声の６番目のフレームが次の照合の際に同一の特性値を有するときに、ラベル位置は、５番目のサンプル音声の１番目のフレームである。すなわち、投票は、全ての照合結果に対してサンプル音声の最初に照合された位置に行われる。換言すれば、認識される音声データの３番目のフレーム及び８番目のサンプル音声の６番目のフレームが（このサンプル音声との最初の照合である）照合の際に同一の特性値を有する場合、認識される音声データの４番目のフレーム及び８番目のサンプル音声の７番目のフレームが次の照合の際に同一の特性値を有するときに、ラベル位置は、８番目のサンプル音声の６番目のフレームである。すなわち、投票は、全ての照合結果に対してサンプル音声の最初に照合された位置に行われる。

他の照合手法を用いることができる。例えば、認識される音声データの各フレームの特性値は、サンプル音声に直接照合され、各サンプル音声との最終的な照合度が統計分析される。このタイプの動作も実現可能である。しかしながら、比較の際には、サンプル音声のフレームが開始フレームとして照合される手法が、明らかに更に正確である。

例示的な実現において、条件に適合する複数の結果を、照合の際に時々取得することができる。最終的な結果を更に正確にするために、照合しきい値（Ｔ）を設定することができる。順次の正確な照合を、しきい値Ｔを超えるときのみ行うことができる。例えば、ｉ番目のサンプル音声の３番目のフレームに対する投票がしきい値より大きい場合、セグメントの特性値の比較は、３番目のフレームから開始する。図６に示すように、ｖｏｉｃｅ＿ｉの３番目のフレームの特性値がｆ３であるとともに認識される信号の１番目のフレームの特性値がｆ０であると仮定すると、ｆ３及びｆ０が二つの２進シーケンスに変換されるとともに二つの２進シーケンスの異なる桁の数を計数するような比較が行われる。比較を、表を調べることによって行うことができる。例えば、１１桁の２進シーケンスの比較を行う。１１桁の２進シーケンスはそれぞれ、１０進数の特性値に対応する。したがって、二つの特性値の間の類似の比較のために、先ず、特性値が２進シーケンスに変換され、その後、二つの２進シーケンスの異なる桁の数を計数する。認識される音声データは、典型的には、データの複数のフレームを備えるので、複数のフレームの比較結果を追加することができ、最終的な計数結果の最小値に対応する投票位置は、認識結果であると決定される。

すなわち、既定のしきい値より大きい認識される音声データとの照合度を有するサンプル音声の一つ以上のセグメントを見つけるために、照合及び認識を、認識される音声データの各フレームの特性値と予め確立された音声特性値比較表との間で行うことができる。その後、最高の照合度を有するサンプル音声のセグメントを、認識結果として、サンプル音声の一つ以上のセグメントの間で決定する。例えば、認識される音声データのフレームの数の決定、認識される音声データの各フレームに対する２進シーケンスの取得、及び、同一のビット位置を有するが認識される音声データの各フレームに対する２進シーケンスと認識される音声データに対応するサンプル音声の各セグメントの各フレームに対する２進シーケンスの間で異なるビット値を有する桁数の決定を、サンプル音声の一つ以上のセグメントの各々について行うことと、サンプル音声の一つ以上のセグメントにおいて異なるビット値を有する最小桁を有するサンプル音声のセグメントを認識結果として使用することと、を有してもよい。

例えば、第１の２進シーケンスは、００１０００１であり、第２の２進シーケンスは、１０１０００００であり、比較結果は、１である。

上記の例で説明した音声認識のための方法は、良好なロバストネスを有する。同時に、提案した認識方法は、速い認識速度を有し、双方向ＴＶ及び音楽認識のような状況において用いることができる。本例において、極値点が周波数領域から抽出されない。代わりに、フレームの間及びフレーム内の比較関係が、比較的安定したコード化結果を取得するために用いられる。そのようなコード化手法は、雑音による干渉に侵されなくなり、これによって、更に正確な音声認識結果を実現する。

同一の概念に基づいて、音声認識のための装置を、後の実施の形態で説明するような本発明の実施の形態において提供する。問題を解決するための音声認識のための装置の原理が音声認識のための方法の原理と同様であるので、音声認識のための方法の実現を、音声認識のための装置の実現のために参照することができ、その繰り返しをここでは説明しない。以下で用いる用語「部」又は「モジュール」は、予め設定された機能を実現することができるソフトウェア及び／又はハードウェアの組合せを意味する。以下の実施の形態で説明する装置は、好適には、ソフトウェアによって実現される。しかしながら、装置を、ハードウェア又はソフトウェアとハードウェアの組合せによって実現することもできる。図７は、本願の一部の実施の形態による音声認識のための装置の構造的なブロック図である。図７に示すように、装置は、フレーム分割モジュール７０１と、計算モジュール７０２と、照合及び認識モジュール７０３と、を備えることができる。この構造を、以下で説明する。

フレーム分割モジュール７０１は、音声データの複数のフレームを取得するために、認識される音声データを分割するように構成される。

計算モジュール７０２は、複数のフレームの間及び複数のフレームの各々の内の音声変化傾向に基づいて、認識される音声データの各フレームの特性値を計算するように構成される。

照合及び認識モジュール７０３は、認識結果を取得するために、認識される音声データの各フレームの特性値と予め確立された音声特性値比較表との照合を行い、音声特性値比較表は、複数のフレームの間及び複数のフレームの各々の内の音声変化傾向に基づいて確立されるように構成される。

一つの実現手法において、上述した音声認識のための装置は、音声特性値比較表を予め確立するように構成された比較表確立モジュールを更に備えることができ、比較表確立モジュールは、サンプル音声の複数のセグメントを備えるサンプルデータを取得するように構成された取得部と、サンプル音声の各セグメントに対する音声データの複数のフレームを取得するためにサンプル音声の複数のセグメントの各々を分割するように構成されたフレーム分割部と、サンプル音声の各セグメントの各フレームの特性値を、複数のフレームの間及び複数のフレームの各々の内の音声変化傾向に基づいて計算するように構成された計算部と、特性値をルートノードとして使用し、対応関係を形成するために、サンプル音声の各セグメントの各フレームの特性値に従って、サンプル音声の各セグメントの各フレームをルートノードのうちの対応するものの後ろに取り付けるように構成された関係決定部と、対応関係を音声特性値比較表として使用するように構成された生成部と、を備える。

一つの実現手法において、照合及び認識モジュール７０３は、サンプル音声のセグメントの数及びサンプル音声の各セグメントのフレームの数に従って確立される投票行列を確立するように構成された確立部と、現在のフレームの特性値と同一の特性値を有する音声データ一つ以上のフレームを音声特性値比較表で調べること及び現在のフレームの特性値と同一の特性値を有する音声データ一つ以上のフレームに対応する投票行列の位置に投票ラベルを付けることを、認識される音声データの各フレームについて行うように構成された実行部と、既定のしきい値を超える最大数の投票ラベルを有するサンプル音声のセグメントを認識結果として使用するように構成された結果生成部と、を備える。

一つの実現手法において、計算モジュール７０２は、認識される音声データの複数のフレームの各々を既定の数の次元のベクトルデータに変換するように構成された第１変換部と、認識される音声データの複数のフレームの各々のベクトルデータを、隣接する次元の間のベクトル値及び音声データの各フレームのベクトルデータの隣接するフレームのベクトル値に従って２進シーケンスに変換するように構成された第２変換部と、変換から得られる２進シーケンスを音声データの対応するフレームの特性値として使用するように又は２進シーケンスに対応する１０進数を音声データの対応するフレームの特性値として使用するように構成された特性値生成部と、を備える。

一つの実現手法において、第２変換部は、以下の式に従って、音声データの各フレームのベクトルデータを２進シーケンスに変換するように構成される。

一つの実現手法において、第１変換部は、ＭＦＣＣ特徴パラメータ抽出アルゴリズムを用いて、音声データの各フレームを既定の数の次元のベクトルデータに変換するように構成される。

一つの実現手法において、既定の数の次元は１２である。

一つの実現手法において、照合及び認識モジュール７０３は、既定のしきい値より大きい認識される音声データの照合度を有するサンプル音声の一つ以上のセグメントを見つけるために、認識される音声データの各フレームの特性値と予め確立された音声特性値比較表との照合を行うように構成された認識部と、サンプル音声の一つ以上のセグメントのうちの最高の照合度を有するサンプル音声のセグメントを認識結果として決定するように構成された照合部と、を備える。

一つの実現手法において、照合部は、認識される音声データのフレームの数の決定、認識される音声データの各フレームに対する２進シーケンスの取得、認識される音声データに対応するサンプル音声の現在のセグメントの各フレームに対する２進シーケンスの取得、及び、同一のビット位置を有するが認識される音声データの各フレームに対する２進シーケンスとサンプル音声の現在のセグメントの各フレームに対する２進シーケンスの間で異なるビット値を有する桁数の決定を、サンプル音声の一つ以上のセグメントの各々について行うように構成された実行サブユニットと、サンプル音声の一つ以上のセグメントにおいて異なるビット値を有する最小桁を有するサンプル音声のセグメントを認識結果として使用するように構成された照合サブユニットと、を備える。

一つの実現手法において、フレーム分割モジュール７０１は、既定の数のミリ秒の重複を有するように隣接するフレームを設定する分割規則に従って認識される音声データを分割するように構成される。

本願による音声認識のための方法及び装置は、音声データの複数のフレームを取得するために、認識される音声データを分割し、複数のフレームの間及び複数のフレームの各々の内の音声変化傾向に基づいて、認識される音声データの各フレームの特性値を計算し、認識結果を取得するために、認識される音声データの各フレームの特性値と予め確立された音声特性値比較表との照合を行う。すなわち、極値点が周波数領域から抽出されない。代わりに、比較的安定した符号化結果を取得するために、複数のフレームの間及びフレーム内の照合関係を使用し、これによって、雑音による干渉に侵されなくなり、更に正確な認識結果となる。本願による解決は、雑音排除性を著しく向上させるだけでなく照合成功率及び照合結果の精度を効果的に向上させることができる。

本願の実施の形態の上記の説明は、本願の一部の実施の形態の応用にすぎない。本願の上記実施の形態の解決を、一部の規格、モデル及び方法に基づくわずかな変更による実現によって行うこともできる。本願の上記実施の形態で説明した処理方法のステップの創造的でない変更は、同一の応用を実現することができるが、ここでは繰り返さない。

本願は、実施の形態又はフローチャートに示すような方法の動作ステップを提供するが、更に多い又は更に少ない動作ステップを、従来に従って又は創造的な活動を行うことなく方法に含めることができる。実施の形態に挙げたこれらのステップの順序は、複数のステップ実行順序の一つにすぎず、唯一の実行順序を表さない。ステップを、装置又はクライアント製品に適用するときに（例えば、並列プロセッサによって又はマルチスレッド環境において）実施の形態又は添付図面に示す方法に従って順次又は並列に実施することができる。

上記実施の形態に記載された装置又はモジュールを、コンピュータチップ若しくはエンティティによって実現してもよい又はある種の機能を有する製品によって実現することができる。説明の便宜のために、上記装置を、各説明の機能に従って種々のモジュールに分割した。本願を実現する際に、モジュールの機能を、一つ又は複数のソフトウェア及び／又はハードウェアで実現することができる。機能のモジュールを、複数のサブモジュール又はサブユニットを組み合わせることによって実施してもよい。

本願で説明した方法、装置又はモジュールを、コントローラにより適切な方法でコンピュータ可読プログラムコードを介して実現することができる。例えば、コントローラを、マイクロプロセッサ又はプロセッサ、並びに、（マイクロ）プロセッサ、論理ゲート、特定用途向け集積回路、プログラマブル論理コントローラ及び内蔵のマイクロプロセッサによって実行することができるコンピュータ可読媒体プログラムコード（例えば、ソフトウェア又はファームウェア）を格納するコンピュータ可読媒体の形態としてもよい。コントローラの例は、以下のマイクロコントローラを含むがそれに限定されない：ＡＲＣ６２５Ｄ，ＡｔｍｅｌＡＴ９１ＳＡＭ，ＭｉｃｒｏｃｈｉｐＰＩＣ１８Ｆ２６Ｋ２０及びＳｉｌｉｃｏｎｅＬａｂｓＣ８０５１Ｆ３２０。メモリコントローラを、メモリの制御論理の一部として実現してもよい。コントローラを純粋なコンピュータ可読プログラムコードの手法で実現するのに加えて、論理ゲート、スイッチ、ＡＳＩＣ、プログラマブル論理コントローラ及び内蔵のマイクロコントローラの形態の同一の機能のコントローラによって実現できるようにする方法のステップにおいて論理プログラミングを実行することが完全に実現可能であることは、当業者によって理解されるべきである。したがって、そのようなコントローラをハードウェア部とみなすことができ、それに対し、ハードウェア部に含まれるとともに種々の機能を実現するように構成された装置をハードウェア部の内部の構造とみなすことができる。代替的には、種々の機能を実現するように構成された装置を、方法又はハードウェア部の内部の構造を実現するソフトウェアモジュールとみなしてもよい。

本願による装置の一部のモジュールを、例えば、プログラムモジュールとすることができるコンピュータによって実行されるコンピュータ可読命令の規則的なコンテクストにおいて記載してもよい。一般的には、プログラムモジュールは、特定のタスクを実行する又は特定の抽象データ型を実現するルーチン、プログラム、オブジェクト、コンポーネント、データ構造等を備える。本願を、分散コンピューティング環境において実施してもよい。これらの分散コンピューティング環境において、通信ネットワークを介して接続される遠隔処理装置は、タスクを実行する。分散コンピューティング環境において、プログラムモジュールを、記憶装置を含むローカルコンピュータ記憶媒体及びリモートコンピュータ記憶媒体に配置することができる。

実現の手法の上述した説明によれば、当業者は、本願をソフトウェア及び必要なハードウェアによって実現できることを明確に理解することができる。そのような理解に基づいて、本願の技術的解決法を、本質的に又は現在の技術に寄与する部分に関してソフトウェア製品の形態で実現することができる又はデータ移行を実現するプロセスを通じて実現することができる。コンピュータソフトウェア製品を、ＲＯＭ／ＲＡＭ、磁気ディスク、光ディスク等のような記憶媒体に格納することができ、コンピュータソフトウェア製品は、本願の実施の形態又は実施の形態の一部で説明した方法を（パーソナルコンピュータ、携帯端末、サーバ又はネットワーク装置とすることができる）コンピュータ装置によって実行できるようにする複数の命令を備えてもよい。

本願の実施の形態を進行形で説明した。各実施の形態は、他の実施の形態との差に重点を置き、実施の形態は、実施の形態の同一又は類似の部分を互いに参照している。本願の全て又は一部を、パーソナルコンピュータ、サーバコンピュータ、手持ち式装置又は携帯装置、パネル装置、携帯通信端末、マルチプロセッサシステム、マルチプロセッサベースシステム、プログラマブル電子装置、ネットワークＰＣ、小型コンピュータ、上述したシステム又は装置のいずれかを備える分散コンピューティング環境等のような多数の汎用又は専用コンピュータシステム環境又は形態において用いることができる。

本願を実施の形態を用いて説明したが、当業者は、本願の精神から逸脱しない本願の変形及び変更が存在することに気付くべきである。特許請求の範囲が本願の精神から逸脱することなくこれらの変形及び変更を包含することを意味する。

Claims

音声認識のための方法であって、
音声データの複数のフレームを取得するために、認識される音声データを分割することと、
前記複数のフレームの間及び前記複数のフレームの各々の内の音声変化傾向に基づいて、前記認識される音声データの各フレームの特性値を計算することと、
認識結果を取得するために、前記認識される音声データの各フレームの特性値と予め確立される音声特性値比較表との照合を行うことであって、前記音声特性値比較表は、前記複数のフレームの間及び前記複数のフレームの各々の内の音声変化傾向に基づいて確立されることと、
を備える方法。
前記音声特性値比較表を予め確立することは、
サンプル音声の複数のセグメントを備えるサンプルデータを取得することと、
前記サンプル音声の各セグメントに対する音声データの複数のフレームを取得するために、前記サンプル音声の複数のセグメントの各々を分割することと、
前記サンプル音声の各セグメントの各フレームの特性値を、前記複数のフレームの間及び前記複数のフレームの各々の内の音声変化傾向に基づいて計算することと、
前記特性値をルートノードとして使用し、対応関係を形成するために、前記サンプル音声の各セグメントの各フレームの特性値に従って、前記サンプル音声の各セグメントの各フレームを前記ルートノードのうちの対応するものの後ろに取り付けることと、
前記対応関係を前記音声特性値比較表として使用することと、
を備える請求項１に記載の方法。
前記認識結果を取得するために、前記認識される音声データの各フレームの特性値と予め確立された音声特性値比較表との照合を行うことは、
前記サンプル音声のセグメントの数及び前記サンプル音声の各セグメントのフレームの数に従って確立される投票行列を確立することと、
現在のフレームの特性値と同一の特性値を有する音声データ一つ以上のフレームを前記音声特性値比較表で調べること及び現在のフレームの特性値と同一の特性値を有する音声データ一つ以上のフレームに対応する前記投票行列の位置に投票ラベルを付けることを、前記認識される音声データの各フレームについて行うことと、
既定のしきい値を超える最大数の前記投票ラベルを有する前記サンプル音声のセグメントを認識結果として使用することと、
を備える請求項２に記載の方法。
前記複数のフレームの間及び前記複数のフレームの各々の内の音声変化傾向に基づいて、前記認識される音声データの各フレームの特性値を計算することは、
前記認識される音声データの前記複数のフレームの各々を既定の数の次元のベクトルデータに変換することと、
前記認識される音声データの前記複数のフレームの各々のベクトルデータを、隣接する次元の間のベクトル値及び前記音声データの各フレームの前記ベクトルデータの隣接するフレームのベクトル値に従って２進シーケンスに変換することと、
変換から得られる前記２進シーケンスを前記音声データの対応するフレームの特性値として使用すること又は前記２進シーケンスに対応する１０進数を前記音声データの対応するフレームの特性値として使用することと、
を備える請求項１に記載の方法。
前記認識される音声データの前記複数のフレームの各々のベクトルデータを、隣接する次元の間のベクトル値及び前記音声データの各フレームの前記ベクトルデータの隣接するフレームのベクトル値に従って２進シーケンスに変換することは、
式
に従って、前記音声データの各フレームの前記ベクトルデータを前記２進シーケンスに変換することを備え、ｄ_{ｉ−２，ｊ}は、前記音声データのｉ−２番目のフレームのｊ次元のベクトル値を表し、ｄ_{ｉ−２，ｊ＋１}は、前記音声データのｉ−２番目のフレームのｊ＋１次元のベクトル値を表し、ｄ_{ｉ−１，ｊ}は、前記音声データのｉ−１番目のフレームのｊ次元のベクトル値を表し、ｄ_{ｉ−１，ｊ＋１}は、前記音声データのｉ−１番目のフレームのｊ＋１次元のベクトル値を表し、ｄ_{ｉ＋１，ｊ}は、前記音声データのｉ＋１番目のフレームのｊ次元のベクトル値を表し、ｄ_{ｉ＋１，ｊ＋１}は、前記音声データのｉ＋１番目のフレームのｊ＋１次元のベクトル値を表し、ｄ_{ｉ＋２，ｊ}は、前記音声データのｉ＋２番目のフレームのｊ次元のベクトル値を表し、ｄ_{ｉ＋２，ｊ＋１}は、前記音声データのｉ＋２番目のフレームのｊ＋１次元のベクトル値を表し、ｔ１、ｔ２、ｔ３、ｔ４及びdiffは、中間変数を表し、Bit_ｉ，ｊは、前記音声データのｉ番目のフレームの２進シーケンスのｊ番目のビットの値を表し、ｍ、ｎは、一定係数を表す請求項４に記載の方法。
前記認識される音声データの前記複数のフレームの各々を既定の数の次元のベクトルデータに変換することは、
ＭＦＣＣ特徴パラメータ抽出アルゴリズムを用いて、前記音声データの各フレームを既定の数の次元のベクトルデータに変換することを備える請求項４に記載の方法。
前記既定の数の次元は１２である請求項４に記載の方法。
前記認識結果を取得するために、前記認識される音声データの各フレームの特性値と予め確立された音声特性値比較表との照合を行うことは、
既定のしきい値より大きい前記認識される音声データの照合度を有するサンプル音声の一つ以上のセグメントを見つけるために、前記認識される音声データの各フレームの特性値と予め確立された音声特性値比較表との照合を行うことと、
前記サンプル音声の一つ以上のセグメントのうちの最高の照合度を有する前記サンプル音声のセグメントを前記認識結果として決定することと、
を備える請求項４に記載の方法。
前記サンプル音声の一つ以上のセグメントのうちの最高の照合度を有する前記サンプル音声のセグメントを前記認識結果として決定することは、
前記認識される音声データのフレームの数の決定、前記認識される音声データの各フレームに対する２進シーケンスの取得、前記認識される音声データに対応する前記サンプル音声の現在のセグメントの各フレームに対する２進シーケンスの取得、及び、同一のビット位置を有するが前記認識される音声データの各フレームに対する２進シーケンスと前記サンプル音声の現在のセグメントの各フレームに対する２進シーケンスの間で異なるビット値を有する桁数の決定を、前記サンプル音声の一つ以上のセグメントの各々について行うことと、
前記サンプル音声の一つ以上のセグメントにおいて異なるビット値を有する最小桁を有する前記サンプル音声のセグメントを前記認識結果として使用することと、
を備える請求項８に記載の方法。
音声データの複数のフレームを取得するために前記認識される音声データを分割することは、規定の数のミリ秒の重複を有するように隣接するフレームを設定する分割規則に従って前記認識される音声データを分割することを備える請求項１〜９のいずれか一項に記載の方法。
音声認識のための装置であって、
音声データの複数のフレームを取得するために、認識される音声データを分割するように構成されたフレーム分割モジュールと、
前記複数のフレームの間及び前記複数のフレームの各々の内の音声変化傾向に基づいて、前記認識される音声データの各フレームの特性値を計算するように構成された計算モジュールと、
認識結果を取得するために、前記認識される音声データの各フレームの特性値と予め確立される音声特性値比較表との照合を行い、前記音声特性値比較表は、前記複数のフレームの間及び前記複数のフレームの各々の内の音声変化傾向に基づいて確立されるように構成された照合及び認識モジュールと、
を備える装置。
音声特性値比較表を予め確立するように構成された比較表確立モジュールを更に備え、前記比較表確立モジュールは、
サンプル音声の複数のセグメントを備えるサンプルデータを取得するように構成された取得部と、
前記サンプル音声の各セグメントに対する音声データの複数のフレームを取得するために、前記サンプル音声の複数のセグメントの各々を分割するように構成されたフレーム分割部と、
前記サンプル音声の各セグメントの各フレームの特性値を、前記複数のフレームの間及び前記複数のフレームの各々の内の音声変化傾向に基づいて計算するように構成された計算部と、
前記特性値をルートノードとして使用し、対応関係を形成するために、前記サンプル音声の各セグメントの各フレームの特性値に従って、前記サンプル音声の各セグメントの各フレームを前記ルートノードのうちの対応するものの後ろに取り付けるように構成された関係決定部と、
前記対応関係を前記音声特性値比較表として使用するように構成された生成部と、
を備える請求項１１に記載の装置。
前記照合及び認識モジュールは、
前記サンプル音声のセグメントの数及び前記サンプル音声の各セグメントのフレームの数に従って確立される投票行列を確立するように構成された確立部と、
現在のフレームの特性値と同一の特性値を有する音声データ一つ以上のフレームを前記音声特性値比較表で調べること及び現在のフレームの特性値と同一の特性値を有する音声データ一つ以上のフレームに対応する前記投票行列の位置に投票ラベルを付けることを、前記認識される音声データの各フレームについて行うように構成された実行部と、
既定のしきい値を超える最大数の前記投票ラベルを有する前記サンプル音声のセグメントを認識結果として使用するように構成された結果生成部と、
を備える請求項１２に記載の装置。
前記計算モジュールは、
前記認識される音声データの前記複数のフレームの各々を既定の数の次元のベクトルデータに変換するように構成された第１変換部と、
前記認識される音声データの前記複数のフレームの各々のベクトルデータを、隣接する次元の間のベクトル値及び前記音声データの各フレームの前記ベクトルデータの隣接するフレームのベクトル値に従って２進シーケンスに変換するように構成された第２変換部と、
変換から得られる前記２進シーケンスを前記音声データの対応するフレームの特性値として使用するように又は前記２進シーケンスに対応する１０進数を前記音声データの対応するフレームの特性値として使用するように構成された特性値生成部と、
を備える請求項１１に記載の装置。
前記第２変換部は、
式
に従って、前記音声データの各フレームの前記ベクトルデータを前記２進シーケンスに変換し、ｄ_{ｉ−２，ｊ}は、前記音声データのｉ−２番目のフレームのｊ次元のベクトル値を表し、ｄ_{ｉ−２，ｊ＋１}は、前記音声データのｉ−２番目のフレームのｊ＋１次元のベクトル値を表し、ｄ_{ｉ−１，ｊ}は、前記音声データのｉ−１番目のフレームのｊ次元のベクトル値を表し、ｄ_{ｉ−１，ｊ＋１}は、前記音声データのｉ−１番目のフレームのｊ＋１次元のベクトル値を表し、ｄ_{ｉ＋１，ｊ}は、前記音声データのｉ＋１番目のフレームのｊ次元のベクトル値を表し、ｄ_{ｉ＋１，ｊ＋１}は、前記音声データのｉ＋１番目のフレームのｊ＋１次元のベクトル値を表し、ｄ_{ｉ＋２，ｊ}は、前記音声データのｉ＋２番目のフレームのｊ次元のベクトル値を表し、ｄ_{ｉ＋２，ｊ＋１}は、前記音声データのｉ＋２番目のフレームのｊ＋１次元のベクトル値を表し、ｔ１、ｔ２、ｔ３、ｔ４及びdiffは、中間変数を表し、Bit_ｉ，ｊは、前記音声データのｉ番目のフレームの２進シーケンスのｊ番目のビットの値を表し、ｍ、ｎは、一定係数を表すように構成された請求項１４に記載の装置。
前記第１変換部は、ＭＦＣＣ特徴パラメータ抽出アルゴリズムを用いて、前記音声データの各フレームを既定の数の次元のベクトルデータに変換するように構成された請求項１４に記載の装置。
前記既定の数の次元は１２である請求項１４に記載の装置。
前記照合及び認識モジュールは、
既定のしきい値より大きい前記認識される音声データの照合度を有するサンプル音声の一つ以上のセグメントを見つけるために、前記認識される音声データの各フレームの特性値と予め確立された音声特性値比較表との照合を行うように構成された認識部と、
前記サンプル音声の一つ以上のセグメントのうちの最高の照合度を有する前記サンプル音声のセグメントを前記認識結果として決定するように構成された照合部と、
を備える請求項１４に記載の装置。
前記照合部は、
前記認識される音声データのフレームの数の決定、前記認識される音声データの各フレームに対する２進シーケンスの取得、前記認識される音声データに対応する前記サンプル音声の現在のセグメントの各フレームに対する２進シーケンスの取得、及び、同一のビット位置を有するが前記認識される音声データの各フレームに対する２進シーケンスと前記サンプル音声の現在のセグメントの各フレームに対する２進シーケンスの間で異なるビット値を有する桁数の決定を、前記サンプル音声の一つ以上のセグメントの各々について行うように構成された実行サブユニットと、
前記サンプル音声の一つ以上のセグメントにおいて異なるビット値を有する最小桁を有する前記サンプル音声のセグメントを前記認識結果として使用するように構成された照合サブユニットと、
を備える請求項１８に記載の装置。
前記フレーム分割モジュールは、規定の数のミリ秒の重複を有するように隣接するフレームを設定する分割規則に従って前記認識される音声データを分割するように構成された請求項１１〜１９のいずれか一項に記載の装置。