JP2019526070A - 音声認識のための方法及び装置 - Google Patents

音声認識のための方法及び装置 Download PDF

Info

Publication number
JP2019526070A
JP2019526070A JP2018568770A JP2018568770A JP2019526070A JP 2019526070 A JP2019526070 A JP 2019526070A JP 2018568770 A JP2018568770 A JP 2018568770A JP 2018568770 A JP2018568770 A JP 2018568770A JP 2019526070 A JP2019526070 A JP 2019526070A
Authority
JP
Japan
Prior art keywords
frame
data
speech
characteristic value
frames
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2018568770A
Other languages
English (en)
Other versions
JP6750048B2 (ja
Inventor
チーチュン トゥー
チーチュン トゥー
ナン ワン
ナン ワン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Publication of JP2019526070A publication Critical patent/JP2019526070A/ja
Application granted granted Critical
Publication of JP6750048B2 publication Critical patent/JP6750048B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Mathematical Physics (AREA)
  • Mathematical Optimization (AREA)
  • Computational Mathematics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Signal Processing (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Algebra (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Auxiliary Devices For Music (AREA)
  • Telephonic Communication Services (AREA)

Abstract

【課題】本願は、音声認識のための方法及び装置を提供する。【解決手段】方法は、音声データの複数のフレームを取得するために、認識される音声データを分割すること(S1)と、複数のフレームの間及び複数のフレームの各々の内の音声変化傾向に基づいて、認識される音声データの各フレームの特性値を計算すること(S2)と、認識結果を取得するために、認識される音声データの各フレームの特性値と予め確立される音声特性値対照表との照合を行うことであって、音声特性値対照表は、複数のフレームの間及び複数のフレームの各々の内の音声変化傾向に基づいて確立されること(S3)と、を備える。この方法及び装置によって、雑音排除性、照合成功率及び照合結果の精度を向上させることができる。【選択図】図2

Description

本願は、2016年6月28日に出願した「音声認識のための方法及び装置」の表題の中国特許出願第201610487584.9号の優先権を主張し、参照により全体をここに組み込む。
本願は、データ処理技術の分野に属し、特に、音声認識のための方法及び装置に関する。
知識のレベルの継続的な向上に伴い、スマート端末が、最近出て来た双方向TV、音声認識等のような人々の生活において広く用いられている。例えば、カーオーディオで演奏されている曲のタイトルを見つけるために、従来最大限に行うことができたことは、曲を録音した後に友人に質問すること又は歌詞に耳を傾けるとともにオンラインで検索するために歌詞を用いることである。
しかしながら、インテリジェント化技術及び認識技術の継続的な発展に伴い、音声認識を、スマート端末を介して直接実現することができる。音楽認識を端末で行うのであれば、現在演奏されている曲のタイトル又は歌手を自動的に認識することができる。端末を、曲を演奏するために音楽ソフトに直接接続することもできる。
上述したことは、音声フィンガープリントベースの双方向TV又は音楽認識の簡単な実現方法であるが、正確な音声認識技術に依存する。現在、主要な音声認識技術は、特徴点の対の抽出並びに音声を認識及び決定するための特徴点の使用である。例えば、図1に示すように、音楽は、先ず、ソノグラムに変換され、図1に示す複数の極値点がソノグラムから抽出される。認識の困難性を減少させるとともに認識効率を向上させるために、認識を、点の対、すなわち、一対の点を形成する二つの極値点を用いて行うことができる。図1は、複数の点の対を示す。認識の間、同一の点の対の存在は、正確な照合として扱われる。
しかしながら、雑音の影響により、極値点が必ずしも一貫した位置に生じず、これによって、点の対の照合の可能性は低くなる。さらに、これらの極値点は、雑音により干渉される傾向があり、非常に安定しているわけではない。雑音が大きいときに比較的安定した認識結果を取得することができない。
既存の音声認識技術の問題、すなわち、低い雑音排除性が原因の低い照合成功及び低い認識精度に関する有効な解決は、現在のところ提案されていない。
本願の目的は、照合成功率及び照合結果の精度を効果的に向上させることができる音声認識のための方法及び装置を提供することである。
本願による音声認識のための方法及び装置は、次のようにして実現される。
音声認識のための方法であって、
音声データの複数のフレームを取得するために、認識される音声データを分割することと、
複数のフレームの間及び複数のフレームの各々の内の音声変化傾向に基づいて、認識される音声データの各フレームの特性値を計算することと、
認識結果を取得するために、認識される音声データの各フレームの特性値と予め確立された音声特性値比較表との照合を行うことであって、音声特性値比較表は、複数のフレームの間及び複数のフレームの各々の内の音声変化傾向に基づいて確立されることと、
を備える方法。
音声認識のための装置であって、
音声データの複数のフレームを取得するために、認識される音声データを分割するように構成されたフレーム分割モジュールと、
複数のフレームの間及び複数のフレームの各々の内の音声変化傾向に基づいて、認識される音声データの各フレームの特性値を計算するように構成された計算モジュールと、
認識結果を取得するために、認識される音声データの各フレームの特性値と予め確立される音声特性値比較表との照合を行い、音声特性値比較表は、複数のフレームの間及び複数のフレームの各々の内の音声変化傾向に基づいて確立されるように構成された照合及び認識モジュールと、
を備える装置。
本願による音声認識のための方法及び装置は、音声データの複数のフレームを取得するために、認識される音声データを分割し、複数のフレームの間及び複数のフレームの各々の内の音声変化傾向に基づいて、認識される音声データの各フレームの特性値を計算し、認識結果を取得するために、認識される音声データの各フレームの特性値と予め確立される音声特性値比較表との照合を行う。すなわち、極値点が周波数領域から抽出されない。代わりに、比較的安定した符号化結果を取得するために、複数のフレームの間及びフレーム内の比較関係を使用し、これによって、雑音による干渉に侵されなくなり、更に正確な認識結果となる。本願による解決は、雑音排除性を著しく向上させるだけでなく認識成功率及び認識結果の精度を効果的に向上させることができる。
本願の実施の形態又は現在の技術の技術的解決法を更に詳しく説明するために、実施の形態又は現在の技術の説明によって用いられる添付図面を、後に簡単に説明する。明らかに、後に説明する添付図面は、本願の一部の実施の形態にすぎない。当業者は、創造的な活動を行うことなくこれらの添付図面から他の図面を導き出すことができる。
特徴点対の抽出に基づく音声認識の既存の方法の模式図である。 本願による音声認識の例示的な方法のフローチャートである。 本願による特徴ベクトルの模式図である。 本願による音声特性値比較表の模式図である。 本願による認識される音声データの認識及び照合の模式図である。 本願による2進ビットの総和を求めることの模式図である。 本願による音声認識のための装置のモジュール構造の模式図である。
当業者が本願の技術的解決法をよりよく理解できるようにするために、本願の実施の形態の技術的解決法を、本願の実施の形態の添付図面を参照しながら後に明瞭かつ十分に説明する。明らかに、説明する実施の形態は、本願の一部の実施の形態に過ぎず、本願の全ての実施の形態ではない。当業者によって創造的な活動を行うことなく本願の実施の形態に基づいて得ることができる他の全ての実施の形態は、本願の範囲内にある。
当業者が本願の技術的解決法をよりよく理解できるようにするために、本願の実施の形態の技術的解決法を、本願の実施の形態の添付図面を参照しながら後に明瞭かつ十分に説明する。明らかに、説明する実施の形態は、本願の一部の実施の形態に過ぎず、本願の全ての実施の形態ではない。当業者によって創造的な活動を行うことなく本願の実施の形態に基づいて得ることができる他の全ての実施の形態は、本願の範囲内にある。
図2は、本願による音声認識の例示的な方法のフローチャートである。本願は、以下の実施の形態又は添付図面に示すような方法の動作ステップ又は装置構造を提供するが、更に多い又は更に少ない動作ステップ又はモジュラーユニットを、従来に従って又は創造的な活動を行うことなく方法又は装置に含めることができる。論理に関する必要な因果関係のないステップ又は構造において、これらのステップの実行順序又は装置のモジュール構造は、本願の実施の形態において説明する又は本願の添付図面に示す実行順序又は装置のモジュールに限定されない。例示的な装置又は端末製品に適用するとき、方法又はモジュール構造を、(例えば、並列プロセッサによって、マルチスレッド環境において又は分散処理環境において)実施の形態又は添付図面に示す方法又はモジュール構造に従って順次又は並列に実施することができる。
図2に示すように、本願の一部の実施の形態による音声認識のための方法は、以下のものを備えることができる。
S1:音声データの複数のフレームを取得するために、認識される音声データを分割すること。
認識される音声データを、音声認識ソフトによって記録される音声のセグメント又は双方向TVからの音声のセグメントとすることができる。主目的は、典型的には、音声のセグメントのソースを認識することである。記録後、音声のセグメントをフレームに分割することができる。例えば、30ミリ秒(ms)をデータの1フレームとして用いることができる。音声データの1フレームの長さとして選択されるmsの数は、本願によって限定されず、実際の要求に従って選択することができ、20ms、25ms、40ms等とすることができる。しかしながら、認識される音声データのフレーム分割の規則が予め確立される音声特性値比較表のフレーム分割の原則と同一でなければならないことが保証されるべきである。
さらに、フレーム分割の影響により照合及び認識中に誤差が予測される。誤差の影響を低減するために、フレーム分割中に互いに重なり合うようにフレームを設定する必要がある。一例としてフレームごとに30msを用いる場合、第1のフレームは、0ms〜30msであり、第1のフレームは、16ms〜45msであり、第3のフレームは、30ms〜60msである。すなわち、既定の数のミリ秒の重複を有するように隣接するフレームが設定される分割規則に従って、認識される音声データがフレームに分割される。換言すれば、隣接するフレームは重複し、これによって、フレーム分割又は照合規則によって生じる分割の影響を回避する。
その後のデータ処理の前に、音声データの各フレームを、音声データを周波数領域に変換するとともに周波数領域の信号を分析するために高速フーリエ変換(FFT)を用いて処理することができる。
S2:複数のフレームの間及び複数のフレームの各々の内の音声変化傾向に基づいて、認識される音声データの各フレームの特性値を計算すること。
特徴を決定する処理において、既定の数の次元(例えば、12次元)の特徴ベクトルを、上述したFFTの後に取得した周波数領域結果にMFCC特徴パラメータ抽出アルゴリズムを適用することによって取得してもよい。MFCC特徴パラメータ抽出アルゴリズムを用いる理由は、MFCC特徴の音声認識において信号の著しい変化領域を抽出して良好な区別を行うことができるからであり、MFCCは、メル周波数ケプストラム係数の頭字語であり、メル周波数は、人間の聴覚の特徴に基づいて表され、Hzの周波数の非線形的な対応関係を有する。メル周波数ケプストラム係数(MFCC)は、メル周波数とHzの周波数の間の関係を用いた計算によって取得されるHzのスペクトル特性である。メル周波数とHzの周波数の間の非線形的な対応関係のために、MFCC計算精度は、周波数が上がるに従って下がる。したがって、低周波数のMFCCのみが応用において使用され、中間周波数から高周波数までのMCCCは捨てられる。
MCCC特徴計算の後、各フレームの信号は、既定の数の次元のベクトルに変換される。ベクトルが12次元ベクトルであると仮定すると、図3に示すように、i番目のフレームを(di0,di1,...di10,di11)として表すことができ、dは、float型データである。さらに、次の比較及び照合を更に簡単にするために、取得したベクトルをコード化して2進シーケンス又は2進シーケンスに対応する正の数に変換する。例えば、図3に示すフレーム特徴ベクトルは、以下のようにコード化して変換される。
i−2,jは、音声データのi−2番目のフレームのj次元のベクトル値を表し、di−2,j+1は、音声データのi−2番目のフレームのj+1次元のベクトル値を表し、di−1,jは、音声データのi−1番目のフレームのj次元のベクトル値を表し、di−1,j+1は、音声データのi−1番目のフレームのj+1次元のベクトル値を表し、di+1,jは、音声データのi+1番目のフレームのj次元のベクトル値を表し、di+1,j+1は、音声データのi+1番目のフレームのj+1次元のベクトル値を表し、di+2,jは、音声データのi+2番目のフレームのj次元のベクトル値を表し、di+2,j+1は、音声データのi+2番目のフレームのj+1次元のベクトル値を表し、t1、t2、t3、t4及びdiffは、中間変数を表し、Biti,jは、音声データのi番目のフレームの2進シーケンスのj番目のビットの値を表し、m、nは、一定係数を表す。
隣接する次元の間のベクトル値及び音声データの各フレームのベクトルデータの隣接するフレームのベクトル値に従う計算によって2進シーケンスが得られることが、上記の式からわかる。すなわち、先ず、認識される音声データの各フレームが、既定の数の次元のベクトルデータに変換され、その後、音声データの各フレームのベクトルデータが、隣接する次元の間のベクトル値及び音声データの各フレームのベクトルデータの隣接するフレームのベクトル値に従って2進シーケンスに変換される。
例えば、上記の式において、2進シーケンスは、データの二つの隣接するフレームのベクトル値及び同一のフレームの隣接するベクトル値に従って取得される。このようにして、フレームの間の及びフレーム内の関係は、特性値の計算に有効に含まれる。
しかしながら、上述したm,nを必要に応じて選択できることに留意されたい。例えば、m,nはそれぞれ、2及び3の値を有することができる。したがって、以下のようになる。
さらに、二つの隣接するフレームは、上述した例及び式の計算の基礎として用いられる。例示的な実現において、隣接する三つのフレーム、隣接する四つのフレーム等を用いることもできる。適切な数のフレームを、プロセッサの実際の計算精度及び処理能力に基づいて選択することができる。異なる数のフレームを選択するとき、上記の式をそれに応じて調整する必要がある。しかしながら、調整の概念は、同様であり、本願において制約されない。
上述した手法で計算によって2進シーケンスを取得するプロセスにおいて、元のベクトルの次元がNである場合、計算によって得られる2進シーケンスの桁はN−1である。例えば、12次元特徴ベクトルを取得する場合、取得される2進シーケンスは11桁である。
本例において、取得される2進シーケンスを特性値として用いることができる。代替的には、2進シーケンスに対応する10進数を特性値として用いることができる。例えば、音声データのフレームの2進シーケンスが00000000101である場合、00000000101を最終的な特性値として用いることができる又は5を最終的な特性値として用いることができる。
要約すると、フレーム内の隣接関係の係数を比較することができ、それは、イントラフレーム係数の比較と考えられる。その後、二つの隣接するフレームの比較情報を取得する。これらの二つの隣接するフレームの情報及びフレームの各々の内の情報は、最終的な値diffを形成するために用いられる。値diffと零(0)との比較の結果は、対応する桁の最終的なコード化された値を構成する。例えば、1フレームの信号がMFCCによって12次元の特徴ベクトルに変換された後、ベクトルは、11桁の2進シーケンス(Biti,0,Biti,1...Biti,10)となるようにコード化される。2進シーケンスが10進数に変換される場合、対応する範囲は0〜211となる。
S3:認識結果を取得するために、認識される音声データの各フレームの特性値と予め確立された音声特性値比較表との照合を行うことであって、音声特性値比較表は、複数のフレームの間及び複数のフレームの各々の内の音声変化傾向に基づいて確立されること。
音声データの有効な照合を実現するために、データの各フレーム及びデータのフレームに対応する特性値を記録する音声特性比較表を予め確立する必要がある。特性値が音声特性値比較表において2進形式で表される場合、それに応じて、音声認識の間に、認識される音声データは、特性値として2進シーケンスに変換される。特性値が音声特性値比較表において10進形式で表される場合、それに応じて、音声認識の間に、認識される音声データは、特性値として10進シーケンスに変換される。
例えば、音声特性値比較表を、次のように確立することができる。
ステップS1:サンプル音声の複数のセグメントを備えるサンプルデータを取得する。
ステップS2:サンプル音声の各セグメントに対する音声データの複数のフレームを取得するために、サンプル音声の複数のセグメントの各々を分割する。
ステップS3:サンプル音声の各セグメントの各フレームの特性値を、複数のフレームの間及び複数のフレームの各々の内の音声変化傾向に基づいて計算する。
ステップS4:特性値をルートノードとして使用し、対応関係を形成するために、サンプル音声の各セグメントの各フレームの特性値に従って、サンプル音声の各セグメントの各フレームをルートノードのうちの対応するものの後ろに取り付ける。
ステップS5:対応関係を音声特性値比較表として使用する。
音声特性値比較表を確立する上述したステップにおいて、特性値計算のプロセス並びにそれに伴う原理及び手法は、認識される音声データの特性値を取得する場合と同一であり、ここでは繰り返さない。違いについては、音声特性値比較表を確立するときに、特性値をルートノードとして使用する必要があり、サンプル音声の各セグメントの各フレームの特性値に従って、サンプル音声の各セグメントの各フレームをルートノードのうちの対応するものの後ろに取り付ける。例えば、最初に取得したベクトルが12次元であると仮定すると、最終的に取得する確立された音声特性値比較表を図4に示す。
その後の迅速な認識を可能にするために、図4に示す音声特性値比較表に加えて、特徴アレイを、サンプル音声の全てのセグメントの特性値を記録するために含めることができる。
ベクトルが12次元であるので、特性値は、2048(211)の可能性がある。したがって、音声特性値比較表は、2048個のルートノードを有する。各ルートノードに対応する特性値を有する音声データの全てのフレーム(すなわち、音声信号のフレーム)は、各ルートノードの後ろに順次格納される。例えば、0番目のルートノードは、0番目のルートノードの後ろに格納された0の特性値を有する全てのフィンガープリント情報を有する。i番目の音声のj番目のフレームに対応する特性値が0であるとともにk番目の音声のl番目のフレームに対応する特性値が0である場合、これらの音声セグメント(i,j)(k,l)は0番目のルートノードの下に格納される。
最終的な検索及び認識を実現するために、比較的正確な照合結果を、投票行列を確立することによって決定することができる。例えば、プロセスは、サンプル音声のセグメントの数及びサンプル音声の各セグメントのフレームの数に従って確立される投票行列を確立することを備えることができる。すなわち、投票行列を2次元行列とすることができ、2次元行列の次元の数は、データベースのサンプル音声のセグメントの量、すなわち、データベースの音声信号の数及び音声信号ごとの最大数のデータフレームを表す。投票行列を確立した後、音声特性比較表において、現在のフレームの特性値と同一の特性値を有する音声データの一つ以上のフレームを調べることと、現在のフレームの特性値と同一の特性値を有する音声データの一つ以上のフレームに対応する投票行列の位置に投票ラベルを付すことと、既定のしきい値を超える投票ラベルの最大数を有するサンプル音声のセグメントを認識結果として使用することと、を認識される音声データの各フレームについて行うことができる。
例えば、図5に示すように、認識される音声データのセグメントの各フレームに対する特性値を計算によって取得した後、投票動作を、音声特性値比較表に従って各フレームに対して順次行うことができる。例えば、認識される音声データの各フレームの信号に対して、特性値“v”を最初に見つけ、対応するルートノードを特性指標表で見つけ、“v”の特性値を有する全ての音声信号が、ノードの下に格納される。例えば、認識される音声データの1番目のフレームの特性値が2046である場合、音声特性値比較表の2046番目のルートノードを見つける。このノードの下には、k−1番目の音声信号のl番目のフレームが格納され、k−1番目の音声信号のl番目のフレームの特性値は、2046である。したがって、投票行列の位置(k−1,l)で“+1”動作が行われる。“+1”動作は、投票を表し、投票動作の意味は、認識される音声データのセグメントをk−1番目の音源のl番目のフレームの付近からのものとすることができることを意味する。
投票が、認識される音声データの全てのフレームの特性値に行われた後、最高票を取得する音声セグメントのフレームを決定するために、最終的な投票結果を考慮することができ、最高票は、認識される信号がデータベースのこれらの音声セグメントに最も類似することを表す。
しかしながら、投票中に変換プロセスが存在することを留意すべきであり、すなわち、認識される音声データの1番目のフレーム及び5番目のサンプル音声の3番目のフレームが照合の際に同一の特性値を有する場合、認識される音声データの4番目のフレーム及び5番目のサンプル音声の6番目のフレームが次の照合の際に同一の特性値を有するときに、ラベル位置は、5番目のサンプル音声の1番目のフレームである。すなわち、投票は、全ての照合結果に対してサンプル音声の最初に照合された位置に行われる。換言すれば、認識される音声データの3番目のフレーム及び8番目のサンプル音声の6番目のフレームが(このサンプル音声との最初の照合である)照合の際に同一の特性値を有する場合、認識される音声データの4番目のフレーム及び8番目のサンプル音声の7番目のフレームが次の照合の際に同一の特性値を有するときに、ラベル位置は、8番目のサンプル音声の6番目のフレームである。すなわち、投票は、全ての照合結果に対してサンプル音声の最初に照合された位置に行われる。
他の照合手法を用いることができる。例えば、認識される音声データの各フレームの特性値は、サンプル音声に直接照合され、各サンプル音声との最終的な照合度が統計分析される。このタイプの動作も実現可能である。しかしながら、比較の際には、サンプル音声のフレームが開始フレームとして照合される手法が、明らかに更に正確である。
例示的な実現において、条件に適合する複数の結果を、照合の際に時々取得することができる。最終的な結果を更に正確にするために、照合しきい値(T)を設定することができる。順次の正確な照合を、しきい値Tを超えるときのみ行うことができる。例えば、i番目のサンプル音声の3番目のフレームに対する投票がしきい値より大きい場合、セグメントの特性値の比較は、3番目のフレームから開始する。図6に示すように、voice_iの3番目のフレームの特性値がf3であるとともに認識される信号の1番目のフレームの特性値がf0であると仮定すると、f3及びf0が二つの2進シーケンスに変換されるとともに二つの2進シーケンスの異なる桁の数を計数するような比較が行われる。比較を、表を調べることによって行うことができる。例えば、11桁の2進シーケンスの比較を行う。11桁の2進シーケンスはそれぞれ、10進数の特性値に対応する。したがって、二つの特性値の間の類似の比較のために、先ず、特性値が2進シーケンスに変換され、その後、二つの2進シーケンスの異なる桁の数を計数する。認識される音声データは、典型的には、データの複数のフレームを備えるので、複数のフレームの比較結果を追加することができ、最終的な計数結果の最小値に対応する投票位置は、認識結果であると決定される。
すなわち、既定のしきい値より大きい認識される音声データとの照合度を有するサンプル音声の一つ以上のセグメントを見つけるために、照合及び認識を、認識される音声データの各フレームの特性値と予め確立された音声特性値比較表との間で行うことができる。その後、最高の照合度を有するサンプル音声のセグメントを、認識結果として、サンプル音声の一つ以上のセグメントの間で決定する。例えば、認識される音声データのフレームの数の決定、認識される音声データの各フレームに対する2進シーケンスの取得、及び、同一のビット位置を有するが認識される音声データの各フレームに対する2進シーケンスと認識される音声データに対応するサンプル音声の各セグメントの各フレームに対する2進シーケンスの間で異なるビット値を有する桁数の決定を、サンプル音声の一つ以上のセグメントの各々について行うことと、サンプル音声の一つ以上のセグメントにおいて異なるビット値を有する最小桁を有するサンプル音声のセグメントを認識結果として使用することと、を有してもよい。
例えば、第1の2進シーケンスは、0010001であり、第2の2進シーケンスは、10100000であり、比較結果は、1である。
上記の例で説明した音声認識のための方法は、良好なロバストネスを有する。同時に、提案した認識方法は、速い認識速度を有し、双方向TV及び音楽認識のような状況において用いることができる。本例において、極値点が周波数領域から抽出されない。代わりに、フレームの間及びフレーム内の比較関係が、比較的安定したコード化結果を取得するために用いられる。そのようなコード化手法は、雑音による干渉に侵されなくなり、これによって、更に正確な音声認識結果を実現する。
同一の概念に基づいて、音声認識のための装置を、後の実施の形態で説明するような本発明の実施の形態において提供する。問題を解決するための音声認識のための装置の原理が音声認識のための方法の原理と同様であるので、音声認識のための方法の実現を、音声認識のための装置の実現のために参照することができ、その繰り返しをここでは説明しない。以下で用いる用語「部」又は「モジュール」は、予め設定された機能を実現することができるソフトウェア及び/又はハードウェアの組合せを意味する。以下の実施の形態で説明する装置は、好適には、ソフトウェアによって実現される。しかしながら、装置を、ハードウェア又はソフトウェアとハードウェアの組合せによって実現することもできる。図7は、本願の一部の実施の形態による音声認識のための装置の構造的なブロック図である。図7に示すように、装置は、フレーム分割モジュール701と、計算モジュール702と、照合及び認識モジュール703と、を備えることができる。この構造を、以下で説明する。
フレーム分割モジュール701は、音声データの複数のフレームを取得するために、認識される音声データを分割するように構成される。
計算モジュール702は、複数のフレームの間及び複数のフレームの各々の内の音声変化傾向に基づいて、認識される音声データの各フレームの特性値を計算するように構成される。
照合及び認識モジュール703は、認識結果を取得するために、認識される音声データの各フレームの特性値と予め確立された音声特性値比較表との照合を行い、音声特性値比較表は、複数のフレームの間及び複数のフレームの各々の内の音声変化傾向に基づいて確立されるように構成される。
一つの実現手法において、上述した音声認識のための装置は、音声特性値比較表を予め確立するように構成された比較表確立モジュールを更に備えることができ、比較表確立モジュールは、サンプル音声の複数のセグメントを備えるサンプルデータを取得するように構成された取得部と、サンプル音声の各セグメントに対する音声データの複数のフレームを取得するためにサンプル音声の複数のセグメントの各々を分割するように構成されたフレーム分割部と、サンプル音声の各セグメントの各フレームの特性値を、複数のフレームの間及び複数のフレームの各々の内の音声変化傾向に基づいて計算するように構成された計算部と、特性値をルートノードとして使用し、対応関係を形成するために、サンプル音声の各セグメントの各フレームの特性値に従って、サンプル音声の各セグメントの各フレームをルートノードのうちの対応するものの後ろに取り付けるように構成された関係決定部と、対応関係を音声特性値比較表として使用するように構成された生成部と、を備える。
一つの実現手法において、照合及び認識モジュール703は、サンプル音声のセグメントの数及びサンプル音声の各セグメントのフレームの数に従って確立される投票行列を確立するように構成された確立部と、現在のフレームの特性値と同一の特性値を有する音声データ一つ以上のフレームを音声特性値比較表で調べること及び現在のフレームの特性値と同一の特性値を有する音声データ一つ以上のフレームに対応する投票行列の位置に投票ラベルを付けることを、認識される音声データの各フレームについて行うように構成された実行部と、既定のしきい値を超える最大数の投票ラベルを有するサンプル音声のセグメントを認識結果として使用するように構成された結果生成部と、を備える。
一つの実現手法において、計算モジュール702は、認識される音声データの複数のフレームの各々を既定の数の次元のベクトルデータに変換するように構成された第1変換部と、認識される音声データの複数のフレームの各々のベクトルデータを、隣接する次元の間のベクトル値及び音声データの各フレームのベクトルデータの隣接するフレームのベクトル値に従って2進シーケンスに変換するように構成された第2変換部と、変換から得られる2進シーケンスを音声データの対応するフレームの特性値として使用するように又は2進シーケンスに対応する10進数を音声データの対応するフレームの特性値として使用するように構成された特性値生成部と、を備える。
一つの実現手法において、第2変換部は、以下の式に従って、音声データの各フレームのベクトルデータを2進シーケンスに変換するように構成される。
i−2,jは、音声データのi−2番目のフレームのj次元のベクトル値を表し、di−2,j+1は、音声データのi−2番目のフレームのj+1次元のベクトル値を表し、di−1,jは、音声データのi−1番目のフレームのj次元のベクトル値を表し、di−1,j+1は、音声データのi−1番目のフレームのj+1次元のベクトル値を表し、di+1,jは、音声データのi+1番目のフレームのj次元のベクトル値を表し、di+1,j+1は、音声データのi+1番目のフレームのj+1次元のベクトル値を表し、di+2,jは、音声データのi+2番目のフレームのj次元のベクトル値を表し、di+2,j+1は、音声データのi+2番目のフレームのj+1次元のベクトル値を表し、t1、t2、t3、t4及びdiffは、中間変数を表し、Biti,jは、音声データのi番目のフレームの2進シーケンスのj番目のビットの値を表し、m、nは、一定係数を表す。
一つの実現手法において、第1変換部は、MFCC特徴パラメータ抽出アルゴリズムを用いて、音声データの各フレームを既定の数の次元のベクトルデータに変換するように構成される。
一つの実現手法において、既定の数の次元は12である。
一つの実現手法において、照合及び認識モジュール703は、既定のしきい値より大きい認識される音声データの照合度を有するサンプル音声の一つ以上のセグメントを見つけるために、認識される音声データの各フレームの特性値と予め確立された音声特性値比較表との照合を行うように構成された認識部と、サンプル音声の一つ以上のセグメントのうちの最高の照合度を有するサンプル音声のセグメントを認識結果として決定するように構成された照合部と、を備える。
一つの実現手法において、照合部は、認識される音声データのフレームの数の決定、認識される音声データの各フレームに対する2進シーケンスの取得、認識される音声データに対応するサンプル音声の現在のセグメントの各フレームに対する2進シーケンスの取得、及び、同一のビット位置を有するが認識される音声データの各フレームに対する2進シーケンスとサンプル音声の現在のセグメントの各フレームに対する2進シーケンスの間で異なるビット値を有する桁数の決定を、サンプル音声の一つ以上のセグメントの各々について行うように構成された実行サブユニットと、サンプル音声の一つ以上のセグメントにおいて異なるビット値を有する最小桁を有するサンプル音声のセグメントを認識結果として使用するように構成された照合サブユニットと、を備える。
一つの実現手法において、フレーム分割モジュール701は、既定の数のミリ秒の重複を有するように隣接するフレームを設定する分割規則に従って認識される音声データを分割するように構成される。
本願による音声認識のための方法及び装置は、音声データの複数のフレームを取得するために、認識される音声データを分割し、複数のフレームの間及び複数のフレームの各々の内の音声変化傾向に基づいて、認識される音声データの各フレームの特性値を計算し、認識結果を取得するために、認識される音声データの各フレームの特性値と予め確立された音声特性値比較表との照合を行う。すなわち、極値点が周波数領域から抽出されない。代わりに、比較的安定した符号化結果を取得するために、複数のフレームの間及びフレーム内の照合関係を使用し、これによって、雑音による干渉に侵されなくなり、更に正確な認識結果となる。本願による解決は、雑音排除性を著しく向上させるだけでなく照合成功率及び照合結果の精度を効果的に向上させることができる。
本願の実施の形態の上記の説明は、本願の一部の実施の形態の応用にすぎない。本願の上記実施の形態の解決を、一部の規格、モデル及び方法に基づくわずかな変更による実現によって行うこともできる。本願の上記実施の形態で説明した処理方法のステップの創造的でない変更は、同一の応用を実現することができるが、ここでは繰り返さない。
本願は、実施の形態又はフローチャートに示すような方法の動作ステップを提供するが、更に多い又は更に少ない動作ステップを、従来に従って又は創造的な活動を行うことなく方法に含めることができる。実施の形態に挙げたこれらのステップの順序は、複数のステップ実行順序の一つにすぎず、唯一の実行順序を表さない。ステップを、装置又はクライアント製品に適用するときに(例えば、並列プロセッサによって又はマルチスレッド環境において)実施の形態又は添付図面に示す方法に従って順次又は並列に実施することができる。
上記実施の形態に記載された装置又はモジュールを、コンピュータチップ若しくはエンティティによって実現してもよい又はある種の機能を有する製品によって実現することができる。説明の便宜のために、上記装置を、各説明の機能に従って種々のモジュールに分割した。本願を実現する際に、モジュールの機能を、一つ又は複数のソフトウェア及び/又はハードウェアで実現することができる。機能のモジュールを、複数のサブモジュール又はサブユニットを組み合わせることによって実施してもよい。
本願で説明した方法、装置又はモジュールを、コントローラにより適切な方法でコンピュータ可読プログラムコードを介して実現することができる。例えば、コントローラを、マイクロプロセッサ又はプロセッサ、並びに、(マイクロ)プロセッサ、論理ゲート、特定用途向け集積回路、プログラマブル論理コントローラ及び内蔵のマイクロプロセッサによって実行することができるコンピュータ可読媒体プログラムコード(例えば、ソフトウェア又はファームウェア)を格納するコンピュータ可読媒体の形態としてもよい。コントローラの例は、以下のマイクロコントローラを含むがそれに限定されない:ARC625D,Atmel AT91SAM,Microchip PIC18F26K20及びSilicone Labs C8051F320。メモリコントローラを、メモリの制御論理の一部として実現してもよい。コントローラを純粋なコンピュータ可読プログラムコードの手法で実現するのに加えて、論理ゲート、スイッチ、ASIC、プログラマブル論理コントローラ及び内蔵のマイクロコントローラの形態の同一の機能のコントローラによって実現できるようにする方法のステップにおいて論理プログラミングを実行することが完全に実現可能であることは、当業者によって理解されるべきである。したがって、そのようなコントローラをハードウェア部とみなすことができ、それに対し、ハードウェア部に含まれるとともに種々の機能を実現するように構成された装置をハードウェア部の内部の構造とみなすことができる。代替的には、種々の機能を実現するように構成された装置を、方法又はハードウェア部の内部の構造を実現するソフトウェアモジュールとみなしてもよい。
本願による装置の一部のモジュールを、例えば、プログラムモジュールとすることができるコンピュータによって実行されるコンピュータ可読命令の規則的なコンテクストにおいて記載してもよい。一般的には、プログラムモジュールは、特定のタスクを実行する又は特定の抽象データ型を実現するルーチン、プログラム、オブジェクト、コンポーネント、データ構造等を備える。本願を、分散コンピューティング環境において実施してもよい。これらの分散コンピューティング環境において、通信ネットワークを介して接続される遠隔処理装置は、タスクを実行する。分散コンピューティング環境において、プログラムモジュールを、記憶装置を含むローカルコンピュータ記憶媒体及びリモートコンピュータ記憶媒体に配置することができる。
実現の手法の上述した説明によれば、当業者は、本願をソフトウェア及び必要なハードウェアによって実現できることを明確に理解することができる。そのような理解に基づいて、本願の技術的解決法を、本質的に又は現在の技術に寄与する部分に関してソフトウェア製品の形態で実現することができる又はデータ移行を実現するプロセスを通じて実現することができる。コンピュータソフトウェア製品を、ROM/RAM、磁気ディスク、光ディスク等のような記憶媒体に格納することができ、コンピュータソフトウェア製品は、本願の実施の形態又は実施の形態の一部で説明した方法を(パーソナルコンピュータ、携帯端末、サーバ又はネットワーク装置とすることができる)コンピュータ装置によって実行できるようにする複数の命令を備えてもよい。
本願の実施の形態を進行形で説明した。各実施の形態は、他の実施の形態との差に重点を置き、実施の形態は、実施の形態の同一又は類似の部分を互いに参照している。本願の全て又は一部を、パーソナルコンピュータ、サーバコンピュータ、手持ち式装置又は携帯装置、パネル装置、携帯通信端末、マルチプロセッサシステム、マルチプロセッサベースシステム、プログラマブル電子装置、ネットワークPC、小型コンピュータ、上述したシステム又は装置のいずれかを備える分散コンピューティング環境等のような多数の汎用又は専用コンピュータシステム環境又は形態において用いることができる。
本願を実施の形態を用いて説明したが、当業者は、本願の精神から逸脱しない本願の変形及び変更が存在することに気付くべきである。特許請求の範囲が本願の精神から逸脱することなくこれらの変形及び変更を包含することを意味する。

Claims (20)

  1. 音声認識のための方法であって、
    音声データの複数のフレームを取得するために、認識される音声データを分割することと、
    前記複数のフレームの間及び前記複数のフレームの各々の内の音声変化傾向に基づいて、前記認識される音声データの各フレームの特性値を計算することと、
    認識結果を取得するために、前記認識される音声データの各フレームの特性値と予め確立される音声特性値比較表との照合を行うことであって、前記音声特性値比較表は、前記複数のフレームの間及び前記複数のフレームの各々の内の音声変化傾向に基づいて確立されることと、
    を備える方法。
  2. 前記音声特性値比較表を予め確立することは、
    サンプル音声の複数のセグメントを備えるサンプルデータを取得することと、
    前記サンプル音声の各セグメントに対する音声データの複数のフレームを取得するために、前記サンプル音声の複数のセグメントの各々を分割することと、
    前記サンプル音声の各セグメントの各フレームの特性値を、前記複数のフレームの間及び前記複数のフレームの各々の内の音声変化傾向に基づいて計算することと、
    前記特性値をルートノードとして使用し、対応関係を形成するために、前記サンプル音声の各セグメントの各フレームの特性値に従って、前記サンプル音声の各セグメントの各フレームを前記ルートノードのうちの対応するものの後ろに取り付けることと、
    前記対応関係を前記音声特性値比較表として使用することと、
    を備える請求項1に記載の方法。
  3. 前記認識結果を取得するために、前記認識される音声データの各フレームの特性値と予め確立された音声特性値比較表との照合を行うことは、
    前記サンプル音声のセグメントの数及び前記サンプル音声の各セグメントのフレームの数に従って確立される投票行列を確立することと、
    現在のフレームの特性値と同一の特性値を有する音声データ一つ以上のフレームを前記音声特性値比較表で調べること及び現在のフレームの特性値と同一の特性値を有する音声データ一つ以上のフレームに対応する前記投票行列の位置に投票ラベルを付けることを、前記認識される音声データの各フレームについて行うことと、
    既定のしきい値を超える最大数の前記投票ラベルを有する前記サンプル音声のセグメントを認識結果として使用することと、
    を備える請求項2に記載の方法。
  4. 前記複数のフレームの間及び前記複数のフレームの各々の内の音声変化傾向に基づいて、前記認識される音声データの各フレームの特性値を計算することは、
    前記認識される音声データの前記複数のフレームの各々を既定の数の次元のベクトルデータに変換することと、
    前記認識される音声データの前記複数のフレームの各々のベクトルデータを、隣接する次元の間のベクトル値及び前記音声データの各フレームの前記ベクトルデータの隣接するフレームのベクトル値に従って2進シーケンスに変換することと、
    変換から得られる前記2進シーケンスを前記音声データの対応するフレームの特性値として使用すること又は前記2進シーケンスに対応する10進数を前記音声データの対応するフレームの特性値として使用することと、
    を備える請求項1に記載の方法。
  5. 前記認識される音声データの前記複数のフレームの各々のベクトルデータを、隣接する次元の間のベクトル値及び前記音声データの各フレームの前記ベクトルデータの隣接するフレームのベクトル値に従って2進シーケンスに変換することは、

    に従って、前記音声データの各フレームの前記ベクトルデータを前記2進シーケンスに変換することを備え、di−2,jは、前記音声データのi−2番目のフレームのj次元のベクトル値を表し、di−2,j+1は、前記音声データのi−2番目のフレームのj+1次元のベクトル値を表し、di−1,jは、前記音声データのi−1番目のフレームのj次元のベクトル値を表し、di−1,j+1は、前記音声データのi−1番目のフレームのj+1次元のベクトル値を表し、di+1,jは、前記音声データのi+1番目のフレームのj次元のベクトル値を表し、di+1,j+1は、前記音声データのi+1番目のフレームのj+1次元のベクトル値を表し、di+2,jは、前記音声データのi+2番目のフレームのj次元のベクトル値を表し、di+2,j+1は、前記音声データのi+2番目のフレームのj+1次元のベクトル値を表し、t1、t2、t3、t4及びdiffは、中間変数を表し、Biti,jは、前記音声データのi番目のフレームの2進シーケンスのj番目のビットの値を表し、m、nは、一定係数を表す請求項4に記載の方法。
  6. 前記認識される音声データの前記複数のフレームの各々を既定の数の次元のベクトルデータに変換することは、
    MFCC特徴パラメータ抽出アルゴリズムを用いて、前記音声データの各フレームを既定の数の次元のベクトルデータに変換することを備える請求項4に記載の方法。
  7. 前記既定の数の次元は12である請求項4に記載の方法。
  8. 前記認識結果を取得するために、前記認識される音声データの各フレームの特性値と予め確立された音声特性値比較表との照合を行うことは、
    既定のしきい値より大きい前記認識される音声データの照合度を有するサンプル音声の一つ以上のセグメントを見つけるために、前記認識される音声データの各フレームの特性値と予め確立された音声特性値比較表との照合を行うことと、
    前記サンプル音声の一つ以上のセグメントのうちの最高の照合度を有する前記サンプル音声のセグメントを前記認識結果として決定することと、
    を備える請求項4に記載の方法。
  9. 前記サンプル音声の一つ以上のセグメントのうちの最高の照合度を有する前記サンプル音声のセグメントを前記認識結果として決定することは、
    前記認識される音声データのフレームの数の決定、前記認識される音声データの各フレームに対する2進シーケンスの取得、前記認識される音声データに対応する前記サンプル音声の現在のセグメントの各フレームに対する2進シーケンスの取得、及び、同一のビット位置を有するが前記認識される音声データの各フレームに対する2進シーケンスと前記サンプル音声の現在のセグメントの各フレームに対する2進シーケンスの間で異なるビット値を有する桁数の決定を、前記サンプル音声の一つ以上のセグメントの各々について行うことと、
    前記サンプル音声の一つ以上のセグメントにおいて異なるビット値を有する最小桁を有する前記サンプル音声のセグメントを前記認識結果として使用することと、
    を備える請求項8に記載の方法。
  10. 音声データの複数のフレームを取得するために前記認識される音声データを分割することは、規定の数のミリ秒の重複を有するように隣接するフレームを設定する分割規則に従って前記認識される音声データを分割することを備える請求項1〜9のいずれか一項に記載の方法。
  11. 音声認識のための装置であって、
    音声データの複数のフレームを取得するために、認識される音声データを分割するように構成されたフレーム分割モジュールと、
    前記複数のフレームの間及び前記複数のフレームの各々の内の音声変化傾向に基づいて、前記認識される音声データの各フレームの特性値を計算するように構成された計算モジュールと、
    認識結果を取得するために、前記認識される音声データの各フレームの特性値と予め確立される音声特性値比較表との照合を行い、前記音声特性値比較表は、前記複数のフレームの間及び前記複数のフレームの各々の内の音声変化傾向に基づいて確立されるように構成された照合及び認識モジュールと、
    を備える装置。
  12. 音声特性値比較表を予め確立するように構成された比較表確立モジュールを更に備え、前記比較表確立モジュールは、
    サンプル音声の複数のセグメントを備えるサンプルデータを取得するように構成された取得部と、
    前記サンプル音声の各セグメントに対する音声データの複数のフレームを取得するために、前記サンプル音声の複数のセグメントの各々を分割するように構成されたフレーム分割部と、
    前記サンプル音声の各セグメントの各フレームの特性値を、前記複数のフレームの間及び前記複数のフレームの各々の内の音声変化傾向に基づいて計算するように構成された計算部と、
    前記特性値をルートノードとして使用し、対応関係を形成するために、前記サンプル音声の各セグメントの各フレームの特性値に従って、前記サンプル音声の各セグメントの各フレームを前記ルートノードのうちの対応するものの後ろに取り付けるように構成された関係決定部と、
    前記対応関係を前記音声特性値比較表として使用するように構成された生成部と、
    を備える請求項11に記載の装置。
  13. 前記照合及び認識モジュールは、
    前記サンプル音声のセグメントの数及び前記サンプル音声の各セグメントのフレームの数に従って確立される投票行列を確立するように構成された確立部と、
    現在のフレームの特性値と同一の特性値を有する音声データ一つ以上のフレームを前記音声特性値比較表で調べること及び現在のフレームの特性値と同一の特性値を有する音声データ一つ以上のフレームに対応する前記投票行列の位置に投票ラベルを付けることを、前記認識される音声データの各フレームについて行うように構成された実行部と、
    既定のしきい値を超える最大数の前記投票ラベルを有する前記サンプル音声のセグメントを認識結果として使用するように構成された結果生成部と、
    を備える請求項12に記載の装置。
  14. 前記計算モジュールは、
    前記認識される音声データの前記複数のフレームの各々を既定の数の次元のベクトルデータに変換するように構成された第1変換部と、
    前記認識される音声データの前記複数のフレームの各々のベクトルデータを、隣接する次元の間のベクトル値及び前記音声データの各フレームの前記ベクトルデータの隣接するフレームのベクトル値に従って2進シーケンスに変換するように構成された第2変換部と、
    変換から得られる前記2進シーケンスを前記音声データの対応するフレームの特性値として使用するように又は前記2進シーケンスに対応する10進数を前記音声データの対応するフレームの特性値として使用するように構成された特性値生成部と、
    を備える請求項11に記載の装置。
  15. 前記第2変換部は、

    に従って、前記音声データの各フレームの前記ベクトルデータを前記2進シーケンスに変換し、di−2,jは、前記音声データのi−2番目のフレームのj次元のベクトル値を表し、di−2,j+1は、前記音声データのi−2番目のフレームのj+1次元のベクトル値を表し、di−1,jは、前記音声データのi−1番目のフレームのj次元のベクトル値を表し、di−1,j+1は、前記音声データのi−1番目のフレームのj+1次元のベクトル値を表し、di+1,jは、前記音声データのi+1番目のフレームのj次元のベクトル値を表し、di+1,j+1は、前記音声データのi+1番目のフレームのj+1次元のベクトル値を表し、di+2,jは、前記音声データのi+2番目のフレームのj次元のベクトル値を表し、di+2,j+1は、前記音声データのi+2番目のフレームのj+1次元のベクトル値を表し、t1、t2、t3、t4及びdiffは、中間変数を表し、Biti,jは、前記音声データのi番目のフレームの2進シーケンスのj番目のビットの値を表し、m、nは、一定係数を表すように構成された請求項14に記載の装置。
  16. 前記第1変換部は、MFCC特徴パラメータ抽出アルゴリズムを用いて、前記音声データの各フレームを既定の数の次元のベクトルデータに変換するように構成された請求項14に記載の装置。
  17. 前記既定の数の次元は12である請求項14に記載の装置。
  18. 前記照合及び認識モジュールは、
    既定のしきい値より大きい前記認識される音声データの照合度を有するサンプル音声の一つ以上のセグメントを見つけるために、前記認識される音声データの各フレームの特性値と予め確立された音声特性値比較表との照合を行うように構成された認識部と、
    前記サンプル音声の一つ以上のセグメントのうちの最高の照合度を有する前記サンプル音声のセグメントを前記認識結果として決定するように構成された照合部と、
    を備える請求項14に記載の装置。
  19. 前記照合部は、
    前記認識される音声データのフレームの数の決定、前記認識される音声データの各フレームに対する2進シーケンスの取得、前記認識される音声データに対応する前記サンプル音声の現在のセグメントの各フレームに対する2進シーケンスの取得、及び、同一のビット位置を有するが前記認識される音声データの各フレームに対する2進シーケンスと前記サンプル音声の現在のセグメントの各フレームに対する2進シーケンスの間で異なるビット値を有する桁数の決定を、前記サンプル音声の一つ以上のセグメントの各々について行うように構成された実行サブユニットと、
    前記サンプル音声の一つ以上のセグメントにおいて異なるビット値を有する最小桁を有する前記サンプル音声のセグメントを前記認識結果として使用するように構成された照合サブユニットと、
    を備える請求項18に記載の装置。
  20. 前記フレーム分割モジュールは、規定の数のミリ秒の重複を有するように隣接するフレームを設定する分割規則に従って前記認識される音声データを分割するように構成された請求項11〜19のいずれか一項に記載の装置。
JP2018568770A 2016-06-28 2017-06-16 音声認識のための方法及び装置 Active JP6750048B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201610487584.9 2016-06-28
CN201610487584.9A CN106910494B (zh) 2016-06-28 2016-06-28 一种音频识别方法和装置
PCT/CN2017/088638 WO2018001125A1 (zh) 2016-06-28 2017-06-16 一种音频识别方法和装置

Publications (2)

Publication Number Publication Date
JP2019526070A true JP2019526070A (ja) 2019-09-12
JP6750048B2 JP6750048B2 (ja) 2020-09-02

Family

ID=59206235

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018568770A Active JP6750048B2 (ja) 2016-06-28 2017-06-16 音声認識のための方法及び装置

Country Status (7)

Country Link
US (2) US10910000B2 (ja)
EP (1) EP3477632A4 (ja)
JP (1) JP6750048B2 (ja)
KR (1) KR102220964B1 (ja)
CN (1) CN106910494B (ja)
TW (1) TWI659410B (ja)
WO (1) WO2018001125A1 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106910494B (zh) * 2016-06-28 2020-11-13 创新先进技术有限公司 一种音频识别方法和装置
CN111986698B (zh) * 2019-05-24 2023-06-30 腾讯科技(深圳)有限公司 音频片段的匹配方法、装置、计算机可读介质及电子设备
CN116614841B (zh) * 2023-07-17 2023-10-27 中汽智联技术有限公司 一种路侧数据质量评估方法和电子设备

Family Cites Families (53)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5748763A (en) 1993-11-18 1998-05-05 Digimarc Corporation Image steganography system featuring perceptually adaptive and globally scalable signal embedding
US7013301B2 (en) * 2003-09-23 2006-03-14 Predixis Corporation Audio fingerprinting system and method
US7194752B1 (en) 1999-10-19 2007-03-20 Iceberg Industries, Llc Method and apparatus for automatically recognizing input audio and/or video streams
US7853664B1 (en) 2000-07-31 2010-12-14 Landmark Digital Services Llc Method and system for purchasing pre-recorded music
US6968337B2 (en) * 2001-07-10 2005-11-22 Audible Magic Corporation Method and apparatus for identifying an unknown work
US7529659B2 (en) * 2005-09-28 2009-05-05 Audible Magic Corporation Method and apparatus for identifying an unknown work
US7328153B2 (en) 2001-07-20 2008-02-05 Gracenote, Inc. Automatic identification of sound recordings
US7505911B2 (en) 2001-09-05 2009-03-17 Roth Daniel L Combined speech recognition and sound recording
JP4425126B2 (ja) 2002-04-25 2010-03-03 ランドマーク・デジタル・サービシーズ・エルエルシー ロバストかつインバリアントな音声パターンマッチング
US7336890B2 (en) 2003-02-19 2008-02-26 Microsoft Corporation Automatic detection and segmentation of music videos in an audio/video stream
US7323629B2 (en) 2003-07-16 2008-01-29 Univ Iowa State Res Found Inc Real time music recognition and display system
JP2007519986A (ja) 2003-11-18 2007-07-19 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 導出されたフィンガープリントのマッチングによるデータオブジェクトのマッチング
AU2005216057A1 (en) * 2004-02-26 2005-09-09 Mediaguide, Inc. Method and apparatus for automatic detection and identification of broadcast audio or video programming signal
DE102004023436B4 (de) * 2004-05-10 2006-06-14 M2Any Gmbh Vorrichtung und Verfahren zum Analysieren eines Informationssignals
GB2414369B (en) 2004-05-21 2007-08-01 Hewlett Packard Development Co Processing audio data
US7567899B2 (en) 2004-12-30 2009-07-28 All Media Guide, Llc Methods and apparatus for audio recognition
US7516074B2 (en) * 2005-09-01 2009-04-07 Auditude, Inc. Extraction and matching of characteristic fingerprints from audio signals
US8150044B2 (en) 2006-12-31 2012-04-03 Personics Holdings Inc. Method and device configured for sound signature detection
US8131083B2 (en) 2007-04-09 2012-03-06 Sharp Kabushiki Kaisha Image processing apparatus, image forming apparatus, image processing system, and image processing method having storage section, divided into a plurality of regions, for storing identification information for identifying reference image
JP4436858B2 (ja) 2007-04-09 2010-03-24 シャープ株式会社 画像処理装置、画像形成装置、画像送信装置、画像読取装置、画像処理システム、画像処理方法、画像処理プログラムおよびその記録媒体
WO2008150544A1 (en) 2007-06-06 2008-12-11 Dolby Laboratories Licensing Corporation Improving audio/video fingerprint search accuracy using multiple search combining
US8990073B2 (en) 2007-06-22 2015-03-24 Voiceage Corporation Method and device for sound activity detection and sound signal classification
US8140331B2 (en) 2007-07-06 2012-03-20 Xia Lou Feature extraction for identification and classification of audio signals
CN101493918A (zh) * 2008-10-21 2009-07-29 深圳市牧笛科技有限公司 在线音乐盗版监控方法和系统
US8996538B1 (en) * 2009-05-06 2015-03-31 Gracenote, Inc. Systems, methods, and apparatus for generating an audio-visual presentation using characteristics of audio, visual and symbolic media objects
JP4788810B2 (ja) * 2009-08-17 2011-10-05 ソニー株式会社 楽曲同定装置及び方法、楽曲同定配信装置及び方法
US9025428B2 (en) 2010-04-14 2015-05-05 Qualcomm Incorporated Allocating and receiving tones for a frame
US9275141B2 (en) * 2010-05-04 2016-03-01 Shazam Entertainment Ltd. Methods and systems for processing a sample of a media stream
US9093120B2 (en) * 2011-02-10 2015-07-28 Yahoo! Inc. Audio fingerprint extraction by scaling in time and resampling
CN102314875B (zh) * 2011-08-01 2016-04-27 北京音之邦文化科技有限公司 一种音频文件的识别方法和装置
EP2751804A1 (en) * 2011-08-29 2014-07-09 Telefónica, S.A. A method to generate audio fingerprints
CN103093761B (zh) * 2011-11-01 2017-02-01 深圳市世纪光速信息技术有限公司 音频指纹检索方法及装置
US9992745B2 (en) 2011-11-01 2018-06-05 Qualcomm Incorporated Extraction and analysis of buffered audio data using multiple codec rates each greater than a low-power processor rate
KR20130104878A (ko) * 2012-03-15 2013-09-25 주식회사 다이렉트미디어 에너지 및 통계적 필터링을 이용한 음악 검색 방법, 장치 및 시스템
KR101315970B1 (ko) * 2012-05-23 2013-10-08 (주)엔써즈 오디오 신호를 이용한 콘텐츠 인식 장치 및 방법
JP5994974B2 (ja) 2012-05-31 2016-09-21 サターン ライセンシング エルエルシーSaturn Licensing LLC 情報処理装置、プログラム及び情報処理方法
US20140074469A1 (en) * 2012-09-11 2014-03-13 Sergey Zhidkov Apparatus and Method for Generating Signatures of Acoustic Signal and Apparatus for Acoustic Signal Identification
US9401153B2 (en) 2012-10-15 2016-07-26 Digimarc Corporation Multi-mode audio recognition and auxiliary data encoding and decoding
US9305559B2 (en) * 2012-10-15 2016-04-05 Digimarc Corporation Audio watermark encoding with reversing polarity and pairwise embedding
EP2731030A1 (en) * 2012-11-13 2014-05-14 Samsung Electronics Co., Ltd Music information searching method and apparatus thereof
US9183849B2 (en) * 2012-12-21 2015-11-10 The Nielsen Company (Us), Llc Audio matching with semantic audio recognition and report generation
US9195649B2 (en) * 2012-12-21 2015-11-24 The Nielsen Company (Us), Llc Audio processing techniques for semantic audio recognition and report generation
US9076459B2 (en) 2013-03-12 2015-07-07 Intermec Ip, Corp. Apparatus and method to classify sound to detect speech
US9728205B2 (en) * 2013-03-15 2017-08-08 Facebook, Inc. Generating audio fingerprints based on audio signal complexity
CN104252480B (zh) * 2013-06-27 2018-09-07 深圳市腾讯计算机系统有限公司 一种音频信息检索的方法和装置
CN103440313B (zh) * 2013-08-27 2018-10-16 复旦大学 基于音频指纹特征的音乐检索系统
US9390727B2 (en) * 2014-01-13 2016-07-12 Facebook, Inc. Detecting distorted audio signals based on audio fingerprinting
CN104050259A (zh) * 2014-06-16 2014-09-17 上海大学 一种基于som算法的音频指纹提取方法
CN105513587B (zh) * 2014-09-22 2020-07-24 联想(北京)有限公司 一种mfcc提取方法及装置
CN104462537A (zh) * 2014-12-24 2015-03-25 北京奇艺世纪科技有限公司 一种音频数据分类方法及装置
US9740775B2 (en) 2015-03-13 2017-08-22 TCL Research America Inc. Video retrieval based on optimized selected fingerprints
CN105118503A (zh) * 2015-07-13 2015-12-02 中山大学 一种音频翻录检测方法
CN106910494B (zh) * 2016-06-28 2020-11-13 创新先进技术有限公司 一种音频识别方法和装置

Also Published As

Publication number Publication date
KR20190021421A (ko) 2019-03-05
CN106910494A (zh) 2017-06-30
EP3477632A1 (en) 2019-05-01
KR102220964B1 (ko) 2021-03-02
JP6750048B2 (ja) 2020-09-02
TWI659410B (zh) 2019-05-11
US11133022B2 (en) 2021-09-28
WO2018001125A1 (zh) 2018-01-04
US20210125628A1 (en) 2021-04-29
US10910000B2 (en) 2021-02-02
US20190115044A1 (en) 2019-04-18
TW201801066A (zh) 2018-01-01
EP3477632A4 (en) 2020-01-08
CN106910494B (zh) 2020-11-13

Similar Documents

Publication Publication Date Title
Wang et al. Speech emotion recognition with dual-sequence LSTM architecture
Boles et al. Voice biometrics: Deep learning-based voiceprint authentication system
CN110457432B (zh) 面试评分方法、装置、设备及存储介质
CN112562691B (zh) 一种声纹识别的方法、装置、计算机设备及存储介质
US11133022B2 (en) Method and device for audio recognition using sample audio and a voting matrix
US9947323B2 (en) Synthetic oversampling to enhance speaker identification or verification
WO2022141868A1 (zh) 一种提取语音特征的方法、装置、终端及存储介质
CN112949708A (zh) 情绪识别方法、装置、计算机设备和存储介质
CN114127849A (zh) 语音情感识别方法和装置
Al-Kaltakchi et al. Combined i-vector and extreme learning machine approach for robust speaker identification and evaluation with SITW 2016, NIST 2008, TIMIT databases
Zhao et al. A survey on automatic emotion recognition using audio big data and deep learning architectures
WO2018014537A1 (zh) 语音识别方法和装置
CN108962226B (zh) 用于检测语音的端点的方法和装置
Kadyrov et al. Speaker recognition from spectrogram images
CN108847251A (zh) 一种语音去重方法、装置、服务器及存储介质
CN110070891B (zh) 一种歌曲识别方法、装置以及存储介质
CN115512698B (zh) 一种语音语义分析方法
CN114373443A (zh) 语音合成方法和装置、计算设备、存储介质及程序产品
CN114360491A (zh) 语音合成方法、装置、电子设备及计算机可读存储介质
Zhu et al. A robust and lightweight voice activity detection algorithm for speech enhancement at low signal-to-noise ratio
Naveen et al. Speaker Identification and Verification using Deep Learning
Telembici et al. Results on the MFCC extraction for improving audio capabilities of TIAGo service robot
CN114664325A (zh) 一种异常声音识别方法、系统、终端设备及计算机可读存储介质
CN115331673B (zh) 一种复杂声音场景下的声纹识别家电控制方法和装置
CN113436621B (zh) 一种基于gpu语音识别的方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20181228

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200122

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200218

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200514

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200804

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200812

R150 Certificate of patent or registration of utility model

Ref document number: 6750048

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250