JP2010504553A - 音声キーワードの特定方法、装置及び音声識別システム - Google Patents

音声キーワードの特定方法、装置及び音声識別システム Download PDF

Info

Publication number
JP2010504553A
JP2010504553A JP2009528942A JP2009528942A JP2010504553A JP 2010504553 A JP2010504553 A JP 2010504553A JP 2009528942 A JP2009528942 A JP 2009528942A JP 2009528942 A JP2009528942 A JP 2009528942A JP 2010504553 A JP2010504553 A JP 2010504553A
Authority
JP
Japan
Prior art keywords
feature
vector
keyword
trajectory
codebook
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2009528942A
Other languages
English (en)
Other versions
JP5059115B2 (ja
Inventor
リ,フォンチン
ウ,ヤドン
ヤン,チンタオ
チェン,チェン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Publication of JP2010504553A publication Critical patent/JP2010504553A/ja
Application granted granted Critical
Publication of JP5059115B2 publication Critical patent/JP5059115B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

【課題】音声特徴空間軌跡のマッチングに基づいた音声中のキーワードを特定する。
【解決手段】本発明は、音声のキーワードを特定する方法、装置及び音声識別システムを提供することにある。上記方法は、識別対象音声を構成する各フレームの特徴パラメータを取り出し、識別対象音声を描く特徴パラメータベクトル配列を形成するステップと、複数のコードブックベクトルを含むコードブックを用いて、特徴パラメータベクトル配列の正規化を処理し、ベクトル空間における識別対象音声の特徴軌跡を得るステップと、及び予め記憶されたキーワードテンプレート軌跡と上記特徴軌跡とのマッチングをし、キーワードの位置を確定するステップとを備える。
【選択図】図1

Description

本発明は、音声のキーワードを特定する方法、装置及び音声識別システムに関するものである。より詳細には、音声特徴空間軌跡のマッチングに基づいて音声のキーワードを特定する方法、装置、及びその装置を用いた音声識別システムに関するものである。本発明によれば、特定及び識別の速度を向上でき、識別の精度を保証できる。
近年、ますます多くの情報端末装置、例えば、PC(パーソナルコンピュータ)、PDA(Personal Digital Assistant)、携帯電話、リモコン等は、音声入力機能を備えている。そのため、ユーザが発した音声によって命令またはキーワードを入力することができるようになっている。すなわち、上記情報端末装置を利用し、ユーザが入力した未知の音声からユーザの入力したいキーワードを識別することができる。ここで、正確に、かつ迅速にキーワードの位置を確定することは、音声識別技術において重要な問題のひとつになっている。
非特許文献1では、特徴が非常に類似している音声波フレームを除くことによって、入力した音声を迅速に識別する目的を達成し、かつ音声の識別に応用されている可変フレームレート技術が提案されている。非特許文献1において、数学的な微分の方法を利用し、適宜な閾値を定義することによって音声の特徴を合併し、音韻特徴構造を備える音声特徴ベクトルの配列が得られる。しかし、上記閾値の設定は、非常に困難であり、さらに、識別の精度に直接の影響を与える。また、非特許文献1に提案された方法は、非線形マッチングを利用しているため、キーワードの識別過程において、大量の計算を要する。
非特許文献2では、特徴ベクトル空間における各ベクトル間の距離の計算、及び適宜な閾値の定義によって、音声特徴を合併し、音韻特徴構造を備える音声特徴ベクトルの配列が得られる。しかし、このような合併は、特定の話者の音声に対するものであるため、同一音韻特徴を表示する代表特徴点自身は、たくさんの話者の特徴情報を含み、変動が大きい。従って、後のマッチング過程において、音声軌跡に対して再サンプリングを行う必要がある。このため、識別の複雑度を増大させてしまう。また、非特許文献2において、再サンプリングの技術がよく解決されていないので、識別の精度を保証することは困難となる。さらに、ベクトル間の距離を計算する計算量が非常に大きい、それに、特徴を合併するため、適宜な閾値の設定も非常に困難である。また、この閾値の設定は、音韻特徴構造を備える音声軌跡への推測が正しいかに直接影響を与える。これらの原因によって、音声特徴空間軌跡に基づいた後のマッチングの正確度が高くならない。
また、キーワードテンプレートの設立について、非特許文献2に開示されている技術も、この合併方法を利用し、キーワード音声特徴空間軌跡の推測を行う。キーワードの内容は、特定した識別の課題領域により設計されている。具体的に言えば、該キーワード音声軌跡は、複数種類の応用領域の学習コーパスにより生成するものではないため、直接に特定の話者以外の領域への応用が困難である。課題領域が変更される場合、キーワードの音声テンプレートを改めて作成しなければならない。このため、非特許文献2に開示されている技術では、キーワードの音声軌跡テンプレートは通用性がないので、実際の応用は困難である。
「音声識別における可変フレームレート技術の応用」、孫放(Fang Sun)、胡光鋭(Guangrui Hu)、虞暁(Xiao Yu)、上海交通大学学報(Journal of Shanghai Jiaotong University)、第32巻、第8期、1998年8月(Aug 1998, Vol.32 No.8) 「A Keyword Spotting Method Based on Speech Feature Space Trace Matching」, YA-DONG WU, BAO-LONG LIU, Proceedings of the Second International Conference on Machine Learning and Cybernetics, 2-5 November 2003
上記問題によれば、非特許文献1と非特許文献2とに提案した方法は、実際に情報端末装置への応用に適用することができない。従って、入力した音声のキーワードを迅速に特定し、計算量を減らす技術が必要となる。
本発明は、上記課題を鑑みてなされたものであり、その目的は、音声特徴空間軌跡のマッチングに基づいた音声中のキーワードを特定する方法、装置、及びその装置を用いた音声識別システムに提供することにある。これによって特定および識別の速度を向上できると同時に、識別の精度を保証できる。
本発明では、識別対象音声のキーワードの特定方法は、識別対象音声を構成する各フレームの特徴パラメータを取り出し、識別対象音声を描く特徴パラメータベクトル配列を形成するステップと、複数のコードブックベクトル(コードブック・コードベクトル)を含むコードブックを用いて、特徴パラメータベクトル配列の正規化を処理し、ベクトル空間における識別対象音声の特徴軌跡を得るステップと、及び予め記憶されたキーワードテンプレート軌跡と上記特徴軌跡とのマッチングをし、キーワードの位置を確定するステップとを備えることを特徴とする。
また、本発明の実施例によれば、上記正規化は、上記特徴パラメータベクトル配列から代表特徴パラメータベクトルを抽出し、上記特徴軌跡を表示するステップを含む。
また、本発明の実施例によれば、上記代表特徴パラメータベクトルの抽出は、上記コードブックから、上記特徴パラメータベクトルと最も接近しているコードブックベクトルを探索するステップと、探索したコードブックベクトルの番号を用いて上記特徴パラメータベクトルを表示するステップと、連続的に同一のコードブックベクトルで表示される特徴パラメータベクトルを合併し、上記特徴パラメータを表示するステップとを備える。
また、本発明の実施例によれば、上記マッチングは、各キーワードテンプレート軌跡を利用し、上記特徴軌跡を時間軸で表示した軌跡フレーム毎に対して、上記キーワードテンプレート軌跡を表示する各テンプレート特徴ベクトルと、上記特徴軌跡を表示する各代表特徴パラメータベクトルとの間の距離を順に計算するステップと、上記距離から最小値を確定するステップと、及び上記最小値に対応するキーワードテンプレート軌跡がベクトル空間における位置をキーワードの位置として確定するステップとを備える。
また、本発明の実施例によれば、上記特徴パラメータベクトルは、ケプストラムパラメータ、ケプストラムパラメータのエネルギー値、ケプストラムパラメータの一階導関数、ケプストラムパラメータの二階導関数、エネルギーの一階導関数、エネルギーの二階導関数のうち、少なくとも一つのパラメータを含む。
また、本発明の実施例によれば、上記距離は、コードブックベクトル距離を用いて表示され、上記コードブックベクトル距離が、上記任意二つのコードブックベクトル間の距離である。
また、本発明の実施例によれば、上記コードブックベクトル距離は、マトリクスの形式で予め記憶されている。
また、本発明の実施例によれば、上記キーワードテンプレート軌跡は、上記コードブックベクトルに基づいて生成される。
また、本発明の実施例によれば、キーワードテンプレート軌跡は、音節と音素モデルとの間にある対応関係によって、キーワードの各音節の音素名を得るステップと、音素モデルと状態との間にある対応関係によって、キーワードの各状態を得、状態ベクトルを形成するステップと、上記コードブック中にある状態ベクトルに対応する番号を用いて、音素モデルのコードブックベクトル配列の番号を表示するステップと、連続的に同一のコードブックベクトルの番号で表示される音素モデルのコードブックベクトル配列の番号を合併するステップと、及び各コードブックベクトル配列の番号を順に連接合併した後にキーワードテンプレート軌跡を得るステップとによって得られる。
また、本発明の実施例によれば、キーワードテンプレート軌跡は、入力したキーワードの音声波を音声波フレームに切り分け、各音声波フレームの特徴パラメータベクトルを抽出することによって、該キーワードの特徴パラメータベクトル配列を形成するステップと、及び上記コードブックを用いて、特徴パラメータベクトル配列の正規化を処理し、上記キーワードテンプレート軌跡を表示するテンプレートベクトル配列を形成するステップとによって得られる。
また、本発明の実施例によれば、コードブックは、隠れマルコフモデルに基づいた音響モデルから、各音素モデルの状態を描く統計パラメータを抽出し、各状態の特徴ベクトルを形成するステップと、及び番号を用いて各状態の特徴ベクトルを表示し、上記コードブックの各コードブックベクトルを形成するステップとによって得られる。
また、本発明の実施例によれば、上記音素モデルは、複数の応用領域の学習コーパスによって生成される。
また、本発明の実施例によれば、本発明の識別装置は、識別対象音声を構成する各フレームの特徴パラメータを抽出し、識別対象音声を描く特徴パラメータベクトル配列を形成する特徴抽出装置と、複数のコードブックベクトルを含むコードブックを用いて、特徴パラメータベクトル配列の正規化を処理し、ベクトル空間における識別対象音声の特徴軌跡を得る正規化装置と、予め記憶されたキーワードテンプレート軌跡と上記特徴軌跡とのマッチングをし、キーワードの位置を確定するマッチング装置とを備えることを特徴とする。
また、本発明の実施例によれば、上記正規化装置は、上記特徴パラメータベクトル配列から代表特徴パラメータベクトルを抽出し、上記特徴軌跡を表示する。
また、本発明の実施例によれば、上記正規化装置は、上記コードブックから、上記特徴パラメータベクトルに最も接近しているコードブックベクトルを探索し、探索し得たコードブックの番号を用いて上記特徴パラメータベクトルを表示し、連続的に同一のコードブックベクトルで表示された特徴パラメータベクトルを合併し、上記特徴軌跡を表示する。
また、本発明の実施例によれば、上記マッチング装置は、各キーワードテンプレート軌跡を利用し、上記特徴軌跡を時間軸で表示した軌跡フレーム毎に対して、上記キーワードテンプレート軌跡を表示する各テンプレート特徴ベクトルと上記特徴軌跡を表示する各代表特徴パラメータベクトルとの間の距離を順に計算し、上記距離のうち、最小値を確定し、この最小値に対応するキーワードテンプレート軌跡がベクトル空間における位置をキーワードの位置として確定する。
また、本発明の実施例によれば、本発明の音声識別システムは、上記装置と、上記装置により確定されたキーワードの位置に基づいて、キーワードの内容を識別する音声識別装置とを備えることを特徴とする。
また、本発明の実施例によれば、音声識別システムは、隠れマルコフモデルに基づいて識別を行う。
本発明の方法及び装置を用いたことにより、同一のコードブックに基づいて、キーワードテンプレート軌跡と識別対象音声の特徴空間軌跡とを描写するため、同様な音韻特徴構造を有する音声波フレームを線形移動マッチングする際、再サンプリングをすることが必要ないので、計算量を低減でき、かつ、特定と識別の速度を向上できる。
また、予め記憶されたコードブックベクトル距離を利用し、識別対象音声の特徴空間軌跡とキーワードテンプレート軌跡間の距離とを描くことにより、マッチング過程において、識別音声とテンプレート音声との間の距離を計算する際、検索の方式でマッチングの結果を得ることが可能となる。そのため、マッチングに必要な計算量を更に減少でき、特定と識別の精度を向上できる。
また、本発明は、コードブックの形成に必要である音素モデルが、複数な応用領域の学習コーパスにより形成されるため、通用性を有する。つまり、異なる領域にも応用できる。
また、本発明のキーワード特定方法、装置と、従来のHMM(隠れマルコフモデル)の音声識別システムとを組み合わせることによって、HMM識別方法から未登録語モデル(Out 0f Vocabulary Word Modeling)の設立が困難である欠点が避けられ、かつ識別の精度をより向上できる。
本発明の方法及び装置を用いたことにより、同一のコードブックに基づいて、キーワードテンプレート軌跡と識別対象音声の特徴空間軌跡とを描写するため、同様な音韻特徴構造を有する音声波フレームを線形移動マッチングする際、再サンプリングをすることが必要ないので、計算量を低減でき、かつ、特定と識別の速度を向上できる。
また、予め記憶されたコードブックベクトル距離を利用し、識別対象音声の特徴空間軌跡とキーワードテンプレート軌跡間の距離とを描くことにより、マッチング過程において、識別音声とテンプレート音声との間の距離を計算する際、検索の方式でマッチングの結果を得ることが可能となる。そのため、マッチングに必要な計算量を更に減少でき、特定と識別の精度を向上できる。
また、本発明は、コードブックの形成に必要である音素モデルが、複数な応用領域の学習コーパスにより形成されるため、通用性を有する。つまり、異なる領域にも応用できる。
また、本発明のキーワード特定方法、装置と、従来のHMM(隠れマルコフモデル)の音声識別システムとを組み合わせることによって、HMM識別方法から未登録語モデル(Out 0f Vocabulary Word Modeling)の設立が困難である欠点が避けられ、かつ識別の精度をより向上できる。
本発明の上記特徴及び優れた点は、添付図面を参照した次の詳細な説明で明白になるであろう。
本発明の方法及び装置を用いたことにより、同一のコードブックに基づいて、キーワードテンプレート軌跡と識別対象音声の特徴空間軌跡とを描写するため、同様な音韻特徴構造を有する音声波フレームを線形移動マッチングする際、再サンプリングをすることが必要ないので、計算量を低減でき、かつ、特定と識別の速度を向上できる。
図1は、本発明の実施例に基づいた音声識別システムの構成のブロック図である。 図2(a)は、本発明実施例に基づいた状態特徴コードブックの生成過程及びコードブックベクトル距離のマトリックスの生成過程を説明するための図である。図2(a)は、コードブックの生成過程及びコードブックベクトル距離のマトリックスの生成過程のフローチャートである。 図2(b)は、本発明実施例に基づいた状態特徴コードブックの生成過程及びコードブックベクトル距離のマトリックスの生成過程を説明するための図である。図2(b)は、状態特徴コードブックを説明する実施例を示す図である。 図3(a)は、本発明の実施例において音声特徴空間軌跡を正規化する過程を説明する図である。図3(a)は、入力音声の特徴ベクトルを得るための説明図である。 図3(b)は、本発明の実施例において音声特徴空間軌跡を正規化する過程を説明する図である。図3(b)は、ベクトル空間における特徴ベクトルの説明図である。 図3(c)は、本発明の実施例において音声特徴空間軌跡を正規化する過程を説明する図である。図3(c)は、得た特徴ベクトルの正規化の説明図である。 図3(d)は、本発明の実施例において音声特徴空間軌跡を正規化する過程を説明する図である。図3(d)は、ベクトル空間において正規化した特徴ベクトルの説明図である。 図4(a)は、本発明の実施例の音声特徴空間軌跡の生成過程を説明する図である。図4(a)は、ベクトル空間における入力音声の特徴ベクトル配列を説明する図である。 図4(b)は、本発明の実施例の音声特徴空間軌跡の生成過程を説明する図である。図4(b)は、ベクトル空間における正規化した特徴ベクトル配列を説明する図である。 図4(c)は、本発明の実施例の音声特徴空間軌跡の生成過程を説明する図である。図4(c)は、音声特徴空間軌跡の生成過程のフローチャートである。 図5(a)は、本発明の実施例に基づいた音声特徴空間軌跡のマッチングによる入力音声のうち、キーワードを特定する過程の原理を示す図である。図5(a)は、キーワード音声とキーワード以外の音声とを含む音声のうち、ある音声の波形を示す図である。 図5(b)は、本発明の実施例に基づいた音声特徴空間軌跡のマッチングによる入力音声のうち、キーワードを特定する過程の原理を示す図である。図5(b)は、ベクトル空間におけるキーワード音声とキーワード以外の音声の軌跡を示す図である。 図5(c)は、本発明の実施例に基づいた音声特徴空間軌跡のマッチングによる入力音声のうち、キーワードを特定する過程の原理を示す図である。図5(c)は、キーワードテンプレートの軌跡と入力音声の軌跡とを線形マッチングする過程を説明する図である。 図6(a)は、本発明の実施例のキーワードテンプレートを生成する過程の説明図である。図6(a)は、キーワードテンプレートを生成する過程のフローチャートである。 図6(b)は、本発明の実施例のキーワードテンプレートを生成する過程の説明図である。図6(b)は、キーワードテンプレート生成過程の具体例を示している。 図7は、本発明の実施例に基づいた線形移動マッチング過程を説明する図である。
本発明の実施の形態について、図面を参照して以下に説明する。
なお、図面において、同様な符号は、異なる図面でも同じ或いは近似な部品を表示する。便宜のため、ここで、本発明の主旨が不明白であることを避けるため、周知した機能と構成の説明を省略する。
図1は、本発明の実施例に基づいた音声識別システムの構成のブロック図である。図1に示すように、本発明の音声識別システムは、識別対象音声を入力するマイクなどの入力部10と、入力部10と接続し、識別対象音声のキーワードの位置を確定するためのキーワード特定装置100と、キーワード特定装置100と接続し、キーワード特定装置100によって確定したキーワードの位置に基づいてキーワードの識別を行うための音声識別エンジン80と、音声識別エンジン80の識別結果を出力する出力部90とを備える。
図1に示すように、本発明の実施例に基づいたキーワード特定装置100は、入力部10と接続し、分割した音声フレームの特徴パラメータを抽出するための特徴抽出部20と、磁気メモリまたは半導体メモリなどのベクトル量子化したコードブックを記憶するコードブック記憶部40と、磁気メモリまたは半導体メモリなどのマトリクスの形式でコードブック中にあるコードベクトル間の距離を記憶する距離マトリックス記憶部50と、コードブック記憶部40が記憶しているコードブックに基づいて、特徴抽出部20から抽出した特徴パラメータにより形成した各特徴パラメータベクトルを正規化し、ベクトル空間における特徴軌跡を得る正規化部30と、ベクトル空間におけるユーザの興味がある軌跡を記憶するキーワードテンプレート軌跡データベース60と、距離マトリクス記憶部50が記憶しているコードブックベクトル間の距離及びキーワードテンプレート軌跡データベース60が記憶しているキーワードテンプレートに基づいて、キーワードテンプレート軌跡と識別対象音声の特徴軌跡とのマッチングをすることによってキーワードの位置を確定するマッチング部70とを備えている。
本発明の実施例の音声識別システムには、マイクなどの音声入力部10を用いて識別対象音声またはテンプレート音声を入力する。もちろん、記憶装置から、予め記録された音声データ、または音声ファイルを直接使用して音声を入力してもよい。
特徴抽出部20は、例えば、フォーム、サンプリングの頻度、コードのビット数、声道(Audio channel)の類型、フレーム長、フレーム移動及び特徴パラメータの類型などの所定のパラメータ配置に基づいて、入力した音声データの各フレームの特徴を抽出することによって、入力音声の特徴パラメータベクトルの配列{V,V,・・・・・・V}が得られる。ここで、各ベクトルVは、所定次元数Kの特徴ベクトル(i=1,・・・・・・,N)である。本実施形態では、特徴抽出部20は、入力した音声を切り分けて音声波フレームになり、その後、各音声波フレームにより、対応した特徴パラメータを抽出し、特徴パラメータベクトルを形成する。抽出した特徴パラメータは、ケプストラムパラメータ、ケプストラムパラメータのエネルギー値、ケプストラムパラメータの一階導関数、ケプストラムパラメータの二階導関数、エネルギーの一階導関数、エネルギーの二階導関数を含む。上述したケプストラムパラメータは、例えば、12次元のFFT(高速フーリエ変換)のケプストラムパラメータである。この場合、特徴パラメータベクトルの次元数Kは、39である。具体的には、下記のように示している。
ケプストラムパラメータ:C,C,・・・・・・,C12
エネルギー値:E;
ケプストラムパラメータの一階導関数:dC,dC,・・・・・・,dC12
ケプストラムパラメータの二階導関数:DC,DC,・・・・・・,DC12
エネルギーの一階導関数:dE;
エネルギーの二階導関数:DE。
本実施形態において、特徴抽出部20により抽出した特徴パラメータベクトルの配列{V,V,・・・・・・,V}は、キーワード特定装置100の正規化部30に入力され、ベクトル空間における該入力音声の軌跡を推測し、後のマッチングを処理するため、推測した該入力音声の軌跡の正規化処理を行う。正規化部30は、コードブック記憶部40に予め記憶された“コードブック”を用いて、特徴パラメータベクトル配列中にある各特徴パラメータベクトルをベクトル量子化し、その後、特徴ベクトル量子化された配列で表示する該入力音声のベクトル空間における特徴軌跡を出力する。ここで、コードブック記憶部40に記憶しているものは、HMM方法を用いて生成した特徴パラメータの基準ベクトルである。この基準ベクトルを用いて量子化ベクトル対象を量子化する。
また、距離マトリクス記憶部50は、コードブック記憶部40が記憶した複数の基準ベクトル(即ち、コードブックベクトル)のうち、任意二つの基準ベクトル間の距離を記憶している。該コードブックベクトルの距離は、ベクトル空間においてテンプレート音声の特徴パラメータベクトルと、識別対象音声の特徴ベクトルとの間の類似度を表すのに用いられる。
キーワードテンプレート軌跡データベース60は、特徴ベクトル量子化配列で表示した、かつユーザの興味があるキーワード(すなわちテンプレートキーワード)のベクトル空間での特徴軌跡を予め記憶している。該特徴軌跡は、入力した識別対象音声の特徴軌跡とのマッチングをするため利用される。
正規化部30は、入力音声の正規化した特徴ベクトル配列をマッチング部70に提供する。マッチング部70は、キーワードテンプレート軌跡データベース60から、逐次に各キーワードのテンプレート軌跡を取り出し、正規化の特徴パラメータベクトル配列で表示した点がベクトル空間で形成された軌跡(該軌跡は、識別対象音声のベクトル空間中での特徴軌跡を現す)を沿い、取り出したテンプレート軌跡を移動し、軌跡フレームに対してマッチングの操作を逐次に行う。ここで、軌跡フレームは、正規化の音声フレーム、すなわち、正規化の軌跡を構成する各特徴ベクトルに対応する音声波である。移動の過程において、一つずつ軌跡フレームを移動する際、マッチング部70は、距離マトリクス記憶部50に記憶されているコードブックベクトル距離に基づいて和を求める計算により、該キーワードテンプレート軌跡と、識別対象音声がベクトル空間における特徴軌跡との間の距離を計算する。全ての軌跡のマッチング終了後、該キーワードテンプレート軌跡のマッチングにより最小距離が得られる。その後、マッチング部70は、記憶している各キーワードに対して、上述した過程を行うことにより、各キーワードテンプレート軌跡と、識別対象音声がベクトル空間における特徴軌跡との間に対応する最小の距離が得られる。
続いて、マッチング部70は、各キーワードテンプレート軌跡の最小距離を比較して最小値を確定する。そして、この最小値に対応するテンプレート軌跡のキーワードが、候補キーワードとして識別される。ここで、高い精度が不要な場合、マッチング70は、直接に該候補キーワードを最終キーワードとして識別してもよい。
その後、マッチング部70は、ベクトル空間軌跡上に該候補キーワードの位置を時間軸に対応する音声波フレームに反映することによって、識別対象音声の中に該キーワードの位置を確定できる。
上記のように、音声識別エンジン80は、既に特定した候補キーワードの位置における識別対象音声から、特徴抽出部20によって抽出された特徴パラメータを直接利用でき、さらに識別を行うことにより、最終の識別結果、すなわちキーワードの内容が得られる。キーワードの内容を最終に確定する際、候補キーワードの結果を参考できる。
最後に、出力部90は、音声識別エンジン80の識別結果に基づいて、識別のキーワードの内容を出力する。例えば、出力部90は、識別したキーワードをスクリーンに表示する。
次に、図2(a)から図7を参照し、上記各部での具体的な操作過程を説明する。
図2(a)および図2(b)は、本発明の実施例に基づいた状態特徴コードブックの生成過程及びコードブックベクトル距離のマトリックスの生成過程を説明するための図である。図2(a)は、コードブックの生成過程及びコードブックベクトル距離のマトリクスを生成する過程のフローチャートである。図2(b)は、状態特徴コードブックを説明する実施例を示す図である。
コードブックは、ベクトル量子化に利用される基準ベクトルの集合により構成される。本実施例において、コードブックの物理的意味は、HMM音響モデルの状態の特徴を描くことである。
コードブックベクトルマトリクスは、コードブックにおいて、任意の二つのコードブックベクトル間の距離を示す二次元データ組を保存している。該コードブックとコードブックベクトルマトリクスとを、予めROM(読み出し専用メモリ)、またはHD(ハードディスク)などのメモリに記憶させる。コードブックおよびコードブックベクトルマトリクスは、それぞれ、一つの単独的なメモリに記憶されることができる。例えば、コードブック記憶部40および距離マトリクス記憶部50、また、コードブックおよびコードブックベクトルマトリクスは、メモリの異なる記憶区域に記憶されてもよい。
本実施例において、コードブックは、HMM音響モデルに基づいて生成されたものである。具体的な生成過程は、以下のように示す。
(1)HMM音響モデルは、HMMモデル定義のファイル(hmmdefs)を用いて描かれたものであり、各音素モデルのhmmdefsは、複数の応用領域の学習コーパスによって得られたものである。hmmdefsの構成は以下のように示している。
〜h“iz2” //音響モデル名
<BEGINHMM>
<NUMSTATES>5 //五つの状態数、ただし、2,3,4の三つが有効状態
<STATE>2 //状態の番号
<NUMMIXES>6 //混合ガウス分布数
<MIXTURE>1 1.250000e-001 //ガウス分布番号と重み付け
<MEAN>39 //ガウス分布の平均値パラメータ(mean parameter)、39次元
7.702041e+000 6.226375e+000・・・・・・2.910257e-001 -8.276044e-002
<VARIANCE>39 //ガウス分布の共分散パラメータ(mean parameter)、39次元
7.258195e+001 5.090110e+001・・・・・・3.907018e-001 2.388687e-002・・・・・・
<MIXTURE>6 1.250000e-001 //ガウス分布の番号及び重み付け
<MEAN>39 //ガウス分布の共分散パラメータ、39次元
8.864381e-001 5.187749e-001・・・・・・-2.090234e-001 -2.064035e-001
<VARIANCE>39 //ガウス分布の共分散パラメータ、39次元
7.258195e+001 5.090110e+001・・・・・・3.907018e-001 2.388687e-002
<STATE>3 //状態の番号
<NUMMIXES>6 //混合ガウス分布数は、各ガウス分布ともに、二つのパラメータ、平均値と共分散で表示される
・・・・・・
<STATE>4 //状態の番号
<NUMMIXES>6 //混合ガウス分布数は、各ガウス分布ともに、二つのパラメータ、平均値と共分散で表示される
・・・・・・
<TRANSP>5 //状態遷移確率マトリクス
0.000000e+000 1.000000e+000 0.000000e+000 0.000000e+000 0.000000e+000
0.000000e+000 6.800905e-001 3.199094e-001 0.000000e+000 0.000000e+000
0.000000e+000 0.000000e+000 6.435547e-001 3.564453e-001 0.000000e+000
0.000000e+000 0.000000e+000 0.000000e+000 5.890240e-001 4.109760e-001
0.000000e+000 0.000000e+000 0.000000e+000 0.000000e+000 0.000000e+000
<ENDHMM>。
(2)状態特徴抽出をする(S110)、すなわち、具体的な応用に基づいて、コードブックを形成する必要な特徴パラメータの抽出を行う。HMMモデル定義ファイルにおいて音素モデル各状態を描く統計パラメータを記憶している。上記統計パラメータは、ガウス分布平均値(39次元)、共分散(39次元)、重みつけ及び状態遷移マトリクス(音素モデルにおける各状態間遷移の確率、音素毎を五つの状態で描くため、5×5のマトリクスになる)を備える。本実施例において、各状態を描く六つのガウス分布の平均値パラメータ(mean parameter)部分(12次元CEP)を抽出した。かつ、各ガウス分布の重み付けによりこれらの数学平均を求め、その計算により得られた平均値(12次元CEP)は、該状態を表すコードブック特徴のパラメータとする。
その後、全ての状態に番号を付ける。各状態は、唯一確定したID番号、例えば、図2(b)に示したように、1、2、・・・・・・、M−1、Mに対応する。これらのID番号は、該状態の特徴ベクトルを代表し、かつ特徴コードブックを生成するために利用される。生成した状態特徴コードブックは、コードブック記憶部40に記憶される。コードブック中のコードブックベクトルの個数(M)は、コードブックの大小によって定義される。
それ以外に、上記HMM音響モデルを生成する過程において、音節−音素モデルの対応表及び音素モデル名−状態名の対応表が得られる。ここで、状態名は、上記のように、コードブックベクトルの各状態の番号を用いて表示される。
(3)コードブックにある任意二つの状態特徴ベクトル間の距離を計算することによって、M×Mのコードベクトルの距離マトリクス(S120)が得られる。得られた距離マトリクスが、距離マトリクス記憶部50に記憶される。
図3(a)〜図3(d)は、本発明の実施例において音声特徴空間軌跡を正規化する過程を説明する図である。図3(a)は、入力音声の特徴ベクトルを得るための説明図である。図3(b)は、ベクトル空間における特徴ベクトルの説明図である。図3(c)は、得た特徴ベクトルの正規化の説明図である。図3(d)は、ベクトル空間において正規化した特徴ベクトルの説明図である。
非特許文献2によれば、同一の字(或いは語彙)の発音の二つ特徴ベクトルの時間配列X(tx)とR(tr)とに対して、同様な軌跡長sに基づいて、各自の軌跡に沿って抽出した新たな特徴ベクトルの時間配列X’(s)とR’(s)とは、時間軸に対して伸縮不変性を有する。この基本原理に基づいて、特徴空間軌跡は、音声に対して時間軸で正規化されるものである。時間正規化後の特徴ベクトル配列は、線形マッチングの方式を用いることができるため、識別する際の計算量を大幅に削減することができる。
本実施例において、音声特徴空間軌跡は、HMM音響モデルに基づいて生成されている。まず、図3(a)に示すように、入力音声ファイルの基本特徴パラメータを抽出する。
例えば、符号配列S、S、Sを表示する連続音声波信号(波形)は、フレーム分割処理によって7つの音声波フレームに切り分けられる。この7つの音声波フレームに対して、対応する特徴パラメータを抽出することによって、七つの特徴ベクトルV(1≦i≦7)が得られ、特徴ベクトル配列が形成される。ここで、Vは、指定次元(K次元)の特徴ベクトルである。
各図において三次元空間を用いて上記K次元空間を表示して説明したが、これは、本発明の目的を明白にさせるものであり、本領域の技術者にとって、本発明は、三次元に限らない。
図3(b)に示すように、これらの特徴配列Vは、K次元空間上に分布している座標点とされ、以下これらを特徴点と称する。これらの特徴点は、時間の順(V→V→V・・・・・・→V→V)に連接することによって、K次元空間上に一本の軌跡が得られる。図3(b)から見ると、特徴点Vは、他の特徴点から遠く離れ、特徴点VとVの距離は近い。また、特徴点VからVは、概ね一つの集中した範囲内に分布している。
音声特徴空間軌跡を正規化することは、如何に音声の特徴空間軌跡を正確に推測することによって決定される。実際の応用においては、音声中の各特徴ベクトルが、時間軸上に離散しているし、また音速変化の影響以外に、その他の複数種類の変動要素から影響を受けるため、同一音韻特徴空間区域にしても、該区域内での各フレームの波動スペクトル特性の変動が発生してしまう。具体的には、音声特徴空間において一群れにある隣接する特徴点が、発音の長い音韻に対しては、その群れ中に特徴点(V,V,V,V)が多く、発音の短い音韻に対しては、その群れにおいて特徴点(V,V)が少ない。図3(b)に示すように、同一である音韻の特徴点が散らばる区域を準平穏区(Semi−Stability Area)と称し、異なる音韻の特徴点が散らばる区域を非平穏区(Non−Stability Area)と称する。そのため、該群れから抽出した特徴点(ベクトル)のうち、代表となる特徴点を用いて該音韻の特徴を現し、これらの代表的な特徴ベクトル(F,j=1,2,3)を用いて音声の軌跡を推測する。ここで、図3(d)に示すように、特徴ベクトルFは、第一群れの特徴点の中にある代表特徴点を表示し、特徴ベクトルFは、第二群れの特徴点の中にある代表特徴点を表示し、特徴ベクトルFは、第三群れの特徴点の中にある代表特徴点を表示する。
また、図3(c)に示すように、音声波フレーム1の特徴パラメータは、正規化した特徴点(ベクトル)Fで表示し、音声波フレーム2と3の特徴パラメータは、同一特徴点(ベクトル)Fで表示し、そして、音声波フレーム4〜7の特徴パラメータは、もう一つの特徴点(ベクトル)Fで表示する。
また、音声特徴軌跡の推測の正確性を向上するため、以下の(1)および(2)を考慮しなければならない。
(1)非平穏区域内の特徴点の密度をアップするため、音声信号をより小さいフレーム移動(Frame shift)周期でフレームを切り分ける。例えば、従来技術のフレーム移動周期では、20msであるが、本実施例では、10msまたは8msのフレーム移動周期を利用している。(2)準平穏区域内に散らばる特徴点を適宜に整理する。すなわち、代表的な特徴点を保留し、それ以外に必要ない特徴点を削除する。選択可能な整理方法のひとつは、順に特徴点間の導関数を計算し、導関数が所定の閾値より小さい特徴点らを同一の準平穏区の点として、これらの特徴点の平均を該平穏区の代表特徴点とすることである。もう一つ挙げられる選択可能な整理方法は、各特徴点間のベクトル距離を計算し、ベクトル距離が、所定の閾値より小さい特徴点らを同一の準平穏区の点として、これらの特徴点の平均を該平穏区域の代表特徴点とする方法である。また、上記以外のその他の選択可能な整理方法は、連続的に同一のコードブックベクトルで表示される特徴ベクトル(点)フレームを圧縮合併することにより行う方法である。以下、この方法について詳細に述べる。
図4(a)〜図4(c)は、本発明の実施例において音声特徴空間軌跡(特徴ベクトル配列)の生成過程を説明する図である。図4(a)は、ベクトル空間における入力音声の特徴ベクトル配列を説明する図である。図4(b)は、ベクトル空間における正規化した特徴ベクトル配列の説明図である。図4(c)は、音声特徴空間軌跡の生成過程のフローチャートである。
以下、図4(a)〜図4(c)を参照し、特徴ベクトルを圧縮する場合において、特徴ベクトル配列を生成する過程を説明する。該方法は、音声軌跡正規化過程において上記注意すべく二点を考慮し、HMM音響モデルに基づいたベクトル量子化を用いて入力音声を正規化する方法である。
図4(c)に示すように、識別対象音声(S210)を入力する。ここで、入力した音声は、
(t)=(X(t),X(t),・・・・・・X(t),X(t)) (i:音声波フレームの番号)
とする。
その後、入力した音声から特徴抽出の操作を行う(S220)ことによって、数が同じである特徴ベクトル:
(t)=(V(t),V(t),・・・・・・V(t),V(t)) (i:音声波フレームの番号)
が得られる。
正規化部30は、上記生成した状態特徴コードブックを参照し、コードブックから特徴ベクトルと最もよくマッチングしたコードブックベクトルを探索し、該コードブックベクトルのID番号を用いて該特徴ベクトルを表示する。そして、連続的に同一のコードブックベクトルで表示される特徴ベクトルフレームを圧縮合併する(S230)。正規化部30により、得られた音声特徴空間のベクトル量子化(VQ)のベクトルを出力する(S240)。図4(b)は、k=3の場合の特徴ベクトル:
(t)=(ID(t),ID(t),・・・・・・IDk−1(t),ID(t))
を示す。なお、j=1,2,・・・・・・,k、IDがコードブックベクトルの番号、kは、識別対象音声の状態特徴ベクトルの総数で、通常音声波フレームの数より小さい。
図5(a)〜図5(c)は、本発明の実施例に基づいて、音声特徴空間軌跡のマッチングによって入力音声のうち、キーワードを特定する過程の原理を示す図である。図5(a)は、キーワード音声とキーワード以外の音声とを含む音声のうち、ある音声の波形を示す図である。図5(b)は、ベクトル空間におけるキーワード音声とキーワード以外の音声の軌跡を示す図である。図5(c)は、キーワードテンプレートの軌跡と入力音声の軌跡とを線形マッチングする過程を説明する図である。
図5(a)に示すように、通常、キーワードの波形は、入力した識別対象音声の波形の中にある。図5(b)に示すように、入力した音声がベクトル空間にある軌跡は、連続的な一本の曲線である。該曲線上にほぼ中間の部分は、キーワード音声がベクトル空間中にある軌跡である。
上述に示すように、入力音声の特徴軌跡が分かった場合、キーワードテンプレート軌跡が、入力した音声の特徴軌跡を沿って移動することで、二者のマッチングを行う。同時に、特徴軌跡と対応する時間軸の信号の中にある一つの音声波フレーム、すなわち一つの軌跡フレームを移動するごとに、テンプレート軌跡上にある特徴点と、それに対応する識別対象音声の特徴点との間の距離を線形にプラスし、両軌跡間の距離を計算する。該距離とは、該テンプレート軌跡がこの位置において識別対象音声の空間軌跡との類似度を表す。該キーワードテンプレート軌跡のマッチング終了後に、該キーワードテンプレート軌跡に対する最小の距離が得られる。その後、異なるキーワードテンプレートに対して、マッチングを行うことによって、各最小距離が得られる。最後に、これらの最小距離から最小値を探し出し、該最小値に対応するキーワードを候補キーワードとする。そして、該候補キーワードと入力音声の軌跡との間に、距離が最小である位置を時間軸の音声波フレームに対応させて戻すことによって、該候補キーワードと対応する音声波フレームのフレーム番号が得られる。
図6(a)および図6(b)は、本発明の実施例のキーワードテンプレートを生成する過程の説明図である。図6(a)は、キーワードテンプレートを生成する過程のフローチャートである、図6(b)は、キーワードテンプレート生成過程の具体例を示している。
テンプレートの入力では、音声入力およびテキスト入力の二種類の入力方式がある。しかし、本発明は、これに限らず、その他の方式を用いて入力してもよい。以下、テキスト入力と音声入力とを例として具体的に説明する。
(テキスト入力)
図6(a)に示すように、キーワードテキストを入力する(S310)、例えば、“上海”。そして、音節の切り分けとピンイン変換の操作とを行う。例えば、“上海”を切りわけ、“上/海”になり、かつ、図6(b)に示すように“上”と“海”との文字列の表示式、すなわち、ピンイン“shang4”と“hai3”とが得られる(S320)。
続いて、音節−音素モデル名の対応表を用いて、“shang4”と“hai3”とで表示する音素の表示が得られる。すなわち、音素モデル名は、図6(b)に示すようにそれぞれ“sh a4 ng4”と“h aa3 i3”とである(S330)。
キーワードの音素名が得られた後、音素名を用いて音素モデル名−状態名の対応表から、該音素モデル名と対応する状態名を探索することによって、音素を構成する各モデルのコードブックベクトルの番号が得られる(S340)。図6(b)に示すように、キーワード“上海”のコードブックベクトル配列の番号は、3,6,9,9,8,1,・・・・・である。
次に、これらの番号をキーワードの元の順番で連接し、連続的に同一のコードブックベクトルを用いて表示された特徴ベクトルフレームを圧縮合併することによって、キーワードテンプレートの軌跡が得られる。図6(b)に示すように、キーワード“上海”のテンプレート軌跡の特徴ベクトル配列の番号は、3,6,9,8,1,・・・・・である。ここで、同様である二つの番号“9”が圧縮され、一つの“9”になる。最後に、該キーワードテンプレートの軌跡と、該キーワードとを対応させ、キーワードテンプレート軌跡データベース60に記憶される。
(音声入力)
まず、音声形式で入力されたキーワード、すなわち音声波形を、その音声波フレームに切り分け、切り分けた各音声波フレームの特徴パラメータベクトルを抽出することによって、該音声波形を描く特徴パラメータベクトル配列が得られる。ベクトル空間において、上述ベクトルを用いてコードブックを量子化し、各特徴パラメータベクトルを正規化することによって、各特徴点(ベクトル)で表示された特徴ベクトル配列が出力される。同様に、該特徴ベクトル配列の中にある各特徴ベクトルの要素は、状態の番号である。
図7は、本発明の実施例の軌跡移動に基づいたマッチング過程を説明する図である。
図7に示すように、正規化部30は、HMM音響モデルのベクトル量子化の正規化計算法により、識別対象音声を正規化することで、識別対象音声に対して各自の特徴ベクトル配列T’={T’}(M=0,1,・・・・・・,L)が得られる。なお、Lは、識別対象音声の軌跡の全長(S410)である。
上記に示すように、テンプレート音声w(w=0,1,・・・・・・,W)は、事前に正規化を行った。また、得られた正規化の特徴ベクトル配列X’={X’n,w}(n=0,1,・・・・・・,L)がキーワードテンプレート軌跡データベース60に記憶されている。なお、Wはテンプレートの総数、Lは、正規化後テンプレートwの軌跡の全長を指している。
続いて、識別対象音声の特徴ベクトル配列{T’}での第0軌跡フレーム(m=0)から、識別音声軌跡のマッチングの終点(m=L−L)まで、識別対象音声の軌跡部分
Figure 2010504553
をフレームごとに線形移動マッチングし、コードブックベクトル距離マトリクスに記憶されているコートブックベクトルの距離を用いて、和の計算によって軌跡フレーム毎を移動したマッチング距離:
Figure 2010504553
を記憶する。その後、テンプレート音声wの軌跡と識別対象音声の軌跡との間で、最小マッチング距離:
Figure 2010504553
が記録される(S420)。
w<Wの場合、その他のキーワードテンプレートに対してS420のステップを繰り返す。それ以外は、各テンプレートの最小マッチング距離
Figure 2010504553
の中から、最小値に対応するキーワード
Figure 2010504553
を、すなわち検出した識別対象音声を含む候補キーワードwを取り出す(S430)。そして、wに対応する特徴点の位置mを時間軸にある元の音声波フレームの番号に変換してから、検出を終了する(S440)。
また、上述の実施例において、コードブックベクトル距離の和を用いてマッチングの距離を表示する。しかし、これは、本発明の範囲に対する限定するものではなく、例えば、本領域の技術者に対して、コードブックベクトル距離の二次の和、ルートの和またはノルム(norm)の和で表示してもよい。
音声識別エンジン80は、上述したように、マッチング部70がキーワードの位置を確定した後、既に特定した候補キーワードの位置にあった識別対象音声の、特徴抽出部20が抽出した特徴パラメータを利用し、さらに識別することによって、最終の識別結果すなわち識別内容が得られる。最終キーワードの内容を確定する際、候補キーワードの結果を参考にしてよい。
また、出力部90は、音声識別エンジン80の識別結果により、識別のキーワードの内容を出力する。例えば、出力部90は、識別のキーワードをスクリーンに表示する。
発明の詳細な説明の項においてなされた具体的な実施形態は、あくまでも、本発明の技術内容を明らかにするものであって、そのような具体例にのみ限定して狭義に解釈されるべきものではなく、本発明の精神と次に記載する特許請求の範囲内で、さまざまに変更して実施することができるものである。
本発明は、音声中のキーワードの特定、及び識別の速度が向上すると同時に、音声中のキーワードの識別の精度を保証できるため、音声中のキーワードを特定する方法、装置及び音声識別システムに適用できる。
10 入力部
20 特徴抽出部
30 正規化部
40 コードブック記憶部
50 距離マトリクス記憶部
60 キーワードテンプレート軌跡データベース
70 マッチング部
80 音声識別エンジン
90 出力部
100 キーワード特定装置

Claims (18)

  1. 識別対象音声を構成する各フレームの特徴パラメータを取り出し、識別対象音声を描く特徴パラメータベクトル配列を形成するステップと、
    複数のコードブックベクトルを含むコードブックを用いて、特徴パラメータベクトル配列の正規化を処理し、ベクトル空間における識別対象音声の特徴軌跡を得るステップと、
    予め記憶されたキーワードテンプレート軌跡と上記特徴軌跡とのマッチングをし、キーワードの位置を確定するステップとを備えることを特徴とする識別対象音声のキーワードの特定方法。
  2. 上記正規化は、上記特徴パラメータベクトルの配列から代表特徴パラメータベクトルを抽出し、上記特徴軌跡を表示するステップを含むことを特徴とする請求項1に記載の方法。
  3. 上記代表特徴パラメータベクトルの抽出は、上記コードブックから、上記特徴パラメータベクトルと最も接近しているコードブックベクトルを探索するステップと、
    探索したコードブックベクトルの番号を用いて上記特徴パラメータベクトルを表示するステップと、
    連続的に同一のコードブックベクトルで表示される特徴パラメータベクトルを合併し、上記特徴パラメータを表示するステップとを備えることを特徴とする請求項2に記載の方法。
  4. 上記マッチングは、各キーワードテンプレート軌跡を利用し、上記特徴軌跡を時間軸で表示した軌跡フレーム毎に対して、上記キーワードテンプレート軌跡を表示する各テンプレート特徴ベクトルと、上記特徴軌跡を表示する各代表特徴パラメータベクトル間との距離を順に計算するステップと、
    上記距離から最小値を確定するステップと、
    上記最小値に対応するキーワードテンプレート軌跡がベクトル空間における位置をキーワードの位置として確定するステップとを備えることを特徴とする請求項2または3に記載の方法。
  5. 上記特徴パラメータベクトルは、ケプストラムパラメータ、ケプストラムパラメータのエネルギー値、ケプストラムパラメータの一階導関数、ケプストラムパラメータの二階導関数、エネルギー値の一階導関数、エネルギー値の二階導関数のうち、少なくとも一つのパラメータを含むことを特徴とする請求項4に記載の方法。
  6. 上記距離は、コードブックベクトル距離を用いて表示され、上記コードブックベクトル距離が、上記任意二つのコードブックベクトル間の距離であることを特徴とする請求項4に記載の方法。
  7. 上記コードブックベクトル距離は、マトリクスの形式で予め記憶されていることを特徴とする請求項6に記載の方法。
  8. 上記キーワードテンプレート軌跡は、上記コードブックベクトルに基づいて生成されることを特徴とする請求項1に記載の方法。
  9. キーワードテンプレート軌跡は、音節と音素モデルとの間にある対応関係によって、キーワードの各音節の音素名を得るステップと、
    音素モデルと状態との間にある対応関係によって、キーワードの各状態を得、状態ベクトルを形成するステップと、
    上記コードブック中にある状態ベクトルに対応する番号を用いて、音素モデルのコードブックベクトル配列の番号を表示するステップと、
    連続的に同一のコードブックベクトルの番号で表示される音素モデルのコードブックベクトル配列の番号を合併するステップと、
    各コードブックベクトル配列の番号を順に連接合併した後にキーワードテンプレート軌跡を得るステップとによって得られることを特徴とする請求項8に記載の方法。
  10. キーワードテンプレート軌跡は、入力したキーワードの音声波を音声波フレームに切り分け、各音声波フレームの特徴パラメータベクトルを抽出することによって、該キーワードの特徴パラメータベクトル配列を形成するステップと、
    上記コードブックを用いて、特徴パラメータベクトル配列の正規化を処理し、上記キーワードテンプレート軌跡を表示するテンプレートベクトル配列を形成するステップとによって得られることを特徴とする請求項8に記載の方法。
  11. コードブックは、隠れマルコフモデルに基づいた音響モデルから、各音素モデルの状態を描く統計パラメータを抽出し、各状態の特徴ベクトルを形成するステップと、
    番号を用いて各状態の特徴ベクトルを表示し、上記コードブックの各コードブックベクトルを形成するステップとによって得られることを特徴とする請求項4に記載の方法。
  12. 上記音素モデルは、複数の応用領域の学習コーパスによって生成することを特徴とする請求項11に記載の方法。
  13. 識別対象音声を構成する各フレームの特徴パラメータを抽出し、識別対象音声を描く特徴パラメータベクトル配列を形成する特徴抽出装置と、
    複数のコードブックベクトルを含むコードブックを用いて、特徴パラメータベクトル配列の正規化を処理し、ベクトル空間における識別対象音声の特徴軌跡を得る正規化装置と、
    予め記憶されたキーワードテンプレート軌跡と上記特徴軌跡とのマッチングをし、キーワードの位置を確定するマッチング装置とを備えることを特徴とする識別対象音声中のキーワードを特定する装置。
  14. 上記正規化装置は、上記特徴パラメータベクトル配列から代表特徴パラメータベクトルを抽出し、上記特徴軌跡を表示することを特徴とする請求項13に記載の装置。
  15. 上記正規化装置は、上記コードブックから、上記特徴パラメータベクトルに最も接近しているコードブックベクトルを探索し、探索し得たコードブックの番号を用いて上記特徴パラメータベクトルを表示し、連続的に同一のコードブックベクトルで表示された特徴パラメータベクトルを合併し、上記特徴軌跡を表示することを特徴とする請求項14に記載の装置。
  16. 上記マッチング装置は、各キーワードテンプレート軌跡を利用し、上記特徴軌跡を時間軸で表示した軌跡フレーム毎に対して、上記キーワードテンプレート軌跡を表示する各テンプレート特徴ベクトルと、上記特徴軌跡を表示する各代表特徴パラメータベクトルとの間の距離を順に計算し、
    上記距離のうち、最小値を確定し、この最小値に対応するキーワードテンプレート軌跡がベクトル空間における位置をキーワードの位置として確定することを特徴とする請求項14または15に記載の装置。
  17. 請求項13に記載の装置と、
    上記装置により確定されたキーワードの位置に基づいて、キーワードの内容を識別する音声識別装置とを備えることを特徴とする音声識別システム。
  18. 上記音声識別装置は、隠れマルコフモデルに基づいて識別を行うことを特徴とする、請求項17に記載の音声識別システム。
JP2009528942A 2006-09-27 2007-09-27 音声キーワードの特定方法、装置及び音声識別システム Expired - Fee Related JP5059115B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN200610152758.2 2006-09-27
CN2006101527582A CN101154379B (zh) 2006-09-27 2006-09-27 定位语音中的关键词的方法和设备以及语音识别系统
PCT/JP2007/069409 WO2008044582A1 (en) 2006-09-27 2007-09-27 Method and apparatus for locating speech keyword and speech recognition system

Publications (2)

Publication Number Publication Date
JP2010504553A true JP2010504553A (ja) 2010-02-12
JP5059115B2 JP5059115B2 (ja) 2012-10-24

Family

ID=39255997

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009528942A Expired - Fee Related JP5059115B2 (ja) 2006-09-27 2007-09-27 音声キーワードの特定方法、装置及び音声識別システム

Country Status (5)

Country Link
US (1) US8255215B2 (ja)
EP (1) EP2070079A4 (ja)
JP (1) JP5059115B2 (ja)
CN (1) CN101154379B (ja)
WO (1) WO2008044582A1 (ja)

Families Citing this family (45)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8743125B2 (en) * 2008-03-11 2014-06-03 Sony Computer Entertainment Inc. Method and apparatus for providing natural facial animation
GB2463909B (en) * 2008-09-29 2010-08-11 Toshiba Res Europ Ltd Speech recognition apparatus and method
GB2463908B (en) * 2008-09-29 2011-02-16 Toshiba Res Europ Ltd Speech recognition apparatus and method
JP5446834B2 (ja) * 2009-12-18 2014-03-19 ソニー株式会社 撮像装置および撮像方法
US9634855B2 (en) 2010-05-13 2017-04-25 Alexander Poltorak Electronic personal interactive device that determines topics of interest using a conversational agent
CN102841932A (zh) * 2012-08-06 2012-12-26 河海大学 一种基于内容的音频语义特征相似度比较方法
US10229676B2 (en) * 2012-10-05 2019-03-12 Avaya Inc. Phrase spotting systems and methods
TWI500023B (zh) * 2013-04-11 2015-09-11 Univ Nat Central 透過視覺的聽覺輔助裝置
CN104143328B (zh) * 2013-08-15 2015-11-25 腾讯科技(深圳)有限公司 一种关键词检测方法和装置
CN104751856B (zh) * 2013-12-31 2017-12-22 中国移动通信集团公司 一种语音语句识别方法及装置
CN104766608A (zh) * 2014-01-07 2015-07-08 深圳市中兴微电子技术有限公司 一种语音控制方法及装置
US9942187B2 (en) 2014-03-10 2018-04-10 Harry Leonard Perper Alert for messages “stuck” in a message queue within a messaging application
CN103971676B (zh) * 2014-04-23 2017-07-14 上海师范大学 一种快速语音孤立词识别算法及其用途、语音识别系统
CN103956166A (zh) * 2014-05-27 2014-07-30 华东理工大学 一种基于语音关键词识别的多媒体课件检索系统
WO2016036163A2 (ko) * 2014-09-03 2016-03-10 삼성전자 주식회사 오디오 신호를 학습하고 인식하는 방법 및 장치
GB2533326A (en) * 2014-12-16 2016-06-22 Ibm Electronic message redacting
CN105869622B (zh) * 2015-01-21 2020-01-17 上海羽扇智信息科技有限公司 中文热词检测方法和装置
CN105893389A (zh) * 2015-01-26 2016-08-24 阿里巴巴集团控股有限公司 一种语音信息搜索方法、装置及服务器
US10262654B2 (en) * 2015-09-24 2019-04-16 Microsoft Technology Licensing, Llc Detecting actionable items in a conversation among participants
US9792907B2 (en) 2015-11-24 2017-10-17 Intel IP Corporation Low resource key phrase detection for wake on voice
CN105488025B (zh) 2015-11-24 2019-02-12 小米科技有限责任公司 模板构建方法和装置、信息识别方法和装置
CN106847259B (zh) * 2015-12-03 2020-04-03 中国科学院声学研究所 一种音频关键词模板的筛选和优化方法
US9972313B2 (en) * 2016-03-01 2018-05-15 Intel Corporation Intermediate scoring and rejection loopback for improved key phrase detection
WO2017206133A1 (zh) * 2016-06-02 2017-12-07 深圳市智物联网络有限公司 语音识别方法及装置
US10043521B2 (en) 2016-07-01 2018-08-07 Intel IP Corporation User defined key phrase detection by user dependent sequence modeling
WO2018006927A1 (en) * 2016-07-04 2018-01-11 Harman Becker Automotive Systems Gmbh Automatic correction of loudness level in audio signals containing speech signals
US10083689B2 (en) * 2016-12-23 2018-09-25 Intel Corporation Linear scoring for low power wake on voice
CN109213777A (zh) * 2017-06-29 2019-01-15 杭州九阳小家电有限公司 一种基于语音的食谱处理方法及系统
US10311874B2 (en) 2017-09-01 2019-06-04 4Q Catalyst, LLC Methods and systems for voice-based programming of a voice-controlled device
CN107566980B (zh) * 2017-10-27 2020-10-23 深圳市鹏京科技有限公司 一种移动终端的定位方法和移动终端
CN111373473B (zh) * 2018-03-05 2023-10-20 华为技术有限公司 一种电子设备进行语音识别方法及电子设备
US10714122B2 (en) 2018-06-06 2020-07-14 Intel Corporation Speech classification of audio for wake on voice
CN109101484B (zh) * 2018-07-06 2023-04-18 平安科技(深圳)有限公司 录音文件处理方法、装置、计算机设备及存储介质
US10650807B2 (en) 2018-09-18 2020-05-12 Intel Corporation Method and system of neural network keyphrase detection
US11308939B1 (en) * 2018-09-25 2022-04-19 Amazon Technologies, Inc. Wakeword detection using multi-word model
CN109669970B (zh) * 2018-12-17 2024-04-12 南京东大智能化系统有限公司 一种基于关键词的数据挖掘方法
CN109753659B (zh) * 2018-12-28 2023-08-04 北京猎户星空科技有限公司 语义处理方法、装置、电子设备和存储介质
CN111666962B (zh) * 2019-03-07 2024-05-21 京东科技控股股份有限公司 序列数据的目标定位方法和装置
CN109918680B (zh) * 2019-03-28 2023-04-07 腾讯科技(上海)有限公司 实体识别方法、装置及计算机设备
US11127394B2 (en) 2019-03-29 2021-09-21 Intel Corporation Method and system of high accuracy keyphrase detection for low resource devices
CN110246490B (zh) * 2019-06-26 2022-04-19 合肥讯飞数码科技有限公司 语音关键词检测方法及相关装置
CN112837680A (zh) * 2019-11-25 2021-05-25 马上消费金融股份有限公司 音频关键词检索方法、智能外呼方法及相关装置
CN111798840B (zh) * 2020-07-16 2023-08-08 中移在线服务有限公司 语音关键词识别方法和装置
CN113658609B (zh) * 2021-10-20 2022-01-04 北京世纪好未来教育科技有限公司 关键字匹配信息的确定方法、装置、电子设备和介质
CN117786098B (zh) * 2024-02-26 2024-05-07 深圳波洛斯科技有限公司 基于多模态大语言模型的电话录音摘要提取方法、装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05204394A (ja) * 1991-09-19 1993-08-13 Xerox Corp ワードスポッティング法
JPH06324699A (ja) * 1993-05-11 1994-11-25 N T T Data Tsushin Kk 連続音声認識装置
JPH08106295A (ja) * 1994-10-05 1996-04-23 Atr Onsei Honyaku Tsushin Kenkyusho:Kk パターン認識方法及び装置
JPH10133688A (ja) * 1996-10-28 1998-05-22 Nec Corp 音声認識装置
JP2004037798A (ja) * 2002-07-03 2004-02-05 Pioneer Electronic Corp ワードスポッティング音声認識装置、ワードスポッティング音声認識方法、ワードスポッティング音声認識用プログラム

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU586167B2 (en) * 1984-05-25 1989-07-06 Sony Corporation Speech recognition method and apparatus thereof
CA2015410C (en) * 1989-05-17 1996-04-02 Chin H. Lee Speech recognition employing key word modeling and non-key word modeling
US6236964B1 (en) * 1990-02-01 2001-05-22 Canon Kabushiki Kaisha Speech recognition apparatus and method for matching inputted speech and a word generated from stored referenced phoneme data
JPH04343398A (ja) 1991-05-21 1992-11-30 N T T Data Tsushin Kk 音声認識装置
JPH0561496A (ja) * 1991-08-30 1993-03-12 Sony Corp 音声認識装置
JPH05249990A (ja) * 1992-03-04 1993-09-28 Sony Corp パターンマッチング方法およびパターン認識装置
KR100324988B1 (ko) * 1994-06-13 2002-08-27 마츠시타 덴끼 산교 가부시키가이샤 신호해석장치
US5806029A (en) * 1995-09-15 1998-09-08 At&T Corp Signal conditioned minimum error rate training for continuous speech recognition
US5822729A (en) * 1996-06-05 1998-10-13 Massachusetts Institute Of Technology Feature-based speech recognizer having probabilistic linguistic processor providing word matching based on the entire space of feature vectors
US6148284A (en) * 1998-02-23 2000-11-14 At&T Corporation Method and apparatus for automatic speech recognition using Markov processes on curves
ATE225976T1 (de) * 1998-05-15 2002-10-15 Siemens Ag Verfahren und vorrichtung zur erkennung mindestens eines schlüsselworts in gesprochener sprache durch einen rechner
US20020143540A1 (en) 2001-03-28 2002-10-03 Narendranath Malayath Voice recognition system using implicit speaker adaptation
US20040006470A1 (en) * 2002-07-03 2004-01-08 Pioneer Corporation Word-spotting apparatus, word-spotting method, and word-spotting program
CN1190773C (zh) * 2002-09-30 2005-02-23 中国科学院声学研究所 语音识别系统及用于语音识别系统的特征矢量集的压缩方法
US7684987B2 (en) * 2004-01-21 2010-03-23 Microsoft Corporation Segmental tonal modeling for tonal languages

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05204394A (ja) * 1991-09-19 1993-08-13 Xerox Corp ワードスポッティング法
JPH06324699A (ja) * 1993-05-11 1994-11-25 N T T Data Tsushin Kk 連続音声認識装置
JPH08106295A (ja) * 1994-10-05 1996-04-23 Atr Onsei Honyaku Tsushin Kenkyusho:Kk パターン認識方法及び装置
JPH10133688A (ja) * 1996-10-28 1998-05-22 Nec Corp 音声認識装置
JP2004037798A (ja) * 2002-07-03 2004-02-05 Pioneer Electronic Corp ワードスポッティング音声認識装置、ワードスポッティング音声認識方法、ワードスポッティング音声認識用プログラム

Also Published As

Publication number Publication date
JP5059115B2 (ja) 2012-10-24
EP2070079A1 (en) 2009-06-17
US8255215B2 (en) 2012-08-28
CN101154379A (zh) 2008-04-02
WO2008044582A1 (en) 2008-04-17
CN101154379B (zh) 2011-11-23
EP2070079A4 (en) 2012-03-21
US20100094626A1 (en) 2010-04-15

Similar Documents

Publication Publication Date Title
JP5059115B2 (ja) 音声キーワードの特定方法、装置及び音声識別システム
Gaikwad et al. A review on speech recognition technique
US8290773B2 (en) Information processing apparatus, method and recording medium for generating acoustic model
US6523005B2 (en) Method and configuration for determining a descriptive feature of a speech signal
US8935167B2 (en) Exemplar-based latent perceptual modeling for automatic speech recognition
JP3933750B2 (ja) 連続密度ヒドンマルコフモデルを用いた音声認識方法及び装置
JP5229478B2 (ja) 統計モデル学習装置、統計モデル学習方法、およびプログラム
JP5240457B2 (ja) 拡張認識辞書学習装置と音声認識システム
CN105654940B (zh) 一种语音合成方法和装置
KR20140082157A (ko) 다중 음향 모델을 이용하여 음성을 인식하기 위한 장치 및 그 방법
JP5007401B2 (ja) 発音評定装置、およびプログラム
KR100664960B1 (ko) 음성 인식 장치 및 방법
Gupta et al. A study on speech recognition system: a literature review
JP4716125B2 (ja) 発音評定装置、およびプログラム
JP2001312293A (ja) 音声認識方法およびその装置、並びにコンピュータ読み取り可能な記憶媒体
JPH06266386A (ja) ワードスポッティング方法
CN110706689A (zh) 感情推测系统以及计算机可读介质
JP5315976B2 (ja) 音声認識装置、音声認識方法、および、プログラム
Ashrafidoost et al. Recognizing Emotional State Changes Using Speech Processing
Laszko Word detection in recorded speech using textual queries
US9230536B2 (en) Voice synthesizer
JP2003271185A (ja) 音声認識用情報作成装置及びその方法と、音声認識装置及びその方法と、音声認識用情報作成プログラム及びそのプログラムを記録した記録媒体と、音声認識プログラム及びそのプログラムを記録した記録媒体
Gujral et al. Various Issues In Computerized Speech Recognition Systems
Ibrahim et al. A comparative survey of DTW and HMM using Hausa isolated digits recognition in human computer interaction sytem
JP6680009B2 (ja) 検索インデクス生成装置、検索インデックス生成方法、音声検索装置、音声検索方法及びプログラム

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110927

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20111107

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120703

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120801

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150810

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees