JP2015501011A - 音響処理ユニットインタフェース - Google Patents
音響処理ユニットインタフェース Download PDFInfo
- Publication number
- JP2015501011A JP2015501011A JP2014547556A JP2014547556A JP2015501011A JP 2015501011 A JP2015501011 A JP 2015501011A JP 2014547556 A JP2014547556 A JP 2014547556A JP 2014547556 A JP2014547556 A JP 2014547556A JP 2015501011 A JP2015501011 A JP 2015501011A
- Authority
- JP
- Japan
- Prior art keywords
- apu
- score
- chinon
- function
- processing unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012545 processing Methods 0.000 title claims abstract description 136
- 239000013598 vector Substances 0.000 claims abstract description 183
- 238000009826 distribution Methods 0.000 claims abstract description 128
- 238000000034 method Methods 0.000 claims abstract description 114
- 239000000872 buffer Substances 0.000 claims abstract description 44
- 230000005236 sound signal Effects 0.000 claims abstract description 14
- AZQWKYJCGOJGHM-UHFFFAOYSA-N 1,4-benzoquinone Chemical compound O=C1C=CC(=O)C=C1 AZQWKYJCGOJGHM-UHFFFAOYSA-N 0.000 claims description 154
- 230000006870 function Effects 0.000 claims description 100
- 238000004364 calculation method Methods 0.000 claims description 75
- 239000011159 matrix material Substances 0.000 claims description 20
- 238000003672 processing method Methods 0.000 claims description 8
- 230000009466 transformation Effects 0.000 claims description 7
- 238000002360 preparation method Methods 0.000 claims 3
- 230000008569 process Effects 0.000 description 74
- 238000012546 transfer Methods 0.000 description 30
- 238000004891 communication Methods 0.000 description 26
- 238000003860 storage Methods 0.000 description 19
- 238000011156 evaluation Methods 0.000 description 14
- 238000003909 pattern recognition Methods 0.000 description 12
- 238000004422 calculation algorithm Methods 0.000 description 11
- 238000004590 computer program Methods 0.000 description 11
- 238000012854 evaluation process Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 8
- 238000004458 analytical method Methods 0.000 description 7
- 230000008901 benefit Effects 0.000 description 6
- 238000007476 Maximum Likelihood Methods 0.000 description 5
- 238000007792 addition Methods 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 5
- 230000002093 peripheral effect Effects 0.000 description 4
- 238000004519 manufacturing process Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000036961 partial effect Effects 0.000 description 3
- 230000002829 reductive effect Effects 0.000 description 3
- 230000007704 transition Effects 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000003071 parasitic effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- LHMQDVIHBXWNII-UHFFFAOYSA-N 3-amino-4-methoxy-n-phenylbenzamide Chemical compound C1=C(N)C(OC)=CC=C1C(=O)NC1=CC=CC=C1 LHMQDVIHBXWNII-UHFFFAOYSA-N 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000011065 in-situ storage Methods 0.000 description 1
- 230000002779 inactivation Effects 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 238000005549 size reduction Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/187—Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Mathematical Analysis (AREA)
- Algebra (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Optimization (AREA)
- Computational Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Complex Calculations (AREA)
- User Interface Of Digital Computer (AREA)
- Machine Translation (AREA)
- Artificial Intelligence (AREA)
- Telephone Function (AREA)
Abstract
Description
図1は、本発明の一実施形態に従った音声認識プロセス100の一例のフローチャートの例示である。音声認識プロセス100は、信号処理段110、音響モデリング段120、音素評価段130、及び単語モデリング段140を含む。
図2は従来の音声認識システム200の例示である。音声認識システム200は、入力デバイス210、処理ユニット220、メモリデバイス230、及びデータバス240を含み、これらは全て別個の物理コンポーネントである。メモリデバイス230は、例えば処理ユニット220の外部にありデータバス240を介して処理ユニット220と通信状態にあるダイナミックランダムアクセスメモリ(DRAM)デバイスとすることができる。また、入力デバイス210もデータバス240を介して処理ユニット220と通信状態にある。データバス240は、例えば8から32ビットの典型的なバス幅を有する。
本発明の実施形態は、図2及び図3の従来の音声認識システム200及び300に関して上述した問題に対処する。一実施形態において、音響モデリングプロセスは、専用の処理ユニット(本明細書では「音響処理ユニット」又は「APU」とも称する)によって実行する。APUは、図3の処理ユニット220(本明細書では「中央処理装置」又は「CPU」とも称する)と連動して動作する。例えばAPUは、CPUから1つ以上の特徴ベクトル(例えば図3の特徴ベクトル315)を受信し、1つ以上のガウス確率分布に基づいてシノンスコア(例えば図3のシノンスコア325)を算出し、このシノンスコアをCPUに出力する。一実施形態において、1つ以上のガウス確率分布はAPUに記憶することができる。あるいは、別の実施形態では、1つ以上のガウス確率分布はAPUの外部に記憶することができ、この場合APUは外部のメモリデバイスから1つ以上のガウス確率分布を受信する。以下で詳述するAPUのアーキテクチャに基づいて、シノンスコアの算出の高速化が達成される。
一実施形態において、APU及びCPUは、SPIバス、PCIバス、API(Application Programming Interface)バス、AMBA AHB(Advanced Microcontroller Bus Architecture High-Performance Bus)、APB(Advanced Peripheral Bus)、メモリバス、又は他のいずれかのタイプのバスを介して相互に通信状態とすることができる。図4の音声認識プロセス400のためのシステムバスアーキテクチャの例示的かつ非限定的な実施形態について、以下で詳述する。
図8は、音声認識システム800のためのシステムレベルアーキテクチャの一実施形態の例示である。音声認識システム800は、APU810、メモリコントローラ820、不揮発性メモリデバイス830、及び揮発性メモリデバイス840を含む。メモリコントローラ820は、バス815を介してAPU810に通信可能に接続され、バス825(これはいくつかの実施形態において2つ以上のバスを表す場合がある)を介して不揮発性メモリデバイス830及び揮発性メモリデバイス850に接続される。一実施形態において、APU810及びメモリコントローラ820はシングルチップ上に集積される。あるいは、一実施形態において、APU810及びメモリコントローラ820は別個のチップ上に集積される。不揮発性メモリデバイス830は、NANDメモリモジュール、NORメモリモジュール、又は別のタイプの不揮発性メモリデバイスとすることができる。一実施形態において、揮発性メモリデバイス840はDRAMデバイスとすることができる。更に、本発明の一実施形態に従って、APU810は、例えば図5から図7に関して上述したバスアーキテクチャの1つを用いて、CPU(図8には図示せず)と通信を行うことができる。
図14はAPU1400の一実施形態の例示である。一実施形態において、APU1400は、メモリモジュール1420及びシノンスコアリングユニット(SSU)1430を含む集積チップである。別の実施形態においては、メモリモジュール1420及びSSU1430は2つの別個のチップ上に集積することができる。
図18は、本発明の一実施形態に従ったAPU1800のブロック図である。一実施形態では、図18のアーキテクチャに従ってALU16301〜16308の1つ以上を実施可能である。ALU1800は、特徴ベクトルとガウス確率分布ベクトルとの間の一次元距離スコアを計算するように構成されている。例えばALU1800は、以下のように一次元距離スコアを計算するように構成することができる。
Δij=xi−μijであり、
varijは、j番目のガウス確率分布ベクトルのi次元の分散値であり、
M1及びM2は倍率であり、
Cは定数であり、
xiはi次元における特徴ベクトルの値であり、
μijは、j番目のガウス確率分布ベクトルのi次元の平均値である。
A.システムの概要
図22は、本発明の一実施形態に従った音響処理システム2200のブロック図である。音響処理システムは、中央処理装置(CPU)2210及び音響処理ユニット(APU)2220を含む。CPU2210上で実行しているのは、アプリケーション2212、音声認識エンジン2214、及びAPI2216である。音声認識エンジン2214は、少なくとも2つのスレッドすなわちサーチスレッド2250及び距離スレッド2260を含むプロセスである。
図25は、本発明の一実施形態に従ったAPUソフトウェアスタック2500を示すブロック図である。ソフトウェアスタック2500は、例えば図22を参照して説明した音響処理システム2200のような音響処理システムのコンポーネント間の通信を概念的に説明するために用いることができる。スタック2500は、アプリケーション2502、音声認識エンジン2504、アプリケーションプログラミングインタフェース(API)2550、SPIバスコントローラ2512、SPIバス2514、及びAPU2516を含む。API2550は、汎用DCA2506、ローレベルドライバ(LLD)2508、及びハードウェア抽象レイヤ(HAL)2510を含む。一実施形態において、アプリケーション2502、音声認識エンジン2504、API2550、及びAPU2516は、それぞれ図22のアプリケーション2212、音声認識エンジン2214、API2216、及びAPU2220に対応することができる。
一実施形態において、アプリケーション2502又は音声認識エンジン2504によって実行されているスレッドとは別個のスレッド(例えば実行可能プロセス)を、APU2516のために生成することができる。別個のスレッドのため、依存性(第1の動作主(actor)の別のアクションが第2の動作主のアクションに依存すること)は存在してはならない。アプリケーション2502及び音声認識エンジン2504とAPU2516との間の依存性をなくすことによって、アプリケーション2502及び音声認識エンジン2504はAPU2516と並列に動作することができる。1つの例示的な実施形態において、アプリケーション2502及び音声認識エンジン2504とAPU2516との間の依存性は、例えば約10〜12ms継続するフレームの使用によって回避することができる(が、本発明はこの実施形態に限定されない)。例えばアプリケーション2502はフレームnについてのシノンスコアを用いているが、APU2516はフレームn+1についてのシノンスコアを実行している場合がある。
本発明の様々な態様は、ソフトウェア、ファームウェア、ハードウェア、又はそれらの組み合わせにおいて実施することができる。図28は、本発明の実施形態又はその一部をコンピュータ読み取り可能コードとして実施可能である一例のコンピュータシステム2800の例示である。例えば、図9のフローチャート900によって示した方法、図17のフローチャート1700によって示した方法、図21のフローチャート2100によって示した方法、図25に示したソフトウェアスタック2500、及び/又は図27のフローチャート2700によって示した方法を、システム2800において実施可能である。本発明の様々な実施形態は、この例示のコンピュータシステム2800の観点で説明している。この記載を読んだ後、他のコンピュータシステム及び/又はコンピュータアーキテクチャを用いてどのように本発明の実施形態を実施するかについても当業者に明らかとなるであろう。
特許請求の範囲の解釈に用いることが意図されるのは、「発明の概要」及び「要約書」の節でなく「発明を実施するための形態」の節であることは認められよう。「発明の概要」及び「要約書」の節が説明し得るのは、本発明者等が想定する本発明の例示的な実施形態の1つ以上であるが全てではなく、従ってこれらの節はいかなる点でも本発明及び添付の特許請求の範囲を限定することは意図していない。
Claims (20)
- 受信したオーディオ信号を、各フレームベクトルを有する連続フレームに分割するように構成された処理ユニットと、
音響処理ユニット(APU)であって、
複数のシノンを記憶するローカルな不揮発性メモリと、
前記メモリに接続されたメモリバッファであって、前記音響処理ユニットが、前記メモリに記憶された少なくとも1つのガウス確率分布ベクトルを前記メモリバッファ内にロードするように構成された、メモリバッファと、
前記メモリバッファ内にロードされたガウス確率分布ベクトルの複数の次元を、前記処理ユニットから受信されたフレームベクトルの各次元と同時に比較すると共に、対応するスコアを前記処理ユニットに出力するように構成された、スコアリングユニットと、
を備える、音響処理ユニット(APU)と、
を備え、前記処理ユニットが第2のフレームに対応するスコアを用いたサーチ動作を実行する間に、前記音響処理ユニットが第1のフレームを用いた比較を実行するように構成され、前記第2のフレームが前記第1のフレームの直前にあり、更に、
前記処理ユニット及び前記APUを接続するデータバスを備える、音声認識システム。 - 前記処理ユニットが、サーチスレッド及び距離計算スレッドを同時に実行するように構成される、請求項1に記載の音声認識システム。
- 前記処理ユニットが、
前記距離計算スレッドからコマンドを受信すると共に前記APUにより受信される1つ以上の対応するコマンドを発生するように構成されたアプリケーションプログラミングインタフェース(API)モジュールを備える、請求項2に記載の音声認識システム。 - 前記APIモジュールが、
前記距離計算スレッドからコマンドを受信すると共に前記受信したコマンドを実施するライブラリ内の1つ以上の関数を出力するように構成された汎用DCAを備える、請求項3に記載の音声認識システム。 - 前記汎用DCAが、
(i)音響モデル、特徴ベクトル内のある数の次元、及び前記音響モデル内のある数のシノンを状態情報として記憶する生成関数と、
(ii)受信したフレームIDに対応する特徴ベクトルを記憶する特徴設定関数と、
(iii)フレームについて記憶される少なくとも1つのシノンを指定するスコア計算関数と、
(iv)シノンスコアをバッファに記憶するスコア供給関数と、
(v)特徴ベクトル変換行列を記憶し特定の話者に前記比較を適応させる特徴行列設定関数と、
を少なくとも指定する、請求項4に記載の音声認識システム。 - 前記APIモジュールが、前記汎用DCAからパラメータを受信すると共に前記APUと互換性のあるパラメータを出力するように構成されたAPUライブラリを更に備える、請求項5に記載の音声認識システム。
- 前記APUライブラリが、
(i)シノンスコアリングに用いられる音響モデルを設定する音響モデル設定関数と、
(ii)前記APUに特徴ベクトルをロードする特徴ベクトルロード関数と、
(iii)前記APUにシノンリストをロードするスコアシノンチャンク関数と、
(iv)スコアを生成する範囲内の全シノンを指定するスコア範囲関数と、
(v)シノンスコアを読み取って前記シノンスコアを宛先バッファに記憶するシノンスコア読み取り関数と、
(vi)前記APUからのシノンスコアの読み取り準備ができているか否かを判定するスコア準備ステータスチェック関数と、
(vii)前記APUの第1のステータスレジスタを読み取って利用可能なスコアエントリの数を判定するスコア長読み取り関数と、
(viii)前記APUの第2のステータスレジスタを読み取って読み取り動作のステータスを判定するステータス読み取り関数と、
(iv)前記APUのコンフィギュレーションレジスタを読み取るコンフィギュレーション読み取り関数と、
(x)前記コンフィギュレーションレジスタに書き込みを行うコンフィギュレーション書き込み関数と、
を少なくとも指定する、請求項6に記載の音声認識システム。 - 前記APUモジュールが、
前記APUライブラリと前記APUとの間のインタフェースを提供するように構成されたハードウェア抽象レイヤ(HAL)を更に備える、請求項6に記載の音声認識システム。 - 処理ユニットを用いて、受信したオーディオ信号を複数のフレームに分割することと、
音響処理ユニット(APU)を用いて、前記複数のフレームの第1のフレームに関連付けられた特徴ベクトルをガウス確率分布ベクトルと比較してスコアを発生することと、
前記比較と同時に、前記処理ユニットを用いて音響処理ユニット(APU)から受信された前記複数のフレームの第2のフレームに関連付けられた特徴ベクトルに対応するスコアを用いてサーチ動作を実行することであって、前記第2のフレームが前記第1のフレームの直前にあり、前記処理ユニット及び前記APUがデータバスを介して接続されている、ことと、
を有する、音響処理方法。 - 前記処理ユニットにおいてサーチスレッド及び距離計算スレッドを生成することを更に有する、請求項9に記載の音響処理方法。
- 前記距離計算スレッドがアプリケーションプログラミングインタフェース(API)を介して前記比較を制御する、請求項9に記載の音響処理方法。
- 前記APIが、
汎用DCAと、
APUライブラリと、
ハードウェア抽象レイヤ(HAL)と、
を備える、請求項11に記載の音響処理方法。 - 前記汎用DCAが、
(i)音響モデル、特徴ベクトル内のある数の次元、及び前記音響モデル内のある数のシノンを状態情報として記憶する生成関数と、
(ii)受信したフレームIDに対応する特徴ベクトルを記憶する特徴設定関数と、
(iii)フレームについて記憶される少なくとも1つのシノンを指定するスコア計算関数と、
(iv)シノンスコアをバッファに記憶するスコア供給関数と、
(v)特徴ベクトル変換行列を記憶し特定の話者に前記比較を適応させる特徴行列設定関数と、
を少なくとも指定する、請求項12に記載の音響処理方法。 - 前記APUライブラリが、
(i)シノンスコアリングに用いられる音響モデルを設定する音響モデル設定関数と、
(ii)前記APUに特徴ベクトルをロードする特徴ベクトルロード関数と、
(iii)前記APUにシノンリストをロードするスコアシノンチャンク関数と、
(iv)スコアを生成する範囲内の全シノンを指定するスコア範囲関数と、
(v)シノンスコアを読み取って前記シノンスコアを宛先バッファに記憶するシノンスコア読み取り関数と、
(vi)前記APUからのシノンスコアの読み取り準備ができているか否かを判定するスコア準備ステータスチェック関数と、
(vii)前記APUの第1のステータスレジスタを読み取って利用可能なスコアエントリの数を判定するスコア長読み取り関数と、
(viii)前記APUの第2のステータスレジスタを読み取って読み取り動作のステータスを判定するステータス読み取り関数と、
(iv)前記APUのコンフィギュレーションレジスタを読み取るコンフィギュレーション読み取り関数と、
(x)前記コンフィギュレーションレジスタに書き込みを行うコンフィギュレーション書き込み関数と、
を少なくとも指定する、請求項12に記載の音響処理方法。 - 音響処理方法を実行するために1つ以上のプロセッサにより実行される1つ以上の命令の1つ以上のシーケンスを記憶するコンピュータ読み取り可能媒体であって、前記方法が、
処理ユニットを用いて、受信したオーディオ信号を複数のフレームに分割することと、
音響処理ユニットを用いて、前記複数のフレームの第1のフレームに関連付けられた特徴ベクトルを出力することであって、前記音響処理ユニットが前記第1のフレームをガウス確率分布ベクトルと比較してスコアを発生するように構成されている、ことと、
前記APUでの前記比較と同時に、前記処理ユニットを用いて音響処理ユニット(APU)から受信された前記複数のフレームの第2のフレームに関連付けられた特徴ベクトルに対応するスコアを用いてサーチ動作を実行することであって、前記第2のフレームが前記第1のフレームの直前にあり、前記処理ユニット及び前記APUがデータバスを介して接続されている、ことと、
を有する、コンピュータ読み取り可能媒体。 - 前記方法が、
前記処理ユニットにおいてサーチスレッド及び距離計算スレッドを生成することを更に有する、請求項15に記載のコンピュータ読み取り可能媒体。 - 前記距離計算スレッドがアプリケーションプログラミングインタフェース(API)を介して前記比較を制御する、請求項16に記載のコンピュータ読み取り可能媒体。
- 前記APIが、
汎用DCAと、
APUライブラリと、
ハードウェア抽象レイヤ(HAL)と、
を備える、請求項17に記載のコンピュータ読み取り可能媒体。 - 前記DCAライブラリが、
(i)音響モデル、特徴ベクトル内のある数の次元、及び前記音響モデル内のある数のシノンを状態情報として記憶する生成関数と、
(ii)受信したフレームIDに対応する特徴ベクトルを記憶する特徴設定関数と、
(iii)フレームについて記憶される少なくとも1つのシノンを指定するスコア計算関数と、
(iv)シノンスコアをバッファに記憶するスコア供給関数と、
(v)特徴ベクトル変換行列を記憶し特定の話者に前記比較を適応させる特徴行列設定関数と、
を少なくとも指定する、請求項18に記載のコンピュータ読み取り可能媒体。 - 前記APUライブラリが、
(i)シノンスコアリングに用いられる音響モデルを設定する音響モデル設定関数と、
(ii)前記APUに特徴ベクトルをロードする特徴ベクトルロード関数と、
(iii)前記APUにシノンリストをロードするスコアシノンチャンク関数と、
(iv)スコアを生成する範囲内の全シノンを指定するスコア範囲関数と、
(v)シノンスコアを読み取って前記シノンスコアを宛先バッファに記憶するシノンスコア読み取り関数と、
(vi)前記APUからのシノンスコアの読み取り準備ができているか否かを判定するスコア準備ステータスチェック関数と、
(vii)前記APUの第1のステータスレジスタを読み取って利用可能なスコアエントリの数を判定するスコア長読み取り関数と、
(viii)前記APUの第2のステータスレジスタを読み取って読み取り動作のステータスを判定するステータス読み取り関数と、
(iv)前記APUのコンフィギュレーションレジスタを読み取るコンフィギュレーション読み取り関数と、
(x)前記コンフィギュレーションレジスタに書き込みを行うコンフィギュレーション書き込み関数と、
を少なくとも指定する、請求項18に記載のコンピュータ読み取り可能媒体。
Applications Claiming Priority (7)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201161577595P | 2011-12-19 | 2011-12-19 | |
US61/577,595 | 2011-12-19 | ||
US201261589113P | 2012-01-20 | 2012-01-20 | |
US61/589,113 | 2012-01-20 | ||
US13/490,124 | 2012-06-06 | ||
US13/490,124 US9785613B2 (en) | 2011-12-19 | 2012-06-06 | Acoustic processing unit interface for determining senone scores using a greater clock frequency than that corresponding to received audio |
PCT/US2012/070329 WO2013096301A1 (en) | 2011-12-19 | 2012-12-18 | Acoustic processing unit interface |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2015501011A true JP2015501011A (ja) | 2015-01-08 |
Family
ID=48611061
Family Applications (3)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014547494A Pending JP2015505993A (ja) | 2011-12-19 | 2012-12-14 | 音響処理ユニット |
JP2014547556A Pending JP2015501011A (ja) | 2011-12-19 | 2012-12-18 | 音響処理ユニットインタフェース |
JP2014547557A Active JP6138148B2 (ja) | 2011-12-19 | 2012-12-18 | 演算論理ユニットアーキテクチャ |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014547494A Pending JP2015505993A (ja) | 2011-12-19 | 2012-12-14 | 音響処理ユニット |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014547557A Active JP6138148B2 (ja) | 2011-12-19 | 2012-12-18 | 演算論理ユニットアーキテクチャ |
Country Status (6)
Country | Link |
---|---|
US (3) | US8924453B2 (ja) |
EP (3) | EP2795614A4 (ja) |
JP (3) | JP2015505993A (ja) |
KR (3) | KR20140106723A (ja) |
CN (3) | CN104126200A (ja) |
WO (3) | WO2013096124A1 (ja) |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9514739B2 (en) * | 2012-06-06 | 2016-12-06 | Cypress Semiconductor Corporation | Phoneme score accelerator |
US10007724B2 (en) * | 2012-06-29 | 2018-06-26 | International Business Machines Corporation | Creating, rendering and interacting with a multi-faceted audio cloud |
DE102013206292A1 (de) * | 2013-04-10 | 2014-10-16 | Robert Bosch Gmbh | Verfahren und Vorrichtung zum Erstellen eines datenbasierten Funktionsmodells |
DE102013206320A1 (de) * | 2013-04-10 | 2014-10-16 | Robert Bosch Gmbh | Verfahren und Steuergerät zur Berechnung eines datenbasierten Funktionsmodells |
JP6052814B2 (ja) * | 2014-09-24 | 2016-12-27 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | 音声認識モデルの構築方法、音声認識方法、コンピュータ・システム、音声認識装置、プログラムおよび記録媒体 |
KR102299330B1 (ko) * | 2014-11-26 | 2021-09-08 | 삼성전자주식회사 | 음성 인식 방법 및 그 전자 장치 |
CN105869641A (zh) * | 2015-01-22 | 2016-08-17 | 佳能株式会社 | 语音识别装置及语音识别方法 |
US9721569B2 (en) * | 2015-05-27 | 2017-08-01 | Intel Corporation | Gaussian mixture model accelerator with direct memory access engines corresponding to individual data streams |
US10587464B2 (en) * | 2017-07-21 | 2020-03-10 | Accenture Global Solutions Limited | Automatic provisioning of a software development environment |
US11043218B1 (en) * | 2019-06-26 | 2021-06-22 | Amazon Technologies, Inc. | Wakeword and acoustic event detection |
WO2021033889A1 (en) | 2019-08-20 | 2021-02-25 | Samsung Electronics Co., Ltd. | Electronic device and method for controlling the electronic device |
CN112307986B (zh) * | 2020-11-03 | 2022-02-08 | 华北电力大学 | 一种利用高斯梯度的负荷开关事件检测方法和系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH01298400A (ja) * | 1988-05-26 | 1989-12-01 | Ricoh Co Ltd | 連続音声認識装置 |
JPH04232998A (ja) * | 1990-12-27 | 1992-08-21 | Nec Corp | 音声認識装置 |
WO2006075648A1 (ja) * | 2005-01-17 | 2006-07-20 | Nec Corporation | 音声認識システム、音声認識方法及び音声認識プログラム |
US20080255839A1 (en) * | 2004-09-14 | 2008-10-16 | Zentian Limited | Speech Recognition Circuit and Method |
WO2010042631A2 (en) * | 2008-10-10 | 2010-04-15 | Fastow Richard M | Real-time data pattern analysis system and method of operation thereof |
JP2011191682A (ja) * | 2010-03-16 | 2011-09-29 | Nec Corp | 音声認識装置、音声認識方法および音声認識プログラム |
Family Cites Families (29)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1112269A (zh) * | 1994-05-20 | 1995-11-22 | 北京超凡电子科技有限公司 | 基于汉语发音特点的hmm语音识别技术 |
US5604839A (en) | 1994-07-29 | 1997-02-18 | Microsoft Corporation | Method and system for improving speech recognition through front-end normalization of feature vectors |
US5864810A (en) * | 1995-01-20 | 1999-01-26 | Sri International | Method and apparatus for speech recognition adapted to an individual speaker |
US5710866A (en) * | 1995-05-26 | 1998-01-20 | Microsoft Corporation | System and method for speech recognition using dynamically adjusted confidence measure |
US5937384A (en) | 1996-05-01 | 1999-08-10 | Microsoft Corporation | Method and system for speech recognition using continuous density hidden Markov models |
CN1061451C (zh) * | 1996-09-26 | 2001-01-31 | 财团法人工业技术研究院 | 隐藏式马可夫模型的中文词音识别方法 |
US6542866B1 (en) * | 1999-09-22 | 2003-04-01 | Microsoft Corporation | Speech recognition method and apparatus utilizing multiple feature streams |
US7295978B1 (en) * | 2000-09-05 | 2007-11-13 | Verizon Corporate Services Group Inc. | Systems and methods for using one-dimensional gaussian distributions to model speech |
JP3932789B2 (ja) * | 2000-09-20 | 2007-06-20 | セイコーエプソン株式会社 | Hmmの出力確率計算方法および音声認識装置 |
US7454341B1 (en) | 2000-09-30 | 2008-11-18 | Intel Corporation | Method, apparatus, and system for building a compact model for large vocabulary continuous speech recognition (LVCSR) system |
CA2359544A1 (en) * | 2001-10-22 | 2003-04-22 | Dspfactory Ltd. | Low-resource real-time speech recognition system using an oversampled filterbank |
US6990447B2 (en) * | 2001-11-15 | 2006-01-24 | Microsoft Corportion | Method and apparatus for denoising and deverberation using variational inference and strong speech models |
US20030097263A1 (en) * | 2001-11-16 | 2003-05-22 | Lee Hang Shun | Decision tree based speech recognition |
US7006972B2 (en) * | 2002-03-20 | 2006-02-28 | Microsoft Corporation | Generating a task-adapted acoustic model from one or more different corpora |
US7031918B2 (en) * | 2002-03-20 | 2006-04-18 | Microsoft Corporation | Generating a task-adapted acoustic model from one or more supervised and/or unsupervised corpora |
US7571097B2 (en) * | 2003-03-13 | 2009-08-04 | Microsoft Corporation | Method for training of subspace coded gaussian models |
US7454336B2 (en) * | 2003-06-20 | 2008-11-18 | Microsoft Corporation | Variational inference and learning for segmental switching state space models of hidden speech dynamics |
US7480615B2 (en) * | 2004-01-20 | 2009-01-20 | Microsoft Corporation | Method of speech recognition using multimodal variational inference with switching state space models |
US7231019B2 (en) | 2004-02-12 | 2007-06-12 | Microsoft Corporation | Automatic identification of telephone callers based on voice characteristics |
US20060058999A1 (en) * | 2004-09-10 | 2006-03-16 | Simon Barker | Voice model adaptation |
US7693713B2 (en) * | 2005-06-17 | 2010-04-06 | Microsoft Corporation | Speech models generated using competitive training, asymmetric training, and data boosting |
KR100664960B1 (ko) * | 2005-10-06 | 2007-01-04 | 삼성전자주식회사 | 음성 인식 장치 및 방법 |
KR100764247B1 (ko) | 2005-12-28 | 2007-10-08 | 고려대학교 산학협력단 | 2단계 탐색을 이용한 음성인식 장치 및 그 방법 |
EP1840822A1 (en) * | 2006-03-29 | 2007-10-03 | Sony Deutschland Gmbh | Method for deriving noise statistical properties of a signal |
US7774202B2 (en) | 2006-06-12 | 2010-08-10 | Lockheed Martin Corporation | Speech activated control system and related methods |
US7844456B2 (en) * | 2007-03-09 | 2010-11-30 | Microsoft Corporation | Grammar confusability metric for speech recognition |
KR100974871B1 (ko) * | 2008-06-24 | 2010-08-11 | 연세대학교 산학협력단 | 특징 벡터 선택 방법 및 장치, 그리고 이를 이용한 음악장르 분류 방법 및 장치 |
US8818802B2 (en) | 2008-10-10 | 2014-08-26 | Spansion Llc | Real-time data pattern analysis system and method of operation thereof |
US9031844B2 (en) * | 2010-09-21 | 2015-05-12 | Microsoft Technology Licensing, Llc | Full-sequence training of deep structures for speech recognition |
-
2012
- 2012-06-06 US US13/490,129 patent/US8924453B2/en active Active
- 2012-06-06 US US13/489,799 patent/US20130158996A1/en not_active Abandoned
- 2012-06-06 US US13/490,124 patent/US9785613B2/en active Active
- 2012-12-14 EP EP12859602.0A patent/EP2795614A4/en not_active Ceased
- 2012-12-14 CN CN201280070070.3A patent/CN104126200A/zh active Pending
- 2012-12-14 JP JP2014547494A patent/JP2015505993A/ja active Pending
- 2012-12-14 KR KR1020147020293A patent/KR20140106723A/ko not_active Application Discontinuation
- 2012-12-14 WO PCT/US2012/069787 patent/WO2013096124A1/en active Application Filing
- 2012-12-18 CN CN201280070114.2A patent/CN104137178B/zh active Active
- 2012-12-18 CN CN201280070112.3A patent/CN104126165A/zh active Pending
- 2012-12-18 KR KR1020147020295A patent/KR102048893B1/ko active IP Right Grant
- 2012-12-18 JP JP2014547556A patent/JP2015501011A/ja active Pending
- 2012-12-18 EP EP12859642.6A patent/EP2795461A4/en not_active Withdrawn
- 2012-12-18 EP EP12860893.2A patent/EP2795615A4/en not_active Withdrawn
- 2012-12-18 KR KR1020147020294A patent/KR20140106724A/ko not_active Application Discontinuation
- 2012-12-18 WO PCT/US2012/070329 patent/WO2013096301A1/en active Application Filing
- 2012-12-18 WO PCT/US2012/070332 patent/WO2013096303A1/en active Application Filing
- 2012-12-18 JP JP2014547557A patent/JP6138148B2/ja active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH01298400A (ja) * | 1988-05-26 | 1989-12-01 | Ricoh Co Ltd | 連続音声認識装置 |
JPH04232998A (ja) * | 1990-12-27 | 1992-08-21 | Nec Corp | 音声認識装置 |
US20080255839A1 (en) * | 2004-09-14 | 2008-10-16 | Zentian Limited | Speech Recognition Circuit and Method |
WO2006075648A1 (ja) * | 2005-01-17 | 2006-07-20 | Nec Corporation | 音声認識システム、音声認識方法及び音声認識プログラム |
WO2010042631A2 (en) * | 2008-10-10 | 2010-04-15 | Fastow Richard M | Real-time data pattern analysis system and method of operation thereof |
JP2011191682A (ja) * | 2010-03-16 | 2011-09-29 | Nec Corp | 音声認識装置、音声認識方法および音声認識プログラム |
Non-Patent Citations (1)
Title |
---|
齋藤大輔 他: ""ケプストラムの声道長依存性に関する幾何学的考察"", 情報処理学会研究報告, vol. 2007, no. 129, JPN6016049359, 20 December 2007 (2007-12-20), pages 189 - 194, ISSN: 0003625272 * |
Also Published As
Publication number | Publication date |
---|---|
JP2015505993A (ja) | 2015-02-26 |
KR20140107537A (ko) | 2014-09-04 |
WO2013096303A1 (en) | 2013-06-27 |
CN104137178B (zh) | 2018-01-19 |
JP2015501012A (ja) | 2015-01-08 |
US20130158996A1 (en) | 2013-06-20 |
CN104126165A (zh) | 2014-10-29 |
US20130159371A1 (en) | 2013-06-20 |
EP2795614A4 (en) | 2015-07-22 |
EP2795614A1 (en) | 2014-10-29 |
WO2013096301A1 (en) | 2013-06-27 |
WO2013096124A1 (en) | 2013-06-27 |
US20130158997A1 (en) | 2013-06-20 |
EP2795615A1 (en) | 2014-10-29 |
KR20140106723A (ko) | 2014-09-03 |
KR20140106724A (ko) | 2014-09-03 |
EP2795461A4 (en) | 2015-08-12 |
KR102048893B1 (ko) | 2019-11-26 |
CN104137178A (zh) | 2014-11-05 |
EP2795461A1 (en) | 2014-10-29 |
JP6138148B2 (ja) | 2017-05-31 |
CN104126200A (zh) | 2014-10-29 |
EP2795615A4 (en) | 2016-01-13 |
US8924453B2 (en) | 2014-12-30 |
US9785613B2 (en) | 2017-10-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6138148B2 (ja) | 演算論理ユニットアーキテクチャ | |
US10949736B2 (en) | Flexible neural network accelerator and methods therefor | |
US8566259B2 (en) | Method and system for parallel statistical inference on highly parallel platforms | |
US20180350351A1 (en) | Feature extraction using neural network accelerator | |
US8818802B2 (en) | Real-time data pattern analysis system and method of operation thereof | |
You et al. | Parallel scalability in speech recognition | |
Nedevschi et al. | Hardware speech recognition for user interfaces in low cost, low power devices | |
US20230402028A1 (en) | Unsupervised alignment for text to speech synthesis using neural networks | |
He et al. | A 40 nm 144 mW VLSI processor for real-time 60-kWord continuous speech recognition | |
Price | Energy-scalable speech recognition circuits | |
You et al. | Memory access optimized VLSI for 5000-word continuous speech recognition | |
Lim et al. | Design and implementation of speech recognition on a softcore based FPGA | |
Buthpitiya et al. | A parallel implementation of viterbi training for acoustic models using graphics processing units | |
You et al. | Flexible and expandable speech recognition hardware with weighted finite state transducers | |
Cheng et al. | Speech recognition system for embedded real-time applications | |
Stogiannos et al. | A configurable logic based architecture for real-time continuous speech recognition using hidden Markov models | |
Tambe | Architecting High Performance Silicon Systems for Accurate and Efficient On-Chip Deep Learning | |
US20240112021A1 (en) | Automatic speech recognition with multi-frame blank decoding using neural networks for conversational ai systems and applications | |
Chong et al. | An automatic speech recognition application framework for highly parallel implementations on the gpu | |
Al-Qawlaq et al. | KWT-Tiny: RISC-V Accelerated, Embedded Keyword Spotting Transformer | |
Stölzle | Speech Recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20151116 |
|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A712 Effective date: 20160118 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20161215 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20161222 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20170321 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20170823 |