JP4703648B2 - ベクトルコードブック生成方法、データ圧縮方法及び装置、並びに分散型音声認識システム - Google Patents
ベクトルコードブック生成方法、データ圧縮方法及び装置、並びに分散型音声認識システム Download PDFInfo
- Publication number
- JP4703648B2 JP4703648B2 JP2007521800A JP2007521800A JP4703648B2 JP 4703648 B2 JP4703648 B2 JP 4703648B2 JP 2007521800 A JP2007521800 A JP 2007521800A JP 2007521800 A JP2007521800 A JP 2007521800A JP 4703648 B2 JP4703648 B2 JP 4703648B2
- Authority
- JP
- Japan
- Prior art keywords
- subset
- vector
- feature
- reference vector
- codebook
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 239000013598 vector Substances 0.000 title claims abstract description 286
- 238000000034 method Methods 0.000 title claims abstract description 164
- 238000013144 data compression Methods 0.000 title claims description 20
- 230000008569 process Effects 0.000 claims description 29
- GNFTZDOKVXKIBK-UHFFFAOYSA-N 3-(2-methoxyethoxy)benzohydrazide Chemical compound COCCOC1=CC=CC(C(=O)NN)=C1 GNFTZDOKVXKIBK-UHFFFAOYSA-N 0.000 claims description 12
- 238000000605 extraction Methods 0.000 claims description 12
- 230000001174 ascending effect Effects 0.000 claims description 10
- 230000005540 biological transmission Effects 0.000 claims description 9
- 238000006243 chemical reaction Methods 0.000 claims description 6
- 230000005236 sound signal Effects 0.000 claims description 6
- UKMSUNONTOPOIO-UHFFFAOYSA-M behenate Chemical compound CCCCCCCCCCCCCCCCCCCCCC([O-])=O UKMSUNONTOPOIO-UHFFFAOYSA-M 0.000 claims 1
- 229940116224 behenate Drugs 0.000 claims 1
- 238000007906 compression Methods 0.000 description 31
- 230000006835 compression Effects 0.000 description 31
- 238000012545 processing Methods 0.000 description 22
- 238000004364 calculation method Methods 0.000 description 17
- 238000005457 optimization Methods 0.000 description 15
- 238000004422 calculation algorithm Methods 0.000 description 12
- 238000010187 selection method Methods 0.000 description 12
- 230000006870 function Effects 0.000 description 9
- 230000002829 reductive effect Effects 0.000 description 9
- 239000005441 aurora Substances 0.000 description 7
- 238000004590 computer program Methods 0.000 description 5
- FGUUSXIOTUKUDN-IBGZPJMESA-N C1(=CC=CC=C1)N1C2=C(NC([C@H](C1)NC=1OC(=NN=1)C1=CC=CC=C1)=O)C=CC=C2 Chemical compound C1(=CC=CC=C1)N1C2=C(NC([C@H](C1)NC=1OC(=NN=1)C1=CC=CC=C1)=O)C=CC=C2 FGUUSXIOTUKUDN-IBGZPJMESA-N 0.000 description 4
- 238000013459 approach Methods 0.000 description 4
- 238000013139 quantization Methods 0.000 description 4
- 230000003247 decreasing effect Effects 0.000 description 3
- 230000007423 decrease Effects 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000010845 search algorithm Methods 0.000 description 2
- 238000007792 addition Methods 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Description
- 銀行や証券会社の取引などのように「機密」情報の音声認識に基づいた双方向音声応答(IVR)サービス。音声認識の特徴は将来の人物確認のため、又は手続上の要件を満たすために記憶しておいてもよい。
- 配備された音声認識システムから集められた音声データベースにおける発話の人物確認。このデータベースはシステム性能を向上させるべくモデルを再訓練し調整するのに使用できる。
- 機械と人間の認識が混合した用途(例えば人間補助式のディクテーション)。
- サーバ側:オーディオ信号を当該装置によってデータ伝送路を介してサーバに送る。サーバはすべてのオーディオ信号処理を行い、認識処理の結果を該装置に送り返す。このアプローチでは、グラフィック表示がなく、また装置とサーバとの接続が不安定であるという限界がある。低分解能のアナログ-デジタル変換、トランスコーディング損失、伝送損失、及びあらゆる無線技術に固有のすべての誤差があるので、デジタル化したオーディオ信号の品質はしばしば音声認識の成功には不十分である。
- クライアント側:音声処理をユーザーの装置において完全に行なう。このアプローチはオーディオ伝送路の問題を解決するが、クライアント装置が大きな処理能力とメモリ容量を有すると共に低消費量でなくてはならない。しかし、パーソナル・デジタル・アシスタント(PDA)、携帯電話、及び他の組み込み装置などの無線ハンドヘルド装置には、一般に計算、メモリ、及び電池エネルギーに限界がある。よって、上述の資源の限界ゆえに、これらの従来装置において複雑な検索アルゴリズムを行なうのは難しい。
- 分散型音声認識(DSR):音声認識タスクを一部はクライアント装置で実行し一部はサーバで実行する。クライアント装置がユーザーのデジタル化された音声について特定の特徴を抽出し、これらのデジタル表現をサーバに送る。サーバは、抽出された情報をサーバに記憶された言語モデル及び語彙リストと比較することによってこの処理を完了させるので、無線装置のメモリの制約が小さい。このアプローチのその他の利点は、厳しいハードウエア要件を課すことなく様々なモバイル機器に音声インターフェースを加えることができること、サービス、コンテンツ及びコードを容易に更新できること、誤差に対する感度が低いことである(一般に、これらのシステムは音声認識精度に有害な影響を与えることなく最大で10%までのデータパケット損失に対処できる)。
ここで、Nはコードブックにおけるベクトルの数であり、(XA,XB)は入力ベクトルであり、Ci=(Ci,A,Ci,B)はコードブックのi番目ベクトルである。
a)前記N個の基準ベクトルの集合を、前記N個の基準ベクトルの集合の所定の特徴の値に関して昇順又は降順にソートする工程と;
b)ソートした基準ベクトルの集合を部分集合に分割する工程と;
c)前記部分集合の各々と前記所定の特徴についての夫々のしきい値とを関連付ける工程と;
を含むことを特徴とする方法である。
有利には、この方法は更に、前記N個の基準ベクトルの集合を更に分割する工程を含み、前記更に分割する工程が、
d)前記部分集合の各々の基準ベクトルを、前記N個の基準ベクトルの集合の更なる所定の特徴の値に関して昇順又は降順にソートする工程と;
e)ソートした基準ベクトルの前記部分集合の各々を更なる部分集合に分割する工程と;
f)前記更なる部分集合の各々と前記更なる所定の特徴についての夫々の更なるしきい値とを関連付ける工程と;
を含む。
1)本発明の第1の態様による方法で生成されるように、インデックス付きQ特徴基準ベクトルからなる部分集合、及び所定の特徴について前記部分集合に関連付けられたしきい値を含んだベクトルコードブックを得る工程と;
2)前記所定の特徴に対応する入力ベクトルの特徴の値を前記部分集合に関連付けられた前記しきい値と漸次比較することによって、前記部分集合から基準ベクトルの部分集合を特定する工程と;
3)工程2)で特定した部分集合内で前記入力ベクトルに対して最小歪みを与える基準ベクトルを特定する工程と;
を含む方法に関するものである。
- デジタル入力データを処理してQ特徴ベクトルを得る特徴抽出装置であって、ここでQは1より大きな整数である特徴抽出装置と;
- ソートしたインデックス付きQ特徴基準ベクトルからなる所定の部分集合と、前記部分集合に関連付けられた所定のしきい値とからなる少なくとも1つのベクトルコードブックを記憶するためのメモリ装置と;
- 前記特徴抽出装置により得た各入力Q特徴ベクトルについて、前記入力ベクトルの所定の特徴を前記所定のしきい値と比較することによって、記憶された部分集合の一つを特定すると共に、前記特定した部分集合内で前記入力特徴ベクトルに関して歪みが最小の基準ベクトルを特定するためのデータ圧縮装置と;
を備えたデータ圧縮用装置に関するものである。
- 本発明の前の態様によるユーザー装置と;
- 前記デジタル入力データを再構成するための認識装置と;
- 前記ユーザー装置と前記認識装置との間でデータを伝送するためのデータ伝送路と;
を備える分散型音声認識システムに関するものである。
この方法は、例えば音声認識システムのクライアント側で使用できる。
この方法はブロック900にて開始し、セットアップ段階とランタイム段階とを含む。
以下、本発明の方法をさらに詳しく説明する。
この表現に従うと、Q列とテーブル行の部分集合とからなるサブテーブルが、コードブック基準ベクトルの対応する部分集合から成るコードブック空間の領域を表す。
ブロック104では、ブロック103で得たNfirst個サブテーブルを特定するNfirst個の第1しきい値を定める。
テーブルの上部及び下部の拡張サブテーブルについて:Pfirst,1=(N/Nfirst)+Mfirst
テーブルの他の中央拡張サブテーブルすべてについて:Pfirst,2=(N/Nfirst)+2Mfirst
ブロック108では、Nfirst個の拡張サブテーブルの各々に対してブロック107で得たNsecond個の更なるサブテーブルを特定するNsecond個の第2しきい値を定める。
Nsecond個の第2しきい値は、例えば、第1しきい値を定めるために上記説明したのと同じ基準で定義できる。
上部及び下部拡張サブテーブルの更なる上部及び下部拡張サブテーブルについて:
Psecond,1=(Pfirst,1/Nsecond)+Msecond
上部及び下部拡張サブテーブルの一方の更なる中央拡張サブテーブルすべてについて:
Psecond,2=(Pfirst,1/Nsecond)+2・Msecond
一方の中央拡張サブテーブルすべての更なる上部及び下部拡張サブテーブルについて:
Psecond,3=(Pfirst,2/Nsecond)+Msecond
一方の中央拡張サブテーブルすべての一方の更なる中央拡張サブテーブルすべてについて:
Psecond,4=(Pfirst,2/Nsecond)+2・Msecond
ブロック405では、入力ベクトルのXA特徴をi番目の第1しきい値(FIRST_THi)と比較する。XA≦FIRST_THiならば、ブロック408にてi番目のサブテーブルを選択する。XA>FIRST_THiならば、ブロック406にてiパラメータをNfirstと比較する。i<Nfirstならば、ブロック407にてiを1だけインクリメントし(i=i+1)、ブロック405に戻る。そうでなければ、ブロック408にてi番目のサブテーブルを選択する。
ブロック502では、パラメータBEST_DISTを当該コードブックの2つのポイント間の最大距離以上の値に等しい値MAX_DISTに初期化し;パラメータkを、領域選択手順のブロック412で選択した拡張された更なるサブテーブルに含まれる第1基準ベクトルのインデックスに等しい値mに初期化し;上記拡張された更なるサブテーブルの行数Psecond,jをロードする。
DNM=Psecond,4=(Pfirst,2/Nsecond)+2・Nsecond
ここで、Pfirst,2=(N/Nfirst)+2・Mfirst
・最初と最後(上部と下部)の拡張サブテーブルについて:
P(1)=P(4)=Pfirst,1=(N/Nfirst)+Mfirst=24
・中央拡張サブテーブルについて:
P(2)=P(3)=Pfirst,2=(N/Nfirst)+2・Mfirst=32
・最初と最後のサブテーブルから得られた更なるサブテーブルについて:
Pfirst,1/Nsecond=24/4=6
・他のすべての更なるサブテーブルについて:
Pfirst,2/Nsecond=32/4=8
・最初と最後の拡張サブテーブルに関する最初と最後の拡張された更なるサブテーブルについて:
P(1,1)=P(1,4)=P(4,1)=P(4,4)=(Pfirst,1/Nsecond)+Msecond=9
・最初と最後の拡張サブテーブルに関する他のすべての更なる中央拡張サブテーブルについて:
P(1,2)=P(1,3)=P(4,2)=P(4,3)=(Pfirst,1/Nsecond)+2・Msecond=12
・中央拡張サブテーブルに関する最初と最後の拡張された更なるサブテーブルについて:
P(2,1)=P(2,4)=P(3,1)=P(3,4)=(Pfirst,2/Nsecond)+Msecond=11
・中央拡張サブテーブルに関する他のすべての更なる中央拡張サブテーブルについて:
P(2,2)=P(2,3)=P(3,2)=P(3,3)=(Pfirst,2/Nsecond)+2・Msecond=14
・テーブルと各拡張サブテーブルを、((更なる)サブテーブルが一方の側でのみ拡張されたより小さい次元を有する極端な状態を考えて)ほぼ同数の行(それぞれN/NfirstとPfirst,i/Msecondに等しい)を含んだサブテーブルと更なるサブテーブルとにそれぞれ分割する;
・サブテーブルを同じ行数Mfirstだけ拡張し、更なるサブテーブルを同じ行数Msecondだけ拡張する;
・基準ベクトルの数Nは2の累乗に等しい:N=2n。コードブック中の基準ベクトルの数が2の累乗でない場合には、2の累乗に等しい行数を得るため、ダミーの基準ベクトル(例えばコードブック最低又は最大ベクトルに等しい集合)からなるテーブルの下部又は上部にいくつかの行を加えることができる。次に、最小歪み探索手順の実行からダミーベクトルを除外する。上述した「AURORA」ETSI規格により定められたコードブックはすべて、下記の通り2の累乗に等しいN数個の基準ベクトルを有することが分かる。
・Nfirstは2の累乗である:Nfirst=2r;
・Mfirstの最大値はN/Nfirstである;
・Nsecondの最大値はPfirst,1である;
・Nsecondは2の累乗である:Nsecond=2t;
・Msecondの最大値はPfirst,1/Nsecondである;
・次の関係を満たさなければならない:
ここで、r、s、t、uは負でない整数であり、modはモジュロ演算子である(すなわち、「x mod y」は除算「x/y」の剰余である)。
ブロック701にて手順を開始する。
ブロック702にてパラメータBEST_CPXをNに初期化する(複雑さ関数CPXの最悪の場合)。
・テーブルの行又は前のサイクルで得られた各(拡張)サブテーブルの行を、現在考慮中の列に含まれる特徴値に対して昇順又は降順にソートする;
・テーブル、又は前のサイクルで得られた各(拡張)サブテーブルを所定数のサブテーブルに分割する;
・現在考慮中の列について1つのしきい値を各サブテーブルに関連つける;
・テーブルの別の列(もし存在すれば)を考慮し、各サブテーブルを所定数の行だけ適宜拡張することで、次のサイクルで処理すべき拡張サブテーブルを生成する。
Claims (14)
- N個の基準ベクトルの集合からなるベクトルコードブックから開始し、データ圧縮の計算労力を低減するベクトルコードブックを生成する方法であって、ここで、各基準ベクトルはQ個の特徴からなり、NとQは1より大きい正の整数であり、該方法が、
a)前記N個の基準ベクトルの集合を、前記N個の基準ベクトルの集合の所定の特徴の値に関して昇順又は降順にソートする工程と;
b)ソートした基準ベクトルの集合を部分集合に分割する工程と;
c)前記部分集合の各々と前記所定の特徴についての夫々のしきい値とを関連付ける工程と;
を含むと共に、前記N個の基準ベクトルの集合を更に分割する工程を含み、前記更に分割する工程が、
d)前記部分集合の各々の基準ベクトルを、前記N個の基準ベクトルの集合の更なる所定の特徴の値に関して昇順又は降順にソートする工程と;
e)ソートした基準ベクトルの前記部分集合の各々を更なる部分集合に分割する工程と;
f)前記更なる部分集合の各々と前記更なる所定の特徴についての夫々の更なるしきい値とを関連付ける工程と;
を含み、該方法は、
g)工程b)で得た前記部分集合の少なくとも1つを、隣接部分集合の少なくとも1つの基準ベクトルを用いて拡張する工程を更に含み、工程g)により拡張した前記部分集合について工程d)及びe)を実行することを特徴とする方法。 - 工程a)でソートした前記集合において上部の部分集合の直ぐ下にある基準ベクトルに対応する少なくとも1つの基準ベクトルを前記部分集合の下部に加えることにより、工程a)でソートした前記集合の上部にある工程b)で得た前記部分集合を拡張することによって前記工程g)を実行する請求項1に記載の方法。
- 工程a)でソートした前記集合において下部の部分集合の直ぐ上にある基準ベクトルに対応する少なくとも1つの基準ベクトルを前記部分集合の上部に加えることにより、工程a)でソートした前記集合の下部にある工程b)で得た前記部分集合を拡張することによって前記工程g)を実行する請求項1に記載の方法。
- 工程b)でソートした前記集合において中央の部分集合の直ぐ上及び直ぐ下にある基準ベクトルに対応する少なくとも1つの基準ベクトルを前記部分集合の上部及び下部に加えることにより、工程a)で得た他の中央部分集合を拡張することによって前記工程g)を実行する請求項1に記載の方法。
- 前記更に分割する工程が、工程e)の後、工程e)で得た前記更なる部分集合の少なくとも1つを、隣接する更なる部分集合の少なくとも1つの基準ベクトルを用いて拡張する工程h)も含む請求項1に記載の方法。
- ソートした対応する拡張部分集合において上部の更なる部分集合の直ぐ下にある基準ベクトルに対応する少なくとも1つの基準ベクトルを、前記更なる部分集合の下部に加えることにより、工程d)でソートした対応する拡張部分集合の上部にある工程e)で得た各更なる部分集合を拡張することによって前記工程h)を実行する請求項5に記載の方法。
- ソートした対応する拡張部分集合において下部の更なる部分集合の直ぐ上にある基準ベクトルに対応する少なくとも1つの基準ベクトルを、前記更なる部分集合の上部に加えることにより、工程d)でソートした対応する拡張部分集合の下部にある工程e)で得た各更なる部分集合を拡張することによって前記工程h)を実行する請求項5に記載の方法。
- 工程d)でソートした対応する拡張部分集合において工程e)で得た他の中央の更なる部分集合の直ぐ上及び直ぐ下にある基準ベクトルに対応する少なくとも1つの基準ベクトルを、前記更なる部分集合の上部及び下部に加えることにより、前記中央の更なる部分集合を拡張することによって前記工程h)を実行する請求項5に記載の方法。
- 前記更に分割する工程が、工程h)の前の実行により前記拡張された更なる部分集合を部分集合と毎回考えて、また工程d)及びf)を実行するためにN個の基準ベクトルの集合の他の1つの更なる所定の特徴を毎回考えて、所定の回数繰り返される、請求項5に記載の方法。
- Q個の特徴を有する入力ベクトルにより表されるデータの圧縮方法であって、ここで、Qは1より大きな整数であり、
1)請求項1〜9のいずれか一項に記載の方法で生成されるベクトルコードブックを用いる方法。 - - デジタル入力データを処理してQ特徴ベクトルを得る特徴抽出装置(802)であって、ここでQは1より大きな整数である特徴抽出装置(802)と;
- 請求項1〜9のいずれか一項に記載の方法で生成される少なくとも1つのベクトルコードブックを記憶するためのメモリ装置(806)と;
- メモリ装置(806)において記憶するベクトルコードブックを用いた前記特徴抽出装置(802)により得られた各Q特徴ベクトルを圧縮するためのデータ圧縮装置(804)と;
を備えたデータ圧縮用装置(810)。 - 入力音声信号をデジタル音声データに変換して前記特徴抽出装置(802)に与えるための変換装置(801)を更に備える請求項11に記載の装置。
- ・ デジタル入力データを処理してQ特徴ベクトルを得る特徴抽出装置(802)であって、ここでQは1より大きな整数である特徴抽出装置(802)と;
・ 請求項1〜9のいずれか一項に記載の方法で生成される少なくとも1つのベクトルコードブックを記憶するためのメモリ装置(806)と;
・ メモリ装置(806)において記憶するベクトルコードブックを用いた前記特徴抽出装置(802)により得られた各Q特徴ベクトルを圧縮するためのデータ圧縮装置(804)と;
を備えた
- ユーザー装置(810)と;
- 前記デジタル入力データをデータ圧縮装置(804)により圧縮されたQ特徴ベクトルから再構成するための認識装置(820)と;
- 前記ユーザー装置(810)と前記認識装置(820)との間でデータを伝送するためのデータ伝送路(805)と;
を備える分散型音声認識システム(800)。 - 前記の少なくとも一つのベクトルコードブックを生成し、それをメモリ装置(806)において記憶する請求項1〜9のいずれか一項に記載の方法の工程を実行すると共に、コードブック処理装置を更に備える請求項13に記載の分散型音声認識システム(800)。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/EP2004/008372 WO2006007871A1 (en) | 2004-07-23 | 2004-07-23 | Method for generating a vector codebook, method and device for compressing data, and distributed speech recognition system |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2008507718A JP2008507718A (ja) | 2008-03-13 |
JP4703648B2 true JP4703648B2 (ja) | 2011-06-15 |
Family
ID=34958455
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007521800A Expired - Fee Related JP4703648B2 (ja) | 2004-07-23 | 2004-07-23 | ベクトルコードブック生成方法、データ圧縮方法及び装置、並びに分散型音声認識システム |
Country Status (8)
Country | Link |
---|---|
US (1) | US8214204B2 (ja) |
EP (1) | EP1771841B1 (ja) |
JP (1) | JP4703648B2 (ja) |
KR (1) | KR101010585B1 (ja) |
CN (1) | CN101019171B (ja) |
AT (1) | ATE464635T1 (ja) |
DE (1) | DE602004026645D1 (ja) |
WO (1) | WO2006007871A1 (ja) |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7587314B2 (en) * | 2005-08-29 | 2009-09-08 | Nokia Corporation | Single-codebook vector quantization for multiple-rate applications |
US20070299667A1 (en) * | 2006-06-22 | 2007-12-27 | Texas Instruments, Incorporated | System and method for reducing storage requirements for a model containing mixed weighted distributions and automatic speech recognition model incorporating the same |
CN101335004B (zh) * | 2007-11-02 | 2010-04-21 | 华为技术有限公司 | 一种多级量化的方法及装置 |
GB0901262D0 (en) * | 2009-01-26 | 2009-03-11 | Mitsubishi Elec R&D Ct Europe | Video identification |
KR101711158B1 (ko) * | 2010-12-22 | 2017-03-14 | 한국전자통신연구원 | 셀룰러 시스템에서 인접 셀간 간섭 제어 방법 |
US9779731B1 (en) * | 2012-08-20 | 2017-10-03 | Amazon Technologies, Inc. | Echo cancellation based on shared reference signals |
US10147441B1 (en) | 2013-12-19 | 2018-12-04 | Amazon Technologies, Inc. | Voice controlled system |
CN103837890B (zh) * | 2014-02-26 | 2016-07-06 | 中国石油集团川庆钻探工程有限公司地球物理勘探公司 | 获取地震数据的方法及设备 |
EP3363189A1 (en) | 2015-10-14 | 2018-08-22 | Pindrop Security, Inc. | Call detail record analysis to identify fraudulent activity and fraud detection in interactive voice response systems |
CN107564535B (zh) * | 2017-08-29 | 2020-09-01 | 中国人民解放军理工大学 | 一种分布式低速语音通话方法 |
US11470194B2 (en) | 2019-08-19 | 2022-10-11 | Pindrop Security, Inc. | Caller verification via carrier metadata |
CN112445943A (zh) * | 2019-09-05 | 2021-03-05 | 阿里巴巴集团控股有限公司 | 数据处理的方法、装置和系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0645946A (ja) * | 1992-07-27 | 1994-02-18 | Olympus Optical Co Ltd | ベクトル量子化コードブック作成及び探索装置 |
JP2001251192A (ja) * | 2000-03-06 | 2001-09-14 | Nippon Telegr & Teleph Corp <Ntt> | 共役構造ベクトル量子化方法 |
JP2001249690A (ja) * | 2000-03-02 | 2001-09-14 | Oki Electric Ind Co Ltd | 音声録音再生装置 |
Family Cites Families (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4958225A (en) | 1989-06-09 | 1990-09-18 | Utah State University Foundation | Full-search-equivalent method for matching data and a vector quantizer utilizing such method |
US5061924B1 (en) | 1991-01-25 | 1996-04-30 | American Telephone & Telegraph | Efficient vector codebook |
US5651026A (en) * | 1992-06-01 | 1997-07-22 | Hughes Electronics | Robust vector quantization of line spectral frequencies |
US5774839A (en) * | 1995-09-29 | 1998-06-30 | Rockwell International Corporation | Delayed decision switched prediction multi-stage LSF vector quantization |
GB9622055D0 (en) * | 1996-10-23 | 1996-12-18 | Univ Strathclyde | Vector quantisation |
US6009387A (en) * | 1997-03-20 | 1999-12-28 | International Business Machines Corporation | System and method of compression/decompressing a speech signal by using split vector quantization and scalar quantization |
US6161086A (en) * | 1997-07-29 | 2000-12-12 | Texas Instruments Incorporated | Low-complexity speech coding with backward and inverse filtered target matching and a tree structured mutitap adaptive codebook search |
US5946653A (en) | 1997-10-01 | 1999-08-31 | Motorola, Inc. | Speaker independent speech recognition system and method |
US6067515A (en) * | 1997-10-27 | 2000-05-23 | Advanced Micro Devices, Inc. | Split matrix quantization with split vector quantization error compensation and selective enhanced processing for robust speech recognition |
US5966688A (en) * | 1997-10-28 | 1999-10-12 | Hughes Electronics Corporation | Speech mode based multi-stage vector quantizer |
US6148283A (en) * | 1998-09-23 | 2000-11-14 | Qualcomm Inc. | Method and apparatus using multi-path multi-stage vector quantizer |
WO2000022606A1 (en) | 1998-10-13 | 2000-04-20 | Motorola Inc. | Method and system for determining a vector index to represent a plurality of speech parameters in signal processing for identifying an utterance |
US7389227B2 (en) * | 2000-01-14 | 2008-06-17 | C & S Technology Co., Ltd. | High-speed search method for LSP quantizer using split VQ and fixed codebook of G.729 speech encoder |
US6633839B2 (en) * | 2001-02-02 | 2003-10-14 | Motorola, Inc. | Method and apparatus for speech reconstruction in a distributed speech recognition system |
US7003454B2 (en) * | 2001-05-16 | 2006-02-21 | Nokia Corporation | Method and system for line spectral frequency vector quantization in speech codec |
CN1190772C (zh) | 2002-09-30 | 2005-02-23 | 中国科学院声学研究所 | 语音识别系统及用于语音识别系统的特征矢量集的压缩方法 |
US20040176950A1 (en) * | 2003-03-04 | 2004-09-09 | Docomo Communications Laboratories Usa, Inc. | Methods and apparatuses for variable dimension vector quantization |
-
2004
- 2004-07-23 DE DE602004026645T patent/DE602004026645D1/de not_active Expired - Lifetime
- 2004-07-23 EP EP04763512A patent/EP1771841B1/en not_active Expired - Lifetime
- 2004-07-23 KR KR1020077004401A patent/KR101010585B1/ko active IP Right Grant
- 2004-07-23 AT AT04763512T patent/ATE464635T1/de not_active IP Right Cessation
- 2004-07-23 US US11/658,090 patent/US8214204B2/en not_active Expired - Fee Related
- 2004-07-23 WO PCT/EP2004/008372 patent/WO2006007871A1/en active Application Filing
- 2004-07-23 JP JP2007521800A patent/JP4703648B2/ja not_active Expired - Fee Related
- 2004-07-23 CN CN2004800439812A patent/CN101019171B/zh not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0645946A (ja) * | 1992-07-27 | 1994-02-18 | Olympus Optical Co Ltd | ベクトル量子化コードブック作成及び探索装置 |
JP2001249690A (ja) * | 2000-03-02 | 2001-09-14 | Oki Electric Ind Co Ltd | 音声録音再生装置 |
JP2001251192A (ja) * | 2000-03-06 | 2001-09-14 | Nippon Telegr & Teleph Corp <Ntt> | 共役構造ベクトル量子化方法 |
Also Published As
Publication number | Publication date |
---|---|
DE602004026645D1 (de) | 2010-05-27 |
CN101019171A (zh) | 2007-08-15 |
ATE464635T1 (de) | 2010-04-15 |
US20090037172A1 (en) | 2009-02-05 |
KR20070047795A (ko) | 2007-05-07 |
US8214204B2 (en) | 2012-07-03 |
WO2006007871A8 (en) | 2006-03-16 |
JP2008507718A (ja) | 2008-03-13 |
WO2006007871A1 (en) | 2006-01-26 |
EP1771841A1 (en) | 2007-04-11 |
KR101010585B1 (ko) | 2011-01-24 |
EP1771841B1 (en) | 2010-04-14 |
CN101019171B (zh) | 2011-08-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR100924399B1 (ko) | 음성 인식 장치 및 음성 인식 방법 | |
JP4245617B2 (ja) | 特徴量補正装置、特徴量補正方法および特徴量補正プログラム | |
JP4703648B2 (ja) | ベクトルコードブック生成方法、データ圧縮方法及び装置、並びに分散型音声認識システム | |
US6721698B1 (en) | Speech recognition from overlapping frequency bands with output data reduction | |
JPS62231996A (ja) | 音声認識方法 | |
CN108922543B (zh) | 模型库建立方法、语音识别方法、装置、设备及介质 | |
JP3189598B2 (ja) | 信号合成方法および信号合成装置 | |
EP1863014B1 (en) | Apparatuses and methods for learning and using a distance transition model | |
WO2024055752A9 (zh) | 语音合成模型的训练方法、语音合成方法和相关装置 | |
US20070129946A1 (en) | High quality speech reconstruction for a dialog method and system | |
EP1239458A2 (en) | Voice recognition system, standard pattern preparation system and corresponding methods | |
KR102204975B1 (ko) | 심층 신경망 기반 음성인식 방법 및 그 장치 | |
CN117672254A (zh) | 语音转换方法、装置、计算机设备及存储介质 | |
JP4603429B2 (ja) | クライアント・サーバ音声認識方法、サーバ計算機での音声認識方法、音声特徴量抽出・送信方法、これらの方法を用いたシステム、装置、プログラムおよび記録媒体 | |
US5828998A (en) | Identification-function calculator, identification-function calculating method, identification unit, identification method, and speech recognition system | |
CN112530453B (zh) | 一种适用于噪声环境下的语音识别方法及装置 | |
KR101862352B1 (ko) | 음성 인식을 위한 전처리 장치, 및 이를 이용한 음성 인식 장치 및 방법 | |
JP3029803B2 (ja) | 音声認識のための単語モデル生成装置及び音声認識装置 | |
JP4538705B2 (ja) | ディジタル信号処理方法、学習方法及びそれらの装置並びにプログラム格納媒体 | |
JP3091648B2 (ja) | 隠れマルコフモデルの学習方法 | |
CN116110373B (zh) | 智能会议系统的语音数据采集方法及相关装置 | |
EP4404187A1 (en) | Apparatus and method for streaming automatic speech recognition | |
JP2023079258A (ja) | 音抽出システム及び音抽出方法 | |
CN116129921A (zh) | 一种声码器的训练方法、音频合成的方法和装置 | |
CN118314874A (zh) | 一种语音合成的方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20090728 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100629 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20100727 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20100825 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20100928 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20101006 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20101029 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110208 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110308 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4703648 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |