JP2000250576A - 音声認識システムにおいて特徴を抽出する方法 - Google Patents

音声認識システムにおいて特徴を抽出する方法

Info

Publication number
JP2000250576A
JP2000250576A JP2000036104A JP2000036104A JP2000250576A JP 2000250576 A JP2000250576 A JP 2000250576A JP 2000036104 A JP2000036104 A JP 2000036104A JP 2000036104 A JP2000036104 A JP 2000036104A JP 2000250576 A JP2000250576 A JP 2000250576A
Authority
JP
Japan
Prior art keywords
coefficient
speech recognition
cepstral
feature
feature vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2000036104A
Other languages
English (en)
Other versions
JP4912518B2 (ja
Inventor
Daniel Charles Poppert
ダニエル・チャールス・ポパート
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Motorola Solutions Inc
Original Assignee
Motorola Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Motorola Inc filed Critical Motorola Inc
Publication of JP2000250576A publication Critical patent/JP2000250576A/ja
Application granted granted Critical
Publication of JP4912518B2 publication Critical patent/JP4912518B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B65CONVEYING; PACKING; STORING; HANDLING THIN OR FILAMENTARY MATERIAL
    • B65BMACHINES, APPARATUS OR DEVICES FOR, OR METHODS OF, PACKAGING ARTICLES OR MATERIALS; UNPACKING
    • B65B7/00Closing containers or receptacles after filling
    • B65B7/16Closing semi-rigid or rigid containers or receptacles not deformed by, or not taking-up shape of, contents, e.g. boxes or cartons
    • B65B7/162Closing semi-rigid or rigid containers or receptacles not deformed by, or not taking-up shape of, contents, e.g. boxes or cartons by feeding web material to securing means
    • B65B7/164Securing by heat-sealing
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B65CONVEYING; PACKING; STORING; HANDLING THIN OR FILAMENTARY MATERIAL
    • B65BMACHINES, APPARATUS OR DEVICES FOR, OR METHODS OF, PACKAGING ARTICLES OR MATERIALS; UNPACKING
    • B65B43/00Forming, feeding, opening or setting-up containers or receptacles in association with packaging
    • B65B43/42Feeding or positioning bags, boxes, or cartons in the distended, opened, or set-up state; Feeding preformed rigid containers, e.g. tins, capsules, glass tubes, glasses, to the packaging position; Locating containers or receptacles at the filling position; Supporting containers or receptacles during the filling operation
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B65CONVEYING; PACKING; STORING; HANDLING THIN OR FILAMENTARY MATERIAL
    • B65BMACHINES, APPARATUS OR DEVICES FOR, OR METHODS OF, PACKAGING ARTICLES OR MATERIALS; UNPACKING
    • B65B51/00Devices for, or methods of, sealing or securing package folds or closures; Devices for gathering or twisting wrappers, or necks of bags
    • B65B51/10Applying or generating heat or pressure or combinations thereof
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B65CONVEYING; PACKING; STORING; HANDLING THIN OR FILAMENTARY MATERIAL
    • B65BMACHINES, APPARATUS OR DEVICES FOR, OR METHODS OF, PACKAGING ARTICLES OR MATERIALS; UNPACKING
    • B65B57/00Automatic control, checking, warning, or safety devices
    • B65B57/18Automatic control, checking, warning, or safety devices causing operation of audible or visible alarm signals
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B65CONVEYING; PACKING; STORING; HANDLING THIN OR FILAMENTARY MATERIAL
    • B65BMACHINES, APPARATUS OR DEVICES FOR, OR METHODS OF, PACKAGING ARTICLES OR MATERIALS; UNPACKING
    • B65B59/00Arrangements to enable machines to handle articles of different sizes, to produce packages of different sizes, to vary the contents of packages, to handle different types of packaging material, or to give access for cleaning or maintenance purposes
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B65CONVEYING; PACKING; STORING; HANDLING THIN OR FILAMENTARY MATERIAL
    • B65BMACHINES, APPARATUS OR DEVICES FOR, OR METHODS OF, PACKAGING ARTICLES OR MATERIALS; UNPACKING
    • B65B61/00Auxiliary devices, not otherwise provided for, for operating on sheets, blanks, webs, binding material, containers or packages
    • B65B61/04Auxiliary devices, not otherwise provided for, for operating on sheets, blanks, webs, binding material, containers or packages for severing webs, or for separating joined packages
    • B65B61/06Auxiliary devices, not otherwise provided for, for operating on sheets, blanks, webs, binding material, containers or packages for severing webs, or for separating joined packages by cutting

Landscapes

  • Engineering & Computer Science (AREA)
  • Mechanical Engineering (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Mobile Radio Communication Systems (AREA)
  • Telephonic Communication Services (AREA)

Abstract

(57)【要約】 【課題】音声認識システムで用いられる特徴ベクトルの
抽出方法が提供される。 【解決手段】音声認識システム用の特徴を抽出する方法
は、デジタル化信号(204)からの代表係数を生成する
ことを含む。微分係数は代表係数(304,305)から生成
される。代表係数および微分係数の一部は特徴ベクトル
(307)を形成するために抽出される。新規は特徴ベク
トルにより、システムに使用されるメモリ容量が低減さ
れ、処理速度が向上される。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、音声認識に係り、
特に音声認識システムにおける特徴抽出に係る。
【0002】
【従来の技術】話者に依存する音声認識システムでは、
利用者はシステムを使用する際に利用したい単語を登録
しなければならない。語彙としての「単語」は、単一の
口語単語あるいは短い語句でよく、その選択された語彙
単語はその特定の利用に依存する。例えば、携帯無線電
話用の音声認識で使用するには、利用者が頻繁に電話す
る人の名前や場所(例えば、フレッドの事務所)、ある
いはユーザ・インターフェイス(例えば「バッテリ・メ
ータ」、「メッセージ」または「フォン・ロック」)に
頻繁に使用されかつよく利用される命令を与えておくこ
とが必要である。
【0003】登録を行う間、音声認識システムは、利用
者の入力に応答し、各語彙単語の代表的なテンプレート
を導く。あるシステムでは、このテンプレートは連続状
態からなる隠れマルコフ・モデル(HMM:hidden Markov m
odel)によって表現できる。各状態は音声発音の有限セ
クションを表わし、ここで語彙単語に関連して使用され
る発声は1つ以上の単語を含む。各状態のHMMによる
統計的表現は、利用者が発音した特定の語彙用語のうち
の1つまたはそれ以上の登録された音声見本を用いて計
算される。これは、フレーム対状態割り当てを通して達
成される。
【0004】このような状態の割り当ては、トレーニン
グおよび音声認識の動作モデルの双方に対し使用され
る。特に、割り当て状態は、トレーニング・モードでモ
デルを生成するために用いられ、音声認識モード中その
モデルは比較の基準として使用される。動作中の音声認
識モードにおける入力発音の割り当ては、その入力発音
を格納した参照モデルと比較するために使用される。
【0005】ビタビ(Viterbi)アルゴリズムのような整
列アルゴリズムが、発音のフレーム対状態割り当てのた
めに用いられる。この整列アルゴリズムは、音声発音の
最適な一致をモデルに対し与えるが、語彙単語の発音の
各フレームをそのモデルの個々の状態に割り当てるため
に用いられる。この割り当てを用いることにより、各状
態に対する統計的表現が改善される。
【0006】
【発明が解決しようとする課題】膨大な情報により、ほ
とんどの音声認識システムは、ランダム・アクセス・メ
モリ(RAM)のような揮発性メモリ、およびフラッシ
ュROMまたは電気的消去可能な読み取り専用メモリ
(EEPROM)のような不揮発性メモリ(NVN)の
双方を大量に必要とする。これらのメモリを必要とする
ことは、携帯無線装置のようなコストに敏感な応用製品
に対しては桁外れに高価なものになり得る。さらに、音
声認識システムは、単位秒当たり数百万回(MIPS)
の非常に高い計算能力を要求する。 この大きなMIP
Sは、脆弱な手段を用いることによりまた動作速度の低
下により、音声認識を使用する装置の特性に芳ばしくな
い影響を与えうる。
【0007】
【課題を解決するための手段】話者に依存するトレーニ
ングおよび認識アルゴリズムを、わずかのランダム・ア
クセス・メモリ(RAM)しか利用できない無線通信装
置のような携帯装置で実現するために、あらゆる環境で
の認識にあまり好ましくない影響を与えずに、より少な
いメモリをサポートするとともに、より大きなMIPS
に使用できる方法が必要とされる。
【0008】
【実施例】新規の特徴抽出技術はより小さい特徴ベクト
ルを生成し、入力音を表わすために用いられ、それによ
り発音を表現するために必要なメモリ・サイズを低減す
る。この方法により、 RAMのような揮発性メモリ、
EEPROMのようなNVN、および各発音を表現する
より小さい特徴ベクトルを用いることにより音声認識ア
ルゴリズムに求められるMIPSを劇的に低減する。こ
こに示された説明は、隠れマルコフ・モデル(Hidden M
arkov Models:HMMs)を用いる分離した単語を話す人
に依存する音声認識システムの例であるが、本発明は音
声認識の応用製品に非常に広範囲に適用でき、話者に依
存せず、かつ結合した単語の音声認識を含み、また、動
的時間歪(dynamic time warping)のような他の音声認識
アルゴリズムに応用が可能である。
【0009】図1は装置100を示すが、そこに本発明
が効果的に用いられる。装置100は図解の目的ために
ここでは携帯無線電話であるが、音声認識を効果的に使
用できるコンピュータ、個人用デジタル支援装置あるい
は他のいかなる装置でもよく、特にメモリ節約型の音声
認識システムに利用することができる。図示された無線
電話は、送信機102および受信機104を含み、アン
テナ106に結合される。送信機102および受信機1
04は呼プロセッサ108に結合され、呼処理機能を行
う。呼プロセッサ108は、デジタル信号プロセッサ
(DSP)、マイクロプロセッサ、マイクロコントロー
ラ、プログラム可能ユニット、これらの2つ以上の結
合、あるいは他の適当なデジタル回路を用いて実現する
ことができる。
【0010】呼プロセッサ108はメモリ110に結合
される。メモリ110は、RAM、電気的消去可能な読
み取り専用メモリ(EEPROM)、読み取り専用メモ
リ(ROM)、フラッシュROM、あるいはこれらのメ
モリの2以上の組み合わせを含む。メモリ110は、音
声認識動作を含み、呼プロセッサ108の動作を支援
し、電気的に変更可能なメモリを含み状態遷移経路メモ
リを支援する。 ROMは、装置の動作プログラムを格
納するために用いられる。
【0011】オーディオ回路112は、マイクロフォン
114からのデジタル化された信号を呼プロセッサ10
8に与える。オーディオ回路112は、呼プロセッサ1
08からのデジタル信号に応答してスピーカ116を駆
動する。
【0012】呼プロセッサ108は、表示プロセッサ1
20に結合される。表示プロセッサは、装置110のた
めに他のプロセッサによる支援があるなら、選択可能で
ある。特に、表示プロセッサ120は表示制御信号を表
示126に与え、キー124からの入力を受け付ける。
表示プロセッサ120は、マイクロプロセッサ、マイク
ロコントローラ、デジタル信号プロセッサ、プログラム
可能論理ユニット、これらの結合、あるいはこれらと同
等のものを用いて実現できる。メモリ122は、表示プ
ロセッサに結合され、その中のデジタル論理を支援す
る。メモリ122は、 RAM、EEPROM、RO
M、フラッシュROM、あるいは同等のもの、あるいは
これらのメモリの2以上の組み合わせを用いて実現でき
る。
【0013】図2を参照して、マイクロフォン114で
受信した音声信号がオーディオ回路112のアナログ−
デジタル変換器202でデジタル信号に変換される。簡
略化のためここには表現されていないが、当業者であれ
ば、オーディオ回路112がフィルタリングのような追
加の信号処理を行うことは、容易に認識できるであろ
う。呼プロセッサ108は、マイクロフォン114のア
ナログ信号出力の処理されたデジタル信号表記で特徴抽
出204を実行し、利用者の発音を表わす1組の特徴ベ
クトルを与える。特徴ベクトルは、各短期間の分析窓の
期間に求められる。短期間の分析窓はフレームである
が、ここでは例として20msである。結果として、フレ
ーム毎に1つの特徴ベクトルがある。プロセッサ108
は、音声認識206またはトレーニング207の間、そ
の特徴を利用する。
【0014】トレーニングでは、発音の特徴ベクトル
は、メモリ208に格納されたHMM形式のテンプレー
トを生成するために用いられる。音声認識では、入力音
声を表わす特徴ベクトルは、メモリ208に格納された
語彙単語のテンプレートと比較され、利用者がなにを言
ったかを決める。システムは、最適マッチ、1組の最適
マッチ、あるいはマッチなしを任意に出力する。メモリ
208は、好ましくは、メモリ110(図1)の不揮発
性メモリ部で、例えばEEPROMまたは フラッシュ
ROMであってもよい。ここで用いられるように、「単
語」は「John Doe」のような1語を超えてもよく、「ca
ll」のような単一語であってもよい。
【0015】特徴抽出204は、一般に入力音声のフレ
ーム上で単一の処理を行い、フレーム速度で各フレーム
を表わす特徴ベクトルを出力する。フレーム速度は、一
般に10msと30msとの間であり、例として20msの間
隔であってよい。トレーナ207は、1またはそれ以上
の発音である単語または語句のサンプル発音から抽出さ
れた特徴を用い、その単語または語句のモデルとなるパ
ラメータを生成する。このモデルはそれから不揮発性メ
モリ208のモデル格納に記憶される。モデルのサイズ
は、特徴ベクトル長に直接依存するが、より長い特徴ベ
クトルはより大きなメモリを必要とする。
【0016】メモリ208に格納されたモデルは、認識
206の間使用される。認識システムは、未知の発音の
特徴と格納されたモデル・パラメータとの間の比較を実
行し、最適マッチを決定する。その最適にマッチしたモ
デルは、その後認識システムから結果として出力され
る。
【0017】いくつかのタイプの特徴が、ブロック20
4に示される特徴抽出の出力として、効果的に用いられ
た。いくつかの初期の音声認識システムはフィルタ・バ
ンク・エネルギを用いた。例えば、各データ・フレーム
の間、フィルタ・バンクの14個のフィルタの各々におけ
るエネルギ量は、20msであるフレーム速度でトレーニン
グまたは認識ソフトウェアに渡される。リニア予測符号
化(LPC)パラメータが、また効率よく使用された。
多くの現代のシステムは、メル−周波数ケプストラル係
数(Mel-Frequency Cepstral Coefficients: MFCC
s)を用い、それは歪んだメル−周波数のスケールを用
いて計算されたケプストラル係数である。認識結果は、
単にMFCCの時間派生の推定であるデルタMFCC
を付加的に使用することを通して改善させることができ
る。
【0018】音声認識においてMFCCおよびデルタM
FCCを使用することは、よく知られている。後に図示
するように、 認識性能を結合MFCCおよびデルタM
FCC特徴ベクトルで平均して与える特徴ベクトルをも
つことが望ましいが、同時に結合MFCCおよびデルタ
MFCC特徴ベクトルよりもっと短いことが望ましい。
【0019】いくつかのタイプのケプストラル係数が知
られており、そのいずれも使用することができる。例え
ば、 LPCケプストラル係数があるが、この係数を計
算する多くの方法がある。当業者であれば、MFCCの
代わりに、これらのいずれも用いることができることに
気が付くであろう。
【0020】特徴抽出は図3に展開され、特徴抽出にお
けるMFCCおよびデルタMFCCの例を示す。標本化
された音声(アナログ‐デジタル変換機202の出力)
は、フィルタ301に入力され、ここで事前強調(プリ
‐エンファシス)のようなフィルタ処理が実行され、音
声信号をスペクトル的に平坦にするとともに音声スペク
トル中の不要部分を取り除く。その後、平滑化された信
号は必要ならノイズ抑圧器302に入り、ハンズフリー
の車に応用する場合エンジン雑音のような背景雑音を抑
圧する。抑圧された出力は、フィルタ・バンク303に
入力され、フィルタ・バンクのエネルギ推定を行う。フ
ィルタ・バンクは、全音声フレームに対し、M個の周波
数帯域のうちのフィルタ・バンクkのエネルギ推定Sn
(k)を推定し、ここにnはこの明細書において例示する
限りにおいて、20msの音声データである。
【0021】フィルタ・バンクはメル−周波数のスケー
ルに基づき、これは知覚周波数スケールに基づく。この
スケールは低周波数(例えば、1KHzの閾値より低
い)でリニアであり、その閾値以上では対数的である。
その後、フィルタ・バンクのフレームでのエネルギ推定
はケプストラル係数計算機304を通じて求められる。
これは代表的な係数を計算し、ここではフィルタ・バン
クからのフレームnに対するケプストラル係数(Cepstr
al Coefficients)Cn(i)として次式のように表わされ
る:
【数1】 ここにiは、ケプストラル・ベクトルへの指標であり0
からNの範囲であり、N+1はケプストラル特徴の望ましい
長さであって、N+1≦Mである。ケプストラル特徴は、そ
の後微分回路305へ入力され、導関数δn(i)が推定さ
れ、例えば次式のように表わされる:
【数2】 ここに
【数3】 である。
【0022】当業者は、ケプストラル形式の特徴を計算
し、これらの導関数を推定する他の多くの方法が存在す
ることを認識しているであろうが、これらの方法はここ
に例として与えられる。
【0023】本願発明は、有効な情報量に有害な影響を
与えることなく、特徴ベクトル長を減じることにより音
声認識システムが必要とする記憶容量を減少させる。発
明者は、ほとんどの隣接する特徴ベクトルの要素が相関
を有していること、例えばCn(i)はCn(i+1)および Cn(i-
1)と相関があること、そしてδn(i)はδn(i+1) および
δn(i-1)と相関関係にあることを発見した。また、デル
タ‐ケプストラル特徴の要素は、そのケプストラル特徴
の対応関数(counterparts)と相関しており、別の言葉で
はCn(i)はδn(i)と相関することが発見された。
【0024】この情報を用いて、1から6のiに対する
6個のケプストラル特徴および0から6のiに対する7
個のデルタ‐ケプストラル特徴を使用して新規の特徴ベ
クトルが構成された。抽出器307は特徴ベクトルの相
関する要素を取り除き、係数生成器304および微分回
路305による係数出力の部分を残す。方程式から分か
るように、特徴ベクトルの隣接要素は取り除かれ、Cn
(i)またはδn(i)のいずれか1つが各iに対して除かれ
る。連結器(concatenator)306の出力である結果特徴
ベクトルfn(i)は、代表係数およびデルタ係数の双方の
部分集合であり、例えば係数δmn(i)に続く係数Cmn(i)
からなる出力ベクトルであってもよく、例では25個の
代わりに13個の特徴を表わすが、係数生成器304から
の代表係数および微分回路305からのデルタ係数を含
む。
【0025】動作において、特徴抽出器204は、プロ
セッサ108(図1)で優先的に実行され、ブロック4
02に示されるケプストラル係数を生成する。奇数の係
数が、ブロック402に示されるように、抽出器307
で抽出される。偶数デルタ‐ケプストラル係数は、ブロ
ック408に示されるように、抽出器307で抽出され
る。抽出されたケプストラル係数およびデルタ‐ケプス
トラル係数から成る特徴ベクトルは特徴セットとして出
力される。当業者であればデルタ‐ケプストラル奇数係
数およびケプストラル偶数係数が代わりに使用できるこ
とが分かるであろう。
【0026】幾つかの先行技術であるケプストラルおよ
びデルタ‐ケプストラル特徴は、この時点で初期ケプス
トラル係数を落として、単一の特徴ベクトルに連結され
る、なぜなら初期ケプストラル係数はフレーム中のログ
‐エネルギ(log-energy)を表わすが、デルタ‐エネルギ
特徴δn(i)は中に残されているからである。既知のシス
テムでは、最後の特徴ベクトルfn(i)は、n=0からN
−1のnに対しfn(i)=δn(i)となるように、およびi
=NからN+1のiに対して(Cn(0)はない)Cn(I−N
+i)となるように構成される。例えば、N=12のケ
プストラル変形、即ち結果としての特徴ベクトルは、特
徴ベクトルにおける全25個の要素に対して、13個の
デルタ‐ケプストラル要素および12個のケプストラル
要素として構成されるであろう。当業者であれば、Cn
(0)は交互に中に残されることが分かるであろう。
【0027】先行技術に従う典型的なトレーニング・ア
ルゴリズムは、トレーニングが行われる前に集められる
2あるいはそれ以上の発音用の特徴ベクトルを必要とす
る。ここに例示される特徴ベクトルのために、その特徴
ベクトルが10msのフレームを持ち、システムが2秒の
発音まで許容するなら、10,000個の特徴(=25個の特徴
/秒*100フレーム/秒*2秒/発音*2発音)を必要と
し、これはRAMのような揮発性メモリ110に格納し
なければならない。特徴ベクトルに必要とされる格納量
は特徴ベクトルの長さに直接比例し、セルラー電話のよ
うな価格に敏感な応用品にとって、この格納量は極めて
高価格になり得る。本発明は、特徴ベクトルの長さを最
適化し、それによりトレーニング中に要求されるRAM
の量を減らす。
【0028】トレーニング207は獲得した発音用のモ
デル・パラメータを生成する。連続密度HMMを含ん
で、多くのモデルにとって、モデル・パラメータのほと
んど大部分は特徴ベクトル手段によって消費される。25
個の要素である特徴ベクトルを用いる12状態のHMMに
ために、これは(フラッシュあるいはEEPROMのよ
うな)不揮発性メモリに貯えるべき300個の特徴(=12
状態*25個の特徴/状態)を必要とする。再度、価格に
敏感な応用品にとって、」これは非常に高価なメモリと
なり得る。特徴ベクトルの長さを13に短くすることによ
り、この発明は音声認識システムに要求される不揮発性
メモリの量を減らす。
【0029】試験において、新しい特徴ベクトルは、ほ
とんど同一の認識結果を全23要素の特徴ベクトルに与え
た。あるデータベースでは、約1%だけ性能を劣化させ
たが、他のデータベースでは、全体に同じ認識率を得
た。この新規の13要素の特徴ベクトルは、元の特徴ベク
トル格納用RAMの52%だけを要求し、トレーニング中
生成されるモデル用の特徴ベクトル手段のために元のN
VMの52%だけを必要とする。認識アルゴリズムで要求
されるMIPSもまた劇的に減らす。
【0030】特徴ベクトルの長さを13要素に減らす他の
既知の方法は、特徴ベクトルの一部を単に切り取るか
(例えば、N=12の代わりにN=6を使用する)、さ
もなければ、デルタ‐ケプストラル特徴を全く使わない
ことである。無音動作モードでは、これらの方法全て
は、図5に示されるのと同じ認識結果を与える。しかし
ながら、雑音の多いハンズフリーの車内環境での音声認
識の使用に際しては、上記方法を用いて生成する特徴ベ
クトルは他の切り取りベクトルおよびケプストラル特徴
のみのベクトルより極めて優れた特性を発揮する。
【0031】発音のフレームをモデルの状態へ応用する
技術の例がこの出願と共にJeffreyArthur Meunier et a
l.により1999年2月23日に米国に出願され、出願番号09/
257,552である「Method of trackback matrix storage
in spech recogniction system」、およびこの出願と共
にDaniel Poppertにより米国に出願され、社内番号CS10
104である「Method of selectively assigning a penal
ty to a probabilityassociated with a voice recogni
tion system」に開示されており、本明細書の参考とし
てここに含められる。
【0032】音声認識およびトレーニングの使用に際し
価値を生み出す新規の特徴ベクトルが開示され、これは
短い特徴ベクトル長で良好な性能を達成する。より小さ
な特徴セットはMIPSの数を減少させ、かつ音声認識
プロセスを支援するために必要とされるメモリのサイズ
を小さくさせる。
【0033】上記記述および図面に本発明が開示され図
示されたが、この記述は単に例であり、多くの変更修正
が当業者によって本発明の真の精神および範囲を逸脱し
ないで成され得るであろう。本発明は、セルラ電話のよ
うな携帯無線装置に特に応用したが、音声認識を使用す
る装置、例えばページャ、電子オーガナイザ、コンピュ
ータ、電話装置に応用することができる。
【図面の簡単な説明】
【図1】無線通信装置を示す回路ブロック図である。
【図2】音声認識入力を示す回路ブロック図である。
【図3】特徴抽出回路の機能ブロック図である。
【図4】特徴抽出アルゴリズムを表わすフローチャート
である。
【図5】ベクトル長を減らす異なる方法を用いる音声認
識システムの性能を示すチャートである。
【符号の説明】
100:装置 102:送信機 104:受信機 106:アンテナ 108:呼プロセッサ 110,122:メモリ 112:オーディオ回路 114:マイクロフォン 116:スピーカ 120:表示プロセッサ 124:キー 126:表示 202:アナログ−デジタル変換器 204:特徴抽出 206:音声認識 207:トレーニング 208:メモリ 301:フィルタ 302:ノイズ抑圧器 303:フィルタ・バンク 304:ケプストラル係数計算機 305:微分回路 306:連結器 307:抽出器

Claims (8)

    【特許請求の範囲】
  1. 【請求項1】 デジタル化した信号を入力する段階;前
    記デジタル化した信号(204)から代表係数を生成する
    段階;前記代表係数(304,305)から微分係数を生成す
    る段階;および前記代表係数および前記微分係数の一部
    を選択的に用いる段階;から構成されることを特徴とす
    る音声認識システムに用いられる特徴を抽出する方法。
  2. 【請求項2】 前記代表係数を生成する段階は、ケプス
    トラル係数を生成する段階を含むことを特徴とする請求
    項1記載の方法。
  3. 【請求項3】 前記微分係数を生成する段階は、デルタ
    ・ケプストラル係数を生成する段階を含むことを特徴と
    する請求項2記載の方法。
  4. 【請求項4】 前記ケプストラル特徴は第1の出力であ
    り、デルタ・ケプストラル特徴は第2の出力であること
    を特徴とする請求項3記載の方法。
  5. 【請求項5】 1つおきの代表係数が特徴ベクトルに使
    用されることを特徴とする請求項1記載の方法。
  6. 【請求項6】 1つおきの微分係数が特徴ベクトルに使
    用されることを特徴とする請求項5記載の方法。
  7. 【請求項7】 ケプストラル係数は周波数ケプストラル
    係数せあることを特徴とする請求項2記載の方法。
  8. 【請求項8】 前記音声認識システムは:可聴音を入力
    するマイクロフォン(114);前記マイクロフォンに結
    合され、デジタル信号を出力するアナログ‐デジタル変
    換器(202);前記アナログ‐デジタル変換器に結合さ
    れ、前記代表係数を生成する係数生成器(304);前記
    係数生成器に結合され、微分係数を生成する微分器(30
    5);および前記代表係数および前記微分係数を音声認
    識で使用する特徴ベクトルとして出力する抽出器(30
    7);から構成される無線通信装置に含まれることを含
    むことを特徴とする請求項1記載の方法。
JP2000036104A 1999-02-23 2000-02-15 音声認識システムにおいて特徴を抽出する方法 Expired - Lifetime JP4912518B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US256280 1999-02-23
US09/256,280 US6182036B1 (en) 1999-02-23 1999-02-23 Method of extracting features in a voice recognition system

Publications (2)

Publication Number Publication Date
JP2000250576A true JP2000250576A (ja) 2000-09-14
JP4912518B2 JP4912518B2 (ja) 2012-04-11

Family

ID=22971643

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000036104A Expired - Lifetime JP4912518B2 (ja) 1999-02-23 2000-02-15 音声認識システムにおいて特徴を抽出する方法

Country Status (5)

Country Link
US (1) US6182036B1 (ja)
JP (1) JP4912518B2 (ja)
KR (1) KR100321464B1 (ja)
CN (1) CN1132147C (ja)
GB (1) GB2347775B (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11738898B2 (en) 2017-05-05 2023-08-29 Storopack Hans Reichenecker Gmbh Device and method for cushioning at least one object in a container

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9076448B2 (en) * 1999-11-12 2015-07-07 Nuance Communications, Inc. Distributed real time speech recognition system
US8290768B1 (en) 2000-06-21 2012-10-16 International Business Machines Corporation System and method for determining a set of attributes based on content of communications
US9699129B1 (en) 2000-06-21 2017-07-04 International Business Machines Corporation System and method for increasing email productivity
US6408277B1 (en) 2000-06-21 2002-06-18 Banter Limited System and method for automatic task prioritization
JP3877270B2 (ja) * 2000-07-12 2007-02-07 アルパイン株式会社 音声特徴量抽出装置
US20020065649A1 (en) * 2000-08-25 2002-05-30 Yoon Kim Mel-frequency linear prediction speech recognition apparatus and method
US7644057B2 (en) * 2001-01-03 2010-01-05 International Business Machines Corporation System and method for electronic communication management
US6633839B2 (en) * 2001-02-02 2003-10-14 Motorola, Inc. Method and apparatus for speech reconstruction in a distributed speech recognition system
US20020178004A1 (en) * 2001-05-23 2002-11-28 Chienchung Chang Method and apparatus for voice recognition
ES2190342B1 (es) * 2001-06-25 2004-11-16 Universitat Pompeu Fabra Metodo para identificacion de secuencias de audio.
US8495002B2 (en) * 2003-05-06 2013-07-23 International Business Machines Corporation Software tool for training and testing a knowledge base
US20050187913A1 (en) 2003-05-06 2005-08-25 Yoram Nelken Web-based customer service interface
US20060271368A1 (en) * 2005-05-25 2006-11-30 Yishay Carmiel Voice interface for consumer products
CN101165779B (zh) * 2006-10-20 2010-06-02 索尼株式会社 信息处理装置和方法、程序及记录介质
US20100057452A1 (en) * 2008-08-28 2010-03-04 Microsoft Corporation Speech interfaces
EP2328363B1 (en) * 2009-09-11 2016-05-18 Starkey Laboratories, Inc. Sound classification system for hearing aids
WO2011052191A1 (ja) * 2009-10-26 2011-05-05 パナソニック株式会社 トーン判定装置およびトーン判定方法
US8719019B2 (en) * 2011-04-25 2014-05-06 Microsoft Corporation Speaker identification
US20160283864A1 (en) * 2015-03-27 2016-09-29 Qualcomm Incorporated Sequential image sampling and storage of fine-tuned features
CN108154883A (zh) * 2018-03-23 2018-06-12 南昌航空大学 一种具备语音控制功能的密集架管理系统
CN108694951B (zh) * 2018-05-22 2020-05-22 华南理工大学 一种基于多流分层融合变换特征和长短时记忆网络的说话人辨识方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61177494A (ja) * 1985-01-30 1986-08-09 ノーザン・テレコム・リミテッド 音声認識装置
JPH03145167A (ja) * 1989-10-31 1991-06-20 Nec Corp 音声認識方式
JPH07160287A (ja) * 1993-12-10 1995-06-23 Nec Corp 標準パターン作成装置
JPH09245125A (ja) * 1996-03-06 1997-09-19 Toshiba Corp パターン認識装置及び同装置における辞書修正方法
JPH10149190A (ja) * 1996-11-19 1998-06-02 Matsushita Electric Ind Co Ltd 音声認識方法及び音声認識装置
WO1998043237A1 (en) * 1997-03-25 1998-10-01 The Secretary Of State For Defence Recognition system

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5097509A (en) * 1990-03-28 1992-03-17 Northern Telecom Limited Rejection method for speech recognition
US6029124A (en) * 1997-02-21 2000-02-22 Dragon Systems, Inc. Sequential, nonparametric speech recognition and speaker identification

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61177494A (ja) * 1985-01-30 1986-08-09 ノーザン・テレコム・リミテッド 音声認識装置
JPH03145167A (ja) * 1989-10-31 1991-06-20 Nec Corp 音声認識方式
JPH07160287A (ja) * 1993-12-10 1995-06-23 Nec Corp 標準パターン作成装置
JPH09245125A (ja) * 1996-03-06 1997-09-19 Toshiba Corp パターン認識装置及び同装置における辞書修正方法
JPH10149190A (ja) * 1996-11-19 1998-06-02 Matsushita Electric Ind Co Ltd 音声認識方法及び音声認識装置
WO1998043237A1 (en) * 1997-03-25 1998-10-01 The Secretary Of State For Defence Recognition system

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11738898B2 (en) 2017-05-05 2023-08-29 Storopack Hans Reichenecker Gmbh Device and method for cushioning at least one object in a container

Also Published As

Publication number Publication date
GB2347775B (en) 2001-08-08
KR20000071366A (ko) 2000-11-25
GB0003949D0 (en) 2000-04-12
CN1132147C (zh) 2003-12-24
CN1264889A (zh) 2000-08-30
US6182036B1 (en) 2001-01-30
KR100321464B1 (ko) 2002-03-18
JP4912518B2 (ja) 2012-04-11
GB2347775A (en) 2000-09-13

Similar Documents

Publication Publication Date Title
JP4912518B2 (ja) 音声認識システムにおいて特徴を抽出する方法
US7630878B2 (en) Speech recognition with language-dependent model vectors
JP4607334B2 (ja) 分散された音声認識システム
JP3836815B2 (ja) 音声認識装置、音声認識方法、該音声認識方法をコンピュータに対して実行させるためのコンピュータ実行可能なプログラムおよび記憶媒体
JP2692581B2 (ja) 音響カテゴリ平均値計算装置及び適応化装置
EP1220197A2 (en) Speech recognition method and system
US20020178004A1 (en) Method and apparatus for voice recognition
JP2000507714A (ja) 言語処理
WO1999040571A1 (en) System and method for noise-compensated speech recognition
KR20080107376A (ko) 화자 독립 음성 인식을 구비한 통신 장치
CN113571047B (zh) 一种音频数据的处理方法、装置及设备
Deligne et al. A robust high accuracy speech recognition system for mobile applications
US20050010406A1 (en) Speech recognition apparatus, method and computer program product
JP6373621B2 (ja) 話し方評価装置、話し方評価方法、プログラム
JP2012168296A (ja) 音声による抑圧状態検出装置およびプログラム
JPH10149191A (ja) モデル適応方法、装置およびその記憶媒体
JP4461557B2 (ja) 音声認識方法および音声認識装置
JP2003044078A (ja) 発声速度正規化分析を用いた音声認識装置
JP5104732B2 (ja) 拡張認識辞書学習装置、これを用いた音声認識システム、その方法及びそのプログラム
JP3868798B2 (ja) 音声認識装置
JPH09198084A (ja) モデル更新を伴う話者認識方法及びその装置
JP3036706B2 (ja) 音声認識方法
Bonde et al. Noise robust automatic speech recognition with adaptive quantile based noise estimation and speech band emphasizing filter bank
Setiawan Exploration and optimization of noise reduction algorithms for speech recognition in embedded devices
JP2006235298A (ja) 音声認識ネットワーク生成方法、音声認識装置及びそのプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070214

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20070214

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20080708

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20091104

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20100204

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20100209

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20100304

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20100309

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20100402

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20100407

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100506

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110329

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20110531

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20110629

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20110721

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20110729

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110901

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20110906

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110928

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20111220

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120118

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 4912518

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150127

Year of fee payment: 3

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150127

Year of fee payment: 3

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

EXPY Cancellation because of completion of term