JPH05181494A - 音声パターンの識別装置と方法 - Google Patents

音声パターンの識別装置と方法

Info

Publication number
JPH05181494A
JPH05181494A JP4150307A JP15030792A JPH05181494A JP H05181494 A JPH05181494 A JP H05181494A JP 4150307 A JP4150307 A JP 4150307A JP 15030792 A JP15030792 A JP 15030792A JP H05181494 A JPH05181494 A JP H05181494A
Authority
JP
Japan
Prior art keywords
word
anchor
pattern
input utterance
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP4150307A
Other languages
English (en)
Inventor
Basavaraj I Pawate
アイ パワテ バサヴァライ
George R Doddington
アール ドッディングトン ジョージ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Texas Instruments Inc
Original Assignee
Texas Instruments Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Texas Instruments Inc filed Critical Texas Instruments Inc
Publication of JPH05181494A publication Critical patent/JPH05181494A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/87Detection of discrete points within a voice signal

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephonic Communication Services (AREA)

Abstract

(57)【要約】 (修正有) 【構成】入力音声はトランスデューサ140,A/D変
換器141を経て,ディジタル信号に変換,プロセッサ
142にディジタル入力し,該入力をモデルのデータベ
ース143に記憶された話者と関係ない音声モデルと比
較し,単語の境界を識別する,プロセッサ142は,識
別された話者により決まる単語を登録された単語のデー
タベース144に記憶する。発声識別で,プロセッサは
登録単語のデータベースとモデルのデータベースの単語
を入力音声と比較,プロセッサが入力音声と登録単語デ
ータベース及び,モデルのデータベースの単語を比較
後,プロセッサ命令は周辺装置のインターフェース14
5でディジタルかアナログ信号を周辺装置146に送
る。 【効果】本発明の一つの特徴は,一つの音声パターンに
ついて,一つ以上の境界を識別すること及び単語の境界
が正確に識別される。このような特徴の利点により,一
つの入力発声内の音声パターンが正確に識別される。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、一般的に音声処理の方
法と装置に関し、更に詳しくは、音声のパターンを識別
する方法と装置に関する。
【0002】
【従来の技術】音声識別システムは、電話サービスのよ
うな種々の用途で益々使用され、電話サービスの場合話
者は口頭で電話に特定の相手を呼び出せように命令す
る。これらのシステムでは、電話の顧客は、特定の電話
番号と相手先に対応する言葉を登録することができる。
その結果、この顧客が登録された言葉を発音すると、対
応する電話番号が自動的にダイヤルされる。代表的な登
録の場合、入力された発声を細分化し、単語の境界を識
別し、識別された単語を登録して単語のモデルを作成
し、この単語のモデルをその後に入力された発声と比較
することができる。その後に音声を識別する場合、入力
された発声を登録された単語と比較する。話者によって
決まるアプローチの場合、入力された音声は同じ話者の
登録した単語と比較される。話者と関係のないアプロー
チの場合、入力された音声は全ての話者と対応するよう
に登録された単語と比較される。
【0003】
【発明が解決しようとする課題】多くの従来技術による
システムでは、ノイズが1つの単語の部分として間違て
含まれている。音声の登録及び識別システムの他の主要
な問題は、1つの単語の部分をノイズであるとして誤っ
て分類することである。代表的な登録と音声識別に対す
るアプローチは、単語の境界を識別し、入力された発声
を複数の単語に細分化する第1次的な手段としてフレー
ム・エネルギーを使用している。しかし、このフレーム
・エネルギーによるアプローチでは、1つの単語のエネ
ルギーの低い部分がしばしば除外される。従って、複数
の単語が不正確に記述され、その結果識別に問題が生じ
る。更に、フレーム・エネルギーを基礎とするシステム
では、全ての単語を一般的に区切って話さなければなら
ず、このことはもし幾くつかの単語または句を登録する
かまたは識別しなければならない場合には、望ましくな
い。例えその後に行われる音声識別プロセスでフレーム
・エネルギーを使用しないで複数の単語を区切ったとし
ても、音声識別の精度は、一般的にはフレーム・エネル
ギーによって決まる以前に行った音声登録の精度によっ
て決まることになる。
【0004】従って、音声パターンを識別するための正
確な方法と装置に対する必要性がある。
【0005】
【課題を解決するための手段】本発明の1つの特徴によ
れば、1つの入力発声内の1つの音声パターンについ
て、1つ以上の境界を識別する方法と装置が提供され
る。この入力発声のアンカー・セクションは、複数のア
ンカー・パターンの少なくとも1つに対応するものとし
て識別される。この音声パターンの境界は、このアンカ
ー・セクションに基づいて定義される。
【0006】本発明のこのような特徴の技術的な利点
は、単語の境界が正確に識別されることである。 本発
明の第2の特徴によれば、1つの入力発声内の1つの音
声パターンを識別する方法と装置が提供される。1つ以
上のセグメント・パターンが識別され、入力発声が受信
される。このセグメント・パターンに対応する入力発声
の複数の部分が識別される。入力発声の1つ以上のセグ
メントは、識別された部分に応答して定義される。 本
発明のこのような特徴の技術的な利点は、1つの入力発
声内の音声パターンが正確に識別されることである。
【0007】
【実施例】本発明及びその利点をより完全に理解するた
め、添付図と共に下記の説明を参照する。本発明の好適
な実施例とその利点は、図1ないし7を参照することに
よって最もよく理解され、ここで各図の同一または対応
する部分には同一の参照番号を使用する。
【0008】図1は、単語の境界を識別する主要な手段
としてフレーム・エネルギーを使用する音声登録及び識
別システムを示す。図1において、グラフはフレーム・
エネルギーと入力発声の時間との対応を示す。ノイズ・
レベルのしきい値100は、フレーム・エネルギーに基
づいて単語の境界を識別するために設けられたものであ
る。しきい値100以下のエネルギー・レベルはノイズ
として無視される。フレーム・エネルギーによるアプロ
ーチの場合、単語の境界は、フレーム・エネルギーの曲
線102がノイズ・レベルのしきい値100と交わる点
で区切られる。従って、単語1は交点104と106に
よって境界が設けられる。単語2は交点108と110
によって境界が設けられる。
【0009】入力発声の単語の真の境界がエネルギー曲
線102がノイズ・レベルのしきい値100と交わる点
によって識別された単語の境界と異なる場合が、しばし
ば発生する。例えば、単語1の真の境界は点112と1
14に位置している。単語2の真の境界は、点116と
118に位置している。斜線で示す部分120と122
のようなエネルギー曲線102の部分は、特に1つの単
語に誤って含まれたり、この1つの単語から誤って排除
されたりする可能性がある。
【0010】その結果、単語1は点112と114に真
の境界を有しているが、曲線102の斜線の部分120
と124がこの音声システムによって単語1から誤って
除外されており、これは、これらのフレーム・エネルギ
ーがノイズ・レベルのしきい値100以下であることに
起因するものである。同様に、斜線の部分126はフレ
ーム・エネルギーを基礎にする方法によって単語2から
誤って排除されている。斜線の部分122は誤って単語
2に含まれているが、この理由は、これがノイズ水準の
しきい値よりも若干高い位置にあるためである。従っ
て、入力発声の単語の境界を区切る主要な手段としてフ
レーム・エネルギーを使用する場合に、重大な誤りの発
生することが分かる。
【0011】より精巧なフレーム・エネルギーに基づく
システムでは、フレーム・エネルギー曲線102によっ
て代表されるような入力発声は複数のフレームに細分化
され、各フレームは、一般的に20mm秒のフレーム・
エネルギー曲線によって構成される。次に、ノイズ・レ
ベルのしきい値100を個々のフレーム・ベースで調整
することが可能であり、その結果、入力発声の各フレー
ムを別個のノイズ・レベルのしきい値と関連させること
ができる。しかし、例えノイズ・レベルのしきい値10
0を個々のフレーム・ベースで調整した場合でも、1つ
の入力発声の複数のセクション(フレーム・エネルギー
曲線102によって表される)は、区切られた単語に誤
って含まれるか、またはこれから誤って除外される場合
がしばしば発生する。
【0012】図2は、アンカー・ワードを使用する本発
明の1実施例を示す。図2のグラフは、エネルギー曲線
130によって表される入力発声のエネルギーと時間の
対応を示す。アンカー・ワードによるアプローチの場
合、「呼び出せ」、「自宅」、または「事務所」のよう
な話者と関係のないアンカー・ワードが記憶され、後で
単語の登録またはこれに続いて行われる単語の識別の間
に使用され、単語の境界を区切る。例えば、単語の登録
の場合、話者は「呼び出せ」という単語を発音するよう
に促され、これに続いて登録すべき単語を発音する。こ
の話者と関係のないアンカー・ワード「呼び出せ」は、
次にこの話された入力発声と比較され、この話された単
語「呼び出せ」に対応するエネルギー曲線130のセク
ションを識別する。エネルギー曲線130の適当なセク
ションが単語「呼び出せ」に対応するものとして識別さ
れると、アンカー・ワードの終了点132は、エネルギ
ー曲線130の識別されたアンカー・ワードのセクショ
ンに基づいて設定される。図2に示すように、終了点1
32は、エネルギー曲線130の識別されたアンカー・
ワードのセクションの直近に設定される。しかし、終了
点132は、この終了点132をアンカー・ワードのセ
クションから指定された距離だけ離れた場所に位置させ
る等の他の方法によって、この識別されたアンカー・ワ
ードのセクションに基づいて設定してもよい。次に、終
了点132は、登録すべき単語(XWORD)の開始点
として使用する。登録すべきXWORDの終了点は、点
134に設定することができるが、この点134では、
通常のフレーム・エネルギーを基礎とする方法に従って
曲線130のエネルギー・レベルがノイズ・レベルのし
きい値136以下となる点である。
【0013】図3は、登録した単語XWORDの終了点
138をまた区切るためのアンカー・ワードの用途を示
す。話者は、登録すべき単語の後で単語「自宅」または
「事務所」を発音するように促される。図3では、アン
カー・ワード「自宅」が点138で始まるエネルギー曲
線130の部分と対応するものであると識別される。従
って、アンカー・ワード「呼び出せ」を使用してXWO
RDの開始点132を区切り、一方アンカー・ワード
「自宅」を使用してXWORDの終了点138を区切
る。アンカー・ワードによるアプローチでは、話者によ
って決まるアンカー・ワードまたは話者に適用されるア
ンカー・ワード、即ち「呼び出せ」、「自宅」及び「事
務所」をまた使用することができる。
【0014】図4は、この実施例を実行するための機能
ブロック図を示す。入力発声はトランスデューサ140
を介して伝えられ、このトランスデューサ140は電圧
信号をA/D変換器141に出力する。A/D変換器1
41はこの入力発声をデジタル信号に変換し、これらの
デジタル信号はプロセッサ142によって入力される。
プロセッサ142は、次にデジタル化された入力発声を
モデルのデータベース143に記憶されている話者と関
係のない音声モデルと比較して単語の境界を識別する。
単語は境界の間に存在するものとして識別される。発声
を登録する場合、プロセッサ142は、識別された話者
によって決まる単語を登録された単語のデータベース1
44に記憶する。
【0015】その後に行われる発声の識別では、プロッ
セサ142は登録された単語のデータベース144とモ
デルのデータベース143から単語を取り出し、次にこ
れらの取り出した単語をA/D変換器141から受け取
った入力発声と比較する。プロセッサ142が入力発声
と対応する登録された単語のデータベース144及びモ
デルのデータベース143内にある単語を識別した後、
このプロセッサ142は入力発声内の単語と関連する適
当な命令を識別する。これらの命令は、次にプロッセサ
142によってデジタル信号として周辺装置のインター
フェース145に送られる。周辺装置のインターフェー
ス145は、次に適当なデジタルまたはアナログ信号を
付属する周辺装置146に送る。
【0016】周辺装置のインターフェース145に与え
られる周辺装置の命令は、電話をダイヤルする命令また
は電話番号によって構成することができる。例えば、電
話の顧客は、プロセッサ142をプログラムして特定の
電話番号を話された単語XWORDと関連づけることが
できる。XWORDを登録するには、顧客は単語「呼び
出せ」を話し、次に登録すべきXWORDを話し、次に
「自宅を呼び出せ」(call mom home)と
いう意味で単語「自宅」を話す。プロセッサ142は、
これらの3つの単語の間の境界を識別し、これらの3つ
の単語を分離し、記憶するためにこれらの単語を登録単
語のデータベース144に供給する。その後に行われる
音声の識別では、電話の顧客は再び「自宅を呼び出せ」
と話す。プロセッサ142は次にこれらの3つの単語を
分離し、分離した単語を登録単語のデータベース144
とモデルのデータベース143から得たデータと相関さ
せ、これらの相関された単語を周辺装置のインターフェ
ース145に設けられている適当な電話番号と相関させ
る。
【0017】トランデューサ140は、入力発声からダ
イヤル命令を受け取る電話機と一体化してもよい。周辺
装置146は、入力発声によって指定された番号をダイ
ヤルする電話機のトーン発生器であってもよい。また
は、この周辺装置146は、中央電話局に設けられ、ト
ランデューサ140を介して受け取った入力発声によっ
て指定されたダイヤル番号に応じて動作することのでき
る交換器のコンピュータであってもよい。
【0018】図5は、音声識別システムで単語を登録す
るように構成された図4のプロセッサ142の代表的な
実施例を示す。デジタルの入力発声はA/D変換器14
1からフレーム・セグメンテータ151によって受け取
られる。フレーム・セグメンテータ151はこのデジタ
ル入力発声をフレームに分割し、各フレームは、例え
ば、20msの入力発声を表す。アンカー・ワード戦略
の場合、識別子152が入力発声をモデルのデータベー
ス143に記憶されたアンカー・ワードの音声モデルと
比較する。識別されたアンカー・ワードは、次に接続部
149上の制御装置150に供給される。以下で更に説
明するヌル戦略の場合、識別子152は、分割されたフ
レームを受け取り、各フレームを順にモデルのデータベ
ース143からのモデルのデータと比較し、次に入力発
声の識別されない部分を接続部149を介して制御装置
150に送る。識別子152は、また入力発声の識別さ
れた部分を接続部148を介して制御装置150に送
る。
【0019】接続部148と149の識別子152から
受け取ったデータに基づき、制御装置150は接続部1
57を使用して識別子152が関係しているモデルのデ
ータベース143からの特定のモデルのデータを指定す
る。制御装置150は、また接続部147を使用して特
定のモデルのデータがデジタル入力発声内に存在してい
る確率を指定し、これによって識別子152が指定され
たモデルのデータの認識を支持するように命令する。接
続部148と140を介して識別子152から受け取っ
たデータに基づき、制御装置150は、登録された単語
のデータを登録された単語のデータベース144に対し
て指定する。
【0020】アンカー・ワード戦略の場合、制御装置1
50は、識別されたアンカー・ワードを使用して単語の
境界を識別する。もしフレーム・エネルギーを利用して
別の単語の境界を識別するなら、次に制御装置150も
また入力発声を分析し、図1と2と関連して上で更に説
明したように、フレーム・エネルギー曲線がノイズ・レ
ベルのしきい値と交差する点を識別する。
【0021】識別子152から受け取った単語の境界に
基づき、かつ更にオプションとしてデジタル入力発声の
フレーム・エネルギーの水準に基づいて、制御装置15
0は、図2と3と関連して上で更に説明したように、入
力発声の単語を分離する。音声を登録する場合、これら
の分離された単語は、次に登録された単語のデータベー
ス144に記憶される。
【0022】図4と5のプロセッサ142をまた使用し
て登録のために本発明のヌル戦略を実行することができ
る。ヌル戦略の場合、モデルのデータベース143から
のモデルのデータは、沈黙、息の吸い込み、息の吐き出
し、唇を鳴らす音、適用可能なチャンネルのノイズ及び
その他の識別可能なノイズであって、1つの単語の部分
ではないが識別することのできるノイズのモデルによっ
て構成される。入力発声内のこれらの種類のノイズは識
別子152によって識別され、接続部148の制御装置
150に供給される。制御装置150は次に入力発声の
部分を識別されたノイズから分離し、これらの分離され
た部分を次に登録された単語のデータベース144に記
憶することができる。
【0023】図6は、6つ状態を有するヌル戦略の「隠
れたマルコフ・モデルを基礎とする」(HMM)の状態
図を示す。隠れたマルコフ・モデルは、L.R.ラビナ
ー、J.G.ウイルポン及びB.H.ジャングによって
「コンピュータ・スピーチ及びランゲージ」、第1巻、
167〜197、1986の「隠れたマルコフ・モデル
またはテンプレートを使用するモデルを基礎にした連が
っている数字の識別システム」で説明されている。ノー
ド153は沈黙、息の吸い込みまたは唇で鳴らす音のよ
うな状態の間連続してループを形成する(F_BGで示
す)。「呼び出せ」のような単語を話すと、状態153
を離れ(何故なら、ここで話した発声はモデルのデータ
から識別されないため)フローはノード154に進む。
ノード153を使用することは任意であり、その結果、
他の実施例では動作をノード154で直ちに開始しても
よい。また、他の代替実施例では、単語「呼び出せ」を
「ダイヤルせよ」のような他の命令語と取り替えてもよ
い。ノード154では、XWORDが入力されて記憶さ
れ、この場合、制御のフローはノード155に進む。ま
たは、単語「呼び出せ」の次に短い沈黙(I_BG)が
続いてもよく、この場合、制御の流れはノード156に
進む。ノード156では、XWORDを受け取って記憶
し、制御の流れはノード155に進む。息の吐き出しま
たは沈黙がある限り(E_BGで示す)、ノード155
は連続してループを形成する。息の吐き出しも沈黙もノ
ード155に存在しない場合、もしXWORDが直ちに
現れれば、制御の流れはノード158に進み、これによ
ってXWORDが記憶される。または、もしXWORD
の前に短い沈黙(I_BG)があれば、次に制御の流れ
はノード160に進む。ノード160では、XWORD
が受け取られて記憶され、制御の流れはノード158に
進む。息の吐き出しまたは沈黙がある間、次にノード1
58は連続してループを形成する。登録にヌル戦略を使
用することにより、種々の数のXWORDを登録するこ
とが可能になり、その結果、話者は特定の登録の期間中
に1つ以上の単語を選択して登録することが可能にな
る。I‐BGとE‐BGは、適用されたチャンネルのノ
イズ、息の吸い込みまたは唇で鳴らす音のような別の種
類のノイズのモデルをオプションとして表すこができ
る。
【0024】図7aーeは、好適な実施例のヌル戦略で
使用するフレーム毎の分析を示す。図7aは、入力発声
内の3つの分離した単語の開始点と終了点を手動で決定
する場合を示す。図7aに示すように、単語「cal
l」はフレーム24(時間=24x20ms)で始ま
り、フレーム75で終了する。単語「Edith」はフ
レーム78で始まりフレーム118で終了する。単語
「Godfrey」はフレーム125で始まりフレーム
186で終了する。
【0025】図7bーeに於いて、各入力発声の各フレ
ーム(20ms)は別個の分析され、データベースに記
憶されたモデルと比較された。このようなモデルの例
は、息の吸い込み、唇で出す音、沈黙、息の吐き出し、
及び例えば、20msと400msの間の持続時間中の
短い沈黙を含む。各フレームは、これらのモデルの1つ
と一致するか一致しないかのいずれかである。変数の識
別インデックス(N)を設定することが可能であり、各
識別したフレームは、指定された識別インデックス
(N)と一致するまたはこれを超える特定のモデルに対
して識別スコアを達成することを要求される。識別スコ
アの決定は、ドディントン他による「隠れたマルコフ・
モデルによる音声識別のための効果的なプルーニング・
アルゴリズム」という名称の米国特許番号第4,97
7,598号で更に説明され、これはここに参考として
含まれている。
【0026】図7bではN=2の識別インデックスを設
定する。図示のように、フレーム1‐21は、息の吸い
込み(「Inhale」)と沈黙(「S」)のモデルと
十分相関したが、フレーム22‐70は、これらのモデ
ルと比較した場合、十分識別されなかった。同様に、フ
レーム70‐120はN=2の識別インデックスを満足
程には十分識別されなかった。その結果、フレーム71
‐120はXWORDであるとして認識され、この場
合、XWORDは「Edith」である。
【0027】フレーム70と71の間の別個の単語の区
切りは、図2〜5と関連して上で更に説明したアンカー
・ワード戦略に従ってフレーム22‐120内のアンカ
ー・ワード「呼び出せ」を識別することによって行われ
る。しかし、ヌル戦略は、アンカー・ワードの使用を必
要としない。事実、ヌル戦略は、識別したノイズ・フレ
ーム121を、音声モデルと比較した場合、識別インデ
ックスN=2を満足する沈黙であるとして識別すること
により、XWORD「Edith」と「Godfre
y」の間の境界を区別することに成功する。フレーム1
21は単語の境界として識別されるが、その理由は、も
しこれを単語の境界として識別しなければ、これは非識
別フレームの連続したチェーンを分離するからである。
更に、非識別フレームの連続したチェーンをXWORD
として識別する前に、ヌル戦略を実行して最小数の連続
した非識別フレームを要求することができる。フレーム
122〜180は識別されず、従ってXWORDとして
識別され、この場合、これは「Godfrey」であ
る。フレーム181から前方は沈黙として識別される。
【0028】図7bーeの場合、「call」と「Ed
ith」を区切るためにアンカー・ワード分析を使用せ
ず、句「call Edith」を登録の間1つの単語
として記憶する。この問題は、XWORDの前に命令語
(例えば「呼び出せ」)を付けることなく、話者にすぐ
にXWORD(例えば、「Edith」)を話すように
促すことによって解決することができる。その結果、ヌ
ル戦略はアンカー・ワードの使用を必要としない。
【0029】図7cーeは、別の識別インデックスを使
用した場合の比較を示す。図示のように、図7cの識別
インデックスN=1.5を使用すると、3つの単語「c
all」、「Edith」及び「Godfrey」の始
点と終点のフレームの区切りは、図7aの手動で区切っ
た境界と比較した場合、より密接に一致しているように
見える。
【0030】図7eは非常に厳格な識別インデックス
0.5を使用する場合を示し、上記のモデルと比較する
とこの場合にはフレームを識別する前により強力な類似
性が必要になる。例えば、フレーム121はノイズでは
なくて1つの単語の一部として誤って分類されている
が、この理由は、識別インデックスとしてN=0.5を
使用する音声モデルと比較した場合、フレーム121は
もはや沈黙として識別されていないからである。更に、
より厳格なインデックスN=0.5のため、単語「呼び
出せ」はフレーム22〜48に対応するものとしてのみ
識別され(図7b、cに示すようにフレーム22〜70
に対応するものではなく)、この結果、またフレーム1
07〜117は今までと違って沈黙(「S」)として分
類されているが、この理由は、「Edith」の摩擦子
音「th」の部分がもはやフレーム107〜120に対
応するものとして識別されていないからである。
【0031】逆に、識別インデックス(N)は過度に緩
やかになり、これによって分析されたフレームと言語モ
デルの間により低い程度の類似性を要求するものであっ
てはならないが、この理由は、単語の部分が間違ってノ
イズとして識別される可能性があり、従って、登録され
たXWORDの部分から間違って除外されることになる
からである。
【0032】上述のアプローチと比較して、1つの単語
のようになって流れるのが容易な複数の単語を処理する
場合、呼吸またはチャネル・スタティック(chann
elstatic)のいずれかによる高いノイズを処理
する場合、及び単語「six」の「X」または文字
「S」の「sue」の語のようなエネルギーの低い摩擦
子音の部分を有する単語を処理する場合には、ヌル戦略
は、特にアンカー・ワードと組み合わせると、非常に多
くの利点を有している。単語の摩擦子音の部分は特定の
単語の始点と終点の区切りを混乱させ、かつ摩擦子音の
部分自身もしばしばノイズとして誤って分類される。し
かし、好適な実施例のヌル戦略は多くの摩擦子音の部分
を登録された単語の部分として分類することに成功し、
またこれらを適切に分類するが、その理由は、沈黙、息
の吸い込み、息の吐き出し及び唇で出す音のような場
合、摩擦子音の部分は通常ヌル戦略のノイズ・モデルと
相関しないからである。
【0033】好適な実施例のヌル戦略は、一連のものと
して流れ正確に区分することができない入力発声内の複
数の単語を分類することに成功する。従って、ヌル戦略
は長い休止を必要としないため、より多数の単語をより
短時間に登録することとが可能になる。アンカー・ワー
ドによるアプローチまたはヌル戦略によるアプローチ
は、各々音声システムに対する隠されたマルコフ・モデ
ルまたはダイナミック・タイム・ワーピング(DTW)
と組み合わせて使用することができる。
【0034】1つの音声識別試験では、フレーム・エネ
ルギーを基礎にする登録戦略では100個の単語を登録
する毎に約11個の識別エラーが発生した、同じ試験
で、ヌル戦略で登録にアプローチした場合には、100
個の単語を登録する毎にわずか約3個の識別エラーしか
発生しなかった。その結果、好適な実施例のヌル戦略
は、従来技術に対する実質的な改善を提供するものであ
る。
【0035】
【発明の効果】好適な実施例の種々の重要な特徴を下記
のように要約する。入力発声内の音声パターンの1つ以
上の境界を識別する装置が示され、この装置は、1つ以
上のアンカー・パターンを定義する回路、上記の入力発
声を受け取る回路、上記の入力発声のアンカー・セクシ
ョンを識別する回路であって、上記のアンカー・セクシ
ョンは上記のアンカー・パターンの少なくとも1つに対
応する上記の回路、及び上記のアンカー・セクションに
基づいて上記の発声パターンの1つの境界を定義する回
路を有する。上記の境界定義回路は、アンカー・セクシ
ョンの端部で音声パターンの開始境界を定義する回路を
有することができる。このような装置はまたエネルギー
・レベルが所定のレベル以下である入力発声の1つの点
で音声パターンの停止境界を定義する回路を有すること
ができる。上記の定義回路は、また上記のアンカー・セ
クションの始点における音声パターンの停止境界を定義
する回路を有することができる。この装置は、またエネ
ルギー・レベルが所定のレベル以上である入力発声の1
つの点で音声パターンの開始境界を定義する回路、音声
パターンを話す前に話者に少なくとも所定の1つのアン
カー・パターンを話すように促す回路、または上記の音
声パターンを話した後で少なくとも所定の1つのアンカ
ー・パターンを話すように話者を促す回路によって構成
されることができる。アンカー・パターン定義回路は、
また1つ以上の話者と関係のないアンカー・パターンを
定義する回路を有することができる。この装置は、また
以前に記憶した音声パターンとの比較によって音声パタ
ーンを識別する回路を有することが可能であり、この場
合、このような音声パターンは話者によって決まる音声
パターンである。入力発声内の音声パターンの1つ以上
の境界を識別するこの装置は、識別された言語パターン
に応答する装置を制御する回路によって更に構成され
る。 入力発声内の音声パターンを識別する装置が示さ
れ、この装置は1つ以上のセグメント・パターンを識別
する回路、入力発声を受け取る回路、上記のセグメント
・パターンに対応する上記の入力発声の部分を識別する
回路、及び上記の識別した部分に応答する上記の入力発
声の1つ以上のセグメントを定義する回路を有する。こ
れらのセグメント・パターンは、唇からでる音のノイズ
・パターン、沈黙のパターン、息を吸い込むノイズのパ
ターン、息を吐き出す場合のノイズのパターン等のノイ
ズ・パターンによって構成することができる。入力発声
の上記の定義したセグメントは、上記のセグメント・パ
ターンに対応しない入力発声の部分によって構成される
ことができる。入力発声内の音声パターンを識別する上
記の装置は、各々が識別された部分の1つによって上記
の入力発声内で中断されない1つ以上のセグメントによ
って構成される1つ以上のセグメントのグループを定義
する回路によって更に構成され、上記の発声パターンを
1つ以上のセグメント・グループによって構成されるも
のとして定義する回路を更に有することができる。この
ような音声パターン定義回路は、また最小のサイズを有
することのできない全てのセグンメント・グループを上
記の音声パターンから排除する回路を有することができ
る。上記の識別回路は、また上記の入力発声の1つ以上
の要素を1つ以上の上記のセグメント・パターンと比較
する回路を有することができる。上記のセグメント・パ
ターン定義回路は、隠されたマルコフ・モデルに基づい
て上記のセグメント・パターンをモデル化する回路を有
することができる。入力発声内の音声パターンを識別す
る上記の装置は、話者に入力発声を行うことを促す回路
を更に有し、上記のセグメント・パターン定義回路は、
話者と関係のない1つ以上のセグメント・パターンを設
定する回路を有することができる。このような装置は、
以前に記憶した音声パターンと比較することによって上
記の音声パターンを識別する回路によって更に構成され
ることが可能であり、以前に記憶した話者によって決ま
る音声パターンとの比較によって上記の音声パターンを
識別する回路によって更に構成されることができる。こ
のような装置は、識別された音声パターンに応答する装
置を制御する回路によって更に構成されることができ
る。
【0036】音声識別システム内の音声パターンを登録
するシステムが開示され、上記のシステムは、1つ以上
のアンカー・パターンを定義する回路、入力発声を受け
取る回路、上記の入力発声の1つ以上のアンカー・セク
ションを識別する回路であって上記のアンカー・セクシ
ョンは少なくとも1つのアンカー・パターンに対応する
上記の回路、上記の音声パターンの1つ以上の境界を上
記の入力発声内のアンカー・セクションに隣接するもの
として定義する回路、及び上記の音声パターンを記憶す
る回路を有する。上記の境界定義回路は、上記のアンカ
ー・セクションの端部における音声パターンの開始境界
を定義する回路によって構成されることが可能であり、
更にエネルギー・レベルが所定のレベル以下である上記
の入力発声内の1つの点で上記の音声パターンの停止境
界を定義する回路によって構成されることが可能であ
る。上記の定義回路は、上記のアンカー・セクションの
始点で上記の音声パターンの停止境界を定義する回路を
有するこができる。音声識別システム内の音声パターン
を登録する上記のシステムは、エネルギー・レベルが所
定のレベル以上である上記の入力発声の1つの点で上記
の発声パターンの開始境界を定義する回路によって更に
構成されることができる。
【0037】音声識別システム内で音声パターンを登録
するシステムが示され、上記のシステムは1つ以上のセ
グメント・パターンを定義する回路、入力発声を受け取
る回路、上記の入力発声の1つ以上のセグメントを定義
する回路であって、上記の定義されたセグメントは上記
のセグメント・パターンに対応しない上記の入力発声の
部分によって構成される上記の回路、上記の音声パター
ンを1つ以上の上記のセグメントによって構成されるも
のとして定義する回路、及び上記の音声パターンを記憶
する回路によって構成される。このようなシステムは、
各々が上記の識別された部分の1つによって上記の入力
発声内で中断されない1つ以上のセグメントによって構
成される1つ以上のセグメント・グループを定義する回
路によって更に構成されることが可能であり、上記の音
声パターンを1つ以上の上記のセグメント・グループに
よって構成されるものとして定義する回路によって更に
構成されることが可能である。このような音声パターン
定義回路は、また最小のサイズを有さない全てのセグメ
ント・グループを上記の音声パターンから排除する回路
を有することができる。
【0038】音声パターンに応答する装置を制御するシ
ステムが示され、上記のシステムは、1つ以上のセグメ
ント・パターンを定義する回路、入力発声を受け取る回
路、入力発声の1つ以上のセグメントを定義する回路で
あって、上記の定義されたセグメントは上記のセグメン
ト・パターンに対応しない上記の入力発声の部分によっ
て構成される上記の回路、1つ以上の上記のセグメント
によって構成されるものとして上記の音声パターンを定
義する回路、及び上記の音声パターンを上記の装置の機
能と関連させる回路を有する。このようなシステムは、
各々が上記の識別された部分の1つによって上記の入力
発声内で中断されない1つ以上のセグメントによって構
成される1つ以上のセグメント・グループを定義する回
路によって更に構成されることが可能であり、また上記
の1つ以上のセグメント・グループによって構成される
ものとして上記の音声パターンを定義する回路を有する
ことができる。上記の音声パターン定義回路は、また最
小のサイズを有さない全てのセグメント・グループを上
記の音声パターンから排除する回路を有することができ
る。
【0039】本発明とその利点を詳細に説明したが、種
々の変更、代替及び入れ替えを添付の請求の範囲で定義
する本発明の精神と範囲から逸脱することなく行うこと
が可能であることを理解しなければならない。以上の記
載に関連して、以下の各項を開示する。 1.入力発声内の音声パターンの1つ以上の境界を識別
する方法に於いて、上記の方法は:1つ以上のアンカー
・パターンを定義するステップ;上記の入力発声を受け
取るステップ;上記の入力発声のアンカー・セクション
を識別するステップであって、上記のアンカー・セクシ
ョンは少なくとも1つの上記のアンカー・パターンに対
応する上記のステップ;及び上記のアンカー・セクショ
ンに基づいて上記の音声パターンの1つの境界を定義す
るステップ;によって構成されることを特徴とする方
法。
【0040】2.上記の境界を定義するステップは、上
記のアンカー・セクションの端部で上記の音声パターン
の開始境界を定義するステップによって構成されること
を特徴とする前記項1記載の方法。 3.エネルギー・レベルが所定のレベル以下である上記
の入力発声の1つの点で上記の音声パターンの停止境界
を定義するステップによって更に構成されることを特徴
とする前記項2記載の方法。
【0041】4.上記の定義ステップは、上記のアンカ
ー・セクションの始点で上記の音声パターンの停止境界
を定義するステップによって構成されることを特徴とす
る前記項1記載の方法。 5.エネルギー・レベルが所定のレベル以上である上記
の入力発声の1つの点で上記の音声パターンの開始境界
を定義するステップによって更に構成されることを特徴
とする前記項1記載の方法。
【0042】6.上記の音声パターンを話す前に、話者
に上記のアンカー・パターンの少なくとも所定の1つを
発声するように促すステップによって更に構成されるこ
とを特徴とする前記項1記載の方法。 7.上記の音声パターンを話した後で、話者に上記のア
ンカー・パターンの少なくとも所定の1つを発声するよ
うに促すステップによって更に構成されることを特徴と
する前記項1記載の方法。
【0043】8.上記のアンカー・パターンを定義する
ステップは、話者と関係のない1つ以上のアンカー・パ
ターンを定義するステップによって構成されることを特
徴とする前記項1記載の方法。 9.入力発声内の音声パターンを識別する方法に於い
て、上記の方法は:1つ以上のセグメント・パターンを
定義するステップ;入力発声を受け取るステップ;上記
のセグメント・パターンに対応する上記の入力発声の部
分を識別するステップ;及び上記の識別した部分に応答
して上記の入力発声の1つ以上のセグメントを定義する
ステップ;によって構成されることを特徴とする方法。
【0044】10.上記のセグメント・パターンを定義
するステップは、1つ以上のノイズ・パターンを定義す
るステップによって構成されることを特徴とする前記項
9記載の方法。 11.上記のセグメントを定義するステップは、上記の
セグメント・パターンに対応しない上記の入力発声の部
分を識別するステップによって構成されることを特徴と
する前記項9記載の方法。
【0045】12.各々が上記の識別された部分の1つ
によって上記の入力発声内で中断されない1つ以上のセ
グメントによって構成される1つ以上のセグメント・グ
ループを定義するステップによって更に構成されること
を特徴とする前記項9記載の方法。 13.上記の音声パターンを1つ以上の上記のセグメン
ト・グループによって構成されるものとして定義するス
テップによって更に構成されることを特徴とする前記項
12記載の方法。
【0046】14.上記の音声パターンを定義するステ
ップは、最小のサイズを有さない全てのセグメント・グ
ループを上記の音声パターンから排除するステップによ
って構成されることを特徴とする前記項13記載の方
法。 15.上記の識別ステップは、上記の入力発声の
1つ以上の要素を1つ以上の上記のセグメント・パター
ンと比較するステップによって構成されることを特徴と
する前記項9記載の方法。
【0047】16.上記のセグメント・パターンを定義
するステップは、隠れたマルコフ・モデルに基づいて上
記のセグメント・パターンをモデル化するステップによ
って構成されることを特徴とする前記項9記載の方法。 17.話者に上記の入力発声を発声するようにうながす
ステップによって更に構成されることを特徴とする前記
項9記載の方法。
【0048】18.上記のセグメント・パターンを定義
するステップは、話者と関係のない1つ以上のセグメン
ト・パターンを設定するステップによって構成されるこ
とを特徴とする前記項9記載の方法。 19.以前に記憶した音声パターンとの比較によって上
記の音声パターンを識別するステップによって更に構成
されることを特徴とする前記項1または9記載の方法。
【0049】20.上記の識別した音声パターンに応答
して装置を制御するステップによって更に構成されるこ
とを特徴とする前記項19記載の方法。 21.入力発声内の音声パターンに応答する装置を制御
するシステムに於いて、上記のシステムは:1つ以上の
アンカー・パターンを定義する回路;上記の入力発声を
受け取る回路;上記の入力発声の1つ以上のアンカー・
セクションを識別する回路であって、上記のアンカー・
セクションは少なくとも1つの上記のアンカー・パター
ンに対応する上記の回路;上記の入力発声内の上記のア
ンカー・セクションに隣接する上記の音声パターンの1
つ以上の境界を定義する回路;及び上記の音声パターン
を上記の装置の機能と関連させる回路;によって構成さ
れることを特徴とするシステム。
【0050】22.上記の境界を定義する回路は、上記
のアンカー・セクションの端部で上記の音声パターンの
開始境界を定義する回路によって構成されることを特徴
とする前記項21記載のシステム。 23.上記の音声パターンの停止境界をエネルギー・レ
ベルが所定のレベル以下である上記の入力発声の1つの
点で定義する回路によって更に構成されることを特徴と
する前記項22記載のシステム。
【0051】24.上記の定義回路は、上記の音声パタ
ーンの停止境界を上記のアンカー・セクションの始点で
定義する回路によって構成されることを特徴とする前記
項21記載のシステム。 25.上記の音声パターンの開始境界をエネルギー・レ
ベルが所定のレベル以上である上記の入力発声の1つの
点で定義する回路によって更に構成されることを特徴と
する前記項21記載のシステム。
【図面の簡単な説明】
【図1】本発明が対象とする問題を示す。
【図2】アンカー・ワードを使用した本発明の一実施例
を示す。
【図3】アンカー・ワードを使用した本発明の一実施例
を示す。
【図4】好適な実施例の装置を示す。
【図5】好適な実施例の装置のプロセッサの代表的な実
施例を示す。
【図6】ヌル戦略の状態図を示す。
【図7】図7aーeはヌル戦略で利用するフレーム毎の
分析を示す。
【符号の説明】
140 トランスデューサ 141 A/D 変換器 142 プロセッサ 143 モデルのデータベース 144 登録した単語のデータベース 145 周辺装置のインターフェース 146 周辺装置

Claims (2)

    【特許請求の範囲】
  1. 【請求項1】 入力発声内の音声パターンの1つ以上の
    境界を識別する方法に於いて、上記の方法は:1つ以上
    のアンカー・パターンを定義するステップ;上記の入力
    発声を受け取るステップ;上記の入力発声のアンカー・
    セクションを識別するステップであって、上記のアンカ
    ー・セクションは少なくとも1つの上記のアンカー・パ
    ターンに対応する上記のステップ;及び上記のアンカー
    ・セクションに基づいて上記の音声パターンの1つの境
    界を定義するステップ;によって構成されることを特徴
    とする方法。
  2. 【請求項2】 入力発声内の音声パターンに応答する装
    置を制御するシステムに於いて、上記のシステムは:1
    つ以上のアンカー・パターンを定義する回路;上記の入
    力発声を受け取る回路;上記の入力発声の1つ以上のア
    ンカー・セクションを識別する回路であって、上記のア
    ンカー・セクションは少なくとも1つの上記のアンカー
    ・パターンに対応する上記の回路;上記の入力発声内の
    上記のアンカー・セクションに隣接する上記の音声パタ
    ーンの1つ以上の境界を定義する回路;及び上記の音声
    パターンを上記の装置の機能と関連させる回路;によっ
    て構成されることを特徴とする装置。
JP4150307A 1991-06-11 1992-06-10 音声パターンの識別装置と方法 Pending JPH05181494A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US07/713,481 US5222190A (en) 1991-06-11 1991-06-11 Apparatus and method for identifying a speech pattern
US07/713481 1991-06-11

Publications (1)

Publication Number Publication Date
JPH05181494A true JPH05181494A (ja) 1993-07-23

Family

ID=24866317

Family Applications (1)

Application Number Title Priority Date Filing Date
JP4150307A Pending JPH05181494A (ja) 1991-06-11 1992-06-10 音声パターンの識別装置と方法

Country Status (4)

Country Link
US (1) US5222190A (ja)
EP (1) EP0518638B1 (ja)
JP (1) JPH05181494A (ja)
DE (1) DE69229816T2 (ja)

Families Citing this family (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
IT1272572B (it) * 1993-09-06 1997-06-23 Alcatel Italia Metodo per generare componenti di una base dati vocale mediante la tecnica di sintesi del parlato e macchina per il riconoscimento automatico del parlato
US5732187A (en) * 1993-09-27 1998-03-24 Texas Instruments Incorporated Speaker-dependent speech recognition using speaker independent models
JPH07210190A (ja) * 1993-12-30 1995-08-11 Internatl Business Mach Corp <Ibm> 音声認識方法及びシステム
JP3180655B2 (ja) * 1995-06-19 2001-06-25 日本電信電話株式会社 パターンマッチングによる単語音声認識方法及びその方法を実施する装置
US5897614A (en) * 1996-12-20 1999-04-27 International Business Machines Corporation Method and apparatus for sibilant classification in a speech recognition system
US6167374A (en) * 1997-02-13 2000-12-26 Siemens Information And Communication Networks, Inc. Signal processing method and system utilizing logical speech boundaries
US6006181A (en) * 1997-09-12 1999-12-21 Lucent Technologies Inc. Method and apparatus for continuous speech recognition using a layered, self-adjusting decoder network
US5970446A (en) 1997-11-25 1999-10-19 At&T Corp Selective noise/channel/coding models and recognizers for automatic speech recognition
US6163768A (en) 1998-06-15 2000-12-19 Dragon Systems, Inc. Non-interactive enrollment in speech recognition
US6442520B1 (en) 1999-11-08 2002-08-27 Agere Systems Guardian Corp. Method and apparatus for continuous speech recognition using a layered, self-adjusting decoded network
US6671669B1 (en) * 2000-07-18 2003-12-30 Qualcomm Incorporated combined engine system and method for voice recognition
US20040148163A1 (en) * 2003-01-23 2004-07-29 Aurilab, Llc System and method for utilizing an anchor to reduce memory requirements for speech recognition
US20040148169A1 (en) * 2003-01-23 2004-07-29 Aurilab, Llc Speech recognition with shadow modeling
US7031915B2 (en) * 2003-01-23 2006-04-18 Aurilab Llc Assisted speech recognition by dual search acceleration technique
US6823493B2 (en) 2003-01-23 2004-11-23 Aurilab, Llc Word recognition consistency check and error correction system and method
US20040158468A1 (en) * 2003-02-12 2004-08-12 Aurilab, Llc Speech recognition with soft pruning
US20040193412A1 (en) * 2003-03-18 2004-09-30 Aurilab, Llc Non-linear score scrunching for more efficient comparison of hypotheses
US20040186714A1 (en) * 2003-03-18 2004-09-23 Aurilab, Llc Speech recognition improvement through post-processsing
US20040186819A1 (en) * 2003-03-18 2004-09-23 Aurilab, Llc Telephone directory information retrieval system and method
US7146319B2 (en) * 2003-03-31 2006-12-05 Novauris Technologies Ltd. Phonetically based speech recognition system and method
US20040210437A1 (en) * 2003-04-15 2004-10-21 Aurilab, Llc Semi-discrete utterance recognizer for carefully articulated speech
US7254535B2 (en) * 2004-06-30 2007-08-07 Motorola, Inc. Method and apparatus for equalizing a speech signal generated within a pressurized air delivery system
US7139701B2 (en) * 2004-06-30 2006-11-21 Motorola, Inc. Method for detecting and attenuating inhalation noise in a communication system
US7155388B2 (en) * 2004-06-30 2006-12-26 Motorola, Inc. Method and apparatus for characterizing inhalation noise and calculating parameters based on the characterization
GB2428853A (en) * 2005-07-22 2007-02-07 Novauris Technologies Ltd Speech recognition application specific dictionary
US20080205731A1 (en) * 2005-06-15 2008-08-28 Koninklijke Philips Electronics, N.V. Noise Model Selection for Emission Tomography
US7970613B2 (en) 2005-11-12 2011-06-28 Sony Computer Entertainment Inc. Method and system for Gaussian probability data bit reduction and computation
US7778831B2 (en) * 2006-02-21 2010-08-17 Sony Computer Entertainment Inc. Voice recognition with dynamic filter bank adjustment based on speaker categorization determined from runtime pitch
US8010358B2 (en) * 2006-02-21 2011-08-30 Sony Computer Entertainment Inc. Voice recognition with parallel gender and age normalization
US8442833B2 (en) * 2009-02-17 2013-05-14 Sony Computer Entertainment Inc. Speech processing with source location estimation using signals from two or more microphones
US8442829B2 (en) * 2009-02-17 2013-05-14 Sony Computer Entertainment Inc. Automatic computation streaming partition for voice recognition on multiple processors with limited memory
US8788256B2 (en) * 2009-02-17 2014-07-22 Sony Computer Entertainment Inc. Multiple language voice recognition
KR20130014893A (ko) * 2011-08-01 2013-02-12 한국전자통신연구원 음성 인식 장치 및 방법
US9153235B2 (en) 2012-04-09 2015-10-06 Sony Computer Entertainment Inc. Text dependent speaker recognition with long-term feature based on functional data analysis

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS58178396A (ja) * 1982-04-12 1983-10-19 株式会社日立製作所 音声認識用標準パタ−ン登録方式
JPS603700A (ja) * 1983-06-22 1985-01-10 日本電気株式会社 音声検出方式
US4696042A (en) * 1983-11-03 1987-09-22 Texas Instruments Incorporated Syllable boundary recognition from phonological linguistic unit string data
US4718088A (en) * 1984-03-27 1988-01-05 Exxon Research And Engineering Company Speech recognition training method
US4821325A (en) * 1984-11-08 1989-04-11 American Telephone And Telegraph Company, At&T Bell Laboratories Endpoint detector
NL8500377A (nl) * 1985-02-12 1986-09-01 Philips Nv Werkwijze en inrichting voor het segmenteren van spraak.
JPS62187897A (ja) * 1986-02-14 1987-08-17 日本電気株式会社 連続音声認識装置
US4829578A (en) * 1986-10-02 1989-05-09 Dragon Systems, Inc. Speech detection and recognition apparatus for use with background noise of varying levels

Also Published As

Publication number Publication date
DE69229816T2 (de) 2000-02-24
DE69229816D1 (de) 1999-09-23
US5222190A (en) 1993-06-22
EP0518638A3 (ja) 1994-08-31
EP0518638B1 (en) 1999-08-18
EP0518638A2 (en) 1992-12-16

Similar Documents

Publication Publication Date Title
JPH05181494A (ja) 音声パターンの識別装置と方法
US5794189A (en) Continuous speech recognition
US4618984A (en) Adaptive automatic discrete utterance recognition
US6029124A (en) Sequential, nonparametric speech recognition and speaker identification
US6487530B1 (en) Method for recognizing non-standard and standard speech by speaker independent and speaker dependent word models
US6839667B2 (en) Method of speech recognition by presenting N-best word candidates
JP4546555B2 (ja) 話し手に暗黙的に順応する技術を用いた音声認識システム
US7013276B2 (en) Method of assessing degree of acoustic confusability, and system therefor
US7529678B2 (en) Using a spoken utterance for disambiguation of spelling inputs into a speech recognition system
JP3388845B2 (ja) 混同するほど類似した語句の入力を防止する方法と装置
JP4657736B2 (ja) ユーザ訂正を用いた自動音声認識学習のためのシステムおよび方法
KR101120716B1 (ko) 음성 특성에 기초한 전화 호출자들의 자동 식별
US5946654A (en) Speaker identification using unsupervised speech models
US7228275B1 (en) Speech recognition system having multiple speech recognizers
US6925154B2 (en) Methods and apparatus for conversational name dialing systems
US5995928A (en) Method and apparatus for continuous spelling speech recognition with early identification
JP2000035795A (ja) 音声認識におけるノンインタラクティブ方式のエンロ―ルメント
US7818174B1 (en) Speech-recognition grammar analysis
WO2000003386A1 (en) Language independent speech recognition
JP2002304190A (ja) 発音変化形生成方法及び音声認識方法
US6963834B2 (en) Method of speech recognition using empirically determined word candidates
JPH10504404A (ja) 音声認識のための方法および装置
JPH10254475A (ja) 音声認識方法
JPH11202895A (ja) 音声認識システムと方法およびそのプログラムを記録した記録媒体
JP3277579B2 (ja) 音声認識方法および装置

Legal Events

Date Code Title Description
A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20031225

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20040113

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20040220

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20050118

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20050118

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20050124

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20051129

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20051206