JPH06208390A - 音声認識装置および音声認識方法 - Google Patents

音声認識装置および音声認識方法

Info

Publication number
JPH06208390A
JPH06208390A JP5288776A JP28877693A JPH06208390A JP H06208390 A JPH06208390 A JP H06208390A JP 5288776 A JP5288776 A JP 5288776A JP 28877693 A JP28877693 A JP 28877693A JP H06208390 A JPH06208390 A JP H06208390A
Authority
JP
Japan
Prior art keywords
phoneme
voice
comparison
uttered
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP5288776A
Other languages
English (en)
Inventor
Rajendra Prasad Mikkilineni
プラサド ミキリネニ ラジェンドラ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
AT&T Corp
Original Assignee
American Telephone and Telegraph Co Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by American Telephone and Telegraph Co Inc filed Critical American Telephone and Telegraph Co Inc
Publication of JPH06208390A publication Critical patent/JPH06208390A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/01Assessment or evaluation of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Abstract

(57)【要約】 【目的】 発声された音声ストリング中の英数字情報を
認識する装置および方法を実現する。 【構成】 本装置は、リファレンスとなる句、語、文字
および数字の音声を構成する音素の音素ストリングとし
てリファレンスとなる英数字情報が記録されたデータベ
ース構造体を有する。動作時には、発声音声の受信に応
答して、受信された発声音声をストアされているリファ
レンス句、語、文字および数字と比較し、各比較に対し
て発声音声とリファレンス句、語、文字および数字との
近接度を表すトータルスコアを割り当てる。本装置は、
最高のトータルスコアを選択し、発声音声と選択された
リファレンス句、語、文字および数字の各音素とを比較
する。各比較された音素に対して割り当てられたスコア
が集計されて受信発声音声の選択されたリファレンス
句、語、文字および数字としての有効性が決定される。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は音声認識システムに関
し、特に会話音声からなるストリング中の英数字情報を
認識するシステムに関する。
【0002】
【従来の技術】音声認識システムは、発声音声を認識し
て応答することが必要とされるアプリケーションにおい
て数多く用いられるようになってきている。代表的なア
プリケーションとしては、デパートが、電話セールス等
において電話をかけてきた利用者に新たな商品を知らせ
たり利用者が発声した注文を受けるために音声認識シス
テムを用いている。別のアプリケーションとしては、株
式斡旋会社によって、電話をかけてきた利用者による株
式相場に関する問い合わせにその利用者の信用取引に関
する現時点での情報を音声で告げることによって応答す
るために用いられているようなシステムがある。
【0003】音声認識システムは、通常、電話をかけて
きた利用者にその利用者からの付加的情報の入力を促す
ために電話回線を介して音声として送出される音声プロ
ンプトメッセージをストアしているデータベースを有し
ている。さらに音声認識システムは、種々のアプリケー
ションにおいて用いられる句、語、文字および数字等の
英数字情報を表す、データベースにストアされたテンプ
レートを有している。実際の動作においては、電話をか
けてきた利用者は音声認識システムに対して接続され、
音声認識システムは、電話をかけてきた利用者によって
用いられた電話機に対して電話回線を介して音声プロン
プトメッセージを送出することによって応答する。電話
をかけてきた利用者は、音声プロンプトメッセージを聞
くと、音声認識装置に対して電話回線を介して送出され
る発声音声によってそのメッセージに応答する。電話を
かけてきた利用者による発声音声は音声認識装置によっ
て受信され、受信された音声情報を句、語、文字および
数字等の特定の英数字情報として識別するためにテンプ
レートと比較される。
【0004】
【発明が解決しようとする課題】例えばキーワードによ
って制御されるシステムとして用いられる音声認識シス
テムなどの音声認識システムにおける問題点は、受信さ
れた音声がストアされているテンプレートのうちの1つ
と似てはいるが相異なっているような場合にも、発声音
声ストリングとして受信した特定の発声された句、語、
文字および数字を認識することがしばしば要求されると
いう点である。従って、英数字情報に対応する受信され
た音声からなるストリング中に存在する特定の句、語、
文字および数字を認識するように適合された音声認識シ
ステムに対する要求が存在する。
【0005】
【課題を解決するための手段】前述の問題点は、本発明
に係る、発声音声ストリング中の英数字情報を認識する
装置および方法によって解決される。本発明に係る装置
は、それぞれのストリングがリファレンスとなる句、
語、文字および数字からなる音声から構成されているよ
うな、音素ストリングとして記録されたリファレンス英
数字情報がストアされているデータベースストラクチャ
を有している。実際の動作においては、本発明に係る装
置は、発声音声ストリングの受信に応答して、受信され
た会話音声をストアされているリファレンスとなる句、
語、文字および数字と比較し、発声音声とリファレンス
である句、語、文字および数字との間の「近接度」を表
すトータルスコアをそれぞれの比較に対して割り当て
る。当該装置は、最高のトータルスコアを選択し、発声
音声と最高のトータルスコアに対して指定された、記録
されているリファレンスとなる句、語、文字および数字
のそれぞれの音素とを比較する。比較されたそれぞれの
音素に対してサブスコアが指定され、それらのサブスコ
アはニューラルネットワークに対して入力されて、その
まとめられた出力が受信された発声音声のリファレンス
となる句、語、文字および数字としての有効性を決定す
る。
【0006】
【実施例】本発明の実施例においては、図1に示されて
いる音声認識システムは、利用者(以下、ユーザとい
う)がコンピュータシステムにストアされているデータ
やシステム所有者(オーナ)によってユーザに対して提
供されている物理的なファシリティやサービスにアクセ
スすることを可能にするような、種々のアプリケーショ
ンにおいて用いられることを企図したものである。ある
アプリケーションにおいては、コンピュータシステムが
複数個のユーザに対してサービスを提供し、それぞれ固
有のユーザパスワードによって識別されたユーザによる
利用に制限されたデータファイルを有している。別のア
プリケーションにおいては、デパートが注文部門を有し
ており、ユーザが注文部門に対して電話をかけて、注文
される製品の識別を当該デパートによって管理されてい
る音声認識システム1に対して電話回線によって接続さ
れている電話機を用いて発声することによって、音声に
よって注文をすることが可能になっている。さらに別の
アプリケーションにおいては、ファイナンシャルサービ
スの提供者が、アクセスが固有のユーザパスワードによ
って管理されているようなユーザ口座ファイルに対する
電子的なアクセスを実現する。
【0007】音声認識システム1は、ユーザの発声音声
ストリング中に出現する特定の英数字情報を認識するた
めに用いられるように企図されている。音声認識システ
ム1は、複数個のアクセス回路16、回線回路17およ
び基幹回線回路18(これらについては公知であり、本
発明の理解に関して詳述される必要はない)を有する回
線インタフェース装置を有しており、これらは音声認識
システム1とユーザとを相互に接続している。アクセス
回路16には、ユーザ2が音声認識システム1との間で
直接発声音声をやり取りすることを可能にする、複数個
の公知の音声起動デバイスのうちの1つが接続されてい
る。回線回路17および基幹回線回路18は電話ネット
ワーク4における対応する回線回路および基幹回線回路
に接続されており、電話ネットワーク4のユーザ3が電
話通話を設定しかつ音声認識システム1との間で発声さ
れた英数字音声をやり取りすることを可能にする。
【0008】音声認識システム1におけるアクセス、回
線、および基幹回線回路16、17、18は、それぞれ
交換機13に接続されており、中央プロセッサユニット
11からのデータバス15によって制御されている。複
数個の音声応答ユニット14がそれぞれ交換機13に接
続されており、音声認識システム1を用いる際にアクセ
ス、回線、基幹回線回路16、17、18によって相互
に接続されたユーザに対して指示を与えかつユーザから
の情報を要求するために用いられる可聴音プロンプトメ
ッセージを生成するよう、中央プロセッサユニット11
およびデータバス15によって制御されている。さら
に、それぞれの音声応答ユニット14は、生成された可
聴音プロンプトメッセージに応答してユーザから受信さ
れた発声音声をデータバス15を介して中央プロセッサ
ユニット11へ送出するよう、中央プロセッサユニット
11によって制御されている。受信された発声音声は、
中央プロセッサユニット11の制御下でメモリ12に記
録される。アクセス、回線、および基幹回線回路16、
17、18および音声応答ユニット14とに対して相互
接続された交換機13は、ユーザに対して接続されたア
クセス、回線、および基幹回線回路16、17、18の
うちの1つと音声応答ユニット14のうちの1つとを選
択的に接続するよう、データバス15を介して中央プロ
セッサユニット11によって制御されている。
【0009】音声認識システム1は、386、486あ
るいはAT&T社製3B2−400および3B2−31
0シンプレクスあるいはデュプレクスコンピュータなど
の汎用コンピュータを有している。このコンピュータに
関しては本発明の理解に関して詳述する必要はなく、一
般に、アドレス、データおよび制御リードによってデー
タバス15と相互接続された中央プロセッサユニット1
1およびメモリ12を有している。アクセス、回線、お
よび基幹回線回路16、17、18、交換機13および
音声応答ユニット14と相互接続されたデータバス15
は、中央プロセッサユニット11がそれぞれのユニット
を制御しかつ音声認識システム1の動作においてそれぞ
れのユニットとの間で情報交換を行なうことを可能にす
る。中央プロセッサユニット11は、ユーザの発声音声
ストリング中に出現する特定の英数字情報を認識するた
めに、図2に示されている音声認識アルゴリズム120
0に従って音声認識システム1を制御するようにプログ
ラムされている。
【0010】図1に示されているシステムデータベース
10は、それぞれリファレンスとなる所定の英数字の
句、語、文字および数字に対応する複数個のリファレン
ス英数字モデル1000が予め記録されている語彙辞書
データベースファイル100を有している。それぞれの
英数字モデル1000は、音素ファイル1001に記録
されている音素から成り立つ音素ストリング1002に
よって表現されている。例えばユーザの固有のパスワー
ド「DWD」は、個別の音素、「d」、「iy」、
「d」、「ah」、「b」、「ix」、「l」、
「y」、「uw」、「d」および「iy」の組よりなる
音素ストリング「diy+dahbixlyuw+di
y」に関連付けられている。データベース10は、デジ
タル情報をストアするように配置された公知のディス
ク、テープ、固体あるいはその他のタイプの記憶デバイ
スのうちのいずれかであり、データバス15に対して接
続されていてユーザから受信した発声された英数字情報
をストアするように中央プロセッサユニット11によっ
て制御されている。予め記録された英数字モデル100
0およびユーザから受信された情報に加えて、音声認識
システム1を用いる際にユーザを促しかつ情報をシステ
ムに対して入力させるために用いられる複数個のメッセ
ージをデータベース10中にストアするようにプログラ
ムされている。通常、この種のプロンプトメッセージ
は、「ここで注文情報を入力してください」および「あ
なたのパスワードは何ですか?」などである。
【0011】実際の動作においては、音声認識システム
1の装置は、ユーザによって生成されたアクセスリクエ
ストに対して、プロンプトメッセージを当該ユーザ宛の
送出し、送出されたプロンプトメッセージに応答してユ
ーザによって発声された音声を認識することによって応
答する。音声認識システムは、受信されたユーザの発声
音声ストリング中の英数字情報の認識シーケンスを、ユ
ーザから受信した発声音声を記録されて音素ストリング
ファイル1002にストアされた音素ストリングによっ
て表現されるデータベースモデルファイル1000中の
リファレンスとなる英数字の句、語、文字および数字モ
デルのそれぞれと比較することによって開始する。図2
の音声認識アルゴリズム1200に係るプログラムイン
ストラクションに従って動作する中央プロセッサユニッ
ト11は、トータルスコア120を計算し、発声された
音声と比較されたリファレンスの英数字の句、語、文字
および数字モデル1000からなる音素ストリング10
02との近接度を表す計算されたトータルスコア120
をそれぞれの比較に対して割り当てる。
【0012】トータルスコア120を英数字モデル10
00とのそれぞれの比較に対して割り当てる作業が完了
すると、中央プロセッサユニット11は、比較された全
てのリファレンス英数字モデル1000の内から最高の
トータルスコア120に割り当てられたリファレンス英
数字モデルを選択する。最高のトータルスコアを有する
リファレンス英数字モデルの選択の後、受信されたユー
ザによる発声音声は選択されたリファレンス英数字モデ
ルを構成している音素ストリング1002の個別のそれ
ぞれの音素1001と比較される。発声された音声と対
応する音素ファイル1001中のそれぞれの音素との近
接度を表すサブスコア121〜12nが計算され、それ
ぞれの比較された音素に対して割り当てられる。中央プ
ロセッサユニット11が、計算されて割り当てられたそ
れぞれのサブスコア121〜12nを、図3に示された
ニューラルネットワーク120000によって規定され
るソフトウエアの入力に供給する。このニューラルネッ
トワーク120000は、計算されたそれぞれの音素サ
ブスコアを受容する複数個の入力120001を有して
いる。ニューラルネットワーク120000は、入力さ
れた音素サブスコア121−12nを集計して、選択さ
れたリファレンス英数字モデルの記録されてストアされ
た音素と発声された音声との近接度を表すネットワーク
出力データ120002を集計されたサブスコアの分類
として導出するように設計されている。ニューラルネッ
トワークによって導出されたデータ120002は中央
プロセッサユニット11によって所定のスレッショルド
と比較され、受信されたユーザの発声音声が、ニューラ
ルネットワークによって導出されたデータ120002
と所定のスレッショルドとの間の差が所定の範囲にある
場合には、選択された英数字の句、語、文字および数字
として識別される。ニューラルネットワーク12000
0はその設計および動作が当業者において既知であり、
本発明を理解するために詳述される必要はない。このタ
イプのニューラルネットワークはサブスコア121〜1
2n等の入力データを集計し、それらサブスコア入力1
21〜12nを表現する出力データ120002を導出
する、ということのみ理解すれば充分である。
【0013】図2に示された音声認識アルゴリズム12
00によって制御される音声認識システム1の動作は、
ユーザによるシステムへのアクセスリクエスト(ステッ
プ12001)によって開始される。ユーザ2に接続さ
れた図1のアクセス回路16、あるいは電話ネットワー
ク4の動作によってユーザ3に接続された回線および基
幹回線回路17、18は、データバス15を介して中央
プロセッサユニット11にユーザからのリクエストを通
知することによって当該リクエストに応答する。中央プ
ロセッサユニット11はユーザからのリクエストに、適
切なアクセス、回線および基幹回線回路16、17、1
8を音声応答ユニット14に接続するよう交換機13を
制御することによって応答する。接続がなされると、中
央プロセッサユニット11は、ユーザからの入力を要求
する音声プロンプトメッセージをユーザ宛に送出される
よう、音声応答ユニット14を制御する(ステップ12
003)。ユーザからの情報の受信が失敗した場合には
(ステップ12004)、中央プロセッサユニット11
は再試行を開始し(ステップ12005)、ユーザに対
してプロンプトメッセージを再送信する(ステップ12
003)。情報の受信が連続して失敗した場合には(ス
テップ12004、12005)、中央プロセッサユニ
ット11は認識シーケンスを終了し(ステップ1200
6)、ユーザをシステムから切り離す。
【0014】ユーザが送出されたプロンプトメッセージ
に応答した場合には(ステップ12004)、音声応答
ユニット14はユーザによって発声された音声を受信し
て認識する。ユーザがパスワードに対するプロンプトメ
ッセージに固有のパスワード「DWD」を発声すること
によって応答する場合を仮定すると、音声認識システム
1は、パスワード「DWD」を含むユーザによって発声
されて受信された音声をデータベース10にストアされ
た予め記録された英数字の句、語、文字および数字モデ
ル1000のそれぞれと比較する(ステップ1200
7)。比較プロセスにおいては(ステップ1200
8)、音声認識アルゴリズム1200に従って動作して
いる中央プロセッサユニット11は、受信されたユーザ
による発声音声と比較されるリファレンスとなる句、
語、文字および数字モデル1000を構成している音素
ストリングとの近接度を表すトータルスコア120を計
算し、受信されたユーザ音声と比較される英数字モデル
を構成している音素ストリングとの近接度を表すトータ
ルスコアをそれぞれの比較に対して割り当てる。仮定さ
れたパスワード「DWD」を含む、受信されたユーザ発
声音声の例の場合には、中央プロセッサユニット11
は、受信されたユーザ発声音声と、それぞれ英数字モデ
ル「CAR」、「RAILROAD」および「DWD」
に係るそれぞれの英数字モデル1000音素ストリング
「kaar」、「reyl+rowd」および「diy
+dahbixlyuw+diy」等との近接度を表す
トータルスコア120を計算し、それぞれの計算された
トータルスコア120と適切なモデル1000とを割り
当てる。それぞれの比較の後、音声認識アルゴリズム1
200は、受信されたユーザ発声音声が最終の英数字モ
デル1000と比較されたか否かを決定する(ステップ
12009)。最終のモデルと比較されてはいない場合
には、中央プロセッサユニット11は次の英数字モデル
1000を選択し(ステップ120010)、ステップ
12007から12009を反復する。
【0015】最終の英数字モデル1000が比較されて
それに対してトータルスコア120が割り当てられた
後、中央プロセッサユニット11は最大のトータルスコ
ア120が割り当てられた英数字モデル1000を選択
する(ステップ120011)。受信されたユーザ発声
音声が固有のパスワード「DWD」を含んでいると仮定
すると、音素ストリング「diy+dahbixlyu
w+diy」に係る比較が最大のトータルスコア120
に対して割り当てられているはずであり、英数字モデル
語「DWD」および数字モデル1000が選択される。
【0016】例えば固有のパスワード「DWD」などの
特定の英数字の句、語、文字および数字を発声する場
合、音声認識システム1がユーザから受信した音声スト
リングは、息の音、背景音、雑音および他のおしゃべり
等の種々の音声を含む場合がしばしばある。よって、受
信したユーザ発声音声ストリングは、希望する英数字情
報音声以外に種々の音声を含むことになる。しかしなが
ら、本発明の原理に従って動作する音声認識システム1
は、語彙辞書データベース100に予め記録されかつ受
信したユーザ発声音声ストリング中に埋め込まれた英数
字モデル1000のうちの1つ1つを認識する。
【0017】音声認識アルゴリズム1200は、最高の
トータルスコア120が割り当てられた選択された英数
字モデル1000(ステップ120011)に対応する
音素ストリング中のそれぞれの音素と受信されたユーザ
音声とを比較する(ステップ120012)。よって、
選択されたパスワード「DWD」の場合には、選択され
た英数字語「DWD」の音素ストリング「diy+da
hbixlyuw+diy」1200を構成している音
素1001「d」、「iy」、「d」、「ah」、
「b」、「ix」、「l」、「y」、「uw」、
「d」、「iy」、が、それぞれ、受信されたユーザ発
声音声と個別に比較される(ステップ120013)。
音素比較プロセスにおいては、中央プロセッサユニット
11は、選択された英数字モデルのそれぞれの音素10
01に対して音素サブスコア121−12nを計算し、
受信されたユーザ発声音声と比較された音素との近接度
を表す計算されたサブスコアをそれぞれの比較された音
素に対して割り当てる(ステップ120013)。比較
プロセスにおいて失敗が起こった場合には(ステップ1
20014)、音声認識アルゴリズム1200に従って
動作する中央プロセッサユニット11は、ステップ12
0011〜120014を所定の回数反復することによ
って音素比較を繰り返す(ステップ120015)。失
敗が繰り返される場合には、認識シーケンスは終了し
(ステップ12006)、ユーザはシステムから切り離
される。失敗が起こらない場合には(ステップ1200
14)、中央プロセッサユニット11は次のモデル音素
を選択することによって音素比較プロセスを継続し(ス
テップ120017)、全てのモデル音素が比較されて
それぞれに対して音素サブスコア121〜12nが割り
当てられるまでステップ120012から120015
を反復する。
【0018】サブスコアが計算されて最終音素1001
に対して割り当てられた後、中央プロセッサユニット1
1は解散された音素サブスコア121〜12nをニュー
ラルネットワーク120000によって規定されたソフ
トウエアの入力120001へ供給する(ステップ12
0018)。ネットワーク120000は入力された音
素サブスコアを集計し、発声された音声と選択されたリ
ファレンス英数字句、語、文字および数字モデル100
0との近接度を表す出力データ120002を入力音素
サブスコアの分類として導出する(ステップ12001
9)。導出された出力データ120002は所定のスレ
ッショルドと比較され(ステップ120020)、導出
された出力データ120002と所定のスレッショルド
との差が規定された範囲に入っている場合には中央プロ
セッサユニット11が受信されたユーザ発声音声を選択
されたリファレンス英数字句、語、文字および数字モデ
ル1000として確認する(ステップ120021、1
20022)。前記差が所定の範囲から外れる場合には
(ステップ120021および120015)、中央プ
ロセッサユニット11はステップ120011〜120
021を反復することによって所定の回数だけ再試行を
行なう。所定の再試行回数が超過した場合には(ステッ
プ120015)、本発明に係る音声認識プロセスは終
了し(ステップ12006)、ユーザはシステムから切
り離される。確認(ステップ120022)の後、中央
プロセッサユニット11はユーザからの付加入力がある
べきか否かを決定し、それが必要とされる場合にはユー
ザに対して付加情報の入力を促す(ステップ12002
3および12003)。ユーザからの付加情報はないと
決定された場合には、中央プロセッサユニット11は音
声認識シーケンスを終了し、ユーザをシステムから切り
離す(ステップ12006)。
【0019】以上の説明は、本発明の一実施例に関する
もので,この技術分野の当業者であれば、本発明の種々
の変形例が考え得るが、それらはいずれも本発明の技術
的範囲に包含される。
【0020】前述されているように、音声認識システム
の機能、経済性および効率は、発声音声ストリング中に
存在する特定の英数字の句、語、文字および数字を認識
するように設計された本発明に係る音声認識システムに
よって実質的に増強される。本明細書においては本発明
は電話ネットワーク回線および基幹回線によってユーザ
と接続された独立した音声認識システムとして記載され
ているが、これは本発明の原理を説明するためだけのも
のであり、電話交換システム中の統合されたコンポーネ
ントとして含まれた音声認識システムや発声音声ストリ
ング中の特定の英数字情報の認識を必要とする他のタイ
プの音声システムなどの種々の実施例が当業者によって
導かれうるがそれらは全て本発明の技術的範疇に包含さ
れる。本発明に係る音声認識シーケンスは音声認識シス
テムのユーザが音声を発声した時点でリアルタイムに実
行される点にも留意されたい。
【発明の効果】以上述べたごとく、本発明によれば、発
声音声ストリング中に存在する特定の英数字の句、語、
文字および数字を認識する音声認識システムが提供され
る。
【図面の簡単な説明】
【図1】本発明の原理を具体化した音声認識システムを
示す図である。
【図2】図1に示された音声認識システムの動作を制御
する音声認識アルゴリズムを示す図である。
【図3】図1に示された音声認識システムに係るソフト
ウエア配置ニューラルネットワークを示す図である。
【図4】本発明の原理に従い、図2に示された音声認識
アルゴリズムに従った、図1の音声認識システムの動作
を表す流れ図である。
【図5】本発明の原理に従い、図2に示された音声認識
アルゴリズムに従った、図1の音声認識システムの動作
を表す流れ図である。
【符号の説明】
1 音声認識システム 2、3 ユーザ 4 電話ネットワーク 10 データベース 11 中央プロセッサユニット 12 メモリ 13 交換機 14 音声応答ユニット 15 データバス 16 アクセス制御回路 17 回線回路 18 基幹回線回路 100 語彙辞書 120 トータルスコア 121〜12n サブスコア 1000 英数字モデル 1001 音素 1002 音素シーケンス 1200 音声認識アルゴリズム 12000、120000 ニューラルネットワーク 120001 サブスコア入力 120002 出力データ

Claims (10)

    【特許請求の範囲】
  1. 【請求項1】 ユーザによって発声された音声ストリン
    グ中の情報を認識する装置において、当該装置が、 受信された発声音声をそれぞれ音素ストリングによって
    表現されるストアされているリファレンスモデルと比較
    し、前記それぞれの比較に対して前記それぞれのリファ
    レンスモデルと前記発声音声との間の近接度を表すトー
    タルスコアを割り当てる手段と、 前記リファレンスモデルのうちから前記最高のトータル
    スコアが割り当てられたものを選択し、前記発声音声を
    前記選択されたリファレンスモデルのそれぞれの音素と
    比較し、前記選択されたモデルのそれぞれの比較された
    音素に対してサブスコアを割り当て、前記それぞれの音
    素比較に対して割り当てられたサブスコアを集計して当
    該集計されたサブスコアに従って前記受容された発声音
    声の前記選択されたモデルとしての有効性を決定するネ
    ットワークに供給する選択比較割当手段とからなること
    を特徴とする音声認識装置。
  2. 【請求項2】 前記選択比較割当手段が、さらに、音素
    として所定のリファレンスとなる句、語、文字および数
    字からなるモデルおよび前記リファレンスとなる句、
    語、文字および数字の音声を表す音素ストリングをスト
    アするデータベースを有することを特徴とする請求項1
    の装置。
  3. 【請求項3】 前記選択比較割当手段が、さらに、ユー
    ザによって発声された音声の受容に応答して、前記受容
    された発声音声とストアされているそれぞれのリファレ
    ンスとなる句、語、文字および数字とを比較しかつそれ
    ぞれの比較に対して前記発声音声と前記比較されたリフ
    ァレンスとなる句、語、文字および数字を構成している
    音素ストリングとの近接度を表すトータルスコアを割り
    当てる手段を有することを特徴とする請求項1の装置。
  4. 【請求項4】 前記選択比較割当手段が、さらに、前記
    リファレンスとなる句、語、文字および数字の選択に応
    答して、前記発声音声と前記選択されたリファレンスと
    なる句、語、文字および数字を構成している音素ストリ
    ングのそれぞれの音素とを比較しかつそれぞれの比較に
    対して前記発声音声とそれぞれの音素との近接度を表す
    サブスコアを割り当てる手段を有することを特徴とする
    請求項3の装置。
  5. 【請求項5】 前記選択比較割当手段が、さらに、前記
    音素サブスコアのそれぞれを受信する複数個の入力を有
    しており、前記入力サブスコアを集計しかつ前記集計さ
    れたサブスコアの分類として前記発声音声と前記選択さ
    れたリファレンス句、語、文字および数字との近接度を
    表す出力データを導出するニューラルネットワークを有
    することを特徴とする請求項1の装置。
  6. 【請求項6】 ユーザによって発声された音声ストリン
    グ中の情報をリアルタイムで認識する音声認識装置を動
    作させる方法において、当該方法が、 ユーザによって発声された受信された音声と音素ストリ
    ングによって表現されたストアされているリファレンス
    音声モデルとを比較しそれぞれの比較に対して前記発声
    された音声と前記リファレンスモデルとの間の近接度を
    表すトータルスコアを割り当てる選択比較割当ステップ
    と、 最高の前記トータルスコアが割り当てられた前記リファ
    レンスモデルを選択し前記発声音声と前記選択されたリ
    ファレンスモデルのそれぞれの音素とを前記発声音声と
    前記選択されたリファレンスモデルのそれぞれの音素と
    の間の近接度を表すサブスコアを割り当てることによっ
    て比較し前記音素サブスコアを集計し前記集計されたス
    コアに従って前記受信された発声音声の前記選択された
    リファレンスモデルとしての有効性を決定するステップ
    とからなることを特徴とする音声認識方法。
  7. 【請求項7】 前記選択比較割当ステップが、さらに、
    前記受信された音声とストアされているそれぞれのリフ
    ァレンスとなる句、語、文字および数字を比較しそれぞ
    れの比較に対して前記発声音声と前記比較されたリファ
    レンスとなる句、語、文字および数字を構成している音
    素ストリングとの近接度を表すトータルスコアを割り当
    てるステップを有することを特徴とする請求項6の方
    法。
  8. 【請求項8】 前記選択比較割当ステップが、さらに、
    前記発声音声と前記選択されたリファレンスとなる句、
    語、文字および数字を構成している音素ストリングのそ
    れぞれの音素とを比較しかつそれぞれの比較に対して前
    記発声音声とそれぞれの音素との近接度を表すサブスコ
    アを割り当てるステップを有することを特徴とする請求
    項6の方法。
  9. 【請求項9】 前記選択比較割当ステップが、さらに、
    前記音素サブスコアをニューラルネットワークに供給し
    前記発声音声と前記選択されたリファレンス句、語、文
    字および数字との近接度を表す前記音素サブスコアの分
    類としての出力データを導出するステップを有すること
    を特徴とする請求項6の方法。
  10. 【請求項10】 前記選択比較割当ステップが、さら
    に、前記ニューラルネットワークによって導出された出
    力データを所定のスレッショルドと比較しその値が前記
    所定のスレッショルドからある規定された範囲にある場
    合には前記ユーザによる発声音声を前記選択されたリフ
    ァレンス句、語、文字および数字として識別するステッ
    プを有することを特徴とする請求項6の方法。
JP5288776A 1992-10-30 1993-10-26 音声認識装置および音声認識方法 Pending JPH06208390A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US96872492A 1992-10-30 1992-10-30
US968724 1992-10-30

Publications (1)

Publication Number Publication Date
JPH06208390A true JPH06208390A (ja) 1994-07-26

Family

ID=25514677

Family Applications (1)

Application Number Title Priority Date Filing Date
JP5288776A Pending JPH06208390A (ja) 1992-10-30 1993-10-26 音声認識装置および音声認識方法

Country Status (6)

Country Link
EP (1) EP0595541A1 (ja)
JP (1) JPH06208390A (ja)
KR (1) KR940009929A (ja)
AU (1) AU657064B2 (ja)
CA (1) CA2107317A1 (ja)
FI (1) FI934813A (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5365574A (en) * 1990-05-15 1994-11-15 Vcs Industries, Inc. Telephone network voice recognition and verification using selectively-adjustable signal thresholds
CN110047466B (zh) * 2019-04-16 2021-04-13 深圳市数字星河科技有限公司 一种开放性创建语音朗读标准参考模型的方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5782896A (en) * 1980-11-12 1982-05-24 Hitachi Ltd Continuous voice recognition system
US4761815A (en) * 1981-05-01 1988-08-02 Figgie International, Inc. Speech recognition system based on word state duration and/or weight
US4817159A (en) * 1983-06-02 1989-03-28 Matsushita Electric Industrial Co., Ltd. Method and apparatus for speech recognition
JPH02195400A (ja) * 1989-01-24 1990-08-01 Canon Inc 音声認識装置
US5125022A (en) * 1990-05-15 1992-06-23 Vcs Industries, Inc. Method for recognizing alphanumeric strings spoken over a telephone network
FR2679690B1 (fr) * 1991-07-23 1996-10-25 Thomson Csf Procede et dispositif de reconnaissance de la parole en temps reel.

Also Published As

Publication number Publication date
FI934813A0 (fi) 1993-10-29
EP0595541A1 (en) 1994-05-04
CA2107317A1 (en) 1994-05-01
AU657064B2 (en) 1995-02-23
FI934813A (fi) 1994-05-01
KR940009929A (ko) 1994-05-24
AU5023393A (en) 1994-05-19

Similar Documents

Publication Publication Date Title
JP3561076B2 (ja) 任意に話された単語の自動通話認識方法
US6766295B1 (en) Adaptation of a speech recognition system across multiple remote sessions with a speaker
AU2016216737B2 (en) Voice Authentication and Speech Recognition System
US7949517B2 (en) Dialogue system with logical evaluation for language identification in speech recognition
US5329608A (en) Automatic speech recognizer
USRE38101E1 (en) Methods and apparatus for performing speaker independent recognition of commands in parallel with speaker dependent recognition of names, words or phrases
US8064573B2 (en) Computer generated prompting
US7286989B1 (en) Speech-processing system and method
US7505906B2 (en) System and method for augmenting spoken language understanding by correcting common errors in linguistic performance
US6487530B1 (en) Method for recognizing non-standard and standard speech by speaker independent and speaker dependent word models
US8285546B2 (en) Method and system for identifying and correcting accent-induced speech recognition difficulties
US7711105B2 (en) Methods and apparatus for processing foreign accent/language communications
US20160372116A1 (en) Voice authentication and speech recognition system and method
JPH06242793A (ja) 仲間正規化スコアリングを使用する話者検証法
US20010016813A1 (en) Distributed recogniton system having multiple prompt-specific and response-specific speech recognizers
US20060020462A1 (en) System and method of speech recognition for non-native speakers of a language
US5450524A (en) Password verification system based on a difference of scores
JPH1031497A (ja) 音声対話制御方法および音声対話システム
JP2008506156A (ja) マルチスロット対話システムおよび方法
US20010056345A1 (en) Method and system for speech recognition of the alphabet
JPH06208390A (ja) 音声認識装置および音声認識方法
JPH10173769A (ja) 音声メッセージ検索装置
US10854196B1 (en) Functional prerequisites and acknowledgments
US20080243498A1 (en) Method and system for providing interactive speech recognition using speaker data
JP4741777B2 (ja) データベースのエントリを決定する方法