JPH06208390A

JPH06208390A - 音声認識装置および音声認識方法

Info

Publication number: JPH06208390A
Application number: JP5288776A
Authority: JP
Inventors: Rajendra Prasad Mikkilineni; プラサドミキリネニラジェンドラ
Original assignee: American Telephone and Telegraph Co Inc
Current assignee: AT&T Corp
Priority date: 1992-10-30
Filing date: 1993-10-26
Publication date: 1994-07-26
Also published as: FI934813A0; EP0595541A1; CA2107317A1; AU657064B2; FI934813A; KR940009929A; AU5023393A

Abstract

(57)【要約】【目的】発声された音声ストリング中の英数字情報を
認識する装置および方法を実現する。【構成】本装置は、リファレンスとなる句、語、文字
および数字の音声を構成する音素の音素ストリングとし
てリファレンスとなる英数字情報が記録されたデータベ
ース構造体を有する。動作時には、発声音声の受信に応
答して、受信された発声音声をストアされているリファ
レンス句、語、文字および数字と比較し、各比較に対し
て発声音声とリファレンス句、語、文字および数字との
近接度を表すトータルスコアを割り当てる。本装置は、
最高のトータルスコアを選択し、発声音声と選択された
リファレンス句、語、文字および数字の各音素とを比較
する。各比較された音素に対して割り当てられたスコア
が集計されて受信発声音声の選択されたリファレンス
句、語、文字および数字としての有効性が決定される。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は音声認識システムに関
し、特に会話音声からなるストリング中の英数字情報を
認識するシステムに関する。

【０００２】

【従来の技術】音声認識システムは、発声音声を認識し
て応答することが必要とされるアプリケーションにおい
て数多く用いられるようになってきている。代表的なア
プリケーションとしては、デパートが、電話セールス等
において電話をかけてきた利用者に新たな商品を知らせ
たり利用者が発声した注文を受けるために音声認識シス
テムを用いている。別のアプリケーションとしては、株
式斡旋会社によって、電話をかけてきた利用者による株
式相場に関する問い合わせにその利用者の信用取引に関
する現時点での情報を音声で告げることによって応答す
るために用いられているようなシステムがある。

【０００３】音声認識システムは、通常、電話をかけて
きた利用者にその利用者からの付加的情報の入力を促す
ために電話回線を介して音声として送出される音声プロ
ンプトメッセージをストアしているデータベースを有し
ている。さらに音声認識システムは、種々のアプリケー
ションにおいて用いられる句、語、文字および数字等の
英数字情報を表す、データベースにストアされたテンプ
レートを有している。実際の動作においては、電話をか
けてきた利用者は音声認識システムに対して接続され、
音声認識システムは、電話をかけてきた利用者によって
用いられた電話機に対して電話回線を介して音声プロン
プトメッセージを送出することによって応答する。電話
をかけてきた利用者は、音声プロンプトメッセージを聞
くと、音声認識装置に対して電話回線を介して送出され
る発声音声によってそのメッセージに応答する。電話を
かけてきた利用者による発声音声は音声認識装置によっ
て受信され、受信された音声情報を句、語、文字および
数字等の特定の英数字情報として識別するためにテンプ
レートと比較される。

【０００４】

【発明が解決しようとする課題】例えばキーワードによ
って制御されるシステムとして用いられる音声認識シス
テムなどの音声認識システムにおける問題点は、受信さ
れた音声がストアされているテンプレートのうちの１つ
と似てはいるが相異なっているような場合にも、発声音
声ストリングとして受信した特定の発声された句、語、
文字および数字を認識することがしばしば要求されると
いう点である。従って、英数字情報に対応する受信され
た音声からなるストリング中に存在する特定の句、語、
文字および数字を認識するように適合された音声認識シ
ステムに対する要求が存在する。

【０００５】

【課題を解決するための手段】前述の問題点は、本発明
に係る、発声音声ストリング中の英数字情報を認識する
装置および方法によって解決される。本発明に係る装置
は、それぞれのストリングがリファレンスとなる句、
語、文字および数字からなる音声から構成されているよ
うな、音素ストリングとして記録されたリファレンス英
数字情報がストアされているデータベースストラクチャ
を有している。実際の動作においては、本発明に係る装
置は、発声音声ストリングの受信に応答して、受信され
た会話音声をストアされているリファレンスとなる句、
語、文字および数字と比較し、発声音声とリファレンス
である句、語、文字および数字との間の「近接度」を表
すトータルスコアをそれぞれの比較に対して割り当て
る。当該装置は、最高のトータルスコアを選択し、発声
音声と最高のトータルスコアに対して指定された、記録
されているリファレンスとなる句、語、文字および数字
のそれぞれの音素とを比較する。比較されたそれぞれの
音素に対してサブスコアが指定され、それらのサブスコ
アはニューラルネットワークに対して入力されて、その
まとめられた出力が受信された発声音声のリファレンス
となる句、語、文字および数字としての有効性を決定す
る。

【０００６】

【実施例】本発明の実施例においては、図１に示されて
いる音声認識システムは、利用者（以下、ユーザとい
う）がコンピュータシステムにストアされているデータ
やシステム所有者（オーナ）によってユーザに対して提
供されている物理的なファシリティやサービスにアクセ
スすることを可能にするような、種々のアプリケーショ
ンにおいて用いられることを企図したものである。ある
アプリケーションにおいては、コンピュータシステムが
複数個のユーザに対してサービスを提供し、それぞれ固
有のユーザパスワードによって識別されたユーザによる
利用に制限されたデータファイルを有している。別のア
プリケーションにおいては、デパートが注文部門を有し
ており、ユーザが注文部門に対して電話をかけて、注文
される製品の識別を当該デパートによって管理されてい
る音声認識システム１に対して電話回線によって接続さ
れている電話機を用いて発声することによって、音声に
よって注文をすることが可能になっている。さらに別の
アプリケーションにおいては、ファイナンシャルサービ
スの提供者が、アクセスが固有のユーザパスワードによ
って管理されているようなユーザ口座ファイルに対する
電子的なアクセスを実現する。

【０００７】音声認識システム１は、ユーザの発声音声
ストリング中に出現する特定の英数字情報を認識するた
めに用いられるように企図されている。音声認識システ
ム１は、複数個のアクセス回路１６、回線回路１７およ
び基幹回線回路１８（これらについては公知であり、本
発明の理解に関して詳述される必要はない）を有する回
線インタフェース装置を有しており、これらは音声認識
システム１とユーザとを相互に接続している。アクセス
回路１６には、ユーザ２が音声認識システム１との間で
直接発声音声をやり取りすることを可能にする、複数個
の公知の音声起動デバイスのうちの１つが接続されてい
る。回線回路１７および基幹回線回路１８は電話ネット
ワーク４における対応する回線回路および基幹回線回路
に接続されており、電話ネットワーク４のユーザ３が電
話通話を設定しかつ音声認識システム１との間で発声さ
れた英数字音声をやり取りすることを可能にする。

【０００８】音声認識システム１におけるアクセス、回
線、および基幹回線回路１６、１７、１８は、それぞれ
交換機１３に接続されており、中央プロセッサユニット
１１からのデータバス１５によって制御されている。複
数個の音声応答ユニット１４がそれぞれ交換機１３に接
続されており、音声認識システム１を用いる際にアクセ
ス、回線、基幹回線回路１６、１７、１８によって相互
に接続されたユーザに対して指示を与えかつユーザから
の情報を要求するために用いられる可聴音プロンプトメ
ッセージを生成するよう、中央プロセッサユニット１１
およびデータバス１５によって制御されている。さら
に、それぞれの音声応答ユニット１４は、生成された可
聴音プロンプトメッセージに応答してユーザから受信さ
れた発声音声をデータバス１５を介して中央プロセッサ
ユニット１１へ送出するよう、中央プロセッサユニット
１１によって制御されている。受信された発声音声は、
中央プロセッサユニット１１の制御下でメモリ１２に記
録される。アクセス、回線、および基幹回線回路１６、
１７、１８および音声応答ユニット１４とに対して相互
接続された交換機１３は、ユーザに対して接続されたア
クセス、回線、および基幹回線回路１６、１７、１８の
うちの１つと音声応答ユニット１４のうちの１つとを選
択的に接続するよう、データバス１５を介して中央プロ
セッサユニット１１によって制御されている。

【０００９】音声認識システム１は、３８６、４８６あ
るいはＡＴ＆Ｔ社製３Ｂ２−４００および３Ｂ２−３１
０シンプレクスあるいはデュプレクスコンピュータなど
の汎用コンピュータを有している。このコンピュータに
関しては本発明の理解に関して詳述する必要はなく、一
般に、アドレス、データおよび制御リードによってデー
タバス１５と相互接続された中央プロセッサユニット１
１およびメモリ１２を有している。アクセス、回線、お
よび基幹回線回路１６、１７、１８、交換機１３および
音声応答ユニット１４と相互接続されたデータバス１５
は、中央プロセッサユニット１１がそれぞれのユニット
を制御しかつ音声認識システム１の動作においてそれぞ
れのユニットとの間で情報交換を行なうことを可能にす
る。中央プロセッサユニット１１は、ユーザの発声音声
ストリング中に出現する特定の英数字情報を認識するた
めに、図２に示されている音声認識アルゴリズム１２０
０に従って音声認識システム１を制御するようにプログ
ラムされている。

【００１０】図１に示されているシステムデータベース
１０は、それぞれリファレンスとなる所定の英数字の
句、語、文字および数字に対応する複数個のリファレン
ス英数字モデル１０００が予め記録されている語彙辞書
データベースファイル１００を有している。それぞれの
英数字モデル１０００は、音素ファイル１００１に記録
されている音素から成り立つ音素ストリング１００２に
よって表現されている。例えばユーザの固有のパスワー
ド「ＤＷＤ」は、個別の音素、「ｄ」、「ｉｙ」、
「ｄ」、「ａｈ」、「ｂ」、「ｉｘ」、「ｌ」、
「ｙ」、「ｕｗ」、「ｄ」および「ｉｙ」の組よりなる
音素ストリング「ｄｉｙ＋ｄａｈｂｉｘｌｙｕｗ＋ｄｉ
ｙ」に関連付けられている。データベース１０は、デジ
タル情報をストアするように配置された公知のディス
ク、テープ、固体あるいはその他のタイプの記憶デバイ
スのうちのいずれかであり、データバス１５に対して接
続されていてユーザから受信した発声された英数字情報
をストアするように中央プロセッサユニット１１によっ
て制御されている。予め記録された英数字モデル１００
０およびユーザから受信された情報に加えて、音声認識
システム１を用いる際にユーザを促しかつ情報をシステ
ムに対して入力させるために用いられる複数個のメッセ
ージをデータベース１０中にストアするようにプログラ
ムされている。通常、この種のプロンプトメッセージ
は、「ここで注文情報を入力してください」および「あ
なたのパスワードは何ですか？」などである。

【００１１】実際の動作においては、音声認識システム
１の装置は、ユーザによって生成されたアクセスリクエ
ストに対して、プロンプトメッセージを当該ユーザ宛の
送出し、送出されたプロンプトメッセージに応答してユ
ーザによって発声された音声を認識することによって応
答する。音声認識システムは、受信されたユーザの発声
音声ストリング中の英数字情報の認識シーケンスを、ユ
ーザから受信した発声音声を記録されて音素ストリング
ファイル１００２にストアされた音素ストリングによっ
て表現されるデータベースモデルファイル１０００中の
リファレンスとなる英数字の句、語、文字および数字モ
デルのそれぞれと比較することによって開始する。図２
の音声認識アルゴリズム１２００に係るプログラムイン
ストラクションに従って動作する中央プロセッサユニッ
ト１１は、トータルスコア１２０を計算し、発声された
音声と比較されたリファレンスの英数字の句、語、文字
および数字モデル１０００からなる音素ストリング１０
０２との近接度を表す計算されたトータルスコア１２０
をそれぞれの比較に対して割り当てる。

【００１２】トータルスコア１２０を英数字モデル１０
００とのそれぞれの比較に対して割り当てる作業が完了
すると、中央プロセッサユニット１１は、比較された全
てのリファレンス英数字モデル１０００の内から最高の
トータルスコア１２０に割り当てられたリファレンス英
数字モデルを選択する。最高のトータルスコアを有する
リファレンス英数字モデルの選択の後、受信されたユー
ザによる発声音声は選択されたリファレンス英数字モデ
ルを構成している音素ストリング１００２の個別のそれ
ぞれの音素１００１と比較される。発声された音声と対
応する音素ファイル１００１中のそれぞれの音素との近
接度を表すサブスコア１２１〜１２ｎが計算され、それ
ぞれの比較された音素に対して割り当てられる。中央プ
ロセッサユニット１１が、計算されて割り当てられたそ
れぞれのサブスコア１２１〜１２ｎを、図３に示された
ニューラルネットワーク１２００００によって規定され
るソフトウエアの入力に供給する。このニューラルネッ
トワーク１２００００は、計算されたそれぞれの音素サ
ブスコアを受容する複数個の入力１２０００１を有して
いる。ニューラルネットワーク１２００００は、入力さ
れた音素サブスコア１２１−１２ｎを集計して、選択さ
れたリファレンス英数字モデルの記録されてストアされ
た音素と発声された音声との近接度を表すネットワーク
出力データ１２０００２を集計されたサブスコアの分類
として導出するように設計されている。ニューラルネッ
トワークによって導出されたデータ１２０００２は中央
プロセッサユニット１１によって所定のスレッショルド
と比較され、受信されたユーザの発声音声が、ニューラ
ルネットワークによって導出されたデータ１２０００２
と所定のスレッショルドとの間の差が所定の範囲にある
場合には、選択された英数字の句、語、文字および数字
として識別される。ニューラルネットワーク１２０００
０はその設計および動作が当業者において既知であり、
本発明を理解するために詳述される必要はない。このタ
イプのニューラルネットワークはサブスコア１２１〜１
２ｎ等の入力データを集計し、それらサブスコア入力１
２１〜１２ｎを表現する出力データ１２０００２を導出
する、ということのみ理解すれば充分である。

【００１３】図２に示された音声認識アルゴリズム１２
００によって制御される音声認識システム１の動作は、
ユーザによるシステムへのアクセスリクエスト（ステッ
プ１２００１）によって開始される。ユーザ２に接続さ
れた図１のアクセス回路１６、あるいは電話ネットワー
ク４の動作によってユーザ３に接続された回線および基
幹回線回路１７、１８は、データバス１５を介して中央
プロセッサユニット１１にユーザからのリクエストを通
知することによって当該リクエストに応答する。中央プ
ロセッサユニット１１はユーザからのリクエストに、適
切なアクセス、回線および基幹回線回路１６、１７、１
８を音声応答ユニット１４に接続するよう交換機１３を
制御することによって応答する。接続がなされると、中
央プロセッサユニット１１は、ユーザからの入力を要求
する音声プロンプトメッセージをユーザ宛に送出される
よう、音声応答ユニット１４を制御する（ステップ１２
００３）。ユーザからの情報の受信が失敗した場合には
（ステップ１２００４）、中央プロセッサユニット１１
は再試行を開始し（ステップ１２００５）、ユーザに対
してプロンプトメッセージを再送信する（ステップ１２
００３）。情報の受信が連続して失敗した場合には（ス
テップ１２００４、１２００５）、中央プロセッサユニ
ット１１は認識シーケンスを終了し（ステップ１２００
６）、ユーザをシステムから切り離す。

【００１４】ユーザが送出されたプロンプトメッセージ
に応答した場合には（ステップ１２００４）、音声応答
ユニット１４はユーザによって発声された音声を受信し
て認識する。ユーザがパスワードに対するプロンプトメ
ッセージに固有のパスワード「ＤＷＤ」を発声すること
によって応答する場合を仮定すると、音声認識システム
１は、パスワード「ＤＷＤ」を含むユーザによって発声
されて受信された音声をデータベース１０にストアされ
た予め記録された英数字の句、語、文字および数字モデ
ル１０００のそれぞれと比較する（ステップ１２００
７）。比較プロセスにおいては（ステップ１２００
８）、音声認識アルゴリズム１２００に従って動作して
いる中央プロセッサユニット１１は、受信されたユーザ
による発声音声と比較されるリファレンスとなる句、
語、文字および数字モデル１０００を構成している音素
ストリングとの近接度を表すトータルスコア１２０を計
算し、受信されたユーザ音声と比較される英数字モデル
を構成している音素ストリングとの近接度を表すトータ
ルスコアをそれぞれの比較に対して割り当てる。仮定さ
れたパスワード「ＤＷＤ」を含む、受信されたユーザ発
声音声の例の場合には、中央プロセッサユニット１１
は、受信されたユーザ発声音声と、それぞれ英数字モデ
ル「ＣＡＲ」、「ＲＡＩＬＲＯＡＤ」および「ＤＷＤ」
に係るそれぞれの英数字モデル１０００音素ストリング
「ｋａａｒ」、「ｒｅｙｌ＋ｒｏｗｄ」および「ｄｉｙ
＋ｄａｈｂｉｘｌｙｕｗ＋ｄｉｙ」等との近接度を表す
トータルスコア１２０を計算し、それぞれの計算された
トータルスコア１２０と適切なモデル１０００とを割り
当てる。それぞれの比較の後、音声認識アルゴリズム１
２００は、受信されたユーザ発声音声が最終の英数字モ
デル１０００と比較されたか否かを決定する（ステップ
１２００９）。最終のモデルと比較されてはいない場合
には、中央プロセッサユニット１１は次の英数字モデル
１０００を選択し（ステップ１２００１０）、ステップ
１２００７から１２００９を反復する。

【００１５】最終の英数字モデル１０００が比較されて
それに対してトータルスコア１２０が割り当てられた
後、中央プロセッサユニット１１は最大のトータルスコ
ア１２０が割り当てられた英数字モデル１０００を選択
する（ステップ１２００１１）。受信されたユーザ発声
音声が固有のパスワード「ＤＷＤ」を含んでいると仮定
すると、音素ストリング「ｄｉｙ＋ｄａｈｂｉｘｌｙｕ
ｗ＋ｄｉｙ」に係る比較が最大のトータルスコア１２０
に対して割り当てられているはずであり、英数字モデル
語「ＤＷＤ」および数字モデル１０００が選択される。

【００１６】例えば固有のパスワード「ＤＷＤ」などの
特定の英数字の句、語、文字および数字を発声する場
合、音声認識システム１がユーザから受信した音声スト
リングは、息の音、背景音、雑音および他のおしゃべり
等の種々の音声を含む場合がしばしばある。よって、受
信したユーザ発声音声ストリングは、希望する英数字情
報音声以外に種々の音声を含むことになる。しかしなが
ら、本発明の原理に従って動作する音声認識システム１
は、語彙辞書データベース１００に予め記録されかつ受
信したユーザ発声音声ストリング中に埋め込まれた英数
字モデル１０００のうちの１つ１つを認識する。

【００１７】音声認識アルゴリズム１２００は、最高の
トータルスコア１２０が割り当てられた選択された英数
字モデル１０００（ステップ１２００１１）に対応する
音素ストリング中のそれぞれの音素と受信されたユーザ
音声とを比較する（ステップ１２００１２）。よって、
選択されたパスワード「ＤＷＤ」の場合には、選択され
た英数字語「ＤＷＤ」の音素ストリング「ｄｉｙ＋ｄａ
ｈｂｉｘｌｙｕｗ＋ｄｉｙ」１２００を構成している音
素１００１「ｄ」、「ｉｙ」、「ｄ」、「ａｈ」、
「ｂ」、「ｉｘ」、「ｌ」、「ｙ」、「ｕｗ」、
「ｄ」、「ｉｙ」、が、それぞれ、受信されたユーザ発
声音声と個別に比較される（ステップ１２００１３）。
音素比較プロセスにおいては、中央プロセッサユニット
１１は、選択された英数字モデルのそれぞれの音素１０
０１に対して音素サブスコア１２１−１２ｎを計算し、
受信されたユーザ発声音声と比較された音素との近接度
を表す計算されたサブスコアをそれぞれの比較された音
素に対して割り当てる（ステップ１２００１３）。比較
プロセスにおいて失敗が起こった場合には（ステップ１
２００１４）、音声認識アルゴリズム１２００に従って
動作する中央プロセッサユニット１１は、ステップ１２
００１１〜１２００１４を所定の回数反復することによ
って音素比較を繰り返す（ステップ１２００１５）。失
敗が繰り返される場合には、認識シーケンスは終了し
（ステップ１２００６）、ユーザはシステムから切り離
される。失敗が起こらない場合には（ステップ１２００
１４）、中央プロセッサユニット１１は次のモデル音素
を選択することによって音素比較プロセスを継続し（ス
テップ１２００１７）、全てのモデル音素が比較されて
それぞれに対して音素サブスコア１２１〜１２ｎが割り
当てられるまでステップ１２００１２から１２００１５
を反復する。

【００１８】サブスコアが計算されて最終音素１００１
に対して割り当てられた後、中央プロセッサユニット１
１は解散された音素サブスコア１２１〜１２ｎをニュー
ラルネットワーク１２００００によって規定されたソフ
トウエアの入力１２０００１へ供給する（ステップ１２
００１８）。ネットワーク１２００００は入力された音
素サブスコアを集計し、発声された音声と選択されたリ
ファレンス英数字句、語、文字および数字モデル１００
０との近接度を表す出力データ１２０００２を入力音素
サブスコアの分類として導出する（ステップ１２００１
９）。導出された出力データ１２０００２は所定のスレ
ッショルドと比較され（ステップ１２００２０）、導出
された出力データ１２０００２と所定のスレッショルド
との差が規定された範囲に入っている場合には中央プロ
セッサユニット１１が受信されたユーザ発声音声を選択
されたリファレンス英数字句、語、文字および数字モデ
ル１０００として確認する（ステップ１２００２１、１
２００２２）。前記差が所定の範囲から外れる場合には
（ステップ１２００２１および１２００１５）、中央プ
ロセッサユニット１１はステップ１２００１１〜１２０
０２１を反復することによって所定の回数だけ再試行を
行なう。所定の再試行回数が超過した場合には（ステッ
プ１２００１５）、本発明に係る音声認識プロセスは終
了し（ステップ１２００６）、ユーザはシステムから切
り離される。確認（ステップ１２００２２）の後、中央
プロセッサユニット１１はユーザからの付加入力がある
べきか否かを決定し、それが必要とされる場合にはユー
ザに対して付加情報の入力を促す（ステップ１２００２
３および１２００３）。ユーザからの付加情報はないと
決定された場合には、中央プロセッサユニット１１は音
声認識シーケンスを終了し、ユーザをシステムから切り
離す（ステップ１２００６）。

【００１９】以上の説明は、本発明の一実施例に関する
もので，この技術分野の当業者であれば、本発明の種々
の変形例が考え得るが、それらはいずれも本発明の技術
的範囲に包含される。

【００２０】前述されているように、音声認識システム
の機能、経済性および効率は、発声音声ストリング中に
存在する特定の英数字の句、語、文字および数字を認識
するように設計された本発明に係る音声認識システムに
よって実質的に増強される。本明細書においては本発明
は電話ネットワーク回線および基幹回線によってユーザ
と接続された独立した音声認識システムとして記載され
ているが、これは本発明の原理を説明するためだけのも
のであり、電話交換システム中の統合されたコンポーネ
ントとして含まれた音声認識システムや発声音声ストリ
ング中の特定の英数字情報の認識を必要とする他のタイ
プの音声システムなどの種々の実施例が当業者によって
導かれうるがそれらは全て本発明の技術的範疇に包含さ
れる。本発明に係る音声認識シーケンスは音声認識シス
テムのユーザが音声を発声した時点でリアルタイムに実
行される点にも留意されたい。

【発明の効果】以上述べたごとく、本発明によれば、発
声音声ストリング中に存在する特定の英数字の句、語、
文字および数字を認識する音声認識システムが提供され
る。

【図面の簡単な説明】

【図１】本発明の原理を具体化した音声認識システムを
示す図である。

【図２】図１に示された音声認識システムの動作を制御
する音声認識アルゴリズムを示す図である。

【図３】図１に示された音声認識システムに係るソフト
ウエア配置ニューラルネットワークを示す図である。

【図４】本発明の原理に従い、図２に示された音声認識
アルゴリズムに従った、図１の音声認識システムの動作
を表す流れ図である。

【図５】本発明の原理に従い、図２に示された音声認識
アルゴリズムに従った、図１の音声認識システムの動作
を表す流れ図である。

【符号の説明】

１音声認識システム２、３ユーザ４電話ネットワーク１０データベース１１中央プロセッサユニット１２メモリ１３交換機１４音声応答ユニット１５データバス１６アクセス制御回路１７回線回路１８基幹回線回路１００語彙辞書１２０トータルスコア１２１〜１２ｎサブスコア１０００英数字モデル１００１音素１００２音素シーケンス１２００音声認識アルゴリズム１２０００、１２００００ニューラルネットワーク１２０００１サブスコア入力１２０００２出力データ

Claims

【特許請求の範囲】

【請求項１】ユーザによって発声された音声ストリン
グ中の情報を認識する装置において、当該装置が、受信された発声音声をそれぞれ音素ストリングによって
表現されるストアされているリファレンスモデルと比較
し、前記それぞれの比較に対して前記それぞれのリファ
レンスモデルと前記発声音声との間の近接度を表すトー
タルスコアを割り当てる手段と、前記リファレンスモデルのうちから前記最高のトータル
スコアが割り当てられたものを選択し、前記発声音声を
前記選択されたリファレンスモデルのそれぞれの音素と
比較し、前記選択されたモデルのそれぞれの比較された
音素に対してサブスコアを割り当て、前記それぞれの音
素比較に対して割り当てられたサブスコアを集計して当
該集計されたサブスコアに従って前記受容された発声音
声の前記選択されたモデルとしての有効性を決定するネ
ットワークに供給する選択比較割当手段とからなること
を特徴とする音声認識装置。
【請求項２】前記選択比較割当手段が、さらに、音素
として所定のリファレンスとなる句、語、文字および数
字からなるモデルおよび前記リファレンスとなる句、
語、文字および数字の音声を表す音素ストリングをスト
アするデータベースを有することを特徴とする請求項１
の装置。
【請求項３】前記選択比較割当手段が、さらに、ユー
ザによって発声された音声の受容に応答して、前記受容
された発声音声とストアされているそれぞれのリファレ
ンスとなる句、語、文字および数字とを比較しかつそれ
ぞれの比較に対して前記発声音声と前記比較されたリフ
ァレンスとなる句、語、文字および数字を構成している
音素ストリングとの近接度を表すトータルスコアを割り
当てる手段を有することを特徴とする請求項１の装置。
【請求項４】前記選択比較割当手段が、さらに、前記
リファレンスとなる句、語、文字および数字の選択に応
答して、前記発声音声と前記選択されたリファレンスと
なる句、語、文字および数字を構成している音素ストリ
ングのそれぞれの音素とを比較しかつそれぞれの比較に
対して前記発声音声とそれぞれの音素との近接度を表す
サブスコアを割り当てる手段を有することを特徴とする
請求項３の装置。
【請求項５】前記選択比較割当手段が、さらに、前記
音素サブスコアのそれぞれを受信する複数個の入力を有
しており、前記入力サブスコアを集計しかつ前記集計さ
れたサブスコアの分類として前記発声音声と前記選択さ
れたリファレンス句、語、文字および数字との近接度を
表す出力データを導出するニューラルネットワークを有
することを特徴とする請求項１の装置。
【請求項６】ユーザによって発声された音声ストリン
グ中の情報をリアルタイムで認識する音声認識装置を動
作させる方法において、当該方法が、ユーザによって発声された受信された音声と音素ストリ
ングによって表現されたストアされているリファレンス
音声モデルとを比較しそれぞれの比較に対して前記発声
された音声と前記リファレンスモデルとの間の近接度を
表すトータルスコアを割り当てる選択比較割当ステップ
と、最高の前記トータルスコアが割り当てられた前記リファ
レンスモデルを選択し前記発声音声と前記選択されたリ
ファレンスモデルのそれぞれの音素とを前記発声音声と
前記選択されたリファレンスモデルのそれぞれの音素と
の間の近接度を表すサブスコアを割り当てることによっ
て比較し前記音素サブスコアを集計し前記集計されたス
コアに従って前記受信された発声音声の前記選択された
リファレンスモデルとしての有効性を決定するステップ
とからなることを特徴とする音声認識方法。
【請求項７】前記選択比較割当ステップが、さらに、
前記受信された音声とストアされているそれぞれのリフ
ァレンスとなる句、語、文字および数字を比較しそれぞ
れの比較に対して前記発声音声と前記比較されたリファ
レンスとなる句、語、文字および数字を構成している音
素ストリングとの近接度を表すトータルスコアを割り当
てるステップを有することを特徴とする請求項６の方
法。
【請求項８】前記選択比較割当ステップが、さらに、
前記発声音声と前記選択されたリファレンスとなる句、
語、文字および数字を構成している音素ストリングのそ
れぞれの音素とを比較しかつそれぞれの比較に対して前
記発声音声とそれぞれの音素との近接度を表すサブスコ
アを割り当てるステップを有することを特徴とする請求
項６の方法。
【請求項９】前記選択比較割当ステップが、さらに、
前記音素サブスコアをニューラルネットワークに供給し
前記発声音声と前記選択されたリファレンス句、語、文
字および数字との近接度を表す前記音素サブスコアの分
類としての出力データを導出するステップを有すること
を特徴とする請求項６の方法。
【請求項１０】前記選択比較割当ステップが、さら
に、前記ニューラルネットワークによって導出された出
力データを所定のスレッショルドと比較しその値が前記
所定のスレッショルドからある規定された範囲にある場
合には前記ユーザによる発声音声を前記選択されたリフ
ァレンス句、語、文字および数字として識別するステッ
プを有することを特徴とする請求項６の方法。