JP2002535728A - サブワードメモリを含む音声認識装置 - Google Patents

サブワードメモリを含む音声認識装置

Info

Publication number
JP2002535728A
JP2002535728A JP2000595336A JP2000595336A JP2002535728A JP 2002535728 A JP2002535728 A JP 2002535728A JP 2000595336 A JP2000595336 A JP 2000595336A JP 2000595336 A JP2000595336 A JP 2000595336A JP 2002535728 A JP2002535728 A JP 2002535728A
Authority
JP
Japan
Prior art keywords
word
information
phoneme
subword
memory
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2000595336A
Other languages
English (en)
Inventor
ヘンリッヒ バートシィク
ディートリッヒ ジー クラコウ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Philips Electronics NV filed Critical Philips Electronics NV
Publication of JP2002535728A publication Critical patent/JP2002535728A/ja
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • G10L15/197Probabilistic grammars, e.g. word n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/187Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

(57)【要約】 【課題】公知の方法の問題点をなくし、第1段落と第2段落で述べたタイプに従う改良された音声認識装置を提供すること。 【解決手段】音声認識装置(2)であって、音声認識装置(2)の語彙を形成する少なくとも第1ワードと第2ワードの、ワード情報(WI)と、割り当てられた音素情報ワード情報(PI(WI))とが格納されるワードメモリ(10)を含み、音素情報(PI)を含む音声情報(SI)を適用でき、かつ、ワードメモリに格納されかつ与えられた音素情報(PI)に対応する音素情報を決定するようにされ、ワードメモリ(10)に格納されかつその格納された音素情報(PI(WI))に割り当てられているワード情報を、認識されたワード情報(WI)として生成するようにされた音声認識手段(6)を含み、ワードの一部を形成するサブワードを、少なくとも第1サブワードと第2サブワードのサブワード情報(SWI)と、割り当てられた音素情報(PI(SWI))として格納できるサブワードメモリ(11)を含み、サブワードメモリ(11)に格納され、かつ与えられた音素情報(PI)に対応する音素情報(PI(SWI))を決定するためと、サブワードメモリ(11)に格納され、かつその格納された音素情報(PI(SWI))に割り当てられているサブワード情報(SWI)を、認識されたサブワード情報(SWI)として生成するための、音声認識手段(6)を備え、少なくとも第1ワードと前記第2ワードで形成されるワードシーケンスの中の第1ワードのあとに前記第2ワードがくる確率を移行確率情報(UWI(WFI))として格納できる音声モデルワードメモリ(12)を備え、認識されたワード情報(WI)および/または認識されたサブワード情報(SWI)を含む少なくとも2つの表現シーケンス(AF)を形成するための音声認識手段(6)を備え、音声モデルワードメモリ(12)に格納されている移行確率情報(UWI(WFI))を評価することによって、少なくとも2つの表現シーケンス(AF)から、最高の全体確率(GWI)を有する認識されたテキストとして1つの表現シーケンス(AF)を認識するための音声認識手段(6)を備える、音声認識装置。

Description

【発明の詳細な説明】
【0001】
【発明が属する技術分野】
本発明は、音声認識装置であって、ワード情報と、前記音声認識装置の語彙を
形成する少なくとも第1ワードと第2ワードのワード情報の、割り当てられた音素
情報ワード情報とを格納できるワードメモリを含み、音素情報を含む音声情報を
与えることができ、かつ、前記ワードメモリに格納されかつ与えられた前記音素
情報に対応する音素情報を決定するように構成され、前記ワードメモリに格納さ
れかつその格納された音素情報に割り当てられている前記ワード情報を、認識さ
れたワード情報として生成するように構成された音声認識手段を含み、ワードの
一部を形成するサブワードを、少なくとも第1サブワードと第2サブワードのサブ
ワード情報と、割り当てられた音素情報として格納できるサブワードメモリを含
む、音声認識装置に関する。
【0002】 本発明は、また、音声認識方法であって、前記音声認識装置の語彙を形成する
少なくとも第1ワードと第2ワードの、ワード情報と、割り当てられた音素情報と
が格納されるワードメモリを含み、発声された文章の音素情報を含む音声情報が
適用され、かつ、前記ワードメモリに格納されかつ前記与えられた音素情報に対
応する音素情報を決定し、前記ワードメモリに格納され、かつその音素情報に割
り当てられたワード情報を、認識されたワード情報として生成するための音声認
識手段を含み、ワードの一部を形成するサブワードが、少なくとも第1サブワー
ドと第2サブワードのサブワード情報と割り当てられた音素情報として格納され
るサブワードメモリを含む、音声認識装置によって、新しいワードを含む発声さ
れた文章を認識するための音声認識方法にも関する。
【0003】
【従来の技術】
第1段落で述べたタイプの音声認識装置と、第2段落で定義されたタイプの音声
認識方法は、公開公報EP 0 590 173 A1から公知である。音声認識装置のユーザ
によって話され、かつ音素情報を含む文章の音声情報は、マイクロフォンによっ
てこの公知の音声認識装置に与えることができる。音素情報は、音声認識装置の
音声認識手段に与えることができ、この音声認識手段によって認識されたワード
情報は、認識済み文章として、この音声認識装置に接続できるモニタに与えるこ
とができる。認識された文章のワード情報は、モニタによって表示させることが
できる。
【0004】 音声認識手段は、音声情報に含まれるワード情報を認識するためのワードメモ
リを含む。ワードメモリは、音声認識装置によって認識されたワードのすべてを
、音声認識装置の語彙を形成するワード情報として格納する。各ワード情報信号
ごとに、その対応する格納されたワードを特徴づける音素シーケンスを形成する
音素情報が、格納されている。
【0005】 公知の音声認識方法が公知の音声認識装置に実装されている場合には、発声さ
れた文章の音声情報に含まれる音素シーケンスは、音声認識手段によって決定さ
れ、ワードメモリに格納されている音素シーケンスと比較される。この比較によ
り、決定された音素シーケンスと格納されている音素シーケンスとの間に一致し
たシーケンスが見出されると、格納されているその音素シーケンスに割り当てら
れている格納済みワード情報が、認識されたワードとしてワードメモリから取り
出される。
【0006】 発声された文章の音声情報が、ワードメモリにワード情報と音素情報が格納さ
れていない新しいワードを含む場合には、音声認識手段は、ワードメモリに格納
されている音素情報が、その新しいワードを表す音声情報の音素情報の部分と最
も一致部分が多いワードを、認識されたワードと決定する。この音声認識方法の
実行後、認識された文章は、新しいワードが誤って認識された状態で、モニタに
示される。これにより、公知の音声認識装置のユーザは、この誤って認識された
ワードのスペル(文字列)を、実際に発声された新しいワードの正しいスペル(
文字列)に訂正することができる。
【0007】 公知の音声認識装置は、サブワードを形成するワードの一部を、サブワード情
報と割り当てられた音素情報として格納することができるサブワードメモリを含
む。この公知の音声認識装置は、ユーザが、誤って認識された新しいワードを、
実際に発声されたその新しいワードのスペル(文字列)に訂正した後、この新し
いワードの音素シーケンスを決定し、この新しいワードに含まれるサブワードと
サブワードメモリに格納されているサブワードとを比較することによって、新し
いワードのワード情報と音素情報をワードメモリに格納するように構成されてい
る。この結果、公知の音声認識装置の語彙は、この新しいワード分増大する。
【0008】 この公知の音声認識装置の場合、ワードメモリに格納されているワードの移行
確率を格納しておくことができる音声モデルワードメモリが存在しないことが、
欠点であることが判明した。なぜなら、音声モデルワードメモリに格納されてい
る移行確率を評価することによって、音声識方法を実行すると、かなり良好な認
識率を達成することができるからである。音声モデルワードメモリを音声認識装
置の中に備え、それによってより良好な認識率を達成することができることは、
長年に渡って知られている。
【0009】 しかし、公知の音声認識装置における音声モデルワードメモリの構成の問題点
が、本発明の本質部分である請求項1に規定される手段が認識し、解決している
点である。公知の音声認識装置のこの音声認識方法が、音声モデルワードメモリ
を使用して実行されると、発声された文章の音素情報に対するいくつかの可能な
ワードシーケンスは、この音声認識手段によって決定される。前述したように、
発声された文章に現れる新しいワードは、ワードメモリに格納されているワード
、つまり誤ったワードが認識されたワードととして決定され、利用可能なワード
シーケンスに挿入されてしまう。
【0010】 利用可能なワードシーケンスのうちの1つは、ワードシーケンスのワードの移
行確率に基づいて計算されると、全体確率が最高であるワードシーケンスとして
決定され、かつこの音声認識装置によって、認識済みワードシーケンスとして生
成されてしまう場合がある。しかし、可能なワードシーケンスの内の1つにおい
て、新しいワードに対して誤って認識されたワードは、新しいワードが低い移行
確率をもつ可能なワードシーケンスに隣接するワードにおいて、高い移行確率を
持つ。この結果、新しいが誤って認識されたワードに隣接するワードも誤って認
識された可能なワードシーケンスの1つは、全体確率が最高となるであろう。こ
のため、ワードシーケンス全体が誤って認識されてしまい、これは大きな欠点と
なる。
【0011】
【課題を解決するための手段】
本発明の目的は、前述した問題点をなくすことと、第1段落で述べたタイプに
従う改良された音声認識装置を提供することである。この目的は、前記サブワー
ドメモリに格納され、かつ前記与えられた音素情報に対応する音素情報を決定す
るためと、前記サブワードメモリに格納され、かつその格納された音素情報に割
り当てられている前記サブワード情報を、認識されたサブワード情報として生成
するための、前記音声認識手段を備えることと、少なくとも前記第1ワードと前
記第2ワードで形成されるワードシーケンスの中の前記第1ワードのあとに前記第
2ワードがくる確率を移行確率情報として格納できる音声モデルワードメモリを
備えることと、認識されたワード情報および/または認識されたサブワード情報
を含む少なくとも2つの表現シーケンスを形成するための前記音声認識手段を備
えることと、前記音声モデルワードメモリに格納されている移行確率情報を評価
することによって、前記少なくとも2つの表現シーケンスから、最高の全体確率
を有する前記認識された文章として1つの表現シーケンスを認識するための前記
音声認識手段を備えることを特徴とする、音声認識装置によって達成される。
【0012】 この結果、この音声認識装置の場合、ワードメモリに格納されていないワード
を含む発声された文章に対して音声認識方法が実行されると、この新しいワード
のサブワードシーケンスが、発声された文章の認識されたワードによって形成さ
れるワードシーケンスに挿入され、その結果1つの表現シーケンスが保持される
。この動作中、サブワードメモリに格納されているこれらのサブワードが、その
連結された音素情報が発声された文章の音素情報の一部(新しいワードに割り当
てられるべき部分)に対応しているサブワードシーケンスに、挿入される。次で
、音声モデルワードメモリに格納されている移行確率が評価され、最大の全体確
率を有する表現シーケンスが認識されるとき、新しいワードのサブワードシーケ
ンスについては、音声モデルワードメモリに他のワードの移行確率が格納されて
いない。この結果、発声された文章の中の新しいワードに隣接するワードは誤っ
て認識されない利点が得られる。この方法によると、配備されている音声モデル
ワードメモリの利点が享受されると同時に、この音声モデルワードメモリの使用
の際に新しいワードについて発生する欠点が避けられるため、かなり良好な認識
率を有する音声認識装置が得られる。
【0013】 請求項1に記載される音声認識装置が、請求項2に記載される手段を備えること
は有利であることが判明した。これにより、音声認識方法が実行されるときに、
サブワードメモリに格納されているサブワードが、新しいワードを表すサブワー
ドシーケンスに挿入され、1つのサブワードから別のサブワードへの移行確率も
考慮されるようになる。このことは、サブワードシーケンスと新しいワードとの
適合性が非常に良くなり、音声認識装置の認識率がさらに向上するという利点を
もたらす。
【0014】 請求項1に記載される音声認識装置が、請求項3に記載される手段を備えること
は利点になることが判明した。これにより、可能な表現シーケンスの全体確率の
決定がさらに良好になり、さらに良好な認識率が達成されるという利点が得られ
る。
【0015】 請求項1に記載される音声認識装置が、請求項4に記載される手段を備えること
は利点になることが判明した。これにより、統計的背景情報に基づくワード決定
手段を使用することにより、音声認識手段によって認識されるサブワードシーケ
ンスのスペル(文字列)を、その言語において普通に使われるスペル(文字列)
に適合させることができるので、その新しいワードの明らかに正しいスペル(文
字列)を決定することができる。
【0016】 請求項4に記載される音声認識装置が、請求項5に記載される手段を備えること
は利点になることが判明した。これによると、音声認識装置における音声認識方
法の実行後、ユーザは、新しいワードを表すサブワードシーケンスのスペル(文
字列)を正しいスペル(文字列)に訂正し、その後その新しいワードをワードメ
モリに格納することが出来るので、音声認識装置の語彙が増えるという利点が得
られる。
【0017】 請求項5に記載される音声認識装置の場合、ユーザは、新しいワードの対応付
けられた音素シーケンスを決定するために、ワードメモリに格納されている新し
いワードをマイクロフォンに何回も発声する必要があるかもしれない。しかし、
請求項6に記載される手段を備えることは、大きな利点をもたらすことが判明し
た。このことは、ユーザが新しいワードをトレーニングする必要がないという利
点をもたらす。
【0018】 本発明のさらなる目的は、前述した問題をなくすことと、第2段落に定義され
ているタイプに従う改良された音声認識方法を提供することである。この目的は
、 前記音声認識手段が、前記サブワードメモリに格納され、かつ前記与えられた音
素情報に対応する音素情報を決定して、前記サブワードメモリに格納され、かつ
その格納された音素情報に割り当てられた前記サブワード情報を、認識されたサ
ブワード情報として生成し、 少なくとも前記第1ワードと前記第2ワードから形成されるワードシーケンスにお
いて前記第1ワードのあとに前記第2ワードがくる確率が移行確率情報として格納
される音声モデルワードメモリを備え、 前記音声認識手段が、認識されたワード情報および/または認識されたサブワー
ド情報を含む少なくとも2つの表現シーケンスを形成し、 前記音声認識手段が、前記少なくとも2つの表現シーケンスから、最高の全体確
率を有する前記認識された文章として1つの表現シーケンスを認識するために、
前記音声モデルワードメモリに格納されている移行確率情報を評価する、 音声認識方法によって達成される。
【0019】 本発明による音声認識方法の利点は、本発明による音声認識装置の前述した利
点の結果である。
【0020】 本発明の上述した観点とその他の観点は、以下に説明する実施例を参照して、
明確になるであろう。
【0021】
【発明を実施するための形態】
標準文字による標記が不可能であるので、本明細書においては、次のように定
義した用語1〜3を使用する。用語1 用語2 用語3
【0022】 図1は、音声認識装置2が配備されているパーソナルコンピュータ1をブロック
回路図の形式で示す。音声認識装置2には、ユーザによる音声情報SIを供給する
ことができ、そして音声認識装置2は、音声情報SIに含まれる音素情報を認識し
、かつ認識された文章のワード情報WIを生成する。
【0023】 音声認識装置2は、マイクロフォン4を接続することのできる入力端3を有する
。マイクロフォン4は、音声情報SIを、電気入力信号として音声認識装置2の入力
端3に送ることができる。マイクロフォン4は、制御情報信号STを音声認識装置2
に送るための制御キー5を有する。
【0024】 音声認識装置2のユーザが、認識させる音声情報SIとして、文章をマイクロフ
ォン4に発声しようとする場合には、ユーザは、制御キー5を起動させる。すると
、発声された文章に含まれる音声情報SIは、入力端末3に送られ、かつ制御情報S
Tは音声認識装置2に送られる。
【0025】 音声認識装置2は、音声認識手段6を有する。この音声認識手段6は、入力信号
の音声情報SIに含まれる発声された文章の音素情報PIを認識し、かつ認識された
文章のワード情報WIを生成する。この目的のために、音声認識手段6は、A/Dコン
バータ段7、メモリ段8、計算手段9、ワードメモリ10、サブワードメモリ11、音
声モデルワードメモリ12、音声モデルサブワードメモリ13を有する。
【0026】 入力端3に電気入力信号として送られた音声情報SIは、A/Dコンバータ段7に与
えることができる。デジタル化された音声情報SIは、A/Dコンバータ段7によって
メモリ段8に与えることができる。メモリ段8に与えられたデジタル音声情報SIは
、このメモリ段8に格納することもできる。
【0027】 音声認識装置2により作動させることのできる音声再生モード(図1には示され
ていない)の場合、メモリ段8に格納されているデジタル音声情報SIは、D/Aコン
バータ段14に与えることができる。この音声再生モードでは、D/Aコンバータ段1
4は、音声認識装置2のユーザがマイクロフォン4に発声した文章を音として再現
するために、アナログ音声情報SIを電気出力信号としてスピーカ15に与えること
ができる。
【0028】 計算手段9は、マイクロプロセッサによって構成されていて、アドレス/データ
バスによって、ワードメモリ10、サブワードメモリ11、音声モデルワードメモリ
12、音声サブモデルワードメモリ13に接続されている。メモリ段8に格納されて
いるデジタル音声情報SIと制御情報STは、マイクロフォン4によって計算手段9に
与えることができる。音声認識装置の音声認識方法が実行されると、計算手段9
は、ワードメモリ10、サブワードメモリ11、音声モデルワードメモリ12、音声モ
デルサブワードメモリ13に格納されている情報を評価することによって、ワード
情報WIおよび/またはサブワード情報SWIを含む表現シーケンスAFを決定すること
ができる。この表現シーケンスAFについては、以下にさらに詳しく説明する。
【0029】 音声認識手段6は、さらに、ワード決定手段16と、バックグラウンド情報メモ
リ17を有する。計算手段9に与えられた音声情報SIの音素情報PIと、音声認識方
法が実行されたときに計算手段9によってその音素情報PIに対して認識された表
現シーケンスAFは、ワード決定手段16に与えることができる。音声認識方法がさ
らに実行されると、ワード決定手段16は、バックグラウンド情報メモリ17に格納
されているバックグラウンド情報を評価することによって、認識された表現シー
ケンスに含まれる少なくとも1つのサブワードシーケンスのおそらく正しいスペ
ル(文字列)を決定することができる。この認識された表現シーケンスについて
は、あとからさらに詳しく説明する。
【0030】 ワード決定手段16は、認識された表現シーケンスAFを出力端18に与えることが
できる。ここで、この表現シーケンスAFに含まれる少なくとも1つのサブワード
シーケンスは、認識された文章のワード情報WIとして少なくとも1つの新しいワ
ードのワード情報NWIにより置換されている。出力端末18には、表示手段を形成
するモニタ19が接続されていて、出力端18から送られた認識された文章のワード
情報WIをモニタによって表示させることができる。
【0031】 音声認識装置2には、さらに、入力手段を構成するキーボード20が接続されて
いる。モニタ19に表示された新しいワードのスペル(文字列)は、音声認識装置
2のユーザが変更させることができ、そして新しいワードの変更後のワード情報N
WIは、モニタ19に表示させることができる。ユーザが、ワード決定手段16によっ
て決定された新しいワードのスペル(文字列)を変更し、その新しいワードの正
しいスペル(文字列)をワードメモリ10に格納したい場合には、新しいワードの
変更後のワード情報NWIを、キーボード20のキーの操作によってワード情報WIと
して格納することができる。
【0032】 このことは、音声認識装置2における音声認識方法の実行後、ユーザが、新し
いワードを表すサブワードシーケンスのスペル(文字列)を、その新しいワード
の正しいスペル(文字列)に変更することができ、その後新しいワードをワード
メモリ10に格納して音声認識装置2の語彙を増やすことができるという利点をも
たらす。
【0033】 ワードメモリ10には、音声認識装置2の語彙を構成する最大64,000までの個々
のワードを、ワード情報WIとして格納することができる。音声認識装置2は、発
声された文章の音声情報SIに含まれるワードのうち、ワードメモリ10に格納され
ているもののみをワードとして認識する。
【0034】 ワードメモリ10は、法律家の語彙に相当する、特定のいわゆる「文脈」関係に
あるワードのワード情報WIを格納する。これにより、発声された文章の音声情報
SIは、この「文脈」関係から非常に適切に認識することができる。例えば、医者
やセールスマンの文脈など、別の「文脈」関係のワード情報WIを格納してもよい
【0035】 この実施例の場合、ドイツ語の情報が、ワードメモリ10、サブワードメモリ11
、音声モデルワードメモリ12、音声モデルサブワードメモリ13に格納されていて
、音声認識装置2は、ドイツ語で発声された文章の音声情報SIを認識するように
構成されている。以下に説明する最初の例では、音声認識装置2における音声認
識方法の実行が、ドイツ語の代表的な定形表現を考慮して説明される。しかし、
本発明による音声認識装置は、任意の言語で発声された音声情報SIから文章を認
識するように構成することができる。
【0036】 ワードの各ワード情報要素WIごとに、そのワードを特徴づける音素シーケンス
は、音素情報PI(WI)としてワードメモリ10に格納することができる。音素シーケ
ンスの音素とは、発声された音声情報SIを分割するさいに、区別することのでき
る最小の音単位のことである。
【0037】 図2の第1テーブル21には、ワードメモリ10に格納されているワード情報WIと、
各ワードに対応して格納されている音素情報PI(WI)とが示されている。説明を単
純にするため、ワード情報WIは、第1テーブル21において置換文字A、B、C、…、
Gを有する。この最初の例の場合、第1テーブル21には、ワード"用語1"のワード
情報WI = A、ワード"mit"のワード情報WI = B、ワード"freundlichen"のワード
情報WI = C、ワード"用語2"のワード情報WI = D、ワード"fremden"のワード情
報WI = E、ワード"用語3"のワード情報WI = F、ワード"Feuchten"のワード情報
WI = Gが含まれる。第1テーブル21に入力されたワード情報WIは、ワードメモリ1
0に格納されていワード情報WIをさらに置換する。このため音声認識装置2の語彙
は、ワード情報WIとして第1テーブル21に示されている7つのワードも含む。
【0038】 サブワードメモリ11には、サブワード情報SWIとして、ワードの一部を構成す
るサブワードを、かつ割り当てられた音素情報PI(SWI)を格納することができる
。この場合のサブワードは、加えることによりワードを構成することができる個
々の文字と、ワードの音節または一部との両方を構成する。
【0039】 図3の第2テーブル22には、サブワードメモリ11に格納されている、サブワード
情報SWIと、各サブワードに対応して格納されている音素情報PI(SWI)とが含まれ
ている。説明を単純にするため、第2テーブル22には、サブワード情報SWIの文字
a、b、c、…、gが入力されている。最初の例によると、第2テーブル22には、サ
ブワード"eu"のサブワード情報SWI = a、サブワード"gen"のサブワード情報SWI
= b、サブワード"f"のサブワード情報SWI = c、サブワード"r"のサブワード情報
SWI = d、サブワード"i"のサブワード情報SWI = e、サブワード"sch"のサブワー
ド情報SWI = f、サブワード"st"のサブワード情報SWI = gが含まれる。第2テー
ブル22に入力された7つのサブワード情報信号SWIは、サブワードメモリ11に格納
されているさらなる多数のサブワード情報信号SWIを置換する。
【0040】 音声認識装置2の音声モデルワードメモリ12は、2つのワードによって形成され
るワードシーケンスにおいて、ワードメモリ10に格納されている最初のワードの
あとにワードメモリ10に格納されている2番目のワードがくる確率を、移行確率
情報UWI(WFI)として格納することができる。この音声モデルワードメモリ12には
、それぞれ2つのワードを有する、連字(bigrams)としても知られるワードシーケ
ンスを、ワードシーケンス情報WFIとして格納することができる。
【0041】 図4は、音声モデルワードメモリ12に格納されている、ワードシーケンスのワ
ードシーケンス情報WFIと、割り当てられた移行確率情報UWI(WFI)とを含む第3テ
ーブル23を示す。例えば、第3テーブル23の第2行には、発声された文章の音声情
報SIの中の2つのワードによって形成されるワードシーケンスにおいて、ワード
情報WI = Cを有するワード"freundlichen"が、ワード情報WI = Bを有するワード
"mit"のあとに続き、かつ移行確率情報UWI = (WFI) = 5を有するという情報が含
まれている。移行確率情報UWI(WFI)の値が小さいことは、移行確率が高いことを
示す。
【0042】 この結果、音声認識方法が実行されるときにワード"mit"が認識されると、UWI
(WFI) = 5という非常に小さい値によって示される高い確率で、発声された文章
に含まれる次のワードが"freundlichen"であると想定することができる。第3テ
ーブル23に入力された6つのワードシーケンス情報要素WFIは、音声モデルワード
メモリ12に格納されているさらなる多数のワードシーケンス情報要素WFIを置換
する。
【0043】 音声認識装置2の音声モデルサブワードメモリ13は、2つのサブワードによって
形成されるサブワードシーケンスにおける、サブワードメモリ11に格納されてい
る最初のサブワードのあとに、サブワードメモリ11に格納されている2番目のサ
ブワードがくる確率を、移行確率情報UWI(SWFI)として格納することができる。
この音声モデルサブワードメモリ13は、それぞれが2つのサブワードを有するサ
ブワードシーケンスを、この場合にも連語を構成するサブワードシーケンス情報
SWFIとして格納することができる。
【0044】 図5は、音声モデルサブワードメモリ13に格納されている、サブワードシーケ
ンスのサブワードシーケンス情報SWFIと、割り当てられた移行確率情報UWI(SWFI
)とを含む第4テーブル24を示す。例えば、第4テーブルの第3行には、発声された
文章のワードにおいて、サブワード情報SWI = cを有するサブワード「f」と、サ
ブワード情報SWI = aを有するサブワード"eu"とによって形成されるサブワード
シーケンスが、移行確率情報UWI(SWFI) = 2を有するという情報が含まれている
。移行確率情報UWI(SWFI)の値が小さいということは、移行確率が高いことを意
味する。例えば、サブワードシーケンス"feu"は、ワード"feuchten"のみならず
、ワード"feurigen"にも含まれている。第4テーブル24に入力されている7つのサ
ブワードシーケンス情報要素SWFIは、音声モデルサブワードメモリ13に格納され
ているさらに多くのサブワードシーケンス情報要素SWFIを置換する。
【0045】 音声モデルワードメモリ12については、ワードシーケンス情報WFIの中のワー
ド情報WIが、ワードメモリ10に再び格納されるのではなく、音声モデルワードメ
モリ12におけるメモリ容量を節約するために、アドレスポインタが、音声モデル
ワードメモリ12内のワードシーケンス情報WFIとして、ワードメモリ10内の各ワ
ード情報WIのメモリ位置に、格納されることは、理解されるであろう。例えば、
第3テーブル23の第2行には、ワードシーケンス情報WFI = B+Cの情報として、第1
テーブル21の第3行を指すアドレスポインタと、第1テーブルの第4行を指すアド
レスポインタが格納されている。これと同様に、サブワード情報SWIは、サブワ
ードメモリ11にのみ格納されていて、音声モデルサブワードメモリ13には、サブ
ワードメモリ11内のメモリ位置を指すアドレスポインタがサブワードシーケンス
情報SWFIとして格納されている。
【0046】 以下では、音声認識手段6における音声認識方法の実行を、最初の例により説
明する。最初の例によると、ユーザが、制御キー5を押し、マイクロフォン4に文
章"Hans verabschiedete sich von Anna mit feurigen 用語2 und ging nach H
ause"を発声するとする。発声された文章の音声情報SIは、まずマイクロフォン4
によってA/Dコンバータ段7に送られ、次に、A/Dコンバータ段7によってデジタル
音声情報SIとしてメモリ段8に送られ、ここに格納される。マイクロフォン4によ
って送られた制御情報STは、計算手段9に与えられ、これにより音声認識方法の
実行を開始させることができる。音声認識方法が実行されるたびに、メモリ段8
に格納されているデジタル音声情報SIのセクションが、計算手段9によって読み
出され、音声情報SIのセクションに含まれる認識されたワードとワードシーケン
スは、いわゆる"Hidden-Markov-Modell"法に従って処理される。
【0047】 以下、発声された文章の一部"mit feurigen 用語2"に対応する、メモリ段8に
格納されている音声情報SIのセクションを、例として、音声認識方法の実行につ
いて説明する。
【0048】 図6は、音声認識方法の実行時に決定された利用可能な表現シーケンスAFが入
力されている第5テーブルを示す。音声認識方法の実行の説明を単純にするため
、第5テーブルの第1行には、ワードシーケンスWF = "mit feurigen 用語2"が追
加的に含まれているが、この行は、実際に音声認識方法を実行するときには存在
しない。
【0049】 音声認識方法の実行時には、長年に渡って知られているように、計算手段9が
、音声情報SIのセクションに含まれる音素情報PIを決定する。次に、決定された
音素情報PIは、ワードメモリ10に格納されている音素情報PI(WI)と比較される。
この比較により、決定された音素情報PIに対応する音素情報PIがワードメモリ10
の中に発見されると、その発見された音素情報PIに割り当てられている、格納さ
れているワード情報WIが、認識されたワード情報WIとして、第5テーブル25の利
用可能な表現シーケンスAFに挿入される。
【0050】 音声認識手段6は、利用可能な表現シーケンスAFに挿入された、認識されたワ
ード情報WIに対応する音素値PUWを決定するように構成されている。この場合、
対応値PUWは、音声認識手段6による音素情報の認識中に供給された音声情報SIに
含まれる音素情報PIと、認識されたワード情報WIの音素情報PIとの、一致の程度
または一致を示す。対応音素値PUWの大きさが小さいと、比較された音素情報PI
との一致度が大きいか一致し、ワードが正しく認識された可能性が高い。
【0051】 第5テーブルの第3行には、最初の可能な表現シーケンスAF1が示されていて、
このAF1は、認識されたワード情報WI = B("mit")、WI = C("freundlichen")、WI
= F("用語3")を含む。音声情報SIのセクションに含まれる音素情報PIが、ワー
ド"mit"のワード情報WI = Bに対してワードメモリ10に格納されている音素情報P
I(B)と比較され、その音素情報PIが非常に大きな一致性を有すると判断され、そ
の結果、ワード"mit"のワード情報WI = Bの対応音素値PUW1の値は、第5テーブル
25の第4行、第2列に示されているように、"4"となる。したがって、発声された
文章に含まれるこのワードが、認識されたワード"mit"である確率は非常に大き
い。
【0052】 発声された文章の音声情報SIのセクションに含まれるワード"feurigen"は、音
声認識装置2の語彙に属しておらず、このためワードメモリ10には格納されてい
ない。最初の可能な表現シーケンスAF1が決定されると、未知のワード"feurigen
"に類似し、かつワードメモリ10にワード情報WI = Cが格納されているワード"fr
eundlichen"が認識される。ワード"freundlichen"について決定された対応音素
値PUW1の値は、"35"である。何故ならば、音声情報SIのセクションの比較された
音素情報PIと、格納されている音素情報PI(C)とが、中程度の一致しか有さない
からである。このため、ワード"freundlichen"が正しく認識された可能性は、小
さい。
【0053】 音声認識装置2に認識させる音声情報SIのセクションの3番目のワード"用語2"
については、計算手段9は、音声認識方法が実行されると、ワードメモリ10から
のワード"用語3"を決定する。この理由は、ユーザが、ワード"用語2"を通常と
は少し違って発音したため、ワード情報WI = Dとともにワードメモリ10に格納さ
れている、このワードに対応する音素情報PI(D)が、音声情報SIのセクションに
含まれる音素情報PIに明確に一致しないためである。ワード"用語3"に対してこ
の動作時に決定された対応音素値PUW1の値は"20"である。何故ならば、音声情報
SIのセクションの比較された音素情報PIと、ワード"用語3"の格納されている音
素情報PI(F)とが中程度の一致性しか有さないためである。
【0054】 音声認識手段6と、さらに、計算手段9は、音声認識方法が実行されると、音声
情報SIのセクションに含まれる音素情報PIと、ワードメモリ10に格納されている
音素情報PI(WI)とを比較することによって、利用可能な表現シーケンスAFのワー
ドを決定するのみならず、利用可能な表現シーケンスAFに含まれるワードシーケ
ンスの移行確率情報UWI(WFI)も決定するように構成されている。移行確率情報は
、音声モデルワードメモリ12から取得され、第5テーブル25に入力される。
【0055】 計算手段9は、音声モデルワードメモリ12に格納されている第3テーブル23の第
2行から、ワードシーケンス情報WFI = B+Cを有するワードシーケンス"mit freun
dlichen"に含まれる移行確率情報UWI(B+C) = 5を決定し、この移行確率情報は、
第5テーブル25の第2行、第3列に入力される。また、ワードシーケンス情報WFI =
C+Fを有するワードシーケンス"freundlichen "用語3"の移行確率情報UWI(C+F)
= 2も決定され、第5テーブル25の第2行、第5列に入力される。
【0056】 シーケンス"mit freundlichen "用語3"は、ドイツ語における典型的な定形表
現であり、多くの手紙に現れるので、移行確率情報UWI1は、小さい値である。
【0057】 音声認識手段6と計算手段9は、音声認識方法が実行されると、最初の可能な表
現シーケンスAF1の対応音素値PUW1に基づいて、全体確率情報(GWI1)を決定し、
この全体確率情報GWI1を第5テーブル25の第7列に入力するように構成されている
。この動作時には、対応音素値PUW1と移行確率情報要素UWI1が加算され、これに
より全体確率情報GWI1 = 66が得られる。全体確率情報GWIの値が小さければ、音
声情報SIのセクションに含まれる発声されたワードシーケンスに対応する可能な
表現シーケンスAFの確率が高い。
【0058】 全体確率情報GWIを算出するとき、必要であれば、対応音素値PUWと移行確率情
報UWIを加算する前に、対応音素値PUWまたは移行確率情報UWIに重み係数を乗算
することにより、対応音素値PUWまたは移行確率情報UWIにより大きい重みを加え
ることができる。
【0059】 音声認識方法がさらに実行されると、計算手段9は、ワードシーケンスが"mit
fremden "用語2"である2番目の可能な表現シーケンスAF2を決定し、このシーケ
ンスを第5テーブル25の第6行に入力する。計算手段9は、前述と同様に、2番目の
可能な表現シーケンスAF2のワード情報WIの対応音素値PUW2を決定し、これらの
音素値PUW2を、第5テーブル25の第7行に入力する。計算手段9は、音声モデルワ
ードメモリ12に格納されている移行確率情報UWI(WFI)を評価することによって、
2番目の可能な表現シーケンスAF2の移行確率情報UWI2を決定し、これを第5テー
ブル25の第5行に入力する。
【0060】 ワードシーケンス"mit fremden "用語2"は、ドイツ語においてめったに現れ
ないので、移行確率情報UWI2は、相対的に高い値である。音声認識方法が実行さ
れると、計算手段9は、2番目の可能な表現シーケンスAF2の全体確率情報GWI2を
、移行確率情報UWI2と対応音素値PUW2の合計として決定し、これを第5テーブル2
5の第7行に書き込む。
【0061】 音声認識方法がさらに実行されると、計算手段9は、ワードシーケンス"mit fr
euchten "用語2"を有する3番目の可能な表現シーケンスAF3を決定し、このシー
ケンスを第5テーブル25の第9行に書き込む。ワード"用語2"の対応音素値PUW3 =
9が決定されるとき、これは、前述したようにそれほど小さい値にはならない。
何故ならば、ワード"用語2"が通常とは少し違って発音されたため、発声された
文章に含まれる音素情報PIの音声情報SIのセクションにおけるワードメモリ10に
格納されている音素情報PI(D)から少しずれるためである。計算手段9によって決
定された、3番目の可能な表現シーケンスAF3の対応音素値PUW3と、決定された移
行確率情報UWI3との加算によって、3番目の可能な表現シーケンスAF3の全体確率
情報GWI3 = 78が生成され、この値が第5テーブル25の第7列に書き込まれる。
【0062】 音声認識手段6と計算手段9は、サブワードメモリ11に格納され、かつ音声情報
SIのセクションに含まれる音素情報PIに対応する音素情報PI(SWI)を決定し、サ
ブワードメモリ11に格納され、かつこの格納された音素情報PI(SWI)に割り当て
られたサブワード情報SWIを、認識されたサブワード情報SWIとして生成するよう
に構成されている。
【0063】 この結果、サブワードシーケンスが、可能な表現シーケンスAFの中のおそらく
は誤って認識されたワードの代わりに、可能な表現シーケンスにさらに書き込ま
れる。このサブワードシーケンスは、発声された文章に含まれる新しいワードに
おおよそ一致し、かつ認識方法の実行時にそのワードを表す。
【0064】 計算手段9は、音声認識方法の実行の最初の例に従って、4番目の可能な表現シ
ーケンスAF4を決定し、これを第5テーブル25の第12行に書き込む。この4番目の
可能な表現シーケンスAF4の場合、他の可能な表現シーケンスAF1、AF2、AF3にお
いて、すべて相対的に高い対応音素値PUWを有するワード"freundlichen"、"frem
den"、"feuchten"が決定されていた音声情報SIのセクションの音素情報PIに対し
て、サブワードシーケンス情報SWFI = c+a+d+e+bを有するサブワードシーケンス
が認識される。 このサブワードシーケンスは、サブワード"f"、"eu"、"r"、"i"、"gen"の連結か
ら構成されている。サブワードメモリ11に格納されているこれらのサブワードの
音素情報PI(SWI)は、音声情報SIのこのセクションに含まれる音素情報PIを非常
に正確にコピーするので、サブワード情報SWIは、非常に低い対応音素値PUW4 =
1を有する。サブワード情報SWIのこの対応音素値PUW4 = 1は、第5テーブル25の
第13行、第4列に書き込まれる。
【0065】 計算手段9は、音声モデルサブワードメモリ13格納され、かつサブワードシー
ケンスSWFのサブワード情報SWI = c+a+d+e+bに割り当てられた移行確率情報UWI(
SWFI)を決定するようにされている。このようにして決定された移行確率情報UWI
(SWFI)は、第5テーブル25の第11行、第4列に書き込まれる。
【0066】 サブワードシーケンスSWFのサブワードの移行確率情報UWI4と、サブワードシ
ーケンスのサブワードの対応音素値PUW4を加算することで得られる値"32"は、音
声情報SIのこのセクションの音素情報PIについて、他の可能な表現シーケンスAF
1、AF2、AF3において決定されたワードの対応音素値PUWより小さいことは、理解
されるであろう。このことから、新しいワードをサブワードシーケンスによって
非常にうまくコピーすることができることは明らかである。
【0067】 この実施例によると、ワードからサブワードに移行確率情報UWIを分割したり
、サブワードからワードに移行確率情報UWIを構築することはないので、4番目の
可能な表現シーケンスAF4の移行確率情報UWI4に対しては、第11行、第3列および
第5列には値が書き込まれない。しかし、このような移行確率情報UW1を決定する
ことは、場合によっては利点があるかもしれない。
【0068】 4番目の可能な表現シーケンスAF4の全体的移行確率情報GWI4を得るため、4番
目の表現シーケンスAF4の決定された対応音素値PUW4と移行確率情報UWI4とが加
算され、その結果4番目の表現シーケンスAF4の全体確率情報GWI4 = 45が決定さ
れ、そして第5テーブル25の第7列に書き込まれる。
【0069】 この結果、音声モデルワードメモリ12と音声モデルサブワードメモリ13に格納
されている移行確率情報UWIを評価することと、表現シーケンスAFが認識された
ワード情報WIと認識されたサブワード情報SWIに対して可能である、決定された
対応音素値PUWの表現シーケンスAFを評価することとによって、音声認識手段6は
、認識されたワード情報WIおよび/または認識されたサブワード情報SWIを含む表
現シーケンスAFを、最小の全体確率情報GWIを有する最大全体確率を有する認識
された文章として認識するように構成されている。これにより、計算手段9は、
音声情報SIの各セクションに対して、全体確率情報GWI4 = 45を有する4番目の表
現シーケンスAF4を認識された文章として決定する。
【0070】 このことは、"mit feurigen 用語2"と認識されるべきワードシーケンスの場
合、ワードメモリ10に含まれていない"feurigen"に隣接する新しいワード"mit"
と"用語2"が、誤って認識されなかったという利点をもたらす。これに対し、例
えば、次に高い全体確率情報GWI1 = 66を有する最初の表現シーケンスAF1の場合
、これらのワードは誤って認識されることになる。さらに、移行確率情報UWIと
対応音素値PUWの両方を評価することによって、可能な表現シーケンスAFの全体
確率がきわめて正確に決定されるため、音声認識装置2のきわめて良好な認識率
が達成される。
【0071】 音声認識方法がさらに実行されると、認識された表現シーケンスAF4と、音声
情報SIの各セクションに含まれる音素情報PIとが、ワード決定手段16に送られる
。ワード決定手段16は、バックグラウンド情報メモリ17に格納されているバック
グラウンド情報を評価することによって、4番目の表現シーケンスAF4に含まれる
サブワードシーケンス("f~eu~r~i~gen")によって表される新しいワードのおそら
く正しいスペル(文字列)を決定する。
【0072】 図7は、ワード情報WIと、それに対応して格納されている音素情報PI(WI)とを
含む第6テーブル26を示し、このうちPI(WI)は、バックグラウンド情報としてバ
ックグラウンド情報メモリ17に格納されている。バックグラウンド情報メモリ17
には、ドイツ語において一般的に大きな語彙であり、かつ特定の「文脈」に限定
されないワード情報WIが格納されている。
【0073】 新しいワードのおそらく正しいスペル(文字列)を決定するための音声認識方
法の最初のステップにおいて、サブワードシーケンス(“f~eu~r~i~gen")が決定
された、音声情報SIのセクションの音素情報PIが、バックグラウンド情報メモリ
に格納されている音素情報PI(WI)と比較される。ワード"feurigen"がバックグラ
ウンド情報メモリ17に格納されていれば、ワード決定手段16は、このスペル(文
字列)として新しいワードを決定する。
【0074】 新しいワードのおそらく正しいスペル(文字列)を決定するためのワード決定
手段16が、音声認識方法の最初のステップにおいて、バックグラウンド情報メモ
リ17の中に対応する音素情報PIを発見できなかった場合には、ワード決定手段16
は、以下に示す第2ステップを実行する。すなわち、ワード決定手段16は、サブ
ワードシーケンス("f~eu~r~i~gen")の音素情報PIの一部と、バックグラウンド情
報メモリ17に格納されている音素情報PI(WI)とを比較し、その格納されている音
素情報PI(WI)に割り当てられているワード情報WIの一部のスペル(文字列)を決
定する。例えば、音声情報SIの各セクションの音素情報PIの音素情報PI(“eur")
の一部は、バックグラウンド情報メモリ17に格納されているワード"Heurigen"の
音素情報PI(ε)の中にも発見される。発見されたワードの多数に共通するスペル
(文字列)も、ワード決定手段16によって新しいワードに使用される。認識され
た表現シーケンスAF4のサブワードシーケンスを使用することにより、ワード決
定手段16は、サブワードを単純に結合することで新しいワードのおそらく正しい
スペル(文字列)を得られるものと判断する。
【0075】 この後、音声認識方法がさらに実行されると、ワード決定手段16によって決定
された新しいワード("feurigen")のワード情報NWIに置き換えられた、認識され
た4番目の表現シーケンスAF4が、サブワードシーケンス("f~eu~r~i~gen")の代わ
りに、認識された文章として出力端18に送られ、そこからモニタ19に送られる。
この結果、音声認識装置2において音声認識方法が実行されたあと、モニタは、
メモリ段8に格納されている音声情報SIの全セクションについて、認識された文
章"Hans verabschiedete sich von Anna mit feurigen 用語2 und ging nach H
ause"を表示する。
【0076】 次に音声認識装置2のユーザは、キーボード20のキーの1つを押すことによって
、モニタ19に示されている文章を変更し、特に、新しいワードのスペル(文字列
)を訂正することができる。新しいワードの訂正後の新しいスペル(文字列)は
、ワード決定手段16によって、出力端18を介して再びモニタ19に送られ、モニタ
19によって表示される。
【0077】 新しいワード"feurigen"のスペル(文字列)は、ワード決定手段16によってす
でに正しく決定されているので、この新しいワードのスペル(文字列)の修正は
必要なく、音声認識装置2のユーザは、図1には示されていない方法で、キーボー
ド20のキーを押すことによってその新しいワードを確認してワードメモリ10に格
納することができる。続いて、新しいワードのワード情報NWIが、ワード情報WI
および割り当てられた音素情報PI(WI)として、音声情報SIのセクションに含まれ
る新しいワードの音素情報PI(NWI)とともにワードメモリ10に格納される。
【0078】 このことは、音声認識装置2の語彙が新しいワード"feurigen"によって増え、
音声認識方法が次に実行されるときに、発声された文章の音声情報SIに含まれる
ワード"feurigen"は、正しいスペル(文字列)を有するワードとしてただちに認
識されるという利点をもたらす。さらに、ユーザによって発声された音声情報の
セクションに含まれる音素情報PIがただちに格納されるため、ユーザは新しいワ
ードの発音をトレーニングする必要がないという利点が得られる。
【0079】 本発明の実施例の2番目の例によると、英語の情報が、図1に示されている音声
認識装置2の構造に対応する構造を有する音声認識装置2の、ワードメモリ10、サ
ブワードメモリ11、音声モデルワードメモリ12、音声モデルサブワードメモリ13
、バックグラウンド情報メモリ17に格納される。実施例の2番目の例に従うこの
音声認識装置2を使用することにより、英語で発声された音声情報SIを処理する
ことができる。
【0080】 実施例の2番目の例によると、ユーザは、"The Toscana is a friendly and ki
nd region of Italy"と発音する。発声された文章"and kind region"の音声情報
SIのセクションに対する音声認識方法の実行時に、実施例の2番目の例による音
声認識装置2の計算手段9は、可能な表現シーケンスをいくつか決定するが、ここ
では特に5番目の可能な表現シーケンスAF5 "and kind regards"と、6番目の可能
な表現シーケンスAF6 "and kind r~i~gion"を、例にして説明する。
【0081】 5番目の可能な表現シーケンスAF5は、英語において典型的な定形表現を含むの
で、5番目の表現シーケンスAF5の、音声モデルワードメモリ12から取得された移
行確率情報WUI1は、小さい値である。6番目の可能な表現シーケンスAF6は、ワー
ド"region"がワードメモリ10に格納されていないので、サブワードシーケンス"a
nd kind r~i~gion"を含む。
【0082】 この利点として、音声情報SIには含まれているがワードメモリ10にはまだ格納
されていない新しいワードは、音声認識方法の実行時にサブワードシーケンスに
すでに置き換えられているので、典型的な定形表現を有し、そのために高い全体
確率を有する可能な表現シーケンスが、誤って認識されることが避けられる。
【0083】 音声認識方法のさらなる実行時に、ワード決定手段16は、バックグラウンド情
報メモリ17に格納されているバックグラウンド情報の評価によって、サブワード
シーケンス"r~i~gion"の正しいスペル("region")を、新しいワードのワード情報
NWIとして決定するように構成されている。この利点として、このことにより、
音声認識装置2にとって新しいワードは、おそらく正しいスペル(文字列)でモ
ニタ19に示される。そして新しいワード情報NWIは、必要に応じユーザによって
訂正されたスペル(文字列)でワードメモリ10に格納することができ、音声認識
装置2の語彙が増えると言う利点が得られる。
【0084】 例えば、認識されたサブワードシーケンスが、サブワードシーケンス"k~o~m~p
~j~u~t~a"によって構成されているとする。ワード決定手段は、バックグラウン
ド情報メモリに格納されているバックグラウンド情報を評価することによって、
ドイツ語または英語における通常のスペル(文字列)との比較が行われ、新しい
ワード"computer"の正しいスペル(文字列)を決定するように構成されている。
【0085】 バックグラウンド情報メモリは、言語についての統計的な情報を含む別のバッ
クグラウンド情報を格納していてもよい。
【0086】 音声モデルワードメモリと音声モデルサブワードメモリにおいて、2ワードを
有するワードシーケンス(連語)のみでなく、3ワードまたはそれ以上のワード
を有するワードシーケンスを、それぞれに対応して格納される移行確率情報UWI
とともに格納してもよい。
【図面の簡単な説明】
【図1】サブワードメモリと音声モデルサブワードメモリを有する音声認識装
置のブロック回路図を示す。
【図2】図1による音声認識装置のワードメモリに格納されているワード情報
と音素情報を含む第1テーブルを示す。
【図3】図1に示されている音声認識装置のサブワードメモリに格納されてい
るサブワード情報と音素情報を含む第2テーブルを示す。
【図4】図1に示されている音声認識装置の音声モデルワードメモリに格納さ
れているワードシーケンス情報と移行確率情報を含む第3テーブルを示す。
【図5】図1に示されている音声認識装置の音声モデルサブワードメモリに格
納されているサブワードシーケンス情報と移行確率情報を含む第4テーブルを示
す。
【図6】音声認識装置の音声認識手段において、可能な表現シーケンスそれぞ
れの全体確率が決定されるときに評価される、4つの可能な表現シーケンスの移
行確率情報と対応音素値を含む第5テーブルを示す。
【図7】図1に示されている音声認識装置のバックグラウンド情報メモリにバ
ックグラウンド情報として格納されているワード情報と音素情報を含む第6テー
ブルを示す。
【符号の説明】
1 パーソナルコンピュータ 2 音声認識装置 3 入力端末 4 マイクロフォン 5 制御キー 6 音声認識手段 7 A/Dコンバータ段 8 メモリ段 9 計算手段 10 ワードメモリ 11 サブワードメモリ 12 音声モデルワードメモリ 13 音声モデルサブワードメモリ 14 D/Aコンバータ段 15 スピーカ 16 ワード決定手段 17 バックグラウンド情報メモリ 18 出力端末 19 モニタ 20 キーボード 21 第1テーブル 22 第2テーブル 23 第3テーブル 24 第4テーブル 25 第5テーブル 26 第6テーブル
───────────────────────────────────────────────────── フロントページの続き (72)発明者 クラコウ ディートリッヒ ジー オランダ国 5656 アー アー アインド ーフェン プロフホルストラーン 6 Fターム(参考) 5D015 AA05 BB02 GG02 GG03 LL04 【要約の続き】 (11)に格納され、かつその格納された音素情報(PI(SW I))に割り当てられているサブワード情報(SWI)を、認識 されたサブワード情報(SWI)として生成するための、音 声認識手段(6)を備え、少なくとも第1ワードと前記第2 ワードで形成されるワードシーケンスの中の第1ワード のあとに前記第2ワードがくる確率を移行確率情報(UWI (WFI))として格納できる音声モデルワードメモリ(12)を 備え、認識されたワード情報(WI)および/または認識さ れたサブワード情報(SWI)を含む少なくとも2つの表現シ ーケンス(AF)を形成するための音声認識手段(6)を備 え、音声モデルワードメモリ(12)に格納されている移行 確率情報(UWI(WFI))を評価することによって、少なくと も2つの表現シーケンス(AF)から、最高の全体確率(GWI) を有する認識されたテキストとして1つの表現シーケン ス(AF)を認識するための音声認識手段(6)を備える、音 声認識装置。

Claims (12)

    【特許請求の範囲】
  1. 【請求項1】 音声認識装置であって、 ワード情報と、前記音声認識装置の語彙を形成する少なくとも第1ワードと第2
    ワードのワード情報の、割り当てられた音素情報ワード情報とを格納できるワー
    ドメモリを含み、 音素情報を含む音声情報を与えることができ、かつ、前記ワードメモリに格納
    されかつ与えられた前記音素情報に対応する音素情報を決定するように構成され
    、前記ワードメモリに格納されかつその格納された音素情報に割り当てられてい
    る前記ワード情報を、認識されたワード情報として生成するように構成された音
    声認識手段を含み、 ワードの一部を形成するサブワードを、少なくとも第1サブワードと第2サブワ
    ードのサブワード情報と、割り当てられた音素情報として格納できるサブワード
    メモリを含む、音声認識装置において、 前記サブワードメモリに格納され、かつ前記与えられた音素情報に対応する音
    素情報を決定するためと、前記サブワードメモリに格納され、かつその格納され
    た音素情報に割り当てられている前記サブワード情報を、認識されたサブワード
    情報として生成するための、前記音声認識手段を備えることと、 少なくとも前記第1ワードと前記第2ワードで形成されるワードシーケンスの中
    の前記第1ワードのあとに前記第2ワードがくる確率を移行確率情報として格納で
    きる音声モデルワードメモリを備えることと、 認識されたワード情報および/または認識されたサブワード情報を含む少なく
    とも2つの表現シーケンスを形成するための前記音声認識手段を備えることと、 前記音声モデルワードメモリに格納されている移行確率情報を評価することに
    よって、前記少なくとも2つの表現シーケンスから、最高の全体確率を有する前
    記認識された文章として1つの表現シーケンスを認識するための前記音声認識手
    段を備えることを特徴とする、音声認識装置。
  2. 【請求項2】 少なくとも前記第1サブワードと第2サブワードで形成されるサブワードシーケ
    ンスにおいて前記第1サブワードのあとに前記第2サブワードがくる確率を移行確
    率情報として格納できる音声モデルサブワードメモリを備えることと、 前記音声認識手段が、前記音声モデルワードメモリと前記音声モデルサブワー
    ドメモリに格納されている移行確率情報を評価することによって、前記少なくと
    も2つの表現シーケンスの1つの表現シーケンスを、最高の全体確率を有する認識
    された文章として認識するように構成されていることを特徴とする、請求項1に
    記載の音声認識装置。
  3. 【請求項3】 音声認識手段が、少なくとも2つの表現シーケンスの認識されたワード情報と
    認識されたサブワード情報の対応音素値を決定するようにされていることと、そ
    の一方で、対応音素値が、前記認識されたワード情報または認識されたサブワー
    ド情報と、前記音声認識手段に適用され、かつ前記音声認識手段によってワード
    情報またはサブワード情報が認識された音声情報に含まれる音素情報の部分との
    一致の程度を特徴づけることと、 前記音声認識手段が、さらに、前記対応音素値を評価することによって、前記
    少なくとも2つの表現シーケンスの1つの表現シーケンスを、最高の全体確率を有
    する認識された文章として認識するように構成されていることを特徴とする、請
    求項1に記載の音声認識装置。
  4. 【請求項4】 前記与えられた音声情報に含まれる音素情報と、この音素情報に対して、前記
    音声認識手段によって認識された文章の表現シーケンスとを適用できるワード決
    定手段を備えることと、 ワードの前記スペル(文字列)に関するバックグラウンド情報をその音素情報
    に基づいて格納できるバックグラウンド情報メモリを備えることと、 前記ワード決定手段が、前記格納されたバックグラウンド情報を評価すること
    によって、認識された表現シーケンスに含まれる少なくとも1つのサブワードシ
    ーケンスの有望なスペル(文字列)を決定し、前記決定されたスペル(文字列)
    の中のそのサブワードシーケンスを新しいワードのワード情報として生成するよ
    うに構成されていることを特徴とする、請求項1に記載の音声認識装置。
  5. 【請求項5】 前記ワード決定手段によって生成された少なくとも1つの新しいワードを表示
    させることのできる表示手段を前記音声認識装置に接続できることと、 表示された新しいワードの前記スペル(文字列)を変更することのできる入力
    手段を前記音声認識装置に接続できることと、 前記ワード決定手段が、変更された新しいワードをワード情報として前記ワー
    ドメモリに格納するように構成されていることを特徴とする、請求項4に記載の
    音声認識装置。
  6. 【請求項6】 前記ワード決定手段が、前記新しいワードの前記サブワードシーケンスが前記
    音声認識手段によって認識された、前記ワード決定手段に与えられた前記音素情
    報の前記部分を決定するように構成されていることと、 前記ワード決定手段が、前記新しいワードの前記ワード情報に割り当てられた
    前記音素情報のその決定された部分を前記ワードメモリに格納するように構成さ
    れていることを特徴とする、請求項5に記載の音声認識装置。
  7. 【請求項7】 音声認識方法であって、 前記音声認識装置の語彙を形成する少なくとも第1ワードと第2ワードの、ワー
    ド情報と、割り当てられた音素情報とが格納されるワードメモリを含み、 発声された文章の音素情報を含む音声情報が適用され、かつ、前記ワードメモ
    リに格納されかつ前記与えられた音素情報に対応する音素情報を決定し、前記ワ
    ードメモリに格納され、かつその音素情報に割り当てられたワード情報を、認識
    されたワード情報として生成するための音声認識手段を含み、 ワードの一部を形成するサブワードが、少なくとも第1サブワードと第2サブワ
    ードのサブワード情報と割り当てられた音素情報として格納されるサブワードメ
    モリを含む、音声認識装置によって、 新しいワードを含む発声された文章を認識するための音声認識方法において、 前記音声認識手段が、前記サブワードメモリに格納され、かつ前記与えられた
    音素情報に対応する音素情報を決定して、前記サブワードメモリに格納され、か
    つその格納された音素情報に割り当てられた前記サブワード情報を、認識された
    サブワード情報として生成することと、 少なくとも前記第1ワードと前記第2ワードによって形成されるワードシーケン
    スにおいて前記第1ワードのあとに前記第2ワードがくる確率が移行確率情報とし
    て格納される音声モデルワードメモリを備えることと、 前記音声認識手段が、認識されたワード情報および/または認識されたサブワ
    ード情報を含む少なくとも2つの表現シーケンスを形成することと、 前記音声認識手段が、前記音声モデルワードメモリに格納されている移行確率
    情報を評価し、前記少なくとも2つの表現シーケンスから、最高の全体確率を有
    する前記認識された文章として1つの表現シーケンスを認識することを特徴とす
    る、音声認識方法。
  8. 【請求項8】 前記音声認識装置の音声モデルサブワードメモリにおいて、少なくとも前記第
    1サブワードと前記第2サブワードによって形成されるサブワードシーケンスにお
    いて前記第1サブワードのあとに前記第2サブワードがくる確率が、移行確率情報
    として格納されることと、 前記音声認識手段が、前記音声モデルワードメモリと前記音声モデルサブワー
    ドメモリに格納されている移行確率情報を評価して、前記少なくとも2つの表現
    シーケンスの1つの表現シーケンスを、最高の全体確率を有する認識された文章
    として認識することを特徴とする、請求項7に記載の音声認識方法。
  9. 【請求項9】 前記音声認識手段が、前記少なくとも2つの表現シーケンスの認識されたワー
    ド情報と認識されたサブワード情報の対応音素値を決定し、その一方で、対応音
    素値が、前記認識されたワード情報または前記認識されたサブワード情報の、格
    納された音素情報と、前記音声認識手段に適用され、かつ前記ワード情報または
    前記サブワード情報が前記音声認識手段によって認識された、音声情報に含まれ
    る前記音素情報のその部分との一致の程度を特徴づけることと、 さらに、前記音声認識手段が、前記少なくとも2つの表現シーケンスの1つの表
    現シーケンスを、最高の全体確率を有する認識された文章として認識するために
    、前記対応音素値を評価することを特徴とする、請求項7に記載の音声認識方法
  10. 【請求項10】 前記与えられた音声情報に含まれる音素情報と、この音素情報に対して、前記
    音声認識手段によって認識された文章の表現シーケンスとが適用されるワード決
    定手段を備えることと、 ワードの前記スペル(文字列)に関するバックグラウンド情報がその音素情報
    に基づいて格納されるバックグラウンド情報メモリを備えることと、 前記ワード決定手段が、格納されたバックグラウンド情報を評価し、認識され
    た表現シーケンスに含まれる少なくとも1つのサブワードシーケンスの有望なス
    ペル(文字列)を決定し、前記決定されたスペル(文字列)の中のそのサブワー
    ドシーケンスを新しいワードのワード情報として生成することを特徴とする、請
    求項7に記載の音声認識方法。
  11. 【請求項11】 前記ワード決定手段によって生成された少なくとも1つの新しいワードが表示
    される表示手段が前記音声認識装置に接続されることと、 表示された新しいワードの前記スペル(文字列)を変更することのできる入力
    手段が前記音声認識装置に接続されることと、 前記ワード決定手段が、変更された新しいワードをワード情報として前記ワー
    ドメモリに格納することを特徴とする、請求項10に記載の音声認識方法。
  12. 【請求項12】 前記ワード決定手段が、前記新しいワードの前記サブワードシーケンスが前記
    音声認識手段によって認識された、前記ワード決定手段に与えられた前記音素情
    報の前記部分を決定し、 前記新しいワードの前記ワード情報に割り当てられた前記音素情報のその部分
    を前記ワードメモリに格納することを特徴とする、請求項11に記載の音声認識方
    法。
JP2000595336A 1999-01-05 1999-12-20 サブワードメモリを含む音声認識装置 Withdrawn JP2002535728A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP99890001.3 1999-01-05
EP99890001 1999-01-05
PCT/EP1999/010302 WO2000043990A1 (en) 1999-01-05 1999-12-20 Speech recognition device including a sub-word memory

Publications (1)

Publication Number Publication Date
JP2002535728A true JP2002535728A (ja) 2002-10-22

Family

ID=8243954

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000595336A Withdrawn JP2002535728A (ja) 1999-01-05 1999-12-20 サブワードメモリを含む音声認識装置

Country Status (5)

Country Link
EP (1) EP1060471A1 (ja)
JP (1) JP2002535728A (ja)
KR (1) KR20010085219A (ja)
CN (1) CN1299504A (ja)
WO (1) WO2000043990A1 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7003457B2 (en) * 2002-10-29 2006-02-21 Nokia Corporation Method and system for text editing in hand-held electronic device
CN1308908C (zh) * 2003-09-29 2007-04-04 摩托罗拉公司 用于文字到语音合成的方法
KR100679042B1 (ko) * 2004-10-27 2007-02-06 삼성전자주식회사 음성인식 방법 및 장치, 이를 이용한 네비게이션 시스템
US9787819B2 (en) * 2015-09-18 2017-10-10 Microsoft Technology Licensing, Llc Transcription of spoken communications

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2088080C (en) * 1992-04-02 1997-10-07 Enrico Luigi Bocchieri Automatic speech recognizer
DE19639844A1 (de) * 1996-09-27 1998-04-02 Philips Patentverwaltung Verfahren zum Ableiten wenigstens einer Folge von Wörtern aus einem Sprachsignal

Also Published As

Publication number Publication date
WO2000043990A1 (en) 2000-07-27
EP1060471A1 (en) 2000-12-20
CN1299504A (zh) 2001-06-13
KR20010085219A (ko) 2001-09-07

Similar Documents

Publication Publication Date Title
US7454345B2 (en) Word or collocation emphasizing voice synthesizer
US7983912B2 (en) Apparatus, method, and computer program product for correcting a misrecognized utterance using a whole or a partial re-utterance
US6778962B1 (en) Speech synthesis with prosodic model data and accent type
KR19990008459A (ko) 개선된 신뢰도의 단어 인식방법 및 단어 인식기
JPH10133685A (ja) 連続音声認識中にフレーズを編集する方法及びシステム
JP2001296880A (ja) 固有名の複数のもっともらしい発音を生成する方法および装置
JP2001312296A (ja) 音声認識システム、音声認識方法およびコンピュータ可読な記録媒体
WO2011033834A1 (ja) 音声翻訳システム、音声翻訳方法および記録媒体
JPH0713594A (ja) 音声合成において音声の質を評価するための方法
JP7111758B2 (ja) 音声認識誤り訂正装置、音声認識誤り訂正方法及び音声認識誤り訂正プログラム
RU2320026C2 (ru) Преобразование буквы в звук для синтезированного произношения сегмента текста
JP2012003090A (ja) 音声認識装置および音声認識方法
JP2002535728A (ja) サブワードメモリを含む音声認識装置
JP2003162524A (ja) 言語処理装置
JP5596869B2 (ja) 音声認識装置
JP2004021207A (ja) 音素認識方法、音素認識装置および音素認識プログラム
JP6991409B2 (ja) 情報処理装置、プログラム及び情報処理方法
CN112988955B (zh) 多语语音识别及主题语意分析方法与装置
JP2001188556A (ja) 音声認識方法及び装置
JP2975542B2 (ja) 音声認識装置
JP2002123281A (ja) 音声合成装置
JP4054610B2 (ja) 音声認識装置および音声認識方法、音声認識プログラム、並びに、プログラム記録媒体
JP2000276189A (ja) 日本語ディクテーションシステム
JP2001166790A (ja) 書き起こしテキスト自動生成装置、音声認識装置および記録媒体
JPH0736481A (ja) 補完音声認識装置

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20070306