JP2007538278A

JP2007538278A - 音声認識システム

Info

Publication number: JP2007538278A
Application number: JP2007517102A
Authority: JP
Inventors: マティアスシュルツ，; フランツゲール，; マルクスシュワルツ，; アンドレアスコスマラ，; バーベルジェシュク，
Original assignee: ハーマンベッカーオートモーティブシステムズゲーエムベーハー
Priority date: 2004-05-21
Filing date: 2005-05-23
Publication date: 2007-12-27
Also published as: DE602004024172D1; EP1600942A1; ATE449401T1; EP1600942B1; WO2005114652A1; US20070156405A1

Abstract

本発明は、音声認識器のために語彙を自動的に生成する方法に関する。デジタル単語データ（特に名称データ）を受け取り、受信した単語データの少なくとも一部が一致する、所定の辞書（各単語項目について音訳を含む）内の単語項目を自動的に検索し、一致する単語項目がないと決定された場合、受信した単語データの各部分を自動的に音訳するステップを含む。ある名称について、辞書に二つの異なる音訳が存在（例えば、第一の音訳が英語の発音に対応し、第二の音訳がドイツ語の発音に対応する）し得、このため、スピーカが異なる発音を使用しても認識され得る。本発明は、低減されたメモリおよび演算能力条件で音声認識器を使用できるような音声認識システムおよび方法を提供する。

Description

本発明は、音声認識システム、および音声認識器のために自動的に語彙を生成する方法に関する。

音声認識システムの用途は、多くの異なる分野に見出され得る。例えば、音声認識システムはテキストを生成するために使用され得る。この場合、テキストがユーザによって発話（口述）され、音声認識システムによって文書（ｗｒｉｔｔｅｎｔｅｘｔ）に文書化（ｔｒａｎｓｃｒｉｂｅ）される。

他の多くの分野において、音声対話システムが人間ユーザと機械との間の快適で自然なやり取りを提供するために使用される。ユーザがやり取りを希望する装置によっては、ユーザによる情報の取得、発注、または装置を他の方法で制御することに、音声対話システムが使用され得る。例えば、ユーザが移動電話、カーラジオ、ナビゲーションシステム、および／または空調システムなどの異なる装置の制御ができるように、音声対話システムが車に用いられ得る。

異なる種類の音声認識器が活用され得る。例えば、音声認識器は独立型の単語認識器あるいは複合型の単語認識器であり得る。前者の場合、システムが単語の始めと終りを判断できるように、ユーザは入力する連続した単語を十分に長い休止により分離する必要がある。一方、後者の場合、単語の始めと終りが複合型単語認識器自体により認識されるので、ユーザはもっと自然に話すことが可能である。

音声認識器は、音声入力が辞書の、事前に保存された音声パターンと比較される原理に基づく。入力された単語が、保存された音声パターンに「十分」類似する（特定の判断基準または距離計測値に従って）場合、単語は相応に認識される。音声認識アルゴリズムは、テンプレートマッチング、ヒドンマルコブモデル（ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ、ＨＭＭ）および／または人工神経ネットワークなど、他の方法に基づき得る。

多くの異なる用途において、音声認識システムは接続する他の装置との関連で組込型システムとして使用される。そのような組込型システムの典型的な例が移動電話、ＰＤＡ、またはカーラジオ／ＣＤプレーヤやナビゲーションシステムを含むカーエンターテインメントシステムおよび制御システムである。

特に組込型システムの場合、音声認識部分のために提供されるＣＰＵ能力やメモリは限られている。その一方で、さらに他の用途において、異なる適切な名称を認識するために多大な語彙と演算能力が必要である。例えば、音声認識器が移動電話の電話帳の項目にアクセスし、音声コマンドのみを介して通話を開始する場合や、名称を発話することによりラジオ局を選択することでカーラジオが制御される場合である。

以上の観点から、本発明の課題は、低減されたメモリおよび演算能力条件で音声認識器を使用できるような音声認識システムおよび方法を提供することにある。

この課題は、請求項１に記載の方法、および請求項１３に記載の音声認識システムにより解決される。

それゆえ、音声認識器のために自動的に語彙を生成する、方法であって、
ａ）デジタル単語データ、特に名称データを受信するステップと、
ｂ）受信した単語データの少なくとも一部分に一致する、所定の辞書の単語項目を自動的に検索するステップであって、辞書が各単語項目について音訳（ｐｈｏｎｅｔｉｃｔｒａｎｓｃｒｉｐｔｉｏｎ）を含む、ステップと、
ｃ）受信した単語データであって、一致する単語項目がないと決定された、受信した単語データの各部分を自動的に、音訳するステップと
を包含する、方法が提供される。

以降、「単語」または「単語データ」という用語は、キャラクタの配列を意味し、「キャラクタ」という用語は文字（ｌｅｔｔｅｒ）、数字（ｎｕｍｂｅｒ）（デジット）、およびダッシュ、ブランク、ドットなどの特殊文字を含む。例えば、異なる英数字がブランクにより分離され得る。単語データは、デジタル形態で受信される。単語または単語の一部を音訳すると、結果的にその単語またはその単語の一部の発音様態に対応する音声パターンになる。

従来技術の場合に比較して、本方法は、事前に起こり得る全ての音声入力を包含する、膨大な数の項目を含む大きな辞書を保存する必要がなく、音声認識を可能にする。本方法は、該当する単語データを受信すると、音声認識器のための語彙を動的に生成することを可能にする。このように、音声認識器のための音声パターンは、動作時点でのユーザおよび音声認識器の条件および要件により良く適合される。特に、単語データが受信されると、所定の辞書が、受信された単語データあるいはその一部に一致する項目をすでに含むかの確認が行われる。含む場合、単語またはその一部に対応する音訳はすでに存在する。含まない場合、受信された単語データの残りの部分（受信された単語データの全てでもあり得る）が、対応する音声パターンが取得されるように、音訳される。

ステップｂ）は、所定のカテゴリに基づいて単語データをデータフラグメントに分解することと、データフラグメントに一致するか、またはデータフラグメントの配列に一致する、辞書の中のフラグメント項目を検索することとを含み得る。さらに、ステップｃ）は、一致するフラグメント項目がないと決定された各データフラグメントを音訳することを含み得る。

データフラグメントは、単一のキャラクタまたはいくつかのキャラクタ（例えば、文字、数字、または特殊文字）の配列（ストリング）から形成される。辞書のフラグメント項目は、単語データの単一のデータフラグメントまたはデータフラグメントの配列に一致し得、そのような配列内のデータフラグメントは同じカテゴリに属する必要はない。一致するフラグメント項目が決定されるデータフラグメントのカテゴリに対応する、辞書の一部のみを検索することが可能である。よって、各項目が所定のカテゴリに関連した辞書が提供され得る。換言すると、サブ辞書であって、サブ辞書の項目が所定の共通カテゴリに属する、サブ辞書を辞書が備えるように、辞書の項目は分類され得る。これは、各データフラグメントについて、辞書の、データフラグメントのカテゴリに対応する部分のみを検索するので、必要な演算能力および演算時間を低減する。

分解するステップは、単語データを、文字のみで形成されるデータフラグメント、数字のみで形成されるデータフラグメント、および／または特殊文字のみで形成されるデータフラグメントに分解することを含み得る。

これらのカテゴリにより、文字フラグメント、数字フラグメント、および特殊文字フラグメントが取得され、単一のキャラクタまたはキャラクタの配列から形成されている、各フラグメントは全て、これらのカテゴリの中の一つのみに属する。このような分類は、このような場合には対応する単語データが通常、文字と数字の両方を含むので、住所録またはラジオ局との関連で特に有益である。

データフラグメントは、単語データストリングに連続して出現するキャラクタのストリングから形成され得る。一方、データフラグメントのキャラクタは、ブランク、ダッシュ、または他の特殊文字により分離され得る。好適には、少なくとも一つの特殊文字により分離される英数字の二つの配列から形成される単語データは、英数字の配列に各々が対応する二つのフラグメント、および該当する少なくとも一つの特殊文字から形成されるフラグメントに分解され得る。英数字は、文字または数字である。例えば、単語データの文字の二つの配列がブランクで分離されている場合、二つのフラグメントが形成され、各々が二つの文字フラグメントのうちの一つに対応し、第三のフラグメントはブランクから形成される。多くの場合、ダッシュやブランクで分離される単語データの英数字の配列は別々の要素（例えば、名前と苗字）を形成し得るので、以後の処理のための単語データの効果的な分解を生じる。他のカテゴリ（例えば、文字カテゴリ、数字カテゴリなど）に基づく追加的な分解を行うことも可能であり、これらの分解の順序は変られ得る。

ステップｃ）は、これらの受信された単語データの一部を音訳して綴り形態にするのか、発音形態にするのか、または綴りと発音の複合形態にするのかを所定の基準に基づいて判断することを含み得る。

綴り形態では、フラグメントの各々のキャラクタが綴り文字となる音訳となり、一方、発音形態では、キャラクタの配列が、キャラクタから形成される完全な形の単語として発音されるか、または発話される。複合形態では、データフラグメントの一部が綴り上げられ、他の部分が発音される。

所定の基準は、データフラグメントの長さ（キャラクタの数）、隣接のフラグメント、大文字小文字、および／または子音および母音の出現に依存し得る。

特に、子音のみで形成される、受信された単語データの一部の中の個々の文字は、綴り形態で音訳され得る。このため、話者により発音されるデータフラグメントの発音（すなわち、綴り）に最も対応するであろうデータフラグメントの文字の配列の音訳となる。

ステップａ）は、デジタル単語データをラジオデータシステム（ＲＤＳ）またはラジオブロードキャストデータシステム（ＲＢＤＳ）を介して受信することを含み得る。

ＲＤＳまたはＲＢＤＳは、オーディオ信号自体に加えて、デジタルデータ（例えば、ラジオ局の名称や他の情報）の送信を可能にする。このため、本方法は、ラジオ（例えば、カーラジオ）特に、音声コマンドによるラジオの制御のための音声認識器として効果的に使用され得る。ＲＤＳまたはＲＢＤＳの無線信号もデジタル単語データを含むので、これらの単語データは、対応する語彙を音声認識器のために生成するために好適に使用される。

デジタル単語データの自動要求が、ステップａ）に先行され得る、この要求ステップは、ラジオ周波数帯のスキャンを開始することと、受信可能なラジオ局を検索することとを含み得る。そうすることにより、ラジオを制御する音声認識器のために動的に生成された語彙は、動作時点の条件（すなわち、受信可能なラジオ局）に常に適合される。このようにして取得された語彙は、当該時点で使用され得る必要なデータを含む。

ステップａ）は名称データベース（特に、住所録データベースまたは電話帳データベース）から単語データをアップロードすることを含み得る。そうすることにより、音声認識器によるその固有の名称の認識率がより高くなるように、固有の名称のセットを含む名称データベースが音声認識器のための語彙を特に拡張することを可能にする。例えば、名称データベースがラジオ局の名称のリストを含み得るなど、他の名称データベースも可能である。

上記の方法において、単語項目の少なくとも一つに対して、同義語、および／または省略形、および／または少なくとも二つの音訳をさらに含む辞書が用いられ得る。

このように、ユーザは、異なるやり方で音声コマンドを入力する可能性を有する。例えば、ユーザは、用語を完全な形で発話し得るし、またはその省略形を使用し得る。両方が辞書に存在する場合、選択肢が認識される。ある場合においては、たとえば英語発音またはドイツ発音など、用語の異なった発音がされる可能性があり得る。二つの音訳が辞書の一部である場合、これらの異なる発音も認識される。

上記方法はさらに、受信された単語データの音訳された部分の各々とその対応する部分を音声認識器に提供するステップを含み得る。このように、音声認識器の語彙は拡張され、また音声認識器の機能性は改善される。

ステップｂ）およびステップｃ）は、所定の基準に基づいて（特に、音声認識器の動作時間中の所定の時間間隔で、および／または単語データが受信されるたび）、繰り返され得る。さらに、音訳された部分の各々を音声認識器に提供するステップも所定の基準に基づいて繰り返され得る。

そうすることにより、語彙の定期的更新が可能になる。例えば、ＲＤＳまたはＲＢＤＳを介してデジタル単語データを受信する場合、新しいラジオ局が受信可能になるたび、および／またはラジオ局がもはや受信可能でなくなるたびに、これらのステップが繰り返され得る。したがって、上記方法は車両内の音声認識器にとって特に有用である。

「動作時間」という用語は、音声認識器が使用できる期間（プッシュツートーク（ＰＴＴ）キーが押されていなくても）を意味し、音声認識器が動作中（例えば、ＰＴＴキーが押され、実際に音声入力を処理している）の期間のみを意味するものではない。

本発明はまた、前記の方法のうちの一つの方法のステップを実行するためのコンピュータ実行可能な命令を有する、コンピュータ可読媒体を含む、コンピュータプログラム製品を提供する。

本発明はまた、以下を含む音声認識システムを提供する：
音声入力を認識するための音声認識器と、
単語データ、特に名称データを受信するように構成されたインターフェイスと、
デジタル単語項目および各単語項目に対して音訳を含む辞書が保存されているメモリと、
受信された単語データの少なくとも一部と一致する、辞書の中の単語項目を自動的に検索ように構成された検索手段と、
受信された単語データであって、一致する項目がないと決定された、受信された単語データの各部分を自動的に音訳するように構成された音訳手段。

このような音声認識システムにおいて、上記方法は有益に実行され得る。特に、音声認識器のための語彙は動的に生成され、更新され得る。音声認識システムの異なる部分が異なる可能形態で構成され得るということは、理解される。例えば、所定の辞書が保存されているメモリは、別の要素として提供され得るし、あるいは音声認識器がこのメモリを含み得る。

検索手段は、所定のカテゴリに基づいて単語データをデータフラグメントに分解し、データフラグメントに一致する、またはデータフラグメントの配列に一致する、辞書内のフラグメント項目を検索するように構成することができ得るし、また音訳手段は、データフラグメントであって、一致するフラグメントの項目がないと決定されたデータフラグメントの各々を音訳するように構成され得る。

検索手段は、単語データを、文字のみで形成されるデータフラグメント、数字のみで形成されるデータフラグメント、および／または特殊文字のみで形成されるデータフラグメントに分解するように構成され得る。

検索手段は、少なくとも一つの特殊文字により分離されている英数字の二つの配列を含む単語データが、各々が英数字の配列に対応する二つのフラグメントおよび少なくとも一つの特殊文字から形成されるフラグメントに分解され得るように構成され得る。

音訳手段は、受信した単語データの一部を所定の基準に基づいて、どう（綴り形態、発音形態、または綴りと発音形態の複合）音訳するかを決定するように構成され得る。

音訳手段は、受信した単語データの子音のみで形成される部分の文字を綴り形態で音訳するように構成され得る。

インターフェイスは、デジタル単語データをラジオデータシステム（ＲＤＳ）またはラジオブロードキャストデータシステム（ＲＢＤＳ）を介して受信するように構成され得る。

インターフェイスは、自動的にデジタル単語データを要求するように構成され得る。

インターフェイスは、名称データベース（特に、住所録データベースまたは電話帳データベース）から単語データをアップロードするように構成され得る。

辞書は、単語項目のうちの少なくとも一つについて、同義語、および／または省略形、および／または少なくとも二つの音訳をさらに含み得る。

音訳手段は、受信した単語データの各々の音訳された部分、およびその対応する部分を音声認識器がアクセスできるメモリに保存するように構成され得る。

検索手段および音訳手段は、特に、音声認識器の動作時間中に、所定の時間間隔でおよび／または単語データが受信されるたびに、所定の基準に基づいて、検索および音訳を繰り返すように構成され得る。

さらに特徴や利点を図に関連付けて以下に説明する。

下に、異なる実施形態および図に関連付けて本発明を説明するが、その詳細説明および図は、本発明をここに開示される具体的な例示的実施形態により限定するものではなく、説明される例示的実施形態は本発明の多様な局面を単に例示するものであり、本発明の範囲は添付の特許請求の範囲により限定されることが理解されるべきである。

図１は、音声認識システムの例の異なる構成要素の配置を示す。具体的に、音声認識システムは、音声入力を認識する役割の音声認識器１０１を含む。そのような音声入力は、マイクロフォン１０２を介して音声認識器１０１により受信される。

一般に、音声認識器は、一つのマイクロフォン、またはいくつかのマイクロフォン、特にマイクロフォンアレイ（非表示）、に接続され得る。マイクロフォンアレイが使用される場合、そのようなマイクロフォンアレイから発信される信号はビームフォーマにより処理されて特定の指向性を有する複合信号を取得する。これは、車両内など、騒がしい環境で音声認識システムが使用される場合に特に有益である。

図１に示す音声認識システムは、音声コマンドを介してラジオ１０３を制御するように意図されている。音声認識器は、独立した単語認識器、または複合単語認識器であり得る。その認識アルゴリズムは、例えば、テンプレートマッチング、ヒドンマルコブモデルおよび／または人工神経ネットワークなどの方法に基づき得る。いずれの場合も、音声認識器１０１はユーザからの音声入力をメモリ１０４内に前に保存された音声パターンと比較する。保存されている音声パターンの一つに音声入力が十分類似する（所定の距離計測値に準じて）場合、その音声入力はその該当する音声パターンだと認識される。メモリ１０４においては、ラジオ１０３などの接続された装置の機能を制御するために標準語彙が保存される。一方、ナビゲーションシステムあるいは空調などの他の装置も音声認識器に接続され得る。

例えば、ユーザは「ボリューム」および「アップ」という単語を発話し得る。これら二つの単語に対応する音声パターンが音声認識器に存在する場合、「ボリュームアップ」というコマンドが認識され、ボリュームを上げるために、対応する電気信号が音声認識器からラジオ１０３へ送信される。

ラジオの場合（特に、カーラジオ）、対応する音声コマンドを介してラジオ局を選択したい場合がある。しかし、ラジオ局の名称は、音声認識器の標準語彙の一部を形成しない、特別な固有名詞である場合が多い。これは特にメモリの限度に関連する。

このため、異なるラジオ局の名称をデジタル形態で受信するように機能するインターフェイス１０５が提供される。このインターフェイスは、例えば、ラジオ局から無線形態で、適切なネットワークを介してデータを受信するように構成される。

特に、インターフェイス１０５は、ラジオデータシステム（ＲＤＳ）またはラジオブロードキャストデータシステム（ＲＢＤＳ）を介してデジタルデータを受信するように構成され得る。これらのシステムに基づくと、ラジオ局から受信される信号は、音声データだけでなく、追加情報も含む。例えば、局の名称がデジタル形態で同時に送信され得る。多くのＲＤＳまたはＲＢＤＳ受信器は局の名称をディスプレイに表示することが可能である。

ここでは、名称情報は、音声認識器に追加語彙データを提供するのに使用される。これを達成するため、検索手段１０６がインターフェイス１０５に接続される。下にさらに詳しく説明するように、検索手段１０６はメモリ１０７に保存された所定の辞書にインターフェイス１０５により受信された名称の少なくとも一部が存在するかを判断する役割を有する。

メモリ１０７は、検索手段１０６だけでなく、音声認識器１０１にも接続されている。特に、音声認識器はメモリ１０７に保存されている辞書へもアクセス可能である。図１に示す例において、メモリ１０７は音声認識器の外部の追加部分として示されている。一方、他の形態もまた可能であり、例えば、メモリは検索手段または音声認識器の一部であり得る。

さらに、音訳手段１０８は検索手段１０６および音声認識器１０１に接続されている。入ってくる名称データのいくつかの部分、または全ての部分がメモリ１０７に保存されている辞書に見つからない場合、音訳する音訳手段１０８へこれらの部分が送られる。音訳手段は、いずれの音訳（綴り形態、発音形態、綴りおよび発音の複合形態）を行うかを判断するように構成され得る。

各々の音訳は、音声認識器１０１へ送られ、音声認識器により使用され得るようにメモリ１０４に保存される。このように、追加語彙が音声認識器のために動的に生成される。

この場合さらに、追加語彙は他のやり方でも保存され得る。例えば、音訳手段１０８はこの追加語彙が保存されるメモリも含み得る。あるいは、すでに存在する辞書に加えて、音訳された部分もメモリ１０７に保存され得える。この場合、音訳手段１０８は音声認識器１０１に直接接続される必要はなく、例えば、直接または検索手段１０６を介してメモリ１０７に接続されるべきである。

下に、語彙をどう生成するかの例を図２に照らして説明する。本方法のステップを、図１に示すラジオを制御するための音声認識システムの例に沿って説明する。しかしながら、本方法のステップは、移動電話など、他の例にも適用することが理解されるべきである。

第一のステップ２０１において、デジタル単語データが受信される。ラジオ用の音声認識システムの場合、単語データはラジオ局の名称である。一方、例えば、本方法が移動電話に使用される場合、単語データは住所録または電話帳の項目を含み得る。

例えば、受信された単語データが「ＳＷＲ４ＨＮ」を含み得る。これは、ラジオ局

を表す。このラジオ局の名称を受信すると、ラジオ信号が送信される、対応する周波数も判明する。つまり、その周波数が、名称情報が受信された信号の周波数である。

次のステップ２０２において、名称データ「ＳＷＲ４ＨＮ」は、所定のカテゴリ、本例の場合、「文字」および「数字」、に沿って分解される。キャラクタの配列は、次のように分析され得る。

「Ｓ」であり、「文字」のカテゴリに属する第一のキャラクタから開始する。続くキャラクタである「Ｗ」および「Ｒ」は、同じカテゴリに属する。これら三つの文字の後、ブランクがあり、数字である「４」が後続する。すなわち、カテゴリ「文字」である、同じカテゴリに属するキャラクタの配列が終結され、第一のデータフラグメント「ＳＷＲ」決定される。後続するブランクは、次のフラグメントを形成する。

数字「４」にブランクが後続し、そして文字である、キャラクタ「Ｈ」が後続する。すなわち、同じカテゴリに属するキャラクタの配列は、ここでは数字「４」である、単一のキャラクタのみで形成される。これもフラグメントである。次のフラグメントとなるブランクが後続する。この後、文字「Ｈ」および「Ｎ」で形成される最終フラグメントが決定される。結果として、単語データ「ＳＷＲ４ＨＮ」がフラグメント「ＳＷＲ」、「４」、および「ＨＮ」、ならびにそれぞれ一個のブランクで形成される二つの特殊文字フラグメントに分解される。

名称データの他の分解形態も可能である。例えば、まず第一に、データが、ブランク、あるいはダッシュまたはドットなどの特殊文字により他から分離された、異なる部分に分解され得る。その後、上記のように、文字や数字への分解が行われ得る。上記の例「ＳＷＲ４ＨＮ」の場合、ブランクで分離される英数キャラクタの配列への分解により、三つのフラグメント「ＳＷＲ」、「４」、「ＨＮ」と二つの特殊文字フラグメントに分解される。文字フラグメントおよび数字フラグメントへのさらなる分解がこの分解を変化させることはない。

分解の異なるステップが置き換えられ得ることも理解されるべきである。

次のステップ２０３において、辞書が検索され、データフラグメントの中のひとつ、または配列に一致する項目が存在するかを決定する。辞書は、主要なラジオ局の名称または省略形を含み得る。各データフラグメント、あるいはデータフラグメントの配列に対して、辞書が検索される。辞書はまた、各々が所定のカテゴリに属する項目を含む、異なるサブ辞書へ分解され得る。例えば、あるサブ辞書は、文字のみで形成される項目を含み得、またあるサブ辞書は、数字のみで形成される項目を含み得る。すなわち、文字データフラグメントに関しては、文字サブ辞書のみが検索され、数字データフラグメントに関しては、数字サブ辞書が検索される。この場合、処理時間は多大に低減され得る。

次のステップ２０４において、一致するフラグメント項目が辞書に見つからないデータフラグメントが存在するかチェックが行われる。見つかった場合、完全な名称データがすでに辞書に存在するので、本方法は終了され得る。辞書がその項目の各々に対して音訳を含んでいるので、音声認識器は、これらのフラグメントを認識するために必要な全ての情報を有する。

一方、一致する項目が辞書に見つからないデータフラグメントが一つ、あるいはいくつか存在する場合、本方法は、ステップ２０５へ進む。このステップでは、データフラグメントの各々が音訳される。つまり、データフラグメントの発音に対応する音声パターンが生成される。そのために、本分野で知られているテキストツー音声（ＴＴＳ）合成器が使用され得る。このステップにおいて、所定の基準に沿って、どの音訳が行われるかが判断される。例えば、ある基準に沿った場合、所定数未満のキャラクタから形成されるデータフラグメントについては、綴り形態の音訳が常に選択される。この基準はまた、大文字小文字キャラクタの出現、隣接（先行、または後続）フラグメントなどにも（追加的に、または代替的に）左右され得る。

文字データフラグメントが子音のみで形成される場合、そのフラグメントを綴り形態でも音訳することが有益である。換言すると、結果として生じる音訳パターンは、データフラグメントの文字の綴りと対応することになる。これは、特に、母音を全く含まない、ユーザも通常、綴ることになる省略形に対して有益である。他方、綴り形態および発音形態の音訳から形成される、複合音訳を行うことが有益であり得る場合もある。

最終ステップ２０６において、音訳および対応する単語データフラグメントが（例えば、音訳を対応するデータフラグメントとともに音声認識器のメモリへ送り、メモリに保存することにより）、音声認識器に提供される。こうして、音声認識のための語彙が拡張される。

図３は、ラジオ（特に、カーラジオ）の場合、受信される単語データがどう取得されるのかの例を示す。第一のステップ３０１に沿って、ラジオ周波数帯がスキャンされる。これは、音声認識器による要求に応答して行われ得る。周波数帯のスキャンの最中、ラジオ信号が受信される全ての周波数が決定される。

次のステップ３０２において、受信可能な局のリストが決定される。周波数帯をスキャンするとき、ラジオ信号が受信される周波数に遭遇するたび、その周波数が、音声信号とともにデジタル信号として受信される、対応するラジオ局の名称とともに、保存される。

受信可能なラジオ局の、結果として生じるリストの例を図４に示す。左欄は、ＲＤＳまたはＲＢＤＳを介して受信したラジオ局の名称であり、右欄は、これらのラジオ局が受信され得る、対応する周波数を記載している。このようなリストが異なる形態で保存され得ることが理解されるべきである。

次のステップ３０３において、受信可能なラジオ局のリストがすでに存在するのか、あるいは以前保存されたラジオ局のリストに関連して現時点でのリストが修正されるのかをチェックする。後者は、カーラジオの場合に起こり得る。例えば、ドライバが送信器の異なるカバー範囲を移動しているとき、ある時点において、あるラジオ局が受信可能になり、他のラジオ局がもはや受信可能でなくなることがあり得る。

以前保存されたラジオ局リストがない場合、または受信可能なラジオ局のリストが修正されていた場合、本方法はステップ３０４へ進み、ラジオ局のリストに対応する語彙が生成される。これは、図２に説明する方法に沿って行われる。そうない場合、本方法はステップ３０１へ戻る。

これらのステップは、連続して、または所定の時間間隔で定期的に行われ得る。

図５は、図２に示されている方法のステップ２０３で検索される辞書を示す。辞書の各フラグメント項目に対し、対応する音訳が関連付けられる。例えば、ある項目が「ＳＷＲ」であり得、省略形である。この項目に対し、辞書はまた、音訳とともに、対応する完全な単語

を含む。「ＲａｄｉｏＥｎｅｒｇｙ」と称されるラジオ局が存在する場合、辞書はまた、フラグメント「Ｅｎｅｒｇｙ」を含み得る。この項目に対し、二つの異なる音訳が存在し、第一の音訳が（正しい）英語の発音に対応し、第二の音訳が単語「ｅｎｅｒｇｙ」のドイツ語発音に対応する。このため、「ｅｎｅｒｇｙ」という用語は、スピーカがドイツ語発音を使用しても認識され得る。

周波数により識別されるラジオ局の場合、辞書はまた、この周波数を発音または綴る異なる方法に対応する項目を含み得る。例えば、ラジオ局が９４．３ＭＨｚで受信される場合、辞書は「ｎｉｎｅｔｙ−ｆｏｕｒｄｏｔｔｈｒｅｅ」、「ｎｉｎｅｔｙ−ｆｏｕｒｔｈｒｅｅ」、「ｎｉｎｅｆｏｕｒｔｈｒｅｅ」、などに対応する項目を含み得る。このため、ユーザは「ｄｏｔ」を発音してもしなくてもよく、周波数はいずれの場合にも認識される。

前記において、音声認識器のために語彙を発生する方法がラジオ（特に、カーラジオ）との関連で説明された。本方法が、他の分野においても使用され得ることが理解されるべきである。

移動電話のための音声認識器の使用が一例である。ユーザが音声コマンドを介して移動電話を制御することを希望する場合、音声認識器は、ユーザが呼ぶ異なる固有名詞を認識する必要がある。そのような場合、例えば、移動電話のＳＩＭカードに保存されている住所録に基づいて語彙が生成され得る。そのような場合、例えば、移動電話のスイッチが入れられるとき、住所録データベースがアップロードされ、図２に沿った方法が行われ得る。換言すると、本方法のステップは住所録の異なる項目に対して行われる。この場合また、名称およびその発音をすでに含む辞書が提供され得る。さらに、辞書は、項目のいくつか、または全てに対して同義語、省略形、および／または異なる発音を含み得る。例えば、「Ｄａｄ」の項目が「Ｆａｔｈｅｒ」および「Ｄａｄｄｙ」と関連付けられ得る。

本発明のさらなる改良形態および変化形態は、ここでの説明に照らし、当業者にとって明らかである。このことから、ここでの説明は、例示的のみと解釈されるべきであり、当業者に対して本発明を実行するための一般的な方法を教示する目的のためのものである。ここで示される、および説明される本発明の形態は、現時点における好適実施形態として解釈されるべきことが理解されるべきである。

ラジオを制御するための音声認識システムの例を示す。音声認識器のために語彙を生成するための方法例の手順を示す。音声認識器のためにラジオ局の語彙を生成する例の手順を示す。ラジオ局のリストの例を示す。ラジオ局の辞書項目の例を示す。

Claims

音声認識器のために自動的に語彙を生成する方法であって、該方法は、
ａ）デジタル単語データ、特に名称データを受信するステップと、
ｂ）所定の辞書の中において、該受信された単語データの少なくとも一部と一致する単語項目を検索するステップであって、該辞書は、各単語項目の音訳を含む、ステップと、
ｃ）該受信された単語データの中の、一致する単語項目がないと決定された各部分を自動的に音訳するステップと
を包含する、方法。
ステップｂ）が、所定のカテゴリに従って、前記単語データをデータフラグメントに分解することと、データフラグメントまたはデータフラグメントの配列に一致するフラグメント項目を前記辞書の中において検索することとを包含し、ステップｃ）が、一致するフラグメント項目ががないと決定された各データフラグメントを音訳することを包含する、請求項１に記載の方法。
前記分解するステップが、前記単語データを、文字のみで形成するデータフラグメント、数字のみで形成するデータフラグメント、および／または特殊文字のみで形成するデータフラグメントに分解することを包含する、請求項２に記載の方法。
少なくとも一つの特殊文字により分離されている英数字の二つの配列を含んでいる単語データが、英数字の配列に各々対応する二つのフラグメント、および該少なくとも一つの特殊文字で形成するフラグメントへ分解される、請求項２または３に記載の方法。
ステップｃ）が、前記受信した単語データの一部を、所定の基準に基づいて、綴り形態、発音形態、または綴り形態と発音形態の複合形態で音訳するかを判断することを包含する、請求項１〜４のいずれか一項に記載の方法。
ステップｃ）において、前記受信された単語データの子音のみで形成される部分の各文字が綴り形態で音訳される、請求項１〜５のいずれか一項に記載の方法。
ステップａ）が、ラジオデータシステム（ＲＤＳ）またはラジオブロードキャストデータシステム（ＲＢＤＳ）を介してデジタル単語データを受信することを包含する、請求項１〜６のいずれか一項に記載の方法。
ステップａ）が、デジタル単語データを自動的に要求することに先行される、請求項１〜７のいずれか一項に記載の方法。
ステップａ）が、名称データベース、特に住所録データベースまたは電話帳データベースから単語データをアップロードすることを包含する、請求項１〜８のいずれか一項に記載の方法。
前記単語項目の少なくとも一つに対して、同義語、および／または短縮形、および／または少なくとも二つの音訳をさらに含む辞書が使用される、請求項１〜９のいずれか一項に記載の方法。
前記受信された単語データの音訳された部分とその対応する部分の各々を、前記音声認識器に提供するステップをさらに包含する、請求項１〜１０のいずれか一項に記載の方法。
ステップｂ）およびステップｃ）が、所定の基準に基づいて、特に所定の時間間隔で、および／または単語データが受信されるたびに前記音声認識器の動作時間の最中に繰り返される、請求項１〜１１のいずれか一項に記載の方法。
請求項１〜１２のいずれか一項に記載の方法の前記ステップを行うための、コンピュータが実行可能な命令を有する、一つ以上のコンピュータ可読媒体を備えているコンピュータプログラム製品。
音声認識システムであって、該音声認識システムは、
音声入力を認識するための音声認識器と、
単語データ、特に名称データを受信するように構成されたインターフェイスと、
デジタル単語項目および各単語項目に対する音訳を含む所定の辞書が保存されているメモリと、
該受信された単語データのうちの少なくとも一部分に一致する該辞書内の単語項目を自動的に検索するように構成された検索手段と、
一致する単語項目がないと決定された、該単語データの各部分を自動的に音訳するように構成された音訳手段と
を備える、音声認識器。
前記検索手段が、前記単語データを所定のカテゴリに従ってデータフラグメントに分解するように構成されており、また、データフラグメントに一致するかまたはデータフラグメントの配列に一致する、前記辞書内のフラグメント項目を検索するように構成されており、前記音訳手段が、一致するフラグメント項目がないと決定された各データフラグメントを音訳するように構成されている、請求項１４に記載の音声認識器。
前記検索手段が、前記単語データを、文字のみで形成されるデータフラグメント、数字のみで形成されるデータフラグメント、および／または特殊文字のみで形成されるデータフラグメントに分解するように構成されている、請求項１５に記載の音声認識システム。
前記検索手段が、少なくとも一つの特殊文字で分離された英数字の二つの配列を含んでいる単語データが、英数字の配列に各々が対応する二つのフラグメント、および該少なくとも一つの特殊文字で形成されるフラグメントに分解されるように構成されている、請求項１５または１６に記載の音声認識システム。
前記音訳手段が、前記受信された単語データの一部を、綴り形態、発音形態、または綴り形態と発音形態の複合形態で音訳するかを、所定の基準に基づいて判断するように構成されている、請求項１４〜１７のいずれか一項に記載の音声認識システム。
前記音訳手段が、前記受信された単語データの、子音のみで形成される部分を綴り形態で音訳するように構成されている、請求項１４〜１８のいずれか一項に記載の音声認識システム。
前記インターフェイスが、ラジオデータシステム（ＲＤＳ）またはラジオブロードキャストデータシステム（ＲＢＤＳ）を介してデジタル単語データを受信するように構成されている、請求項１４〜１９のいずれか一項に記載の音声認識システム。
前記インターフェイスが、デジタル単語データを自動的に要求するように構成されている、請求項１４〜２０のいずれか一項に記載の音声認識システム。
前記インターフェイスが、名称データベース、特に住所録データベースまたは電話帳データベースから、単語データをアップロードするように構成されている、請求項１４〜２１のいずれか一項に記載の音声認識システム。
前記辞書が、前記単語項目のうちの少なくとも一つに対して、同義語、および／または省略形、および／または二つの音訳をさらに含んでいる、請求項１４〜２２のいずれか一項に記載の音声認識システム。
前記音訳手段が、前記受信された単語データの各音訳部分および該単語データの対応する部分を、前記音声認識器がアクセスできるメモリに保存するように構成されている、請求項１４〜２３のいずれか一項に記載の音声認識システム。
前記検索手段および前記音訳手段が、前記音声認識器の動作中、所定の基準に基づいて、特に所定の時間間隔で、および／または単語データが受信されるたびに、検索および音訳を繰り返すように構成されている、請求項１４〜２４のいずれか一項に記載の音声認識システム。