JP2011033874A

JP2011033874A - 多言語音声認識装置及び多言語音声認識辞書作成方法

Info

Publication number: JP2011033874A
Application number: JP2009180687A
Authority: JP
Inventors: Shuichi Matsumoto; 修一松本; Toru Masumoto; 徹枡本
Original assignee: Alpine Electronics Inc
Current assignee: Alpine Electronics Inc
Priority date: 2009-08-03
Filing date: 2009-08-03
Publication date: 2011-02-17

Abstract

【課題】音声認識の対象言語が一つに設定されていても、テキスト本来の読みで認識することが可能な「多言語音声認識装置及び多言語音声認識辞書作成方法」を提供すること。
【解決手段】音声認識辞書の設定言語が所定の一つの言語に設定された多言語音声認識装置は、外部機器又は媒体から音声認識の対象となるテキストを入力する入力手段と、テキストが格納される記憶手段と、テキストの名称データを解析して読みデータを生成する複数の言語に対応したテキスト−読みデータ変換手段と、テキストの名称データの読みデータが格納された音声認識辞書と、制御手段とを有する。制御手段は、取得した名称データの言語種別を判定し、判定した言語種別に応じたテキスト−読みデータ変換手段により当該名称データに対する読みデータを生成し、当該生成した読みデータを設定言語に合わせた読みデータに変換して音声認識辞書に登録する。
【選択図】図２

Description

本発明は、多言語音声認識装置及び多言語音声認識辞書作成方法に関し、特に、言語種別に応じた複数の読み方があるテキストに対して、本来の読み方を認識することが可能な多言語音声認識装置及び多言語音声認識辞書作成方法に関する。

近年、携帯電話機やデジタルオーディオ機器などの外部機器を車載装置に接続して、外部機器に格納されている各種情報を利用することが行われている。

例えば、外部機器がデジタルオーディオ機器の場合は、デジタルオーディオ機器から取得したオーディオ情報を基に音楽が再生出力されている。このようなオーディオ情報として楽曲のデジタルデータだけではなく、楽曲のタイトルやアーティスト等の情報があり、楽曲のタイトルやアーティスト名などを音声入力して、その楽曲を再生することもできるようになっている。また、携帯電話機の場合は、携帯電話機に登録されている電話帳データを取得し、その電話帳データを基に通話先を音声入力して、ハンズフリーで電話をかけることができるようになってきている。

このように、電話帳から取得した名称データを、文字列から読み（発音）記号に変換して、電話帳用の音声認識用辞書を生成し、電話帳に登録されている名称を認識する音声操作が実現されている。

これに関連する技術として、特許文献１には、携帯電話機から無線電波を介して入力する電話番号と所定の音素列とを対応付けた音声認識辞書を作成し、使用者の音声入力を音素列に変換して、変換された音素列と関連付けされて音声認識辞書に登録された電話番号に対して発信する技術が記載されている。

このような音声認識装置における認識対象の文字には、特定の一つの言語種別の文字だけではなく、複数の言語種別の文字が含まれている場合もある。そのため、特定の言語種別の音声認識だけではなく、複数の言語種別に対する多言語音声の認識をする方法が検討されている。

このような多言語音声の認識に関連する技術として、特許文献２では、入力音声から抽出された特徴パラメータに対して、認識対象の複数の言語の音響モデルを用いて多言語化された認識用文法で表現される単語列との間の照合を行い、照合スコアの最も高い単語列を認識結果とする技術が記載されている。

また、特許文献３では、多言語による名称の音声認識において、名称に対する少なくとも一つの言語を特定し、言語に特定的な文字／音変換器を用いて、名称を一連の発音ユニットに変換して公開語彙辞書に記憶する技術が記載されている。

特開２００６−０１４２１６号公報特開２００４−１０１７２７号公報特開２００６−０４８０５８号公報

上述したように、外部機器やオーディオ機器に格納されている情報には複数の種別の言語で記述された文字が含まれている可能性がある。このような情報を音声認識可能にするためには、それらの読み情報が必要となり、外部機器等が接続された車載機器側で音声認識のための認識辞書を生成している。

しかし、車載機器の音声認識装置では、認識対象となる言語が一言語だけ設定されるようになっている。しかも、外部機器に格納されている文字データが、本来どの言語種別の文字なのかが分からないにもかかわらず、設定された言語での読みデータを生成するため、本来の意図した読みとは異なる読みで認識辞書が生成されることになる。

例えば、ドイツ語が設定言語の音声認識装置を使用する場合、電話帳データにイタリア人の名称が含まれているとき、本来の読みはイタリア語的になるのが通常であるが、生成される認識辞書にはドイツ語的発音データが登録される。その結果、本来のイタリア語的発音で音声入力されたとしても、その発音を認識することができない。

なお、特許文献２に記載された多言語音声認識装置では、各言語に応じた発音辞書を言語の数だけ用意する必要がある。また、特許文献３に記載された多言語音声認識方法では、文字に複数の言語が含まれている場合、各言語に応じた発音データに変換して語彙辞書に格納し、その文字が音声入力されたときには、各言語に応じた音響モデルを用いて音声認識をしている。従って、音声認識の対象となる言語が一つであって、音響モデルがその言語に特定されている場合には、多言語の音声入力を認識することができない。

本発明は、かかる従来技術の課題に鑑みなされたものであり、音声認識の対象となる言語が一つに設定されていても、テキスト本来の読みで認識することが可能な多言語音声認識装置及び多言語音声認識辞書作成方法を提供することを目的とする。

上述した従来技術の課題を解決するため、本発明の基本形態によれば、音声認識辞書の設定言語が所定の一つの言語に設定された多言語音声認識装置であって、外部機器又は媒体から音声認識の対象となるテキストを入力する入力手段と、前記テキストが格納される記憶手段と、前記テキストの名称データを解析して読みデータを生成する複数の言語に対応したテキスト−読みデータ変換手段と、前記テキストの名称データの読みデータが格納された音声認識辞書と、前記入力手段を介して入力された前記テキストを前記記憶手段に格納する制御手段と、を有し、前記制御手段は、取得した前記テキストの名称データの言語種別を判定し、判定した言語種別に応じたテキスト−読みデータ変換手段により当該名称データに対する読みデータを生成し、当該生成した読みデータを前記設定言語に合わせた読みデータに変換して前記音声認識辞書に登録することを特徴とする多言語音声認識装置が提供される。

この形態に係る多言語音声認識装置において、前記制御手段は、前記取得したテキストの名称データの文字コードから言語種別を特定し、当該特定された言語種別に応じたテキスト−読みデータ変換手段により前記読みデータを生成するようにしてもよく、前記制御手段は、前記取得したテキストの名称データの文字コードから言語種別を特定できないとき、保有するすべての言語種別に対するテキスト−読みデータ変換手段により前記読みデータを生成するようにしてもよく、さらに、前記設定言語以外の読みデータと前記設定言語の読みデータとの対応関係を定義したマッピングテーブルを備え、前記制御手段は、前記設定言語のテキスト−読みデータ変換手段以外のテキスト−読みデータ変換手段を用いて前記読みデータを生成したとき、当該読みデータから前記マッピングテーブルを参照して前記設定言語に合わせた読みデータに変換するようにしてもよい。

また、本発明の他の形態によれば、外部機器又は媒体から音声認識の対象となるテキストを取得するステップと、前記取得されたテキストの名称データの言語種別を判定するステップと、前記言語種別に応じたテキスト−読みデータ変換手段により、読みデータを生成するステップと、前記生成した読みデータを所定の設定言語に合わせた読みデータに変換するステップと、前記変換された読みデータを基に、前記設定言語での音声認識辞書を生成するステップと、を有することを特徴とする多言語音声認識辞書作成方法が提供される。

この形態に係る多言語音声認識辞書作成方法において、前記読みデータを生成するステップは、前記取得されたテキストの名称データの文字コードを導出するステップと、当該文字コードから言語種別を特定するステップと、当該特定された言語種別に応じたテキスト−読みデータ変換手段により読みデータを生成するステップと、を含むようにしてもよく、前記読みデータを生成するステップは、前記取得されたテキストの名称データの文字コードを導出するステップと、当該文字コードから言語種別を特定することができないとき、搭載されているすべてのテキスト−読みデータ変換手段により読みデータを生成するステップと、を含むようにしてもよく、前記生成した読みデータを所定の設定言語に合わせた読みデータに変換するステップでは、前記使用したテキスト−読みデータ生成手段が設定言語用でないときに、前記設定言語以外の読みデータと前記設定言語の読みデータとの対応関係を定義したマッピングテーブルを参照して前記生成された読みデータを前記設定言語に合わせた読みデータに変換するようにしてもよい。

本発明の多言語音声認識装置及び多言語音声認識辞書作成方法によれば、外部機器から入力された音声認識の対象となるテキストの文字列データがどの言語に属するかを検出し特定している。特定された言語に対するＧ２Ｐ（Grapheme to Phoneme）のようなテキストから読みデータに変換する手段により文字列データに対する読みデータを生成している。また、言語種別が特定できない場合には多言語音声認識装置が保有するすべての言語に対するＧ２Ｐを使用して読みデータを生成するようにしている。そして、変換された読みデータを基に設定言語に合わせて読みデータ変換（マッピング）して音声認識辞書を作成している。

このように、音声認識辞書には一つの文字列（テキスト）に対して多言語に対応した読みデータから生成される認識用のデータが登録されることになる。これにより、言語種別に依存せず、人名や楽曲名の本来の読み方によりそれらの名称を認識することが可能になる。

図１は、本発明の一実施形態に係る多言語音声認識装置の構成を示すブロック図である。多言語音声認識辞書作成処理の一例を示すフローチャートである。図１の多言語音声認識装置を使用して、携帯電話機に格納された電話帳データから読みデータを生成した一例を示す図である。多言語発音データから設定言語へのマッピング処理の概要を説明する図である。多言語発音データから設定言語へのマッピングの一例を示す図（その１）である。音声認識辞書の一例を示す図である。図１の多言語音声認識装置を使用して、外部機器に格納された音楽情報から読みデータを生成した一例を示す図（その１）である。多言語発音データから設定言語へのマッピングの一例を示す図（その２）である。図１の多言語音声認識装置を使用して、外部機器に格納された音楽情報から読みデータを生成した一例を示す図（その２）である。多言語発音データから設定言語へのマッピングの一例を示す図（その３）である。

以下、本発明の実施形態について、添付の図面を参照して説明する。

図１は、本発明の一実施形態に係る多言語音声認識装置１００の構成を示した図である。

本実施形態に係る多言語音声認識装置１００は、図１に示すように、無線通信部１１と、ＨＭＩ（操作部）１３と、ＣＰＵ（制御部）１２と、Ａ／Ｄ変換部１４ａ及びマイク１４ｂで構成される音声入力部１４と、Ｄ／Ａ変換部１５ａ及びスピーカー１５ｂで構成される音声出力部１５と、ＲＡＭ（Random Access Memory）１６と、ＲＯＭ（Read Only Memory）１７と、音声認識辞書２２及びマッピングテーブル２３を保有する記憶部２１とを備えている。

無線通信部１１は、ＣＰＵ１２の制御に基づいて携帯電話機２００との間で無線通信を行い、携帯電話機２００の記憶部（不図示）に格納されている住所録等が含まれた電話帳データを入力する。

ＨＭＩ１３は、外部機器との入出力インタフェースであり、データが格納されている媒体を接続するスロットなどが設けられている。

ＲＡＭ１６は、半導体メモリ等で構成され、無線通信部１１から入力した電話帳データが格納される。

音声入力部１４では、マイク１４ｂを通して入力した音声を、Ａ／Ｄ変換部１４ａでアナログ信号からデジタル信号に変換する。変換されたデジタル信号は音声データとしてＣＰＵ１２から音声認識部、及び無線通信部１１から無線通信により携帯電話機２００に送信される。

音声出力部１５では、携帯電話機２００から無線通信により無線通信部１１で受信したデジタル信号の音声データを、Ｄ／Ａ変換部１５ａを通してアナログ信号に変換し、スピーカー１５ｂから音声出力として出力する。

ＲＯＭ１７は、音声認識辞書作成及び音声認識に係る各種プログラムが格納され、Ｇ２Ｐ処理部１８、音声認識部１９及びマッピング処理部２０を含んでいる。

Ｇ２Ｐ処理部１８は、入力されたテキスト（文字列）データに対して読みデータを生成するＧ２Ｐを含んでいる。このＧ２Ｐ（Grapheme to Phoneme）は各種言語に応じて用意されている。

Ｇ２Ｐ処理部１８は、テキスト解析部と読みデータ生成部で構成されている。また、Ｇ２Ｐ処理部１８には、音声合成を実行する際に使用する辞書（言語解析辞書、音声合成辞書）が用意されている。言語解析辞書は、音声合成処理の対象となるテキスト情報の構文解析を行う際に参照する辞書であり、あらかじめ各語彙毎に、その表記、読み、アクセント情報、品詞情報等の詳細な情報を対応付けて登録したものである。音声合成辞書は、テキスト解析部で解析されたテキスト情報をその対応する音声データに変換する際に参照する辞書である。

テキスト解析部では、テキスト（文字列）が入力されると、言語解析辞書を基にしてテキストを解析し、読みデータ生成部において、読みとアクセントを記した文字列である中間言語（読みデータ）を生成する。

マッピング処理部２０は、Ｇ２Ｐ処理部１８によって生成された読みデータを基に、後述するマッピングテーブルを参照して所定の設定言語における読みデータに変換する処理を行う。

ＣＰＵ１２では、無線制御部１１を介して入力された携帯電話機２００に記録されている情報から、音声認識辞書２２の登録語彙の対象となるテキストを抽出してＲＡＭ１６に格納する。

また、ＣＰＵ１２は、マッピング処理部２０の読みデータ生成部で生成された読みデータをＤＢ化して、音声認識辞書２２に格納する。

音声認識辞書２２は、ハードディスクや半導体メモリ等で構成され、音声認識部１９で使用する音声認識辞書が格納されている。

音声認識部１９では、ユーザの発話した音声の認識処理を、音声認識辞書２２を利用した周知の方法によって行う。すなわち、入力された音声を音響分析して特徴量を抽出し、特徴量と音響モデルとを照合して複数の発音記号列を得る。この発音記号列を基に認識対象となっている語彙の中から尤もらしい語彙を選択する。

このように構成された多言語音声認識装置１００に、携帯電話機２００が無線通信で接続されると、音声認識辞書の対象となるテキストを抽出して、多言語音声認識辞書を作成する。その際に、入力されたテキストがある言語種別に特定できれば、その言語に対応したＧ２Ｐを使用してテキストから読みデータを生成する。また、入力されたテキストがある言語種別に特定できなければ、装置が搭載しているすべての言語に対するＧ２Ｐを使用して、すべての言語に応じた読みデータを生成する。これらの読みデータを基にして、一つのテキストに対して複数の言語に対応した音声認識を行うことを可能にしている。

以下に、図２から図５を参照して、多言語音声認識装置１００において行われる、多言語音声認識辞書作成処理について説明する。図２は、多言語音声認識辞書作成処理の一例を示すフローチャートである。本フローチャートは、携帯電話機２００に格納されている電話帳データ内に存在するテキストから音声認識辞書を作成する場合を例としている。また、図３は、電話帳データに対応した音声認識辞書の一例であり、図４及び図５は多言語音声認識辞書の作成における読みデータ生成の処理を説明する図である。

なお、本多言語音声認識辞書作成処理において、装置に設定された設定言語は米国英語(US English）であるものとする。

まず、図２のステップＳ１１において、多言語音声認識装置１００に接続された携帯電話機２００内の電話帳にある名称データを取得する。

次のステップＳ１２において、電話帳名称データの差分をチェックする。電話帳データの名称に新たな名称が含まれていないなど、差分がないときは、新たに音声認識用の辞書を作成する必要はないため、本処理を終了する。電話帳データに差分があるときは、ステップＳ１３に移行する。電話帳には、相手先の名称、電話番号、住所等が登録されているが、電話帳名称データの差分チェックにおいては、相手先の名称と電話番号を比較の対象とする。

次のステップＳ１３において、差分のある名称データの数と同数繰り返されるループが開始する。

次のステップＳ１４において、名称データの言語チェックを行い、名称データが一つの言語種別に特定できた場合はステップＳ１５に移行し、言語種別が特定できないときは、ステップＳ１６に移行する。名称データの言語チェックは、名称データの文字コードを判別することにより行う。例えば、ロシア語特有の文字が含まれていれば、その名称データはロシア語であると判定し、言語種別が１言語に特定できたとする。

一方、ウムラウトがあればドイツ語又はスウェーデン語の可能性があるとし、１言語に特定できないとする。また、このような言語を特定可能な特殊文字が存在しない場合にも言語種別が１言語に特定できないとする。

次のステップＳ１５において、ステップＳ１４において特定された一つの言語に対応するＧ２Ｐにより、入力された名称に対する読みデータを生成する。

一方、ステップＳ１４において一つの言語に特定されなかったときは、ステップＳ１６において、可能性のある言語種別のＧ２Ｐにより入力された名称に対する読みデータを生成する。例えば、上記のようにドイツ語及びスウェーデン語の可能性があれば、これらの言語のＧ２Ｐを使用して読みデータを生成する。また、可能性のある言語を特定できなければ、装置に搭載されているすべての言語に対するＧ２Ｐを使用して読みデータを生成する。

次のステップＳ１７において、所定の設定言語に合わせた読みデータに変換する。ステップＳ１５において、例えば言語種別がドイツ語である場合にはドイツ語に対応した読みデータが生成される。この読みデータに対して、後述するマッピングテーブルを参照して、設定言語としての米国英語（US English）の読みデータに変換する。

次のステップＳ１８は、前記ループの終端となり、未処理の名称データが残存しない場合にはステップＳ１９に移行し、存在する場合にはステップＳ１３に戻って次の名称データについて前述した処理を繰り返す。

次のステップＳ１９において、ステップＳ１３からステップＳ１８の処理によって生成された読みデータを基に、電話帳用の音声認識辞書を生成し、本処理を終了する。

図３は、上記処理によって多言語に対応可能な辞書を作成した一例を示している。図３（ａ）に示すように、携帯電話機２００を多言語音声認識装置１００に接続したものとする。図３（ｂ）は、携帯電話機２００の電話帳に登録されている氏名を示している。登録されている氏名のうち、例えば、“Martin Margiela”はフランス人であり、その読みは、フランス語読みで、“マルタンマルジェラ”である。しかし、多言語音声認識装置１００の設定言語が米国英語であり、米国英語用のＧ２Ｐだけが搭載されている場合には、読みデータとして、“マーティンマージエラ”となってしまい、ユーザが“マルタンマルジェラ”と発話しても認識されないことになる。

本実施形態では、この“Martin Margiela”に対して、テキスト解析を行い、特定の言語種別に該当するか否かを判定している。すなわち、ロシア語特有の文字やウムラウトなどの特殊な文字が含まれているか否かを文字コードによって判定する。この場合は、特定の言語種別に該当していないため、多言語音声認識装置１００に搭載されているすべてのＧ２Ｐを用いて、それぞれの言語に対応した読みデータを生成している。図３（ｃ）は、その結果の一例を示している。例えば、“Martin Margiela”に対して、米国英語、ドイツ語、フランス語、スウェーデン語、イタリア語に応じた読みデータを生成している。

図３（ｃ）に示すような多言語音声認識装置１００の設定言語に対する音声認識辞書を作成するために、生成された読みデータは、設定言語（米国英語）の発音記号へマッピングする。

図４は、このマッピング処理の概要を説明する図である。言語Ａの発音データに対して、設定言語である言語Ｂの発音データへの変換は、それぞれの言語の発音データの対応関係が定義されたマッピングテーブルを参照して行われる。例えば、フランス語の“Ｒｕ”は米国英語では“ｒＵ”に対応し、フランス語の“ｔａ”は米国英語の“ｔＡ”に対応し、フランス語の“ＪｅＲＡ”は米国英語の“ｄＺｅｒＡ”に対応する、というような発音記号の対応関係を定義しておく。

図５は、マッピングテーブルを参照して各言語の読み（発音）データを米国英語の読みデータに変換（マッピング）した例を示している。例えば、フランス語の“マルタンマルジェラ”の読み（発音）データは“ｍＡＲｕｔａＮｍＡＲｕＪｅＲＡ”であり、変換された米国英語の読み（発音）データは、“ｍＡｒＵｔＡＮｍＡｒＵｄＺｅｒＡ”となる。

図５に示したような変換された発音記号をもとに、設定言語（米国英語）での音声認識辞書を生成する。

生成された音声認識辞書は、各携帯電話機毎に登録されている氏名（名称）とその氏名に対する可能性のある読み（発音）データとを関連付けて保存される。図６はその一例を示している。図６に示すように、ＩＤ番号がＸの携帯電話機において、氏名（Ａ）に対して可能性のある読みが４種類（読みデータＡ１〜読みデータＡ４）あり、氏名（Ａ）と関連付けて保存される。また、氏名（Ｂ）に対して可能性のある読みが２種類（読みデータＢ１，読みデータＢ２）あり、氏名（Ｂ）と関連付けて保存される。

以上説明したように、本実施形態の多言語音声認識装置及び多言語音声認識辞書作成方法によれば、外部機器（携帯電話機）から入力された音声認識の対象となるテキストの文字列データがどの言語に属するかを検出し特定している。特定された言語に対するＧ２Ｐのようなテキストから読みデータに変換する手段により文字列データに対する読みデータを生成している。また、言語種別が特定できない場合には搭載されているすべての言語に対するＧ２Ｐを使用して読みデータを生成するようにしている。そして、変換された読みデータを基にして音声認識辞書を作成している。

このように、音声認識辞書には一つの文字列（テキスト）に対して多言語に対応した読みデータから生成される認識用のデータが登録されることになる。これにより、多言語音声認識装置１００に設定された言語種別に依存せず、本来の読み方で人名を認識することが可能になる。

（変形例）
上記実施形態では、多言語音声認識装置１００に携帯電話機２００を接続した場合を例にとって多言語音声認識用の辞書作成について説明した。外部機器としては携帯電話着に限らず、デジタルオーディオ機器やＣＤ、ＤＶＤ等の媒体を多言語音声認識装置１００に接続するようにしてもよい。

デジタルオーディオ機器としては、例えば、ｉＰｏｄ（登録商標：アップル・コンピュータ社製のデジタル音楽プレーヤー）や、ＨＤＤオーディオ、ＣＤテキストがある。ＨＤＤオーディオは記憶装置にハードディスクを内蔵した携帯音楽プレーヤーである。また、ＣＤテキストは、ＣＤ−ＴＥＸＴ規格に対応したプレーヤーであり、ＣＤのタイトルや作曲家などのテキスト情報が表示されるものである。

デジタルオーディオ機器には、例えば、インターネット等を介して配信されたＭＰ３形式等の楽曲ファイルをパーソナルコンピュータ（ＰＣ）にいったんダウンロードし、さらにこのＰＣから転送された楽曲ファイルが格納されている。この楽曲ファイルには、再生用のオーディオ情報の他に、このオーディオ情報を特定する楽曲情報（タイトル、アーティスト名、アルバム名など）が含まれている。

これらのデジタルオーディオ機器や媒体は、ＨＭＩ１３に接続される。ＣＰＵ１２では、ＨＭＩ１３を介して入力された外部機器に記録されている情報から、音声認識辞書２２の登録語彙の対象となるテキストを抽出してＲＡＭ１６に格納する。例えば、ＣＤが入力媒体の場合、楽曲データからＣＤＤＢを参照して、タイトルやアーティストや作曲者などの情報を抽出してＲＡＭ１６に格納する。

図７及び図８は、外部機器としてデジタルオーディオ機器を接続した際に、楽曲情報に含まれる情報に対して多言語用の読みデータを生成した例を示している。

図７は、楽曲情報のうちのアーティスト名の読みデータの生成の一例を示している。図７（ａ）に示すように、多言語音声認識装置１００にデジタルオーディオ機器やＵＳＢメモリが接続されたものとする。図７（ｂ）は、外部デジタルオーディオ機器に格納されている楽曲情報のうちのアーティスト名を示している。アーティスト名のうち、例えば“Johann Sebastian Bach”は、ドイツ語読みでは、“ヨハン・セバスチャン・バッハ”であるが、米国英語読みでは、“ヨーハン・セバスチャン・バーック”と読まれる。

図７（ｃ）は、複数言語のＧ２Ｐによって生成された読みデータを示した図である。この図７（ｃ）に示すように、各言語に対応した読みが生成されている。

図８は、図７（ｃ）のように生成された各言語の読み（発音）データを米国英語の発音記号へマッピングした例を示している。図４、図５で説明したように、変換相互の言語に対する発音記号のマッピングテーブルを参照して、設定言語の発音記号に変換される。例えば、ドイツ語読みの“ヨハン・セバスチャン・バッハ”は、そのドイツ語の発音記号が“jOhANZebasUChaNBaha”であり、変換された米国英語の発音記号は“jO:hAN SeVasUChaNBA:kU”となる。変換された発音記号をもとに、設定言語での音声認識辞書を生成する。

図９及び図１０は、外部機器としてデジタルオーディオ機器を接続した際に、楽曲情報に含まれる情報に対して多言語用の読みデータを生成した別の一例を示している。

図９は、楽曲情報のうちの楽曲名の読みデータの生成の一例を示している。図９（ａ）に示すように、多言語音声認識装置１００にデジタルオーディオ機器やＵＳＢメモリが接続されたものとする。図９（ｂ）は、外部デジタルオーディオ機器に格納されている楽曲情報のうちの楽曲名を示している。楽曲名のうち、例えば“ANGEL”は、ドイツ語読みでは、“アングレ”であるが、米国英語読みでは、“エンジェル”と読まれる。

図９（ｃ）は、複数言語のＧ２Ｐによって生成された読みデータを示した図である。この図９（ｃ）に示すように、各言語に対応した読みが生成されている。

図１０は、図９（ｃ）のように生成された各言語の読み（発音）データを米国英語の発音記号へマッピングした例を示している。図４、図５で説明したように、変換相互の言語に対する発音記号のマッピングテーブルを参照して、設定言語の発音記号に変換される。例えば、ドイツ語読みの“アングレ”は、そのドイツ語の発音記号が“aNgUre”であり、変換された米国英語の発音記号は“aENZerU”となる。変換された発音記号をもとに、設定言語での音声認識辞書を生成する。

以上説明したように、オーディオ機器から取得した楽曲情報（楽曲名やアーティスト名等）の場合も、電話帳に登録された人名の場合と同様に、言語種別に応じた複数の読み方があるとき、可能性のある読みデータをテキストデータから生成するようにしている。そして、多言語音声認識装置に設定された言語に応じた読みデータを生成して、音声認識辞書を作成するようにしている。これにより、多言語音声認識装置に設定された言語種別に依存せず、本来の読み方で楽曲名等を認識することが可能となる。

１００…多言語音声認識装置、
２００…携帯電話機、
１１…無線通信部（入力手段）、
１２…ＣＰＵ（制御手段）、
１３…ＨＭＩ（入力手段）、
１４…音声入力部、
１５…音声出力部、
１６…ＲＡＭ（記憶手段）、
１８…Ｇ２Ｐ処理部（テキスト−読みデータ変換手段）、
１９…音声認識部、
２０…マッピング処理部、
２２…音声認識辞書、
２３…マッピングテーブル。

Claims

音声認識辞書の設定言語が所定の一つの言語に設定された多言語音声認識装置であって、
外部機器又は媒体から音声認識の対象となるテキストを入力する入力手段と、
前記テキストが格納される記憶手段と、
前記テキストの名称データを解析して読みデータを生成する複数の言語に対応したテキスト−読みデータ変換手段と、
前記テキストの名称データの読みデータが格納された音声認識辞書と、
前記入力手段を介して入力された前記テキストを前記記憶手段に格納する制御手段と、
を有し、
前記制御手段は、取得した前記テキストの名称データの言語種別を判定し、判定した言語種別に応じたテキスト−読みデータ変換手段により当該名称データに対する読みデータを生成し、当該生成した読みデータを前記設定言語に合わせた読みデータに変換して前記音声認識辞書に登録することを特徴とする多言語音声認識装置。
前記制御手段は、前記取得したテキストの名称データの文字コードから言語種別を特定し、当該特定された言語種別に応じたテキスト−読みデータ変換手段により前記読みデータを生成することを特徴とする請求項１に記載の多言語音声認識装置。
前記制御手段は、前記取得したテキストの名称データの文字コードから言語種別を特定できないとき、保有するすべての言語種別に対するテキスト−読みデータ変換手段により前記読みデータを生成することを特徴とする請求項２に記載の多言語音声認識装置。
さらに、前記設定言語以外の読みデータと前記設定言語の読みデータとの対応関係を定義したマッピングテーブルを備え、
前記制御手段は、前記設定言語のテキスト−読みデータ変換手段以外のテキスト−読みデータ変換手段を用いて前記読みデータを生成したとき、当該読みデータから前記マッピングテーブルを参照して前記設定言語に合わせた読みデータに変換することを特徴とする請求項３に記載の多言語音声認識装置。
前記外部機器は、デジタルオーディオ機器又は携帯電話機であり、前記媒体は、ＣＤ又はＤＶＤであることを特徴とする請求項１に記載の音声認識辞書作成装置。
外部機器又は媒体から音声認識の対象となるテキストを取得するステップと、
前記取得されたテキストの名称データの言語種別を判定するステップと、
前記言語種別に応じたテキスト−読みデータ変換手段により、読みデータを生成するステップと、
前記生成した読みデータを所定の設定言語に合わせた読みデータに変換するステップと、
前記変換された読みデータを基に、前記設定言語での音声認識辞書を生成するステップと、
を有することを特徴とする多言語音声認識辞書作成方法。
前記読みデータを生成するステップは、
前記取得されたテキストの名称データの文字コードを導出するステップと、
当該文字コードから言語種別を特定するステップと、
当該特定された言語種別に応じたテキスト−読みデータ変換手段により読みデータを生成するステップと、
を含むことを特徴とする請求項６に記載の多言語音声認識辞書作成方法。
前記読みデータを生成するステップは、
前記取得されたテキストの名称データの文字コードを導出するステップと、
当該文字コードから言語種別を特定することができないとき、保有するすべてのテキスト−読みデータ変換手段により読みデータを生成するステップと、
を含むことを特徴とする請求項６に記載の多言語音声認識辞書作成方法。
前記生成した読みデータを所定の設定言語に合わせた読みデータに変換するステップでは、
前記使用したテキスト−読みデータ生成手段が設定言語用でないときに、前記設定言語以外の読みデータと前記設定言語の読みデータとの対応関係を定義したマッピングテーブルを参照して前記生成された読みデータを前記設定言語に合わせた読みデータに変換することを特徴とする請求項６に記載の多言語音声認識辞書作成方法。
前記外部機器は、デジタルオーディオ機器又は携帯電話機であり、前記媒体は、ＣＤ又はＤＶＤであることを特徴とする請求項６に記載の多言語音声認識辞書作成方法。