JP2011064969A

JP2011064969A - 音声認識装置及び音声認識方法

Info

Publication number: JP2011064969A
Application number: JP2009216001A
Authority: JP
Inventors: Fumihiko Aoyama; 文彦青山; Chiharu Takeda; 千春武田
Original assignee: Alpine Electronics Inc
Current assignee: Alpine Electronics Inc
Priority date: 2009-09-17
Filing date: 2009-09-17
Publication date: 2011-03-31
Anticipated expiration: 2029-09-17
Also published as: JP5693834B2

Abstract

【課題】音声認識対象となる単語の言い換え語が複数存在する場合でも、ユーザが意図する単語を選択することが可能な「音声認識装置及び音声認識方法」を提供すること。
【解決手段】音声認識装置は、外部機器又は媒体から音声認識の対象となる原テキストを入力する入力手段と、原テキストを解析して読みデータを生成する読みデータ生成手段と、音声認識辞書用の文字列に変換する変換規則が格納された記憶手段と、音声認識辞書と、入力手段を介して入力された原テキストを記憶手段に格納する制御手段とを有する。制御手段は、原テキストに対する言い換え語を生成し、言い換え語のうち原テキストと一致する言い換え語を特定可能な識別番号をその言い換え語に付与し、言い換え語を読みデータ生成手段に入力して読みデータを取得して、読みデータと認識対象の言い換え語とを関連付けて音声認識辞書に登録する。
【選択図】図４

Description

本発明は、音声認識装置及び音声認識方法に関し、特に、認識対象となる単語の言い換え表現を音声認識して言い換え表現の元の単語を特定可能とする音声認識装置及び音声認識方法に関する。

近年、テキストを入力するとそれを音声で読み上げる機能（ＴＴＳ(Text To Speech)エンジン）を備えたシステムが開発され、携帯電話の電話応答サービスなどで広く利用されている。例えば、個人向けポータブルサービスで、ユーザの身近にモバイル端末やコンピュータがないという状況でも、電話をかければＥメールやニュース、市場動向等の情報を読み上げてくれる音声サービスとして使用されている。

一方、再生用のオーディオ情報を格納した機器をオーディオ装置に接続して、オーディオ情報を基に音楽を再生出力することが行われている。このようなオーディオ情報としては楽曲データがあり、楽曲データには、楽曲のデジタルデータとともに楽曲のタイトルやアーティスト等の情報が記載されたタグデータが含まれている。このタグデータを基にして再生されている楽曲のタイトル等を表示画面に表示したり、ＴＴＳエンジンを利用して音声で読み上げることもできるようになってきている。さらに、ユーザから楽曲のタイトルを音声入力して、その楽曲を再生することもできるようになってきている。

ユーザが発話した音声を認識するために、認識できる単語が登録されている音声認識用辞書が不可欠である。認識できる単語が音声認識用辞書に登録されている場合であっても、ユーザは完全な単語ではなく省略した単語を発話する場合もある。このような場合であっても音声認識が可能になるように音声認識用辞書を作成する方法として、特許文献１には、正式名称の一部を脱落、置換、あるいは、倒置することによって正式名称の言い換え語を生成したり、正式名称の個数が所定個以下の言い換え語を音声認識辞書に加えて音声認識辞書を更新する技術が記載されている。

特開２００５−３３８２７４号公報

上述したように、音声認識の対象となる正式な名称だけでなく、その言い換え語を生成して音声認識辞書に登録しておくことにより、正式な名称を忠実に発話できない場合であっても、ユーザの所望の正式な名称を選択することが可能となる。

例えば、オーディオ情報に含まれる作曲者名を音声認識辞書に登録する際に、正式名称（フルネーム）が記載されている情報を基に、スペース毎に分割した各単語を組み合わせて登録しておくことにより、フルネームをすべて発話する必要がなく、ユーザにとって利便性が向上する。

しかし、このような言い換え語を音声認識辞書に登録することによって、音声認識を行う際に次のような不都合が生じる場合がある。例えば、“Ａ”，“Ｂ”及び“Ｃ”は一単語を示すものとし、音声認識の対象となる文字が“ＡＢＣ”、“ＡＢ”、“ＡＣ”であるとする。これらの文字について、スペース毎に分割した単語も言い換え語に含まれるとすると、すべての文字に対し言い換え語として“Ａ”が存在することになる。このとき、ユーザが“Ａ”と発話すると、“Ａ”を認識した音声認識装置は、認識結果の候補として同一の単語“Ａ”を３つ出力することになる。その結果、ユーザが“ＡＢ”を選択したい場合であっても、３つの候補のうちのどれが“ＡＢ”に対応するかが不明であるため、ユーザの所望の文字を選択することが不可能となってしまう。

本発明は、かかる従来技術の課題に鑑みなされたものであり、音声認識対象となる単語の言い換え表現による認識結果が複数存在する場合であっても、ユーザが意図する単語を選択することが可能な音声認識装置及び音声認識方法を提供することを目的とする。

上述した従来技術の課題を解決するため、本発明の基本形態によれば、外部機器又は媒体から音声認識の対象となる原テキストを入力する入力手段と、前記原テキストを解析して読みデータを生成する読みデータ生成手段と、前記原テキストに対して音声認識辞書用の文字列に変換する変換規則が格納された記憶手段と、前記読みデータと前記認識対象の原テキストとが関連付けて格納される音声認識辞書と、前記入力手段を介して入力された前記原テキストを前記記憶手段に格納する制御手段と、を有し、前記制御手段は、前記原テキストに対して前記変換規則を適用して言い換え語を生成して、当該言い換え語のうち前記原テキストと一致する言い換え語を特定可能な識別情報を当該言い換え語に付与し、前記言い換え語を前記読みデータ生成手段に入力して読みデータを取得して、当該読みデータと認識対象の前記言い換え語とを関連付けて前記音声認識辞書に登録することを特徴とする音声認識装置が提供される。

この形態に係る音声認識装置において、さらに、ユーザの発話を入力する音声入力手段と、ユーザの発話を認識する音声認識手段と、表示手段と、前記音声入力手段及び音声認識手段を制御する音声認識制御手段と、を有し、前記音声認識制御手段は、前記音声認識手段によりユーザの発話に対応するテキストを取得し、当該テキストの元になった原テキストを前記音声認識辞書から抽出して、前記表示手段の画面に出力するようにしてもよく、前記音声認識制御手段は、前記ユーザの発話に対応するテキストが言い換え語であると判定したとき、当該言い換え語の元になった原テキストを取得する識別情報を生成して、当該識別情報を基に前記音声認識辞書から当該原テキストを抽出するようにしてもよく、前記音声認識制御手段は、前記ユーザの発話に対応するテキストが言い換え語でないと判定したとき、当該発話に対応するテキストを前記音声認識辞書から抽出するようにしてもよい。

また、本発明の他の形態によれば、音声認識の対象となる原テキストを取得するステップと、前記原テキストに対する言い換え語を記憶手段に格納されている変換規則を基に生成するステップと、前記言い換え語のうち前記原テキストと一致する言い換え語を特定可能な識別情報を当該言い換え語に付与するステップと、前記言い換え語を音声データに変換して読みデータを取得するステップと、前記読みデータと認識対象の前記言い換え語とを関連付けて音声認識用辞書に登録するステップと、を有することを特徴とする音声認識方法が提供される。

この形態に係る音声認識方法において、前記音声認識用辞書に登録するステップの後に、ユーザの発話を入力して音声認識するステップと、前記音声認識の結果に応じて前記原テキストを取得するステップと、前記原テキストに対する識別情報を基に原テキストによる結果出力を行うステップと、を含むようにしてもよく、前記音声認識の結果に応じて前記原テキストを取得するステップでは、前記音声認識の結果、前記ユーザの発話に対応するテキストが言い換え語であると判定したとき、原テキストを取得するための識別情報を生成するステップと、当該識別情報を基に原テキストを前記音声認識辞書から抽出するステップと、を含むようにしてもよく、前記音声認識の結果に応じて前記原テキストを取得するステップでは、前記音声認識の結果、前記ユーザの発話に対応するテキストが言い換え語でないと判定したとき、当該ユーザの発話に対応するテキストを前記音声認識辞書から抽出するステップを含むようにしてもよい。

本発明の音声認識装置及び音声認識方法によれば、認識対象となるテキストに対して言い換え語を作成するとき、言い換え語のうち、言い換え語の元となった原テキストと一致する言い換え語を特定可能な識別情報を、その言い換え語に付与している。そして、音声認識をしたときに、認識結果に言い換え語が含まれていると判断されれば、言い換え語に付与された識別情報から原テキストに対応する特定の識別情報を生成し、その識別情報を基に原テキストを取得して出力するようにしている。これにより、ユーザの発話した言い換え語を認識した結果、複数の同一のテキストが結果として出力されることがなく、それぞれの言い換え語の元のテキストが出力されるようになり、認識結果からどの項目を選択してよいか特定できないという状況を回避することが可能になる。

本発明の一実施形態に係る音声認識装置の構成を示すブロック図である。図２（ａ）は、楽曲情報のうちの作曲者名と楽曲ＩＤとの対応関係の一例であり、図２（ｂ）は、音声認識の対象となる文字列とその識別情報との対応関係の一例を示す図である。図３は、本実施形態の音声認識装置による認識結果の出力画面の一例を示す図である。音声認識辞書作成処理の一例を示すフローチャートである。音声認識辞書作成処理において生成される言い換え語のデータを説明する図である。音声認識処理の一例を示すフローチャートである。音声認識処理において生成される言い換え語のデータを説明する図である。本実施形態の音声認識装置を電話帳データに適用した一例を示す図である。

以下、本発明の実施形態について、添付の図面を参照して説明する。

図１は、本発明の一実施形態に係る音声認識辞書作成装置１００を含む音声認識装置２００の構成を示した図である。

本実施形態に係る音声認識辞書作成装置１００は、図１に示すように、入力部１と、記憶部２と、情報抽出部４と、ＴＴＳエンジン５と、制御部６と、音声認識辞書生成部７と、音声認識辞書８とを備えている。

さらに、音声認識処理を含む音声認識装置２００としては、音声認識制御部１１と、音声認識エンジン９と、マイクロフォン１０と、音声認識辞書管理部１２と、メモリ１３と、表示部１４とを備えている。

入力部１は、各種機器（デバイス）や媒体が接続される。例えば、デジタルオーディオ機器やＣＤ，ＤＶＤ，携帯電話等が接続される。デジタルオーディオ機器としては、例えば、ｉＰｏｄ（登録商標：アップル・コンピュータ社製のデジタル音楽プレーヤー）や、ＨＤＤオーディオ、ＣＤテキストがある。ＨＤＤオーディオは記憶装置にハードディスクを内蔵した携帯音楽プレーヤーである。また、ＣＤテキストは、ＣＤ−ＴＥＸＴ規格に対応したプレーヤーであり、ＣＤのタイトルや作曲家などのテキスト情報が表示されるものである。

デジタルオーディオ機器には、例えば、インターネット等を介して配信されたＭＰ３形式等の楽曲ファイルをパーソナルコンピュータ（ＰＣ）にいったんダウンロードし、さらにこのＰＣから転送された楽曲ファイルが格納されている。この楽曲ファイルには、再生用のオーディオ情報の他に、このオーディオ情報を特定する楽曲情報（タイトル、アーティスト名、アルバム名などであり、本実施形態では、コンテンツとも呼ぶ）が含まれている。

記憶部２は、ハードディスクや半導体メモリ等で構成され、入力部１から入力した各種デバイスに格納されている情報（例えば、ＣＤの場合は楽曲データ２ａであり、携帯電話機の場合は、住所録のデータである）が格納される。また、記憶部２には、楽曲情報が含まれたデータベースＣＤＤＢ２ｂが構成されている。

情報抽出部４では、入力された各種デバイスに記録されている情報から、音声認識辞書８の登録語彙の対象となるテキストを抽出する。例えば、ＣＤが入力媒体の場合、楽曲データ２ａからＣＤＤＢ２ｂを参照して、タイトルやアーティストや作曲者などのコンテンツ情報を抽出する。

ＴＴＳエンジン５は、テキスト解析部５ａと読みデータ生成部５ｂで構成されている。また、ＴＴＳエンジン５には、音声合成を実行する際に使用する辞書（言語解析辞書、音声合成辞書）が用意されている。言語解析辞書は、音声合成処理の対象となるテキスト情報の構文解析を行う際に参照する辞書であり、あらかじめ各語彙毎に、その表記、読み、アクセント情報、品詞情報等の詳細な情報を対応付けて登録したものである。音声合成辞書は、テキスト解析部５ａで解析されたテキスト情報をその対応する音声（波形）データに変換する際に参照する辞書である。

テキスト解析部５ａでは、情報抽出部４で抽出されたテキスト（文字列）が入力されると、言語解析辞書を基にしてテキストを解析し、読みデータ生成部５ｂにおいて、読みとアクセントを記した文字列である中間言語（読みデータ）を生成する。

音声認識辞書生成部７は、読みデータ生成部５ｂで生成された読みデータをＤＢ化して音声認識辞書８に格納する。

音声認識辞書８は、ハードディスクや半導体メモリ等で構成され、音声認識エンジン９で使用する音声認識辞書が格納されている。

制御部６は、マイクロコンピューターにより構成され、上記各部の制御を行って、入力デバイスや媒体に保存されている音声認識の対象とするテキストから読みデータを生成させて音声認識辞書を作成する。具体的には、記憶部２に保存した各種データから、情報抽出部４において音声認識辞書の対象となる単語（テキスト）を抽出させ、ＴＴＳエンジン５においてテキストの読みデータを生成させ、音声認識辞書生成部７で音声認識辞書を生成させる。

ユーザの発話した音声の認識処理は、以下の各部の処理によって行われる。

音声認識制御部１１は、認識対象としたい語彙を音声認識辞書８から音声認識辞書管理部１２を介してメモリ１３に展開し、音声認識の対象とする。また、音声認識制御部１１は、マイクロフォン１０を介して入力したユーザの発話音声を音声認識エンジン９に認識させる。

音声認識エンジン９は、入力された音声を音響分析して特徴量を抽出し、特徴量と音響モデルを照合して複数の発音記号列を得る。この発音記号列を基に認識対象となっている語彙の中から尤もらしい語彙を選択する。認識された結果をもとに、ユーザの要求に応じた情報を表示部１４に表示する。

このように構成された音声認識装置２００に、楽曲データが格納されたデジタルオーディオ機器が接続されると、楽曲データに付随した楽曲名等の情報が含まれている楽曲情報を基にして、音声認識辞書生成用の文字列が生成され、楽曲情報と関連付けられた文字列の読みデータが音声認識辞書に登録される。音声認識用の文字列の生成では、言い換え語を生成するとともに、言い換え語の元のオリジナル文字列との関係を明確にし、オリジナル文字列は特定の識別コードで表すようにしている。

以下に、言い換え語の元の文字列を特定容易にするための音声認識辞書の生成及び音声認識処理について説明する。本実施形態では、デジタルオーディオ機器に格納された楽曲が再生出力される音声認識装置２００を対象とする。

音声認識装置２００にデジタルオーディオ機器が接続されると、デジタルオーディオ機器に格納されている楽曲情報（楽曲のジャンル、楽曲名、作曲者名、アーティスト名、アルバム名が含まれる）を基にして音声認識用の辞書を作成する。

図２及び図３は、本実施形態の音声認識辞書生成方法によって生成された音声認識辞書と、それを用いた音声認識結果の出力の一例を示した図である。

図２は、音声認識用辞書の生成例を示しており、図２（ａ）は、音声認識装置２００に入力される楽曲情報であり、図２（ｂ）は図２（ａ）の楽曲情報を基に生成された言い換え語を含む音声認識用の辞書の一例である。

図２（ａ）は、４つの作曲者名とそれらに対応する識別情報（楽曲ＩＤ）を示している。識別情報は、例えば１６進数の数値で表している。これらの各作曲者名を基にして言い換え語を所定の規定に基づいて作成し、認識対象文字列を生成する。

図２（ｂ）は、これら４つの作曲者名からそれぞれ言い換え語を生成し、音声認識の対象となる文字列を生成した例を示している。例えば、作曲者名"Fresh Nelly"に対して、スペースを区切り記号として作曲者名を分割し、分割した単語を基に生成した語を言い換え語として音声認識辞書に登録する。その結果、"Fresh"、"Nelly"、"Fresh Nell"の３つが言い換え語として登録される。これらの言い換え語は元の文字列が何であるかが分かるように、生成された言い換え語に関連付けて、元の楽曲ＩＤが識別情報（単語ＩＤ）として記録されている。

また、言い換え語が元の文字列と同一の場合には、特別な識別情報（図２（ｂ）では上位ビットを１とした数値）が付与されている。これにより、複数の同一な言い換え語を認識した場合であっても、その元の文字列を容易に特定することが可能となる。

このように、本実施形態では、言い換え語などの認識対象文字列を識別するために１６ビットの識別コードを用いているが、各認識対象文字列を特定できるものであればよい。例えば、上位４ビットに“１”をたてるようにしてもよい。

これらの変換された文字列をＴＴＳエンジン６に入力して、各文字列に対応する読みデータを取得し、読みデータと各文字列が属する楽曲情報とを関連付けて音声認識辞書１０ｂに登録する。

図２（ａ）の他の作曲者名に対しても、同様に言い換え語を生成し、識別情報とともに認識辞書を作成する。

図３は、図２（ｂ）に示した音声認識辞書が登録されている場合の音声認識結果における作曲者名選択画面３１の一例を示した図である。図３は、ユーザが“ネリー”と発話した場合の作曲者選択画面３１を示している。音声認識装置は“ネリー”という音声を認識して、音声認識辞書に登録されている"Nelly"を検出する。図２（ｂ）に示した音声認識辞書を使用すると、４個の"Nelly"が選択され、作曲者選択画面３１のリスト３２ａ〜３２ｄにはそれぞれ"Nelly"の元の文字列である"Fresh Nelly"、"Nelly"、"Nelly & st. lunatics"、"Nelly Furtado"が表示されている。この状態からリスト３２ａの"Fresh Nelly"が選択されると、楽曲ＩＤ"0x0001"に対応する楽曲が再生される。

次に、制御部６で行われる音声認識辞書の生成処理について図４のフローチャートを参照しながら説明する。この処理において、楽曲情報に応じた音声認識辞書生成用の文字列に変換するための変換規則は予め定義され記憶部１０に格納されているものとする。

まず、図４のステップＳ１１において、入力部に接続されたデジタルオーディオ機器から楽曲情報を取得し、各楽曲情報のオリジナル文字列（原テキスト）とその楽曲の識別情報である楽曲ＩＤとの対応関係を示したリストを作成する。楽曲情報としては、作曲者名、アーティスト名、楽曲名、ジャンル名などが含まれる。

図５（ａ）は、対応関係のリストの一例を示している。図５（ａ）では、楽曲情報を作曲者名とし、４つの作曲者名とそれに対応する楽曲ＩＤを示している。

次のステップＳ１２では、オリジナル文字列に対して、言い換え語を生成する。この言い換え語は、適宜決められた規則により生成される。例えば、複数の単語が含まれる楽曲情報の場合には、それぞれの単語に分割し、分割された単語の組み合わせによって作成するようにしてもよい。また、言い換え語が多数生成される場合には、使用される可能性の低い言い換え語を排除するなどするようにしてもよい。

生成される言い換え語は、どのオリジナル文字列から生成されたものかが分かるように、各言い換え語には作成の元となったオリジナル文字列の楽曲ＩＤが付与される。

図５（ｂ）は、図５（ａ）に示した作曲者名（オリジナル文字列）のうち、"Nell & st. lunatics"に対する言い換え語の生成例を示している。この例では、オリジナル文字列を“＆”毎に分割した単語を基に生成したものである。これらの生成された言い換え語の元の文字列は、"Nelly & st. lunatics"であるため、その楽曲ＩＤを関連付けて単語ＩＤとしている。

次のステップＳ１３において、オリジナル文字列の楽曲ＩＤをオリジナル文字列であることが分かるように特定のＩＤに変換する。本実施形態では、１６進数で表される楽曲ＩＤの上位ビットを１にするように楽曲ＩＤを変換している。

図５（ｃ）において、言い換え語として記録される"Nelly & st. lunatics"はオリジナル文字列と同一であるため、単語ＩＤにオリジナル文字列であることがわかるように、上位ビットを“１”にして"0x8003"とし、他の言い換え語とは区別している。

なお、オリジナル文字列であることが分かるようにできれば、その他の方法で楽曲ＩＤを変換するようにしてもよい。

次のステップＳ１４において、オリジナル文字列のすべてに対してステップＳ１３の処理を行ったか否かを判定する。すべて処理が終了していない場合はステップＳ１２に移行し、ステップＳ１１で作成したリストの他の楽曲ＩＤに対して同様の処理を行う。すべて処理が終了した場合は、ステップＳ１５に移行する。

図５（ｄ）に、図５（ａ）に示したすべてのオリジナル文字列に対して言い換え語を生成し、単語ＩＤにオリジナル文字列であることがわかるようにする変換処理（オリジナル文字列取得ＩＤ付与処理）を施した結果を示している。

次のステップＳ１５において、制御部６は音声認識辞書生成部７に音声認識辞書を作成させる。読みデータと楽曲情報とを関連付けて音声認識辞書１０ｂに登録する。

次に、図６及び図７を参照して、発話された単語が言い換え語を含み、認識結果が複数同一の文字列となる場合であっても言い換え語に対応する元の文字列を特定可能とする、音声認識制御部１１において行われる音声認識処理について説明する。

まず、図６のステップＳ２１において、音声認識を実行する。音声認識制御部１１は、マイクロフォン１０を介して入力されたユーザの発話音声を音声認識エンジン９に認識させる。

次のステップＳ２２において、音声認識結果を取得する。

次のステップＳ２３において、ステップＳ２２において認識された結果が、オリジナル文字列（原テキスト）か否かを判定する。オリジナル文字列の場合はステップＳ２６に移行し、オリジナル文字列でない場合には、ステップＳ２４に移行する。

図７（ａ）は、認識結果の一例を示している。例えば、ユーザが“ネリー”と発話したとすると、図５（ｄ）に示される音声認識辞書を基に、図７（ａ）に示す４つの"Nelly"がヒットする。これらの４つの"Nelly"について順にオリジナル文字列か否かを判定する。１番目の“Ｎｅｌｌｙ”は単語ＩＤが"0x0001"であり、上位ビットが“１”ではないため、オリジナル文字列ではないと判定される。３番目及び４番目の“Ｎｅｌｌｙ”も同様にオリジナル文字列ではないと判定される。一方、２番目の“Ｎｅｌｌｙ”は、上位ビットが“１”であるため、オリジナル文字列であると判定される。

次のステップＳ２４において、オリジナル文字列取得ＩＤを生成する。オリジナル文字列取得ＩＤは、単語ＩＤの上位ビットが１になるような変換処理を施すことによって生成する。図７（ｂ）は、オリジナル文字列ではないと判定された認識文字列の単語ＩＤをオリジナル文字列取得ＩＤに変換した例を示している。例えば、単語ＩＤが“０ｘ０００１”の“Ｎｅｌｌｙ”に対して、“０ｘ８０００”を加算することによりオリジナル文字列取得ＩＤ“０ｘ８００１”に変換する。その他のオリジナル文字列でない認識結果に対しても同様にオリジナル文字列取得ＩＤに変換する。

次のステップＳ２５において、ステップＳ２４で生成されたオリジナル文字列取得ＩＤを基に、記憶部２に格納されているオリジナル文字列を検索する。図７（ｃ）は、検索された結果を示している。

一方、ステップＳ２３において認識文字列がオリジナル文字列と判定されたときは、オリジナル文字列を取得するための処理（ステップＳ２４及びステップＳ２５の処理）は必要ないため、ステップＳ２６に移行する。

次のステップＳ２６において、楽曲ＩＤを生成する。図７（ｄ）は、ステップＳ２５で取得されたオリジナル文字列と、ステップＳ２３においてオリジナル文字列と判定された文字列とを示している。これらのオリジナル文字列から図７（ｅ）に示すように、対応する楽曲ＩＤを算出する。すなわち、各オリジナル文字列の単語ＩＤから特定の値を減算することによって、楽曲ＩＤを算出する。

なお、本実施形態では、オリジナル文字列取得のための識別コードを１６進数の最上位ビットを“１”としたため、"0x8000"を減算することによって楽曲ＩＤを算出したが、識別情報の表し方に応じて適宜処理される。

次のステップＳ２７において、ステップＳ２５で生成されたオリジナル文字列を基に、認識結果の選択画面を表示部１４の画面に表示する。その後、選択画面で選択された項目に従って、楽曲を再生する。

以上説明したように、本実施形態の音声認識装置及び音声認識方法によれば、認識対象となるテキストに対して言い換え語を作成するとき、言い換え語のうち、言い換え語の元となった原テキストと一致する言い換え語を特定可能な識別情報を、その言い換え語に付与している。そして、音声認識をしたときに、認識結果に言い換え語が含まれていると判断されれば、言い換え語に付与された識別情報から原テキストに対応する特定の識別情報を生成し、原テキストを取得し、原テキストを出力するようにしている。これにより、ユーザの発話した言い換え語を認識した結果、複数の同一のテキストが結果として出力されることがなく、それぞれの言い換え語の元のテキストが出力されるようになり、認識結果からどの項目を選択してよいか特定できないという状況を回避することが可能になる。

なお、本実施形態では、音声認識の対象となる文字列として楽曲情報を例にとって説明したが、これに限定されない。例えば、携帯電話機に格納されている電話帳データを車載器に取り込んで、車載器からハンズフリーで電話をかける際の音声認識にも適用可能である。

図８は、電話帳データの登録及び利用の一例を示している。図８（ａ）は、電話帳データに登録されているオリジナル文字列（名前）とその識別情報（ＩＤ）を対応付けたリストである。図８（ｂ）は、図８（ａ）のオリジナル文字列を基に、言い換え語を生成し、さらに、オリジナル文字列とその他の文字列との区別をつけた識別情報（単語ＩＤ）との対応関係を示している。

この図８（ｂ）の情報が音声認識辞書に登録されているとき、ユーザが“タケダ”と発話すると、音声認識装置は、図８（ｂ）の"TAKEDA"を検出する。図８（ｂ）に示すように、"TAKEDA"は２つ存在するが、その単語ＩＤ（"0x0001","0x0002"）を基にオリジナル文字列取得処理を施して、"SHINGEN TAKEDA"と"TAKEDA CHIHARU"を抽出し、図８（ｃ）の氏名選択画面８１に示すように認識結果の出力表示を行う。図８（ｃ）の氏名選択画面８１では、氏名認識候補８２ａ、８２ｂに氏名がフルネームで表示されるようになる。

これにより、言い換え語として“タケダ”が複数存在するときであっても、“タケダ”と発話されたときに、その元となった文字列を表示することが可能となり、ユーザに所望の名前を選択させることが可能となる。

１００…音声認識辞書作成装置、
２００…音声認識装置、
１…入力部、
２…記憶部、
４…情報抽出部、
５…ＴＴＳエンジン、
５ａ…テキスト解析部、
５ｂ…読みデータ生成部、
６…制御部、
７…音声認識辞書生成部、
８…音声認識辞書、
９…音声認識エンジン、
１１…音声認識制御部、
３１…作曲者名選択画面、
８１…氏名選択画面。

Claims

外部機器又は媒体から音声認識の対象となる原テキストを入力する入力手段と、
前記原テキストを解析して読みデータを生成する読みデータ生成手段と、
前記原テキストに対して音声認識辞書用の文字列に変換する変換規則が格納された記憶手段と、
前記読みデータと前記認識対象の原テキストとが関連付けて格納される音声認識辞書と、
前記入力手段を介して入力された前記原テキストを前記記憶手段に格納する制御手段と、
を有し、
前記制御手段は、前記原テキストに対して前記変換規則を適用して言い換え語を生成して、当該言い換え語のうち前記原テキストと一致する言い換え語を特定可能な識別情報を当該言い換え語に付与し、前記言い換え語を前記読みデータ生成手段に入力して読みデータを取得して、当該読みデータと認識対象の前記言い換え語とを関連付けて前記音声認識辞書に登録することを特徴とする音声認識装置。
さらに、ユーザの発話を入力する音声入力手段と、
ユーザの発話を認識する音声認識手段と、
表示手段と、
前記音声入力手段及び音声認識手段を制御する音声認識制御手段と、
を有し、
前記音声認識制御手段は、前記音声認識手段によりユーザの発話に対応するテキストを取得し、当該テキストの元になった原テキストを前記音声認識辞書から抽出して、前記表示手段の画面に出力することを特徴とする請求項１に記載の音声認識装置。
前記音声認識制御手段は、前記ユーザの発話に対応するテキストが言い換え語であると判定したとき、当該言い換え語の元になった原テキストを取得する識別情報を生成して、当該識別情報を基に前記音声認識辞書から当該原テキストを抽出することを特徴とする請求項２に記載の音声認識装置。
前記音声認識制御手段は、前記ユーザの発話に対応するテキストが言い換え語でないと判定したとき、当該発話に対応するテキストを前記音声認識辞書から抽出することを特徴とする請求項２に記載の音声認識装置。
音声認識の対象となる原テキストを取得するステップと、
前記原テキストに対する言い換え語を記憶手段に格納されている変換規則を基に生成するステップと、
前記言い換え語のうち前記原テキストと一致する言い換え語を特定可能な識別情報を当該言い換え語に付与するステップと、
前記言い換え語を音声データに変換して読みデータを取得するステップと、
前記読みデータと認識対象の前記言い換え語とを関連付けて音声認識用辞書に登録するステップと、
を有することを特徴とする音声認識方法。
前記音声認識用辞書に登録するステップの後に、
ユーザの発話を入力して音声認識するステップと、
前記音声認識の結果に応じて前記原テキストを取得するステップと、
前記原テキストに対する識別情報を基に原テキストによる結果出力を行うステップと、
を含むことを特徴とする請求項５に記載の音声認識方法。
前記音声認識の結果に応じて前記原テキストを取得するステップでは、
前記音声認識の結果、前記ユーザの発話に対応するテキストが言い換え語であると判定したとき、原テキストを取得するための識別情報を生成するステップと、
当該識別情報を基に原テキストを前記音声認識辞書から抽出するステップと、
を含むことを特徴とする請求項６に記載の音声認識方法。
前記音声認識の結果に応じて前記原テキストを取得するステップでは、
前記音声認識の結果、前記ユーザの発話に対応するテキストが言い換え語でないと判定したとき、当該ユーザの発話に対応するテキストを前記音声認識辞書から抽出するステップを含むことを特徴とする請求項６に記載の音声認識方法。