JP2010156925A

JP2010156925A - 情報処理装置及び音声認識辞書生成方法

Info

Publication number: JP2010156925A
Application number: JP2009000296A
Authority: JP
Inventors: Noriaki Otani; 教明大谷
Original assignee: Alpine Electronics Inc
Current assignee: Alpine Electronics Inc
Priority date: 2009-01-05
Filing date: 2009-01-05
Publication date: 2010-07-15

Abstract

【課題】音声認識辞書に登録される不要な単語を減らすことが可能な「情報処理装置及び音声認識辞書生成方法」を提供すること。
【解決手段】音声認識用辞書を生成する機能を備えた情報処理装置において、記憶手段に格納されている楽曲情報の種別を判定するステップ（Ｓ１２）と、楽曲情報の種別に応じて、前記記憶手段に格納されている前記楽曲情報の文字列に対して音声認識辞書用の文字列に変換する変換規則を選択するステップと、選択された変換規則に従って、楽曲情報を音声認識辞書用の文字列に変換するステップ（Ｓ１６〜Ｓ１９）と、変換された文字列を音声データに変換して読みデータを取得するステップ（Ｓ２０）と、読みデータを前記楽曲情報と関連付けて音声認識用辞書に登録するステップと、を有する。
【選択図】図５

Description

本発明は、情報処理装置及び音声認識辞書生成方法に関し、特に、テキスト情報を音声で読み上げる機能（ＴＴＳ(Text To Speech)エンジン）を備えた情報処理装置において音声を認識する音声認識辞書を生成する技術に関する。

近年、テキストを入力するとそれを音声で読み上げる機能（ＴＴＳエンジン）を備えたシステムが開発され、携帯電話の電話応答サービスなどで広く利用されている。例えば、個人向けポータブルサービスで、ユーザの身近にモバイル端末やコンピュータがないという状況でも、電話をかければＥメールやニュース、市場動向等の情報を読み上げてくれる音声サービスとして使用されている。

一方、再生用のオーディオ情報を格納した機器をオーディオ装置に接続して、オーディオ情報を基に音楽を再生出力することが行われている。このようなオーディオ情報としては楽曲データがあり、楽曲データには、楽曲のデジタルデータとともに楽曲のタイトルやアーティスト等の情報が記載されたタグデータが含まれている。このタグデータを基にして再生されている楽曲のタイトル等を表示画面に表示したり、ＴＴＳエンジンを利用して音声で読み上げることもできるようになってきている。さらに、ユーザから楽曲のタイトルを音声入力して、その楽曲を再生することもできるようになってきている。

ユーザが発話した音声を認識するために、認識できる単語が登録されている音声認識用辞書が不可欠である。認識できる単語が音声認識用辞書に登録されている場合であっても、ユーザは完全な単語ではなく省略した単語を発話する場合もある。このような場合であっても音声認識が可能になるように音声認識用辞書を作成する方法として、特許文献１には、言い換え表現の数を適切に抑えることができる省略語生成規則を用いて認識対象となる単語に対する省略語を生成して音声認識用辞書として記憶する技術が記載されている。

特表２００７−５０９３７７号公報

上述したように、オーディオ情報には作曲者名やアーティスト名等のタグデータ（楽曲情報）が含まれており、これらのデータを音声認識用辞書に登録しておくことにより、発話された作曲者名等の楽曲情報を認識することが可能である。

作曲者名等の楽曲情報は、一つの単語の文字列で表されている場合や、複数の単語の文字列がスペースやカンマ等の区切り記号で区切られて連続して表されている場合がある。一つの単語の文字列で表されている場合には、この単語の文字列を音声認識用辞書に登録し、ユーザが発話した単語がその単語と一致しているか否かを判定すればよい。一方、複数の単語の文字列で表されている楽曲情報が音声認識用辞書に登録されている場合は、複数の単語の文字列全体が発話されなければ楽曲情報を認識することができない。そのため、複数の単語で構成されている文字列に対しては、スペース等の区切り記号毎に分割した単語を組み合わせて音声認識用辞書に登録する文字列を生成する等により、複数の単語全体を発話しなくても済むような方法が実施されている。

しかし、このような複数の単語の分割を行うと、ユーザが発話することが想定できないような明らかに不要な単語も音声認識用辞書に登録されることになる。

例えば、楽曲名が“ＣｏｍｅｏｎＯｖｅｒ”の場合、スペース毎に分割した単語を組み合わせると、“Ｃｏｍｅ”、“ｏｎ”、“Ｏｖｅr”、“Ｃｏｍｅｏｎ”、“ｏｎＯｖｅｒ”と分割され、これらが音声認識用辞書に登録される。これらの分割された単語によって楽曲名を特定することはできないため、ユーザが楽曲名を指定するときに、分割した単語を発話することは想定しづらい。また、不要な単語が音声認識用辞書に登録されることにより、音声認識の効率の低下を引き起こすことにもなりかねない。

本発明は、かかる従来技術の課題に鑑みなされたものであり、音声認識辞書に登録される不要な単語を減らすことが可能な情報処理装置及び音声認識辞書生成方法を提供することを目的とする。

上述した従来技術の課題を解決するため、本発明の基本形態によれば、再生用の楽曲データを格納した機器と通信可能に接続される情報処理装置であって、テキストを音声データに変換して出力する機能を有した音声読み上げ手段と、前記楽曲データに付随した楽曲情報の文字列に対して音声認識辞書用の文字列に変換する変換規則が格納された記憶手段と、前記楽曲データを格納した機器から楽曲データに付随した楽曲情報を取得して前記記憶手段に格納する制御手段とを有し、前記制御手段は、前記記憶手段に格納した楽曲情報の文字列を当該楽曲情報の種別に応じた前記変換規則に従って音声認識辞書用の文字列に変換し、当該変換された文字列を前記音声読み上げ手段に入力して読みデータを取得して、当該読みデータと楽曲情報とを関連付けて音声認識用の辞書に登録することを特徴とする情報処理装置が提供される。

この形態に係る情報処理装置において、前記制御手段は、前記楽曲情報の文字列に所定のトークンが含まれているときは当該所定のトークン毎に文字列を分割し、当該分割された文字列毎に前記変換規則を適用するようにしてもよく、前記制御手段は、前記変換規則に従って、前記楽曲情報がアーティスト名又はクラシックの作曲者名のとき、スペースを区切り文字として前記楽曲情報の文字列を分割した各文字列及び元の文字列から予め定められた予約語を削除した文字列を生成し、元の文字列とともに音声認識辞書用の文字列とするようにしてもよく、前記制御手段は、前記変換規則に従って、前記楽曲情報がアルバム名又は楽曲名のとき、当該アルバム名又は楽曲名の文字列を音声認識辞書用の文字列とするようにしてもよく、前記制御手段は、前記楽曲情報を基に生成した音声認識辞書用の文字列から音声再生不可能な記号文字を音声再生可能な記号文字に変換するか、又は削除するようにしてもよい。

本発明の情報処理装置によれば、楽曲情報の単語の文字列を基にしてユーザが発話すると思われる文字列を生成し、生成された文字列をＴＴＳエンジンに入力して読みデータを取得し、楽曲情報と読みデータとを関連付けて音声認識用辞書に登録している。ユーザが発話すると思われる文字列を元の単語の文字列から生成するときには、楽曲情報の種別に応じた変換規則を用いるようにしている。例えば、楽曲情報がクラシックの作曲者の場合には基本的に作曲者名の文字列をスペースで分割した文字列を組み合わせて音声認識辞書生成用の文字列に変換しているが、楽曲情報が楽曲名の場合は、元の文字列を音声認識辞書生成用の文字列としている。これにより、ユーザが使用すると考えられる一般的に使用される単語が音声認識用辞書に登録されるとともに、楽曲名に含まれる前置詞や冠詞だけの単語のような不要な単語が登録されないようにしている。そのため、すべての楽曲情報に対してクラシックの作曲者の場合に適用される規則を用いて音声認識辞書生成用の文字列を生成する場合に比べて無駄な登録単語数が極端に減り、音声認識を効率よく行うことが可能となる。

また、本発明の他の形態によれば、記憶手段に格納されている楽曲情報の種別を判定するステップと、楽曲情報の種別に応じて、前記記憶手段に格納されている前記楽曲情報の文字列に対して音声認識辞書用の文字列に変換する変換規則を選択するステップと、選択された変換規則に従って、楽曲情報を音声認識辞書用の文字列に変換するステップと、変換された文字列を音声データに変換して読みデータを取得するステップと、読みデータを前記楽曲情報と関連付けて音声認識用辞書に登録するステップと、を有することを特徴とする音声認識辞書生成方法が提供される。

この形態に係る音声認識辞書生成方法において、前記変換規則を選択するステップの前に、前記楽曲情報の文字列を所定のトークン毎に分割するステップを有するようにしてもよく、前記音声認識辞書用の文字列に変換するステップは、前記楽曲情報がアーティスト名又はクラッシックの作曲者名のときにスペースを区切り文字として前記楽曲情報の文字列を分割するステップと、当該分割された各文字列及び元の文字列毎に予め定められた予約語を削除した文字列に変換するステップと、当該変換された文字列及び元の文字列を音声認識辞書用の文字列とするステップと、を含むようにしてもよく、前記音声認識辞書用の文字列に変換するステップは、前記楽曲情報がアルバム名又は楽曲名のとき、当該アルバム名又は楽曲名の文字列を音声認識辞書用の文字列とするステップであるようにしてもよく、前記読みデータを取得するステップの前に、前記楽曲情報を基に生成した音声認識辞書用の文字列から音声再生不可能な記号文字を検出するステップと、当該記号文字を音声再生可能な記号文字に変換するか又は削除するステップと、を含むようにしてもよい。

本発明の一実施形態に係る情報処理装置の構成を示すブロック図である。図２（ａ）は、楽曲情報の文字列を分割するトークンの一例であり、図２（ｂ）は、削除対象となる予約語の一例であり、図２（ｃ）は、楽曲情報から音声認識用辞書に登録する単語に変換する変換規則の一例を示す図である。図３（ａ）は、音声再生可能な文字及び音声再生不可能な文字を示す文字コード一覧であり、図３（ｂ）は、文字変換規則の一例を示す図である。デジタルオーディオ機器から取得した楽曲情報及び楽曲情報を基に生成した音声認識用辞書生成用の文字列の一例を示した図である。音声認識辞書生成処理の一例を示すフローチャートである。

以下、本発明の実施形態について、添付の図面を参照して説明する。

図１は、本発明の一実施形態に係る情報処理装置１００の構成を示した図である。

本実施形態に係る情報処理装置１００は、図１に示すように、制御部１（オーディオ制御部１ａ及び音声認識／ＴＴＳ制御部１ｂ）と、音声入力部２と、音声認識エンジン４と、ＴＴＳエンジン６と、音声再生部７と、表示部８と、マイク３と、スピーカー９と、記憶部１０を備えている。

また、情報処理装置１００とデジタルオーディオ機器１２とがオーディオバス１１を介して接続されている。デジタルオーディオ機器１２としては、例えば、外付けオーディオ機器や、ＨＤＤオーディオ、ＣＤテキストがある。ＨＤＤオーディオは記憶装置にハードディスクを内蔵した携帯音楽プレーヤーであり、ＣＤテキストは、ＣＤ−ＴＥＸＴ規格に対応したプレーヤーであり、ＣＤのタイトルや作曲家などのテキスト情報が表示されるものである。

デジタルオーディオ機器１２には、例えば、インターネット等を介して配信されたＭＰ３形式等の楽曲ファイルをパーソナルコンピュータ（ＰＣ）にいったんダウンロードし、さらにこのＰＣから転送された楽曲ファイルが格納されている。この楽曲ファイルには、再生用のオーディオ情報の他に、このオーディオ情報を特定する楽曲情報（タイトル、アーティスト名、アルバム名など）が含まれている。

オーディオ制御部１ａは、マイクロコンピューターにより構成され、オーディオ再生情報をデジタルオーディオ機器１２から取得し、液晶パネルや有機ＥＬパネル等により構成される表示部８に表示させる制御を行う。また、オーディオ再生情報から再生する楽曲に関する情報を抽出して、音声認識／ＴＴＳ制御１ｂ部に引き渡す。

音声入力部２は、マイク３を介してユーザの音声を入力し、音声信号のデータに変換し、変換した音声データを音声認識／ＴＴＳ制御部１ｂに引き渡す。

音声再生部７は、ＴＴＳエンジン６によりテキストから変換された音声データを入力し、その音声データに従って音声を再生して音声信号を増幅し、スピーカー９に供給する処理を行う。

音声認識／ＴＴＳ制御部１ｂは、音声の入力から出力までの全体の制御を行う。音声認識／ＴＴＳ制御部１ｂは、マイク３及び音声入力部２を介して入力したユーザの発話音声を音声認識エンジン４に認識させる。音声認識は一般の認識処理と同様に、入力された音声を音響分析して特徴量を算出し、特徴量から発話に対応する音響モデル１０ａ（予めデータ化されてメモリに格納されている）を抽出する。この音響モデル１０ａと音声認識辞書１０ｂに格納された辞書の単語とを基に認識する。

ＴＴＳエンジン６は、読み上げ用の文字列（テキスト）を入力すると、ＴＴＳデータ１０ｄに含まれている言語解析辞書を基にテキスト情報を解析し、読みとアクセントを記した文字列である中間言語を生成する。この中間言語は、ＴＴＳデータ１０ｄに含まれている音声合成辞書を参照して音声（波形）データに変換する。

記憶部１０は、ハードディスクや半導体メモリ等で構成され、音声認識エンジン４で使用する音響モデル１０ａや音声認識辞書１０ｂ、楽曲情報から音声認識辞書に登録するデータを生成するための音声認識辞書生成用変換規則１０ｃ、ＴＴＳエンジン６で読み込まれるＴＴＳデータ１０ｄが、それぞれ領域を分けて格納されている。また、記憶部１０には、デジタルオーディオ機器１２から取得した楽曲情報のデータが格納される。

ＴＴＳデータ１０ｄには、ＴＴＳエンジン６において音声合成を実行する際に使用する辞書（言語解析辞書、音声合成辞書）が含まれている。

言語解析辞書は、音声合成処理の対象となるテキスト情報の構文解析を行う際に参照する辞書であり、あらかじめ各語彙毎に、その表記、読み、アクセント情報、品詞情報等の詳細な情報を対応付けて登録したものである。音声合成辞書は、ＴＴＳエンジンで解析されたテキスト情報をその対応する音声（波形）データに変換する際に参照する辞書である。

このように構成された情報処理装置１００に、楽曲データが格納されたデジタルオーディオ機器１２が接続されると、楽曲データに付随した楽曲名等の情報が含まれている楽曲情報を記憶部１０に楽曲毎に格納する。この楽曲情報を基にして、楽曲情報に応じてユーザが発話すると思われる音声認識辞書生成用の文字列が生成され、楽曲情報と関連付けられた文字列の読みデータが音声認識辞書に登録される。音声認識用の文字列の生成では、楽曲情報の種別に対応して、ユーザが発話することが想定しづらい不要な単語を登録しないようにしている。

例えば、楽曲情報が作曲者名“ＬｕｄｗｉｇｖａｎＢｅｅｔｈｏｖｅｎ”のときには、“ＬｕｄｗｉｇｖａｎＢｅｅｔｈｏｖｅｎ”、“Ｂｅｅｔｈｏｖｅｎ”、“Ｌｕｄｗｉｇ”など、元の文字列を分割した文字列の読みデータも辞書に登録し、楽曲情報が曲名“ＣｏｍｅｏｎＯｖｅｒ”のときには、この元の文字列の読みデータのみを辞書に登録し、“ｏｎＯｖｅr”等の不要な文字列の読みデータは登録しないようにしている。これにより、認識効率の低下を防止することが可能となる。

以下に、不要な単語の登録を抑制した音声認識辞書を生成する処理について説明する。本実施形態では、デジタルオーディオ機器１２に格納された楽曲が再生出力される情報処理装置１００を対象とする。また、情報処理装置１００とデジタルオーディオ機器１２とが接続され、デジタルオーディオ機器１２に格納されている楽曲データから楽曲情報のすべてが情報処理装置１００に送信され、情報処理装置１００の記憶部１０に楽曲情報が格納されるものとする。楽曲情報としては、楽曲のジャンル、楽曲名、作曲者名、アーティスト名、及びアルバム名が含まれている。

情報処理装置１００の記憶部１０に楽曲情報が格納されると、その楽曲情報を基にして音声認識用の辞書を作成する。音声認識用の辞書としてはユーザが発話する可能性の高い単語が登録され、ほとんど発話されることのない単語は登録しないことが望ましい。楽曲情報について不要な単語であるか否かは、楽曲情報の種類に応じて異なる。例えば、上記したように、楽曲情報が複数の単語の文字列からなる曲名の場合は、スペース等の区切り記号で区切られた単語を曲名として発話することは考えにくい。これに対して、作曲者名の場合は、フルネームで発話することもあるが、フルネームよりも一般的に知られた名称で発話することが多くなると考えられる。例えば、クラシックの作曲者の場合、「ルードビッヒヴァンベートーベン」よりも「ベートーベン」のほうが一般的である。そのため、作曲者の場合には元の単語を複数に分割した単語を音声認識辞書に登録することが望ましい。

このように、楽曲情報の種別に応じて音声認識辞書生成用の文字列を生成する方法が異なり、それぞれについて規則を予め規定しておく。

図２は、音声認識辞書生成用変換規則に格納される変換規則の一例を示している。図２（ａ）は、楽曲情報に記載されている文字列の分割位置を規定するトークンを示している。楽曲情報が作曲者やアーティストの場合には、複数人や複数グループの名称が記載されることも考えられるので、元の文字列を分割して個々の作曲者やアーティスト名を抽出する。楽曲情報が作曲者の場合は、カンマ（、）、コロン（：）、スラッシュ（／）、アンド（＆）を文字列分割用のトークンとし、複数の作曲者が記載されていたときに作曲者毎に分割する。また、楽曲情報がアーティストの場合は、カンマ（、）又はコロン（：）を文字列分割用のトークンとする。その他の楽曲情報（アルバム名、楽曲名）については、楽曲と一対一に対応しており複数の情報が記載されることはないと考えられるため分割の対象とはしていない。

図２（ｂ）は、楽曲情報がクラシックの作曲者の場合に、分割した文字列に対して削除する文字列を示した予約語テーブルである。例えば、予約語として、“Ｔｈｅ”や“Ｖａｎ”が定義されており、作曲者の文字列を分割して生成される“Ｔｈｅ”だけの文字列や“Ｖａｎ”だけの文字列が音声認識辞書生成用の文字列にならないようにしている。また、楽曲情報がアーティスト名のときは、“Ｔｈｅ”を予約語としている。

図２（ｃ）は、トークンにより分割された個々の文字列に対して音声認識辞書生成用の文字列に変換する規則の一例を示している。図２（ｃ）に示すように、この変換規則は、楽曲情報がクラシックの作曲者及びアーティストの場合について定義されている。また、作曲者及びアーティスト以外の楽曲情報の場合にもそれぞれに応じた規則を予め規定しておくようにしてもよい。

図２（ｃ）の規則（１）及び規則（２）は楽曲情報がクラシックの作曲者の場合の変換規則である。作曲者を示す文字列が、「予約語＋ＢＢＢ」の場合には、元の文字列の「予約語＋ＢＢＢ」と、元の文字列から予約語を削除した「ＢＢＢ」が音声認識辞書生成用の文字列となる。ここで、「予約語＋ＢＢＢ」は「予約語」と「ＢＢＢ」がスペースで区切られているものとする。また、「予約語」は図２（ｂ）に示した文字であり、「ＢＢＢ」は予約語が含まれていない１又は複数の単語とマッチングすることを示している。

この変換規則は、次のような変換処理を行うことによって得られる。まず、元の文字列「予約語＋ＢＢＢ」をスペースによって「予約語」と「ＢＢＢ」に分割する。この分割した文字列と元の文字列（「予約語」、「ＢＢＢ」、「予約語＋ＢＢＢ」）に対して予約語のみの文字列を削除し、「ＢＢＢ」及び「予約語＋ＢＢＢ」に変換する。元の文字列と予約語を削除した文字列、つまり、「予約語＋ＢＢＢ」と「ＢＢＢ」を音声認識辞書生成用の文字列とする。

なお、「ＢＢＢ」に複数の単語がマッチする場合は、その複数の単語による文字列と、スペースで区切られた個々の単語の文字列が含まれる。

図２（ｃ）の規則（２）に示すように、元の作曲者を示す文字列が、「ＡＡＡ＋予約語＋ＢＢＢ」の場合には、元の文字列の「ＡＡＡ＋予約語＋ＢＢＢ」と、元の文字列から予約語を削除した、「ＡＡＡ」＋「ＢＢＢ」、「ＡＡＡ」及び「ＢＢＢ」が音声認識辞書生成用の文字列となる。

また、図２（ｃ）の規則（３）に示すように、楽曲情報がアーティストの場合には、元のアーティスト名の文字列が「予約語＋ＡＡＡ」のとき、元の文字列の「予約語＋ＡＡＡ」と、元の文字列から予約語を削除した「ＡＡＡ」が音声認識辞書生成用の文字列となる。

これらの変換された文字列をＴＴＳエンジン６に入力して、各文字列に対応する読みデータを取得し、読みデータと各文字列が属する楽曲情報とを関連付けて音声認識辞書１０ｂに登録する。

音声認識辞書生成用の文字列にＴＴＳエンジン６で音声再生できない文字が含まれている場合には、再生できない文字を変更又は削除するなどの調整をして文字列を変換する。例えば、ＴＴＳエンジン６でサポートしている文字コードが米国英語のときに日本語の漢字やひらがなは対応できずその文字については音声再生をすることができない。

図３（ａ）は、文字コード一覧（ＩＳＯ８８５９−１）の一例を示した図である。ＴＴＳエンジン６によって、この文字コード一覧のうち、音声再生が可能な文字と音声再生ができない文字とが存在する。例えば、これらの文字コードのうち、二重枠で囲んだセル及び太枠で囲んだセルの文字がＴＴＳエンジン６によって音声信号に変換できない、若しくは正しく読み上げできないものとする。二重枠で囲んだセルの文字コードは音声再生ができないため、これらの文字はＴＴＳエンジン６に入力する前にスペースに置換する。また、太枠で囲んだセルの文字コードはそのままでは音声再生できないが、読み方を定義して音声再生が可能なようにしている。図３（ｂ）にその定義の一例を示している。図３（ｂ）に示すように、ＴＴＳエンジン６が対応可能な文字コードが米国英語（US English）の場合、文字コード０ｘ２３の文字「＃」は“ｎｕｍｂｅｒ”に変換し、文字コード０ｘ２６の文字「＆」は“ａｎｄ”に変換し、文字コード０ｘ４０の文字「＠」は“ａｔ”に変換する。対応可能な文字コードがＣａｎａｄｉａｎＦｒｅｎｃｈ，ＡｍｅｒｉｃａｎＳｐａｎｉｓｈのときは、それぞれ図３（ｂ）に示すように変換される。

上記の規則を適用して適切な文を生成した例を、図４を用いて説明する。図４は、デジタルオーディオ機器１２から取得した４つの楽曲データの例を示している。例１は、楽曲のジャンルがクラシックであり、作曲者に“ＬｕｄｗｉｇｖａｎＢｅｅｔｈｏｖｅｎ”が記載されている場合である。この場合は、ジャンルがクラシックでありコンテンツが作曲者であるので、図２（ｃ）の変換規則（１）又は（２）が採用される。作曲者の文字列が“ＡＡＡ＋予約語＋ＢＢＢ”のパターンであるので、変換規則（２）が採用されて、音声認識辞書生成用の候補文字列としては、“ＡＡＡ＋予約語＋ＢＢＢ”、“ＡＡＡ＋ＢＢＢ”、“ＡＡＡ”、及び、“ＢＢＢ”にパターンマッチするように生成される。結果として、“ＬｕｄｗｉｇｖａｎＢｅｅｔｈｏｖｅｎ”、“ＬｕｄｗｉｇＢｅｅｔｈｏｖｅｎ”、“Ｌｕｄｗｉｇ”、及び“Ｂｅｅｔｈｏｖｅｎ”が生成される。さらに、これらの文字列から音声再生不可能な文字を変換または削除して文字列を生成する。この例では音声再生不可能な文字は存在しないため、音声認識辞書生成用の候補文字列が音声認識辞書生成用の文字列となる。

音声認識辞書生成用の文字列をＴＴＳエンジンに入力して、読みデータを生成して音声認識辞書に登録される。その結果、楽曲情報として“ＬｕｄｗｉｇｖａｎＢｅｅｔｈｏｖｅｎ”が記載されている場合に、“Ｂｅｅｔｈｏｖｅｎ”という発話がされた場合でも、元の作曲者名“ＬｕｄｗｉｇｖａｎＢｅｅｔｈｏｖｅｎ”に関連付けられた楽曲情報を取得することが可能となる。

例２は、楽曲のジャンルがロックであり、楽曲名に“ＣｏｍｅｏｎＯｖｅｒ”が記載されている場合である。この場合は、コンテンツが作曲者名又はアーティスト名ではなく、ジャンルがクラシックではないので、図２（ｃ）の規則は適用されず、元の楽曲名“ＣｏｍｅｏｎＯｖｅｒ”が音声認識辞書生成用の候補文字列となる。さらに、この音声認識辞書生成用の候補文字列には音声再生不可能な文字が含まれていないため、そのまま音声認識辞書生成用の文字列となる。

例３は、楽曲のジャンルがポップであり、アーティスト名に“ＣＨＡＧＥ＆ＡＳＫＡ”が記載されている場合である。この場合は、コンテンツがアーティスト名であるので、図２の規則（３）が適用される。しかし、アーティスト名のパターンが“予約語＋ＡＡＡ”ではないため、元のアーティスト名の“ＣＨＡＧＥ＆ＡＳＫＡ”が音声認識辞書生成用の候補文字列となる。なお、アーティスト名に“＆”が含まれているが、クラシックの作曲者名ではないので、このトークン“＆”による文字列の分割は行われない。音声認識辞書生成用の候補文字列“ＣＨＡＧＥ＆ＡＳＫＡ”に対して音声再生不可能な文字の処理を行う。この場合は、音声再生不可能な文字として“＆”が含まれている。よって、図３（ｂ）の規則を用いて、“＆”を“ＡＮＤ”に変換して、音声認識辞書生成用の文字列とする。これにより、元の文字列に対して“ＣＨＡＧＥＡＮＤＡＳＫＡ”の読みデータが音声認識辞書に登録され、元の文字列を分割した文字列は登録されない。

例４は、楽曲のジャンルがロックであり、アーティスト名に“ＥｄｇａｒＷｉｎｔｅｒ、ＴｈｅＥｄｇａｒＷｉｎｔｅｒＧｒｏｕｐ”が記載されている場合である。この場合は、コンテンツのアーティスト名に、図２（ａ）のアーティストの場合の文字列分割用トークンが含まれているので、文字列を“ＥｄｇａｒＷｉｎｔｅｒ”と“ＴｈｅＥｄｇａｒＷｉｎｔｅｒＧｒｏｕｐ”に分割する。そして、コンテンツがアーティスト名であるので、それぞれの文字列に図２（ｃ）の規則（３）が適用される。“ＥｄｇａｒＷｉｎｔｅｒ”には、アーティスト名のパターンが“予約語＋ＡＡＡ”とパターンマッチしないため、元のアーティスト名の“ＥｄｇａｒＷｉｎｔｅｒ”が音声認識辞書生成用の候補文字列となる。また、“ＴｈｅＥｄｇａｒＷｉｎｔｅｒＧｒｏｕｐ”は“予約語＋ＡＡＡ”とパターンマッチするので、“予約語＋ＡＡＡ”と“ＡＡＡ”のパターンの文字列が生成される。その結果、“ＴｈｅＥｄｇａｒＷｉｎｔｅｒＧｒｏｕｐ”と“ＥｄｇａｒＷｉｎｔｅｒＧｒｏｕｐ”が音声認識辞書生成用の文字列となる。さらに、トークン“、”で分割しない“ＥｄｇａｒＷｉｎｔｅｒ、ＴｈｅＥｄｇａｒＷｉｎｔｅｒＧｒｏｕｐ”も音声認識辞書生成用の文字列とする。

上記４つの音声認識辞書生成用の候補文字列に対して音声再生不可能な文字の処理を行う。この場合は、音声再生不可能な文字が含まれていないので、そのまま音声認識辞書生成用の文字列となる。

次に、音声認識辞書の生成処理について図５のフローチャートを参照しながら説明する。この処理において、デジタルオーディオ機器１２から取得した楽曲情報などのデータは記憶部１０に楽曲毎に格納されているものとする。また、楽曲情報に応じた音声認識辞書生成用の文字列に変換するための変換規則は予め定義され記憶部１０に格納されているものとする。

まず、図５のステップＳ１１において、記憶部１０に格納されている楽曲情報を抽出する。

次のステップＳ１２において、楽曲情報の種別が作曲者名か否かを判定する。作曲者名の場合にはステップＳ１３に移行し、種別が作曲者名以外の場合にはステップＳ１４に移行する。

次のステップＳ１３では、楽曲情報に記載されている作曲者名が複数存在するとき、それらを個々の作曲者に分割する。元の作曲者名に対して所定のトークン毎に文字列を分割する。作曲者名の場合の所定のトークンとしては、カンマ、コロン、スラッシュ、アンドを採用する。一方、ステップＳ１４では、楽曲情報が作曲者名以外の場合に、元の文字列に対して所定のトークン（カンマ、又はコロン）毎に分割する。

なお、ステップＳ１３において、作曲者名等が複数存在しないときは、ステップＳ１５に移行し、ステップＳ１４において、アーティスト名等が複数存在しないときは、ステップＳ２１に移行する。また、ステップＳ１４の処理は楽曲情報がアーティスト名のときに行い、その他の楽曲情報（楽曲名、アルバム名）のときにはトークンによる楽曲情報の分割処理を経ずにステップＳ２１に移行するようにしてもよい。

次のステップＳ１５以降の処理は、ステップＳ１３又はステップＳ１４において楽曲情報が分割された場合には、個々の楽曲情報に対して行われる。

ステップＳ１５において、楽曲情報のジャンルがクラシックか否かを判定する。楽曲情報のジャンルは楽曲情報の項目のジャンルにより判定する。ジャンルがクラシックの場合はステップＳ１６に移行し、ジャンルがクラシック以外の場合はステップＳ２１に移行する。

次のステップＳ１６からステップＳ１８は、クラシックの作曲者の場合に音声認識辞書生成用の文字列を生成する処理である。ステップＳ１６において、一人の作曲者名を表す文字列に対して、スペースを区切り文字として分割した要素文字列を抽出する。例えば、作曲者名が“ＬｕｄｗｉｇｖａｎＢｅｅｔｈｏｖｅｎ”の場合、“Ｌｕｄｗｉｇ”、“ｖａｎ”、及び“Ｂｅｅｔｈｏｖｅｎ”が要素文字列として抽出される。

次のステップＳ１７において、ステップＳ１６で抽出した要素文字列から予約語を除いた要素文字列を組み合わせて音声認識辞書生成用の候補文字列を生成する。予約語は図２（ｂ）に示すように予め規定された単語であり、音声認識用辞書の単語として単独での使用がされることのない単語である。

例えば、元の文字列“ＬｕｄｗｉｇｖａｎＢｅｅｔｈｏｖｅｎ”と、ステップＳ１６において抽出された要素文字列（“Ｌｕｄｗｉｇ”、“ｖａｎ”、“Ｂｅｅｔｈｏｖｅｎ”）から予約語“ｖａｎ”を除いて、“ＬｕｄｗｉｇＢｅｅｔｈｏｖｅｎ”、 “Ｌｕｄｗｉｇ”、及び“Ｂｅｅｔｈｏｖｅｎ”の３つの文字列が音声認識辞書生成用の候補文字列として生成される。

次のステップＳ１８では、元の文字列を音声認識辞書生成用の候補文字列に追加する。さらに、ステップＳ１３において所定のトークンにより文字列を分割した場合は、分割前の文字列も音声認識辞書生成用の候補文字列に追加する。

上記の例では、音声認識辞書生成用の候補文字列が、“ＬｕｄｗｉｇＢｅｅｔｈｏｖｅｎ”、“Ｌｕｄｗｉｇ”、“Ｂｅｅｔｈｏｖｅｎ”、及び“ＬｕｄｗｉｇｖａｎＢｅｅｔｈｏｖｅｎ”の４つになる。

一方、ステップＳ１５において楽曲のジャンルがクラシック以外であると判定された場合には、ステップＳ２１において元の楽曲情報の文字列を音声認識辞書生成用の候補文字列とする。また、ステップＳ１３又はステップＳ１４において所定のトークンにより文字列を分割した場合は、分割前の文字列も音声認識辞書生成用の候補文字列に追加する。

次のステップＳ１９において、ステップＳ１８又はステップＳ２１において生成された音声認識辞書生成用候補文字列に対して音声再生が不可能な文字を削除するか、又は変更する処理を行う。ＴＴＳエンジン６で対応していない文字コードについては、文字列から音声データに変換することができない。そこで、図３（ａ）の文字コード表において二重枠で示した文字についてはスペースに置き換え、太枠で示した文字については、図３（ｂ）に示す規則に従って文字を変換する。

次のステップＳ２０において、音声再生可能に処理された音声認識辞書生成用の候補文字列をＴＴＳエンジン６に入力して各文字列に対応する読みデータを生成する。

その後、読みデータと楽曲情報とを関連付けて音声認識辞書１０ｂに登録する。

なお、ステップＳ１６からステップＳ１８において、音声認識辞書生成用の候補文字列を生成しているが、予め図２（ｃ）に示すような規則を規定しておき、文字列のパターンマッチング処理を行って音声認識辞書生成用の候補文字列を生成するようにしてもよい。

また、ステップＳ１６からステップＳ１８においてクラシックの作曲者の場合に音声認識辞書生成用の候補文字列として元の文字列から分割する例を示したが、クラシックの作曲者以外、例えばアーティストの場合にも元の文字列から分割して複数の候補文字列を生成するようにしてもよい。

以上説明したように、本実施形態の情報処理装置及び音声認識辞書生成方法では、楽曲情報の単語の文字列を基にしてユーザが発話すると思われる文字列を生成し、生成された文字列をＴＴＳエンジンに入力して読みデータを取得し、楽曲情報と読みデータとを関連付けて音声認識用辞書に登録している。ユーザが発話すると思われる文字列を元の単語の文字列から生成するときには、楽曲情報の種別に応じた変換規則を用いるようにしている。例えば、楽曲情報がクラシックの作曲者の場合には基本的に作曲者名の文字列をスペースで分割した文字列を組み合わせて音声認識辞書生成用の文字列に変換しているが、楽曲情報が楽曲名の場合は、元の文字列を音声認識辞書生成用の文字列としている。これにより、ユーザが使用すると考えられる一般的に使用される単語が音声認識用辞書に登録されるとともに、楽曲名に含まれる前置詞や冠詞だけの単語のような不要な単語が登録されないようにしている。そのため、すべての楽曲情報に対してクラシックの作曲者の場合に適用される規則を用いて音声認識辞書生成用の文字列を生成する場合に比べて無駄な登録単語数が極端に減り、音声認識を効率よく行うことが可能となる。

なお、本実施形態では、楽曲情報のうちアーティスト名及びジャンルがクラシックの作曲者名に対して文字列を分割して音声認識辞書生成用の文字列を生成する場合について説明したが、これに限らず、他の楽曲情報についてもユーザが発話する可能性の低い単語が音声認識辞書に登録されないようにする規則を予め定義するようにしてもよい。

１００…情報処理装置、
１…制御部、
１ａ…オーディオ制御部、
１ｂ…音声認識／ＴＴＳ制御部、
４…音声認識エンジン、
６…ＴＴＳエンジン（音声読み上げ手段）、
７…音声再生部、
１０…記憶部（記憶手段）、
１０ａ…音響モデル、
１０ｂ…音声認識辞書、
１０ｃ…音声認識辞書生成用変換規則、
１０ｄ…ＴＴＳデータ。

Claims

再生用の楽曲データを格納した機器と通信可能に接続される情報処理装置であって、
テキストを音声データに変換して出力する機能を有した音声読み上げ手段と、
前記楽曲データに付随した楽曲情報の文字列に対して音声認識辞書用の文字列に変換する変換規則が格納された記憶手段と、
前記楽曲データを格納した機器から楽曲データに付随した楽曲情報を取得して前記記憶手段に格納する制御手段とを有し、
前記制御手段は、前記記憶手段に格納した楽曲情報の文字列を当該楽曲情報の種別に応じた前記変換規則に従って音声認識辞書用の文字列に変換し、当該変換された文字列を前記音声読み上げ手段に入力して読みデータを取得して、当該読みデータと楽曲情報とを関連付けて音声認識用の辞書に登録することを特徴とする情報処理装置。
前記制御手段は、前記楽曲情報の文字列に所定のトークンが含まれているときは当該所定のトークン毎に文字列を分割し、当該分割された文字列毎に前記変換規則を適用することを特徴とする請求項１に記載の情報処理装置。
前記制御手段は、前記変換規則に従って、前記楽曲情報がアーティスト名又はクラシックの作曲者名のとき、スペースを区切り文字として前記楽曲情報の文字列を分割した各文字列及び元の文字列から予め定められた予約語を削除した文字列を生成し、元の文字列とともに音声認識辞書用の文字列とすることを特徴とする請求項２に記載の情報処理装置。
前記制御手段は、前記変換規則に従って、前記楽曲情報がアルバム名又は楽曲名のとき、当該アルバム名又は楽曲名の文字列を音声認識辞書用の文字列とすることを特徴とする請求項３に記載の情報処理装置。
前記制御手段は、前記楽曲情報を基に生成した音声認識辞書用の文字列から音声再生不可能な記号文字を音声再生可能な記号文字に変換するか、又は削除することを特徴とする請求項４に記載の情報処置装置。
前記楽曲情報の文字列を分割する前記所定のトークンは、前記楽曲情報がクラシックの作曲者名のときは、“、”、“：”、“/”、“＆”のいずれかであり、前記楽曲情報がアーティスト名のときは、“、”又は“：”であることを特徴とする請求項２に記載の情報処理装置。
前記予約語は、前記楽曲情報がクラシックの作曲者名のときは、“Ｔｈｅ”，“Ｖａｎ”，“Ｖｏｎ”，“Ｄｅ”，“Ｌａ”，“ｎｏｎ”，“ｏｆ”，“ｄａ”，“ｄｉ”，及び“ａ”から“ｚ”までのアルファベット１文字のいずれかであり、前記楽曲情報がアーティスト名のときは、“Ｔｈｅ”であることを特徴とする請求項３に記載の情報処理装置。
前記制御手段は、前記音声再生不可能な記号文字のうち、“＃”は文字列“ｎｕｍｂｅｒ”に変換し、“＆”は文字列“ａｎｄ”に変換し、“＠”は文字列“ａｔ”に変換することを特徴とする請求項５に記載の情報処理装置。
記憶手段に格納されている楽曲情報の種別を判定するステップと、
楽曲情報の種別に応じて、前記記憶手段に格納されている前記楽曲情報の文字列に対して音声認識辞書用の文字列に変換する変換規則を選択するステップと、
選択された変換規則に従って、楽曲情報を音声認識辞書用の文字列に変換するステップと、
変換された文字列を音声データに変換して読みデータを取得するステップと、
読みデータを前記楽曲情報と関連付けて音声認識用辞書に登録するステップと、
を有することを特徴とする音声認識辞書生成方法。
前記変換規則を選択するステップの前に、
前記楽曲情報の文字列を所定のトークン毎に分割するステップを有することを特徴とする請求項９に記載の音声認識辞書生成方法。
前記音声認識辞書用の文字列に変換するステップは、
前記楽曲情報がアーティスト名又はクラッシックの作曲者名のときにスペースを区切り文字として前記楽曲情報の文字列を分割するステップと、
当該分割された各文字列及び元の文字列毎に予め定められた予約語を削除した文字列に変換するステップと、
当該変換された文字列及び元の文字列を音声認識辞書用の文字列とするステップと、
を含むことを特徴とする請求項１０に記載の音声認識辞書生成方法。
前記音声認識辞書用の文字列に変換するステップは、
前記楽曲情報がアルバム名又は楽曲名のとき、当該アルバム名又は楽曲名の文字列を音声認識辞書用の文字列とするステップであることを特徴とする請求項１１に記載の音声認識辞書生成方法。
前記読みデータを取得するステップの前に、
前記楽曲情報を基に生成した音声認識辞書用の文字列から音声再生不可能な記号文字を検出するステップと、
当該記号文字を音声再生可能な記号文字に変換するか又は削除するステップと、
を含むことを特徴とする請求項１１に記載の音声認識辞書作成方法。
前記楽曲情報の文字列を分割する前記所定のトークンは、前記楽曲情報がクラシックの作曲者名のときは、“、”、“：”、“/”、“＆”のいずれかであり、前記楽曲情報がアーティスト名のときは、“、”又は“：”であることを特徴とする請求項１０に記載の音声認識辞書生成方法。
前記予約語は、前記楽曲情報がクラシックの作曲者名のときは、“Ｔｈｅ”，“Ｖａｎ”，“Ｖｏｎ”，“Ｄｅ”，“Ｌａ”，“ｎｏｎ”，“ｏｆ”，“ｄａ”，“ｄｉ”，及び“ａ”から“ｚ”までのアルファベット１文字のいずれかであり、前記楽曲情報がアーティスト名であるときは、“Ｔｈｅ”であることを特徴とする請求項１１に記載の音声認識辞書生成方法。
前記音声再生可能な記号文字に変換するか又は削除するステップにおいて、前記音声再生不可能な記号文字のうち、“＃”は文字列“ｎｕｍｂｅｒ”に変換し、“＆”は文字列“ａｎｄ”に変換し、“＠”は文字列“ａｔ”に変換することを特徴とする請求項１３に記載の音声認識辞書生成方法。