JP2010156925A - 情報処理装置及び音声認識辞書生成方法 - Google Patents

情報処理装置及び音声認識辞書生成方法 Download PDF

Info

Publication number
JP2010156925A
JP2010156925A JP2009000296A JP2009000296A JP2010156925A JP 2010156925 A JP2010156925 A JP 2010156925A JP 2009000296 A JP2009000296 A JP 2009000296A JP 2009000296 A JP2009000296 A JP 2009000296A JP 2010156925 A JP2010156925 A JP 2010156925A
Authority
JP
Japan
Prior art keywords
character string
recognition dictionary
speech recognition
music information
music
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2009000296A
Other languages
English (en)
Inventor
Noriaki Otani
教明 大谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alpine Electronics Inc
Original Assignee
Alpine Electronics Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alpine Electronics Inc filed Critical Alpine Electronics Inc
Priority to JP2009000296A priority Critical patent/JP2010156925A/ja
Publication of JP2010156925A publication Critical patent/JP2010156925A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】音声認識辞書に登録される不要な単語を減らすことが可能な「情報処理装置及び音声認識辞書生成方法」を提供すること。
【解決手段】音声認識用辞書を生成する機能を備えた情報処理装置において、記憶手段に格納されている楽曲情報の種別を判定するステップ(S12)と、楽曲情報の種別に応じて、前記記憶手段に格納されている前記楽曲情報の文字列に対して音声認識辞書用の文字列に変換する変換規則を選択するステップと、選択された変換規則に従って、楽曲情報を音声認識辞書用の文字列に変換するステップ(S16〜S19)と、変換された文字列を音声データに変換して読みデータを取得するステップ(S20)と、読みデータを前記楽曲情報と関連付けて音声認識用辞書に登録するステップと、を有する。
【選択図】図5

Description

本発明は、情報処理装置及び音声認識辞書生成方法に関し、特に、テキスト情報を音声で読み上げる機能(TTS(Text To Speech)エンジン)を備えた情報処理装置において音声を認識する音声認識辞書を生成する技術に関する。
近年、テキストを入力するとそれを音声で読み上げる機能(TTSエンジン)を備えたシステムが開発され、携帯電話の電話応答サービスなどで広く利用されている。例えば、個人向けポータブルサービスで、ユーザの身近にモバイル端末やコンピュータがないという状況でも、電話をかければEメールやニュース、市場動向等の情報を読み上げてくれる音声サービスとして使用されている。
一方、再生用のオーディオ情報を格納した機器をオーディオ装置に接続して、オーディオ情報を基に音楽を再生出力することが行われている。このようなオーディオ情報としては楽曲データがあり、楽曲データには、楽曲のデジタルデータとともに楽曲のタイトルやアーティスト等の情報が記載されたタグデータが含まれている。このタグデータを基にして再生されている楽曲のタイトル等を表示画面に表示したり、TTSエンジンを利用して音声で読み上げることもできるようになってきている。さらに、ユーザから楽曲のタイトルを音声入力して、その楽曲を再生することもできるようになってきている。
ユーザが発話した音声を認識するために、認識できる単語が登録されている音声認識用辞書が不可欠である。認識できる単語が音声認識用辞書に登録されている場合であっても、ユーザは完全な単語ではなく省略した単語を発話する場合もある。このような場合であっても音声認識が可能になるように音声認識用辞書を作成する方法として、特許文献1には、言い換え表現の数を適切に抑えることができる省略語生成規則を用いて認識対象となる単語に対する省略語を生成して音声認識用辞書として記憶する技術が記載されている。
特表2007−509377号公報
上述したように、オーディオ情報には作曲者名やアーティスト名等のタグデータ(楽曲情報)が含まれており、これらのデータを音声認識用辞書に登録しておくことにより、発話された作曲者名等の楽曲情報を認識することが可能である。
作曲者名等の楽曲情報は、一つの単語の文字列で表されている場合や、複数の単語の文字列がスペースやカンマ等の区切り記号で区切られて連続して表されている場合がある。一つの単語の文字列で表されている場合には、この単語の文字列を音声認識用辞書に登録し、ユーザが発話した単語がその単語と一致しているか否かを判定すればよい。一方、複数の単語の文字列で表されている楽曲情報が音声認識用辞書に登録されている場合は、複数の単語の文字列全体が発話されなければ楽曲情報を認識することができない。そのため、複数の単語で構成されている文字列に対しては、スペース等の区切り記号毎に分割した単語を組み合わせて音声認識用辞書に登録する文字列を生成する等により、複数の単語全体を発話しなくても済むような方法が実施されている。
しかし、このような複数の単語の分割を行うと、ユーザが発話することが想定できないような明らかに不要な単語も音声認識用辞書に登録されることになる。
例えば、楽曲名が“Come on Over”の場合、スペース毎に分割した単語を組み合わせると、“Come”、“on”、“Over”、“Come on”、“on Over”と分割され、これらが音声認識用辞書に登録される。これらの分割された単語によって楽曲名を特定することはできないため、ユーザが楽曲名を指定するときに、分割した単語を発話することは想定しづらい。また、不要な単語が音声認識用辞書に登録されることにより、音声認識の効率の低下を引き起こすことにもなりかねない。
本発明は、かかる従来技術の課題に鑑みなされたものであり、音声認識辞書に登録される不要な単語を減らすことが可能な情報処理装置及び音声認識辞書生成方法を提供することを目的とする。
上述した従来技術の課題を解決するため、本発明の基本形態によれば、再生用の楽曲データを格納した機器と通信可能に接続される情報処理装置であって、テキストを音声データに変換して出力する機能を有した音声読み上げ手段と、前記楽曲データに付随した楽曲情報の文字列に対して音声認識辞書用の文字列に変換する変換規則が格納された記憶手段と、前記楽曲データを格納した機器から楽曲データに付随した楽曲情報を取得して前記記憶手段に格納する制御手段とを有し、前記制御手段は、前記記憶手段に格納した楽曲情報の文字列を当該楽曲情報の種別に応じた前記変換規則に従って音声認識辞書用の文字列に変換し、当該変換された文字列を前記音声読み上げ手段に入力して読みデータを取得して、当該読みデータと楽曲情報とを関連付けて音声認識用の辞書に登録することを特徴とする情報処理装置が提供される。
この形態に係る情報処理装置において、前記制御手段は、前記楽曲情報の文字列に所定のトークンが含まれているときは当該所定のトークン毎に文字列を分割し、当該分割された文字列毎に前記変換規則を適用するようにしてもよく、前記制御手段は、前記変換規則に従って、前記楽曲情報がアーティスト名又はクラシックの作曲者名のとき、スペースを区切り文字として前記楽曲情報の文字列を分割した各文字列及び元の文字列から予め定められた予約語を削除した文字列を生成し、元の文字列とともに音声認識辞書用の文字列とするようにしてもよく、前記制御手段は、前記変換規則に従って、前記楽曲情報がアルバム名又は楽曲名のとき、当該アルバム名又は楽曲名の文字列を音声認識辞書用の文字列とするようにしてもよく、前記制御手段は、前記楽曲情報を基に生成した音声認識辞書用の文字列から音声再生不可能な記号文字を音声再生可能な記号文字に変換するか、又は削除するようにしてもよい。
本発明の情報処理装置によれば、楽曲情報の単語の文字列を基にしてユーザが発話すると思われる文字列を生成し、生成された文字列をTTSエンジンに入力して読みデータを取得し、楽曲情報と読みデータとを関連付けて音声認識用辞書に登録している。ユーザが発話すると思われる文字列を元の単語の文字列から生成するときには、楽曲情報の種別に応じた変換規則を用いるようにしている。例えば、楽曲情報がクラシックの作曲者の場合には基本的に作曲者名の文字列をスペースで分割した文字列を組み合わせて音声認識辞書生成用の文字列に変換しているが、楽曲情報が楽曲名の場合は、元の文字列を音声認識辞書生成用の文字列としている。これにより、ユーザが使用すると考えられる一般的に使用される単語が音声認識用辞書に登録されるとともに、楽曲名に含まれる前置詞や冠詞だけの単語のような不要な単語が登録されないようにしている。そのため、すべての楽曲情報に対してクラシックの作曲者の場合に適用される規則を用いて音声認識辞書生成用の文字列を生成する場合に比べて無駄な登録単語数が極端に減り、音声認識を効率よく行うことが可能となる。
また、本発明の他の形態によれば、記憶手段に格納されている楽曲情報の種別を判定するステップと、楽曲情報の種別に応じて、前記記憶手段に格納されている前記楽曲情報の文字列に対して音声認識辞書用の文字列に変換する変換規則を選択するステップと、選択された変換規則に従って、楽曲情報を音声認識辞書用の文字列に変換するステップと、変換された文字列を音声データに変換して読みデータを取得するステップと、読みデータを前記楽曲情報と関連付けて音声認識用辞書に登録するステップと、を有することを特徴とする音声認識辞書生成方法が提供される。
この形態に係る音声認識辞書生成方法において、前記変換規則を選択するステップの前に、前記楽曲情報の文字列を所定のトークン毎に分割するステップを有するようにしてもよく、前記音声認識辞書用の文字列に変換するステップは、前記楽曲情報がアーティスト名又はクラッシックの作曲者名のときにスペースを区切り文字として前記楽曲情報の文字列を分割するステップと、当該分割された各文字列及び元の文字列毎に予め定められた予約語を削除した文字列に変換するステップと、当該変換された文字列及び元の文字列を音声認識辞書用の文字列とするステップと、を含むようにしてもよく、前記音声認識辞書用の文字列に変換するステップは、前記楽曲情報がアルバム名又は楽曲名のとき、当該アルバム名又は楽曲名の文字列を音声認識辞書用の文字列とするステップであるようにしてもよく、前記読みデータを取得するステップの前に、前記楽曲情報を基に生成した音声認識辞書用の文字列から音声再生不可能な記号文字を検出するステップと、当該記号文字を音声再生可能な記号文字に変換するか又は削除するステップと、を含むようにしてもよい。
本発明の一実施形態に係る情報処理装置の構成を示すブロック図である。 図2(a)は、楽曲情報の文字列を分割するトークンの一例であり、図2(b)は、削除対象となる予約語の一例であり、図2(c)は、楽曲情報から音声認識用辞書に登録する単語に変換する変換規則の一例を示す図である。 図3(a)は、音声再生可能な文字及び音声再生不可能な文字を示す文字コード一覧であり、図3(b)は、文字変換規則の一例を示す図である。 デジタルオーディオ機器から取得した楽曲情報及び楽曲情報を基に生成した音声認識用辞書生成用の文字列の一例を示した図である。 音声認識辞書生成処理の一例を示すフローチャートである。
以下、本発明の実施形態について、添付の図面を参照して説明する。
図1は、本発明の一実施形態に係る情報処理装置100の構成を示した図である。
本実施形態に係る情報処理装置100は、図1に示すように、制御部1(オーディオ制御部1a及び音声認識/TTS制御部1b)と、音声入力部2と、音声認識エンジン4と、TTSエンジン6と、音声再生部7と、表示部8と、マイク3と、スピーカー9と、記憶部10を備えている。
また、情報処理装置100とデジタルオーディオ機器12とがオーディオバス11を介して接続されている。デジタルオーディオ機器12としては、例えば、外付けオーディオ機器や、HDDオーディオ、CDテキストがある。HDDオーディオは記憶装置にハードディスクを内蔵した携帯音楽プレーヤーであり、CDテキストは、CD−TEXT規格に対応したプレーヤーであり、CDのタイトルや作曲家などのテキスト情報が表示されるものである。
デジタルオーディオ機器12には、例えば、インターネット等を介して配信されたMP3形式等の楽曲ファイルをパーソナルコンピュータ(PC)にいったんダウンロードし、さらにこのPCから転送された楽曲ファイルが格納されている。この楽曲ファイルには、再生用のオーディオ情報の他に、このオーディオ情報を特定する楽曲情報(タイトル、アーティスト名、アルバム名など)が含まれている。
オーディオ制御部1aは、マイクロコンピューターにより構成され、オーディオ再生情報をデジタルオーディオ機器12から取得し、液晶パネルや有機ELパネル等により構成される表示部8に表示させる制御を行う。また、オーディオ再生情報から再生する楽曲に関する情報を抽出して、音声認識/TTS制御1b部に引き渡す。
音声入力部2は、マイク3を介してユーザの音声を入力し、音声信号のデータに変換し、変換した音声データを音声認識/TTS制御部1bに引き渡す。
音声再生部7は、TTSエンジン6によりテキストから変換された音声データを入力し、その音声データに従って音声を再生して音声信号を増幅し、スピーカー9に供給する処理を行う。
音声認識/TTS制御部1bは、音声の入力から出力までの全体の制御を行う。音声認識/TTS制御部1bは、マイク3及び音声入力部2を介して入力したユーザの発話音声を音声認識エンジン4に認識させる。音声認識は一般の認識処理と同様に、入力された音声を音響分析して特徴量を算出し、特徴量から発話に対応する音響モデル10a(予めデータ化されてメモリに格納されている)を抽出する。この音響モデル10aと音声認識辞書10bに格納された辞書の単語とを基に認識する。
TTSエンジン6は、読み上げ用の文字列(テキスト)を入力すると、TTSデータ10dに含まれている言語解析辞書を基にテキスト情報を解析し、読みとアクセントを記した文字列である中間言語を生成する。この中間言語は、TTSデータ10dに含まれている音声合成辞書を参照して音声(波形)データに変換する。
記憶部10は、ハードディスクや半導体メモリ等で構成され、音声認識エンジン4で使用する音響モデル10aや音声認識辞書10b、楽曲情報から音声認識辞書に登録するデータを生成するための音声認識辞書生成用変換規則10c、TTSエンジン6で読み込まれるTTSデータ10dが、それぞれ領域を分けて格納されている。また、記憶部10には、デジタルオーディオ機器12から取得した楽曲情報のデータが格納される。
TTSデータ10dには、TTSエンジン6において音声合成を実行する際に使用する辞書(言語解析辞書、音声合成辞書)が含まれている。
言語解析辞書は、音声合成処理の対象となるテキスト情報の構文解析を行う際に参照する辞書であり、あらかじめ各語彙毎に、その表記、読み、アクセント情報、品詞情報等の詳細な情報を対応付けて登録したものである。音声合成辞書は、TTSエンジンで解析されたテキスト情報をその対応する音声(波形)データに変換する際に参照する辞書である。
このように構成された情報処理装置100に、楽曲データが格納されたデジタルオーディオ機器12が接続されると、楽曲データに付随した楽曲名等の情報が含まれている楽曲情報を記憶部10に楽曲毎に格納する。この楽曲情報を基にして、楽曲情報に応じてユーザが発話すると思われる音声認識辞書生成用の文字列が生成され、楽曲情報と関連付けられた文字列の読みデータが音声認識辞書に登録される。音声認識用の文字列の生成では、楽曲情報の種別に対応して、ユーザが発話することが想定しづらい不要な単語を登録しないようにしている。
例えば、楽曲情報が作曲者名“Ludwig van Beethoven”のときには、“Ludwig van Beethoven”、“Beethoven”、“Ludwig”など、元の文字列を分割した文字列の読みデータも辞書に登録し、楽曲情報が曲名“Come on Over”のときには、この元の文字列の読みデータのみを辞書に登録し、“on Over”等の不要な文字列の読みデータは登録しないようにしている。これにより、認識効率の低下を防止することが可能となる。
以下に、不要な単語の登録を抑制した音声認識辞書を生成する処理について説明する。本実施形態では、デジタルオーディオ機器12に格納された楽曲が再生出力される情報処理装置100を対象とする。また、情報処理装置100とデジタルオーディオ機器12とが接続され、デジタルオーディオ機器12に格納されている楽曲データから楽曲情報のすべてが情報処理装置100に送信され、情報処理装置100の記憶部10に楽曲情報が格納されるものとする。楽曲情報としては、楽曲のジャンル、楽曲名、作曲者名、アーティスト名、及びアルバム名が含まれている。
情報処理装置100の記憶部10に楽曲情報が格納されると、その楽曲情報を基にして音声認識用の辞書を作成する。音声認識用の辞書としてはユーザが発話する可能性の高い単語が登録され、ほとんど発話されることのない単語は登録しないことが望ましい。楽曲情報について不要な単語であるか否かは、楽曲情報の種類に応じて異なる。例えば、上記したように、楽曲情報が複数の単語の文字列からなる曲名の場合は、スペース等の区切り記号で区切られた単語を曲名として発話することは考えにくい。これに対して、作曲者名の場合は、フルネームで発話することもあるが、フルネームよりも一般的に知られた名称で発話することが多くなると考えられる。例えば、クラシックの作曲者の場合、「ルードビッヒ ヴァン ベートーベン」よりも「ベートーベン」のほうが一般的である。そのため、作曲者の場合には元の単語を複数に分割した単語を音声認識辞書に登録することが望ましい。
このように、楽曲情報の種別に応じて音声認識辞書生成用の文字列を生成する方法が異なり、それぞれについて規則を予め規定しておく。
図2は、音声認識辞書生成用変換規則に格納される変換規則の一例を示している。図2(a)は、楽曲情報に記載されている文字列の分割位置を規定するトークンを示している。楽曲情報が作曲者やアーティストの場合には、複数人や複数グループの名称が記載されることも考えられるので、元の文字列を分割して個々の作曲者やアーティスト名を抽出する。楽曲情報が作曲者の場合は、カンマ(、)、コロン(:)、スラッシュ(/)、アンド(&)を文字列分割用のトークンとし、複数の作曲者が記載されていたときに作曲者毎に分割する。また、楽曲情報がアーティストの場合は、カンマ(、)又はコロン(:)を文字列分割用のトークンとする。その他の楽曲情報(アルバム名、楽曲名)については、楽曲と一対一に対応しており複数の情報が記載されることはないと考えられるため分割の対象とはしていない。
図2(b)は、楽曲情報がクラシックの作曲者の場合に、分割した文字列に対して削除する文字列を示した予約語テーブルである。例えば、予約語として、“The”や“Van”が定義されており、作曲者の文字列を分割して生成される“The”だけの文字列や“Van”だけの文字列が音声認識辞書生成用の文字列にならないようにしている。また、楽曲情報がアーティスト名のときは、“The”を予約語としている。
図2(c)は、トークンにより分割された個々の文字列に対して音声認識辞書生成用の文字列に変換する規則の一例を示している。図2(c)に示すように、この変換規則は、楽曲情報がクラシックの作曲者及びアーティストの場合について定義されている。また、作曲者及びアーティスト以外の楽曲情報の場合にもそれぞれに応じた規則を予め規定しておくようにしてもよい。
図2(c)の規則(1)及び規則(2)は楽曲情報がクラシックの作曲者の場合の変換規則である。作曲者を示す文字列が、「予約語+BBB」の場合には、元の文字列の「予約語+BBB」と、元の文字列から予約語を削除した「BBB」が音声認識辞書生成用の文字列となる。ここで、「予約語+BBB」は「予約語」と「BBB」がスペースで区切られているものとする。また、「予約語」は図2(b)に示した文字であり、「BBB」は予約語が含まれていない1又は複数の単語とマッチングすることを示している。
この変換規則は、次のような変換処理を行うことによって得られる。まず、元の文字列「予約語+BBB」をスペースによって「予約語」と「BBB」に分割する。この分割した文字列と元の文字列(「予約語」、「BBB」、「予約語+BBB」)に対して予約語のみの文字列を削除し、「BBB」及び「予約語+BBB」に変換する。元の文字列と予約語を削除した文字列、つまり、「予約語+BBB」と「BBB」を音声認識辞書生成用の文字列とする。
なお、「BBB」に複数の単語がマッチする場合は、その複数の単語による文字列と、スペースで区切られた個々の単語の文字列が含まれる。
図2(c)の規則(2)に示すように、元の作曲者を示す文字列が、「AAA+予約語+BBB」の場合には、元の文字列の「AAA+予約語+BBB」と、元の文字列から予約語を削除した、「AAA」+「BBB」、「AAA」及び「BBB」が音声認識辞書生成用の文字列となる。
また、図2(c)の規則(3)に示すように、楽曲情報がアーティストの場合には、元のアーティスト名の文字列が「予約語+AAA」のとき、元の文字列の「予約語+AAA」と、元の文字列から予約語を削除した「AAA」が音声認識辞書生成用の文字列となる。
これらの変換された文字列をTTSエンジン6に入力して、各文字列に対応する読みデータを取得し、読みデータと各文字列が属する楽曲情報とを関連付けて音声認識辞書10bに登録する。
音声認識辞書生成用の文字列にTTSエンジン6で音声再生できない文字が含まれている場合には、再生できない文字を変更又は削除するなどの調整をして文字列を変換する。例えば、TTSエンジン6でサポートしている文字コードが米国英語のときに日本語の漢字やひらがなは対応できずその文字については音声再生をすることができない。
図3(a)は、文字コード一覧(ISO8859−1)の一例を示した図である。TTSエンジン6によって、この文字コード一覧のうち、音声再生が可能な文字と音声再生ができない文字とが存在する。例えば、これらの文字コードのうち、二重枠で囲んだセル及び太枠で囲んだセルの文字がTTSエンジン6によって音声信号に変換できない、若しくは正しく読み上げできないものとする。二重枠で囲んだセルの文字コードは音声再生ができないため、これらの文字はTTSエンジン6に入力する前にスペースに置換する。また、太枠で囲んだセルの文字コードはそのままでは音声再生できないが、読み方を定義して音声再生が可能なようにしている。図3(b)にその定義の一例を示している。図3(b)に示すように、TTSエンジン6が対応可能な文字コードが米国英語(US English)の場合、文字コード0x23の文字「#」は“number”に変換し、文字コード0x26の文字「&」は“and”に変換し、文字コード0x40の文字「@」は“at”に変換する。対応可能な文字コードがCanadian French,American Spanishのときは、それぞれ図3(b)に示すように変換される。
上記の規則を適用して適切な文を生成した例を、図4を用いて説明する。図4は、デジタルオーディオ機器12から取得した4つの楽曲データの例を示している。例1は、楽曲のジャンルがクラシックであり、作曲者に“Ludwig van Beethoven”が記載されている場合である。この場合は、ジャンルがクラシックでありコンテンツが作曲者であるので、図2(c)の変換規則(1)又は(2)が採用される。作曲者の文字列が“AAA+予約語+BBB”のパターンであるので、変換規則(2)が採用されて、音声認識辞書生成用の候補文字列としては、“AAA+予約語+BBB”、“AAA+BBB”、“AAA”、及び、“BBB”にパターンマッチするように生成される。結果として、“Ludwig van Beethoven”、“Ludwig Beethoven”、“Ludwig”、及び“Beethoven”が生成される。さらに、これらの文字列から音声再生不可能な文字を変換または削除して文字列を生成する。この例では音声再生不可能な文字は存在しないため、音声認識辞書生成用の候補文字列が音声認識辞書生成用の文字列となる。
音声認識辞書生成用の文字列をTTSエンジンに入力して、読みデータを生成して音声認識辞書に登録される。その結果、楽曲情報として“Ludwig van Beethoven”が記載されている場合に、“Beethoven”という発話がされた場合でも、元の作曲者名“Ludwig van Beethoven”に関連付けられた楽曲情報を取得することが可能となる。
例2は、楽曲のジャンルがロックであり、楽曲名に“Come on Over”が記載されている場合である。この場合は、コンテンツが作曲者名又はアーティスト名ではなく、ジャンルがクラシックではないので、図2(c)の規則は適用されず、元の楽曲名“Come on Over”が音声認識辞書生成用の候補文字列となる。さらに、この音声認識辞書生成用の候補文字列には音声再生不可能な文字が含まれていないため、そのまま音声認識辞書生成用の文字列となる。
例3は、楽曲のジャンルがポップであり、アーティスト名に“CHAGE&ASKA”が記載されている場合である。この場合は、コンテンツがアーティスト名であるので、図2の規則(3)が適用される。しかし、アーティスト名のパターンが“予約語+AAA”ではないため、元のアーティスト名の“CHAGE&ASKA”が音声認識辞書生成用の候補文字列となる。なお、アーティスト名に“&”が含まれているが、クラシックの作曲者名ではないので、このトークン“&”による文字列の分割は行われない。音声認識辞書生成用の候補文字列“CHAGE&ASKA”に対して音声再生不可能な文字の処理を行う。この場合は、音声再生不可能な文字として“&”が含まれている。よって、図3(b)の規則を用いて、“&”を“AND”に変換して、音声認識辞書生成用の文字列とする。これにより、元の文字列に対して“CHAGE AND ASKA”の読みデータが音声認識辞書に登録され、元の文字列を分割した文字列は登録されない。
例4は、楽曲のジャンルがロックであり、アーティスト名に“Edgar Winter、The Edgar Winter Group”が記載されている場合である。この場合は、コンテンツのアーティスト名に、図2(a)のアーティストの場合の文字列分割用トークンが含まれているので、文字列を“Edgar Winter”と“The Edgar Winter Group”に分割する。そして、コンテンツがアーティスト名であるので、それぞれの文字列に図2(c)の規則(3)が適用される。“Edgar Winter”には、アーティスト名のパターンが“予約語+AAA”とパターンマッチしないため、元のアーティスト名の“Edgar Winter”が音声認識辞書生成用の候補文字列となる。また、“The Edgar Winter Group”は“予約語+AAA”とパターンマッチするので、“予約語+AAA”と“AAA”のパターンの文字列が生成される。その結果、“The Edgar Winter Group”と“Edgar Winter Group”が音声認識辞書生成用の文字列となる。さらに、トークン“、”で分割しない“Edgar Winter、The Edgar Winter Group”も音声認識辞書生成用の文字列とする。
上記4つの音声認識辞書生成用の候補文字列に対して音声再生不可能な文字の処理を行う。この場合は、音声再生不可能な文字が含まれていないので、そのまま音声認識辞書生成用の文字列となる。
次に、音声認識辞書の生成処理について図5のフローチャートを参照しながら説明する。この処理において、デジタルオーディオ機器12から取得した楽曲情報などのデータは記憶部10に楽曲毎に格納されているものとする。また、楽曲情報に応じた音声認識辞書生成用の文字列に変換するための変換規則は予め定義され記憶部10に格納されているものとする。
まず、図5のステップS11において、記憶部10に格納されている楽曲情報を抽出す る。
次のステップS12において、楽曲情報の種別が作曲者名か否かを判定する。作曲者名の場合にはステップS13に移行し、種別が作曲者名以外の場合にはステップS14に移行する。
次のステップS13では、楽曲情報に記載されている作曲者名が複数存在するとき、それらを個々の作曲者に分割する。元の作曲者名に対して所定のトークン毎に文字列を分割する。作曲者名の場合の所定のトークンとしては、カンマ、コロン、スラッシュ、アンドを採用する。一方、ステップS14では、楽曲情報が作曲者名以外の場合に、元の文字列に対して所定のトークン(カンマ、又はコロン)毎に分割する。
なお、ステップS13において、作曲者名等が複数存在しないときは、ステップS15に移行し、ステップS14において、アーティスト名等が複数存在しないときは、ステップS21に移行する。また、ステップS14の処理は楽曲情報がアーティスト名のときに行い、その他の楽曲情報(楽曲名、アルバム名)のときにはトークンによる楽曲情報の分割処理を経ずにステップS21に移行するようにしてもよい。
次のステップS15以降の処理は、ステップS13又はステップS14において楽曲情報が分割された場合には、個々の楽曲情報に対して行われる。
ステップS15において、楽曲情報のジャンルがクラシックか否かを判定する。楽曲情報のジャンルは楽曲情報の項目のジャンルにより判定する。ジャンルがクラシックの場合はステップS16に移行し、ジャンルがクラシック以外の場合はステップS21に移行する。
次のステップS16からステップS18は、クラシックの作曲者の場合に音声認識辞書生成用の文字列を生成する処理である。ステップS16において、一人の作曲者名を表す文字列に対して、スペースを区切り文字として分割した要素文字列を抽出する。例えば、作曲者名が“Ludwig van Beethoven”の場合、“Ludwig”、“van”、及び“Beethoven”が要素文字列として抽出される。
次のステップS17において、ステップS16で抽出した要素文字列から予約語を除いた要素文字列を組み合わせて音声認識辞書生成用の候補文字列を生成する。予約語は図2(b)に示すように予め規定された単語であり、音声認識用辞書の単語として単独での使用がされることのない単語である。
例えば、元の文字列“Ludwig van Beethoven”と、ステップS16において抽出された要素文字列(“Ludwig”、“van”、“Beethoven”)から予約語“van”を除いて、“Ludwig Beethoven”、 “Ludwig”、及び“Beethoven”の3つの文字列が音声認識辞書生成用の候補文字列として生成される。
次のステップS18では、元の文字列を音声認識辞書生成用の候補文字列に追加する。さらに、ステップS13において所定のトークンにより文字列を分割した場合は、分割前の文字列も音声認識辞書生成用の候補文字列に追加する。
上記の例では、音声認識辞書生成用の候補文字列が、“Ludwig Beethoven”、“Ludwig”、“Beethoven”、及び“Ludwig van Beethoven”の4つになる。
一方、ステップS15において楽曲のジャンルがクラシック以外であると判定された場合には、ステップS21において元の楽曲情報の文字列を音声認識辞書生成用の候補文字列とする。また、ステップS13又はステップS14において所定のトークンにより文字列を分割した場合は、分割前の文字列も音声認識辞書生成用の候補文字列に追加する。
次のステップS19において、ステップS18又はステップS21において生成された音声認識辞書生成用候補文字列に対して音声再生が不可能な文字を削除するか、又は変更する処理を行う。TTSエンジン6で対応していない文字コードについては、文字列から音声データに変換することができない。そこで、図3(a)の文字コード表において二重枠で示した文字についてはスペースに置き換え、太枠で示した文字については、図3(b)に示す規則に従って文字を変換する。
次のステップS20において、音声再生可能に処理された音声認識辞書生成用の候補文字列をTTSエンジン6に入力して各文字列に対応する読みデータを生成する。
その後、読みデータと楽曲情報とを関連付けて音声認識辞書10bに登録する。
なお、ステップS16からステップS18において、音声認識辞書生成用の候補文字列を生成しているが、予め図2(c)に示すような規則を規定しておき、文字列のパターンマッチング処理を行って音声認識辞書生成用の候補文字列を生成するようにしてもよい。
また、ステップS16からステップS18においてクラシックの作曲者の場合に音声認識辞書生成用の候補文字列として元の文字列から分割する例を示したが、クラシックの作曲者以外、例えばアーティストの場合にも元の文字列から分割して複数の候補文字列を生成するようにしてもよい。
以上説明したように、本実施形態の情報処理装置及び音声認識辞書生成方法では、楽曲情報の単語の文字列を基にしてユーザが発話すると思われる文字列を生成し、生成された文字列をTTSエンジンに入力して読みデータを取得し、楽曲情報と読みデータとを関連付けて音声認識用辞書に登録している。ユーザが発話すると思われる文字列を元の単語の文字列から生成するときには、楽曲情報の種別に応じた変換規則を用いるようにしている。例えば、楽曲情報がクラシックの作曲者の場合には基本的に作曲者名の文字列をスペースで分割した文字列を組み合わせて音声認識辞書生成用の文字列に変換しているが、楽曲情報が楽曲名の場合は、元の文字列を音声認識辞書生成用の文字列としている。これにより、ユーザが使用すると考えられる一般的に使用される単語が音声認識用辞書に登録されるとともに、楽曲名に含まれる前置詞や冠詞だけの単語のような不要な単語が登録されないようにしている。そのため、すべての楽曲情報に対してクラシックの作曲者の場合に適用される規則を用いて音声認識辞書生成用の文字列を生成する場合に比べて無駄な登録単語数が極端に減り、音声認識を効率よく行うことが可能となる。
なお、本実施形態では、楽曲情報のうちアーティスト名及びジャンルがクラシックの作曲者名に対して文字列を分割して音声認識辞書生成用の文字列を生成する場合について説明したが、これに限らず、他の楽曲情報についてもユーザが発話する可能性の低い単語が音声認識辞書に登録されないようにする規則を予め定義するようにしてもよい。
100…情報処理装置、
1…制御部、
1a…オーディオ制御部、
1b…音声認識/TTS制御部、
4…音声認識エンジン、
6…TTSエンジン(音声読み上げ手段)、
7…音声再生部、
10…記憶部(記憶手段)、
10a…音響モデル、
10b…音声認識辞書、
10c…音声認識辞書生成用変換規則、
10d…TTSデータ。

Claims (16)

  1. 再生用の楽曲データを格納した機器と通信可能に接続される情報処理装置であって、
    テキストを音声データに変換して出力する機能を有した音声読み上げ手段と、
    前記楽曲データに付随した楽曲情報の文字列に対して音声認識辞書用の文字列に変換する変換規則が格納された記憶手段と、
    前記楽曲データを格納した機器から楽曲データに付随した楽曲情報を取得して前記記憶手段に格納する制御手段とを有し、
    前記制御手段は、前記記憶手段に格納した楽曲情報の文字列を当該楽曲情報の種別に応じた前記変換規則に従って音声認識辞書用の文字列に変換し、当該変換された文字列を前記音声読み上げ手段に入力して読みデータを取得して、当該読みデータと楽曲情報とを関連付けて音声認識用の辞書に登録することを特徴とする情報処理装置。
  2. 前記制御手段は、前記楽曲情報の文字列に所定のトークンが含まれているときは当該所定のトークン毎に文字列を分割し、当該分割された文字列毎に前記変換規則を適用することを特徴とする請求項1に記載の情報処理装置。
  3. 前記制御手段は、前記変換規則に従って、前記楽曲情報がアーティスト名又はクラシックの作曲者名のとき、スペースを区切り文字として前記楽曲情報の文字列を分割した各文字列及び元の文字列から予め定められた予約語を削除した文字列を生成し、元の文字列とともに音声認識辞書用の文字列とすることを特徴とする請求項2に記載の情報処理装置。
  4. 前記制御手段は、前記変換規則に従って、前記楽曲情報がアルバム名又は楽曲名のとき、当該アルバム名又は楽曲名の文字列を音声認識辞書用の文字列とすることを特徴とする請求項3に記載の情報処理装置。
  5. 前記制御手段は、前記楽曲情報を基に生成した音声認識辞書用の文字列から音声再生不可能な記号文字を音声再生可能な記号文字に変換するか、又は削除することを特徴とする請求項4に記載の情報処置装置。
  6. 前記楽曲情報の文字列を分割する前記所定のトークンは、前記楽曲情報がクラシックの作曲者名のときは、“、”、“:”、“/”、“&”のいずれかであり、前記楽曲情報がアーティスト名のときは、“、”又は“:”であることを特徴とする請求項2に記載の情報処理装置。
  7. 前記予約語は、前記楽曲情報がクラシックの作曲者名のときは、“The”,“Van”,“Von”,“De”,“La”,“non”,“of”,“da”,“di”,及び“a”から“z”までのアルファベット1文字のいずれかであり、前記楽曲情報がアーティスト名のときは、“The”であることを特徴とする請求項3に記載の情報処理装置。
  8. 前記制御手段は、前記音声再生不可能な記号文字のうち、“#”は文字列“number”に変換し、“&”は文字列“and”に変換し、“@”は文字列“at”に変換することを特徴とする請求項5に記載の情報処理装置。
  9. 記憶手段に格納されている楽曲情報の種別を判定するステップと、
    楽曲情報の種別に応じて、前記記憶手段に格納されている前記楽曲情報の文字列に対して音声認識辞書用の文字列に変換する変換規則を選択するステップと、
    選択された変換規則に従って、楽曲情報を音声認識辞書用の文字列に変換するステップと、
    変換された文字列を音声データに変換して読みデータを取得するステップと、
    読みデータを前記楽曲情報と関連付けて音声認識用辞書に登録するステップと、
    を有することを特徴とする音声認識辞書生成方法。
  10. 前記変換規則を選択するステップの前に、
    前記楽曲情報の文字列を所定のトークン毎に分割するステップを有することを特徴とする請求項9に記載の音声認識辞書生成方法。
  11. 前記音声認識辞書用の文字列に変換するステップは、
    前記楽曲情報がアーティスト名又はクラッシックの作曲者名のときにスペースを区切り文字として前記楽曲情報の文字列を分割するステップと、
    当該分割された各文字列及び元の文字列毎に予め定められた予約語を削除した文字列に変換するステップと、
    当該変換された文字列及び元の文字列を音声認識辞書用の文字列とするステップと、
    を含むことを特徴とする請求項10に記載の音声認識辞書生成方法。
  12. 前記音声認識辞書用の文字列に変換するステップは、
    前記楽曲情報がアルバム名又は楽曲名のとき、当該アルバム名又は楽曲名の文字列を音声認識辞書用の文字列とするステップであることを特徴とする請求項11に記載の音声認識辞書生成方法。
  13. 前記読みデータを取得するステップの前に、
    前記楽曲情報を基に生成した音声認識辞書用の文字列から音声再生不可能な記号文字を検出するステップと、
    当該記号文字を音声再生可能な記号文字に変換するか又は削除するステップと、
    を含むことを特徴とする請求項11に記載の音声認識辞書作成方法。
  14. 前記楽曲情報の文字列を分割する前記所定のトークンは、前記楽曲情報がクラシックの作曲者名のときは、“、”、“:”、“/”、“&”のいずれかであり、前記楽曲情報がアーティスト名のときは、“、”又は“:”であることを特徴とする請求項10に記載の音声認識辞書生成方法。
  15. 前記予約語は、前記楽曲情報がクラシックの作曲者名のときは、“The”,“Van”,“Von”,“De”,“La”,“non”,“of”,“da”,“di”,及び“a”から“z”までのアルファベット1文字のいずれかであり、前記楽曲情報がアーティスト名であるときは、“The”であることを特徴とする請求項11に記載の音声認識辞書生成方法。
  16. 前記音声再生可能な記号文字に変換するか又は削除するステップにおいて、前記音声再生不可能な記号文字のうち、“#”は文字列“number”に変換し、“&”は文字列“and”に変換し、“@”は文字列“at”に変換することを特徴とする請求項13に記載の音声認識辞書生成方法。
JP2009000296A 2009-01-05 2009-01-05 情報処理装置及び音声認識辞書生成方法 Pending JP2010156925A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009000296A JP2010156925A (ja) 2009-01-05 2009-01-05 情報処理装置及び音声認識辞書生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009000296A JP2010156925A (ja) 2009-01-05 2009-01-05 情報処理装置及び音声認識辞書生成方法

Publications (1)

Publication Number Publication Date
JP2010156925A true JP2010156925A (ja) 2010-07-15

Family

ID=42574882

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009000296A Pending JP2010156925A (ja) 2009-01-05 2009-01-05 情報処理装置及び音声認識辞書生成方法

Country Status (1)

Country Link
JP (1) JP2010156925A (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005043654A (ja) * 2003-07-22 2005-02-17 Denso Corp 楽曲情報配信システム
JP2008046260A (ja) * 2006-08-11 2008-02-28 Nissan Motor Co Ltd 音声認識装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005043654A (ja) * 2003-07-22 2005-02-17 Denso Corp 楽曲情報配信システム
JP2008046260A (ja) * 2006-08-11 2008-02-28 Nissan Motor Co Ltd 音声認識装置

Similar Documents

Publication Publication Date Title
US8719028B2 (en) Information processing apparatus and text-to-speech method
US10789290B2 (en) Audio data processing method and apparatus, and computer storage medium
US8396714B2 (en) Systems and methods for concatenation of words in text to speech synthesis
US8712776B2 (en) Systems and methods for selective text to speech synthesis
US8583418B2 (en) Systems and methods of detecting language and natural language strings for text to speech synthesis
US8355919B2 (en) Systems and methods for text normalization for text to speech synthesis
US8352272B2 (en) Systems and methods for text to speech synthesis
US8352268B2 (en) Systems and methods for selective rate of speech and speech preferences for text to speech synthesis
JP2011033874A (ja) 多言語音声認識装置及び多言語音声認識辞書作成方法
US20100082327A1 (en) Systems and methods for mapping phonemes for text to speech synthesis
US20100082328A1 (en) Systems and methods for speech preprocessing in text to speech synthesis
US9761219B2 (en) System and method for distributed text-to-speech synthesis and intelligibility
JP6806662B2 (ja) 音声合成システム、統計モデル生成装置、音声合成装置、音声合成方法
JP5465926B2 (ja) 音声認識辞書作成装置及び音声認識辞書作成方法
JP5693834B2 (ja) 音声認識装置及び音声認識方法
JP4697432B2 (ja) 音楽再生装置、音楽再生方法及び音楽再生用プログラム
Demenko et al. JURISDIC: Polish Speech Database for Taking Dictation of Legal Texts.
JP2004294577A (ja) 文字情報音声変換方法
JP2010156925A (ja) 情報処理装置及び音声認識辞書生成方法
JP5431817B2 (ja) 楽曲データベース更新装置及び楽曲データベース更新方法
JP2008139438A (ja) 音声処理装置、端末装置、音声情報管理装置、および、プログラム
KR20220050342A (ko) 음성 합성 서비스를 제공하는 장치, 단말기 및 방법
JP4356334B2 (ja) 音声データ提供システムならびに音声データ作成装置
TW202115713A (zh) 資訊處理裝置、記錄媒體、程式產品以及資訊處理方法
JP2013195685A (ja) 言語モデル作成プログラム、言語モデル作成装置及び音声認識装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110915

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121106

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130227

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130305

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130502

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20130702

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130812

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20130902

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20131115