JP2010243653A - 音声認識辞書編集装置及び音声認識装置 - Google Patents

音声認識辞書編集装置及び音声認識装置 Download PDF

Info

Publication number
JP2010243653A
JP2010243653A JP2009090143A JP2009090143A JP2010243653A JP 2010243653 A JP2010243653 A JP 2010243653A JP 2009090143 A JP2009090143 A JP 2009090143A JP 2009090143 A JP2009090143 A JP 2009090143A JP 2010243653 A JP2010243653 A JP 2010243653A
Authority
JP
Japan
Prior art keywords
speech recognition
recognition dictionary
text
group
music
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2009090143A
Other languages
English (en)
Other versions
JP5426913B2 (ja
Inventor
Chiharu Takeda
千春 武田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alpine Electronics Inc
Original Assignee
Alpine Electronics Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alpine Electronics Inc filed Critical Alpine Electronics Inc
Priority to JP2009090143A priority Critical patent/JP5426913B2/ja
Publication of JP2010243653A publication Critical patent/JP2010243653A/ja
Application granted granted Critical
Publication of JP5426913B2 publication Critical patent/JP5426913B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

【課題】テキストと当該テキストの発音データとを登録した音声認識データを、認識対象とする各テキストについて蓄積した音声認識辞書に登録されている一部の音声認識データの編集を行う機能を備えていない場合においても、効率的に音声認識辞書の音声認識データの編集を行える「音声認識辞書編集装置及び音声認識装置」を提供する。
【解決手段】n個の曲名毎に音声認識辞書を作成する(901)。曲名のヨミがユーザによって変更されたならば、当該曲名のヨミ変換ルールを修正する。そして、ヨミが変更された曲名のヨミデータが含まれる各音声認識辞書を、修正後のヨミ変換ルールを用いて再作成する(902-904)。
【選択図】図9

Description

本発明は、音声認識装置において音声認識に用いる音声認識辞書を編集する技術に関するものである。
音声認識は、テキストと当該テキストの発音データとを登録した音声認識データを、認識対象とする各テキストについて蓄積した音声認識辞書を予め用意し、ユーザの発話した音声にマッチした発音データが登録されている音声認識データに登録されているテキストを、認識テキストとすることにより行われることが一般的である(たとえば、特許文献1)。
また、このような音声認識辞書を作成する技術としては、指定されたテキストのリストに含まれる各テキストについて、テキストツースピーチ(TTS ; Text To Speech)の技術を用いて生成した当該テキストを発声した発音データを当該テキストと共に登録した音声認識データを作成すると共に、各テキストについて作成した音声認識データを格納した音声認識辞書を作成する技術も知られている(たとえば、特許文献2)。
また、このような音声認識辞書を編集する技術としては、ユーザから指定されたテキストの音声認識データに登録された発音データを、ユーザの発話した音声にマッチした発音データに修正する技術も知られている(たとえば、特許文献3)。
特開2008−158511号公報 特開2004−53979号公報 特開2007−248886号公報
さて、音声認識辞書に登録されている一部の音声認識データの編集を行う機能を備えていない場合、ユーザから指定されたテキストの音声認識辞書に登録された発音データの修正等の編集は、音声認識辞書の全体を作り直すことにより行う必要があるために、効率的な音声認識データの編集を行うことができなかった。
そこで、本発明は、テキストと当該テキストの発音データとを登録した音声認識データを、認識対象とする各テキストについて蓄積した音声認識辞書に登録されている一部の音声認識データの編集を行う機能を備えていない場合においても、より効率的に、当該一部の音声認識データの編集を行えるようにすることを課題とする。
前記課題達成のために、本発明は、テキストと当該テキストの発音を表す発音データとの対応を表す音声認識データを、認識対象とする各テキストについて格納した、人間が発声した音声が表すテキストを認識する音声認識装置に用いられる音声認識辞書を編集する音声認識辞書編集装置に、前記音声認識辞書を記憶する音声認識辞書記憶部と、テキストからの発音データの生成法を規定したヨミ変換ルールを記憶したヨミ変換ルール記憶部と、前記認識対象とする各テキストをn(但し、nは1以上の整数)個のテキスト毎のグループにグループ分けし、各グループについて、当該グループ内の各テキストと当該テキストの前記ヨミ変換ルールに従って生成した発音データとの対応を表す音声認識データを格納した前記音声認識辞書を、当該グループの音声認識辞書として作成し、前記音声認識辞書記憶部に格納する音声認識辞書生成部と、ユーザによって指定されたテキストである指定テキストについての発音データの生成法がユーザから指定された生成法となるように、前記ヨミ変換ルールを修正するヨミ変換ルール修正部と、前記指定テキストが含まれる前記グループを修正対象グループとして、当該修正対象グループの音声認識辞書を前記音声認識辞書記憶部から削除すると共に、当該修正対象グループ内の各テキストと当該テキストの前記ヨミ変換ルール修正部による修正後のヨミ変換ルールに従って生成した発音データとの対応を表す音声認識データを格納した前記音声認識辞書を、当該グループの新たな音声認識辞書として作成し、前記音声認識辞書記憶部に格納する音声認識辞書修正部とを備えたものである。
ここで、このような音声認識辞書編集装置は、前記音声認識辞書修正部において、前記指定テキストと同じテキストが含まれる各グループの各々を前記修正対象グループとし、各修正対象グループについて、当該修正対象グループの音声認識辞書を前記音声認識辞書記憶部から削除すると共に、当該修正対象グループ内の各テキストと当該テキストの前記ヨミ変換ルール修正部による修正後のヨミ変換ルールに従って生成した発音データとの対応を表す音声認識データを格納した前記音声認識辞書を、当該グループの新たな音声認識辞書として作成し、前記音声認識辞書記憶部に格納するように構成してもよい。
また、このような音声認識辞書編集装置には、前記認識対象とするテキストが追加されたときに、追加された認識対象とする各テキストをn個のテキスト毎のグループにグループ分けし、各グループについて、当該グループ内の各テキストと当該テキストの前記ヨミ変換ルールに従って生成した発音データとの対応を表す音声認識データを格納した前記音声認識辞書を、当該グループの音声認識辞書として作成し、前記音声認識辞書記憶部に追加格納する音声認識辞書追加部を設けるようにしてもよい。
また、このような音声認識辞書編集装置は、前記音声認識辞書修正部において、テキストの前記認識対象とするテキストからの除外が発生したときに、当該除外されたテキストが含まれる前記グループを修正対象グループとして、当該修正対象グループの音声認識辞書を前記音声認識辞書記憶部から削除すると共に、当該修正対象グループから当該除外されたテキストを除いた上で、当該修正対象グループの各テキストと当該テキストの前記ヨミ変換ルールに従って生成した発音データとの対応を表す音声認識データを格納した前記音声認識辞書を、当該グループの新たな音声認識辞書として作成し、前記音声認識辞書記憶部に格納するようにしてもよい。
ここで、前記認識対象とするテキストは、たとえば、楽曲の曲名、アーティスト名、アルバム名、ジャンル名のいずれかとしてもよい。
これらのような音声認識辞書編集装置によれば、認識対象とする各テキストをn(但し、nは1以上の整数)個のテキスト毎のグループにグループ分けし、グループ毎に音声認識辞書を作成すると共に、テキストと当該テキストの発音を表す発音データとの対応を表す音声認識データの修正や消去を、修正や消去が必要な音声認識データを含む音声認識辞書のみの再作成を行うことにより実現するので、認識対象とするテキスト全てについての音声認識データを格納した単一の音声認識辞書を設け、音声認識辞書に登録されている一部の音声認識データの編集を行う機能を備えずに、当該単一の音声認識辞書を再作成することにより、一部の音声認識データの編集を実現する場合に比べ、より効率的に、音声認識データの編集を行うことができる。
なお、このような音声認識辞書編集装置と、前記音声認識辞書記憶部に格納されている前記各グループの音声認識辞書を用いて、人間が発声した音声が表すテキストを認識する音声認識部とより音声認識装置を構成するようにしてもよい。
また、このような音声認識装置と、楽曲を表す楽曲データを記憶した楽曲データ記憶部と、前記楽曲データ記憶部に記憶されている前記楽曲データを再生する楽曲再生部とよりオーディオ再生装置を構成するようにしてもよい。また、この場合に、前記認識対象とするテキストを、前記楽曲データ記憶部に記憶されている楽曲データが表す楽曲の曲名とし、前記楽曲再生部において、前記音声認識部が認識した曲名の楽曲の楽曲データを再生するようにしてもよい。
このように、本発明によれば、テキストと当該テキストの発音データとを登録した音声認識データを、認識対象とする各テキストについて蓄積した音声認識辞書に登録されている一部の音声認識データの編集を行う機能を備えていない場合に、効率的に、当該一部の音声認識データの編集を行えるようになる。
本発明の実施形態に係るオーディオ再生装置の構成を示すブロック図である。 本発明の実施形態に係る記録楽曲情報を示す図である。 本発明の実施形態に係るHDD記録楽曲用楽曲DB作成処理とHDD記録楽曲用音声認識辞書作成処理を示すフローチャートである。 本発明の実施形態に係るHDD記録楽曲用楽曲DB作成処理とHDD記録楽曲用音声認識辞書作成処理の処理例を示す図である。 本発明の実施形態に係る接続デバイス記録楽曲用楽曲DB作成処理と接続デバイス記録楽曲用音声認識辞書作成処理を示すフローチャートである。 本発明の実施形態に係る接続デバイス記録楽曲用楽曲DB作成処理と接続デバイス記録楽曲用音声認識辞書作成処理の処理例を示す図である。 本発明の実施形態に係る音声認識辞書編集処理と音声認識辞書修正処理を示すフローチャートである。 本発明の実施形態に係るオーディオ再生装置の表示例を示す図である。 本発明の実施形態に係る音声認識辞書編集処理と音声認識辞書修正処理の処理例を示す図である。
以下、本発明の実施形態をオーディオ再生装置への適用を例にとり説明する。
図1に、本実施形態に係るオーディオ再生装置の構成を示す。
図示するように、オーディオ再生装置は、マイクロフォン1、スピーカ2、入力装置3、表示装置4、HDD5、CDドライブ6、ポータブルオーディオプレイヤインタフェース7、音声合成エンジン8、音声認識エンジン9、オーディオ出力部10、音声認識辞書編集部11、リッピング処理部12、楽曲管理部13、再生制御部14とを備えている。
ただし、このようなオーディオ再生装置は、ハードウエア的には、マイクロプロセッサや、メモリや、その他の周辺デバイスを有する一般的な構成を備えたコンピュータを利用して構成されるものであってよく、この場合、以上に示したオーディオ再生装置の音声合成エンジン8、音声認識エンジン9、オーディオ出力部10、音声認識辞書編集部11、リッピング処理部12、楽曲管理部13、再生制御部14の各部もしくはその一部は、マイクロプロセッサが予めHDD5に記憶されたプログラムを実行することにより具現化するプロセスとして実現されるものであって良い。
さて、ここで、CDドライブ6は、装着されたCD-DAディスク20に記録された楽曲データの読み出しを行う。
また、ポータブルオーディオプレイヤインタフェース7には、ポータブルオーディオプレイヤ21が選択的に接続される。ポータブルオーディオプレイヤ21は、楽曲のオーディオファイルを記録していると共に、記録しているオーディオファイルの楽曲を再生する機能を備えた装置である。また、ポータブルオーディオプレイヤ21は、記録している各オーディオファイルの楽曲の、当該楽曲が属するアルバム名や、当該楽曲のジャンル名や、当該楽曲のアーティスト名や、当該楽曲の曲名(タイトル名)などの属性情報を管理しており、ポータブルオーディオプレイヤインタフェース7に接続されているときに、オーディオ再生装置からの楽曲管理情報の転送要求に応答して、管理している属性情報や、各楽曲のオーディオファイルの識別子を、楽曲管理情報としてオーディオ再生装置に出力する機能を有する。また、ポータブルオーディオプレイヤインタフェース7に接続されているときに、オーディオ再生装置からの、オーディオファイルの識別子を指定した再生要求に応じてオーディオファイルの識別子で指定されたオーディオファイルを再生し、再生した信号/データを、オーディオ再生装置に出力する機能を備えている。
また、HDD5には、CDDB、ヨミ変換ルール、HDD記録楽曲情報、接続デバイス記録楽曲情報、楽曲のオーディオデータを格納したオーディオファイルが記録されている。
そして、CDDBには、市場に流通しているCD-DAディスク20に記録されている各楽曲の、当該楽曲が属するアルバム名や、当該楽曲のジャンル名や、当該楽曲のアーティスト名や、当該楽曲の曲名(タイトル名)などの属性情報が蓄積されている。
また、ヨミ変換ルールは、音声合成エンジン8において、各種テキストから、当該テキストを読み上げた発音を表すヨミデータをどのように生成するかを規定するルールが格納されている。
また、HDD記録楽曲情報と接続デバイス記録楽曲情報とは同様の構成を備えており、それぞれ、楽曲DBと音声認識辞書とを含む。但し、HDD記録楽曲情報の楽曲DBは、HDD5にオーディオファイルに記録されている楽曲を対象楽曲として作成され、接続デバイス記録楽曲情報の楽曲DBは、ポータブルオーディオプレイヤインタフェース7に接続されているポータブルオーディオプレイヤ21に記録されている楽曲を対象楽曲として作成される。また、HDD記録楽曲情報の音声認識辞書は、HDD記録楽曲情報の楽曲DBに対応して設けられ、接続デバイス記録楽曲情報の音声認識辞書は、接続デバイス記録楽曲情報の楽曲DBに対応して設けられる。
以下、楽曲DBと音声認識辞書の構成について説明する。
まず、楽曲DBには、図2aに示すように対象楽曲毎に、当該楽曲に対応して設けたエントリ(図の各行)を有し、各エントリには、対応する対象楽曲の当該楽曲テーブル内の識別子となる楽曲IDと、対応する対象楽曲の曲名と、対応する対象楽曲のアーティストのアーティスト名と、対応する対象楽曲のアルバムのアルバム名と、対応する対象楽曲のジャンルのジャンル名と、対象楽曲のオーディオファイルの識別子を表すファイル識別子とが登録されている。ここで、楽曲DBの各エントリは、楽曲IDの小さいものがより前にくるように配置されている。
次に、図2bに示すように、音声認識辞書は、連続するn個(図では5個)の楽曲ID毎に対応して作成され、各音声認識辞書には異なる辞書IDが連番で付与されている。
そして、各音声認識辞書は、対応するn個の楽曲IDの各々に対応するエントリを有し、各エントリには、対応する楽曲ID、対応する楽曲DBに登録されている対応する楽曲IDのエントリに登録されている楽曲の曲名の発音を表すヨミデータが登録されている。ここで、ヨミデータの形式は任意でよいが、基本的には発音記号列と等価な内容を持つものとする。
以下、このようなHDD記録楽曲情報と接続デバイス記録楽曲情報の作成の動作について説明する。
まず、HDD記録楽曲情報の作成動作について説明する。
リッピング処理部12は、ユーザのリッピング指示を入力装置3を介して受け付けると、CDドライブ6に装着されているCD-DAディスク20に記録されている各楽曲の楽曲データを読み出して符号化し、楽曲毎にオーディオファイルとしてHDD5に記録する。また、この際に、CDDBを参照して、HDD5に記録するオーディオファイルの楽曲の曲名やアーティスト名やアルバム名やジャンル名などを算定し、オーディオファイルに、当該オーディオファイルの楽曲の属性情報として格納する。そして、楽曲管理部13に、新規楽曲のリッピング発生を楽曲管理部13に通知する。
一方、楽曲管理部13は、図3aに示すHDD記録楽曲用楽曲DB作成処理において、リッピング処理部12から新規楽曲のリッピング発生の通知を検出したならば(ステップ302)、HDD記録楽曲情報の楽曲DBに登録されている最終楽曲の楽曲IDを取得し、mとする(ステップ304)。HDD記録楽曲情報の楽曲DBに楽曲が登録されていない場合には、m=0とする。
そして、「floor」を、実数 x に対して x 以下の最大の整数を返す関数である床関数として、
k=floor((m-1)/n)
p=1+n+(k×n)により、
pを求める(ステップ306)。ただし、nは、一つの音声認識辞書が対応する楽曲ID数である。
そして、HDD記録楽曲情報の楽曲DBに、リッピング処理部12によって新たなにHDD5に記録された各オーディオファイルに対応するエントリを新たに作成し、各エントリに、pから1ずつ増加する楽曲IDを登録すると共に、対応するオーディオファイルの属性情報が表す曲名やアーティスト名やアルバム名やジャンル名と、オーディオファイルの識別子とを登録する(ステップ308)。すなわち、HDD記録楽曲情報の楽曲DBに新たに作成したr番目のエントリには、p+r-1の楽曲IDと、リッピング処理部12によって新たなにHDD5に記録されたr番目のオーディオファイルの属性情報とオーディオファイルの識別子とを登録する。
そして、音声認識辞書編集部11に、HDD記録楽曲情報の音声認識辞書作成を要求する(ステップ310)。
次に、HDD記録楽曲情報の音声認識辞書作成を要求された、音声認識辞書編集部11は、図3bに示すHDD記録楽曲用音声認識辞書作成処理を開始し、HDD記録楽曲情報の楽曲DBの、楽曲IDがp以降の各エントリから抽出した楽曲IDと曲名との組を、楽曲IDの順に登録した辞書元リストを作成する(ステップ352)。
そして、辞書元リストを、楽曲IDの順にn個の楽曲毎に分割した分割辞書元リストを作成し、作成した各分割辞書元リストに、登録されている楽曲IDの範囲が小さい順に、1から1ずつ増加する分割番号を与える(ステップ354)。すなわち、先頭に登録されている楽曲IDがt番目に大きい分割辞書元リストには、分割番号としてtを与える。
そして、各分割辞書元リストの各々について、音声認識辞書を作成し、HDD記録楽曲情報に格納する(ステップ356)。また、分割番号がtの分割辞書元リストから作成した音声認識辞書には、
t-1+floor((p+n-1)/n)を辞書IDとして付与する。
ここで、分割辞書元リストからの音声認識辞書の作成は、分割辞書元リストに基づく音声認識辞書の作成を音声合成エンジン8に要求することにより行う。音声合成エンジン8は、分割辞書元リストに基づく音声認識辞書の作成を要求されたならば、分割辞書元リスト中の各曲名を、HDD5に格納されているヨミ変換ルールに従って生成した当該曲名の発音を表すヨミデータに置き換えた音声認識辞書を作成し、HDD5に格納する。
ここで、このようなHDD記録楽曲用楽曲DB作成処理と、HDD記録楽曲用音声認識辞書作成処理の処理例を示す。
いま、一つの音声認識辞書が対応する楽曲数nが5であるとして、図4の401に示すように、HDD記録楽曲情報の楽曲DBに1から12の楽曲IDが付与された12個の楽曲のエントリが存在し、楽曲IDが1から5の楽曲の曲名のヨミデータが楽曲IDと対応づけて登録された辞書ID1の音声認識辞書と、楽曲IDが6から10の楽曲の曲名のヨミデータが楽曲IDと対応づけて登録された辞書ID2の音声認識辞書と、楽曲IDが11から12の楽曲の曲名のヨミデータが楽曲IDと対応づけて登録された辞書ID3の音声認識辞書とがHDD記録楽曲情報に含まれているものとする。
そして、この状態において、7つの楽曲のオーディオファイルがリッピング処理部12によって、新たにHDD5に記録されたものとする。
この場合、まず、HDD記録楽曲用楽曲DB作成処理によって、楽曲DBに登録されている最終楽曲の楽曲IDは12であるので、m=12として、
k=floor((m-1)/n))、p=1+n+(k×n)により、
p=16が求められ(ステップ304、306)、矢印402によって示すように、楽曲DBに楽曲IDが16から22の7つのエントリが新たに作成され、各エントリに新たにHDD5に記録された7個のオーディオファイルの属性情報とオーディオファイルの識別子とが各々登録される(ステップ308)。
そして、次に、HDD記録楽曲用音声認識辞書作成処理によって、矢印403に示すようにHDD記録楽曲情報の楽曲DBの、楽曲IDが16以降の各エントリから抽出した楽曲IDと曲名との組を、楽曲IDの順に登録した辞書元リストが作成される(ステップ352)。
そして、矢印404に示すように、辞書元リストが、楽曲IDの順に5個の楽曲毎に分割され、楽曲IDが16から20の曲名が登録された分割番号1の分割辞書元リストと、楽曲IDが21から22の曲名が登録された分割番号2の分割辞書元リストが作成される(ステップ354)。
そして、矢印405に示すように分割番号1の分割辞書元リストから、楽曲IDが16から20の曲名のヨミデータが楽曲IDと対応づけて登録された音声認識辞書が作成され、分割番号2の分割辞書元リストから、楽曲IDが21から22の曲名のヨミデータが楽曲IDと対応づけて登録された音声認識辞書が作成される(ステップ356)。
ここで、p=16であるので、分割番号tが1の分割辞書元リストから作成された音声認識辞書には、t-1+floor((p+n-1)/n)に従って、辞書IDとして4が付与され、分割番号tが2の分割辞書元リストから作成された音声認識辞書には、t-1+floor((p+n-1)/n)に従って、辞書IDとして5が付与される。
結果、リッピング処理によって新たに記録されたオーディオファイルの楽曲5曲毎に、当該楽曲の曲名の音声認識辞書が、既存の音声認識辞書に引き続く辞書IDが付与された形態で、HDD記録楽曲情報に追加されたことになる。
次に、接続デバイス記録楽曲情報の作成の動作について説明する。
楽曲管理部13は、図5aに示す接続デバイス記録楽曲用楽曲DB作成処理において、ポータブルオーディオプレイヤインタフェース7へのポータブルオーディオプレイヤ21の接続を監視し(ステップ502)、ポータブルオーディオプレイヤ21の接続が発生したならば、接続されたポータブルオーディオプレイヤ21が前回接続を検出したポータブルオーディオプレイヤ21と同じポータブルオーディオプレイヤ21であるかどうかをポータブルオーディオプレイヤ21の識別情報に基づいて調べ(ステップ504)、前回接続を検出したポータブルオーディオプレイヤ21と同じでなければステップ508に進む。
一方、接続されたポータブルオーディオプレイヤ21が前回接続を検出したポータブルオーディオプレイヤ21と同じプレイヤであれば、ポータブルオーディオプレイヤ21に記録されているオーディオファイルが前回の接続時以降に変更されているかどうかを調べ(ステップ506)、変更されていなければステップ502に戻り、変更されていればステップ508に進む。
ここで、ポータブルオーディオプレイヤ21に記録されているオーディオファイルが前回の接続時以降に変更されているかどうかは、ポータブルオーディオプレイヤ21に楽曲管理情報の転送を要求することにより、ポータブルオーディオプレイヤ21から楽曲管理情報を取得し、取得した楽曲管理情報と接続デバイス記録楽曲情報の楽曲DBとの一致性を比較することにより行ってもよい。また、ポータブルオーディオプレイヤ21からポータブルオーディオプレイヤ21に記録されているオーディオファイルが最後に更新された日時の情報を取得できる場合には、この最後に更新された日時と、前回ポータブルオーディオプレイヤがオーディオ再生装置のポータブルオーディオプレイヤインタフェース7に接続された日時との比較により、ポータブルオーディオプレイヤ21に記録されているオーディオファイルが前回の接続時以降に変更されているかどうかを判定するようにしてもよい。
そして、ステップ504またはステップ506からステップ508に進んだ場合には、接続デバイス記録楽曲情報の楽曲DBを消去する。
そして、ポータブルオーディオプレイヤ21から楽曲管理情報を取得し、当該楽曲管理情報が属性情報とオーディオファイルの識別子を表す各楽曲に対応するエントリを備えた、新たな楽曲DBを、接続デバイス記録楽曲情報に格納する(ステップ512)。ここで、新たに作成した楽曲DBの各エントリには、1から1ずつ増加する楽曲IDを登録すると共に、対応する楽曲の属性情報が表す曲名やアーティスト名やアルバム名やジャンル名と、オーディオファイルの識別子を登録する。すなわち、接続デバイス記録楽曲情報の楽曲DBに新たに作成したr番目のエントリには、rの楽曲IDと、ポータブルオーディオプレイヤ21から取得した楽曲管理情報が示す、ポータブルオーディオプレイヤ21に記録されている楽曲のうちのr番目の楽曲の属性情報とオーディオファイルの識別子とを登録する。
そして、音声認識辞書編集部11に、接続デバイス記録楽曲情報の音声認識辞書作成を要求する。
次に、接続デバイス記録楽曲情報の音声認識辞書作成を要求された、音声認識辞書編集部11は、図5bに示す接続デバイス記録楽曲用音声認識辞書作成処理を開始し、まず、接続デバイス記録楽曲情報の音声認識辞書を全て消去する(ステップ552)。
そして、接続デバイス記録楽曲情報の楽曲DBの各エントリから抽出した楽曲IDと曲名との組を、楽曲IDの順に登録した辞書元リストを作成する(ステップ554)。
そして、辞書元リストを、楽曲IDの順にn個の楽曲毎に分割した分割辞書元リストを作成し、作成した各分割辞書元リストに、先頭に登録されている楽曲IDの小さい順に、1から1ずつ増加する分割番号を与える(ステップ556)。すなわち、先頭に登録されている楽曲IDがt番目に大きい分割辞書元リストには、分割番号としてtを与える。
そして、各分割辞書元リストの各々について、音声認識辞書を作成し、HDD記録楽曲情報に格納する(ステップ558)。また、分割番号がtの分割辞書元リストから作成した音声認識辞書には、tを辞書IDとして付与する。
ここで、分割辞書元リストからの音声認識辞書の作成は、上述のように、分割辞書元リストに基づく音声認識辞書の作成を音声合成エンジン8に要求することにより行う。音声合成エンジン8は、分割辞書元リストに基づく音声認識辞書の作成を要求されたならば、分割辞書元リスト中の各曲名を、HDD5に格納されているヨミ変換ルールに従って生成した当該曲名の発音を表すヨミデータに置き換えた音声認識辞書を作成し、HDD5に格納する。
ここで、このような接続デバイス記録楽曲用楽曲DB作成処理と、接続デバイス記録楽曲用音声認識辞書作成処理の処理例を示す。
いま、一つの音声認識辞書が対応する楽曲数nが5であるとして、図6に示すように、12個のオーディオファイルが記録されているポータブルオーディオプレイヤ21がオーディオ再生装置に接続され、当該ポータブルオーディオプレイヤ21は前回オーディオ再生装置に接続されたポータブルオーディオプレイヤ21と異なるか、前回の接続時以降に、記録されているオーディオファイルが更新されたポータブルオーディオプレイヤ21であるものとする。
この場合、まず、HDD記録楽曲用楽曲DB作成処理によって、既存の楽曲DBが消去された後に、矢印601によって示すように、楽曲IDが1から12のエントリを有する楽曲DBが新たに作成され、各エントリに新たにポータブルオーディオプレイヤ21に記録されている12個のオーディオファイルの属性情報とオーディオファイルの識別子とが各々登録される(ステップ510)。
そして、次に、接続デバイス記録楽曲用音声認識辞書作成処理によって、既存の音声認識辞書が消去された後に、矢印602に示すように接続デバイス記録楽曲情報の楽曲DBの各エントリから抽出した楽曲IDと曲名との組を、楽曲IDの順に登録した辞書元リストが作成される(ステップ554)。
そして、矢印603に示すように、辞書元リストが、楽曲IDの順に5個の楽曲毎に分割され、楽曲IDが1から5の曲名が登録された分割番号1の分割辞書元リストと、楽曲IDが6から10の曲名が登録された分割番号2の分割辞書元リストと、楽曲IDが11から12の曲名が登録された分割番号3の分割辞書元リストが作成される(ステップ556)。
そして、矢印604に示すように分割番号1の分割辞書元リストから、楽曲IDが1から5の曲名のヨミデータが楽曲IDと対応づけて登録された、辞書IDが1の音声認識辞書が作成され、分割番号2の分割辞書元リストから、楽曲IDが6から10の曲名のヨミデータが楽曲IDと対応づけて登録された、辞書IDが2の音声認識辞書が作成され、分割番号3の分割辞書元リストから、楽曲IDが11から12の曲名のヨミデータが楽曲IDと対応づけて登録された、辞書IDが3の音声認識辞書が作成される(ステップ558)。
結果、ポータブルオーディオプレイヤ21に記録されているオーディオファイルの楽曲5曲毎に、当該楽曲の曲名の音声認識辞書が、1からの連番の辞書IDが付与された形態で、接続デバイス記録楽曲情報に作成されたことになる。
以上、HDD記録楽曲情報と接続デバイス記録楽曲情報の作成の動作について説明した。
次に、再生制御部14が行う再生制御処理について説明する。
再生制御部14は、入力装置3を介してユーザからHDD記録楽曲の再生を指示されると、HDD再生モードを設定し、ユーザの操作に応じてHDD5に記録されているオーディオファイルの再生を制御する。ここで、オーディオファイルの再生は、再生するオーディオファイルを再生対象オーディオファイルとしてオーディオ出力部10に指示することにより行う。オーディオ出力部10は、再生対象オーディオファイルとして指示されたオーディオファイルをHDD5から読み出して復号しスピーカ2に出力する。
また、再生制御部14は、HDD再生モードを設定したならば、HDD記録楽曲情報に含まれる全ての音声認識辞書を使用音声認識辞書として音声認識エンジン9に設定する。そして、音声認識エンジン9は、使用音声認識辞書として設定された各音声認識辞書を用いて、マイクロフォン1から入力する音声の音声認識を行い、入力音声にマッチするヨミデータと対応づけられて、いずれかの使用音声認識辞書に登録されている楽曲IDを再生制御部14に通知する。そして、再生制御部14は、音声認識エンジン9から楽曲IDが通知されたならば、HDD記録楽曲情報の楽曲DBの、通知された楽曲IDが登録されたエントリのファイル識別子が示すオーディオファイルを再生対象オーディオファイルとしてオーディオ出力部10に設定することにより、当該楽曲IDのオーディオファイル、すなわち、ユーザが発話した曲名の楽曲の再生とスピーカ2への出力を行う。
次に、再生制御部14は、ポータブルオーディオプレイヤ21が接続されているときに、入力装置3を介してユーザから接続デバイス記録楽曲の再生を指示されると、接続デバイス再生モードを設定し、ユーザの操作に応じてポータブルオーディオプレイヤ21に記録されているオーディオファイルの再生を制御する。ここで、ポータブルオーディオプレイヤ21の再生は、再生するオーディオファイルの識別子を指定した再生要求をポータブルオーディオプレイヤ21に発行して、ポータブルオーディオプレイヤ21に、当該オーディオファイルの再生と、再生した信号/データの出力をおこなわせると共に、オーディオ出力部10にポータブルオーディオプレイヤ21から出力された信号/データの表す音声をスピーカ2に出力させることにより行う。
また、再生制御部14は、接続デバイス再生モードを設定したならば、接続デバイス記録楽曲情報に含まれる全ての音声認識辞書を使用音声認識辞書として音声認識エンジン9に設定する。そして、音声認識エンジン9は、使用音声認識辞書として設定された各音声認識辞書を用いて、マイクロフォン1から入力する音声の音声認識を行い、入力音声にマッチするヨミデータと対応づけられて、いずれかの使用音声認識辞書に登録されている楽曲IDを再生制御部14に通知する。そして、再生制御部14は、音声認識エンジン9から楽曲IDが通知されたならば、接続デバイス記録楽曲情報の楽曲DBの、通知された楽曲IDが登録されたエントリのファイル識別子が示すオーディオファイルを再生するオーディオファイルとし、再生するオーディオファイルの識別子を指定した再生要求をポータブルオーディオプレイヤ21に発行することにより、当該楽曲IDのオーディオファイル、すなわち、ユーザが発話した曲名の楽曲の再生とスピーカ2への出力を行う。
次に、オーディオ再生装置において行う音声認識辞書の編集動作について説明する。
音声認識辞書編集部11は、入力装置3を介してユーザから音声認識辞書の編集要求を受け付けると、図7aに示す音声認識辞書編集処理を実行する。
図示するように、この音声認識辞書編集処理では、まず、ヨミデータを修正する曲名の指定と、当該曲名の新たなヨミデータの入力を受け付けて、指定された曲名に対するヨミデータとして、入力されたヨミデータが優先的に用いられるように、HDD5のヨミ変換ルールを修正する(ステップ702)。
ここで、このステップ702は、たとえば、次のように行う。
すなわち、音声認識辞書編集部11は、図8aに示すようなヨミ変更曲名選択ウインドウを表示装置4に表示する。図示するように、ヨミ変更曲名選択ウインドウには、HDD記録楽曲情報の楽曲DBと接続デバイス記録楽曲情報の楽曲DBのいずれかに登録されている曲名の一覧801を表示し、一覧801上で曲名の選択を受け付ける。そして、「ヨミ変更」ボタン802が操作されたならば、図8bに示すようなヨミ変更ウインドウを表示し、ヨミ変更曲名選択ウインドウの一覧801上で選択された曲名を表示811すると共に、入力ボックス812への当該曲名の新たな発音を指定するヨミデータの入力を受け付ける。そして、ヨミ変更ウインドウの「確認ボタン」813が操作されたならば、入力ボックス812に入力されているヨミデータを伴う音声出力を音声合成エンジン8に指示する。音声合成エンジン8は、音声出力を指示されたならば、当該指示に伴うヨミデータが表す合成音声を生成し、オーディオ出力部10を介してスピーカ2に出力する。
また、ヨミ変更ウインドウの「変更」ボタン814が操作されたならば、音声認識辞書編集部11は、ヨミ変更曲名選択ウインドウの一覧701上で選択された曲名に対するヨミデータを、入力ボックス812に入力されているヨミデータに変更する。すなわち、ヨミ変更曲名選択ウインドウの一覧701上で選択された曲名に対するヨミデータとして、入力ボックス812に入力されているヨミデータが優先的に用いられるように、HDD5のヨミ変換ルールを修正する。
さて、図7aに戻り、このようにしてヨミ変換ルールを修正したならば、HDD記録楽曲情報を対象楽曲情報として(ステップ704)、音声認識辞書修正処理を実行する(ステップ706)。そして、次に、接続デバイス記録楽曲情報を対象楽曲情報として(ステップ708)、音声認識辞書修正処理を実行する(ステップ710)。
図7bに、ステップ706、710で行う音声認識辞書修正処理の手順を示す。
図示するように、この音声認識辞書修正処理では、まず、対象楽曲情報の楽曲DBのエントリのうちの、音声認識辞書編集処理のステップ702でヨミデータが変更された曲名と同じ曲名が登録されているエントリに登録されている楽曲IDを全て抽出する(ステップ752)。
そして、抽出した各楽曲IDの各々について(ステップ754、762、764)、ステップ756-760の処理を行う。
ここで、ステップ756-760では、抽出した楽曲IDの値をqとして(ステップ756)、辞書IDがfloor((q+n-1)/n)の音声認識辞書を、当該音声認識辞書として既に設定されていない場合には(ステップ758)、再作成音声認識辞書に設定する(ステップ760)処理を行う。
次に、以上のようにしてステップ752で抽出した各楽曲IDについてステップ756-760の処理を終了したならば、ステップ760で、再作成対象辞書とした音声認識辞書の各々について(ステップ766、776、778)、ステップ768-774の処理を行う。
ここで、ステップ768-774では、再作成対象辞書とした音声認識辞書の辞書IDをgとして、対象楽曲情報の辞書IDがgの音声認識辞書を消去する(ステップ770)。そして、対象楽曲情報の楽曲DBの、1-n+(g×n)からg×nまでの楽曲IDが登録されている各エントリの楽曲IDと曲名を登録した辞書元リストを作成し(ステップ772)、作成した辞書元リストから辞書IDがgの音声認識辞書を作成し、対象楽曲情報に格納する(ステップ774)。ここで、辞書元リストからの音声認識辞書の作成は、辞書元リストに基づく音声認識辞書の作成を音声合成エンジン8に要求することにより行う。音声合成エンジン8は、辞書元リストに基づく音声認識辞書の作成を要求されたならば、辞書元リスト中の各曲名を、HDD5に格納されているヨミ変換ルールに従って生成した当該曲名の発音を表すヨミデータに置き換えた音声認識辞書を作成し、HDD5の対象楽曲情報に格納する。
ここで、以上のような音声認識辞書編集処理の処理例を示す。
いま、一つの音声認識辞書が対応する楽曲数nが5であるとして、図9aの901に示すように、HDD記録楽曲情報の楽曲DBに1から12の楽曲IDが付与された12個の楽曲のエントリが存在し、楽曲IDが1から5の楽曲の曲名のヨミデータが楽曲IDと対応づけて登録された辞書ID1の音声認識辞書と、楽曲IDが6から10の楽曲の曲名のヨミデータが楽曲IDと対応づけて登録された辞書ID2の音声認識辞書と、楽曲IDが11から12の楽曲の曲名のヨミデータが楽曲IDと対応づけて登録された辞書ID3の音声認識辞書とがHDD記録楽曲情報に含まれているものとする。
そして、このときに、ユーザによって、曲名「sade」のヨミデータが、「seydo」から「shaaday」に変更されたものとする。
すると、ヨミ変換ルールは、「sade」のヨミデータとして「shaaday」を優先して用いるように修正される(ステップ702)。
そして、楽曲DBの曲名「sade」が登録されているエントリの楽曲IDとして、2と11が抽出される(ステップ752)。また、抽出した楽曲IDの2に対して2をqとしてfloor((q+n-1)/n)により辞書IDが1の音声認識辞書が再作成音声認識辞書に設定され、抽出した楽曲IDの11に対して11をqとしてfloor((q+n-1)/n)により辞書IDが3の音声認識辞書が再作成音声認識辞書に設定される(ステップ760)。
そして、再作成音声認識辞書に設定された辞書IDが1と3の音声認識辞書が消去される(ステップ770)。
そして、次に、再作成音声認識辞書の辞書IDの1をgとして、楽曲DBの1-n+(g×n)=1からg×n=5までのエントリの楽曲IDと曲名を登録した辞書元リストが矢印902に示すように作成され(ステップ772)、この辞書元リストから、矢印904に示すように、辞書IDが1の新たな音声認識辞書が作成される(ステップ774)。このとき、この新たな認識辞書は、ステップ702で修正された後のヨミ変換ルールに従ってヨミデータが作成されるので、曲名の「sade」の楽曲IDの2に対するヨミデータとしては「shaaday」が登録されたものとなる。
また、もう一つの再作成音声認識辞書の辞書IDの3についても同様に処理が行われ、辞書IDの3をgとして、楽曲DBの1-n+(g×n)=11からg×n=15までのエントリの楽曲IDと曲名を登録した辞書元リストが矢印903に示すように作成され、この辞書元リストから、矢印905に示すように、辞書IDが3の新たな音声認識辞書が作成される。また、このとき、この新たな認識辞書は、ステップ702で修正された後のヨミ変換ルールに従ってヨミデータが作成されるので、曲名の「sade」の楽曲IDの11に対するヨミデータとしては「shaaday」が登録されたものとなる。
結果、HDD記録楽曲情報の音声認識辞書のうちの、「sade」の曲名の楽曲の楽曲IDを含む音声認識辞書のみを更新することにより、各音声認識辞書中の「sade」のヨミデータの全てが「shaaday」に修正されたことになる。
なお、図9では、HDD記録楽曲情報の音声認識辞書を編集する場合について示したが、接続デバイス記録楽曲情報の音声認識の辞書修正も同様に行われ、接続デバイス記録楽曲情報の音声認識辞書のうちの「sade」の曲名の楽曲の楽曲IDを含む音声認識辞書のみを更新することにより、全ての「sade」のヨミデータが「shaaday」に修正されることになる。
以上、本発明の実施形態について説明した。
ところで、以上の実施形態では、音声認識辞書編集処理のステップ702で特定の曲名のヨミデータの変更を受け付け、音声認識辞書修正処理で、各記録楽曲情報の楽曲DBのエントリのうちの、音声認識辞書編集処理のステップ702でヨミデータが変更された曲名と同じ曲名が登録されているエントリに登録されている楽曲IDを全て抽出し(ステップ752)、抽出した楽曲IDが登録されている音声認識辞書を新たに作成した音声認識辞書に置き換える(ステップ756-760)処理を行ったが、このような処理に代えて以下の処理を行うようにしてもよい。
すなわち、音声認識処理のステップ702で特定の記録楽曲情報の特定の楽曲IDの楽曲の曲名のヨミデータの変更を受け付け、音声認識辞書修正処理では、当該特定の記録楽曲情報の、当該特定の楽曲IDが登録されている音声認識辞書のみを新たに作成した音声認識辞書に置き換えるようにしてもよい。
また、以上の実施形態においては、ユーザからHDD記録楽曲情報の特定の楽曲IDの楽曲の消去を受け付け、消去を受け付けた楽曲IDの楽曲のオーディオファイルをHDD5から消去すると共に、HDD記録楽曲情報の楽曲DBから当該特定の楽曲IDのエントリを消去するようにしてもよい。また、この場合には、当該特定の楽曲IDのエントリを有する音声認識辞書を、当該特定の楽曲IDのエントリを消去後の楽曲DBに基づいて作成した音声認識辞書に置き換えるようにする。すなわち、消去した楽曲の楽曲IDが、qであれば、楽曲DBから楽曲IDがqのエントリを消去し、g=floor((q+n-1)/n)の音声認識辞書を消去し 楽曲情報の楽曲DBの、1-n+(g×n)からg×nまでの楽曲IDが登録されている各エントリの楽曲IDと曲名を登録した辞書元リストを作成し、作成した辞書元リストから辞書IDがgの音声認識辞書を作成し、HDD記録楽曲情報に格納する。
また、以上の実施形態は、楽曲の曲名を音声認識する場合について説明したが、本実施形態における音声認識辞書の作成や編集/修正の技術は、楽曲のアーティスト名、アルバム名、ジャンル名、または、その他の任意のテキストの音声認識辞書の作成や編集/修正を行う場合についても同様に適用することができる。
1…マイクロフォン、2…スピーカ、3…入力装置、4…表示装置、5…HDD、6…CDドライブ、7…ポータブルオーディオプレイヤインタフェース、8…音声合成エンジン、9…音声認識エンジン、10…オーディオ出力部、11…音声認識辞書編集部、12…リッピング処理部、13…楽曲管理部、14…再生制御部、20…CD-DAディスク、21…ポータブルオーディオプレイヤ。

Claims (20)

  1. テキストと当該テキストの発音を表す発音データとの対応を表す音声認識データを、認識対象とする各テキストについて格納した、人間が発声した音声が表すテキストを認識する音声認識装置に用いられる音声認識辞書を編集する音声認識辞書編集装置であって、
    前記音声認識辞書を記憶する音声認識辞書記憶部と、
    テキストからの発音データの生成法を規定したヨミ変換ルールを記憶したヨミ変換ルール記憶部と、
    前記認識対象とする各テキストをn(但し、nは1以上の整数)個のテキスト毎のグループにグループ分けし、各グループについて、当該グループ内の各テキストと当該テキストの前記ヨミ変換ルールに従って生成した発音データとの対応を表す音声認識データを格納した前記音声認識辞書を、当該グループの音声認識辞書として作成し、前記音声認識辞書記憶部に格納する音声認識辞書生成部と、
    ユーザによって指定されたテキストである指定テキストについての発音データの生成法がユーザから指定された生成法となるように、前記ヨミ変換ルールを修正するヨミ変換ルール修正部と、
    前記指定テキストが含まれる前記グループを修正対象グループとして、当該修正対象グループの音声認識辞書を前記音声認識辞書記憶部から削除すると共に、当該修正対象グループ内の各テキストと当該テキストの前記ヨミ変換ルール修正部による修正後のヨミ変換ルールに従って生成した発音データとの対応を表す音声認識データを格納した前記音声認識辞書を、当該グループの新たな音声認識辞書として作成し、前記音声認識辞書記憶部に格納する音声認識辞書修正部とを有することを特徴とする音声認識辞書編集装置。
  2. 請求項1記載の音声認識辞書編集装置であって、
    前記音声認識辞書修正部は、前記指定テキストと同じテキストが含まれる各グループの各々を前記修正対象グループとし、各修正対象グループについて、当該修正対象グループの音声認識辞書を前記音声認識辞書記憶部から削除すると共に、当該修正対象グループ内の各テキストと当該テキストの前記ヨミ変換ルール修正部による修正後のヨミ変換ルールに従って生成した発音データとの対応を表す音声認識データを格納した前記音声認識辞書を、当該グループの新たな音声認識辞書として作成し、前記音声認識辞書記憶部に格納することを特徴とする音声認識辞書編集装置。
  3. 請求項1記載の音声認識辞書編集装置であって、
    前記認識対象とするテキストが追加されたときに、追加された認識対象とする各テキストをn個のテキスト毎のグループにグループ分けし、各グループについて、当該グループ内の各テキストと当該テキストの前記ヨミ変換ルールに従って生成した発音データとの対応を表す音声認識データを格納した前記音声認識辞書を、当該グループの音声認識辞書として作成し、前記音声認識辞書記憶部に追加格納する音声認識辞書追加部を有することを特徴とする音声認識辞書編集装置。
  4. 請求項1記載の音声認識辞書編集装置であって、
    前記音声認識辞書修正部は、テキストの前記認識対象とするテキストからの除外が発生したときに、当該除外されたテキストが含まれる前記グループを修正対象グループとして、当該修正対象グループの音声認識辞書を前記音声認識辞書記憶部から削除すると共に、当該修正対象グループから当該除外されたテキストを除いた上で、当該修正対象グループの各テキストと当該テキストの前記ヨミ変換ルールに従って生成した発音データとの対応を表す音声認識データを格納した前記音声認識辞書を、当該グループの新たな音声認識辞書として作成し、前記音声認識辞書記憶部に格納することを特徴とする音声認識辞書編集装置。
  5. 請求項1記載の音声認識辞書編集装置と、
    前記音声認識辞書記憶部に格納されている前記各グループの音声認識辞書を用いて、人間が発声した音声が表すテキストを認識する音声認識部とを有することを特徴とする音声認識装置。
  6. 請求項3記載の音声認識辞書編集装置と、
    前記音声認識辞書記憶部に格納されている前記各グループの音声認識辞書を用いて、人間が発声した音声が表すテキストを認識する音声認識部とを有することを特徴とする音声認識装置。
  7. 請求項4記載の音声認識辞書編集装置と、
    前記音声認識辞書記憶部に格納されている前記各グループの音声認識辞書を用いて、人間が発声した音声が表すテキストを認識する音声認識部とを有することを特徴とする音声認識装置。
  8. 請求項1記載の音声認識辞書編集装置であって、
    前記認識対象とするテキストは、楽曲の曲名、アーティスト名、アルバム名、ジャンル名のいずれかであることを特徴とする音声認識装置。
  9. 請求項5記載の音声認識装置と、楽曲を表す楽曲データを記憶した楽曲データ記憶部と、前記楽曲データ記憶部に記憶されている前記楽曲データを再生する楽曲再生部とを有し、
    前記認識対象とするテキストは、前記楽曲データ記憶部に記憶されている楽曲データが表す楽曲の曲名であって、
    前記楽曲再生部は、前記音声認識部が認識した曲名の楽曲の楽曲データを再生することを特徴とするオーディオ再生装置。
  10. コンピュータによって読みとられ実行されるコンピュータプログラムであって、
    前記コンピュータプログラムは、前記コンピュータを、
    テキストと当該テキストの発音を表す発音データとの対応を表す音声認識データを、認識対象とする各テキストについて格納した、人間が発声した音声が表すテキストを認識する音声認識に用いられる前記音声認識辞書を記憶する音声認識辞書記憶部と、
    テキストからの発音データの生成法を規定したヨミ変換ルールを記憶したヨミ変換ルール記憶部と、
    前記認識対象とする各テキストをn(但し、nは1以上の整数)個のテキスト毎のグループにグループ分けし、各グループについて、当該グループ内の各テキストと当該テキストの前記ヨミ変換ルールに従って生成した発音データとの対応を表す音声認識データを格納した前記音声認識辞書を、当該グループの音声認識辞書として作成し、前記音声認識辞書記憶部に格納する音声認識辞書生成部と、
    ユーザによって指定されたテキストである指定テキストについての発音データの生成法がユーザから指定された生成法となるように、前記ヨミ変換ルールを修正するヨミ変換ルール修正部と、
    前記指定テキストが含まれる前記グループを修正対象グループとして、当該修正対象グループの音声認識辞書を前記音声認識辞書記憶部から削除すると共に、当該修正対象グループ内の各テキストと当該テキストの前記ヨミ変換ルール修正部による修正後のヨミ変換ルールに従って生成した発音データとの対応を表す音声認識データを格納した前記音声認識辞書を、当該グループの新たな音声認識辞書として作成し、前記音声認識辞書記憶部に格納する音声認識辞書修正部として機能させることを特徴とするコンピュータプログラム。
  11. 請求項10記載のコンピュータプログラムであって、
    前記音声認識辞書修正部は、前記指定テキストと同じテキストが含まれる各グループの各々を前記修正対象グループとし、各修正対象グループについて、当該修正対象グループの音声認識辞書を前記音声認識辞書記憶部から削除すると共に、当該修正対象グループ内の各テキストと当該テキストの前記ヨミ変換ルール修正部による修正後のヨミ変換ルールに従って生成した発音データとの対応を表す音声認識データを格納した前記音声認識辞書を、当該グループの新たな音声認識辞書として作成し、前記音声認識辞書記憶部に格納することを特徴とするコンピュータプログラム。
  12. 請求項10記載のコンピュータプログラムであって、
    前記コンピュータをさらに、
    前記認識対象とするテキストが追加されたときに、追加された認識対象とする各テキストをn個のテキスト毎のグループにグループ分けし、各グループについて、当該グループ内の各テキストと当該テキストの前記ヨミ変換ルールに従って生成した発音データとの対応を表す音声認識データを格納した前記音声認識辞書を、当該グループの音声認識辞書として作成し、前記音声認識辞書記憶部に追加格納する音声認識辞書追加部として機能させることを特徴とするコンピュータプログラム。
  13. 請求項10記載のコンピュータプログラムであって、
    前記音声認識辞書修正部は、テキストの前記認識対象とするテキストからの除外が発生したときに、当該除外されたテキストが含まれる前記グループを修正対象グループとして、当該修正対象グループの音声認識辞書を前記音声認識辞書記憶部から削除すると共に、当該修正対象グループから当該除外されたテキストを除いた上で、当該修正対象グループの各テキストと当該テキストの前記ヨミ変換ルールに従って生成した発音データとの対応を表す音声認識データを格納した前記音声認識辞書を、当該グループの新たな音声認識辞書として作成し、前記音声認識辞書記憶部に格納することを特徴とするコンピュータプログラム。
  14. 請求項10記載のコンピュータプログラムであって、
    当該コンピュータプログラムは、前記コンピュータを、さらに、前記音声認識辞書記憶部に格納されている前記各グループの音声認識辞書を用いて、人間が発声した音声が表すテキストを認識する音声認識部として機能させることを特徴とするコンピュータプログラム。
  15. 請求項14記載のコンピュータプログラムであって、
    前記認識対象とするテキストは、楽曲の曲名、アーティスト名、アルバム名、ジャンル名のいずれかであることを特徴とする音声認識装置。
  16. 請求項14記載のコンピュータプログラムであって、
    前記コンピュータをさらに、楽曲を表す楽曲データを記憶した楽曲データ記憶部に記憶されている前記楽曲データを再生する楽曲再生部として機能させ、
    前記認識対象とするテキストは、前記楽曲データ記憶部に記憶されている楽曲データが表す楽曲の曲名であって、
    前記楽曲再生部は、前記音声認識部が認識した曲名の楽曲の楽曲データを再生することを特徴とするコンピュータプログラム。
  17. テキストと当該テキストの発音を表す発音データとの対応を表す音声認識データを、認識対象とする各テキストについて格納した、人間が発声した音声が表すテキストを認識する音声認識装置に用いられる音声認識辞書を編集する音声認識辞書編集方法であって、
    前記認識対象とする各テキストをn(但し、nは1以上の整数)個のテキスト毎のグループにグループ分けし、各グループについて、当該グループ内の各テキストと当該テキストの、テキストからの発音データの生成法を規定したヨミ変換ルールに従って生成した発音データとの対応を表す音声認識データを格納した前記音声認識辞書を、当該グループの音声認識辞書として作成し記憶する音声認識辞書生成ステップと、
    ユーザによって指定されたテキストである指定テキストについての発音データの生成法がユーザから指定された生成法となるように、前記ヨミ変換ルールを修正するヨミ変換ルール修正ステップと、
    前記指定テキストが含まれる前記グループを修正対象グループとして、当該修正対象グループの音声認識辞書を削除すると共に、当該修正対象グループ内の各テキストと当該テキストの前記修正後のヨミ変換ルールに従って生成した発音データとの対応を表す音声認識データを格納した前記音声認識辞書を、当該グループの新たな音声認識辞書として作成し記憶する音声認識辞書修正ステップとを有することを特徴とする音声認識辞書編集方法。
  18. 請求項17記載の音声認識辞書編集方法であって、
    前記音声認識辞書修正ステップにおいて、前記指定テキストと同じテキストが含まれる各グループの各々を前記修正対象グループとし、各修正対象グループについて、当該修正対象グループの音声認識辞書を削除すると共に、当該修正対象グループ内の各テキストと当該テキストの前記修正後のヨミ変換ルールに従って生成した発音データとの対応を表す音声認識データを格納した前記音声認識辞書を、当該グループの新たな音声認識辞書として作成し記憶することを特徴とする音声認識辞書編集方法。
  19. 請求項17記載の音声認識辞書編集方法であって、
    前記認識対象とするテキストが追加されたときに、追加された認識対象とする各テキストをn個のテキスト毎のグループにグループ分けし、各グループについて、当該グループ内の各テキストと当該テキストの前記ヨミ変換ルールに従って生成した発音データとの対応を表す音声認識データを格納した前記音声認識辞書を、当該グループの音声認識辞書として作成し記憶する音声認識辞書追加ステップを有することを特徴とする音声認識辞書編集方法。
  20. 請求項17記載の音声認識辞書編集方法であって、
    前記音声認識辞書修正ステップにおいて、テキストの前記認識対象とするテキストからの除外が発生したときに、当該除外されたテキストが含まれる前記グループを修正対象グループとして、当該修正対象グループの音声認識辞書を削除すると共に、当該修正対象グループから当該除外されたテキストを除いた上で、当該修正対象グループの各テキストと当該テキストの前記ヨミ変換ルールに従って生成した発音データとの対応を表す音声認識データを格納した前記音声認識辞書を、当該グループの新たな音声認識辞書として作成し記憶することを特徴とする音声認識辞書編集方法。
JP2009090143A 2009-04-02 2009-04-02 音声認識辞書編集装置及び音声認識装置 Expired - Fee Related JP5426913B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009090143A JP5426913B2 (ja) 2009-04-02 2009-04-02 音声認識辞書編集装置及び音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009090143A JP5426913B2 (ja) 2009-04-02 2009-04-02 音声認識辞書編集装置及び音声認識装置

Publications (2)

Publication Number Publication Date
JP2010243653A true JP2010243653A (ja) 2010-10-28
JP5426913B2 JP5426913B2 (ja) 2014-02-26

Family

ID=43096753

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009090143A Expired - Fee Related JP5426913B2 (ja) 2009-04-02 2009-04-02 音声認識辞書編集装置及び音声認識装置

Country Status (1)

Country Link
JP (1) JP5426913B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014130180A (ja) * 2012-12-28 2014-07-10 Alpine Electronics Inc オーディオ装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08272789A (ja) * 1995-03-30 1996-10-18 Mitsubishi Electric Corp 言語情報変換装置
JPH1124685A (ja) * 1997-07-02 1999-01-29 Ricoh Co Ltd カラオケ装置
JP2001126458A (ja) * 1999-10-26 2001-05-11 Sony Corp 電子機器
WO2008072413A1 (ja) * 2006-12-15 2008-06-19 Mitsubishi Electric Corporation 音声認識装置
JP2008197356A (ja) * 2007-02-13 2008-08-28 Denso Corp 音声認識装置および音声認識方法
JP2008268571A (ja) * 2007-04-20 2008-11-06 Xanavi Informatics Corp 音声認識装置、その音声認識方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08272789A (ja) * 1995-03-30 1996-10-18 Mitsubishi Electric Corp 言語情報変換装置
JPH1124685A (ja) * 1997-07-02 1999-01-29 Ricoh Co Ltd カラオケ装置
JP2001126458A (ja) * 1999-10-26 2001-05-11 Sony Corp 電子機器
WO2008072413A1 (ja) * 2006-12-15 2008-06-19 Mitsubishi Electric Corporation 音声認識装置
JP2008197356A (ja) * 2007-02-13 2008-08-28 Denso Corp 音声認識装置および音声認識方法
JP2008268571A (ja) * 2007-04-20 2008-11-06 Xanavi Informatics Corp 音声認識装置、その音声認識方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014130180A (ja) * 2012-12-28 2014-07-10 Alpine Electronics Inc オーディオ装置

Also Published As

Publication number Publication date
JP5426913B2 (ja) 2014-02-26

Similar Documents

Publication Publication Date Title
US7684991B2 (en) Digital audio file search method and apparatus using text-to-speech processing
US5402339A (en) Apparatus for making music database and retrieval apparatus for such database
CN1838229B (zh) 重放装置和重放方法
JP2004163590A (ja) 再生装置及びプログラム
JP2005266198A (ja) 音響情報再生装置および音楽データのキーワード作成方法
US7442870B2 (en) Method and apparatus for enabling advanced manipulation of audio
JP2010271562A (ja) 音声認識辞書作成装置及び音声認識辞書作成方法
US20100222905A1 (en) Electronic apparatus with an interactive audio file recording function and method thereof
JP2007025570A (ja) 歌詞文字に基づいて切り貼り編集を行うカラオケ録音編集装置
JP5426913B2 (ja) 音声認識辞書編集装置及び音声認識装置
US20060084047A1 (en) System and method of segmented language learning
US20060248105A1 (en) Interactive system for building and sharing databank
JP6733240B2 (ja) コンテンツの一覧の更新方法
JP4721765B2 (ja) コンテンツ検索装置及びコンテンツ検索方法
KR100383061B1 (ko) 디지털 오디오와 그의 캡션 데이터를 이용한 학습방법
JP2011150169A (ja) 音声認識装置
JP6648586B2 (ja) 楽曲編集装置
JP3294526B2 (ja) カラオケ装置
JP6587459B2 (ja) カラオケイントロにおける曲紹介システム
JP2003015692A (ja) 音声信号記録装置、音声信号再生装置、およびコンピュータ読み取り可能な記憶媒体
JP2011197663A (ja) 電子楽器及びプログラム
JP2001318670A (ja) 編集装置、方法、記録媒体
JP2014093097A (ja) 楽曲再生装置、楽曲再生方法、及び、プログラム
JP4004971B2 (ja) オーディオ再生装置
JP4263151B2 (ja) コンテンツ再生パターン生成装置、コンテンツ再生システム及びコンテンツ再生パターン生成方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120321

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130510

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130920

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20131008

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20131108

TRDD Decision of grant or rejection written
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20131114

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20131126

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20131129

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 5426913

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees