JP2010243653A

JP2010243653A - 音声認識辞書編集装置及び音声認識装置

Info

Publication number: JP2010243653A
Application number: JP2009090143A
Authority: JP
Inventors: Chiharu Takeda; 千春武田
Original assignee: Alpine Electronics Inc
Current assignee: Alpine Electronics Inc
Priority date: 2009-04-02
Filing date: 2009-04-02
Publication date: 2010-10-28
Anticipated expiration: 2029-04-02
Also published as: JP5426913B2

Abstract

【課題】テキストと当該テキストの発音データとを登録した音声認識データを、認識対象とする各テキストについて蓄積した音声認識辞書に登録されている一部の音声認識データの編集を行う機能を備えていない場合においても、効率的に音声認識辞書の音声認識データの編集を行える「音声認識辞書編集装置及び音声認識装置」を提供する。
【解決手段】ｎ個の曲名毎に音声認識辞書を作成する（９０１）。曲名のヨミがユーザによって変更されたならば、当該曲名のヨミ変換ルールを修正する。そして、ヨミが変更された曲名のヨミデータが含まれる各音声認識辞書を、修正後のヨミ変換ルールを用いて再作成する（９０２-９０４）。
【選択図】図９

Description

本発明は、音声認識装置において音声認識に用いる音声認識辞書を編集する技術に関するものである。

音声認識は、テキストと当該テキストの発音データとを登録した音声認識データを、認識対象とする各テキストについて蓄積した音声認識辞書を予め用意し、ユーザの発話した音声にマッチした発音データが登録されている音声認識データに登録されているテキストを、認識テキストとすることにより行われることが一般的である（たとえば、特許文献１）。

また、このような音声認識辞書を作成する技術としては、指定されたテキストのリストに含まれる各テキストについて、テキストツースピーチ(TTS ; Text To Speech)の技術を用いて生成した当該テキストを発声した発音データを当該テキストと共に登録した音声認識データを作成すると共に、各テキストについて作成した音声認識データを格納した音声認識辞書を作成する技術も知られている（たとえば、特許文献２）。

また、このような音声認識辞書を編集する技術としては、ユーザから指定されたテキストの音声認識データに登録された発音データを、ユーザの発話した音声にマッチした発音データに修正する技術も知られている（たとえば、特許文献３）。

特開２００８−１５８５１１号公報特開２００４−５３９７９号公報特開２００７−２４８８８６号公報

さて、音声認識辞書に登録されている一部の音声認識データの編集を行う機能を備えていない場合、ユーザから指定されたテキストの音声認識辞書に登録された発音データの修正等の編集は、音声認識辞書の全体を作り直すことにより行う必要があるために、効率的な音声認識データの編集を行うことができなかった。

そこで、本発明は、テキストと当該テキストの発音データとを登録した音声認識データを、認識対象とする各テキストについて蓄積した音声認識辞書に登録されている一部の音声認識データの編集を行う機能を備えていない場合においても、より効率的に、当該一部の音声認識データの編集を行えるようにすることを課題とする。

前記課題達成のために、本発明は、テキストと当該テキストの発音を表す発音データとの対応を表す音声認識データを、認識対象とする各テキストについて格納した、人間が発声した音声が表すテキストを認識する音声認識装置に用いられる音声認識辞書を編集する音声認識辞書編集装置に、前記音声認識辞書を記憶する音声認識辞書記憶部と、テキストからの発音データの生成法を規定したヨミ変換ルールを記憶したヨミ変換ルール記憶部と、前記認識対象とする各テキストをｎ（但し、ｎは１以上の整数）個のテキスト毎のグループにグループ分けし、各グループについて、当該グループ内の各テキストと当該テキストの前記ヨミ変換ルールに従って生成した発音データとの対応を表す音声認識データを格納した前記音声認識辞書を、当該グループの音声認識辞書として作成し、前記音声認識辞書記憶部に格納する音声認識辞書生成部と、ユーザによって指定されたテキストである指定テキストについての発音データの生成法がユーザから指定された生成法となるように、前記ヨミ変換ルールを修正するヨミ変換ルール修正部と、前記指定テキストが含まれる前記グループを修正対象グループとして、当該修正対象グループの音声認識辞書を前記音声認識辞書記憶部から削除すると共に、当該修正対象グループ内の各テキストと当該テキストの前記ヨミ変換ルール修正部による修正後のヨミ変換ルールに従って生成した発音データとの対応を表す音声認識データを格納した前記音声認識辞書を、当該グループの新たな音声認識辞書として作成し、前記音声認識辞書記憶部に格納する音声認識辞書修正部とを備えたものである。

ここで、このような音声認識辞書編集装置は、前記音声認識辞書修正部において、前記指定テキストと同じテキストが含まれる各グループの各々を前記修正対象グループとし、各修正対象グループについて、当該修正対象グループの音声認識辞書を前記音声認識辞書記憶部から削除すると共に、当該修正対象グループ内の各テキストと当該テキストの前記ヨミ変換ルール修正部による修正後のヨミ変換ルールに従って生成した発音データとの対応を表す音声認識データを格納した前記音声認識辞書を、当該グループの新たな音声認識辞書として作成し、前記音声認識辞書記憶部に格納するように構成してもよい。

また、このような音声認識辞書編集装置には、前記認識対象とするテキストが追加されたときに、追加された認識対象とする各テキストをｎ個のテキスト毎のグループにグループ分けし、各グループについて、当該グループ内の各テキストと当該テキストの前記ヨミ変換ルールに従って生成した発音データとの対応を表す音声認識データを格納した前記音声認識辞書を、当該グループの音声認識辞書として作成し、前記音声認識辞書記憶部に追加格納する音声認識辞書追加部を設けるようにしてもよい。

また、このような音声認識辞書編集装置は、前記音声認識辞書修正部において、テキストの前記認識対象とするテキストからの除外が発生したときに、当該除外されたテキストが含まれる前記グループを修正対象グループとして、当該修正対象グループの音声認識辞書を前記音声認識辞書記憶部から削除すると共に、当該修正対象グループから当該除外されたテキストを除いた上で、当該修正対象グループの各テキストと当該テキストの前記ヨミ変換ルールに従って生成した発音データとの対応を表す音声認識データを格納した前記音声認識辞書を、当該グループの新たな音声認識辞書として作成し、前記音声認識辞書記憶部に格納するようにしてもよい。

ここで、前記認識対象とするテキストは、たとえば、楽曲の曲名、アーティスト名、アルバム名、ジャンル名のいずれかとしてもよい。
これらのような音声認識辞書編集装置によれば、認識対象とする各テキストをｎ（但し、ｎは１以上の整数）個のテキスト毎のグループにグループ分けし、グループ毎に音声認識辞書を作成すると共に、テキストと当該テキストの発音を表す発音データとの対応を表す音声認識データの修正や消去を、修正や消去が必要な音声認識データを含む音声認識辞書のみの再作成を行うことにより実現するので、認識対象とするテキスト全てについての音声認識データを格納した単一の音声認識辞書を設け、音声認識辞書に登録されている一部の音声認識データの編集を行う機能を備えずに、当該単一の音声認識辞書を再作成することにより、一部の音声認識データの編集を実現する場合に比べ、より効率的に、音声認識データの編集を行うことができる。

なお、このような音声認識辞書編集装置と、前記音声認識辞書記憶部に格納されている前記各グループの音声認識辞書を用いて、人間が発声した音声が表すテキストを認識する音声認識部とより音声認識装置を構成するようにしてもよい。
また、このような音声認識装置と、楽曲を表す楽曲データを記憶した楽曲データ記憶部と、前記楽曲データ記憶部に記憶されている前記楽曲データを再生する楽曲再生部とよりオーディオ再生装置を構成するようにしてもよい。また、この場合に、前記認識対象とするテキストを、前記楽曲データ記憶部に記憶されている楽曲データが表す楽曲の曲名とし、前記楽曲再生部において、前記音声認識部が認識した曲名の楽曲の楽曲データを再生するようにしてもよい。

このように、本発明によれば、テキストと当該テキストの発音データとを登録した音声認識データを、認識対象とする各テキストについて蓄積した音声認識辞書に登録されている一部の音声認識データの編集を行う機能を備えていない場合に、効率的に、当該一部の音声認識データの編集を行えるようになる。

本発明の実施形態に係るオーディオ再生装置の構成を示すブロック図である。本発明の実施形態に係る記録楽曲情報を示す図である。本発明の実施形態に係るＨＤＤ記録楽曲用楽曲ＤＢ作成処理とＨＤＤ記録楽曲用音声認識辞書作成処理を示すフローチャートである。本発明の実施形態に係るＨＤＤ記録楽曲用楽曲ＤＢ作成処理とＨＤＤ記録楽曲用音声認識辞書作成処理の処理例を示す図である。本発明の実施形態に係る接続デバイス記録楽曲用楽曲ＤＢ作成処理と接続デバイス記録楽曲用音声認識辞書作成処理を示すフローチャートである。本発明の実施形態に係る接続デバイス記録楽曲用楽曲ＤＢ作成処理と接続デバイス記録楽曲用音声認識辞書作成処理の処理例を示す図である。本発明の実施形態に係る音声認識辞書編集処理と音声認識辞書修正処理を示すフローチャートである。本発明の実施形態に係るオーディオ再生装置の表示例を示す図である。本発明の実施形態に係る音声認識辞書編集処理と音声認識辞書修正処理の処理例を示す図である。

以下、本発明の実施形態をオーディオ再生装置への適用を例にとり説明する。
図１に、本実施形態に係るオーディオ再生装置の構成を示す。
図示するように、オーディオ再生装置は、マイクロフォン１、スピーカ２、入力装置３、表示装置４、ＨＤＤ５、ＣＤドライブ６、ポータブルオーディオプレイヤインタフェース７、音声合成エンジン８、音声認識エンジン９、オーディオ出力部１０、音声認識辞書編集部１１、リッピング処理部１２、楽曲管理部１３、再生制御部１４とを備えている。

ただし、このようなオーディオ再生装置は、ハードウエア的には、マイクロプロセッサや、メモリや、その他の周辺デバイスを有する一般的な構成を備えたコンピュータを利用して構成されるものであってよく、この場合、以上に示したオーディオ再生装置の音声合成エンジン８、音声認識エンジン９、オーディオ出力部１０、音声認識辞書編集部１１、リッピング処理部１２、楽曲管理部１３、再生制御部１４の各部もしくはその一部は、マイクロプロセッサが予めＨＤＤ５に記憶されたプログラムを実行することにより具現化するプロセスとして実現されるものであって良い。

さて、ここで、ＣＤドライブ６は、装着されたＣＤ-ＤＡディスク２０に記録された楽曲データの読み出しを行う。
また、ポータブルオーディオプレイヤインタフェース７には、ポータブルオーディオプレイヤ２１が選択的に接続される。ポータブルオーディオプレイヤ２１は、楽曲のオーディオファイルを記録していると共に、記録しているオーディオファイルの楽曲を再生する機能を備えた装置である。また、ポータブルオーディオプレイヤ２１は、記録している各オーディオファイルの楽曲の、当該楽曲が属するアルバム名や、当該楽曲のジャンル名や、当該楽曲のアーティスト名や、当該楽曲の曲名（タイトル名）などの属性情報を管理しており、ポータブルオーディオプレイヤインタフェース７に接続されているときに、オーディオ再生装置からの楽曲管理情報の転送要求に応答して、管理している属性情報や、各楽曲のオーディオファイルの識別子を、楽曲管理情報としてオーディオ再生装置に出力する機能を有する。また、ポータブルオーディオプレイヤインタフェース７に接続されているときに、オーディオ再生装置からの、オーディオファイルの識別子を指定した再生要求に応じてオーディオファイルの識別子で指定されたオーディオファイルを再生し、再生した信号/データを、オーディオ再生装置に出力する機能を備えている。

また、ＨＤＤ５には、ＣＤＤＢ、ヨミ変換ルール、ＨＤＤ記録楽曲情報、接続デバイス記録楽曲情報、楽曲のオーディオデータを格納したオーディオファイルが記録されている。
そして、ＣＤＤＢには、市場に流通しているＣＤ-ＤＡディスク２０に記録されている各楽曲の、当該楽曲が属するアルバム名や、当該楽曲のジャンル名や、当該楽曲のアーティスト名や、当該楽曲の曲名（タイトル名）などの属性情報が蓄積されている。
また、ヨミ変換ルールは、音声合成エンジン８において、各種テキストから、当該テキストを読み上げた発音を表すヨミデータをどのように生成するかを規定するルールが格納されている。
また、ＨＤＤ記録楽曲情報と接続デバイス記録楽曲情報とは同様の構成を備えており、それぞれ、楽曲ＤＢと音声認識辞書とを含む。但し、ＨＤＤ記録楽曲情報の楽曲ＤＢは、ＨＤＤ５にオーディオファイルに記録されている楽曲を対象楽曲として作成され、接続デバイス記録楽曲情報の楽曲ＤＢは、ポータブルオーディオプレイヤインタフェース７に接続されているポータブルオーディオプレイヤ２１に記録されている楽曲を対象楽曲として作成される。また、ＨＤＤ記録楽曲情報の音声認識辞書は、ＨＤＤ記録楽曲情報の楽曲ＤＢに対応して設けられ、接続デバイス記録楽曲情報の音声認識辞書は、接続デバイス記録楽曲情報の楽曲ＤＢに対応して設けられる。

以下、楽曲ＤＢと音声認識辞書の構成について説明する。
まず、楽曲ＤＢには、図２ａに示すように対象楽曲毎に、当該楽曲に対応して設けたエントリ（図の各行）を有し、各エントリには、対応する対象楽曲の当該楽曲テーブル内の識別子となる楽曲IDと、対応する対象楽曲の曲名と、対応する対象楽曲のアーティストのアーティスト名と、対応する対象楽曲のアルバムのアルバム名と、対応する対象楽曲のジャンルのジャンル名と、対象楽曲のオーディオファイルの識別子を表すファイル識別子とが登録されている。ここで、楽曲ＤＢの各エントリは、楽曲IDの小さいものがより前にくるように配置されている。

次に、図２ｂに示すように、音声認識辞書は、連続するｎ個（図では５個）の楽曲ID毎に対応して作成され、各音声認識辞書には異なる辞書IDが連番で付与されている。
そして、各音声認識辞書は、対応するｎ個の楽曲IDの各々に対応するエントリを有し、各エントリには、対応する楽曲ID、対応する楽曲ＤＢに登録されている対応する楽曲IDのエントリに登録されている楽曲の曲名の発音を表すヨミデータが登録されている。ここで、ヨミデータの形式は任意でよいが、基本的には発音記号列と等価な内容を持つものとする。

以下、このようなＨＤＤ記録楽曲情報と接続デバイス記録楽曲情報の作成の動作について説明する。
まず、ＨＤＤ記録楽曲情報の作成動作について説明する。
リッピング処理部１２は、ユーザのリッピング指示を入力装置３を介して受け付けると、ＣＤドライブ６に装着されているＣＤ-ＤＡディスク２０に記録されている各楽曲の楽曲データを読み出して符号化し、楽曲毎にオーディオファイルとしてＨＤＤ５に記録する。また、この際に、ＣＤＤＢを参照して、ＨＤＤ５に記録するオーディオファイルの楽曲の曲名やアーティスト名やアルバム名やジャンル名などを算定し、オーディオファイルに、当該オーディオファイルの楽曲の属性情報として格納する。そして、楽曲管理部１３に、新規楽曲のリッピング発生を楽曲管理部１３に通知する。

一方、楽曲管理部１３は、図３ａに示すＨＤＤ記録楽曲用楽曲ＤＢ作成処理において、リッピング処理部１２から新規楽曲のリッピング発生の通知を検出したならば（ステップ３０２）、ＨＤＤ記録楽曲情報の楽曲ＤＢに登録されている最終楽曲の楽曲IDを取得し、ｍとする（ステップ３０４）。ＨＤＤ記録楽曲情報の楽曲ＤＢに楽曲が登録されていない場合には、ｍ=０とする。

そして、「floor」を、実数 x に対して x 以下の最大の整数を返す関数である床関数として、
k=floor((m-1)/n)
p=1+n+(k×n)により、
pを求める（ステップ３０６）。ただし、ｎは、一つの音声認識辞書が対応する楽曲ID数である。

そして、ＨＤＤ記録楽曲情報の楽曲ＤＢに、リッピング処理部１２によって新たなにＨＤＤ５に記録された各オーディオファイルに対応するエントリを新たに作成し、各エントリに、pから１ずつ増加する楽曲IDを登録すると共に、対応するオーディオファイルの属性情報が表す曲名やアーティスト名やアルバム名やジャンル名と、オーディオファイルの識別子とを登録する（ステップ３０８）。すなわち、ＨＤＤ記録楽曲情報の楽曲ＤＢに新たに作成したｒ番目のエントリには、p+r-1の楽曲IDと、リッピング処理部１２によって新たなにＨＤＤ５に記録されたｒ番目のオーディオファイルの属性情報とオーディオファイルの識別子とを登録する。

そして、音声認識辞書編集部１１に、ＨＤＤ記録楽曲情報の音声認識辞書作成を要求する（ステップ３１０）。
次に、ＨＤＤ記録楽曲情報の音声認識辞書作成を要求された、音声認識辞書編集部１１は、図３ｂに示すＨＤＤ記録楽曲用音声認識辞書作成処理を開始し、ＨＤＤ記録楽曲情報の楽曲ＤＢの、楽曲IDがp以降の各エントリから抽出した楽曲IDと曲名との組を、楽曲IDの順に登録した辞書元リストを作成する（ステップ３５２）。

そして、辞書元リストを、楽曲IDの順にｎ個の楽曲毎に分割した分割辞書元リストを作成し、作成した各分割辞書元リストに、登録されている楽曲IDの範囲が小さい順に、１から１ずつ増加する分割番号を与える（ステップ３５４）。すなわち、先頭に登録されている楽曲IDがｔ番目に大きい分割辞書元リストには、分割番号としてｔを与える。

そして、各分割辞書元リストの各々について、音声認識辞書を作成し、ＨＤＤ記録楽曲情報に格納する（ステップ３５６）。また、分割番号がｔの分割辞書元リストから作成した音声認識辞書には、
ｔ-1+floor((p+n-1)/n)を辞書IDとして付与する。

ここで、分割辞書元リストからの音声認識辞書の作成は、分割辞書元リストに基づく音声認識辞書の作成を音声合成エンジン８に要求することにより行う。音声合成エンジン８は、分割辞書元リストに基づく音声認識辞書の作成を要求されたならば、分割辞書元リスト中の各曲名を、ＨＤＤ５に格納されているヨミ変換ルールに従って生成した当該曲名の発音を表すヨミデータに置き換えた音声認識辞書を作成し、ＨＤＤ５に格納する。

ここで、このようなＨＤＤ記録楽曲用楽曲ＤＢ作成処理と、ＨＤＤ記録楽曲用音声認識辞書作成処理の処理例を示す。
いま、一つの音声認識辞書が対応する楽曲数ｎが５であるとして、図４の４０１に示すように、ＨＤＤ記録楽曲情報の楽曲ＤＢに１から１２の楽曲IDが付与された１２個の楽曲のエントリが存在し、楽曲IDが１から５の楽曲の曲名のヨミデータが楽曲IDと対応づけて登録された辞書ID１の音声認識辞書と、楽曲IDが６から１０の楽曲の曲名のヨミデータが楽曲IDと対応づけて登録された辞書ID２の音声認識辞書と、楽曲IDが１１から１２の楽曲の曲名のヨミデータが楽曲IDと対応づけて登録された辞書ID３の音声認識辞書とがＨＤＤ記録楽曲情報に含まれているものとする。

そして、この状態において、７つの楽曲のオーディオファイルがリッピング処理部１２によって、新たにＨＤＤ５に記録されたものとする。
この場合、まず、ＨＤＤ記録楽曲用楽曲ＤＢ作成処理によって、楽曲ＤＢに登録されている最終楽曲の楽曲IDは１２であるので、ｍ=１２として、
k=floor((m-1)/n))、p=1+n+(k×n)により、
p=１６が求められ（ステップ３０４、３０６）、矢印４０２によって示すように、楽曲ＤＢに楽曲IDが１６から２２の７つのエントリが新たに作成され、各エントリに新たにＨＤＤ５に記録された７個のオーディオファイルの属性情報とオーディオファイルの識別子とが各々登録される（ステップ３０８）。

そして、次に、ＨＤＤ記録楽曲用音声認識辞書作成処理によって、矢印４０３に示すようにＨＤＤ記録楽曲情報の楽曲ＤＢの、楽曲IDが１６以降の各エントリから抽出した楽曲IDと曲名との組を、楽曲IDの順に登録した辞書元リストが作成される（ステップ３５２）。

そして、矢印４０４に示すように、辞書元リストが、楽曲IDの順に５個の楽曲毎に分割され、楽曲IDが１６から２０の曲名が登録された分割番号１の分割辞書元リストと、楽曲IDが２１から２２の曲名が登録された分割番号２の分割辞書元リストが作成される（ステップ３５４）。

そして、矢印４０５に示すように分割番号１の分割辞書元リストから、楽曲IDが１６から２０の曲名のヨミデータが楽曲IDと対応づけて登録された音声認識辞書が作成され、分割番号２の分割辞書元リストから、楽曲IDが２１から２２の曲名のヨミデータが楽曲IDと対応づけて登録された音声認識辞書が作成される（ステップ３５６）。

ここで、p=１６であるので、分割番号ｔが１の分割辞書元リストから作成された音声認識辞書には、ｔ-1+floor((p+n-1)/n)に従って、辞書IDとして４が付与され、分割番号ｔが２の分割辞書元リストから作成された音声認識辞書には、ｔ-1+floor((p+n-1)/n)に従って、辞書IDとして５が付与される。

結果、リッピング処理によって新たに記録されたオーディオファイルの楽曲５曲毎に、当該楽曲の曲名の音声認識辞書が、既存の音声認識辞書に引き続く辞書IDが付与された形態で、ＨＤＤ記録楽曲情報に追加されたことになる。
次に、接続デバイス記録楽曲情報の作成の動作について説明する。
楽曲管理部１３は、図５ａに示す接続デバイス記録楽曲用楽曲ＤＢ作成処理において、ポータブルオーディオプレイヤインタフェース７へのポータブルオーディオプレイヤ２１の接続を監視し（ステップ５０２）、ポータブルオーディオプレイヤ２１の接続が発生したならば、接続されたポータブルオーディオプレイヤ２１が前回接続を検出したポータブルオーディオプレイヤ２１と同じポータブルオーディオプレイヤ２１であるかどうかをポータブルオーディオプレイヤ２１の識別情報に基づいて調べ（ステップ５０４）、前回接続を検出したポータブルオーディオプレイヤ２１と同じでなければステップ５０８に進む。

一方、接続されたポータブルオーディオプレイヤ２１が前回接続を検出したポータブルオーディオプレイヤ２１と同じプレイヤであれば、ポータブルオーディオプレイヤ２１に記録されているオーディオファイルが前回の接続時以降に変更されているかどうかを調べ（ステップ５０６）、変更されていなければステップ５０２に戻り、変更されていればステップ５０８に進む。

ここで、ポータブルオーディオプレイヤ２１に記録されているオーディオファイルが前回の接続時以降に変更されているかどうかは、ポータブルオーディオプレイヤ２１に楽曲管理情報の転送を要求することにより、ポータブルオーディオプレイヤ２１から楽曲管理情報を取得し、取得した楽曲管理情報と接続デバイス記録楽曲情報の楽曲ＤＢとの一致性を比較することにより行ってもよい。また、ポータブルオーディオプレイヤ２１からポータブルオーディオプレイヤ２１に記録されているオーディオファイルが最後に更新された日時の情報を取得できる場合には、この最後に更新された日時と、前回ポータブルオーディオプレイヤがオーディオ再生装置のポータブルオーディオプレイヤインタフェース７に接続された日時との比較により、ポータブルオーディオプレイヤ２１に記録されているオーディオファイルが前回の接続時以降に変更されているかどうかを判定するようにしてもよい。

そして、ステップ５０４またはステップ５０６からステップ５０８に進んだ場合には、接続デバイス記録楽曲情報の楽曲ＤＢを消去する。
そして、ポータブルオーディオプレイヤ２１から楽曲管理情報を取得し、当該楽曲管理情報が属性情報とオーディオファイルの識別子を表す各楽曲に対応するエントリを備えた、新たな楽曲ＤＢを、接続デバイス記録楽曲情報に格納する（ステップ５１２）。ここで、新たに作成した楽曲ＤＢの各エントリには、１から１ずつ増加する楽曲IDを登録すると共に、対応する楽曲の属性情報が表す曲名やアーティスト名やアルバム名やジャンル名と、オーディオファイルの識別子を登録する。すなわち、接続デバイス記録楽曲情報の楽曲ＤＢに新たに作成したｒ番目のエントリには、ｒの楽曲IDと、ポータブルオーディオプレイヤ２１から取得した楽曲管理情報が示す、ポータブルオーディオプレイヤ２１に記録されている楽曲のうちのｒ番目の楽曲の属性情報とオーディオファイルの識別子とを登録する。

そして、音声認識辞書編集部１１に、接続デバイス記録楽曲情報の音声認識辞書作成を要求する。
次に、接続デバイス記録楽曲情報の音声認識辞書作成を要求された、音声認識辞書編集部１１は、図５ｂに示す接続デバイス記録楽曲用音声認識辞書作成処理を開始し、まず、接続デバイス記録楽曲情報の音声認識辞書を全て消去する（ステップ５５２）。
そして、接続デバイス記録楽曲情報の楽曲ＤＢの各エントリから抽出した楽曲IDと曲名との組を、楽曲IDの順に登録した辞書元リストを作成する（ステップ５５４）。
そして、辞書元リストを、楽曲IDの順にｎ個の楽曲毎に分割した分割辞書元リストを作成し、作成した各分割辞書元リストに、先頭に登録されている楽曲IDの小さい順に、１から１ずつ増加する分割番号を与える（ステップ５５６）。すなわち、先頭に登録されている楽曲IDがｔ番目に大きい分割辞書元リストには、分割番号としてｔを与える。

そして、各分割辞書元リストの各々について、音声認識辞書を作成し、ＨＤＤ記録楽曲情報に格納する（ステップ５５８）。また、分割番号がｔの分割辞書元リストから作成した音声認識辞書には、ｔを辞書IDとして付与する。
ここで、分割辞書元リストからの音声認識辞書の作成は、上述のように、分割辞書元リストに基づく音声認識辞書の作成を音声合成エンジン８に要求することにより行う。音声合成エンジン８は、分割辞書元リストに基づく音声認識辞書の作成を要求されたならば、分割辞書元リスト中の各曲名を、ＨＤＤ５に格納されているヨミ変換ルールに従って生成した当該曲名の発音を表すヨミデータに置き換えた音声認識辞書を作成し、ＨＤＤ５に格納する。

ここで、このような接続デバイス記録楽曲用楽曲ＤＢ作成処理と、接続デバイス記録楽曲用音声認識辞書作成処理の処理例を示す。
いま、一つの音声認識辞書が対応する楽曲数ｎが５であるとして、図６に示すように、１２個のオーディオファイルが記録されているポータブルオーディオプレイヤ２１がオーディオ再生装置に接続され、当該ポータブルオーディオプレイヤ２１は前回オーディオ再生装置に接続されたポータブルオーディオプレイヤ２１と異なるか、前回の接続時以降に、記録されているオーディオファイルが更新されたポータブルオーディオプレイヤ２１であるものとする。

この場合、まず、ＨＤＤ記録楽曲用楽曲ＤＢ作成処理によって、既存の楽曲ＤＢが消去された後に、矢印６０１によって示すように、楽曲IDが１から１２のエントリを有する楽曲ＤＢが新たに作成され、各エントリに新たにポータブルオーディオプレイヤ２１に記録されている１２個のオーディオファイルの属性情報とオーディオファイルの識別子とが各々登録される（ステップ５１０）。

そして、次に、接続デバイス記録楽曲用音声認識辞書作成処理によって、既存の音声認識辞書が消去された後に、矢印６０２に示すように接続デバイス記録楽曲情報の楽曲ＤＢの各エントリから抽出した楽曲IDと曲名との組を、楽曲IDの順に登録した辞書元リストが作成される（ステップ５５４）。

そして、矢印６０３に示すように、辞書元リストが、楽曲IDの順に５個の楽曲毎に分割され、楽曲IDが１から５の曲名が登録された分割番号１の分割辞書元リストと、楽曲IDが６から１０の曲名が登録された分割番号２の分割辞書元リストと、楽曲IDが１１から１２の曲名が登録された分割番号３の分割辞書元リストが作成される（ステップ５５６）。

そして、矢印６０４に示すように分割番号１の分割辞書元リストから、楽曲IDが１から５の曲名のヨミデータが楽曲IDと対応づけて登録された、辞書IDが１の音声認識辞書が作成され、分割番号２の分割辞書元リストから、楽曲IDが６から１０の曲名のヨミデータが楽曲IDと対応づけて登録された、辞書IDが２の音声認識辞書が作成され、分割番号３の分割辞書元リストから、楽曲IDが１１から１２の曲名のヨミデータが楽曲IDと対応づけて登録された、辞書IDが３の音声認識辞書が作成される（ステップ５５８）。

結果、ポータブルオーディオプレイヤ２１に記録されているオーディオファイルの楽曲５曲毎に、当該楽曲の曲名の音声認識辞書が、１からの連番の辞書IDが付与された形態で、接続デバイス記録楽曲情報に作成されたことになる。
以上、ＨＤＤ記録楽曲情報と接続デバイス記録楽曲情報の作成の動作について説明した。
次に、再生制御部１４が行う再生制御処理について説明する。
再生制御部１４は、入力装置３を介してユーザからＨＤＤ記録楽曲の再生を指示されると、ＨＤＤ再生モードを設定し、ユーザの操作に応じてＨＤＤ５に記録されているオーディオファイルの再生を制御する。ここで、オーディオファイルの再生は、再生するオーディオファイルを再生対象オーディオファイルとしてオーディオ出力部１０に指示することにより行う。オーディオ出力部１０は、再生対象オーディオファイルとして指示されたオーディオファイルをＨＤＤ５から読み出して復号しスピーカ２に出力する。

また、再生制御部１４は、ＨＤＤ再生モードを設定したならば、ＨＤＤ記録楽曲情報に含まれる全ての音声認識辞書を使用音声認識辞書として音声認識エンジン９に設定する。そして、音声認識エンジン９は、使用音声認識辞書として設定された各音声認識辞書を用いて、マイクロフォン１から入力する音声の音声認識を行い、入力音声にマッチするヨミデータと対応づけられて、いずれかの使用音声認識辞書に登録されている楽曲IDを再生制御部１４に通知する。そして、再生制御部１４は、音声認識エンジン９から楽曲IDが通知されたならば、ＨＤＤ記録楽曲情報の楽曲ＤＢの、通知された楽曲IDが登録されたエントリのファイル識別子が示すオーディオファイルを再生対象オーディオファイルとしてオーディオ出力部１０に設定することにより、当該楽曲IDのオーディオファイル、すなわち、ユーザが発話した曲名の楽曲の再生とスピーカ２への出力を行う。

次に、再生制御部１４は、ポータブルオーディオプレイヤ２１が接続されているときに、入力装置３を介してユーザから接続デバイス記録楽曲の再生を指示されると、接続デバイス再生モードを設定し、ユーザの操作に応じてポータブルオーディオプレイヤ２１に記録されているオーディオファイルの再生を制御する。ここで、ポータブルオーディオプレイヤ２１の再生は、再生するオーディオファイルの識別子を指定した再生要求をポータブルオーディオプレイヤ２１に発行して、ポータブルオーディオプレイヤ２１に、当該オーディオファイルの再生と、再生した信号/データの出力をおこなわせると共に、オーディオ出力部１０にポータブルオーディオプレイヤ２１から出力された信号/データの表す音声をスピーカ２に出力させることにより行う。

また、再生制御部１４は、接続デバイス再生モードを設定したならば、接続デバイス記録楽曲情報に含まれる全ての音声認識辞書を使用音声認識辞書として音声認識エンジン９に設定する。そして、音声認識エンジン９は、使用音声認識辞書として設定された各音声認識辞書を用いて、マイクロフォン１から入力する音声の音声認識を行い、入力音声にマッチするヨミデータと対応づけられて、いずれかの使用音声認識辞書に登録されている楽曲IDを再生制御部１４に通知する。そして、再生制御部１４は、音声認識エンジン９から楽曲IDが通知されたならば、接続デバイス記録楽曲情報の楽曲ＤＢの、通知された楽曲IDが登録されたエントリのファイル識別子が示すオーディオファイルを再生するオーディオファイルとし、再生するオーディオファイルの識別子を指定した再生要求をポータブルオーディオプレイヤ２１に発行することにより、当該楽曲IDのオーディオファイル、すなわち、ユーザが発話した曲名の楽曲の再生とスピーカ２への出力を行う。

次に、オーディオ再生装置において行う音声認識辞書の編集動作について説明する。
音声認識辞書編集部１１は、入力装置３を介してユーザから音声認識辞書の編集要求を受け付けると、図７ａに示す音声認識辞書編集処理を実行する。
図示するように、この音声認識辞書編集処理では、まず、ヨミデータを修正する曲名の指定と、当該曲名の新たなヨミデータの入力を受け付けて、指定された曲名に対するヨミデータとして、入力されたヨミデータが優先的に用いられるように、ＨＤＤ５のヨミ変換ルールを修正する（ステップ７０２）。

ここで、このステップ７０２は、たとえば、次のように行う。
すなわち、音声認識辞書編集部１１は、図８ａに示すようなヨミ変更曲名選択ウインドウを表示装置４に表示する。図示するように、ヨミ変更曲名選択ウインドウには、ＨＤＤ記録楽曲情報の楽曲ＤＢと接続デバイス記録楽曲情報の楽曲ＤＢのいずれかに登録されている曲名の一覧８０１を表示し、一覧８０１上で曲名の選択を受け付ける。そして、「ヨミ変更」ボタン８０２が操作されたならば、図８ｂに示すようなヨミ変更ウインドウを表示し、ヨミ変更曲名選択ウインドウの一覧８０１上で選択された曲名を表示８１１すると共に、入力ボックス８１２への当該曲名の新たな発音を指定するヨミデータの入力を受け付ける。そして、ヨミ変更ウインドウの「確認ボタン」８１３が操作されたならば、入力ボックス８１２に入力されているヨミデータを伴う音声出力を音声合成エンジン８に指示する。音声合成エンジン８は、音声出力を指示されたならば、当該指示に伴うヨミデータが表す合成音声を生成し、オーディオ出力部１０を介してスピーカ２に出力する。

また、ヨミ変更ウインドウの「変更」ボタン８１４が操作されたならば、音声認識辞書編集部１１は、ヨミ変更曲名選択ウインドウの一覧７０１上で選択された曲名に対するヨミデータを、入力ボックス８１２に入力されているヨミデータに変更する。すなわち、ヨミ変更曲名選択ウインドウの一覧７０１上で選択された曲名に対するヨミデータとして、入力ボックス８１２に入力されているヨミデータが優先的に用いられるように、ＨＤＤ５のヨミ変換ルールを修正する。

さて、図７ａに戻り、このようにしてヨミ変換ルールを修正したならば、ＨＤＤ記録楽曲情報を対象楽曲情報として（ステップ７０４）、音声認識辞書修正処理を実行する（ステップ７０６）。そして、次に、接続デバイス記録楽曲情報を対象楽曲情報として（ステップ７０８）、音声認識辞書修正処理を実行する（ステップ７１０）。

図７ｂに、ステップ７０６、７１０で行う音声認識辞書修正処理の手順を示す。
図示するように、この音声認識辞書修正処理では、まず、対象楽曲情報の楽曲ＤＢのエントリのうちの、音声認識辞書編集処理のステップ７０２でヨミデータが変更された曲名と同じ曲名が登録されているエントリに登録されている楽曲IDを全て抽出する（ステップ７５２）。

そして、抽出した各楽曲IDの各々について（ステップ７５４、７６２、７６４）、ステップ７５６-７６０の処理を行う。
ここで、ステップ７５６-７６０では、抽出した楽曲IDの値をｑとして（ステップ７５６）、辞書IDがfloor((q+n-1)/n)の音声認識辞書を、当該音声認識辞書として既に設定されていない場合には（ステップ７５８）、再作成音声認識辞書に設定する（ステップ７６０）処理を行う。

次に、以上のようにしてステップ７５２で抽出した各楽曲IDについてステップ７５６-７６０の処理を終了したならば、ステップ７６０で、再作成対象辞書とした音声認識辞書の各々について（ステップ７６６、７７６、７７８）、ステップ７６８-７７４の処理を行う。

ここで、ステップ７６８-７７４では、再作成対象辞書とした音声認識辞書の辞書IDをｇとして、対象楽曲情報の辞書IDがｇの音声認識辞書を消去する（ステップ７７０）。そして、対象楽曲情報の楽曲ＤＢの、1-n+（ｇ×n）からｇ×nまでの楽曲IDが登録されている各エントリの楽曲IDと曲名を登録した辞書元リストを作成し（ステップ７７２）、作成した辞書元リストから辞書IDがｇの音声認識辞書を作成し、対象楽曲情報に格納する（ステップ７７４）。ここで、辞書元リストからの音声認識辞書の作成は、辞書元リストに基づく音声認識辞書の作成を音声合成エンジン８に要求することにより行う。音声合成エンジン８は、辞書元リストに基づく音声認識辞書の作成を要求されたならば、辞書元リスト中の各曲名を、ＨＤＤ５に格納されているヨミ変換ルールに従って生成した当該曲名の発音を表すヨミデータに置き換えた音声認識辞書を作成し、ＨＤＤ５の対象楽曲情報に格納する。

ここで、以上のような音声認識辞書編集処理の処理例を示す。
いま、一つの音声認識辞書が対応する楽曲数ｎが５であるとして、図９ａの９０１に示すように、ＨＤＤ記録楽曲情報の楽曲ＤＢに１から１２の楽曲IDが付与された１２個の楽曲のエントリが存在し、楽曲IDが１から５の楽曲の曲名のヨミデータが楽曲IDと対応づけて登録された辞書ID１の音声認識辞書と、楽曲IDが６から１０の楽曲の曲名のヨミデータが楽曲IDと対応づけて登録された辞書ID２の音声認識辞書と、楽曲IDが１１から１２の楽曲の曲名のヨミデータが楽曲IDと対応づけて登録された辞書ID３の音声認識辞書とがＨＤＤ記録楽曲情報に含まれているものとする。

そして、このときに、ユーザによって、曲名「sade」のヨミデータが、「seydo」から「shaaday」に変更されたものとする。
すると、ヨミ変換ルールは、「sade」のヨミデータとして「shaaday」を優先して用いるように修正される（ステップ７０２）。
そして、楽曲ＤＢの曲名「sade」が登録されているエントリの楽曲IDとして、２と１１が抽出される（ステップ７５２）。また、抽出した楽曲IDの２に対して２をｑとしてfloor((q+n-1)/n)により辞書IDが１の音声認識辞書が再作成音声認識辞書に設定され、抽出した楽曲IDの１１に対して１１をｑとしてfloor((q+n-1)/n)により辞書IDが３の音声認識辞書が再作成音声認識辞書に設定される（ステップ７６０）。

そして、再作成音声認識辞書に設定された辞書IDが１と３の音声認識辞書が消去される（ステップ７７０）。
そして、次に、再作成音声認識辞書の辞書IDの１をｇとして、楽曲ＤＢの1-n+（ｇ×n）=１からｇ×n=５までのエントリの楽曲IDと曲名を登録した辞書元リストが矢印９０２に示すように作成され（ステップ７７２）、この辞書元リストから、矢印９０４に示すように、辞書IDが１の新たな音声認識辞書が作成される（ステップ７７４）。このとき、この新たな認識辞書は、ステップ７０２で修正された後のヨミ変換ルールに従ってヨミデータが作成されるので、曲名の「sade」の楽曲IDの２に対するヨミデータとしては「shaaday」が登録されたものとなる。

また、もう一つの再作成音声認識辞書の辞書IDの３についても同様に処理が行われ、辞書IDの３をｇとして、楽曲ＤＢの1-n+（ｇ×n）=１１からｇ×n=１５までのエントリの楽曲IDと曲名を登録した辞書元リストが矢印９０３に示すように作成され、この辞書元リストから、矢印９０５に示すように、辞書IDが３の新たな音声認識辞書が作成される。また、このとき、この新たな認識辞書は、ステップ７０２で修正された後のヨミ変換ルールに従ってヨミデータが作成されるので、曲名の「sade」の楽曲IDの１１に対するヨミデータとしては「shaaday」が登録されたものとなる。

結果、ＨＤＤ記録楽曲情報の音声認識辞書のうちの、「sade」の曲名の楽曲の楽曲IDを含む音声認識辞書のみを更新することにより、各音声認識辞書中の「sade」のヨミデータの全てが「shaaday」に修正されたことになる。
なお、図９では、ＨＤＤ記録楽曲情報の音声認識辞書を編集する場合について示したが、接続デバイス記録楽曲情報の音声認識の辞書修正も同様に行われ、接続デバイス記録楽曲情報の音声認識辞書のうちの「sade」の曲名の楽曲の楽曲IDを含む音声認識辞書のみを更新することにより、全ての「sade」のヨミデータが「shaaday」に修正されることになる。

以上、本発明の実施形態について説明した。
ところで、以上の実施形態では、音声認識辞書編集処理のステップ７０２で特定の曲名のヨミデータの変更を受け付け、音声認識辞書修正処理で、各記録楽曲情報の楽曲ＤＢのエントリのうちの、音声認識辞書編集処理のステップ７０２でヨミデータが変更された曲名と同じ曲名が登録されているエントリに登録されている楽曲IDを全て抽出し（ステップ７５２）、抽出した楽曲IDが登録されている音声認識辞書を新たに作成した音声認識辞書に置き換える（ステップ７５６-７６０）処理を行ったが、このような処理に代えて以下の処理を行うようにしてもよい。

すなわち、音声認識処理のステップ７０２で特定の記録楽曲情報の特定の楽曲IDの楽曲の曲名のヨミデータの変更を受け付け、音声認識辞書修正処理では、当該特定の記録楽曲情報の、当該特定の楽曲IDが登録されている音声認識辞書のみを新たに作成した音声認識辞書に置き換えるようにしてもよい。

また、以上の実施形態においては、ユーザからＨＤＤ記録楽曲情報の特定の楽曲IDの楽曲の消去を受け付け、消去を受け付けた楽曲IDの楽曲のオーディオファイルをＨＤＤ５から消去すると共に、ＨＤＤ記録楽曲情報の楽曲ＤＢから当該特定の楽曲IDのエントリを消去するようにしてもよい。また、この場合には、当該特定の楽曲IDのエントリを有する音声認識辞書を、当該特定の楽曲IDのエントリを消去後の楽曲ＤＢに基づいて作成した音声認識辞書に置き換えるようにする。すなわち、消去した楽曲の楽曲IDが、ｑであれば、楽曲ＤＢから楽曲IDがｑのエントリを消去し、g=floor((q+n-1)/n)の音声認識辞書を消去し楽曲情報の楽曲ＤＢの、1-n+（ｇ×n）からｇ×nまでの楽曲IDが登録されている各エントリの楽曲IDと曲名を登録した辞書元リストを作成し、作成した辞書元リストから辞書IDがｇの音声認識辞書を作成し、ＨＤＤ記録楽曲情報に格納する。

また、以上の実施形態は、楽曲の曲名を音声認識する場合について説明したが、本実施形態における音声認識辞書の作成や編集/修正の技術は、楽曲のアーティスト名、アルバム名、ジャンル名、または、その他の任意のテキストの音声認識辞書の作成や編集/修正を行う場合についても同様に適用することができる。

１…マイクロフォン、２…スピーカ、３…入力装置、４…表示装置、５…ＨＤＤ、６…ＣＤドライブ、７…ポータブルオーディオプレイヤインタフェース、８…音声合成エンジン、９…音声認識エンジン、１０…オーディオ出力部、１１…音声認識辞書編集部、１２…リッピング処理部、１３…楽曲管理部、１４…再生制御部、２０…ＣＤ-ＤＡディスク、２１…ポータブルオーディオプレイヤ。

Claims

テキストと当該テキストの発音を表す発音データとの対応を表す音声認識データを、認識対象とする各テキストについて格納した、人間が発声した音声が表すテキストを認識する音声認識装置に用いられる音声認識辞書を編集する音声認識辞書編集装置であって、
前記音声認識辞書を記憶する音声認識辞書記憶部と、
テキストからの発音データの生成法を規定したヨミ変換ルールを記憶したヨミ変換ルール記憶部と、
前記認識対象とする各テキストをｎ（但し、ｎは１以上の整数）個のテキスト毎のグループにグループ分けし、各グループについて、当該グループ内の各テキストと当該テキストの前記ヨミ変換ルールに従って生成した発音データとの対応を表す音声認識データを格納した前記音声認識辞書を、当該グループの音声認識辞書として作成し、前記音声認識辞書記憶部に格納する音声認識辞書生成部と、
ユーザによって指定されたテキストである指定テキストについての発音データの生成法がユーザから指定された生成法となるように、前記ヨミ変換ルールを修正するヨミ変換ルール修正部と、
前記指定テキストが含まれる前記グループを修正対象グループとして、当該修正対象グループの音声認識辞書を前記音声認識辞書記憶部から削除すると共に、当該修正対象グループ内の各テキストと当該テキストの前記ヨミ変換ルール修正部による修正後のヨミ変換ルールに従って生成した発音データとの対応を表す音声認識データを格納した前記音声認識辞書を、当該グループの新たな音声認識辞書として作成し、前記音声認識辞書記憶部に格納する音声認識辞書修正部とを有することを特徴とする音声認識辞書編集装置。
請求項１記載の音声認識辞書編集装置であって、
前記音声認識辞書修正部は、前記指定テキストと同じテキストが含まれる各グループの各々を前記修正対象グループとし、各修正対象グループについて、当該修正対象グループの音声認識辞書を前記音声認識辞書記憶部から削除すると共に、当該修正対象グループ内の各テキストと当該テキストの前記ヨミ変換ルール修正部による修正後のヨミ変換ルールに従って生成した発音データとの対応を表す音声認識データを格納した前記音声認識辞書を、当該グループの新たな音声認識辞書として作成し、前記音声認識辞書記憶部に格納することを特徴とする音声認識辞書編集装置。
請求項１記載の音声認識辞書編集装置であって、
前記認識対象とするテキストが追加されたときに、追加された認識対象とする各テキストをｎ個のテキスト毎のグループにグループ分けし、各グループについて、当該グループ内の各テキストと当該テキストの前記ヨミ変換ルールに従って生成した発音データとの対応を表す音声認識データを格納した前記音声認識辞書を、当該グループの音声認識辞書として作成し、前記音声認識辞書記憶部に追加格納する音声認識辞書追加部を有することを特徴とする音声認識辞書編集装置。
請求項１記載の音声認識辞書編集装置であって、
前記音声認識辞書修正部は、テキストの前記認識対象とするテキストからの除外が発生したときに、当該除外されたテキストが含まれる前記グループを修正対象グループとして、当該修正対象グループの音声認識辞書を前記音声認識辞書記憶部から削除すると共に、当該修正対象グループから当該除外されたテキストを除いた上で、当該修正対象グループの各テキストと当該テキストの前記ヨミ変換ルールに従って生成した発音データとの対応を表す音声認識データを格納した前記音声認識辞書を、当該グループの新たな音声認識辞書として作成し、前記音声認識辞書記憶部に格納することを特徴とする音声認識辞書編集装置。
請求項１記載の音声認識辞書編集装置と、
前記音声認識辞書記憶部に格納されている前記各グループの音声認識辞書を用いて、人間が発声した音声が表すテキストを認識する音声認識部とを有することを特徴とする音声認識装置。
請求項３記載の音声認識辞書編集装置と、
前記音声認識辞書記憶部に格納されている前記各グループの音声認識辞書を用いて、人間が発声した音声が表すテキストを認識する音声認識部とを有することを特徴とする音声認識装置。
請求項４記載の音声認識辞書編集装置と、
前記音声認識辞書記憶部に格納されている前記各グループの音声認識辞書を用いて、人間が発声した音声が表すテキストを認識する音声認識部とを有することを特徴とする音声認識装置。
請求項１記載の音声認識辞書編集装置であって、
前記認識対象とするテキストは、楽曲の曲名、アーティスト名、アルバム名、ジャンル名のいずれかであることを特徴とする音声認識装置。
請求項５記載の音声認識装置と、楽曲を表す楽曲データを記憶した楽曲データ記憶部と、前記楽曲データ記憶部に記憶されている前記楽曲データを再生する楽曲再生部とを有し、
前記認識対象とするテキストは、前記楽曲データ記憶部に記憶されている楽曲データが表す楽曲の曲名であって、
前記楽曲再生部は、前記音声認識部が認識した曲名の楽曲の楽曲データを再生することを特徴とするオーディオ再生装置。
コンピュータによって読みとられ実行されるコンピュータプログラムであって、
前記コンピュータプログラムは、前記コンピュータを、
テキストと当該テキストの発音を表す発音データとの対応を表す音声認識データを、認識対象とする各テキストについて格納した、人間が発声した音声が表すテキストを認識する音声認識に用いられる前記音声認識辞書を記憶する音声認識辞書記憶部と、
テキストからの発音データの生成法を規定したヨミ変換ルールを記憶したヨミ変換ルール記憶部と、
前記認識対象とする各テキストをｎ（但し、ｎは１以上の整数）個のテキスト毎のグループにグループ分けし、各グループについて、当該グループ内の各テキストと当該テキストの前記ヨミ変換ルールに従って生成した発音データとの対応を表す音声認識データを格納した前記音声認識辞書を、当該グループの音声認識辞書として作成し、前記音声認識辞書記憶部に格納する音声認識辞書生成部と、
ユーザによって指定されたテキストである指定テキストについての発音データの生成法がユーザから指定された生成法となるように、前記ヨミ変換ルールを修正するヨミ変換ルール修正部と、
前記指定テキストが含まれる前記グループを修正対象グループとして、当該修正対象グループの音声認識辞書を前記音声認識辞書記憶部から削除すると共に、当該修正対象グループ内の各テキストと当該テキストの前記ヨミ変換ルール修正部による修正後のヨミ変換ルールに従って生成した発音データとの対応を表す音声認識データを格納した前記音声認識辞書を、当該グループの新たな音声認識辞書として作成し、前記音声認識辞書記憶部に格納する音声認識辞書修正部として機能させることを特徴とするコンピュータプログラム。
請求項１０記載のコンピュータプログラムであって、
前記音声認識辞書修正部は、前記指定テキストと同じテキストが含まれる各グループの各々を前記修正対象グループとし、各修正対象グループについて、当該修正対象グループの音声認識辞書を前記音声認識辞書記憶部から削除すると共に、当該修正対象グループ内の各テキストと当該テキストの前記ヨミ変換ルール修正部による修正後のヨミ変換ルールに従って生成した発音データとの対応を表す音声認識データを格納した前記音声認識辞書を、当該グループの新たな音声認識辞書として作成し、前記音声認識辞書記憶部に格納することを特徴とするコンピュータプログラム。
請求項１０記載のコンピュータプログラムであって、
前記コンピュータをさらに、
前記認識対象とするテキストが追加されたときに、追加された認識対象とする各テキストをｎ個のテキスト毎のグループにグループ分けし、各グループについて、当該グループ内の各テキストと当該テキストの前記ヨミ変換ルールに従って生成した発音データとの対応を表す音声認識データを格納した前記音声認識辞書を、当該グループの音声認識辞書として作成し、前記音声認識辞書記憶部に追加格納する音声認識辞書追加部として機能させることを特徴とするコンピュータプログラム。
請求項１０記載のコンピュータプログラムであって、
前記音声認識辞書修正部は、テキストの前記認識対象とするテキストからの除外が発生したときに、当該除外されたテキストが含まれる前記グループを修正対象グループとして、当該修正対象グループの音声認識辞書を前記音声認識辞書記憶部から削除すると共に、当該修正対象グループから当該除外されたテキストを除いた上で、当該修正対象グループの各テキストと当該テキストの前記ヨミ変換ルールに従って生成した発音データとの対応を表す音声認識データを格納した前記音声認識辞書を、当該グループの新たな音声認識辞書として作成し、前記音声認識辞書記憶部に格納することを特徴とするコンピュータプログラム。
請求項１０記載のコンピュータプログラムであって、
当該コンピュータプログラムは、前記コンピュータを、さらに、前記音声認識辞書記憶部に格納されている前記各グループの音声認識辞書を用いて、人間が発声した音声が表すテキストを認識する音声認識部として機能させることを特徴とするコンピュータプログラム。
請求項１４記載のコンピュータプログラムであって、
前記認識対象とするテキストは、楽曲の曲名、アーティスト名、アルバム名、ジャンル名のいずれかであることを特徴とする音声認識装置。
請求項１４記載のコンピュータプログラムであって、
前記コンピュータをさらに、楽曲を表す楽曲データを記憶した楽曲データ記憶部に記憶されている前記楽曲データを再生する楽曲再生部として機能させ、
前記認識対象とするテキストは、前記楽曲データ記憶部に記憶されている楽曲データが表す楽曲の曲名であって、
前記楽曲再生部は、前記音声認識部が認識した曲名の楽曲の楽曲データを再生することを特徴とするコンピュータプログラム。
テキストと当該テキストの発音を表す発音データとの対応を表す音声認識データを、認識対象とする各テキストについて格納した、人間が発声した音声が表すテキストを認識する音声認識装置に用いられる音声認識辞書を編集する音声認識辞書編集方法であって、
前記認識対象とする各テキストをｎ（但し、ｎは１以上の整数）個のテキスト毎のグループにグループ分けし、各グループについて、当該グループ内の各テキストと当該テキストの、テキストからの発音データの生成法を規定したヨミ変換ルールに従って生成した発音データとの対応を表す音声認識データを格納した前記音声認識辞書を、当該グループの音声認識辞書として作成し記憶する音声認識辞書生成ステップと、
ユーザによって指定されたテキストである指定テキストについての発音データの生成法がユーザから指定された生成法となるように、前記ヨミ変換ルールを修正するヨミ変換ルール修正ステップと、
前記指定テキストが含まれる前記グループを修正対象グループとして、当該修正対象グループの音声認識辞書を削除すると共に、当該修正対象グループ内の各テキストと当該テキストの前記修正後のヨミ変換ルールに従って生成した発音データとの対応を表す音声認識データを格納した前記音声認識辞書を、当該グループの新たな音声認識辞書として作成し記憶する音声認識辞書修正ステップとを有することを特徴とする音声認識辞書編集方法。
請求項１７記載の音声認識辞書編集方法であって、
前記音声認識辞書修正ステップにおいて、前記指定テキストと同じテキストが含まれる各グループの各々を前記修正対象グループとし、各修正対象グループについて、当該修正対象グループの音声認識辞書を削除すると共に、当該修正対象グループ内の各テキストと当該テキストの前記修正後のヨミ変換ルールに従って生成した発音データとの対応を表す音声認識データを格納した前記音声認識辞書を、当該グループの新たな音声認識辞書として作成し記憶することを特徴とする音声認識辞書編集方法。
請求項１７記載の音声認識辞書編集方法であって、
前記認識対象とするテキストが追加されたときに、追加された認識対象とする各テキストをｎ個のテキスト毎のグループにグループ分けし、各グループについて、当該グループ内の各テキストと当該テキストの前記ヨミ変換ルールに従って生成した発音データとの対応を表す音声認識データを格納した前記音声認識辞書を、当該グループの音声認識辞書として作成し記憶する音声認識辞書追加ステップを有することを特徴とする音声認識辞書編集方法。
請求項１７記載の音声認識辞書編集方法であって、
前記音声認識辞書修正ステップにおいて、テキストの前記認識対象とするテキストからの除外が発生したときに、当該除外されたテキストが含まれる前記グループを修正対象グループとして、当該修正対象グループの音声認識辞書を削除すると共に、当該修正対象グループから当該除外されたテキストを除いた上で、当該修正対象グループの各テキストと当該テキストの前記ヨミ変換ルールに従って生成した発音データとの対応を表す音声認識データを格納した前記音声認識辞書を、当該グループの新たな音声認識辞書として作成し記憶することを特徴とする音声認識辞書編集方法。