JP2011150169A

JP2011150169A - 音声認識装置

Info

Publication number: JP2011150169A
Application number: JP2010011919A
Authority: JP
Inventors: Chiharu Takeda; 千春武田; Shuichi Matsumoto; 修一松本
Original assignee: Alpine Electronics Inc
Current assignee: Alpine Electronics Inc
Priority date: 2010-01-22
Filing date: 2010-01-22
Publication date: 2011-08-04

Abstract

【課題】音声認識辞書作成の処理負荷を軽減する「音声認識装置」を提供する。
【解決手段】接続されたポータブルオーディオプレイヤ２２（ＰＡＰ２２）から、楽曲テキストとして「ａ」、「ｂ」、「ｄ」を含む楽曲リストが取得された場合（ａ）に、過去に生成したヨミ（発音データ）と楽曲テキストの対応を登録した全体ヨミデータに楽曲テキストが登録されている（ｂ）、「ａ」、「ｄ」については全体ヨミデータからヨミを取得して音声認識辞書に登録し（ｄ）、全体ヨミデータに楽曲テキストが登録されていない「ｂ」については、各テキストの各読み方を表すテキストを登録したヨミ生成テキスト辞書と、テキストのヨミを生成するＴＴＳ部１２とを用いてヨミを生成して（ｃ）、音声認識辞書に登録する（ｄ）。また、生成した「ｂ」のヨミを、対応する楽曲テキストとともに全体ヨミデータに登録する（ｅ）。
【選択図】図４

Description

本発明は、記憶した楽曲を再生する楽曲再生装置等において音声認識に用いる音声認識辞書を編集する技術に関するものである。

音声認識は、各テキストの発音データを、認識対象とする各テキストについて蓄積した音声認識辞書を予め用意し、ユーザの発話した音声にマッチする発音データを音声認識辞書中から探索することにより行うことが一般的である（たとえば、特許文献１）。

また、このような音声認識辞書を作成する技術としては、認識対象とする各テキストの発音データを、テキストツースピーチ(TTS ; Text To Speech)の技術を用いて生成し、音声認識辞書に登録する技術も知られている（たとえば、特許文献２）。

また、記憶した楽曲を再生する楽曲再生装置において、ユーザから楽曲名の音声入力を受け付け、楽曲名の発音データと楽曲データのＩＤとを対応づける音声認識辞書を用いて、音声入力された楽曲名の楽曲に対応するＩＤを識別し、識別したＩＤによって示される楽曲データを再生する技術も知られている（たとえば、特許文献３、４）。

特開２００８−１５８５１１号公報特開２００４−５３９７９号公報特開平１０−０９１１７６号公報特開昭５９−３８９８７号公報

さて、楽曲再生装置に、ポータブルオーディオプレイヤやリムーバブルな記憶装置などの外部装置を接続し、楽曲再生装置において、接続された外部装置の楽曲を再生する場合において、ユーザから音声入力された楽曲名を音声認識することにより、再生する楽曲の指定を受け付ける場合には、以下の問題が生じる。

すなわち、この場合には、外部装置に記憶されている各楽曲について、楽曲名の発音データと楽曲データの外部装置におけるＩＤとを対応づける、当該外部装置用の音声認識辞書を、音声入力の受け付けに先だって当該外部装置の接続時に用意する必要がある。
一方で、外部装置が楽曲再生装置から取り外されて利用されているときに、当該外部装置に対する楽曲の追加、削除などが行われた場合、各楽曲の外部装置におけるＩＤが、追加削除された楽曲のＩＤのみならず、追加削除されていない楽曲のＩＤについても変化してしまう場合がある。そして、このような場合、外部装置に記憶されている各楽曲のＩＤが変化してしまっているために、外部装置の接続時に、当該外部装置の前回の接続時に用いていた当該外部装置用の音声認識辞書を、そのまま用いることはできなくなり、外部装置に記憶されている全ての楽曲について当該楽曲の楽曲名の発音データを生成して当該楽曲のＩＤと対応づけて音声認識辞書を作成する比較的負荷の大きい処理を行う必要が生じる。

そこで、本発明は、音声認識装置において、音声認識辞書作成の処理負荷を軽減することを課題とする。

前記課題達成のために、本発明は、音声認識を行う音声認識装置に、テキストと、前記テキストの所定のルールに従って定まる順序に従った順番を表す識別番号との対応が記述されたリストより、前記テキストを読み上げた音声を表す発音データと前記識別番号との対応を登録した音声認識辞書を作成する音声認識辞書作成部と、前記音声認識辞書を参照して、発話された音声にマッチする発音データに対応する前記識別番号を識別する音声認識部とを設けたものである。ここで、前記音声認識辞書を、基本辞書と追加辞書と管理テーブルとより構成されている。また、前記音声認識辞書作成部は、前記テキストを読み上げた音声を表す発音データを生成する発音データ生成手段と、初回の音声認識辞書の作成時に、新たな基本辞書を生成し、前記リストに含まれる各テキストを読み上げた音声を表す発音データを前記発音データ生成手段で生成し、生成した発音データと、当該リストにおいて当該テキストとの対応が記述されている識別番号との対応を前記新たな基本辞書に登録する基本辞書作成手段と、前記リストに、新たなテキストについての前記識別番号との対応が追加されたときに、当該新たなテキストを読み上げた音声を表す発音データを前記発音データ生成手段で生成し、生成した発音データと、当該リストにおいて当該新たなテキストとの対応が記述されている識別番号との対応を前記追加辞書に登録すると共に、前記管理テーブルに、当該新たなテキストを登録し、前記管理テーブルに登録されている各テキストに対して、前記管理テーブルに登録されているテキストの内の前記ルールに従って定まる順序を第１の加算値として登録すると共に、前記管理テーブルに登録されている前記新たなテキスト以外のテキストに、前記ルールに従って定まる順序上、当該テキストより前の順番のテキストのうちの、前記新たなテキストの数を第２の加算値として登録する辞書追加手段とを備えている。そして、前記音声認識部は、発話された音声にマッチする発音データが前記基本辞書に登録され、発話された音声にマッチする発音データに対応するテキストが前記管理テーブルに登録されていない場合に、前記基本辞書に発話された音声にマッチする発音データとの対応が登録された前記識別番号を、前記発話された音声にマッチする発音データに対応する前記識別番号として識別し、発話された音声にマッチする発音データが前記基本辞書に登録され、発話された音声にマッチする発音データに対応するテキストが前記管理テーブルに登録されている場合に、前記基本辞書に発話された音声にマッチする発音データとの対応が登録された前記識別番号に、前記管理テーブルにおいて、発話された音声にマッチする発音データに対応するテキストに対して登録されている第１の加算値を加算した番号を、前記発話された音声にマッチする発音データに対応する前記識別番号として識別し、発話された音声にマッチする発音データが前記追加辞書に登録されている場合に、前記追加辞書に発話された音声にマッチする発音データとの対応が登録された前記識別番号に、前記管理テーブルにおいて、発話された音声にマッチする発音データに対応するテキストに対して登録されている第２の加算値を加算した番号を、前記発話された音声にマッチする発音データに対応する前記識別番号として識別するものである。

このような音声認識装置によれば、前記リストに、新たなテキストについての前記識別番号との対応が追加されたときに、音声認識辞書作成を更新する際に、発音データは、追加されたテキストについてのみ生成すれば足りる。よって、音声認識辞書更新の処理負荷が軽減される。

ここで、このような音声認識装置は、前記音声認識辞書作成部に、前記基本辞書または前記追加辞書に含まれる各発音データと当該発音データが読み上げた音声を表す前記テキストとの対応を登録した既得発音データを記憶する既得発音データ記憶手段と、前記リストが更新されたときに、当該更新が、前記リストへの新たなテキストについての前記識別番号との対応の追加によるものでない場合、もしくは、当該更新が、前記リストへの新たなテキストについての前記識別番号との対応の所定数以下の追加によるものである場合に、前記基本辞書と前記追加辞書と前記管理テーブルを消去すると共に、新たな基本辞書を生成し、当該リストに含まれるテキストのうち、前記既得発音データ記憶手段に記憶されている既得発音データに、前記発音データとの対応が登録されているテキストについては、当該テキストに対応する発音データを前記既得発音データから取得して、当該取得した発音データと、当該リストにおいて当該テキストとの対応が記述されている識別番号との対応を前記新たな基本辞書に登録し、前記既得発音データに、前記発音データとの対応が登録されていないテキストについては、前記発音データ生成手段で当該テキストを読み上げた音声を表す発音データを生成し、生成した発音データと、当該リストにおいて当該テキストとの対応が記述されている識別番号との対応を前記新たな基本に登録する音声認識辞書編集手段とを設けるようにしてもよい。

このようにすることにより、リストが更新されたときに、当該更新が前記リストへの前記識別番号とテキストとの新たな対応の追加によるものでない場合、もしくは、当該更新が前記リストへの前記識別番号とテキストとの新たな対応の所定数以下の追加によるものである場合に、音声認識辞書を更新する際に、既得発音データに登録されているテキストについては、当該既得発音データから発音データを取得するので、発音データ生成手段を用いて発音データを生成する必要がなくなり、その処理負荷が軽減する。

また、このような音声認識装置において、前記テキストは楽曲の属性を表すテキストであり、前記識別番号は前記楽曲のデータの識別を表すものであってよい。また、この場合に、前記リストは、当該音声認識装置に接続された外部装置より取得されるものであって、当該リストには、当該外部装置に楽曲データが記録されている各楽曲についての、当該楽曲の属性を表すテキストと当該楽曲の楽曲データの識別を表す識別番号との対応が記述されているものであってよい。

また、前記課題達成のために、本発明は、音声認識を行う音声認識装置に、識別対象とテキストとの対応が記述されたリストより、前記テキストを読み上げた音声を表す発音データと前記識別対象との対応を登録した音声認識辞書を作成する音声認識辞書作成部と、前記音声認識辞書を参照して、発話された音声にマッチする発音データに対応する前記識別対象を識別する音声認識部とを設けると共に、前記音声認識辞書作成部を、前記テキストを読み上げた音声を表す発音データを生成する発音データ生成手段と、前記音声認識辞書に含まれる各発音データと当該発音データが読み上げた音声を表す前記テキストとの対応を登録した既得発音データを記憶する既得発音データ記憶手段と、前記リストが更新されたときに、新たな音声認識辞書を生成し、当該リストに含まれるテキストのうち、前記既得発音データ記憶手段に記憶されている既得発音データに、前記発音データとの対応が登録されているテキストについては、当該テキストに対応する発音データを前記既得発音データから取得して、当該取得した発音データと、当該リストにおいて当該テキストとの対応が記述されている識別対象との対応を前記新たな音声認識辞書に登録し、前記既得発音データに、前記発音データとの対応が登録されていないテキストについては、前記発音データ生成手段で当該テキストを読み上げた音声を表す発音データを生成し、生成した発音データと、当該リストにおいて当該テキストとの対応が記述されている識別対象との対応を前記新たな音声認識辞書に登録する音声認識辞書編集手段とより構成したものである。

このような音声認識装置によれば、リストの更新に応じて音声認識辞書を更新する際に、既得発音データに登録されているテキストについては、当該既得発音データから発音データを取得するので、発音データ生成手段を用いて発音データを生成する必要がなくなり、その処理負荷が軽減する。

ここで、このような音声認識装置は、当該音声認識装置に、前記音声認識辞書を複数備え、前記既得発音データは、当該複数の音声認識辞書のいずれかに含まれる各発音データと当該発音データが読み上げた音声を表す前記テキストとの対応が登録されるものとしてもよい。

また、このような音声認識装置において、前記テキストは楽曲の属性を表すテキストであり、前記識別対象は前記楽曲のデータの識別を表すものであってよい、また、この場合には、前記リストは、当該音声認識装置に接続された外部装置より取得されるものであって、当該リストには、当該外部装置に楽曲データが記録されている各楽曲についての、当該楽曲の属性を表すテキストと当該楽曲の楽曲データの識別を表す識別情報との対応が記述されているものであってよい。

以上のように、本発明によれば、音声認識装置において、音声認識辞書作成の処理負荷を軽減することができる。

本発明の実施形態に係るオーディオ再生装置の構成を示すブロック図である。本発明の第１実施形態に係る音声認識データを示す図である。本発明の第１実施形態に係るＰＡＰ（ポータブルオーディオプレイヤ）用音声認識辞書編集処理を示すフローチャートである。本発明の第１実施形態に係るＰＡＰ用音声認識辞書編集処理の処理例を示す図である。本発明の第２実施形態に係る音声認識データを示す図である。本発明の第２実施形態に係るＰＡＰ用音声認識辞書編集処理を示すフローチャートである。本発明の第２実施形態に係るＰＡＰ用音声認識辞書編集処理の処理例を示す図である。本発明の第２実施形態に係るＰＡＰ用音声認識辞書編集処理の処理例を示す図である。本発明の第２実施形態に係る音声認識処理を示すフローチャートである。

以下、本発明の実施形態について説明する。
まず、第１の実施形態について説明する。
図１に、本第１実施形態に係るオーディオ再生装置の構成を示す。
図示するように、オーディオ再生装置は、マイクロフォン１、スピーカ２、入力装置３、表示装置４、ＨＤＤ５、ＵＳＢインタフェース６、ポータブルオーディオプレイヤインタフェース７、音声認識エンジン８、オーディオ出力部９、音声認識辞書編集部１０、再生制御部１１、ＴＴＳ部１２とを備えている。

ただし、このようなオーディオ再生装置は、ハードウエア的には、マイクロプロセッサや、メモリや、その他の周辺デバイスを有する一般的な構成を備えたコンピュータを利用して構成されるものであってよく、この場合、以上に示したオーディオ再生装置の音声認識エンジン８、オーディオ出力部９、音声認識辞書編集部１０、再生制御部１１、ＴＴＳ部１２の各部もしくはその一部は、マイクロプロセッサが予め用意されたプログラムを実行することにより具現化するプロセスとして実現されるものであって良い。また、この場合、このようなプログラムは、記録媒体や適当な通信路を介して、オーディオ再生装置に提供されるものであって良い。

さて、ここで、ＴＴＳ部１２は、ヨミの生成を要求されたテキストを読み上げた発音を表すヨミ（発音データ）をテキストツースピーチ(TTS ; Text To Speech)の技術によって生成する機能を備えている。
また、ＵＳＢインタフェース６には、ＵＳＢストレージ２１が選択的に接続される。
また、ポータブルオーディオプレイヤインタフェース７には、ポータブルオーディオプレイヤ２２が選択的に接続される。
ＨＤＤ５、ＵＳＢストレージ２１、ポータブルオーディオプレイヤ２２には、それぞれ楽曲データが記憶される。楽曲データは、楽曲のオーディオファイルと、各オーディオファイルの識別子となる楽曲ＩＤ、当該楽曲ＩＤのオーディオファイルの楽曲の楽曲名やアーティストやアルバムなどの属性とを対応づける楽曲ＤＢとを含んでいる。

なお、ポータブルオーディオプレイヤ２２は、記録している楽曲のオーディオファイルを再生する機能を備えている。なお、以下では、ポータブルオーディオプレイヤ２２を、「ＰＡＰ」と略記する。
また、ＨＤＤ５には、楽曲データに加え、音声認識データが記憶される。
図２に、この音声認識データの内容を示す。
図示するように、音声認識データは、ヨミ生成テキスト辞書、全体ヨミデータ、ＰＡＰ用音声認識辞書、ＨＤＤ用音声認識辞書、ＵＳＢ用音声認識辞書とより構成される。
ヨミ生成テキスト辞書は、図３ａに示すように、各テキスト毎に、当該テキストの読み方を表すテキストを候補テキストとして登録した辞書であり、当該テキストの読み方が複数ある場合には、一つのテキストに対して複数の候補テキストが登録される。ここで、ヨミ生成テキスト辞書は、予めＨＤＤ５に記録される。

次に、図２ｃに示すように、ＰＡＰ用音声認識辞書は、現在接続されているＰＡＰ２２に記憶されている各オーディオファイルの楽曲の属性を表すテキストである楽曲テキストを読み上げた発音を表すヨミ（発音データ）毎のエントリを有し、各エントリには、当該ヨミが発音を表す楽曲テキストが楽曲の属性を表すオーディオファイルの識別子となる楽曲ＩＤと、当該ヨミが発音を表す楽曲テキストとが登録される。ここで、以下では、楽曲テキストが表す楽曲の属性が楽曲の楽曲名である場合を例にとり説明する。

また、ＨＤＤ用音声認識辞書、ＵＳＢ用音声認識辞書も、ＰＡＰ用音声認識辞書と同様の構成を有している。すなわち、ＨＤＤ用音声認識辞書は、ＨＤＤ５に記憶されている各オーディオファイルの楽曲テキストを読み上げた発音を表すヨミ（発音データ）毎のエントリを有し、各エントリには、当該ヨミが発音を表す楽曲テキストが楽曲の属性を表すオーディオファイルの識別子となる楽曲ＩＤと、当該ヨミが発音を表す楽曲テキストとが登録される。また、ＵＳＢ用音声認識辞書は、現在接続されているＵＳＢストレージ２１に記憶されている各オーディオファイルの楽曲テキストを読み上げた発音を表すヨミ（発音データ）毎のエントリを有し、各エントリには、当該ヨミが発音を表す楽曲テキストが楽曲の属性を表すオーディオファイルの識別子となる楽曲ＩＤと、当該ヨミが発音を表す楽曲テキストとが登録される。

そして、全体ヨミデータは、図２ｂに示すように、最後に作成されたＨＤＤ用音声認識辞書、最後に作成されたＵＳＢ用音声認識辞書、最後に作成されたＰＡＰ用音声認識辞書のいずれかに登録されている楽曲テキスト毎のエントリを備え、各エントリには、存在フラグ、当該楽曲テキスト、当該楽曲テキストを読み上げた発音を表すヨミ（発音データ）とが登録される。存在フラグは、ＰＡＰＦ、ＨＤＤＦ、ＵＳＢＦの３種類があり、ＰＡＰＦは、当該楽曲テキストが最後に作成されたＰＡＰ用音声認識辞書に含まれていた場合に１が他の場合に０が登録され、ＨＤＤＦは、当該楽曲テキストが最後に作成されたＨＤＤ用音声認識辞書に含まれていた場合に１が他の場合に０が登録され、ＵＳＢＦは、当該楽曲テキストが最後に作成されたＵＳＢ用音声認識辞書に含まれていた場合に１が他の場合に０が登録される。

以下、このようなＨＤＤ用音声認識辞書、ＵＳＢ用音声認識辞書、ＰＡＰ用音声認識辞書の作成動作を、ＰＡＰ用音声認識辞書の作成、編集の動作を例にとり説明する。
図３に、音声認識辞書編集部１０が行うＰＡＰ用音声認識辞書編集処理を示す。
ここで、このＰＡＰ用音声認識辞書編集処理は、オーディオ再生装置にＰＡＰ２２が接続されたときに行う。
さて、図示するように、このＰＡＰ用音声認識辞書編集処理では、まず、ＰＡＰ２２の楽曲ＤＢから、ＰＡＰ２２に記録されている各オーディオファイルの識別子であるところの楽曲ＩＤと、各オーディオファイルの楽曲の楽曲名であるところの楽曲テキストの組のリストである楽曲リストを取得する（ステップ３００）。
そして、取得した楽曲リストが、前回ＰＡＰ用音声認識辞書作成時に用いたものと同じ楽曲リストであるかどうかを判定する（ステップ３０２）。この判定は、現在ＨＤＤ５に記録されている、ＰＡＰ用音声認識辞書の各エントリに登録されている楽曲ＩＤと楽曲テキストの組の全てが、楽曲リストに登録されており、かつ、ＰＡＰ用音声認識辞書に登録されていない楽曲ＩＤと楽曲テキストの組が、楽曲リストに含まれていない場合に、取得した楽曲リストが、前回ＰＡＰ用音声認識辞書作成時に用いたものと同じと判定することにより行う。

そして、取得した楽曲リストが、前回ＰＡＰ用音声認識辞書作成時に用いたものと同じ楽曲リストであれば（ステップ３０２）、そのままＰＡＰ用音声認識辞書編集処理を終了する。
一方、取得した楽曲リストが、前回ＰＡＰ用音声認識辞書作成時に用いたものと同じ楽曲リストでなければ（ステップ３０２）、ＨＤＤ５に記録されているＰＡＰ用音声認識辞書の内容を消去し（ステップ３０４）、全体ヨミデータの全てのエントリの存在フラグのＰＡＰＦを０にクリアする（ステップ３０６）。
そして、取得リストに含まれる楽曲ＩＤと楽曲テキストの各組について（ステップ３０８、３２４、３２６）、以下の処理を行う。

すなわち、まず、当該組の楽曲テキストが全体ヨミデータに登録されているかどうかを調べ（ステップ３１０）、登録されていない場合には、ヨミ生成テキスト辞書から得られる当該組の楽曲テキストの各候補テキストのヨミの生成をＴＴＳ部１２に要求することにより、各候補テキストを読み上げた発音を表すヨミ（発音データ）を取得する（ステップ３１２）。そしてＰＡＰ用音声認識辞書に、取得した各ヨミに対応するエントリを作成し、作成したエントリに対応するヨミと、当該組の楽曲ＩＤと楽曲テキストを登録する（ステップ３１４）。また、全体ヨミデータに新たなエントリを作成し、当該組の楽曲テキストと、取得した各ヨミを登録すると共に、当該エントリの存在フラグのＰＡＰＦを１に設定する（ステップ３１６）。

一方、ステップ３１０において、当該組の楽曲テキストが全体ヨミデータに登録されていると判定された場合には、全体ヨミデータの当該組の楽曲テキストが登録されているエントリから、当該楽曲テキストを読み上げた発音を表すヨミ（発音データ）を取得する（ステップ３１８）。そして、ＰＡＰ用音声認識辞書に、取得した各ヨミに対応するエントリを作成し、作成したエントリに対応するヨミと、当該組の楽曲ＩＤと楽曲テキストを登録する（ステップ３２０）。また、全体ヨミデータの当該組の楽曲テキストが登録されているエントリ（ステップ３１８でヨミを取得した全体ヨミデータのエントリ）の存在フラグのＰＡＰＦを１に設定する（ステップ３２２）。

そして、以上の処理を取得リストに含まれる楽曲ＩＤと楽曲テキストの各組について行ったならば、全体ヨミデータの存在フラグのＰＡＰＦ、ＨＤＤＦ、ＵＳＢＦの全てが０のエントリを全体ヨミデータから削除し（ステップ３２８）、ＰＡＰ用音声認識辞書作成処理を終了する。

以上、ＰＡＰ用音声認識辞書作成処理について説明した。
なお、以上のＰＡＰ用音声認識辞書作成処理のステップ３１４、３１８、３２０に代えて、以上の処理によって全体ヨミデータに登録されていない楽曲テキストのヨミと楽曲テキストの組を全て全体ヨミデータに登録した後に、取得リストに含まれる楽曲ＩＤと楽曲テキストの各組について上述したステップ３１８、３２０の処理を行うことにより、全体ヨミデータにのみ基づいてＰＡＰ用音声認識辞書を作成するようにしてもよい。
以下、このようなＰＡＰ用音声認識辞書作成処理の処理例について説明する。
いま、ＰＡＰ２２が接続されて、図４ａに示す楽曲テキストとして「ａ」、「ｂ」、「ｄ」を含む楽曲リストがＰＡＰ２２から取得された場合に、全体ヨミデータには、図４ｂに示すように、「ａ」、「ｃ」、「ｄ」の楽曲テキストが登録されており、「ｂ」の楽曲テキストは登録されていない場合を考える。

この場合、ＰＡＰ用音声認識辞書作成処理では、楽曲リストに含まれる「ａ」、「ｄ」の楽曲テキストについては全体ヨミデータからヨミが取得され、対応する楽曲テキストと楽曲ＩＤと共に図４ｄに示すＰＡＰ用音声認識辞書に登録され、楽曲リストに含まれる「ｂ」の楽曲テキストについては、図４ｃのヨミ生成テキスト辞書とＴＴＳ部１２を用いてヨミが生成され、対応する楽曲テキストと楽曲ＩＤと共に図４ｄに示すＰＡＰ用音声認識辞書に登録される。

また、この際に、図４ｅに示すように、楽曲リストに含まれる「ｂ」の楽曲テキストのエントリが全体ヨミデータに作成され、作成したエントリにヨミ生成テキスト辞書とＴＴＳ部１２を用いて生成した「ｂ」のヨミが登録され、当該「ｂ」のエントリの存在フラグのＰＡＰＦが１に設定される。また、全体ヨミデータの、ヨミの取得に用いられた「ａ」、「ｄ」のエントリの存在フラグのＰＡＰＦが１に設定される。

一方、図４ｂに示す全体ヨミデータのエントリのうち、ヨミの取得に用いられなかった「ｃ」のエントリの存在フラグのＰＡＰＦは０に設定される。そして、この結果、全体ヨミデータの「ｃ」のエントリの存在フラグのＰＡＰＦ、ＨＤＤＦ、ＵＳＢＦの全てが０となるため、当該「ｃ」のエントリは、全体ヨミデータから削除される。

以上、ＰＡＰ用音声認識辞書の作成、編集の動作について説明した。なお、ＵＳＢ用音声認識辞書の作成、編集も、オーディオ再生装置にＵＳＢストレージ２１が接続されたときに、ＰＡＰ用音声認識辞書編集処理と同様の処理をＵＳＢストレージ２１の楽曲ＤＢを対象として行うことにより実現される。また、ＨＤＤ用音声認識辞書の作成、編集は、ＨＤＤ５の楽曲ＤＢが変更されたときに、ＰＡＰ用音声認識辞書編集処理と同様の処理をＨＤＤ５の楽曲ＤＢを対象として行うことにより実現される。

さて、図１に戻り、次に、再生制御部１１が行う再生制御処理について説明する。
再生制御部１１は、入力装置３を介してユーザからＨＤＤ記録楽曲の再生を指示されると、ＨＤＤ再生モードを設定し、ユーザの操作に応じてＨＤＤ５に記録されているオーディオファイルの再生を制御する。ここで、オーディオファイルの再生は、再生するオーディオファイルを再生対象オーディオファイルとしてオーディオ出力部９に指示することにより行う。オーディオ出力部９は、再生対象オーディオファイルとして指示されたオーディオファイルをＨＤＤ５から読み出して復号しスピーカ２に出力する。

また、再生制御部１１は、ＨＤＤ再生モードを設定したならば、ＨＤＤ用音声認識辞書を使用音声認識辞書として音声認識エンジン８に設定する。そして、音声認識エンジン８は、使用音声認識辞書を用いて、マイクロフォン１から入力する音声の音声認識処理を行う。ここで、この音声認識処理において、音声認識エンジン８は、使用音声認識辞書の入力音声にマッチするヨミが登録されているエントリを探索し、探索したエントリに登録されている楽曲ＩＤを再生制御部１１に通知する。そして、再生制御部１１は、音声認識エンジン８から楽曲ＩＤが通知されたならば、ＨＤＤ５の楽曲ＤＢを参照して、通知された楽曲ＩＤのオーディオファイルを再生対象オーディオファイルとしてオーディオ出力部９に設定することにより、当該楽曲ＩＤのオーディオファイル、すなわち、ユーザが発話した楽曲名の楽曲の再生とスピーカ２への出力を行う。

次に、再生制御部１１は、ＵＳＢストレージ２１が接続されているときに、入力装置３を介してユーザからＵＳＢストレージ記録楽曲の再生を指示されると、ＵＳＢストレージ再生モードを設定し、ユーザの操作に応じてＵＳＢストレージ２１に記録されているオーディオファイルの再生を制御する。ここで、オーディオファイルの再生は、再生するオーディオファイルを再生対象オーディオファイルとしてオーディオ出力部９に指示することにより行う。オーディオ出力部９は、再生対象オーディオファイルとして指示されたオーディオファイルをＵＳＢストレージ２１がから読み出して復号しスピーカ２に出力する。

また、再生制御部１１は、ＵＳＢストレージ２１が再生モードを設定したならば、ＵＳＢ用音声認識辞書を使用音声認識辞書として音声認識エンジン８に設定する。そして、音声認識エンジン８は、使用音声認識辞書を用いて、マイクロフォン１から入力する音声の前述した音声認識処理を行って、楽曲ＩＤを再生制御部１１に通知する。そして、再生制御部１１は、音声認識エンジン８から楽曲ＩＤが通知されたならば、ＵＳＢストレージ２１の楽曲ＤＢを参照して、通知された楽曲ＩＤのオーディオファイルを再生対象オーディオファイルとしてオーディオ出力部９に設定することにより、当該楽曲ＩＤのオーディオファイル、すなわち、ユーザが発話した楽曲名の楽曲の再生とスピーカ２への出力を行う。

次に、再生制御部１１は、ＰＡＰ２２が接続されているときに、入力装置３を介してユーザからＰＡＰ記録楽曲の再生を指示されると、ＰＡＰ再生モードを設定し、ユーザの操作に応じてＰＡＰ２２に記録されているオーディオファイルの再生を制御する。ここで、ＰＡＰ２２の再生は、再生するオーディオファイルの楽曲ＩＤを指定した再生要求をＰＡＰ２２に発行してＰＡＰ２２に、当該オーディオファイルの再生と、再生した信号/データの出力を行わせると共に、オーディオ出力部９にＰＡＰ２２から出力された信号/データの表す音声をスピーカ２に出力させることにより行う。

また、再生制御部１１は、ＰＡＰ再生モードを設定したならば、ＰＡＰ用音声認識辞書を使用音声認識辞書として音声認識エンジン８に設定する。そして、音声認識エンジン８は、使用音声認識辞書を用いて、マイクロフォン１から入力する音声の前述した音声認識処理を行って、楽曲ＩＤを再生制御部１１に通知する。そして、再生制御部１１は、音声認識エンジン８から楽曲ＩＤが通知されたならば、通知された楽曲ＩＤを指定した再生要求をＰＡＰ２２に発行することにより、当該楽曲ＩＤのオーディオファイル、すなわち、ユーザが発話した楽曲名の楽曲の再生とスピーカ２への出力を行う。

以上、本発明の第１の実施形態について説明した。
以上のように、本第１実施形態によれば、楽曲テキストと楽曲ＩＤとの対応が変化したときにＰＡＰ用音声認識辞書やＵＳＢ用音声認識辞書やＨＤＤ用音声認識辞書を更新する際に、全体ヨミデータに登録されている楽曲テキストについては、当該全体ヨミデータからヨミを取得するので、ヨミ生成テキスト辞書やＴＴＳ部１２を用いてヨミを生成する必要がなくなり、その処理負荷が軽減する。

以下、本発明の第２の実施形態について説明する。
本第２実施形態に係るオーディオ再生装置の構成は、図１に示した第１実施形態に係るオーディオ再生装置の構成を同じである。
但し、本第２実施形態では、ＨＤＤ５に記録する音声認識データとして、図５に示すように、ヨミ生成テキスト辞書と、ＰＡＰ用音声認識辞書、ＨＤＤ用音声認識辞書、ＵＳＢ用音声認識辞書とより構成する。
ヨミ生成テキスト辞書は、図５ａに示すように、先に図２ａに示した第１実施形態に係るヨミ生成テキスト辞書と同じものである。
一方、本第２実施形態では、ＰＡＰ用音声認識辞書、ＨＤＤ用音声認識辞書、ＵＳＢ用音声認識辞書は、図５ｂにＰＡＰ用音声認識辞書について示したように、基本辞書と、追加辞書と、楽曲ＩＤ管理テーブルより構成する。
基本辞書は、現在接続されているＰＡＰ２２に記憶されている各オーディオファイルの楽曲テキストを読み上げた発音を表すヨミ（発音データ）毎のエントリを有し、各エントリには、当該ヨミが発音を表す楽曲テキストが楽曲の属性を表すオーディオファイルの基本辞書作成時の楽曲ＩＤと、当該ヨミが発音を表す楽曲テキストとが登録される。

また、追加辞書は、現在接続されているＰＡＰ２２に記憶されているオーディオファイルであって、基本辞書作成時にＰＡＰ２２に記憶されていなかった各オーディオファイルの楽曲テキストを読み上げた発音を表すヨミ（発音データ）毎のエントリを有し、各エントリには、当該ヨミが発音を表す楽曲テキストが楽曲の属性を表すオーディオファイルの、当該エントリ作成時の当該オーディオファイルの楽曲ＩＤと、当該オーディオファイルの楽曲の楽曲テキストと、当該ヨミが発音を表す楽曲テキストとが登録される。

また、楽曲ＩＤ管理テーブルには、追加辞書の各エントリに対応するエントリが設けられ、各エントリには対応する追加辞書のエントリに登録されている楽曲テキストと、+ID1、+ID2の数値が登録される。
以下、本第２実施形態における、ＨＤＤ用音声認識辞書、ＵＳＢ用音声認識辞書、ＰＡＰ用音声認識辞書の作成動作を、ＰＡＰ用音声認識辞書の作成、編集の動作を例にとり説明する。
図６に、音声認識辞書編集部１０が行うＰＡＰ用音声認識辞書編集処理を示す。
ここで、このＰＡＰ用音声認識辞書編集処理は、オーディオ再生装置にＰＡＰ２２が接続されたときに行う。
さて、図示するように、このＰＡＰ用音声認識辞書編集処理では、ＰＡＰ２２の楽曲ＤＢから、ＰＡＰ２２に記録されている各オーディオファイルの楽曲ＩＤと楽曲テキストの組のリストである楽曲リストを取得する（ステップ６００）。但し、楽曲リストにおいて、楽曲ＩＤは、楽曲リストに含まれる楽曲テキスト中における、当該楽曲ＩＤと同組の楽曲テキストのテキスト順序上の順番（012、...ａｂｃ、...あいうえお順の順番）を表すように設定されているものとする。すなわち、「ａ」、「ｄ」、「ｇ」の三つの楽曲テキストのみが楽曲リストに含まれる場合、楽曲リストに含まれる楽曲テキスト「ａ」、「ｄ」、「ｇ」中における「ａ」のテキスト順序の順番は１番目であるので楽曲ＩＤは１となり、楽曲リストに含まれる楽曲テキスト「ａ」、「ｄ」、「ｇ」中における「ｄ」のテキスト順序の順番は２番目であるので楽曲ＩＤは２となり、楽曲リストに含まれる楽曲テキスト「ａ」、「ｄ」、「ｇ」中における「ｇ」のテキスト順序の順番は３番目であるので楽曲ＩＤは３となる。

そして、取得した楽曲リストが、前回ＰＡＰ用音声認識辞書作成処理を行ったときにＰＡＰ２２から取得した楽曲リストと同じ楽曲リストであるところの最終使用楽曲リストと同じであるかどうかを判定する（ステップ６０２）。この判定は、たとえば、各回のＰＡＰ用音声認識辞書作成処理においてＰＡＰ２２から取得した楽曲リストで更新される最終使用楽曲リストをＨＤＤ５に保持し、保持した最終使用楽曲リストと取得した楽曲リストとの一致の有無を調べることにより行う。

そして、取得した楽曲リストが最終使用楽曲リストと同じであれば、そのままＰＡＰ用音声認識辞書編集処理を終了する。
一方、取得した楽曲リストが最終使用楽曲リストと同じでなければ（ステップ６０２）、取得した楽曲リストに、最終使用楽曲リストに含まれる楽曲テキストの全てが含まれているかどうか、すなわち、取得した楽曲リストが、最終使用楽曲リストに楽曲テキストを追加したものであるかどうかを調べ（ステップ６０４）、取得した楽曲リストが、最終使用楽曲リストに楽曲テキストを追加したものでなければ、ステップ６１８に進む。

一方、取得した楽曲リストが、最終使用楽曲リストに楽曲テキストを追加したものであれば、ＰＡＰ用音声認識辞書に基本辞書が含まれているかどうかを調べる（ステップ６０６）。なお、初期状態において、ＰＡＰ用音声認識辞書には、基本辞書、追加辞書、楽曲ＩＤ管理テーブルのいずれも含まれていない。

そして、基本辞書が含まれていなければステップ６１８に進む。
そして、このようにしてステップ６１８に進んだならば、基本辞書、追加辞書、楽曲ＩＤ管理テーブルのうち、ＰＡＰ用音声認識辞書に含まれているものを削除する。そして、基本辞書を作成し、取得した楽曲リストに含まれる各楽曲テキストのヨミ生成テキスト辞書を参照して得られる各候補テキストのヨミを、各候補テキストのヨミの生成をＴＴＳ部１２に要求することにより取得する。そして、取得した各ヨミに対応するエントリを基本辞書に作成し、作成したエントリに、取得したヨミを、対応する組の楽曲ＩＤと、対応する組の楽曲テキストと共に登録し（ステップ６２０）、ＰＡＰ用音声認識辞書編集処理を終了する。

一方、基本辞書が含まれている場合には（ステップ６０６）、取得した楽曲リストに含まれる楽曲ＩＤと楽曲テキストの組のうちの、最終使用楽曲リストに対して追加された各楽曲テキストのヨミ生成テキスト辞書を参照して得られる各候補テキストのヨミを、各候補テキストのヨミの生成をＴＴＳ部１２に要求することにより取得する。そして、追加辞書が作成されていない場合には追加辞書を作成した上で、取得した各ヨミに対応するエントリを基本辞書に作成し、作成したエントリに、取得したヨミを、対応する組の楽曲ＩＤと、対応する組の楽曲テキストと共に登録する（ステップ６０８）。

そして、楽曲ＩＤ管理テーブルが作成されていない場合には楽曲ＩＤ管理テーブルを作成した上で、楽曲ＩＤ管理テーブルに、取得した楽曲リストに含まれる最終使用楽曲リストに対して追加された各楽曲テキストを登録したエントリを作成し、作成したエントリの+ID2に0を設定する（ステップ６１０）。

そして、楽曲ＩＤ管理テーブルの各エントリを、各エントリに登録されている楽曲テキストが前述したテキスト順序上の順番に並ぶようにソートし（ステップ６１２）、楽曲ＩＤ管理テーブルの各エントリの+ID1に、そのエントリの楽曲ＩＤ管理テーブル内の順番を設定する（ステップ６１４）。そして、楽曲ＩＤ管理テーブルのエントリのうち、ステップ６０８で作成した最終使用楽曲リストに対して追加された楽曲テキストを含むエントリ以外の各エントリの+ID2に、当該エントリより楽曲ＩＤ管理テーブル内の順番が前の、ステップ６０８で作成した最終使用楽曲リストに対して追加された楽曲テキストを含むエントリの数を登録し（ステップ６１６）、ＰＡＰ音声認識辞書編集処理を終了する。

以上、本第２実施形態に係る、ＰＡＰ音声認識辞書編集処理について説明した。
以下、このようなＰＡＰ用音声認識辞書作成処理の処理例について説明する。
いま、ＰＡＰ２２が初めて接続されて、図７ａに示す楽曲テキストとして「ａ」、「ｅ」、「ｇ」、「ｋ」、「ｍ」、「ｐ」を含む楽曲リストがＰＡＰ２２から取得された場合、この時点では、ＰＡＰ用音声認識辞書に基本辞書は作成されていないので、基本辞書が作成され、作成した基本辞書に、ヨミ生成テキスト辞書とＴＴＳ部１２とを用いて生成した「ａ」、「ｅ」、「ｇ」、「ｋ」、「ｍ」、「ｐ」のヨミが、対応する楽曲テキストと楽曲ＩＤと共に図７ｂに示すように登録される。

次に、次回、ＰＡＰ接続されたときに、ＰＡＰ２２から取得された楽曲リストが、図８ａ１に示すように、図７ａに示す楽曲リストに対して「ｃ」、「ｊ」の楽曲テキストが追加されたものであった場合、図８ｂ１に示すように、基本辞書は図７ｂのまま維持される。また、図８ｂ１に示すように、追加辞書と楽曲ＩＤ管理テーブルが作成され、作成した追加辞書に、ヨミ生成テキスト辞書とＴＴＳ部１２とを用いて生成した「ｃ」、「ｊ」のヨミが、対応する楽曲テキストと楽曲ＩＤと共に登録される。また、楽曲ＩＤ管理テーブルに、「ｃ」、「ｊ」の楽曲テキストがテキスト順序上の順番で登録され、楽曲ＩＤ管理テーブルの「ｃ」、「ｊ」のエントリの+ID1に、当該エントリの楽曲ＩＤ管理テーブル内の順番、すなわち、「ｃ」、「ｊ」の、楽曲ＩＤ管理テーブルに登録されている楽曲テキスト「ｃ」、「ｊ」の内でのテキスト順序上の順番が登録される。また、楽曲ＩＤ管理テーブルの新たに登録された「ｃ」、「ｊ」のエントリの+ID2には0が登録される。

ここで、楽曲ＩＤ管理テーブルのＮ番目のエントリの+ID1は、基本辞書に登録されている楽曲テキストのうちの、当該Ｎ番目のエントリに登録されている楽曲テキストよりテキスト順序上の順番が後であって、当該Ｎ番目のエントリの次のエントリである楽曲ＩＤ管理テーブルのＮ+１番目のエントリに登録されている楽曲テキストよりテキスト順序上の順番が前である楽曲テキストの真の楽曲ＩＤは、基本辞書の当該楽曲テキストのエントリに登録されている楽曲ＩＤに、当該楽曲ＩＤ管理テーブルのＮ番目のエントリの+ID1の値を加算したものであることを表している。

次に、さらに次回、ＰＡＰ接続されたときに、ＰＡＰ２２から取得された楽曲リストが、図８ａ２に示すように、図８ａ１に示す楽曲リストに対して「ｂ」、「ｈ」の楽曲テキストが追加されたものであった場合、図８ｂ２に示すように、基本辞書は図７ｂのまま維持される。また、図８ｂ２に示すように、追加辞書に、ヨミ生成テキスト辞書とＴＴＳ部１２とを用いて生成した「ｂ」、「ｈ」のヨミが、対応する楽曲テキストと楽曲ＩＤと共に登録される。

そして、図８ｂ１のように「ｃ」、「ｊ」のエントリを有する楽曲ＩＤ管理テーブルに、「ｂ」、「ｈ」のエントリが追加された後、各エントリが、登録されている楽曲テキストのテキスト順序上の順番でソートされ、楽曲ＩＤ管理テーブルのエントリは、「ｂ」、「ｃ」、「ｈ」、「ｊ」の楽曲テキストのエントリの順番となる。そして、楽曲ＩＤ管理テーブルの各エントリの+ID1に、当該エントリの楽曲ＩＤ管理テーブル内の順番、すなわち、「ｂ」、「ｃ」、「ｈ」、「ｊ」の、楽曲ＩＤ管理テーブルに登録されている楽曲テキスト「ｂ」、「ｃ」、「ｈ」、「ｊ」の内でのテキスト順序上の順番が登録される。また、楽曲ＩＤ管理テーブルの、新たに登録された「ｂ」、「ｈ」のエントリの+ID2には0が登録される。一方、新たに登録された「ｂ」、「ｈ」のエントリ以外の「ｃ」、「ｊ」のエントリの+ID2には、楽曲ＩＤ管理テーブル内の順番が自エントリより前の順番のエントリであって、新たに登録されたエントリの数が登録される。すなわち、「ｃ」のエントリには、楽曲ＩＤ管理テーブル内において「ｃ」のエントリより前のエントリのうちの新たに登録されたエントリは「ｂ」のエントリのみであるので、+ID2として１を登録する。また、「ｊ」のエントリには、楽曲ＩＤ管理テーブル内において「ｊ」のエントリより前のエントリのうちの新たに登録されたエントリは「ｂ」と「ｈ」の二つのエントリであるので、+ID2として２を登録する。

ここで、前述したように、楽曲ＩＤ管理テーブルのＮ番目のエントリの+ID1は、基本辞書に登録されている楽曲テキストのうちの、当該Ｎ番目のエントリに登録されている楽曲テキストよりテキスト順序上の順番が後であって、当該Ｎ番目のエントリの次の楽曲ＩＤ管理テーブルのＮ+１番目のエントリに登録されている楽曲テキストよりテキスト順序上の順番が前である楽曲テキストの真の楽曲ＩＤは、基本辞書の当該楽曲テキストのエントリに登録されている楽曲ＩＤに、当該楽曲ＩＤ管理テーブルのＮ番目のエントリの+ID1の値を加算したものであることを表している。

また、楽曲ＩＤ管理テーブルのエントリＡの+ID2は、当該エントリＡに登録されている楽曲テキストの真の楽曲ＩＤは、追加辞書の当該楽曲テキストのエントリに登録されている楽曲ＩＤに、当該エントリＡに登録されている+ID2の値を加算したものであることを表している。
以上、本第２実施形態に係るＰＡＰ用音声認識辞書の作成、編集の動作について説明した。なお、ＵＳＢ用音声認識辞書の作成、編集も、オーディオ再生装置にＵＳＢストレージ２１が接続されたときに、ＰＡＰ用音声認識辞書編集処理と同様の処理をＵＳＢストレージ２１の楽曲ＤＢを対象として行うことにより実現される。また、ＨＤＤ用音声認識辞書の作成、編集は、ＨＤＤ５の楽曲ＤＢが変更されたときに、ＰＡＰ用音声認識辞書編集処理と同様の処理をＨＤＤ５の楽曲ＤＢを対象として行うことにより実現される。

次に、本第２実施形態に係る再生制御部１１が行う再生制御処理は、前記第１実施形態と同様であるが、音声認識エンジン８は、使用音声認識辞書を用いながら、図９に示す音声認識処理によってマイクロフォン１から入力する音声の音声認識を行う。
すなわち、音声認識エンジン８は、入力音声にマッチするヨミが、使用音声認識辞書の基本辞書に登録されているかどうかを調べ（ステップ９００）、入力音声にマッチするヨミが基本辞書に登録されている場合には、入力音声にマッチしたヨミを認識ヨミとして、楽曲ＩＤ管理テーブルが存在しているかどうかを、さらに調べる（ステップ９０２）。

そして、楽曲ＩＤ管理テーブルが存在していなければ（ステップ９０２）、基本辞書の認識ヨミが登録されているエントリに登録されている楽曲ＩＤを再生制御部１１に通知し（ステップ９０４）、音声認識処理を終了する。
一方、ステップ９０２において、使楽曲ＩＤ管理テーブルが存在していると判定された場合には、基本辞書の認識ヨミが登録されているエントリに登録されている楽曲テキストより前述したテキスト順序上の順番が前の楽曲テキストが登録されている楽曲ＩＤ管理テーブルのエントリの内の楽曲ＩＤ管理テーブル内の順番が最後のエントリに登録されている+ID1の値を取得する（ステップ９０６）。そして、基本辞書の認識ヨミが登録されているエントリに登録されている楽曲ＩＤに、取得した+ID1の値を加算した値を楽曲ＩＤとして再生制御部１１に通知し（ステップ９０８）、音声認識処理を終了する。

次に、ステップ９００において、入力音声にマッチするヨミが使用音声認識辞書の基本辞書に登録されていないと判定された場合には、入力音声にマッチするヨミが使用音声認識辞書の追加辞書に登録されているかどうかを調べ（ステップ９１０）、登録されていない場合には音声認識失敗として（ステップ９１６）、音声認識処理を終了する。

一方、入力音声にマッチするヨミが使用音声認識辞書の追加辞書に登録されている場合には（ステップ９１０）、入力音声にマッチしたヨミを認識ヨミとして、追加辞書の認識ヨミが登録されているエントリに登録されている楽曲テキストが登録されている、楽曲ＩＤ管理テーブルのエントリの+ID2の値を取得する（ステップ９１２）。そして、追加辞書の認識ヨミが登録されているエントリに登録されている楽曲ＩＤに、取得した+ID2の値を加算した値を楽曲ＩＤとして再生制御部１１に通知し（ステップ９１４）、音声認識処理を終了する。

以上、本発明の第２の実施形態について説明した。
以上のように、本第２実施形態によれば、オーディオファイルが追加されたために、楽曲ＤＢに楽曲テキストと楽曲ＩＤとの組が追加されると共に、楽曲テキストと楽曲ＩＤとの対応が変化したときにＰＡＰ用音声認識辞書やＵＳＢ用音声認識辞書やＨＤＤ用音声認識辞書を更新する際に、楽曲テキストのヨミは、追加された楽曲テキストについてのみ生成すれば足りる。よって、これら音声認識辞書更新の処理負荷が軽減される。

ところで、以上に示した第２実施形態は、これに第１実施形態を組み合わせて実施することもできる。
すなわち、第２実施形態において、全体ヨミデータを設け、当該全体ヨミデータに、最後に作成されたＨＤＤ用音声認識辞書の基本辞書と追加辞書、最後に作成されたＵＳＢ用音声認識辞書の基本辞書と追加辞書、最後に作成されたＰＡＰ用音声認識辞書の基本辞書と追加辞書のいずれかに登録されている楽曲テキスト毎のエントリを設け、各エントリに、存在フラグ、当該楽曲テキスト、当該楽曲テキストを読み上げた発音を表すヨミ（発音データ）とを登録する。

そして、ＰＡＰ用音声認識辞書について述べれば、図６に示した第２実施形態に係るＰＡＰ用音声認識辞書編集処理のステップ６２０の処理に代えて、図３に示した第１実施形態に係るＰＡＰ用音声認識辞書編集処理のステップ３０６-３２８の処理を、基本辞書を第１実施形態に係るＰＡＰ用音声認識辞書に置き換えて適用するようにする。これにより、取得した楽曲リストが、最終使用楽曲リストと同じでなく、かつ、最終使用楽曲リストに楽曲テキストを追加したものでない場合に、第１実施形態で示した全体ヨミデータを利用した基本辞書作成が可能となる。

なお、この場合、音声認識エンジン８における音声認識処理は、図９に示した第２実施形態に係る音声認識処理により行うようにする。
また、この場合、図６に示した第２実施形態に係るＰＡＰ用音声認識辞書編集処理のステップ６０４において、取得した楽曲リストが、最終使用楽曲リストに楽曲テキストを追加したものであると判定された場合であっても、追加楽曲テキスト数が所定数より多い場合には、ステップ６１８に進むようにしてもよい。このようにすることにより、追加楽曲テキスト数が所定数より多い場合には、第１実施形態で示した全体ヨミデータを利用した基本辞書作成が可能となる。

また、以上の実施形態では、楽曲テキストがオーディオファイルの楽曲の楽曲名を表すものである場合について説明したが、楽曲テキストは、オーディオファイルの楽曲のアーティストやアルバムなどの他の属性を表すものとしてもよい。
また、本実施形態は、楽曲ＩＤに代えて任意の識別対象を、楽曲テキストに代えて任意のテキストを用いて行う音声認識に用いる音声認識辞書の更新に同様に適用することができる。

１…マイクロフォン、２…スピーカ、３…入力装置、４…表示装置、５…ＨＤＤ、６…ＵＳＢインタフェース、７…ポータブルオーディオプレイヤインタフェース、８…音声認識エンジン、９…オーディオ出力部、１０…音声認識辞書編集部、１１…再生制御部、１２…ＴＴＳ部、２１…ＵＳＢストレージ、２２…ポータブルオーディオプレイヤ、２２…ポータブルオーディオプレイヤ（ＰＡＰ）。

Claims

音声認識を行う音声認識装置であって、
テキストと、前記テキストの所定のルールに従って定まる順序に従った順番を表す識別番号との対応が記述されたリストより、前記テキストを読み上げた音声を表す発音データと前記識別番号との対応を登録した音声認識辞書を作成する音声認識辞書作成部と、
前記音声認識辞書を参照して、発話された音声にマッチする発音データに対応する前記識別番号を識別する音声認識部とを有し、
前記音声認識辞書は、基本辞書と追加辞書と管理テーブルとより構成され、
前記音声認識辞書作成部は、
前記テキストを読み上げた音声を表す発音データを生成する発音データ生成手段と、
初回の音声認識辞書の作成時に、新たな基本辞書を生成し、前記リストに含まれる各テキストを読み上げた音声を表す発音データを前記発音データ生成手段で生成し、生成した発音データと、当該リストにおいて当該テキストとの対応が記述されている識別番号との対応を前記新たな基本辞書に登録する基本辞書作成手段と、
前記リストに、新たなテキストについての前記識別番号との対応が追加されたときに、当該新たなテキストを読み上げた音声を表す発音データを前記発音データ生成手段で生成し、生成した発音データと、当該リストにおいて当該新たなテキストとの対応が記述されている識別番号との対応を前記追加辞書に登録すると共に、前記管理テーブルに、当該新たなテキストを登録し、前記管理テーブルに登録されている各テキストに対して、前記管理テーブルに登録されているテキストの内の前記ルールに従って定まる順序を第１の加算値として登録すると共に、前記管理テーブルに登録されている前記新たなテキスト以外のテキストに、前記ルールに従って定まる順序上、当該テキストより前の順番のテキストのうちの、前記新たなテキストの数を第２の加算値として登録する辞書追加手段とを有し、
前記音声認識部は、
発話された音声にマッチする発音データが前記基本辞書に登録され、発話された音声にマッチする発音データに対応するテキストが前記管理テーブルに登録されていない場合に、前記基本辞書に発話された音声にマッチする発音データとの対応が登録された前記識別番号を、前記発話された音声にマッチする発音データに対応する前記識別番号として識別し、
発話された音声にマッチする発音データが前記基本辞書に登録され、発話された音声にマッチする発音データに対応するテキストが前記管理テーブルに登録されている場合に、前記基本辞書に発話された音声にマッチする発音データとの対応が登録された前記識別番号に、前記管理テーブルにおいて、発話された音声にマッチする発音データに対応するテキストに対して登録されている第１の加算値を加算した番号を、前記発話された音声にマッチする発音データに対応する前記識別番号として識別し、
発話された音声にマッチする発音データが前記追加辞書に登録されている場合に、前記追加辞書に発話された音声にマッチする発音データとの対応が登録された前記識別番号に、前記管理テーブルにおいて、発話された音声にマッチする発音データに対応するテキストに対して登録されている第２の加算値を加算した番号を、前記発話された音声にマッチする発音データに対応する前記識別番号として識別することを特徴とする音声認識装置。
請求項１記載の音声認識装置であって、
前記音声認識辞書作成部は、
前記基本辞書または前記追加辞書に含まれる各発音データと当該発音データが読み上げた音声を表す前記テキストとの対応を登録した既得発音データを記憶する既得発音データ記憶手段と、
前記リストが更新されたときに、当該更新が、前記リストへの新たなテキストについての前記識別番号との対応の追加によるものでない場合、もしくは、当該更新が、前記リストへの新たなテキストについての前記識別番号との対応の所定数以下の追加によるものである場合に、前記基本辞書と前記追加辞書と前記管理テーブルを消去すると共に、新たな基本辞書を生成し、当該リストに含まれるテキストのうち、前記既得発音データ記憶手段に記憶されている既得発音データに、前記発音データとの対応が登録されているテキストについては、当該テキストに対応する発音データを前記既得発音データから取得して、当該取得した発音データと、当該リストにおいて当該テキストとの対応が記述されている識別番号との対応を前記新たな基本辞書に登録し、前記既得発音データに、前記発音データとの対応が登録されていないテキストについては、前記発音データ生成手段で当該テキストを読み上げた音声を表す発音データを生成し、生成した発音データと、当該リストにおいて当該テキストとの対応が記述されている識別番号との対応を前記新たな基本に登録する音声認識辞書編集手段を有することを特徴とする音声認識装置。
音声認識を行う音声認識装置であって、
識別対象とテキストとの対応が記述されたリストより、前記テキストを読み上げた音声を表す発音データと前記識別対象との対応を登録した音声認識辞書を作成する音声認識辞書作成部と、
前記音声認識辞書を参照して、発話された音声にマッチする発音データに対応する前記識別対象を識別する音声認識部とを有し、
前記音声認識辞書作成部は、
前記テキストを読み上げた音声を表す発音データを生成する発音データ生成手段と、
前記音声認識辞書に含まれる各発音データと当該発音データが読み上げた音声を表す前記テキストとの対応を登録した既得発音データを記憶する既得発音データ記憶手段と、
前記リストが更新されたときに、新たな音声認識辞書を生成し、当該リストに含まれるテキストのうち、前記既得発音データ記憶手段に記憶されている既得発音データに、前記発音データとの対応が登録されているテキストについては、当該テキストに対応する発音データを前記既得発音データから取得して、当該取得した発音データと、当該リストにおいて当該テキストとの対応が記述されている識別対象との対応を前記新たな音声認識辞書に登録し、前記既得発音データに、前記発音データとの対応が登録されていないテキストについては、前記発音データ生成手段で当該テキストを読み上げた音声を表す発音データを生成し、生成した発音データと、当該リストにおいて当該テキストとの対応が記述されている識別対象との対応を前記新たな音声認識辞書に登録する音声認識辞書編集手段とを有することを特徴とする音声認識装置。
請求項３記載の音声認識装置であって、
前記音声認識辞書を複数備え、前記既得発音データは当該複数の音声認識辞書のいずれかに含まれる各発音データと当該発音データが読み上げた音声を表す前記テキストとの対応が登録されることを特徴とする音声認識装置。
請求項１または２記載の音声認識装置であって、
前記テキストは楽曲の属性を表すテキストであり、前記識別番号は前記楽曲のデータの識別を表すものであることを特徴とする音声認識装置。
請求項３または４記載の音声認識装置であって、
前記テキストは楽曲の属性を表すテキストであり、前記識別対象は前記楽曲のデータの識別を表すものであることを特徴とする音声認識装置。
請求項５記載の音声認識装置であって、
前記リストは、当該音声認識装置に接続された外部装置より取得されるものであって、当該リストには、当該外部装置に楽曲データが記録されている各楽曲についての、当該楽曲の属性を表すテキストと当該楽曲の楽曲データの識別を表す識別番号との対応が記述されていることを特徴とする音声認識装置。
請求項５記載の音声認識装置であって、
前記リストは、当該音声認識装置に接続された外部装置より取得されるものであって、当該リストには、当該外部装置に楽曲データが記録されている各楽曲についての、当該楽曲の属性を表すテキストと当該楽曲の楽曲データの識別を表す識別情報との対応が記述されていることを特徴とする音声認識装置。
コンピュータによって読みとられ実行されるコンピュータプログラムであって、
前記コンピュータを、請求項１、２、３、４、５、６、７又は８記載の音声認識装置として機能させることを特徴とするコンピュータプログラム。