JP2011150169A - 音声認識装置 - Google Patents
音声認識装置 Download PDFInfo
- Publication number
- JP2011150169A JP2011150169A JP2010011919A JP2010011919A JP2011150169A JP 2011150169 A JP2011150169 A JP 2011150169A JP 2010011919 A JP2010011919 A JP 2010011919A JP 2010011919 A JP2010011919 A JP 2010011919A JP 2011150169 A JP2011150169 A JP 2011150169A
- Authority
- JP
- Japan
- Prior art keywords
- text
- speech recognition
- registered
- dictionary
- pronunciation data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Abstract
【課題】音声認識辞書作成の処理負荷を軽減する「音声認識装置」を提供する。
【解決手段】接続されたポータブルオーディオプレイヤ22(PAP22)から、楽曲テキストとして「a」、「b」、「d」を含む楽曲リストが取得された場合(a)に、過去に生成したヨミ(発音データ)と楽曲テキストの対応を登録した全体ヨミデータに楽曲テキストが登録されている(b)、「a」、「d」については全体ヨミデータからヨミを取得して音声認識辞書に登録し(d)、全体ヨミデータに楽曲テキストが登録されていない「b」については、各テキストの各読み方を表すテキストを登録したヨミ生成テキスト辞書と、テキストのヨミを生成するTTS部12とを用いてヨミを生成して(c)、音声認識辞書に登録する(d)。また、生成した「b」のヨミを、対応する楽曲テキストとともに全体ヨミデータに登録する(e)。
【選択図】図4
【解決手段】接続されたポータブルオーディオプレイヤ22(PAP22)から、楽曲テキストとして「a」、「b」、「d」を含む楽曲リストが取得された場合(a)に、過去に生成したヨミ(発音データ)と楽曲テキストの対応を登録した全体ヨミデータに楽曲テキストが登録されている(b)、「a」、「d」については全体ヨミデータからヨミを取得して音声認識辞書に登録し(d)、全体ヨミデータに楽曲テキストが登録されていない「b」については、各テキストの各読み方を表すテキストを登録したヨミ生成テキスト辞書と、テキストのヨミを生成するTTS部12とを用いてヨミを生成して(c)、音声認識辞書に登録する(d)。また、生成した「b」のヨミを、対応する楽曲テキストとともに全体ヨミデータに登録する(e)。
【選択図】図4
Description
本発明は、記憶した楽曲を再生する楽曲再生装置等において音声認識に用いる音声認識辞書を編集する技術に関するものである。
音声認識は、各テキストの発音データを、認識対象とする各テキストについて蓄積した音声認識辞書を予め用意し、ユーザの発話した音声にマッチする発音データを音声認識辞書中から探索することにより行うことが一般的である(たとえば、特許文献1)。
また、このような音声認識辞書を作成する技術としては、認識対象とする各テキストの発音データを、テキストツースピーチ(TTS ; Text To Speech)の技術を用いて生成し、音声認識辞書に登録する技術も知られている(たとえば、特許文献2)。
また、記憶した楽曲を再生する楽曲再生装置において、ユーザから楽曲名の音声入力を受け付け、楽曲名の発音データと楽曲データのIDとを対応づける音声認識辞書を用いて、音声入力された楽曲名の楽曲に対応するIDを識別し、識別したIDによって示される楽曲データを再生する技術も知られている(たとえば、特許文献3、4)。
さて、楽曲再生装置に、ポータブルオーディオプレイヤやリムーバブルな記憶装置などの外部装置を接続し、楽曲再生装置において、接続された外部装置の楽曲を再生する場合において、ユーザから音声入力された楽曲名を音声認識することにより、再生する楽曲の指定を受け付ける場合には、以下の問題が生じる。
すなわち、この場合には、外部装置に記憶されている各楽曲について、楽曲名の発音データと楽曲データの外部装置におけるIDとを対応づける、当該外部装置用の音声認識辞書を、音声入力の受け付けに先だって当該外部装置の接続時に用意する必要がある。
一方で、外部装置が楽曲再生装置から取り外されて利用されているときに、当該外部装置に対する楽曲の追加、削除などが行われた場合、各楽曲の外部装置におけるIDが、追加削除された楽曲のIDのみならず、追加削除されていない楽曲のIDについても変化してしまう場合がある。そして、このような場合、外部装置に記憶されている各楽曲のIDが変化してしまっているために、外部装置の接続時に、当該外部装置の前回の接続時に用いていた当該外部装置用の音声認識辞書を、そのまま用いることはできなくなり、外部装置に記憶されている全ての楽曲について当該楽曲の楽曲名の発音データを生成して当該楽曲のIDと対応づけて音声認識辞書を作成する比較的負荷の大きい処理を行う必要が生じる。
一方で、外部装置が楽曲再生装置から取り外されて利用されているときに、当該外部装置に対する楽曲の追加、削除などが行われた場合、各楽曲の外部装置におけるIDが、追加削除された楽曲のIDのみならず、追加削除されていない楽曲のIDについても変化してしまう場合がある。そして、このような場合、外部装置に記憶されている各楽曲のIDが変化してしまっているために、外部装置の接続時に、当該外部装置の前回の接続時に用いていた当該外部装置用の音声認識辞書を、そのまま用いることはできなくなり、外部装置に記憶されている全ての楽曲について当該楽曲の楽曲名の発音データを生成して当該楽曲のIDと対応づけて音声認識辞書を作成する比較的負荷の大きい処理を行う必要が生じる。
そこで、本発明は、音声認識装置において、音声認識辞書作成の処理負荷を軽減することを課題とする。
前記課題達成のために、本発明は、音声認識を行う音声認識装置に、テキストと、前記テキストの所定のルールに従って定まる順序に従った順番を表す識別番号との対応が記述されたリストより、前記テキストを読み上げた音声を表す発音データと前記識別番号との対応を登録した音声認識辞書を作成する音声認識辞書作成部と、前記音声認識辞書を参照して、発話された音声にマッチする発音データに対応する前記識別番号を識別する音声認識部とを設けたものである。ここで、前記音声認識辞書を、基本辞書と追加辞書と管理テーブルとより構成されている。また、前記音声認識辞書作成部は、前記テキストを読み上げた音声を表す発音データを生成する発音データ生成手段と、初回の音声認識辞書の作成時に、新たな基本辞書を生成し、前記リストに含まれる各テキストを読み上げた音声を表す発音データを前記発音データ生成手段で生成し、生成した発音データと、当該リストにおいて当該テキストとの対応が記述されている識別番号との対応を前記新たな基本辞書に登録する基本辞書作成手段と、前記リストに、新たなテキストについての前記識別番号との対応が追加されたときに、当該新たなテキストを読み上げた音声を表す発音データを前記発音データ生成手段で生成し、生成した発音データと、当該リストにおいて当該新たなテキストとの対応が記述されている識別番号との対応を前記追加辞書に登録すると共に、前記管理テーブルに、当該新たなテキストを登録し、前記管理テーブルに登録されている各テキストに対して、前記管理テーブルに登録されているテキストの内の前記ルールに従って定まる順序を第1の加算値として登録すると共に、前記管理テーブルに登録されている前記新たなテキスト以外のテキストに、前記ルールに従って定まる順序上、当該テキストより前の順番のテキストのうちの、前記新たなテキストの数を第2の加算値として登録する辞書追加手段とを備えている。そして、前記音声認識部は、発話された音声にマッチする発音データが前記基本辞書に登録され、発話された音声にマッチする発音データに対応するテキストが前記管理テーブルに登録されていない場合に、前記基本辞書に発話された音声にマッチする発音データとの対応が登録された前記識別番号を、前記発話された音声にマッチする発音データに対応する前記識別番号として識別し、発話された音声にマッチする発音データが前記基本辞書に登録され、発話された音声にマッチする発音データに対応するテキストが前記管理テーブルに登録されている場合に、前記基本辞書に発話された音声にマッチする発音データとの対応が登録された前記識別番号に、前記管理テーブルにおいて、発話された音声にマッチする発音データに対応するテキストに対して登録されている第1の加算値を加算した番号を、前記発話された音声にマッチする発音データに対応する前記識別番号として識別し、発話された音声にマッチする発音データが前記追加辞書に登録されている場合に、前記追加辞書に発話された音声にマッチする発音データとの対応が登録された前記識別番号に、前記管理テーブルにおいて、発話された音声にマッチする発音データに対応するテキストに対して登録されている第2の加算値を加算した番号を、前記発話された音声にマッチする発音データに対応する前記識別番号として識別するものである。
このような音声認識装置によれば、前記リストに、新たなテキストについての前記識別番号との対応が追加されたときに、音声認識辞書作成を更新する際に、発音データは、追加されたテキストについてのみ生成すれば足りる。よって、音声認識辞書更新の処理負荷が軽減される。
ここで、このような音声認識装置は、前記音声認識辞書作成部に、前記基本辞書または前記追加辞書に含まれる各発音データと当該発音データが読み上げた音声を表す前記テキストとの対応を登録した既得発音データを記憶する既得発音データ記憶手段と、前記リストが更新されたときに、当該更新が、前記リストへの新たなテキストについての前記識別番号との対応の追加によるものでない場合、もしくは、当該更新が、前記リストへの新たなテキストについての前記識別番号との対応の所定数以下の追加によるものである場合に、前記基本辞書と前記追加辞書と前記管理テーブルを消去すると共に、新たな基本辞書を生成し、当該リストに含まれるテキストのうち、前記既得発音データ記憶手段に記憶されている既得発音データに、前記発音データとの対応が登録されているテキストについては、当該テキストに対応する発音データを前記既得発音データから取得して、当該取得した発音データと、当該リストにおいて当該テキストとの対応が記述されている識別番号との対応を前記新たな基本辞書に登録し、前記既得発音データに、前記発音データとの対応が登録されていないテキストについては、前記発音データ生成手段で当該テキストを読み上げた音声を表す発音データを生成し、生成した発音データと、当該リストにおいて当該テキストとの対応が記述されている識別番号との対応を前記新たな基本に登録する音声認識辞書編集手段とを設けるようにしてもよい。
このようにすることにより、リストが更新されたときに、当該更新が前記リストへの前記識別番号とテキストとの新たな対応の追加によるものでない場合、もしくは、当該更新が前記リストへの前記識別番号とテキストとの新たな対応の所定数以下の追加によるものである場合に、音声認識辞書を更新する際に、既得発音データに登録されているテキストについては、当該既得発音データから発音データを取得するので、発音データ生成手段を用いて発音データを生成する必要がなくなり、その処理負荷が軽減する。
また、このような音声認識装置において、前記テキストは楽曲の属性を表すテキストであり、前記識別番号は前記楽曲のデータの識別を表すものであってよい。また、この場合に、前記リストは、当該音声認識装置に接続された外部装置より取得されるものであって、当該リストには、当該外部装置に楽曲データが記録されている各楽曲についての、当該楽曲の属性を表すテキストと当該楽曲の楽曲データの識別を表す識別番号との対応が記述されているものであってよい。
また、前記課題達成のために、本発明は、音声認識を行う音声認識装置に、識別対象とテキストとの対応が記述されたリストより、前記テキストを読み上げた音声を表す発音データと前記識別対象との対応を登録した音声認識辞書を作成する音声認識辞書作成部と、前記音声認識辞書を参照して、発話された音声にマッチする発音データに対応する前記識別対象を識別する音声認識部とを設けると共に、前記音声認識辞書作成部を、前記テキストを読み上げた音声を表す発音データを生成する発音データ生成手段と、前記音声認識辞書に含まれる各発音データと当該発音データが読み上げた音声を表す前記テキストとの対応を登録した既得発音データを記憶する既得発音データ記憶手段と、前記リストが更新されたときに、新たな音声認識辞書を生成し、当該リストに含まれるテキストのうち、前記既得発音データ記憶手段に記憶されている既得発音データに、前記発音データとの対応が登録されているテキストについては、当該テキストに対応する発音データを前記既得発音データから取得して、当該取得した発音データと、当該リストにおいて当該テキストとの対応が記述されている識別対象との対応を前記新たな音声認識辞書に登録し、前記既得発音データに、前記発音データとの対応が登録されていないテキストについては、前記発音データ生成手段で当該テキストを読み上げた音声を表す発音データを生成し、生成した発音データと、当該リストにおいて当該テキストとの対応が記述されている識別対象との対応を前記新たな音声認識辞書に登録する音声認識辞書編集手段とより構成したものである。
このような音声認識装置によれば、リストの更新に応じて音声認識辞書を更新する際に、既得発音データに登録されているテキストについては、当該既得発音データから発音データを取得するので、発音データ生成手段を用いて発音データを生成する必要がなくなり、その処理負荷が軽減する。
ここで、このような音声認識装置は、当該音声認識装置に、前記音声認識辞書を複数備え、前記既得発音データは、当該複数の音声認識辞書のいずれかに含まれる各発音データと当該発音データが読み上げた音声を表す前記テキストとの対応が登録されるものとしてもよい。
また、このような音声認識装置において、前記テキストは楽曲の属性を表すテキストであり、前記識別対象は前記楽曲のデータの識別を表すものであってよい、また、この場合には、前記リストは、当該音声認識装置に接続された外部装置より取得されるものであって、当該リストには、当該外部装置に楽曲データが記録されている各楽曲についての、当該楽曲の属性を表すテキストと当該楽曲の楽曲データの識別を表す識別情報との対応が記述されているものであってよい。
以上のように、本発明によれば、音声認識装置において、音声認識辞書作成の処理負荷を軽減することができる。
以下、本発明の実施形態について説明する。
まず、第1の実施形態について説明する。
図1に、本第1実施形態に係るオーディオ再生装置の構成を示す。
図示するように、オーディオ再生装置は、マイクロフォン1、スピーカ2、入力装置3、表示装置4、HDD5、USBインタフェース6、ポータブルオーディオプレイヤインタフェース7、音声認識エンジン8、オーディオ出力部9、音声認識辞書編集部10、再生制御部11、TTS部12とを備えている。
まず、第1の実施形態について説明する。
図1に、本第1実施形態に係るオーディオ再生装置の構成を示す。
図示するように、オーディオ再生装置は、マイクロフォン1、スピーカ2、入力装置3、表示装置4、HDD5、USBインタフェース6、ポータブルオーディオプレイヤインタフェース7、音声認識エンジン8、オーディオ出力部9、音声認識辞書編集部10、再生制御部11、TTS部12とを備えている。
ただし、このようなオーディオ再生装置は、ハードウエア的には、マイクロプロセッサや、メモリや、その他の周辺デバイスを有する一般的な構成を備えたコンピュータを利用して構成されるものであってよく、この場合、以上に示したオーディオ再生装置の音声認識エンジン8、オーディオ出力部9、音声認識辞書編集部10、再生制御部11、TTS部12の各部もしくはその一部は、マイクロプロセッサが予め用意されたプログラムを実行することにより具現化するプロセスとして実現されるものであって良い。また、この場合、このようなプログラムは、記録媒体や適当な通信路を介して、オーディオ再生装置に提供されるものであって良い。
さて、ここで、TTS部12は、ヨミの生成を要求されたテキストを読み上げた発音を表すヨミ(発音データ)をテキストツースピーチ(TTS ; Text To Speech)の技術によって生成する機能を備えている。
また、USBインタフェース6には、USBストレージ21が選択的に接続される。
また、ポータブルオーディオプレイヤインタフェース7には、ポータブルオーディオプレイヤ22が選択的に接続される。
HDD5、USBストレージ21、ポータブルオーディオプレイヤ22には、それぞれ楽曲データが記憶される。楽曲データは、楽曲のオーディオファイルと、各オーディオファイルの識別子となる楽曲ID、当該楽曲IDのオーディオファイルの楽曲の楽曲名やアーティストやアルバムなどの属性とを対応づける楽曲DBとを含んでいる。
また、USBインタフェース6には、USBストレージ21が選択的に接続される。
また、ポータブルオーディオプレイヤインタフェース7には、ポータブルオーディオプレイヤ22が選択的に接続される。
HDD5、USBストレージ21、ポータブルオーディオプレイヤ22には、それぞれ楽曲データが記憶される。楽曲データは、楽曲のオーディオファイルと、各オーディオファイルの識別子となる楽曲ID、当該楽曲IDのオーディオファイルの楽曲の楽曲名やアーティストやアルバムなどの属性とを対応づける楽曲DBとを含んでいる。
なお、ポータブルオーディオプレイヤ22は、記録している楽曲のオーディオファイルを再生する機能を備えている。なお、以下では、ポータブルオーディオプレイヤ22を、「PAP」と略記する。
また、HDD5には、楽曲データに加え、音声認識データが記憶される。
図2に、この音声認識データの内容を示す。
図示するように、音声認識データは、ヨミ生成テキスト辞書、全体ヨミデータ、PAP用音声認識辞書、HDD用音声認識辞書、USB用音声認識辞書とより構成される。
ヨミ生成テキスト辞書は、図3aに示すように、各テキスト毎に、当該テキストの読み方を表すテキストを候補テキストとして登録した辞書であり、当該テキストの読み方が複数ある場合には、一つのテキストに対して複数の候補テキストが登録される。ここで、ヨミ生成テキスト辞書は、予めHDD5に記録される。
また、HDD5には、楽曲データに加え、音声認識データが記憶される。
図2に、この音声認識データの内容を示す。
図示するように、音声認識データは、ヨミ生成テキスト辞書、全体ヨミデータ、PAP用音声認識辞書、HDD用音声認識辞書、USB用音声認識辞書とより構成される。
ヨミ生成テキスト辞書は、図3aに示すように、各テキスト毎に、当該テキストの読み方を表すテキストを候補テキストとして登録した辞書であり、当該テキストの読み方が複数ある場合には、一つのテキストに対して複数の候補テキストが登録される。ここで、ヨミ生成テキスト辞書は、予めHDD5に記録される。
次に、図2cに示すように、PAP用音声認識辞書は、現在接続されているPAP22に記憶されている各オーディオファイルの楽曲の属性を表すテキストである楽曲テキストを読み上げた発音を表すヨミ(発音データ)毎のエントリを有し、各エントリには、当該ヨミが発音を表す楽曲テキストが楽曲の属性を表すオーディオファイルの識別子となる楽曲IDと、当該ヨミが発音を表す楽曲テキストとが登録される。ここで、以下では、楽曲テキストが表す楽曲の属性が楽曲の楽曲名である場合を例にとり説明する。
また、HDD用音声認識辞書、USB用音声認識辞書も、PAP用音声認識辞書と同様の構成を有している。すなわち、HDD用音声認識辞書は、HDD5に記憶されている各オーディオファイルの楽曲テキストを読み上げた発音を表すヨミ(発音データ)毎のエントリを有し、各エントリには、当該ヨミが発音を表す楽曲テキストが楽曲の属性を表すオーディオファイルの識別子となる楽曲IDと、当該ヨミが発音を表す楽曲テキストとが登録される。また、USB用音声認識辞書は、現在接続されているUSBストレージ21に記憶されている各オーディオファイルの楽曲テキストを読み上げた発音を表すヨミ(発音データ)毎のエントリを有し、各エントリには、当該ヨミが発音を表す楽曲テキストが楽曲の属性を表すオーディオファイルの識別子となる楽曲IDと、当該ヨミが発音を表す楽曲テキストとが登録される。
そして、全体ヨミデータは、図2bに示すように、最後に作成されたHDD用音声認識辞書、最後に作成されたUSB用音声認識辞書、最後に作成されたPAP用音声認識辞書のいずれかに登録されている楽曲テキスト毎のエントリを備え、各エントリには、存在フラグ、当該楽曲テキスト、当該楽曲テキストを読み上げた発音を表すヨミ(発音データ)とが登録される。存在フラグは、PAPF、HDDF、USBFの3種類があり、PAPFは、当該楽曲テキストが最後に作成されたPAP用音声認識辞書に含まれていた場合に1が他の場合に0が登録され、HDDFは、当該楽曲テキストが最後に作成されたHDD用音声認識辞書に含まれていた場合に1が他の場合に0が登録され、USBFは、当該楽曲テキストが最後に作成されたUSB用音声認識辞書に含まれていた場合に1が他の場合に0が登録される。
以下、このようなHDD用音声認識辞書、USB用音声認識辞書、PAP用音声認識辞書の作成動作を、PAP用音声認識辞書の作成、編集の動作を例にとり説明する。
図3に、音声認識辞書編集部10が行うPAP用音声認識辞書編集処理を示す。
ここで、このPAP用音声認識辞書編集処理は、オーディオ再生装置にPAP22が接続されたときに行う。
さて、図示するように、このPAP用音声認識辞書編集処理では、まず、PAP22の楽曲DBから、PAP22に記録されている各オーディオファイルの識別子であるところの楽曲IDと、各オーディオファイルの楽曲の楽曲名であるところの楽曲テキストの組のリストである楽曲リストを取得する(ステップ300)。
そして、取得した楽曲リストが、前回PAP用音声認識辞書作成時に用いたものと同じ楽曲リストであるかどうかを判定する(ステップ302)。この判定は、現在HDD5に記録されている、PAP用音声認識辞書の各エントリに登録されている楽曲IDと楽曲テキストの組の全てが、楽曲リストに登録されており、かつ、PAP用音声認識辞書に登録されていない楽曲IDと楽曲テキストの組が、楽曲リストに含まれていない場合に、取得した楽曲リストが、前回PAP用音声認識辞書作成時に用いたものと同じと判定することにより行う。
図3に、音声認識辞書編集部10が行うPAP用音声認識辞書編集処理を示す。
ここで、このPAP用音声認識辞書編集処理は、オーディオ再生装置にPAP22が接続されたときに行う。
さて、図示するように、このPAP用音声認識辞書編集処理では、まず、PAP22の楽曲DBから、PAP22に記録されている各オーディオファイルの識別子であるところの楽曲IDと、各オーディオファイルの楽曲の楽曲名であるところの楽曲テキストの組のリストである楽曲リストを取得する(ステップ300)。
そして、取得した楽曲リストが、前回PAP用音声認識辞書作成時に用いたものと同じ楽曲リストであるかどうかを判定する(ステップ302)。この判定は、現在HDD5に記録されている、PAP用音声認識辞書の各エントリに登録されている楽曲IDと楽曲テキストの組の全てが、楽曲リストに登録されており、かつ、PAP用音声認識辞書に登録されていない楽曲IDと楽曲テキストの組が、楽曲リストに含まれていない場合に、取得した楽曲リストが、前回PAP用音声認識辞書作成時に用いたものと同じと判定することにより行う。
そして、取得した楽曲リストが、前回PAP用音声認識辞書作成時に用いたものと同じ楽曲リストであれば(ステップ302)、そのままPAP用音声認識辞書編集処理を終了する。
一方、取得した楽曲リストが、前回PAP用音声認識辞書作成時に用いたものと同じ楽曲リストでなければ(ステップ302)、HDD5に記録されているPAP用音声認識辞書の内容を消去し(ステップ304)、全体ヨミデータの全てのエントリの存在フラグのPAPFを0にクリアする(ステップ306)。
そして、取得リストに含まれる楽曲IDと楽曲テキストの各組について(ステップ308、324、326)、以下の処理を行う。
一方、取得した楽曲リストが、前回PAP用音声認識辞書作成時に用いたものと同じ楽曲リストでなければ(ステップ302)、HDD5に記録されているPAP用音声認識辞書の内容を消去し(ステップ304)、全体ヨミデータの全てのエントリの存在フラグのPAPFを0にクリアする(ステップ306)。
そして、取得リストに含まれる楽曲IDと楽曲テキストの各組について(ステップ308、324、326)、以下の処理を行う。
すなわち、まず、当該組の楽曲テキストが全体ヨミデータに登録されているかどうかを調べ(ステップ310)、登録されていない場合には、ヨミ生成テキスト辞書から得られる当該組の楽曲テキストの各候補テキストのヨミの生成をTTS部12に要求することにより、各候補テキストを読み上げた発音を表すヨミ(発音データ)を取得する(ステップ312)。そしてPAP用音声認識辞書に、取得した各ヨミに対応するエントリを作成し、作成したエントリに対応するヨミと、当該組の楽曲IDと楽曲テキストを登録する(ステップ314)。また、全体ヨミデータに新たなエントリを作成し、当該組の楽曲テキストと、取得した各ヨミを登録すると共に、当該エントリの存在フラグのPAPFを1に設定する(ステップ316)。
一方、ステップ310において、当該組の楽曲テキストが全体ヨミデータに登録されていると判定された場合には、全体ヨミデータの当該組の楽曲テキストが登録されているエントリから、当該楽曲テキストを読み上げた発音を表すヨミ(発音データ)を取得する(ステップ318)。そして、PAP用音声認識辞書に、取得した各ヨミに対応するエントリを作成し、作成したエントリに対応するヨミと、当該組の楽曲IDと楽曲テキストを登録する(ステップ320)。また、全体ヨミデータの当該組の楽曲テキストが登録されているエントリ(ステップ318でヨミを取得した全体ヨミデータのエントリ)の存在フラグのPAPFを1に設定する(ステップ322)。
そして、以上の処理を取得リストに含まれる楽曲IDと楽曲テキストの各組について行ったならば、全体ヨミデータの存在フラグのPAPF、HDDF、USBFの全てが0のエントリを全体ヨミデータから削除し(ステップ328)、PAP用音声認識辞書作成処理を終了する。
以上、PAP用音声認識辞書作成処理について説明した。
なお、以上のPAP用音声認識辞書作成処理のステップ314、318、320に代えて、以上の処理によって全体ヨミデータに登録されていない楽曲テキストのヨミと楽曲テキストの組を全て全体ヨミデータに登録した後に、取得リストに含まれる楽曲IDと楽曲テキストの各組について上述したステップ318、320の処理を行うことにより、全体ヨミデータにのみ基づいてPAP用音声認識辞書を作成するようにしてもよい。
以下、このようなPAP用音声認識辞書作成処理の処理例について説明する。
いま、PAP22が接続されて、図4aに示す楽曲テキストとして「a」、「b」、「d」を含む楽曲リストがPAP22から取得された場合に、全体ヨミデータには、図4bに示すように、「a」、「c」、「d」の楽曲テキストが登録されており、「b」の楽曲テキストは登録されていない場合を考える。
なお、以上のPAP用音声認識辞書作成処理のステップ314、318、320に代えて、以上の処理によって全体ヨミデータに登録されていない楽曲テキストのヨミと楽曲テキストの組を全て全体ヨミデータに登録した後に、取得リストに含まれる楽曲IDと楽曲テキストの各組について上述したステップ318、320の処理を行うことにより、全体ヨミデータにのみ基づいてPAP用音声認識辞書を作成するようにしてもよい。
以下、このようなPAP用音声認識辞書作成処理の処理例について説明する。
いま、PAP22が接続されて、図4aに示す楽曲テキストとして「a」、「b」、「d」を含む楽曲リストがPAP22から取得された場合に、全体ヨミデータには、図4bに示すように、「a」、「c」、「d」の楽曲テキストが登録されており、「b」の楽曲テキストは登録されていない場合を考える。
この場合、PAP用音声認識辞書作成処理では、楽曲リストに含まれる「a」、「d」の楽曲テキストについては全体ヨミデータからヨミが取得され、対応する楽曲テキストと楽曲IDと共に図4dに示すPAP用音声認識辞書に登録され、楽曲リストに含まれる「b」の楽曲テキストについては、図4cのヨミ生成テキスト辞書とTTS部12を用いてヨミが生成され、対応する楽曲テキストと楽曲IDと共に図4dに示すPAP用音声認識辞書に登録される。
また、この際に、図4eに示すように、楽曲リストに含まれる「b」の楽曲テキストのエントリが全体ヨミデータに作成され、作成したエントリにヨミ生成テキスト辞書とTTS部12を用いて生成した「b」のヨミが登録され、当該「b」のエントリの存在フラグのPAPFが1に設定される。また、全体ヨミデータの、ヨミの取得に用いられた「a」、「d」のエントリの存在フラグのPAPFが1に設定される。
一方、図4bに示す全体ヨミデータのエントリのうち、ヨミの取得に用いられなかった「c」のエントリの存在フラグのPAPFは0に設定される。そして、この結果、全体ヨミデータの「c」のエントリの存在フラグのPAPF、HDDF、USBFの全てが0となるため、当該「c」のエントリは、全体ヨミデータから削除される。
以上、PAP用音声認識辞書の作成、編集の動作について説明した。なお、USB用音声認識辞書の作成、編集も、オーディオ再生装置にUSBストレージ21が接続されたときに、PAP用音声認識辞書編集処理と同様の処理をUSBストレージ21の楽曲DBを対象として行うことにより実現される。また、HDD用音声認識辞書の作成、編集は、HDD5の楽曲DBが変更されたときに、PAP用音声認識辞書編集処理と同様の処理をHDD5の楽曲DBを対象として行うことにより実現される。
さて、図1に戻り、次に、再生制御部11が行う再生制御処理について説明する。
再生制御部11は、入力装置3を介してユーザからHDD記録楽曲の再生を指示されると、HDD再生モードを設定し、ユーザの操作に応じてHDD5に記録されているオーディオファイルの再生を制御する。ここで、オーディオファイルの再生は、再生するオーディオファイルを再生対象オーディオファイルとしてオーディオ出力部9に指示することにより行う。オーディオ出力部9は、再生対象オーディオファイルとして指示されたオーディオファイルをHDD5から読み出して復号しスピーカ2に出力する。
再生制御部11は、入力装置3を介してユーザからHDD記録楽曲の再生を指示されると、HDD再生モードを設定し、ユーザの操作に応じてHDD5に記録されているオーディオファイルの再生を制御する。ここで、オーディオファイルの再生は、再生するオーディオファイルを再生対象オーディオファイルとしてオーディオ出力部9に指示することにより行う。オーディオ出力部9は、再生対象オーディオファイルとして指示されたオーディオファイルをHDD5から読み出して復号しスピーカ2に出力する。
また、再生制御部11は、HDD再生モードを設定したならば、HDD用音声認識辞書を使用音声認識辞書として音声認識エンジン8に設定する。そして、音声認識エンジン8は、使用音声認識辞書を用いて、マイクロフォン1から入力する音声の音声認識処理を行う。ここで、この音声認識処理において、音声認識エンジン8は、使用音声認識辞書の入力音声にマッチするヨミが登録されているエントリを探索し、探索したエントリに登録されている楽曲IDを再生制御部11に通知する。そして、再生制御部11は、音声認識エンジン8から楽曲IDが通知されたならば、HDD5の楽曲DBを参照して、通知された楽曲IDのオーディオファイルを再生対象オーディオファイルとしてオーディオ出力部9に設定することにより、当該楽曲IDのオーディオファイル、すなわち、ユーザが発話した楽曲名の楽曲の再生とスピーカ2への出力を行う。
次に、再生制御部11は、USBストレージ21が接続されているときに、入力装置3を介してユーザからUSBストレージ記録楽曲の再生を指示されると、USBストレージ再生モードを設定し、ユーザの操作に応じてUSBストレージ21に記録されているオーディオファイルの再生を制御する。ここで、オーディオファイルの再生は、再生するオーディオファイルを再生対象オーディオファイルとしてオーディオ出力部9に指示することにより行う。オーディオ出力部9は、再生対象オーディオファイルとして指示されたオーディオファイルをUSBストレージ21がから読み出して復号しスピーカ2に出力する。
また、再生制御部11は、USBストレージ21が再生モードを設定したならば、USB用音声認識辞書を使用音声認識辞書として音声認識エンジン8に設定する。そして、音声認識エンジン8は、使用音声認識辞書を用いて、マイクロフォン1から入力する音声の前述した音声認識処理を行って、楽曲IDを再生制御部11に通知する。そして、再生制御部11は、音声認識エンジン8から楽曲IDが通知されたならば、USBストレージ21の楽曲DBを参照して、通知された楽曲IDのオーディオファイルを再生対象オーディオファイルとしてオーディオ出力部9に設定することにより、当該楽曲IDのオーディオファイル、すなわち、ユーザが発話した楽曲名の楽曲の再生とスピーカ2への出力を行う。
次に、再生制御部11は、PAP22が接続されているときに、入力装置3を介してユーザからPAP記録楽曲の再生を指示されると、PAP再生モードを設定し、ユーザの操作に応じてPAP22に記録されているオーディオファイルの再生を制御する。ここで、PAP22の再生は、再生するオーディオファイルの楽曲IDを指定した再生要求をPAP22に発行してPAP22に、当該オーディオファイルの再生と、再生した信号/データの出力を行わせると共に、オーディオ出力部9にPAP22から出力された信号/データの表す音声をスピーカ2に出力させることにより行う。
また、再生制御部11は、PAP再生モードを設定したならば、PAP用音声認識辞書を使用音声認識辞書として音声認識エンジン8に設定する。そして、音声認識エンジン8は、使用音声認識辞書を用いて、マイクロフォン1から入力する音声の前述した音声認識処理を行って、楽曲IDを再生制御部11に通知する。そして、再生制御部11は、音声認識エンジン8から楽曲IDが通知されたならば、通知された楽曲IDを指定した再生要求をPAP22に発行することにより、当該楽曲IDのオーディオファイル、すなわち、ユーザが発話した楽曲名の楽曲の再生とスピーカ2への出力を行う。
以上、本発明の第1の実施形態について説明した。
以上のように、本第1実施形態によれば、楽曲テキストと楽曲IDとの対応が変化したときにPAP用音声認識辞書やUSB用音声認識辞書やHDD用音声認識辞書を更新する際に、全体ヨミデータに登録されている楽曲テキストについては、当該全体ヨミデータからヨミを取得するので、ヨミ生成テキスト辞書やTTS部12を用いてヨミを生成する必要がなくなり、その処理負荷が軽減する。
以上のように、本第1実施形態によれば、楽曲テキストと楽曲IDとの対応が変化したときにPAP用音声認識辞書やUSB用音声認識辞書やHDD用音声認識辞書を更新する際に、全体ヨミデータに登録されている楽曲テキストについては、当該全体ヨミデータからヨミを取得するので、ヨミ生成テキスト辞書やTTS部12を用いてヨミを生成する必要がなくなり、その処理負荷が軽減する。
以下、本発明の第2の実施形態について説明する。
本第2実施形態に係るオーディオ再生装置の構成は、図1に示した第1実施形態に係るオーディオ再生装置の構成を同じである。
但し、本第2実施形態では、HDD5に記録する音声認識データとして、図5に示すように、ヨミ生成テキスト辞書と、PAP用音声認識辞書、HDD用音声認識辞書、USB用音声認識辞書とより構成する。
ヨミ生成テキスト辞書は、図5aに示すように、先に図2aに示した第1実施形態に係るヨミ生成テキスト辞書と同じものである。
一方、本第2実施形態では、PAP用音声認識辞書、HDD用音声認識辞書、USB用音声認識辞書は、図5bにPAP用音声認識辞書について示したように、基本辞書と、追加辞書と、楽曲ID管理テーブルより構成する。
基本辞書は、現在接続されているPAP22に記憶されている各オーディオファイルの楽曲テキストを読み上げた発音を表すヨミ(発音データ)毎のエントリを有し、各エントリには、当該ヨミが発音を表す楽曲テキストが楽曲の属性を表すオーディオファイルの基本辞書作成時の楽曲IDと、当該ヨミが発音を表す楽曲テキストとが登録される。
本第2実施形態に係るオーディオ再生装置の構成は、図1に示した第1実施形態に係るオーディオ再生装置の構成を同じである。
但し、本第2実施形態では、HDD5に記録する音声認識データとして、図5に示すように、ヨミ生成テキスト辞書と、PAP用音声認識辞書、HDD用音声認識辞書、USB用音声認識辞書とより構成する。
ヨミ生成テキスト辞書は、図5aに示すように、先に図2aに示した第1実施形態に係るヨミ生成テキスト辞書と同じものである。
一方、本第2実施形態では、PAP用音声認識辞書、HDD用音声認識辞書、USB用音声認識辞書は、図5bにPAP用音声認識辞書について示したように、基本辞書と、追加辞書と、楽曲ID管理テーブルより構成する。
基本辞書は、現在接続されているPAP22に記憶されている各オーディオファイルの楽曲テキストを読み上げた発音を表すヨミ(発音データ)毎のエントリを有し、各エントリには、当該ヨミが発音を表す楽曲テキストが楽曲の属性を表すオーディオファイルの基本辞書作成時の楽曲IDと、当該ヨミが発音を表す楽曲テキストとが登録される。
また、追加辞書は、現在接続されているPAP22に記憶されているオーディオファイルであって、基本辞書作成時にPAP22に記憶されていなかった各オーディオファイルの楽曲テキストを読み上げた発音を表すヨミ(発音データ)毎のエントリを有し、各エントリには、当該ヨミが発音を表す楽曲テキストが楽曲の属性を表すオーディオファイルの、当該エントリ作成時の当該オーディオファイルの楽曲IDと、当該オーディオファイルの楽曲の楽曲テキストと、当該ヨミが発音を表す楽曲テキストとが登録される。
また、楽曲ID管理テーブルには、追加辞書の各エントリに対応するエントリが設けられ、各エントリには対応する追加辞書のエントリに登録されている楽曲テキストと、+ID1、+ID2の数値が登録される。
以下、本第2実施形態における、HDD用音声認識辞書、USB用音声認識辞書、PAP用音声認識辞書の作成動作を、PAP用音声認識辞書の作成、編集の動作を例にとり説明する。
図6に、音声認識辞書編集部10が行うPAP用音声認識辞書編集処理を示す。
ここで、このPAP用音声認識辞書編集処理は、オーディオ再生装置にPAP22が接続されたときに行う。
さて、図示するように、このPAP用音声認識辞書編集処理では、PAP22の楽曲DBから、PAP22に記録されている各オーディオファイルの楽曲IDと楽曲テキストの組のリストである楽曲リストを取得する(ステップ600)。但し、楽曲リストにおいて、楽曲IDは、楽曲リストに含まれる楽曲テキスト中における、当該楽曲IDと同組の楽曲テキストのテキスト順序上の順番(012、...abc、...あいうえお順の順番)を表すように設定されているものとする。すなわち、「a」、「d」、「g」の三つの楽曲テキストのみが楽曲リストに含まれる場合、楽曲リストに含まれる楽曲テキスト「a」、「d」、「g」中における「a」のテキスト順序の順番は1番目であるので楽曲IDは1となり、楽曲リストに含まれる楽曲テキスト「a」、「d」、「g」中における「d」のテキスト順序の順番は2番目であるので楽曲IDは2となり、楽曲リストに含まれる楽曲テキスト「a」、「d」、「g」中における「g」のテキスト順序の順番は3番目であるので楽曲IDは3となる。
以下、本第2実施形態における、HDD用音声認識辞書、USB用音声認識辞書、PAP用音声認識辞書の作成動作を、PAP用音声認識辞書の作成、編集の動作を例にとり説明する。
図6に、音声認識辞書編集部10が行うPAP用音声認識辞書編集処理を示す。
ここで、このPAP用音声認識辞書編集処理は、オーディオ再生装置にPAP22が接続されたときに行う。
さて、図示するように、このPAP用音声認識辞書編集処理では、PAP22の楽曲DBから、PAP22に記録されている各オーディオファイルの楽曲IDと楽曲テキストの組のリストである楽曲リストを取得する(ステップ600)。但し、楽曲リストにおいて、楽曲IDは、楽曲リストに含まれる楽曲テキスト中における、当該楽曲IDと同組の楽曲テキストのテキスト順序上の順番(012、...abc、...あいうえお順の順番)を表すように設定されているものとする。すなわち、「a」、「d」、「g」の三つの楽曲テキストのみが楽曲リストに含まれる場合、楽曲リストに含まれる楽曲テキスト「a」、「d」、「g」中における「a」のテキスト順序の順番は1番目であるので楽曲IDは1となり、楽曲リストに含まれる楽曲テキスト「a」、「d」、「g」中における「d」のテキスト順序の順番は2番目であるので楽曲IDは2となり、楽曲リストに含まれる楽曲テキスト「a」、「d」、「g」中における「g」のテキスト順序の順番は3番目であるので楽曲IDは3となる。
そして、取得した楽曲リストが、前回PAP用音声認識辞書作成処理を行ったときにPAP22から取得した楽曲リストと同じ楽曲リストであるところの最終使用楽曲リストと同じであるかどうかを判定する(ステップ602)。この判定は、たとえば、各回のPAP用音声認識辞書作成処理においてPAP22から取得した楽曲リストで更新される最終使用楽曲リストをHDD5に保持し、保持した最終使用楽曲リストと取得した楽曲リストとの一致の有無を調べることにより行う。
そして、取得した楽曲リストが最終使用楽曲リストと同じであれば、そのままPAP用音声認識辞書編集処理を終了する。
一方、取得した楽曲リストが最終使用楽曲リストと同じでなければ(ステップ602)、取得した楽曲リストに、最終使用楽曲リストに含まれる楽曲テキストの全てが含まれているかどうか、すなわち、取得した楽曲リストが、最終使用楽曲リストに楽曲テキストを追加したものであるかどうかを調べ(ステップ604)、取得した楽曲リストが、最終使用楽曲リストに楽曲テキストを追加したものでなければ、ステップ618に進む。
一方、取得した楽曲リストが最終使用楽曲リストと同じでなければ(ステップ602)、取得した楽曲リストに、最終使用楽曲リストに含まれる楽曲テキストの全てが含まれているかどうか、すなわち、取得した楽曲リストが、最終使用楽曲リストに楽曲テキストを追加したものであるかどうかを調べ(ステップ604)、取得した楽曲リストが、最終使用楽曲リストに楽曲テキストを追加したものでなければ、ステップ618に進む。
一方、取得した楽曲リストが、最終使用楽曲リストに楽曲テキストを追加したものであれば、PAP用音声認識辞書に基本辞書が含まれているかどうかを調べる(ステップ606)。なお、初期状態において、PAP用音声認識辞書には、基本辞書、追加辞書、楽曲ID管理テーブルのいずれも含まれていない。
そして、基本辞書が含まれていなければステップ618に進む。
そして、このようにしてステップ618に進んだならば、基本辞書、追加辞書、楽曲ID管理テーブルのうち、PAP用音声認識辞書に含まれているものを削除する。そして、基本辞書を作成し、取得した楽曲リストに含まれる各楽曲テキストのヨミ生成テキスト辞書を参照して得られる各候補テキストのヨミを、各候補テキストのヨミの生成をTTS部12に要求することにより取得する。そして、取得した各ヨミに対応するエントリを基本辞書に作成し、作成したエントリに、取得したヨミを、対応する組の楽曲IDと、対応する組の楽曲テキストと共に登録し(ステップ620)、PAP用音声認識辞書編集処理を終了する。
そして、このようにしてステップ618に進んだならば、基本辞書、追加辞書、楽曲ID管理テーブルのうち、PAP用音声認識辞書に含まれているものを削除する。そして、基本辞書を作成し、取得した楽曲リストに含まれる各楽曲テキストのヨミ生成テキスト辞書を参照して得られる各候補テキストのヨミを、各候補テキストのヨミの生成をTTS部12に要求することにより取得する。そして、取得した各ヨミに対応するエントリを基本辞書に作成し、作成したエントリに、取得したヨミを、対応する組の楽曲IDと、対応する組の楽曲テキストと共に登録し(ステップ620)、PAP用音声認識辞書編集処理を終了する。
一方、基本辞書が含まれている場合には(ステップ606)、取得した楽曲リストに含まれる楽曲IDと楽曲テキストの組のうちの、最終使用楽曲リストに対して追加された各楽曲テキストのヨミ生成テキスト辞書を参照して得られる各候補テキストのヨミを、各候補テキストのヨミの生成をTTS部12に要求することにより取得する。そして、追加辞書が作成されていない場合には追加辞書を作成した上で、取得した各ヨミに対応するエントリを基本辞書に作成し、作成したエントリに、取得したヨミを、対応する組の楽曲IDと、対応する組の楽曲テキストと共に登録する(ステップ608)。
そして、楽曲ID管理テーブルが作成されていない場合には楽曲ID管理テーブルを作成した上で、楽曲ID管理テーブルに、取得した楽曲リストに含まれる最終使用楽曲リストに対して追加された各楽曲テキストを登録したエントリを作成し、作成したエントリの+ID2に0を設定する(ステップ610)。
そして、楽曲ID管理テーブルの各エントリを、各エントリに登録されている楽曲テキストが前述したテキスト順序上の順番に並ぶようにソートし(ステップ612)、楽曲ID管理テーブルの各エントリの+ID1に、そのエントリの楽曲ID管理テーブル内の順番を設定する(ステップ614)。そして、楽曲ID管理テーブルのエントリのうち、ステップ608で作成した最終使用楽曲リストに対して追加された楽曲テキストを含むエントリ以外の各エントリの+ID2に、当該エントリより楽曲ID管理テーブル内の順番が前の、ステップ608で作成した最終使用楽曲リストに対して追加された楽曲テキストを含むエントリの数を登録し(ステップ616)、PAP音声認識辞書編集処理を終了する。
以上、本第2実施形態に係る、PAP音声認識辞書編集処理について説明した。
以下、このようなPAP用音声認識辞書作成処理の処理例について説明する。
いま、PAP22が初めて接続されて、図7aに示す楽曲テキストとして「a」、「e」、「g」、「k」、「m」、「p」を含む楽曲リストがPAP22から取得された場合、この時点では、PAP用音声認識辞書に基本辞書は作成されていないので、基本辞書が作成され、作成した基本辞書に、ヨミ生成テキスト辞書とTTS部12とを用いて生成した「a」、「e」、「g」、「k」、「m」、「p」のヨミが、対応する楽曲テキストと楽曲IDと共に図7bに示すように登録される。
以下、このようなPAP用音声認識辞書作成処理の処理例について説明する。
いま、PAP22が初めて接続されて、図7aに示す楽曲テキストとして「a」、「e」、「g」、「k」、「m」、「p」を含む楽曲リストがPAP22から取得された場合、この時点では、PAP用音声認識辞書に基本辞書は作成されていないので、基本辞書が作成され、作成した基本辞書に、ヨミ生成テキスト辞書とTTS部12とを用いて生成した「a」、「e」、「g」、「k」、「m」、「p」のヨミが、対応する楽曲テキストと楽曲IDと共に図7bに示すように登録される。
次に、次回、PAP接続されたときに、PAP22から取得された楽曲リストが、図8a1に示すように、図7aに示す楽曲リストに対して「c」、「j」の楽曲テキストが追加されたものであった場合、図8b1に示すように、基本辞書は図7bのまま維持される。また、図8b1に示すように、追加辞書と楽曲ID管理テーブルが作成され、作成した追加辞書に、ヨミ生成テキスト辞書とTTS部12とを用いて生成した「c」、「j」のヨミが、対応する楽曲テキストと楽曲IDと共に登録される。また、楽曲ID管理テーブルに、「c」、「j」の楽曲テキストがテキスト順序上の順番で登録され、楽曲ID管理テーブルの「c」、「j」のエントリの+ID1に、当該エントリの楽曲ID管理テーブル内の順番、すなわち、「c」、「j」の、楽曲ID管理テーブルに登録されている楽曲テキスト「c」、「j」の内でのテキスト順序上の順番が登録される。また、楽曲ID管理テーブルの新たに登録された「c」、「j」のエントリの+ID2には0が登録される。
ここで、楽曲ID管理テーブルのN番目のエントリの+ID1は、基本辞書に登録されている楽曲テキストのうちの、当該N番目のエントリに登録されている楽曲テキストよりテキスト順序上の順番が後であって、当該N番目のエントリの次のエントリである楽曲ID管理テーブルのN+1番目のエントリに登録されている楽曲テキストよりテキスト順序上の順番が前である楽曲テキストの真の楽曲IDは、基本辞書の当該楽曲テキストのエントリに登録されている楽曲IDに、当該楽曲ID管理テーブルのN番目のエントリの+ID1の値を加算したものであることを表している。
次に、さらに次回、PAP接続されたときに、PAP22から取得された楽曲リストが、図8a2に示すように、図8a1に示す楽曲リストに対して「b」、「h」の楽曲テキストが追加されたものであった場合、図8b2に示すように、基本辞書は図7bのまま維持される。また、図8b2に示すように、追加辞書に、ヨミ生成テキスト辞書とTTS部12とを用いて生成した「b」、「h」のヨミが、対応する楽曲テキストと楽曲IDと共に登録される。
そして、図8b1のように「c」、「j」のエントリを有する楽曲ID管理テーブルに、「b」、「h」のエントリが追加された後、各エントリが、登録されている楽曲テキストのテキスト順序上の順番でソートされ、楽曲ID管理テーブルのエントリは、「b」、「c」、「h」、「j」の楽曲テキストのエントリの順番となる。そして、楽曲ID管理テーブルの各エントリの+ID1に、当該エントリの楽曲ID管理テーブル内の順番、すなわち、「b」、「c」、「h」、「j」の、楽曲ID管理テーブルに登録されている楽曲テキスト「b」、「c」、「h」、「j」の内でのテキスト順序上の順番が登録される。また、楽曲ID管理テーブルの、新たに登録された「b」、「h」のエントリの+ID2には0が登録される。一方、新たに登録された「b」、「h」のエントリ以外の「c」、「j」のエントリの+ID2には、楽曲ID管理テーブル内の順番が自エントリより前の順番のエントリであって、新たに登録されたエントリの数が登録される。すなわち、「c」のエントリには、楽曲ID管理テーブル内において「c」のエントリより前のエントリのうちの新たに登録されたエントリは「b」のエントリのみであるので、+ID2として1を登録する。また、「j」のエントリには、楽曲ID管理テーブル内において「j」のエントリより前のエントリのうちの新たに登録されたエントリは「b」と「h」の二つのエントリであるので、+ID2として2を登録する。
ここで、前述したように、楽曲ID管理テーブルのN番目のエントリの+ID1は、基本辞書に登録されている楽曲テキストのうちの、当該N番目のエントリに登録されている楽曲テキストよりテキスト順序上の順番が後であって、当該N番目のエントリの次の楽曲ID管理テーブルのN+1番目のエントリに登録されている楽曲テキストよりテキスト順序上の順番が前である楽曲テキストの真の楽曲IDは、基本辞書の当該楽曲テキストのエントリに登録されている楽曲IDに、当該楽曲ID管理テーブルのN番目のエントリの+ID1の値を加算したものであることを表している。
また、楽曲ID管理テーブルのエントリAの+ID2は、当該エントリAに登録されている楽曲テキストの真の楽曲IDは、追加辞書の当該楽曲テキストのエントリに登録されている楽曲IDに、当該エントリAに登録されている+ID2の値を加算したものであることを表している。
以上、本第2実施形態に係るPAP用音声認識辞書の作成、編集の動作について説明した。なお、USB用音声認識辞書の作成、編集も、オーディオ再生装置にUSBストレージ21が接続されたときに、PAP用音声認識辞書編集処理と同様の処理をUSBストレージ21の楽曲DBを対象として行うことにより実現される。また、HDD用音声認識辞書の作成、編集は、HDD5の楽曲DBが変更されたときに、PAP用音声認識辞書編集処理と同様の処理をHDD5の楽曲DBを対象として行うことにより実現される。
以上、本第2実施形態に係るPAP用音声認識辞書の作成、編集の動作について説明した。なお、USB用音声認識辞書の作成、編集も、オーディオ再生装置にUSBストレージ21が接続されたときに、PAP用音声認識辞書編集処理と同様の処理をUSBストレージ21の楽曲DBを対象として行うことにより実現される。また、HDD用音声認識辞書の作成、編集は、HDD5の楽曲DBが変更されたときに、PAP用音声認識辞書編集処理と同様の処理をHDD5の楽曲DBを対象として行うことにより実現される。
次に、本第2実施形態に係る再生制御部11が行う再生制御処理は、前記第1実施形態と同様であるが、音声認識エンジン8は、使用音声認識辞書を用いながら、図9に示す音声認識処理によってマイクロフォン1から入力する音声の音声認識を行う。
すなわち、音声認識エンジン8は、入力音声にマッチするヨミが、使用音声認識辞書の基本辞書に登録されているかどうかを調べ(ステップ900)、入力音声にマッチするヨミが基本辞書に登録されている場合には、入力音声にマッチしたヨミを認識ヨミとして、楽曲ID管理テーブルが存在しているかどうかを、さらに調べる(ステップ902)。
すなわち、音声認識エンジン8は、入力音声にマッチするヨミが、使用音声認識辞書の基本辞書に登録されているかどうかを調べ(ステップ900)、入力音声にマッチするヨミが基本辞書に登録されている場合には、入力音声にマッチしたヨミを認識ヨミとして、楽曲ID管理テーブルが存在しているかどうかを、さらに調べる(ステップ902)。
そして、楽曲ID管理テーブルが存在していなければ(ステップ902)、基本辞書の認識ヨミが登録されているエントリに登録されている楽曲IDを再生制御部11に通知し(ステップ904)、音声認識処理を終了する。
一方、ステップ902において、使楽曲ID管理テーブルが存在していると判定された場合には、基本辞書の認識ヨミが登録されているエントリに登録されている楽曲テキストより前述したテキスト順序上の順番が前の楽曲テキストが登録されている楽曲ID管理テーブルのエントリの内の楽曲ID管理テーブル内の順番が最後のエントリに登録されている+ID1の値を取得する(ステップ906)。そして、基本辞書の認識ヨミが登録されているエントリに登録されている楽曲IDに、取得した+ID1の値を加算した値を楽曲IDとして再生制御部11に通知し(ステップ908)、音声認識処理を終了する。
一方、ステップ902において、使楽曲ID管理テーブルが存在していると判定された場合には、基本辞書の認識ヨミが登録されているエントリに登録されている楽曲テキストより前述したテキスト順序上の順番が前の楽曲テキストが登録されている楽曲ID管理テーブルのエントリの内の楽曲ID管理テーブル内の順番が最後のエントリに登録されている+ID1の値を取得する(ステップ906)。そして、基本辞書の認識ヨミが登録されているエントリに登録されている楽曲IDに、取得した+ID1の値を加算した値を楽曲IDとして再生制御部11に通知し(ステップ908)、音声認識処理を終了する。
次に、ステップ900において、入力音声にマッチするヨミが使用音声認識辞書の基本辞書に登録されていないと判定された場合には、入力音声にマッチするヨミが使用音声認識辞書の追加辞書に登録されているかどうかを調べ(ステップ910)、登録されていない場合には音声認識失敗として(ステップ916)、音声認識処理を終了する。
一方、入力音声にマッチするヨミが使用音声認識辞書の追加辞書に登録されている場合には(ステップ910)、入力音声にマッチしたヨミを認識ヨミとして、追加辞書の認識ヨミが登録されているエントリに登録されている楽曲テキストが登録されている、楽曲ID管理テーブルのエントリの+ID2の値を取得する(ステップ912)。そして、追加辞書の認識ヨミが登録されているエントリに登録されている楽曲IDに、取得した+ID2の値を加算した値を楽曲IDとして再生制御部11に通知し(ステップ914)、音声認識処理を終了する。
以上、本発明の第2の実施形態について説明した。
以上のように、本第2実施形態によれば、オーディオファイルが追加されたために、楽曲DBに楽曲テキストと楽曲IDとの組が追加されると共に、楽曲テキストと楽曲IDとの対応が変化したときにPAP用音声認識辞書やUSB用音声認識辞書やHDD用音声認識辞書を更新する際に、楽曲テキストのヨミは、追加された楽曲テキストについてのみ生成すれば足りる。よって、これら音声認識辞書更新の処理負荷が軽減される。
以上のように、本第2実施形態によれば、オーディオファイルが追加されたために、楽曲DBに楽曲テキストと楽曲IDとの組が追加されると共に、楽曲テキストと楽曲IDとの対応が変化したときにPAP用音声認識辞書やUSB用音声認識辞書やHDD用音声認識辞書を更新する際に、楽曲テキストのヨミは、追加された楽曲テキストについてのみ生成すれば足りる。よって、これら音声認識辞書更新の処理負荷が軽減される。
ところで、以上に示した第2実施形態は、これに第1実施形態を組み合わせて実施することもできる。
すなわち、第2実施形態において、全体ヨミデータを設け、当該全体ヨミデータに、最後に作成されたHDD用音声認識辞書の基本辞書と追加辞書、最後に作成されたUSB用音声認識辞書の基本辞書と追加辞書、最後に作成されたPAP用音声認識辞書の基本辞書と追加辞書のいずれかに登録されている楽曲テキスト毎のエントリを設け、各エントリに、存在フラグ、当該楽曲テキスト、当該楽曲テキストを読み上げた発音を表すヨミ(発音データ)とを登録する。
すなわち、第2実施形態において、全体ヨミデータを設け、当該全体ヨミデータに、最後に作成されたHDD用音声認識辞書の基本辞書と追加辞書、最後に作成されたUSB用音声認識辞書の基本辞書と追加辞書、最後に作成されたPAP用音声認識辞書の基本辞書と追加辞書のいずれかに登録されている楽曲テキスト毎のエントリを設け、各エントリに、存在フラグ、当該楽曲テキスト、当該楽曲テキストを読み上げた発音を表すヨミ(発音データ)とを登録する。
そして、PAP用音声認識辞書について述べれば、図6に示した第2実施形態に係るPAP用音声認識辞書編集処理のステップ620の処理に代えて、図3に示した第1実施形態に係るPAP用音声認識辞書編集処理のステップ306-328の処理を、基本辞書を第1実施形態に係るPAP用音声認識辞書に置き換えて適用するようにする。これにより、取得した楽曲リストが、最終使用楽曲リストと同じでなく、かつ、最終使用楽曲リストに楽曲テキストを追加したものでない場合に、第1実施形態で示した全体ヨミデータを利用した基本辞書作成が可能となる。
なお、この場合、音声認識エンジン8における音声認識処理は、図9に示した第2実施形態に係る音声認識処理により行うようにする。
また、この場合、図6に示した第2実施形態に係るPAP用音声認識辞書編集処理のステップ604において、取得した楽曲リストが、最終使用楽曲リストに楽曲テキストを追加したものであると判定された場合であっても、追加楽曲テキスト数が所定数より多い場合には、ステップ618に進むようにしてもよい。このようにすることにより、追加楽曲テキスト数が所定数より多い場合には、第1実施形態で示した全体ヨミデータを利用した基本辞書作成が可能となる。
また、この場合、図6に示した第2実施形態に係るPAP用音声認識辞書編集処理のステップ604において、取得した楽曲リストが、最終使用楽曲リストに楽曲テキストを追加したものであると判定された場合であっても、追加楽曲テキスト数が所定数より多い場合には、ステップ618に進むようにしてもよい。このようにすることにより、追加楽曲テキスト数が所定数より多い場合には、第1実施形態で示した全体ヨミデータを利用した基本辞書作成が可能となる。
また、以上の実施形態では、楽曲テキストがオーディオファイルの楽曲の楽曲名を表すものである場合について説明したが、楽曲テキストは、オーディオファイルの楽曲のアーティストやアルバムなどの他の属性を表すものとしてもよい。
また、本実施形態は、楽曲IDに代えて任意の識別対象を、楽曲テキストに代えて任意のテキストを用いて行う音声認識に用いる音声認識辞書の更新に同様に適用することができる。
また、本実施形態は、楽曲IDに代えて任意の識別対象を、楽曲テキストに代えて任意のテキストを用いて行う音声認識に用いる音声認識辞書の更新に同様に適用することができる。
1…マイクロフォン、2…スピーカ、3…入力装置、4…表示装置、5…HDD、6…USBインタフェース、7…ポータブルオーディオプレイヤインタフェース、8…音声認識エンジン、9…オーディオ出力部、10…音声認識辞書編集部、11…再生制御部、12…TTS部、21…USBストレージ、22…ポータブルオーディオプレイヤ、22…ポータブルオーディオプレイヤ(PAP)。
Claims (9)
- 音声認識を行う音声認識装置であって、
テキストと、前記テキストの所定のルールに従って定まる順序に従った順番を表す識別番号との対応が記述されたリストより、前記テキストを読み上げた音声を表す発音データと前記識別番号との対応を登録した音声認識辞書を作成する音声認識辞書作成部と、
前記音声認識辞書を参照して、発話された音声にマッチする発音データに対応する前記識別番号を識別する音声認識部とを有し、
前記音声認識辞書は、基本辞書と追加辞書と管理テーブルとより構成され、
前記音声認識辞書作成部は、
前記テキストを読み上げた音声を表す発音データを生成する発音データ生成手段と、
初回の音声認識辞書の作成時に、新たな基本辞書を生成し、前記リストに含まれる各テキストを読み上げた音声を表す発音データを前記発音データ生成手段で生成し、生成した発音データと、当該リストにおいて当該テキストとの対応が記述されている識別番号との対応を前記新たな基本辞書に登録する基本辞書作成手段と、
前記リストに、新たなテキストについての前記識別番号との対応が追加されたときに、当該新たなテキストを読み上げた音声を表す発音データを前記発音データ生成手段で生成し、生成した発音データと、当該リストにおいて当該新たなテキストとの対応が記述されている識別番号との対応を前記追加辞書に登録すると共に、前記管理テーブルに、当該新たなテキストを登録し、前記管理テーブルに登録されている各テキストに対して、前記管理テーブルに登録されているテキストの内の前記ルールに従って定まる順序を第1の加算値として登録すると共に、前記管理テーブルに登録されている前記新たなテキスト以外のテキストに、前記ルールに従って定まる順序上、当該テキストより前の順番のテキストのうちの、前記新たなテキストの数を第2の加算値として登録する辞書追加手段とを有し、
前記音声認識部は、
発話された音声にマッチする発音データが前記基本辞書に登録され、発話された音声にマッチする発音データに対応するテキストが前記管理テーブルに登録されていない場合に、前記基本辞書に発話された音声にマッチする発音データとの対応が登録された前記識別番号を、前記発話された音声にマッチする発音データに対応する前記識別番号として識別し、
発話された音声にマッチする発音データが前記基本辞書に登録され、発話された音声にマッチする発音データに対応するテキストが前記管理テーブルに登録されている場合に、前記基本辞書に発話された音声にマッチする発音データとの対応が登録された前記識別番号に、前記管理テーブルにおいて、発話された音声にマッチする発音データに対応するテキストに対して登録されている第1の加算値を加算した番号を、前記発話された音声にマッチする発音データに対応する前記識別番号として識別し、
発話された音声にマッチする発音データが前記追加辞書に登録されている場合に、前記追加辞書に発話された音声にマッチする発音データとの対応が登録された前記識別番号に、前記管理テーブルにおいて、発話された音声にマッチする発音データに対応するテキストに対して登録されている第2の加算値を加算した番号を、前記発話された音声にマッチする発音データに対応する前記識別番号として識別することを特徴とする音声認識装置。 - 請求項1記載の音声認識装置であって、
前記音声認識辞書作成部は、
前記基本辞書または前記追加辞書に含まれる各発音データと当該発音データが読み上げた音声を表す前記テキストとの対応を登録した既得発音データを記憶する既得発音データ記憶手段と、
前記リストが更新されたときに、当該更新が、前記リストへの新たなテキストについての前記識別番号との対応の追加によるものでない場合、もしくは、当該更新が、前記リストへの新たなテキストについての前記識別番号との対応の所定数以下の追加によるものである場合に、前記基本辞書と前記追加辞書と前記管理テーブルを消去すると共に、新たな基本辞書を生成し、当該リストに含まれるテキストのうち、前記既得発音データ記憶手段に記憶されている既得発音データに、前記発音データとの対応が登録されているテキストについては、当該テキストに対応する発音データを前記既得発音データから取得して、当該取得した発音データと、当該リストにおいて当該テキストとの対応が記述されている識別番号との対応を前記新たな基本辞書に登録し、前記既得発音データに、前記発音データとの対応が登録されていないテキストについては、前記発音データ生成手段で当該テキストを読み上げた音声を表す発音データを生成し、生成した発音データと、当該リストにおいて当該テキストとの対応が記述されている識別番号との対応を前記新たな基本に登録する音声認識辞書編集手段を有することを特徴とする音声認識装置。 - 音声認識を行う音声認識装置であって、
識別対象とテキストとの対応が記述されたリストより、前記テキストを読み上げた音声を表す発音データと前記識別対象との対応を登録した音声認識辞書を作成する音声認識辞書作成部と、
前記音声認識辞書を参照して、発話された音声にマッチする発音データに対応する前記識別対象を識別する音声認識部とを有し、
前記音声認識辞書作成部は、
前記テキストを読み上げた音声を表す発音データを生成する発音データ生成手段と、
前記音声認識辞書に含まれる各発音データと当該発音データが読み上げた音声を表す前記テキストとの対応を登録した既得発音データを記憶する既得発音データ記憶手段と、
前記リストが更新されたときに、新たな音声認識辞書を生成し、当該リストに含まれるテキストのうち、前記既得発音データ記憶手段に記憶されている既得発音データに、前記発音データとの対応が登録されているテキストについては、当該テキストに対応する発音データを前記既得発音データから取得して、当該取得した発音データと、当該リストにおいて当該テキストとの対応が記述されている識別対象との対応を前記新たな音声認識辞書に登録し、前記既得発音データに、前記発音データとの対応が登録されていないテキストについては、前記発音データ生成手段で当該テキストを読み上げた音声を表す発音データを生成し、生成した発音データと、当該リストにおいて当該テキストとの対応が記述されている識別対象との対応を前記新たな音声認識辞書に登録する音声認識辞書編集手段とを有することを特徴とする音声認識装置。 - 請求項3記載の音声認識装置であって、
前記音声認識辞書を複数備え、前記既得発音データは当該複数の音声認識辞書のいずれかに含まれる各発音データと当該発音データが読み上げた音声を表す前記テキストとの対応が登録されることを特徴とする音声認識装置。 - 請求項1または2記載の音声認識装置であって、
前記テキストは楽曲の属性を表すテキストであり、前記識別番号は前記楽曲のデータの識別を表すものであることを特徴とする音声認識装置。 - 請求項3または4記載の音声認識装置であって、
前記テキストは楽曲の属性を表すテキストであり、前記識別対象は前記楽曲のデータの識別を表すものであることを特徴とする音声認識装置。 - 請求項5記載の音声認識装置であって、
前記リストは、当該音声認識装置に接続された外部装置より取得されるものであって、当該リストには、当該外部装置に楽曲データが記録されている各楽曲についての、当該楽曲の属性を表すテキストと当該楽曲の楽曲データの識別を表す識別番号との対応が記述されていることを特徴とする音声認識装置。 - 請求項5記載の音声認識装置であって、
前記リストは、当該音声認識装置に接続された外部装置より取得されるものであって、当該リストには、当該外部装置に楽曲データが記録されている各楽曲についての、当該楽曲の属性を表すテキストと当該楽曲の楽曲データの識別を表す識別情報との対応が記述されていることを特徴とする音声認識装置。 - コンピュータによって読みとられ実行されるコンピュータプログラムであって、
前記コンピュータを、請求項1、2、3、4、5、6、7又は8記載の音声認識装置として機能させることを特徴とするコンピュータプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010011919A JP2011150169A (ja) | 2010-01-22 | 2010-01-22 | 音声認識装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010011919A JP2011150169A (ja) | 2010-01-22 | 2010-01-22 | 音声認識装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2011150169A true JP2011150169A (ja) | 2011-08-04 |
Family
ID=44537210
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010011919A Withdrawn JP2011150169A (ja) | 2010-01-22 | 2010-01-22 | 音声認識装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2011150169A (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2013157174A1 (ja) * | 2012-04-16 | 2013-10-24 | 株式会社デンソー | 音声認識装置 |
CN109754786A (zh) * | 2017-11-06 | 2019-05-14 | 奥迪股份公司 | 用于车辆的语音控制装置 |
-
2010
- 2010-01-22 JP JP2010011919A patent/JP2011150169A/ja not_active Withdrawn
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2013157174A1 (ja) * | 2012-04-16 | 2013-10-24 | 株式会社デンソー | 音声認識装置 |
JP2013222033A (ja) * | 2012-04-16 | 2013-10-28 | Denso Corp | 音声認識装置 |
CN104246872A (zh) * | 2012-04-16 | 2014-12-24 | 株式会社电装 | 声音识别装置 |
US9704479B2 (en) | 2012-04-16 | 2017-07-11 | Denso Corporation | Speech recognition device |
CN109754786A (zh) * | 2017-11-06 | 2019-05-14 | 奥迪股份公司 | 用于车辆的语音控制装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9153233B2 (en) | Voice-controlled selection of media files utilizing phonetic data | |
JP2014219614A (ja) | オーディオ装置、ビデオ装置及びコンピュータプログラム | |
KR20080043358A (ko) | 재생 디바이스의 동작을 제어하는 방법 및 시스템 | |
KR20080000203A (ko) | 음성인식을 이용한 음악 파일 검색 방법 | |
KR20090107037A (ko) | 디지털 콘텐츠 메타데이터의 통합된 포맷 | |
US20220093103A1 (en) | Method, system, and computer-readable recording medium for managing text transcript and memo for audio file | |
JP5465926B2 (ja) | 音声認識辞書作成装置及び音声認識辞書作成方法 | |
KR102036721B1 (ko) | 녹음 음성에 대한 빠른 검색을 지원하는 단말 장치 및 그 동작 방법 | |
US20100222905A1 (en) | Electronic apparatus with an interactive audio file recording function and method thereof | |
JP2011150169A (ja) | 音声認識装置 | |
JP5693834B2 (ja) | 音声認識装置及び音声認識方法 | |
KR100834363B1 (ko) | 음성 응답 시스템, 음성 응답 방법, 음성 서버, 음성 파일 처리 방법 및 기록 매체 | |
US10963509B2 (en) | Update method and update apparatus | |
JP5426913B2 (ja) | 音声認識辞書編集装置及び音声認識装置 | |
JP6587459B2 (ja) | カラオケイントロにおける曲紹介システム | |
JPH11242496A (ja) | 情報再生装置 | |
JP5431817B2 (ja) | 楽曲データベース更新装置及び楽曲データベース更新方法 | |
JP2009204872A (ja) | 音声認識用辞書生成システム | |
JP2011008373A (ja) | 自然言語処理装置及びプログラム | |
KR100850665B1 (ko) | 노래/반주 절환 기능을 포함하는 멀티미디어 파일 재생장치 | |
KR20040062317A (ko) | 오디오 데이터 파일의 부가 정보 음성 안내방법 | |
JP2022068817A (ja) | 音声記録のための音声認識率を向上させる方法、システム、およびコンピュータ読み取り可能な記録媒体 | |
JP2017173504A (ja) | 楽曲編集装置 | |
KR101365592B1 (ko) | Mgi음악 파일 생성 시스템 및 방법 | |
JP6076423B1 (ja) | 音楽再生装置及び音楽再生方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A300 | Application deemed to be withdrawn because no request for examination was validly filed |
Free format text: JAPANESE INTERMEDIATE CODE: A300 Effective date: 20130402 |