JP5465926B2 - 音声認識辞書作成装置及び音声認識辞書作成方法 - Google Patents

音声認識辞書作成装置及び音声認識辞書作成方法 Download PDF

Info

Publication number
JP5465926B2
JP5465926B2 JP2009123866A JP2009123866A JP5465926B2 JP 5465926 B2 JP5465926 B2 JP 5465926B2 JP 2009123866 A JP2009123866 A JP 2009123866A JP 2009123866 A JP2009123866 A JP 2009123866A JP 5465926 B2 JP5465926 B2 JP 5465926B2
Authority
JP
Japan
Prior art keywords
speech recognition
recognition dictionary
content
information
name
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2009123866A
Other languages
English (en)
Other versions
JP2010271562A (ja
Inventor
千春 武田
文彦 青山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alpine Electronics Inc
Original Assignee
Alpine Electronics Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alpine Electronics Inc filed Critical Alpine Electronics Inc
Priority to JP2009123866A priority Critical patent/JP5465926B2/ja
Priority to US12/707,966 priority patent/US8706484B2/en
Publication of JP2010271562A publication Critical patent/JP2010271562A/ja
Application granted granted Critical
Publication of JP5465926B2 publication Critical patent/JP5465926B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0635Training updating or merging of old and new templates; Mean values; Weighting

Description

本発明は、音声認識辞書作成装置及び音声認識辞書作成方法に関し、特に、音声認識辞書の作成時及び利用時の処理効率の向上を可能にする音声認識辞書の作成に関する。
近年、テキストを入力するとそれを音声で読み上げる機能(TTS(Text To Speech)エンジン)を備えたシステムが開発され、携帯電話の電話応答サービスなどで広く利用されている。例えば、個人向けポータブルサービスで、ユーザの身近にモバイル端末やコンピュータがないという状況でも、電話をかければEメールやニュース、市場動向等の情報を読み上げてくれる音声サービスとして使用されている。
また、再生用のオーディオ情報を格納した機器をオーディオ装置に接続して、オーディオ情報を基に音楽を再生出力することが行われている。このようなオーディオ情報としては楽曲データがあり、楽曲データには、楽曲のデジタルデータとともに楽曲のタイトルやアーティスト等の情報が記載されたタグデータが含まれている。このタグデータを基にして再生されている楽曲のタイトル等を表示画面に表示したり、TTSエンジンを利用して音声で読み上げることもできるようになってきている。さらに、ユーザから楽曲のタイトルを音声入力して、その楽曲を再生することもできるようになってきている。
ユーザが発話した音声を認識するためには、利用される適切な単語(キーワード)が登録された音声認識用辞書が不可欠である。これに関連する技術として、特許文献1には、デジタルテレビ放送の番組検索を容易にするために、番組案内情報から番組検索を行うためのキーワードを特定の品詞に該当する単語を基に抽出し、各キーワードの読みからなる音声認識用辞書を作成し、音声入力によって番組を検索する技術が記載されている。
特許文献2では、ユーザが発声を省略する文字や、TTSでは発音データを生成できない文字をスペースに置き換える等の処理をして、ユーザの発声に整合するように発音データを蓄積した音声認識辞書を作成する技術が記載されている。
特許文献3では、認識語彙辞書の作成において、単語のテキスト文字列の一部とそれらに対応する発音記号とをセグメント対として蓄積し、このセグメント対の出現頻度に基づいた生起確率を用いてユーザが発音する可能性の高い発音記号列を精度よく生成する技術が記載されている。
特開2001−309257号公報 特開2004−053979号公報 特開2008−275731号公報
上述した音声認識辞書が作成された後で辞書に登録されていない新たな単語が発話される場合がある。新たな単語は、例えば、音楽CDの新譜など新たな楽曲が追加されたり、携帯電話に新たな通話先が住所録に追加されたりして、それらの情報を利用するときに必要となる。このような場合には、その新たな単語を登録するように音声認識辞書を更新することが必要となる。
この更新において、一部(例えば住所録の1件や音楽CDの一曲のみ)が更新された場合には、通常、更新箇所のみを更新するのではなくすべてのデータを更新するようにしている。従って、新たに追加されたデータだけを更新する場合と比較して、認識辞書の作成時間が大幅に増加してしまうという問題が発生する。
一方、認識辞書の一部を更新する場合には、更新された情報毎にファイルが生成される。音声認識辞書を利用する際には、これらのファイルにアクセスしてファイル内の更新された情報を使用する。このとき、ファイル数が少なければ音声認識の処理時間への影響は小さくて済むが、ファイル数が多くなると処理速度の低下を引き起こしてしまう。
本発明は、かかる従来技術の課題に鑑みなされたものであり、音声認識辞書の更新及び利用時の処理速度の低下を抑制することが可能な音声認識辞書作成装置及び音声認識辞書作成方法を提供することを目的とする。
上述した従来技術の課題を解決するため、本発明の基本形態によれば、外部機器又は媒体から音声認識の対象となるテキストを入力する入力手段と、前記テキストが所定の項目のファイル毎に格納される記憶手段と、テキストを解析して読みデータを生成する読みデータ生成手段と、前記所定の項目のファイル毎に前記テキストの読みデータが格納されたコンテンツ辞書により構成される音声認識辞書と、前記入力手段を介して入力された前記テキストを前記記憶手段に格納する制御手段と、を有し、前記制御手段は、前記記憶手段に格納した前記テキストを含む所定の項目のファイルが更新されたとき、前記コンテンツ辞書の総数を検出し、当該総数が所定の制限値未満のときに前記更新された前記所定の項目ごとに前記コンテンツ辞書を作成して前記音声認識辞書を更新するとともに、前記コンテンツ辞書の総数が所定の制限値以上のとき、前記外部機器又は媒体に応じたコンテンツ辞書を前記音声認識辞書から削除し、新たに当該外部機器又は媒体に応じたすべての音声認識の対象となるテキストを各コンテンツ毎に前記記憶手段から抽出して、前記コンテンツ辞書を作成して、前記音声認識辞書を更新する音声認識辞書作成装置が提供される。
この形態に係る音声認識辞書作成装置において、前記制御手段は、前記外部機器又は媒体が接続され、前記テキストが前記記憶手段の所定の項目のファイルに格納されたとき、前記所定の項目のファイルが更新されたと判定するようにしてもよく、前記制御手段は、前記音声認識の対象となるテキストのうち、同一名称のテキストは統合して一つのテキストとして前記コンテンツ辞書を作成するようにしてもよい。
また、この形態に係る音声認識辞書作成装置において、前記制御手段は、前記媒体がCDのとき、前記所定の項目のうちアーティスト名に対して前記記憶手段に格納されている楽曲情報に一致するアーティスト名が存在しないとき、又は、前記所定の項目のうち作曲者名に対して前記記憶手段に格納されている楽曲情報に一致する作曲者名がないときに、情報が更新されたと判定するようにしてもよく、前記制御手段は、前記媒体がCDのとき、前記所定の項目のうちアルバム名に対して前記記憶手段に格納されている楽曲情報に一致するアルバム名がないとき、又は、一致するアルバム名とTOC情報が異なるとき、情報が更新されたと判定するようにしてもよい。
また、本発明の他の形態によれば、所定の項目のファイル毎にテキストの読みデータが格納されたコンテンツ辞書により構成される音声認識辞書の作成方法であって、記憶手段に格納された音声認識の対象となるテキストが含まれる前記所定の項目のファイルの情報が更新されたか否かを判定するステップと、外部機器又は媒体から取得した音声認識の対象となるテキストが格納された前記所定の項目のファイルの情報が更新されたとき、前記所定の項目のファイル毎に前記テキストの読みデータが格納されたコンテンツ辞書の総数を検出するステップと、前記コンテンツ辞書の総数と所定の制限値とを比較するステップと、前記総数が所定の制限値以上のとき、前記外部機器又は媒体に応じたコンテンツ辞書を前記音声認識辞書から削除し、新たに当該外部機器又は媒体に応じたすべての音声認識の対象となるテキストを各コンテンツ毎に前記記憶手段から抽出するステップと、前記総数が所定の制限値未満のとき、前記更新された前記所定の項目ごとに前記外部機器又は媒体に応じた音声認識の対象となるテキストを各コンテンツ毎に前記記憶手段から抽出するステップと、前記テキストを変換して読みデータを取得するステップと、前記読みデータを登録して音声認識辞書を更新するステップと、を有する音声認識辞書作成方法が提供される。
この形態に係る音声認識辞書作成方法において前記所定の項目のファイルの情報が更新されたか否かを判定するステップは、前記外部機器又は媒体が接続されて、前記テキストが前記記憶手段の所定の項目のファイルに格納されたか否かを判定するステップであるようにしてもよく、前記読みデータを取得するステップは、前記音声認識の対象となるテキストのうち同一名称のテキストを検出するステップと、前記同一名称のテキストを統合して一つのテキストとするステップと、を含むようにしてもよい。
また、この形態に係る音声認識辞書作成方法において、前記媒体がCDのとき、前記所定の項目のファイルの情報が更新されたか否かを判定するステップは、前記所定の項目のうちアーティスト名を抽出するステップと、前記記憶手段に当該アーティスト名が含まれているか否かを判定するステップと、一致するアーティスト名がないとき、情報が更新されたと判定するステップと、を含むようにしてもよく、前記所定の項目のファイルの情報が更新されたか否かを判定するステップは、前記所定の項目のうちアルバム名を抽出するステップと、前記記憶手段に格納されているアルバム名とTOC情報が異なるとき、情報が更新されたと判定するステップと、を含むようにしてもよい。
本発明の音声認識辞書作成装置及び音声認識辞書作成方法によれば、音声認識辞書を構成する所定の項目のファイル毎に音声認識の対象となるテキストの読みデータが格納されたコンテンツ辞書の総数が予め定められた所定の制限数よりも少ないときは、更新された所定の項目だけを更新する差分更新を行い、所定の制限数以上のときは、コンテンツ辞書の全体を書き換える全件更新を行うようにしている。これにより、音声認識辞書の更新の際に差分だけを更新することによって効率的に更新することが可能になる。また、コンテンツ辞書の数が多くなればそれまでに作成された各コンテンツ辞書を破棄して新たに所定の項目毎にまとめたコンテンツ辞書を作成するため、認識辞書の作成には多少時間がかかるものの、認識辞書の利用においては音声認識を効率よく行うことが可能となる。
図1は、本発明の一実施形態に係る音声認識辞書作成装置を含む情報処理装置の構成を示すブロック図である。 図2(a)は、音声認識辞書の構成の一例であり、図2(b)は、各種デバイスから取得した情報の保存態様の一例である。 図3は、差分更新時の楽曲検索用音声認識辞書の作成概要を示す図である。 図4は、全件更新時の楽曲検索用音声認識辞書の作成概要を示す図である。 音声認識辞書作成処理の一例を示すフローチャートである。
以下、本発明の実施形態について、添付の図面を参照して説明する。
図1は、本発明の一実施形態に係る音声認識辞書作成装置100を含む情報処理装置200の構成を示した図である。
本実施形態に係る音声認識辞書作成装置100は、図1に示すように、入力部1と、記憶部2と、情報抽出部4と、TTSエンジン5と、制御部6と、音声認識辞書生成部7と、音声認識辞書8とを備えている。
さらに、音声認識処理を含む情報処理装置200としては、音声認識制御部11と、音声認識エンジン9と、マイクロフォン10と、音声認識辞書管理部12と、メモリ13と、表示部14とを備えている。
入力部1は、各種機器(デバイス)や媒体が接続される。例えば、デジタルオーディオ機器やCD,DVD,携帯電話等が接続される。デジタルオーディオ機器としては、例えば、iPod(登録商標:アップル・コンピュータ社製のデジタル音楽プレーヤー)や、HDDオーディオ、CDテキストがある。HDDオーディオは記憶装置にハードディスクを内蔵した携帯音楽プレーヤーである。また、CDテキストは、CD−TEXT規格に対応したプレーヤーであり、CDのタイトルや作曲家などのテキスト情報が表示されるものである。
デジタルオーディオ機器には、例えば、インターネット等を介して配信されたMP3形式等の楽曲ファイルをパーソナルコンピュータ(PC)にいったんダウンロードし、さらにこのPCから転送された楽曲ファイルが格納されている。この楽曲ファイルには、再生用のオーディオ情報の他に、このオーディオ情報を特定する楽曲情報(タイトル、アーティスト名、アルバム名などであり、本実施形態では、コンテンツとも呼ぶ)が含まれている。
記憶部2は、ハードディスクや半導体メモリ等で構成され、入力部1から入力した各種デバイスに格納されている情報(例えば、CDの場合は楽曲データ2aであり、携帯電話機の場合は、住所録のデータである)が格納される。また、記憶部2には、楽曲情報が含まれたデータベースCDDB2bが構成されている。
情報抽出部4では、入力された各種デバイスに記録されている情報から、音声認識辞書8の登録語彙の対象となるテキストを抽出する。例えば、CDが入力媒体の場合、楽曲データからCDDB2bを参照して、タイトルやアーティストや作曲者などのコンテンツ情報を抽出する。
TTSエンジン5は、テキスト解析部5aと読みデータ生成部5bで構成されている。また、TTSエンジン5には、音声合成を実行する際に使用する辞書(言語解析辞書、音声合成辞書)が用意されている。言語解析辞書は、音声合成処理の対象となるテキスト情報の構文解析を行う際に参照する辞書であり、あらかじめ各語彙毎に、その表記、読み、アクセント情報、品詞情報等の詳細な情報を対応付けて登録したものである。音声合成辞書は、テキスト解析部5aで解析されたテキスト情報をその対応する音声(波形)データに変換する際に参照する辞書である。
テキスト解析部5aでは、情報抽出部4で抽出されたテキスト(文字列)が入力されると、言語解析辞書を基にしてテキストを解析し、読みデータ生成部5bにおいて、読みとアクセントを記した文字列である中間言語(読みデータ)を生成する。
音声認識辞書生成部7は、読みデータ生成部5bで生成された読みデータをDB化して音声認識辞書8に格納する。
音声認識辞書8は、ハードディスクや半導体メモリ等で構成され、音声認識エンジン9で使用する音声認識辞書が格納されている。
制御部6は、マイクロコンピューターにより構成され、上記各部の制御を行って、入力デバイスや媒体に保存されている音声認識の対象とするテキストから読みデータを生成させて音声認識辞書を作成する。具体的には、記憶部2に保存した各種データから、情報抽出部4において音声認識辞書の対象となる単語(テキスト)を抽出させ、TTSエンジン5においてテキストの読みデータを生成させ、音声認識辞書生成部で音声認識辞書を生成させる。
音声認識辞書を利用して、ユーザの発話した音声の認識処理は、以下の各部の処理によって行われる。
音声認識制御部11は、認識対象としたい語彙を音声認識辞書8から音声認識辞書管理部12を介してメモリ13に展開し、音声認識の対象とする。また、音声認識制御部11は、マイクロフォン10を介して入力したユーザの発話音声を音声認識エンジン9に認識させる。
音声認識エンジン9は、入力された音声を音響分析して特徴量を抽出し、特徴量と音響モデルを照合して複数の発音記号列を得る。この発音記号列を基に認識対象となっている語彙の中から尤もらしい語彙を選択する。認識された結果をもとに、ユーザの要求に応じた情報を表示部14に表示する。
このように構成された音声認識辞書作成装置100に、外部機器や媒体が接続されると、音声認識辞書の対象となる語彙を抽出して、音声認識辞書を作成する。その際に、音声認識辞書の作成時間及び音声認識辞書の利用の際の処理時間の効率化を考慮した音声認識辞書の作成を行う。例えば、媒体として楽曲データが格納されたCDが接続されてリッピングされると、記憶部2にリッピングした楽曲データ及びその楽曲データに付随した楽曲名等の情報が含まれている楽曲情報を格納する。この楽曲情報が格納された時点を音声認識辞書8の更新のトリガとする。
音声認識辞書8を更新する際に、音声認識辞書8のファイル構成の状態を検出して、その状態に応じて一部の更新を行うかあるいは全体の辞書の更新を行うかが決定される。
音声認識辞書8の更新方法としては、リッピング等によって追加されたコンテンツ情報のみ(以下、差分情報と呼ぶ)に対して音声認識辞書8の作成処理(以下、差分更新処理と呼ぶ)を行う場合と、それまでのコンテンツ情報の全体を改めて更新する音声認識辞書8の作成処理(以下、全件更新処理と呼ぶ)を行う場合とがある。
なお、コンテンツ(所定の項目)とは、例えば、楽曲データの場合、楽曲情報に含まれている楽曲のタイトルやアーティスト名、アルバム名などの付加的情報のことである。
以下に、CDのリッピングを行った場合を例にとって、楽曲データに関する音声認識辞書8の更新処理について説明する。
まず、音声認識辞書8のファイル構成21について説明する。図2(a)は音声認識辞書8のファイル構成21を概念的に示した図である。図2(a)に示すように、音声認識辞書8には各デバイスから取得した語彙の認識辞書が各デバイス毎(22〜24)に登録され格納されている。例えば、デバイス1(22)には、CDから取得したデータを基に作成された辞書、デバイス2(23)には、iPodから取得したデータを基に作成された辞書が格納されている。
また、各デバイス(22〜24)においては、コンテンツ毎にまとめて登録されている。図2(a)に示すように、デバイス1(22)では、コンテンツ1(25a)のファイル、コンテンツ2(25b)のファイル、コンテンツX(25c)のファイルのように、それぞれ別々のファイルに辞書が格納されている。例えば、デバイス1がCDの場合、デバイス1というフォルダの中に、CDから抽出したタイトル名がコンテンツ1(タイトル)のファイルに記載され、アーティスト名がコンテンツ2(アーティスト)のファイルに記載される。なお、この個別の辞書をコンテンツ辞書と呼ぶ。
一方、図2(b)は、CD等の媒体やデバイスが接続されたときに楽曲情報等が格納される記憶部2のファイル構成26の一例を示している。各デバイスにおいて同一のコンテンツ毎に一つのフォルダ内にデータが格納されている。例えば、デバイス1(27)には、CDから取得したデータ、デバイス2(28)には、iPodから取得したデータが格納されている。
また、各デバイス(27〜29)においては、すべてのコンテンツ情報が一つのファイルにまとめて保存されている。
以下に、図3及び図4を参照しながら、楽曲検索用の音声認識辞書作成方法について説明する。図3は、差分更新時の音声認識辞書作成方法の概要を示しており、図4は、全件更新時の音声認識辞書作成方法の概要を示している。
図3は、入力部1にCDを接続して、各CDのデータを記憶部2にリッピングした場合の一例であり、CD1、CD2、CD3の順にリッピングをした場合を示している。
まず、CD1をリッピングすることにより、楽曲情報が記憶部2に格納される。この楽曲情報は、コンテンツとして、タイトル名、アーティスト名、アルバム名、作曲者名、ジャンル、プレイリストがある。
記憶部2にこれらのデータが格納された時点で制御部6は音声認識辞書8に登録されているコンテンツ辞書の数を検出し、その数が制限値を超えていないか否かを判定する。制限値を超えていなければ、上記の各コンテンツ毎に音声認識辞書を作成する。この制限値は、各コンテンツに属する辞書が何個まで増えることを許容するかの上限値であり、予め記憶部2に設定しておく。
図3では、CD1のコンテンツデータ(タイトル名)として、“title1”、“title2”、“title3”、“title4”を抽出し、これらのタイトル名のテキストをTTSエンジン5に入力して、読みデータを生成する。これらの読みデータを基に音声認識辞書8を作成するとともに、各語彙に対して識別番号(ID0001〜ID0004)を付与してタイトルのコンテンツ辞書を音声認識辞書8に登録する。
同様に、アーティスト名、アルバム名等についてもそれぞれのコンテンツ辞書を作成して音声認識辞書8に登録する。
次に、CD2がリッピングされて、記憶部2にCD2のコンテンツデータが格納されたものとする。この格納時点をトリガとして、制御部6はCD1がリッピングされたときと同様に、音声認識辞書8に登録されているコンテンツ辞書の数を検出し、その数が制限値を超えていないか否かを判定する。制限値を超えていなければ、上記の各コンテンツ毎に音声認識辞書8を作成する。
図3では、CD2のコンテンツデータ(タイトル名)として、“title5”、“title6”、“title7”を抽出し、これらのタイトル名のテキストをTTSエンジン5に入力して、読みデータを生成する。これらの読みデータを基に音声認識辞書8を作成するとともに、各語彙に対して識別番号(ID0005〜ID0007)を付与してタイトルのコンテンツ辞書を音声認識辞書8に登録する。
同様に、アーティスト名、アルバム名等についてもそれぞれのコンテンツ辞書を作成して音声認識辞書8に登録する。
図3のCD3についても同様な音声認識辞書作成処理を行う。CD3のリッピングデータに対してもCD1,CD2と同様に、CD3に含まれているコンテンツ毎にコンテンツ辞書が作成されて音声認識辞書8に登録される。
一方、コンテンツ辞書数が制限値を超えている場合は、図4に示す全件更新処理を行う。
図3に示した一例を用いて説明したように、差分更新処理では、リッピングによって更新された情報のみに対して辞書の生成を行う。このとき、情報が更新されなかった楽曲データに対しては、以前に作成された音声認識辞書を再作成することなく使用する。このような動作によって音声認識辞書の更新処理時間が削減される。
このように差分更新処理が行われると、音声認識辞書には差分更新処理毎にコンテンツ辞書が作成される。従って、リッピングした回数分のコンテンツ辞書が作成され、アーティストやアルバムなどのコンテンツも1件ずつ作成される。
複数回CDのリッピングが行われると、はじめのうちはコンテンツ辞書数が制限値を超えないが、繰り返しリッピングを行うことによりコンテンツ辞書数が制限値を超えてしまう。そのため、差分更新処理が繰り返されるとコンテンツ辞書の数及びサイズが膨大になり、音声認識辞書を利用する際のアクセス時間がかかってしまう。
これに対し、コンテンツ辞書数の削減をするための全件更新処理が行われる。図4は、全件更新処理の概要を説明する図である。
図4においてCDnがリッピングされて記憶部2に楽曲情報が格納されたとき、制御部6がコンテンツ辞書数を検出し、制限値を超えたものとする。この場合、それまで作成された各CDに対してコンテンツ毎に作成された音声認識辞書8をすべて破棄する。
その後、記憶部2に格納されているCDのコンテンツデータを取得して、リッピング毎のデータではなくすべてのコンテンツデータをまとめて、各コンテンツ毎にコンテンツ辞書を作成する。
図4に示すように、例えば、コンテンツがタイトルの場合は、それまでにリッピングされたタイトルのデータ(“title1”から“title11”及び“title x”から“title z”)が一つのコンテンツ辞書として作成される。他のコンテンツ(アーティスト名やアルバム名等)についても同様である。
図4に示すように全件更新の場合は記憶部2に登録されている楽曲情報に基づいて各コンテンツ(アーティスト名、アルバム名等)毎に音声認識辞書を構成しなおす。この場合、コンテンツ辞書の数は、アーティスト名等のコンテンツの数になる。従って、一つのコンテンツ内のデータ量が増えることによりコンテンツ辞書のサイズは大きくなるが、コンテンツ辞書の数が増加することはない。そのため、コンテンツ辞書を読み出す際のアクセス時間の短縮を図ることができる。
なお、アーティスト名やアルバム名などのコンテンツデータとして同一名称の場合が含まれている。このような同一名称のコンテンツに対しては統合して一つの名称としてコンテンツ辞書を作成する。
コンテンツ情報のうち、アーティスト名や作曲者名は、それまでにリッピングした楽曲情報の中に文字列として同じものがない場合のみ差分として扱い、情報が更新したと判断する。
例えば、図3において、コンテンツ情報のアーティストについては、4曲すべて“artist I”であるため、コンテンツ辞書(Artist)では、“artist I”が一つだけ登録されている。また、全件更新の場合も同様である。例えば、図4において、コンテンツ情報のアーティストについては、“artist I”、“artist II”、“artist III”、“artist x”、“artist y”及び“artist z”がそれぞれ一つずつコンテンツ辞書(Artist)に登録されている。
また、トラックやアルバム名についても、それまでにリッピングした楽曲情報の中に文字列として同じものがない場合に情報が更新したと判断する。さらに、同じ文字列が存在した場合であっても、TOC情報が異なれば同一のトラックやアルバムではないため、TOC情報が異なるか否かによって識別する。
上記したように図3の差分更新による音声認識辞書8の作成では、更新処理時間は短いが、繰り返し更新されると利用時のアクセス時間がかかるという不都合が存在する。一方、図4の全件更新による音声認識辞書8の作成では、更新処理時間はかかるものの利用時のアクセスにかかる時間を削減することが可能となる。
そこで、音声認識辞書8の利用時におけるアクセス時間を考慮し、差分更新をするか全件更新をするかを決定する。その一つの判断基準として、コンテンツ辞書の数の制限値を設けている。
コンテンツ辞書の数の制限値は予め決定し、記憶部2に格納しておく。例えば、コンテンツ辞書を複数作成してコンテンツ辞書を使用可能にするまでの時間を測定し、所要の時間で利用可能なコンテンツ辞書の数を決定する。
音声認識辞書作成装置100の記憶部2に楽曲情報が格納され更新されると、その楽曲情報を基にして音声認識用の辞書を作成する。その際に、音声認識辞書の差分更新処理を行うのか、全件更新処理を行うのかを音声認識辞書に登録されているコンテンツ辞書の数を基に決定する。
次に、音声認識辞書8の作成処理について図5のフローチャートを参照しながら説明する。なお、本処理において、コンテンツ辞書の数の制限値は予め決定され記憶部2に格納されているものとする。
まず、図5のステップS11において、記憶部2に格納された音声認識の対象となる単語が含まれる所定の項目のファイルの情報が更新されたか否かを判定する。外部機器又は媒体が音声認識辞書作成装置100に接続されて、所定の項目のファイルの情報が記憶部2に格納されたときに情報が更新されたと判定する。更新されるまで待機し、更新されたときは、ステップS12に移行する。
次のステップS12において、コンテンツ辞書の数が制限値未満か否かを判定する。コンテンツ辞書の数は音声認識辞書8にアクセスしてその数を検出してもよいし、予めコンテンツ辞書数のカウンタを用意しておき、そのカウンタ値を参照するようにしてもよい。コンテンツ辞書の数が制限値以上のときはステップS13に移行し、制限値未満のときはステップS15に移行する。
次のステップS13及びステップS14は、コンテンツ辞書の数が制限値以上の場合であり、全件更新処理に対応する。ステップS13では、音声認識辞書8を構成するコンテンツ辞書を削除する。
次のステップS14において、楽曲情報の全データを記憶部2に格納されている楽曲データから取得する。記憶部2には、図4に示すように、リッピングしたCD毎の楽曲データではなく、すべてのCDの楽曲データがアーティスト名やアルバム名等のコンテンツ毎に保存されている。これらのデータをコンテンツ毎に取得する。
一方、コンテンツ辞書の数が制限値未満の場合には、ステップS15において楽曲情報の差分データを記憶部2から取得する。この差分データは、リッピングしたCDに対する楽曲データであり、図3に示すように、アーティスト名やアルバム名等のコンテンツ毎に作成される。ただし、図3及び図4から明らかなように、全件更新の場合に比較して、差分更新の場合の方がコンテンツ辞書のサイズが小さい。
次のステップS16では、音声認識辞書8の作成処理を行う。音声認識辞書8の作成においては、ステップS14又はステップS15で取得した楽曲情報からそのコンテンツ毎にコンテンツ辞書を作成する。楽曲情報の場合は、コンテンツ辞書として、アーティスト名辞書、タイトル名辞書、アルバム名辞書などが作成される。
差分更新処理の場合におけるコンテンツ辞書の作成では、楽曲情報のうちの各コンテンツについてコンテンツ辞書を作成する。その際に、同一名称のデータの場合は一つに統合する。全件更新処理の場合におけるコンテンツ辞書の作成も同様にして、楽曲情報のうちの各コンテンツについてコンテンツ辞書を作成する。
音声認識辞書の作成処理では、音声認識辞書生成用のテキストをTTSエンジン5に入力して各テキストに対応する読みデータを生成して音声認識辞書8に登録する。
以上説明したように、本実施形態の音声認識辞書作成装置及び音声認識辞書作成方法では、音声認識辞書を構成するコンテンツ毎に作成されたコンテンツ辞書の総数が予め定められた所定の制限数よりも少ないときは、更新された情報だけを更新する差分更新を行い、所定の制限数以上のときは、コンテンツ辞書の全体を書き換える全件更新を行うようにしている。これにより、音声認識辞書の更新の際に差分だけを更新することによって効率的に更新することが可能になる。また、コンテンツ辞書の数が多くなればそれまでに作成された各コンテンツ辞書を破棄して新たに所定のコンテンツ毎にまとめたコンテンツ辞書を作成するため、認識辞書の作成には多少時間がかかるものの、認識辞書の利用においては音声認識を効率よく行うことが可能となる。
なお、差分更新処理を行うか全件更新処理を行うかの判断基準として、音声認識辞書を構成するコンテンツ辞書の数による制限値を使用したが、これに限らず、コンテンツ辞書のサイズを判断基準にしてもよい。例えば、予め各デバイス毎に辞書サイズの制限値を決定しておき、辞書サイズが制限値未満のときはそのデバイスに対して差分更新処理を行い辞書サイズが制限値以上のときにはそのデバイスに対して全件更新処理を行うようにしてもよい。
また、コンテンツ辞書の数の制限値を超えた場合にコンテンツ辞書をすべて破棄して全件更新処理を行うようにしていたが、これに限らず、一部のコンテンツ辞書(古い辞書)を破棄して、空きスペースを利用して差分更新処理を行うようにしてもよい。
また、本実施形態では、CDをリッピングして楽曲情報に関するテキストを音声認識辞書に登録する場合を例にとって説明したが、これに限らず、例えば、携帯電話の住所録の登録に適用することも可能である。この場合、相手先の名称、住所、相手の誕生日等をコンテンツとし、楽曲情報と同様にこれらのコンテンツ毎に音声認識辞書用のデータを取得して住所録に関連するデータ格納用に用意された領域にコンテンツ辞書を作成して格納する。
新たに住所録の1データが記憶部2に格納されたとき、住所録のデバイス領域におけるコンテンツ辞書の数が制限値未満であれば差分更新処理を行い、制限値以上のコンテンツ辞書が存在すれば、いったんコンテンツ辞書を破棄して、新たにコンテンツ辞書を作成して音声認識辞書に登録する。
100…音声認識辞書作成装置、
200…情報処理装置、
1…入力部、
2…記憶部、
4…情報抽出部、
5…TTSエンジン、
5a…テキスト解析部、
5b…読みデータ生成部、
6…制御部、
7…音声認識辞書生成部、
8…音声認識辞書、
9…音声認識エンジン、
11…音声認識制御部。

Claims (16)

  1. 外部機器又は媒体から音声認識の対象となるテキストを入力する入力手段と、
    前記テキストが所定の項目のファイル毎に格納される記憶手段と、
    テキストを解析して読みデータを生成する読みデータ生成手段と、
    前記所定の項目のファイル毎に前記テキストの読みデータが格納されたコンテンツ辞書により構成される音声認識辞書と、
    前記入力手段を介して入力された前記テキストを前記記憶手段に格納する制御手段と、
    を有し、
    前記制御手段は、前記記憶手段に格納した前記テキストを含む所定の項目のファイルが更新されたとき、前記コンテンツ辞書の総数を検出し、当該総数が所定の制限値未満のときに前記更新された前記所定の項目ごとに前記コンテンツ辞書を作成して前記音声認識辞書を更新するとともに、前記コンテンツ辞書の総数が所定の制限値以上のとき、前記外部機器又は媒体に応じたコンテンツ辞書を前記音声認識辞書から削除し、新たに当該外部機器又は媒体に応じたすべての音声認識の対象となるテキストを各コンテンツ毎に前記記憶手段から抽出して、前記コンテンツ辞書を作成して、前記音声認識辞書を更新することを特徴とする音声認識辞書作成装置。
  2. 前記制御手段は、前記外部機器又は媒体が接続され、前記テキストが前記記憶手段の所定の項目のファイルに格納されたとき、前記所定の項目のファイルが更新されたと判定することを特徴とする請求項1に記載の音声認識辞書作成装置。
  3. 前記所定の項目は、前記媒体がCDのとき、楽曲情報であって、タイトル名、アーティスト名、アルバム名、作曲者名、ジャンルであることを特徴とする請求項2に記載の音声認識辞書作成装置。
  4. 前記制御手段は、前記音声認識の対象となるテキストのうち、同一名称のテキストは統合して一つのテキストとして前記コンテンツ辞書を作成することを特徴とする請求項1に記載の音声認識辞書作成装置。
  5. 前記外部機器は、デジタルオーディオ機器又は携帯電話機であり、前記媒体は、CD又はDVDであることを特徴とする請求項2に記載の音声認識辞書作成装置。
  6. 前記制御手段は、前記媒体がCDのとき、前記所定の項目のうちアーティスト名に対して前記記憶手段に格納されている楽曲情報に一致するアーティスト名が存在しないとき、又は、前記所定の項目のうち作曲者名に対して前記記憶手段に格納されている楽曲情報に一致する作曲者名がないときに、情報が更新されたと判定することを特徴とする請求項5に記載の音声認識辞書作成装置。
  7. 前記制御手段は、前記媒体がCDのとき、前記所定の項目のうちアルバム名に対して前記記憶手段に格納されている楽曲情報に一致するアルバム名がないとき、又は、一致するアルバム名とTOC情報が異なるとき、情報が更新されたと判定することを特徴とする請求項5に記載の音声認識辞書作成装置。
  8. 所定の項目のファイル毎にテキストの読みデータが格納されたコンテンツ辞書により構成される音声認識辞書の作成方法であって、
    記憶手段に格納された音声認識の対象となるテキストが含まれる前記所定の項目のファイルの情報が更新されたか否かを判定するステップと、
    外部機器又は媒体から取得した音声認識の対象となるテキストが格納された前記所定の項目のファイルの情報が更新されたとき、
    前記所定の項目のファイル毎に前記テキストの読みデータが格納されたコンテンツ辞書の総数を検出するステップと、
    前記コンテンツ辞書の総数と所定の制限値とを比較するステップと、
    前記総数が所定の制限値以上のとき、前記外部機器又は媒体に応じたコンテンツ辞書を前記音声認識辞書から削除し、新たに当該外部機器又は媒体に応じたすべての音声認識の対象となるテキストを各コンテンツ毎に前記記憶手段から抽出するステップと、
    前記総数が所定の制限値未満のとき、前記更新された前記所定の項目ごとに前記外部機器又は媒体に応じた音声認識の対象となるテキストを各コンテンツ毎に前記記憶手段から抽出するステップと、
    前記テキストを変換して読みデータを取得するステップと、
    前記読みデータを登録して音声認識辞書を更新するステップと、
    を有することを特徴とする音声認識辞書作成方法。
  9. 前記所定の項目のファイルの情報が更新されたか否かを判定するステップは、
    前記外部機器又は媒体が接続されて、前記テキストが前記記憶手段の所定の項目のファイルに格納されたか否かを判定するステップであることを特徴とする請求項8に記載の音声認識辞書作成方法。
  10. 前記所定の項目は、前記媒体がCDのとき、楽曲情報であって、タイトル名、アーティスト名、アルバム名、作曲者名、ジャンルであることを特徴とする請求項9に記載の音声認識辞書作成方法。
  11. 前記読みデータを取得するステップは、
    前記音声認識の対象となるテキストのうち同一名称のテキストを検出するステップと、
    前記同一名称のテキストを統合して一つのテキストとするステップと、
    を含むことを特徴とする請求項8に記載の音声認識辞書作成方法。
  12. 前記外部機器は、デジタルオーディオ機器又は携帯電話機であり、前記媒体は、CD又はDVDであることを特徴とする請求項9に記載の音声認識辞書作成方法。
  13. 前記媒体がCDのとき、
    前記所定の項目のファイルの情報が更新されたか否かを判定するステップは、
    前記所定の項目のうちアーティスト名を抽出するステップと、
    前記記憶手段に当該アーティスト名が含まれているか否かを判定するステップと、
    一致するアーティスト名がないとき、情報が更新されたと判定するステップと、
    を含むことを特徴とする請求項12に記載の音声認識辞書作成方法。
  14. 前記媒体がCDのとき、
    前記所定の項目のファイルの情報が更新されたか否かを判定するステップは、
    前記所定の項目のうち作曲者名を抽出するステップと、
    前記記憶手段に当該作曲者名が含まれているか否かを判定するステップと、
    一致する作曲者名がないとき、情報が更新された判定するステップと、
    を含むことを特徴とする請求項12に記載の音声認識辞書作成方法。
  15. 前記媒体がCDのとき、
    前記所定の項目のファイルの情報が更新されたか否かを判定するステップは、
    前記所定の項目のうちアルバム名を抽出するステップと、
    前記記憶手段に当該アルバム名が含まれているか否かを判定するステップと、
    一致するアルバム名がないとき、情報が更新されたと判定するステップと、
    を含むことを特徴とする請求項12に記載の音声認識辞書作成方法。
  16. 前記媒体がCDのとき、
    前記所定の項目のファイルの情報が更新されたか否かを判定するステップは、
    前記所定の項目のうちアルバム名を抽出するステップと、
    前記記憶手段に格納されているアルバム名とTOC情報が異なるとき、情報が更新されたと判定するステップと、
    を含むことを特徴とする請求項12に記載の音声認識辞書作成方法。
JP2009123866A 2009-05-22 2009-05-22 音声認識辞書作成装置及び音声認識辞書作成方法 Active JP5465926B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2009123866A JP5465926B2 (ja) 2009-05-22 2009-05-22 音声認識辞書作成装置及び音声認識辞書作成方法
US12/707,966 US8706484B2 (en) 2009-05-22 2010-02-18 Voice recognition dictionary generation apparatus and voice recognition dictionary generation method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009123866A JP5465926B2 (ja) 2009-05-22 2009-05-22 音声認識辞書作成装置及び音声認識辞書作成方法

Publications (2)

Publication Number Publication Date
JP2010271562A JP2010271562A (ja) 2010-12-02
JP5465926B2 true JP5465926B2 (ja) 2014-04-09

Family

ID=43125165

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009123866A Active JP5465926B2 (ja) 2009-05-22 2009-05-22 音声認識辞書作成装置及び音声認識辞書作成方法

Country Status (2)

Country Link
US (1) US8706484B2 (ja)
JP (1) JP5465926B2 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20110114797A (ko) * 2010-04-14 2011-10-20 한국전자통신연구원 음성을 이용한 모바일 검색 장치 및 방법
WO2013102954A1 (ja) * 2012-01-06 2013-07-11 パナソニック株式会社 放送受信装置および音声辞書構築処理方法
JP5927969B2 (ja) * 2012-02-15 2016-06-01 株式会社デンソー 音声認識システム
JP5942559B2 (ja) * 2012-04-16 2016-06-29 株式会社デンソー 音声認識装置
KR20140060040A (ko) * 2012-11-09 2014-05-19 삼성전자주식회사 디스플레이장치, 음성취득장치 및 그 음성인식방법
US10628567B2 (en) * 2016-09-05 2020-04-21 International Business Machines Corporation User authentication using prompted text

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6505160B1 (en) * 1995-07-27 2003-01-07 Digimarc Corporation Connected audio and other media objects
JPH1124685A (ja) * 1997-07-02 1999-01-29 Ricoh Co Ltd カラオケ装置
JPH11232159A (ja) * 1998-02-13 1999-08-27 The Japan Reserch Institute Ltd ファイル管理方法およびファイル管理のためのプログラムを記憶した媒体
US6953886B1 (en) * 1998-06-17 2005-10-11 Looney Productions, Llc Media organizer and entertainment center
JP3252802B2 (ja) * 1998-07-17 2002-02-04 日本電気株式会社 音声認識装置
JP3788111B2 (ja) * 1999-06-30 2006-06-21 株式会社デンソー 情報サービスシステム
JP2001309257A (ja) 2000-04-26 2001-11-02 Sanyo Electric Co Ltd デジタルテレビ放送受信機
JP2002221980A (ja) * 2001-01-25 2002-08-09 Oki Electric Ind Co Ltd テキスト音声変換装置
JP2002251235A (ja) * 2001-02-23 2002-09-06 Fujitsu Ltd 利用者インタフェースシステム
JP3838904B2 (ja) * 2001-11-22 2006-10-25 沖電気工業株式会社 辞書装置及び自然言語処理システム
JP2003241789A (ja) * 2002-02-21 2003-08-29 Alpine Electronics Inc 音声認識辞書作成装置および方法
JP2004053979A (ja) 2002-07-22 2004-02-19 Alpine Electronics Inc 音声認識辞書の作成方法及び音声認識辞書作成システム
US7437296B2 (en) * 2003-03-13 2008-10-14 Matsushita Electric Industrial Co., Ltd. Speech recognition dictionary creation apparatus and information search apparatus
JP2004309795A (ja) * 2003-04-07 2004-11-04 Mitsubishi Electric Corp 音楽提供システム
JP3892410B2 (ja) * 2003-04-21 2007-03-14 パイオニア株式会社 音楽データ選曲装置、音楽データ選曲方法、並びに、音楽データの選曲プログラムおよびそれを記録した情報記録媒体
US20050193092A1 (en) * 2003-12-19 2005-09-01 General Motors Corporation Method and system for controlling an in-vehicle CD player
JP4651317B2 (ja) * 2004-06-24 2011-03-16 富士通テン株式会社 楽曲選択装置
JP4236630B2 (ja) * 2004-11-30 2009-03-11 三洋電機株式会社 コンテンツデータ記録媒体
EP1693830B1 (en) * 2005-02-21 2017-12-20 Harman Becker Automotive Systems GmbH Voice-controlled data system
JP4459267B2 (ja) * 2005-02-28 2010-04-28 パイオニア株式会社 辞書データ生成装置及び電子機器
CN101326571B (zh) * 2005-12-07 2012-05-23 三菱电机株式会社 声音识别装置
US7610298B2 (en) * 2006-02-01 2009-10-27 Microsoft Corporation Difference-based database upgrade
JP4769223B2 (ja) 2007-04-26 2011-09-07 旭化成株式会社 テキスト発音記号変換辞書作成装置、認識語彙辞書作成装置、及び音声認識装置

Also Published As

Publication number Publication date
US20100299143A1 (en) 2010-11-25
US8706484B2 (en) 2014-04-22
JP2010271562A (ja) 2010-12-02

Similar Documents

Publication Publication Date Title
US9153233B2 (en) Voice-controlled selection of media files utilizing phonetic data
US8719028B2 (en) Information processing apparatus and text-to-speech method
US8666727B2 (en) Voice-controlled data system
US8712776B2 (en) Systems and methods for selective text to speech synthesis
KR20080000203A (ko) 음성인식을 이용한 음악 파일 검색 방법
KR100760301B1 (ko) 부분 검색어 추출을 통한 미디어 파일 검색 방법 및 장치
US20090076821A1 (en) Method and apparatus to control operation of a playback device
JP2011033874A (ja) 多言語音声認識装置及び多言語音声認識辞書作成方法
JP5465926B2 (ja) 音声認識辞書作成装置及び音声認識辞書作成方法
CN103123644A (zh) 声音数据检索系统及用于该系统的程序
RU2008128440A (ru) Способ и устройство для доступа к цифровому файлу из набора цифровых файлов
EP1403852A1 (en) Voice activated music playback system
JP4697432B2 (ja) 音楽再生装置、音楽再生方法及び音楽再生用プログラム
JP5693834B2 (ja) 音声認識装置及び音声認識方法
US20060248105A1 (en) Interactive system for building and sharing databank
EP1826686B1 (en) Voice-controlled multimedia retrieval system
JP5431817B2 (ja) 楽曲データベース更新装置及び楽曲データベース更新方法
JP2009204872A (ja) 音声認識用辞書生成システム
JP2006313467A (ja) コンテンツ検索装置及びコンテンツ検索方法
JP2004294577A (ja) 文字情報音声変換方法
US20110077756A1 (en) Method for identifying and playing back an audio recording
JP2011150169A (ja) 音声認識装置
JP2005084422A (ja) 音声認識検索装置
JP2010156925A (ja) 情報処理装置及び音声認識辞書生成方法
JP2006146586A (ja) 検索データベース作成装置、情報検索装置および情報検索システム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120321

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130510

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130905

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130917

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20131031

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20131107

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20131203

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20131226

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140121

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140123

R150 Certificate of patent or registration of utility model

Ref document number: 5465926

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150