JP2012128240A - 音声認識システム及び辞書生成装置 - Google Patents
音声認識システム及び辞書生成装置 Download PDFInfo
- Publication number
- JP2012128240A JP2012128240A JP2010280388A JP2010280388A JP2012128240A JP 2012128240 A JP2012128240 A JP 2012128240A JP 2010280388 A JP2010280388 A JP 2010280388A JP 2010280388 A JP2010280388 A JP 2010280388A JP 2012128240 A JP2012128240 A JP 2012128240A
- Authority
- JP
- Japan
- Prior art keywords
- dictionary
- data
- terminal device
- information
- recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
【課題】 ユーザが発話した時から音声認識が完了するまでに要する時間の短縮を図るとともに、多様な認識語彙の変化に対応可能とする。
【解決手段】 携帯プレーヤ5が端末装置3に装着されると、端末装置3は、携帯プレーヤ5に記憶されている楽曲データのTOCデータを携帯プレーヤ5から読み込んで遠隔サーバ7に送信する。一方、TOCデータを受信した遠隔サーバ7は、このTOCデータに関連する情報を読み込んでTOCデータと関連付けながら辞書データを生成した後、その生成された辞書データを端末装置3に送信する。そして、受信した辞書データの辞書保持メモリ3Dに保存する。これにより、ユーザが発話した時から音声認識が完了するまでに要する時間の短縮を図るとともに、多様な認識語彙の変化に対応することが可能となる。
【選択図】 図1
【解決手段】 携帯プレーヤ5が端末装置3に装着されると、端末装置3は、携帯プレーヤ5に記憶されている楽曲データのTOCデータを携帯プレーヤ5から読み込んで遠隔サーバ7に送信する。一方、TOCデータを受信した遠隔サーバ7は、このTOCデータに関連する情報を読み込んでTOCデータと関連付けながら辞書データを生成した後、その生成された辞書データを端末装置3に送信する。そして、受信した辞書データの辞書保持メモリ3Dに保存する。これにより、ユーザが発話した時から音声認識が完了するまでに要する時間の短縮を図るとともに、多様な認識語彙の変化に対応することが可能となる。
【選択図】 図1
Description
本発明は、ユーザから発せられた音声に対応する情報を認識する音声認識システム及び辞書生成装置に関するものである。
例えば、特許文献1に記載の音声認識システムを利用した音楽プレーヤでは、楽曲見出しデータ(楽曲名データ)のみに基づいて音声認識用の辞書データを作成した後、その辞書データとユーザより発せられた楽曲名を意図する音声から得られた音声データとを照合し、その音声に対応する楽曲を決定して再生している。
また、以下のような音声認識システムを利用した音楽プレーヤシステムも提案されている。すなわち、先ず、楽曲見出しデータ(楽曲名データ)を外部に設けられた遠隔サーバコンピュータに送信し、遠隔サーバコンピュータにて音声認識用の辞書データを作成する。
次に、ユーザより発せられた楽曲名を意図する音声から得られた音声データが、ユーザが携帯する音楽プレーヤから遠隔サーバコンピュータに送信され、遠隔サーバコンピュータにて音声認識(辞書データとの照合)されることにより、再生すべき楽曲名が決定(認識)される。そして、遠隔サーバコンピュータにて決定された楽曲名を示す情報が、ユーザが携帯する音楽プレーヤに送信された後、当該楽曲の再生が開始される。
しかし、特許文献1に記載の発明では、楽曲見出しデータのみに基づいて音声認識用の辞書データを作成するので、楽曲見出しデータ以外の情報に基づいて特定の楽曲を決定することができない。このため例えば、ユーザが楽曲名やアーティスト名を正確に記憶していない場合には、ユーザが意図した楽曲を再生することが難しく、多様な認識語彙の変化に対応できないという問題がある。
また、遠隔サーバコンピュータと通信を行うことにより再生すべき楽曲を決定する音楽プレーヤでは、ユーザが楽曲名を意図する音声を発(発話)した時から実際に再生が開始されるまで時間を要するという問題がある。
本発明は、上記点に鑑み、ユーザが発話した時から音声認識が完了するまでに要する時間の短縮を図るとともに、多様な認識語彙の変化に対応可能とすることを目的とする。
本発明は、上記目的を達成するために、請求項1に記載の発明では、ユーザから発せられた音声に対応する情報を認識する音声認識システムであって、ユーザにより操作される端末装置(3)と、端末装置(3)に設けられ、音声が入力される入力手段(3C)と、端末装置(3)と通信可能な遠隔装置(7)と、遠隔装置(7)に設けられ、既知の情報及びその情報に関連する情報からなる辞書データを生成するとともに、その辞書データを端末装置(3)に送信する辞書生成手段(S23〜S31)と、端末装置(3)に設けられ、辞書生成手段(S23〜S31)により生成された辞書データを受信して記憶する認識用辞書データ記憶手段(3D)と、認識用辞書データ記憶手段(3D)に記憶されている辞書データを参照して入力手段(3C)を介して得られた音声データに対応する情報を認識する音声認識手段(3B)とを備えることを特徴とする。
これにより、請求項1に記載の発明では、音声データに対応する情報の認識を行う音声認識手段(3B)、及び音声データとの照合を行うための辞書データが端末装置(3)に設けられた構成となるので、遠隔サーバコンピュータと通信を行う発明に比べて、ユーザが発話した時から音声認識が完了するまでに要する時間を短縮することが可能となる。
また、認識用辞書データ記憶手段(3D)に記憶されている辞書データは、既知の情報及びその情報に関連する情報に基づいて生成された辞書データであるので、多様な認識語彙の変化に対応しながら、音声認識を行うことができる。
したがって、請求項1に記載の発明では、ユーザが発話した時から音声認識が完了するまでに要する時間の短縮を図るとともに、多様な認識語彙の変化に対応することが可能となる。
請求項2に記載の発明では、ユーザから発せられた音声に対応する情報を認識する音声認識システムであって、音声が入力される入力手段(3C)と、既知の情報に関連する関連情報を、通信回線を介して取得する関連情報取得手段(S55)と、既知の情報及び当該情報についての関連情報からなる辞書データを生成する辞書生成手段(S57)と、辞書生成手段(S57)により生成された辞書データを参照して入力手段(3C)を介して得られた音声データに対応する情報を認識する音声認識手段(3B)とを備えることを特徴とする。
これにより、請求項2に記載の発明も請求項1に記載の発明と同様に、ユーザが発話した時から音声認識が完了するまでに要する時間の短縮を図るとともに、多様な認識語彙の変化に対応することが可能となる。
請求項3に記載の発明では、ユーザから発せられた音声に対応する情報を認識する音声認識システムに用いられる辞書生成装置であって、既知の情報に関連する関連情報を、通信回線を介して取得する関連情報取得手段(S55)と、既知の情報及び当該情報についての関連情報からなる辞書データを生成する辞書生成手段(S23〜S31)とを備えることを特徴とする。
これにより、請求項3に記載の発明も請求項1に記載の発明と同様に、ユーザが発話した時から音声認識が完了するまでに要する時間の短縮を図るとともに、多様な認識語彙の変化に対応することが可能となる。
因みに、上記各手段等の括弧内の符号は、後述する実施形態に記載の具体的手段等との対応関係を示す一例であり、本発明は上記各手段等の括弧内の符号に示された具体的手段等に限定されるものではない。
本実施形態は、本発明に係る音声認識システム及び辞書生成装置を、車両用楽曲再生装置に適用したものであり、以下に本発明の実施形態を図面と共に説明する。
(第1実施形態)
1.車両用楽曲再生装置の構成
1.1.構成の概要
本実施形態に係る車両用楽曲再生装置1は、図1に示すように、車両に組み込まれた端末装置3、端末装置3に着脱自在に装着可能な携帯プレーヤ5、及び端末装置3と無線回線及び有線回線を介して通信可能な遠隔サーバ7等から構成されている。
(第1実施形態)
1.車両用楽曲再生装置の構成
1.1.構成の概要
本実施形態に係る車両用楽曲再生装置1は、図1に示すように、車両に組み込まれた端末装置3、端末装置3に着脱自在に装着可能な携帯プレーヤ5、及び端末装置3と無線回線及び有線回線を介して通信可能な遠隔サーバ7等から構成されている。
そして、携帯プレーヤ5が端末装置3に装着されると、携帯プレーヤ5と端末装置3との間で相互に通信可能となり、端末装置3の音声認識機能を利用して携帯プレーヤ5を端末装置3を介して操作することができる。
つまり、携帯プレーヤ5には楽曲データが格納(保存)されており、ユーザは携帯プレーヤ5の操作部(図示せず。)を直接操作する、又は端末装置3の音声認識機能を利用して携帯プレーヤ5を間接的に操作することにより、携帯プレーヤ5に格納されている楽曲を再生することができる。
1.2.端末装置
制御装置3Aは、端末装置3に組み込まれた各機器を統合的に制御する制御手段であり、音声認識装置3Bは、発話音声データと登録音声データとを照合することにより、ユーザから発せられた音声に基づいて操作命令や再生すべき楽曲名を認識する音声認識手段である。
制御装置3Aは、端末装置3に組み込まれた各機器を統合的に制御する制御手段であり、音声認識装置3Bは、発話音声データと登録音声データとを照合することにより、ユーザから発せられた音声に基づいて操作命令や再生すべき楽曲名を認識する音声認識手段である。
なお、ユーザから発せられた音声は、音声入力手段であるマイクロフォン3C(図1では「マイク」と表記)を介して音声認識装置3Bに入力され、音声認識装置3Bは、制御装置3Aと協働して入力された音声を音声認識装置3Bにて解析可能な発話音声データに変換する。
辞書保持メモリ3Dは、音声認識装置3Bが参照可能な音声認識用の辞書(以下、認識辞書という。)を記憶・保持する記憶手段である。なお、認識用辞書は、携帯プレーヤ5を操作するための操作命令に対応する音声データや再生すべき楽曲名を特定するための音声データ等の集合体であり、認識用辞書に登録されている音声データを登録音声データという。
送受信装置3Eは、端末装置3と遠隔サーバ7との間で情報通信を行うための通信手段であり、この送受信装置3Eは、直接的又は中継局等を介して間接的に遠隔サーバと無線通信を行うことにより、端末装置3と遠隔サーバ7との間で情報通信を行う。
1.3.遠隔サーバ
遠隔サーバ7は、音声認識装置3Bが音声認識を行う際に参照する辞書データを生成する辞書生成装置7Aを有しており、この辞書生成装置7Aは、既知の情報及びその情報に関連する情報、並びに音声認識用の認識辞書からなる辞書データを生成するとともに、その生成した辞書データを送受信装置7Bを介して端末装置3に送信する。
遠隔サーバ7は、音声認識装置3Bが音声認識を行う際に参照する辞書データを生成する辞書生成装置7Aを有しており、この辞書生成装置7Aは、既知の情報及びその情報に関連する情報、並びに音声認識用の認識辞書からなる辞書データを生成するとともに、その生成した辞書データを送受信装置7Bを介して端末装置3に送信する。
ここで、本実施形態における「既知の情報」とは、端末装置3に装着された携帯プレーヤ5に格納されている楽曲データついての楽曲見出しデータをいい、具体的には、楽曲名及びアーティスト名等の目次情報(Table of contents)データ(以下、TOCデータという。)である。
つまり、通常、携帯プレーヤ5に楽曲データが保存される際には、楽曲データと合わせてTOCデータが携帯プレーヤ5に自動的に保存されることから、本実施形態では、TOCデータを辞書データを生成する際の「既知の情報」として利用している。
また、本実施形態における「既知の情報に関連する情報」とは、TOCデータに関連した情報をいい、具体的には、図2(a)に示すように、(a)楽曲名の通称名、(b)その楽曲が収められたアルバム名の通称名、(c)アーティスト名の通称名、(d)その楽曲が使用された映画やテレビドラマの題名、(e)その映画等の出演者、(f)その楽曲が使用されたCMの製品名やメーカ名(広告主)、(g)その楽曲のエピソードに関連するキーワード等をいう。
なお、通称名とは、正式な名称ではないが、特定の人や物に対する呼び名として世間一般において通用しているもののことである。例えば、楽曲名やアーティスト名の短縮形、イニシャル、ニックネーム等である。
そして、辞書生成装置7Aは、遠隔サーバ7が有する知識データベース7C又は通信を介して入手した他の遠隔サーバが有する知識データベースに保存されている知識情報データベースから「既知の情報に関連する情報」を読み込んで、TOCデータと関連付けながら辞書データを生成する。
因みに、辞書生成装置7Aでは、例えば図2(b)に示すように、楽曲名、アルバム名、アーティスト名及びこれらの「既知の情報に関連する情報(以下、関連情報という。)」からなるテーブルデータ形式の辞書データを生成する。
2.車両用楽曲再生装置の作動
2.1.作動の概要
携帯プレーヤ5が端末装置3に装着されると、端末装置3は、携帯プレーヤ5に記憶されている楽曲データに係るTOCデータを携帯プレーヤ5から読み込んで後、そのTOCデータを遠隔サーバ7に送信する。
2.1.作動の概要
携帯プレーヤ5が端末装置3に装着されると、端末装置3は、携帯プレーヤ5に記憶されている楽曲データに係るTOCデータを携帯プレーヤ5から読み込んで後、そのTOCデータを遠隔サーバ7に送信する。
一方、TOCデータを受信した遠隔サーバ7は、このTOCデータに係る関連情報を読み込んでTOCデータと関連付けながら辞書データを生成した後、その生成された辞書データを端末装置3に送信する。
そして、端末装置3にて受信した辞書データの辞書保持メモリ3Dへの保存が完了すると、端末装置3が音声による操作命令等を受ける付けることが可能な状態となるとともに、その旨がユーザへ報知される。
その後、ユーザから楽曲名やこれに係る関連情報が発話されると、端末装置3は、発話内容を認識した後、発話内容に対応した楽曲を再生すべき旨の指令信号を携帯プレーヤ5に送信する。これにより、端末装置3に装着された携帯プレーヤ5に記憶されている楽曲のうち、発話内容に対応する楽曲が再生される。
2.2.端末装置の作動(図3参照)
図3に示すフローチャートに示される制御は、携帯プレーヤ5が端末装置3に装着されたときに端末装置3(制御装置3A)で自動的に起動・実行されるものである。
図3に示すフローチャートに示される制御は、携帯プレーヤ5が端末装置3に装着されたときに端末装置3(制御装置3A)で自動的に起動・実行されるものである。
なお、本実施形態では、端末装置3と携帯プレーヤ5とが通信可能な状態となったときに、端末装置3は携帯プレーヤ5が端末装置3に装着されたと判断する。また、本制御を実行するためのプログラムは、制御装置3Aに内蔵されたROM等の不揮発性記憶手段に記憶されている。
そして、携帯プレーヤ5が端末装置3に装着されると、図3に示すように、先ず、携帯プレーヤ5に記憶されているTOCデータから楽曲見出しデータが端末装置3に読み込まれるとともに(S1)、その読み込まれた楽曲見出しデータが遠隔サーバ7に送信される(S3)。
次に、遠隔サーバ7から送信されてきた辞書データ、つまり楽曲−認識キーワード対応テーブル(図2(b)参照)及び認識辞書が受信されると(S5)、その受信された辞書データが辞書保持メモリ3Dに格納された後(S7)、その格納された辞書データが音声認識装置3Bによる参照(照合)対象として音声認識装置3Bに登録されて(S9)、その辞書データが参照可能状態となる。
2.3.遠隔サーバの作動(図4参照)
図4に示すフローチャートに示される制御は遠隔サーバ7にて実行される制御であり、本制御は、遠隔サーバ7の起動とともに起動・実行される。なお、本制御を実行するためのプログラムは、遠隔サーバ7に内蔵されたROMやHDD等の不揮発性記憶手段に記憶されている。
図4に示すフローチャートに示される制御は遠隔サーバ7にて実行される制御であり、本制御は、遠隔サーバ7の起動とともに起動・実行される。なお、本制御を実行するためのプログラムは、遠隔サーバ7に内蔵されたROMやHDD等の不揮発性記憶手段に記憶されている。
そして、本制御が起動されると、先ず、端末装置3から送信されてきた楽曲見出しデータが受信されたか否かが判定され(S21)、受信されていないと判定された場合には(S21:NO)、受信待ち状態となり、一方、受信されたと判定された場合には(S12:YES)、既知の情報である楽曲見出しデータ及び楽曲毎の関連情報を基づいて辞書データが生成される(S23〜S29)。
つまり、楽曲毎に知識データベースが検索され、その楽曲についての関連情報が抽出されるとともに(S23)、楽曲−認識キーワード対応テーブル(図2(b)参照)が作成された後(S27)、その楽曲−認識キーワード対応テーブルから読みデータが抽出され(S27)、楽曲−認識キーワード対応テーブルに基づいて木構造状に整理された辞書が作成される(S29)。
なお、読みデータとは、発話内容を示す表音文字(平仮名や片仮名等)に対応する音声データ(図2(b)のID以外の情報)であり、これら読みデータに従って認識キーワードを、例えば五十音順の木構造に整理することにより、音声認識装置3Bが高速に音声認識(参照・照合)可能なデータ構造とすることが可能となる。
そして、音声を認識するための認識辞書及び楽曲−認識キーワード対応テーブル等からなる辞書データが端末装置3に送信された後(S31)、再び、S21が実行される。
2.4.楽曲再生
図5に示すフローチャートに示される制御は、携帯プレーヤ5が端末装置3に装着されている場合であって、トークスイッチ(図示せず。)等の音声認識を利用して特定の楽曲を再生させるスイッチがユーザにより投入されたときに端末装置3(制御装置3A)で起動・実行されるものである。
2.4.楽曲再生
図5に示すフローチャートに示される制御は、携帯プレーヤ5が端末装置3に装着されている場合であって、トークスイッチ(図示せず。)等の音声認識を利用して特定の楽曲を再生させるスイッチがユーザにより投入されたときに端末装置3(制御装置3A)で起動・実行されるものである。
そして、トークスイッチが投入されてマイクロフォン3Cから音声が入力されると(S41)、音声認識装置3Bにて入力された音声データと登録音声データとが照合されて、ユーザから発せられた音声の内容が認識される(S43)。なお、音声認識の詳細は、公知の手法(例えば特開2010−33340号公報等に記載された手法)と同様であるので、本明細書では、音声認識手法の詳細説明は省略する。
次に、S43にて認識された結果が楽曲−認識キーワード対応テーブルから検索されて(S45)、認識結果に対応する楽曲が抽出された後(S47)、その抽出された楽曲を再生すべき旨の信号が端末装置3から携帯プレーヤ5に送信される(S49)。これより、携帯プレーヤ5は、その音声認識された内容に対応する楽曲を再生する。
3.本実施形態に係る車両用楽曲再生装置の特徴
本実施形態に係る車両用楽曲再生装置1では、音声データに対応する情報の認識を行う音声認識装置3B、及び音声データとの照合を行うための辞書データが端末装置3に設けられた構成となるので、遠隔サーバコンピュータと通信を行う場合に比べて、ユーザが発話した時から音声認識が完了するまでに要する時間を短縮することが可能となる。
本実施形態に係る車両用楽曲再生装置1では、音声データに対応する情報の認識を行う音声認識装置3B、及び音声データとの照合を行うための辞書データが端末装置3に設けられた構成となるので、遠隔サーバコンピュータと通信を行う場合に比べて、ユーザが発話した時から音声認識が完了するまでに要する時間を短縮することが可能となる。
また、辞書保持メモリ3Dに記憶されている辞書データは、既知の情報である楽曲見出しデータ及びその情報に関連情報(楽曲−認識キーワード対応テーブル)に基づいて生成された辞書データであるので、発話された内容が楽曲名と異なる場合であっても再生すべき楽曲を特定することができ、多様な認識語彙の変化に対応しながら、音声認識を行うことができる。
つまり、楽曲見出しデータに含まれていない内容をユーザが発話した場合であっても、その発話された情報を音声認識し、かつ、楽曲−認識キーワード対応テーブルを検索することにより楽曲を特定するので、多様な認識語彙の変化に対応しながら、音声認識を行うことができる。
以上のように、本実施形態に係る車両用楽曲再生装置1によれば、ユーザが発話した時から音声認識が完了するまでに要する時間の短縮を図るとともに、多様な認識語彙の変化に対応することが可能となる。
4.発明特定事項と実施形態との対応関係
本実施形態では、マイクロフォン3Cが特許請求の範囲に記載された入力手段に相当し、遠隔サーバ7が特許請求の範囲に記載された遠隔装置に相当し、遠隔サーバ7で実行されるS23〜S31が特許請求の範囲に記載された辞書生成手段に相当し、辞書保持メモリ3Dが特許請求の範囲に記載された認識用辞書データ記憶手段に相当し、音声認識装置3Bが特許請求の範囲に記載された音声認識手段に相当する。また、辞書生成装置7Aが特許請求の範囲に記載された辞書生成装置に相当する。
本実施形態では、マイクロフォン3Cが特許請求の範囲に記載された入力手段に相当し、遠隔サーバ7が特許請求の範囲に記載された遠隔装置に相当し、遠隔サーバ7で実行されるS23〜S31が特許請求の範囲に記載された辞書生成手段に相当し、辞書保持メモリ3Dが特許請求の範囲に記載された認識用辞書データ記憶手段に相当し、音声認識装置3Bが特許請求の範囲に記載された音声認識手段に相当する。また、辞書生成装置7Aが特許請求の範囲に記載された辞書生成装置に相当する。
(第2実施形態)
第1実施形態では、関連情報の取得及び辞書データの生成を遠隔サーバ7にて実行したが、本実施形態は、端末装置3にて辞書データの生成を実行するものである。
第1実施形態では、関連情報の取得及び辞書データの生成を遠隔サーバ7にて実行したが、本実施形態は、端末装置3にて辞書データの生成を実行するものである。
すなわち、本実施形態係る遠隔サーバ7は、図6に示すように、辞書データ(特に、認識辞書)を生成する機能を有しておらず、楽曲−認識キーワード対応テーブル作成装置7Dにて楽曲−認識キーワード対応テーブルを作成し、その作成した楽曲−認識キーワード対応テーブルを端末装置3に送信する。
また、端末装置3には、認識辞書及び受信した楽曲−認識キーワード対応テーブルに基づいて辞書データを生成する辞書生成装置3Fが設けられている。
1.車両用楽曲再生装置の作動
1.1.作動の概略
携帯プレーヤ5が端末装置3に装着されると、端末装置3は、携帯プレーヤ5に記憶されている楽曲データのTOCデータを携帯プレーヤ5から読み込んで遠隔サーバ7に送信する。
1.車両用楽曲再生装置の作動
1.1.作動の概略
携帯プレーヤ5が端末装置3に装着されると、端末装置3は、携帯プレーヤ5に記憶されている楽曲データのTOCデータを携帯プレーヤ5から読み込んで遠隔サーバ7に送信する。
一方、TOCデータを受信した遠隔サーバ7は、このTOCデータに係る関連情報を遠隔サーバ7が有する知識データベース7C又は通信を介して入手した他の遠隔サーバが有する知識データベースから抽出して楽曲−認識キーワード対応テーブルを作成した後、その作成された楽曲−認識キーワード対応テーブルを端末装置3に送信する。
そして、端末装置3は、認識辞書を作成するとともに、その認識辞書及び受信した楽曲−認識キーワード対応テーブルから辞書データを生成した後、その辞書データを辞書保持メモリ3Dへ保存する。これにより、端末装置3が音声による操作命令等を受ける付けることが可能な状態となると、その旨がユーザへ報知される。
その後、ユーザから楽曲名やこれに関する関連情報が発話されると、端末装置3は、発話内容を認識した後、発話内容に対応した楽曲を再生すべき旨の指令信号を携帯プレーヤ5に送信する。これにより、端末装置3に装着された携帯プレーヤ5に記憶されている楽曲のうち、発話内容に対応する楽曲が再生される。
1.2.端末装置の作動(図7参照)
図7に示すフローチャートに示される制御は、携帯プレーヤ5が端末装置3に装着されたときに端末装置3(制御装置3A)で自動的に起動・実行されるものである。
図7に示すフローチャートに示される制御は、携帯プレーヤ5が端末装置3に装着されたときに端末装置3(制御装置3A)で自動的に起動・実行されるものである。
そして、携帯プレーヤ5が端末装置3に装着されると、図7に示すように、先ず、携帯プレーヤ5に記憶されているTOCデータから楽曲見出しデータが端末装置3に読み込まれるとともに(S51)、その読み込まれた楽曲見出しデータが遠隔サーバ7に送信される(S53)。
次に、遠隔サーバ7から送信されてきた楽曲−認識キーワード対応テーブルが受信されると(S55)、その楽曲−認識キーワード対応テーブルから読みデータが抽出され(S57)、楽曲−認識キーワード対応テーブル基づいて木構造状に整理された辞書及び認識辞書、つまり辞書データが生成される(S59)。
そして、S59にて生成された辞書データが辞書保持メモリ3Dに格納された後(S61)、その格納された辞書データが音声認識装置3Bによる参照(照合)対象として音声認識装置3Bに登録されて(S63)、その辞書データが参照可能状態となる。
1.3.遠隔サーバの作動(図8参照)
図8に示すフローチャートに示される制御は遠隔サーバ7にて実行される制御であり、本制御は、遠隔サーバ7の起動とともに起動・実行される。なお、本制御を実行するためのプログラムは、遠隔サーバ7に内蔵されたROMやHDD等の不揮発性記憶手段に記憶されている。
図8に示すフローチャートに示される制御は遠隔サーバ7にて実行される制御であり、本制御は、遠隔サーバ7の起動とともに起動・実行される。なお、本制御を実行するためのプログラムは、遠隔サーバ7に内蔵されたROMやHDD等の不揮発性記憶手段に記憶されている。
そして、本制御が起動されると、先ず、端末装置3から送信されてきた楽曲見出しデータが受信されたか否かが判定され(S71)、受信されていないと判定された場合には(S71:NO)、受信待ち状態となる。
一方、受信されたと判定された場合には(S72:YES)、既知の情報である楽曲見出しデータに基づいて、楽曲毎に知識データベースが検索されてその楽曲についての関連情報が抽出される(S73)。
次に、抽出された情報(関連情報)に基づいて楽曲−認識キーワード対応テーブルが作成された後(S75)、その楽曲−認識キーワード対応テーブルが端末装置3に送信された後(S77)、再び、S71が実行される。
2.本実施形態に係る車両用楽曲再生装置の特徴
本実施形態に係る車両用楽曲再生装置1においても、音声データに対応する情報の認識を行う音声認識装置3B、及び音声データとの照合を行うための辞書データが端末装置3に設けられた構成となるので、遠隔サーバコンピュータと通信を行う場合に比べて、ユーザが発話した時から音声認識が完了するまでに要する時間を短縮することが可能となる。
本実施形態に係る車両用楽曲再生装置1においても、音声データに対応する情報の認識を行う音声認識装置3B、及び音声データとの照合を行うための辞書データが端末装置3に設けられた構成となるので、遠隔サーバコンピュータと通信を行う場合に比べて、ユーザが発話した時から音声認識が完了するまでに要する時間を短縮することが可能となる。
また、辞書保持メモリ3Dに記憶されている辞書データは、既知の情報である楽曲見出しデータ及びその情報に関連する情報(楽曲−認識キーワード対応テーブル)に基づいて生成された辞書データであるので、多様な認識語彙の変化に対応しながら、音声認識を行うことができる。
以上のように、本実施形態に係る車両用楽曲再生装置1によれば、ユーザが発話した時から音声認識が完了するまでに要する時間の短縮を図るとともに、多様な認識語彙の変化に対応することが可能となる。
3.発明特定事項と実施形態との対応関係
本実施形態では、マイクロフォン3Cが特許請求の範囲に記載された入力手段に相当し、遠隔サーバ7が特許請求の範囲に記載された遠隔装置に相当し、端末装置3で実行されるS57が特許請求の範囲に記載された辞書生成手段に相当し、端末装置3で実行されるS55が特許請求の範囲に記載された関連情報取得手段に相当し、音声認識装置3Bが特許請求の範囲に記載された音声認識手段に相当する。また、辞書生成装置3Fが特許請求の範囲に記載された辞書生成装置に相当する。
本実施形態では、マイクロフォン3Cが特許請求の範囲に記載された入力手段に相当し、遠隔サーバ7が特許請求の範囲に記載された遠隔装置に相当し、端末装置3で実行されるS57が特許請求の範囲に記載された辞書生成手段に相当し、端末装置3で実行されるS55が特許請求の範囲に記載された関連情報取得手段に相当し、音声認識装置3Bが特許請求の範囲に記載された音声認識手段に相当する。また、辞書生成装置3Fが特許請求の範囲に記載された辞書生成装置に相当する。
(その他の実施形態)
上述の実施形態では、本発明を車両用楽曲再生装置に適用したが、本発明の適用はこれに限定されるものではない。
上述の実施形態では、本発明を車両用楽曲再生装置に適用したが、本発明の適用はこれに限定されるものではない。
なお、車両用楽曲再生装置においては、TOCデータが既知の情報に相当し、楽曲名の通称名等が既知の情報に関連する情報(関連情報)に相当したが、例えばカーナビゲーションシステムに本発明を適用した場合には、例えば「行き先名」等が「既知の情報」に相当し、その「行き先名に関係した情報」が「既知の情報に関連する情報(関連情報)」に相当する。
また、第2実施形態においては、楽曲−認識キーワード対応テーブルは遠隔サーバ7で作成したが、本発明はこれに限定されるものではなく、楽曲−認識キーワード対応テーブルを端末装置3で作成してもよい。つまり、端末装置3は、楽曲見出しデータについての関連情報を遠隔サーバ7を介して取得し、楽曲−認識キーワード対応テーブルの作成を端末装置3にて行ってもよい。
また、本発明は、特許請求の範囲に記載された発明の趣旨に合致するものであればよく、上述の実施形態に限定されるものではない。
1…車両用楽曲再生装置、3…端末装置、3A…制御装置、3B…音声認識装置、
3C…マイクロフォン、3D…辞書保持メモリ、5…携帯プレーヤ、
7…遠隔サーバ、7A…辞書生成装置、7B…送受信装置。
3C…マイクロフォン、3D…辞書保持メモリ、5…携帯プレーヤ、
7…遠隔サーバ、7A…辞書生成装置、7B…送受信装置。
Claims (3)
- ユーザから発せられた音声に対応する情報を認識する音声認識システムであって、
ユーザにより操作される端末装置と、
前記端末装置に設けられ、音声が入力される入力手段と、
前記端末装置と通信可能な遠隔装置と、
前記遠隔装置に設けられ、既知の情報及びその既知の情報に関連する情報からなる辞書データを生成するとともに、その辞書データを前記端末装置に送信する辞書生成手段と、
前記端末装置に設けられ、前記辞書生成手段により生成された辞書データを受信して記憶する認識用辞書データ記憶手段と、
前記認識用辞書データ記憶手段に記憶されている辞書データを参照して前記入力手段を介して得られた音声データに対応する情報を認識する音声認識手段と
を備えることを特徴とする音声認識システム。 - ユーザから発せられた音声に対応する情報を認識する音声認識システムであって、
音声が入力される入力手段と、
既知の情報に関連する関連情報を、通信回線を介して取得する関連情報取得手段と、
既知の情報及び当該情報についての前記関連情報からなる辞書データを生成する辞書生成手段と、
前記辞書生成手段により生成された辞書データを参照して前記入力手段を介して得られた音声データに対応する情報を認識する音声認識手段と
を備えることを特徴とする音声認識システム。 - ユーザから発せられた音声に対応する情報を認識する音声認識システムに用いられる辞書生成装置であって、
既知の情報に関連する関連情報を、通信回線を介して取得する関連情報取得手段と、
既知の情報及び当該情報についての前記関連情報からなる辞書データを生成する辞書生成手段と
を備えることを特徴とする辞書生成装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010280388A JP2012128240A (ja) | 2010-12-16 | 2010-12-16 | 音声認識システム及び辞書生成装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010280388A JP2012128240A (ja) | 2010-12-16 | 2010-12-16 | 音声認識システム及び辞書生成装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2012128240A true JP2012128240A (ja) | 2012-07-05 |
Family
ID=46645315
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010280388A Pending JP2012128240A (ja) | 2010-12-16 | 2010-12-16 | 音声認識システム及び辞書生成装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2012128240A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101212126B1 (ko) | 2012-07-09 | 2012-12-14 | 다이알로이드(주) | 음성인식 서버, 음성인식 클라이언트 및 그 음성인식 방법 |
-
2010
- 2010-12-16 JP JP2010280388A patent/JP2012128240A/ja active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101212126B1 (ko) | 2012-07-09 | 2012-12-14 | 다이알로이드(주) | 음성인식 서버, 음성인식 클라이언트 및 그 음성인식 방법 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10991374B2 (en) | Request-response procedure based voice control method, voice control device and computer readable storage medium | |
JP6463825B2 (ja) | 多重話者音声認識修正システム | |
EP2005319B1 (en) | System and method for extraction of meta data from a digital media storage device for media selection in a vehicle | |
CN108648750A (zh) | 混合模型语音识别 | |
JP2014219614A (ja) | オーディオ装置、ビデオ装置及びコンピュータプログラム | |
WO2011091402A1 (en) | Voice electronic listening assistant | |
JP2009505321A (ja) | 再生装置の動作を制御する方法およびシステム | |
JP2016151608A (ja) | 電子装置、情報端末システム、音声認識機能の起動プログラムおよび音声認識機能の起動方法 | |
JP3799280B2 (ja) | 対話システムおよびその制御方法 | |
US20200013422A1 (en) | System, Method, and Apparatus for Morphing of an Audio Track | |
CN104851436A (zh) | 一种用于移动终端的声控音乐播放系统及其播放方法 | |
JP2007164497A (ja) | 嗜好推定装置、及び制御装置 | |
JPWO2019155717A1 (ja) | 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム | |
US20100222905A1 (en) | Electronic apparatus with an interactive audio file recording function and method thereof | |
JPH117296A (ja) | 電子回路を有する記憶媒体と該記憶媒体を有する音声合成装置 | |
JP2012128240A (ja) | 音声認識システム及び辞書生成装置 | |
JP4722787B2 (ja) | データ呼出制御装置、データ呼出システム、データ呼出制御装置の音声認識語彙登録方法および車両 | |
JP2009116107A (ja) | 情報処理装置及び方法 | |
WO2002001550A1 (fr) | Procede et systeme de commande d'un dispositif | |
JPH11242496A (ja) | 情報再生装置 | |
KR101576683B1 (ko) | 히스토리 저장모듈을 포함하는 오디오 재생장치 및 재생방법 | |
JP4718163B2 (ja) | 音声処理装置、音声処理方法、音声処理用プログラム及び記録媒体 | |
JP2009092977A (ja) | 車載装置および楽曲検索システム | |
JP2004037813A (ja) | 車載用音声認識装置およびそれを用いた音声認識システム | |
JP5242856B1 (ja) | 音楽再生プログラム及び音楽再生システム |