JP2014219614A

JP2014219614A - オーディオ装置、ビデオ装置及びコンピュータプログラム

Info

Publication number: JP2014219614A
Application number: JP2013099889A
Authority: JP
Inventors: 玲央奈川口; Reona Kawaguchi; 淳也水野; Junya Mizuno
Original assignee: Alpine Electronics Inc
Current assignee: Alpine Electronics Inc
Priority date: 2013-05-10
Filing date: 2013-05-10
Publication date: 2014-11-20

Abstract

【課題】接続された外部装置に記憶されている楽曲の音声操作の受け付けを、よりすみやかに開始できる「オーディオ装置、ビデオ装置及びコンピュータプログラム」を提供する。【解決手段】コマンドが認識された音声区間５０１以降の音声区間５０２に対して、デクテーション辞書１２１を用いた音声認識が行われ、「Michael Jack」を発話した音声区間５０２の音声が表す最初の文字「Ｍ」が認識されたならば（ｄ）。先頭文字が「Ｍ」であるアーティストのリストをポータブルオーディオプレイヤ２から取得し（ｆ）、取得した各アーティストの音声認識用のデータを楽曲属性値音声認識辞書１２３に登録する（ｇ）。そして楽曲属性値音声認識辞書１２３を用いて、音声区間５０２の音声認識処理を行いアーティスト「Michael Jack」を認識する。【選択図】図１

Description

本発明は、オーディオ装置においてオーディオコンテンツの音声操作を処理する技術に関するものである。

オーディオ装置においてオーディオコンテンツの音声操作を処理する技術としては、オーディオ装置にポータブルオーディオプレイヤ２が接続されたオーディオ装置において、接続されたポータブルオーディオプレイヤ２に記憶されている楽曲のタイトルやアーティストなどの楽曲の属性情報をポータブルオーディオプレイヤ２より取得して、各楽曲の属性情報の音声認識用の音声認識辞書を作成し、その後、ユーザからの発話があったときには、作成しておいた音声認識辞書を用いて、ユーザが発話によって指定した属性情報を認識し、認識した属性情報に対応する楽曲の再生等を行う技術が知られている（たとえば、特許文献１）。

特開2012-128240号公報

オーディオ装置にポータブルオーディオプレイヤ２が接続されたときに、接続されたポータブルオーディオプレイヤ２に記憶されている楽曲のタイトルやアーティストの音声認識用の音声認識辞書を作成する技術によれば、ポータブルオーディオプレイヤ２に記憶されている楽曲の数が多い場合には、音声認識用辞書の作成の完了までに比較的長い時間がかかり、結果、音声操作の受け付けが可能となるまで長時間を要することとなる。

また、ポータブルオーディオプレイヤ２の楽曲の属性情報のオーディオ装置への転送の負荷が大きくなり、当該転送の完了までポータブルオーディオプレイヤ２の他の機能の動作に過大な遅延が生じる場合もある。
そこで、本発明は、オーディオ装置において、当該オーディオ装置に接続された外部装置に記憶されている楽曲の音声操作の受け付けを、よりすみやかに開始できるようにすることを課題とする。

前記課題達成のために、本発明は、文字列により表された属性値が設定されている複数の楽曲を記憶した外部装置が接続されているときに、当該接続された外部装置に記憶されている楽曲の属性値のユーザの発話音声による指定を受け付けるオーディオ装置に、ユーザの楽曲の属性値を指定する発話音声である属性値指定音声が表す、当該属性値の先頭の文字を認識し、認識した文字を先頭文字候補に設定する先頭文字認識部と、前記外部装置に記憶されている各楽曲の属性値のうち、前記先頭文字認識部が設定した前記先頭文字候補を先頭文字として有する属性値を前記外部装置から取得する楽曲属性値取得部と、前記楽曲属性値取得部が取得した各属性値を音声認識するための音声認識辞書データを生成する音声認識辞書生成部と、前記先頭文字候補を先頭文字として有する属性値を音声認識するための前記音声認識辞書データを用いて、前記属性値指定音声の音声認識処理を行って、当該属性値指定音声が表す属性値を認識し、認識した属性値を、ユーザが発話音声により指定した属性値として受け付ける属性値認識部とを設けたものである。

ここで、このようなオーディオ装置は、前記楽曲属性値取得部において、前記外部装置に記憶されている各楽曲の属性値のうち、前記先頭文字候補を先頭文字として有する属性値を音声認識するための音声認識辞書データが既に生成されている場合には、前記属性値の前記外部装置からの取得は行わないように構成してもよい。

または、このようなオーディオ装置は、前記先頭文字認識部において、属性値指定音声が表す前記属性値の先頭の文字として確からしい文字が複数存在する場合には、当該複数の文字の各々を、前記先頭文字候補として設定し、前記楽曲属性値取得部において、前記複数の先頭文字候補の各々について、外部装置に記憶されている各楽曲の属性値のうち、当該先頭文字候補を先頭文字として有する属性値を前記外部装置から取得するように構成してもよい。また、この場合には、前記楽曲属性値取得部において、前記先頭文字候補のうち、当該先頭文字候補を先頭文字として有する属性値を音声認識するための音声認識辞書データが既に生成されている前記先頭文字候補については、当該先頭文字候補を先頭文字として有する属性値の前記外部装置からの取得は行わないようにしてもよい。

ここで、以上のオーディオ装置は、前記外部装置に記憶されている楽曲のうちの、前記属性値認識部が受け付けたユーザが発話音声により指定した属性値を有する楽曲を再生する楽曲再生部を備えるようにしてもよい。
また、以上のオーディオ装置において、前記属性値は、楽曲のタイトル、楽曲のアルバム、楽曲のアーティスト、楽曲のジャンルのいずれかを表すものとしてよい。
また、前記外部装置に記憶された楽曲には、複数の属性種別について、文字列により表された属性値が設定されている場合には、以上のオーディオ装置に、ユーザの属性種別を指定する発話音声である属性種別指定音声を音声認識して、音声認識したが属性種別を対象属性種別として設定する属性種別認識部を設け、前記楽曲属性値取得部において、前記外部装置に記憶されている各楽曲の前記対象属性種別の属性値のうち、前記先頭文字認識部が設定した前記先頭文字候補を先頭文字として有する属性値を前記外部装置から取得するようにしてよい。

また、この場合には、前記複数の属性種別は、楽曲のタイトルを属性値とする属性種別と、楽曲のアルバムを属性値とする属性種別と、楽曲のアーティストを属性値とする属性種別と、楽曲のジャンルを属性値とする属性種別とのうちの少なくとも二つの属性種別を含んでいるものとしてよい。

また、この場合には、オーディオ装置に、前記外部装置に記憶されている楽曲のうちの、前記対象属性種別の属性値として、前記属性値認識部が受け付けたユーザが発話音声により指定した属性値を有する楽曲を再生する楽曲再生部を設けるようにしてよい。
ここで、以上の各オーディオ装置において、前記外部装置は、たとえば、ポータブルオーディオプレイヤであり、当該オーディオ装置は、たとえば、自動車に搭載された車載オーディオ装置である。
以上のようなオーディオ装置によれば、外部装置に記憶されている複数の楽曲の属性値のうち、ユーザの楽曲の属性値を指定する発話音声である属性値指定音声が表す当該属性値の最初の文字を先頭文字として有する属性値のみを、前記外部装置から取得し、取得した属性値を音声認識するための音声認識辞書データを生成し、生成した音声認識辞書データを用いて属性値指定音声が表す属性値を音声認識する。

よって、外部装置に記憶されている複数の楽曲の属性値の全てを外部装置から取得する場合に比べ取得する属性値の数が少なくなり、結果、よりすみやかに属性値の音声認識、及び、属性値の指定を伴う音声操作の受け付けを行えるようになると共に、外部装置の属性値のオーディオ装置への転送処理による負荷の集中も抑制することができる。

また、一般的に、ひとまとまりの音声区間が表す文字列の最初の文字の音声認識は、先行する音声の影響を受けないために精度良く行うことができる。よって、このように属性値指定音声が表す当該属性値の最初の文字を先頭文字として有する属性値のみの声認識辞書データを用いて音声認識を行っても、属性値の音声認識を良好に行うことができる。

なお、以上のオーディオ装置の構成は、楽曲をビデオコンテンツに置き換えて適用することにより、ビデオ装置の構成として適用することができる。
すなわち、この場合には、たとえば、文字列により表された属性値が設定されている複数のビデオコンテンツを記憶した外部装置が接続されているときに、当該接続された外部装置に記憶されているビデオコンテンツの属性値のユーザの発話音声による指定を受け付けるビデオコンテンツを操作するビデオ装置に、ユーザのビデオコンテンツの属性値を指定する発話音声である属性値指定音声が表す、当該属性値の先頭の文字を認識し、認識した文字を先頭文字候補に設定する先頭文字認識部と、前記外部装置に記憶されている各ビデオコンテンツの属性値のうち、前記先頭文字認識部が設定した前記先頭文字候補を先頭文字として有する属性値を前記外部装置から取得するビデオコンテンツ属性値取得部と、前記ビデオコンテンツ属性値取得部が取得した各属性値を音声認識するための音声認識辞書データを生成する音声認識辞書生成部と、前記先頭文字候補を先頭文字として有する属性値を音声認識するための前記音声認識辞書データを用いて、前記属性値指定音声の音声認識処理を行って、当該属性値指定音声が表す属性値を認識し、認識した属性値を、ユーザが発話音声により指定した属性値として受け付ける属性値認識部とを設けるようにすればよい。

以上のように、本発明によれば、オーディオ装置において、当該オーディオ装置に接続された外部装置に記憶されている楽曲の音声操作の受け付けを、よりすみやかに開始できるようになる。

本発明の実施形態に係るオーディオ装置の構成を示すブロック図である。本発明の実施形態に係るオーディオ装置の詳細構成を示すブロック図である。本発明の実施形態に係るオーディオ装置の音声操作受付部が備えるデータを示す図である。本発明の実施形態に係る音声操作受付処理を示すフローチャートである。本発明の実施形態に係る音声操作受付処理の処理例を示す図である。本発明の実施形態に係る音声操作受付処理の処理例を示す図である。

以下、本発明の実施形態について説明する。
図１に、本実施形態に係るオーディオ装置の構成を示す。
ここで、本実施形態に係るオーディオ装置は、たとえば自動車に搭載されるオーディオ装置である。
さて、図示するように、オーディオ装置１は、ユーザによって携帯されるポータブルオーディオプレイヤ２と接続するデバイスインタフェース１０１、記憶装置１０２、スピーカ１０３、マイクロフォン１０４、スピーカ１０３への音声出力やマイクロフォン１０４からの音声の取り込みを行う音声入出力装置１０５、タッチパネルやリモコンなどの入力装置１０６、液晶表示装置などの表示装置１０７、オペレーティングシステム１０８、オペレーティングシステム１０８によって管理されたオペレーティングシステム１０８上で稼働する複数のアプリケーションを備えている。

また、オーディオ装置１は、オペレーティングシステム１０８上で稼働するアプリケーションとして、オーディオプレイヤ１０９や、その他のアプリケーション１１０を備えている。そして、これらのオーディオプレイヤ１０９やその他のアプリケーション１１０は、オペレーティングシステム１０８を介して、デバイスインタフェース１０１、記憶装置１０２、音声入出力装置１０５、入力装置１０６、表示装置１０７の機能を利用することができる。

また、オペレーティングシステム１０８は、音声操作を受け付ける音声操作受付部１２０を備えている。
但し、オーディオ装置１は、ハードウエア的には、ＣＰＵやメモリなどを備えたコンピュータを用いて構成されるものであり、オペレーティングシステム１０８や音声操作受付部１２０や各アプリケーションは、当該コンピュータが、所定のコンピュータプログラムを実行することにより実現されるものである。

次に、図２に、オーディオ装置１とポータブルオーディオプレイヤ２において、オーディオ装置１における音声操作の受け付けに関わる構成の詳細を示す。
図示するように、ポータブルオーディオプレイヤ２は、記憶デバイス２０１、操作部２０２、スピーカ２０３、再生出力部２０４、プレイヤ制御部２０５、オーディオ装置１と接続するためのホストインタフェース２０６とを備えている。
ここで、記憶デバイス２０１には、各々が楽曲のオーディオデータを格納した複数のオーディオファイルと、オーディオファイルにオーディオデータが格納された楽曲のタイトルやアーティストやアルバムやジャンルなどの各種別の楽曲属性の属性値が登録されたミュージックデータベースとが記憶されている。

そして、プレイヤ制御部２０５は、操作部２０２の操作に応じて、再生出力部２０４に、記憶デバイス２０１に記憶されているオーディオファイルのスピーカ２０３への再生出力を行わせる。
また、プレイヤ制御部２０５は、ホストインタフェース２０６を介してオーディオ装置１に接続されているときには、オーディオ装置１からの制御に従って、ミュージックデータベースに登録されている楽曲属性の属性値のリストをオーディオ装置１に転送したり、オーディオファイルのオーディオデータをオーディオ装置１に転送する処理などを行う。

なお、ポータブルオーディオプレイヤ２のホストインタフェース２０６と車載装置のデバイスインタフェース１０１は、Bluetooth（登録商標）や、WIFI、USBなどにより接続し、相互通信を行うものである。
次に、オーディオ装置１のオーディオプレイヤ１０９は、再生制御部１０９１と再生処理部１０９２とを有する。
再生制御部１０９１は、音声操作受付部１２０から再生を要求された楽曲のオーディオファイルのオーディオデータをポータブルオーディオプレイヤ２に転送させ、再生処理部１０９２は、ポータブルオーディオプレイヤ２から転送されたオーディオデータを音声入出力装置１０５を介してスピーカ１０３に再生出力する。

次に、オーディオ装置１の音声操作受付部１２０は、デクテーション辞書１２１とコマンド音声認識辞書１２２と楽曲属性値音声認識辞書１２３との３つの音声認識用の辞書、これら３つの音声認識用の辞書を用いて、マイクロフォン１０４から音声入出力装置１０５を介して入力するユーザの発話音声を認識する音声認識処理部１２４、読込済楽曲属性値範囲テーブル１２５、音声操作受付部１２０における音声操作受付動作を制御する音声操作受付制御部１２６とを備えている。

ここで、デクテーション辞書１２１は、発話音声をテキストに変換するために用いる音声認識用辞書であり、図３ａに示すように、アルファベット認識辞書と、数字記号認識辞書とを有する。
そして、アルファベット認識辞書には、予め、各アルファベットの文字の各々ついて当該文字の発音の音素の特徴を表す音素特徴データが登録されている。
また、数字記号認識辞書には、予め、アルファベットの文字以外の文字である各数字、記号の各々について、当該文字の発音の特徴を表す数字記号音声特徴データが登録されている。
次に、コマンド音声認識辞書１２２は、発話音声をコマンドに変換するために用いる音声認識用辞書であり、図３ｂに示すように、予め設定されているコマンドの各々について、当該コマンドの発音の特徴を表すコマンド音声特徴データが予め登録されている。
ここで、本実施形態では、コマンドとして「Play artist」や「Play song」などの、「Play +楽曲属性種別指定」の形式のコマンドを用いる。なお、「artist」は楽曲属性種別としてアーティストを指定し、「song」は楽曲属性種別としてタイトルを指定するものである。

また、本実施形態では、音声操作受付部１２０において、「Play +楽曲属性種別指定+属性値指定」の発話音声を、楽曲属性種別指定で指定された楽曲属性種別の属性値が、属性値指定で指定された属性値である楽曲の再生操作として受け付ける。
すなわち、たとえば、発話音声が、「Play artist BB」であれば、アーティストが” BB "である各楽曲の再生操作を受け付け、オーディオプレイヤ１０９の再生制御部１０９１にアーティストが” BB "である各楽曲の再生を要求する。また、たとえば、発話音声が、「Play song AA」であれば、タイトルが”AA"の楽曲の再生操作を受け付け、オーディオプレイヤ１０９の再生制御部１０９１にタイトルが”AA"の楽曲の再生を要求する。

次に、楽曲属性値音声認識辞書１２３には、楽曲属性の種別毎に対応づけて、複数の属性値と当該属性値の発音の特徴を表す属性値音声特徴データを登録することができる。
そして、読込済楽曲属性値範囲テーブル１２５には、楽曲属性の種別毎に対応づけて、楽曲属性値音声認識辞書１２３に登録されている属性値の範囲を登録することができる。
以下、このような構成において、オーディオ装置１の音声操作受付部１２０の音声操作受付制御部１２６が行う音声操作受付処理について説明する。
図４に、この音声操作受付処理の手順を示す。
図示するように、音声操作受付処理では、まず、ポータブルオーディオプレイヤ２のオーディ装置への接続の発生を監視する（ステップ４０２）。
そして、ポータブルオーディオプレイヤ２がオーディオ装置１に接続されたならば、ポータブルオーディオプレイヤ２とオーディオ装置１との接続の解除の発生（ステップ４０４）と、マイクロフォン１０４からの音声入力の発生（ステップ４０６）とを監視する。
そして、ポータブルオーディオプレイヤ２とオーディオ装置１との接続の解除が発生したならば（ステップ４０４）、楽曲属性値音声認識辞書１２３と読込済楽曲属性値範囲テーブル１２５の内容を消去し（ステップ４０８）、ステップ４０２の監視に戻る。
一方、マイクロフォン１０４からの音声入力が発生したならば（ステップ４０６）、音声入力が終了するまで入力する音声の音声データを保存する（ステップ４１０）。
そして、音声入力が終了したならば、音声認識処理部１２４にコマンド音声認識辞書１２２を用いた、入力音声の先頭部分の音声が表すコマンドの認識を行わせる（ステップ４１２）。
そして、音声認識処理部１２４によって認識されたコマンドの楽曲属性種別指定で指定された楽曲属性種別を認識対象属性種別に設定する（ステップ４１４）。
そして、保存しておいた入力音声の、音声認識処理部１２４によってコマンドが認識された音声区間に続く音声区間が表す文字列の最初の文字の、デクテーション辞書１２１を用いた音声認識を音声認識処理部１２４に行わせる（ステップ４１６）。
ここで、音声認識処理部１２４は、コマンドが認識された音声区間に続く音声区間に対して、デクテーション辞書１２１のアルファベット認識辞書を用いた音声認識と、デクテーション辞書１２１の数字記号認識辞書を用いた音声認識の双方を行い、音声認識によって得られた最初の文字の候補のうち、最も尤度の大きい候補の文字を上記最初の文字として認識する。なお、尤度は、たとえば、音声認識対象音声の音素特徴データや数字記号音声特徴データとの整合度/類似度によって求める。

そして、音声認識処理部１２４によって認識された最初の文字を認識対象属性値先頭文字に設定する（ステップ４１８）。
そして、次に、読込済楽曲属性値範囲テーブル１２５に、認識対象属性種別に対応づけて、認識対象属性値先頭文字を先頭文字とすることを条件とする属性値の範囲が登録されているかどうかを調べ（ステップ４２０）、登録済みであれば、ステップ４２８に進む。
一方、読込済楽曲属性値範囲テーブル１２５に、認識対象属性種別に対応づけて、認識対象属性値先頭文字を先頭文字とすることを条件とする属性値の範囲が登録されていない場合には（ステップ４２０）、ポータブルオーディオプレイヤ２より、ミュージックデータベースに登録されている認識対象属性種別の属性値のうち、先頭文字が認識対象属性値先頭文字である属性値のリストを取得する（ステップ４２２）。

ここで、このリストの取得は、ポータブルオーディオプレイヤ２が備える属性値の通知機能に応じた形態、手順で行う。
たとえば、ポータブルオーディオプレイヤ２のプレイヤ制御部２０５が指定された楽曲属性種別と属性値の条件に合致する、指定された楽曲属性種別の属性値のリストを提供する機能を備えている場合には、ステップ４２２では、認識対象属性種別の属性値の先頭文字が認識対象属性値先頭文字と一致することを条件として指定した、認識対象属性種別の属性値のリスト要求をポータブルオーディオプレイヤ２に発行する。そして、このリスト要求を受け取ったポータブルオーディオプレイヤ２のプレイヤ制御部２０５は、指定された条件にマッチする、指定された楽曲属性種別の属性値をミュージックデータベースより抽出し、抽出した属性値のリストをオーディオ装置１に転送する。

そして、このようにポータブルオーディオプレイヤ２から属性値のリストを取得したならば、リスト中の各属性値の属性値音声特徴データを生成し、リスト中の各属性値を、当該属性値の属性値音声特徴データと共に、楽曲属性値音声認識辞書１２３に認識対象属性種別に対応づけて登録する（ステップ４２４）。ここで、属性値の属性値音声特徴データは、たとえば、当該属性値を音素列に変換し、変換した音素列を属性値音声特徴データとすることなどにより生成する。

また、読込済楽曲属性値範囲テーブル１２５に、認識対象属性種別に対応づけて、認識対象属性値先頭文字を先頭文字とすることを条件とする属性値の範囲を登録する（ステップ４２６）。そして、ステップ４２８に進む。
以上のようにしてステップ４２０またはステップ４２６からステップ４２８に進んだならば、保存しておいた入力音声の、音声認識処理部１２４によってコマンドが認識された音声区間に続く音声区間に対する属性値の音声認識を音声認識処理部１２４に行わせる。但し、ステップ４２８では、音声認識処理部１２４に、楽曲属性値音声認識辞書１２３の認識対象属性種別に対応づけて登録されている属性値と属性値音声特徴データのうち、属性値の先頭文字が認識対象属性値先頭文字である各属性値と当該属性値の属性値音声特徴データを用いた音声認識を行わせる。

そして、認識対象属性種別の属性値が、ステップ４２８で認識した属性値である楽曲の再生をオーディオプレイヤ１０９の再生制御部１０９１に要求する（ステップ４３０）。そして、ステップ４０４、４０６の監視に戻る
以上、オーディオ装置１の音声操作受付部１２０の音声操作受付制御部１２６が行う音声操作受付処理について説明した。

以下、このような音声操作受付処理の処理例を示す。
いま、図５ａに示すように、ユーザの発話した入力音声が「Play artist Michael Jack」であった場合、まず、コマンド音声認識辞書１２２を用いた音声認識が行われ、図５ｂに示すように、入力音声の先頭の音声区間５０１からコマンド「Play artist」が認識され、図５ｃに示すように、コマンド「Play artist」中の楽曲属性種別指定「artist」より認識対象属性種別が「アーティスト」に設定される。

次に、図５ｄに示すように、コマンド「Play artist」が認識された音声区間５０１以降の音声区間５０２に対して、デクテーション辞書１２１を用いた音声認識が行われ、音声区間５０２の音声が表す最初の文字「Ｍ」が認識される。そして、図５ｅに示すように、文字「Ｍ」が認識対象属性値先頭文字に設定される。

そして、次に、図５ｆに示すように、楽曲属性種別が認識対象属性種別「アーティスト」である属性値のうち、先頭文字が認識対象属性値先頭文字「Ｍ」である範囲の属性値がポータブルオーディオプレイヤ２から取得され、図５ｇに示すように、取得した属性値の音声認識用のデータが楽曲属性値音声認識辞書１２３に登録される。

この結果、ポータブルオーディオプレイヤ２のミュージックデータベースに登録されているアーティストリストが図６ａに示すように、アルファベット順にアーティストを並べたものである場合には、このアーティストリストに登録されているアーティストのうちの、先頭文字が「Ｍ」であるアーティストの範囲のみについて、各アーティストの音声認識用のデータが楽曲属性値音声認識辞書１２３に登録されることとなる。

図５に戻り、次に、楽曲属性値音声認識辞書１２３の図５ｇで登録した音声認識用のデータを用いて音声区間５０２の音声認識が図５ｈに示すように行われると、この時点において、図６ｂに示すように属性値「Michael Jack」の音声認識用のデータが楽曲属性値音声認識辞書１２３に既に登録されているので、属性値「Michael Jack」が正しく認識されることとなる。

次に、以上で、ユーザの発話音声全体の音声認識が完了したので、図５iに示すように、認識したコマンド「Play artist」、認識した「Michael Jack」に基づいて、「アーティスト」が「Michael Jack」である楽曲の再生の要求がオーディオプレイヤ１０９の再生制御部１０９１に発行される。

以上、本発明の実施形態について説明した。
以上のように、本実施形態によれば、ポータブルオーディオプレイヤ２に記憶されている複数の楽曲の属性値のうち、ユーザの楽曲の属性値を指定する発話音声が表す最初の文字を先頭文字として有する属性値のみを、ポータブルオーディオプレイヤ２から取得し、取得した属性値を音声認識するためのデータを楽曲属性値音声認識辞書１２３に登録した上で、当該楽曲属性値音声認識辞書１２３を用いて、ユーザが発話した属性値を音声認識する。

よって、ポータブルオーディオプレイヤ２に記憶されている複数の楽曲の属性値の全てをポータブルオーディオプレイヤ２から取得する場合に比べ、取得する属性値の数が少なくなり、結果、よりすみやかに属性値の音声認識、及び、属性値の指定を伴う音声操作の受け付けを行えるようになると共に、ポータブルオーディオプレイヤ２の属性値のオーディオ装置１への転送処理による負荷の集中も抑制することができる。

また、一般的に、ひとまとまりの音声区間が表す文字列の最初の文字のデクテーション辞書１２１を用いた認識は、先行する音声の影響を受けないために精度良く行うことができる。よって、このようにデクテーション辞書１２１を用いて認識した最初の文字を先頭文字として有する属性値のみを音声認識するためのデータを楽曲属性値音声認識辞書１２３に登録して音声認識を行っても、属性値の音声認識を良好に行うことができる。

ところで、以上の実施形態では、音声操作受付処理のステップ４１６でコマンドが認識された音声区間に続く音声区間が表す文字列の最初の文字として一つの文字のみを認識し、ステップ４１８で認識した文字を認識対象属性値先頭文字に設定したが、これはステップ４１６でコマンドが認識された音声区間に続く音声区間に対して、デクテーション辞書１２１のアルファベット認識辞書を用いた音声認識と、デクテーション辞書１２１の数字記号認識辞書を用いた音声認識の双方を行って得られた最初の文字の候補のうち上述した尤度が所定レベル以上大きな候補の全て、もしくは、尤度が所定レベル以上大きな候補のうちの尤度が上位の所定数の候補を、それぞれ認識対象属性値先頭文字に設定し、設定した各認識対象属性値先頭文字についてステップ４２０からステップ４２８の処理を行うようにしてもよい。

すなわち、たとえば、図６の入力音声の音声区間５０２に対するデクテーション辞書１２１を用いた音声認識によって、音声区間５０２の最初の文字の候補として”Ｍ”と”Ｎ”が尤度が上位の文字として得られたならば、図６ａに示すポータブルオーディオプレイヤ２のミュージックデータベースのアーティストリストの先頭文字が「Ｍ」であるアーティストの範囲と先頭文字が「Ｎ」であるアーティストの範囲の双方について、アーティストのリストを取得し、取得した各アーティストの音声認識用のデータ楽曲属性値音声認識辞書１２３に登録し、当該登録を行った楽曲属性値音声認識辞書１２３を用いて、入力音声の音声区間５０２が表すアーティストの音声認識を行うようにしてもよい。

また、以上の実施形態は、ポータブルオーディオプレイヤ２に代えて、オーディオファイルを記憶した装置であって、所望の先頭文字の条件を満たす範囲の属性値を取得できる装置を用いる場合にも同様に適用することができる。
また、以上の実施形態は、オーディオをビデオに置換して適用することにより、外部の装置に記憶されたビデオファイルを再生するビデオ再生装置にも同様に適用することができる。

１…オーディオ装置、２…ポータブルオーディオプレイヤ、１０１…デバイスインタフェース、１０２…記憶装置、１０３…スピーカ、１０４…マイクロフォン、１０５…音声入出力装置、１０６…入力装置、１０７…表示装置、１０８…オペレーティングシステム、１０９…オーディオプレイヤ、１２０…音声操作受付部、１２１…デクテーション辞書、１２２…コマンド音声認識辞書、１２３…楽曲属性値音声認識辞書、１２４…音声認識処理部、１２５…読込済楽曲属性値範囲テーブル、１２６…音声操作受付制御部、２０１…記憶デバイス、２０２…操作部、２０４…再生出力部、２０５…プレイヤ制御部、２０６…ホストインタフェース、１０９１…再生制御部、１０９２…再生処理部。

Claims

文字列により表された属性値が設定されている複数の楽曲を記憶した外部装置が接続されているときに、当該接続された外部装置に記憶されている楽曲の属性値のユーザの発話音声による指定を受け付けるオーディオ装置であって、
ユーザの楽曲の属性値を指定する発話音声である属性値指定音声が表す、当該属性値の先頭の文字を認識し、認識した文字を先頭文字候補に設定する先頭文字認識部と、
前記外部装置に記憶されている各楽曲の属性値のうち、前記先頭文字認識部が設定した前記先頭文字候補を先頭文字として有する属性値を前記外部装置から取得する楽曲属性値取得部と、
前記楽曲属性値取得部が取得した各属性値を音声認識するための音声認識辞書データを生成する音声認識辞書生成部と、
前記先頭文字候補を先頭文字として有する属性値を音声認識するための前記音声認識辞書データを用いて、前記属性値指定音声の音声認識処理を行って、当該属性値指定音声が表す属性値を認識し、認識した属性値を、ユーザが発話音声により指定した属性値として受け付ける属性値認識部とを有することを特徴とするオーディオ装置。
請求項１記載のオーディオ装置であって、
前記楽曲属性値取得部は、前記外部装置に記憶されている各楽曲の属性値のうち、前記先頭文字候補を先頭文字として有する属性値を音声認識するための音声認識辞書データが既に生成されている場合には、前記属性値の前記外部装置からの取得は行わないことを特徴とするオーディオ装置。
請求項１記載のオーディオ装置であって、
前記先頭文字認識部は、属性値指定音声が表す前記属性値の先頭の文字として確からしい文字が複数存在する場合には、当該複数の文字の各々を、前記先頭文字候補として設定し、
前記楽曲属性値取得部は、前記複数の先頭文字候補の各々について、外部装置に記憶されている各楽曲の属性値のうち、当該先頭文字候補を先頭文字として有する属性値を前記外部装置から取得することを特徴とするオーディオ装置。
請求項３記載のオーディオ装置であって、
前記楽曲属性値取得部は、前記先頭文字候補のうち、当該先頭文字候補を先頭文字として有する属性値を音声認識するための音声認識辞書データが既に生成されている前記先頭文字候補については、当該先頭文字候補を先頭文字として有する属性値の前記外部装置からの取得は行わないことを特徴とするオーディオ装置。
請求項１、２、３または４記載のオーディオ装置であって、
前記外部装置に記憶されている楽曲のうちの、前記属性値認識部が受け付けたユーザが発話音声により指定した属性値を有する楽曲を再生する楽曲再生部を有することを特徴とするオーディオ装置。
請求項１、２、３、４または５記載のオーディオ装置であって、
前記属性値は、楽曲のタイトル、楽曲のアルバム、楽曲のアーティスト、楽曲のジャンルのいずれかを表すものであることを特徴とするオーディオ装置。
請求項１、２、３または４記載のオーディオ装置であって、
前記外部装置に記憶された楽曲には、複数の属性種別について、文字列により表された属性値が設定されており、
当該オーディオ装置は、
ユーザの属性種別を指定する発話音声である属性種別指定音声を音声認識して、音声認識したが属性種別を対象属性種別として設定する属性種別認識部を有し、
前記楽曲属性値取得部は、前記外部装置に記憶されている各楽曲の前記対象属性種別の属性値のうち、前記先頭文字認識部が設定した前記先頭文字候補を先頭文字として有する属性値を前記外部装置から取得することを特徴とするオーディオ装置。
請求項７記載のオーディオ装置であって、
前記複数の属性種別は、楽曲のタイトルを属性値とする属性種別と、楽曲のアルバムを属性値とする属性種別と、楽曲のアーティストを属性値とする属性種別と、楽曲のジャンルを属性値とする属性種別とのうちの少なくとも二つの属性種別を含んでいることを特徴とするオーディオ装置。
請求項７または８記載のオーディオ装置であって、
前記外部装置に記憶されている楽曲のうちの、前記対象属性種別の属性値として、前記属性値認識部が受け付けたユーザが発話音声により指定した属性値を有する楽曲を再生する楽曲再生部を有することを特徴とするオーディオ装置。
請求項１、２、３、４、５、６、７、８または９記載のオーディオ装置であって、
前記外部装置は、ポータブルオーディオプレイヤであることを特徴とするオーディオ装置。
請求項１、２、３、４、５、６、７、８、９または１０記載のオーディオ装置であって、
当該オーディオ装置は、自動車に搭載された車載オーディオ装置であることを特徴とするオーディオ装置。
文字列により表された属性値が設定されている複数のビデオコンテンツを記憶した外部装置が接続されているときに、当該接続された外部装置に記憶されているビデオコンテンツの属性値のユーザの発話音声による指定を受け付けるビデオコンテンツを操作するビデオ装置であって、
ユーザのビデオコンテンツの属性値を指定する発話音声である属性値指定音声が表す、当該属性値の先頭の文字を認識し、認識した文字を先頭文字候補に設定する先頭文字認識部と、
前記外部装置に記憶されている各ビデオコンテンツの属性値のうち、前記先頭文字認識部が設定した前記先頭文字候補を先頭文字として有する属性値を前記外部装置から取得するビデオコンテンツ属性値取得部と、
前記ビデオコンテンツ属性値取得部が取得した各属性値を音声認識するための音声認識辞書データを生成する音声認識辞書生成部と、
前記先頭文字候補を先頭文字として有する属性値を音声認識するための前記音声認識辞書データを用いて、前記属性値指定音声の音声認識処理を行って、当該属性値指定音声が表す属性値を認識し、認識した属性値を、ユーザが発話音声により指定した属性値として受け付ける属性値認識部とを有することを特徴とするビデオ装置。
文字列により表された属性値が設定されている複数の楽曲を記憶した外部装置が接続されるコンピュータによって読み取られ実行されるコンピュータプログラムであって、
前記コンピュータを、
ユーザの楽曲の属性値を指定する発話音声である属性値指定音声が表す、当該属性値の先頭の文字を認識し、認識した文字を先頭文字候補に設定する先頭文字認識部と、
前記外部装置に記憶されている各楽曲の属性値のうち、前記先頭文字認識部が設定した前記先頭文字候補を先頭文字として有する属性値を前記外部装置から取得する楽曲属性値取得部と、
前記楽曲属性値取得部が取得した各属性値を音声認識するための音声認識辞書データを生成する音声認識辞書生成部と、
前記先頭文字候補を先頭文字として有する属性値を音声認識するための前記音声認識辞書データを用いて、前記属性値指定音声の音声認識処理を行って、当該属性値指定音声が表す属性値を認識し、認識した属性値を、ユーザが発話音声により指定した属性値として受け付ける属性値認識部として機能させることを特徴とするコンピュータプログラム。
請求項１３記載のコンピュータプログラムであって、
前記先頭文字認識部は、属性値指定音声が表す前記属性値の先頭の文字として確からしい文字が複数存在する場合には、当該複数の文字の各々を、前記先頭文字候補として設定し、
前記楽曲属性値取得部は、前記複数の先頭文字候補の各々について、外部装置に記憶されている各楽曲の属性値のうち、当該先頭文字候補を先頭文字として有する属性値を前記外部装置から取得することを特徴とするコンピュータプログラム。
請求項１３または１４記載のコンピュータプログラムであって、
前記コンピュータを、さらに、前記外部装置に記憶されている楽曲のうちの、前記属性値認識部が受け付けたユーザが発話音声により指定した属性値を有する楽曲を再生する楽曲再生部として機能させることを特徴とするコンピュータプログラム。
請求項１３、１４または１５記載のコンピュータプログラムであって、
前記属性値は、楽曲のタイトル、楽曲のアルバム、楽曲のアーティスト、楽曲のジャンルのいずれかを表すものであることを特徴とするコンピュータプログラム。
請求項１３または１４記載のコンピュータプログラムであって、
前記外部装置に記憶された楽曲には、複数の属性種別について、文字列により表された属性値が設定されており、
当該コンピュータプログラムは、前記コンピュータを、さらに、ユーザの属性種別を指定する発話音声である属性種別指定音声を音声認識して、音声認識したが属性種別を対象属性種別として設定する属性種別認識部として機能させ、
前記楽曲属性値取得部は、前記外部装置に記憶されている各楽曲の前記対象属性種別の属性値のうち、前記先頭文字認識部が設定した前記先頭文字候補を先頭文字として有する属性値を前記外部装置から取得することを特徴とするコンピュータプログラム。
請求項１７記載のコンピュータプログラムであって、
前記複数の属性種別は、楽曲のタイトルを属性値とする属性種別と、楽曲のアルバムを属性値とする属性種別と、楽曲のアーティストを属性値とする属性種別と、楽曲のジャンルを属性値とする属性種別とのうちの少なくとも二つの属性種別を含んでいることを特徴とするコンピュータプログラム。
請求項１７または１８記載のコンピュータプログラムであって、
前記コンピュータを、さらに、前記外部装置に記憶されている楽曲のうちの、前記対象属性種別の属性値として、前記属性値認識部が受け付けたユーザが発話音声により指定した属性値を有する楽曲を再生する楽曲再生部として機能させることを特徴とするコンピュータプログラム。