JP2014219614A - オーディオ装置、ビデオ装置及びコンピュータプログラム - Google Patents

オーディオ装置、ビデオ装置及びコンピュータプログラム Download PDF

Info

Publication number
JP2014219614A
JP2014219614A JP2013099889A JP2013099889A JP2014219614A JP 2014219614 A JP2014219614 A JP 2014219614A JP 2013099889 A JP2013099889 A JP 2013099889A JP 2013099889 A JP2013099889 A JP 2013099889A JP 2014219614 A JP2014219614 A JP 2014219614A
Authority
JP
Japan
Prior art keywords
attribute value
attribute
character
music
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2013099889A
Other languages
English (en)
Inventor
玲央奈 川口
Reona Kawaguchi
玲央奈 川口
淳也 水野
Junya Mizuno
淳也 水野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alpine Electronics Inc
Original Assignee
Alpine Electronics Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alpine Electronics Inc filed Critical Alpine Electronics Inc
Priority to JP2013099889A priority Critical patent/JP2014219614A/ja
Publication of JP2014219614A publication Critical patent/JP2014219614A/ja
Pending legal-status Critical Current

Links

Classifications

    • G06F17/30
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】接続された外部装置に記憶されている楽曲の音声操作の受け付けを、よりすみやかに開始できる「オーディオ装置、ビデオ装置及びコンピュータプログラム」を提供する。【解決手段】コマンドが認識された音声区間501以降の音声区間502に対して、デクテーション辞書121を用いた音声認識が行われ、「Michael Jack」を発話した音声区間502の音声が表す最初の文字「M」が認識されたならば(d)。先頭文字が「M」であるアーティストのリストをポータブルオーディオプレイヤ2から取得し(f)、取得した各アーティストの音声認識用のデータを楽曲属性値音声認識辞書123に登録する(g)。そして楽曲属性値音声認識辞書123を用いて、音声区間502の音声認識処理を行いアーティスト「Michael Jack」を認識する。【選択図】図1

Description

本発明は、オーディオ装置においてオーディオコンテンツの音声操作を処理する技術に関するものである。
オーディオ装置においてオーディオコンテンツの音声操作を処理する技術としては、オーディオ装置にポータブルオーディオプレイヤ2が接続されたオーディオ装置において、接続されたポータブルオーディオプレイヤ2に記憶されている楽曲のタイトルやアーティストなどの楽曲の属性情報をポータブルオーディオプレイヤ2より取得して、各楽曲の属性情報の音声認識用の音声認識辞書を作成し、その後、ユーザからの発話があったときには、作成しておいた音声認識辞書を用いて、ユーザが発話によって指定した属性情報を認識し、認識した属性情報に対応する楽曲の再生等を行う技術が知られている(たとえば、特許文献1)。
特開2012-128240号公報
オーディオ装置にポータブルオーディオプレイヤ2が接続されたときに、接続されたポータブルオーディオプレイヤ2に記憶されている楽曲のタイトルやアーティストの音声認識用の音声認識辞書を作成する技術によれば、ポータブルオーディオプレイヤ2に記憶されている楽曲の数が多い場合には、音声認識用辞書の作成の完了までに比較的長い時間がかかり、結果、音声操作の受け付けが可能となるまで長時間を要することとなる。
また、ポータブルオーディオプレイヤ2の楽曲の属性情報のオーディオ装置への転送の負荷が大きくなり、当該転送の完了までポータブルオーディオプレイヤ2の他の機能の動作に過大な遅延が生じる場合もある。
そこで、本発明は、オーディオ装置において、当該オーディオ装置に接続された外部装置に記憶されている楽曲の音声操作の受け付けを、よりすみやかに開始できるようにすることを課題とする。
前記課題達成のために、本発明は、文字列により表された属性値が設定されている複数の楽曲を記憶した外部装置が接続されているときに、当該接続された外部装置に記憶されている楽曲の属性値のユーザの発話音声による指定を受け付けるオーディオ装置に、ユーザの楽曲の属性値を指定する発話音声である属性値指定音声が表す、当該属性値の先頭の文字を認識し、認識した文字を先頭文字候補に設定する先頭文字認識部と、前記外部装置に記憶されている各楽曲の属性値のうち、前記先頭文字認識部が設定した前記先頭文字候補を先頭文字として有する属性値を前記外部装置から取得する楽曲属性値取得部と、前記楽曲属性値取得部が取得した各属性値を音声認識するための音声認識辞書データを生成する音声認識辞書生成部と、前記先頭文字候補を先頭文字として有する属性値を音声認識するための前記音声認識辞書データを用いて、前記属性値指定音声の音声認識処理を行って、当該属性値指定音声が表す属性値を認識し、認識した属性値を、ユーザが発話音声により指定した属性値として受け付ける属性値認識部とを設けたものである。
ここで、このようなオーディオ装置は、前記楽曲属性値取得部において、前記外部装置に記憶されている各楽曲の属性値のうち、前記先頭文字候補を先頭文字として有する属性値を音声認識するための音声認識辞書データが既に生成されている場合には、前記属性値の前記外部装置からの取得は行わないように構成してもよい。
または、このようなオーディオ装置は、前記先頭文字認識部において、属性値指定音声が表す前記属性値の先頭の文字として確からしい文字が複数存在する場合には、当該複数の文字の各々を、前記先頭文字候補として設定し、前記楽曲属性値取得部において、前記複数の先頭文字候補の各々について、外部装置に記憶されている各楽曲の属性値のうち、当該先頭文字候補を先頭文字として有する属性値を前記外部装置から取得するように構成してもよい。また、この場合には、前記楽曲属性値取得部において、前記先頭文字候補のうち、当該先頭文字候補を先頭文字として有する属性値を音声認識するための音声認識辞書データが既に生成されている前記先頭文字候補については、当該先頭文字候補を先頭文字として有する属性値の前記外部装置からの取得は行わないようにしてもよい。
ここで、以上のオーディオ装置は、前記外部装置に記憶されている楽曲のうちの、前記属性値認識部が受け付けたユーザが発話音声により指定した属性値を有する楽曲を再生する楽曲再生部を備えるようにしてもよい。
また、以上のオーディオ装置において、前記属性値は、楽曲のタイトル、楽曲のアルバム、楽曲のアーティスト、楽曲のジャンルのいずれかを表すものとしてよい。
また、前記外部装置に記憶された楽曲には、複数の属性種別について、文字列により表された属性値が設定されている場合には、以上のオーディオ装置に、ユーザの属性種別を指定する発話音声である属性種別指定音声を音声認識して、音声認識したが属性種別を対象属性種別として設定する属性種別認識部を設け、前記楽曲属性値取得部において、前記外部装置に記憶されている各楽曲の前記対象属性種別の属性値のうち、前記先頭文字認識部が設定した前記先頭文字候補を先頭文字として有する属性値を前記外部装置から取得するようにしてよい。
また、この場合には、前記複数の属性種別は、楽曲のタイトルを属性値とする属性種別と、楽曲のアルバムを属性値とする属性種別と、楽曲のアーティストを属性値とする属性種別と、楽曲のジャンルを属性値とする属性種別とのうちの少なくとも二つの属性種別を含んでいるものとしてよい。
また、この場合には、オーディオ装置に、前記外部装置に記憶されている楽曲のうちの、前記対象属性種別の属性値として、前記属性値認識部が受け付けたユーザが発話音声により指定した属性値を有する楽曲を再生する楽曲再生部を設けるようにしてよい。
ここで、以上の各オーディオ装置において、前記外部装置は、たとえば、ポータブルオーディオプレイヤであり、当該オーディオ装置は、たとえば、自動車に搭載された車載オーディオ装置である。
以上のようなオーディオ装置によれば、外部装置に記憶されている複数の楽曲の属性値のうち、ユーザの楽曲の属性値を指定する発話音声である属性値指定音声が表す当該属性値の最初の文字を先頭文字として有する属性値のみを、前記外部装置から取得し、取得した属性値を音声認識するための音声認識辞書データを生成し、生成した音声認識辞書データを用いて属性値指定音声が表す属性値を音声認識する。
よって、外部装置に記憶されている複数の楽曲の属性値の全てを外部装置から取得する場合に比べ取得する属性値の数が少なくなり、結果、よりすみやかに属性値の音声認識、及び、属性値の指定を伴う音声操作の受け付けを行えるようになると共に、外部装置の属性値のオーディオ装置への転送処理による負荷の集中も抑制することができる。
また、一般的に、ひとまとまりの音声区間が表す文字列の最初の文字の音声認識は、先行する音声の影響を受けないために精度良く行うことができる。よって、このように属性値指定音声が表す当該属性値の最初の文字を先頭文字として有する属性値のみの声認識辞書データを用いて音声認識を行っても、属性値の音声認識を良好に行うことができる。
なお、以上のオーディオ装置の構成は、楽曲をビデオコンテンツに置き換えて適用することにより、ビデオ装置の構成として適用することができる。
すなわち、この場合には、たとえば、文字列により表された属性値が設定されている複数のビデオコンテンツを記憶した外部装置が接続されているときに、当該接続された外部装置に記憶されているビデオコンテンツの属性値のユーザの発話音声による指定を受け付けるビデオコンテンツを操作するビデオ装置に、ユーザのビデオコンテンツの属性値を指定する発話音声である属性値指定音声が表す、当該属性値の先頭の文字を認識し、認識した文字を先頭文字候補に設定する先頭文字認識部と、前記外部装置に記憶されている各ビデオコンテンツの属性値のうち、前記先頭文字認識部が設定した前記先頭文字候補を先頭文字として有する属性値を前記外部装置から取得するビデオコンテンツ属性値取得部と、前記ビデオコンテンツ属性値取得部が取得した各属性値を音声認識するための音声認識辞書データを生成する音声認識辞書生成部と、前記先頭文字候補を先頭文字として有する属性値を音声認識するための前記音声認識辞書データを用いて、前記属性値指定音声の音声認識処理を行って、当該属性値指定音声が表す属性値を認識し、認識した属性値を、ユーザが発話音声により指定した属性値として受け付ける属性値認識部とを設けるようにすればよい。
以上のように、本発明によれば、オーディオ装置において、当該オーディオ装置に接続された外部装置に記憶されている楽曲の音声操作の受け付けを、よりすみやかに開始できるようになる。
本発明の実施形態に係るオーディオ装置の構成を示すブロック図である。 本発明の実施形態に係るオーディオ装置の詳細構成を示すブロック図である。 本発明の実施形態に係るオーディオ装置の音声操作受付部が備えるデータを示す図である。 本発明の実施形態に係る音声操作受付処理を示すフローチャートである。 本発明の実施形態に係る音声操作受付処理の処理例を示す図である。 本発明の実施形態に係る音声操作受付処理の処理例を示す図である。
以下、本発明の実施形態について説明する。
図1に、本実施形態に係るオーディオ装置の構成を示す。
ここで、本実施形態に係るオーディオ装置は、たとえば自動車に搭載されるオーディオ装置である。
さて、図示するように、オーディオ装置1は、ユーザによって携帯されるポータブルオーディオプレイヤ2と接続するデバイスインタフェース101、記憶装置102、スピーカ103、マイクロフォン104、スピーカ103への音声出力やマイクロフォン104からの音声の取り込みを行う音声入出力装置105、タッチパネルやリモコンなどの入力装置106、液晶表示装置などの表示装置107、オペレーティングシステム108、オペレーティングシステム108によって管理されたオペレーティングシステム108上で稼働する複数のアプリケーションを備えている。
また、オーディオ装置1は、オペレーティングシステム108上で稼働するアプリケーションとして、オーディオプレイヤ109や、その他のアプリケーション110を備えている。そして、これらのオーディオプレイヤ109やその他のアプリケーション110は、オペレーティングシステム108を介して、デバイスインタフェース101、記憶装置102、音声入出力装置105、入力装置106、表示装置107の機能を利用することができる。
また、オペレーティングシステム108は、音声操作を受け付ける音声操作受付部120を備えている。
但し、オーディオ装置1は、ハードウエア的には、CPUやメモリなどを備えたコンピュータを用いて構成されるものであり、オペレーティングシステム108や音声操作受付部120や各アプリケーションは、当該コンピュータが、所定のコンピュータプログラムを実行することにより実現されるものである。
次に、図2に、オーディオ装置1とポータブルオーディオプレイヤ2において、オーディオ装置1における音声操作の受け付けに関わる構成の詳細を示す。
図示するように、ポータブルオーディオプレイヤ2は、記憶デバイス201、操作部202、スピーカ203、再生出力部204、プレイヤ制御部205、オーディオ装置1と接続するためのホストインタフェース206とを備えている。
ここで、記憶デバイス201には、各々が楽曲のオーディオデータを格納した複数のオーディオファイルと、オーディオファイルにオーディオデータが格納された楽曲のタイトルやアーティストやアルバムやジャンルなどの各種別の楽曲属性の属性値が登録されたミュージックデータベースとが記憶されている。
そして、プレイヤ制御部205は、操作部202の操作に応じて、再生出力部204に、記憶デバイス201に記憶されているオーディオファイルのスピーカ203への再生出力を行わせる。
また、プレイヤ制御部205は、ホストインタフェース206を介してオーディオ装置1に接続されているときには、オーディオ装置1からの制御に従って、ミュージックデータベースに登録されている楽曲属性の属性値のリストをオーディオ装置1に転送したり、オーディオファイルのオーディオデータをオーディオ装置1に転送する処理などを行う。
なお、ポータブルオーディオプレイヤ2のホストインタフェース206と車載装置のデバイスインタフェース101は、Bluetooth(登録商標)や、WIFI、USBなどにより接続し、相互通信を行うものである。
次に、オーディオ装置1のオーディオプレイヤ109は、再生制御部1091と再生処理部1092とを有する。
再生制御部1091は、音声操作受付部120から再生を要求された楽曲のオーディオファイルのオーディオデータをポータブルオーディオプレイヤ2に転送させ、再生処理部1092は、ポータブルオーディオプレイヤ2から転送されたオーディオデータを音声入出力装置105を介してスピーカ103に再生出力する。
次に、オーディオ装置1の音声操作受付部120は、デクテーション辞書121とコマンド音声認識辞書122と楽曲属性値音声認識辞書123との3つの音声認識用の辞書、これら3つの音声認識用の辞書を用いて、マイクロフォン104から音声入出力装置105を介して入力するユーザの発話音声を認識する音声認識処理部124、読込済楽曲属性値範囲テーブル125、音声操作受付部120における音声操作受付動作を制御する音声操作受付制御部126とを備えている。
ここで、デクテーション辞書121は、発話音声をテキストに変換するために用いる音声認識用辞書であり、図3aに示すように、アルファベット認識辞書と、数字記号認識辞書とを有する。
そして、アルファベット認識辞書には、予め、各アルファベットの文字の各々ついて当該文字の発音の音素の特徴を表す音素特徴データが登録されている。
また、数字記号認識辞書には、予め、アルファベットの文字以外の文字である各数字、記号の各々について、当該文字の発音の特徴を表す数字記号音声特徴データが登録されている。
次に、コマンド音声認識辞書122は、発話音声をコマンドに変換するために用いる音声認識用辞書であり、図3bに示すように、予め設定されているコマンドの各々について、当該コマンドの発音の特徴を表すコマンド音声特徴データが予め登録されている。
ここで、本実施形態では、コマンドとして「Play artist」や「Play song」などの、「Play +楽曲属性種別指定」の形式のコマンドを用いる。なお、「artist」は楽曲属性種別としてアーティストを指定し、「song」は楽曲属性種別としてタイトルを指定するものである。
また、本実施形態では、音声操作受付部120において、「Play +楽曲属性種別指定+属性値指定」の発話音声を、楽曲属性種別指定で指定された楽曲属性種別の属性値が、属性値指定で指定された属性値である楽曲の再生操作として受け付ける。
すなわち、たとえば、発話音声が、「Play artist BB」であれば、アーティストが” BB "である各楽曲の再生操作を受け付け、オーディオプレイヤ109の再生制御部1091にアーティストが” BB "である各楽曲の再生を要求する。また、たとえば、発話音声が、「Play song AA」であれば、タイトルが”AA"の楽曲の再生操作を受け付け、オーディオプレイヤ109の再生制御部1091にタイトルが”AA"の楽曲の再生を要求する。
次に、楽曲属性値音声認識辞書123には、楽曲属性の種別毎に対応づけて、複数の属性値と当該属性値の発音の特徴を表す属性値音声特徴データを登録することができる。
そして、読込済楽曲属性値範囲テーブル125には、楽曲属性の種別毎に対応づけて、楽曲属性値音声認識辞書123に登録されている属性値の範囲を登録することができる。
以下、このような構成において、オーディオ装置1の音声操作受付部120の音声操作受付制御部126が行う音声操作受付処理について説明する。
図4に、この音声操作受付処理の手順を示す。
図示するように、音声操作受付処理では、まず、ポータブルオーディオプレイヤ2のオーディ装置への接続の発生を監視する(ステップ402)。
そして、ポータブルオーディオプレイヤ2がオーディオ装置1に接続されたならば、ポータブルオーディオプレイヤ2とオーディオ装置1との接続の解除の発生(ステップ404)と、マイクロフォン104からの音声入力の発生(ステップ406)とを監視する。
そして、ポータブルオーディオプレイヤ2とオーディオ装置1との接続の解除が発生したならば(ステップ404)、楽曲属性値音声認識辞書123と読込済楽曲属性値範囲テーブル125の内容を消去し(ステップ408)、ステップ402の監視に戻る。
一方、マイクロフォン104からの音声入力が発生したならば(ステップ406)、音声入力が終了するまで入力する音声の音声データを保存する(ステップ410)。
そして、音声入力が終了したならば、音声認識処理部124にコマンド音声認識辞書122を用いた、入力音声の先頭部分の音声が表すコマンドの認識を行わせる(ステップ412)。
そして、音声認識処理部124によって認識されたコマンドの楽曲属性種別指定で指定された楽曲属性種別を認識対象属性種別に設定する(ステップ414)。
そして、保存しておいた入力音声の、音声認識処理部124によってコマンドが認識された音声区間に続く音声区間が表す文字列の最初の文字の、デクテーション辞書121を用いた音声認識を音声認識処理部124に行わせる(ステップ416)。
ここで、音声認識処理部124は、コマンドが認識された音声区間に続く音声区間に対して、デクテーション辞書121のアルファベット認識辞書を用いた音声認識と、デクテーション辞書121の数字記号認識辞書を用いた音声認識の双方を行い、音声認識によって得られた最初の文字の候補のうち、最も尤度の大きい候補の文字を上記最初の文字として認識する。なお、尤度は、たとえば、音声認識対象音声の音素特徴データや数字記号音声特徴データとの整合度/類似度によって求める。
そして、音声認識処理部124によって認識された最初の文字を認識対象属性値先頭文字に設定する(ステップ418)。
そして、次に、読込済楽曲属性値範囲テーブル125に、認識対象属性種別に対応づけて、認識対象属性値先頭文字を先頭文字とすることを条件とする属性値の範囲が登録されているかどうかを調べ(ステップ420)、登録済みであれば、ステップ428に進む。
一方、読込済楽曲属性値範囲テーブル125に、認識対象属性種別に対応づけて、認識対象属性値先頭文字を先頭文字とすることを条件とする属性値の範囲が登録されていない場合には(ステップ420)、ポータブルオーディオプレイヤ2より、ミュージックデータベースに登録されている認識対象属性種別の属性値のうち、先頭文字が認識対象属性値先頭文字である属性値のリストを取得する(ステップ422)。
ここで、このリストの取得は、ポータブルオーディオプレイヤ2が備える属性値の通知機能に応じた形態、手順で行う。
たとえば、ポータブルオーディオプレイヤ2のプレイヤ制御部205が指定された楽曲属性種別と属性値の条件に合致する、指定された楽曲属性種別の属性値のリストを提供する機能を備えている場合には、ステップ422では、認識対象属性種別の属性値の先頭文字が認識対象属性値先頭文字と一致することを条件として指定した、認識対象属性種別の属性値のリスト要求をポータブルオーディオプレイヤ2に発行する。そして、このリスト要求を受け取ったポータブルオーディオプレイヤ2のプレイヤ制御部205は、指定された条件にマッチする、指定された楽曲属性種別の属性値をミュージックデータベースより抽出し、抽出した属性値のリストをオーディオ装置1に転送する。
そして、このようにポータブルオーディオプレイヤ2から属性値のリストを取得したならば、リスト中の各属性値の属性値音声特徴データを生成し、リスト中の各属性値を、当該属性値の属性値音声特徴データと共に、楽曲属性値音声認識辞書123に認識対象属性種別に対応づけて登録する(ステップ424)。ここで、属性値の属性値音声特徴データは、たとえば、当該属性値を音素列に変換し、変換した音素列を属性値音声特徴データとすることなどにより生成する。
また、読込済楽曲属性値範囲テーブル125に、認識対象属性種別に対応づけて、認識対象属性値先頭文字を先頭文字とすることを条件とする属性値の範囲を登録する(ステップ426)。そして、ステップ428に進む。
以上のようにしてステップ420またはステップ426からステップ428に進んだならば、保存しておいた入力音声の、音声認識処理部124によってコマンドが認識された音声区間に続く音声区間に対する属性値の音声認識を音声認識処理部124に行わせる。但し、ステップ428では、音声認識処理部124に、楽曲属性値音声認識辞書123の認識対象属性種別に対応づけて登録されている属性値と属性値音声特徴データのうち、属性値の先頭文字が認識対象属性値先頭文字である各属性値と当該属性値の属性値音声特徴データを用いた音声認識を行わせる。
そして、認識対象属性種別の属性値が、ステップ428で認識した属性値である楽曲の再生をオーディオプレイヤ109の再生制御部1091に要求する(ステップ430)。そして、ステップ404、406の監視に戻る
以上、オーディオ装置1の音声操作受付部120の音声操作受付制御部126が行う音声操作受付処理について説明した。
以下、このような音声操作受付処理の処理例を示す。
いま、図5aに示すように、ユーザの発話した入力音声が「Play artist Michael Jack」であった場合、まず、コマンド音声認識辞書122を用いた音声認識が行われ、図5bに示すように、入力音声の先頭の音声区間501からコマンド「Play artist」が認識され、図5cに示すように、コマンド「Play artist」中の楽曲属性種別指定「artist」より認識対象属性種別が「アーティスト」に設定される。
次に、図5dに示すように、コマンド「Play artist」が認識された音声区間501以降の音声区間502に対して、デクテーション辞書121を用いた音声認識が行われ、音声区間502の音声が表す最初の文字「M」が認識される。そして、図5eに示すように、文字「M」が認識対象属性値先頭文字に設定される。
そして、次に、図5fに示すように、楽曲属性種別が認識対象属性種別「アーティスト」である属性値のうち、先頭文字が認識対象属性値先頭文字「M」である範囲の属性値がポータブルオーディオプレイヤ2から取得され、図5gに示すように、取得した属性値の音声認識用のデータが楽曲属性値音声認識辞書123に登録される。
この結果、ポータブルオーディオプレイヤ2のミュージックデータベースに登録されているアーティストリストが図6aに示すように、アルファベット順にアーティストを並べたものである場合には、このアーティストリストに登録されているアーティストのうちの、先頭文字が「M」であるアーティストの範囲のみについて、各アーティストの音声認識用のデータが楽曲属性値音声認識辞書123に登録されることとなる。
図5に戻り、次に、楽曲属性値音声認識辞書123の図5gで登録した音声認識用のデータを用いて音声区間502の音声認識が図5hに示すように行われると、この時点において、図6bに示すように属性値「Michael Jack」の音声認識用のデータが楽曲属性値音声認識辞書123に既に登録されているので、属性値「Michael Jack」が正しく認識されることとなる。
次に、以上で、ユーザの発話音声全体の音声認識が完了したので、図5iに示すように、認識したコマンド「Play artist」、認識した「Michael Jack」に基づいて、「アーティスト」が「Michael Jack」である楽曲の再生の要求がオーディオプレイヤ109の再生制御部1091に発行される。
以上、本発明の実施形態について説明した。
以上のように、本実施形態によれば、ポータブルオーディオプレイヤ2に記憶されている複数の楽曲の属性値のうち、ユーザの楽曲の属性値を指定する発話音声が表す最初の文字を先頭文字として有する属性値のみを、ポータブルオーディオプレイヤ2から取得し、取得した属性値を音声認識するためのデータを楽曲属性値音声認識辞書123に登録した上で、当該楽曲属性値音声認識辞書123を用いて、ユーザが発話した属性値を音声認識する。
よって、ポータブルオーディオプレイヤ2に記憶されている複数の楽曲の属性値の全てをポータブルオーディオプレイヤ2から取得する場合に比べ、取得する属性値の数が少なくなり、結果、よりすみやかに属性値の音声認識、及び、属性値の指定を伴う音声操作の受け付けを行えるようになると共に、ポータブルオーディオプレイヤ2の属性値のオーディオ装置1への転送処理による負荷の集中も抑制することができる。
また、一般的に、ひとまとまりの音声区間が表す文字列の最初の文字のデクテーション辞書121を用いた認識は、先行する音声の影響を受けないために精度良く行うことができる。よって、このようにデクテーション辞書121を用いて認識した最初の文字を先頭文字として有する属性値のみを音声認識するためのデータを楽曲属性値音声認識辞書123に登録して音声認識を行っても、属性値の音声認識を良好に行うことができる。
ところで、以上の実施形態では、音声操作受付処理のステップ416でコマンドが認識された音声区間に続く音声区間が表す文字列の最初の文字として一つの文字のみを認識し、ステップ418で認識した文字を認識対象属性値先頭文字に設定したが、これはステップ416でコマンドが認識された音声区間に続く音声区間に対して、デクテーション辞書121のアルファベット認識辞書を用いた音声認識と、デクテーション辞書121の数字記号認識辞書を用いた音声認識の双方を行って得られた最初の文字の候補のうち上述した尤度が所定レベル以上大きな候補の全て、もしくは、尤度が所定レベル以上大きな候補のうちの尤度が上位の所定数の候補を、それぞれ認識対象属性値先頭文字に設定し、設定した各認識対象属性値先頭文字についてステップ420からステップ428の処理を行うようにしてもよい。
すなわち、たとえば、図6の入力音声の音声区間502に対するデクテーション辞書121を用いた音声認識によって、音声区間502の最初の文字の候補として”M”と”N”が尤度が上位の文字として得られたならば、図6aに示すポータブルオーディオプレイヤ2のミュージックデータベースのアーティストリストの先頭文字が「M」であるアーティストの範囲と先頭文字が「N」であるアーティストの範囲の双方について、アーティストのリストを取得し、取得した各アーティストの音声認識用のデータ楽曲属性値音声認識辞書123に登録し、当該登録を行った楽曲属性値音声認識辞書123を用いて、入力音声の音声区間502が表すアーティストの音声認識を行うようにしてもよい。
また、以上の実施形態は、ポータブルオーディオプレイヤ2に代えて、オーディオファイルを記憶した装置であって、所望の先頭文字の条件を満たす範囲の属性値を取得できる装置を用いる場合にも同様に適用することができる。
また、以上の実施形態は、オーディオをビデオに置換して適用することにより、外部の装置に記憶されたビデオファイルを再生するビデオ再生装置にも同様に適用することができる。
1…オーディオ装置、2…ポータブルオーディオプレイヤ、101…デバイスインタフェース、102…記憶装置、103…スピーカ、104…マイクロフォン、105…音声入出力装置、106…入力装置、107…表示装置、108…オペレーティングシステム、109…オーディオプレイヤ、120…音声操作受付部、121…デクテーション辞書、122…コマンド音声認識辞書、123…楽曲属性値音声認識辞書、124…音声認識処理部、125…読込済楽曲属性値範囲テーブル、126…音声操作受付制御部、201…記憶デバイス、202…操作部、204…再生出力部、205…プレイヤ制御部、206…ホストインタフェース、1091…再生制御部、1092…再生処理部。

Claims (19)

  1. 文字列により表された属性値が設定されている複数の楽曲を記憶した外部装置が接続されているときに、当該接続された外部装置に記憶されている楽曲の属性値のユーザの発話音声による指定を受け付けるオーディオ装置であって、
    ユーザの楽曲の属性値を指定する発話音声である属性値指定音声が表す、当該属性値の先頭の文字を認識し、認識した文字を先頭文字候補に設定する先頭文字認識部と、
    前記外部装置に記憶されている各楽曲の属性値のうち、前記先頭文字認識部が設定した前記先頭文字候補を先頭文字として有する属性値を前記外部装置から取得する楽曲属性値取得部と、
    前記楽曲属性値取得部が取得した各属性値を音声認識するための音声認識辞書データを生成する音声認識辞書生成部と、
    前記先頭文字候補を先頭文字として有する属性値を音声認識するための前記音声認識辞書データを用いて、前記属性値指定音声の音声認識処理を行って、当該属性値指定音声が表す属性値を認識し、認識した属性値を、ユーザが発話音声により指定した属性値として受け付ける属性値認識部とを有することを特徴とするオーディオ装置。
  2. 請求項1記載のオーディオ装置であって、
    前記楽曲属性値取得部は、前記外部装置に記憶されている各楽曲の属性値のうち、前記先頭文字候補を先頭文字として有する属性値を音声認識するための音声認識辞書データが既に生成されている場合には、前記属性値の前記外部装置からの取得は行わないことを特徴とするオーディオ装置。
  3. 請求項1記載のオーディオ装置であって、
    前記先頭文字認識部は、属性値指定音声が表す前記属性値の先頭の文字として確からしい文字が複数存在する場合には、当該複数の文字の各々を、前記先頭文字候補として設定し、
    前記楽曲属性値取得部は、前記複数の先頭文字候補の各々について、外部装置に記憶されている各楽曲の属性値のうち、当該先頭文字候補を先頭文字として有する属性値を前記外部装置から取得することを特徴とするオーディオ装置。
  4. 請求項3記載のオーディオ装置であって、
    前記楽曲属性値取得部は、前記先頭文字候補のうち、当該先頭文字候補を先頭文字として有する属性値を音声認識するための音声認識辞書データが既に生成されている前記先頭文字候補については、当該先頭文字候補を先頭文字として有する属性値の前記外部装置からの取得は行わないことを特徴とするオーディオ装置。
  5. 請求項1、2、3または4記載のオーディオ装置であって、
    前記外部装置に記憶されている楽曲のうちの、前記属性値認識部が受け付けたユーザが発話音声により指定した属性値を有する楽曲を再生する楽曲再生部を有することを特徴とするオーディオ装置。
  6. 請求項1、2、3、4または5記載のオーディオ装置であって、
    前記属性値は、楽曲のタイトル、楽曲のアルバム、楽曲のアーティスト、楽曲のジャンルのいずれかを表すものであることを特徴とするオーディオ装置。
  7. 請求項1、2、3または4記載のオーディオ装置であって、
    前記外部装置に記憶された楽曲には、複数の属性種別について、文字列により表された属性値が設定されており、
    当該オーディオ装置は、
    ユーザの属性種別を指定する発話音声である属性種別指定音声を音声認識して、音声認識したが属性種別を対象属性種別として設定する属性種別認識部を有し、
    前記楽曲属性値取得部は、前記外部装置に記憶されている各楽曲の前記対象属性種別の属性値のうち、前記先頭文字認識部が設定した前記先頭文字候補を先頭文字として有する属性値を前記外部装置から取得することを特徴とするオーディオ装置。
  8. 請求項7記載のオーディオ装置であって、
    前記複数の属性種別は、楽曲のタイトルを属性値とする属性種別と、楽曲のアルバムを属性値とする属性種別と、楽曲のアーティストを属性値とする属性種別と、楽曲のジャンルを属性値とする属性種別とのうちの少なくとも二つの属性種別を含んでいることを特徴とするオーディオ装置。
  9. 請求項7または8記載のオーディオ装置であって、
    前記外部装置に記憶されている楽曲のうちの、前記対象属性種別の属性値として、前記属性値認識部が受け付けたユーザが発話音声により指定した属性値を有する楽曲を再生する楽曲再生部を有することを特徴とするオーディオ装置。
  10. 請求項1、2、3、4、5、6、7、8または9記載のオーディオ装置であって、
    前記外部装置は、ポータブルオーディオプレイヤであることを特徴とするオーディオ装置。
  11. 請求項1、2、3、4、5、6、7、8、9または10記載のオーディオ装置であって、
    当該オーディオ装置は、自動車に搭載された車載オーディオ装置であることを特徴とするオーディオ装置。
  12. 文字列により表された属性値が設定されている複数のビデオコンテンツを記憶した外部装置が接続されているときに、当該接続された外部装置に記憶されているビデオコンテンツの属性値のユーザの発話音声による指定を受け付けるビデオコンテンツを操作するビデオ装置であって、
    ユーザのビデオコンテンツの属性値を指定する発話音声である属性値指定音声が表す、当該属性値の先頭の文字を認識し、認識した文字を先頭文字候補に設定する先頭文字認識部と、
    前記外部装置に記憶されている各ビデオコンテンツの属性値のうち、前記先頭文字認識部が設定した前記先頭文字候補を先頭文字として有する属性値を前記外部装置から取得するビデオコンテンツ属性値取得部と、
    前記ビデオコンテンツ属性値取得部が取得した各属性値を音声認識するための音声認識辞書データを生成する音声認識辞書生成部と、
    前記先頭文字候補を先頭文字として有する属性値を音声認識するための前記音声認識辞書データを用いて、前記属性値指定音声の音声認識処理を行って、当該属性値指定音声が表す属性値を認識し、認識した属性値を、ユーザが発話音声により指定した属性値として受け付ける属性値認識部とを有することを特徴とするビデオ装置。
  13. 文字列により表された属性値が設定されている複数の楽曲を記憶した外部装置が接続されるコンピュータによって読み取られ実行されるコンピュータプログラムであって、
    前記コンピュータを、
    ユーザの楽曲の属性値を指定する発話音声である属性値指定音声が表す、当該属性値の先頭の文字を認識し、認識した文字を先頭文字候補に設定する先頭文字認識部と、
    前記外部装置に記憶されている各楽曲の属性値のうち、前記先頭文字認識部が設定した前記先頭文字候補を先頭文字として有する属性値を前記外部装置から取得する楽曲属性値取得部と、
    前記楽曲属性値取得部が取得した各属性値を音声認識するための音声認識辞書データを生成する音声認識辞書生成部と、
    前記先頭文字候補を先頭文字として有する属性値を音声認識するための前記音声認識辞書データを用いて、前記属性値指定音声の音声認識処理を行って、当該属性値指定音声が表す属性値を認識し、認識した属性値を、ユーザが発話音声により指定した属性値として受け付ける属性値認識部として機能させることを特徴とするコンピュータプログラム。
  14. 請求項13記載のコンピュータプログラムであって、
    前記先頭文字認識部は、属性値指定音声が表す前記属性値の先頭の文字として確からしい文字が複数存在する場合には、当該複数の文字の各々を、前記先頭文字候補として設定し、
    前記楽曲属性値取得部は、前記複数の先頭文字候補の各々について、外部装置に記憶されている各楽曲の属性値のうち、当該先頭文字候補を先頭文字として有する属性値を前記外部装置から取得することを特徴とするコンピュータプログラム。
  15. 請求項13または14記載のコンピュータプログラムであって、
    前記コンピュータを、さらに、前記外部装置に記憶されている楽曲のうちの、前記属性値認識部が受け付けたユーザが発話音声により指定した属性値を有する楽曲を再生する楽曲再生部として機能させることを特徴とするコンピュータプログラム。
  16. 請求項13、14または15記載のコンピュータプログラムであって、
    前記属性値は、楽曲のタイトル、楽曲のアルバム、楽曲のアーティスト、楽曲のジャンルのいずれかを表すものであることを特徴とするコンピュータプログラム。
  17. 請求項13または14記載のコンピュータプログラムであって、
    前記外部装置に記憶された楽曲には、複数の属性種別について、文字列により表された属性値が設定されており、
    当該コンピュータプログラムは、前記コンピュータを、さらに、ユーザの属性種別を指定する発話音声である属性種別指定音声を音声認識して、音声認識したが属性種別を対象属性種別として設定する属性種別認識部として機能させ、
    前記楽曲属性値取得部は、前記外部装置に記憶されている各楽曲の前記対象属性種別の属性値のうち、前記先頭文字認識部が設定した前記先頭文字候補を先頭文字として有する属性値を前記外部装置から取得することを特徴とするコンピュータプログラム。
  18. 請求項17記載のコンピュータプログラムであって、
    前記複数の属性種別は、楽曲のタイトルを属性値とする属性種別と、楽曲のアルバムを属性値とする属性種別と、楽曲のアーティストを属性値とする属性種別と、楽曲のジャンルを属性値とする属性種別とのうちの少なくとも二つの属性種別を含んでいることを特徴とするコンピュータプログラム。
  19. 請求項17または18記載のコンピュータプログラムであって、
    前記コンピュータを、さらに、前記外部装置に記憶されている楽曲のうちの、前記対象属性種別の属性値として、前記属性値認識部が受け付けたユーザが発話音声により指定した属性値を有する楽曲を再生する楽曲再生部として機能させることを特徴とするコンピュータプログラム。
JP2013099889A 2013-05-10 2013-05-10 オーディオ装置、ビデオ装置及びコンピュータプログラム Pending JP2014219614A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013099889A JP2014219614A (ja) 2013-05-10 2013-05-10 オーディオ装置、ビデオ装置及びコンピュータプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013099889A JP2014219614A (ja) 2013-05-10 2013-05-10 オーディオ装置、ビデオ装置及びコンピュータプログラム

Publications (1)

Publication Number Publication Date
JP2014219614A true JP2014219614A (ja) 2014-11-20

Family

ID=51938068

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013099889A Pending JP2014219614A (ja) 2013-05-10 2013-05-10 オーディオ装置、ビデオ装置及びコンピュータプログラム

Country Status (1)

Country Link
JP (1) JP2014219614A (ja)

Cited By (60)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018179506A1 (ja) 2017-03-28 2018-10-04 株式会社ディーアンドエムホールディングス オーディオ装置およびコンピュータで読み取り可能なプログラム
WO2019035235A1 (ja) * 2017-08-14 2019-02-21 株式会社ディーアンドエムホールディングス オーディオ装置およびコンピュータで読み取り可能なプログラム
JP2019204517A (ja) * 2016-06-10 2019-11-28 アップル インコーポレイテッドApple Inc. マルチタスキング環境におけるインテリジェントデジタルアシスタント
US10878809B2 (en) 2014-05-30 2020-12-29 Apple Inc. Multi-command single utterance input method
US10978090B2 (en) 2013-02-07 2021-04-13 Apple Inc. Voice trigger for a digital assistant
US10984798B2 (en) 2018-06-01 2021-04-20 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
US11009970B2 (en) 2018-06-01 2021-05-18 Apple Inc. Attention aware virtual assistant dismissal
US11070949B2 (en) 2015-05-27 2021-07-20 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on an electronic device with a touch-sensitive display
US11087759B2 (en) 2015-03-08 2021-08-10 Apple Inc. Virtual assistant activation
US11120372B2 (en) 2011-06-03 2021-09-14 Apple Inc. Performing actions associated with task items that represent tasks to perform
US11126400B2 (en) 2015-09-08 2021-09-21 Apple Inc. Zero latency digital assistant
US11133008B2 (en) 2014-05-30 2021-09-28 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
US11152002B2 (en) 2016-06-11 2021-10-19 Apple Inc. Application integration with a digital assistant
US11169616B2 (en) 2018-05-07 2021-11-09 Apple Inc. Raise to speak
US11217251B2 (en) 2019-05-06 2022-01-04 Apple Inc. Spoken notifications
US11237797B2 (en) 2019-05-31 2022-02-01 Apple Inc. User activity shortcut suggestions
US11257504B2 (en) 2014-05-30 2022-02-22 Apple Inc. Intelligent assistant for home automation
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
US11321116B2 (en) 2012-05-15 2022-05-03 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US11348582B2 (en) 2008-10-02 2022-05-31 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US11380310B2 (en) 2017-05-12 2022-07-05 Apple Inc. Low-latency intelligent automated assistant
US11388291B2 (en) 2013-03-14 2022-07-12 Apple Inc. System and method for processing voicemail
US11405466B2 (en) 2017-05-12 2022-08-02 Apple Inc. Synchronization and task delegation of a digital assistant
US11423886B2 (en) 2010-01-18 2022-08-23 Apple Inc. Task flow identification based on user intent
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
US11431642B2 (en) 2018-06-01 2022-08-30 Apple Inc. Variable latency device coordination
US11468282B2 (en) 2015-05-15 2022-10-11 Apple Inc. Virtual assistant in a communication session
US11467802B2 (en) 2017-05-11 2022-10-11 Apple Inc. Maintaining privacy of personal information
US11488406B2 (en) 2019-09-25 2022-11-01 Apple Inc. Text detection using global geometry estimators
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
US11500672B2 (en) 2015-09-08 2022-11-15 Apple Inc. Distributed personal assistant
US11516537B2 (en) 2014-06-30 2022-11-29 Apple Inc. Intelligent automated assistant for TV user interactions
US11526368B2 (en) 2015-11-06 2022-12-13 Apple Inc. Intelligent automated assistant in a messaging environment
US11532306B2 (en) 2017-05-16 2022-12-20 Apple Inc. Detecting a trigger of a digital assistant
US11580990B2 (en) 2017-05-12 2023-02-14 Apple Inc. User-specific acoustic models
US11599331B2 (en) 2017-05-11 2023-03-07 Apple Inc. Maintaining privacy of personal information
US11656884B2 (en) 2017-01-09 2023-05-23 Apple Inc. Application integration with a digital assistant
US11657813B2 (en) 2019-05-31 2023-05-23 Apple Inc. Voice identification in digital assistant systems
US11671920B2 (en) 2007-04-03 2023-06-06 Apple Inc. Method and system for operating a multifunction portable electronic device using voice-activation
US11675491B2 (en) 2019-05-06 2023-06-13 Apple Inc. User configurable task triggers
US11675829B2 (en) 2017-05-16 2023-06-13 Apple Inc. Intelligent automated assistant for media exploration
US11696060B2 (en) 2020-07-21 2023-07-04 Apple Inc. User identification using headphones
US11710482B2 (en) 2018-03-26 2023-07-25 Apple Inc. Natural assistant interaction
US11727219B2 (en) 2013-06-09 2023-08-15 Apple Inc. System and method for inferring user intent from speech inputs
US11755276B2 (en) 2020-05-12 2023-09-12 Apple Inc. Reducing description length based on confidence
US11765209B2 (en) 2020-05-11 2023-09-19 Apple Inc. Digital assistant hardware abstraction
US11783815B2 (en) 2019-03-18 2023-10-10 Apple Inc. Multimodality in digital assistant systems
US11790914B2 (en) 2019-06-01 2023-10-17 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
US11798547B2 (en) 2013-03-15 2023-10-24 Apple Inc. Voice activated device for use with a voice-based digital assistant
US11809483B2 (en) 2015-09-08 2023-11-07 Apple Inc. Intelligent automated assistant for media search and playback
US11809783B2 (en) 2016-06-11 2023-11-07 Apple Inc. Intelligent device arbitration and control
US11838734B2 (en) 2020-07-20 2023-12-05 Apple Inc. Multi-device audio adjustment coordination
US11853647B2 (en) 2015-12-23 2023-12-26 Apple Inc. Proactive assistance based on dialog communication between devices
US11854539B2 (en) 2018-05-07 2023-12-26 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US11853536B2 (en) 2015-09-08 2023-12-26 Apple Inc. Intelligent automated assistant in a media environment
US11886805B2 (en) 2015-11-09 2024-01-30 Apple Inc. Unconventional virtual assistant interactions
US11893992B2 (en) 2018-09-28 2024-02-06 Apple Inc. Multi-modal inputs for voice commands
US11914848B2 (en) 2020-05-11 2024-02-27 Apple Inc. Providing relevant data items based on context
US11947873B2 (en) 2015-06-29 2024-04-02 Apple Inc. Virtual assistant for media playback

Cited By (94)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11979836B2 (en) 2007-04-03 2024-05-07 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US11671920B2 (en) 2007-04-03 2023-06-06 Apple Inc. Method and system for operating a multifunction portable electronic device using voice-activation
US11348582B2 (en) 2008-10-02 2022-05-31 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US11900936B2 (en) 2008-10-02 2024-02-13 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US11423886B2 (en) 2010-01-18 2022-08-23 Apple Inc. Task flow identification based on user intent
US11120372B2 (en) 2011-06-03 2021-09-14 Apple Inc. Performing actions associated with task items that represent tasks to perform
US11321116B2 (en) 2012-05-15 2022-05-03 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US11636869B2 (en) 2013-02-07 2023-04-25 Apple Inc. Voice trigger for a digital assistant
US11557310B2 (en) 2013-02-07 2023-01-17 Apple Inc. Voice trigger for a digital assistant
US11862186B2 (en) 2013-02-07 2024-01-02 Apple Inc. Voice trigger for a digital assistant
US10978090B2 (en) 2013-02-07 2021-04-13 Apple Inc. Voice trigger for a digital assistant
US11388291B2 (en) 2013-03-14 2022-07-12 Apple Inc. System and method for processing voicemail
US11798547B2 (en) 2013-03-15 2023-10-24 Apple Inc. Voice activated device for use with a voice-based digital assistant
US11727219B2 (en) 2013-06-09 2023-08-15 Apple Inc. System and method for inferring user intent from speech inputs
US11699448B2 (en) 2014-05-30 2023-07-11 Apple Inc. Intelligent assistant for home automation
US11257504B2 (en) 2014-05-30 2022-02-22 Apple Inc. Intelligent assistant for home automation
US11133008B2 (en) 2014-05-30 2021-09-28 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US11810562B2 (en) 2014-05-30 2023-11-07 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US10878809B2 (en) 2014-05-30 2020-12-29 Apple Inc. Multi-command single utterance input method
US11670289B2 (en) 2014-05-30 2023-06-06 Apple Inc. Multi-command single utterance input method
US11516537B2 (en) 2014-06-30 2022-11-29 Apple Inc. Intelligent automated assistant for TV user interactions
US11838579B2 (en) 2014-06-30 2023-12-05 Apple Inc. Intelligent automated assistant for TV user interactions
US11087759B2 (en) 2015-03-08 2021-08-10 Apple Inc. Virtual assistant activation
US11842734B2 (en) 2015-03-08 2023-12-12 Apple Inc. Virtual assistant activation
US11468282B2 (en) 2015-05-15 2022-10-11 Apple Inc. Virtual assistant in a communication session
US11070949B2 (en) 2015-05-27 2021-07-20 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on an electronic device with a touch-sensitive display
US11947873B2 (en) 2015-06-29 2024-04-02 Apple Inc. Virtual assistant for media playback
US11853536B2 (en) 2015-09-08 2023-12-26 Apple Inc. Intelligent automated assistant in a media environment
US11809483B2 (en) 2015-09-08 2023-11-07 Apple Inc. Intelligent automated assistant for media search and playback
US11550542B2 (en) 2015-09-08 2023-01-10 Apple Inc. Zero latency digital assistant
US11126400B2 (en) 2015-09-08 2021-09-21 Apple Inc. Zero latency digital assistant
US11500672B2 (en) 2015-09-08 2022-11-15 Apple Inc. Distributed personal assistant
US11954405B2 (en) 2015-09-08 2024-04-09 Apple Inc. Zero latency digital assistant
US11809886B2 (en) 2015-11-06 2023-11-07 Apple Inc. Intelligent automated assistant in a messaging environment
US11526368B2 (en) 2015-11-06 2022-12-13 Apple Inc. Intelligent automated assistant in a messaging environment
US11886805B2 (en) 2015-11-09 2024-01-30 Apple Inc. Unconventional virtual assistant interactions
US11853647B2 (en) 2015-12-23 2023-12-26 Apple Inc. Proactive assistance based on dialog communication between devices
US10839804B2 (en) 2016-06-10 2020-11-17 Apple Inc. Intelligent digital assistant in a multi-tasking environment
JP2019204517A (ja) * 2016-06-10 2019-11-28 アップル インコーポレイテッドApple Inc. マルチタスキング環境におけるインテリジェントデジタルアシスタント
US11037565B2 (en) 2016-06-10 2021-06-15 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10733993B2 (en) 2016-06-10 2020-08-04 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US11657820B2 (en) 2016-06-10 2023-05-23 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US11809783B2 (en) 2016-06-11 2023-11-07 Apple Inc. Intelligent device arbitration and control
US11152002B2 (en) 2016-06-11 2021-10-19 Apple Inc. Application integration with a digital assistant
US11749275B2 (en) 2016-06-11 2023-09-05 Apple Inc. Application integration with a digital assistant
US11656884B2 (en) 2017-01-09 2023-05-23 Apple Inc. Application integration with a digital assistant
WO2018179506A1 (ja) 2017-03-28 2018-10-04 株式会社ディーアンドエムホールディングス オーディオ装置およびコンピュータで読み取り可能なプログラム
US11467802B2 (en) 2017-05-11 2022-10-11 Apple Inc. Maintaining privacy of personal information
US11599331B2 (en) 2017-05-11 2023-03-07 Apple Inc. Maintaining privacy of personal information
US11837237B2 (en) 2017-05-12 2023-12-05 Apple Inc. User-specific acoustic models
US11538469B2 (en) 2017-05-12 2022-12-27 Apple Inc. Low-latency intelligent automated assistant
US11380310B2 (en) 2017-05-12 2022-07-05 Apple Inc. Low-latency intelligent automated assistant
US11405466B2 (en) 2017-05-12 2022-08-02 Apple Inc. Synchronization and task delegation of a digital assistant
US11580990B2 (en) 2017-05-12 2023-02-14 Apple Inc. User-specific acoustic models
US11862151B2 (en) 2017-05-12 2024-01-02 Apple Inc. Low-latency intelligent automated assistant
US11532306B2 (en) 2017-05-16 2022-12-20 Apple Inc. Detecting a trigger of a digital assistant
US11675829B2 (en) 2017-05-16 2023-06-13 Apple Inc. Intelligent automated assistant for media exploration
US11315561B2 (en) 2017-08-14 2022-04-26 D&M Holdings, Inc. Audio device and computer readable program
JP2019036103A (ja) * 2017-08-14 2019-03-07 株式会社ディーアンドエムホールディングス オーディオ装置およびコンピュータで読み取り可能なプログラム
WO2019035235A1 (ja) * 2017-08-14 2019-02-21 株式会社ディーアンドエムホールディングス オーディオ装置およびコンピュータで読み取り可能なプログラム
US11710482B2 (en) 2018-03-26 2023-07-25 Apple Inc. Natural assistant interaction
US11487364B2 (en) 2018-05-07 2022-11-01 Apple Inc. Raise to speak
US11169616B2 (en) 2018-05-07 2021-11-09 Apple Inc. Raise to speak
US11907436B2 (en) 2018-05-07 2024-02-20 Apple Inc. Raise to speak
US11900923B2 (en) 2018-05-07 2024-02-13 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US11854539B2 (en) 2018-05-07 2023-12-26 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US11009970B2 (en) 2018-06-01 2021-05-18 Apple Inc. Attention aware virtual assistant dismissal
US11360577B2 (en) 2018-06-01 2022-06-14 Apple Inc. Attention aware virtual assistant dismissal
US11630525B2 (en) 2018-06-01 2023-04-18 Apple Inc. Attention aware virtual assistant dismissal
US10984798B2 (en) 2018-06-01 2021-04-20 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
US11431642B2 (en) 2018-06-01 2022-08-30 Apple Inc. Variable latency device coordination
US11893992B2 (en) 2018-09-28 2024-02-06 Apple Inc. Multi-modal inputs for voice commands
US11783815B2 (en) 2019-03-18 2023-10-10 Apple Inc. Multimodality in digital assistant systems
US11675491B2 (en) 2019-05-06 2023-06-13 Apple Inc. User configurable task triggers
US11705130B2 (en) 2019-05-06 2023-07-18 Apple Inc. Spoken notifications
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
US11217251B2 (en) 2019-05-06 2022-01-04 Apple Inc. Spoken notifications
US11888791B2 (en) 2019-05-21 2024-01-30 Apple Inc. Providing message response suggestions
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
US11237797B2 (en) 2019-05-31 2022-02-01 Apple Inc. User activity shortcut suggestions
US11657813B2 (en) 2019-05-31 2023-05-23 Apple Inc. Voice identification in digital assistant systems
US11360739B2 (en) 2019-05-31 2022-06-14 Apple Inc. User activity shortcut suggestions
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
US11790914B2 (en) 2019-06-01 2023-10-17 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
US11488406B2 (en) 2019-09-25 2022-11-01 Apple Inc. Text detection using global geometry estimators
US11924254B2 (en) 2020-05-11 2024-03-05 Apple Inc. Digital assistant hardware abstraction
US11765209B2 (en) 2020-05-11 2023-09-19 Apple Inc. Digital assistant hardware abstraction
US11914848B2 (en) 2020-05-11 2024-02-27 Apple Inc. Providing relevant data items based on context
US11755276B2 (en) 2020-05-12 2023-09-12 Apple Inc. Reducing description length based on confidence
US11838734B2 (en) 2020-07-20 2023-12-05 Apple Inc. Multi-device audio adjustment coordination
US11750962B2 (en) 2020-07-21 2023-09-05 Apple Inc. User identification using headphones
US11696060B2 (en) 2020-07-21 2023-07-04 Apple Inc. User identification using headphones

Similar Documents

Publication Publication Date Title
JP2014219614A (ja) オーディオ装置、ビデオ装置及びコンピュータプログラム
CN107516511B (zh) 意图识别和情绪的文本到语音学习系统
KR100735820B1 (ko) 휴대 단말기에서 음성 인식에 의한 멀티미디어 데이터 검색방법 및 그 장치
EP1693829B1 (en) Voice-controlled data system
KR20080043358A (ko) 재생 디바이스의 동작을 제어하는 방법 및 시스템
JP6128146B2 (ja) 音声検索装置、音声検索方法及びプログラム
CN108885869B (zh) 控制包含语音的音频数据的回放的方法、计算设备和介质
US11501764B2 (en) Apparatus for media entity pronunciation using deep learning
KR20080000203A (ko) 음성인식을 이용한 음악 파일 검색 방법
US20190204998A1 (en) Audio book positioning
WO2011121649A1 (ja) 音声認識装置
CN103123644A (zh) 声音数据检索系统及用于该系统的程序
US11967248B2 (en) Conversation-based foreign language learning method using reciprocal speech transmission through speech recognition function and TTS function of terminal
US20210064327A1 (en) Audio highlighter
KR102036721B1 (ko) 녹음 음성에 대한 빠른 검색을 지원하는 단말 장치 및 그 동작 방법
US20100222905A1 (en) Electronic apparatus with an interactive audio file recording function and method thereof
JP2013050742A (ja) 音声認識装置および音声認識方法
JP2012003090A (ja) 音声認識装置および音声認識方法
JP5693834B2 (ja) 音声認識装置及び音声認識方法
KR20220022822A (ko) 단말기의 음성인식 기능과 tts 기능을 이용한 한국어 학습방법
EP2058799B1 (en) Method for preparing data for speech recognition and speech recognition system
KR101576683B1 (ko) 히스토리 저장모듈을 포함하는 오디오 재생장치 및 재생방법
JP6587459B2 (ja) カラオケイントロにおける曲紹介システム
JP2011150169A (ja) 音声認識装置
KR102217621B1 (ko) 사용자 발화의 오류를 교정하는 방법 및 장치