JP2007213060A - オーディオファイルをスピーチ駆動の選択するシステムおよび方法 - Google Patents

オーディオファイルをスピーチ駆動の選択するシステムおよび方法 Download PDF

Info

Publication number
JP2007213060A
JP2007213060A JP2007019871A JP2007019871A JP2007213060A JP 2007213060 A JP2007213060 A JP 2007213060A JP 2007019871 A JP2007019871 A JP 2007019871A JP 2007019871 A JP2007019871 A JP 2007019871A JP 2007213060 A JP2007213060 A JP 2007213060A
Authority
JP
Japan
Prior art keywords
refrain
speech
audio
audio file
transcript
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2007019871A
Other languages
English (en)
Other versions
JP5193473B2 (ja
Inventor
Franz S Gerl
エス. ゲール フランツ
Daniel Willett
ウィレット ダニエル
Raymond Brueckner
ブリュエクナー レイモンド
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harman Becker Automotive Systems GmbH
Original Assignee
Harman Becker Automotive Systems GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harman Becker Automotive Systems GmbH filed Critical Harman Becker Automotive Systems GmbH
Publication of JP2007213060A publication Critical patent/JP2007213060A/ja
Application granted granted Critical
Publication of JP5193473B2 publication Critical patent/JP5193473B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/0008Associated control or indicating means
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/87Detection of discrete points within a voice signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/046Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for differentiation between music and non-music signals, based on the identification of musical parameters, e.g. based on tempo detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/066Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for pitch analysis as part of wider processing for musical purposes, e.g. transcription, musical performance evaluation; Pitch recognition, e.g. in polyphonic sounds; Estimation or use of missing fundamental
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/076Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for extraction of timing, tempo; Beat detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/081Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for automatic key or tonality recognition, e.g. using musical rules or a knowledge base
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2240/00Data organisation or data communication aspects, specifically adapted for electrophonic musical tools or instruments
    • G10H2240/121Musical libraries, i.e. musical databases indexed by musical parameters, wavetables, indexing schemes using musical parameters, musical rule bases or knowledge bases, e.g. for automatic composing methods
    • G10H2240/131Library retrieval, i.e. searching a database or selecting a specific musical piece, segment, pattern, rule or parameter set
    • G10H2240/135Library retrieval index, i.e. using an indexing scheme to efficiently retrieve a music piece
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2240/00Data organisation or data communication aspects, specifically adapted for electrophonic musical tools or instruments
    • G10H2240/121Musical libraries, i.e. musical databases indexed by musical parameters, wavetables, indexing schemes using musical parameters, musical rule bases or knowledge bases, e.g. for automatic composing methods
    • G10H2240/131Library retrieval, i.e. searching a database or selecting a specific musical piece, segment, pattern, rule or parameter set
    • G10H2240/141Library retrieval matching, i.e. any of the steps of matching an inputted segment or phrase with musical database contents, e.g. query by humming, singing or playing; the steps may include, e.g. musical analysis of the input, musical feature extraction, query formulation, or details of the retrieval process

Abstract

【課題】オーディオファイルにおけるリフレインを検出するための方法を提供すること。
【解決手段】本発明は、発声構成要素を含んでいるオーディオファイルにおけるリフレインを、オーディオファイルの主要部分の音声転写を生成するステップと、音声転写を分析し、頻繁に繰り返される生成された音声転写における発声セグメントを識別するステップであって、識別された頻繁に繰り返された発声セグメントはリフレインを表す、ステップとを用いて検出する方法に関する。更に、本発明は、検出されたリフレインおよびユーザ入力の類似性に基づいたスピーチ駆動の選択に関する。
【選択図】図1

Description

本発明は、オーディオファイルにおけるリフレインを検出する方法、オーディオファイルを処理する方法、オーディオファイルをスピーチ駆動の選択する方法、およびそれぞれのシステムに関する。
本発明は、CD、ハードディスク等のストレージ媒体に格納されるオーディオデータまたはオーディオファイルが提供される車両において特に適用を見出す。
運転中に運転手は彼の周りの交通状況を注意深くみるべきであり、従って、カーオーディオシステムから、同時に車両の運転手であるシステムのユーザへのビジュアルインターフェースは不利である。従って、車両に組み入れられるデバイスのスピーチ制御動作は、より関心をそそるものになっている。
オーディオアーカイブが急速に増え、かつ触覚インターフェースが長いリストからの選択に対しては使用するのが結果的に困難になっている一方、車における安全局面以外に、オーディオアーカイブへのスピーチ駆動のアクセスは、携帯またはホームオーディオプレーヤに対しても問題になっている。
近頃、Apple社からのiTunesのような集中商用データベースを通じて利用可能なオーディオまたはビデオファイルのようなメディアファイルの使用は、大変よく知られている。更に、これらのオーディオまたはビデオファイルのデジタルに格納されるデータとしての使用は、異なる圧縮技術を用いてコンパクトな方法においてこれらのデータファイルの格納を可能にするシステムが開発されたという事実によって、大いに広まった現象になった。更に、コンパクトディスクまたは他のストレージ媒体に以前に提供された音楽データをコピーすることは、近年において可能になった。
時々、これらのデジタルに格納されるオーディオファイルは、タグに格納され得るメタデータを含む。オーディオファイルのボイス制御選択は、チャレンジングなタスクである。第1に、オーディオファイルのタイトルまたはファイルを選択するためにユーザが使用する表現は、多くは、ユーザの母国語ではない。更に、異なる媒体に格納されるオーディオファイルは、オーディオファイル自体についての音声情報または表記(orthographic)情報が格納されるタグを必ずしも含まない。そのようなタグが存在しても、文字符号化が不明であり、表記ラベルの言語が不明である事実によって、または未解決の略語、スペリングの間違い、大文字およびラテンではない文字の不注意な使用等によって、オーディオファイルのスピーチ駆動の選択は頻繁に失敗する。
更に、一部の場合においては、曲のタイトルは、曲のリフレインの最も顕著な部分を表さない。多数のそのような場合においては、しかしながら、ユーザはこの状況に対して気付かないが、代わりにスピーチ駆動のオーディオプレーヤにおけるオーディオファイルを選択するためのリフレインの単語を発する。
従って、オーディオファイルをより容易に識別するために役立つ可能性を提供することによって、オーディオファイルのスピーチ制御選択を改良するニーズが存在する。
このニーズは、独立請求項に述べられる特徴によって満たされる。従属請求項においては、本発明の好適な実施形態が記載される。
本発明の第1の局面によると、本発明は、発声構成要素を含んでいるオーディオファイルにおけるリフレインを検出する方法に関する。この方法の第1の局面に従って、オーディオファイルの主要部分の音声転写が生成される。更に、音声転写の生成後、音声転写は分析され、頻繁に繰り返される、音声転写における1つ以上の発声セグメントは識別される。この音声転写を分析することによって識別された音声転写の頻繁に繰り返された発声セグメントは、リフレインまたはリフレインの少なくとも一部を表す。本発明は、オーディオファイルを選択するためにユーザが発する曲のタイトルまたは表現がリフレインに含まれるという考えに基づいている。更に、前述されたように、曲のタイトルは、曲の最も顕著な部分を表さない場合もある。後で述べられるように、このリフレインの生成された音声転写は、オーディオファイルを識別するために役立ち、かつオーディオファイルのスピーチ駆動の選択に役立つ。現在のコンテキストにおいて、「音声転写」という用語は、音声転写が記号による発音の表現であるように解釈されたい。音声転写は、ただ単にSAMPAのような言語に表される音声スペルというわけではなく、ストリングによる発音を説明する。音声転写という用語は、「音響表現および音声表現」によっても置換され得る。
更に、「オーディオファイル」という用語は、オーディオCDのデータ、またはビットストリームの形式における任意の他のデジタルオーディオデータも含むものとして理解されたい。
リフレインを含む音声転写における発声セグメントを識別するために、本方法は、発声構成要素を有しているオーディオファイルの一部を最初に識別するステップをさらに包含し得る。このプレセグメント化の結果は、「発声部」として以下呼ばれる。更に、発声分離は、非発生部(すなわち、オーディオファイルのインストラメンタル部)を減衰するために適用され得る。音声転写は次いで、ファイルの発声構成要素が非発声部に対して強められたオーディオファイルに基づいて生成される。このフィルタリングは、生成された音声転写を改良するために役立つ。
分析された音声転写に加えて、曲の繰り返される部分を識別するために、曲のメロディー、リズム、パワーおよびハーモニックスが分析され得る。繰り返されるセグメントが識別され得る。曲のリフレインは通常、同じメロディー、ならびに同様のリズム、パワーおよびハーモニックスを用いて歌われる。これは、音声類似性に対してチェックされるべき組み合わせの数を減少させる。従って、生成された音声データとオーディオファイルのメロディーとの組み合わされた評価は、曲内におけるリフレインの認識率を改良するために役立つ。
オーディオファイルの音声転写が分析されると、音声転写の所定の部分がオーディオデータ内にて少なくとも2回識別され得る場合、その音声転写の所定の部分がリフレインを表すことが決定され得る。その一方、リフレインの2つの異なる発生に対して認識器によって生成される音声ストリングがほとんど完全に同一にならないため、音声ストリングのこの比較は一部の変動を可能にする必要がある。リフレインが発声オーディオファイルに存在するという事実を決定するために必要である任意の数の繰り返しを使用することは可能である。
リフレインを検出するためにオーディオファイル全体が分析される必要はない。従って、プレセグメント化を適用する場合において、完全なオーディオファイルまたは完全な発声部の音声転写を生成する必要はない。しかしながら、リフレインに対する認識率を改良するために、オーディオファイルのデータの主要部分(例えば、データまたは発声部の70%から80%の間)は分析されるべきであり、かつ音声転写は生成されるべきである。音声転写がオーディオファイル(またはプレセグメント化の場合、発声部)の約50%より少なく生成された場合、リフレイン検出は多くの場合、非常に間違っている。
本発明は、オーディオファイルにおけるリフレインを検出するためのシステムにさらに関する。ここにおいて、システムは、オーディオファイルの音声転写を自動的に生成する音声転写ユニットを含む。更に、生成された音声説明を分析する分析ユニットが提供される。分析ユニットはさらに、頻繁に繰り返される転写の発声セグメントを識別する。上述された方法およびシステムは、オーディオファイルの音声転写に基づいてリフレインを識別するために役立つ。後で述べられるように、リフレインのこの検出は、オーディオファイルを識別するために使用され得る。
本発明の他の局面に従って、少なくとも発声構成要素を有するオーディオファイルを処理する方法が提供される。本方法は、オーディオファイルのリフレインを検出するステップ、リフレインまたはリフレインの少なくとも一部の音声転写を生成するステップ、およびオーディオファイルとともに生成された音声転写を格納するステップを包含する。この方法は、オーディオファイルを識別するために後で使用され得るオーディオファイルに関連するデータを自動的に生成するために役立つ。
本発明の好適な実施形態に従って、オーディオファイルのリフレインは上述のように検出され得る。すなわち、オーディオファイルの主要部分に対する音声転写であって、音声転写内において繰り返す同様のセグメントがリフレインとして識別される、音声転写を生成する。
しかしながら、曲のリフレインは、他の検出方法を用いても検出され得る。従って、音声転写ではなく、オーディオファイル自体を分析し、かつ頻繁に繰り返されるボイスを含む構成要素を検出することが可能になり得る。更に、両方のアプローチを一緒に使用することも可能である。
本発明の他の実施形態に従って、リフレインは、オーディオファイルのメロディー、ハーモニーおよび/またはリズムを分析することによっても検出され得る。リフレインを検出するこの方法は、単独で使用され得るか、または上述された2つの他の方法と一緒に使用され得る。
検出されたリフレインが所定の曲またはオーディオファイルに対して非常に長いリフレインである場合もある。これらの長いリフレインは、曲のタイトルを完全には表さない場合があり、かつスピーチ駆動のオーディオプレーヤにある曲を選択するためにユーザが直観的に使用する表現を完全には表さない場合もある。従って、本発明の他の局面に従って、本方法は、検出されたリフレインをさらに分解し、かつリフレインを異なるサブ部分に分けるステップをさらに包含し得る。この方法は、韻律、音の大きさおよび/または検出された発声ポーズを考慮し得る。決定されたリフレインの更なる分解は、リフレインの重要部分、すなわち上述のファイルを選択するためにユーザが発し得るリフレインの一部を識別するために役立ち得る。
本発明は、少なくとも発声構成要素を有するオーディオファイルを処理するシステムにさらに関する。本システムは、オーディオファイルのリフレインを検出する検出ユニット、リフレインの音声転写を生成する転写ユニット、およびオーディオデータにリンクされた音声転写を格納するための制御ユニットを含む。制御は、オーディオファイル内に音声転写を格納する必要は必ずしもない。オーディオファイルを識別するリフレインの音声転写が別々のファイルに格納されていて、かつ音声転写から、音楽を含むオーディオデータ自体へのリンクが存在することも可能である。
更に、本発明は、オーディオプレーヤにおける複数のオーディオファイルから一つのオーディオファイルをスピーチ駆動の選択することに関する。本方法は、少なくとも、オーディオファイルのリフレインを検出するステップを含む。更に、リフレインの少なくとも一部の音声表現および音響表現が決定される。この表現は、記号または音響特徴のシーケンスになり得る。更に、この表現は、音響波形自体または任意の前述のものから導出した統計モデルになり得る。この表現は次いで、スピーチ認識ユニットに供給され、そのユニットで、オーディオプレーヤのユーザから発されたボイス命令と比較される。オーディオファイルの選択は次いで、音声表現または音響表現とボイス命令との比較の最も一致する結果に基づく。オーディオファイルのスピーチ駆動の選択のこのアプローチは、タイトルの言語情報またはタイトル自体がオーディオファイルを識別するために必要ではないという利点を有する。他のアプローチに対しては、音楽情報サーバは、曲を識別するためにアクセスされなければならない。オーディオファイルの最も重要な部分の音声表現または音響表現を自動的に生成することによって、曲のタイトルおよびリフレインについての情報が取得され得る。ユーザが彼または彼女が選択したい所定の曲を考えている場合、彼または彼女は、曲内に使用される発音を多かれ少なかれ使用する。この発音は、リフレインの生成された表現にも反映されている。そのため、スピーチ認識ユニットが曲のリフレインのこの音声表現または音響表現を入力として使用できる場合、オーディオファイルのスピーチ制御選択は改良され得る。大抵のポップな音楽が英語で歌われ、かつ世界のほとんどの人々が異なる母国語を有している中で、この状況は特に現実的に重要である。おそらく、リフレインの音響ストリングは、ほとんどの場合間違っている。それにも関らず、自動的に取得されたストリングは、音楽データへのスピーチ駆動のアクセスを可能にするためにスピーチ認識システムによって必要とされるベースとして役立ち得る。その分野において周知のように、スピーチ認識システムは、統計モデル技術に基づくスピーチ認識ユニットに適用されるパターン一致技術を使用し、最も良い一致エントリが使用される。リフレインの音声転写は、ユーザがボイス命令を介してオーディオファイルを選択した場合に認識率を改良するために役立つ。本発明の一局面に従って、音声転写は、オーディオファイル自体から取得される。データの説明は、データ自体を用いて生成される。
リフレインの音声表現または音響表現は、リフレインの特性を表す文字または音響特徴のストリングである。ストリングは文字のシーケンスを含み、ストリングの文字は、音素、文字または音節として表され得る。ユーザのボイス命令は、ボイス命令の音響特徴を表す文字の他のシーケンスにも変換される。リフレインの音響ストリングとボイス命令の文字のシーケンスとの比較は、リフレインおよびボイス命令の任意の表現において行われ得る。スピーチ認識ユニットにおいて、リフレインの音響ストリングは、ボイス命令が比較されるエントリのリストの更なる可能なエントリとして使用される。ボイス命令とリフレインの表現を含むエントリのリストとの間の一致ステップが実行され、最も一致する結果が使用される。これらの一致アルゴリズムは、統計モデル(例えば、隠れたマルコフモデル)に基づく。
音声表現または音響表現は、更に、有限文法または統計言語モデルにおける要素としてスピーチ認識器に組み入れられ得る。通常、ユーザは、「再生」または「消去」等の他の表現と一緒にリフレインを使用する。
リフレインの音響表現の統合は、「再生」および[リフレインの名前]の構成要素を含むスピーチ命令を正確に識別するために役立つ。
本発明の一実施形態に従って、リフレインの音声転写が生成され得る。この音声転写は次いで、オーディオプレーヤのユーザのボイス命令の音素のストリングと比較され得る。
リフレインは、上述されたように検出され得る。これは、リフレインが、オーディオファイルの主要部分の音声転写を生成し、次いで転写内における繰り返すセグメントを識別することによって検出され得ることを意味する。しかしながら、更に上述されたように、曲全体の音声転写を生成せずにリフレインが検出されることも可能である。他の方法においてリフレインを検出し、リフレインが検出された場合のみにリフレインの音声表現または音響表現を生成することも可能である。この場合、転写が生成される必要がある曲の部分は、曲全体が音声転写に変換される場合と比べかなり小さい。
本発明の他の実施形態に従って、検出されたリフレイン自体またはリフレインの生成された音声転写は、さらに分解され得る。
オーディオファイルのスピーチ駆動の選択の可能な拡張は、ユーザ発声およびそれぞれのリフレイン部の音声類似性一致とメロディー類似性一致との組み合わせになり得る。このために、リフレインのメロディーは決定され得、かつスピーチ命令のメロディーは決定され得、2つのメロディーは互いに比較される。オーディオファイルの1つが選択された場合、メロディー比較のこの結果は、ユーザがどのオーディオファイルを選択したかったかの決定のために更に使用され得る。これは、ユーザがリフレインのメロディー構造も一致させることをやり遂げる場合において、特に良い認識精度に導き得る。このアプローチにおいて、周知の「Query−By−Humming」アプローチは、強化されたジョイント性能のために、提案された音声一致アプローチと組み合わされる。
本発明の他の実施形態に従って、リフレインの音声転写は、上述されたように、オーディオファイルを処理することによって生成され得る。
本発明は、オーディオファイルのリフレインを検出するためのリフレイン検出ユニットを含む、オーディオファイルをスピーチ駆動の選択するシステムにさらに関する。更に、リフレインの音声表現または音響表現を生成して、リフレインの音響ストリングを決定するための手段が提供される。この表現は次いで、スピーチ認識ユニットに送り込まれ、そのスピーチ認識ユニットで、ユーザのボイス命令と比較され、かつ比較の最も一致する結果を決定する。更に、最も一致する結果を受信して、結果に従ってオーディオファイルを選択する制御ユニットが提供される。システムの異なる構成要素が、1つの単一のユニットに組み入れられる必要はないことが理解されたい。例えば、リフレイン検出ユニットおよびリフレインの少なくとも一部の音声表現または音響表現を決定するための手段は、1つの計算ユニットに提供され得るが、スピーチ認識ユニットおよびファイルの選択を担う制御ユニットは、他のユニット、例えば、車両に組み入れられるユニットに提供され得る。
提案されたリフレイン検出、ならびにオーディオファイルおよびストリームのスピーチ駆動の選択のための発音ストリングの音声認識ベースの生成が、発音ストリングの生成のためのラベル(MP3タグのような)を分析するより従来の方法に追加の方法として適用され得ることが理解されたい。この組み合われた適用シナリオにおいて、リフレイン検出ベースの方法は、有用な発音代替を生成するために使用され得、かつ有用なタイトルタグが利用可能ではないオーディオファイルおよびストリームのための発音ストリングの主要源として役立ち得る。MP3タグがリフレインの一部であるか否かもチェックされ得、特定の曲が正確にアクセスされ得るという信頼性が増す。
本発明が携帯オーディオプレーヤにも適用され得ることも更に理解されたい。このコンテキストにおいては、この携帯オーディオプレーヤは、複雑なリフレイン検出を行い、かつリフレインの音声表現または音響表現を生成するためのハードウェア能力を有さない場合がある。これらの2つのタスクがデスクトップコンピュータのような計算ユニットによって実行され得る一方、スピーチ命令の認識およびリフレインの音声表現または音響表現に対するスピーチ命令の比較は、オーディオプレーヤ自体において行われる。
更に、音楽における発声を発音どおりに注釈するために使用される音声転写ユニットおよびユーザ入力を認識するために使用される音声転写ユニットが、必ずしも同一である必要はないことに留意されたい。音楽における発声の音声注釈のための認識エンジンは、この目的のために特別に適合される専用エンジンになり得る。例えば、音声転写ユニットが、ほとんどの曲が英語で歌われる中、英語文法データベースを有し得える一方、ユーザのスピーチ命令を認識するスピーチ認識ユニットは、スピーチ駆動のオーディオプレーヤの言語によって他の言語データベースを使用し得る。しかしながら、これら2つの転写ユニットにより出力される音声データが比較される必要があるため、これらの2つの転写ユニットは、同様の発声カテゴリを利用するべきである。
本発明は、さらに以下の手段を提供する。
(項目1)
発声構成要素を含んでいるオーディオファイルにおけるリフレインを、
該オーディオファイルの主要部分の音声転写を生成するステップと、
該音声転写を分析し、頻繁に繰り返される該生成された音声転写における発声セグメントを識別するステップであって、該識別された頻繁に繰り返された発声セグメントは該リフレインを表す、ステップと
を用いて検出する方法。
(項目2)
発声部および非発声部へと上記オーディオファイルをプレセグメント化するステップと、更なる処理のために該非発声部を放棄するステップとをさらに包含することを特徴とする、項目1に記載の方法。
(項目3)
上記オーディオファイルの上記非発声構成要素を減衰し、および/または上記発声構成要素を増幅するステップと、結果として生じるオーディオファイルに基づいて上記音声転写を生成するステップとをさらに包含することを特徴とする、項目2に記載の方法。
(項目4)
繰り返される曲のセグメントを識別し、それによって上記リフレインの上記検出を改良するようにオーディオファイルまたはストリームを構築する目的のために、曲のメロディー、リズム、パワー、およびハーモニックスを分析するステップをさらに包含することを特徴とする、項目1〜3のいずれか一項に記載の方法。
(項目5)
上記発声セグメントが上記音声転写内に少なくとも2回識別され得た場合、該発声セグメントはリフレインとして識別されることを特徴とする、項目1〜4のいずれか一項に記載の方法。
(項目6)
上記オーディオファイルのプレセグメント化の場合において、上記音声転写が、上記データの主要部分および該データの発声部のために生成されることを特徴とする、項目1〜5のいずれか一項に記載の方法。
(項目7)
オーディオファイルにおけるリフレインを検出するためのシステムであって、該オーディオファイルは少なくとも発声構成要素を含み、該システムは、
該オーディオファイルの主要部分の音声転写を生成する音声転写ユニット(40)と、
該生成された音声転写を分析、頻繁に繰り返される該音声転写内の発声セグメントを識別する分析ユニットと
を備える、システム。
(項目8)
少なくとも発声構成要素を有するオーディオファイルを処理する方法であって、
該オーディオファイルのリフレインを検出するステップと、
該リフレインの音声表現または音響表現を生成するステップと、
該オーディオファイルとともに、該生成された音声表現または音響表現を格納するステップと
を包含する、方法。
(項目9)
上記リフレインを上記検出するステップが、ボイスを含む上記オーディオファイルの頻繁に繰り返すセグメントを検出するステップを含む、項目8に記載の方法。
(項目10)
上記リフレインを上記検出するステップが、上記オーディオファイルの主要部分の音声転写を生成するステップを含み、該オーディオファイルの該音声転写内における繰り返す同様のセグメントが、リフレインとして識別される、項目8または9に記載の方法。
(項目11)
上記リフレインを上記検出するステップが、上記オーディオファイルのメロディー、ハーモニックおよび/またはリズム分析のステップを含む、項目8〜10のいずれか一項に記載の方法。
(項目12)
上記リフレイン内の韻律、音の大きさおよび/または発声ポーズを考慮することによって該検出されたリフレインをさらに分解するステップをさらに包含することを特徴とする、項目8〜11のいずれか一項に記載の方法。
(項目13)
上記リフレインが項目1〜6のいずれか一項に記載のように検出される、項目8〜12のいずれか一項に記載の方法。
(項目14)
少なくとも発声構成要素を有するオーディオファイルを処理するためのシステムであって、
該オーディオファイルのリフレインを検出する検出ユニット(30)と、
該リフレインの音声表現または音響表現を生成する転写ユニット(40)と、
該オーディオデータにリンクされた該音声表現または音響表現を格納するための制御ユニット(70)と
を少なくとも備える、方法。
(項目15)
オーディオプレーヤにおける複数のオーディオファイルから一つのオーディオファイルをスピーチ駆動の選択する方法であって、該オーディオファイルは少なくとも発声構成要素を含み、該方法は、
該オーディオファイルのリフレインを検出するステップと、
該リフレインの少なくとも一部の音声表現または音響表現を決定するステップと、
該音声表現または音響表現をスピーチ認識ユニットに供給するステップと、
該音声表現または音響表現を該オーディオプレーヤのユーザのボイス命令と比較し、該比較の最も一致する結果に基づいてオーディオファイルを選択するステップと
を包含する、方法。
(項目16)
統計モデルが、上記ボイス命令を上記音声表現または音響表現と比較するために使用される、項目15に記載の方法。
(項目17)
上記リフレインの音声表現または音響表現が、有限文法または統計言語モデルにおける要素としてスピーチ認識器に組み入れられる、項目15または16に記載の方法。
(項目18)
上記オーディオファイルを選択するために、上記リフレインの音声表現または音響表現が、上記最も一致する結果に基づいて該オーディオファイルを選択するための他の方法に加えて使用される、項目15〜17のいずれか一項に記載の方法。
(項目19)
上記オーディオファイルとともに格納された音声データが、該オーディオファイルを選択するために更に使用される、項目18に記載の方法。
(項目20)
上記リフレインの少なくとも一部の音声表現または音響表現を生成するステップをさらに包含し、該音声表現または音響表現は上記スピーチ認識ユニットに供給されていて、上記ボイス命令が上記統計モデルの可能なエントリと比較された場合、該音声表現または音響表現が考慮される、項目15〜19のいずれか一項に記載の方法。
(項目21)
上記検出されたリフレインまたは上記生成された音声表現もしくは音響表現をセグメント化するステップをさらに包含することを特徴とする、項目15〜20のいずれか一項に記載の方法。
(項目22)
上記リフレインまたは上記音声表現もしくは音響表現の上記更なるセグメント化のために、上記オーディオファイルの韻律、音の大きさ、発声ポーズが考慮される、項目21に記載の方法。
(項目23)
上記リフレインが項目1〜5のいずれか一項に記載のように検出される、項目15〜22のいずれか一項に記載の方法。
(項目24)
上記リフレインの上記音声表現または音響表現を生成するために、上記オーディオファイルが項目7〜12のいずれか一項に記載のように処理される、項目15〜23のいずれか一項に記載の方法。
(項目25)
上記リフレインのメロディーを決定するステップと、
スピーチ命令のメロディーを決定するステップと、
該2つのメロディーを比較するステップと、
該メロディー比較の結果も考慮して上記オーディオファイルのうちの1つを選択するステップと
をさらに包含することを特徴とする、項目15〜24のいずれか一項に記載の方法。
(項目26)
オーディオファイルをスピーチ駆動の選択するシステムであって、
該オーディオファイルのリフレインを検出するためのリフレイン検出ユニット30と、
該検出されたリフレインの音声表現または音響表現を決定するための手段と、
該音声表現または音響表現を該オーディオファイルを選択するユーザのボイス命令と比較し、かつ該比較の最も一致する結果を決定するスピーチ認識ユニットと、
該比較の該結果に従って該オーディオファイルを選択する制御ユニットと
を備える、システム。
(摘要)
本発明は、発声構成要素を含んでいるオーディオファイルにおけるリフレインを、オーディオファイルの主要部分の音声転写を生成するステップと、音声転写を分析し、頻繁に繰り返される生成された音声転写における発声セグメントを識別するステップであって、識別された頻繁に繰り返された発声セグメントはリフレインを表す、ステップとを用いて検出する方法に関する。更に、本発明は、検出されたリフレインおよびユーザ入力の類似性に基づいたスピーチ駆動の選択に関する。
本発明により、オーディオファイルをより容易に識別するために役立つ可能性を提供することによって、オーディオファイルのスピーチ制御選択が改良され得る。
本発明の上記の特定の実施形態は、添付の図面に対して例を用いて説明される。
図1には、ボイス命令によって識別され得るように構成されているオーディオデータを提供することに役立つシステムが示される。ここにおいて、ボイス命令は、リフレインの一部またはリフレイン全体を含む。例えば、ユーザがコンパクトディスクを引き裂いた場合、引き裂かれたデータは通常、音楽データを識別するために役立つ追加情報を少しも含まない。図1に示されるシステムを用いて、音楽データは、音楽データがボイス制御オーディオシステムによってより簡単に選択され得るように作成され得る。
システムは、異なるオーディオファイル11を含むストレージ媒体10を含む。ここにおいて、オーディオファイルは、発声構成要素を有する任意のオーディオファイルである。例えば、オーディオファイルは、送受信器(transmitter receiver)20を介して音楽サーバからダウンロードされ得るか、またはオーディオファイルが異なるアーチストのオーディオファイルであり、かつオーディオファイルがポップ音楽、ジャズ、クラシック等のような異なるジャンルであるように他のストレージ媒体からコピーされ得る。MP3、AAC、WMA、MOV等のような形式においてオーディオファイルを格納するコンパクトな方法によって、ストレージ媒体は次いで、大量のオーディオファイルを含み得る。オーディオファイルの識別を改良するために、オーディオファイルは、楽曲のリフレインが識別されるようにデジタルデータを分析するリフレイン検出ユニットに送信される。曲のリフレインは、複数の方法おいて検出され得る。一可能性は、音楽信号自体における頻繁に繰り返すセグメントの検出である。他の可能性は、オーディオファイル全体の音声転写またはオーディオファイルの少なくとも主要部分の音声転写を生成する音声転写ユニット40の使用である。リフレイン検出ユニットは、結果として生じる音素のストリング内の同様のセグメントを検出する。完全なオーディオファイルが音声転写に変換されなかった場合、リフレインはユニット30において最初に検出され、かつリフレインは、音声転写ユニット40に送信され、その音声転写ユニットは、その後リフレインの音声転写を生成する。生成された音素データは、データが、データベース10´に示されるようにそれぞれのオーディオファイルとともに格納されるように、制御ユニット50によって処理され得る。データベース10´は、図1のデータベース10と同じデータベースになり得る。示される実施形態においては、異なるユニット30、40および50による処理の前のオーディオファイルと処理の後のオーディオファイルとの間の違いを強調するために、データベースは別々のデータベースとして示される。
リフレインまたはリフレインの一部の音声転写を含むタグは、オーディオファイル自体に直接格納され得る。しかしながら、タグは、オーディオファイルと独立に、例えば別々の態様で格納されているが、オーディオファイルにリンクされ得る。
図2において、データ処理を実行するために必要な異なるステップが要約される。ステップ61にて処理を開始した後、曲のリフレインはステップ62にて検出される。リフレイン検出は、複数の可能な候補を提供する場合もある。ステップ63においては、リフレインの音声転写が生成される。曲の異なるセグメントがリフレインとして識別された場合、これらの異なるセグメントに対して音声転写が生成され得る。次のステップ64においては、音声転写(単数または複数)は、処理がステップ65にて終了する前に音声転写がそれらのそれぞれの音声ファイルにリンクされるように格納される。図2に示されるステップは、オーディオデータを提供するために役立つ。ここにおいて、該オーディオデータは、オーディオファイルのボイス制御選択の正確さが改良されるように処理される。
図3においては、オーディオファイルをスピーチ駆動の選択するために使用され得るシステムが示される。そのようなシステムは、図1に示される構成要素を含む。図3に示される構成要素が、1つの単一のユニットに組み入れられる必要がないことが理解されたい。図3のシステムは、異なるオーディオファイル11を含むストレージ媒体10を含む。図1および図2に関連して説明されたように、ユニット30においてリフレインは検出され、リフレインは、オーディオファイルとともにデータベース10´に格納され得る。ユニット30がリフレインを検出した場合、リフレインは、リフレインの音声転写を生成する第1の音声転写ユニットに送り込まれる。この転写は、曲のタイトルを含む高い可能性を有する。ストレージ媒体100に格納されるオーディオファイル11のうちの1つをユーザがそのときに選択したい場合、ユーザは、ボイス命令を発する。そのボイス命令は、後に、検出され、かつボイス命令の音素のストリングを生成する第2の音声転写ユニット60によって処理される。更に、第1の音声転写ユニット40の音声データを第2の音声転写ユニット60の音声データと比較する制御ユニット70が提供される。制御ユニットは、最も一致する結果を使用し、かつオーディオプレーヤ80に結果を送信し、そのオーディオプレーヤ80はその後、再生されるべき対応のオーディオファイルをデータベース10´から選択する。図3の実施形態に見られるように、オーディオファイルの言語またはタイトル情報は、オーディオファイルの1つを選択するために必要ではない。更に、リモート音楽情報サーバへのアクセス(例えば、インターネットを介して)も、オーディオデータを識別するために必要とされていない。
図4においては、オーディオファイルをスピーチ駆動の選択するために使用され得るシステムの他の実施形態が示される。システムは、異なるオーディオファイル11を含むストレージ媒体10を含む。更に、各々のファイルに対してリフレインの主要部分の音響表現および音声表現を引き出し、かつリフレインを表すストリングを生成する音響および音声転写ユニットが提供される。この音響ストリングは、次いでスピーチ認識ユニット25に送り込まれる。スピーチ認識ユニット25においては、音響表現および音声表現は統計モデルのために使用される。ここにおいて、スピーチ認識ユニットは、ユーザによって発されるボイス命令を、統計モデルに基づくスピーチ認識ユニットの異なるエントリと比較する。ユーザが行いたかった選択を表して、比較の最も一致する結果が決定される。この情報は制御ユニット50に送り込まれ、その制御ユニットは、オーディオファイルを含むストレージ媒体にアクセスし、選択されるオーディオファイルを選択し、かつ選択されたオーディオファイルが再生され得るオーディオプレーヤにオーディオファイルを送信する。
図5においては、オーディオファイルのボイス制御選択を実行するために必要な異なるステップが示される。処理はステップ80にて開始する。ステップ81にてリフレインは検出される。図2に関連して説明される方法の1つに従って、リフレインの検出が実行され得る。ステップ82にてリフレインを表す音響表現および音声表現が決定され、次いでステップ83にてスピーチ認識ユニット25に供給される。ステップ84にてボイス命令は検出され、スピーチ命令が音響表現/音声表現と比較されるスピーチ認識ユニットにもボイス命令が供給される(ステップ85)。オーディオファイルは、比較の最も一致する結果に基づいて選択される(ステップ86)。ステップ87にて方法は終了する。
ステップ81における検出されたリフレインが非常に長い場合もあり得る。これらの非常に長いリフレインは、曲のタイトルを完全に表さない場合もあり、かつスピーチ駆動のオーディオプレーヤにある曲を選択するためにユーザが何を直観的に発するかを表さない場合もある。従って、検出されたリフレインをさらに分解する更なる処理ステップ(図示せず)が提供され得る。リフレインをさらに分解する目的で、リフレイン内の曲のタイトルを検出するために韻律、音の大きさおよび検出された発声ポーズが考慮され得る。リフレインが音声描写に基づいてまたは信号自体に基づいて検出されるかの事実によって、オーディオファイルの長いリフレインはそれ自体が分解され得るかまたはさらにセグメント化され得る。あるいはオーディオファイルを選択するためにユーザがおそらく発するであろう情報を引き出すためにリフレインの取得された音声表現はさらにセグメント化され得る。
従来技術においては、オーディオファイルに提供されるタグの小さな割合だけが、スピーチ駆動のオーディオプレーヤにある曲を選択するためにユーザが何を発するかを本当に表す有用な音声ストリングに変換され得る。更に、それどころか、曲タグは、完全に失われるているか、破損されているか、または未定義コーディングおよび言語にある。本発明は、これらの欠点を克服するために役立つ。
以上のように、本発明の好ましい実施形態を用いて本発明を例示してきたが、本発明は、この実施形態に限定して解釈されるべきものではない。本発明は、特許請求の範囲によってのみその範囲が解釈されるべきであることが理解される。当業者は、本発明の具体的な好ましい実施形態の記載から、本発明の記載および技術常識に基づいて等価な範囲を実施することができることが理解される。
図1は、オーディオファイルが処理後のリフレインに関する音声情報を含むように、オーディオファイルを処理するためのシステムを示す。 図2は、図1のシステムに従ってオーディオファイルを処理するためのステップを含むフローチャートを示す。 図3は、オーディオファイルの選択のためのボイス制御システムを示す。 図4は、オーディオファイルを選択するためのボイス制御システムの他の実施形態を示す。 図5は、ボイス命令を用いてオーディオファイルを選択するための異なるステップを含むフローチャートを示す。
符号の説明
10 ストレージ媒体
10´ データベース
11 オーディオファイル
20 送受信器
30 ユニット
40 音声転写ユニット
50 制御ユニット

Claims (26)

  1. 発声構成要素を含んでいるオーディオファイルにおけるリフレインを、
    該オーディオファイルの主要部分の音声転写を生成するステップと、
    該音声転写を分析し、頻繁に繰り返される該生成された音声転写における発声セグメントを識別するステップであって、該識別された頻繁に繰り返された発声セグメントは該リフレインを表す、ステップと
    を用いて検出する方法。
  2. 発声部および非発声部へと前記オーディオファイルをプレセグメント化するステップと、更なる処理のために該非発声部を放棄するステップとをさらに包含することを特徴とする、請求項1に記載の方法。
  3. 前記オーディオファイルの前記非発声構成要素を減衰し、および/または前記発声構成要素を増幅するステップと、結果として生じるオーディオファイルに基づいて前記音声転写を生成するステップとをさらに包含することを特徴とする、請求項2に記載の方法。
  4. 繰り返される曲のセグメントを識別し、それによって前記リフレインの前記検出を改良するようにオーディオファイルまたはストリームを構築する目的のために、曲のメロディー、リズム、パワー、およびハーモニックスを分析するステップをさらに包含することを特徴とする、請求項1〜3のいずれか一項に記載の方法。
  5. 前記発声セグメントが前記音声転写内に少なくとも2回識別され得た場合、該発声セグメントはリフレインとして識別されることを特徴とする、請求項1〜4のいずれか一項に記載の方法。
  6. 前記オーディオファイルのプレセグメント化の場合において、前記音声転写が、前記データの主要部分および該データの発声部のために生成されることを特徴とする、請求項1〜5のいずれか一項に記載の方法。
  7. オーディオファイルにおけるリフレインを検出するためのシステムであって、該オーディオファイルは少なくとも発声構成要素を含み、該システムは、
    該オーディオファイルの主要部分の音声転写を生成する音声転写ユニット(40)と、
    該生成された音声転写を分析、頻繁に繰り返される該音声転写内の発声セグメントを識別する分析ユニットと
    を備える、システム。
  8. 少なくとも発声構成要素を有するオーディオファイルを処理する方法であって、
    該オーディオファイルのリフレインを検出するステップと、
    該リフレインの音声表現または音響表現を生成するステップと、
    該オーディオファイルとともに、該生成された音声表現または音響表現を格納するステップと
    を包含する、方法。
  9. 前記リフレインを前記検出するステップが、ボイスを含む前記オーディオファイルの頻繁に繰り返すセグメントを検出するステップを含む、請求項8に記載の方法。
  10. 前記リフレインを前記検出するステップが、前記オーディオファイルの主要部分の音声転写を生成するステップを含み、該オーディオファイルの該音声転写内における繰り返す同様のセグメントが、リフレインとして識別される、請求項8または9に記載の方法。
  11. 前記リフレインを前記検出するステップが、前記オーディオファイルのメロディー、ハーモニックおよび/またはリズム分析のステップを含む、請求項8〜10のいずれか一項に記載の方法。
  12. 前記リフレイン内の韻律、音の大きさおよび/または発声ポーズを考慮することによって該検出されたリフレインをさらに分解するステップをさらに包含することを特徴とする、請求項8〜11のいずれか一項に記載の方法。
  13. 前記リフレインが請求項1〜6のいずれか一項に記載のように検出される、請求項8〜12のいずれか一項に記載の方法。
  14. 少なくとも発声構成要素を有するオーディオファイルを処理するためのシステムであって、
    該オーディオファイルのリフレインを検出する検出ユニット(30)と、
    該リフレインの音声表現または音響表現を生成する転写ユニット(40)と、
    該オーディオデータにリンクされた該音声表現または音響表現を格納するための制御ユニット(70)と
    を少なくとも備える、方法。
  15. オーディオプレーヤにおける複数のオーディオファイルから一つのオーディオファイルをスピーチ駆動の選択する方法であって、該オーディオファイルは少なくとも発声構成要素を含み、該方法は、
    該オーディオファイルのリフレインを検出するステップと、
    該リフレインの少なくとも一部の音声表現または音響表現を決定するステップと、
    該音声表現または音響表現をスピーチ認識ユニットに供給するステップと、
    該音声表現または音響表現を該オーディオプレーヤのユーザのボイス命令と比較し、該比較の最も一致する結果に基づいてオーディオファイルを選択するステップと
    を包含する、方法。
  16. 統計モデルが、前記ボイス命令を前記音声表現または音響表現と比較するために使用される、請求項15に記載の方法。
  17. 前記リフレインの音声表現または音響表現が、有限文法または統計言語モデルにおける要素としてスピーチ認識器に組み入れられる、請求項15または16に記載の方法。
  18. 前記オーディオファイルを選択するために、前記リフレインの音声表現または音響表現が、前記最も一致する結果に基づいて該オーディオファイルを選択するための他の方法に加えて使用される、請求項15〜17のいずれか一項に記載の方法。
  19. 前記オーディオファイルとともに格納された音声データが、該オーディオファイルを選択するために更に使用される、請求項18に記載の方法。
  20. 前記リフレインの少なくとも一部の音声表現または音響表現を生成するステップをさらに包含し、該音声表現または音響表現は前記スピーチ認識ユニットに供給されていて、前記ボイス命令が前記統計モデルの可能なエントリと比較された場合、該音声表現または音響表現が考慮される、請求項15〜19のいずれか一項に記載の方法。
  21. 前記検出されたリフレインまたは前記生成された音声表現もしくは音響表現をセグメント化するステップをさらに包含することを特徴とする、請求項15〜20のいずれか一項に記載の方法。
  22. 前記リフレインまたは前記音声表現もしくは音響表現の前記更なるセグメント化のために、前記オーディオファイルの韻律、音の大きさ、発声ポーズが考慮される、請求項21に記載の方法。
  23. 前記リフレインが請求項1〜5のいずれか一項に記載のように検出される、請求項15〜22のいずれか一項に記載の方法。
  24. 前記リフレインの前記音声表現または音響表現を生成するために、前記オーディオファイルが請求項7〜12のいずれか一項に記載のように処理される、請求項15〜23のいずれか一項に記載の方法。
  25. 前記リフレインのメロディーを決定するステップと、
    スピーチ命令のメロディーを決定するステップと、
    該2つのメロディーを比較するステップと、
    該メロディー比較の結果も考慮して前記オーディオファイルのうちの1つを選択するステップと
    をさらに包含することを特徴とする、請求項15〜24のいずれか一項に記載の方法。
  26. オーディオファイルをスピーチ駆動の選択するシステムであって、
    該オーディオファイルのリフレインを検出するためのリフレイン検出ユニット30と、
    該検出されたリフレインの音声表現または音響表現を決定するための手段と、
    該音声表現または音響表現を該オーディオファイルを選択するユーザのボイス命令と比較し、かつ該比較の最も一致する結果を決定するスピーチ認識ユニットと、
    該比較の該結果に従って該オーディオファイルを選択する制御ユニットと
    を備える、システム。
JP2007019871A 2006-02-10 2007-01-30 オーディオファイルをスピーチ駆動の選択するシステムおよび方法 Active JP5193473B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP06002752A EP1818837B1 (en) 2006-02-10 2006-02-10 System for a speech-driven selection of an audio file and method therefor
EP06002752.1 2006-02-10

Publications (2)

Publication Number Publication Date
JP2007213060A true JP2007213060A (ja) 2007-08-23
JP5193473B2 JP5193473B2 (ja) 2013-05-08

Family

ID=36360578

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007019871A Active JP5193473B2 (ja) 2006-02-10 2007-01-30 オーディオファイルをスピーチ駆動の選択するシステムおよび方法

Country Status (5)

Country Link
US (2) US7842873B2 (ja)
EP (1) EP1818837B1 (ja)
JP (1) JP5193473B2 (ja)
AT (1) ATE440334T1 (ja)
DE (1) DE602006008570D1 (ja)

Families Citing this family (186)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
EP1693829B1 (en) * 2005-02-21 2018-12-05 Harman Becker Automotive Systems GmbH Voice-controlled data system
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
DE602006008570D1 (de) * 2006-02-10 2009-10-01 Harman Becker Automotive Sys System für sprachgesteuerte Auswahl einer Audiodatei und Verfahren dafür
US20090124272A1 (en) 2006-04-05 2009-05-14 Marc White Filtering transcriptions of utterances
US9436951B1 (en) 2007-08-22 2016-09-06 Amazon Technologies, Inc. Facilitating presentation by mobile device of additional content for a word or phrase upon utterance thereof
EP2008193B1 (en) 2006-04-05 2012-11-28 Canyon IP Holdings LLC Hosted voice recognition system for wireless devices
US8510109B2 (en) 2007-08-22 2013-08-13 Canyon Ip Holdings Llc Continuous speech transcription performance indication
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US20080243281A1 (en) * 2007-03-02 2008-10-02 Neena Sujata Kadaba Portable device and associated software to enable voice-controlled navigation of a digital audio player
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US9973450B2 (en) 2007-09-17 2018-05-15 Amazon Technologies, Inc. Methods and systems for dynamically updating web service profile information by parsing transcribed message strings
US9053489B2 (en) 2007-08-22 2015-06-09 Canyon Ip Holdings Llc Facilitating presentation of ads relating to words of a message
US10002189B2 (en) 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US20100036666A1 (en) * 2008-08-08 2010-02-11 Gm Global Technology Operations, Inc. Method and system for providing meta data for a work
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
WO2010067118A1 (en) 2008-12-11 2010-06-17 Novauris Technologies Limited Speech recognition involving a mobile device
US8254993B2 (en) * 2009-03-06 2012-08-28 Apple Inc. Remote messaging for mobile communication device and accessory
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US10706373B2 (en) 2011-06-03 2020-07-07 Apple Inc. Performing actions associated with task items that represent tasks to perform
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US20110131040A1 (en) * 2009-12-01 2011-06-02 Honda Motor Co., Ltd Multi-mode speech recognition
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US8584198B2 (en) * 2010-11-12 2013-11-12 Google Inc. Syndication including melody recognition and opt out
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US8855797B2 (en) 2011-03-23 2014-10-07 Audible, Inc. Managing playback of synchronized content
US9734153B2 (en) 2011-03-23 2017-08-15 Audible, Inc. Managing related digital content
US8862255B2 (en) 2011-03-23 2014-10-14 Audible, Inc. Managing playback of synchronized content
US9703781B2 (en) 2011-03-23 2017-07-11 Audible, Inc. Managing related digital content
US8948892B2 (en) 2011-03-23 2015-02-03 Audible, Inc. Managing playback of synchronized content
US9706247B2 (en) 2011-03-23 2017-07-11 Audible, Inc. Synchronized digital content samples
US9760920B2 (en) 2011-03-23 2017-09-12 Audible, Inc. Synchronizing digital content
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US20130035936A1 (en) * 2011-08-02 2013-02-07 Nexidia Inc. Language transcription
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9075760B2 (en) 2012-05-07 2015-07-07 Audible, Inc. Narration settings distribution for content customization
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US9317500B2 (en) 2012-05-30 2016-04-19 Audible, Inc. Synchronizing translated digital content
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9141257B1 (en) 2012-06-18 2015-09-22 Audible, Inc. Selecting and conveying supplemental content
US8972265B1 (en) 2012-06-18 2015-03-03 Audible, Inc. Multiple voices in audio content
US9536439B1 (en) 2012-06-27 2017-01-03 Audible, Inc. Conveying questions with content
US9679608B2 (en) 2012-06-28 2017-06-13 Audible, Inc. Pacing content
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US10109278B2 (en) 2012-08-02 2018-10-23 Audible, Inc. Aligning body matter across content formats
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
US9367196B1 (en) 2012-09-26 2016-06-14 Audible, Inc. Conveying branched content
US9632647B1 (en) 2012-10-09 2017-04-25 Audible, Inc. Selecting presentation positions in dynamic content
US9223830B1 (en) 2012-10-26 2015-12-29 Audible, Inc. Content presentation analysis
US9280906B2 (en) 2013-02-04 2016-03-08 Audible. Inc. Prompting a user for input during a synchronous presentation of audio content and textual content
US9472113B1 (en) 2013-02-05 2016-10-18 Audible, Inc. Synchronizing playback of digital content with physical content
CN104969289B (zh) 2013-02-07 2021-05-28 苹果公司 数字助理的语音触发器
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
KR101759009B1 (ko) 2013-03-15 2017-07-17 애플 인크. 적어도 부분적인 보이스 커맨드 시스템을 트레이닝시키는 것
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
US9317486B1 (en) 2013-06-07 2016-04-19 Audible, Inc. Synchronizing playback of digital content with captured physical content
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
KR101959188B1 (ko) 2013-06-09 2019-07-02 애플 인크. 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
WO2014200731A1 (en) 2013-06-13 2014-12-18 Apple Inc. System and method for emergency calls initiated by voice command
KR101749009B1 (ko) 2013-08-06 2017-06-19 애플 인크. 원격 디바이스로부터의 활동에 기초한 스마트 응답의 자동 활성화
US9489360B2 (en) 2013-09-05 2016-11-08 Audible, Inc. Identifying extra material in companion content
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9966065B2 (en) 2014-05-30 2018-05-08 Apple Inc. Multi-command single utterance input method
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US9606986B2 (en) 2014-09-29 2017-03-28 Apple Inc. Integrated word N-gram and class M-gram language models
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US10152299B2 (en) 2015-03-06 2018-12-11 Apple Inc. Reducing response latency of intelligent automated assistants
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179309B1 (en) 2016-06-09 2018-04-23 Apple Inc Intelligent automated assistant in a home environment
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US11281993B2 (en) 2016-12-05 2022-03-22 Apple Inc. Model and ensemble compression for metric learning
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
US10417266B2 (en) 2017-05-09 2019-09-17 Apple Inc. Context-aware ranking of intelligent response suggestions
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
US11301477B2 (en) 2017-05-12 2022-04-12 Apple Inc. Feedback analysis of a digital assistant
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770427A1 (en) 2017-05-12 2018-12-20 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK179560B1 (en) 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US10403278B2 (en) 2017-05-16 2019-09-03 Apple Inc. Methods and systems for phonetic matching in digital assistant services
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
US10303715B2 (en) 2017-05-16 2019-05-28 Apple Inc. Intelligent automated assistant for media exploration
US10657328B2 (en) 2017-06-02 2020-05-19 Apple Inc. Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling
US10445429B2 (en) 2017-09-21 2019-10-15 Apple Inc. Natural language understanding using vocabularies with compressed serialized tries
US10755051B2 (en) 2017-09-29 2020-08-25 Apple Inc. Rule-based natural language processing
US10636424B2 (en) 2017-11-30 2020-04-28 Apple Inc. Multi-turn canned dialog
US10733982B2 (en) 2018-01-08 2020-08-04 Apple Inc. Multi-directional dialog
US10733375B2 (en) 2018-01-31 2020-08-04 Apple Inc. Knowledge-based framework for improving natural language understanding
US10789959B2 (en) 2018-03-02 2020-09-29 Apple Inc. Training speaker recognition models for digital assistants
US10592604B2 (en) 2018-03-12 2020-03-17 Apple Inc. Inverse text normalization for automatic speech recognition
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US10909331B2 (en) 2018-03-30 2021-02-02 Apple Inc. Implicit identification of translation payload with neural machine translation
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US10984780B2 (en) 2018-05-21 2021-04-20 Apple Inc. Global semantic word embeddings using bi-directional recurrent neural networks
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
DK201870355A1 (en) 2018-06-01 2019-12-16 Apple Inc. VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
US11386266B2 (en) 2018-06-01 2022-07-12 Apple Inc. Text correction
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
US10496705B1 (en) 2018-06-03 2019-12-03 Apple Inc. Accelerated task performance
KR102495888B1 (ko) * 2018-12-04 2023-02-03 삼성전자주식회사 사운드를 출력하기 위한 전자 장치 및 그의 동작 방법
US20220019618A1 (en) * 2020-07-15 2022-01-20 Pavan Kumar Dronamraju Automatically converting and storing of input audio stream into an indexed collection of rhythmic nodal structure, using the same format for matching and effective retrieval

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09293083A (ja) * 1996-04-26 1997-11-11 Toshiba Corp 楽曲検索装置および検索方法
JPH11120198A (ja) * 1997-10-20 1999-04-30 Sony Corp 楽曲検索装置
WO2001058165A2 (en) * 2000-02-03 2001-08-09 Fair Disclosure Financial Network, Inc. System and method for integrated delivery of media and associated characters, such as audio and synchronized text transcription
JP2002221972A (ja) * 2001-01-24 2002-08-09 Daiichikosho Co Ltd カラオケ装置に演奏予約する楽曲を旋律検索するとともに演奏キーを設定する方法
WO2004049188A1 (en) * 2002-11-28 2004-06-10 Agency For Science, Technology And Research Summarizing digital audio data
JP2004326840A (ja) * 2003-04-21 2004-11-18 Pioneer Electronic Corp 音楽データ選曲装置、音楽データ選曲方法、並びに、音楽データの選曲プログラムおよびそれを記録した情報記録媒体
JP2005539254A (ja) * 2002-09-16 2005-12-22 松下電器産業株式会社 音声認識を利用したメディアファイルのアクセスおよび検索におけるシステムと方法
JP2006501502A (ja) * 2002-09-30 2006-01-12 ヒューレット−パッカード デベロップメント カンパニー エル.ピー. オーディオトラックのオーディオサムネイルを生成するシステムおよび方法
JP2006525537A (ja) * 2003-04-14 2006-11-09 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ コンテンツ解析を用いて音楽ビデオを要約する方法及び装置

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5521324A (en) * 1994-07-20 1996-05-28 Carnegie Mellon University Automated musical accompaniment with multiple input sensors
JP3890692B2 (ja) * 1997-08-29 2007-03-07 ソニー株式会社 情報処理装置及び情報配信システム
FI20002161A (fi) * 2000-09-29 2002-03-30 Nokia Mobile Phones Ltd Menetelmä ja järjestelmä melodian tunnistamiseksi
US7343082B2 (en) * 2001-09-12 2008-03-11 Ryshco Media Inc. Universal guide track
US7089188B2 (en) 2002-03-27 2006-08-08 Hewlett-Packard Development Company, L.P. Method to expand inputs for word or document searching
US6998527B2 (en) * 2002-06-20 2006-02-14 Koninklijke Philips Electronics N.V. System and method for indexing and summarizing music videos
ATE556404T1 (de) * 2002-10-24 2012-05-15 Nat Inst Of Advanced Ind Scien Wiedergabeverfahren für musikalische kompositionen und einrichtung und verfahren zum erkennen eines repräsentativen motivteils in musikkompositionsdaten
US20050038814A1 (en) * 2003-08-13 2005-02-17 International Business Machines Corporation Method, apparatus, and program for cross-linking information sources using multiple modalities
US7401019B2 (en) 2004-01-15 2008-07-15 Microsoft Corporation Phonetic fragment search in speech data
US20060112812A1 (en) * 2004-11-30 2006-06-01 Anand Venkataraman Method and apparatus for adapting original musical tracks for karaoke use
US8013229B2 (en) * 2005-07-22 2011-09-06 Agency For Science, Technology And Research Automatic creation of thumbnails for music videos
US20070078708A1 (en) * 2005-09-30 2007-04-05 Hua Yu Using speech recognition to determine advertisements relevant to audio content and/or audio content relevant to advertisements
EP1785891A1 (en) * 2005-11-09 2007-05-16 Sony Deutschland GmbH Music information retrieval using a 3D search algorithm
DE602006008570D1 (de) * 2006-02-10 2009-10-01 Harman Becker Automotive Sys System für sprachgesteuerte Auswahl einer Audiodatei und Verfahren dafür
US7917514B2 (en) * 2006-06-28 2011-03-29 Microsoft Corporation Visual and multi-dimensional search
US7739221B2 (en) * 2006-06-28 2010-06-15 Microsoft Corporation Visual and multi-dimensional search
US7984035B2 (en) * 2007-12-28 2011-07-19 Microsoft Corporation Context-based document search
KR101504522B1 (ko) * 2008-01-07 2015-03-23 삼성전자 주식회사 음악 저장/검색 장치 및 방법

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09293083A (ja) * 1996-04-26 1997-11-11 Toshiba Corp 楽曲検索装置および検索方法
JPH11120198A (ja) * 1997-10-20 1999-04-30 Sony Corp 楽曲検索装置
WO2001058165A2 (en) * 2000-02-03 2001-08-09 Fair Disclosure Financial Network, Inc. System and method for integrated delivery of media and associated characters, such as audio and synchronized text transcription
JP2002221972A (ja) * 2001-01-24 2002-08-09 Daiichikosho Co Ltd カラオケ装置に演奏予約する楽曲を旋律検索するとともに演奏キーを設定する方法
JP2005539254A (ja) * 2002-09-16 2005-12-22 松下電器産業株式会社 音声認識を利用したメディアファイルのアクセスおよび検索におけるシステムと方法
JP2006501502A (ja) * 2002-09-30 2006-01-12 ヒューレット−パッカード デベロップメント カンパニー エル.ピー. オーディオトラックのオーディオサムネイルを生成するシステムおよび方法
WO2004049188A1 (en) * 2002-11-28 2004-06-10 Agency For Science, Technology And Research Summarizing digital audio data
JP2006525537A (ja) * 2003-04-14 2006-11-09 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ コンテンツ解析を用いて音楽ビデオを要約する方法及び装置
JP2004326840A (ja) * 2003-04-21 2004-11-18 Pioneer Electronic Corp 音楽データ選曲装置、音楽データ選曲方法、並びに、音楽データの選曲プログラムおよびそれを記録した情報記録媒体

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JPN6012008020; Adam L. Berenzweig、Daniel P. W. Ellis: 'Locating Singing Voice Segments Within Music Signals' Proceedings of IEEE Workshop on Applications of Signal Processing to Audio and Acoustics , 200110 *
JPN6012008022; Mark A. Bartsch、Gregory H. Wakefield: 'To Catch a Chorus: Using Chroma-Based Representations for Audio Thumbnailing' Proceedings of IEEE Workshop on Applications of Signal Processing to Audio and Acoustics , 200110 *

Also Published As

Publication number Publication date
ATE440334T1 (de) 2009-09-15
US8106285B2 (en) 2012-01-31
US7842873B2 (en) 2010-11-30
EP1818837B1 (en) 2009-08-19
US20110035217A1 (en) 2011-02-10
DE602006008570D1 (de) 2009-10-01
EP1818837A1 (en) 2007-08-15
JP5193473B2 (ja) 2013-05-08
US20080065382A1 (en) 2008-03-13

Similar Documents

Publication Publication Date Title
JP5193473B2 (ja) オーディオファイルをスピーチ駆動の選択するシステムおよび方法
EP1909263B1 (en) Exploitation of language identification of media file data in speech dialog systems
US11594215B2 (en) Contextual voice user interface
US11270685B2 (en) Speech based user recognition
Mesaros et al. Automatic recognition of lyrics in singing
US10140973B1 (en) Text-to-speech processing using previously speech processed data
EP1693829B1 (en) Voice-controlled data system
CN106463113B (zh) 在语音辨识中预测发音
EP1936606B1 (en) Multi-stage speech recognition
US10147416B2 (en) Text-to-speech processing systems and methods
US8606581B1 (en) Multi-pass speech recognition
US9202466B2 (en) Spoken dialog system using prominence
US10565989B1 (en) Ingesting device specific content
JP2007114475A (ja) 音声認識機器制御装置
JP5326169B2 (ja) 音声データ検索システム及び音声データ検索方法
US8566091B2 (en) Speech recognition system
US11355112B1 (en) Speech-processing system
Mesaros Singing voice identification and lyrics transcription for music information retrieval invited paper
CN116917984A (zh) 交互式内容输出
Suzuki et al. Music information retrieval from a singing voice using lyrics and melody information
EP2507792B1 (en) Vocabulary dictionary recompile for in-vehicle audio system
JP3472101B2 (ja) 音声入力解釈装置及び音声入力解釈方法
Kruspe Keyword spotting in singing with duration-modeled hmms
JP5196114B2 (ja) 音声認識装置およびプログラム
US11393451B1 (en) Linked content in voice user interface

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100129

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110124

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120215

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120514

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130117

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130204

R150 Certificate of patent or registration of utility model

Ref document number: 5193473

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160208

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250