JP2007213060A

JP2007213060A - オーディオファイルをスピーチ駆動の選択するシステムおよび方法

Info

Publication number: JP2007213060A
Application number: JP2007019871A
Authority: JP
Inventors: Franz S Gerl; エス．ゲールフランツ; Daniel Willett; ウィレットダニエル; Raymond Brueckner; ブリュエクナーレイモンド
Original assignee: Harman Becker Automotive Systems GmbH
Current assignee: Harman Becker Automotive Systems GmbH
Priority date: 2006-02-10
Filing date: 2007-01-30
Publication date: 2007-08-23
Anticipated expiration: 2027-01-30
Also published as: ATE440334T1; US8106285B2; US7842873B2; EP1818837B1; US20110035217A1; DE602006008570D1; EP1818837A1; JP5193473B2; US20080065382A1

Abstract

【課題】オーディオファイルにおけるリフレインを検出するための方法を提供すること。
【解決手段】本発明は、発声構成要素を含んでいるオーディオファイルにおけるリフレインを、オーディオファイルの主要部分の音声転写を生成するステップと、音声転写を分析し、頻繁に繰り返される生成された音声転写における発声セグメントを識別するステップであって、識別された頻繁に繰り返された発声セグメントはリフレインを表す、ステップとを用いて検出する方法に関する。更に、本発明は、検出されたリフレインおよびユーザ入力の類似性に基づいたスピーチ駆動の選択に関する。
【選択図】図１

Description

本発明は、オーディオファイルにおけるリフレインを検出する方法、オーディオファイルを処理する方法、オーディオファイルをスピーチ駆動の選択する方法、およびそれぞれのシステムに関する。

本発明は、ＣＤ、ハードディスク等のストレージ媒体に格納されるオーディオデータまたはオーディオファイルが提供される車両において特に適用を見出す。

運転中に運転手は彼の周りの交通状況を注意深くみるべきであり、従って、カーオーディオシステムから、同時に車両の運転手であるシステムのユーザへのビジュアルインターフェースは不利である。従って、車両に組み入れられるデバイスのスピーチ制御動作は、より関心をそそるものになっている。

オーディオアーカイブが急速に増え、かつ触覚インターフェースが長いリストからの選択に対しては使用するのが結果的に困難になっている一方、車における安全局面以外に、オーディオアーカイブへのスピーチ駆動のアクセスは、携帯またはホームオーディオプレーヤに対しても問題になっている。

近頃、Ａｐｐｌｅ社からのｉＴｕｎｅｓのような集中商用データベースを通じて利用可能なオーディオまたはビデオファイルのようなメディアファイルの使用は、大変よく知られている。更に、これらのオーディオまたはビデオファイルのデジタルに格納されるデータとしての使用は、異なる圧縮技術を用いてコンパクトな方法においてこれらのデータファイルの格納を可能にするシステムが開発されたという事実によって、大いに広まった現象になった。更に、コンパクトディスクまたは他のストレージ媒体に以前に提供された音楽データをコピーすることは、近年において可能になった。

時々、これらのデジタルに格納されるオーディオファイルは、タグに格納され得るメタデータを含む。オーディオファイルのボイス制御選択は、チャレンジングなタスクである。第１に、オーディオファイルのタイトルまたはファイルを選択するためにユーザが使用する表現は、多くは、ユーザの母国語ではない。更に、異なる媒体に格納されるオーディオファイルは、オーディオファイル自体についての音声情報または表記（ｏｒｔｈｏｇｒａｐｈｉｃ）情報が格納されるタグを必ずしも含まない。そのようなタグが存在しても、文字符号化が不明であり、表記ラベルの言語が不明である事実によって、または未解決の略語、スペリングの間違い、大文字およびラテンではない文字の不注意な使用等によって、オーディオファイルのスピーチ駆動の選択は頻繁に失敗する。

更に、一部の場合においては、曲のタイトルは、曲のリフレインの最も顕著な部分を表さない。多数のそのような場合においては、しかしながら、ユーザはこの状況に対して気付かないが、代わりにスピーチ駆動のオーディオプレーヤにおけるオーディオファイルを選択するためのリフレインの単語を発する。

従って、オーディオファイルをより容易に識別するために役立つ可能性を提供することによって、オーディオファイルのスピーチ制御選択を改良するニーズが存在する。

このニーズは、独立請求項に述べられる特徴によって満たされる。従属請求項においては、本発明の好適な実施形態が記載される。

本発明の第１の局面によると、本発明は、発声構成要素を含んでいるオーディオファイルにおけるリフレインを検出する方法に関する。この方法の第１の局面に従って、オーディオファイルの主要部分の音声転写が生成される。更に、音声転写の生成後、音声転写は分析され、頻繁に繰り返される、音声転写における１つ以上の発声セグメントは識別される。この音声転写を分析することによって識別された音声転写の頻繁に繰り返された発声セグメントは、リフレインまたはリフレインの少なくとも一部を表す。本発明は、オーディオファイルを選択するためにユーザが発する曲のタイトルまたは表現がリフレインに含まれるという考えに基づいている。更に、前述されたように、曲のタイトルは、曲の最も顕著な部分を表さない場合もある。後で述べられるように、このリフレインの生成された音声転写は、オーディオファイルを識別するために役立ち、かつオーディオファイルのスピーチ駆動の選択に役立つ。現在のコンテキストにおいて、「音声転写」という用語は、音声転写が記号による発音の表現であるように解釈されたい。音声転写は、ただ単にＳＡＭＰＡのような言語に表される音声スペルというわけではなく、ストリングによる発音を説明する。音声転写という用語は、「音響表現および音声表現」によっても置換され得る。

更に、「オーディオファイル」という用語は、オーディオＣＤのデータ、またはビットストリームの形式における任意の他のデジタルオーディオデータも含むものとして理解されたい。

リフレインを含む音声転写における発声セグメントを識別するために、本方法は、発声構成要素を有しているオーディオファイルの一部を最初に識別するステップをさらに包含し得る。このプレセグメント化の結果は、「発声部」として以下呼ばれる。更に、発声分離は、非発生部（すなわち、オーディオファイルのインストラメンタル部）を減衰するために適用され得る。音声転写は次いで、ファイルの発声構成要素が非発声部に対して強められたオーディオファイルに基づいて生成される。このフィルタリングは、生成された音声転写を改良するために役立つ。

分析された音声転写に加えて、曲の繰り返される部分を識別するために、曲のメロディー、リズム、パワーおよびハーモニックスが分析され得る。繰り返されるセグメントが識別され得る。曲のリフレインは通常、同じメロディー、ならびに同様のリズム、パワーおよびハーモニックスを用いて歌われる。これは、音声類似性に対してチェックされるべき組み合わせの数を減少させる。従って、生成された音声データとオーディオファイルのメロディーとの組み合わされた評価は、曲内におけるリフレインの認識率を改良するために役立つ。

オーディオファイルの音声転写が分析されると、音声転写の所定の部分がオーディオデータ内にて少なくとも２回識別され得る場合、その音声転写の所定の部分がリフレインを表すことが決定され得る。その一方、リフレインの２つの異なる発生に対して認識器によって生成される音声ストリングがほとんど完全に同一にならないため、音声ストリングのこの比較は一部の変動を可能にする必要がある。リフレインが発声オーディオファイルに存在するという事実を決定するために必要である任意の数の繰り返しを使用することは可能である。

リフレインを検出するためにオーディオファイル全体が分析される必要はない。従って、プレセグメント化を適用する場合において、完全なオーディオファイルまたは完全な発声部の音声転写を生成する必要はない。しかしながら、リフレインに対する認識率を改良するために、オーディオファイルのデータの主要部分（例えば、データまたは発声部の７０％から８０％の間）は分析されるべきであり、かつ音声転写は生成されるべきである。音声転写がオーディオファイル（またはプレセグメント化の場合、発声部）の約５０％より少なく生成された場合、リフレイン検出は多くの場合、非常に間違っている。

本発明は、オーディオファイルにおけるリフレインを検出するためのシステムにさらに関する。ここにおいて、システムは、オーディオファイルの音声転写を自動的に生成する音声転写ユニットを含む。更に、生成された音声説明を分析する分析ユニットが提供される。分析ユニットはさらに、頻繁に繰り返される転写の発声セグメントを識別する。上述された方法およびシステムは、オーディオファイルの音声転写に基づいてリフレインを識別するために役立つ。後で述べられるように、リフレインのこの検出は、オーディオファイルを識別するために使用され得る。

本発明の他の局面に従って、少なくとも発声構成要素を有するオーディオファイルを処理する方法が提供される。本方法は、オーディオファイルのリフレインを検出するステップ、リフレインまたはリフレインの少なくとも一部の音声転写を生成するステップ、およびオーディオファイルとともに生成された音声転写を格納するステップを包含する。この方法は、オーディオファイルを識別するために後で使用され得るオーディオファイルに関連するデータを自動的に生成するために役立つ。

本発明の好適な実施形態に従って、オーディオファイルのリフレインは上述のように検出され得る。すなわち、オーディオファイルの主要部分に対する音声転写であって、音声転写内において繰り返す同様のセグメントがリフレインとして識別される、音声転写を生成する。

しかしながら、曲のリフレインは、他の検出方法を用いても検出され得る。従って、音声転写ではなく、オーディオファイル自体を分析し、かつ頻繁に繰り返されるボイスを含む構成要素を検出することが可能になり得る。更に、両方のアプローチを一緒に使用することも可能である。

本発明の他の実施形態に従って、リフレインは、オーディオファイルのメロディー、ハーモニーおよび／またはリズムを分析することによっても検出され得る。リフレインを検出するこの方法は、単独で使用され得るか、または上述された２つの他の方法と一緒に使用され得る。

検出されたリフレインが所定の曲またはオーディオファイルに対して非常に長いリフレインである場合もある。これらの長いリフレインは、曲のタイトルを完全には表さない場合があり、かつスピーチ駆動のオーディオプレーヤにある曲を選択するためにユーザが直観的に使用する表現を完全には表さない場合もある。従って、本発明の他の局面に従って、本方法は、検出されたリフレインをさらに分解し、かつリフレインを異なるサブ部分に分けるステップをさらに包含し得る。この方法は、韻律、音の大きさおよび／または検出された発声ポーズを考慮し得る。決定されたリフレインの更なる分解は、リフレインの重要部分、すなわち上述のファイルを選択するためにユーザが発し得るリフレインの一部を識別するために役立ち得る。

本発明は、少なくとも発声構成要素を有するオーディオファイルを処理するシステムにさらに関する。本システムは、オーディオファイルのリフレインを検出する検出ユニット、リフレインの音声転写を生成する転写ユニット、およびオーディオデータにリンクされた音声転写を格納するための制御ユニットを含む。制御は、オーディオファイル内に音声転写を格納する必要は必ずしもない。オーディオファイルを識別するリフレインの音声転写が別々のファイルに格納されていて、かつ音声転写から、音楽を含むオーディオデータ自体へのリンクが存在することも可能である。

更に、本発明は、オーディオプレーヤにおける複数のオーディオファイルから一つのオーディオファイルをスピーチ駆動の選択することに関する。本方法は、少なくとも、オーディオファイルのリフレインを検出するステップを含む。更に、リフレインの少なくとも一部の音声表現および音響表現が決定される。この表現は、記号または音響特徴のシーケンスになり得る。更に、この表現は、音響波形自体または任意の前述のものから導出した統計モデルになり得る。この表現は次いで、スピーチ認識ユニットに供給され、そのユニットで、オーディオプレーヤのユーザから発されたボイス命令と比較される。オーディオファイルの選択は次いで、音声表現または音響表現とボイス命令との比較の最も一致する結果に基づく。オーディオファイルのスピーチ駆動の選択のこのアプローチは、タイトルの言語情報またはタイトル自体がオーディオファイルを識別するために必要ではないという利点を有する。他のアプローチに対しては、音楽情報サーバは、曲を識別するためにアクセスされなければならない。オーディオファイルの最も重要な部分の音声表現または音響表現を自動的に生成することによって、曲のタイトルおよびリフレインについての情報が取得され得る。ユーザが彼または彼女が選択したい所定の曲を考えている場合、彼または彼女は、曲内に使用される発音を多かれ少なかれ使用する。この発音は、リフレインの生成された表現にも反映されている。そのため、スピーチ認識ユニットが曲のリフレインのこの音声表現または音響表現を入力として使用できる場合、オーディオファイルのスピーチ制御選択は改良され得る。大抵のポップな音楽が英語で歌われ、かつ世界のほとんどの人々が異なる母国語を有している中で、この状況は特に現実的に重要である。おそらく、リフレインの音響ストリングは、ほとんどの場合間違っている。それにも関らず、自動的に取得されたストリングは、音楽データへのスピーチ駆動のアクセスを可能にするためにスピーチ認識システムによって必要とされるベースとして役立ち得る。その分野において周知のように、スピーチ認識システムは、統計モデル技術に基づくスピーチ認識ユニットに適用されるパターン一致技術を使用し、最も良い一致エントリが使用される。リフレインの音声転写は、ユーザがボイス命令を介してオーディオファイルを選択した場合に認識率を改良するために役立つ。本発明の一局面に従って、音声転写は、オーディオファイル自体から取得される。データの説明は、データ自体を用いて生成される。

リフレインの音声表現または音響表現は、リフレインの特性を表す文字または音響特徴のストリングである。ストリングは文字のシーケンスを含み、ストリングの文字は、音素、文字または音節として表され得る。ユーザのボイス命令は、ボイス命令の音響特徴を表す文字の他のシーケンスにも変換される。リフレインの音響ストリングとボイス命令の文字のシーケンスとの比較は、リフレインおよびボイス命令の任意の表現において行われ得る。スピーチ認識ユニットにおいて、リフレインの音響ストリングは、ボイス命令が比較されるエントリのリストの更なる可能なエントリとして使用される。ボイス命令とリフレインの表現を含むエントリのリストとの間の一致ステップが実行され、最も一致する結果が使用される。これらの一致アルゴリズムは、統計モデル（例えば、隠れたマルコフモデル）に基づく。

音声表現または音響表現は、更に、有限文法または統計言語モデルにおける要素としてスピーチ認識器に組み入れられ得る。通常、ユーザは、「再生」または「消去」等の他の表現と一緒にリフレインを使用する。

リフレインの音響表現の統合は、「再生」および［リフレインの名前］の構成要素を含むスピーチ命令を正確に識別するために役立つ。

本発明の一実施形態に従って、リフレインの音声転写が生成され得る。この音声転写は次いで、オーディオプレーヤのユーザのボイス命令の音素のストリングと比較され得る。

リフレインは、上述されたように検出され得る。これは、リフレインが、オーディオファイルの主要部分の音声転写を生成し、次いで転写内における繰り返すセグメントを識別することによって検出され得ることを意味する。しかしながら、更に上述されたように、曲全体の音声転写を生成せずにリフレインが検出されることも可能である。他の方法においてリフレインを検出し、リフレインが検出された場合のみにリフレインの音声表現または音響表現を生成することも可能である。この場合、転写が生成される必要がある曲の部分は、曲全体が音声転写に変換される場合と比べかなり小さい。

本発明の他の実施形態に従って、検出されたリフレイン自体またはリフレインの生成された音声転写は、さらに分解され得る。

オーディオファイルのスピーチ駆動の選択の可能な拡張は、ユーザ発声およびそれぞれのリフレイン部の音声類似性一致とメロディー類似性一致との組み合わせになり得る。このために、リフレインのメロディーは決定され得、かつスピーチ命令のメロディーは決定され得、２つのメロディーは互いに比較される。オーディオファイルの１つが選択された場合、メロディー比較のこの結果は、ユーザがどのオーディオファイルを選択したかったかの決定のために更に使用され得る。これは、ユーザがリフレインのメロディー構造も一致させることをやり遂げる場合において、特に良い認識精度に導き得る。このアプローチにおいて、周知の「Ｑｕｅｒｙ−Ｂｙ−Ｈｕｍｍｉｎｇ」アプローチは、強化されたジョイント性能のために、提案された音声一致アプローチと組み合わされる。

本発明の他の実施形態に従って、リフレインの音声転写は、上述されたように、オーディオファイルを処理することによって生成され得る。

本発明は、オーディオファイルのリフレインを検出するためのリフレイン検出ユニットを含む、オーディオファイルをスピーチ駆動の選択するシステムにさらに関する。更に、リフレインの音声表現または音響表現を生成して、リフレインの音響ストリングを決定するための手段が提供される。この表現は次いで、スピーチ認識ユニットに送り込まれ、そのスピーチ認識ユニットで、ユーザのボイス命令と比較され、かつ比較の最も一致する結果を決定する。更に、最も一致する結果を受信して、結果に従ってオーディオファイルを選択する制御ユニットが提供される。システムの異なる構成要素が、１つの単一のユニットに組み入れられる必要はないことが理解されたい。例えば、リフレイン検出ユニットおよびリフレインの少なくとも一部の音声表現または音響表現を決定するための手段は、１つの計算ユニットに提供され得るが、スピーチ認識ユニットおよびファイルの選択を担う制御ユニットは、他のユニット、例えば、車両に組み入れられるユニットに提供され得る。

提案されたリフレイン検出、ならびにオーディオファイルおよびストリームのスピーチ駆動の選択のための発音ストリングの音声認識ベースの生成が、発音ストリングの生成のためのラベル（ＭＰ３タグのような）を分析するより従来の方法に追加の方法として適用され得ることが理解されたい。この組み合われた適用シナリオにおいて、リフレイン検出ベースの方法は、有用な発音代替を生成するために使用され得、かつ有用なタイトルタグが利用可能ではないオーディオファイルおよびストリームのための発音ストリングの主要源として役立ち得る。ＭＰ３タグがリフレインの一部であるか否かもチェックされ得、特定の曲が正確にアクセスされ得るという信頼性が増す。

本発明が携帯オーディオプレーヤにも適用され得ることも更に理解されたい。このコンテキストにおいては、この携帯オーディオプレーヤは、複雑なリフレイン検出を行い、かつリフレインの音声表現または音響表現を生成するためのハードウェア能力を有さない場合がある。これらの２つのタスクがデスクトップコンピュータのような計算ユニットによって実行され得る一方、スピーチ命令の認識およびリフレインの音声表現または音響表現に対するスピーチ命令の比較は、オーディオプレーヤ自体において行われる。

更に、音楽における発声を発音どおりに注釈するために使用される音声転写ユニットおよびユーザ入力を認識するために使用される音声転写ユニットが、必ずしも同一である必要はないことに留意されたい。音楽における発声の音声注釈のための認識エンジンは、この目的のために特別に適合される専用エンジンになり得る。例えば、音声転写ユニットが、ほとんどの曲が英語で歌われる中、英語文法データベースを有し得える一方、ユーザのスピーチ命令を認識するスピーチ認識ユニットは、スピーチ駆動のオーディオプレーヤの言語によって他の言語データベースを使用し得る。しかしながら、これら２つの転写ユニットにより出力される音声データが比較される必要があるため、これらの２つの転写ユニットは、同様の発声カテゴリを利用するべきである。

本発明は、さらに以下の手段を提供する。

（項目１）
発声構成要素を含んでいるオーディオファイルにおけるリフレインを、
該オーディオファイルの主要部分の音声転写を生成するステップと、
該音声転写を分析し、頻繁に繰り返される該生成された音声転写における発声セグメントを識別するステップであって、該識別された頻繁に繰り返された発声セグメントは該リフレインを表す、ステップと
を用いて検出する方法。

（項目２）
発声部および非発声部へと上記オーディオファイルをプレセグメント化するステップと、更なる処理のために該非発声部を放棄するステップとをさらに包含することを特徴とする、項目１に記載の方法。

（項目３）
上記オーディオファイルの上記非発声構成要素を減衰し、および／または上記発声構成要素を増幅するステップと、結果として生じるオーディオファイルに基づいて上記音声転写を生成するステップとをさらに包含することを特徴とする、項目２に記載の方法。

（項目４）
繰り返される曲のセグメントを識別し、それによって上記リフレインの上記検出を改良するようにオーディオファイルまたはストリームを構築する目的のために、曲のメロディー、リズム、パワー、およびハーモニックスを分析するステップをさらに包含することを特徴とする、項目１〜３のいずれか一項に記載の方法。

（項目５）
上記発声セグメントが上記音声転写内に少なくとも２回識別され得た場合、該発声セグメントはリフレインとして識別されることを特徴とする、項目１〜４のいずれか一項に記載の方法。

（項目６）
上記オーディオファイルのプレセグメント化の場合において、上記音声転写が、上記データの主要部分および該データの発声部のために生成されることを特徴とする、項目１〜５のいずれか一項に記載の方法。

（項目７）
オーディオファイルにおけるリフレインを検出するためのシステムであって、該オーディオファイルは少なくとも発声構成要素を含み、該システムは、
該オーディオファイルの主要部分の音声転写を生成する音声転写ユニット（４０）と、
該生成された音声転写を分析、頻繁に繰り返される該音声転写内の発声セグメントを識別する分析ユニットと
を備える、システム。

（項目８）
少なくとも発声構成要素を有するオーディオファイルを処理する方法であって、
該オーディオファイルのリフレインを検出するステップと、
該リフレインの音声表現または音響表現を生成するステップと、
該オーディオファイルとともに、該生成された音声表現または音響表現を格納するステップと
を包含する、方法。

（項目９）
上記リフレインを上記検出するステップが、ボイスを含む上記オーディオファイルの頻繁に繰り返すセグメントを検出するステップを含む、項目８に記載の方法。

（項目１０）
上記リフレインを上記検出するステップが、上記オーディオファイルの主要部分の音声転写を生成するステップを含み、該オーディオファイルの該音声転写内における繰り返す同様のセグメントが、リフレインとして識別される、項目８または９に記載の方法。

（項目１１）
上記リフレインを上記検出するステップが、上記オーディオファイルのメロディー、ハーモニックおよび／またはリズム分析のステップを含む、項目８〜１０のいずれか一項に記載の方法。

（項目１２）
上記リフレイン内の韻律、音の大きさおよび／または発声ポーズを考慮することによって該検出されたリフレインをさらに分解するステップをさらに包含することを特徴とする、項目８〜１１のいずれか一項に記載の方法。

（項目１３）
上記リフレインが項目１〜６のいずれか一項に記載のように検出される、項目８〜１２のいずれか一項に記載の方法。

（項目１４）
少なくとも発声構成要素を有するオーディオファイルを処理するためのシステムであって、
該オーディオファイルのリフレインを検出する検出ユニット（３０）と、
該リフレインの音声表現または音響表現を生成する転写ユニット（４０）と、
該オーディオデータにリンクされた該音声表現または音響表現を格納するための制御ユニット（７０）と
を少なくとも備える、方法。

（項目１５）
オーディオプレーヤにおける複数のオーディオファイルから一つのオーディオファイルをスピーチ駆動の選択する方法であって、該オーディオファイルは少なくとも発声構成要素を含み、該方法は、
該オーディオファイルのリフレインを検出するステップと、
該リフレインの少なくとも一部の音声表現または音響表現を決定するステップと、
該音声表現または音響表現をスピーチ認識ユニットに供給するステップと、
該音声表現または音響表現を該オーディオプレーヤのユーザのボイス命令と比較し、該比較の最も一致する結果に基づいてオーディオファイルを選択するステップと
を包含する、方法。

（項目１６）
統計モデルが、上記ボイス命令を上記音声表現または音響表現と比較するために使用される、項目１５に記載の方法。

（項目１７）
上記リフレインの音声表現または音響表現が、有限文法または統計言語モデルにおける要素としてスピーチ認識器に組み入れられる、項目１５または１６に記載の方法。

（項目１８）
上記オーディオファイルを選択するために、上記リフレインの音声表現または音響表現が、上記最も一致する結果に基づいて該オーディオファイルを選択するための他の方法に加えて使用される、項目１５〜１７のいずれか一項に記載の方法。

（項目１９）
上記オーディオファイルとともに格納された音声データが、該オーディオファイルを選択するために更に使用される、項目１８に記載の方法。

（項目２０）
上記リフレインの少なくとも一部の音声表現または音響表現を生成するステップをさらに包含し、該音声表現または音響表現は上記スピーチ認識ユニットに供給されていて、上記ボイス命令が上記統計モデルの可能なエントリと比較された場合、該音声表現または音響表現が考慮される、項目１５〜１９のいずれか一項に記載の方法。

（項目２１）
上記検出されたリフレインまたは上記生成された音声表現もしくは音響表現をセグメント化するステップをさらに包含することを特徴とする、項目１５〜２０のいずれか一項に記載の方法。

（項目２２）
上記リフレインまたは上記音声表現もしくは音響表現の上記更なるセグメント化のために、上記オーディオファイルの韻律、音の大きさ、発声ポーズが考慮される、項目２１に記載の方法。

（項目２３）
上記リフレインが項目１〜５のいずれか一項に記載のように検出される、項目１５〜２２のいずれか一項に記載の方法。

（項目２４）
上記リフレインの上記音声表現または音響表現を生成するために、上記オーディオファイルが項目７〜１２のいずれか一項に記載のように処理される、項目１５〜２３のいずれか一項に記載の方法。

（項目２５）
上記リフレインのメロディーを決定するステップと、
スピーチ命令のメロディーを決定するステップと、
該２つのメロディーを比較するステップと、
該メロディー比較の結果も考慮して上記オーディオファイルのうちの１つを選択するステップと
をさらに包含することを特徴とする、項目１５〜２４のいずれか一項に記載の方法。

（項目２６）
オーディオファイルをスピーチ駆動の選択するシステムであって、
該オーディオファイルのリフレインを検出するためのリフレイン検出ユニット３０と、
該検出されたリフレインの音声表現または音響表現を決定するための手段と、
該音声表現または音響表現を該オーディオファイルを選択するユーザのボイス命令と比較し、かつ該比較の最も一致する結果を決定するスピーチ認識ユニットと、
該比較の該結果に従って該オーディオファイルを選択する制御ユニットと
を備える、システム。

（摘要）
本発明は、発声構成要素を含んでいるオーディオファイルにおけるリフレインを、オーディオファイルの主要部分の音声転写を生成するステップと、音声転写を分析し、頻繁に繰り返される生成された音声転写における発声セグメントを識別するステップであって、識別された頻繁に繰り返された発声セグメントはリフレインを表す、ステップとを用いて検出する方法に関する。更に、本発明は、検出されたリフレインおよびユーザ入力の類似性に基づいたスピーチ駆動の選択に関する。

本発明により、オーディオファイルをより容易に識別するために役立つ可能性を提供することによって、オーディオファイルのスピーチ制御選択が改良され得る。

本発明の上記の特定の実施形態は、添付の図面に対して例を用いて説明される。

図１には、ボイス命令によって識別され得るように構成されているオーディオデータを提供することに役立つシステムが示される。ここにおいて、ボイス命令は、リフレインの一部またはリフレイン全体を含む。例えば、ユーザがコンパクトディスクを引き裂いた場合、引き裂かれたデータは通常、音楽データを識別するために役立つ追加情報を少しも含まない。図１に示されるシステムを用いて、音楽データは、音楽データがボイス制御オーディオシステムによってより簡単に選択され得るように作成され得る。

システムは、異なるオーディオファイル１１を含むストレージ媒体１０を含む。ここにおいて、オーディオファイルは、発声構成要素を有する任意のオーディオファイルである。例えば、オーディオファイルは、送受信器（ｔｒａｎｓｍｉｔｔｅｒｒｅｃｅｉｖｅｒ）２０を介して音楽サーバからダウンロードされ得るか、またはオーディオファイルが異なるアーチストのオーディオファイルであり、かつオーディオファイルがポップ音楽、ジャズ、クラシック等のような異なるジャンルであるように他のストレージ媒体からコピーされ得る。ＭＰ３、ＡＡＣ、ＷＭＡ、ＭＯＶ等のような形式においてオーディオファイルを格納するコンパクトな方法によって、ストレージ媒体は次いで、大量のオーディオファイルを含み得る。オーディオファイルの識別を改良するために、オーディオファイルは、楽曲のリフレインが識別されるようにデジタルデータを分析するリフレイン検出ユニットに送信される。曲のリフレインは、複数の方法おいて検出され得る。一可能性は、音楽信号自体における頻繁に繰り返すセグメントの検出である。他の可能性は、オーディオファイル全体の音声転写またはオーディオファイルの少なくとも主要部分の音声転写を生成する音声転写ユニット４０の使用である。リフレイン検出ユニットは、結果として生じる音素のストリング内の同様のセグメントを検出する。完全なオーディオファイルが音声転写に変換されなかった場合、リフレインはユニット３０において最初に検出され、かつリフレインは、音声転写ユニット４０に送信され、その音声転写ユニットは、その後リフレインの音声転写を生成する。生成された音素データは、データが、データベース１０´に示されるようにそれぞれのオーディオファイルとともに格納されるように、制御ユニット５０によって処理され得る。データベース１０´は、図１のデータベース１０と同じデータベースになり得る。示される実施形態においては、異なるユニット３０、４０および５０による処理の前のオーディオファイルと処理の後のオーディオファイルとの間の違いを強調するために、データベースは別々のデータベースとして示される。

リフレインまたはリフレインの一部の音声転写を含むタグは、オーディオファイル自体に直接格納され得る。しかしながら、タグは、オーディオファイルと独立に、例えば別々の態様で格納されているが、オーディオファイルにリンクされ得る。

図２において、データ処理を実行するために必要な異なるステップが要約される。ステップ６１にて処理を開始した後、曲のリフレインはステップ６２にて検出される。リフレイン検出は、複数の可能な候補を提供する場合もある。ステップ６３においては、リフレインの音声転写が生成される。曲の異なるセグメントがリフレインとして識別された場合、これらの異なるセグメントに対して音声転写が生成され得る。次のステップ６４においては、音声転写（単数または複数）は、処理がステップ６５にて終了する前に音声転写がそれらのそれぞれの音声ファイルにリンクされるように格納される。図２に示されるステップは、オーディオデータを提供するために役立つ。ここにおいて、該オーディオデータは、オーディオファイルのボイス制御選択の正確さが改良されるように処理される。

図３においては、オーディオファイルをスピーチ駆動の選択するために使用され得るシステムが示される。そのようなシステムは、図１に示される構成要素を含む。図３に示される構成要素が、１つの単一のユニットに組み入れられる必要がないことが理解されたい。図３のシステムは、異なるオーディオファイル１１を含むストレージ媒体１０を含む。図１および図２に関連して説明されたように、ユニット３０においてリフレインは検出され、リフレインは、オーディオファイルとともにデータベース１０´に格納され得る。ユニット３０がリフレインを検出した場合、リフレインは、リフレインの音声転写を生成する第１の音声転写ユニットに送り込まれる。この転写は、曲のタイトルを含む高い可能性を有する。ストレージ媒体１００に格納されるオーディオファイル１１のうちの１つをユーザがそのときに選択したい場合、ユーザは、ボイス命令を発する。そのボイス命令は、後に、検出され、かつボイス命令の音素のストリングを生成する第２の音声転写ユニット６０によって処理される。更に、第１の音声転写ユニット４０の音声データを第２の音声転写ユニット６０の音声データと比較する制御ユニット７０が提供される。制御ユニットは、最も一致する結果を使用し、かつオーディオプレーヤ８０に結果を送信し、そのオーディオプレーヤ８０はその後、再生されるべき対応のオーディオファイルをデータベース１０´から選択する。図３の実施形態に見られるように、オーディオファイルの言語またはタイトル情報は、オーディオファイルの１つを選択するために必要ではない。更に、リモート音楽情報サーバへのアクセス（例えば、インターネットを介して）も、オーディオデータを識別するために必要とされていない。

図４においては、オーディオファイルをスピーチ駆動の選択するために使用され得るシステムの他の実施形態が示される。システムは、異なるオーディオファイル１１を含むストレージ媒体１０を含む。更に、各々のファイルに対してリフレインの主要部分の音響表現および音声表現を引き出し、かつリフレインを表すストリングを生成する音響および音声転写ユニットが提供される。この音響ストリングは、次いでスピーチ認識ユニット２５に送り込まれる。スピーチ認識ユニット２５においては、音響表現および音声表現は統計モデルのために使用される。ここにおいて、スピーチ認識ユニットは、ユーザによって発されるボイス命令を、統計モデルに基づくスピーチ認識ユニットの異なるエントリと比較する。ユーザが行いたかった選択を表して、比較の最も一致する結果が決定される。この情報は制御ユニット５０に送り込まれ、その制御ユニットは、オーディオファイルを含むストレージ媒体にアクセスし、選択されるオーディオファイルを選択し、かつ選択されたオーディオファイルが再生され得るオーディオプレーヤにオーディオファイルを送信する。

図５においては、オーディオファイルのボイス制御選択を実行するために必要な異なるステップが示される。処理はステップ８０にて開始する。ステップ８１にてリフレインは検出される。図２に関連して説明される方法の１つに従って、リフレインの検出が実行され得る。ステップ８２にてリフレインを表す音響表現および音声表現が決定され、次いでステップ８３にてスピーチ認識ユニット２５に供給される。ステップ８４にてボイス命令は検出され、スピーチ命令が音響表現／音声表現と比較されるスピーチ認識ユニットにもボイス命令が供給される（ステップ８５）。オーディオファイルは、比較の最も一致する結果に基づいて選択される（ステップ８６）。ステップ８７にて方法は終了する。

ステップ８１における検出されたリフレインが非常に長い場合もあり得る。これらの非常に長いリフレインは、曲のタイトルを完全に表さない場合もあり、かつスピーチ駆動のオーディオプレーヤにある曲を選択するためにユーザが何を直観的に発するかを表さない場合もある。従って、検出されたリフレインをさらに分解する更なる処理ステップ（図示せず）が提供され得る。リフレインをさらに分解する目的で、リフレイン内の曲のタイトルを検出するために韻律、音の大きさおよび検出された発声ポーズが考慮され得る。リフレインが音声描写に基づいてまたは信号自体に基づいて検出されるかの事実によって、オーディオファイルの長いリフレインはそれ自体が分解され得るかまたはさらにセグメント化され得る。あるいはオーディオファイルを選択するためにユーザがおそらく発するであろう情報を引き出すためにリフレインの取得された音声表現はさらにセグメント化され得る。

従来技術においては、オーディオファイルに提供されるタグの小さな割合だけが、スピーチ駆動のオーディオプレーヤにある曲を選択するためにユーザが何を発するかを本当に表す有用な音声ストリングに変換され得る。更に、それどころか、曲タグは、完全に失われるているか、破損されているか、または未定義コーディングおよび言語にある。本発明は、これらの欠点を克服するために役立つ。

以上のように、本発明の好ましい実施形態を用いて本発明を例示してきたが、本発明は、この実施形態に限定して解釈されるべきものではない。本発明は、特許請求の範囲によってのみその範囲が解釈されるべきであることが理解される。当業者は、本発明の具体的な好ましい実施形態の記載から、本発明の記載および技術常識に基づいて等価な範囲を実施することができることが理解される。

図１は、オーディオファイルが処理後のリフレインに関する音声情報を含むように、オーディオファイルを処理するためのシステムを示す。図２は、図１のシステムに従ってオーディオファイルを処理するためのステップを含むフローチャートを示す。図３は、オーディオファイルの選択のためのボイス制御システムを示す。図４は、オーディオファイルを選択するためのボイス制御システムの他の実施形態を示す。図５は、ボイス命令を用いてオーディオファイルを選択するための異なるステップを含むフローチャートを示す。

符号の説明

１０ストレージ媒体
１０´ データベース
１１オーディオファイル
２０送受信器
３０ユニット
４０音声転写ユニット
５０制御ユニット

Claims

発声構成要素を含んでいるオーディオファイルにおけるリフレインを、
該オーディオファイルの主要部分の音声転写を生成するステップと、
該音声転写を分析し、頻繁に繰り返される該生成された音声転写における発声セグメントを識別するステップであって、該識別された頻繁に繰り返された発声セグメントは該リフレインを表す、ステップと
を用いて検出する方法。
発声部および非発声部へと前記オーディオファイルをプレセグメント化するステップと、更なる処理のために該非発声部を放棄するステップとをさらに包含することを特徴とする、請求項１に記載の方法。
前記オーディオファイルの前記非発声構成要素を減衰し、および／または前記発声構成要素を増幅するステップと、結果として生じるオーディオファイルに基づいて前記音声転写を生成するステップとをさらに包含することを特徴とする、請求項２に記載の方法。
繰り返される曲のセグメントを識別し、それによって前記リフレインの前記検出を改良するようにオーディオファイルまたはストリームを構築する目的のために、曲のメロディー、リズム、パワー、およびハーモニックスを分析するステップをさらに包含することを特徴とする、請求項１〜３のいずれか一項に記載の方法。
前記発声セグメントが前記音声転写内に少なくとも２回識別され得た場合、該発声セグメントはリフレインとして識別されることを特徴とする、請求項１〜４のいずれか一項に記載の方法。
前記オーディオファイルのプレセグメント化の場合において、前記音声転写が、前記データの主要部分および該データの発声部のために生成されることを特徴とする、請求項１〜５のいずれか一項に記載の方法。
オーディオファイルにおけるリフレインを検出するためのシステムであって、該オーディオファイルは少なくとも発声構成要素を含み、該システムは、
該オーディオファイルの主要部分の音声転写を生成する音声転写ユニット（４０）と、
該生成された音声転写を分析、頻繁に繰り返される該音声転写内の発声セグメントを識別する分析ユニットと
を備える、システム。
少なくとも発声構成要素を有するオーディオファイルを処理する方法であって、
該オーディオファイルのリフレインを検出するステップと、
該リフレインの音声表現または音響表現を生成するステップと、
該オーディオファイルとともに、該生成された音声表現または音響表現を格納するステップと
を包含する、方法。
前記リフレインを前記検出するステップが、ボイスを含む前記オーディオファイルの頻繁に繰り返すセグメントを検出するステップを含む、請求項８に記載の方法。
前記リフレインを前記検出するステップが、前記オーディオファイルの主要部分の音声転写を生成するステップを含み、該オーディオファイルの該音声転写内における繰り返す同様のセグメントが、リフレインとして識別される、請求項８または９に記載の方法。
前記リフレインを前記検出するステップが、前記オーディオファイルのメロディー、ハーモニックおよび／またはリズム分析のステップを含む、請求項８〜１０のいずれか一項に記載の方法。
前記リフレイン内の韻律、音の大きさおよび／または発声ポーズを考慮することによって該検出されたリフレインをさらに分解するステップをさらに包含することを特徴とする、請求項８〜１１のいずれか一項に記載の方法。
前記リフレインが請求項１〜６のいずれか一項に記載のように検出される、請求項８〜１２のいずれか一項に記載の方法。
少なくとも発声構成要素を有するオーディオファイルを処理するためのシステムであって、
該オーディオファイルのリフレインを検出する検出ユニット（３０）と、
該リフレインの音声表現または音響表現を生成する転写ユニット（４０）と、
該オーディオデータにリンクされた該音声表現または音響表現を格納するための制御ユニット（７０）と
を少なくとも備える、方法。
オーディオプレーヤにおける複数のオーディオファイルから一つのオーディオファイルをスピーチ駆動の選択する方法であって、該オーディオファイルは少なくとも発声構成要素を含み、該方法は、
該オーディオファイルのリフレインを検出するステップと、
該リフレインの少なくとも一部の音声表現または音響表現を決定するステップと、
該音声表現または音響表現をスピーチ認識ユニットに供給するステップと、
該音声表現または音響表現を該オーディオプレーヤのユーザのボイス命令と比較し、該比較の最も一致する結果に基づいてオーディオファイルを選択するステップと
を包含する、方法。
統計モデルが、前記ボイス命令を前記音声表現または音響表現と比較するために使用される、請求項１５に記載の方法。
前記リフレインの音声表現または音響表現が、有限文法または統計言語モデルにおける要素としてスピーチ認識器に組み入れられる、請求項１５または１６に記載の方法。
前記オーディオファイルを選択するために、前記リフレインの音声表現または音響表現が、前記最も一致する結果に基づいて該オーディオファイルを選択するための他の方法に加えて使用される、請求項１５〜１７のいずれか一項に記載の方法。
前記オーディオファイルとともに格納された音声データが、該オーディオファイルを選択するために更に使用される、請求項１８に記載の方法。
前記リフレインの少なくとも一部の音声表現または音響表現を生成するステップをさらに包含し、該音声表現または音響表現は前記スピーチ認識ユニットに供給されていて、前記ボイス命令が前記統計モデルの可能なエントリと比較された場合、該音声表現または音響表現が考慮される、請求項１５〜１９のいずれか一項に記載の方法。
前記検出されたリフレインまたは前記生成された音声表現もしくは音響表現をセグメント化するステップをさらに包含することを特徴とする、請求項１５〜２０のいずれか一項に記載の方法。
前記リフレインまたは前記音声表現もしくは音響表現の前記更なるセグメント化のために、前記オーディオファイルの韻律、音の大きさ、発声ポーズが考慮される、請求項２１に記載の方法。
前記リフレインが請求項１〜５のいずれか一項に記載のように検出される、請求項１５〜２２のいずれか一項に記載の方法。
前記リフレインの前記音声表現または音響表現を生成するために、前記オーディオファイルが請求項７〜１２のいずれか一項に記載のように処理される、請求項１５〜２３のいずれか一項に記載の方法。
前記リフレインのメロディーを決定するステップと、
スピーチ命令のメロディーを決定するステップと、
該２つのメロディーを比較するステップと、
該メロディー比較の結果も考慮して前記オーディオファイルのうちの１つを選択するステップと
をさらに包含することを特徴とする、請求項１５〜２４のいずれか一項に記載の方法。
オーディオファイルをスピーチ駆動の選択するシステムであって、
該オーディオファイルのリフレインを検出するためのリフレイン検出ユニット３０と、
該検出されたリフレインの音声表現または音響表現を決定するための手段と、
該音声表現または音響表現を該オーディオファイルを選択するユーザのボイス命令と比較し、かつ該比較の最も一致する結果を決定するスピーチ認識ユニットと、
該比較の該結果に従って該オーディオファイルを選択する制御ユニットと
を備える、システム。