JP5266343B2

JP5266343B2 - 署名を生成する方法及び装置

Info

Publication number: JP5266343B2
Application number: JP2010549634A
Authority: JP
Inventors: アレクサンダーパブロヴィッチトプチィ; アランラマスワミィ; ベヌゴパルスリニバサン
Original assignee: ザニールセンカンパニー（ユーエス）エルエルシー
Priority date: 2008-03-05
Filing date: 2008-11-06
Publication date: 2013-08-21
Anticipated expiration: 2028-11-06
Also published as: US20140137146A1; CA2717723C; EP2263335A1; US8600531B2; CN102007714B; CN102007714A; CN102982810B; HK1155863A1; WO2009110932A1; US9326044B2; JP2011521272A; CA2717723A1; EP2263335B1; CN102982810A; ES2512640T3; US20090225994A1

Description

本開示は、一般に、メディア監視、マルチメディア・コンテンツの探索と検索、及びより詳細にはメディア情報の識別に使用される署名を生成するための方法及び装置に関する。

本出願は、２００８年３月５日に出願された米国仮出願６１／０３３，９９２の利益を主張するものであり、この仮出願は、引用により全体が本明細書に組み込まれる。

メディア情報の識別、及びより具体的には署名照合技術を使用した音声信号（たとえば、音声ストリームの情報）の識別は、十分に確立されている。また、署名は、指紋と同等に知られており、指紋と呼ばれることが多い。署名照合技術は、テレビ及びラジオ視聴者計測用途でしばしば使用され、署名を生成し照合するためのいくつかの方法を使用して実施される。たとえば、テレビ視聴者計測用途では、署名は、監視サイト（ｍｏｎｉｔｏｒｉｎｇｓｉｔｅ）（たとえば、被監視世帯）と基準サイト（ｒｅｆｅｒｅｎｃｅｓｉｔｅ）で生成される。監視サイトには、一般に、たとえば視聴者のメディア消費が監視される世帯などの場所が含まれる。たとえば、監視サイトでは、選択チャネルや無線局などと関連付けられた音声ストリームに基づいて被監視署名（ｍｏｎｉｔｏｒｅｄｓｉｇｎａｔｕｒｅ）が生成される。被監視署名は、次に、分析のために中央データ収集機構に送られる場合がある。基準サイトでは、放送領域内で提供された既知の番組に基づいて、一般に基準署名（ｒｅｆｅｒｅｎｃｅｓｉｇｎａｔｕｒｅ）と呼ばれる署名が生成される。基準署名は、基準サイト及び／又は中央データ収集機構に記憶され、監視サイトで生成された被監視署名と比較される場合がある。基準署名と一致する被監視署名が見つかる場合があり、また一致基準署名に対応する既知の番組が、監視サイトで提示された番組として識別される場合がある。

米国特許出願公開第２００２／００８２７３１号米国特許出願公開第２００３／０００５４３０号

署名を生成し音声ストリームを識別するための例示的な音声ストリーム識別システムを示す図である。署名を生成し音声ストリームを識別するための例示的な音声ストリーム識別システムを示す図である。例示的な署名生成プロセスを示す流れ図である。例示的な被監視音声ストリームを表す時間領域の図である。正弦波である被監視音声ストリーム（すなわち、音声ブロック）の一部分の例のグラフである。図４の音声ブロックに適用される場合がある例示的なウィンドウのグラフである。図４の音声ブロックに図５のウィンドウを適用することにより得られる被ウィンドウ処理音声ブロックのグラフである。図４の音声ブロックに適用される場合がある第２の例示的ウィンドウのグラフである。図４の音声ブロックに図７のウィンドウを適用することにより得られる被ウィンドウ処理音声ブロックのグラフである。ウィンドウの対応する周波数応答を示す、図５のウィンドウのグラフである。ウィンドウの対応する周波数応答を示す、図７のウィンドウのグラフである。第２の代替の例示的ウィンドウとその対応する周波数応答のグラフである。第３の代替の例示的ウィンドウとその対応する周波数応答のグラフである。例示的な署名照合プロセスの流れ図である。図１３の流れ図にしたがって署名をどのように比較するかを示す図である。音声ストリーム又は音声ブロックに基づいて署名を生成するための例示的な署名生成システムのブロック図である。署名を比較するための例示的な署名比較システムのブロック図である。本明細書に記載された方法及び装置を実施するために使用される場合がある例示的なプロセッサ・システムのブロック図である。

以下では、いくつかある構成要素の中で、ハードウェア上で実行されるソフトウェアを使用して実施される例示的なシステムを開示するが、そのようなシステムが、単に説明的なものであり、限定と見なされるべきでないことに注意されたい。たとえば、そのようなハードウェア及びソフトウエア構成要素のいずれか又はすべては、ハードウェアだけで実施されてもよく、ソフトウェアだけで実施されてもよく、又はハードウェアとソフトウェアの任意の組み合わせで実施されてもよい。したがって、以下では例示的なシステムを説明するが、当業者は、提供された例がそのようなシステムを実施する唯一の方法ではないことを容易に理解するであろう。

本明細書で述べる方法及び装置は、一般に、メディア情報を識別するために使用される場合があるデジタル署名の生成に関する。デジタル署名（すなわち、デジタル指紋）は、照合、索引付け、又はデータベースの探索と検索のために信号を正確に特徴付ける信号記述子である。詳細には、開示された方法及び装置は、音声ストリーム又は音声ブロック（たとえば、音声情報）に基づくデジタル音声署名の生成と関連して説明される。しかしながら、本明細書で説明する方法及び装置は、他のタイプの信号、時系列データ、及びたとえばビデオ情報、ウェブ・ページ、静止画像、コンピュータ・データなどのメディア情報に基づいてデジタル署名を生成するために使用されてもよい。さらに、メディア情報は、同等通信情報（たとえば、テレビ情報、無線情報など）、任意の記憶メディア（たとえば、コンパクトディスク（ＣＤ）、デジタル多用途ディスク（ＤＶＤ）など）から再生された情報、又はデジタル署名が生成された音声ストリーム、ビデオ・ストリーム又は他のメディア情報と関連した他の情報と関連付けられてもよい。１つの特定の例では、音声ストリームは、監視サイト（たとえば、被監視世帯）で生成された被監視デジタル署名と、基準サイト及び／又は中央データ収集機構で生成されかつ／又は記憶された基準デジタル署名とを含むデジタル署名に基づいて識別される。

後で詳しく述べるように、本明細書で述べる方法及び装置は、デジタル署名に基づいて音声ストリームや他のメディアを含むメディア情報を識別する。たとえば、本明細書で述べる例示的な技術は、特定の時間にたとえば音声サンプルの単一音声ブロックを使用して署名を計算するが、２つ以上のウィンドウ関数を使用して音声ブロックを処理して２つ以上の被ウィンドウ処理音声ブロックを得る。被ウィンドウ処理音声ブロックをさらに処理することにより、音声ブロックの音声スペクトルへのウィンドウ処理の影響を検出することができる。音声ブロックに固有又は実質的に固有の署名値は、音声ブロックに対する２つ以上のウィンドウ処理関数の影響から得られる。すなわち、本明細書で述べる例示的な技術は、時間的にずれた音声ブロックを使用することなく音声署名の計算又は決定を可能にする。当然ながら、ウィンドウ処理関数の選択は、変換のタイプ、そのパラメータ及び／又は署名を決定するために使用される解決策に応じて調整されてもよい。

以下に詳細に述べるように、音声サンプルのブロックにウィンドウ処理関数を適用した後で、たとえば離散的フーリエ変換（ＤＦＴ）や他の適切な変換（たとえば、離散コサイン変換（ＤＣＴ）、変形離散コサイン変換（ＭＤＣＴ）、ハール変換、ウォルシュ変換など）を使用して被ウィンドウ処理音声ブロックを時間領域から周波数領域に変換することによって、被ウィンドウ処理音声ブロックの周波数成分が生成され、これは、フーリエ変換に基づいても基づかなくてもよい。この変換を使用して、被ウィンドウ処理音声ブロック内の周波数成分を分析し、各周波数成分のスペクトル・パワーを識別することができる。次に、スペクトル・パワーを使用してデジタル署名を生成することができる。

音声ブロックにウィンドウ関数を適用した後で他の技術が使用されてもよい。たとえば、被ウィンドウ処理音声ブロックは、音声情報を時間領域からウェーブレット領域に変換するウェーブレット変換を使用して処理されてもよい。一般に、ウェーブレット変換を使用して、データ（たとえば、時間領域音声サンプル）のブロック又はフレームを複数の副帯域に分解することができ、それにより、データセットを様々なスケール及び／又は分解能で分析することが可能になる。データを複数の副帯域に分けることによって、ウェーブレット変換を使用して、データの各時間間隔を所望のスケール又は分解能で分析することができる。

あるいは、時間領域内のウィンドウ関数を音声サンプルの時間領域ブロックに適用する代わりに、周波数領域内でウィンドウ処理を行ってもよく、その場合、時間領域ウィンドウに対応する周波数応答を音声ブロックの周波数スペクトルで畳み込んでもよい。畳み込みを含む周波数領域処理を使用する場合、音声ブロックの周波数領域への変換は、フーリエ変換を使用して実行されてもよく、その場合、不連続性を考慮するために音声ブロック間で調整が行われる。さらに、ウィンドウの処理と適用が周波数領域内で行われる場合は、いくつかの非ゼロ要素（たとえば、３〜５個の非ゼロ要素）を有する周波数特性を有する時間領域ウィンドウが選択されてもよい。

被監視署名は、視聴者が消費するか又は視聴者がさらされるメディア情報と関連付けられた音声ストリーム（たとえば、監視された音声ストリーム）に基づいて、監視サイトで前述の技術を使用して生成されてもよい。たとえば、テレビ番組の音声トラック又は監視サイトで提示された他のメディアに基づいて被監視署名が生成されてもよい。次に、被監視署名は、１つ又は複数の基準署名と比較するために中央データ収集機構に送られてもよい。

基準署名は、基準サイト及び／又は中央データ収集機構で、既知のメディア情報と関連付けられた音声ストリームに上記の技術を使用して生成される。既知のメディア情報には、領域内で放送されたメディア、世帯内で再生されたメディア、インターネットなどを介して受け取ったメディアなどが含まれる場合がある。各基準署名は、たとえば曲名や映画名などのメディア識別情報と共にメモリに記憶される。被監視署名を中央データ収集機構で受け取ったとき、被監視署名は、一致が見つかるまで１つ又は複数の基準署名と比較される。次に、この一致情報を使用して、被監視署名が生成されたメディア情報（たとえば、被監視音声ストリーム）を識別してもよい。たとえば、ルックアップ・テーブル又はデータベースを参照して、被監視署名が生成されたメディア情報に対応するメディア名、番組識別名、エピソード番号などを取得することができる。

一例では、被監視署名と基準署名が生成される速度が異なってもよい。たとえば、処理や他の問題のために、被監視署名は、基準署名のデータ転送速度の２５％でもよい。たとえば、４８ビット基準署名が、０．０３２秒ごとに生成されてもよく、その結果、基準データ転送速度は、４８ビット＊３１．２５／秒すなわち１８７．５バイト／秒になる。そのような構成では、４８ビット被監視署名が、０．１２８秒ごとに生成されてもよく、その結果、被監視データ転送速度は、４８ビット＊７．８１２５／秒すなわち４６．８７５バイト／秒になる。当然ながら、被監視署名と基準署名のデータ転送速度が異なる構成では、被監視署名を基準署名と比較するときこの差を考慮しなければならない。たとえば、監視レートが参照レートの２５％の場合、連続した被監視署名はそれぞれ、４つごとの基準署名に対応する。

図１Ａと図１Ｂは、デジタル・スペクトル署名を生成し音声ストリームを識別するための例示的な音声ストリーム識別システム１００及び１５０を示す。例示的な音声ストリーム識別システム１００及び１５０はそれぞれ、テレビ放送識別情報システムとラジオ放送識別情報システムとして実施されてもよい。例示的な音声ストリーム識別システム１００は、監視サイト１０２（たとえば、被監視世帯）、基準サイト１０４及び中央データ収集機構１０６を含む。

テレビ放送情報の監視は、テレビ放送情報の音声情報に基づいて監視サイト１０２で被監視署名を生成し、その被監視署名をネットワーク１０８を介して中央データ収集機構１０６に通信することを含む。基準署名は、基準サイト１０４で生成されてもよく、ネットワーク１０８を介して中央データ収集機構１０６に通信されてもよい。監視サイト１０２で生成された被監視署名によって表わされる音声コンテンツは、中央データ収集機構１０６において、一致が見つかるまで被監視署名を１つ又は複数の基準署名と比較することによって識別されてもよい。あるいは、被監視署名は、監視サイト１０２から基準サイト１０４に送られ、基準サイト１０４で１つ又は複数の基準署名と比較されてもよい。別の例では、基準署名は、監視サイト１０２に送られ、監視サイト１０２で被監視署名と比較されてもよい。

監視サイト１０２は、たとえば、視聴者のメディア消費が監視される世帯である。一般に、監視サイト１０２は、複数のメディア配信装置１１０、複数のメディア表現装置１１２、及び監視サイト１０２で提示されたメディアと関連付けられた被監視署名を生成するために使用される署名ジェネレータ１１４を含むことができる。

複数のメディア配信装置１１０には、たとえば、セットトップ・ボックス・チューナ（たとえば、ケーブル・チューナ、衛星チューナなど）、ＰＶＲ装置、ＤＶＤプレーヤ、ＣＤプレーヤ、ラジオなどがある。たとえば、セットトップ・ボックス・チューナなどのメディア配信装置１１０のうちのいくつか又はすべてが、１つ又は複数の放送情報受信装置１１６に通信可能に結合されてもよく、放送情報受信装置１１６は、ケーブル、衛星放送アンテナ、アンテナ、及び／又は放送情報を受信するための他の適切な装置を含むことができる。メディア配信装置１１０は、たとえば、放送情報及び／又は記憶情報に基づいてメディア情報（たとえば、音声情報、ビデオ情報、ウェブ・ページ、静止画像など）、を再生するように構成されてもよい。放送情報は、放送情報受信装置１１６から取得されてもよく、記憶情報が、任意の情報記憶メディア（たとえば、ＤＶＤ、ＣＤ、テープなど）から取得されてもよい。メディア配信装置１１０は、メディア表現装置１１２に通信可能に結合され、表現するためにメディア情報をメディア表現装置１１２に通信するように構成可能である。メディア表現装置１１２には、視聴者がたとえば放送テレビ情報、音楽、映画などを消費する表示装置及び／又は１組のスピーカを有するテレビが含まれてもよい。

署名ジェネレータ１１４は、後でより詳しく述べるように、音声情報に基づいて被監視デジタル署名を生成するために使用される場合がある。詳細には、監視サイト１０２で、署名ジェネレータ１１４は、メディア配信装置１１０によって再生されかつ／又はメディア表現装置１１２によって表現される被監視音声ストリームに基づいて被監視署名を生成するように構成されてもよい。署名ジェネレータ１１４は、音声監視インタフェース１１８を介して、メディア配信装置１１０及び／又はメディア表現装置１１２に通信可能に結合されてもよい。このようにして、署名ジェネレータ１１４は、メディア配信装置１１０によって再生されかつ／又はメディア表現装置１１２によって表現されるメディア情報と関連付けられた音声ストリームを得ることができる。追加又は代替として、署名ジェネレータ１１４は、音声ストリームを検出するためにメディア表現装置１１２の近くに配置されたマイクロフォン（図示せず）に通信可能に結合されてもよい。署名ジェネレータ１１４は、ネットワーク１０８を介して中央データ収集機構１０６に通信可能に結合されてもよい。

ネットワーク１０８は、監視サイト１０２と基準サイト１０４と中央データ収集機構１０６間で署名（たとえば、デジタル・スペクトル署名）、制御情報及び／又は構成情報を通信するために使用されてもよい。たとえば、広帯域ケーブル・ネットワーク、ＤＳＬネットワーク、携帯電話ネットワーク、衛星ネットワーク及び／又は他の通信ネットワークなどの任意の有線又は無線通信システムを使用してネットワーク１０８を実現することができる。

図１Ａに示されたように、基準サイト１０４は、複数の放送情報チューナ１２０、基準署名ジェネレータ１２２、トランスミッタ１２４、データベース又はメモリ１２６、及び放送情報受信装置１２８を含むことができる。基準署名ジェネレータ１２２とトランスミッタ１２４は、基準署名を記憶しかつ／又は記憶された基準署名を取り出すためにメモリ１２６に通信可能に結合されてもよい。

放送情報チューナ１２０は、放送情報受信装置１２８に通信可能に結合されてもよく、放送情報受信装置１２８は、ケーブル、アンテナ、衛星放送アンテナ及び／又は放送情報を受け取るための他の適切な装置を含むことができる。放送情報チューナ１２０はそれぞれ、特定の放送チャネルに同調するように構成されてもよい。一般に、基準サイト１０４にあるチューナの数は、特定の放送領域内で利用可能なチャネルの数と等しい。このようにして、放送領域内のすべてのチャネルを介して送信されたすべてのメディア情報の基準署名が生成されてもよい。同調されたメディア情報の音声部分は、放送情報チューナ１２０から基準署名ジェネレータ１２２に通信されてもよい。

基準署名ジェネレータ１２２は、特定の放送領域内で利用可能なすべてのメディア情報の音声部分を取得するように構成されてもよい。その場合、基準署名ジェネレータ１２２は、音声情報に基づいて複数の基準署名（たとえば、後でより詳しく説明する処理を使用して）を生成し、基準署名をメモリ１２６に記憶してもよい。図１には１つの基準署名ジェネレータが示されているが、基準サイト１０４で複数の基準署名ジェネレータが使用されてもよい。たとえば、複数の署名ジェネレータのそれぞれが、放送情報チューナ１２０のそれぞれに通信可能に結合されてもよい。

トランスミッタ１２４は、メモリ１２６に通信可能に結合され、メモリ１２６から署名を取得し、ネットワーク１０８を介して基準署名を中央データ収集機構１０６に通信するように構成されてもよい。

中央データ収集機構１０６は、監視サイト１０２から受け取った被監視署名を、基準サイト１０４から受け取った基準署名と比較するように構成されてもよい。更に、中央データ収集機構１０６は、被監視署名を基準署名と照合し、一致情報を使用してデータベースからテレビ番組識別情報（たとえば、番組名、放送時間、放送チャネルなど）を取得することによって被監視音声ストリームを識別するように構成されてもよい。中央データ収集機構１０６は、レシーバ１３０、署名アナライザ１３２及びメモリ１３４を含み、これらはすべて、図示したように通信可能に結合される。

レシーバ１３０は、ネットワーク１０８を介して被監視署名と基準署名を受信するように構成されてもよい。レシーバ１３０は、メモリ１３４に通信可能に結合され、被監視署名と基準署名をそこに記憶するように構成される。

署名アナライザ１３２を使用して、基準署名を被監視署名と比較することができる。署名アナライザ１３２は、メモリ１３４に通信可能に結合され、メモリ１３４から被監視署名と基準署名を取得するように構成される。署名アナライザ１３２は、メモリ１３４から基準署名と被監視署名を取り出し、一致が見つかるまで被監視署名を基準署名と比較するように構成されてもよい。メモリ１３４は、たとえば、１つ又は複数のハードドライブや１つ又は複数の光学記憶装置などの任意の機械的アクセス可能な情報記憶メディアを使用して実施されてもよい。

署名アナライザ１３２は、図１Ａでは中央データ収集機構１０６に配置されているが、その代りに署名アナライザ１３２は、基準サイト１０４に配置されてもよい。そのような構成では、被監視署名は、ネットワーク１０８を介して監視サイト１０２から基準サイト１０４に通信されてもよい。あるいは、メモリ１３４は、監視サイト１０２に配置されてもよく、基準署名が、ネットワーク１０８を介してトランスミッタ１２４によってメモリ１３４に定期的に追加されてもよい。さらに、署名アナライザ１３２が、署名ジェネレータ１１４及び１２２と別の装置として示されているが、署名アナライザ１３２は、基準署名ジェネレータ１２２及び／又は署名ジェネレータ１１４と一体化されてもよい。更に、図１は、単一の監視サイト（すなわち、監視サイト１０２）と単一の基準サイト（すなわち、基準サイト１０４）を示しているが、複数のそのようなサイトがネットワーク１０８を介して中央データ収集機構１０６に結合されてもよい。

図１Ｂの音声ストリーム識別システム１５０は、ラジオ放送情報や他のメディアと関連付けられた音声ストリームを監視し識別するように構成されてもよい。一般に、音声ストリーム識別システム１５０は、特定の放送領域内の複数の無線局によって放送されたコンテンツを監視するために使用される。視聴者によって消費されるテレビ・コンテンツを監視するために使用される音声ストリーム識別システム１００と異なり、音声ストリーム識別システム１５０は、放送領域内で放送された音楽や歌などとそれらが放送された回数を監視するために使用されてもよい。このタイプのメディア・トラッキングは、各音声構成物と関連付けられた印税支払いや著作権の適正使用などを判定するために使用されてもよい。音声ストリーム識別システム１５０は、監視サイト１５２、中央データ収集機構１５４及びネットワーク１０８を含む。

監視サイト１５２は、特定の放送領域内で利用可能なすべてのラジオ放送情報を受信し、ラジオ放送情報に基づいて被監視署名を生成するように構成される。監視サイト１５２は、複数の放送情報チューナ１２０、トランスミッタ１２４、メモリ１２６ｍ、及び放送情報受信装置１２８を含み、これらはすべて、図１Ａと関連して前に説明されている。更に、監視サイト１５２は、署名ジェネレータ１５６を含む。音声ストリーム識別システム１５０内で使用されるときに、放送情報受信装置１２８は、ラジオ放送情報を受信するように構成され、放送情報チューナ１２０は、ラジオ放送局に同調するように構成される。監視サイト１５２にある放送情報チューナ１２０の数は、特定の放送領域内のラジオ放送局の数と等しくてもよい。

署名ジェネレータ１５６は、各放送情報チューナ１２０から音声同調情報を受け取り、その音声同調情報のための被監視署名を生成するように構成される。１つの署名ジェネレータ（すなわち、署名ジェネレータ１５６）が示されているが、監視サイト１５２は、放送情報チューナ１２０のうちの１つに通信可能にそれぞれ結合された複数の署名ジェネレータを含んでもよい。署名ジェネレータ１５６は、被監視署名をメモリ１２６に記憶してもよい。トランスミッタ１２４は、メモリ１２６から被監視署名を取得し、その被監視署名をネットワーク１０８を介して中央データ収集機構１５４に通信してもよい。

中央データ収集機構１５４は、監視サイト１５２から被監視署名を受け取り、基準音声ストリームに基づいて基準署名を生成し、被監視署名を基準署名と比較するように構成される。中央データ収集機構１５４は、レシーバ１３０、署名アナライザ１３２及びメモリ１３４を含み、これらはすべて、図１Ａと関連してより詳しく説明される。更に、中央データ収集機構１５４は、基準署名ジェネレータ１５８を含む。

基準署名ジェネレータ１５８は、基準音声ストリームに基づいて基準署名を生成するように構成される。基準音声ストリームは、たとえば、ＣＤ、ＤＶＤ、デジタル音声テープ（ＤＡＴ）などの任意のタイプの機械的アクセス可能メディア上に記憶されてもよい。一般に、芸術家又はレコード製作会社は、その音声作品（すなわち、音楽や歌など）を、基準ライブラリに追加される中央データ収集機構１５４に送る。基準署名ジェネレータ１５８は、機械的アクセス可能なメディアから音声情報を読み取り、各音声作品（たとえば、図３の取り込まれた音声３００）に基づいて複数の基準署名を生成してもよい。次に、基準署名ジェネレータ１５８は、署名アナライザ１３２によって後で取り出すために基準署名をメモリ１３４に記憶してもよい。各基準音声ストリームと関連付けられた識別情報（たとえば、歌名、アーティスト名、トラック番号など）は、データベースに記憶されてもよく、基準署名に基づいて索引付けされてもよい。このようにして、中央データ収集機構１５４は、既知で利用可能なすべての歌名に対応する基準署名と識別情報のデータベースを含む。

レシーバ１３０は、ネットワーク１０８から被監視署名を受信し、その被監視署名をメモリ１３４に記憶するように構成される。被監視署名と基準署名は、放送領域内で放送された被監視音声ストリームの識別に使用するために、署名アナライザ１３２によってメモリ１３４から取り出される。署名アナライザ１３２は、最初に被監視署名を基準署名と照合することによって、被監視音声ストリームを識別することができる。次に、一致情報及び／又は一致基準署名を使用して、メモリ１３４に記憶されたデータベースから識別情報（たとえば、歌名、歌トラック、芸術家など）を取り出す。

図１Ｂには１つの監視サイト（たとえば、監視サイト１５２）が示されているが、複数の監視サイトが、ネットワーク１０８に通信可能に結合され、被監視署名を生成するように構成されてもよい。詳細には、各監視サイトは、それぞれの放送領域内に配置され、それぞれの放送領域内の放送局のコンテンツを監視するように構成されてもよい。

図２は、例示的な署名生成プロセス２００を表わす流れ図である。図２に示されたように、署名生成プロセス２００は、最初に、署名によって特徴付ける音声ブロックを取り込む（ブロック２０２）。取り込まれることがある音声の例示的な時間領域プロットは、図３に参照数字３００で示されている。音声は、音源から、たとえば音源への配線接続によって又は音源への音声センサなどの無線接続によって取り込まれてもよい。音源がアナログの場合、取り込みは、たとえばアナログ−デジタル変換器を使用してアナログ音源をサンプリングすることを含む。一例では、音源は、サンプリング・レート（Ｆ_s）と呼ばれる８キロヘルツ（ｋＨｚ）のレートでサンプリングされてもよい。これは、アナログ音声が、１秒当たり８０００サンプルの割合、すなわち１２５マイクロ秒ごとに１サンプル取得されるデジタル・サンプルによって表わされることを意味する。音声サンプルはそれぞれ、モノオーラル（ｍｏｎｏａｕｒａｌ）の１６ビットの分解能によって表わされてもよい。

一例では、８１９２個のサンプルに対応する音声ブロックが、処理のために取り込まれる。前述の８ｋＨｚのサンプリング・レートで、これは、１．０２４秒の音声に対応する。しかしながら、これは単に一例であり、収集されるサンプルの数は、持続時間が約１秒〜２秒の任意の範囲の音声セグメントに対応してもよい。総称的に、本明細書では、音声ブロック内の取り込まれたサンプルの数を変数Ｎと呼ぶ。したがって、上記の例では、Ｎ＝８１９２であり、取り込まれた音声の時間範囲は、ｔ．．．ｔ＋Ｎ／Ｆ_sに対応する。音声ブロックの表現は、図４では参照数字４０２で示され、例として、音声ブロックは正弦波に対応する。

音声ブロックを取り込んだ（ブロック２０２）後、プロセス２００は、Ｗ₁と呼ばれる第１のウィンドウ関数（ブロック２０４Ａ）を音声ブロックに適用して、第１の被ウィンドウ処理音声ブロックを作成する。さらに、プロセス２００は、Ｗ₂と呼ばれる第２のウィンドウ関数（ブロック２０４Ｂ）を使用して音声ブロックをウィンドウ処理して、第２の被ウィンドウ処理音声ブロックを作成する。たとえば、ウィンドウは、図５に参照数字５０２で示されたようなガウス関数又はベル形関数でもよく、Ｗ₁５０２の上端と下端は０の値を有し、ウィンドウ５０２の中心は１の値を有する。一例では、ウィンドウ処理は、ウィンドウ関数の値と音声ブロックのそれぞれのサンプルの間のサンプルに関しての乗算（ｓａｍｐｌｅ−ｗｉｓｅｍｕｌｔｉｐｌｉｃａｔｉｏｎ）である。たとえば、音声ブロック４０２をウィンドウ５０２でウィンドウ処理する結果として、図６に示されたような被ウィンドウ処理音声ブロック６０２が得られ、被ウィンドウ処理音声ブロック６０２の振幅は、ウィンドウ５０２の末端ではゼロであり、被ウィンドウ処理音声ブロック６０２の中心では音声ブロック４０２と同じ振幅である。

あるいは、ウィンドウ関数のサンプルに関しての乗算を使用して時間領域内でウィンドウ関数を音声ブロックに適用するのではなく、ウィンドウ処理は周波数領域内で行われてもよく、時間領域ウィンドウに対応する周波数応答が、音声ブロックの周波数スペクトルで畳み込まれてもよい。前述のように、畳み込みを含む周波数領域処理が使用される場合は、周波数領域への音声ブロックの変換が、フーリエ変換を使用して実行されてもよく、ここで、不連続性を考慮するために音声ブロック間で調整が行われる。さらに、ウィンドウの処理と適用が周波数領域内で行われる場合は、いくつかの非ゼロ要素（たとえば、３〜５個の非ゼロ要素）を含む周波数特性を有する時間領域ウィンドウが選択されてもよい。

Ｗ₁とＷ₂に選択されるウィンドウは、本質的に相補的でよい。たとえば、Ｗ₁に図５に示されたウィンドウ５０２が選択された場合は、Ｗ₂に図７のウィンドウ７０２が選択されてもよい。図７に示されたように、ウィンドウ７０２は、ウィンドウＷ₁を逆にしたもの、すなわちＷ₂（ｋ）＝１−Ｗ₁（ｋ）であり、ここで、ｋは、ウィンドウ領域内のサンプル指標である。ウィンドウＷ₂は、ウィンドウ７０２の上端と下端で１の値に近づき、ウィンドウ７０２の中心にゼロ値を有する。したがって、ウィンドウ７０２が音声ブロック４０２に適用されたときに、図８に示されたような被ウィンドウ処理音声ブロック８０２が得られる。図８に示されたように、被ウィンドウ処理音声ブロック８０２は、その中心にゼロ振幅を有するが、被ウィンドウ処理音声ブロック８０２の末端で音声ブロック４０２の振幅と実質的に一致する振幅を有する。

図９と図１０に示されたように、ウィンドウ５０２及び７０２は、それぞれの周波数応答９０２及び１００２を有する。したがって、ウィンドウ５０２及び７０２の音声ブロック（たとえば、音声ブロック４０２）への適用は、音声ブロックのスペクトルに影響を及ぼす。後述するように、音声ブロックを表す署名を決定するために、様々なウィンドウの音声ブロックに対する様々な影響が検査される。

上記の説明に選択されたウィンドウ５０２及び７０２はそれぞれ、Ｈａｎｎウィンドウ及び逆Ｈａｎｎウィンドウと似ているが、他のウィンドウ形状が使用されてもよい。たとえば、図１１と図１２に示されたように、２つの非対称的なウィンドウ１１０２及び１２０２が選択されてもよく、第１のウィンドウ１１０２は、ウィンドウ処理空間の上側半分を占め、第２のウィンドウ１２０２は、ウィンドウ処理空間の下側半分を占める。非対称ウィンドウ１１０２及び１２０２の周波数応答は、図１１と図１２に参照数字１１０４及び１２０４で示されたものと同一であるが、ウィンドウが、音声ブロックのほとんど別々の部分で動作するので、ウィンドウ処理の結果は、正弦波でない音声信号に様々なスペクトル特性を有する。

本明細書ではウィンドウ形状の特定の例を説明したが、他のウィンドウ形状が使用されてもよい。たとえば、ウィンドウ形状は、第１のウィンドウと第２のウィンドウ（たとえば、Ｗ₁とＷ₂）の両方に任意に選択されてもよく、この選択は、１組のウィンドウ関数から行われる。当然ながら、監視サイトと基準サイトが同時に使用する場合は、時間によって異なるウィンドウが使用されてもよい。さらに、２つを超えるウィンドウが使用されてもよい。

図２に戻ると、ウィンドウ処理（ブロック２０４Ａ及び２０４Ｂ）が完了した後で、被ウィンドウ処理音声ブロックがそれぞれ変換される（ブロック２０６Ａ及び２０６Ｂ）。一例では、変換は、時間領域から周波数領域への変換でよい。たとえば、ウィンドウ処理されたＮ個の取り込み音声サンプルが、Ｎ／２複合ＤＦＴ係数によって表わされる音声スペクトルに変換されてもよい。あるいは、ウェーブレット変換、ＤＣＴ、ＭＤＣＴ、ハール変換、ウォルシュ変換などの任意の適切な変換が使用されてもよい。

変換（ブロック２０６Ａ及び２０６Ｂ）が完了した後、プロセス２００は、各変換（ブロック２０８Ａ及び２０８Ｂ）の結果を特徴付ける。たとえば、プロセスは、各変換結果のＫ＋１個の異なる各帯域内のエネルギーを決定する。すなわち、ウィンドウＷ₁の使用（ブロック２０６Ａ）によって得られる被ウィンドウ処理音声ブロックの変換の結果が、たとえば１６個の異なる帯域に分割されてもよく、１６個の異なる各帯域内のエネルギーが決定されてもよい。これは、Ｅ_j（ｗ１）によって表わされてもよく、ここで、ｊは０〜１５の範囲であり、ｗ１は、エネルギーが、ウィンドウＷ₁をサンプリング音声（すなわち、音声ブロック）に適用する結果得られるスペクトルと関連付けられることを示す。同様に、ウィンドウＷ₂の使用（ブロック２０６Ｂ）によって得られるウィンドウ処理ブロックの変換の結果が、たとえば１６個の異なる帯域に分割されてもよく、そのエネルギーは、決定され、Ｅ_j（ｗ２）として表わされてもよく、ここで、ｊは０から１５の範囲であり、ｗ２は、エネルギーが、ウィンドウＷ₂を適用することより得られるスペクトルと関連付けられることを示す。あるいは、結果を特徴付けるためにエネルギー以外の異なるスペクトル特性が使用されてもよい。たとえば、エネルギー分布のスペクトル平坦度が使用されてもよい。

各組の変換結果が特徴付けられた後で（ブロック２０８Ａ及び２０８Ｂ）、プロセス２１０は、特徴付けの結果を比較する。たとえば、各帯域の特徴付けの結果が、互いに減算されてもよい。一例では、中間値がｄ_j＝Ｅ_j（ｗ２）−Ｅ_j（ｗ１）として計算されてもよく、ここで、ｊは０からＫの範囲である。Ｋ＝１５の前述の具体例に沿って、中間値ｄ_jが計算されてもよく、ここで、ｄ_j＝Ｅ_j（ｗ２）−Ｅ_j（ｗ１）であり、ｊは０〜１５の範囲である。したがって、そのような比較により１６個の異なる中間値（たとえば、ｄ₀，ｄ₁，ｄ₂，．．．ｄ₁₅）が得られ、各中間値は、たとえば被ウィンドウ処理音声ブロックの変換によって得られるスペクトルの類似周波数帯の特徴の違いである。

特徴付けの比較を表わすために中間値を計算した後で（ブロック２１０）、プロセス２００は、この比較に基づいて署名ビットを決定する（ブロック２１２）。たとえば、署名ビットＳ_jは、中間値ｄ_j＞０の場合に値１が割り当てられ、その他の場合は値０が割り当てられてもよく、ここで、ｊは０からＫの範囲である。より具体的には、Ｋ＝１５の上の例に示したように、したがって、０の値に対する中間値の比較は１６個になり、これら比較に基づいて、図２のブロック２０２で取り込まれた音声ブロックを表わすために１６ビットの署名が生成される。署名が決定された（ブロック２１２）後で、プロセス２００は、繰り返し（ブロック２１４）、追加の音声を取り込んで（ブロック２０２）、追加の署名を生成する。

以上、第１のウィンドウ（Ｗ₁）と第２のウィンドウ（Ｗ₂）の選択と、取り込んだ音声のブロックの全ての署名ビットが、選択されたウィンドウを使用して決定されることを述べたが、他の構成も可能である。たとえば、取り込んだ音声のブロックを表わす署名のいくつかのビットは、第１のウィンドウ対（たとえば、Ｗ₁とＷ₂）を使用して決定されてもよく、一方署名の他のビットは、異なるウィンドウ対（たとえば、Ｗ₃とＷ₄）を使用して決定されてもよい。さらに、第３のウィンドウ対（たとえば、Ｗ₁とＷ₃）を使用して、追加の署名ビットを決定してもよい。場合によっては、固有のウィンドウ対が、基準サイトにある同じウィンドウブロック上で動作するように選択される限り、それらの固有のウィンドウ対が、各署名ビットの値を決定するために所定又は任意の方式で選択されてもよい。

以上、取り込まれた音声の一部分を表す署名を決定するために実行される場合がある署名方法について説明した。図１３は、基準署名（すなわち、基準サイトで決定された署名）を被監視署名（すなわち、監視サイトで決定された署名）と比較するために実行される場合がある１つの例の署名照合プロセス１３００を示す。署名照合の最終目標は、照会音声署名（たとえば、被監視音声）とデータベース内の署名（たとえば、基準音声に基づいて行われた署名）の間の最も近い一致を見つけることである。この比較は、基準サイト、監視サイト、又は被監視署名にアクセスする他のデータ処理サイト及び基準署名を含むデータベースで実行されてもよい。

次に、図１３の例示的な方法の詳細に戻ると、例示的プロセス１３００は、被監視署名及びその関連付けられたタイミングを取得する段階（ブロック１３０２）を含む。図１４に示されたように、署名の収集は、いくつかの被監視署名を含んでもよく、それらのうちの３個が、図１４に参照数字８０２，８０４及び８０６で示される。各署名は、シグマ（σ）によって表わされる。被監視署名１４０２、１４０４、１４０６がそれぞれ、タイミング情報１４０８、１４１０、１４１２を含む場合があり、そのタイミング情報は、暗黙的な場合も明示的な場合もある。

次に、基準署名を含むデータベースに照会して（ブロック１３０４）、最も近い一致を有するデータベース内の署名を識別する。一実施態様では、署名間の類似性（近さ）の測定は、ハミング距離、すなわち照会ビット・ストリング値と参照ビット・ストリング値が異なる位置の数になるように行われる。図１４では、署名とタイミング情報のデータベースが、参照数字１４１６で示される。当然ながら、データベース１４０６は、様々なメディア表現と異なる任意数の署名をも含んでもよい。次に、一致した基準署名と関連付けられた番組と未知の署名との間の関連付けが行われる（ブロック１３０６）。

次に、必要に応じて、プロセス１３００は、被監視署名と基準署名の間のオフセットを設定してもよい（ブロック１３０８）。このオフセットの値は、照会署名ブロックが基準署名と十分に一致するかどうかをより適切でより確実に決定するために必要とされる。一般に、短い照会ブロック内のすべての署名のオフセット値は、監視（表示）の連続性により、それぞれの基準署名に対してほとんど一定のままである。

複数の基準署名の全ての記述子が、所定のハミング距離しきい値を下回るハミング距離と関連付けられる例では、一致する可能性のある基準音声ストリームのそれぞれの基準署名と複数の被監視署名を照合しなければならない場合がある。被監視音声ストリームに基づいて生成されたすべての被監視署名が、複数の基準音声ストリームのすべての基準署名と一致する可能性は比較的低く、したがって、複数の基準音声ストリームを被監視音声ストリームに間違って照会するのを防ぐことができる。

前述の例示的な方法、プロセス及び／又は技術は、ハードウェア、ソフトウェア及び／又は任意の組み合わせによって実施されてもよい。より具体的には、例示的な方法は、図１５と図１６のブロック図によって定義されたハードウェアで実行されてもよい。また、例示的な方法、プロセス及び／又は技術は、たとえば図１６のプロセッサ・システム１６１０などのプロセッサ・システム上で実行されるソフトウェアによって実施されてもよい。

図１５は、デジタルスペクトル署名を生成するための例示的な署名生成システム１５００のブロック図である。詳細には、この例示的な署名生成システム１５００を使用して、前述のような音声ブロックのウィンドウ処理、変換、特徴付け、比較に基づいて被監視署名及び／又は基準署名を生成してもよい。たとえば、例示的な署名生成システム１５００を使用して、図１Ａの署名ジェネレータ１１４及び１２２と図１Ｂの署名ジェネレータ１５６及び１５８を実施することができる。さらに、例示的な署名生成システム１５００を使用して、図２の例示的な方法を実施してもよい。

図１５に示されたように、例示的な署名生成システム１５００は、サンプル・ジェネレータ１５０２、タイミング装置１５０３、基準時間ジェネレータ１５０４、ウィンドウ処理器（ｗｉｎｄｏｗｅｒ）１５０６、トランスフォーマ１５０８、特徴決定器（ｃｈａｒａｃｔｅｒｉｓｔｉｃｄｅｔｅｒｍｉｎｅｒ）１５１０、比較器１５１２、署名決定器１５１４、記憶装置１５１６及びデータ通信インタフェース１５１８を含み、これらはすべて、図示したように通信可能に結合されてもよい。例示的な署名生成システム１５００は、例示的な音声ストリームを獲得し、例示的な音声ストリームから複数の音声サンプルを取得し、その単一音声ブロックからその音声ブロックを表す署名を生成するように構成されてもよい。

サンプル・ジェネレータ１５０２は、図３の取り込まれた音声３００が得られるストリームなどの例示的な音声ストリームを取得するように構成されてもよい。ストリーム３００は、任意のアナログ又はデジタル音声ストリームでよい。例示的な音声ストリームがアナログ音声ストリームの場合、サンプル・ジェネレータ１５０２は、アナログ−デジタル変換器を使用して実施されてもよい。例示的な音声ストリームがデジタル音声ストリームの場合、サンプル・ジェネレータ１５０２は、デジタル信号プロセッサを使用して実施されてもよい。さらに、サンプル・ジェネレータ１５０２は、任意の所望のサンプリング周波数Ｆ_sで音声サンプルを取得しかつ／又は抽出するように構成されてもよい。たとえば、前述のように、サンプル・ジェネレータは、８ｋＨｚでＮ個のサンプルを取得するように構成されてもよく、各サンプルを表わすために１６個のビットを使用してもよい。そのような構成で、Ｎは、たとえばＮ＝８１９２などの任意のサンプル数でよい。サンプル・ジェネレータ１５０２は、また、音声サンプル取得プロセスがいつ始まるかを基準時間ジェネレータ１５０４に通知してもよい。サンプル・ジェネレータ１５０２は、ウィンドウ処理器１５０６にサンプルを送る。

タイミング装置１５０３は、時間データ及び／又はタイムスタンプ情報を生成するように構成されてもよく、またクロック、タイマ、カウンタ及び／又は他の適切な装置によって実施されてもよい。タイミング装置１５０３は、基準時間ジェネレータ１５０４に通信可能に結合されてもよく、時間データ及び／又はタイムスタンプを基準時間ジェネレータ１５０４に通信するように構成されてもよい。また、タイミング装置１５０３は、サンプル・ジェネレータ１５０２に通信可能に結合されてもよく、サンプル・ジェネレータ１５０２に指示して音声サンプル・データを収集又は取得し始めるように開始信号をアサートするか割り込んでもよい。一例では、タイミング装置１５０３は、ミリ秒の分解能で時間を追跡する２４時間の期間を有する実時間クロックによって実施されてもよい。ここで、タイミング装置１５０３は、深夜にゼロにリセットされ、深夜に対する時間をミリ秒で追跡するように構成されてもよい。しかしながら、一般に、タイムスタンプは、完全な年、月、日、時間、分、秒情報を、２００５年１月１日午前００：００などの過去の所定の瞬間から経過した秒数として表わすことができる。収集された音声署名の決定性取得レート（ｄｅｔｅｒｍｉｎｉｓｔｉｃａｃｑｕｉｓｉｔｉｏｎｒａｔｅ）から導出することによって秒以下の分解能を追加することができる。

基準時間ジェネレータ１５０４は、サンプル・ジェネレータ１５０２から通知を受け取ったときに基準時間ｔ₀を初期化することができる。基準時間ｔ₀は、署名が生成される音声ストリーム内の時間を示すために使用されてもよい。詳細には、基準時間ジェネレータ１５０４は、サンプル・ジェネレータ１５０２からサンプル取得プロセスの開始の通知を受けたときに、タイミング装置１５０３から時間データ及び／又はタイムスタンプ値を受け取るように構成されてもよい。次に、基準時間ジェネレータ１５０４は、タイムスタンプ値を基準時間ｔ₀として記憶してもよい。

ウィンドウ処理器１５０６は、たとえば、サンプル・ジェネレータ１５０２から出力された音声ブロックに２つのウィンドウを適用する。したがって、ウィンドウ処理器１５０６の結果は、２つの被ウィンドウ処理音声ブロックである。前述のように、ウィンドウは、任意の組のウィンドウでよい。しかしながら、相補的ウィンドウが好ましいことあり、その理由は、相補的ウィンドウが、平均で両方のエネルギ値が同じであり、それによりビット分布の蓋然性が等しくなることが保証されるからである。

トランスフォーマ１５０８は、各被ウィンドウ処理音声ブロックでＮポイントＤＦＴを実行するように構成されてもよく、ここで、Ｎは、サンプル・ジェネレータ１５０２によって取得されたサンプル数である。たとえば、サンプル・ジェネレータが８１９２個のサンプルを取得した場合、トランスフォーマは、サンプルから、スペクトルが４０９６個の複素数値フーリエ係数によって表わされるスペクトルを作成する。

特徴決定器１５１０は、トランスフォーマ１５０８によって生成されたＤＦＴスペクトル特徴付け内のいくつかの周波数帯（たとえば、１６個の帯域）を識別するように構成されてもよい。選択された帯域は、互いに重複してもよいが、重複しないことが好ましい。帯域は、任意の方法によって選択されてもよい。当然ながら、任意数の適切な帯域が選択されてもよい（たとえば、４８個）。次に、特徴決定器１５１０が、各帯域内の特徴を決定する。たとえば、特徴決定器１５１０は、各帯域内のエネルギーを決定することができる。したがって、特徴決定器１５１０の結果は、たとえば１６個の各帯域ごとに２組の特徴である。たとえば、１６個の帯域が選択された場合、特徴決定器１５１０出力は、各ＤＦＴの各帯域に１つずつ３２個のエネルギー尺度になる。特徴は、Ｅ_j（ｗ１）とＥ_j（ｗ２）よって表わされてもよく、ｊは、０〜Ｋの範囲（たとえば、０〜１５）と、ｗ１とｗ２はそれぞれ、ウィンドウ１とウィンドウ２を表す。

比較器１５１２は、それぞれの帯域の特徴を比較して中間値を決定する。たとえば、比較器１５１２は、ｄ_j＝Ｅ_j（ｗ２）−Ｅ_j（ｗ１）にしたがって中間値を生成してもよく、その結果、ＤＦＴのそれぞれの帯域内のエネルギーが互いに減算される。

署名決定器１５１４は、比較器１５１２から得られた値を処理して各中間値ごとに１つの署名ビットを作成する。この操作は、図２と関連して前述したプロセス２１２ときわめて類似しているか又は同一でもよい。すなわち、署名ビット値は、中間値のゼロに対する比較に基づいてもよい。署名ビットは、記憶装置１５１６に出力される。

記憶装置は、任意の署名記憶に対応するのに適した任意のメディアでよい。たとえば、記憶装置１５１６は、ランダムアクセスメモリ（ＲＡＭ）、フラッシュ・メモリなどのメモリでよい。さらに又はあるいは、記憶装置１５１６は、ハードドライブ、光記憶メディア、テープ・ドライブなどの大容量メモリでよい。

記憶装置１５１６は、データ通信インタフェース１５１８に結合される。たとえば、システム１５００が、監視サイト（たとえば、人の住宅内）にある場合は、記憶装置１５１６内の署名情報が、データ通信インタフェース１５１８を使用して、収集機構や基準サイトなどに通信されてもよい。

図１６は、デジタルスペクトル署名を比較するための例示的な署名比較システム１６００のブロック図である。詳細には、例示的な署名比較システム１６００を使用して、被監視署名を基準署名と比較してもよい。たとえば、例示的な署名比較システム１６００を使用して、図１Ａの署名アナライザ１３２を実施して、被監視署名を基準署名と比較してもよい。さらに、例示的な署名比較システム１６００を使用して、図１３の例示的なプロセスを実現してもよい。

例示的な署名比較システム１６００は、被監視署名レシーバ１６０２、基準署名レシーバ１６０４、比較器１６０６、ハミング距離フィルタ１６０８、メディア識別器１６１０及びメディア識別ルックアップ・テーブル・インタフェース１６１２を含み、これらのすべてが通信可能に結合されてもよい。

被監視署名レシーバ１６０２は、ネットワーク１０８（図１）を介して被監視署名を取得し、被監視署名を比較器１６０６に通信するように構成されてもよい。基準署名レシーバ１６０４は、メモリ１３４（図１Ａと図１Ｂ）から基準署名を取得し、基準署名を比較器１６０６に通信するように構成されてもよい。

比較器１６０６とハミング距離フィルタ１６０８は、ハミング距離を使用して基準署名を被監視署名と比較するように構成されてもよい。詳細には、比較器１６０６は、被監視署名の記述子を複数の基準署名からの記述子と比較し、比較ごとにハミング距離値を生成するように構成されてもよい。次に、ハミング距離フィルタ１６０８は、比較器１６０６からハミング距離値を取得し、ハミング距離値に基づいて一致しない基準署名をフィルタリングしてもよい。

一致基準署名が見つかった後、メディア識別器１６１０は、一致基準署名を取得し、メディア識別ルックアップ・テーブル・インタフェース１６１２と協力して、未確認音声ストリーム（たとえば、図３の例示的な被監視音声ストリーム３００）と関連付けられたメディア情報を識別してもよい。たとえば、メディア識別ルックアップ・テーブル・インタフェース１６１２は、基準署名に基づいてメディア識別情報（たとえば、映画題名、ショー題名、歌名、アーティスト名、エピソード番号など）を相互参照するために使用されるメディア識別ルックアップ表又はデータベースに通信可能に結合されてもよい。このようにして、メディア識別器１６１０は、一致基準署名に基づいてメディア識別データベースからメディア識別情報を取り出してもよい。

図１７は、本明細書で説明された装置と方法を実施するために使用することができる例示的なプロセッサ・システム１７１０のブロック図である。図１７に示されたように、プロセッサ・システム１７１０は、相互接続バス又はネットワーク１７１４に結合されたプロセッサ１７１２を含む。プロセッサ１７１２は、図１７では全体にチップ上にあるように示されているが、全体又は部分的にチップ外に配置され、専用の電気接続及び／又は相互接続ネットワーク又はバス１７１４を介してプロセッサ１７１２に結合されたたレジスタ・セット又はレジスタ空間１１６を含んでもよい。プロセッサ１７１２は、任意の適切なプロセッサ、処理装置又はマイクロプロセッサでよい。図１７に示されていないが、システム１７１０は、マルチプロセッサ・システムでよく、したがって、プロセッサ１７１２と同一又は類似でかつ相互接続バス又はネットワーク１７１４に通信可能に結合された１つ又は複数の追加のプロセッサを含んでもよい。

図１７のプロセッサ１７１２は、メモリ・コントローラ１７２０と入出力（Ｉ／Ｏ）コントローラ１７２２を含むチップセット１７１８に結合される。周知のとおり、チップセットは、一般に、入出力機能とメモリ管理機能ならびにチップセットに結合された１つ又は複数のプロセッサによってアクセス可能又は使用される複数の汎用及び／又は専用レジスタ、タイマなどを提供する。メモリ・コントローラ１７２０は、１つのプロセッサ１７１２（又は、複数のプロセッサがある場合には複数のプロセッサ）がシステム・メモリ１７２４と大容量記憶メモリ１７２５にアクセスすることを可能にする機能を実行する。

システム・メモリ１７２４には、たとえばスタティック・ランダム・アクセス・メモリ（ＳＲＡＭ）、ダイナミック・ランダム・アクセス・メモリ（ＤＲＡＭ）、フラッシュ・メモリ、読み出し専用メモリ（ＲＯＭ）などの任意の所望のタイプの揮発性及び／又は不揮発性メモリがある。大容量記憶メモリ１７２５には、ハード・ディスク・ドライブ、光ドライブ、テープ記憶装置などを含む任意の所望のタイプの大容量記憶装置がある。

入出力コントローラ１７２２は、プロセッサ１７１２が入出力バス１７３０を介して周辺入出力（Ｉ／Ｏ）装置１７２６及び１７２８と通信することを可能にする機能を実行する。入出力装置１７２６及び１７２８は、たとえば、キーボード、ビデオ・ディスプレイ又はモニタ、マウスなどの任意の所望のタイプの入出力装置でよい。メモリ・コントローラ１７２０と入出力コントローラ１７２２は、図１７に、チップセット１７１８内の個別の機能ブロックとして示されているが、これらのブロックによって実行される機能は、単一半導体回路内で統合されてもよく、２つ以上の独立した集積回路を使用して実現されてもよい。

本明細書で述べた方法は、コンピュータ可読媒体上に記憶されプロセッサ１７１２によって実行される命令を使用して実施されてもよい。コンピュータ可読媒体には、大容量記憶装置（たとえば、ディスクドライブ）、取外し可能記憶装置（たとえば、フロッピディスク、メモリカード又はスティックなど）及び／又は統合メモリ装置（たとえば、ランダム・アクセス・メモリ、フラッシュ・メモリなど）の任意の所望の組み合わせを使用して実施される固体媒体、磁気媒体及び／又は光学媒体の任意の所望の組み合わせが含まれる。

本明細書で特定の製造方法、装置及び品物について説明したが、この特許の適用範囲はそれらに限定されない。

Claims

音声信号の一部分を表わす署名を生成する方法であって、
音声信号の一部分に第１のウィンドウ関数を適用して第１の被ウィンドウ処理音声ブロックを作成するステップと、
前記音声信号の一部分と同じ部分に、前記第１のウィンドウ関数とは異なる第２のウィンドウ関数を適用して第２の被ウィンドウ処理音声ブロックを作成するステップと、
前記第１の被ウィンドウ処理音声ブロックにおける周波数帯域の第１の特徴を決定するステップと、
前記第２の被ウィンドウ処理音声ブロックにおける周波数帯域の第２の特徴を決定するステップと、
前記第１の特徴を前記第２の特徴と比較するステップと、
前記音声信号の前記一部分を表す署名ビットを、前記第１の特徴と前記第２の特徴の比較に基づいて割り当てるステップとを含む方法。
前記音声信号の前記一部分に前記第１のウィンドウ関数を適用して前記第１の被ウィンドウ処理音声ブロックを作成するステップと、前記音声信号の前記一部分に前記第２のウィンドウ関数を適用して前記第２の被ウィンドウ処理音声ブロックを作成するステップが、周波数領域処理して第１と第２の変換被ウィンドウ処理音声ブロックを作成するステップを含む、請求項１に記載の方法。
前記第１と第２の被ウィンドウ処理音声ブロックにおける前記周波数帯域の前記第１と第２の特徴を決定するステップが、前記第１と第２の変換被ウィンドウ処理音声ブロックを処理するステップを含む、請求項２に記載の方法。
前記音声信号は、無線音声信号である、請求項１に記載の方法。
前記音声信号は、デジタル・サンプリングにより取り込まれる、請求項４に記載の方法。
前記第１と第２のウィンドウ関数が、相補的関数を含む、請求項１に記載の方法。
前記第１のウィンドウ関数が、前記第１のウィンドウ関数の上端と下端で大きい振幅を有する、請求項６に記載の方法。
前記第２のウィンドウ関数が、前記第２のウィンドウ関数の上端と下端で小さい振幅を有する、請求項７に記載の方法。
前記第１のウィンドウ関数が、前記第１のウィンドウ関数の上端で大きい振幅と、前記第１のウィンドウ関数の下端で小さい振幅を有する、請求項６に記載の方法。
前記第２のウィンドウ関数が、前記第２のウィンドウ関数の上端で小さい振幅と、前記第２のウィンドウ関数の下端で大きい振幅を有する、請求項９に記載の方法。
前記第１のウィンドウ関数と前記第２のウィンドウ関数が、１組のウィンドウ関数から選択された、請求項１に記載の方法。
前記第１のウィンドウ関数と前記第２のウィンドウ関数が、前記１組のウィンドウ関数から任意に選択された、請求項１１に記載の方法。
前記音声信号の前記一部分に前記第１のウィンドウ関数を適用するステップが、時間領域操作において前記第１のウィンドウ関数と前記音声信号の前記一部分を乗算するステップを含む、請求項１に記載の方法。
前記音声信号の前記一部分に前記第２のウィンドウ関数を適用するステップが、時間領域演算において前記第２のウィンドウ関数と前記音声信号の前記一部分を乗算するステップを含む、請求項１３に記載の方法。
前記第１と第２の特徴が、第１と第２のエネルギーを含む、請求項１に記載の方法。
前記第１と第２の特徴を比較するステップが、第１と第２のエネルギーを減算するステップを含む、請求項１５に記載の方法。
署名ビットを割り当てるステップが、前記第１と第２のエネルギーの減算の結果に基づいて署名ビット値を割り当てるステップを含む、請求項１６に記載の方法。
前記第１と第２の被ウィンドウ処理音声ブロックのそれぞれにおける付加的特徴を決定するステップと、前記付加的特徴を使用して、前記音声信号の前記一部分を表す付加的ビットを決定するステップとを更に含む、請求項１５記載の方法。
前記音声信号の前記一部分に第３のウィンドウ関数と第４のウィンドウ関数を適用して第３の被ウィンドウ処理音声ブロックと第４の被ウィンドウ処理音声ブロックを作成するステップと、
前記第３の被ウィンドウ処理音声ブロックと前記第４の被ウィンドウ処理音声ブロックを処理して前記音声信号の前記一部分を表す付加的ビットを決定するステップとを含む、請求項１に記載の方法。
前記処理するステップが、前記第３の被ウィンドウ処理音声ブロックの第３の特徴、前記第４の被ウィンドウ処理音声ブロックの第４の特徴、前記第１の特徴、又は前記第２の特徴のうちの１つ又は複数を比較するステップを含む、請求項１９に記載の方法。
実行されたときに、コンピュータに、
音声信号の一部分に第１のウィンドウ関数を適用して第１の被ウィンドウ処理音声ブロックを作成するステップと、
前記音声信号の一部分と同じ部分に、前記第１のウィンドウ関数とは異なる第２のウィンドウ関数を適用して第２の被ウィンドウ処理音声ブロックを作成するステップと、
前記第１の被ウィンドウ処理音声ブロックにおける周波数帯域の第１の特徴を決定するステップと、
前記第２の被ウィンドウ処理音声ブロックにおける前記周波数帯域の第２の特徴を決定するステップと、
前記第１の特徴を第２の特徴と比較するステップと、
前記第１の特徴と前記第２の特徴の比較に基づいて、前記音声信号の前記一部分を表す署名ビットを割り当てるステップとを含む、コンピュータ可読命令を記憶するコンピュータ可読媒体。
前記音声信号の前記一部分に第１のウィンドウ関数を適用して前記第１の被ウィンドウ処理音声ブロックを作成し、前記音声信号の前記一部分に前記第２のウィンドウ関数を適用して前記第２の被ウィンドウ処理音声ブロックを作成するステップが、第１と第２の変換された被ウィンドウ処理音声ブロックを作成する周波数領域処理を含む、請求項２１に記載のコンピュータ可読媒体。
前記第１と第２の被ウィンドウ処理音声ブロックの周波数帯域の前記第１と第２の特徴を決定するステップが、前記第１と第２の変換被ウィンドウ処理音声ブロックを処理するステップを含む、請求項２２に記載のコンピュータ可読媒体。
前記第１と第２のウィンドウ関数が、相補的関数を含む、請求項２１に記載のコンピュータ可読媒体。
前記音声信号の前記一部分に前記第１のウィンドウ関数を適用するステップが、時間領域操作において前記第１のウィンドウ関数と前記音声信号の前記一部分を乗算するステップを含む、請求項２１に記載のコンピュータ可読媒体。
前記音声信号の前記一部分に前記第２のウィンドウ関数を適用するステップが、時間領域操作において前記第２のウィンドウ関数と前記音声信号の前記一部分を乗算するステップを含む、請求項２５に記載のコンピュータ可読媒体。
前記第１と第２の特徴が、第１と第２のエネルギーを含む、請求項２１に記載のコンピュータ可読媒体。
前記第１と第２の特徴を比較するステップが、第１と第２のエネルギーを減算するステップを含む、請求項２７に記載のコンピュータ可読媒体。
署名ビットを割り当てるステップが、前記第１と第２のエネルギー前記減算の結果に基づいて署名ビット値を割り当てるステップ含む、請求項２８に記載のコンピュータ可読媒体。
前記第１と第２の被ウィンドウ処理音声ブロックのそれぞれにおける付加的特徴を決定し、前記付加的特徴を使用して前記音声信号の前記一部分を表す付加的ビットを決定するステップを更に含む、請求項２９に記載のコンピュータ可読媒体。
音声信号の一部分を表わす署名を生成する装置が、
音声信号の一部分に第１のウィンドウ関数を適用して第１の被ウィンドウ処理音声ブロックを作成し、前記音声信号の一部分と同じ部分に、前記第１のウィンドウ関数とは異なる第２のウィンドウ関数を適用して第２の被ウィンドウ処理音声ブロックを作成するウィンドウ処理器と、
前記第１の被ウィンドウ処理音声ブロックにおける周波数帯域の第１の特徴を決定しかつ前記第２の被ウィンドウ処理音声ブロックにおける周波数帯域の第２の特徴を決定する特徴決定器と、
前記第１の特徴を前記第２の特徴と比較する比較器と、
前記音声信号の前記一部分を表す署名ビットを、前記第１の特徴と第２の特徴の前記比較に基づいて割り当てる署名決定器とを含む装置。
前記ウィンドウ処理器が、周波数領域処理を使用して、前記音声信号の前記一部分に前記第１のウィンドウ関数を適用して前記第１の被ウィンドウ処理音声ブロックを作成しかつ前記音声信号の前記一部分に前記第２のウィンドウ関数を適用して前記第２の被ウィンドウ処理音声ブロックを作成して、第１と第２の変換被ウィンドウ処理音声ブロックを作成する、請求項３１に記載の装置。
前記特徴決定器が、前記第１と第２の変換被ウィンドウ処理音声ブロックを処理することによって前記第１と第２の被ウィンドウ処理音声ブロックにおける前記周波数帯域の前記１と第２の特徴を決定する、請求項３２に記載の装置。
前記第１と第２のウィンドウ関数が、相補的関数を含む，請求項３１に記載の装置。
前記ウィンドウ処理器が、時間領域操作において前記第１のウィンドウ関数と前記音声信号の前記一部分を乗算することによって前記音声信号の一部分に前記第１のウィンドウ関数を適用するステップを含む、請求項３４に記載の装置。
前記ウィンドウ処理器が、時間領域操作において前記第２のウィンドウ関数と前記音声信号の一部分を乗算することによって前記音声信号の前記一部分に前記第２のウィンドウ関数を適用する、請求項３５に記載の装置。
前記第１と第２の特徴が、第１と第２のエネルギーを含む、請求項３１に記載の装置。
前記比較器が、前記第１と第２のエネルギーを減算する、請求項３７に記載の装置。
前記署名決定器が、前記第１と第２のエネルギーの前記減算の結果に基づいて署名ビット値を割り当てる、請求項３８に記載の装置。
前記特徴決定器が、前記第１と第２の被ウィンドウ処理音声ブロックのそれぞれにおける付加的特徴を決定し、前記付加的特徴を使用して前記音声信号の前記一部分を表す付加的ビットを決定する、請求項３９に記載の装置。