JP2023071787A

JP2023071787A - 音高に依存しない音色属性をメディア信号から抽出する方法及び装置

Info

Publication number: JP2023071787A
Application number: JP2023025354A
Authority: JP
Inventors: ザファールラフィイ，; Rafii Zafar
Original assignee: Nielsen Co US LLC
Current assignee: Nielsen Co US LLC
Priority date: 2018-03-13
Filing date: 2023-02-21
Publication date: 2023-05-23
Also published as: EP3766062A4; JP2021517267A; CN111868821A; US20230368761A1; US20200051538A1; US20210151021A1; US11749244B2; EP3766062A1; US20200219473A1; US10629178B2; WO2019178108A1; JP7235396B2; US10186247B1; US10902831B2; US20190287506A1; US10482863B2

Abstract

【課題】音高に依存しない音色属性をメディア信号から抽出する方法及び装置を提供する。【解決手段】音声分析器は、メディア信号を受け取るためのメディアインタフェースと、メディア信号に対応する音声のスペクトルを求め、スペクトルの変換の大きさの逆変換に基づいて、音声の、音高に依存しない音色属性を特定するための音声特性抽出器と、を含む。【選択図】図２

Description

開示の分野

[0001]本開示は、概略的には、音声処理に関し、より詳細には、音高に依存しない音色属性をメディア信号から抽出する方法及び装置に関する。

背景

[0002]音色（例えば、音色属性／音色の属性）とは、音声の音高又は音量に関係のない、音声の特質／性質である。音色とは、２つの異なる音を、これらがたとえ同じ音高及び音量であっても、互いに異なって聞こえるようにするものである。例えば、同じ音符を同じ振幅で演奏しているギターとフルートとは、ギターとフルートの持つ音色が異なるので、異なって聞こえる。音色は、音声事象の周波数及び時間包絡線（例えば、時間及び周波数に沿ったエネルギー分布）に対応する。音色の感じ方に対応する音声の特性には、スペクトル及び包絡線が含まれる。

[0003]図１は、音高に依存しない音色属性をメディア信号から抽出する例示的な計器を示す図である。

[0004]図２は、図１の例示的な音声分析器及び例示的な音声特定器のブロック図である。

[0005]図３は、音高に依存しない音色属性をメディア信号から抽出するために、及び／又は音色に依存しない音高をメディア信号から抽出するために、図１及び図２の例示的な音声分析器を実装するように実行され得る例示的な機械可読命令を表すフローチャートである。

[0006]図４は、無音高の音色対数スペクトルに基づいて、音声を特徴づけるために、及び／又はメディアを識別するために、図１及び図２の例示的な音声特定器を実装するように実行され得る例示的な機械可読命令を表すフローチャートである。

[0007]図５は、図１及び図２の例示的な音声分析器を使用して特定され得る、例示的な音声信号、音声信号の例示的な音高、及び音声信号の例示的な音色を示す図である。

[0008]図６は、図１及び図２の例示的な音声分析器を制御するために、図３の例示的な機械可読命令を実行するように構築されたプロセッサプラットフォームのブロック図である。

[0009]図７は、図１及び図２の例示的な音声特定器を制御するために、図４の例示的な機械可読命令を実行するように構築されたプロセッサプラットフォームのブロック図である。

[0010]図は原寸に比例していない。可能な限り、同一又は同様の部分を参照するために同一の参照番号が、図面（複数可）及び付随する書面の説明全体を通して使用される。

詳細な説明

[0011]音声計器とは、音声信号を（例えば、直接又は間接的に）取り込んで、その音声信号を処理するデバイスのことである。例えば、パネリストが、視聴者測定エンティティによって監視されているメディアに露出する契約をすると、視聴者測定エンティティはパネリストの家に技術者を派遣して、メディア出力デバイス（複数可）（例えば、テレビ受信機、ラジオ、コンピュータ等）からメディア露出データを集めることができる計器（例えば、メディアモニタ）を設置することができる。別の例では、計器は、受け取った音声及び／又は映像データを処理してメディアの特性を特定するために、例えばスマートフォンのプロセッサで実行される命令に応答することができる。

[0012]概略的には、計器は、メディア源から直接又は間接的にメディア信号を受け取るためにインタフェースを含むか、さもなければインタフェースに接続される（例えば、周囲音声を集めるためのマイクロホン及び／又は磁気結合デバイス）。例えば、メディア出力デバイスが「オン」のとき、マイクロホンは、メディア出力デバイスから送出された音響信号を受け取ることができる。計器は、受け取った音響信号を処理して、音声又は音声源を特徴づけるために、及び／又は識別するために使用できる音声の特性を特定することができる。メディア出力デバイスから出力されるべき音声信号及び／又は映像信号を受け取るために、メディア出力デバイスの中で働く、及び／又はメディア出力デバイスと一緒に働く命令に計器が応答するとき、計器は、入ってくる音声信号及び／又は映像信号を処理／分析して、信号に関連するデータを直接特定することができる。例えば計器は、セットトップボックス、受信機、携帯電話等の中で動作して、入ってくる音声／映像データを、メディア出力デバイスから出力される前、間中、又は後に受け取り、処理することができる。

[0013]いくつかの例では、音声計測デバイス／命令は、音声の様々な特性を利用して音声及び／又は音声源を分類及び／又は識別する。このような特性には、メディア信号のエネルギー、メディア信号の各周波数帯域のエネルギー、メディア信号の離散コサイン変換（ＤＣＴ）係数等が含まれ得る。本明細書に開示の例では、メディア信号に対応する音声の音色に基づいてメディアを分類及び／又は識別する。

[0014]音色（例えば、音色属性／音色の属性）とは、音声の音高又は音量に関係のない音声の特質／性質のことである。例えば、同じ音符を同じ振幅で演奏しているギターとフルートは、ギターとフルートの持つ音色が異なるので異なって聞こえる。音色は、音声事象の周波数及び時間包絡線（例えば、時間及び周波数に沿ったエネルギー分布）に対応する。従来、音色は様々な特徴によって特徴づけられてきた。しかし、音色は、音声の他の態様（例えば、音高）と無関係に音声から抽出されることがなかった。したがって、音高に依存する音色測定に基づいてメディアを識別するには、カテゴリ及び音高ごとに音色に対応する、参照用の音高に依存する音色の大規模なデータベースが必要になる。本明細書に開示の例では、音高と無関係である測定された音声から音高に依存しない音色対数スペクトルを抽出し、したがって、音色に基づいてメディアを分類及び／又は識別するために必要とされるリソースが減少する。

[0015]上で説明したように、抽出された音高に依存しない音色は、メディアを分類するために、及び／又はメディアを識別するために使用することができ、及び／又は署名アルゴリズムの一部として使用することができる。例えば、抽出された音高に依存しない音色属性（例えば、対数スペクトル）を使用して、測定された音声（例えば、音声サンプル）がバイオリンに対応することをバイオリンによって演奏されている音符にかかわらず判定することができる。いくつかの例では、特徴的な音声は、よりよい音声体験をユーザに提供するようにメディア出力デバイスの音声設定を調整するために使用することができる。例えば、いくつかの音声等化器設定は、特定の楽器及び／又はジャンルの音声によりよく適合させることができる。したがって、本明細書に開示の例では、メディア出力デバイスの音声等化器設定を、抽出された音色に対応する識別された楽器／ジャンルに基づいて調整することができる。別の例では、抽出された音高に依存しない音色は、その抽出された音高に依存しない音色属性をデータベースの参照音色属性と比較することによってメディア提示デバイス（例えば、テレビ受信機、コンピュータ、ラジオ、スマートフォン、タブレット等）から出力されるメディアを識別するのに使用することができる。このように、抽出された音色及び／又は音高を使用して、受け取った音声の音高のみを考慮する従来の技法よりも詳細なメディア露出情報を視聴者測定エンティティに提供することができる。

[0016]図１は、メディア信号から音高に依存しない音色属性を抽出する例示的な音声分析器１００を示す。図１は、例示的な音声分析器１００、例示的なメディア出力デバイス１０２、例示的なスピーカ１０４ａ、１０４ｂ、例示的なメディア信号１０６、及び例示的な音声特定器１０８を含む。

[0017]図１の例示的な音声分析器１００は、デバイス（例えば、例示的なメディア出力デバイス１０２及び／又は例示的なスピーカ１０４ａ、１０４ｂ）からメディア信号を受け取り、そのメディア信号を処理して、音高に依存しない音色属性（例えば、対数スペクトル）、及び音色に依存しない音高属性を特定する。いくつかの例では、音声分析器１００は、周囲音声を検知することによって例示的なメディア信号１０６を受け取るために、マイクロホンを含むか、さもなければマイクロホンに接続することができる。そのような例では、音声分析器１００は、マイクロホンを利用する計器又は他のコンピュータデバイス（例えば、コンピュータ、タブレット、スマートフォン、スマートウォッチ等）に実装することができる。いくつかの例では、音声分析器１００は、メディア出力デバイス１０２にメディアを提示する例示的なメディア出力デバイス１０２及び／又はメディア提示デバイスから、例示的なメディア信号１０６を（例えば、有線又は無線接続によって）直接受け取るためのインタフェースを含む。例えば、音声分析器１００はメディア信号１０６を、セットトップボックス、携帯電話、ゲームデバイス、音声受信機、ＤＶＤプレーヤ、ブルーレイプレーヤ、タブレット、及び／又は任意の他の、メディア出力デバイス１０２及び／又は例示的なスピーカ１０４ａ、１０４ｂから出力されるべきメディアを提供するデバイスから直接受け取ることができる。以下で図２と併せてさらに説明するように、例示的な音声分析器１００は、音高に依存しない音色属性及び／又は音色に依存しない音高属性をメディア信号１０６から抽出する。メディア信号１０６が音声成分を含む映像信号である場合、例示的な音声分析器１００は、音高及び／又は音色を抽出するより前に音声成分をメディア信号１０６から抽出する。

[0018]図１の例示的なメディア出力デバイス１０２は、メディアを出力するデバイスである。図１の例示的なメディア出力デバイス１０２はテレビ受信機として図示されているが、例示的なメディア出力デバイス１０２は、ラジオ、ＭＰ３プレーヤ、ビデオゲームコンソール、ステレオシステム、モバイルデバイス、タブレット、コンピュータデバイス、タブレット、ラップトップ、プロジェクタ、ＤＶＤプレーヤ、セットトップボックス、オーバザトップデバイス、及び／又はメディア（例えば、映像及び／又は音声）を出力できる任意のデバイスでもよい。例示的なメディア出力デバイスは、スピーカ１０４ａを含むことができ、及び／又は有線若しくは無線接続を介してポータブルスピーカ１０４ｂに結合するか、別様に接続することができる。例示的なスピーカ１０４ａ、１０４ｂは、例示的なメディア出力デバイスから出力されるメディアの音声部分を出力する。図１に示された例では、メディア信号１０６は、例示的なスピーカ１０４ａ、１０４ｂから出力される音声を表す。加えて、又は別法として、例示的なメディア信号１０６は、例示的なメディア出力デバイス１０２及び／又は例示的なスピーカ１０４ａ、１０４ｂへ伝送されて例示的なメディア出力デバイス１０２及び／又は例示的なスピーカ１０４ａ、１０４ｂから出力される音声信号及び／又は映像信号でもよい。例えば、例示的なメディア信号１０６は、ビデオゲームの音声及び映像を出力するための例示的なメディア出力デバイス１０２及び／又は例示的なスピーカ１０４ａ、１０４ｂへ伝送されるゲームコンソールからの信号でよい。例示的な音声分析器１００は、メディア提示デバイス（例えば、ゲームコンソール）から、及び／又は周囲音声からメディア信号１０６を直接受け取ることができる。このようにして、音声分析器１００は、スピーカ１０４ａ、１０４ｂがオフである、動作していない、又は音量が下げられているときでも、メディア信号から音声を分類及び／又は識別することができる。

[0019]図１の例示的な音声特定器１０８は、例示的な音声分析器１００からの、受け取った音高に依存しない音色属性測定値に基づいて、音声を特徴づけ、及び／又はメディアを識別する。例えば、音声特定器１０８は、分類及び／又は識別に対応する参照用の音高に依存しない音色属性のデータベースを含むことができる。このようにして、例示的な音声特定器１０８は、受け取った音高に依存しない音色属性（複数可）を参照用の音高に依存しない属性と比較して、適合（match、マッチ）することを明らかにすることができる。マッチすることを例示的な音声特定器１０８が明らかにした場合、例示的な音声特定器１０８は、その音声を分類し、及び／又はマッチした参照音色属性に対応する情報についてメディアを識別する。例えば、受け取った音色属性がトランペットに対応する参照属性とマッチした場合、例示的な音声特定器１０８は、受け取った音色属性に対応する音声をトランペットからの音声として分類する。このような例では、音声分析器１００が携帯電話の一部である場合、例示的な音声分析器１００は、歌曲を演奏するトランペットの音声信号を受け取ることができる（例えば、音声／映像信号を受け取るインタフェースを介して、又は音声信号を受け取る携帯電話のマイクロホンを介して）。このようにして、音声特定器１０８は、受け取った音声に対応する楽器がトランペットであることを識別し、ユーザに対しトランペットであると明らかにすることができる（例えば、携帯電話のユーザインタフェースを使用して）。別の例では、受け取った音色属性が特定のビデオゲームに対応する参照属性とマッチする場合、例示的な音声特定器１０８は、受け取った音色属性に対応する音声をその特定のビデオゲームからのものと明らかにすることができる。例示的な音声特定器１０８は、その音声を明らかにする報告を生成することができる。このようにして、視聴者測定エンティティは、その報告に基づいてビデオゲームへの露出を信じることができる。いくつかの例では、音声特定器１０８は、音色を音声分析器１００から直接受け取る（例えば、音声分析器１００と音声特定器１０８の両方が同一のデバイスに設置されている）。いくつかの例では、音声特定器１０８は別の場所に設置されており、音色を例示的な音声分析器１００から無線通信を介して受け取る。いくつかの例では、音声特定器１０８は、音声等化器設定を音声分類に基づいて調整するために、命令を例示的な音声メディア出力デバイス１０２及び／又は例示的な音声分析器１００へ送出する（例えば、例示的な音声分析器１００が例示的なメディア出力デバイス１０２に実装されているとき）。例えば、音声特定器１０８が、メディア出力デバイス１０２から出力されている音声をトランペットからのものとして分類した場合、例示的な音声特定器１０８は、音声等化器設定をトランペット音声に対応する設定に調整する命令を送出することができる。例示的な音声特定器１０８については、以下で図２と併せてさらに説明する。

[0020]図２は、図１の例示的な音声分析器１００及び例示的な音声特定器１０８の例示的な実装例のブロック図を含む。図２の例示的な音声分析器１００は、例示的なメディアインタフェース２００、例示的な音声抽出器２０２、例示的な音声特性抽出器２０４、及び例示的なデバイスインタフェース２０６を含む。図２の例示的な音声特定器１０８は、例示的なデバイスインタフェース２１０、例示的な音色プロセッサ２１２、例示的な音色データベース２１４、及び例示的な音声設定調整器２１６を含む。いくつかの例では、例示的な音声分析器１００の要素が、例示的な音声特定器１０８に実装されることがあり、及び／又は例示的な音声特定器１０８の要素が例示的な音声特定器１０８に実装されることがある。

[0021]図２の例示的なメディアインタフェース２００は、図１の例示的なメディア信号１０６を受け取る（例えば、サンプリングする）。いくつかの例では、メディアインタフェース２００は、周囲音声の検知を通してメディア信号１０６を集めることによってメディア信号１０６を音声として得るために使用されるマイクロホンとすることができる。いくつかの例では、メディアインタフェース２００は、例示的なメディア出力デバイス１０２から出力されるべき音声信号及び／又は映像信号（例えば、デジタル表現のメディア信号）を直接受け取るためのインタフェースとすることができる。いくつかの例では、メディアインタフェース２００は２つのインタフェースを含むことができ、これらは、周囲音声を検出及びサンプリングするためのマイクロホンと、音声信号及び／又は映像信号を直接受け取る及び／又はサンプリングするためのインタフェースとである。

[0022]図２の例示的な音声抽出器２０２は、受け取った／サンプリングしたメディア信号１０６から音声を抽出する。例えば、音声抽出器２０２は、受け取ったメディア信号１０６が音声信号か、又は音声成分を含む映像信号に該当するかどうかを判定する。メディア信号が音声成分を含む映像信号に該当する場合、例示的な音声抽出器２０２は、その音声成分を抽出して、さらなる処理のための音声信号／サンプルを生成する。

[0023]図２の例示的な音声抽出器２０４は、音声信号／サンプルを処理して、音高に依存しない音色対数スペクトル及び／又は音色に依存しない音高対数スペクトルを抽出する。対数スペクトルとは、音高に依存しない（例えば、無音高）音色対数スペクトルと、音色に依存しない（例えば、無音色）音高対数スペクトルとの間の畳み込みのことである（例えば、Ｘ＝Ｔ＊Ｐであり、ここで、Ｘは音声信号の対数スペクトルであり、Ｔは音高に依存しない対数スペクトルであり、Ｐは音色に依存しない音高対数スペクトルである）。したがって、フーリエ領域では、音声信号についての対数スペクトルのフーリエ変換（ＦＴ）の大きさは、音色のＦＴの近似値にマッチし得る（例えば、Ｆ（Ｘ）＝Ｆ（Ｔ）×Ｆ（Ｐ）であり、ここで、Ｆ（．）はフーリエ変換、Ｆ（Ｔ）≒｜Ｆ（Ｘ）｜、及びＦ（Ｐ）≒ｅ^{ｊａｒｇ（Ｆ（Ｘ））}である）。複素引数は、（例えば、エネルギー及びオフセットに対応する）大きさと位相を合わせたものになる。したがって、音色のＦＴは、対数スペクトルのＦＴの大きさによって近似することができる。したがって、音声信号の音高に依存しない音色対数スペクトル及び／又は音色に依存しない音高対数スペクトルを求めるために、例示的な音声特性抽出器２０４は、音声信号の対数スペクトルを求め（例えば、定Ｑ変換（ＣＱＴ）を使用して）、その対数スペクトルを周波数領域に変換する（例えば、ＦＴを使用して）。このようにして、例示的な音声特性抽出器２０４は、（Ａ）音高に依存しない音色対数スペクトルを逆変換に基づいて求め（例えば、変換出力の大きさの逆フーリエ変換（Ｆ^－１）（例えば、Ｔ＝Ｆ^－１（｜Ｆ（Ｘ）｜））、（Ｂ）無音色の音高対数スペクトルを変換出力の複素引数の逆変換に基づいて求める（例えば、Ｐ＝Ｆ^－１（ｅ^{ｊａｒｇ（Ｆ（Ｘ））}））。音声信号の音声スペクトルの対数周波数スケールは、音高シフトが垂直平行移動と同等になることを可能にする。したがって、例示的な音声特性抽出器２０４は、ＣＱＴを使用して音声信号の対数スペクトルを求める。

[0024]いくつかの例では、図２の例示的な音声特性抽出器２０４が、結果として得られた音色及び／又は音高が満足の行くものではないと判定した場合に、音声特性抽出器２０４は、その結果をフィルリングして分解を改善する。例えば、音声特性抽出器２０４は、音色の特定の高調波を強調することによって、又は単一のピーク／ラインを音高に押し込み他の結果の成分を更新することによって、結果をフィルタリングすることができる。例示的な音声特性抽出器２０４は、フィルタリングを１回すること、又は反復アルゴリズムを、フィルタ／音高を反復ごとに更新しながら実行することができ、それによって、音高及び音色の全畳み込みが音声の元の対数スペクトルをもたらすことが確実になる。音声特性抽出器２０４は、ユーザ及び／又は製造者の選好に基づいて、これらの結果が満足の行くものではないと判定することができる。

[0025]図２の例示的な音声分析器１００の例示的なデバイスインタフェース２０６は、例示的な音声特定器１０８及び／又は他のデバイス（例えば、ユーザインタフェース、処理デバイス等）とインタフェースすることができる。例えば、音声特性抽出器２０４が音高に依存しない音色属性を特定すると、例示的なデバイスインタフェース２０６は、その属性を例示的な音声特定器１０８へ伝達して音声を分類すること、及び／又はメディアを識別することができる。それに応じて、デバイスインタフェース２０６は、例示的な音声特定器１０８から分類結果及び／又は識別情報（例えば、メディア信号１０６の送出元に対応する識別子）を受け取ることができる（例えば、信号又は報告の形で）。このような例では、例示的なデバイスインタフェース２０６は、分類結果及び／又は識別情報を他のデバイス（例えば、ユーザインタフェース）へ伝達して、その分類結果及び／又は識別情報をユーザに表示することができる。例えば、音声分析器１００がスマートフォンと一緒に使用されているとき、デバイスインタフェース２０６は、分類の結果及び／又は識別情報をスマートフォンのユーザに対しスマートフォンのインタフェース（例えば、画面）を介して出力することができる。

[0026]図２の例示的な音声特定器１０８の例示的なデバイスインタフェース２１０は、音高に依存しない音色属性を例示的な音声分析器１００から受け取る。加えて、例示的なデバイスインタフェース２１０は、例示的な音声特定器１０８によって特定された分類結果及び／又は識別情報を表す信号／報告を出力する。この報告は、受け取った音色に基づく分類結果及び／又は識別情報に対応する信号とすることができる。いくつかの例では、デバイスインタフェース２１０は、報告（例えば、音色に対応するメディアの識別情報を含む）をさらなる処理のためにプロセッサ（例えば、視聴者測定エンティティのプロセッサ等）に伝達する。例えば、受け取りデバイスのプロセッサは、報告を処理してメディア露出メトリクス、視聴者測定メトリクス等を生成することができる。いくつかの例では、デバイスインタフェース２１０は、報告を例示的な音声分析器１００へ伝達する。

[0027]図２の例示的な音色プロセッサ２１２は、受け取った例示的な音声分析器１００の音色属性を処理してその音声を特徴づけ、及び／又は音声源を識別する。例えば、音色プロセッサ２１２は、受け取った音色属性を例示的な音色データベース２１４の参照属性と比較することができる。このようにして、例示的な音色プロセッサ２１２は、受け取った音色属性が参照属性とマッチすると判定した場合には、マッチした参照音色属性に対応するデータに基づいて、音声源を分類及び／又は識別する。例えば、例示的な音色プロセッサ２１２は、受け取った音色属性が特定のコマーシャルに対応する参照音色属性とマッチすると判定した場合には、その音声源がその特定のコマーシャルであることを明らかにする。いくつかの例では、分類はジャンル分類を含むことがある。例えば、例示的な音色プロセッサ２１２がいくつかの楽器をその音色に基づいて判定する場合、例示的な音色プロセッサ２１２は、識別された楽器に基づいて、及び／又は音色自体に基づいて、音声のジャンル（例えば、クラッシック、ロック、ヒップホップ等）を識別することができる。いくつかの例で、マッチするものを音色プロセッサ２１２が見出さない場合には、例示的な音色プロセッサ２１２は、受け取った音色属性を新しい参照音色属性になるように音色データベース２１４に記憶する。例示的な音色プロセッサ２１２が新しい参照音色を例示的な音色データベース２１４に記憶する場合、例示的なデバイスインタフェース２１０は、ユーザに識別情報（例えば、音声の分類が何であるか、メディア源が何であるか等）を要求するために、命令を例示的な音声分析器１００へ伝達する。このようにして、音声分析器１００が追加の情報と併せて応答する場合には、音色データベース２１４は、その追加の情報を新しい参照音色と一緒に記憶することができる。いくつかの例では、技術者は、新しい参照音色を分析して追加の情報を特定する。例示的な音色プロセッサ２１２は、分類結果及び／又は識別情報に基づいて報告を生成する。

[0028]図２の例示的な音声設定調整器２１６は、分類された音声に基づいて、音声等化器設定を決定する。例えば、分類された音声が１つ又は複数の楽器及び／又はジャンルに該当する場合、例示的な音声設定調整器２１６は、その１つ又は複数の楽器及び／又はジャンルに対応する音声等化器設定を決定することができる。いくつかの例では、音声がクラッシック音楽と分類された場合、例示的な音声設定調整器２１６は、クラッシック音楽に対応するクラッシック音声等化器設定を選択することができる（例えば、低音域のレベル、震動のレベル等）。このようにして、例示的なデバイスインタフェース２１０は、音声等化器設定を例示的なメディア出力デバイス１０２及び／又は例示的な音声分析器１００へ伝達して、例示的なメディア出力デバイス１０２の音声等化器設定を調整することができる。

[0029]図１の例示的な音声分析器１００及び例示的な音声特定器１０８を実装する例示的な方法が図２に示されているが、図２に示された１つ又は複数の要素、プロセス及び／又はデバイスは、任意の他の方法で組み合わせる、分割する、再配置する、省く、除去する、及び／又は実装することができる。さらに、例示的なメディアインタフェース２００、例示的な音声抽出器２０２、例示的な音声特性抽出器２０４、例示的なデバイスインタフェース２０６、例示的な音声設定調整器２１６、及び／若しくは、より一般的に図２の例示的な音声分析器１００、並びに／又は例示的なデバイスインタフェース２１０、例示的な音色プロセッサ２１２、例示的な音色データベース２１４、例示的な音声設定調整器２１６、及び／若しくは、より一般的に図２の例示的な音声特定器１０８は、ハードウェア、ソフトウェア、ファームウェア、並びに／又はハードウェア、ソフトウェア及び／若しくはファームウェアの任意の組み合わせによって実装することができる。したがって、例えば、例示的なメディアインタフェース２００、例示的な音声抽出器２０２、例示的な音声特性抽出器２０４、例示的なデバイスインタフェース２０６、及び／若しくは、より一般的に図２の例示的な音声分析器１００、並びに／又は例示的なデバイスインタフェース２１０、例示的な音色プロセッサ２１２、例示的な音色データベース２１４、例示的な音声設定調整器２１６、及び／若しくは、より一般的に図２の例示的な音声特定器１０８のいずれも、１つ又は複数のアナログ若しくはデジタル回路（複数可）、論理回路、プログラム可能プロセッサ（複数可）、プログラム可能コントローラ（複数可）、グラフィック処理ユニット（複数可）（ＧＰＵ（複数可））、デジタル信号プロセッサ（複数可）（ＤＰＳ（複数可））、特定用途向け集積回路（複数可）（ＡＳＩＣ（複数可））、プログラム可能論理デバイス（複数可）（ＰＬＤ（複数可））及び／又はフィールドプログラマブル論理デバイス（複数可）（ＦＰＬＤ（複数可））によって実装することができる。本特許の装置又はシステムの特許請求項のいずれもが純粋にソフトウェア及び／又はファームウェア実装形態を包含するものと読むとき、例示的なメディアインタフェース２００、例示的な音声抽出器２０２、例示的な音声特性抽出器２０４、例示的なデバイスインタフェース２０６、及び／若しくは、より一般的に図２の例示的な音声分析器１００、並びに／又は例示的なデバイスインタフェース２１０、例示的な音色プロセッサ２１２、例示的な音色データベース２１４、例示的な音声設定調整器２１６、及び／若しくは、より一般的に図２の例示的な音声特定器１０８のうちの少なくとも１つは、ソフトウェア及び／又はファームウェアを含むメモリ、デジタル多用途ディスク（ＤＶＤ）、コンパクトディスク（ＣＤ）、ブルーレイディスク等の非一時的（non-transitory、ノントランジトリ）なコンピュータ可読記憶デバイス又は記憶ディスクを含むものと本明細書で明確に定義されている。さらになお、図１の例示的な音声分析器１００及び／又は例示的な音声特定器１０８は、１つ又は複数の要素、プロセス及び／若しくはデバイスを図２に示されたものに加えて、又はその代わりに含むこと、並びに／又は図示された要素、プロセス及びデバイスのいずれか若しくは全部のうちの２つ以上を含むことがある。本明細書で用いられる場合、「通信している」という句は、そのバリエーションを含めて、直接通信、及び／又は１つ若しくは複数の中間構成要素を介する間接通信を包含し、直接の物理的（例えば、有線）通信及び／又は常時通信を必要とせず、むしろ、周期的な間隔、スケジューリングされた間隔、非周期的な間隔、及び／又は１回限りのイベントにおける選択的通信を付加的に含む。

[0030]図２の音声分析器１００を実装するための例示的なハードウェア論理又は機械可読命令を表すフローチャートが図３に示されており、図２の音声特定器１０８を実装するための例示的なハードウェア論理又は機械可読命令を表すフローチャートが図４に示されている。機械可読命令は、図６及び／又は図７と関連して以下で論じる例示的なプロセッサプラットフォーム６００、７００に示されたプロセッサ６１２、７１２等の、プロセッサによって実行するためのプログラム又はプログラムの一部分とすることができる。プログラムは、プロセッサ６１２、７１２と結び付けられたＣＤ－ＲＯＭ、フロッピーディスク、ハードドライブ、ＤＶＤ、ブルーレイディスク、又はメモリ等の非一時的コンピュータ可読記憶媒体に記憶されたソフトウェアの形で具現化できるが、プログラム全体又はその一部分は別法として、プロセッサ６１２、７１２以外のデバイスによって実行すること、及び／又はファームウェア若しくは専用ハードウェアの形で具現化することもできる。さらに、例示的なプログラムについては図３～図４に示されたフローチャートを参照して説明するが、例示的な音声分析器１００及び／又は例示的な音声特定器１０８を実装する多くの他の方法が別法として使用されてもよい。例えば、ブロックを実行する順序は変更されてもよく、及び／又は図示のブロックのいくつかが変更、除去、又は結合されてもよい。加えて、又は別法として、これらのブロックの一部又は全部が、ソフトウェア又はファームウェアを実行しなくてもその対応する動作を実行するように構築された１つ又は複数のハードウェア回路（例えば、ディスクリート及び／又は集積化アナログ回路及び／又はデジタル回路、ＦＰＧＡ、ＡＳＩＣ、比較器、演算増幅器（オペアンプ）、論理回路等）によって実装されてもよい。

[0031]上記のように、図３～図４の例示的なプロセスは、実行可能命令（例えば、コンピュータ及び／又は機械可読命令）を使用して実装することができ、この命令は、情報が任意の持続期間（例えば、延長された期間、恒久的に、短いインスタンスのために、一時的なバッファリングのために、及び／又は情報のキャッシングのために）記憶されるハードディスクドライブ、フラッシュメモリ、読み出し専用メモリ、コンパクトディスク、デジタル多用途ディスク、キャッシュ、ランダムアクセスメモリ及び／又は任意の他の記憶デバイス若しくは記憶ディスク等の、非一時的なコンピュータ及び／又は機械可読媒体に記憶される。本明細書で用いられる場合、非一時的なコンピュータ可読媒体という用語は、任意のタイプのコンピュータ可読記憶デバイス及び／又は記憶ディスクを含むもの、及び伝播する信号を除外するもの、及び伝達媒体を除外するものと明確に定義される。

[0032]「含んでいる」及び「備えている」（及びこれらのすべての形及び時制）は、本明細書では制限のない用語として用いられる。したがって、請求項で「含む」又は「備える」のいずれかの形（例えば、備える、含む、備えている、含んでいる、有している等）をプリアンブルとして使用する、又は何かの種類の請求項記載物の中に使用するときはいつも、追加の要素、用語等が、対応する請求項又は記載物の範囲から外れることなく存在し得ることを理解されたい。本明細書で使用される場合、「少なくとも」という句が、例えば請求項のプリアンブルの移行用語として用いられている場合、この用語は、「備えている」及び「含んでいる」という用語に制限がないのと同じように、制限がない。「及び／又は」という用語は、例えば、Ａ、Ｂ及び／又はＣ等の形で用いられた場合、（１）Ａだけ、（２）Ｂだけ、（３）Ｃだけ、（４）Ｂと共にＡ、（５）Ｃと共にＡ、及び（６）Ｃと共にＢ等の、Ａ、Ｂ、Ｃの任意の組み合わせ又はサブセットを指す。

[0033]図３は、例示的な機械可読命令を表す例示的なフローチャート３００であり、この命令は、図１及び図２の例示的な音声分析器１００によって実行されて、音高に依存しない音色属性をメディア信号（例えば、メディア信号の音声信号）から抽出することができる。図３の命令は、図１の例示的な音声分析器１００と併せて説明されるが、例示的な命令は音声分析器によって任意の環境で使用されてよい。

[0034]ブロック３０２で、例示的なメディアインタフェース２００は、１つ又は複数のメディア信号又はメディア信号のサンプル（例えば、例示的なメディア信号１０６）を受け取る。上述のように、例示的なメディアインタフェース２００は、メディア信号１０６を直接（例えば、メディア出力デバイス１０２との間を行き来する信号として）、又は間接的に（例えば、周囲音声を検知することによってメディア信号を検出するマイクロホンとして）受け取ることができる。ブロック３０４で、例示的な音声抽出器２０２は、メディア信号が映像又は音声に該当するかどうかを判定する。例えば、メディア信号がマイクロホンを使用して受け取られた場合、音声抽出器２０２は、メディアが音声に該当すると判定する。しかし、メディア信号が、受け取った信号である場合、音声抽出器２０２は、受け取ったメディア信号を処理して、メディア信号が音声か、又は音声成分を含む映像信号に該当するかどうかを判定する。例示的な音声抽出器２０２が、メディア信号は音声に該当すると判定した場合（ブロック３０４：音声）、プロセスはブロック３０８へ続く。例示的な音声抽出器２０２が、メディア信号は映像に該当すると判定した場合（ブロック３０６：映像）、例示的な音声抽出器２０２は音声成分をメディア信号から抽出する（ブロック３０６）。

[0035]ブロック３０８で、例示的な音声特性抽出器２０４は、音声信号の対数スペクトル（例えば、Ｘ）を特定する。例えば、音声特性抽出器２０４は、ＣＱＴを実行することによって音声信号の対数スペクトルを特定することができる。ブロック３１０で、例示的な音声特性抽出器２０４は、対数スペクトルを周波数領域に変換する。例えば、音声特性抽出器２０４は、対数スペクトルに対してＦＴを実行する（例えば、Ｆ（Ｘ））。ブロック３１２で、例示的な音声特性抽出器２０４は、変換更新の大きさ（例えば、｜Ｆ（Ｘ）｜）を特定する。ブロック３１４で、例示的な音声特性抽出器２０４は、音声の、音高に依存しない音色対数スペクトルを変換出力の大きさの逆変換（例えば、逆ＦＴ）に基づいて特定する（例えば、Ｔ＝Ｆ^－１｜Ｆ（Ｘ）｜）。ブロック３１６で、例示的な音声特性抽出器２０４は、変換出力の複素引数を特定する（例えば、ｅ^{ｊａｒｇ（Ｆ（Ｘ））}）。ブロック３１８で、例示的な音声特性抽出器２０４は、音声の、音色に依存しない音高対数スペクトルを変換出力の複素引数の逆変換（例えば、逆ＦＴ）に基づいて特定する（例えば、Ｐ＝Ｆ^－１（ｅ^{ｊａｒｇ（Ｆ（Ｘ）}））。

[0036]ブロック３２０で、例示的な音声特性抽出器２０４は、結果（複数可）（例えば、特定された音高及び／又は特定された音色）が満足の行くものであるかどうかを判定する。図２と併せて上述したように、例示的な音声特性抽出器２０４は、結果が満足の行くものであることをユーザ及び／又は製造者の結果選好に基づいて判定する。例示的な音声特性抽出器２０４が結果は満足の行くものであると判定した場合（ブロック３２０：はい）、プロセスはブロック３２４へ続く。例示的な音声特性抽出器２０４が結果は満足の行くものであると判定した場合（ブロック３２０：いいえ）、例示的な音声特性抽出器２０４は、その結果をフィルタリングする（ブロック３２２）。図２と併せて上述したように、例示的な音声特性抽出器２０４は、音色の特定の高調波を強調することによって、又は単一のピーク／ラインを音高に押し込むことによって（例えば、１回又は繰り返して）、結果をフィルタリングすることができる。

[0037]ブロック３２４で、例示的なデバイスインタフェース２０６は、結果を例示的な音声特定器１０８へ伝達する。ブロック３２６で、例示的な音声特性抽出器２０４は、音声信号に対応する分類結果及び／又は識別情報データを受け取る。別法として、音声特定器１０８が音声信号の音色を参照とマッチさせることができなかった場合、デバイスインタフェース２０６は、その音声信号に対応する追加のデータを特定する命令を送出することができる。このような例では、デバイスインタフェース２０６は、ユーザが追加のデータを提供するようにするためにプロンプトをユーザインタフェースへ伝達する。したがって、例示的なデバイスインタフェース２０６は、追加のデータを例示的な音声特定器１０８に供給して新しい参照音色属性を生成することができる。ブロック３２８で、例示的な音声特性抽出器２０４は、分類結果及び／又は識別情報を他の接続されているデバイスへ伝達する。例えば、音声特性抽出器２０４は、分類結果をユーザインタフェースへ伝達してユーザに分類結果を提供する。

[0038]図４は、例示的な機械可読命令を表す例示的なフローチャート４００であり、この命令は、図１及び図２の例示的な音声特定器１０８によって実行されて、音声の、音高に依存しない音色属性に基づいて、音声を分類すること、及び／又はメディアを識別することができる。図４の命令は図１の例示的な音声特定器１０８と併せて説明されるが、この例示的な命令は音声特定器によって任意の環境で使用されてよい。

[0039]ブロック４０２で、例示的なデバイスインタフェース２１０は、測定された（例えば、特定又は抽出された）無音高の音色対数スペクトルを例示的な音声分析器１００から受け取る。ブロック４０４で、例示的な音色プロセッサ２１２は、測定された無音高の音色対数スペクトルを例示的な音色データベース２１４にある参照用の無音高の音色対数スペクトルと比較する。ブロック４０６で、例示的な音色プロセッサ２１２は、受け取った無音高の音色属性と参照用の無音高の音色属性の間にマッチが見出されるかどうかを判定する。例示的な音色プロセッサ２１２が、マッチの判定がされると判定した場合に（ブロック４０６：はい）、例示的な音色プロセッサ２１２は、そのマッチに基づき、マッチした参照音色属性に対応する例示的な音色データベース２１４に記憶された追加のデータを使用して、音声を分類する（例えば、楽器及び／又はジャンルを識別する）及び／又はその音声に対応するメディアを識別する（ブロック４０８）。

[0040]ブロック４１０で、例示的な音声設定調整器２１６は、メディア出力デバイス１０２の音声設定を調整できるかどうかを判定する。例えば、例示的なメディア出力デバイス１０２から出力されている音声の分類結果に基づいてメディア出力デバイス１０２の音声設定が調整されることを可能にする、イネーブルにされた設定があり得る。例示的な音声設定調整器２１６が、メディア出力デバイス１０２の音声設定は調整されるべきでないと判定した場合には（ブロック４１０：いいえ）、プロセスはブロック４１４へ進む。例示的な音声設定調整器２１６が、メディア出力デバイス１０２の音声設定は調整されるべきと判定した場合には（ブロック４１０：はい）、例示的な音声設定調整器２１６は、分類された音声に基づいてメディア出力デバイス設定調整を決定する。例えば、例示的な音声設定調整器２１６は、１つ又は複数の識別された楽器及び／又は（例えば、音色により、又は識別された楽器に基づいて）識別されたジャンルに基づいて、音声等化器設定を選択することができる（ブロック４１２）。ブロック４１４で、例示的なデバイスインタフェース２１０は、分類結果、識別情報、及び／又はメディア出力デバイス設定調整に対応する報告を出力する。いくつかの例では、デバイスインタフェース２１０は、その報告をさらなる処理／分析のために別のデバイスへ出力する。いくつかの例では、デバイスインタフェース２１０は、例示的な音声分析器１００へ報告を出力して、結果をユーザにユーザインタフェースを介して表示する。いくつかの例では、デバイスインタフェース２１０は、例示的なメディア出力デバイス１０２へ報告を出力して、メディア出力デバイス１０２の音声設定を調整する。

[0041]例示的な音色プロセッサ２１２が、マッチの判定がされないと判定した場合には（ブロック４０６：いいえ）、例示的なデバイスインタフェース２１０は、音声信号に対応する追加の情報を促す（ブロック４１６）。例えば、デバイスインタフェース２１０は、（Ａ）音声に対応する情報を提供するようにユーザに促すために、又は（Ｂ）完全な音声信号を用いて応答するように音声分析器１００に促すために、命令を例示的な音声分析器１００へ伝達することができる。ブロック４１８で、例示的な音色データベース２１４は、測定された無音色の音高対数スペクトルを、受け取ることができた対応するデータと一緒に記憶する。

[0042]図５は、音声信号の対数スペクトル５００の例示的なＦＴ、音声信号の例示的な無音色の音高対数スペクトル５０２、及び音声信号の例示的な無音高の音色対数スペクトル５０４を示す。

[0043]図２と併せて説明したように、例示的な音声分析器１００が例示的なメディア信号１０６（例えば、又はメディア信号のサンプル）を受け取ると、例示的な音声分析器１００は、音声信号／サンプルの例示的な対数スペクトルを特定する（例えば、メディアサンプルが映像信号に対応し、音声分析器１００がその音声成分を抽出する場合に）。加えて、例示的な音声分析器１００は、対数スペクトルのＦＴを特定する。図５の例示的なＦＴ対数スペクトル５００は、音声信号／サンプルの対数スペクトルの例示的な変換出力に対応する。例示的な無音色の音高対数スペクトル５０２は、対数スペクトル５００の例示的なＦＴの複素引数の逆ＦＴに対応し（例えば、Ｐ＝Ｆ^－１（ｅ^{ｊａｒｇ（Ｆ（Ｘ））}））、無音高の音色対数スペクトル５０４は、対数スペクトル５００の例示的なＦＴの大きさの逆ＦＴに対応する（例えば、Ｔ＝Ｆ^－１（｜Ｆ（Ｘ）｜））。図５に示されているように、対数スペクトル５００の例示的なＦＴは、例示的な無音色の音高対数スペクトル５０２と例示的な無音高の音色対数スペクトル５０４の畳み込みに対応する。例示的な音高対数スペクトル５０２の、ピークがある畳み込みはオフセットを加える。

[0044]図６は、図２の音声分析器１００を実装するために図３の命令を実行するように構築された例示的なプロセッサプラットフォーム６００のブロック図である。プロセッサプラットフォーム６００は、例えば、サーバ、パーソナルコンピュータ、ワークステーション、自己学習機械（例えば、ニューラルネットワーク）、モバイルデバイス（例えば、携帯電話、スマートフォン、ｉＰａｄ（商標）等のタブレット）、携帯情報端末（ＰＤＡ）、インターネット機器、ＤＶＤプレーヤ、ＣＤプレーヤ、デジタルビデオレコーダ、ブルーレイプレーヤ、ゲームコンソール、パーソナルビデオレコーダ、セットトップボックス、ヘッドセッ若しくは他のウェアラブルデバイス、又は任意の他のタイプのコンピュータデバイスとすることができる。

[0045]図示の例のプロセッサプラットフォーム６００は、プロセッサ６１２を含む。図示の例のプロセッサ６１２はハードウェアである。例えば、プロセッサ６１２は、１つ又は複数の集積回路、論理回路、マイクロプロセッサ、ＧＰＵ、ＤＳＰ、又は任意の所望のファミリー又は製造者からのコントローラによって実装することができる。ハードウェアプロセッサは、半導体ベース（例えば、シリコンベース）のデバイスとすることができる。この例では、プロセッサは、図２の例示的なメディアインタフェース２００、例示的な音声抽出器２０２、例示的な音声特性抽出器２０４、及び／又は例示的なデバイスインタフェースを実装する。

[0046]図示の例のプロセッサ６１２は、ローカルメモリ６１３（例えば、キャッシュ）を含む。図示の例のプロセッサ６１２は、バス６１８を介して、揮発性メモリ６１４及び不揮発性メモリ６１６を含む主メモリと通信する。揮発性メモリ６１４は、シンクロナスダイナミックランダムアクセスメモリ（ＳＤＲＡＭ）、ダイナミックランダムアクセスメモリ（ＤＲＡＭ）、ＲＡＭＢＵＳ（登録商標）ダイナミックランダムアクセスメモリ（ＲＤＲＡＭ（登録商標））、及び／又は任意の他のタイプのランダムアクセスメモリデバイスによって実装することができる。不揮発性メモリ６１６は、フラッシュメモリ及び／又は任意の他の所望のタイプのメモリデバイスによって実装することができる。主メモリ６１４、６１６へのアクセスは、メモリコントローラによって制御される。

[0047]図示の例のプロセッサプラットフォーム６００は、インタフェース回路６２０も含む。インタフェース回路６２０は、イーサネット（登録商標）インタフェース、ユニバーサルシリアルバス（ＵＳＢ）、ブルートゥース（登録商標）インタフェース、近距離無線通信（ＮＦＣ）インタフェース、及び／又はＰＣＩエクスプレスインタフェース等の、任意のタイプのインタフェース規格によって実装することができる。

[0048]図示の例では、１つ又は複数の入力デバイス６２２がインタフェース回路６２０に接続される。入力デバイス（複数可）６２２は、ユーザがデータ及び／又はコマンドをプロセッサ６１２に入力できるようにする。入力デバイス（複数可）は、例えば、音声センサ、マイクロホン、カメラ（静止又はビデオ）、キーボード、ボタン、マウス、タッチスクリーン、トラックパッド、トラックボール、アイソポイント及び／又は音声認識システムによって実装することができる。

[0049]１つ又は複数の出力デバイス６２４は、図示の例のインタフェース回路６２０にも接続される。出力デバイス６２４は、例えば、表示デバイス（例えば、発光ダイオード（ＬＥＤ）、有機発光ダイオード（ＯＬＥＤ）、液晶表示装置（ＬＣＤ）、陰極線管表示装置（ＣＲＴ）、インプレーススイッチング（ＩＰＳ）表示装置、タッチスクリーン等）、触覚出力デバイス、プリンタ及び／又はスピーカによって実装することができる。したがって、図示の例のインタフェース回路６２０は通常、グラフィックドライバカード、グラフィックドライバチップ及び／又はグラフィックドライバプロセッサを含む。

[0050]図示の例のインタフェース回路６２０は、送信機、受信機、トランシーバ、モデム、住居用ゲートウェイ、無線アクセスポイント、及び／又はネットワーク６２６を介して外部機械（例えば、任意の種類のコンピュータデバイス）とデータを交換しやすくするためのネットワークインタフェースなどの通信デバイスも含む。通信は、例えば、イーサネット接続、デジタル加入者回線（ＤＳＬ）接続、電話回線接続、同軸ケーブルシステム、衛星システム、ラインオブサイト無線システム、セルラ電話システム等を介することができる。

[0051]図示の例のプロセッサプラットフォーム６００は、ソフトウェア及び／又はデータを記憶するための１つ又は複数の大容量記憶デバイス６２８も含む。このような大容量記憶デバイス６２８の例としては、フロッピーディスクドライブ、ハードドライブディスク、コンパクトディスクドライブ、ブルーレイディスクドライブ、独立ディスクの冗長アレイ（ＲＡＩＤ）システム、及びデジタル多用途ディスク（ＤＶＤ）ドライブが挙げられる。

[0052]図３の機械実行可能命令６３２は、大容量記憶デバイス６２８、揮発性メモリ６１４、不揮発性メモリ６１６、及び／又はＣＤ若しくはＤＶＤ等の取り外し可能な非一時的コンピュータ可読記憶媒体に記憶することができる。

[0053]図７は、図２の音声特定器１０８を実装するために図４の命令を実行するように構築された例示的なプロセッサプラットフォーム７００のブロック図である。プロセッサプラットフォーム７００は、例えば、サーバ、パーソナルコンピュータ、ワークステーション、自己学習機械（例えば、ニューラルネットワーク）、モバイルデバイス（例えば、携帯電話、スマートフォン、ｉＰａｄ（商標）等のタブレット）、携帯情報端末（ＰＤＡ）、インターネット機器、ＤＶＤプレーヤ、ＣＤプレーヤ、デジタルビデオレコーダ、ブルーレイプレーヤ、ゲームコンソール、パーソナルビデオレコーダ、セットトップボックス、ヘッドセッ若しくは他のウェアラブルデバイス、又は任意の他のタイプのコンピュータデバイスとすることができる。

[0054]図示の例のプロセッサプラットフォーム７００は、プロセッサ７１２を含む。図示の例のプロセッサ７１２はハードウェアである。例えば、プロセッサ７１２は、１つ又は複数の集積回路、論理回路、マイクロプロセッサ、ＧＰＵ、ＤＳＰ、又は任意の所望のファミリー又は製造者からのコントローラによって実装することができる。ハードウェアプロセッサは、半導体ベース（例えば、シリコンベース）のデバイスとすることができる。この例では、プロセッサは、例示的なデバイスインタフェース２１０、例示的な音色プロセッサ２１２、例示的な音色データベース２１４、及び／又は例示的な音声設定調整器２１６を実装する。

[0055]図示の例のプロセッサ７１２は、ローカルメモリ７１３（例えば、キャッシュ）を含む。図示の例のプロセッサ７１２は、バス７１８を介して、揮発性メモリ７１４及び不揮発性メモリ７１６を含む主メモリと通信する。揮発性メモリ７１４は、シンクロナスダイナミックランダムアクセスメモリ（ＳＤＲＡＭ）、ダイナミックランダムアクセスメモリ（ＤＲＡＭ）、ＲＡＭＢＵＳ（登録商標）ダイナミックランダムアクセスメモリ（ＲＤＲＡＭ（登録商標））、及び／又は任意の他のタイプのランダムアクセスメモリデバイスによって実装することができる。不揮発性メモリ７１６は、フラッシュメモリ及び／又は任意の他の所望のタイプのメモリデバイスによって実装することができる。主メモリ７１４、７１６へのアクセスは、メモリコントローラによって制御される。

[0056]図示の例のプロセッサプラットフォーム７００は、インタフェース回路７２０も含む。インタフェース回路７２０は、イーサネットインタフェース、ユニバーサルシリアルバス（ＵＳＢ）、ブルートゥース（登録商標）インタフェース、近距離無線通信（ＮＦＣ）インタフェース、及び／又はＰＣＩエクスプレスインタフェース等の、任意のタイプのインタフェース規格によって実装することができる。

[0057]図示の例では、１つ又は複数の入力デバイス７２２がインタフェース回路７２０に接続される。入力デバイス（複数可）７２２は、ユーザがデータ及び／又はコマンドをプロセッサ７１２に入力できるようにする。入力デバイス（複数可）は、例えば、音声センサ、マイクロホン、カメラ（静止又はビデオ）、キーボード、ボタン、マウス、タッチスクリーン、トラックパッド、トラックボール、アイソポイント及び／又は音声認識システムによって実装することができる。

[0058]１つ又は複数の出力デバイス７２４は、図示の例のインタフェース回路７２０にも接続される。出力デバイス７２４は、例えば、表示デバイス（例えば、発光ダイオード（ＬＥＤ）、有機発光ダイオード（ＯＬＥＤ）、液晶表示装置（ＬＣＤ）、陰極線管表示装置（ＣＲＴ）、インプレーススイッチング（ＩＰＳ）表示装置、タッチスクリーン等）、触覚出力デバイス、プリンタ及び／又はスピーカによって実装することができる。したがって、図示の例のインタフェース回路７２０は通常、グラフィックドライバカード、グラフィックドライバチップ及び／又はグラフィックドライバプロセッサを含む。

[0059]図示の例のインタフェース回路７２０は、送信機、受信機、トランシーバ、モデム、住居用ゲートウェイ、無線アクセスポイント、及び／又はネットワーク７２６を介して外部機械（例えば、任意の種類のコンピュータデバイス）とデータを交換しやすくするためのネットワークインタフェースなどの通信デバイスも含む。通信は、例えば、イーサネット接続、デジタル加入者回線（ＤＳＬ）接続、電話回線接続、同軸ケーブルシステム、衛星システム、ラインオブサイト無線システム、セルラ電話システム等を介することができる。

[0060]図示の例のプロセッサプラットフォーム７００は、ソフトウェア及び／又はデータを記憶するための１つ又は複数の大容量記憶デバイス７２８も含む。このような大容量記憶デバイス７２８の例としては、フロッピーディスクドライブ、ハードドライブディスク、コンパクトディスクドライブ、ブルーレイディスクドライブ、独立ディスクの冗長アレイ（ＲＡＩＤ）システム、及びデジタル多用途ディスク（ＤＶＤ）ドライブが挙げられる。

[0061]図４の機械実行可能命令７３２は、大容量記憶デバイス７２８、揮発性メモリ７１４、不揮発性メモリ７１６、及び／又はＣＤ若しくはＤＶＤ等の取り外し可能な非一時的コンピュータ可読記憶媒体に記憶することができる。

[0062]以上から、上に開示された方法、装置、及び製造物は、音高に依存しない音色属性をメディア信号から抽出することが理解されよう。本明細書に開示された例では、メディア出力デバイスから直接又は間接的に受け取った音声に基づいて、無音高に依存しない音色対数スペクトルを特定する。本明細書に開示された例には、音色に基づいて音声を分類すること（例えば、楽器を識別すること）、及び／又は音色に基づいて音声のメディア源（例えば、歌曲、ビデオゲーム、広告等）を識別することがさらに含まれる。本明細書に開示された例を使用すると、抽出される音色が音高に依存しないので従来の技法よりも大幅に少ないリソースで、音色を用いて音声を分類及び／又は識別することができる。それに応じて、音声が、多数の音高に対して多数の参照音色属性を必要とせずに、分類及び／又は識別され得る。むしろ、音高に依存しない音色を用いて、音高にかかわらず音声を分類することができる。

[0063]いくつかの例示的な方法、装置、及び製造物が本明細書で説明されたが、他の実装例も可能である。本特許の保護範囲は、これらの方法、装置、及び製造物に限定されない。むしろ、本特許は、本特許の特許請求の範囲に完全に収まるあらゆる方法、装置及び製造物を包含する。

[0063]いくつかの例示的な方法、装置、及び製造物が本明細書で説明されたが、他の実装例も可能である。本特許の保護範囲は、これらの方法、装置、及び製造物に限定されない。むしろ、本特許は、本特許の特許請求の範囲に完全に収まるあらゆる方法、装置及び製造物を包含する。
［発明の項目］
［項目１］
音高に依存しない音色属性をメディア信号から抽出する装置であって、
メディア信号を受け取るためのインタフェースと、
前記メディア信号に対応する音声のスペクトルを求め、
前記スペクトルの変換の大きさの逆変換に基づいて、前記音声の、音高に依存しない音色属性を特定する
ための音声特性抽出器と
を備える、装置。
［項目２］
前記メディア信号が前記音声である、項目１に記載の装置。
［項目３］
前記メディア信号が、音声成分を含む映像信号であり、前記映像信号から前記音声を抽出する音声抽出器をさらに含む、項目１に記載の装置。
［項目４］
前記音声特性抽出器が、定Ｑ変換を用いて前記音声の前記スペクトルを求める、項目１に記載の装置。
［項目５］
前記音声特性抽出器が、フーリエ変換を用いて前記スペクトルの前記変換を求め、逆フーリエ変換を用いて前記逆変換を求める、項目１に記載の装置。
［項目６］
前記音声特性抽出器が、前記スペクトルの前記変換の複素引数の逆変換に基づいて、前記音声の、音色に依存しない音高属性を特定する、項目１に記載の装置。
［項目７］
前記インタフェースが、第１のインタフェースであり、
前記音高に依存しない音色属性を処理デバイスへ伝達し、
前記音高に依存しない音色属性を前記処理デバイスへ伝達することに応答して、前記音声の分類結果、又は前記メディア信号に対応する識別子のうちの少なくとも一方を前記処理デバイスから受け取る
ための第２のインタフェースをさらに含む、項目１に記載の装置。
［項目８］
前記第２のインタフェースが、前記音声の前記分類結果、又は前記メディア信号に対応する識別子のうちの少なくとも一方をユーザインタフェースへ伝達するためのものである、項目７に記載の装置。
［項目９］
前記インタフェースが、周囲音声を介して前記メディア信号を受け取るためのマイクロホンである、項目１に記載の装置。
［項目１０］
前記メディア信号が、メディア出力デバイスにより出力されるべきメディア信号に該当する、項目１に記載の装置。
［項目１１］
前記インタフェースが、前記メディア信号をマイクロホンから受け取る、項目１に記載の装置。
［項目１２］
命令を含む非一時的なコンピュータ可読記憶媒体であって、前記命令は、実行されると、機械に、少なくとも、
メディア信号にアクセスすること、
前記メディア信号に対応する音声のスペクトルを求めること、
前記スペクトルの変換の大きさの逆変換に基づいて、前記音声の、音高に依存しない音色属性を特定すること、
を実行させる、非一時的なコンピュータ可読記憶媒体。
［項目１３］
前記メディア信号が音声である、項目１２に記載の非一時的なコンピュータ可読記憶媒体。
［項目１４］
前記メディア信号が、音声成分を含む映像信号であり、前記命令は、実行されると、前記機械に、前記音声を前記映像信号から抽出することを実行させる、項目１２に記載の非一時的なコンピュータ可読記憶媒体。
［項目１５］
前記命令は、実行されると、前記機械に、定Ｑ変換を用いて前記音声の前記スペクトルを求めることを実行させる、項目１２に記載の非一時的なコンピュータ可読記憶媒体。
［項目１６］
前記命令は、実行されると、前記機械に、フーリエ変換を用いて前記スペクトルの前記変換を特定すること、及び逆フーリエ変換を用いて前記逆変換を特定することを実行させる、項目１２に記載の非一時的なコンピュータ可読記憶媒体。
［項目１７］
前記命令は、実行されると、前記機械に、前記スペクトルの前記変換の複素引数の逆変換に基づいて、前記音声の、音色に依存しない音高属性を特定することを実行させる、項目１２に記載の非一時的なコンピュータ可読記憶媒体。
［項目１８］
前記命令は、実行されると、前記機械に、
前記音高に依存しない音色属性を処理デバイスへ伝達すること、
前記音高に依存しない音色属性を前記処理デバイスへ伝達することに応答して、前記音声の分類結果、又は前記メディア信号に対応する識別子のうちの少なくとも一方を前記処理デバイスから受け取ること、
を実行させる、項目１２に記載の非一時的なコンピュータ可読記憶媒体。
［項目１９］
前記命令は、実行されると、前記機械に、前記音声の前記分類結果、又は前記メディア信号に対応する識別子のうちの少なくとも一方をユーザインタフェースへ伝達することを実行させる、項目１８に記載の非一時的なコンピュータ可読記憶媒体。
［項目２０］
音高に依存しない音色属性をメディア信号から抽出する方法であって、
プロセッサで命令を実行することによって、受け取られたメディア信号に対応する音声のスペクトルを求めるステップと、
前記プロセッサで命令を実行することによって、前記スペクトルの変換の大きさの逆変換に基づいて、前記音声の、音高に依存しない音色属性を特定するステップと
を含む、方法。

Claims

音高に依存しない音色属性をメディア信号から抽出する装置であって、
メディア信号を受け取るためのインタフェースと、
前記メディア信号に対応する音声のスペクトルを求め、
前記スペクトルの変換の大きさの逆変換に基づいて、前記音声の、音高に依存しない音色属性を特定する
ための音声特性抽出器と
を備える、装置。
前記メディア信号が前記音声である、請求項１に記載の装置。
前記メディア信号が、音声成分を含む映像信号であり、前記映像信号から前記音声を抽出する音声抽出器をさらに含む、請求項１に記載の装置。
前記音声特性抽出器が、定Ｑ変換を用いて前記音声の前記スペクトルを求める、請求項１に記載の装置。
前記音声特性抽出器が、フーリエ変換を用いて前記スペクトルの前記変換を求め、逆フーリエ変換を用いて前記逆変換を求める、請求項１に記載の装置。
前記音声特性抽出器が、前記スペクトルの前記変換の複素引数の逆変換に基づいて、前記音声の、音色に依存しない音高属性を特定する、請求項１に記載の装置。
前記インタフェースが、第１のインタフェースであり、
前記音高に依存しない音色属性を処理デバイスへ伝達し、
前記音高に依存しない音色属性を前記処理デバイスへ伝達することに応答して、前記音声の分類結果、又は前記メディア信号に対応する識別子のうちの少なくとも一方を前記処理デバイスから受け取る
ための第２のインタフェースをさらに含む、請求項１に記載の装置。
前記第２のインタフェースが、前記音声の前記分類結果、又は前記メディア信号に対応する識別子のうちの少なくとも一方をユーザインタフェースへ伝達するためのものである、請求項７に記載の装置。
前記インタフェースが、周囲音声を介して前記メディア信号を受け取るためのマイクロホンである、請求項１に記載の装置。
前記メディア信号が、メディア出力デバイスにより出力されるべきメディア信号に該当する、請求項１に記載の装置。
前記インタフェースが、前記メディア信号をマイクロホンから受け取る、請求項１に記載の装置。
命令を含む非一時的なコンピュータ可読記憶媒体であって、前記命令は、実行されると、機械に、少なくとも、
メディア信号にアクセスすること、
前記メディア信号に対応する音声のスペクトルを求めること、
前記スペクトルの変換の大きさの逆変換に基づいて、前記音声の、音高に依存しない音色属性を特定すること、
を実行させる、非一時的なコンピュータ可読記憶媒体。
前記メディア信号が前記音声である、請求項１２に記載の非一時的なコンピュータ可読記憶媒体。
前記メディア信号が、音声成分を含む映像信号であり、前記命令は、実行されると、前記機械に、前記音声を前記映像信号から抽出することを実行させる、請求項１２に記載の非一時的なコンピュータ可読記憶媒体。
前記命令は、実行されると、前記機械に、定Ｑ変換を用いて前記音声の前記スペクトルを求めることを実行させる、請求項１２に記載の非一時的なコンピュータ可読記憶媒体。
前記命令は、実行されると、前記機械に、フーリエ変換を用いて前記スペクトルの前記変換を特定すること、及び逆フーリエ変換を用いて前記逆変換を特定することを実行させる、請求項１２に記載の非一時的なコンピュータ可読記憶媒体。
前記命令は、実行されると、前記機械に、前記スペクトルの前記変換の複素引数の逆変換に基づいて、前記音声の、音色に依存しない音高属性を特定することを実行させる、請求項１２に記載の非一時的なコンピュータ可読記憶媒体。
前記命令は、実行されると、前記機械に、
前記音高に依存しない音色属性を処理デバイスへ伝達すること、
前記音高に依存しない音色属性を前記処理デバイスへ伝達することに応答して、前記音声の分類結果、又は前記メディア信号に対応する識別子のうちの少なくとも一方を前記処理デバイスから受け取ること、
を実行させる、請求項１２に記載の非一時的なコンピュータ可読記憶媒体。
前記命令は、実行されると、前記機械に、前記音声の前記分類結果、又は前記メディア信号に対応する識別子のうちの少なくとも一方をユーザインタフェースへ伝達することを実行させる、請求項１８に記載の非一時的なコンピュータ可読記憶媒体。
音高に依存しない音色属性をメディア信号から抽出する方法であって、
プロセッサで命令を実行することによって、受け取られたメディア信号に対応する音声のスペクトルを求めるステップと、
前記プロセッサで命令を実行することによって、前記スペクトルの変換の大きさの逆変換に基づいて、前記音声の、音高に依存しない音色属性を特定するステップと
を含む、方法。