JP2004334160A - 特徴量抽出装置 - Google Patents

特徴量抽出装置 Download PDF

Info

Publication number
JP2004334160A
JP2004334160A JP2003328705A JP2003328705A JP2004334160A JP 2004334160 A JP2004334160 A JP 2004334160A JP 2003328705 A JP2003328705 A JP 2003328705A JP 2003328705 A JP2003328705 A JP 2003328705A JP 2004334160 A JP2004334160 A JP 2004334160A
Authority
JP
Japan
Prior art keywords
value
feature
frequency
unit
feature amount
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2003328705A
Other languages
English (en)
Other versions
JP2004334160A5 (ja
Inventor
Kazuhiro Mochinaga
和寛 持永
Tomoteru Ogawa
智輝 小川
Yoshihiro Mori
美裕 森
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP2003328705A priority Critical patent/JP2004334160A/ja
Publication of JP2004334160A publication Critical patent/JP2004334160A/ja
Publication of JP2004334160A5 publication Critical patent/JP2004334160A5/ja
Withdrawn legal-status Critical Current

Links

Images

Landscapes

  • Auxiliary Devices For Music (AREA)
  • Electrophonic Musical Instruments (AREA)

Abstract

【課題】 音声信号と他の音声信号との識別をより明確に行うことができる特徴量抽出装置を提供する。
【解決手段】 周波数変換部11は、入力された音声信号に含まれる所定時間長の信号部分に対して周波数変換を行うことによって、当該信号部分の周波数スペクトルを導出する。帯域抽出部12は、周波数変換部11によって導出された周波数スペクトルから複数の帯域を抽出し、抽出した帯域毎の周波数スペクトルである帯域スペクトルを出力する。特徴量算出部13は、帯域スペクトルの各々について所定の特徴量を算出し、算出された各所定の特徴量を音声信号の特徴量とする。
【選択図】 図1


Description

本発明は、特徴量抽出装置に関し、より特定的には、音声信号に含まれる特徴量を抽出する装置に関する。
近年、音声信号を識別する技術として、音声指紋技術が注目されている。音声指紋とは、音声信号から抽出することができる固有の特徴量であり、人間の指紋のように、音声信号を特定することができるものである。音声指紋技術は、音声信号から音声指紋を抽出し、データベース等に予め蓄積されている音声指紋と照合して音声信号を識別する技術である。音声指紋技術を用いた例としては、インターネット上でファイル交換を行うソフトウェアにおいて、送受信されるファイルの内容を音声指紋によってチェックしてフィルタリングを行う技術が存在する。その他にも、楽曲の検索等に音声指紋を用いることが考えられる。
次に、図28および図29を参照しながら、音声指紋技術について説明する。図28は、従来の音声指紋技術における音声指紋情報を蓄積する過程を説明するブロック図である。図28においては、楽曲情報データベース282は、楽曲のタイトル、作曲者、作詞者、歌手名等の書誌情報および管理情報を予め格納している。特徴量抽出部281は音声信号を入力し、音声信号から音声指紋(FP)を算出する。算出された音声指紋と楽曲情報データベース282に格納されている楽曲情報とが対応付けられて、音声指紋情報として音声指紋情報データベース283に格納される。
図29は、音声指紋を用いて音声信号の特定を行う過程を説明するブロック図である。以下、未知の音声信号から音声指紋を抽出し、音声指紋を用いて音声信号の特定を行う過程を説明する。まず、未知の音声信号が特徴量抽出部に入力され、特徴量抽出部291によって音声信号の音声指紋が抽出される。抽出された音声指紋は、指紋比較部293に入力される。指紋比較部293では、入力された音声指紋と、音声指紋情報データベース292に蓄積されている音声指紋とを比較する。そして、蓄積されている音声指紋の中から、入力された音声指紋と一致する音声指紋、あるいは、ある基準の範囲内で類似する音声指紋を検出する。以上のように、検出された音声指紋に関する楽曲情報が出力されることによって、未知の音声信号の楽曲情報が得られることとなる。
なお、音声信号を識別するための他の方法として、電子透かしを用いる方法も考えられている。電子透かしを用いる方法は、音声信号に予め楽曲情報を電子透かしとして埋め込んでおき、埋め込んだ楽曲情報を用いて音声信号を識別するものである。この電子透かし技術では、音声信号自体に情報を埋め込む必要があるので、音声信号の音質が劣化するおそれがある。これに対して、音声指紋を用いる技術では、音声信号自体を変化させるわけではないので、音声信号の音質を劣化させることがないという利点がある。
また、従来、音声指紋として抽出される特徴量には、信号振幅、帯域幅、ピッチ数、メル周波数ケプストラム係数等の物理量が用いられていた。さらに、これらの物理量の各々の平均や標準偏差等の統計的性質が特徴量として算出され、音声信号の識別が行われている(例えば、特許文献1参照)。
米国特許第5918223号明細書
音声指紋技術においては、音声信号を他の音声信号と明確に識別することができることが要求される。しかし、従来においては、音声指紋として抽出される特徴量は音声信号の基本的な物理量であった。従って、音声信号の基本的な物理量を音声指紋とする場合には、似た特徴を有する音声信号を明確に識別することができないおそれがあった。この場合、当該物理量は、音声指紋としての機能を果たさないこととなる。
それ故、本発明の目的は、ある音声信号と他の音声信号との識別をより明確に行うことができる特徴量抽出装置を提供することである。
上記目的を達成するために、本発明の特徴量抽出装置は、以下の特徴を有する。すなわち、第1の発明は、周波数変換部と、帯域抽出部と、特徴量算出部とを備える、特徴量抽出装置である。周波数変換部は、入力された音声信号に含まれる所定時間長の信号部分に対して周波数変換を行うことによって、当該信号部分の周波数スペクトルを導出する。帯域抽出部は、周波数変換部によって導出された周波数スペクトルから複数の帯域を抽出し、抽出した帯域毎の周波数スペクトルである帯域スペクトルを出力する。特徴量算出部は、帯域スペクトルの各々について所定の特徴量を算出し、算出された各所定の特徴量を音声信号の特徴量とする。
なお、帯域抽出部は、周波数変換部によって導出された周波数スペクトルから、周波数軸上の線形目盛りに従って等間隔に分割された複数の帯域を抽出してもよい。また、帯域抽出部は、周波数変換部によって導出された周波数スペクトルから、周波数軸上の対数目盛りに従って等間隔に分割された複数の帯域を抽出してもよい。
また、帯域抽出部は、周波数変換部によって導出された周波数スペクトルから、周波数が所定の範囲内にある帯域のみを抽出してもよい。
また、帯域抽出部は、抽出すべき各帯域の間に所定の間隔が生じるように当該帯域を抽出してもよい。
また、典型的には、特徴量算出部は、帯域スペクトルの各々について、スペクトルがピークとなる値であるピーク値を算出する。そして、典型的には、ある帯域のピーク値と他の帯域のピーク値との差分値を所定の特徴量とする。さらに、当該差分値を、その符号を示す2値の値によって表現してもよい。
また、典型的には、特徴量算出部は、帯域スペクトルの各々について、スペクトルがピーク値となる周波数であるピーク周波数を算出し、算出したピーク周波数に関する数値を所定の特徴量とする。なお、特徴量算出部は、ある帯域のピーク周波数と他の帯域のピーク周波数との差分値を所定の特徴量として算出してもよい。さらに、当該差分値を、その符号を示す2値の値によって表現してもよい。
また、周波数変換部は、音声信号から所定時間長の信号部分を所定の時間間隔で抽出してもよい。このとき、特徴量算出部は、帯域スペクトルの各々について、スペクトルがピーク値となる周波数であるピーク周波数を算出するピーク周波数算出部と、ピーク周波数算出部によって算出された各ピーク周波数の時間変化量に関する数値を所定の特徴量として算出するピーク周波数時間変化算出部とを含んでいる。
さらに、ピーク周波数時間変化算出部は、各ピーク周波数の時間変化量の符号を示す2値の値を所定の特徴量としてもよい。また、ピーク周波数時間変化算出部は、各ピーク周波数の時間変化量が所定量よりも多いか否かを示す2値の値を所定の特徴量としてもよい。
また、特徴量算出部は、帯域スペクトルの各々について、当該帯域の周波数スペクトルの実効値を所定の特徴量として算出してもよい。
また、周波数変換部は、音声信号から所定時間長の信号部分を所定の時間間隔で抽出してもよい。このとき、特徴量算出部は、帯域スペクトルの各々について、当該帯域の周波数スペクトルの実効値を算出する実効値算出部と、実効値算出部によって算出された各実効値の時間変化量に関する数値を所定の特徴量として算出する実効値時間変化算出部とを含んでいる。
さらに、実効値時間変化算出部は、各実効値の時間変化量の符号を示す2値の値を所定の特徴量としてもよい。また、実効値時間変化算出部は、各実効値の時間変化量が所定量よりも多いか否かを示す2値の値を所定の特徴量としてもよい。
また、周波数変換部は、音声信号から所定時間長の信号部分を所定の時間間隔で抽出してもよい。このとき、特徴量算出部は、帯域抽出部によって抽出された帯域の周波数スペクトルと、当該帯域と同じ帯域の周波数スペクトルであって当該周波数スペクトルが導出された信号部分とは異なる信号部分の周波数スペクトルとの相関値を、帯域抽出部によって抽出された各帯域の各々について算出し、算出された各相関値に関する数値を所定の特徴量として算出する。
さらに、特徴量算出部は、算出された各相関値の符号を示す2値の値を所定の特徴量として算出してもよい。また、特徴量算出部は、算出された各相関値の時間変化量に関する数値を所定の特徴量として算出してもよい。
次に、第2の発明は、信号抽出部と、特徴量算出部とを備える特徴量抽出装置である。信号抽出部は、入力された音声信号から所定時間長の信号部分を複数抽出する。特徴量算出部は、信号抽出部によって抽出された複数の信号部分のうち、ある信号部分と、当該信号部分とは異なる信号部分との相関値を算出し、算出された相関値に関する値を音声信号の特徴量として算出する。
なお、特徴量算出部は、典型的には、相関値を音声信号の特徴量とする。さらに、特徴量算出部は、相関値の符号を示す2値の値を音声信号の特徴量としてもよい。
また、信号抽出部は、所定の時間間隔で信号部分を抽出してもよい。このとき、特徴量算出部は、所定の時間間隔で相関値を算出する相関値算出部と、相関値の時間変化量を音声信号の特徴量として算出する相関値時間変化算出部とを含む。
次に、第3の発明は、周波数変換部と、包絡線導出部と、特徴量算出部とを備える、特徴量抽出装置である。周波数変換部は、入力された音声信号に含まれる所定時間長の信号部分に対して周波数変換を行うことによって、当該信号部分の周波数スペクトルを導出する。包絡線導出部は、周波数変換部によって導出された周波数スペクトルの包絡線を示す包絡線信号を導出する。特徴量算出部は、包絡線導出部によって導出された包絡線信号の極値に関する数値を音声信号の特徴量として算出する。
なお、特徴量算出部は、包絡線導出部によって導出された包絡線信号の極値をとる周波数である極値周波数を音声信号の特徴量としてもよい。
また、特徴量算出部は、包絡線導出部によって導出された包絡線信号の極値をとる周波数である極値周波数を算出する極値周波数算出部と、隣接する極値周波数の間隔を音声信号の特徴量として算出する間隔算出部とを含んでいてもよい。さらに、間隔算出部は、間隔を所定の基準値に対する割合によって表現した数値を音声信号の特徴量としてもよい。
さらに、上記において、間隔算出部は、極値周波数のうち最も低い周波数を、所定の基準値としてもよい。また、間隔算出部は、極値周波数のうち最も低い周波数と2番目に低い周波数との差分値を、所定の基準値としてもよい。
なお、本発明は、第1から第3の発明に係る特徴量抽出装置を含む番組記録装置として提供されてもよい。また、第1から第3の発明に係る特徴量抽出装置を含む番組再生制御装置として提供されてもよい。
上記のように、第1の発明によれば、周波数スペクトルを複数の帯域に分割し、各帯域毎に特徴量が抽出される。これによって、周波数を分割しない場合に比べてより多くの特徴量を容易に得ることができる。さらに、より多くの特徴量を得ることができるので、音声信号の識別をより明確に行うことができる。
また、帯域抽出部が、抽出すべき各帯域の間に所定の間隔が生じるように当該帯域を抽出する場合には、音声信号の加工や外部雑音に対するロバスト性を向上することができる。
また、特徴量を時間変化量(例えば、ピーク周波数の時間変化量や、実効値の時間変化量)とする場合には、音声信号の時間軸上における変化に対してロバスト性を向上することができる。
また、分割した帯域間の変化に関する量を特徴量とする場合には、音声信号の周波数軸上における変化に対してロバスト性を向上することができる。
また、第2の発明によれば、時間変化に関する量を特徴量とすることによって、音声信号の時間軸上における変化に対してロバスト性を向上することができる。
また、第3の発明によれば、周波数スペクトルの包絡線の極値を特徴量とすることによって、容易に特徴量を算出することができる。さらに、極値周波数の間隔比を特徴量とする場合には、テンポが変更される等の加工が音声信号になされる場合に対するロバスト性を向上することができる。
また、特徴量を2値で表現することによって、特徴量のデータ量を減らすことができる。従って、特徴量を音声指紋として用いて音声信号の検索等を行う装置において、記憶しなければならないデータ量を減らすことができる。また、音声指紋を他の音声指紋と比較する処理が簡易になる。
(実施の形態1)
まず、本発明の実施の形態1に係る特徴量抽出装置について説明する。実施の形態1では、音声信号から複数の周波数帯域の周波数スペクトルを抽出し、抽出した各帯域の周波数スペクトルから特徴量を算出する。
図1は、実施の形態1に係る特徴量抽出装置の構成を示すブロック図である。図1において、特徴量抽出装置は、周波数変換部11と、帯域抽出部12と、特徴量算出部13とを備えている。周波数変換部11には、特徴量を抽出すべき音声信号が入力される。周波数変換部11は、入力された音声信号に含まれる所定時間長の信号部分に対して周波数変換を行うことによって、当該信号部分の周波数スペクトルを導出する。つまり、周波数変換部11は、音声信号を時間で分割し、分割した信号部分について周波数スペクトルを導出する。帯域抽出部12は、周波数変換部11によって導出された周波数スペクトルから複数の帯域を抽出する。つまり、帯域抽出部12は、時間で分割された音声信号の一部の周波数スペクトルを周波数で分割し、分割された複数の帯域の一部または全部を抽出する。特徴量算出部13は、帯域抽出部12によって抽出された帯域の周波数スペクトルの各々について後述する所定の演算を行い、演算結果を音声信号の特徴量(音声信号を他の音声信号と識別するために用いる情報、すなわち、音声指紋)とする。以下、実施の形態1に係る特徴量抽出装置の動作を説明する。
図1において、特徴量を抽出すべき音声信号が周波数変換部11に入力されると、周波数変換部11が音声信号を周波数変換することによって周波数スペクトルが導出される。周波数変換は、例えば、高速フーリエ変換によって行われる。高速フーリエ変換では、音声信号から抽出される有限個のサンプル点を用いて演算を行うので、周波数変換部11は、演算処理を行う前に音声信号から高速フーリエ変換に必要なサンプル点数に相当する時間長の信号を切り出す。周波数変換部11によって切り出される信号部分は、1つであってもよいし、複数であってもよい。さらに、複数の信号部分が切り出される場合、各信号部分は時間軸上で重複するように切り出されてもよいし、重複しないように切り出されてもよい。切り出された各信号部分についてそれぞれ周波数変換が行われることによって、各信号部分の周波数スペクトルが導出される。周波数変換部11にて導出された周波数スペクトル帯域抽出部12へ出力される。複数の信号部分が切り出される場合、各周波数スペクトルは、音声信号において先に含まれる信号部分の周波数スペクトルから順番に出力される。
帯域抽出部12は、周波数変換部11から出力された周波数スペクトルを複数の帯域に分割する。図2は、周波数スペクトルを複数の帯域に分割する一例を説明する図である。図2に示す例では、周波数スペクトルは、図2に示す4つの点線によって5つの帯域に分割される。さらに、帯域抽出部12は、分割した周波数スペクトルのうち複数の帯域の周波数スペクトルを抽出する。ここで、帯域に分割された周波数スペクトルを帯域スペクトルと呼ぶ。帯域抽出部12は、周波数変換部11から順番に出力されてくる各信号部分の周波数スペクトルから、それぞれ同じ帯域を抽出する。抽出された複数の帯域スペクトルは、特徴量算出部13へ出力される。複数の信号部分が切り出される場合、帯域抽出部12は、1つの周波数スペクトルを単位として帯域スペクトルを出力する。つまり、帯域抽出部12は、1つの周波数スペクトルを入力するたびに、入力された周波数スペクトルから抽出される複数の帯域スペクトルを出力する。
帯域抽出部12にて行われる分割の方法としては、周波数を線形目盛りに従って等間隔に分割する方法が最も単純で効率的な方法である。また、音階の調和等の性質を考慮すると、周波数を対数目盛りに従って等間隔に分割することも考えられる。その他、分割の方法はどのような方法であってもよい。
帯域抽出部12は、図2に示すように任意の方法にて分割された帯域のうち、特定の帯域を選択して特徴量の算出に用いるようにしてもよい。図3は、帯域抽出部12によって抽出される帯域スペクトルの一例を示す図である。図3に示す例では、周波数f1よりも高い帯域であって、周波数f2よりも低い帯域に含まれる帯域スペクトルのみが抽出される。この場合、図3に示す斜線部分の帯域スペクトル、すなわち、周波数f1よりも低い帯域に含まれる帯域スペクトル、および周波数f2よりも高い帯域に含まれる帯域スペクトルについては特徴量の算出が行われない。例えば、MP3のような圧縮技術を用いて符号化されている音声信号では、人間の聴覚特性上聞き取れないような高い周波数帯域の情報を削除するといった操作がなされている。従って、このような操作がなされている音声信号について特徴量を抽出する場合、情報が削除される高帯域の特徴量は音声指紋としての役割を果たし得ない。それ故、この場合には、図3に示すように、特徴量が削除される可能性の高い帯域の帯域スペクトルを特徴量の算出対象から除くことによって、無駄な特徴量の算出処理をなくすことができる。すなわち、少ない演算量で音声信号の特定に有効な特徴量のみを抽出することができる。さらに、特徴量のデータ量を少なくすることができる。
また、帯域抽出部12は、分割すべき各帯域が互いに接する部分および重複部分がないように、離散的に分割されてもよい。図4は、周波数スペクトルが離散的に分割される一例を示す図である。図4に示すように、周波数スペクトルが離散的に分割される場合には、帯域抽出部12によって抽出される各帯域スペクトルの間には間隔が生じることとなる。これによって、音声信号が何らかの要因によって変化した場合(例えば、音声信号が加工された場合や、音声信号に外部雑音が含まれた場合)であっても、当該音声信号を正確に識別することができる。つまり、音声信号の加工や外部雑音に対するロバスト性を向上することができる。以下、詳細を説明する。
音声信号が雑音等によって変化してしまう場合には、周波数変換部11から出力される周波数スペクトルにも歪みやずれが生じてしまう。その結果、特徴量として算出される値も大きく変化してしまう可能性がある。ここで、例えば、図2に示すような分割の方法(離散的に分割しない方法)では、分割される境界の付近に特徴量として算出される情報が存在すると、周波数スペクトルに生じた歪みやずれが、歪みやずれが生じた帯域にのみならず、それに隣接する帯域に対しても影響を及ぼす可能性がある。具体的に、帯域スペクトルのピーク値をとる周波数(以下、「ピーク周波数」と呼ぶ。)を特徴量として用いる場合において、音声信号が変化したことによってピーク周波数が変化してしまう場合を考える。この場合においては、音声信号が変化したことによって、ピーク周波数がある帯域から隣接する帯域へ移動してしまうこととなる。その結果、隣接する2つの帯域において特徴量が変化してしまう。つまり、抽出される特徴量が大きく変化することになる。これに対して、図4に示すように離散的に分割する場合には、仮にピーク周波数が変化しても、当該変化が隣接する2つの帯域に影響を及ぼすことがない。従って、離散的に分割することによって、音声信号が変化したことによる特徴量の多少の変動を吸収することができ、特徴量の抽出におけるロバスト性の向上を図ることが可能である。
以上のように、周波数スペクトルを複数の帯域スペクトルに分割することによって、分割をしない場合に比べて多くの特徴量を少ない演算量で抽出することができる。従って、多くの特徴量を用いてより精度の高い音声指紋を生成することが可能である。また、複数の帯域スペクトルを用いて特徴量を算出することによって、新たな特徴量を音声指紋として用いることが可能である。
次に、特徴量算出部13の動作について詳しい説明を行う。以下、算出すべき特徴量の具体例として、ピーク周波数、ピーク周波数の時間変化量、ピーク周波数の帯域間の差分値、実効値、実効値の時間変化量、相関値、および、相関値の時間変化量を算出する場合について説明する。
まず、特徴量がピーク周波数である場合ついて説明する。図5は、ピーク値の算出方法を説明する図である。ピーク周波数とは、上述したように、帯域スペクトルにおいてピーク値をとる周波数である。図5においては、ピーク周波数は、fp1〜fp4の4つである。なお、図5では、周波数f3より低い周波数帯域および周波数f4より高い周波数帯域は、帯域スペクトルとして抽出されないものとする。特徴量算出部13は、各帯域スペクトルについてピーク周波数を特徴量として算出する。具体的には、帯域抽出部12によって抽出された各帯域スペクトルが特徴量算出部13に入力されると、特徴量算出部13は、分割された帯域毎にスペクトルの大きさが最も大きい値を示す周波数を探し出す。そして、各帯域内でそれぞれ最もスペクトルの値が大きい周波数をピーク周波数とする。以上によって、ピーク周波数を容易に検出することができる。また、ピーク周波数を特徴量として用いることによって、異なる音声信号との比較において十分な識別が可能な特徴量を抽出することができる。
次に、特徴量がピーク周波数の時間変化量である場合について説明する。図6は、ピーク周波数の時間変化量を算出する場合における特徴量算出部13の構成を示すブロック図である。図6においては、特徴量算出部13は、ピーク周波数算出部61と、ピーク周波数保持部62と、ピーク周波数時間変化算出部63とを備えている。ピーク周波数算出部61は、入力される帯域スペクトルからピーク周波数を算出する。ピーク周波数の算出方法は上述したとおりである。ピーク周波数の算出は、入力される各帯域スペクトルについて行われる。算出された各ピーク周波数は、ピーク周波数保持部62およびピーク周波数時間変化算出部63に出力される。
ピーク周波数保持部62は、ピーク周波数算出部61から出力されたピーク周波数を所定時間保持する。所定時間は、帯域抽出部12がある信号部分の周波数スペクトルから抽出される各帯域スペクトルを出力してから、次の信号部分の周波数スペクトルから抽出される各帯域スペクトルを出力するまでの時間である。所定時間経過後、ピーク周波数保持部62は、保持していたピーク周波数をピーク周波数時間変化算出部63へ出力する。
ピーク周波数時間変化算出部63は、ピーク周波数算出部61から出力されたピーク周波数と、ピーク周波数保持部62から出力されたピーク周波数との差分値を算出する。この差分値の算出は、同じ帯域の帯域スペクトルから算出された2つのピーク周波数について行われる。また、この差分値の算出は帯域スペクトルの各々について行われる。各帯域スペクトルについて算出された差分値が特徴量となる。
なお、特徴量がピーク周波数の時間変化量である場合、ピーク周波数保持部62は、上記所定時間の整数倍の時間、ピーク周波数を保持するものでもかまわない。
また、ピーク周波数時間変化算出部63は、上記差分値を2値によって表現してもよい。例えば、差分値の符号が正であれば1、負であれば0となるような2値によって表現してもよい。このとき、2値によって表現される特徴量は、ピーク周波数の時間軸上の増減を示す。また、例えば、差分値の絶対値がある所定のしきい値を超えれば1、そうでなければ0となるような2値によって表現してもよい。このとき、2値によって表現される特徴量は、ピーク周波数が時間軸上で変化したかほぼ不変であるかを示す。特徴量である差分値を2値によって表現することによって、特徴量のデータ量を少なくすることができる。特に、実施の形態1では、帯域を分割することによって特徴量の数が、帯域を分割しない場合に比べて多くなるので、特徴量を2値によって表現することでデータ量を少なくすることが有効である。
以上のように、特徴量をピーク周波数の時間変化量とすることによって、容易に特徴量を算出することができる。さらに、時間変化に関する量を特徴量とすることによって、音声信号の時間軸上における変化に対してロバスト性を向上することができる。
次に、特徴量がピーク周波数の帯域間の差分値である場合について説明する。図7は、ピーク周波数の帯域間の差分値を算出する場合における特徴量算出部13の構成を示すブロック図である。図7においては、特徴量算出部13は、第1のピーク周波数算出部71と、第2のピーク周波数算出部72と、ピーク周波数差分算出部73とを備えている。第1のピーク周波数算出部71は、入力される帯域スペクトルからピーク周波数を算出する。ピーク周波数の算出方法は上述したとおりである。ピーク周波数の算出は、入力される各帯域スペクトルについて行われる。算出された各ピーク周波数は、ピーク周波数差分算出部73に出力される。
第2のピーク周波数算出部72は、第1のピーク周波数算出部71と同様の処理を行う。ピーク周波数差分算出部73は、第1のピーク周波数算出部71から出力されたピーク周波数と、第2のピーク周波数算出部72から出力されたピーク周波数との差分値を算出する。この差分値の算出は、隣り合う2つの帯域の帯域スペクトルからそれぞれ算出された2つのピーク周波数について行われる。例えば、あるピーク周波数と、そのピーク周波数が算出された帯域スペクトルと周波数が高い側で隣り合う帯域スペクトルから算出されるピーク周波数との差分値が算出される。この差分値の算出は帯域スペクトルの各々について行われる。各帯域スペクトルについて算出された差分値が特徴量となる。
以上のように、特徴量をピーク周波数の帯域間の差分値とすることによって、容易に特徴量を算出することができる。さらに、帯域間の変化に関する量を特徴量とすることによって、音声信号の周波数軸上における変化に対してロバスト性を向上することができる。
なお、帯域間の差分値は、時間変化量の場合と同様、2値によって表現されるものであってもよい。特徴量である差分値を2値によって表現することによって、特徴量のデータ量を少なくすることができる。
なお、本実施の形態において、ピーク周波数の差分値を計算する2つの帯域は、隣り合う2つの帯域に限定するものではなく、帯域抽出部12によって抽出される複数の帯域の中から選ばれた任意の2つの帯域であってもよい。
次に、特徴量が実効値である場合について説明する。この場合、特徴量算出部13は、入力される各帯域スペクトルの実効値、すなわち、スペクトルの二乗平均平方根を計算し、特徴量として出力する。これによって、特徴量の算出が容易であり、かつ異なる音声信号との比較において十分な識別が可能な特徴量を抽出することができる。
次に、特徴量が実効値の時間変化量である場合について説明する。図8は、実効値の時間変化量を算出する場合における特徴量算出部13の構成を示すブロック図である。図8においては、特徴量算出部13は、実効値算出部81と、実効値保持部82と、実効値時間変化算出部83とを備えている。実効値算出部81は、入力される帯域スペクトルから実効値を算出する。実効値算出部81の処理は、ピーク周波数の代わりに実効値を算出する点以外は、ピーク周波数算出部61の処理と同様である。算出された各実効値は、実効値保持部82および実効値時間変化算出部83に出力される。また、実効値保持部82および実効値時間変化算出部83の処理は、ピーク周波数の代わりに実効値を算出する点以外は、ピーク周波数保持部62およびピーク周波数時間変化算出部63の処理と同様である。また、ピーク周波数の差分値を特徴量とする場合と同様、実効値の時間変化量を2値によって表現してもよい。
以上のように、特徴量を実効値の時間変化量とすることによって、容易に特徴量を算出することができる。さらに、時間変化に関する量を特徴量とすることによって、音声信号の時間軸上における変化に対してロバスト性を向上することができる。
次に、特徴量が相関値である場合について説明する。図9は、相関値を算出する場合における特徴量算出部13の構成を示すブロック図である。図9においては、特徴量算出部13は、スペクトル保持部91と、相関値算出部92とを備えている。
スペクトル保持部91は、帯域抽出部12から出力された各帯域スペクトルを所定時間保持する。所定時間は、帯域抽出部12がある信号部分の周波数スペクトルから抽出される各帯域スペクトルを出力してから、次の信号部分の周波数スペクトルから抽出される各帯域スペクトルを出力するまでの時間である。所定時間経過後、スペクトル保持部91は、保持していた帯域スペクトルを相関値算出部92へ出力する。
相関値算出部92は、帯域抽出部12から出力された帯域スペクトルと、スペクトル保持部91から出力された帯域スペクトルとの相関値を算出する。この相関値の算出は、同じ帯域の帯域スペクトルについて行われる。また、この相関値の算出は帯域スペクトルの各々について行われる。各帯域スペクトルについて算出された相関値が特徴量となる。
なお、相関値算出部92は、上記相関値を2値によって表現してもよい。例えば、相関値の符号が正であれば1、負であれば0となるような2値によって表現してもよい。これによって、特徴量のデータ量を少なくすることができる。
以上のように、特徴量を相関値とすることによって、容易に特徴量を算出することができる。さらに、時間変化に関する量を特徴量とすることによって、音声信号の時間軸上における変化に対してロバスト性を向上することができる。
次に、特徴量が相関値の時間変化量である場合について説明する。図10は、相関値の時間変化量を算出する場合における特徴量算出部13の構成を示すブロック図である。図9においては、特徴量算出部13は、スペクトル保持部101と、相関値算出部102と、相関値保持部103と、相関値時間変化算出部104とを備えている。
スペクトル保持部101および相関値算出部102の処理は、図9に示したスペクトル保持部91および相関値算出部92と同様である。算出された各相関値は、相関値保持部103および相関値時間変化算出部104に出力される。相関値保持部103の処理は、ピーク周波数の代わりに相関値を保持する点以外は、ピーク周波数保持部62の処理と同様である。また、相関値時間変化算出部104の処理は、ピーク周波数の代わりに相関値を算出する点以外は、ピーク周波数時間変化算出部63の処理と同様である。また、ピーク周波数の差分値を特徴量とする場合と同様、差分値を2値によって表現してもよい。
以上のように、特徴量を相関値の時間変化量とすることによって、容易に特徴量を算出することができる。さらに、時間変化に関する量を特徴量とすることによって、音声信号の時間軸上における変化に対してロバスト性を向上することができる。
なお、上記の他、特徴量としてピーク値の帯域間の差分値を用いることも可能である。具体的には、特徴量算出部13は、各帯域スペクトルについてピーク値を算出する。そして、例えば、隣り合う帯域スペクトルのピーク値について差分値を算出し、特徴量としてもよい。なお、差分値を算出する2つの帯域スペクトルは、必ずしも隣り合う帯域スペクトルである必要はない。この点は、ピーク周波数の差分値についても同様である。
(実施の形態2)
次に、本発明の実施の形態2に係る特徴量抽出装置について説明する。実施の形態2では、音声信号から時間が異なる複数の信号部分を抽出し、抽出した信号部分間での相関値に関する数値を特徴量とする。このような数値を特徴量とすることによって、特徴量抽出のロバスト性を向上することができる。
図11は、実施の形態1に係る特徴量抽出装置の構成を示すブロック図である。図1において、特徴量抽出装置は、信号抽出部111と、信号保持部112と、特徴量算出部113とを備えている。信号抽出部111には、特徴量を抽出すべき音声信号が入力される。信号抽出部111は、入力された音声信号から所定時間長の信号部分を複数抽出する。信号保持部112は、信号抽出部111によって抽出された信号部分を所定時間保持した後、特徴量算出部113へ出力する。特徴量算出部113は、信号抽出部111によって抽出された信号部分と、信号保持部112から出力された信号部分との相関値を算出する。以下、実施の形態2に係る特徴量抽出装置の動作を詳細に説明する。
図11において、音声信号が信号抽出部111に入力されると、当該音声信号から所定時間長の信号部分が複数抽出される。図12は、実施の形態2における特徴量の算出方法を説明する図である。図12において、斜線で示される部分が信号抽出部111によって抽出される信号部分である。図12においては、所定時間長T1の信号部分が複数抽出される。所定時間長は、信号抽出部111において予め定められている。また、各信号部分は、音声信号の時間軸上における時間T2の間隔で抽出される。なお、このことは、信号部分を抽出する処理が時間T2で行われることを意味しない。抽出された信号部分は、音声信号において先に含まれる信号部分から順番に信号保持部112および特徴量算出部113へ出力される。なお、信号部分の抽出方法は、同じ時間長(図12では、T1)の信号部分を抽出する方法であればどのような方法であってもよい。例えば、図12においては、抽出される各信号部分は互いに重複しないように抽出されたが、重複が生じるように抽出されてもよい。また、図12においては、各信号部分間に間隔を空けて各信号部分が抽出されたが、各信号部分間に間隔を空けずに各信号部分が抽出されてもよい。
信号保持部112は、信号抽出部111から出力された信号部分を所定時間保持する。この所定時間は、信号抽出部111がある信号部分を出力してから、次の信号部分を出力するまでの時間である。所定時間経過後、信号保持部112は、保持していた信号部分を特徴量算出部113へ出力する。従って、信号保持部112は、その時点で信号抽出部111から出力された信号部分よりも時間T1だけ前の信号部分を出力する。図12を例にとって説明すると、信号抽出部111から信号部分122が出力される時点では、信号保持部112は信号部分121を出力する。信号抽出部111から信号部分123が出力される時点では、信号保持部112は信号部分122を出力する。
特徴量算出部113は、信号抽出部111から出力された信号部分と、信号保持部112から出力された信号部分との相関値を算出する。図12を例にとって説明すると、例えば、特徴量算出部113は、信号部分121と信号部分122との相関値、および、信号部分122と信号部分123との相関値を算出する。実施の形態2では、この相関値に関する数値が特徴量となる。例えば、特徴量は、相関値そのものであってもよいし、相関値の時間変化量であってもよい。以下、特徴量が相関値である場合と、相関値の時間変化量である場合について詳細を説明する。
まず、特徴量が相関値である場合について説明する。この場合、特徴量抽出部113は、上記相関値そのものを特徴量とする。図12では、信号抽出部111によって抽出された信号部分の各々について、当該信号部分と、次の信号部分(音声信号における時間T2後の信号部分)との相関値が特徴量として算出される。なお、特徴量算出部113は、相関値の符号を示す2値の値を特徴量としてもよい。
次に、特徴量が相関値の時間変化量である場合について説明する。図13は、特徴量として相関値の時間変化量を算出する場合における特徴量算出部113の構成を示すブロック図である。図13においては、特徴量算出部113は、相関値算出部131と、相関値保持部132と、相関値時間変化算出部133とを備えている。
相関値算出部131は、信号抽出部111および信号保持部112から出力される信号部分を入力し、入力した2つの信号部分の相関値を算出する。算出された相関値は、相関値保持部132および相関値時間変化算出部133へ出力される。
相関値保持部132は、相関値算出部131から出力された相関値を所定時間保持する。この所定時間は、相関値算出部131がある相関値を出力してから、次の相関値を出力するまでの時間である。所定時間経過後、相関値保持部132は、保持していた相関値を相関値時間変化算出部133へ出力する。従って、相関値保持部132は、その時点で相関値算出部131から出力された相関値よりも1回前に相関値算出部131から出力された相関値を出力する。
相関値時間変化算出部133は、相関値保持部132から出力された相関値から、相関値算出部131から出力された相関値を引いた差分値を特徴量として算出する。この差分値は相関値の時間変化量を示す。なお、相関値時間変化算出部133は、相関値の時間変化量の符号を示す2値の値を特徴量としてもよい。
以上のように、実施の形態2では、時間の異なる2つの信号部分の相関値に関する数値が特徴量として用いられる。このように、特徴量を相関値に関する数値とすることによって、容易に特徴量を算出することができる。さらに、時間変化に関する量を特徴量とすることによって、音声信号の時間軸上における変化に対してロバスト性を向上することができる。
なお、実施の形態2においては、相関値の算出において、ある信号部分とそれに隣り合う信号部分との相関値を算出した。具体的には、図12に示すように、信号部分121とその次の信号部分である信号部分122との相関値が算出された。ここで、他の実施の形態においては、相関値は、必ずしも隣り合う2つの信号部分の相関値を算出しなくともよい。例えば、ある信号部分とその信号部分の2つ次の信号部分との相関値を算出するようにしてもよい。図12を例にとって説明すると、信号部分121と信号部分123との相関値を算出するようにしてもよい。
(実施の形態3)
次に、本発明の実施の形態3に係る特徴量抽出装置について説明する。実施の形態3では、音声信号から導出される周波数スペクトルの包絡線信号をさらに導出し、包絡線信号の極値をとる周波数やそれに関する数値を特徴量とする。このような数値を特徴量とすることによって、特徴量抽出のロバスト性を向上することができる。
図14は、実施の形態3に係る特徴量抽出装置の構成を示すブロック図である。図1において、特徴量抽出装置は、周波数変換部141と、包絡線導出部142と、特徴量算出部143とを備えている。周波数変換部141は、図1に示す周波数変換部1と同様である。包絡線導出部142は、周波数変換部141から出力されてくる周波数スペクトルの包絡線を示す包絡線信号を導出する。特徴量算出部143は、包絡線導出部142によって導出された包絡線信号の極値をとる周波数(以下、「極値周波数」と呼ぶ。)を算出し、極値周波数に関する数値を特徴量とする。以下、実施の形態3に係る特徴量抽出装置の動作を詳細に説明する。
図14に示す周波数変換部141は、図1に示す周波数変換部1と同様であるので、詳細な説明を省略する。周波数変換部141から音声信号の周波数スペクトルが出力されてくると、包絡線導出部142によって周波数スペクトルの包絡線が検出される。周波数スペクトルの包絡線を得ることによって、音声信号の周波数領域のゆるやかな変動を捉えることができる。包絡線導出部142によって検出された包絡線を示す包絡線信号は特徴量算出部143へ出力される。
特徴量算出部143は、包絡線導出部142から出力される包絡線信号から極値周波数を算出する。さらに、極値周波数に関する数値を音声信号の特徴量とする。極値周波数に関する数値としては、例えば、極値周波数そのものの他、極値周波数の間隔比が考えられる。以下、特徴量として算出される極値周波数に関する数値について詳細を説明する。
図15および図16は、包絡線信号から極値周波数を算出する方法を説明する図である。極値周波数を特徴量とする場合、包絡線信号の極値をとるすべての周波数を特徴量としなくともよい。例えば、図15に示すように、包絡線信号の極大値をとる周波数(以下、「極大値周波数」と呼ぶ。)のみを特徴量としてもよい。あるいは、図16に示すように、包絡線信号の極小値をとる周波数(以下、「極小値周波数」と呼ぶ。)のみを特徴量としてもよい。
また、実施の形態3において、特徴量は、極値周波数の間隔比であってもよい。図17は、特徴量が極値周波数の間隔比を算出する場合における特徴量算出部143の構成を示すブロック図である。図17において、特徴量算出部143は、極値周波数算出部171と、間隔算出部172とを備えている。
極値周波数算出部171は、包絡線導出部142から出力されてくる包絡線信号から極値周波数を算出する。極値周波数は、極大値周波数または極小値周波数のみであってもよいし、極大値周波数および極小値周波数の双方であってもよい。算出された極値周波数は、間隔算出部172へ出力される。
間隔算出部172は、極値周波数の間隔を算出する。図18は、極値周波数の間隔を算出する方法を説明する図である。極値周波数の間隔の算出処理において、間隔算出部172は、まず、極値周波数の各々について、隣接する極値周波数との差分値を求める。図18を例にとって説明すると、差分値d1〜d5が求められる。なお、図18では、極値周波数算出部171は極大値周波数のみを極値周波数として算出するものとする。なお、この差分値を特徴量として用いてもよい。実施の形態3では、間隔算出部172は、さらに、算出した各差分値と予め定められた基準値との比を算出する。算出された比が極値周波数の間隔比であり、音楽信号の特徴量となる。なお、基準値は、どのような値であってもよい。例えば、極値周波数の中で最も低い周波数の値や、最も低い周波数と2番目に低い周波数との差分値等を基準値とする。
以上のように、実施の形態3では、周波数スペクトルの包絡線の極値を特徴量とすることによって、容易に特徴量を算出することができる。さらに、極値周波数の間隔比を特徴量とする場合には、テンポが変更される等の加工が音声信号になされる場合に対するロバスト性を向上することができる。
(実施の形態4)
次に、上記実施の形態1〜3において説明した特徴量抽出装置を用いた応用例を説明する。実施の形態4は、実施の形態1〜3に係る特徴量抽出装置をテレビ番組を録画する番組記録装置に応用した形態である。この番組記録装置は、番組中に流れる楽曲から番組を特定することによって所望の番組を自動的に録画する。
図19は、実施の形態4に係る番組記録装置が用いられるシステムの構成を示す図である。図19に示すシステムは、受信装置191と、番組記録装置192と、記録媒体193とを備えている。受信装置191は、例えばアンテナ等によって構成され、放送信号を受信する。放送信号は、放送局(図示しない)から無線によって放送されてくる他、ケーブルや光ファイバのような有線を経由して放送されてもよい。受信装置191によって受信された放送信号は、番組記録装置192へ出力される。番組記録装置192は、放送信号に含まれる番組のうち、録画すべき番組を当該番組中に流れる楽曲によって特定し、当該番組を記録媒体193に記録する。番組を記録する記録媒体193は、例えば、磁気テープであったり、CD−RやDVD−RAMのような記録型光ディスクであったり、ハードディスクドライブであったり、半導体メモリであってもよい。以下、番組記録装置192の詳細な動作を説明する。
図20は、実施の形態4に係る番組記録装置の詳細な構成を示すブロック図である。図20において、番組記録装置192は、特徴量抽出部201と、特徴量比較部202と、特徴量記憶部203と、記録制御部204とを備えている。
受信装置191から出力された放送信号は、記録制御部204および特徴量抽出部201に入力される。放送信号には、映像信号および音声信号が少なくとも含まれている。記録制御部204には、映像信号および音声信号が入力される。一方、特徴量抽出部201には、放送信号に含まれる音声信号のみが入力される。あるいは、特徴量抽出部201自体が、放送信号から音声信号を抽出する機能を有するものであってもよい。特徴量抽出部201は、音声信号の特徴量を抽出する。特徴量抽出部201は、実施の形態1〜3に係る特徴量抽出装置のいずれかである。従って、特徴量は、実施の形態1〜3において説明した数値(例えば、ピーク周波数や相関値等)である。なお、特徴量の抽出方法は実施の形態1〜3と同様であるので、ここでは詳細を説明しない。抽出された特徴量は、特徴量比較部202へ出力される。
一方、特徴量記憶部203は、録画すべき番組中において流れる音楽の音声信号の特徴量を予め記憶している。例えば、記録すべき番組の主題曲、挿入曲あるいはエンディング曲等、記録すべき番組中で流れる楽曲の特徴量が記憶されている。特徴量記憶部203に保持される特徴量の取得方法はどのような方法であってもよい。特徴量の具体的な取得方法は後述する実施の形態5および6において述べる。
また、特徴量記憶部203は、上記特徴量に加えて、制御指示を示す情報(以下、「制御指示情報」と呼ぶ。)を特徴量に対応付けて記憶している。制御指示とは、記録制御部204の動作を制御するための指示である。制御指示情報の内容は、典型的には、「記録開始」や「記録終了」である。記録制御部204は、記録開始を示す制御指示情報を受け取ると、番組の記録を開始する。一方、記録終了を示す制御指示情報を受け取ると、番組の記録を終了する。特徴量記憶部203は、特徴量と制御指示情報との組を1以上記憶している。
例えば、特徴量記憶部203において、番組の開始時に流れる主題曲の特徴量に対しては、「記録開始」という制御指示情報を対応付けておき、番組のエンディング曲の特徴量に対しては、「記録終了」という制御指示情報を対応付けておく。これによって、番組の開始および終了を確実に検知することができる。その他、番組中にCMが入る場合には、CMに入る前に流れる楽曲の特徴量に対して「記録終了」という制御指示情報を対応付け、CMが終了し番組が再開した時に流れる楽曲の特徴量に対して「記録開始」という制御指示情報を対応付けておくことも考えられる。これによって、CMを録画せずにすむという利点がある。
特徴量比較部202は、特徴量抽出部201によって抽出された特徴量と、特徴量記憶部203において記憶されている特徴量とを比較する。そして、2つの特徴量が一致しているか否かを判定する。この判定は、特徴量記憶部203において記憶されているすべての特徴量に対して行われる。判定の結果、2つの特徴量が一致していると判定される場合、特徴量比較部202は、記録制御部204へ制御指示情報が出力される。記録制御部204へ出力される制御指示情報の内容は、特徴量記憶部203において記憶されている内容に基づいて決められる。具体的には、特徴量記憶部203において、一致すると判定された特徴量に対応付けられている制御指示情報の内容が、記録制御部204に出力される。一方、2つの特徴量が一致していないと判定される場合、制御指示情報は出力されない。
なお、上記において、特徴量の比較は、2つの特徴量が一致しているか否かを判定することに代えて、2つの特徴量が類似しているか否かを判定するようにしてもよい。
記録制御部204では、特徴量比較部202から出力される制御指示情報に従って動作を行う。例えば、特徴量比較部202から、「記録開始」という制御指示情報を受け取った場合には、それに応じて番組の記録を開始する。一方、特徴量比較部202から、「記録終了」という制御指示情報を受け取った場合には、それに応じて番組の記録を終了する。
以上のように、実施の形態1〜3に係る特徴量抽出装置を番組記録装置として応用することが可能である。この番組記録装置では、特徴量記憶部において番組中に流れる楽曲データ自体を記憶しておく必要がなく、特徴量を記憶しておけばよい。従って、この番組記録装置では、楽曲データ自体を記憶しておく場合に比べて、記憶しておくデータ量を少なくすることができる。
以上に説明した番組記録装置は、番組の放送開始時刻が急に変更されたり、番組の放送が急に延長された場合であっても、番組を確実に記録することが可能である。また、上述したように、CMを除いて番組を記録することも可能である。その他、ユーザの気に入った楽曲の特徴量を特徴量記憶部に記憶させておけば、番組中においてユーザの気に入った楽曲が流れるシーンのみを記録することも可能である(例えば、歌番組においてユーザの気に入った歌のみを記録することができる)。
(実施の形態5)
次に、実施の形態5について説明する。実施の形態5は、実施の形態4と同様、実施の形態1〜3に係る特徴量抽出装置を番組記録装置に応用した形態である。実施の形態5では、番組記録装置において必要となる、特徴量と制御指示情報との対応を含むデータ(後述する、予約情報)の取得方法について詳細に説明する。
図21は、実施の形態5に係る番組記録装置が用いられるシステムの構成を示す図である。図21に示すシステムは、受信装置211と、番組記録装置212と、記録媒体213と、予約情報取得装置214と、予約情報データベース215と、特徴量データベース216とを備えている。なお、受信装置211は図19に示す受信装置191と同じであり、記憶媒体213は図19に示す記憶媒体193と同じである。
実施の形態5に係る番組記録装置においては、番組を記録する処理を行う際に必要となる予約情報が、予約情報取得装置214を介して予約情報データベース215から取得される。予約情報とは、特徴量と制御指示情報との対応を含む情報である。予約情報には、その他、番組に関する情報が含まれていてもよい。
予約情報取得装置214は、例えばネットワークに接続されたパーソナルコンピュータである。ユーザは、予約情報取得装置214を用いて、記録したい番組の予約情報を予約情報データベース215から取得する。具体的には、予約情報取得装置214は、ユーザの入力に従って、ユーザが記録したい番組を特定する情報と当該番組の予約情報を取得する要求とを予約情報データベース215にネットワークを介して送信する。予約情報データベース215は、予約情報取得装置214からの要求を受け取ると、該当する番組の予約情報を予約情報取得装置214へ送信する。これによって、予約情報取得装置214は、記録すべき番組の予約情報を取得することができる。予約情報取得装置214は、取得した予約情報を番組記録装置212に出力する。これによって、番組記録装置212に予約情報を設定されたことになる。
図22は、予約情報の一例を示す図である。予約情報は、1つの番組を単位として生成され、番組に関する情報を含んでいる。図22に示す例では、番組に関する情報として、番組ID、番組名、放送日、開始時刻、終了時刻、チャンネルおよび録画情報を含んでいる。これらは、予約情報として取得される他、番組記録装置212または予約情報取得装置214においてユーザによって入力されてもよい。予約情報は、付加情報をさらに含んでいる。付加情報は、番組の内容に関する情報であり、具体的には、出演者、番組内容、楽曲情報を含んでいる。番組記録装置212における番組の記録処理において必要となる、特徴量と制御指示情報との組は、この楽曲情報に含まれている。その他、楽曲情報は、楽曲種類、楽曲ID、楽曲名、および楽曲片データが含まれている。楽曲種類とは、その楽曲が番組の中でどのように使われるかを示す情報である。楽曲種類としては、例えば、番組開始時に流れる主題曲、番組終了時に流れるエンディング曲、CMに入る前に流れるCM前挿入曲、およびCMが終了し番組が再開した時に流れるCM後挿入曲等が考えられる。楽曲種類に基づいて、番組の記録を開始するかまたは終了するかを判断することが可能である。従って、他の実施の形態においては、楽曲種類を制御指示情報として用いても構わない。楽曲片データとは、その楽曲の音声信号データの一部である。
なお、図21に示す特徴量データベース216は、上記予約情報に含まれている楽曲名、楽曲ID、および特徴量を格納している。従って、予約情報取得装置214が予約情報を取得する際、楽曲名、楽曲ID、および特徴量については、特徴量データベース216から取得するようにしてもよい。
なお、図21に示すシステムの構成では、予約情報データベース215および特徴量データベース216は別体であるとしたが、他の実施の形態においては、単一の装置によって構成されてもよい。また、図21に示すシステムの構成では、予約情報データベース215および特徴量データベース216は、ネットワークを介して予約情報取得装置214に接続されたが、直接予約情報取得装置214に接続されてもよい。
次に、実施の形態5に係る番組記録装置212の詳細な構成を説明する。図23は、実施の形態4に係る番組記録装置の詳細な構成を示すブロック図である。図23において、番組記録装置212は、特徴量抽出部231と、特徴量比較部232と、特徴量記憶部233と、記録制御部234と、予約情報管理部235と、予備記録部236とを備えている。以下、番組記録装置212の動作を詳細に説明する。
図24は、実施の形態5における番組記録装置の処理の流れを示すフローチャートである。図24においては、番組記録装置212に予約情報が入力され、番組の記録が開始されるまでの処理を示す。なお、実施の形態5において、特徴量抽出部231、特徴量比較部232、特徴量記憶部233、および記録制御部234は、図20に示す特徴量抽出部201、特徴量比較部202、特徴量記憶部203、および記録制御部204と同様の動作を行う。
図24において、まず、予約情報管理部235は、予約情報取得装置214から予約情報を取得する(ステップS1)。次に、予約情報管理部235は、予約情報に含まれている番組の開始時刻を監視し(ステップS2)、開始時刻に基づいて、番組を記録するための処理を開始するか否かを判定する(ステップS3)。この判定処理は、現在時刻が開始時刻になったか否かに基づいて行われる。すなわち、現在時刻が開始時刻になると、ステップS4以降の処理が行われることによって番組を記録するための処理が開始される。一方、現在時刻が開始時刻になっていない場合、予約情報管理部235は、ステップS2の処理に戻る。つまり、予約情報管理部235は、現在時刻が開始時刻になるまで待機する。
番組を記録するための処理において、まず、予約情報管理部235は、放送信号のモニタを開始する(ステップS4)。すなわち、記録制御部234に放送信号の入力を開始させる。さらに、ステップS4において、予約情報管理部235は、ステップS1において取得した予約情報に含まれている特徴量と制御指示情報との組を特徴量記憶部233に記憶させる。
ステップS4の次に、特徴量抽出部231は、放送信号に含まれる音声信号の特徴量を抽出する(ステップS5)。次に、特徴量比較部232は、ステップS5において特徴量抽出部231によって抽出された特徴量と、ステップS4において特徴量記憶部233に記憶された特徴量とを比較する。そして、2つの特徴量が一致するか否かを判定する(ステップS6)。2つの特徴量が一致する場合、ステップS7の処理が行われる。一方、2つの特徴量が一致しない場合、ステップS5の処理が行われ、2つの特徴量が一致するまでステップS5およびS6の処理が繰り返される。
ステップS6の判定が肯定であった場合、記録制御部234は、番組の記録を開始する(ステップS7)。なお、図24の説明では、ステップS6において特徴量が一致すると判定された音楽信号は、制御指示情報が「記録開始」を示すものであるとする。以上で図24に示す処理が終了する。なお、この後、番組の記録が終了されることとなるが、番組の記録を終了する処理は実施の形態4の場合と同様である。
なお、実施の形態5においては、番組記録装置212は、番組の記録を開始する前に、予備記録部236に放送信号を予め一時的に記録するようにしてもよい。例えば、記録すべき番組の主題曲が番組開始から10分後に流れることが予約情報として与えられて既知である場合を考える。この場合、記録制御部234は、特徴量比較部232から出力されてくる制御指示情報の有無にかかわらず、所定時間分の放送信号を予備記録部236に記録する。上記例では、10分の放送信号を記録すれば足りる。予備記録部236は、現在時刻から所定時間だけ前までの放送信号を記録すればよく、所定時間以上前の放送信号は破棄してよい。この状態において、特徴量比較部232から制御指示情報が出力されてくると、記録制御部234は、それ以降に受信されてくる放送信号とともに、予備記録部236に記録されている放送信号を記録媒体213へ記録する。以上によって、番組の記録を開始するための主題曲が番組の放送開始時点で流れない場合でも、番組を最初から記録することができる。
以上のように、実施の形態5においても、実施の形態4と同様の効果を得ることができる。さらに、実施の形態5によれば、番組記録装置は予約情報を予約情報データベースから容易に取得することができるので、ユーザが予約情報を入力したり、番組記録装置において特徴量の算出処理を行う必要がない。
なお、実施の形態5においては、予約情報データベースから取得される予約情報を予約情報取得装置によってユーザが編集することができるようにしてもよい。例えば、開始時刻や終了時刻等の情報をユーザが独自に設定してもよい。また、予約情報の一部についてはユーザが入力するようにしてもよい。ユーザが入力する形態には、Gコードを用いて入力を行う形態を含まれる。また、予約情報データベースにおいて格納される予約情報は、デジタル放送において用いられるEPGを含んでいてもよい。さらに、予約情報が放送信号に含まれており、放送信号を受信することによって予約情報を取得することが可能な形態としてもよい。
また、実施の形態5においては、予約情報は、番組を記録する際の画質および音質を設定する情報や、記録ビットレート情報等を含んでいてもよい。さらに、予約情報管理部235は、これらの情報に基づいて記録制御部234を制御するようにしてもよい。
(実施の形態6)
次に、実施の形態6について説明する。実施の形態6は、実施の形態4と同様、実施の形態1〜3に係る特徴量抽出装置を番組記録装置に応用した形態である。実施の形態6は、過去に記録媒体に記録した情報から予約情報を入手する点で異なる。
図25は、実施の形態6に係る番組記録装置が用いられるシステムの構成を示す図である。図25に示すシステムは、受信装置251と、番組記録装置252と、記録媒体253と、予約情報取得装置254とを備えている。図25に示すシステムにおいて、予約情報取得装置254以外の各装置の動作は、実施の形態4または5と同様である。
実施の形態6では、放送信号に予約情報となる情報が含まれており、番組を記録する際には当該情報も含めて記録媒体253に記録されるものとする。予約情報取得装置254は、ユーザの入力に応じて予約情報の取得を行う際に、記録媒体253から予約情報を取得する。なお、予約情報に含まれる特徴量は、放送信号が記録媒体253に記録される際に放送信号とともに記録されてもよいし、予約情報取得装置254が予約情報の取得を行う際に番組記録装置252内の特徴量抽出部によって抽出されてもよい。
以上のようにして、実施の形態6では、ネットワークを介して予約情報データベースから取得しなくとも、予約情報を取得することができる。実施の形態6に示すシステムは、過去に記録した番組のデータを再利用することができるので、同じ予約情報を繰り返し取得する必要がなく、最初に一度取得すれば2回目以降の取得処理が簡単化できるという利点がある。具体的には、毎日放送されるニュース番組や、毎週放送される連続ドラマ等、定期的に放送される番組を録画する場合に有利である。
(実施の形態7)
次に、実施の形態7について説明する。実施の形態7は、実施の形態1〜3に係る特徴量抽出装置を番組再生制御装置に応用した形態である。
図26は、実施の形態7に係る番組再生制御装置が用いられるシステムの構成を示す図である。図26に示すシステムは、番組再生制御装置261と、再生装置262とを備える。また、図示していないが、本システムには受信装置が含まれる。受信装置は、図19に示す受信装置191と同様の機能である。
番組再生制御装置261は、特徴量抽出部263と、特徴量比較部264と、特徴量記憶部265と、再生制御部266とを備えている。再生制御部266以外の構成要素については、図19に示す構成要素と同様の動作を行う。再生制御部266は、特徴量比較部264から出力されてくる制御指示情報に従い、再生の開始や再生の終了といった動作を行う。なお、実施の形態7においては、制御指示情報は、「再生開始」や「再生終了」といった、放送信号の再生動作に関する動作を指示する情報である。なお、再生が開始される前、および再生が終了した後は、再生装置262は再生動作を行わない。
上記の構成によって、再生装置262は、ユーザの所望する番組のみを再生することとなる。また、CMを除いて再生を行うことが可能である。なお、放送信号が既に受信され、番組再生制御装置261または受信装置において保持されている場合には、放送信号の再生をCMの間停止するのではなく、CMを飛ばして番組を連続して再生を行うことが可能である。
(実施の形態8)
次に、実施の形態8について説明する。実施の形態8は、実施の形態7と同様、実施の形態1〜3に係る特徴量抽出装置を番組編集装置に応用した形態である。
図27は、実施の形態8に係る番組編集装置が用いられるシステムの構成を示す図である。図27に示すシステムは、番組編集装置271と、再生装置272と、記録媒体277とを備える。
実施の形態8が実施の形態7と異なる点は、受信装置に代えて記録媒体277を備える点である。また、番組編集装置271が、編集部278をさらに備える点である。これら以外は実施の形態7と同様であり、記録媒体277に格納されている番組のうち、ユーザの所望する番組のみが再生される点は、実施の形態7と同様である。このように再生された番組を試聴しながら、ユーザは、編集部278によって当該番組の編集を行うことができる。編集部278によって編集された番組のデータは、記録媒体277に記録される。このとき、編集前の番組データに上書きして記録してもよいし、別のデータとして記録してもよい。
以上のように、実施の形態8における番組編集装置では、記録媒体に記録されている多数の番組データの中から編集を行いたい番組を的確に抽出し、再生することが可能である。
以上に示した特徴量抽出装置は、音声信号と他の音声信号との識別をより明確に行うこと等を目的として利用することが可能である。
実施の形態1に係る特徴量抽出装置の構成を示すブロック図 周波数スペクトルを複数の帯域に分割する一例を説明する図 帯域抽出部12によって抽出される帯域スペクトルの一例を示す図 周波数スペクトルが離散的に分割される一例を示す図 ピーク値の算出方法を説明する図 ピーク周波数の時間変化量を算出する場合における特徴量算出部13の構成を示すブロック図 ピーク周波数の帯域間の差分値を算出する場合における特徴量算出部13の構成を示すブロック図 実効値の時間変化量を算出する場合における特徴量算出部13の構成を示すブロック図 相関値を算出する場合における特徴量算出部13の構成を示すブロック図 相関値の時間変化量を算出する場合における特徴量算出部13の構成を示すブロック図 実施の形態1に係る特徴量抽出装置の構成を示すブロック図 実施の形態2における特徴量の算出方法を説明する図 特徴量として相関値の時間変化量を算出する場合における特徴量算出部113の構成を示すブロック図 実施の形態3に係る特徴量抽出装置の構成を示すブロック図 包絡線信号から極値周波数を算出する方法を説明する図 包絡線信号から極値周波数を算出する方法を説明する図 特徴量が極値周波数の間隔比を算出する場合における特徴量算出部143の構成を示すブロック図 極値周波数の間隔を算出する方法を説明する図 実施の形態4に係る番組記録装置が用いられるシステムの構成を示す図 実施の形態4に係る番組記録装置の詳細な構成を示すブロック図 実施の形態5に係る番組記録装置が用いられるシステムの構成を示す図 予約情報の一例を示す図 実施の形態4に係る番組記録装置の詳細な構成を示すブロック図 実施の形態5における番組記録装置の処理の流れを示すフローチャート 実施の形態6に係る番組記録装置が用いられるシステムの構成を示す図 実施の形態7に係る番組再生制御装置が用いられるシステムの構成を示す図 実施の形態8に係る番組編集装置が用いられるシステムの構成を示す図 従来の音声指紋技術における音声指紋情報を蓄積する過程を説明するブロック図 音声指紋を用いて音声信号の特定を行う過程を説明するブロック図
符号の説明
11 周波数変換部
12 帯域抽出部
13 特徴量算出部
111 信号抽出部
112 信号保持部
113 特徴量算出部
141 周波数変換部
142 包絡線導出部
143 特徴量算出部
192,212,252 番組記録装置
261,271 番組再生制御装置

Claims (34)

  1. 入力された音声信号に含まれる所定時間長の信号部分に対して周波数変換を行うことによって、当該信号部分の周波数スペクトルを導出する周波数変換部と、
    前記周波数変換部によって導出された周波数スペクトルから複数の帯域を抽出し、抽出した帯域毎の周波数スペクトルである帯域スペクトルを出力する帯域抽出部と、
    前記帯域スペクトルの各々について所定の特徴量を算出し、算出された各所定の特徴量を前記音声信号の特徴量とする特徴量算出部とを備える、特徴量抽出装置。
  2. 前記帯域抽出部は、前記周波数変換部によって導出された周波数スペクトルから、周波数軸上の線形目盛りに従って等間隔に分割された複数の帯域を抽出する、請求項1に記載の特徴量抽出装置。
  3. 前記帯域抽出部は、前記周波数変換部によって導出された周波数スペクトルから、周波数軸上の対数目盛りに従って等間隔に分割された複数の帯域を抽出する、請求項1に記載の特徴量抽出装置。
  4. 前記帯域抽出部は、前記周波数変換部によって導出された周波数スペクトルから、周波数が所定の範囲内にある帯域のみを抽出する、請求項1に記載の特徴量抽出装置。
  5. 前記帯域抽出部は、抽出すべき各帯域の間に所定の間隔が生じるように当該帯域を抽出する、請求項1に記載の特徴量抽出装置。
  6. 前記特徴量算出部は、前記帯域スペクトルの各々について、スペクトルがピークとなる値であるピーク値を算出し、ある帯域のピーク値と他の帯域のピーク値との差分値を前記所定の特徴量とする、請求項1に記載の特徴量抽出装置。
  7. 前記特徴量算出部は、ある帯域のピーク値と他の帯域のピーク値との差分値を、その符号を示す2値の値によって表現する、請求項6に記載の特徴量抽出装置。
  8. 前記特徴量算出部は、前記帯域スペクトルの各々について、スペクトルがピーク値となる周波数であるピーク周波数を算出し、算出したピーク周波数に関する数値を前記所定の特徴量とする、請求項1に記載の特徴量抽出装置。
  9. 前記特徴量算出部は、ある帯域のピーク周波数と他の帯域のピーク周波数との差分値を前記所定の特徴量として算出する、請求項8に記載の特徴量抽出装置。
  10. 前記特徴量算出部は、ある帯域のピーク周波数と他の帯域のピーク周波数との差分値を、当該差分値が所定量より多いか否かを示す2値の値によって表現する、請求項9に記載の特徴量抽出装置。
  11. 前記周波数変換部は、前記音声信号から前記所定時間長の信号部分を所定の時間間隔で抽出し、
    前記特徴量算出部は、
    前記帯域スペクトルの各々について、スペクトルがピーク値となる周波数であるピーク周波数を算出するピーク周波数算出部と、
    前記ピーク周波数算出部によって算出された各ピーク周波数の時間変化量に関する数値を前記所定の特徴量として算出するピーク周波数時間変化算出部とを含む、請求項1に記載の特徴量抽出装置。
  12. 前記ピーク周波数時間変化算出部は、前記各ピーク周波数の時間変化量の符号を示す2値の値を前記所定の特徴量とする、請求項11に記載の特徴量抽出装置。
  13. 前記ピーク周波数時間変化算出部は、前記各ピーク周波数の時間変化量が所定量よりも多いか否かを示す2値の値を前記所定の特徴量とする、請求項11に記載の特徴量抽出装置。
  14. 前記特徴量算出部は、前記帯域スペクトルの各々について、当該帯域の周波数スペクトルの実効値を前記所定の特徴量として算出する、請求項1に記載の特徴量抽出装置。
  15. 前記周波数変換部は、前記音声信号から前記所定時間長の信号部分を所定の時間間隔で抽出し、
    前記特徴量算出部は、
    前記帯域スペクトルの各々について、当該帯域の周波数スペクトルの実効値を算出する実効値算出部と、
    前記実効値算出部によって算出された各実効値の時間変化量に関する数値を前記所定の特徴量として算出する実効値時間変化算出部とを含む、請求項1に記載の特徴量抽出装置。
  16. 前記実効値時間変化算出部は、前記各実効値の時間変化量の符号を示す2値の値を前記所定の特徴量とする、請求項15に記載の特徴量抽出装置。
  17. 前記実効値時間変化算出部は、前記各実効値の時間変化量が所定量よりも多いか否かを示す2値の値を前記所定の特徴量とする、請求項15に記載の特徴量抽出装置。
  18. 前記周波数変換部は、前記音声信号から前記所定時間長の信号部分を所定の時間間隔で抽出し、
    前記特徴量算出部は、前記帯域抽出部によって抽出された帯域の周波数スペクトルと、当該帯域と同じ帯域の周波数スペクトルであって当該周波数スペクトルが導出された信号部分とは異なる信号部分の周波数スペクトルとの相関値を、前記帯域抽出部によって抽出された各帯域の各々について算出し、算出された各相関値に関する数値を前記所定の特徴量として算出する、請求項1に記載の特徴量抽出装置。
  19. 前記特徴量算出部は、算出された各相関値の符号を示す2値の値を前記所定の特徴量として算出する、請求項18に記載の特徴量抽出装置。
  20. 前記特徴量算出部は、算出された各相関値の時間変化量に関する数値を前記所定の特徴量として算出する、請求項18に記載の特徴量抽出装置。
  21. 入力された音声信号から所定時間長の信号部分を複数抽出する信号抽出部と、
    前記信号抽出部によって抽出された複数の信号部分のうち、ある信号部分と、当該信号部分とは異なる信号部分との相関値を算出し、算出された相関値に関する値を前記音声信号の特徴量として算出する特徴量算出部とを備える、特徴量抽出装置。
  22. 前記特徴量算出部は、前記相関値を前記音声信号の特徴量とする、請求項21に記載の特徴量抽出装置。
  23. 前記特徴量算出部は、前記相関値の符号を示す2値の値を前記音声信号の特徴量とする、請求項21に記載の特徴量抽出装置。
  24. 前記信号抽出部は、所定の時間間隔で前記信号部分を抽出し、
    前記特徴量算出部は、
    前記所定の時間間隔で前記相関値を算出する相関値算出部と、
    前記相関値の時間変化量を前記音声信号の特徴量として算出する相関値時間変化算出部とを含む、請求項21に記載の特徴量抽出装置。
  25. 入力された音声信号に含まれる所定時間長の信号部分に対して周波数変換を行うことによって、当該信号部分の周波数スペクトルを導出する周波数変換部と、
    前記周波数変換部によって導出された周波数スペクトルの包絡線を示す包絡線信号を導出する包絡線導出部と、
    前記包絡線導出部によって導出された包絡線信号の極値に関する数値を前記音声信号の特徴量として算出する特徴量算出部とを備える、特徴量抽出装置。
  26. 前記特徴量算出部は、前記包絡線導出部によって導出された包絡線信号の極値をとる周波数である極値周波数を前記音声信号の特徴量とする、請求項25に記載の特徴量抽出装置。
  27. 前記特徴量算出部は、
    前記包絡線導出部によって導出された包絡線信号の極値をとる周波数である極値周波数を算出する極値周波数算出部と、
    隣接する極値周波数の間隔を前記音声信号の特徴量として算出する間隔算出部とを含む、請求項25に記載の特徴量抽出装置。
  28. 前記間隔算出部は、前記間隔を所定の基準値に対する割合によって表現した数値を前記音声信号の特徴量とする、請求項27に記載の特徴量抽出装置。
  29. 前記間隔算出部は、前記極値周波数のうち最も低い周波数を、前記所定の基準値とする、請求項28に記載の特徴量抽出装置。
  30. 前記間隔算出部は、前記極値周波数のうち最も低い周波数と2番目に低い周波数との差分値を、前記所定の基準値とする、請求項28に記載の特徴量抽出装置。
  31. 請求項1に記載の特徴量抽出装置を含み、音声信号および映像信号を含む番組データを入力するとともに、当該番組データを記録媒体に記録可能な番組記録装置であって、
    前記特徴量抽出装置は、前記番組データに含まれる音声信号の特徴量を算出し、
    前記番組データの前記記録媒体への記録の制御を行う記録制御部と、
    記録すべき番組において流れる音楽の音声信号の特徴量と、前記記録制御部に対して当該番組の記録を行う旨の指示、または記録を停止する旨の指示を示す制御指示情報とを対応付けた組を少なくとも1組記憶する特徴量記憶部と、
    前記特徴量抽出装置によって導出された特徴量と、前記特徴量記憶部に記憶されている特徴量とに基づいて、前記番組データに含まれる音声信号が前記記録すべき番組において流れる音楽の音声信号と一致するか否かを判定する特徴量比較部とを備え、
    前記記録制御部は、前記特徴量比較部が一致すると判定した場合、一致すると判定された音声信号の特徴量に前記特徴量記憶部において対応付けられている制御指示情報により示される指示に従って前記制御を行う、番組記録装置。
  32. 入力される番組データを所定の量だけ記録する予備記録部をさらに備え、
    前記特徴量記憶部は、特徴量と制御指示情報との対応に加え、前記記録すべき番組の開始から、当該特徴量を有する音声信号の音楽が当該番組において流れるまでの経過時間を示す情報をさらに対応付けて記憶し、
    前記記録制御部は、前記特徴量比較部が一致すると判定した場合であって、一致すると判定された音声信号の特徴量に前記特徴量記憶部において対応付けられている制御指示情報により示される指示が番組の記録を示す場合、入力される番組データの前記記録媒体への記録を開始するとともに、前記予備記録部に記録されている番組データのうち、当該制御指示情報に対応付けられている情報により示される経過時間分の番組データを前記記録媒体へ記録する、請求項31に記載の番組記録装置。
  33. 請求項1に記載の特徴量抽出装置を含み、音声信号および映像信号を含む番組データを入力するとともに、当該番組データを再生可能な再生装置に接続される番組再生制御装置であって、
    前記特徴量抽出装置は、前記番組データに含まれる音声信号の特徴量を算出し、
    前記番組データの前記再生装置による再生の制御を行う再生制御部と、
    再生すべき番組において流れる音楽の音声信号の特徴量と、前記再生制御部に対して当該番組の再生を行う旨の指示、または再生を停止する旨の指示を示す制御指示情報とを対応付けた組を少なくとも1組記憶する特徴量記憶部と、
    前記特徴量抽出装置によって導出された特徴量と、前記特徴量記憶部に記憶されている特徴量とに基づいて、前記番組データに含まれる音声信号が前記再生すべき番組において流れる音楽の音声信号と一致するか否かを判定する特徴量比較部とを備え、
    前記再生制御部は、前記特徴量比較部が一致すると判定した場合、一致すると判定された音声信号の特徴量に前記特徴量記憶部において対応付けられている制御指示情報により示される指示に従って前記制御を行う、番組再生制御装置。
  34. 前記番組データは、記録媒体に記録されており、
    前記記録媒体に記録されている番組データを編集可能な編集部をさらに備える、請求項33に記載の番組再生制御装置。

JP2003328705A 2002-09-24 2003-09-19 特徴量抽出装置 Withdrawn JP2004334160A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003328705A JP2004334160A (ja) 2002-09-24 2003-09-19 特徴量抽出装置

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2002277001 2002-09-24
JP2003111121 2003-04-16
JP2003328705A JP2004334160A (ja) 2002-09-24 2003-09-19 特徴量抽出装置

Publications (2)

Publication Number Publication Date
JP2004334160A true JP2004334160A (ja) 2004-11-25
JP2004334160A5 JP2004334160A5 (ja) 2006-08-31

Family

ID=33514498

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003328705A Withdrawn JP2004334160A (ja) 2002-09-24 2003-09-19 特徴量抽出装置

Country Status (1)

Country Link
JP (1) JP2004334160A (ja)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007171772A (ja) * 2005-12-26 2007-07-05 Clarion Co Ltd 音楽情報処理装置、音楽情報処理方法および制御プログラム
JP2008015002A (ja) * 2006-07-03 2008-01-24 Nippon Telegr & Teleph Corp <Ntt> 音響信号特徴抽出方法、抽出装置、抽出プログラム、該プログラムを記録した記録媒体、および該特徴を利用した音響信号検索方法、検索装置、検索プログラム、並びに該プログラムを記録した記録媒体
JP2009036862A (ja) * 2007-07-31 2009-02-19 Univ Chuo 音響処理のための情報処理装置、音響処理方法、プログラム、および音響検索システム
JP2011154637A (ja) * 2010-01-28 2011-08-11 Glory Ltd 硬貨センサ、実効値算出方法および硬貨識別装置
JP2012503212A (ja) * 2008-09-19 2012-02-02 ニューサウス イノベーションズ ピーティーワイ リミテッド オーディオ信号分析方法
JP2012507055A (ja) * 2009-04-03 2012-03-22 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン オーディオ信号のスペクトルの複数の局部重心周波数を決定するための装置及び方法
JP2014520287A (ja) * 2012-05-23 2014-08-21 エンサーズ カンパニー リミテッド オーディオ信号を用いたコンテンツ認識装置及び方法
JP2016040683A (ja) * 2014-08-12 2016-03-24 株式会社ディー・ディー・エス データ作成プログラム、データ作成方法、及び、データ作成装置
JP2016040682A (ja) * 2014-08-12 2016-03-24 株式会社ディー・ディー・エス データ作成プログラム、データ作成方法、及び、データ作成装置

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007171772A (ja) * 2005-12-26 2007-07-05 Clarion Co Ltd 音楽情報処理装置、音楽情報処理方法および制御プログラム
JP2008015002A (ja) * 2006-07-03 2008-01-24 Nippon Telegr & Teleph Corp <Ntt> 音響信号特徴抽出方法、抽出装置、抽出プログラム、該プログラムを記録した記録媒体、および該特徴を利用した音響信号検索方法、検索装置、検索プログラム、並びに該プログラムを記録した記録媒体
JP4597919B2 (ja) * 2006-07-03 2010-12-15 日本電信電話株式会社 音響信号特徴抽出方法、抽出装置、抽出プログラム、該プログラムを記録した記録媒体、および該特徴を利用した音響信号検索方法、検索装置、検索プログラム、並びに該プログラムを記録した記録媒体
JP2009036862A (ja) * 2007-07-31 2009-02-19 Univ Chuo 音響処理のための情報処理装置、音響処理方法、プログラム、および音響検索システム
JP2012503212A (ja) * 2008-09-19 2012-02-02 ニューサウス イノベーションズ ピーティーワイ リミテッド オーディオ信号分析方法
US8990081B2 (en) 2008-09-19 2015-03-24 Newsouth Innovations Pty Limited Method of analysing an audio signal
JP2012507055A (ja) * 2009-04-03 2012-03-22 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン オーディオ信号のスペクトルの複数の局部重心周波数を決定するための装置及び方法
US8996363B2 (en) 2009-04-03 2015-03-31 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for determining a plurality of local center of gravity frequencies of a spectrum of an audio signal
JP2011154637A (ja) * 2010-01-28 2011-08-11 Glory Ltd 硬貨センサ、実効値算出方法および硬貨識別装置
JP2014520287A (ja) * 2012-05-23 2014-08-21 エンサーズ カンパニー リミテッド オーディオ信号を用いたコンテンツ認識装置及び方法
JP2016040683A (ja) * 2014-08-12 2016-03-24 株式会社ディー・ディー・エス データ作成プログラム、データ作成方法、及び、データ作成装置
JP2016040682A (ja) * 2014-08-12 2016-03-24 株式会社ディー・ディー・エス データ作成プログラム、データ作成方法、及び、データ作成装置

Similar Documents

Publication Publication Date Title
US20040059570A1 (en) Feature quantity extracting apparatus
US6748360B2 (en) System for selling a product utilizing audio content identification
JP4615166B2 (ja) 映像情報要約装置、映像情報要約方法及び映像情報要約プログラム
JP4321518B2 (ja) 楽曲区間検出方法、及びその装置、並びにデータ記録方法、及びその装置
JP4658598B2 (ja) ストリームに埋め込まれた反復オブジェクトに対するユーザ制御を提供するシステムおよび方法
US8260108B2 (en) Recording and reproduction apparatus and recording and reproduction method
US20040143349A1 (en) Personal audio recording system
US8190441B2 (en) Playback of compressed media files without quantization gaps
KR20060027826A (ko) 비디오 처리장치, 비디오 처리장치용 집적회로, 비디오처리방법, 및 비디오 처리 프로그램
JP2005322401A (ja) メディア・セグメント・ライブラリを生成する方法、装置およびプログラム、および、カスタム・ストリーム生成方法およびカスタム・メディア・ストリーム発信システム
US8019163B2 (en) Information processing apparatus and method
US20060222318A1 (en) Information processing apparatus and its method
US20060224616A1 (en) Information processing device and method thereof
JP2004334160A (ja) 特徴量抽出装置
US20050229204A1 (en) Signal processing method and arragement
JP4877811B2 (ja) 特定区間抽出装置、音楽記録再生装置、音楽配信システム
US7985915B2 (en) Musical piece matching judging device, musical piece recording device, musical piece matching judging method, musical piece recording method, musical piece matching judging program, and musical piece recording program
JP2006270233A (ja) 信号処理方法及び信号記録再生装置
JP2010078984A (ja) 楽曲抽出装置および楽曲記録装置
US10819884B2 (en) Method and device for processing multimedia data
JP2008262000A (ja) オーディオ信号特徴検出装置及び特徴検出方法
KR100798524B1 (ko) 매체 신호 검색 및 레코딩 방법 및 장치
JP2005003912A (ja) オーディオ信号符号化装置、オーディオ信号符号化方法及びプログラム
JP2005148775A (ja) 情報処理装置、および情報処理方法、並びにコンピュータ・プログラム
JP3797941B2 (ja) 情報収集装置及び情報収集方法

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060711

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060711

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20081015

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20081020

A761 Written withdrawal of application

Free format text: JAPANESE INTERMEDIATE CODE: A761

Effective date: 20081112