以下図面について、本発明の一実施の形態を詳述する。
(1)第1の実施の形態
(1−1)第1の実施の形態の概要
図1において、1は全体として第1の実施の形態によるデータ記録装置の構成の概要を示す。データ記録装置1の曲らしさ検出部2は、音楽部分と会話部分とが混在して形成された混在データから、当該混在データがどれだけ音楽らしいかを表す曲らしさを検出する。またデータ記録装置1の音量レベル検出部3は、混在データの音量レベルを検出する。さらにデータ記録装置1の区間特定部4は、曲らしさ検出部2により検出した曲らしさと、音量レベル検出部3により検出した音量レベルとに応じて、混在データの中で、音楽部分に相当する音楽部分区間と、会話部分に相当する会話部分区間とを特定する。さらにデータ記録装置1の記録部5は、区間特定部4により音楽部分区間と会話部分区間とが特定された混在データを記録する。かかる構成によりデータ記録装置1は、混在データを記録するとき、曲らしさでは最終的に各区間を高精度に特定し難いような混在データの音楽部分区間と会話部分区間とを、音量レベルで補うように特定して記録することができると共に、音量レベルでは最終的に各区間を高精度に特定し難いような混在データの音楽部分区間と会話部分区間とを、曲らしさで補うように特定して記録することができ、かくして、音楽データを含むデータから音楽データを高精度に特定して記録し得る。
(1−2)第1の実施の形態によるデータ記録装置の詳細構成
次いで図2を用いて、データ記録装置10の機能回路ブロックによる詳細なハードウェア構成を説明する。
かかるデータ記録装置10の受信部11は、操作部12を介してラジオ局が選局されラジオ番組の出力が要求されると、複数のラジオ局のラジオ放送波のうち、ユーザにより選局されたラジオ局のラジオ番組に対応するラジオ放送波を抽出して復調処理等の所定の受信処理を施し、この結果得られたラジオ番組の番組信号をデータ処理部13に送出する。データ処理部13は、受信部11から与えられた番組信号に対しアナログデジタル変換処理及びイコライジング処理等のデジタル処理を施して番組データを生成する。このとき、かかる番組データには、例えばラジオ番組の中で流れた音楽に対応する音楽部分や、会話に対応する会話部分等が混在している。ここでラジオ番組の中の会話とは、司会者とゲストのトーク、ニュースや交通情報や天気用法のキャスターの喋るセリフ、コマーシャルの中に含まれる会話やセリフ、落語や朗読、等のことを指す。そしてデータ処理部13は、当該生成した番組データに対しデジタルアナログ変換処理及び増幅処理等のアナログ処理を施す。これによりデータ処理部13は、かかるアナログ処理に応じて番組信号を得て、これを出力部14に送出することで、当該出力部14から番組信号に基づくラジオ番組の音声を出力させてユーザに聴取させる。このようにしてデータ記録装置10は、ユーザに対し所望のラジオ局で放送されているラジオ番組を聴かせることができる。
また受信部11は、操作部12を介してラジオ局が選局され、ラジオ番組の録音が要求されると、上述と同様にラジオ放送波を抽出して復調処理等の所定の受信処理を施し、この結果得られたラジオ番組の番組信号をデータ処理部13に送出する。データ処理部13は、受信部11から与えられた番組信号に対しデジタル処理を施し、その結果得られた番組データを記録部15に送出する。記録部15は、データ処理部13から与えられた番組データをデータファイルとして記録する。このようにしてデータ記録装置10は、所望のラジオ局で放送されているラジオ番組を録音することができる。
この後、データ記録装置10の記録部15は、操作部12を介して番組データの再生が要求されると、当該再生が要求された番組データを読出し、これをデータ処理部13に送出する。データ処理部13は、記録部15から与えられた番組データに対し所定のデジタル処理を施した後、このデジタル処理した番組データに対しデジタルアナログ変換処理及び増幅処理等のアナログ処理を施す。これによりデータ処理部13は、かかるアナログ処理に応じて番組信号を得て、これを出力部14に送出することで、当該出力部14から番組信号に基づくラジオ番組を出力させてユーザに聴取させる。このようにしてデータ記録装置10は、ユーザに対し録音したラジオ番組を聴かせることができる。
また、データ記録装置10には、一時記憶部16が設けられている。一時記憶部16は、ラジオ番組の聴取時、データ処理部13が生成した番組データを、アナログ処理して出力部14から出力するのとは別に、所定時間だけ一時記憶するようになされている。
これによりデータ記録装置10は、ラジオ番組の聴取時、出力部14からラジオ番組を出力させると共に、当該出力するラジオ番組に対応する番組データを、一時記憶部16で一時記憶しておくことができる。そしてデータ記録装置10は、操作部12を介して一度出力したラジオ番組の再出力が要求されると、一時記憶部16から読み出した所定時間分の出力に相当する番組データを、データ処理部13でアナログ処理して番組信号を得、かかる番組信号に応じたラジオ番組を、出力部14を介して再出力することができる。このようにしてデータ記録装置10は、ユーザがトイレ等で席を外したことにより、出力中のラジオ番組の一部を聴取させられなかったときに、ユーザの要求に応じて、ラジオ番組のうち既に出力してしまった部分を、所定時間だけ時系列的に遡って出力して聴取させることができる。
さらにデータ記録装置10の表示部17は、図示しないメモリや記録部15から読み出した、ラジオ番組の出力や録音等の各種プログラムの実行結果に応じ、ラジオ番組の出力や録音等に関する各種画面を表示してユーザに視認させ得るようになされている。
かかる構成に加えてデータ記録装置10には、曲らしさ検出部18が設けられている。曲らしさ検出部18は、ラジオ番組の録音時、データ処理部13で生成された番組データが、どれだけ音楽(すなわち曲)らしいかを数値化して表す曲らしさを検出するようになされている。
ここで曲らしさ検出部18による曲らしさの検出手法としては、例えば3種類ある。これら3種類の曲らしさ検出手法のうち第1の曲らしさ検出手法は、音楽と会話とでは、1オクターブの12音階それぞれに相当する周波数帯域毎のエネルギーの分布が異なることを利用するものである。すなわち第1の曲らしさ検出手法は、番組データを所定の処理単位のデータ(例えば、ラジオ番組の1秒程度の番組データに相当し、以下、これを処理単位データと呼ぶ)を12音階それぞれの周波数帯域のエネルギーを抽出し、その抽出結果に基づき曲らしさを検出するものである。第2の曲らしさ検出手法は、人の声の周波数成分が比較的低域側に分布し、かつ楽器等の音の周波数成分が比較的高域側に分布していることを利用するものである。すなわち第2の曲らしさ検出手法は、処理単位データを周波数分析し、その分析結果に基づき曲らしさを検出するものである。また第3の曲らしさ検出手法は、一般に音声データが人の声の生成機構をモデル化してエンコード処理(すなわち、圧縮処理)されているために、楽曲等の声以外の部分のデータをエンコード処理した場合にそのデータの元の波形と、当該データをコーデック処理(すなわち、一旦エンコード処理した後デコード処理)して得られた処理結果データの波形との差分(以下、これをエンコード誤差と呼ぶ)が、声の部分のデータから得られるエンコード誤差に比して大きくなることを利用するものである。すなわち第3の曲らしさ検出手法は、処理単位データのエンコード誤差に基づき曲らしさを検出するものである。そして、かかる曲らしさ検出部18には、これら3種類の曲らしさ検出手法のうち何れか1つが適用されていることにより、以下には、これら3種類の曲らしさ検出手法について順番に説明する。
まず曲らしさ検出部18に対し第1の曲らしさ検出手法が適用されている場合、かかる曲らしさ検出部18は、図示しないメモリに予め記憶している曲らしさ検出プログラムに従って第1の曲らしさ検出処理を開始する。曲らしさ検出部18は、かかる第1の曲らしさ検出処理を開始すると、データ処理部13から与えられる番組データの中の処理単位データから、1オクターブの12音階それぞれに相当する周波数帯域毎のエネルギーを抽出する。そして曲らしさ検出部18は、処理単位データ毎のエネルギーを得ると、次いで、その周波数帯域毎のエネルギーをもとに曲らしさ数値化処理を実行する。これにより曲らしさ検出部18は、番組データの処理単位データ毎に、どれだけ音楽(すなわち曲)らしいかを数値化して表す曲らしさMSを検出するようになされている。この曲らしさMSは、ラジオ番組において、音楽が支配的な箇所では比較的大きくなり、人の声が支配的な箇所では比較的小さくなるようになされている。
次いで曲らしさ検出部18は、番組データ全体の処理単位データについて曲らしさMSを検出し終えるまで、上述した処理を循環的に繰り返し実行する。そして曲らしさ検出部18は、番組データ全体の処理単位データに対する曲らしさMSの検出が完了すると、かかる第1の曲らしさ検出処理を終了する。
このようにして曲らしさ検出部18は、第1の曲らしさ検出手法が適用されている場合、番組データの処理単位データ毎に順次、曲らしさMSを検出する。
また曲らしさ検出部18に対し第2の曲らしさ検出手法が適用されている場合、かかる曲らしさ検出部18は、図示しないメモリに予め記憶している曲らしさ検出プログラムに従って第2の曲らしさ検出処理を開始する。曲らしさ検出部18は、かかる第2の曲らしさ検出処理を開始すると、データ処理部13から与えられる番組データの中の処理単位データ(例えば、ラジオ番組の放送中の時刻がタイムコードとして付加されている番組データの中で、当該タイムコードとしてのある時刻tを基点とした当該時刻tの経過側への1024サンプルのデータでなる)を取り込む。そして曲らしさ検出部18は、その処理単位データに対し高速フーリエ変換(FFT:fast Fourier Transfer )演算を施すことにより、当該処理単位データを周波数スペクトルに分解する。
さらに曲らしさ検出部18は、周波数スペクトルspを例えば8〔KHz〕の周波数を境界として低域の周波数スペクトルspnと高域の周波数スペクトルspnとに分ける。因みに番組データのサンプリング周波数が44.1〔KHz〕の場合、低域の周波数スペクトルspnはsp0乃至sp185となり、高域の周波数スペクトルspnはsp186乃至sp511となる。また曲らしさ検出部18は、低域のパワースペクトルaを(1)式
で表されるように、低域の周波数スペクトルsp0乃至sp185の大きさ成分を2乗して算出すると共に、高域のパワースペクトルbを(2)式
で表されるように、高域の周波数スペクトルsp186乃至sp511の大きさ成分を2乗して算出する。
そして曲らしさ検出部18は、低域のパワースペクトルaと高域のパワースペクトルbとの比率(以下、これをパワースペクトル比率と呼ぶ)Rtを(3)式
に従って算出する。
そして曲らしさ検出部18は、移動平均値の算出手法を用いて、この時点までに求めた合計n個のパワースペクトル比率Rt−nの移動平均の数値xを(4)式
に従って求め、その移動平均の数値xを曲らしさMSとする。
次いで曲らしさ検出部18は、番組データ全体の処理単位データについて曲らしさを検出し終えるまで、上述した処理を循環的に繰り返し実行する。そして曲らしさ検出部18は、番組データ全体の処理単位データに対する曲らしさMSの検出が完了すると、かかる第2の曲らしさ検出処理を終了する。
このようにして曲らしさ検出部18は、第2の曲らしさ検出手法が適用されている場合、上述した(3)式からも明らかなように、番組データでのラジオ番組の番組として人の声が支配的な箇所では曲らしさMSが比較的小さくなり、これに対し人の声以外の楽器の音等が支配的な箇所では曲らしさMSが比較的大きくなることを利用して、番組データの処理単位データ毎に順次曲らしさMSを検出する。
さらに曲らしさ検出部18に対し第3の曲らしさ検出手法が適用されている場合、かかる曲らしさ検出部18は、図示しないメモリに予め記憶している曲らしさ検出プログラムに従って第3の曲らしさ検出処理を開始する。曲らしさ検出部18は、かかる第3の曲らしさ検出処理を開始すると、データ処理部13から与えられる番組データの中の処理単位データ(例えば、番組データに付加されたタイムコードとしてのある時刻tを基点とした当該時刻tの経過側への200 サンプルのデータでなる)を取り込む。そして曲らしさ検出部18は、その処理単位データのサンプリング周波数を変換する。因みに曲らしさ検出部18は、このとき処理単位データのサンプリング周波数を、後のコーデック処理(例えば、CELP(Code Excited Linear Prediction)方式に準じたコーデック処理)で扱うことのできる周波数に合わせるように例えば8〔KHz〕又は16〔KHz〕に変換する。
また曲らしさ検出部18は、処理単位データに対しコーデック処理(すなわち、一旦エンコード処理した後、デコード処理する)。そして曲らしさ検出部18は、処理単位データの元の波形cと、その処理単位データをコーデック処理して得られた例えば元と同じ200サンプルのデータでなる処理結果データの波形dとからエンコード誤差Etを(5)式
で表されるように、互いのサンプル同士の差分を求めるように算出する。因みに曲らしさ検出部18は、(5)式に示す演算を実行する場合、処理単位データに対するコーデック処理の開始から、当該処理単位データをコーデック処理して処理結果データを得るまでの遅延delayを考慮してエンコード誤差Etを算出している。
そして曲らしさ検出部18は、移動平均値の算出手法を用いて、この時点までに求めた合計n個のエンコード誤差Etの移動平均の数値xを(6)式
に従って求め、その移動平均の数値xを曲らしさMSとする。
次いで曲らしさ検出部18は、番組データ全体の処理単位データについて曲らしさMSを検出し終えるまでの間、上述した処理を循環的に繰り返し実行する。そして曲らしさ検出部18は、番組データ全体の処理単位データに対する曲らしさMSの検出が完了すると、かかる第3の曲らしさ検出処理を終了する。
このようにして曲らしさ検出部18は、第3の曲らしさ検出手法が適用されている場合、上述した(5)式からも明らかなように、番組データでのラジオ番組の番組として人の声が支配的な箇所では曲らしさMSが比較的小さくなり、これに対し人の声以外の楽器の音等が支配的な箇所では曲らしさMSが比較的大きくなることを利用して、番組データの処理単位データ毎に順次、曲らしさMSを検出する。
またデータ記録装置10には、音量レベル検出部19が設けられている。かかる音量レベル検出部19は、ラジオ番組の録音時、データ処理部13で生成された番組データの音量レベルを検出するようになされている。ちなみに、音量レベル検出部19による音量レベルの検出は、ラジオ番組の1/128秒程度の時間毎に行われる。
さらにデータ記録装置10には、区間特定部20が設けられている。かかる区間特定部20は、ラジオ番組の録音時、曲らしさ検出部18が検出した曲らしさと、音量レベル検出部19が検出した音量レベルとに応じて、データ処理部13で生成された番組データの中で、音楽部分に相当する音楽部分区間と会話部分に相当する会話部分区間とを特定するようになされている。
さらにデータ記録装置10には、分割部21が設けられている。かかる分割部21は、ラジオ番組の録音時、区間特定部20が特定した、番組データの各音楽部分区間及び会話部分区間を、それぞれ音楽部分区間データ及び会話部分区間データとして番組データから分割するようになされている。
(1−3)ラジオ番組の分割録音
以下、番組データの中で音楽部分区間と会話部分区間とを特定すると共に、特定した各会話部分区間及び各会話部分区間をそれぞれ分割して録音するラジオ番組分割録音処理について詳述する。
受信部11は、操作部12を介してラジオ局が選局され、ラジオ番組を区間毎に分割して録音することが要求されると、ラジオ番組分割録音処理を開始し、上述と同様にラジオ局のラジオ放送波を抽出して復調処理等の所定の受信処理を施し、この結果得られたラジオ番組の番組信号をデータ処理部13に送出する。データ処理部13は、受信部11から与えられた番組信号に対しデジタル処理を施し、その結果得られた番組データを処理単位データ毎に曲らしさ検出部18、音量レベル検出部19及び分割部21に送出する。
曲らしさ検出部18は、データ処理部13から処理単位データが与えられたとき、上述した3種類の検出手法のいずれかを用いることにより曲らしさMSを検出するようにして、かかる曲らしさMSの検出を番組データ全体に対して実行する。そして曲らしさ検出部18は、このようにして検出した曲らしさMSを、区間特定部20に送出する。
音量レベル検出部19は、データ処理部13から処理単位データが与えられると、かかる処理単位データの中の音量レベルVSを1/128秒程度の時間毎に検出するようにして、かかる音量レベルVSの検出を番組データ全体に対して実行する。そして音量レベル検出部19は、このようにして検出した音量レベルVSを、区間特定部20に送出する。
区間特定部20は、曲らしさ検出部18から送出される曲らしさMSと、音量レベル特定部19から送出される音量レベルVSとに応じて、データ処理部13で生成された番組データの中に混在している音楽部分区間と会話部分区間とを特定し、かかる区間の特定結果としての区間特定情報DIを生成して分割部21へ送出する。この区間特定情報DIは、例えば、「ラジオ番組の4515msec〜100687msecまでの番組データの区間は音楽部分区間(0と1とで二値化したときの1)で、100687msec〜253594msecまでの番組データの区間は会話部分区間(0と1とで二値化したときの0)である」のようにして、番組データの中に混在している音楽部分区間と会話部分区間とを特定する情報である。
分割部21は、区間特定部20から送出された区間特定情報DIに応じて、データ処理部13から送出された番組データの中に混在している各音楽部分区間と各会話部分区間とをそれぞれ特定する。そして分割部21は、番組データの音楽部分区間を特定した場合には、番組データの音楽部分区間を形成するひとまとまりのデータを音楽部分区間データとして分割して記録部15に送出する。一方で分割部21は、番組データの会話部分区間を特定した場合には、番組データの会話部分区間を形成するひとまとまりのデータを会話部分区間データとして分割して記録部15に送出する。
記録部15は、分割部21から与えられる各音楽部分区間データ及び各会話部分区間データを、それぞれ別のデータファイルとして順次記録するようにして、番組データを各区間毎に分割して記録すると共に、操作部12を介してラジオ番組の録音終了が要求されると、かかるラジオ番組分割録音処理を終了する。
このようにしてデータ記録装置10は、ラジオ番組分割録音処理時、番組データを、音楽部分区間データ及び会話部分区間データに分割して記録部15に記録する。従ってデータ記録装置10は、記録した番組データを再生するとき、ユーザに対し、番組データの先頭から順に再生して当該番組データの内容を確認させること無しに、分割して記録されている音楽部分区間データ及び会話部分区間データに直接アクセスして再生するだけで、ユーザに対し、音楽部分区間データ及び会話部分区間データの内容を確認させることができる。
(1−4)番組データの区間の特定
次いで、区間特定部20において、曲らしさMSと音量レベルVSとに応じて、番組データの中に混在している音楽部分区間と会話部分区間とを特定する方法について詳述する。
まず、図3を用いて、区間特定部20の機能的な回路構成を説明する。区間特定部20には、区間特定制御部31が設けられており、この区間特定制御部31が区間特定部内での信号及びデータの受け渡しを統括して制御すると共に、番組データの中で音楽部分区間と会話部分区間とを最終的に特定して区間特定情報DIを生成する。
また区間特定部20には、入力処理部32が設けられている。かかる入力処理部32は、曲らしさ検出部18から送出される曲らしさMSと、音量レベル検出部19から送出される音量レベルVSとの入力を受け付けると共に、当該入力を受け付けた曲らしさMSと音量レベルVSとを所定の単位処理データ毎に区間特定制御部31に送出する。
さらに区間特定部20には、曲らしさ解析処理部33が設けられている。かかる曲らしさ解析処理部33は、区間特定制御部31を介して得た曲らしさMSが、所定の判別閾値以上に変化する、又は判別閾値未満に変化する(以下、曲らしさMSが判別閾値以上に変化する、又は曲らしさMSが未満に変化することを、単に、曲らしさMSが判別閾値を越えるとも言う)ことを検出し、かかる検出結果を区間特定制御部31に送出する。
さらに区間特定部20には、音量レベル解析処理部34が設けられている。かかる音量レベル解析処理部34は、区間特定制御部31を介して得た音量レベルVSに応じて、番組データでのラジオ番組における音量レベルを解析する。具体的には、音量レベル解析処理部34は、区間特定制御部31の制御により番組データの所定の範囲内で音量レベルが最も低い位置(以下、これを最低音量レベル位置と呼ぶ)LLを検出したり、所定の閾値よりも低い音量レベルVS(すなわち無音)を所定の時間(例えば1.5秒)以上のあいだ継続する区間(以下、これを無音区間と呼ぶ)LSを検出して、その検出結果を区間特定制御部31に送出する。ちなみにこの最低音量レベル位置LL及び無音区間LSは、番組データの中で各区間同士が切り換わる位置(すなわち境界)である可能性が高く、区間の特定の重要な手がかりとなる。
さらに区間特定部20には、出力処理部35が設けられている。かかる出力処理部35は、区間特定制御部31が生成する区間の特定結果としての区間特定情報DIを取得して分割部21に送出する。
これにより区間特定部20において区間特定制御部31は、入力処理部32に対して曲らしさMSと音量レベルVSとが入力されると、曲らしさMSを曲らしさ解析処理部33に送出すると共に、音量レベルVSを音量レベル解析処理部34にも送出する。曲らしさ解析処理部33は、区間特定制御部31の制御により、曲らしさMSが判別閾値を越えることを検出して、その検出結果を区間特定制御部31に送出する。音量レベル解析処理部34は、区間特定制御部31の制御により、最低音量レベル位置LL及び無音区間LSを検出して、その検出結果を区間特定制御部31に送出する。このようにして区間特定制御部31は、例えば図4に示すような、処理時間軸AX1に沿って変化する曲らしさMSと音量レベルVSとを得る。
ここで区間特定制御部31による番組データの中の区間特定の手法としては、例えば4種類があり、選択することにより、任意の区間特定の手法を実行できるようになされている。以下、第1〜第4の区間特定の手法について順に説明する。
第1の区間特定の手法の場合、区間特定制御部31は、音楽部分区間と会話部分区間とを特定する際に、図5に示すように、曲らしさMSに応じた第1の状態から第4の状態までの4つの処理状態を取るようになされており、曲らしさ解析処理部33から送出される曲らしさMSに応じてかかる4つの処理状態の間を遷移するようになされている。第1の状態は、現時点の曲らしさMSが、判別閾値(例えば、かかる構成の場合、曲らしさMSは0〜1までの数値で表され、判別閾値は例えば0.5である)未満であることに応じて、番組データの中の当該曲らしさMSに対応する部分が会話部分区間である(すなわち、ラジオ番組の中の会話である)と確定している状態(以下、これを会話確定状態TDと呼ぶ)である。第2の状態は、会話確定状態TDにおいて曲らしさMSが判別閾値以上になったときに、番組データの中の当該曲らしさMSに対応する部分が会話部分区間から音楽部分区間に切り換わった可能性がある(すなわち、ラジオ番組の中で会話が一旦終了して音楽が流され始めた可能性がある)と仮定して、区間の境界の有無を判別するために会話確定状態TDから一旦遷移する処理状態(以下、これを音楽仮定状態MKと呼ぶ)である。第3の状態は、現時点の曲らしさMSが判別閾値以上であることに応じて、番組データの中の当該曲らしさMSに対応する部分が音楽部分区間である(すなわち、ラジオ番組の中の音楽である)と確定している状態(以下、これを音楽確定状態MDと呼ぶ)である。第4の状態は、音楽確定状態MDにおいて曲らしさMSが判別閾値未満になったときに、番組データの中の当該曲らしさMSに対応する部分が音楽部分区間から会話部分区間に切り換わった可能性がある(すなわち、ラジオ番組の中で音楽が一旦終了して会話が流され始めた可能性がある)と仮定して、区間の境界の有無を判別するために音楽確定状態MDから一旦遷移する処理状態(以下、これを会話仮定状態TKと呼ぶ)である。
これにより区間特定制御部31は、会話確定状態TD及び音楽確定状態MDにおいて曲らしさMSが判別閾値を越えることを起点として処理状態を遷移することにより、番組データの音楽部分区間と会話部分区間とを特定するようになされている。以下、会話確定状態TDにおいて曲らしさMSが判別閾値以上に変化する場合と、音楽確定状態MDにおいて曲らしさMSが判別閾値未満に変化する場合とに話を分けて説明する。
(1−4−1)会話確定状態において曲らしさが判別閾値以上に変化する場合
まず区間特定制御部31は、例えば図4に示すように、判別閾値未満の曲らしさMSが曲らしさ解析処理部33から送出されると、ラジオ番組の会話であると判別して、処理状態を会話確定状態TDに遷移すると共に、曲らしさ解析処理部33から新たに送出される曲らしさMSが判別閾値未満である限りは、会話確定状態TDを継続する。また区間特定制御部31は、会話確定状態TDにおいて、新たに曲らしさ解析処理部33から送出される曲らしさMSが判別閾値以上になった場合には、ラジオ番組の中で会話が終了して音楽が流され始めた可能性があることに応じて、番組データの中で会話部分区間が音楽部分区間へと切り換わった範囲を曲らしさMSにより検出することを起点として番組データの中で会話部分区間と音楽部分区間とを特定する第1の範囲検出区間特定処理を開始する。
区間特定制御部31は、かかる第1の範囲検出区間特定処理を開始すると、番組データ上の曲らしさMSが判別閾値以上に変化することに応じ、処理状態を遷移する基準位置(以下、これを状態遷移位置と呼ぶ)SPを中心として処理時間軸AX1で前後に数秒程度の幅をもった範囲を、番組データの中で会話部分区間から音楽部分区間へと切り換わった境界である可能性が高い範囲(以下、これを区間境界候補範囲と呼ぶ)SAとして検出する。そして区間特定制御部31は、当該検出した区間境界候補範囲SAにおいて、最低音量レベル位置LLを音量レベル解析処理部34により検出すると共に、当該検出した最低音量レベル位置LLを、番組データの中で会話部分区間から音楽部分区間へと区間が切り換わった境界である可能性が高い位置(以下、これを区間境界候補位置と呼ぶ)KPとして図示しないメモリに記憶する。そして区間特定制御部31は、処理状態を会話確定状態TDから音楽仮定状態MKに遷移する。
区間特定制御部31は、音楽仮定状態MKにおいて、所定の判別時間(以下、これを音楽仮定判別時間と呼ぶ)の間、曲らしさ解析処理部33から送出される曲らしさMSの数値が判別閾値以上であるか否かを監視する。この音楽仮定判別時間は、例えば、ラジオ番組の会話中に短時間だけ挿入されたベル音や音楽の一部分を、番組データの音楽部分区間として特定しない程度の時間長に設定されている(この場合、例えば30秒)。
区間特定制御部31は、音楽仮定状態MKにおいて、かかる音楽仮定状態MKを継続している時間(以下、これを音楽仮定継続時間と呼ぶ)Tmを計時して音楽仮定判別時間以上に変化するまでの間に、曲らしさ解析処理部33から送出される新たな曲らしさMSの数値が判別閾値未満に変化した場合、これは例えばラジオ番組の会話部分にベル音や音楽の一部分が短時間だけ挿入されたことに応じて曲らしさMSが短時間だけ判別閾値以上になっただけであると判別し、処理状態を音楽仮定状態MKから会話確定状態TDに戻すように遷移する。また、区間特定制御部31は、音楽仮定状態MKにおいて、音楽仮定継続時間Tmが音楽仮定判別時間以上に変化するまでの間、曲らしさ解析処理部33から判別閾値以上の曲らしさMSが継続して与えられている場合には、判断を保留して音楽仮定状態MKを継続する。さらに区間特定制御部31は、音楽仮定状態MKにおいて、曲らしさMSの数値が判別閾値以上を継続したまま音楽仮定継続時間Tmが音楽仮定判別時間以上になった場合には、ラジオ番組の中で会話が一旦終了して音楽が流され始めたと判別し、区間境界候補位置KPを区間境界と特定して、番組データの中で、区間境界よりも時系列的に手前側を会話部分区間と特定すると共に区間境界よりも時系列的に後ろ側を音楽部分区間と特定する。そして区間特定制御部31は、処理状態を音楽仮定状態MKから音楽確定状態MDに遷移して第1の範囲検出区間特定処理を終了すると共に、区間の特定結果としての区間特定情報DIを生成して出力処理部35を介して分割部21へ送出する。
このようにして区間特定制御部31は、第1の範囲検出区間特定処理時、曲らしさMSと音量レベルVSとに応じて、番組データの会話部分区間と音楽部分区間とを特定する。すなわち区間特定制御部31は、番組データの中で会話部分区間と音楽部分区間とが切り換わったことは検出できるものの、番組データの会話部分区間と音楽部分区間との間の具体的な境界を特定し難い曲らしさMSと、番組データの会話部分区間と音楽部分区間との間の具体的な境界は特定できるものの、番組データの会話部分区間と音楽部分区間とが切り換わったことは検出し難い音量レベルVSとに応じて、番組データの会話部分区間と音楽部分区間とを特定するようにしたことにより、番組データの会話部分区間と音楽部分区間とを高精度に特定することができる。
また区間特定制御部31は、第1の範囲検出区間特定処理時、曲らしさMSが判別閾値以上に変化することに応じて区間境界候補範囲SAを検出すると共に、当該区間境界候補範囲SAの中で音量レベルVSが低くなることに応じて区間境界候補位置KPを検出するようにして、番組データの会話部分区間から音楽部分区間へと切り換わった位置を特定する。従って区間特定制御部31は、ラジオ番組の会話と音楽とが無音区間LSを挟むことなく切り換わる場合や、ラジオ番組の会話と音楽とが一部分だけ重なって切り換わるような場合に、音楽だけが流され始めた位置で音量レベルVSの変動があれば、そのラジオ番組の中で会話から音楽への間断無い切り換えの範囲を、曲らしさMSが判別閾値以上に変化したことに応じて検出すると共に、当該検出した範囲の中で、ラジオ番組の中で音楽だけが流され始めた位置を、音量レベルVSが低くなることに応じて検出して、番組データの会話部分区間と音楽部分区間とを特定することができる。またその場合、区間特定制御部31は、番組データの、最終的に特定した音楽部分区間の先頭に会話部分区間の後尾が含まれてしまうことを回避することができる。
さらに区間特定制御部31は、第1の範囲検出区間特定処理時、曲らしさMSが判別閾値以上に変化したことに応じて処理状態を会話確定状態TDから音楽仮定状態MKに遷移するものの、音楽仮定判別時間が経過するまでの間に曲らしさMSが判別閾値未満に変化すれば、ラジオ番組の中で会話が継続していると判別して、処理状態を音楽仮定状態MKから会話確定状態TDに戻す。従って区間特定制御部31は、ラジオ番組の会話中にベル音や音楽の一部分等が短時間だけ挿入されたような場合に、当該挿入された短時間の音楽に対応する番組データの区間を音楽部分区間として特定せずに会話部分区間の一部とすることができ、単純に音楽か会話かで番組データの音楽部分区間と会話部分区間とを特定するのではなく、ラジオ番組の中の会話や音楽として意味を成すまとまりとなるように、番組データの音楽部分区間と会話部分区間とを特定することができる。
(1−4−2)音楽確定状態時に曲らしさが判別閾値未満に変化する場合
次に区間特定制御部31は、例えば図6に示すように、判別閾値以上の曲らしさMSが曲らしさ解析処理部33から送出されると、ラジオ番組の音楽であると判別して、処理状態を音楽確定状態MDに遷移すると共に、曲らしさ解析処理部33から新たに送出される曲らしさMSが判別閾値以上である限りは、音楽確定状態MDを維持する。また区間特定制御部31は、音楽確定状態MDにおいて、新たに曲らしさ解析処理部33から送出される曲らしさMSが判別閾値未満になった場合には、ラジオ番組の中で音楽が終了して会話が流され始めた可能性があることに応じて、番組データの中で音楽部分区間が会話部分区間へと切り換わった範囲を曲らしさMSにより検出することを起点として番組データの音楽部分区間と会話部分区間とを特定する第2の範囲検出区間特定処理を開始する。
区間特定制御部31は、かかる第2の範囲検出区間特定処理を開始すると、番組データ上の状態遷移位置SPを中心として処理時間軸AX1で前後に数秒程度の幅をもった区間境界候補範囲SAを検出する。また区間特定制御部31は、当該検出した区間境界候補範囲SAにおいて、最低音量レベル位置LLを音量レベル解析処理部34により検出すると共に、当該検出した最低音量レベル位置LLを区間境界候補位置KPとして図示しないメモリに記憶する。そして区間特定制御部31は、処理状態を音楽確定状態MDから会話仮定状態TKに遷移する。
区間特定制御部31は、会話仮定状態TKにおいて、所定の判別時間(以下、これを会話仮定判別時間と呼ぶ)の間、曲らしさ解析処理部33から送出される曲らしさMSの数値が判別閾値未満であるか否かを監視する。この会話仮定判別時間は、例えば、ヒップホップ等のジャンルの音楽の中に短時間だけ挿入された歌手のセリフを、番組データの会話部分区間として特定しない程度の時間長に設定されている(この場合、例えば20秒)。
区間特定制御部31は、会話仮定状態TKにおいて、かかる会話仮定状態TKを継続している時間(以下、これを会話仮定継続時間と呼ぶ)Tnを計時して会話仮定判別時間以上に変化するまでの間に、曲らしさ解析処理部33から送出される新たな曲らしさMSの数値が判別閾値以上に変化した場合、これは、例えばラジオ番組の音楽の中に短時間だけ歌手のセリフが挿入されたことに応じて曲らしさMSが短時間だけ判別閾値未満になっただけであると判別し、処理状態を会話仮定状態TKから音楽確定状態MDに戻すように遷移する。また、区間特定制御部31は、会話仮定状態TKにおいて、会話仮定継続時間Tnが会話仮定判別時間以上に変化するまでの間、曲らしさ解析処理部33から判別閾値未満の曲らしさMSが継続して与えられている場合には、判断を保留して会話仮定状態TKを継続する。さらに区間特定制御部31は、会話仮定状態TKにおいて、曲らしさMSの数値が判別閾値未満を維持したまま会話仮定継続時間Tnが会話仮定判別時間以上になった場合には、ラジオ番組の中で音楽が一旦終了して会話が流され始めたと判別し、区間境界候補位置KPを区間境界と特定して、番組データの中で、区間境界よりも時系列的に手前側を音楽部分区間と特定すると共に区間境界よりも時系列的に後ろ側を会話部分区間と特定する。そして区間特定制御部31は、処理状態を会話仮定状態TKから会話確定状態TDに遷移して第2の範囲検出区間特定処理を終了すると共に、区間の特定結果としての区間特定情報DIを生成して出力処理部35を介して分割部21へ送出する。
このようにして区間特定制御部31は、第2の範囲検出区間特定処理時、曲らしさMSと音量レベルVSとに応じて、番組データの音楽部分区間と会話部分区間とを特定する。すなわち区間特定制御部31は、番組データの中で音楽部分区間と会話部分区間とが切り換わったことは検出できるものの、番組データの音楽部分区間と会話部分区間との間の具体的な境界を特定し難い曲らしさMSと、番組データの音楽部分区間と会話部分区間との間の具体的な境界は特定できるものの、番組データの音楽部分区間と会話部分区間とが切り換わったことは検出し難い音量レベルVSとに応じて、番組データの音楽部分区間と会話部分区間とを特定するようにしたことにより、番組データの音楽部分区間と会話部分区間とを高精度に特定することができる。
また区間特定制御部31は、第2の範囲検出区間特定処理時、曲らしさMSが判別閾値未満に変化することに応じて区間境界候補範囲SAを検出すると共に、当該区間境界候補範囲SAの中で音量レベルVSが低くなることに応じて区間境界候補位置KPを検出するようにして、番組データの音楽部分区間から会話部分区間へと切り換わった境界を特定する。従って区間特定制御部31は、ラジオ番組の音楽と会話とが無音区間LSを挟むことなく切り換わる場合や、ラジオ番組の音楽と会話とが一部分だけ重なって切り換わるような場合に、会話が流され始めた位置で音量レベルVSの変動があれば、そのラジオ番組の音楽から会話への間断無い切り換えの範囲を、曲らしさMSが判別閾値未満に変化したことに応じて検出すると共に、当該検出した範囲の中で、ラジオ番組の中で会話が流され始めた位置(すなわち、ラジオ番組の中で音楽だけが流されている区間が終了した位置)を、音量レベルVSが低くなることに応じて検出して、番組データの音楽部分区間と会話部分区間とを特定することができる。またその場合、区間特定制御部31は、番組データの、最終的に特定した音楽部分区間の後尾に会話部分区間の先頭が含まれてしまうことを回避することができる。
さらに区間特定制御部31は、第2の範囲検出区間特定処理時、曲らしさMSが判別閾値未満に変化したことに応じて処理状態を音楽確定状態MDから会話仮定状態TKに遷移するものの、会話仮定判別時間が経過するまでの間に曲らしさMSが判別閾値以上に変化すれば、ラジオ番組の中で音楽が継続していると判別して、処理状態を会話仮定状態TKから音楽確定状態MDに戻す。従って区間特定制御部31は、ラジオ番組の音楽中に歌手のセリフ等が短時間だけ挿入されたような場合に、当該挿入された短時間のセリフに対応する番組データの区間を会話部分区間として特定せずに音楽部分区間の一部とすることができ、単純に会話か音楽かで番組データの会話部分区間と音楽部分区間とを特定するのではなく、ラジオ番組の中の音楽や会話として意味を成すまとまりとなるように、番組データの会話部分区間と音楽部分区間とを特定することができる。
(1−5)無音区間の検出を起点とする番組データの各区間の特定
次に、第2の区間特定の手法の場合、区間特定制御部31は、図7及び図8に示すように、上述した第1の区間特定の手法の4つの処理状態(会話確定状態TD、会話仮定状態TK、音楽確定状態MD及び音楽仮定状態MK)の他に、新たに2つの処理状態を取り得るようになされている。一方の状態は、会話確定状態TDにおいて無音区間LSを検出した場合に、これから曲らしさMSが判別閾値以上に変化する可能性がある(すなわち、ラジオ番組の中で会話が終了して音楽が開始する可能性がある)と仮定して、会話確定状態TDから音楽仮定状態MKへと遷移する前段階として一時的に遷移する状態(以下、これを音楽仮定待機状態と呼ぶ)MKTである(図7)。他方の状態は、音楽確定状態MDにおいて無音区間LSを検出した場合に、これから曲らしさMSが判別閾値未満に変化する可能性がある(すなわち、ラジオ番組の音楽が終了して会話が開始する可能性がある)と仮定して、音楽確定状態MDから会話仮定状態TKへと遷移する前段階として一時的に遷移する状態(以下、これを会話仮定待機状態と呼ぶ)TKTである(図8)。
これにより区間特定制御部31は、会話確定状態TDにおいて無音区間LSを検出する、又は音楽確定状態MDにおいて無音区間LSを検出することを起点として処理状態を遷移することにより、番組データの音楽部分区間と会話部分区間とを特定できるようになされている。以下、会話確定状態TDにおいて無音区間LSを検出した場合(図7)と、音楽確定状態MDにおいて無音区間LSを検出した場合(図8)とに話を分けて説明する。
(1−5−1)会話確定状態時に無音区間を検出した場合
まず、区間特定制御部31は、例えば図9に示すように、判別閾値未満の曲らしさMSが曲らしさ解析処理部33から送出されると、ラジオ番組の会話であると判別して処理状態を会話確定状態TDに遷移すると共に、曲らしさ解析処理部33から新たに送出される曲らしさMSが判別閾値未満である限りは、会話確定状態TDを維持する。そして区間特定制御部31は、会話確定状態TDにおいて、音量レベル解析処理部34により無音区間LSを検出した場合には、ラジオ番組の会話が終了して音楽が開始する可能性があることに応じて、かかる無音区間LSの検出を起点として番組データの会話部分区間と音楽部分区間とを特定する第1の無音検出区間特定処理を開始する。
これにより区間特定制御部31は、かかる第1の無音検出区間特定処理を開始すると、音量レベル解析処理部34により音量レベルVSに応じて検出した無音区間LSの中で、音量レベルVSが有音レベルに立ち上がった位置を区間境界候補位置KPとして図示しないメモリに記憶する。そして区間特定制御部31は、処理状態を会話確定状態TDから音楽仮定待機状態MKTに遷移する。
区間特定制御部31は、音楽仮定待機状態MKTにおいて、所定の判別時間(以下、これを第1の待機判別時間と呼ぶ)の間、曲らしさ解析処理部33から送出される曲らしさMSの数値が判別閾値以上に変化するか否かを監視する。この第1の待機判別時間は、音楽仮定状態MKに遷移するまでの待機の時間なので、当該音楽仮定状態MKでの音楽仮定判別時間(30秒)よりも短く設定されている(この場合、例えば20秒)。
区間特定制御部31は、音楽仮定待機状態MKTにおいて、かかる音楽仮定待機状態MKTを継続している時間(以下、これを音楽仮定待機時間と呼ぶ)Trを計時して第1の待機判別時間以上になっても、曲らしさ解析処理部33から送出される新たな曲らしさMSの数値が判別閾値未満のままであった場合、これは例えば、ラジオ番組の会話中に単に無音が存在したことに応じて無音区間LSを検出しただけであると判別し、処理状態を音楽仮定待機状態MKTから会話確定状態TDに戻すように遷移する。また、区間特定制御部31は、音楽仮定待機状態MKTにおいて、音楽仮定待機時間Trが第1の待機判別時間以上に変化するまでの間、曲らしさ解析処理部33から判別閾値未満の曲らしさMSが継続して与えられている場合には、判断を保留して音楽仮定待機状態MKTを継続する。さらに区間特定制御部31は、音楽仮定待機状態MKTにおいて、音楽仮定待機時間Trが第1の待機判別時間以上に変化するまでの間に、曲らしさMSの数値が判別閾値以上に変化した場合には、ラジオ番組の中で会話が一旦終了して音楽が流され始めた可能性があると判別して、処理状態を音楽仮定待機状態MKTから音楽仮定状態MKに遷移する。
そして区間特定制御部31は、第1の無音検出区間特定処理時、処理状態を音楽仮定状態MKに遷移すると、上述した第1の範囲検出区間特定処理時と同様の処理を行うことにより、番組データの会話部分区間と音楽部分区間とを特定する。そして区間特定制御部31は、処理状態を音楽仮定状態MKから音楽確定状態MDに遷移して第1の無音検出区間特定処理を終了すると共に、区間の特定結果としての区間特定情報DIを生成して出力処理部35を介して分割部21へ送出する。
このようにして区間特定制御部31は、第1の無音検出区間特定処理時、音量レベルVSにより無音区間LSを検出することに応じて区間境界候補位置KPを検出し、その後、曲らしさMSが判別閾値以上に変化することに応じて、番組データの中で会話部分区間から音楽部分区間へと切り換わった位置(すなわち区間境界)を特定する。従って区間特定制御部31は、ラジオ番組の会話と音楽の間に無音区間LSが挿入されているような場合に、かかる無音区間LSを検出してから曲らしさMSの値を確認することで、番組データの会話部分区間と音楽部分区間とを精度良く特定することができる。
またこの場合、区間特定制御部31は、例えば、曲の出だしがとても静かだったり、低い音階だけしか使われていなかったりすることにより、曲らしさMSがゆっくりとしか上昇しないような音楽がラジオ番組に含まれている場合でも、かかる音楽の先頭に無音区間LSが含まれていれば、番組データの会話部分区間と音楽部分区間とを特定することができる。
さらに区間特定制御部31は、第1の無音検出区間特定処理時、音量レベル解析処理部34により検出した無音区間LSの立ち上がり位置を区間境界候補位置KPとして検出するようにしたことにより、最終的に特定される音楽部分区間の先頭に含まれる無音部分を極力少なくして、後に再生するときの聴き心地を向上させることができる。
さらに区間特定制御部31は、第1の無音検出区間特定処理時、無音区間LSを検出したことに応じて処理状態を会話確定状態TDから音楽仮定待機状態MKTに遷移するものの、音楽仮定待機時間Trが経過するまでの間に曲らしさMSが判別閾値以上に変化しなければ、ラジオ番組の会話が継続していると判別して、処理状態を音楽仮定待機状態MKTから会話確定状態TDに戻すように遷移させる。すなわち区間特定制御部31は、ラジオ番組の会話中に無音部分が短時間だけ挿入されたような場合に、当該挿入された無音部分に惑わされること無く、会話部分区間が継続していると判別することができ、単純に無音区間LSがあるか無いかで番組データの音楽部分区間と会話部分区間とを特定するのではなく、ラジオ番組の中の会話や音楽として意味を成すまとまりとなるように、番組データの会話部分区間と音楽部分区間とを特定することができる。
(1−5−2)音楽確定状態時に無音区間を検出した場合
次に、区間特定制御部31は、例えば図10に示すように、判別閾値以上の曲らしさMSが曲らしさ解析処理部33から送出されると、ラジオ番組の音楽であると判別して処理状態を音楽確定状態MDに遷移すると共に、曲らしさ解析処理部33から新たに送出される曲らしさMSが判別閾値以上である限りは、音楽確定状態MDを維持する。そして区間特定制御部31は、音楽確定状態MDにおいて、音量レベル解析処理部34により無音区間LSを検出した場合には、ラジオ番組の中で音楽が終了して会話が流され始めた可能性があることに応じて、かかる無音区間LSの検出を起点として番組データの音楽部分区間と会話部分区間とを特定する第2の無音検出区間特定処理を開始する。
これにより区間特定制御部31は、かかる第2の無音検出区間特定処理を開始すると、音量レベル解析処理部34により音量レベルVSに応じて検出した無音区間LSの中で、音量レベルVSが有音レベルに立ち上がった位置を区間境界候補位置KPとして図示しないメモリに記憶する。そして区間特定制御部31は、処理状態を音楽確定状態MDから会話仮定待機状態TKTに遷移する。
区間特定制御部31は、会話仮定待機状態TKTにおいて、所定の判別時間(以下、これを第2の待機判別時間と呼ぶ)の間、曲らしさ解析処理部33から送出される曲らしさMSの数値が判別閾値未満に変化するか否かを監視する。この第2の待機判別時間は、会話仮定状態TKに遷移するまでの待機の時間なので、会話仮定状態TKでの会話仮定判別時間(20秒)よりも短く設定されている(この場合、例えば10秒)。
区間特定制御部31は、会話仮定待機状態TKTにおいて、かかる会話仮定待機状態TKTを継続している時間(以下、これを会話仮定待機時間と呼ぶ)Tsを計時して第2の待機判別時間以上に変化するまでの間、曲らしさ解析処理部33から判別閾値以上の曲らしさMSが継続して与えられている場合には、判断を保留して音楽仮定待機状態MKTを継続する。また区間特定制御部31は、会話仮定待機状態TKTにおいて、会話仮定待機時間Tsが第2の待機判別時間以上に変化するまでの間に、曲らしさMSの数値が判別閾値未満になった場合には、ラジオ番組の中で音楽が終了して会話が流され始めた可能性があると判別して、処理状態を会話仮定待機状態TKTから会話仮定状態TKに遷移する。
そして区間特定制御部31は、第2の無音検出区間特定処理時、処理状態を会話仮定状態TKに遷移すると、上述した第2の範囲検出区間特定処理時と同様の処理を行うことにより、番組データの音楽部分区間と会話部分区間とを特定し、処理状態を会話仮定状態TKから会話確定状態TDに遷移する。
一方、区間特定制御部31は、例えば図11に示すように、無音区間LSを検出して会話仮定待機状態TKTに遷移したとき、会話仮定待機時間Tsが第2の待機判別時間以上に変化するまでの間に、曲らしさ解析処理部33から送出される新たな曲らしさMSの数値が判別閾値未満に変化しなかった場合、ラジオ番組の音楽(すなわち曲)が無音区間LSで次の曲に切り換わったと判別し、区間境界候補位置KPを区間境界と特定すると共に、番組データの、区間境界よりも時系列的に手前側と後ろ側とをそれぞれ別の音楽部分区間と特定する。そして区間特定制御部31は、会話仮定待機状態TKTから音楽確定状態MDに戻すように遷移して第1の無音検出区間特定処理を終了すると共に、区間の特定結果としての区間特定情報DIを生成して出力処理部35を介して分割部21へ送出する。
このようにして区間特定制御部31は、第2の無音検出区間特定処理時、音量レベルVSにより無音区間LSを検出することに応じて区間境界候補位置KPを検出し、その後、曲らしさMSが判別閾値未満に変化することに応じて、番組データの音楽部分区間から会話部分区間へと切り換わった位置(すなわち区間境界)を特定する。従って区間特定制御部31は、ラジオ番組の音楽と会話との間に無音区間LSが挿入されているような場合に、かかる無音区間LSを検出してから曲らしさMSの値を確認することで、番組データの音楽部分区間と会話部分区間とを精度良く特定することができる。
またこの場合、区間特定制御部31は、例えばバックグラウンドミュージックが重なって流れていることにより、曲らしさMSがゆっくりとしか下がらないような会話がラジオ番組に含まれている場合でも、かかる会話の先頭に無音区間LSが含まれていれば、番組データの音楽部分区間と会話部分区間とを特定することができる。
さらに区間特定制御部31は、第2の無音検出区間特定処理時、音量レベル解析処理部34により検出した無音区間LSの立ち上がり位置を区間境界候補位置KPとして検出するようにしたことにより、最終的に特定される会話部分区間の先頭に含まれる無音部分を極力少なくして、後に再生するときの聴き心地を向上させることができる。
さらに区間特定制御部31は、第2の無音検出区間特定処理時、無音区間LSを検出したことに応じて処理状態を会話確定状態TDから会話仮定待機状態TKT遷移するものの、会話仮定待機時間Tsが経過するまでの間に曲らしさMSが判別閾値未満に変化しなければ、ラジオ番組の音楽が無音区間LSで次の音楽に切り換わったと判別して、区間切換候補位置KPを区間境界と特定し、番組データの、区間境界よりも時系列的に手前側と後ろ側とをそれぞれ別の音楽部分区間として特定する。すなわち区間特定制御部31は、ラジオ番組に無音部分を挟んで複数の音楽が連続して挿入されているような場合、かかる連続する複数の音楽を1つの音楽として誤検出することなく、1曲の意味のあるまとまりとしての音楽をそれぞれ検出することができる。
(1−6)無音区間の誤検出防止
次に、第3の区間特定の手法の場合、区間特定制御部31の内部は、図12及び図13に示すように、上述した第1の区間特定の手法の4つの処理状態(会話確定状態TD、会話仮定状態TK、音楽確定状態MD及び音楽仮定状態MK)の他に、新たに2つの処理状態を取り得るようになされている。一方の状態は、音楽仮定状態MKにおいて無音区間LSを検出した場合に、これから曲らしさMSが判別閾値未満に戻る可能性がある(すなわち、ラジオ番組の中で会話の途中に挿入された無音部分を検出してしまった可能性がある)と仮定して、音楽仮定状態MKから会話確定状態TDへと戻る前段階として一時的に遷移する状態(以下、これを会話確定待機状態と呼ぶ)TDTである(図12)。他方の状態は、会話仮定状態TKにおいて無音区間LSを検出した場合に、これから曲らしさMSが判別閾値以上に戻る可能性がある(すなわち、ラジオ番組の中で音楽の途中に挿入された無音部分を検出してしまった可能性がある)と仮定して、会話仮定状態TKから音楽確定状態MDへと戻る前段階として一時的に遷移する状態(以下、これを音楽確定待機状態と呼ぶ)MDTである(図13)。
これにより区間特定制御部31は、音楽仮定状態MKにおいて無音区間LSを検出する又は会話仮定状態TKにおいて無音区間LSを検出した場合に、当該検出した無音区間LSが、番組データの音楽部分区間または会話部分区間の一部として挿入されただけであるか否かを判別できるようになされている。以下、音楽仮定状態MKにおいて無音区間LSを検出した場合(図12)と、会話仮定状態TKにおいて無音区間LSを検出した場合(図13)とに話を分けて説明する。
(1−6−1)音楽仮定状態時に無音区間を検出した場合
まず、区間特定制御部31は、例えば図14に示すような曲らしさMS及び無音区間LSが与えられると、上述した第1の範囲検出区間特定処を開始する。そして区間特定制御部31は、かかる第1の範囲検出区間特定処において処理状態が音楽仮定状態MKにあるとき、音量レベル解析処理部34により無音区間LSを検出すると、ラジオ番組の会話の途中に挿入された無音部分を検出してしまった可能性があることに応じて、当該検出した無音区間LSを番組データの会話部分区間の一部であるか否かを判別する第1の無音区間判別処理を開始する。
これにより区間特定制御部31は、かかる第1の無音区間判別処理を開始すると、処理状態を音楽仮定状態MKから会話確定待機状態TDTに遷移する。このとき区間特定制御部31は、音楽仮定状態MKにおいて行っていた音楽仮定継続時間Tmの計時を継続する。区間特定制御部31は、会話確定待機状態TDTにおいて、所定の判別時間(以下、これを第3の待機判別時間と呼ぶ)の間に、曲らしさ解析処理部33から送出される曲らしさMSの数値が判別閾値未満に変化するか否かを監視する。この第3の待機判別時間は、会話確定待機状態TDTが音楽仮定状態MKを一時的に保留するようにして遷移した状態であることにより、音楽仮定状態MKでの音楽仮定判別時間(30秒)よりも短く設定されている(この場合、例えば20秒)。
区間特定制御部31は、会話確定待機状態TDTにおいて、かかる会話確定待機状態TDTを継続している時間(以下、これを会話確定待機時間と呼ぶ)Ttを計時して第3の待機判別時間以上に変化するまでの間に、曲らしさ解析処理部33から送出される新たな曲らしさMSの数値が判別閾値未満になった場合、これは例えば、ラジオ番組の会話中に単に無音が存在したことに応じて無音区間LSを検出しただけであると判別し、処理状態を会話確定待機状態TDTから会話確定状態TDに遷移する。また、区間特定制御部31は、会話確定待機状態TDTにおいて、会話確定待機時間Ttが第3の待機判別時間以上に変化するまでの間、曲らしさ解析処理部33から判別閾値以上の曲らしさMSが継続して与えられている場合には、判断を保留して会話確定待機状態TDTを継続する。さらに区間特定制御部31は、会話確定待機状態TDTにおいて、会話確定待機時間Ttが第3の待機判別時間以上、且つ音楽仮定状態MK開始から計時している音楽仮定継続時間Tmが音楽仮定判別時間以上で、判別閾値以上の曲らしさMSが曲らしさ解析処理部33から継続して与えられている場合には、ラジオ番組の中で会話が終了して音楽が流され始めたと判別し、区間切換候補位置KPを区間境界と特定して、番組データの、区間境界よりも時系列的に手前側を会話部分区間と特定すると共に区間境界よりも時系列的に後ろ側を音楽部分区間と特定して、処理状態を会話確定待機状態TDTから音楽確定状態MDに遷移する。一方、区間特定制御部31は、会話確定待機状態TDTにおいて、会話確定待機時間Ttが第3の待機判別時間以上、且つ音楽仮定状態MK開始から計時している音楽仮定継続時間Tmが音楽仮定判別時間未満で、判別閾値以上の曲らしさMSが曲らしさ解析処理部33から継続して与えられている場合には、ラジオ番組の中で会話が終了して音楽が流され始めた可能性があると判別して、処理状態を会話確定待機状態TDTから音楽仮定状態MKに遷移する。
そして区間特定制御部31は、第1の無音区間判別処理時、処理状態を音楽仮定状態MKに遷移すると、上述した第1の範囲検出区間特定処理時と同様の処理を行うことにより、番組データの会話部分区間と音楽部分区間とを特定する。そして区間特定制御部31は、処理状態を音楽仮定状態MKから音楽確定状態MDに遷移して第1の無音検出区間特定処理を終了すると共に、区間の特定結果としての区間特定情報DIを生成して出力処理部35を介して分割部21へ送出する。
このようにして区間特定制御部31は、第1の無音区間判別処理時、会話確定待機状態TDTにおいて曲らしさMSが判別閾値未満に変化すると、検出した無音区間LSがラジオ番組の中で会話の一部として挿入されたものであると判別する。従って区間特定制御部31は、例えばラジオ番組の会話中に無音部分が挿入されているような場合に、当該挿入された無音部分に惑わされることなく処理を継続し、番組データの音楽部分区間と会話部分区間とを適切に特定することができる。これに対し、区間特定制御部31は、第1の無音区間判別処理時、会話確定待機状態TDTにおいて曲らしさMSが判別閾値未満にならなければ、検出した無音区間LSを無視して上述した第1の範囲検出区間特定処理と同様にして処理を継続することで、番組データの会話部分区間と音楽部分区間とを特定することができる。
(1−6−2)会話仮定状態時に無音区間を検出した場合
次に、区間特定制御部31は、例えば図15に示すような曲らしさMS及び無音区間LSが与えられると、上述した第2の範囲検出区間特定処を開始する。そして区間特定制御部31は、かかる第2の範囲検出区間特定処において処理状態が会話仮定状態TKにあるとき、音量レベル解析処理部34により無音区間LSを検出すると、ラジオ番組の音楽の途中に挿入された無音部分を検出してしまった可能性があることに応じて、当該検出した無音区間LSを番組データの音楽部分区間の一部であるか否かを判別する第2の無音区間判別処理を開始する。
これにより区間特定制御部31は、かかる第2の無音区間判別処理を開始すると、処理状態を音楽仮定状態MKから音楽確定待機状態MDTに遷移する。このとき区間特定制御部31は、会話仮定状態TKにおいて行っていた会話仮定継続時間Tnの計時を継続する。区間特定制御部31は、音楽確定待機状態MDTにおいて、所定の判別時間(以下、これを第4の待機判別時間と呼ぶ)の間に、曲らしさ解析処理部33から送出される曲らしさMSの数値が判別閾値以下になるか否かを監視する。この第4の待機判別時間は、音楽確定待機状態MDTが会話仮定状態TKを一時的に保留するようにして遷移した状態であることにより、会話仮定状態TKでの会話仮定判別時間(20秒)よりも短く設定されている(この場合、例えば10秒)。
区間特定制御部31は、音楽確定待機状態MDTにおいて、かかる音楽確定待機状態MDTを継続している時間(以下、これを音楽確定待機時間と呼ぶ)Tuを計時して第4の待機判別時間以上に変化するまでの間に、曲らしさ解析処理部33から送出される新たな曲らしさMSの数値が判別閾値以上になった場合、これは例えば、ラジオ番組の音楽中に曲の一部として無音が存在したことに応じて無音区間LSを検出しただけであると判別し、処理状態を音楽確定待機状態MDTから音楽確定状態MDに遷移する。また、区間特定制御部31は、音楽確定待機状態MDTにおいて、音楽確定待機時間Tuが第4の待機判別時間以上に変化するまでの間、曲らしさ解析処理部33から判別閾値未満の曲らしさMSが継続して与えられている場合には、判断を保留して音楽確定待機状態MDTを継続する。さらに区間特定制御部31は、音楽確定待機状態MDTにおいて、音楽確定待機時間Tuが第4の待機判別時間以上、且つ会話仮定状態TK開始から計時している会話仮定継続時間Tnが会話仮定判別時間以上で、判別閾値未満の曲らしさMSが曲らしさ解析処理部33から継続して与えられている場合には、ラジオ番組の中で音楽が一旦終了して会話が流され始めたと判別し、区間切換候補位置KPを区間境界と特定して、番組データの、区間境界よりも時系列的に手前側を音楽部分区間と特定すると共に区間境界よりも時系列的に後ろ側を会話部分区間と特定して、処理状態を音楽確定待機状態MDTから会話確定状態TDに遷移する。一方、区間特定制御部31は、音楽確定待機状態MDTにおいて、音楽確定待機時間Tuが第4の待機判別時間以上、且つ会話仮定状態TK開始から計時している会話仮定継続時間Tnが会話仮定判別時間未満で、判別閾値未満の曲らしさMSが曲らしさ解析処理部33から継続して与えられている場合には、ラジオ番組の中で音楽が一旦終了して会話が流され始めた可能性があると判別し、処理状態を音楽確定待機状態MDTから会話仮定状態TKに遷移する。
そして区間特定制御部31は、第2の無音区間判別処理時、処理状態を会話仮定状態TKに遷移すると、上述した第2の範囲検出区間特定処理時と同様の処理を行うことにより、番組データの音楽部分区間と会話部分区間とを特定する。そして区間特定制御部31は、処理状態を会話仮定状態TKから会話確定状態TDに遷移して第2の無音検出区間特定処理を終了すると共に、区間の特定結果としての区間特定情報DIを生成して出力処理部35を介して分割部21へ送出する。
このようにして区間特定制御部31は、第2の無音区間判別処理時、音楽確定待機状態MDTにおいて曲らしさMSが判別閾値以上に変化すると、検出した無音区間LSがラジオ番組の中で音楽の一部として挿入されたものであると判別する。従って区間特定制御部31は、例えばラジオ番組の音楽中(つまり曲中)に無音部分が挿入されているような場合に、当該挿入された無音部分に惑わされることなく処理を継続し、番組データの音楽部分区間と会話部分区間とを適切に特定することができる。これに対し、区間特定制御部31は、第2の無音区間判別処理時、音楽確定待機状態MDTにおいて曲らしさMSが判別閾値以上にならなければ、検出した無音区間LSを無視して上述した第2の範囲検出区間特定処理と同様にして処理を継続することで、番組データの会話部分区間と音楽部分区間とを特定することができる。
(1−7)比較的長い無音区間の誤検出防止
次に、第4の区間特定の手法の場合、区間特定制御部31の内部は、図16及び図17に示すように、上述した第1の区間特定の手法の4つの処理状態(会話確定状態TD、会話仮定状態TK、音楽確定状態MD及び音楽仮定状態MK)の他に、新たに2つの処理状態を取り得るようになされている。一方の状態は、会話確定状態TDにおいて、無音区間LSを検出中に曲らしさMSが判別閾値以上に変化した場合に、いつ無音から有音に切り換わるかわからない(すなわち、ラジオ番組の中で音楽が流され始めるまで時間がかかる可能性がある)と仮定して、会話確定状態TDから音楽仮定状態MKへと遷移することを一時的に保留する状態(以下、これを音楽仮定保留状態と呼ぶ)MKHである(図16)。他方の状態は、音楽確定状態MDにおいて、無音区間LSを検出中に曲らしさMSが判別閾値未満に変化した場合に、いつ無音から有音に切り換わるかわからない(すなわち、ラジオ番組の中で会話が流され始めるまで時間がかかる可能性がある)と仮定して、音楽確定状態MDから会話仮定状態TKへと遷移することを一時的に保留する状態(以下、これを会話仮定保留状態と呼ぶ)TKHである(図17)。
これにより区間特定制御部31は、会話確定状態TDから音楽仮定状態MKに遷移する又は音楽確定状態MDから会話仮定状態TKに遷移する際に、並行して無音区間LSも検出している場合に、かかる検出した無音区間LSが終了して有音区間(すなわち、音楽部分区間または会話部分区間)が開始するまで、会話仮定状態TKまたは音楽仮定状態MKに遷移することを保留できるようになされている。以下、会話確定状態TDにおいて判別閾値以上の曲らしさMSと無音区間LSとを並行して検出した場合(図16)と、音楽確定状態MDにおいて判別閾値未満の曲らしさMSと無音区間LSとを並行して検出した場合(図17)とに話を分けて説明する。
(1−7−1)会話確定状態時に判別閾値以上の曲らしさと無音区間とを検出した場合
まず、区間特定制御部31は、例えば図18に示すように、判別閾値未満の曲らしさMSが曲らしさ解析処理部33から送出されると、ラジオ番組の中の会話であると判別して処理状態を会話確定状態TDに遷移すると共に、曲らしさ解析処理部33から新たに送出される曲らしさMSが判別閾値未満である限りは、会話確定状態TDを継続する。そして区間特定制御部31は、会話確定状態TDにおいて、音量レベル解析処理部34により無音区間LSを検出しているときに曲らしさMSが判別閾値以上に変化したことを検出すると、ラジオ番組の中で音楽が流されるまで時間がかかる可能性があることに応じて、かかる検出した無音区間LSが終了するまで会話仮定状態TKに遷移することを保留する第1の状態遷移保留処理を開始する。
これにより区間特定制御部31は、かかる第1の状態遷移保留処理を開始すると、処理状態を会話確定状態TDから音楽仮定保留状態MKHに遷移する。区間特定制御部31は、音楽仮定保留状態MKHにおいて、音量レベルVSが無音から有音に立ち上がるのを待ち受け、無音区間LSが続いている場合には、かかる音楽仮定保留状態MKHを継続する。そして区間特定制御部31は、音楽仮定保留状態MKHにおいて、音量レベルVSが有音レベルに立ち上がったことを検出すると共に、当該有音レベルの立ち上がりの検出直後の曲らしさMSが判別閾値未満である場合には、例えば、ラジオ番組の会話中に無音(例えば会話中の沈黙)があっただけであると判別し、処理状態を音楽仮定保留状態MKHから会話確定状態TDに戻すように遷移する。これに対し区間特定制御部31は、音楽仮定保留状態MKHにおいて、音量レベルVSが有音レベルに立ち上がったことを検出すると共に、当該有音レベルの立ち上がりの検出直後の曲らしさMSが判別閾値以上である場合には、ラジオ番組の中で無音の後に音楽が始まった可能性があると判別し、音量レベルVSが無音区間LSから有音レベルに立ち上がった位置(以下、これを有音立上り位置と呼ぶ)LEを検出して区間境界候補位置KPとして記憶すると共に、処理状態を音楽仮定保留状態MKHから音楽仮定状態MKに遷移する。
そして区間特定制御部31は、第1の状態遷移保留処理時、処理状態を音楽仮定状態MKに遷移すると、上述した第1の範囲検出区間特定処理時と同様の処理を行うことにより、番組データの会話部分区間と音楽部分区間とを特定する。そして区間特定制御部31は、処理状態を音楽仮定状態MKから音楽確定状態MDに遷移して第1の状態遷移保留処理を終了すると共に、区間の特定結果としての区間特定情報DIを生成して出力処理部35を介して分割部21へ送出する。
このようにして区間特定制御部31は、第1の状態遷移保留処理時、音楽仮定保留状態MKHにおいて有音立上り位置LEを検出するまでは、音楽仮定状態MK又は会話確定状態TDへの遷移を保留する。従って区間特定制御部31は、例えば、ラジオ番組の中で会話と音楽との間に比較的長い無音部分が挿入されたとき、設定によっては無音部分のときに判別閾値以上に値が上昇してしまう曲らしさMSに応じて、無音区間LSであるにも関わらず処理状態を会話確定状態TDから音楽仮定状態MKに遷移してしまい、結果として無音区間LSを番組データの音楽部分区間であると誤って特定するといったことを回避できる。
(1−7−2)音楽確定状態時に判別閾値未満の曲らしさと無音区間とを検出した場合
次に、区間特定制御部31は、例えば図19に示すように、判別閾値以上の曲らしさMSが曲らしさ解析処理部33から送出されると、ラジオ番組の中で音楽であると判別して処理状態を音楽確定状態MDに遷移すると共に、曲らしさ解析処理部33から新たに送出される曲らしさMSが判別閾値以上である限りは、音楽確定状態MDを維持する。そして区間特定制御部31は、音楽確定状態MDにおいて、音量レベル解析処理部34により無音区間LSを検出しているときに、曲らしさMSが判別閾値未満になったことを検出すると、ラジオ番組の会話が開始するまで時間がかかる可能性があることに応じて、かかる検出した無音区間LSが終了するまで音楽仮定状態MKに遷移することを保留する第2の状態遷移保留処理を開始する。
これにより区間特定制御部31は、かかる第2の状態遷移保留処理を開始すると、処理状態を音楽確定状態MDから会話仮定保留状態TKHに遷移する。区間特定制御部31は、会話仮定保留状態TKHにおいて、音量レベルVSが無音から有音に立ち上がるのを待ち受け、無音区間LSが続いている場合には、かかる会話仮定保留状態TKHを継続する。そして区間特定制御部31は、会話仮定保留状態TKHにおいて、音量レベルVSが有音レベルに立ち上がったことを検出すると共に、当該有音レベルの立上がりの検出直後の曲らしさMSが判別閾値以上である場合には、例えば、ラジオ番組の音楽の途中に単に無音部分が挿入されていただけであると判別し、処理状態を会話仮定保留状態TKHから音楽確定状態MDに戻すように遷移する。これに対し区間特定制御部31は、会話仮定保留状態TKHにおいて、音量レベルVSが有音レベルに立ち上がったことを検出すると共に、当該有音レベルの立ち上がりの検出直後の曲らしさMSが判別閾値未満である場合には、ラジオ番組で無音の後に会話が始まった可能性があると判別し、音量レベルVSが無音区間LSから有音レベルに立ち上がった有音立上り位置LEを区間境界候補位置KPとして記憶すると共に、処理状態を会話仮定保留状態TKHから会話仮定状態TKに遷移する。
そして区間特定制御部31は、第2の状態遷移保留処理時、処理状態を会話仮定状態TKに遷移すると、上述した第2の範囲検出区間特定処理時と同様の処理を行うことにより、番組データの中で音楽部分区間と会話部分区間とを特定する。そして区間特定制御部31は、処理状態を会話仮定状態TKから会話確定状態TDに遷移して第2の状態遷移保留処理を終了すると共に、区間の特定結果としての区間特定情報DIを生成して出力処理部35を介して分割部21へ送出する。
このようにして区間特定制御部31は、第2の状態遷移保留処理時、会話仮定保留状態TKHにおいて有音立上り位置LEを検出するまでは、会話仮定状態TK又は音楽確定状態MDへの遷移を保留する。従って区間特定制御部31は、例えば、ラジオ番組の音楽と会話との間に比較的長い無音部分が挿入されたとき、設定によっては無音部分のときに判別閾値未満に値が下がってしまう曲らしさMSに応じて、無音区間LSであるにも関わらず処理状態を音楽確定状態MDから会話仮定状態TKに遷移してしまい、結果として無音区間LSを番組データの会話部分区間であると誤って特定するといったことを回避できる。
(1−8)処理手順の説明
(1−8−1)第1の範囲検出区間特定処理手順
ここで、上述した第1の範囲検出区間特定処理の手順について説明する。データ記録装置10は、会話確定状態TDにおいて、曲らしさMSが判別閾値以上に変化すると、図20に示すような第1の範囲検出区間特定処理手順RT1を開始する。データ記録装置10の区間特定部20において区間特定制御部31は、かかる第1の範囲検出区間特定処理手順RT1を開始すると、ステップSP1において、番組データの中で曲らしさMSが判別閾値を越えた基準位置を中心として区間境界候補範囲SAを検出すると共に、当該区間境界候補範囲SA内で検出した最低音量レベル位置LLを区間境界候補位置KPとして記憶する。そして区間特定制御部31は、処理状態を会話確定状態TDから音楽仮定状態MKに遷移し、次のステップSP2に移る。
ステップSP2において区間特定制御部31は、音楽仮定状態MKにおいて、曲らしさMSが判別閾値以上を継続しているか否かを判別する。このステップSP2において肯定結果が得られると、このことはラジオ番組の中で会話が終了して音楽が開始した可能性が高いことを示している。従って区間特定制御部31は、次のステップSP3に移る。
ステップSP3において区間特定制御部31は、音楽仮定状態MKに遷移してからの音楽仮定継続時間Tmが音楽仮定判別時間以上であるか否かを判別する。このステップSP3で否定結果が得られると、このことはラジオ番組の中で会話が終了して音楽が開始したか否かを判別するだけの時間が経過していないことを示している。従って区間特定制御部31は、ステップSP2に戻る。
これに対し、ステップSP3において肯定結果が得られると、このことはラジオ番組の中で会話が終了して音楽が開始したことを示している。従って区間特定制御部31は、次のステップSP4に移る。
ステップSP4において区間特定制御部31は、区間切換候補位置KPを区間境界と特定し、番組データの、区間境界よりも時系列的に手前側を会話部分区間と特定すると共に区間境界よりも時系列的に後ろ側を音楽部分区間と特定する。そして区間特定制御部31は、処理状態を音楽仮定状態MKから音楽確定状態MDに遷移して、ステップSP5に移る。
これに対し、ステップSP2において否定結果が得られると、このことはラジオ番組の会話中にベル音や音楽の一部分が短時間だけ挿入されただけであることを示している。従って区間特定制御部31は、処理状態を音楽仮定状態MKから会話確定状態TDに戻してステップSP5へ移り、かかる第1の範囲検出区間特定処理手順RT1を終了する。
このような第1の範囲検出区間特定処理手順RT1により、データ記録装置10は、ラジオ番組の中の会話と音楽とを区別するようになされている。
(1−8−2)第2の範囲検出区間特定処理手順
次いで、上述した第2の範囲検出区間特定処理の手順について説明する。データ記録装置10は、音楽確定状態MDにおいて、曲らしさMSが判別閾値未満に変化すると、図21に示すような第2の範囲検出区間特定処理手順RT2を開始する。データ記録装置10の区間特定部20において区間特定制御部31は、かかる第2の範囲検出区間特定処理手順RT2を開始すると、ステップSP11において、曲らしさMSが判別閾値未満になった基準位置を中心として区間境界候補範囲SAを検出すると共に、当該区間境界候補範囲SA内で検出した最低音量レベル位置LLを区間境界候補位置KPとして記憶する。そして区間特定制御部31は、内部の音楽確定状態MDから会話仮定状態TKに遷移し、次のステップSP12に移る。
ステップSP12において区間特定制御部31は、会話仮定状態TKにおいて、曲らしさMSが判別閾値未満を継続しているか否かを判別する。このステップSP12において肯定結果が得られると、このことはラジオ番組の中で音楽が終了して会話が開始した可能性が高いことを示している。従って区間特定制御部31は、次のステップSP13に移る。
ステップSP13において区間特定制御部31は、会話仮定状態TKに遷移してからの会話仮定継続時間Tnが会話仮定判別時間以上であるか否かを判別する。このステップSP13で否定結果が得られると、このことはラジオ番組の中で音楽が終了して会話が開始したか否かを判別するだけの時間が経過していないことを示している。従って区間特定制御部31は、ステップSP12に戻る。
これに対し、ステップSP13において肯定結果が得られると、このことはラジオ番組の中で音楽が終了して会話が開始したことを示している。従って区間特定制御部31は、次のステップSP14に移る。
ステップSP14において区間特定制御部31は、区間切換候補位置KPを区間境界と特定し、番組データの、区間境界よりも時系列的に手前側を音楽部分区間と特定すると共に区間境界よりも時系列的に後ろ側を会話部分区間と特定する。そして区間特定制御部31は、処理状態を会話仮定状態TKから会話確定状態TDに遷移して、ステップSP15に移る。
これに対し、ステップSP12において否定結果が得られると、このことはラジオ番組の音楽中に歌手のセリフが短時間だけ挿入されただけであることを示している。従って区間特定制御部31は、処理状態を会話仮定状態TKから音楽確定状態MDに戻してステップSP15へ移り、かかる第2の範囲検出区間特定処理手順RT2を終了する。
このような第2の範囲検出区間特定処理手順RT2により、データ記録装置10は、ラジオ番組の中の音楽と会話とを区別するようになされている。
(1−8−3)第1の無音検出区間特定処理手順
次いで、上述した第1の無音検出区間特定処理の手順について説明する。データ記録装置10は、会話確定状態TDにおいて、無音区間LSを検出すると、図22に示すような第1の無音検出区間特定処理手順RT3を開始する。データ記録装置10の区間特定部20において区間特定制御部31は、かかる第1の無音検出区間特定処理手順RT3を開始すると、ステップSP31において、無音区間LSの中で、音量レベルVSが有音レベルに立ち上がった有音立上り位置LEを区間境界候補位置KPとして記憶する。そして区間特定制御部31は、処理状態を会話確定状態TDから音楽仮定待機状態MKTに遷移し、次のステップSP32に移る。
ステップSP32において区間特定制御部31は、音楽仮定待機状態MKTにおいて、曲らしさMSが判別閾値以上になったか否かを判別する。このステップSP32において否定結果が得られると、このことはラジオ番組の中で会話が終了して音楽が開始するかまだわからないことを示している。従って区間特定制御部31は、次のステップSP33に移る。
ステップSP33において区間特定制御部31は、音楽仮定待機状態MKTに遷移してからの音楽仮定待機時間Trが第1の待機判別時間以上であるか否かを判別する。このステップSP33で否定結果が得られると、このことはラジオ番組の中で会話が終了して音楽が開始する可能性があるか否かを判別するだけの時間が経過していないことを示している。従って区間特定制御部31は、ステップSP32に戻る。
これに対し、ステップSP33において肯定結果が得られると、このことはラジオ番組の会話中の無音を単に検出しただけであること示している。従って区間特定制御部31は、処理状態を音楽仮定待機状態MKTから会話確定状態TDに戻し、ステップSP37に移る。
これに対し、ステップSP32において肯定結果が得られると、このことはラジオ番組の中で会話が終了して音楽が開始する可能性があることを示している。従って区間特定制御部31は、処理状態を音楽仮定待機状態MKTから音楽仮定状態MKに遷移し、ステップSP34に移る。
ステップSP34において区間特定制御部31は、音楽仮定状態MKにおいて、曲らしさMSが判別閾値以上を継続しているか否かを判別する。このステップSP34において肯定結果が得られると、このことはラジオ番組の中で会話が終了して音楽が開始した可能性が高いことを示している。従って区間特定制御部31は、次のステップSP35に移る。
ステップSP35において区間特定制御部31は、音楽仮定状態MKに遷移してからの音楽仮定継続時間Tmが音楽仮定判別時間以上であるか否かを判別する。このステップSP35で否定結果が得られると、このことはラジオ番組の中で会話が終了して音楽が開始したか否かを判別するだけの時間が経過していないことを示している。従って区間特定制御部31は、ステップSP34に戻る。
これに対し、ステップSP35において肯定結果が得られると、このことはラジオ番組の中で会話が終了して音楽が開始したことを示している。従って区間特定制御部31は、次のステップSP36に移る。
ステップSP36において区間特定制御部31は、区間切換候補位置KPを区間境界と特定し、番組データの、区間境界よりも時系列的に手前側を会話部分区間と特定すると共に区間境界よりも時系列的に後ろ側を音楽部分区間と特定する。そして区間特定制御部31は、処理状態を音楽仮定状態MKから音楽確定状態MDに遷移して、ステップSP37に移る。
これに対し、ステップSP34において否定結果が得られると、このことはラジオ番組の会話中にベル音や音楽の一部分が短時間だけ挿入されただけであることを示している。従って区間特定制御部31は、処理状態を音楽仮定状態MKから会話確定状態TDに戻してステップSP37へ移り、かかる第1の無音検出区間特定処理手順RT3を終了する。
このような第1の無音検出区間特定処理手順RT3により、データ記録装置10は、ラジオ番組の中の会話と音楽とを区別するようになされている。
(1−8−4)第2の無音検出区間特定処理手順
次いで、上述した第2の無音検出区間特定処理の手順について説明する。データ記録装置10は、音楽確定状態MDにおいて、無音区間LSを検出すると、図23に示すような第2の無音検出区間特定処理手順RT4を開始する。データ記録装置10の区間特定部20において区間特定制御部31は、かかる第2の無音検出区間特定処理手順RT4を開始すると、ステップSP41において、無音区間LSの中で、音量レベルVSが有音レベルに立ち上がった有音立上り位置LEを区間境界候補位置KPとして記憶する。そして区間特定制御部31は、処理状態を音楽確定状態MDから会話仮定待機状態TKTに遷移し、次のステップSP42に移る。
ステップSP42において区間特定制御部31は、会話仮定待機状態TKTにおいて、曲らしさMSが判別閾値未満になったか否かを判別する。このステップSP42において否定結果が得られると、このことはラジオ番組の中で音楽が終了して会話が開始するかまだわからないことを示している。従って区間特定制御部31は、次のステップSP43に移る。
ステップSP43において区間特定制御部31は、会話仮定待機状態TKTに遷移してからの会話仮定待機時間Tsが第2の待機判別時間以上であるか否かを判別する。このステップSP43で否定結果が得られると、このことはラジオ番組の中で音楽が終了して会話が開始する可能性があるか否かを判別するだけの時間が経過していないことを示している。従って区間特定制御部31は、ステップSP42に戻る。
これに対し、ステップSP43において肯定結果が得られると、このことはラジオ番組の中の音楽が、無音部分を挟んで次の音楽に切り換わったこと示している。従って区間特定制御部31は、次のステップSP44に移る。
ステップSP44において区間特定制御部31は、区間切換候補位置KPを区間境界と特定し、番組データの、区間境界よりも時系列的に手前側と後ろ側とをそれぞれ別の音楽部分区間と特定する。そして区間特定制御部31は、処理状態を会話仮定待機状態TKTから音楽確定状態MDに戻して、ステップSP48に移る。
これに対し、ステップSP42において肯定結果が得られると、このことはラジオ番組の中で音楽が終了して会話が開始する可能性があることを示している。従って区間特定制御部31は、処理状態を会話仮定待機状態TKTから会話仮定状態TKに遷移し、ステップSP45に移る。
ステップSP45において区間特定制御部31は、会話仮定状態TKにおいて、曲らしさMSが判別閾値未満を継続しているか否かを判別する。このステップSP45において肯定結果が得られると、このことはラジオ番組の中で音楽が終了して会話が開始した可能性が高いことを示している。従って区間特定制御部31は、次のステップSP46に移る。
ステップSP46において区間特定制御部31は、会話仮定状態TKに遷移してからの会話仮定継続時間Tnが会話仮定判別時間以上であるか否かを判別する。このステップSP46で否定結果が得られると、このことはラジオ番組の中で音楽が終了して会話が開始したか否かを判別するだけの時間が経過していないことを示している。従って区間特定制御部31は、ステップSP45に戻る。
これに対し、ステップSP46において肯定結果が得られると、このことはラジオ番組の中で会話が終了して音楽が開始したことを示している。従って区間特定制御部31は、次のステップSP47に移る。
ステップSP47において区間特定制御部31は、区間切換候補位置KPを区間境界と特定し、番組データの、区間境界よりも時系列的に手前側を音楽部分区間と特定すると共に区間境界よりも時系列的に後ろ側を会話部分区間と特定する。そして区間特定制御部31は、処理状態を会話仮定状態TKから会話確定状態TDに遷移して、ステップSP48に移る。
これに対し、ステップSP45において否定結果が得られると、このことはラジオ番組の音楽中に歌手のセリフが短時間だけ挿入されただけであることを示している。従って区間特定制御部31は、処理状態を会話仮定状態TKから音楽確定状態MDに戻してステップSP48へ移り、かかる第2の無音検出区間特定処理手順RT4を終了する。
このような第2の無音検出区間特定処理手順RT4により、データ記録装置10は、ラジオ番組の中の音楽と会話とを区別するようになされている。
(1−8−5)第1の無音区間判別処理手順
次いで、上述した第1の無音区間判別処理の手順について説明する。データ記録装置10は、音楽仮定状態MKにおいて、無音区間LSを検出すると、図24に示すような第1の無音区間判別処理手順RT5を開始する。データ記録装置10の区間特定部20において区間特定制御部31は、かかる第1の無音区間判別処理手順RT5を開始すると、ステップSP51において、処理状態を音楽仮定状態MKから会話確定待機状態TDTに遷移し、次のステップSP52に移る。
ステップSP52において区間特定制御部31は、会話確定待機状態TDTにおいて、曲らしさMSが判別閾値未満に変化するか否かを判別する。このステップSP52において肯定結果が得られると、このことはラジオ番組の会話中に挿入された無音部分を検出してしまったことを示している。従って区間特定制御部31は、処理状態を会話確定待機状態TDTから会話確定状態TDに遷移し、ステップSP58に移る。
これに対し、ステップSP52において否定結果が得られると、このことはラジオ番組の会話中に挿入された無音部分を検出してしまったか否かまだわからないことを示している。従って区間特定制御部31は、次のステップSP53に移る。
ステップSP53において区間特定制御部31は、会話確定待機状態TDTに遷移してからの会話確定待機時間Ttが第3の待機判別時間以上であるか否かを判別する。このステップSP53で否定結果が得られると、このことはラジオ番組の会話中に挿入された無音部分を検出してしまったか否かを判別するだけの時間が経過していないことを示している。従って区間特定制御部31は、ステップSP52に戻る。
これに対し、ステップSP53において肯定結果が得られると、このことは検出した無音区間LSとは関係なく、ラジオ番組の中で会話が終了して音楽が開始する可能性があることを示している。従って区間特定制御部31は、次のステップSP54に移る。
ステップSP54において区間特定制御部31は、会話確定待機状態TDTにおいて、音楽仮定状態MKを開始してから計時している音楽仮定継続時間Tmが音楽仮定判別時間以上であるか否かを判別する。このステップSP54で否定結果が得られると、このことはラジオ番組の中で会話が終了して音楽が開始したか否かを判別するだけの時間が経過していないことを示している。従って区間特定制御部31は、処理状態を会話確定待機状態TDTから音楽仮定状態MKに遷移し、次のステップSP55に移る。
ステップSP55において区間特定制御部31は、音楽仮定状態MKにおいて、曲らしさMSが判別閾値以上を継続しているか否かを判別する。このステップSP55において肯定結果が得られると、このことはラジオ番組の中で会話が終了して音楽が開始した可能性が高いことを示している。従って区間特定制御部31は、次のステップSP56に移る。
ステップSP56において区間特定制御部31は、音楽仮定状態MKに遷移してからの音楽仮定継続時間Tmが音楽仮定判別時間以上であるか否かを判別する。このステップSP56で否定結果が得られると、このことはラジオ番組の中で会話が終了して音楽が開始したか否かを判別するだけの時間が経過していないことを示している。従って区間特定制御部31は、ステップSP55に戻る。
これに対し、ステップSP56において肯定結果が得られると、このことはラジオ番組の中で会話が終了して音楽が開始したことを示している。従って区間特定制御部31は、次のステップSP57に移る。
これに対し、ステップSP55において否定結果が得られると、このことはラジオ番組の会話中にベル音や音楽の一部分が短時間だけ挿入されただけであることを示している。従って区間特定制御部31は、処理状態を音楽仮定状態MKから会話確定状態TDに戻してステップSP58へ移る。
一方で、ステップSP54で肯定結果が得られると、このことはラジオ番組の中で会話が終了して音楽が開始したことを示している。従って区間特定制御部31は、次のステップSP57に移る。
ステップSP57において区間特定制御部31は、区間切換候補位置KPを区間境界と特定し、番組データの、区間境界よりも時系列的に手前側を会話部分区間と特定すると共に区間境界よりも時系列的に後ろ側を音楽部分区間と特定する。そして区間特定制御部31は、処理状態を音音楽確定状態MDに遷移して、ステップSP58に移り、かかる第1の無音区間判別処理手順RT5を終了する。
このような第1の無音区間判別処理手順RT5により、データ記録装置10は、ラジオ番組の中で、無音部分が含まれている会話を、ひとまとまりの意味のある会話として判別するようになされている。
(1−8−6)第2の無音区間判別処理手順
次いで、上述した第2の無音区間判別処理の手順について説明する。データ記録装置10は、会話仮定状態TKにおいて、無音区間LSを検出すると、図25に示すような第2の無音区間判別処理手順RT6を開始する。データ記録装置10の区間特定部20において区間特定制御部31は、かかる第2の無音区間判別処理手順RT6を開始すると、ステップSP61において、処理状態を会話仮定状態TKから音楽確定待機状態MDTに遷移し、次のステップSP62に移る。
ステップSP62において区間特定制御部31は、音楽確定待機状態MDTにおいて、曲らしさMSが判別閾値以上に変化するか否かを判別する。このステップSP62において肯定結果が得られると、このことはラジオ番組の音楽中に曲の一部として挿入されている無音部分を検出してしまったことを示している。従って区間特定制御部31は、処理状態を音楽確定待機状態MDTから音楽確定状態MDに遷移し、ステップSP68に移る。
これに対し、ステップSP62において否定結果が得られると、このことはラジオ番組の音楽中に挿入された無音部分を検出してしまったか否かまだわからないことを示している。従って区間特定制御部31は、次のステップSP63に移る。
ステップSP63において区間特定制御部31は、音楽確定待機状態MDTに遷移してからの会話確定待機時間Tuが第4の待機判別時間以上であるか否かを判別する。このステップSP63で否定結果が得られると、このことはラジオ番組の音楽中に曲の一部として挿入されている無音部分を検出してしまったか否かを判別するだけの時間が経過していないことを示している。従って区間特定制御部31は、ステップSP62に戻る。
これに対し、ステップSP63において肯定結果が得られると、このことは検出した無音区間LSとは関係なく、ラジオ番組の音楽が終了して会話が開始する可能性があることを示している。従って区間特定制御部31は、処理状態を音楽確定待機状態MDTから会話仮定状態TKに戻し、ステップSP64に移る。
ステップSP64において区間特定制御部31は、音楽確定待機状態MDTにおいて、会話仮定状態TKを開始してから計時している会話仮定継続時間Tnが会話仮定判別時間以上であるか否かを判別する。このステップSP63で否定結果が得られると、このことはラジオ番組の中で音楽が終了して会話が開始したか否かを判別するだけの時間が経過していないことを示している。従って区間特定制御部31は、処理状態を音楽確定待機状態MDTから会話仮定状態TKに遷移し、次のステップSP65に移る。
ステップSP65において区間特定制御部31は、会話仮定状態TKにおいて、曲らしさMSが判別閾値未満を継続しているかを判別する。このステップSP65において肯定結果が得られると、このことはラジオ番組の中で音楽が終了して会話が開始した可能性が高いことを示している。従って区間特定制御部31は、次のステップSP66に移る。
ステップSP66において区間特定制御部31は、会話仮定状態TKに遷移してからの会話仮定継続時間Tnが会話仮定判別時間以上であるか否かを判別する。このステップSP66で否定結果が得られると、このことはラジオ番組の中で音楽が終了して会話が開始したか否かを判別するだけの時間が経過していないことを示している。従って区間特定制御部31は、ステップSP65に戻る。
これに対し、ステップSP66において肯定結果が得られると、このことはラジオ番組の中で音楽が終了して会話が開始したことを示している。従って区間特定制御部31は、次のステップSP67に移る。
これに対し、ステップSP65において否定結果が得られると、このことはラジオ番組の音楽中に歌手のセリフが短時間だけ挿入されただけであることを示している。従って区間特定制御部31は、処理状態を会話仮定状態TKから音楽確定状態MDに戻し、ステップSP68へ移る。
一方で、ステップSP64で肯定結果が得られると、このことはラジオ番組の中で音楽が終了して会話が開始したことを示している。従って区間特定制御部31は、次のステップSP67に移る。
ステップSP67において区間特定制御部31は、区間切換候補位置KPを区間境界と特定し、番組データの、区間境界よりも時系列的に手前側を音楽部分区間と特定すると共に区間境界よりも時系列的に後ろ側を会話部分区間と特定する。そして区間特定制御部31は、処理状態を会話確定状態TDに遷移して、ステップSP68に移り、かかる第2の無音区間判別処理手順RT6を終了する。
このような第2の無音区間判別処理手順RT6により、データ記録装置10は、ラジオ番組の中で、無音部分が含まれている音楽を、ひとまとまりの意味のある楽曲として判別するようになされている。
(1−8−7)第1の状態遷移保留処理手順
次いで、上述した第1の状態遷移保留処理の手順について説明する。データ記録装置10は、会話確定状態TDにおいて、無音区間LSを検出しているときに曲らしさMSが判別閾値以上になったことを検出すると、図26に示すような第1の状態遷移保留処理手順RT7を開始する。データ記録装置10の区間特定部20において区間特定制御部31は、かかる第1の状態遷移保留処理手順RT7を開始すると、ステップSP71において、処理状態を会話確定状態TDから音楽仮定保留状態MKHに遷移し、次のステップSP72に移る。
ステップSP72において区間特定制御部31は、音楽仮定保留状態MKHにおいて、音量レベルVSが無音から有音に立ち上がったか否かを判別する。このステップSP72において否定結果が得られると、これはラジオ番組の中でいまだ無音が継続していることを示している。従って区間特定制御部31は、ラジオ番組が無音から有音に立ち上がるまで、このステップSP72を繰り返す。これに対し、ステップSP72で肯定結果が得られると、このことはラジオ番組の中で会話が再開したか、又は音楽が開始したかのいずれかであることを示している。従って区間特定制御部31は、音量レベルVSが無音から有音レベルに立ち上がった有音立上り位置LEを区間境界候補位置KPとして記憶して、次のステップSP73に移る。
ステップSP73において区間特定制御部31は、音楽仮定保留状態MKHにおいて、有音レベルの立上がりの検出直後の曲らしさMSが判別閾値以上であるか否かを判別する。このステップSP73において否定結果が得られると、このことはラジオ番組の中で、無音状態を介して会話が再開しただけであることを示している。従って区間特定制御部31は、ステップSP77に移る。
これに対し、ステップSP73で肯定結果が得られると、このことはラジオ番組の会話が終了して音楽が開始した可能性があることを示している。従って区間特定制御部31は、処理状態を音楽仮定保留状態MKHから音楽仮定状態MKに遷移し、ステップSP74に移る。
ステップSP74において区間特定制御部31は、音楽仮定状態MKにおいて、曲らしさMSが判別閾値以上を継続しているか否かを判別する。このステップSP74において肯定結果が得られると、このことはラジオ番組の中で会話が終了して音楽が開始した可能性が高いことを示している。従って区間特定制御部31は、次のステップSP75に移る。
ステップSP75において区間特定制御部31は、音楽仮定継続時間Tmが音楽仮定判別時間以上であるか否かを判別する。このステップSP75で否定結果が得られると、このことはラジオ番組の中で会話が終了して音楽が開始したか否かを判別するだけの時間が経過していないことを示している。従って区間特定制御部31は、ステップSP74に戻る。
これに対し、ステップSP75において肯定結果が得られると、このことはラジオ番組の中で会話が終了して音楽が開始したことを示している。従って区間特定制御部31は、次のステップSP76に移る。
ステップSP76において区間特定制御部31は、区間切換候補位置KPを区間境界と特定し、番組データの、区間境界よりも時系列的に手前側を会話部分区間と特定すると共に区間境界よりも時系列的に後ろ側を音楽部分区間と特定する。そして区間特定制御部31は、処理状態を音楽仮定状態MKから音楽確定状態MDに遷移して、ステップSP77に移り、かかる第1の状態遷移保留処理手順RT7を終了する。
このような第1の状態遷移保留処理手順RT7により、データ記録装置10は、ラジオ番組の中で比較的長い無音部分があるときに、有音部分が出てくるまで処理を保留するようになされている。
(1−8−8)第2の状態遷移保留処理手順
次いで、上述した第2の状態遷移保留処理の手順について説明する。データ記録装置10は、音楽確定状態MDにおいて、無音区間LSを検出しているときに曲らしさMSが判別閾値未満になったことを検出すると、図27に示すような第2の状態遷移保留処理手順RT8を開始する。データ記録装置10の区間特定部20において区間特定制御部31は、かかる第2の状態遷移保留処理手順RT8を開始すると、ステップSP81において、処理状態を音楽確定状態MDから会話仮定保留状態TKHに遷移し、次のステップSP82に移る。
ステップSP82において区間特定制御部31は、会話仮定保留状態TKHにおいて、音量レベルVSが無音から有音に立ち上がったか否かを判別する。このステップSP82において否定結果が得られると、これはラジオ番組の中でいまだ無音が継続していることを示している。従って区間特定制御部31は、ラジオ番組が無音から有音に立ち上がるまで、このステップSP82を繰り返す。これに対し、ステップSP82で肯定結果が得られると、このことはラジオ番組の中で音楽が再開したか、又は会話が開始したかのいずれかであることを示している。従って区間特定制御部31は、音量レベルVSが無音から有音レベルに立ち上がった有音立上り位置LEを区間境界候補位置KPとして記憶して、次のステップSP83に移る。
ステップSP83において区間特定制御部31は、会話仮定保留状態TKHにおいて、有音レベルの立上がりの検出直後の曲らしさMSが判別閾値未満であるか否かを判別する。このステップSP83において否定結果が得られると、このことはラジオ番組の中で、曲の一部として挿入されている無音部分を介して音楽が再開しただけであることを示している。従って区間特定制御部31は、ステップSP87に移る。
これに対し、ステップSP83で肯定結果が得られると、このことはラジオ番組の中で音楽が終了して会話が開始した可能性があることを示している。従って区間特定制御部31は、処理状態を会話仮定保留状態TKHから会話仮定状態TKに遷移し、ステップSP84に移る。
ステップSP84において区間特定制御部31は、会話仮定状態TKにおいて、曲らしさMSが判別閾値未満を継続しているか否かを判別する。このステップSP84において肯定結果が得られると、このことはラジオ番組の中で音楽が終了して会話が開始した可能性が高いことを示している。従って区間特定制御部31は、次のステップSP85に移る。
ステップSP85において区間特定制御部31は、会話仮定継続時間Tnが会話仮定判別時間以上であるか否かを判別する。このステップSP85で否定結果が得られると、このことはラジオ番組の中で会話が終了して音楽が開始したか否かを判別するだけの時間が経過していないことを示している。従って区間特定制御部31は、ステップSP84に戻る。
これに対し、ステップSP85において肯定結果が得られると、このことはラジオ番組の中で音楽が終了して会話が開始したことを示している。従って区間特定制御部31は、次のステップSP86に移る。
ステップSP86において区間特定制御部31は、区間切換候補位置KPを区間境界と特定し、番組データの、区間境界よりも時系列的に手前側を音楽部分区間と特定すると共に区間境界よりも時系列的に後ろ側を会話部分区間と特定する。そして区間特定制御部31は、処理状態を会話仮定状態TKから会話確定状態TDに遷移して、ステップSP87に移り、かかる第2の状態遷移保留処理手順RT8を終了する。
このような第2の状態遷移保留処理手順RT8により、データ記録装置10は、ラジオ番組の中で比較的長い無音部分があるときに、有音部分が出てくるまで処理を保留するようになされている。
(1−9)動作及び効果
以上の構成においてデータ記録装置10は、ラジオ番組の会話部分の録音時、録音しているラジオ番組に対応する番組データの曲らしさMSが判別閾値以上に変化することに応じて区間境界候補範囲SAを検出すると共に、当該検出した区間境界候補範囲SAの中から、音量レベルVSに応じて区間境界候補位置KPを検出する。そしてデータ記録装置10は、曲らしさMSが音楽仮定判別時間のあいだ判別閾値以上を継続した場合に、番組データの会話部分区間から音楽部分区間へと切り換わった境界を特定する。
従って区間特定制御部31は、ラジオ番組の会話と音楽とが無音区間LSを挟むことなく切り換わる場合や、ラジオ番組の会話と音楽とが一部分だけ重なって切り換わるような場合に、音楽だけが流され始めた位置で音量レベルVSの変動があれば、そのラジオ番組の中で会話から音楽への間断無い切り換えの範囲を、曲らしさMSが判別閾値以上に変化したことに応じて検出すると共に、当該検出した範囲の中で、ラジオ番組の中で音楽だけが流され始めた位置を、音量レベルVSが低くなることに応じて検出して、番組データの会話部分区間と音楽部分区間とを特定することができる。またその場合、区間特定制御部31は、番組データの、最終的に特定した音楽部分区間の先頭に会話部分区間の後尾が含まれてしまうことを回避することができる。
またデータ記録装置10は、ラジオ番組の音楽部分の録音時、録音しているラジオ番組に対応する番組データの曲らしさMSが判別閾値未満に変化することに応じて区間境界候補範囲SAを検出すると共に、当該検出した区間境界候補範囲SAの中から、音量レベルVSに応じて区間境界候補位置KPを検出する。そしてデータ記録装置10は、曲らしさMSが音楽仮定判別時間のあいだ判別閾値未満を継続した場合に、番組データの音楽部分区間から会話部分区間へと切り換わった境界を特定する。
従って区間特定制御部31は、ラジオ番組の音楽と会話とが無音区間LSを挟むことなく切り換わる場合や、ラジオ番組の音楽と会話とが一部分だけ重なって切り換わるような場合に、会話が流され始めた位置で音量レベルVSの変動があれば、そのラジオ番組の音楽から会話への間断無い切り換えの範囲を、曲らしさMSが判別閾値未満に変化したことに応じて検出すると共に、当該検出した範囲の中で、ラジオ番組の中で会話が流され始めた位置(すなわち、ラジオ番組の中で音楽だけが流されている区間が終了した位置)を、音量レベルVSが低くなることに応じて検出して、番組データの音楽部分区間と会話部分区間とを特定することができる。またその場合、区間特定制御部31は、番組データの、最終的に特定した音楽部分区間の後尾に会話部分区間の先頭が含まれてしまうことを回避することができる。
以上の構成によれば、データ記録装置10は、音楽部分と会話部分とが混在して形成された番組データから、当該番組データがどれだけ音楽らしいかを表す曲らしさMSを検出すると共に番組データの音量レベルVSを検出し、曲らしさMSと音量レベルVSとの検出結果に応じて、番組データの中で、音楽部分に相当する音楽部分区間と、会話部分に相当する会話部分区間とを特定して、かかる特定された番組データを記録するようにしたことにより、番組データを記録するとき、曲らしさMSでは最終的に各区間を高精度に特定し難いような番組データの音楽部分区間と会話部分区間とを、音量レベルVSで補うように特定して記録することができると共に、音量レベルVSでは最終的に各区間を高精度に特定し難いような番組データの音楽部分区間と会話部分区間とを、曲らしさMSで補うように特定して記録することができ、かくして、音楽データを含む番組データから、音楽データを高精度に特定して記録することができる。
またこの場合、データ記録装置10は、番組データの中で会話部分区間と音楽部分区間とが切り換わったことは検出できるものの、番組データの会話部分区間と音楽部分区間との間の具体的な境界を特定し難い曲らしさMSと、番組データの会話部分区間と音楽部分区間との間の具体的な境界は特定できるものの、番組データの会話部分区間と音楽部分区間とが切り換わったことは検出し難い音量レベルVSとに応じて、番組データの会話部分区間と音楽部分区間とを特定するようにしたことにより、番組データの会話部分区間と音楽部分区間とを高精度に特定することができる。
さらにデータ記録装置10は、曲らしさMSに応じて、番組データの中で音楽部分区間と会話部分区間との境界を含む範囲としての区間境界候補範囲SAを特定し、音量レベルVSに応じて、当該区間境界候補範囲SAの中で音楽部分区間と会話部分区間とが切り換わる位置の候補である区間境界候補位置KPを特定するようにしたことにより、ラジオ番組の会話と音楽とが無音区間LSを挟むことなく切り換わる場合や、ラジオ番組の会話と音楽とが一部分だけ重なって切り換わるような場合に、そのラジオ番組の会話から音楽への間断無い切り換えの範囲を、曲らしさMSが判別閾値以上になったことに応じて検出すると共に、当該検出した範囲の中で、実際にラジオ番組の会話から音楽へと切り換わった位置を音量レベルVSが低くなることに応じて検出して、番組データの会話部分区間と音楽部分区間とを高精度に特定することができる。
さらにデータ記録装置10は、音量レベルVSにより、所定の範囲以上の無音が継続する区間としての無音区間LSを検出した後に、曲らしさMSが、番組データの音楽部分と会話部分との判別用の所定の判別閾値を越えたとき、検出した無音区間LSに応じて、音楽部分区間と会話部分区間とが切り換わる位置を特定するようにしたことにより、ラジオ番組の中で会話と音楽の間に無音区間LSが挿入されているような場合に、かかる無音区間LSを検出してから曲らしさMSの値を確認することで、番組データの会話部分区間と音楽部分区間とを精度良く特定することができる。
さらにこの場合、データ記録装置10は、例えば、曲の出だしがとても静かだったり、低い音階だけしか使われていなかったりすることにより、曲らしさMSがゆっくりとしか上昇しないような音楽がラジオ番組に含まれている場合でも、かかる音楽の先頭に無音区間LSが含まれていれば、番組データの会話部分区間と音楽部分区間とを特定することができる。
さらにデータ記録装置10は、音量レベルVSにより無音区間LSを検出したとき、曲らしさMSが番組データの音楽部分と会話部分との判別用の所定の判別閾値を越えた場合には、検出した無音区間LSの、有音への立ち上がりを区間境界候補位置KPとして検出して、かかる区間境界候補位置KPを番組データの会話部分区間と音楽部分区間とが切り換わった区間境界であると特定するようにしたことにより、最終的に特定される音楽部分区間または会話部分区間の先頭に含まれる無音部分を極力少なくして、後に再生するときの聴き心地を向上させることができる。
さらにデータ記録装置10は、ラジオ番組の聴取時、出力部14からラジオ番組を出力させると共に、当該出力するラジオ番組に対応する番組データを、一時記憶部16で一時記憶する。そしてデータ記録装置10は、操作部12を介して一度出力したラジオ番組の再出力が要求されると、一時記憶部16から読出した所定時間分の出力に相当する番組データを、データ処理部13でアナログ処理して番組信号を得、かかる番組信号に応じたラジオ番組を、出力部14を介して再出力する。従ってデータ記録装置10は、ユーザがトイレ等で席を外したことにより、出力中のラジオ番組の一部を聴取させられなかったときに、ユーザの要求に応じて、ラジオ番組のうち既に出力してしまった部分を、所定時間だけ時系列的に遡って出力して聴取させることができ、かくして、使い勝手を向上できる。
さらにデータ記録装置10は、番組データの音楽部分区間と会話部分区間とを特定したとき、当該特定した結果としての区間特定情報DIに応じて、番組データを、音楽部分区間データと会話部分区間データとに分割して記録するようにした。従ってデータ記録装置10は、記録した番組データを再生するとき、番組データの先頭から順に再生してユーザに内容を確認させること無しに、分割して記録されている音楽部分区間データ及び会話部分区間データに直接アクセスして再生するだけで、ユーザに内容を確認させることができ、かくして、使い勝手を向上できる。
(1−10)他の実施の形態
なお上述した第1の実施の形態においては、ラジオ局のラジオ放送波を受信して、ラジオ番組に対応する番組データを生成するようにした場合について述べたが、本発明はこれに限らず、音楽部分区間と会話部分区間とが混在している混在データを取得するのであれば、テレビ局のテレビ放送を受信して生成した番組データ、通信回線を介して取得したストリーミング形式のデータ、記録部に既に記憶してある番組データやストリーミングデータ等を適用しても良く、その場合にも同様の効果を得ることができる。
また上述した第1の実施の形態においては、番組データの音楽部分区間と会話部分区間とを特定したとき、その特定結果としての区間特定情報DIに応じて、かかる番組データを音楽部分区間データと会話部分区間データとに分割して、データファイルとして記録するようにした場合について述べたが、本発明はこれに限らず、番組データを分割せずに、区間特定データDIと合わせて記録するようにしても良い。その場合、番組データと区間特定データDIとを対応付けて、別のデータファイルとして記録しても良いし、番組データのヘッダ情報として区間特定データDIを格納して記録するようにしても良い。また、区間特定データDIに応じて番組データの対応する位置に所定のタグを付加するようにしてもよい。
さらに上述した第1の実施の形態においては、0〜1の値に正規化された曲らしさMSの判別閾値として判別閾値を適用した場合について述べたが、本発明はこれに限らず、判別閾値は条件に合わせて0〜1のどの値であっても良い。また、曲らしさMSの値は正規化されている必要は無く、対応する判別閾値についても同様である。
さらに上述した第1の実施の形態においては、曲らしさMSが判別閾値以上になる及び曲らしさMSが判別閾値未満になることを、曲らしさMSが判別閾値を越えると表現したが、本発明はこれに限らず、曲らしさMSが判別閾値を上回る及び曲らしさMSが判別閾値以下になることを、曲らしさMSが判別閾値を越えるとしても良く、判別閾値がどちらに含まれるかは設定によりどうにでもなるものとする。
さらに上述した第1の実施の形態においては、番組データの無音区間LSを検出したときに、無音区間LSの中で、無音状態から有音状態に立ち上がる位置を区間境界候補位置KPとするようにした場合について述べたが、本発明はこれに限らず、無音区間LSの中で、最初に有音状態から無音状態になった位置を検出して区間境界候補位置KPとするようにしても良い。
さらに上述した第1の実施の形態においては、第2の無音検出区間特定処理時、番組データの会話部分区間の中に無音区間LSが検出されたときに、その無音区間LSは、例えばラジオ番組の会話中の沈黙であると判別して無視するようにした場合について述べたが、本発明はこれに限らず、番組データの会話部分区間の中に無音区間LSが検出されたときに、その無音区間LSの前後を別の会話部分区間として特定するようにしても良い。
さらに上述した第1の実施の形態においては、番組データを音楽部分区間と会話部分区間とに特定するようにした場合、すなわちラジオ番組を音楽部分と会話部分とに特定するようにした場合について述べたが、本発明はこれに限らず、音楽部分や会話部分、コマーシャル部分、ニュース部分、交通情報部分、などのように、ラジオ番組の内容に合わせて細分化して特定するようにしても良い。
さらに上述した第1の実施の形態においては、曲らしさ検出部18で曲らしさMSを検出すると共に、音量レベル検出部19で音量レベルVSを検出するようにした場合について述べたが、本発明はこれに限らず、曲らしさ解析処理部33で曲らしさMSを検出すると共に、音量レベル解析処理部34で音量レベルVSを検出するようにしても良い。その場合、区間特定制御部31が、当該区間特定制御部31、曲らしさ解析処理部33及び音量レベル解析処理部34の機能を受け持つようにすれば、上述した第1の実施の形態と同様の効果を得ることができる。
さらに上述した第1の実施の形態においては、第1〜第4の区間特定の手法があり、選択することにより、第1〜第4の区間特定の手法の中で、任意の区間特定の手法を実行できるようにした場合について述べたが、本発明はこれに限らず、第1〜第4の区間特定の手法を単独で実行するだけでなく、第1〜第4の区間特定の手法の中で、任意の区間特定の手法を複数組み合わせて実行するようにしても良い。
(2)第2の実施の形態
(2−1)第2実施の形態の概要
次いで、図28を用いて第2の実施の形態によるデータ記録装置100のハードウェア回路ブロックによるハードウェア回路構成を示す。かかるデータ記録装置100は、中央処理ユニット(CPU:Central Processing Unit )50と各ハードウェアとがバス51を介して接続され、当該中央処理ユニット50がROM(Read Only Memory)52又はハードディスクドライブ53から読み出したデータ記録プログラム等の各種プログラムをRAM(Random Access Memory)54で展開して実行することにより全体を統括制御すると共に、各種処理を実行するようになされている。
これにより中央処理ユニット50は、例えばデータ記録装置100の筐体等に設けられた操作キー55を介してラジオ局が選局されラジオ番組の出力が要求されると、チューナ59に対し複数のラジオ局のラジオ放送波のうち、ユーザによって選局されたラジオ局のラジオ放送波を抽出するように設定して動作させる。また中央処理ユニット50は、このときデータ処理部57をラジオ番組の出力用に制御する。これによりチューナ59は、アンテナ60で受信された各ラジオ局のラジオ放送波の中から、ユーザによって選局されたラジオ局のラジオ放送波を抽出して復調処理等の所定の受信処理を施し、この結果得られたラジオ番組の番組信号をデータ処理部57に送出する。データ処理部57は、チューナ59から与えられた番組信号に対しアナログデジタル変換処理及びイコライジング処理等のデジタル処理を施し、その結果得られた番組データに対しデジタルアナログ変換処理及び増幅処理等のアナログ処理を施す。これによりデータ処理部57は、かかるアナログ処理に応じて番組信号を得て、これをスピーカ58に送出することで当該スピーカ58から番組信号に基づく番組の音声を出力させてユーザに聴取させる。このようにして中央処理ユニット50は、ユーザに対し所望のラジオ局で放送されているラジオ番組を聴かせることができる。
また中央処理ユニット50は、操作キー55を介してラジオ局が選局されラジオ番組の録音が要求されると、上述と同様にチューナ59をユーザによって選局されたラジオ局のラジオ放送波を抽出するように設定して動作させる。また中央処理ユニット50は、このときデータ処理部57をラジオ番組の録音用に制御する。これによりチューナ59は、アンテナ60で受信された各ラジオ局のラジオ放送波の中から、ユーザによって選局されたラジオ局のラジオ放送波を抽出して受信処理を施し、この結果得られたラジオ番組の番組信号をデータ処理部57に送出する。またデータ処理部57は、チューナ59から与えられた番組信号に対してデジタル処理を施し、その結果得られた番組データを中央処理ユニット50に送出する。そして中央処理ユニット50は、番組データをハードディスクドライブ53に送出してデータファイルとして記録する。このようにして中央処理ユニット50は、所望のラジオ局で放送されているラジオ番組を録音することができる。
さらに、中央処理ユニット50は、操作キー55を介して番組データの再生が要求されると、ハードディスクドライブ53から再生の要求された番組データを読み出し、これをデータ処理部57に送出する。データ処理部57は、中央処理ユニット50から与えられた番組データに対し所定のデジタル処理を施した後、このデジタル処理した番組データに対しデジタルアナログ変換処理及び増幅処理等のアナログ処理を施す。これによりデータ処理部57は、かかるアナログ処理に応じて番組信号を得て、これをスピーカ58に送出することで当該スピーカ58から番組信号に基づくラジオ番組の音声を出力させてユーザに聴取させることができる。このようにして中央処理ユニット50は、ハードディスクドライブ53に録音したラジオ番組を聴かせることができる。
ところでデータ記録装置100は、上述したように中央処理ユニット50がROM52又はハードディスクドライブ53に記憶された各種プログラムに従って各種処理を実行すると共に各ハードウェアを制御している。このためデータ記録装置100では、図2について上述した機能回路ブロックによるハードウェア構成のデータ記録装置10の機能に応じて、ROM52又はハードディスクドライブ53に記憶させる各種プログラムを適宜選定することにより、中央処理ユニット50及びデータ処理部57を、上述のデータ処理部13(図2)と同様に機能させることができる。
またデータ記録装置100では、操作キー55を、上述の操作部12(図2)と同様に機能させることができると共に、中央処理ユニット50及びハードディスクドライブ53を、上述の記録部15(図2)と同様に機能させることができる。さらにデータ記録装置100では、中央処理ユニット50、チューナ59及びアンテナ60を、上述の受信部11(図2)と同様に機能させることができると共に、中央処理ユニット50及び表示部61を、上述の表示部17(図2)と同様に機能させることができる。さらにまたデータ記録装置100では、中央処理ユニット50を、上述の曲らしさ検出部18(図2)、音量レベル検出部19(図2)、区間特定部20(図2)及び分割部21(図2)のそれぞれと同様に機能させることができる。そしてROM52は、上述の一時記憶部16(図2)に対応する。またスピーカ58は、上述の出力部14(図2)に対応する。
従ってデータ記録装置100は、データ記録装置10の機能に応じて、ROM52又はハードディスクドライブ53に記憶させる各種プログラムを適宜選定することにより、当該データ記録装置10と同様の上述した処理を実行することができ、かくして上述した第1の実施の形態と同様の効果を得ることができる。
(2−2)他の実施の形態
なお、上述した第2の実施の形態においては、本発明によるデータ記録装置を、図28について上述したデータ記録装置100に適用するようにした場合について述べたが、本発明はこれに限らず、HDD(Hard Disk Drive)ビデオレコーダ、光ディスクレコーダ、半導体メモリタイプのレコーダ、ラジオ録音機能付きの携帯電話、ラジオ録音機能付きの携帯オーディオプレイヤ及びパーソナルコンピュータ等のように、この他種々のデータ記録装置に広く適用することができる。
また上述した第2の実施の形態においては、音楽部分と、会話部分とが混在して形成された混在データから、当該混在データがどれだけ音楽らしいかを表す曲らしさを検出する曲らしさ検出部として、図28について上述した中央処理ユニット50を適用するようにした場合について述べたが、本発明はこれに限らず、音楽部分と、会話部分とが混在して形成された混在データから、当該混在データがどれだけ音楽らしいかを表す曲らしさを検出するハードウェア構成の曲らしさ検出回路等のように、この他種々の曲らしさ検出部を広く適用することができる。
さらに上述した第2の実施の形態においては、混在データの音量レベルを検出する音量レベル検出部として、図28について上述した中央処理ユニット50を適用するようにした場合について述べたが、本発明はこれに限らず、混在データの音量レベルを検出するハードウェア構成の音量レベル検出回路等のように、この他種々の音量レベル検出部を広く適用することができる。
さらに上述した第2の実施の形態においては、曲らしさ検出部により検出された曲らしさと、音量レベル検出部により検出された音量レベルとに応じて、混在データの中で、音楽部分に相当する音楽部分区間と、会話部分に相当する会話部分区間とを特定する区間特定部として、図28について上述した中央処理ユニット50を適用するようにした場合について述べたが、本発明はこれに限らず、曲らしさ検出部により検出された曲らしさと、音量レベル検出部により検出された音量レベルとに応じて、混在データの中で、音楽部分に相当する音楽部分区間と、会話部分に相当する会話部分区間とを特定するハードウェア構成の区間特定回路等のように、この他種々の区間特定部を広く適用することができる。
さらに上述した第2の実施の形態においては、区間特定部により音楽部分区間と会話部分区間とが特定された混在データを記録する記録部として、図28について上述したハードディスクドライブ53を適用するようにした場合について述べたが、本発明はこれに限らず、光ディスクレコーダやカセットテープレコーダ、半導体メモリタイプのレコーダ等、この他種々の記録媒体に対して混在データを記録する記録部を広く適用することができる。
さらに上述した第2の実施の形態においては、音楽部分と会話部分とが混在する番組に応じて出力された放送波を受信して受信信号を生成する受信部として、図28について上述したチューナ59及びアンテナ60を適用するようにした場合について述べたが、本発明はこれに限らず、アンテナ一体型のチューナ等、この他種々の受信部を広く適用することができる。
さらに上述した第2の実施の形態においては、受信部が生成した受信信号から混在データを生成するデータ処理部として、図28について上述した中央処理ユニット50及びデータ処理部57を適用するようにした場合について述べたが、本発明はこれに限らず、受信部が生成した受信信号から混在データを生成するハードウェア構成のデータ処理回路等のように、この他種々のデータ処理部を広く適用することができる。
さらに上述した第2の実施の形態においては、記区間特定部により音楽部分区間と会話部分区間とを特定された混在データを、音楽部分区間の音楽部分区間データと会話部分区間の会話部分区間データとに分割する分割部として、図28について上述した中央処理ユニット50を適用するようにした場合について述べたが、本発明はこれに限らず、記区間特定部により音楽部分区間と会話部分区間とを特定された混在データを、音楽部分区間の音楽部分区間データと会話部分区間の会話部分区間データとに分割するハードウェア構成の分割回路等のように、この他種々の分割部を広く適用することができる。
さらに上述した第2の実施の形態においては、データ記録プログラム等の各種プログラムを、ROM52又はハードディスクドライブ53に記録しておくようにした場合について述べたが、本発明はこれに限らず、データ記録プログラム等の各種プログラムを記録媒体に記録しておくようにして、かかる記録媒体から読み出して実行しても良いし、かかる記録媒体からROM52又はハードディスクドライブ53にインストールし、その後に実行するようにしても良い。
さらに上述した第1及び第2の実施の形態においては、音楽部分と会話部分とが混在して形成された混在データとして、図1乃至図28について上述したラジオ局から放送されたラジオ番組の番組データを適用するようにした場合について述べたが、本発明はこれに限らず、テレビ局から放送されたテレビ番組のビデオデータや、インターネット上の音声コンテンツデータ及び動画コンテンツデータ等、種々の混在データを適用するようにしても良い。これに加えて、他の記録媒体に記録されている番組データ等を読み出して上述の処理を行うようにしても良く、混在データの種類及び取得方法については特に限定しない。
1、10、100……データ記録装置、2、18……曲らしさ検出部、3、19……音量レベル検出部、4、20……区間特定部、5、15……記録部、11…受信部、13、57……データ処理部、16……一時記憶部、21……分割部、50……中央処理ユニット、53……ハードディスクドライブ、55……操作キー、59……チューナ、KP……区間境界候補位置、LL……最低音量レベル位置、LS……無音区間、MKH……音楽仮定保留状態、MK……音楽仮定状態、MD……音楽確定状態、MDT……音楽確定待機状態、MKT……音楽仮定待機状態、TK……会話仮定状態、TKT……会話仮定待機状態、TKH……会話仮定保留状態、TD……会話確定状態、TDT……会話確定待機状態、SA……区間境界候補範囲、RT1…第1の範囲検出区間特定処理手順、RT2……第2の範囲検出区間特定処理手順、RT3……第1の無音検出区間特定処理手順、RT4……第2の無音検出区間特定処理手順、RT5……第1の無音区間判別処理手順、RT6……第2の無音区間判別処理手順、RT7……第1の状態遷移保留処理手順、RT……第2の状態遷移保留処理手順。