JP2008076776A

JP2008076776A - データ記録装置、データ記録方法及びデータ記録プログラム

Info

Publication number: JP2008076776A
Application number: JP2006256501A
Authority: JP
Inventors: Takashi Yamane; 孝志山根; Susumu Ijichi; 晋伊地知; Takeshi Iwazu; 健岩津
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2006-09-21
Filing date: 2006-09-21
Publication date: 2008-04-03
Also published as: EP1903575A3; CN101166033A; CN101166033B; KR20080027165A; EP1903575A2; US20080077263A1

Abstract

【課題】音楽データを含むデータから音楽データを高精度に特定して記録する。
【解決手段】本発明は、番組データの曲らしさを検出すると共に番組データの音量レベルを検出し、曲らしさと音量レベルとの検出結果に応じて、番組データの音楽部分区間と会話部分区間とを特定して、かかる特定された番組データを記録するようにしたことにより、番組データを記録するとき、曲らしさでは最終的に各区間を高精度に特定し難いような番組データの音楽部分区間と会話部分区間とを、音量レベルで補うように特定して記録することができると共に、音量レベルでは最終的に各区間を高精度に特定し難いような番組データの音楽部分区間と会話部分区間とを、曲らしさで補うように特定して記録することができ、かくして、音楽データを含む番組データから、音楽データを高精度に特定して記録することができる。
【選択図】図２０

Description

本発明はデータ記録装置、データ記録方法及びデータ記録プログラムに関し、例えばラジオの放送局（以下、これをラジオ局と呼ぶ）により放送されたラジオ番組の番組データを記録するデータ記録装置に適用して好適なものである。

従来のデータ記録装置は、ラジオ局から放送されたラジオ番組を番組データとして受信する。かかる番組データには、当該番組データの一部としての音楽データの区間の先頭から後尾にかけて当該音楽データに関連する文字情報が連続的に多重化されている。またデータ記録装置には、番組データに多重化されている文字情報との比較用に所望のキーワードが予め入力されている。そしてデータ記録装置は、番組データを受信したとき、キーワードを番組データに多重化されている文字情報と比較して、番組データの中でキーワードと一致する文字情報が多重化されている区間を検出すると共に、番組データから検出した区間のデータ（以下、これを区間データと呼ぶ）を切り出して記録していた（例えば特許文献１参照）。
特開平１０−５１３３７号公報

ところで、かかる構成のデータ記録装置は、番組データから区間データを検出する精度が、番組データに対して後から多重化された文字情報の位置の精度に依存しているので、番組データから区間データを必ずしも精度良く検出しているとは言えないという問題があった。

本発明は以上の点を考慮してなされたもので、音楽データを含むデータから音楽データを高精度に特定して記録し得るデータ記録装置、データ記録方法及びデータ記録プログラムを実現する。

かかる課題を解決するため本発明においては、音楽部分と、会話部分とが混在して形成された混在データから、当該混在データがどれだけ音楽らしいかを表す曲らしさを検出する曲らしさ検出部と、混在データの音量レベルを検出する音量レベル検出部と、曲らしさ検出部により検出された曲らしさと、音量レベル検出部により検出された音量レベルとに応じて、混在データの中で、音楽部分に相当する音楽部分区間と、会話部分に相当する会話部分区間とを特定する区間特定部と、区間特定部により音楽部分区間と会話部分区間とが特定された混在データを記録する記録部とを設けるようにした。

従って本発明では、音楽部分と、会話部分とが混在して形成された混在データから、当該混在データがどれだけ音楽らしいかを表す曲らしさを検出すると共に混在データの音量レベルを検出し、曲らしさと音量レベルとに応じて、混在データの中で、音楽部分に相当する音楽部分区間と、会話部分に相当する会話部分区間とを特定して、音楽部分区間と会話部分区間とが特定された混在データを記録することで、混在データを記録するとき、曲らしさでは最終的に各区間を高精度に特定し難いような混在データの音楽部分区間と会話部分区間とを、音量レベルで補うように特定して記録することができると共に、音量レベルでは最終的に各区間を高精度に特定し難いような混在データの音楽部分区間と会話部分区間とを、曲らしさで補うように特定して記録することができる。

本発明によれば、音楽部分と、会話部分とが混在して形成された混在データから、当該混在データがどれだけ音楽らしいかを表す曲らしさを検出すると共に混在データの音量レベルを検出し、曲らしさと音量レベルとに応じて、混在データの中で、音楽部分に相当する音楽部分区間と、会話部分に相当する会話部分区間とを特定して、音楽部分区間と会話部分区間とが特定された混在データを記録することで、混在データを記録するとき、曲らしさでは最終的に各区間を高精度に特定し難いような混在データの音楽部分区間と会話部分区間とを、音量レベルで補うように特定して記録することができると共に、音量レベルでは最終的に各区間を高精度に特定し難いような混在データの音楽部分区間と会話部分区間とを、曲らしさで補うように特定して記録することができ、かくして、音楽データを含むデータから音楽データを高精度に特定して記録し得るデータ記録装置、データ記録方法及びデータ記録プログラムを実現できる。

以下図面について、本発明の一実施の形態を詳述する。

（１）第１の実施の形態
（１−１）第１の実施の形態の概要
図１において、１は全体として第１の実施の形態によるデータ記録装置の構成の概要を示す。データ記録装置１の曲らしさ検出部２は、音楽部分と会話部分とが混在して形成された混在データから、当該混在データがどれだけ音楽らしいかを表す曲らしさを検出する。またデータ記録装置１の音量レベル検出部３は、混在データの音量レベルを検出する。さらにデータ記録装置１の区間特定部４は、曲らしさ検出部２により検出した曲らしさと、音量レベル検出部３により検出した音量レベルとに応じて、混在データの中で、音楽部分に相当する音楽部分区間と、会話部分に相当する会話部分区間とを特定する。さらにデータ記録装置１の記録部５は、区間特定部４により音楽部分区間と会話部分区間とが特定された混在データを記録する。かかる構成によりデータ記録装置１は、混在データを記録するとき、曲らしさでは最終的に各区間を高精度に特定し難いような混在データの音楽部分区間と会話部分区間とを、音量レベルで補うように特定して記録することができると共に、音量レベルでは最終的に各区間を高精度に特定し難いような混在データの音楽部分区間と会話部分区間とを、曲らしさで補うように特定して記録することができ、かくして、音楽データを含むデータから音楽データを高精度に特定して記録し得る。

（１−２）第１の実施の形態によるデータ記録装置の詳細構成
次いで図２を用いて、データ記録装置１０の機能回路ブロックによる詳細なハードウェア構成を説明する。

かかるデータ記録装置１０の受信部１１は、操作部１２を介してラジオ局が選局されラジオ番組の出力が要求されると、複数のラジオ局のラジオ放送波のうち、ユーザにより選局されたラジオ局のラジオ番組に対応するラジオ放送波を抽出して復調処理等の所定の受信処理を施し、この結果得られたラジオ番組の番組信号をデータ処理部１３に送出する。データ処理部１３は、受信部１１から与えられた番組信号に対しアナログデジタル変換処理及びイコライジング処理等のデジタル処理を施して番組データを生成する。このとき、かかる番組データには、例えばラジオ番組の中で流れた音楽に対応する音楽部分や、会話に対応する会話部分等が混在している。ここでラジオ番組の中の会話とは、司会者とゲストのトーク、ニュースや交通情報や天気用法のキャスターの喋るセリフ、コマーシャルの中に含まれる会話やセリフ、落語や朗読、等のことを指す。そしてデータ処理部１３は、当該生成した番組データに対しデジタルアナログ変換処理及び増幅処理等のアナログ処理を施す。これによりデータ処理部１３は、かかるアナログ処理に応じて番組信号を得て、これを出力部１４に送出することで、当該出力部１４から番組信号に基づくラジオ番組の音声を出力させてユーザに聴取させる。このようにしてデータ記録装置１０は、ユーザに対し所望のラジオ局で放送されているラジオ番組を聴かせることができる。

また受信部１１は、操作部１２を介してラジオ局が選局され、ラジオ番組の録音が要求されると、上述と同様にラジオ放送波を抽出して復調処理等の所定の受信処理を施し、この結果得られたラジオ番組の番組信号をデータ処理部１３に送出する。データ処理部１３は、受信部１１から与えられた番組信号に対しデジタル処理を施し、その結果得られた番組データを記録部１５に送出する。記録部１５は、データ処理部１３から与えられた番組データをデータファイルとして記録する。このようにしてデータ記録装置１０は、所望のラジオ局で放送されているラジオ番組を録音することができる。

この後、データ記録装置１０の記録部１５は、操作部１２を介して番組データの再生が要求されると、当該再生が要求された番組データを読出し、これをデータ処理部１３に送出する。データ処理部１３は、記録部１５から与えられた番組データに対し所定のデジタル処理を施した後、このデジタル処理した番組データに対しデジタルアナログ変換処理及び増幅処理等のアナログ処理を施す。これによりデータ処理部１３は、かかるアナログ処理に応じて番組信号を得て、これを出力部１４に送出することで、当該出力部１４から番組信号に基づくラジオ番組を出力させてユーザに聴取させる。このようにしてデータ記録装置１０は、ユーザに対し録音したラジオ番組を聴かせることができる。

また、データ記録装置１０には、一時記憶部１６が設けられている。一時記憶部１６は、ラジオ番組の聴取時、データ処理部１３が生成した番組データを、アナログ処理して出力部１４から出力するのとは別に、所定時間だけ一時記憶するようになされている。

これによりデータ記録装置１０は、ラジオ番組の聴取時、出力部１４からラジオ番組を出力させると共に、当該出力するラジオ番組に対応する番組データを、一時記憶部１６で一時記憶しておくことができる。そしてデータ記録装置１０は、操作部１２を介して一度出力したラジオ番組の再出力が要求されると、一時記憶部１６から読み出した所定時間分の出力に相当する番組データを、データ処理部１３でアナログ処理して番組信号を得、かかる番組信号に応じたラジオ番組を、出力部１４を介して再出力することができる。このようにしてデータ記録装置１０は、ユーザがトイレ等で席を外したことにより、出力中のラジオ番組の一部を聴取させられなかったときに、ユーザの要求に応じて、ラジオ番組のうち既に出力してしまった部分を、所定時間だけ時系列的に遡って出力して聴取させることができる。

さらにデータ記録装置１０の表示部１７は、図示しないメモリや記録部１５から読み出した、ラジオ番組の出力や録音等の各種プログラムの実行結果に応じ、ラジオ番組の出力や録音等に関する各種画面を表示してユーザに視認させ得るようになされている。

かかる構成に加えてデータ記録装置１０には、曲らしさ検出部１８が設けられている。曲らしさ検出部１８は、ラジオ番組の録音時、データ処理部１３で生成された番組データが、どれだけ音楽（すなわち曲）らしいかを数値化して表す曲らしさを検出するようになされている。

ここで曲らしさ検出部１８による曲らしさの検出手法としては、例えば３種類ある。これら３種類の曲らしさ検出手法のうち第１の曲らしさ検出手法は、音楽と会話とでは、１オクターブの１２音階それぞれに相当する周波数帯域毎のエネルギーの分布が異なることを利用するものである。すなわち第１の曲らしさ検出手法は、番組データを所定の処理単位のデータ（例えば、ラジオ番組の１秒程度の番組データに相当し、以下、これを処理単位データと呼ぶ）を１２音階それぞれの周波数帯域のエネルギーを抽出し、その抽出結果に基づき曲らしさを検出するものである。第２の曲らしさ検出手法は、人の声の周波数成分が比較的低域側に分布し、かつ楽器等の音の周波数成分が比較的高域側に分布していることを利用するものである。すなわち第２の曲らしさ検出手法は、処理単位データを周波数分析し、その分析結果に基づき曲らしさを検出するものである。また第３の曲らしさ検出手法は、一般に音声データが人の声の生成機構をモデル化してエンコード処理（すなわち、圧縮処理）されているために、楽曲等の声以外の部分のデータをエンコード処理した場合にそのデータの元の波形と、当該データをコーデック処理（すなわち、一旦エンコード処理した後デコード処理）して得られた処理結果データの波形との差分（以下、これをエンコード誤差と呼ぶ）が、声の部分のデータから得られるエンコード誤差に比して大きくなることを利用するものである。すなわち第３の曲らしさ検出手法は、処理単位データのエンコード誤差に基づき曲らしさを検出するものである。そして、かかる曲らしさ検出部１８には、これら３種類の曲らしさ検出手法のうち何れか１つが適用されていることにより、以下には、これら３種類の曲らしさ検出手法について順番に説明する。

まず曲らしさ検出部１８に対し第１の曲らしさ検出手法が適用されている場合、かかる曲らしさ検出部１８は、図示しないメモリに予め記憶している曲らしさ検出プログラムに従って第１の曲らしさ検出処理を開始する。曲らしさ検出部１８は、かかる第１の曲らしさ検出処理を開始すると、データ処理部１３から与えられる番組データの中の処理単位データから、１オクターブの１２音階それぞれに相当する周波数帯域毎のエネルギーを抽出する。そして曲らしさ検出部１８は、処理単位データ毎のエネルギーを得ると、次いで、その周波数帯域毎のエネルギーをもとに曲らしさ数値化処理を実行する。これにより曲らしさ検出部１８は、番組データの処理単位データ毎に、どれだけ音楽（すなわち曲）らしいかを数値化して表す曲らしさＭＳを検出するようになされている。この曲らしさＭＳは、ラジオ番組において、音楽が支配的な箇所では比較的大きくなり、人の声が支配的な箇所では比較的小さくなるようになされている。

次いで曲らしさ検出部１８は、番組データ全体の処理単位データについて曲らしさＭＳを検出し終えるまで、上述した処理を循環的に繰り返し実行する。そして曲らしさ検出部１８は、番組データ全体の処理単位データに対する曲らしさＭＳの検出が完了すると、かかる第１の曲らしさ検出処理を終了する。

このようにして曲らしさ検出部１８は、第１の曲らしさ検出手法が適用されている場合、番組データの処理単位データ毎に順次、曲らしさＭＳを検出する。

また曲らしさ検出部１８に対し第２の曲らしさ検出手法が適用されている場合、かかる曲らしさ検出部１８は、図示しないメモリに予め記憶している曲らしさ検出プログラムに従って第２の曲らしさ検出処理を開始する。曲らしさ検出部１８は、かかる第２の曲らしさ検出処理を開始すると、データ処理部１３から与えられる番組データの中の処理単位データ（例えば、ラジオ番組の放送中の時刻がタイムコードとして付加されている番組データの中で、当該タイムコードとしてのある時刻ｔを基点とした当該時刻ｔの経過側への1024サンプルのデータでなる）を取り込む。そして曲らしさ検出部１８は、その処理単位データに対し高速フーリエ変換（FFT:fast Fourier Transfer ）演算を施すことにより、当該処理単位データを周波数スペクトルに分解する。

さらに曲らしさ検出部１８は、周波数スペクトルｓｐを例えば８〔ＫＨｚ〕の周波数を境界として低域の周波数スペクトルｓｐ_ｎと高域の周波数スペクトルｓｐ_ｎとに分ける。因みに番組データのサンプリング周波数が44.1〔ＫＨｚ〕の場合、低域の周波数スペクトルｓｐ_ｎはｓｐ_０乃至ｓｐ_１８５となり、高域の周波数スペクトルｓｐ_ｎはｓｐ_１８６乃至ｓｐ_５１１となる。また曲らしさ検出部１８は、低域のパワースペクトルａを（１）式

で表されるように、低域の周波数スペクトルｓｐ_０乃至ｓｐ_１８５の大きさ成分を２乗して算出すると共に、高域のパワースペクトルｂを（２）式

で表されるように、高域の周波数スペクトルｓｐ_１８６乃至ｓｐ_５１１の大きさ成分を２乗して算出する。

そして曲らしさ検出部１８は、低域のパワースペクトルａと高域のパワースペクトルｂとの比率（以下、これをパワースペクトル比率と呼ぶ）Ｒ_ｔを（３）式

に従って算出する。

そして曲らしさ検出部１８は、移動平均値の算出手法を用いて、この時点までに求めた合計ｎ個のパワースペクトル比率Ｒ_ｔ−ｎの移動平均の数値ｘを（４）式

に従って求め、その移動平均の数値ｘを曲らしさＭＳとする。

次いで曲らしさ検出部１８は、番組データ全体の処理単位データについて曲らしさを検出し終えるまで、上述した処理を循環的に繰り返し実行する。そして曲らしさ検出部１８は、番組データ全体の処理単位データに対する曲らしさＭＳの検出が完了すると、かかる第２の曲らしさ検出処理を終了する。

このようにして曲らしさ検出部１８は、第２の曲らしさ検出手法が適用されている場合、上述した（３）式からも明らかなように、番組データでのラジオ番組の番組として人の声が支配的な箇所では曲らしさＭＳが比較的小さくなり、これに対し人の声以外の楽器の音等が支配的な箇所では曲らしさＭＳが比較的大きくなることを利用して、番組データの処理単位データ毎に順次曲らしさＭＳを検出する。

さらに曲らしさ検出部１８に対し第３の曲らしさ検出手法が適用されている場合、かかる曲らしさ検出部１８は、図示しないメモリに予め記憶している曲らしさ検出プログラムに従って第３の曲らしさ検出処理を開始する。曲らしさ検出部１８は、かかる第３の曲らしさ検出処理を開始すると、データ処理部１３から与えられる番組データの中の処理単位データ（例えば、番組データに付加されたタイムコードとしてのある時刻ｔを基点とした当該時刻ｔの経過側への200 サンプルのデータでなる）を取り込む。そして曲らしさ検出部１８は、その処理単位データのサンプリング周波数を変換する。因みに曲らしさ検出部１８は、このとき処理単位データのサンプリング周波数を、後のコーデック処理（例えば、ＣＥＬＰ（Code Excited Linear Prediction）方式に準じたコーデック処理）で扱うことのできる周波数に合わせるように例えば８〔ＫＨｚ〕又は16〔ＫＨｚ〕に変換する。

また曲らしさ検出部１８は、処理単位データに対しコーデック処理（すなわち、一旦エンコード処理した後、デコード処理する）。そして曲らしさ検出部１８は、処理単位データの元の波形ｃと、その処理単位データをコーデック処理して得られた例えば元と同じ200サンプルのデータでなる処理結果データの波形ｄとからエンコード誤差Ｅ_ｔを（５）式

で表されるように、互いのサンプル同士の差分を求めるように算出する。因みに曲らしさ検出部１８は、（５）式に示す演算を実行する場合、処理単位データに対するコーデック処理の開始から、当該処理単位データをコーデック処理して処理結果データを得るまでの遅延ｄｅｌａｙを考慮してエンコード誤差Ｅ_ｔを算出している。

そして曲らしさ検出部１８は、移動平均値の算出手法を用いて、この時点までに求めた合計ｎ個のエンコード誤差Ｅ_ｔの移動平均の数値ｘを（６）式

次いで曲らしさ検出部１８は、番組データ全体の処理単位データについて曲らしさＭＳを検出し終えるまでの間、上述した処理を循環的に繰り返し実行する。そして曲らしさ検出部１８は、番組データ全体の処理単位データに対する曲らしさＭＳの検出が完了すると、かかる第３の曲らしさ検出処理を終了する。

このようにして曲らしさ検出部１８は、第３の曲らしさ検出手法が適用されている場合、上述した（５）式からも明らかなように、番組データでのラジオ番組の番組として人の声が支配的な箇所では曲らしさＭＳが比較的小さくなり、これに対し人の声以外の楽器の音等が支配的な箇所では曲らしさＭＳが比較的大きくなることを利用して、番組データの処理単位データ毎に順次、曲らしさＭＳを検出する。

またデータ記録装置１０には、音量レベル検出部１９が設けられている。かかる音量レベル検出部１９は、ラジオ番組の録音時、データ処理部１３で生成された番組データの音量レベルを検出するようになされている。ちなみに、音量レベル検出部１９による音量レベルの検出は、ラジオ番組の１／１２８秒程度の時間毎に行われる。

さらにデータ記録装置１０には、区間特定部２０が設けられている。かかる区間特定部２０は、ラジオ番組の録音時、曲らしさ検出部１８が検出した曲らしさと、音量レベル検出部１９が検出した音量レベルとに応じて、データ処理部１３で生成された番組データの中で、音楽部分に相当する音楽部分区間と会話部分に相当する会話部分区間とを特定するようになされている。

さらにデータ記録装置１０には、分割部２１が設けられている。かかる分割部２１は、ラジオ番組の録音時、区間特定部２０が特定した、番組データの各音楽部分区間及び会話部分区間を、それぞれ音楽部分区間データ及び会話部分区間データとして番組データから分割するようになされている。

（１−３）ラジオ番組の分割録音
以下、番組データの中で音楽部分区間と会話部分区間とを特定すると共に、特定した各会話部分区間及び各会話部分区間をそれぞれ分割して録音するラジオ番組分割録音処理について詳述する。

受信部１１は、操作部１２を介してラジオ局が選局され、ラジオ番組を区間毎に分割して録音することが要求されると、ラジオ番組分割録音処理を開始し、上述と同様にラジオ局のラジオ放送波を抽出して復調処理等の所定の受信処理を施し、この結果得られたラジオ番組の番組信号をデータ処理部１３に送出する。データ処理部１３は、受信部１１から与えられた番組信号に対しデジタル処理を施し、その結果得られた番組データを処理単位データ毎に曲らしさ検出部１８、音量レベル検出部１９及び分割部２１に送出する。

曲らしさ検出部１８は、データ処理部１３から処理単位データが与えられたとき、上述した３種類の検出手法のいずれかを用いることにより曲らしさＭＳを検出するようにして、かかる曲らしさＭＳの検出を番組データ全体に対して実行する。そして曲らしさ検出部１８は、このようにして検出した曲らしさＭＳを、区間特定部２０に送出する。

音量レベル検出部１９は、データ処理部１３から処理単位データが与えられると、かかる処理単位データの中の音量レベルＶＳを１／１２８秒程度の時間毎に検出するようにして、かかる音量レベルＶＳの検出を番組データ全体に対して実行する。そして音量レベル検出部１９は、このようにして検出した音量レベルＶＳを、区間特定部２０に送出する。

区間特定部２０は、曲らしさ検出部１８から送出される曲らしさＭＳと、音量レベル特定部１９から送出される音量レベルＶＳとに応じて、データ処理部１３で生成された番組データの中に混在している音楽部分区間と会話部分区間とを特定し、かかる区間の特定結果としての区間特定情報ＤＩを生成して分割部２１へ送出する。この区間特定情報ＤＩは、例えば、「ラジオ番組の４５１５ｍｓｅｃ〜１００６８７ｍｓｅｃまでの番組データの区間は音楽部分区間（０と１とで二値化したときの１）で、１００６８７ｍｓｅｃ〜２５３５９４ｍｓｅｃまでの番組データの区間は会話部分区間（０と１とで二値化したときの０）である」のようにして、番組データの中に混在している音楽部分区間と会話部分区間とを特定する情報である。

分割部２１は、区間特定部２０から送出された区間特定情報ＤＩに応じて、データ処理部１３から送出された番組データの中に混在している各音楽部分区間と各会話部分区間とをそれぞれ特定する。そして分割部２１は、番組データの音楽部分区間を特定した場合には、番組データの音楽部分区間を形成するひとまとまりのデータを音楽部分区間データとして分割して記録部１５に送出する。一方で分割部２１は、番組データの会話部分区間を特定した場合には、番組データの会話部分区間を形成するひとまとまりのデータを会話部分区間データとして分割して記録部１５に送出する。

記録部１５は、分割部２１から与えられる各音楽部分区間データ及び各会話部分区間データを、それぞれ別のデータファイルとして順次記録するようにして、番組データを各区間毎に分割して記録すると共に、操作部１２を介してラジオ番組の録音終了が要求されると、かかるラジオ番組分割録音処理を終了する。

このようにしてデータ記録装置１０は、ラジオ番組分割録音処理時、番組データを、音楽部分区間データ及び会話部分区間データに分割して記録部１５に記録する。従ってデータ記録装置１０は、記録した番組データを再生するとき、ユーザに対し、番組データの先頭から順に再生して当該番組データの内容を確認させること無しに、分割して記録されている音楽部分区間データ及び会話部分区間データに直接アクセスして再生するだけで、ユーザに対し、音楽部分区間データ及び会話部分区間データの内容を確認させることができる。

（１−４）番組データの区間の特定
次いで、区間特定部２０において、曲らしさＭＳと音量レベルＶＳとに応じて、番組データの中に混在している音楽部分区間と会話部分区間とを特定する方法について詳述する。

まず、図３を用いて、区間特定部２０の機能的な回路構成を説明する。区間特定部２０には、区間特定制御部３１が設けられており、この区間特定制御部３１が区間特定部内での信号及びデータの受け渡しを統括して制御すると共に、番組データの中で音楽部分区間と会話部分区間とを最終的に特定して区間特定情報ＤＩを生成する。

また区間特定部２０には、入力処理部３２が設けられている。かかる入力処理部３２は、曲らしさ検出部１８から送出される曲らしさＭＳと、音量レベル検出部１９から送出される音量レベルＶＳとの入力を受け付けると共に、当該入力を受け付けた曲らしさＭＳと音量レベルＶＳとを所定の単位処理データ毎に区間特定制御部３１に送出する。

さらに区間特定部２０には、曲らしさ解析処理部３３が設けられている。かかる曲らしさ解析処理部３３は、区間特定制御部３１を介して得た曲らしさＭＳが、所定の判別閾値以上に変化する、又は判別閾値未満に変化する（以下、曲らしさＭＳが判別閾値以上に変化する、又は曲らしさＭＳが未満に変化することを、単に、曲らしさＭＳが判別閾値を越えるとも言う）ことを検出し、かかる検出結果を区間特定制御部３１に送出する。

さらに区間特定部２０には、音量レベル解析処理部３４が設けられている。かかる音量レベル解析処理部３４は、区間特定制御部３１を介して得た音量レベルＶＳに応じて、番組データでのラジオ番組における音量レベルを解析する。具体的には、音量レベル解析処理部３４は、区間特定制御部３１の制御により番組データの所定の範囲内で音量レベルが最も低い位置（以下、これを最低音量レベル位置と呼ぶ）ＬＬを検出したり、所定の閾値よりも低い音量レベルＶＳ（すなわち無音）を所定の時間（例えば１．５秒）以上のあいだ継続する区間（以下、これを無音区間と呼ぶ）ＬＳを検出して、その検出結果を区間特定制御部３１に送出する。ちなみにこの最低音量レベル位置ＬＬ及び無音区間ＬＳは、番組データの中で各区間同士が切り換わる位置（すなわち境界）である可能性が高く、区間の特定の重要な手がかりとなる。

さらに区間特定部２０には、出力処理部３５が設けられている。かかる出力処理部３５は、区間特定制御部３１が生成する区間の特定結果としての区間特定情報ＤＩを取得して分割部２１に送出する。

これにより区間特定部２０において区間特定制御部３１は、入力処理部３２に対して曲らしさＭＳと音量レベルＶＳとが入力されると、曲らしさＭＳを曲らしさ解析処理部３３に送出すると共に、音量レベルＶＳを音量レベル解析処理部３４にも送出する。曲らしさ解析処理部３３は、区間特定制御部３１の制御により、曲らしさＭＳが判別閾値を越えることを検出して、その検出結果を区間特定制御部３１に送出する。音量レベル解析処理部３４は、区間特定制御部３１の制御により、最低音量レベル位置ＬＬ及び無音区間ＬＳを検出して、その検出結果を区間特定制御部３１に送出する。このようにして区間特定制御部３１は、例えば図４に示すような、処理時間軸ＡＸ１に沿って変化する曲らしさＭＳと音量レベルＶＳとを得る。

ここで区間特定制御部３１による番組データの中の区間特定の手法としては、例えば４種類があり、選択することにより、任意の区間特定の手法を実行できるようになされている。以下、第１〜第４の区間特定の手法について順に説明する。

第１の区間特定の手法の場合、区間特定制御部３１は、音楽部分区間と会話部分区間とを特定する際に、図５に示すように、曲らしさＭＳに応じた第１の状態から第４の状態までの４つの処理状態を取るようになされており、曲らしさ解析処理部３３から送出される曲らしさＭＳに応じてかかる４つの処理状態の間を遷移するようになされている。第１の状態は、現時点の曲らしさＭＳが、判別閾値（例えば、かかる構成の場合、曲らしさＭＳは０〜１までの数値で表され、判別閾値は例えば０．５である）未満であることに応じて、番組データの中の当該曲らしさＭＳに対応する部分が会話部分区間である（すなわち、ラジオ番組の中の会話である）と確定している状態（以下、これを会話確定状態ＴＤと呼ぶ）である。第２の状態は、会話確定状態ＴＤにおいて曲らしさＭＳが判別閾値以上になったときに、番組データの中の当該曲らしさＭＳに対応する部分が会話部分区間から音楽部分区間に切り換わった可能性がある（すなわち、ラジオ番組の中で会話が一旦終了して音楽が流され始めた可能性がある）と仮定して、区間の境界の有無を判別するために会話確定状態ＴＤから一旦遷移する処理状態（以下、これを音楽仮定状態ＭＫと呼ぶ）である。第３の状態は、現時点の曲らしさＭＳが判別閾値以上であることに応じて、番組データの中の当該曲らしさＭＳに対応する部分が音楽部分区間である（すなわち、ラジオ番組の中の音楽である）と確定している状態（以下、これを音楽確定状態ＭＤと呼ぶ）である。第４の状態は、音楽確定状態ＭＤにおいて曲らしさＭＳが判別閾値未満になったときに、番組データの中の当該曲らしさＭＳに対応する部分が音楽部分区間から会話部分区間に切り換わった可能性がある（すなわち、ラジオ番組の中で音楽が一旦終了して会話が流され始めた可能性がある）と仮定して、区間の境界の有無を判別するために音楽確定状態ＭＤから一旦遷移する処理状態（以下、これを会話仮定状態ＴＫと呼ぶ）である。

これにより区間特定制御部３１は、会話確定状態ＴＤ及び音楽確定状態ＭＤにおいて曲らしさＭＳが判別閾値を越えることを起点として処理状態を遷移することにより、番組データの音楽部分区間と会話部分区間とを特定するようになされている。以下、会話確定状態ＴＤにおいて曲らしさＭＳが判別閾値以上に変化する場合と、音楽確定状態ＭＤにおいて曲らしさＭＳが判別閾値未満に変化する場合とに話を分けて説明する。

（１−４−１）会話確定状態において曲らしさが判別閾値以上に変化する場合
まず区間特定制御部３１は、例えば図４に示すように、判別閾値未満の曲らしさＭＳが曲らしさ解析処理部３３から送出されると、ラジオ番組の会話であると判別して、処理状態を会話確定状態ＴＤに遷移すると共に、曲らしさ解析処理部３３から新たに送出される曲らしさＭＳが判別閾値未満である限りは、会話確定状態ＴＤを継続する。また区間特定制御部３１は、会話確定状態ＴＤにおいて、新たに曲らしさ解析処理部３３から送出される曲らしさＭＳが判別閾値以上になった場合には、ラジオ番組の中で会話が終了して音楽が流され始めた可能性があることに応じて、番組データの中で会話部分区間が音楽部分区間へと切り換わった範囲を曲らしさＭＳにより検出することを起点として番組データの中で会話部分区間と音楽部分区間とを特定する第１の範囲検出区間特定処理を開始する。

区間特定制御部３１は、かかる第１の範囲検出区間特定処理を開始すると、番組データ上の曲らしさＭＳが判別閾値以上に変化することに応じ、処理状態を遷移する基準位置（以下、これを状態遷移位置と呼ぶ）ＳＰを中心として処理時間軸ＡＸ１で前後に数秒程度の幅をもった範囲を、番組データの中で会話部分区間から音楽部分区間へと切り換わった境界である可能性が高い範囲（以下、これを区間境界候補範囲と呼ぶ）ＳＡとして検出する。そして区間特定制御部３１は、当該検出した区間境界候補範囲ＳＡにおいて、最低音量レベル位置ＬＬを音量レベル解析処理部３４により検出すると共に、当該検出した最低音量レベル位置ＬＬを、番組データの中で会話部分区間から音楽部分区間へと区間が切り換わった境界である可能性が高い位置（以下、これを区間境界候補位置と呼ぶ）ＫＰとして図示しないメモリに記憶する。そして区間特定制御部３１は、処理状態を会話確定状態ＴＤから音楽仮定状態ＭＫに遷移する。

区間特定制御部３１は、音楽仮定状態ＭＫにおいて、所定の判別時間（以下、これを音楽仮定判別時間と呼ぶ）の間、曲らしさ解析処理部３３から送出される曲らしさＭＳの数値が判別閾値以上であるか否かを監視する。この音楽仮定判別時間は、例えば、ラジオ番組の会話中に短時間だけ挿入されたベル音や音楽の一部分を、番組データの音楽部分区間として特定しない程度の時間長に設定されている（この場合、例えば３０秒）。

区間特定制御部３１は、音楽仮定状態ＭＫにおいて、かかる音楽仮定状態ＭＫを継続している時間（以下、これを音楽仮定継続時間と呼ぶ）Ｔｍを計時して音楽仮定判別時間以上に変化するまでの間に、曲らしさ解析処理部３３から送出される新たな曲らしさＭＳの数値が判別閾値未満に変化した場合、これは例えばラジオ番組の会話部分にベル音や音楽の一部分が短時間だけ挿入されたことに応じて曲らしさＭＳが短時間だけ判別閾値以上になっただけであると判別し、処理状態を音楽仮定状態ＭＫから会話確定状態ＴＤに戻すように遷移する。また、区間特定制御部３１は、音楽仮定状態ＭＫにおいて、音楽仮定継続時間Ｔｍが音楽仮定判別時間以上に変化するまでの間、曲らしさ解析処理部３３から判別閾値以上の曲らしさＭＳが継続して与えられている場合には、判断を保留して音楽仮定状態ＭＫを継続する。さらに区間特定制御部３１は、音楽仮定状態ＭＫにおいて、曲らしさＭＳの数値が判別閾値以上を継続したまま音楽仮定継続時間Ｔｍが音楽仮定判別時間以上になった場合には、ラジオ番組の中で会話が一旦終了して音楽が流され始めたと判別し、区間境界候補位置ＫＰを区間境界と特定して、番組データの中で、区間境界よりも時系列的に手前側を会話部分区間と特定すると共に区間境界よりも時系列的に後ろ側を音楽部分区間と特定する。そして区間特定制御部３１は、処理状態を音楽仮定状態ＭＫから音楽確定状態ＭＤに遷移して第１の範囲検出区間特定処理を終了すると共に、区間の特定結果としての区間特定情報ＤＩを生成して出力処理部３５を介して分割部２１へ送出する。

このようにして区間特定制御部３１は、第１の範囲検出区間特定処理時、曲らしさＭＳと音量レベルＶＳとに応じて、番組データの会話部分区間と音楽部分区間とを特定する。すなわち区間特定制御部３１は、番組データの中で会話部分区間と音楽部分区間とが切り換わったことは検出できるものの、番組データの会話部分区間と音楽部分区間との間の具体的な境界を特定し難い曲らしさＭＳと、番組データの会話部分区間と音楽部分区間との間の具体的な境界は特定できるものの、番組データの会話部分区間と音楽部分区間とが切り換わったことは検出し難い音量レベルＶＳとに応じて、番組データの会話部分区間と音楽部分区間とを特定するようにしたことにより、番組データの会話部分区間と音楽部分区間とを高精度に特定することができる。

また区間特定制御部３１は、第１の範囲検出区間特定処理時、曲らしさＭＳが判別閾値以上に変化することに応じて区間境界候補範囲ＳＡを検出すると共に、当該区間境界候補範囲ＳＡの中で音量レベルＶＳが低くなることに応じて区間境界候補位置ＫＰを検出するようにして、番組データの会話部分区間から音楽部分区間へと切り換わった位置を特定する。従って区間特定制御部３１は、ラジオ番組の会話と音楽とが無音区間ＬＳを挟むことなく切り換わる場合や、ラジオ番組の会話と音楽とが一部分だけ重なって切り換わるような場合に、音楽だけが流され始めた位置で音量レベルＶＳの変動があれば、そのラジオ番組の中で会話から音楽への間断無い切り換えの範囲を、曲らしさＭＳが判別閾値以上に変化したことに応じて検出すると共に、当該検出した範囲の中で、ラジオ番組の中で音楽だけが流され始めた位置を、音量レベルＶＳが低くなることに応じて検出して、番組データの会話部分区間と音楽部分区間とを特定することができる。またその場合、区間特定制御部３１は、番組データの、最終的に特定した音楽部分区間の先頭に会話部分区間の後尾が含まれてしまうことを回避することができる。

さらに区間特定制御部３１は、第１の範囲検出区間特定処理時、曲らしさＭＳが判別閾値以上に変化したことに応じて処理状態を会話確定状態ＴＤから音楽仮定状態ＭＫに遷移するものの、音楽仮定判別時間が経過するまでの間に曲らしさＭＳが判別閾値未満に変化すれば、ラジオ番組の中で会話が継続していると判別して、処理状態を音楽仮定状態ＭＫから会話確定状態ＴＤに戻す。従って区間特定制御部３１は、ラジオ番組の会話中にベル音や音楽の一部分等が短時間だけ挿入されたような場合に、当該挿入された短時間の音楽に対応する番組データの区間を音楽部分区間として特定せずに会話部分区間の一部とすることができ、単純に音楽か会話かで番組データの音楽部分区間と会話部分区間とを特定するのではなく、ラジオ番組の中の会話や音楽として意味を成すまとまりとなるように、番組データの音楽部分区間と会話部分区間とを特定することができる。

（１−４−２）音楽確定状態時に曲らしさが判別閾値未満に変化する場合
次に区間特定制御部３１は、例えば図６に示すように、判別閾値以上の曲らしさＭＳが曲らしさ解析処理部３３から送出されると、ラジオ番組の音楽であると判別して、処理状態を音楽確定状態ＭＤに遷移すると共に、曲らしさ解析処理部３３から新たに送出される曲らしさＭＳが判別閾値以上である限りは、音楽確定状態ＭＤを維持する。また区間特定制御部３１は、音楽確定状態ＭＤにおいて、新たに曲らしさ解析処理部３３から送出される曲らしさＭＳが判別閾値未満になった場合には、ラジオ番組の中で音楽が終了して会話が流され始めた可能性があることに応じて、番組データの中で音楽部分区間が会話部分区間へと切り換わった範囲を曲らしさＭＳにより検出することを起点として番組データの音楽部分区間と会話部分区間とを特定する第２の範囲検出区間特定処理を開始する。

区間特定制御部３１は、かかる第２の範囲検出区間特定処理を開始すると、番組データ上の状態遷移位置ＳＰを中心として処理時間軸ＡＸ１で前後に数秒程度の幅をもった区間境界候補範囲ＳＡを検出する。また区間特定制御部３１は、当該検出した区間境界候補範囲ＳＡにおいて、最低音量レベル位置ＬＬを音量レベル解析処理部３４により検出すると共に、当該検出した最低音量レベル位置ＬＬを区間境界候補位置ＫＰとして図示しないメモリに記憶する。そして区間特定制御部３１は、処理状態を音楽確定状態ＭＤから会話仮定状態ＴＫに遷移する。

区間特定制御部３１は、会話仮定状態ＴＫにおいて、所定の判別時間（以下、これを会話仮定判別時間と呼ぶ）の間、曲らしさ解析処理部３３から送出される曲らしさＭＳの数値が判別閾値未満であるか否かを監視する。この会話仮定判別時間は、例えば、ヒップホップ等のジャンルの音楽の中に短時間だけ挿入された歌手のセリフを、番組データの会話部分区間として特定しない程度の時間長に設定されている（この場合、例えば２０秒）。

区間特定制御部３１は、会話仮定状態ＴＫにおいて、かかる会話仮定状態ＴＫを継続している時間（以下、これを会話仮定継続時間と呼ぶ）Ｔｎを計時して会話仮定判別時間以上に変化するまでの間に、曲らしさ解析処理部３３から送出される新たな曲らしさＭＳの数値が判別閾値以上に変化した場合、これは、例えばラジオ番組の音楽の中に短時間だけ歌手のセリフが挿入されたことに応じて曲らしさＭＳが短時間だけ判別閾値未満になっただけであると判別し、処理状態を会話仮定状態ＴＫから音楽確定状態ＭＤに戻すように遷移する。また、区間特定制御部３１は、会話仮定状態ＴＫにおいて、会話仮定継続時間Ｔｎが会話仮定判別時間以上に変化するまでの間、曲らしさ解析処理部３３から判別閾値未満の曲らしさＭＳが継続して与えられている場合には、判断を保留して会話仮定状態ＴＫを継続する。さらに区間特定制御部３１は、会話仮定状態ＴＫにおいて、曲らしさＭＳの数値が判別閾値未満を維持したまま会話仮定継続時間Ｔｎが会話仮定判別時間以上になった場合には、ラジオ番組の中で音楽が一旦終了して会話が流され始めたと判別し、区間境界候補位置ＫＰを区間境界と特定して、番組データの中で、区間境界よりも時系列的に手前側を音楽部分区間と特定すると共に区間境界よりも時系列的に後ろ側を会話部分区間と特定する。そして区間特定制御部３１は、処理状態を会話仮定状態ＴＫから会話確定状態ＴＤに遷移して第２の範囲検出区間特定処理を終了すると共に、区間の特定結果としての区間特定情報ＤＩを生成して出力処理部３５を介して分割部２１へ送出する。

このようにして区間特定制御部３１は、第２の範囲検出区間特定処理時、曲らしさＭＳと音量レベルＶＳとに応じて、番組データの音楽部分区間と会話部分区間とを特定する。すなわち区間特定制御部３１は、番組データの中で音楽部分区間と会話部分区間とが切り換わったことは検出できるものの、番組データの音楽部分区間と会話部分区間との間の具体的な境界を特定し難い曲らしさＭＳと、番組データの音楽部分区間と会話部分区間との間の具体的な境界は特定できるものの、番組データの音楽部分区間と会話部分区間とが切り換わったことは検出し難い音量レベルＶＳとに応じて、番組データの音楽部分区間と会話部分区間とを特定するようにしたことにより、番組データの音楽部分区間と会話部分区間とを高精度に特定することができる。

また区間特定制御部３１は、第２の範囲検出区間特定処理時、曲らしさＭＳが判別閾値未満に変化することに応じて区間境界候補範囲ＳＡを検出すると共に、当該区間境界候補範囲ＳＡの中で音量レベルＶＳが低くなることに応じて区間境界候補位置ＫＰを検出するようにして、番組データの音楽部分区間から会話部分区間へと切り換わった境界を特定する。従って区間特定制御部３１は、ラジオ番組の音楽と会話とが無音区間ＬＳを挟むことなく切り換わる場合や、ラジオ番組の音楽と会話とが一部分だけ重なって切り換わるような場合に、会話が流され始めた位置で音量レベルＶＳの変動があれば、そのラジオ番組の音楽から会話への間断無い切り換えの範囲を、曲らしさＭＳが判別閾値未満に変化したことに応じて検出すると共に、当該検出した範囲の中で、ラジオ番組の中で会話が流され始めた位置（すなわち、ラジオ番組の中で音楽だけが流されている区間が終了した位置）を、音量レベルＶＳが低くなることに応じて検出して、番組データの音楽部分区間と会話部分区間とを特定することができる。またその場合、区間特定制御部３１は、番組データの、最終的に特定した音楽部分区間の後尾に会話部分区間の先頭が含まれてしまうことを回避することができる。

さらに区間特定制御部３１は、第２の範囲検出区間特定処理時、曲らしさＭＳが判別閾値未満に変化したことに応じて処理状態を音楽確定状態ＭＤから会話仮定状態ＴＫに遷移するものの、会話仮定判別時間が経過するまでの間に曲らしさＭＳが判別閾値以上に変化すれば、ラジオ番組の中で音楽が継続していると判別して、処理状態を会話仮定状態ＴＫから音楽確定状態ＭＤに戻す。従って区間特定制御部３１は、ラジオ番組の音楽中に歌手のセリフ等が短時間だけ挿入されたような場合に、当該挿入された短時間のセリフに対応する番組データの区間を会話部分区間として特定せずに音楽部分区間の一部とすることができ、単純に会話か音楽かで番組データの会話部分区間と音楽部分区間とを特定するのではなく、ラジオ番組の中の音楽や会話として意味を成すまとまりとなるように、番組データの会話部分区間と音楽部分区間とを特定することができる。

（１−５）無音区間の検出を起点とする番組データの各区間の特定
次に、第２の区間特定の手法の場合、区間特定制御部３１は、図７及び図８に示すように、上述した第１の区間特定の手法の４つの処理状態（会話確定状態ＴＤ、会話仮定状態ＴＫ、音楽確定状態ＭＤ及び音楽仮定状態ＭＫ）の他に、新たに２つの処理状態を取り得るようになされている。一方の状態は、会話確定状態ＴＤにおいて無音区間ＬＳを検出した場合に、これから曲らしさＭＳが判別閾値以上に変化する可能性がある（すなわち、ラジオ番組の中で会話が終了して音楽が開始する可能性がある）と仮定して、会話確定状態ＴＤから音楽仮定状態ＭＫへと遷移する前段階として一時的に遷移する状態（以下、これを音楽仮定待機状態と呼ぶ）ＭＫＴである（図７）。他方の状態は、音楽確定状態ＭＤにおいて無音区間ＬＳを検出した場合に、これから曲らしさＭＳが判別閾値未満に変化する可能性がある（すなわち、ラジオ番組の音楽が終了して会話が開始する可能性がある）と仮定して、音楽確定状態ＭＤから会話仮定状態ＴＫへと遷移する前段階として一時的に遷移する状態（以下、これを会話仮定待機状態と呼ぶ）ＴＫＴである（図８）。

これにより区間特定制御部３１は、会話確定状態ＴＤにおいて無音区間ＬＳを検出する、又は音楽確定状態ＭＤにおいて無音区間ＬＳを検出することを起点として処理状態を遷移することにより、番組データの音楽部分区間と会話部分区間とを特定できるようになされている。以下、会話確定状態ＴＤにおいて無音区間ＬＳを検出した場合（図７）と、音楽確定状態ＭＤにおいて無音区間ＬＳを検出した場合（図８）とに話を分けて説明する。

（１−５−１）会話確定状態時に無音区間を検出した場合
まず、区間特定制御部３１は、例えば図９に示すように、判別閾値未満の曲らしさＭＳが曲らしさ解析処理部３３から送出されると、ラジオ番組の会話であると判別して処理状態を会話確定状態ＴＤに遷移すると共に、曲らしさ解析処理部３３から新たに送出される曲らしさＭＳが判別閾値未満である限りは、会話確定状態ＴＤを維持する。そして区間特定制御部３１は、会話確定状態ＴＤにおいて、音量レベル解析処理部３４により無音区間ＬＳを検出した場合には、ラジオ番組の会話が終了して音楽が開始する可能性があることに応じて、かかる無音区間ＬＳの検出を起点として番組データの会話部分区間と音楽部分区間とを特定する第１の無音検出区間特定処理を開始する。

これにより区間特定制御部３１は、かかる第１の無音検出区間特定処理を開始すると、音量レベル解析処理部３４により音量レベルＶＳに応じて検出した無音区間ＬＳの中で、音量レベルＶＳが有音レベルに立ち上がった位置を区間境界候補位置ＫＰとして図示しないメモリに記憶する。そして区間特定制御部３１は、処理状態を会話確定状態ＴＤから音楽仮定待機状態ＭＫＴに遷移する。

区間特定制御部３１は、音楽仮定待機状態ＭＫＴにおいて、所定の判別時間（以下、これを第１の待機判別時間と呼ぶ）の間、曲らしさ解析処理部３３から送出される曲らしさＭＳの数値が判別閾値以上に変化するか否かを監視する。この第１の待機判別時間は、音楽仮定状態ＭＫに遷移するまでの待機の時間なので、当該音楽仮定状態ＭＫでの音楽仮定判別時間（３０秒）よりも短く設定されている（この場合、例えば２０秒）。

区間特定制御部３１は、音楽仮定待機状態ＭＫＴにおいて、かかる音楽仮定待機状態ＭＫＴを継続している時間（以下、これを音楽仮定待機時間と呼ぶ）Ｔｒを計時して第１の待機判別時間以上になっても、曲らしさ解析処理部３３から送出される新たな曲らしさＭＳの数値が判別閾値未満のままであった場合、これは例えば、ラジオ番組の会話中に単に無音が存在したことに応じて無音区間ＬＳを検出しただけであると判別し、処理状態を音楽仮定待機状態ＭＫＴから会話確定状態ＴＤに戻すように遷移する。また、区間特定制御部３１は、音楽仮定待機状態ＭＫＴにおいて、音楽仮定待機時間Ｔｒが第１の待機判別時間以上に変化するまでの間、曲らしさ解析処理部３３から判別閾値未満の曲らしさＭＳが継続して与えられている場合には、判断を保留して音楽仮定待機状態ＭＫＴを継続する。さらに区間特定制御部３１は、音楽仮定待機状態ＭＫＴにおいて、音楽仮定待機時間Ｔｒが第１の待機判別時間以上に変化するまでの間に、曲らしさＭＳの数値が判別閾値以上に変化した場合には、ラジオ番組の中で会話が一旦終了して音楽が流され始めた可能性があると判別して、処理状態を音楽仮定待機状態ＭＫＴから音楽仮定状態ＭＫに遷移する。

そして区間特定制御部３１は、第１の無音検出区間特定処理時、処理状態を音楽仮定状態ＭＫに遷移すると、上述した第１の範囲検出区間特定処理時と同様の処理を行うことにより、番組データの会話部分区間と音楽部分区間とを特定する。そして区間特定制御部３１は、処理状態を音楽仮定状態ＭＫから音楽確定状態ＭＤに遷移して第１の無音検出区間特定処理を終了すると共に、区間の特定結果としての区間特定情報ＤＩを生成して出力処理部３５を介して分割部２１へ送出する。

このようにして区間特定制御部３１は、第１の無音検出区間特定処理時、音量レベルＶＳにより無音区間ＬＳを検出することに応じて区間境界候補位置ＫＰを検出し、その後、曲らしさＭＳが判別閾値以上に変化することに応じて、番組データの中で会話部分区間から音楽部分区間へと切り換わった位置（すなわち区間境界）を特定する。従って区間特定制御部３１は、ラジオ番組の会話と音楽の間に無音区間ＬＳが挿入されているような場合に、かかる無音区間ＬＳを検出してから曲らしさＭＳの値を確認することで、番組データの会話部分区間と音楽部分区間とを精度良く特定することができる。

またこの場合、区間特定制御部３１は、例えば、曲の出だしがとても静かだったり、低い音階だけしか使われていなかったりすることにより、曲らしさＭＳがゆっくりとしか上昇しないような音楽がラジオ番組に含まれている場合でも、かかる音楽の先頭に無音区間ＬＳが含まれていれば、番組データの会話部分区間と音楽部分区間とを特定することができる。

さらに区間特定制御部３１は、第１の無音検出区間特定処理時、音量レベル解析処理部３４により検出した無音区間ＬＳの立ち上がり位置を区間境界候補位置ＫＰとして検出するようにしたことにより、最終的に特定される音楽部分区間の先頭に含まれる無音部分を極力少なくして、後に再生するときの聴き心地を向上させることができる。

さらに区間特定制御部３１は、第１の無音検出区間特定処理時、無音区間ＬＳを検出したことに応じて処理状態を会話確定状態ＴＤから音楽仮定待機状態ＭＫＴに遷移するものの、音楽仮定待機時間Ｔｒが経過するまでの間に曲らしさＭＳが判別閾値以上に変化しなければ、ラジオ番組の会話が継続していると判別して、処理状態を音楽仮定待機状態ＭＫＴから会話確定状態ＴＤに戻すように遷移させる。すなわち区間特定制御部３１は、ラジオ番組の会話中に無音部分が短時間だけ挿入されたような場合に、当該挿入された無音部分に惑わされること無く、会話部分区間が継続していると判別することができ、単純に無音区間ＬＳがあるか無いかで番組データの音楽部分区間と会話部分区間とを特定するのではなく、ラジオ番組の中の会話や音楽として意味を成すまとまりとなるように、番組データの会話部分区間と音楽部分区間とを特定することができる。

（１−５−２）音楽確定状態時に無音区間を検出した場合
次に、区間特定制御部３１は、例えば図１０に示すように、判別閾値以上の曲らしさＭＳが曲らしさ解析処理部３３から送出されると、ラジオ番組の音楽であると判別して処理状態を音楽確定状態ＭＤに遷移すると共に、曲らしさ解析処理部３３から新たに送出される曲らしさＭＳが判別閾値以上である限りは、音楽確定状態ＭＤを維持する。そして区間特定制御部３１は、音楽確定状態ＭＤにおいて、音量レベル解析処理部３４により無音区間ＬＳを検出した場合には、ラジオ番組の中で音楽が終了して会話が流され始めた可能性があることに応じて、かかる無音区間ＬＳの検出を起点として番組データの音楽部分区間と会話部分区間とを特定する第２の無音検出区間特定処理を開始する。

これにより区間特定制御部３１は、かかる第２の無音検出区間特定処理を開始すると、音量レベル解析処理部３４により音量レベルＶＳに応じて検出した無音区間ＬＳの中で、音量レベルＶＳが有音レベルに立ち上がった位置を区間境界候補位置ＫＰとして図示しないメモリに記憶する。そして区間特定制御部３１は、処理状態を音楽確定状態ＭＤから会話仮定待機状態ＴＫＴに遷移する。

区間特定制御部３１は、会話仮定待機状態ＴＫＴにおいて、所定の判別時間（以下、これを第２の待機判別時間と呼ぶ）の間、曲らしさ解析処理部３３から送出される曲らしさＭＳの数値が判別閾値未満に変化するか否かを監視する。この第２の待機判別時間は、会話仮定状態ＴＫに遷移するまでの待機の時間なので、会話仮定状態ＴＫでの会話仮定判別時間（２０秒）よりも短く設定されている（この場合、例えば１０秒）。

区間特定制御部３１は、会話仮定待機状態ＴＫＴにおいて、かかる会話仮定待機状態ＴＫＴを継続している時間（以下、これを会話仮定待機時間と呼ぶ）Ｔｓを計時して第２の待機判別時間以上に変化するまでの間、曲らしさ解析処理部３３から判別閾値以上の曲らしさＭＳが継続して与えられている場合には、判断を保留して音楽仮定待機状態ＭＫＴを継続する。また区間特定制御部３１は、会話仮定待機状態ＴＫＴにおいて、会話仮定待機時間Ｔｓが第２の待機判別時間以上に変化するまでの間に、曲らしさＭＳの数値が判別閾値未満になった場合には、ラジオ番組の中で音楽が終了して会話が流され始めた可能性があると判別して、処理状態を会話仮定待機状態ＴＫＴから会話仮定状態ＴＫに遷移する。

そして区間特定制御部３１は、第２の無音検出区間特定処理時、処理状態を会話仮定状態ＴＫに遷移すると、上述した第２の範囲検出区間特定処理時と同様の処理を行うことにより、番組データの音楽部分区間と会話部分区間とを特定し、処理状態を会話仮定状態ＴＫから会話確定状態ＴＤに遷移する。

一方、区間特定制御部３１は、例えば図１１に示すように、無音区間ＬＳを検出して会話仮定待機状態ＴＫＴに遷移したとき、会話仮定待機時間Ｔｓが第２の待機判別時間以上に変化するまでの間に、曲らしさ解析処理部３３から送出される新たな曲らしさＭＳの数値が判別閾値未満に変化しなかった場合、ラジオ番組の音楽（すなわち曲）が無音区間ＬＳで次の曲に切り換わったと判別し、区間境界候補位置ＫＰを区間境界と特定すると共に、番組データの、区間境界よりも時系列的に手前側と後ろ側とをそれぞれ別の音楽部分区間と特定する。そして区間特定制御部３１は、会話仮定待機状態ＴＫＴから音楽確定状態ＭＤに戻すように遷移して第１の無音検出区間特定処理を終了すると共に、区間の特定結果としての区間特定情報ＤＩを生成して出力処理部３５を介して分割部２１へ送出する。

このようにして区間特定制御部３１は、第２の無音検出区間特定処理時、音量レベルＶＳにより無音区間ＬＳを検出することに応じて区間境界候補位置ＫＰを検出し、その後、曲らしさＭＳが判別閾値未満に変化することに応じて、番組データの音楽部分区間から会話部分区間へと切り換わった位置（すなわち区間境界）を特定する。従って区間特定制御部３１は、ラジオ番組の音楽と会話との間に無音区間ＬＳが挿入されているような場合に、かかる無音区間ＬＳを検出してから曲らしさＭＳの値を確認することで、番組データの音楽部分区間と会話部分区間とを精度良く特定することができる。

またこの場合、区間特定制御部３１は、例えばバックグラウンドミュージックが重なって流れていることにより、曲らしさＭＳがゆっくりとしか下がらないような会話がラジオ番組に含まれている場合でも、かかる会話の先頭に無音区間ＬＳが含まれていれば、番組データの音楽部分区間と会話部分区間とを特定することができる。

さらに区間特定制御部３１は、第２の無音検出区間特定処理時、音量レベル解析処理部３４により検出した無音区間ＬＳの立ち上がり位置を区間境界候補位置ＫＰとして検出するようにしたことにより、最終的に特定される会話部分区間の先頭に含まれる無音部分を極力少なくして、後に再生するときの聴き心地を向上させることができる。

さらに区間特定制御部３１は、第２の無音検出区間特定処理時、無音区間ＬＳを検出したことに応じて処理状態を会話確定状態ＴＤから会話仮定待機状態ＴＫＴ遷移するものの、会話仮定待機時間Ｔｓが経過するまでの間に曲らしさＭＳが判別閾値未満に変化しなければ、ラジオ番組の音楽が無音区間ＬＳで次の音楽に切り換わったと判別して、区間切換候補位置ＫＰを区間境界と特定し、番組データの、区間境界よりも時系列的に手前側と後ろ側とをそれぞれ別の音楽部分区間として特定する。すなわち区間特定制御部３１は、ラジオ番組に無音部分を挟んで複数の音楽が連続して挿入されているような場合、かかる連続する複数の音楽を１つの音楽として誤検出することなく、１曲の意味のあるまとまりとしての音楽をそれぞれ検出することができる。

（１−６）無音区間の誤検出防止
次に、第３の区間特定の手法の場合、区間特定制御部３１の内部は、図１２及び図１３に示すように、上述した第１の区間特定の手法の４つの処理状態（会話確定状態ＴＤ、会話仮定状態ＴＫ、音楽確定状態ＭＤ及び音楽仮定状態ＭＫ）の他に、新たに２つの処理状態を取り得るようになされている。一方の状態は、音楽仮定状態ＭＫにおいて無音区間ＬＳを検出した場合に、これから曲らしさＭＳが判別閾値未満に戻る可能性がある（すなわち、ラジオ番組の中で会話の途中に挿入された無音部分を検出してしまった可能性がある）と仮定して、音楽仮定状態ＭＫから会話確定状態ＴＤへと戻る前段階として一時的に遷移する状態（以下、これを会話確定待機状態と呼ぶ）ＴＤＴである（図１２）。他方の状態は、会話仮定状態ＴＫにおいて無音区間ＬＳを検出した場合に、これから曲らしさＭＳが判別閾値以上に戻る可能性がある（すなわち、ラジオ番組の中で音楽の途中に挿入された無音部分を検出してしまった可能性がある）と仮定して、会話仮定状態ＴＫから音楽確定状態ＭＤへと戻る前段階として一時的に遷移する状態（以下、これを音楽確定待機状態と呼ぶ）ＭＤＴである（図１３）。

これにより区間特定制御部３１は、音楽仮定状態ＭＫにおいて無音区間ＬＳを検出する又は会話仮定状態ＴＫにおいて無音区間ＬＳを検出した場合に、当該検出した無音区間ＬＳが、番組データの音楽部分区間または会話部分区間の一部として挿入されただけであるか否かを判別できるようになされている。以下、音楽仮定状態ＭＫにおいて無音区間ＬＳを検出した場合（図１２）と、会話仮定状態ＴＫにおいて無音区間ＬＳを検出した場合（図１３）とに話を分けて説明する。

（１−６−１）音楽仮定状態時に無音区間を検出した場合
まず、区間特定制御部３１は、例えば図１４に示すような曲らしさＭＳ及び無音区間ＬＳが与えられると、上述した第１の範囲検出区間特定処を開始する。そして区間特定制御部３１は、かかる第１の範囲検出区間特定処において処理状態が音楽仮定状態ＭＫにあるとき、音量レベル解析処理部３４により無音区間ＬＳを検出すると、ラジオ番組の会話の途中に挿入された無音部分を検出してしまった可能性があることに応じて、当該検出した無音区間ＬＳを番組データの会話部分区間の一部であるか否かを判別する第１の無音区間判別処理を開始する。

これにより区間特定制御部３１は、かかる第１の無音区間判別処理を開始すると、処理状態を音楽仮定状態ＭＫから会話確定待機状態ＴＤＴに遷移する。このとき区間特定制御部３１は、音楽仮定状態ＭＫにおいて行っていた音楽仮定継続時間Ｔｍの計時を継続する。区間特定制御部３１は、会話確定待機状態ＴＤＴにおいて、所定の判別時間（以下、これを第３の待機判別時間と呼ぶ）の間に、曲らしさ解析処理部３３から送出される曲らしさＭＳの数値が判別閾値未満に変化するか否かを監視する。この第３の待機判別時間は、会話確定待機状態ＴＤＴが音楽仮定状態ＭＫを一時的に保留するようにして遷移した状態であることにより、音楽仮定状態ＭＫでの音楽仮定判別時間（３０秒）よりも短く設定されている（この場合、例えば２０秒）。

区間特定制御部３１は、会話確定待機状態ＴＤＴにおいて、かかる会話確定待機状態ＴＤＴを継続している時間（以下、これを会話確定待機時間と呼ぶ）Ｔｔを計時して第３の待機判別時間以上に変化するまでの間に、曲らしさ解析処理部３３から送出される新たな曲らしさＭＳの数値が判別閾値未満になった場合、これは例えば、ラジオ番組の会話中に単に無音が存在したことに応じて無音区間ＬＳを検出しただけであると判別し、処理状態を会話確定待機状態ＴＤＴから会話確定状態ＴＤに遷移する。また、区間特定制御部３１は、会話確定待機状態ＴＤＴにおいて、会話確定待機時間Ｔｔが第３の待機判別時間以上に変化するまでの間、曲らしさ解析処理部３３から判別閾値以上の曲らしさＭＳが継続して与えられている場合には、判断を保留して会話確定待機状態ＴＤＴを継続する。さらに区間特定制御部３１は、会話確定待機状態ＴＤＴにおいて、会話確定待機時間Ｔｔが第３の待機判別時間以上、且つ音楽仮定状態ＭＫ開始から計時している音楽仮定継続時間Ｔｍが音楽仮定判別時間以上で、判別閾値以上の曲らしさＭＳが曲らしさ解析処理部３３から継続して与えられている場合には、ラジオ番組の中で会話が終了して音楽が流され始めたと判別し、区間切換候補位置ＫＰを区間境界と特定して、番組データの、区間境界よりも時系列的に手前側を会話部分区間と特定すると共に区間境界よりも時系列的に後ろ側を音楽部分区間と特定して、処理状態を会話確定待機状態ＴＤＴから音楽確定状態ＭＤに遷移する。一方、区間特定制御部３１は、会話確定待機状態ＴＤＴにおいて、会話確定待機時間Ｔｔが第３の待機判別時間以上、且つ音楽仮定状態ＭＫ開始から計時している音楽仮定継続時間Ｔｍが音楽仮定判別時間未満で、判別閾値以上の曲らしさＭＳが曲らしさ解析処理部３３から継続して与えられている場合には、ラジオ番組の中で会話が終了して音楽が流され始めた可能性があると判別して、処理状態を会話確定待機状態ＴＤＴから音楽仮定状態ＭＫに遷移する。

そして区間特定制御部３１は、第１の無音区間判別処理時、処理状態を音楽仮定状態ＭＫに遷移すると、上述した第１の範囲検出区間特定処理時と同様の処理を行うことにより、番組データの会話部分区間と音楽部分区間とを特定する。そして区間特定制御部３１は、処理状態を音楽仮定状態ＭＫから音楽確定状態ＭＤに遷移して第１の無音検出区間特定処理を終了すると共に、区間の特定結果としての区間特定情報ＤＩを生成して出力処理部３５を介して分割部２１へ送出する。

このようにして区間特定制御部３１は、第１の無音区間判別処理時、会話確定待機状態ＴＤＴにおいて曲らしさＭＳが判別閾値未満に変化すると、検出した無音区間ＬＳがラジオ番組の中で会話の一部として挿入されたものであると判別する。従って区間特定制御部３１は、例えばラジオ番組の会話中に無音部分が挿入されているような場合に、当該挿入された無音部分に惑わされることなく処理を継続し、番組データの音楽部分区間と会話部分区間とを適切に特定することができる。これに対し、区間特定制御部３１は、第１の無音区間判別処理時、会話確定待機状態ＴＤＴにおいて曲らしさＭＳが判別閾値未満にならなければ、検出した無音区間ＬＳを無視して上述した第１の範囲検出区間特定処理と同様にして処理を継続することで、番組データの会話部分区間と音楽部分区間とを特定することができる。

（１−６−２）会話仮定状態時に無音区間を検出した場合
次に、区間特定制御部３１は、例えば図１５に示すような曲らしさＭＳ及び無音区間ＬＳが与えられると、上述した第２の範囲検出区間特定処を開始する。そして区間特定制御部３１は、かかる第２の範囲検出区間特定処において処理状態が会話仮定状態ＴＫにあるとき、音量レベル解析処理部３４により無音区間ＬＳを検出すると、ラジオ番組の音楽の途中に挿入された無音部分を検出してしまった可能性があることに応じて、当該検出した無音区間ＬＳを番組データの音楽部分区間の一部であるか否かを判別する第２の無音区間判別処理を開始する。

これにより区間特定制御部３１は、かかる第２の無音区間判別処理を開始すると、処理状態を音楽仮定状態ＭＫから音楽確定待機状態ＭＤＴに遷移する。このとき区間特定制御部３１は、会話仮定状態ＴＫにおいて行っていた会話仮定継続時間Ｔｎの計時を継続する。区間特定制御部３１は、音楽確定待機状態ＭＤＴにおいて、所定の判別時間（以下、これを第４の待機判別時間と呼ぶ）の間に、曲らしさ解析処理部３３から送出される曲らしさＭＳの数値が判別閾値以下になるか否かを監視する。この第４の待機判別時間は、音楽確定待機状態ＭＤＴが会話仮定状態ＴＫを一時的に保留するようにして遷移した状態であることにより、会話仮定状態ＴＫでの会話仮定判別時間（２０秒）よりも短く設定されている（この場合、例えば１０秒）。

区間特定制御部３１は、音楽確定待機状態ＭＤＴにおいて、かかる音楽確定待機状態ＭＤＴを継続している時間（以下、これを音楽確定待機時間と呼ぶ）Ｔｕを計時して第４の待機判別時間以上に変化するまでの間に、曲らしさ解析処理部３３から送出される新たな曲らしさＭＳの数値が判別閾値以上になった場合、これは例えば、ラジオ番組の音楽中に曲の一部として無音が存在したことに応じて無音区間ＬＳを検出しただけであると判別し、処理状態を音楽確定待機状態ＭＤＴから音楽確定状態ＭＤに遷移する。また、区間特定制御部３１は、音楽確定待機状態ＭＤＴにおいて、音楽確定待機時間Ｔｕが第４の待機判別時間以上に変化するまでの間、曲らしさ解析処理部３３から判別閾値未満の曲らしさＭＳが継続して与えられている場合には、判断を保留して音楽確定待機状態ＭＤＴを継続する。さらに区間特定制御部３１は、音楽確定待機状態ＭＤＴにおいて、音楽確定待機時間Ｔｕが第４の待機判別時間以上、且つ会話仮定状態ＴＫ開始から計時している会話仮定継続時間Ｔｎが会話仮定判別時間以上で、判別閾値未満の曲らしさＭＳが曲らしさ解析処理部３３から継続して与えられている場合には、ラジオ番組の中で音楽が一旦終了して会話が流され始めたと判別し、区間切換候補位置ＫＰを区間境界と特定して、番組データの、区間境界よりも時系列的に手前側を音楽部分区間と特定すると共に区間境界よりも時系列的に後ろ側を会話部分区間と特定して、処理状態を音楽確定待機状態ＭＤＴから会話確定状態ＴＤに遷移する。一方、区間特定制御部３１は、音楽確定待機状態ＭＤＴにおいて、音楽確定待機時間Ｔｕが第４の待機判別時間以上、且つ会話仮定状態ＴＫ開始から計時している会話仮定継続時間Ｔｎが会話仮定判別時間未満で、判別閾値未満の曲らしさＭＳが曲らしさ解析処理部３３から継続して与えられている場合には、ラジオ番組の中で音楽が一旦終了して会話が流され始めた可能性があると判別し、処理状態を音楽確定待機状態ＭＤＴから会話仮定状態ＴＫに遷移する。

そして区間特定制御部３１は、第２の無音区間判別処理時、処理状態を会話仮定状態ＴＫに遷移すると、上述した第２の範囲検出区間特定処理時と同様の処理を行うことにより、番組データの音楽部分区間と会話部分区間とを特定する。そして区間特定制御部３１は、処理状態を会話仮定状態ＴＫから会話確定状態ＴＤに遷移して第２の無音検出区間特定処理を終了すると共に、区間の特定結果としての区間特定情報ＤＩを生成して出力処理部３５を介して分割部２１へ送出する。

このようにして区間特定制御部３１は、第２の無音区間判別処理時、音楽確定待機状態ＭＤＴにおいて曲らしさＭＳが判別閾値以上に変化すると、検出した無音区間ＬＳがラジオ番組の中で音楽の一部として挿入されたものであると判別する。従って区間特定制御部３１は、例えばラジオ番組の音楽中（つまり曲中）に無音部分が挿入されているような場合に、当該挿入された無音部分に惑わされることなく処理を継続し、番組データの音楽部分区間と会話部分区間とを適切に特定することができる。これに対し、区間特定制御部３１は、第２の無音区間判別処理時、音楽確定待機状態ＭＤＴにおいて曲らしさＭＳが判別閾値以上にならなければ、検出した無音区間ＬＳを無視して上述した第２の範囲検出区間特定処理と同様にして処理を継続することで、番組データの会話部分区間と音楽部分区間とを特定することができる。

（１−７）比較的長い無音区間の誤検出防止
次に、第４の区間特定の手法の場合、区間特定制御部３１の内部は、図１６及び図１７に示すように、上述した第１の区間特定の手法の４つの処理状態（会話確定状態ＴＤ、会話仮定状態ＴＫ、音楽確定状態ＭＤ及び音楽仮定状態ＭＫ）の他に、新たに２つの処理状態を取り得るようになされている。一方の状態は、会話確定状態ＴＤにおいて、無音区間ＬＳを検出中に曲らしさＭＳが判別閾値以上に変化した場合に、いつ無音から有音に切り換わるかわからない（すなわち、ラジオ番組の中で音楽が流され始めるまで時間がかかる可能性がある）と仮定して、会話確定状態ＴＤから音楽仮定状態ＭＫへと遷移することを一時的に保留する状態（以下、これを音楽仮定保留状態と呼ぶ）ＭＫＨである（図１６）。他方の状態は、音楽確定状態ＭＤにおいて、無音区間ＬＳを検出中に曲らしさＭＳが判別閾値未満に変化した場合に、いつ無音から有音に切り換わるかわからない（すなわち、ラジオ番組の中で会話が流され始めるまで時間がかかる可能性がある）と仮定して、音楽確定状態ＭＤから会話仮定状態ＴＫへと遷移することを一時的に保留する状態（以下、これを会話仮定保留状態と呼ぶ）ＴＫＨである（図１７）。

これにより区間特定制御部３１は、会話確定状態ＴＤから音楽仮定状態ＭＫに遷移する又は音楽確定状態ＭＤから会話仮定状態ＴＫに遷移する際に、並行して無音区間ＬＳも検出している場合に、かかる検出した無音区間ＬＳが終了して有音区間（すなわち、音楽部分区間または会話部分区間）が開始するまで、会話仮定状態ＴＫまたは音楽仮定状態ＭＫに遷移することを保留できるようになされている。以下、会話確定状態ＴＤにおいて判別閾値以上の曲らしさＭＳと無音区間ＬＳとを並行して検出した場合（図１６）と、音楽確定状態ＭＤにおいて判別閾値未満の曲らしさＭＳと無音区間ＬＳとを並行して検出した場合（図１７）とに話を分けて説明する。

（１−７−１）会話確定状態時に判別閾値以上の曲らしさと無音区間とを検出した場合
まず、区間特定制御部３１は、例えば図１８に示すように、判別閾値未満の曲らしさＭＳが曲らしさ解析処理部３３から送出されると、ラジオ番組の中の会話であると判別して処理状態を会話確定状態ＴＤに遷移すると共に、曲らしさ解析処理部３３から新たに送出される曲らしさＭＳが判別閾値未満である限りは、会話確定状態ＴＤを継続する。そして区間特定制御部３１は、会話確定状態ＴＤにおいて、音量レベル解析処理部３４により無音区間ＬＳを検出しているときに曲らしさＭＳが判別閾値以上に変化したことを検出すると、ラジオ番組の中で音楽が流されるまで時間がかかる可能性があることに応じて、かかる検出した無音区間ＬＳが終了するまで会話仮定状態ＴＫに遷移することを保留する第１の状態遷移保留処理を開始する。

これにより区間特定制御部３１は、かかる第１の状態遷移保留処理を開始すると、処理状態を会話確定状態ＴＤから音楽仮定保留状態ＭＫＨに遷移する。区間特定制御部３１は、音楽仮定保留状態ＭＫＨにおいて、音量レベルＶＳが無音から有音に立ち上がるのを待ち受け、無音区間ＬＳが続いている場合には、かかる音楽仮定保留状態ＭＫＨを継続する。そして区間特定制御部３１は、音楽仮定保留状態ＭＫＨにおいて、音量レベルＶＳが有音レベルに立ち上がったことを検出すると共に、当該有音レベルの立ち上がりの検出直後の曲らしさＭＳが判別閾値未満である場合には、例えば、ラジオ番組の会話中に無音（例えば会話中の沈黙）があっただけであると判別し、処理状態を音楽仮定保留状態ＭＫＨから会話確定状態ＴＤに戻すように遷移する。これに対し区間特定制御部３１は、音楽仮定保留状態ＭＫＨにおいて、音量レベルＶＳが有音レベルに立ち上がったことを検出すると共に、当該有音レベルの立ち上がりの検出直後の曲らしさＭＳが判別閾値以上である場合には、ラジオ番組の中で無音の後に音楽が始まった可能性があると判別し、音量レベルＶＳが無音区間ＬＳから有音レベルに立ち上がった位置（以下、これを有音立上り位置と呼ぶ）ＬＥを検出して区間境界候補位置ＫＰとして記憶すると共に、処理状態を音楽仮定保留状態ＭＫＨから音楽仮定状態ＭＫに遷移する。

そして区間特定制御部３１は、第１の状態遷移保留処理時、処理状態を音楽仮定状態ＭＫに遷移すると、上述した第１の範囲検出区間特定処理時と同様の処理を行うことにより、番組データの会話部分区間と音楽部分区間とを特定する。そして区間特定制御部３１は、処理状態を音楽仮定状態ＭＫから音楽確定状態ＭＤに遷移して第１の状態遷移保留処理を終了すると共に、区間の特定結果としての区間特定情報ＤＩを生成して出力処理部３５を介して分割部２１へ送出する。

このようにして区間特定制御部３１は、第１の状態遷移保留処理時、音楽仮定保留状態ＭＫＨにおいて有音立上り位置ＬＥを検出するまでは、音楽仮定状態ＭＫ又は会話確定状態ＴＤへの遷移を保留する。従って区間特定制御部３１は、例えば、ラジオ番組の中で会話と音楽との間に比較的長い無音部分が挿入されたとき、設定によっては無音部分のときに判別閾値以上に値が上昇してしまう曲らしさＭＳに応じて、無音区間ＬＳであるにも関わらず処理状態を会話確定状態ＴＤから音楽仮定状態ＭＫに遷移してしまい、結果として無音区間ＬＳを番組データの音楽部分区間であると誤って特定するといったことを回避できる。

（１−７−２）音楽確定状態時に判別閾値未満の曲らしさと無音区間とを検出した場合
次に、区間特定制御部３１は、例えば図１９に示すように、判別閾値以上の曲らしさＭＳが曲らしさ解析処理部３３から送出されると、ラジオ番組の中で音楽であると判別して処理状態を音楽確定状態ＭＤに遷移すると共に、曲らしさ解析処理部３３から新たに送出される曲らしさＭＳが判別閾値以上である限りは、音楽確定状態ＭＤを維持する。そして区間特定制御部３１は、音楽確定状態ＭＤにおいて、音量レベル解析処理部３４により無音区間ＬＳを検出しているときに、曲らしさＭＳが判別閾値未満になったことを検出すると、ラジオ番組の会話が開始するまで時間がかかる可能性があることに応じて、かかる検出した無音区間ＬＳが終了するまで音楽仮定状態ＭＫに遷移することを保留する第２の状態遷移保留処理を開始する。

これにより区間特定制御部３１は、かかる第２の状態遷移保留処理を開始すると、処理状態を音楽確定状態ＭＤから会話仮定保留状態ＴＫＨに遷移する。区間特定制御部３１は、会話仮定保留状態ＴＫＨにおいて、音量レベルＶＳが無音から有音に立ち上がるのを待ち受け、無音区間ＬＳが続いている場合には、かかる会話仮定保留状態ＴＫＨを継続する。そして区間特定制御部３１は、会話仮定保留状態ＴＫＨにおいて、音量レベルＶＳが有音レベルに立ち上がったことを検出すると共に、当該有音レベルの立上がりの検出直後の曲らしさＭＳが判別閾値以上である場合には、例えば、ラジオ番組の音楽の途中に単に無音部分が挿入されていただけであると判別し、処理状態を会話仮定保留状態ＴＫＨから音楽確定状態ＭＤに戻すように遷移する。これに対し区間特定制御部３１は、会話仮定保留状態ＴＫＨにおいて、音量レベルＶＳが有音レベルに立ち上がったことを検出すると共に、当該有音レベルの立ち上がりの検出直後の曲らしさＭＳが判別閾値未満である場合には、ラジオ番組で無音の後に会話が始まった可能性があると判別し、音量レベルＶＳが無音区間ＬＳから有音レベルに立ち上がった有音立上り位置ＬＥを区間境界候補位置ＫＰとして記憶すると共に、処理状態を会話仮定保留状態ＴＫＨから会話仮定状態ＴＫに遷移する。

そして区間特定制御部３１は、第２の状態遷移保留処理時、処理状態を会話仮定状態ＴＫに遷移すると、上述した第２の範囲検出区間特定処理時と同様の処理を行うことにより、番組データの中で音楽部分区間と会話部分区間とを特定する。そして区間特定制御部３１は、処理状態を会話仮定状態ＴＫから会話確定状態ＴＤに遷移して第２の状態遷移保留処理を終了すると共に、区間の特定結果としての区間特定情報ＤＩを生成して出力処理部３５を介して分割部２１へ送出する。

このようにして区間特定制御部３１は、第２の状態遷移保留処理時、会話仮定保留状態ＴＫＨにおいて有音立上り位置ＬＥを検出するまでは、会話仮定状態ＴＫ又は音楽確定状態ＭＤへの遷移を保留する。従って区間特定制御部３１は、例えば、ラジオ番組の音楽と会話との間に比較的長い無音部分が挿入されたとき、設定によっては無音部分のときに判別閾値未満に値が下がってしまう曲らしさＭＳに応じて、無音区間ＬＳであるにも関わらず処理状態を音楽確定状態ＭＤから会話仮定状態ＴＫに遷移してしまい、結果として無音区間ＬＳを番組データの会話部分区間であると誤って特定するといったことを回避できる。

（１−８）処理手順の説明
（１−８−１）第１の範囲検出区間特定処理手順
ここで、上述した第１の範囲検出区間特定処理の手順について説明する。データ記録装置１０は、会話確定状態ＴＤにおいて、曲らしさＭＳが判別閾値以上に変化すると、図２０に示すような第１の範囲検出区間特定処理手順ＲＴ１を開始する。データ記録装置１０の区間特定部２０において区間特定制御部３１は、かかる第１の範囲検出区間特定処理手順ＲＴ１を開始すると、ステップＳＰ１において、番組データの中で曲らしさＭＳが判別閾値を越えた基準位置を中心として区間境界候補範囲ＳＡを検出すると共に、当該区間境界候補範囲ＳＡ内で検出した最低音量レベル位置ＬＬを区間境界候補位置ＫＰとして記憶する。そして区間特定制御部３１は、処理状態を会話確定状態ＴＤから音楽仮定状態ＭＫに遷移し、次のステップＳＰ２に移る。

ステップＳＰ２において区間特定制御部３１は、音楽仮定状態ＭＫにおいて、曲らしさＭＳが判別閾値以上を継続しているか否かを判別する。このステップＳＰ２において肯定結果が得られると、このことはラジオ番組の中で会話が終了して音楽が開始した可能性が高いことを示している。従って区間特定制御部３１は、次のステップＳＰ３に移る。

ステップＳＰ３において区間特定制御部３１は、音楽仮定状態ＭＫに遷移してからの音楽仮定継続時間Ｔｍが音楽仮定判別時間以上であるか否かを判別する。このステップＳＰ３で否定結果が得られると、このことはラジオ番組の中で会話が終了して音楽が開始したか否かを判別するだけの時間が経過していないことを示している。従って区間特定制御部３１は、ステップＳＰ２に戻る。

これに対し、ステップＳＰ３において肯定結果が得られると、このことはラジオ番組の中で会話が終了して音楽が開始したことを示している。従って区間特定制御部３１は、次のステップＳＰ４に移る。

ステップＳＰ４において区間特定制御部３１は、区間切換候補位置ＫＰを区間境界と特定し、番組データの、区間境界よりも時系列的に手前側を会話部分区間と特定すると共に区間境界よりも時系列的に後ろ側を音楽部分区間と特定する。そして区間特定制御部３１は、処理状態を音楽仮定状態ＭＫから音楽確定状態ＭＤに遷移して、ステップＳＰ５に移る。

これに対し、ステップＳＰ２において否定結果が得られると、このことはラジオ番組の会話中にベル音や音楽の一部分が短時間だけ挿入されただけであることを示している。従って区間特定制御部３１は、処理状態を音楽仮定状態ＭＫから会話確定状態ＴＤに戻してステップＳＰ５へ移り、かかる第１の範囲検出区間特定処理手順ＲＴ１を終了する。

このような第１の範囲検出区間特定処理手順ＲＴ１により、データ記録装置１０は、ラジオ番組の中の会話と音楽とを区別するようになされている。

（１−８−２）第２の範囲検出区間特定処理手順
次いで、上述した第２の範囲検出区間特定処理の手順について説明する。データ記録装置１０は、音楽確定状態ＭＤにおいて、曲らしさＭＳが判別閾値未満に変化すると、図２１に示すような第２の範囲検出区間特定処理手順ＲＴ２を開始する。データ記録装置１０の区間特定部２０において区間特定制御部３１は、かかる第２の範囲検出区間特定処理手順ＲＴ２を開始すると、ステップＳＰ１１において、曲らしさＭＳが判別閾値未満になった基準位置を中心として区間境界候補範囲ＳＡを検出すると共に、当該区間境界候補範囲ＳＡ内で検出した最低音量レベル位置ＬＬを区間境界候補位置ＫＰとして記憶する。そして区間特定制御部３１は、内部の音楽確定状態ＭＤから会話仮定状態ＴＫに遷移し、次のステップＳＰ１２に移る。

ステップＳＰ１２において区間特定制御部３１は、会話仮定状態ＴＫにおいて、曲らしさＭＳが判別閾値未満を継続しているか否かを判別する。このステップＳＰ１２において肯定結果が得られると、このことはラジオ番組の中で音楽が終了して会話が開始した可能性が高いことを示している。従って区間特定制御部３１は、次のステップＳＰ１３に移る。

ステップＳＰ１３において区間特定制御部３１は、会話仮定状態ＴＫに遷移してからの会話仮定継続時間Ｔｎが会話仮定判別時間以上であるか否かを判別する。このステップＳＰ１３で否定結果が得られると、このことはラジオ番組の中で音楽が終了して会話が開始したか否かを判別するだけの時間が経過していないことを示している。従って区間特定制御部３１は、ステップＳＰ１２に戻る。

これに対し、ステップＳＰ１３において肯定結果が得られると、このことはラジオ番組の中で音楽が終了して会話が開始したことを示している。従って区間特定制御部３１は、次のステップＳＰ１４に移る。

ステップＳＰ１４において区間特定制御部３１は、区間切換候補位置ＫＰを区間境界と特定し、番組データの、区間境界よりも時系列的に手前側を音楽部分区間と特定すると共に区間境界よりも時系列的に後ろ側を会話部分区間と特定する。そして区間特定制御部３１は、処理状態を会話仮定状態ＴＫから会話確定状態ＴＤに遷移して、ステップＳＰ１５に移る。

これに対し、ステップＳＰ１２において否定結果が得られると、このことはラジオ番組の音楽中に歌手のセリフが短時間だけ挿入されただけであることを示している。従って区間特定制御部３１は、処理状態を会話仮定状態ＴＫから音楽確定状態ＭＤに戻してステップＳＰ１５へ移り、かかる第２の範囲検出区間特定処理手順ＲＴ２を終了する。

このような第２の範囲検出区間特定処理手順ＲＴ２により、データ記録装置１０は、ラジオ番組の中の音楽と会話とを区別するようになされている。

（１−８−３）第１の無音検出区間特定処理手順
次いで、上述した第１の無音検出区間特定処理の手順について説明する。データ記録装置１０は、会話確定状態ＴＤにおいて、無音区間ＬＳを検出すると、図２２に示すような第１の無音検出区間特定処理手順ＲＴ３を開始する。データ記録装置１０の区間特定部２０において区間特定制御部３１は、かかる第１の無音検出区間特定処理手順ＲＴ３を開始すると、ステップＳＰ３１において、無音区間ＬＳの中で、音量レベルＶＳが有音レベルに立ち上がった有音立上り位置ＬＥを区間境界候補位置ＫＰとして記憶する。そして区間特定制御部３１は、処理状態を会話確定状態ＴＤから音楽仮定待機状態ＭＫＴに遷移し、次のステップＳＰ３２に移る。

ステップＳＰ３２において区間特定制御部３１は、音楽仮定待機状態ＭＫＴにおいて、曲らしさＭＳが判別閾値以上になったか否かを判別する。このステップＳＰ３２において否定結果が得られると、このことはラジオ番組の中で会話が終了して音楽が開始するかまだわからないことを示している。従って区間特定制御部３１は、次のステップＳＰ３３に移る。

ステップＳＰ３３において区間特定制御部３１は、音楽仮定待機状態ＭＫＴに遷移してからの音楽仮定待機時間Ｔｒが第１の待機判別時間以上であるか否かを判別する。このステップＳＰ３３で否定結果が得られると、このことはラジオ番組の中で会話が終了して音楽が開始する可能性があるか否かを判別するだけの時間が経過していないことを示している。従って区間特定制御部３１は、ステップＳＰ３２に戻る。

これに対し、ステップＳＰ３３において肯定結果が得られると、このことはラジオ番組の会話中の無音を単に検出しただけであること示している。従って区間特定制御部３１は、処理状態を音楽仮定待機状態ＭＫＴから会話確定状態ＴＤに戻し、ステップＳＰ３７に移る。

これに対し、ステップＳＰ３２において肯定結果が得られると、このことはラジオ番組の中で会話が終了して音楽が開始する可能性があることを示している。従って区間特定制御部３１は、処理状態を音楽仮定待機状態ＭＫＴから音楽仮定状態ＭＫに遷移し、ステップＳＰ３４に移る。

ステップＳＰ３４において区間特定制御部３１は、音楽仮定状態ＭＫにおいて、曲らしさＭＳが判別閾値以上を継続しているか否かを判別する。このステップＳＰ３４において肯定結果が得られると、このことはラジオ番組の中で会話が終了して音楽が開始した可能性が高いことを示している。従って区間特定制御部３１は、次のステップＳＰ３５に移る。

ステップＳＰ３５において区間特定制御部３１は、音楽仮定状態ＭＫに遷移してからの音楽仮定継続時間Ｔｍが音楽仮定判別時間以上であるか否かを判別する。このステップＳＰ３５で否定結果が得られると、このことはラジオ番組の中で会話が終了して音楽が開始したか否かを判別するだけの時間が経過していないことを示している。従って区間特定制御部３１は、ステップＳＰ３４に戻る。

これに対し、ステップＳＰ３５において肯定結果が得られると、このことはラジオ番組の中で会話が終了して音楽が開始したことを示している。従って区間特定制御部３１は、次のステップＳＰ３６に移る。

ステップＳＰ３６において区間特定制御部３１は、区間切換候補位置ＫＰを区間境界と特定し、番組データの、区間境界よりも時系列的に手前側を会話部分区間と特定すると共に区間境界よりも時系列的に後ろ側を音楽部分区間と特定する。そして区間特定制御部３１は、処理状態を音楽仮定状態ＭＫから音楽確定状態ＭＤに遷移して、ステップＳＰ３７に移る。

これに対し、ステップＳＰ３４において否定結果が得られると、このことはラジオ番組の会話中にベル音や音楽の一部分が短時間だけ挿入されただけであることを示している。従って区間特定制御部３１は、処理状態を音楽仮定状態ＭＫから会話確定状態ＴＤに戻してステップＳＰ３７へ移り、かかる第１の無音検出区間特定処理手順ＲＴ３を終了する。

このような第１の無音検出区間特定処理手順ＲＴ３により、データ記録装置１０は、ラジオ番組の中の会話と音楽とを区別するようになされている。

（１−８−４）第２の無音検出区間特定処理手順
次いで、上述した第２の無音検出区間特定処理の手順について説明する。データ記録装置１０は、音楽確定状態ＭＤにおいて、無音区間ＬＳを検出すると、図２３に示すような第２の無音検出区間特定処理手順ＲＴ４を開始する。データ記録装置１０の区間特定部２０において区間特定制御部３１は、かかる第２の無音検出区間特定処理手順ＲＴ４を開始すると、ステップＳＰ４１において、無音区間ＬＳの中で、音量レベルＶＳが有音レベルに立ち上がった有音立上り位置ＬＥを区間境界候補位置ＫＰとして記憶する。そして区間特定制御部３１は、処理状態を音楽確定状態ＭＤから会話仮定待機状態ＴＫＴに遷移し、次のステップＳＰ４２に移る。

ステップＳＰ４２において区間特定制御部３１は、会話仮定待機状態ＴＫＴにおいて、曲らしさＭＳが判別閾値未満になったか否かを判別する。このステップＳＰ４２において否定結果が得られると、このことはラジオ番組の中で音楽が終了して会話が開始するかまだわからないことを示している。従って区間特定制御部３１は、次のステップＳＰ４３に移る。

ステップＳＰ４３において区間特定制御部３１は、会話仮定待機状態ＴＫＴに遷移してからの会話仮定待機時間Ｔｓが第２の待機判別時間以上であるか否かを判別する。このステップＳＰ４３で否定結果が得られると、このことはラジオ番組の中で音楽が終了して会話が開始する可能性があるか否かを判別するだけの時間が経過していないことを示している。従って区間特定制御部３１は、ステップＳＰ４２に戻る。

これに対し、ステップＳＰ４３において肯定結果が得られると、このことはラジオ番組の中の音楽が、無音部分を挟んで次の音楽に切り換わったこと示している。従って区間特定制御部３１は、次のステップＳＰ４４に移る。

ステップＳＰ４４において区間特定制御部３１は、区間切換候補位置ＫＰを区間境界と特定し、番組データの、区間境界よりも時系列的に手前側と後ろ側とをそれぞれ別の音楽部分区間と特定する。そして区間特定制御部３１は、処理状態を会話仮定待機状態ＴＫＴから音楽確定状態ＭＤに戻して、ステップＳＰ４８に移る。

これに対し、ステップＳＰ４２において肯定結果が得られると、このことはラジオ番組の中で音楽が終了して会話が開始する可能性があることを示している。従って区間特定制御部３１は、処理状態を会話仮定待機状態ＴＫＴから会話仮定状態ＴＫに遷移し、ステップＳＰ４５に移る。

ステップＳＰ４５において区間特定制御部３１は、会話仮定状態ＴＫにおいて、曲らしさＭＳが判別閾値未満を継続しているか否かを判別する。このステップＳＰ４５において肯定結果が得られると、このことはラジオ番組の中で音楽が終了して会話が開始した可能性が高いことを示している。従って区間特定制御部３１は、次のステップＳＰ４６に移る。

ステップＳＰ４６において区間特定制御部３１は、会話仮定状態ＴＫに遷移してからの会話仮定継続時間Ｔｎが会話仮定判別時間以上であるか否かを判別する。このステップＳＰ４６で否定結果が得られると、このことはラジオ番組の中で音楽が終了して会話が開始したか否かを判別するだけの時間が経過していないことを示している。従って区間特定制御部３１は、ステップＳＰ４５に戻る。

これに対し、ステップＳＰ４６において肯定結果が得られると、このことはラジオ番組の中で会話が終了して音楽が開始したことを示している。従って区間特定制御部３１は、次のステップＳＰ４７に移る。

ステップＳＰ４７において区間特定制御部３１は、区間切換候補位置ＫＰを区間境界と特定し、番組データの、区間境界よりも時系列的に手前側を音楽部分区間と特定すると共に区間境界よりも時系列的に後ろ側を会話部分区間と特定する。そして区間特定制御部３１は、処理状態を会話仮定状態ＴＫから会話確定状態ＴＤに遷移して、ステップＳＰ４８に移る。

これに対し、ステップＳＰ４５において否定結果が得られると、このことはラジオ番組の音楽中に歌手のセリフが短時間だけ挿入されただけであることを示している。従って区間特定制御部３１は、処理状態を会話仮定状態ＴＫから音楽確定状態ＭＤに戻してステップＳＰ４８へ移り、かかる第２の無音検出区間特定処理手順ＲＴ４を終了する。

このような第２の無音検出区間特定処理手順ＲＴ４により、データ記録装置１０は、ラジオ番組の中の音楽と会話とを区別するようになされている。

（１−８−５）第１の無音区間判別処理手順
次いで、上述した第１の無音区間判別処理の手順について説明する。データ記録装置１０は、音楽仮定状態ＭＫにおいて、無音区間ＬＳを検出すると、図２４に示すような第１の無音区間判別処理手順ＲＴ５を開始する。データ記録装置１０の区間特定部２０において区間特定制御部３１は、かかる第１の無音区間判別処理手順ＲＴ５を開始すると、ステップＳＰ５１において、処理状態を音楽仮定状態ＭＫから会話確定待機状態ＴＤＴに遷移し、次のステップＳＰ５２に移る。

ステップＳＰ５２において区間特定制御部３１は、会話確定待機状態ＴＤＴにおいて、曲らしさＭＳが判別閾値未満に変化するか否かを判別する。このステップＳＰ５２において肯定結果が得られると、このことはラジオ番組の会話中に挿入された無音部分を検出してしまったことを示している。従って区間特定制御部３１は、処理状態を会話確定待機状態ＴＤＴから会話確定状態ＴＤに遷移し、ステップＳＰ５８に移る。

これに対し、ステップＳＰ５２において否定結果が得られると、このことはラジオ番組の会話中に挿入された無音部分を検出してしまったか否かまだわからないことを示している。従って区間特定制御部３１は、次のステップＳＰ５３に移る。

ステップＳＰ５３において区間特定制御部３１は、会話確定待機状態ＴＤＴに遷移してからの会話確定待機時間Ｔｔが第３の待機判別時間以上であるか否かを判別する。このステップＳＰ５３で否定結果が得られると、このことはラジオ番組の会話中に挿入された無音部分を検出してしまったか否かを判別するだけの時間が経過していないことを示している。従って区間特定制御部３１は、ステップＳＰ５２に戻る。

これに対し、ステップＳＰ５３において肯定結果が得られると、このことは検出した無音区間ＬＳとは関係なく、ラジオ番組の中で会話が終了して音楽が開始する可能性があることを示している。従って区間特定制御部３１は、次のステップＳＰ５４に移る。

ステップＳＰ５４において区間特定制御部３１は、会話確定待機状態ＴＤＴにおいて、音楽仮定状態ＭＫを開始してから計時している音楽仮定継続時間Ｔｍが音楽仮定判別時間以上であるか否かを判別する。このステップＳＰ５４で否定結果が得られると、このことはラジオ番組の中で会話が終了して音楽が開始したか否かを判別するだけの時間が経過していないことを示している。従って区間特定制御部３１は、処理状態を会話確定待機状態ＴＤＴから音楽仮定状態ＭＫに遷移し、次のステップＳＰ５５に移る。

ステップＳＰ５５において区間特定制御部３１は、音楽仮定状態ＭＫにおいて、曲らしさＭＳが判別閾値以上を継続しているか否かを判別する。このステップＳＰ５５において肯定結果が得られると、このことはラジオ番組の中で会話が終了して音楽が開始した可能性が高いことを示している。従って区間特定制御部３１は、次のステップＳＰ５６に移る。

ステップＳＰ５６において区間特定制御部３１は、音楽仮定状態ＭＫに遷移してからの音楽仮定継続時間Ｔｍが音楽仮定判別時間以上であるか否かを判別する。このステップＳＰ５６で否定結果が得られると、このことはラジオ番組の中で会話が終了して音楽が開始したか否かを判別するだけの時間が経過していないことを示している。従って区間特定制御部３１は、ステップＳＰ５５に戻る。

これに対し、ステップＳＰ５６において肯定結果が得られると、このことはラジオ番組の中で会話が終了して音楽が開始したことを示している。従って区間特定制御部３１は、次のステップＳＰ５７に移る。

これに対し、ステップＳＰ５５において否定結果が得られると、このことはラジオ番組の会話中にベル音や音楽の一部分が短時間だけ挿入されただけであることを示している。従って区間特定制御部３１は、処理状態を音楽仮定状態ＭＫから会話確定状態ＴＤに戻してステップＳＰ５８へ移る。

一方で、ステップＳＰ５４で肯定結果が得られると、このことはラジオ番組の中で会話が終了して音楽が開始したことを示している。従って区間特定制御部３１は、次のステップＳＰ５７に移る。

ステップＳＰ５７において区間特定制御部３１は、区間切換候補位置ＫＰを区間境界と特定し、番組データの、区間境界よりも時系列的に手前側を会話部分区間と特定すると共に区間境界よりも時系列的に後ろ側を音楽部分区間と特定する。そして区間特定制御部３１は、処理状態を音音楽確定状態ＭＤに遷移して、ステップＳＰ５８に移り、かかる第１の無音区間判別処理手順ＲＴ５を終了する。

このような第１の無音区間判別処理手順ＲＴ５により、データ記録装置１０は、ラジオ番組の中で、無音部分が含まれている会話を、ひとまとまりの意味のある会話として判別するようになされている。

（１−８−６）第２の無音区間判別処理手順
次いで、上述した第２の無音区間判別処理の手順について説明する。データ記録装置１０は、会話仮定状態ＴＫにおいて、無音区間ＬＳを検出すると、図２５に示すような第２の無音区間判別処理手順ＲＴ６を開始する。データ記録装置１０の区間特定部２０において区間特定制御部３１は、かかる第２の無音区間判別処理手順ＲＴ６を開始すると、ステップＳＰ６１において、処理状態を会話仮定状態ＴＫから音楽確定待機状態ＭＤＴに遷移し、次のステップＳＰ６２に移る。

ステップＳＰ６２において区間特定制御部３１は、音楽確定待機状態ＭＤＴにおいて、曲らしさＭＳが判別閾値以上に変化するか否かを判別する。このステップＳＰ６２において肯定結果が得られると、このことはラジオ番組の音楽中に曲の一部として挿入されている無音部分を検出してしまったことを示している。従って区間特定制御部３１は、処理状態を音楽確定待機状態ＭＤＴから音楽確定状態ＭＤに遷移し、ステップＳＰ６８に移る。

これに対し、ステップＳＰ６２において否定結果が得られると、このことはラジオ番組の音楽中に挿入された無音部分を検出してしまったか否かまだわからないことを示している。従って区間特定制御部３１は、次のステップＳＰ６３に移る。

ステップＳＰ６３において区間特定制御部３１は、音楽確定待機状態ＭＤＴに遷移してからの会話確定待機時間Ｔｕが第４の待機判別時間以上であるか否かを判別する。このステップＳＰ６３で否定結果が得られると、このことはラジオ番組の音楽中に曲の一部として挿入されている無音部分を検出してしまったか否かを判別するだけの時間が経過していないことを示している。従って区間特定制御部３１は、ステップＳＰ６２に戻る。

これに対し、ステップＳＰ６３において肯定結果が得られると、このことは検出した無音区間ＬＳとは関係なく、ラジオ番組の音楽が終了して会話が開始する可能性があることを示している。従って区間特定制御部３１は、処理状態を音楽確定待機状態ＭＤＴから会話仮定状態ＴＫに戻し、ステップＳＰ６４に移る。

ステップＳＰ６４において区間特定制御部３１は、音楽確定待機状態ＭＤＴにおいて、会話仮定状態ＴＫを開始してから計時している会話仮定継続時間Ｔｎが会話仮定判別時間以上であるか否かを判別する。このステップＳＰ６３で否定結果が得られると、このことはラジオ番組の中で音楽が終了して会話が開始したか否かを判別するだけの時間が経過していないことを示している。従って区間特定制御部３１は、処理状態を音楽確定待機状態ＭＤＴから会話仮定状態ＴＫに遷移し、次のステップＳＰ６５に移る。

ステップＳＰ６５において区間特定制御部３１は、会話仮定状態ＴＫにおいて、曲らしさＭＳが判別閾値未満を継続しているかを判別する。このステップＳＰ６５において肯定結果が得られると、このことはラジオ番組の中で音楽が終了して会話が開始した可能性が高いことを示している。従って区間特定制御部３１は、次のステップＳＰ６６に移る。

ステップＳＰ６６において区間特定制御部３１は、会話仮定状態ＴＫに遷移してからの会話仮定継続時間Ｔｎが会話仮定判別時間以上であるか否かを判別する。このステップＳＰ６６で否定結果が得られると、このことはラジオ番組の中で音楽が終了して会話が開始したか否かを判別するだけの時間が経過していないことを示している。従って区間特定制御部３１は、ステップＳＰ６５に戻る。

これに対し、ステップＳＰ６６において肯定結果が得られると、このことはラジオ番組の中で音楽が終了して会話が開始したことを示している。従って区間特定制御部３１は、次のステップＳＰ６７に移る。

これに対し、ステップＳＰ６５において否定結果が得られると、このことはラジオ番組の音楽中に歌手のセリフが短時間だけ挿入されただけであることを示している。従って区間特定制御部３１は、処理状態を会話仮定状態ＴＫから音楽確定状態ＭＤに戻し、ステップＳＰ６８へ移る。

一方で、ステップＳＰ６４で肯定結果が得られると、このことはラジオ番組の中で音楽が終了して会話が開始したことを示している。従って区間特定制御部３１は、次のステップＳＰ６７に移る。

ステップＳＰ６７において区間特定制御部３１は、区間切換候補位置ＫＰを区間境界と特定し、番組データの、区間境界よりも時系列的に手前側を音楽部分区間と特定すると共に区間境界よりも時系列的に後ろ側を会話部分区間と特定する。そして区間特定制御部３１は、処理状態を会話確定状態ＴＤに遷移して、ステップＳＰ６８に移り、かかる第２の無音区間判別処理手順ＲＴ６を終了する。

このような第２の無音区間判別処理手順ＲＴ６により、データ記録装置１０は、ラジオ番組の中で、無音部分が含まれている音楽を、ひとまとまりの意味のある楽曲として判別するようになされている。

（１−８−７）第１の状態遷移保留処理手順
次いで、上述した第１の状態遷移保留処理の手順について説明する。データ記録装置１０は、会話確定状態ＴＤにおいて、無音区間ＬＳを検出しているときに曲らしさＭＳが判別閾値以上になったことを検出すると、図２６に示すような第１の状態遷移保留処理手順ＲＴ７を開始する。データ記録装置１０の区間特定部２０において区間特定制御部３１は、かかる第１の状態遷移保留処理手順ＲＴ７を開始すると、ステップＳＰ７１において、処理状態を会話確定状態ＴＤから音楽仮定保留状態ＭＫＨに遷移し、次のステップＳＰ７２に移る。

ステップＳＰ７２において区間特定制御部３１は、音楽仮定保留状態ＭＫＨにおいて、音量レベルＶＳが無音から有音に立ち上がったか否かを判別する。このステップＳＰ７２において否定結果が得られると、これはラジオ番組の中でいまだ無音が継続していることを示している。従って区間特定制御部３１は、ラジオ番組が無音から有音に立ち上がるまで、このステップＳＰ７２を繰り返す。これに対し、ステップＳＰ７２で肯定結果が得られると、このことはラジオ番組の中で会話が再開したか、又は音楽が開始したかのいずれかであることを示している。従って区間特定制御部３１は、音量レベルＶＳが無音から有音レベルに立ち上がった有音立上り位置ＬＥを区間境界候補位置ＫＰとして記憶して、次のステップＳＰ７３に移る。

ステップＳＰ７３において区間特定制御部３１は、音楽仮定保留状態ＭＫＨにおいて、有音レベルの立上がりの検出直後の曲らしさＭＳが判別閾値以上であるか否かを判別する。このステップＳＰ７３において否定結果が得られると、このことはラジオ番組の中で、無音状態を介して会話が再開しただけであることを示している。従って区間特定制御部３１は、ステップＳＰ７７に移る。

これに対し、ステップＳＰ７３で肯定結果が得られると、このことはラジオ番組の会話が終了して音楽が開始した可能性があることを示している。従って区間特定制御部３１は、処理状態を音楽仮定保留状態ＭＫＨから音楽仮定状態ＭＫに遷移し、ステップＳＰ７４に移る。

ステップＳＰ７４において区間特定制御部３１は、音楽仮定状態ＭＫにおいて、曲らしさＭＳが判別閾値以上を継続しているか否かを判別する。このステップＳＰ７４において肯定結果が得られると、このことはラジオ番組の中で会話が終了して音楽が開始した可能性が高いことを示している。従って区間特定制御部３１は、次のステップＳＰ７５に移る。

ステップＳＰ７５において区間特定制御部３１は、音楽仮定継続時間Ｔｍが音楽仮定判別時間以上であるか否かを判別する。このステップＳＰ７５で否定結果が得られると、このことはラジオ番組の中で会話が終了して音楽が開始したか否かを判別するだけの時間が経過していないことを示している。従って区間特定制御部３１は、ステップＳＰ７４に戻る。

これに対し、ステップＳＰ７５において肯定結果が得られると、このことはラジオ番組の中で会話が終了して音楽が開始したことを示している。従って区間特定制御部３１は、次のステップＳＰ７６に移る。

ステップＳＰ７６において区間特定制御部３１は、区間切換候補位置ＫＰを区間境界と特定し、番組データの、区間境界よりも時系列的に手前側を会話部分区間と特定すると共に区間境界よりも時系列的に後ろ側を音楽部分区間と特定する。そして区間特定制御部３１は、処理状態を音楽仮定状態ＭＫから音楽確定状態ＭＤに遷移して、ステップＳＰ７７に移り、かかる第１の状態遷移保留処理手順ＲＴ７を終了する。

このような第１の状態遷移保留処理手順ＲＴ７により、データ記録装置１０は、ラジオ番組の中で比較的長い無音部分があるときに、有音部分が出てくるまで処理を保留するようになされている。

（１−８−８）第２の状態遷移保留処理手順
次いで、上述した第２の状態遷移保留処理の手順について説明する。データ記録装置１０は、音楽確定状態ＭＤにおいて、無音区間ＬＳを検出しているときに曲らしさＭＳが判別閾値未満になったことを検出すると、図２７に示すような第２の状態遷移保留処理手順ＲＴ８を開始する。データ記録装置１０の区間特定部２０において区間特定制御部３１は、かかる第２の状態遷移保留処理手順ＲＴ８を開始すると、ステップＳＰ８１において、処理状態を音楽確定状態ＭＤから会話仮定保留状態ＴＫＨに遷移し、次のステップＳＰ８２に移る。

ステップＳＰ８２において区間特定制御部３１は、会話仮定保留状態ＴＫＨにおいて、音量レベルＶＳが無音から有音に立ち上がったか否かを判別する。このステップＳＰ８２において否定結果が得られると、これはラジオ番組の中でいまだ無音が継続していることを示している。従って区間特定制御部３１は、ラジオ番組が無音から有音に立ち上がるまで、このステップＳＰ８２を繰り返す。これに対し、ステップＳＰ８２で肯定結果が得られると、このことはラジオ番組の中で音楽が再開したか、又は会話が開始したかのいずれかであることを示している。従って区間特定制御部３１は、音量レベルＶＳが無音から有音レベルに立ち上がった有音立上り位置ＬＥを区間境界候補位置ＫＰとして記憶して、次のステップＳＰ８３に移る。

ステップＳＰ８３において区間特定制御部３１は、会話仮定保留状態ＴＫＨにおいて、有音レベルの立上がりの検出直後の曲らしさＭＳが判別閾値未満であるか否かを判別する。このステップＳＰ８３において否定結果が得られると、このことはラジオ番組の中で、曲の一部として挿入されている無音部分を介して音楽が再開しただけであることを示している。従って区間特定制御部３１は、ステップＳＰ８７に移る。

これに対し、ステップＳＰ８３で肯定結果が得られると、このことはラジオ番組の中で音楽が終了して会話が開始した可能性があることを示している。従って区間特定制御部３１は、処理状態を会話仮定保留状態ＴＫＨから会話仮定状態ＴＫに遷移し、ステップＳＰ８４に移る。

ステップＳＰ８４において区間特定制御部３１は、会話仮定状態ＴＫにおいて、曲らしさＭＳが判別閾値未満を継続しているか否かを判別する。このステップＳＰ８４において肯定結果が得られると、このことはラジオ番組の中で音楽が終了して会話が開始した可能性が高いことを示している。従って区間特定制御部３１は、次のステップＳＰ８５に移る。

ステップＳＰ８５において区間特定制御部３１は、会話仮定継続時間Ｔｎが会話仮定判別時間以上であるか否かを判別する。このステップＳＰ８５で否定結果が得られると、このことはラジオ番組の中で会話が終了して音楽が開始したか否かを判別するだけの時間が経過していないことを示している。従って区間特定制御部３１は、ステップＳＰ８４に戻る。

これに対し、ステップＳＰ８５において肯定結果が得られると、このことはラジオ番組の中で音楽が終了して会話が開始したことを示している。従って区間特定制御部３１は、次のステップＳＰ８６に移る。

ステップＳＰ８６において区間特定制御部３１は、区間切換候補位置ＫＰを区間境界と特定し、番組データの、区間境界よりも時系列的に手前側を音楽部分区間と特定すると共に区間境界よりも時系列的に後ろ側を会話部分区間と特定する。そして区間特定制御部３１は、処理状態を会話仮定状態ＴＫから会話確定状態ＴＤに遷移して、ステップＳＰ８７に移り、かかる第２の状態遷移保留処理手順ＲＴ８を終了する。

このような第２の状態遷移保留処理手順ＲＴ８により、データ記録装置１０は、ラジオ番組の中で比較的長い無音部分があるときに、有音部分が出てくるまで処理を保留するようになされている。

（１−９）動作及び効果
以上の構成においてデータ記録装置１０は、ラジオ番組の会話部分の録音時、録音しているラジオ番組に対応する番組データの曲らしさＭＳが判別閾値以上に変化することに応じて区間境界候補範囲ＳＡを検出すると共に、当該検出した区間境界候補範囲ＳＡの中から、音量レベルＶＳに応じて区間境界候補位置ＫＰを検出する。そしてデータ記録装置１０は、曲らしさＭＳが音楽仮定判別時間のあいだ判別閾値以上を継続した場合に、番組データの会話部分区間から音楽部分区間へと切り換わった境界を特定する。

従って区間特定制御部３１は、ラジオ番組の会話と音楽とが無音区間ＬＳを挟むことなく切り換わる場合や、ラジオ番組の会話と音楽とが一部分だけ重なって切り換わるような場合に、音楽だけが流され始めた位置で音量レベルＶＳの変動があれば、そのラジオ番組の中で会話から音楽への間断無い切り換えの範囲を、曲らしさＭＳが判別閾値以上に変化したことに応じて検出すると共に、当該検出した範囲の中で、ラジオ番組の中で音楽だけが流され始めた位置を、音量レベルＶＳが低くなることに応じて検出して、番組データの会話部分区間と音楽部分区間とを特定することができる。またその場合、区間特定制御部３１は、番組データの、最終的に特定した音楽部分区間の先頭に会話部分区間の後尾が含まれてしまうことを回避することができる。

またデータ記録装置１０は、ラジオ番組の音楽部分の録音時、録音しているラジオ番組に対応する番組データの曲らしさＭＳが判別閾値未満に変化することに応じて区間境界候補範囲ＳＡを検出すると共に、当該検出した区間境界候補範囲ＳＡの中から、音量レベルＶＳに応じて区間境界候補位置ＫＰを検出する。そしてデータ記録装置１０は、曲らしさＭＳが音楽仮定判別時間のあいだ判別閾値未満を継続した場合に、番組データの音楽部分区間から会話部分区間へと切り換わった境界を特定する。

従って区間特定制御部３１は、ラジオ番組の音楽と会話とが無音区間ＬＳを挟むことなく切り換わる場合や、ラジオ番組の音楽と会話とが一部分だけ重なって切り換わるような場合に、会話が流され始めた位置で音量レベルＶＳの変動があれば、そのラジオ番組の音楽から会話への間断無い切り換えの範囲を、曲らしさＭＳが判別閾値未満に変化したことに応じて検出すると共に、当該検出した範囲の中で、ラジオ番組の中で会話が流され始めた位置（すなわち、ラジオ番組の中で音楽だけが流されている区間が終了した位置）を、音量レベルＶＳが低くなることに応じて検出して、番組データの音楽部分区間と会話部分区間とを特定することができる。またその場合、区間特定制御部３１は、番組データの、最終的に特定した音楽部分区間の後尾に会話部分区間の先頭が含まれてしまうことを回避することができる。

以上の構成によれば、データ記録装置１０は、音楽部分と会話部分とが混在して形成された番組データから、当該番組データがどれだけ音楽らしいかを表す曲らしさＭＳを検出すると共に番組データの音量レベルＶＳを検出し、曲らしさＭＳと音量レベルＶＳとの検出結果に応じて、番組データの中で、音楽部分に相当する音楽部分区間と、会話部分に相当する会話部分区間とを特定して、かかる特定された番組データを記録するようにしたことにより、番組データを記録するとき、曲らしさＭＳでは最終的に各区間を高精度に特定し難いような番組データの音楽部分区間と会話部分区間とを、音量レベルＶＳで補うように特定して記録することができると共に、音量レベルＶＳでは最終的に各区間を高精度に特定し難いような番組データの音楽部分区間と会話部分区間とを、曲らしさＭＳで補うように特定して記録することができ、かくして、音楽データを含む番組データから、音楽データを高精度に特定して記録することができる。

またこの場合、データ記録装置１０は、番組データの中で会話部分区間と音楽部分区間とが切り換わったことは検出できるものの、番組データの会話部分区間と音楽部分区間との間の具体的な境界を特定し難い曲らしさＭＳと、番組データの会話部分区間と音楽部分区間との間の具体的な境界は特定できるものの、番組データの会話部分区間と音楽部分区間とが切り換わったことは検出し難い音量レベルＶＳとに応じて、番組データの会話部分区間と音楽部分区間とを特定するようにしたことにより、番組データの会話部分区間と音楽部分区間とを高精度に特定することができる。

さらにデータ記録装置１０は、曲らしさＭＳに応じて、番組データの中で音楽部分区間と会話部分区間との境界を含む範囲としての区間境界候補範囲ＳＡを特定し、音量レベルＶＳに応じて、当該区間境界候補範囲ＳＡの中で音楽部分区間と会話部分区間とが切り換わる位置の候補である区間境界候補位置ＫＰを特定するようにしたことにより、ラジオ番組の会話と音楽とが無音区間ＬＳを挟むことなく切り換わる場合や、ラジオ番組の会話と音楽とが一部分だけ重なって切り換わるような場合に、そのラジオ番組の会話から音楽への間断無い切り換えの範囲を、曲らしさＭＳが判別閾値以上になったことに応じて検出すると共に、当該検出した範囲の中で、実際にラジオ番組の会話から音楽へと切り換わった位置を音量レベルＶＳが低くなることに応じて検出して、番組データの会話部分区間と音楽部分区間とを高精度に特定することができる。

さらにデータ記録装置１０は、音量レベルＶＳにより、所定の範囲以上の無音が継続する区間としての無音区間ＬＳを検出した後に、曲らしさＭＳが、番組データの音楽部分と会話部分との判別用の所定の判別閾値を越えたとき、検出した無音区間ＬＳに応じて、音楽部分区間と会話部分区間とが切り換わる位置を特定するようにしたことにより、ラジオ番組の中で会話と音楽の間に無音区間ＬＳが挿入されているような場合に、かかる無音区間ＬＳを検出してから曲らしさＭＳの値を確認することで、番組データの会話部分区間と音楽部分区間とを精度良く特定することができる。

さらにこの場合、データ記録装置１０は、例えば、曲の出だしがとても静かだったり、低い音階だけしか使われていなかったりすることにより、曲らしさＭＳがゆっくりとしか上昇しないような音楽がラジオ番組に含まれている場合でも、かかる音楽の先頭に無音区間ＬＳが含まれていれば、番組データの会話部分区間と音楽部分区間とを特定することができる。

さらにデータ記録装置１０は、音量レベルＶＳにより無音区間ＬＳを検出したとき、曲らしさＭＳが番組データの音楽部分と会話部分との判別用の所定の判別閾値を越えた場合には、検出した無音区間ＬＳの、有音への立ち上がりを区間境界候補位置ＫＰとして検出して、かかる区間境界候補位置ＫＰを番組データの会話部分区間と音楽部分区間とが切り換わった区間境界であると特定するようにしたことにより、最終的に特定される音楽部分区間または会話部分区間の先頭に含まれる無音部分を極力少なくして、後に再生するときの聴き心地を向上させることができる。

さらにデータ記録装置１０は、ラジオ番組の聴取時、出力部１４からラジオ番組を出力させると共に、当該出力するラジオ番組に対応する番組データを、一時記憶部１６で一時記憶する。そしてデータ記録装置１０は、操作部１２を介して一度出力したラジオ番組の再出力が要求されると、一時記憶部１６から読出した所定時間分の出力に相当する番組データを、データ処理部１３でアナログ処理して番組信号を得、かかる番組信号に応じたラジオ番組を、出力部１４を介して再出力する。従ってデータ記録装置１０は、ユーザがトイレ等で席を外したことにより、出力中のラジオ番組の一部を聴取させられなかったときに、ユーザの要求に応じて、ラジオ番組のうち既に出力してしまった部分を、所定時間だけ時系列的に遡って出力して聴取させることができ、かくして、使い勝手を向上できる。

さらにデータ記録装置１０は、番組データの音楽部分区間と会話部分区間とを特定したとき、当該特定した結果としての区間特定情報ＤＩに応じて、番組データを、音楽部分区間データと会話部分区間データとに分割して記録するようにした。従ってデータ記録装置１０は、記録した番組データを再生するとき、番組データの先頭から順に再生してユーザに内容を確認させること無しに、分割して記録されている音楽部分区間データ及び会話部分区間データに直接アクセスして再生するだけで、ユーザに内容を確認させることができ、かくして、使い勝手を向上できる。

（１−１０）他の実施の形態
なお上述した第１の実施の形態においては、ラジオ局のラジオ放送波を受信して、ラジオ番組に対応する番組データを生成するようにした場合について述べたが、本発明はこれに限らず、音楽部分区間と会話部分区間とが混在している混在データを取得するのであれば、テレビ局のテレビ放送を受信して生成した番組データ、通信回線を介して取得したストリーミング形式のデータ、記録部に既に記憶してある番組データやストリーミングデータ等を適用しても良く、その場合にも同様の効果を得ることができる。

また上述した第１の実施の形態においては、番組データの音楽部分区間と会話部分区間とを特定したとき、その特定結果としての区間特定情報ＤＩに応じて、かかる番組データを音楽部分区間データと会話部分区間データとに分割して、データファイルとして記録するようにした場合について述べたが、本発明はこれに限らず、番組データを分割せずに、区間特定データＤＩと合わせて記録するようにしても良い。その場合、番組データと区間特定データＤＩとを対応付けて、別のデータファイルとして記録しても良いし、番組データのヘッダ情報として区間特定データＤＩを格納して記録するようにしても良い。また、区間特定データＤＩに応じて番組データの対応する位置に所定のタグを付加するようにしてもよい。

さらに上述した第１の実施の形態においては、０〜１の値に正規化された曲らしさＭＳの判別閾値として判別閾値を適用した場合について述べたが、本発明はこれに限らず、判別閾値は条件に合わせて０〜１のどの値であっても良い。また、曲らしさＭＳの値は正規化されている必要は無く、対応する判別閾値についても同様である。

さらに上述した第１の実施の形態においては、曲らしさＭＳが判別閾値以上になる及び曲らしさＭＳが判別閾値未満になることを、曲らしさＭＳが判別閾値を越えると表現したが、本発明はこれに限らず、曲らしさＭＳが判別閾値を上回る及び曲らしさＭＳが判別閾値以下になることを、曲らしさＭＳが判別閾値を越えるとしても良く、判別閾値がどちらに含まれるかは設定によりどうにでもなるものとする。

さらに上述した第１の実施の形態においては、番組データの無音区間ＬＳを検出したときに、無音区間ＬＳの中で、無音状態から有音状態に立ち上がる位置を区間境界候補位置ＫＰとするようにした場合について述べたが、本発明はこれに限らず、無音区間ＬＳの中で、最初に有音状態から無音状態になった位置を検出して区間境界候補位置ＫＰとするようにしても良い。

さらに上述した第１の実施の形態においては、第２の無音検出区間特定処理時、番組データの会話部分区間の中に無音区間ＬＳが検出されたときに、その無音区間ＬＳは、例えばラジオ番組の会話中の沈黙であると判別して無視するようにした場合について述べたが、本発明はこれに限らず、番組データの会話部分区間の中に無音区間ＬＳが検出されたときに、その無音区間ＬＳの前後を別の会話部分区間として特定するようにしても良い。

さらに上述した第１の実施の形態においては、番組データを音楽部分区間と会話部分区間とに特定するようにした場合、すなわちラジオ番組を音楽部分と会話部分とに特定するようにした場合について述べたが、本発明はこれに限らず、音楽部分や会話部分、コマーシャル部分、ニュース部分、交通情報部分、などのように、ラジオ番組の内容に合わせて細分化して特定するようにしても良い。

さらに上述した第１の実施の形態においては、曲らしさ検出部１８で曲らしさＭＳを検出すると共に、音量レベル検出部１９で音量レベルＶＳを検出するようにした場合について述べたが、本発明はこれに限らず、曲らしさ解析処理部３３で曲らしさＭＳを検出すると共に、音量レベル解析処理部３４で音量レベルＶＳを検出するようにしても良い。その場合、区間特定制御部３１が、当該区間特定制御部３１、曲らしさ解析処理部３３及び音量レベル解析処理部３４の機能を受け持つようにすれば、上述した第１の実施の形態と同様の効果を得ることができる。

さらに上述した第１の実施の形態においては、第１〜第４の区間特定の手法があり、選択することにより、第１〜第４の区間特定の手法の中で、任意の区間特定の手法を実行できるようにした場合について述べたが、本発明はこれに限らず、第１〜第４の区間特定の手法を単独で実行するだけでなく、第１〜第４の区間特定の手法の中で、任意の区間特定の手法を複数組み合わせて実行するようにしても良い。

（２）第２の実施の形態
（２−１）第２実施の形態の概要
次いで、図２８を用いて第２の実施の形態によるデータ記録装置１００のハードウェア回路ブロックによるハードウェア回路構成を示す。かかるデータ記録装置１００は、中央処理ユニット（CPU:Central Processing Unit ）５０と各ハードウェアとがバス５１を介して接続され、当該中央処理ユニット５０がＲＯＭ（Read Only Memory）５２又はハードディスクドライブ５３から読み出したデータ記録プログラム等の各種プログラムをＲＡＭ（Random Access Memory）５４で展開して実行することにより全体を統括制御すると共に、各種処理を実行するようになされている。

これにより中央処理ユニット５０は、例えばデータ記録装置１００の筐体等に設けられた操作キー５５を介してラジオ局が選局されラジオ番組の出力が要求されると、チューナ５９に対し複数のラジオ局のラジオ放送波のうち、ユーザによって選局されたラジオ局のラジオ放送波を抽出するように設定して動作させる。また中央処理ユニット５０は、このときデータ処理部５７をラジオ番組の出力用に制御する。これによりチューナ５９は、アンテナ６０で受信された各ラジオ局のラジオ放送波の中から、ユーザによって選局されたラジオ局のラジオ放送波を抽出して復調処理等の所定の受信処理を施し、この結果得られたラジオ番組の番組信号をデータ処理部５７に送出する。データ処理部５７は、チューナ５９から与えられた番組信号に対しアナログデジタル変換処理及びイコライジング処理等のデジタル処理を施し、その結果得られた番組データに対しデジタルアナログ変換処理及び増幅処理等のアナログ処理を施す。これによりデータ処理部５７は、かかるアナログ処理に応じて番組信号を得て、これをスピーカ５８に送出することで当該スピーカ５８から番組信号に基づく番組の音声を出力させてユーザに聴取させる。このようにして中央処理ユニット５０は、ユーザに対し所望のラジオ局で放送されているラジオ番組を聴かせることができる。

また中央処理ユニット５０は、操作キー５５を介してラジオ局が選局されラジオ番組の録音が要求されると、上述と同様にチューナ５９をユーザによって選局されたラジオ局のラジオ放送波を抽出するように設定して動作させる。また中央処理ユニット５０は、このときデータ処理部５７をラジオ番組の録音用に制御する。これによりチューナ５９は、アンテナ６０で受信された各ラジオ局のラジオ放送波の中から、ユーザによって選局されたラジオ局のラジオ放送波を抽出して受信処理を施し、この結果得られたラジオ番組の番組信号をデータ処理部５７に送出する。またデータ処理部５７は、チューナ５９から与えられた番組信号に対してデジタル処理を施し、その結果得られた番組データを中央処理ユニット５０に送出する。そして中央処理ユニット５０は、番組データをハードディスクドライブ５３に送出してデータファイルとして記録する。このようにして中央処理ユニット５０は、所望のラジオ局で放送されているラジオ番組を録音することができる。

さらに、中央処理ユニット５０は、操作キー５５を介して番組データの再生が要求されると、ハードディスクドライブ５３から再生の要求された番組データを読み出し、これをデータ処理部５７に送出する。データ処理部５７は、中央処理ユニット５０から与えられた番組データに対し所定のデジタル処理を施した後、このデジタル処理した番組データに対しデジタルアナログ変換処理及び増幅処理等のアナログ処理を施す。これによりデータ処理部５７は、かかるアナログ処理に応じて番組信号を得て、これをスピーカ５８に送出することで当該スピーカ５８から番組信号に基づくラジオ番組の音声を出力させてユーザに聴取させることができる。このようにして中央処理ユニット５０は、ハードディスクドライブ５３に録音したラジオ番組を聴かせることができる。

ところでデータ記録装置１００は、上述したように中央処理ユニット５０がＲＯＭ５２又はハードディスクドライブ５３に記憶された各種プログラムに従って各種処理を実行すると共に各ハードウェアを制御している。このためデータ記録装置１００では、図２について上述した機能回路ブロックによるハードウェア構成のデータ記録装置１０の機能に応じて、ＲＯＭ５２又はハードディスクドライブ５３に記憶させる各種プログラムを適宜選定することにより、中央処理ユニット５０及びデータ処理部５７を、上述のデータ処理部１３（図２）と同様に機能させることができる。

またデータ記録装置１００では、操作キー５５を、上述の操作部１２（図２）と同様に機能させることができると共に、中央処理ユニット５０及びハードディスクドライブ５３を、上述の記録部１５（図２）と同様に機能させることができる。さらにデータ記録装置１００では、中央処理ユニット５０、チューナ５９及びアンテナ６０を、上述の受信部１１（図２）と同様に機能させることができると共に、中央処理ユニット５０及び表示部６１を、上述の表示部１７（図２）と同様に機能させることができる。さらにまたデータ記録装置１００では、中央処理ユニット５０を、上述の曲らしさ検出部１８（図２）、音量レベル検出部１９（図２）、区間特定部２０（図２）及び分割部２１（図２）のそれぞれと同様に機能させることができる。そしてＲＯＭ５２は、上述の一時記憶部１６（図２）に対応する。またスピーカ５８は、上述の出力部１４（図２）に対応する。

従ってデータ記録装置１００は、データ記録装置１０の機能に応じて、ＲＯＭ５２又はハードディスクドライブ５３に記憶させる各種プログラムを適宜選定することにより、当該データ記録装置１０と同様の上述した処理を実行することができ、かくして上述した第１の実施の形態と同様の効果を得ることができる。

（２−２）他の実施の形態
なお、上述した第２の実施の形態においては、本発明によるデータ記録装置を、図２８について上述したデータ記録装置１００に適用するようにした場合について述べたが、本発明はこれに限らず、ＨＤＤ（Hard Disk Drive）ビデオレコーダ、光ディスクレコーダ、半導体メモリタイプのレコーダ、ラジオ録音機能付きの携帯電話、ラジオ録音機能付きの携帯オーディオプレイヤ及びパーソナルコンピュータ等のように、この他種々のデータ記録装置に広く適用することができる。

また上述した第２の実施の形態においては、音楽部分と、会話部分とが混在して形成された混在データから、当該混在データがどれだけ音楽らしいかを表す曲らしさを検出する曲らしさ検出部として、図２８について上述した中央処理ユニット５０を適用するようにした場合について述べたが、本発明はこれに限らず、音楽部分と、会話部分とが混在して形成された混在データから、当該混在データがどれだけ音楽らしいかを表す曲らしさを検出するハードウェア構成の曲らしさ検出回路等のように、この他種々の曲らしさ検出部を広く適用することができる。

さらに上述した第２の実施の形態においては、混在データの音量レベルを検出する音量レベル検出部として、図２８について上述した中央処理ユニット５０を適用するようにした場合について述べたが、本発明はこれに限らず、混在データの音量レベルを検出するハードウェア構成の音量レベル検出回路等のように、この他種々の音量レベル検出部を広く適用することができる。

さらに上述した第２の実施の形態においては、曲らしさ検出部により検出された曲らしさと、音量レベル検出部により検出された音量レベルとに応じて、混在データの中で、音楽部分に相当する音楽部分区間と、会話部分に相当する会話部分区間とを特定する区間特定部として、図２８について上述した中央処理ユニット５０を適用するようにした場合について述べたが、本発明はこれに限らず、曲らしさ検出部により検出された曲らしさと、音量レベル検出部により検出された音量レベルとに応じて、混在データの中で、音楽部分に相当する音楽部分区間と、会話部分に相当する会話部分区間とを特定するハードウェア構成の区間特定回路等のように、この他種々の区間特定部を広く適用することができる。

さらに上述した第２の実施の形態においては、区間特定部により音楽部分区間と会話部分区間とが特定された混在データを記録する記録部として、図２８について上述したハードディスクドライブ５３を適用するようにした場合について述べたが、本発明はこれに限らず、光ディスクレコーダやカセットテープレコーダ、半導体メモリタイプのレコーダ等、この他種々の記録媒体に対して混在データを記録する記録部を広く適用することができる。

さらに上述した第２の実施の形態においては、音楽部分と会話部分とが混在する番組に応じて出力された放送波を受信して受信信号を生成する受信部として、図２８について上述したチューナ５９及びアンテナ６０を適用するようにした場合について述べたが、本発明はこれに限らず、アンテナ一体型のチューナ等、この他種々の受信部を広く適用することができる。

さらに上述した第２の実施の形態においては、受信部が生成した受信信号から混在データを生成するデータ処理部として、図２８について上述した中央処理ユニット５０及びデータ処理部５７を適用するようにした場合について述べたが、本発明はこれに限らず、受信部が生成した受信信号から混在データを生成するハードウェア構成のデータ処理回路等のように、この他種々のデータ処理部を広く適用することができる。

さらに上述した第２の実施の形態においては、記区間特定部により音楽部分区間と会話部分区間とを特定された混在データを、音楽部分区間の音楽部分区間データと会話部分区間の会話部分区間データとに分割する分割部として、図２８について上述した中央処理ユニット５０を適用するようにした場合について述べたが、本発明はこれに限らず、記区間特定部により音楽部分区間と会話部分区間とを特定された混在データを、音楽部分区間の音楽部分区間データと会話部分区間の会話部分区間データとに分割するハードウェア構成の分割回路等のように、この他種々の分割部を広く適用することができる。

さらに上述した第２の実施の形態においては、データ記録プログラム等の各種プログラムを、ＲＯＭ５２又はハードディスクドライブ５３に記録しておくようにした場合について述べたが、本発明はこれに限らず、データ記録プログラム等の各種プログラムを記録媒体に記録しておくようにして、かかる記録媒体から読み出して実行しても良いし、かかる記録媒体からＲＯＭ５２又はハードディスクドライブ５３にインストールし、その後に実行するようにしても良い。

さらに上述した第１及び第２の実施の形態においては、音楽部分と会話部分とが混在して形成された混在データとして、図１乃至図２８について上述したラジオ局から放送されたラジオ番組の番組データを適用するようにした場合について述べたが、本発明はこれに限らず、テレビ局から放送されたテレビ番組のビデオデータや、インターネット上の音声コンテンツデータ及び動画コンテンツデータ等、種々の混在データを適用するようにしても良い。これに加えて、他の記録媒体に記録されている番組データ等を読み出して上述の処理を行うようにしても良く、混在データの種類及び取得方法については特に限定しない。

本発明は、ラジオ局から放送されたラジオ番組の番組データを記録するデータ記録装置に利用することができる。

第１の実施の形態によるデータ記録装置の概要を示すブロック図である。第１の実施の形態によるデータ記録装置の詳細構成を示すブロック図である。区間特定部の構成を示すブロック図である。曲らしさと音量レベルとの説明に供するグラフ（１）である。区間特定制御部の処理状態の遷移の説明に供するブロック図（１）である。曲らしさと音量レベルとの説明に供するグラフ（２）である。区間特定制御部の処理状態の遷移の説明に供するブロック図（２）である。区間特定制御部の処理状態の遷移の説明に供するブロック図（３）である。曲らしさと音量レベルとの説明に供するグラフ（３）である。曲らしさと音量レベルとの説明に供するグラフ（４）である。曲らしさと音量レベルとの説明に供するグラフ（５）である。区間特定制御部の処理状態の遷移の説明に供するブロック図（４）である。区間特定制御部の処理状態の遷移の説明に供するブロック図（５）である。曲らしさと音量レベルとの説明に供するグラフ（６）である。曲らしさと音量レベルとの説明に供するグラフ（７）である。区間特定制御部の処理状態の遷移の説明に供するブロック図（６）である。区間特定制御部の処理状態の遷移の説明に供するブロック図（７）である。曲らしさと音量レベルとの説明に供するグラフ（８）である。曲らしさと音量レベルとの説明に供するグラフ（９）である。第１の範囲検出区間特定処理手順を示すフローチャートである。第２の範囲検出区間特定処理手順を示すフローチャートである。第１の無音検出区間特定処理手順を示すフローチャートである。第２の無音検出区間特定処理手順を示すフローチャートである。第１の無音区間判別処理手順を示すフローチャートである。第２の無音区間判別処理手順を示すフローチャートである。第１の状態遷移保留処理手順を示すフローチャートである。第２の状態遷移保留処理手順を示すフローチャートである。第２の実施の形態によるデータ記録装置の回路構成を示すブロック図である。

符号の説明

１、１０、１００……データ記録装置、２、１８……曲らしさ検出部、３、１９……音量レベル検出部、４、２０……区間特定部、５、１５……記録部、１１…受信部、１３、５７……データ処理部、１６……一時記憶部、２１……分割部、５０……中央処理ユニット、５３……ハードディスクドライブ、５５……操作キー、５９……チューナ、ＫＰ……区間境界候補位置、ＬＬ……最低音量レベル位置、ＬＳ……無音区間、ＭＫＨ……音楽仮定保留状態、ＭＫ……音楽仮定状態、ＭＤ……音楽確定状態、ＭＤＴ……音楽確定待機状態、ＭＫＴ……音楽仮定待機状態、ＴＫ……会話仮定状態、ＴＫＴ……会話仮定待機状態、ＴＫＨ……会話仮定保留状態、ＴＤ……会話確定状態、ＴＤＴ……会話確定待機状態、ＳＡ……区間境界候補範囲、ＲＴ１…第１の範囲検出区間特定処理手順、ＲＴ２……第２の範囲検出区間特定処理手順、ＲＴ３……第１の無音検出区間特定処理手順、ＲＴ４……第２の無音検出区間特定処理手順、ＲＴ５……第１の無音区間判別処理手順、ＲＴ６……第２の無音区間判別処理手順、ＲＴ７……第１の状態遷移保留処理手順、ＲＴ……第２の状態遷移保留処理手順。

Claims

音楽部分と、会話部分とが混在して形成された混在データから、当該混在データがどれだけ音楽らしいかを表す曲らしさを検出する曲らしさ検出部と、
上記混在データの音量レベルを検出する音量レベル検出部と、
上記曲らしさ検出部により検出された曲らしさと、上記音量レベル検出部により検出された音量レベルとに応じて、上記混在データの中で、上記音楽部分に相当する音楽部分区間と、上記会話部分に相当する会話部分区間とを特定する区間特定部と、
上記区間特定部により上記音楽部分区間と上記会話部分区間とが特定された上記混在データを記録する記録部と
を具えることを特徴とするデータ記録装置。
上記音楽部分と上記会話部分とが混在する番組に応じて出力された放送波を受信して受信信号を生成する受信部と、
上記受信部が生成した受信信号から上記混在データを生成するデータ処理部と
を具え、
上記曲らしさ検出部は、
上記データ処理部が生成した上記混在データの曲らしさを検出し、
上記音量レベル検出部は、
上記データ処理部が生成した上記混在データの音量レベルを検出する
ことを特徴とする請求項１に記載のデータ記録装置。
上記記録部に記録されているデータを読出すデータ処理部
を具え、
上記記録部は、
区間が未特定の上記混在データを予め記録し、
上記データ処理部は、
上記記録部に予め記録された上記混在データを読み出し、
上記曲らしさ検出部は、
上記データ処理部により読出された上記混在データの上記曲らしさを検出し、
上記音量レベル検出部は、
上記データ処理部により読出された上記混在データの上記音量レベルを検出する
ことを特徴とする請求項１に記載のデータ記録装置。
上記区間特定部は、
上記曲らしさに応じて、上記混在データの中で、上記音楽部分区間と上記会話部分区間との境界を含む所定の境界範囲を特定し、上記音量レベルに応じて、当該境界範囲に含まれる上記音楽部分区間と上記会話部分区間との境界を特定する
ことを特徴とする請求項１に記載のデータ記録装置。
上記区間特定部は、
上記曲らしさが、上記混在データの上記音楽部分と上記会話部分との判別用の所定の判別閾値を越えた位置を基準位置として検出し、当該検出した基準位置に応じて上記境界範囲を特定する
ことを特徴とする請求項４に記載のデータ記録装置。
上記区間特定部は、
上記曲らしさが上記判別閾値を越えた時点から、当該曲らしさが当該判別閾値を越えた状態が、上記混在データの上記音楽部分と上記会話部分との判別用の所定の判別時間のあいだ継続した場合に、上記音量レベルに応じて、上記境界範囲に含まれる上記音楽部分区間と上記会話部分区間との上記境界を特定する
ことを特徴とする請求項５に記載のデータ記録装置。
上記区間特定部は、
上記曲らしさが上記判別閾値を越えた時点から、当該曲らしさが当該判別閾値を越えた状態が、上記混在データの上記音楽部分と上記会話部分との判別用の所定の判別時間のあいだ継続しなかった場合に、上記境界範囲に含まれる上記音楽部分区間と上記会話部分区間との上記境界を特定しない
ことを特徴とする請求項５に記載のデータ記録装置。
上記区間特定部は、
上記境界範囲内で最も音量レベルが低い最低音量レベル位置を検出し、当該検出した最低音量レベル位置に応じて、上記境界範囲に含まれる上記音楽部分区間と上記会話部分区間との上記境界を特定する
ことを特徴とする請求項４に記載のデータ記録装置。
上記区間特定部は、
上記音量レベルにより、上記境界範囲内で所定の範囲以上の無音が継続する無音区間を検出し、当該検出した上記無音区間に応じて、上記境界範囲に含まれる上記音楽部分区間と上記会話部分区間との上記境界を特定する
ことを特徴とする請求項４に記載のデータ記録装置。
上記区間特定部は、
検出した上記無音区間の、上記音量レベルにより上記無音を最初に検出した位置に応じて、上記境界範囲に含まれる上記音楽部分区間と上記会話部分区間との上記境界を特定する
ことを特徴とする請求項９に記載のデータ記録装置。
上記区間特定部は、
検出した上記無音区間の、上記音量レベルにより当該無音区間の後に最初に有音を検出した位置に応じて、上記境界範囲に含まれる上記音楽部分区間と上記会話部分区間との上記境界を特定する
ことを特徴とする請求項９に記載のデータ記録装置。
上記区間特定部は、
上記音量レベルにより、所定の範囲以上の無音が継続する無音区間を検出した後に、上記曲らしさが、上記混在データの上記音楽部分と上記会話部分との判別用の所定の判別閾値を越えたとき、検出した上記無音区間に応じて、上記音楽部分区間と上記会話部分区間との境界を特定する
ことを特徴とする請求項１に記載のデータ記録装置。
上記区間特定部は、
上記音量レベルにより、所定の範囲以上の無音が継続する上記無音区間を検出した後に、上記曲らしさが、上記混在データの上記音楽部分と上記会話部分との判別用の所定の判別閾値を越えなかったときに、上記音楽部分区間を上記無音区間で分割する又は上記会話部分区間を上記無音区間で分割する
ことを特徴とする請求項１２に記載のデータ装置。
上記区間特定部は、
検出した上記無音区間の、上記音量レベルにより上記無音を最初に検出した位置に応じて、上記境界範囲に含まれる上記音楽部分区間と上記会話部分区間との上記境界を特定する
ことを特徴とする請求項１２に記載のデータ記録装置。
上記区間特定部は、
上記音量レベルにより上記無音区間の後に最初に有音を検出した位置に応じて、上記境界範囲に含まれる上記音楽部分区間と上記会話部分区間との上記境界を特定する
ことを特徴とする請求項１２に記載のデータ記録装置。
上記区間特定部は、
上記混在データの上記音楽部分区間と上記会話部分区間とを特定したとき、当該特定結果に応じて区間特定情報を生成し、
上記記録部は、
上記混在データと上記区間特定情報とを記録する
ことを特徴とする請求項１に記載のデータ記録装置。
上記区間特定部は、
上記混在データの上記音楽部分区間と上記会話部分区間とを特定したとき、当該特定結果に応じて区間特定情報を生成して当該混在データに付加し、
上記記録部は、
上記区間特定情報が付加された上記混在データを記録する
ことを特徴とする請求項１に記載のデータ記録装置。
上記区間特定部により上記音楽部分区間と上記会話部分区間とが特定された上記混在データを、上記音楽部分区間の音楽部分区間データと上記会話部分区間の会話部分区間データとに分割する分割部
を具え、
上記記憶部は、
上記混在データとして、上記分割部により分割された上記音楽部分区間データと上記会話部分区間データを記録する
ことを特徴とする請求項１に記載のデータ記録装置。
上記データ処理部が上記混在データを生成したとき、当該混在データに基づいた出力を行う出力部と、
上記出力部が上記混在データに基づいた出力を行うときに、当該出力部による出力と並行して一時的に上記混在データを記憶する一時記憶部と
を具えることを特徴とする請求項２に記載のデータ記録装置。
上記放送波は、
ラジオの放送局により放送された放送波である
ことを特徴とする請求項２に記載のデータ記録装置。
上記混在データは、
ストリーム形式でなる
ことを特徴とする請求項１に記載のデータ記録装置。
音楽部分と、会話部分とが混在して形成された混在データから、当該混在データがどれだけ音楽らしいかを表す曲らしさを検出すると共に、当該混在データの音量レベルを検出する検出ステップと、
上記曲らしさと上記音量レベルとに応じて、上記混在データの中で、上記音楽部分に相当する音楽部分区間と、上記会話部分に相当する会話部分区間とを特定する区間特定ステップと、
上記音楽部分区間と上記会話部分区間とを特定した上記混在データを記録する記録ステップと
を具えることを特徴とするデータ記録方法。
コンピュータに対し、
音楽部分と、会話部分とが混在して形成された混在データから、当該混在データがどれだけ音楽らしいかを表す曲らしさを検出すると共に、当該混在データの音量レベルを検出する検出ステップと、
上記曲らしさと上記音量レベルとに応じて、上記混在データの中で、上記音楽部分に相当する音楽部分区間と、上記会話部分に相当する会話部分区間とを特定する区間特定ステップと、
上記音楽部分区間と上記会話部分区間とを特定し上記混在データを記録する記録ステップと
を実行させるためのデータ記録プログラム。