JP2005518560A

JP2005518560A - 音楽部分を自動で選り分けて格納するデジタル再生装置及びその方法

Info

Publication number: JP2005518560A
Application number: JP2003570347A
Authority: JP
Inventors: ホソンアン
Original assignee: ホソンアン
Priority date: 2002-02-20
Filing date: 2003-01-30
Publication date: 2005-06-23
Also published as: WO2003071537A1; KR100472904B1; EP1476866A4; CN1633690A; AU2003207069A1; US20050169114A1; EP1476866A1; KR20030069419A

Abstract

【課題】受信されるラジオ放送コンテンツの中から再生することができる音楽部分を自動で選り分けて格納するデジタル再生装置及びその方法を提供する。
【解決手段】チューナで放送信号を音響出力部に出力すると共に，ＤＳＰに印加すると，ＤＳＰは前記放送信号をデジタルデータに変換して音楽抽出部に印加し，音楽抽出部は音楽抽出アルゴリズムによって前記デジタルデータ中から音楽データのみを抽出し，マイクロプロセッサは抽出した前記音楽データの始めと終わりを認識して音楽データ格納部の臨時領域に臨時格納しかけて現在出力する音楽を格納する命令が入力されると，前記音楽データ格納部の臨時領域から確定領域に移転して格納し，その格納状態を確定して維持する。

Description

本発明は，音楽部分を自動で選り分けて格納するデジタル再生装置及びその方法に関し，詳しくは，受信されるラジオ放送コンテンツの中から音楽部分のみを自動で選り分けてユーザの録音選択によってその音楽の始めから終わりまで自動で選り分けて格納するデジタル再生装置及びその方法に関する。

最近，音楽愛好者の中には，既存のアナログ音楽再生器に比べて高品質の音楽を聞くことができるデジタル音楽再生器がたくさん使われている。デジタル音楽再生器はデジタル音楽ファイルを再生する装置であって，音楽の読取り及び書込みが可能な不揮発性デジタルメモリ（メディアカード）を備えて音楽データを格納することができるので，極めて小さな大きさで具現できる特徴がある。このような長所によって，ＭＰ３（ＭＰＥＧＡｕｄｉｏ−Ｌａｙｅｒ３）プレーヤーという携帯用デジタル音楽再生器が急速に普及されている傾向にある。また，最近ＭＰ３プレーヤーは格納された音楽データを聞くことができるだけでなく，リアルタイムでＦＭラジオ音楽放送を聞くことができるようにラジオ機能も備えているものが一般的である。

図１は，従来のラジオ機能を備えたＭＰ３プレーヤーの構成を示すブロック構成図である。

従来のＭＰ３プレーヤー１００は，アンテナ１１０，チューナ１２０，音響出力部１３０，ＤＳＰ（ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｏｒ：１４０），外部機器接続部１５０，コントローラー１６０，音楽データ格納部１７０，表示部１８０及びキー操作部１９０等からなる。

アンテナ１１０は公衆波信号を受信し，チューナ１２０はアンテナ１１０に受信される公衆波信号中から現在合わせているチャンネルに該当するラジオ信号を受信して出力する。音響出力部１３０は，チューナ１２０で受信されたアナログ音響信号をフィルタリングしたり増幅したりして可聴音で出力する。

ＤＳＰ（デジタル音響処理部：１４０）は，チューナ１２０で受信されたラジオアナログ信号をデジタルデータに変換したりデジタル音楽データをアナログ信号に変換したりして出力する。また，ＤＳＰ１４０は，符号化された音楽データを復号化してアナログ信号に変換出力する。

外部機器接続部１５０は，ＭＰ３音楽データをダウンロードするために，外部機器（例えば，コンピュータ）と接続する。コントローラー１６０は，ＭＰ３音楽データの格納及び出力，または，ラジオ放送信号の受信及び出力を制御する。

音楽データ格納部１７０はＭＰ３ファイルで圧縮された多数の音楽データが格納されるフラッシュメモリ，または，ハードディスク形態の格納媒体であって，例えば，６４Ｍバイト，または，１２８Ｍバイトの場合，略１６〜３２曲のＭＰ３音楽ファイルデータを記録格納することができる。表示部１８０は装置の動作状態を表示し，キー操作部１９０はラジオ放送チャンネルを選択したりＭＰ３音楽ファイルを選択したりして出力するのに必要とする入力動作を遂行するためのものである。

即ち，ユーザが上記のように構成されたＭＰ３プレーヤー１００を操作して音楽を聞こうとする場合，ラジオ機能を選択してリアルタイムで希望するチャンネルのラジオ音楽放送を選択して聴いたり，音楽データ格納部１７０に格納されている音楽データ中から聴取を希望する音楽データを選択したりして聴取する。

特に，ラジオ機能を選択して，例えば，ＦＭ音楽放送を聴取する途中に録音格納を遂行する際には，キー操作部１９０に備えられた録音ボタン（図示せず）を押して現在聞いている音楽の録音動作を遂行する。その際，コントローラー１６０は，ＤＳＰ１３０を制御して現在チューナ１２０から出力する音楽信号をデジタルデータに変換して音楽データ格納部１７０に格納する。そして，ユーザは音楽が終わる時点に更に録音ボタンを押えることにより，録音を終了することになる。このため，ユーザは音楽の始めと終わりの部分をよく認識するために相当に集中しなければならない。

ユーザがラジオ音楽放送を聴取する途中に録音格納を遂行する場合，音楽放送で放送する音楽に対して紹介があった後に音楽が放送されれば，ユーザは録音する準備をしかけて録音動作を遂行することができる。しかしながら，大部分はユーザがその音楽の始めの部分を聴取しかけて録音をするという判断を下して録音動作を遂行することになるので，リアルタイムで受信される音楽はある程度経過しかけて音楽データ格納部１７０に格納される。従って，ユーザが録音格納を終了した後，更に再生して聴取する際は，その音楽の始めの部分がある程度経過した部分から聴取することになる。ここで，従来のＭＰ３プレーヤー１００でラジオを聴取して音楽を格納しようとする場合，ある程度経過した後でもその音楽の始めの部分から格納して，更に再生できる機能が要求されてきた。

本発明は，このような問題を鑑みてなされたものであり，ユーザが受信される放送信号の中から音楽部分のみを選り分けて手動で格納する不便さを解決するために，デジタル再生装置で受信されるラジオ放送コンテンツ中，音楽部分のみを自動で選り分けて，いつでもユーザの選択によって放送される音楽の始めの部分から格納した後，再生することができる音楽部分を自動で選り分けて格納するデジタル再生装置及びその方法を提供することを目的とする。

上記課題を解決するために，本発明のある観点によれば，放送信号を受信して選局するチューナと，選局された放送信号を可聴音で出力する音響出力部と，音楽データを臨時格納する臨時格納領域と確定して格納する確定格納領域とを備える音楽データ格納部と，装置の動作状態を表示する表示部とを含み，上記放送信号中，音楽信号のみを抽出して音楽データに格納するデジタル音楽録音再生装置であって，上記放送信号をデジタルデータに変換したりデジタルデータをアナログ信号に変換したりし，デジタルデータを音楽データに圧縮して符号化（Ｅｎｃｏｄｉｎｇ）したり圧縮されたデジタルデータを復号化したりして出力する信号処理部と，信号処理部から出力されたデジタルデータを音楽抽出アルゴリズムによって音楽データと非音楽データとに切離して音楽データのみを抽出し，抽出した前記音楽データの始めと終わりを認識する終始データを生成し出力する音楽抽出部と，デジタル再生装置の動作モードをラジオ放送を受信するモードに切換える放送キーと放送される音楽信号に対して録音格納を実行するようにする録音器とが備えられたキー入力部と，信号処理部を制御して音楽抽出部により抽出された音楽データのみを音楽データ格納部の臨時格納領域に臨時格納し，録音キーの入力がある場合，臨時格納領域に臨時格納された音楽データを確定格納領域に移転し格納し，その格納状態を確定して維持するマイクロプロセッサとを含むことを特徴とするデジタル音楽録音再生装置を提供する。

また，上記課題を解決するために，本発明の別の観点によれば，放送信号を受信し選局するチューナと，選局された放送信号を可聴音で出力する音響出力部と，放送信号をデジタルデータに変換したりデジタルデータをアナログ信号に変換したりし，デジタルデータを音楽データに圧縮して符号化（Ｅｎｃｏｄｉｎｇ）したり圧縮されたデジタルデータを復号化したりして出力するＤＳＰ（ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｏｒ：デジタル信号処理プロセッサ）と，ＤＳＰで受信されたデジタルデータの中から音楽データのみを抽出する音楽抽出部と，音楽データを格納する音楽データ格納部と，装置の動作状態を表示する表示部と，ラジオ放送を受信するモードに切換えたり放送される音楽信号に対して録音格納を実行したりする命令を入力するキー入力部とを備えるデジタル再生装置の音楽部分選り分け格納方法であって，（ａ）チューナで放送信号を音響出力部に出力すると共に，ＤＳＰに送信するステップと，（ｂ）ＤＳＰで放送信号をデジタルデータに変換して音楽抽出部に出力するステップと，（ｃ）音楽抽出部が音楽抽出アルゴリズムによってデジタルデータ中から音楽データのみを抽出するステップと，（ｄ）抽出した音楽データの始めと終わりを認識して音楽データ格納部に臨時格納するステップと，（ｅ）音響出力部に現在出力される音楽を格納する命令がキー入力部により入力されたのかを判断するステップと，（ｆ）音楽データ格納部に臨時格納されている音楽データの格納状態を確定して維持するステップとを含むことを特徴とするデジタル再生装置の音楽部分選り分け格納方法を提供する。

以上，説明したように，本発明によれば，デジタル再生装置に受信される放送信号を可聴音で出力するだけでなく，人工神経網または周波数分析または隠匿マールコーフモデルを用いて放送信号の中から音楽信号のみを選り分けてデジタル音楽データで格納することができる装置及び方法が実現できる。

また，受信する放送信号の中から音楽部分のみを切離してその出力音楽の始めと終わりの部分を認識して始めの部分から格納できるようにすることにより，ユーザが音楽を聴取しかけて録音動作を行なう際，聴取する音楽の始めの部分がある程度経過しても，その音楽の始めの部分から録音格納することができる装置及び方法が実現できる。

従って，ユーザが聴取する音楽の録音格納のために録音ボタンを押える動作と音楽が終わる時点で再度録音ボタンを押える煩わしさと録音のための相当な注意集中動作の煩わしさが解決できる。

以下，添付の図面を参照しながら本発明に係る望ましい実施の形態を詳細に説明する。なお，本明細書及び図面において，実質的に同一の機能構成を有する構成要素については，同一の符号を付することにより重複説明を省略する。

図２は，本発明の望ましい実施の形態によって音楽部分を選り分けて格納するデジタル再生装置の構成を示すブロック構成図である。図２に示しているブロック中，図１と同じ部分に対しては同じ参照番号を与え，その詳細な説明は省略する。

図２に示している本発明に係るデジタル再生装置２００は，ＤＳＰ２１０，音楽抽出部２２０，キー入力部２３０，マイクロプロセッサ２４０及びプログラムメモリ２５０を含む。

ＤＳＰ２１０は，アナログ信号をデジタル信号に変換するＡＤＣ（ＡｎａｌｏｇｔｏＤｉｇｉｔａｌＣｏｎｖｅｒｔｅｒ）２１１と，ＤＳＰ２１０の全般的な動作を制御するＤＳＰコア（Ｃｏｒｅ）２１２と，デジタル信号をアナログ信号に変換するＤＡＣ（ＤｉｇｉｔａｌｔｏＡｎａｌｏｇＣｏｎｖｅｒｔｅｒ）２１３と，アナログ信号を例えばＭＰ３ファイルのデータで圧縮して符号化するエンコーダ２１４と，マイクロプロセッサ２４０の制御命令によってチューナ１２０で受信される放送信号をデジタルデータに変換したり符号化したりして圧縮し，圧縮されたデジタルデータを復号化して出力するプログラムが格納されたＤＳＰプログラム部２１５と，圧縮されたデジタルデータを復号化するデコーダ２１６とを含んで構成される。勿論，同じ構成でＤＳＰ２１０の代りにハードウェア方式の信号処理部により構成することもできる。

音楽抽出部２２０はＤＳＰ２１０で受信されるデジタル信号を音楽抽出アルゴリズムによって音楽データと非音楽データとに切離して非音楽データは除去し，音楽データのみを抽出する機能を遂行する。このような機能を遂行するために音楽抽出部２１０は人工神経網，周波数分析または隠匿マールコーフモデル（ＨＭＭ：ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ，以下，ＨＭＭという）等の技法を用いる。

キー入力部２３０はチャンネルを選択するチャンネル選択キーや音響出力のボリュームを調節するボリューム調節キーを始めとして，デジタル再生装置の動作モードをラジオ放送を受信するモードに切換える放送キー２３２及び放送される音楽信号に対して録音格納を実行するようにする録音キー２３４を含む。

デジタル再生装置の動作モードが放送受信モードの場合，チューナ１２０で受信される放送信号がＤＳＰ２１０と音楽抽出部２２０とにより音楽データのみ切離されて音楽データ格納部１７０に臨時格納される。キー入力部２３０に備えられた録音キー２３４が入力される場合，音楽データは，現在出力中で，内部的に臨時格納中の音楽データの始めの部分から音楽データ格納部１７０に確定格納する。マイクロプロセッサ２４０は，音楽データを格納する過程を全体的に制御する。

音楽データ格納部１７０は，音楽データを臨時格納する臨時格納領域と録音格納命令によって確定的に格納する確定格納領域とに区分される。臨時格納領域には一曲分のデータが格納され，マイクロプロセッサ２４０は録音キー２３４の入力がある曲に対して臨時格納領域に格納された音楽データを確定格納領域に移転して確定格納する。

図３は，本発明の第１実施の形態により，人工神経網からなる音楽抽出部２２０の内部構成を示すブロック構成図である。

第１実施の形態に係る音楽抽出部２２０は，人工神経網（ＡｒｔｉｆｉｃｉａｌＮｅｕｒａｌＮｅｔｗｏｒｋｓ）を用いて現在設定されたチャンネルに受信される放送信号中，音楽データのみを音楽抽出アルゴリズムによって抽出する。人工神経網を用いた音楽抽出アルゴリズムは，放送信号中に含まれている多量の音響信号を入力受けて演算を遂行することにより，入力データの次元を減少させて，音楽信号と非音楽信号とに切離し，非音楽信号は除去して音楽信号のみが出力できるようにする。

本発明の第１実施の形態に対する理解を助けるために人工神経網について詳細に説明する。

人工神経網とは，人間や動物の脳の構造を摸倣した計算モデルである。これは，脳の神経細胞が互いに複雑に連結した状態で相互作用することにより，並列分散方式により情報を処理するという点に着目したのである。即ち，閾値を有する神経素子（ＴｈｒｅｓｈｏｌｄＬｏｇｉｃＵｎｉｔ）等を使用して神経網を形成した後，与えられた神経網をデータのような環境に適応させる学習アルゴリズムを適用するのである。

このような神経網を形成する構造によっていろいろな神経網モデルが存在することになるが，実際に良く応用されるモデルは多層パーセプトロン（Ｍｕｌｔｉ−ｌａｙｅｒＰｅｒｃｅｐｔｒｏｎ）構造である。この構造では，神経素子が層（Ｌａｙｅｒ）を形成し，このような層には図３に示すように，入力，出力の以外にも中間層に該当する隠匿ノード（ＨｉｄｄｅｎＵｎｉｔ）層がある。各層内では素子間に連結線が存在しなくて，隣接した層間には各ニューロンが他の全てのニューロンと連結している。その時の方向は入力素子から出力素子方向であり，これを順次方式（Ｆｅｅｄ−ｆｏｒｗａｒｄ）という。また，素子間の連結線には加重値（Ｗｍｈ）が与えられて，以前の層の結果を次の層に合算することになるが，神経網が学習する対象がその加重値であり，代表的な加重値学習方法としてはエラー逆伝播（ＥｒｒｏｒＢａｃｋｐｒｏｐａｇａｔｉｏｎ）方式がある。本発明では，人工神経網中，最も一般的な形態である多層パーセプトロン構造を使用し，断層隠匿ノード，順次方式，エラー逆伝播学習方法を使用する。

本発明の第１実施の形態により人工神経網を用いた音楽抽出部２２０は，人工神経網として周波数に対する性向を学習し，多層パーセプトロン構造の神経網を用いる。神経網を学習させる際は，多くのパラメータを適切に調整することが核心であるが，具体的なパラメータとしては神経網が学習を繰返す期間（Ｅｐｏｃｈ），隠匿ノード（ＨｉｄｄｅｎＵｎｉｔ）個数等がある。このように神経網を用いて放送信号を音楽信号と非音楽信号とに切離した音楽抽出部２２０は，非音楽信号を除去し，音楽信号のみを抽出する。

次に，上記のように構成された人工神経網を用いて音楽データを抽出するデジタル再生装置の動作を図４に示すフローチャートを参照して説明する。

図４は，本発明の第１実施の形態に係るデジタル再生装置において，人工神経網を用いて音楽部分を自動で選り分けて格納する方法を示すフローチャートである。

先ず，本発明に係るデジタル再生装置２００に電源が供給され，キー入力部２３０のキー入力に基づいてマイクロプロセッサ２４０が装置の全般を制御することができる待機状態（Ｓ４０２）において，ユーザがラジオ放送を聴取するためにキー入力部２３０に備えられた放送キー２３２を入力すれば（Ｓ４０４），マイクロプロセッサ２４０はチューナ１２０を制御して現在設定されているチャンネルで放送信号が受信できるようにし，かつ，ＤＳＰ２１０を制御して受信される放送信号を符号化してデジタルデータに変換する。勿論，ユーザはキー入力部２３０に備えられたチャンネル選択キーを操作して，他のチャンネルに切換えることができる。マイクロプロセッサ２４０はキー入力部２３０により設定されたチャンネル選択を記憶しているが，ユーザがキー入力部２３０を用いてチャンネル選択をしない限り，以前に設定されているチャンネルに放送信号が受信されるようにチューナ１２０を制御する。もし，ユーザがキー入力部２３０を用いて他のチャンネルを選択することになると，マイクロプロセッサ２４０はユーザが選択した他のチャンネルの放送信号が受信されるようにチューナ１２０を制御する（Ｓ４０６）。

上記の放送信号は，チューナ１２０で受信される。チューナ１２０は，設定されたチャンネルの放送信号を音響出力部１３０に出力すると共に，ＤＳＰ２１０に出力する。音響出力部１３０は，チューナ１２０で受信したアナログ放送信号を可聴音で出力する。一方，ＤＳＰ２１０は，ＤＳＰコア２１２がチューナ１２０で受信した放送信号をＡＤＣ２１１を用いてデジタルデータに変換し，エンコーダ２１４を用いて音楽ファイルのデータに符号化して音楽データ格納部１７０の音楽格納領域に臨時格納する。これは，ユーザが現在放送を聴取しながら音声が含まれた音楽を聞いているが，デジタル再生装置２００の内部では聴取する放送信号の中から音楽信号のみを抽出して，臨時格納しかけて録音格納命令時に現在聴取する音楽を確定格納するようにするためである。

デジタル再生装置２００で受信される放送信号は音楽を放送する音楽区間や商品等を宣伝する広告区間，ＤＪ（ＤｉｓｋＪｏｃｋｅｙ）や出演者の音声が出てくる音声区間等，多様である。このような放送信号はアンテナ１１０で受信されてチューナ１２０に送られる。チューナ１２０は，現在設定されたチャンネルの放送信号をＤＳＰ２１０に出力する（Ｓ４０８）。ＤＳＰ２１０は，放送信号をＡＤＣ２１１とＤＳＰコア２１２とＤＡＣ２１３とを経由させて音響出力部１３０に出力すると共に，エンコーダ２１４を用いて音楽信号をデジタル音楽データ，例えば，ＭＰ３ファイルの音楽データに符号化した後，音楽抽出部２２０に出力する（Ｓ４１０）。

音楽抽出部２２０は図３に示すように，ＤＳＰ２１０から出力された放送信号を入力として，人工神経網を用いて予め決まった音楽抽出アルゴリズムによって音楽と非音楽データとに切離し，その中で非音楽データを除去した音楽データのみを音楽データ格納部１７０の音楽データ格納領域に臨時格納する（Ｓ４１２）。即ち，マイクロプロセッサ２４０は，ＤＳＰ２１０を制御して現在音響出力部１３０に出力されている音楽に対して常に音楽データ格納部１７０の音楽格納領域に格納し，かつ，キー入力部２３０から録音格納命令があれば音楽データ格納領域に臨時格納した音楽データを遡及格納して維持するようにするのである。

音響出力部１３０から音楽が出力されている途中に，ユーザが音楽を聞いて現在出力されている音楽を録音しようとする場合，キー入力部２３０に備えられた録音キー２３４を入力する。録音キー２３４が入力されると（Ｓ４１４），マイクロプロセッサ２４０は，ＤＳＰ１４０を制御して現在出力される音楽データ，即ち，内部的に音楽データ格納部１７０の音楽格納領域に臨時格納される音楽データを確定格納領域に移転して確定格納し，その格納状態を維持する（Ｓ４１６）。

その際，音楽データ格納部１７０の音楽格納領域に臨時格納される音楽データは各曲毎に受信される順序によって順次に格納される。もし，録音キー２３４の入力がない場合，音楽抽出部２２０により音楽データのみ継続的に音楽データ格納部１７０に格納される。ここで，音楽データが，音楽データ格納部１７０の格納容量を超る場合，即ち，格納される容量が飽和状態になった状態で新しい音楽データが格納される場合，ＤＳＰ２１０は音楽データ格納部１７０に格納されていた以前の音楽データのうち，録音格納に関する命令のない曲のデータを先に記録された順に一曲ずつ削除した後，新しい音楽データを格納する。

一方，キー入力部２３０に音楽データを削除する機能に関するキーを備えて，音楽データ格納部１７０に格納された音楽データのリストを表示部１８０に出力し，ユーザが選択して削除キーを操作することにより，削除することもできる。

上記第１実施の形態によれば，デジタル再生装置２００に受信される放送信号を可聴音で出力するだけでなく，人工神経網を用いて放送信号の中から音楽信号のみを選り分けてデジタル音楽データに格納することができる。

図５は，本発明の第２実施の形態により周波数の分析を用いた音楽抽出部５００の内部構成を示すブロック構成図である。

一般に，ラジオ放送で音響を出力する方式には，モノ（Ｍｏｎｏ）方式とステレオ（Ｓｔｅｒｅｏ）方式等がある。

モノ方式は，一つの周波数チャンネルを使用して音響信号を放送するものであって，音の発源地に関係なしに，一つの場所に配置された音響取得手段により取得した音響を放送するものであるから，オーディオシステムを介して出力される音響信号は元の音響信号とは多少差が生じることになる。一方，ステレオ方式は，複数の周波数帯域を使用して音響信号を放送するものであって，音の発源地によって左側ステレオ信号と右側ステレオ信号とに分けて，左側ステレオ信号と右側ステレオ信号とを各々複数個の周波数帯域に伝送されるようにするものであるから，モノ方式に比べて原音に近い音響信号が出力される特徴がある。

一般のラジオ放送で放送される音は，略４種類に分類される。例えば，ラジオ放送コンテンツは放送出演者の音声区間，背景音楽と出演者の音声とが共存する区間，広告区間及び音楽区間等に分れる。その中で，音声区間は概ねモノ（Ｍｏｎｏ）信号に，音声の以外の区間は概ねステレオ（Ｓｔｅｒｅｏ）信号に近い。放送信号において，ステレオ信号はその信号の特性上，左，右チャンネルの情報が少しずつ異なるが，これを用いて両チャンネルの時間に伴う音声波形の位相値を比較して左，右チャンネルの値が同じ場合はモノ信号と判断し，その際，モノ信号の音声信号を除去すると，大部分ステレオ信号の音楽信号を得ることができる。

図５に示している第２実施の形態に係る音楽抽出部５００は，放送信号を分析してモノ信号とステレオ信号とに切離し，その中でモノ信号を除去することによりステレオ信号を得るのである。即ち，モノ信号とステレオ信号とが含まれた放送信号を時間軸上に表し，時間軸上で放送信号の左側チャンネルと右側チャンネルとの音量の差を計算して「０」に近ければモノ信号と判断し，任意の閾値以上，一定時間間持続する場合はステレオ信号と判断して，モノ信号を除去し，ステレオ信号のみを出力する。

本発明の第２実施の形態に係る周波数分析を用いたデジタル再生装置の音楽抽出部５００は，音響データ演算部５１０，非音楽除去部５２０，音楽終始判断部５３０及びスペクトル分析部５４０等を含む。

音響データ演算部５１０はＤＳＰ２１０で受信される放送データの左チャンネルデータと右チャンネルデータとを演算して，その結果データを出力する。非音楽除去部５２０は音響データ演算部５１０で受信された結果データが「０」に近いデータならばモノデータと判断し，結果データが閾値以上の値で，一定時間間持続する場合，ステレオデータと判断して，モノデータは除去し，ステレオデータのみを出力する。

音楽終始判断部５３０は，非音楽除去部５２０で受信された音楽データをＤＳＰ２１０に出力しながらその音楽データの始めと終わりの部分を識別してこれを認識する終始データを生成してマイクロプロセッサ２４０に伝送する。このような伝送のために，音楽データの出力とは別途に出力ポートを備える。また，音楽終始判断部５３０は，以前の音楽データと次の音楽データとの重なる部分が存在したり，両音楽データ間に黙音区間が無しに連続して，音楽データの始めと終わりの部分を識別できない場合には，スペクトル分析部５４０にその音楽データを送信する。スペクトル分析部５４０は，音楽終始判断部５３０で受信された音楽データをスペクトル分析して音楽の始めと終わりの信号を分別して，これを認識する終始データを生成し，マイクロプロセッサ２４０に伝送する。

音楽の終始部分を区別することにおいて，本発明に係るデジタル再生装置２００は音楽データの終わりの部分に処理されているフェードアウト（Ｆａｄｅ−ｏｕｔ）を検出してこれに基づいて始めと終わりを識別する。大部分の音楽放送で放送される音楽の場合，音楽の終わりはフェードアウト処理されている。従って，本発明の第２実施の形態に係る音楽抽出部５００の音楽終始判断部５３０は，音楽データのフェードアウト部分を検出してこれに基づいて，その音楽の終わりまたは次の音楽の始めと識別する。

また，音楽放送信号は図６に示すように，先に伝送される音楽信号Ａと次の音楽信号Ｂとの間に黙音（Ｍｕｔｅ）信号が存在する場合がある。音楽終始判断部５３０は時間につれて出力進行される音楽信号から黙音が表れる場合，その音楽信号Ａの終わりと認識し，黙音を過ぎて次の音楽信号Ｂが繋がる際，その部分を次の音楽信号の始めと認識して，これに基づいて終始データを生成しマイクロプロセッサ２４０に出力する。

一般に，周波数信号は音声や音楽信号が存在する区間ではエネルギー値が高く表れる。音楽終始判断部５３０は，これを用いてエネルギー変化量を計算してエネルギーが低い区間を黙音区間と認識して，音楽の終点の候補としてみなし，その際，エネルギー値は非音楽除去部５２０で受信される音楽データをフレーム単位にしてその位相値を自乗してログ（Ｌｏｇ）を取って得る。

そして，一つの音楽信号はクラシック音楽でない場合，大部分３〜５分程度の分量を有する。黙音のみで音楽の始点と終点を検出する場合，音楽の中間黙音部分を始点や終点と認識する恐れがあるため，音楽終始判断部５３０は，音楽検出区間の長さが略３〜５分程度となることを考慮して，音楽区間を抽出することにより，その音楽の始めと終わりとを判断して判断エラーを減らす。

次に，上記のように構成された周波数分析を用いた音楽抽出部５００が採用されたデジタル再生装置の動作について図７を参照して詳細に説明する。図７は，本発明の第２実施の形態によりデジタル再生装置において，周波数分析を用いて音楽部分を選り分けて格納する方法を示すフローチャートである。

先ず，ユーザが放送を聴取する機能と既に格納された音楽データを再生する機能とを全て備えたデジタル再生装置２００を使用することにおいて，キー入力部２３０に備えられた放送キー２３２を操作して放送モードを選択した場合，マイクロプロセッサ２４０はチューナ１２０を制御して，選択された放送チャンネルで放送信号が受信されるようにする（Ｓ７０２）。

チューナ１２０ではアンテナ１１０に受信された放送信号を音響出力部１３０に出力するだけでなく，ＤＳＰ２１０にも送信する（Ｓ７０４）。これは，ユーザには音響出力部１３０に出力される放送を聴取するようにするだけでなく，装置の内部的には音楽のみを抽出し格納する準備を調えるためであるということは既に上述した通りである。ＤＳＰ２１０では放送信号がＡＤＣ２１１によりデジタルデータに変換され，ＤＳＰコア２１２はデジタル音楽データを左チャンネルデータと右チャンネルデータとに切離して音楽抽出部２２０に送信する。ＤＳＰ２１０から出力された左チャンネルと右チャンネルの音楽データは音楽抽出部２２０の音響データ演算部５１０に送信される（Ｓ７０６）。音響信号演算部５１０ではＤＳＰ２１０で受信された左チャンネルデータと右チャンネルデータとを演算して，その結果データを出力する（Ｓ７０８）。即ち，左チャンネルデータと右チャンネルデータとを演算して「０」に近いデータを得るとモノデータと，閾値以上，一定時間間維持するとステレオデータと認識する結果データを出力する。

非音楽除去部５２０では，音響データ演算部５１０で受信した結果データに基づいて音声データを除去し，ステレオデータに該当する音楽データのみを音楽終始判断部５３０に出力する（Ｓ７１０）。音楽終始判断部５３０では，非音楽除去部５２０で受信した音楽データの始めと終わりを判断するが，第１に，音楽データに処理されているフェードアウトに基づいて始めと終わりを判断したり，第２に，音楽データ中に存在する黙音に基づいて始めと終わりを判断したり，第３に，音楽データの平均再生時間３〜５分に基づいて判断したり，第４に，以前の音楽データと次の音楽データとの重なる部分がある場合，スペクトル分析部５４０に出力してスペクトル分析を用いて判断したり，第５に，音楽データをフレーム単位にしてその位相値を自乗してログ（Ｌｏｇ）を取ってエネルギー値を得て，これに基づいて判断する過程を含み，以上５種類の過程を総合して音楽データの始めと終わりを判断する。そして，音楽データの始めと終わりを知らせる終始データを生成しマイクロプロセッサ２４０に伝送する。マイクロプロセッサ２４０は，終始データを音楽データ格納部１７０の非音楽格納領域に格納する（Ｓ７１２）。

音楽終始判断部５３０では終始データの出力だけでなく，音楽データをＤＳＰ２１０に出力することにより，ＤＳＰ２１０が現在出力される音楽データを符号化して音楽データ格納部１７０の臨時格納領域に格納されるようにする。それによって，ユーザが現在聴取する音楽の録音格納を遂行することができる準備を調えることになる。

ユーザが音楽を聞いている途中に，現在聴取する音楽を録音格納するためにキー入力部２３０に備えられた録音キー２３４を入力する場合（Ｓ７１４），マイクロプロセッサ２４０は現在出力されている音楽データの終始データを音楽データ格納部１７０の非音楽格納領域から読取って，これに基づいて音楽データ格納部１７０の臨時格納領域に臨時格納されている前記の音楽データをその始めの部分と終わりの部分を認識して確定格納領域に移転して格納し，その音楽データの格納状態を確定して維持する（Ｓ７１６）。

ここで，音楽データ格納部１７０の臨時格納領域は１曲の音楽データを臨時格納することができる容量であって，現在ＤＳＰ２１０に受信される音楽データを臨時格納し，かつ，録音キー２３４の入力がなしに次の音楽データが受信される場合，先に臨時格納された音楽データを削除して新しく受信される音楽データを臨時格納する。また，「確定し維持する」というのは，第１実施の形態でも説明したように，音楽データ格納部１７０の臨時格納領域に格納されている音楽データを確定格納領域に移転して確定格納することにより，その格納状態を固定的に格納維持するということを意味する。勿論，固定的に格納維持された前記音楽データはユーザがキー入力部２３０を用いて選択的に削除できる。

そして，音楽データ格納部１７０の確定格納領域には略６曲以下の音楽データが格納されるので，確定格納された音楽データが既に確定格納領域を全て占めている状態で，臨時格納領域に格納される音楽データに関する録音キー２３４の入力がある場合，マイクロプロセッサ２４０は表示部１８０に音楽データの格納状態が充満している状態であることを表す，例えば，「音楽をこれ以上格納することができません。既に格納された音楽を削除して格納しますか？」というメッセージを出力し，キー入力部２３０でキー入力を待機する。削除実行に関するキー入力があれば，マイクロプロセッサ２４０は，音楽データ格納部１７０の確定格納領域に格納されている音楽データのリストを表示部１８０に出力し，最上段に位置する音楽データリストに表示バーを位置させて削除できるようにする。ユーザにより削除に関するキー入力があれば，表示バーが位置する音楽データを確定格納領域から削除し，臨時格納領域にある音楽データを移転して確定格納する。

ステップＳ７１４において，ユーザが録音キー２３４を入力しない限り，マイクロプロセッサ２４０はステップＳ７０４に復帰して音響出力部１３０に放送信号が出力されるようにするだけでなく，ＤＳＰ２１０を制御して音楽抽出部５００により始めと終わりが認識され，抽出された音楽データが音楽データ格納部１７０の臨時格納領域に臨時格納されるようにする過程を続けて繰返す。

即ち，本発明の第２実施の形態によれば，デジタル再生装置２００に周波数分析を用いた音楽抽出部５００を備えることにより，受信する放送信号中から音楽部分のみを切離し，周波数分析を用いて該出力音楽の始めの部分と終わりの部分を認識して格納することができるようにする。従って，ユーザが音楽を聴取しかけて録音動作を行なう時に，音楽の始めの部分がある程度経過したとしても，該音楽の始めの部分から録音格納され，以後の録音格納された音楽を再生する場合，その音楽の始めの部分から再生することになる。

図８は，本発明の第３実施の形態に係る隠匿マールコーフモデル（ＨＭＭ：ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ）を用いた音楽抽出部８００の内部構成を示すブロック構成図である。

本発明の第３実施の形態では，音楽抽出部８００に受信される放送信号中に多数個に混じった音源等の混合信号を入力として受取って，相互独立的な音源信号を復調するものであって，一般の人達の音声特徴が抽出できるデータを収集した後に隠匿マールコーフモデル（ＨＭＭ）を用いて学習させて音声信号を抽出し除去するものである。換言すれば，混合している音響情報から隠匿されている音声情報を得ることができるようにするモデルが隠匿マールコーフモデルである。その際，隠匿された音声情報はマールコーフプロセス（ＭａｒｋｏｖＰｒｏｃｅｓｓ）である。そして，「モデルの状態は専ら以前の状態のみに依存する」という仮定をマールコーフ仮定（ＭａｒｋｏｖＡｓｓｕｍｐｔｉｏｎ）という。マールコーフプロセスは，状態間転移が専ら以前のｎ個の状態に依存してなされるプロセスを言う。その際，このモデルをｎ次元のモデルというが，ｎは次の状態を決定することに影響を及ぼす状態の個数を表す。

ＨＭＭは，音声の時間的変化をモデリングする遷移確率とスペクトル変化をモデリングする出力確率とからなる。また，入力パターンと参照パターンとの間の類似度を用いるよりは，与えられたモデルとの確率的な推定値を使用してモデルの類似度を計算するが，入力される音声データを前処理して当該入力に近似した出力を生成する隠匿状態集合の経路を探すためにビタービ（Ｖｉｔｅｒｂｉ）アルゴリズムを用いる。

確率推定問題の場合は隠匿状態（ＨｉｄｄｅｎＳｔａｔｅ）を考慮しなければならないので，確率を推定する問題が複雑になり，最適状態の順序の決定問題はデータを最もよく説明する状態順序を決定するために「最適」の基準を定めることが必要である。前記パラメータの推定問題の場合は学習と関係がある。従って，前記確率推定問題の場合は，前向アルゴリズム（ＦｏｒｗａｒｄＡｌｇｏｒｉｔｈｍ）と後向アルゴリズム（ＢａｃｋｗａｒｄＡｌｇｏｒｉｔｈｍ）とを用いて解決可能であり，最適状態の順序の経路を決定する問題は，一般的に，動的プログラミング技法の１つであるビタービ（Ｖｉｔｅｒｂｉ）アルゴリズムを用いて決定する。そして，パラメータの推定はＢＷ（Ｂａｕｍ−Ｗｅｌｃｈ）アルゴリズムを使用して遂行する。

本発明の第３実施の形態に係るＨＭＭを用いた音楽抽出部８００は，ＨＭＭからパラメータの推定のためのＢＷアルゴリズムを用いて音響信号及びその音響信号の特徴を抽出し，ビタービアルゴリズムを用いて音楽信号のみを抽出するものである。

図８に示している本発明の第３実施の形態に係る音楽抽出部８００は音響入力部８１０と，ＭＬＰ（多層パーセプトロン：Ｍｕｌｔｉ−ＬａｙｅｒＰｅｒｃｅｐｔｒｏｎ）８２０と，特徴抽出部（ＦｅａｔｕｒｅＥｘｔｒａｃｔｏｒ）８３０と，ＨＭＭ選り分け部（ＨＭＭＣｌａｓｓｉｆｉｅｒ）８４０とを含む。

音響入力部８１０は，ＤＳＰ２１０で受信される放送信号中，多数の音響信号が含まれたオーディオ信号を入力し，オーディオ信号の音響特徴（ＡｃｏｕｓｔｉｃＦｅａｔｕｒｅ）を抽出する。例えば，零点交差情報（Ｚｅｒｏ−ＣｒｏｓｓｉｎｇＩｎｆｏｒｍａｔｉｏｎ），エネルギー（Ｅｎｅｒｇｙ），ピッチ（Ｐｉｔｃｈ），スペクトル周波数（ＳｐｅｃｔｒａｌＦｒｅｑｕｅｎｃｉｅｓ）及びケプストラル係数（ＣｅｐｓｔｒａｌＣｏｅｆｆｉｃｉｅｎｔ）等を抽出する。音響入力部８１０はオーディオ信号をフレーム（Ｆｒａｍｅ）という時間単位で切離す。一つのフレームは略１０ｍｓ〜３０ｍｓ程度であり，各フレーム毎に特徴（Ｆｅａｔｕｒｅ）値は異なり，時間順に並べられる。このようなフレームから抽出した特徴（Ｆｅａｔｕｒｅ）は“Ｘｎ”と表示する。

ＭＬＰ８２０は，第１実施の形態で説明した神経網音声認識で使用した理論を適用する。ＭＬＰ８２０は，音響入力部８１０で入力されたＸｎが音声認識的にどの音素であるかの可能性（確率Ｐ）を表すポステリア確率（ＰｏｓｔｅｒｉｏｒＰｒｏｂａｂｉｌｉｔｙ）を求める。もし，現在入力されたオーディオ信号が音声（Ｓｐｅｅｃｈ）区間ならば，特定音素である確率は高く表れるはずである。ＭＬＰ８２０の出力端にはＸｎ当りＰ（ｑ１｜Ｘｎ）等の形態でｋ個だけ出力される。ここで，ｑ１〜ｑｋは音素の個数を表し，Ｘｎは音響入力部８１０でフレームを分析して得られた音響特徴を表す。

特徴抽出部８３０は，ＭＬＰ８２０で受信されたポステリア確率に基づいて演算を行なってフレーム中で確率値の分布を表す単位であるエントロピー（Ｅｎｔｒｏｐｙ：Ｈｎ）とフレーム間の変化に対する確率値であるダイナミズム（Ｄｙｎａｍｉｓｍ：Ｄｎ）とを求めてＨＭＭ選り分け部８４０に出力する。オーディオ信号が音声ならば，装置が理想的な場合，エントロピーは「０」に近いのであり，フレーム間の変化が大きいので，ダイナミズムは高く表れるはずである。逆に，非音声，例えば，音楽ならば確率値が広く分布して高いエントロピーを有することになり，時間当り変化量が小さいのでダイナミズムは低く表れるはずである。

次の数式１はエントロピー（Ｈｎ）を求める式を，数式２はダイナミズムＤｎを求める式を表す。

ＨＭＭ選り分け部８４０は特徴抽出部８３０で受信されたエントロピー（Ｈｎ）とダイナミズム（Ｄｎ）とに基づいて，ＢＷアルゴリズムとビタービアルゴリズムとを用いて音声クラス（ＳｐｅｅｃｈＣｌａｓｓ）と音楽クラス（ＭｕｓｉｃＣｌａｓｓ）とを選り分ける。各クラスに存在する状態（Ｓｔａｔｅ）は，全て同一であるが，複数個存在する。ＨＭＭ選り分け部８４０はＨＭＭを学習することになるが，これは受信された両特徴パラメータＨｎ，ＤｎをＢＷアルゴリズムを用いて各状態（Ｓｔａｔｅ）から状態（Ｓｔａｔｅ）に移転する遷移確率を最適化するというのである。学習を始める前の初期値は任意設定する。ＨＭＭ選り分け部８４０は，実際に音声と音楽とを切離す時には，入力された特徴パラメータと学習されたＨＭＭとを有してテーブルを作成する。そして，ビタービアルゴリズムを用いて最終的に入力オーディオ信号が属するクラスを計算して音声クラスであるか音楽クラスであるかを判断する。

ここで，ＨＭＭ選り分け部８４０で用いるＢＷアルゴリズムとビタービアルゴリズムとについて，より詳細に説明する。

一旦，観測列に対して最大確率を有する適合するモデルを選択した後には観測列を生成するモデルの最適状態順序を決定しなければならない。一般的に，モデルの最適状態を決定するには，動的プログラミング（ＤｙｎａｍｉｃＰｒｏｇｒａｍｍｉｎｇ）方法中の一つであるビタービアルゴリズムを使用する。

１．ビタービアルゴリズム
ビタービアルゴリズムは，与えられた観測列οとモデルλとを有し，観測列οを最大確率で生成する状態順序（ＳｔａｔｅＳｅｑｕｅｎｃｅ）Ｑを決定することに使われる。観測列οとモデルλとに基づいて観測列を生成する確率はＰ（ｑ１，ｑ２，・・・ｑＴ｜ο，λ）である。

図９は，最大確率を有する状態等の順序を決定するビタービアルゴリズムの原理を示す図面である。

即ち，図９は時間ｔから時間ｔ＋１への状態遷移等の中から最大確率で状態遷移を行なう状態等の順序を決定するステップを示すものである。ビタービアルゴリズムは次のような過程で最大確率を有する状態経路を計算する。

初期化（Ｉｎｉｔｉａｌｉｚａｔｉｏｎ）：

回帰（Ｒｅｃｕｒｓｉｏｎ）：

終了（Ｔｅｒｍｉｎａｔｉｏｎ）：

状態順序帰路（ＳｔａｔｅＳｅｑｕｅｎｃｅＢａｃｋｔｒａｃｋｉｇ）：

前記アルゴリズムにおいて，Ψ_ｔ（ｉ）は，時間ｔから状態ｉに転移する最適経路を維持するパラメータである。
Ψ_ｔ（ｉ）は

のように以前状態（ｔ−１）までの最大確率を有する経路δ_ｔ−１と時間ｔでの状態ｊへの転移行列を用いて最大確率を有する状態経路を計算する。

図９において，δ_ｔ（ｊ）は状態ｊで終わる経路等の中から最大確率を有する経路に対する確率値を表現しているものであって，次の数式３のように表現される。

また，前記数式３は帰納によって次の数式４のように拡張されることができる。

前記数式４を用いると，時間ｔだけでなく，以後のｔ＋１に対しても最大確率を有する状態等の順序を求めることができる。

２．ＢＷアルゴリズム
観測列に対し，最大確率を有する適合するモデルを選択し，該モデルの内部状態等の中から最適の状態順序を定めた後には，観察された観測列０に対し，Ｐ（ο｜λ）を最大とするモデルλ＝（π，Ａ，Ｂ）のパラメータ（Ｐａｒａｍｅｔｅｒ）を決定しなければならない。モデルのパラメータを決定する問題はモデルの複雑性のため，分析的（Ａｎａｌｙｔｉｃ）な方法では困難である。このため，モデルパラメーターの学習にはＢａｕｍ−Ｗｅｌｃｈアルゴリズムを使用する。

ＢＷアルゴリズムは“初期モデル”λ_０を構成し，初期モデルと観察列οとを基にして“新しいモデル”λを構成する。このようにして新しく構成されたモデルと以前のモデルとが観察列を生成する確率の差が“特定値”以上となるまでモデルのパラメータを変更しながら新しいモデルを生成する。

また，ＢＷアルゴリズムは次の数式５と数式６のような２つの新しいパラメータを定義して使用する。

数式５は時間ｔで状態ｉにあり，時間ｔ＋１で状態ｊにある確率を表す。ここで，αは前向アルゴリズムの前向パラメータを，βは後向アルゴリズムの後向パラメータを表す。数式５を

のようにすると，観察列οにおいて，状態ｉから状態ｊに転移した回数の期待値となる。

数式６は，時間ｔから与えられた観察列を有して状態ｉにある確率を表す。ここで，数式６を用いると，

のように合計を取って観察列οから状態ｉが訪問した回数に対する期待値を求めることができる。

上述した過程でＨＭＭ選り分け部８４０は，入力されたオーディオ信号中，音楽信号を選り分けてＤＳＰ２１０に出力することになる。

次に，上記のように構成された音楽抽出部８００を用いて音楽信号のみを出力するデジタル再生装置の動作に対して図１０に示している順序図を参照して詳細に説明する。図１０は，本発明の第３実施の形態に係るデジタル再生装置において，ＨＭＭを用いて音楽部分を選り分けて格納する方法を示す順序図である。

先ず，放送信号がアンテナ１１０で受信されてチューナ１２０に受信されると，チューナ１２０では設定されたチャンネルで放送信号を音響出力部１３０に出力するだけでなく，ＤＳＰ２１０を経由して音楽抽出部８００に出力する（Ｓ１０２０）。音楽抽出部８００に入力された放送信号は音響入力部８１０に受信され，音響入力部８１０はオーディオ信号をフレーム時間単位で切離して，音響特徴，例えば，零点交差情報（Ｚｅｒｏ−ＣｒｏｓｓｉｎｇＩｎｆｏｒｍａｔｉｏｎ），エネルギー（Ｅｎｅｒｇｙ），ピッチ（Ｐｉｔｃｈ），スペクトル周波数（ＳｐｅｃｔｒａｌＦｒｅｑｕｅｎｃｉｅｓ）及びケプストラル係数（ＣｅｐｓｔｒａｌＣｏｅｆｆｉｃｉｅｎｔ）等を抽出してＭＬＰ８２０に送信する（Ｓ１０４０）。

ＭＬＰ８２０では，音響入力部８１０で入力された音響特徴が音声認識的にどの音素であるかの可能性（確率Ｐ）を表すポステリア確率（ＰｏｓｔｅｒｉｏｒＰｒｏｂａｂｉｌｉｔｙ）を求めて特徴抽出部８３０に出力する（Ｓ１０６０）。特徴抽出部８３０は，ＭＬＰ８２０で印加されたポステリア確率に基づいてエントロピーＨｎとダイナミズムＤｎとを求める（Ｓ１０８０）。特徴抽出部８３０は，求められたエントロピーＨｎとダイナミズムＤｎとをＨＭＭ選り分け部８４０に出力する。ＨＭＭ選り分け部８４０では，特徴抽出部８３０で受信されたエントロピーＨｎとダイナミズムＤｎとに基づいて，ＢＷアルゴリズムとビタービアルゴリズムとを用いて音楽データのみを選り分けてこれをＤＳＰ２１０に出力する（Ｓ１１００）。

ＤＳＰ２１０は，ＤＳＰコア２１２がエンコーダ２１４を用いてＨＭＭ選り分け部８４０で印加された音楽データをＭＰ３ファイルの音楽データに符号化して音楽データ格納部１７０の音楽データ格納領域に臨時格納する（Ｓ１１２０）。その際，音響出力部１３０では現在受信格納された音楽信号が含まれた放送信号が出力されていることは自明である。現在ユーザが聴取している音楽が音楽データ格納部１７０の臨時格納領域に臨時格納される際，その音楽の始めの部分と終わりの部分を認識して格納することは，先に第２実施の形態における説明と同様に適用できる。これは，音楽抽出部２２０，５００，８００から抽出した音楽信号の始めの部分を選り分ける機能を備えなくてマイクロプロセッサ２４０を備えることにより具現することもできる。

音響出力部１３０に音楽信号が含まれた放送信号が出力されている際に，ユーザによりキー入力部２３０に備えられた録音キー２３４が入力された場合（Ｓ１１４０），マイクロプロセッサ２４０はこれを認識し，ＤＳＰ２１０を制御して現在音楽データ格納部１７０の非音楽格納領域に格納されている終始データに基づいて，臨時格納領域に臨時格納されている前記音楽データの始めと終わりの部分を認識して，その音楽データを確定格納領域に移転して格納し，その格納状態を確定して維持する（Ｓ１１６０）。ここで，「確定し維持する」というのは，第２実施の形態における説明と同じ意味である。

録音キー２３４の入力のない場合，マイクロプロセッサ２４０は，ステップ（Ｓ１０２０）に戻り，音響出力部１３０に放送信号が出力され，現在出力される放送信号のうち，音楽信号のみが音楽データに格納されるようにする過程を繰返すことになる。以後，ユーザは音楽データ格納部１７０に格納されている音楽データ中から自分が聴取を希望する音楽を選択して再生することができる。

即ち，本発明の第３実施の形態によると，デジタル再生装置２００にＨＭＭを用いた音楽抽出部８００を備えることにより，放送信号中，音声信号と音楽信号とを選り分けて音楽信号のみを音楽データに格納することができるデジタル再生装置及び方法が実現できることになる。

本発明は，前述した実施の形態に限るのではなく，本発明の技術的要旨を外れない範囲内で多様に修正及び変更実施できるということは，当該技術分野で通常の知識を有する者であれば誰でも理解することができる。

即ち，音声認識（ＳｐｅｅｃｈＲｅｃｏｇｎｉｔｉｏｎ）技術に基づいた独立成分分析（ＩＣＡ：ＩｎｄｅｐｅｎｄｅｎｔＣｏｍｐｏｎｅｎｔＡｎａｌｙｓｉｓ）を用いた音楽抽出部を構成することができる。一般に，「音声認識」とは，人間の音声を機械（コンピュータ）が分析し，これを認識または理解する技術であるが，発音によって口形状と舌の位置変化により特定の周波数を有する人間の音声を用いて，発声した音声を電気信号に変換した後，音声信号のいろいろな特性を抽出して人の発音を認識する技術である。従って，音声認識技術を適用した音楽抽出部を用いて放送信号に含まれた音声信号を切離して除去することにより，音楽信号のみを出力する機能を備えるようにすることができる。

また，上記実施の形態は，音楽データ格納部１７０に音楽データを臨時格納し，録音キー２３４の入力がある場合，該音楽データを確定して格納維持するようになっているが，音楽抽出部２２０から抽出した音楽データを一曲またはそれ以上，臨時格納することができる臨時メモリを備えて，現在の音響出力部１３０に出力され，かつ，内部的には音楽抽出部２２０により抽出される音楽データを前記臨時メモリに格納されるようにし，録音キー２３４の入力がある場合，前記臨時メモリに格納された音楽データを音楽データ格納部１７０に移転して格納するようにし，録音キー２３４の入力のない場合，臨時メモリに格納された音楽データを削除して次の音楽データを格納するように構成することができる。

従来のラジオ機能を備えたＭＰ３プレーヤーの構成を示すブロック構成図である。本発明の望ましい実施の形態によって音楽部分を選り分けて格納するデジタル再生装置の構成を示すブロック構成図である。発明の第１実施の形態にかかる人工神経網からなる音楽抽出部の内部構成を示すブロック構成図である。本発明の第１実施の形態にかかる人工神経網を用いて音楽部分を自動で選り分けて格納する方法を示すフローチャートである。本発明の第２実施の形態にかかる周波数分析を用いた音楽抽出部の内部構成を示すブロック構成図である。黙音（Ｍｕｔｅ）が含まれた音楽信号の構成を示す図面である。本発明の第２実施の形態にかかる周波数分析を用いて音楽部分を自動で選り分けて格納する方法を示すフローチャートである。本発明の第３実施の形態にかかるＨＭＭを用いた音楽抽出部の内部構成を示すブロック構成図である。最大確率を有する状態等の順序を決定するビタービアルゴリズムの原理を示す図面である。本発明の第３実施の形態にかかるＨＭＭを用いて音楽部分を自動で選り分けて格納する方法を示すフローチャートである。

符号の説明

１００ＭＰ３プレーヤー
１１０アンテナ
１２０チューナ
１３０音響出力部
１４０ＤＳＰ
１５０外部機器接続部
１６０コントローラー
１７０音楽データ格納部
１８０表示部
１９０キー操作部
２００デジタル再生装置
２１０ＤＳＰ
２１１ＡＤＣ
２１２ＤＳＰコア
２１３ＤＡＣ
２１４エンコーダ
２１５ＤＳＰプログラム部
２１６デコーダ
２２０音楽抽出部
２３２放送キー
２３４録音キー
５００周波数分析利用音楽抽出部
５１０音響データ演算部
５２０非音楽除去部
５３０音楽終始判断部
５４０スペクトル分析部
８００ＨＭＭ利用音楽抽出部
８１０音響入力部
８２０ＭＬＰ（多層パーセプトロン）
８３０特徴抽出部
８４０ＨＭＭ選り分け部

Claims

放送信号を受信して選局するチューナと，選局された放送信号を可聴音で出力する音響出力部と，音楽データを臨時格納する臨時格納領域と，音楽データを確定して格納する確定格納領域とを備える音楽データ格納部と，装置の動作状態を表示する表示部とを含むデジタル録音再生装置であって，
前記放送信号をデジタルデータに変換したりデジタルデータを，アナログ信号に変換したりし，デジタルデータを音楽データに圧縮して符号化したり，圧縮されたデジタルデータを復号化したりして出力する信号処理部と，
前記信号処理部から出力された前記デジタルデータを，音楽抽出アルゴリズムにより音楽データと非音楽データとに切離して音楽データのみを抽出し，抽出した前記音楽データの始めと終わりを認識する終始データを生成して出力する音楽抽出部と，
前記デジタル再生装置の動作モードをラジオ放送を受信するモードに切換える放送キーと，放送される音楽信号に対して録音格納を実行するようにする録音キーとが備えられたキー入力部と，
前記信号処理部を制御して前記音楽抽出部により抽出された音楽データのみを前記音楽データ格納部の臨時格納領域に臨時格納し，前記録音キーの入力がある場合，前記臨時格納領域に臨時格納された前記音楽データを前記確定格納領域に移転して格納し，その格納状態を確定して維持するマイクロプロセッサとを含むことを特徴とするデジタル録音再生装置。
前記音楽抽出部は，人工神経網を用いて多数の入力データを演算して音楽データと非音楽データとに切離し，非音楽データは除去して音楽データのみを出力することを特徴とする，請求項１に記載のデジタル録音再生装置。
前記音楽データ格納部の確定格納領域に臨時格納される前記音楽データは，各曲毎に格納される順序によって順次に格納され，前記音楽データのみを続けて格納して，前記確定格納領域の格納容量を超える場合，マイクロプロセッサは前記音楽データ格納部に格納されていた以前の音楽データ中，先に記録された順に一曲ずつ削除した後，新しい音楽データを格納することを特徴とする請求項１に記載のデジタル録音再生装置。
前記キー入力部に音楽データを削除する削除キーを備え，前記マイクロプロセッサは前記音楽データ格納部に格納された音楽データのリストを前記表示部に出力し，ユーザが削除を希望するリストを選択するようにし，前記削除キー入力によって前記選択された音楽データを音楽データ格納部から削除することを特徴とする，請求項３に記載のデジタル録音再生装置。
前記信号処理部は，アナログ信号をデジタル信号に変換するＡＤＣ（ＡｎａｌｏｇｔｏＤｉｇｉｔａｌＣｏｎｖｅｒｔｅｒ）と，
ＤＳＰ（ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｏｒ：デジタル信号処理プロセッサ）の全般的な動作を制御するＤＳＰコア（Ｃｏｒｅ）と，
デジタルデータをアナログ信号に変換するＤＡＣ（ＤｉｇｉｔａｌｔｏＡｎａｌｏｇＣｏｎｖｅｒｔｅｒ）と，
アナログ信号を音楽データに圧縮して符号化するエンコーダと，
前記マイクロプロセッサの制御命令によって前記チューナで受信される放送信号をデジタルデータに変換したり符号化したりして圧縮し，圧縮されてエンコーディングされたデジタルデータを復号化して出力するプログラムが格納されたＤＳＰプログラム部と，
圧縮されたデジタルデータを復号化するデコーダとを含むことを特徴とする，請求項１に記載のデジタル録音再生装置。
前記音楽抽出部は，前記信号処理部で受信される放送データの左チャンネルデータと右チャンネルデータとを演算してその結果データを出力する音響データ演算部と，
前記音響データ演算部で受信された結果データがゼロに近いデータならばモノデータと判断し，前記結果データが閾値以上，所定時間持続する場合，ステレオデータと判断して，前記モノデータは除去し，前記ステレオデータのみを出力する非音楽除去部と，
前記非音楽除去部で受信された前記音楽データを前記信号処理部に出力しながら，前記音楽データの始めと終わりの部分を識別してこれを認識する終始データを生成して，前記マイクロプロセッサに伝送する音楽終始判断部と，
前記音楽終始判断部で受信された音楽データをスペクトル分析して音楽の始めと終わりの信号を選り分けて，これを認識する終始データを生成するスペクトル分析部とを含むことを特徴とする，請求項１に記載のデジタル録音再生装置。
前記音楽終始判断部は，前記音楽データの終わり部のフェードアウトを検出して，これに基づいて音楽データの始めと終わりを識別することを特徴とする，請求項６に記載のデジタル録音再生装置。
前記音楽終始判断部は，前の音楽データと次の音楽データとの間に存在する黙音データに基づいて，黙音が表れる場合はその音楽データの終わりと認識し，黙音を過ぎて次の音楽データが続く場合はその部分を次の音楽データの始めと認識し，これを表す終始データを生成することを特徴とする，請求項６に記載のデジタル録音再生装置。
前記音楽終始判断部は，前記音楽データのエネルギー変化量を計算してエネルギーが低い区間を黙音区間と認識して音楽の終点の候補とみなし，その際，エネルギー値は前記非音楽除去部で受信される音楽データをフレーム単位にしてその位相値を自乗してログを取って取得し，
音楽検出区間の長さを３〜５分として音楽区間を抽出することにより，前記音楽データの始めと終わりを判断することを特徴とする，請求項６に記載のデジタル録音再生装置。
前記音楽終始判断部は，前の音楽データと次の音楽データとの重なる部分が存在したり，両音楽データ間に黙音区間がに連続して，音楽データの始めと終わりの部分を識別できない場合には，前記スペクトル分析部に前記音楽データを送信することを特徴とする，請求項６に記載のデジタル録音再生装置。
前記音楽抽出部は，音声特徴等が抽出できるデータを収集した後に隠匿マールコーフモデル（ＨＭＭ：ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ）を用いて学習させて，混合している音響情報から隠匿されている音声情報を抽出し除去することを特徴とする，請求項１に記載のデジタル録音再生装置。
前記音楽抽出部は，隠匿マールコーフモデルからパラメータの推定のためのＢａｕｍ−Ｗｅｌｃｈ（ＢＷ）アルゴリズムを用いて音響信号及びその音響信号の特徴を抽出し，ビタービアルゴリズムを用いて音楽信号のみを抽出することを特徴とする請求項１１に記載のデジタル録音再生装置。
前記音楽抽出部は，
前記チューナで受信される放送信号中，多数の音響信号が含まれたオーディオ信号を入力してオーディオ信号の音響特徴を抽出する音響入力部と，
前記音響入力部で入力された前記音響特徴が音声認識的にどの音素であるかの可能性（確率Ｐ）を表すポステリア確率を求める多層パーセプトロンと，
前記多層パーセプトロンで受信されたポステリア確率に基づいて演算を行なって，フレーム内で確率値の分布を表す単位であるエントロピーＨｎとフレーム間の変化に対する確率値であるダイナミズムＤｎとを求める特徴抽出部と，
前記特徴抽出部で受信されたエントロピーＨｎとダイナミズムＤｎとに基づいてＢＷアルゴリズムとビタービアルゴリズムとを用いて音声クラスと音楽クラスとを選り分けて音楽データのみを出力するＨＭＭ選り分け部とを含むことを特徴とする，請求項１１に記載のデジタル録音再生装置。
前記音響特徴は，零点交差情報，エネルギー，ピッチ，スペクトル周波数及びケプストラル係数を表すことを特徴とする，請求項１３に記載のデジタル録音再生装置。
前記音楽抽出部は，音声認識技術に基づいた独立成分分析（ＩＣＡ：ＩｎｄｅｐｅｎｄｅｎｔＣｏｍｐｏｎｅｎｔＡｎａｌｙｓｉｓ）を用いて放送信号の中から音声信号を切離して除去することにより，音楽信号のみを出力することを特徴とする，請求項１に記載のデジタル録音再生装置。
放送信号を受信して選局するチューナと，選局された放送信号を可聴音で出力する音響出力部と，前記放送信号をデジタルデータに変換したりデジタルデータをアナログ信号に変換したりし，デジタルデータを音楽データに圧縮して符号化したり，圧縮されたデジタルデータを復号化したりして出力するＤＳＰ（ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｏｒ：デジタル信号処理プロセッサ）と，前記ＤＳＰで受信されたデジタルデータの中から音楽データのみを抽出する音楽抽出部と，音楽データを格納する音楽データ格納部と，装置の動作状態を表示する表示部と，ラジオ放送を受信するモードに切換えたり放送される音楽信号に対して録音格納を実行するようにする命令を入力するキー入力部とを備えるデジタル再生装置の音楽部分選り分け格納方法であって，
（ａ）前記チューナで放送信号を音響出力部に出力すると共に，前記ＤＳＰに印加するステップと，
（ｂ）前記ＤＳＰで前記放送信号をデジタルデータに変換して前記音楽抽出部に出力するステップと，
（ｃ）前記音楽抽出部が音楽抽出アルゴリズムにより前記デジタルデータの中から音楽データのみを抽出するステップと，
（ｄ）抽出した前記音楽データの始めと終わりを認識して前記音楽データ格納部に臨時格納するステップと，
（ｅ）前記音響出力部に現在出力される音楽を格納する命令が前記キー入力部により入力されたのかを判断するステップと，
（ｆ）前記音楽データ格納部に臨時格納されている前記音楽データの格納状態を確定して維持するステップとを含むことを特徴とするデジタル再生装置の音楽部分選り分け格納方法。
前記ステップ（ｃ）の前記音楽抽出アルゴリズムは，
人工神経網を用いて多数の入力データを演算して音楽データと非音楽データとに切離し，非音楽データは除去し，音楽データのみを出力することを特徴とする，請求項１６に記載のデジタル再生装置の音楽部分選り分け格納方法。
前記ステップ（ｃ）の音楽抽出アルゴリズムは，
音声特徴等を抽出することができるデータを収集した後に隠匿マールコーフモデル（ＨＭＭ：ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ）を用いて学習させて混合している音響情報から隠匿されている音声情報を抽出して除去することを特徴とする，請求項１６に記載のデジタル再生装置の音楽部分選り分け格納方法。
前記ステップ（ｃ）の音楽抽出アルゴリズムは，
音声認識技術に基づいた独立成分分析（ＩＣＡ：ＩｎｄｅｐｅｎｄｅｎｔＣｏｍｐｏｎｅｎｔＡｎａｌｙｓｉｓ）を用いて放送信号の中から音声信号を切離して除去することにより，音楽信号のみを出力することを特徴とする，請求項１６に記載のデジタル再生装置の音楽部分選り分け格納方法。
前記ステップ（ｄ）において，前記音楽データ格納部に臨時格納される前記音楽データは，各曲毎に格納される順序によって順次に格納され，前記音楽データのみを続けて格納して前記音楽データ格納部の格納容量を超える場合，前記ＤＳＰが前記音楽データ格納部に格納されていた以前の音楽データのうち，確定されていない音楽データを先に記録された順に一曲ずつ削除した後，新しい音楽データを格納することを特徴とする請求項１６に記載のデジタル再生装置の音楽部分選り分け格納方法。
前記ステップ（ｄ）において，以前の音楽データと次の音楽データとの間に存在する黙音（Ｍｕｔｅ）データに基づいて，黙音が表れる場合はその音楽データの終わりと認識し，黙音を過ぎて次の音楽データが続く場合はその部分を次の音楽データの始めと認識することを特徴とする，請求項１６に記載のデジタル再生装置の音楽部分選り分け格納方法。
前記ステップ（ｄ）は，前記音楽データの終わり部に処理されているフェードアウトを検出して，これに基づいて始めと終わりを識別することを特徴とする，請求項１６に記載のデジタル再生装置の音楽部分選り分け格納方法。
前記ステップ（ｄ）は，前記音楽データのエネルギー変化量を計算してエネルギーが低い区間を黙音区間と認識して音楽の終点候補とみなし，その際，エネルギー値は前記非音楽除去部で受信される音楽データをフレーム単位としてその位相値を自乗してログを取って取得し，
音楽検出区間の長さを３〜５分として音楽区間を抽出することにより，その音楽の始めと終わりを判断することを特徴とする，請求項１６に記載のデジタル再生装置の音楽部分選り分け格納方法。
放送信号を受信して選局するチューナと，前記放送信号をデジタルデータに変換して音楽データに圧縮して符号化する信号処理部と，前記放送信号から音楽抽出アルゴリズムによって音楽部分のみを抽出する音楽抽出部と，抽出した前記音楽部分を格納するメモリとを備えるデジタル再生装置の音楽部分選り分け方法であって，
（ａ）前記チューナから出力された前記放送信号を前記音楽抽出部に送信するステップと，
（ｂ）前記音楽抽出部が音楽抽出アルゴリズムによって前記放送信号の中から音楽部分の始めを認識するステップと，
（ｃ）認識した前記音楽データを前記メモリの臨時格納領域に臨時格納するステップと，
（ｄ）前記音楽データを格納する間に，録音格納に関する命令があるかを判断するステップと，
（ｅ）録音格納に関する命令があれば，臨時格納されている前記音楽データを前記メモリの確定格納領域に移転して格納し，その格納状態を確定して維持するステップとを含むことを特徴とするデジタル再生装置の音楽部分選り分け方法。
前記ステップ（ｂ）の音楽抽出アルゴリズムは，音声特徴等が抽出できるデータを収集した後に，隠匿マールコーフモデル（ＨＭＭ：ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ）を用いて学習させて混合している音響情報から隠匿されている音声情報を抽出して除去し，音楽データのみを抽出することを特徴とする，請求項２４に記載のデジタル再生装置の音楽部分選り分け方法。
前記ステップ（ｂ）の音楽抽出アルゴリズムは，人工神経網を用いて多数の入力データを演算して音楽データと非音楽データとに切離し，非音楽データは除去し，音楽データのみを出力することを特徴とする，請求項２４に記載のデジタル再生装置の音楽部分選り分け方法。
前記ステップ（ｂ）の音楽抽出アルゴリズムは，音声認識技術に基づいた独立成分分析（ＩＣＡ：ＩｎｄｅｐｅｎｄｅｎｔＣｏｍｐｏｎｅｎｔＡｎａｌｙｓｉｓ）を用いて放送データの中から音声データを切離して除去することにより，音楽データのみを出力することを特徴とする請求項２４記載のデジタル再生装置の音楽部分選り分け方法。
前記ステップ（ｅ）において，録音格納に関する命令がなければ，前記ステップ（ｂ）に復帰して次の音楽部分に対して認識することを特徴とする，請求項２４に記載のデジタル再生装置の音楽部分選り分け方法。