JP2010014960A - 音声音楽判定装置、音声音楽判定方法及び音声音楽判定用プログラム - Google Patents

音声音楽判定装置、音声音楽判定方法及び音声音楽判定用プログラム Download PDF

Info

Publication number
JP2010014960A
JP2010014960A JP2008174698A JP2008174698A JP2010014960A JP 2010014960 A JP2010014960 A JP 2010014960A JP 2008174698 A JP2008174698 A JP 2008174698A JP 2008174698 A JP2008174698 A JP 2008174698A JP 2010014960 A JP2010014960 A JP 2010014960A
Authority
JP
Japan
Prior art keywords
music
signal
audio signal
voice
background sound
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2008174698A
Other languages
English (en)
Other versions
JP4364288B1 (ja
Inventor
Yutaka Yonekubo
裕 米久保
Hirokazu Takeuchi
広和 竹内
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2008174698A priority Critical patent/JP4364288B1/ja
Priority to US12/430,763 priority patent/US7756704B2/en
Application granted granted Critical
Publication of JP4364288B1 publication Critical patent/JP4364288B1/ja
Publication of JP2010014960A publication Critical patent/JP2010014960A/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/046Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for differentiation between music and non-music signals, based on the identification of musical parameters, e.g. based on tempo detection

Abstract

【課題】この発明は、再生すべきオーディオ信号に含まれる音声信号と音楽信号との割合を高い信頼性を持って定量的に判別することを可能とし、特に、識別誤りを起こしやすい背景音の重畳した音声信号に対しても判別のロバスト性を高めることを目的とする。
【解決手段】入力オーディオ信号から音声と音楽とを判別するための各種の特徴パラメータを算出し、あらかじめ学習した音声・音楽用参照データのパラメータ値に基づく重み係数を付与し、音楽・音声信号の確度を表すスコアS1として算出する。同様に、入力オーディオ信号から音楽と背景音の重畳した音声信号とを判別するための各種の特徴パラメータを算出し、音楽・背景音用参照データのパラメータ値に基づく重み係数を付与し、音楽・背景音重畳音声信号の確度を表すスコアS2として算出する。
【選択図】 図3

Description

この発明は、再生すべきオーディオ(可聴周波数)信号に含まれる音声信号と音楽信号との割合を定量的に判定する音声音楽判定装置、音声音楽判定方法及び音声音楽判定用プログラムに関する。
周知のように、例えばテレビジョン放送を受信する放送受信機器や、情報記録媒体からその記録情報を再生する情報再生機器等にあっては、受信した放送信号や情報記録媒体から読み取った信号等からオーディオ信号を再生する際に、オーディオ信号に音質補正処理を施すことによって、より一層の高音質化を図るようにしている。
この場合、オーディオ信号に施す音質補正処理の内容は、オーディオ信号が人の話し声のような音声信号であるか、楽曲のような音楽(非音声)信号であるかに応じて異なる。すなわち、音声信号に対しては、トークシーンやスポーツ実況等のようにセンター定位成分を強調して明瞭化するように音質補正処理を施す必要があり、音楽信号に対しては、ステレオ感を強調した拡がりのある音質補正処理を施す必要がある。
このため、現在の機器においては、取得したオーディオ信号が音声信号か音楽信号かを判別し、その判別結果に応じて対応する音質補正処理を施すようにしている。しかしながら、実際のオーディオ信号では、音声信号と音楽信号とが混在している場合が多いことから、それらの判別処理が困難になっているため、オーディオ信号に対して適切な音質補正処理が施されているとは言えないのが現状である。
特許文献1には、入力される音響信号の「子音性」、「無音声」及び「パワー変動」が共に所定のしきい値よりも高い場合に音声と判定し、「無音声」及び「パワー変動」が共に所定のしきい値よりも低い場合に音楽と判定し、それ以外の場合は不定と判定するようにした構成が開示されている。
特開平7−13586号公報
そこで、この発明は上記事情を考慮してなされたもので、再生すべきオーディオ信号に含まれる音声信号と音楽信号との割合を高い信頼性を持って定量的に判別することを可能とし、特に、識別誤りを起こしやすい背景音の重畳した音声信号に対しても判別のロバスト性を高めることができる。ひいては、再生すべきオーディオ信号に対して適切な音質補正処理を施すことに寄与し得る音声音楽判定装置、音声音楽判定方法及び音声音楽判定用プログラムを提供することを目的とする。
この発明に係る音声音楽判定装置は、入力オーディオ信号から音声信号と音楽信号とを判別するための各種の特徴パラメータを算出する音声・音楽判定用特徴パラメータ算出手段と、同様に入力オーディオ信号から背景音の重畳した音声信号と音楽信号とを判別するための各種の特徴パラメータを算出する音楽・背景音判定用特徴パラメータ算出手段と、前記音声・音楽判定用特徴パラメータ算出手段で算出された各種の特徴パラメータに対し、それぞれあらかじめ学習した音声・音楽用参照データのパラメータ値に基づく重み係数を付与し、係数を乗じたパラメータ値の総和を音楽・音声信号の確度を表すスコアとして算出する音声・音楽信号特性スコア算出手段と、 前記音楽・背景音判定用特徴パラメータ算出手段で算出された各種の特徴パラメータに対し、それぞれあらかじめ学習した音楽・背景音用参照データのパラメータ値に基づく重み係数を付与し、係数を乗じたパラメータ値の総和を音楽・背景音重畳音声信号の確度を表すスコアとして算出する音楽・背景音信号特性スコア算出手段と、前記音声・音楽信号特性スコア算出手段で算出されたスコアに基づいて、前記入力オーディオ信号が音声信号であるか音楽信号であるかを判定し、音楽信号であると判定された場合、前記音楽・背景音信号特性スコア算出手段で算出されたスコアに基づいて、前記入力オーディオ信号が背景音の重畳した音声信号か否かをさらに判定する音声音楽判定手段とを具備することを備えるようにしたものである。
また、この発明に係る音声音楽判定方法は、入力オーディオ信号を音声・音楽判定用特徴パラメータ算出手段に供給して、音声信号と音楽信号とを判別するための各種の特徴パラメータを算出する工程と、入力オーディオ信号を音楽・背景音判定用特徴パラメータ算出手段に供給して、音楽信号と背景音重畳音声信号とを判別するための各種の特徴パラメータを算出する工程と、算出された各種の音声・音楽判定用特徴パラメータを音声音楽信号特性スコア算出手段に供給して、あらかじめ学習した音声・音楽用参照データのパラメータ値に基づく重み係数を付与し、係数を乗じたパラメータ値の総和を音楽・音声信号の確度を表すスコアとして算出する工程と、算出された各種の音楽・背景音判定用特徴パラメータを音楽・背景音信号特性スコア算出手段に供給して、あらかじめ学習した音楽・背景音用参照データのパラメータ値に基づく重み係数を付与し、係数を乗じたパラメータ値の総和を音楽・背景音重畳音声信号の確度を表すスコアとして算出する工程と、付与された音声・音楽信号特性スコア及び音楽・背景音信号特性スコアに基づいて、前記入力オーディオ信号が音声信号であるか音楽信号であるかを判定する工程と、音楽信号であると判定された場合、前記スコアに基づいて前記入力オーディオ信号が背景音の重畳した音声信号か否かをさらに判定する工程とを有するようにしたものである。
さらに、この発明に係る音声音楽判定用プログラムは、入力オーディオ信号から音声信号と音楽信号とを判別するための各種の音声・音楽判定用特徴パラメータを算出する処理および、入力オーディオ信号から音楽信号と背景音重畳音声信号とを判別するための各種の音楽・背景音判定用特徴パラメータを算出する処理を、コンピュータに実行させるための特徴パラメータ算出手段と、前記音声・音楽判定用特徴パラメータ算出手段で算出された各種の特徴パラメータに対し、あらかじめ学習した音声・音楽用参照データのパラメータ値に基づく重み係数を付与し、係数を乗じたパラメータ値の総和を音楽・音声信号の確度を表すスコアとして算出する処理および、前記音楽・背景音判定用特徴パラメータ算出手段で算出された各種の特徴パラメータに対し、あらかじめ学習した音楽・背景音用参照データのパラメータ値に基づく重み係数を付与し、係数を乗じたパラメータ値の総和を音楽・背景音重畳音声信号の確度を表すスコアとして算出する音声・音楽特性スコア算出手段及び音楽・背景音特性スコア算出手段と、付与されたスコアに基づいて、前記入力オーディオ信号が音声信号であるか音楽信号であるかを判定し、音楽信号であると判定された場合、前記スコアに基づいて前記入力オーディオ信号が背景音の重畳した音声信号か否かをさらに判定する音声音楽判定手段と、をコンピュータに実行させるようにしたものである。
上記した発明によれば、再生すべきオーディオ信号に含まれる音声信号と音楽信号との割合を高い信頼性を持って定量的に判別することを可能とし、特に、識別誤りを起こしやすい背景音の重畳した音声信号に対しても判別のロバスト性を高めることができる。ひいては、再生すべきオーディオ信号に対して適切な音質補正処理を施すことに寄与させることができる。
以下、この発明の実施の形態について図面を参照して詳細に説明する。図1は、この実施の形態で説明するデジタルテレビジョン放送受信装置11の外観と、このデジタルテレビジョン放送受信装置11を中心として構成されるネットワークシステムの一例とを概略的に示している。
すなわち、デジタルテレビジョン放送受信装置11は、主として、薄型のキャビネット12と、このキャビネット12を起立させて支持する支持台13とから構成されている。そして、このキャビネット12には、例えばSED(surface-conduction electron-emitter display)表示パネルまたは液晶表示パネル等でなる平面パネル型の映像表示器14、一対のスピーカ15,15、操作部16、リモートコントローラ17から送信される操作情報を受ける受光部18等が設置されている。
また、このデジタルテレビジョン放送受信装置11には、例えばSD(secure digital)メモリカード、MMC(multimedia card)及びメモリスティック等の第1のメモリカード19が着脱可能となっており、この第1のメモリカード19に対して番組や写真等の情報の記録再生が行なわれるようになっている。
さらに、このデジタルテレビジョン放送受信装置11には、例えば契約情報等の記録された第2のメモリカード[IC(integrated circuit)カード等]20が着脱可能となっており、この第2のメモリカード20に対して情報の記録再生が行なわれるようになっている。
また、このデジタルテレビジョン放送受信装置11は、第1のLAN(local area network)端子21、第2のLAN端子22、USB(universal serial bus)端子23及びIEEE(institute of electrical and electronics engineers)1394端子24を備えている。
このうち、第1のLAN端子21は、LAN対応HDD(hard disk drive)専用ポートとして使用される。すなわち、この第1のLAN端子21は、それに接続されたNAS(network attached storage)であるLAN対応のHDD25に対して、イーサネット(登録商標)により情報の記録再生を行なうために使用される。
このように、デジタルテレビジョン放送受信装置11にLAN対応HDD専用ポートとしての第1のLAN端子21を設けることにより、他のネットワーク環境やネットワーク使用状況等に影響されることなく、HDD25に対してハイビジョン画質による放送番組の情報記録を安定して行なうことができる。
また、第2のLAN端子22は、イーサネット(登録商標)を用いた一般的なLAN対応ポートとして使用される。すなわち、この第2のLAN端子22は、ハブ26を介して、LAN対応のHDD27、PC(personal computer)28、HDD内蔵のDVD(digital versatile disk)レコーダ29等の機器を接続して、例えば家庭内ネットワークを構築し、これらの機器と情報伝送を行なうために使用される。
この場合、PC28及びDVDレコーダ29については、それぞれ、家庭内ネットワークにおいてコンテンツのサーバ機器として動作するための機能を持ち、さらにコンテンツのアクセスに必要なURI(uniform resource identifier)情報を提供するサービスを備えたUPnP(universal plug and play)対応機器として構成される。
なお、DVDレコーダ29については、第2のLAN端子22を介して通信されるデジタル情報が制御系のみの情報であるため、デジタルテレビジョン放送受信装置11との間でアナログの映像及びオーディオ情報を伝送するために、専用のアナログ伝送路30が設けられている。
さらに、この第2のLAN端子22は、ハブ26に接続されたブロードバンドルータ31を介して、例えばインターネット等の外部のネットワーク32に接続される。そして、この第2のLAN端子22は、ネットワーク32を介してPC33や携帯電話34等と情報伝送を行なうためにも使用される。
また、上記USB端子23は、一般的なUSB対応ポートとして使用されるもので、例えばハブ35を介して、携帯電話36、デジタルカメラ37、メモリカードに対するカードリーダ/ライタ38、HDD39、キーボード40等のUSB機器を接続し、これらのUSB機器と情報伝送を行なうために使用される。
さらに、上記IEEE1394端子24は、例えばAV−HDD41及びD(digital)−VHS(video home system)42等のような複数の情報記録再生機器をシリアル接続し、各機器と選択的に情報伝送を行なうために使用される。
図2は、上記したデジタルテレビジョン放送受信装置11の主要な信号処理系を示している。すなわち、BS/CS(broadcasting satellite/communication satellite)デジタル放送受信用のアンテナ43で受信した衛星デジタルテレビジョン放送信号は、入力端子44を介して衛星デジタル放送用のチューナ45に供給されることにより、所望のチャンネルの放送信号が選局される。
そして、このチューナ45で選局された放送信号は、PSK(phase shift keying)復調器46及びTS(transport stream)復号器47に順次供給されることにより、デジタルの映像信号及びオーディオ信号に復調された後、信号処理部48に出力される。
また、地上波放送受信用のアンテナ49で受信した地上デジタルテレビジョン放送信号は、入力端子50を介して地上デジタル放送用のチューナ51に供給されることにより、所望のチャンネルの放送信号が選局される。
そして、このチューナ51で選局された放送信号は、例えば日本ではOFDM(orthogonal frequency division multiplexing)復調器52及びTS復号器53に順次供給されることにより、デジタルの映像信号及びオーディオ信号に復調された後、上記信号処理部48に出力される。
また、上記地上波放送受信用のアンテナ49で受信した地上アナログテレビジョン放送信号は、入力端子50を介して地上アナログ放送用のチューナ54に供給されることにより、所望のチャンネルの放送信号が選局される。そして、このチューナ54で選局された放送信号は、アナログ復調器55に供給されてアナログの映像信号及びオーディオ信号に復調された後、上記信号処理部48に出力される。
ここで、上記信号処理部48は、TS復号器47,53からそれぞれ供給されたデジタルの映像信号及びオーディオ信号に対して、選択的に所定のデジタル信号処理を施し、グラフィック処理部56及びオーディオ処理部57に出力している。
また、上記信号処理部48には、複数(図示の場合は4つ)の入力端子58a,58b,58c,58dが接続されている。これら入力端子58a〜58dは、それぞれ、アナログの映像信号及びオーディオ信号を、デジタルテレビジョン放送受信装置11の外部から入力可能とするものである。
信号処理部48は、上記アナログ復調器55及び各入力端子58a〜58dからそれぞれ供給されたアナログの映像信号及びオーディオ信号を選択的にデジタル化し、このデジタル化された映像信号及びオーディオ信号に対して所定のデジタル信号処理を施した後、グラフィック処理部56及びオーディオ処理部57に出力する。
グラフィック処理部56は、信号処理部48から供給されるデジタルの映像信号に、OSD(on screen display)信号生成部59で生成されるOSD信号を重畳して出力する機能を有する。このグラフィック処理部56は、信号処理部48の出力映像信号と、OSD信号生成部59の出力OSD信号とを選択的に出力すること、また、両出力をそれぞれ画面の半分を構成するように組み合わせて出力することができる。
グラフィック処理部56から出力されたデジタルの映像信号は、映像処理部60に供給される。この映像処理部60は、入力されたデジタルの映像信号を、前記映像表示器14で表示可能なフォーマットのアナログ映像信号に変換した後、映像表示器14に出力して映像表示させるとともに、出力端子61を介して外部に導出させる。
また、上記オーディオ処理部57は、入力されたデジタルのオーディオ信号に対して、後述する音質補正処理を施した後、前記スピーカ15で再生可能なフォーマットのアナログオーディオ信号に変換している。そして、このアナログオーディオ信号は、スピーカ15に出力されてオーディオ再生に供されるとともに、出力端子62を介して外部に導出される。
ここで、このデジタルテレビジョン放送受信装置11は、上記した各種の受信動作を含むその全ての動作を制御部63によって統括的に制御されている。この制御部63は、CPU(central processing unit)64を内蔵しており、前記操作部16からの操作情報、または、リモートコントローラ17から送出され前記受光部18に受信された操作情報を受けて、その操作内容が反映されるように各部をそれぞれ制御している。
この場合、制御部63は、主として、そのCPU64が実行する制御プログラムを格納したROM(read only memory)65と、該CPU64に作業エリアを提供するRAM(random access memory)66と、各種の設定情報及び制御情報等が格納される不揮発性メモリ67とを利用している。
また、この制御部63は、カードI/F(interface)68を介して、前記第1のメモリカード19が装着可能なカードホルダ69に接続されている。これによって、制御部63は、カードホルダ69に装着された第1のメモリカード19と、カードI/F68を介して情報伝送を行なうことができる。
さらに、上記制御部63は、カードI/F70を介して、前記第2のメモリカード20が装着可能なカードホルダ71に接続されている。これにより、制御部63は、カードホルダ71に装着された第2のメモリカード20と、カードI/F70を介して情報伝送を行なうことができる。
また、上記制御部63は、通信I/F72を介して第1のLAN端子21に接続されている。これにより、制御部63は、第1のLAN端子21に接続されたLAN対応のHDD25と、通信I/F72を介して情報伝送を行なうことができる。この場合、制御部63は、DHCP(dynamic host configuration protocol)サーバ機能を有し、第1のLAN端子21に接続されたLAN対応のHDD25にIP(internet protocol)アドレスを割り当てて制御している。
さらに、上記制御部63は、通信I/F73を介して第2のLAN端子22に接続されている。これにより、制御部63は、第2のLAN端子22に接続された各機器(図1参照)と、通信I/F73を介して情報伝送を行なうことができる。
また、上記制御部63は、USB I/F74を介して前記USB端子23に接続されている。これにより、制御部63は、USB端子23に接続された各機器(図1参照)と、USB I/F74を介して情報伝送を行なうことができる。
さらに、上記制御部63は、IEEE1394 I/F75を介してIEEE1394端子24に接続されている。これにより、制御部63は、IEEE1394端子24に接続された各機器(図1参照)と、IEEE1394 I/F75を介して情報伝送を行なうことができる。
図3は、上記オーディオ処理部57内に備えられる音質補正処理部76を示している。この音質補正処理部76では、入力端子77に供給された、例えばPCM(pulse code modulation)信号でなるオーディオ信号が、オーディオ補正処理部78及び音声・音楽判定用特徴パラメータ算出部79及び音楽・背景音判定用特徴パラメータ算出部83にそれぞれ供給されている。
このうち、音声・音楽判定用特徴パラメータ算出部79及び音楽・背景音判定用特徴パラメータ算出部83では、入力されたオーディオ信号を、複数(図示の場合はそれぞれn個、p個)のパラメータ値算出部801,802,803,……,80n、841、842、……、84pにそれぞれ供給している。これらのパラメータ値算出部801〜80n、841〜84pでは、それぞれ、入力されたオーディオ信号から音声信号と音楽信号とを判別するための特徴パラメータ及び、音楽信号と背景音重畳音声信号とを判別するための特徴パラメータを算出している。
すなわち、各パラメータ値算出部801〜80n、841〜84pでは、それぞれ、入力されたオーディオ信号を、図4(a)に示すように、数100msec程度のフレーム単位に切り出し、さらに、図4(b)に示すように、各フレームを数10msec程度のサブフレーム単位に分割する。
そして、各パラメータ値算出部801〜80n、841〜84pでは、それぞれ、サブフレーム単位で、オーディオ信号から音声信号と音楽信号とを判別するための判別情報及び音楽信号と背景音重畳音声信号とを判別するための判別情報を算出し、その判別情報に対してフレーム単位での平均・分散等の統計量を求めることにより、特徴パラメータを生成している。
例えば、パラメータ値算出部801では、サブフレーム単位で入力オーディオ信号の信号振幅の二乗和であるパワー値を判別情報として算出し、それに対するフレーム単位での平均・分散等の統計量を求めることにより、特徴パラメータpwを生成している。
また、パラメータ値算出部802では、サブフレーム単位で入力オーディオ信号の時間波形が振幅方向に零を横切る回数である零交差周波数を判別情報として算出し、それに対するフレーム単位での平均・分散等の統計量を求めることにより、特徴パラメータzcを生成している。
さらに、パラメータ値算出部803では、サブフレーム単位で入力オーディオ信号における2チャンネルステレオの左右(LR)信号のパワー比(LRパワー比)を判別情報として算出し、それに対するフレーム単位での平均・分散等の統計量を求めることにより、特徴パラメータlrを生成している。
同様に、パラメータ値算出部841では、サブフレーム単位で、入力オーディオ信号の周波数領域変換後、楽曲の楽器音に特徴的な特定の周波数帯域のパワー成分の集中度合いを算出する。集中度合いは、全帯域あるいは特定の帯域における前記低周波数帯域のパワー占有割合等で表す。この判別情報に対し、フレーム単位での平均・分散等の統計量を求めることにより、特徴パラメータinstを生成している。
図5は、上記した音声・音楽判定用特徴パラメータ算出部79及び音楽・背景音判定用特徴パラメータ算出部83が入力オーディオ信号から音声信号と音楽信号とを判別するための各種の特徴パラメータ及び、音楽信号と背景音重畳音声信号とを判別するための各種の特徴パラメータを生成する処理動作をまとめたフローチャートの一例を示している。すなわち、処理が開始されると、音声・音楽判定用特徴パラメータ算出部79は、ステップS5aで、各パラメータ算出部801〜80nにより、入力オーディオ信号から数10msec程度のサブフレームを抽出する。音楽・背景音判定用特徴パラメータ83についても、各パラメータ算出部841〜84pについて同様の処理を行う・
そして、音声音楽判定用特徴パラメータ算出部79は、ステップS5bで、パラメータ値算出部801により、入力オーディオ信号からサブフレーム単位でのパワーを算出し、ステップS5cで、パラメータ値算出部802により、入力オーディオ信号からサブフレーム単位での零交差周波数を算出し、ステップS5dで、パラメータ値算出部803により、入力オーディオ信号からサブフレーム単位でのLRパワー比を算出する。
さらに、音楽・背景音判定用特徴パラメータ算出部83は、ステップS5eで、パラメータ値算出部841により、入力オーディオ信号からサブフレーム単位での楽器の特定周波数成分集中度合いを算出する。
同様に、音声・音楽判定用特徴パラメータ算出部79は、ステップS5fで、他のパラメータ値算出部〜80nにより、それぞれ、入力オーディオ信号からサブフレーム単位での他の判別情報を算出する。その後、音声・音楽判定用特徴パラメータ算出部79は、ステップS5gで、各パラメータ算出部801〜80nにより、入力オーディオ信号から数100msec程度のフレームを抽出する。また、音楽・背景音判定用特徴パラメータ算出部83は、他のパラメータ値算出部〜84pについて、同様の処理を行う。
そして、音声・音楽判定用特徴パラメータ算出部79及び音楽・背景音判定用特徴パラメータ算出部83は、ステップS5hで、各パラメータ算出部801〜80n、841〜84pにより、サブフレーム単位で算出した判別情報に対してフレーム単位での平均・分散等の統計量を求めることにより特徴パラメータを生成し、処理を終了する。
上記のようにして、音声・音楽判定用特徴パラメータ算出部79の各パラメータ値算出部801〜80nで生成された特徴パラメータは、特性スコア制御部81に、各パラメータ値算出部801〜80nにそれぞれ対応して設けられている音声音楽特性スコア算出部821,822,823〜82nに供給され、音楽・背景音判定用特徴パラメータ算出部83の各パラメータ値算出部841〜84pで生成された特徴パラメータは、特性スコア制御部85に、各パラメータ値算出部841〜84pにそれぞれ対応して設けられている音楽・背景音信号特性スコア算出部861〜86pに供給される。
これらの音声音楽特性スコア算出部821〜82nでは、対応するパラメータ算出部801〜80nから供給された特徴パラメータに基づいて、入力端子77に供給されたオーディオ信号が、スピーチのような音声信号の特性に近いか、音楽(楽曲)信号の特性に近いか否かを定量的に示すスコアS2を算出している。
同様に、音楽・背景音信号特性スコア算出部861〜86pでは、対応するパラメータ算出部841〜84pから供給された特徴パラメータに基づいて、入力端子77に供給されたオーディオ信号が、背景音の重畳した音声信号の特性に近いか、音楽信号の特性に近いか否かを定量的に示すスコアS2を算出している。
スコアの具体的な算出の前に、各特徴パラメータの性質について説明をする。例えば、上記したパワー変動に対応した特徴パラメータpwが供給される音声音楽特性スコア算出部821について説明すると、パワー変動に関して言えば、一般に、音声は、発話している区間と沈黙している区間とが交互に現れるため、サブフレーム間での信号パワーの違いが大きくなり、フレーム単位で見ると各サブフレーム間のパワー値の分散が大きくなる傾向にある。なお、ここでパワー変動とは、サブフレームにおいて計算したパワー値について、より長いフレーム区間内で値の変動に着目した特徴量を指し、具体的にはパワーの分散値などを用いる。
また、上記した零交差周波数に対応した特徴パラメータzcが供給される音声音楽特性スコア算出部822について説明すると、零交差周波数に関して言えば、前述した発話区間と沈黙区間との違いに加えて、音声信号は零交差周波数が子音では高く母音では低くなるため、フレーム単位で見ると各サブフレーム間の零交差周波数の分散が大きくなる傾向にある。
さらに、上記したLRパワー比に対応した特徴パラメータlrが供給される音声音楽特性スコア算出部823について説明すると、LRパワー比に関して言えば、音楽信号では、ボーカル以外の楽器演奏がセンター以外に定位していることが多いため、左右のチャンネル間のパワー比が大きくなる傾向にある。
このように、音声・音楽判定用特徴パラメータ算出部にて値を算出するパラメータは、音声信号と音楽信号の性質に着目し、これらの信号種別を切り分けやすいパラメータを選択する。
ただし、これらのパラメータは、純粋な音楽信号と音声信号の切り分けには有効であるが、拍手や歓声・人の笑い声、雑踏などの背景音が重畳した音声信号に対して必ずしも同じように効果を発揮するわけではなく、こうした信号については背景音の影響で音楽信号であると判定誤りを起こしやすい。こうした判定誤りを抑制するため、音楽・背景音判定用特徴パラメータ算出部では、こうした重畳信号と音楽信号を識別するに適した特徴パラメータを採用する。すなわち、上記楽器の特定周波数成分の集中度合いに対応した特徴パラメータinstが供給される音楽・背景音信号特性スコア算出部861について説明すると、楽曲を構成する楽器によって特定の周波数帯域に振幅パワーが集中することが多い。例として、現代の楽曲では多くの場合にベース音となる楽器が存在し、このベース音を解析すると信号の周波数領域において、振幅パワーが特定の低周波数帯域に集中している。他方、上述した重畳信号は、こうした特定低周波数帯域のパワー集中度は見られず、音楽と背景音重畳信号の識別の上で有効な指標となる。なお、当該パラメータは、背景音重畳のない音声信号と音楽信号の識別には必ずしも有効であるとはいえない。すなわち、初めから音声・音楽信号の判定用パラメータとして使うとすると、通常の音声でもこの特定帯域付近で集中度合いが比較的高くなる場合があるため、誤検出増加の可能性がある。一方、音声に拍手や歓声等の背景音が重畳すると、一般にこれらの音信号では中高域の周波数成分が強く、上記ベース成分集中度合いは相対的に低い。このため、上述した音声・音楽信号判定用特徴パラメータにより一度音楽と判定された信号を対象に使用することで効果を発揮する。以上のように、多段構成の判定方式で識別したい信号種別に応じて特徴パラメータセットを適応選択することが望ましい。上記ではベース楽器音を例に説明したが、楽器の種類は何であってもかまわない。
ここで、上記音声・音楽信号特性スコア算出部81及び音楽・背景音信号特性スコア算出部85でそれぞれ算出するスコアS1,S2について説明する。
S1,S2の算出方法については一つの方法に特定しないが、ここでは線形識別関数を用いた算出方法について説明する。線形識別関数を用いる方法では、S1、S2の算出に必要なパラメータ値に乗ずる重み係数をオフライン学習により算出する。この重みは、信号種別の識別に効果の高いパラメータであるほど大きい値を与え、重みの算出は、基準となる参照データを入力し、参照データの特徴パラメータ値を学習することで行う。いま、学習対象とするデータのk番目のフレームの入力パラメータセットをベクトルxで表し、入力が属する信号区間{音楽、音声}としてyで以下のように表す。
Figure 2010014960
・・・(1)
Figure 2010014960
・・・(2)
ここで、(1)の各要素は抽出したn個の特徴パラメータに対応する。(2)式の−1、+1はそれぞれ音楽区間及び音声区間に対応し、使用する音声・音楽用参照データの正解信号種別となる区間をあらかじめ人手で2値のラベル付けする。また、(2)式より以下の線形識別関数を立てる。
Figure 2010014960
・・・(3)
k=1〜N(Nは参照データの入力フレーム数)に対し、ベクトルxを抽出し、(3)式の評価値と正解信号種別(2)式の誤差二乗和(4)式が最小となる正規方程式を解くことにより、各パラメータの重み付けされた係数βが決まる。
Figure 2010014960
・・・(4)
学習により決定した係数を用い、実際に識別するデータの評価値を(3)式より計算し、f(x)>0なら音声区間、f(x)<0なら音楽区間と判定する。また、このときのf(x)が上記のスコアS1に相当する。ここで、上記の学習において音楽・背景音用参照データに変え同様の手続きを行うことで、音楽信号と背景音重畳音声信号の識別に適した各パラメータに乗ずる重み係数が決定され、この係数を実際の識別データの各特徴パラメータ値に乗ずることでスコアS2を算出する。
なお、スコア算出に関しては、説明した線形識別関数を用いたオフライン学習により求めた重み付け係数を特徴パラメータ値に乗ずる方法に限定するものでなく、例えば各パラメータの算出値に対して経験的な閾値を設定し、この閾値との比較判定に応じて各パラメータに重み付けされた得点を付与しスコアを算出するなどの方法でも本提案は適用可能である。
上記のようにして、音声・音楽信号特性スコア算出部81の各音声音楽特性スコア算出部821〜82n及び音楽・背景音信号特性スコア算出部85の各音楽・背景音信号特性スコア算出部861〜86pで生成された各スコアは、音声・音楽信号判定部87に供給される。この音声音楽判定部87は、入力された音声・音楽信号特性スコアS1及び音楽・背景音信号特性スコアS2に基づいて音声信号か音楽信号かを判定する。
音声・音楽信号判定部87は、前段判定部881及び後段判定部882の多段構成となる。
まず、前段判定部881では、上記スコアS1に基づき、入力オーディオ信号が音声であるか音楽であるかを判定する。上述した学習を用いたスコア算出方法によれば、スコアS1>0であれば音声信号、S1<0であれば音楽区間である。ここで音声信号と判定すれば、前記入力オーディオ信号は音声信号であると確定する。
S1<0となった場合は、さらに後段判定部882にて後段の判定を行う。
前段で音楽信号と判定された場合でも、判定を誤っている可能性があり、多段の判定により信号判定の信頼性を高めることが目的である。特に、番組コンテンツで発生頻度の高い拍手や歓声、人の笑い声、また雑踏など各種の背景音が重畳するとこれらの影響で、音声信号であるにも関わらず音楽信号であると判定誤りを起こしやすい。背景音重畳による信号の判定誤りを抑制するため、後段判定部882では、信号が本当に音楽信号であるか、背景音の重畳した音声信号であるかをスコアS2により判定する。
上述の線形識別関数による判定において、学習させる参照データを{音楽、背景音重畳信号}とし、{−1、+1}を割り当てた場合、決定された重み係数をパラメータ値に乗じて算出されたスコアS2<0であれば音楽信号であると確定し、S2>0であれば背景音が重畳した音声信号であると判定する。
このように、判定誤りを起こしやすい背景音重畳信号に対してロバスト性を高めるために、前段判定部881、後段判定部882では、それぞれあらかじめ参照データを学習させ線形識別関数より立てた正規方程式を解く等の処理により求まる各パラメータの重み付け係数を用いて算出する信号特性スコアに基づき、多段式の判定処理を行う。
図6は、上記のように線形識別関数を用いたオフライン学習で算出した各パラメータの重み付け係数に基づき、音声・音楽信号特性スコア算出部81及び音楽・背景音信号特性スコア算出部85が音声・音楽信号特性スコア及び音楽・背景音信号特性スコアを算出する処理動作をまとめたフローチャートの一例を示している。
また、図7は、上記した音声・音楽信号判定部87が、音声・音楽信号特性スコア算出部81及び音楽・背景音信号特性スコア算出部85から供給された音声・音楽信号特性スコアS1と音楽・背景音信号特性スコアS2とのそれぞれのスコアに基づいて音声信号と音楽信号とを判定する処理動作のフローチャートの一例を示している。
すなわち、処理が開始されると、音声・音楽信号特性スコア算出部81は、ステップS6aで、音声・音楽判定用特徴パラメータ算出部によって算出された各特徴パラメータに対し、あらかじめ学習した音声・音楽用参照データのパラメータ値に基づく重み係数を付与し、係数を乗じたパラメータ値を算出し、ステップS6bにて、係数を乗じた各係数の総和を音楽・音声信号の確度を表すスコアS1として算出する。
また、音楽・背景音信号特性スコア算出部85は、ステップS6cで、音楽・背景音判定用特徴パラメータ算出部によって算出された各特徴パラメータに対し、あらかじめ学習した音楽・背景音用参照データのパラメータ値に基づく重み係数を付与し、係数を乗じたパラメータ値を算出し、ステップS6dにて、係数を乗じた各係数の総和を音楽・背景音重畳音声信号の確度を表すスコアS2として算出し、処理を終了する。
次に、音声・音楽信号判定部87において処理が開始されると、前段判定部881は、前記音声・音楽信号特性スコアS1の値を見(ステップS7a)、S1>0であればステップS7bにて、現オーディオ入力信号フレームが属する信号種別は音声信号であると判定する。そうでなければステップS7cにて、S1<0であるかどうかを判定する。S1<0でない場合ステップS7gで、現オーディオ入力信号フレームが属する信号種別の判定を保留し、直前のフレームの信号種別が継続しているとする。S1<0である場合、後段判定部882は、前記音楽・背景音重畳信号特性スコアS2の値を見(ステップS7d)、S2>0であれば、ステップS7bにて、現オーディオ入力信号フレームが属する信号種別は背景音が重畳した音声信号であると判定する。そうでなければステップS7eにて、S2<0であるかどうかを判定する。S2<0でない場合、ステップS7gで、現オーディオ入力信号フレームが属する信号種別の判定を保留し、直前のフレームの信号種別が継続しているとする。S2<0であれば、ステップS7fにて、現オーディオ入力信号フレームが属する信号種別は音楽信号であると判定する。
上記のようにして、音声・音楽判定部87で判定された結果は、上記オーディオ補正処理部78に供給される。このオーディオ補正処理部78は、入力端子77に供給されたオーディオ信号に対して、音声・音楽判定部87での判定結果に基づいた音質補正処理を施し、出力端子85から外部に出力している。
すなわち、このオーディオ補正処理部78は、音声音楽判定部87での判定結果が音声である場合、入力オーディオ信号に対してセンター定位成分を強調して明瞭化するように音質補正処理を施し、音声音楽判定部87での判定結果が音楽である場合、入力オーディオ信号に対してステレオ感を強調した拡がりのある音質補正処理を施すように機能する。
なお、この発明は上記した実施の形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を種々変形して具体化することができる。また、上記した実施の形態に開示されている複数の構成要素を適宜に組み合わせることにより、種々の発明を形成することができる。例えば、実施の形態に示される全構成要素から幾つかの構成要素を削除しても良いものである。さらに、異なる実施の形態に係る構成要素を適宜組み合わせても良いものである。
この発明の実施の形態を示すもので、デジタルテレビジョン放送受信装置とそれを中心としたネットワークシステムの一例とを概略的に説明するために示す図。 同実施の形態におけるデジタルテレビジョン放送受信装置の主要な信号処理系を説明するために示すブロック構成図。 同実施の形態におけるデジタルテレビジョン放送受信装置のオーディオ処理部に含まれる音質補正処理部を説明するために示すブロック構成図。 同実施の形態における音質補正処理部に含まれる特徴パラメータ算出部の動作を説明するために示す図。 同実施の形態における特徴パラメータ算出が行なう動作を説明するために示すフローチャート。 同実施の形態における音質補正処理部に含まれる特性スコア制御部の動作を説明するために示すフローチャート。 同実施の形態における音質補正処理部に含まれる音声音楽判定部が行なう動作を説明するために示すフローチャート。
符号の説明
11…デジタルテレビジョン放送受信装置、12…キャビネット、13…支持台、14…映像表示器、15…スピーカ、16…操作部、17…リモートコントローラ、18…受光部、19…第1のメモリカード、20…第2のメモリカード、21…第1のLAN端子、22…第2のLAN端子、23…USB端子、24…IEEE1394端子、25…HDD、26…ハブ、27…HDD、28…PC、29…DVDレコーダ、30…アナログ伝送路、31…ブロードバンドルータ、32…ネットワーク、33…PC、34…携帯電話、35…ハブ、36…携帯電話、37…デジタルカメラ、38…カードリーダ/ライタ、39…HDD、40…キーボード、41…AV−HDD、42…D−VHS、43…アンテナ、44…入力端子、45…チューナ、46…PSK復調器、47…TS復号器、48…信号処理部、49…アンテナ、50…入力端子、51…チューナ、52…OFDM復調器、53…TS復号器、54…チューナ、55…アナログ復調器、56…グラフィック処理部、57…オーディオ処理部、58a〜58d…入力端子、59…OSD信号生成部、60…映像処理部、61,62…出力端子、63…制御部、64…CPU、65…ROM、66…RAM、67…不揮発性メモリ、68…カードI/F、69…カードホルダ、70…カードI/F、71…カードホルダ、72,73…通信I/F、74…USB I/F、75…IEEE1394 I/F、76…音質補正処理部、77…入力端子、78…オーディオ補正処理部、79…音声・音楽判定用特徴パラメータ算出部、801〜80n…パラメータ値算出部、81…音声・音楽信号特性スコア算出部、821〜82n…音声音楽特性スコア算出部、83…音楽・背景音判定用特徴パラメータ算出部、841〜84p…パラメータ値算出部、85…音楽・背景音信号特性スコア算出部、861〜86p…音楽・背景音特性スコア算出部、87…音声音楽信号判定部、881…前段判定部、882…後段判定部、89…出力端子

Claims (7)

  1. 入力オーディオ信号から音声信号と音楽信号とを判別するための各種の特徴パラメータを算出する音声・音楽判定用特徴パラメータ算出手段と、
    同様に入力オーディオ信号から背景音の重畳した音声信号と音楽信号とを判別するための各種の特徴パラメータを算出する音楽・背景音判定用特徴パラメータ算出手段と、
    前記音声・音楽判定用特徴パラメータ算出手段で算出された各種の特徴パラメータに対し、それぞれあらかじめ学習した音声・音楽用参照データのパラメータ値に基づく重み係数を付与し、係数を乗じたパラメータ値の総和を音楽・音声信号の確度を表すスコアとして算出する音声・音楽信号特性スコア算出手段と、
    前記音楽・背景音判定用特徴パラメータ算出手段で算出された各種の特徴パラメータに対し、それぞれあらかじめ学習した音楽・背景音用参照データのパラメータ値に基づく重み係数を付与し、係数を乗じたパラメータ値の総和を音楽・背景音重畳音声信号の確度を表すスコアとして算出する音楽・背景音信号特性スコア算出手段と、
    前記音声・音楽信号特性スコア算出手段で算出されたスコアに基づいて、前記入力オーディオ信号が音声信号であるか音楽信号であるかを判定し、音楽信号であると判定された場合、前記音楽・背景音信号特性スコア算出手段で算出されたスコアに基づいて、前記入力オーディオ信号が背景音の重畳した音声信号か否かをさらに判定する音声音楽判定手段とを具備することを特徴とする音声音楽判定装置。
  2. 前記特徴パラメータ算出手段は、前記入力オーディオ信号をそれぞれが複数のサブフレームでなる所定のフレーム単位に分割し、サブフレーム単位で前記入力オーディオ信号から音声信号と音楽信号とを判別するための判別情報を算出し、その判別情報に対してフレーム単位での統計量を求めることにより、前記特徴パラメータを生成することを特徴とする請求項1記載の音声音楽判定装置。
  3. 前記音声・音楽判定用特徴パラメータ算出手段は、前記入力オーディオ信号に対して、音声信号であるか音楽信号であるかを判定する前段の判定処理に適した特徴パラメータとして、パワー変動、零交差周波数、ステレオの左右信号のパワー比等を算出し、
    また、前記音楽・背景音判定用特徴パラメータ算出手段は、音楽信号であるか背景音重畳音声信号であるかを判定する後段の判定処理に適した特徴パラメータとして、楽曲の楽器音に相当する特定の周波数帯域成分のパワー集中度合い等を算出することを特徴とする請求項1記載の音声音楽判定装置。
  4. 前記音声音楽信号特性スコア算出手段は、
    あらかじめ学習した音声・音楽用参照データのパラメータ値に基づく重み係数を付与し、係数を乗じたパラメータ値の総和を音楽・音声信号の確度を表すスコアとして算出し、
    前記音楽・背景音信号特性スコア算出手段は、
    あらかじめ学習した音楽・背景音用参照データのパラメータ値に基づく重み係数を付与し、係数を乗じたパラメータ値の総和を音楽・背景音重畳音声信号の確度を表すスコアとして算出することを特徴とする請求項1記載の音声音楽判定装置。
  5. 前記音声音楽判定手段は、前記音声音楽信号特性スコア算出手段で算出されたスコアに基づいて、前記入力オーディオ信号が音声信号であるか音楽信号であるかを判定し、前者であると判定すれば前記信号は音声信号であると判定し、また後者であると判定された場合に、前記信号が音声信号であるにも関わらず背景音重畳の影響で誤って音楽信号と判定されることを防ぐ目的で、前記音楽・背景音信号特性スコア算出手段で算出されたスコアに基づいて、前記入力オーディオ信号が背景音の重畳した音声信号であるか音楽信号であるかを判定する多段構成により信号種別を判定することを特徴とする請求項1記載の音声音楽判定装置。
  6. 入力オーディオ信号を音声・音楽判定用特徴パラメータ算出手段に供給して、音声信号と音楽信号とを判別するための各種の特徴パラメータを算出する工程と、
    入力オーディオ信号を音楽・背景音判定用特徴パラメータ算出手段に供給して、音楽信号と背景音重畳音声信号とを判別するための各種の特徴パラメータを算出する工程と、
    算出された各種の音声・音楽判定用特徴パラメータを音声音楽信号特性スコア算出手段に供給して、あらかじめ学習した音声・音楽用参照データのパラメータ値に基づく重み係数を付与し、係数を乗じたパラメータ値の総和を音楽・音声信号の確度を表すスコアとして算出する工程と、
    算出された各種の音楽・背景音判定用特徴パラメータを音楽・背景音信号特性スコア算出手段に供給して、あらかじめ学習した音楽・背景音用参照データのパラメータ値に基づく重み係数を付与し、係数を乗じたパラメータ値の総和を音楽・背景音重畳音声信号の確度を表すスコアとして算出する工程と、
    付与された音声・音楽信号特性スコア及び音楽・背景音信号特性スコアに基づいて、前記入力オーディオ信号が音声信号であるか音楽信号であるかを判定する工程と、
    音楽信号であると判定された場合、前記スコアに基づいて前記入力オーディオ信号が背景音の重畳した音声信号か否かをさらに判定する工程と
    を有することを特徴とする音声音楽判定方法。
  7. 入力オーディオ信号から音声信号と音楽信号とを判別するための各種の音声・音楽判定用特徴パラメータを算出する処理および、入力オーディオ信号から音楽信号と背景音重畳音声信号とを判別するための各種の音楽・背景音判定用特徴パラメータを算出する処理を、コンピュータに実行させるための特徴パラメータ算出手段と、
    前記音声・音楽判定用特徴パラメータ算出手段で算出された各種の特徴パラメータに対し、あらかじめ学習した音声・音楽用参照データのパラメータ値に基づく重み係数を付与し、係数を乗じたパラメータ値の総和を音楽・音声信号の確度を表すスコアとして算出する処理および、
    前記音楽・背景音判定用特徴パラメータ算出手段で算出された各種の特徴パラメータに対し、あらかじめ学習した音楽・背景音用参照データのパラメータ値に基づく重み係数を付与し、係数を乗じたパラメータ値の総和を音楽・背景音重畳音声信号の確度を表すスコアとして算出する音声・音楽特性スコア算出手段及び音楽・背景音特性スコア算出手段と、
    付与されたスコアに基づいて、前記入力オーディオ信号が音声信号であるか音楽信号であるかを判定し、音楽信号であると判定された場合、前記スコアに基づいて前記入力オーディオ信号が背景音の重畳した音声信号か否かをさらに判定する音声音楽判定手段と、
    をコンピュータに実行させることを特徴とする音声音楽判定用プログラム。
JP2008174698A 2008-07-03 2008-07-03 音声音楽判定装置、音声音楽判定方法及び音声音楽判定用プログラム Expired - Fee Related JP4364288B1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2008174698A JP4364288B1 (ja) 2008-07-03 2008-07-03 音声音楽判定装置、音声音楽判定方法及び音声音楽判定用プログラム
US12/430,763 US7756704B2 (en) 2008-07-03 2009-04-27 Voice/music determining apparatus and method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008174698A JP4364288B1 (ja) 2008-07-03 2008-07-03 音声音楽判定装置、音声音楽判定方法及び音声音楽判定用プログラム

Publications (2)

Publication Number Publication Date
JP4364288B1 JP4364288B1 (ja) 2009-11-11
JP2010014960A true JP2010014960A (ja) 2010-01-21

Family

ID=41393562

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008174698A Expired - Fee Related JP4364288B1 (ja) 2008-07-03 2008-07-03 音声音楽判定装置、音声音楽判定方法及び音声音楽判定用プログラム

Country Status (2)

Country Link
US (1) US7756704B2 (ja)
JP (1) JP4364288B1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8457954B2 (en) 2010-07-28 2013-06-04 Kabushiki Kaisha Toshiba Sound quality control apparatus and sound quality control method
US8837744B2 (en) 2010-09-17 2014-09-16 Kabushiki Kaisha Toshiba Sound quality correcting apparatus and sound quality correcting method
JP2016062544A (ja) * 2014-09-22 2016-04-25 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 情報処理装置、プログラム、及び情報処理方法

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4439579B1 (ja) * 2008-12-24 2010-03-24 株式会社東芝 音質補正装置、音質補正方法及び音質補正用プログラム
JP4621792B2 (ja) * 2009-06-30 2011-01-26 株式会社東芝 音質補正装置、音質補正方法及び音質補正用プログラム
CN102044246B (zh) * 2009-10-15 2012-05-23 华为技术有限公司 一种音频信号检测方法和装置
JP4869420B2 (ja) * 2010-03-25 2012-02-08 株式会社東芝 音情報判定装置、及び音情報判定方法
US9092992B2 (en) 2011-07-14 2015-07-28 Playnote Limited System and method for music education
US9064503B2 (en) * 2012-03-23 2015-06-23 Dolby Laboratories Licensing Corporation Hierarchical active voice detection
WO2015097831A1 (ja) * 2013-12-26 2015-07-02 株式会社東芝 電子機器、制御方法およびプログラム
US9972334B2 (en) 2015-09-10 2018-05-15 Qualcomm Incorporated Decoder audio classification
CN114927141B (zh) * 2022-07-19 2022-10-25 中国人民解放军海军工程大学 异常水声信号的检测方法及系统

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2910417B2 (ja) 1992-06-17 1999-06-23 松下電器産業株式会社 音声音楽判別装置
US6570991B1 (en) * 1996-12-18 2003-05-27 Interval Research Corporation Multi-feature speech/music discrimination system
JP3475317B2 (ja) 1996-12-20 2003-12-08 日本電信電話株式会社 映像分類方法および装置
JP2000066691A (ja) 1998-08-21 2000-03-03 Kdd Corp オーディオ情報分類装置
KR100880480B1 (ko) * 2002-02-21 2009-01-28 엘지전자 주식회사 디지털 오디오 신호의 실시간 음악/음성 식별 방법 및시스템
JP4099576B2 (ja) 2002-09-30 2008-06-11 ソニー株式会社 情報識別装置及び方法、並びにプログラム及び記録媒体
JP3999674B2 (ja) 2003-01-16 2007-10-31 日本電信電話株式会社 類似音声音楽検索装置,類似音声音楽検索プログラムおよびそのプログラムの記録媒体
US7120576B2 (en) * 2004-07-16 2006-10-10 Mindspeed Technologies, Inc. Low-complexity music detection algorithm and system
US7130795B2 (en) * 2004-07-16 2006-10-31 Mindspeed Technologies, Inc. Music detection with low-complexity pitch correlation algorithm
KR100631608B1 (ko) 2004-11-25 2006-10-09 엘지전자 주식회사 음성 판별 방법
US20080033583A1 (en) * 2006-08-03 2008-02-07 Broadcom Corporation Robust Speech/Music Classification for Audio Signals

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8457954B2 (en) 2010-07-28 2013-06-04 Kabushiki Kaisha Toshiba Sound quality control apparatus and sound quality control method
US8837744B2 (en) 2010-09-17 2014-09-16 Kabushiki Kaisha Toshiba Sound quality correcting apparatus and sound quality correcting method
JP2016062544A (ja) * 2014-09-22 2016-04-25 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 情報処理装置、プログラム、及び情報処理方法
US9922292B2 (en) 2014-09-22 2018-03-20 International Business Machines Corporation Information processing apparatus, program, and information processing method
US9928468B2 (en) 2014-09-22 2018-03-27 International Business Machines Corporation Information processing apparatus, program, and information processing method
US10282679B2 (en) 2014-09-22 2019-05-07 International Business Machines Corporation Information processing apparatus, program, and information processing method
US10289964B2 (en) 2014-09-22 2019-05-14 International Business Machines Corporation Information processing apparatus, program, and information processing method
US11907809B2 (en) 2014-09-22 2024-02-20 International Business Machines Corporation Information processing apparatus, program, and information processing method

Also Published As

Publication number Publication date
JP4364288B1 (ja) 2009-11-11
US7756704B2 (en) 2010-07-13
US20100004928A1 (en) 2010-01-07

Similar Documents

Publication Publication Date Title
JP4364288B1 (ja) 音声音楽判定装置、音声音楽判定方法及び音声音楽判定用プログラム
JP4439579B1 (ja) 音質補正装置、音質補正方法及び音質補正用プログラム
JP4327888B1 (ja) 音声音楽判定装置、音声音楽判定方法及び音声音楽判定用プログラム
JP4621792B2 (ja) 音質補正装置、音質補正方法及び音質補正用プログラム
US7844452B2 (en) Sound quality control apparatus, sound quality control method, and sound quality control program
US7467088B2 (en) Closed caption control apparatus and method therefor
JP4837123B1 (ja) 音質制御装置及び音質制御方法
US9756437B2 (en) System and method for transmitting environmental acoustical information in digital audio signals
JP2011065093A (ja) オーディオ信号補正装置及びオーディオ信号補正方法
US8965181B2 (en) Automatic announcer voice attenuation in a presentation of a broadcast event
JP4937393B2 (ja) 音質補正装置及び音声補正方法
JP4709928B1 (ja) 音質補正装置及び音質補正方法
JP5695896B2 (ja) 音質制御装置、音質制御方法及び音質制御用プログラム
JP4760524B2 (ja) コントロール機器、ルーティング検証方法およびルーティング検証プログラム
JP2006295367A (ja) デジタルサラウンドシステム、サーバ装置およびアンプ装置
CN112309419B (zh) 多路音频的降噪、输出方法及其系统
JP3825589B2 (ja) マルチメディア端末機器
JP4886907B2 (ja) オーディオ信号補正装置及びオーディオ信号補正方法
CN113096674B (zh) 一种音频处理方法、装置及电子设备
CN108932953A (zh) 一种音频均衡函数确定方法、音频均衡方法及设备
JP2020118967A (ja) 音声処理装置、データ処理方法及び記憶媒体

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090721

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090818

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120828

Year of fee payment: 3

R151 Written notification of patent or utility model registration

Ref document number: 4364288

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120828

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130828

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees