JP4327888B1 - 音声音楽判定装置、音声音楽判定方法及び音声音楽判定用プログラム - Google Patents

音声音楽判定装置、音声音楽判定方法及び音声音楽判定用プログラム Download PDF

Info

Publication number
JP4327888B1
JP4327888B1 JP2008143647A JP2008143647A JP4327888B1 JP 4327888 B1 JP4327888 B1 JP 4327888B1 JP 2008143647 A JP2008143647 A JP 2008143647A JP 2008143647 A JP2008143647 A JP 2008143647A JP 4327888 B1 JP4327888 B1 JP 4327888B1
Authority
JP
Japan
Prior art keywords
music
characteristic
signal
score
sound
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2008143647A
Other languages
English (en)
Other versions
JP2009288707A (ja
Inventor
裕 米久保
広和 竹内
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2008143647A priority Critical patent/JP4327888B1/ja
Priority to US12/392,911 priority patent/US7856354B2/en
Application granted granted Critical
Publication of JP4327888B1 publication Critical patent/JP4327888B1/ja
Publication of JP2009288707A publication Critical patent/JP2009288707A/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/046Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for differentiation between music and non-music signals, based on the identification of musical parameters, e.g. based on tempo detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

【課題】この発明は、再生すべきオーディオ信号に含まれる音声信号と音楽信号との割合を高い信頼性を持って定量的に判別することを可能とし、ひいては、再生すべきオーディオ信号に対して適切な音質補正処理を施すことに寄与し得る音声音楽判定装置、音声音楽判定方法及び音声音楽判定用プログラムを提供することを目的としている。
【解決手段】入力オーディオ信号から音声と音楽とを判別するための各種の特徴パラメータを算出し、音声及び音楽判定用のしきい値と比較して、音声を示す特徴パラメータに音声特性スコア(Ss)を付与し、音楽を示す特徴パラメータに音楽特性スコア(Sm)を付与する。そして、音声特性スコア(Ss)の総和(Ssall)と音楽特性スコア(Sm)の総和(Small)との差分に基づいて、入力オーディオ信号が音声信号であるか音楽信号であるかを判定する。
【選択図】 図3

Description

この発明は、再生すべきオーディオ(可聴周波数)信号に含まれる音声信号と音楽信号との割合を定量的に判定する音声音楽判定装置、音声音楽判定方法及び音声音楽判定用プログラムに関する。
周知のように、例えばテレビジョン放送を受信する放送受信機器や、情報記録媒体からその記録情報を再生する情報再生機器等にあっては、受信した放送信号や情報記録媒体から読み取った信号等からオーディオ信号を再生する際に、オーディオ信号に音質補正処理を施すことによって、より一層の高音質化を図るようにしている。
この場合、オーディオ信号に施す音質補正処理の内容は、オーディオ信号が人の話し声のような音声信号であるか、楽曲のような音楽(非音声)信号であるかに応じて異なる。すなわち、音声信号に対しては、トークシーンやスポーツ実況等のようにセンター定位成分を強調して明瞭化するように音質補正処理を施す必要があり、音楽信号に対しては、ステレオ感を強調した拡がりのある音質補正処理を施す必要がある。
このため、現在の機器においては、取得したオーディオ信号が音声信号か音楽信号かを判別し、その判別結果に応じて対応する音質補正処理を施すようにしている。しかしながら、実際のオーディオ信号では、音声信号と音楽信号とが混在している場合が多いことから、それらの判別処理が困難になっているため、オーディオ信号に対して適切な音質補正処理が施されているとは言えないのが現状である。
特許文献1には、入力される音響信号の「子音性」、「無音声」及び「パワー変動」が共に所定のしきい値よりも高い場合に音声と判定し、「無音声」及び「パワー変動」が共に所定のしきい値よりも低い場合に音楽と判定し、それ以外の場合は不定と判定するようにした構成が開示されている。
特開平7−13586号公報
そこで、この発明は上記事情を考慮してなされたもので、再生すべきオーディオ信号に含まれる音声信号と音楽信号との割合を高い信頼性を持って定量的に判別することを可能とし、ひいては、再生すべきオーディオ信号に対して適切な音質補正処理を施すことに寄与し得る音声音楽判定装置、音声音楽判定方法及び音声音楽判定用プログラムを提供することを目的とする。
この発明に係る音声音楽判定装置は、入力オーディオ信号から音声信号と音楽信号とを判別するための各種の特徴パラメータを算出する特徴パラメータ算出手段と、特徴パラメータ算出手段で算出された各種の特徴パラメータを、それぞれ音声判定用のしきい値及び音楽判定用のしきい値と比較し、音声と判定された特徴パラメータに音声特性スコアを付与し、音楽と判定された特徴パラメータに音楽特性スコアを付与する音声音楽特性スコア算出手段と、音声音楽特性スコア算出手段で算出された全ての音声特性スコアの総和と全ての音楽特性スコアの総和との差分に基づいて、入力オーディオ信号が音声信号であるか音楽信号であるかを判定する音声音楽判定手段とを備えるようにしたものである。
また、この発明に係る音声音楽判定方法は、入力オーディオ信号を特徴パラメータ算出手段に供給して、音声信号と音楽信号とを判別するための各種の特徴パラメータを算出する工程と、算出された各種の特徴パラメータを音声音楽特性スコア算出手段に供給して、音声判定用のしきい値及び音楽判定用のしきい値とそれぞれ比較し、音声と判定された特徴パラメータに音声特性スコアを付与し、音楽と判定された特徴パラメータに音楽特性スコアを付与する工程と、付与された全ての音声特性スコア及び音楽特性スコアを音声音楽判定手段に供給して、全ての音声特性スコアの総和と全ての音楽特性スコアの総和との差分に基づいて、入力オーディオ信号が音声信号であるか音楽信号であるかを判定する工程とを有するようにしたものである。
さらに、この発明に係る音声音楽判定用プログラムは、入力オーディオ信号から音声信号と音楽信号とを判別するための各種の特徴パラメータを算出する処理を、コンピュータに実行させるための特徴パラメータ算出手段と、特徴パラメータ算出手段で算出された各種の特徴パラメータを、それぞれ音声判定用のしきい値及び音楽判定用のしきい値と比較し、音声と判定された特徴パラメータに音声特性スコアを付与し、音楽と判定された特徴パラメータに音楽特性スコアを付与する処理を、コンピュータに実行させるための音声音楽特性スコア算出手段と、音声音楽特性スコア算出手段で算出された全ての音声特性スコアの総和と全ての音楽特性スコアの総和との差分に基づいて、入力オーディオ信号が音声信号であるか音楽信号であるかを判定する処理を、コンピュータに実行させるための音声音楽判定手段とを備えるようにしたものである。
上記した発明によれば、音声と音楽とを判別するための各種の特徴パラメータを音声及び音楽判定用のしきい値とそれぞれ比較して音声または音楽特性スコアを付与し、音声特性スコアの総和と音楽特性スコアの総和との差分に基づいて、入力オーディオ信号が音声信号であるか音楽信号であるかを判定するようにしたので、再生すべきオーディオ信号に含まれる音声信号と音楽信号との割合を高い信頼性を持って定量的に判別することを可能とし、ひいては、再生すべきオーディオ信号に対して適切な音質補正処理を施すことに寄与させることができる。
以下、この発明の実施の形態について図面を参照して詳細に説明する。図1は、この実施の形態で説明するデジタルテレビジョン放送受信装置11の外観と、このデジタルテレビジョン放送受信装置11を中心として構成されるネットワークシステムの一例とを概略的に示している。
すなわち、デジタルテレビジョン放送受信装置11は、主として、薄型のキャビネット12と、このキャビネット12を起立させて支持する支持台13とから構成されている。そして、このキャビネット12には、例えばSED(surface-conduction electron-emitter display)表示パネルまたは液晶表示パネル等でなる平面パネル型の映像表示器14、一対のスピーカ15,15、操作部16、リモートコントローラ17から送信される操作情報を受ける受光部18等が設置されている。
また、このデジタルテレビジョン放送受信装置11には、例えばSD(secure digital)メモリカード、MMC(multimedia card)及びメモリスティック等の第1のメモリカード19が着脱可能となっており、この第1のメモリカード19に対して番組や写真等の情報の記録再生が行なわれるようになっている。
さらに、このデジタルテレビジョン放送受信装置11には、例えば契約情報等の記録された第2のメモリカード[IC(integrated circuit)カード等]20が着脱可能となっており、この第2のメモリカード20に対して情報の記録再生が行なわれるようになっている。
また、このデジタルテレビジョン放送受信装置11は、第1のLAN(local area network)端子21、第2のLAN端子22、USB(universal serial bus)端子23及びIEEE(institute of electrical and electronics engineers)1394端子24を備えている。
このうち、第1のLAN端子21は、LAN対応HDD(hard disk drive)専用ポートとして使用される。すなわち、この第1のLAN端子21は、それに接続されたNAS(network attached storage)であるLAN対応のHDD25に対して、イーサネット(登録商標)により情報の記録再生を行なうために使用される。
このように、デジタルテレビジョン放送受信装置11にLAN対応HDD専用ポートとしての第1のLAN端子21を設けることにより、他のネットワーク環境やネットワーク使用状況等に影響されることなく、HDD25に対してハイビジョン画質による放送番組の情報記録を安定して行なうことができる。
また、第2のLAN端子22は、イーサネット(登録商標)を用いた一般的なLAN対応ポートとして使用される。すなわち、この第2のLAN端子22は、ハブ26を介して、LAN対応のHDD27、PC(personal computer)28、HDD内蔵のDVD(digital versatile disk)レコーダ29等の機器を接続して、例えば家庭内ネットワークを構築し、これらの機器と情報伝送を行なうために使用される。
この場合、PC28及びDVDレコーダ29については、それぞれ、家庭内ネットワークにおいてコンテンツのサーバ機器として動作するための機能を持ち、さらにコンテンツのアクセスに必要なURI(uniform resource identifier)情報を提供するサービスを備えたUPnP(universal plug and play)対応機器として構成される。
なお、DVDレコーダ29については、第2のLAN端子22を介して通信されるデジタル情報が制御系のみの情報であるため、デジタルテレビジョン放送受信装置11との間でアナログの映像及びオーディオ情報を伝送するために、専用のアナログ伝送路30が設けられている。
さらに、この第2のLAN端子22は、ハブ26に接続されたブロードバンドルータ31を介して、例えばインターネット等の外部のネットワーク32に接続される。そして、この第2のLAN端子22は、ネットワーク32を介してPC33や携帯電話34等と情報伝送を行なうためにも使用される。
また、上記USB端子23は、一般的なUSB対応ポートとして使用されるもので、例えばハブ35を介して、携帯電話36、デジタルカメラ37、メモリカードに対するカードリーダ/ライタ38、HDD39、キーボード40等のUSB機器を接続し、これらのUSB機器と情報伝送を行なうために使用される。
さらに、上記IEEE1394端子24は、例えばAV−HDD41及びD(digital)−VHS(video home system)42等のような複数の情報記録再生機器をシリアル接続し、各機器と選択的に情報伝送を行なうために使用される。
図2は、上記したデジタルテレビジョン放送受信装置11の主要な信号処理系を示している。すなわち、BS/CS(broadcasting satellite/communication satellite)デジタル放送受信用のアンテナ43で受信した衛星デジタルテレビジョン放送信号は、入力端子44を介して衛星デジタル放送用のチューナ45に供給されることにより、所望のチャンネルの放送信号が選局される。
そして、このチューナ45で選局された放送信号は、PSK(phase shift keying)復調器46及びTS(transport stream)復号器47に順次供給されることにより、デジタルの映像信号及びオーディオ信号に復調された後、信号処理部48に出力される。
また、地上波放送受信用のアンテナ49で受信した地上デジタルテレビジョン放送信号は、入力端子50を介して地上デジタル放送用のチューナ51に供給されることにより、所望のチャンネルの放送信号が選局される。
そして、このチューナ51で選局された放送信号は、例えば日本ではOFDM(orthogonal frequency division multiplexing)復調器52及びTS復号器53に順次供給されることにより、デジタルの映像信号及びオーディオ信号に復調された後、上記信号処理部48に出力される。
また、上記地上波放送受信用のアンテナ49で受信した地上アナログテレビジョン放送信号は、入力端子50を介して地上アナログ放送用のチューナ54に供給されることにより、所望のチャンネルの放送信号が選局される。そして、このチューナ54で選局された放送信号は、アナログ復調器55に供給されてアナログの映像信号及びオーディオ信号に復調された後、上記信号処理部48に出力される。
ここで、上記信号処理部48は、TS復号器47,53からそれぞれ供給されたデジタルの映像信号及びオーディオ信号に対して、選択的に所定のデジタル信号処理を施し、グラフィック処理部56及びオーディオ処理部57に出力している。
また、上記信号処理部48には、複数(図示の場合は4つ)の入力端子58a,58b,58c,58dが接続されている。これら入力端子58a〜58dは、それぞれ、アナログの映像信号及びオーディオ信号を、デジタルテレビジョン放送受信装置11の外部から入力可能とするものである。
信号処理部48は、上記アナログ復調器55及び各入力端子58a〜58dからそれぞれ供給されたアナログの映像信号及びオーディオ信号を選択的にデジタル化し、このデジタル化された映像信号及びオーディオ信号に対して所定のデジタル信号処理を施した後、グラフィック処理部56及びオーディオ処理部57に出力する。
グラフィック処理部56は、信号処理部48から供給されるデジタルの映像信号に、OSD(on screen display)信号生成部59で生成されるOSD信号を重畳して出力する機能を有する。このグラフィック処理部56は、信号処理部48の出力映像信号と、OSD信号生成部59の出力OSD信号とを選択的に出力すること、また、両出力をそれぞれ画面の半分を構成するように組み合わせて出力することができる。
グラフィック処理部56から出力されたデジタルの映像信号は、映像処理部60に供給される。この映像処理部60は、入力されたデジタルの映像信号を、前記映像表示器14で表示可能なフォーマットのアナログ映像信号に変換した後、映像表示器14に出力して映像表示させるとともに、出力端子61を介して外部に導出させる。
また、上記オーディオ処理部57は、入力されたデジタルのオーディオ信号に対して、後述する音質補正処理を施した後、前記スピーカ15で再生可能なフォーマットのアナログオーディオ信号に変換している。そして、このアナログオーディオ信号は、スピーカ15に出力されてオーディオ再生に供されるとともに、出力端子62を介して外部に導出される。
ここで、このデジタルテレビジョン放送受信装置11は、上記した各種の受信動作を含むその全ての動作を制御部63によって統括的に制御されている。この制御部63は、CPU(central processing unit)64を内蔵しており、前記操作部16からの操作情報、または、リモートコントローラ17から送出され前記受光部18に受信された操作情報を受けて、その操作内容が反映されるように各部をそれぞれ制御している。
この場合、制御部63は、主として、そのCPU64が実行する制御プログラムを格納したROM(read only memory)65と、該CPU64に作業エリアを提供するRAM(random access memory)66と、各種の設定情報及び制御情報等が格納される不揮発性メモリ67とを利用している。
また、この制御部63は、カードI/F(interface)68を介して、前記第1のメモリカード19が装着可能なカードホルダ69に接続されている。これによって、制御部63は、カードホルダ69に装着された第1のメモリカード19と、カードI/F68を介して情報伝送を行なうことができる。
さらに、上記制御部63は、カードI/F70を介して、前記第2のメモリカード20が装着可能なカードホルダ71に接続されている。これにより、制御部63は、カードホルダ71に装着された第2のメモリカード20と、カードI/F70を介して情報伝送を行なうことができる。
また、上記制御部63は、通信I/F72を介して第1のLAN端子21に接続されている。これにより、制御部63は、第1のLAN端子21に接続されたLAN対応のHDD25と、通信I/F72を介して情報伝送を行なうことができる。この場合、制御部63は、DHCP(dynamic host configuration protocol)サーバ機能を有し、第1のLAN端子21に接続されたLAN対応のHDD25にIP(internet protocol)アドレスを割り当てて制御している。
さらに、上記制御部63は、通信I/F73を介して第2のLAN端子22に接続されている。これにより、制御部63は、第2のLAN端子22に接続された各機器(図1参照)と、通信I/F73を介して情報伝送を行なうことができる。
また、上記制御部63は、USB I/F74を介して前記USB端子23に接続されている。これにより、制御部63は、USB端子23に接続された各機器(図1参照)と、USB I/F74を介して情報伝送を行なうことができる。
さらに、上記制御部63は、IEEE1394 I/F75を介してIEEE1394端子24に接続されている。これにより、制御部63は、IEEE1394端子24に接続された各機器(図1参照)と、IEEE1394 I/F75を介して情報伝送を行なうことができる。
図3は、上記オーディオ処理部57内に備えられる音質補正処理部76を示している。この音質補正処理部76では、入力端子77に供給された、例えばPCM(pulse code modulation)信号でなるオーディオ信号が、オーディオ補正処理部78及び特徴パラメータ算出部79にそれぞれ供給されている。
このうち、特徴パラメータ算出部79では、入力されたオーディオ信号を、複数(図示の場合はn個)のパラメータ値算出部801,802,803,804,……,80nにそれぞれ供給している。これらのパラメータ値算出部801〜80nでは、それぞれ、入力されたオーディオ信号から音声信号と音楽信号とを判別するための特徴パラメータを算出している。
すなわち、各パラメータ値算出部801〜80nでは、それぞれ、入力されたオーディオ信号を、図4(a)に示すように、数100msec程度のフレーム単位に切り出し、さらに、図4(b)に示すように、各フレームを数10msec程度のサブフレーム単位に分割する。
そして、各パラメータ値算出部801〜80nでは、それぞれ、サブフレーム単位で、オーディオ信号から音声信号と音楽信号とを判別するための判別情報を算出し、その判別情報に対してフレーム単位での平均・分散等の統計量を求めることにより、特徴パラメータを生成している。
例えば、パラメータ値算出部801では、サブフレーム単位で入力オーディオ信号の信号振幅の二乗和であるパワー値を判別情報として算出し、それに対するフレーム単位での平均・分散等の統計量を求めることにより、特徴パラメータpwを生成している。
また、パラメータ値算出部802では、サブフレーム単位で入力オーディオ信号の時間波形が振幅方向に零を横切る回数である零交差周波数を判別情報として算出し、それに対するフレーム単位での平均・分散等の統計量を求めることにより、特徴パラメータzcを生成している。
さらに、パラメータ値算出部803では、サブフレーム単位で入力オーディオ信号における2チャンネルステレオの左右(LR)信号のパワー比(LRパワー比)を判別情報として算出し、それに対するフレーム単位での平均・分散等の統計量を求めることにより、特徴パラメータlrを生成している。
図5は、上記した特徴パラメータ算出部79が入力オーディオ信号から音声信号と音楽信号とを判別するための各種の特徴パラメータを生成する処理動作をまとめたフローチャートを示している。すなわち、処理が開始(ステップS5a)されると、特徴パラメータ算出部79は、ステップS5bで、各パラメータ算出部801〜80nにより、入力オーディオ信号から数10msec程度のサブフレームを抽出する。
そして、特徴パラメータ算出部79は、ステップS5cで、パラメータ値算出部801により、入力オーディオ信号からサブフレーム単位でのパワーを算出し、ステップS5dで、パラメータ値算出部802により、入力オーディオ信号からサブフレーム単位での零交差周波数を算出し、ステップS5eで、パラメータ値算出部803により、入力オーディオ信号からサブフレーム単位でのLRパワー比を算出する。
同様に、特徴パラメータ算出部79は、ステップS5fで、他のパラメータ値算出部804〜80nにより、それぞれ、入力オーディオ信号からサブフレーム単位での他の判別情報を算出する。その後、特徴パラメータ算出部79は、ステップS5gで、各パラメータ算出部801〜80nにより、入力オーディオ信号から数100msec程度のフレームを抽出する。
そして、特徴パラメータ算出部79は、ステップS5hで、各パラメータ算出部801〜80nにより、サブフレーム単位で算出した判別情報に対してフレーム単位での平均・分散等の統計量を求めることにより特徴パラメータを生成し、処理を終了(ステップS5i)する。
上記のようにして、特徴パラメータ算出部79の各パラメータ値算出部801〜80nで生成された特徴パラメータは、特性スコア制御部81に、各パラメータ値算出部801〜80nにそれぞれ対応して設けられている音声音楽特性スコア算出部821,822,823,824〜82nに供給される。
これらの音声音楽特性スコア算出部821〜82nでは、それぞれ、対応するパラメータ算出部801〜80nから供給された特徴パラメータに基づいて、入力端子77に供給されたオーディオ信号が、スピーチのような音声信号の特性に近いか、音楽(楽曲)信号の特性に近いか否かを定量的に示すスコアSを算出している。
例えば、上記したパワー変動に対応した特徴パラメータpwが供給される音声音楽特性スコア算出部821について説明すると、パワー変動に関して言えば、一般に、音声は、発話している区間と沈黙している区間とが交互に現れるため、サブフレーム間での信号パワーの違いが大きくなり、フレーム単位で見ると各サブフレーム間のパワー値の分散が大きくなる傾向にある。なお、ここでパワー変動とは、サブフレームにおいて計算したパワー値について、より長いフレーム区間内で値の変動に着目した特徴量を指し、具体的にはパワーの分散値などを用いる。
このため、音声音楽特性スコア算出部821では、パワー変動の特徴パラメータpwが、予め設定された上限しきい値thUpPwを超える場合に、音声信号である可能性が高いと判断して音声特性スコアSspを加算し、パワー変動の特徴パラメータpwが、予め設定された下限しきい値thLowPwよりも小さくなる場合に、音楽信号である可能性が高いと判断して音楽特性スコアSmpを加算する。
また、上記した零交差周波数に対応した特徴パラメータzcが供給される音声音楽特性スコア算出部822について説明すると、零交差周波数に関して言えば、前述した発話区間と沈黙区間との違いに加えて、音声信号は零交差周波数が子音では高く母音では低くなるため、フレーム単位で見ると各サブフレーム間の零交差周波数の分散が大きくなる傾向にある。
このため、音声音楽特性スコア算出部822では、零交差周波数の特徴パラメータzcが、予め設定された上限しきい値thUpZcを超える場合に、音声信号である可能性が高いと判断して音声特性スコアSszを加算し、零交差周波数の特徴パラメータzcが、予め設定された下限しきい値thLowZcよりも小さくなる場合に、音楽信号である可能性が高いと判断して音楽特性スコアSmzを加算する。
さらに、上記したLRパワー比に対応した特徴パラメータlrが供給される音声音楽特性スコア算出部823について説明すると、LRパワー比に関して言えば、音楽信号では、ボーカル以外の楽器演奏がセンター以外に定位していることが多いため、左右のチャンネル間のパワー比が大きくなる傾向にある。
このため、音声音楽特性スコア算出部823では、LRパワー比の特徴パラメータlrが、予め設定された上限しきい値thUpLRを超える場合に、音楽信号である可能性が高いと判断して音楽特性スコアSmlrを加算し、LRパワー比の特徴パラメータlrが、予め設定された下限しきい値thLowLRよりも小さくなる場合に、音声信号である可能性が高いと判断して音声特性スコアSslrを加算する。
具体的に言えば、図6(a)は、横軸の時間tに対して、縦軸にパワー変動の特徴パラメータpwを示しており、図6(b)は、横軸の時間tに対して、縦軸に零交差周波数の特徴パラメータzcを示している。なお、図6(a),(b)において、波形を構成する点は、あるサブフレーム時点における特徴パラメータ値を示している。また、実際上、時刻tm以前の区間が音声信号であり、時刻tm以降の区間が音楽信号であるとする。
すると、時刻t1でパワー変動の特徴パラメータpwが上限しきい値thUpPwを超え、それ以降において上限しきい値thUpPwを超えている領域S1では、音声特性スコアSspが加算される。同様に、時刻t2で零交差周波数の特徴パラメータzcが上限しきい値thUpZcを超え、それ以降において上限しきい値thUpZcを超えている領域S2では、音声特性スコアSszが加算される。
このような場合、特徴パラメータpwが上限しきい値thUpPwを超えている領域S1と、特徴パラメータzcが上限しきい値thUpZcを超えている領域S2との、どちらの領域においても、もし他の特徴パラメータによるスコアがないとすれば、音声特性スコア>音楽特性スコアとなり、音声信号であると判定される。
また、時刻t1以降で、上限しきい値thUpPw,thUpZcと下限しきい値thLowPw,thLowZcとの間に存在する特徴パラメータpw,zcについては、中立の立場となって判定に供されない。このように、判定が不定である場合は、その直前に判定した結果と同一であるとみなすようにしているため、中立の立場にある特徴パラメータに対して無理にスコア判定を行なう必要はない。このため、時刻t1以降は、図6(c)に示すように、音声信号と判定される。
その後、時刻t3において零交差周波数の特徴パラメータzcが下限しきい値thLowZcよりも小さいなり、それ以降において下限しきい値thLowZcよりも小さくなっている領域S3では、音楽特性スコアSmzが加算される。このため、もし他の特徴パラメータによるスコアがないとすれば、音声特性スコア<音楽特性スコアとなり、時刻t3以降は、図6(c)に示すように、音楽信号と判定される。
以上がスコアによる判定の基本動作となる。ここで、図7を参照して多元パラメータによる判定の安定性について説明する。図7(a)は、横軸の時間tに対して、縦軸にパワー変動の特徴パラメータpwを示しており、図7(b)は、横軸の時間tに対して、縦軸にLRパワー比の特徴パラメータlrを示している。なお、図7(a),(b)において、波形を構成する点は、あるサブフレーム時点における特徴パラメータ値を示している。また、実際上、時刻tm以前の区間が音声信号であり、時刻tm以降の区間が音楽信号であるとする。
すなわち、単体の特徴パラメータpwのみに着目すると、上限しきい値thUpPw及び下限しきい値thLowPwをそれぞれ特徴パラメータpwのピーク値に近いレンジに設定しても、誤判定が生じる。例えば、時刻t4では、実際のオーディオ信号は音楽信号となっているが、パワー変動の特徴パラメータpwが局所的に上限しきい値thUpPwを超える程度に大きくなっている。この場合、音声特性スコアSspが加算されるので、パワー変動のみに着目すると音声信号と判定されてしまうことになる。
また、時刻t4において、零交差周波数の特徴パラメータzcが上限しきい値thUpZcを超えておらず、かつ、下限しきい値thLowZcよりも小さくなっていない中立の値であるとすると、結局、音声特性スコアSspに対して音楽特性スコアSmpは0のままとなる。
そこで、この実施の形態では、図7(b)に示したように、さらなる別の特徴パラメータlrを採用している。一般に、音声信号では音がセンター寄りに定位するのに対し、音楽信号では様々な楽音がセンター以外に定位され、左右チャンネルの信号成分の差が大きくなっている。
この性質により、LRパワー比の特徴パラメータlrは、上限しきい値thUpLRを超えると音楽特性スコアSmlrが加算され、下限しきい値thLowLRよりも小さくなると音声特性スコアSslrが加算される。これにより、図7(b)に示すように、時刻t5以降において、LRパワー比の特徴パラメータlrが上限しきい値thUpLRを超え、その後、所定の時間以上、上限しきい値thUpZcを超えている領域S4では、音楽特性スコアSmlrが音声特性スコアSspよりも大きくなり、時刻t4におけるパワー変動の特徴パラメータpwによる瞬時的な誤判定要因がカバーされることになる。
このように、多数の特徴パラメータそれぞれをスコア付けすることにより、ある特徴パラメータが局所的に誤った判定結果を促す値となったとしても、それを別の特徴パラメータで吸収して正しい判定結果を得ることができる。
ここで、上記のようなスコアによる判定を行なう際、特徴パラメータに対してその特性に応じた重み付けを行なうことで、より誤判定に対する耐性を強化することができる。例えば、もし他にスコア寄与がない場合、Smlr=Sspであれば誤判定要因はカバーされるが、他に零交差周波数の特徴パラメータzcの瞬時的な値が上限しきい値thUpZcを超えることで音声特性スコアSszが加算されたとすると、Smlr<Ssp+Sszとなり誤判定が起こることになる。
このことを考慮して、スコアに重みをもたせるようにする。例えば、パワー変動や零交差周波数の特徴パラメータpw,zcの場合は、音声信号と音楽信号との判定が明確に現れないケースが多く、上限及び下限のしきい値設定が相対的に難しいため、これらの特徴パラメータpw,zcから得られるスコアSsp,Ssz,Smp,Smzには低めの点数をつける。
一方、LRパワー比のような特徴パラメータlrの場合、音楽信号は、通常のスピーチ等と比べると左右チャンネル差成分が極端に大きく、音声信号と音楽信号とを明確に判定することができるので、この特徴パラメータlrから得られるスコアSslr,Smlrには高めの点数をつける。このように、スコアに対する重みの与え方としては、音声信号と音楽信号とで値が明確に分かれ易い特徴パラメータであるほど、配点が大きくなるように調整している。
上記のようにして、各音声音楽特性スコア算出部821〜82nでそれぞれ生成されたスコアは、特性スコア制御部81内の相乗効果スコア算出部83に供給される。この相乗効果スコア算出部83は、上記のように重み付けの付されたスコアを得た後、そのスコアに対して、各特徴パラメータ間の相互作用を加味したスコアを上乗せしている。
すなわち、この相乗効果スコア算出部83では、n個の特徴パラメータから相互に関連性を有する特徴パラメータの組をmセット取り出し、各セットにおける全ての特徴パラメータが音声用のしきい値をクリアしていれば、各音声音楽特性スコア算出部821〜82nから供給される音声特性スコアSsにさらに点数を加算する。また、各セットにおける全ての特徴パラメータが音楽用のしきい値をクリアしていれば、各音声音楽特性スコア算出部821〜82nから供給される音楽特性スコアSmにさらに点数を加算する。
例として、特徴パラメータparam1,param2があり、それぞれしきい値判定を行なった結果、音声特性スコアSsが、特徴パラメータparam1に基づいてα点付与され、特徴パラメータparam2に基づいてβ点付与されたとする。
ここでもし、特徴パラメータparam1の値とparam2の値とに相互関連性が存在する場合(例えば、無音フレーム割合が一定以上高く、かつ、パワー変動が一定以上大きい場合、発話における語間の無音性という同一の現象が別々の指標に現れており、これらの特徴パラメータは相互に連動していると言える)、各特徴パラメータ単体によるスコアα、β点に加えて、それらの相乗効果を加味したスコアγを上乗せする。つまり、各特徴パラメータparam1,2による音声特性スコアSsへの寄与は、α+β+γ点となる。
このように、特徴パラメータの相互関連性を加味してスコアの上乗せを行なうことにより、多元パラメータによる音声音楽の判定精度をより一層高めることが可能となる。すなわち、この実施の形態では、まず、各々の特徴パラメータについて独立してスコアに重み付けを行ない、その後、特徴パラメータの相乗効果を加味したスコアを上乗せするため、判定条件に自由度を持たせつつ、特徴パラメータ間の相互関連性を考慮した判定を行なうことが可能である。
また、特徴パラメータのセットの取り方、つまり、どの特徴パラメータ同士の組み合わせが相互関連性を有するかを選定するに際しては、上述したような、発話における語間の無音性という同一の指標に対応した特徴パラメータを主観的に選定する方法でも良いし、または、各特徴パラメータ相互間の相関係数を計算し、相関係数が1に近い組み合わせを客観的に選定する方法でも良い。
以上のことと関連したこの実施の形態の大きな利点としては、特徴パラメータを簡単に追加し検出精度を向上することができることである。この実施の形態で示す方式では、前述のように、まず、個々の特徴パラメータを用いて独立にスコアを設定し、その後に相乗効果を考慮した点数をスコアに加算するので、特徴パラメータの追加や各しきい値の設定を容易に行なうことが可能となる。
図8及び図9は、上記した特性スコア制御部81が、入力された各特徴パラメータからスコアを設定し、そのスコアに特徴パラメータ間の相互関連性を考慮した点数を付加する処理動作をまとめたフローチャートを示している。
すなわち、処理が開始(ステップS8a)されると、特性スコア制御部81は、ステップS8bで、音声音楽特性スコア算出部821により、パラメータ値算出部801から供給された特徴パラメータpwが、上限しきい値thUpPwを超えている(pw>thUpPw)か否かを判別する。そして、超えていると判断された場合(YES)、音声音楽特性スコア算出部821は、ステップS8cで、音声特性スコアSspを加算する。
また、上記ステップS8bで特徴パラメータpwが上限しきい値thUpPwを超えていないと判断された場合(NO)、特性スコア制御部81は、ステップS8dで、音声音楽特性スコア算出部821により、パラメータ値算出部801から供給された特徴パラメータpwが、下限しきい値thLowPwよりも小さい(pw<thLowPw)か否かを判別する。そして、小さいと判断された場合(YES)、音声音楽特性スコア算出部821は、ステップS8eで、音楽特性スコアSmpを加算する。
そして、上記ステップS8cまたはステップS8eの後、あるいは、上記ステップS8dで特徴パラメータpwが下限しきい値thLowPwよりも小さくないと判断された場合(NO)、特性スコア制御部81は、ステップS8fで、音声音楽特性スコア算出部822により、パラメータ値算出部802から供給された特徴パラメータzcが、上限しきい値thUpZcを超えている(zc>thUpZc)か否かを判別する。そして、超えていると判断された場合(YES)、音声音楽特性スコア算出部822は、ステップS8gで、音声特性スコアSszを加算する。
また、上記ステップS8fで特徴パラメータzcが上限しきい値thUpZcを超えていないと判断された場合(NO)、特性スコア制御部81は、ステップS8hで、音声音楽特性スコア算出部822により、パラメータ値算出部802から供給された特徴パラメータzcが、下限しきい値thLowZcよりも小さい(zc<thLowZc)か否かを判別する。そして、小さいと判断された場合(YES)、音声音楽特性スコア算出部822は、ステップS8iで、音楽特性スコアSmzを加算する。
そして、上記ステップS8gまたはステップS8iの後、あるいは、上記ステップS8hで特徴パラメータzcが下限しきい値thLowZcよりも小さくないと判断された場合(NO)、特性スコア制御部81は、ステップS8jで、音声音楽特性スコア算出部823により、パラメータ値算出部803から供給された特徴パラメータlrが、上限しきい値thUpLRを超えている(lr>thUpLR)か否かを判別する。そして、超えていると判断された場合(YES)、音声音楽特性スコア算出部823は、ステップS8kで、音楽特性スコアSmlrを加算する。
また、上記ステップS8jで特徴パラメータlrが上限しきい値thUpLRを超えていないと判断された場合(NO)、特性スコア制御部81は、ステップS8lで、音声音楽特性スコア算出部823により、パラメータ値算出部803から供給された特徴パラメータlrが、下限しきい値thLowLRよりも小さい(lr<thLowLR)か否かを判別する。そして、小さいと判断された場合(YES)、音声音楽特性スコア算出部823は、ステップS8mで、音声特性スコアSslrを加算する。
そして、上記ステップS8kまたはステップS8mの後、あるいは、上記ステップS8lで特徴パラメータlrが下限しきい値thLowLRよりも小さくないと判断された場合(NO)、特性スコア制御部81は、ステップS9aで、他の音声音楽特性スコア算出部824〜82nにより、パラメータ値算出部804〜80nから供給された特徴パラメータに対して、それぞれ、上限及び下限しきい値との比較と、その比較結果に基づくスコアの付与とを実行する。
その後、特性スコア制御部81は、ステップS9bで、相乗効果スコア算出部83により、相互に関連性のある特徴パラメータの組をmセット取り出し、ステップS9cで、セット番号i=1とする。そして、特性スコア制御部81は、ステップS9dで、相乗効果スコア算出部83により、セット番号iの組の全ての特徴パラメータが音声判定用に設定されているしきい値をクリアしている、つまり、セット番号iの組の全ての特徴パラメータに対して音声特性スコアが付与されているか否かを判別する。ここで、付与されていると判断された場合(YES)、特性スコア制御部81は、ステップS9eで、相乗効果スコア算出部83により、新たに付加すべき音声特性スコアSsiを生成する。
また、上記ステップS9dでセット番号iの組の全ての特徴パラメータに対して音声特性スコアが付与されていないと判断された場合(NO)、特性スコア制御部81は、ステップS9fで、相乗効果スコア算出部83により、セット番号iの組の全ての特徴パラメータが音楽判定用に設定されているしきい値をクリアしている、つまり、セット番号iの組の全ての特徴パラメータに対して音楽特性スコアが付与されているか否かを判別する。ここで、付与されていると判断された場合(YES)、特性スコア制御部81は、ステップS9gで、相乗効果スコア算出部83により、新たに付加すべき音楽特性スコアSmiを生成する。
そして、上記ステップS9eまたはステップS9gの後、あるいは、上記ステップS9fでセット番号iの組の全ての特徴パラメータに対して音楽特性スコアが付与されていないと判断された場合(NO)、特性スコア制御部81は、ステップS9hで、相乗効果スコア算出部83により、セット番号iがセット数であるmよりも多くなったか否かを判別して、i>mでないと判断された場合(NO)、ステップS9iで、セット番号iを+1してステップS9dの処理に戻され、i>mであると判断された場合(YES)、処理を終了(ステップS9j)する。
上記のようにして、特性スコア制御部81の各音声音楽特性スコア算出部821〜82n及び相乗効果スコア算出部83で生成された各スコアは、音声音楽判定部84に供給される。この音声音楽判定部84は、入力された音声特性スコアSs及び音楽特性スコアSmのそれぞれの総スコアを算出し、算出されたそれぞれの総スコアに基づいて音声信号か音楽信号かを判定する。
この判定については、音声特性スコアSsの総スコアと音楽特性スコアSmの総スコアとを比較し、単純に総スコアが大きい方のカテゴリを選択することが考えられ。また、音声及び音楽の総スコアから、音声及び音楽信号であると推定できる度合い算出し、その度合いを示す情報を出力するようにしても良いものである。
さらに、音声及び音楽の総スコアを比較するに際して、判定にマージンを設けるようにしても良い。例えば、音楽と音声の総スコアが予め設定されたX点以上離れていれば、総スコアの高いカテゴリを最終結果として採用するが、X点未満であれば、スコア差が十分に開いておらず、音楽と音声とが明確に区別し難い信号状態であるとみなす。
この場合、判定は意図的に保留し、最後にX点以上のスコアマージンが得られた過去の信号分類結果を継続して採用する。このようにすれば、使用する特徴パラメータでは信号状態が判然としない区間(音楽と音声の総スコアが拮抗するために、特徴パラメータの瞬時的な変動を受けて総スコアの大小が反転し易い)において、誤検出の発生を抑制することができる。
図10は、上記した音声音楽判定部84が、特性スコア制御部81から供給された各音声特性スコアSsと各音楽特性スコアSmとのそれぞれの総スコアを算出し、両総スコアに基づいて音声信号と音楽信号とを判定する処理動作をまとめたフローチャートを示している。
すなわち、処理が開始(ステップS10a)されると、音声音楽判定部84は、ステップS10bで、特性スコア制御部81により音声信号カテゴリに対して付与された全ての音声特性スコアの総和Ssall(=Ssp+Ssz+Sslr+……+Ssi)を算出する。ただし、音声特性スコアSsiは、i=1〜mである。
また、音声音楽判定部84は、ステップS10cで、特性スコア制御部81により音楽信号カテゴリに対して付与された全ての音楽特性スコアの総和Small(=Smp+Smz+Smlr+……+Smi)を算出する。ただし、音楽特性スコアSmiは、i=1〜mである。
そして、音声音楽判定部84は、ステップS10dで、音声特性スコアSsallから音楽特性スコアSmallを減算した値が予め設定された点数X以上である(Ssall−Small≧X)か否かを判別し、Ssall−Small≧Xであると判断された場合(YES)、ステップS10eで、現在のオーディオ信号フレームの属するカテゴリは音声であると判定し、処理を終了(ステップS10f)する。
また、上記ステップS10dでSsall−Small≧Xでないと判断された場合(NO)、音声音楽判定部84は、ステップS10gで、音楽特性スコアSmallから音声特性スコアSsallを減算した値が予め設定された点数X以上である(Small−Ssall≧X)か否かを判別し、Small−Ssall≧Xであると判断された場合(YES)、ステップS10hで、現在のオーディオ信号フレームの属するカテゴリは音楽であると判定し、処理を終了(ステップS10f)する。
さらに、上記ステップS10gでSmall−Ssall≧Xでないと判断された場合(NO)、音声音楽判定部84は、ステップS10iで、現在のオーディオ信号フレームの属するカテゴリの判定を保留し、最後にSsall−Small≧XまたはSmall−Ssall≧Xとなったときの判定結果を継続して採用して、処理を終了(ステップS10f)する。
上記のようにして、音声音楽判定部84で判定された結果は、上記オーディオ補正処理部78に供給される。このオーディオ補正処理部78は、入力端子77に供給されたオーディオ信号に対して、音声音楽判定部84での判定結果に基づいた音質補正処理を施し、出力端子85から外部に出力している。
すなわち、このオーディオ補正処理部78は、音声音楽判定部84での判定結果が音声である場合、入力オーディオ信号に対してセンター定位成分を強調して明瞭化するように音質補正処理を施し、音声音楽判定部84での判定結果が音楽である場合、入力オーディオ信号に対してステレオ感を強調した拡がりのある音質補正処理を施すように機能する。
なお、この発明は上記した実施の形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を種々変形して具体化することができる。また、上記した実施の形態に開示されている複数の構成要素を適宜に組み合わせることにより、種々の発明を形成することができる。例えば、実施の形態に示される全構成要素から幾つかの構成要素を削除しても良いものである。さらに、異なる実施の形態に係る構成要素を適宜組み合わせても良いものである。
この発明の実施の形態を示すもので、デジタルテレビジョン放送受信装置とそれを中心としたネットワークシステムの一例とを概略的に説明するために示す図。 同実施の形態におけるデジタルテレビジョン放送受信装置の主要な信号処理系を説明するために示すブロック構成図。 同実施の形態におけるデジタルテレビジョン放送受信装置のオーディオ処理部に含まれる音質補正処理部を説明するために示すブロック構成図。 同実施の形態における音質補正処理部に含まれる特徴パラメータ算出部の動作を説明するために示す図。 同実施の形態における特徴パラメータ算出部図行なう動作を説明するために示すフローチャート。 同実施の形態における音質補正処理部に含まれる特性スコア制御部の動作を説明するために示す図。 同実施の形態における音質補正処理部に含まれる特性スコア制御部の他の動作を説明するために示す図。 同実施の形態における特性スコア制御部が行なう動作の一部を説明するために示すフローチャート。 同実施の形態における特性スコア制御部が行なう動作の残部を説明するために示すフローチャート。 同実施の形態における音質補正処理部に含まれる音声音楽判定部が行なう動作を説明するために示すフローチャート。
符号の説明
11…デジタルテレビジョン放送受信装置、12…キャビネット、13…支持台、14…映像表示器、15…スピーカ、16…操作部、17…リモートコントローラ、18…受光部、19…第1のメモリカード、20…第2のメモリカード、21…第1のLAN端子、22…第2のLAN端子、23…USB端子、24…IEEE1394端子、25…HDD、26…ハブ、27…HDD、28…PC、29…DVDレコーダ、30…アナログ伝送路、31…ブロードバンドルータ、32…ネットワーク、33…PC、34…携帯電話、35…ハブ、36…携帯電話、37…デジタルカメラ、38…カードリーダ/ライタ、39…HDD、40…キーボード、41…AV−HDD、42…D−VHS、43…アンテナ、44…入力端子、45…チューナ、46…PSK復調器、47…TS復号器、48…信号処理部、49…アンテナ、50…入力端子、51…チューナ、52…OFDM復調器、53…TS復号器、54…チューナ、55…アナログ復調器、56…グラフィック処理部、57…オーディオ処理部、58a〜58d…入力端子、59…OSD信号生成部、60…映像処理部、61,62…出力端子、63…制御部、64…CPU、65…ROM、66…RAM、67…不揮発性メモリ、68…カードI/F、69…カードホルダ、70…カードI/F、71…カードホルダ、72,73…通信I/F、74…USB I/F、75…IEEE1394 I/F、76…音質補正処理部、77…入力端子、78…オーディオ補正処理部、79…特徴パラメータ算出部、801〜80n…パラメータ値算出部、81…特性スコア制御部、821〜82n…音声音楽特性スコア算出部、83…相乗効果スコア算出部、84…音声音楽判定部、85…出力端子。

Claims (8)

  1. 入力オーディオ信号から音声信号と音楽信号とを判別するための各種の特徴パラメータを算出する特徴パラメータ算出手段と、
    前記特徴パラメータ算出手段で算出された各種の特徴パラメータを、それぞれ音声判定用のしきい値及び音楽判定用のしきい値と比較し、音声と判定された特徴パラメータに音声特性スコアを付与し、音楽と判定された特徴パラメータに音楽特性スコアを付与する音声音楽特性スコア算出手段と、
    前記音声音楽特性スコア算出手段で算出された全ての音声特性スコアの総和と全ての音楽特性スコアの総和との差分に基づいて、前記入力オーディオ信号が音声信号であるか音楽信号であるかを判定する音声音楽判定手段とを具備することを特徴とする音声音楽判定装置。
  2. 前記特徴パラメータ算出手段は、前記入力オーディオ信号をそれぞれが複数のサブフレームでなる所定のフレーム単位に分割し、サブフレーム単位で前記入力オーディオ信号から音声信号と音楽信号とを判別するための判別情報を算出し、その判別情報に対してフレーム単位での統計量を求めることにより、前記特徴パラメータを生成することを特徴とする請求項1記載の音声音楽判定装置。
  3. 前記特徴パラメータ算出手段は、前記入力オーディオ信号に対して、パワー変動、零交差周波数、ステレオの左右信号のパワー比のいずれかを含む各種の特徴パラメータを算出することを特徴とする請求項1記載の音声音楽判定装置。
  4. 前記音声音楽特性スコア算出手段は、
    前記音声と判定された特徴パラメータに対して、その特徴パラメータの特性に応じた重み付けを与えた音声特性スコアを付与し、
    前記音楽と判定された特徴パラメータに対して、その特徴パラメータの特性に応じた重み付けを与えた音楽特性スコアを付与することを特徴とする請求項1記載の音声音楽判定装置。
  5. 前記音声音楽特性スコア算出手段は、
    前記特徴パラメータ算出手段で算出された各種の特徴パラメータのうち、相互に関連性を有する特徴パラメータを含む組を取り出し、その組に含まれる全ての特徴パラメータが音声と判定されている場合には、さらに音声特性スコアを付与し、
    前記特徴パラメータ算出手段で算出された各種の特徴パラメータのうち、相互に関連性を有する特徴パラメータを含む組を取り出し、その組に含まれる全ての特徴パラメータが音楽と判定されている場合には、さらに音楽特性スコアを付与することを特徴とする請求項1記載の音声音楽判定装置。
  6. 前記音声音楽判定手段は、前記音声音楽特性スコア算出手段で算出された全ての音声特性スコアの総和と全ての音楽特性スコアの総和との差分が、予め設定された所定の点数以上離れていない場合、最後に前記所定の点数以上離れたときの判定結果を継続して採用することを特徴とする請求項1記載の音声音楽判定装置。
  7. 入力オーディオ信号を特徴パラメータ算出手段に供給して、音声信号と音楽信号とを判別するための各種の特徴パラメータを算出する工程と、
    算出された各種の特徴パラメータを音声音楽特性スコア算出手段に供給して、音声判定用のしきい値及び音楽判定用のしきい値とそれぞれ比較し、音声と判定された特徴パラメータに音声特性スコアを付与し、音楽と判定された特徴パラメータに音楽特性スコアを付与する工程と、
    付与された全ての音声特性スコア及び音楽特性スコアを音声音楽判定手段に供給して、全ての音声特性スコアの総和と全ての音楽特性スコアの総和との差分に基づいて、前記入力オーディオ信号が音声信号であるか音楽信号であるかを判定する工程とを有することを特徴とする音声音楽判定方法。
  8. 入力オーディオ信号から音声信号と音楽信号とを判別するための各種の特徴パラメータを算出する処理を、コンピュータに実行させるための特徴パラメータ算出手段と、
    前記特徴パラメータ算出手段で算出された各種の特徴パラメータを、それぞれ音声判定用のしきい値及び音楽判定用のしきい値と比較し、音声と判定された特徴パラメータに音声特性スコアを付与し、音楽と判定された特徴パラメータに音楽特性スコアを付与する処理を、コンピュータに実行させるための音声音楽特性スコア算出手段と、
    前記音声音楽特性スコア算出手段で算出された全ての音声特性スコアの総和と全ての音楽特性スコアの総和との差分に基づいて、前記入力オーディオ信号が音声信号であるか音楽信号であるかを判定する処理を、コンピュータに実行させるための音声音楽判定手段とを具備することを特徴とする音声音楽判定用プログラム。
JP2008143647A 2008-05-30 2008-05-30 音声音楽判定装置、音声音楽判定方法及び音声音楽判定用プログラム Expired - Fee Related JP4327888B1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2008143647A JP4327888B1 (ja) 2008-05-30 2008-05-30 音声音楽判定装置、音声音楽判定方法及び音声音楽判定用プログラム
US12/392,911 US7856354B2 (en) 2008-05-30 2009-02-25 Voice/music determining apparatus, voice/music determination method, and voice/music determination program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008143647A JP4327888B1 (ja) 2008-05-30 2008-05-30 音声音楽判定装置、音声音楽判定方法及び音声音楽判定用プログラム

Publications (2)

Publication Number Publication Date
JP4327888B1 true JP4327888B1 (ja) 2009-09-09
JP2009288707A JP2009288707A (ja) 2009-12-10

Family

ID=41149096

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008143647A Expired - Fee Related JP4327888B1 (ja) 2008-05-30 2008-05-30 音声音楽判定装置、音声音楽判定方法及び音声音楽判定用プログラム

Country Status (2)

Country Link
US (1) US7856354B2 (ja)
JP (1) JP4327888B1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011065093A (ja) * 2009-09-18 2011-03-31 Toshiba Corp オーディオ信号補正装置及びオーディオ信号補正方法
US8099276B2 (en) 2010-01-21 2012-01-17 Kabushiki Kaisha Toshiba Sound quality control device and sound quality control method

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4327886B1 (ja) * 2008-05-30 2009-09-09 株式会社東芝 音質補正装置、音質補正方法及び音質補正用プログラム
JP4327888B1 (ja) 2008-05-30 2009-09-09 株式会社東芝 音声音楽判定装置、音声音楽判定方法及び音声音楽判定用プログラム
JP4621792B2 (ja) * 2009-06-30 2011-01-26 株式会社東芝 音質補正装置、音質補正方法及び音質補正用プログラム
US8606569B2 (en) * 2009-07-02 2013-12-10 Alon Konchitsky Automatic determination of multimedia and voice signals
US8712771B2 (en) * 2009-07-02 2014-04-29 Alon Konchitsky Automated difference recognition between speaking sounds and music
US8340964B2 (en) * 2009-07-02 2012-12-25 Alon Konchitsky Speech and music discriminator for multi-media application
WO2011078037A1 (ja) 2009-12-21 2011-06-30 国立大学法人広島大学 老化マーカー、老化抑制物質の評価方法および癌抑制剤
EP2540133B1 (en) * 2010-02-25 2014-08-27 Telefonaktiebolaget LM Ericsson (publ) Switching off dtx for music
JP4837123B1 (ja) * 2010-07-28 2011-12-14 株式会社東芝 音質制御装置及び音質制御方法
JP4937393B2 (ja) * 2010-09-17 2012-05-23 株式会社東芝 音質補正装置及び音声補正方法
US9450812B2 (en) 2014-03-14 2016-09-20 Dechnia, LLC Remote system configuration via modulated audio
WO2016172363A1 (en) * 2015-04-24 2016-10-27 Cyber Resonance Corporation Methods and systems for performing signal analysis to identify content types
US11848019B2 (en) * 2021-06-16 2023-12-19 Hewlett-Packard Development Company, L.P. Private speech filterings

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR940001861B1 (ko) * 1991-04-12 1994-03-09 삼성전자 주식회사 오디오 대역신호의 음성/음악 판별장치
US5280562A (en) 1991-10-03 1994-01-18 International Business Machines Corporation Speech coding apparatus with single-dimension acoustic prototypes for a speech recognizer
JP2835483B2 (ja) 1993-06-23 1998-12-14 松下電器産業株式会社 音声判別装置と音響再生装置
JPH08185196A (ja) 1994-12-28 1996-07-16 Sony Corp 音声区間検出装置
US5712953A (en) 1995-06-28 1998-01-27 Electronic Data Systems Corporation System and method for classification of audio or audio/video signals based on musical content
JPH09160585A (ja) 1995-12-05 1997-06-20 Sony Corp 音声認識装置および音声認識方法
US6570991B1 (en) * 1996-12-18 2003-05-27 Interval Research Corporation Multi-feature speech/music discrimination system
JPH10256857A (ja) 1997-03-11 1998-09-25 Toshiba Corp 音質補正装置
JP3878482B2 (ja) 1999-11-24 2007-02-07 富士通株式会社 音声検出装置および音声検出方法
JP3588030B2 (ja) 2000-03-16 2004-11-10 三菱電機株式会社 音声区間判定装置及び音声区間判定方法
US6990453B2 (en) 2000-07-31 2006-01-24 Landmark Digital Services Llc System and methods for recognizing sound and music signals in high noise and distortion
EP1244094A1 (de) 2001-03-20 2002-09-25 Swissqual AG Verfahren und Vorrichtung zur Bestimmung eines Qualitätsmasses eines Audiosignals
JP2003084790A (ja) 2001-09-17 2003-03-19 Matsushita Electric Ind Co Ltd 台詞成分強調装置
KR100880480B1 (ko) * 2002-02-21 2009-01-28 엘지전자 주식회사 디지털 오디오 신호의 실시간 음악/음성 식별 방법 및시스템
JP4099576B2 (ja) 2002-09-30 2008-06-11 ソニー株式会社 情報識別装置及び方法、並びにプログラム及び記録媒体
EP1443496B1 (en) 2003-01-18 2006-07-19 Psytechnics Limited Non-intrusive speech signal quality assessment tool
JP2005266098A (ja) 2004-03-17 2005-09-29 Canon Inc 音声信号セグメント方法、音声ピッチ検出方法及び音声区間検出処理方法
US7130795B2 (en) * 2004-07-16 2006-10-31 Mindspeed Technologies, Inc. Music detection with low-complexity pitch correlation algorithm
JP4486527B2 (ja) 2005-03-07 2010-06-23 日本電信電話株式会社 音響信号分析装置およびその方法、プログラム、記録媒体
JP2007004000A (ja) 2005-06-27 2007-01-11 Tokyo Electric Power Co Inc:The コールセンターにおけるオペレータ業務支援システム
JP2007017620A (ja) 2005-07-06 2007-01-25 Kyoto Univ 発話区間検出装置、そのためのコンピュータプログラム及び記録媒体
JP4327888B1 (ja) 2008-05-30 2009-09-09 株式会社東芝 音声音楽判定装置、音声音楽判定方法及び音声音楽判定用プログラム
JP4327886B1 (ja) 2008-05-30 2009-09-09 株式会社東芝 音質補正装置、音質補正方法及び音質補正用プログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011065093A (ja) * 2009-09-18 2011-03-31 Toshiba Corp オーディオ信号補正装置及びオーディオ信号補正方法
US8099276B2 (en) 2010-01-21 2012-01-17 Kabushiki Kaisha Toshiba Sound quality control device and sound quality control method

Also Published As

Publication number Publication date
US7856354B2 (en) 2010-12-21
US20090299750A1 (en) 2009-12-03
JP2009288707A (ja) 2009-12-10

Similar Documents

Publication Publication Date Title
JP4327888B1 (ja) 音声音楽判定装置、音声音楽判定方法及び音声音楽判定用プログラム
JP4364288B1 (ja) 音声音楽判定装置、音声音楽判定方法及び音声音楽判定用プログラム
JP4439579B1 (ja) 音質補正装置、音質補正方法及び音質補正用プログラム
JP4327886B1 (ja) 音質補正装置、音質補正方法及び音質補正用プログラム
JP4621792B2 (ja) 音質補正装置、音質補正方法及び音質補正用プログラム
US9756437B2 (en) System and method for transmitting environmental acoustical information in digital audio signals
JP4837123B1 (ja) 音質制御装置及び音質制御方法
US8965181B2 (en) Automatic announcer voice attenuation in a presentation of a broadcast event
JP4709928B1 (ja) 音質補正装置及び音質補正方法
JP5695896B2 (ja) 音質制御装置、音質制御方法及び音質制御用プログラム
CN114339297B (zh) 音频处理方法、装置、电子设备和计算机可读存储介质
JP4534844B2 (ja) デジタルサラウンドシステム、サーバ装置およびアンプ装置
Zielinski et al. Comparison of quality degradation effects caused by limitation of bandwidth and by down-mix algorithms in consumer multichannel audio delivery systems
JP5349171B2 (ja) 演奏条件設定機能付きカラオケシステム
JP5034934B2 (ja) 再生装置、設定情報の設定方法、コンピュータプログラムおよび通信システム
US20030071839A1 (en) Method of presenting adjustable multi-channel sound field when multimedia software is playing audio data
CN115942021B (zh) 音视频流同步播放方法、装置、电子设备及存储介质
Zacharov et al. Subjective evaluation of virtual home theatre sound systems for loudspeakers and headphones
JP4543107B2 (ja) 映像音声再生装置および映像音声再生方法
JP2004334979A (ja) オーディオ装置
Deshpande Viewer preferences for adaptive playout
WO2014091965A1 (ja) 情報処理装置、情報処理方法及びプログラムを記録したコンピュータ読み取り可能な記録媒体
Wilson Can We Get the Bass Right?
WO2008072887A1 (en) Electrical system control method of a general-purpose which uses the control data which is included in audio -visual data of the computer
JP2017069705A (ja) 受信装置、受信方法、放送システムおよびプログラム

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090519

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090611

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120619

Year of fee payment: 3

R151 Written notification of patent or utility model registration

Ref document number: 4327888

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120619

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120619

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130619

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees