JP4709928B1 - 音質補正装置及び音質補正方法 - Google Patents

音質補正装置及び音質補正方法 Download PDF

Info

Publication number
JP4709928B1
JP4709928B1 JP2010011428A JP2010011428A JP4709928B1 JP 4709928 B1 JP4709928 B1 JP 4709928B1 JP 2010011428 A JP2010011428 A JP 2010011428A JP 2010011428 A JP2010011428 A JP 2010011428A JP 4709928 B1 JP4709928 B1 JP 4709928B1
Authority
JP
Japan
Prior art keywords
score
music
signal
voice
correction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2010011428A
Other languages
English (en)
Other versions
JP2011150143A (ja
Inventor
広和 竹内
裕 米久保
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2010011428A priority Critical patent/JP4709928B1/ja
Priority to US12/893,839 priority patent/US8099276B2/en
Application granted granted Critical
Publication of JP4709928B1 publication Critical patent/JP4709928B1/ja
Publication of JP2011150143A publication Critical patent/JP2011150143A/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/60Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

【課題】音声信号と音楽信号との類似度を定量的に評価し、適応的な音質補正処理を施すことを可能とした技術を提供する。
【解決手段】入力オーディオ信号を時間領域で特性を解析し時間領域の特徴量を抽出する時間域特徴量抽出手段と、前記入力オーディオ信号を周波数領域の信号に変換する時間周波数変換手段と、前記時間周波数変換手段の出力を解析し周波数域特徴量を抽出する周波数域特徴量抽出手段と、第1の音声スコアと第2の音声スコアとの差分から前記第1の音声スコアを補正、または第1の音楽スコアと第2の音楽スコアとの差分から前記第1の音楽スコアを補正するスコア補正手段と、前記スコア補正手段から得られるスコアに基づいて前記入力オーディオ信号の音質制御を行う音質補正手段とを備えたことを特徴とする音質補正装置。
【選択図】 図2

Description

この発明は、再生すべきオーディオ(可聴周波数)信号に含まれる音声信号と音楽信号とに対して、それぞれ適応的に音質補正処理を施す音質補正装置及び音質補正方法に関する。
周知のように、例えばテレビジョン放送を受信する放送受信機器や、情報記録媒体からその記録情報を再生する情報再生機器等にあっては、受信した放送信号や情報記録媒体から読み取った信号等からオーディオ信号を再生する際に、オーディオ信号に音質補正処理を施すことによって、より一層の高音質化を図るようにしている。
この場合、オーディオ信号に施す音質補正処理の内容は、オーディオ信号が人の話し声のような音声信号であるか、楽曲のような音楽(非音声)信号であるかに応じて異なる。すなわち、音声信号に対しては、トークシーンやスポーツ実況等のようにセンター定位成分を強調して明瞭化するように音質補正処理を施すことで音質が向上し、音楽信号に対しては、ステレオ感を強調した拡がりのある音質補正処理を施すことで音質が向上する。
このため、取得したオーディオ信号が音声信号か音楽信号かを判別し、その判別結果に応じて対応する音質補正処理を施すことが考えられている。例えば特許文献1には、入力される音響信号の零交差回数やパワー変動等を分析することによって、音響信号を「音声」と「非音声」と「不定」との3種類に分類し、音響信号に対する周波数特性を、「音声」と判別されたとき音声帯域を強調した特性に、「非音声」と判別されたときフラットな特性に、「不定」と判別されたとき前の判定による特性を維持するように制御する構成が開示されている。
しかしながら、実際のオーディオ信号では、音声信号と音楽信号とが混在している場合が多いことから、それらの判別処理が困難になっているため、オーディオ信号に対して適切な音質補正処理が施されているとは言えないのが現状である。
特開平7−13586号公報
そこで、この発明は上記事情を考慮してなされたもので、入力オーディオ信号に含まれる音声信号と音楽信号との類似度を定量的に評価し、その類似度に応じて適応的な音質補正処理を施すことを可能とした音質補正装置及び音質補正方法を提供することを目的とする。
上記課題を解決するために、本発明の音質補正装置は、入力オーディオ信号を時間領域で特性を解析し時間領域の特徴量を抽出する時間域特徴量抽出手段と、前記入力オーディオ信号を周波数領域の信号に変換する時間周波数変換手段と、前記時間周波数変換手段の出力を解析し周波数域特徴量を抽出する周波数域特徴量抽出手段と、前記時間域特徴量抽出手段または前記周波数域特徴量抽出手段の出力から音声信号特性との類似度を表す第1の音声スコアを算出する第1の音声スコア算出手段と、前記時間域特徴量抽出手段または前記周波数域特徴量抽出手段の出力から音楽信号特性との類似度を表す第1の音楽スコアを算出する第1の音楽スコア算出手段と、前記入力オーディオ信号に対してセンター強調、音声帯域強調、ノイズサプレスの内少なくとも1つの処理を行う補正フィルタ処理手段と、前記補正フィルタ処理手段の出力から音声信号特性との類似度を表す第2の音声スコアを算出する第2の音声スコア算出手段と、前記補正フィルタ処理手段の出力から音楽信号特性との類似度を表す第2の音楽スコアを算出する第2の音楽スコア算出手段と、前記第1の音声スコアと前記第2の音声スコアとの差分から前記第1の音声スコアを補正、または前記第1の音楽スコアと前記第2の音楽スコアとの差分から前記第1の音楽スコアを補正するスコア補正手段と、前記スコア補正手段から得られるスコアに基づいて前記入力オーディオ信号の音質制御を行う音質補正手段とを備えたことを特徴とする。
本発明によれば、混合信号や背景音(拍手、歓声、BGM等)が重畳された原音入力信号に対して音声か音楽かの判定において各特徴パラメータ値から音声の度合いおよび音楽の度合いをスコアリングすると共に、音声抽出に適した補正フィルタ処理(音声帯域強調、センター強調等)を通した信号に対してもスコアリングしたパラメータを利用し、その差分に応じたスコアリング補正をすることで、音声信号を含む混合信号に対して検出精度向上を図ると共に、入力信号に適した効果的な音質補正を実現することができる。
この発明の一実施形態を示すブロック構成図。 同実施形態の音質補正装置全体ブロック図。 同実施形態の音声スコアおよび音楽スコア算出処理フロー。 同実施形態の補正フィルタブロック図。 同実施形態に用いられるスコア補正処理フロー。 第2の実施形態の音質補正装置全体ブロック図。
以下、本発明の実施形態を説明する。
(実施形態1)
本発明による実施形態1を図1乃至図5を参照して説明する。
図1は、この発明の一実施形態であるデジタルテレビジョン放送受信装置11の主要な信号処理系を示している。すなわち、BS/CS(broadcasting satellite/communication satellite)デジタル放送受信用のアンテナ43で受信した衛星デジタルテレビジョン放送信号は、入力端子44を介して衛星デジタル放送用のチューナ45に供給されることにより、所望のチャンネルの放送信号が選局される。
そして、このチューナ45で選局された放送信号は、PSK(phase shift keying)復調器46及びTS(transport stream)復号器47に順次供給されることにより、デジタルの映像信号及びオーディオ信号に復調された後、信号処理部48に出力される。
また、地上波放送受信用のアンテナ49で受信した地上デジタルテレビジョン放送信号は、入力端子50を介して地上デジタル放送用のチューナ51に供給されることにより、所望のチャンネルの放送信号が選局される。
そして、このチューナ51で選局された放送信号は、例えば日本ではOFDM(orthogonal frequency division multiplexing)復調器52及びTS復号器53に順次供給されることにより、デジタルの映像信号及びオーディオ信号に復調された後、上記信号処理部48に出力される。
また、上記地上波放送受信用のアンテナ49で受信した地上アナログテレビジョン放送信号は、入力端子50を介して地上アナログ放送用のチューナ54に供給されることにより、所望のチャンネルの放送信号が選局される。そして、このチューナ54で選局された放送信号は、アナログ復調器55に供給されてアナログの映像信号及びオーディオ信号に復調された後、上記信号処理部48に出力される。
ここで、上記信号処理部48は、TS復号器47,53からそれぞれ供給されたデジタルの映像信号及びオーディオ信号に対して、選択的に所定のデジタル信号処理を施し、グラフィック処理部56及びオーディオ処理部57に出力している。
また、上記信号処理部48には、複数(図示の場合は4つ)の入力端子58a,58b,58c,58dが接続されている。これら入力端子58a〜58dは、それぞれ、アナログの映像信号及びオーディオ信号を、デジタルテレビジョン放送受信装置11の外部から入力可能とするものである。
そして、上記信号処理部48は、上記アナログ復調器55及び各入力端子58a〜58dからそれぞれ供給されたアナログの映像信号及びオーディオ信号を選択的にデジタル化し、このデジタル化された映像信号及びオーディオ信号に対して所定のデジタル信号処理を施した後、グラフィック処理部56及びオーディオ処理部57に出力する。
グラフィック処理部56は、信号処理部48から供給されるデジタルの映像信号に、OSD(on screen display)信号生成部59で生成されるOSD信号を重畳して出力する機能を有する。このグラフィック処理部56は、信号処理部48の出力映像信号と、OSD信号生成部59の出力OSD信号とを選択的に出力すること、また、両出力をそれぞれ画面の半分を構成するように組み合わせて出力することができる。
グラフィック処理部56から出力されたデジタルの映像信号は、映像処理部60に供給される。この映像処理部60は、入力されたデジタルの映像信号を、前記映像表示器14で表示可能なフォーマットのアナログ映像信号に変換した後、映像表示器14に出力して映像表示させるとともに、出力端子61を介して外部に導出させる。
また、上記オーディオ処理部57は、入力されたデジタルのオーディオ信号に対して、後述する音質補正処理を施した後、前記スピーカ15で再生可能なフォーマットのアナログオーディオ信号に変換している。そして、このアナログオーディオ信号は、スピーカ15に出力されてオーディオ再生に供されるとともに、出力端子62を介して外部に導出される。スピーカ15は、音質制御された出力オーディオ信号を出力する出力手段となる。
ここで、このデジタルテレビジョン放送受信装置11は、上記した各種の受信動作を含むその全ての動作を制御部63によって統括的に制御されている。この制御部63は、CPU(central processing unit)64を内蔵しており、前記操作部16からの操作情報、または、リモートコントローラ17から送出され前記受光部18に受信された操作情報を受けて、その操作内容が反映されるように各部をそれぞれ制御している。
この場合、制御部63は、主として、そのCPU64が実行する制御プログラムを格納したROM(read only memory)65と、該CPU64に作業エリアを提供するRAM(random access memory)66と、各種の設定情報及び制御情報等が格納される不揮発性メモリ67とを利用している。
また、この制御部63は、カードI/F(interface)68を介して、前記第1のメモリカード19が装着可能なカードホルダ69に接続されている。これによって、制御部63は、カードホルダ69に装着された第1のメモリカード19と、カードI/F68を介して情報伝送を行なうことができる。
さらに、上記制御部63は、カードI/F70を介して、前記第2のメモリカード20が装着可能なカードホルダ71に接続されている。これにより、制御部63は、カードホルダ71に装着された第2のメモリカード20と、カードI/F70を介して情報伝送を行なうことができる。
また、上記制御部63は、通信I/F72を介して第1のLAN端子21に接続されている。これにより、制御部63は、第1のLAN端子21に接続されたLAN対応のHDD25と、通信I/F72を介して情報伝送を行なうことができる。この場合、制御部63は、DHCP(dynamic host configuration protocol)サーバ機能を有し、第1のLAN端子21に接続されたLAN対応のHDD25にIP(internet protocol)アドレスを割り当てて制御している。
さらに、上記制御部63は、通信I/F73を介して第2のLAN端子22に接続されている。これにより、制御部63は、第2のLAN端子22に接続された各機器と、通信I/F73を介して情報伝送を行なうことができる。
また、上記制御部63は、USB I/F74を介して前記USB端子23に接続されている。これにより、制御部63は、USB端子23に接続された各機器と、USBI/F74を介して情報伝送を行なうことができる。
さらに、上記制御部63は、IEEE1394I/F75を介してIEEE1394端子24に接続されている。これにより、制御部63は、IEEE1394端子24に接続された各機器と、IEEE1394I/F75を介して情報伝送を行なうことができる。
図2は、オーディオ処理部57内に備えられ適応的に音質補正処理を施す音質補正装置の全体構成である。本装置は、時間域特徴量抽出部79,81、時間周波数変換部77,78、周波数域特徴量抽出部80,82、原音音声スコア算出部83、原音音楽スコア算出部84、補正フィルタ76、フィルタ音声スコア算出部85、フィルタ音楽スコア算出部86、スコア補正部87、音質制御部88から構成されている。本装置は、入力オーディオ信号に対して混合信号や背景音(拍手、歓声、BGM等)が重畳された原音入力信号に対して音声が音楽かの判定において各特徴パラメータ値から音声の度合いおよび音楽の度合いをスコアリングすると共に、音声抽出に適した補正フィルタ処理(音声帯域強調、センター強調等)を通した信号に対してもスコアリングしたパラメータを利用し、その差分に応じたスコアリング補正をすることにより、音声信号を含む混合信号に対して検出精度向上を図ると共に、入力信号に適した効果的な音質補正を実現する。
時間域特徴量抽出部79,81は、入力オーディオ信号を数百msec程度毎にをフレームとして切り出し、更にそれらを数十msecのサブフレームに分割し、サブフレーム単位でのパワー値、零交差周波数、およびステレオ信号の場合には左右(LR)信号のパワー比を求め、これらについてフレーム単位で統計量(平均/分散/最大/最小等)を算出して特徴パラメータとして抽出する。時間周波数変換部77,78は、上記サブフレームに対応する信号単位で離散フーリエ変換を行うことで周波数領域の信号に変換する。周波数領域特徴量抽出部80,82は、スペクトル変動やMFCC(メルケプストラム係数)変動や特定周波数帯域(楽器のベース成分)のエネルギー集中度を求め、これらについてフレーム単位で統計量(平均/分散/最大/最小等)を算出して特徴パラメータとする。原音音声スコア算出部83および原音音楽スコア算出部84は、本願発明者らによる既出願特許(特願P2009-156004号, 特願P2009-217941号)と同様に、時間域および周波数域特徴パラメータから音声(スピーチ)信号の特性に近いか音楽(楽曲)の信号特性に近いかをそれぞれ原音音声スコアSS0および原音音楽スコアSM0として算出する。それぞれのスコア算出にあたっては、まず、下式のように特徴パラメータセットxiを重み係数Aiで線形加算した音声・音楽識別スコアS1を算出する。これは、音楽度合いの方が高ければ正値になるように、また音声度合いの方が高ければ負値になるように線形識別するスコアである。
Figure 0004709928

ここで重み係数Aiは、予め準備した多くの既知の音声信号データおよび音楽信号データを参照データとして予めオフライン学習させて決定する。学習は、全参照データに対する音声・音楽識別スコアS1が、音楽の場合には1.0、音声の場合には-1.0とする参照スコアとの誤差が最小になるよう係数を決定する。
また、背景音と音楽を識別するために背景音・音楽識別スコアS2を算出する。これは、音声・音楽識別スコアS1と同様に特徴パラメータの重み付け加算として算出するが、背景音と音楽とを区別するためのベース成分のエネルギー集中度といった特徴量を新たに加えている。S2は、音楽度合いの方が高ければ正値になるように、また背景音の音声度合いの方が高ければ負値になるように線形識別するスコアである。
Figure 0004709928

ここで重み係数Biは、音声・音楽識別と同様に予め準備した多くの既知の背景音信号データおよび音楽信号データを参照データとして予めオフライン学習させて決定する。上記のようなこれらS1およびS2とから、前記既出願特許と同様に図3に示すとおりの背景音補正および安定化処理を経て音種別毎のスコアとして原音音声スコアSS0および原音音楽スコアSM0を算出する。原音音声スコアSS0および原音音楽スコアSM0は、前述の音声・音楽識別スコアS1および背景音・音楽識別スコアS2に基づいて算出される。フィルタ音声スコアSS1およびフィルタ音楽スコアSM1の算出も同様であり、図3では原音音声スコアSS0とフィルタ音声スコアSS1を代表して音声スコアSSと、また原音音楽スコアSM0とフィルタ音楽スコアSM1とを代表して音楽スコアSMと表記している。
図3ではまず各スコア算出部が上記S1とS2とを算出する(ステップS31)。続いてスコア補正部87による以下の背景音補正は、S1<0(音楽より音声に近い、ステップS32のYes)かつS2>0(背景音より音楽に近い、ステップS33のYes)場合には、音声スコアSSは音声・音楽識別スコアS1が負値であるため絶対値|S1|(ステップS34)、音楽スコアSMは音声信号特性に近いので0に設定する(ステップS35)。S1<0(音楽より音声に近い、ステップS32のYes)かつS2>0でない(音楽より背景音に近い、ステップS33のNo)場合には、音声スコアSSはS1は負値であるため絶対値|S1|に加えて背景音に含まれる音声成分を考慮してαs×|S2|分だけ補正し(ステップS36)、音楽スコアSMは音声信号特性に近いので0に設定する(ステップS37)。
またS1<0でなく(音声より音楽に近い、ステップS32のNo)かつS2>0(背景音より音楽に近い、ステップS38のYes)場合には、音声スコアSSは音楽信号特性に近いので0(ステップS39)、音楽スコアSMは音楽信号度合いに対応するS1に設定する(ステップS40)。S1<0でなく(音声より音楽に近い)かつS2>0でない(音楽より背景音に近い、ステップS38のNo)場合には、音声スコアSSは音声度合いに対応するスコアである-S1に対して背景音に含まれる音声成分を考慮してαs×|S2|分だけ補正し(ステップS41)、音楽スコアSMは音楽信号度合い対応するS1に対して背景音の度合いを考慮してαm×|S2|分だけ減算して補正する(ステップS42)。
また、安定化補正は、背景音補正して得られた音声スコアSSあるいは音楽スコアSMの連続性に応じて補正するパラメータである初期値0のSS3およびSM3を加算することにより行う。
例えば、ステップS35とステップS37の後に連続するフレームで既定回数Cs以上SS>0ならSS3にSS3を適正化するためのある既定の正値βsを加え、SM3からSM3を適正化するための既定の正値γmをひく(ステップS43)。また、ステップS40とステップS41の後に連続するフレームで既定回数Cm以上SM>0ならSS3からγsをひきSM3にβmを加える(ステップS44)。
その後、スコア補正部87は、上記ステップS43またはステップS44で生成された安定化パラメータSS3およびSM3による過度の補正を防ぐために、これら安定化パラメータが予め設定された最小値Sと最大値との範囲内に収まるように、クリップ処理を施している(ステップS45)。
最後にSS3およびSM3による安定化補正をし(ステップS46)、スコアの平滑化として、過去フレームのスコアとの平均(移動平均等)をとる(ステップS47)。
一方、原音入力信号とは別に音声抽出に適した信号に対して特徴量抽出を行う。補正フィルタ部76は、図4に示すようにセンター強調部91、音声帯域強調部92、ノイズサプレッサ部93から構成される。センター強調部91は、一般に放送信号等では音声信号はセンターに定位させていることが多いことから、ステレオ信号に対して左右チャネル信号の和を強調することでより音声を抽出しやすくするための処理を行なう。音声帯域強調部92は、音声信号の成分がより顕著に現れやすい300Hz〜7kHz周波数帯域を強調(あるいはそれ以外の帯域の減衰)をさせるイコライジング処理を行なう。ノイズサプレッサ部93は、音声に混じって入力される背景雑音の影響を緩和するために、定常的な雑音成分を抑制する処理を行なう。
これらの処理から構成される補正フィルタを通したフィルタ信号に対して原音信号と同じように音声スコアSS1および音楽スコアSM1を算出する。ここで、時間周波数変換部78、時間域特徴量抽出部81および周波数域特徴量抽出部82は原音信号に対する処理と同じである。ただし、フィルタ音声スコア算出部85は、音声・音楽識別スコアS1および背景音・音楽識別スコアS2を計算する際の重み係数AiおよびBiを求める過程においてフィルタ信号を用いて予め学習させた係数を利用する。以上より、原音信号および補正フィルタ信号に対して、それぞれの判定スコアとして原音音声スコアSS0、原音音楽スコアSM0、フィルタ音声スコアSS1、フィルタ音楽スコアSM1が求められる。スコア補正部87は、これら4つのスコアに基いて音声・音楽混合信号に対するスコア補正を行い音声スコアおよび音楽スコアを算出する。この処理の詳細については、図5に基いて後述する。音質制御部88は、音声スコアおよび音楽スコアに応じて前記既出願特許と同様に音声向けあるいは音楽向けの音質補正制御の度合いを制御してコンテンツの信号特性にあった最適な音質補正を実現する。
図5は、これらスコアを利用したスコア補正部87の処理フローを示している。4つのスコアを受信した後(ステップS51)、原音音声スコアSS0とフィルタ音声スコアSS1を比較し(ステップS52)、補正スコアが原音スコアに対して閾値THs以上大きい場合には、原音では検出できない多くの音声成分が含まれていると判断し、下式により音声スコアを増加させるように補正する(ステップS53)。
SS0 = SS0 + α×(SS1 - SS0 - THs) (式3)
ここでαはスコア差分に対する補正量を調整するための定数である。次に、原音音楽スコアSM0とフィルタ音楽スコアSM1を比較し(ステップS54)、補正スコアが原音スコアに対して閾値THm以上大きい場合には、原音では検出できない多くの音声成分が含まれていると判断し、下式により音楽スコアを減少させるように補正する(ステップS55)。
SM0 = SM0 + β×(SM0 - SM1 - THm)
(式4)
ここでβはスコア差分に対する補正量を調整するための定数である。上記フローにより、補正フィルタによる出力を考慮した音声スコア原音音声スコアSS0および音楽スコアSM0が算出される。
(実施形態2)
本発明による実施形態2を図1及び図3乃至図6を参照して説明する。実施形態1と共通する部分は説明を省略する。
図6は、適応的に音質補正処理を施す音質補正装置の第2の全体構成である。この第2の構成は、実施形態1と比べて補正フィルタ76の代わりに入力信号の時間周波数変換後のスペクトル信号に対して処理するスペクトル補正部76aを設けている。これは、図1の構成で処理負荷の高い時間周波数域変換を1回に削減し、処理量を削減するためである。スペクトル補正部76aは、補正フィルタ76の処理を周波数領域で行うものでセンター強調は各チャネルのスペクトルbin(帯域区分)毎に左右チャネルの成分の和を強調する処理である。また音声帯域強調は、スペクトル信号に対してFFTフィルタ等によりスペクトル音声信号の成分がより顕著に現れやすい300Hz〜7kHz周波数帯域を強調(あるいはそれ以外の帯域を減衰)する。またノイズサプレスは、スペクトルサブストラクション法等により定常的な雑音成分を抑制する。これらスペクトル補正処理を介して音声抽出に適した信号に補正し、図2の構成と同様に周波数域特徴量抽出、フィルタ音声スコア算出およびフィルタ音楽スコア算出を行う。また、第2の構成でのフィルタ(スペクトル補正)音声スコア算出部およびフィルタ(スペクトル補正)音楽スコア算出部における線形識別でのスコア算出の重み係数は、スペクトル補正処理を介して予め学習させた係数を利用する。以降の処理ブロックであるスコア補正部87、音質制御部88は図2の構成と同様に動作させる。
以上の実施形態のようにして、オーディオ信号に対して音声あるいは音楽の識別を行い、混合信号に対してもそれぞれに適した補正処理を制御することにより高音質化を図ることができる。実施形態のポイントは次のようである。
(1)オーディオ入力信号の特性を解析して音声あるいは音楽にどの程度近いかをスコア判定する際に、音声/音楽の混合信号に対して原音信号に加えて音声の抽出に適した補正フィルタを通した信号に対しても特徴量抽出およびスコア判定を行い、原音信号とフィルタ信号に対するスコア差分に基づくスコア補正を行うことで、混合信号で埋もれた音声の検出精度向上およびそれに適した音質制御を行う。
(2)音声の抽出に適した補正フィルタとは、音声信号以外の信号と混合された音声信号に対してセンター強調、音声帯域強調、ノイズサプレスのいずれかあるいは複数を含む処理を行うことで、音声信号の検出を容易にするものである。
(3)補正フィルタの代わりに、時間周波数変換後の信号に対して補正フィルタ処理に相当する音声帯域強調、センター強調のいずれかあるいは複数を含むスペクトル補正処理を行うことで、補正フィルタによる構成に比較して時間周波数変換に関する処理負荷低減した音声の検出精度向上およびそれに適した音質制御を行う。
こうすることにより、混合信号や背景音(拍手、歓声、BGM等)が重畳された原音入力信号に対して音声か音楽かの判定において各特徴パラメータ値から音声の度合いおよび音楽の度合いをスコアリングすると共に、音声抽出に適した補正フィルタ処理(音声帯域強調、センター強調等)を通した信号に対してもスコアリングしたパラメータを利用し、その差分に応じたスコアリング補正をすることで、音声信号を含む混合信号に対して検出精度向上を図ると共に、入力信号に適した効果的な音質補正を実現することができる。
また、補正フィルタ処理の代替として時間周波数変換後の信号に対してスペクトル補正処理を行うことにより、補正フィルタ追加に伴う処理負荷増を軽減することができる。
なお、この発明は上記実施形態に限定されるものではなく、この外その要旨を逸脱しない範囲で種々変形して実施することができる。
また、上記した実施の形態に開示されている複数の構成要素を適宜に組み合わせることにより、種々の発明を形成することができる。例えば、実施の形態に示される全構成要素から幾つかの構成要素を削除しても良いものである。さらに、異なる実施の形態に係わる構成要素を適宜組み合わせても良いものである。
11…デジタルテレビジョン放送受信装置、14…映像表示器、15…スピーカ、16…操作部、17…リモートコントローラ、18…受光部、19…第1のメモリカード、20…第2のメモリカード、21…第1のLAN端子、22…第2のLAN端子、23…USB端子、24…IEEE1394端子、43…アンテナ、44…入力端子、45…チューナ、46…PSK復調器、47…TS復号器、48…信号処理部、49…アンテナ、50…入力端子、51…チューナ、52…OFDM復調器、53…TS復号器、54…チューナ、55…アナログ復調器、56…グラフィック処理部、57…オーディオ処理部、58a〜58d…入力端子、59…OSD信号生成部、60…映像処理部、61,62…出力端子、63…制御部、64…CPU、65…ROM、66…RAM、67…不揮発性メモリ、68…カードI/F、69…カードホルダ、70…カードI/F、71…カードホルダ、72,73…通信I/F、74…USBI/F、75…IEEE1394 I/F、76…補正フィルタ、77,78…時間周波数変換部、79,81…時間領域特徴量抽出部、80,82…周波数領域特徴量抽出部、83…原音音声スコア算出部、84…原音音楽スコア算出部、85…フィルタ音声スコア算出部、86…フィルタ音楽スコア算出部、87…スコア補正部、88…音質制御部、91…センター強調部、92…音声帯域強調部、93…ノイズサプレッサ部。

Claims (5)

  1. 入力オーディオ信号を時間領域で特性を解析し時間領域の特徴量を抽出する時間域特徴量抽出手段と、
    前記入力オーディオ信号を周波数領域の信号に変換する時間周波数変換手段と、
    前記時間周波数変換手段の出力を解析し周波数域特徴量を抽出する周波数域特徴量抽出手段と、
    前記時間域特徴量抽出手段および前記周波数域特徴量抽出手段の出力から音声信号特性との類似度を表す第1の音声スコアを算出する第1の音声スコア算出手段と、
    前記時間域特徴量抽出手段および前記周波数域特徴量抽出手段の出力から音楽信号特性との類似度を表す第1の音楽スコアを算出する第1の音楽スコア算出手段と、
    前記入力オーディオ信号に対してセンター強調、音声帯域強調、ノイズサプレスの内少なくとも1つの処理を行う補正フィルタ処理手段と、
    前記補正フィルタ処理手段の出力から音声信号特性との類似度を表す第2の音声スコアを算出する第2の音声スコア算出手段と、
    前記補正フィルタ処理手段の出力から音楽信号特性との類似度を表す第2の音楽スコアを算出する第2の音楽スコア算出手段と、
    前記第1の音声スコアと前記第2の音声スコアとの差分から前記第1の音声スコアを補正し、かつ前記第1の音楽スコアと前記第2の音楽スコアとの差分から前記第1の音楽スコアを補正するスコア補正手段と、
    前記スコア補正手段から得られる音声スコアおよび音楽スコアに基づいて前記入力オーディオ信号の音質制御を行う音質補正手段とを備えた音質補正装置。
  2. 前記補正フィルタ処理手段は、時間領域で動作し音声信号を強調するフィルタ処理を含む請求項1に記載の音質補正装置。
  3. 前記補正フィルタ処理手段は、前記時間周波数変換手段の出力を用いて周波数領域で動作し音声信号を強調するスペクトル補正処理を含む請求項1に記載の音質補正装置。
  4. 前記音質制御手段により音質制御された出力オーディオ信号を出力する出力手段を更に備えた請求項1に記載の音質補正装置。
  5. 入力オーディオ信号を時間領域で特性を解析し時間領域の特徴量を抽出し、
    前記入力オーディオ信号を周波数領域の信号に変換し、
    前記周波数領域の特徴量を抽出し、
    前記時間領域の特徴量および前記周波数領域の特徴量から音声信号特性との類似度を表す第1の音声スコアを算出し、
    前記時間領域の特徴量および前記周波数領域の特徴量から音楽信号特性との類似度を表す第1の音楽スコアを算出し、
    前記入力オーディオ信号に対してセンター強調、音声帯域強調、ノイズサプレスの内少なくとも1つの補正フィルタ処理を行い、
    前記補正フィルタ処理の結果から音声信号特性との類似度を表す第2の音声スコアを算出し、
    前記補正フィルタ処理の結果から音楽信号特性との類似度を表す第2の音楽スコアを算出し、
    前記第1の音声スコアと前記第2の音声スコアとの差分から前記第1の音声スコアを補正し、かつ前記第1の音楽スコアと前記第2の音楽スコアとの差分から前記第1の音楽スコアを補正し、
    この補正結果から得られる音声スコアおよび音楽スコアに基づいて前記入力オーディオ信号の音質制御を行う音質補正方法。
JP2010011428A 2010-01-21 2010-01-21 音質補正装置及び音質補正方法 Expired - Fee Related JP4709928B1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2010011428A JP4709928B1 (ja) 2010-01-21 2010-01-21 音質補正装置及び音質補正方法
US12/893,839 US8099276B2 (en) 2010-01-21 2010-09-29 Sound quality control device and sound quality control method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010011428A JP4709928B1 (ja) 2010-01-21 2010-01-21 音質補正装置及び音質補正方法

Publications (2)

Publication Number Publication Date
JP4709928B1 true JP4709928B1 (ja) 2011-06-29
JP2011150143A JP2011150143A (ja) 2011-08-04

Family

ID=44278171

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010011428A Expired - Fee Related JP4709928B1 (ja) 2010-01-21 2010-01-21 音質補正装置及び音質補正方法

Country Status (2)

Country Link
US (1) US8099276B2 (ja)
JP (1) JP4709928B1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111475633A (zh) * 2020-04-10 2020-07-31 复旦大学 基于座席语音的话术支持系统

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013171089A (ja) * 2012-02-17 2013-09-02 Toshiba Corp 音声補正装置、方法、及びプログラム
JP2015099266A (ja) 2013-11-19 2015-05-28 ソニー株式会社 信号処理装置、信号処理方法およびプログラム
CN105529036B (zh) * 2014-09-29 2019-05-07 深圳市赛格导航科技股份有限公司 一种语音质量的检测系统及方法
JP6705142B2 (ja) * 2015-09-17 2020-06-03 ヤマハ株式会社 音質判定装置及びプログラム
CN106228994B (zh) * 2016-07-26 2019-02-26 广州酷狗计算机科技有限公司 一种检测音质的方法和装置

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5752225A (en) * 1989-01-27 1998-05-12 Dolby Laboratories Licensing Corporation Method and apparatus for split-band encoding and split-band decoding of audio information using adaptive bit allocation to adjacent subbands
US5142656A (en) * 1989-01-27 1992-08-25 Dolby Laboratories Licensing Corporation Low bit rate transform coder, decoder, and encoder/decoder for high-quality audio
JPH04327888A (ja) * 1991-04-26 1992-11-17 Matsushita Electric Ind Co Ltd 自動洗濯機の運転方法とその制御装置
JP3099975B2 (ja) 1991-04-26 2000-10-16 株式会社日立製作所 洗濯機
US6724976B2 (en) * 1992-03-26 2004-04-20 Matsushita Electric Industrial Co., Ltd. Communication system
JP2835483B2 (ja) 1993-06-23 1998-12-14 松下電器産業株式会社 音声判別装置と音響再生装置
US6934677B2 (en) * 2001-12-14 2005-08-23 Microsoft Corporation Quantization matrices based on critical band pattern information for digital audio wherein quantization bands differ from critical bands
US7240001B2 (en) * 2001-12-14 2007-07-03 Microsoft Corporation Quality improvement techniques in an audio encoder
US7146313B2 (en) * 2001-12-14 2006-12-05 Microsoft Corporation Techniques for measurement of perceptual audio quality
JP2004133403A (ja) 2002-09-20 2004-04-30 Kobe Steel Ltd 音声信号処理装置
US7565213B2 (en) * 2004-05-07 2009-07-21 Gracenote, Inc. Device and method for analyzing an information signal
US7707034B2 (en) * 2005-05-31 2010-04-27 Microsoft Corporation Audio codec post-filter
US7831434B2 (en) * 2006-01-20 2010-11-09 Microsoft Corporation Complex-transform channel coding with extended-band frequency coding
US8194865B2 (en) * 2007-02-22 2012-06-05 Personics Holdings Inc. Method and device for sound detection and audio control
JP4851387B2 (ja) 2007-05-08 2012-01-11 シャープ株式会社 音響再生装置および音響再生方法
WO2009039897A1 (en) * 2007-09-26 2009-04-02 Fraunhofer - Gesellschaft Zur Förderung Der Angewandten Forschung E.V. Apparatus and method for extracting an ambient signal in an apparatus and method for obtaining weighting coefficients for extracting an ambient signal and computer program
JP4327888B1 (ja) 2008-05-30 2009-09-09 株式会社東芝 音声音楽判定装置、音声音楽判定方法及び音声音楽判定用プログラム
JP4327886B1 (ja) 2008-05-30 2009-09-09 株式会社東芝 音質補正装置、音質補正方法及び音質補正用プログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111475633A (zh) * 2020-04-10 2020-07-31 复旦大学 基于座席语音的话术支持系统
CN111475633B (zh) * 2020-04-10 2022-06-10 复旦大学 基于座席语音的话术支持系统

Also Published As

Publication number Publication date
US8099276B2 (en) 2012-01-17
US20110178805A1 (en) 2011-07-21
JP2011150143A (ja) 2011-08-04

Similar Documents

Publication Publication Date Title
JP4439579B1 (ja) 音質補正装置、音質補正方法及び音質補正用プログラム
JP4837123B1 (ja) 音質制御装置及び音質制御方法
JP4621792B2 (ja) 音質補正装置、音質補正方法及び音質補正用プログラム
JP4327886B1 (ja) 音質補正装置、音質補正方法及び音質補正用プログラム
US9368128B2 (en) Enhancement of multichannel audio
JP4709928B1 (ja) 音質補正装置及び音質補正方法
JP2011065093A (ja) オーディオ信号補正装置及びオーディオ信号補正方法
EP2194733B1 (en) Sound volume correcting device, sound volume correcting method, sound volume correcting program, and electronic apparatus.
JP2010014960A (ja) 音声音楽判定装置、音声音楽判定方法及び音声音楽判定用プログラム
JP4937393B2 (ja) 音質補正装置及び音声補正方法
EP4158627A1 (en) Method and apparatus for processing an initial audio signal
US20110235812A1 (en) Sound information determining apparatus and sound information determining method
JP5695896B2 (ja) 音質制御装置、音質制御方法及び音質制御用プログラム
JP4886907B2 (ja) オーディオ信号補正装置及びオーディオ信号補正方法
JP2013164518A (ja) 音声信号補正装置、音声信号補正方法、及び音声信号補正プログラム

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110222

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110318

LAPS Cancellation because of no payment of annual fees