JP5695896B2 - SOUND QUALITY CONTROL DEVICE, SOUND QUALITY CONTROL METHOD, AND SOUND QUALITY CONTROL PROGRAM - Google Patents
SOUND QUALITY CONTROL DEVICE, SOUND QUALITY CONTROL METHOD, AND SOUND QUALITY CONTROL PROGRAM Download PDFInfo
- Publication number
- JP5695896B2 JP5695896B2 JP2010286276A JP2010286276A JP5695896B2 JP 5695896 B2 JP5695896 B2 JP 5695896B2 JP 2010286276 A JP2010286276 A JP 2010286276A JP 2010286276 A JP2010286276 A JP 2010286276A JP 5695896 B2 JP5695896 B2 JP 5695896B2
- Authority
- JP
- Japan
- Prior art keywords
- sound
- quality control
- audio signal
- score
- sound quality
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Circuit For Audible Band Transducer (AREA)
Description
この発明の実施の形態は、再生すべきオーディオ(可聴周波数)信号に含まれる音声信号と音楽信号とに対して、それぞれ適応的に音質制御処理を施す音質制御装置、音質制御方法及び音質制御用プログラムに関する。 Embodiments of the present invention provide a sound quality control apparatus, a sound quality control method, and a sound quality control apparatus that adaptively perform sound quality control processing on a sound signal and a music signal included in an audio (audible frequency) signal to be reproduced. Regarding the program.
周知のように、例えばテレビジョン放送を受信する放送受信機器や、情報記録媒体からその記録情報を再生する情報再生機器等にあっては、受信した放送信号や情報記録媒体から読み取った信号等からオーディオ信号を再生する際に、オーディオ信号に音質制御処理を施すことによって、より一層の高音質化を図るようにしている。また、テレビ等の視聴時に周囲の背景雑音(環境音)によってテレビのコンテンツ再生音が聞きづらい状況において、再生音を補正する方法が提案されている。 As is well known, for example, in a broadcast receiving device that receives a television broadcast or an information reproducing device that reproduces recorded information from an information recording medium, the received broadcast signal or the signal read from the information recording medium When the audio signal is reproduced, the audio signal is subjected to sound quality control processing to further improve the sound quality. Also, a method has been proposed for correcting the playback sound in a situation where it is difficult to hear the content playback sound of the television due to ambient background noise (environmental sound) during viewing of the television or the like.
このような状況において、特許文献1では、コンテンツのオーディオ再生信号とマイクから取得される環境音のラウドネス(あるいはレベル)との比較や再生信号の有音声・無音声判定に基づく音量制御や、環境音のスペクトル重心周波数に応じたイコライジング処理による補正を行うことで、環境音に応じたオーディオ再生信号の出力レベルを制御する技術が開示されている。
Under such circumstances, in
しかしながら、上記技術は、コンテンツのオーディオ再生信号の解析は有音声か無音声かの2値判定であり、またその判定結果に応じて音声であればより音量を大きく制御するものである。この場合、有音声判定の場合でも環境音の信号特性によっては必ずしも音声が聞きづらいとは限らず、その場合にはより過剰に音量が増大されることになり、不快な音量になる可能性がある。 However, in the above technique, the analysis of the audio reproduction signal of the content is a binary determination of voiced or non-voiced, and the volume is controlled to be larger if the sound is in accordance with the determination result. In this case, even in the case of voiced determination, depending on the signal characteristics of the environmental sound, it is not always difficult to hear the sound. In that case, the volume is increased excessively, which may result in an unpleasant volume. .
また、上記技術は、コンテンツのオーディオ再生信号と環境音のラウドネス(あるいはレベル)との比較に応じた音量制御を行っているが、オーディオ再生信号の音種別に合った音質制御をしている訳ではなく、音量以外の音質制御(サラウンド、イコライザ、センター強調等)としては、必ずしも適切に制御されない。 In addition, the above technology performs volume control according to the comparison between the audio playback signal of the content and the loudness (or level) of the environmental sound, but it performs sound quality control that matches the sound type of the audio playback signal. Instead, sound quality control other than volume (surround, equalizer, center emphasis, etc.) is not necessarily controlled appropriately.
オーディオ信号に対して、再生信号の特性と視聴時の周囲の環境音の特性に応じた適切な音質制御処理を施すことを可能とした音質制御装置、音質制御方法及び音質制御用プログラムを提供することを目的とする。 Provided are a sound quality control device, a sound quality control method, and a sound quality control program capable of performing an appropriate sound quality control process according to the characteristics of a reproduction signal and the characteristics of ambient environmental sounds at the time of viewing. For the purpose.
実施形態に係る音質制御装置は、入力オーディオ信号に対してその再生音が周囲の環境音にマスクされないように周波数帯域毎にゲインを補正するための補正ゲインを算出する補正ゲイン算出手段と、入力オーディオ信号に含まれる1以上の音種別のうち、支配的な音種別に応じた周波数帯域毎の重み係数に基づいて、周波数帯域毎の補正ゲインを補正する補正ゲイン補正手段と、前記補正ゲイン補正手段で補正された周波数帯域毎の補正ゲインを用いて生成される音質制御信号に基づいて、入力オーディオ信号に対して音質制御処理を施す音質制御手段とを具備する。 The sound quality control apparatus according to the embodiment includes a correction gain calculation unit that calculates a correction gain for correcting a gain for each frequency band so that a reproduced sound is not masked by an ambient environmental sound with respect to an input audio signal, and an input Correction gain correction means for correcting a correction gain for each frequency band based on a weighting factor for each frequency band corresponding to the dominant sound type among one or more sound types included in the audio signal , and the correction gain correction Sound quality control means for performing sound quality control processing on the input audio signal based on the sound quality control signal generated using the correction gain for each frequency band corrected by the means.
以下、実施の形態について図面を参照して詳細に説明する。図1は、この実施の形態で説明するデジタルテレビジョン放送受信装置11の外観と、このデジタルテレビジョン放送受信装置11を中心として構成されるネットワークシステムの一例とを概略的に示している。
Hereinafter, embodiments will be described in detail with reference to the drawings. FIG. 1 schematically shows an external appearance of a digital television
すなわち、デジタルテレビジョン放送受信装置11は、主として、薄型のキャビネット12と、このキャビネット12を起立させて支持する支持台13とから構成されている。そして、このキャビネット12には、例えばSED(surface-conduction electron-emitter display)表示パネルまたは液晶表示パネル等でなる平面パネル型の映像表示器14、一対のスピーカ15,15、操作部16、リモートコントローラ17から送信される操作情報を受ける受光部18、マイクロホンMIC等が設置されている。
That is, the digital
また、このデジタルテレビジョン放送受信装置11には、例えばSD(secure digital)メモリカード、MMC(multimedia card)及びメモリスティック等の第1のメモリカード19が着脱可能となっており、この第1のメモリカード19に対して番組や写真等の情報の記録再生が行なわれるようになっている。
In addition, for example, a
さらに、このデジタルテレビジョン放送受信装置11には、例えば契約情報等の記録された第2のメモリカード[IC(integrated circuit)カード等]20が着脱可能となっており、この第2のメモリカード20に対して情報の記録再生が行なわれるようになっている。
Further, for example, a second memory card [IC (integrated circuit) card or the like] 20 in which contract information or the like is recorded can be attached to and detached from the digital
また、このデジタルテレビジョン放送受信装置11は、第1のLAN(local area network)端子21、第2のLAN端子22、USB(universal serial bus)端子23及びIEEE(institute of electrical and electronics engineers)1394端子24を備えている。
The digital
このうち、第1のLAN端子21は、LAN対応HDD(hard disk drive)専用ポートとして使用される。すなわち、この第1のLAN端子21は、それに接続されたNAS(network attached storage)であるLAN対応のHDD25に対して、イーサネット(登録商標)により情報の記録再生を行なうために使用される。
Among these, the
このように、デジタルテレビジョン放送受信装置11にLAN対応HDD専用ポートとしての第1のLAN端子21を設けることにより、他のネットワーク環境やネットワーク使用状況等に影響されることなく、HDD25に対してハイビジョン画質による放送番組の情報記録を安定して行なうことができる。
Thus, by providing the digital television
また、第2のLAN端子22は、イーサネット(登録商標)を用いた一般的なLAN対応ポートとして使用される。すなわち、この第2のLAN端子22は、ハブ26を介して、LAN対応のHDD27、PC(personal computer)28、HDD内蔵のDVD(digital versatile disk)レコーダ29等の機器を接続して、例えば家庭内ネットワークを構築し、これらの機器と情報伝送を行なうために使用される。
The
この場合、PC28及びDVDレコーダ29については、それぞれ、家庭内ネットワークにおいてコンテンツのサーバ機器として動作するための機能を持ち、さらにコンテンツのアクセスに必要なURI(uniform resource identifier)情報を提供するサービスを備えたUPnP(universal plug and play)対応機器として構成される。
In this case, each of the PC 28 and the
なお、DVDレコーダ29については、第2のLAN端子22を介して通信されるデジタル情報が制御系のみの情報であるため、デジタルテレビジョン放送受信装置11との間でアナログの映像及びオーディオ情報を伝送するために、専用のアナログ伝送路30が設けられている。
As for the
さらに、この第2のLAN端子22は、ハブ26に接続されたブロードバンドルータ31を介して、例えばインターネット等の外部のネットワーク32に接続される。そして、この第2のLAN端子22は、ネットワーク32を介してPC33や携帯電話34等と情報伝送を行なうためにも使用される。
Further, the
また、上記USB端子23は、一般的なUSB対応ポートとして使用されるもので、例えばハブ35を介して、携帯電話36、デジタルカメラ37、メモリカードに対するカードリーダ/ライタ38、HDD39、キーボード40等のUSB機器を接続し、これらのUSB機器と情報伝送を行なうために使用される。
The USB terminal 23 is used as a general USB compatible port. For example, a
さらに、上記IEEE1394端子24は、例えばAV−HDD41及びD(digital)−VHS(video home system)42等のような複数の情報記録再生機器をシリアル接続し、各機器と選択的に情報伝送を行なうために使用される。
Further, the IEEE 1394
図2は、上記したデジタルテレビジョン放送受信装置11の主要な信号処理系を示している。すなわち、BS/CS(broadcasting satellite/communication satellite)デジタル放送受信用のアンテナ43で受信した衛星デジタルテレビジョン放送信号は、入力端子44を介して衛星デジタル放送用のチューナ45に供給されることにより、所望のチャンネルの放送信号が選局される。
FIG. 2 shows a main signal processing system of the digital
そして、このチューナ45で選局された放送信号は、PSK(phase shift keying)復調器46及びTS(transport stream)復号器47に順次供給されることにより、デジタルの映像信号及びオーディオ信号に復調された後、信号処理部48に出力される。
The broadcast signal selected by the
また、地上波放送受信用のアンテナ49で受信した地上デジタルテレビジョン放送信号は、入力端子50を介して地上デジタル放送用のチューナ51に供給されることにより、所望のチャンネルの放送信号が選局される。
The terrestrial digital television broadcast signal received by the terrestrial
そして、このチューナ51で選局された放送信号は、例えば日本ではOFDM(orthogonal frequency division multiplexing)復調器52及びTS復号器53に順次供給されることにより、デジタルの映像信号及びオーディオ信号に復調された後、上記信号処理部48に出力される。
The broadcast signal selected by the
また、上記地上波放送受信用のアンテナ49で受信した地上アナログテレビジョン放送信号は、入力端子50を介して地上アナログ放送用のチューナ54に供給されることにより、所望のチャンネルの放送信号が選局される。そして、このチューナ54で選局された放送信号は、アナログ復調器55に供給されてアナログの映像信号及びオーディオ信号に復調された後、上記信号処理部48に出力される。
The terrestrial analog television broadcast signal received by the terrestrial
ここで、上記信号処理部48は、TS復号器47,53からそれぞれ供給されたデジタルの映像信号及びオーディオ信号に対して、選択的に所定のデジタル信号処理を施し、グラフィック処理部56及びオーディオ処理部57に出力している。
Here, the
また、上記信号処理部48には、複数(図示の場合は4つ)の入力端子58a,58b,58c,58dが接続されている。これら入力端子58a〜58dは、それぞれ、アナログの映像信号及びオーディオ信号を、デジタルテレビジョン放送受信装置11の外部から入力可能とするものである。
The
そして、上記信号処理部48は、上記アナログ復調器55及び各入力端子58a〜58dからそれぞれ供給されたアナログの映像信号及びオーディオ信号を選択的にデジタル化し、このデジタル化された映像信号及びオーディオ信号に対して所定のデジタル信号処理を施した後、グラフィック処理部56及びオーディオ処理部57に出力する。
The
グラフィック処理部56は、信号処理部48から供給されるデジタルの映像信号に、OSD(on screen display)信号生成部59で生成されるOSD信号を重畳して出力する機能を有する。このグラフィック処理部56は、信号処理部48の出力映像信号と、OSD信号生成部59の出力OSD信号とを選択的に出力すること、また、両出力をそれぞれ画面の半分を構成するように組み合わせて出力することができる。
The
グラフィック処理部56から出力されたデジタルの映像信号は、映像処理部60に供給される。この映像処理部60は、入力されたデジタルの映像信号を、前記映像表示器14で表示可能なフォーマットのアナログ映像信号に変換した後、映像表示器14に出力して映像表示させるとともに、出力端子61を介して外部に導出させる。
The digital video signal output from the
また、上記オーディオ処理部57は、入力されたデジタルのオーディオ信号に対して、後述する音質制御処理を施した後、前記スピーカ15で再生可能なフォーマットのアナログオーディオ信号に変換している。そして、このアナログオーディオ信号は、スピーカ15に出力されてオーディオ再生に供されるとともに、出力端子62を介して外部に導出される。
The
さらに、このオーディオ処理部57には、前記マイクロホンMICが接続されており、マイクロホンMICによって採取した周囲の環境音に対応した信号が供給されるようになっている。
Furthermore, the microphone MIC is connected to the
ここで、このデジタルテレビジョン放送受信装置11は、上記した各種の受信動作を含むその全ての動作を制御部63によって統括的に制御されている。この制御部63は、CPU(central processing unit)63aを内蔵しており、前記操作部16からの操作情報、または、リモートコントローラ17から送出され前記受光部18に受信された操作情報を受けて、その操作内容が反映されるように各部をそれぞれ制御している。
Here, in the digital television
この場合、制御部63は、主として、そのCPU63aが実行する制御プログラムを格納したROM(read only memory)63bと、該CPU63aに作業エリアを提供するRAM(random access memory)63cと、各種の設定情報及び制御情報等が格納される不揮発性メモリ63dとを利用している。
In this case, the
また、この制御部63は、カードI/F(interface)64を介して、前記第1のメモリカード19が装着可能なカードホルダ65に接続されている。これによって、制御部63は、カードホルダ65に装着された第1のメモリカード19と、カードI/F64を介して情報伝送を行なうことができる。
The
さらに、上記制御部63は、カードI/F66を介して、前記第2のメモリカード20が装着可能なカードホルダ67に接続されている。これにより、制御部63は、カードホルダ67に装着された第2のメモリカード20と、カードI/F66を介して情報伝送を行なうことができる。
Further, the
また、上記制御部63は、通信I/F68を介して第1のLAN端子21に接続されている。これにより、制御部63は、第1のLAN端子21に接続されたLAN対応のHDD25と、通信I/F68を介して情報伝送を行なうことができる。この場合、制御部63は、DHCP(dynamic host configuration protocol)サーバ機能を有し、第1のLAN端子21に接続されたLAN対応のHDD25にIP(internet protocol)アドレスを割り当てて制御している。
The
さらに、上記制御部63は、通信I/F69を介して第2のLAN端子22に接続されている。これにより、制御部63は、第2のLAN端子22に接続された各機器(図1参照)と、通信I/F69を介して情報伝送を行なうことができる。
Further, the
また、上記制御部63は、USB I/F70を介して前記USB端子23に接続されている。これにより、制御部63は、USB端子23に接続された各機器(図1参照)と、USB I/F70を介して情報伝送を行なうことができる。
The
さらに、上記制御部63は、IEEE1394 I/F71を介してIEEE1394端子24に接続されている。これにより、制御部63は、IEEE1394端子24に接続された各機器(図1参照)と、IEEE1394 I/F71を介して情報伝送を行なうことができる。
Further, the
図3は、上記オーディオ処理部57内に備えられる音質制御処理部72を示している。この音質制御処理部72では、入力端子73に供給されたオーディオ信号が、直列接続された複数(図示の場合は4つ)の音質制御部74,75,76,77によって、それぞれ異なる種類の音質制御処理を施された後、出力端子78から取り出される。
FIG. 3 shows a sound quality
一例を言えば、音質制御部74は入力オーディオ信号にリバーブ処理を施し、音質制御部75は入力オーディオ信号にワイドステレオ処理を施し、音質制御部76は入力オーディオ信号にセンター強調処理を施し、音質制御部77は入力オーディオ信号にイコライザ処理を施している。
For example, the sound
そして、これらの音質制御部74〜77にあっては、後述する補正特性制御部79から各音質制御部74〜77に対してそれぞれ別個に生成されて出力される音質制御信号に基づいて、入力オーディオ信号に施す音質制御処理の強度が独立に制御されるようになっている。
In these sound
一方、上記音質制御処理部72では、入力端子73に供給されたオーディオ信号が特徴パラメータ算出部80に供給されている。この特徴パラメータ算出部80は、入力されたオーディオ信号から、音声信号と音楽信号とを判別するための各種の特徴パラメータ、音楽信号と例えばBGM(back ground music)、拍手及び歓声等の背景音となる背景音信号とを判別するための各種の特徴パラメータ、音声や音楽の信号とノイズ信号とを判別するための各種の特徴パラメータ等を算出している。
On the other hand, in the sound quality
この場合、特徴パラメータ算出部80は、入力されたオーディオ信号を、図4(a)に示すように、数100msec程度のフレーム単位に切り出し、さらに、図4(b)に示すように、各フレームを数10msec程度のサブフレームに分割する。そして、サブフレーム単位で各種の特徴パラメータを生成するための判別情報を取得し、取得した判別情報のフレーム単位での統計量を算出することにより、特徴パラメータを算出する処理を行なっている。
In this case, the feature
すなわち、特徴パラメータ算出部80では、入力されたオーディオ信号から、サブフレーム単位で、音声信号と音楽信号とを判別するための各種の判別情報、音楽信号と背景音信号とを判別するための各種の判別情報、音声や音楽の信号とノイズ信号とを判別するための各種の判別情報等を取得し、取得した各種の判別情報それぞれについて、フレーム単位での統計量(例えば平均,分散,最大,最小等)を求めることにより、種々の特徴パラメータを算出している。
That is, the feature
例えば、特徴パラメータ算出部80では、サブフレーム単位で入力オーディオ信号の信号振幅の二乗和であるパワー値を判別情報として算出し、その算出されたパワー値に対するフレーム単位での統計量を求めることにより、パワー値に関する特徴パラメータpwを生成している。
For example, the feature
また、特徴パラメータ算出部80では、サブフレーム単位で入力オーディオ信号の時間波形が振幅方向に零を横切る回数である零交差周波数を判別情報として算出し、その算出された零交差周波数に対するフレーム単位での統計量を求めることにより、零交差周波数に関する特徴パラメータzcを生成している。
Also, the feature
さらに、特徴パラメータ算出部80では、サブフレーム単位で入力オーディオ信号の周波数領域でのスペクトル変動を判別情報として算出し、その算出されたスペクトル変動に対するフレーム単位での統計量を求めることにより、スペクトル変動に関する特徴パラメータsfを生成している。
Further, the feature
また、特徴パラメータ算出部80では、サブフレーム単位で入力オーディオ信号における2チャンネルステレオの左右(LR)信号のパワー比(LRパワー比)を判別情報として算出し、その算出されたLRパワー比に対するフレーム単位での統計量を求めることにより、LRパワー比に関する特徴パラメータlrを生成している。
Further, the feature
さらに、特徴パラメータ算出部80では、サブフレーム単位で入力オーディオ信号のスペクトル平坦度を判別情報として算出し、その算出されたスペクトル平坦度に対するフレーム単位での統計量を求めることにより、ノイズ信号に関する特徴パラメータSFMを生成している。
Further, the feature
図5は、上記特徴パラメータ算出部80が、入力されたオーディオ信号から、音声信号と音楽信号とを判別するための各種の特徴パラメータ、音楽信号と背景音信号とを判別するための各種の特徴パラメータ、音声や音楽の信号とノイズ信号とを判別するための各種の特徴パラメータを生成する処理動作の一例をまとめたフローチャートを示している。
FIG. 5 shows various feature parameters for the feature
まず、処理が開始(ステップS5a)されると、特徴パラメータ算出部80は、ステップS5bで、入力オーディオ信号から数10msec程度のサブフレームを抽出する。そして、特徴パラメータ算出部80は、ステップS5cで、入力オーディオ信号からサブフレーム単位でのパワー値を算出する。
First, when the process is started (step S5a), the feature
その後、特徴パラメータ算出部80は、ステップS5dで、入力オーディオ信号からサブフレーム単位での零交差周波数を算出し、ステップS5eで、入力オーディオ信号からサブフレーム単位でのスペクトル変動を算出し、ステップS5fで、入力オーディオ信号からサブフレーム単位でのLRパワー比を算出する。
Thereafter, the feature
また、特徴パラメータ算出部80は、ステップS5gで、入力オーディオ信号からサブフレーム単位でスペクトル平坦度を算出する。同様に、特徴パラメータ算出部80は、ステップS5hで、入力オーディオ信号からサブフレーム単位で他の算出可能な判別情報を算出する。
Also, the feature
その後、特徴パラメータ算出部80は、ステップS5iで、サブフレーム単位で算出された各種の判別情報が、数100msec程度のフレーム分蓄積されると、ステップS5jで、各種の判別情報に対してそれぞれフレーム単位での統計量を求めることにより種々の特徴パラメータを生成し、処理を終了(ステップS5k)する。
After that, when various types of discrimination information calculated in units of subframes are accumulated for about several hundreds msec in step S5i, the feature
上記のようにして、特徴パラメータ算出部80で生成された各種の特徴パラメータは、再び、図3に示すように、音声・音楽識別スコア算出部81、音楽・背景音識別スコア算出部82及び検出スコア算出部83にそれぞれ供給される。
As described above, the various feature parameters generated by the feature
このうち、音声・音楽識別スコア算出部81は、特徴パラメータ算出部80で生成された各種の特徴パラメータに基づいて、入力端子73に供給されたオーディオ信号が、スピーチのような音声信号の特性に近いか、音楽(楽曲)信号の特性に近いかを定量的に示す音声・音楽識別スコアS1を算出し、上記検出スコア算出部83に出力している。
Among them, the voice / music identification
また、音楽・背景音識別スコア算出部82は、特徴パラメータ算出部80で生成された各種の特徴パラメータに基づいて、入力端子73に供給されたオーディオ信号が、音楽信号の特性に近いか、背景音信号の特性に近いかを定量的に示す音楽・背景音識別スコアS2を算出し、上記検出スコア算出部83に出力している。
In addition, the music / background sound identification
この検出スコア算出部83は、詳細は後述するが、音声・音楽識別スコアS1、音楽・背景音識別スコアS2及び特徴パラメータに基づいて、入力端子73に供給されたオーディオ信号に、音声信号が含まれている確度を示す音声スコアSS、音楽信号が含まれている確度を示す音楽スコアSM、ノイズ信号が含まれている確度を示すノイズスコアSNを生成している。
As will be described in detail later, the detection
ここで、上記音声・音楽識別スコアS1及び音楽・背景音識別スコアS2の算出について説明するに先立ち、各種の特徴パラメータの性質について説明しておくことにする。まず、上記パワー値に関する特徴パラメータpwについて説明する。すなわち、パワー変動に関して言えば、一般に、音声は、発話している区間と沈黙している区間とが交互に現れるため、サブフレーム間での信号パワーの違いが大きくなり、フレーム単位で見ると各サブフレーム間のパワー値の分散が大きくなる傾向にある。ここでパワー変動とは、サブフレームにおいて計算したパワー値について、より長いフレーム区間内での値の変動に着目した特徴量を指し、具体的にはパワーの分散値等を用いる。 Here, before describing the calculation of the speech / music identification score S1 and the music / background sound identification score S2, the characteristics of various feature parameters will be described. First, the characteristic parameter pw related to the power value will be described. In other words, in terms of power fluctuations, generally speaking, since speech and silent intervals appear alternately, the difference in signal power between subframes increases. There is a tendency for the dispersion of power values between subframes to increase. Here, the power fluctuation refers to a feature amount focused on a fluctuation of a value in a longer frame section with respect to a power value calculated in a subframe, and specifically, a power variance value or the like is used.
また、上記零交差周波数に関する特徴パラメータzcについて説明すると、零交差周波数に関して言えば、前述した発話区間と沈黙区間との違いに加えて、音声信号は零交差周波数が子音では高く母音では低くなるため、フレーム単位で見ると各サブフレーム間の零交差周波数の分散が大きくなる傾向にある。 The feature parameter zc related to the zero-crossing frequency will be described. In terms of the zero-crossing frequency, in addition to the difference between the speech period and the silence period described above, the voice signal has a high zero-crossing frequency for consonants and low for vowels. When viewed in units of frames, the dispersion of the zero crossing frequency between the subframes tends to increase.
さらに、上記スペクトル変動に関する特徴パラメータsfについて説明すると、スペクトル変動に関して言えば、音声信号は、音楽信号のようにトーナル(調音構造的)な信号に比べて周波数特性の変動が激しいため、フレーム単位で見るとスペクトル変動分散が大きくなる傾向にある。 Further, the characteristic parameter sf related to the spectrum variation will be described. In terms of the spectrum variation, since the audio signal has a greater frequency characteristic variation than a tonal (articulation structural) signal such as a music signal, it is in units of frames. As seen, the spectral fluctuation dispersion tends to increase.
また、上記したLRパワー比に関する特徴パラメータlrについて説明すると、LRパワー比に関して言えば、音楽信号では、ボーカル以外の楽器演奏がセンター以外に定位していることが多いため、左右のチャンネル間のパワー比が大きくなる傾向にある。 Further, the characteristic parameter lr related to the LR power ratio will be described. In terms of the LR power ratio, in the music signal, musical instrument performances other than vocals are often localized outside the center. The ratio tends to increase.
さらに、上記ノイズ信号に関する特徴パラメータSFMについて説明すると、この特徴パラメータSFMは、ノイズ信号に典型的に見られるスペクトル平坦度を利用しており、このスペクトル平坦度に対するフレーム単位での統計量を求めることにより生成することができる。 Further, the characteristic parameter SFM related to the noise signal will be described. The characteristic parameter SFM uses a spectral flatness typically seen in a noise signal, and a statistic in units of frames is obtained for the spectral flatness. Can be generated.
次に、上記音声・音楽識別スコア算出部81及び音楽・背景音識別スコア算出部82における音声・音楽識別スコアS1及び音楽・背景音識別スコアS2の算出について説明する。音声・音楽識別スコアS1及び音楽・背景音識別スコアS2の算出手法については1つの手法に特定しないが、ここでは、線形識別関数を用いた算出手法について説明する。
Next, calculation of the voice / music identification score S1 and the music / background sound identification score S2 in the voice / music identification
線形識別関数を用いる手法では、音声・音楽識別スコアS1及び音楽・背景音識別スコアS2の算出に必要な各種特徴パラメータに乗ずる重み付け係数をオフライン学習により算出している。この重み付け係数としては、信号種別の判別に効果の高い特徴パラメータほど大きい値が与えられる。 In the method using the linear discriminant function, weighting coefficients to be multiplied by various feature parameters necessary for calculating the speech / music discrimination score S1 and the music / background sound discrimination score S2 are calculated by offline learning. As this weighting coefficient, a larger value is given to a feature parameter that is more effective in determining the signal type.
また、重み付け係数は、音声・音楽識別スコアS1については、予め準備した多くの既知の音声信号及び音楽信号を基準となる参照データとして入力し、その参照データについて特徴パラメータを学習することで算出され、音楽・背景音識別スコアS2については、予め準備した多くの既知の音楽信号及び背景音信号を基準となる参照データとして入力し、その参照データについて特徴パラメータを学習することで算出される。 Further, the weighting coefficient is calculated by inputting many known speech signals and music signals prepared in advance as reference data for the speech / music identification score S1, and learning feature parameters for the reference data. The music / background sound identification score S2 is calculated by inputting many known music signals and background sound signals prepared in advance as reference data and learning feature parameters for the reference data.
まず、音声・音楽識別スコアS1の算出について説明すると、今、学習対象とする参照データのk番目のフレームの特徴パラメータセットをベクトルxで表わし、入力オーディオ信号が属する信号区間{音声、音楽}としてzで以下のように表わすものとする。 First, the calculation of the speech / music identification score S1 will be described. The feature parameter set of the kth frame of the reference data to be learned is represented by a vector x, and the signal section {speech, music} to which the input audio signal belongs is represented. Let z be the following:
xk=(1,x1 k,x2 k,……,xn k) … (1)
zk={−1,+1} … (2)
ここで、上記(1)式の各要素は、抽出したn個の特徴パラメータに対応する。また、上記(2)式の−1,+1は、それぞれ、音声区間及び音楽区間に対応し、使用する音声・音楽判別用の参照データの正解信号種別となる区間について、予め人手で2値のラベル付けをしたものである。さらに、上記(2)式より、以下の線形識別関数を立てる。
x k = (1, x 1 k , x 2 k ,..., x n k ) (1)
z k = {− 1, + 1} (2)
Here, each element of the above equation (1) corresponds to the extracted n feature parameters. Further, −1 and +1 in the above equation (2) correspond to the voice section and the music section, respectively, and for the section that is the correct signal type of the reference data for voice / music discrimination to be used, a binary value is manually set in advance. Labeled. Furthermore, the following linear discriminant function is established from the above equation (2).
f(x)=A0+A1・x1+A2・x2+……+An・xn … (3)
k=1〜N(Nは参照データの入力フレーム数)に対し、ベクトルxを抽出し、(3)式の評価値と(2)式の正解信号種別との誤差二乗和である(4)式が最小となる正規方程式を解くことにより、各特徴パラメータに対する重み付け係数Ai(i=0〜n)が決定される。
A vector x is extracted for k = 1 to N (N is the number of input frames of reference data), and is the sum of squared errors between the evaluation value of equation (3) and the correct signal type of equation (2) (4) A weighting coefficient A i (i = 0 to n) for each feature parameter is determined by solving a normal equation that minimizes the equation.
学習によって決定した重み付け係数を用い、実際に識別するオーディオ信号の評価値を(3)式より計算し、f(x)<0であれば音声区間、f(x)>0であれば音楽区間と判定する。そして、このときのf(x)が上記音声・音楽識別スコアS1に相当する。これにより、
S1=A0+A1・x1+A2・x2+……+An・xn
が算出される。
Using the weighting coefficient determined by learning, the evaluation value of the audio signal that is actually identified is calculated from the equation (3). If f (x) <0, the speech interval, and if f (x)> 0, the music interval Is determined. In this case, f (x) corresponds to the voice / music identification score S1. This
S1 = A 0 + A 1 · x 1 + A 2 · x 2 + …… + A n · x n
Is calculated.
また、音楽・背景音識別スコアS2の算出についても同様に、学習対象とする参照データのk番目のフレームの特徴パラメータセットをベクトルyで表わし、入力オーディオ信号が属する信号区間{背景音、音楽}としてzで以下のように表わすものとする。 Similarly, for the calculation of the music / background sound identification score S2, the feature parameter set of the kth frame of the reference data to be learned is represented by the vector y, and the signal section {background sound, music} to which the input audio signal belongs is represented. Let z be expressed as follows.
yk=(1,y1 k,y2 k,……,ym k) … (5)
zk={−1,+1} … (6)
ここで、上記(5)式の各要素は、抽出したm個の特徴パラメータに対応する。また、上記(6)式の−1,+1は、それぞれ、背景音区間及び音楽区間に対応し、使用する音楽・背景音判別用の参照データの正解信号種別となる区間について、予め人手で2値のラベル付けをしたものである。さらに、上記(6)式より、以下の線形識別関数を立てる。
y k = (1, y 1 k , y 2 k ,..., y m k ) (5)
z k = {− 1, + 1} (6)
Here, each element of the above equation (5) corresponds to the extracted m feature parameters. Further, −1 and +1 in the above equation (6) correspond to the background sound section and the music section, respectively, and the section that is the correct signal type of the reference data for music / background sound discrimination to be used is manually 2 in advance. The value is labeled. Furthermore, the following linear discriminant function is established from the above equation (6).
f(y)=B0+B1・y1+B2・y2+……+Bm・ym … (7)
k=1〜N(Nは参照データの入力フレーム数)に対し、ベクトルyを抽出し、(7)式の評価値と(6)式の正解信号種別との誤差二乗和である(8)式が最小となる正規方程式を解くことにより、各特徴パラメータに対する重み付け係数Bi(i=0〜m)が決定される。
A vector y is extracted for k = 1 to N (N is the number of input frames of reference data), and is the sum of squared errors between the evaluation value of equation (7) and the correct signal type of equation (6) (8) By solving the normal equation that minimizes the equation, the weighting coefficient B i (i = 0 to m) for each feature parameter is determined.
学習によって決定した重み付け係数を用い、実際に識別するオーディオ信号の評価値を(7)式より計算し、f(y)<0であれば背景音区間、f(y)>0であれば音楽区間と判定する。そして、このときのf(y)が上記音楽・背景音識別スコアS2に相当する。これにより、
S2=B0+B1・y1+B2・y2+……+Bm・ym
が算出される。
Using the weighting coefficient determined by learning, the evaluation value of the audio signal to be actually identified is calculated from the equation (7). If f (y) <0, the background sound interval is calculated, and if f (y)> 0, the music is calculated. Judged as a section. In this case, f (y) corresponds to the music / background sound identification score S2. This
S2 = B 0 + B 1 · y 1 + B 2 · y 2 + …… + B m · y m
Is calculated.
なお、音声・音楽識別スコアS1及び音楽・背景音識別スコアS2の算出については、上記した線形識別関数を用いたオフライン学習により求めた重み付け係数を特徴パラメータに乗ずる手法に限定されるものではなく、例えば各特徴パラメータの算出値に対して経験的な閾値を設定し、この閾値との比較判定に応じて各特徴パラメータに重み付けされた得点を付与し、スコアを算出する等の手法も用いることが可能である。 Note that the calculation of the speech / music identification score S1 and the music / background sound identification score S2 is not limited to the method of multiplying the feature parameter by the weighting coefficient obtained by offline learning using the linear identification function described above. For example, an empirical threshold value is set for the calculated value of each feature parameter, a weighted score is assigned to each feature parameter in accordance with a comparison determination with the threshold value, and a score is calculated. Is possible.
図6は、上記のように線形識別関数を用いたオフライン学習で算出した各特徴パラメータの重み付け係数に基づき、音声・音楽識別スコア算出部81及び音楽・背景音識別スコア算出部82が音声・音楽識別スコアS1及び音楽・背景音識別スコアS2を算出する処理動作の一例をまとめたフローチャートを示している。
FIG. 6 shows that the speech / music identification
すなわち、処理が開始(ステップS6a)されると、音声・音楽識別スコア算出部81は、ステップS6bで、特徴パラメータ算出部80で算出される各種の特徴パラメータに対して、予め学習した音声・音楽判別用の参照データの特徴パラメータに基づく重み付け係数を付与し、重み付け係数を乗じた特徴パラメータを算出する。その後、音声・音楽識別スコア算出部81は、ステップS6cで、重み付け係数を乗じた各特徴パラメータの総和を、音声・音楽識別スコアS1として算出する。
That is, when the process is started (step S6a), the voice / music identification
また、音楽・背景音識別スコア算出部82は、ステップS6dで、特徴パラメータ算出部80で算出される各種の特徴パラメータに対して、予め学習した音楽・背景音判別用の参照データの特徴パラメータに基づく重み付け係数を付与し、重み付け係数を乗じた特徴パラメータを算出する。その後、音声・背景音識別スコア算出部82は、ステップS6eで、重み付け係数を乗じた各特徴パラメータの総和を、音楽・背景音識別スコアS2として算出し、処理を終了(ステップS6f)する。
In addition, the music / background sound identification
図7乃至図9は、上記検出スコア算出部83が、音声・音楽識別スコアS1、音楽・背景音識別スコアS2及び特徴パラメータに基づいて、音声スコアSS、音楽スコアSM及びノイズスコアSNを生成する処理動作の一例をまとめたフローチャートを示している。すなわち、処理が開始(ステップS7a)されると、検出スコア算出部83には、ステップS7bで、音声・音楽識別スコアS1、音楽・背景音識別スコアS2及び特徴パラメータが供給される。
7 to 9, the detection
すると、検出スコア算出部83は、ステップS7cで、音声・音楽識別スコアS1が負値(S1<0、つまり、音楽より音声に近い)であるか否かを判別し、負値であると判断された場合(YES)、ステップS7dで、音楽・背景音識別スコアS2が正値(S2>0、つまり、背景音より音楽に近い)であるか否かを判別する。
Then, in step S7c, the detection
そして、音楽・背景音識別スコアS2が正値であると判断された場合(YES)、つまり、S1<0かつS2>0のとき、検出スコア算出部83は、ステップS7eで、音声・音楽識別スコアS1が負値であるため、その絶対値をとった値、つまり、|S1|を音声スコアSSとして設定する。その後、検出スコア算出部83は、ステップS7fで、音声信号特性に近いので音楽スコアSMを0に設定する。
When it is determined that the music / background sound identification score S2 is a positive value (YES), that is, when S1 <0 and S2> 0, the detected
また、上記ステップS7dで音楽・背景音識別スコアS2が正値でない(S2<0、つまり、音楽より背景音に近い)と判断された場合(NO)、つまり、S1<0かつS2<0のとき、検出スコア算出部83は、ステップS7gで、音声・音楽識別スコアS1が負値であるため、その絶対値をとった値、つまり、|S1|に、背景音に含まれる音声成分を考慮してαs・|S2|を加算した値(|S1|+αs・|S2|)を、音声スコアSSとして設定する。この場合、音楽・背景音識別スコアS2が負値であるため、その絶対値を取った値|S2|に、音声成分に関して予め設定された所定の重み付け係数αsを乗算することになる。その後、検出スコア算出部83は、ステップS7hで、音声信号特性に近いので音楽スコアSMを0に設定する。
If it is determined in step S7d that the music / background sound identification score S2 is not a positive value (S2 <0, that is, the background sound is closer to the music) (NO), that is, S1 <0 and S2 <0. At this time, since the speech / music identification score S1 has a negative value in step S7g, the detection
そして、上記ステップS7fまたはステップS7hの後、検出スコア算出部83は、ステップS7iで、音声スコアSSを安定化させるための補正値SS3及び音楽スコアSMを安定化させるための補正値SM3を更新する。この更新処理は、連続してCs回以上、音声スコアSSが正値(SS>0)であった場合、既に算出されている安定化補正値SS3に、音声成分に関して予め設定された所定の安定化係数βsを加算した値(SS3+βs)を、音声スコアSSに対する新たな安定化補正値SS3として更新する。また、既に算出されている安定化補正値SM3から、音楽成分に関して予め設定された所定の安定化係数γmを減算した値(SM3−γm)を、音楽スコアSMに対する新たな安定化補正値SM3として更新する。
After step S7f or step S7h, the detection
一方、上記ステップS7cで音声・音楽識別スコアS1が負値でない(S1>0、つまり、音声より音楽に近い)と判断された場合(NO)、検出スコア算出部83は、ステップS8aで、音楽・背景音識別スコアS2が正値(S2>0、つまり、背景音より音楽に近い)であるか否かを判別する。
On the other hand, if it is determined in step S7c that the voice / music identification score S1 is not a negative value (S1> 0, that is, closer to music than voice) (NO), the detected
そして、音楽・背景音識別スコアS2が正値であると判断された場合(YES)、つまり、S1>0かつS2>0のとき、検出スコア算出部83は、ステップS8bで、音楽信号特性に近いので音声スコアSSを0に設定する。その後、検出スコア算出部83は、ステップS8cで、音声・音楽識別スコアS1を音楽スコアSMとして設定する。
When it is determined that the music / background sound identification score S2 is a positive value (YES), that is, when S1> 0 and S2> 0, the detection
また、上記ステップS8aで音楽・背景音識別スコアS2が正値でない(S2<0、つまり、音楽より背景音に近い)と判断された場合(NO)、つまり、S1>0かつS2<0のとき、検出スコア算出部83は、ステップS8dで、音声・音楽識別スコアS1を負値にして音声度合いに対応させた値、つまり、−S1に、背景音に含まれる音声成分を考慮してαs・|S2|を加算した値(−S1+αs・|S2|)を、音声スコアSSとして設定する。この場合、音楽・背景音識別スコアS2が負値であるため、その絶対値を取った値|S2|に、音声成分に関して予め設定された所定の重み付け係数αsを乗算することになる。
If it is determined in step S8a that the music / background sound identification score S2 is not a positive value (S2 <0, that is, the background sound is closer to the music) (NO), that is, S1> 0 and S2 <0. In step S8d, the detection
その後、検出スコア算出部83は、ステップS8eで、音声・音楽識別スコアS1から背景音に含まれる音楽成分を考慮してαm・|S2|を減算した値(S1−αm・|S2|)を、音楽スコアSMとして設定する。この場合、音楽・背景音識別スコアS2が負値であるため、その絶対値を取った値|S2|に、音楽成分に関して予め設定された所定の重み付け係数αmを乗算することになる。
Thereafter, in step S8e, the detection
そして、上記ステップS8cまたはステップS8eの後、検出スコア算出部83は、ステップS8fで、音声スコアSSを安定化させるための補正値SS3及び音楽スコアSMを安定化させるための補正値SM3を更新する。この更新処理は、連続してCm回以上、音楽スコアSMが正値(SM>0)であった場合、既に算出されている安定化補正値SS3から、音声成分に関して予め設定された所定の安定化係数γsを減算した値(SS3−γs)を、音声スコアSSに対する新たな安定化補正値SS3として更新する。また、既に算出されている安定化補正値SM3に、音楽成分に関して予め設定された所定の安定化係数βmを加算した値(SM3+βm)を、音楽スコアSMに対する新たな安定化補正値SM3として更新する。
After step S8c or step S8e, the detection
ここで、上記ステップS7iまたはステップS8fの後、検出スコア算出部83は、ステップS7jで、安定化補正値SS3及びSM3をクリップする。これは、音声スコアSSに対する安定化補正値SS3を、予め設定された最小値SS3minと最大値SS3maxとの範囲内に収める、つまり、SS3min≦SS3≦SS3maxとしている。また、音楽スコアSMに対する安定化補正値SM3を、予め設定された最小値SM3minと最大値SM3maxとの範囲内に収める、つまり、SM3min≦SM3≦SM3maxとしている。
Here, after step S7i or step S8f, the detection
その後、検出スコア算出部83は、ステップS9aで、クリップされた安定化補正値SS3を音声スコアSSに加算することにより、音声スコアSSに対する安定化補正処理を行なうとともに、クリップされた安定化補正値SM3を音楽スコアSMに加算することにより、音楽スコアSMに対する安定化補正処理を実行する。
Thereafter, in step S9a, the detection
次に、上記検出スコア算出部83は、ステップS9bで、ノイズ・非ノイズ識別ベーススコアS3を算出する。このノイズ・非ノイズ識別ベーススコアS3の算出は、特徴パラメータSFMを利用しており、複数の周波数帯域(低域、中域、高域)毎のスペクトル平坦度に対する統計量を求めることにより算出される。
Next, the detection
その後、検出スコア算出部83は、ステップS9cで、ノイズ・非ノイズ識別ベーススコアS3が正値(S3>0)であるか否かを判別し、正値であると判断された場合(YES)、ステップS9dで、ノイズ・非ノイズ識別ベーススコアS3をノイズスコアSNとして設定する。また、上記ステップS9cでノイズ・非ノイズ識別ベーススコアS3が正値でないと判断された場合(NO)、検出スコア算出部83は、ステップS9eで、ノイズスコアSNを0に設定する。
Thereafter, the detection
そして、上記ステップS9dまたはステップS9eの後、検出スコア算出部83は、ステップS9fで、設定されたノイズスコアSNに対して安定化補正処理やクリッピング処理を施し、ステップS9gで、スコア間調整補正を実行して処理を終了(ステップS9h)する。
After step S9d or step S9e, the detection
このスコア間調整補正は、設定された音声スコアSS、音楽スコアSM及びノイズスコアSN相互間のバランス調整を行なうもので、例えば音楽スコアSM及びノイズスコアSNが共に規定値より大きい場合には、主観的な印象に合わせるため音楽スコアSMをノイズスコアSNに応じて低くするように補正する等の動作である。 This inter-score adjustment correction adjusts the balance among the set speech score SS, music score SM, and noise score SN. For example, when the music score SM and the noise score SN are both greater than a prescribed value, For example, the music score SM is corrected so as to be lowered according to the noise score SN in order to match a specific impression.
そして、上記検出スコア算出部83は、スコア間調整補正処理が施された音声スコアSS、音楽スコアSM及びノイズスコアSNを、前記補正特性制御部79(図3参照)に出力している。
The detected
ここで、再び図3に示すように、音質制御処理部72は、環境音マスキング特性算出部84を備えている。この環境音マスキング特性算出部84には、入力端子85を介して周囲の環境音に対応した信号が供給されている。この場合、入力端子85に供給される信号は、前記マイクロホンMICで採取した周囲の環境音に対応した信号から、エコーキャンセラ等を用いてオーディオ信号の再生音の回り込み成分を抑制したものとなっている。
Here, as shown in FIG. 3 again, the sound quality
そして、この環境音マスキング特性算出部84は、入力端子85に供給された環境音信号レベルに対し、聴覚の周波数マスキング特性を参照してノイズマスキングレベルを算出している。このノイズマスキングレベルの算出は、環境音信号を時間周波数変換した周波数帯域毎のパワーに基づいた周波数マスキング特性を、全帯域の周波数成分に対して重ね合わせることで実現される。
The environmental sound masking
この環境音マスキング特性算出部84で算出されたノイズマスキングレベルは、マスキング補正ゲイン算出部86に供給される。このマスキング補正ゲイン算出部86は、図10に示すように、オーディオ信号の周波数特性(パワー)が、環境音マスキング特性算出部84で算出されたノイズマスキングレベル以下の帯域に対して、信号成分がノイズに埋もれて聴取しにくい事態が生じないように、図中矢印で示すように、ノイズマスキングレベル以上に引き上げるためのゲイン係数を、補正ゲイン値として周波数帯域毎に算出している。
The noise masking level calculated by the environmental sound masking
ただし、過大なゲイン補正や、時系列での急激なゲインの変化は、聴感状の違和感を招くので、算出したゲイン係数に対してクリッピング処理や時間平滑化処理を施した値を補正ゲイン値Gm[k]としている。なお、kは、周波数帯域を示すインデックスである。そして、マスキング補正ゲイン算出部86は、算出した補正ゲイン値Gm[k]を上記補正特性制御部79に出力している。
However, excessive gain correction and sudden gain changes in time series cause a sense of discomfort in the sense of hearing. Therefore, the value obtained by subjecting the calculated gain coefficient to clipping or time smoothing is the correction gain value Gm. [K]. Note that k is an index indicating a frequency band. Then, the masking correction
この補正特性制御部79は、検出スコア算出部83から供給される音声スコアSS、音楽スコアSM及びノイズスコアSNや、マスキング補正ゲイン算出部86から供給される補正ゲイン値Gm[k]等に基づいて、各音質制御部74〜77に対して音質制御処理の強度を独立に制御するための音質制御信号をそれぞれ生成している。
The correction
図11及び図12は、この補正特性制御部79が、音声スコアSS、音楽スコアSM、ノイズスコアSN及び補正ゲイン値等に基づいて、入力オーディオ信号にイコライザ処理を施す音質制御部77に対して音質制御を行なう処理動作の一例をまとめたフローチャートを示している。
11 and 12, the correction
すなわち、処理が開始(ステップS11a)されると、補正特性制御部79は、ステップS11bで、上記したマスキング補正ゲイン算出部86から供給される補正ゲイン値Gm[k](>1.0)を正規化する。以下、正規化された補正ゲインをGmn[k]と表わす。この場合、下式に示すように、全帯域(周波数帯域を示すインデックスの最小値1から最大値kまで)に渡って底上げするゲイン成分、つまり、
Gmg=min(Gm[1],Gm[2],……,Gm[k])
をグローバル補正ゲインGmgとして算出し、このグローバル補正ゲインGmgを基準に、下式のように正規化する。
That is, when the process is started (step S11a), the correction
Gmg = min (Gm [1], Gm [2], ..., Gm [k])
Is calculated as a global correction gain Gmg, and normalized based on the global correction gain Gmg as shown in the following equation.
Gmn[k]=Gm[k]/Gmg
なお、min(Gmn[k])=1.0となる。
Gmn [k] = Gm [k] / Gmg
Note that min (Gmn [k]) = 1.0.
次に、補正特性制御部79は、ステップS11cで、検出スコア算出部83から供給される音声スコアSS、音楽スコアSM及びノイズスコアSNを比較して、最もスコアが高い音種別、つまり、支配的な音種別が音声であるか否かを判別する。そして、支配的な音種別が音声である(つまり、音声スコアSSが最も高い)と判断された場合(YES)、補正特性制御部79は、ステップS11dで、後の処理で使用する補正特性算出重み係数を得るために、図13(a)に一例を示すように、音声に対応して予め設定された係数群を選択する。これは、音声帯域以外の補正ゲインを抑圧するものであり、再生音が音声の場合に音声帯域以外の強調によって音声が聞きづらくなることを防ぐものである。
Next, in step S11c, the correction
その後、補正特性制御部79は、ステップS11eで、先に判別された支配的な音種別のスコア(音声スコアSS)に対し、それ以外の他の音種別のスコアを考慮して、図13(a)に示す補正特性算出重み係数群の中から必要な係数を決定するためのスコア補正を行なうことにより、補正音声スコアSS´を生成する。具体的にいえば、補正音声スコアSS´は、音声スコアSSから、音楽スコアSM及びノイズスコアSNの大きい方を減算して得られる。すなわち、
SS´=SS−max(SM,SN)
となる。
Thereafter, in step S11e, the correction
SS ′ = SS−max (SM, SN)
It becomes.
また、上記ステップS11cで支配的な音種別が音声でないと判断された場合(NO)、補正特性制御部79は、ステップS12aで、支配的な音種別が音楽であるか否かを判別し、音楽である(つまり、音楽スコアSMが最も高い)と判断された場合(YES)、ステップS12bで、後の処理で使用する補正特性算出重み係数を得るために、図13(b)に一例を示すように、音楽に対応して予め設定された係数群を選択する。これは、音楽の臨場感向上において重要となる低域及び高域以外の中域部の補正ゲインを抑圧するものであり、再生音が音楽の場合に音楽帯域(低域及び高域)以外の強調によって音楽の臨場感が低下することを防ぐものである。
If it is determined in step S11c that the dominant sound type is not voice (NO), the correction
その後、補正特性制御部79は、ステップS12cで、先に判別された支配的な音種別のスコア(音楽スコアSM)に対し、それ以外の他の音種別のスコアを考慮して、図13(b)に示す補正特性算出重み係数群の中から必要な係数を決定するためのスコア補正を行なうことにより、補正音楽スコアSM´を生成する。具体的にいえば、補正音楽スコアSM´は、音楽スコアSMから、音声スコアSS及びノイズスコアSNの大きい方を減算して得られる。すなわち、
SM´=SM−max(SS,SN)
となる。
Thereafter, in step S12c, the correction
SM ′ = SM−max (SS, SN)
It becomes.
また、上記ステップS12aで支配的な音種別が音楽でないと判断された場合(NO)、補正特性制御部79は、支配的な音種別がノイズである(つまり、ノイズスコアSNが最も高い)と判断し、ステップS12dで、後の処理で使用する補正特性算出重み係数を得るために、図13(c)に一例を示すように、ノイズに対応して予め設定された係数群を選択する。これは、帯域全体の補正ゲインを抑圧するものであり、再生音がノイズの場合にゲイン補正による強調によって返ってうるさく聞きづらい音質になることを防ぐものである。
When it is determined in step S12a that the dominant sound type is not music (NO), the correction
その後、補正特性制御部79は、ステップS12eで、先に判別された支配的な音種別のスコア(ノイズスコアSN)に対し、それ以外の他の音種別のスコアを考慮して、図13(c)に示す補正特性算出重み係数群の中から必要な係数を決定するためのスコア補正を行なうことにより、補正ノイズスコアSN´を生成する。具体的にいえば、補正ノイズスコアSN´は、ノイズスコアSNから、音声スコアSS及び音楽スコアSMの大きい方を減算して得られる。すなわち、
SN´=SN−max(SS,SM)
となる。
Thereafter, in step S12e, the correction
SN ′ = SN−max (SS, SM)
It becomes.
そして、上記ステップS11e、ステップS12cまたはステップS12eの後、補正特性制御部79は、ステップS11fで、補正音声スコアSS´、補正音楽スコアSM´または補正ノイズスコアSN´に基づいて、対応する補正特性算出重み係数群の中から係数を決定する。
Then, after step S11e, step S12c or step S12e, the correction
この場合、例えば、支配的な音種別が音声の場合には、補正音声スコアSS´が大きいほど音声帯域の重み付けが高い係数が選択される。ただし、この係数は、音声帯域を強調するものではなく、音声帯域以外のゲイン補正による強調により音声が聴きづらくなることを抑制するためのものである。同様に、音楽の場合には、低域と高域とに重み付けを行ない、ノイズの場合には、スコアが大きいほど、全帯域に渡って強調を抑制する重み付けを行なう。 In this case, for example, when the dominant sound type is voice, a coefficient with higher weight of the voice band is selected as the corrected voice score SS ′ is larger. However, this coefficient is not for emphasizing the voice band, but for suppressing the difficulty in hearing the voice due to the enhancement by gain correction other than the voice band. Similarly, in the case of music, weighting is performed on the low frequency range and the high frequency range, and in the case of noise, weighting that suppresses emphasis over the entire band is performed as the score increases.
そして、決定された補正特性算出重み係数に基づいて、正規化後の補正ゲインGmn[k]が補正される。この場合、重み付け係数による補正後の補正ゲインGmnw[k]は、補正特性算出重み係数をWg[k]とすると、
Gmnw[k]=Wg[k]×Gmn[k]
となる。
Then, the normalized correction gain Gmn [k] is corrected based on the determined correction characteristic calculation weight coefficient. In this case, the correction gain Gmnw [k] after correction by the weighting coefficient is Wg [k] as the correction characteristic calculation weighting coefficient.
Gmnw [k] = Wg [k] × Gmn [k]
It becomes.
ただし、重み係数によりGmn[k]が1.0以下になる場合には、Gmn[k]を1.0とする。これは、オーディオ信号の特性(音種別)によっては、環境音のマスキング特性に基づく補正ゲインにより過剰な補正や音色の変化を抑制する(ゲイン補正がフラットな特性になるようにする)ための対応である。 However, when Gmn [k] is 1.0 or less due to the weight coefficient, Gmn [k] is set to 1.0. Depending on the characteristics (sound type) of the audio signal, this is a measure to suppress excessive correction and timbre changes with a correction gain based on the masking characteristics of the environmental sound (make gain correction flat) It is.
例えば、オーディオ信号の支配的な音種別が音声で、環境音のマスキング特性に基づく補正ゲイン値が音声帯域を強調するような補正である場合には、重み係数をそのまま適用すると音声帯域が過剰に強調されてしまうが、補正ゲイン値を1.0以下にならないようにクリップすることにより、低域及び高域の周波数成分の減衰(音声帯域の強調)を抑制することができる。 For example, when the dominant sound type of the audio signal is voice and the correction gain value based on the masking characteristic of the environmental sound is correction that emphasizes the voice band, the voice band becomes excessive if the weighting factor is applied as it is. Although it is emphasized, by clipping so that the correction gain value does not become 1.0 or less, it is possible to suppress the attenuation of the frequency components in the low frequency band and the high frequency band (emphasis of the voice band).
逆に、環境音のマスキング特性に基づく補正ゲイン値が音声帯域以外(低域あるいは高域)を強調するような、音種別と不整合な補正である場合には、音声が聞きづらくなる方向の補正につながるため、この補正ゲインを低下させるように重み付けが行なわれることになる。結果として、ゲイン補正の特性は、周波数領域でフラットに近づく方向の補正となるため、音色の変化の抑制につながる。なお、重み係数により抑制された補正ゲインは、グローバルゲインの補正により補償される。 On the other hand, if the correction gain value based on the masking characteristics of the environmental sound is a correction that is inconsistent with the sound type, such as emphasizing other than the audio band (low frequency or high frequency), the sound may be difficult to hear. Since this leads to correction, weighting is performed so as to reduce the correction gain. As a result, the gain correction characteristic is correction in a direction approaching flat in the frequency domain, which leads to suppression of timbre changes. The correction gain suppressed by the weighting factor is compensated by correcting the global gain.
オーディオ信号の支配的な音種別が音楽の場合についても、周波数特性は逆になるが同様のことが言える。 The same applies to the case where the dominant sound type of the audio signal is music, although the frequency characteristics are reversed.
次に、補正特性制御部79は、ステップS11gで、重み係数により環境音のマスキング特性に基づくゲイン補正が満たせなくなる帯域に対する補償のため、重み係数により最も補正ゲイン値が低下したゲイン値、つまり、最も補正率が高かったゲインを算出する。すなわち、
min(Gmnw[k]/Gmn[k])(<1.0)
を探索し、この最大補正率をRmnw_maxとする。ただし、Gmnw[k]が最小1.0でクリップされることを考慮して探索する。
Next, in step S11g, the correction
min (Gmnw [k] / Gmn [k]) (<1.0)
And the maximum correction factor is set to Rmnw_max. However, the search is performed considering that Gmnw [k] is clipped at a minimum of 1.0.
そして、補正特性制御部79は、ステップS11hで、最大補正率Rmnw_maxに基づいて、下式によりグローバル補正ゲインGmgを補正したGmgwを算出して、
Gmgw=Gmg/Rmnw_max
処理を終了(ステップS11i)する。
In step S11h, the correction
Gmgw = Gmg / Rmnw_max
The process ends (step S11i).
以上に説明した実施の形態によれば、入力オーディオ信号にイコライザ処理を施す音質制御部77に対し、補正後の補正ゲインGmnw[k]とグローバル補正ゲインGmgwとを通知することによって、環境音に応じた適切な音質制御処理を施すことができるとともに、オーディオ信号の音種別(音声、音楽、ノイズ)に適した音質制御処理を施すことができるようになる。
According to the embodiment described above, the sound
すなわち、環境音のマスキング特性に応じた周波数帯域毎のゲイン補正に対して、オーディオ信号の音種別判定を考慮して修正することにより、環境音に応じた適切な音質制御を行なうことができるとともに、過剰な音質制御やオーディオ信号の音種別判定と整合しない音質制御が行なわれることを抑制し、音色の変化を抑えた自然な音質の再生音を得ることが可能となる。 That is, by correcting the gain correction for each frequency band according to the masking characteristic of the environmental sound in consideration of the sound type determination of the audio signal, appropriate sound quality control according to the environmental sound can be performed. Therefore, it is possible to suppress reproduction of excessive sound quality and sound quality control that does not match the sound type determination of the audio signal, and to obtain a reproduced sound with a natural sound quality with suppressed change in timbre.
また、上記した音質制御部77によるイコライザ処理のように周波数帯域毎に補正強度を変更するものでない音質制御、例えば、音質制御部74によるリバーブ処理、音質制御部75によるワイドステレオ処理、音質制御部76によるセンター強調処理等については、原音とその遅延信号とのミクシングゲインを変更することで補正強度を制御することができる。
Also, sound quality control that does not change the correction strength for each frequency band as in the equalizer processing by the sound
図14は、音質制御部77を除く各音質制御部74〜76のうち、入力オーディオ信号にリバーブ処理を施す音質制御部74の一例を示している。なお、他の音質制御部75,76については、音質制御部74とほぼ同様の構成及び動作を有するため、それらの説明は省略する。
FIG. 14 shows an example of the sound
すなわち、音質制御部74は、入力端子74aに供給されたオーディオ信号が、リバーブ処理部74b及び遅延補償部74cにそれぞれ供給される。このうち、リバーブ処理部74bは、入力オーディオ信号にエコー効果を与えるためのリバーブ処理を施した後、可変利得増幅部74dに出力している。
That is, the sound
この可変利得増幅部74dは、入力オーディオ信号に対して、上記補正特性制御部79から出力され入力端子74eを介して供給される音質制御信号に基づいた補正強度で増幅処理を施している。この場合、可変利得増幅部74dのゲインGは、音質制御信号に基づいて0.0〜1.0の範囲で可変される。
The variable gain amplifying unit 74d performs an amplification process on the input audio signal with a correction intensity based on a sound quality control signal output from the correction
また、上記遅延補償部74cは、入力オーディオ信号とリバーブ処理部74bから得られるオーディオ信号との処理遅延を吸収するために設けられている。この遅延補償部74dから出力されたオーディオ信号は、可変利得増幅部74fに供給される。
The delay compensation unit 74c is provided to absorb a processing delay between the input audio signal and the audio signal obtained from the
この可変利得増幅部74fは、可変利得増幅部74dのゲインGに対して、1.0−Gなるゲインで、入力オーディオ信号に増幅処理を施している。そして、上記可変利得増幅部74d,74fから出力される各オーディオ信号は、加算部74gにより加算されて、出力端子78hから取り出される。 The variable gain amplifying unit 74f performs amplification processing on the input audio signal with a gain of 1.0-G with respect to the gain G of the variable gain amplifying unit 74d. The audio signals output from the variable gain amplifiers 74d and 74f are added by the adder 74g and taken out from the output terminal 78h.
なお、他の音質制御部75,76では、上記した音質制御部74のリバーブ処理部74bが、ワイドステレオ処理部、センター強調処理部等に入れ替わることになる。
In the other sound
図15は、上記した補正特性制御部79が、音声スコアSS、音楽スコアSM、ノイズスコアSN及び補正ゲイン値等に基づいて、入力オーディオ信号にリバーブ処理を施す音質制御部74に対して音質制御を行なう処理動作の一例をまとめたフローチャートを示している。
In FIG. 15, the above-described correction
すなわち、処理が開始(ステップS15a)されると、補正特性制御部79は、ステップS15bで、上記したマスキング補正ゲイン算出部86から供給される補正ゲイン値Gm[k]を正規化する。この補正ゲイン値を正規化する手法は、先にステップS11bの処理で説明した内容と同様である。
That is, when the process is started (step S15a), the correction
次に、補正特性制御部79は、ステップS15cで、正規化された補正ゲイン値Gmn[k]に基づいて、音楽スコアSMを修正する補正スコアを算出するためのパラメータとして、音楽ゲイン補正ベース値Gbmを算出する。この音楽ゲイン補正ベース値Gbmは、正規化された補正ゲイン値Gmn[k]と、図16(b)に示すような補正強度算出重み係数Wsm[k]とから、下式により算出する。
Next, in step S15c, the correction
Gbm=Σ(Wsm[k]×Gmn[k])
図16(b)は、音楽に対応して予め設定された補正強度算出重み係数Wsm[k]の一例を示しており、中域に重み付けがなされている。つまり、音楽に関する典型的な周波数特性と相反する周波数特性を重視した係数となっている。このため、音楽ゲイン補正ベース値Gbmは、音楽信号において相対的に重視しない補正ゲイン値Gmn[k]をどの程度含むかを示す指標となっている。これは、音楽帯域以外のゲイン補正による度合いを考慮したもので、この値が大きいほど音楽帯域以外のゲイン補正が強いと推測されるため、音楽向けをより強くスコア補正するためのものである。
Gbm = Σ (Wsm [k] × Gmn [k])
FIG. 16B shows an example of a correction intensity calculation weight coefficient Wsm [k] set in advance corresponding to the music, and the middle region is weighted. That is, the coefficient emphasizes frequency characteristics that are contrary to typical frequency characteristics related to music. For this reason, the music gain correction base value Gbm is an index indicating how much the correction gain value Gmn [k] that is relatively unimportant in the music signal is included. This is because the degree of gain correction other than the music band is taken into account, and it is estimated that the gain correction other than the music band is stronger as the value is larger, so that the score correction for music is more strongly performed.
次に、補正特性制御部79は、ステップS15dで、音楽ゲイン補正ベース値Gbmに基づいて、音楽スコアSMを修正するための音楽強度補正スコアSbmを算出する。この音楽強度補正スコアSbmは、音楽ゲイン補正ベース値Gbmに応じて高くなるように対応付けられるように変換される。例えば、Sbm=α×Gbm(αは変換のための係数)の一次関数で変換した上で、音楽強度補正スコアSbmの最大値でクリップ処理する。
Next, in step S15d, the correction
そして、補正特性制御部79は、ステップS15eで、音楽強度補正スコアSbmを元の音楽スコアSMに加算する、つまり、
SM=SM+Sbm
なる演算を行なうことにより、音楽向けの音響効果(この場合、リバーブ処理)を強化するように音楽スコアSMの補正が行なわれる。
In step S15e, the correction
SM = SM + Sbm
By performing this calculation, the music score SM is corrected so as to enhance the acoustic effect for music (in this case, reverb processing).
同様に、補正特性制御部79は、ステップS15fで、正規化された補正ゲイン値Gmn[k]に基づいて、音声スコアSSを修正する補正スコアを算出するためのパラメータとして、音声ゲイン補正ベース値Gbsを算出する。この音声ゲイン補正ベース値Gbsは、正規化された補正ゲイン値Gmn[k]と、図16(a)に示すような補正強度算出重み係数Wss[k]とから、下式により算出する。
Similarly, in step S15f, the correction
Gbs=Σ(Wss[k]×Gmn[k])
図16(a)は、音声に対応して予め設定された補正強度算出重み係数Wss[k]の一例を示しており、音声帯域以外の帯域(低域及び高域)に重み付けがなされている。つまり、音声に関する典型的な周波数特性と相反する周波数特性を重視した係数となっている。このため、音声ゲイン補正ベース値Gbsは、音声信号において相対的に重視しない補正ゲイン値Gmn[k]をどの程度含むかを示す指標となっている。これは、音声帯域以外のゲイン補正による度合いを考慮したもので、この値が大きいほど音声帯域以外のゲイン補正が強いと推測されるため、音声向けをより強くスコア補正するためのものである。
Gbs = Σ (Wss [k] × Gmn [k])
FIG. 16A shows an example of a correction intensity calculation weight coefficient Wss [k] set in advance corresponding to the voice, and the bands other than the voice band (low band and high band) are weighted. . That is, the coefficient emphasizes frequency characteristics that are in conflict with typical frequency characteristics related to speech. For this reason, the audio gain correction base value Gbs is an index indicating how much the correction gain value Gmn [k], which is not relatively important in the audio signal, is included. This is because the degree of gain correction other than the voice band is taken into account, and it is estimated that the gain correction other than the voice band is stronger as the value is larger.
次に、補正特性制御部79は、ステップS15gで、音声ゲイン補正ベース値Gbsに基づいて、音声スコアSSを修正するための音声強度補正スコアSbsを算出する。この音声強度補正スコアSbsは、音声ゲイン補正ベース値Gbsに応じて高くなるように対応付けられるように変換される。例えば、Sbs=β×Gbs(βは変換のための係数)の一次関数で変換した上で、音声強度補正スコアSbsの最大値でクリップ処理する。
Next, in step S15g, the correction
そして、補正特性制御部79は、ステップS15hで、音声強度補正スコアSbsを元の音声スコアSSに加算する、つまり、
SS=SS+Sbs
なる演算を行なうことにより、音声向けの音響効果を強化するように音声スコアSSの補正が行なわれる。
In step S15h, the correction
SS = SS + Sbs
The voice score SS is corrected so as to enhance the sound effect for voice.
その後、補正特性制御部79は、ステップS15iで、ステップS15eにより補正された音楽スコアSM及びステップS15hにより補正された音声スコアSSに基づいて、音声制御部74の入力端子74eに供給する音質制御信号を生成し音声制御部74に出力して、処理を終了(ステップS15j)する。
Thereafter, the sound quality control signal supplied to the input terminal 74e of the
図14乃至図16で説明した実施の形態によれば、環境音を考慮して音楽スコアSM及び音声スコアSSを補正し、その補正された音楽スコアSM及び音声スコアSSに基づいて生成した音質制御信号を、入力オーディオ信号にリバーブ処理を施す音質制御部74に通知するようにしたので、環境音に応じた適切な音質制御処理を施すことができるとともに、オーディオ信号の音種別(音声、音楽)に適した音質制御処理を施すことができるようになる。
According to the embodiment described with reference to FIGS. 14 to 16, the music score SM and the voice score SS are corrected in consideration of the environmental sound, and the sound quality control generated based on the corrected music score SM and the voice score SS. Since the signal is notified to the sound
すなわち、オーディオ信号の音種別に応じた音質制御を行なう際に、環境音のマスキング特性を考慮することにより、オーディオ信号の音種別に応じた適切な音質制御を行なうことができるとともに、環境音にマスキングされてしまうオーディオ信号の音質制御効果を高め、より効果的な音質制御を実現すると共に再生オーディオ信号に合っていない環境音による過剰な音質補正を防ぐことができる。 In other words, when performing sound quality control according to the sound type of the audio signal, it is possible to perform appropriate sound quality control according to the sound type of the audio signal by considering the masking characteristic of the environmental sound, and It is possible to enhance the sound quality control effect of the masked audio signal, realize more effective sound quality control, and prevent excessive sound quality correction due to environmental sound that does not match the reproduced audio signal.
また、上記した実施の形態では、補正すべき音質の要素として、リバーブ、ワイドステレオ、センター強調、イコライザ等を挙げたが、これに限らず、例えばサラウンド等を含む音質制御可能な各種の要素について音質制御を行なうことができることはもちろんである。 In the above-described embodiment, reverb, wide stereo, center emphasis, equalizer, and the like are cited as sound quality elements to be corrected. However, the present invention is not limited to this, and various elements that can be controlled in sound quality including, for example, surround sound. Of course, sound quality control can be performed.
なお、この発明は上記した実施の形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を種々変形して具体化することができる。また、上記した実施の形態に開示されている複数の構成要素を適宜に組み合わせることにより、種々の発明を形成することができる。例えば、実施の形態に示される全構成要素から幾つかの構成要素を削除しても良いものである。さらに、異なる実施の形態に係る構成要素を適宜組み合わせても良いものである。 Note that the present invention is not limited to the above-described embodiments as they are, and can be embodied by variously modifying the constituent elements without departing from the scope of the invention in the implementation stage. Various inventions can be formed by appropriately combining a plurality of constituent elements disclosed in the above-described embodiments. For example, some components may be deleted from all the components shown in the embodiment. Furthermore, constituent elements according to different embodiments may be appropriately combined.
11…デジタルテレビジョン放送受信装置、12…キャビネット、13…支持台、14…映像表示器、15…スピーカ、16…操作部、17…リモートコントローラ、18…受光部、MIC…マイクロホン、19…第1のメモリカード、20…第2のメモリカード、21…第1のLAN端子、22…第2のLAN端子、23…USB端子、24…IEEE1394端子、25…HDD、26…ハブ、27…HDD、28…PC、29…DVDレコーダ、30…アナログ伝送路、31…ブロードバンドルータ、32…ネットワーク、33…PC、34…携帯電話、35…ハブ、36…携帯電話、37…デジタルカメラ、38…カードリーダ/ライタ、39…HDD、40…キーボード、41…AV−HDD、42…D−VHS、43…アンテナ、44…入力端子、45…チューナ、46…PSK復調器、47…TS復号器、48…信号処理部、49…アンテナ、50…入力端子、51…チューナ、52…OFDM復調器、53…TS復号器、54…チューナ、55…アナログ復調器、56…グラフィック処理部、57…オーディオ処理部、58a〜58d…入力端子、59…OSD信号生成部、60…映像処理部、61,62…出力端子、63…制御部、63a…CPU、63b…ROM、63c…RAM、63d…不揮発性メモリ、64…カードI/F、65…カードホルダ、66…カードI/F、67…カードホルダ、68,69…通信I/F、70…USB I/F、71…IEEE1394 I/F、72…音質制御処理部、73…入力端子、74…音質制御部、74a…入力端子、74b…リバーブ処理部、74c…遅延補償部、74d…可変利得増幅部、74e…入力端子、74f…可変利得増幅部、74g…加算部、74h…出力端子、75〜77…音質制御部、78…出力端子、79…補正特性制御部、80…特徴パラメータ算出部、81…音声・音楽識別スコア算出部、82…音楽・背景音識別スコア算出部、83…検出スコア算出部、84…環境音枚キング特性算出部、85…入力端子、86…マスキング補正ゲイン算出部。
DESCRIPTION OF
Claims (12)
入力オーディオ信号に含まれる1以上の音種別のうち、支配的な音種別に応じた周波数帯域毎の重み係数に基づいて、周波数帯域毎の補正ゲインを補正する補正ゲイン補正手段と、
前記補正ゲイン補正手段で補正された周波数帯域毎の補正ゲインを用いて生成される音質制御信号に基づいて、入力オーディオ信号に対して音質制御処理を施す音質制御手段と、
を具備する音質制御装置。 Correction gain calculating means for calculating a correction gain for correcting the gain for each frequency band so that the reproduced sound is not masked by the surrounding environmental sound with respect to the input audio signal;
Correction gain correction means for correcting a correction gain for each frequency band based on a weighting factor for each frequency band according to a dominant sound type among one or more sound types included in the input audio signal ;
Sound quality control means for performing sound quality control processing on the input audio signal based on the sound quality control signal generated using the correction gain for each frequency band corrected by the correction gain correction means;
A sound quality control device comprising:
入力オーディオ信号から音種別毎に含まれている確度を示すスコアをそれぞれ算出するスコア算出手段と、
外部から供給される音質制御信号に基づいて入力オーディオ信号に対して音質制御処理を施す音質制御手段と、
前記スコア算出手段で算出された音種別毎のスコアを比較して支配的な音種別を判別する音種別判別手段と、
前記音種別毎に予め設定され、それぞれが入力オーディオ信号の周波数帯域毎に複数の係数を選択可能に有する複数種類の重み係数の中から、前記音種別判別手段で判別した音種別に対応した重み係数を選択する第1の選択手段と、
前記音種別判別手段で判別された音種別以外の音種別に対応するスコアに基づいて、前記第1の選択手段で選択した重み係数に選択可能に含まれる複数の係数の中から所望の係数を選択する第2の選択手段と、
前記第2の選択手段で選択された入力オーディオ信号の周波数帯域毎の係数に基づいて、前記補正ゲイン算出手段で算出された周波数帯域毎の補正ゲインを補正する補正ゲイン補正手段と、
前記補正ゲイン補正手段で補正された周波数帯域毎の補正ゲインに基づいて、前記音質制御手段に供給する音質制御信号を生成する音質制御信号生成手段と、
を具備する音質制御装置。 Correction gain calculating means for calculating a correction gain for correcting the gain for each frequency band so that the reproduced sound is not masked by the surrounding environmental sound with respect to the input audio signal;
Score calculating means for calculating a score indicating the accuracy included in each sound type from the input audio signal;
Sound quality control means for performing sound quality control processing on the input audio signal based on a sound quality control signal supplied from outside;
A sound type determining means for comparing the scores for each sound type calculated by the score calculating means to determine a dominant sound type;
Weights corresponding to the sound types determined by the sound type determination means from among a plurality of types of weight coefficients that are preset for each sound type and each have a plurality of coefficients selectable for each frequency band of the input audio signal A first selection means for selecting a coefficient;
Based on a score corresponding to a sound type other than the sound type determined by the sound type determination unit, a desired coefficient is selected from a plurality of coefficients included in the weighting coefficient selected by the first selection unit. A second selection means for selecting;
Correction gain correction means for correcting the correction gain for each frequency band calculated by the correction gain calculation means based on the coefficient for each frequency band of the input audio signal selected by the second selection means;
Sound quality control signal generation means for generating a sound quality control signal to be supplied to the sound quality control means based on the correction gain for each frequency band corrected by the correction gain correction means;
A sound quality control device comprising:
入力オーディオ信号から音種別毎に含まれている確度を示すスコアをそれぞれ算出するスコア算出手段と、
外部から供給される音質制御信号に基づいて入力オーディオ信号に対して音質制御処理を施す音質制御手段と、
前記補正ゲイン算出手段で算出された入力オーディオ信号の周波数帯域毎の補正ゲインと、音種別毎に予め設定された重み係数とに基づいて、前記スコア算出手段で算出された音種別毎のスコアを補正するスコア補正手段と、
前記スコア補正手段で補正された音種別毎のスコアに基づいて、前記音質制御手段に供給する音質制御信号を生成する音質制御信号生成手段と、
を具備する音質制御装置。 Correction gain calculating means for calculating a correction gain for correcting the gain for each frequency band so that the reproduced sound is not masked by the surrounding environmental sound with respect to the input audio signal;
Score calculating means for calculating a score indicating the accuracy included in each sound type from the input audio signal;
Sound quality control means for performing sound quality control processing on the input audio signal based on a sound quality control signal supplied from outside;
Based on the correction gain for each frequency band of the input audio signal calculated by the correction gain calculation means and the weighting factor preset for each sound type, the score for each sound type calculated by the score calculation means is calculated. Score correcting means for correcting;
Sound quality control signal generation means for generating a sound quality control signal to be supplied to the sound quality control means based on the score for each sound type corrected by the score correction means;
A sound quality control device comprising:
入力オーディオ信号から音種別毎に含まれている確度を示すスコアをそれぞれ算出するスコア算出手段と、
外部から供給される音質制御信号に基づいて入力オーディオ信号に対して音質制御処理を施す音質制御手段と、
前記補正ゲイン算出手段で算出された入力オーディオ信号の周波数帯域毎の補正ゲインと、入力オーディオ信号に含まれる音声信号に対応して予め設定された重み係数とに基づいて、前記スコア算出手段で算出された音声信号の含まれている確度を示す音声スコアを補正する音声スコア補正手段と、
前記補正ゲイン算出手段で算出された入力オーディオ信号の周波数帯域毎の補正ゲインと、入力オーディオ信号に含まれる音楽信号に対応して予め設定された重み係数とに基づいて、前記スコア算出手段で算出された音楽信号の含まれている確度を示す音楽スコアを補正する音楽スコア補正手段と、
前記音声スコア補正手段で補正された音声信号の含まれている確度を示す音声スコアと、前記音楽スコア補正手段で補正された音楽信号の含まれている確度を示す音楽スコアに基づいて、前記音質制御手段に供給する音質制御信号を生成する音質制御信号生成手段と、
を具備する音質制御装置。 Correction gain calculating means for calculating a correction gain for correcting the gain for each frequency band so that the reproduced sound is not masked by the surrounding environmental sound with respect to the input audio signal;
Score calculating means for calculating a score indicating the accuracy included in each sound type from the input audio signal;
Sound quality control means for performing sound quality control processing on the input audio signal based on a sound quality control signal supplied from outside;
Calculated by the score calculation means based on the correction gain for each frequency band of the input audio signal calculated by the correction gain calculation means and a weighting factor set in advance corresponding to the audio signal included in the input audio signal Voice score correction means for correcting a voice score indicating the accuracy of the included voice signal;
Calculated by the score calculation means based on the correction gain for each frequency band of the input audio signal calculated by the correction gain calculation means and a weighting factor set in advance corresponding to the music signal included in the input audio signal Music score correction means for correcting the music score indicating the accuracy of the included music signal,
The sound quality based on the audio score indicating the accuracy of the audio signal corrected by the audio score correction means and the music score indicating the accuracy of the music signal corrected by the music score correction means. Sound quality control signal generating means for generating a sound quality control signal to be supplied to the control means;
A sound quality control device comprising:
入力オーディオ信号から音種別毎に含まれている確度を示すスコアをそれぞれ算出するスコア算出手段と、
外部から供給される音質制御信号に基づいて入力オーディオ信号に対して音質制御処理を施す音質制御手段と、
入力オーディオ信号から音種別の判別を行なうための各種の特徴パラメータを算出する特徴パラメータ算出手段と、
前記特徴パラメータ算出手段で算出された各種の特徴パラメータに基づいて、入力オーディオ信号が音声信号及び音楽信号のいずれに近いかを示す音声音楽識別スコアを算出する音声音楽識別スコア算出手段と、
前記特徴パラメータ算出手段で算出された各種の特徴パラメータに基づいて、入力オーディオ信号が音楽信号及び背景音信号のいずれに近いかを示す音楽背景音識別スコアを算出する音楽背景音識別スコア算出手段と、
ノイズを判別するための特徴パラメータ、前記音声音楽識別スコア及び前記音楽背景音識別スコアに基づいて、音声信号の含まれている確度を示す音声スコア、音楽信号の含まれている確度を示す音楽スコア、ノイズ信号の含まれている確度を示すノイズスコアをそれぞれ算出するスコア算出手段と、
前記補正ゲイン算出手段で算出された周波数帯域毎の補正ゲインと、前記スコア算出手段で算出された音声スコア、音楽スコア、ノイズスコアに基づいて、前記音質制御手段に供給する音質制御信号を生成する音質制御信号生成手段と、
を具備する音質制御装置。 Correction gain calculating means for calculating a correction gain for correcting the gain for each frequency band so that the reproduced sound is not masked by the surrounding environmental sound with respect to the input audio signal;
Score calculating means for calculating a score indicating the accuracy included in each sound type from the input audio signal;
Sound quality control means for performing sound quality control processing on the input audio signal based on a sound quality control signal supplied from outside;
Feature parameter calculation means for calculating various feature parameters for determining the sound type from the input audio signal;
A speech and music identification score calculating means for calculating a speech and music identification score indicating whether an input audio signal is close to a speech signal or a music signal based on various feature parameters calculated by the feature parameter calculating means;
Music background sound identification score calculating means for calculating a music background sound identification score indicating whether the input audio signal is closer to the music signal or the background sound signal based on the various feature parameters calculated by the feature parameter calculating means; ,
Based on the characteristic parameters for discriminating noise, the audio music identification score and the music background sound identification score, an audio score indicating the accuracy of the audio signal and a music score indicating the accuracy of the audio signal , A score calculation means for calculating a noise score indicating the accuracy of the noise signal,
A sound quality control signal to be supplied to the sound quality control means is generated based on the correction gain for each frequency band calculated by the correction gain calculation means and the voice score, music score, and noise score calculated by the score calculation means. Sound quality control signal generating means;
A sound quality control device comprising:
入力オーディオ信号に含まれる1以上の音種別のうち、支配的な音種別に応じた周波数帯域毎の重み係数に基づいて、周波数帯域毎の補正ゲインを補正する工程と、
前記補正された周波数帯域毎の補正ゲインを用いて生成される音質制御信号に基づいて、入力オーディオ信号に対して音質制御処理を施す工程と、
を具備する音質制御方法。 Calculating a correction gain for correcting the gain for each frequency band so that the reproduced sound is not masked by the surrounding environmental sound with respect to the input audio signal;
Correcting a correction gain for each frequency band based on a weighting factor for each frequency band according to a dominant sound type among one or more sound types included in the input audio signal;
Performing a sound quality control process on the input audio signal based on the sound quality control signal generated using the corrected correction gain for each frequency band;
A sound quality control method comprising :
入力オーディオ信号から音種別毎に含まれている確度を示すスコアをそれぞれ算出する工程と、
外部から供給される音質制御信号に基づいて入力オーディオ信号に対して音質制御処理を施す工程と、
前記算出された音種別毎のスコアを比較して支配的な音種別を判別する工程と、
前記音種別毎に予め設定され、それぞれが入力オーディオ信号の周波数帯域毎に複数の係数を選択可能に有する複数種類の重み係数の中から、前記判別した音種別に対応した第1の重み係数を選択する工程と、
前記判別された音種別以外の音種別に対応するスコアに基づいて、前記選択した第1の重み係数に選択可能に含まれる複数の重み係数の中から所望の第2の重み係数を選択する工程と、
前記選択された入力オーディオ信号の周波数帯域毎の第2の重み係数に基づいて、前記算出された周波数帯域毎の補正ゲインを補正する工程と、
前記補正された周波数帯域毎の補正ゲインに基づいて、前記音質制御信号を生成する音質制御信号生成手段と、
を具備する音質制御方法。 Calculating a correction gain for correcting the gain for each frequency band so that the reproduced sound is not masked by the surrounding environmental sound with respect to the input audio signal;
Calculating a score indicating the accuracy included for each sound type from the input audio signal,
Performing a sound quality control process on the input audio signal based on a sound quality control signal supplied from outside;
Comparing the score for each calculated sound type to determine the dominant sound type;
A first weighting coefficient corresponding to the determined sound type is selected from a plurality of weighting coefficients that are set in advance for each sound type and each has a plurality of selectable coefficients for each frequency band of the input audio signal. A process to select;
A step of selecting a desired second weighting factor from a plurality of weighting factors included in the selected first weighting factor based on a score corresponding to a sound type other than the determined sound type. When,
Correcting the calculated correction gain for each frequency band based on a second weighting factor for each frequency band of the selected input audio signal;
Sound quality control signal generating means for generating the sound quality control signal based on the corrected correction gain for each frequency band;
A sound quality control method comprising :
入力オーディオ信号から音種別毎に含まれている確度を示すスコアをそれぞれ算出する工程と、Calculating a score indicating the accuracy included for each sound type from the input audio signal,
外部から供給される音質制御信号に基づいて入力オーディオ信号に対して音質制御処理を施す工程と、Performing a sound quality control process on the input audio signal based on a sound quality control signal supplied from outside;
前記算出された入力オーディオ信号の周波数帯域毎の補正ゲインと、音種別毎に予め設定された重み係数とに基づいて、前記算出された音種別毎のスコアを補正する工程と、Correcting the score for each calculated sound type based on the calculated correction gain for each frequency band of the input audio signal and a weighting factor set in advance for each sound type;
前記補正された音種別毎のスコアに基づいて、前記音質制御信号を生成する工程と、Generating the sound quality control signal based on the corrected score for each sound type;
を具備する音質制御方法。A sound quality control method comprising:
入力オーディオ信号から音種別毎に含まれている確度を示すスコアをそれぞれ算出する工程と、Calculating a score indicating the accuracy included for each sound type from the input audio signal,
外部から供給される音質制御信号に基づいて入力オーディオ信号に対して音質制御処理を施す工程と、Performing a sound quality control process on the input audio signal based on a sound quality control signal supplied from outside;
前記算出された入力オーディオ信号の周波数帯域毎の補正ゲインと、入力オーディオ信号に含まれる音声信号に対応して予め設定された重み係数とに基づいて、前記算出された音声信号の含まれている確度を示す音声スコアを補正する工程と、The calculated audio signal is included based on the calculated correction gain for each frequency band of the input audio signal and a weighting factor set in advance corresponding to the audio signal included in the input audio signal. Correcting the voice score indicating accuracy;
前記算出された入力オーディオ信号の周波数帯域毎の補正ゲインと、入力オーディオ信号に含まれる音楽信号に対応して予め設定された重み係数とに基づいて、前記算出された音楽信号の含まれている確度を示す音楽スコアを補正する工程と、The calculated music signal is included based on the calculated correction gain for each frequency band of the input audio signal and a weighting factor set in advance corresponding to the music signal included in the input audio signal. Correcting the music score indicating accuracy;
前記補正された音声信号の含まれている確度を示す音声スコアと、前記補正された音楽信号の含まれている確度を示す音楽スコアに基づいて、前記音質制御信号を生成する工程と、Generating the sound quality control signal based on a voice score indicating the accuracy of the corrected audio signal and a music score indicating the accuracy of the corrected music signal;
を具備する音質制御方法。A sound quality control method comprising:
入力オーディオ信号から音種別毎に含まれている確度を示すスコアをそれぞれ算出する工程と、Calculating a score indicating the accuracy included for each sound type from the input audio signal,
外部から供給される音質制御信号に基づいて入力オーディオ信号に対して音質制御処理を施す工程と、Performing a sound quality control process on the input audio signal based on a sound quality control signal supplied from outside;
入力オーディオ信号から音種別の判別を行なうための各種の特徴パラメータを算出する工程と、Calculating various feature parameters for determining the type of sound from the input audio signal;
前記算出された各種の特徴パラメータに基づいて、入力オーディオ信号が音声信号及び音楽信号のいずれに近いかを示す音声音楽識別スコアを算出する工程と、Calculating an audio music identification score indicating whether the input audio signal is close to an audio signal or a music signal based on the calculated various characteristic parameters;
前記算出された各種の特徴パラメータに基づいて、入力オーディオ信号が音楽信号及び背景音信号のいずれに近いかを示す音楽背景音識別スコアを算出する工程と、Calculating a music background sound identification score indicating whether the input audio signal is close to a music signal or a background sound signal based on the various feature parameters calculated;
ノイズを判別するための特徴パラメータ、前記音声音楽識別スコア及び前記音楽背景音識別スコアに基づいて、音声信号の含まれている確度を示す音声スコア、音楽信号の含まれている確度を示す音楽スコア、ノイズ信号の含まれている確度を示すノイズスコアをそれぞれ算出する工程と、Based on the characteristic parameters for discriminating noise, the audio music identification score and the music background sound identification score, an audio score indicating the accuracy of the audio signal and a music score indicating the accuracy of the audio signal Each calculating a noise score indicating the accuracy with which the noise signal is included;
前記算出された周波数帯域毎の補正ゲインと、前記算出された音声スコア、音楽スコア、ノイズスコアに基づいて、前記音質制御信号を生成する工程と、Generating the sound quality control signal based on the calculated correction gain for each frequency band and the calculated voice score, music score, and noise score;
を具備する音質制御方法。A sound quality control method comprising:
入力オーディオ信号に含まれる1以上の音種別のうち、支配的な音種別に応じた周波数帯域毎の重み係数に基づいて、周波数帯域毎の補正ゲインを補正する処理と、A process of correcting a correction gain for each frequency band based on a weighting factor for each frequency band according to a dominant sound type among one or more sound types included in the input audio signal;
前記補正された周波数帯域毎の補正ゲインを用いて生成される音質制御信号に基づいて、入力オーディオ信号に対して音質制御処理を施す処理とを、A process of performing a sound quality control process on the input audio signal based on the sound quality control signal generated using the corrected correction gain for each frequency band;
コンピュータに実行させることを特徴とする音質制御用プログラム。A sound quality control program that is executed by a computer.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010286276A JP5695896B2 (en) | 2010-12-22 | 2010-12-22 | SOUND QUALITY CONTROL DEVICE, SOUND QUALITY CONTROL METHOD, AND SOUND QUALITY CONTROL PROGRAM |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010286276A JP5695896B2 (en) | 2010-12-22 | 2010-12-22 | SOUND QUALITY CONTROL DEVICE, SOUND QUALITY CONTROL METHOD, AND SOUND QUALITY CONTROL PROGRAM |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012134842A JP2012134842A (en) | 2012-07-12 |
JP5695896B2 true JP5695896B2 (en) | 2015-04-08 |
Family
ID=46649889
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010286276A Expired - Fee Related JP5695896B2 (en) | 2010-12-22 | 2010-12-22 | SOUND QUALITY CONTROL DEVICE, SOUND QUALITY CONTROL METHOD, AND SOUND QUALITY CONTROL PROGRAM |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5695896B2 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102647545B1 (en) * | 2022-11-10 | 2024-03-14 | 주식회사 이엠텍 | Electronic device having open speaker |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104079247B (en) * | 2013-03-26 | 2018-02-09 | 杜比实验室特许公司 | Balanced device controller and control method and audio reproducing system |
JP2022179105A (en) | 2021-05-21 | 2022-12-02 | 株式会社デンソー | microphone |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003345375A (en) * | 2002-05-24 | 2003-12-03 | Matsushita Electric Ind Co Ltd | Device and system for reproducing voice |
JP2006235102A (en) * | 2005-02-23 | 2006-09-07 | Yamaha Corp | Speech processor and speech processing method |
US20080153537A1 (en) * | 2006-12-21 | 2008-06-26 | Charbel Khawand | Dynamically learning a user's response via user-preferred audio settings in response to different noise environments |
JP4439579B1 (en) * | 2008-12-24 | 2010-03-24 | 株式会社東芝 | SOUND QUALITY CORRECTION DEVICE, SOUND QUALITY CORRECTION METHOD, AND SOUND QUALITY CORRECTION PROGRAM |
JP5267115B2 (en) * | 2008-12-26 | 2013-08-21 | ソニー株式会社 | Signal processing apparatus, processing method thereof, and program |
-
2010
- 2010-12-22 JP JP2010286276A patent/JP5695896B2/en not_active Expired - Fee Related
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102647545B1 (en) * | 2022-11-10 | 2024-03-14 | 주식회사 이엠텍 | Electronic device having open speaker |
Also Published As
Publication number | Publication date |
---|---|
JP2012134842A (en) | 2012-07-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4439579B1 (en) | SOUND QUALITY CORRECTION DEVICE, SOUND QUALITY CORRECTION METHOD, AND SOUND QUALITY CORRECTION PROGRAM | |
JP4621792B2 (en) | SOUND QUALITY CORRECTION DEVICE, SOUND QUALITY CORRECTION METHOD, AND SOUND QUALITY CORRECTION PROGRAM | |
JP4327886B1 (en) | SOUND QUALITY CORRECTION DEVICE, SOUND QUALITY CORRECTION METHOD, AND SOUND QUALITY CORRECTION PROGRAM | |
JP4327888B1 (en) | Speech music determination apparatus, speech music determination method, and speech music determination program | |
JP4364288B1 (en) | Speech music determination apparatus, speech music determination method, and speech music determination program | |
US7987281B2 (en) | System and method for enhanced streaming audio | |
JP5149991B2 (en) | Audio playback device, audio playback method and program | |
CN104604254B (en) | Sound processing apparatus, method | |
JP5085769B1 (en) | Acoustic control device, acoustic correction device, and acoustic correction method | |
JPWO2015097829A1 (en) | Method, electronic device and program | |
JP2013102411A (en) | Audio signal processing apparatus, audio signal processing method, and program | |
JP4837123B1 (en) | SOUND QUALITY CONTROL DEVICE AND SOUND QUALITY CONTROL METHOD | |
US9756437B2 (en) | System and method for transmitting environmental acoustical information in digital audio signals | |
JP4709928B1 (en) | Sound quality correction apparatus and sound quality correction method | |
JP5695896B2 (en) | SOUND QUALITY CONTROL DEVICE, SOUND QUALITY CONTROL METHOD, AND SOUND QUALITY CONTROL PROGRAM | |
CN112995854A (en) | Audio processing method and device and electronic equipment | |
JP5058844B2 (en) | Audio signal conversion apparatus, audio signal conversion method, control program, and computer-readable recording medium | |
Rämö et al. | Live sound equalization and attenuation with a headset | |
CN116389982A (en) | Audio processing method, device, electronic equipment and storage medium | |
JP5202021B2 (en) | Audio signal conversion apparatus, audio signal conversion method, control program, and computer-readable recording medium | |
JP2013106197A (en) | Sound quality controller, sound quality control method, and sound quality control program | |
US11297454B2 (en) | Method for live public address, in a helmet, taking into account the auditory perception characteristics of the listener | |
Zielinski et al. | Comparison of quality degradation effects caused by limitation of bandwidth and by down-mix algorithms in consumer multichannel audio delivery systems | |
CN116208908A (en) | Recording file playing method and device, electronic equipment and storage medium | |
TWI584275B (en) | Electronic device and method for analyzing and playing sound signal |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20130730 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20131003 |
|
RD07 | Notification of extinguishment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7427 Effective date: 20140319 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20140519 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140610 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140729 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20150113 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20150209 |
|
LAPS | Cancellation because of no payment of annual fees |