JP2011013383A - Audio signal correction device and audio signal correction method - Google Patents

Audio signal correction device and audio signal correction method Download PDF

Info

Publication number
JP2011013383A
JP2011013383A JP2009156271A JP2009156271A JP2011013383A JP 2011013383 A JP2011013383 A JP 2011013383A JP 2009156271 A JP2009156271 A JP 2009156271A JP 2009156271 A JP2009156271 A JP 2009156271A JP 2011013383 A JP2011013383 A JP 2011013383A
Authority
JP
Japan
Prior art keywords
audio signal
feature parameter
likelihood
signal
reference model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2009156271A
Other languages
Japanese (ja)
Inventor
Yutaka Yonekubo
裕 米久保
Hirokazu Takeuchi
広和 竹内
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2009156271A priority Critical patent/JP2011013383A/en
Publication of JP2011013383A publication Critical patent/JP2011013383A/en
Pending legal-status Critical Current

Links

Images

Landscapes

  • Stereophonic System (AREA)

Abstract

PROBLEM TO BE SOLVED: To provide an audio signal correction device excellent in improving quality of input audio signal.SOLUTION: The audio signal correction device includes: a feature parameter calculation means for calculating a feature parameter from the input audio signal; a collating means for collating the feature parameter with a plurality of reference models, to calculate likelihood that the feature parameter belongs to a predetermined reference model in the plurality of reference models; a first determination means which determines that a kind of the audio signal indicated by the reference model is a kind of the audio signal indicated by the feature parameter, when the likelihood satisfies a threshold condition; a second determination means which determines a mixing degree of a voice component and a non-voice component from the feature parameter, when the likelihood does not satisfy the threshold condition; and a correction means for correcting the input audio signal according to the kind of the audio signal determined by the first determination means, and according to the mixing degree.

Description

本発明は、オーディオ信号を補正し高音質化するオーディオ信号補正装置及びオーディオ信号補正方法に関する。   The present invention relates to an audio signal correction apparatus and an audio signal correction method for correcting an audio signal to improve sound quality.

近年、高画質、高音質のAV機器に注目が集まり、このようなAV機器の研究開発が盛んになっている。例えば、入力オーディオ信号から特定信号を抽出して、抽出した特定信号に対して信号処理を施して距離感または広がり感を変化させる技術が開示されている(特許文献1参照)。具体的には、入力オーディオ信号に含まれる人の声の特定信号を抽出し、抽出した特定信号の周波数特性や音量を変化させる処理によって距離感を変化させる。また、入力オーディオ信号に含まれる歓声や拍手などの特定信号を抽出し、抽出した特定信号に対して例えばサラウンド処理を施し、広がり感を変化させる。   In recent years, attention has been focused on high-quality and high-quality AV equipment, and research and development of such AV equipment has become active. For example, a technique is disclosed in which a specific signal is extracted from an input audio signal and signal processing is performed on the extracted specific signal to change a sense of distance or a sense of spread (see Patent Document 1). Specifically, a human voice specific signal included in the input audio signal is extracted, and the sense of distance is changed by a process of changing the frequency characteristics and volume of the extracted specific signal. In addition, a specific signal such as cheers or applause included in the input audio signal is extracted, and, for example, surround processing is performed on the extracted specific signal to change the sense of spread.

特開2007−67858号公報JP 2007-67858 A

上記特許文献1に開示された入力オーディオ信号処理技術では、入力オーディオ信号から特定信号を抽出し、抽出した特定信号に応じて補正手法を決定し、高音質化を図っている。   In the input audio signal processing technique disclosed in Patent Document 1, a specific signal is extracted from an input audio signal, a correction method is determined according to the extracted specific signal, and high sound quality is achieved.

しかしながら、入力オーディオ信号には様々な音源の信号成分が混在しているため、入力オーディオ信号の高音質化は容易ではない。単に、抽出した特定信号に応じて補正手法を決定するだけでは、適切な補正手法が選択できないこともあり、高音質化は難しい。   However, since the input audio signal contains signal components of various sound sources, it is not easy to improve the sound quality of the input audio signal. Simply determining the correction method in accordance with the extracted specific signal may prevent the selection of an appropriate correction method, making it difficult to achieve high sound quality.

本発明の目的は、入力オーディオ信号の高音質化に優れたオーディオ信号補正装置及びオーディオ信号補正方法を提供することにある。   An object of the present invention is to provide an audio signal correction apparatus and an audio signal correction method that are excellent in improving the sound quality of an input audio signal.

本発明の一実施形態に係るオーディオ信号補正装置は、入力オーディオ信号を所定時間単位の複数フレームに分割し、各分割フレームに含まれたLチャネル成分信号とRチャネル成分信号との差分信号を算出する差分信号算出手段と、各分割フレームから算出された各差分信号から1以上の特徴パラメータを算出する特徴パラメータ算出手段と、前記特徴パラメータと複数の参照モデルとを照合し、前記特徴パラメータが前記複数の参照モデルの中の所定の参照モデルに属する尤度を算出する照合手段と、前記尤度が閾値条件を満たす場合に、前記所定の参照モデルが示すオーディオ信号の種類を前記特徴パラメータが示すオーディオ信号の種類と判定する第1判定手段と、前記尤度が前記閾値条件を満たさない場合に、前記特徴パラメータから音声成分と非音声成分の混合度合いを判定する第2判定手段と、前記第1判定手段により判定された前記オーディオ信号の種類に応じて前記入力オーディオ信号を補正し、また前記混合度合いに応じて前記入力オーディオ信号を補正する補正手段と、を備えている。   An audio signal correction apparatus according to an embodiment of the present invention divides an input audio signal into a plurality of frames in a predetermined time unit, and calculates a difference signal between an L channel component signal and an R channel component signal included in each divided frame. Difference signal calculating means, feature parameter calculating means for calculating one or more feature parameters from each difference signal calculated from each divided frame, the feature parameter and a plurality of reference models are collated, and the feature parameter is The feature parameter indicates the type of audio signal indicated by the predetermined reference model when the likelihood satisfies the threshold condition, and the matching means for calculating the likelihood belonging to the predetermined reference model among the plurality of reference models A first determination unit configured to determine the type of the audio signal; and the feature parameter when the likelihood does not satisfy the threshold condition. A second determination unit that determines the degree of mixing of the audio component and the non-speech component, and the input audio signal is corrected in accordance with the type of the audio signal determined by the first determination unit, and in accordance with the degree of mixing. Correction means for correcting the input audio signal.

本発明の一実施形態に係るオーディオ信号補正方法は、入力オーディオ信号を所定時間単位の複数フレームに分割し、各分割フレームに含まれたLチャネル成分信号とRチャネル成分信号との差分信号を算出し、各分割フレームから算出された各差分信号から1以上の特徴パラメータを算出し、前記特徴パラメータと複数の参照モデルとを照合し、前記特徴パラメータが前記複数の参照モデルの中の所定の参照モデルに属する尤度を算出し、前記尤度が閾値条件を満たす場合に、前記所定の参照モデルが示すオーディオ信号の種類を前記特徴パラメータが示すオーディオ信号の種類と判定し、この判定されたオーディオ信号の種類に応じて前記入力オーディオ信号を補正し、前記尤度が前記閾値条件を満たさない場合に、前記特徴パラメータから音声成分と非音声成分の混合度合いを判定し、前記混合度合いに応じて前記入力オーディオ信号を補正する。   An audio signal correction method according to an embodiment of the present invention divides an input audio signal into a plurality of frames in a predetermined time unit, and calculates a difference signal between an L channel component signal and an R channel component signal included in each divided frame. Then, one or more feature parameters are calculated from each difference signal calculated from each divided frame, the feature parameters are compared with a plurality of reference models, and the feature parameter is a predetermined reference in the plurality of reference models. The likelihood belonging to the model is calculated, and when the likelihood satisfies the threshold condition, the type of the audio signal indicated by the predetermined reference model is determined as the type of the audio signal indicated by the feature parameter, and the determined audio When the input audio signal is corrected according to the type of signal and the likelihood does not satisfy the threshold condition, the feature parameter Determining a mixed degree of Luo speech component and a non-speech component, correcting the input audio signal according to the degree of mixing.

本発明によれば、入力オーディオ信号の高音質化に優れたオーディオ信号補正装置及びオーディオ信号補正方法を提供できる。   ADVANTAGE OF THE INVENTION According to this invention, the audio signal correction apparatus and audio signal correction method excellent in the quality improvement of the input audio signal can be provided.

本発明の一実施形態に係るオーディオ信号補正装置の概略構成を示すブロック図である。1 is a block diagram showing a schematic configuration of an audio signal correction apparatus according to an embodiment of the present invention. リアルタイム特性解析モジュールの概略構成を示すブロック図である。It is a block diagram which shows schematic structure of a real-time characteristic analysis module. 特徴パラメータの分布の一例を示す図である。It is a figure which shows an example of distribution of a characteristic parameter. 特徴パラメータ生成の一例を示すフローチャートである。It is a flowchart which shows an example of characteristic parameter generation. 信号音種別の判定の一例を示すフローチャートである。It is a flowchart which shows an example of determination of a signal sound classification. 音声参照モデル補正の一例を示すフローチャートである。It is a flowchart which shows an example of audio | voice reference model correction | amendment.

以下、図面を参照し、本発明の実施形態について説明する。   Hereinafter, embodiments of the present invention will be described with reference to the drawings.

図1は、本発明の一実施形態に係るオーディオ信号補正装置の概略構成を示すブロック図である。図1に示すように、オーディオ信号補正装置は、リアルタイム特性解析モジュール1、選択モジュール2、音声補正モジュール3を備えている。さらに、音声補正モジュール3は、歓声シーン入力モジュール31、実況解説シーン入力モジュール32、その他シーン入力モジュール33、第1音質補正モジュール34、第2音質補正モジュール35、第3音質補正モジュール36を備えている。   FIG. 1 is a block diagram showing a schematic configuration of an audio signal correction apparatus according to an embodiment of the present invention. As shown in FIG. 1, the audio signal correction apparatus includes a real-time characteristic analysis module 1, a selection module 2, and a sound correction module 3. Furthermore, the sound correction module 3 includes a cheering scene input module 31, a live commentary scene input module 32, other scene input modules 33, a first sound quality correction module 34, a second sound quality correction module 35, and a third sound quality correction module 36. Yes.

なお、本実施形態では、音声補正モジュール3は、スポーツ中継等のコンテンツのオーディオ信号の特性に応じてこのオーディオ信号を適切に補正するように構成されているが、本発明はこの構成に限定されるものではない。例えば、他のコンテンツのオーディオ信号を補正する場合、音声補正モジュール3は、他のコンテンツのオーディオ信号の特性に応じてこのオーディオ信号を適切に補正するように構成される。   In the present embodiment, the audio correction module 3 is configured to appropriately correct the audio signal according to the characteristics of the audio signal of the content such as sports broadcast, but the present invention is limited to this configuration. It is not something. For example, when correcting an audio signal of another content, the audio correction module 3 is configured to appropriately correct the audio signal according to the characteristics of the audio signal of the other content.

リアルタイム特性解析モジュール1は、入力オーディオ信号から特徴パラメータを抽出し、抽出した特徴パラメータからリアルタイムにオーディオ信号(シーン)の種類を解析する。例えば、スポーツ中継等のコンテンツの場合、リアルタイム特性解析モジュール1は、入力オーディオ信号の特徴パラメータから、リアルタイムに、歓声シーンのオーディオ信号、実況解説シーンのオーディオ信号、その他シーンのオーディオ信号(例えば通常プレイシーンのオーディオ信号)を分類する。   The real-time characteristic analysis module 1 extracts feature parameters from the input audio signal, and analyzes the type of audio signal (scene) in real time from the extracted feature parameters. For example, in the case of content such as sports broadcasts, the real-time characteristic analysis module 1 determines, in real time, the audio signal of the cheering scene, the audio signal of the live commentary scene, and the audio signal of other scenes (for example, normal play) Scene audio signal).

選択モジュール2は、リアルタイムに変化する解析結果に応じて入力オーディオ信号の出力先を選択する。例えば、選択モジュール2は、歓声シーンに対応したオーディオ信号の検出に基づき、歓声シーン入力モジュール31への入力を選択し、入力オーディオ信号を歓声シーン入力モジュール31へ入力する。また、選択モジュール2は、実況解説シーンに対応したオーディオ信号の検出に基づき、実況解説シーン入力モジュール32への入力を選択し、入力オーディオ信号を実況解説シーン入力モジュール32へ入力する。また、選択モジュール2は、その他シーンに対応したオーディオ信号(例えば通常プレイシーンに対応したオーディオ信号)の検出に基づき、その他シーン入力モジュール33への入力を選択し、入力オーディオ信号をその他シーン入力モジュール33へ入力する。なお、選択モジュール2は、リアルタイムに変化する解析結果に応じて、歓声シーン入力モジュール31への入力を選択したり、実況解説シーン入力モジュール32への入力を選択したり、その他シーン入力モジュール33への入力を選択したりする。   The selection module 2 selects the output destination of the input audio signal according to the analysis result that changes in real time. For example, the selection module 2 selects an input to the cheering scene input module 31 based on detection of the audio signal corresponding to the cheering scene, and inputs the input audio signal to the cheering scene input module 31. The selection module 2 selects an input to the live commentary scene input module 32 based on detection of the audio signal corresponding to the live commentary scene, and inputs the input audio signal to the live commentary scene input module 32. The selection module 2 selects an input to the other scene input module 33 based on detection of an audio signal corresponding to the other scene (for example, an audio signal corresponding to the normal play scene), and the input audio signal is input to the other scene input module. Input to 33. The selection module 2 selects an input to the cheering scene input module 31, selects an input to the live commentary scene input module 32, or other to the scene input module 33 according to the analysis result that changes in real time. Or select the input.

第1音質補正モジュール34は、歓声シーン入力モジュール31からの入力オーディオ信号を、歓声シーンに対応した補正手法で補正する。例えば、歓声シーン(応援、ブーイングなど含む)で、実況解説音声が聞き取り難くなるほど実況音より環境音が非常に大きい場合、第1音質補正モジュール34は、入力オーディオ信号に含まれた音声成分を大幅に強調し、実況を聞き取り易くする。   The first sound quality correction module 34 corrects the input audio signal from the cheering scene input module 31 by a correction method corresponding to the cheering scene. For example, in a cheering scene (including support, booing, etc.), if the environmental sound is much louder than the live sound so that the live commentary sound becomes difficult to hear, the first sound quality correction module 34 greatly increases the sound component contained in the input audio signal. To make it easier to hear the actual situation.

また、第2音質補正モジュール35は、実況解説シーン入力モジュール32からの入力オーディオ信号を、実況解説シーンに対応した補正手法で補正する。例えば、実況解説シーンでは、環境音より実況音が大きくなる傾向にあるが、より実況を聞き取り易くするために、第2音質補正モジュール35は、入力オーディオ信号に含まれた音声成分をやや強調し、実況をより聞き取り易くする。   The second sound quality correction module 35 corrects the input audio signal from the live commentary scene input module 32 using a correction method corresponding to the live commentary scene. For example, in the live commentary scene, the live sound tends to be louder than the environmental sound, but in order to make it easier to hear the live sound, the second sound quality correction module 35 slightly emphasizes the sound component included in the input audio signal. , Make the actual situation easier to hear.

また、第3音質補正モジュール36は、その他シーン入力モジュール33からの入力オーディオ信号を、その他シーン(例えば通常プレイシーン)に対応した補正手法で補正する。例えば、通常プレイシーンではフィールド内の音がメインとなり、臨場感を高めるために、第3音質補正モジュール36は、入力オーディオ信号をワイドステレオ用に補正する。   The third sound quality correction module 36 corrects the input audio signal from the other scene input module 33 by a correction method corresponding to the other scene (for example, a normal play scene). For example, in the normal play scene, the sound in the field is the main, and the third sound quality correction module 36 corrects the input audio signal for wide stereo in order to enhance the presence.

次に、図2を参照して、上記したリアルタイム特性解析モジュール1について説明する。図2は、リアルタイム特性解析モジュール1の概略構成を示すブロック図である。図2に示すように、リアルタイム特性解析モジュール1は、LR差分信号算出モジュール11、特徴パラメータ算出モジュール12、参照モデル照合モジュール13、閾値判定モジュール14、音声・非音声混合度合い判定モジュール15を備えている。さらに、特徴パラメータ算出モジュール12は、パワー変動算出モジュール121、零交差周波数算出モジュール122、スペクトル変動算出モジュール123などを備えている。   Next, the above-described real-time characteristic analysis module 1 will be described with reference to FIG. FIG. 2 is a block diagram showing a schematic configuration of the real-time characteristic analysis module 1. As shown in FIG. 2, the real-time characteristic analysis module 1 includes an LR difference signal calculation module 11, a feature parameter calculation module 12, a reference model matching module 13, a threshold determination module 14, and a voice / non-voice mixing degree determination module 15. Yes. Further, the feature parameter calculation module 12 includes a power fluctuation calculation module 121, a zero-crossing frequency calculation module 122, a spectrum fluctuation calculation module 123, and the like.

LR差分信号算出モジュール11は、入力オーディオ信号を所定時間単位の複数フレームに分割し、各分割フレームに含まれたL(Left)チャネル成分信号とR(Right)チャネル成分信号との差分信号を算出する。例えば、LR差分信号算出モジュール11は、入力オーディオ信号を数百msec程度の単位で複数のフレームとして分割し、さらに各フレームを数十msec程度の単位でサブフレームに分割し、各サブフレームからLR差分信号を算出する。   The LR difference signal calculation module 11 divides an input audio signal into a plurality of frames in a predetermined time unit, and calculates a difference signal between an L (Left) channel component signal and an R (Right) channel component signal included in each divided frame. To do. For example, the LR difference signal calculation module 11 divides the input audio signal into a plurality of frames in units of about several hundreds msec, further divides each frame into subframes in units of about several tens of msec, and LRs from each subframe. A difference signal is calculated.

特徴パラメータ算出モジュール12は、各サブフレームから算出されたLR差分信号から複数の特徴パラメータを算出する。例えば、パワー変動算出モジュール121は、サブフレームの単位でパワーを算出する。零交差周波数算出モジュール122は、サブフレームの単位で零交差周波数(時間波形が振幅方向に零を横切る回数)を算出する。スペクトル変動算出モジュール123は、サブフレームの単位でスペクトル変動(所定サブフレームと直前サブフレームとのFFTパワースペクトル成分変動)を算出する。本実施形態では、特徴パラメータ算出モジュール12が、パワー、零交差周波数、スペクトル変動の3つのパラメータを算出するケースについて説明するが、本発明はこれに限定されるものではない。例えば、特徴パラメータ算出モジュール12は、n個のパラメータを算出することができる。つまり、特徴パラメータ算出モジュール12は、第1パラメータ算出モジュールからn-thパラメータ値算出モジュールまでのn個のパラメータ値算出モジュールにより構成することができる。特徴パラメータ算出モジュール12は、フレームの単位で、パワー、零交差周波数、及びスペクトル変動の平均、分散等の統計量を求め、統計量に基づき特徴パラメータを算出する。   The feature parameter calculation module 12 calculates a plurality of feature parameters from the LR difference signal calculated from each subframe. For example, the power fluctuation calculation module 121 calculates power in units of subframes. The zero crossing frequency calculation module 122 calculates a zero crossing frequency (the number of times the time waveform crosses zero in the amplitude direction) in units of subframes. The spectrum fluctuation calculation module 123 calculates the spectrum fluctuation (FFT power spectrum component fluctuation between the predetermined subframe and the immediately preceding subframe) in units of subframes. In the present embodiment, a case where the feature parameter calculation module 12 calculates three parameters of power, zero-crossing frequency, and spectrum variation will be described, but the present invention is not limited to this. For example, the feature parameter calculation module 12 can calculate n parameters. That is, the feature parameter calculation module 12 can be configured by n parameter value calculation modules from the first parameter calculation module to the n-th parameter value calculation module. The feature parameter calculation module 12 obtains statistics such as power, zero-crossing frequency, average of spectrum variation, and variance in units of frames, and calculates feature parameters based on the statistics.

参照モデル照合モジュール13は、所定の特徴パラメータと複数の参照モデルとを照合する。例えば、参照モデル照合モジュール13は、あらかじめ学習により構築した音種別(シーン別)ごとの参照モデル(分布データ)を保持し、所定の特徴パラメータと各参照モデルとを比較し、所定の特徴パラメータが所定の参照モデルに属する確からしさ、すなわち尤度を算出する。   The reference model collation module 13 collates predetermined feature parameters with a plurality of reference models. For example, the reference model matching module 13 holds a reference model (distribution data) for each sound type (by scene) that is constructed in advance by learning, compares a predetermined feature parameter with each reference model, and determines whether the predetermined feature parameter is The probability that belongs to a predetermined reference model, that is, the likelihood is calculated.

閾値判定モジュール14は、算出尤度が閾値条件を満たす場合に、所定の参照モデルが示すオーディオ信号(シーン)の種類を所定の特徴パラメータが示すオーディオ信号(シーン)の種類と判定する。つまり、閾値判定モジュール14は、算出尤度が閾値条件を満たす場合に、オーディオ信号(シーン)の種類を確定することができる。   The threshold determination module 14 determines that the type of the audio signal (scene) indicated by the predetermined reference model is the type of the audio signal (scene) indicated by the predetermined feature parameter when the calculated likelihood satisfies the threshold condition. That is, the threshold determination module 14 can determine the type of the audio signal (scene) when the calculation likelihood satisfies the threshold condition.

音声・非音声混合度合い判定モジュール15は、算出尤度が閾値条件を満たさない場合に、音声成分と非音声成分の混合度合いを判定し、音声補正モジュール3は、混合度合いに基づき入力オーディオ信号を補正する。例えば、第3音質補正モジュール36が、混合度合いに基づき入力オーディオ信号の補正を制御する。   The voice / non-voice mixing degree determination module 15 determines the degree of mixing of the voice component and the non-voice component when the calculated likelihood does not satisfy the threshold condition, and the voice correction module 3 determines the input audio signal based on the degree of mixing. to correct. For example, the third sound quality correction module 36 controls the correction of the input audio signal based on the degree of mixing.

ここで、閾値判定モジュール14と音声・非音声混合度合い判定モジュール15の連携について説明する。例えば、参照モデル照合モジュール13が、特徴パラメータと各参照モデルとを照合し、特徴パラメータが各参照モデルに属する各尤度を算出し、算出された各尤度の中から最大尤度を選択する。このケースで、閾値判定モジュール14は、最大尤度が閾値条件を満たす場合に、最大尤度の算出に使用された参照モデルが示すオーディオ信号(シーン)の種類を特徴パラメータが示すオーディオ信号(シーン)の種類と判定する。つまり、特徴パラメータが示すオーディオ信号(シーン)の種類が確定する。ところが、最大尤度が閾値条件を満たさない場合には、閾値判定モジュール14は、特徴パラメータが示すオーディオ信号(シーン)の種類を確定することができない。そこで、音声・非音声混合度合い判定モジュール15が機能し、閾値判定モジュール14で確定できなかったオーディオ信号(シーン)の種類を確定する。つまり、音声・非音声混合度合い判定モジュール15が、最大尤度に基づき音声成分と非音声成分の混合度合いを判定(推定)し、音声補正モジュール3が、混合度合いに基づき入力オーディオ信号の補正度合いを制御する。   Here, the cooperation between the threshold determination module 14 and the voice / non-voice mixing degree determination module 15 will be described. For example, the reference model matching module 13 matches the feature parameter with each reference model, calculates each likelihood that the feature parameter belongs to each reference model, and selects the maximum likelihood from the calculated likelihoods. . In this case, when the maximum likelihood satisfies the threshold condition, the threshold determination module 14 uses the audio signal (scene) whose feature parameter indicates the type of the audio signal (scene) indicated by the reference model used for calculating the maximum likelihood. ) Type. That is, the type of audio signal (scene) indicated by the feature parameter is determined. However, when the maximum likelihood does not satisfy the threshold condition, the threshold determination module 14 cannot determine the type of the audio signal (scene) indicated by the feature parameter. Therefore, the voice / non-voice mixing degree determination module 15 functions to determine the type of audio signal (scene) that could not be determined by the threshold determination module 14. That is, the voice / non-voice mixing degree determination module 15 determines (estimates) the degree of mixing of the voice component and the non-voice component based on the maximum likelihood, and the voice correction module 3 corrects the input audio signal based on the degree of mixing. To control.

上記したようにリアルタイムに判定されたオーディオ信号(シーン)の種類に応じて、選択モジュール2及び音声補正モジュール3が、入力オーディオ信号を補正したり、リアルタイムに判定された混合度合いに応じて、音声補正モジュール3が、入力オーディオ信号の補正度合いを制御したりする。これにより、オーディオ信号補正装置は、オーディオ信号(シーン)の種類に応じてリアルタイムに補正されたオーディオ信号を出力することができる。   As described above, the selection module 2 and the sound correction module 3 correct the input audio signal according to the type of the audio signal (scene) determined in real time, or the sound according to the mixing degree determined in real time. The correction module 3 controls the correction degree of the input audio signal. Thereby, the audio signal correction apparatus can output an audio signal corrected in real time according to the type of the audio signal (scene).

次に、図4〜図6に示すフローチャートを参照し、上記した各処理についてさらに詳しく説明する。図4は、特徴パラメータ生成の一例を示すフローチャートである。図5は、信号音種別の判定の一例を示すフローチャートである。図6は、音声参照モデル補正の一例を示すフローチャートである。   Next, each process described above will be described in more detail with reference to the flowcharts shown in FIGS. FIG. 4 is a flowchart illustrating an example of feature parameter generation. FIG. 5 is a flowchart illustrating an example of determination of the signal sound type. FIG. 6 is a flowchart illustrating an example of speech reference model correction.

図4に示すように、LR差分信号算出モジュール11は、入力オーディオ信号を数百msec程度の単位で複数のフレームとして分割し、さらに各フレームを数十msec程度の単位でサブフレームに分割し(S101)、各サブフレームからLR差分信号を生成する(S102)。一般に、人の音声はセンター寄りに定位する性質があるため、LR差分信号を生成すると音声成分が抑制される。これにより、歓声など特定の音種の識別を容易にすることができる。   As shown in FIG. 4, the LR difference signal calculation module 11 divides the input audio signal into a plurality of frames in units of about several hundreds of milliseconds, and further divides each frame into subframes in units of about several tens of milliseconds ( S101), an LR difference signal is generated from each subframe (S102). In general, since human voice has a property of being localized toward the center, generation of an LR difference signal suppresses voice components. This makes it easy to identify a specific sound type such as cheers.

続いて、パワー変動算出モジュール121が、サブフレームの単位でパワーを算出し(S103)、零交差周波数算出モジュール122が、サブフレームの単位で零交差周波数を算出し(S104)、スペクトル変動算出モジュール123が、サブフレームの単位でスペクトル変動を算出し(S105)、さらに必要に応じて他の判別情報が算出される(S106)。特徴パラメータ算出モジュール12は、フレームの単位で、パワー、零交差周波数、及びスペクトル変動の平均、分散等の統計量を求め、統計量に基づき特徴パラメータを算出する(S107、S108)。   Subsequently, the power fluctuation calculation module 121 calculates power in units of subframes (S103), the zero crossing frequency calculation module 122 calculates zero crossing frequencies in units of subframes (S104), and a spectral fluctuation calculation module. 123 calculates the spectral variation in units of subframes (S105), and further determines other discrimination information as necessary (S106). The feature parameter calculation module 12 obtains statistics such as power, zero-crossing frequency, average of spectrum variation, and variance in units of frames, and calculates feature parameters based on the statistics (S107, S108).

続いて、信号音種(シーンの種類)が判定される(S200)。図5に示すように、参照モデル照合モジュール13は、特徴パラメータと各音種の参照モデルとを照合する(S201)。参照モデル構築の例としては、GMM(Gaussian Mixture Model)が挙げられる。GMMを利用した参照モデルは、特徴パラメータ数の次元を有する正規分布の混合和で表現される。   Subsequently, the signal sound type (scene type) is determined (S200). As shown in FIG. 5, the reference model collation module 13 collates the feature parameter with the reference model of each sound type (S201). An example of reference model construction is GMM (Gaussian Mixture Model). A reference model using GMM is expressed by a mixed sum of normal distributions having dimensions of the number of feature parameters.

すなわち下記(式1)に示すように、xを特徴パラメータのD次元ベクトルx={x1,x2,…,xD}、μを特徴パラメータの期待値(平均値)、Σを特徴パラメータの共分散行列、αkを複数の正規分布を重みづけ線形和で表したときの各分布の重みとする。

Figure 2011013383
That is, as shown in the following (Formula 1), x is a D-dimensional vector of feature parameters x = {x1, x2,. A matrix, αk is a weight of each distribution when a plurality of normal distributions are weighted and expressed as a linear sum.
Figure 2011013383

これらにより計算されたNは尤度を表し、D次元の特徴パラメータ正規分布の混合和となる。あるフレームにおける特徴パラメータが参照モデルである混合ガウス分布から生成されたとすると、当該信号の尤度は上記(式1)で求められ、通常はこの尤度値を対数化する。特徴パラメータと各参照モデルとを照合し、特徴パラメータが各参照モデルに属する各尤度を算出し、算出された各尤度の中から最大尤度を選択し、この最大尤度の算出に使用された参照モデルを判定の候補とする。   N calculated by these represents the likelihood and is a mixed sum of the D-dimensional feature parameter normal distribution. If a feature parameter in a certain frame is generated from a mixed Gaussian distribution which is a reference model, the likelihood of the signal is obtained by the above (Equation 1), and this likelihood value is usually logarithmized. The feature parameter is compared with each reference model, the likelihood that the feature parameter belongs to each reference model is calculated, the maximum likelihood is selected from each calculated likelihood, and this is used to calculate the maximum likelihood The determined reference model is set as a candidate for determination.

ここで、参照モデルの音種又は参照モデルを得るための学習データの量によって、参照モデルの信頼性に差が出ることがある。大きな歓声や楽曲のようにスペクトル構造等に定常的性質が出やすい音種の参照モデルは、正規分布の偏差が小さく収束性の高い理想的なものになる。例えば、図3に示すように、歓声は、定常的性質が出やすい音種であり、歓声に対応した特徴パラメータの分布から構築される参照モデルの信頼性は比較的高くなる。   Here, the reliability of the reference model may differ depending on the sound type of the reference model or the amount of learning data for obtaining the reference model. A reference model of a sound type that is likely to have a stationary property in a spectrum structure or the like, such as a big cheer or music, is ideal with a small deviation of normal distribution and high convergence. For example, as shown in FIG. 3, cheers are sound types that are likely to have stationary properties, and the reliability of the reference model constructed from the distribution of feature parameters corresponding to cheers is relatively high.

一方、プレイシーンのようにコンテンツごとに特有な環境音を含む音種の参照モデル及び人の音声などの音種の参照モデルは、定常的性質があまり現れず、分布の広がりが大きくなりやすい。それだけではなく、コンテンツごとに特有な環境音を含む音種の参照モデルの構築のための十分な学習データの収集は難しい。音声などの音種の参照モデルは、収録環境に依存する各種の雑音成分、また発話に含まれる微小な沈黙(無音)区間の影響等もあり、理想的に構築することが比較的難しい。例えば、図3に示すように、プレイシーン及び音声は、定常的性質があまり現れず、分布の広がりが大きくなりやすく、プレイシーンに対応した特徴パラメータの分布から構築される参照モデル、及び音声に対応した特徴パラメータの分布から構築される参照モデルの信頼性は比較的低くなる。   On the other hand, in the reference model of the sound type including the environmental sound peculiar to each content as in the play scene and the reference model of the sound type such as human speech, the stationary property does not appear so much and the spread of the distribution tends to be large. Not only that, it is difficult to collect sufficient learning data for constructing a reference model of sound types including environmental sounds peculiar to each content. A reference model of a sound type such as speech is relatively difficult to construct ideally due to various noise components depending on the recording environment and the influence of a minute silence (silence) section included in the speech. For example, as shown in FIG. 3, the play scene and the voice do not show much stationary properties, and the spread of the distribution tends to increase, and the reference model constructed from the distribution of feature parameters corresponding to the play scene and the voice The reliability of the reference model constructed from the distribution of corresponding feature parameters is relatively low.

このため、閾値判定モジュール14によるオーディオ信号(シーン)の種類判定、及び音声・非音声混合度合い判定モジュール15による混合度合い判定が重要となる。歓声(応援の鳴り物やブーイングなども含む)のような、定常的性質の現れやすい音種の参照モデルの分布偏差は小さい。このため、歓声の特徴パラメータと歓声の参照モデルとを照合した場合、照合結果は期待値(平均値)に近く、尤度が大きくなる傾向が高い。よって、歓声のような音種については比較的容易に判定が可能となる。特徴パラメータと参照モデルとの照合の後、算出された尤度と閾値αと比較し、閾値αを上回る尤度を有するフレームが連続でβ回以上続けば(S202、YES)(S203、YES)、この時点で入力オーディオ信号の属する音種を歓声と確定する(S204)。   Therefore, it is important to determine the type of audio signal (scene) by the threshold determination module 14 and the mixing degree determination by the sound / non-voice mixing degree determination module 15. The distribution deviation of a reference model of a sound type that is likely to show stationary properties such as cheers (including cheering noises and boos) is small. For this reason, when the feature parameter of cheers and the reference model of cheers are collated, the collation result is close to the expected value (average value), and the likelihood tends to increase. Therefore, it is possible to determine a sound type such as cheers relatively easily. After collating the feature parameter with the reference model, the calculated likelihood is compared with the threshold value α, and if frames having a likelihood exceeding the threshold value α continue continuously β times or more (S202, YES) (S203, YES) At this time, the sound type to which the input audio signal belongs is determined as cheering (S204).

この際、歓声と確定した際のフレーム尤度、または過去β回以上続いた複数フレームで平滑化した尤度情報を出力すれば、歓声である情報の信頼性をより正確に伝えることができ、後段の音質補正にてきめ細かい補正制御が可能になる。   At this time, if the frame likelihood when confirmed as cheering, or the likelihood information smoothed by multiple frames that lasted more than β times in the past, the reliability of information that is cheering can be conveyed more accurately, Fine correction control is possible for sound quality correction in the subsequent stage.

閾値αを上回る尤度が得られない(S202、NO)、又は閾値αを上回る尤度を有するフレームが連続でβ回以上続かない(S203、NO)場合は、閾値判定モジュール14によるオーディオ信号(シーン)の正確な種類判定は難しい。つまり、閾値判定モジュール14において歓声と確定した以外の入力オーディオ信号に対しては、音声・非音声混合度合い判定モジュール15による混合度合い判定が適用される(S300)。   When the likelihood that exceeds the threshold α cannot be obtained (S202, NO), or the frames having the likelihood that exceeds the threshold α do not continue β times or more continuously (S203, NO), the audio signal ( It is difficult to determine the exact type of scene. That is, the mixing degree determination by the voice / non-voice mixing degree determination module 15 is applied to input audio signals other than those determined as cheers in the threshold determination module 14 (S300).

図6に示すように、実際のコンテンツ(入力オーディオ信号)では、音声の信号成分とプレイシーンの信号成分とが明確に分離されていない場合が多く、単純に、入力オーディオ信号は音声である、又は入力オーディオ信号はプレイシーンであるという判定は適切ではない。そこで、音声成分である確からしさに対する非音声成分である確からしさの度合い(混合度合い)をパラメータとして出力し、この混合度合いに応じてワイドステレオ等の音質補正を制御する。   As shown in FIG. 6, in the actual content (input audio signal), the audio signal component and the play scene signal component are often not clearly separated, and simply the input audio signal is audio. Alternatively, the determination that the input audio signal is a play scene is not appropriate. Therefore, the degree of likelihood (mixing degree) that is a non-voice component with respect to the probability that is a sound component is output as a parameter, and sound quality correction such as wide stereo is controlled according to the degree of mixing.

音声・非音声混合度合い判定モジュール15は、特徴パラメータと音声の参照モデルとの照合により得られた第1の尤度と特徴パラメータと非音声の参照モデルとの照合により得られた第2の尤度との差、又はこれら第1の尤度と第2の尤度との比から、上記した混合度合いを算出する。   The speech / non-speech mixing degree determination module 15 includes a first likelihood obtained by matching the feature parameter with the speech reference model and a second likelihood obtained by matching the feature parameter with the non-speech reference model. The above-described degree of mixing is calculated from the difference between the degrees or the ratio between the first likelihood and the second likelihood.

ただし、特徴パラメータがLR差分信号から抽出されているため、混合度合いを正確に算出できない可能性がある。すなわち、LR差分信号ではセンターに定位しやすい音声成分が抑制されている。このため、特徴パラメータの分布に音声より背景音がより反映され易く、音声とプレイシーンの混合度合いを正確に算出し難い。一方、LR差分信号を生成する前のPCM信号よりD次元特徴パラメータを抽出すると、処理負荷が2倍となってしまう。   However, since the feature parameter is extracted from the LR difference signal, there is a possibility that the degree of mixing cannot be calculated accurately. That is, in the LR difference signal, a voice component that is easily localized at the center is suppressed. For this reason, the background sound is more easily reflected in the feature parameter distribution than the sound, and it is difficult to accurately calculate the degree of mixing of the sound and the play scene. On the other hand, if the D-dimensional feature parameter is extracted from the PCM signal before generating the LR difference signal, the processing load is doubled.

そこで、音声・非音声混合度合い判定モジュール15は、単純な特徴パラメータに着目し、音声・非音声混合度合いを検出する。例えば、音声・非音声混合度合い判定モジュール15は、ピッチ推定により、音声・非音声混合度合いを検出する。ピッチは人の(有声音の)発声において声帯の振動に起因して現れる基本周波数である。一般に男性で100Hz前後、女性で200Hz付近という値となる。ピッチ推定は様々あるが、簡単な抽出としては時間域での自己相関性がある。   Therefore, the voice / non-voice mixing degree determination module 15 detects a voice / non-voice mixing degree by paying attention to a simple feature parameter. For example, the voice / non-voice mixing degree determination module 15 detects the voice / non-voice mixing degree by pitch estimation. Pitch is the fundamental frequency that appears due to vocal cord vibrations in human (voiced) utterances. Generally, the value is around 100Hz for men and around 200Hz for women. There are various pitch estimations, but simple extraction includes autocorrelation in the time domain.

下記(式2)のように、あるフレームの信号s(n)と時間τだけずらした信号s(n+τ)の振幅の差分をNフレーム分蓄積する。このε(τ)を最小化するようなτを基本周期とし、その逆数を推定ピッチ値とみなす(S301)。

Figure 2011013383
As shown in the following (formula 2), the difference in amplitude between the signal s (n) of a certain frame and the signal s (n + τ) shifted by time τ is accumulated for N frames. Τ that minimizes ε (τ) is set as a basic period, and its reciprocal is regarded as an estimated pitch value (S301).
Figure 2011013383

各サブフレームにおけるこの推定ピッチ値が一般的な人の音声ピッチ範囲{lowPitch,uppPitch}に存在するかどうかを見て、フレームに占める存在割合c1を算出する(S302)。   By checking whether or not the estimated pitch value in each subframe is present in the general human voice pitch range {lowPitch, uppPitch}, the existence ratio c1 in the frame is calculated (S302).

また、ピッチ推定自体の信頼性は必ずしも高いとはいえない。このため、音声・非音声混合度合い判定モジュール15は、他の音声的性質に着目してこのパラメータの信頼性を強化することもできる。例えば、音声・非音声混合度合い判定モジュール15は、信号の零交差数等により、音声・非音声混合度合いを検出する。音声のように、子音と母音の切替りが頻繁であると零交差数の変動が大きくなる。したがって、零交差数変動性が大きく、かつ推定ピッチ値が標準的な人の音声ピッチ範囲に収まっていれば、当該信号が音声である確度は高くなる。ここで零交差数変動性であるが、フレームにおける平均零交差数の値をmeanZCとしたとき、計算値がmeanZCを超えるサブフレームの割合c2を算出する(S303)。   Further, the reliability of pitch estimation itself is not necessarily high. For this reason, the voice / non-voice mixing degree determination module 15 can strengthen the reliability of this parameter by paying attention to other voice characteristics. For example, the voice / non-voice mixing degree determination module 15 detects the voice / non-voice mixing degree based on the number of zero crossings of the signal. If the switching between consonants and vowels is frequent like speech, the number of zero crossings varies greatly. Therefore, if the zero-crossing number variability is large and the estimated pitch value is within the standard human voice pitch range, the probability that the signal is voice is high. Here, regarding the zero-crossing number variability, when the value of the average zero-crossing number in the frame is defined as meanZC, the ratio c2 of subframes in which the calculated value exceeds meanZC is calculated (S303).

以上の割合c1,c2を用いて音声の尤度を補正する。GMMモデルとの照合で得られた尤度は(式3)で表され、通常この尤度は対数化される。   The likelihood of speech is corrected using the above ratios c1 and c2. The likelihood obtained by collation with the GMM model is expressed by (Equation 3), and this likelihood is usually logarithmized.

N’=ln(N) …(式3)
このとき、音声モデルより出力される対数化尤度Nsp’については、対数化前の尤度に対して以下(式4)に示す補正項を導入する(S304)。
N '= ln (N) (Formula 3)
At this time, for the logarithmic likelihood Nsp ′ output from the speech model, a correction term shown in the following (Equation 4) is introduced with respect to the likelihood before logarithmization (S304).

Nsp’=ln(Nsp + c1 * c2) …(式4)
このNsp’と非音声モデルより出力される対数化尤度Nnsp’(式3,4と同様に、GMM非音声モデルとの照合で得られた尤度Nnspをc1,c2で補正した値)より、音声の確からしさに対する非音声の確からしさの混合度合いを以下(式5)に示すように決定し、出力する(S305)。
Nsp '= ln (Nsp + c1 * c2) (Formula 4)
From this Nsp 'and logarithmic likelihood Nnsp' output from the non-speech model (as in equations 3 and 4, the likelihood Nnsp obtained by matching with the GMM non-speech model is corrected by c1 and c2) Then, the degree of mixture of the non-speech probability with respect to the speech likelihood is determined as shown in (Equation 5) below, and is output (S305).

Ratio=Nnsp’ − Nsp’ …(式5)
以上のように、参照モデルとの照合が容易でない音声と非音声のような音種については、音声と非音声成分の確からしさの混合度合いを数値化した情報を出力し、後段の音質補正処理ではこの情報を元に補正の度合いを制御する。
Ratio = Nnsp'−Nsp ′ (Formula 5)
As described above, for sound types such as speech and non-speech that cannot be easily matched with the reference model, information that quantifies the degree of mixture of the probability of speech and non-speech components is output, and the sound quality correction processing in the subsequent stage Then, the degree of correction is controlled based on this information.

ここで、上記したオーディオ信号補正装置の作用効果についてまとめる。   Here, the effects of the above-described audio signal correction apparatus will be summarized.

(1)オーディオ信号補正装置は、リアルタイムでオーディオ信号(シーン)の種類に応じた音質補正をきめ細かく制御することができる。   (1) The audio signal correction apparatus can finely control sound quality correction according to the type of audio signal (scene) in real time.

(2)オーディオ信号補正装置は、LR差分信号より特徴パラメータを抽出し、特徴パラメータと参照モデルとの照合結果に基づき、参照モデルの信頼性が高い歓声などの音種を判定し、音種判定結果に基づき音質補正を制御する。LR差分信号から抽出した特徴パラメータを使用することにより、歓声等の音種の判定精度の向上を図ることができる。   (2) The audio signal correction device extracts a feature parameter from the LR difference signal, determines a sound type such as a cheer with high reliability of the reference model based on a result of matching the feature parameter and the reference model, and determines a sound type Sound quality correction is controlled based on the result. By using the characteristic parameter extracted from the LR difference signal, it is possible to improve the accuracy of determining the sound type such as cheers.

(3)オーディオ信号補正装置は、参照モデルの信頼性が低い音声・非音声成分の混合度合いを求め、混合度合いに応じて音質補正を制御する。   (3) The audio signal correction device obtains the mixing degree of the voice / non-voice component with low reliability of the reference model, and controls the sound quality correction according to the mixing degree.

(4)オーディオ信号補正装置は、ピッチ推定及び信号の零交差数など簡易な特徴量から、音声・非音声混合度合いを検出する。これにより、オーディオ信号補正装置は、音声・非音声混合度合いを少ない処理量で推定することができ、またLR差分信号から特徴パラメータが抽出されていても(音声成分が抑制されていても)、音声・非音声混合度合いを高精度に検出することができる。   (4) The audio signal correction apparatus detects the degree of voice / non-voice mixing from simple feature quantities such as pitch estimation and the number of zero crossings of the signal. As a result, the audio signal correction apparatus can estimate the degree of voice / non-voice mixing with a small amount of processing, and even if the feature parameter is extracted from the LR difference signal (even if the voice component is suppressed), The degree of voice / non-voice mixing can be detected with high accuracy.

以上により、オーディオ信号補正装置は、スポーツをはじめとする各種コンテンツでリアルタイムに多分類シーンに応じた音質補正をきめ細かく行うことが可能となる。また、オーディオ信号補正装置は、記録済みコンテンツの再生時に、上記した音質補正を適用することもできる。   As described above, the audio signal correction apparatus can finely perform sound quality correction according to multi-classification scenes in real time for various contents including sports. The audio signal correction apparatus can also apply the sound quality correction described above when reproducing recorded content.

さらに、オーディオ信号補正装置は、例えばTV、DVDプレイヤー、DVDレコーダ、及びHDDレコーダに適用することができる。これにより、ユーザは、シーンに応じた高音質で番組放送又はDVDコンテンツを楽しむことができる。   Furthermore, the audio signal correction apparatus can be applied to, for example, a TV, a DVD player, a DVD recorder, and an HDD recorder. Thereby, the user can enjoy the program broadcast or the DVD content with high sound quality according to the scene.

なお、上記したモジュールとは、ハードウェアで実現するものであっても良いし、CPU等を使ってソフトウェアで実現するものであってもよい。   The module described above may be realized by hardware, or may be realized by software using a CPU or the like.

なお、本願発明は、上記実施形態に限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で種々に変形することが可能である。また、各実施形態は可能な限り適宜組み合わせて実施してもよく、その場合組み合わせた効果が得られる。更に、上記実施形態には種々の段階の発明が含まれており、開示される複数の構成要件における適当な組み合わせにより種々の発明が抽出され得る。例えば、実施形態に示される全構成要件からいくつかの構成要件が削除されても、発明が解決しようとする課題の欄で述べた課題が解決でき、発明の効果の欄で述べられている効果が得られる場合には、この構成要件が削除された構成が発明として抽出され得る。   In addition, this invention is not limited to the said embodiment, In the implementation stage, it can change variously in the range which does not deviate from the summary. In addition, the embodiments may be appropriately combined as much as possible, and in that case, the combined effect can be obtained. Further, the above embodiments include inventions at various stages, and various inventions can be extracted by appropriately combining a plurality of disclosed constituent elements. For example, even if some constituent requirements are deleted from all the constituent requirements shown in the embodiment, the problem described in the column of the problem to be solved by the invention can be solved, and the effect described in the column of the effect of the invention Can be obtained as an invention.

1…リアルタイム特性解析モジュール、11…LR差分信号算出モジュール、12…特徴パラメータ算出モジュール、121…パワー変動算出モジュール、122…零交差周波数算出モジュール、123…スペクトル変動算出モジュール、13…参照モデル照合モジュール、14…閾値判定モジュール、15…音声・非音声混合度合い判定モジュール、2…選択モジュール、3…音声補正モジュール、31…歓声シーン入力モジュール、32…実況解説シーン入力モジュール、33…その他シーン入力モジュール、34…第1音質補正モジュール、35…第2音質補正モジュール、36…第3音質補正モジュール DESCRIPTION OF SYMBOLS 1 ... Real time characteristic analysis module, 11 ... LR difference signal calculation module, 12 ... Feature parameter calculation module, 121 ... Power fluctuation calculation module, 122 ... Zero crossing frequency calculation module, 123 ... Spectral fluctuation calculation module, 13 ... Reference model collation module , 14 Threshold determination module, 15 Voice / non-voice mixing degree determination module, 2 Selection module, 3 Voice correction module, 31 Cheer scene input module, 32 Live commentary scene input module, 33 Other scene input module 34 ... First sound quality correction module, 35 ... Second sound quality correction module, 36 ... Third sound quality correction module

Claims (5)

入力オーディオ信号を所定時間単位の複数フレームに分割し、各分割フレームに含まれたLチャネル成分信号とRチャネル成分信号との差分信号を算出する差分信号算出手段と、
各分割フレームから算出された各差分信号から1以上の特徴パラメータを算出する特徴パラメータ算出手段と、
前記特徴パラメータと複数の参照モデルとを照合し、前記特徴パラメータが前記複数の参照モデルの中の所定の参照モデルに属する尤度を算出する照合手段と、
前記尤度が閾値条件を満たす場合に、前記所定の参照モデルが示すオーディオ信号の種類を前記特徴パラメータが示すオーディオ信号の種類と判定する第1判定手段と、
前記尤度が前記閾値条件を満たさない場合に、前記特徴パラメータから音声成分と非音声成分の混合度合いを判定する第2判定手段と、
前記第1判定手段により判定された前記オーディオ信号の種類に応じて前記入力オーディオ信号を補正し、また前記混合度合いに応じて前記入力オーディオ信号を補正する補正手段と、
を備えたことを特徴とするオーディオ信号補正装置。
Differential signal calculating means for dividing an input audio signal into a plurality of frames in a predetermined time unit and calculating a differential signal between the L channel component signal and the R channel component signal included in each divided frame;
Feature parameter calculating means for calculating one or more feature parameters from each difference signal calculated from each divided frame;
Collating means for collating the feature parameter with a plurality of reference models, and calculating a likelihood that the feature parameter belongs to a predetermined reference model among the plurality of reference models;
First determination means for determining that the type of the audio signal indicated by the predetermined reference model is the type of the audio signal indicated by the feature parameter when the likelihood satisfies a threshold condition;
Second determination means for determining a mixing degree of a speech component and a non-speech component from the feature parameter when the likelihood does not satisfy the threshold condition;
Correcting means for correcting the input audio signal according to the type of the audio signal determined by the first determining means, and correcting the input audio signal according to the degree of mixing;
An audio signal correction apparatus comprising:
前記照合手段は、前記特徴パラメータと各参照モデルとを照合し、前記特徴パラメータが各参照モデルに属する各尤度を算出し、算出された各尤度の中から最大尤度を選択し、
前記第1判定手段は、前記最大尤度が閾値条件を満たす場合に、前記最大尤度の算出に使用された参照モデルが示すオーディオ信号の種類を前記特徴パラメータが示す前記オーディオ信号の種類と判定し、
前記第2判定手段は、前記最大尤度が閾値条件を満たさない場合に、前記最大尤度に基づき前記特徴パラメータの音声成分と非音声成分の混合度合いを判定する、
ことを特徴とする請求項1に記載のオーディオ信号補正装置。
The collation means collates the feature parameter with each reference model, calculates each likelihood that the feature parameter belongs to each reference model, and selects the maximum likelihood from among the calculated likelihoods,
The first determination unit determines that the type of the audio signal indicated by the reference model used for calculating the maximum likelihood is the type of the audio signal indicated by the feature parameter when the maximum likelihood satisfies a threshold condition. And
The second determination means determines the mixing degree of the speech component and the non-speech component of the feature parameter based on the maximum likelihood when the maximum likelihood does not satisfy a threshold condition.
The audio signal correcting apparatus according to claim 1, wherein
前記第2判定手段は、人の声帯の振動に起因して現れる基本周波数に基づき、前記特徴パラメータの音声成分と非音声成分の混合度合いを判定することを特徴とする請求項1に記載のオーディオ信号補正装置。   2. The audio according to claim 1, wherein the second determination unit determines a degree of mixing of the voice component and the non-voice component of the characteristic parameter based on a fundamental frequency that appears due to vibration of a human vocal cord. Signal correction device. 前記第2判定手段は、子音と母音の切り替わりに応じて発生する零交差数の変動性に基づき、前記特徴パラメータの音声成分と非音声成分の混合度合いを判定することを特徴とする請求項1に記載のオーディオ信号補正装置。   The second determination means determines the degree of mixing of the speech component and the non-speech component of the feature parameter based on the variability of the number of zero crossings generated in response to switching between a consonant and a vowel. The audio signal correction apparatus described in 1. 入力オーディオ信号を所定時間単位の複数フレームに分割し、各分割フレームに含まれたLチャネル成分信号とRチャネル成分信号との差分信号を算出し、
各分割フレームから算出された各差分信号から1以上の特徴パラメータを算出し、
前記特徴パラメータと複数の参照モデルとを照合し、前記特徴パラメータが前記複数の参照モデルの中の所定の参照モデルに属する尤度を算出し、
前記尤度が閾値条件を満たす場合に、前記所定の参照モデルが示すオーディオ信号の種類を前記特徴パラメータが示すオーディオ信号の種類と判定し、この判定されたオーディオ信号の種類に応じて前記入力オーディオ信号を補正し、
前記尤度が前記閾値条件を満たさない場合に、前記特徴パラメータから音声成分と非音声成分の混合度合いを判定し、
前記混合度合いに応じて前記入力オーディオ信号を補正する、
ことを特徴とするオーディオ信号補正方法。
Dividing the input audio signal into a plurality of frames in a predetermined time unit, calculating a difference signal between the L channel component signal and the R channel component signal included in each divided frame;
Calculating one or more feature parameters from each difference signal calculated from each divided frame;
Collating the feature parameter with a plurality of reference models, calculating a likelihood that the feature parameter belongs to a predetermined reference model among the plurality of reference models;
When the likelihood satisfies a threshold condition, the type of the audio signal indicated by the predetermined reference model is determined as the type of the audio signal indicated by the feature parameter, and the input audio is determined according to the determined type of the audio signal. Correct the signal,
When the likelihood does not satisfy the threshold condition, the degree of mixing of the speech component and the non-speech component is determined from the feature parameter,
Correcting the input audio signal according to the degree of mixing;
An audio signal correction method characterized by the above.
JP2009156271A 2009-06-30 2009-06-30 Audio signal correction device and audio signal correction method Pending JP2011013383A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009156271A JP2011013383A (en) 2009-06-30 2009-06-30 Audio signal correction device and audio signal correction method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009156271A JP2011013383A (en) 2009-06-30 2009-06-30 Audio signal correction device and audio signal correction method

Publications (1)

Publication Number Publication Date
JP2011013383A true JP2011013383A (en) 2011-01-20

Family

ID=43592353

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009156271A Pending JP2011013383A (en) 2009-06-30 2009-06-30 Audio signal correction device and audio signal correction method

Country Status (1)

Country Link
JP (1) JP2011013383A (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103259979A (en) * 2012-02-17 2013-08-21 株式会社东芝 Apparatus and method for correcting speech
JP2019205114A (en) * 2018-05-25 2019-11-28 ヤマハ株式会社 Data processing apparatus and data processing method
JPWO2020230184A1 (en) * 2019-05-10 2020-11-19

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0522240A (en) * 1991-07-15 1993-01-29 Matsushita Electric Ind Co Ltd Effect sound addition discriminating device
JPH064088A (en) * 1992-06-17 1994-01-14 Matsushita Electric Ind Co Ltd Speech and music discriminating device
JPH0713586A (en) * 1993-06-23 1995-01-17 Matsushita Electric Ind Co Ltd Speech decision device and acoustic reproduction device
JP2003131686A (en) * 2001-10-29 2003-05-09 Nippon Hoso Kyokai <Nhk> Method and device to estimate mixture ratio of voice and music and audio device using the same
WO2007023660A1 (en) * 2005-08-24 2007-03-01 Matsushita Electric Industrial Co., Ltd. Sound identifying device
JP2007171289A (en) * 2005-12-19 2007-07-05 Mitsubishi Electric Corp Music detecting apparatus
JP2009522587A (en) * 2006-01-06 2009-06-11 三菱電機株式会社 Video classification method and video classification system
JP2010078984A (en) * 2008-09-26 2010-04-08 Sanyo Electric Co Ltd Musical piece extraction device and musical piece recording device

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0522240A (en) * 1991-07-15 1993-01-29 Matsushita Electric Ind Co Ltd Effect sound addition discriminating device
JPH064088A (en) * 1992-06-17 1994-01-14 Matsushita Electric Ind Co Ltd Speech and music discriminating device
JPH0713586A (en) * 1993-06-23 1995-01-17 Matsushita Electric Ind Co Ltd Speech decision device and acoustic reproduction device
JP2003131686A (en) * 2001-10-29 2003-05-09 Nippon Hoso Kyokai <Nhk> Method and device to estimate mixture ratio of voice and music and audio device using the same
WO2007023660A1 (en) * 2005-08-24 2007-03-01 Matsushita Electric Industrial Co., Ltd. Sound identifying device
JP2007171289A (en) * 2005-12-19 2007-07-05 Mitsubishi Electric Corp Music detecting apparatus
JP2009522587A (en) * 2006-01-06 2009-06-11 三菱電機株式会社 Video classification method and video classification system
JP2010078984A (en) * 2008-09-26 2010-04-08 Sanyo Electric Co Ltd Musical piece extraction device and musical piece recording device

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103259979A (en) * 2012-02-17 2013-08-21 株式会社东芝 Apparatus and method for correcting speech
JP2013171089A (en) * 2012-02-17 2013-09-02 Toshiba Corp Voice correction device, method, and program
JP2019205114A (en) * 2018-05-25 2019-11-28 ヤマハ株式会社 Data processing apparatus and data processing method
US11763837B2 (en) 2018-05-25 2023-09-19 Yamaha Corporation Data processing device and data processing method
JP7420170B2 (en) 2018-05-25 2024-01-23 ヤマハ株式会社 Data processing device and data processing method.
JPWO2020230184A1 (en) * 2019-05-10 2020-11-19

Similar Documents

Publication Publication Date Title
JP7150939B2 (en) Volume leveler controller and control method
JP6921907B2 (en) Equipment and methods for audio classification and processing
JP6325640B2 (en) Equalizer controller and control method
JP2011013383A (en) Audio signal correction device and audio signal correction method
JP2023539121A (en) Audio content identification
JP5272141B2 (en) Voice processing apparatus and program
CN116803105A (en) Audio content identification

Legal Events

Date Code Title Description
A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20110308