JP2018028580A - Sound source enhancement learning device, sound source enhancement device, sound source enhancement learning method, and program - Google Patents
Sound source enhancement learning device, sound source enhancement device, sound source enhancement learning method, and program Download PDFInfo
- Publication number
- JP2018028580A JP2018028580A JP2016159692A JP2016159692A JP2018028580A JP 2018028580 A JP2018028580 A JP 2018028580A JP 2016159692 A JP2016159692 A JP 2016159692A JP 2016159692 A JP2016159692 A JP 2016159692A JP 2018028580 A JP2018028580 A JP 2018028580A
- Authority
- JP
- Japan
- Prior art keywords
- frequency domain
- sound source
- value function
- unit
- learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Auxiliary Devices For Music (AREA)
Abstract
Description
本発明は、音源強調技術に関するものであり、特に強化学習を用いて学習したウィナーフィルタによる音源強調技術に関する。 The present invention relates to a sound source enhancement technique, and more particularly to a sound source enhancement technique using a Wiener filter learned using reinforcement learning.
音声認識やスポーツ中継など音を使った情報処理技術では、マイクロホンを用いて特定の欲しい音(以下、目的音という)をクリアに収音する必要がある。ところが、現状のマイクロホンで音強調すると、目的音の他に周囲の雑音も一緒に収音してしまう。この一緒に収音される雑音の影響により、音声認識では音声が雑音に埋もれ音声認識が困難になるという問題がある。また、スポーツ中継では競技音が歓声にかき消され臨場感が伝わらなくなるという問題がある。 In information processing technology using sound such as voice recognition and sports broadcasting, it is necessary to clearly collect a specific desired sound (hereinafter referred to as a target sound) using a microphone. However, when the sound is emphasized with the current microphone, ambient noise is collected together with the target sound. Due to the influence of the noise collected together, there is a problem that in speech recognition, speech is buried in noise and speech recognition becomes difficult. Also, there is a problem that the sports sound is drowned out in cheers and the sense of realism is not transmitted in sports broadcasting.
このような問題を解決するための技術として、目的音だけをクリアに強調する音源強調技術がある。音源強調とは、時刻tにおいて強調したい目的音Sω,tと雑音Nω,tが混ざり合った、マイクロホンで収音された観測信号Xω,tから目的音Sω,tだけを強調するものである(式(1)参照)。
ウィナーフィルタによる音源強調では、目的音Sω,tと雑音Nω,tが無相関であると仮定して、以下の式で目的音Sω,tを強調した信号(強調目的音)Yω,tを得る。
つまり、ウィナーフィルタによる音源強調では、観測信号Xω,tからいかに正確にウィナーフィルタGω,tを設計するかが重要となる。 That is, in the sound source enhancement by the Wiener filter, it is important to design the Wiener filter Gω, t accurately from the observation signal Xω, t .
近年、統計的機械学習の技術を用いることで、ウィナーフィルタ設計の精度が向上することが分かってきた(非特許文献1)。統計的機械学習に基づくウィナーフィルタ設計では、学習データから理想的なウィナーフィルタ^Gω,tを予測する関数M(Xω,t)を学習する。
まず、目的音の学習データSω,1,…,Ttrainと雑音の学習データNω,1,…,Ttrainを大量に集める。次に、式(1)と式(3)に基づき擬似的な観測音Xω,1,…,Ttrainと理想的なウィナーフィルタGω,1,…,Ttrainを設計する。そして、Xω,tを^Gω,tに変換する関数M(・)をニューラルネットワークなどで表現し、擬似的な観測音Xω,1,…,Ttrainと理想的なウィナーフィルタGω,1,…,Ttrainの組を用いて学習する。このとき、関数M(・)の学習の基準には、二乗誤差の目的関数が用いられることが多い。例えば、ウィナーフィルタの誤差に基づく式(5)や目的音の誤差に基づく式(6)などを用いる。
ところが、例えば、式(5)を基準として学習した関数M(・)を用いて設計したウィナーフィルタでは、目的音は強調されるが、非線形歪みなどの影響により音質が劣化してしまうという問題が生じる。これは、式(5)が目的音と出力音のスペクトルの近さだけを基準にしており、人間の聴覚の特性などを考慮していないことに起因する。 However, for example, in the Wiener filter designed using the function M (・) learned on the basis of Equation (5), the target sound is emphasized, but the sound quality deteriorates due to the influence of nonlinear distortion and the like. Arise. This is because Equation (5) is based only on the closeness of the spectrum of the target sound and the output sound, and does not consider the characteristics of human hearing.
ところで、人間の聴覚の特性などを考慮した音源強調の性能指標として、PESQ(非特許文献2)、STOI(非特許文献3)、PEASS(非特許文献4)などが知られている。以下、これらの性能指標を総称して聴感評点と呼ぶことにする。この聴感評点は、その値が高いほど、人間が聴いてよい音質であると知覚することを示している。 By the way, PESQ (Non-Patent Document 2), STOI (Non-Patent Document 3), PEASS (Non-Patent Document 4), and the like are known as performance indexes for sound source enhancement in consideration of human auditory characteristics and the like. Hereinafter, these performance indexes are collectively referred to as auditory ratings. This auditory rating score indicates that the higher the value, the more perceived that the sound quality is acceptable for human beings.
このような性質を有する聴感評点が大きくなるように統計的音源強調を学習することができれば、音質が劣化しないウィナーフィルタの設計が可能となる。 If statistical sound source emphasis can be learned so that the auditory rating having such a property becomes large, it is possible to design a Wiener filter that does not deteriorate the sound quality.
ところが、聴感評点を最大化するように統計的音源強調を学習するには2つの問題がある。
(1)聴感評点は、式(5)や式(6)のような単純な計算式で計算できるものではなく、複雑な計算式を用いて計算される。そのため、その導関数を求めることが困難であり、勾配法などを用いて直接聴感評点を最大化することができない。
(2)聴感評点は、式(5)や式(6)のようにフレームごとに求まるのではなく、1つの音源データ(例えば、音声であれば一発話)が終わらないと計算することができない。
However, there are two problems in learning statistical sound source enhancement so as to maximize the auditory rating.
(1) The auditory score cannot be calculated by a simple calculation formula such as Expression (5) or Expression (6), but is calculated using a complicated calculation expression. Therefore, it is difficult to obtain the derivative, and the auditory rating cannot be maximized directly using a gradient method or the like.
(2) The auditory score cannot be calculated unless one sound source data (for example, one utterance for speech) is completed, instead of being obtained for each frame as in Equation (5) and Equation (6). .
このため、聴感評点が大きくなるような統計的音源強調の学習を実現することは困難であった。換言すれば、音質が劣化しないウィナーフィルタの設計は困難であった。 For this reason, it has been difficult to realize statistical sound source enhancement learning that increases the auditory score. In other words, it has been difficult to design a Wiener filter that does not deteriorate the sound quality.
そこで本発明では、強化学習を用いて、音質劣化を抑制した音源強調の学習を行う音源強調学習装置を提供することを目的とする。 Therefore, an object of the present invention is to provide a sound source enhancement learning apparatus that performs sound source enhancement learning while suppressing sound quality deterioration using reinforcement learning.
本発明の一態様は、周波数領域目的音学習データと周波数領域雑音学習データの組から有限個のウィナーフィルタをウィナーフィルタテンプレートとして生成するウィナーフィルタテンプレート化部と、行動価値関数を初期化する行動価値関数初期化部と、前記周波数領域目的音学習データと前記周波数領域雑音学習データの組から生成される周波数領域観測信号を用いて表現される状態ベクトルを生成し、前記状態ベクトルと前記ウィナーフィルタテンプレートを用いて計算した前記行動価値関数の値に基づいて選択した最適なウィナーフィルタテンプレートを前記周波数領域観測信号に適用することにより、強調目的音を生成する音源強調部と、前記強調目的音から計算された聴感評点を用いて前記行動価値関数を更新する行動価値関数更新部と、所定の収束条件を満たした場合に前記行動価値関数を出力する収束判定部とを含む。 One aspect of the present invention includes a winner filter template generation unit that generates a finite number of winner filters as a winner filter template from a set of frequency domain target sound learning data and frequency domain noise learning data, and an action value that initializes an action value function. A function initialization unit; and a state vector expressed using a frequency domain observation signal generated from a set of the frequency domain target sound learning data and the frequency domain noise learning data, and the state vector and the Wiener filter template A sound source emphasizing unit that generates an emphasized target sound by applying an optimal Wiener filter template selected based on the value of the behavior value function calculated using the frequency domain observation signal, and calculating from the emphasized target sound Action value function for updating the action value function using the obtained auditory score Including a Shinbu, and a convergence determination unit which outputs the action value function if it meets a predetermined convergence condition.
本発明の一態様は、周波数領域目的音学習データと周波数領域雑音学習データの組から第1の基準を満たすウィナーフィルタをウィナーフィルタテンプレートとして生成するウィナーフィルタテンプレート化部と、行動価値関数の初期値を生成する行動価値関数初期化部と、前記周波数領域目的音学習データと前記周波数領域雑音学習データの組から生成される周波数領域観測信号を用いて表現される状態ベクトルを生成し、前記状態ベクトルと前記ウィナーフィルタテンプレートを用いて計算した前記行動価値関数の値に基づいて選択した最適なウィナーフィルタテンプレートを前記周波数領域観測信号に適用することにより、強調目的音を生成する音源強調部と、前記強調目的音を評価した値である聴感評点を用いて、前記第1の基準と第2の基準とを満たすウィナーフィルタテンプレートが選択されるように前記行動価値関数を更新する行動価値関数更新部と、所定の収束条件を満たした場合に前記行動価値関数を出力する収束判定部とを含む。 One aspect of the present invention includes a winner filter template generation unit that generates a winner filter that satisfies the first criterion from a set of frequency domain target sound learning data and frequency domain noise learning data as a winner filter template, and an initial value of an action value function Action value function initialization unit for generating a state vector expressed using a frequency domain observation signal generated from a set of the frequency domain target sound learning data and the frequency domain noise learning data, and the state vector And applying the optimal winner filter template selected based on the value of the action value function calculated using the winner filter template to the frequency domain observation signal, and a sound source emphasizing unit that generates an enhanced target sound, Using the auditory rating score, which is a value obtained by evaluating the emphasis target sound, An action value function updating unit that updates the action value function so that a winner filter template that satisfies the criterion 2 is selected, and a convergence determination unit that outputs the action value function when a predetermined convergence condition is satisfied. Including.
本発明によれば、強化学習を用いることにより、音質劣化を抑制した音源強調の学習を行うことが可能となる。 According to the present invention, it is possible to perform sound source enhancement learning while suppressing deterioration in sound quality by using reinforcement learning.
以下、本発明の実施の形態について、詳細に説明する。なお、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。 Hereinafter, embodiments of the present invention will be described in detail. In addition, the same number is attached | subjected to the structure part which has the same function, and duplication description is abbreviate | omitted.
まず、強化学習について説明する。
<強化学習(Reinforcement Learning)>
強化学習とは、ある環境におけるエージェントが、現在の状態を観測し行動を決定する問題を扱う機械学習の一種である。時刻tにおいて、エージェントは環境からの観測(つまり、環境の現在の状態)xtに基づき、A種類の行動のうちから一つの行動a∈{1, …,A}を決定する。時刻tにおける行動atは行動価値関数Q(x, a)の値に基づき決定する。まとめると、以下のような流れになる。なお、観測(状態)xは一般にベクトルとして表現される。
(1)エージェントは、時刻tにおいて、環境から観測xtを受け取る。
(2)エージェントは、行動価値関数Q(x, a)に基づいて時刻tにおける最適な行動atを決定し実行する。一般には、
(3)環境は、エージェントの行動atによって状態xt+1に変化する。
(4)環境は、状態xt+1に基づき行動atの報酬rtをエージェントに返す。
(5)(1)へ戻る。
First, reinforcement learning will be described.
<Reinforcement Learning>
Reinforcement learning is a type of machine learning that deals with problems in which an agent in a certain environment observes the current state and decides an action. At time t, the agent determines one action a∈ {1,..., A} from A types of actions based on the observation from the environment (that is, the current state of the environment) x t . The action a t at time t is determined based on the value of the action value function Q (x, a). In summary, the flow is as follows. Note that the observation (state) x is generally expressed as a vector.
(1) agents, at time t, receives the observation x t from the environment.
(2) The agent action value function Q (x, a) determined to perform an optimal action a t at time t based on. In general,
(3) environment is changed to the state x t + 1 by the agent of the action a t.
(4) environment, returns a reward r t of action a t based on the state x t + 1 to the agent.
(5) Return to (1).
ゲームを用いてこの処理の流れを説明したものが図1である。まず、エージェントは現在のゲーム画面が示すゲームの状態に従ってレバーをどのように動かせばよいかを決定する。その決定に従い、エージェントはレバーを操作する。すると、ゲームの画面が変化し、得点が更新される。 FIG. 1 illustrates the flow of this process using a game. First, the agent determines how to move the lever according to the game state indicated by the current game screen. According to the decision, the agent operates the lever. Then, the game screen changes and the score is updated.
エージェントは、ゲーム終了時の得点が大きくなるように、レバーを操作する。ゲームの練習とは、何度もゲームをプレーし、どういったゲーム画面のときにどうレバーを動かせば最終得点が大きくなるかの判断基準(行動価値関数Q(x, a))を取得することである。 The agent operates the lever so that the score at the end of the game is increased. Game practice is to play the game many times, and to obtain a criterion (action value function Q (x, a)) for how to move the lever on what game screen to increase the final score That is.
行動価値関数Q(x, a)は、観測される状態xの取りうる状態数や行動パターン数Aが少なければ、テーブル関数のような形式で簡単に表現することができる。しかし、実際の音や画像を対象とする情報処理の問題では、観測される状態xは、音圧や画素値のように連続値を取るため膨大な状態数を持つことがほとんどである。 The action value function Q (x, a) can be easily expressed in the form of a table function if the number of states x and the number of action patterns A that the observed state x can take is small. However, in the problem of information processing for actual sounds and images, the observed state x usually has a huge number of states because it takes continuous values such as sound pressure and pixel values.
そこで、行動価値関数Q(x, a)は、何らかの別の関数で近似し表現されることが多い。例えば、ディープニューラルネットワーク(DNN)に基づく行動価値関数は
強化学習における学習とは、常に最適な行動を選べるよう行動価値関数Q(x, a)を学習する問題である。最適な行動価値関数とは、式(13)で定義される現時点tから無限の未来までに得ることのできる報酬rの和Rtを最大化するような方策を与える関数である。
以下、「行動価値関数が最適である」とは、式(13)の値が最大となる行動価値関数であるという意味で用いることにする。 Hereinafter, “behavior value function is optimal” is used in the sense that it is the behavior value function that maximizes the value of Equation (13).
もし、最適な行動価値関数Qopt(x, a)が存在するならば、パラメータΘにより決定づけられる行動価値関数Q(x, a|Θ)は、
しかし、最適な行動価値関数Qopt(x, a)は未知であるため、何らかの形で近似しないとこのままでは式(14)を計算することができない。 However, since the optimal action value function Q opt (x, a) is unknown, Equation (14) cannot be calculated as it is unless approximated in some form.
そこで、エクスペリエンス・リプレー(Experience Replay)アルゴリズムでは、現在の行動価値関数Q(x, a|Θ)に従って行動を決定、実行し、そこから得られた報酬rtに従って、パラメータΘを更新する。先ほどのゲームの例でいえば、何度もゲームをプレーし、その結果に基づきレバー操作の方針を改善していくイメージである。 Therefore, in the experience replay algorithm, an action is determined and executed according to the current action value function Q (x, a | Θ), and the parameter Θ is updated according to the reward r t obtained therefrom. In the previous game example, the game is played many times and the lever operation policy is improved based on the result.
まず、現在の行動価値関数Q(x, a|Θ)に従って、観測x1,…,T、行動a1,…,T、報酬r1,…,Tのペアを取得する。そして、目標とする(つまり、Qopt(x, a)を近似する)行動価値関数Qt targetを
ただし、エクスペリエンス・リプレーアルゴリズムにおいて、時刻tにおける行動atを常に式(7)で決定すると、選択される行動が初期値に依存して偏ってしまうという問題がある。 However, the experience-replay algorithm, when determining the action a t at time t always Equation (7), there is a problem that behavior to be selected will be biased in dependence on the initial value.
そこで、ε-グリーディー(ε-greedy)アルゴリズムでは、各時刻tにおいて、確率εで行動atをランダムに選択する。このようにすることで、選択される行動の偏りを防ぎ、より最適な行動価値関数Q(x, a|Θ)を学習することができるようになる。 Therefore, in the ε-greedy algorithm, at each time t, an action a t is randomly selected with a probability ε. By doing so, it is possible to prevent the bias of the selected action and to learn a more optimal action value function Q (x, a | Θ).
次に、発明の原理について説明する。
<発明の原理>
聴感評点を向上させるような統計的音源強調の強化学習の基本的な枠組みは以下のようになる。つまり、(1)から(4)の手順に従い、行動価値関数Q(x, a|Θ)の学習を進める。
(1)環境の現時点tにおける観測を観測信号Xω,t、エージェントを関数M(・)、報酬を聴感評点Ziterとする(ただし、iterは繰り返しを示すインデックスである)。したがって、関数M(・)に従って決定されるウィナーフィルタ(ウィナーフィルタを識別する番号)が行動に相当する。
(2)目的音の学習データSω,1,…,Ttrainと雑音の学習データNω,1,…,Ttrainを使って、疑似的な観測音である観測信号Xω,1,…,Ttrainを生成し、現在の関数M(・)の行動価値関数Q(x, a|Θ)に従い、音源強調を行う(状態xは観測信号Xω,tを用いて表現される変数、行動aはウィナーフィルタを識別する番号とする)。ただし、ウィナーフィルタの推定関数である関数M(・)は、いくつかの行動パターンで実現される形式に変更しなくてはならない。
(3)音源強調の結果から聴感評点Ziterを計算する。
(4)報酬である聴感評点Ziterを最大化するように行動価値関数Q(x, a|Θ)を更新する。
Next, the principle of the invention will be described.
<Principle of the invention>
The basic framework for reinforcement learning of statistical sound source enhancement that improves auditory ratings is as follows. That is, learning of the action value function Q (x, a | Θ) is advanced according to the procedures (1) to (4).
(1) An observation signal X ω, t at the current time t of the environment, an agent as a function M (•), and a reward as an auditory rating Z iter (where iter is an index indicating repetition). Therefore, the winner filter (number identifying the winner filter) determined according to the function M (•) corresponds to the action.
(2) Using the target sound learning data S ω, 1, ..., Ttrain and the noise learning data N ω, 1, ..., Ttrain , the observation signal X ω, 1, ..., Ttrain which is a pseudo observation sound , And perform sound source enhancement according to the action value function Q (x, a | Θ) of the current function M (•) (state x is a variable expressed using observation signals X ω, t , action a is Number to identify the winner filter). However, the function M (•), which is an estimation function of the Wiener filter, must be changed to a form realized by several behavior patterns.
(3) The auditory rating score Z iter is calculated from the result of sound source enhancement.
(4) The action value function Q (x, a | Θ) is updated so as to maximize the auditory rating score Z iter as a reward.
しかし、この学習手順には以下の4つの課題が残っている。 However, the following four tasks remain in this learning procedure.
課題1は必ず解決する必要がある課題であり、この課題が解かれない限り上記手順は実行できない。一方、課題2〜4はオプションであり、これらの課題が解かれることにより音源強調の学習精度がより向上する。
(課題1)関数M(・)は、連続値のウィナーフィルタを返す関数である。したがって、関数M(・)の値の取りうるパターンは無限通りある。ところが、強化学習ではエージェントである関数M(・)の行動パターンを有限のA個に落とし込まなくてはならない。つまり、この学習で用いるウィナーフィルタを有限にする必要がある。 (Problem 1) The function M (•) is a function that returns a continuous value Wiener filter. Therefore, there are an infinite number of patterns that the value of the function M (•) can take. However, in reinforcement learning, the action pattern of the function M (•), which is an agent, must be dropped into a finite number A. That is, it is necessary to make the Wiener filter used in this learning finite.
(課題2)聴感評点は、ゲームの勝ち負けのような二値ではなく、連続値を取る。この場合、行動価値関数Q(x, a|Θ)は、式(12)のように直接聴感評点を推定するような回帰型の関数(例えば、重回帰分析などの、実数から実数への射影関数)で設計するのが一般的である。しかし、行動価値関数Q(x, a|Θ)を回帰型の関数で表現すると、一般に解空間が広くなるため、その学習が困難になる。 (Problem 2) The auditory score takes a continuous value, not a binary value as in the case of winning or losing a game. In this case, the behavioral value function Q (x, a | Θ) is a regression type function that estimates the auditory score directly as shown in Equation (12) (for example, the projection from real number to real number such as multiple regression analysis) It is common to design with a function. However, if the behavior value function Q (x, a | Θ) is expressed by a regression type function, the solution space is generally widened, so that learning becomes difficult.
この問題を解決するためには、聴感評点を二値化し、行動価値関数Q(x, a|Θ)を式(11)のように識別モデル(例えば、ロジスティック回帰などの、実数から二値への射影関数)で記述する必要がある。 To solve this problem, binarize the auditory score and convert the behavioral value function Q (x, a | Θ) from real number to binary as shown in Equation (11), such as logistic regression. Projective function).
(課題3)聴感評点は、一つの発話を強調し終わらないと評価できない。また、聴感評点は、一つの発話のうちのある局所的な部分だけ音質が劣化し、その他の部分では完璧な強調を行ったとしても、評点が下がってしまうという性質がある。しかし、エージェントは、聴感評点そのものを受け取っても、聴感評点が下がった理由までは分からないため、完璧な強調を行った部分も、悪い行動をしたものと判定してしまう(図2参照)。 (Problem 3) The auditory rating cannot be evaluated without emphasizing one utterance. In addition, the auditory score has a property that the sound quality deteriorates only in a certain local part of one utterance and the score is lowered even if perfect emphasis is performed in the other part. However, even if the agent receives the auditory score itself, it does not know the reason why the auditory score has been lowered, and therefore, the part that has been completely emphasized is determined to have acted badly (see FIG. 2).
この問題を解決するためには、聴感評点の低下を引き起こしている箇所(フレーム)だけを修正するアルゴリズムが必要である。 In order to solve this problem, an algorithm that corrects only a portion (frame) causing a decrease in the auditory rating score is required.
(課題4)強化学習では行動価値関数Q(x, a|Θ)の最適な目標値が与えらない。具体的に言えば、目標値は式(16)により逐次的に与えられる。このため、学習が初期値に依存しやすく、局所解に陥りやすい傾向がある。 (Problem 4) In reinforcement learning, the optimal target value of the action value function Q (x, a | Θ) is not given. Specifically, the target value is sequentially given by equation (16). For this reason, learning tends to depend on the initial value and tends to fall into a local solution.
この問題を解決するためには、音源強調に適した初期値の決定方法(つまり、行動価値関数Q(x, a|Θ)の初期化方法)が必要である。 In order to solve this problem, a method for determining an initial value suitable for sound source enhancement (that is, an initialization method for the action value function Q (x, a | Θ)) is required.
以下、上記4つの課題を解決する方法について説明する。
(課題1の解決法:ウィナーフィルタのテンプレート化)
ウィナーフィルタGω,tは式(3)で設計される。式(3)の分子は目的音Sω,tによって決まるため、目的音の性質によってある程度パターン化できる。例えば、目的音Sω,tが音声ならば母音を強調するウィナーフィルタが、スポーツ音ならばキック音などの突発音を強調するウィナーフィルタがそれぞれ高頻度で出現するであろうと考えられる。つまり、ウィナーフィルタGω,tは数種類のテンプレートを用いて十分に表現できると考えられ、行動価値関数Q(x, a|Θ)は、時刻tにおいてどのテンプレート(行動に相当)を選択するかを決定する関数となる。
Hereinafter, a method for solving the above four problems will be described.
(Solution for Problem 1: Creating a template for the winner filter)
The Wiener filter G ω, t is designed by Equation (3). Since the numerator of Equation (3) is determined by the target sound S ω, t , it can be patterned to some extent depending on the nature of the target sound. For example, it is considered that a Wiener filter that emphasizes vowels will appear frequently if the target sound S ω, t is a speech, and a Wiener filter that emphasizes sudden sounds such as kick sounds will appear frequently if the target sound S ω, t is a speech. In other words, the Wiener filter G ω, t can be sufficiently expressed by using several types of templates, and the action value function Q (x, a | Θ) selects which template (corresponding to the action) at the time t. Is a function that determines
したがって、課題1を解決するためには、目的音の学習データSω,1,…,Ttrainと雑音の学習データNω,1,…,TtrainからA個のウィナーフィルタのテンプレートを生成すればよい。具体的には、まず目的音の学習データSω,1,…,Ttrainと雑音の学習データNω,1,…,Ttrainから式(3)を用いて理想的なウィナーフィルタGω,1,…,Ttrainを生成する。次に、ウィナーフィルタGω,1,…,TtrainをK-meansクラスタリングやヒストグラム法などを用いてクラスタリングし、A個のウィナーフィルタのテンプレートGω,1,…,Aを生成する。ここで、テンプレートとは、K-meansクラスタリング、GMM(Gaussian Mixture Model)、ベクトル量子化クラスタリングを用いた場合はクラスタ中心であり、ヒストグラム法を用いた場合はヒストグラムの各ビンである。
Therefore, in order to solve the
(課題2の解決法:聴感評点の閾値判定)
強化学習では二つの値しか取らない報酬を用いた方が識別モデルを適用できるため、行動価値関数を精度よく推定することができる。そこで、閾値判定を用いて聴感評点を二値化したバイナリ化聴感評点に変更することとする。
(Solution for Problem 2: Threshold judgment of auditory score)
In reinforce learning, an identification model can be applied to a reward that uses only two values, so that the action value function can be estimated with high accuracy. Therefore, the threshold evaluation is used to change the auditory score to a binarized auditory score that is binarized.
Ziterをiter回目の更新における聴感評点とし、iter回目の更新の時刻tにおける報酬であるバイナリ化聴感評点rt iterを閾値φを用いて
なお、閾値φは、ITERthres-update回毎に以下の手順で更新するものとする。
(1)ITERthres-update回分の聴感評点Ziterの平均値をφ-とする。
(2)平均値φ-がφ-βより大きい場合、φ←φ-+βとする(つまり、それ以外の場合、閾値φは変更しない)。ここで、βは閾値へのバイアスを示す正の実数である。
The threshold value φ is updated by the following procedure every ITER thres-update .
(1) The average value of the auditory rating score Z iter for ITER thres-update is φ − .
(2) When the average value φ − is larger than φ−β, φ ← φ − + β is set (that is, otherwise, the threshold φ is not changed). Here, β is a positive real number indicating a bias to the threshold value.
ただし、式(19)を用いてバイナリ化聴感評点rt iterを決定すると、聴感評点Ziterの大小は一切考慮されない。つまり、Ziter=φ+0.01のときもZiter=φ+1000のときもいずれも同じバイナリ化聴感評点rt iter=Rとなってしまう。そこで、式(19)を用いて学習がうまく進まなかった場合には、バイナリ化聴感評点rt iterを以下のように設定してもよい。
上記説明において、以上となっている箇所をより大きいと、より大きいとなっている箇所を以上と、以下となっている箇所をより小さいと、より小さいとなっている箇所を以下と適宜変更してもよい。 In the above description, if the portion that is larger is larger, the portion that is larger is larger than the above, the portion that is smaller is smaller, the portion that is smaller is appropriately changed as follows. May be.
(課題3の解決法:二乗誤差ベースの更新重みの計算)
一つの発話の中で聴感評点の低下の要因となっている箇所だけを修正するための工夫について説明する(図2参照)。二乗誤差だけでは音質は最大化できないが、強調目的音Yω,tと目的音Sω,tの二乗誤差は目的音の強調のよさを示す指標となる。ここでは、フレームt毎の二乗誤差値に従って、パラメータΘの更新量を調節するアルゴリズムを提案する。フレームtごとに計算される更新重みwtを用いて目標値との誤差を表す関数LΘを計算する。以下、具体的に説明する。
(Solution of Problem 3: Calculation of update weight based on square error)
A device for correcting only a part that causes a decrease in the auditory rating in one utterance will be described (see FIG. 2). Although the sound quality cannot be maximized only by the square error, the square error between the target sound Y ω, t and the target sound S ω, t is an index indicating the enhancement of the target sound. Here, an algorithm for adjusting the update amount of the parameter Θ according to the square error value for each frame t is proposed. A function L Θ representing an error from the target value is calculated using the update weight w t calculated for each frame t. This will be specifically described below.
まず、強調目的音Yω,tと目的音Sω,tのフレームt毎の二乗誤差Etを以下の式(21)で計算する。
次に、二乗誤差Etを以下の式(22)で正規化する。なお、正規化後の二乗誤差Etを正規化二乗誤差ということにする。
次に、更新重みwtを以下の式(23)で計算する。
次に、目標値との誤差を表す関数LΘを以下の式(24)で計算する。つまり、式(24)は式(18)を代替するものである。
最後に、このLΘを用いて式(15)に従いパラメータΘを更新する。 Finally, the parameter Θ is updated according to the equation (15) using this L Θ .
ここでは、Etの計算に二乗誤差を用いて更新重みwtを求める方法について説明したが、Etの計算に用いる誤差は二乗誤差に限られるものではない。フレームt毎に強調目的音Yω,tと目的音Sω,tの信号の歪み度合が計算できればよいので、例えば、二乗誤差の代わりに、信号対歪比SDR(Signal-to-Distortion Ratio)や信号対干渉比SIR(Signal-to-Interference Ratio)、またはこれらの重み付け和などを用いても、同様の効果が得られる。したがって、二乗誤差、正規化二乗誤差をそれぞれ単に誤差、正規化誤差ということもある。 Here has been described how using a square error in the calculation of E t seek updating weight w t, the error used to calculate the E t is not limited to the square error. Since it is only necessary to calculate the degree of distortion of the signals of the enhanced target sound Y ω, t and the target sound S ω, t for each frame t, for example, instead of the square error, a signal-to-distortion ratio SDR (Signal-to-Distortion Ratio) Similar effects can be obtained by using a signal-to-interference ratio (SIR) or a weighted sum thereof. Therefore, the square error and the normalized square error may be simply referred to as an error and a normalization error, respectively.
(課題4の解決法:二乗誤差ベースの初期値の決定)
ここでは、行動価値関数Q(x, a|Θ)の初期化方法について説明する。例えば、行動価値関数Q(x, a|Θ)が式(8)から式(11)を用いて表現される場合は、W(j)とb(j)の初期値を決定することになる。先述した通り、強調目的音Yω,tと目的音Sω,tの二乗誤差は目的音の強調のよさを示す指標である。そこで、初期値は学習データの各フレームにおいて二乗誤差の意味で最適なウィナーフィルタ番号を出力するような行動価値関数Q(x, a|Θ)とする。以下、その手順について説明する。
(Solution for Problem 4: Determination of square error based initial value)
Here, an initialization method of the behavior value function Q (x, a | Θ) will be described. For example, when the behavior value function Q (x, a | Θ) is expressed using equations (8) to (11), the initial values of W (j) and b (j) will be determined. . As described above , the square error between the emphasized target sound Y ω, t and the target sound S ω, t is an index indicating the enhancement of the target sound. Therefore, the initial value is an action value function Q (x, a | Θ) that outputs an optimal Wiener filter number in the sense of a square error in each frame of learning data. Hereinafter, the procedure will be described.
まず、目的音の学習データSω,1,…,Ttrainと雑音の学習データNω,1,…,Ttrainから式(3)で理想的なウィナーフィルタGω,1,…,Ttrainを生成する。ここで、Sω,1,…,TtrainとNω,1,…,Ttrainから観測信号Xω,1,…,Ttrainも生成しておく。 First, the ideal Wiener filter G ω, 1, ..., Ttrain is generated from the learning data S ω, 1, ..., Ttrain of the target sound and the learning data N ω, 1, ..., Ttrain of the noise by Equation (3) . Here, S ω, 1, ..., Ttrain and N ω, 1, ..., observation signals X omega from Ttrain, 1, ..., Ttrain be kept generated.
次に、学習データの各フレーム(t=1,…,Ttrain)において、以下の式(25)を用いて二乗誤差の意味で最適なウィナーフィルタテンプレートの番号a1,…,Ttrainを決定する。
なお、式(25)中の二乗誤差はメルフィルタバンクなどで圧縮したウィナーフィルタから計算してもよい。 The square error in equation (25) may be calculated from a Wiener filter compressed by a mel filter bank or the like.
最後に、観測信号Xω,1,…,Ttrainから生成される状態ベクトルxtを学習したときにテンプレートの番号atを出力するように行動価値関数Q(x, a|Θ)を識別学習する。先の例でいえば、W(j)とb(j)の初期値が決定されることになる。なお、識別学習には任意の方法を用いることができる。例えば、ロジスティック回帰などを用いるとよい。 Finally, the observed signal X ω, 1, ..., action-value function Q (x, a | Θ) so as to output the number a t of the template when you learn the state vector x t that is generated from Ttrain the identification learning To do. In the previous example, the initial values of W (j) and b (j) are determined. An arbitrary method can be used for identification learning. For example, logistic regression may be used.
また、状態ベクトルの具体的な生成方法については、後述する実施形態1の音源強調部130における状態ベクトルの生成と同様の方法を用いるのでよい。
As a specific method for generating the state vector, a method similar to the method for generating the state vector in the sound
<実施形態1>
以下、図3〜図4を参照して実施形態1の音源強調学習装置100を説明する。図3は、音源強調学習装置100の構成を示すブロック図である。図4は、音源強調学習装置100の動作を示すフローチャートである。図1に示すように音源強調学習装置100は、ウィナーフィルタテンプレート化部110と、行動価値関数初期化部120と、音源強調部130と、聴感評点計算部140と、行動価値関数更新部150と、収束判定部160を含む。
<
Hereinafter, the sound source enhancement learning apparatus 100 according to the first embodiment will be described with reference to FIGS. FIG. 3 is a block diagram illustrating a configuration of the sound source enhancement learning device 100. FIG. 4 is a flowchart showing the operation of the sound source enhancement learning apparatus 100. As shown in FIG. 1, the sound source enhancement learning device 100 includes a winner filter
音源強調学習装置100は、目的音学習データ記録部910、雑音学習データ記録部920に接続している。目的音学習データ記録部910、雑音学習データ記録部920には、事前に収音した目的音と雑音が学習データとして記録されている。目的音は雑音を一切含まないクリーンな音である方がよい。
The sound source enhancement learning device 100 is connected to the target sound learning
また、目的音学習データ記録部910、雑音学習データ記録部920に記録される目的音及び雑音は、時間領域信号である方が望ましい。時間領域目的音、時間領域雑音は音源ごとに分割して記録しておく。例えば、目的音が音声である場合、発話単位に分割しておく。なお、以下では、簡単のために、音声以外の目的音であっても発話ということにする。
The target sound and noise recorded in the target sound learning
また、以下では、目的音学習データ記録部910、雑音学習データ記録部920に記録される目的音及び雑音は、発話単位に分割された時間領域目的音及び時間領域雑音であるとして説明をする。
In the following description, it is assumed that the target sound and noise recorded in the target sound learning
音源強調学習装置100の各構成部で用いる各種パラメータ(例えば、強化型学習、識別学習など学習アルゴリズムで用いるパラメータ)については、目的音学習データや雑音学習データと同様外部から入力されてもよいし、事前に各構成部に設定されていてもよい。各種パラメータの推奨値については、パラメータが関係する各構成部の説明の際に適宜説明することとする。 Various parameters (for example, parameters used in a learning algorithm such as reinforcement learning and identification learning) used in each component of the sound source enhancement learning device 100 may be input from the outside in the same manner as the target sound learning data and noise learning data. Alternatively, each component may be set in advance. The recommended values of the various parameters will be described as appropriate when explaining each component related to the parameters.
パラメータの一例をあげると、ウィナーフィルタテンプレート化部110で用いる行動パターン数(テンプレート数)Aがある。この行動パターン数Aの値は発話数や目的音の複雑さに応じて変更するのが好ましいため、外部から入力する方がよい。また、行動パターン数Aの推奨値は、音声の場合、64〜128程度である。
As an example of the parameter, there is the number of behavior patterns (number of templates) A used in the winner
ウィナーフィルタテンプレート化部110は、目的音学習データと雑音学習データを入力とし、A個のウィナーフィルタテンプレートGω,1,…,Aを生成する(S110)。具体的には、(課題1の解決法:ウィナーフィルタのテンプレート化)で説明した方法でテンプレートを生成する。
The winner filter
以下、図5〜図6を参照してウィナーフィルタテンプレート化部110について説明する。図5は、ウィナーフィルタテンプレート化部110の構成を示すブロック図である。図6は、ウィナーフィルタテンプレート化部110の動作を示すフローチャートである。図5に示すようにウィナーフィルタテンプレート化部110は、周波数領域変換部111と、ウィナーフィルタ生成部112と、クラスタリング部113を含む。
Hereinafter, the winner
まず、周波数領域変換部111は、目的音学習データ記録部910、雑音学習データ記録部920から読み出した目的音学習データと雑音学習データを周波数領域目的音学習データSω,1,…,Ttrainと周波数領域雑音学習データNω,1,…,Ttrainに変換する(S111)。例えば、高速フーリエ変換(FFT)を用いて時間領域信号を周波数領域信号に変換すればよい。変換に必要なパラメータであるFFT長、シフト長は、サンプリングレートが16kHzである場合、FFT長を512、シフト長を256などに設定すればよい。
First, the frequency
次に、ウィナーフィルタ生成部112は、S111で生成した学習データSω,1,…,TtrainとNω,1,…,Ttrainから式(3)を用いてウィナーフィルタGω,1,…,Ttrainを生成する(S112)。
Next, the
最後に、クラスタリング部113は、ウィナーフィルタGω,1,…,TtrainからA個のウィナーフィルタテンプレートGω,1,…,Aを生成する(S113)。なお、有限個のテンプレートを生成することができるのであれば、クラスタリング以外の分類方法を用いてもよい。
Finally, the
行動価値関数初期化部120は、行動価値関数Q(x, a|Θ)を初期化する(S120)。つまり、行動価値関数Q(x, a|Θ)の初期値を生成する。行動価値関数が式(8)から式(11)を用いて表現される場合は、第j層の重み行列W(j)と第j層のバイアスベクトルb(j)の初期値を決定することになる。例えば、乱数を用いて重み行列W(j)やバイアスベクトルb(j)の各要素の値を生成するのでよい。また、クロスエントロピー基準のバックプロパゲーションを用いて生成するのでもよい。
The behavior value
音源強調部130は、S110で生成したウィナーフィルタテンプレート及び現時点の行動価値関数Q(x, a|Θ)を用いて、強調目的音、テンプレート番号、状態ベクトルを生成する(S130)。S130の処理は、学習データの組ごとに繰り返し実行されることになる。
The sound
以下、図7〜図8を参照して音源強調部130について説明する。図7は、音源強調部130の構成を示すブロック図である。図8は、音源強調部130の動作を示すフローチャートである。図7に示すように音源強調部130は、観測信号生成部131と、周波数領域変換部132と、状態ベクトル生成部133と、テンプレート選択部134と、強調目的音生成部135と、時間領域変換部136と、出力生成部137を含む。
Hereinafter, the sound
まず、観測信号生成部131は、目的音学習データ記録部910、雑音学習データ記録部920に記録される目的音学習データ、雑音学習データを読出し、目的音学習データと雑音学習データを重畳し、時間領域観測信号を生成する(S131)。
First, the observation
次に、周波数領域変換部132は、S131で生成した観測信号を周波数領域に変換し、周波数領域観測信号Xω,tを生成する(S132)。周波数領域変換部111と同様、高速フーリエ変換(FFT)を用いて時間領域信号を周波数領域信号に変換すればよい。
Next, the frequency
状態ベクトル生成部133は、S132で生成した観測信号Xω,tから各時刻tにおける状態ベクトルxtを生成する(S133)。例えば、フレームtの過去P1フレームから未来P2フレームまでの観測信号を縦に連結したものを状態ベクトルxtとして、以下の式(26)のように生成するのでよい。
なお、連結する観測信号としてメルフィルタバンクなどで圧縮したものを用いるのでもよい。また、P1とP2は10程度に設定すればよい。 Note that a signal compressed by a mel filter bank or the like may be used as an observation signal to be connected. Further, P 1 and P 2 may be set to about 10.
テンプレート選択部134は、S110で生成したウィナーフィルタテンプレートGω,1,…,Aを用いて、行動価値関数Q(xt, a|Θ)(ただし、xtはS133で生成した状態ベクトル、aはテンプレート番号)の値を計算し、式(7)を用いて最適なウィナーフィルタテンプレート(テンプレート番号at)を選択する(S134)。行動価値関数Q(xt, a|Θ)の値は、例えば、式(8)〜式(11)を用いて計算すればよい。
The
なお、式(7)を用いる代わりに、ε-グリーディーアルゴリズムを用いてウィナーフィルタテンプレートを選択してもよい。この場合、εの値は、0.01や0.05に設定すればよい。 Note that a Wiener filter template may be selected using the ε-greedy algorithm instead of using Equation (7). In this case, the value of ε may be set to 0.01 or 0.05.
強調目的音生成部135は、S134で選択した最適なウィナーフィルタテンプレートGω,atと式(27)を用いて周波数領域強調目的音Yω,tを生成する(S135)。
時間領域変換部136は、S135で生成した強調目的音Yω,tから時間領域強調目的音を生成する(S136)。時間領域への変換には逆フーリエ変換を用いればよい。
The time
最後に、出力生成部137は、時間領域強調目的音、選択された最適なウィナーフィルタテンプレート番号a1,…、各時刻の状態ベクトルx1,…を出力する(S137)。
Finally, the
なお、音源強調部130が時間領域変換部136を備えない構成とすることも可能である。この場合は、S136は省略され、S137での出力が周波数領域強調目的音、選択された最適なウィナーフィルタテンプレート番号a1,…、各時刻の状態ベクトルx1,…となる。
Note that the sound
聴感評点計算部140は、S130で出力された強調目的音から聴感評点Ziterを計算する(S140)。音質の指標となる聴感評点には、PESQ、STOIなど任意のものを用いることができる。なお、これらの聴感評点の計算に際して必要があれば、目的音学習データ記録部910、雑音学習データ記録部920から読み出した目的音学習データと雑音学習データを読み出すものとする。また、S130で出力された強調目的音が周波数領域信号である場合、必要に応じて時間領域信号に変換してから聴感評点Ziterを計算することになる。
The
行動価値関数更新部150は、S140で計算された聴感評点を用いて行動価値関数Q(x, a|Θ)を更新する(S150)。具体的には、聴感評点Ziterを報酬とし、式(18)及び式(15)を用いてパラメータΘを更新することにより、行動価値関数Q(x, a|Θ)を更新する。行動価値関数の各値Q(xt, at|Θ)を計算するときは、S130で出力したテンプレート番号a1,…、各時刻の状態ベクトルx1,…を用いて計算する。
The behavior value
なお、式(15)のαは10-3程度に設定すればよい。 In the equation (15), α may be set to about 10 −3 .
収束判定部160は、更新回数が実行開始時に指定した所定の回数に達した場合は、現時点の行動価値関数Q(x, a|Θ)を出力して処理を終了する一方、達していない場合はS130に戻り再度行動価値関数Q(x, a|Θ)の更新計算を行う(S160)。
本実施形態の発明によれば、音源強調に強化学習を適用することにより、式(5)、式(6)に代表される二乗誤差以外の目的関数を用いることが可能となる。これにより、音情報処理技術に適した目的関数(具体的には、聴感評点を反映した行動価値関数)を用いて音源強調を最適化することが可能となる。つまり、音質劣化を抑制した音源強調の学習を行うことが可能となる。 According to the invention of the present embodiment, by applying reinforcement learning to sound source enhancement, it is possible to use an objective function other than the square error represented by Equation (5) and Equation (6). As a result, sound source enhancement can be optimized using an objective function suitable for sound information processing technology (specifically, an action value function reflecting an auditory rating score). That is, it is possible to perform sound source enhancement learning with suppressed sound quality deterioration.
<実施形態2>
実施形態1では、聴感評点計算部140で計算される聴感評点は一般に連続値であった。しかし、(課題2の解決法:聴感評点の閾値判定)で述べたように、強化学習では、報酬に二値を用いた方が識別モデルを適用できるため、行動価値関数を精度よく推定することができる。そこで、閾値判定を用いて連続値である聴感評点を二値化する処理を追加する。
<Embodiment 2>
In the first embodiment, the auditory score calculated by the
以下、図9〜図10を参照して実施形態2の音源強調学習装置200を説明する。図9は、音源強調学習装置200の構成を示すブロック図である。図10は、音源強調学習装置200の動作を示すフローチャートである。音源強調学習装置200は聴感評点バイナリ化部240が追加されている点のみにおいて音源強調学習装置100と異なる。
Hereinafter, the sound source enhancement learning apparatus 200 according to the second embodiment will be described with reference to FIGS. 9 to 10. FIG. 9 is a block diagram illustrating a configuration of the sound source enhancement learning device 200. FIG. 10 is a flowchart showing the operation of the sound source enhancement learning device 200. The sound source enhancement learning device 200 is different from the sound source enhancement learning device 100 only in that an auditory
そこで、以下では、図11〜図12を参照して聴感評点バイナリ化部240について説明する。図11は、聴感評点バイナリ化部240の構成を示すブロック図である。図12は、聴感評点バイナリ化部240の動作を示すフローチャートである。図11に示すように聴感評点バイナリ化部240は、バイナリ化部241と、閾値更新部242を含む。
Therefore, hereinafter, the auditory
バイナリ化部241は、S140で生成した聴感評点Ziterを二値変換し、バイナリ化聴感評点rt iterを生成する(S241)。具体的には、(課題2の解決法:聴感評点の閾値判定)の式(19)を用いる。つまり、聴感評点Ziterが閾値φ以上である場合、バイナリ化聴感評点rt iterをRとし、聴感評点Ziterが閾値φより小さい場合、バイナリ化聴感評点rt iterを-Rとする。
The
なお、式(19)の代わりに、式(20)を用いてバイナリ化聴感評点rt iterを生成してもよい。 Note that the binarized auditory score r t iter may be generated using the equation (20) instead of the equation (19).
閾値更新部242は、S241がITERthres-update回実行される度に、閾値φを更新する(S242)。具体的方法は、(課題2の解決法:聴感評点の閾値判定)にある通りであり、聴感評点Ziterの平均値φ-がφ-βより大きい場合のみ、φ←φ-+βにより更新する。
The
Rは0.05程度、βは3程度、φの初期値は0、ITERthres-updateは20程度に設定すればよい。 R may be set to about 0.05, β may be set to about 3, initial value of φ may be set to 0, and ITER thres-update may be set to about 20.
行動価値関数更新部150は、S240で計算したバイナリ化聴感評点を報酬として用いて行動価値関数Q(x, a|Θ)を更新する(S150)。
The behavior value
本実施形態の発明によれば、強化学習において聴感評点として二値を用いるため、行動価値関数を精度よく推定することができる。つまり、音質劣化をより抑制する音源強調の学習を行うことが可能となる。 According to the invention of the present embodiment, since a binary value is used as an auditory rating score in reinforcement learning, an action value function can be estimated with high accuracy. That is, it is possible to perform sound source enhancement learning that further suppresses sound quality degradation.
<実施形態3>
実施形態1では、行動価値関数更新部150では式(18)を用いて目標値との誤差を表す関数LΘを計算した。しかし、(課題3の解決法:二乗誤差ベースの更新重みの計算)で述べたように、一つの発話の中で聴感評点の低下の要因となっている箇所だけを修正するように、フレームt毎にLΘの二乗誤差値を計算する方が行動価値関数を精度よく推定することができる。そこで、関数LΘを計算する際に用いる更新重みwtを計算する処理を追加する。
<
In the first embodiment, the action value
以下、図13〜図14を参照して実施形態3の音源強調学習装置300を説明する。図13は、音源強調学習装置300の構成を示すブロック図である。図14は、音源強調学習装置300の動作を示すフローチャートである。音源強調学習装置300は更新重み計算部340が追加されている点、行動価値関数更新部150の代わりに行動価値関数更新部350が追加されている点において音源強調学習装置100と異なる。
Hereinafter, the sound source enhancement learning apparatus 300 according to the third embodiment will be described with reference to FIGS. 13 to 14. FIG. 13 is a block diagram illustrating a configuration of the sound source enhancement learning device 300. FIG. 14 is a flowchart showing the operation of the sound source enhancement learning device 300. The sound source enhancement learning device 300 is different from the sound source enhancement learning device 100 in that an update
以下では、まず、図15〜図16を参照して更新重み計算部340について説明する。図15は、更新重み計算部340の構成を示すブロック図である。図16は、更新重み計算部340の動作を示すフローチャートである。図15に示すように更新重み計算部340は、周波数領域変換部341と、誤差計算部342と、誤差正規化部343と、更新重み決定部344を含む。
Hereinafter, first, the update
周波数領域変換部341は、目的音学習データ記録部910に記録される目的音学習データを周波数領域に変換し、周波数領域目的音Sω,tを生成する(S341)。周波数領域変換部111と同様、高速フーリエ変換(FFT)を用いて時間領域信号を周波数領域信号に変換すればよい。
The frequency
誤差計算部342は、S341で生成した目的音Sω,tとS135で生成した周波数領域強調目的音Yω,tから式(21)を用いて二乗誤差Etを計算する(S342)。 誤差正規化部343は、二乗誤差Etから式(22)を用いて正規化二乗誤差を計算する(S343)。
更新重み決定部344は、正規化二乗誤差から更新重みを決定する(S344)。具体的方法は、式(23)を用いる。つまり、聴感評点Ziterが閾値φ以上である場合、更新重みwtを1から正規化二乗誤差を引いた値、聴感評点Ziterが閾値φより小さい場合、更新重みwtを正規化二乗誤差そのものとする。
The update
なお、S342〜S344では、二乗誤差、正規化二乗誤差を用いて説明したが、(課題3の解決法:二乗誤差ベースの更新重みの計算)で述べたように、二乗誤差以外の誤差を用いてもよい。この場合、S342〜S344における、二乗誤差、正規化二乗誤差を誤差、正規化誤差に読みかえればよい。 In S342 to S344, the description has been given using the square error and the normalized square error. However, as described in (Solution of Problem 3: Calculation of update weight based on square error), an error other than the square error is used. May be. In this case, the square error and the normalized square error in S342 to S344 may be read as an error and a normalization error.
次に、行動価値関数更新部350について説明する。行動価値関数更新部350は、S140で計算された聴感評点とS340で計算された更新重みを用いて行動価値関数Q(x, a|Θ)を更新する(S350)。具体的には、聴感評点Ziterを報酬とし、式(18)の代わりに式(24)を用いてLΘを計算し、式(15)に従いパラメータΘを更新することにより、行動価値関数Q(x, a|Θ)を更新する。
Next, the behavior value
本実施形態の発明によれば、一つの発話の中で聴感評点の低下の要因となっている箇所だけを修正するように、フレームt毎にLΘ中の二乗誤差値を計算するため、行動価値関数を精度よく推定することができる。つまり、音質劣化をより抑制する音源強調の学習を行うことが可能となる。 According to the invention of this embodiment, in order to calculate the square error value in L Θ for each frame t so as to correct only the part that causes a decrease in auditory rating in one utterance, The value function can be estimated with high accuracy. That is, it is possible to perform sound source enhancement learning that further suppresses sound quality degradation.
<実施形態4>
実施形態1では、式(16)を用いて行動価値関数を逐次的に計算するため、強化学習が初期値に依存しやすく、局所解に陥りやすいという問題がある。そこで、最適な目標値に近い初期値から行動価値関数の計算を開始できるように、行動価値関数初期化部の処理を変更する。これにより、行動価値関数を精度よく推定することができるようになる。
<Embodiment 4>
In the first embodiment, since the action value function is calculated sequentially using the equation (16), there is a problem that reinforcement learning tends to depend on the initial value and easily falls into a local solution. Therefore, the process of the behavior value function initialization unit is changed so that the calculation of the behavior value function can be started from the initial value close to the optimum target value. As a result, the behavior value function can be accurately estimated.
以下、図17〜図18を参照して実施形態4の音源強調学習装置400を説明する。図17は、音源強調学習装置400の構成を示すブロック図である。図18は、音源強調学習装置400の動作を示すフローチャートである。音源強調学習装置400は行動価値関数初期化部120の代わりに行動価値関数初期化部420が追加されている点のみにおいて音源強調学習装置100と異なる。
Hereinafter, the sound source enhancement learning apparatus 400 according to the fourth embodiment will be described with reference to FIGS. 17 to 18. FIG. 17 is a block diagram illustrating a configuration of the sound source enhancement learning apparatus 400. FIG. 18 is a flowchart showing the operation of the sound source enhancement learning apparatus 400. The sound source enhancement learning device 400 differs from the sound source enhancement learning device 100 only in that a behavior value
そこで、以下では、図19〜図20を参照して行動価値関数初期化部420について説明する。図19は、行動価値関数初期化部420の構成を示すブロック図である。図20、行動価値関数初期化部420の動作を示すフローチャートである。図19に示すように行動価値関数初期化部420は、最適ウィナーフィルタ決定部421と、観測信号生成部131と、周波数領域変換部132と、状態ベクトル生成部133と、行動価値関数識別学習部422を含む。
Therefore, hereinafter, the behavior value
最適ウィナーフィルタ決定部421は、S112で生成したウィナーフィルタGω,1,…,Ttrainを用いてウィナーフィルタ番号a1,…,Ttrainを決定する(S421)。具体的には、(課題4の解決法:二乗誤差ベースの初期値の決定)の式(25)を用いる。つまり、二乗誤差の意味で最適なウィナーフィルタ番号a1,…,Ttrainを決定する。
The optimum winner
観測信号生成部131、周波数領域変換部132、状態ベクトル生成部133は、目的音学習データ記録部910、雑音学習データ記録部920から読み出した目的音学習データ、雑音学習データから状態ベクトルを生成する(S131〜S133)。
The observation
行動価値関数識別学習部422は、状態ベクトルxtとS421で決定したウィナーフィルタ番号atに対応するウィナーフィルタの組から行動価値関数Q(x, a|Θ)を識別学習する(S422)。具体的には、状態ベクトルxtを入力したときにテンプレートの番号atを出力するように行動価値関数Q(x, a|Θ)を識別学習すればよい。
Action value function identifying and
本実施形態の発明によれば、強化学習においてより好ましい初期値から行動価値関数の学習が始まるために、行動価値関数を精度よく推定することができる。つまり、音質劣化をより抑制する音源強調の学習を行うことが可能となる。 According to the invention of this embodiment, since the learning of the behavior value function starts from a more preferable initial value in reinforcement learning, the behavior value function can be estimated with high accuracy. That is, it is possible to perform sound source enhancement learning that further suppresses sound quality degradation.
<実施形態5>
実施形態1〜4では、目的音学習データと雑音学習データの組から行動価値関数Q(x, a|Θ)(ただし、xは目的音学習データと雑音学習データの組から生成した状態ベクトル、aはウィナーフィルタのテンプレート番号を表す)を学習する方法について説明した。ここでは、実施形態1〜4で学習した行動価値関数Q(x, a|Θ)を用いて、マイクロホンで収音した観測信号から強調目的音を生成する方法について説明する。これにより、音質劣化を抑制した、観測信号中の目的音を音源強調した強調目的音を出力することが可能となる。
<Embodiment 5>
In the first to fourth embodiments, an action value function Q (x, a | Θ) (where x is a state vector generated from a set of target sound learning data and noise learning data, (a represents the template number of the Wiener filter). Here, a method for generating an emphasized target sound from an observation signal collected by a microphone using the action value function Q (x, a | Θ) learned in the first to fourth embodiments will be described. As a result, it is possible to output an emphasized target sound in which the target sound in the observation signal is emphasized as a sound source with suppressed sound quality deterioration.
なお、ここでの行動価値関数Q(x, a|Θ)は、学習終了時のΘの値を用いて表現されるものである。 The action value function Q (x, a | Θ) here is expressed using the value of Θ at the end of learning.
以下、図21〜図22を参照して実施形態5の音源強調装置500を説明する。図21は、音源強調装置500の構成を示すブロック図である。図21は、音源強調装置500の動作を示すフローチャートである。図21に示すように音源強調装置500は、状態ベクトル生成部510と、行動価値関数評価部520と、強調目的音生成部530を含む。
Hereinafter, a sound source emphasizing apparatus 500 according to the fifth embodiment will be described with reference to FIGS. FIG. 21 is a block diagram illustrating a configuration of the sound source enhancement device 500. FIG. 21 is a flowchart showing the operation of the sound source emphasizing apparatus 500. As illustrated in FIG. 21, the sound source enhancement device 500 includes a state
また、音源強調装置500は、観測信号記録部930に接続している。観測信号記録部930には、事前に収音した観測信号が記録されている。観測信号は音源強調の対象となるものであり、簡単のため、周波数領域信号として記録されているものとする。
The sound source emphasizing apparatus 500 is connected to the observation
さらに、音源強調装置500は、学習結果記録部940に接続している。学習結果記録部940には、事前に音源強調学習装置100〜400のいずれかを用いて生成したウィナーフィルタテンプレートGω,1,…,A、行動価値関数Q(x, a|Θ)が記録されている。
Furthermore, the sound source emphasizing apparatus 500 is connected to the learning
状態ベクトル生成部510は、マイクロホンで収音した観測信号Xω,t(ただし、t∈{1, …, T}、ω∈{1, …, Ω})から式(26)を用いて状態ベクトルxtを生成する(S510)
The state
行動価値関数評価部520は、学習結果記録部940から読み出したウィナーフィルタテンプレートGω,1,…,Aと行動価値関数Q(x, a|Θ)を読出し、各ウィナーフィルタテンプレートGω,1,…,Aに対して行動価値関数Q(xt, a|Θ)(ただし、xtはS510で生成した状態ベクトル、aは1〜Aを示すテンプレート番号)を計算し、式(7)を用いて最適なウィナーフィルタテンプレートGω,at(テンプレート番号at)を選択する(S520)。つまり、基本的には、テンプレート選択部134と同様の処理を実行する。
The behavior value
強調目的音生成部530は、S520で選択した最適なウィナーフィルタテンプレートGω,atと式(27)を用いて周波数領域強調目的音Yω,tを生成する(S530)。つまり、基本的には、強調目的音生成部135と同様の処理を実行する。
The emphasis target
本実施形態の発明によれば、音質劣化を抑制した、観測信号中の目的音を音源強調した強調目的音を出力することが可能となる。 According to the invention of the present embodiment, it is possible to output an emphasized target sound in which the target sound in the observation signal is emphasized as a sound source with suppressed sound quality deterioration.
<変形例1>
実施形態1〜実施形態4では、報酬として聴感評点を採用し説明したが、報酬には聴感評点以外のものを用いることができる。例えば、音声認識向けに音源強調を最適化したい場合は、報酬として音声認識が正解だったか不正解だったかの二値を用いればよい。この場合、実施形態1〜実施形態4における聴感評点計算部140を、S130で出力された強調目的音を入力として音声認識した結果を出力する音声認識部に置換するのでよい。
<
In the first to fourth embodiments, the auditory score is adopted as the reward, but a reward other than the auditory score can be used. For example, when it is desired to optimize sound source enhancement for speech recognition, a binary value indicating whether speech recognition is correct or incorrect may be used as a reward. In this case, the auditory
<変形例2>
実施形態1〜実施形態4のウィナーフィルタテンプレート化部110では、クラスタリングを用いて有限個のウィナーフィルタテンプレートを生成している。クラスタリングを用いる代わりに、式(5)や式(6)のような二乗誤差に基づいてウィナーフィルタを生成し、式(3)のようなSN比を基準(以下、第1の基準という)としてSN比の高いウィナーフィルタテンプレートを生成するのでもよい。また、特定の入力音(例えば、音声やスポーツ音)に対してSN比が高くなるように、入力音の特性を考慮してウィナーフィルタテンプレートを設計するのでもよい。
<Modification 2>
The winner filter
このようにウィナーフィルタテンプレートを生成すると、必ずしも聴感評点は高くならない。そこで、行動価値関数更新部150では、聴感評点を基準(以下、第2の基準という)として聴感評点が高くなるよう行動価値関数を更新する、具体的には、第1の基準だけでなく、第2の基準も満たすようなウィナーフィルタテンプレートを選択する形で、行動価値関数を更新する。
When the Wiener filter template is generated in this way, the auditory rating does not necessarily increase. Therefore, the behavior value
これにより、音質劣化を抑制した音源強調の学習を行うことが可能となる。 This makes it possible to perform sound source enhancement learning with suppressed sound quality degradation.
<補記>
本発明の装置は、例えば単一のハードウェアエンティティとして、キーボードなどが接続可能な入力部、液晶ディスプレイなどが接続可能な出力部、ハードウェアエンティティの外部に通信可能な通信装置(例えば通信ケーブル)が接続可能な通信部、CPU(Central Processing Unit、キャッシュメモリやレジスタなどを備えていてもよい)、メモリであるRAMやROM、ハードディスクである外部記憶装置並びにこれらの入力部、出力部、通信部、CPU、RAM、ROM、外部記憶装置の間のデータのやり取りが可能なように接続するバスを有している。また必要に応じて、ハードウェアエンティティに、CD−ROMなどの記録媒体を読み書きできる装置(ドライブ)などを設けることとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。
<Supplementary note>
The apparatus of the present invention includes, for example, a single hardware entity as an input unit to which a keyboard or the like can be connected, an output unit to which a liquid crystal display or the like can be connected, and a communication device (for example, a communication cable) capable of communicating outside the hardware entity. Can be connected to a communication unit, a CPU (Central Processing Unit, may include a cache memory or a register), a RAM or ROM that is a memory, an external storage device that is a hard disk, and an input unit, an output unit, or a communication unit thereof , A CPU, a RAM, a ROM, and a bus connected so that data can be exchanged between the external storage devices. If necessary, the hardware entity may be provided with a device (drive) that can read and write a recording medium such as a CD-ROM. A physical entity having such hardware resources includes a general-purpose computer.
ハードウェアエンティティの外部記憶装置には、上述の機能を実現するために必要となるプログラムおよびこのプログラムの処理において必要となるデータなどが記憶されている(外部記憶装置に限らず、例えばプログラムを読み出し専用記憶装置であるROMに記憶させておくこととしてもよい)。また、これらのプログラムの処理によって得られるデータなどは、RAMや外部記憶装置などに適宜に記憶される。 The external storage device of the hardware entity stores a program necessary for realizing the above functions and data necessary for processing the program (not limited to the external storage device, for example, reading a program) It may be stored in a ROM that is a dedicated storage device). Data obtained by the processing of these programs is appropriately stored in a RAM or an external storage device.
ハードウェアエンティティでは、外部記憶装置(あるいはROMなど)に記憶された各プログラムとこの各プログラムの処理に必要なデータが必要に応じてメモリに読み込まれて、適宜にCPUで解釈実行・処理される。その結果、CPUが所定の機能(上記、…部、…手段などと表した各構成要件)を実現する。 In the hardware entity, each program stored in an external storage device (or ROM or the like) and data necessary for processing each program are read into a memory as necessary, and are interpreted and executed by a CPU as appropriate. . As a result, the CPU realizes a predetermined function (respective component requirements expressed as the above-described unit, unit, etc.).
本発明は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。また、上記実施形態において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。 The present invention is not limited to the above-described embodiment, and can be appropriately changed without departing from the spirit of the present invention. In addition, the processing described in the above embodiment may be executed not only in time series according to the order of description but also in parallel or individually as required by the processing capability of the apparatus that executes the processing. .
既述のように、上記実施形態において説明したハードウェアエンティティ(本発明の装置)における処理機能をコンピュータによって実現する場合、ハードウェアエンティティが有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記ハードウェアエンティティにおける処理機能がコンピュータ上で実現される。 As described above, when the processing functions in the hardware entity (the apparatus of the present invention) described in the above embodiments are realized by a computer, the processing contents of the functions that the hardware entity should have are described by a program. Then, by executing this program on a computer, the processing functions in the hardware entity are realized on the computer.
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD−RAM(Random Access Memory)、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto-Optical disc)等を、半導体メモリとしてEEP−ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。 The program describing the processing contents can be recorded on a computer-readable recording medium. As the computer-readable recording medium, for example, any recording medium such as a magnetic recording device, an optical disk, a magneto-optical recording medium, and a semiconductor memory may be used. Specifically, for example, as a magnetic recording device, a hard disk device, a flexible disk, a magnetic tape or the like, and as an optical disk, a DVD (Digital Versatile Disc), a DVD-RAM (Random Access Memory), a CD-ROM (Compact Disc Read Only). Memory), CD-R (Recordable) / RW (ReWritable), etc., magneto-optical recording medium, MO (Magneto-Optical disc), etc., semiconductor memory, EEP-ROM (Electronically Erasable and Programmable-Read Only Memory), etc. Can be used.
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。 The program is distributed by selling, transferring, or lending a portable recording medium such as a DVD or CD-ROM in which the program is recorded. Furthermore, the program may be distributed by storing the program in a storage device of the server computer and transferring the program from the server computer to another computer via a network.
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。 A computer that executes such a program first stores, for example, a program recorded on a portable recording medium or a program transferred from a server computer in its own storage device. When executing the process, the computer reads a program stored in its own recording medium and executes a process according to the read program. As another execution form of the program, the computer may directly read the program from a portable recording medium and execute processing according to the program, and the program is transferred from the server computer to the computer. Each time, the processing according to the received program may be executed sequentially. Also, the program is not transferred from the server computer to the computer, and the above-described processing is executed by a so-called ASP (Application Service Provider) type service that realizes the processing function only by the execution instruction and result acquisition. It is good. Note that the program in this embodiment includes information that is used for processing by an electronic computer and that conforms to the program (data that is not a direct command to the computer but has a property that defines the processing of the computer).
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、ハードウェアエンティティを構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。 In this embodiment, a hardware entity is configured by executing a predetermined program on a computer. However, at least a part of these processing contents may be realized by hardware.
100 音源強調学習装置
110 ウィナーフィルタテンプレート化部
111 周波数領域変換部
112 ウィナーフィルタ生成部
113 クラスタリング部
120 行動価値関数初期化部
130 音源強調部
131 観測信号生成部
132 周波数領域変換部
133 状態ベクトル生成部
134 テンプレート選択部
135 強調目的音生成部
136 時間領域変換部
137 出力生成部
140 聴感評点計算部
150 行動価値関数更新部
160 収束判定部
200 音源強調学習装置
240 聴感評点バイナリ化部
241 バイナリ化部
242 閾値更新部
300 音源強調学習装置
340 更新重み計算部
341 周波数領域変換部
342 誤差計算部
343 誤差正規化部
344 更新重み決定部
400 音源強調学習装置
420 行動価値関数初期化部
421 最適ウィナーフィルタ決定部
422 行動価値関数識別学習部
500 音源強調装置
510 状態ベクトル生成部
520 行動価値関数評価部
530 強調目的音生成部
DESCRIPTION OF SYMBOLS 100 Sound source
Claims (8)
行動価値関数の初期値を生成する行動価値関数初期化部と、
前記周波数領域目的音学習データと前記周波数領域雑音学習データの組から生成される周波数領域観測信号を用いて表現される状態ベクトルを生成し、前記状態ベクトルと前記ウィナーフィルタテンプレートを用いて計算した前記行動価値関数の値に基づいて選択した最適なウィナーフィルタテンプレートを前記周波数領域観測信号に適用することにより、強調目的音を生成する音源強調部と、
前記強調目的音から計算された聴感評点を用いて前記行動価値関数を更新する行動価値関数更新部と、
所定の収束条件を満たした場合に前記行動価値関数を出力する収束判定部と
を含む音源強調学習装置。 A winner filter templating unit that generates a finite number of winner filters as a winner filter template from a set of frequency domain target sound learning data and frequency domain noise learning data;
An action value function initialization unit for generating an initial value of the action value function;
A state vector expressed using a frequency domain observation signal generated from a set of the frequency domain target sound learning data and the frequency domain noise learning data is generated, and the state vector and the Wiener filter template are used to calculate the state vector. A sound source emphasizing unit that generates an emphasis target sound by applying an optimal Wiener filter template selected based on the value of the action value function to the frequency domain observation signal;
An action value function updating unit for updating the action value function using an auditory rating calculated from the emphasized target sound;
A sound source enhancement learning device comprising: a convergence determination unit that outputs the action value function when a predetermined convergence condition is satisfied.
さらに、
前記聴感評点を二値変換した聴感評点を生成する聴感評点バイナリ化部を含む音源強調学習装置。 The sound source enhancement learning device according to claim 1,
further,
A sound source enhancement learning apparatus including an auditory score binarization unit that generates an auditory score obtained by binary conversion of the auditory score.
前記行動価値関数更新部が前記行動価値関数を更新する際に用いる、前記聴感評点を用いてフレームごとに計算される値(以下、誤差値という)の全フレームについての和として表現される関数を誤差関数LΘとし、
さらに、
前記周波数領域目的音学習データと前記音源強調部が生成した周波数領域強調目的音を用いて、フレームごとの更新重みを計算する更新重み計算部を含み、
前記行動価値関数更新部は、前記誤差関数LΘを前記誤差値に前記更新重みを乗算した値の全フレームについての和として表現される関数として、当該誤差関数LΘを用いて前記行動価値関数を更新するものである音源強調学習装置。 The sound source enhancement learning device according to claim 1 or 2,
A function that is used when the behavior value function update unit updates the behavior value function, and is expressed as a sum of values calculated for each frame using the auditory score (hereinafter referred to as an error value) for all frames. Let the error function L Θ be
further,
An update weight calculation unit that calculates an update weight for each frame using the frequency domain target sound learning data and the frequency domain emphasized target sound generated by the sound source enhancement unit;
The behavior value function updating unit uses the error function L Θ as the function expressed as the sum of the error function L Θ multiplied by the update weight and the value for all frames. A sound source enhancement learning apparatus that updates
前記行動価値関数初期化部は、
前記周波数領域目的音学習データと前記周波数領域雑音学習データの組から生成したウィナーフィルタの中から最適なウィナーフィルタを識別する番号を決定し、前記周波数領域目的音学習データと前記周波数領域雑音学習データの組から生成した状態ベクトルと前記番号の組を用いて識別学習した行動価値関数を前記初期値とする音源強調学習装置。 The sound source enhancement learning device according to any one of claims 1 to 3,
The behavior value function initialization unit includes:
A number for identifying an optimal winner filter is determined from among the winner filters generated from the set of the frequency domain target sound learning data and the frequency domain noise learning data, and the frequency domain target sound learning data and the frequency domain noise learning data are determined. A sound source emphasizing learning apparatus using an action value function discriminated and learned using a state vector generated from a set of the number and the number set as the initial value.
前記周波数領域観測信号から状態ベクトルを生成する状態ベクトル生成部と、
前記状態ベクトルと前記ウィナーフィルタテンプレートを用いて計算した前記行動価値関数の値に基づいて最適なウィナーフィルタテンプレートを選択する行動価値関数評価部と、
前記最適なウィナーフィルタテンプレートを用いて前記周波数領域観測信号から前記周波数領域強調目的音を生成する強調目的音生成部と
を含む音源強調装置。 A sound source that generates a frequency domain emphasized target sound obtained by sound source emphasizing a frequency domain observation signal, using the winner filter template and the action value function generated by using the sound source emphasis learning device according to claim 1. An emphasis device,
A state vector generator for generating a state vector from the frequency domain observation signal;
An action value function evaluation unit that selects an optimal winner filter template based on the value of the action value function calculated using the state vector and the winner filter template;
A sound source emphasizing apparatus including: an emphasis target sound generation unit that generates the frequency domain emphasis target sound from the frequency domain observation signal using the optimal winner filter template.
行動価値関数の初期値を生成する行動価値関数初期化部と、
前記周波数領域目的音学習データと前記周波数領域雑音学習データの組から生成される周波数領域観測信号を用いて表現される状態ベクトルを生成し、前記状態ベクトルと前記ウィナーフィルタテンプレートを用いて計算した前記行動価値関数の値に基づいて選択した最適なウィナーフィルタテンプレートを前記周波数領域観測信号に適用することにより、強調目的音を生成する音源強調部と、
前記強調目的音を評価した値である聴感評点を用いて、前記第1の基準と第2の基準とを満たすウィナーフィルタテンプレートが選択されるように前記行動価値関数を更新する行動価値関数更新部と、
所定の収束条件を満たした場合に前記行動価値関数を出力する収束判定部と
を含む音源強調学習装置。 A Wiener filter templating unit that generates a Wiener filter that satisfies the first criterion from a set of frequency domain target sound learning data and frequency domain noise learning data as a Wiener filter template;
An action value function initialization unit for generating an initial value of the action value function;
A state vector expressed using a frequency domain observation signal generated from a set of the frequency domain target sound learning data and the frequency domain noise learning data is generated, and the state vector and the Wiener filter template are used to calculate the state vector. A sound source emphasizing unit that generates an emphasis target sound by applying an optimal Wiener filter template selected based on the value of the action value function to the frequency domain observation signal;
An action value function update unit that updates the action value function so that a winner filter template that satisfies the first criterion and the second criterion is selected by using an auditory score that is a value obtained by evaluating the emphasized target sound. When,
A sound source enhancement learning device comprising: a convergence determination unit that outputs the action value function when a predetermined convergence condition is satisfied.
前記音源強調学習装置が、前記周波数領域目的音学習データと前記周波数領域雑音学習データの組から有限個のウィナーフィルタをウィナーフィルタテンプレートとして生成するウィナーフィルタテンプレート化ステップと、
前記音源強調学習装置が、前記行動価値関数を初期化する行動価値関数初期化ステップと、
前記音源強調学習装置が、前記周波数領域目的音学習データと前記周波数領域雑音学習データの組から生成される周波数領域観測信号を用いて表現される状態ベクトルを生成し、前記状態ベクトルと前記ウィナーフィルタテンプレートを用いて計算した前記行動価値関数の値に基づいて選択した最適なウィナーフィルタテンプレートを前記周波数領域観測信号に適用することにより、強調目的音を生成する音源強調ステップと、
前記音源強調学習装置が、前記強調目的音から計算された聴感評点を用いて前記行動価値関数を更新する行動価値関数更新ステップと、
前記音源強調学習装置が、所定の収束条件を満たした場合に前記行動価値関数を出力する収束判定ステップと
を含む音源強調学習方法。 A sound source enhancement learning method in which a sound source enhancement learning device generates and outputs an action value function from a set of frequency domain target sound learning data and frequency domain noise learning data,
The sound source enhancement learning device generates a finite number of winner filters from the set of the frequency domain target sound learning data and the frequency domain noise learning data as a winner filter template,
The sound source emphasis learning device initializes the action value function, an action value function initialization step;
The sound source enhancement learning device generates a state vector expressed using a frequency domain observation signal generated from a set of the frequency domain target sound learning data and the frequency domain noise learning data, and the state vector and the Wiener filter A sound source emphasizing step for generating an emphasized target sound by applying an optimal Wiener filter template selected based on the value of the action value function calculated using a template to the frequency domain observation signal;
An action value function update step in which the sound source enhancement learning device updates the action value function using an auditory score calculated from the emphasized target sound;
A sound source enhancement learning method comprising: a convergence determination step of outputting the action value function when the sound source enhancement learning device satisfies a predetermined convergence condition.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016159692A JP6563874B2 (en) | 2016-08-16 | 2016-08-16 | Sound source enhancement learning device, sound source enhancement device, sound source enhancement learning method, program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016159692A JP6563874B2 (en) | 2016-08-16 | 2016-08-16 | Sound source enhancement learning device, sound source enhancement device, sound source enhancement learning method, program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018028580A true JP2018028580A (en) | 2018-02-22 |
JP6563874B2 JP6563874B2 (en) | 2019-08-21 |
Family
ID=61247866
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016159692A Active JP6563874B2 (en) | 2016-08-16 | 2016-08-16 | Sound source enhancement learning device, sound source enhancement device, sound source enhancement learning method, program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6563874B2 (en) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111210837A (en) * | 2018-11-02 | 2020-05-29 | 北京微播视界科技有限公司 | Audio processing method and device |
CN113223552A (en) * | 2021-04-28 | 2021-08-06 | 锐迪科微电子(上海)有限公司 | Speech enhancement method, speech enhancement device, speech enhancement apparatus, storage medium, and program |
JP2021128328A (en) * | 2020-02-14 | 2021-09-02 | システム・ワン・ノック・アンド・ディベロップメント・ソリューションズ・ソシエダッド・アノニマSystem One Noc & Development Solutions, S.A. | Method for enhancing telephone voice signal based on convolutional neural network |
JP2021525493A (en) * | 2018-06-05 | 2021-09-24 | 安克創新科技股▲ふん▼有限公司Anker Innovations Technology Co.,Ltd. | Sound quality characteristic processing method and system based on deep learning |
-
2016
- 2016-08-16 JP JP2016159692A patent/JP6563874B2/en active Active
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2021525493A (en) * | 2018-06-05 | 2021-09-24 | 安克創新科技股▲ふん▼有限公司Anker Innovations Technology Co.,Ltd. | Sound quality characteristic processing method and system based on deep learning |
JP7137639B2 (en) | 2018-06-05 | 2022-09-14 | 安克創新科技股▲ふん▼有限公司 | SOUND QUALITY CHARACTERISTICS PROCESSING METHOD AND SYSTEM BASED ON DEEP LEARNING |
CN111210837A (en) * | 2018-11-02 | 2020-05-29 | 北京微播视界科技有限公司 | Audio processing method and device |
JP2021128328A (en) * | 2020-02-14 | 2021-09-02 | システム・ワン・ノック・アンド・ディベロップメント・ソリューションズ・ソシエダッド・アノニマSystem One Noc & Development Solutions, S.A. | Method for enhancing telephone voice signal based on convolutional neural network |
JP7094340B2 (en) | 2020-02-14 | 2022-07-01 | システム・ワン・ノック・アンド・ディベロップメント・ソリューションズ・ソシエダッド・アノニマ | A method for enhancing telephone audio signals based on convolutional neural networks |
CN113223552A (en) * | 2021-04-28 | 2021-08-06 | 锐迪科微电子(上海)有限公司 | Speech enhancement method, speech enhancement device, speech enhancement apparatus, storage medium, and program |
Also Published As
Publication number | Publication date |
---|---|
JP6563874B2 (en) | 2019-08-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6563874B2 (en) | Sound source enhancement learning device, sound source enhancement device, sound source enhancement learning method, program | |
Yu et al. | Active learning and semi-supervised learning for speech recognition: A unified framework using the global entropy reduction maximization criterion | |
JP2019531494A (en) | Voice quality evaluation method and apparatus | |
JP5842056B2 (en) | Noise estimation device, noise estimation method, noise estimation program, and recording medium | |
JP5634959B2 (en) | Noise / dereverberation apparatus, method and program thereof | |
JP2007279444A (en) | Feature amount compensation apparatus, method and program | |
WO2020045313A1 (en) | Mask estimation device, mask estimation method, and mask estimation program | |
JP6452591B2 (en) | Synthetic voice quality evaluation device, synthetic voice quality evaluation method, program | |
JP6721165B2 (en) | Input sound mask processing learning device, input data processing function learning device, input sound mask processing learning method, input data processing function learning method, program | |
Nielsen et al. | Model-based noise PSD estimation from speech in non-stationary noise | |
Lemercier et al. | Analysing diffusion-based generative approaches versus discriminative approaches for speech restoration | |
KR102026226B1 (en) | Method for extracting signal unit features using variational inference model based deep learning and system thereof | |
JP6216809B2 (en) | Parameter adjustment system, parameter adjustment method, program | |
JPWO2019044401A1 (en) | Computer system realizing unsupervised speaker adaptation of DNN speech synthesis, method and program executed in the computer system | |
JP2007304445A (en) | Repair-extraction method of frequency component, repair-extraction device of frequency component, repair-extraction program of frequency component, and recording medium which records repair-extraction program of frequecy component | |
JP2018031910A (en) | Sound source emphasis learning device, sound source emphasis device, sound source emphasis learning method, program, and signal processing learning device | |
JP2020126141A (en) | Acoustic model learning device, acoustic model learning method, program | |
US20230117603A1 (en) | Quality estimation models for various signal characteristics | |
Ahn et al. | Robust vocabulary recognition clustering model using an average estimator least mean square filter in noisy environments | |
JP5438703B2 (en) | Feature quantity enhancement device, feature quantity enhancement method, and program thereof | |
WO2018216511A1 (en) | Attribute identification device, attribute identification method, and program | |
Ondusko et al. | Blind signal-to-noise ratio estimation of speech based on vector quantizer classifiers and decision level fusion | |
JP4651496B2 (en) | Speech recognition apparatus and speech recognition method | |
Nathwani et al. | Speech intelligibility enhancement using an optimal formant shifting approach | |
JP7218810B2 (en) | Speech/non-speech decision device, model parameter learning device for speech/non-speech decision, speech/non-speech decision method, model parameter learning method for speech/non-speech decision, program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20180830 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20190718 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190723 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190725 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6563874 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |