JP2011002535A - Voice interaction system, voice interaction method, and program - Google Patents
Voice interaction system, voice interaction method, and program Download PDFInfo
- Publication number
- JP2011002535A JP2011002535A JP2009143979A JP2009143979A JP2011002535A JP 2011002535 A JP2011002535 A JP 2011002535A JP 2009143979 A JP2009143979 A JP 2009143979A JP 2009143979 A JP2009143979 A JP 2009143979A JP 2011002535 A JP2011002535 A JP 2011002535A
- Authority
- JP
- Japan
- Prior art keywords
- filter
- signal
- ica
- voice
- group
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
Description
本発明は、システム音声(システムの自己発声音)の出力タイミングに関わらず対話者音声の認識が可能なバージインフリー音声対話システムに関する。 The present invention relates to a barge-in-free speech dialogue system capable of recognizing a talker voice regardless of the output timing of system voice (system self-voiced sound).
ユーザとの間で音声によるインタラクションを行う音声対話システムが知られている(特許文献1および非特許文献1を参照)。これらの音声対話システムは、自身がユーザに対して音声(以下システム音声と呼ぶ)を発するともに、マイクロホンによる観測信号からユーザの音声(以下、ユーザ音声と呼ぶ)を認識する。なお、システム音声の出力とユーザの発話が同時に行われた場合、システムはこれらの音声の混合音をマイクロホンによって集音してしまう。
非特許文献1は、ユーザ音声及びシステム音声の混合音からシステム音声を除去することでユーザ音声の認識率の低下を抑制するシステムを開示している。非特許文献1に開示されたシステムのように、システム音声出力中におけるユーザの発話を許容するシステムは、一般的に、「バージインフリー音声対話システム」と呼ばれている。
2. Description of the Related Art A voice dialogue system that performs voice interaction with a user is known (see
Non-Patent
より具体的に述べると、非特許文献1に開示された音声対話システムは、独立成分分析(ICA:Independent Component Analysis)に基づくブラインド音源分離(BSS:Blind Source Separation)技術をシステム音声の分離・抑圧に利用する。なお、ICAに基づくBSSは、マイクロホンアレイで集音された観測信号の中から未知音源(ブラインド音源)より到達した所望の信号(ユーザ音声など)を分離するための信号処理技術である。
More specifically, the speech dialogue system disclosed in Non-Patent
また、非特許文献2および特許文献2は、非特許文献1と同様のICAに基づくBSSを音響エコーキャンセラに適用する例を開示している。非特許文献2および特許文献2は、スピーカからの出力信号がマイクロホンに回り込むことで発生する音響エコーをマイクロホンによる観測信号から除去するために、ICAに基づくBSSを利用する。マイクロホンによる観測信号は、近端話者(ユーザ)の発話音声とスピーカからの出力音声(遠端話者からの受話信号)を含む混合音である。非特許文献2および特許文献2では、マイクロホンによる観測信号および遠端話者からの受話信号をデジタルフィルタに入力し、混合音に含まれる近端話者(ユーザ)の発話音声を抑圧する。
Non-Patent Document 2 and Patent Document 2 disclose an example in which a BSS based on ICA similar to Non-Patent
図4は、非特許文献1に開示された技術を適用したバージインフリー音声対話システム800の構成例を示す図である。図4において、マイクロホンアレイ1は、K個のマクロホン素子からなり、ユーザ音声、背景雑音、及びシステム音声が混合された混合音を観測する。
FIG. 4 is a diagram illustrating a configuration example of a barge-in free
スピーカ2は、システム音声を出力する。システム音声出力のための音源信号は音声合成部72で生成され、DAコンバータ(DAC)4でアナログ信号に変換された後にスピーカ2に供給される。
The speaker 2 outputs system sound. A sound source signal for system sound output is generated by the
K個のADコンバータ(ADC)31〜3Kは、マイクロホンアレイ1によるK本の観測信号群Xj(t)(j=1、2、・・・K)のサンプリング行う。一方、ADC30は、スピーカ2に供給される音源信号X0(t)のサンプリングを行い、システム音声のサンプル列を生成する。
The K AD converters (ADCs) 31 to 3K perform sampling of the K observation signal groups X j (t) (j = 1, 2,... K) by the
なお、システム800は周波数領域でのICAを行う。このため、観測信号群Xj(t)(j=1、2、・・・K)のサンプル列は、短時間DFT(Discrete Fourier Transform)によって、時間・周波数領域の信号群Xj(f、t)(j=1、2、・・・K)に変換される。同様に、システム音声X0(t)のサンプル列も短時間DFTによって、時間・周波数領域の信号X0(f、t)に変換される。
Note that the
適応フィルタ部81は、観測信号群Xj(f、t)とシステム音声X0(f、t)とを受信し、これらの信号から3つの分離信号Z1(f,t)、Z2(f,t)、及びZ3(f,t)を生成する。ここで、Z1(f,t)はユーザ音声と推定される分離信号であり、Z2(f,t)は背景雑音と推定される分離信号であり、Z3(f,t)はシステム音声と推定される分離信号である。
The
適応フィルタ部81にて行われる、ICAに基づく信号分離過程は、以下の式(1)により表わすことができる。ここで、W11(f)、W21(f),W1K(f)、W2K(f)、W10(f)、W20(f)、W30(f)は、適応フィルタ部81内の各分離フィルタである。
The signal separation process based on ICA performed in the
ICA部82は、ICAアルゴリズムに基づいて、分離信号群(分離信号ベクトル)Z1(f、t)、Z2(f、t)及びZ3(f、t)が互いに独立となるように、各分離フィルタW11(f)、W21(f),W1K(f)、W2K(f)、W10(f)、W20(f)、W30(f)のフィルタ係数を更新する。
Based on the ICA algorithm, the
対話管理部71は、ユーザ音声に相当する分離信号Z1(f,t)またはこれを時間領域に戻した信号Z1(t)に基づいて、音声認識を行う。さらに、対話管理部71は、認識されたユーザの発話内容に対応した情報処理を実行し、ユーザに対する応答メッセージを生成するよう音声合成部72を制御する。
The
上述したように、非特許文献1に開示されたバージインフリー音声対話システムは、ユーザ音声、背景雑音、およびシステム音声の分離を1つの適応アルゴリズム、つまり1つのICAアルゴリズムで行う。しかしこの場合、システム音声を抑圧するための分離フィルタW10(f)、W20(f)及びW30(f)のフィルタ長(フィルタ係数の数、タップ数)を、ユーザ音声強調用のフィルタW11(f)およびW1K(f)等のフィルタ長と同じにする必要がある。したがって、最適化パラメータであるフィルタ係数の数が大きくなり、(a)フィルタの最適化に要する時間が大きくなる、および(b)最適化過程においてローカルミニマムを回避することが難しい、という問題がある。
As described above, the barge-in free speech dialogue system disclosed in Non-Patent
本発明は、本願の発明者による上述の知見に基づいてなされたものであって、システム音声の出力タイミングに関わらず対話者音声の認識が可能なバージインフリー音声対話システムにおいて、マイクロホンアレイによる観測信号に含まれるシステム音声成分を抑圧するためのデジタルフィルタの適応速度を向上させることを目的とする。 The present invention has been made on the basis of the above-mentioned knowledge by the inventor of the present application, and is an observation signal by a microphone array in a barge-in-free speech dialogue system capable of recognizing a dialogue voice regardless of the output timing of the system voice. It is an object of the present invention to improve the adaptive speed of a digital filter for suppressing the system sound component contained in.
本発明の第1の態様は、システム音声がスピーカ出力されている状況下でユーザ音声の認識を行うことが可能なバージインフリー音声対話システムである。当該システムは、第1のフィルタ部、第1のICA部、第2のフィルタ部、第2のICA部、および対話管理部を有する。
前記第1のフィルタ部は、マイクロホンアレイによる観測信号群に対するフィルタ処理を行って、フィルタ処理後の第1の信号群を生成する。
前記第1のICA部は、前記システム音声の出力のために前記スピーカに供給される音源信号と前記第1の信号群の各々との間が互いに独立となるように、前記第1のフィルタ部に含まれる適応フィルタ群を独立成分分析アルゴリズムに基づいて最適化する。
前記第2のフィルタ部は、前記第1の信号群に対するフィルタ処理を行って、フィルタ処理後の第2の信号群を生成する。
前記第2のICA部は、前記第2の信号群が互いに独立となるように、前記第2のフィルタ部に含まれる適応フィルタ群を独立成分分析アルゴリズムに基づいて最適化する。
前記対話管理部は、前記第2の信号群に含まれる信号に基づく前記ユーザ音声の認識処理、および認識処理結果に基づく新たなシステム音声の生成処理を含む対話管理を行う。
A first aspect of the present invention is a barge-in-free voice interactive system capable of recognizing user voice under a situation where system voice is output from a speaker. The system includes a first filter unit, a first ICA unit, a second filter unit, a second ICA unit, and a dialogue management unit.
The first filter unit performs a filtering process on the observation signal group by the microphone array, and generates a first signal group after the filtering process.
The first ICA unit includes the first filter unit so that a sound source signal supplied to the speaker for outputting the system sound and each of the first signal groups are independent from each other. The adaptive filter group included in is optimized based on the independent component analysis algorithm.
The second filter unit performs a filtering process on the first signal group to generate a second signal group after the filtering process.
The second ICA unit optimizes the adaptive filter group included in the second filter unit based on an independent component analysis algorithm so that the second signal group is independent from each other.
The dialogue management unit performs dialogue management including recognition processing of the user voice based on a signal included in the second signal group and generation processing of a new system voice based on a recognition processing result.
上述した本発明の第1の態様では、システム音声抑圧のための第1のフィルタ部に含まれるフィルタ係数群の最適化を、ユーザ音声強調のための第2のフィルタ部とは異なる独立したICAアルゴリズムに基づいて行う。これにより、システム音声の抑圧を行う第1のフィルタ部に含まれる適応フィルタ群のフィルタ長を第2のフィルタ部に含まれる適応フィルタ群に比べて短くすることができる。よって、本発明の第1の態様によれば、第1のフィルタ部のフィルタ係数の最適化を高速に行うことが可能となる。また、最適化過程においてローカルミニマムに捕まる確率を低下させることができる。 In the first aspect of the present invention described above, the optimization of the filter coefficient group included in the first filter unit for system speech suppression is performed independently from the second filter unit for user speech enhancement. Based on the algorithm. As a result, the filter length of the adaptive filter group included in the first filter unit that suppresses system speech can be made shorter than that of the adaptive filter group included in the second filter unit. Therefore, according to the first aspect of the present invention, it is possible to optimize the filter coefficient of the first filter unit at high speed. In addition, the probability of being caught by the local minimum in the optimization process can be reduced.
上述した本発明の第1の態様によれば、バージインフリー音声対話システムにおいて、マイクロホンアレイによる観測信号に含まれるシステム音声成分を抑制するためのデジタルフィルタの適応速度を向上させることができる。 According to the first aspect of the present invention described above, in the barge-in free speech dialogue system, it is possible to improve the adaptive speed of the digital filter for suppressing the system speech component included in the observation signal by the microphone array.
以下では、本発明を適用した具体的な実施の形態について、図面を参照しながら詳細に説明する。各図面において、同一要素には同一の符号が付されており、説明の明確化のため、必要に応じて重複説明は省略される。 Hereinafter, specific embodiments to which the present invention is applied will be described in detail with reference to the drawings. In the drawings, the same elements are denoted by the same reference numerals, and redundant description is omitted as necessary for the sake of clarity.
<発明の実施の形態1>
図1は、本実施の形態にかかるバージインフリー音声対話システム100の全体構成を示すブロック図である。なお、音声対話システム100が有する構成要素のうち、図4に示した音声対話システム800と共通の構成要素については、図4と同一の符号が付されている。ここでは、これら共通の構成要素に関する重複説明を省略する。
<
FIG. 1 is a block diagram showing an overall configuration of a barge-in free
図1において、システム音声抑圧フィルタ部51及びICA部52は、マイクロホンアレイ1によって得られた観測信号群X1〜XKに対して、ICAに基づくシステム音声の抑圧処理を行う。そして、ユーザ音声強調フィルタ部61及びICA部62は、システム音声の抑圧後の信号群Y1〜YKに対して、ICAに基づくユーザ音声の強調処理を行う。つまり、音声対話システム100は、「システム音声の抑圧」および「ユーザ音声の強調」を2つの独立したICAアルゴリズムによって行う。
In FIG. 1, a system sound
ところで、デジタルフィルタの適応学習において多くの計算時間を必要とするフィルタ係数の多くは、推定すべき対象である空間伝達関数の長さ(つまり時間長)に依存している。マイクロホンアレイ1と音源との間の空間伝達関数の長さに関しては、経験的に以下の2つの性質がある。すなわち、
(1)最もマイクロホンアレイ1に近い音源は、システム100が有するスピーカ2である。
(2)マイクロホンアレイ1からユーザおよび背景雑音の音源までの距離は比較的近いものの、マイクロホンアレイ1からスピーカ2までの距離に比べると遠い。
よって、本来的には、システム音声を推定するための適応フィルタ長は、ユーザ音声および背景雑音を推定するための適応フィルタ長より相対的に短くて済む。
By the way, many of the filter coefficients that require a lot of calculation time in adaptive learning of the digital filter depend on the length (that is, time length) of the spatial transfer function to be estimated. Empirically, the length of the spatial transfer function between the
(1) The sound source closest to the
(2) Although the distance from the
Therefore, the adaptive filter length for estimating the system voice is essentially shorter than the adaptive filter length for estimating the user voice and the background noise.
したがって、「システム音声の抑圧」および「ユーザ音声の強調」を2つの独立したICAアルゴリズムによって行う音声対話システム100では、システム音声抑圧のためのフィルタ部51に含まれる適応フィルタ群のフィルタ長をユーザ音声強調のためのフィルタ部61に含まれる適応フィルタ群に比べて短くすることができる。よって、音声対話システム100によれば、システム音声抑圧フィルタ部51のフィルタ係数群の最適化を高速に行うことが可能となる。また、最適化過程においてローカルミニマムに捕まる確率を低下させることができる。
Therefore, in the spoken
以下では、フィルタ部51、ICA部52、フィルタ部61、ICA部62の具体的な構成例について説明する。なお、ここでは、周波数領域ICAを行う場合について説明する。
Below, the specific structural example of the
図2は、フィルタ部51及びICA部52の構成例を示すブロック図である。図2に示すフィルタ部51は、K個の適応フィルタB10(f)〜BK0(f)を含む。フィルタB10(f)〜BK0(f)及び後述するICA部521〜52Kは、スピーカ2から各マイクロホン素子11〜1Kに到達するシステム音声の伝搬路の伝達関数を推定する。
FIG. 2 is a block diagram illustrating a configuration example of the
K個の適応フィルタB10(f)〜BK0(f)は、K本の観測信号X1(f,t)〜XK(f,t)と対応づけて配置されている。フィルタB10(f)〜BK0(f)の各々は、システム音声に相当する音源信号X0(f,t)を入力し、X0(f,t)の周波数特性を変化させる。フィルタB10(f)〜BK0(f)の出力は、それぞれ加算器(減算器)511〜51Kに供給される。 The K adaptive filters B 10 (f) to B K0 (f) are arranged in association with the K observation signals X 1 (f, t) to X K (f, t). Each of the filters B 10 (f) to B K0 (f) receives the sound source signal X 0 (f, t) corresponding to the system sound, and changes the frequency characteristics of X 0 (f, t). Outputs of the filters B 10 (f) to B K0 (f) are supplied to adders (subtracters) 511 to 51K, respectively.
加算器511〜51Kは、フィルタB10(f)〜BK0(f)の出力信号を観測信号X1(f,t)〜XK(f,t)から減算することで、信号Y1(f,t)〜YK(f,t)を生成する。信号Y1(f,t)〜YK(f,t)は、システム音声抑圧後の観測信号群として、後段のユーザ音声強調フィルタ部61に供給される。
The
図2に示すフィルタ部51によるフィルタ処理過程は、以下の式(2)により表わすことができる。
The filtering process by the
ICA部52は、ICAアルゴリズムに基づいて、適応フィルタB10(f)〜BK0(f)のフィルタ係数の更新を行う。図2の例では、ICA部52は、K個の適応フィルタB10(f)〜BK0(f)に対応するK個のICA部521〜52Kを含む。
The
例えば、ICA部521は、ICAアルゴリズムに従って、システム音声に対応する音源信号X0(f,t)とフィルタ後の出力信号Y1(f,t)が互いに独立となるように、適応フィルタB10(f)のフィルタ係数群を更新する。同様に、ICA部52Kは、ICAアルゴリズムに従って、システム音声に対応する音源信号X0(f,t)とフィルタ後の出力信号YK(f,t)が互いに独立となるように、適応フィルタBK0(f)のフィルタ係数群を更新する。
For example, the
ICAにおける独立性の評価基準としては、相互情報量(Kullback-leibler divergence)や高次統計量(尖度:Kurtosis)等が用いられている。ICA部521〜52Kにおけるフィルタ係数の更新は、相互情報量や高次統計量を用いたICAによって行えばよい。一例として、Infomax法として知られている相互情報量の最大化による手法を応用したフィルタ係数の更新式を式(3)に示す。式(3)において、関数φ(Y)は、音源信号の確率密度関数である。αは更新係数(学習率)である。また、式(3)中の<A>tは、Aの時間平均を表している。[I]は、フィルタ係数の更新回数を表している。式(3)中のjは、1〜Kの整数である。本実施の形態のように音声信号を扱う場合、φ(Y)は、シグモイド関数によって近似すればよい。
Mutual information (Kullback-leibler divergence), higher-order statistics (kurtosis: Kurtosis), and the like are used as evaluation criteria for independence in ICA. The update of the filter coefficients in the
なお、周波数領域ICAの場合、適応フィルタB10(f)〜BK0(f)の適応学習(つまりフィルタ係数の更新)には、メモリに格納された観測信号X1(t)〜XK(t)並びにX0(t)のサンプルデータ列を短時間フレーム単位で分割した後に、分割されたサンプル列にDFTを行った後の周波数領域のデータ列が用いられる。つまり、少なくとも1フレーム分のサンプルデータ列を予め蓄積する必要がある。したがって、リアルタイムでの音声認識を行う場合には、1又は数フレーム前のサンプルデータ列に基づいてフィルタ係数が更新された適応フィルタB10(f)〜BK0(f)を用いて、新たなサンプルデータ列に対するシステム音声の抑圧処理を行えばよい。 In the case of the frequency domain ICA, the observation signals X 1 (t) to X K (stored in the memory) are used for adaptive learning (that is, update of the filter coefficients) of the adaptive filters B 10 (f) to B K0 (f). After the sample data sequence of t) and X 0 (t) is divided in a short time frame unit, the data sequence in the frequency domain after DFT is performed on the divided sample sequence is used. That is, it is necessary to store a sample data string for at least one frame in advance. Therefore, when performing speech recognition in real time, the adaptive filters B 10 (f) to B K0 (f) whose filter coefficients are updated based on the sample data sequence one or several frames before are used to A system voice suppression process may be performed on the sample data string.
続いて、図3を参照して、ユーザ音声強調フィルタ部61及びICA部62の構成例を説明する。図3に示すフィルタ部61は、2K個の適応フィルタV11(f)、V21(f)〜V1K(f)、V2K(f)を含む。これらのフィルタは、フィルタ部51からのK本の出力信号Y1(f,t)〜YK(f,t)に対応づけて配置されている。
Next, a configuration example of the user voice
例えば、適応フィルタV11(f)、V21(f)は、信号Y1(f,t)を入力し、Y1(f,t)の周波数特性を変化させる。適応フィルタV1K(f)、V2K(f)は、信号YK(f,t)の周波数特性を変化させる。 For example, the adaptive filters V 11 (f) and V 21 (f) receive the signal Y 1 (f, t) and change the frequency characteristics of Y 1 (f, t). The adaptive filters V 1K (f) and V 2K (f) change the frequency characteristics of the signal Y K (f, t).
加算器611は、フィルタV11(f)〜V1K(f)から出力されるK本の信号を加算し、分離信号Z1(f,t)を生成する。また、加算器612は、フィルタV21(f)〜V2K(f)から出力されるK本の信号を加算し、分離信号Z2(f,t)を生成する。分離信号Z1(f,t)はユーザ音声の推定信号であり、分離信号Z2(f,t)は背景雑音の推定信号である。
The
図3に示すフィルタ部61によるフィルタ処理過程は、以下の式(4)により表わすことができる。
The filtering process by the
ICA部62は、ICAアルゴリズムに従って、分離信号Z1(f,t)及びZ2(f,t)が互いに独立となるように、2K個の適応フィルタV11(f)、V21(f)〜V1K(f)、V2K(f)のフィルタ係数の更新処理を行う。一例として、Infomax法を応用したフィルタ係数の更新式を式(5)に示す。式(5)中の関数φ(Y)は、シグモイド関数によって近似すればよい。
The
図2及び3に示したように、周波数領域ICAを利用して「システム音声の抑圧」および「ユーザ音声の強調」を行うことで、計算量の削減効果が得られる。特許文献2に開示されたICAに基づく音響エコーキャンセラは、適応フィルタの学習を時間領域のICAで行っている。このため、特許文献2の手法では、時間遅れを含む混合問題、つまり畳み込み混合を取り扱う必要がある。これに対して、図2及び図3を用いて説明した具体例は、周波数領域ICAを利用するため、周波数ビン毎にICAを適用して瞬時混合問題を解けばよい。このため、時間領域ICAを利用する特許文献2の手法に比べて、計算量を大幅に削減でき、適応フィルタの収束速度を改善できる。 As shown in FIGS. 2 and 3, by performing “suppression of system speech” and “emphasis of user speech” using the frequency domain ICA, an effect of reducing the amount of calculation can be obtained. The acoustic echo canceller based on ICA disclosed in Patent Literature 2 performs adaptive filter learning using ICA in the time domain. For this reason, in the method of Patent Document 2, it is necessary to handle a mixing problem including time delay, that is, convolutional mixing. On the other hand, since the specific example described with reference to FIGS. 2 and 3 uses the frequency domain ICA, the instantaneous mixing problem may be solved by applying ICA for each frequency bin. For this reason, compared with the method of patent document 2 using time domain ICA, the amount of calculations can be reduced significantly and the convergence speed of an adaptive filter can be improved.
ところで、フィルタ部51及び61によるフィルタ処理、ICA部51及び62によるフィルタ係数更新処理は、ASIC(Application Specific Integrated Circuit)又はFPGA(Field Programmable Gate Array)等の半導体処理装置を用いて実現してもよい。また、これらフィルタ処理およびフィルタ係数更新処理は、DSP(Digital Signal Processor)、マイクロプロセッサ等を含むコンピュータシステムにプログラムを実行させることによって実現してもよい。
By the way, the filter processing by the
フィルタ処理およびフィルタ係数更新処理をコンピュータシステムに行わせるための命令群を含むプログラムは、様々な種類の記憶媒体に格納することが可能であり、また、通信媒体を介して伝達されることが可能である。ここで、記憶媒体には、例えば、フレキシブルディスク、ハードディスク、磁気ディスク、光磁気ディスク、CD−ROM、DVD、ROMカートリッジ、バッテリバックアップ付きRAMメモリカートリッジ、フラッシュメモリカートリッジ、不揮発性RAMカートリッジ等が含まれる。また、通信媒体には、電話回線等の有線通信媒体、マイクロ波回線等の無線通信媒体等が含まれ、インターネットも含まれる。 A program including an instruction group for causing a computer system to perform filter processing and filter coefficient update processing can be stored in various types of storage media, and can be transmitted via a communication medium. It is. Here, the storage medium includes, for example, a flexible disk, a hard disk, a magnetic disk, a magneto-optical disk, a CD-ROM, a DVD, a ROM cartridge, a battery-backed RAM memory cartridge, a flash memory cartridge, a nonvolatile RAM cartridge, and the like. . In addition, the communication medium includes a wired communication medium such as a telephone line, a wireless communication medium such as a microwave line, and the Internet.
さらに、本発明は上述した実施の形態のみに限定されるものではなく、既に述べた本発明の要旨を逸脱しない範囲において種々の変更が可能であることは勿論である。 Furthermore, the present invention is not limited to the above-described embodiments, and various modifications can be made without departing from the gist of the present invention described above.
100 音声対話システム
1 マイクロホンアレイ
11〜1K マイクロホン
30、31〜3K ADコンバータ(ADC)
4 DAコンバータ(DAC)
51 システム音声抑圧フィルタ部
52 ICA部
61 ユーザ音声強調フィルタ部
62 ICA部
71 対話管理部
72 音声合成部
511〜51K 加算器
521〜52K ICA部
611、612 加算器
B10〜BK0 適応フィルタ
V11(f)、V21(f)〜V1K(f)、V2K(f) 適応フィルタ
100
4 DA converter (DAC)
51 System Voice
Claims (6)
マイクロホンアレイによる観測信号群に対するフィルタ処理を行って、フィルタ処理後の第1の信号群を生成する第1のフィルタ部と、
前記システム音声の出力のために前記スピーカに供給される音源信号と前記第1の信号群の各々との間が互いに独立となるように、前記第1のフィルタ部に含まれる適応フィルタ群を独立成分分析アルゴリズムに基づいて最適化する第1のICA部と、
前記第1の信号群に対するフィルタ処理を行って、フィルタ処理後の第2の信号群を生成する第2のフィルタ部と、
前記第2の信号群が互いに独立となるように、前記第2のフィルタ部に含まれる適応フィルタ群を独立成分分析アルゴリズムに基づいて最適化する第2のICA部と、
前記第2の信号群に含まれる信号に基づく前記ユーザ音声の認識処理、および認識処理結果に基づく新たなシステム音声の生成処理を含む対話管理を行う対話管理部と、
を備えるバージインフリー音声対話システム。 A barge-in free voice interactive system capable of recognizing user voice in a situation where system voice is output from a speaker,
A first filter unit that performs a filtering process on the observation signal group by the microphone array and generates a first signal group after the filtering process;
The adaptive filter group included in the first filter unit is independent so that the sound source signal supplied to the speaker for outputting the system sound and each of the first signal group are independent from each other. A first ICA unit that is optimized based on a component analysis algorithm;
A second filter unit that performs a filtering process on the first signal group and generates a second signal group after the filtering process;
A second ICA unit that optimizes an adaptive filter group included in the second filter unit based on an independent component analysis algorithm so that the second signal group is independent of each other;
A dialogue management unit for performing dialogue management including recognition processing of the user voice based on a signal included in the second signal group and generation processing of a new system voice based on a recognition processing result;
Barge-in free spoken dialogue system.
システム音声の出力のためにスピーカに供給される音源信号と前記第1の信号群の各々との間が互いに独立となるように、前記第1のフィルタ・ステップで使用される適応フィルタ群を独立成分分析アルゴリズムに基づいて最適化する第1のICAステップと、
前記第1の信号群に対するフィルタ処理を行って、フィルタ処理後の第2の信号群を生成する第2のフィルタ・ステップと、
前記第2の信号群が互いに独立となるように、前記第2のフィルタ。ステップで使用される適応フィルタ群を独立成分分析アルゴリズムに基づいて最適化する第2のICAステップと、
前記第2の信号群に含まれる信号に基づく前記ユーザ音声の認識処理、および認識処理結果に基づく新たなシステム音声の生成処理を含む対話管理を行う対話管理ステップと、
を備える、音声対話方法。 A first filter step of performing a filtering process on the observation signal group by the microphone array to generate a first signal group after the filtering process;
The adaptive filter group used in the first filter step is independent so that the sound source signal supplied to the speaker for outputting system sound and the first signal group are independent from each other. A first ICA step to optimize based on a component analysis algorithm;
Performing a filtering process on the first signal group to generate a second signal group after the filtering process; and
The second filter so that the second signal groups are independent of each other. A second ICA step of optimizing the adaptive filter group used in the step based on an independent component analysis algorithm;
A dialogue management step for performing dialogue management including recognition processing of the user voice based on a signal included in the second signal group and generation processing of a new system voice based on a recognition processing result;
A voice interaction method comprising:
前記情報処理は、
マイクロホンアレイによる観測信号群に対するフィルタ処理を行って、フィルタ処理後の第1の信号群を生成する第1のフィルタ・ステップと、
前記システム音声の出力のために前記スピーカに供給される音源信号と前記第1の信号群の各々との間が互いに独立となるように、前記第1のフィルタ・ステップで使用される適応フィルタ群を独立成分分析アルゴリズムに基づいて最適化する第1のICAステップと、
前記第1の信号群に対するフィルタ処理を行って、フィルタ処理後の第2の信号群を生成する第2のフィルタ・ステップと、
前記第2の信号群が互いに独立となるように、前記第2のフィルタ。ステップで使用される適応フィルタ群を独立成分分析アルゴリズムに基づいて最適化する第2のICAステップと、
前記第2の信号群に含まれる信号に基づく前記ユーザ音声の認識処理、および認識処理結果に基づく新たなシステム音声の生成処理を含む対話管理を行う対話管理ステップと、
を含む、プログラム。 A program for causing a computer to execute information processing related to a barge-in-free voice interactive system capable of recognizing user voice under a situation where system voice is output from a speaker,
The information processing
A first filter step of performing a filtering process on the observation signal group by the microphone array to generate a first signal group after the filtering process;
Adaptive filter group used in the first filter step so that a sound source signal supplied to the speaker for outputting the system sound and each of the first signal group are independent from each other. A first ICA step that optimizes based on an independent component analysis algorithm;
Performing a filtering process on the first signal group to generate a second signal group after the filtering process; and
The second filter so that the second signal groups are independent of each other. A second ICA step of optimizing the adaptive filter group used in the step based on an independent component analysis algorithm;
A dialogue management step for performing dialogue management including recognition processing of the user voice based on a signal included in the second signal group and generation processing of a new system voice based on a recognition processing result;
Including the program.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009143979A JP2011002535A (en) | 2009-06-17 | 2009-06-17 | Voice interaction system, voice interaction method, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009143979A JP2011002535A (en) | 2009-06-17 | 2009-06-17 | Voice interaction system, voice interaction method, and program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2011002535A true JP2011002535A (en) | 2011-01-06 |
Family
ID=43560553
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009143979A Pending JP2011002535A (en) | 2009-06-17 | 2009-06-17 | Voice interaction system, voice interaction method, and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2011002535A (en) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012189906A (en) * | 2011-03-11 | 2012-10-04 | Toshiba Corp | Voice discrimination device, voice discrimination method and voice discrimination program |
JP2012189907A (en) * | 2011-03-11 | 2012-10-04 | Toshiba Corp | Voice discrimination device, voice discrimination method and voice discrimination program |
WO2015128960A1 (en) * | 2014-02-26 | 2015-09-03 | 三菱電機株式会社 | In-vehicle control apparatus and in-vehicle control method |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003263189A (en) * | 2002-03-11 | 2003-09-19 | Nippon Telegr & Teleph Corp <Ntt> | Signal separator, its method, signal separation program, and recording medium with the program recorded thereon |
JP2004109779A (en) * | 2002-09-20 | 2004-04-08 | Kobe Steel Ltd | Speech processor |
JP2007248534A (en) * | 2006-03-13 | 2007-09-27 | Nara Institute Of Science & Technology | Speech recognition device, frequency spectrum acquiring device and speech recognition method |
JP2008033307A (en) * | 2006-07-06 | 2008-02-14 | Matsushita Electric Ind Co Ltd | Multichannel echo canceler |
-
2009
- 2009-06-17 JP JP2009143979A patent/JP2011002535A/en active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003263189A (en) * | 2002-03-11 | 2003-09-19 | Nippon Telegr & Teleph Corp <Ntt> | Signal separator, its method, signal separation program, and recording medium with the program recorded thereon |
JP2004109779A (en) * | 2002-09-20 | 2004-04-08 | Kobe Steel Ltd | Speech processor |
JP2007248534A (en) * | 2006-03-13 | 2007-09-27 | Nara Institute Of Science & Technology | Speech recognition device, frequency spectrum acquiring device and speech recognition method |
JP2008033307A (en) * | 2006-07-06 | 2008-02-14 | Matsushita Electric Ind Co Ltd | Multichannel echo canceler |
Non-Patent Citations (2)
Title |
---|
CSNG200600118004; 森 康充 Y. Mori: 'SIMO-ICAとバイナリマスク処理を組み合わせた2段型リアルタイムブラインド音源分離 Two-Stage Re' AIチャレンジ研究会(第22回) SIG-Challenge-0522 Proceedings of the 22nd Meet , 20051015, p.23-28, 社団法人人工知能学会AIチャレンジ研究会 Special * |
JPN6012063212; 森 康充 Y. Mori: 'SIMO-ICAとバイナリマスク処理を組み合わせた2段型リアルタイムブラインド音源分離 Two-Stage Re' AIチャレンジ研究会(第22回) SIG-Challenge-0522 Proceedings of the 22nd Meet , 20051015, p.23-28, 社団法人人工知能学会AIチャレンジ研究会 Special * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012189906A (en) * | 2011-03-11 | 2012-10-04 | Toshiba Corp | Voice discrimination device, voice discrimination method and voice discrimination program |
JP2012189907A (en) * | 2011-03-11 | 2012-10-04 | Toshiba Corp | Voice discrimination device, voice discrimination method and voice discrimination program |
US9330683B2 (en) | 2011-03-11 | 2016-05-03 | Kabushiki Kaisha Toshiba | Apparatus and method for discriminating speech of acoustic signal with exclusion of disturbance sound, and non-transitory computer readable medium |
US9330682B2 (en) | 2011-03-11 | 2016-05-03 | Kabushiki Kaisha Toshiba | Apparatus and method for discriminating speech, and computer readable medium |
WO2015128960A1 (en) * | 2014-02-26 | 2015-09-03 | 三菱電機株式会社 | In-vehicle control apparatus and in-vehicle control method |
JPWO2015128960A1 (en) * | 2014-02-26 | 2017-03-30 | 三菱電機株式会社 | In-vehicle control device and in-vehicle control method |
US9881605B2 (en) | 2014-02-26 | 2018-01-30 | Mitsubishi Electric Corporation | In-vehicle control apparatus and in-vehicle control method |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109686381B (en) | Signal processor for signal enhancement and related method | |
Li et al. | ICASSP 2021 deep noise suppression challenge: Decoupling magnitude and phase optimization with a two-stage deep network | |
Li et al. | A simultaneous denoising and dereverberation framework with target decoupling | |
JP5528538B2 (en) | Noise suppressor | |
JP6545419B2 (en) | Acoustic signal processing device, acoustic signal processing method, and hands-free communication device | |
JP5561195B2 (en) | Noise removing apparatus and noise removing method | |
US11647344B2 (en) | Hearing device with end-to-end neural network | |
Braun et al. | Task splitting for dnn-based acoustic echo and noise removal | |
KR20220022286A (en) | Method and apparatus for extracting reverberant environment embedding using dereverberation autoencoder | |
WO2024169940A1 (en) | Apparatus and method for echo cancellation without reference loop | |
CN113409810B (en) | Echo cancellation method for joint dereverberation | |
CN109451398B (en) | Acoustic feedback cancellation apparatus, acoustic feedback cancellation method, and audio processing system | |
WO2021171829A1 (en) | Signal processing device, signal processing method, and program | |
JP2011002535A (en) | Voice interaction system, voice interaction method, and program | |
JP3756828B2 (en) | Reverberation elimination method, apparatus for implementing this method, program, and recording medium therefor | |
JP2019020678A (en) | Noise reduction device and voice recognition device | |
JP5466581B2 (en) | Echo canceling method, echo canceling apparatus, and echo canceling program | |
KR20160045692A (en) | Method for suppressing the late reverberation of an audible signal | |
TWI840775B (en) | Device and method for acoustic echo cancellation | |
JP4527654B2 (en) | Voice communication device | |
Li et al. | Joint Noise Reduction and Listening Enhancement for Full-End Speech Enhancement | |
Seidel et al. | Bandwidth-Scalable Fully Mask-Based Deep FCRN Acoustic Echo Cancellation and Postfiltering | |
WO2022195955A1 (en) | Echo suppressing device, echo suppressing method, and echo suppressing program | |
US20240196145A1 (en) | Acoustic interference suppression through speaker-aware processing | |
US11516582B1 (en) | Splitting frequency-domain processing between multiple DSP cores |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20111013 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20121018 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20121204 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20130702 |