JP4964204B2 - Multiple signal section estimation device, multiple signal section estimation method, program thereof, and recording medium - Google Patents
Multiple signal section estimation device, multiple signal section estimation method, program thereof, and recording medium Download PDFInfo
- Publication number
- JP4964204B2 JP4964204B2 JP2008218677A JP2008218677A JP4964204B2 JP 4964204 B2 JP4964204 B2 JP 4964204B2 JP 2008218677 A JP2008218677 A JP 2008218677A JP 2008218677 A JP2008218677 A JP 2008218677A JP 4964204 B2 JP4964204 B2 JP 4964204B2
- Authority
- JP
- Japan
- Prior art keywords
- speaker
- frame
- signal
- model
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Description
本発明は、信号処理の技術分野に属する。特に、複数人の音声信号が混在している音響データについて、各人の音声信号が発せられている区間を推定する複数信号区間推定装置、複数信号区間推定方法、そのプログラムおよび記録媒体に関する。 The present invention belongs to the technical field of signal processing. In particular, the present invention relates to a multi-signal section estimation apparatus, a multi-signal section estimation method, a program thereof, and a recording medium for estimating a section in which each person's speech signal is emitted for acoustic data in which a plurality of persons' speech signals are mixed.
複数人による会話などを複数のマイクで収録し、「いつ、誰が話したか」を推定する音声区間検出技術は、例えば会議録自動作成において、各発言に発話者を自動的に付与したり、会議収録データに話者情報を付与して録音データの検索や頭出しを容易にしたりする際に有用である。 Voice segment detection technology that uses multiple microphones to record conversations by multiple people and estimates "when and who spoke", for example, automatically assigning a speaker to each utterance, This is useful when speaker information is added to the recorded data to make it easier to search or find the recorded data.
従来の音声区間検出技術としては、例えば特許文献1や非特許文献1などで開示されている方法が挙げられる。図11に従来技術による複数信号区間推定装置100の機能構成例を、図12にその処理フロー例を示す。複数信号区間推定装置100は、周波数領域変換部110と音声区間推定部120と到来方向推定部130と到来方向分類部140とから構成される。
Examples of conventional speech segment detection techniques include the methods disclosed in
周波数領域変換部110は、M本のマイクによりそれぞれ収録した時間領域の観測信号xj(t)(j=1、・・・、M)を、例えば32msごとに窓関数で切り出して(切り出した1区間を以下、「フレーム」という)、切り出した各フレーム(インデックスをτとする)についてフーリエ変換等によりそれぞれ周波数領域の観測信号xj(f,τ) (f=1、・・・、L)に変換する(S1)。
The frequency
音声区間推定部120は、周波数領域変換部110で周波数領域に変換された観測信号の各フレームに音声が存在するか否かを、音声存在確率を計算することにより推定する(S2)。音声存在確率の計算に際しては、例えば非特許文献2、非特許文献3に記載された方法が利用できる。前者で説明すると、該当フレームにおける音声存在確率pV(τ)を次式により求める。
到来方向推定部130は、周波数領域変換部110で周波数領域に変換された観測信号の到来方向を各フレームごと又は各フレームの各周波数成分ごとにを推定する(S3)。具体的には、観測信号のマイクjとマイクj´とからの到来時間差q´jj′を全てのマイクペアについて求め、それらを並べた縦ベクトルとマイクの座標系とから音声到来方向ベクトルを推定する。
The arrival
各フレームごとに到来時間差q´jj′を計算する手法として、非特許文献4にて開示されているGCC−PHATと呼ばれる手法がある。この手法においては到来時間差q´jj′(τ)を次式に従い算出する。
vq(τ)=c・VD+・vq´(τ) (4)
ここで、+はMoore-Penroseの疑似逆行列を表し、vdjがマイクjの座標を[x,y,z]と並べたベクトルであるとき、VD=[vd1−vdj,・・・,vdM−vdj]Tである。このように求めた音声到来方向ベクトルvq(τ)は、到来方向の水平角がθ、仰角がφとすると、次式のように表すことができる。
vq(τ)=[cosθ・cosφ,sinθ・cosφ,sinφ]T (5)
As a technique for calculating the arrival time difference q ′ jj ′ for each frame, there is a technique called GCC-PHAT disclosed in
vq (τ) = c ・ VD +・ vq´ (τ) (4)
Here, + represents the Moore-Penrose pseudo-inverse matrix, and when vd j is a vector in which the coordinates of microphone j are aligned with [x, y, z], VD = [vd 1 −vd j ,. , Vd M −vd j ] T. The voice arrival direction vector vq (τ) obtained in this way can be expressed by the following equation, where the horizontal angle of the arrival direction is θ and the elevation angle is φ.
vq (τ) = [cosθ ・ cosφ, sinθ ・ cosφ, sinφ] T (5)
各フレームの各周波数成分ごとに到来時間差q´jj′を計算する場合は、マイクjとマイクj´との到来時間差q´jj′(f,τ)を次式に従い算出する。
なお、音声区間推定部120の処理と到来方向推定部130の処理とは並行して行ってもよいし、音声区間推定部120の処理により音声区間を推定した上で、その音声区間に該当するフレームに絞って到来方向推定部130の処理を行うこととしてもよい。
Note that the process of the speech
到来方向分類部140は、音声区間PSに該当する各フレームについて、音声到来方向(ベクトルvq(τ) 又はvq(f,τ))が類似するものを各話者区間Pk(k=1、・・・、N)としてクラスタリングを行い、すべてのクラスタについて、クラスタのインデックスkとそのクラスタに属するすべてのフレームのインデックスτとの組を出力する(S4)。
クラスタリング手法としては、公知のk−means法や階層的クラスタリングを用いてもよいし、オンラインクラスタリングを用いてもよい(非特許文献5参照)。このクラスタリング処理で分類されたクラスタCkが、そのクラスタを形成しているクラスタメンバ(ベクトルvq(τ) 又はvq(f,τ))から求められるセントロイドで示される角度方向にいる話者kに相当し、このクラスタメンバに該当する各フレームτが話者kによる話者区間Pkを構成する。 As a clustering method, a known k-means method or hierarchical clustering may be used, or online clustering may be used (see Non-Patent Document 5). The speaker C in which the cluster C k classified by the clustering process is in the angular direction indicated by the centroid obtained from the cluster members (vector vq (τ) or vq (f, τ)) that form the cluster. Each frame τ corresponding to the cluster member constitutes a speaker section P k by the speaker k .
なお、上記の説明では、到来方向推定部130はマイク間の到達時間差ベクトルvq´(τ)又はvq´(f,τ)を推定した上で、更に音声到来方向ベクトルvq (τ)又はvq (f,τ)を推定しているが、単に到達時間差ベクトルを推定するだけでも構わない。従って、この場合は図13に示すように、到来方向推定部130が到来時間差推定部131として構成され、到来方向分類部140が到来時間差分類部141としてvq (τ)又はvq (f,τ)の代わりにvq´(τ)又はvq´(f,τ)を分類するように構成すればよい。
従来技術では、音声の到来方向情報のみにより話者識別を行っていたため、ある位置に居た話者が他の位置に移動してしまった場合に、同じ話者であるにもかかわらず新しい話者と識別したり、新しい話者であるにもかかわらず以前にその位置にいた別の話者として誤識別したりする問題があった。
本発明の目的は、音声の収録中に話者位置の移動が生じても、移動前と移動後において、同一話者には同一インデックスを付与することのできる、複数信号区間推定装置、複数信号区間推定方法、そのプログラムおよび記録媒体を提供することにある。
In the prior art, speaker identification was performed based only on voice direction-of-arrival information, so if a speaker who was in one location moved to another location, a new story was spoken even though it was the same speaker. There is a problem of being identified as a speaker, or being misidentified as another speaker who was previously in that position despite being a new speaker.
An object of the present invention is to provide a multi-signal section estimation device, a multi-signal, and a multi-signal section estimation device capable of assigning the same index to the same speaker before and after the movement even if the movement of the speaker position occurs during audio recording. An object is to provide a section estimation method, a program thereof, and a recording medium.
本発明の複数信号区間推定装置は、複数のマイクによりそれぞれ収録された、複数の話者による発話音声が含まれる観測信号から、それぞれの話者の発話区間を推定するものであり、周波数領域変換部と音声区間推定部と到来方向推定部と到来方向分類部と話者同定部とを備える。 The multi-signal section estimation device of the present invention estimates each speaker's utterance section from observation signals that are recorded by a plurality of microphones and includes speech uttered by a plurality of speakers, and is a frequency domain transform. A speech section estimation unit, an arrival direction estimation unit, an arrival direction classification unit, and a speaker identification unit.
周波数領域変換部は、観測信号を所定長のフレームに順次切り出し、当該フレームごとに周波数領域に変換する。
音声区間推定部は、周波数領域に変換された観測信号に基づき、各フレームが音声区間に該当するか否かを推定する。
到来方向推定部は、周波数領域に変換された観測信号に基づき、当該観測信号の到来方向を各フレームごとに推定する。
The frequency domain transform unit sequentially cuts the observation signal into frames of a predetermined length, and transforms the frames into the frequency domain for each frame.
The speech segment estimation unit estimates whether each frame corresponds to a speech segment based on the observation signal converted into the frequency domain.
The arrival direction estimation unit estimates the arrival direction of the observation signal for each frame based on the observation signal converted into the frequency domain.
到来方向分類部は、音声区間に該当すると推定された各フレームを、到来方向の類似性に基づき話者ごとのクラスタに分類する。
そして話者同定部は、所定の時刻までに同一クラスタに分類された各フレームの周波数領域に変換された観測信号に基づき、当該クラスタに係る話者のモデルをクラスタごとに作成し、当該所定の時刻以降の観測信号の話者を、各話者のモデルに基づき推定する。
The arrival direction classification unit classifies each frame estimated to correspond to the speech section into a cluster for each speaker based on the similarity of the arrival directions.
Then, the speaker identification unit creates a model of the speaker related to the cluster for each cluster based on the observation signal converted into the frequency domain of each frame classified into the same cluster by a predetermined time. The speaker of the observation signal after the time is estimated based on the model of each speaker.
本発明の複数信号区間推定装置によれば、複数の話者に対する話者区間の推定にあたり、音声の到来方向の推定と分類に加え、話者の同一性の判定が可能となる。そのため、音声の収録中に話者位置の移動が生じても、移動前と移動後において、同一話者には同一のインデックスを付与することができる。 According to the multi-signal section estimation apparatus of the present invention, it is possible to determine speaker identity in addition to estimation and classification of voice arrival directions when estimating speaker sections for a plurality of speakers. Therefore, even if the speaker position moves during recording of the voice, the same index can be assigned to the same speaker before and after the movement.
〔第1実施形態〕
図1(実線部分)に本発明の複数信号区間推定装置200の機能構成例を、図2(実線部分)にその処理フロー例を示す。複数信号区間推定装置200は、背景技術にて説明した周波数領域変換部110、音声区間推定部120、到来方向推定部130、及び到来方向分類部140と、話者同定部250とから構成される。また、話者同定部250の処理は図11に示したフローのS4に続いて行われる。従って、ここでは背景技術として説明した内容の説明は必要最小限とし、話者同定部250での処理に重点を置いて説明する。
図3(実線部分)に話者同定部250の機能構成例を示す。話者同定部250は、特徴抽出手段251とモデル学習手段252と尤度計算手段253とから構成される。
[First Embodiment]
FIG. 1 (solid line part) shows an example of the functional configuration of the multiple signal
FIG. 3 (solid line portion) shows a functional configuration example of the
話者同定部250の処理においては、観測信号の収録開始から所定の時刻ttrainまでは話者の位置の移動が無かったと仮定し、その間に作成されたクラスタから、各話者のモデルMkを作成することとする。そして、時刻ttrain以降は話者の位置の移動があり得たと仮定し、時刻ttrain以降のすべての音声セグメント(同一クラスタに分類された連続フレーム)について、その発話者が時刻ttrain以前に発話したどの話者であるかを、観測信号の当初部分(収録開始から時刻ttrainまで)で作成した各話者のモデルに基づき判定する。このように各話者のモデルを観測信号の当初部分で作成することで、時刻ttrain以降については、事前に話者のモデルを用意することなく話者の同定を行うことができる。なお、ttrainは同定の対象となる話者全員が少なくとも一度発話した時点以降の時刻に設定する。
In the processing of the
特徴抽出手段251は、M本のマイクにおける周波数領域の観測信号x1(f,τ)〜xM(f,τ)の中から任意に選んだいずれか1本の観測信号x(f,τ)の音声特徴量ベクトルvf(τ)を、各フレームごとに計算する(S5)。音声特徴量ベクトルvf(τ)としては、たとえば12次元のMFCC(Mel-Frequency Cepstrum Coefficient)を利用できる。また、自己相関法などで推定した基本周波数F0(τ)を併用し、音声特徴量ベクトルvf(τ)の一成分として含ませてもよい。
The
モデル学習手段252は、到来方向分類部140にて同一クラスタCk(話者数Nのとき、k=1、・・・、N)に分類されたフレームのうち、観測信号の収録開始から所定の時刻ttrainまでの各フレームに係る音声特徴量ベクトルvf(τ)を用いて、話者kのモデル、すなわちモデルパラメータφkを作成して出力するとともに、所定の時刻ttrainまでの各フレームのインデックスτとそれらがそれぞれ属するクラスタに係る話者のインデックスkとの組を出力する(S6)。なお、同一話者のフレームが連続する場合は、各フレームのインデックスを出力する代わりに、連続フレームの始点と終点の時刻を出力してもよい。
The model learning means 252 is predetermined from the start of recording the observation signal among the frames classified into the same cluster C k (when the number of speakers is N, k = 1,..., N) by the arrival
話者のモデルとしては、ここでは混合正規分布(GMM: Gaussian Mixture Model)を用いる場合を例示するが、他の話者同定や話者認識の方法(隠れマルコフモデルやベクトル量子化等)を用いてもよい。GMMのガウシアンの数をMgとした時、モデルMkのモデルパラメータをφk=(平均μk,m、共分散行列Σk,m、ガウシアン重みwk,m)と置くと、GMMは次式のように表すことができる。
なお、モデル学習部では、モデルパラメータφkの推定精度を高める上で、各フレームτは互いに接続されていることが望ましい。そこで、接続されていない場合の処理方法の一例を説明する。図4(a)は観測信号の到来方向の時系列の例である。この例は、収録開始から時刻ttrainまでの間に到来方向がθ1→θ2→θ3→θ2→θ1の順に推移しており、つまり話者1→話者2→話者3→話者2→話者1の順に発話している場合である。このうち、話者3は短時間の隙間を挟んで計3回発話している。このように短時間(例えば300ms以下)の隙間があるような場合には、図4(b)に示すように音声区間が連続しているとみなしてモデルを学習するのが望ましい。また、話者1と話者2については、共に1回目の発話と2回目の発話との間が広くなっている。このような場合には、図4(b)に示すように1回目の発話と2回目の発話が一体的にされたものとみなしてモデルを学習する。なお、モデル学習手段252が出力するインデックスτは接続前のτであることに注意が必要である。
In the model learning unit, in improving the estimation accuracy of the model parameter phi k, it is desirable that each frame τ are connected to each other. Therefore, an example of a processing method when not connected will be described. FIG. 4A shows an example of a time series of the arrival direction of the observation signal. In this example, the arrival direction changes in the order of θ 1 → θ 2 → θ 3 → θ 2 → θ 1 from the start of recording to time t train , that is,
尤度計算手段253は、所定の時刻ttrain以降に同一クラスタに分類された互いに接続されたフレーム(以下、「セグメント」という)の音声特徴量について、モデル学習手段252において作成した全ての話者のモデルに対する尤度を計算して、最大尤度をとるモデルに係る話者のインデックスkと当該セグメントに含まれる全てのフレームのインデックスτとを出力する(S7)。なお、同一話者のフレームが連続する場合は、各フレームのインデックスを出力する代わりに、連続フレームの始点と終点の時刻を出力してもよい。 Likelihood calculation means 253 uses all the speakers created in model learning means 252 for speech features of mutually connected frames (hereinafter referred to as “segments”) classified into the same cluster after a predetermined time t train. The likelihood of the model is calculated, and the index k of the speaker related to the model having the maximum likelihood and the indices τ of all frames included in the segment are output (S7). In addition, when frames of the same speaker are continuous, the start time and end time of the continuous frames may be output instead of outputting the index of each frame.
話者のモデルとしてGMMを用いた場合、各話者のモデルに当該セグメントに含まれる全てのフレームτの音声特徴量ベクトルvf(τ)を代入して、式(10)により対数尤度を計算し、最も大きな対数尤度をとるモデルのインデックスkを当該セグメントの話者インデックスとして付与する。なお、話者の同定は必ずしもセグメントごとに行う必要はなく、フレームごとに行っても構わない。この場合、対数尤度の計算は式(10)のΣを外した式により行う。 When GMM is used as the speaker model, the log likelihood is calculated by Equation (10) by substituting the speech feature vector vf (τ) of all frames τ included in the segment into each speaker model. Then, the index k of the model having the largest log likelihood is assigned as the speaker index of the segment. Note that speaker identification is not necessarily performed for each segment, and may be performed for each frame. In this case, the log likelihood is calculated by an expression obtained by removing Σ in Expression (10).
以上のように本発明においては、複数の話者に対する話者区間の推定にあたり、音声の到来方向の推定と分類に加え、話者の同定を行う。そのため、音声の収録中に話者位置の移動が生じても、移動前と移動後において、同一話者には同一のインデックスを付与することができる。 As described above, in the present invention, speaker estimation is performed in addition to estimation and classification of voice arrival directions when estimating speaker sections for a plurality of speakers. Therefore, even if the speaker position moves during recording of the voice, the same index can be assigned to the same speaker before and after the movement.
〔第2実施形態〕
第1実施形態においては、特徴抽出手段251における処理に際し、周波数領域変換部110から出力された周波数領域の観測信号x(f,τ)をそのまま使用していた。しかし、実際の会議の場では複数の発話者がしばしば同時に発話するが、各フレームではいずれかの1名の話者の発話として識別する必要があり、その他の話者の発話は雑音成分となるため、同時発話されたフレームτにおける観測信号x(f,τ)をそのまま使用すると、SN比の小ささにより特徴抽出を適切に行えずに話者モデルの推定精度が劣化する場合がある。そこで第2実施形態では、このSN比を向上させるための機能構成・処理方法を示す。
[Second Embodiment]
In the first embodiment, the frequency domain observation signal x (f, τ) output from the frequency
第1実施形態との機能構成上の相違は図1において、更に点線部分の構成、つまり音声強調部260が加わる点にあり、処理フロー上の相違は、図2において更に点線部分の処理が加わる点にある。
The difference in the functional configuration from the first embodiment is that the configuration of the dotted line portion in FIG. 1 is further added, that is, the
音声強調部260においては、それぞれの話者kの発話信号成分を強調する。ここでは、複数のマイクにおける観測信号を用いた公知のビームフォーミング的手法(例えば、参考文献1参照)を用いてもよいし、1本のマイクにおける観測信号に対して処理をする方法(例えば、Wiener Filter)による雑音除去的な手法を用いてもよい。
〔参考文献1〕S. Araki, H. Sawada and S. Makino, "Blind Speech Separation in a MeetingSituation with Maximum SNR beamformers," proc. of ICASSP2007, 2007, vol.I, p.41-45
In the
[Reference 1] S. Araki, H. Sawada and S. Makino, "Blind Speech Separation in a Meeting Situation with Maximum SNR beamformers," proc. Of ICASSP2007, 2007, vol.I, p.41-45
参考文献1のSN比最大化型ビームフォーマの場合には、周波数領域変換部110からのM本のマイクにおける周波数領域の観測信号による観測信号ベクトルvx(f,τ)=[x1(f,τ)、・・・、xM(f,τ)]Tと、到来方向分類部140からの各クラスタCkに属するフレームτの情報とから、各フレームτが属するクラスタCkに係る話者kの発話信号成分を強調した周波数領域信号yk(f,τ)を生成し(S8)、これをx(f,τ)の代わりに特徴抽出手段251での処理に用いる。
In the case of the S / N maximization type beamformer of
このように第1実施形態の構成に音声強調部260による処理を加えることで、特徴抽出手段251に入力する各話者kの発話信号成分のSN比を向上することができ、話者モデルの推定精度を高めることができる。
Thus, by adding the processing by the
〔第3実施形態〕
上記の実施形態では、モデルパラメータφkを時刻ttrainまでの観測信号により求めて、それを時刻ttrain以降の話者同定処理に固定的に適用する。しかし、会話が収録される音響環境は通常、経時的に変化するものであり、求めたモデルパラメータφkが経時的にその環境に相応しくなくなる場合がある。
[Third Embodiment]
In the above embodiment, determined by the observation signal of the model parameters phi k until time t train, fixedly applied it to the time t train after the speaker identification process. However, the acoustic environment in which the conversation is recorded usually changes over time, and the obtained model parameter φ k may become unsuitable for the environment over time.
第3実施形態はそのような事態を回避するための構成であり、処理フロー例を図5に示す。S7にて時刻ttrain以降のセグメントに対して話者インデックスkを付与した後、そのセグメントに属する各フレームの音声特徴量ベクトルvf(τ)を、図3の一点鎖線に示すように尤度計算手段254からモデル学習手段253にフィードバックし、これらの音声特徴量ベクトルvf(τ)を用いて、式(10)により改めてφkを計算してモデルパラメータを更新する(S9)。更新は逐次行っても、所定の更新間隔を置いて行っても構わない。
The third embodiment is a configuration for avoiding such a situation, and an example of a processing flow is shown in FIG. After assigning a speaker index k to a segment after time t train in S7, the likelihood calculation of the speech feature vector vf (τ) of each frame belonging to the segment is calculated as shown by the one-dot chain line in FIG. Feedback is made from the
このように構成することで、会話が収録される音響環境が経時的に変化しても、適切なモデルパラメータにより話者の同定処理を行うことができる。 With this configuration, even if the acoustic environment in which the conversation is recorded changes over time, speaker identification processing can be performed using appropriate model parameters.
〔第4実施形態〕
上記の各実施形態では、尤度計算手段253における話者の同定を、各話者のモデルMkに同定対象セグメントに含まれる全てのフレームτの音声特徴量ベクトルvf(τ)を代入して対数尤度を計算し、対数尤度が最大となるモデルのインデックスkを当該セグメントの話者インデックスとするというルールの下で行う。しかし、このようなルールの下では、新たに参加した話者による発話があった場合においても、当初から参加している話者のモデルのいずれかが最大対数尤度をとることになるため、そのモデルの話者であると同定されてしまう。
[Fourth Embodiment]
In each of the embodiments described above, speaker identification in the likelihood calculation means 253 is performed by substituting the speech feature vector vf (τ) of all frames τ included in the identification target segment into each speaker model M k. The log likelihood is calculated, and this is performed under the rule that the index k of the model having the maximum log likelihood is the speaker index of the segment. However, under such rules, even if there is an utterance by a newly joined speaker, one of the models of the speaker who participated from the beginning will have the maximum log likelihood, It will be identified as the speaker of the model.
第4実施形態はそのような事態を回避するための構成である。処理フロー例を図6に示す。尤度計算手段253において、所定の時刻ttrain以降の各セグメントについて音声特徴量ベクトルを各話者のモデルに代入して対数尤度を計算し(S7−1)、最大の対数尤度が所定の閾値より小さいか否かを判断し、閾値より大きい場合には、最大尤度をとるモデルに係る話者のインデックスkと当該セグメントに含まれる全てのフレームのインデックスτとを出力し(S7−2)、閾値より小さい場合には、新たな話者が参加したと判断して新たな話者インデックスを当該セグメントに付与するとともに、そのセグメントに属する各フレームの音声特徴量ベクトルvf(τ)を、図3の一点鎖線に示すように尤度計算手段254からモデル学習手段253にフィードバックし、これらの音声特徴量ベクトルvf(τ)を用いて、式(10)によりφkを計算して新たな話者のモデルパラメータとして追加する(S10)。
The fourth embodiment is a configuration for avoiding such a situation. An example of the processing flow is shown in FIG. The likelihood calculating means 253 calculates the log likelihood by substituting the speech feature vector into each speaker model for each segment after the predetermined time t train (S7-1), and the maximum log likelihood is predetermined. If it is larger than the threshold, the speaker's index k related to the model having the maximum likelihood and the indexes τ of all the frames included in the segment are output (S7-). 2) If it is smaller than the threshold, it is determined that a new speaker has joined, and a new speaker index is assigned to the segment, and the speech feature vector vf (τ) of each frame belonging to the segment is assigned. , is fed back to the
このように構成することで、新たな話者が参加した場合においても、それを検知してその話者のモデルを生成することにより、以降、その話者についても同定処理を行うことができる。 With this configuration, even when a new speaker joins, by detecting it and generating a model of the speaker, the identification process can be performed for the speaker thereafter.
〔第5実施形態〕
上記の各実施形態は、モデルパラメータを時刻ttrainまでの観測信号により求めて、それを用いて時刻ttrain以降の話者同定処理を行う構成である。しかし、発話が想定される複数の話者音声を予め入手できる場合には、それに基づき事前に各話者のモデルを準備しておき、この事前に準備したモデルを用いて話者同定処理を行うことが可能である。
第5実施形態はそのような場合の構成であり、話者同定部250を例えば図7のように構成することにより実現できる。上記の各実施形態との機能構成上の相違は、図3におけるモデル学習手段252が、予め準備した話者のモデルパラメータが記憶された話者モデルDB264に置き換わる点にある。
[Fifth Embodiment]
Each of the above embodiments is obtained by observing the signal of the model parameters until time t train, is configured to perform time t train subsequent speaker identification process using it. However, if a plurality of speaker voices that are supposed to be uttered can be obtained in advance, a model of each speaker is prepared in advance based on that and speaker identification processing is performed using the model prepared in advance. It is possible.
The fifth embodiment is configured in such a case, and can be realized by configuring the
このように構成することで、モデルパラメータを学習により求める必要が無くなるため、音声の収録当初から尤度計算手段253において話者同定が可能になる。また、話者のモデルパラメータに話者の氏名情報を関連付けてDBに記憶させておくことで、話者インデックスkに方向情報に加え話者の氏名情報も持たせることができる。
上記の各実施形態の複数信号区間推定装置の構成をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記処理機能がコンピュータ上で実現される。
With this configuration, it is not necessary to obtain model parameters by learning, so that the speaker calculation can be performed by the likelihood calculation means 253 from the beginning of voice recording. Further, by storing the speaker name information in the DB in association with the speaker model parameter, the speaker index k can have the speaker name information in addition to the direction information.
When the configuration of the multiple signal section estimation device of each of the above embodiments is realized by a computer, the processing contents of the functions that each device should have are described by a program. The processing functions are realized on the computer by executing the program on the computer.
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよいが、具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD−RAM(Random Access Memory)、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto-Optical disc)等を、半導体メモリとしてEEP−ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。 The program describing the processing contents can be recorded on a computer-readable recording medium. The computer-readable recording medium may be any medium such as a magnetic recording device, an optical disk, a magneto-optical recording medium, or a semiconductor memory. Specifically, for example, the magnetic recording device may be a hard disk device or a flexible Discs, magnetic tapes, etc. as optical disks, DVD (Digital Versatile Disc), DVD-RAM (Random Access Memory), CD-ROM (Compact Disc Read Only Memory), CD-R (Recordable) / RW (ReWritable), etc. As the magneto-optical recording medium, MO (Magneto-Optical disc) or the like can be used, and as the semiconductor memory, EEP-ROM (Electronically Erasable and Programmable-Read Only Memory) or the like can be used.
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。 The program is distributed by selling, transferring, or lending a portable recording medium such as a DVD or CD-ROM in which the program is recorded. Furthermore, the program may be distributed by storing the program in a storage device of the server computer and transferring the program from the server computer to another computer via a network.
また、上述した実施形態とは別の実行形態として、コンピュータが可搬型記録媒体から直接このプログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。 As an execution form different from the above-described embodiment, the computer may read the program directly from the portable recording medium and execute processing according to the program. Each time is transferred, the processing according to the received program may be executed sequentially. Also, the program is not transferred from the server computer to the computer, and the above-described processing is executed by a so-called ASP (Application Service Provider) type service that realizes the processing function only by the execution instruction and result acquisition. It is good. Note that the program in this embodiment includes information that is used for processing by an electronic computer and that conforms to the program (data that is not a direct command to the computer but has a property that defines the processing of the computer).
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
また、上述の各種処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。
In this embodiment, the present apparatus is configured by executing a predetermined program on a computer. However, at least a part of these processing contents may be realized by hardware.
Further, the various processes described above are not only executed in time series according to the description, but may be executed in parallel or individually as required by the processing capability of the apparatus that executes the processes. In addition, it can change suitably in the range which does not deviate from the meaning of this invention.
〔効果の確認〕
発明の効果を確認するため、図8で示すような3本のマイクを用いた測定環境において、4名参加による5分間の会議データについての話者区間推定実験を行った。会議においては、まず男女各2名の話者がそれぞれ男1、女1、男2、女2の位置に着席して始めに自己紹介をし、その後、各話者が順番に位置PPに移動して発言を行った。自己紹介は収録開始から120秒までの間に行われたものとし、ttrainを120秒として収録開始から120秒までの観測信号を話者同定モデルの作成に用い、120秒以降について話者同定を行った。なお、短時間フーリエ変換のフレーム長は64ms、フレームシフト長は32msとした。
[Confirmation of effect]
In order to confirm the effect of the invention, a speaker section estimation experiment was performed on conference data for 5 minutes with four participants in a measurement environment using three microphones as shown in FIG. At the conference, first two male and female speakers are seated in the positions of
評価指標としては、diarization error rate(DER)を利用した。
図9(a)に確認結果を示す。図10は結果を図解したものであり、(a)は正解を示したもの、(b)は従来の方法による推定結果、 (c)は本発明の方法による推定結果である。なお、男1、女1、男2、女2の到来方向はそれぞれ100°、50°、−50°、−100°であり、位置PPは−160°の到来方向にあり、また、男1が話者1に、女1が話者2に、男2が話者3に、女2が話者4にそれぞれ対応する。図10(b)からわかるように、従来の方法では位置PPの話者を話者1〜4以外の別の話者5と推定しており、図9(a)に示すとおりSETが大きくなっている。これに対し、本発明の方法ではほぼ全ての時間区間で−160°方向の話者の区別を図10(a)と同様にできており、図9(a)に示すとおりSETが改善し、全体の性能であるDER値も改善していることがわかる。
The confirmation result is shown in FIG. FIG. 10 illustrates the results. (A) shows the correct answer, (b) shows the estimation result by the conventional method, and (c) shows the estimation result by the method of the present invention. The arrival directions of
また、10組の話者組み合わせにおける会議シミュレーションを行った結果を図9(b)に示す。これは、音声信号と図8の測定環境で測定したインパルス応答とを用いて作成した会議シミュレーションデータを用いたものである。図9(b)においてシミュレーション1は各話者の音声間の重なりが無い場合であり、シミュレーション2は各話者の音声間の重なりがある場合の結果であるが、いずれの場合においてもDER、SETに関し本発明の方法が従来方法より優れた結果を示すことがわかる。
Moreover, the result of having performed the conference simulation in 10 speaker combinations is shown in FIG. This uses conference simulation data created using an audio signal and an impulse response measured in the measurement environment of FIG. In FIG. 9 (b),
本発明は、複数話者の音声信号が混在している音響データから各話者の音声区間を推定する必要があるシステムや装置等に利用することができ、特に音声の収録中に話者位置の移動が生じる場合に有効である。 INDUSTRIAL APPLICABILITY The present invention can be used for a system or apparatus that needs to estimate each speaker's voice section from acoustic data in which voice signals of a plurality of speakers are mixed, and in particular, speaker position during voice recording. This is effective when the movement of.
Claims (12)
上記観測信号を所定長のフレームに順次切り出し、当該フレームごとに周波数領域に変換する周波数領域変換部と、
周波数領域に変換された上記観測信号(以下、「周波数領域観測信号」という)に基づき、各フレームが音声区間に該当するか否かを推定する音声区間推定部と、
上記周波数領域観測信号に基づき、当該周波数領域観測信号の到来方向を各フレームごとに推定する到来方向推定部と、
上記音声区間に該当すると推定された各フレームを、上記到来方向の類似性に基づき上記話者ごとのクラスタに分類する到来方向分類部と、
所定の時刻までに同一クラスタに分類された各フレームの上記周波数領域観測信号に基づき、当該クラスタに係る上記話者のモデルをクラスタごとに作成し、当該所定の時刻以降の上記観測信号の話者を、各話者のモデルに基づき推定する話者同定部と、
を備えることを特徴とする複数信号区間推定装置。 A multi-signal section estimation device for estimating each speaker's utterance section from an observation signal recorded by a plurality of microphones and containing speech uttered by a plurality of speakers,
A frequency domain converter that sequentially cuts out the observation signal into frames of a predetermined length and converts the frames into a frequency domain for each frame;
A speech interval estimation unit that estimates whether each frame corresponds to a speech interval based on the observation signal converted into the frequency domain (hereinafter referred to as a “frequency domain observation signal”);
Based on the frequency domain observation signal, an arrival direction estimation unit that estimates the arrival direction of the frequency domain observation signal for each frame;
A direction-of-arrival classification unit that classifies each frame estimated to correspond to the speech section into a cluster for each speaker based on the similarity of the direction of arrival;
Based on the frequency domain observation signal of each frame classified into the same cluster by a predetermined time, a model of the speaker related to the cluster is created for each cluster, and the speaker of the observation signal after the predetermined time A speaker identification unit for estimating
A multi-signal section estimation apparatus comprising:
上記話者同定部は、
上記周波数領域観測信号の各フレームの音声特徴量を計算する特徴抽出手段と、
上記所定の時刻までに同一クラスタに分類された各フレームの音声特徴量を用いて、当該クラスタに係る上記話者のモデルを各クラスタごとに作成して出力するとともに、上記所定の時刻までの各フレームのインデックスと当該各フレームが属するクラスタに係る話者のインデックスとの組を出力するモデル学習手段と、
上記所定の時刻以降に同一クラスタに分類された互いに接続された フレーム(以下、
「セグメント」という)の音声特徴量について、上記話者のモデルに対する尤度を各モデルごとに計算し、最大尤度をとるモデルに係る話者のインデックスを当該セグメントに付与して、当該セグメントに含まれる各フレームのインデックスとともに出力する尤度計算手段と、
を備えることを特徴とする複数信号区間推定装置。 In the multiple signal area estimation device according to claim 1,
The above speaker identification unit
Feature extraction means for calculating speech feature values of each frame of the frequency domain observation signal;
Using the speech feature value of each frame classified into the same cluster by the predetermined time, the speaker model related to the cluster is created and output for each cluster, and each of the models up to the predetermined time is output. Model learning means for outputting a set of a frame index and a speaker index associated with a cluster to which each frame belongs;
Frames connected to each other that are classified into the same cluster after the predetermined time (hereinafter,
The likelihood of the speaker's model is calculated for each model, and the speaker's index related to the model having the maximum likelihood is assigned to the segment. A likelihood calculating means for outputting together with an index of each included frame;
A multi-signal section estimation apparatus comprising:
上記観測信号を所定長のフレームに順次切り出し、当該フレームごとに周波数領域に変換する周波数領域変換部と、
周波数領域に変換された上記観測信号(以下、「周波数領域観測信号」という)に基づき、各フレームが音声区間に該当するか否かを推定する音声区間推定部と、
上記周波数領域観測信号に基づき、当該周波数領域観測信号の到来方向を各フレームごとに推定する到来方向推定部と、
上記音声区間に該当すると推定された各フレームを、上記到来方向の類似性に基づき上記話者ごとのクラスタに分類する到来方向分類部と、
上記周波数領域観測信号に基づき、上記クラスタに係る上記話者ごとの発話信号成分を強調した信号(以下、「強調信号」という)を生成する音声強調部と、
所定の時刻までの上記強調信号に基づき、上記話者のモデルを話者ごとに作成し、当該所定の時刻以降の上記観測信号の話者を、各話者のモデルに基づき推定する話者同定部と、
を備えることを特徴とする複数信号区間推定装置。 A multi-signal section estimation device for estimating each speaker's utterance section from an observation signal recorded by a plurality of microphones and containing speech uttered by a plurality of speakers,
A frequency domain converter that sequentially cuts out the observation signal into frames of a predetermined length and converts the frames into a frequency domain for each frame;
A speech interval estimation unit that estimates whether each frame corresponds to a speech interval based on the observation signal converted into the frequency domain (hereinafter referred to as a “frequency domain observation signal”);
Based on the frequency domain observation signal, an arrival direction estimation unit that estimates the arrival direction of the frequency domain observation signal for each frame;
A direction-of-arrival classification unit that classifies each frame estimated to correspond to the speech section into a cluster for each speaker based on the similarity of the direction of arrival;
A speech enhancement unit that generates a signal (hereinafter referred to as an “emphasis signal”) that emphasizes the speech signal component for each speaker related to the cluster, based on the frequency domain observation signal;
Speaker identification that creates a speaker model for each speaker based on the emphasis signal up to a predetermined time, and estimates the speaker of the observed signal after the predetermined time based on the model of each speaker And
A multi-signal section estimation apparatus comprising:
上記話者同定部は、
上記強調信号の各フレームの音声特徴量を計算する特徴抽出手段と、
上記所定の時刻までの上記強調信号の各フレームの音声特徴量を用いて、上記話者のモデルを各話者ごとに作成して出力するとともに、上記所定の時刻までの各フレームのインデックスと当該各フレームが属するクラスタに係る話者のインデックスとの組を出力するモデル学習手段と、
上記所定の時刻以降に同一クラスタに分類された互いに接続されたフレーム(以下、「セグメント」という)の音声特徴量について、上記話者のモデルに対する尤度を各モデルごとに計算し、最大尤度をとるモデルに係る話者のインデックスを当該セグメントに付与して、当該セグメントに含まれる各フレームのインデックスとともに出力する尤度計算手段と、
を備えることを特徴とする複数信号区間推定装置。 In the multiple signal section estimation device according to claim 3,
The above speaker identification unit
Feature extraction means for calculating a speech feature amount of each frame of the enhancement signal;
Using the speech feature value of each frame of the enhancement signal up to the predetermined time, the speaker model is created and output for each speaker, and the index of each frame up to the predetermined time and the frame Model learning means for outputting a pair with a speaker index related to a cluster to which each frame belongs,
The likelihood of the speaker's model is calculated for each model for speech features of mutually connected frames (hereinafter referred to as “segments”) classified into the same cluster after the predetermined time, and the maximum likelihood is calculated. A likelihood calculating means for assigning an index of a speaker related to the model to be output to the segment together with an index of each frame included in the segment;
A multi-signal section estimation apparatus comprising:
上記観測信号を所定長のフレームに順次切り出し、当該フレームごとに周波数領域に変換する周波数領域変換ステップと、
周波数領域に変換された上記観測信号(以下、「周波数領域観測信号」という)に基づき、各フレームが音声区間に該当するか否かを推定する音声区間推定ステップと、
上記周波数領域観測信号に基づき、当該周波数領域観測信号の到来方向を各フレームごとに推定する到来方向推定ステップと、
上記音声区間に該当すると推定された各フレームを、上記到来方向の類似性に基づき上記話者ごとのクラスタに分類する到来方向分類ステップと、
所定の時刻までに同一クラスタに分類された各フレームの上記周波数領域観測信号に基づき、当該クラスタに係る上記話者のモデルをクラスタごとに作成し、当該所定の時刻以降の上記観測信号の話者を、各話者のモデルに基づき推定する話者同定ステップと、
を実行することを特徴とする複数信号区間推定方法。 A multi-signal section estimation method for estimating the utterance section of each speaker from an observation signal recorded by a plurality of microphones and including speech uttered by a plurality of speakers,
A frequency domain conversion step of sequentially cutting out the observation signal into frames of a predetermined length and converting each frame into the frequency domain;
A speech interval estimation step for estimating whether or not each frame corresponds to a speech interval based on the observation signal converted into the frequency domain (hereinafter referred to as “frequency domain observation signal”);
Based on the frequency domain observation signal, the direction of arrival estimation step for estimating the direction of arrival of the frequency domain observation signal for each frame;
A direction-of-arrival classification step of classifying each frame estimated to fall within the speech section into clusters for each speaker based on the similarity of the directions of arrival;
Based on the frequency domain observation signal of each frame classified into the same cluster by a predetermined time, a model of the speaker related to the cluster is created for each cluster, and the speaker of the observation signal after the predetermined time Speaker identification step for estimating each speaker based on the model of each speaker;
The multiple signal section estimation method characterized by performing.
上記話者同定ステップは、
上記周波数領域観測信号の各フレームの音声特徴量を計算する特徴抽出サブステップと、
上記所定の時刻までに同一クラスタに分類された各フレームの音声特徴量を用いて、当該クラスタに係る上記話者のモデルを各クラスタごとに作成して出力するとともに、上記所定の時刻までの各フレームのインデックスと当該各フレームが属するクラスタに係る話者のインデックスとの組を出力するモデル学習サブステップと、
上記所定の時刻以降に同一クラスタに分類された互いに接続されたフレーム(以下、「セグメント」という)の音声特徴量について、上記話者のモデルに対する尤度を各モデルごとに計算し、最大尤度をとるモデルに係る話者のインデックスを当該セグメントに付与して、当該セグメントに含まれる各フレームのインデックスとともに出力する尤度計算サブステップと、
を実行することを特徴とする複数信号区間推定方法。 In the multiple signal section estimation device according to claim 5,
The speaker identification step is
A feature extraction substep for calculating a speech feature amount of each frame of the frequency domain observation signal;
Using the speech feature value of each frame classified into the same cluster by the predetermined time, the speaker model related to the cluster is created and output for each cluster, and each of the models up to the predetermined time is output. A model learning sub-step for outputting a set of a frame index and a speaker index associated with a cluster to which each frame belongs;
The likelihood of the speaker's model is calculated for each model for speech features of mutually connected frames (hereinafter referred to as “segments”) classified into the same cluster after the predetermined time, and the maximum likelihood is calculated. A likelihood calculation sub-step of assigning to the segment an index of a speaker related to the model taking the following and outputting together with an index of each frame included in the segment;
The multiple signal section estimation method characterized by performing.
上記観測信号を所定長のフレームに順次切り出し、当該フレームごとに周波数領域に変換する周波数領域変換ステップと、
周波数領域に変換された上記観測信号(以下、「周波数領域観測信号」という)に基づき、各フレームが音声区間に該当するか否かを推定する音声区間推定ステップと、
上記周波数領域観測信号に基づき、当該周波数領域観測信号の到来方向を各フレームごとに推定する到来方向推定ステップと、
上記音声区間に該当すると推定された各フレームを、上記到来方向の類似性に基づき上記話者ごとのクラスタに分類する到来方向分類ステップと、
上記周波数領域観測信号に基づき、上記クラスタに係る上記話者ごとの発話信号を強調した信号(以下、「強調信号」という)を生成する音声強調ステップと、
所定の時刻までの上記強調信号に基づき、上記話者のモデルを話者ごとに作成し、当該所定の時刻以降の上記観測信号の話者を、各話者のモデルに基づき推定する話者同定ステップと、
を実行することを特徴とする複数信号区間推定方法。 A multi-signal section estimation method for estimating the utterance section of each speaker from an observation signal recorded by a plurality of microphones and including speech uttered by a plurality of speakers,
A frequency domain conversion step of sequentially cutting out the observation signal into frames of a predetermined length and converting each frame into the frequency domain;
A speech interval estimation step for estimating whether or not each frame corresponds to a speech interval based on the observation signal converted into the frequency domain (hereinafter referred to as “frequency domain observation signal”);
Based on the frequency domain observation signal, the direction of arrival estimation step for estimating the direction of arrival of the frequency domain observation signal for each frame;
A direction-of-arrival classification step of classifying each frame estimated to fall within the speech section into clusters for each speaker based on the similarity of the directions of arrival;
Based on the frequency domain observation signal, a speech enhancement step of generating a signal (hereinafter referred to as “emphasis signal”) that emphasizes the speech signal for each speaker related to the cluster ;
Speaker identification that creates a speaker model for each speaker based on the emphasis signal up to a predetermined time, and estimates the speaker of the observed signal after the predetermined time based on the model of each speaker Steps,
The multiple signal section estimation method characterized by performing.
上記話者同定ステップは、
上記強調信号の各フレームの音声特徴量を計算する特徴抽出サブステップと、
上記所定の時刻までの上記強調信号の各フレームの音声特徴量を用いて、上記話者のモデルを話者ごとに作成して出力するとともに、上記所定の時刻までの各フレームのインデックスと当該各フレームが属するクラスタに係る話者のインデックスとの組を出力するモデル学習サブステップと、
上記所定の時刻以降に同一クラスタに分類された互いに接続されたフレーム(以下、「セグメント」という)の音声特徴量について、上記話者のモデルに対する尤度を各モデルごとに計算し、最大尤度をとるモデルに係る話者のインデックスを当該セグメントに付与して、当該セグメントに含まれる各フレームのインデックスとともに出力する尤度計算サブステップと、
を実行することを特徴とする複数信号区間推定方法。 The multiple signal section estimation method according to claim 7,
The speaker identification step is
A feature extraction sub-step for calculating a speech feature amount of each frame of the enhancement signal;
Using the speech feature value of each frame of the enhancement signal up to the predetermined time, the speaker model is created and output for each speaker, and the index of each frame up to the predetermined time A model learning sub-step for outputting a pair with a speaker index associated with the cluster to which the frame belongs;
The likelihood of the speaker's model is calculated for each model for speech features of mutually connected frames (hereinafter referred to as “segments”) classified into the same cluster after the predetermined time, and the maximum likelihood is calculated. A likelihood calculation sub-step of assigning to the segment an index of a speaker related to the model taking the following and outputting together with an index of each frame included in the segment;
The multiple signal section estimation method characterized by performing.
更に、上記尤度計算サブステップにて上記セグメントに話者のインデックスを付与した後、そのセグメントに属する各フレームの音声特徴量に基づき改めて当該話者のモデルを作成して、当該話者のモデルを更新するモデル更新ステップ
を実行することを特徴とする複数信号区間推定方法。 The multiple signal section estimation method according to claim 6 or 8,
Furthermore, after assigning a speaker index to the segment in the likelihood calculation sub-step, a model of the speaker is newly created based on the speech feature amount of each frame belonging to the segment, and the speaker model A method for estimating a plurality of signal sections, comprising executing a model update step for updating the signal.
更に、計算した上記最大尤度が所定の閾値より小さい場合に、新たな話者が参加したと判断し、当該新たな話者のインデックスを上記セグメントに付与するとともに、そのセグメントに属する各フレームの音声特徴量に基づき当該新たな話者のモデルを作成するモデル追加ステップ
を実行することを特徴とする複数信号区間推定方法。 In the multiple signal area estimation method according to any one of claims 6, 8, and 9,
Further, when the calculated maximum likelihood is smaller than a predetermined threshold, it is determined that a new speaker has joined, and an index of the new speaker is assigned to the segment, and each frame belonging to the segment is assigned. A multi-signal section estimation method, comprising: executing a model addition step of creating a new speaker model based on a speech feature amount.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008218677A JP4964204B2 (en) | 2008-08-27 | 2008-08-27 | Multiple signal section estimation device, multiple signal section estimation method, program thereof, and recording medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008218677A JP4964204B2 (en) | 2008-08-27 | 2008-08-27 | Multiple signal section estimation device, multiple signal section estimation method, program thereof, and recording medium |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010054733A JP2010054733A (en) | 2010-03-11 |
JP4964204B2 true JP4964204B2 (en) | 2012-06-27 |
Family
ID=42070738
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008218677A Active JP4964204B2 (en) | 2008-08-27 | 2008-08-27 | Multiple signal section estimation device, multiple signal section estimation method, program thereof, and recording medium |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4964204B2 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022010320A1 (en) * | 2020-07-10 | 2022-01-13 | 주식회사 아모센스 | Device for processing voice and operation method thereof |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102760434A (en) * | 2012-07-09 | 2012-10-31 | 华为终端有限公司 | Method for updating voiceprint feature model and terminal |
JP6158006B2 (en) | 2013-09-17 | 2017-07-05 | 株式会社東芝 | Audio processing apparatus, method, and program |
JP6556575B2 (en) | 2015-09-15 | 2019-08-07 | 株式会社東芝 | Audio processing apparatus, audio processing method, and audio processing program |
KR101780932B1 (en) * | 2016-02-25 | 2017-09-27 | 주식회사 셀바스에이아이 | Apparatus and computer program stored in computer-readable medium for improving of voice recognition performance |
JP6661710B2 (en) * | 2018-08-02 | 2020-03-11 | Dynabook株式会社 | Electronic device and control method for electronic device |
CN110111805B (en) * | 2019-04-29 | 2021-10-29 | 北京声智科技有限公司 | Automatic gain control method and device in far-field voice interaction and readable storage medium |
CN111429935B (en) * | 2020-02-28 | 2023-08-29 | 北京捷通华声科技股份有限公司 | Voice caller separation method and device |
JP2021173952A (en) * | 2020-04-30 | 2021-11-01 | 株式会社日立製作所 | Speaker dialization device, and speaker dialization method |
US20230238002A1 (en) * | 2020-06-01 | 2023-07-27 | Sony Group Corporation | Signal processing device, signal processing method and program |
KR102482827B1 (en) * | 2020-11-30 | 2022-12-29 | 네이버 주식회사 | Method, system, and computer program to speaker diarisation using speech activity detection based on spearker embedding |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004318026A (en) * | 2003-04-14 | 2004-11-11 | Tomohito Nakagawa | Security pet robot and signal processing method related to the device |
JP2005202014A (en) * | 2004-01-14 | 2005-07-28 | Sony Corp | Audio signal processor, audio signal processing method, and audio signal processing program |
JP2007318438A (en) * | 2006-05-25 | 2007-12-06 | Yamaha Corp | Voice state data generating device, voice state visualizing device, voice state data editing device, voice data reproducing device, and voice communication system |
JP2007322523A (en) * | 2006-05-30 | 2007-12-13 | Toshiba Corp | Voice translation apparatus and its method |
-
2008
- 2008-08-27 JP JP2008218677A patent/JP4964204B2/en active Active
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022010320A1 (en) * | 2020-07-10 | 2022-01-13 | 주식회사 아모센스 | Device for processing voice and operation method thereof |
Also Published As
Publication number | Publication date |
---|---|
JP2010054733A (en) | 2010-03-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4964204B2 (en) | Multiple signal section estimation device, multiple signal section estimation method, program thereof, and recording medium | |
EP3707716B1 (en) | Multi-channel speech separation | |
Barker et al. | The third ‘CHiME’speech separation and recognition challenge: Analysis and outcomes | |
JP4516527B2 (en) | Voice recognition device | |
JP4875656B2 (en) | Signal section estimation device and method, program, and recording medium | |
JP6703460B2 (en) | Audio processing device, audio processing method, and audio processing program | |
JP4746533B2 (en) | Multi-sound source section determination method, method, program and recording medium thereof | |
JP6464005B2 (en) | Noise suppression speech recognition apparatus and program thereof | |
KR101720514B1 (en) | Asr apparatus and method of executing feature enhancement based on dnn using dcica | |
Tao et al. | Bimodal Recurrent Neural Network for Audiovisual Voice Activity Detection. | |
Grondin et al. | WISS, a speaker identification system for mobile robots | |
Nakadai et al. | A robot referee for rock-paper-scissors sound games | |
KR100969138B1 (en) | Method For Estimating Noise Mask Using Hidden Markov Model And Apparatus For Performing The Same | |
Espi et al. | Acoustic event detection in speech overlapping scenarios based on high-resolution spectral input and deep learning | |
Giannoulis et al. | The Athena-RC system for speech activity detection and speaker localization in the DIRHA smart home | |
JP5044581B2 (en) | Multiple signal emphasis apparatus, method and program | |
JP5672175B2 (en) | Speaker discrimination apparatus, speaker discrimination program, and speaker discrimination method | |
Tachioka et al. | Ensemble integration of calibrated speaker localization and statistical speech detection in domestic environments | |
Lipeika | Optimization of formant feature based speech recognition | |
Tachioka et al. | Dereverberation method with reverberation time estimation using floored ratio of spectral subtraction | |
Lee et al. | Space-time voice activity detection | |
JP6059112B2 (en) | Sound source separation device, method and program thereof | |
Park et al. | Integration of sporadic noise model in POMDP-based voice activity detection | |
Yamamoto et al. | Genetic algorithm-based improvement of robot hearing capabilities in separating and recognizing simultaneous speech signals | |
Even et al. | Combining laser range finders and local steered response power for audio monitoring |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20100726 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20110810 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20111215 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20111227 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120221 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120321 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120327 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4964204 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150406 Year of fee payment: 3 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |