JP6303971B2 - 話者交替検出装置、話者交替検出方法及び話者交替検出用コンピュータプログラム - Google Patents

話者交替検出装置、話者交替検出方法及び話者交替検出用コンピュータプログラム Download PDF

Info

Publication number
JP6303971B2
JP6303971B2 JP2014213149A JP2014213149A JP6303971B2 JP 6303971 B2 JP6303971 B2 JP 6303971B2 JP 2014213149 A JP2014213149 A JP 2014213149A JP 2014213149 A JP2014213149 A JP 2014213149A JP 6303971 B2 JP6303971 B2 JP 6303971B2
Authority
JP
Japan
Prior art keywords
speaker
analysis
analysis interval
feature
analysis section
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2014213149A
Other languages
English (en)
Other versions
JP2016080916A (ja
Inventor
昭二 早川
昭二 早川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2014213149A priority Critical patent/JP6303971B2/ja
Priority to US14/875,092 priority patent/US9536547B2/en
Publication of JP2016080916A publication Critical patent/JP2016080916A/ja
Application granted granted Critical
Publication of JP6303971B2 publication Critical patent/JP6303971B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/06Decision making techniques; Pattern matching strategies
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/26Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/45Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window

Description

本発明は、例えば、複数の話者の会話を録音した音声信号において発話した話者の組の交替を検出する話者交替検出装置、話者交替検出方法及び話者交替検出用コンピュータプログラムに関する。
近年、電話回線を用いて行われる、金銭を騙し取ることを目的とした詐欺行為及び悪質な勧誘行為が社会的な問題となっている。そこで、電話回線を介した通話中の音声など、会話音声を分析して、話者の心理状態を推定する技術が提案されている(例えば、特許文献1を参照)。
このような技術では、心理状態の分析対象となる話者1名が発声した音声が含まれる音声信号を分析することが前提となっている。しかしながら、会話音声が録音された音声信号には、2名以上の話者の音声が含まれる。そこで、会話音声が録音された音声信号に基づいて、特定の話者の心理状態を精度良く推定するためには、その音声信号に含まれる、心理状態の推定対象となる話者の発話区間を特定することが求められる。そこで、複数の話者の音声が含まれるモノラルの音声信号において、各話者が発話した区間にその話者の識別情報を付与できる話者インデキシング技術が提案されている(例えば、特許文献2及び非特許文献1を参照)。
特開2011−242755号公報 特開2008−175955号公報
D. Liu and F.Lubala、「Online speaker clustering」、In Proc of ICASSP2004、vol.1、pp.333-337、2004年
会話に参加しているが別の話者と代わることで会話に参加している話者の組が途中で交替することがある。しかし、特許文献2または非特許文献1に記載の技術では、話者の組が交替しないことが前提となっている。そのため、特許文献2または非特許文献1に記載の技術は、音声信号の途中で会話に参加している話者の組が交替しても、話者の組が交替したことを検出できない。そのため、これらの技術では、話者の組の交替の前後で、2名以上の異なる話者の発話区間に対して、同じ話者を表すラベルが付されてしまうおそれがあった。そして2名以上の異なる話者の発話区間に同じ話者を表すラベルが付されていると、話者の心理状態の分析の際に、それら異なる話者の発話区間を一人の話者の発話区間として心理状態の分析が行われることになる。その結果、話者の心理状態を精度良く推定することが困難となる。
そこで本明細書は、一つの側面では、複数の話者の会話を録音した音声信号において、対話中の話者の組が交替したことを検出できる話者交替検出装置を提供することを目的とする。
一つの実施形態によれば、話者交替検出装置が提供される。この話者交替検出装置は、複数の話者の会話を含む音声信号から、所定の時間長を持つフレーム単位で人の声の特徴を表す特徴量を抽出する特徴量抽出部と、音声信号中の異なる複数の時点のそれぞれについて、その時点よりも前に第1の分析区間を設定し、かつ、その時点よりも後に第2の分析区間を設定する分析区間設定部と、複数の時点のそれぞれについて、第1の分析区間に含まれる複数のフレームの特徴量の分布に基づいて、第1の分析区間中に発話する少なくとも二人の話者の組の声の特徴を表す第1の話者モデルを生成し、かつ、第2の分析区間に含まれる複数のフレームの特徴量の分布に基づいて、第2の分析区間中に発話する少なくとも二人の話者の組の声の特徴を表す第2の話者モデルを生成するモデル化部と、複数の時点のそれぞれについて、第1の話者モデルに第2の分析区間に含まれる複数のフレームの特徴量を適用し、かつ、第2の話者モデルに第1の分析区間に含まれる複数のフレームの特徴量を適用して、第1の分析区間についての話者の組と第2の分析区間についての話者の組の特徴が類似している確度を表す照合スコアを算出する照合スコア算出部と、複数の時点のそれぞれについての照合スコアに応じて、音声信号中において前後で発話している話者の組が交替する話者交替点を検出する交替点検出部とを有する。
本発明の目的及び利点は、請求項において特に指摘されたエレメント及び組み合わせにより実現され、かつ達成される。
上記の一般的な記述及び下記の詳細な記述の何れも、例示的かつ説明的なものであり、請求項のように、本発明を限定するものではないことを理解されたい。
本明細書に開示された話者交替検出装置は、複数の話者の会話を録音した音声信号において、対話中の話者の組が交替したことを検出できる。
一つの実施形態による話者交替検出装置の概略構成図である。 話者交替検出装置が有する処理部の機能ブロック図である。 分析区間の一例を示す図である。 話者交替点を検出するための原理の説明図である。 照合スコアの遷移の一例を示す図である。 話者の組の交替が複数回行われる場合の照合スコアの遷移の一例を示す図である。 話者交替検出処理の動作フローチャートである。 何れかの分析区間において話者の組に含まれる何れかの話者がほとんど発話していない場合における、分析区間と話者の関係の一例を示す図である。 間引き率と照合スコアの関係を示す図である。 何れかの実施形態またはその変形例による話者交替検出装置が実装されたサーバクライアントシステムの概略構成図である。
以下、図を参照しつつ、話者交替検出装置について説明する。この話者交替検出装置は、複数の話者の会話が録音されたモノラルの音声信号をフレーム単位で分割し、各フレームから、人の声の特徴を表す特徴量を抽出する。この話者交替検出装置は、音声信号において、着目する時点の前後に設定する二つの分析区間のそれぞれごとに、その分析区間に含まれる特徴量の分布に基づいて、その分析区間において発話している話者の組の声の特徴を表す話者モデルを作成する。すなわち、この話者交替検出装置は、一つの話者モデルで複数の話者の声の特徴をモデル化する。そしてこの話者交替検出装置は、各分析区間の一方の話者モデルに、他方の分析区間の特徴量を入力して得られる照合スコアを算出する。この照合スコアは、二つの分析区間のそれぞれで会話している話者の組が同一であれば、相対的に高い値となる。一方、着目する時点において、話者の組に含まれる、少なくとも一人の話者が交替すると、照合スコアは相対的に低い値となる。そこでこの話者交替検出装置は、着目する時点を少しずつずらしながら、その時点ごとに照合スコアを算出する。そしてこの話者交替検出装置は、照合スコアが極小値となり、かつ、所定の検出閾値以下となったときの時点を、話者の組が交替した時点として検出する。
なお、以下では、話者の組に含まれる、少なくとも一人の話者の交替を、単に話者の組の交替と呼ぶ。例えば、話者'A'と話者'B'との会話から、話者'C'と話者'D'との会話に切り替わることだけでなく、話者'A'と話者'B'の何れか一方が話者'C'に切り替わることも、話者の組の交替に含まれる。また、音声信号中において、その前後で発話している話者の組が交替する時点を、便宜上、話者交替点と呼ぶ。なお、話者の組に含まれる話者の数は2名に限られず、3名以上であってもよい。
図1は、一つの実施形態による話者交替検出装置の概略構成図である。話者交替検出装置1は、インターフェース部11と、アナログ/デジタルコンバータ12と、処理部13と、記憶部14とを有する。
インターフェース部11は、音声入力部の一例であり、オーディオインターフェースを有する。そしてインターフェース部11は、例えば、電話回線に接続された通話録音アダプタ(図示せず)からの、アナログ信号であり、かつ、送話側の話者と受話側の話者との会話音声を含むモノラルの音声信号を取得する。そしてインターフェース部11は、その音声信号をアナログ/デジタルコンバータ12(以下、A/Dコンバータと表記する)へ出力する。A/Dコンバータ12は、アナログの音声信号を所定のサンプリングレートでサンプリングすることにより、その音声信号をデジタル化する。そしてA/Dコンバータ12は、デジタル化された音声信号を処理部13へ出力する。
処理部13は、例えば、一つまたは複数のプロセッサと、メモリ回路と、周辺回路とを有する。処理部13は、話者交替検出処理を実行することで、デジタル化された音声信号に基づいて、フレームごとに、そのフレームで発話している話者の識別情報を付与する。なお、処理部13による話者交替検出処理の詳細は後述する。
記憶部14は、例えば、読み書き可能な不揮発性の半導体メモリと、読み書き可能な揮発性の半導体メモリとを有する。そして記憶部14は、処理部13上で実行される話者交替検出処理の対象となる音声信号、話者交替検出処理で利用される各種のデータ及び話者交替検出処理の途中で生成される各種のデータを記憶する。また記憶部14は、処理部13が、話者交替検出処理を実行することにより得られる、話者の組が交替した時点を示す情報が付与された音声信号を記憶する。
以下、処理部13による、話者交替検出処理の詳細について説明する。
図2は、処理部13の機能ブロック図である。処理部13は、特徴量抽出部21と、分析区間設定部22と、モデル化部23と、照合スコア算出部24と、交替点検出部25とを有する。
処理部13が有するこれらの各部は、例えば、処理部13が有するプロセッサ上で動作するコンピュータプログラムにより実現される機能モジュールである。
特徴量抽出部21は、デジタル化された音声信号(以下では、単に音声信号と呼ぶ)を所定長を持つフレームごとに分割し、フレームごとに、人の声の特徴を表す少なくとも一つの特徴量を抽出する。本実施形態では、フレーム長は、例えば、32msecに設定される。この場合において、A/Dコンバータ12のサンプリングレートが8kHzであれば、1フレームあたり256個のサンプル点が含まれる。
本実施形態では、特徴量抽出部21は、人の声の特徴を表す特徴量として、話者の声道の共振特性を表すスペクトル包絡情報であるケプストラムを抽出する。例えば、特徴量抽出部21は、ケプストラムとして、パワースペクトルの各周波数の値についての対数を求め、それら対数を逆フーリエ変換したときの、低次の値を選択するFFTケプストラムを用いることができる。あるいは、特徴量抽出部21は、ケプストラムとして、線形予測分析によって得られる線形予測係数から求めるLPCケプストラムを用いることができる。あるいはまた、特徴量抽出部21は、ケプストラムとして、中心周波数をメルスケールで等間隔に配置した各フィルタバンクの出力の対数値に対して離散コサイン変換(Discrete Cosign Transform,DCT)することで算出されるMel Frequency Cepstral Coefficients(MFCC)を用いてもよい。なお、特徴量抽出部21は、算出したケプストラムのうち、所定の次数(例えば、1〜12次)の係数を、特徴量とすることができる。
特徴量抽出部21は、フレームごとの特徴量を記憶部14に保存する。
なお、特徴量抽出部21は、特徴量として、各フレームから、韻律情報である、パワーの積算値及びピッチ周波数を求めてもよい。あるいは、特徴量抽出部21は、音声信号をフレーム単位で時間周波数変換することにより得られた周波数領域のスペクトル信号に基づいて、自己相関関数を求めてもよい。あるいはまた、特徴量抽出部21は、フレームごとに、複数の特徴量を求めてもよい。
ここで、自己相関関数は、各周波数のパワースペクトルを逆フーリエ変換することにより求められる。なお、特徴量抽出部21は、時間周波数変換として、例えば、高速フーリエ変換(Fast Fourier Transform, FFT)を用いることができる。
また、ピッチ周波数を特徴量として利用する場合、特徴量抽出部21は、ピッチ周波数を算出するために、各フレームについて、自己相関関数または変形自己相関関数のピーク値のうちの最大値(ただし、時間差0のピーク値を除く)を求める。人の有声音に相当するフレームについては、比較的自己相関の最大値が大きいのに対し、無声音または背景雑音に相当するフレームの自己相関の最大値が小さいか、または明確なピークが現れない。そこで特徴量抽出部21は、そのピーク値の最大値を所定の閾値と比較し、最大値が所定の閾値よりも大きい場合、そのフレームには話者の有声音が含まれると判定する。そして特徴量抽出部21は、そのピーク値の最大値に相当する時間差の逆数をピッチ周波数とする。
さらに、特徴量抽出部21は、ピッチ周波数を所定値で割ることにより得られる正規化ピッチ周波数を特徴量としてもよい。同様に、特徴量抽出部21は、パワー積算値を所定値で割ることにより得られる正規化パワー積算値を特徴量としてもよい。また、特徴量抽出部21は、パワー積算値を、フレームに含まれる雑音成分を表す雑音判定閾値Thnと比較して、パワー積算値が雑音判定閾値Thnよりも大きいフレームについてのみ、特徴量の組を記憶部14に保存してもよい。これにより、処理部13は、どの話者も発声していない時のフレームから抽出された特徴量の組が、話者交替検出に影響することを防止できる。
なお、雑音判定閾値Thnは、通話音声の背景雑音レベルに応じて適応的に設定されることが好ましい。そこで特徴量抽出部21は、何れの話者も発声していないフレームを、背景雑音のみが含まれる無音フレームと判定する。例えば、特徴量抽出部21は、パワースペクトルの積算値が所定のパワー閾値未満であれば、そのフレームを無音フレームと判定する。そして特徴量抽出部21は、無音フレームのパワーの積算値に基づいて背景雑音レベルを推定する。例えば、特徴量抽出部21は、次式に従って背景雑音レベルを推定する。
ここで、Psは、最新の無音フレームのパワーの積算値であり、noisePは、更新前の背景雑音レベルである。そしてnoiseP'は、更新後の背景雑音レベルである。この場合、雑音判定閾値Thnは、例えば、次式に従って設定される。
ここで、γは、あらかじめ設定される定数であり、例えば、3〜10[dB]に設定される。
分析区間設定部22は、話者交替検出の対象となる音声信号の取得が終了すると、音声信号中に設定される話者交替点の候補ごとに、その候補の前後に、それぞれ、所定の時間長を持つ分析区間を設定する。分析区間設定部22は、話者交替点の候補を、例えば、音声信号の開始から分析区間の長さに相当する時間が経過した点から、音声信号の終点から分析区間の長さに相当する時間だけ前の時点まで順に、所定間隔ずつずらして設定する。所定間隔は、例えば、0.5秒〜5秒に設定される。
また、話者モデルを正確に求めるためには、分析区間は、ある程度以上の長さを持つことが好ましい。この点に関して、例えば、Reynolds他、「Robust Text-Independent Speaker Identification Using Gaussian Mixture Speaker Models」、IEEE Trans.、Speech and Audio Process.、vol.3、No.1、pp.72-83、1995年には、話者モデルの学習に用いた区間の長さを30秒、60秒、90秒としたときの話者識別性能が示されている。この文献によれば、話者モデルの学習に用いた区間の長さが60秒の場合の話者識別性能と90秒の場合の話者識別性能の差は、その区間の長さが30秒の場合の話者識別性能と60秒の場合の話者識別性能の差とよりも大幅に小さくなる。そしてその区間の長さが60秒以上であれば、話者を正確に認識できる率が90%以上となる。そこで、分析区間の長さは60秒以上とすることが好ましい。
図3は、分析区間の一例を示す図である。図3において、横軸は時間を表す。また縦軸は、音声信号の振幅を表す。図3に示されるように、分析区間設定部22は、音声信号300に対して、二つの分析区間301と302間の境界が話者交替点の候補303となるように各分析区間を設定する。なお、二つの分析区間は隣接していなくてもよい。例えば、分析区間設定部22は、二つの分析区間の間に所定時間長(例えば、0.1秒〜1秒)のインターバル区間を設け、そのインターバル区間の中点が話者交替点の候補となるように、二つの分析区間を設定してもよい。
モデル化部23は、話者交替点の候補ごとに、その候補について設定された二つの分析区間のそれぞれについて、その分析区間に含まれる各フレームの特徴量の分布を、複数の確率分布を含む混合分布でモデル化する。この混合分布は、その分析区間において発話した話者の組に含まれる各話者の声の特徴を表す話者モデルに相当する。なお、以下の説明において、一つのフレームから複数の特徴量が抽出されている場合は、特に断りが無い限り、「特徴量」とは、一つのフレームから抽出される複数の特徴量を含む、特徴量の組を意味する。
話者ごとに、声の特徴は異なるので、同じ話者が発話したフレームから抽出された特徴量は、比較的類似した値を持つと推定される。そこで本実施形態では、モデル化部23は、着目する分析区間について、その分析区間に含まれる各フレームの特徴量を、k-means法あるいは最短距離法といったクラスタリング手法を用いて複数のクラスタの何れかに分類する。そしてモデル化部23は、クラスタごとに、そのクラスタに含まれる特徴量の平均値ベクトル及び共分散行列を求めることで、クラスタごとにガウス分布を求める。そしてモデル化部23は、得られた各ガウス分布を含むガウス混合分布を話者モデルとする。この場合、話者モデルは次式で表される。
ここでwi(i=1,2,...,n)は、それぞれ、ガウス分布iに対する重み係数である。重み係数wiは、例えば、分析区間に含まれる、特徴量が抽出されたフレームの総数に対する、そのガウス分布iに対応するクラスタに含まれる、特徴量が抽出されたフレームの数の比である。またμiは、ガウス分布iの特徴量の平均値ベクトルである。そしてΣiは、ガウス分布iの共分散行列である。
あるいは、モデル化部23は、分析区間に含まれる各フレームの特徴量をそれぞれ学習サンプルとして、混合分布に含まれる各ガウス分布を表す複数のパラメータ(重み係数wi、平均値ベクトルμi及び共分散行列Σi)を最尤推定してもよい。その際、モデル化部23は、最尤推定法として、例えば、EMアルゴリズム(期待値最大化法とも呼ばれる)を利用することができる。また、モデル化部23は、EMアルゴリズムの代わりに、マルコフ連鎖モンテカルロ法またはシミュレーティッドアニーリングを利用して、混合分布に含まれる各ガウス分布を表す複数のパラメータを求めてもよい。
あるいはまた、モデル化部23は、最大事後確率推定(Maximum A Posteriori, MAP)推定を利用して、各分析区間の話者モデルを求めてもよい。この場合には、モデル化部23は、先ず、音声信号全体から、各フレームの特徴量に対してEMアルゴリズムを適用することで、混合分布を作成する。この混合分布を、以下では、Whole Model(WM)と呼ぶ。そしてモデル化部23は、例えば、音声信号中に設定される最初の話者交替点の候補に対する、その候補よりも前の分析区間を先頭の分析区間とする。そしてモデル化部23は、先頭の分析区間内の各フレームの特徴量に基づいて、混合分布に含まれる各ガウス分布の重み係数、平均値及び共分散行列を更新することで、その分析区間の混合分布を求める。同様に、モデル化部23は、話者交替点の候補間の間隔だけ、先頭の分析区間を後方へずらした分析区間を次の分析区間とする。そしてモデル化部23は、次の分析区間内の各フレームの特徴量に基づいて、先頭の分析区間の混合分布に含まれる各ガウス分布の重み係数、平均値及び共分散行列を更新する。モデル化部23は、同様の処理を繰り返すことで、各分析区間についての混合分布を求めることができる。この方法によれば、モデル化部23は、話者交替の候補ごとにクラスタリング処理を行う必要がないので、各分析区間の混合分布を求めるための演算量を削減できる。なお、MAP推定による話者モデルの生成の詳細については、例えば、Reynolds他、「Speaker Verification Using Gaussian Mixture Models」、Digital Signal Processing、Vol.10、Nos.1-3、pp.19-41を参照されたい。
モデル化部23は、話者交替点の候補ごとに、その候補について設定された二つの分析区間のそれぞれについての話者モデルを表すパラメータを、照合スコア算出部24へ渡す。
照合スコア算出部24は、話者交替点の候補ごとに、話者の組の特徴が類似している確度を表す照合スコアを算出する。
図4は、話者交替点を検出するための原理の説明図である。図4において、横軸は時間を表し、縦軸は音声信号の振幅を表す。そして音声信号400の下に示された記号'A'〜'D'は、その記号が示された時点で発話している話者を表す。
話者交替点の候補401について設定された二つの分析区間402及び403では、話者'A'と話者'B'が発話している。そのため、分析区間402について話者モデルとして求められた混合分布θXと分析区間403について話者モデルとして求められた混合分布θYとの差は相対的に小さい。ここで、分析区間402に含まれる各フレームから抽出された特徴量を要素とするベクトルを特徴量ベクトルXとする。特徴量ベクトルXを分析区間403について求められた混合分布θYに入力して得られる尤度P(X|θY)は、特徴量ベクトルXを混合分布θXに入力して得られる尤度P(X|θX)に比較的近い値となる。同様に、分析区間403に含まれる各フレームから抽出された特徴量を要素とするベクトルを特徴量ベクトルYとする。そして特徴量ベクトルYを分析区間402について求められた混合分布θXに入力して得られる尤度P(Y|θX)も、特徴量ベクトルYを混合分布θYに入力して得られる尤度P(Y|θY)に比較的近い値となる。
一方、話者交替点の候補411よりも前に設定された分析区間403と、話者交替点の候補411よりも後に設定された分析区間404では、発話している話者の組が異なっている。すなわち、分析区間403では、話者'A'と話者'B'が発話しているのに対して、分析区間404では、話者'C'と話者'D'が発話している。そのため、分析区間404について話者モデルとして求められた混合分布θZと、分析区間403について話者モデルとして求められた混合分布θYとの差は相対的に大きい。したがって、分析区間403に含まれる各フレームから抽出された特徴量ベクトルYを分析区間404について求められた混合分布θZに入力して得られる尤度P(Y|θZ)は、尤度P(Y|θY)よりも小さい可能性が高い。同様に、分析区間404に含まれる各フレームから抽出された特徴量ベクトルZを分析区間403について求められた混合分布θYに入力して得られる尤度P(Z|θY)も、尤度P(Z|θZ)より小さい可能性が高い。
このように、話者交替点の候補の前(過去)と後(未来)に設定される二つの分析区間の一方から得られる特徴量ベクトルを、他方の混合分布に入力することで求められる尤度の値は、その二つの分析区間に含まれる話者の組が同一か否かに応じて大きく変化する。そこで、照合スコア算出部24は、話者他交替点の候補のそれぞれについて、前側の分析区間の話者モデルに後側の分析区間の特徴量ベクトルを適用し、後側の分析区間の話者モデルに前側の分析区間の特徴量ベクトルを適用することで照合スコアを算出する。例えば、照合スコア算出部24は、次式に従って、二つの分析区間の話者モデル間のクロスエントロピーを照合スコアとして算出する。
ここで、nは、着目する話者交替点の候補のインデックスを表す。またベクトルXnは、着目する話者交替点の候補よりも前の分析区間から抽出された各フレームの特徴量を時系列に並べた特徴量ベクトルである。同様に、ベクトルYnは、着目する話者交替点の候補nよりも後の分析区間から抽出された各フレームの特徴量を時系列に並べた特徴量ベクトルである。またθXnは、着目する話者交替点の候補よりも前の分析区間について求められた話者モデルである。同様に、またθYnは、着目する話者交替点の候補よりも後の分析区間について求められた話者モデルである。そしてP(a|b)は、話者モデルbに特徴量ベクトルaを入力して求められる尤度である。尤度P(a|b)は、特徴量ベクトルaに含まれる各特徴量を、話者モデルである混合分布に入力して得られる確率の積として算出される。
あるいは、照合スコア算出部24は、MAP推定により各分析区間の話者モデルを生成する場合には、(4)式の代わりに、次式に従って、各話者交替点の候補についての照合スコアを算出してもよい。
ここで、θALLは、音声信号全体を分析区間として求められた話者モデルである、WMである。また、θALLとして、話者認識の分野で用いられる大量話者の音声から学習した不特定話者モデル”Universal Back ground Model(UBM)”が用いられてもよい。そしてP(XnALL)及びP(YnALL)は、それぞれ、着目する話者交替点の候補よりも前の分析区間から抽出された特徴量ベクトルXn、着目する話者交替点の候補よりも後の分析区間から抽出された特徴量ベクトルYnを話者モデルθALLに入力して得られる尤度である。なお、照合スコア算出部24は、(4)式または(5)式において、log関数を用いず、尤度の比をそのまま照合スコアとしてもよい。
照合スコア算出部24は、話者交替点の候補ごとの照合スコアを記憶部14に記憶する。
交替点検出部25は、話者交替点の候補ごとの照合スコアに基づいて、音声信号中において、その前後で発話している話者の組が交替する時点である話者交替点を検出する。
図5は、照合スコアの遷移の一例を示す図である。図5において横軸は時間を表し、縦軸は照合スコアを表す。そしてグラフ500は、照合スコアの遷移を表す。この例では、時刻t0よりも前では、話者'A'と話者'B'が発話しているのに対して、時刻t0以降では、話者'C'と話者'D'が発話している。すなわち、時刻t0において、話者の組が交替している。
グラフ500に示されるように、照合スコアは、時刻t0において最小値となる。これは、図4に関して説明したように、話者交替点では、照合スコアの算出式における、尤度P(XnYn)及び尤度P(YnXn)が相対的に小さくなるためである。
そこで、交替点検出部25は、話者交替点の候補ごとの照合スコアのうちの最小値が、所定の検出閾値以下か否かを判定する。そして照合スコアの最小値が検出閾値以下である場合、交替点検出部25は、その最小値に対応する話者交替点の候補を、話者交替点とする。なお、検出閾値は、例えば、-4〜-5に設定される。
なお、一つの音声信号において、複数回、話者の組が交替することもある。
図6は、話者の組の交替が複数回行われる場合の照合スコアの遷移の一例を示す図である。図6において、横軸は時間を表し、縦軸は照合スコアを表す。この例では、時刻t1以前の区間601では、話者'A'と話者'B'が発話している。また、時刻t1と時刻t2の間の区間602では、話者'C'と話者'D'が発話している。そして時刻t2以降の区間603では、話者'E'と話者'F'が発話している。照合スコアの遷移610に示されるように、照合スコアは、時刻t1と時刻t2において極小値を持つ。
そこで交替点検出部25は、上記の処理により最初に検出された話者交替点の前後の所定期間(例えば、話者交替点の前後1分間)を除いた期間での照合スコアの最小値を求めてもよい。そして交替点検出部25は、その最小値が検出閾値以下である場合、その最小値に対応する話者交替点の候補も、話者交替点としてもよい。交替点検出部25は、検出された話者交替点の前後の所定期間を除いた期間内での照合スコアの最小値が検出閾値よりも高くなるまで、上記の処理を繰り返すことで、複数の話者交替点を検出できる。例えば、図6の例では、照合スコアの極小値のうち、その極小値が照合スコアの最小値である時刻t1が最初に話者交替点として検出され、時刻t1の前後に、照合スコアの極小値を検出しない区間621が設定される。そして区間621以外で、照合スコアが最小値となる時刻t2が話者交替点として検出される。
処理部13は、話者交替検出の結果を利用して、音声信号から、その音声信号に録音された会話に参加している何れかの話者の心理状態を推定してもよい。この場合、処理部13は、同一の話者の組が会話している区間ごとに、例えば、上記の特許文献2または非特許文献1に開示されている話者インデキシング技術を適用して、話者ごとの発話区間を特定する。あるいは、処理部13は、同一の話者の組が会話している区間のうちの最も長い区間、あるいは、同一の話者の組が会話している区間のうちの最後の区間についてのみ、話者ごとの発話区間を特定してもよい。そして処理部13は、特定の一人の話者が発声した音声が含まれる音声信号を分析してその話者の心理状態を推定する様々な技術を利用して、何れかの話者の心理状態が正常でない、異常会話か否かを判定できる。あるいは、処理部13は、特定の一人の話者が発声した音声が含まれる音声信号を分析してその話者の心理状態を推定する様々な技術を利用して、特定内容の通話か否かを判定できる。そのような話者の心理状態を推定する技術として、処理部13は、例えば、特開2013−156524号公報に開示された技術を利用できる。
図7は、本実施形態による、話者交替検出処理の動作フローチャートである。
特徴量抽出部21は、複数の話者の会話音声が含まれる音声信号をフレーム単位に分割し、フレームごとに、話者の声の特徴を表す特徴量を抽出する(ステップS101)。そして特徴量抽出部21は、各フレームの特徴量を記憶部14に記憶する。
各フレームから特徴量が得られると、分析区間設定部22は、音声信号の開始時点から分析区間長だけ経過した時点を最初の話者交替点の候補に設定する(ステップS102)。そして分析区間設定部22は、話者交替点の前後に分析区間を設定する(ステップS103)。モデル化部23は、各分析区間について、その分析区間に含まれる各フレームの特徴量を記憶部14から読み込み、その各フレームの特徴量の分布を混合分布でモデル化することで、話者モデルを生成する(ステップS104)。そしてモデル化部23は、話者モデルを表すパラメータを照合スコア算出部24へ渡す。照合スコア算出部24は、各分析区間に含まれる各フレームの特徴量を記憶部14から読み込む。そして照合スコア算出部24は、一方の分析区間の話者モデルに他方の分析区間の各フレームの特徴量を適用し、さらに同一の分析区間の話者モデルに各フレームの特徴量を適用することで照合スコアを算出する(ステップS105)。照合スコア算出部24は、話者交替点の候補とともに、照合スコアを記憶部14に記憶する。
処理部13は、話者交替点の候補が、音声信号の終了時点より分析区間長だけ前の時点に達しているか否か、すなわち、話者交替点の候補が最後の候補か否か判定する(ステップS106)。話者交替点の候補が最後の候補でなければ(ステップS106−No)、分析区間設定部22は、話者交替点の候補を所定間隔だけ後側へずらした時点を次の話者交替点の候補に設定する(ステップS107)。その後、処理部13の各部は、ステップS103以降の処理を実行する。
一方、話者交替点の候補が最後の候補であれば(ステップS106−Yes)、交替点検出部25は、各話者交替点の候補のうち、照合スコアが極小値となり、かつ、検出閾値以下となる話者交替点の候補を話者交替点として検出する(ステップS108)。そして処理部13は、話者交替検出処理を終了する。
以上に説明してきたように、この話者交替検出装置は、話者交替点の候補の前後の分析区間のそれぞれについて求めた話者モデルに、他方の分析区間から抽出された特徴量ベクトルを入力することで得られる尤度に基づいて、各候補の照合スコアを算出する。この照合スコアは、話者の組に含まれる話者の数にかかわらず、二つの分析区間のそれぞれにおいて発話している話者の組が異なる場合、話者の組が同一である場合よりも低くなる。そのため、この話者交替検出装置は、照合スコアに基づいて、音声信号中においてその前後で話者の組が交替する時点を正確に検出できる。さらに、この話者交替検出装置は、話者モデルの導出に、話者の数を利用しないので、事前に話者の数が分からない場合でも、話者の組が交替する時点を正確に検出できる。
なお、話者の組の交替が生じていなくても、その話者の組に含まれる何れかの話者が、分析区間においてほとんど発話していない場合がある。
図8は、何れかの分析区間において話者の組に含まれる何れかの話者がほとんど発話していない場合における、分析区間と話者の関係の一例を示す図である。図8において、横軸は時間を表し、縦軸は音声信号の振幅を表す。そして音声信号800の下に示された記号'A'及び'B'は、それぞれ、その時点で発話している話者を表す。
この例では、話者交替点の候補801の前に設定される分析区間802では、話者'B'はほとんど発話していない。一方、話者交替点の候補801の後に設定される分析区間803では、話者'A'は発話していない。そのため、分析区間802では、話者'B'の声の特徴が反映されずに話者モデルθXが生成される。同様に、分析区間803では、話者'A'の声の特徴が反映されずに話者モデルθYが生成される。そのため、分析区間802の話者モデルθXに、分析区間803から抽出される特徴量ベクトルYを入力して求められる尤度P(Y|θX)は、話者モデルθXに、分析区間802から抽出される特徴量ベクトルXを入力して求められる尤度P(X|θX)よりも大きく低下する。同様に、尤度P(X|θY)は、尤度P(Y|θY)よりも大きく低下する。そのため、話者交替点の候補801における照合スコアは小さな値となり、話者交替点と判断されるおそれがある。
しかし、分析区間803を時間的に後の方へ延長すると、その延長された分析区間804には、話者'B'だけでなく、話者'A'が発話している区間も含まれるようになる。そのため、延長された分析区間804について生成された話者モデルθ'Yには、話者'A'の声の特徴も含まれる。そのため、話者モデルθ'Yに、分析区間802から抽出される特徴量ベクトルXを入力して求められる尤度P(X|θ'Y)は、尤度P(X|θY)よりも高くなる。また、延長された分析区間804から抽出される特徴量ベクトルY'にも、話者'A'の声についての特徴量も含まれるので、尤度P(Y'|θX)は、尤度P(Y|θX)よりも高くなる。その結果として、分析区間802と分析区間804から求められる話者交替点の候補801についての照合スコアは、分析区間802と分析区間803から求められる照合スコアよりも高くなる。
そこで変形例によれば、交替点検出部25が話者交替点であると判定した話者交替点の候補について、分析区間設定部22は、少なくとも一方の分析区間を、その話者交替点の候補と反対側へ延長する。そしてモデル化部23は、延長された分析区間に含まれる各フレームの特徴量を記憶部14から読み込み、その特徴量に基づいて話者モデルを再生成することで、話者モデルを更新する。そして照合スコア算出部24は、その話者交替点の候補について、更新された話者モデルと、延長された分析区間から抽出された特徴量ベクトルを用いて照合スコアを再計算することで、照合スコアを更新する。そして交替点検出部25は、更新された照合スコアが検出閾値以下となる場合、改めてその話者交替点の候補を話者交替点として検出する。一方、更新された照合スコアが検出閾値よりも高くなる場合、交替点検出部25は、その話者交替点の候補は、話者交替点でないと判定する。
この変形例によれば、ある特定の区間で何れかの話者がほとんど発話していない場合でも、話者交替検出装置は、話者の組の交替を誤検出することを抑制できる。
また他の変形例によれば、モデル化部23は、各分析区間の話者モデルとして、特徴量のベクトル量子化のコードブックを利用してもよい。この場合には、話者モデルには、例えば、分析区間に含まれる各フレームの特徴量をクラスタリングすることで得られたクラスタごとの特徴量の平均値が含まれる。
この場合、照合スコア算出部24は、次式に従って、話者交替点の候補ごとの照合スコアを算出する。
ここで、nは、着目する話者交替点の候補のインデックスを表す。またベクトルXnは、着目する話者交替点の候補よりも前の分析区間から抽出された各フレームの特徴量を時系列に並べた特徴量ベクトルである。同様に、ベクトルYnは、着目する話者交替点の候補よりも後の分析区間から抽出された各フレームの特徴量を時系列に並べた特徴量ベクトルである。またθXnは、着目する話者交替点の候補よりも前の分析区間についてコードブックとして求められた話者モデルである。同様に、またθYnは、着目する話者交替点の候補よりも後の分析区間についてコードブックとして求められた話者モデルである。そしてD(a|b)は、話者モデルであるコードブックbに対する特徴量ベクトルaの平均量子化歪である。平均量子化歪D(a|b)は、例えば、特徴量ベクトルaに含まれる各特徴量から、話者モデルであるコードブックに含まれる各クラスタの特徴量の平均値のうちの最も近いものまでの距離の平均値として算出される。
あるいは、照合スコア算出部24は、(6)式の代わりに、次式に従って、話者交替点の候補ごとの照合スコアを算出してもよい。
ここで、θALLは、音声信号全体を含む分析区間についてのコードブックとして求められた話者モデルである。そしてD(XnALL)及びD(YnALL)は、それぞれ、話者モデルθALLに対する、着目する話者交替点の候補よりも前の分析区間から抽出された特徴量ベクトルXn、着目する話者交替点の候補よりも後の分析区間から抽出された特徴量ベクトルYnの平均量子化歪である。なお、照合スコア算出部24は、(7)式または(8)式で得られた照合スコアを正規化して得られる値を、照合スコアとして算出してもよい。
この変形例によれば、話者交替検出装置は、話者モデルの生成及び照合スコアの算出に要する演算量を削減できる。
さらに他の変形例によれば、モデル化部23は、分析区間のフレームを所定の間引き率で間引き、残ったフレームから抽出された特徴量を話者モデルの生成に利用してもよい。また、照合スコア算出部24は、各分析区間について、間引きの結果として残ったフレームの特徴量を特徴量ベクトルとして、照合スコアの算出に利用してもよい。この場合、照合スコア算出部24は、話者モデルの生成に利用したフレームの特徴量を照合スコアの算出に利用してもよい。あるいは、照合スコア算出部24は、話者モデルの生成の際に利用されたフレームとは異なるフレームから抽出された特徴量を話者モデルに適用する特徴量として、照合スコアを算出してもよい。またこの変形例において、特徴量抽出部21は、話者モデルの生成または照合スコアの算出に利用するフレームについてのみ、特徴量を抽出してもよい。
図9は、間引き率と照合スコアの関係を示す図である。図9において、横軸は時間を表し、縦軸は照合スコアを表す。この例では、時刻t1と時刻t2が話者交替点である。グラフ900は、フレームを間引かない場合の照合スコアを表す。またグラフ901は、間引き率が1/2の場合、すなわち、二つのフレームごとに一つのフレームの特徴量が話者モデルの生成及び照合スコアの算出に利用される場合の照合スコアを表す。さらに、グラフ902は、間引き率が1/4の場合、すなわち、4個のフレームごとに一つのフレームの特徴量が話者モデルの生成及び照合スコアの算出に利用される場合の照合スコアを表す。そしてグラフ903は、間引き率が1/8の場合、すなわち、8個のフレームごとに一つのフレームの特徴量が話者モデルの生成及び照合スコアの算出に利用される場合の照合スコアを表す。なお、この例では、(4)式に従って照合スコアは算出されている。
グラフ900〜グラフ903に示されるように、間引かれても、話者交替点にて照合スコアは極小値を取ることが分かる。ただし、フレームが間引かれるほど、全体的に照合スコアは小さくなる。これは、フレームが間引かれるほど、話者モデルの精度が低下すること、及び、分析区間内に含まれる、代表的でない特徴量が話者モデルを表す混合分布に入力されることで求められる確率の照合スコアへの影響が相対的に大きくなるためである。
図9に示されるように、フレームが間引かれるほど照合スコアは低下する。そこで、交替点検出部25が話者の組の交替が行われたか否かの判定に利用する検出閾値も、フレームが間引かれるほど小さな値に設定される。例えば、検出閾値Thmは、次式に従って決定される。
ここで、mは、間引きにより一つのフレームが代表するフレームの数に相当するステップ数、すなわち、間引き率の逆数である。またTh1は、フレームが間引かれない場合(m=1)における検出閾値である。aは正の値を持つ係数である。そしてThmは、間引き率が(1/m)のときの検出閾値である。
この変形例によれば、話者交替検出装置は、話者モデルの生成及び照合スコアの算出に要する演算量を削減できる。なお、話者交替検出装置は、話者モデルの際にはフレームを間引かず、照合スコアの算出の際に、分析区間内のフレームを間引いてもよい。この場合には、交替点検出部25は、ステップ数が1のときの検出閾値を用いればよい。
また上記の実施形態または変形例による話者交替検出装置は、サーバクライアント型のシステムに実装されてもよい。
図10は、上記の実施形態またはその変形例による話者交替検出装置が実装されたサーバクライアントシステムの概略構成図である。
サーバクライアントシステム100は、端末110とサーバ120とを有し、端末110とサーバ120とは、通信ネットワーク130を介して互いに通信可能となっている。なお、サーバクライアントシステム100が有する端末110は複数存在してもよい。同様に、サーバクライアントシステム100が有するサーバ120は複数存在してもよい。
端末110は、音声入力部111と、記憶部112と、通信部113と、制御部114とを有する。音声入力部111、記憶部112及び通信部113は、例えば、制御部114とバスを介して接続されている。
音声入力部111は、例えば、オーディオインターフェースとA/Dコンバータを有する。そして音声入力部111は、例えば、電話回線から、会話を含む、アナログ信号である音声信号を取得し、その音声信号を所定のサンプリングレートでサンプリングすることにより、その音声信号をデジタル化する。そして音声入力部111は、デジタル化された音声信号を制御部114へ出力する。
記憶部112は、例えば、不揮発性の半導体メモリ及び揮発性の半導体メモリを有する。そして記憶部112は、端末110を制御するためのコンピュータプログラム、端末110の識別情報、話者交替検出処理で利用される各種のデータ及びコンピュータプログラムなどを記憶する。
通信部113は、端末110を通信ネットワーク130に接続するためのインターフェース回路を有する。そして通信部113は、制御部114から受け取った各フレームの特徴量を、端末110の識別情報とともに通信ネットワーク130を介してサーバ120へ送信する。
制御部114は、一つまたは複数のプロセッサとその周辺回路を有する。そして制御部114は、上記の実施形態または変形例による処理部の各機能のうち、特徴量抽出部21の機能を実現する。すなわち、制御部114は、音声信号をフレーム単位に分割し、各フレームから話者の声の特徴を表す特徴量を抽出する。そして制御部114は、フレームごとの特徴量を、端末110の識別情報とともに、通信部113及び通信ネットワーク130を介してサーバ120へ送信する。
サーバ120は、通信部121と、記憶部122と、処理部123とを有する。通信部121及び記憶部122は、処理部123とバスを介して接続されている。
通信部121は、サーバ120を通信ネットワーク130に接続するためのインターフェース回路を有する。そして通信部121は、フレームごとの特徴量と端末110の識別情報とを端末110から通信ネットワーク130を介して受信して処理部123に渡す。
記憶部122は、例えば、不揮発性の半導体メモリ及び揮発性の半導体メモリを有する。そして記憶部122は、サーバ120を制御するためのコンピュータプログラムなどを記憶する。また記憶部122は、話者交替検出処理を実行するためのコンピュータプログラム及び各端末から受信したフレームごとの特徴量を記憶していてもよい。
処理部123は、一つまたは複数のプロセッサとその周辺回路を有する。そして処理部123は、上記の実施形態または変形例による話者交替検出装置の処理部の各機能のうち、特徴量抽出部21以外の各部の機能を実現する。すなわち、処理部123は、端末110から受信した、フレームごとの特徴量から、音声信号中の話者交替点を検出する。さらに、処理部123は、同一の話者の組が会話している区間に話者インデキシング技術を適用して、各フレームに話者の識別情報を付与してもよい。そして処理部123は、例えば、フレームごとに付された話者の識別情報を利用して、特定の話者が発話したフレームを抽出する。そして処理部123は、その話者の心理状態を、抽出したフレームから、音声信号から話者の心理状態を推定する方法に基づいてその特定の話者の心理状態を推定してもよい。処理部123は、例えば、特定の話者の心理状態が異常である場合、振り込め詐欺誘引通話などの異常会話が行われていると判定し、端末110の識別情報とともに異常会話が行われていることを、通信部121を介して警備システム(図示せず)へ通報してもよい。これにより、警備システムの運用者は、端末110のユーザをサポートすることができる。
この実施形態によれば、個々の端末110は、会話を録音した音声信号からフレームごとの特徴量を抽出してサーバ120へ送信するだけでよい。
なお、端末110は、音声信号そのものをサーバ120へ送信してもよい。この場合には、サーバ120の処理部123が、上記の実施形態または変形例による話者交替検出装置の処理部の各機能を実現する。
上記の各実施形態または変形例による話者交替検出装置の処理部が有する各機能をコンピュータに実現させるコンピュータプログラムは、磁気記録媒体または光記録媒体といったコンピュータによって読み取り可能な媒体に記録された形で提供されてもよい。
ここに挙げられた全ての例及び特定の用語は、読者が、本発明及び当該技術の促進に対する本発明者により寄与された概念を理解することを助ける、教示的な目的において意図されたものであり、本発明の優位性及び劣等性を示すことに関する、本明細書の如何なる例の構成、そのような特定の挙げられた例及び条件に限定しないように解釈されるべきものである。本発明の実施形態は詳細に説明されているが、本発明の精神及び範囲から外れることなく、様々な変更、置換及び修正をこれに加えることが可能であることを理解されたい。
1 話者交替検出装置
11 インターフェース部
12 A/Dコンバータ
13 処理部
14 記憶部
21 特徴量抽出部
22 分析区間設定部
23 モデル化部
24 照合スコア算出部
25 交替点検出部
100 サーバクライアントシステム
110 端末
111 音声入力部
112 記憶部
113 通信部
114 制御部
120 サーバ
121 通信部
122 記憶部
123 処理部
130 通信ネットワーク

Claims (5)

  1. 複数の話者の会話を含む音声信号から、所定の時間長を持つフレーム単位で人の声の特徴を表す特徴量を抽出する特徴量抽出部と、
    前記音声信号中の異なる複数の時点のそれぞれについて、当該時点よりも前に第1の分析区間を設定し、かつ、当該時点よりも後に第2の分析区間を設定する分析区間設定部と、
    前記複数の時点のそれぞれについて、前記第1の分析区間に含まれる複数のフレームの前記特徴量の分布に基づいて、前記第1の分析区間中に発話する少なくとも二人の話者の組の声の特徴を表す第1の話者モデルを生成し、かつ、前記第2の分析区間に含まれる複数のフレームの前記特徴量の分布に基づいて、前記第2の分析区間中に発話する少なくとも二人の話者の組の声の特徴を表す第2の話者モデルを生成するモデル化部と、
    前記複数の時点のそれぞれについて、前記第1の話者モデルに前記第2の分析区間に含まれる複数のフレームの前記特徴量を適用し、かつ、前記第2の話者モデルに前記第1の分析区間に含まれる複数のフレームの前記特徴量を適用して、前記第1の分析区間についての前記話者の組と前記第2の分析区間についての前記話者の組の特徴が類似している確度を表す照合スコアを算出する照合スコア算出部と、
    前記複数の時点のそれぞれについての前記照合スコアに応じて、前記音声信号中において前後で発話している話者の組が交替する話者交替点を検出する交替点検出部と、
    を有する話者交替検出装置。
  2. 前記交替点検出部は、前記複数の時点のそれぞれについての前記照合スコアのうち、前記照合スコアの時間変化においての極小値が所定の検出閾値以下となる場合、当該極小値に対応する時点を前記話者交替点とする、請求項1に記載の話者交替検出装置。
  3. 前記複数の時点のそれぞれについての前記照合スコアのうち、前記照合スコアの時間変化においての極小値が所定の検出閾値以下となる場合、前記分析区間設定部は、前記極小値に対応する第1の時点についての前記第1の分析区間及び前記第2の分析区間のうちの少なくとも一方を、前記第1の時点から離れる方向へ延長し、
    前記モデル化部は、前記第1の時点についての前記第1の分析区間及び前記第2の分析区間のうちの延長された分析区間に含まれる複数のフレームの前記特徴量の分布に基づいて、前記第1の話者モデル及び前記第2の話者モデルのうち、当該延長された分析区間に対応する話者モデルを更新し、
    前記照合スコア算出部は、前記第1の時点についての前記第1の分析区間及び前記第2の分析区間のうちの前記延長された分析区間に含まれる複数のフレームの前記特徴量を、前記第1の分析区間及び前記第2の分析区間のうちの他方の分析区間についての前記話者モデルに適用し、かつ、前記他方の分析区間に含まれる複数のフレームの前記特徴量を、前記更新された話者モデルに適用することで前記照合スコアを更新し、
    前記交替点検出部は、前記更新された照合スコアが前記所定の検出閾値以下となる場合、前記第1の時点を前記話者交替点とする、請求項1に記載の話者交替検出装置。
  4. 複数の話者の会話を含む音声信号から、所定の時間長を持つフレーム単位で人の声の特徴を表す特徴量を抽出し、
    前記音声信号中の異なる複数の時点のそれぞれについて、当該時点よりも前に第1の分析区間を設定し、かつ、当該時点よりも後に第2の分析区間を設定し、
    前記複数の時点のそれぞれについて、前記第1の分析区間に含まれる複数のフレームの前記特徴量の分布に基づいて、前記第1の分析区間中に発話する少なくとも二人の話者の組の声の特徴を表す第1の話者モデルを生成し、かつ、前記第2の分析区間に含まれる複数のフレームの前記特徴量の分布に基づいて、前記第2の分析区間中に発話する少なくとも二人の話者の組の声の特徴を表す第2の話者モデルを生成し、
    前記複数の時点のそれぞれについて、前記第1の話者モデルに前記第2の分析区間に含まれる複数のフレームの前記特徴量を適用し、かつ、前記第2の話者モデルに前記第1の分析区間に含まれる複数のフレームの前記特徴量を適用して、前記第1の分析区間についての前記話者の組と前記第2の分析区間についての前記話者の組の特徴が類似している確度を表す照合スコアを算出し、
    前記複数の時点のそれぞれについての前記照合スコアに応じて、前記音声信号中において前後で発話している話者の組が交替する話者交替点を検出する、
    ことを含む話者交替検出方法。
  5. 複数の話者の会話を含む音声信号から、所定の時間長を持つフレーム単位で人の声の特徴を表す特徴量を抽出し、
    前記音声信号中の異なる複数の時点のそれぞれについて、当該時点よりも前に第1の分析区間を設定し、かつ、当該時点よりも後に第2の分析区間を設定し、
    前記複数の時点のそれぞれについて、前記第1の分析区間に含まれる複数のフレームの前記特徴量の分布に基づいて、前記第1の分析区間中に発話する少なくとも二人の話者の組の声の特徴を表す第1の話者モデルを生成し、かつ、前記第2の分析区間に含まれる複数のフレームの前記特徴量の分布に基づいて、前記第2の分析区間中に発話する少なくとも二人の話者の組の声の特徴を表す第2の話者モデルを生成し、
    前記複数の時点のそれぞれについて、前記第1の話者モデルに前記第2の分析区間に含まれる複数のフレームの前記特徴量を適用し、かつ、前記第2の話者モデルに前記第1の分析区間に含まれる複数のフレームの前記特徴量を適用して、前記第1の分析区間についての前記話者の組と前記第2の分析区間についての前記話者の組の特徴が類似している確度を表す照合スコアを算出し、
    前記複数の時点のそれぞれについての前記照合スコアに応じて、前記音声信号中において前後で発話している話者の組が交替する話者交替点を検出する、
    ことをコンピュータに実行させるための話者交替検出用コンピュータプログラム。
JP2014213149A 2014-10-17 2014-10-17 話者交替検出装置、話者交替検出方法及び話者交替検出用コンピュータプログラム Active JP6303971B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2014213149A JP6303971B2 (ja) 2014-10-17 2014-10-17 話者交替検出装置、話者交替検出方法及び話者交替検出用コンピュータプログラム
US14/875,092 US9536547B2 (en) 2014-10-17 2015-10-05 Speaker change detection device and speaker change detection method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014213149A JP6303971B2 (ja) 2014-10-17 2014-10-17 話者交替検出装置、話者交替検出方法及び話者交替検出用コンピュータプログラム

Publications (2)

Publication Number Publication Date
JP2016080916A JP2016080916A (ja) 2016-05-16
JP6303971B2 true JP6303971B2 (ja) 2018-04-04

Family

ID=55749543

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014213149A Active JP6303971B2 (ja) 2014-10-17 2014-10-17 話者交替検出装置、話者交替検出方法及び話者交替検出用コンピュータプログラム

Country Status (2)

Country Link
US (1) US9536547B2 (ja)
JP (1) JP6303971B2 (ja)

Families Citing this family (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170294185A1 (en) * 2016-04-08 2017-10-12 Knuedge Incorporated Segmentation using prior distributions
US9870765B2 (en) * 2016-06-03 2018-01-16 International Business Machines Corporation Detecting customers with low speech recognition accuracy by investigating consistency of conversation in call-center
US10964329B2 (en) * 2016-07-11 2021-03-30 FTR Labs Pty Ltd Method and system for automatically diarising a sound recording
WO2018100391A1 (en) * 2016-12-02 2018-06-07 Cirrus Logic International Semiconductor Limited Speaker identification
KR20180082033A (ko) * 2017-01-09 2018-07-18 삼성전자주식회사 음성을 인식하는 전자 장치
GB2578386B (en) 2017-06-27 2021-12-01 Cirrus Logic Int Semiconductor Ltd Detection of replay attack
GB2563953A (en) 2017-06-28 2019-01-02 Cirrus Logic Int Semiconductor Ltd Detection of replay attack
GB201713697D0 (en) 2017-06-28 2017-10-11 Cirrus Logic Int Semiconductor Ltd Magnetic detection of replay attack
GB201801527D0 (en) 2017-07-07 2018-03-14 Cirrus Logic Int Semiconductor Ltd Method, apparatus and systems for biometric processes
GB201801528D0 (en) 2017-07-07 2018-03-14 Cirrus Logic Int Semiconductor Ltd Method, apparatus and systems for biometric processes
GB201801526D0 (en) 2017-07-07 2018-03-14 Cirrus Logic Int Semiconductor Ltd Methods, apparatus and systems for authentication
GB201801532D0 (en) 2017-07-07 2018-03-14 Cirrus Logic Int Semiconductor Ltd Methods, apparatus and systems for audio playback
GB201801530D0 (en) 2017-07-07 2018-03-14 Cirrus Logic Int Semiconductor Ltd Methods, apparatus and systems for authentication
JP7197259B2 (ja) 2017-08-25 2022-12-27 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 情報処理方法、情報処理装置およびプログラム
GB201803570D0 (en) 2017-10-13 2018-04-18 Cirrus Logic Int Semiconductor Ltd Detection of replay attack
GB2567503A (en) 2017-10-13 2019-04-17 Cirrus Logic Int Semiconductor Ltd Analysing speech signals
GB201801661D0 (en) 2017-10-13 2018-03-21 Cirrus Logic International Uk Ltd Detection of liveness
GB201801874D0 (en) 2017-10-13 2018-03-21 Cirrus Logic Int Semiconductor Ltd Improving robustness of speech processing system against ultrasound and dolphin attacks
GB201801663D0 (en) 2017-10-13 2018-03-21 Cirrus Logic Int Semiconductor Ltd Detection of liveness
GB201804843D0 (en) 2017-11-14 2018-05-09 Cirrus Logic Int Semiconductor Ltd Detection of replay attack
GB201801664D0 (en) 2017-10-13 2018-03-21 Cirrus Logic Int Semiconductor Ltd Detection of liveness
GB201801659D0 (en) 2017-11-14 2018-03-21 Cirrus Logic Int Semiconductor Ltd Detection of loudspeaker playback
US11735189B2 (en) * 2018-01-23 2023-08-22 Cirrus Logic, Inc. Speaker identification
US11475899B2 (en) 2018-01-23 2022-10-18 Cirrus Logic, Inc. Speaker identification
US11264037B2 (en) 2018-01-23 2022-03-01 Cirrus Logic, Inc. Speaker identification
US10692490B2 (en) 2018-07-31 2020-06-23 Cirrus Logic, Inc. Detection of replay attack
KR102655791B1 (ko) * 2018-08-27 2024-04-09 삼성전자주식회사 화자 인증 방법, 화자 인증을 위한 학습 방법 및 그 장치들
KR102637339B1 (ko) * 2018-08-31 2024-02-16 삼성전자주식회사 음성 인식 모델을 개인화하는 방법 및 장치
US10915614B2 (en) 2018-08-31 2021-02-09 Cirrus Logic, Inc. Biometric authentication
US11037574B2 (en) 2018-09-05 2021-06-15 Cirrus Logic, Inc. Speaker recognition and speaker change detection
CN109616097A (zh) * 2019-01-04 2019-04-12 平安科技(深圳)有限公司 语音数据处理方法、装置、设备及存储介质
JP7287006B2 (ja) * 2019-03-01 2023-06-06 コニカミノルタ株式会社 話者決定装置、話者決定方法、および話者決定装置の制御プログラム
US11195545B2 (en) * 2019-04-04 2021-12-07 Qualcomm Incorporated Method and apparatus for detecting an end of an utterance
CN110491411B (zh) * 2019-09-25 2022-05-17 上海依图信息技术有限公司 结合麦克风声源角度和语音特征相似度分离说话人的方法
JP7380188B2 (ja) * 2019-12-24 2023-11-15 富士通株式会社 更新プログラム、更新方法および情報処理装置
CN112201256B (zh) * 2020-10-09 2023-09-19 深圳前海微众银行股份有限公司 声纹分割方法、装置、设备及可读存储介质
WO2022107242A1 (ja) * 2020-11-18 2022-05-27 日本電信電話株式会社 処理装置、処理方法およびプログラム

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2105034C (en) * 1992-10-09 1997-12-30 Biing-Hwang Juang Speaker verification with cohort normalized scoring
US6233556B1 (en) * 1998-12-16 2001-05-15 Nuance Communications Voice processing and verification system
JP2001255887A (ja) * 2000-03-09 2001-09-21 Rikogaku Shinkokai 音声認識装置、音声認識方法及び音声認識方法を記録した媒体
US7617094B2 (en) * 2003-02-28 2009-11-10 Palo Alto Research Center Incorporated Methods, apparatus, and products for identifying a conversation
US7769583B2 (en) * 2006-05-13 2010-08-03 International Business Machines Corporation Quantizing feature vectors in decision-making applications
JP5302505B2 (ja) * 2006-12-04 2013-10-02 日本電気株式会社 対話状況区切り推定方法、対話状況推定方法、対話状況推定システムおよび対話状況推定プログラム
JP4728972B2 (ja) 2007-01-17 2011-07-20 株式会社東芝 インデキシング装置、方法及びプログラム
JP5229219B2 (ja) 2007-03-27 2013-07-03 日本電気株式会社 話者選択装置、話者適応モデル作成装置、話者選択方法、話者選択用プログラムおよび話者適応モデル作成プログラム
JP2011053569A (ja) * 2009-09-03 2011-03-17 Nippon Hoso Kyokai <Nhk> 音響処理装置およびプログラム
US20120239400A1 (en) * 2009-11-25 2012-09-20 Nrc Corporation Speech data analysis device, speech data analysis method and speech data analysis program
JP5834449B2 (ja) 2010-04-22 2015-12-24 富士通株式会社 発話状態検出装置、発話状態検出プログラムおよび発話状態検出方法
US9324322B1 (en) * 2013-06-18 2016-04-26 Amazon Technologies, Inc. Automatic volume attenuation for speech enabled devices
US9460722B2 (en) * 2013-07-17 2016-10-04 Verint Systems Ltd. Blind diarization of recorded calls with arbitrary number of speakers
EP3036741A4 (en) * 2013-08-20 2017-05-03 Intel Corporation Collaborative audio conversation attestation

Also Published As

Publication number Publication date
JP2016080916A (ja) 2016-05-16
US9536547B2 (en) 2017-01-03
US20160111112A1 (en) 2016-04-21

Similar Documents

Publication Publication Date Title
JP6303971B2 (ja) 話者交替検出装置、話者交替検出方法及び話者交替検出用コンピュータプログラム
JP6350148B2 (ja) 話者インデキシング装置、話者インデキシング方法及び話者インデキシング用コンピュータプログラム
EP3438973B1 (en) Method and apparatus for constructing speech decoding network in digital speech recognition, and storage medium
CN106683680B (zh) 说话人识别方法及装置、计算机设备及计算机可读介质
Hansen et al. Speaker recognition by machines and humans: A tutorial review
DK2713367T3 (en) Speech Recognition
Becker et al. Forensic speaker verification using formant features and Gaussian mixture models.
JP6284462B2 (ja) 音声認識方法、及び音声認識装置
Das et al. Bangladeshi dialect recognition using Mel frequency cepstral coefficient, delta, delta-delta and Gaussian mixture model
WO2018051945A1 (ja) 音声処理装置、音声処理方法、および記録媒体
US11837236B2 (en) Speaker recognition based on signal segments weighted by quality
Pawar et al. Review of various stages in speaker recognition system, performance measures and recognition toolkits
Ismail et al. Mfcc-vq approach for qalqalahtajweed rule checking
CN108091340B (zh) 声纹识别方法、声纹识别系统和计算机可读存储介质
Bhukya Effect of gender on improving speech recognition system
JP2020060757A (ja) 話者認識装置、話者認識方法、及び、プログラム
Ozaydin Design of a text independent speaker recognition system
Karthikeyan et al. Hybrid machine learning classification scheme for speaker identification
Singhal et al. Automatic speech recognition for connected words using DTW/HMM for English/Hindi languages
Panda et al. Study of speaker recognition systems
JP7107377B2 (ja) 音声処理装置、音声処理方法、およびプログラム
Sailaja et al. Text Independent Speaker Identification Using Finite Doubly Truncated Gaussian Mixture Model
Tu et al. Towards improving statistical model based voice activity detection
Sailaja et al. Text independent speaker identification with finite multivariate generalized gaussian mixture model and hierarchical clustering algorithm
Shrestha et al. Speaker recognition using multiple x-vector speaker representations with two-stage clustering and outlier detection refinement

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170605

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180206

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180207

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180219

R150 Certificate of patent or registration of utility model

Ref document number: 6303971

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150