JP6303971B2 - 話者交替検出装置、話者交替検出方法及び話者交替検出用コンピュータプログラム - Google Patents
話者交替検出装置、話者交替検出方法及び話者交替検出用コンピュータプログラム Download PDFInfo
- Publication number
- JP6303971B2 JP6303971B2 JP2014213149A JP2014213149A JP6303971B2 JP 6303971 B2 JP6303971 B2 JP 6303971B2 JP 2014213149 A JP2014213149 A JP 2014213149A JP 2014213149 A JP2014213149 A JP 2014213149A JP 6303971 B2 JP6303971 B2 JP 6303971B2
- Authority
- JP
- Japan
- Prior art keywords
- speaker
- analysis
- analysis interval
- feature
- analysis section
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification
- G10L17/06—Decision making techniques; Pattern matching strategies
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification
- G10L17/26—Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/45—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window
Description
上記の一般的な記述及び下記の詳細な記述の何れも、例示的かつ説明的なものであり、請求項のように、本発明を限定するものではないことを理解されたい。
処理部13が有するこれらの各部は、例えば、処理部13が有するプロセッサ上で動作するコンピュータプログラムにより実現される機能モジュールである。
図6は、話者の組の交替が複数回行われる場合の照合スコアの遷移の一例を示す図である。図6において、横軸は時間を表し、縦軸は照合スコアを表す。この例では、時刻t1以前の区間601では、話者'A'と話者'B'が発話している。また、時刻t1と時刻t2の間の区間602では、話者'C'と話者'D'が発話している。そして時刻t2以降の区間603では、話者'E'と話者'F'が発話している。照合スコアの遷移610に示されるように、照合スコアは、時刻t1と時刻t2において極小値を持つ。
特徴量抽出部21は、複数の話者の会話音声が含まれる音声信号をフレーム単位に分割し、フレームごとに、話者の声の特徴を表す特徴量を抽出する(ステップS101)。そして特徴量抽出部21は、各フレームの特徴量を記憶部14に記憶する。
図10は、上記の実施形態またはその変形例による話者交替検出装置が実装されたサーバクライアントシステムの概略構成図である。
サーバクライアントシステム100は、端末110とサーバ120とを有し、端末110とサーバ120とは、通信ネットワーク130を介して互いに通信可能となっている。なお、サーバクライアントシステム100が有する端末110は複数存在してもよい。同様に、サーバクライアントシステム100が有するサーバ120は複数存在してもよい。
なお、端末110は、音声信号そのものをサーバ120へ送信してもよい。この場合には、サーバ120の処理部123が、上記の実施形態または変形例による話者交替検出装置の処理部の各機能を実現する。
11 インターフェース部
12 A/Dコンバータ
13 処理部
14 記憶部
21 特徴量抽出部
22 分析区間設定部
23 モデル化部
24 照合スコア算出部
25 交替点検出部
100 サーバクライアントシステム
110 端末
111 音声入力部
112 記憶部
113 通信部
114 制御部
120 サーバ
121 通信部
122 記憶部
123 処理部
130 通信ネットワーク
Claims (5)
- 複数の話者の会話を含む音声信号から、所定の時間長を持つフレーム単位で人の声の特徴を表す特徴量を抽出する特徴量抽出部と、
前記音声信号中の異なる複数の時点のそれぞれについて、当該時点よりも前に第1の分析区間を設定し、かつ、当該時点よりも後に第2の分析区間を設定する分析区間設定部と、
前記複数の時点のそれぞれについて、前記第1の分析区間に含まれる複数のフレームの前記特徴量の分布に基づいて、前記第1の分析区間中に発話する少なくとも二人の話者の組の声の特徴を表す第1の話者モデルを生成し、かつ、前記第2の分析区間に含まれる複数のフレームの前記特徴量の分布に基づいて、前記第2の分析区間中に発話する少なくとも二人の話者の組の声の特徴を表す第2の話者モデルを生成するモデル化部と、
前記複数の時点のそれぞれについて、前記第1の話者モデルに前記第2の分析区間に含まれる複数のフレームの前記特徴量を適用し、かつ、前記第2の話者モデルに前記第1の分析区間に含まれる複数のフレームの前記特徴量を適用して、前記第1の分析区間についての前記話者の組と前記第2の分析区間についての前記話者の組の特徴が類似している確度を表す照合スコアを算出する照合スコア算出部と、
前記複数の時点のそれぞれについての前記照合スコアに応じて、前記音声信号中において前後で発話している話者の組が交替する話者交替点を検出する交替点検出部と、
を有する話者交替検出装置。 - 前記交替点検出部は、前記複数の時点のそれぞれについての前記照合スコアのうち、前記照合スコアの時間変化においての極小値が所定の検出閾値以下となる場合、当該極小値に対応する時点を前記話者交替点とする、請求項1に記載の話者交替検出装置。
- 前記複数の時点のそれぞれについての前記照合スコアのうち、前記照合スコアの時間変化においての極小値が所定の検出閾値以下となる場合、前記分析区間設定部は、前記極小値に対応する第1の時点についての前記第1の分析区間及び前記第2の分析区間のうちの少なくとも一方を、前記第1の時点から離れる方向へ延長し、
前記モデル化部は、前記第1の時点についての前記第1の分析区間及び前記第2の分析区間のうちの延長された分析区間に含まれる複数のフレームの前記特徴量の分布に基づいて、前記第1の話者モデル及び前記第2の話者モデルのうち、当該延長された分析区間に対応する話者モデルを更新し、
前記照合スコア算出部は、前記第1の時点についての前記第1の分析区間及び前記第2の分析区間のうちの前記延長された分析区間に含まれる複数のフレームの前記特徴量を、前記第1の分析区間及び前記第2の分析区間のうちの他方の分析区間についての前記話者モデルに適用し、かつ、前記他方の分析区間に含まれる複数のフレームの前記特徴量を、前記更新された話者モデルに適用することで前記照合スコアを更新し、
前記交替点検出部は、前記更新された照合スコアが前記所定の検出閾値以下となる場合、前記第1の時点を前記話者交替点とする、請求項1に記載の話者交替検出装置。 - 複数の話者の会話を含む音声信号から、所定の時間長を持つフレーム単位で人の声の特徴を表す特徴量を抽出し、
前記音声信号中の異なる複数の時点のそれぞれについて、当該時点よりも前に第1の分析区間を設定し、かつ、当該時点よりも後に第2の分析区間を設定し、
前記複数の時点のそれぞれについて、前記第1の分析区間に含まれる複数のフレームの前記特徴量の分布に基づいて、前記第1の分析区間中に発話する少なくとも二人の話者の組の声の特徴を表す第1の話者モデルを生成し、かつ、前記第2の分析区間に含まれる複数のフレームの前記特徴量の分布に基づいて、前記第2の分析区間中に発話する少なくとも二人の話者の組の声の特徴を表す第2の話者モデルを生成し、
前記複数の時点のそれぞれについて、前記第1の話者モデルに前記第2の分析区間に含まれる複数のフレームの前記特徴量を適用し、かつ、前記第2の話者モデルに前記第1の分析区間に含まれる複数のフレームの前記特徴量を適用して、前記第1の分析区間についての前記話者の組と前記第2の分析区間についての前記話者の組の特徴が類似している確度を表す照合スコアを算出し、
前記複数の時点のそれぞれについての前記照合スコアに応じて、前記音声信号中において前後で発話している話者の組が交替する話者交替点を検出する、
ことを含む話者交替検出方法。 - 複数の話者の会話を含む音声信号から、所定の時間長を持つフレーム単位で人の声の特徴を表す特徴量を抽出し、
前記音声信号中の異なる複数の時点のそれぞれについて、当該時点よりも前に第1の分析区間を設定し、かつ、当該時点よりも後に第2の分析区間を設定し、
前記複数の時点のそれぞれについて、前記第1の分析区間に含まれる複数のフレームの前記特徴量の分布に基づいて、前記第1の分析区間中に発話する少なくとも二人の話者の組の声の特徴を表す第1の話者モデルを生成し、かつ、前記第2の分析区間に含まれる複数のフレームの前記特徴量の分布に基づいて、前記第2の分析区間中に発話する少なくとも二人の話者の組の声の特徴を表す第2の話者モデルを生成し、
前記複数の時点のそれぞれについて、前記第1の話者モデルに前記第2の分析区間に含まれる複数のフレームの前記特徴量を適用し、かつ、前記第2の話者モデルに前記第1の分析区間に含まれる複数のフレームの前記特徴量を適用して、前記第1の分析区間についての前記話者の組と前記第2の分析区間についての前記話者の組の特徴が類似している確度を表す照合スコアを算出し、
前記複数の時点のそれぞれについての前記照合スコアに応じて、前記音声信号中において前後で発話している話者の組が交替する話者交替点を検出する、
ことをコンピュータに実行させるための話者交替検出用コンピュータプログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014213149A JP6303971B2 (ja) | 2014-10-17 | 2014-10-17 | 話者交替検出装置、話者交替検出方法及び話者交替検出用コンピュータプログラム |
US14/875,092 US9536547B2 (en) | 2014-10-17 | 2015-10-05 | Speaker change detection device and speaker change detection method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014213149A JP6303971B2 (ja) | 2014-10-17 | 2014-10-17 | 話者交替検出装置、話者交替検出方法及び話者交替検出用コンピュータプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2016080916A JP2016080916A (ja) | 2016-05-16 |
JP6303971B2 true JP6303971B2 (ja) | 2018-04-04 |
Family
ID=55749543
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014213149A Active JP6303971B2 (ja) | 2014-10-17 | 2014-10-17 | 話者交替検出装置、話者交替検出方法及び話者交替検出用コンピュータプログラム |
Country Status (2)
Country | Link |
---|---|
US (1) | US9536547B2 (ja) |
JP (1) | JP6303971B2 (ja) |
Families Citing this family (37)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170294185A1 (en) * | 2016-04-08 | 2017-10-12 | Knuedge Incorporated | Segmentation using prior distributions |
US9870765B2 (en) * | 2016-06-03 | 2018-01-16 | International Business Machines Corporation | Detecting customers with low speech recognition accuracy by investigating consistency of conversation in call-center |
US10964329B2 (en) * | 2016-07-11 | 2021-03-30 | FTR Labs Pty Ltd | Method and system for automatically diarising a sound recording |
WO2018100391A1 (en) * | 2016-12-02 | 2018-06-07 | Cirrus Logic International Semiconductor Limited | Speaker identification |
KR20180082033A (ko) * | 2017-01-09 | 2018-07-18 | 삼성전자주식회사 | 음성을 인식하는 전자 장치 |
GB2578386B (en) | 2017-06-27 | 2021-12-01 | Cirrus Logic Int Semiconductor Ltd | Detection of replay attack |
GB2563953A (en) | 2017-06-28 | 2019-01-02 | Cirrus Logic Int Semiconductor Ltd | Detection of replay attack |
GB201713697D0 (en) | 2017-06-28 | 2017-10-11 | Cirrus Logic Int Semiconductor Ltd | Magnetic detection of replay attack |
GB201801527D0 (en) | 2017-07-07 | 2018-03-14 | Cirrus Logic Int Semiconductor Ltd | Method, apparatus and systems for biometric processes |
GB201801528D0 (en) | 2017-07-07 | 2018-03-14 | Cirrus Logic Int Semiconductor Ltd | Method, apparatus and systems for biometric processes |
GB201801526D0 (en) | 2017-07-07 | 2018-03-14 | Cirrus Logic Int Semiconductor Ltd | Methods, apparatus and systems for authentication |
GB201801532D0 (en) | 2017-07-07 | 2018-03-14 | Cirrus Logic Int Semiconductor Ltd | Methods, apparatus and systems for audio playback |
GB201801530D0 (en) | 2017-07-07 | 2018-03-14 | Cirrus Logic Int Semiconductor Ltd | Methods, apparatus and systems for authentication |
JP7197259B2 (ja) | 2017-08-25 | 2022-12-27 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ | 情報処理方法、情報処理装置およびプログラム |
GB201803570D0 (en) | 2017-10-13 | 2018-04-18 | Cirrus Logic Int Semiconductor Ltd | Detection of replay attack |
GB2567503A (en) | 2017-10-13 | 2019-04-17 | Cirrus Logic Int Semiconductor Ltd | Analysing speech signals |
GB201801661D0 (en) | 2017-10-13 | 2018-03-21 | Cirrus Logic International Uk Ltd | Detection of liveness |
GB201801874D0 (en) | 2017-10-13 | 2018-03-21 | Cirrus Logic Int Semiconductor Ltd | Improving robustness of speech processing system against ultrasound and dolphin attacks |
GB201801663D0 (en) | 2017-10-13 | 2018-03-21 | Cirrus Logic Int Semiconductor Ltd | Detection of liveness |
GB201804843D0 (en) | 2017-11-14 | 2018-05-09 | Cirrus Logic Int Semiconductor Ltd | Detection of replay attack |
GB201801664D0 (en) | 2017-10-13 | 2018-03-21 | Cirrus Logic Int Semiconductor Ltd | Detection of liveness |
GB201801659D0 (en) | 2017-11-14 | 2018-03-21 | Cirrus Logic Int Semiconductor Ltd | Detection of loudspeaker playback |
US11735189B2 (en) * | 2018-01-23 | 2023-08-22 | Cirrus Logic, Inc. | Speaker identification |
US11475899B2 (en) | 2018-01-23 | 2022-10-18 | Cirrus Logic, Inc. | Speaker identification |
US11264037B2 (en) | 2018-01-23 | 2022-03-01 | Cirrus Logic, Inc. | Speaker identification |
US10692490B2 (en) | 2018-07-31 | 2020-06-23 | Cirrus Logic, Inc. | Detection of replay attack |
KR102655791B1 (ko) * | 2018-08-27 | 2024-04-09 | 삼성전자주식회사 | 화자 인증 방법, 화자 인증을 위한 학습 방법 및 그 장치들 |
KR102637339B1 (ko) * | 2018-08-31 | 2024-02-16 | 삼성전자주식회사 | 음성 인식 모델을 개인화하는 방법 및 장치 |
US10915614B2 (en) | 2018-08-31 | 2021-02-09 | Cirrus Logic, Inc. | Biometric authentication |
US11037574B2 (en) | 2018-09-05 | 2021-06-15 | Cirrus Logic, Inc. | Speaker recognition and speaker change detection |
CN109616097A (zh) * | 2019-01-04 | 2019-04-12 | 平安科技(深圳)有限公司 | 语音数据处理方法、装置、设备及存储介质 |
JP7287006B2 (ja) * | 2019-03-01 | 2023-06-06 | コニカミノルタ株式会社 | 話者決定装置、話者決定方法、および話者決定装置の制御プログラム |
US11195545B2 (en) * | 2019-04-04 | 2021-12-07 | Qualcomm Incorporated | Method and apparatus for detecting an end of an utterance |
CN110491411B (zh) * | 2019-09-25 | 2022-05-17 | 上海依图信息技术有限公司 | 结合麦克风声源角度和语音特征相似度分离说话人的方法 |
JP7380188B2 (ja) * | 2019-12-24 | 2023-11-15 | 富士通株式会社 | 更新プログラム、更新方法および情報処理装置 |
CN112201256B (zh) * | 2020-10-09 | 2023-09-19 | 深圳前海微众银行股份有限公司 | 声纹分割方法、装置、设备及可读存储介质 |
WO2022107242A1 (ja) * | 2020-11-18 | 2022-05-27 | 日本電信電話株式会社 | 処理装置、処理方法およびプログラム |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2105034C (en) * | 1992-10-09 | 1997-12-30 | Biing-Hwang Juang | Speaker verification with cohort normalized scoring |
US6233556B1 (en) * | 1998-12-16 | 2001-05-15 | Nuance Communications | Voice processing and verification system |
JP2001255887A (ja) * | 2000-03-09 | 2001-09-21 | Rikogaku Shinkokai | 音声認識装置、音声認識方法及び音声認識方法を記録した媒体 |
US7617094B2 (en) * | 2003-02-28 | 2009-11-10 | Palo Alto Research Center Incorporated | Methods, apparatus, and products for identifying a conversation |
US7769583B2 (en) * | 2006-05-13 | 2010-08-03 | International Business Machines Corporation | Quantizing feature vectors in decision-making applications |
JP5302505B2 (ja) * | 2006-12-04 | 2013-10-02 | 日本電気株式会社 | 対話状況区切り推定方法、対話状況推定方法、対話状況推定システムおよび対話状況推定プログラム |
JP4728972B2 (ja) | 2007-01-17 | 2011-07-20 | 株式会社東芝 | インデキシング装置、方法及びプログラム |
JP5229219B2 (ja) | 2007-03-27 | 2013-07-03 | 日本電気株式会社 | 話者選択装置、話者適応モデル作成装置、話者選択方法、話者選択用プログラムおよび話者適応モデル作成プログラム |
JP2011053569A (ja) * | 2009-09-03 | 2011-03-17 | Nippon Hoso Kyokai <Nhk> | 音響処理装置およびプログラム |
US20120239400A1 (en) * | 2009-11-25 | 2012-09-20 | Nrc Corporation | Speech data analysis device, speech data analysis method and speech data analysis program |
JP5834449B2 (ja) | 2010-04-22 | 2015-12-24 | 富士通株式会社 | 発話状態検出装置、発話状態検出プログラムおよび発話状態検出方法 |
US9324322B1 (en) * | 2013-06-18 | 2016-04-26 | Amazon Technologies, Inc. | Automatic volume attenuation for speech enabled devices |
US9460722B2 (en) * | 2013-07-17 | 2016-10-04 | Verint Systems Ltd. | Blind diarization of recorded calls with arbitrary number of speakers |
EP3036741A4 (en) * | 2013-08-20 | 2017-05-03 | Intel Corporation | Collaborative audio conversation attestation |
-
2014
- 2014-10-17 JP JP2014213149A patent/JP6303971B2/ja active Active
-
2015
- 2015-10-05 US US14/875,092 patent/US9536547B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2016080916A (ja) | 2016-05-16 |
US9536547B2 (en) | 2017-01-03 |
US20160111112A1 (en) | 2016-04-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6303971B2 (ja) | 話者交替検出装置、話者交替検出方法及び話者交替検出用コンピュータプログラム | |
JP6350148B2 (ja) | 話者インデキシング装置、話者インデキシング方法及び話者インデキシング用コンピュータプログラム | |
EP3438973B1 (en) | Method and apparatus for constructing speech decoding network in digital speech recognition, and storage medium | |
CN106683680B (zh) | 说话人识别方法及装置、计算机设备及计算机可读介质 | |
Hansen et al. | Speaker recognition by machines and humans: A tutorial review | |
DK2713367T3 (en) | Speech Recognition | |
Becker et al. | Forensic speaker verification using formant features and Gaussian mixture models. | |
JP6284462B2 (ja) | 音声認識方法、及び音声認識装置 | |
Das et al. | Bangladeshi dialect recognition using Mel frequency cepstral coefficient, delta, delta-delta and Gaussian mixture model | |
WO2018051945A1 (ja) | 音声処理装置、音声処理方法、および記録媒体 | |
US11837236B2 (en) | Speaker recognition based on signal segments weighted by quality | |
Pawar et al. | Review of various stages in speaker recognition system, performance measures and recognition toolkits | |
Ismail et al. | Mfcc-vq approach for qalqalahtajweed rule checking | |
CN108091340B (zh) | 声纹识别方法、声纹识别系统和计算机可读存储介质 | |
Bhukya | Effect of gender on improving speech recognition system | |
JP2020060757A (ja) | 話者認識装置、話者認識方法、及び、プログラム | |
Ozaydin | Design of a text independent speaker recognition system | |
Karthikeyan et al. | Hybrid machine learning classification scheme for speaker identification | |
Singhal et al. | Automatic speech recognition for connected words using DTW/HMM for English/Hindi languages | |
Panda et al. | Study of speaker recognition systems | |
JP7107377B2 (ja) | 音声処理装置、音声処理方法、およびプログラム | |
Sailaja et al. | Text Independent Speaker Identification Using Finite Doubly Truncated Gaussian Mixture Model | |
Tu et al. | Towards improving statistical model based voice activity detection | |
Sailaja et al. | Text independent speaker identification with finite multivariate generalized gaussian mixture model and hierarchical clustering algorithm | |
Shrestha et al. | Speaker recognition using multiple x-vector speaker representations with two-stage clustering and outlier detection refinement |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20170605 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20180206 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20180207 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20180219 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6303971 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |