JP7471139B2 - 話者ダイアライゼーション装置、及び話者ダイアライゼーション方法 - Google Patents
話者ダイアライゼーション装置、及び話者ダイアライゼーション方法 Download PDFInfo
- Publication number
- JP7471139B2 JP7471139B2 JP2020079958A JP2020079958A JP7471139B2 JP 7471139 B2 JP7471139 B2 JP 7471139B2 JP 2020079958 A JP2020079958 A JP 2020079958A JP 2020079958 A JP2020079958 A JP 2020079958A JP 7471139 B2 JP7471139 B2 JP 7471139B2
- Authority
- JP
- Japan
- Prior art keywords
- speaker diarization
- feature
- unit
- clustering
- speaker
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 36
- 238000000605 extraction Methods 0.000 claims description 39
- 238000001514 detection method Methods 0.000 claims description 22
- 239000000284 extract Substances 0.000 claims description 15
- 230000000694 effects Effects 0.000 claims description 10
- 230000010365 information processing Effects 0.000 claims description 10
- 230000005236 sound signal Effects 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 16
- 230000006870 function Effects 0.000 description 11
- 239000013598 vector Substances 0.000 description 8
- 239000011159 matrix material Substances 0.000 description 5
- 238000000926 separation method Methods 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000003064 k means clustering Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000000513 principal component analysis Methods 0.000 description 1
- 238000010187 selection method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/21—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Circuit For Audible Band Transducer (AREA)
- Telephonic Communication Services (AREA)
Description
う。しかし特許文献1では、話者ダイアライゼーションに際し、マイクの配置が既知であることを利用し、実測データを用いて事前に準備された音源位置候補毎の周波数ビンに対する特徴ベクトルの確率分布を用いている。そのため、マイクの配置が未知であり確率分布のような学習データが存在しない場合は話者ダイアライゼーションを行うことができない。
げるものではない。以下の説明において、符号の前に付した「S」の文字は処理ステップの意味である。
図1に、第1実施形態として説明する、話者ダイアライゼーション(Speaker diarisation)を行う装置(以下、「話者ダイアライゼーション装置1」と称する。)のハードウ
ェア構成を示している。話者ダイアライゼーション装置1は、情報処理装置(コンピュータ)であり、プロセッサ11、ROM12(ROM:Read Only Memory)、RAM13(RAM:Random Access Memory)、2つの信号入力装置14a,14bを備える。これらはバス10等を通して互いに通信可能に接続されている。尚、例示する話者ダイアライゼーション装置1は、2つの信号入力装置14a,14bを備えるが、話者ダイアライゼーション装置1は、3つ以上の信号入力装置を備えていてもよい。信号入力装置14a,14bは、マイクロフォン(以下、「マイク」と称する。)等の音声入力装置でもよいし、残響除去や音源分離等が行われた後の音声信号を出力する装置でもよい。RAM13には、話者ダイアライゼーション装置1の機能(以下、「話者ダイアライゼーション実行部131」と称する。)を実現するためのプログラムが格納されている。
するサービスによって実現してもよい。また、話者ダイアライゼーション装置1が備える話者ダイアライゼーション実行部131等の機能は、DSP(Digital Signal Processor)、FPGA(Field Programmable Gate Array)、ASIC(Application Specific Integrated Circuit)、AI(Artificial Intelligence)チップ等のハードウェアによっ
て実現してもよい。
分離が行われた後の音声信号でもよい。信号入力部1001が信号入力装置14から取得した信号xmは、例えば、以下のように表記することができる。
。また、話者性を表す特徴量と、マイク及び話者の相対的位置を表す特徴量とを連結した特徴量等を用いてもよい。このようにして特徴量抽出部1003によって抽出された特徴量vm,sは、以下のように表記することができる。
ング、Mean-shiftクラスタリング、凝集型階層的クラスタリング等を用いることができる。
第2実施形態の話者ダイアライゼーション装置1は、信号入力部1001が、取得した入力信号を信号分割部1002に入力する前に音声区間を検出する機能を有する点で第1実施形態の話者ダイアライゼーション装置1と異なる。第2実施形態の話者ダイアライゼーション装置1のその他の構成については、基本的に第1実施形態と同様である。以下、第1実施形態と相違する点を中心に説明する。
区間検出器)に入力信号を入力することにより音声区間を検出する。
イアライゼーション処理S2100」と称する。)を説明するフローチャートである。以下、同図とともに話者ダイアライゼーション処理S2100について説明する。
第1実施形態及び第2実施形態における話者ダイアライゼーション装置1は、いずれも特徴量抽出部1003によって抽出された全ての特徴量を一括してクラスタリングし、クラスタリングの結果に基づき話者ダイアライゼーションを行う。これに対し第3実施形態の話者ダイアライゼーション装置1は、特徴量抽出部1003によって抽出された特徴量の中からクラスタリングに用いる特徴量を選択し、選択した特徴量を用いてクラスタリングを行う。以下、第3実施形態の話者ダイアライゼーション装置1について、第1実施形態の話者ダイアライゼーション装置1と相違する点を中心として説明する。尚、第3実施形態の話者ダイアライゼーション装置1は、第2実施形態の話者ダイアライゼーション装置1の構成を備えていてもよい。
03が抽出した全ての特徴量をクラスタリングに用いるのではなく、特徴量選択部1006が選択した特徴量を用いてクラスタリングするため、信頼性の高い話者ダイアライゼーションを実現することができる。
14、15 信号入力装置
131 話者ダイアライゼーション実行部
1001 信号入力部
1002 信号分割部
1003 特徴量抽出部
1005 音声区間検出部
1006 特徴量選択部
1007 クラスタリング部
1008 話者ダイアライゼーション部
Claims (12)
- 情報処理装置を用いて構成され、
複数の音声信号の入力部の夫々から取得される複数の信号を、夫々、所定時間幅の複数のセグメントに分割する信号分割部と、
前記セグメントの夫々から特徴量を抽出する特徴量抽出部と、
前記複数の信号の夫々のセグメントから抽出された前記特徴量を一括してクラスタリングするクラスタリング部と、
前記クラスタリングの結果に基づき話者ダイアライゼーションを行う話者ダイアライゼーション部と、
を備え、
前記特徴量抽出部によって抽出された前記特徴量の中から、前記クラスタリングの対象とする前記特徴量を選択する特徴量選択部をさらに備え、
前記クラスタリング部は、選択された前記特徴量をクラスタリングする、
話者ダイアライゼーション装置。 - 請求項1に記載の話者ダイアライゼーション装置であって、
前記特徴量抽出部は、前記特徴量として、話者性を含む特徴量を抽出する、
話者ダイアライゼーション装置。 - 請求項1に記載の話者ダイアライゼーション装置であって、
前記特徴量抽出部は、前記特徴量として、音圧を含む特徴量を抽出する、
話者ダイアライゼーション装置。 - 請求項1に記載の話者ダイアライゼーション装置であって、
前記複数の信号の夫々から音声信号を含む区間である音声区間を検出する音声区間検出部をさらに備え、
前記信号分割部は、前記複数の信号の夫々の前記音声区間を対象として前記セグメントへの分割を行い、
前記特徴量抽出部は、前記分割により得られた前記セグメントの夫々から前記特徴量を抽出する、
話者ダイアライゼーション装置。 - 請求項1に記載の話者ダイアライゼーション装置であって、
前記複数の信号の夫々から音声信号を含む区間である音声区間を検出する音声区間検出部をさらに備え、
前記信号分割部は、前記複数の信号を、夫々、複数の前記セグメントに分割し、
前記音声区間検出部は、前記セグメントが音声区間であるか否かを判定し、
前記特徴量抽出部は、音声区間であると判定された前記セグメントを対象として前記特徴量を抽出する、
話者ダイアライゼーション装置。 - 請求項1に記載の話者ダイアライゼーション装置であって、
前記特徴量選択部は、前記特徴量抽出部によって抽出された、同一時刻における複数の前記特徴量の中から、特徴量空間における差が最大となる所定数の前記特徴量を前記クラスタリングの対象として選択する、
話者ダイアライゼーション装置。 - 請求項1に記載の話者ダイアライゼーション装置であって、
前記特徴量選択部は、前記特徴量抽出部によって抽出された、同一時刻における複数の前記特徴量の中から、抽出元の前記信号の音圧が大きい順に所定数の前記特徴量を前記クラスタリングの対象として選択する、
話者ダイアライゼーション装置。 - 情報処理装置が、
複数の音声信号の入力部の夫々から取得される複数の信号を、夫々、所定時間幅の複数のセグメントに分割するステップと、
前記セグメントの夫々から特徴量を抽出するステップと、
前記複数の信号の夫々のセグメントから抽出された前記特徴量を一括してクラスタリングするステップと、
前記クラスタリングの結果に基づき話者ダイアライゼーションを行うステップと、
抽出された前記特徴量の中から、前記クラスタリングの対象とする前記特徴量を選択するステップと、
選択された前記特徴量をクラスタリングするステップと、
を実行する、話者ダイアライゼーション方法。 - 請求項8に記載の話者ダイアライゼーション方法であって、
前記情報処理装置が、
前記複数の信号の夫々から音声信号を含む区間である音声区間を検出するステップと、
前記複数の信号の夫々の前記音声区間を対象として前記セグメントへの分割を行うステップと、
前記分割により得られた前記セグメントの夫々から前記特徴量を抽出するステップと、
をさらに実行する、話者ダイアライゼーション方法。 - 請求項8に記載の話者ダイアライゼーション方法であって、
前記情報処理装置が、
前記複数の信号の夫々から音声信号を含む区間である音声区間を検出するステップと、
前記複数の信号を、夫々、複数の前記セグメントに分割するステップと、
前記セグメントが音声区間であるか否かを判定するステップと、
音声区間であると判定された前記セグメントを対象として前記特徴量を抽出するステップと、
をさらに実行する、話者ダイアライゼーション方法。 - 請求項8に記載の話者ダイアライゼーション方法であって、
前記情報処理装置が、
抽出された、同一時刻における複数の前記特徴量の中から、特徴量空間における差が最大となる所定数の前記特徴量を前記クラスタリングの対象として選択するステップ、
をさらに実行する、話者ダイアライゼーション方法。 - 請求項8に記載の話者ダイアライゼーション方法であって、
前記情報処理装置が、
抽出された、同一時刻における複数の前記特徴量の中から、抽出元の前記信号の音圧が大きい順に所定数の前記特徴量を前記クラスタリングの対象として選択するステップ、
をさらに実行する、話者ダイアライゼーション方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020079958A JP7471139B2 (ja) | 2020-04-30 | 2020-04-30 | 話者ダイアライゼーション装置、及び話者ダイアライゼーション方法 |
PCT/JP2021/015202 WO2021220789A1 (ja) | 2020-04-30 | 2021-04-12 | 話者ダイアライゼーション装置、及び話者ダイアライゼーション方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020079958A JP7471139B2 (ja) | 2020-04-30 | 2020-04-30 | 話者ダイアライゼーション装置、及び話者ダイアライゼーション方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021173952A JP2021173952A (ja) | 2021-11-01 |
JP7471139B2 true JP7471139B2 (ja) | 2024-04-19 |
Family
ID=78281765
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020079958A Active JP7471139B2 (ja) | 2020-04-30 | 2020-04-30 | 話者ダイアライゼーション装置、及び話者ダイアライゼーション方法 |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP7471139B2 (ja) |
WO (1) | WO2021220789A1 (ja) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010054733A (ja) | 2008-08-27 | 2010-03-11 | Nippon Telegr & Teleph Corp <Ntt> | 複数信号区間推定装置、複数信号区間推定方法、そのプログラムおよび記録媒体 |
JP2014219557A (ja) | 2013-05-08 | 2014-11-20 | カシオ計算機株式会社 | 音声処理装置、音声処理方法及びプログラム |
US20180075860A1 (en) | 2016-09-14 | 2018-03-15 | Nuance Communications, Inc. | Method for Microphone Selection and Multi-Talker Segmentation with Ambient Automated Speech Recognition (ASR) |
-
2020
- 2020-04-30 JP JP2020079958A patent/JP7471139B2/ja active Active
-
2021
- 2021-04-12 WO PCT/JP2021/015202 patent/WO2021220789A1/ja active Application Filing
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010054733A (ja) | 2008-08-27 | 2010-03-11 | Nippon Telegr & Teleph Corp <Ntt> | 複数信号区間推定装置、複数信号区間推定方法、そのプログラムおよび記録媒体 |
JP2014219557A (ja) | 2013-05-08 | 2014-11-20 | カシオ計算機株式会社 | 音声処理装置、音声処理方法及びプログラム |
US20180075860A1 (en) | 2016-09-14 | 2018-03-15 | Nuance Communications, Inc. | Method for Microphone Selection and Multi-Talker Segmentation with Ambient Automated Speech Recognition (ASR) |
Non-Patent Citations (2)
Title |
---|
丁寧 他,"音韻情報と方向情報を用いた発話間距離による話者クラスタリング",日本音響学会2014年秋季研究発表会講演論文集CD-ROM,2014年08月26日,pp.133-136 |
岩野公司 他,"複数スマートフォンで収録された多人数会話音声における対話グループ検出と話者決定",電子情報通信学会技術研究報告,2014年07月17日,Vol. 114, No. 151,pp.47-52 |
Also Published As
Publication number | Publication date |
---|---|
JP2021173952A (ja) | 2021-11-01 |
WO2021220789A1 (ja) | 2021-11-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10366693B2 (en) | Acoustic signature building for a speaker from multiple sessions | |
Lukic et al. | Speaker identification and clustering using convolutional neural networks | |
Lim et al. | Rare Sound Event Detection Using 1D Convolutional Recurrent Neural Networks. | |
US10109280B2 (en) | Blind diarization of recorded calls with arbitrary number of speakers | |
CN108831506B (zh) | 基于gmm-bic的数字音频篡改点检测方法及系统 | |
CN112397093B (zh) | 一种语音检测方法与装置 | |
Colonna et al. | Feature evaluation for unsupervised bioacoustic signal segmentation of anuran calls | |
Jung et al. | DNN-Based Audio Scene Classification for DCASE2017: Dual Input Features, Balancing Cost, and Stochastic Data Duplication. | |
Chachadi et al. | Gender recognition from speech signal using 1-D CNN | |
Prabavathy et al. | An enhanced musical instrument classification using deep convolutional neural network | |
Hegde et al. | Isolated word recognition for Kannada language using support vector machine | |
Rahman et al. | Detecting synthetic speech manipulation in real audio recordings | |
JP7471139B2 (ja) | 話者ダイアライゼーション装置、及び話者ダイアライゼーション方法 | |
Mehrotra et al. | Improved Frame‐Wise Segmentation of Audio Signals for Smart Hearing Aid Using Particle Swarm Optimization‐Based Clustering | |
Wang et al. | Synthetic voice detection and audio splicing detection using se-res2net-conformer architecture | |
Hajihashemi et al. | Novel time-frequency based scheme for detecting sound events from sound background in audio segments | |
KR100869643B1 (ko) | 음악구조를 이용한 엠피쓰리 형식의 가요 음향에 대한 요약장치, 방법 및 이를 구현하기 위한 프로그램이 저장된기록매체 | |
Bai et al. | CIAIC-BAD system for DCASE2018 challenge task 3 | |
Thomas et al. | Language identification using deep neural network for Indian languages | |
Rahman et al. | Blocking black area method for speech segmentation | |
Mahum et al. | EDL-Det: A Robust TTS Synthesis Detector Using VGG19-Based YAMNet and Ensemble Learning Block | |
CN112309428B (zh) | 获得歌声检测模型 | |
Barrington et al. | Dynamic texture models of music | |
Koerich et al. | Cross-representation transferability of adversarial perturbations: From spectrograms to audio waveforms | |
Nguyen et al. | Improving mix-and-separate training in audio-visual sound source separation with an object prior |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20221214 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20240130 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20240221 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240402 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240409 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7471139 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |