JP7356960B2 - 発言切り分けシステムとその方法 - Google Patents
発言切り分けシステムとその方法 Download PDFInfo
- Publication number
- JP7356960B2 JP7356960B2 JP2020181115A JP2020181115A JP7356960B2 JP 7356960 B2 JP7356960 B2 JP 7356960B2 JP 2020181115 A JP2020181115 A JP 2020181115A JP 2020181115 A JP2020181115 A JP 2020181115A JP 7356960 B2 JP7356960 B2 JP 7356960B2
- Authority
- JP
- Japan
- Prior art keywords
- voice
- speech
- section
- speaker
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000011218 segmentation Effects 0.000 title claims description 71
- 238000000034 method Methods 0.000 title claims description 33
- 238000001514 detection method Methods 0.000 claims description 193
- 239000000203 mixture Substances 0.000 claims description 20
- 238000012937 correction Methods 0.000 claims description 8
- 230000001360 synchronised effect Effects 0.000 claims description 7
- 238000000926 separation method Methods 0.000 claims description 5
- 238000013519 translation Methods 0.000 claims description 5
- 238000009825 accumulation Methods 0.000 claims description 2
- 238000012545 processing Methods 0.000 description 20
- 101000712600 Homo sapiens Thyroid hormone receptor beta Proteins 0.000 description 12
- 102100033451 Thyroid hormone receptor beta Human genes 0.000 description 12
- 238000010586 diagram Methods 0.000 description 12
- 238000004364 calculation method Methods 0.000 description 9
- 239000000284 extract Substances 0.000 description 7
- 230000010365 information processing Effects 0.000 description 5
- 230000005236 sound signal Effects 0.000 description 5
- 238000005314 correlation function Methods 0.000 description 3
- 206010011224 Cough Diseases 0.000 description 2
- 238000012790 confirmation Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Landscapes
- Telephonic Communication Services (AREA)
Description
まず、話者A、Bともに発言していない場合について説明する。
図12の(A)(条件a参照)に示すように、発言区間検知部4:M1、4:M2の各発言開始検知部11:M1、9:M2において入力された音声フレーム(音声データ)の音声エネルギE_1、E_2が算出されるが、第1の閾値THR1を超えることがないため、検知状態Sは常に「未検知」となり、この処理が繰り返される。
話者Aの発言区間検知部4:M1の発言開始検知部11:M1において、音声フレームの検知状態Sが「検知中」に変更され、発言中は発言終了検知部12:M1が動作する。発言終了検知処理の類似度算出では、話者Bの発言区間検知部4:M2の検知状態Sが参照されるが、これは話者Bが発言しておらず常に「未検知」であるため、類似度判別部6の話者Aの類似度算出の結果がTrueとなる。従って、話者Aの発言区間検知部4:M1の発言終了検知部12:M1で検知音声蓄積部5:M1に音声フレームが格納され続け、音声エネルギE_1が第1の閾値THR1を下回ると、発言終了で発言区間が確定され、検知音声蓄積部5の音声が出力される。
話者Aの発言中、話者Bが発言するまでは、図12の(B)に示す条件bと同様である。話者Aの発言中、話者Bが発言すると、話者Aの発言区間検知部4:M1での類似度算出において、話者Bの発言区間検知部4:M2の検知状態Sが参照され、検知状態Sが「検知中」で取得される。そうすると、話者Aと話者Bとの発言区間検知部4:M1、4:M2それぞれの検知音声蓄積部5:M1、5:M2に格納されている音声データに対して音声の積率相関係数(類似度)Cを算出しこの値が第3の閾値THR3を超えているかどうかを判定する。今回の条件では話者Bは話者Aとは異なる発言をしているため、音声は同一のものではない。よって、類似度判別部6からTrueが出力されるため、話者A、Bの発言区間検知部4:M1、4:M2それぞれで、上記条件bと同様の処理となる。話者Bについて、発言が継続していれば、話者Bの検知音声蓄積部5:M2では、音声データの蓄積が継続される。
類似度算出までは上記条件cと同様であるが、話者Aの検知音声蓄積部5:M1に入力されている音声データは話者Aに装着されたマイクM1から取得されたものであるため、音声エネルギは他に比べて大きくなっているはずである。従って、話者Aの発言区間検知部4:M1での類似度結果はTrueとなり、検知され続ける。話者Bの発言区間検知部4:M2では音声エネルギが小さいため、類似度の結果がTrueにならず、発言終了検知部12:M2において検知状態が「未検知」に変更され、検知音声蓄積部5:M2の音声が出力されることはない。
4 発言区間検知部
5 検知音声蓄積部
6 類似度判別部
7 音声エネルギ判別部
A~N 話者
M1~Mn マイク
Claims (15)
- 複数の話者の音声が混在して取得されて入力される音声データに基づいて、発言を切り出す発言切り分けシステムであって、
複数の話者の音声が混在して入力される話者毎の音声入力部を備え、
これら音声入力部毎に取得され混在する複数の音声データを、各音声データの開始から終了までの発言区間毎に検知して音声入力部から入力された音声データを蓄積し、各音声入力部から取得された話者毎の蓄積された音声データを同期させて参照し、取得した話者毎の音声データの類似度を算出して類似度の高低を比較判別し、類似度が低い音声データは発言が異なる話者の音声データとみなし、類似度が高い音声データは発言が同一の話者の音声データとみなし、これら類似度が高く、発言した話者が同一とみなされた音声データについて音声エネルギの大小を比較判別し、音声エネルギが最も大きいと判別された音声データを、発言した話者の音声入力部から入力された発言と特定することを特徴とする発言切り分けシステム。 - 前記特定された音声入力部に基づいて、話者とその発言を特定することを特徴とする請求項1に記載の発言切り分けシステム。
- 複数の話者の音声が混在して取得されて入力される音声データに基づいて、発言を切り出す発言切り分けシステムであって、
複数の話者の音声が混在して入力される話者毎の音声入力部と、
各音声入力部毎に設けられ、音声入力部から取得され混在する複数の音声データから音声データの発言開始から発言終了までの発言区間を検知する発言区間検知部と、
発言区間検知部毎にそれぞれ設けられ、検知された発言区間の音声データを蓄積する検知音声蓄積部と、
各発言区間検知部とその検知音声蓄積部とを同期させて参照し、各発言区間検知部の検知音声蓄積部に蓄積された音声データについて、類似度を算出して類似度の高低を比較判別し、類似度が低い音声データは発言が異なる話者の音声データとみなし、類似度が高い音声データは複数の音声入力部から取得された、発言が同一の話者の音声データとみなす類似度判別部と、
類似度判別部により判別された同一話者の音声データについて、音声データ毎に音声エネルギを算出して音声エネルギの大小を比較判別し、音声エネルギが最も高いと判別された音声データが取得された発言区間検知部を特定する音声エネルギ判別部とを有し、
特定された発言区間検知部とその検知音声蓄積部に蓄積された音声データに基づいて、発言した話者とその発言を特定することを特徴とする発言切り分けシステム。 - 音声入力部には、複数の話者の音声が話者毎のマイクを通じて入力されるか、または複数の話者の音声が端末のマイクを通じて入力されることを特徴とする請求項3に記載の発言切り分けシステム。
- 音声入力部には、複数の話者の音声が、マイクを通じてリアルタイムで入力されるか、またはすでに取得されて入力され音声データとして記録された記録部を通じて入力されることを特徴とする請求項3または4に記載の発言切り分けシステム。
- 発言区間検知部には、入力される音声データが一定間隔毎に区切られた音声フレームとして入力されるとともに、
音声フレームを、未検知または検知中の何れかの状態として検知し、初期状態を未検知とし、検知状態が未検知で発言の開始を検知すると検知状態を検知中に変更する発言開始検知部と、
検知状態が検知中の間、検知音声蓄積部へ音声データの蓄積を行い、発言の終了を検知すると検知音声蓄積部に蓄積された音声データを出力あるいは削除し、検知状態を未検知に変更する発言終了検知部とを有することを特徴とする請求項3ないし5のうちいずれか1に記載の発言切り分けシステム。 - 音声入力部には、話者の音声とノイズが混在して入力され、
発言区間検知部に入力される音声フレームについて、
この音声フレームを、発言開始直後または発言終了直前のうち少なくともいずれか一方で、音声エネルギの大小を予め求められた音声エネルギの閾値に基づいて、人の音声か音声以外の雑音か否かを判別する発言判別部を有し、
音声以外の雑音と判別された音声データに基づいて特定された発言区間検知部の検知音声蓄積部に蓄積され雑音と判別された音声データを削除することを特徴とする請求項6に記載の発言切り分けシステム。 - 類似度判別部により判別された発言が同一の話者の音声データについて、予め求められた音声の時間の長さの閾値に基づいて音声の時間が所定の長さを有するか否かを判別する音声長さ判別部を有し、
所定時間長さを有する場合、音声エネルギ判別部で音声エネルギの大小を比較判別し、所定時間長さを有していない場合、蓄積された音声データを検知音声蓄積部から削除することを特徴とする請求項3ないし7のうちいずれか1に記載の発言切り分けシステム。 - 検知音声蓄積部に蓄積された音声データに対し、蓄積された音声データ間の時間のずれを求め、この求められた時間的ずれを用いて音声データの時間ずれを補正する時間ずれ補正部を有することを特徴とする請求項3ないし8のうちいずれか1に記載の発言切り分けシステム。
- 発言区間検知部の検知音声蓄積部を通じて特定された話者とその音声データが出力されると、特定された話者とその音声データを、文字データ、文字データを翻訳した翻訳データまたは音声のうち少なくともいずれか1として表示または出力する表示出力部を有することを特徴とする請求項3ないし9のうちいずれか1に記載の発言切り分けシステム。
- 音声入力部を端末に接続されるマイクにより構成し、マイクは、同一の場所に集まった話者、コールセンターの通話者または会話をインカムを通じて行う会話者の何れかに装着されることを特徴とする請求項4ないし10のうちいずれか1に記載の発言切り分けシステム。
- 複数の話者グループの音声が混在して取得されて入力される音声データに基づいて、発言を切り出す発言切り分けシステムであって、
複数の話者グループの音声が混在して入力される話者グループ毎の音声入力部と、
各音声入力部毎に設けられ、音声入力部から取得され混在する複数の音声データから音声データの発言開始から発言終了までの発言区間を検知する発言区間検知部と、
発言区間検知部毎にそれぞれ設けられ、検知された発言区間の音声データを蓄積する検知音声蓄積部と、
各発言区間検知部とその検知音声蓄積部とを同期させて参照し、各発言区間検知部の検知音声蓄積部に蓄積された音声データについて、類似度を算出して類似度の高低を比較判別し、類似度が低い音声データは発言が異なる話者グループの音声データとみなし、類似度が高い音声データは複数の音声入力部から取得された、発言が同一の話者グループの音声データとみなす類似度判別部と、
類似度判別部により判別された同一話者グループの音声データについて、音声データ毎に音声エネルギを算出して音声エネルギの大小を比較判別し、音声エネルギが最も高いと判別された音声データが取得された発言区間検知部を特定する音声エネルギ判別部とを有し、
特定された発言区間検知部とその検知音声蓄積部に蓄積された音声データに基づいて、発言した話者グループとその話者グループの発言を特定することを特徴とする発言切り分けシステム。 - 複数の話者の音声が混在して取得されて入力される音声データに基づいて、発言を切り出す発言切り分け方法であって、
複数の話者の音声が混在して入力される話者毎の音声入力部を備え、
これら音声入力部毎に取得され混在する複数の音声データを、各音声データの開始から終了までの発言区間毎に検知して音声入力部から入力された音声データを蓄積する第1のステップと、
各音声入力部から取得された話者毎の蓄積された音声データを同期させて参照し、取得した話者毎の音声データの類似度を算出して類似度の高低を比較判別し、類似度が低い音声データは発言が異なる話者の音声データとみなし、類似度が高い音声データは発言が同一の話者の音声データとみなす第2のステップと、
これら類似度が高く、発言した話者が同一とみなされた音声データについて音声エネルギの大小を比較判別し、音声エネルギが最も大きいと判別された音声データを、発言した話者の音声入力部から入力された発言と特定する第3のステップとを有することを特徴とする発言切り分け方法。 - 前記特定された音声入力部に基づいて、話者とその発言を特定することを特徴とする請求項13に記載の発言切り分け方法。
- 特定された話者とその音声データを、文字データ、文字データを翻訳した翻訳データまたは音声のうち少なくともいずれか1として表示または出力することを特徴とする請求項13または14に記載の発言切り分け方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020181115A JP7356960B2 (ja) | 2020-10-29 | 2020-10-29 | 発言切り分けシステムとその方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020181115A JP7356960B2 (ja) | 2020-10-29 | 2020-10-29 | 発言切り分けシステムとその方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022071960A JP2022071960A (ja) | 2022-05-17 |
JP7356960B2 true JP7356960B2 (ja) | 2023-10-05 |
Family
ID=81605258
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020181115A Active JP7356960B2 (ja) | 2020-10-29 | 2020-10-29 | 発言切り分けシステムとその方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7356960B2 (ja) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016029468A (ja) | 2014-07-16 | 2016-03-03 | パナソニック インテレクチュアル プロパティ コーポレーション オブアメリカPanasonic Intellectual Property Corporation of America | 音声情報制御方法及び端末装置 |
JP2017167318A (ja) | 2016-03-16 | 2017-09-21 | 株式会社アドバンスト・メディア | 議事録生成装置、及び議事録生成プログラム |
JP2020122835A (ja) | 2019-01-29 | 2020-08-13 | パナソニックIpマネジメント株式会社 | 音声処理装置および音声処理方法 |
-
2020
- 2020-10-29 JP JP2020181115A patent/JP7356960B2/ja active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016029468A (ja) | 2014-07-16 | 2016-03-03 | パナソニック インテレクチュアル プロパティ コーポレーション オブアメリカPanasonic Intellectual Property Corporation of America | 音声情報制御方法及び端末装置 |
JP2017167318A (ja) | 2016-03-16 | 2017-09-21 | 株式会社アドバンスト・メディア | 議事録生成装置、及び議事録生成プログラム |
JP2020122835A (ja) | 2019-01-29 | 2020-08-13 | パナソニックIpマネジメント株式会社 | 音声処理装置および音声処理方法 |
Also Published As
Publication number | Publication date |
---|---|
JP2022071960A (ja) | 2022-05-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11699456B2 (en) | Automated transcript generation from multi-channel audio | |
US20220230642A1 (en) | Speaker Attributed Transcript Generation | |
US7672844B2 (en) | Voice processing apparatus | |
JP2022532313A (ja) | 分散システムにおいてユーザの好みに最適化するためのカスタマイズされた出力 | |
KR101994291B1 (ko) | 통합써머리를 제공하는 영상재생장치 및 방법 | |
Jin et al. | Speaker segmentation and clustering in meetings. | |
US10812921B1 (en) | Audio stream processing for distributed device meeting | |
JPH06332492A (ja) | 音声検出方法および検出装置 | |
KR101616112B1 (ko) | 음성 특징 벡터를 이용한 화자 분리 시스템 및 방법 | |
US9165182B2 (en) | Method and apparatus for using face detection information to improve speaker segmentation | |
US20220335949A1 (en) | Conference Data Processing Method and Related Device | |
JP5030868B2 (ja) | 会議音声録音システム | |
JP2017167318A (ja) | 議事録生成装置、及び議事録生成プログラム | |
US20220076686A1 (en) | Systems and methods for filtering unwanted sounds from a conference call using voice synthesis | |
US11468895B2 (en) | Distributed device meeting initiation | |
JP7356960B2 (ja) | 発言切り分けシステムとその方法 | |
CN110808062B (zh) | 混合语音分离方法和装置 | |
US7340398B2 (en) | Selective sampling for sound signal classification | |
US20230005488A1 (en) | Signal processing device, signal processing method, program, and signal processing system | |
US20230238002A1 (en) | Signal processing device, signal processing method and program | |
JP2013235050A (ja) | 情報処理装置及び方法、並びにプログラム | |
KR20220067276A (ko) | 단일 채널 음성신호에서 음원분리를 이용한 화자분리 장치 | |
JPH10240287A (ja) | 話者属性認識装置およびそれを用いた応答装置 | |
Schulz et al. | Binaural source separation in non-ideal reverberant environments | |
JP7243145B2 (ja) | 情報処理装置、情報処理システム及び情報処理方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220609 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20230320 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230404 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230531 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230919 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230925 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7356960 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |