JP5779032B2 - 話者分類装置、話者分類方法および話者分類プログラム - Google Patents
話者分類装置、話者分類方法および話者分類プログラム Download PDFInfo
- Publication number
- JP5779032B2 JP5779032B2 JP2011166071A JP2011166071A JP5779032B2 JP 5779032 B2 JP5779032 B2 JP 5779032B2 JP 2011166071 A JP2011166071 A JP 2011166071A JP 2011166071 A JP2011166071 A JP 2011166071A JP 5779032 B2 JP5779032 B2 JP 5779032B2
- Authority
- JP
- Japan
- Prior art keywords
- speaker
- utterance
- classification
- character string
- acoustic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 18
- 238000000605 extraction Methods 0.000 claims description 18
- 238000001514 detection method Methods 0.000 claims description 13
- 238000006243 chemical reaction Methods 0.000 claims description 8
- 239000000284 extract Substances 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
- G10L21/028—Voice signal separating using properties of sound source
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
第1の実施形態の話者分類装置は、会議等で収録済みの音響信号中の発話を話者毎に分類する装置である。発話を話者毎に分類することにより、議事録作成者(ユーザ)が、収録済みの音響信号のうち所望の話者の発話のみを選択的に聞くことができる。これによりユーザは、同一話者による発話内容の整合性を確認したり、会話の流れを確認したりすることが可能になり、議事録作成をスムーズに進めることができる。
図1は、第1の実施形態にかかる話者分類装置を示すブロック図である。本実施形態の話者分類装置は、入力された音響信号を発話毎に分割する発話分割部101と、音響的な特徴を利用して分割された発話を話者毎に分類し分類結果を取得する音響分類部102と、音声認識を利用して各発話の内容を表す文字列を取得する文字列変換部103と、分類結果に含まれる各話者について発話の内容を表す文字列を取得し、この文字列を利用して各話者の言語的な特徴を抽出する言語特徴抽出部104と、各発話の内容を表す文字列が、分類結果においてこの発話が分類された話者の言語的な特徴に適合するか否かを判別し、適合しない場合は、この発話は前記音響分類手段によって誤った話者に分類された発話であると判別する誤分類検出部105と、誤った話者に分類された発話と判別された発話の文字列が、他の話者の言語的な特徴に適合するか否かを判別し、適合した場合は、この発話はこの話者に属する発話であると判別する再分類判別部106と、話者分類装置による分類結果をユーザに適宜提示する表示部107とを備える。
本実施形態の読み記号列編集装置は、図2に示すような通常のコンピュータを利用したハードウェアで構成されており、装置全体を制御するCPU(Central Processing Unit)等の制御部201と、各種データや各種プログラムを記憶するROM(Read Only Memory)やRAM(Random Access Memory)等の記憶部202と、各種データや各種プログラムを記憶するHDD(Hard Disk Drive)やCD(Compact Disk)ドライブ装置等の外部記憶部203と、ユーザの指示入力を受け付けるキーボードやマウスなどの操作部204と、外部装置との通信を制御する通信部205と、音声波形を再生して再生音を発生させるスピーカ206と、映像を表示するディスプレイ207と、これらを接続するバス208とを備えている。
発話分割部101は、入力された音響信号を発話毎に分割する。発話毎への分割には、エネルギーやスペクトル特徴量を使用した音声区間検出技術を用いる。議事録作成対象となる音響信号は、HDD等の外部記憶部203から取得したり、通信部205を介してネットワークで接続された他の端末(図示なし)から取得したりすることができる。発話分割部101は、それぞれの発話について、「発話ID、開始時刻、終了時刻」を取得する。ここで、発話IDは、各発話に付与される通し番号であり、先頭から1、2、3・・・のように付与する。開始時刻および終了時刻は、各発話の始端および終端位置が、音響信号のどの時刻に対応するかを現す時間情報である。例えば、「3、00:00:18、00:00:25」という結果は、3番目(ID3)の発話が音響信号の18秒から25秒の区間に含まれることを意味する。
図4は、本実施形態にかかる話者分類装置の動作を示すフローチャートである。
このように、本実実施形態の話者分類装置は、言語的な特徴を用いて、音響的な特徴を利用した分類によって誤分類された発話を判別する。また、言語的な特徴を用いて、音響的な特徴によって誤分類された発話が本来分類されるべき話者を判別する。これにより、背景雑音を含んだ発話のように音響的な特徴だけでは分類が難しい発話を、言語的な特徴を用いて正しい話者に分類することができる。
本実施形態では、ステップS415における分類結果をユーザに提示し、最終的な話者はユーザが選択する構成であったが、再分類判別部106の話者分類の結果を最終的な分類結果として確定することもできる。
102 音響分類部
103 文字列変換部
104 言語特徴抽出部
105 誤分類検出部
106 再分類判別部
107 表示部
201 制御部
202 記憶部
203 外部記憶部
204 操作部
205 通信部
206 スピーカ
207 ディスプレイ
208 バス
1201 カーソル
1202 再生ボタン
1203 発話内容
1204 ドロップダウンリスト
Claims (7)
- 入力された音響信号に含まれる発話を、前記音響信号から抽出した音響的な特徴を利用して話者毎に分類し分類結果を取得する音響分類手段と、
前記発話の内容を表す文字列を取得し、この文字列を利用して前記分類結果に含まれる話者の言語的な特徴を一人称ルール及び文末ルールを用いて抽出する言語特徴抽出手段と、
前記発話の内容を表す文字列が、前記分類結果においてこの発話が分類された話者の前記言語的な特徴に適合するか否かを判別し、適合しない場合は、この発話は前記音響分類手段によって誤分類された発話であると判別する誤分類検出手段と、
を備える話者分類装置。 - 前記誤分類検出手段によって誤分類と判別された発話の文字列が、前記分類結果においてこの発話が分類された話者以外の他の話者の言語的な特徴に適合するか否かを判別し、適合した場合は、この発話は前記他の話者に分類されるべき発話であると判別する再分類判別手段を更に備える請求項1記載の話者分類装置。
- 前記言語特徴抽出手段が、予め記憶した前記一人称ルール及び前記文末ルールと各話者の前記発話の内容を表す文字列とが適合するか否かを判別し、適合する発話の数が所定閾値を超えるルールを前記話者の言語的な特徴とする請求項1乃至請求項2記載の話者分類装置。
- 前記入力された音響信号に含まれる発話を音声認識して文字列に変換する文字列変換手段を更に備え、
前記発話の内容を表す文字列が、前記文字列変換手段で変換された文字列である請求項1から請求項3の何れか1項に記載の話者分類装置。 - 前記音響分類手段の分類結果もしくは前記再分類判別手段での判別結果を表示する表示手段を更に備える請求項2記載の話者分類装置。
- 入力された音響信号に含まれる発話を、前記音響信号から抽出した音響的な特徴を利用して話者毎に分類し分類結果を取得する音響分類工程と、
前記発話の内容を表す文字列を取得し、この文字列を利用して前記分類結果に含まれる話者の言語的な特徴を一人称ルール及び文末ルールを用いて抽出する言語特徴抽出工程と、
前記発話の内容を表す文字列が、前記分類結果においてこの発話が分類された話者の前記言語的な特徴に適合するか否かを判別し、適合しない場合は、この発話は前記音響分類工程によって誤分類された発話であると判別する誤分類検出工程と、
を備える話者分類方法。 - 話者分類装置に、
入力された音響信号に含まれる発話を、前記音響信号から抽出した音響的な特徴を利用して話者毎に分類し分類結果を取得する音響分類工程と、
前記発話の内容を表す文字列を取得し、この文字列を利用して前記分類結果に含まれる話者の言語的な特徴を一人称ルール及び文末ルールを用いて抽出する言語特徴抽出工程と、
前記発話の内容を表す文字列が、前記分類結果においてこの発話が分類された話者の前記言語的な特徴に適合するか否かを判別し、適合しない場合は、この発話は前記音響分類工程によって誤分類された発話であると判別する誤分類検出工程と、
を実現させるための話者分類プログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011166071A JP5779032B2 (ja) | 2011-07-28 | 2011-07-28 | 話者分類装置、話者分類方法および話者分類プログラム |
US13/412,694 US9251808B2 (en) | 2011-07-28 | 2012-03-06 | Apparatus and method for clustering speakers, and a non-transitory computer readable medium thereof |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011166071A JP5779032B2 (ja) | 2011-07-28 | 2011-07-28 | 話者分類装置、話者分類方法および話者分類プログラム |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015138079A Division JP5997813B2 (ja) | 2015-07-09 | 2015-07-09 | 話者分類装置、話者分類方法および話者分類プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013029690A JP2013029690A (ja) | 2013-02-07 |
JP5779032B2 true JP5779032B2 (ja) | 2015-09-16 |
Family
ID=47597960
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011166071A Active JP5779032B2 (ja) | 2011-07-28 | 2011-07-28 | 話者分類装置、話者分類方法および話者分類プログラム |
Country Status (2)
Country | Link |
---|---|
US (1) | US9251808B2 (ja) |
JP (1) | JP5779032B2 (ja) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014202848A (ja) * | 2013-04-03 | 2014-10-27 | 株式会社東芝 | テキスト生成装置、方法、及びプログラム |
JP6596924B2 (ja) * | 2014-05-29 | 2019-10-30 | 日本電気株式会社 | 音声データ処理装置、音声データ処理方法、及び、音声データ処理プログラム |
KR101699337B1 (ko) * | 2014-08-20 | 2017-01-24 | 전자부품연구원 | Shvc 기반의 uhd 영상데이터 송수신 시스템 |
JP6392051B2 (ja) * | 2014-09-22 | 2018-09-19 | 株式会社東芝 | 電子機器、方法およびプログラム |
US9875742B2 (en) * | 2015-01-26 | 2018-01-23 | Verint Systems Ltd. | Word-level blind diarization of recorded calls with arbitrary number of speakers |
JP6852470B2 (ja) * | 2017-03-07 | 2021-03-31 | コニカミノルタ株式会社 | 話者判定システム、話者判定方法および話者判定プログラム |
JP6927308B2 (ja) * | 2017-07-26 | 2021-08-25 | 日本電気株式会社 | 音声操作装置及びその制御方法 |
EP3940695A4 (en) * | 2019-03-15 | 2022-03-30 | Fujitsu Limited | EDITING SUPPORT PROGRAM, EDITING SUPPORT METHOD AND EDITING SUPPORT DEVICE |
CN112992175B (zh) * | 2021-02-04 | 2023-08-11 | 深圳壹秘科技有限公司 | 一种语音区分方法及其语音记录装置 |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3735209B2 (ja) * | 1999-03-03 | 2006-01-18 | 富士通株式会社 | 話者認識装置及び方法 |
JP2000352995A (ja) * | 1999-06-14 | 2000-12-19 | Canon Inc | 会議音声処理方法および記録装置、情報記憶媒体 |
EP1280137B1 (en) * | 2001-07-24 | 2004-12-29 | Sony International (Europe) GmbH | Method for speaker identification |
JP4769031B2 (ja) * | 2005-06-24 | 2011-09-07 | マイクロソフト コーポレーション | 言語モデルを作成する方法、かな漢字変換方法、その装置、コンピュータプログラムおよびコンピュータ読み取り可能な記憶媒体 |
JP4728972B2 (ja) * | 2007-01-17 | 2011-07-20 | 株式会社東芝 | インデキシング装置、方法及びプログラム |
JP5229219B2 (ja) * | 2007-03-27 | 2013-07-03 | 日本電気株式会社 | 話者選択装置、話者適応モデル作成装置、話者選択方法、話者選択用プログラムおよび話者適応モデル作成プログラム |
JP4322934B2 (ja) * | 2007-03-28 | 2009-09-02 | 株式会社東芝 | 音声認識装置、方法およびプログラム |
US8019760B2 (en) * | 2007-07-09 | 2011-09-13 | Vivisimo, Inc. | Clustering system and method |
JP2010060850A (ja) * | 2008-09-04 | 2010-03-18 | Nec Corp | 議事録作成支援装置、議事録作成支援方法、議事録作成支援用プログラム及び議事録作成支援システム |
CN101996628A (zh) * | 2009-08-21 | 2011-03-30 | 索尼株式会社 | 提取语音信号的韵律特征的方法和装置 |
US8554562B2 (en) * | 2009-11-15 | 2013-10-08 | Nuance Communications, Inc. | Method and system for speaker diarization |
US8694304B2 (en) * | 2010-03-26 | 2014-04-08 | Virtuoz Sa | Semantic clustering and user interfaces |
US20120209605A1 (en) * | 2011-02-14 | 2012-08-16 | Nice Systems Ltd. | Method and apparatus for data exploration of interactions |
US8630860B1 (en) * | 2011-03-03 | 2014-01-14 | Nuance Communications, Inc. | Speaker and call characteristic sensitive open voice search |
-
2011
- 2011-07-28 JP JP2011166071A patent/JP5779032B2/ja active Active
-
2012
- 2012-03-06 US US13/412,694 patent/US9251808B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
US20130030794A1 (en) | 2013-01-31 |
US9251808B2 (en) | 2016-02-02 |
JP2013029690A (ja) | 2013-02-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5779032B2 (ja) | 話者分類装置、話者分類方法および話者分類プログラム | |
US11636860B2 (en) | Word-level blind diarization of recorded calls with arbitrary number of speakers | |
US10950242B2 (en) | System and method of diarization and labeling of audio data | |
JP6596376B2 (ja) | 話者識別方法及び話者識別装置 | |
JP4600828B2 (ja) | 文書対応付け装置、および文書対応付け方法 | |
TW202008349A (zh) | 語音標註方法、裝置及設備 | |
US8972260B2 (en) | Speech recognition using multiple language models | |
CN107305541A (zh) | 语音识别文本分段方法及装置 | |
JP2017058483A (ja) | 音声処理装置、音声処理方法及び音声処理プログラム | |
JP2009139862A (ja) | 音声認識装置及びコンピュータプログラム | |
JP6495792B2 (ja) | 音声認識装置、音声認識方法、プログラム | |
JP5099211B2 (ja) | 音声データの質問発話部抽出処理プログラム,方法および装置,ならびに音声データの質問発話部を用いた顧客問い合わせ傾向推定処理プログラム,方法および装置 | |
CN114141252A (zh) | 声纹识别方法、装置、电子设备和存储介质 | |
CN104750677A (zh) | 语音传译装置、语音传译方法及语音传译程序 | |
JP5997813B2 (ja) | 話者分類装置、話者分類方法および話者分類プログラム | |
JP5897718B2 (ja) | 音声検索装置、計算機読み取り可能な記憶媒体、及び音声検索方法 | |
JP5713782B2 (ja) | 情報処理装置、情報処理方法及びプログラム | |
Schuller et al. | Incremental acoustic valence recognition: an inter-corpus perspective on features, matching, and performance in a gating paradigm | |
EP4233045A1 (en) | Embedded dictation detection | |
US11632345B1 (en) | Message management for communal account | |
CN118284932A (zh) | 用于对混合带宽语音信号执行说话人分割聚类的方法和装置 | |
CN118355436A (zh) | 用于基于语言识别执行说话人日志的方法及设备 | |
Chen et al. | A proof-of-concept study for automatic speech recognition to transcribe AAC speakers’ speech from high-technology AAC systems | |
CN113555010A (zh) | 语音处理方法和语音处理装置 | |
CN113314123A (zh) | 语音处理方法、电子设备及存储装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20140129 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20140929 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20141031 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20141226 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20150216 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20150218 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20150612 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20150710 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 5779032 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313114 Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |