JP2017058483A - 音声処理装置、音声処理方法及び音声処理プログラム - Google Patents
音声処理装置、音声処理方法及び音声処理プログラム Download PDFInfo
- Publication number
- JP2017058483A JP2017058483A JP2015182325A JP2015182325A JP2017058483A JP 2017058483 A JP2017058483 A JP 2017058483A JP 2015182325 A JP2015182325 A JP 2015182325A JP 2015182325 A JP2015182325 A JP 2015182325A JP 2017058483 A JP2017058483 A JP 2017058483A
- Authority
- JP
- Japan
- Prior art keywords
- speaker
- similarity
- unit
- speech
- processing apparatus
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012545 processing Methods 0.000 title claims abstract description 70
- 238000003672 processing method Methods 0.000 title abstract description 4
- 238000004364 calculation method Methods 0.000 claims abstract description 20
- 238000000605 extraction Methods 0.000 claims abstract description 9
- 238000000034 method Methods 0.000 claims description 19
- 230000010354 integration Effects 0.000 claims description 9
- 239000000284 extract Substances 0.000 abstract description 5
- 238000010586 diagram Methods 0.000 description 20
- 238000004891 communication Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 239000000203 mixture Substances 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 238000000556 factor analysis Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
- G10L17/08—Use of distortion metrics or a particular distance between probe pattern and reference templates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Business, Economics & Management (AREA)
- Game Theory and Decision Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】音声処理装置100は、抽出部102と、分類部101と、類似度算出部104と、特定部106とを有する。抽出部102は、発話データから、音声特徴を抽出する。分類部101は、抽出された音声特徴をもとに、発話データを、話者毎の発話の集合に分類する。類似度算出部104は、集合に含まれる発話データの音声特徴と、複数の話者モデルそれぞれとの類似度を算出する。特定部106は、算出された類似度に基づいて、集合ごとに話者を特定する。
【選択図】図2
Description
図1は、実施形態1に係る音声処理装置100のハードウェア構成例を示す図である。図1に示すように、音声処理装置100は、CPU(Central Processing Unit)12と、RAM(Random Access Memory)13と、ROM(Read Only Memory)14と、表示装置15と、音声入力装置16と、通信I/F17と、操作部18とを有する。各ハードウェアは、システムバス11により互いに接続される。例えば、音声処理装置100は、PC(Personal Computer)やタブレット端末、サーバ装置等の情報処理装置である。
図8は、実施形態2に係る音声処理装置200の機能構成例を示すブロック図である。実施形態2では、実施形態1に係る音声処理装置100の機能構成と同様の構成については同一の符号を付し、その詳細な説明を省略する場合がある。具体的には、以下に説明する統合部209以外の各部の機能は、実施形態1に係る各部の機能と同様である。なお、実施形態2に係る音声処理装置200のハードウェア構成は、実施形態1に係る音声処理装置100のハードウェア構成と同様である。
101 分割部
102 抽出部
103 分類部
104 類似度算出部
105 記憶部
106 特定部
107 生成部
108 出力制御部
Claims (12)
- 発話データから、音声特徴を抽出する抽出部と、
抽出された前記音声特徴をもとに、前記発話データを、話者毎の発話の集合に分類する分類部と、
前記集合に含まれる前記発話データの前記音声特徴と、複数の話者モデルそれぞれとの類似度を算出する類似度算出部と、
算出された前記類似度に基づいて、前記集合ごとに話者を特定する特定部と
を有する音声処理装置。 - 前記分類部は、音声特徴の距離がより近い発話データの対を1の集合とし、前記集合の発話データの音声特徴との距離がより近い残りの発話データを該集合に分類する処理を繰り返し実行する請求項1に記載の音声処理装置。
- 前記特定部は、前記類似度の重み付き和が第1の閾値以上である前記集合の話者を前記話者モデルに対応する話者として特定する請求項1又は2に記載の音声処理装置。
- 前記類似度の重み付き和が前記第1の閾値よりも小さい第2の閾値未満である前記集合の話者を新たな話者として話者モデルを生成する生成部をさらに有する請求項3に記載の音声処理装置。
- 前記特定部は、前記類似度の重み付き和が所定の閾値以上である前記集合の話者を前記話者モデルに対応する話者として特定する請求項1又は2に記載の音声処理装置。
- 前記類似度の重み付き和が前記所定の閾値未満である前記集合の話者を新たな話者として話者モデルを生成する生成部をさらに有する請求項5に記載の音声処理装置。
- 前記特定部は、より短い時間での発話に対し、前記類似度の重みをより小さくする請求項3〜6の何れか一つに記載の音声処理装置。
- 前記特定部は、分類の精度がより低い発話に対し、前記類似度の重みをより小さくする請求項3〜7の何れか一つに記載の音声処理装置。
- 特定された話者が同一である前記集合を統合する統合部をさらに有する請求項1〜8の何れか一つに記載の音声処理装置。
- 話者の特定結果の出力を制御する出力制御部をさらに有する請求項1〜9の何れか一つに記載の音声処理装置。
- 発話データから、音声特徴を抽出するステップと、
抽出された前記音声特徴をもとに、前記発話データを、話者毎の発話の集合に分類するステップと、
前記集合に含まれる前記発話データの前記音声特徴と、複数の話者モデルそれぞれとの類似度を算出するステップと、
算出された前記類似度に基づいて、前記集合ごとに話者を特定するステップと
を含む音声処理方法。 - 音声処理装置に、
発話データから、音声特徴を抽出するステップと、
抽出された前記音声特徴をもとに、前記発話データを、話者毎の発話の集合に分類するステップと、
前記集合に含まれる前記発話データの前記音声特徴と、複数の話者モデルそれぞれとの類似度を算出するステップと、
算出された前記類似度に基づいて、前記集合ごとに話者を特定するステップと
を実行させるための音声処理プログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015182325A JP6556575B2 (ja) | 2015-09-15 | 2015-09-15 | 音声処理装置、音声処理方法及び音声処理プログラム |
US15/253,982 US10832685B2 (en) | 2015-09-15 | 2016-09-01 | Speech processing device, speech processing method, and computer program product |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015182325A JP6556575B2 (ja) | 2015-09-15 | 2015-09-15 | 音声処理装置、音声処理方法及び音声処理プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2017058483A true JP2017058483A (ja) | 2017-03-23 |
JP6556575B2 JP6556575B2 (ja) | 2019-08-07 |
Family
ID=58237026
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015182325A Active JP6556575B2 (ja) | 2015-09-15 | 2015-09-15 | 音声処理装置、音声処理方法及び音声処理プログラム |
Country Status (2)
Country | Link |
---|---|
US (1) | US10832685B2 (ja) |
JP (1) | JP6556575B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022113218A1 (ja) * | 2020-11-25 | 2022-06-02 | 日本電信電話株式会社 | 話者認識方法、話者認識装置および話者認識プログラム |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10311855B2 (en) * | 2016-03-29 | 2019-06-04 | Speech Morphing Systems, Inc. | Method and apparatus for designating a soundalike voice to a target voice from a database of voices |
US10347245B2 (en) * | 2016-12-23 | 2019-07-09 | Soundhound, Inc. | Natural language grammar enablement by speech characterization |
KR20180082033A (ko) * | 2017-01-09 | 2018-07-18 | 삼성전자주식회사 | 음성을 인식하는 전자 장치 |
EP3682443B1 (en) | 2017-09-11 | 2024-05-15 | Telefonaktiebolaget LM Ericsson (PUBL) | Voice-controlled management of user profiles |
WO2019048063A1 (en) | 2017-09-11 | 2019-03-14 | Telefonaktiebolaget Lm Ericsson (Publ) | VOICE COMMAND MANAGEMENT OF USER PROFILES |
US11094316B2 (en) * | 2018-05-04 | 2021-08-17 | Qualcomm Incorporated | Audio analytics for natural language processing |
US10847153B2 (en) * | 2018-06-06 | 2020-11-24 | Amazon Technologies, Inc. | Temporary account association with voice-enabled devices |
US11222641B2 (en) * | 2018-10-05 | 2022-01-11 | Panasonic Intellectual Property Corporation Of America | Speaker recognition device, speaker recognition method, and recording medium |
US11004454B1 (en) * | 2018-11-06 | 2021-05-11 | Amazon Technologies, Inc. | Voice profile updating |
EP3982360A4 (en) * | 2019-06-07 | 2022-06-08 | NEC Corporation | DEVICE AND METHOD FOR VOICE PROCESSING, AND NON-TRANSITORY COMPUTER READABLE MEDIA ON WHICH A PROGRAM IS STORED |
KR20190118539A (ko) * | 2019-09-30 | 2019-10-18 | 엘지전자 주식회사 | 발화 스타일을 고려하여 음성을 인식하는 인공 지능 장치 및 그 방법 |
KR20210053722A (ko) * | 2019-11-04 | 2021-05-12 | 삼성전자주식회사 | 전자장치 및 그 제어방법 |
US11664044B2 (en) | 2019-11-25 | 2023-05-30 | Qualcomm Incorporated | Sound event detection learning |
AU2021254787A1 (en) * | 2020-04-15 | 2022-10-27 | Pindrop Security, Inc. | Passive and continuous multi-speaker voice biometrics |
US11410677B2 (en) | 2020-11-24 | 2022-08-09 | Qualcomm Incorporated | Adaptive sound event classification |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000181489A (ja) * | 1998-12-10 | 2000-06-30 | Oki Electric Ind Co Ltd | 話者認識方法 |
JP2009025411A (ja) * | 2007-07-17 | 2009-02-05 | Yamaha Corp | 音声認識装置およびプログラム |
JP2009237353A (ja) * | 2008-03-27 | 2009-10-15 | Fujitsu Ltd | 関連付け装置、関連付け方法及びコンピュータプログラム |
JP2010032792A (ja) * | 2008-07-29 | 2010-02-12 | Nippon Telegr & Teleph Corp <Ntt> | 発話区間話者分類装置とその方法と、その装置を用いた音声認識装置とその方法と、プログラムと記録媒体 |
JP2012118251A (ja) * | 2010-11-30 | 2012-06-21 | Canon Inc | 情報処理装置およびその動作方法 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7620547B2 (en) | 2002-07-25 | 2009-11-17 | Sony Deutschland Gmbh | Spoken man-machine interface with speaker identification |
EP1387350A1 (en) | 2002-07-25 | 2004-02-04 | Sony International (Europe) GmbH | Spoken man-machine interface with speaker identification |
EP1639579A1 (fr) | 2003-07-01 | 2006-03-29 | France Telecom | Procede et systeme d'analyse de signaux vocaux pour la representation compacte de locuteurs |
US20090106025A1 (en) | 2006-03-24 | 2009-04-23 | Pioneer Corporation | Speaker model registering apparatus and method, and computer program |
JP4964204B2 (ja) | 2008-08-27 | 2012-06-27 | 日本電信電話株式会社 | 複数信号区間推定装置、複数信号区間推定方法、そのプログラムおよび記録媒体 |
JP5326892B2 (ja) * | 2008-12-26 | 2013-10-30 | 富士通株式会社 | 情報処理装置、プログラム、および音響モデルを生成する方法 |
JP5229124B2 (ja) | 2009-06-12 | 2013-07-03 | 日本電気株式会社 | 話者照合装置、話者照合方法およびプログラム |
US8630860B1 (en) * | 2011-03-03 | 2014-01-14 | Nuance Communications, Inc. | Speaker and call characteristic sensitive open voice search |
JP6596924B2 (ja) * | 2014-05-29 | 2019-10-30 | 日本電気株式会社 | 音声データ処理装置、音声データ処理方法、及び、音声データ処理プログラム |
-
2015
- 2015-09-15 JP JP2015182325A patent/JP6556575B2/ja active Active
-
2016
- 2016-09-01 US US15/253,982 patent/US10832685B2/en active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000181489A (ja) * | 1998-12-10 | 2000-06-30 | Oki Electric Ind Co Ltd | 話者認識方法 |
JP2009025411A (ja) * | 2007-07-17 | 2009-02-05 | Yamaha Corp | 音声認識装置およびプログラム |
JP2009237353A (ja) * | 2008-03-27 | 2009-10-15 | Fujitsu Ltd | 関連付け装置、関連付け方法及びコンピュータプログラム |
JP2010032792A (ja) * | 2008-07-29 | 2010-02-12 | Nippon Telegr & Teleph Corp <Ntt> | 発話区間話者分類装置とその方法と、その装置を用いた音声認識装置とその方法と、プログラムと記録媒体 |
JP2012118251A (ja) * | 2010-11-30 | 2012-06-21 | Canon Inc | 情報処理装置およびその動作方法 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022113218A1 (ja) * | 2020-11-25 | 2022-06-02 | 日本電信電話株式会社 | 話者認識方法、話者認識装置および話者認識プログラム |
Also Published As
Publication number | Publication date |
---|---|
JP6556575B2 (ja) | 2019-08-07 |
US20170076727A1 (en) | 2017-03-16 |
US10832685B2 (en) | 2020-11-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6556575B2 (ja) | 音声処理装置、音声処理方法及び音声処理プログラム | |
US9558741B2 (en) | Systems and methods for speech recognition | |
US8731926B2 (en) | Spoken term detection apparatus, method, program, and storage medium | |
US20200082808A1 (en) | Speech recognition error correction method and apparatus | |
US20140025382A1 (en) | Speech processing system | |
US20120271631A1 (en) | Speech recognition using multiple language models | |
US9886947B2 (en) | Speech recognition device and method, and semiconductor integrated circuit device | |
JP5692493B2 (ja) | 隠れマルコフモデル作成プログラム、情報記憶媒体、隠れマルコフモデル作成システム、音声認識システム及び音声認識方法 | |
JP2015206906A (ja) | 音声検索方法、音声検索装置、並びに、音声検索装置用のプログラム | |
US11170763B2 (en) | Voice interaction system, its processing method, and program therefor | |
JP5753769B2 (ja) | 音声データ検索システムおよびそのためのプログラム | |
JP2013167666A (ja) | 音声認識装置、音声認識方法、及びプログラム | |
JP6556381B2 (ja) | モデル学習装置及びモデル学習方法 | |
US20220392439A1 (en) | Rescoring Automatic Speech Recognition Hypotheses Using Audio-Visual Matching | |
JP6632764B2 (ja) | 意図推定装置及び意図推定方法 | |
US8751236B1 (en) | Devices and methods for speech unit reduction in text-to-speech synthesis systems | |
JPWO2010050414A1 (ja) | モデル適応装置、その方法及びそのプログラム | |
JP6577900B2 (ja) | 音素誤り獲得装置、音素誤り獲得方法、およびプログラム | |
JP2015084047A (ja) | 文集合作成装置、文集合作成方法および文集合作成プログラム | |
JP2015060210A (ja) | データ収集装置、音声対話装置、方法およびプログラム | |
JP6220733B2 (ja) | 音声分類装置、音声分類方法、プログラム | |
JP5980101B2 (ja) | 音響モデル学習用テキスト作成装置とその方法とプログラム | |
JP6674876B2 (ja) | 補正装置、補正方法及び補正プログラム | |
JP2015200913A (ja) | 話者分類装置、話者分類方法および話者分類プログラム | |
JP6546070B2 (ja) | 音響モデル学習装置、音声認識装置、音響モデル学習方法、音声認識方法、およびプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20180131 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20181130 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20181211 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190109 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190611 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190710 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 6556575 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |