JP2014145932A - 話者認識装置、話者認識方法及び話者認識プログラム - Google Patents
話者認識装置、話者認識方法及び話者認識プログラム Download PDFInfo
- Publication number
- JP2014145932A JP2014145932A JP2013014664A JP2013014664A JP2014145932A JP 2014145932 A JP2014145932 A JP 2014145932A JP 2013014664 A JP2013014664 A JP 2013014664A JP 2013014664 A JP2013014664 A JP 2013014664A JP 2014145932 A JP2014145932 A JP 2014145932A
- Authority
- JP
- Japan
- Prior art keywords
- speaker
- distribution
- data
- voice data
- similarity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims description 26
- 238000004364 calculation method Methods 0.000 claims description 44
- 238000012544 monitoring process Methods 0.000 claims description 32
- 230000001186 cumulative effect Effects 0.000 claims description 9
- 238000005315 distribution function Methods 0.000 claims description 9
- 238000012545 processing Methods 0.000 description 30
- 238000012795 verification Methods 0.000 description 27
- 238000012806 monitoring device Methods 0.000 description 23
- 238000010586 diagram Methods 0.000 description 16
- 238000000605 extraction Methods 0.000 description 9
- 238000001514 detection method Methods 0.000 description 6
- 238000006243 chemical reaction Methods 0.000 description 4
- 238000007796 conventional method Methods 0.000 description 4
- 238000002474 experimental method Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000003595 spectral effect Effects 0.000 description 3
- 230000005856 abnormality Effects 0.000 description 2
- 239000006185 dispersion Substances 0.000 description 2
- 230000010354 integration Effects 0.000 description 1
Images
Abstract
【解決手段】話者認識部31は、実際の録音環境で登録対象者の音声特徴データを複数取得する。判別値生成部48は、同一の話者の複数の音声特徴データから話者内距離分布を生成し、話者内距離分布から各登録対象者用の照合判別値を個別に設定する。そして、認識時にはこの各登録対象者用の照合判別値を用いて話者照合を行なうので、個人属性や使用環境の違いによる影響を受けることなく高い精度で話者照合を行なうことができる。
【選択図】図2
Description
(本人受理率)=1−(本人を棄却する確率)
が成立する。
また、他人を他人と正しく認識する確率は「他人棄却率」といい、他人を本人と誤って認識することは、「他人を受理する」という。他人棄却率については、
(他人棄却率)=1−(他人を受理する確率)
が成立する。
Tk=μ+α・σ
と表現すれば、本人受理率pkに対応する係数αのテーブルを持てばよいことになる。図7は、本人受理率pkと係数αのテーブルを示す図である。図7は、本人受理率pk「90.0%」〜「99.0%」について、対応する係数αを対応付けたテーブルの一例である。このようなテーブルを保持しておけば、所望の本人受理率pkにより対応する係数αを簡易に求めることが可能である。
12 窓監視装置
13 火災検知装置
20 マイクロホン
30 話者認識装置
31、131 話者認識部
32、51 テキスト判別部
33 監視制御部
34 監視部
41 AD変換部
42 音声区間抽出部
43 特徴パラメータ算出部
44 切替部
45 記憶部
46 距離算出部
47 認識処理部
47a 話者識別部
47b 話者照合部
48 判別値生成部
48a 話者内距離算出部
48b 分布生成部
48c 判別値算出部
52 登録処理部
53 データ選択部
60 監視装置
Claims (9)
- 音声データに基づいて該音声データの話者を認識する話者認識装置であって、
同一の登録対象者の複数の音声データから、前記同一の登録対象者の音声データ間の類似度の分布を算出する分布算出手段と、
前記分布算出手段により算出された前記類似度の分布から、認識対象となる音声データの話者が前記登録対象者であるか否かを判別する為の判別値を算出する判別値算出手段と、
前記認識対象となる音声データが入力された場合に、予め登録された前記登録対象者の音声データとの類似度を算出し、該算出した類似度と前記判別値とを比較して、前記認識対象となる音声データの話者が前記登録対象者であるか否かを判別する判別手段と
を備えたことを特徴とする話者認識装置。 - 前記分布算出手段は、前記同一の登録対象者の音声データ間の距離のガウス分布を算出し、
前記判別値算出手段は、前記ガウス分布の累積分布関数が指定された本人受理率と一致する距離を前記判別値として算出する
ことを特徴とする請求項1に記載の話者識別装置。 - 前記ガウス分布の標準偏差に対する係数と前記本人受理率との対応関係を記憶する対応関係記憶手段をさらに備え、
前記判別値算出手段は、前記対応関係記憶手段によって前記指定された本人受理率に対応付けられた係数を前記ガウス分布の標準偏差に乗算し、前記ガウス分布の平均値を加算した値を前記判別値として算出する
ことを特徴とする請求項2に記載の話者認識装置。 - 前記認識対象となる音声データの入力を受け付ける入力受付手段をさらに備え、
前記分布算出手段は、前記入力受付手段により受け付けられた前記登録対象者の複数の音声データから前記類似度の分布を算出する
ことを特徴とする請求項1、2又は3に記載の話者認識装置。 - 前記判別手段により、前記認識対象となる音声データの話者が前記登録対象者であると判別した場合に、前記認識対象となる音声データを前記登録対象者の音声データとして追加登録する追加登録手段をさらに備え、
前記分布算出手段は、前記追加登録手段により追加登録された音声データをさらに用いて前記類似度の分布を算出する
ことを特徴とする請求項1〜4のいずれか一つに記載の話者認識装置。 - 前記分布算出手段は、前記同一の登録対象者の複数の音声データとして用いるために、音声データの登録を行なう際に、前記同一の登録対象者について既に登録された登録済の音声データが存在する場合には、前記登録済の音声データとの類似度に応じて、登録対象の音声データの登録可否を判定することを特徴とする請求項1〜5のいずれか一つに記載の話者認識装置。
- 監視対象に対する監視動作を行なう監視手段と、
前記認識対象となる音声データに含まれる単語を判定する単語判定手段と、
前記判別手段により、前記認識対象となる音声データの話者が前記登録対象者であると判別した場合に、前記単語判定手段により判定された単語に基づいて前記監視手段の監視動作を制御する制御手段と
をさらに備えたことを特徴とする請求項1〜6のいずれか一つに記載の話者認識装置。 - 音声データに基づいて該音声データの話者を認識する話者認識方法であって、
同一の登録対象者の複数の音声データから、前記同一の登録対象者の音声データ間の類似度の分布を算出する分布算出ステップと、
前記分布算出ステップにより算出された前記類似度の分布から、認識対象となる音声データの話者が前記登録対象者であるか否かを判別する為の判別値を算出する判別値算出ステップと、
前記認識対象となる音声データが入力された場合に、予め登録された前記登録対象者の音声データとの類似度を算出し、該算出した類似度と前記判別値とを比較して、前記認識対象となる音声データの話者が前記登録対象者であるか否かを判別する判別ステップと
を含んだことを特徴とする話者認識方法。 - 音声データに基づいて該音声データの話者を認識する話者認識プログラムであって、
同一の登録対象者の複数の音声データから、前記同一の登録対象者の音声データ間の類似度の分布を算出する分布算出ステップと、
前記分布算出ステップにより算出された前記類似度の分布から、認識対象となる音声データの話者が前記登録対象者であるか否かを判別する為の判別値を算出する判別値算出ステップと、
前記認識対象となる音声データが入力された場合に、予め登録された前記登録対象者の音声データとの類似度を算出し、該算出した類似度と前記判別値とを比較して、前記認識対象となる音声データの話者が前記登録対象者であるか否かを判別する判別ステップと
をコンピュータに実行させることを特徴とする話者認識プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013014664A JP6239826B2 (ja) | 2013-01-29 | 2013-01-29 | 話者認識装置、話者認識方法及び話者認識プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013014664A JP6239826B2 (ja) | 2013-01-29 | 2013-01-29 | 話者認識装置、話者認識方法及び話者認識プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2014145932A true JP2014145932A (ja) | 2014-08-14 |
JP6239826B2 JP6239826B2 (ja) | 2017-11-29 |
Family
ID=51426233
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013014664A Active JP6239826B2 (ja) | 2013-01-29 | 2013-01-29 | 話者認識装置、話者認識方法及び話者認識プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6239826B2 (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018527609A (ja) * | 2015-07-23 | 2018-09-20 | アリババ グループ ホウルディング リミテッド | ユーザ声紋モデルを構築するための方法、装置、及びシステム |
JP2018536889A (ja) * | 2015-10-14 | 2018-12-13 | アリババ グループ ホウルディング リミテッド | 音声データを使用して操作を開始するための方法および装置 |
WO2019082606A1 (ja) | 2017-10-24 | 2019-05-02 | パナソニックIpマネジメント株式会社 | コンテンツ管理機器、コンテンツ管理システム、および、制御方法 |
CN112216281A (zh) * | 2014-11-20 | 2021-01-12 | 三星电子株式会社 | 用于登记用户命令的显示装置和方法 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023204470A1 (ko) * | 2022-04-22 | 2023-10-26 | 엘지전자 주식회사 | 인공 지능 장치 및 그의 화자 자동 인식 방법 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6086696A (ja) * | 1983-10-19 | 1985-05-16 | 日本電気株式会社 | 住宅警備システム |
JPH08254991A (ja) * | 1995-03-16 | 1996-10-01 | Hitachi Zosen Corp | パターン認識装置 |
JP2000284798A (ja) * | 1999-04-01 | 2000-10-13 | Fujitsu Ltd | 話者照合装置及び方法 |
JP2001265387A (ja) * | 2000-03-23 | 2001-09-28 | Fujitsu Ltd | 話者照合装置及び方法 |
JP2002132283A (ja) * | 2000-10-25 | 2002-05-09 | Olympus Optical Co Ltd | 医療用制御システム |
-
2013
- 2013-01-29 JP JP2013014664A patent/JP6239826B2/ja active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6086696A (ja) * | 1983-10-19 | 1985-05-16 | 日本電気株式会社 | 住宅警備システム |
JPH08254991A (ja) * | 1995-03-16 | 1996-10-01 | Hitachi Zosen Corp | パターン認識装置 |
JP2000284798A (ja) * | 1999-04-01 | 2000-10-13 | Fujitsu Ltd | 話者照合装置及び方法 |
JP2001265387A (ja) * | 2000-03-23 | 2001-09-28 | Fujitsu Ltd | 話者照合装置及び方法 |
JP2002132283A (ja) * | 2000-10-25 | 2002-05-09 | Olympus Optical Co Ltd | 医療用制御システム |
Non-Patent Citations (1)
Title |
---|
早川昭二 他: ""事前に他人受理誤り率を指定する話者照合方式"", 電子情報通信学会論文誌, vol. 82, no. 12, JPN6017007718, 25 December 1999 (1999-12-25), pages 2212 - 2220, ISSN: 0003663356 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112216281A (zh) * | 2014-11-20 | 2021-01-12 | 三星电子株式会社 | 用于登记用户命令的显示装置和方法 |
JP2018527609A (ja) * | 2015-07-23 | 2018-09-20 | アリババ グループ ホウルディング リミテッド | ユーザ声紋モデルを構築するための方法、装置、及びシステム |
US11043223B2 (en) | 2015-07-23 | 2021-06-22 | Advanced New Technologies Co., Ltd. | Voiceprint recognition model construction |
JP2018536889A (ja) * | 2015-10-14 | 2018-12-13 | アリババ グループ ホウルディング リミテッド | 音声データを使用して操作を開始するための方法および装置 |
WO2019082606A1 (ja) | 2017-10-24 | 2019-05-02 | パナソニックIpマネジメント株式会社 | コンテンツ管理機器、コンテンツ管理システム、および、制御方法 |
US11301512B2 (en) | 2017-10-24 | 2022-04-12 | Panasonic Intellectual Property Management Co., Ltd. | Content management device, content management system, and control method |
Also Published As
Publication number | Publication date |
---|---|
JP6239826B2 (ja) | 2017-11-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102339594B1 (ko) | 객체 인식 방법, 컴퓨터 디바이스 및 컴퓨터 판독 가능 저장 매체 | |
CN109937447B (zh) | 语音识别装置、语音识别系统 | |
JP6350148B2 (ja) | 話者インデキシング装置、話者インデキシング方法及び話者インデキシング用コンピュータプログラム | |
US9354687B2 (en) | Methods and apparatus for unsupervised wakeup with time-correlated acoustic events | |
JP5708155B2 (ja) | 話者状態検出装置、話者状態検出方法及び話者状態検出用コンピュータプログラム | |
US8892424B2 (en) | Audio analysis terminal and system for emotion estimation of a conversation that discriminates utterance of a user and another person | |
JP6239826B2 (ja) | 話者認識装置、話者認識方法及び話者認識プログラム | |
US9335966B2 (en) | Methods and apparatus for unsupervised wakeup | |
US9530417B2 (en) | Methods, systems, and circuits for text independent speaker recognition with automatic learning features | |
CN107958669B (zh) | 一种声纹识别的方法及装置 | |
WO2006109515A1 (ja) | 操作者認識装置、操作者認識方法、および、操作者認識プログラム | |
US9595261B2 (en) | Pattern recognition device, pattern recognition method, and computer program product | |
JP6220304B2 (ja) | 音声識別装置 | |
US20180144740A1 (en) | Methods and systems for locating the end of the keyword in voice sensing | |
JP2004101901A (ja) | 音声対話装置及び音声対話プログラム | |
JP6087542B2 (ja) | 話者認識装置、話者認識方法及び話者認識プログラム | |
JP2000284798A (ja) | 話者照合装置及び方法 | |
US11437022B2 (en) | Performing speaker change detection and speaker recognition on a trigger phrase | |
JP2015055835A (ja) | 話者認識装置、話者認識方法及び話者認識プログラム | |
JP6616182B2 (ja) | 話者認識装置、判別値生成方法及びプログラム | |
EP3195314B1 (en) | Methods and apparatus for unsupervised wakeup | |
JP2001350494A (ja) | 照合装置及び照合方法 | |
JP6377921B2 (ja) | 話者認識装置、話者認識方法及び話者認識プログラム | |
JP2011221101A (ja) | コミュニケーション装置 | |
JP4840149B2 (ja) | 発音期間を特定する音信号処理装置およびプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20160129 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20170213 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20170314 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20170512 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20171024 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20171102 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6239826 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |