JP2021157081A - 話者認識装置、話者認識方法およびプログラム - Google Patents
話者認識装置、話者認識方法およびプログラム Download PDFInfo
- Publication number
- JP2021157081A JP2021157081A JP2020058067A JP2020058067A JP2021157081A JP 2021157081 A JP2021157081 A JP 2021157081A JP 2020058067 A JP2020058067 A JP 2020058067A JP 2020058067 A JP2020058067 A JP 2020058067A JP 2021157081 A JP2021157081 A JP 2021157081A
- Authority
- JP
- Japan
- Prior art keywords
- person
- registered
- speaker
- recognition
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims description 29
- 230000000295 complement effect Effects 0.000 claims description 22
- 238000004364 calculation method Methods 0.000 claims description 20
- 230000006870 function Effects 0.000 claims description 4
- 238000010586 diagram Methods 0.000 description 13
- 238000009826 distribution Methods 0.000 description 8
- 238000012545 processing Methods 0.000 description 8
- 238000004590 computer program Methods 0.000 description 7
- 230000005540 biological transmission Effects 0.000 description 6
- 238000012549 training Methods 0.000 description 5
- 230000006399 behavior Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 4
- 239000012634 fragment Substances 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000003542 behavioural effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000001815 facial effect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000013517 stratification Methods 0.000 description 1
Images
Landscapes
- Image Analysis (AREA)
- Collating Specific Patterns (AREA)
Abstract
Description
登録人物ごとに、前記登録人物それぞれの音声データから生成された前記登録人物ごとの背景モデルを記憶する背景モデル記憶部と、
前記登録人物ごとに、前記登録人物の音声と、該登録人物の前記背景モデルとから算出された話者モデルを記憶する話者モデル記憶部と、
認識対象者の音声データを取得する音声入力部と、
前記音声入力部で取得した音声データと、前記背景モデルおよび前記話者モデルとから、前記認識対象者が前記登録人物のいずれであるかを判定する認識部と、
を備える。
前記類似度算出部で算出した類似度の最大値が所定の値以上である場合に、前記認識対象者が、前記最大値の類似度に対応する話者モデルの登録人物であると判定する。
前記属性情報に基づいて、前記認識対象者が含まれるか否かを判定する前記登録人物の集合を部分集合に限定する限定部と、を備え、
前記認識部は、前記音声入力部で取得した音声データと、前記部分集合に含まれる前記登録人物の前記背景モデルおよび前記話者モデルとから、前記認識対象者が前記部分集合に含まれる前記登録人物のいずれであるかを判定する。
前記限定部は、前記認識対象者の音声データが取得された時刻と、前記登録人物ごとの行動様式とに基づいて、前記認識対象者が含まれるか否かを判定する前記登録人物の集合を部分集合に限定する。
音声に基づいて認識対象者を認識する話者認識装置が行う話者認識方法であって、
認識対象者の音声データを取得する音声入力ステップと、
登録人物ごとに、前記登録人物それぞれの音声データから生成された前記登録人物ごとの背景モデルを記憶する背景モデル記憶部から、前記登録人物ごとの背景モデルを取得する背景取得ステップと、
前記登録人物ごとに、前記登録人物の音声と、該登録人物の前記背景モデルとから算出された話者モデルを記憶する話者モデル記憶部から、前記登録人物ごとの話者モデルを取得する話者モデル取得ステップと、
前記音声入力ステップで取得した音声データと、前記登録人物ごとの背景モデルおよび前記登録人物ごとの話者モデルとから、前記認識対象者が前記登録人物のいずれであるかを判定する認識ステップと、
を備える。
コンピュータを
登録人物ごとに、前記登録人物それぞれの音声データから生成された前記登録人物ごとの背景モデルを記憶する背景モデル記憶部、
前記登録人物ごとに、前記登録人物の音声と、該登録人物の前記背景モデルとから算出された話者モデルを記憶する話者モデル記憶部、
認識対象者の音声データを取得する音声入力部、ならびに
前記音声入力部で取得した音声データと、前記背景モデルおよび前記話者モデルとから、前記認識対象者が前記登録人物のいずれであるかを判定する認識部、
として機能させる。
図1は、本発明の実施の形態1に係る話者認識装置の構成を示すブロック図である。話者認識装置1は、マイクロフォン21に入力された認識対象者の音声データから特徴量を生成し、登録されている人物の話者モデルと比較して、認識対象者が登録人物のいずれであるか否かを判定する。
図6は、本発明の実施の形態2に係る話者認識装置の構成を示すブロック図である。実施の形態2の話者認識装置1は、実施の形態1の構成に加えて、限定部18および属性記憶部19を備える。限定部18は、属性記憶部19に記憶されている登録人物ごとの属性情報20に基づいて、認識対象者がいずれであるかを判定する登録人物の集合を部分集合に限定する。認証部11は、認識対象者が限定された部分集合に含まれる登録人物のいずれであるかを判定する。その他の構成は、実施の形態1と同様である。
10 音声入力部
11 認識部
12 背景モデル記憶部
13 話者モデル記憶部
14 特徴量生成部
15 類似度算出部
16 背景モデル
17 話者モデル
18 限定部
19 属性記憶部
20 属性情報
Claims (10)
- 登録人物ごとに、前記登録人物それぞれの音声データから生成された前記登録人物ごとの背景モデルを記憶する背景モデル記憶部と、
前記登録人物ごとに、前記登録人物の音声と、該登録人物の前記背景モデルとから算出された話者モデルを記憶する話者モデル記憶部と、
認識対象者の音声データを取得する音声入力部と、
前記音声入力部で取得した音声データと、前記背景モデルおよび前記話者モデルとから、前記認識対象者が前記登録人物のいずれであるかを判定する認識部と、
を備える話者認識装置。 - 前記認識部において、前記認識対象者が前記登録人物のいずれであるかを判定することは、前記認識対象者が前記登録人物の少なくともいずれか1人以上に該当する可能性が考えられる場合に、前記認識対象者が前記登録人物のいずれかであると判定することを少なくとも含む、請求項1に記載の話者認識装置。
- 前記認識部において、前記認識対象者が前記登録人物のいずれであるかを判定できない場合に、前記認識対象者が前記登録人物のいずれでもないと判定する、請求項1または2に記載の話者認識装置。
- 前記認識部は、前記音声入力部で取得した音声データと、前記背景モデルそれぞれとから、前記背景モデルごとの前記音声データの特徴量である対象特徴量を生成する特徴量生成部を含む、請求項1から3のいずれか1項に記載の話者認識装置。
- 前記認識部は、前記背景モデルごとの前記対象特徴量と、該背景モデルに対応する前記話者モデルとの類似度を算出する類似度算出部を含み、
前記類似度算出部で算出した類似度の最大値が所定の値以上である場合に、前記認識対象者が、前記最大値の類似度に対応する話者モデルの登録人物であると判定する、
請求項4に記載の話者認識装置。 - 前記登録人物ごとに、前記登録人物ごとの属性情報を記憶する属性記憶部と、
前記属性情報に基づいて、前記認識対象者が含まれるか否かを判定する前記登録人物の集合を部分集合に限定する限定部と、を備え、
前記認識部は、前記音声入力部で取得した音声データと、前記部分集合に含まれる前記登録人物の前記背景モデルおよび前記話者モデルとから、前記認識対象者が前記部分集合に含まれる前記登録人物のいずれであるかを判定する、請求項1から5のいずれか1項に記載の話者認識装置。 - 前記属性情報は、前記登録人物ごとの行動様式を含み、
前記限定部は、前記認識対象者の音声データが取得された時刻と、前記登録人物ごとの行動様式とに基づいて、前記認識対象者がいずれであるかを判定する前記登録人物の集合を部分集合に限定する、請求項6に記載の話者認識装置。 - 前記認識部は、前記認識対象者が前記部分集合に含まれないと判定した場合に、前記音声入力部で取得した音声データと、前記登録人物の集合における前記部分集合の補集合に含まれる前記登録人物の前記背景モデルおよび前記話者モデルとから、前記認識対象者が前記補集合に含まれる前記登録人物のいずれであるかを判定する、請求項6または7に記載の話者認識装置。
- 音声に基づいて認識対象者を認識する話者認識装置が行う話者認識方法であって、
認識対象者の音声データを取得する音声入力ステップと、
登録人物ごとに、前記登録人物それぞれの音声データから生成された前記登録人物ごとの背景モデルを記憶する背景モデル記憶部から、前記登録人物ごとの背景モデルを取得する背景取得ステップと、
前記登録人物ごとに、前記登録人物の音声と、該登録人物の前記背景モデルとから算出された話者モデルを記憶する話者モデル記憶部から、前記登録人物ごとの話者モデルを取得する話者モデル取得ステップと、
前記音声入力ステップで取得した音声データと、前記登録人物ごとの背景モデルおよび前記登録人物ごとの話者モデルとから、前記認識対象者が前記登録人物のいずれであるかを判定する認識ステップと、
を備える話者認識方法。 - コンピュータを
登録人物ごとに、前記登録人物それぞれの音声データから生成された前記登録人物ごとの背景モデルを記憶する背景モデル記憶部、
前記登録人物ごとに、前記登録人物の音声と、該登録人物の前記背景モデルとから算出された話者モデルを記憶する話者モデル記憶部、
認識対象者の音声データを取得する音声入力部、ならびに
前記音声入力部で取得した音声データと、前記背景モデルおよび前記話者モデルとから、前記認識対象者が前記登録人物のいずれであるかを判定する認識部、
として機能させるプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020058067A JP7473910B2 (ja) | 2020-03-27 | 2020-03-27 | 話者認識装置、話者認識方法およびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020058067A JP7473910B2 (ja) | 2020-03-27 | 2020-03-27 | 話者認識装置、話者認識方法およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021157081A true JP2021157081A (ja) | 2021-10-07 |
JP7473910B2 JP7473910B2 (ja) | 2024-04-24 |
Family
ID=77919718
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020058067A Active JP7473910B2 (ja) | 2020-03-27 | 2020-03-27 | 話者認識装置、話者認識方法およびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7473910B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115019804A (zh) * | 2022-08-03 | 2022-09-06 | 北京惠朗时代科技有限公司 | 一种多员工密集签到的多重校验式声纹识别方法及系统 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3601438B2 (ja) | 2000-10-31 | 2004-12-15 | 日本電気株式会社 | バイオメトリックス式個人識別装置における優先処理装置 |
JP4098015B2 (ja) | 2002-07-18 | 2008-06-11 | 学校法人早稲田大学 | 話者識別方法およびそのシステム、並びにプログラム |
KR101170222B1 (ko) | 2007-07-09 | 2012-07-31 | 후지쯔 가부시끼가이샤 | 이용자 인증 장치, 이용자 인증 방법 및 이용자 인증 프로그램을 기록한 컴퓨터 판독 가능한 기록 매체 |
JP2017097188A (ja) | 2015-11-25 | 2017-06-01 | 日本電信電話株式会社 | 話者らしさ評価装置、話者識別装置、話者照合装置、話者らしさ評価方法、プログラム |
CN105513597B (zh) | 2015-12-30 | 2018-07-10 | 百度在线网络技术(北京)有限公司 | 声纹认证处理方法及装置 |
US20170236520A1 (en) | 2016-02-16 | 2017-08-17 | Knuedge Incorporated | Generating Models for Text-Dependent Speaker Verification |
JP2017223848A (ja) | 2016-06-16 | 2017-12-21 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America | 話者認識装置 |
-
2020
- 2020-03-27 JP JP2020058067A patent/JP7473910B2/ja active Active
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115019804A (zh) * | 2022-08-03 | 2022-09-06 | 北京惠朗时代科技有限公司 | 一种多员工密集签到的多重校验式声纹识别方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
JP7473910B2 (ja) | 2024-04-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108417217B (zh) | 说话人识别网络模型训练方法、说话人识别方法及系统 | |
US11244689B2 (en) | System and method for determining voice characteristics | |
US10699716B2 (en) | Artificial intelligence-based method and device for voiceprint authentication | |
Dobrišek et al. | Towards efficient multi-modal emotion recognition | |
US8185391B2 (en) | Speaker recognition via voice sample based on multiple nearest neighbor classifiers | |
US8099288B2 (en) | Text-dependent speaker verification | |
WO2017113680A1 (zh) | 声纹认证处理方法及装置 | |
CN102024455B (zh) | 说话人识别系统及其方法 | |
US20170236520A1 (en) | Generating Models for Text-Dependent Speaker Verification | |
US20110320202A1 (en) | Location verification system using sound templates | |
US20170294192A1 (en) | Classifying Signals Using Mutual Information | |
JP2007133414A (ja) | 音声の識別能力推定方法及び装置、ならびに話者認証の登録及び評価方法及び装置 | |
Ringeval et al. | Emotion recognition in the wild: Incorporating voice and lip activity in multimodal decision-level fusion | |
WO2020098523A1 (zh) | 一种语音识别方法、装置及计算设备 | |
US20140195232A1 (en) | Methods, systems, and circuits for text independent speaker recognition with automatic learning features | |
JP2018194828A (ja) | マルチビューベクトルの処理方法及び装置 | |
Aliaskar et al. | Human voice identification based on the detection of fundamental harmonics | |
JP2021157081A (ja) | 話者認識装置、話者認識方法およびプログラム | |
JP6996627B2 (ja) | 情報処理装置、制御方法、及びプログラム | |
WO2018137426A1 (zh) | 用户声音信息的识别方法及装置 | |
TWI778234B (zh) | 語者驗證系統 | |
US10235993B1 (en) | Classifying signals using correlations of segments | |
Impedovo et al. | A multi‐resolution multi‐classifier system for speaker verification | |
US20240152588A1 (en) | Voice signature for secure order pickup | |
Khan et al. | Robust Feature Extraction Techniques in Speech Recognition: A Comparative Analysis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230308 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20231228 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20240109 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20240227 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240312 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240404 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7473910 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |