JP7473910B2 - 話者認識装置、話者認識方法およびプログラム - Google Patents
話者認識装置、話者認識方法およびプログラム Download PDFInfo
- Publication number
- JP7473910B2 JP7473910B2 JP2020058067A JP2020058067A JP7473910B2 JP 7473910 B2 JP7473910 B2 JP 7473910B2 JP 2020058067 A JP2020058067 A JP 2020058067A JP 2020058067 A JP2020058067 A JP 2020058067A JP 7473910 B2 JP7473910 B2 JP 7473910B2
- Authority
- JP
- Japan
- Prior art keywords
- person
- registered
- speaker
- recognition
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 28
- PWPJGUXAGUPAHP-UHFFFAOYSA-N lufenuron Chemical compound C1=C(Cl)C(OC(F)(F)C(C(F)(F)F)F)=CC(Cl)=C1NC(=O)NC(=O)C1=C(F)C=CC=C1F PWPJGUXAGUPAHP-UHFFFAOYSA-N 0.000 title 1
- 238000004364 calculation method Methods 0.000 claims description 25
- 230000000295 complement effect Effects 0.000 claims description 20
- 230000003542 behavioural effect Effects 0.000 claims description 5
- 238000010586 diagram Methods 0.000 description 14
- 238000012545 processing Methods 0.000 description 8
- 239000013598 vector Substances 0.000 description 7
- 230000005540 biological transmission Effects 0.000 description 6
- 238000004590 computer program Methods 0.000 description 6
- 238000012549 training Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000006399 behavior Effects 0.000 description 2
- 239000012634 fragment Substances 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000001815 facial effect Effects 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
Images
Landscapes
- Image Analysis (AREA)
- Collating Specific Patterns (AREA)
Description
登録人物ごとに、前記登録人物それぞれの音声データから生成された前記登録人物ごとの背景モデルを記憶する背景モデル記憶部と、
前記登録人物ごとに、前記登録人物の音声と、該登録人物の前記背景モデルとから算出された話者モデルを記憶する話者モデル記憶部と、
認識対象者の音声データを取得する音声入力部と、
前記音声入力部で取得した音声データと、前記背景モデルおよび前記話者モデルとから、前記認識対象者が前記登録人物のいずれであるかを判定する認識部と、
を備え、
前記認識部は、
前記音声入力部で取得した音声データと、前記背景モデルそれぞれとから、前記背景モデルごとの前記音声データの特徴量である対象特徴量を生成する特徴量生成部と、
前記背景モデルごとの前記対象特徴量と、該背景モデルに対応する前記話者モデルとの類似度を算出する類似度算出部と、
を含み、
前記類似度算出部で算出した類似度の最大値が所定の値以上である場合に、前記認識対象者が、前記最大値の類似度に対応する話者モデルの登録人物であると判定する。
前記属性情報に基づいて、前記認識対象者が含まれるか否かを判定する前記登録人物の集合を部分集合に限定する限定部と、を備え、
前記認識部は、前記音声入力部で取得した音声データと、前記部分集合に含まれる前記登録人物の前記背景モデルおよび前記話者モデルとから、前記認識対象者が前記部分集合に含まれる前記登録人物のいずれであるかを判定する。
前記限定部は、前記認識対象者の音声データが取得された時刻と、前記登録人物ごとの行動様式とに基づいて、前記認識対象者が含まれるか否かを判定する前記登録人物の集合を部分集合に限定する。
音声に基づいて認識対象者を認識する話者認識装置が行う話者認識方法であって、
認識対象者の音声データを取得する音声入力ステップと、
登録人物ごとに、前記登録人物それぞれの音声データから生成された前記登録人物ごとの背景モデルを記憶する背景モデル記憶部から、前記登録人物ごとの背景モデルを取得する背景取得ステップと、
前記登録人物ごとに、前記登録人物の音声と、該登録人物の前記背景モデルとから算出された話者モデルを記憶する話者モデル記憶部から、前記登録人物ごとの話者モデルを取得する話者モデル取得ステップと、
前記音声入力ステップで取得した音声データと、前記登録人物ごとの背景モデルおよび前記登録人物ごとの話者モデルとから、前記認識対象者が前記登録人物のいずれであるかを判定する認識ステップと、
を備え、
前記認識ステップでは、
前記音声入力ステップで取得した音声データと、前記背景モデルそれぞれとから、前記背景モデルごとの前記音声データの特徴量である対象特徴量を生成し、
前記背景モデルごとの前記対象特徴量と、該背景モデルに対応する前記話者モデルとの類似度を算出し、
前記算出した類似度の最大値が所定の値以上である場合に、前記認識対象者が、前記最大値の類似度に対応する話者モデルの登録人物であると判定する。
コンピュータを
登録人物ごとに、前記登録人物それぞれの音声データから生成された前記登録人物ごとの背景モデルを記憶する背景モデル記憶部、
前記登録人物ごとに、前記登録人物の音声と、該登録人物の前記背景モデルとから算出された話者モデルを記憶する話者モデル記憶部、
認識対象者の音声データを取得する音声入力部、ならびに
前記音声入力部で取得した音声データと、前記背景モデルおよび前記話者モデルとから、前記認識対象者が前記登録人物のいずれであるかを判定する認識部、
として機能させ、
前記認識部は、
前記音声入力部で取得した音声データと、前記背景モデルそれぞれとから、前記背景モデルごとの前記音声データの特徴量である対象特徴量を生成する特徴量生成部と、
前記背景モデルごとの前記対象特徴量と、該背景モデルに対応する前記話者モデルとの類似度を算出する類似度算出部と、
を含み、
前記類似度算出部で算出した類似度の最大値が所定の値以上である場合に、前記認識対象者が、前記最大値の類似度に対応する話者モデルの登録人物であると判定する。
図1は、本発明の実施の形態1に係る話者認識装置の構成を示すブロック図である。話者認識装置1は、マイクロフォン21に入力された認識対象者の音声データから特徴量を生成し、登録されている人物の話者モデルと比較して、認識対象者が登録人物のいずれであるか否かを判定する。
図6は、本発明の実施の形態2に係る話者認識装置の構成を示すブロック図である。実施の形態2の話者認識装置1は、実施の形態1の構成に加えて、限定部18および属性記憶部19を備える。限定部18は、属性記憶部19に記憶されている登録人物ごとの属性情報20に基づいて、認識対象者がいずれであるかを判定する登録人物の集合を部分集合に限定する。認証部11は、認識対象者が限定された部分集合に含まれる登録人物のいずれであるかを判定する。その他の構成は、実施の形態1と同様である。
10 音声入力部
11 認識部
12 背景モデル記憶部
13 話者モデル記憶部
14 特徴量生成部
15 類似度算出部
16 背景モデル
17 話者モデル
18 限定部
19 属性記憶部
20 属性情報
Claims (8)
- 登録人物ごとに、前記登録人物それぞれの音声データから生成された前記登録人物ごとの背景モデルを記憶する背景モデル記憶部と、
前記登録人物ごとに、前記登録人物の音声と、該登録人物の前記背景モデルとから算出された話者モデルを記憶する話者モデル記憶部と、
認識対象者の音声データを取得する音声入力部と、
前記音声入力部で取得した音声データと、前記背景モデルおよび前記話者モデルとから、前記認識対象者が前記登録人物のいずれであるかを判定する認識部と、
を備え、
前記認識部は、
前記音声入力部で取得した音声データと、前記背景モデルそれぞれとから、前記背景モデルごとの前記音声データの特徴量である対象特徴量を生成する特徴量生成部と、
前記背景モデルごとの前記対象特徴量と、該背景モデルに対応する前記話者モデルとの類似度を算出する類似度算出部と、
を含み、
前記類似度算出部で算出した類似度の最大値が所定の値以上である場合に、前記認識対象者が、前記最大値の類似度に対応する話者モデルの登録人物であると判定する、
話者認識装置。 - 前記認識部において、前記認識対象者が前記登録人物のいずれであるかを判定することは、前記認識対象者が前記登録人物の少なくともいずれか1人以上に該当する可能性が考えられる場合に、前記認識対象者が前記登録人物のいずれかであると判定することを少なくとも含む、請求項1に記載の話者認識装置。
- 前記認識部において、前記認識対象者が前記登録人物のいずれであるかを判定できない場合に、前記認識対象者が前記登録人物のいずれでもないと判定する、請求項1または2に記載の話者認識装置。
- 前記登録人物ごとに、前記登録人物ごとの属性情報を記憶する属性記憶部と、
前記属性情報に基づいて、前記認識対象者が含まれるか否かを判定する前記登録人物の集合を部分集合に限定する限定部と、を備え、
前記認識部は、前記音声入力部で取得した音声データと、前記部分集合に含まれる前記登録人物の前記背景モデルおよび前記話者モデルとから、前記認識対象者が前記部分集合に含まれる前記登録人物のいずれであるかを判定する、請求項1から3のいずれか1項に記載の話者認識装置。 - 前記属性情報は、前記登録人物ごとの行動様式を含み、
前記限定部は、前記認識対象者の音声データが取得された時刻と、前記登録人物ごとの行動様式とに基づいて、前記認識対象者がいずれであるかを判定する前記登録人物の集合を部分集合に限定する、請求項4に記載の話者認識装置。 - 前記認識部は、前記認識対象者が前記部分集合に含まれないと判定した場合に、前記音声入力部で取得した音声データと、前記登録人物の集合における前記部分集合の補集合に含まれる前記登録人物の前記背景モデルおよび前記話者モデルとから、前記認識対象者が前記補集合に含まれる前記登録人物のいずれであるかを判定する、請求項4または5に記載の話者認識装置。
- 音声に基づいて認識対象者を認識する話者認識装置が行う話者認識方法であって、
認識対象者の音声データを取得する音声入力ステップと、
登録人物ごとに、前記登録人物それぞれの音声データから生成された前記登録人物ごとの背景モデルを記憶する背景モデル記憶部から、前記登録人物ごとの背景モデルを取得する背景取得ステップと、
前記登録人物ごとに、前記登録人物の音声と、該登録人物の前記背景モデルとから算出された話者モデルを記憶する話者モデル記憶部から、前記登録人物ごとの話者モデルを取得する話者モデル取得ステップと、
前記音声入力ステップで取得した音声データと、前記登録人物ごとの背景モデルおよび前記登録人物ごとの話者モデルとから、前記認識対象者が前記登録人物のいずれであるかを判定する認識ステップと、
を備え、
前記認識ステップでは、
前記音声入力ステップで取得した音声データと、前記背景モデルそれぞれとから、前記背景モデルごとの前記音声データの特徴量である対象特徴量を生成し、
前記背景モデルごとの前記対象特徴量と、該背景モデルに対応する前記話者モデルとの類似度を算出し、
前記算出した類似度の最大値が所定の値以上である場合に、前記認識対象者が、前記最大値の類似度に対応する話者モデルの登録人物であると判定する、
話者認識方法。 - コンピュータを
登録人物ごとに、前記登録人物それぞれの音声データから生成された前記登録人物ごとの背景モデルを記憶する背景モデル記憶部、
前記登録人物ごとに、前記登録人物の音声と、該登録人物の前記背景モデルとから算出された話者モデルを記憶する話者モデル記憶部、
認識対象者の音声データを取得する音声入力部、ならびに
前記音声入力部で取得した音声データと、前記背景モデルおよび前記話者モデルとから、前記認識対象者が前記登録人物のいずれであるかを判定する認識部、
として機能させ、
前記認識部は、
前記音声入力部で取得した音声データと、前記背景モデルそれぞれとから、前記背景モデルごとの前記音声データの特徴量である対象特徴量を生成する特徴量生成部と、
前記背景モデルごとの前記対象特徴量と、該背景モデルに対応する前記話者モデルとの類似度を算出する類似度算出部と、
を含み、
前記類似度算出部で算出した類似度の最大値が所定の値以上である場合に、前記認識対象者が、前記最大値の類似度に対応する話者モデルの登録人物であると判定する、
プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020058067A JP7473910B2 (ja) | 2020-03-27 | 2020-03-27 | 話者認識装置、話者認識方法およびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020058067A JP7473910B2 (ja) | 2020-03-27 | 2020-03-27 | 話者認識装置、話者認識方法およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021157081A JP2021157081A (ja) | 2021-10-07 |
JP7473910B2 true JP7473910B2 (ja) | 2024-04-24 |
Family
ID=77919718
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020058067A Active JP7473910B2 (ja) | 2020-03-27 | 2020-03-27 | 話者認識装置、話者認識方法およびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7473910B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115019804B (zh) * | 2022-08-03 | 2022-11-01 | 北京惠朗时代科技有限公司 | 一种多员工密集签到的多重校验式声纹识别方法及系统 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002140707A (ja) | 2000-10-31 | 2002-05-17 | Nec Corp | バイオメトリックス式個人識別装置における優先処理装置 |
JP2004053821A (ja) | 2002-07-18 | 2004-02-19 | Univ Waseda | 話者識別方法およびそのシステム、並びにプログラム |
WO2009008051A1 (ja) | 2007-07-09 | 2009-01-15 | Fujitsu Limited | 利用者認証装置、利用者認証方法および利用者認証プログラム |
JP2017097188A (ja) | 2015-11-25 | 2017-06-01 | 日本電信電話株式会社 | 話者らしさ評価装置、話者識別装置、話者照合装置、話者らしさ評価方法、プログラム |
US20170236520A1 (en) | 2016-02-16 | 2017-08-17 | Knuedge Incorporated | Generating Models for Text-Dependent Speaker Verification |
JP2017223848A (ja) | 2016-06-16 | 2017-12-21 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America | 話者認識装置 |
JP2018508799A (ja) | 2015-12-30 | 2018-03-29 | バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッド | 声紋認証処理方法及び装置 |
-
2020
- 2020-03-27 JP JP2020058067A patent/JP7473910B2/ja active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002140707A (ja) | 2000-10-31 | 2002-05-17 | Nec Corp | バイオメトリックス式個人識別装置における優先処理装置 |
JP2004053821A (ja) | 2002-07-18 | 2004-02-19 | Univ Waseda | 話者識別方法およびそのシステム、並びにプログラム |
WO2009008051A1 (ja) | 2007-07-09 | 2009-01-15 | Fujitsu Limited | 利用者認証装置、利用者認証方法および利用者認証プログラム |
JP2017097188A (ja) | 2015-11-25 | 2017-06-01 | 日本電信電話株式会社 | 話者らしさ評価装置、話者識別装置、話者照合装置、話者らしさ評価方法、プログラム |
JP2018508799A (ja) | 2015-12-30 | 2018-03-29 | バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッド | 声紋認証処理方法及び装置 |
US20180293990A1 (en) | 2015-12-30 | 2018-10-11 | Baidu Online Network Technology (Beijing) Co., Ltd. | Method and device for processing voiceprint authentication |
US20170236520A1 (en) | 2016-02-16 | 2017-08-17 | Knuedge Incorporated | Generating Models for Text-Dependent Speaker Verification |
JP2017223848A (ja) | 2016-06-16 | 2017-12-21 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America | 話者認識装置 |
Also Published As
Publication number | Publication date |
---|---|
JP2021157081A (ja) | 2021-10-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11403065B2 (en) | User interface customization based on speaker characteristics | |
CN108417217B (zh) | 说话人识别网络模型训练方法、说话人识别方法及系统 | |
CN108564954B (zh) | 深度神经网络模型、电子装置、身份验证方法和存储介质 | |
US11244689B2 (en) | System and method for determining voice characteristics | |
US10140991B2 (en) | Using audio characteristics to identify speakers and media items | |
EP3477519B1 (en) | Identity authentication method, terminal device, and computer-readable storage medium | |
US10699716B2 (en) | Artificial intelligence-based method and device for voiceprint authentication | |
WO2017215558A1 (zh) | 一种声纹识别方法和装置 | |
US8185391B2 (en) | Speaker recognition via voice sample based on multiple nearest neighbor classifiers | |
WO2019179029A1 (zh) | 电子装置、身份验证方法和计算机可读存储介质 | |
US8659390B2 (en) | Method and system for generating a biometric query plan | |
CN108989349B (zh) | 用户账号解锁方法、装置、计算机设备及存储介质 | |
US20170294192A1 (en) | Classifying Signals Using Mutual Information | |
US20100045787A1 (en) | Authenticating apparatus, authenticating system, and authenticating method | |
KR20120114564A (ko) | 대표 지문 템플릿 생성 장치 및 방법 | |
TW202018696A (zh) | 語音識別方法、裝置及計算設備 | |
Anzar et al. | Efficient online and offline template update mechanisms for speaker recognition | |
US10936705B2 (en) | Authentication method, electronic device, and computer-readable program medium | |
JP7473910B2 (ja) | 話者認識装置、話者認識方法およびプログラム | |
US10970573B2 (en) | Method and system for free text keystroke biometric authentication | |
Szczuko et al. | Validating data acquired with experimental multimodal biometric system installed in bank branches | |
Poh et al. | A discriminative parametric approach to video-based score-level fusion for biometric authentication | |
CN111640438A (zh) | 音频数据处理方法、装置、存储介质及电子设备 | |
Punyani et al. | A comparison study of face, gait and speech features for age estimation | |
TWI778234B (zh) | 語者驗證系統 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230308 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20231228 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20240109 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20240227 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240312 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240404 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7473910 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |