JP6682523B2 - 声紋認証処理方法及び装置 - Google Patents
声紋認証処理方法及び装置 Download PDFInfo
- Publication number
- JP6682523B2 JP6682523B2 JP2017519504A JP2017519504A JP6682523B2 JP 6682523 B2 JP6682523 B2 JP 6682523B2 JP 2017519504 A JP2017519504 A JP 2017519504A JP 2017519504 A JP2017519504 A JP 2017519504A JP 6682523 B2 JP6682523 B2 JP 6682523B2
- Authority
- JP
- Japan
- Prior art keywords
- model
- voiceprint
- feature vector
- gender
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003672 processing method Methods 0.000 title claims description 25
- 239000013598 vector Substances 0.000 claims description 117
- 239000012634 fragment Substances 0.000 claims description 53
- 238000000605 extraction Methods 0.000 claims description 35
- 238000004458 analytical method Methods 0.000 claims description 25
- 238000000034 method Methods 0.000 claims description 21
- 238000013528 artificial neural network Methods 0.000 claims description 15
- 239000000284 extract Substances 0.000 claims description 14
- 238000010586 diagram Methods 0.000 description 11
- 230000006870 function Effects 0.000 description 5
- 238000010606 normalization Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 239000000463 material Substances 0.000 description 2
- 230000000052 comparative effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001902 propagating effect Effects 0.000 description 1
- 238000010187 selection method Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/22—Interactive procedures; Man-machine interfaces
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/18—Artificial neural networks; Connectionist approaches
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/032—Quantisation or dequantisation of spectral components
- G10L19/038—Vector quantisation, e.g. TwinVQ audio
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/08—Network architectures or network communication protocols for network security for authentication of entities
- H04L63/0861—Network architectures or network communication protocols for network security for authentication of entities using biometrical features, e.g. fingerprint, retina-scan
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Game Theory and Decision Science (AREA)
- Business, Economics & Management (AREA)
- Signal Processing (AREA)
- General Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Biomedical Technology (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Computer Security & Cryptography (AREA)
- Computer Hardware Design (AREA)
- Collating Specific Patterns (AREA)
- Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
統一背景モデルは、DNNモデルに出力された事後確率に対して正規化処理を行うためのものである。
特徴ベクトル抽出モデルは、DNNモデルに出力された事後確率及びユーザに入力された音声データを受信し、且つ予め設置されたアルゴリズムによって音声データの第2特徴ベクトルを抽出するためのものである。
確率線形判別分析モデルは、ユーザに入力された音声データの第2特徴ベクトルと予め記憶された声紋登録テンプレートとの類似度を比較するためのものである。
前記複数の第2特徴ベクトルの平均特徴ベクトルを前記ユーザの声紋登録モデルとして取得するためのものである。
前記類似度と予め設置された閾値の大きさとを比較し、
前記類似度が予め設置された閾値以上であると確認された場合、声紋認識が成功されたと返信し、
前記類似度が予め設置された閾値よりも小さいと確認された場合、声紋認識が失敗されたと返信する。
Claims (12)
- 性別を混合した深層ニューラルネットワークDNN声紋のベースラインシステムを利用して、訓練集合における各音声断片を前記ベースラインシステムに入力して取得された第1特徴ベクトルを抽出するステップと、
前記各音声断片の第1特徴ベクトル及び予め標識された性別タグに基づいて、性別分類器を訓練するステップと、
前記訓練集合における性別が異なる音声データに基づいて、男性DNNモデルと女性DNNモデルをそれぞれ訓練するステップと、
男性DNNモデルと女性DNNモデル、及び前記訓練集合における性別が異なる音声データに基づいて、性別が異なる統一背景モデルと、特徴ベクトル抽出モデルと、確率線形判別分析モデルとをそれぞれ訓練するステップと、を含む、
ことを特徴とする声紋認証処理方法。 - ユーザにより送信されたユーザ識別子を有する声紋登録要求を受信するステップと、
ユーザにより送信された声紋登録用の複数の音声断片を取得し、第1音声断片の第1特徴ベクトルを抽出し、前記性別分類器を利用して前記第1特徴ベクトルの性別タグを取得するステップと、
前記性別タグに対応する男性DNNモデルと女性DNNモデルとにおけるDNNモデルに基づいて、各音声断片の事後確率を取得するステップと、
前記性別タグに対応する統一背景モデル及び特徴ベクトル抽出モデルに基づいて、各音声の第2特徴ベクトルをそれぞれ抽出するステップと、
前記複数の音声に対応する複数の第2特徴ベクトルに基づいて、前記ユーザの声紋登録モデルを取得するステップと、
前記ユーザ識別子と、前記性別タグと、前記声紋登録モデルとの対応関係を声紋登録データベースに記憶するステップと、をさらに含む、
ことを特徴とする請求項1に記載の方法。 - 前記複数の音声に対応する複数の第2特徴ベクトルに基づいて、前記ユーザの声紋登録モデルを取得するステップは、
前記複数の第2特徴ベクトルの平均特徴ベクトルを、前記ユーザの声紋登録モデルとして取得するステップを含む、
ことを特徴とする請求項2に記載の方法。 - ユーザにより送信されたユーザ識別子を有する声紋認識要求を受信するステップと、
前記声紋登録データベースを照会し、前記ユーザ識別子に対応する性別タグ及び声紋登録モデルを取得するステップと、
ユーザにより送信された声紋認識用の音声を取得し、前記性別タグに対応する男性DNNモデルと女性DNNモデルとにおけるDNNモデルに基づいて、前記音声の事後確率を取得するステップと、
前記性別タグに対応する統一背景モデル及び特徴ベクトル抽出モデルを利用し、前記音声の第2特徴ベクトルを抽出するステップと、
前記性別タグに対応する確率線形判別分析モデルを利用して、前記音声の第2特徴ベクトルと前記声紋登録モデルとの類似度を比較するステップと、
前記類似度及び予め設置された閾値に基づいて、前記ユーザに声紋認識結果を返信するステップと、をさらに含む、
ことを特徴とする請求項2または3に記載の方法。 - 前記類似度及び予め設置された閾値に基づいて、前記ユーザに声紋認識結果を返信するステップは、
前記類似度と予め設置された閾値の大きさとを比較するステップと、
前記類似度が予め設置された閾値以上であると確認された場合、声紋認識が成功されたと返信するステップと、
前記類似度が予め設置された閾値よりも小さいと確認された場合、声紋認識が失敗されたと返信するステップとを、含む、
ことを特徴とする請求項4に記載の方法。 - 性別を混合した深層ニューラルネットワークDNN声紋のベースラインシステムを利用することにより、訓練集合における各音声断片を前記ベースラインシステムに入力して取得された第1特徴ベクトルを抽出する抽出モジュールと、
前記各音声断片の第1特徴ベクトル及び予め標識された性別タグに基づいて、性別分類器を訓練する生成モジュールと、
前記訓練集合における性別が異なる音声データに基づいて、男性DNNモデルと女性DNNモデルをそれぞれ訓練する第1訓練モジュールと、
男性DNNモデルと女性DNNモデル、及び前記訓練集合における性別が異なる音声データに基づいて、性別が異なる統一背景モデルと、特徴ベクトル抽出モデルと、確率線形判別分析モデルとをそれぞれ訓練する第2訓練モジュールと、を含む、
ことを特徴とする声紋認証処理装置。 - ユーザにより送信されたユーザ識別子を有する声紋登録要求を受信する第1受信モジュールと、
ユーザにより送信された声紋登録用の複数の音声断片を取得し、第1音声断片の第1特徴ベクトルを抽出し、前記性別分類器を利用して前記第1特徴ベクトルの性別タグを取得する性別標識モジュールと、
前記性別タグに対応する男性DNNモデルと女性DNNモデルとにおけるDNNモデルに基づいて、各音声断片の事後確率を取得し、前記性別タグに対応する統一背景モデル及び特徴ベクトル抽出モデルに基づいて、各音声の第2特徴ベクトルをそれぞれ抽出する第1処理モジュールと、
前記複数の音声に対応する複数の第2特徴ベクトルに基づいて、前記ユーザの声紋登録モデルを取得する取得モジュールと、
前記ユーザ識別子と、前記性別タグと、前記声紋登録モデルとの対応関係を声紋登録データベースに登録する登録モジュールと、
を更に含む、
ことを特徴とする請求項6に記載の装置。 - 前記取得モジュールは、
前記複数の第2特徴ベクトルの平均特徴ベクトルを前記ユーザの声紋登録モデルとして取得する、
ことを特徴とする請求項7に記載の装置。 - ユーザにより送信されたユーザ識別子を有する声紋認識要求を受信する第2受信モジュールと、
前記声紋登録データベースを照会し、前記ユーザ識別子に対応する性別タグ及び声紋登録モデルを取得する照会モジュールと、
ユーザにより送信された声紋認識用の音声を取得し、前記性別タグに対応する男性DNNモデルと女性DNNモデルとにおけるDNNモデルに基づいて、前記音声の事後確率を取得し、前記性別タグに対応する統一背景モデル及び特徴ベクトル抽出モデルを利用して、前記音声の第2特徴ベクトルを抽出する第2処理モジュールと、
前記性別タグに対応する確率線形判別分析モデルを利用して、前記音声の第2特徴ベクトルと前記声紋登録モデルとの類似度を比較する比較モジュールと、
前記類似度及び予め設置された閾値に基づいて、前記ユーザに声紋認識結果を返信する認識モジュールと、
をさらに含む、
ことを特徴とする請求項7または8に記載の装置。 - 前記認識モジュールは、
前記類似度と予め設置された閾値の大きさとを比較し、
前記類似度が予め設置された閾値以上であると確認できた場合、声紋認識が成功されたと返信し、
前記類似度が予め設置された閾値よりも小さいと確認できた場合、声紋認識が失敗されたと返信する、
ことを特徴とする請求項9に記載の装置。 - アプリケーションプログラムを記憶するための記憶媒体であって、
前記アプリケーションプログラムは、請求項1ないし5のいずれかに記載の声紋認証処理方法を実行するためのものである、
ことを特徴とする記憶媒体。 - 一つ又は複数のプロセッサと、
メモリと、
前記メモリに格納される一つ又は複数のモジュールと、を含み、
前記一つ又は複数のモジュールが前記一つ又は複数のプロセッサにより実行される場合、
性別を混合した深層ニューラルネットワークDNN声紋ベースラインシステムを利用して、訓練集合における各音声断片を前記ベースラインシステムに入力して取得された第1特徴ベクトルを抽出するステップと、
前記各音声断片の第1特徴ベクトル及び予め標識された性別タグに基づいて、性別分類器を訓練するステップと、
前記訓練集合における性別が異なる音声データに基づいて、男性DNNモデルと女性DNNモデルをそれぞれ訓練するステップと、
男性DNNモデルと女性DNNモデル、及び前記訓練集合における性別が異なる音声データに基づいて、性別が異なる統一背景モデルと、特徴ベクトル抽出モデルと、確率線形判別分析モデルとをそれぞれ訓練するステップと、
を実行する、
ことを特徴とする声紋認証処理設備。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201511024873.7A CN105513597B (zh) | 2015-12-30 | 2015-12-30 | 声纹认证处理方法及装置 |
CN201511024873.7 | 2015-12-30 | ||
PCT/CN2016/088435 WO2017113680A1 (zh) | 2015-12-30 | 2016-07-04 | 声纹认证处理方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018508799A JP2018508799A (ja) | 2018-03-29 |
JP6682523B2 true JP6682523B2 (ja) | 2020-04-15 |
Family
ID=55721524
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017519504A Active JP6682523B2 (ja) | 2015-12-30 | 2016-07-04 | 声紋認証処理方法及び装置 |
Country Status (6)
Country | Link |
---|---|
US (1) | US10685658B2 (ja) |
EP (1) | EP3296991B1 (ja) |
JP (1) | JP6682523B2 (ja) |
KR (1) | KR101870093B1 (ja) |
CN (1) | CN105513597B (ja) |
WO (1) | WO2017113680A1 (ja) |
Families Citing this family (53)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9875743B2 (en) * | 2015-01-26 | 2018-01-23 | Verint Systems Ltd. | Acoustic signature building for a speaker from multiple sessions |
CN105513597B (zh) * | 2015-12-30 | 2018-07-10 | 百度在线网络技术(北京)有限公司 | 声纹认证处理方法及装置 |
CN107346568B (zh) * | 2016-05-05 | 2020-04-17 | 阿里巴巴集团控股有限公司 | 一种门禁系统的认证方法和装置 |
JP6828741B2 (ja) * | 2016-05-16 | 2021-02-10 | ソニー株式会社 | 情報処理装置 |
CN106297807B (zh) | 2016-08-05 | 2019-03-01 | 腾讯科技(深圳)有限公司 | 训练声纹识别系统的方法和装置 |
CN106710599A (zh) * | 2016-12-02 | 2017-05-24 | 深圳撒哈拉数据科技有限公司 | 一种基于深度神经网络的特定声源检测方法与系统 |
CN106710604A (zh) * | 2016-12-07 | 2017-05-24 | 天津大学 | 提高语音可懂度的共振峰增强装置和方法 |
CN107610707B (zh) * | 2016-12-15 | 2018-08-31 | 平安科技(深圳)有限公司 | 一种声纹识别方法及装置 |
CN108288470B (zh) | 2017-01-10 | 2021-12-21 | 富士通株式会社 | 基于声纹的身份验证方法和装置 |
CN108573698B (zh) * | 2017-03-09 | 2021-06-08 | 中国科学院声学研究所 | 一种基于性别融合信息的语音降噪方法 |
GB2580856A (en) * | 2017-06-13 | 2020-08-05 | Beijing Didi Infinity Technology & Dev Co Ltd | International Patent Application For Method, apparatus and system for speaker verification |
CN107610709B (zh) * | 2017-08-01 | 2021-03-19 | 百度在线网络技术(北京)有限公司 | 一种训练声纹识别模型的方法及系统 |
CN107623614B (zh) * | 2017-09-19 | 2020-12-08 | 百度在线网络技术(北京)有限公司 | 用于推送信息的方法和装置 |
CN109545227B (zh) * | 2018-04-28 | 2023-05-09 | 华中师范大学 | 基于深度自编码网络的说话人性别自动识别方法及系统 |
CN108806696B (zh) * | 2018-05-08 | 2020-06-05 | 平安科技(深圳)有限公司 | 建立声纹模型的方法、装置、计算机设备和存储介质 |
CN108694954A (zh) * | 2018-06-13 | 2018-10-23 | 广州势必可赢网络科技有限公司 | 一种性别年龄识别方法、装置、设备及可读存储介质 |
CN109036436A (zh) * | 2018-09-18 | 2018-12-18 | 广州势必可赢网络科技有限公司 | 一种声纹数据库建立方法、声纹识别方法、装置及系统 |
JP7326033B2 (ja) * | 2018-10-05 | 2023-08-15 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ | 話者認識装置、話者認識方法、及び、プログラム |
CN109473105A (zh) * | 2018-10-26 | 2019-03-15 | 平安科技(深圳)有限公司 | 与文本无关的声纹验证方法、装置和计算机设备 |
CN109378007B (zh) * | 2018-12-28 | 2022-09-13 | 浙江百应科技有限公司 | 一种基于智能语音对话实现性别识别的方法 |
CN109378006B (zh) * | 2018-12-28 | 2022-09-16 | 三星电子(中国)研发中心 | 一种跨设备声纹识别方法及系统 |
US11031017B2 (en) * | 2019-01-08 | 2021-06-08 | Google Llc | Fully supervised speaker diarization |
CN111462760B (zh) * | 2019-01-21 | 2023-09-26 | 阿里巴巴集团控股有限公司 | 声纹识别系统、方法、装置及电子设备 |
CN109637547B (zh) * | 2019-01-29 | 2020-11-03 | 北京猎户星空科技有限公司 | 音频数据标注方法、装置、电子设备及存储介质 |
US11289098B2 (en) | 2019-03-08 | 2022-03-29 | Samsung Electronics Co., Ltd. | Method and apparatus with speaker recognition registration |
CN109994116B (zh) * | 2019-03-11 | 2021-01-19 | 南京邮电大学 | 一种基于会议场景小样本条件下的声纹准确识别方法 |
CN109920435B (zh) * | 2019-04-09 | 2021-04-06 | 厦门快商通信息咨询有限公司 | 一种声纹识别方法及声纹识别装置 |
WO2020240682A1 (ja) * | 2019-05-28 | 2020-12-03 | 日本電気株式会社 | 信号抽出システム、信号抽出学習方法および信号抽出学習プログラム |
CN110136726A (zh) * | 2019-06-20 | 2019-08-16 | 厦门市美亚柏科信息股份有限公司 | 一种语音性别的估计方法、装置、系统及存储介质 |
CN110660484B (zh) * | 2019-08-01 | 2022-08-23 | 平安科技(深圳)有限公司 | 骨龄预测方法、装置、介质及电子设备 |
CN110517698B (zh) * | 2019-09-05 | 2022-02-01 | 科大讯飞股份有限公司 | 一种声纹模型的确定方法、装置、设备及存储介质 |
CN110956966B (zh) * | 2019-11-01 | 2023-09-19 | 平安科技(深圳)有限公司 | 声纹认证方法、装置、介质及电子设备 |
CN110660399A (zh) * | 2019-11-11 | 2020-01-07 | 广州国音智能科技有限公司 | 声纹识别的训练方法、装置、终端及计算机存储介质 |
CN111009262A (zh) * | 2019-12-24 | 2020-04-14 | 携程计算机技术(上海)有限公司 | 语音性别识别的方法及系统 |
CN111147484B (zh) * | 2019-12-25 | 2022-06-14 | 秒针信息技术有限公司 | 账号登录方法和装置 |
CN110797032B (zh) * | 2020-01-06 | 2020-05-12 | 深圳中创华安科技有限公司 | 一种声纹数据库建立方法及声纹识别方法 |
CN111179942B (zh) * | 2020-01-06 | 2022-11-08 | 泰康保险集团股份有限公司 | 声纹识别方法、装置、设备及计算机可读存储介质 |
CN111241512B (zh) * | 2020-01-09 | 2022-06-17 | 珠海格力电器股份有限公司 | 留言信息播报方法、装置、电子设备及存储介质 |
CN111243607A (zh) * | 2020-03-26 | 2020-06-05 | 北京字节跳动网络技术有限公司 | 用于生成说话人信息的方法、装置、电子设备和介质 |
JP7473910B2 (ja) | 2020-03-27 | 2024-04-24 | 株式会社フュートレック | 話者認識装置、話者認識方法およびプログラム |
WO2021192719A1 (ja) * | 2020-03-27 | 2021-09-30 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ | 話者識別方法、話者識別装置、話者識別プログラム、性別識別モデル生成方法及び話者識別モデル生成方法 |
CN111489756B (zh) * | 2020-03-31 | 2024-03-01 | 中国工商银行股份有限公司 | 一种声纹识别方法及装置 |
CN111583935A (zh) * | 2020-04-02 | 2020-08-25 | 深圳壹账通智能科技有限公司 | 贷款智能进件方法、装置及存储介质 |
CN111933147B (zh) * | 2020-06-22 | 2023-02-14 | 厦门快商通科技股份有限公司 | 声纹识别方法、系统、移动终端及存储介质 |
US11522994B2 (en) | 2020-11-23 | 2022-12-06 | Bank Of America Corporation | Voice analysis platform for voiceprint tracking and anomaly detection |
CN112637428A (zh) * | 2020-12-29 | 2021-04-09 | 平安科技(深圳)有限公司 | 无效通话判断方法、装置、计算机设备及存储介质 |
US20220215834A1 (en) * | 2021-01-01 | 2022-07-07 | Jio Platforms Limited | System and method for speech to text conversion |
US11996087B2 (en) | 2021-04-30 | 2024-05-28 | Comcast Cable Communications, Llc | Method and apparatus for intelligent voice recognition |
CN114141255A (zh) * | 2021-11-24 | 2022-03-04 | 中国电信股份有限公司 | 声纹识别模型的训练方法及装置、声纹识别方法及装置 |
KR102478076B1 (ko) * | 2022-06-13 | 2022-12-15 | 주식회사 액션파워 | 음성 인식 오류 검출을 위해 학습 데이터를 생성하기 위한 방법 |
JP7335651B1 (ja) * | 2022-08-05 | 2023-08-30 | 株式会社Interior Haraguchi | 顔認証決済システムおよび顔認証決済方法 |
CN117351484A (zh) * | 2023-10-12 | 2024-01-05 | 深圳市前海高新国际医疗管理有限公司 | 基于ai的肿瘤干细胞特征提取及分类系统 |
CN117470976B (zh) * | 2023-12-28 | 2024-03-26 | 烟台宇控软件有限公司 | 一种基于声纹特征的输电线路缺陷检测方法及系统 |
Family Cites Families (34)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7006605B1 (en) * | 1996-06-28 | 2006-02-28 | Ochopee Big Cypress Llc | Authenticating a caller before providing the caller with access to one or more secured resources |
US5897616A (en) * | 1997-06-11 | 1999-04-27 | International Business Machines Corporation | Apparatus and methods for speaker verification/identification/classification employing non-acoustic and/or acoustic models and databases |
US6665644B1 (en) * | 1999-08-10 | 2003-12-16 | International Business Machines Corporation | Conversational data mining |
US20030110038A1 (en) * | 2001-10-16 | 2003-06-12 | Rajeev Sharma | Multi-modal gender classification using support vector machines (SVMs) |
US7266497B2 (en) * | 2002-03-29 | 2007-09-04 | At&T Corp. | Automatic segmentation in speech synthesis |
US7620547B2 (en) * | 2002-07-25 | 2009-11-17 | Sony Deutschland Gmbh | Spoken man-machine interface with speaker identification |
US7404087B2 (en) * | 2003-12-15 | 2008-07-22 | Rsa Security Inc. | System and method for providing improved claimant authentication |
US7231019B2 (en) * | 2004-02-12 | 2007-06-12 | Microsoft Corporation | Automatic identification of telephone callers based on voice characteristics |
US20070299671A1 (en) * | 2004-03-31 | 2007-12-27 | Ruchika Kapur | Method and apparatus for analysing sound- converting sound into information |
CN101136199B (zh) * | 2006-08-30 | 2011-09-07 | 纽昂斯通讯公司 | 语音数据处理方法和设备 |
KR100864828B1 (ko) * | 2006-12-06 | 2008-10-23 | 한국전자통신연구원 | 화자의 음성 특징 정보를 이용한 화자 정보 획득 시스템 및그 방법 |
US7949526B2 (en) * | 2007-06-04 | 2011-05-24 | Microsoft Corporation | Voice aware demographic personalization |
JP2009109712A (ja) * | 2007-10-30 | 2009-05-21 | National Institute Of Information & Communication Technology | オンライン話者逐次区別システム及びそのコンピュータプログラム |
US8433669B2 (en) * | 2007-11-14 | 2013-04-30 | International Business Machines Corporation | Configuring individual classifiers with multiple operating points for cascaded classifier topologies under resource constraints |
US10366336B2 (en) * | 2009-09-02 | 2019-07-30 | Sri International | Method and apparatus for exploiting human feedback in an intelligent automated assistant |
JP5214679B2 (ja) * | 2010-08-30 | 2013-06-19 | 株式会社東芝 | 学習装置、方法及びプログラム |
US8559682B2 (en) * | 2010-11-09 | 2013-10-15 | Microsoft Corporation | Building a person profile database |
US8515750B1 (en) * | 2012-06-05 | 2013-08-20 | Google Inc. | Realtime acoustic adaptation using stability measures |
US9502038B2 (en) * | 2013-01-28 | 2016-11-22 | Tencent Technology (Shenzhen) Company Limited | Method and device for voiceprint recognition |
CN103971690A (zh) * | 2013-01-28 | 2014-08-06 | 腾讯科技(深圳)有限公司 | 一种声纹识别方法和装置 |
US9336781B2 (en) * | 2013-10-17 | 2016-05-10 | Sri International | Content-aware speaker recognition |
US9514753B2 (en) * | 2013-11-04 | 2016-12-06 | Google Inc. | Speaker identification using hash-based indexing |
US9858919B2 (en) * | 2013-11-27 | 2018-01-02 | International Business Machines Corporation | Speaker adaptation of neural network acoustic models using I-vectors |
US20150154002A1 (en) * | 2013-12-04 | 2015-06-04 | Google Inc. | User interface customization based on speaker characteristics |
US9542948B2 (en) * | 2014-04-09 | 2017-01-10 | Google Inc. | Text-dependent speaker identification |
US9564123B1 (en) * | 2014-05-12 | 2017-02-07 | Soundhound, Inc. | Method and system for building an integrated user profile |
US9792899B2 (en) * | 2014-07-15 | 2017-10-17 | International Business Machines Corporation | Dataset shift compensation in machine learning |
US9373330B2 (en) * | 2014-08-07 | 2016-06-21 | Nuance Communications, Inc. | Fast speaker recognition scoring using I-vector posteriors and probabilistic linear discriminant analysis |
US10476872B2 (en) * | 2015-02-20 | 2019-11-12 | Sri International | Joint speaker authentication and key phrase identification |
US11823658B2 (en) * | 2015-02-20 | 2023-11-21 | Sri International | Trial-based calibration for audio-based identification, recognition, and detection system |
US10146923B2 (en) * | 2015-03-20 | 2018-12-04 | Aplcomp Oy | Audiovisual associative authentication method, related system and device |
US9666183B2 (en) * | 2015-03-27 | 2017-05-30 | Qualcomm Incorporated | Deep neural net based filter prediction for audio event classification and extraction |
US9721559B2 (en) * | 2015-04-17 | 2017-08-01 | International Business Machines Corporation | Data augmentation method based on stochastic feature mapping for automatic speech recognition |
CN105513597B (zh) * | 2015-12-30 | 2018-07-10 | 百度在线网络技术(北京)有限公司 | 声纹认证处理方法及装置 |
-
2015
- 2015-12-30 CN CN201511024873.7A patent/CN105513597B/zh active Active
-
2016
- 2016-07-04 JP JP2017519504A patent/JP6682523B2/ja active Active
- 2016-07-04 EP EP16829225.8A patent/EP3296991B1/en active Active
- 2016-07-04 KR KR1020177002005A patent/KR101870093B1/ko active IP Right Grant
- 2016-07-04 US US15/501,292 patent/US10685658B2/en active Active
- 2016-07-04 WO PCT/CN2016/088435 patent/WO2017113680A1/zh active Application Filing
Also Published As
Publication number | Publication date |
---|---|
EP3296991B1 (en) | 2019-11-13 |
EP3296991A4 (en) | 2018-07-25 |
CN105513597A (zh) | 2016-04-20 |
US10685658B2 (en) | 2020-06-16 |
EP3296991A1 (en) | 2018-03-21 |
KR101870093B1 (ko) | 2018-06-21 |
JP2018508799A (ja) | 2018-03-29 |
US20180293990A1 (en) | 2018-10-11 |
CN105513597B (zh) | 2018-07-10 |
WO2017113680A1 (zh) | 2017-07-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6682523B2 (ja) | 声紋認証処理方法及び装置 | |
US11403345B2 (en) | Method and system for processing unclear intent query in conversation system | |
JP6567040B2 (ja) | 人工知能に基づく声紋ログイン方法と装置 | |
US11100934B2 (en) | Method and apparatus for voiceprint creation and registration | |
US10699716B2 (en) | Artificial intelligence-based method and device for voiceprint authentication | |
JP6637848B2 (ja) | 音声認識装置及び方法と電子装置 | |
JP6771805B2 (ja) | 音声認識方法、電子機器、及びコンピュータ記憶媒体 | |
WO2021232594A1 (zh) | 语音情绪识别方法、装置、电子设备及存储介质 | |
Dobrišek et al. | Towards efficient multi-modal emotion recognition | |
CN107452384B (zh) | 针对用于说话人验证的非介入性训练的装置、媒体及方法 | |
Dileep et al. | GMM-based intermediate matching kernel for classification of varying length patterns of long duration speech using support vector machines | |
US10510342B2 (en) | Voice recognition server and control method thereof | |
CN108417205A (zh) | 语义理解训练方法和系统 | |
WO2020186712A1 (zh) | 一种语音识别方法、装置及终端 | |
CN105378830A (zh) | 音频数据的处理 | |
WO2021174760A1 (zh) | 声纹数据生成方法、装置、计算机装置及存储介质 | |
JP7343566B2 (ja) | 言語モデルを利用したデータ生成方法、コンピュータ装置、およびコンピュータプログラム | |
US11664015B2 (en) | Method for searching for contents having same voice as voice of target speaker, and apparatus for executing same | |
CN113408278A (zh) | 意图识别方法、装置、设备及存储介质 | |
JP2021081713A (ja) | 音声信号を処理するための方法、装置、機器、および媒体 | |
CN113627186B (zh) | 基于人工智能的实体关系检测方法及相关设备 | |
KR20200082240A (ko) | 호칭 결정 장치, 이를 포함하는 대화 서비스 제공 시스템, 호칭 결정을 위한 단말 장치 및 호칭 결정 방법 | |
Xu et al. | Affective audio annotation of public speeches with convolutional clustering neural network | |
JP6220733B2 (ja) | 音声分類装置、音声分類方法、プログラム | |
John et al. | Audio-Visual Sensor Fusion Framework using Person Attributes Robust to Missing Visual Modality for Person Recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20170411 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20180605 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20180905 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20190205 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190507 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20190723 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20191122 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20191226 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20200108 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200310 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20200325 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6682523 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |