JP5996783B2 - 声紋特徴モデルを更新するための方法及び端末 - Google Patents
声紋特徴モデルを更新するための方法及び端末 Download PDFInfo
- Publication number
- JP5996783B2 JP5996783B2 JP2015509296A JP2015509296A JP5996783B2 JP 5996783 B2 JP5996783 B2 JP 5996783B2 JP 2015509296 A JP2015509296 A JP 2015509296A JP 2015509296 A JP2015509296 A JP 2015509296A JP 5996783 B2 JP5996783 B2 JP 5996783B2
- Authority
- JP
- Japan
- Prior art keywords
- audio stream
- speaker
- original
- feature model
- audio
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/065—Adaptation
- G10L15/07—Adaptation to the speaker
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0631—Creating reference templates; Clustering
Description
本出願は、参照によりその全体が本明細書に包含される、「METHOD FOR UPDATING VOICEPRINT FEATURE MODEL AND TERMINAL」というタイトルで2012年7月9日に中国特許庁に出願した中国特許出願第201210235593.0号の優先権を主張するものである。
図1は、本発明の実施形態1による、声紋特徴モデルを更新するための方法を実施するプロセスを示し、以下に詳細を説明する。
図2は、本発明の実施形態2による、声紋特徴モデルを更新するための方法を実施するプロセスを示し、以下に詳細を説明する。
図4は、本発明の実施形態3による端末の構造を示す。本発明の実施形態3において提供される端末は、本発明の実施形態1及び実施形態2のいくつかの方法を実施するように構成することができる。説明を容易にするために、本発明の実施形態に関連する部分だけを示す。開示していない具体的な技術的詳細については、本発明の実施形態1及び実施形態2を参照することができる。
図5は、本発明の実施形態4による端末の構造を示す。説明を容易にするために、本発明のこの実施形態に関連する部分だけを示す。本発明の実施形態4において提供される端末は、本発明の実施形態1及び実施形態2のいくつかの方法を実施するように構成することができる。説明を容易にするために、本発明の実施形態に関連する部分だけを示す。開示していない具体的な技術的詳細については、本発明の実施形態1及び実施形態2を参照することができる。
図6は、本発明の実施形態5による端末の構造を示す。説明を容易にするために、本発明のこの実施形態に関連する部分だけを示す。本発明の実施形態5において提供される端末は、本発明の実施形態1及び実施形態2のいくつかの方法を実施するように構成することができる。説明を容易にするために、本発明のこの実施形態に関連する部分だけを示す。開示していない具体的な技術的詳細については、本発明の実施形態1及び実施形態2を参照することができる。
図7は、本発明の実施形態6による端末の構造を示す。説明を容易にするために、本発明のこの実施形態に関連する部分だけを示す。本発明の実施形態6において提供される端末は、本発明の実施形態1及び実施形態2のいくつかの方法を実施するように構成することができる。説明を容易にするために、本発明のこの実施形態に関連する部分だけを示す。開示していない具体的な技術的詳細については、本発明の実施形態1及び実施形態2を参照することができる。
セグメンテーション・ユニット741は、プリセット話者セグメンテーション・アルゴリズムによりオリジナル・オーディオ・ストリームを複数のオーディオ・クリップに分割するように構成され、その場合、複数のオーディオ・クリップの各オーディオ・クリップは、少なくとも1人の話者に係る同一話者のオーディオ情報だけを含み、セグメンテーション・ユニット741は、少なくとも1人の話者に係る同一話者だけを含むオーディオ・クリップをクラスタリング・ユニット742に送るように構成され、
クラスタリング・ユニット742は、セグメンテーション・ユニット741から送られた、少なくとも1人の話者に係る同一話者だけを含むオーディオ・クリップを受け取り、プリセット話者クラスタリング・アルゴリズムにより、少なくとも1人の話者に係る同一話者だけを含むオーディオ・クリップをクラスタリングして、少なくとも1人の話者に係る同一話者のオーディオ情報だけを含むオーディオ・ストリームを生成するように構成される。
Claims (10)
- 声紋特徴モデルを更新するための方法であって、
少なくとも1人の話者を含むオリジナル・オーディオ・ストリームを取得するステップと、
プリセット話者セグメンテーション及びクラスタリング・アルゴリズムに従って、前記オリジナル・オーディオ・ストリームにおける前記少なくとも1人の話者に係る各話者それぞれのオーディオ・ストリームを取得するステップと、
前記少なくとも1人の話者に係る各話者それぞれのオーディオ・ストリームとオリジナル声紋特徴モデルとを別々にマッチングして、うまくマッチングしたオーディオ・ストリームを取得するステップと、
前記オリジナル声紋特徴モデルを生成するために、前記うまくマッチングしたオーディオ・ストリームを追加のオーディオ・ストリーム訓練サンプルとして使用して、前記オリジナル声紋特徴モデルを更新するステップと、
を含む、方法。 - 前記方法は、さらに、
少なくとも1人の話者を含むオリジナル・オーディオ・ストリームを取得する前記ステップの以前に、
プリセット・オーディオ・ストリーム訓練サンプルに従って、前記オリジナル声紋特徴モデルを確立するステップと、を含む、
請求項1に記載の方法。 - プリセット話者セグメンテーション及びクラスタリング・アルゴリズムに従って、前記オリジナル・オーディオ・ストリームにおける前記少なくとも1人の話者に係る各話者それぞれのオーディオ・ストリームを取得する前記ステップは、具体的には、
プリセット話者セグメンテーション・アルゴリズムに従って、前記オリジナル・オーディオ・ストリームを複数のオーディオ・クリップに分割する段階であり、前記複数のオーディオ・クリップに係る各オーディオ・クリップは、前記少なくとも1人の話者に係る同一話者のオーディオ情報だけを含む段階と、
プリセット話者クラスタリング・アルゴリズムに従って、前記少なくとも1人の話者に係る同一話者だけを含む前記オーディオ・クリップをクラスタリングする段階であり、前記少なくとも1人の話者に係る同一話者のオーディオ情報だけを含むオーディオ・ストリームを生成する、段階と、を含む、
請求項1または2に記載の方法。 - 前記少なくとも1人の話者に係る各話者それぞれのオーディオ・ストリームとオリジナル声紋特徴モデルとを別々にマッチングして、うまくマッチングしたオーディオ・ストリームを取得する前記ステップは、具体的には、
前記少なくとも1人の話者に係る各話者の前記オーディオ・ストリーム及び前記オリジナル声紋特徴モデルに従って、前記少なくとも1人の話者に係る各話者の前記オーディオ・ストリームと前記オリジナル声紋特徴モデルとの合致度を取得する段階と、
前記うまくマッチングしたオーディオ・ストリームとして最も高く、かつ、プリセット・マッチング・スレショルドより大きい合致度に対応するオーディオ・ストリームを選択する段階と、を含む、
請求項1乃至3いずれか一項に記載の方法。 - 前記オリジナル声紋特徴モデルを生成するために前記うまくマッチングしたオーディオ・ストリームを追加のオーディオ・ストリーム訓練サンプルとして使用して、前記オリジナル声紋特徴モデルを更新する前記ステップは、具体的には、
前記うまくマッチングしたオーディオ・ストリーム及び前記プリセット・オーディオ・ストリーム訓練サンプルに従って、補正済み声紋特徴モデルを生成する段階であり、前記プリセット・オーディオ・ストリーム訓練サンプルは、前記オリジナル声紋特徴モデルを生成するためのオーディオ・ストリームである段階と、
前記オリジナル声紋特徴モデルを前記補正済み声紋特徴モデルに更新する段階と、を含む、
請求項2に記載の方法。 - オリジナル・オーディオ・ストリーム取得ユニットと、セグメンテーション及びクラスタリング・ユニットと、マッチング・ユニットと、モデル更新ユニットと、を備える端末であって、
前記オリジナル・オーディオ・ストリーム取得ユニットは、少なくとも1人の話者を含むオリジナル・オーディオ・ストリームを取得し、前記オリジナル・オーディオ・ストリームを前記セグメンテーション及びクラスタリング・ユニットに送るように構成され、
前記セグメンテーション及びクラスタリング・ユニットは、前記オリジナル・オーディオ・ストリーム取得ユニットから送られた前記オリジナル・オーディオ・ストリームを受け取り、プリセット話者セグメンテーション及びクラスタリング・アルゴリズムに従って、前記オリジナル・オーディオ・ストリームにおける前記少なくとも1人の話者に係る各話者それぞれのオーディオ・ストリームを取得し、かつ、前記少なくとも1人の話者に係る各話者それぞれのオーディオ・ストリームを前記マッチング・ユニットに送る、ように構成され、
前記マッチング・ユニットは、前記セグメンテーション及びクラスタリング・ユニットから送られた前記少なくとも1人の話者に係る各話者それぞれのオーディオ・ストリームを受け取り、前記少なくとも1人の話者に係る各話者それぞれのオーディオ・ストリームとオリジナル声紋特徴モデルとを別々にマッチングして、うまくマッチングしたオーディオ・ストリームを取得し、かつ、前記うまくマッチングしたオーディオ・ストリームを前記モデル更新ユニットに送る、ように構成され、
前記モデル更新ユニットは、前記マッチング・ユニットから送られた前記うまくマッチングしたオーディオ・ストリームを受け取り、前記オリジナル声紋特徴モデルを生成するために、前記うまくマッチングしたオーディオ・ストリームを追加のオーディオ・ストリーム訓練サンプルとして使用し、かつ、前記オリジナル声紋特徴モデルを更新する、ように構成される、
端末。 - 前記端末は、さらに、
サンプル取得ユニットと、オリジナル・モデル確立ユニットと、を備え、
前記サンプル取得ユニットは、プリセット・オーディオ・ストリーム訓練サンプルを取得し、かつ、前記プリセット・オーディオ・ストリーム訓練サンプルを前記オリジナル・モデル確立ユニットに送る、ように構成され、
前記オリジナル・モデル確立ユニットは、前記サンプル取得ユニットから送られた前記プリセット・オーディオ・ストリーム訓練サンプルを受け取り、かつ、前記プリセット・オーディオ・ストリーム訓練サンプルにより前記オリジナル声紋特徴モデルを確立する、ように構成される、
請求項6に記載の端末。 - 前記セグメンテーション及びクラスタリング・ユニットは、具体的には、セグメンテーション・ユニットと、クラスタリング・ユニットと、を備え、
前記セグメンテーション・ユニットは、プリセット話者セグメンテーション・アルゴリズムに従って、前記オリジナル・オーディオ・ストリームを複数のオーディオ・クリップに分割する、ように構成され、前記複数のオーディオ・クリップに係る各オーディオ・クリップは、前記少なくとも1人の話者に係る同一話者のオーディオ情報だけを含み、かつ、前記セグメンテーション・ユニットは、前記少なくとも1人の話者に係る同一話者だけを含む前記オーディオ・クリップを前記クラスタリング・ユニットに送る、ように構成され、
前記クラスタリング・ユニットは、前記セグメンテーション・ユニットから送られた、前記少なくとも1人の話者に係る同一話者だけを含む前記オーディオ・クリップを受け取り、かつ、プリセット話者クラスタリング・アルゴリズムに従って、前記少なくとも1人の話者に係る同一話者だけを含む前記オーディオ・クリップをクラスタリングする、ように構成され、前記少なくとも1人の話者に係る同一話者の前記オーディオ情報だけを含むオーディオ・ストリームを生成する、
請求項6または7に記載の端末。 - 前記マッチング・ユニットは、具体的には、合致度取得ユニットと、マッチング済みオーディオ・ストリーム取得ユニットと、を備え、
前記合致度取得ユニットは、前記少なくとも1人の話者に係る各話者の前記オーディオ・ストリーム及び前記オリジナル声紋特徴モデルに従って、前記少なくとも1人の話者に係る各話者の前記オーディオ・ストリームと前記オリジナル声紋特徴モデルとの合致度を取得し、かつ、前記合致度を前記マッチング済みオーディオ・ストリーム取得ユニットに送る、ように構成され、
前記マッチング済みオーディオ・ストリーム取得ユニットは、前記合致度取得ユニットから送られた、前記少なくとも1人の話者に係る各話者の前記オーディオ・ストリームと前記オリジナル声紋特徴モデルとの前記合致度を受け取り、かつ、前記うまくマッチングしたオーディオ・ストリームとして最も高く、プリセット・マッチング・スレショルドより大きい合致度に対応するオーディオ・ストリームを選択する、ように構成される、
請求項6乃至8いずれか一項に記載の端末。 - 前記モデル更新ユニットは、具体的には、補正済みモデル取得ユニットと、モデル更新サブユニットと、を備え、
前記補正済みモデル取得ユニットは、前記うまくマッチングしたオーディオ・ストリーム及び前記プリセット・オーディオ・ストリーム訓練サンプルに従って、補正済み声紋特徴モデルを生成し、かつ、前記補正済み声紋特徴モデルを前記モデル更新サブユニットに送る、ように構成され、
前記モデル更新サブユニットは、前記補正済みモデル取得ユニットから送られた前記補正済み声紋特徴モデルを受け取り、かつ、前記オリジナル声紋特徴モデルを前記補正済み声紋特徴モデルに更新する、ように構成される、
請求項7に記載の端末。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210235593.0 | 2012-07-09 | ||
CN2012102355930A CN102760434A (zh) | 2012-07-09 | 2012-07-09 | 一种声纹特征模型更新方法及终端 |
PCT/CN2013/079005 WO2014008843A1 (zh) | 2012-07-09 | 2013-07-08 | 一种声纹特征模型更新方法及终端 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2015516091A JP2015516091A (ja) | 2015-06-04 |
JP5996783B2 true JP5996783B2 (ja) | 2016-09-21 |
Family
ID=47054876
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015509296A Active JP5996783B2 (ja) | 2012-07-09 | 2013-07-08 | 声紋特徴モデルを更新するための方法及び端末 |
Country Status (7)
Country | Link |
---|---|
US (1) | US9685161B2 (ja) |
EP (1) | EP2821992B1 (ja) |
JP (1) | JP5996783B2 (ja) |
KR (1) | KR20140144233A (ja) |
CN (1) | CN102760434A (ja) |
AU (1) | AU2013289660B2 (ja) |
WO (1) | WO2014008843A1 (ja) |
Families Citing this family (93)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102760434A (zh) | 2012-07-09 | 2012-10-31 | 华为终端有限公司 | 一种声纹特征模型更新方法及终端 |
US9258425B2 (en) * | 2013-05-22 | 2016-02-09 | Nuance Communications, Inc. | Method and system for speaker verification |
CN103258535A (zh) * | 2013-05-30 | 2013-08-21 | 中国人民财产保险股份有限公司 | 基于声纹识别的身份识别方法及系统 |
CN104282303B (zh) * | 2013-07-09 | 2019-03-29 | 威盛电子股份有限公司 | 利用声纹识别进行语音辨识的方法及其电子装置 |
CN103488764B (zh) * | 2013-09-26 | 2016-08-17 | 天脉聚源(北京)传媒科技有限公司 | 个性化视频内容推荐方法和系统 |
CN104851423B (zh) * | 2014-02-19 | 2021-04-13 | 联想(北京)有限公司 | 一种声音信息处理方法及装置 |
CN104935713A (zh) * | 2014-03-20 | 2015-09-23 | 海尔集团公司 | 通信终端存储电话号码的方法及装置 |
US10373711B2 (en) | 2014-06-04 | 2019-08-06 | Nuance Communications, Inc. | Medical coding system with CDI clarification request notification |
CN104168270B (zh) * | 2014-07-31 | 2016-01-13 | 腾讯科技(深圳)有限公司 | 身份验证方法、服务器、客户端及系统 |
WO2016015687A1 (zh) | 2014-07-31 | 2016-02-04 | 腾讯科技(深圳)有限公司 | 声纹验证方法及装置 |
CN104219381B (zh) * | 2014-08-18 | 2017-08-25 | 上海卓易科技股份有限公司 | 一种智能解锁方法、终端及系统 |
CN104202486A (zh) * | 2014-09-26 | 2014-12-10 | 上海华勤通讯技术有限公司 | 移动终端及其屏幕解锁方法 |
CN104320255A (zh) * | 2014-09-30 | 2015-01-28 | 百度在线网络技术(北京)有限公司 | 生成账户认证数据的方法、账户认证的方法以及装置 |
CN105575391B (zh) | 2014-10-10 | 2020-04-03 | 阿里巴巴集团控股有限公司 | 声纹信息管理方法、装置以及身份认证方法、系统 |
CN104392722B (zh) * | 2014-11-28 | 2018-11-09 | 电子科技大学 | 一种基于声音的生物种群识别方法及系统 |
CN104616655B (zh) * | 2015-02-05 | 2018-01-16 | 北京得意音通技术有限责任公司 | 声纹模型自动重建的方法和装置 |
CN106033670B (zh) * | 2015-03-19 | 2019-11-15 | 科大讯飞股份有限公司 | 声纹密码认证方法及系统 |
CN106157959B (zh) * | 2015-03-31 | 2019-10-18 | 讯飞智元信息科技有限公司 | 声纹模型更新方法及系统 |
US9721571B2 (en) * | 2015-06-14 | 2017-08-01 | Nice Ltd. | System and method for voice print generation |
CN104967622B (zh) * | 2015-06-30 | 2017-04-05 | 百度在线网络技术(北京)有限公司 | 基于声纹的通讯方法、装置和系统 |
CN106373575B (zh) * | 2015-07-23 | 2020-07-21 | 阿里巴巴集团控股有限公司 | 一种用户声纹模型构建方法、装置及系统 |
CN106548793A (zh) * | 2015-09-16 | 2017-03-29 | 中兴通讯股份有限公司 | 存储和播放音频文件的方法和装置 |
CN106558306A (zh) * | 2015-09-28 | 2017-04-05 | 广东新信通信息系统服务有限公司 | 用于语音识别的方法、装置和设备 |
CN105895077A (zh) * | 2015-11-15 | 2016-08-24 | 乐视移动智能信息技术(北京)有限公司 | 录音标记方法及录音装置 |
CN105913849B (zh) * | 2015-11-27 | 2019-10-25 | 中国人民解放军总参谋部陆航研究所 | 一种基于事件检测的说话人分割方法 |
US10366687B2 (en) * | 2015-12-10 | 2019-07-30 | Nuance Communications, Inc. | System and methods for adapting neural network acoustic models |
CN106887231A (zh) * | 2015-12-16 | 2017-06-23 | 芋头科技(杭州)有限公司 | 一种识别模型更新方法及系统以及智能终端 |
US9697836B1 (en) | 2015-12-30 | 2017-07-04 | Nice Ltd. | Authentication of users of self service channels |
CN106981289A (zh) * | 2016-01-14 | 2017-07-25 | 芋头科技(杭州)有限公司 | 一种识别模型训练方法及系统以及智能终端 |
CN106971734B (zh) * | 2016-01-14 | 2020-10-23 | 芋头科技(杭州)有限公司 | 一种可根据模型的提取频率训练识别模型的方法及系统 |
CN106971735B (zh) * | 2016-01-14 | 2019-12-03 | 芋头科技(杭州)有限公司 | 一种定期更新缓存中训练语句的声纹识别的方法及系统 |
CN105632489A (zh) * | 2016-01-20 | 2016-06-01 | 曾戟 | 一种语音播放方法和装置 |
CN105719659A (zh) * | 2016-02-03 | 2016-06-29 | 努比亚技术有限公司 | 基于声纹识别的录音文件分离方法及装置 |
CN106205610B (zh) * | 2016-06-29 | 2019-11-26 | 联想(北京)有限公司 | 一种语音信息识别方法和设备 |
CN106203298A (zh) * | 2016-06-30 | 2016-12-07 | 北京集创北方科技股份有限公司 | 生物特征识别方法及装置 |
CN106296302B (zh) * | 2016-08-18 | 2019-07-09 | 中国联合网络通信集团有限公司 | 一种语音数据处理方法、装置、用具和系统 |
CN106056996B (zh) * | 2016-08-23 | 2017-08-29 | 深圳市鹰硕技术有限公司 | 一种多媒体交互教学系统及方法 |
US10949602B2 (en) | 2016-09-20 | 2021-03-16 | Nuance Communications, Inc. | Sequencing medical codes methods and apparatus |
CN106653016B (zh) * | 2016-10-28 | 2020-07-28 | 上海智臻智能网络科技股份有限公司 | 智能交互方法和装置 |
US11620471B2 (en) * | 2016-11-30 | 2023-04-04 | Cylance Inc. | Clustering analysis for deduplication of training set samples for machine learning based computer threat analysis |
CN106782507B (zh) * | 2016-12-19 | 2018-03-06 | 平安科技(深圳)有限公司 | 语音分割的方法及装置 |
CN106782563B (zh) * | 2016-12-28 | 2020-06-02 | 上海百芝龙网络科技有限公司 | 一种智能家居语音交互系统 |
US11100384B2 (en) | 2017-02-14 | 2021-08-24 | Microsoft Technology Licensing, Llc | Intelligent device user interactions |
US11010601B2 (en) | 2017-02-14 | 2021-05-18 | Microsoft Technology Licensing, Llc | Intelligent assistant device communicating non-verbal cues |
US10467510B2 (en) | 2017-02-14 | 2019-11-05 | Microsoft Technology Licensing, Llc | Intelligent assistant |
CN108447471B (zh) * | 2017-02-15 | 2021-09-10 | 腾讯科技(深圳)有限公司 | 语音识别方法及语音识别装置 |
CN106847292B (zh) * | 2017-02-16 | 2018-06-19 | 平安科技(深圳)有限公司 | 声纹识别方法及装置 |
CN107147618B (zh) * | 2017-04-10 | 2020-05-15 | 易视星空科技无锡有限公司 | 一种用户注册方法、装置及电子设备 |
CN107123418B (zh) * | 2017-05-09 | 2020-12-25 | 广东小天才科技有限公司 | 一种语音消息的处理方法及移动终端 |
CN109145145A (zh) * | 2017-06-16 | 2019-01-04 | 阿里巴巴集团控股有限公司 | 一种数据更新方法、客户端及电子设备 |
CN109147770B (zh) | 2017-06-16 | 2023-07-28 | 阿里巴巴集团控股有限公司 | 声音识别特征的优化、动态注册方法、客户端和服务器 |
CN109102810B (zh) * | 2017-06-21 | 2021-10-15 | 北京搜狗科技发展有限公司 | 声纹识别方法和装置 |
US11133091B2 (en) | 2017-07-21 | 2021-09-28 | Nuance Communications, Inc. | Automated analysis system and method |
US10592649B2 (en) * | 2017-08-09 | 2020-03-17 | Nice Ltd. | Authentication via a dynamic passphrase |
CN109427336B (zh) * | 2017-09-01 | 2020-06-16 | 华为技术有限公司 | 语音对象识别方法及装置 |
US11227605B2 (en) * | 2017-09-11 | 2022-01-18 | Telefonaktiebolaget Lm Ericsson (Publ) | Voice-controlled management of user profiles |
CN107731220B (zh) * | 2017-10-18 | 2019-01-22 | 北京达佳互联信息技术有限公司 | 音频识别方法、装置和服务器 |
US11024424B2 (en) | 2017-10-27 | 2021-06-01 | Nuance Communications, Inc. | Computer assisted coding systems and methods |
CN107799120A (zh) * | 2017-11-10 | 2018-03-13 | 北京康力优蓝机器人科技有限公司 | 服务机器人识别唤醒方法及装置 |
CN108257604B (zh) * | 2017-12-08 | 2021-01-08 | 平安普惠企业管理有限公司 | 语音识别方法、终端设备及计算机可读存储介质 |
CN108174236A (zh) * | 2017-12-22 | 2018-06-15 | 维沃移动通信有限公司 | 一种媒体文件处理方法、服务器及移动终端 |
CN108269575B (zh) * | 2018-01-12 | 2021-11-02 | 平安科技(深圳)有限公司 | 更新声纹数据的语音识别方法、终端装置及存储介质 |
CN108364654B (zh) * | 2018-01-30 | 2020-10-13 | 网易乐得科技有限公司 | 语音处理方法、介质、装置和计算设备 |
CN108428455A (zh) * | 2018-02-13 | 2018-08-21 | 上海爱优威软件开发有限公司 | 声纹特征的采集方法及系统 |
CN108806695A (zh) * | 2018-04-17 | 2018-11-13 | 平安科技(深圳)有限公司 | 自更新的反欺诈方法、装置、计算机设备和存储介质 |
CN110875042B (zh) * | 2018-08-14 | 2022-08-16 | 杭州海康威视数字技术股份有限公司 | 指定人群监控方法、装置和存储介质 |
CN110880325B (zh) * | 2018-09-05 | 2022-06-28 | 华为技术有限公司 | 身份识别方法及设备 |
CN109378003B (zh) * | 2018-11-02 | 2021-10-01 | 科大讯飞股份有限公司 | 一种声纹模型训练的方法和系统 |
US11004454B1 (en) * | 2018-11-06 | 2021-05-11 | Amazon Technologies, Inc. | Voice profile updating |
US11200884B1 (en) * | 2018-11-06 | 2021-12-14 | Amazon Technologies, Inc. | Voice profile updating |
US10978095B2 (en) * | 2018-11-06 | 2021-04-13 | International Business Machines Corporation | Control of incoming calls |
TWI707249B (zh) * | 2018-11-27 | 2020-10-11 | 美律實業股份有限公司 | 產生標籤資料的系統及方法 |
US11641363B2 (en) * | 2019-01-14 | 2023-05-02 | Qatar Foundation For Education, Science And Community Development | Methods and systems for verifying the authenticity of a remote service |
CN109979467B (zh) * | 2019-01-25 | 2021-02-23 | 出门问问信息科技有限公司 | 人声过滤方法、装置、设备及存储介质 |
CN110164415A (zh) * | 2019-04-29 | 2019-08-23 | 腾讯科技(深圳)有限公司 | 一种基于语音识别的推荐方法、装置及介质 |
CN110289013B (zh) * | 2019-07-24 | 2023-12-19 | 腾讯科技(深圳)有限公司 | 多音频采集源检测方法、装置、存储介质和计算机设备 |
CN110660398B (zh) * | 2019-09-19 | 2020-11-20 | 北京三快在线科技有限公司 | 声纹特征更新方法、装置、计算机设备及存储介质 |
KR20210050884A (ko) * | 2019-10-29 | 2021-05-10 | 삼성전자주식회사 | 화자 인식을 위한 등록 방법 및 장치 |
CN111243601B (zh) * | 2019-12-31 | 2023-04-07 | 北京捷通华声科技股份有限公司 | 声纹聚类方法、装置、电子设备和计算机可读存储介质 |
CN111248861B (zh) * | 2020-01-16 | 2023-01-24 | 广州国音智能科技有限公司 | 一种提高声纹采集精度的方法、装置和设备 |
CN111341326B (zh) * | 2020-02-18 | 2023-04-18 | RealMe重庆移动通信有限公司 | 语音处理方法及相关产品 |
CN111429920B (zh) * | 2020-03-30 | 2024-01-23 | 北京奇艺世纪科技有限公司 | 用户区分方法、用户行为库确定方法、装置及设备 |
CN111627449B (zh) * | 2020-05-20 | 2023-02-28 | Oppo广东移动通信有限公司 | 屏幕的声纹解锁方法和装置 |
CN111785291A (zh) * | 2020-07-02 | 2020-10-16 | 北京捷通华声科技股份有限公司 | 语音分离方法和语音分离装置 |
CN111951791A (zh) * | 2020-08-26 | 2020-11-17 | 上海依图网络科技有限公司 | 声纹识别模型训练方法、识别方法、电子设备及存储介质 |
US11837238B2 (en) * | 2020-10-21 | 2023-12-05 | Google Llc | Assessing speaker recognition performance |
CN112735432B (zh) * | 2020-12-24 | 2023-05-02 | 北京百度网讯科技有限公司 | 音频识别的方法、装置、电子设备及存储介质 |
CN112735438A (zh) * | 2020-12-29 | 2021-04-30 | 科大讯飞股份有限公司 | 一种在线声纹特征更新方法及设备、存储设备和建模设备 |
CN112717374B (zh) * | 2021-01-08 | 2023-03-24 | 南方科技大学 | 用户匹配方法、装置、电子设备及介质 |
CN113066506B (zh) * | 2021-03-12 | 2023-01-17 | 北京百度网讯科技有限公司 | 音频数据分离方法、装置、电子设备以及存储介质 |
CN113421563A (zh) * | 2021-06-21 | 2021-09-21 | 安徽听见科技有限公司 | 说话人标注方法、装置、电子设备和存储介质 |
CN113570754B (zh) * | 2021-07-01 | 2022-04-29 | 汉王科技股份有限公司 | 声纹锁控制方法、装置、电子设备 |
CN116741180B (zh) * | 2023-08-14 | 2023-10-31 | 北京分音塔科技有限公司 | 基于声纹增强和对抗的语音识别模型训练方法及装置 |
Family Cites Families (29)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3745403B2 (ja) * | 1994-04-12 | 2006-02-15 | ゼロックス コーポレイション | オーディオデータセグメントのクラスタリング方法 |
US5893059A (en) * | 1997-04-17 | 1999-04-06 | Nynex Science And Technology, Inc. | Speech recoginition methods and apparatus |
US7739114B1 (en) * | 1999-06-30 | 2010-06-15 | International Business Machines Corporation | Methods and apparatus for tracking speakers in an audio stream |
US7496510B2 (en) * | 2000-11-30 | 2009-02-24 | International Business Machines Corporation | Method and apparatus for the automatic separating and indexing of multi-speaker conversations |
US7240007B2 (en) * | 2001-12-13 | 2007-07-03 | Matsushita Electric Industrial Co., Ltd. | Speaker authentication by fusion of voiceprint match attempt results with additional information |
US20030236663A1 (en) | 2002-06-19 | 2003-12-25 | Koninklijke Philips Electronics N.V. | Mega speaker identification (ID) system and corresponding methods therefor |
US7181393B2 (en) * | 2002-11-29 | 2007-02-20 | Microsoft Corporation | Method of real-time speaker change point detection, speaker tracking and speaker model construction |
JP2006017936A (ja) * | 2004-06-30 | 2006-01-19 | Sharp Corp | 通話装置,中継処理装置,通信認証システム,通話装置の制御方法,通話装置の制御プログラム,および通話装置の制御プログラムを記録した記録媒体 |
US9240188B2 (en) * | 2004-09-16 | 2016-01-19 | Lena Foundation | System and method for expressive language, developmental disorder, and emotion assessment |
JP2006178334A (ja) * | 2004-12-24 | 2006-07-06 | Yamaha Corp | 語学学習システム |
CN1905445B (zh) * | 2005-07-27 | 2012-02-15 | 国际商业机器公司 | 使用可移动的语音标识卡的语音认证系统及语音认证方法 |
JP4700522B2 (ja) * | 2006-03-02 | 2011-06-15 | 日本放送協会 | 音声認識装置及び音声認識プログラム |
US8635243B2 (en) * | 2007-03-07 | 2014-01-21 | Research In Motion Limited | Sending a communications header with voice recording to send metadata for use in speech recognition, formatting, and search mobile search application |
JP4812029B2 (ja) * | 2007-03-16 | 2011-11-09 | 富士通株式会社 | 音声認識システム、および、音声認識プログラム |
JP5418223B2 (ja) * | 2007-03-26 | 2014-02-19 | 日本電気株式会社 | 音声分類装置、音声分類方法、および音声分類用プログラム |
JP2009109712A (ja) * | 2007-10-30 | 2009-05-21 | National Institute Of Information & Communication Technology | オンライン話者逐次区別システム及びそのコンピュータプログラム |
US9099085B2 (en) * | 2008-07-21 | 2015-08-04 | Auraya Pty. Ltd. | Voice authentication systems and methods |
JP4964204B2 (ja) * | 2008-08-27 | 2012-06-27 | 日本電信電話株式会社 | 複数信号区間推定装置、複数信号区間推定方法、そのプログラムおよび記録媒体 |
CN101673544B (zh) | 2009-10-10 | 2012-07-04 | 上海电虹软件有限公司 | 一种基于声纹识别和定位跟踪的交叉监控方法和系统 |
CN101770774B (zh) * | 2009-12-31 | 2011-12-07 | 吉林大学 | 基于嵌入式的开集说话人识别方法及其系统 |
CN102074236B (zh) * | 2010-11-29 | 2012-06-06 | 清华大学 | 一种分布式麦克风的说话人聚类方法 |
CN102231277A (zh) * | 2011-06-29 | 2011-11-02 | 电子科技大学 | 基于声纹识别的移动终端隐私保护方法 |
CN102543063B (zh) * | 2011-12-07 | 2013-07-24 | 华南理工大学 | 基于说话人分割与聚类的多说话人语速估计方法 |
CN102760434A (zh) * | 2012-07-09 | 2012-10-31 | 华为终端有限公司 | 一种声纹特征模型更新方法及终端 |
US8880398B1 (en) * | 2012-07-13 | 2014-11-04 | Google Inc. | Localized speech recognition with offload |
US10134400B2 (en) * | 2012-11-21 | 2018-11-20 | Verint Systems Ltd. | Diarization using acoustic labeling |
WO2014107433A2 (en) * | 2013-01-01 | 2014-07-10 | Massachusetts Institute Of Technology | Multi-layer structures prepared by layer-by-layer assembly |
US9258425B2 (en) * | 2013-05-22 | 2016-02-09 | Nuance Communications, Inc. | Method and system for speaker verification |
US9460722B2 (en) * | 2013-07-17 | 2016-10-04 | Verint Systems Ltd. | Blind diarization of recorded calls with arbitrary number of speakers |
-
2012
- 2012-07-09 CN CN2012102355930A patent/CN102760434A/zh active Pending
-
2013
- 2013-07-08 JP JP2015509296A patent/JP5996783B2/ja active Active
- 2013-07-08 EP EP13816191.4A patent/EP2821992B1/en active Active
- 2013-07-08 AU AU2013289660A patent/AU2013289660B2/en active Active
- 2013-07-08 KR KR1020147029482A patent/KR20140144233A/ko not_active Application Discontinuation
- 2013-07-08 WO PCT/CN2013/079005 patent/WO2014008843A1/zh active Application Filing
-
2014
- 2014-12-30 US US14/585,486 patent/US9685161B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
AU2013289660B2 (en) | 2016-06-30 |
JP2015516091A (ja) | 2015-06-04 |
EP2821992B1 (en) | 2018-02-14 |
WO2014008843A1 (zh) | 2014-01-16 |
US9685161B2 (en) | 2017-06-20 |
KR20140144233A (ko) | 2014-12-18 |
US20150112680A1 (en) | 2015-04-23 |
EP2821992A1 (en) | 2015-01-07 |
AU2013289660A1 (en) | 2014-10-30 |
EP2821992A4 (en) | 2015-03-04 |
CN102760434A (zh) | 2012-10-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5996783B2 (ja) | 声紋特徴モデルを更新するための方法及び端末 | |
CN107274885B (zh) | 语音识别方法及相关产品 | |
CN108538320B (zh) | 录音控制方法和装置、可读存储介质、终端 | |
EP4064276A1 (en) | Method and device for speech recognition, terminal and storage medium | |
JP2021516786A (ja) | 複数人の音声を分離する方法、装置、およびコンピュータプログラム | |
CN103714824B (zh) | 一种音频处理方法、装置及终端设备 | |
US9570076B2 (en) | Method and system for voice recognition employing multiple voice-recognition techniques | |
CN108735209A (zh) | 唤醒词绑定方法、智能设备及存储介质 | |
CN106203235B (zh) | 活体鉴别方法和装置 | |
CN107919138B (zh) | 一种语音中的情绪处理方法及移动终端 | |
CN112751648B (zh) | 丢包数据恢复方法和相关装置、设备及存储介质 | |
CN110830368B (zh) | 即时通讯消息发送方法及电子设备 | |
CN106506437B (zh) | 一种音频数据处理方法,及设备 | |
CN105139848B (zh) | 数据转换方法和装置 | |
CN109686359B (zh) | 语音输出方法、终端及计算机可读存储介质 | |
CN111739545A (zh) | 音频处理方法、装置及存储介质 | |
CN107403623A (zh) | 录音内容的保存方法、终端、云服务器及可读存储介质 | |
CN109453526B (zh) | 一种声音处理方法、终端及计算机可读存储介质 | |
CN110111795B (zh) | 一种语音处理方法及终端设备 | |
WO2020118560A1 (zh) | 一种录音方法、装置、电子设备和计算机可读存储介质 | |
WO2017124876A1 (zh) | 一种语音播放方法和装置 | |
CN114065168A (zh) | 信息处理方法、智能终端及存储介质 | |
CN110502126B (zh) | 输入方法及电子设备 | |
CN107645604B (zh) | 一种通话处理方法及移动终端 | |
CN112700783A (zh) | 通讯的变声方法、终端设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20151026 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20151117 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20160216 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20160802 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20160824 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5996783 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |