JP5996783B2 - 声紋特徴モデルを更新するための方法及び端末 - Google Patents

声紋特徴モデルを更新するための方法及び端末 Download PDF

Info

Publication number
JP5996783B2
JP5996783B2 JP2015509296A JP2015509296A JP5996783B2 JP 5996783 B2 JP5996783 B2 JP 5996783B2 JP 2015509296 A JP2015509296 A JP 2015509296A JP 2015509296 A JP2015509296 A JP 2015509296A JP 5996783 B2 JP5996783 B2 JP 5996783B2
Authority
JP
Japan
Prior art keywords
audio stream
speaker
original
feature model
audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015509296A
Other languages
English (en)
Other versions
JP2015516091A (ja
Inventor
▲ティン▼ ▲盧▼
▲ティン▼ ▲盧▼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Device Co Ltd
Original Assignee
Huawei Device Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Device Co Ltd filed Critical Huawei Device Co Ltd
Publication of JP2015516091A publication Critical patent/JP2015516091A/ja
Application granted granted Critical
Publication of JP5996783B2 publication Critical patent/JP5996783B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • G10L15/07Adaptation to the speaker
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering

Description

関連出願の相互参照
本出願は、参照によりその全体が本明細書に包含される、「METHOD FOR UPDATING VOICEPRINT FEATURE MODEL AND TERMINAL」というタイトルで2012年7月9日に中国特許庁に出願した中国特許出願第201210235593.0号の優先権を主張するものである。
本発明は、音声認識技術の分野に関し、詳しくは、声紋特徴モデルを更新するための方法及び端末に関する。
声紋認識は、人声を使用することによって実施されるタイプの認識技術である。人が話しているとき使用される発声器官にはある程度の相違があり、任意の2人の音声の声紋スペクトログラムは異なる。したがって、声紋は、個々の相違を表す生物学的特徴として使用することができる。すなわち、異なる個人は、声紋特徴モデルを確立することによって表すことができ、声紋特徴モデルは、異なる個人を認識するために使用される。現在は、主に訓練コーパスの長さの選択において見られる、声紋特徴モデルの適用に関する問題がある。一般に、声紋訓練コーパスがより長いと、より精密に確立された特徴モデル及びより高い認識精度がもたらされるが、実用性が不十分である。声紋訓練コーパスが短いと十分な実用性が確保され得るが、認識精度が高くない。さらに、実際の適用において、例えば、携帯電話のスクリーン声紋開錠用途では、機密性を満たすためには、高い認識精度が必要であり、十分な実用性を確保するためには、訓練コーパスは過度に長くするべきでない。
既存の声紋特徴モデル確立方法において、ユーザは、声紋登録フェーズで複数回の訓練を手動で実施し、各訓練には短いコーパスを使用し、最後に短いコーパスを組み合わせて長い訓練コーパスにして特徴モデルを生成する。しかし、ユーザは、複数回に対する持続時間で訓練コーパスを手動で記録するとき経験に乏しいことがあり、この方法は実用性が高くない。訓練コーパスの組合せは、長さにまだ限界があり、精密な特徴モデルを生成することができず、認識精度をさらに改善することができない。発話速度及び抑揚のばらつき、並びに感情の変化は、モデル確立精度にも影響することがある。したがって、比較的高い実用性を前提にして、いかに声紋特徴モデルの精度を改善し、認識精度をさらに改善するかという緊急課題がある。
本発明の諸実施形態の一目的は、声紋特徴モデルを更新するための方法及び端末を提供し、それによって、既存の方法を使用することにより、声紋特徴モデルを取得するとき、声紋特徴モデルの精度が比較的高い実用性を前提にして改善することが確保され得ないし、その結果、声紋特徴モデルを使用することによって認識精度が改善できない、という問題を解決することにある。
第一の態様によれば、声紋特徴モデルを更新するための方法は、少なくとも1人の話者を含むオリジナル・オーディオ・ストリームを取得するステップと、プリセット話者セグメンテーション及びクラスタリング・アルゴリズムに従って、前記オリジナル・オーディオ・ストリームにおける前記少なくとも1人の話者に係る各話者それぞれのオーディオ・ストリームを取得するステップと、前記少なくとも1人の話者に係る各話者それぞれのオーディオ・ストリームとオリジナル声紋特徴モデルとを別々にマッチングして、うまくマッチングしたオーディオ・ストリームを取得するステップと、前記オリジナル声紋特徴モデルを生成するために、前記うまくマッチングしたオーディオ・ストリームを追加のオーディオ・ストリーム訓練サンプルとして使用して、前記オリジナル声紋特徴モデルを更新するステップと、を含む。
第1の態様の第1の可能な実施のやり方において、前記方法は、さらに、少なくとも1人の話者を含むオリジナル・オーディオ・ストリームを取得する前記ステップの以前に、プリセット・オーディオ・ストリーム訓練サンプルに従って、前記オリジナル声紋特徴モデルを確立するステップと、を含む。
第1の態様に関して、又は第1の態様の第1の可能な実施のやり方に関して、第2の可能な実施のやり方において、プリセット話者セグメンテーション及びクラスタリング・アルゴリズムに従って、前記オリジナル・オーディオ・ストリームにおける前記少なくとも1人の話者に係る各話者それぞれのオーディオ・ストリームを取得する前記ステップは、具体的には、プリセット話者セグメンテーション・アルゴリズムに従って、前記オリジナル・オーディオ・ストリームを複数のオーディオ・クリップに分割する段階であり、前記複数のオーディオ・クリップに係る各オーディオ・クリップは、前記少なくとも1人の話者に係る同一話者のオーディオ情報だけを含む段階と、プリセット話者クラスタリング・アルゴリズムに従って、前記少なくとも1人の話者に係る同一話者だけを含む前記オーディオ・クリップをクラスタリングする段階であり、前記少なくとも1人の話者に係る同一話者のオーディオ情報だけを含むオーディオ・ストリームを生成する、段階と、を含む。
第1の態様に関して、又は第1の態様の第1の可能な実施のやり方に関して、又は第1の態様の第2の可能な実施のやり方に関して、第3の可能な実施のやり方において、前記少なくとも1人の話者に係る各話者それぞれのオーディオ・ストリームとオリジナル声紋特徴モデルとを別々にマッチングして、うまくマッチングしたオーディオ・ストリームを取得する前記ステップは、具体的には、前記少なくとも1人の話者に係る各話者の前記オーディオ・ストリーム及び前記オリジナル声紋特徴モデルに従って、前記少なくとも1人の話者に係る各話者の前記オーディオ・ストリームと前記オリジナル声紋特徴モデルとの合致度を取得する段階と、前記うまくマッチングしたオーディオ・ストリームとして最も高く、かつ、プリセット・マッチング・スレショルドより大きい合致度に対応するオーディオ・ストリームを選択する段階と、を含む。
第1の態様に関して、又は第1の態様の第1の可能な実施のやり方に関して、又は第1の態様の第2の可能な実施のやり方に関して、又は第1の態様の第3の可能な実施のやり方に関して、第4の可能な実施のやり方において、前記オリジナル声紋特徴モデルを生成するために前記うまくマッチングしたオーディオ・ストリームを追加のオーディオ・ストリーム訓練サンプルとして使用して、前記オリジナル声紋特徴モデルを更新する前記ステップは、具体的には、前記うまくマッチングしたオーディオ・ストリーム及び前記プリセット・オーディオ・ストリーム訓練サンプルに従って、補正済み声紋特徴モデルを生成する段階であり、前記プリセット・オーディオ・ストリーム訓練サンプルは、前記オリジナル声紋特徴モデルを生成するためのオーディオ・ストリームである段階と、前記オリジナル声紋特徴モデルを前記補正済み声紋特徴モデルに更新する段階と、を含む。
第2の態様によれば、端末は、オリジナル・オーディオ・ストリーム取得ユニットと、セグメンテーション及びクラスタリング・ユニットと、マッチング・ユニットと、モデル更新ユニットと、を備える端末であって、前記オリジナル・オーディオ・ストリーム取得ユニットは、少なくとも1人の話者を含むオリジナル・オーディオ・ストリームを取得し、前記オリジナル・オーディオ・ストリームを前記セグメンテーション及びクラスタリング・ユニットに送るように構成され、前記セグメンテーション及びクラスタリング・ユニットは、前記オリジナル・オーディオ・ストリーム取得ユニットから送られた前記オリジナル・オーディオ・ストリームを受け取り、プリセット話者セグメンテーション及びクラスタリング・アルゴリズムに従って、前記オリジナル・オーディオ・ストリームにおける前記少なくとも1人の話者に係る各話者それぞれのオーディオ・ストリームを取得し、かつ、前記少なくとも1人の話者に係る各話者それぞれのオーディオ・ストリームを前記マッチング・ユニットに送る、ように構成され、前記マッチング・ユニットは、前記セグメンテーション及びクラスタリング・ユニットから送られた前記少なくとも1人の話者に係る各話者それぞれのオーディオ・ストリームを受け取り、前記少なくとも1人の話者に係る各話者それぞれのオーディオ・ストリームとオリジナル声紋特徴モデルとを別々にマッチングして、うまくマッチングしたオーディオ・ストリームを取得し、かつ、前記うまくマッチングしたオーディオ・ストリームを前記モデル更新ユニットに送る、ように構成され、前記モデル更新ユニットは、前記マッチング・ユニットから送られた前記うまくマッチングしたオーディオ・ストリームを受け取り、前記オリジナル声紋特徴モデルを生成するために、前記うまくマッチングしたオーディオ・ストリームを追加のオーディオ・ストリーム訓練サンプルとして使用し、かつ、前記オリジナル声紋特徴モデルを更新する、ように構成される。
第2の態様の第1の可能な実施のやり方において、端末は、さらに、サンプル取得ユニットと、オリジナル・モデル確立ユニットと、を備え、前記サンプル取得ユニットは、プリセット・オーディオ・ストリーム訓練サンプルを取得し、かつ、前記プリセット・オーディオ・ストリーム訓練サンプルを前記オリジナル・モデル確立ユニットに送る、ように構成され、前記オリジナル・モデル確立ユニットは、前記サンプル取得ユニットから送られた前記プリセット・オーディオ・ストリーム訓練サンプルを受け取り、かつ、前記プリセット・オーディオ・ストリーム訓練サンプルにより前記オリジナル声紋特徴モデルを確立する、ように構成される。
第2の態様に関し、又は第2の態様の第1の可能な実施のやり方に関し、第2の可能な実施のやり方において、前記セグメンテーション及びクラスタリング・ユニットは、具体的には、セグメンテーション・ユニットと、クラスタリング・ユニットと、を備え、前記セグメンテーション・ユニットは、プリセット話者セグメンテーション・アルゴリズムに従って、前記オリジナル・オーディオ・ストリームを複数のオーディオ・クリップに分割する、ように構成され、前記複数のオーディオ・クリップに係る各オーディオ・クリップは、前記少なくとも1人の話者に係る同一話者のオーディオ情報だけを含み、かつ、前記セグメンテーション・ユニットは、前記少なくとも1人の話者に係る同一話者だけを含む前記オーディオ・クリップを前記クラスタリング・ユニットに送る、ように構成され、前記クラスタリング・ユニットは、前記セグメンテーション・ユニットから送られた、前記少なくとも1人の話者に係る同一話者だけを含む前記オーディオ・クリップを受け取り、かつ、プリセット話者クラスタリング・アルゴリズムに従って、前記少なくとも1人の話者に係る同一話者だけを含む前記オーディオ・クリップをクラスタリングする、ように構成され、前記少なくとも1人の話者に係る同一話者の前記オーディオ情報だけを含むオーディオ・ストリームを生成する。
第2の態様に関し、又は第2の態様の第1の可能な実施のやり方に関し、又は第2の態様の第2の可能な実施のやり方に関し、第3の可能な実施のやり方において、前記マッチング・ユニットは、具体的には、合致度取得ユニットと、マッチング済みオーディオ・ストリーム取得ユニットと、を備え、前記合致度取得ユニットは、前記少なくとも1人の話者に係る各話者の前記オーディオ・ストリーム及び前記オリジナル声紋特徴モデルに従って、前記少なくとも1人の話者に係る各話者の前記オーディオ・ストリームと前記オリジナル声紋特徴モデルとの合致度を取得し、かつ、前記合致度を前記マッチング済みオーディオ・ストリーム取得ユニットに送る、ように構成され、前記マッチング済みオーディオ・ストリーム取得ユニットは、前記合致度取得ユニットから送られた、前記少なくとも1人の話者に係る各話者の前記オーディオ・ストリームと前記オリジナル声紋特徴モデルとの前記合致度を受け取り、かつ、前記うまくマッチングしたオーディオ・ストリームとして最も高く、プリセット・マッチング・スレショルドより大きい合致度に対応するオーディオ・ストリームを選択する、ように構成される。
第2の態様に関し、又は第2の態様の第1の可能な実施のやり方に関し、又は第2の態様の第2の可能な実施のやり方に関し、又は第2の態様の第3の可能な実施のやり方に関し、第4の可能な実施のやり方において、前記モデル更新ユニットは、具体的には、補正済みモデル取得ユニットと、モデル更新サブユニットと、を備え、前記補正済みモデル取得ユニットは、前記うまくマッチングしたオーディオ・ストリーム及び前記プリセット・オーディオ・ストリーム訓練サンプルに従って、補正済み声紋特徴モデルを生成し、かつ、前記補正済み声紋特徴モデルを前記モデル更新サブユニットに送る、ように構成され、前記モデル更新サブユニットは、前記補正済みモデル取得ユニットから送られた前記補正済み声紋特徴モデルを受け取り、かつ、前記オリジナル声紋特徴モデルを前記補正済み声紋特徴モデルに更新する、ように構成される。
本発明の諸実施形態において、少なくとも1人の話者を含むオリジナル・オーディオ・ストリームが取得され、オリジナル・オーディオ・ストリームにおける少なくとも1人の話者に係る各話者それぞれのオーディオ・ストリームが、プリセット話者セグメンテーション及びクラスタリング・アルゴリズムにより取得され、少なくとも1人の話者に係る各話者のオーディオ・ストリームが、オリジナル声紋特徴モデルに別々にマッチングされて、うまくマッチングしたオーディオ・ストリームが取得され、うまくマッチングしたオーディオ・ストリームが、オリジナル声紋特徴モデルを生成するために追加のオーディオ・ストリーム訓練サンプルとして使用され、それによってオリジナル声紋特徴モデルが更新される。これにより、声紋特徴モデルが既存の方法を使用することによって取得されるとき、声紋特徴モデルの精度が比較的高い実用性を前提にして改善されることが確保され得ず、その結果、声紋特徴モデルを使用することによって認識精度を改善することができないという問題が解決され、これにより、声紋特徴モデルの精度及び認識精度が改善される。
本発明の実施形態1による、声紋特徴モデルを更新するための方法を実施する流れ図である。 本発明の実施形態2による、声紋特徴モデルを更新するための方法を実施する流れ図である。 本発明の一実施形態による、オリジナル・オーディオ・ストリームのセグメンテーション及びクラスタリングの概略図である。 本発明の実施形態3による端末の構造図である。 本発明の実施形態4による端末の構造図である。 本発明の実施形態5による端末の構造図である。 本発明の実施形態6による端末の構造図である。
本発明のいくつかの目的、いくつかの技術解決策、及びいくつかの利点をより明確にし、より分かりやすくするために、添付の諸図面及び諸実施形態を参照して本発明を以下に詳細にさらに説明する。本明細書に説明する具体的な諸実施形態は、本発明を説明するために単に使用しているに過ぎないものであり、本発明を限定することを意図していないことを理解されたい。
本発明の諸実施形態において、少なくとも1人の話者に係るオリジナル・オーディオ・ストリームが取得され、オリジナル・オーディオ・ストリームにおける少なくとも1人の話者に係る各話者それぞれのオーディオ・ストリームが、プリセット話者セグメンテーション及びクラスタリング・アルゴリズムにより取得され、オリジナル声紋特徴モデルにマッチするオーディオ・ストリームが取得され、マッチしたオーディオ・ストリームは、オリジナル声紋特徴モデルを生成するために追加のオーディオ・ストリーム訓練サンプルとして使用され、それによってオリジナル声紋特徴モデルが更新され、したがって、声紋特徴モデルの精度が改善され、ユーザ体験が高められる。
本発明の具体的な実施を具体的な諸実施形態に関して以下に詳細に説明する。
実施形態1
図1は、本発明の実施形態1による、声紋特徴モデルを更新するための方法を実施するプロセスを示し、以下に詳細を説明する。
ステップS101:少なくとも1人の話者を含むオリジナル・オーディオ・ストリームを取得する。
オリジナル・オーディオ・ストリームは、携帯端末を使用して電話をする又は音声チャットをするユーザによって生成されたオーディオ・ストリームでよく、又は例えば、音声を記録するやり方で取得したオーディオ・ストリームでよい。具体的には、可能な状況は、携帯端末ユーザが通話接続状態にあるときに、ユーザが声紋学習機能を使用することに同意するかどうか尋ねられ、ユーザが同意すると会話の間に生成されたオーディオ・ストリームが記録される場合、又は通話中に自動的に声紋学習機能を可能にするためのスイッチが、端末に構成されていて、ユーザが必要に応じスイッチを設定する場合、又は声紋学習機能が端末に構成されていて、ユーザがオーディオ・ストリームを記録することができる場合である。通常、複数の人が電話中又はチャット中に順に会話に参加することがあるので、この場合に取得されたオリジナル・オーディオ・ストリームは、複数の人のオーディオ・データを含むことができることに留意されたい。
ステップS102:プリセット話者セグメンテーション及びクラスタリング・アルゴリズムによりオリジナル・オーディオ・ストリームにおける少なくとも1人の話者に係る各話者それぞれのオーディオ・ストリームを取得する。
具体的には、オリジナル・オーディオ・ストリームが少なくとも1人の話者に係るオーディオ・ストリームを含むので、プリセット話者セグメンテーション・アルゴリズムによりオリジナル・オーディオ・ストリームを複数のオーディオ・クリップに分割することが必要である。その場合、複数のオーディオ・クリップの各オーディオ・クリップは、少なくとも1人の話者に係る同一話者のオーディオ情報だけを含む。次いで、少なくとも1人の話者に係る同一話者だけを含むオーディオ・クリップは、プリセット話者クラスタリング・アルゴリズムによりクラスタリングされて、最後に、少なくとも1人の話者に係る同一話者のオーディオ情報だけを含むオーディオ・ストリームが生成される。
ステップS103:少なくとも1人の話者に係る各話者それぞれのオーディオ・ストリームとオリジナル声紋特徴モデルとを別々にマッチングして、うまくマッチングしたオーディオ・ストリームを取得する。
オリジナル声紋特徴モデルは、プリセット・オーディオ・ストリーム訓練サンプルにより前もって確立された声紋特徴モデルである。オリジナル声紋特徴モデルは、一人又は複数の人の声紋登録プロセスの後に形成される特徴モデルであり、登録プロセスには、オーディオ・ストリーム訓練サンプルとも呼ばれる訓練コーパスの長さに対する要件がない。この場合、うまくマッチングしたオーディオ・ストリームは、少なくとも1人の話者に係る各話者のオーディオ・ストリームとオリジナル声紋特徴モデルとの合致度により選択することができる。
ステップS104:オリジナル声紋特徴モデルを生成するためにうまくマッチングしたオーディオ・ストリームを追加のオーディオ・ストリーム訓練サンプルとして使用し、オリジナル声紋特徴モデルを更新する。
具体的には、うまくマッチングしたオーディオ・ストリームを取得した後、うまくマッチングしたオーディオ・ストリーム及びプリセット・オーディオ・ストリーム訓練サンプルを基準として使用する。その場合、プリセット・オーディオ・ストリーム訓練サンプルは、前述のオリジナル声紋特徴モデルを生成するためのサンプルである。次いで、声紋登録アルゴリズム・インターフェースが呼び出され、補正済み声紋特徴モデルが生成され、その場合、補正済み声紋特徴モデルは、より精密な声紋特徴モデルであり、それによって、モデル適応及びインテリジェンスの目的が達成される。
任意選択で、少なくとも1人の話者に係る各話者のオーディオ・ストリームがオリジナル声紋特徴モデルにマッチングすることができない状況において、声紋特徴モデルは、ユーザのプリセッティングにより新たに確立し、記録することができる。例えば、初めて使用される端末の場合、オリジナル声紋特徴モデルがゼロであり、マッチングに使用されるオーディオ・ストリームが何もない。この場合、話者のオーディオ・ストリームは、ユーザのセッティングにより認識され、声紋登録アルゴリズム・インターフェースが声紋特徴モデルを新たに確立するために呼び出され、オリジナル声紋特徴モデルが新たに確立した声紋特徴モデルに更新される。
本発明のこの実施形態において、少なくとも1人の話者に係るオリジナル・オーディオ・ストリームが取得され、オリジナル・オーディオ・ストリームにおける少なくとも1人の話者に係る各話者それぞれのオーディオ・ストリームがプリセット話者セグメンテーション及びクラスタリング・アルゴリズムにより取得され、オリジナル声紋特徴モデルにマッチするオーディオ・ストリームが取得され、マッチしたオーディオ・ストリームがオリジナル声紋特徴モデルを生成するために追加のオーディオ・ストリーム訓練サンプルとして使用され、オリジナル声紋特徴モデルが更新され、それによって、声紋特徴モデルを継続的に補正し更新し、声紋特徴モデルの精度を継続的に改善し、ユーザ体験を高めるなどの目的が達成される。
実施形態2
図2は、本発明の実施形態2による、声紋特徴モデルを更新するための方法を実施するプロセスを示し、以下に詳細を説明する。
ステップS201:プリセット・オーディオ・ストリーム訓練サンプルによりオリジナル声紋特徴モデルを確立する。
オリジナル声紋特徴モデルは、声紋登録アルゴリズム・インターフェースを呼び出すことによってプリセット・オーディオ・ストリーム訓練サンプルにより確立された声紋特徴モデルである。オリジナル声紋特徴モデルは、一人又は複数の人の声紋登録プロセスの後に形成される特徴モデルであり、登録プロセスには、オーディオ・ストリーム訓練サンプルとも呼ばれる訓練コーパスの長さに対する要件がない。さらに、本発明のこの実施形態によって提供される方法が、補正済みモデルの継続的及び動的補正を実施することができるので、オリジナル声紋特徴モデルは、既存の方法を使用して取得されるモデルでよく、本発明のこの実施形態によって提供される方法を使用して補正されるモデルでもよい。
ステップS202:少なくとも1人の話者を含むオリジナル・オーディオ・ストリームを取得する。
具体的な実施プロセスにおいて、オリジナル・オーディオ・ストリームは、携帯端末を使用して電話をする又は音声チャットをするユーザによって生成されたオーディオ・ストリームでよく、又は音声を記録するやり方で取得したオーディオ・ストリームでよい。具体的には、可能な状況では、携帯端末ユーザが通話接続状態にあるとき、ユーザが声紋学習機能を使用することに同意するかどうか尋ねられ、ユーザが同意した後に、会話の間に生成されたオーディオ・ストリームが記録される場合、又は通話中に自動的に声紋学習機能を可能にするためのスイッチが、端末に構成されていて、ユーザが必要に応じスイッチを設定する場合、又は声紋学習機能が端末に構成されていて、ユーザがオーディオ・ストリームを記録することができる場合である。通常、複数の人が電話中又はチャット中に順に会話に参加することができるので、この場合に取得されたオリジナル・オーディオ・ストリームは、複数の人のオーディオ・データを含むことができることに留意されたい。
さらに、大きく変動する発話速度、抑揚、及び感情の変化は、一般に、ユーザが話しているプロセス中又は複数の人の会話などのプロセス中に起きることがあり、通話中のコーパスは、継続的に収集して、声紋特徴モデルの精度のためにユーザの抑揚、発話速度、及び感情の要因によって生じるずれを除去し、それによって、声紋特徴モデルの精度への抑揚、発話速度、及び感情の要因の影響を大幅に低減し、声紋認識精度へのインパクトも減少させることができる。
ステップS203:プリセット話者セグメンテーション・アルゴリズムによりオリジナル・オーディオ・ストリームを複数のオーディオ・クリップに分割し、その場合、複数のオーディオ・クリップの各オーディオ・クリップは、少なくとも1人の話者に係る同一話者のオーディオ情報だけを含む。
ステップS204:プリセット話者クラスタリング・アルゴリズムにより、少なくとも1人の話者に係る同一話者だけを含むオーディオ・クリップをクラスタリングして、少なくとも1人の話者に係る同一話者のオーディオ情報だけを含むオーディオ・ストリームを生成する。
具体的には、一例として複数の人の会話を使用し、会話に参加する人がユーザA、ユーザB、及びユーザCとすることができるとする。ユーザが音声を記録することに同意すると、記録モジュールを有効にすることができ、通話が終了した後又は記録時間が切れた後に、通話中のオリジナル・オーディオ・ストリームが記録される。オリジナル・オーディオ・ストリームは、プリセット話者セグメンテーション・アルゴリズムにより複数のオーディオ・クリップに分割することでき、その場合、各オーディオ・クリップは、1人の話者のオーディオ情報だけを含む。図3に示すように、オリジナル・オーディオ・ストリームが分割された後、取得したオーディオ・クリップは、オーディオ・クリップA、オーディオ・クリップB、オーディオ・クリップA、オーディオ・クリップC、オーディオ・クリップA、オーディオ・クリップCであり、オーディオ・クリップA、オーディオ・クリップB、及びオーディオ・クリップCは、それぞれユーザA、B、及びCの異なるクリップであり、発話時間シーケンスにより取得される。次いで、同じ話者のオーディオ・クリップがプリセット話者クラスタリング・アルゴリズムを使用することによってクラスタリングされて、オーディオ・ストリームAのファイル、オーディオ・ストリームBのファイル、及びオーディオ・ストリームCのファイルを生成する。例えば、オーディオ・ストリームAは、ユーザAのすべてのオーディオ・クリップを含む。したがって、異なる人のオーディオ・ストリームは区別することができ、同じ人の有効なオーディオ・ストリームを抽出することができる。話者セグメンテーション・アルゴリズム及びクラスタリング・アルゴリズムは、それぞれ任意の1つの既存の話者セグメンテーション・アルゴリズム及びクラスタリング・アルゴリズムであってよく、本明細書では限定されない。
ステップS205:少なくとも1人の話者に係る各話者それぞれのオーディオ・ストリームとオリジナル声紋特徴モデルとを別々にマッチングして、うまくマッチングしたオーディオ・ストリームを取得する。
ステップS205は、具体的には、少なくとも1人の話者に係る各話者のオーディオ・ストリーム及びオリジナル声紋特徴モデルにより少なくとも1人の話者に係る各話者のオーディオ・ストリームとオリジナル声紋特徴モデルとの合致度を取得するステップと、うまくマッチングしたオーディオ・ストリームとして最も高く、プリセット・マッチング・スレショルドより大きい合致度に対応するオーディオ・ストリームを選択するステップとを含む。
具体的には、声紋検証アルゴリズム・インターフェースが呼び出されて、オーディオ・ストリームA、オーディオ・ストリームB、及びオーディオ・ストリームCと、オリジナル声紋特徴モデルとの合致度A、合致度B、及び合致度Cを別々に取得する。合致度の計算のやり方は、オリジナル声紋特徴モデルの入力値として、それぞれオーディオ・ストリームA、オーディオ・ストリームB、及びオーディオ・ストリームCを使用するステップと、オリジナル声紋特徴モデルに対応する、オーディオ・ストリームA、オーディオ・ストリームB、及びオーディオ・ストリームCのそれぞれ合致度A、合致度B、及び合致度Cを取得するステップとでよく、その場合、合致度A、合致度B、及び合致度Cは、それぞれ対応する確率A、確立B、及び確立Cとも呼ばれる。例えば、合致度Aは、オーディオ・ストリームAとオリジナル声紋特徴モデルとの関連性を示す。オリジナル声紋特徴モデルがユーザAのオーディオ・ストリーム訓練サンプルに基づいて確立され、合致度Aが通常の状態の下でマッチング・スレショルドより大きく、合致度B及び合致度Cが通常の状態の下でマッチング・スレショルドより小さく、その場合、プリセット・スレショルドが、実際のテスト結果により取得することができ、プリセットすることができ、又はユーザ定義することができるとする。したがって、この場合、プリセット・スレショルドより大きい合致度に対応するオーディオ・ストリームが取得され、すなわち、オーディオ・ストリームAがうまくマッチングしたオーディオ・ストリームである。特別な場合、A及びBの音声が、非常に似ているとき、マッチング・スレショルドより大きい1つを超えるオーディオ・ストリームがあってよく、最も高い合致値を有するオーディオ・ストリームをうまくマッチングしたオーディオ・ストリームとして選択することができる。
さらに、オリジナル声紋特徴モデルが、複数の人の声紋登録プロセスが、例えば、ユーザB及びCのオーディオ・ストリーム訓練サンプルに対して確立された後に形成される特徴モデルであるとき、マッチング後に取得されたオーディオ・ストリームがオーディオ・ストリームBとオーディオ・ストリームCの両方を含み、それによって、複数人モードで声紋特徴モデルのマッチングを実施する可能性が高い。この場合、前述のいくつかのステップは、複数の人の各人に対して別々に実行される。
ステップS206:オリジナル声紋特徴モデルを生成するためにうまくマッチングしたオーディオ・ストリームを追加のオーディオ・ストリーム訓練サンプルとして使用し、オリジナル声紋特徴モデルを更新する。
ステップS206は具体的には、うまくマッチングしたオーディオ・ストリーム及びプリセット・オーディオ・ストリーム訓練サンプルにより補正済み声紋特徴モデルを生成するステップであって、その場合、プリセット・オーディオ・ストリーム訓練サンプルは、オリジナル声紋特徴モデルを生成するためのオーディオ・ストリームであるステップと、オリジナル声紋特徴モデルを補正済み声紋特徴モデルに更新するステップとを含む。
具体的には、うまくマッチングしたオーディオ・ストリームは、追加のオーディオ・ストリーム訓練サンプルとして使用される。すなわち、声紋登録アルゴリズム・インターフェースが、うまくマッチングしたオーディオ・ストリーム及びプリセット・オーディオ・ストリーム訓練サンプルにより補正済み声紋特徴モデルを生成するために呼び出され、その場合、補正済み声紋特徴モデルは、より精密な声紋特徴モデルであり、それによって、モデル適応及びインテリジェンスの目的を達成する。
さらに、更新済み声紋特徴モデルは、オリジナル声紋特徴モデルとしても使用することができ、前述のいくつかのステップが声紋特徴モデルを継続的に補正し更新するために繰り返され、声紋特徴モデルの精度を継続的に改善する。
本発明のこの実施形態において、音声電話のオリジナル・オーディオ・ストリームは、声紋訓練コーパスとして自動的に使用され、収集されたオリジナル・オーディオ・ストリームは、ユーザ体験が影響されない、又はユーザ操作が減少する状況において話者セグメンテーション及びクラスタリング・アルゴリズムを使用して処理され、それによって、声紋訓練コーパスの純粋さが確保され、追加のマッチングしたオーディオ・ストリームが訓練コーパスを長くするために使用され、それによってオリジナル声紋特徴モデルを動的補正する。これにより、声紋特徴モデルが動的補正され更新され、声紋特徴モデルの精度が改善される。したがって、認識率をさらに改善することができ、ユーザ体験も声紋特徴モデルを使用することによる音声認識などのプロセスにおいて高まる。
前述の実施形態における方法のいくつかのステップの全部又は一部が関連ハードウェアに命令するプログラムによって実施することができることが当業者には理解され得る。プログラムは、コンピュータ可読記憶媒体に格納することができ、その場合、記憶媒体は、例えば、ROM/RAM、磁気ディスク、又は光学ディスクである。
実施形態3
図4は、本発明の実施形態3による端末の構造を示す。本発明の実施形態3において提供される端末は、本発明の実施形態1及び実施形態2のいくつかの方法を実施するように構成することができる。説明を容易にするために、本発明の実施形態に関連する部分だけを示す。開示していない具体的な技術的詳細については、本発明の実施形態1及び実施形態2を参照することができる。
端末は、携帯電話、タブレット型コンピュータ、PDA(personal digital assistant:携帯情報端末)、POS(point of sales:販売時点情報管理)、又は車載コンピュータなどの端末デバイスでよい。端末が携帯電話であることが、一例として使用される。図4は、本発明のこの実施形態によって提供される端末に関連する携帯電話400の構造の一部の構成図である。図4を参照すると、携帯電話400は、RF(radio frequency:無線周波数)回路410、メモリ420、入力ユニット430、ディスプレイ・ユニット440、センサ450、オーディオ回路460、WiFi(wireless fidelity:ワイヤレス・フィディリティ)モジュール470、プロセッサ480、電源490などの部分を含む。図4に示す携帯電話の構造は、携帯電話に対する制限を構成しないし、携帯電話が図に示すより多い若しくは少ない部分を含む、又は一部の部分を組み合わせる、又はそれらの部分の異なる配列を有し得ることが当業者には理解され得る。
図4を参照し携帯電話400のいくつかの部分を以下に詳細に説明する。
RF回路410は、情報を受信若しくは送信するように、又は通話中に信号を受信若しくは送信するように、及び、特には、処理のために基地局のダウンリンク情報を受信し、プロセッサ480にその情報を送るように構成することができる。さらに、RF回路410は、アップリンクデータを基地局に送信する。一般に、RF回路は、限定はされないが、少なくとも1つの増幅器、トランシーバ、結合器、LNA(low noise amplifier:低雑音増幅器)、送受切換器などを含む。さらに、RF回路410は、無線通信及びネットワークを使用することにより他のデバイスとも通信することもできる。無線通信は、任意の1つの通信規格又はプロトコルを使用することができ、限定はされないが、GSM(登録商標)(global system of mobile communication:移動通信の全地球システム)、GPRS(general packet radio service:汎用パケット無線サービス)、CDMA(code division multiple access:符号分割多元接続)、WCDMA(登録商標)(wideband code division multiple access:広帯域符号分割多元接続)、LTE(long term evolution:ロング・ターム・エボリューション)、電子メール、SMS(short messaging service:ショート・メッセージ・サービス)などを含む。
メモリ420は、ソフトウェア・プログラム及びモジュールを格納するように構成することができる。プロセッサ480は、メモリ420に格納されたソフトウェア・プログラム及びモジュールを起動して、携帯電話400のすべての種類の機能アプリケーションを実行し、データを処理する。メモリ420は、主に、プログラム記憶領域とデータ記憶領域とを含むことができ、その場合、プログラム記憶領域は、オペレーティング・システム、機能に必要とされる少なくとも1つのアプリケーション・プログラム(例えば、音声再生機能及び画像再生機能)などを格納することができ、データ記憶領域は、携帯電話400の使用により作成されたデータ(例えば、オーディオ・データ及び電話帳)などを格納することができる。さらに、メモリ420は、高速ランダム・アクセス・メモリを含むことができ、不揮発性メモリ、例えば、少なくとも1つの磁気ディスク・メモリ、フラッシュメモリ、又は他の揮発性固体メモリも含むことができる。
入力ユニット430は、入力されたデジタル又は文字情報を受け取り、携帯電話400のユーザ設定及び機能制御に関連するキー信号入力を生成するように構成することができる。具体的には、入力ユニット430は、タッチ制御パネル431と別の入力デバイス432とを含むことができる。タッチスクリーンとも呼ばれるタッチ制御パネル431は、パネル上の又はパネル近くのユーザのタッチ操作(例えば、指やタッチペンなど任意の適切な物体又は付属品を使用することによるタッチ制御パネル431上の又はタッチ制御パネル431近くのユーザによって実施される操作)を収集し、プリセット・プログラムにより対応する接続装置を駆動することができる。任意選択で、タッチ制御パネル431は、2つの部分、すなわち、タッチ検知装置とタッチ制御器とを含むことができる。タッチ検知装置は、ユーザのタッチ位置を検知し、タッチ操作によってもたらされた信号を検知し、その信号をタッチ制御器に転送する。タッチ制御器は、タッチ情報をタッチ検知装置から受け取り、その情報をタッチ位置の座標に変換し、プロセッサ480に座標を送り、プロセッサ480から送られた命令を受け取り起動することができる。さらに、タッチ制御パネル431は、抵抗性、容量性、赤外線、表面弾性波など、複数の形態で実施することができる。タッチ制御パネル431に加えて、入力ユニット430は、別の入力デバイス432を含むこともできる。具体的には、別の入力デバイス432は、限定はされないが、1つ又は複数の種類の以下のものを含むことができる。すなわち、物理的キーボード、機能キー(音量制御キー又はオン/オフボタンなど)、トラックボール、マウス、及びジョイスティックである。
ディスプレイ・ユニット440は、ユーザによって入力された情報又はユーザに提供された情報及び携帯電話400のメニューを表示するように構成することができる。ディスプレイ・ユニット440は、ディスプレイ・パネル441を含むことができる。任意選択で、ディスプレイ・パネル441は、LCD(liquid crystal display:液晶ディスプレイ)及びOLED(organic light−emitting diode:有機発光ダイオード)などの形態で構成することができる。さらに、タッチ制御パネル431は、ディスプレイ・パネル441を覆うことができる。タッチ制御パネル431上の又はタッチ制御パネル431近くのタッチ操作を検知した後、タッチ制御パネル431は、タッチ事象の種類を決定するためにその操作をプロセッサ480に転送する。次いで、プロセッサ480は、タッチ事象の種類によりディスプレイ・パネル441上に対応する視覚出力を提供する。図4におけるタッチ制御パネル431及びディスプレイ・パネル441は、携帯電話400の入力及び出力機能を実施する2つの独立した部分であるが、タッチ制御パネル431及びディスプレイ・パネル441は、一部の実施形態において、携帯電話400の入力及び出力機能を実施するために統合することができる。
携帯電話400は、少なくとも1つの種類のセンサ450、例えば、光センサ、動きセンサ及び他のセンサも含むことができる。具体的には、光センサは、周囲光センサと近接センサとを含むことができ、その場合、周囲光センサは、周囲光の強度によりディスプレイ・パネル441の輝度を調整することができ、近接センサは、携帯電話400が耳に移動するとき、ディスプレイ・パネル441及び/又はバックライトを消灯することができる。1つの種類の動きセンサとして、加速度計センサがすべての方向(一般に三軸)への加速度を検知することができ、加速度計センサが静止しているとき重力のサイズと方向とを検知することができ、携帯電話の姿勢アプリケーション(例えば、縦方向と横方向との切換え、関連するゲーム、及び磁力計姿勢較正)及び振動認識関連機能(歩数計及びノッキング)などを認識するように構成することができる。携帯電話400に構成することができる、ジャイロスコープ、気圧計、湿度計、温度計、及び赤外線センサなどの他のセンサに関して、詳細は本明細書に再度説明しない。
オーディオ回路460、スピーカ461、及びマイクロホン462は、ユーザと携帯電話400とのオーディオ・インターフェースを提供することができる。オーディオ回路460は、受け取ったオーディオ・データから変換された電気信号をスピーカ461に送信することができ、スピーカ461は、電気信号を出力される音声信号に変換する。さらに、マイクロホン462は、収集された音声信号を電気信号に変換し、オーディオ回路460は、電気信号を受け取り、電気信号をオーディオ・データに変換し、オーディオ・データをプロセッサ480に処理のために出力し、処理されたオーディオ・データを、例えば、RF回路410を使用して別の携帯電話に送信し、又はオーディオ・データをさらに処理するためにメモリ420に出力する。
WiFiは、短距離の無線送信技術に属する。携帯電話400は、ユーザがWiFiモジュール470を使用して電子メールを受信し、送信し、ウェブ・ページをブラウズし、ストリーミング・メディアにアクセスするのを手助けすることができる。WiFiモジュール470は、ユーザに無線広帯域インターネット・アクセスを提供する。WiFiモジュール470を図4に示すが、WiFiモジュール470が携帯電話400にとって不可欠ではなく、もちろん、本発明の本質を変更しない範囲内で必要に応じ省略できることが理解され得る。
プロセッサ480は、携帯電話400のコントロール・センターであり、すべての種類のインターフェース及び回路を使用して携帯電話全体のすべての部分を接続し、メモリ420に格納されたソフトウェア・プログラム及び/又はモジュールを起動又は実行すること及びメモリ420に格納されたデータを呼び出すことによって携帯電話400のいくつかの機能を実行し、データを処理し、それによって、携帯電話を全体として監視する。任意選択で、プロセッサ480は、1つ又は複数の処理ユニットを含むことができる。好ましくは、プロセッサ480は、アプリケーション・プロセッサ及びモデム・プロセッサと統合することができ、その場合、アプリケーション・プロセッサは、主にオペレーティング・システム、ユーザ・インターフェース、アプリケーション・プログラムなどを処理し、モデム・プロセッサは、主に無線通信を処理する。前述のモデム・プロセッサは、プロセッサ480中に統合できないことが理解され得る。
携帯電話400は、電力をすべての部分に供給する電源490(電池など)をさらに含む。好ましくは、電源は、電源管理システムを使用することによってプロセッサ480に論理的に接続することができ、したがって、充電、放電、及び電力消費管理の機能は、電源管理システムを使用することによって実施される。
図示していないが、携帯電話400は、カメラ、ブルートゥース・モジュールなども含むこともできるが、詳細は本明細書に再度説明しない。
本発明のこの実施形態において、端末に含まれるマイクロホン462、メモリ420、及びプロセッサ480は、さらに以下の機能を有する。
マイクロホン462は、オーディオ回路460を使用することにより、少なくとも1つの話者を含むオリジナル・オーディオ・ストリームを取得し、オリジナル・オーディオ・ストリームをメモリ420に送るようにさらに構成される。
本発明のこの実施形態において、オリジナル・オーディオ・ストリームは、携帯電話端末を使用してユーザが電話をする若しくは音声チャットをすることによって生成されたオーディオ・ストリームでよく、又は例えば音声を記録するやり方でマイクロホン462によって取得されたオーディオ・ストリームでよい。具体的には、可能な状況は、携帯電話端末が通話接続状態にあるとき、ユーザは声紋学習機能を使用することに同意するかどうか尋ねられ、ユーザが同意した場合、会話の間に生成されたオーディオ・ストリームが記録される、又は通話中に自動的に声紋学習機能を可能にするためのスイッチが、端末に構成されていて、ユーザが必要に応じスイッチを設定する、又は声紋学習機能が携帯電話端末に構成されていて、ユーザがオーディオ・ストリームを記録することができる。通常、複数の人が電話中又はチャット中に順に会話に参加することができるので、この場合に取得されたオリジナル・オーディオ・ストリームは、複数の人のオーディオ・データを含むことができることに留意されたい。
プロセッサ480は、メモリに格納されたオリジナル・オーディオ・ストリームを呼び出し、メモリ420のプリセット話者セグメンテーション及びクラスタリング・アルゴリズムを呼び出し、オリジナル・オーディオ・ストリームにおける少なくとも1人の話者に係る各話者それぞれのオーディオ・ストリームを取得し、少なくとも1人の話者に係る各話者それぞれのオーディオ・ストリームとオリジナル声紋特徴モデルとを別々にマッチングして、うまくマッチングしたオーディオ・ストリームを取得し、オリジナル声紋特徴モデルを生成するためにうまくマッチングしたオーディオ・ストリームを追加のオーディオ・ストリーム訓練サンプルとして使用し、オリジナル声紋特徴モデルを更新するようにさらに構成される。
本発明のこの実施形態において、オリジナル・オーディオ・ストリームが少なくとも1人の話者に係るオーディオ・ストリームを含むので、プロセッサ480は、メモリ420のプリセット話者セグメンテーション・アルゴリズムを呼び出し、オリジナル・オーディオ・ストリームを複数のオーディオ・クリップに分割する必要があり、その場合、複数のオーディオ・クリップの各オーディオ・クリップは、少なくとも1人の話者に係る同一話者のオーディオ情報だけを含む。次いで、プロセッサ480は、プリセット話者クラスタリング・アルゴリズムにより、少なくとも1人の話者に係る同一話者だけを含むオーディオ・クリップをクラスタリングして、最後に少なくとも1人の話者に係る同一話者のオーディオ情報だけを含むオーディオ・ストリームを生成する。さらに、プロセッサ480は、各人のそれぞれのオーディオ・ストリーム及びオリジナル声紋特徴モデルを参照して、少なくとも1人の話者に係る各話者それぞれのオーディオ・ストリームとオリジナル声紋特徴モデルとを別々にマッチングすることによって取得した合致度を獲得することができ、うまくマッチングしたオーディオ・ストリームとしてプリセット・マッチング・スレショルドより大きく、最も高い合致度を有するオーディオ・ストリームを使用することができ、それによって、オリジナル声紋特徴モデルを生成するためにうまくマッチングしたオーディオ・ストリームを追加のオーディオ・ストリーム訓練サンプルとして使用し、声紋登録アルゴリズム・インターフェースを呼び出し、オリジナル声紋特徴モデルを更新し、それによって、より精密な声紋特徴モデルを取得することができる。
本発明のこの実施形態は、マイクロホン462、メモリ420、プロセッサ480などを含む端末を提供する。マイクロホン462は、少なくとも1人の話者に係るオリジナル・オーディオ・ストリームを取得し、オーディオ回路460を介してメモリ420にオリジナル・オーディオ・ストリームを送る。プロセッサ480は、オーディオ回路460を介してマイクロホン462から送られたオリジナル・オーディオ・ストリームを受け取り、メモリ420のプリセット話者セグメンテーション及びクラスタリング・アルゴリズムを呼び出し、オリジナル・オーディオ・ストリームにおける少なくとも1人の話者に係る各話者それぞれのオーディオ・ストリームを取得し、オリジナル声紋特徴モデルにマッチするオーディオ・ストリームを取得し、オリジナル声紋特徴モデルを生成するためにマッチしたオーディオ・ストリームを追加のオーディオ・ストリーム訓練サンプルとして使用し、オリジナル声紋特徴モデルを更新する。これにより、比較的高い実用性を前提とした声紋特徴モデルの動的補正及び更新が確保され、声紋特徴モデルの精度が改善される。
実施形態4
図5は、本発明の実施形態4による端末の構造を示す。説明を容易にするために、本発明のこの実施形態に関連する部分だけを示す。本発明の実施形態4において提供される端末は、本発明の実施形態1及び実施形態2のいくつかの方法を実施するように構成することができる。説明を容易にするために、本発明の実施形態に関連する部分だけを示す。開示していない具体的な技術的詳細については、本発明の実施形態1及び実施形態2を参照することができる。
具体的には、図5は、本発明のこの実施形態によって提供される端末に関連した携帯電話500の構造の一部の構成図を示す。図4に示す構造に基づいて、本発明のこの実施形態ではマイクロホン51及びプロセッサ52が使用されて、それぞれ図4に示すマイクロホン462及びプロセッサ480に置き換わる。
実施形態3におけるマイクロホン462に含まれるいくつかの機能に加えて、マイクロホン51は、オーディオ回路460を使用することにより、プリセット・オーディオ・ストリーム訓練サンプルを取得し、オーディオ・ストリーム訓練サンプルをメモリ420に送り、したがって、プロセッサ52がメモリのプリセット声紋登録アルゴリズム・インターフェースを呼び出し、プリセット・オーディオ・ストリーム訓練サンプルによりオリジナル声紋特徴モデルを確立するようにさらに構成される。
本発明のこの実施形態において、オリジナル声紋特徴モデルは、声紋登録アルゴリズム・インターフェースを呼び出すことによってプリセット・オーディオ・ストリーム訓練サンプルにより確立される声紋特徴モデルである。オリジナル声紋特徴モデルは、一人又は複数の人の声紋登録プロセスの後に形成される特徴モデルであり、登録プロセスには、オーディオ・ストリーム訓練サンプルとも呼ばれる訓練コーパスの長さに対する要件がない。さらに、本発明の一実施形態によって提供される方法が、補正済みモデルの継続的及び動的補正を実施することができるので、オリジナル声紋特徴モデルは、既存の方法を使用して取得されるモデルでよく、本発明の実施形態によって提供される方法を使用して補正されるモデルでもよい。
この場合、プロセッサ52は、少なくとも1人の話者が話しているときマイクロホン51によって受け取られるオリジナル・オーディオ・ストリームにより、メモリ420のプリセット話者セグメンテーション・アルゴリズムを呼び出すことによってオリジナル・オーディオ・ストリームを複数のオーディオ・クリップに分割するようにさらに構成され、その場合、複数のオーディオ・クリップの各オーディオ・クリップは、少なくとも1人の話者に係る同一話者のオーディオ情報だけを含み、次いで、プロセッサ52は、メモリ420のプリセット話者クラスタリング・アルゴリズムを呼び出すことによって少なくとも1人の話者に係る同一話者だけを含むオーディオ・クリップをクラスタリングして、少なくとも1人の話者に係る同一話者のオーディオ情報だけを含むオーディオ・ストリームを生成するようにさらに構成される。
さらに、プロセッサ52は、少なくとも1人の話者に係る各話者のオーディオ・ストリーム及びオリジナル声紋特徴モデルにより少なくとも1人の話者に係る各話者のオーディオ・ストリームとオリジナル声紋特徴モデルとの合致度を取得し、うまくマッチングしたオーディオ・ストリームとして最も高く、プリセット・マッチング・スレショルドより大きい合致度に対応するオーディオ・ストリームを選択し、うまくマッチングしたオーディオ・ストリーム及びプリセット・オーディオ・ストリーム訓練サンプルにより補正済み声紋特徴モデルを生成し、オリジナル声紋特徴モデルを補正済み声紋特徴モデルに更新するようにさらに構成される。
本発明のこの実施形態において、マイクロホン51は、プリセット・オーディオ・ストリーム訓練サンプルを取得することができ、その場合、プリセット・オーディオ・ストリーム訓練サンプルは、オリジナル声紋特徴モデルを確立するのに必要なオリジナル・オーディオ・ストリームである。マイクロホン51は、少なくとも1人の話者に係るオリジナル・オーディオ・ストリームも取得することができる。プロセッサ52は、メモリ420のプリセット声紋登録アルゴリズム・インターフェース、話者セグメンテーション・アルゴリズム、及びプリセット話者クラスタリング・アルゴリズムを続けて呼び出して、少なくとも1人の話者に係る同一話者のオーディオ情報だけを含むオーディオ・ストリームを生成することができ、最後に、うまくマッチングしたオーディオ・ストリームを取得し、うまくマッチングしたオーディオ・ストリーム及びプリセット・オーディオ・ストリーム訓練サンプルを参照して補正済み声紋特徴モデルを生成し、オリジナル声紋特徴モデルを補正済み声紋特徴モデルに更新することができる。したがって、補正済み声紋特徴モデルは、オリジナル声紋特徴モデルに比較してオーディオ・ストリーム認識精度を大幅に改善するのに使用され、ユーザ体験がさらに改善される。
実施形態5
図6は、本発明の実施形態5による端末の構造を示す。説明を容易にするために、本発明のこの実施形態に関連する部分だけを示す。本発明の実施形態5において提供される端末は、本発明の実施形態1及び実施形態2のいくつかの方法を実施するように構成することができる。説明を容易にするために、本発明のこの実施形態に関連する部分だけを示す。開示していない具体的な技術的詳細については、本発明の実施形態1及び実施形態2を参照することができる。
端末は、オリジナル・オーディオ・ストリーム取得ユニット61と、セグメンテーション及びクラスタリング・ユニット62と、マッチング・ユニット63と、モデル更新ユニット64とを含む。オリジナル・オーディオ・ストリーム取得ユニット61は、実施形態3におけるマイクロホン41に含まれるいくつかの機能と1対1対応にあり、セグメンテーション及びクラスタリング・ユニット62、マッチング・ユニット63及びモデル更新ユニット64は、実施形態3におけるプロセッサ42に含まれるいくつかの機能と1対1対応にあり、その場合、 オリジナル・オーディオ・ストリーム取得ユニット61は、少なくとも1人の話者を含むオリジナル・オーディオ・ストリームを取得し、オリジナル・オーディオ・ストリームをセグメンテーション及びクラスタリング・ユニット62に送るように構成され、セグメンテーション及びクラスタリング・ユニット62は、オリジナル・オーディオ・ストリーム取得ユニット61から送られたオリジナル・オーディオ・ストリームを受け取り、プリセット話者セグメンテーション及びクラスタリング・アルゴリズムによりオリジナル・オーディオ・ストリームにおける少なくとも1人の話者に係る各話者それぞれのオーディオ・ストリームを取得し、少なくとも1人の話者に係る各話者それぞれのオーディオ・ストリームをマッチング・ユニット63に送るように構成され、マッチング・ユニット63は、セグメンテーション及びクラスタリング・ユニット62から送られた少なくとも1人の話者に係る各話者それぞれのオーディオ・ストリームを受け取り、少なくとも1人の話者に係る各話者それぞれのオーディオ・ストリームとオリジナル声紋特徴モデルとを別々にマッチングして、うまくマッチングしたオーディオ・ストリームを取得し、うまくマッチングしたオーディオ・ストリームをモデル更新ユニット64に送るように構成され、モデル更新ユニット64は、マッチング・ユニット63から送られたうまくマッチングしたオーディオ・ストリームを受け取り、オリジナル声紋特徴モデルを生成するためにうまくマッチングしたオーディオ・ストリームを追加のオーディオ・ストリーム訓練サンプルとして使用し、オリジナル声紋特徴モデルを更新するように構成される。
本発明のこの実施形態において、通話聴取状態を入力した後、オリジナル・オーディオ・ストリーム取得ユニット61は、聴取によってオーディオ・ストリームを取得することができ、その場合、ボイス・レコーダ又は音声チャット・ソフトウェアを使用してオーディオ・ストリームを生成することができる。
本発明のこの実施形態において、セグメンテーション及びクラスタリング・ユニット62は、オリジナル・オーディオ・ストリームをいくつかのオーディオ・クリップに分割することができ、その場合、各オーディオ・クリップは、1人の話者のオーディオ情報だけを含み、セグメンテーション及びクラスタリング・ユニット62は、同じ話者のオーディオ・クリップを再度クラスタリングして、各人のオーディオ・ストリームを生成し、最後に、オリジナル・オーディオ・ストリームを異なる話者を表すオーディオ・ストリームに分割し、すなわち、すべての話者における同じ話者のオーディオ情報のオーディオ・ストリームを生成することができる。マッチング・ユニット63は、すべてのオーディオ・ストリームを精査し、オリジナル声紋特徴モデルを参照して各オーディオ・ストリームとオリジナル声紋特徴モデルとの合致度を取得する。具体的には、マッチング・ユニット63は、各オーディオ・ストリームをオリジナル声紋特徴モデルの入力値として別々に使用して、各オーディオ・ストリームに対応する合致度とも呼ばれる確率を取得し、オリジナル声紋特徴モデルにマッチする1つ又は複数のオーディオ・ストリームを取得する。実際の動作プロセスにおいて、最も高く、プリセット・マッチング・スレショルドより大きい合致度に対応するオーディオ・ストリームは、うまくマッチングしたオーディオ・ストリームとして選択されて、取得したオーディオ・ストリームがオリジナル声紋特徴モデルに大いに関連し、したがって、声紋訓練コーパスとして使用されるオーディオ・ストリームが純粋であることが確保され得る。モデル更新ユニット64は、オリジナル声紋特徴モデルを生成するためにうまくマッチングしたオーディオ・ストリームを追加のオーディオ・ストリーム訓練サンプルとして使用し、次いで声紋登録を実施し、補正済み声紋特徴モデルとも呼ばれる新たな声紋特徴モデルを生成し、オリジナル声紋特徴モデルを補正済み声紋特徴モデルに更新する。最後に、声紋特徴モデルが取得されたとき、声紋特徴モデルの精度を改善する目的が比較的高い実用性を前提にして達成されることが確保される。
実施形態6
図7は、本発明の実施形態6による端末の構造を示す。説明を容易にするために、本発明のこの実施形態に関連する部分だけを示す。本発明の実施形態6において提供される端末は、本発明の実施形態1及び実施形態2のいくつかの方法を実施するように構成することができる。説明を容易にするために、本発明のこの実施形態に関連する部分だけを示す。開示していない具体的な技術的詳細については、本発明の実施形態1及び実施形態2を参照することができる。
端末は、サンプル取得ユニット71と、オリジナル・モデル確立ユニット72と、オリジナル・オーディオ・ストリーム取得ユニット73と、セグメンテーション及びクラスタリング・ユニット74と、マッチング・ユニット75と、モデル更新ユニット76とを含み、オリジナル・オーディオ・ストリーム取得ユニット73、セグメンテーション及びクラスタリング・ユニット74、マッチング・ユニット75、及びモデル更新ユニット76は、それぞれ実施形態5におけるオリジナル・オーディオ・ストリーム取得ユニット61、セグメンテーション及びクラスタリング・ユニット62、マッチング・ユニット63、及びモデル更新ユニット64のいくつかの機能と1対1対応にある。詳細は本明細書に再度説明しない。
サンプル取得ユニット71は、プリセット・オーディオ・ストリーム訓練サンプルを取得し、それをオリジナル・モデル確立ユニット72に送るように構成される。
オリジナル・モデル確立ユニット72は、プリセット・オーディオ・ストリーム訓練サンプルによりオリジナル声紋特徴モデルを確立するように構成される。
オリジナル声紋特徴モデルは、サンプル取得ユニット71から送られたプリセット・オーディオ・ストリーム訓練サンプルにより、声紋登録アルゴリズム・インターフェースを呼び出すことによってオリジナル・モデル確立ユニット72によって確立される声紋特徴モデルである。オリジナル声紋特徴モデルは、一人又は複数の人の声紋登録プロセスの後に形成される特徴モデルであり、登録プロセスには、オーディオ・ストリーム訓練サンプルとも呼ばれる訓練コーパスの長さに対する要件がない。さらに、本発明の一実施形態によって提供される方法が、補正済みモデルの継続的及び動的補正を実施することができるので、オリジナル声紋特徴モデルは、既存の方法を使用して取得されるモデルでよく、本発明の実施形態によって提供される方法を使用して補正されるモデルでもよい。
本発明のこの実施形態において、通話聴取状態を入力した後、オリジナル・オーディオ・ストリーム取得ユニット73は、聴取によってオーディオ・ストリームを取得することができ、その場合、ボイス・レコーダ又は音声チャット・ソフトウェアを使用してオーディオ・ストリームを生成することができる。端末がスマートフォンであることが、一例として使用される。スマートフォンが通話接続状態にあるとき、ユーザは声紋学習機能を使用することに同意するかどうか尋ねられ、ユーザが同意した後、通話に参加するユーザ及び通話の相手のオーディオ・ストリームを記録することができ、又は通話中に自動的に声紋学習機能を可能にするためのスイッチが、端末に構成されていて、ユーザが必要に応じスイッチを設定する、又は声紋学習機能が端末に構成されていて、ユーザがオーディオ・ストリームを記録することができる。複数の人が電話中又はチャット中に順に会話に参加することができるので、この場合に取得されたオリジナル・オーディオ・ストリームは、複数の人のオーディオ・データを含むことができることに留意されたい。オリジナル・オーディオ・ストリーム取得ユニット73によって取得されたオリジナル・オーディオ・ストリームは、話者の様々な抑揚、発話速度、及び感情のオーディオ・データを包含することができ、抑揚、発話速度、及び感情の要因のモデルの精度に対する影響を低減することができる。さらに、ユーザは、オーディオ・ストリームを取得するプロセスの間、回数及び持続時間でオーディオ・ストリームを意図的に入力する必要がなく、それによって、ユーザ操作の複雑性が減少し、取得プロセスにおける実用性が確保され、ユーザ体験も改善される。
図7に示すように、セグメンテーション及びクラスタリング・ユニット74は、具体的には、セグメンテーション・ユニット741とクラスタリング・ユニット742とを含み、その場合、
セグメンテーション・ユニット741は、プリセット話者セグメンテーション・アルゴリズムによりオリジナル・オーディオ・ストリームを複数のオーディオ・クリップに分割するように構成され、その場合、複数のオーディオ・クリップの各オーディオ・クリップは、少なくとも1人の話者に係る同一話者のオーディオ情報だけを含み、セグメンテーション・ユニット741は、少なくとも1人の話者に係る同一話者だけを含むオーディオ・クリップをクラスタリング・ユニット742に送るように構成され、
クラスタリング・ユニット742は、セグメンテーション・ユニット741から送られた、少なくとも1人の話者に係る同一話者だけを含むオーディオ・クリップを受け取り、プリセット話者クラスタリング・アルゴリズムにより、少なくとも1人の話者に係る同一話者だけを含むオーディオ・クリップをクラスタリングして、少なくとも1人の話者に係る同一話者のオーディオ情報だけを含むオーディオ・ストリームを生成するように構成される。
本発明のこの実施形態において、セグメンテーション・ユニット741は、オリジナル・オーディオ・ストリームをいくつかのオーディオ・クリップに分割することができ、その場合、各オーディオ・クリップは、1人の話者のオーディオ情報だけを含み、クラスタリング・ユニット742は、同じ話者のオーディオ・クリップを再度クラスタリングして、各人のオーディオ・ストリームを生成する。最後に、オリジナル・オーディオ・ストリームは、異なる話者を表すオーディオ・ストリームに分割される。
図7に示すように、マッチング・ユニット75は、具体的には、合致度取得ユニット751とマッチング済みオーディオ・ストリーム取得ユニット752とを含み、その場合、合致度取得ユニット751は、少なくとも1人の話者に係る各話者のオーディオ・ストリーム及びオリジナル声紋特徴モデルにより少なくとも1人の話者に係る各話者のオーディオ・ストリームとオリジナル声紋特徴モデルとの合致度を取得し、合致度をマッチング済みオーディオ・ストリーム取得ユニット752に送るように構成され、マッチング済みオーディオ・ストリーム取得ユニット752は、合致度取得ユニット751から送られた、少なくとも1人の話者に係る各話者のオーディオ・ストリームとオリジナル声紋特徴モデルとの合致度を受け取り、うまくマッチングしたオーディオ・ストリームとして最も高く、プリセット・マッチング・スレショルドより大きい合致度に対応するオーディオ・ストリームを選択するように構成される。
本発明のこの実施形態において、合致度取得ユニット751は、すべてのオーディオ・ストリームを精査し、少なくとも1人の話者に係る各話者のオーディオ・ストリーム及びオリジナル声紋特徴モデルにより少なくとも1人の話者に係る各話者のオーディオ・ストリームとオリジナル声紋特徴モデルとの合致度を取得する。具体的には、合致度取得ユニット751は、各オーディオ・ストリームをオリジナル声紋特徴モデルの入力値として別々に使用して各オーディオ・ストリームに対応する合致値を取得し、その場合、合致値は、具体的には声紋検証アルゴリズム・インターフェースを呼び出して取得することができる。次いで、マッチング済みオーディオ・ストリーム取得ユニット752は、オリジナル声紋特徴モデルにマッチする1つ又は複数のオーディオ・ストリームを取得し、具体的には、うまくマッチングしたオーディオ・ストリームとして最も高く、プリセット・マッチング・スレショルドより大きい合致度に対応するオーディオ・ストリームを選択することができ、それによって、取得したオーディオ・ストリームがオリジナル声紋特徴モデルに大いに関連し、したがって、声紋訓練コーパスとして使用されたオーディオ・ストリームが純粋であることが確保される。
図7に示すように、モデル更新ユニット76は、具体的には、補正済みモデル取得ユニット761とモデル更新サブユニット762とを含み、その場合、補正済みモデル取得ユニット761は、うまくマッチングしたオーディオ・ストリーム及びプリセット・オーディオ・ストリーム訓練サンプルにより補正済み声紋特徴モデルを生成し、補正済み声紋特徴モデルをモデル更新サブユニット762に送るように構成され、モデル更新サブユニット762は、補正済みモデル取得ユニット761から送られた補正済み声紋特徴モデルを受け取り、オリジナル声紋特徴モデルを補正済み声紋特徴モデルに更新するように構成される。
本発明のこの実施形態において、うまくマッチングしたオーディオ・ストリームは、オリジナル声紋特徴モデルを生成するために追加のオーディオ・ストリーム訓練サンプルとして使用される。すなわち、オリジナル声紋特徴モデルを生成するために使用されるオーディオ・ストリーム訓練サンプル及びうまくマッチングしたオーディオ・ストリームを参照して、補正済みモデル取得ユニット761は、声紋登録を実施し、補正済み声紋特徴モデルとも呼ばれる新たな声紋特徴モデルを生成するために使用される。モデル更新サブユニット762は、オリジナル声紋特徴モデルを補正済み声紋特徴モデルに更新する。
本発明のこの実施形態は、サンプル取得ユニット71、オリジナル・モデル確立ユニット72、オリジナル・オーディオ・ストリーム取得ユニット73、セグメンテーション及びクラスタリング・ユニット74、マッチング・ユニット75、及びモデル更新ユニット76を含む端末を提供する。話者のオリジナル・オーディオ・ストリーム情報は、聴取によって取得され、声紋訓練コーパスとして使用され、オリジナル・オーディオ・ストリーム情報は、プリセット話者セグメンテーション及びクラスタリング・アルゴリズムを使用して処理され、それによって、追加のオーディオ・ストリーム訓練サンプルを取得し、したがって、追加のオーディオ・ストリーム訓練サンプルによりオリジナル声紋特徴モデルの補正及び更新動作が実施され、それによって、比較的高い実用性を前提にした声紋特徴モデルの精度が改善される。したがって、補正済みオリジナル声紋特徴モデルを端末の声紋アンブロッキング・ソリューションに適用すると、声紋認識精度が大幅に改善される。さらに、複数の人の発話オーディオ・ストリーム訓練サンプルのためにオリジナル声紋特徴モデルが確立された場合、更新済みオリジナル声紋特徴モデルは、複数の人のオーディオ情報を正確に認識して開錠などを実施することができ、したがって、開錠プロセスがよりインテリジェントとなる。
本発明の諸実施形態によって提供される声紋特徴モデルを更新するための方法において、少なくとも1人の話者を含むオリジナル・オーディオ・ストリームが取得され、オリジナル・オーディオ・ストリームにおける少なくとも1人の話者に係る各話者それぞれのオーディオ・ストリームがプリセット話者セグメンテーション及びクラスタリング・アルゴリズムにより取得され、少なくとも1人の話者に係る各話者それぞれのオーディオ・ストリームがオリジナル声紋特徴モデルに別々にマッチングされて、うまくマッチングしたオーディオ・ストリームを取得し、うまくマッチングしたオーディオ・ストリームがオリジナル声紋特徴モデルを生成するために追加のオーディオ・ストリーム訓練サンプルとして使用され、オリジナル声紋特徴モデルが更新される。これにより、声紋特徴モデルが既存の方法を使用して取得されるとき、声紋特徴モデルの精度が比較的高い実用性を前提にして改善されることが確保できず、その結果、認識精度が声紋特徴モデルを使用して改善することができないという問題が解決される。これにより、ユーザ体験が影響されず、比較的高い実用性が確保されるという前提で声紋特徴モデルの精度及び認識精度が改善される。
本明細書に開示する諸実施形態において説明する諸例に組み合わせて、いくつかのユニット及びいくつかのアルゴリズム・ステップは、電子ハードウェア、コンピュータ・ソフトウェア、又はそれらの組合せによって実施できることに留意されたい。ハードウェアとソフトウェアとの互換性について明確に説明するために、前述のことは、いくつかの機能による各例の一般的に説明したいくつかの構成及びいくつかのステップを有する。いくつかの機能がハードウェア又はソフトウェアによって実施されるかどうかは、技術的解決策の特定のアプリケーション及び設計上の制約条件による。各々の特定のアプリケーションの説明したいくつかの機能を実施するのに異なるいくつかの方法を当業者は使用することができるが、実施が本発明の範囲を超えるとみなすべきではない。
本明細書に開示する諸実施形態に組み合わせて、方法又はいくつかのアルゴリズム・ステップは、ハードウェア、プロセッサによって実行されるソフトウェア・モジュール、又はそれらの組合せによって実施することができる。ソフトウェア・モジュールは、ランダム・アクセス・メモリ(RAM)、メモリ、読出し専用メモリ(ROM)、電気的プログラム可能ROM、電気的消去可能プログラム可能ROM、レジスタ、ハードディスク、リムーバブル・ディスク、CD−ROM、又は当分野で周知の記憶媒体の任意の他の形態に常駐することができる。
前述の具体的な諸実施形態は、本発明の目的、技術的解決策、及び利益を詳細に明らかにする。前述の説明は、単に本発明の具体的な諸実施形態に過ぎず、本発明の保護範囲を限定することを意図していないことを理解されたい。本発明の精神及び原則を逸脱することなくなされるいかなる修正、均等代替、又は改善も、本発明の保護範囲内に含まれるものとする。

Claims (10)

  1. 声紋特徴モデルを更新するための方法であって、
    少なくとも1人の話者を含むオリジナル・オーディオ・ストリームを取得するステップと、
    プリセット話者セグメンテーション及びクラスタリング・アルゴリズムに従って、前記オリジナル・オーディオ・ストリームにおける前記少なくとも1人の話者に係る各話者それぞれのオーディオ・ストリームを取得するステップと、
    前記少なくとも1人の話者に係る各話者それぞれのオーディオ・ストリームとオリジナル声紋特徴モデルとを別々にマッチングして、うまくマッチングしたオーディオ・ストリームを取得するステップと、
    前記オリジナル声紋特徴モデルを生成するために、前記うまくマッチングしたオーディオ・ストリームを追加のオーディオ・ストリーム訓練サンプルとして使用して、前記オリジナル声紋特徴モデルを更新するステップと、
    を含む、方法。
  2. 前記方法は、さらに、
    少なくとも1人の話者を含むオリジナル・オーディオ・ストリームを取得する前記ステップの以前に、
    プリセット・オーディオ・ストリーム訓練サンプルに従って、前記オリジナル声紋特徴モデルを確立するステップと、を含む、
    請求項1に記載の方法。
  3. プリセット話者セグメンテーション及びクラスタリング・アルゴリズムに従って、前記オリジナル・オーディオ・ストリームにおける前記少なくとも1人の話者に係る各話者それぞれのオーディオ・ストリームを取得する前記ステップは、具体的には、
    プリセット話者セグメンテーション・アルゴリズムに従って、前記オリジナル・オーディオ・ストリームを複数のオーディオ・クリップに分割する段階であり、前記複数のオーディオ・クリップに係る各オーディオ・クリップは、前記少なくとも1人の話者に係る同一話者のオーディオ情報だけを含む段階と、
    プリセット話者クラスタリング・アルゴリズムに従って、前記少なくとも1人の話者に係る同一話者だけを含む前記オーディオ・クリップをクラスタリングする段階であり、前記少なくとも1人の話者に係る同一話者のオーディオ情報だけを含むオーディオ・ストリームを生成する、段階と、を含む、
    請求項1または2に記載の方法。
  4. 前記少なくとも1人の話者に係る各話者それぞれのオーディオ・ストリームとオリジナル声紋特徴モデルとを別々にマッチングして、うまくマッチングしたオーディオ・ストリームを取得する前記ステップは、具体的には、
    前記少なくとも1人の話者に係る各話者の前記オーディオ・ストリーム及び前記オリジナル声紋特徴モデルに従って、前記少なくとも1人の話者に係る各話者の前記オーディオ・ストリームと前記オリジナル声紋特徴モデルとの合致度を取得する段階と、
    前記うまくマッチングしたオーディオ・ストリームとして最も高く、かつ、プリセット・マッチング・スレショルドより大きい合致度に対応するオーディオ・ストリームを選択する段階と、を含む、
    請求項1乃至3いずれか一項に記載の方法。
  5. 前記オリジナル声紋特徴モデルを生成するために前記うまくマッチングしたオーディオ・ストリームを追加のオーディオ・ストリーム訓練サンプルとして使用して、前記オリジナル声紋特徴モデルを更新する前記ステップは、具体的には、
    前記うまくマッチングしたオーディオ・ストリーム及び前記プリセット・オーディオ・ストリーム訓練サンプルに従って、補正済み声紋特徴モデルを生成する段階であり、前記プリセット・オーディオ・ストリーム訓練サンプルは、前記オリジナル声紋特徴モデルを生成するためのオーディオ・ストリームである段階と、
    前記オリジナル声紋特徴モデルを前記補正済み声紋特徴モデルに更新する段階と、を含む、
    請求項に記載の方法。
  6. オリジナル・オーディオ・ストリーム取得ユニットと、セグメンテーション及びクラスタリング・ユニットと、マッチング・ユニットと、モデル更新ユニットと、を備える端末であって、
    前記オリジナル・オーディオ・ストリーム取得ユニットは、少なくとも1人の話者を含むオリジナル・オーディオ・ストリームを取得し、前記オリジナル・オーディオ・ストリームを前記セグメンテーション及びクラスタリング・ユニットに送るように構成され、
    前記セグメンテーション及びクラスタリング・ユニットは、前記オリジナル・オーディオ・ストリーム取得ユニットから送られた前記オリジナル・オーディオ・ストリームを受け取り、プリセット話者セグメンテーション及びクラスタリング・アルゴリズムに従って、前記オリジナル・オーディオ・ストリームにおける前記少なくとも1人の話者に係る各話者それぞれのオーディオ・ストリームを取得し、かつ、前記少なくとも1人の話者に係る各話者それぞれのオーディオ・ストリームを前記マッチング・ユニットに送る、ように構成され、
    前記マッチング・ユニットは、前記セグメンテーション及びクラスタリング・ユニットから送られた前記少なくとも1人の話者に係る各話者それぞれのオーディオ・ストリームを受け取り、前記少なくとも1人の話者に係る各話者それぞれのオーディオ・ストリームとオリジナル声紋特徴モデルとを別々にマッチングして、うまくマッチングしたオーディオ・ストリームを取得し、かつ、前記うまくマッチングしたオーディオ・ストリームを前記モデル更新ユニットに送る、ように構成され、
    前記モデル更新ユニットは、前記マッチング・ユニットから送られた前記うまくマッチングしたオーディオ・ストリームを受け取り、前記オリジナル声紋特徴モデルを生成するために、前記うまくマッチングしたオーディオ・ストリームを追加のオーディオ・ストリーム訓練サンプルとして使用し、かつ、前記オリジナル声紋特徴モデルを更新する、ように構成される、
    端末。
  7. 前記端末は、さらに、
    サンプル取得ユニットと、オリジナル・モデル確立ユニットと、を備え、
    前記サンプル取得ユニットは、プリセット・オーディオ・ストリーム訓練サンプルを取得し、かつ、前記プリセット・オーディオ・ストリーム訓練サンプルを前記オリジナル・モデル確立ユニットに送る、ように構成され、
    前記オリジナル・モデル確立ユニットは、前記サンプル取得ユニットから送られた前記プリセット・オーディオ・ストリーム訓練サンプルを受け取り、かつ、前記プリセット・オーディオ・ストリーム訓練サンプルにより前記オリジナル声紋特徴モデルを確立する、ように構成される、
    請求項6に記載の端末。
  8. 前記セグメンテーション及びクラスタリング・ユニットは、具体的には、セグメンテーション・ユニットと、クラスタリング・ユニットと、を備え、
    前記セグメンテーション・ユニットは、プリセット話者セグメンテーション・アルゴリズムに従って、前記オリジナル・オーディオ・ストリームを複数のオーディオ・クリップに分割する、ように構成され、前記複数のオーディオ・クリップに係る各オーディオ・クリップは、前記少なくとも1人の話者に係る同一話者のオーディオ情報だけを含み、かつ、前記セグメンテーション・ユニットは、前記少なくとも1人の話者に係る同一話者だけを含む前記オーディオ・クリップを前記クラスタリング・ユニットに送る、ように構成され、
    前記クラスタリング・ユニットは、前記セグメンテーション・ユニットから送られた、前記少なくとも1人の話者に係る同一話者だけを含む前記オーディオ・クリップを受け取り、かつ、プリセット話者クラスタリング・アルゴリズムに従って、前記少なくとも1人の話者に係る同一話者だけを含む前記オーディオ・クリップをクラスタリングする、ように構成され、前記少なくとも1人の話者に係る同一話者の前記オーディオ情報だけを含むオーディオ・ストリームを生成する、
    請求項6または7に記載の端末。
  9. 前記マッチング・ユニットは、具体的には、合致度取得ユニットと、マッチング済みオーディオ・ストリーム取得ユニットと、を備え、
    前記合致度取得ユニットは、前記少なくとも1人の話者に係る各話者の前記オーディオ・ストリーム及び前記オリジナル声紋特徴モデルに従って、前記少なくとも1人の話者に係る各話者の前記オーディオ・ストリームと前記オリジナル声紋特徴モデルとの合致度を取得し、かつ、前記合致度を前記マッチング済みオーディオ・ストリーム取得ユニットに送る、ように構成され、
    前記マッチング済みオーディオ・ストリーム取得ユニットは、前記合致度取得ユニットから送られた、前記少なくとも1人の話者に係る各話者の前記オーディオ・ストリームと前記オリジナル声紋特徴モデルとの前記合致度を受け取り、かつ、前記うまくマッチングしたオーディオ・ストリームとして最も高く、プリセット・マッチング・スレショルドより大きい合致度に対応するオーディオ・ストリームを選択する、ように構成される、
    請求項6乃至8いずれか一項に記載の端末。
  10. 前記モデル更新ユニットは、具体的には、補正済みモデル取得ユニットと、モデル更新サブユニットと、を備え、
    前記補正済みモデル取得ユニットは、前記うまくマッチングしたオーディオ・ストリーム及び前記プリセット・オーディオ・ストリーム訓練サンプルに従って、補正済み声紋特徴モデルを生成し、かつ、前記補正済み声紋特徴モデルを前記モデル更新サブユニットに送る、ように構成され、
    前記モデル更新サブユニットは、前記補正済みモデル取得ユニットから送られた前記補正済み声紋特徴モデルを受け取り、かつ、前記オリジナル声紋特徴モデルを前記補正済み声紋特徴モデルに更新する、ように構成される、
    請求項に記載の端末。
JP2015509296A 2012-07-09 2013-07-08 声紋特徴モデルを更新するための方法及び端末 Active JP5996783B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201210235593.0 2012-07-09
CN2012102355930A CN102760434A (zh) 2012-07-09 2012-07-09 一种声纹特征模型更新方法及终端
PCT/CN2013/079005 WO2014008843A1 (zh) 2012-07-09 2013-07-08 一种声纹特征模型更新方法及终端

Publications (2)

Publication Number Publication Date
JP2015516091A JP2015516091A (ja) 2015-06-04
JP5996783B2 true JP5996783B2 (ja) 2016-09-21

Family

ID=47054876

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015509296A Active JP5996783B2 (ja) 2012-07-09 2013-07-08 声紋特徴モデルを更新するための方法及び端末

Country Status (7)

Country Link
US (1) US9685161B2 (ja)
EP (1) EP2821992B1 (ja)
JP (1) JP5996783B2 (ja)
KR (1) KR20140144233A (ja)
CN (1) CN102760434A (ja)
AU (1) AU2013289660B2 (ja)
WO (1) WO2014008843A1 (ja)

Families Citing this family (93)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102760434A (zh) 2012-07-09 2012-10-31 华为终端有限公司 一种声纹特征模型更新方法及终端
US9258425B2 (en) * 2013-05-22 2016-02-09 Nuance Communications, Inc. Method and system for speaker verification
CN103258535A (zh) * 2013-05-30 2013-08-21 中国人民财产保险股份有限公司 基于声纹识别的身份识别方法及系统
CN104282303B (zh) * 2013-07-09 2019-03-29 威盛电子股份有限公司 利用声纹识别进行语音辨识的方法及其电子装置
CN103488764B (zh) * 2013-09-26 2016-08-17 天脉聚源(北京)传媒科技有限公司 个性化视频内容推荐方法和系统
CN104851423B (zh) * 2014-02-19 2021-04-13 联想(北京)有限公司 一种声音信息处理方法及装置
CN104935713A (zh) * 2014-03-20 2015-09-23 海尔集团公司 通信终端存储电话号码的方法及装置
US10373711B2 (en) 2014-06-04 2019-08-06 Nuance Communications, Inc. Medical coding system with CDI clarification request notification
CN104168270B (zh) * 2014-07-31 2016-01-13 腾讯科技(深圳)有限公司 身份验证方法、服务器、客户端及系统
WO2016015687A1 (zh) 2014-07-31 2016-02-04 腾讯科技(深圳)有限公司 声纹验证方法及装置
CN104219381B (zh) * 2014-08-18 2017-08-25 上海卓易科技股份有限公司 一种智能解锁方法、终端及系统
CN104202486A (zh) * 2014-09-26 2014-12-10 上海华勤通讯技术有限公司 移动终端及其屏幕解锁方法
CN104320255A (zh) * 2014-09-30 2015-01-28 百度在线网络技术(北京)有限公司 生成账户认证数据的方法、账户认证的方法以及装置
CN105575391B (zh) 2014-10-10 2020-04-03 阿里巴巴集团控股有限公司 声纹信息管理方法、装置以及身份认证方法、系统
CN104392722B (zh) * 2014-11-28 2018-11-09 电子科技大学 一种基于声音的生物种群识别方法及系统
CN104616655B (zh) * 2015-02-05 2018-01-16 北京得意音通技术有限责任公司 声纹模型自动重建的方法和装置
CN106033670B (zh) * 2015-03-19 2019-11-15 科大讯飞股份有限公司 声纹密码认证方法及系统
CN106157959B (zh) * 2015-03-31 2019-10-18 讯飞智元信息科技有限公司 声纹模型更新方法及系统
US9721571B2 (en) * 2015-06-14 2017-08-01 Nice Ltd. System and method for voice print generation
CN104967622B (zh) * 2015-06-30 2017-04-05 百度在线网络技术(北京)有限公司 基于声纹的通讯方法、装置和系统
CN106373575B (zh) * 2015-07-23 2020-07-21 阿里巴巴集团控股有限公司 一种用户声纹模型构建方法、装置及系统
CN106548793A (zh) * 2015-09-16 2017-03-29 中兴通讯股份有限公司 存储和播放音频文件的方法和装置
CN106558306A (zh) * 2015-09-28 2017-04-05 广东新信通信息系统服务有限公司 用于语音识别的方法、装置和设备
CN105895077A (zh) * 2015-11-15 2016-08-24 乐视移动智能信息技术(北京)有限公司 录音标记方法及录音装置
CN105913849B (zh) * 2015-11-27 2019-10-25 中国人民解放军总参谋部陆航研究所 一种基于事件检测的说话人分割方法
US10366687B2 (en) * 2015-12-10 2019-07-30 Nuance Communications, Inc. System and methods for adapting neural network acoustic models
CN106887231A (zh) * 2015-12-16 2017-06-23 芋头科技(杭州)有限公司 一种识别模型更新方法及系统以及智能终端
US9697836B1 (en) 2015-12-30 2017-07-04 Nice Ltd. Authentication of users of self service channels
CN106981289A (zh) * 2016-01-14 2017-07-25 芋头科技(杭州)有限公司 一种识别模型训练方法及系统以及智能终端
CN106971734B (zh) * 2016-01-14 2020-10-23 芋头科技(杭州)有限公司 一种可根据模型的提取频率训练识别模型的方法及系统
CN106971735B (zh) * 2016-01-14 2019-12-03 芋头科技(杭州)有限公司 一种定期更新缓存中训练语句的声纹识别的方法及系统
CN105632489A (zh) * 2016-01-20 2016-06-01 曾戟 一种语音播放方法和装置
CN105719659A (zh) * 2016-02-03 2016-06-29 努比亚技术有限公司 基于声纹识别的录音文件分离方法及装置
CN106205610B (zh) * 2016-06-29 2019-11-26 联想(北京)有限公司 一种语音信息识别方法和设备
CN106203298A (zh) * 2016-06-30 2016-12-07 北京集创北方科技股份有限公司 生物特征识别方法及装置
CN106296302B (zh) * 2016-08-18 2019-07-09 中国联合网络通信集团有限公司 一种语音数据处理方法、装置、用具和系统
CN106056996B (zh) * 2016-08-23 2017-08-29 深圳市鹰硕技术有限公司 一种多媒体交互教学系统及方法
US10949602B2 (en) 2016-09-20 2021-03-16 Nuance Communications, Inc. Sequencing medical codes methods and apparatus
CN106653016B (zh) * 2016-10-28 2020-07-28 上海智臻智能网络科技股份有限公司 智能交互方法和装置
US11620471B2 (en) * 2016-11-30 2023-04-04 Cylance Inc. Clustering analysis for deduplication of training set samples for machine learning based computer threat analysis
CN106782507B (zh) * 2016-12-19 2018-03-06 平安科技(深圳)有限公司 语音分割的方法及装置
CN106782563B (zh) * 2016-12-28 2020-06-02 上海百芝龙网络科技有限公司 一种智能家居语音交互系统
US11100384B2 (en) 2017-02-14 2021-08-24 Microsoft Technology Licensing, Llc Intelligent device user interactions
US11010601B2 (en) 2017-02-14 2021-05-18 Microsoft Technology Licensing, Llc Intelligent assistant device communicating non-verbal cues
US10467510B2 (en) 2017-02-14 2019-11-05 Microsoft Technology Licensing, Llc Intelligent assistant
CN108447471B (zh) * 2017-02-15 2021-09-10 腾讯科技(深圳)有限公司 语音识别方法及语音识别装置
CN106847292B (zh) * 2017-02-16 2018-06-19 平安科技(深圳)有限公司 声纹识别方法及装置
CN107147618B (zh) * 2017-04-10 2020-05-15 易视星空科技无锡有限公司 一种用户注册方法、装置及电子设备
CN107123418B (zh) * 2017-05-09 2020-12-25 广东小天才科技有限公司 一种语音消息的处理方法及移动终端
CN109145145A (zh) * 2017-06-16 2019-01-04 阿里巴巴集团控股有限公司 一种数据更新方法、客户端及电子设备
CN109147770B (zh) 2017-06-16 2023-07-28 阿里巴巴集团控股有限公司 声音识别特征的优化、动态注册方法、客户端和服务器
CN109102810B (zh) * 2017-06-21 2021-10-15 北京搜狗科技发展有限公司 声纹识别方法和装置
US11133091B2 (en) 2017-07-21 2021-09-28 Nuance Communications, Inc. Automated analysis system and method
US10592649B2 (en) * 2017-08-09 2020-03-17 Nice Ltd. Authentication via a dynamic passphrase
CN109427336B (zh) * 2017-09-01 2020-06-16 华为技术有限公司 语音对象识别方法及装置
US11227605B2 (en) * 2017-09-11 2022-01-18 Telefonaktiebolaget Lm Ericsson (Publ) Voice-controlled management of user profiles
CN107731220B (zh) * 2017-10-18 2019-01-22 北京达佳互联信息技术有限公司 音频识别方法、装置和服务器
US11024424B2 (en) 2017-10-27 2021-06-01 Nuance Communications, Inc. Computer assisted coding systems and methods
CN107799120A (zh) * 2017-11-10 2018-03-13 北京康力优蓝机器人科技有限公司 服务机器人识别唤醒方法及装置
CN108257604B (zh) * 2017-12-08 2021-01-08 平安普惠企业管理有限公司 语音识别方法、终端设备及计算机可读存储介质
CN108174236A (zh) * 2017-12-22 2018-06-15 维沃移动通信有限公司 一种媒体文件处理方法、服务器及移动终端
CN108269575B (zh) * 2018-01-12 2021-11-02 平安科技(深圳)有限公司 更新声纹数据的语音识别方法、终端装置及存储介质
CN108364654B (zh) * 2018-01-30 2020-10-13 网易乐得科技有限公司 语音处理方法、介质、装置和计算设备
CN108428455A (zh) * 2018-02-13 2018-08-21 上海爱优威软件开发有限公司 声纹特征的采集方法及系统
CN108806695A (zh) * 2018-04-17 2018-11-13 平安科技(深圳)有限公司 自更新的反欺诈方法、装置、计算机设备和存储介质
CN110875042B (zh) * 2018-08-14 2022-08-16 杭州海康威视数字技术股份有限公司 指定人群监控方法、装置和存储介质
CN110880325B (zh) * 2018-09-05 2022-06-28 华为技术有限公司 身份识别方法及设备
CN109378003B (zh) * 2018-11-02 2021-10-01 科大讯飞股份有限公司 一种声纹模型训练的方法和系统
US11004454B1 (en) * 2018-11-06 2021-05-11 Amazon Technologies, Inc. Voice profile updating
US11200884B1 (en) * 2018-11-06 2021-12-14 Amazon Technologies, Inc. Voice profile updating
US10978095B2 (en) * 2018-11-06 2021-04-13 International Business Machines Corporation Control of incoming calls
TWI707249B (zh) * 2018-11-27 2020-10-11 美律實業股份有限公司 產生標籤資料的系統及方法
US11641363B2 (en) * 2019-01-14 2023-05-02 Qatar Foundation For Education, Science And Community Development Methods and systems for verifying the authenticity of a remote service
CN109979467B (zh) * 2019-01-25 2021-02-23 出门问问信息科技有限公司 人声过滤方法、装置、设备及存储介质
CN110164415A (zh) * 2019-04-29 2019-08-23 腾讯科技(深圳)有限公司 一种基于语音识别的推荐方法、装置及介质
CN110289013B (zh) * 2019-07-24 2023-12-19 腾讯科技(深圳)有限公司 多音频采集源检测方法、装置、存储介质和计算机设备
CN110660398B (zh) * 2019-09-19 2020-11-20 北京三快在线科技有限公司 声纹特征更新方法、装置、计算机设备及存储介质
KR20210050884A (ko) * 2019-10-29 2021-05-10 삼성전자주식회사 화자 인식을 위한 등록 방법 및 장치
CN111243601B (zh) * 2019-12-31 2023-04-07 北京捷通华声科技股份有限公司 声纹聚类方法、装置、电子设备和计算机可读存储介质
CN111248861B (zh) * 2020-01-16 2023-01-24 广州国音智能科技有限公司 一种提高声纹采集精度的方法、装置和设备
CN111341326B (zh) * 2020-02-18 2023-04-18 RealMe重庆移动通信有限公司 语音处理方法及相关产品
CN111429920B (zh) * 2020-03-30 2024-01-23 北京奇艺世纪科技有限公司 用户区分方法、用户行为库确定方法、装置及设备
CN111627449B (zh) * 2020-05-20 2023-02-28 Oppo广东移动通信有限公司 屏幕的声纹解锁方法和装置
CN111785291A (zh) * 2020-07-02 2020-10-16 北京捷通华声科技股份有限公司 语音分离方法和语音分离装置
CN111951791A (zh) * 2020-08-26 2020-11-17 上海依图网络科技有限公司 声纹识别模型训练方法、识别方法、电子设备及存储介质
US11837238B2 (en) * 2020-10-21 2023-12-05 Google Llc Assessing speaker recognition performance
CN112735432B (zh) * 2020-12-24 2023-05-02 北京百度网讯科技有限公司 音频识别的方法、装置、电子设备及存储介质
CN112735438A (zh) * 2020-12-29 2021-04-30 科大讯飞股份有限公司 一种在线声纹特征更新方法及设备、存储设备和建模设备
CN112717374B (zh) * 2021-01-08 2023-03-24 南方科技大学 用户匹配方法、装置、电子设备及介质
CN113066506B (zh) * 2021-03-12 2023-01-17 北京百度网讯科技有限公司 音频数据分离方法、装置、电子设备以及存储介质
CN113421563A (zh) * 2021-06-21 2021-09-21 安徽听见科技有限公司 说话人标注方法、装置、电子设备和存储介质
CN113570754B (zh) * 2021-07-01 2022-04-29 汉王科技股份有限公司 声纹锁控制方法、装置、电子设备
CN116741180B (zh) * 2023-08-14 2023-10-31 北京分音塔科技有限公司 基于声纹增强和对抗的语音识别模型训练方法及装置

Family Cites Families (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3745403B2 (ja) * 1994-04-12 2006-02-15 ゼロックス コーポレイション オーディオデータセグメントのクラスタリング方法
US5893059A (en) * 1997-04-17 1999-04-06 Nynex Science And Technology, Inc. Speech recoginition methods and apparatus
US7739114B1 (en) * 1999-06-30 2010-06-15 International Business Machines Corporation Methods and apparatus for tracking speakers in an audio stream
US7496510B2 (en) * 2000-11-30 2009-02-24 International Business Machines Corporation Method and apparatus for the automatic separating and indexing of multi-speaker conversations
US7240007B2 (en) * 2001-12-13 2007-07-03 Matsushita Electric Industrial Co., Ltd. Speaker authentication by fusion of voiceprint match attempt results with additional information
US20030236663A1 (en) 2002-06-19 2003-12-25 Koninklijke Philips Electronics N.V. Mega speaker identification (ID) system and corresponding methods therefor
US7181393B2 (en) * 2002-11-29 2007-02-20 Microsoft Corporation Method of real-time speaker change point detection, speaker tracking and speaker model construction
JP2006017936A (ja) * 2004-06-30 2006-01-19 Sharp Corp 通話装置,中継処理装置,通信認証システム,通話装置の制御方法,通話装置の制御プログラム,および通話装置の制御プログラムを記録した記録媒体
US9240188B2 (en) * 2004-09-16 2016-01-19 Lena Foundation System and method for expressive language, developmental disorder, and emotion assessment
JP2006178334A (ja) * 2004-12-24 2006-07-06 Yamaha Corp 語学学習システム
CN1905445B (zh) * 2005-07-27 2012-02-15 国际商业机器公司 使用可移动的语音标识卡的语音认证系统及语音认证方法
JP4700522B2 (ja) * 2006-03-02 2011-06-15 日本放送協会 音声認識装置及び音声認識プログラム
US8635243B2 (en) * 2007-03-07 2014-01-21 Research In Motion Limited Sending a communications header with voice recording to send metadata for use in speech recognition, formatting, and search mobile search application
JP4812029B2 (ja) * 2007-03-16 2011-11-09 富士通株式会社 音声認識システム、および、音声認識プログラム
JP5418223B2 (ja) * 2007-03-26 2014-02-19 日本電気株式会社 音声分類装置、音声分類方法、および音声分類用プログラム
JP2009109712A (ja) * 2007-10-30 2009-05-21 National Institute Of Information & Communication Technology オンライン話者逐次区別システム及びそのコンピュータプログラム
US9099085B2 (en) * 2008-07-21 2015-08-04 Auraya Pty. Ltd. Voice authentication systems and methods
JP4964204B2 (ja) * 2008-08-27 2012-06-27 日本電信電話株式会社 複数信号区間推定装置、複数信号区間推定方法、そのプログラムおよび記録媒体
CN101673544B (zh) 2009-10-10 2012-07-04 上海电虹软件有限公司 一种基于声纹识别和定位跟踪的交叉监控方法和系统
CN101770774B (zh) * 2009-12-31 2011-12-07 吉林大学 基于嵌入式的开集说话人识别方法及其系统
CN102074236B (zh) * 2010-11-29 2012-06-06 清华大学 一种分布式麦克风的说话人聚类方法
CN102231277A (zh) * 2011-06-29 2011-11-02 电子科技大学 基于声纹识别的移动终端隐私保护方法
CN102543063B (zh) * 2011-12-07 2013-07-24 华南理工大学 基于说话人分割与聚类的多说话人语速估计方法
CN102760434A (zh) * 2012-07-09 2012-10-31 华为终端有限公司 一种声纹特征模型更新方法及终端
US8880398B1 (en) * 2012-07-13 2014-11-04 Google Inc. Localized speech recognition with offload
US10134400B2 (en) * 2012-11-21 2018-11-20 Verint Systems Ltd. Diarization using acoustic labeling
WO2014107433A2 (en) * 2013-01-01 2014-07-10 Massachusetts Institute Of Technology Multi-layer structures prepared by layer-by-layer assembly
US9258425B2 (en) * 2013-05-22 2016-02-09 Nuance Communications, Inc. Method and system for speaker verification
US9460722B2 (en) * 2013-07-17 2016-10-04 Verint Systems Ltd. Blind diarization of recorded calls with arbitrary number of speakers

Also Published As

Publication number Publication date
AU2013289660B2 (en) 2016-06-30
JP2015516091A (ja) 2015-06-04
EP2821992B1 (en) 2018-02-14
WO2014008843A1 (zh) 2014-01-16
US9685161B2 (en) 2017-06-20
KR20140144233A (ko) 2014-12-18
US20150112680A1 (en) 2015-04-23
EP2821992A1 (en) 2015-01-07
AU2013289660A1 (en) 2014-10-30
EP2821992A4 (en) 2015-03-04
CN102760434A (zh) 2012-10-31

Similar Documents

Publication Publication Date Title
JP5996783B2 (ja) 声紋特徴モデルを更新するための方法及び端末
CN107274885B (zh) 语音识别方法及相关产品
CN108538320B (zh) 录音控制方法和装置、可读存储介质、终端
EP4064276A1 (en) Method and device for speech recognition, terminal and storage medium
JP2021516786A (ja) 複数人の音声を分離する方法、装置、およびコンピュータプログラム
CN103714824B (zh) 一种音频处理方法、装置及终端设备
US9570076B2 (en) Method and system for voice recognition employing multiple voice-recognition techniques
CN108735209A (zh) 唤醒词绑定方法、智能设备及存储介质
CN106203235B (zh) 活体鉴别方法和装置
CN107919138B (zh) 一种语音中的情绪处理方法及移动终端
CN112751648B (zh) 丢包数据恢复方法和相关装置、设备及存储介质
CN110830368B (zh) 即时通讯消息发送方法及电子设备
CN106506437B (zh) 一种音频数据处理方法,及设备
CN105139848B (zh) 数据转换方法和装置
CN109686359B (zh) 语音输出方法、终端及计算机可读存储介质
CN111739545A (zh) 音频处理方法、装置及存储介质
CN107403623A (zh) 录音内容的保存方法、终端、云服务器及可读存储介质
CN109453526B (zh) 一种声音处理方法、终端及计算机可读存储介质
CN110111795B (zh) 一种语音处理方法及终端设备
WO2020118560A1 (zh) 一种录音方法、装置、电子设备和计算机可读存储介质
WO2017124876A1 (zh) 一种语音播放方法和装置
CN114065168A (zh) 信息处理方法、智能终端及存储介质
CN110502126B (zh) 输入方法及电子设备
CN107645604B (zh) 一种通话处理方法及移动终端
CN112700783A (zh) 通讯的变声方法、终端设备和存储介质

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20151026

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20151117

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160216

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160802

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160824

R150 Certificate of patent or registration of utility model

Ref document number: 5996783

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250