JP5996783B2

JP5996783B2 - 声紋特徴モデルを更新するための方法及び端末

Info

Publication number: JP5996783B2
Application number: JP2015509296A
Authority: JP
Inventors: ▲ティン▼ ▲盧▼
Original assignee: Huawei Device Co Ltd
Current assignee: Huawei Device Co Ltd
Priority date: 2012-07-09
Filing date: 2013-07-08
Publication date: 2016-09-21
Anticipated expiration: 2033-07-08
Also published as: AU2013289660B2; JP2015516091A; EP2821992B1; WO2014008843A1; US9685161B2; KR20140144233A; US20150112680A1; EP2821992A1; AU2013289660A1; EP2821992A4; CN102760434A

Description

関連出願の相互参照
本出願は、参照によりその全体が本明細書に包含される、「ＭＥＴＨＯＤＦＯＲＵＰＤＡＴＩＮＧＶＯＩＣＥＰＲＩＮＴＦＥＡＴＵＲＥＭＯＤＥＬＡＮＤＴＥＲＭＩＮＡＬ」というタイトルで２０１２年７月９日に中国特許庁に出願した中国特許出願第２０１２１０２３５５９３．０号の優先権を主張するものである。

本発明は、音声認識技術の分野に関し、詳しくは、声紋特徴モデルを更新するための方法及び端末に関する。

声紋認識は、人声を使用することによって実施されるタイプの認識技術である。人が話しているとき使用される発声器官にはある程度の相違があり、任意の２人の音声の声紋スペクトログラムは異なる。したがって、声紋は、個々の相違を表す生物学的特徴として使用することができる。すなわち、異なる個人は、声紋特徴モデルを確立することによって表すことができ、声紋特徴モデルは、異なる個人を認識するために使用される。現在は、主に訓練コーパスの長さの選択において見られる、声紋特徴モデルの適用に関する問題がある。一般に、声紋訓練コーパスがより長いと、より精密に確立された特徴モデル及びより高い認識精度がもたらされるが、実用性が不十分である。声紋訓練コーパスが短いと十分な実用性が確保され得るが、認識精度が高くない。さらに、実際の適用において、例えば、携帯電話のスクリーン声紋開錠用途では、機密性を満たすためには、高い認識精度が必要であり、十分な実用性を確保するためには、訓練コーパスは過度に長くするべきでない。

既存の声紋特徴モデル確立方法において、ユーザは、声紋登録フェーズで複数回の訓練を手動で実施し、各訓練には短いコーパスを使用し、最後に短いコーパスを組み合わせて長い訓練コーパスにして特徴モデルを生成する。しかし、ユーザは、複数回に対する持続時間で訓練コーパスを手動で記録するとき経験に乏しいことがあり、この方法は実用性が高くない。訓練コーパスの組合せは、長さにまだ限界があり、精密な特徴モデルを生成することができず、認識精度をさらに改善することができない。発話速度及び抑揚のばらつき、並びに感情の変化は、モデル確立精度にも影響することがある。したがって、比較的高い実用性を前提にして、いかに声紋特徴モデルの精度を改善し、認識精度をさらに改善するかという緊急課題がある。

本発明の諸実施形態の一目的は、声紋特徴モデルを更新するための方法及び端末を提供し、それによって、既存の方法を使用することにより、声紋特徴モデルを取得するとき、声紋特徴モデルの精度が比較的高い実用性を前提にして改善することが確保され得ないし、その結果、声紋特徴モデルを使用することによって認識精度が改善できない、という問題を解決することにある。

第一の態様によれば、声紋特徴モデルを更新するための方法は、少なくとも１人の話者を含むオリジナル・オーディオ・ストリームを取得するステップと、プリセット話者セグメンテーション及びクラスタリング・アルゴリズムに従って、前記オリジナル・オーディオ・ストリームにおける前記少なくとも１人の話者に係る各話者それぞれのオーディオ・ストリームを取得するステップと、前記少なくとも１人の話者に係る各話者それぞれのオーディオ・ストリームとオリジナル声紋特徴モデルとを別々にマッチングして、うまくマッチングしたオーディオ・ストリームを取得するステップと、前記オリジナル声紋特徴モデルを生成するために、前記うまくマッチングしたオーディオ・ストリームを追加のオーディオ・ストリーム訓練サンプルとして使用して、前記オリジナル声紋特徴モデルを更新するステップと、を含む。

第１の態様の第１の可能な実施のやり方において、前記方法は、さらに、少なくとも１人の話者を含むオリジナル・オーディオ・ストリームを取得する前記ステップの以前に、プリセット・オーディオ・ストリーム訓練サンプルに従って、前記オリジナル声紋特徴モデルを確立するステップと、を含む。

第１の態様に関して、又は第１の態様の第１の可能な実施のやり方に関して、第２の可能な実施のやり方において、プリセット話者セグメンテーション及びクラスタリング・アルゴリズムに従って、前記オリジナル・オーディオ・ストリームにおける前記少なくとも１人の話者に係る各話者それぞれのオーディオ・ストリームを取得する前記ステップは、具体的には、プリセット話者セグメンテーション・アルゴリズムに従って、前記オリジナル・オーディオ・ストリームを複数のオーディオ・クリップに分割する段階であり、前記複数のオーディオ・クリップに係る各オーディオ・クリップは、前記少なくとも１人の話者に係る同一話者のオーディオ情報だけを含む段階と、プリセット話者クラスタリング・アルゴリズムに従って、前記少なくとも１人の話者に係る同一話者だけを含む前記オーディオ・クリップをクラスタリングする段階であり、前記少なくとも１人の話者に係る同一話者のオーディオ情報だけを含むオーディオ・ストリームを生成する、段階と、を含む。

第１の態様に関して、又は第１の態様の第１の可能な実施のやり方に関して、又は第１の態様の第２の可能な実施のやり方に関して、第３の可能な実施のやり方において、前記少なくとも１人の話者に係る各話者それぞれのオーディオ・ストリームとオリジナル声紋特徴モデルとを別々にマッチングして、うまくマッチングしたオーディオ・ストリームを取得する前記ステップは、具体的には、前記少なくとも１人の話者に係る各話者の前記オーディオ・ストリーム及び前記オリジナル声紋特徴モデルに従って、前記少なくとも１人の話者に係る各話者の前記オーディオ・ストリームと前記オリジナル声紋特徴モデルとの合致度を取得する段階と、前記うまくマッチングしたオーディオ・ストリームとして最も高く、かつ、プリセット・マッチング・スレショルドより大きい合致度に対応するオーディオ・ストリームを選択する段階と、を含む。

第１の態様に関して、又は第１の態様の第１の可能な実施のやり方に関して、又は第１の態様の第２の可能な実施のやり方に関して、又は第１の態様の第３の可能な実施のやり方に関して、第４の可能な実施のやり方において、前記オリジナル声紋特徴モデルを生成するために前記うまくマッチングしたオーディオ・ストリームを追加のオーディオ・ストリーム訓練サンプルとして使用して、前記オリジナル声紋特徴モデルを更新する前記ステップは、具体的には、前記うまくマッチングしたオーディオ・ストリーム及び前記プリセット・オーディオ・ストリーム訓練サンプルに従って、補正済み声紋特徴モデルを生成する段階であり、前記プリセット・オーディオ・ストリーム訓練サンプルは、前記オリジナル声紋特徴モデルを生成するためのオーディオ・ストリームである段階と、前記オリジナル声紋特徴モデルを前記補正済み声紋特徴モデルに更新する段階と、を含む。

第２の態様によれば、端末は、オリジナル・オーディオ・ストリーム取得ユニットと、セグメンテーション及びクラスタリング・ユニットと、マッチング・ユニットと、モデル更新ユニットと、を備える端末であって、前記オリジナル・オーディオ・ストリーム取得ユニットは、少なくとも１人の話者を含むオリジナル・オーディオ・ストリームを取得し、前記オリジナル・オーディオ・ストリームを前記セグメンテーション及びクラスタリング・ユニットに送るように構成され、前記セグメンテーション及びクラスタリング・ユニットは、前記オリジナル・オーディオ・ストリーム取得ユニットから送られた前記オリジナル・オーディオ・ストリームを受け取り、プリセット話者セグメンテーション及びクラスタリング・アルゴリズムに従って、前記オリジナル・オーディオ・ストリームにおける前記少なくとも１人の話者に係る各話者それぞれのオーディオ・ストリームを取得し、かつ、前記少なくとも１人の話者に係る各話者それぞれのオーディオ・ストリームを前記マッチング・ユニットに送る、ように構成され、前記マッチング・ユニットは、前記セグメンテーション及びクラスタリング・ユニットから送られた前記少なくとも１人の話者に係る各話者それぞれのオーディオ・ストリームを受け取り、前記少なくとも１人の話者に係る各話者それぞれのオーディオ・ストリームとオリジナル声紋特徴モデルとを別々にマッチングして、うまくマッチングしたオーディオ・ストリームを取得し、かつ、前記うまくマッチングしたオーディオ・ストリームを前記モデル更新ユニットに送る、ように構成され、前記モデル更新ユニットは、前記マッチング・ユニットから送られた前記うまくマッチングしたオーディオ・ストリームを受け取り、前記オリジナル声紋特徴モデルを生成するために、前記うまくマッチングしたオーディオ・ストリームを追加のオーディオ・ストリーム訓練サンプルとして使用し、かつ、前記オリジナル声紋特徴モデルを更新する、ように構成される。

第２の態様の第１の可能な実施のやり方において、端末は、さらに、サンプル取得ユニットと、オリジナル・モデル確立ユニットと、を備え、前記サンプル取得ユニットは、プリセット・オーディオ・ストリーム訓練サンプルを取得し、かつ、前記プリセット・オーディオ・ストリーム訓練サンプルを前記オリジナル・モデル確立ユニットに送る、ように構成され、前記オリジナル・モデル確立ユニットは、前記サンプル取得ユニットから送られた前記プリセット・オーディオ・ストリーム訓練サンプルを受け取り、かつ、前記プリセット・オーディオ・ストリーム訓練サンプルにより前記オリジナル声紋特徴モデルを確立する、ように構成される。

第２の態様に関し、又は第２の態様の第１の可能な実施のやり方に関し、第２の可能な実施のやり方において、前記セグメンテーション及びクラスタリング・ユニットは、具体的には、セグメンテーション・ユニットと、クラスタリング・ユニットと、を備え、前記セグメンテーション・ユニットは、プリセット話者セグメンテーション・アルゴリズムに従って、前記オリジナル・オーディオ・ストリームを複数のオーディオ・クリップに分割する、ように構成され、前記複数のオーディオ・クリップに係る各オーディオ・クリップは、前記少なくとも１人の話者に係る同一話者のオーディオ情報だけを含み、かつ、前記セグメンテーション・ユニットは、前記少なくとも１人の話者に係る同一話者だけを含む前記オーディオ・クリップを前記クラスタリング・ユニットに送る、ように構成され、前記クラスタリング・ユニットは、前記セグメンテーション・ユニットから送られた、前記少なくとも１人の話者に係る同一話者だけを含む前記オーディオ・クリップを受け取り、かつ、プリセット話者クラスタリング・アルゴリズムに従って、前記少なくとも１人の話者に係る同一話者だけを含む前記オーディオ・クリップをクラスタリングする、ように構成され、前記少なくとも１人の話者に係る同一話者の前記オーディオ情報だけを含むオーディオ・ストリームを生成する。

第２の態様に関し、又は第２の態様の第１の可能な実施のやり方に関し、又は第２の態様の第２の可能な実施のやり方に関し、第３の可能な実施のやり方において、前記マッチング・ユニットは、具体的には、合致度取得ユニットと、マッチング済みオーディオ・ストリーム取得ユニットと、を備え、前記合致度取得ユニットは、前記少なくとも１人の話者に係る各話者の前記オーディオ・ストリーム及び前記オリジナル声紋特徴モデルに従って、前記少なくとも１人の話者に係る各話者の前記オーディオ・ストリームと前記オリジナル声紋特徴モデルとの合致度を取得し、かつ、前記合致度を前記マッチング済みオーディオ・ストリーム取得ユニットに送る、ように構成され、前記マッチング済みオーディオ・ストリーム取得ユニットは、前記合致度取得ユニットから送られた、前記少なくとも１人の話者に係る各話者の前記オーディオ・ストリームと前記オリジナル声紋特徴モデルとの前記合致度を受け取り、かつ、前記うまくマッチングしたオーディオ・ストリームとして最も高く、プリセット・マッチング・スレショルドより大きい合致度に対応するオーディオ・ストリームを選択する、ように構成される。

第２の態様に関し、又は第２の態様の第１の可能な実施のやり方に関し、又は第２の態様の第２の可能な実施のやり方に関し、又は第２の態様の第３の可能な実施のやり方に関し、第４の可能な実施のやり方において、前記モデル更新ユニットは、具体的には、補正済みモデル取得ユニットと、モデル更新サブユニットと、を備え、前記補正済みモデル取得ユニットは、前記うまくマッチングしたオーディオ・ストリーム及び前記プリセット・オーディオ・ストリーム訓練サンプルに従って、補正済み声紋特徴モデルを生成し、かつ、前記補正済み声紋特徴モデルを前記モデル更新サブユニットに送る、ように構成され、前記モデル更新サブユニットは、前記補正済みモデル取得ユニットから送られた前記補正済み声紋特徴モデルを受け取り、かつ、前記オリジナル声紋特徴モデルを前記補正済み声紋特徴モデルに更新する、ように構成される。

本発明の諸実施形態において、少なくとも１人の話者を含むオリジナル・オーディオ・ストリームが取得され、オリジナル・オーディオ・ストリームにおける少なくとも１人の話者に係る各話者それぞれのオーディオ・ストリームが、プリセット話者セグメンテーション及びクラスタリング・アルゴリズムにより取得され、少なくとも１人の話者に係る各話者のオーディオ・ストリームが、オリジナル声紋特徴モデルに別々にマッチングされて、うまくマッチングしたオーディオ・ストリームが取得され、うまくマッチングしたオーディオ・ストリームが、オリジナル声紋特徴モデルを生成するために追加のオーディオ・ストリーム訓練サンプルとして使用され、それによってオリジナル声紋特徴モデルが更新される。これにより、声紋特徴モデルが既存の方法を使用することによって取得されるとき、声紋特徴モデルの精度が比較的高い実用性を前提にして改善されることが確保され得ず、その結果、声紋特徴モデルを使用することによって認識精度を改善することができないという問題が解決され、これにより、声紋特徴モデルの精度及び認識精度が改善される。

本発明の実施形態１による、声紋特徴モデルを更新するための方法を実施する流れ図である。本発明の実施形態２による、声紋特徴モデルを更新するための方法を実施する流れ図である。本発明の一実施形態による、オリジナル・オーディオ・ストリームのセグメンテーション及びクラスタリングの概略図である。本発明の実施形態３による端末の構造図である。本発明の実施形態４による端末の構造図である。本発明の実施形態５による端末の構造図である。本発明の実施形態６による端末の構造図である。

本発明のいくつかの目的、いくつかの技術解決策、及びいくつかの利点をより明確にし、より分かりやすくするために、添付の諸図面及び諸実施形態を参照して本発明を以下に詳細にさらに説明する。本明細書に説明する具体的な諸実施形態は、本発明を説明するために単に使用しているに過ぎないものであり、本発明を限定することを意図していないことを理解されたい。

本発明の諸実施形態において、少なくとも１人の話者に係るオリジナル・オーディオ・ストリームが取得され、オリジナル・オーディオ・ストリームにおける少なくとも１人の話者に係る各話者それぞれのオーディオ・ストリームが、プリセット話者セグメンテーション及びクラスタリング・アルゴリズムにより取得され、オリジナル声紋特徴モデルにマッチするオーディオ・ストリームが取得され、マッチしたオーディオ・ストリームは、オリジナル声紋特徴モデルを生成するために追加のオーディオ・ストリーム訓練サンプルとして使用され、それによってオリジナル声紋特徴モデルが更新され、したがって、声紋特徴モデルの精度が改善され、ユーザ体験が高められる。

本発明の具体的な実施を具体的な諸実施形態に関して以下に詳細に説明する。

実施形態１
図１は、本発明の実施形態１による、声紋特徴モデルを更新するための方法を実施するプロセスを示し、以下に詳細を説明する。

ステップＳ１０１：少なくとも１人の話者を含むオリジナル・オーディオ・ストリームを取得する。

オリジナル・オーディオ・ストリームは、携帯端末を使用して電話をする又は音声チャットをするユーザによって生成されたオーディオ・ストリームでよく、又は例えば、音声を記録するやり方で取得したオーディオ・ストリームでよい。具体的には、可能な状況は、携帯端末ユーザが通話接続状態にあるときに、ユーザが声紋学習機能を使用することに同意するかどうか尋ねられ、ユーザが同意すると会話の間に生成されたオーディオ・ストリームが記録される場合、又は通話中に自動的に声紋学習機能を可能にするためのスイッチが、端末に構成されていて、ユーザが必要に応じスイッチを設定する場合、又は声紋学習機能が端末に構成されていて、ユーザがオーディオ・ストリームを記録することができる場合である。通常、複数の人が電話中又はチャット中に順に会話に参加することがあるので、この場合に取得されたオリジナル・オーディオ・ストリームは、複数の人のオーディオ・データを含むことができることに留意されたい。

ステップＳ１０２：プリセット話者セグメンテーション及びクラスタリング・アルゴリズムによりオリジナル・オーディオ・ストリームにおける少なくとも１人の話者に係る各話者それぞれのオーディオ・ストリームを取得する。

具体的には、オリジナル・オーディオ・ストリームが少なくとも１人の話者に係るオーディオ・ストリームを含むので、プリセット話者セグメンテーション・アルゴリズムによりオリジナル・オーディオ・ストリームを複数のオーディオ・クリップに分割することが必要である。その場合、複数のオーディオ・クリップの各オーディオ・クリップは、少なくとも１人の話者に係る同一話者のオーディオ情報だけを含む。次いで、少なくとも１人の話者に係る同一話者だけを含むオーディオ・クリップは、プリセット話者クラスタリング・アルゴリズムによりクラスタリングされて、最後に、少なくとも１人の話者に係る同一話者のオーディオ情報だけを含むオーディオ・ストリームが生成される。

ステップＳ１０３：少なくとも１人の話者に係る各話者それぞれのオーディオ・ストリームとオリジナル声紋特徴モデルとを別々にマッチングして、うまくマッチングしたオーディオ・ストリームを取得する。

オリジナル声紋特徴モデルは、プリセット・オーディオ・ストリーム訓練サンプルにより前もって確立された声紋特徴モデルである。オリジナル声紋特徴モデルは、一人又は複数の人の声紋登録プロセスの後に形成される特徴モデルであり、登録プロセスには、オーディオ・ストリーム訓練サンプルとも呼ばれる訓練コーパスの長さに対する要件がない。この場合、うまくマッチングしたオーディオ・ストリームは、少なくとも１人の話者に係る各話者のオーディオ・ストリームとオリジナル声紋特徴モデルとの合致度により選択することができる。

ステップＳ１０４：オリジナル声紋特徴モデルを生成するためにうまくマッチングしたオーディオ・ストリームを追加のオーディオ・ストリーム訓練サンプルとして使用し、オリジナル声紋特徴モデルを更新する。

具体的には、うまくマッチングしたオーディオ・ストリームを取得した後、うまくマッチングしたオーディオ・ストリーム及びプリセット・オーディオ・ストリーム訓練サンプルを基準として使用する。その場合、プリセット・オーディオ・ストリーム訓練サンプルは、前述のオリジナル声紋特徴モデルを生成するためのサンプルである。次いで、声紋登録アルゴリズム・インターフェースが呼び出され、補正済み声紋特徴モデルが生成され、その場合、補正済み声紋特徴モデルは、より精密な声紋特徴モデルであり、それによって、モデル適応及びインテリジェンスの目的が達成される。

任意選択で、少なくとも１人の話者に係る各話者のオーディオ・ストリームがオリジナル声紋特徴モデルにマッチングすることができない状況において、声紋特徴モデルは、ユーザのプリセッティングにより新たに確立し、記録することができる。例えば、初めて使用される端末の場合、オリジナル声紋特徴モデルがゼロであり、マッチングに使用されるオーディオ・ストリームが何もない。この場合、話者のオーディオ・ストリームは、ユーザのセッティングにより認識され、声紋登録アルゴリズム・インターフェースが声紋特徴モデルを新たに確立するために呼び出され、オリジナル声紋特徴モデルが新たに確立した声紋特徴モデルに更新される。

本発明のこの実施形態において、少なくとも１人の話者に係るオリジナル・オーディオ・ストリームが取得され、オリジナル・オーディオ・ストリームにおける少なくとも１人の話者に係る各話者それぞれのオーディオ・ストリームがプリセット話者セグメンテーション及びクラスタリング・アルゴリズムにより取得され、オリジナル声紋特徴モデルにマッチするオーディオ・ストリームが取得され、マッチしたオーディオ・ストリームがオリジナル声紋特徴モデルを生成するために追加のオーディオ・ストリーム訓練サンプルとして使用され、オリジナル声紋特徴モデルが更新され、それによって、声紋特徴モデルを継続的に補正し更新し、声紋特徴モデルの精度を継続的に改善し、ユーザ体験を高めるなどの目的が達成される。

実施形態２
図２は、本発明の実施形態２による、声紋特徴モデルを更新するための方法を実施するプロセスを示し、以下に詳細を説明する。

ステップＳ２０１：プリセット・オーディオ・ストリーム訓練サンプルによりオリジナル声紋特徴モデルを確立する。

オリジナル声紋特徴モデルは、声紋登録アルゴリズム・インターフェースを呼び出すことによってプリセット・オーディオ・ストリーム訓練サンプルにより確立された声紋特徴モデルである。オリジナル声紋特徴モデルは、一人又は複数の人の声紋登録プロセスの後に形成される特徴モデルであり、登録プロセスには、オーディオ・ストリーム訓練サンプルとも呼ばれる訓練コーパスの長さに対する要件がない。さらに、本発明のこの実施形態によって提供される方法が、補正済みモデルの継続的及び動的補正を実施することができるので、オリジナル声紋特徴モデルは、既存の方法を使用して取得されるモデルでよく、本発明のこの実施形態によって提供される方法を使用して補正されるモデルでもよい。

ステップＳ２０２：少なくとも１人の話者を含むオリジナル・オーディオ・ストリームを取得する。

具体的な実施プロセスにおいて、オリジナル・オーディオ・ストリームは、携帯端末を使用して電話をする又は音声チャットをするユーザによって生成されたオーディオ・ストリームでよく、又は音声を記録するやり方で取得したオーディオ・ストリームでよい。具体的には、可能な状況では、携帯端末ユーザが通話接続状態にあるとき、ユーザが声紋学習機能を使用することに同意するかどうか尋ねられ、ユーザが同意した後に、会話の間に生成されたオーディオ・ストリームが記録される場合、又は通話中に自動的に声紋学習機能を可能にするためのスイッチが、端末に構成されていて、ユーザが必要に応じスイッチを設定する場合、又は声紋学習機能が端末に構成されていて、ユーザがオーディオ・ストリームを記録することができる場合である。通常、複数の人が電話中又はチャット中に順に会話に参加することができるので、この場合に取得されたオリジナル・オーディオ・ストリームは、複数の人のオーディオ・データを含むことができることに留意されたい。

さらに、大きく変動する発話速度、抑揚、及び感情の変化は、一般に、ユーザが話しているプロセス中又は複数の人の会話などのプロセス中に起きることがあり、通話中のコーパスは、継続的に収集して、声紋特徴モデルの精度のためにユーザの抑揚、発話速度、及び感情の要因によって生じるずれを除去し、それによって、声紋特徴モデルの精度への抑揚、発話速度、及び感情の要因の影響を大幅に低減し、声紋認識精度へのインパクトも減少させることができる。

ステップＳ２０３：プリセット話者セグメンテーション・アルゴリズムによりオリジナル・オーディオ・ストリームを複数のオーディオ・クリップに分割し、その場合、複数のオーディオ・クリップの各オーディオ・クリップは、少なくとも１人の話者に係る同一話者のオーディオ情報だけを含む。

ステップＳ２０４：プリセット話者クラスタリング・アルゴリズムにより、少なくとも１人の話者に係る同一話者だけを含むオーディオ・クリップをクラスタリングして、少なくとも１人の話者に係る同一話者のオーディオ情報だけを含むオーディオ・ストリームを生成する。

具体的には、一例として複数の人の会話を使用し、会話に参加する人がユーザＡ、ユーザＢ、及びユーザＣとすることができるとする。ユーザが音声を記録することに同意すると、記録モジュールを有効にすることができ、通話が終了した後又は記録時間が切れた後に、通話中のオリジナル・オーディオ・ストリームが記録される。オリジナル・オーディオ・ストリームは、プリセット話者セグメンテーション・アルゴリズムにより複数のオーディオ・クリップに分割することでき、その場合、各オーディオ・クリップは、１人の話者のオーディオ情報だけを含む。図３に示すように、オリジナル・オーディオ・ストリームが分割された後、取得したオーディオ・クリップは、オーディオ・クリップＡ、オーディオ・クリップＢ、オーディオ・クリップＡ、オーディオ・クリップＣ、オーディオ・クリップＡ、オーディオ・クリップＣであり、オーディオ・クリップＡ、オーディオ・クリップＢ、及びオーディオ・クリップＣは、それぞれユーザＡ、Ｂ、及びＣの異なるクリップであり、発話時間シーケンスにより取得される。次いで、同じ話者のオーディオ・クリップがプリセット話者クラスタリング・アルゴリズムを使用することによってクラスタリングされて、オーディオ・ストリームＡのファイル、オーディオ・ストリームＢのファイル、及びオーディオ・ストリームＣのファイルを生成する。例えば、オーディオ・ストリームＡは、ユーザＡのすべてのオーディオ・クリップを含む。したがって、異なる人のオーディオ・ストリームは区別することができ、同じ人の有効なオーディオ・ストリームを抽出することができる。話者セグメンテーション・アルゴリズム及びクラスタリング・アルゴリズムは、それぞれ任意の１つの既存の話者セグメンテーション・アルゴリズム及びクラスタリング・アルゴリズムであってよく、本明細書では限定されない。

ステップＳ２０５：少なくとも１人の話者に係る各話者それぞれのオーディオ・ストリームとオリジナル声紋特徴モデルとを別々にマッチングして、うまくマッチングしたオーディオ・ストリームを取得する。

ステップＳ２０５は、具体的には、少なくとも１人の話者に係る各話者のオーディオ・ストリーム及びオリジナル声紋特徴モデルにより少なくとも１人の話者に係る各話者のオーディオ・ストリームとオリジナル声紋特徴モデルとの合致度を取得するステップと、うまくマッチングしたオーディオ・ストリームとして最も高く、プリセット・マッチング・スレショルドより大きい合致度に対応するオーディオ・ストリームを選択するステップとを含む。

具体的には、声紋検証アルゴリズム・インターフェースが呼び出されて、オーディオ・ストリームＡ、オーディオ・ストリームＢ、及びオーディオ・ストリームＣと、オリジナル声紋特徴モデルとの合致度Ａ、合致度Ｂ、及び合致度Ｃを別々に取得する。合致度の計算のやり方は、オリジナル声紋特徴モデルの入力値として、それぞれオーディオ・ストリームＡ、オーディオ・ストリームＢ、及びオーディオ・ストリームＣを使用するステップと、オリジナル声紋特徴モデルに対応する、オーディオ・ストリームＡ、オーディオ・ストリームＢ、及びオーディオ・ストリームＣのそれぞれ合致度Ａ、合致度Ｂ、及び合致度Ｃを取得するステップとでよく、その場合、合致度Ａ、合致度Ｂ、及び合致度Ｃは、それぞれ対応する確率Ａ、確立Ｂ、及び確立Ｃとも呼ばれる。例えば、合致度Ａは、オーディオ・ストリームＡとオリジナル声紋特徴モデルとの関連性を示す。オリジナル声紋特徴モデルがユーザＡのオーディオ・ストリーム訓練サンプルに基づいて確立され、合致度Ａが通常の状態の下でマッチング・スレショルドより大きく、合致度Ｂ及び合致度Ｃが通常の状態の下でマッチング・スレショルドより小さく、その場合、プリセット・スレショルドが、実際のテスト結果により取得することができ、プリセットすることができ、又はユーザ定義することができるとする。したがって、この場合、プリセット・スレショルドより大きい合致度に対応するオーディオ・ストリームが取得され、すなわち、オーディオ・ストリームＡがうまくマッチングしたオーディオ・ストリームである。特別な場合、Ａ及びＢの音声が、非常に似ているとき、マッチング・スレショルドより大きい１つを超えるオーディオ・ストリームがあってよく、最も高い合致値を有するオーディオ・ストリームをうまくマッチングしたオーディオ・ストリームとして選択することができる。

さらに、オリジナル声紋特徴モデルが、複数の人の声紋登録プロセスが、例えば、ユーザＢ及びＣのオーディオ・ストリーム訓練サンプルに対して確立された後に形成される特徴モデルであるとき、マッチング後に取得されたオーディオ・ストリームがオーディオ・ストリームＢとオーディオ・ストリームＣの両方を含み、それによって、複数人モードで声紋特徴モデルのマッチングを実施する可能性が高い。この場合、前述のいくつかのステップは、複数の人の各人に対して別々に実行される。

ステップＳ２０６：オリジナル声紋特徴モデルを生成するためにうまくマッチングしたオーディオ・ストリームを追加のオーディオ・ストリーム訓練サンプルとして使用し、オリジナル声紋特徴モデルを更新する。

ステップＳ２０６は具体的には、うまくマッチングしたオーディオ・ストリーム及びプリセット・オーディオ・ストリーム訓練サンプルにより補正済み声紋特徴モデルを生成するステップであって、その場合、プリセット・オーディオ・ストリーム訓練サンプルは、オリジナル声紋特徴モデルを生成するためのオーディオ・ストリームであるステップと、オリジナル声紋特徴モデルを補正済み声紋特徴モデルに更新するステップとを含む。

具体的には、うまくマッチングしたオーディオ・ストリームは、追加のオーディオ・ストリーム訓練サンプルとして使用される。すなわち、声紋登録アルゴリズム・インターフェースが、うまくマッチングしたオーディオ・ストリーム及びプリセット・オーディオ・ストリーム訓練サンプルにより補正済み声紋特徴モデルを生成するために呼び出され、その場合、補正済み声紋特徴モデルは、より精密な声紋特徴モデルであり、それによって、モデル適応及びインテリジェンスの目的を達成する。

さらに、更新済み声紋特徴モデルは、オリジナル声紋特徴モデルとしても使用することができ、前述のいくつかのステップが声紋特徴モデルを継続的に補正し更新するために繰り返され、声紋特徴モデルの精度を継続的に改善する。

本発明のこの実施形態において、音声電話のオリジナル・オーディオ・ストリームは、声紋訓練コーパスとして自動的に使用され、収集されたオリジナル・オーディオ・ストリームは、ユーザ体験が影響されない、又はユーザ操作が減少する状況において話者セグメンテーション及びクラスタリング・アルゴリズムを使用して処理され、それによって、声紋訓練コーパスの純粋さが確保され、追加のマッチングしたオーディオ・ストリームが訓練コーパスを長くするために使用され、それによってオリジナル声紋特徴モデルを動的補正する。これにより、声紋特徴モデルが動的補正され更新され、声紋特徴モデルの精度が改善される。したがって、認識率をさらに改善することができ、ユーザ体験も声紋特徴モデルを使用することによる音声認識などのプロセスにおいて高まる。

前述の実施形態における方法のいくつかのステップの全部又は一部が関連ハードウェアに命令するプログラムによって実施することができることが当業者には理解され得る。プログラムは、コンピュータ可読記憶媒体に格納することができ、その場合、記憶媒体は、例えば、ＲＯＭ／ＲＡＭ、磁気ディスク、又は光学ディスクである。

実施形態３
図４は、本発明の実施形態３による端末の構造を示す。本発明の実施形態３において提供される端末は、本発明の実施形態１及び実施形態２のいくつかの方法を実施するように構成することができる。説明を容易にするために、本発明の実施形態に関連する部分だけを示す。開示していない具体的な技術的詳細については、本発明の実施形態１及び実施形態２を参照することができる。

端末は、携帯電話、タブレット型コンピュータ、ＰＤＡ（ｐｅｒｓｏｎａｌｄｉｇｉｔａｌａｓｓｉｓｔａｎｔ：携帯情報端末）、ＰＯＳ（ｐｏｉｎｔｏｆｓａｌｅｓ：販売時点情報管理）、又は車載コンピュータなどの端末デバイスでよい。端末が携帯電話であることが、一例として使用される。図４は、本発明のこの実施形態によって提供される端末に関連する携帯電話４００の構造の一部の構成図である。図４を参照すると、携帯電話４００は、ＲＦ（ｒａｄｉｏｆｒｅｑｕｅｎｃｙ：無線周波数）回路４１０、メモリ４２０、入力ユニット４３０、ディスプレイ・ユニット４４０、センサ４５０、オーディオ回路４６０、ＷｉＦｉ（ｗｉｒｅｌｅｓｓｆｉｄｅｌｉｔｙ：ワイヤレス・フィディリティ）モジュール４７０、プロセッサ４８０、電源４９０などの部分を含む。図４に示す携帯電話の構造は、携帯電話に対する制限を構成しないし、携帯電話が図に示すより多い若しくは少ない部分を含む、又は一部の部分を組み合わせる、又はそれらの部分の異なる配列を有し得ることが当業者には理解され得る。

図４を参照し携帯電話４００のいくつかの部分を以下に詳細に説明する。

ＲＦ回路４１０は、情報を受信若しくは送信するように、又は通話中に信号を受信若しくは送信するように、及び、特には、処理のために基地局のダウンリンク情報を受信し、プロセッサ４８０にその情報を送るように構成することができる。さらに、ＲＦ回路４１０は、アップリンクデータを基地局に送信する。一般に、ＲＦ回路は、限定はされないが、少なくとも１つの増幅器、トランシーバ、結合器、ＬＮＡ（ｌｏｗｎｏｉｓｅａｍｐｌｉｆｉｅｒ：低雑音増幅器）、送受切換器などを含む。さらに、ＲＦ回路４１０は、無線通信及びネットワークを使用することにより他のデバイスとも通信することもできる。無線通信は、任意の１つの通信規格又はプロトコルを使用することができ、限定はされないが、ＧＳＭ（登録商標）（ｇｌｏｂａｌｓｙｓｔｅｍｏｆｍｏｂｉｌｅｃｏｍｍｕｎｉｃａｔｉｏｎ：移動通信の全地球システム）、ＧＰＲＳ（ｇｅｎｅｒａｌｐａｃｋｅｔｒａｄｉｏｓｅｒｖｉｃｅ：汎用パケット無線サービス）、ＣＤＭＡ（ｃｏｄｅｄｉｖｉｓｉｏｎｍｕｌｔｉｐｌｅａｃｃｅｓｓ：符号分割多元接続）、ＷＣＤＭＡ（登録商標）（ｗｉｄｅｂａｎｄｃｏｄｅｄｉｖｉｓｉｏｎｍｕｌｔｉｐｌｅａｃｃｅｓｓ：広帯域符号分割多元接続）、ＬＴＥ（ｌｏｎｇｔｅｒｍｅｖｏｌｕｔｉｏｎ：ロング・ターム・エボリューション）、電子メール、ＳＭＳ（ｓｈｏｒｔｍｅｓｓａｇｉｎｇｓｅｒｖｉｃｅ：ショート・メッセージ・サービス）などを含む。

メモリ４２０は、ソフトウェア・プログラム及びモジュールを格納するように構成することができる。プロセッサ４８０は、メモリ４２０に格納されたソフトウェア・プログラム及びモジュールを起動して、携帯電話４００のすべての種類の機能アプリケーションを実行し、データを処理する。メモリ４２０は、主に、プログラム記憶領域とデータ記憶領域とを含むことができ、その場合、プログラム記憶領域は、オペレーティング・システム、機能に必要とされる少なくとも１つのアプリケーション・プログラム（例えば、音声再生機能及び画像再生機能）などを格納することができ、データ記憶領域は、携帯電話４００の使用により作成されたデータ（例えば、オーディオ・データ及び電話帳）などを格納することができる。さらに、メモリ４２０は、高速ランダム・アクセス・メモリを含むことができ、不揮発性メモリ、例えば、少なくとも１つの磁気ディスク・メモリ、フラッシュメモリ、又は他の揮発性固体メモリも含むことができる。

入力ユニット４３０は、入力されたデジタル又は文字情報を受け取り、携帯電話４００のユーザ設定及び機能制御に関連するキー信号入力を生成するように構成することができる。具体的には、入力ユニット４３０は、タッチ制御パネル４３１と別の入力デバイス４３２とを含むことができる。タッチスクリーンとも呼ばれるタッチ制御パネル４３１は、パネル上の又はパネル近くのユーザのタッチ操作（例えば、指やタッチペンなど任意の適切な物体又は付属品を使用することによるタッチ制御パネル４３１上の又はタッチ制御パネル４３１近くのユーザによって実施される操作）を収集し、プリセット・プログラムにより対応する接続装置を駆動することができる。任意選択で、タッチ制御パネル４３１は、２つの部分、すなわち、タッチ検知装置とタッチ制御器とを含むことができる。タッチ検知装置は、ユーザのタッチ位置を検知し、タッチ操作によってもたらされた信号を検知し、その信号をタッチ制御器に転送する。タッチ制御器は、タッチ情報をタッチ検知装置から受け取り、その情報をタッチ位置の座標に変換し、プロセッサ４８０に座標を送り、プロセッサ４８０から送られた命令を受け取り起動することができる。さらに、タッチ制御パネル４３１は、抵抗性、容量性、赤外線、表面弾性波など、複数の形態で実施することができる。タッチ制御パネル４３１に加えて、入力ユニット４３０は、別の入力デバイス４３２を含むこともできる。具体的には、別の入力デバイス４３２は、限定はされないが、１つ又は複数の種類の以下のものを含むことができる。すなわち、物理的キーボード、機能キー（音量制御キー又はオン／オフボタンなど）、トラックボール、マウス、及びジョイスティックである。

ディスプレイ・ユニット４４０は、ユーザによって入力された情報又はユーザに提供された情報及び携帯電話４００のメニューを表示するように構成することができる。ディスプレイ・ユニット４４０は、ディスプレイ・パネル４４１を含むことができる。任意選択で、ディスプレイ・パネル４４１は、ＬＣＤ（ｌｉｑｕｉｄｃｒｙｓｔａｌｄｉｓｐｌａｙ：液晶ディスプレイ）及びＯＬＥＤ（ｏｒｇａｎｉｃｌｉｇｈｔ−ｅｍｉｔｔｉｎｇｄｉｏｄｅ：有機発光ダイオード）などの形態で構成することができる。さらに、タッチ制御パネル４３１は、ディスプレイ・パネル４４１を覆うことができる。タッチ制御パネル４３１上の又はタッチ制御パネル４３１近くのタッチ操作を検知した後、タッチ制御パネル４３１は、タッチ事象の種類を決定するためにその操作をプロセッサ４８０に転送する。次いで、プロセッサ４８０は、タッチ事象の種類によりディスプレイ・パネル４４１上に対応する視覚出力を提供する。図４におけるタッチ制御パネル４３１及びディスプレイ・パネル４４１は、携帯電話４００の入力及び出力機能を実施する２つの独立した部分であるが、タッチ制御パネル４３１及びディスプレイ・パネル４４１は、一部の実施形態において、携帯電話４００の入力及び出力機能を実施するために統合することができる。

携帯電話４００は、少なくとも１つの種類のセンサ４５０、例えば、光センサ、動きセンサ及び他のセンサも含むことができる。具体的には、光センサは、周囲光センサと近接センサとを含むことができ、その場合、周囲光センサは、周囲光の強度によりディスプレイ・パネル４４１の輝度を調整することができ、近接センサは、携帯電話４００が耳に移動するとき、ディスプレイ・パネル４４１及び／又はバックライトを消灯することができる。１つの種類の動きセンサとして、加速度計センサがすべての方向（一般に三軸）への加速度を検知することができ、加速度計センサが静止しているとき重力のサイズと方向とを検知することができ、携帯電話の姿勢アプリケーション（例えば、縦方向と横方向との切換え、関連するゲーム、及び磁力計姿勢較正）及び振動認識関連機能（歩数計及びノッキング）などを認識するように構成することができる。携帯電話４００に構成することができる、ジャイロスコープ、気圧計、湿度計、温度計、及び赤外線センサなどの他のセンサに関して、詳細は本明細書に再度説明しない。

オーディオ回路４６０、スピーカ４６１、及びマイクロホン４６２は、ユーザと携帯電話４００とのオーディオ・インターフェースを提供することができる。オーディオ回路４６０は、受け取ったオーディオ・データから変換された電気信号をスピーカ４６１に送信することができ、スピーカ４６１は、電気信号を出力される音声信号に変換する。さらに、マイクロホン４６２は、収集された音声信号を電気信号に変換し、オーディオ回路４６０は、電気信号を受け取り、電気信号をオーディオ・データに変換し、オーディオ・データをプロセッサ４８０に処理のために出力し、処理されたオーディオ・データを、例えば、ＲＦ回路４１０を使用して別の携帯電話に送信し、又はオーディオ・データをさらに処理するためにメモリ４２０に出力する。

ＷｉＦｉは、短距離の無線送信技術に属する。携帯電話４００は、ユーザがＷｉＦｉモジュール４７０を使用して電子メールを受信し、送信し、ウェブ・ページをブラウズし、ストリーミング・メディアにアクセスするのを手助けすることができる。ＷｉＦｉモジュール４７０は、ユーザに無線広帯域インターネット・アクセスを提供する。ＷｉＦｉモジュール４７０を図４に示すが、ＷｉＦｉモジュール４７０が携帯電話４００にとって不可欠ではなく、もちろん、本発明の本質を変更しない範囲内で必要に応じ省略できることが理解され得る。

プロセッサ４８０は、携帯電話４００のコントロール・センターであり、すべての種類のインターフェース及び回路を使用して携帯電話全体のすべての部分を接続し、メモリ４２０に格納されたソフトウェア・プログラム及び／又はモジュールを起動又は実行すること及びメモリ４２０に格納されたデータを呼び出すことによって携帯電話４００のいくつかの機能を実行し、データを処理し、それによって、携帯電話を全体として監視する。任意選択で、プロセッサ４８０は、１つ又は複数の処理ユニットを含むことができる。好ましくは、プロセッサ４８０は、アプリケーション・プロセッサ及びモデム・プロセッサと統合することができ、その場合、アプリケーション・プロセッサは、主にオペレーティング・システム、ユーザ・インターフェース、アプリケーション・プログラムなどを処理し、モデム・プロセッサは、主に無線通信を処理する。前述のモデム・プロセッサは、プロセッサ４８０中に統合できないことが理解され得る。

携帯電話４００は、電力をすべての部分に供給する電源４９０（電池など）をさらに含む。好ましくは、電源は、電源管理システムを使用することによってプロセッサ４８０に論理的に接続することができ、したがって、充電、放電、及び電力消費管理の機能は、電源管理システムを使用することによって実施される。

図示していないが、携帯電話４００は、カメラ、ブルートゥース・モジュールなども含むこともできるが、詳細は本明細書に再度説明しない。

本発明のこの実施形態において、端末に含まれるマイクロホン４６２、メモリ４２０、及びプロセッサ４８０は、さらに以下の機能を有する。

マイクロホン４６２は、オーディオ回路４６０を使用することにより、少なくとも１つの話者を含むオリジナル・オーディオ・ストリームを取得し、オリジナル・オーディオ・ストリームをメモリ４２０に送るようにさらに構成される。

本発明のこの実施形態において、オリジナル・オーディオ・ストリームは、携帯電話端末を使用してユーザが電話をする若しくは音声チャットをすることによって生成されたオーディオ・ストリームでよく、又は例えば音声を記録するやり方でマイクロホン４６２によって取得されたオーディオ・ストリームでよい。具体的には、可能な状況は、携帯電話端末が通話接続状態にあるとき、ユーザは声紋学習機能を使用することに同意するかどうか尋ねられ、ユーザが同意した場合、会話の間に生成されたオーディオ・ストリームが記録される、又は通話中に自動的に声紋学習機能を可能にするためのスイッチが、端末に構成されていて、ユーザが必要に応じスイッチを設定する、又は声紋学習機能が携帯電話端末に構成されていて、ユーザがオーディオ・ストリームを記録することができる。通常、複数の人が電話中又はチャット中に順に会話に参加することができるので、この場合に取得されたオリジナル・オーディオ・ストリームは、複数の人のオーディオ・データを含むことができることに留意されたい。

プロセッサ４８０は、メモリに格納されたオリジナル・オーディオ・ストリームを呼び出し、メモリ４２０のプリセット話者セグメンテーション及びクラスタリング・アルゴリズムを呼び出し、オリジナル・オーディオ・ストリームにおける少なくとも１人の話者に係る各話者それぞれのオーディオ・ストリームを取得し、少なくとも１人の話者に係る各話者それぞれのオーディオ・ストリームとオリジナル声紋特徴モデルとを別々にマッチングして、うまくマッチングしたオーディオ・ストリームを取得し、オリジナル声紋特徴モデルを生成するためにうまくマッチングしたオーディオ・ストリームを追加のオーディオ・ストリーム訓練サンプルとして使用し、オリジナル声紋特徴モデルを更新するようにさらに構成される。

本発明のこの実施形態において、オリジナル・オーディオ・ストリームが少なくとも１人の話者に係るオーディオ・ストリームを含むので、プロセッサ４８０は、メモリ４２０のプリセット話者セグメンテーション・アルゴリズムを呼び出し、オリジナル・オーディオ・ストリームを複数のオーディオ・クリップに分割する必要があり、その場合、複数のオーディオ・クリップの各オーディオ・クリップは、少なくとも１人の話者に係る同一話者のオーディオ情報だけを含む。次いで、プロセッサ４８０は、プリセット話者クラスタリング・アルゴリズムにより、少なくとも１人の話者に係る同一話者だけを含むオーディオ・クリップをクラスタリングして、最後に少なくとも１人の話者に係る同一話者のオーディオ情報だけを含むオーディオ・ストリームを生成する。さらに、プロセッサ４８０は、各人のそれぞれのオーディオ・ストリーム及びオリジナル声紋特徴モデルを参照して、少なくとも１人の話者に係る各話者それぞれのオーディオ・ストリームとオリジナル声紋特徴モデルとを別々にマッチングすることによって取得した合致度を獲得することができ、うまくマッチングしたオーディオ・ストリームとしてプリセット・マッチング・スレショルドより大きく、最も高い合致度を有するオーディオ・ストリームを使用することができ、それによって、オリジナル声紋特徴モデルを生成するためにうまくマッチングしたオーディオ・ストリームを追加のオーディオ・ストリーム訓練サンプルとして使用し、声紋登録アルゴリズム・インターフェースを呼び出し、オリジナル声紋特徴モデルを更新し、それによって、より精密な声紋特徴モデルを取得することができる。

本発明のこの実施形態は、マイクロホン４６２、メモリ４２０、プロセッサ４８０などを含む端末を提供する。マイクロホン４６２は、少なくとも１人の話者に係るオリジナル・オーディオ・ストリームを取得し、オーディオ回路４６０を介してメモリ４２０にオリジナル・オーディオ・ストリームを送る。プロセッサ４８０は、オーディオ回路４６０を介してマイクロホン４６２から送られたオリジナル・オーディオ・ストリームを受け取り、メモリ４２０のプリセット話者セグメンテーション及びクラスタリング・アルゴリズムを呼び出し、オリジナル・オーディオ・ストリームにおける少なくとも１人の話者に係る各話者それぞれのオーディオ・ストリームを取得し、オリジナル声紋特徴モデルにマッチするオーディオ・ストリームを取得し、オリジナル声紋特徴モデルを生成するためにマッチしたオーディオ・ストリームを追加のオーディオ・ストリーム訓練サンプルとして使用し、オリジナル声紋特徴モデルを更新する。これにより、比較的高い実用性を前提とした声紋特徴モデルの動的補正及び更新が確保され、声紋特徴モデルの精度が改善される。

実施形態４
図５は、本発明の実施形態４による端末の構造を示す。説明を容易にするために、本発明のこの実施形態に関連する部分だけを示す。本発明の実施形態４において提供される端末は、本発明の実施形態１及び実施形態２のいくつかの方法を実施するように構成することができる。説明を容易にするために、本発明の実施形態に関連する部分だけを示す。開示していない具体的な技術的詳細については、本発明の実施形態１及び実施形態２を参照することができる。

具体的には、図５は、本発明のこの実施形態によって提供される端末に関連した携帯電話５００の構造の一部の構成図を示す。図４に示す構造に基づいて、本発明のこの実施形態ではマイクロホン５１及びプロセッサ５２が使用されて、それぞれ図４に示すマイクロホン４６２及びプロセッサ４８０に置き換わる。

実施形態３におけるマイクロホン４６２に含まれるいくつかの機能に加えて、マイクロホン５１は、オーディオ回路４６０を使用することにより、プリセット・オーディオ・ストリーム訓練サンプルを取得し、オーディオ・ストリーム訓練サンプルをメモリ４２０に送り、したがって、プロセッサ５２がメモリのプリセット声紋登録アルゴリズム・インターフェースを呼び出し、プリセット・オーディオ・ストリーム訓練サンプルによりオリジナル声紋特徴モデルを確立するようにさらに構成される。

本発明のこの実施形態において、オリジナル声紋特徴モデルは、声紋登録アルゴリズム・インターフェースを呼び出すことによってプリセット・オーディオ・ストリーム訓練サンプルにより確立される声紋特徴モデルである。オリジナル声紋特徴モデルは、一人又は複数の人の声紋登録プロセスの後に形成される特徴モデルであり、登録プロセスには、オーディオ・ストリーム訓練サンプルとも呼ばれる訓練コーパスの長さに対する要件がない。さらに、本発明の一実施形態によって提供される方法が、補正済みモデルの継続的及び動的補正を実施することができるので、オリジナル声紋特徴モデルは、既存の方法を使用して取得されるモデルでよく、本発明の実施形態によって提供される方法を使用して補正されるモデルでもよい。

この場合、プロセッサ５２は、少なくとも１人の話者が話しているときマイクロホン５１によって受け取られるオリジナル・オーディオ・ストリームにより、メモリ４２０のプリセット話者セグメンテーション・アルゴリズムを呼び出すことによってオリジナル・オーディオ・ストリームを複数のオーディオ・クリップに分割するようにさらに構成され、その場合、複数のオーディオ・クリップの各オーディオ・クリップは、少なくとも１人の話者に係る同一話者のオーディオ情報だけを含み、次いで、プロセッサ５２は、メモリ４２０のプリセット話者クラスタリング・アルゴリズムを呼び出すことによって少なくとも１人の話者に係る同一話者だけを含むオーディオ・クリップをクラスタリングして、少なくとも１人の話者に係る同一話者のオーディオ情報だけを含むオーディオ・ストリームを生成するようにさらに構成される。

さらに、プロセッサ５２は、少なくとも１人の話者に係る各話者のオーディオ・ストリーム及びオリジナル声紋特徴モデルにより少なくとも１人の話者に係る各話者のオーディオ・ストリームとオリジナル声紋特徴モデルとの合致度を取得し、うまくマッチングしたオーディオ・ストリームとして最も高く、プリセット・マッチング・スレショルドより大きい合致度に対応するオーディオ・ストリームを選択し、うまくマッチングしたオーディオ・ストリーム及びプリセット・オーディオ・ストリーム訓練サンプルにより補正済み声紋特徴モデルを生成し、オリジナル声紋特徴モデルを補正済み声紋特徴モデルに更新するようにさらに構成される。

本発明のこの実施形態において、マイクロホン５１は、プリセット・オーディオ・ストリーム訓練サンプルを取得することができ、その場合、プリセット・オーディオ・ストリーム訓練サンプルは、オリジナル声紋特徴モデルを確立するのに必要なオリジナル・オーディオ・ストリームである。マイクロホン５１は、少なくとも１人の話者に係るオリジナル・オーディオ・ストリームも取得することができる。プロセッサ５２は、メモリ４２０のプリセット声紋登録アルゴリズム・インターフェース、話者セグメンテーション・アルゴリズム、及びプリセット話者クラスタリング・アルゴリズムを続けて呼び出して、少なくとも１人の話者に係る同一話者のオーディオ情報だけを含むオーディオ・ストリームを生成することができ、最後に、うまくマッチングしたオーディオ・ストリームを取得し、うまくマッチングしたオーディオ・ストリーム及びプリセット・オーディオ・ストリーム訓練サンプルを参照して補正済み声紋特徴モデルを生成し、オリジナル声紋特徴モデルを補正済み声紋特徴モデルに更新することができる。したがって、補正済み声紋特徴モデルは、オリジナル声紋特徴モデルに比較してオーディオ・ストリーム認識精度を大幅に改善するのに使用され、ユーザ体験がさらに改善される。

実施形態５
図６は、本発明の実施形態５による端末の構造を示す。説明を容易にするために、本発明のこの実施形態に関連する部分だけを示す。本発明の実施形態５において提供される端末は、本発明の実施形態１及び実施形態２のいくつかの方法を実施するように構成することができる。説明を容易にするために、本発明のこの実施形態に関連する部分だけを示す。開示していない具体的な技術的詳細については、本発明の実施形態１及び実施形態２を参照することができる。

端末は、オリジナル・オーディオ・ストリーム取得ユニット６１と、セグメンテーション及びクラスタリング・ユニット６２と、マッチング・ユニット６３と、モデル更新ユニット６４とを含む。オリジナル・オーディオ・ストリーム取得ユニット６１は、実施形態３におけるマイクロホン４１に含まれるいくつかの機能と１対１対応にあり、セグメンテーション及びクラスタリング・ユニット６２、マッチング・ユニット６３及びモデル更新ユニット６４は、実施形態３におけるプロセッサ４２に含まれるいくつかの機能と１対１対応にあり、その場合、オリジナル・オーディオ・ストリーム取得ユニット６１は、少なくとも１人の話者を含むオリジナル・オーディオ・ストリームを取得し、オリジナル・オーディオ・ストリームをセグメンテーション及びクラスタリング・ユニット６２に送るように構成され、セグメンテーション及びクラスタリング・ユニット６２は、オリジナル・オーディオ・ストリーム取得ユニット６１から送られたオリジナル・オーディオ・ストリームを受け取り、プリセット話者セグメンテーション及びクラスタリング・アルゴリズムによりオリジナル・オーディオ・ストリームにおける少なくとも１人の話者に係る各話者それぞれのオーディオ・ストリームを取得し、少なくとも１人の話者に係る各話者それぞれのオーディオ・ストリームをマッチング・ユニット６３に送るように構成され、マッチング・ユニット６３は、セグメンテーション及びクラスタリング・ユニット６２から送られた少なくとも１人の話者に係る各話者それぞれのオーディオ・ストリームを受け取り、少なくとも１人の話者に係る各話者それぞれのオーディオ・ストリームとオリジナル声紋特徴モデルとを別々にマッチングして、うまくマッチングしたオーディオ・ストリームを取得し、うまくマッチングしたオーディオ・ストリームをモデル更新ユニット６４に送るように構成され、モデル更新ユニット６４は、マッチング・ユニット６３から送られたうまくマッチングしたオーディオ・ストリームを受け取り、オリジナル声紋特徴モデルを生成するためにうまくマッチングしたオーディオ・ストリームを追加のオーディオ・ストリーム訓練サンプルとして使用し、オリジナル声紋特徴モデルを更新するように構成される。

本発明のこの実施形態において、通話聴取状態を入力した後、オリジナル・オーディオ・ストリーム取得ユニット６１は、聴取によってオーディオ・ストリームを取得することができ、その場合、ボイス・レコーダ又は音声チャット・ソフトウェアを使用してオーディオ・ストリームを生成することができる。

本発明のこの実施形態において、セグメンテーション及びクラスタリング・ユニット６２は、オリジナル・オーディオ・ストリームをいくつかのオーディオ・クリップに分割することができ、その場合、各オーディオ・クリップは、１人の話者のオーディオ情報だけを含み、セグメンテーション及びクラスタリング・ユニット６２は、同じ話者のオーディオ・クリップを再度クラスタリングして、各人のオーディオ・ストリームを生成し、最後に、オリジナル・オーディオ・ストリームを異なる話者を表すオーディオ・ストリームに分割し、すなわち、すべての話者における同じ話者のオーディオ情報のオーディオ・ストリームを生成することができる。マッチング・ユニット６３は、すべてのオーディオ・ストリームを精査し、オリジナル声紋特徴モデルを参照して各オーディオ・ストリームとオリジナル声紋特徴モデルとの合致度を取得する。具体的には、マッチング・ユニット６３は、各オーディオ・ストリームをオリジナル声紋特徴モデルの入力値として別々に使用して、各オーディオ・ストリームに対応する合致度とも呼ばれる確率を取得し、オリジナル声紋特徴モデルにマッチする１つ又は複数のオーディオ・ストリームを取得する。実際の動作プロセスにおいて、最も高く、プリセット・マッチング・スレショルドより大きい合致度に対応するオーディオ・ストリームは、うまくマッチングしたオーディオ・ストリームとして選択されて、取得したオーディオ・ストリームがオリジナル声紋特徴モデルに大いに関連し、したがって、声紋訓練コーパスとして使用されるオーディオ・ストリームが純粋であることが確保され得る。モデル更新ユニット６４は、オリジナル声紋特徴モデルを生成するためにうまくマッチングしたオーディオ・ストリームを追加のオーディオ・ストリーム訓練サンプルとして使用し、次いで声紋登録を実施し、補正済み声紋特徴モデルとも呼ばれる新たな声紋特徴モデルを生成し、オリジナル声紋特徴モデルを補正済み声紋特徴モデルに更新する。最後に、声紋特徴モデルが取得されたとき、声紋特徴モデルの精度を改善する目的が比較的高い実用性を前提にして達成されることが確保される。

実施形態６
図７は、本発明の実施形態６による端末の構造を示す。説明を容易にするために、本発明のこの実施形態に関連する部分だけを示す。本発明の実施形態６において提供される端末は、本発明の実施形態１及び実施形態２のいくつかの方法を実施するように構成することができる。説明を容易にするために、本発明のこの実施形態に関連する部分だけを示す。開示していない具体的な技術的詳細については、本発明の実施形態１及び実施形態２を参照することができる。

端末は、サンプル取得ユニット７１と、オリジナル・モデル確立ユニット７２と、オリジナル・オーディオ・ストリーム取得ユニット７３と、セグメンテーション及びクラスタリング・ユニット７４と、マッチング・ユニット７５と、モデル更新ユニット７６とを含み、オリジナル・オーディオ・ストリーム取得ユニット７３、セグメンテーション及びクラスタリング・ユニット７４、マッチング・ユニット７５、及びモデル更新ユニット７６は、それぞれ実施形態５におけるオリジナル・オーディオ・ストリーム取得ユニット６１、セグメンテーション及びクラスタリング・ユニット６２、マッチング・ユニット６３、及びモデル更新ユニット６４のいくつかの機能と１対１対応にある。詳細は本明細書に再度説明しない。

サンプル取得ユニット７１は、プリセット・オーディオ・ストリーム訓練サンプルを取得し、それをオリジナル・モデル確立ユニット７２に送るように構成される。

オリジナル・モデル確立ユニット７２は、プリセット・オーディオ・ストリーム訓練サンプルによりオリジナル声紋特徴モデルを確立するように構成される。

オリジナル声紋特徴モデルは、サンプル取得ユニット７１から送られたプリセット・オーディオ・ストリーム訓練サンプルにより、声紋登録アルゴリズム・インターフェースを呼び出すことによってオリジナル・モデル確立ユニット７２によって確立される声紋特徴モデルである。オリジナル声紋特徴モデルは、一人又は複数の人の声紋登録プロセスの後に形成される特徴モデルであり、登録プロセスには、オーディオ・ストリーム訓練サンプルとも呼ばれる訓練コーパスの長さに対する要件がない。さらに、本発明の一実施形態によって提供される方法が、補正済みモデルの継続的及び動的補正を実施することができるので、オリジナル声紋特徴モデルは、既存の方法を使用して取得されるモデルでよく、本発明の実施形態によって提供される方法を使用して補正されるモデルでもよい。

本発明のこの実施形態において、通話聴取状態を入力した後、オリジナル・オーディオ・ストリーム取得ユニット７３は、聴取によってオーディオ・ストリームを取得することができ、その場合、ボイス・レコーダ又は音声チャット・ソフトウェアを使用してオーディオ・ストリームを生成することができる。端末がスマートフォンであることが、一例として使用される。スマートフォンが通話接続状態にあるとき、ユーザは声紋学習機能を使用することに同意するかどうか尋ねられ、ユーザが同意した後、通話に参加するユーザ及び通話の相手のオーディオ・ストリームを記録することができ、又は通話中に自動的に声紋学習機能を可能にするためのスイッチが、端末に構成されていて、ユーザが必要に応じスイッチを設定する、又は声紋学習機能が端末に構成されていて、ユーザがオーディオ・ストリームを記録することができる。複数の人が電話中又はチャット中に順に会話に参加することができるので、この場合に取得されたオリジナル・オーディオ・ストリームは、複数の人のオーディオ・データを含むことができることに留意されたい。オリジナル・オーディオ・ストリーム取得ユニット７３によって取得されたオリジナル・オーディオ・ストリームは、話者の様々な抑揚、発話速度、及び感情のオーディオ・データを包含することができ、抑揚、発話速度、及び感情の要因のモデルの精度に対する影響を低減することができる。さらに、ユーザは、オーディオ・ストリームを取得するプロセスの間、回数及び持続時間でオーディオ・ストリームを意図的に入力する必要がなく、それによって、ユーザ操作の複雑性が減少し、取得プロセスにおける実用性が確保され、ユーザ体験も改善される。

図７に示すように、セグメンテーション及びクラスタリング・ユニット７４は、具体的には、セグメンテーション・ユニット７４１とクラスタリング・ユニット７４２とを含み、その場合、
セグメンテーション・ユニット７４１は、プリセット話者セグメンテーション・アルゴリズムによりオリジナル・オーディオ・ストリームを複数のオーディオ・クリップに分割するように構成され、その場合、複数のオーディオ・クリップの各オーディオ・クリップは、少なくとも１人の話者に係る同一話者のオーディオ情報だけを含み、セグメンテーション・ユニット７４１は、少なくとも１人の話者に係る同一話者だけを含むオーディオ・クリップをクラスタリング・ユニット７４２に送るように構成され、
クラスタリング・ユニット７４２は、セグメンテーション・ユニット７４１から送られた、少なくとも１人の話者に係る同一話者だけを含むオーディオ・クリップを受け取り、プリセット話者クラスタリング・アルゴリズムにより、少なくとも１人の話者に係る同一話者だけを含むオーディオ・クリップをクラスタリングして、少なくとも１人の話者に係る同一話者のオーディオ情報だけを含むオーディオ・ストリームを生成するように構成される。

本発明のこの実施形態において、セグメンテーション・ユニット７４１は、オリジナル・オーディオ・ストリームをいくつかのオーディオ・クリップに分割することができ、その場合、各オーディオ・クリップは、１人の話者のオーディオ情報だけを含み、クラスタリング・ユニット７４２は、同じ話者のオーディオ・クリップを再度クラスタリングして、各人のオーディオ・ストリームを生成する。最後に、オリジナル・オーディオ・ストリームは、異なる話者を表すオーディオ・ストリームに分割される。

図７に示すように、マッチング・ユニット７５は、具体的には、合致度取得ユニット７５１とマッチング済みオーディオ・ストリーム取得ユニット７５２とを含み、その場合、合致度取得ユニット７５１は、少なくとも１人の話者に係る各話者のオーディオ・ストリーム及びオリジナル声紋特徴モデルにより少なくとも１人の話者に係る各話者のオーディオ・ストリームとオリジナル声紋特徴モデルとの合致度を取得し、合致度をマッチング済みオーディオ・ストリーム取得ユニット７５２に送るように構成され、マッチング済みオーディオ・ストリーム取得ユニット７５２は、合致度取得ユニット７５１から送られた、少なくとも１人の話者に係る各話者のオーディオ・ストリームとオリジナル声紋特徴モデルとの合致度を受け取り、うまくマッチングしたオーディオ・ストリームとして最も高く、プリセット・マッチング・スレショルドより大きい合致度に対応するオーディオ・ストリームを選択するように構成される。

本発明のこの実施形態において、合致度取得ユニット７５１は、すべてのオーディオ・ストリームを精査し、少なくとも１人の話者に係る各話者のオーディオ・ストリーム及びオリジナル声紋特徴モデルにより少なくとも１人の話者に係る各話者のオーディオ・ストリームとオリジナル声紋特徴モデルとの合致度を取得する。具体的には、合致度取得ユニット７５１は、各オーディオ・ストリームをオリジナル声紋特徴モデルの入力値として別々に使用して各オーディオ・ストリームに対応する合致値を取得し、その場合、合致値は、具体的には声紋検証アルゴリズム・インターフェースを呼び出して取得することができる。次いで、マッチング済みオーディオ・ストリーム取得ユニット７５２は、オリジナル声紋特徴モデルにマッチする１つ又は複数のオーディオ・ストリームを取得し、具体的には、うまくマッチングしたオーディオ・ストリームとして最も高く、プリセット・マッチング・スレショルドより大きい合致度に対応するオーディオ・ストリームを選択することができ、それによって、取得したオーディオ・ストリームがオリジナル声紋特徴モデルに大いに関連し、したがって、声紋訓練コーパスとして使用されたオーディオ・ストリームが純粋であることが確保される。

図７に示すように、モデル更新ユニット７６は、具体的には、補正済みモデル取得ユニット７６１とモデル更新サブユニット７６２とを含み、その場合、補正済みモデル取得ユニット７６１は、うまくマッチングしたオーディオ・ストリーム及びプリセット・オーディオ・ストリーム訓練サンプルにより補正済み声紋特徴モデルを生成し、補正済み声紋特徴モデルをモデル更新サブユニット７６２に送るように構成され、モデル更新サブユニット７６２は、補正済みモデル取得ユニット７６１から送られた補正済み声紋特徴モデルを受け取り、オリジナル声紋特徴モデルを補正済み声紋特徴モデルに更新するように構成される。

本発明のこの実施形態において、うまくマッチングしたオーディオ・ストリームは、オリジナル声紋特徴モデルを生成するために追加のオーディオ・ストリーム訓練サンプルとして使用される。すなわち、オリジナル声紋特徴モデルを生成するために使用されるオーディオ・ストリーム訓練サンプル及びうまくマッチングしたオーディオ・ストリームを参照して、補正済みモデル取得ユニット７６１は、声紋登録を実施し、補正済み声紋特徴モデルとも呼ばれる新たな声紋特徴モデルを生成するために使用される。モデル更新サブユニット７６２は、オリジナル声紋特徴モデルを補正済み声紋特徴モデルに更新する。

本発明のこの実施形態は、サンプル取得ユニット７１、オリジナル・モデル確立ユニット７２、オリジナル・オーディオ・ストリーム取得ユニット７３、セグメンテーション及びクラスタリング・ユニット７４、マッチング・ユニット７５、及びモデル更新ユニット７６を含む端末を提供する。話者のオリジナル・オーディオ・ストリーム情報は、聴取によって取得され、声紋訓練コーパスとして使用され、オリジナル・オーディオ・ストリーム情報は、プリセット話者セグメンテーション及びクラスタリング・アルゴリズムを使用して処理され、それによって、追加のオーディオ・ストリーム訓練サンプルを取得し、したがって、追加のオーディオ・ストリーム訓練サンプルによりオリジナル声紋特徴モデルの補正及び更新動作が実施され、それによって、比較的高い実用性を前提にした声紋特徴モデルの精度が改善される。したがって、補正済みオリジナル声紋特徴モデルを端末の声紋アンブロッキング・ソリューションに適用すると、声紋認識精度が大幅に改善される。さらに、複数の人の発話オーディオ・ストリーム訓練サンプルのためにオリジナル声紋特徴モデルが確立された場合、更新済みオリジナル声紋特徴モデルは、複数の人のオーディオ情報を正確に認識して開錠などを実施することができ、したがって、開錠プロセスがよりインテリジェントとなる。

本発明の諸実施形態によって提供される声紋特徴モデルを更新するための方法において、少なくとも１人の話者を含むオリジナル・オーディオ・ストリームが取得され、オリジナル・オーディオ・ストリームにおける少なくとも１人の話者に係る各話者それぞれのオーディオ・ストリームがプリセット話者セグメンテーション及びクラスタリング・アルゴリズムにより取得され、少なくとも１人の話者に係る各話者それぞれのオーディオ・ストリームがオリジナル声紋特徴モデルに別々にマッチングされて、うまくマッチングしたオーディオ・ストリームを取得し、うまくマッチングしたオーディオ・ストリームがオリジナル声紋特徴モデルを生成するために追加のオーディオ・ストリーム訓練サンプルとして使用され、オリジナル声紋特徴モデルが更新される。これにより、声紋特徴モデルが既存の方法を使用して取得されるとき、声紋特徴モデルの精度が比較的高い実用性を前提にして改善されることが確保できず、その結果、認識精度が声紋特徴モデルを使用して改善することができないという問題が解決される。これにより、ユーザ体験が影響されず、比較的高い実用性が確保されるという前提で声紋特徴モデルの精度及び認識精度が改善される。

本明細書に開示する諸実施形態において説明する諸例に組み合わせて、いくつかのユニット及びいくつかのアルゴリズム・ステップは、電子ハードウェア、コンピュータ・ソフトウェア、又はそれらの組合せによって実施できることに留意されたい。ハードウェアとソフトウェアとの互換性について明確に説明するために、前述のことは、いくつかの機能による各例の一般的に説明したいくつかの構成及びいくつかのステップを有する。いくつかの機能がハードウェア又はソフトウェアによって実施されるかどうかは、技術的解決策の特定のアプリケーション及び設計上の制約条件による。各々の特定のアプリケーションの説明したいくつかの機能を実施するのに異なるいくつかの方法を当業者は使用することができるが、実施が本発明の範囲を超えるとみなすべきではない。

本明細書に開示する諸実施形態に組み合わせて、方法又はいくつかのアルゴリズム・ステップは、ハードウェア、プロセッサによって実行されるソフトウェア・モジュール、又はそれらの組合せによって実施することができる。ソフトウェア・モジュールは、ランダム・アクセス・メモリ（ＲＡＭ）、メモリ、読出し専用メモリ（ＲＯＭ）、電気的プログラム可能ＲＯＭ、電気的消去可能プログラム可能ＲＯＭ、レジスタ、ハードディスク、リムーバブル・ディスク、ＣＤ−ＲＯＭ、又は当分野で周知の記憶媒体の任意の他の形態に常駐することができる。

前述の具体的な諸実施形態は、本発明の目的、技術的解決策、及び利益を詳細に明らかにする。前述の説明は、単に本発明の具体的な諸実施形態に過ぎず、本発明の保護範囲を限定することを意図していないことを理解されたい。本発明の精神及び原則を逸脱することなくなされるいかなる修正、均等代替、又は改善も、本発明の保護範囲内に含まれるものとする。

Claims

声紋特徴モデルを更新するための方法であって、
少なくとも１人の話者を含むオリジナル・オーディオ・ストリームを取得するステップと、
プリセット話者セグメンテーション及びクラスタリング・アルゴリズムに従って、前記オリジナル・オーディオ・ストリームにおける前記少なくとも１人の話者に係る各話者それぞれのオーディオ・ストリームを取得するステップと、
前記少なくとも１人の話者に係る各話者それぞれのオーディオ・ストリームとオリジナル声紋特徴モデルとを別々にマッチングして、うまくマッチングしたオーディオ・ストリームを取得するステップと、
前記オリジナル声紋特徴モデルを生成するために、前記うまくマッチングしたオーディオ・ストリームを追加のオーディオ・ストリーム訓練サンプルとして使用して、前記オリジナル声紋特徴モデルを更新するステップと、
を含む、方法。
前記方法は、さらに、
少なくとも１人の話者を含むオリジナル・オーディオ・ストリームを取得する前記ステップの以前に、
プリセット・オーディオ・ストリーム訓練サンプルに従って、前記オリジナル声紋特徴モデルを確立するステップと、を含む、
請求項１に記載の方法。
プリセット話者セグメンテーション及びクラスタリング・アルゴリズムに従って、前記オリジナル・オーディオ・ストリームにおける前記少なくとも１人の話者に係る各話者それぞれのオーディオ・ストリームを取得する前記ステップは、具体的には、
プリセット話者セグメンテーション・アルゴリズムに従って、前記オリジナル・オーディオ・ストリームを複数のオーディオ・クリップに分割する段階であり、前記複数のオーディオ・クリップに係る各オーディオ・クリップは、前記少なくとも１人の話者に係る同一話者のオーディオ情報だけを含む段階と、
プリセット話者クラスタリング・アルゴリズムに従って、前記少なくとも１人の話者に係る同一話者だけを含む前記オーディオ・クリップをクラスタリングする段階であり、前記少なくとも１人の話者に係る同一話者のオーディオ情報だけを含むオーディオ・ストリームを生成する、段階と、を含む、
請求項１または２に記載の方法。
前記少なくとも１人の話者に係る各話者それぞれのオーディオ・ストリームとオリジナル声紋特徴モデルとを別々にマッチングして、うまくマッチングしたオーディオ・ストリームを取得する前記ステップは、具体的には、
前記少なくとも１人の話者に係る各話者の前記オーディオ・ストリーム及び前記オリジナル声紋特徴モデルに従って、前記少なくとも１人の話者に係る各話者の前記オーディオ・ストリームと前記オリジナル声紋特徴モデルとの合致度を取得する段階と、
前記うまくマッチングしたオーディオ・ストリームとして最も高く、かつ、プリセット・マッチング・スレショルドより大きい合致度に対応するオーディオ・ストリームを選択する段階と、を含む、
請求項１乃至３いずれか一項に記載の方法。
前記オリジナル声紋特徴モデルを生成するために前記うまくマッチングしたオーディオ・ストリームを追加のオーディオ・ストリーム訓練サンプルとして使用して、前記オリジナル声紋特徴モデルを更新する前記ステップは、具体的には、
前記うまくマッチングしたオーディオ・ストリーム及び前記プリセット・オーディオ・ストリーム訓練サンプルに従って、補正済み声紋特徴モデルを生成する段階であり、前記プリセット・オーディオ・ストリーム訓練サンプルは、前記オリジナル声紋特徴モデルを生成するためのオーディオ・ストリームである段階と、
前記オリジナル声紋特徴モデルを前記補正済み声紋特徴モデルに更新する段階と、を含む、
請求項２に記載の方法。
オリジナル・オーディオ・ストリーム取得ユニットと、セグメンテーション及びクラスタリング・ユニットと、マッチング・ユニットと、モデル更新ユニットと、を備える端末であって、
前記オリジナル・オーディオ・ストリーム取得ユニットは、少なくとも１人の話者を含むオリジナル・オーディオ・ストリームを取得し、前記オリジナル・オーディオ・ストリームを前記セグメンテーション及びクラスタリング・ユニットに送るように構成され、
前記セグメンテーション及びクラスタリング・ユニットは、前記オリジナル・オーディオ・ストリーム取得ユニットから送られた前記オリジナル・オーディオ・ストリームを受け取り、プリセット話者セグメンテーション及びクラスタリング・アルゴリズムに従って、前記オリジナル・オーディオ・ストリームにおける前記少なくとも１人の話者に係る各話者それぞれのオーディオ・ストリームを取得し、かつ、前記少なくとも１人の話者に係る各話者それぞれのオーディオ・ストリームを前記マッチング・ユニットに送る、ように構成され、
前記マッチング・ユニットは、前記セグメンテーション及びクラスタリング・ユニットから送られた前記少なくとも１人の話者に係る各話者それぞれのオーディオ・ストリームを受け取り、前記少なくとも１人の話者に係る各話者それぞれのオーディオ・ストリームとオリジナル声紋特徴モデルとを別々にマッチングして、うまくマッチングしたオーディオ・ストリームを取得し、かつ、前記うまくマッチングしたオーディオ・ストリームを前記モデル更新ユニットに送る、ように構成され、
前記モデル更新ユニットは、前記マッチング・ユニットから送られた前記うまくマッチングしたオーディオ・ストリームを受け取り、前記オリジナル声紋特徴モデルを生成するために、前記うまくマッチングしたオーディオ・ストリームを追加のオーディオ・ストリーム訓練サンプルとして使用し、かつ、前記オリジナル声紋特徴モデルを更新する、ように構成される、
端末。
前記端末は、さらに、
サンプル取得ユニットと、オリジナル・モデル確立ユニットと、を備え、
前記サンプル取得ユニットは、プリセット・オーディオ・ストリーム訓練サンプルを取得し、かつ、前記プリセット・オーディオ・ストリーム訓練サンプルを前記オリジナル・モデル確立ユニットに送る、ように構成され、
前記オリジナル・モデル確立ユニットは、前記サンプル取得ユニットから送られた前記プリセット・オーディオ・ストリーム訓練サンプルを受け取り、かつ、前記プリセット・オーディオ・ストリーム訓練サンプルにより前記オリジナル声紋特徴モデルを確立する、ように構成される、
請求項６に記載の端末。
前記セグメンテーション及びクラスタリング・ユニットは、具体的には、セグメンテーション・ユニットと、クラスタリング・ユニットと、を備え、
前記セグメンテーション・ユニットは、プリセット話者セグメンテーション・アルゴリズムに従って、前記オリジナル・オーディオ・ストリームを複数のオーディオ・クリップに分割する、ように構成され、前記複数のオーディオ・クリップに係る各オーディオ・クリップは、前記少なくとも１人の話者に係る同一話者のオーディオ情報だけを含み、かつ、前記セグメンテーション・ユニットは、前記少なくとも１人の話者に係る同一話者だけを含む前記オーディオ・クリップを前記クラスタリング・ユニットに送る、ように構成され、
前記クラスタリング・ユニットは、前記セグメンテーション・ユニットから送られた、前記少なくとも１人の話者に係る同一話者だけを含む前記オーディオ・クリップを受け取り、かつ、プリセット話者クラスタリング・アルゴリズムに従って、前記少なくとも１人の話者に係る同一話者だけを含む前記オーディオ・クリップをクラスタリングする、ように構成され、前記少なくとも１人の話者に係る同一話者の前記オーディオ情報だけを含むオーディオ・ストリームを生成する、
請求項６または７に記載の端末。
前記マッチング・ユニットは、具体的には、合致度取得ユニットと、マッチング済みオーディオ・ストリーム取得ユニットと、を備え、
前記合致度取得ユニットは、前記少なくとも１人の話者に係る各話者の前記オーディオ・ストリーム及び前記オリジナル声紋特徴モデルに従って、前記少なくとも１人の話者に係る各話者の前記オーディオ・ストリームと前記オリジナル声紋特徴モデルとの合致度を取得し、かつ、前記合致度を前記マッチング済みオーディオ・ストリーム取得ユニットに送る、ように構成され、
前記マッチング済みオーディオ・ストリーム取得ユニットは、前記合致度取得ユニットから送られた、前記少なくとも１人の話者に係る各話者の前記オーディオ・ストリームと前記オリジナル声紋特徴モデルとの前記合致度を受け取り、かつ、前記うまくマッチングしたオーディオ・ストリームとして最も高く、プリセット・マッチング・スレショルドより大きい合致度に対応するオーディオ・ストリームを選択する、ように構成される、
請求項６乃至８いずれか一項に記載の端末。
前記モデル更新ユニットは、具体的には、補正済みモデル取得ユニットと、モデル更新サブユニットと、を備え、
前記補正済みモデル取得ユニットは、前記うまくマッチングしたオーディオ・ストリーム及び前記プリセット・オーディオ・ストリーム訓練サンプルに従って、補正済み声紋特徴モデルを生成し、かつ、前記補正済み声紋特徴モデルを前記モデル更新サブユニットに送る、ように構成され、
前記モデル更新サブユニットは、前記補正済みモデル取得ユニットから送られた前記補正済み声紋特徴モデルを受け取り、かつ、前記オリジナル声紋特徴モデルを前記補正済み声紋特徴モデルに更新する、ように構成される、
請求項７に記載の端末。