JP2020525817A

JP2020525817A - 声紋認識方法、装置、端末機器および記憶媒体

Info

Publication number: JP2020525817A
Application number: JP2019563563A
Authority: JP
Inventors: 錦倫黄
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2018-05-29
Filing date: 2018-07-03
Publication date: 2020-08-27
Anticipated expiration: 2038-07-03
Also published as: US10878823B2; SG11201912620YA; US20200118571A1; JP6792089B2; CN108900725B; CN108900725A; WO2019227583A1

Abstract

本願は、声紋認識方法、装置、端末機器および記憶媒体を提供し、前記方法は下記を含む：各オペレーターを呼出し権限に応じて対応するグループに割り当て、グループ内の各オペレーターに対して声紋特徴の収集および処理を実行し、グループの総合声紋特徴を得、グループ、呼出し権限および総合声紋特徴に基づいて動的声紋認識モデルを構築し、オペレーターの呼出し操作が検出された場合、当該オペレーターの音声データを取得し、声紋特徴を抽出するとともに、動的声紋認識モデルに基づいて、当該オペレーターの呼出し権限を決定し、前記認識されるオペレーターの呼出し権限が前記顧客レベルの要件を満たさない場合、事前に設定された早期警告措置を実行し、さらに監視し、声紋認識の方法によってオペレーターの属するグループを判断し、グループと権限との対応関係に応じてリアルタイムの監視を実現し、監視の適時性およびオペレーターの呼出し品質を効果的に改善できる。

Description

本願は、コンピューター通信技術の分野に関し、特に声紋認識方法、装置、端末機器および記憶媒体に関する。

コールセンターは、対話型音声応答システムと手動電話サービスシステムで構成される。手動電話サービスシステムはチェックインシステム、電話サービスプラットフォーム、およびインターフェースマシンで構成され、顧客担当者であるオペレーターは、顧客サービスを実行するために、チェックインシステムでチェックインする必要があり、電話サービスプラットフォームへのチェックインに成功した後、電話サービスプラットフォームによって割り当てられた手動サービス要求に従って顧客との通話を確立すること、つまりオペレーターからの呼出しによって、顧客サービスを担当し、通常、顧客は業務ニーズに応じて様々なレベルの業務に分けられ、各オペレーターはそれぞれの業務に応じて様々なレベルの顧客に対応する。

各オペレーターには、呼出しの前に対応する呼出し権限が通知されているが、実際には高レベルの顧客の呼出しを行う未熟なオペレーターがしばしばいる。
従来技術では、通常、その後録音を聴取して分析することにより、権限に適合しない呼出し情報を取得して対応処理を実行するが、タイムリーな早期警報ができておらず、顧客サービスの音声呼び出しの監視ができない場合、監視制御の効率が低下する。

本願の実施例は、顧客サービスの音声呼び出しを監視できず、監視制御の効率が低下するという問題を解決するために、声紋認識方法、装置、端末機器および記憶媒体を提供する。

第１の態様では、本願の実施例は声紋認識方法を提供し、
データベースにおける各オペレーターの呼出し権限を取得し、事前に設定された権限のグループ化方法に従って、前記各オペレーターを前記呼出し権限に対応するグループに割り当てることと、
前記グループのそれぞれについて、当該グループにおける前記オペレーターごとに声紋特徴を収集し、当該グループの基本声紋特徴セットを得ることと、
前記基本声紋特徴セットのそれぞれにおける声紋特徴をトレーニングし、前記基本声紋特徴セットのそれぞれの総合声紋特徴を取得し、前記グループと前記呼出し権限と前記総合声紋特徴との間の対応関係に基づいて、動的声紋認識モデルを構築することと、
認識されるオペレーターの呼出し操作が検出された場合、呼び出された顧客の顧客レベルおよび前記認識されるオペレーターの音声データを取得し、前記音声データに対して声紋特徴を抽出し、目標声紋特徴を得ることと、
前記動的声紋認識モデルに基づいて、前記目標声紋特徴を認識し、前記認識されるオペレーターの呼出し権限を決定することと、
前記認識されるオペレーターの呼出し権限が前記顧客レベルの要件を満たさない場合、事前に設定された早期警告措置を実行することと、を含む。

第２の態様では、本願の実施例は声紋認識装置を提供し、該声紋認識装置は、
データベースにおける各オペレーターの呼出し権限を取得し、事前に設定された権限のグループ化方法に従って、前記各オペレーターを前記呼出し権限に対応するグループに割り当てるためのオペレーター権限グループ化モジュールと、
前記グループのそれぞれに対して、当該グループにおける前記オペレーターごとに声紋特徴を収集し、当該グループの基本声紋特徴セットを得るための声紋特徴収集モジュールと、
前記基本声紋特徴セットのそれぞれにおける声紋特徴をトレーニングし、前記基本声紋特徴セットのそれぞれの総合声紋特徴を取得し、前記グループと前記呼出し権限と前記総合声紋特徴との間の対応関係に基づいて、動的声紋認識モデルを構築するための認識モデル構築モジュールと、
認識されるオペレーターの呼出し操作が検出された場合、呼び出された顧客の顧客レベルおよび前記認識されるオペレーターの音声データを取得し、前記音声データに対して声紋特徴を抽出し、目標声紋特徴を得るための目標特徴取得モジュールと、
前記動的声紋認識モデルに基づいて、前記目標声紋特徴を認識し、前記認識されるオペレーターの呼出し権限を決定するための呼出し権限決定モジュールと、
前記認識されるオペレーターの呼出し権限が前記顧客レベルの要件を満たさない場合、事前に設定された早期警告措置を実行するためのリアルタイム音声警告モジュールと、を含む。

第３の態様では、本願の実施例は、メモリ、プロセッサ、および前記メモリに記憶され、前記プロセッサで実行可能なコンピューター可読コマンドを含む端末機器を提供し、前記プロセッサは、前記コンピューター可読コマンドを実行するときに前記声紋認識方法のステップを実現する。

第４の態様では、本願の実施例は、コンピューター可読コマンドが記憶される１つ以上の不揮発性可読記憶媒体を提供し、前記コンピューター可読コマンドが１つ以上のプロセッサによって実行されるとき、前記１つ以上のプロセッサに前記声紋認識方法のステップを実行させる。
本願の１つ以上の実施例の詳細は、以下の図面および説明に記載されており、本願の他の特徴および利点は、明細書、図面および特許請求の範囲から明らかになる。

本願の実施例における技術的解決手段をより明確に説明するために、以下、本願の実施例の説明で使用される図面を簡単に紹介し、当然のことながら、以下の説明における図面は、本願のいくつかの実施例に過ぎず、当業者であれば、創造的な工夫をせずに、これらの図面に基づく他の図面を得ることができる。

本願の実施例１による声紋認識方法を実現するフローチャートである。本願の実施例１による声紋認識方法におけるステップＳ２を実現するフローチャートである。本願の実施例１による声紋認識方法における音声信号重複フレーミングを示す図である。本願の実施例１による声紋認識方法におけるステップＳ２５を実現するフローチャートである。本願の実施例１による声紋認識方法におけるステップＳ３を実現するフローチャートである。本願の実施例１による声紋認識方法におけるステップＳ５を実現するフローチャートである。本願の実施例２による声紋認識装置を示す図である。本願の実施例４による端末機器を示す図である。

以下、本願の実施例における図面を参照して、本願の実施例における技術的解決策を明確かつ完全に説明するが、記載された実施例は、すべての実施例ではなく、本願の一部の実施例であることは明らかである。当業者であれば、創造的な工夫をせずに、本願の実施例に基づいて得られる他の実施例は、いずれも本願の範囲に含まれる。

実施例１
図１を参照し、図１は、本実施例に係る声紋認識方法を実現するフローを示す。当該声紋認識方法はコールセンターのオペレーターによる呼出しシーンに応用され、当該コールセンターは、サーバー側およびクライアント側を含み、ここで、サーバー側とクライアント側はネットワークを介して接続され、オペレーターがクライアント側を介して呼出し、クライアント側は具体的には、パーソナルコンピューター、ノートブックコンピューター、スマートフォン、タブレットや携帯型ウェアラブルデバイスなどであってもよいが、これらに限定されず、サーバー側は具体的には、個別のサーバーまたは複数のサーバーで構成されるサーバー群によって実現される。本願の実施例に係る声紋認識方法は、サーバー側に応用され、詳細は以下のとおりである。すなわち：
Ｓ１：データベースにおける各オペレーターの呼出し権限を取得し、事前に設定された権限のグループ化方法に従って、それぞれのオペレーターを呼出し権限に対応するグループに割り当てる。

具体的には、データベースに各オペレーターの呼出し権限が記憶され、呼出し権限によって、各オペレーターをその呼出し権限に対応するグループに割り当てる。
例えば、一実施形態において、データベースに記憶される呼出し権限にはＲ_１、Ｒ_２、Ｒ_３、Ｒ_４、Ｒ_５およびＲ_６という６つのレベルがあり、オペレーターは合計３０００人であり、これらのオペレーターは、その対応する権限に従って６つの異なる権限レベルのグループに割り当てられ、権限の高い順で下記のようにグループで分けられ、すなわち、グループ１は合計１０人で、対応する権限はＲ_１であり、グループ２は合計８０人で、対応する権限はＲ_２であり、グループ３は合計２００人で、対応する権限はＲ_３であり、グループ４は合計６００人で、対応する権限はＲ_４であり、グループ５は合計１８００人で、対応する権限はＲ_５であり、グループ６は合計３１０人で、対応する権限はＲ_６である。

なお、高レベルの権限に低レベルの権限が含まれ、例えば、グループ１に属するオペレーターはすべての呼出し権限を有し、グループ６に属するオペレーターは最も低い権限を有し、つまり、Ｒ_６⊂Ｒ_５⊂Ｒ_４⊂Ｒ_３⊂Ｒ_２⊂Ｒ_１。
Ｓ２：それぞれのグループについて、当該グループにおけるオペレーターごとに声紋特徴を収集し、当該グループの基本声紋特徴セットを得る。

具体的には、同じグループのオペレーターに対して声紋特徴をそれぞれ収集し、同じグループのすべてのオペレーターの声紋特徴を当該グループの基本声紋特徴セットとする。
ここで、声紋特徴には、音響特徴、語彙特徴、韻律特徴、言語方言アクセント情報やチャネル情報などが含まれるが、これらに限定されない。
好ましくは、本願で使用される声紋特徴は音響特徴である。

Ｓ３：それぞれの基本声紋特徴セットにおける声紋特徴をトレーニングし、それぞれの基本声紋特徴セットの総合声紋特徴を取得し、グループ、呼出し権限と総合声紋特徴との間の対応関係に基づいて、動的声紋認識モデルを構築する。
具体的には、それぞれの基本声紋特徴セットにおける声紋特徴をトレーニングし、それぞれの基本声紋特徴セットの総合声紋特徴、すなわち当該グループの総合声紋特徴を取得し、ステップＳ１およびステップＳ２で提供されるグループと呼出し権限との対応関係、グループと声紋特徴との対応関係に従って、動的声紋認識モデルを構築する。

ここで、それぞれの基本声紋特徴セットにおける声紋特徴をトレーニングし、それぞれの基本声紋特徴セットの総合声紋特徴を取得し、採用されるトレーニング方法には、テンプレートマッチング法、最近傍法、ニューラルネットワーク法、隠れマルコフモデル（ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ、ＨＭＭ）、ベクトル量子化（ＶｅｃｔｏｒＱｕａｎｔｉｚａｔｉｏｎ、ＶＱ）法、多項式分類器（ＰｏｌｙｎｏｍｉａｌＣｌａｓｓｉｆｉｅｒｓ）法などを含むが、これらに限定されない。

好ましくは、本願の実施例で採用されるトレーニング方法は、ニューラルネットワーク法に基づく遺伝的アルゴリズム（ＧｅｎｅｔｉｃＡｌｇｏｒｉｔｈｍ）の改良されたアルゴリズムであり、それぞれのグループを１つの群として、グループにおける各オペレーターの声紋特徴を染色体として、遺伝的アルゴリズムを使用することによって初期化コーディング、個々の評価、選択、交差および突然変異を実行し、さらに当該グループの最適解または近似解、すなわち当該グループの総合声紋特徴を得る。

Ｓ４：認識されるオペレーターの呼出し操作が検出された場合、呼び出された顧客の顧客レベルおよび認識されるオペレーターの音声データを取得し、音声データに対して声紋特徴を抽出し、目標声紋特徴を得る。
具体的には、認識されるオペレーターの呼出し操作が検出された場合、呼び出された顧客の顧客識別情報に従って、顧客データベースから当該識別情報を検索し、呼び出された顧客の顧客レベルを取得する。

ここで、顧客レベルは、事前設定されて顧客データベースに記憶され、権限レベルとマッピング関係を持っている。
ステップＳ１で記憶される６つの権限レベルを例として、顧客データベースにおける顧客レベルはレベル１からレベル１０に分けられ、権限に従ってグループ化された６つのグループに対応する権限はそれぞれ次記のとおりであり、すなわち、グループ１のオペレーターはレベル１からレベル１０の顧客を呼び出すことができ、グループ２のオペレーターはレベル３からレベル１０の顧客を呼び出すことができ、グループ３のオペレーターはレベル４からレベル１０の顧客を呼び出すことができ、グループ４のオペレーターはレベル５からレベル１０の顧客を呼び出すことができ、グループ５のオペレーターはレベル７からレベル１０の顧客を呼び出すことができ、グループ６のオペレーターはレベル９からレベル１０の顧客を呼び出すことができる。

さらに、認識されるオペレーターの音声データを取得し、当該音声データに対して声紋特徴を抽出し、当該オペレーターの目標声紋特徴を得て、抽出方法は後述するステップＳ２２からステップＳ２５の説明を参照し、繰り返しを避けるため、ここでは説明を省略する。
Ｓ５：動的声紋認識モデルに基づいて、目標声紋特徴を認識し、認識されるオペレーターの呼出し権限を決定する。
具体的には、目標声紋特徴を動的声紋認識モデルに入力して認識することにより、当該目標声紋特徴に対応するグループを判断し、さらに当該グループに対応する呼出し権限、即ち認識されるオペレーターの呼出し権限を検索する。

Ｓ６：認識されるオペレーターの呼出し権限が呼び出された顧客の顧客レベルの要件を満たさない場合、事前に設定された早期警告措置を実行する。
具体的には、認識されるオペレーターの呼出し権限に対応する顧客レベルＲと呼び出された顧客の顧客レベルｒとの関係に従って、現在の呼出しが規定に合致しているかどうかを決定し、
であれば、認識されるオペレーターの呼出し権限が呼び出された顧客の顧客レベルの要件を満たさないと見なし、事前に設定された処理措置を実行し、今回の呼出しの情報を監督者に送信し、今回のルールに違反した呼出しを記録する。

ステップＳ４における６つの権限でグループ化された対応する１０の顧客レベルを例として、取得された認識されるオペレーターがグループ５に属し、対応する呼出し権限がＲ_５であり、即ち、呼出し可能な顧客レベルはレベル７からレベル１０であり、現在の呼び出された顧客の顧客レベルがレベル７からレベル１０のいずれかである場合、現在の呼出しが要件を満たすと判断し、現在、呼び出された顧客の顧客レベルがレベル１からレベル６のいずれかである場合、認識されるオペレーターの呼出し権限が呼び出された顧客の顧客レベルの要件を満たさないと判断し、当該呼出しの継続を阻止するために、対応する早期警告措置が取られる。

ここで、事前に設定された処理措置は、認識されるオペレーターに提示情報を送信すること、監督センターに警告情報をプッシュすること、コール転送を強制すること、強制的に電話を切ることなどを含むが、実際の状況に応じて決められ、これらに限定されない。
図１に対応する実施例において、データベースにおける各オペレーターの呼出し権限を取得し、事前に設定された権限のグループ化方法に従って、それぞれのオペレーターを呼出し権限に対応するグループに割り当て、それぞれのグループに対して、当該グループにおけるオペレーターごとに声紋特徴を収集し、当該グループの基本声紋特徴セットを得て、それぞれの基本声紋特徴セット内の声紋特徴をトレーニングし、それぞれの基本声紋特徴セットの総合声紋特徴を取得し、グループ、呼出し権限と総合声紋特徴との間の対応関係に基づいて、動的声紋認識モデルを構築し、このようなグループ化方法で、それぞれのグループの総合声紋特徴を抽出することにより、呼出し操作が検出された場合、現在の音声データが属するグループを迅速に判断でき、認識効率が向上し、さらにタイムリーに監視でき、監視効率が向上する。一方で、認識されるオペレーターの呼出し操作が検出された場合、呼び出された顧客の顧客レベルおよび認識されるオペレーターの音声データを取得し、当該音声データに対して声紋特徴を抽出し、目標声紋特徴を得るとともに、動的声紋認識モデルに基づいて、当該目標声紋特徴を認識し、認識されるオペレーターの呼出し権限を決定し、認識されるオペレーターの呼出し権限が当該顧客レベルの要件を満たさない場合、事前に設定された早期警告措置を実行し、声紋認識の方法を採用することにより、オペレーターの呼出し権限を判断し、さらにオペレーターの現在の呼出しが規定に合致するかどうかを判断し、合致しない場合に早期警告措置をタイムリーに採用し、リアルタイムの監視を実現し、監視の適時性およびオペレーターの呼出し品質を効果的に改善できる。

次に、図１に対応する実施例に基づいて、以下、具体的な実施例によってステップＳ２に記載されたそれぞれのグループに対して、当該グループにおけるオペレーターごとに声紋特徴を収集し、当該グループの基本声紋特徴セットを得る具体的な実現方法を詳しく説明する。
図２を参照し、図２は、本願の実施例に係るステップＳ２を具体的に実現するフローを示し、詳細は以下のとおりである。すなわち、
Ｓ２１：それぞれのグループにおける各オペレーターに対して、当該オペレーターが複数の事前に設定された異なるコーパスを朗読して録音サンプルを取得し、当該録音サンプルに対して声紋解析を実行し、当該オペレーターの初期声紋サンプルを得る。

具体的には、各オペレーターに対して、事前に設定された内容の異なるコーパスを提供し、オペレーターが当該コーパスを朗読するときに録音し、録音サンプルを得て、当該録音テキストに対して音声信号を抽出し、さらに当該オペレーターの初期声紋サンプルを取得する。
例えば、一実施形態において、特定のオペレーターに３つのコーパス、すなわちコーパス１、コーパス２およびコーパス３が提供され、当該オペレーターは、３つのコーパスのそれぞれについて５回繰り返して朗読し、さらに１５個の録音テキストを取得し、これらの１５個の録音テキストに対して音声信号を抽出し、１５の音声信号を取得し、１５の音声信号を当該オペレーターの初期声紋サンプルとする。

ここで、コーパスは、自然言語を統計と処理において、実際に大規模で観察できない言語インスタンスである。
好ましくは、それぞれの録音サンプルの録音時間は３０秒である。
Ｓ２２：初期声紋サンプルに対してプリエンファシス処理を実行し、平坦スペクトルを有するエンファシス処理済み声紋サンプルを生成する。

具体的には、声門の励起および口と鼻の輻射が、音声信号の平均パワースペクトルに影響を与えるため、高周波数は８００Ｈｚを超えると６ｄＢ／周波数逓倍で低下するため、音声信号のスペクトルを計算するとき、周波数が高くなると、対応する成分が小さくなり、従って、前処理中でプリエンファシス（Ｐｒｅ−ｅｍｐｈａｓｉｓ）処理を実行することにより、高周波数部分を増やし、信号のスペクトルをフラットにし、低周波数から高周波数までの全周波数帯域に維持し、同じ信号対雑音比でスペクトルを求め、スペクトルの分析またはチャンネルパラメーターの分析を実行する。プリエンファシスは、音声信号がデジタル化されるときにアンチエイリアスフィルターの前に実行されるため、プリエンファシスを実行できるだけでなく、信号のダイナミックレンジも圧縮でき、信号対雑音比が効果的に改善される。プリエンファシスは、例えば、有限インパルス応答（ＦｉｎｉｔｅＩｍｐｕｌｓｅＲｅｓｐｏｎｓｅ、ＦＩＲ）フィルターなどの一次デジタルフィルターによって実現されてもよい。

なお、機器によって取得された音声信号はすべてアナログ信号であり、これらのアナログ信号のプリエンファシス処理の前に、サンプリングと定量化によってアナログ情報をデジタル信号に変換する必要があり、音声のスペクトル範囲２００〜３４００Ｈｚに基づいて、サンプリングレートを８ＫＨｚに設定でき、定量化の精度を１６ｂｉｔに設定できる。

上記サンプリングレートおよび定量化精度の数値範囲は、本願の好ましい範囲ではあるが、実際の用途に応じて設定してもよく、ここで限定されないことを理解すべきである。
音声信号のプリエンファシスの後、スペクトルの高周波数部分が改善され、信号も平坦化され、平坦スペクトルを有するエンファシス処理済み声紋サンプルを生成し、その後の声紋特徴の抽出に役立つ。

Ｓ２３：フレーミングとウィンドウイングを採用し、エンファシス処理済み声紋サンプルに対してフレーミング処理を実行し、初期音声フレームを得る。
具体的には、音声信号は、短時間の安定性を有し、プリエンファシス処理された後、信号の短時間安定性を維持するためにフレーミングおよびウィンドウイング処理される必要があり、通常、１秒あたりのフレーム数は３３〜１００フレームである。フレームとフレームとの間の連続性を維持し、隣接する２つのフレームを滑らかに遷移させるために、重複フレーミングの方法が採用され、図３に示すように、図３は重複フレーミングの例を示し、図３におけるｋ番目のフレームとｋ＋１番目のフレームとの重複部分がフレームシフトである。

好ましくは、フレームシフトとフレーム長さの比率の取り得る範囲は（０、０．５）である。
例えば、一実施形態において、プリエンファシスされた音声信号はｓ’（ｎ）で、フレーム長さはＮ個のサンプリングポイントで、フレームシフトはＭ個のサンプリングポイントである。ｌ番目のフレームに対応するサンプリングポイントがｎ番目の場合、元の音声信号ｘ_ｌ（ｎ）と各パラメーターとの間の対応関係は下記のとおりであり、すなわち、
ここで、ｎ＝０,１,...,Ｎ−１、Ｎ＝２５６。
さらに、声紋サンプルがフレーミングされた後、対応するウィンドウ関数ｗ（ｎ）を使用してプリエンファシスされた後の音声信号ｓ’（ｎ）を乗算し、ウィンドウイングされた音声信号Ｓ_ｗを取得し、当該音声信号を初期音声フレーム信号とする。

ここで、ウィンドウ関数は、長方形ウィンドウ（Ｒｅｃｔａｎｇｕｌａｒ）、ハミングウィンドウ（Ｈａｍｍｉｎｇ）やハニングウィンドウ（Ｈａｎｎｉｎｇ）などを含むが、これらに限定されない。
長方形ウィンドウの式は下式のように示し、
ハミングウィンドウは下式のように示し、
ハニングウィンドウは下式のように示し、
プリエンファシス処理された声紋サンプルに対してフレーミングおよびウィンドウイング処理を実行することにより、声紋サンプルはフレームとフレームとの間の連続性を維持し、いくつかの異常な信号点が排除され、声紋サンプルのロバスト性を高める。

Ｓ２４：初期音声フレーム信号に対してサイレントトーン分離を実行し、目標音声フレームを得る。
具体的には、通話が持続している間、音声信号はアクティブ期間とサイレント期間の２つの状態に分けられ、サイレント期間では音声信号が送信されず、アップリンクとダウンリンクのアクティブ期間とサイレント期間は互いに独立している。ステップＳ２１では、ユーザーの録音プロセスにおいて、発音の前後に一時停止状態があり、この状態で音声信号が一時停止し、つまりサイレント期間を形成し、声紋特徴を抽出するときに、サイレント期間状態を検出し、さらにサイレント期間をアクティブ期間から分離することにより、連続するアクティブ期間を取得し、残りの連続するアクティブ期間の音声信号を目標音声フレームとする。

ここで、サイレントトーン状態の検出方法は、音声境界検出、ＦＦＭＰＥＧサウンディングオーディオミュートアルゴリズムや音声アクティビティ検出（ＶｏｉｃｅＡｃｔｉｖｉｔｙＤｅｔｅｃｔｉｏｎ、ＶＡＤ）アルゴリズムなどを含むが、これらに限定されない。
Ｓ２５：目標音声フレームに基づいて、声紋特徴を抽出する。
具体的には、プリエンファシス処理、フレーミング、ウィンドウイング、およびサイレントトーン分離の後、安定した声紋サンプルが取得され、当該サンプルを使用して声紋特徴を抽出する。

ここで、声紋特徴の抽出は、話者の声紋に対する高い分離性や安定性を有する音響または言語特徴を抽出して選択する。
好ましくは、本願で抽出された声紋特徴は音響特徴中の線形ケプストラム特徴である。
Ｓ２６：それぞれのグループにおいて、当該グループにおける各オペレーターの声紋特徴を当該グループの基本声紋特徴セットとして構成する。
具体的には、ステップＳ２５で各オペレーターの声紋特徴が取得された後、グループごとのオペレーターの声紋特徴を声紋特徴セットとして構成し、後続の動的声紋認識モデルの構築に用いられる。

図２に対応する実施例において、それぞれのグループにおける各オペレーターに対して、当該オペレーターが複数の事前に設定された異なるコーパスを朗読して録音サンプルを取得し、当該録音サンプルに対して声紋解析を実行し、当該オペレーターの初期声紋サンプルを得て、また、初期声紋サンプルに対してプリエンファシス処理を実行し、平坦スペクトルを有するエンファシス処理済み声紋サンプルを生成し、フレーミングおよびウィンドウイングの方法を採用して、エンファシス処理済み声紋サンプルに対してフレーミング処理を実行し、ロバスト性を有する初期音声フレームを得て、初期音声フレーム信号に対してサイレントトーン分離を実行し、干渉のあるサイレントトーンをフィルタリングして目標音声フレームを取得し、声紋サンプルに連続性およびロバスト性を有させ、さらに当該声紋サンプルからオペレーターの声紋特徴を抽出し、それぞれのグループにおいて、当該グループ内の各オペレーターの声紋特徴を当該グループの基本声紋特徴セットとして構成し、基本声紋特徴セットにおける声紋特徴の精度およびロバスト性を向上させる。

図２に対応する実施例に基づいて、以下、具体的な実施例によってステップＳ２５に記載された目標音声フレームに従って、声紋特徴を抽出する具体的な実現方法を詳しく説明する。
図４を参照し、図４は、本願の実施例に係るステップＳ２５を具体的に実現するフローを示し、詳細は以下のとおりである。すなわち、
Ｓ２５１：レビンソン・ダービンアルゴリズムを使用して目標音声フレームの予測誤差計算式（Ｆ１）中の線形予測係数を予測し、予測結果に従って目標線形予測係数ａ’₁，ａ’_２，...,ａ’_ｐを決定し、すなわち、

具体的には、音声の隣接するサンプルポイント間の相関性により、線形予測を利用して、過去のサンプルポイント値に従って現在または将来のサンプルポイント値を予測でき、即ち、過去のいくつかの音声サンプルまたはそれらの線形結合を利用して、当該音声の現在のサンプル値に近似する。予測の目的は、予測誤差ｅ（ｎ）の平均二乗値を最小化する適切な係数セットを見つけることである。通常、実際の予測プロセスでは、まずサンプリングシーケンスを特定の数だけフレーム化し、次にフレームごとに予測し、各フレームの当該フレームのＰ個の最適予測係数を見つける。予測の精度は、特定のサンプル値の予測結果によらず、フレーム内の各サンプル値の予測効果全体によるものである。

さらに、予測の精度を向上させるために、予測誤差を小さくする必要があり、本願では、予測誤差の二乗平均誤差を導き出し、ユール・ウォーカー方程式（Ｙｕｌｅ−ＷａｌｋｅｒＥｑｕａｔｉｏｎ）を得て、レビンソン・ダービンアルゴリズムを用いてユール・ウォーカー方程式を求め、得られた線形予測係数セットは、予測誤差値を最小化する線形予測係数であり、当該線形予測係数セットを目標予測係数とする。

Ｓ２５２：目標線形予測係数に基づいて、式（Ｆ２）に従って目標音声フレームの線形予測ケプストラル係数を計算し、当該線形予測ケプストラル係数を声紋特徴とする。

具体的には、式（Ｆ２）を用いてｎの取り得る範囲に応じて対応する線形予測ケプストラル係数を計算し、得られた線形予測ケプストラル係数を音声信号シーケンスｓ（ｎ）の声紋特徴とする。
図４に対応する実施例において、目標音声フレームの予測誤差の数式に対して極値を求め、予測誤差を最小化する線形予測係数セットを目標線形予測係数として見出し、当該目標線形予測係数を用いて式（Ｆ３）によって線形予測ケプストラル係数を計算し、当該線形ケプストラル係数を声紋特徴として、収集された声紋特徴の精度を向上させ、動的声紋認識モデルの予測精度を向上させるのに役立つ。

図１に対応する実施例に基づいて、以下、具体的な実施例によってステップＳ３で記載されたそれぞれの基本声紋特徴セットにおける声紋特徴をトレーニングし、各基本声紋特徴セットの総合声紋特徴を得る具体的な方法を詳しく説明する。
図５を参照し、図５は、本願の実施例に係るステップＳ３を具体的に実現するフローを示し、詳細は以下のとおりである。すなわち、
Ｓ３１：それぞれの基本声紋特徴セットに対して、遺伝的アルゴリズムを用いて当該基本声紋特徴セットにおける声紋特徴を最適化し、当該基本声紋特徴セットに対応するコードブックセットを得る。

具体的には、遺伝的アルゴリズムを用いて当該基本声紋特徴セットにおける声紋特徴を最適化する具体的なプロセスはステップＳ３中の説明を参照し、繰り返し説明を避けるために、ここでは再度の説明を省略する。
Ｓ３２：ｘ番目の基本声紋特徴セットに対して、当該基本声紋特徴セットに対応するコードブックセット内のコードブックの総数ｑを取得し、当該コードブックセットからトレーニングサンプルとしてｋ個のコードブックを任意に選択し、トレーニングサンプルのコードブックマトリックスにつき、対応するビットに従って算術平均値を取ることによってカテゴリーコードブックＤ_ｘを取得し、当該カテゴリーコードブックＤ_ｘをｘ番目のグループの基本声紋特徴セットの総合声紋特徴として、ここで、ｋ∈［１，ｑ］、ｘとｑは正整数である。

理解されるように、各グループの基本声紋集について、当該グループの総合声紋特徴を取得し、本願の実施例において対応するビットに応じて算術平均値を取ることによってカテゴリーコードブックを得るが、他の実施例中において、実際の状況に応じて、加重平均値、幾何平均値、二乗平均値、および調和平均値によってカテゴリーコードブックを取得してもよく、ここでは特に限定されない。

なお、カテゴリーコードブックを生成した後、下記のステップＳ５２における式（Ｆ３）を用いて当該グループ内の各声紋特徴から当該カテゴリーコードブックまでの距離を計算し、これらの距離を事前設定された距離と比較して、事前設定された距離より大きくなる声紋特徴の数は事前設定された閾値を超える場合、当該カテゴリーコードブックが要件を満たさないと判断し、生成されたカテゴリーコードブックから当該グループ内の各声紋までのユークリッド距離が事前設定された距離より大きくなる数が事前に設定された閾値を超えないようになるまで、ｋ個のコードブックをランダムに選択して再トレーニングし、このときのカテゴリーコードブックを当該グループのカテゴリーコードブックとする。

図５に対応する実施例において、それぞれの基本声紋特徴セットに対して、遺伝的アルゴリズムを採用して当該基本声紋特徴セット内の声紋特徴を最適化し、当該基本声紋特徴セットに対応するコードブックセットを得て、それぞれの基本声紋特徴セットにおいて、当該基本声紋特徴セットに対応するコードブックセット内のコードブックの総数を取得し、トレーニングサンプルとして当該コードブックセットから事前設定された数のコードブックをランダムに選択し、トレーニングサンプルのコードブックマトリックスにつき、対応するビットに従って算術平均値を取ることによってカテゴリーコードブックを取得し、二次方法に従ってグループ全体のカテゴリーコードブックを取得し、それぞれのグループの総合声紋特徴を抽出することによって、呼出し操作が検出された場合、現在の音声データの属するグループを迅速に判断し、認識効率を向上させることができる。

図５に対応する実施例に基づいて、以下、具体的な実施例によってステップＳ５で記載された動的声紋認識モデルに従って、目標声紋特徴を認識し、認識されるオペレーターの呼出し権限を決定する具体的な実現方法を詳しく説明する。
図６を参照し、図６は、本願の実施例に係るステップＳ５を具体的に実現するフローを示し、詳細は以下のとおりである。すなわち、
Ｓ５１：目標声紋特徴を前処理し、目標声紋特徴の目標最適化コードブックを得る。

具体的には、ステップＳ４で取得された目標声紋特徴を前処理し、前処理プロセスはステップＳ２２〜ステップＳ２５の説明を参照でき、さらに遺伝的アルゴリズムを採用して当該基本声紋特徴セット内の声紋特徴を最適化し、具体的な最適化プロセスはステップＳ３での説明を参照し、繰り返し説明を避けるために、ここでは再度の説明を省略し、目標声紋特徴の目標最適化コードブックを得る。

Ｓ５２：式（Ｆ３）に従って目標最適化コードブックから各カテゴリーコードブックまでのユークリッド距離を計算する。
ここで、ρ_ｊ（Ａ，Ｄ_ｊ）は目標最適化コードブックＡからｊ番目のカテゴリーコードブックＤ_ｊまでのユークリッド距離で、ａ_ｔは目標最適化コードブックＡにおけるｔ番目のコードシーケンス特徴で、ｂ_ｔはカテゴリーコードブックＤ_ｊにおけるｔ番目のコードシーケンス特徴で、ｊ∈［１，J］、Ｊは基本声紋特徴セットの数である。

ここで、コードシーケンス特徴は、各目標最適化コードブック内の声紋特徴を表すために使用される係数、例えばステップＳ２５２における線形ケプストラル係数を指す。
Ｓ５３：目標ユークリッド距離として、Ｊ個のユークリッド距離から最小値のユークリッド距離を選択する。

具体的には、ステップＳ５２から分かるように、目標最適化コードブックからそれぞれのカテゴリーコードブックまではいずれも１つのユークリッド距離を取得し、最後に取得されたユークリッド距離の総数がグループの総数と合致していることが容易に理解され、これらのユークリッド距離を比較して、最小値のユークリッド距離を取得し、目標ユークリッド距離とする。

例えば、一実施形態において、合計１０のグループ、即ち１０の基本声紋特徴セットが割り当てられ、それぞれの基本声紋特徴セットは１つのカテゴリーコードブックに対応し、目標最適化コードブックから各カテゴリーコードブックまでのユークリッド距離をそれぞれ計算し、１０のユークリッド距離を得て、目標ユークリッド距離としてこれらのユークリッド距離から最小値のユークリッド距離を選択する。

Ｓ５４：目標ユークリッド距離に対応するカテゴリーコードブックの属するグループを取得し、当該グループを現在の呼出しグループとする。
具体的には、ステップＳ４２から分かるように、各カテゴリーコードブックは１つのグループに対応し、目標ユークリッド距離に対応するグループを取得し、当該グループを現在の呼出しグループとする。

Ｓ５５：対応関係に従って、現在の呼出しグループに対応する現在の呼出し権限を決定し、認識されるオペレーターの呼出し権限とする。
具体的には、ステップＳ３で決定された呼出しグループと呼出し権限との間の対応関係に従って、現在の呼出しグループに対応する呼出し権限を取得し、当該権限を認識されるオペレーターの呼出し権限とする。

図６に対応する実施例において、目標声紋特徴を前処理し、目標声紋特徴の目標最適化コードブックを得て、さらに目標最適化コードブックから各カテゴリーコードブックまでのユークリッド距離を計算し、すべてのユークリッド距離から最小値のユークリッド距離を目標ユークリッド距離として選択し、さらに目標ユークリッド距離に対応するカテゴリーコードブックの属するグループを取得し、当該グループを現在の呼出しグループとして、グループと呼出し権限との対応関係に従って、現在の呼出しグループに対応する現在の呼出し権限を認識されるオペレーターの呼出し権限として決定する。それにより、現在の呼出しへの権限判断をリアルタイムで迅速に実現し、リアルタイムの監視を実現し、監視の適時性およびオペレーターの呼出し品質を効果的に改善できる。
上記実施例における各ステップの番号は実行順序を意味するものではなく、各プロセスの実行順序はその機能および内部ロジックによって決定され、本願の実施例の実施プロセスを限定するものではないことを理解すべきである。

実施例２
実施例１における声紋認識方法に対応して、図７は、実施例１に係る声紋認識方法と一対一で対応する声紋認識装置を示す、説明の便宜上、本願の実施例に関連する部分のみを示す。
図７に示すように、当該声紋認識装置は、オペレーター権限グループ化モジュール１０、声紋特徴収集モジュール２０、認識モデル構築モジュール３０、目標特徴取得モジュール４０、呼出し権限決定モジュール５０およびリアルタイム音声警告モジュール６０を含む。各機能モジュールの詳細は下記のとおりである。すなわち、
オペレーター権限グループ化モジュール１０は、データベースにおける各オペレーターの呼出し権限を取得し、事前に設定された権限のグループ化方法に従って、それぞれのオペレーターを呼出し権限に対応するグループに割り当てるように使用される。

声紋特徴収集モジュール２０は、それぞれのグループに対して、当該グループにおけるオペレーターごとに声紋特徴を収集し、当該グループの基本声紋特徴セットを得るために用いられる。
認識モデル構築モジュール３０は、それぞれの基本声紋特徴セットにおける声紋特徴をトレーニングし、それぞれの基本声紋特徴セットの総合声紋特徴を取得し、グループ、呼出し権限と総合声紋特徴との間の対応関係に基づいて、動的声紋認識モデルを構築するために用いられる。
目標特徴取得モジュール４０は、認識されるオペレーターの呼出し操作が検出された場合、呼び出された顧客の顧客レベルおよび認識されるオペレーターの音声データを取得し、当該音声データに対して声紋特徴を抽出し、目標声紋特徴を得るために使用される。
呼出し権限決定モジュール５０は、動的声紋認識モデルに基づいて、目標声紋特徴を認識し、認識されるオペレーターの呼出し権限を決定するために使用される。
リアルタイム音声警告モジュール６０は、認識されるオペレーターの呼出し権限が顧客レベルの要件を満たさない場合、事前に設定された早期警告措置を実行するために用いられる。

さらに、声紋特徴収集モジュール２０は、
それぞれのグループ内の各オペレーターに対して、当該オペレーターが複数の事前に設定された異なるコーパスを朗読して録音サンプルを取得し、当該録音サンプルに対して声紋解析を実行し、当該オペレーターの初期声紋サンプルを得るための初期声紋取得ユニット２１と、
初期声紋サンプルに対してプリエンファシス処理を実行し、平坦スペクトルを有するエンファシス処理済み声紋サンプルを生成するための声紋エンファシス処理ユニット２２と、
フレーミングおよびウィンドウイングの方法を採用して、エンファシス処理済み声紋サンプルに対してフレーミング処理を実行し、初期音声フレームを得るための初期音声フレーム生成ユニット２３と、
初期音声フレーム信号に対してサイレントトーン分離を実行し、目標音声フレームを得るための目標音声フレーム取得ユニット２４と、
目標音声フレームに基づいて、声紋特徴を抽出するための声紋特徴抽出ユニット２５と、
それぞれのグループにおいて、当該グループにおける各オペレーターの声紋特徴を当該グループの基本声紋特徴セットとして構成するための声紋特徴セット整合ユニット２６と、さらに含む。

好ましくは、声紋特徴抽出ユニット２５は目標線形予測係数再帰サブユニット２５１および線形予測ケプストラル係数計算サブユニット２５２を含む。
目標線形予測係数再帰サブユニット２５１は、レビンソン・ダービンアルゴリズムを用いて目標音声フレームの予測誤差計算式（Ｆ１）中の線形予測係数を予測し、予測結果に従って目標線形予測係数ａ’₁，ａ’_２，...,ａ’_ｐ：を決定し、すなわち、

線形予測ケプストラル係数計算サブユニット２５２は、目標線形予測係数に基づいて、式（Ｆ２）に従って目標音声フレームの線形予測ケプストラル係数を計算し、線形予測ケプストラル係数を声紋特徴として、すなわち、

さらに、認識モデル構築モジュール３０は、特徴コードブック最適化ユニット３１およびカテゴリーコードブックトレーニングユニット３２を含む。
特徴コードブック最適化ユニット３１は、それぞれの基本声紋特徴セットに対して、遺伝的アルゴリズムを用いて当該基本声紋特徴セットにおける声紋特徴を最適化し、当該基本声紋特徴セットに対応するコードブックセットを得る。
カテゴリーコードブックトレーニングユニット３２は、ｘ番目の基本声紋特徴セットに対して、当該基本声紋特徴セットに対応するコードブックセット内のコードブックの総数ｑを取得し、当該コードブックセットからトレーニングサンプルとしてｋ個のコードブックを任意に選択し、当該トレーニングサンプルのコードブックマトリックスを対応するビットに従って算術平均値を取ることによってカテゴリーコードブックＤ_ｘを取得し、当該カテゴリーコードブックＤ_ｘをｘ番目のグループの基本声紋特徴セットの総合声紋特徴として、ここで、ｋ∈［１，ｑ］、ｘとｑは正整数である。

さらに、呼出し権限決定モジュール５０は、
目標声紋特徴を前処理し、目標声紋特徴の目標最適化コードブックを得るための目標最適化コードブック取得ユニット５１と、
式（Ｆ３）に従って目標最適化コードブックから各カテゴリーコードブックまでのユークリッド距離を計算するためのユークリッド距離計算ユニット５２と、
ここで、ρ_ｊ（Ａ,Ｄ_ｊ）は目標最適化コードブックＡからｊ番目のカテゴリーコードブックＤ_ｊまでのユークリッド距離で、ａ_ｔは目標最適化コードブックＡにおけるｔ番目のコードシーケンス特徴で、ｂ_ｔはカテゴリーコードブックＤ_ｊにおけるｔ番目のコードシーケンス特徴で、ｊ∈［１，J］、Jは基本声紋特徴セットの数であり、
ｎ個のユークリッド距離から最小値のユークリッド距離を目標ユークリッド距離として選択するための目標ユークリッド距離選択ユニット５３と、
目標ユークリッド距離に対応するカテゴリーコードブックの属するグループを取得し、当該グループを当前呼出しグループとするための現在の呼出しグループ決定ユニット５４と、
対応関係に従って、現在の呼出しグループに対応する現在の呼出し権限を決定し、認識されるオペレーターの呼出し権限とするための現在の呼出し権限取得ユニット５５と、を含む。
本実施例に係る声紋認識装置における各モジュールの各機能を実現するプロセスは、具体的に上記の実施例１の説明を参照し、ここでは再度の説明を省略する。

実施例３
本実施例は、コンピューター可読コマンドが記憶されている１つ以上の不揮発性可読記憶媒体を提供し、当該不揮発性可読記憶媒体にコンピューター可読コマンドが記憶され、当該コンピューター可読コマンドが１つ以上のプロセッサによって実行されるときに実施例１における声紋認識方法を実現し、または、当該コンピューター可読コマンドが１つ以上のプロセッサによって実行されるときに実施例２における声紋認識装置の各モジュール／ユニットの機能を実現する。繰り返し説明を避けるため、ここでは再度の説明を省略する。

前記不揮発性可読記憶媒体は、前記コンピューター可読コマンドコードを運ぶことができる任意のエンティティまたは装置、記録媒体、ＵＳＢメモリ、モバイルハードディスク、磁気ディスク、光ディスク、コンピューターメモリ、読み取り専用メモリ（Ｒｅａｄ−ＯｎｌｙＭｅｍｏｒｙ、ＲＯＭ）、ランダムアクセスメモリ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ，ＲＡＭ）、電気搬送信号や電気信号などを含んでもよいことは理解すべきである。

実施例４
図８は、本願の一実施例に係る端末機器を示す図である。図８に示すように、当該実施例の端末機器８０は、プロセッサ８１と、メモリ８２と、メモリ８２に記憶され、プロセッサ８１で動作可能な声紋認識プログラムなどのコンピューター可読コマンド８３と、を含む。プロセッサ８１は、コンピューター可読コマンド８３を実行するときに上記各声紋認識方法の実施例におけるステップ、例えば図１に示すステップＳ１〜ステップＳ６を実現する。または、プロセッサ８１は、コンピューター可読コマンド８３を実行するときに上記各装置実施例における各モジュール／ユニットの機能、例えば図７に示すモジュール１０〜モジュール６０の機能を実現する。

例示的に、コンピューター可読コマンド８３は、１つ以上のモジュール／ユニットに分割されてもよく、１つ以上のモジュール／ユニットはメモリ８２に記憶され、プロセッサ８１によって実行され、本願に至った。１つ以上のモジュール／ユニットは、具体的な機能を実行できる一連のコンピューター可読コマンドのコマンドセグメントであってもよく、当該コマンドセグメントは、端末機器８０におけるコンピューター可読コマンド８３の実行プロセスを記述するために使用され、例えば、コンピューター可読コマンド８３はオペレーター権限グループ化モジュール、声紋特徴収集モジュール、認識モデル構築モジュール、目標特徴取得モジュール、呼出し権限決定モジュールおよびリアルタイム音声警告モジュールに分割されてもよく、各モジュールの具体的な機能は実施例２に示すとおりであり、繰り返し説明を避けるため、ここでは再度の説明を省略する。

説明しやすくおよび簡潔にするために、上記の各機能ユニット、モジュールの配分のみを例示したが、当業者であれば、実際の応用において、必要に応じて上記機能の配分は異なる機能ユニット、モジュールによって完成されて、すなわち前記装置の内部構造を異なる機能ユニットまたはモジュールに分けして上記機能の全部または一部を実現できることは明確に理解できるであろう。

上述した実施例は本願の技術的解決手段を説明するためのものであり、これに限定されるものではない。前記の実施例を参照しながら本願を詳細に説明したが、当業者であれば、前記の各実施例に記載された技術的解決手段を変更し、またはその技術特徴の一部を等価的に置き換えることができることを理解すべきである。これらの変更や置き換えは、対応する技術的解決手段の本質が本願の各実施例の技術的解決手段の要旨および範囲から逸脱することなく、本発明の保護の範囲に含まれる。

本願は、２０１８年５月２９日に出願した「声紋認識方法、装置、端末機器および記憶媒体」と題された中国特許出願第２０１８１０５２８５１８．０号に基づく優先権を主張する。
本願は、コンピューター通信技術の分野に関し、特に声紋認識方法、装置、端末機器および記憶媒体に関する。

Claims

データベースにおける各オペレーターの呼出し権限を取得し、事前に設定された権限のグループ化方法に従って、各オペレーターを前記呼出し権限に対応するグループに割り当てることと、
前記グループのそれぞれに対し、当該グループにおいて、前記オペレーターごとに声紋特徴を収集し、当該グループの基本声紋特徴セットを得ることと、
前記基本声紋特徴セットのそれぞれにおける声紋特徴をトレーニングし、前記基本声紋特徴セットのそれぞれの総合声紋特徴を取得し、前記グループと前記呼出し権限と前記総合声紋特徴との間の声紋対応関係に基づいて、動的声紋認識モデルを構築することと、
認識されるオペレーターの呼出し操作が検出された場合、呼び出された顧客の顧客レベルおよび前記認識されるオペレーターの音声データを取得し、前記音声データに対して声紋特徴を抽出し、目標声紋特徴を得ることと、
前記動的声紋認識モデルに基づいて、前記目標声紋特徴を認識し、前記認識されるオペレーターの呼出し権限を決定することと、
前記認識されるオペレーターの呼出し権限が前記顧客レベルの要件を満たさない場合、事前に設定された早期警告措置を実行することと、を含むことを特徴とする声紋認識方法。
前記グループのそれぞれに対し、当該グループ内の前記オペレーターごとに声紋特徴を収集し、当該グループの基本声紋特徴セットを得ることは、
前記グループのそれぞれにおける前記各オペレーターに対して、当該オペレーターが複数の事前に設定された異なるコーパスを朗読する録音サンプルを取得し、前記録音サンプルに対して声紋解析を実行し、当該オペレーターの初期声紋サンプルを得ることと、
前記初期声紋サンプルに対してプリエンファシス処理を実行し、平坦スペクトルを有するエンファシス処理済み声紋サンプルを生成することと、
フレーミングおよびウィンドウイングの方法を採用して、前記エンファシス処理済み声紋サンプルに対してフレーミング処理を実行し、初期音声フレームを得ることと、
初期音声フレーム信号に対してサイレントトーン分離を実行し、目標音声フレームを得ることと、
前記目標音声フレームに基づいて、声紋特徴を抽出することと、
前記グループのそれぞれにおいて、当該グループにおける前記各オペレーターの前記声紋特徴を当該グループの前記基本声紋特徴セットとして構成することと、を含むことを特徴とする請求項１に記載の声紋認識方法。
前記目標音声フレームに基づいて、声紋特徴を抽出することは、
レビンソン・ダービンアルゴリズムを用いて前記目標音声フレームの予測誤差の計算式（Ｆ１）中の線形予測係数を予測し、予測結果に従って目標線形予測係数ａ’₁，ａ’_２，...,ａ’_ｐを決定することと、
前記目標線形予測係数に基づいて、式（Ｆ２）に従って前記目標音声フレームの線形予測ケプストラル係数を計算し、前記線形予測ケプストラル係数を前記声紋特徴とすることと、
前記基本声紋特徴セットのそれぞれにおける声紋特徴をトレーニングし、前記基本声紋特徴セットのそれぞれの総合声紋特徴を取得することは、
前記基本声紋特徴セットのそれぞれに対して、遺伝的アルゴリズムを採用して当該基本声紋特徴セットにおける声紋特徴を最適化し、当該基本声紋特徴セットに対応するコードブックセットを得ることと、
ｘ番目の前記基本声紋特徴セットに対して、当該基本声紋特徴セットに対応する前記コードブックセットにおけるコードブックの総数ｑを取得し、当該コードブックセットからトレーニングサンプルとしてｋ個のコードブックを任意に選択し、前記トレーニングサンプルのコードブックマトリックスが対応するビットに応じて算術平均値を取ることによってカテゴリーコードブックＤ_ｘを得て、当該カテゴリーコードブックＤ_ｘをｘ番目のグループの基本声紋特徴セットの総合声紋特徴とすることと、ここで、ｋ∈［１，ｑ］、ｘとｑは正整数であること、を含むことを特徴とする請求項１に記載の声紋認識方法。
前記動的声紋認識モデルに基づいて、前記目標声紋特徴を認識し、前記認識されるオペレーターの呼出し権限を決定することは、
前記目標声紋特徴を前処理し、前記目標声紋特徴の目標最適化コードブックを得ることと、
式（Ｆ３）に応じて前記目標最適化コードブックから各前記カテゴリーコードブックまでのユークリッド距離を計算することと、
ここで、ρ_ｊ（Ａ,Ｄ_ｊ）は目標最適化コードブックＡからｊ番目の前記カテゴリーコードブックＤ_ｊまでのユークリッド距離で、ａ_ｔは目標最適化コードブックＡにおけるｔ番目のコードシーケンス特徴で、ｂ_ｔは前記カテゴリーコードブックＤ_ｊにおけるｔ番目のコードシーケンス特徴で、ｊ∈［１，J］、Ｊは前記基本声紋特徴セットの数であり、
Ｊ個の前記ユークリッド距離から目標ユークリッド距離として最小値のユークリッド距離を選択することと、
前記目標ユークリッド距離に対応するカテゴリーコードブックの属するグループを取得し、当該グループを現在の呼出しグループとすることと、
前記対応関係に従って、前記現在の呼出しグループに対応する現在の呼出し権限を決定し、前記認識されるオペレーターの呼出し権限とすることと、を含むことを特徴とする請求項４に記載の声紋認識方法。
データベースにおける各オペレーターの呼出し権限を取得し、事前に設定された権限のグループ化方法に従って、前記各オペレーターを前記呼出し権限に対応するグループに割り当てるためのオペレーター権限グループ化モジュールと、
前記グループのそれぞれに対して、当該グループにおける前記オペレーターごとに声紋特徴を収集し、当該グループの基本声紋特徴セットを得るためのオペレーター権限グループ化モジュールと、
前記基本声紋特徴セットのそれぞれにおける声紋特徴をトレーニングし、前記基本声紋特徴セットのそれぞれの総合声紋特徴を取得し、前記グループ、前記呼出し権限と前記総合声紋特徴との間の声紋対応関係に基づいて、動的声紋認識モデルを構築するための認識モデル構築モジュールと、
認識されるオペレーターの呼出し操作が検出された場合、呼び出された顧客の顧客レベルおよび前記認識されるオペレーターの音声データを取得し、且つ、前記音声データに対して声紋特徴を抽出し、目標声紋特徴を得るための目標特徴取得モジュールと、
前記動的声紋認識モデルに基づいて、前記目標声紋特徴を認識し、前記認識されるオペレーターの呼出し権限を決定するための呼出し権限決定モジュールと、
前記認識されるオペレーターの呼出し権限が前記顧客レベルの要件を満たさない場合、事前に設定された早期警告措置を実行するためのリアルタイム音声警告モジュールと、を含むことを特徴とする声紋認識装置。
声紋特徴収集モジュールは、
前記グループのそれぞれにおける前記各オペレーターに対して、当該オペレーターが複数の事前に設定された異なるコーパスを朗読して録音サンプルを取得し、前記録音サンプルに対して声紋解析を実行し、当該オペレーターの初期声紋サンプルを得るための初期声紋取得ユニットと、
前記初期声紋サンプルに対してプリエンファシス処理を実行し、平坦スペクトルを有するエンファシス処理済み声紋サンプルを生成するための声紋エンファシス処理ユニットと、
フレーミングおよびウィンドウイングの方法を採用して、前記エンファシス処理済み声紋サンプルに対してフレーミング処理を実行し、初期音声フレームを得るための初期音声フレーム生成ユニットと、
前記初期音声フレーム信号に対してサイレントトーン分離を実行し、目標音声フレームを得るための目標音声フレーム取得ユニットと、
前記目標音声フレームに基づいて、声紋特徴を抽出するための声紋特徴抽出ユニットと、
前記グループのそれぞれにおいて、当該グループにおける前記各オペレーターの前記声紋特徴を当該グループの前記基本声紋特徴セットとして構成するための声紋特徴セット整合ユニットと、を含むことを特徴とする請求項６に記載の声紋認識装置。
前記声紋特徴抽出ユニットは、
レビンソン・ダービンアルゴリズムを用いて前記目標音声フレームの予測誤差の計算式（Ｆ１）中の線形予測係数を予測し、予測結果に従って目標線形予測係数ａ’₁，ａ’_２，...,ａ’_ｐを決定するための目標線形予測係数再帰サブユニットと、
前記目標線形予測係数に従って、式（Ｆ２）に応じて前記目標音声フレームの線形予測ケプストラル係数を計算し、前記線形予測ケプストラル係数を前記声紋特徴とするための線形予測ケプストラル係数計算サブユニットと、
前記認識モデル構築モジュールは、
前記それぞれの基本声紋特徴セットに対して、遺伝的アルゴリズムを採用して当該基本声紋特徴セット内の声紋特徴を最適化し、当該基本声紋特徴セットに対応するコードブックセットを得るための特徴コードブック最適化ユニットと、
ｘ番目の前記基本声紋特徴セットに対して、当該基本声紋特徴セットに対応する前記コードブックセット内のコードブックの総数ｑを取得し、当該コードブックセットからトレーニングサンプルとしてｋ個のコードブックを任意に選択し、前記トレーニングサンプルのコードブックマトリックスを対応するビットに応じて算術平均値を取ることによってカテゴリーコードブックＤ_ｘを取得し、当該カテゴリーコードブックＤ_ｘをｘ番目のグループの基本声紋特徴セットの総合声紋特徴とするためのカテゴリーコードブックトレーニングユニットと、ここで、ｋ∈［１，ｑ］、ｘとｑは正整数であること、を含むことを特徴とする請求項６に記載の声紋認識装置。
前記呼出し権限決定モジュールは、
前記目標声紋特徴を前処理し、前記目標声紋特徴の目標最適化コードブックを得るための目標最適化コードブック取得ユニットと、
式（Ｆ３）に応じて前記目標最適化コードブックから各前記カテゴリーコードブックまでのユークリッド距離を計算するためのユークリッド距離計算ユニットと、
ここで、ρ_ｊ（Ａ,Ｄ_ｊ）は目標最適化コードブックＡからｊ番目の前記カテゴリーコードブックＤ_ｊまでのユークリッド距離で、ａ_ｔは目標最適化コードブックＡにおけるｔ番目のコードシーケンス特徴で、ｂ_ｔは前記カテゴリーコードブックＤ_ｊにおけるｔ番目のコードシーケンス特徴で、Ｊ∈［１，J］、Ｊは前記基本声紋特徴セットの数であり、
Ｊ個の前記ユークリッド距離から目標ユークリッド距離として最小値のユークリッド距離を選択するための目標ユークリッド距離選択ユニットと、
前記目標ユークリッド距離に対応するカテゴリーコードブックの属するグループを取得し、当該グループを現在の呼出しグループとするための現在の呼出しグループ決定ユニットと、
前記対応関係に従って、前記現在の呼出しグループに対応する現在の呼出し権限を決定し、前記認識されるオペレーターの呼出し権限とするための現在の呼出し権限取得ユニットと、を含むことを特徴とする請求項９に記載の声紋認識装置。
メモリと、プロセッサと、前記メモリに記憶され、前記プロセッサで動作可能なコンピューター可読コマンドとを含む端末機器であって、前記プロセッサが前記コンピューター可読コマンドを実行するときに、下記のステップ、すなわち、
データベースにおける各オペレーターの呼出し権限を取得し、事前に設定された権限のグループ化方法に従って、前記各オペレーターを前記呼出し権限に対応するグループに割り当てるステップと、
前記グループのそれぞれに対して、当該グループにおける前記オペレーターごとに声紋特徴を収集し、当該グループの基本声紋特徴セットを得るステップと、
前記基本声紋特徴セットのそれぞれにおける声紋特徴をトレーニングし、前記基本声紋特徴セットのそれぞれの総合声紋特徴を取得し、前記グループと前記呼出し権限と前記総合声紋特徴との間の声紋対応関係に基づいて、動的声紋認識モデルを構築するステップと、
認識されるオペレーターの呼出し操作が検出された場合、呼び出された顧客の顧客レベルおよび前記認識されるオペレーターの音声データを取得し、前記音声データに対して声紋特徴を抽出し、目標声紋特徴を得るステップと、
前記動的声紋認識モデルに基づいて、前記目標声紋特徴を認識し、前記認識されるオペレーターの呼出し権限を決定するステップと、
前記認識されるオペレーターの呼出し権限が前記顧客レベルの要件を満たさない場合、事前に設定された早期警告措置を実行するステップと、を実行することを特徴とする端末機器。
前記グループのそれぞれに対して、当該グループにおける前記オペレーターごとに声紋特徴を収集し、当該グループの基本声紋特徴セットを得ることは、
前記グループのそれぞれにおける前記各オペレーターに対して、当該オペレーターが複数の事前に設定された異なるコーパスを朗読して録音サンプルを取得し、前記録音サンプルに対して声紋解析を実行し、当該オペレーターの初期声紋サンプルを得ることと、
前記初期声紋サンプルに対してプリエンファシス処理を実行し、平坦スペクトルを有するエンファシス処理済み声紋サンプルを生成することと、
フレーミングおよびウィンドウイングの方法を採用して、前記エンファシス処理済み声紋サンプルに対してフレーミング処理を実行し、初期音声フレームを得ることと、
前記初期音声フレーム信号に対してサイレントトーン分離を実行し、目標音声フレームを得ることと、
前記目標音声フレームに基づいて、声紋特徴を抽出することと、
前記グループのそれぞれにおいて、当該グループにおける前記オペレーターのそれぞれの前記声紋特徴を当該グループの前記基本声紋特徴セットとして構成することと、を含むことを特徴とする請求項１１に記載の端末機器。
計算式（Ｆ１）中の線形予測係数を予測し、予測結果に従って目標線形予測係数ａ’₁，ａ’_２，...,ａ’_ｐを決定することと、
前記目標線形予測係数に基づいて、式（Ｆ２）に応じて前記目標音声フレームの線形予測ケプストラル係数を計算し、前記線形予測ケプストラル係数を前記声紋特徴とすることと、
前記基本声紋特徴セットのそれぞれにおける声紋特徴をトレーニングし、前記基本声紋特徴セットのそれぞれの総合声紋特徴を取得することは、
前記基本声紋特徴セットのそれぞれに対して、遺伝的アルゴリズムを採用して当該基本声紋特徴セットにおける声紋特徴を最適化し、当該基本声紋特徴セットに対応するコードブックセットを得ることと、
ｘ番目の前記基本声紋特徴セットに対して、当該基本声紋特徴セットに対応する前記コードブックセット内のコードブックの総数ｑを取得し、当該コードブックセットからトレーニングサンプルとしてｋ個のコードブックを任意に選択し、前記トレーニングサンプルのコードブックマトリックスを対応するビットに応じて算術平均値を取ることによってカテゴリーコードブックＤ_ｘを取得し、当該カテゴリーコードブックＤ_ｘをｘ番目のグループの基本声紋特徴セットの総合声紋特徴とすることと、ここで、ｋ∈［１，ｑ］、ｘとｑは正整数であること、を含むことを特徴とする請求項１１に記載の端末機器。
前記動的声紋認識モデルに基づいて、前記目標声紋特徴を認識し、前記認識されるオペレーターの呼出し権限を決定することは、
前記目標声紋特徴を前処理し、前記目標声紋特徴の目標最適化コードブックを得ることと、
式（Ｆ３）に応じて前記目標最適化コードブックから各前記カテゴリーコードブックまでのユークリッド距離を計算することと、
ここで、ρ_ｊ（Ａ,Ｄ_ｊ）は目標最適化コードブックＡからｊ番目の前記カテゴリーコードブックＤ_ｊまでのユークリッド距離で、ａ_ｔは目標最適化コードブックＡにおけるｔ番目のコードシーケンス特徴で、ｂ_ｔは前記カテゴリーコードブックＤ_ｊにおけるｔ番目のコードシーケンス特徴で、ｊ∈［１，J］、Ｊは前記基本声紋特徴セットの数であり、
Ｊ個の前記ユークリッド距離から目標ユークリッド距離として最小値のユークリッド距離を選択することと、
前記目標ユークリッド距離に対応するカテゴリーコードブックの属するグループを取得し、当該グループを現在の呼出しグループとすることと、
前記対応関係に従って、前記現在の呼出しグループに対応する現在の呼出し権限を決定し、前記認識されるオペレーターの呼出し権限とすることと、を含むことを特徴とする請求項１４に記載の端末機器。
コンピューター可読コマンドが記憶されている１つ以上の不揮発性可読記憶媒体であって、前記コンピューター可読コマンドが１つ以上のプロセッサによって実行されるときに、前記１つ以上のプロセッサに、
データベースにおける各オペレーターの呼出し権限を取得し、事前に設定された権限のグループ化方法に従って、前記各オペレーターを前記呼出し権限に対応するグループに割り当てるステップと、
前記グループのそれぞれに対して、当該グループにおける前記オペレーターごとに声紋特徴を収集し、当該グループの基本声紋特徴セットを得るステップと、
前記基本声紋特徴セットのそれぞれにおける声紋特徴をトレーニングし、前記基本声紋特徴セットのそれぞれの総合声紋特徴を取得し、前記グループと前記呼出し権限と前記総合声紋特徴との間の声紋対応関係に基づいて、動的声紋認識モデルを構築するステップと、
認識されるオペレーターの呼出し操作が検出された場合、呼び出された顧客の顧客レベルおよび前記認識されるオペレーターの音声データを取得し、前記音声データに対して声紋特徴を抽出し、目標声紋特徴を得るステップと、
前記動的声紋認識モデルに基づいて、前記目標声紋特徴を認識し、前記認識されるオペレーターの呼出し権限を決定するステップと、
前記認識されるオペレーターの呼出し権限が前記顧客レベルの要件を満たさない場合、事前に設定された早期警告措置を実行するステップと、を実行させることを特徴とする不揮発性可読記憶媒体。
前記グループのそれぞれについて、当該グループ内の前記オペレーターごとに声紋特徴を収集し、当該グループの基本声紋特徴セットを得ることは、
前記グループのそれぞれにおける前記各オペレーターに対して、当該オペレーターが複数の事前に設定された異なるコーパスを朗読して録音サンプルを取得し、前記録音サンプルに対して声紋解析を実行し、当該オペレーターの初期声紋サンプルを得ることと、
前記初期声紋サンプルに対してプリエンファシス処理を実行し、平坦スペクトルを有するエンファシス処理済み声紋サンプルを生成することと、
フレーミングおよびウィンドウイングの方法を採用して、前記エンファシス処理済み声紋サンプルに対してフレーミング処理を実行し、初期音声フレームを得ることと、
前記初期音声フレーム信号に対してサイレントトーン分離を実行し、目標音声フレームを得ることと、
前記目標音声フレームに基づいて、声紋特徴を抽出することと、
前記グループのそれぞれにおいて、当該グループにおける前記各オペレーターの前記声紋特徴を当該グループの前記基本声紋特徴セットとして構成することと、を含むことを特徴とする請求項１６に記載の不揮発性可読記憶媒体。
前記目標音声フレームに基づいて、声紋特徴を抽出することは、
レビンソン・ダービンアルゴリズムを使用して前記目標音声フレームの予測誤差の計算式（Ｆ１）中の線形予測係数を予測し、予測結果に従って目標線形予測係数ａ’₁，ａ’_２，...,ａ’_ｐを決定することと、
前記目標線形予測係数に基づいて、式（Ｆ２）に応じて前記目標音声フレームの線形予測ケプストラル係数を計算し、前記線形予測ケプストラル係数を前記声紋特徴とすることと、
前記基本声紋特徴セットのそれぞれにおける声紋特徴をトレーニングし、前記基本声紋特徴セットのそれぞれの総合声紋特徴を取得することは、
前記基本声紋特徴セットのそれぞれに対して、遺伝的アルゴリズムを採用して当該基本声紋特徴セットにおける声紋特徴を最適化し、当該基本声紋特徴セットに対応するコードブックセットを得ることと、
ｘ番目の前記基本声紋特徴セットに対して、当該基本声紋特徴セットに対応する前記コードブックセット内のコードブックの総数ｑを取得し、当該コードブックセットからトレーニングサンプルとしてｋ個のコードブックを任意に選択し、前記トレーニングサンプルのコードブックマトリックスを対応するビットに応じて算術平均値を取ることによってカテゴリーコードブックＤ_ｘを取得し、当該カテゴリーコードブックＤ_ｘをｘ番目のグループの基本声紋特徴セットの総合声紋特徴とすることと、ここで、ｋ∈［１，ｑ］、ｘとｑは正整数であること、を含むことを特徴とする請求項１６に記載の不揮発性可読記憶媒体。
前記動的声紋認識モデルに基づいて、前記目標声紋特徴を認識し、前記認識されるオペレーターの呼出し権限を決定することは、
前記目標声紋特徴を前処理し、前記目標声紋特徴の目標最適化コードブックを得ることと、
式（Ｆ３）に応じて前記目標最適化コードブックから各前記カテゴリーコードブックまでのユークリッド距離を計算することと、
ここで、ρ_ｊ（Ａ,Ｄ_ｊ）は目標最適化コードブックＡからｊ番目の前記カテゴリーコードブックＤ_ｊまでのユークリッド距離で、ａ_ｔは目標最適化コードブックＡにおけるｔ番目のコードシーケンス特徴で、ｂ_ｔは前記カテゴリーコードブックＤ_ｊにおけるｔ番目のコードシーケンス特徴で、ｊ∈［１，J］、Ｊは前記基本声紋特徴セットの数であり、
Ｊ個の前記ユークリッド距離から目標ユークリッド距離として最小値のユークリッド距離を選択することと、
前記目標ユークリッド距離に対応するカテゴリーコードブックの属するグループを取得し、当該グループを現在の呼出しグループとすることと、
前記対応関係に従って、前記現在の呼出しグループに対応する現在の呼出し権限を決定し、前記認識されるオペレーターの呼出し権限とすることと、を含むことを特徴とする請求項１９に記載の不揮発性可読記憶媒体。