JP2020525817A - 声紋認識方法、装置、端末機器および記憶媒体 - Google Patents
声紋認識方法、装置、端末機器および記憶媒体 Download PDFInfo
- Publication number
- JP2020525817A JP2020525817A JP2019563563A JP2019563563A JP2020525817A JP 2020525817 A JP2020525817 A JP 2020525817A JP 2019563563 A JP2019563563 A JP 2019563563A JP 2019563563 A JP2019563563 A JP 2019563563A JP 2020525817 A JP2020525817 A JP 2020525817A
- Authority
- JP
- Japan
- Prior art keywords
- voiceprint
- target
- group
- operator
- voiceprint feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 72
- 230000008569 process Effects 0.000 claims abstract description 14
- 238000012549 training Methods 0.000 claims description 29
- 238000013475 authorization Methods 0.000 claims description 28
- 238000005457 optimization Methods 0.000 claims description 26
- 238000009432 framing Methods 0.000 claims description 20
- 238000012545 processing Methods 0.000 claims description 19
- 238000001228 spectrum Methods 0.000 claims description 13
- 230000002068 genetic effect Effects 0.000 claims description 11
- 238000004364 calculation method Methods 0.000 claims description 10
- 238000004458 analytical method Methods 0.000 claims description 8
- 238000000926 separation method Methods 0.000 claims description 8
- 238000010276 construction Methods 0.000 claims description 7
- 238000000605 extraction Methods 0.000 claims description 7
- 239000011159 matrix material Substances 0.000 claims description 7
- 238000007781 pre-processing Methods 0.000 claims description 7
- 230000009471 action Effects 0.000 claims description 6
- 238000012544 monitoring process Methods 0.000 abstract description 10
- 230000005236 sound signal Effects 0.000 description 12
- 230000006870 function Effects 0.000 description 11
- 238000005070 sampling Methods 0.000 description 7
- 230000003252 repetitive effect Effects 0.000 description 5
- 238000001514 detection method Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000037433 frameshift Effects 0.000 description 3
- 238000011002 quantification Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000033228 biological regulation Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000007423 decrease Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 108010076504 Protein Sorting Signals Proteins 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 210000000349 chromosome Anatomy 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 210000004704 glottis Anatomy 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000035772 mutation Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 230000005855 radiation Effects 0.000 description 1
- 238000010183 spectrum analysis Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/42—Systems providing special services or facilities to subscribers
- H04M3/50—Centralised arrangements for answering calls; Centralised arrangements for recording messages for absent or busy subscribers ; Centralised arrangements for recording messages
- H04M3/51—Centralised call answering arrangements requiring operator intervention, e.g. call or contact centers for telemarketing
- H04M3/523—Centralised call answering arrangements requiring operator intervention, e.g. call or contact centers for telemarketing with call distribution or queueing
- H04M3/5232—Call distribution algorithms
- H04M3/5233—Operator skill based call distribution
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
- G10L17/08—Use of distortion metrics or a particular distance between probe pattern and reference templates
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M2201/00—Electronic components, circuits, software, systems or apparatus used in telephone systems
- H04M2201/41—Electronic components, circuits, software, systems or apparatus used in telephone systems using speaker recognition
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M2203/00—Aspects of automatic or semi-automatic exchanges
- H04M2203/60—Aspects of automatic or semi-automatic exchanges related to security aspects in telephonic communication systems
- H04M2203/6054—Biometric subscriber identification
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M2250/00—Details of telephonic subscriber devices
- H04M2250/74—Details of telephonic subscriber devices with voice recognition means
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/42—Systems providing special services or facilities to subscribers
- H04M3/50—Centralised arrangements for answering calls; Centralised arrangements for recording messages for absent or busy subscribers ; Centralised arrangements for recording messages
- H04M3/51—Centralised call answering arrangements requiring operator intervention, e.g. call or contact centers for telemarketing
- H04M3/5175—Call or contact centers supervision arrangements
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Business, Economics & Management (AREA)
- Marketing (AREA)
- Signal Processing (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Telephonic Communication Services (AREA)
Abstract
Description
従来技術では、通常、その後録音を聴取して分析することにより、権限に適合しない呼出し情報を取得して対応処理を実行するが、タイムリーな早期警報ができておらず、顧客サービスの音声呼び出しの監視ができない場合、監視制御の効率が低下する。
データベースにおける各オペレーターの呼出し権限を取得し、事前に設定された権限のグループ化方法に従って、前記各オペレーターを前記呼出し権限に対応するグループに割り当てることと、
前記グループのそれぞれについて、当該グループにおける前記オペレーターごとに声紋特徴を収集し、当該グループの基本声紋特徴セットを得ることと、
前記基本声紋特徴セットのそれぞれにおける声紋特徴をトレーニングし、前記基本声紋特徴セットのそれぞれの総合声紋特徴を取得し、前記グループと前記呼出し権限と前記総合声紋特徴との間の対応関係に基づいて、動的声紋認識モデルを構築することと、
認識されるオペレーターの呼出し操作が検出された場合、呼び出された顧客の顧客レベルおよび前記認識されるオペレーターの音声データを取得し、前記音声データに対して声紋特徴を抽出し、目標声紋特徴を得ることと、
前記動的声紋認識モデルに基づいて、前記目標声紋特徴を認識し、前記認識されるオペレーターの呼出し権限を決定することと、
前記認識されるオペレーターの呼出し権限が前記顧客レベルの要件を満たさない場合、事前に設定された早期警告措置を実行することと、を含む。
データベースにおける各オペレーターの呼出し権限を取得し、事前に設定された権限のグループ化方法に従って、前記各オペレーターを前記呼出し権限に対応するグループに割り当てるためのオペレーター権限グループ化モジュールと、
前記グループのそれぞれに対して、当該グループにおける前記オペレーターごとに声紋特徴を収集し、当該グループの基本声紋特徴セットを得るための声紋特徴収集モジュールと、
前記基本声紋特徴セットのそれぞれにおける声紋特徴をトレーニングし、前記基本声紋特徴セットのそれぞれの総合声紋特徴を取得し、前記グループと前記呼出し権限と前記総合声紋特徴との間の対応関係に基づいて、動的声紋認識モデルを構築するための認識モデル構築モジュールと、
認識されるオペレーターの呼出し操作が検出された場合、呼び出された顧客の顧客レベルおよび前記認識されるオペレーターの音声データを取得し、前記音声データに対して声紋特徴を抽出し、目標声紋特徴を得るための目標特徴取得モジュールと、
前記動的声紋認識モデルに基づいて、前記目標声紋特徴を認識し、前記認識されるオペレーターの呼出し権限を決定するための呼出し権限決定モジュールと、
前記認識されるオペレーターの呼出し権限が前記顧客レベルの要件を満たさない場合、事前に設定された早期警告措置を実行するためのリアルタイム音声警告モジュールと、を含む。
本願の1つ以上の実施例の詳細は、以下の図面および説明に記載されており、本願の他の特徴および利点は、明細書、図面および特許請求の範囲から明らかになる。
図1を参照し、図1は、本実施例に係る声紋認識方法を実現するフローを示す。当該声紋認識方法はコールセンターのオペレーターによる呼出しシーンに応用され、当該コールセンターは、サーバー側およびクライアント側を含み、ここで、サーバー側とクライアント側はネットワークを介して接続され、オペレーターがクライアント側を介して呼出し、クライアント側は具体的には、パーソナルコンピューター、ノートブックコンピューター、スマートフォン、タブレットや携帯型ウェアラブルデバイスなどであってもよいが、これらに限定されず、サーバー側は具体的には、個別のサーバーまたは複数のサーバーで構成されるサーバー群によって実現される。本願の実施例に係る声紋認識方法は、サーバー側に応用され、詳細は以下のとおりである。すなわち:
S1:データベースにおける各オペレーターの呼出し権限を取得し、事前に設定された権限のグループ化方法に従って、それぞれのオペレーターを呼出し権限に対応するグループに割り当てる。
例えば、一実施形態において、データベースに記憶される呼出し権限にはR1、R2、R3、R4、R5およびR6という6つのレベルがあり、オペレーターは合計3000人であり、これらのオペレーターは、その対応する権限に従って6つの異なる権限レベルのグループに割り当てられ、権限の高い順で下記のようにグループで分けられ、すなわち、グループ1は合計10人で、対応する権限はR1であり、グループ2は合計80人で、対応する権限はR2であり、グループ3は合計200人で、対応する権限はR3であり、グループ4は合計600人で、対応する権限はR4であり、グループ5は合計1800人で、対応する権限はR5であり、グループ6は合計310人で、対応する権限はR6である。
S2:それぞれのグループについて、当該グループにおけるオペレーターごとに声紋特徴を収集し、当該グループの基本声紋特徴セットを得る。
ここで、声紋特徴には、音響特徴、語彙特徴、韻律特徴、言語方言アクセント情報やチャネル情報などが含まれるが、これらに限定されない。
好ましくは、本願で使用される声紋特徴は音響特徴である。
具体的には、それぞれの基本声紋特徴セットにおける声紋特徴をトレーニングし、それぞれの基本声紋特徴セットの総合声紋特徴、すなわち当該グループの総合声紋特徴を取得し、ステップS1およびステップS2で提供されるグループと呼出し権限との対応関係、グループと声紋特徴との対応関係に従って、動的声紋認識モデルを構築する。
具体的には、認識されるオペレーターの呼出し操作が検出された場合、呼び出された顧客の顧客識別情報に従って、顧客データベースから当該識別情報を検索し、呼び出された顧客の顧客レベルを取得する。
ステップS1で記憶される6つの権限レベルを例として、顧客データベースにおける顧客レベルはレベル1からレベル10に分けられ、権限に従ってグループ化された6つのグループに対応する権限はそれぞれ次記のとおりであり、すなわち、グループ1のオペレーターはレベル1からレベル10の顧客を呼び出すことができ、グループ2のオペレーターはレベル3からレベル10の顧客を呼び出すことができ、グループ3のオペレーターはレベル4からレベル10の顧客を呼び出すことができ、グループ4のオペレーターはレベル5からレベル10の顧客を呼び出すことができ、グループ5のオペレーターはレベル7からレベル10の顧客を呼び出すことができ、グループ6のオペレーターはレベル9からレベル10の顧客を呼び出すことができる。
S5:動的声紋認識モデルに基づいて、目標声紋特徴を認識し、認識されるオペレーターの呼出し権限を決定する。
具体的には、目標声紋特徴を動的声紋認識モデルに入力して認識することにより、当該目標声紋特徴に対応するグループを判断し、さらに当該グループに対応する呼出し権限、即ち認識されるオペレーターの呼出し権限を検索する。
具体的には、認識されるオペレーターの呼出し権限に対応する顧客レベルRと呼び出された顧客の顧客レベルrとの関係に従って、現在の呼出しが規定に合致しているかどうかを決定し、
であれば、認識されるオペレーターの呼出し権限が呼び出された顧客の顧客レベルの要件を満たさないと見なし、事前に設定された処理措置を実行し、今回の呼出しの情報を監督者に送信し、今回のルールに違反した呼出しを記録する。
図1に対応する実施例において、データベースにおける各オペレーターの呼出し権限を取得し、事前に設定された権限のグループ化方法に従って、それぞれのオペレーターを呼出し権限に対応するグループに割り当て、それぞれのグループに対して、当該グループにおけるオペレーターごとに声紋特徴を収集し、当該グループの基本声紋特徴セットを得て、それぞれの基本声紋特徴セット内の声紋特徴をトレーニングし、それぞれの基本声紋特徴セットの総合声紋特徴を取得し、グループ、呼出し権限と総合声紋特徴との間の対応関係に基づいて、動的声紋認識モデルを構築し、このようなグループ化方法で、それぞれのグループの総合声紋特徴を抽出することにより、呼出し操作が検出された場合、現在の音声データが属するグループを迅速に判断でき、認識効率が向上し、さらにタイムリーに監視でき、監視効率が向上する。一方で、認識されるオペレーターの呼出し操作が検出された場合、呼び出された顧客の顧客レベルおよび認識されるオペレーターの音声データを取得し、当該音声データに対して声紋特徴を抽出し、目標声紋特徴を得るとともに、動的声紋認識モデルに基づいて、当該目標声紋特徴を認識し、認識されるオペレーターの呼出し権限を決定し、認識されるオペレーターの呼出し権限が当該顧客レベルの要件を満たさない場合、事前に設定された早期警告措置を実行し、声紋認識の方法を採用することにより、オペレーターの呼出し権限を判断し、さらにオペレーターの現在の呼出しが規定に合致するかどうかを判断し、合致しない場合に早期警告措置をタイムリーに採用し、リアルタイムの監視を実現し、監視の適時性およびオペレーターの呼出し品質を効果的に改善できる。
図2を参照し、図2は、本願の実施例に係るステップS2を具体的に実現するフローを示し、詳細は以下のとおりである。すなわち、
S21:それぞれのグループにおける各オペレーターに対して、当該オペレーターが複数の事前に設定された異なるコーパスを朗読して録音サンプルを取得し、当該録音サンプルに対して声紋解析を実行し、当該オペレーターの初期声紋サンプルを得る。
例えば、一実施形態において、特定のオペレーターに3つのコーパス、すなわちコーパス1、コーパス2およびコーパス3が提供され、当該オペレーターは、3つのコーパスのそれぞれについて5回繰り返して朗読し、さらに15個の録音テキストを取得し、これらの15個の録音テキストに対して音声信号を抽出し、15の音声信号を取得し、15の音声信号を当該オペレーターの初期声紋サンプルとする。
好ましくは、それぞれの録音サンプルの録音時間は30秒である。
S22:初期声紋サンプルに対してプリエンファシス処理を実行し、平坦スペクトルを有するエンファシス処理済み声紋サンプルを生成する。
音声信号のプリエンファシスの後、スペクトルの高周波数部分が改善され、信号も平坦化され、平坦スペクトルを有するエンファシス処理済み声紋サンプルを生成し、その後の声紋特徴の抽出に役立つ。
具体的には、音声信号は、短時間の安定性を有し、プリエンファシス処理された後、信号の短時間安定性を維持するためにフレーミングおよびウィンドウイング処理される必要があり、通常、1秒あたりのフレーム数は33〜100フレームである。フレームとフレームとの間の連続性を維持し、隣接する2つのフレームを滑らかに遷移させるために、重複フレーミングの方法が採用され、図3に示すように、図3は重複フレーミングの例を示し、図3におけるk番目のフレームとk+1番目のフレームとの重複部分がフレームシフトである。
例えば、一実施形態において、プリエンファシスされた音声信号はs’(n)で、フレーム長さはN個のサンプリングポイントで、フレームシフトはM個のサンプリングポイントである。l番目のフレームに対応するサンプリングポイントがn番目の場合、元の音声信号xl(n)と各パラメーターとの間の対応関係は下記のとおりであり、すなわち、
ここで、n=0,1,...,N−1、N=256。
さらに、声紋サンプルがフレーミングされた後、対応するウィンドウ関数w(n)を使用してプリエンファシスされた後の音声信号s’(n)を乗算し、ウィンドウイングされた音声信号Swを取得し、当該音声信号を初期音声フレーム信号とする。
長方形ウィンドウの式は下式のように示し、
ハミングウィンドウは下式のように示し、
ハニングウィンドウは下式のように示し、
プリエンファシス処理された声紋サンプルに対してフレーミングおよびウィンドウイング処理を実行することにより、声紋サンプルはフレームとフレームとの間の連続性を維持し、いくつかの異常な信号点が排除され、声紋サンプルのロバスト性を高める。
具体的には、通話が持続している間、音声信号はアクティブ期間とサイレント期間の2つの状態に分けられ、サイレント期間では音声信号が送信されず、アップリンクとダウンリンクのアクティブ期間とサイレント期間は互いに独立している。ステップS21では、ユーザーの録音プロセスにおいて、発音の前後に一時停止状態があり、この状態で音声信号が一時停止し、つまりサイレント期間を形成し、声紋特徴を抽出するときに、サイレント期間状態を検出し、さらにサイレント期間をアクティブ期間から分離することにより、連続するアクティブ期間を取得し、残りの連続するアクティブ期間の音声信号を目標音声フレームとする。
S25:目標音声フレームに基づいて、声紋特徴を抽出する。
具体的には、プリエンファシス処理、フレーミング、ウィンドウイング、およびサイレントトーン分離の後、安定した声紋サンプルが取得され、当該サンプルを使用して声紋特徴を抽出する。
好ましくは、本願で抽出された声紋特徴は音響特徴中の線形ケプストラム特徴である。
S26:それぞれのグループにおいて、当該グループにおける各オペレーターの声紋特徴を当該グループの基本声紋特徴セットとして構成する。
具体的には、ステップS25で各オペレーターの声紋特徴が取得された後、グループごとのオペレーターの声紋特徴を声紋特徴セットとして構成し、後続の動的声紋認識モデルの構築に用いられる。
図4を参照し、図4は、本願の実施例に係るステップS25を具体的に実現するフローを示し、詳細は以下のとおりである。すなわち、
S251:レビンソン・ダービンアルゴリズムを使用して目標音声フレームの予測誤差計算式(F1)中の線形予測係数を予測し、予測結果に従って目標線形予測係数a’1,a’2,...,a’pを決定し、すなわち、
図4に対応する実施例において、目標音声フレームの予測誤差の数式に対して極値を求め、予測誤差を最小化する線形予測係数セットを目標線形予測係数として見出し、当該目標線形予測係数を用いて式(F3)によって線形予測ケプストラル係数を計算し、当該線形ケプストラル係数を声紋特徴として、収集された声紋特徴の精度を向上させ、動的声紋認識モデルの予測精度を向上させるのに役立つ。
図5を参照し、図5は、本願の実施例に係るステップS3を具体的に実現するフローを示し、詳細は以下のとおりである。すなわち、
S31:それぞれの基本声紋特徴セットに対して、遺伝的アルゴリズムを用いて当該基本声紋特徴セットにおける声紋特徴を最適化し、当該基本声紋特徴セットに対応するコードブックセットを得る。
S32:x番目の基本声紋特徴セットに対して、当該基本声紋特徴セットに対応するコードブックセット内のコードブックの総数qを取得し、当該コードブックセットからトレーニングサンプルとしてk個のコードブックを任意に選択し、トレーニングサンプルのコードブックマトリックスにつき、対応するビットに従って算術平均値を取ることによってカテゴリーコードブックDxを取得し、当該カテゴリーコードブックDxをx番目のグループの基本声紋特徴セットの総合声紋特徴として、ここで、k∈[1,q]、xとqは正整数である。
図6を参照し、図6は、本願の実施例に係るステップS5を具体的に実現するフローを示し、詳細は以下のとおりである。すなわち、
S51:目標声紋特徴を前処理し、目標声紋特徴の目標最適化コードブックを得る。
ここで、ρj(A,Dj)は目標最適化コードブックAからj番目のカテゴリーコードブックDjまでのユークリッド距離で、atは目標最適化コードブックAにおけるt番目のコードシーケンス特徴で、btはカテゴリーコードブックDjにおけるt番目のコードシーケンス特徴で、j∈[1,J]、Jは基本声紋特徴セットの数である。
S53:目標ユークリッド距離として、J個のユークリッド距離から最小値のユークリッド距離を選択する。
具体的には、ステップS42から分かるように、各カテゴリーコードブックは1つのグループに対応し、目標ユークリッド距離に対応するグループを取得し、当該グループを現在の呼出しグループとする。
具体的には、ステップS3で決定された呼出しグループと呼出し権限との間の対応関係に従って、現在の呼出しグループに対応する呼出し権限を取得し、当該権限を認識されるオペレーターの呼出し権限とする。
上記実施例における各ステップの番号は実行順序を意味するものではなく、各プロセスの実行順序はその機能および内部ロジックによって決定され、本願の実施例の実施プロセスを限定するものではないことを理解すべきである。
実施例1における声紋認識方法に対応して、図7は、実施例1に係る声紋認識方法と一対一で対応する声紋認識装置を示す、説明の便宜上、本願の実施例に関連する部分のみを示す。
図7に示すように、当該声紋認識装置は、オペレーター権限グループ化モジュール10、声紋特徴収集モジュール20、認識モデル構築モジュール30、目標特徴取得モジュール40、呼出し権限決定モジュール50およびリアルタイム音声警告モジュール60を含む。各機能モジュールの詳細は下記のとおりである。すなわち、
オペレーター権限グループ化モジュール10は、データベースにおける各オペレーターの呼出し権限を取得し、事前に設定された権限のグループ化方法に従って、それぞれのオペレーターを呼出し権限に対応するグループに割り当てるように使用される。
認識モデル構築モジュール30は、それぞれの基本声紋特徴セットにおける声紋特徴をトレーニングし、それぞれの基本声紋特徴セットの総合声紋特徴を取得し、グループ、呼出し権限と総合声紋特徴との間の対応関係に基づいて、動的声紋認識モデルを構築するために用いられる。
目標特徴取得モジュール40は、認識されるオペレーターの呼出し操作が検出された場合、呼び出された顧客の顧客レベルおよび認識されるオペレーターの音声データを取得し、当該音声データに対して声紋特徴を抽出し、目標声紋特徴を得るために使用される。
呼出し権限決定モジュール50は、動的声紋認識モデルに基づいて、目標声紋特徴を認識し、認識されるオペレーターの呼出し権限を決定するために使用される。
リアルタイム音声警告モジュール60は、認識されるオペレーターの呼出し権限が顧客レベルの要件を満たさない場合、事前に設定された早期警告措置を実行するために用いられる。
それぞれのグループ内の各オペレーターに対して、当該オペレーターが複数の事前に設定された異なるコーパスを朗読して録音サンプルを取得し、当該録音サンプルに対して声紋解析を実行し、当該オペレーターの初期声紋サンプルを得るための初期声紋取得ユニット21と、
初期声紋サンプルに対してプリエンファシス処理を実行し、平坦スペクトルを有するエンファシス処理済み声紋サンプルを生成するための声紋エンファシス処理ユニット22と、
フレーミングおよびウィンドウイングの方法を採用して、エンファシス処理済み声紋サンプルに対してフレーミング処理を実行し、初期音声フレームを得るための初期音声フレーム生成ユニット23と、
初期音声フレーム信号に対してサイレントトーン分離を実行し、目標音声フレームを得るための目標音声フレーム取得ユニット24と、
目標音声フレームに基づいて、声紋特徴を抽出するための声紋特徴抽出ユニット25と、
それぞれのグループにおいて、当該グループにおける各オペレーターの声紋特徴を当該グループの基本声紋特徴セットとして構成するための声紋特徴セット整合ユニット26と、さらに含む。
目標線形予測係数再帰サブユニット251は、レビンソン・ダービンアルゴリズムを用いて目標音声フレームの予測誤差計算式(F1)中の線形予測係数を予測し、予測結果に従って目標線形予測係数a’1,a’2,...,a’p:を決定し、すなわち、
特徴コードブック最適化ユニット31は、それぞれの基本声紋特徴セットに対して、遺伝的アルゴリズムを用いて当該基本声紋特徴セットにおける声紋特徴を最適化し、当該基本声紋特徴セットに対応するコードブックセットを得る。
カテゴリーコードブックトレーニングユニット32は、x番目の基本声紋特徴セットに対して、当該基本声紋特徴セットに対応するコードブックセット内のコードブックの総数qを取得し、当該コードブックセットからトレーニングサンプルとしてk個のコードブックを任意に選択し、当該トレーニングサンプルのコードブックマトリックスを対応するビットに従って算術平均値を取ることによってカテゴリーコードブックDxを取得し、当該カテゴリーコードブックDxをx番目のグループの基本声紋特徴セットの総合声紋特徴として、ここで、k∈[1,q]、xとqは正整数である。
目標声紋特徴を前処理し、目標声紋特徴の目標最適化コードブックを得るための目標最適化コードブック取得ユニット51と、
式(F3)に従って目標最適化コードブックから各カテゴリーコードブックまでのユークリッド距離を計算するためのユークリッド距離計算ユニット52と、
ここで、ρj(A,Dj)は目標最適化コードブックAからj番目のカテゴリーコードブックDjまでのユークリッド距離で、atは目標最適化コードブックAにおけるt番目のコードシーケンス特徴で、btはカテゴリーコードブックDjにおけるt番目のコードシーケンス特徴で、j∈[1,J]、Jは基本声紋特徴セットの数であり、
n個のユークリッド距離から最小値のユークリッド距離を目標ユークリッド距離として選択するための目標ユークリッド距離選択ユニット53と、
目標ユークリッド距離に対応するカテゴリーコードブックの属するグループを取得し、当該グループを当前呼出しグループとするための現在の呼出しグループ決定ユニット54と、
対応関係に従って、現在の呼出しグループに対応する現在の呼出し権限を決定し、認識されるオペレーターの呼出し権限とするための現在の呼出し権限取得ユニット55と、を含む。
本実施例に係る声紋認識装置における各モジュールの各機能を実現するプロセスは、具体的に上記の実施例1の説明を参照し、ここでは再度の説明を省略する。
本実施例は、コンピューター可読コマンドが記憶されている1つ以上の不揮発性可読記憶媒体を提供し、当該不揮発性可読記憶媒体にコンピューター可読コマンドが記憶され、当該コンピューター可読コマンドが1つ以上のプロセッサによって実行されるときに実施例1における声紋認識方法を実現し、または、当該コンピューター可読コマンドが1つ以上のプロセッサによって実行されるときに実施例2における声紋認識装置の各モジュール/ユニットの機能を実現する。繰り返し説明を避けるため、ここでは再度の説明を省略する。
図8は、本願の一実施例に係る端末機器を示す図である。図8に示すように、当該実施例の端末機器80は、プロセッサ81と、メモリ82と、メモリ82に記憶され、プロセッサ81で動作可能な声紋認識プログラムなどのコンピューター可読コマンド83と、を含む。プロセッサ81は、コンピューター可読コマンド83を実行するときに上記各声紋認識方法の実施例におけるステップ、例えば図1に示すステップS1〜ステップS6を実現する。または、プロセッサ81は、コンピューター可読コマンド83を実行するときに上記各装置実施例における各モジュール/ユニットの機能、例えば図7に示すモジュール10〜モジュール60の機能を実現する。
本願は、コンピューター通信技術の分野に関し、特に声紋認識方法、装置、端末機器および記憶媒体に関する。
Claims (20)
- データベースにおける各オペレーターの呼出し権限を取得し、事前に設定された権限のグループ化方法に従って、各オペレーターを前記呼出し権限に対応するグループに割り当てることと、
前記グループのそれぞれに対し、当該グループにおいて、前記オペレーターごとに声紋特徴を収集し、当該グループの基本声紋特徴セットを得ることと、
前記基本声紋特徴セットのそれぞれにおける声紋特徴をトレーニングし、前記基本声紋特徴セットのそれぞれの総合声紋特徴を取得し、前記グループと前記呼出し権限と前記総合声紋特徴との間の声紋対応関係に基づいて、動的声紋認識モデルを構築することと、
認識されるオペレーターの呼出し操作が検出された場合、呼び出された顧客の顧客レベルおよび前記認識されるオペレーターの音声データを取得し、前記音声データに対して声紋特徴を抽出し、目標声紋特徴を得ることと、
前記動的声紋認識モデルに基づいて、前記目標声紋特徴を認識し、前記認識されるオペレーターの呼出し権限を決定することと、
前記認識されるオペレーターの呼出し権限が前記顧客レベルの要件を満たさない場合、事前に設定された早期警告措置を実行することと、を含むことを特徴とする声紋認識方法。 - 前記グループのそれぞれに対し、当該グループ内の前記オペレーターごとに声紋特徴を収集し、当該グループの基本声紋特徴セットを得ることは、
前記グループのそれぞれにおける前記各オペレーターに対して、当該オペレーターが複数の事前に設定された異なるコーパスを朗読する録音サンプルを取得し、前記録音サンプルに対して声紋解析を実行し、当該オペレーターの初期声紋サンプルを得ることと、
前記初期声紋サンプルに対してプリエンファシス処理を実行し、平坦スペクトルを有するエンファシス処理済み声紋サンプルを生成することと、
フレーミングおよびウィンドウイングの方法を採用して、前記エンファシス処理済み声紋サンプルに対してフレーミング処理を実行し、初期音声フレームを得ることと、
初期音声フレーム信号に対してサイレントトーン分離を実行し、目標音声フレームを得ることと、
前記目標音声フレームに基づいて、声紋特徴を抽出することと、
前記グループのそれぞれにおいて、当該グループにおける前記各オペレーターの前記声紋特徴を当該グループの前記基本声紋特徴セットとして構成することと、を含むことを特徴とする請求項1に記載の声紋認識方法。 - 前記目標音声フレームに基づいて、声紋特徴を抽出することは、
レビンソン・ダービンアルゴリズムを用いて前記目標音声フレームの予測誤差の計算式(F1)中の線形予測係数を予測し、予測結果に従って目標線形予測係数a’1,a’2,...,a’p を決定することと、
前記目標線形予測係数に基づいて、式(F2)に従って前記目標音声フレームの線形予測ケプストラル係数を計算し、前記線形予測ケプストラル係数を前記声紋特徴とすることと、
- 前記基本声紋特徴セットのそれぞれにおける声紋特徴をトレーニングし、前記基本声紋特徴セットのそれぞれの総合声紋特徴を取得することは、
前記基本声紋特徴セットのそれぞれに対して、遺伝的アルゴリズムを採用して当該基本声紋特徴セットにおける声紋特徴を最適化し、当該基本声紋特徴セットに対応するコードブックセットを得ることと、
x番目の前記基本声紋特徴セットに対して、当該基本声紋特徴セットに対応する前記コードブックセットにおけるコードブックの総数qを取得し、当該コードブックセットからトレーニングサンプルとしてk個のコードブックを任意に選択し、前記トレーニングサンプルのコードブックマトリックスが対応するビットに応じて算術平均値を取ることによってカテゴリーコードブックDxを得て、当該カテゴリーコードブックDxをx番目のグループの基本声紋特徴セットの総合声紋特徴とすることと、ここで、k∈[1,q]、xとqは正整数であること、を含むことを特徴とする請求項1に記載の声紋認識方法。 - 前記動的声紋認識モデルに基づいて、前記目標声紋特徴を認識し、前記認識されるオペレーターの呼出し権限を決定することは、
前記目標声紋特徴を前処理し、前記目標声紋特徴の目標最適化コードブックを得ることと、
式(F3)に応じて前記目標最適化コードブックから各前記カテゴリーコードブックまでのユークリッド距離を計算することと、
ここで、ρj(A,Dj)は目標最適化コードブックAからj番目の前記カテゴリーコードブックDjまでのユークリッド距離で、atは目標最適化コードブックAにおけるt番目のコードシーケンス特徴で、btは前記カテゴリーコードブックDjにおけるt番目のコードシーケンス特徴で、j∈[1,J]、Jは前記基本声紋特徴セットの数であり、
J個の前記ユークリッド距離から目標ユークリッド距離として最小値のユークリッド距離を選択することと、
前記目標ユークリッド距離に対応するカテゴリーコードブックの属するグループを取得し、当該グループを現在の呼出しグループとすることと、
前記対応関係に従って、前記現在の呼出しグループに対応する現在の呼出し権限を決定し、前記認識されるオペレーターの呼出し権限とすることと、を含むことを特徴とする請求項4に記載の声紋認識方法。 - データベースにおける各オペレーターの呼出し権限を取得し、事前に設定された権限のグループ化方法に従って、前記各オペレーターを前記呼出し権限に対応するグループに割り当てるためのオペレーター権限グループ化モジュールと、
前記グループのそれぞれに対して、当該グループにおける前記オペレーターごとに声紋特徴を収集し、当該グループの基本声紋特徴セットを得るためのオペレーター権限グループ化モジュールと、
前記基本声紋特徴セットのそれぞれにおける声紋特徴をトレーニングし、前記基本声紋特徴セットのそれぞれの総合声紋特徴を取得し、前記グループ、前記呼出し権限と前記総合声紋特徴との間の声紋対応関係に基づいて、動的声紋認識モデルを構築するための認識モデル構築モジュールと、
認識されるオペレーターの呼出し操作が検出された場合、呼び出された顧客の顧客レベルおよび前記認識されるオペレーターの音声データを取得し、且つ、前記音声データに対して声紋特徴を抽出し、目標声紋特徴を得るための目標特徴取得モジュールと、
前記動的声紋認識モデルに基づいて、前記目標声紋特徴を認識し、前記認識されるオペレーターの呼出し権限を決定するための呼出し権限決定モジュールと、
前記認識されるオペレーターの呼出し権限が前記顧客レベルの要件を満たさない場合、事前に設定された早期警告措置を実行するためのリアルタイム音声警告モジュールと、を含むことを特徴とする声紋認識装置。 - 声紋特徴収集モジュールは、
前記グループのそれぞれにおける前記各オペレーターに対して、当該オペレーターが複数の事前に設定された異なるコーパスを朗読して録音サンプルを取得し、前記録音サンプルに対して声紋解析を実行し、当該オペレーターの初期声紋サンプルを得るための初期声紋取得ユニットと、
前記初期声紋サンプルに対してプリエンファシス処理を実行し、平坦スペクトルを有するエンファシス処理済み声紋サンプルを生成するための声紋エンファシス処理ユニットと、
フレーミングおよびウィンドウイングの方法を採用して、前記エンファシス処理済み声紋サンプルに対してフレーミング処理を実行し、初期音声フレームを得るための初期音声フレーム生成ユニットと、
前記初期音声フレーム信号に対してサイレントトーン分離を実行し、目標音声フレームを得るための目標音声フレーム取得ユニットと、
前記目標音声フレームに基づいて、声紋特徴を抽出するための声紋特徴抽出ユニットと、
前記グループのそれぞれにおいて、当該グループにおける前記各オペレーターの前記声紋特徴を当該グループの前記基本声紋特徴セットとして構成するための声紋特徴セット整合ユニットと、を含むことを特徴とする請求項6に記載の声紋認識装置。 - 前記声紋特徴抽出ユニットは、
レビンソン・ダービンアルゴリズムを用いて前記目標音声フレームの予測誤差の計算式(F1)中の線形予測係数を予測し、予測結果に従って目標線形予測係数a’1,a’2,...,a’pを決定するための目標線形予測係数再帰サブユニットと、
前記目標線形予測係数に従って、式(F2)に応じて前記目標音声フレームの線形予測ケプストラル係数を計算し、前記線形予測ケプストラル係数を前記声紋特徴とするための線形予測ケプストラル係数計算サブユニットと、
- 前記認識モデル構築モジュールは、
前記それぞれの基本声紋特徴セットに対して、遺伝的アルゴリズムを採用して当該基本声紋特徴セット内の声紋特徴を最適化し、当該基本声紋特徴セットに対応するコードブックセットを得るための特徴コードブック最適化ユニットと、
x番目の前記基本声紋特徴セットに対して、当該基本声紋特徴セットに対応する前記コードブックセット内のコードブックの総数qを取得し、当該コードブックセットからトレーニングサンプルとしてk個のコードブックを任意に選択し、前記トレーニングサンプルのコードブックマトリックスを対応するビットに応じて算術平均値を取ることによってカテゴリーコードブックDxを取得し、当該カテゴリーコードブックDxをx番目のグループの基本声紋特徴セットの総合声紋特徴とするためのカテゴリーコードブックトレーニングユニットと、ここで、k∈[1,q]、xとqは正整数であること、を含むことを特徴とする請求項6に記載の声紋認識装置。 - 前記呼出し権限決定モジュールは、
前記目標声紋特徴を前処理し、前記目標声紋特徴の目標最適化コードブックを得るための目標最適化コードブック取得ユニットと、
式(F3)に応じて前記目標最適化コードブックから各前記カテゴリーコードブックまでのユークリッド距離を計算するためのユークリッド距離計算ユニットと、
ここで、ρj(A,Dj)は目標最適化コードブックAからj番目の前記カテゴリーコードブックDjまでのユークリッド距離で、atは目標最適化コードブックAにおけるt番目のコードシーケンス特徴で、btは前記カテゴリーコードブックDjにおけるt番目のコードシーケンス特徴で、J∈[1,J]、Jは前記基本声紋特徴セットの数であり、
J個の前記ユークリッド距離から目標ユークリッド距離として最小値のユークリッド距離を選択するための目標ユークリッド距離選択ユニットと、
前記目標ユークリッド距離に対応するカテゴリーコードブックの属するグループを取得し、当該グループを現在の呼出しグループとするための現在の呼出しグループ決定ユニットと、
前記対応関係に従って、前記現在の呼出しグループに対応する現在の呼出し権限を決定し、前記認識されるオペレーターの呼出し権限とするための現在の呼出し権限取得ユニットと、を含むことを特徴とする請求項9に記載の声紋認識装置。 - メモリと、プロセッサと、前記メモリに記憶され、前記プロセッサで動作可能なコンピューター可読コマンドとを含む端末機器であって、前記プロセッサが前記コンピューター可読コマンドを実行するときに、下記のステップ、すなわち、
データベースにおける各オペレーターの呼出し権限を取得し、事前に設定された権限のグループ化方法に従って、前記各オペレーターを前記呼出し権限に対応するグループに割り当てるステップと、
前記グループのそれぞれに対して、当該グループにおける前記オペレーターごとに声紋特徴を収集し、当該グループの基本声紋特徴セットを得るステップと、
前記基本声紋特徴セットのそれぞれにおける声紋特徴をトレーニングし、前記基本声紋特徴セットのそれぞれの総合声紋特徴を取得し、前記グループと前記呼出し権限と前記総合声紋特徴との間の声紋対応関係に基づいて、動的声紋認識モデルを構築するステップと、
認識されるオペレーターの呼出し操作が検出された場合、呼び出された顧客の顧客レベルおよび前記認識されるオペレーターの音声データを取得し、前記音声データに対して声紋特徴を抽出し、目標声紋特徴を得るステップと、
前記動的声紋認識モデルに基づいて、前記目標声紋特徴を認識し、前記認識されるオペレーターの呼出し権限を決定するステップと、
前記認識されるオペレーターの呼出し権限が前記顧客レベルの要件を満たさない場合、事前に設定された早期警告措置を実行するステップと、を実行することを特徴とする端末機器。 - 前記グループのそれぞれに対して、当該グループにおける前記オペレーターごとに声紋特徴を収集し、当該グループの基本声紋特徴セットを得ることは、
前記グループのそれぞれにおける前記各オペレーターに対して、当該オペレーターが複数の事前に設定された異なるコーパスを朗読して録音サンプルを取得し、前記録音サンプルに対して声紋解析を実行し、当該オペレーターの初期声紋サンプルを得ることと、
前記初期声紋サンプルに対してプリエンファシス処理を実行し、平坦スペクトルを有するエンファシス処理済み声紋サンプルを生成することと、
フレーミングおよびウィンドウイングの方法を採用して、前記エンファシス処理済み声紋サンプルに対してフレーミング処理を実行し、初期音声フレームを得ることと、
前記初期音声フレーム信号に対してサイレントトーン分離を実行し、目標音声フレームを得ることと、
前記目標音声フレームに基づいて、声紋特徴を抽出することと、
前記グループのそれぞれにおいて、当該グループにおける前記オペレーターのそれぞれの前記声紋特徴を当該グループの前記基本声紋特徴セットとして構成することと、を含むことを特徴とする請求項11に記載の端末機器。 - 計算式(F1)中の線形予測係数を予測し、予測結果に従って目標線形予測係数a’1,a’2,...,a’pを決定することと、
前記目標線形予測係数に基づいて、式(F2)に応じて前記目標音声フレームの線形予測ケプストラル係数を計算し、前記線形予測ケプストラル係数を前記声紋特徴とすることと、
- 前記基本声紋特徴セットのそれぞれにおける声紋特徴をトレーニングし、前記基本声紋特徴セットのそれぞれの総合声紋特徴を取得することは、
前記基本声紋特徴セットのそれぞれに対して、遺伝的アルゴリズムを採用して当該基本声紋特徴セットにおける声紋特徴を最適化し、当該基本声紋特徴セットに対応するコードブックセットを得ることと、
x番目の前記基本声紋特徴セットに対して、当該基本声紋特徴セットに対応する前記コードブックセット内のコードブックの総数qを取得し、当該コードブックセットからトレーニングサンプルとしてk個のコードブックを任意に選択し、前記トレーニングサンプルのコードブックマトリックスを対応するビットに応じて算術平均値を取ることによってカテゴリーコードブックDxを取得し、当該カテゴリーコードブックDxをx番目のグループの基本声紋特徴セットの総合声紋特徴とすることと、ここで、k∈[1,q]、xとqは正整数であること、を含むことを特徴とする請求項11に記載の端末機器。 - 前記動的声紋認識モデルに基づいて、前記目標声紋特徴を認識し、前記認識されるオペレーターの呼出し権限を決定することは、
前記目標声紋特徴を前処理し、前記目標声紋特徴の目標最適化コードブックを得ることと、
式(F3)に応じて前記目標最適化コードブックから各前記カテゴリーコードブックまでのユークリッド距離を計算することと、
ここで、ρj(A,Dj)は目標最適化コードブックAからj番目の前記カテゴリーコードブックDjまでのユークリッド距離で、atは目標最適化コードブックAにおけるt番目のコードシーケンス特徴で、btは前記カテゴリーコードブックDjにおけるt番目のコードシーケンス特徴で、j∈[1,J]、Jは前記基本声紋特徴セットの数であり、
J個の前記ユークリッド距離から目標ユークリッド距離として最小値のユークリッド距離を選択することと、
前記目標ユークリッド距離に対応するカテゴリーコードブックの属するグループを取得し、当該グループを現在の呼出しグループとすることと、
前記対応関係に従って、前記現在の呼出しグループに対応する現在の呼出し権限を決定し、前記認識されるオペレーターの呼出し権限とすることと、を含むことを特徴とする請求項14に記載の端末機器。 - コンピューター可読コマンドが記憶されている1つ以上の不揮発性可読記憶媒体であって、前記コンピューター可読コマンドが1つ以上のプロセッサによって実行されるときに、前記1つ以上のプロセッサに、
データベースにおける各オペレーターの呼出し権限を取得し、事前に設定された権限のグループ化方法に従って、前記各オペレーターを前記呼出し権限に対応するグループに割り当てるステップと、
前記グループのそれぞれに対して、当該グループにおける前記オペレーターごとに声紋特徴を収集し、当該グループの基本声紋特徴セットを得るステップと、
前記基本声紋特徴セットのそれぞれにおける声紋特徴をトレーニングし、前記基本声紋特徴セットのそれぞれの総合声紋特徴を取得し、前記グループと前記呼出し権限と前記総合声紋特徴との間の声紋対応関係に基づいて、動的声紋認識モデルを構築するステップと、
認識されるオペレーターの呼出し操作が検出された場合、呼び出された顧客の顧客レベルおよび前記認識されるオペレーターの音声データを取得し、前記音声データに対して声紋特徴を抽出し、目標声紋特徴を得るステップと、
前記動的声紋認識モデルに基づいて、前記目標声紋特徴を認識し、前記認識されるオペレーターの呼出し権限を決定するステップと、
前記認識されるオペレーターの呼出し権限が前記顧客レベルの要件を満たさない場合、事前に設定された早期警告措置を実行するステップと、を実行させることを特徴とする不揮発性可読記憶媒体。 - 前記グループのそれぞれについて、当該グループ内の前記オペレーターごとに声紋特徴を収集し、当該グループの基本声紋特徴セットを得ることは、
前記グループのそれぞれにおける前記各オペレーターに対して、当該オペレーターが複数の事前に設定された異なるコーパスを朗読して録音サンプルを取得し、前記録音サンプルに対して声紋解析を実行し、当該オペレーターの初期声紋サンプルを得ることと、
前記初期声紋サンプルに対してプリエンファシス処理を実行し、平坦スペクトルを有するエンファシス処理済み声紋サンプルを生成することと、
フレーミングおよびウィンドウイングの方法を採用して、前記エンファシス処理済み声紋サンプルに対してフレーミング処理を実行し、初期音声フレームを得ることと、
前記初期音声フレーム信号に対してサイレントトーン分離を実行し、目標音声フレームを得ることと、
前記目標音声フレームに基づいて、声紋特徴を抽出することと、
前記グループのそれぞれにおいて、当該グループにおける前記各オペレーターの前記声紋特徴を当該グループの前記基本声紋特徴セットとして構成することと、を含むことを特徴とする請求項16に記載の不揮発性可読記憶媒体。 - 前記目標音声フレームに基づいて、声紋特徴を抽出することは、
レビンソン・ダービンアルゴリズムを使用して前記目標音声フレームの予測誤差の計算式(F1)中の線形予測係数を予測し、予測結果に従って目標線形予測係数a’1,a’2,...,a’pを決定することと、
前記目標線形予測係数に基づいて、式(F2)に応じて前記目標音声フレームの線形予測ケプストラル係数を計算し、前記線形予測ケプストラル係数を前記声紋特徴とすることと、
- 前記基本声紋特徴セットのそれぞれにおける声紋特徴をトレーニングし、前記基本声紋特徴セットのそれぞれの総合声紋特徴を取得することは、
前記基本声紋特徴セットのそれぞれに対して、遺伝的アルゴリズムを採用して当該基本声紋特徴セットにおける声紋特徴を最適化し、当該基本声紋特徴セットに対応するコードブックセットを得ることと、
x番目の前記基本声紋特徴セットに対して、当該基本声紋特徴セットに対応する前記コードブックセット内のコードブックの総数qを取得し、当該コードブックセットからトレーニングサンプルとしてk個のコードブックを任意に選択し、前記トレーニングサンプルのコードブックマトリックスを対応するビットに応じて算術平均値を取ることによってカテゴリーコードブックDxを取得し、当該カテゴリーコードブックDxをx番目のグループの基本声紋特徴セットの総合声紋特徴とすることと、ここで、k∈[1,q]、xとqは正整数であること、を含むことを特徴とする請求項16に記載の不揮発性可読記憶媒体。 - 前記動的声紋認識モデルに基づいて、前記目標声紋特徴を認識し、前記認識されるオペレーターの呼出し権限を決定することは、
前記目標声紋特徴を前処理し、前記目標声紋特徴の目標最適化コードブックを得ることと、
式(F3)に応じて前記目標最適化コードブックから各前記カテゴリーコードブックまでのユークリッド距離を計算することと、
ここで、ρj(A,Dj)は目標最適化コードブックAからj番目の前記カテゴリーコードブックDjまでのユークリッド距離で、atは目標最適化コードブックAにおけるt番目のコードシーケンス特徴で、btは前記カテゴリーコードブックDjにおけるt番目のコードシーケンス特徴で、j∈[1,J]、Jは前記基本声紋特徴セットの数であり、
J個の前記ユークリッド距離から目標ユークリッド距離として最小値のユークリッド距離を選択することと、
前記目標ユークリッド距離に対応するカテゴリーコードブックの属するグループを取得し、当該グループを現在の呼出しグループとすることと、
前記対応関係に従って、前記現在の呼出しグループに対応する現在の呼出し権限を決定し、前記認識されるオペレーターの呼出し権限とすることと、を含むことを特徴とする請求項19に記載の不揮発性可読記憶媒体。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810528518.0A CN108900725B (zh) | 2018-05-29 | 2018-05-29 | 一种声纹识别方法、装置、终端设备及存储介质 |
CN201810528518.0 | 2018-05-29 | ||
PCT/CN2018/094374 WO2019227583A1 (zh) | 2018-05-29 | 2018-07-03 | 一种声纹识别方法、装置、终端设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020525817A true JP2020525817A (ja) | 2020-08-27 |
JP6792089B2 JP6792089B2 (ja) | 2020-11-25 |
Family
ID=64343304
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019563563A Active JP6792089B2 (ja) | 2018-05-29 | 2018-07-03 | 声紋認識方法、装置、端末機器および記憶媒体 |
Country Status (5)
Country | Link |
---|---|
US (1) | US10878823B2 (ja) |
JP (1) | JP6792089B2 (ja) |
CN (1) | CN108900725B (ja) |
SG (1) | SG11201912620YA (ja) |
WO (1) | WO2019227583A1 (ja) |
Families Citing this family (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109817224A (zh) * | 2019-02-22 | 2019-05-28 | 深圳云游四海信息科技有限公司 | 一种语音敏感词监督系统和方法 |
CN110246502A (zh) * | 2019-06-26 | 2019-09-17 | 广东小天才科技有限公司 | 语音降噪方法、装置及终端设备 |
CN110472097A (zh) * | 2019-07-03 | 2019-11-19 | 平安科技(深圳)有限公司 | 乐曲自动分类方法、装置、计算机设备和存储介质 |
CN110738998A (zh) * | 2019-09-11 | 2020-01-31 | 深圳壹账通智能科技有限公司 | 基于语音的个人信用评估方法、装置、终端及存储介质 |
EP4034269A1 (en) * | 2019-09-26 | 2022-08-03 | Kovács, György | Combat drone with coordinated transmitter and receiver |
CN110931022B (zh) * | 2019-11-19 | 2023-09-15 | 天津大学 | 基于高低频动静特征的声纹识别方法 |
CN111105783A (zh) * | 2019-12-06 | 2020-05-05 | 中国人民解放军61623部队 | 一种基于人工智能的综合客服系统 |
CN111131635B (zh) * | 2019-12-20 | 2020-11-10 | 中国银行股份有限公司 | 一种数据请求的语音确认方法及装置 |
CN111310836B (zh) * | 2020-02-20 | 2023-08-18 | 浙江工业大学 | 一种基于声谱图的声纹识别集成模型的防御方法及防御装置 |
CN111933147B (zh) * | 2020-06-22 | 2023-02-14 | 厦门快商通科技股份有限公司 | 声纹识别方法、系统、移动终端及存储介质 |
CN112099628A (zh) * | 2020-09-08 | 2020-12-18 | 平安科技(深圳)有限公司 | 基于人工智能的vr互动方法、装置、计算机设备及介质 |
CN112201275B (zh) * | 2020-10-09 | 2024-05-07 | 深圳前海微众银行股份有限公司 | 声纹分割方法、装置、设备及可读存储介质 |
CN112802498B (zh) * | 2020-12-29 | 2023-11-24 | 深圳追一科技有限公司 | 语音检测方法、装置、计算机设备和存储介质 |
CN112967718B (zh) * | 2021-04-02 | 2024-04-12 | 深圳吉祥星科技股份有限公司 | 基于声音的投影仪控制方法、装置、设备及存储介质 |
CN113064983B (zh) * | 2021-04-23 | 2024-04-26 | 深圳壹账通智能科技有限公司 | 语义检测方法、装置、计算机设备及存储介质 |
CN113436634B (zh) * | 2021-07-30 | 2023-06-20 | 中国平安人寿保险股份有限公司 | 基于声纹识别的语音分类方法、装置及相关设备 |
WO2024026375A1 (en) * | 2022-07-26 | 2024-02-01 | Johnson Controls Tyco IP Holdings LLP | Access control to secured locations using relaxed biometrics |
CN115831152B (zh) * | 2022-11-28 | 2023-07-04 | 国网山东省电力公司应急管理中心 | 一种用于实时监测应急装备发电机运行状态的声音监测装置及方法 |
CN115687334B (zh) * | 2023-01-05 | 2023-05-16 | 粤港澳大湾区数字经济研究院(福田) | 数据质检方法、装置、设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11175599A (ja) * | 1997-12-11 | 1999-07-02 | Hitachi Ltd | 作業引継支援システム |
JP2002514318A (ja) * | 1997-01-31 | 2002-05-14 | ティ―ネティックス,インコーポレイテッド | 録音された音声を検出するシステムおよび方法 |
JP2009071403A (ja) * | 2007-09-11 | 2009-04-02 | Fujitsu Fsas Inc | オペレータ受付監視・切替システム |
JP2009081717A (ja) * | 2007-09-26 | 2009-04-16 | Nomura Securities Co Ltd | 顧客対応支援装置 |
Family Cites Families (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7269580B2 (en) * | 2000-10-03 | 2007-09-11 | Celcorp, Inc. | Application integration system and method using intelligent agents for integrating information access over extended networks |
JP3899290B2 (ja) * | 2002-06-10 | 2007-03-28 | 富士通株式会社 | 発信者特定方法、プログラム、装置及び記録媒体 |
CN100484164C (zh) * | 2004-12-20 | 2009-04-29 | 北京佳讯飞鸿电气股份有限公司 | 限制VoIP业务异地出局的实现方法 |
US8180646B2 (en) * | 2007-06-13 | 2012-05-15 | International Business Machines Corporation | System and method for implementing voice print-based priority call routing |
US8537978B2 (en) * | 2008-10-06 | 2013-09-17 | International Business Machines Corporation | Method and system for using conversational biometrics and speaker identification/verification to filter voice streams |
EP2622832B1 (en) * | 2010-09-30 | 2019-03-13 | British Telecommunications public limited company | Speech comparison |
CN103024217B (zh) * | 2011-09-23 | 2016-04-13 | 中兴通讯股份有限公司 | 一种实现客服业务的方法及客服系统 |
CN102625005A (zh) * | 2012-03-05 | 2012-08-01 | 广东天波信息技术股份有限公司 | 具有服务质量实时监督功能的呼叫中心系统及其实现方法 |
CN103701999B (zh) * | 2012-09-27 | 2017-03-01 | 中国电信股份有限公司 | 呼叫中心语音通话的监控方法与系统 |
US10134400B2 (en) * | 2012-11-21 | 2018-11-20 | Verint Systems Ltd. | Diarization using acoustic labeling |
US9237232B1 (en) * | 2013-03-14 | 2016-01-12 | Verint Americas Inc. | Recording infrastructure having biometrics engine and analytics service |
US9236052B2 (en) * | 2013-06-20 | 2016-01-12 | Bank Of America Corporation | Utilizing voice biometrics |
CN103825931A (zh) * | 2013-11-29 | 2014-05-28 | 中邮科通信技术股份有限公司 | 一种基于云呼叫中心的客户关系管理系统 |
US9728191B2 (en) * | 2015-08-27 | 2017-08-08 | Nuance Communications, Inc. | Speaker verification methods and apparatus |
CN105244031A (zh) * | 2015-10-26 | 2016-01-13 | 北京锐安科技有限公司 | 说话人识别方法和装置 |
CN106169121A (zh) * | 2016-07-06 | 2016-11-30 | 上海携程商务有限公司 | 呼叫中心的座席分层方法及系统 |
CN107659739B (zh) * | 2016-08-23 | 2020-06-26 | 平安科技(深圳)有限公司 | 名单分配方法和装置 |
CN106453979A (zh) * | 2016-10-17 | 2017-02-22 | 上海携程商务有限公司 | 呼叫中心的外呼控制方法 |
CN107104803B (zh) * | 2017-03-31 | 2020-01-07 | 北京华控智加科技有限公司 | 一种基于数字口令与声纹联合确认的用户身份验证方法 |
CN107181851A (zh) * | 2017-04-25 | 2017-09-19 | 上海与德科技有限公司 | 通话控制方法及装置 |
CN107181880B (zh) * | 2017-05-31 | 2019-08-30 | 商客通尚景科技江苏有限公司 | 一种差异化的呼叫中心人工服务系统 |
-
2018
- 2018-05-29 CN CN201810528518.0A patent/CN108900725B/zh active Active
- 2018-07-03 US US16/626,320 patent/US10878823B2/en active Active
- 2018-07-03 JP JP2019563563A patent/JP6792089B2/ja active Active
- 2018-07-03 SG SG11201912620YA patent/SG11201912620YA/en unknown
- 2018-07-03 WO PCT/CN2018/094374 patent/WO2019227583A1/zh active Application Filing
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002514318A (ja) * | 1997-01-31 | 2002-05-14 | ティ―ネティックス,インコーポレイテッド | 録音された音声を検出するシステムおよび方法 |
JPH11175599A (ja) * | 1997-12-11 | 1999-07-02 | Hitachi Ltd | 作業引継支援システム |
JP2009071403A (ja) * | 2007-09-11 | 2009-04-02 | Fujitsu Fsas Inc | オペレータ受付監視・切替システム |
JP2009081717A (ja) * | 2007-09-26 | 2009-04-16 | Nomura Securities Co Ltd | 顧客対応支援装置 |
Also Published As
Publication number | Publication date |
---|---|
US10878823B2 (en) | 2020-12-29 |
SG11201912620YA (en) | 2020-01-30 |
US20200118571A1 (en) | 2020-04-16 |
JP6792089B2 (ja) | 2020-11-25 |
CN108900725B (zh) | 2020-05-29 |
CN108900725A (zh) | 2018-11-27 |
WO2019227583A1 (zh) | 2019-12-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6792089B2 (ja) | 声紋認識方法、装置、端末機器および記憶媒体 | |
WO2019227579A1 (zh) | 会议信息记录方法、装置、计算机设备及存储介质 | |
US8731936B2 (en) | Energy-efficient unobtrusive identification of a speaker | |
Das et al. | Recognition of isolated words using features based on LPC, MFCC, ZCR and STE, with neural network classifiers | |
Kekre et al. | Speaker identification by using vector quantization | |
CN110600014B (zh) | 一种模型训练方法、装置、存储介质及电子设备 | |
CN110136696B (zh) | 音频数据的监控处理方法和系统 | |
JP3189598B2 (ja) | 信号合成方法および信号合成装置 | |
CN112967725A (zh) | 语音对话数据处理方法、装置、计算机设备及存储介质 | |
Gupta et al. | Speech feature extraction and recognition using genetic algorithm | |
KR20010032920A (ko) | 학습 장치 및 학습 방법, 인식 장치 및 인식 방법, 및기록 매체 | |
JP7304627B2 (ja) | 留守番電話判定装置、方法及びプログラム | |
CN115223584A (zh) | 音频数据处理方法、装置、设备及存储介质 | |
Nijhawan et al. | Real time speaker recognition system for hindi words | |
CN113990288B (zh) | 一种语音客服自动生成部署语音合成模型的方法 | |
JP4345156B2 (ja) | 学習装置および学習方法、認識装置および認識方法、並びに記録媒体 | |
JP6078402B2 (ja) | 音声認識性能推定装置とその方法とプログラム | |
Avikal et al. | Estimation of age from speech using excitation source features | |
JP4340939B2 (ja) | 学習装置および学習方法、認識装置および認識方法、並びに記録媒体 | |
CN113689886B (zh) | 语音数据情感检测方法、装置、电子设备和存储介质 | |
Ibiyemi et al. | Automatic speech recognition for telephone voice dialling in yorùbá | |
JP2018036580A (ja) | 疑問発話判定装置、その方法、及びプログラム | |
Kannan et al. | Malayalam Isolated Digit Recognition using HMM and PLP cepstral coefficient | |
US20210166722A1 (en) | A system for determining an emotional state of a subject | |
JP5777569B2 (ja) | 音響特徴量計算装置及び方法、特定状況モデルデータベース作成装置、特定要素音モデルデータベース作成装置、状況推定装置、発呼適否通知装置並びにプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20191118 Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20191115 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20191115 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20201104 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20201105 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6792089 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |