JP2020525817A - 声紋認識方法、装置、端末機器および記憶媒体 - Google Patents

声紋認識方法、装置、端末機器および記憶媒体 Download PDF

Info

Publication number
JP2020525817A
JP2020525817A JP2019563563A JP2019563563A JP2020525817A JP 2020525817 A JP2020525817 A JP 2020525817A JP 2019563563 A JP2019563563 A JP 2019563563A JP 2019563563 A JP2019563563 A JP 2019563563A JP 2020525817 A JP2020525817 A JP 2020525817A
Authority
JP
Japan
Prior art keywords
voiceprint
target
group
operator
voiceprint feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2019563563A
Other languages
English (en)
Other versions
JP6792089B2 (ja
Inventor
錦倫 黄
錦倫 黄
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Publication of JP2020525817A publication Critical patent/JP2020525817A/ja
Application granted granted Critical
Publication of JP6792089B2 publication Critical patent/JP6792089B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/50Centralised arrangements for answering calls; Centralised arrangements for recording messages for absent or busy subscribers ; Centralised arrangements for recording messages
    • H04M3/51Centralised call answering arrangements requiring operator intervention, e.g. call or contact centers for telemarketing
    • H04M3/523Centralised call answering arrangements requiring operator intervention, e.g. call or contact centers for telemarketing with call distribution or queueing
    • H04M3/5232Call distribution algorithms
    • H04M3/5233Operator skill based call distribution
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • G10L17/08Use of distortion metrics or a particular distance between probe pattern and reference templates
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2201/00Electronic components, circuits, software, systems or apparatus used in telephone systems
    • H04M2201/41Electronic components, circuits, software, systems or apparatus used in telephone systems using speaker recognition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2203/00Aspects of automatic or semi-automatic exchanges
    • H04M2203/60Aspects of automatic or semi-automatic exchanges related to security aspects in telephonic communication systems
    • H04M2203/6054Biometric subscriber identification
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2250/00Details of telephonic subscriber devices
    • H04M2250/74Details of telephonic subscriber devices with voice recognition means
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/50Centralised arrangements for answering calls; Centralised arrangements for recording messages for absent or busy subscribers ; Centralised arrangements for recording messages
    • H04M3/51Centralised call answering arrangements requiring operator intervention, e.g. call or contact centers for telemarketing
    • H04M3/5175Call or contact centers supervision arrangements

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本願は、声紋認識方法、装置、端末機器および記憶媒体を提供し、前記方法は下記を含む:各オペレーターを呼出し権限に応じて対応するグループに割り当て、グループ内の各オペレーターに対して声紋特徴の収集および処理を実行し、グループの総合声紋特徴を得、グループ、呼出し権限および総合声紋特徴に基づいて動的声紋認識モデルを構築し、オペレーターの呼出し操作が検出された場合、当該オペレーターの音声データを取得し、声紋特徴を抽出するとともに、動的声紋認識モデルに基づいて、当該オペレーターの呼出し権限を決定し、前記認識されるオペレーターの呼出し権限が前記顧客レベルの要件を満たさない場合、事前に設定された早期警告措置を実行し、さらに監視し、声紋認識の方法によってオペレーターの属するグループを判断し、グループと権限との対応関係に応じてリアルタイムの監視を実現し、監視の適時性およびオペレーターの呼出し品質を効果的に改善できる。

Description

本願は、コンピューター通信技術の分野に関し、特に声紋認識方法、装置、端末機器および記憶媒体に関する。
コールセンターは、対話型音声応答システムと手動電話サービスシステムで構成される。手動電話サービスシステムはチェックインシステム、電話サービスプラットフォーム、およびインターフェースマシンで構成され、顧客担当者であるオペレーターは、顧客サービスを実行するために、チェックインシステムでチェックインする必要があり、電話サービスプラットフォームへのチェックインに成功した後、電話サービスプラットフォームによって割り当てられた手動サービス要求に従って顧客との通話を確立すること、つまりオペレーターからの呼出しによって、顧客サービスを担当し、通常、顧客は業務ニーズに応じて様々なレベルの業務に分けられ、各オペレーターはそれぞれの業務に応じて様々なレベルの顧客に対応する。
各オペレーターには、呼出しの前に対応する呼出し権限が通知されているが、実際には高レベルの顧客の呼出しを行う未熟なオペレーターがしばしばいる。
従来技術では、通常、その後録音を聴取して分析することにより、権限に適合しない呼出し情報を取得して対応処理を実行するが、タイムリーな早期警報ができておらず、顧客サービスの音声呼び出しの監視ができない場合、監視制御の効率が低下する。
本願の実施例は、顧客サービスの音声呼び出しを監視できず、監視制御の効率が低下するという問題を解決するために、声紋認識方法、装置、端末機器および記憶媒体を提供する。
第1の態様では、本願の実施例は声紋認識方法を提供し、
データベースにおける各オペレーターの呼出し権限を取得し、事前に設定された権限のグループ化方法に従って、前記各オペレーターを前記呼出し権限に対応するグループに割り当てることと、
前記グループのそれぞれについて、当該グループにおける前記オペレーターごとに声紋特徴を収集し、当該グループの基本声紋特徴セットを得ることと、
前記基本声紋特徴セットのそれぞれにおける声紋特徴をトレーニングし、前記基本声紋特徴セットのそれぞれの総合声紋特徴を取得し、前記グループと前記呼出し権限と前記総合声紋特徴との間の対応関係に基づいて、動的声紋認識モデルを構築することと、
認識されるオペレーターの呼出し操作が検出された場合、呼び出された顧客の顧客レベルおよび前記認識されるオペレーターの音声データを取得し、前記音声データに対して声紋特徴を抽出し、目標声紋特徴を得ることと、
前記動的声紋認識モデルに基づいて、前記目標声紋特徴を認識し、前記認識されるオペレーターの呼出し権限を決定することと、
前記認識されるオペレーターの呼出し権限が前記顧客レベルの要件を満たさない場合、事前に設定された早期警告措置を実行することと、を含む。
第2の態様では、本願の実施例は声紋認識装置を提供し、該声紋認識装置は、
データベースにおける各オペレーターの呼出し権限を取得し、事前に設定された権限のグループ化方法に従って、前記各オペレーターを前記呼出し権限に対応するグループに割り当てるためのオペレーター権限グループ化モジュールと、
前記グループのそれぞれに対して、当該グループにおける前記オペレーターごとに声紋特徴を収集し、当該グループの基本声紋特徴セットを得るための声紋特徴収集モジュールと、
前記基本声紋特徴セットのそれぞれにおける声紋特徴をトレーニングし、前記基本声紋特徴セットのそれぞれの総合声紋特徴を取得し、前記グループと前記呼出し権限と前記総合声紋特徴との間の対応関係に基づいて、動的声紋認識モデルを構築するための認識モデル構築モジュールと、
認識されるオペレーターの呼出し操作が検出された場合、呼び出された顧客の顧客レベルおよび前記認識されるオペレーターの音声データを取得し、前記音声データに対して声紋特徴を抽出し、目標声紋特徴を得るための目標特徴取得モジュールと、
前記動的声紋認識モデルに基づいて、前記目標声紋特徴を認識し、前記認識されるオペレーターの呼出し権限を決定するための呼出し権限決定モジュールと、
前記認識されるオペレーターの呼出し権限が前記顧客レベルの要件を満たさない場合、事前に設定された早期警告措置を実行するためのリアルタイム音声警告モジュールと、を含む。
第3の態様では、本願の実施例は、メモリ、プロセッサ、および前記メモリに記憶され、前記プロセッサで実行可能なコンピューター可読コマンドを含む端末機器を提供し、前記プロセッサは、前記コンピューター可読コマンドを実行するときに前記声紋認識方法のステップを実現する。
第4の態様では、本願の実施例は、コンピューター可読コマンドが記憶される1つ以上の不揮発性可読記憶媒体を提供し、前記コンピューター可読コマンドが1つ以上のプロセッサによって実行されるとき、前記1つ以上のプロセッサに前記声紋認識方法のステップを実行させる。
本願の1つ以上の実施例の詳細は、以下の図面および説明に記載されており、本願の他の特徴および利点は、明細書、図面および特許請求の範囲から明らかになる。
本願の実施例における技術的解決手段をより明確に説明するために、以下、本願の実施例の説明で使用される図面を簡単に紹介し、当然のことながら、以下の説明における図面は、本願のいくつかの実施例に過ぎず、当業者であれば、創造的な工夫をせずに、これらの図面に基づく他の図面を得ることができる。
本願の実施例1による声紋認識方法を実現するフローチャートである。 本願の実施例1による声紋認識方法におけるステップS2を実現するフローチャートである。 本願の実施例1による声紋認識方法における音声信号重複フレーミングを示す図である。 本願の実施例1による声紋認識方法におけるステップS25を実現するフローチャートである。 本願の実施例1による声紋認識方法におけるステップS3を実現するフローチャートである。 本願の実施例1による声紋認識方法におけるステップS5を実現するフローチャートである。 本願の実施例2による声紋認識装置を示す図である。 本願の実施例4による端末機器を示す図である。
以下、本願の実施例における図面を参照して、本願の実施例における技術的解決策を明確かつ完全に説明するが、記載された実施例は、すべての実施例ではなく、本願の一部の実施例であることは明らかである。当業者であれば、創造的な工夫をせずに、本願の実施例に基づいて得られる他の実施例は、いずれも本願の範囲に含まれる。
実施例1
図1を参照し、図1は、本実施例に係る声紋認識方法を実現するフローを示す。当該声紋認識方法はコールセンターのオペレーターによる呼出しシーンに応用され、当該コールセンターは、サーバー側およびクライアント側を含み、ここで、サーバー側とクライアント側はネットワークを介して接続され、オペレーターがクライアント側を介して呼出し、クライアント側は具体的には、パーソナルコンピューター、ノートブックコンピューター、スマートフォン、タブレットや携帯型ウェアラブルデバイスなどであってもよいが、これらに限定されず、サーバー側は具体的には、個別のサーバーまたは複数のサーバーで構成されるサーバー群によって実現される。本願の実施例に係る声紋認識方法は、サーバー側に応用され、詳細は以下のとおりである。すなわち:
S1:データベースにおける各オペレーターの呼出し権限を取得し、事前に設定された権限のグループ化方法に従って、それぞれのオペレーターを呼出し権限に対応するグループに割り当てる。
具体的には、データベースに各オペレーターの呼出し権限が記憶され、呼出し権限によって、各オペレーターをその呼出し権限に対応するグループに割り当てる。
例えば、一実施形態において、データベースに記憶される呼出し権限にはR、R、R、R、RおよびRという6つのレベルがあり、オペレーターは合計3000人であり、これらのオペレーターは、その対応する権限に従って6つの異なる権限レベルのグループに割り当てられ、権限の高い順で下記のようにグループで分けられ、すなわち、グループ1は合計10人で、対応する権限はRであり、グループ2は合計80人で、対応する権限はRであり、グループ3は合計200人で、対応する権限はRであり、グループ4は合計600人で、対応する権限はRであり、グループ5は合計1800人で、対応する権限はRであり、グループ6は合計310人で、対応する権限はRである。
なお、高レベルの権限に低レベルの権限が含まれ、例えば、グループ1に属するオペレーターはすべての呼出し権限を有し、グループ6に属するオペレーターは最も低い権限を有し、つまり、R⊂R⊂R⊂R⊂R⊂R
S2:それぞれのグループについて、当該グループにおけるオペレーターごとに声紋特徴を収集し、当該グループの基本声紋特徴セットを得る。
具体的には、同じグループのオペレーターに対して声紋特徴をそれぞれ収集し、同じグループのすべてのオペレーターの声紋特徴を当該グループの基本声紋特徴セットとする。
ここで、声紋特徴には、音響特徴、語彙特徴、韻律特徴、言語方言アクセント情報やチャネル情報などが含まれるが、これらに限定されない。
好ましくは、本願で使用される声紋特徴は音響特徴である。
S3:それぞれの基本声紋特徴セットにおける声紋特徴をトレーニングし、それぞれの基本声紋特徴セットの総合声紋特徴を取得し、グループ、呼出し権限と総合声紋特徴との間の対応関係に基づいて、動的声紋認識モデルを構築する。
具体的には、それぞれの基本声紋特徴セットにおける声紋特徴をトレーニングし、それぞれの基本声紋特徴セットの総合声紋特徴、すなわち当該グループの総合声紋特徴を取得し、ステップS1およびステップS2で提供されるグループと呼出し権限との対応関係、グループと声紋特徴との対応関係に従って、動的声紋認識モデルを構築する。
ここで、それぞれの基本声紋特徴セットにおける声紋特徴をトレーニングし、それぞれの基本声紋特徴セットの総合声紋特徴を取得し、採用されるトレーニング方法には、テンプレートマッチング法、最近傍法、ニューラルネットワーク法、隠れマルコフモデル(Hidden Markov Model、HMM)、ベクトル量子化(Vector Quantization、VQ)法、多項式分類器(Polynomial Classifiers)法などを含むが、これらに限定されない。
好ましくは、本願の実施例で採用されるトレーニング方法は、ニューラルネットワーク法に基づく遺伝的アルゴリズム(Genetic Algorithm)の改良されたアルゴリズムであり、それぞれのグループを1つの群として、グループにおける各オペレーターの声紋特徴を染色体として、遺伝的アルゴリズムを使用することによって初期化コーディング、個々の評価、選択、交差および突然変異を実行し、さらに当該グループの最適解または近似解、すなわち当該グループの総合声紋特徴を得る。
S4:認識されるオペレーターの呼出し操作が検出された場合、呼び出された顧客の顧客レベルおよび認識されるオペレーターの音声データを取得し、音声データに対して声紋特徴を抽出し、目標声紋特徴を得る。
具体的には、認識されるオペレーターの呼出し操作が検出された場合、呼び出された顧客の顧客識別情報に従って、顧客データベースから当該識別情報を検索し、呼び出された顧客の顧客レベルを取得する。
ここで、顧客レベルは、事前設定されて顧客データベースに記憶され、権限レベルとマッピング関係を持っている。
ステップS1で記憶される6つの権限レベルを例として、顧客データベースにおける顧客レベルはレベル1からレベル10に分けられ、権限に従ってグループ化された6つのグループに対応する権限はそれぞれ次記のとおりであり、すなわち、グループ1のオペレーターはレベル1からレベル10の顧客を呼び出すことができ、グループ2のオペレーターはレベル3からレベル10の顧客を呼び出すことができ、グループ3のオペレーターはレベル4からレベル10の顧客を呼び出すことができ、グループ4のオペレーターはレベル5からレベル10の顧客を呼び出すことができ、グループ5のオペレーターはレベル7からレベル10の顧客を呼び出すことができ、グループ6のオペレーターはレベル9からレベル10の顧客を呼び出すことができる。
さらに、認識されるオペレーターの音声データを取得し、当該音声データに対して声紋特徴を抽出し、当該オペレーターの目標声紋特徴を得て、抽出方法は後述するステップS22からステップS25の説明を参照し、繰り返しを避けるため、ここでは説明を省略する。
S5:動的声紋認識モデルに基づいて、目標声紋特徴を認識し、認識されるオペレーターの呼出し権限を決定する。
具体的には、目標声紋特徴を動的声紋認識モデルに入力して認識することにより、当該目標声紋特徴に対応するグループを判断し、さらに当該グループに対応する呼出し権限、即ち認識されるオペレーターの呼出し権限を検索する。
S6:認識されるオペレーターの呼出し権限が呼び出された顧客の顧客レベルの要件を満たさない場合、事前に設定された早期警告措置を実行する。
具体的には、認識されるオペレーターの呼出し権限に対応する顧客レベルRと呼び出された顧客の顧客レベルrとの関係に従って、現在の呼出しが規定に合致しているかどうかを決定し、
であれば、認識されるオペレーターの呼出し権限が呼び出された顧客の顧客レベルの要件を満たさないと見なし、事前に設定された処理措置を実行し、今回の呼出しの情報を監督者に送信し、今回のルールに違反した呼出しを記録する。
ステップS4における6つの権限でグループ化された対応する10の顧客レベルを例として、取得された認識されるオペレーターがグループ5に属し、対応する呼出し権限がRであり、即ち、呼出し可能な顧客レベルはレベル7からレベル10であり、現在の呼び出された顧客の顧客レベルがレベル7からレベル10のいずれかである場合、現在の呼出しが要件を満たすと判断し、現在、呼び出された顧客の顧客レベルがレベル1からレベル6のいずれかである場合、認識されるオペレーターの呼出し権限が呼び出された顧客の顧客レベルの要件を満たさないと判断し、当該呼出しの継続を阻止するために、対応する早期警告措置が取られる。
ここで、事前に設定された処理措置は、認識されるオペレーターに提示情報を送信すること、監督センターに警告情報をプッシュすること、コール転送を強制すること、強制的に電話を切ることなどを含むが、実際の状況に応じて決められ、これらに限定されない。
図1に対応する実施例において、データベースにおける各オペレーターの呼出し権限を取得し、事前に設定された権限のグループ化方法に従って、それぞれのオペレーターを呼出し権限に対応するグループに割り当て、それぞれのグループに対して、当該グループにおけるオペレーターごとに声紋特徴を収集し、当該グループの基本声紋特徴セットを得て、それぞれの基本声紋特徴セット内の声紋特徴をトレーニングし、それぞれの基本声紋特徴セットの総合声紋特徴を取得し、グループ、呼出し権限と総合声紋特徴との間の対応関係に基づいて、動的声紋認識モデルを構築し、このようなグループ化方法で、それぞれのグループの総合声紋特徴を抽出することにより、呼出し操作が検出された場合、現在の音声データが属するグループを迅速に判断でき、認識効率が向上し、さらにタイムリーに監視でき、監視効率が向上する。一方で、認識されるオペレーターの呼出し操作が検出された場合、呼び出された顧客の顧客レベルおよび認識されるオペレーターの音声データを取得し、当該音声データに対して声紋特徴を抽出し、目標声紋特徴を得るとともに、動的声紋認識モデルに基づいて、当該目標声紋特徴を認識し、認識されるオペレーターの呼出し権限を決定し、認識されるオペレーターの呼出し権限が当該顧客レベルの要件を満たさない場合、事前に設定された早期警告措置を実行し、声紋認識の方法を採用することにより、オペレーターの呼出し権限を判断し、さらにオペレーターの現在の呼出しが規定に合致するかどうかを判断し、合致しない場合に早期警告措置をタイムリーに採用し、リアルタイムの監視を実現し、監視の適時性およびオペレーターの呼出し品質を効果的に改善できる。
次に、図1に対応する実施例に基づいて、以下、具体的な実施例によってステップS2に記載されたそれぞれのグループに対して、当該グループにおけるオペレーターごとに声紋特徴を収集し、当該グループの基本声紋特徴セットを得る具体的な実現方法を詳しく説明する。
図2を参照し、図2は、本願の実施例に係るステップS2を具体的に実現するフローを示し、詳細は以下のとおりである。すなわち、
S21:それぞれのグループにおける各オペレーターに対して、当該オペレーターが複数の事前に設定された異なるコーパスを朗読して録音サンプルを取得し、当該録音サンプルに対して声紋解析を実行し、当該オペレーターの初期声紋サンプルを得る。
具体的には、各オペレーターに対して、事前に設定された内容の異なるコーパスを提供し、オペレーターが当該コーパスを朗読するときに録音し、録音サンプルを得て、当該録音テキストに対して音声信号を抽出し、さらに当該オペレーターの初期声紋サンプルを取得する。
例えば、一実施形態において、特定のオペレーターに3つのコーパス、すなわちコーパス1、コーパス2およびコーパス3が提供され、当該オペレーターは、3つのコーパスのそれぞれについて5回繰り返して朗読し、さらに15個の録音テキストを取得し、これらの15個の録音テキストに対して音声信号を抽出し、15の音声信号を取得し、15の音声信号を当該オペレーターの初期声紋サンプルとする。
ここで、コーパスは、自然言語を統計と処理において、実際に大規模で観察できない言語インスタンスである。
好ましくは、それぞれの録音サンプルの録音時間は30秒である。
S22:初期声紋サンプルに対してプリエンファシス処理を実行し、平坦スペクトルを有するエンファシス処理済み声紋サンプルを生成する。
具体的には、声門の励起および口と鼻の輻射が、音声信号の平均パワースペクトルに影響を与えるため、高周波数は800Hzを超えると6dB/周波数逓倍で低下するため、音声信号のスペクトルを計算するとき、周波数が高くなると、対応する成分が小さくなり、従って、前処理中でプリエンファシス(Pre−emphasis)処理を実行することにより、高周波数部分を増やし、信号のスペクトルをフラットにし、低周波数から高周波数までの全周波数帯域に維持し、同じ信号対雑音比でスペクトルを求め、スペクトルの分析またはチャンネルパラメーターの分析を実行する。プリエンファシスは、音声信号がデジタル化されるときにアンチエイリアスフィルターの前に実行されるため、プリエンファシスを実行できるだけでなく、信号のダイナミックレンジも圧縮でき、信号対雑音比が効果的に改善される。プリエンファシスは、例えば、有限インパルス応答(Finite Impulse Response、FIR)フィルターなどの一次デジタルフィルターによって実現されてもよい。
なお、機器によって取得された音声信号はすべてアナログ信号であり、これらのアナログ信号のプリエンファシス処理の前に、サンプリングと定量化によってアナログ情報をデジタル信号に変換する必要があり、音声のスペクトル範囲200〜3400Hzに基づいて、サンプリングレートを8KHzに設定でき、定量化の精度を16bitに設定できる。
上記サンプリングレートおよび定量化精度の数値範囲は、本願の好ましい範囲ではあるが、実際の用途に応じて設定してもよく、ここで限定されないことを理解すべきである。
音声信号のプリエンファシスの後、スペクトルの高周波数部分が改善され、信号も平坦化され、平坦スペクトルを有するエンファシス処理済み声紋サンプルを生成し、その後の声紋特徴の抽出に役立つ。
S23:フレーミングとウィンドウイングを採用し、エンファシス処理済み声紋サンプルに対してフレーミング処理を実行し、初期音声フレームを得る。
具体的には、音声信号は、短時間の安定性を有し、プリエンファシス処理された後、信号の短時間安定性を維持するためにフレーミングおよびウィンドウイング処理される必要があり、通常、1秒あたりのフレーム数は33〜100フレームである。フレームとフレームとの間の連続性を維持し、隣接する2つのフレームを滑らかに遷移させるために、重複フレーミングの方法が採用され、図3に示すように、図3は重複フレーミングの例を示し、図3におけるk番目のフレームとk+1番目のフレームとの重複部分がフレームシフトである。
好ましくは、フレームシフトとフレーム長さの比率の取り得る範囲は(0、0.5)である。
例えば、一実施形態において、プリエンファシスされた音声信号はs’(n)で、フレーム長さはN個のサンプリングポイントで、フレームシフトはM個のサンプリングポイントである。l番目のフレームに対応するサンプリングポイントがn番目の場合、元の音声信号x(n)と各パラメーターとの間の対応関係は下記のとおりであり、すなわち、
ここで、n=0,1,...,N−1、N=256。
さらに、声紋サンプルがフレーミングされた後、対応するウィンドウ関数w(n)を使用してプリエンファシスされた後の音声信号s’(n)を乗算し、ウィンドウイングされた音声信号Sを取得し、当該音声信号を初期音声フレーム信号とする。
ここで、ウィンドウ関数は、長方形ウィンドウ(Rectangular)、ハミングウィンドウ(Hamming)やハニングウィンドウ(Hanning)などを含むが、これらに限定されない。
長方形ウィンドウの式は下式のように示し、
ハミングウィンドウは下式のように示し、
ハニングウィンドウは下式のように示し、
プリエンファシス処理された声紋サンプルに対してフレーミングおよびウィンドウイング処理を実行することにより、声紋サンプルはフレームとフレームとの間の連続性を維持し、いくつかの異常な信号点が排除され、声紋サンプルのロバスト性を高める。
S24:初期音声フレーム信号に対してサイレントトーン分離を実行し、目標音声フレームを得る。
具体的には、通話が持続している間、音声信号はアクティブ期間とサイレント期間の2つの状態に分けられ、サイレント期間では音声信号が送信されず、アップリンクとダウンリンクのアクティブ期間とサイレント期間は互いに独立している。ステップS21では、ユーザーの録音プロセスにおいて、発音の前後に一時停止状態があり、この状態で音声信号が一時停止し、つまりサイレント期間を形成し、声紋特徴を抽出するときに、サイレント期間状態を検出し、さらにサイレント期間をアクティブ期間から分離することにより、連続するアクティブ期間を取得し、残りの連続するアクティブ期間の音声信号を目標音声フレームとする。
ここで、サイレントトーン状態の検出方法は、音声境界検出、FFMPEGサウンディングオーディオミュートアルゴリズムや音声アクティビティ検出(Voice Activity Detection、VAD)アルゴリズムなどを含むが、これらに限定されない。
S25:目標音声フレームに基づいて、声紋特徴を抽出する。
具体的には、プリエンファシス処理、フレーミング、ウィンドウイング、およびサイレントトーン分離の後、安定した声紋サンプルが取得され、当該サンプルを使用して声紋特徴を抽出する。
ここで、声紋特徴の抽出は、話者の声紋に対する高い分離性や安定性を有する音響または言語特徴を抽出して選択する。
好ましくは、本願で抽出された声紋特徴は音響特徴中の線形ケプストラム特徴である。
S26:それぞれのグループにおいて、当該グループにおける各オペレーターの声紋特徴を当該グループの基本声紋特徴セットとして構成する。
具体的には、ステップS25で各オペレーターの声紋特徴が取得された後、グループごとのオペレーターの声紋特徴を声紋特徴セットとして構成し、後続の動的声紋認識モデルの構築に用いられる。
図2に対応する実施例において、それぞれのグループにおける各オペレーターに対して、当該オペレーターが複数の事前に設定された異なるコーパスを朗読して録音サンプルを取得し、当該録音サンプルに対して声紋解析を実行し、当該オペレーターの初期声紋サンプルを得て、また、初期声紋サンプルに対してプリエンファシス処理を実行し、平坦スペクトルを有するエンファシス処理済み声紋サンプルを生成し、フレーミングおよびウィンドウイングの方法を採用して、エンファシス処理済み声紋サンプルに対してフレーミング処理を実行し、ロバスト性を有する初期音声フレームを得て、初期音声フレーム信号に対してサイレントトーン分離を実行し、干渉のあるサイレントトーンをフィルタリングして目標音声フレームを取得し、声紋サンプルに連続性およびロバスト性を有させ、さらに当該声紋サンプルからオペレーターの声紋特徴を抽出し、それぞれのグループにおいて、当該グループ内の各オペレーターの声紋特徴を当該グループの基本声紋特徴セットとして構成し、基本声紋特徴セットにおける声紋特徴の精度およびロバスト性を向上させる。
図2に対応する実施例に基づいて、以下、具体的な実施例によってステップS25に記載された目標音声フレームに従って、声紋特徴を抽出する具体的な実現方法を詳しく説明する。
図4を参照し、図4は、本願の実施例に係るステップS25を具体的に実現するフローを示し、詳細は以下のとおりである。すなわち、
S251:レビンソン・ダービンアルゴリズムを使用して目標音声フレームの予測誤差計算式(F1)中の線形予測係数を予測し、予測結果に従って目標線形予測係数a’1,a’,...,a’を決定し、すなわち、
具体的には、音声の隣接するサンプルポイント間の相関性により、線形予測を利用して、過去のサンプルポイント値に従って現在または将来のサンプルポイント値を予測でき、即ち、過去のいくつかの音声サンプルまたはそれらの線形結合を利用して、当該音声の現在のサンプル値に近似する。予測の目的は、予測誤差e(n)の平均二乗値を最小化する適切な係数セットを見つけることである。通常、実際の予測プロセスでは、まずサンプリングシーケンスを特定の数だけフレーム化し、次にフレームごとに予測し、各フレームの当該フレームのP個の最適予測係数を見つける。予測の精度は、特定のサンプル値の予測結果によらず、フレーム内の各サンプル値の予測効果全体によるものである。
さらに、予測の精度を向上させるために、予測誤差を小さくする必要があり、本願では、予測誤差の二乗平均誤差を導き出し、ユール・ウォーカー方程式(Yule−Walker Equation)を得て、レビンソン・ダービンアルゴリズムを用いてユール・ウォーカー方程式を求め、得られた線形予測係数セットは、予測誤差値を最小化する線形予測係数であり、当該線形予測係数セットを目標予測係数とする。
S252:目標線形予測係数に基づいて、式(F2)に従って目標音声フレームの線形予測ケプストラル係数を計算し、当該線形予測ケプストラル係数を声紋特徴とする。
具体的には、式(F2)を用いてnの取り得る範囲に応じて対応する線形予測ケプストラル係数を計算し、得られた線形予測ケプストラル係数を音声信号シーケンスs(n)の声紋特徴とする。
図4に対応する実施例において、目標音声フレームの予測誤差の数式に対して極値を求め、予測誤差を最小化する線形予測係数セットを目標線形予測係数として見出し、当該目標線形予測係数を用いて式(F3)によって線形予測ケプストラル係数を計算し、当該線形ケプストラル係数を声紋特徴として、収集された声紋特徴の精度を向上させ、動的声紋認識モデルの予測精度を向上させるのに役立つ。
図1に対応する実施例に基づいて、以下、具体的な実施例によってステップS3で記載されたそれぞれの基本声紋特徴セットにおける声紋特徴をトレーニングし、各基本声紋特徴セットの総合声紋特徴を得る具体的な方法を詳しく説明する。
図5を参照し、図5は、本願の実施例に係るステップS3を具体的に実現するフローを示し、詳細は以下のとおりである。すなわち、
S31:それぞれの基本声紋特徴セットに対して、遺伝的アルゴリズムを用いて当該基本声紋特徴セットにおける声紋特徴を最適化し、当該基本声紋特徴セットに対応するコードブックセットを得る。
具体的には、遺伝的アルゴリズムを用いて当該基本声紋特徴セットにおける声紋特徴を最適化する具体的なプロセスはステップS3中の説明を参照し、繰り返し説明を避けるために、ここでは再度の説明を省略する。
S32:x番目の基本声紋特徴セットに対して、当該基本声紋特徴セットに対応するコードブックセット内のコードブックの総数qを取得し、当該コードブックセットからトレーニングサンプルとしてk個のコードブックを任意に選択し、トレーニングサンプルのコードブックマトリックスにつき、対応するビットに従って算術平均値を取ることによってカテゴリーコードブックDを取得し、当該カテゴリーコードブックDをx番目のグループの基本声紋特徴セットの総合声紋特徴として、ここで、k∈[1,q]、xとqは正整数である。
理解されるように、各グループの基本声紋集について、当該グループの総合声紋特徴を取得し、本願の実施例において対応するビットに応じて算術平均値を取ることによってカテゴリーコードブックを得るが、他の実施例中において、実際の状況に応じて、加重平均値、幾何平均値、二乗平均値、および調和平均値によってカテゴリーコードブックを取得してもよく、ここでは特に限定されない。
なお、カテゴリーコードブックを生成した後、下記のステップS52における式(F3)を用いて当該グループ内の各声紋特徴から当該カテゴリーコードブックまでの距離を計算し、これらの距離を事前設定された距離と比較して、事前設定された距離より大きくなる声紋特徴の数は事前設定された閾値を超える場合、当該カテゴリーコードブックが要件を満たさないと判断し、生成されたカテゴリーコードブックから当該グループ内の各声紋までのユークリッド距離が事前設定された距離より大きくなる数が事前に設定された閾値を超えないようになるまで、k個のコードブックをランダムに選択して再トレーニングし、このときのカテゴリーコードブックを当該グループのカテゴリーコードブックとする。
図5に対応する実施例において、それぞれの基本声紋特徴セットに対して、遺伝的アルゴリズムを採用して当該基本声紋特徴セット内の声紋特徴を最適化し、当該基本声紋特徴セットに対応するコードブックセットを得て、それぞれの基本声紋特徴セットにおいて、当該基本声紋特徴セットに対応するコードブックセット内のコードブックの総数を取得し、トレーニングサンプルとして当該コードブックセットから事前設定された数のコードブックをランダムに選択し、トレーニングサンプルのコードブックマトリックスにつき、対応するビットに従って算術平均値を取ることによってカテゴリーコードブックを取得し、二次方法に従ってグループ全体のカテゴリーコードブックを取得し、それぞれのグループの総合声紋特徴を抽出することによって、呼出し操作が検出された場合、現在の音声データの属するグループを迅速に判断し、認識効率を向上させることができる。
図5に対応する実施例に基づいて、以下、具体的な実施例によってステップS5で記載された動的声紋認識モデルに従って、目標声紋特徴を認識し、認識されるオペレーターの呼出し権限を決定する具体的な実現方法を詳しく説明する。
図6を参照し、図6は、本願の実施例に係るステップS5を具体的に実現するフローを示し、詳細は以下のとおりである。すなわち、
S51:目標声紋特徴を前処理し、目標声紋特徴の目標最適化コードブックを得る。
具体的には、ステップS4で取得された目標声紋特徴を前処理し、前処理プロセスはステップS22〜ステップS25の説明を参照でき、さらに遺伝的アルゴリズムを採用して当該基本声紋特徴セット内の声紋特徴を最適化し、具体的な最適化プロセスはステップS3での説明を参照し、繰り返し説明を避けるために、ここでは再度の説明を省略し、目標声紋特徴の目標最適化コードブックを得る。
S52:式(F3)に従って目標最適化コードブックから各カテゴリーコードブックまでのユークリッド距離を計算する。
ここで、ρ(A,D)は目標最適化コードブックAからj番目のカテゴリーコードブックDまでのユークリッド距離で、aは目標最適化コードブックAにおけるt番目のコードシーケンス特徴で、bはカテゴリーコードブックDにおけるt番目のコードシーケンス特徴で、j∈[1,J]、Jは基本声紋特徴セットの数である。
ここで、コードシーケンス特徴は、各目標最適化コードブック内の声紋特徴を表すために使用される係数、例えばステップS252における線形ケプストラル係数を指す。
S53:目標ユークリッド距離として、J個のユークリッド距離から最小値のユークリッド距離を選択する。
具体的には、ステップS52から分かるように、目標最適化コードブックからそれぞれのカテゴリーコードブックまではいずれも1つのユークリッド距離を取得し、最後に取得されたユークリッド距離の総数がグループの総数と合致していることが容易に理解され、これらのユークリッド距離を比較して、最小値のユークリッド距離を取得し、目標ユークリッド距離とする。
例えば、一実施形態において、合計10のグループ、即ち10の基本声紋特徴セットが割り当てられ、それぞれの基本声紋特徴セットは1つのカテゴリーコードブックに対応し、目標最適化コードブックから各カテゴリーコードブックまでのユークリッド距離をそれぞれ計算し、10のユークリッド距離を得て、目標ユークリッド距離としてこれらのユークリッド距離から最小値のユークリッド距離を選択する。
S54:目標ユークリッド距離に対応するカテゴリーコードブックの属するグループを取得し、当該グループを現在の呼出しグループとする。
具体的には、ステップS42から分かるように、各カテゴリーコードブックは1つのグループに対応し、目標ユークリッド距離に対応するグループを取得し、当該グループを現在の呼出しグループとする。
S55:対応関係に従って、現在の呼出しグループに対応する現在の呼出し権限を決定し、認識されるオペレーターの呼出し権限とする。
具体的には、ステップS3で決定された呼出しグループと呼出し権限との間の対応関係に従って、現在の呼出しグループに対応する呼出し権限を取得し、当該権限を認識されるオペレーターの呼出し権限とする。
図6に対応する実施例において、目標声紋特徴を前処理し、目標声紋特徴の目標最適化コードブックを得て、さらに目標最適化コードブックから各カテゴリーコードブックまでのユークリッド距離を計算し、すべてのユークリッド距離から最小値のユークリッド距離を目標ユークリッド距離として選択し、さらに目標ユークリッド距離に対応するカテゴリーコードブックの属するグループを取得し、当該グループを現在の呼出しグループとして、グループと呼出し権限との対応関係に従って、現在の呼出しグループに対応する現在の呼出し権限を認識されるオペレーターの呼出し権限として決定する。それにより、現在の呼出しへの権限判断をリアルタイムで迅速に実現し、リアルタイムの監視を実現し、監視の適時性およびオペレーターの呼出し品質を効果的に改善できる。
上記実施例における各ステップの番号は実行順序を意味するものではなく、各プロセスの実行順序はその機能および内部ロジックによって決定され、本願の実施例の実施プロセスを限定するものではないことを理解すべきである。
実施例2
実施例1における声紋認識方法に対応して、図7は、実施例1に係る声紋認識方法と一対一で対応する声紋認識装置を示す、説明の便宜上、本願の実施例に関連する部分のみを示す。
図7に示すように、当該声紋認識装置は、オペレーター権限グループ化モジュール10、声紋特徴収集モジュール20、認識モデル構築モジュール30、目標特徴取得モジュール40、呼出し権限決定モジュール50およびリアルタイム音声警告モジュール60を含む。各機能モジュールの詳細は下記のとおりである。すなわち、
オペレーター権限グループ化モジュール10は、データベースにおける各オペレーターの呼出し権限を取得し、事前に設定された権限のグループ化方法に従って、それぞれのオペレーターを呼出し権限に対応するグループに割り当てるように使用される。
声紋特徴収集モジュール20は、それぞれのグループに対して、当該グループにおけるオペレーターごとに声紋特徴を収集し、当該グループの基本声紋特徴セットを得るために用いられる。
認識モデル構築モジュール30は、それぞれの基本声紋特徴セットにおける声紋特徴をトレーニングし、それぞれの基本声紋特徴セットの総合声紋特徴を取得し、グループ、呼出し権限と総合声紋特徴との間の対応関係に基づいて、動的声紋認識モデルを構築するために用いられる。
目標特徴取得モジュール40は、認識されるオペレーターの呼出し操作が検出された場合、呼び出された顧客の顧客レベルおよび認識されるオペレーターの音声データを取得し、当該音声データに対して声紋特徴を抽出し、目標声紋特徴を得るために使用される。
呼出し権限決定モジュール50は、動的声紋認識モデルに基づいて、目標声紋特徴を認識し、認識されるオペレーターの呼出し権限を決定するために使用される。
リアルタイム音声警告モジュール60は、認識されるオペレーターの呼出し権限が顧客レベルの要件を満たさない場合、事前に設定された早期警告措置を実行するために用いられる。
さらに、声紋特徴収集モジュール20は、
それぞれのグループ内の各オペレーターに対して、当該オペレーターが複数の事前に設定された異なるコーパスを朗読して録音サンプルを取得し、当該録音サンプルに対して声紋解析を実行し、当該オペレーターの初期声紋サンプルを得るための初期声紋取得ユニット21と、
初期声紋サンプルに対してプリエンファシス処理を実行し、平坦スペクトルを有するエンファシス処理済み声紋サンプルを生成するための声紋エンファシス処理ユニット22と、
フレーミングおよびウィンドウイングの方法を採用して、エンファシス処理済み声紋サンプルに対してフレーミング処理を実行し、初期音声フレームを得るための初期音声フレーム生成ユニット23と、
初期音声フレーム信号に対してサイレントトーン分離を実行し、目標音声フレームを得るための目標音声フレーム取得ユニット24と、
目標音声フレームに基づいて、声紋特徴を抽出するための声紋特徴抽出ユニット25と、
それぞれのグループにおいて、当該グループにおける各オペレーターの声紋特徴を当該グループの基本声紋特徴セットとして構成するための声紋特徴セット整合ユニット26と、さらに含む。
好ましくは、声紋特徴抽出ユニット25は目標線形予測係数再帰サブユニット251および線形予測ケプストラル係数計算サブユニット252を含む。
目標線形予測係数再帰サブユニット251は、レビンソン・ダービンアルゴリズムを用いて目標音声フレームの予測誤差計算式(F1)中の線形予測係数を予測し、予測結果に従って目標線形予測係数a’1,a’,...,a’:を決定し、すなわち、
線形予測ケプストラル係数計算サブユニット252は、目標線形予測係数に基づいて、式(F2)に従って目標音声フレームの線形予測ケプストラル係数を計算し、線形予測ケプストラル係数を声紋特徴として、すなわち、
さらに、認識モデル構築モジュール30は、特徴コードブック最適化ユニット31およびカテゴリーコードブックトレーニングユニット32を含む。
特徴コードブック最適化ユニット31は、それぞれの基本声紋特徴セットに対して、遺伝的アルゴリズムを用いて当該基本声紋特徴セットにおける声紋特徴を最適化し、当該基本声紋特徴セットに対応するコードブックセットを得る。
カテゴリーコードブックトレーニングユニット32は、x番目の基本声紋特徴セットに対して、当該基本声紋特徴セットに対応するコードブックセット内のコードブックの総数qを取得し、当該コードブックセットからトレーニングサンプルとしてk個のコードブックを任意に選択し、当該トレーニングサンプルのコードブックマトリックスを対応するビットに従って算術平均値を取ることによってカテゴリーコードブックDを取得し、当該カテゴリーコードブックDをx番目のグループの基本声紋特徴セットの総合声紋特徴として、ここで、k∈[1,q]、xとqは正整数である。
さらに、呼出し権限決定モジュール50は、
目標声紋特徴を前処理し、目標声紋特徴の目標最適化コードブックを得るための目標最適化コードブック取得ユニット51と、
式(F3)に従って目標最適化コードブックから各カテゴリーコードブックまでのユークリッド距離を計算するためのユークリッド距離計算ユニット52と、
ここで、ρ(A,D)は目標最適化コードブックAからj番目のカテゴリーコードブックDまでのユークリッド距離で、aは目標最適化コードブックAにおけるt番目のコードシーケンス特徴で、bはカテゴリーコードブックDにおけるt番目のコードシーケンス特徴で、j∈[1,J]、Jは基本声紋特徴セットの数であり、
n個のユークリッド距離から最小値のユークリッド距離を目標ユークリッド距離として選択するための目標ユークリッド距離選択ユニット53と、
目標ユークリッド距離に対応するカテゴリーコードブックの属するグループを取得し、当該グループを当前呼出しグループとするための現在の呼出しグループ決定ユニット54と、
対応関係に従って、現在の呼出しグループに対応する現在の呼出し権限を決定し、認識されるオペレーターの呼出し権限とするための現在の呼出し権限取得ユニット55と、を含む。
本実施例に係る声紋認識装置における各モジュールの各機能を実現するプロセスは、具体的に上記の実施例1の説明を参照し、ここでは再度の説明を省略する。
実施例3
本実施例は、コンピューター可読コマンドが記憶されている1つ以上の不揮発性可読記憶媒体を提供し、当該不揮発性可読記憶媒体にコンピューター可読コマンドが記憶され、当該コンピューター可読コマンドが1つ以上のプロセッサによって実行されるときに実施例1における声紋認識方法を実現し、または、当該コンピューター可読コマンドが1つ以上のプロセッサによって実行されるときに実施例2における声紋認識装置の各モジュール/ユニットの機能を実現する。繰り返し説明を避けるため、ここでは再度の説明を省略する。
前記不揮発性可読記憶媒体は、前記コンピューター可読コマンドコードを運ぶことができる任意のエンティティまたは装置、記録媒体、USBメモリ、モバイルハードディスク、磁気ディスク、光ディスク、コンピューターメモリ、読み取り専用メモリ(Read−Only Memory、ROM)、ランダムアクセスメモリ(Random Access Memory,RAM)、電気搬送信号や電気信号などを含んでもよいことは理解すべきである。
実施例4
図8は、本願の一実施例に係る端末機器を示す図である。図8に示すように、当該実施例の端末機器80は、プロセッサ81と、メモリ82と、メモリ82に記憶され、プロセッサ81で動作可能な声紋認識プログラムなどのコンピューター可読コマンド83と、を含む。プロセッサ81は、コンピューター可読コマンド83を実行するときに上記各声紋認識方法の実施例におけるステップ、例えば図1に示すステップS1〜ステップS6を実現する。または、プロセッサ81は、コンピューター可読コマンド83を実行するときに上記各装置実施例における各モジュール/ユニットの機能、例えば図7に示すモジュール10〜モジュール60の機能を実現する。
例示的に、コンピューター可読コマンド83は、1つ以上のモジュール/ユニットに分割されてもよく、1つ以上のモジュール/ユニットはメモリ82に記憶され、プロセッサ81によって実行され、本願に至った。1つ以上のモジュール/ユニットは、具体的な機能を実行できる一連のコンピューター可読コマンドのコマンドセグメントであってもよく、当該コマンドセグメントは、端末機器80におけるコンピューター可読コマンド83の実行プロセスを記述するために使用され、例えば、コンピューター可読コマンド83はオペレーター権限グループ化モジュール、声紋特徴収集モジュール、認識モデル構築モジュール、目標特徴取得モジュール、呼出し権限決定モジュールおよびリアルタイム音声警告モジュールに分割されてもよく、各モジュールの具体的な機能は実施例2に示すとおりであり、繰り返し説明を避けるため、ここでは再度の説明を省略する。
説明しやすくおよび簡潔にするために、上記の各機能ユニット、モジュールの配分のみを例示したが、当業者であれば、実際の応用において、必要に応じて上記機能の配分は異なる機能ユニット、モジュールによって完成されて、すなわち前記装置の内部構造を異なる機能ユニットまたはモジュールに分けして上記機能の全部または一部を実現できることは明確に理解できるであろう。
上述した実施例は本願の技術的解決手段を説明するためのものであり、これに限定されるものではない。前記の実施例を参照しながら本願を詳細に説明したが、当業者であれば、前記の各実施例に記載された技術的解決手段を変更し、またはその技術特徴の一部を等価的に置き換えることができることを理解すべきである。これらの変更や置き換えは、対応する技術的解決手段の本質が本願の各実施例の技術的解決手段の要旨および範囲から逸脱することなく、本発明の保護の範囲に含まれる。
本願は、2018年5月29日に出願した「声紋認識方法、装置、端末機器および記憶媒体」と題された中国特許出願第201810528518.0号に基づく優先権を主張する。
本願は、コンピューター通信技術の分野に関し、特に声紋認識方法、装置、端末機器および記憶媒体に関する。

Claims (20)

  1. データベースにおける各オペレーターの呼出し権限を取得し、事前に設定された権限のグループ化方法に従って、各オペレーターを前記呼出し権限に対応するグループに割り当てることと、
    前記グループのそれぞれに対し、当該グループにおいて、前記オペレーターごとに声紋特徴を収集し、当該グループの基本声紋特徴セットを得ることと、
    前記基本声紋特徴セットのそれぞれにおける声紋特徴をトレーニングし、前記基本声紋特徴セットのそれぞれの総合声紋特徴を取得し、前記グループと前記呼出し権限と前記総合声紋特徴との間の声紋対応関係に基づいて、動的声紋認識モデルを構築することと、
    認識されるオペレーターの呼出し操作が検出された場合、呼び出された顧客の顧客レベルおよび前記認識されるオペレーターの音声データを取得し、前記音声データに対して声紋特徴を抽出し、目標声紋特徴を得ることと、
    前記動的声紋認識モデルに基づいて、前記目標声紋特徴を認識し、前記認識されるオペレーターの呼出し権限を決定することと、
    前記認識されるオペレーターの呼出し権限が前記顧客レベルの要件を満たさない場合、事前に設定された早期警告措置を実行することと、を含むことを特徴とする声紋認識方法。
  2. 前記グループのそれぞれに対し、当該グループ内の前記オペレーターごとに声紋特徴を収集し、当該グループの基本声紋特徴セットを得ることは、
    前記グループのそれぞれにおける前記各オペレーターに対して、当該オペレーターが複数の事前に設定された異なるコーパスを朗読する録音サンプルを取得し、前記録音サンプルに対して声紋解析を実行し、当該オペレーターの初期声紋サンプルを得ることと、
    前記初期声紋サンプルに対してプリエンファシス処理を実行し、平坦スペクトルを有するエンファシス処理済み声紋サンプルを生成することと、
    フレーミングおよびウィンドウイングの方法を採用して、前記エンファシス処理済み声紋サンプルに対してフレーミング処理を実行し、初期音声フレームを得ることと、
    初期音声フレーム信号に対してサイレントトーン分離を実行し、目標音声フレームを得ることと、
    前記目標音声フレームに基づいて、声紋特徴を抽出することと、
    前記グループのそれぞれにおいて、当該グループにおける前記各オペレーターの前記声紋特徴を当該グループの前記基本声紋特徴セットとして構成することと、を含むことを特徴とする請求項1に記載の声紋認識方法。
  3. 前記目標音声フレームに基づいて、声紋特徴を抽出することは、
    レビンソン・ダービンアルゴリズムを用いて前記目標音声フレームの予測誤差の計算式(F1)中の線形予測係数を予測し、予測結果に従って目標線形予測係数a’1,a’,...,a’を決定することと、
    前記目標線形予測係数に基づいて、式(F2)に従って前記目標音声フレームの線形予測ケプストラル係数を計算し、前記線形予測ケプストラル係数を前記声紋特徴とすることと、
  4. 前記基本声紋特徴セットのそれぞれにおける声紋特徴をトレーニングし、前記基本声紋特徴セットのそれぞれの総合声紋特徴を取得することは、
    前記基本声紋特徴セットのそれぞれに対して、遺伝的アルゴリズムを採用して当該基本声紋特徴セットにおける声紋特徴を最適化し、当該基本声紋特徴セットに対応するコードブックセットを得ることと、
    x番目の前記基本声紋特徴セットに対して、当該基本声紋特徴セットに対応する前記コードブックセットにおけるコードブックの総数qを取得し、当該コードブックセットからトレーニングサンプルとしてk個のコードブックを任意に選択し、前記トレーニングサンプルのコードブックマトリックスが対応するビットに応じて算術平均値を取ることによってカテゴリーコードブックDを得て、当該カテゴリーコードブックDをx番目のグループの基本声紋特徴セットの総合声紋特徴とすることと、ここで、k∈[1,q]、xとqは正整数であること、を含むことを特徴とする請求項1に記載の声紋認識方法。
  5. 前記動的声紋認識モデルに基づいて、前記目標声紋特徴を認識し、前記認識されるオペレーターの呼出し権限を決定することは、
    前記目標声紋特徴を前処理し、前記目標声紋特徴の目標最適化コードブックを得ることと、
    式(F3)に応じて前記目標最適化コードブックから各前記カテゴリーコードブックまでのユークリッド距離を計算することと、
    ここで、ρ(A,D)は目標最適化コードブックAからj番目の前記カテゴリーコードブックDまでのユークリッド距離で、aは目標最適化コードブックAにおけるt番目のコードシーケンス特徴で、bは前記カテゴリーコードブックDにおけるt番目のコードシーケンス特徴で、j∈[1,J]、Jは前記基本声紋特徴セットの数であり、
    J個の前記ユークリッド距離から目標ユークリッド距離として最小値のユークリッド距離を選択することと、
    前記目標ユークリッド距離に対応するカテゴリーコードブックの属するグループを取得し、当該グループを現在の呼出しグループとすることと、
    前記対応関係に従って、前記現在の呼出しグループに対応する現在の呼出し権限を決定し、前記認識されるオペレーターの呼出し権限とすることと、を含むことを特徴とする請求項4に記載の声紋認識方法。
  6. データベースにおける各オペレーターの呼出し権限を取得し、事前に設定された権限のグループ化方法に従って、前記各オペレーターを前記呼出し権限に対応するグループに割り当てるためのオペレーター権限グループ化モジュールと、
    前記グループのそれぞれに対して、当該グループにおける前記オペレーターごとに声紋特徴を収集し、当該グループの基本声紋特徴セットを得るためのオペレーター権限グループ化モジュールと、
    前記基本声紋特徴セットのそれぞれにおける声紋特徴をトレーニングし、前記基本声紋特徴セットのそれぞれの総合声紋特徴を取得し、前記グループ、前記呼出し権限と前記総合声紋特徴との間の声紋対応関係に基づいて、動的声紋認識モデルを構築するための認識モデル構築モジュールと、
    認識されるオペレーターの呼出し操作が検出された場合、呼び出された顧客の顧客レベルおよび前記認識されるオペレーターの音声データを取得し、且つ、前記音声データに対して声紋特徴を抽出し、目標声紋特徴を得るための目標特徴取得モジュールと、
    前記動的声紋認識モデルに基づいて、前記目標声紋特徴を認識し、前記認識されるオペレーターの呼出し権限を決定するための呼出し権限決定モジュールと、
    前記認識されるオペレーターの呼出し権限が前記顧客レベルの要件を満たさない場合、事前に設定された早期警告措置を実行するためのリアルタイム音声警告モジュールと、を含むことを特徴とする声紋認識装置。
  7. 声紋特徴収集モジュールは、
    前記グループのそれぞれにおける前記各オペレーターに対して、当該オペレーターが複数の事前に設定された異なるコーパスを朗読して録音サンプルを取得し、前記録音サンプルに対して声紋解析を実行し、当該オペレーターの初期声紋サンプルを得るための初期声紋取得ユニットと、
    前記初期声紋サンプルに対してプリエンファシス処理を実行し、平坦スペクトルを有するエンファシス処理済み声紋サンプルを生成するための声紋エンファシス処理ユニットと、
    フレーミングおよびウィンドウイングの方法を採用して、前記エンファシス処理済み声紋サンプルに対してフレーミング処理を実行し、初期音声フレームを得るための初期音声フレーム生成ユニットと、
    前記初期音声フレーム信号に対してサイレントトーン分離を実行し、目標音声フレームを得るための目標音声フレーム取得ユニットと、
    前記目標音声フレームに基づいて、声紋特徴を抽出するための声紋特徴抽出ユニットと、
    前記グループのそれぞれにおいて、当該グループにおける前記各オペレーターの前記声紋特徴を当該グループの前記基本声紋特徴セットとして構成するための声紋特徴セット整合ユニットと、を含むことを特徴とする請求項6に記載の声紋認識装置。
  8. 前記声紋特徴抽出ユニットは、
    レビンソン・ダービンアルゴリズムを用いて前記目標音声フレームの予測誤差の計算式(F1)中の線形予測係数を予測し、予測結果に従って目標線形予測係数a’1,a’,...,a’を決定するための目標線形予測係数再帰サブユニットと、
    前記目標線形予測係数に従って、式(F2)に応じて前記目標音声フレームの線形予測ケプストラル係数を計算し、前記線形予測ケプストラル係数を前記声紋特徴とするための線形予測ケプストラル係数計算サブユニットと、
  9. 前記認識モデル構築モジュールは、
    前記それぞれの基本声紋特徴セットに対して、遺伝的アルゴリズムを採用して当該基本声紋特徴セット内の声紋特徴を最適化し、当該基本声紋特徴セットに対応するコードブックセットを得るための特徴コードブック最適化ユニットと、
    x番目の前記基本声紋特徴セットに対して、当該基本声紋特徴セットに対応する前記コードブックセット内のコードブックの総数qを取得し、当該コードブックセットからトレーニングサンプルとしてk個のコードブックを任意に選択し、前記トレーニングサンプルのコードブックマトリックスを対応するビットに応じて算術平均値を取ることによってカテゴリーコードブックDを取得し、当該カテゴリーコードブックDをx番目のグループの基本声紋特徴セットの総合声紋特徴とするためのカテゴリーコードブックトレーニングユニットと、ここで、k∈[1,q]、xとqは正整数であること、を含むことを特徴とする請求項6に記載の声紋認識装置。
  10. 前記呼出し権限決定モジュールは、
    前記目標声紋特徴を前処理し、前記目標声紋特徴の目標最適化コードブックを得るための目標最適化コードブック取得ユニットと、
    式(F3)に応じて前記目標最適化コードブックから各前記カテゴリーコードブックまでのユークリッド距離を計算するためのユークリッド距離計算ユニットと、
    ここで、ρ(A,D)は目標最適化コードブックAからj番目の前記カテゴリーコードブックDまでのユークリッド距離で、aは目標最適化コードブックAにおけるt番目のコードシーケンス特徴で、bは前記カテゴリーコードブックDにおけるt番目のコードシーケンス特徴で、J∈[1,J]、Jは前記基本声紋特徴セットの数であり、
    J個の前記ユークリッド距離から目標ユークリッド距離として最小値のユークリッド距離を選択するための目標ユークリッド距離選択ユニットと、
    前記目標ユークリッド距離に対応するカテゴリーコードブックの属するグループを取得し、当該グループを現在の呼出しグループとするための現在の呼出しグループ決定ユニットと、
    前記対応関係に従って、前記現在の呼出しグループに対応する現在の呼出し権限を決定し、前記認識されるオペレーターの呼出し権限とするための現在の呼出し権限取得ユニットと、を含むことを特徴とする請求項9に記載の声紋認識装置。
  11. メモリと、プロセッサと、前記メモリに記憶され、前記プロセッサで動作可能なコンピューター可読コマンドとを含む端末機器であって、前記プロセッサが前記コンピューター可読コマンドを実行するときに、下記のステップ、すなわち、
    データベースにおける各オペレーターの呼出し権限を取得し、事前に設定された権限のグループ化方法に従って、前記各オペレーターを前記呼出し権限に対応するグループに割り当てるステップと、
    前記グループのそれぞれに対して、当該グループにおける前記オペレーターごとに声紋特徴を収集し、当該グループの基本声紋特徴セットを得るステップと、
    前記基本声紋特徴セットのそれぞれにおける声紋特徴をトレーニングし、前記基本声紋特徴セットのそれぞれの総合声紋特徴を取得し、前記グループと前記呼出し権限と前記総合声紋特徴との間の声紋対応関係に基づいて、動的声紋認識モデルを構築するステップと、
    認識されるオペレーターの呼出し操作が検出された場合、呼び出された顧客の顧客レベルおよび前記認識されるオペレーターの音声データを取得し、前記音声データに対して声紋特徴を抽出し、目標声紋特徴を得るステップと、
    前記動的声紋認識モデルに基づいて、前記目標声紋特徴を認識し、前記認識されるオペレーターの呼出し権限を決定するステップと、
    前記認識されるオペレーターの呼出し権限が前記顧客レベルの要件を満たさない場合、事前に設定された早期警告措置を実行するステップと、を実行することを特徴とする端末機器。
  12. 前記グループのそれぞれに対して、当該グループにおける前記オペレーターごとに声紋特徴を収集し、当該グループの基本声紋特徴セットを得ることは、
    前記グループのそれぞれにおける前記各オペレーターに対して、当該オペレーターが複数の事前に設定された異なるコーパスを朗読して録音サンプルを取得し、前記録音サンプルに対して声紋解析を実行し、当該オペレーターの初期声紋サンプルを得ることと、
    前記初期声紋サンプルに対してプリエンファシス処理を実行し、平坦スペクトルを有するエンファシス処理済み声紋サンプルを生成することと、
    フレーミングおよびウィンドウイングの方法を採用して、前記エンファシス処理済み声紋サンプルに対してフレーミング処理を実行し、初期音声フレームを得ることと、
    前記初期音声フレーム信号に対してサイレントトーン分離を実行し、目標音声フレームを得ることと、
    前記目標音声フレームに基づいて、声紋特徴を抽出することと、
    前記グループのそれぞれにおいて、当該グループにおける前記オペレーターのそれぞれの前記声紋特徴を当該グループの前記基本声紋特徴セットとして構成することと、を含むことを特徴とする請求項11に記載の端末機器。
  13. 計算式(F1)中の線形予測係数を予測し、予測結果に従って目標線形予測係数a’1,a’,...,a’を決定することと、
    前記目標線形予測係数に基づいて、式(F2)に応じて前記目標音声フレームの線形予測ケプストラル係数を計算し、前記線形予測ケプストラル係数を前記声紋特徴とすることと、
  14. 前記基本声紋特徴セットのそれぞれにおける声紋特徴をトレーニングし、前記基本声紋特徴セットのそれぞれの総合声紋特徴を取得することは、
    前記基本声紋特徴セットのそれぞれに対して、遺伝的アルゴリズムを採用して当該基本声紋特徴セットにおける声紋特徴を最適化し、当該基本声紋特徴セットに対応するコードブックセットを得ることと、
    x番目の前記基本声紋特徴セットに対して、当該基本声紋特徴セットに対応する前記コードブックセット内のコードブックの総数qを取得し、当該コードブックセットからトレーニングサンプルとしてk個のコードブックを任意に選択し、前記トレーニングサンプルのコードブックマトリックスを対応するビットに応じて算術平均値を取ることによってカテゴリーコードブックDを取得し、当該カテゴリーコードブックDをx番目のグループの基本声紋特徴セットの総合声紋特徴とすることと、ここで、k∈[1,q]、xとqは正整数であること、を含むことを特徴とする請求項11に記載の端末機器。
  15. 前記動的声紋認識モデルに基づいて、前記目標声紋特徴を認識し、前記認識されるオペレーターの呼出し権限を決定することは、
    前記目標声紋特徴を前処理し、前記目標声紋特徴の目標最適化コードブックを得ることと、
    式(F3)に応じて前記目標最適化コードブックから各前記カテゴリーコードブックまでのユークリッド距離を計算することと、
    ここで、ρ(A,D)は目標最適化コードブックAからj番目の前記カテゴリーコードブックDまでのユークリッド距離で、aは目標最適化コードブックAにおけるt番目のコードシーケンス特徴で、bは前記カテゴリーコードブックDにおけるt番目のコードシーケンス特徴で、j∈[1,J]、Jは前記基本声紋特徴セットの数であり、
    J個の前記ユークリッド距離から目標ユークリッド距離として最小値のユークリッド距離を選択することと、
    前記目標ユークリッド距離に対応するカテゴリーコードブックの属するグループを取得し、当該グループを現在の呼出しグループとすることと、
    前記対応関係に従って、前記現在の呼出しグループに対応する現在の呼出し権限を決定し、前記認識されるオペレーターの呼出し権限とすることと、を含むことを特徴とする請求項14に記載の端末機器。
  16. コンピューター可読コマンドが記憶されている1つ以上の不揮発性可読記憶媒体であって、前記コンピューター可読コマンドが1つ以上のプロセッサによって実行されるときに、前記1つ以上のプロセッサに、
    データベースにおける各オペレーターの呼出し権限を取得し、事前に設定された権限のグループ化方法に従って、前記各オペレーターを前記呼出し権限に対応するグループに割り当てるステップと、
    前記グループのそれぞれに対して、当該グループにおける前記オペレーターごとに声紋特徴を収集し、当該グループの基本声紋特徴セットを得るステップと、
    前記基本声紋特徴セットのそれぞれにおける声紋特徴をトレーニングし、前記基本声紋特徴セットのそれぞれの総合声紋特徴を取得し、前記グループと前記呼出し権限と前記総合声紋特徴との間の声紋対応関係に基づいて、動的声紋認識モデルを構築するステップと、
    認識されるオペレーターの呼出し操作が検出された場合、呼び出された顧客の顧客レベルおよび前記認識されるオペレーターの音声データを取得し、前記音声データに対して声紋特徴を抽出し、目標声紋特徴を得るステップと、
    前記動的声紋認識モデルに基づいて、前記目標声紋特徴を認識し、前記認識されるオペレーターの呼出し権限を決定するステップと、
    前記認識されるオペレーターの呼出し権限が前記顧客レベルの要件を満たさない場合、事前に設定された早期警告措置を実行するステップと、を実行させることを特徴とする不揮発性可読記憶媒体。
  17. 前記グループのそれぞれについて、当該グループ内の前記オペレーターごとに声紋特徴を収集し、当該グループの基本声紋特徴セットを得ることは、
    前記グループのそれぞれにおける前記各オペレーターに対して、当該オペレーターが複数の事前に設定された異なるコーパスを朗読して録音サンプルを取得し、前記録音サンプルに対して声紋解析を実行し、当該オペレーターの初期声紋サンプルを得ることと、
    前記初期声紋サンプルに対してプリエンファシス処理を実行し、平坦スペクトルを有するエンファシス処理済み声紋サンプルを生成することと、
    フレーミングおよびウィンドウイングの方法を採用して、前記エンファシス処理済み声紋サンプルに対してフレーミング処理を実行し、初期音声フレームを得ることと、
    前記初期音声フレーム信号に対してサイレントトーン分離を実行し、目標音声フレームを得ることと、
    前記目標音声フレームに基づいて、声紋特徴を抽出することと、
    前記グループのそれぞれにおいて、当該グループにおける前記各オペレーターの前記声紋特徴を当該グループの前記基本声紋特徴セットとして構成することと、を含むことを特徴とする請求項16に記載の不揮発性可読記憶媒体。
  18. 前記目標音声フレームに基づいて、声紋特徴を抽出することは、
    レビンソン・ダービンアルゴリズムを使用して前記目標音声フレームの予測誤差の計算式(F1)中の線形予測係数を予測し、予測結果に従って目標線形予測係数a’1,a’,...,a’を決定することと、
    前記目標線形予測係数に基づいて、式(F2)に応じて前記目標音声フレームの線形予測ケプストラル係数を計算し、前記線形予測ケプストラル係数を前記声紋特徴とすることと、
  19. 前記基本声紋特徴セットのそれぞれにおける声紋特徴をトレーニングし、前記基本声紋特徴セットのそれぞれの総合声紋特徴を取得することは、
    前記基本声紋特徴セットのそれぞれに対して、遺伝的アルゴリズムを採用して当該基本声紋特徴セットにおける声紋特徴を最適化し、当該基本声紋特徴セットに対応するコードブックセットを得ることと、
    x番目の前記基本声紋特徴セットに対して、当該基本声紋特徴セットに対応する前記コードブックセット内のコードブックの総数qを取得し、当該コードブックセットからトレーニングサンプルとしてk個のコードブックを任意に選択し、前記トレーニングサンプルのコードブックマトリックスを対応するビットに応じて算術平均値を取ることによってカテゴリーコードブックDを取得し、当該カテゴリーコードブックDをx番目のグループの基本声紋特徴セットの総合声紋特徴とすることと、ここで、k∈[1,q]、xとqは正整数であること、を含むことを特徴とする請求項16に記載の不揮発性可読記憶媒体。
  20. 前記動的声紋認識モデルに基づいて、前記目標声紋特徴を認識し、前記認識されるオペレーターの呼出し権限を決定することは、
    前記目標声紋特徴を前処理し、前記目標声紋特徴の目標最適化コードブックを得ることと、
    式(F3)に応じて前記目標最適化コードブックから各前記カテゴリーコードブックまでのユークリッド距離を計算することと、
    ここで、ρ(A,D)は目標最適化コードブックAからj番目の前記カテゴリーコードブックDまでのユークリッド距離で、aは目標最適化コードブックAにおけるt番目のコードシーケンス特徴で、bは前記カテゴリーコードブックDにおけるt番目のコードシーケンス特徴で、j∈[1,J]、Jは前記基本声紋特徴セットの数であり、
    J個の前記ユークリッド距離から目標ユークリッド距離として最小値のユークリッド距離を選択することと、
    前記目標ユークリッド距離に対応するカテゴリーコードブックの属するグループを取得し、当該グループを現在の呼出しグループとすることと、
    前記対応関係に従って、前記現在の呼出しグループに対応する現在の呼出し権限を決定し、前記認識されるオペレーターの呼出し権限とすることと、を含むことを特徴とする請求項19に記載の不揮発性可読記憶媒体。
JP2019563563A 2018-05-29 2018-07-03 声紋認識方法、装置、端末機器および記憶媒体 Active JP6792089B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201810528518.0A CN108900725B (zh) 2018-05-29 2018-05-29 一种声纹识别方法、装置、终端设备及存储介质
CN201810528518.0 2018-05-29
PCT/CN2018/094374 WO2019227583A1 (zh) 2018-05-29 2018-07-03 一种声纹识别方法、装置、终端设备及存储介质

Publications (2)

Publication Number Publication Date
JP2020525817A true JP2020525817A (ja) 2020-08-27
JP6792089B2 JP6792089B2 (ja) 2020-11-25

Family

ID=64343304

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019563563A Active JP6792089B2 (ja) 2018-05-29 2018-07-03 声紋認識方法、装置、端末機器および記憶媒体

Country Status (5)

Country Link
US (1) US10878823B2 (ja)
JP (1) JP6792089B2 (ja)
CN (1) CN108900725B (ja)
SG (1) SG11201912620YA (ja)
WO (1) WO2019227583A1 (ja)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109817224A (zh) * 2019-02-22 2019-05-28 深圳云游四海信息科技有限公司 一种语音敏感词监督系统和方法
CN110246502A (zh) * 2019-06-26 2019-09-17 广东小天才科技有限公司 语音降噪方法、装置及终端设备
CN110472097A (zh) * 2019-07-03 2019-11-19 平安科技(深圳)有限公司 乐曲自动分类方法、装置、计算机设备和存储介质
CN110738998A (zh) * 2019-09-11 2020-01-31 深圳壹账通智能科技有限公司 基于语音的个人信用评估方法、装置、终端及存储介质
EP4034269A1 (en) * 2019-09-26 2022-08-03 Kovács, György Combat drone with coordinated transmitter and receiver
CN110931022B (zh) * 2019-11-19 2023-09-15 天津大学 基于高低频动静特征的声纹识别方法
CN111105783A (zh) * 2019-12-06 2020-05-05 中国人民解放军61623部队 一种基于人工智能的综合客服系统
CN111131635B (zh) * 2019-12-20 2020-11-10 中国银行股份有限公司 一种数据请求的语音确认方法及装置
CN111310836B (zh) * 2020-02-20 2023-08-18 浙江工业大学 一种基于声谱图的声纹识别集成模型的防御方法及防御装置
CN111933147B (zh) * 2020-06-22 2023-02-14 厦门快商通科技股份有限公司 声纹识别方法、系统、移动终端及存储介质
CN112099628A (zh) * 2020-09-08 2020-12-18 平安科技(深圳)有限公司 基于人工智能的vr互动方法、装置、计算机设备及介质
CN112201275B (zh) * 2020-10-09 2024-05-07 深圳前海微众银行股份有限公司 声纹分割方法、装置、设备及可读存储介质
CN112802498B (zh) * 2020-12-29 2023-11-24 深圳追一科技有限公司 语音检测方法、装置、计算机设备和存储介质
CN112967718B (zh) * 2021-04-02 2024-04-12 深圳吉祥星科技股份有限公司 基于声音的投影仪控制方法、装置、设备及存储介质
CN113064983B (zh) * 2021-04-23 2024-04-26 深圳壹账通智能科技有限公司 语义检测方法、装置、计算机设备及存储介质
CN113436634B (zh) * 2021-07-30 2023-06-20 中国平安人寿保险股份有限公司 基于声纹识别的语音分类方法、装置及相关设备
WO2024026375A1 (en) * 2022-07-26 2024-02-01 Johnson Controls Tyco IP Holdings LLP Access control to secured locations using relaxed biometrics
CN115831152B (zh) * 2022-11-28 2023-07-04 国网山东省电力公司应急管理中心 一种用于实时监测应急装备发电机运行状态的声音监测装置及方法
CN115687334B (zh) * 2023-01-05 2023-05-16 粤港澳大湾区数字经济研究院(福田) 数据质检方法、装置、设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11175599A (ja) * 1997-12-11 1999-07-02 Hitachi Ltd 作業引継支援システム
JP2002514318A (ja) * 1997-01-31 2002-05-14 ティ―ネティックス,インコーポレイテッド 録音された音声を検出するシステムおよび方法
JP2009071403A (ja) * 2007-09-11 2009-04-02 Fujitsu Fsas Inc オペレータ受付監視・切替システム
JP2009081717A (ja) * 2007-09-26 2009-04-16 Nomura Securities Co Ltd 顧客対応支援装置

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7269580B2 (en) * 2000-10-03 2007-09-11 Celcorp, Inc. Application integration system and method using intelligent agents for integrating information access over extended networks
JP3899290B2 (ja) * 2002-06-10 2007-03-28 富士通株式会社 発信者特定方法、プログラム、装置及び記録媒体
CN100484164C (zh) * 2004-12-20 2009-04-29 北京佳讯飞鸿电气股份有限公司 限制VoIP业务异地出局的实现方法
US8180646B2 (en) * 2007-06-13 2012-05-15 International Business Machines Corporation System and method for implementing voice print-based priority call routing
US8537978B2 (en) * 2008-10-06 2013-09-17 International Business Machines Corporation Method and system for using conversational biometrics and speaker identification/verification to filter voice streams
EP2622832B1 (en) * 2010-09-30 2019-03-13 British Telecommunications public limited company Speech comparison
CN103024217B (zh) * 2011-09-23 2016-04-13 中兴通讯股份有限公司 一种实现客服业务的方法及客服系统
CN102625005A (zh) * 2012-03-05 2012-08-01 广东天波信息技术股份有限公司 具有服务质量实时监督功能的呼叫中心系统及其实现方法
CN103701999B (zh) * 2012-09-27 2017-03-01 中国电信股份有限公司 呼叫中心语音通话的监控方法与系统
US10134400B2 (en) * 2012-11-21 2018-11-20 Verint Systems Ltd. Diarization using acoustic labeling
US9237232B1 (en) * 2013-03-14 2016-01-12 Verint Americas Inc. Recording infrastructure having biometrics engine and analytics service
US9236052B2 (en) * 2013-06-20 2016-01-12 Bank Of America Corporation Utilizing voice biometrics
CN103825931A (zh) * 2013-11-29 2014-05-28 中邮科通信技术股份有限公司 一种基于云呼叫中心的客户关系管理系统
US9728191B2 (en) * 2015-08-27 2017-08-08 Nuance Communications, Inc. Speaker verification methods and apparatus
CN105244031A (zh) * 2015-10-26 2016-01-13 北京锐安科技有限公司 说话人识别方法和装置
CN106169121A (zh) * 2016-07-06 2016-11-30 上海携程商务有限公司 呼叫中心的座席分层方法及系统
CN107659739B (zh) * 2016-08-23 2020-06-26 平安科技(深圳)有限公司 名单分配方法和装置
CN106453979A (zh) * 2016-10-17 2017-02-22 上海携程商务有限公司 呼叫中心的外呼控制方法
CN107104803B (zh) * 2017-03-31 2020-01-07 北京华控智加科技有限公司 一种基于数字口令与声纹联合确认的用户身份验证方法
CN107181851A (zh) * 2017-04-25 2017-09-19 上海与德科技有限公司 通话控制方法及装置
CN107181880B (zh) * 2017-05-31 2019-08-30 商客通尚景科技江苏有限公司 一种差异化的呼叫中心人工服务系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002514318A (ja) * 1997-01-31 2002-05-14 ティ―ネティックス,インコーポレイテッド 録音された音声を検出するシステムおよび方法
JPH11175599A (ja) * 1997-12-11 1999-07-02 Hitachi Ltd 作業引継支援システム
JP2009071403A (ja) * 2007-09-11 2009-04-02 Fujitsu Fsas Inc オペレータ受付監視・切替システム
JP2009081717A (ja) * 2007-09-26 2009-04-16 Nomura Securities Co Ltd 顧客対応支援装置

Also Published As

Publication number Publication date
US10878823B2 (en) 2020-12-29
SG11201912620YA (en) 2020-01-30
US20200118571A1 (en) 2020-04-16
JP6792089B2 (ja) 2020-11-25
CN108900725B (zh) 2020-05-29
CN108900725A (zh) 2018-11-27
WO2019227583A1 (zh) 2019-12-05

Similar Documents

Publication Publication Date Title
JP6792089B2 (ja) 声紋認識方法、装置、端末機器および記憶媒体
WO2019227579A1 (zh) 会议信息记录方法、装置、计算机设备及存储介质
US8731936B2 (en) Energy-efficient unobtrusive identification of a speaker
Das et al. Recognition of isolated words using features based on LPC, MFCC, ZCR and STE, with neural network classifiers
Kekre et al. Speaker identification by using vector quantization
CN110600014B (zh) 一种模型训练方法、装置、存储介质及电子设备
CN110136696B (zh) 音频数据的监控处理方法和系统
JP3189598B2 (ja) 信号合成方法および信号合成装置
CN112967725A (zh) 语音对话数据处理方法、装置、计算机设备及存储介质
Gupta et al. Speech feature extraction and recognition using genetic algorithm
KR20010032920A (ko) 학습 장치 및 학습 방법, 인식 장치 및 인식 방법, 및기록 매체
JP7304627B2 (ja) 留守番電話判定装置、方法及びプログラム
CN115223584A (zh) 音频数据处理方法、装置、设备及存储介质
Nijhawan et al. Real time speaker recognition system for hindi words
CN113990288B (zh) 一种语音客服自动生成部署语音合成模型的方法
JP4345156B2 (ja) 学習装置および学習方法、認識装置および認識方法、並びに記録媒体
JP6078402B2 (ja) 音声認識性能推定装置とその方法とプログラム
Avikal et al. Estimation of age from speech using excitation source features
JP4340939B2 (ja) 学習装置および学習方法、認識装置および認識方法、並びに記録媒体
CN113689886B (zh) 语音数据情感检测方法、装置、电子设备和存储介质
Ibiyemi et al. Automatic speech recognition for telephone voice dialling in yorùbá
JP2018036580A (ja) 疑問発話判定装置、その方法、及びプログラム
Kannan et al. Malayalam Isolated Digit Recognition using HMM and PLP cepstral coefficient
US20210166722A1 (en) A system for determining an emotional state of a subject
JP5777569B2 (ja) 音響特徴量計算装置及び方法、特定状況モデルデータベース作成装置、特定要素音モデルデータベース作成装置、状況推定装置、発呼適否通知装置並びにプログラム

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20191118

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20191115

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20191115

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20201104

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20201105

R150 Certificate of patent or registration of utility model

Ref document number: 6792089

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250