CN116153330A - 一种智能电话语音机器人控制方法 - Google Patents

一种智能电话语音机器人控制方法 Download PDF

Info

Publication number
CN116153330A
CN116153330A CN202310350093.XA CN202310350093A CN116153330A CN 116153330 A CN116153330 A CN 116153330A CN 202310350093 A CN202310350093 A CN 202310350093A CN 116153330 A CN116153330 A CN 116153330A
Authority
CN
China
Prior art keywords
user
emotion
recognition result
emotion recognition
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310350093.XA
Other languages
English (en)
Other versions
CN116153330B (zh
Inventor
马荣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Duyan Software Co ltd
Original Assignee
Hangzhou Duyan Software Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Duyan Software Co ltd filed Critical Hangzhou Duyan Software Co ltd
Priority to CN202310350093.XA priority Critical patent/CN116153330B/zh
Publication of CN116153330A publication Critical patent/CN116153330A/zh
Application granted granted Critical
Publication of CN116153330B publication Critical patent/CN116153330B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Child & Adolescent Psychology (AREA)
  • General Health & Medical Sciences (AREA)
  • Hospice & Palliative Care (AREA)
  • Psychiatry (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明提供一种智能电话语音机器人控制方法,属于语音处理技术领域,具体包括:基于用户的语音进行MFCC特征提取,确定用户的身份;基于用户的语音得到正面关键词匹配数量和负面关键词匹配数量;基于负面关键词匹配数量以及正面关键词匹配数量确定存在还款意愿时,基于深度均值高斯超矢量特征、MFCC特征、高斯超矢量特征构建融合特征,基于融合特征采用基于ISSA‑SVM算法的情感倾向分类模型得到情绪识别结果,并基于情绪识别结果、通话时长、负面关键词匹配数量、正面关键词匹配数量,构建预测模型,得到用户的还款意愿度,并基于用户的还款意愿度确定催收频率,从而进一步提升了催收的针对性和处理效率。

Description

一种智能电话语音机器人控制方法
技术领域
本发明属于语音处理技术领域,尤其涉及一种智能电话语音机器人控制方法。
背景技术
为了实现对用户的语音的解析,在授权发明专利CN112735479B《一种语音识别的方法及语音机器人系统》中通过采集用户的语音信息;将采集到的信息转换为文字信息;将转换后的文字信息进行矫正,矫正后的文字信息作为识别信息;根据识别信息作出反馈,从而显著地提高了语音识别的准确率,但是却存在以下技术问题:
1、未能实现对用户的声音特征以及关键信息的提取,在进行电话催收管理时,有可能会存在用户故意说你打错了等不配合的情况的出现,若不能结合用户以往的声音特征确定用户的身份再针对性的调整催收策略,从而会导致催收效率降低以及无法实现对用户的身份的确认。
2、忽视了基于用户的通话时长、情绪识别结果、关键词匹配数量,实现对用户的还款意愿度的确定,当用户说尽量配合、还款计划修改等等关键词时,其还款意愿度明显要高于没钱、不还钱等等关键词的用户,因此若不针对语音识别结果进行关键词匹配,也会使得催收的效率会有所降低。
针对上述技术问题,本发明提供了一种智能电话语音机器人控制方法。
发明内容
为实现本发明目的,本发明采用如下技术方案:
根据本发明的一个方面,提供了一种智能电话语音机器人控制方法。
一种智能电话语音机器人控制方法,其特征在于,具体包括:
S11基于用户的语音进行MFCC特征提取,并基于所述MFCC特征确定所述用户的身份,当所述用户的身份不正确时,输出用户身份存疑,需要挂断处理,否则则进入下一步骤;
S12基于所述用户的语音进行关键词提取得到语音关键词,并基于所述语音关键词与关键词库的匹配结果,得到正面关键词匹配数量和负面关键词匹配数量;
S13基于所述负面关键词匹配数量以及正面关键词匹配数量确定所述用户是否有还款意愿,若否,则输出用户的还款意愿低,提升催收频率,若是,则进入下一步骤;
S14基于所述MFCC特征,采用DNN-GMM模型得到深度均值高斯超矢量特征,基于GMM模型直接对所述MFCC特征进行处理得到高斯超矢量特征,基于所述深度均值高斯超矢量特征、MFCC特征、高斯超矢量特征构建融合特征得到情绪识别结果,并基于所述情绪识别结果、通话时长、负面关键词匹配数量、正面关键词匹配数量,构建预测模型,得到所述用户的还款意愿度,并基于所述用户的还款意愿度确定催收频率。
通过首先基于MFCC特征实现对用户身份的识别,从而实现了对所述用户的身份的首先识别,对于身份存疑的用户不再进行进一步的分析,从而在保证系统运行效率和可靠性的基础上,进一步保证了催收的效率,进一步减少了由于换号或者故意撒谎的用户导致的催收效率较低的技术问题的出现。
通过采用关键词的匹配的数量实现对用户的还款意愿度的评估,从而采用较为简单且效率较高的手段实现了对用户的还款意愿度的评估,进一步提升了对于用户的还款意愿度的评估的效率,也减少了需要进行情绪识别结果构建的用户的数量,进一步提升了整体的效率。
通过深度均值高斯超矢量特征、MFCC特征、高斯超矢量特征构建融合特征,基于所述融合特征得到情绪识别结果,从而避免了采用单一的特征导致的准确率较低的技术问题的出现,并进一步保留了MFCC特征的高维特征,进一步提升了情绪识别结果的准确性。
通过基于情绪识别结果、通话时长、负面关键词匹配数量、正面关键词匹配数量,构建预测模型,得到所述用户的还款意愿度,从而不仅仅单纯依靠情感度的评价结果,而是与关键词的匹配结果相结合,实现了从多维度对还款意愿度的评价,也为针对性的进行催收策略的指定奠定了基础。
另一方面,本申请实施例中提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的程序,所述处理器执行所述程序时,实现上述的一种智能电话语音机器人控制方法。
另一方面,本发明提供了一种计算机存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行上述的一种智能电话语音机器人控制方法。
其他特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点在说明书以及附图中所特别指出的结构来实现和获得。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
通过参照附图详细描述其示例实施方式,本发明的上述和其它特征及优点将变得更加明显;
图1是一种智能电话语音机器人控制方法的流程图;
图2是确定用户的身份的具体步骤的流程图;
图3是情绪识别结果构建的具体步骤的流程图;
图4是用户的还款意愿度构建的具体步骤的流程图;
图5是改进型算法的性能对比的框架图;
图6是一种计算机存储介质的框架图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的实施方式;相反,提供这些实施方式使得本发明将全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。图中相同的附图标记表示相同或类似的结构,因而将省略它们的详细描述。
用语“一个”、“一”、“该”、“所述”用以表示存在一个或多个要素/组成部分/等;用语“包括”和“具有”用以表示开放式的包括在内的意思并且是指除了列出的要素/组成部分/等之外还可存在另外的要素/组成部分/等。
为解决上述问题,根据本发明的一个方面,如图1所示,提供了一种智能电话语音机器人控制方法,其特征在于,具体包括:
S11基于用户的语音进行MFCC特征提取,并基于所述MFCC特征确定所述用户的身份,当所述用户的身份不正确时,输出用户身份存疑,需要挂断处理,否则则进入下一步骤;
具体的举个例子,当用户存在历史语音时,则再进行用户的身份的确定,若不存在历史语音时,则直接进入下一步骤,具体的,历史语音可以根据以往的通话语音进行确定。
具体的,MFCC特征提取的具体步骤为:
1)首先对时域连续的语音信号x(t)进行采样、分帧加窗等操作变成离散的数字信号x(t),然后对每帧信号进行FFT或者DFT变换,获得对应的线性频谱X(t),计算公式如下:
Figure SMS_1
上述式子中O为傅里叶变换的点数,本发明中取值为512,其中x(n)为离散的数字信号第n个采样点,X(k)为线性频谱的第k个傅里叶变换的点,j为复指数。
2)将实际频率转换为Mel频率尺度,并将1)中获得的X(k)输入到Mel滤波器组中进行滤波,得到Mel频谱,然后进行对数运算,得到对数功率谱S(m):
Figure SMS_2
其中
Figure SMS_3
是三角形带通滤波器的传输函数,M为滤波器的数量,具体表达式如下所示:
Figure SMS_4
其中f(m)为梅尔刻度下第m个三角滤波器的中心频率,Mel滤波器是一组具有多个通道的带通三角形滤波器,每个滤波器的幅值相同,均匀地分布在频率轴上,相邻两个滤波器间的最高频率、中心频率、最低频率的数量关系满足下式:
Figure SMS_5
其中,m(l),s(l),g(l)分别为第l个滤波器的中心、最低以及最高频率。
3)对Mel滤波器组的输出进行离散余弦变换(Discrete Cosine Transform,DCT),将各个分量之间的关联性消除,得到MFCC特征C(n)为:
Figure SMS_6
上式中,n的取值在1到L之间,其中L为MFCC参数的阶数,本发明中设定L为24。
具体的,基于MFCC特征和历史语音的MFCC特征,定义它们之间的欧氏距离为:
Figure SMS_7
其中/>
Figure SMS_8
为第n维的历史语音的MFCC特征。
在本实施例中,通过首先基于MFCC特征采用欧式距离的方式实现对用户身份的识别,从而实现了对所述用户的身份的首先识别,对于身份存疑的用户不再进行进一步的分析,从而在保证系统运行效率和可靠性的基础上,进一步保证了催收的效率,进一步减少了由于换号或者故意撒谎的用户导致的催收效率较低的技术问题的出现。
S12基于所述用户的语音进行关键词提取得到语音关键词,并基于所述语音关键词与关键词库的匹配结果,得到正面关键词匹配数量和负面关键词匹配数量;
具体的,关键词库根据历史通话记录以及专家的方式进行确定,关键词库可以有不愿意、没钱、不考虑还钱等负面关键词,同时还包括愿意、同意、马上还、考虑还钱等正面关键词。
S13基于所述负面关键词匹配数量以及正面关键词匹配数量确定所述用户是否有还款意愿,若否,则输出用户的还款意愿低,提升催收频率,若是,则进入下一步骤;
需要说明的是,当负面关键词匹配数量较少,且同时正面关键词匹配数量较多时,则确定用户存在还款意愿。
通过采用关键词的匹配的数量实现对用户的还款意愿度的评估,从而采用较为简单且效率较高的手段实现了对用户的还款意愿度的评估,进一步提升了对于用户的还款意愿度的评估的效率,也减少了需要进行情绪识别结果构建的用户的数量,进一步提升了整体的效率。
S14基于所述MFCC特征,采用DNN-GMM模型得到深度均值高斯超矢量特征,基于GMM模型直接对所述MFCC特征进行处理得到高斯超矢量特征,基于所述深度均值高斯超矢量特征、MFCC特征、高斯超矢量特征构建融合特征得到情绪识别结果,并基于所述情绪识别结果、通话时长、负面关键词匹配数量、正面关键词匹配数量,构建预测模型,得到所述用户的还款意愿度,并基于所述用户的还款意愿度确定催收频率。
具体的,首先将输入训练样本的语句经过预处理步骤后,然后提取声学特征参数MFCC,将它输入到DNN 网络中,经过了预训练和微调步骤后深度网络就被充分训练,去掉瓶颈层后面的所有层,这时瓶颈层就变成了输出层,同时提取它对应的输出特征,对应的传统声学特征 MFCC 就被转变成了瓶颈特征,进而再将获得的瓶颈特征输入到 GMM 模型中,训练得到深度均值高斯超矢量特征,最终的深度均值高斯超矢量特征可以进行如下表示:
Figure SMS_9
其中 v'q表示的是每个重组后的深度超矢量。
具体的,由于不同的特征会对最后说话人的情绪识别结果影响程度不同,因此需要对不同的特征进行加权处理,生成融合特征。
具体的,ISSA为改进型SSA算法,如图5所示,为优化后的算法指标,其收敛速度明显要高于其他算法。
具体的,采用基于ISSA-SVM算法的情感倾向分类模型得到情绪识别结果的具体步骤为:
Step1 初始化 ISSA 算法种群大小 N,探索者整体占比参数 a、b 及 c,翻滚因子W;初始化 SVM 算法包括 C、σ范围在内的各类参数。
Step2 在 C、σ范围内随机初始化 ISSA 算法种群个体位置也即 C、σ参数,同时将各个体位置代入至 SVM 算法中,求解此时的训练识别精度也称其为个体适应度。
Step3 按式
Figure SMS_10
式中,PerTT 为探索者整体占比,a为占比幅值取值为[0.5,0.9],b为左右平移因子,c为上下平移因子,t为当前迭代次数,Tmax为最大迭代次数,K1为常数,取值范围在0到1之间。
更新探索者整体占比,按式
Figure SMS_11
Figure SMS_12
Figure SMS_13
其中α为一个[0,1]之间的随机数;t为迭代次数,Tmax为最大迭代次数,Q 为服从正态分布的随机数,R为预警值,S为安全值,xi(t)为第t次迭代时的第i个麻雀的位置,xij(t)为为第t次迭代时的第i个麻雀的第 j 维的位置,/>
Figure SMS_14
与/>
Figure SMS_15
分别为第t次迭代时的第 j 维麻雀的当前代最坏位置与最优位置,q为服从均匀分布的随机数,D为总维数,fi、fbeset和 fworse分别为当前麻雀的适应度值、最优适应度值和最差适应度值,β为控制步长的参数,k 服从[-1,1]范围内均匀分布,δ为防止分母为 0的极小数;
对整体种群进行位置更新,同时计算个体新位置适应度。
Step4 计算扰动个体位置,并计算相应个体适应度,最后求解此次迭代的最优解。
Step5 判断是否达到最大迭代次数,若是则结束并给出最优解,否则返回步骤 3。
ISSA 算法参数a、b及c,翻滚因子W分别为 0.75、50、0.2 以及4,给出上述三种算法种群数目均为20,最大迭代次数均为50次。另外,给出SVM的C、σ参数范围分别为[0.1,100]与[0.01,1000]。
在本实施例中,通过深度均值高斯超矢量特征、MFCC特征、高斯超矢量特征构建融合特征,基于所述融合特征采用基于ISSA-SVM算法的情感倾向分类模型得到情绪识别结果,从而避免了采用单一的特征导致的准确率较低的技术问题的出现,并进一步保留了MFCC特征的高维特征,进一步提升了情绪识别结果的准确性,并采用基于改进型的SSA算法对SVM算法的初始值进行优化,进一步保证了情感倾向分类模型的准确性和可靠性。
通过基于情绪识别结果、通话时长、负面关键词匹配数量、正面关键词匹配数量,构建预测模型,得到所述用户的还款意愿度,从而不仅仅单纯依靠情感度的评价结果,而是与关键词的匹配结果相结合,实现了从多维度对还款意愿度的评价,也为针对性的进行催收策略的指定奠定了基础。
在另外一种可能的实施例中,在进行MFCC特征提取之前,还需要对所述用户的声音进行A/D 转换和预加重处理。
在另外一种可能的实施例中,如图2所示,确定所述用户的身份的具体步骤为:
S21判断所述用户是否存在历史通话声音,若是,则基于所述历史通话声音进行MFCC特征提取得到历史MFCC特征,若否,则无法对所述用户的身份进行确定;
S22基于所述历史MFCC特征、MFCC特征,分别基于马氏距离函数、欧式距离函数获得所述历史MFCC特征和MFCC特征之间的马氏距离相似度和欧式距离相似度,并基于所述马氏距离相似度和欧式距离相似度构建综合相似度,并基于所述综合相似度确定所述用户的身份是否准确,若是,则用户的身份确认成功,若否,则进入步骤S23;
具体的,马氏距离相似度的计算公式为:
Figure SMS_16
S-1为历史MFCC特征、MFCC特征的向量值的协方差矩阵,X、Y是历史MFCC特征、MFCC特征的向量值。
S23基于马氏距离相似度、欧式距离相似度构建输入集,并将所述输入集传输至基于SVM算法的分类模型中,得到预测结果,并基于所述预测结果确定所述用户的身份。
通过综合结合马氏距离相似度、欧式距离相似度,从而欧式距离与数据分布的敏感性以及马氏距离的稳定性,从而使得预测结果变得更加的准确,同时也避免了单一采用某一种距离相似度导致的结果不够准确的技术问题。
在另外一种可能的实施例中,所述综合相似度的计算公式为:
Figure SMS_17
其中S1、S2分别为马氏距离相似度、欧式距离相似度,ε为相似度阈值为常数,max()为取最大值函数,min()为取最小值函数。
在另外一种可能的实施例中,如图3所示,所述情绪识别结果构建的具体步骤为:
S31判断所述用户的通话时长是否大于设定时长,若是,则进入步骤S32,若否,则基于所述用户的正面关键词匹配数量实现对所述用户的情绪识别结果的评价。
S32按照所述用户的通话时长将所述用户的通话语音等分为三份,从而得到前三分之一的通话语音的前部MFCC特征、中间三分之一的通话语音的中间MFCC特征、后三分之一的通话语音的后部MFCC特征;
S33基于所述前部MFCC特征、中间MFCC特征、后部MFCC特征分别进行融合特征的构建得到前部融合特征、中间融合特征、后部融合特征,并分别基于所述前部融合特征、中间融合特征、后部融合特征,采用基于ISSA-SVM算法的情感倾向分类模型分别得到前部情绪识别结果、中间情绪识别结果、后部情绪识别结果,并基于所述前部情绪识别结果、中间情绪识别结果、后部情绪识别结果得到情绪识别结果。
具体的,所述情绪识别结果包括正面情感情绪、无情感倾向情绪、负面情感情绪。
具体的,当所述前部情绪识别结果、中间情绪识别结果、后部情绪识别结果任意一个为正面情感情绪时,则所述情绪识别结果为正面情感情绪,当所述后部情绪识别结果为无情感倾向情绪且所述前部情绪识别结果、中间情绪识别结果任意一项也为无情感倾向情绪时,则所述情绪识别结果为正面情绪,其它情况下则为负面情感情绪。
在本实施例中,通过将通话语音划分为三份,从而避免了采用全部的特征进行情绪识别结果的确定不够准确的技术问题的出现,由于在情绪识别时,往往有可能会存在后期情绪与前期不一致的情况,因此可以更加准确的实现对情绪识别结果的确认。
在可能的一个实施例中,如图4所示,所述用户的还款意愿度构建的具体步骤为:
S41基于所述正面关键词匹配数量与所述负面关键词匹配数量和正面关键词匹配数量的总数量的比值得到正面关键词匹配比;
S42 判断是否所述正面关键词匹配比达到设定值且所述情绪识别结果为正面情感情绪,若是,则用户的还款意愿度为1,还款意愿高,若否,则进入步骤S43;
具体的,设定值的取值范围在0.3-0.6之间。
S43判断是否所述正面关键词匹配比达到预设值且所述情绪识别结果为正面情感情绪且通话时长大于预设时长,若是,则说明用户的还款意愿度为1,还款意愿高,若否,则进入步骤S44;
具体的,预设值小于设定值,且预设时长的取值范围在10min-20min之间。
S44基于所述负面关键词匹配数量与所述负面关键词匹配数量和正面关键词匹配数量的总数量的比值得到负面关键词匹配比;基于所述负面关键词匹配比、正面关键词匹配比、情绪识别结果因子、通话时长,采用基于BP神经网络算法的预测模型,得到所述用户的还款意愿值。
具体的,情绪识别结果因子取值范围在0到1之间,其中正面情感情绪、无情感倾向情绪、负面情感情绪的取值分别为1,0.5,0。
具体的还款意愿值的取值范围在0到1之间,其中还款意愿值越大,则说明用户的还款意愿越大。
具体的,输入集为X={b1、q1、T1}。
在本实施例中,通过设定值、预设值、预设时长的设置,从而首先实现了对于还款意愿度较高的用户的筛选,进一步减少了基于BP神经网络算法实现对用户的还款意愿值构建的数量,提升了整体的效率。
在本实施例中,通过同时基于所述负面关键词匹配比、正面关键词匹配比、情绪识别结果因子、通话时长,实现对用户的还款意愿值的确认,从而综合考虑到了通话时长、关键词情况、情绪,进一步提升了还款意愿度构建的全面性和可靠性。
另一方面,本申请实施例中提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的程序,所述处理器执行所述程序时,实现上述的一种智能电话语音机器人控制方法。
其中所述一种智能电话语音机器人控制方法,具体包括:
当不存在历史语音时,基于用户的语音进行关键词提取得到语音关键词,并基于所述语音关键词与关键词库的匹配结果,得到正面关键词匹配数量和负面关键词匹配数量;
基于所述负面关键词匹配数量以及正面关键词匹配数量确定所述用户不存在还款意愿时,输出用户的还款意愿低,提升催收频率。
如图6所示,本发明提供了一种计算机存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行上述的一种智能电话语音机器人控制方法。
在本实施例中,一种智能电话语音机器人控制方法具体包括:
基于用户的语音进行MFCC特征提取,并基于所述MFCC特征确定所述用户的身份,当所述用户的身份正确时,基于所述用户的语音进行关键词提取得到语音关键词,并基于所述语音关键词与关键词库的匹配结果,得到正面关键词匹配数量和负面关键词匹配数量;
基于所述负面关键词匹配数量以及正面关键词匹配数量确定所述用户有还款意愿时,基于所述MFCC特征,采用DNN-GMM模型得到深度均值高斯超矢量特征,基于GMM模型直接对所述MFCC特征进行处理得到高斯超矢量特征,基于所述深度均值高斯超矢量特征、MFCC特征、高斯超矢量特征构建融合特征得到情绪识别结果,并基于所述情绪识别结果、通话时长、负面关键词匹配数量、正面关键词匹配数量,构建预测模型,得到所述用户的还款意愿度,并基于所述用户的还款意愿度确定催收频率。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统和方法,也可以通过其它的方式实现。以上所描述的系统实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本发明各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上述依据本发明的理想实施例为启示,通过上述的说明内容,相关工作人员完全可以在不偏离本项发明技术思想的范围内,进行多样的变更以及修改。本项发明的技术性范围并不局限于说明书上的内容,必须要根据权利要求范围来确定其技术性范围。

Claims (11)

1.一种智能电话语音机器人控制方法,其特征在于,具体包括:
基于用户的语音进行MFCC特征提取,并基于所述MFCC特征确定所述用户的身份,当所述用户的身份不正确时,输出用户身份存疑,需要挂断处理,否则则进入下一步骤;
基于所述用户的语音进行关键词提取得到语音关键词,并基于所述语音关键词与关键词库的匹配结果,得到正面关键词匹配数量和负面关键词匹配数量;
基于所述负面关键词匹配数量以及正面关键词匹配数量确定所述用户是否有还款意愿,若否,则输出用户的还款意愿低,提升催收频率,若是,则进入下一步骤;
基于所述MFCC特征,采用DNN-GMM模型得到深度均值高斯超矢量特征,基于GMM模型直接对所述MFCC特征进行处理得到高斯超矢量特征,基于所述深度均值高斯超矢量特征、MFCC特征、高斯超矢量特征构建融合特征得到情绪识别结果,并基于所述情绪识别结果、通话时长、负面关键词匹配数量、正面关键词匹配数量,构建预测模型,得到所述用户的还款意愿度,并基于所述用户的还款意愿度确定催收频率。
2.如权利要求1所述的智能电话语音机器人控制方法,其特征在于,在进行MFCC特征提取之前,还需要对所述用户的声音进行A/D 转换和预加重处理。
3.如权利要求1所述的智能电话语音机器人控制方法,其特征在于,确定所述用户的身份的具体步骤为:
判断所述用户是否存在历史通话声音,若是,则基于所述历史通话声音进行MFCC特征提取得到历史MFCC特征,若否,则无法对所述用户的身份进行确定;
基于所述历史MFCC特征、MFCC特征,分别基于马氏距离函数、欧式距离函数获得所述历史MFCC特征和MFCC特征之间的马氏距离相似度和欧式距离相似度,并基于所述马氏距离相似度和欧式距离相似度构建综合相似度,并基于所述综合相似度确定所述用户的身份是否准确,若是,则用户的身份确认成功,若否,则进入下一步骤;
基于马氏距离相似度、欧式距离相似度构建输入集,并将所述输入集传输至基于SVM算法的分类模型中,得到预测结果,并基于所述预测结果确定所述用户的身份。
4.如权利要求3所述的智能电话语音机器人控制方法,其特征在于,所述综合相似度的计算公式为:
Figure QLYQS_1
其中S1、S2分别为马氏距离相似度、欧式距离相似度,ε为相似度阈值为常数,max()为取最大值函数,min()为取最小值函数。
5.如权利要求4所述的智能电话语音机器人控制方法,其特征在于,所述马氏距离相似度根据历史MFCC特征、MFCC特征的向量值的协方差矩阵以及所述历史MFCC特征的向量值、MFCC特征的向量值进行确定。
6.如权利要求1所述的智能电话语音机器人控制方法,其特征在于,所述情绪识别结果构建的具体步骤为:
判断所述用户的通话时长是否大于设定时长,若是,则进入下一步骤,若否,则基于所述用户的正面关键词匹配数量实现对所述用户的情绪识别结果的评价;
按照所述用户的通话时长将所述用户的通话语音等分为三份,从而得到前三分之一的通话语音的前部MFCC特征、中间三分之一的通话语音的中间MFCC特征、后三分之一的通话语音的后部MFCC特征;
基于所述前部MFCC特征、中间MFCC特征、后部MFCC特征分别进行融合特征的构建得到前部融合特征、中间融合特征、后部融合特征,并分别基于所述前部融合特征、中间融合特征、后部融合特征,采用基于ISSA-SVM算法的情感倾向分类模型分别得到前部情绪识别结果、中间情绪识别结果、后部情绪识别结果,并基于所述前部情绪识别结果、中间情绪识别结果、后部情绪识别结果得到情绪识别结果。
7.如权利要求6所述的智能电话语音机器人控制方法,其特征在于,所述情绪识别结果包括正面情感情绪、无情感倾向情绪、负面情感情绪。
8.如权利要求7所述的智能电话语音机器人控制方法,其特征在于,当所述前部情绪识别结果、中间情绪识别结果、后部情绪识别结果任意一个为正面情感情绪时,则所述情绪识别结果为正面情感情绪,当所述后部情绪识别结果为无情感倾向情绪且所述前部情绪识别结果、中间情绪识别结果任意一项也为无情感倾向情绪时,则所述情绪识别结果为正面情绪,其它情况下则为负面情感情绪。
9.如权利要求8所述的智能电话语音机器人控制方法,其特征在于,所述用户的还款意愿度构建的具体步骤为:
基于所述正面关键词匹配数量与所述负面关键词匹配数量和正面关键词匹配数量的总数量的比值得到正面关键词匹配比;
判断是否所述正面关键词匹配比达到设定值且所述情绪识别结果为正面情感情绪,若是,则用户的还款意愿度为1,还款意愿高,若否,则进入下一步骤;
判断是否所述正面关键词匹配比达到预设值且所述情绪识别结果为正面情感情绪且通话时长大于预设时长,其中所述预设值小于所述设定值,若是,则说明用户的还款意愿度为1,还款意愿高,若否,则进入下一步骤;
基于所述负面关键词匹配数量与所述负面关键词匹配数量和正面关键词匹配数量的总数量的比值得到负面关键词匹配比;基于所述负面关键词匹配比、正面关键词匹配比、情绪识别结果因子、通话时长,采用基于BP神经网络算法的预测模型,得到所述用户的还款意愿值。
10.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的程序,所述处理器执行所述程序时,实现权利要求1-8任一项所述的一种智能电话语音机器人控制方法。
11.一种计算机存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行权利要求1-8任一项所述的一种智能电话语音机器人控制方法。
CN202310350093.XA 2023-04-04 2023-04-04 一种智能电话语音机器人控制方法 Active CN116153330B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310350093.XA CN116153330B (zh) 2023-04-04 2023-04-04 一种智能电话语音机器人控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310350093.XA CN116153330B (zh) 2023-04-04 2023-04-04 一种智能电话语音机器人控制方法

Publications (2)

Publication Number Publication Date
CN116153330A true CN116153330A (zh) 2023-05-23
CN116153330B CN116153330B (zh) 2023-06-23

Family

ID=86340958

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310350093.XA Active CN116153330B (zh) 2023-04-04 2023-04-04 一种智能电话语音机器人控制方法

Country Status (1)

Country Link
CN (1) CN116153330B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117319559A (zh) * 2023-11-24 2023-12-29 杭州度言软件有限公司 一种基于智能语音机器人的催收方法与系统
CN117476011A (zh) * 2023-12-28 2024-01-30 杭州度言软件有限公司 一种基于语音信号的催收对象识别方法与系统

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109815489A (zh) * 2019-01-02 2019-05-28 深圳壹账通智能科技有限公司 催收信息生成方法、装置、计算机设备和存储介质
CN109949805A (zh) * 2019-02-21 2019-06-28 江苏苏宁银行股份有限公司 基于意图识别及有限状态自动机的智能催收机器人及催收方法
CN110009480A (zh) * 2019-03-06 2019-07-12 平安科技(深圳)有限公司 司法催收路径的推荐方法、装置、介质、电子设备
CN110782335A (zh) * 2019-09-19 2020-02-11 平安科技(深圳)有限公司 基于人工智能处理信贷数据的方法、装置及存储介质
KR20210156145A (ko) * 2020-06-17 2021-12-24 김훈 인공지능 및 증강현실 기술을 활용한, 음성인식 및 감정인식 기반의 쌍방향 대화 시스템
CN114723547A (zh) * 2021-12-03 2022-07-08 中国工商银行股份有限公司 催收方法、装置、计算机设备及计算机程序产品
WO2022178969A1 (zh) * 2021-02-26 2022-09-01 平安科技(深圳)有限公司 语音对话数据处理方法、装置、计算机设备及存储介质
CN115249481A (zh) * 2022-07-21 2022-10-28 中国平安人寿保险股份有限公司 基于情绪识别的催收方法和系统、计算机设备、存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109815489A (zh) * 2019-01-02 2019-05-28 深圳壹账通智能科技有限公司 催收信息生成方法、装置、计算机设备和存储介质
CN109949805A (zh) * 2019-02-21 2019-06-28 江苏苏宁银行股份有限公司 基于意图识别及有限状态自动机的智能催收机器人及催收方法
CN110009480A (zh) * 2019-03-06 2019-07-12 平安科技(深圳)有限公司 司法催收路径的推荐方法、装置、介质、电子设备
CN110782335A (zh) * 2019-09-19 2020-02-11 平安科技(深圳)有限公司 基于人工智能处理信贷数据的方法、装置及存储介质
KR20210156145A (ko) * 2020-06-17 2021-12-24 김훈 인공지능 및 증강현실 기술을 활용한, 음성인식 및 감정인식 기반의 쌍방향 대화 시스템
WO2022178969A1 (zh) * 2021-02-26 2022-09-01 平安科技(深圳)有限公司 语音对话数据处理方法、装置、计算机设备及存储介质
CN114723547A (zh) * 2021-12-03 2022-07-08 中国工商银行股份有限公司 催收方法、装置、计算机设备及计算机程序产品
CN115249481A (zh) * 2022-07-21 2022-10-28 中国平安人寿保险股份有限公司 基于情绪识别的催收方法和系统、计算机设备、存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
TONG ZHAO ET AL: "An ISSA-SVM-based Approach for Identifying the Radar Working State of Non-cooperator", 《2022 IEEE 10TH ASIA-PACIFIC CONFERENCE ON ANTENNAS AND PROPAGATION (APCAP)》 *
张钰莎;蒋盛益;: "基于MFCC特征提取和改进SVM的语音情感数据挖掘分类识别方法研究", 计算机应用与软件, no. 08 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117319559A (zh) * 2023-11-24 2023-12-29 杭州度言软件有限公司 一种基于智能语音机器人的催收方法与系统
CN117319559B (zh) * 2023-11-24 2024-02-02 杭州度言软件有限公司 一种基于智能语音机器人的催收方法与系统
CN117476011A (zh) * 2023-12-28 2024-01-30 杭州度言软件有限公司 一种基于语音信号的催收对象识别方法与系统
CN117476011B (zh) * 2023-12-28 2024-03-01 杭州度言软件有限公司 一种基于语音信号的催收对象识别方法与系统

Also Published As

Publication number Publication date
CN116153330B (zh) 2023-06-23

Similar Documents

Publication Publication Date Title
CN116153330B (zh) 一种智能电话语音机器人控制方法
Jahangir et al. Text-independent speaker identification through feature fusion and deep neural network
US5638486A (en) Method and system for continuous speech recognition using voting techniques
US7904295B2 (en) Method for automatic speaker recognition with hurst parameter based features and method for speaker classification based on fractional brownian motion classifiers
US7245767B2 (en) Method and apparatus for object identification, classification or verification
US5596679A (en) Method and system for identifying spoken sounds in continuous speech by comparing classifier outputs
CN106952644A (zh) 一种基于瓶颈特征的复杂音频分割聚类方法
US5812973A (en) Method and system for recognizing a boundary between contiguous sounds for use with a speech recognition system
Ohi et al. Deep speaker recognition: Process, progress, and challenges
AU684214B2 (en) System for recognizing spoken sounds from continuous speech and method of using same
CN106991312B (zh) 基于声纹识别的互联网反欺诈认证方法
CN111091809B (zh) 一种深度特征融合的地域性口音识别方法及装置
CN109658921A (zh) 一种语音信号处理方法、设备及计算机可读存储介质
Yu et al. Cam: Context-aware masking for robust speaker verification
EP4102500A1 (en) System and method for robust wakeword detection in presence of noise in new unseen environments without additional data
WO2017117412A1 (en) System and method for neural network based feature extraction for acoustic model development
CN117789699B (zh) 语音识别方法、装置、电子设备及计算机可读存储介质
CN109377984A (zh) 一种基于ArcFace的语音识别方法及装置
Zhu et al. Emotion recognition from speech to improve human-robot interaction
Kaur et al. An efficient speaker recognition using quantum neural network
Babu Rao et al. Automatic Speech Recognition Design Modeling
Medikonda et al. Higher order information set based features for text-independent speaker identification
Wilkinghoff et al. TACos: Learning temporally structured embeddings for few-shot keyword spotting with dynamic time warping
Karanasou et al. I-vectors and structured neural networks for rapid adaptation of acoustic models
CN112116165B (zh) 一种业务绩效确定方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant