CN110265008A - 智能回访方法、装置、计算机设备及存储介质 - Google Patents

智能回访方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN110265008A
CN110265008A CN201910432732.0A CN201910432732A CN110265008A CN 110265008 A CN110265008 A CN 110265008A CN 201910432732 A CN201910432732 A CN 201910432732A CN 110265008 A CN110265008 A CN 110265008A
Authority
CN
China
Prior art keywords
voice
violation
return visit
voice data
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910432732.0A
Other languages
English (en)
Inventor
董国栋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Life Insurance Company of China Ltd
Original Assignee
Ping An Life Insurance Company of China Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Life Insurance Company of China Ltd filed Critical Ping An Life Insurance Company of China Ltd
Priority to CN201910432732.0A priority Critical patent/CN110265008A/zh
Publication of CN110265008A publication Critical patent/CN110265008A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/08Insurance
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Accounting & Taxation (AREA)
  • Human Computer Interaction (AREA)
  • General Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Finance (AREA)
  • General Health & Medical Sciences (AREA)
  • Development Economics (AREA)
  • Hospice & Palliative Care (AREA)
  • Signal Processing (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Technology Law (AREA)
  • General Business, Economics & Management (AREA)
  • Psychiatry (AREA)
  • Child & Adolescent Psychology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明公开了一种智能回访方法、装置、计算机设备及存储介质,所述方法包括:获取语音数据,对所述语音数据进行语音识别,得到违规语音数据;根据所述违规语音数据,获取对应的外呼数据;若检测到所述外呼数据对应的外呼操作,则获取所述外呼操作过程中的录音信息;提取所述录音信息中的客户语音,并对所述客户语音进行情绪识别,得到所述客户语音对应的语音情绪;基于所述语音情绪,确定回访结果。上述智能回访方法通过对语音数据进行处理,提高了回访效率。

Description

智能回访方法、装置、计算机设备及存储介质
技术领域
本发明涉及语音处理领域,尤其涉及一种智能回访方法、装置、计算机设备及存储介质。
背景技术
随着人民生活水平的提高,人们对于人身安全和生命健康的保障意识也逐步提高,越来越多的个人或公司选择购买保险产品,以给未来的不确定性提供更多的保障。对于保险公司来说,及时地对客户进行回访,了解客户对服务的反馈,有利于更好地优化保险服务。
然而,现有的用户回访语音质检问题件的解决方案往往是依靠人工对录音文件进行质检,语音质检违规返回后,坐席只能看到违规结果,但是没有回访的功能,只能重新找到原名单去打电话给客户解释。重新查找的过程复杂并且可能被重排丢失,导致回访不及时。因此,如何提高回访的时效性,提高用户满意度是目前亟待解决的技术问题。
发明内容
本发明实施例提供一种智能回访方法、装置、计算机设备及存储介质,以解决坐席回访耗时耗力且效率不高的问题。
一种智能回访方法,包括:
获取语音数据,对所述语音数据进行语音识别,得到违规语音数据;
根据所述违规语音数据,获取对应的外呼数据;
若检测到所述外呼数据对应的外呼操作,则获取所述外呼操作过程中的录音信息;
提取所述录音信息中的客户语音,并对所述客户语音进行情绪识别,得到所述客户语音对应的语音情绪;
基于所述语音情绪,确定回访结果。
一种智能回访装置,包括:
违规语音数据获取模块,用于获取语音数据,对所述语音数据进行语音识别,得到违规语音数据;
外呼数据获取模块,用于根据所述违规语音数据,获取对应的外呼数据;
录音信息获取模块,用于若检测到所述外呼数据对应的外呼操作,则获取所述外呼操作过程中的录音信息;
语音情绪识别模块,用于提取所述录音信息中的客户语音,并对所述客户语音进行情绪识别,得到所述客户语音对应的语音情绪;
回访结果获取模块,用于基于所述语音情绪,确定回访结果。
一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述智能回访方法。
一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述智能回访方法。
上述智能回访方法、装置、计算机设备及存储介质中,首先,获取语音数据,对语音数据进行语音识别,得到违规语音数据;然后,根据违规语音数据,获取对应的外呼数据;若检测到外呼数据对应的外呼操作,则获取外呼操作过程中的录音信息;接着,提取录音信息中的客户语音,并对客户语音进行情绪识别,得到客户语音对应的语音情绪;最后,基于语音情绪,确定回访结果,实现了智能回访,同时通过根据语音情绪确定回访结果,避免了一一对客户语音进行繁琐语义分析,提高了回访效率。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的智能回访方法的应用环境示意图;
图2是本发明实施例提供的智能回访方法一示例图;
图3是本发明实施例提供的智能回访方法的另一示例图;
图4是本发明实施例提供的智能回访方法的另一示例图;
图5是本发明实施例提供的智能回访方法的另一示例图;
图6是本发明实施例提供的智能回访方法的另一示例图;
图7是本发明实施例提供的智能回访方法的另一示例图;
图8是本发明实施例提供的智能回访装置的一原理框图;
图9是本发明实施例提供的智能回访装置的另一原理框图;
图10是本发明实施例提供的计算机设备的一示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本申请提供的智能回访方法,可应用在如图1的应用环境中,其中,客户端通过网络与服务端进行通信,服务端接收客户端发送的语音数据,对语音数据进行语音识别,得到违规语音数据;然后,根据违规语音数据,获取对应的外呼数据;在检测到外呼数据对应的外呼操作时,获取外呼操作过程中的录音信息;进而提取录音信息中的客户语音,并对客户语音进行情绪识别,得到客户语音对应的语音情绪;最后,基于语音情绪,确定回访结果。其中,客户端可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务端可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一个实施例中,如图2所示,以该方法应用于图1中的服务端为例进行说明,包括如下步骤:
S10:获取语音数据,对语音数据进行语音识别,得到违规语音数据。
其中,语音数据是指通过语音来记录的数据以及通过语音来传输的数据,例如,电销系统的坐席与客户通话的语音信息即是语音数据。具体地,获取语音数据可以是通过从系统的后台数据库中进行获取,也可以是调用语音数据采集接口进行查询获取,还可以是通过第三方语音采集工具进行采集获取,具体可根据实际需求采用不同的方法获取,此处不作限定。
其中,语音识别是指将人类的语音中的词汇内容转换为计算机可读的输入,例如按键、二进制编码或者字符序列。其中,违规语音数据是指语音数据中包含的在语义上不符合预设的规则的表达,如保险领域中与保险和贷款贷款相关的规则,示例性地,“随时退保”或者“贷款”等语音数据均为违规语音数据。对语音数据进行语音识别,可采用语音识别算法,也可以使用具有语音识别功能的第三方工具。其中的语音识别算法包括但不限于:基于声道模型的语音识别算法、语音模板匹配识别算法和或人工神经网络的语音识别算法等。优选地,本发明实施例采用的语音识别算法为基于声道模型的语音识别算法。
S20:根据违规语音数据,获取对应的外呼数据。
其中,外呼数据是指进行连接通话的电话号码,用于后续根据该外呼数据建立通话连接后实现对客户的回访。可以理解地,在获取到违规语音数据之前,需要对客户进行回访,而回访正是基于电话号码连接后得到违规语音数据,在获取到违规语音数据后,由于违规语音数是根据电话号码连接后并进行语音通话得到的,因此,根据该违规语音数据即能获取到对应的电话号码,也即该步骤中的外呼数据。
S30:若检测到外呼数据对应的外呼操作,则获取外呼操作过程中的录音信息。
其中,录音信息是指在外呼操作过程中的的语音信息,包括坐席录音信息和客户录音信息。具体地,当服务端检测到外呼终端的外呼操作时,服务端根据外呼数据进行通过连接后,获取外呼操作过程中的录音信息,其中,外呼终端为本实施例的客户端。
需要说明的是,服务端对客户端的检测,可以是使用套接字(Socket)进程通信的监听模式来实现,也可以通过传输控制协议(Transmission Control Protocol,TCP)对数据传输进行控制来实现,还可以是通过具有检测功能的第三方工具来实现,本发明实施例采用的优选方式为通过套接字(Socket)进程通信的监听模式来实现,实际可以根据具体情况来选取合适的检测方式,此处不作限制。
S40:提取录音信息中的客户语音,并对客户语音进行情绪识别,得到客户语音对应的语音情绪。
其中,客户语音是指接电话人(被回访人)的语音信息,用于作为进行回访判断的信息。具体地,可以对录音信息进行声纹提取,将提取的声纹特征与预设的坐席声纹特征进行相似度的计算,将计算得到的相似度和预设的相似度阈值进行比较后,确定客户录音信息并提取客户录音。情绪识别是指人工智能通过获取个体的生理或非生理信号对个体的情绪状态进行自动辨别,是情感计算的一个重要组成部分。情绪识别包括面部表情、语音、心率、行为、文本和生理信号识别等方面,通过以上内容来判断用户的情绪状态。本实施例中,用于对录音信息进行情绪识别,也即语音情绪识别。语音情绪是指用户的情绪状态,包括喜怒哀乐等情绪,本实施例中的语音情绪分为两种:正面情绪和负面情绪。具体地,可以根据客户语音的音调识别出客户录音的语音情绪,具体过程为:预先进行客户录音的信号的标注,提取情感的特征参数,包括基于声学的特征参数和LPCC(线性预测倒谱系数)、基于人的听觉机理如MFCC和共振峰参数、基于韵律特征的基频和能量的特征或者客户信息的持续时长、振幅参数来识别客户语音的语音情绪;也可以基于语义理解识别出客户录音的语音情绪,具体过程为:对客户语音中的每个句子提取关键词,将关键词与预设的情绪关键词库中的关键词进行比对,进而识别客户语音的语音情绪。比如说话人说:理赔处理效率很高,这是向坐席表达一种满意,为正面情绪。优选地,本实施例中采用客户语音的音调识别出客户语音的语音情绪,该方法方便准确,提高了情绪识别效率。语音情绪识别方法包括但不限于是矢量分割型马氏距离判别法、主元分析法、神经网络方法、隐马尔科夫模型(HMM)或者混合高斯模型(GMM)。
S50:基于语音情绪,确定回访结果。
其中,回访结果是指根据客户语音的语音情绪确定的结果。可以理解地,如果语音情绪为正面情绪,说明客户对该回访比较满意,可以确定回访结果对回访成功。进一步地,服务端对该回访进行结束操作。如果语音情绪为负面情绪,说明客户对该回访不满意,可以对客户语音进行进一步处理,找到不满意的原因,为后续改进服务质量提供参考。由于是基于语音情绪,确定回访结果,实现了智能回访,同时通过根据语音情绪确定回访结果,避免了一一对客户语音进行繁琐语义分析,提高了回访效率。
本实施例中,首先,获取语音数据,对语音数据进行语音识别,得到违规语音数据;然后,根据违规语音数据,获取对应的外呼数据;若检测到外呼数据对应的外呼操作,则获取外呼操作过程中的录音信息;接着,提取录音信息中的客户语音,并对客户语音进行情绪识别,得到客户语音对应的语音情绪;最后,基于语音情绪,确定回访结果,实现了智能回访,同时通过根据语音情绪确定回访结果,避免了一一对客户语音进行繁琐语义分析,提高了回访效率。
在一实施例中,如图3所示,步骤S10中,对语音数据进行语音识别,得到违规语音数据,包括:
S11:将语音数据转换成语音文本。
具体地,将语音数据转换成语音文本具体实现过程为:首先,对语音数据进行语音解析,得到包含基础语音帧的帧集合;然后对基础语音帧进行静音检测,得到基础语音帧中的K个连续静音帧,其中,K为自然数;接着,根据K个静音帧,将帧集合中包含的基础语音帧划分成K+1个目标语音帧;最后,将每个目标语音帧转换为语音文本。
S12:对语音文本进行关键词提取,得到语音关键词。
其中,关键词提取是指从文本信息中提取出能够体现核心意义的信息。语音关键词是指语音文本中的关键词,该语音关键词可以是一个或者多个。例如语音文本为“您好,这里是XX保险,我们可以提供贷款服务”。通过TF-IDF关键词提取方法,先将语音文本进行分词,计算各个分词的词频,基于每个分词的重要性赋予相应的权重,根据词频和权重,计算每个分词对应的分数,根据分数大小确定语音关键词。以计算保险领域的电销系统的服务进行违规问题件为例,因此,与保险和贷款相关的分词都作为语音关键词,在该语音文本中的语音关键词为“贷款”。其中的关键词提取算法包括但不限于是TF-IDF关键词提取方法、Topic-model关键词提取方法或者RAKE关键词提取算法。
S13:将语音关键词与预设的违规关键词库中的违规关键词进行匹配,确定语音数据中的违规语音关键词。
其中,预设的违规关键词库是指存储有预先设定的在语义上具有违规嫌疑的词语组成的词库。违规语音关键词是指语音数据中包含的违规关键词。具体地,将语音关键词与预设的违规关键词库中的违规关键词进行比较匹配,若存在与违规关键词相同的语音关键词,这将该语音关键词确定为违规语音关键词。
S14:若违规语音关键词的数量大于或者等于预设的数量阈值,则将违规语音关键词对应的语音数据确定为违规语音数据。
其中,预设的数量阈值是指预先设置的用于判断违规语音数据的违规语音关键词的数量的临界值。例如,数量阈值为3,违规语音关键词“贷款”的数量有4个,那么该违规语音关键词对应的语音数据即为违规语音数据。可以理解地,通过将违规语音关键词的数量与预设的数量阈值比较,根据比较的结果判断违规语音关键词对应的语音数据是否为违规语音数据,确保了违规语音数据的准确性,以便后续基于该违规语音数据进行进一步地处理。
本实施例中,将语音数据转换成语音文本;对语音文本进行关键词提取,得到语音关键词;进而将语音关键词与预设的违规关键词库中的违规关键词进行匹配,确定语音数据中的违规语音关键词;若违规语音关键词的数量大于或者等于预设的数量阈值,则将违规语音关键词对应的语音数据确定为违规语音数据,确保了违规语音数据的准确性,以便后续基于该违规语音数据进行进一步地处理。
在一实施例中,如图4所示,步骤S11中,将语音数据转换成语音文本,具体包括如下步骤:
S111:对语音数据进行语音解析,得到包含基础语音帧的帧集合。
具体地,对获取到的语音数据进行语音解析,得到包含基础语音帧的帧集合,语音解析包括但不限于:语音编码和语音信号的预处理等。其中,语音编码就是对模拟的语音信号进行编码,将模拟信号转化成数字信号,从而降低传输码率并进行数字传输,语音编码的基本方法可分为波形编码、参量编码(音源编码)和混合编码。优选地,本提案使用的语音编码方式为波形编码,波形编码是将时域的模拟话音的波形信号经过取样、量化、编码而形成的数字话音信号,波形编码可提供高话音的质量。
S112:对基础语音帧进行静音检测,得到基础语音帧中的K个连续静音帧,其中,K为正整数。
具体地,在外呼通话持续期间,语音数据中的语音信号可分为激活期和静默期两个状态,静默期不传送任何语音信号,上、下行链路的激活期和静默期相互独立。坐席员在外呼过程中,在每次发音前后,均会有停顿的状态,这个状态会带来语音信号的停顿,即静默期,在进行语音识别并转换文本的时候,需要检测出静默期状态,进而将静默期与激活期进行分离,以得到持续的激活期,将保留下来的持续的激活期的语音信号作为目标语音帧。检测静默音状态的方式包括但不限于:语音端点检测、探测音频静音算法和语音活动检测(Voice Activity Detection,VAD)算法等。
S113:根据K个连续静音帧,将帧集合中包含的基础语音帧划分成K+1个目标语音帧。
具体地,将步骤S112中得到的K个连续静音帧作为分界点,将帧集合中包含的基础语音帧划分开来,得到K+1个基础语音帧的集合区间,将每个集合区间中包含的所有基础语音帧,作为一个目标语音帧。
S114:将每个目标语音帧转换为语音文本。
具体地,对每个目标语音帧进行文本转换,得到该目标语音帧对应的实时语音文本。文本转换可使用支持语音转换文本的工具,也可以使用用于文本转换算法,此处不作具体限制。
本实施例中,对语音数据进行语音解析,得到得到包含基础语音帧的帧集合,进而对基础语音帧进行静音检测,得到基础语音帧中的K个连续静音帧,根据这K个连续静音帧,将帧集合中包含的基础语音帧划分成K+1个目标语音帧,将每个目标语音帧均转换为一个实时语音文本,使得将接收到的语音信号实时转换成一个个独立的语音文本,实现了对语音数据进行准确记录,提高了语音数据的准确率和效率。
在一实施例中,如图5所示,在步骤S10之前,即在获取语音数据之前,还包括如下步骤:
S61:获取质检请求,质检请求包括质检接口和质检时间。
其中,质检请求为客户端发起的对语音质检信息进行质量检查的请求。具体地,用户通过客户端输入对应的指令或信息来触发该质检请求。客户端将该质检请求发送至服务端,服务端即获取到质检请求。质检接口是指电销系统中的用于查询需要进行质检的问题件的接口。具体地,通过调用该质检接口,可以获取到对应的语音质检问题件。质检时间是指进行质检的时间。如每五分钟进行一次质检。
在一个实施方式中,寿险销售系统通过查询接口,由质检厂商每五分钟调用一次,实时查询语音质检任务,通过质检接口返回质检结果给销售系统。
S62:在质检时间内,调用质检接口,获取语音数据。
具体地,在质检时间内,调用质检接口,从该质检接口中查询到对应的语音问题件的信息,即语音数据。从而方便快速地获取到语音数据。
本实施例中,获取质检请求,质检请求包括质检接口和质检时间;在质检时间内,调用质检接口,获取语音数据,从而方便快速地获取到语音数据。
在一实施例中,如图6所示,在步骤S50之后,即在基于语音情绪,确定回访结果之后,还包括如下步骤:
S71:若语音情绪为正面情绪,则确定回访结果为回访成功。
其中,正面情绪为客户(被回访人)的积极情绪,可以理解地,当语音情绪为正面情绪,表明被回访人对本次回访满意,因此,确定本次回访的回访结果为回访成功。实现了智能回访,省去了对满意回访结果的进一步处理,提高了回访的时效性,从而有利于提高用户的满意度。
S72:若语音情绪为负面情绪,则对录音信息进行语义解析,获取回访反馈结果。
具体地,若语音情绪为负面情绪,表明客户对回访结果不满意,比如说话人说:保费比去年多,这是向坐席表达一种不满,为负面情绪。语义解析是指人工智能(ArtificialIntelligence)的一个分支,是自然语言处理技术的几个核心任务,用于对信息的含义进行理解以获取客户的反馈信息或者需求建议等。回访反馈结果是指对语音情绪为负面情绪的录音信息对应的文本信息。具体地,可以通过语音解析模型对回访录音进行解析,进而得到回访反馈结果。可以理解地,通过对不满意的回访录音进行分析,得到回访反馈结果,依据回访反馈结果,可以统计违规点,从而为后续回访提前做好违规点的解释说明,进而降低违规率。
本实施例中,若语音情绪为正面情绪,则确定回访结果为回访成功,实现了智能回访,省去了对满意回访结果的进一步处理,提高了回访的时效性,从而有利于提高用户的满意度;若语音情绪为负面情绪,则对录音信息进行语义解析,获取回访反馈结果通过对回访结果进行情绪识别,根据回访结果的情绪对回访结果进行统计,以便能够根据统计结果对后续的回访进行预警提醒,提高回访效率。
在一实施例中,如图7所示,步骤S40中,提取录音信息中的客户语音,具体包括如下步骤:
S41:对录音信息进行声纹提取,得到M个声纹特征,其中,M为正整数。
其中,声纹特征是指言语信息的声波频谱。M是声纹特征的数量,也即当录音信息切分为M个特征,然后对M个特征进行声纹提取。具体地,对录音信息进行声纹提取,具体过程为:通过对录音信息进行语音编码和语音信号的预处理,将录音信息从模拟信号转化成数字信号,进而从该数字信号中进行声纹的提取,进而得到录音信息的声纹特征。
S42:将声纹特征与坐席声纹信息库中的预设声纹特征进行声纹相似度计算,得到M个相似度。
其中,声纹相似度计算是指对两个声纹特征的距离进行计算,其中的距离包括但不限于余弦距离、欧式距离或者汉明距离等。预设的坐席声纹信息库是指预先存储的坐席的语音数据对应的声纹特征组成的声纹特征库。具体地,将M个声纹特征一一与坐席声纹信息库中的预设声纹特征进行相似度计算,得到M个相似度。其中,预设声纹特征为录音信息中坐席对应的声纹特征。
S43:将小于预设的相似度阈值的相似度对应的录音信息确定为客户语音。
其中,预设的相似度阈值是预先设置的用于判断录音信息的相似度的临界值。可以理解地,当相似度越小,表明该相似度对应的录音信息与坐席的录音信息差距越大,因此,该录音信息为客户信息的可能性越大,因此,将M个相似度中小于预设的相似度阈值的对应的录音信息确定为客户语音,保证了客户语音的准确性。
本实施例中,首先,对录音信息进行声纹提取,得到M个声纹特征;将声纹特征与坐席声纹信息库中的预设声纹特征进行声纹相似度计算,得到M个相似度;将小于预设的相似度阈值的对应的录音信息确定为客户语音,保证了客户语音的准确性。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
在一实施例中,提供一种智能回访装置,该智能回访装置与上述实施例中智能回访方法一一对应。如图8所示,该智能回访装置包括违规语音数据获取模块10、外呼数据获取模块20、录音信息获取模块30、语音情绪识别模块40和回访结果获取模块50。各功能模块详细说明如下:
违规语音数据获取模块10,用于获取语音数据,对语音数据进行语音识别,得到违规语音数据;
外呼数据获取模块20,用于根据违规语音数据,获取对应的外呼数据;
录音信息获取模块30,用于在检测到外呼数据对应的外呼操作时,则获取外呼操作过程中的录音信息;
语音情绪识别模块40,用于提取录音信息中的客户语音,并对客户语音进行情绪识别,得到客户语音对应的语音情绪;
回访结果获取模块50,用于基于语音情绪,确定回访结果。
优选地,如图9所示,违规语音数据获取模块10包括语音文本转换单元11、语音关键词提取单元12、违规语音关键词获取单元13和违规语音数据获取单元14。
语音文本转换单元11,用于将语音数据转换成语音文本;
语音关键词提取单元12,用于对语音文本进行关键词提取,得到语音关键词;
违规语音关键词获取单元13,用于将语音关键词与预设的违规关键词库中的违规关键词进行匹配,确定语音数据中的违规语音关键词;
违规语音数据获取单元14,用于在违规语音关键词的数量大于或者等于预设的数量阈值时,则将违规语音关键词对应的语音数据确定为违规语音数据。
优选地,语音文本转换单元包括帧集合获取子单元、连续静音帧获取子单元、目标语音帧获取子单元和语音文本获取子单元。
帧集合获取子单元,用于对语音数据进行语音解析,得到包含基础语音帧的帧集合;
连续静音帧获取子单元,用于对基础语音帧进行静音检测,得到基础语音帧中的K个连续静音帧,其中,K为正整数;
目标语音帧获取子单元,用于根据K个连续静音帧,将帧集合中包含的基础语音帧划分成K+1个目标语音帧;
语音文本获取子单元,用于将每个目标语音帧转换为语音文本。
优选地,智能回访还包括质检请求获取单元和语音数据获取单元。
质检请求获取单元,用于获取质检请求,质检请求包括质检接口和质检时间;
语音数据获取单元,用于在质检时间内,调用质检接口,获取语音数据。
优选地,智能回访还包括第一回访结果获取单元和第二回访结果获取单元
第一回访结果获取单元,用于若语音情绪为正面情绪,则确定回访结果为回访成功;
第二回访结果获取单元,用于若语音情绪为负面情绪,则对录音信息进行语义解析,获取回访反馈结果。
优选地,语音情绪识别模块包括声纹特征获取单元、相似度计算单元和客户语音提取单元。
声纹特征获取单元,用于对录音信息进行声纹提取,得到M个声纹特征,其中,M为正整数;
相似度计算单元,用于将声纹特征与坐席声纹信息库中的预设声纹特征进行声纹相似度计算,得到M个相似度;
客户语音提取单元,用于将小于预设的相似度阈值的相似度对应的录音信息确定为客户语音。
关于智能回访装置的具体限定可以参见上文中对于智能回访方法的限定,在此不再赘述。上述智能回访装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图10所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储智能回访方法中使用到的数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种智能回访方法。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现以下步骤:
获取语音数据,对所述语音数据进行语音识别,得到违规语音数据;
根据所述违规语音数据,获取对应的外呼数据;
若检测到所述外呼数据对应的外呼操作,则获取所述外呼操作过程中的录音信息;
提取所述录音信息中的客户语音,并对所述客户语音进行情绪识别,得到所述客户语音对应的语音情绪;
基于所述语音情绪,确定回访结果。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
获取语音数据,对所述语音数据进行语音识别,得到违规语音数据;
根据所述违规语音数据,获取对应的外呼数据;
若检测到所述外呼数据对应的外呼操作,则获取所述外呼操作过程中的录音信息;
提取所述录音信息中的客户语音,并对所述客户语音进行情绪识别,得到所述客户语音对应的语音情绪;
基于所述语音情绪,确定回访结果。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。

Claims (10)

1.一种智能回访方法,其特征在于,所述智能回访方法包括:
获取语音数据,对所述语音数据进行语音识别,得到违规语音数据;
根据所述违规语音数据,获取对应的外呼数据;
若检测到所述外呼数据对应的外呼操作,则获取所述外呼操作过程中的录音信息;
提取所述录音信息中的客户语音,并对所述客户语音进行情绪识别,得到所述客户语音对应的语音情绪;
基于所述语音情绪,确定回访结果。
2.如权利要求1所述的智能回访方法,其特征在于,所述对所述语音数据进行语音识别,得到违规语音数据,包括:
将所述语音数据转换成语音文本;
对所述语音文本进行关键词提取,得到语音关键词;
将所述语音关键词与预设的违规关键词库中的违规关键词进行匹配,确定所述语音数据中的违规语音关键词;
若所述违规语音关键词的数量大于或者等于预设的数量阈值,则将所述违规语音关键词对应的所述语音数据确定为所述违规语音数据。
3.如权利要求2所述的智能回访方法,其特征在于,所述将所述语音数据转换成语音文本,包括:
对所述语音数据进行语音解析,得到包含基础语音帧的帧集合;
对所述基础语音帧进行静音检测,得到基础语音帧中的K个连续静音帧,其中,K为正整数;
根据K个连续静音帧,将帧集合中包含的基础语音帧划分成K+1个目标语音帧;
将每个目标语音帧转换为所述语音文本。
4.如权利要求1所述的智能回访方法,其特征在于,在所述获取语音数据之前,所述智能回访方法还包括:
获取质检请求,所述质检请求包括质检接口和质检时间;
在所述质检时间内,调用所述质检接口,获取所述语音数据。
5.如权利要求1所述的智能回访方法,其特征在于,在所述基于所述语音情绪,确定回访结果之后,所述智能回访方法还包括:
若所述语音情绪为正面情绪,则确定所述回访结果为回访成功;
若所述语音情绪为负面情绪,则对所述录音信息进行语义解析,获取回访反馈结果。
6.如权利要求1所述的智能回访方法,其特征在于,所述提取所述录音信息中的客户语音,包括:
对所述录音信息进行声纹提取,得到M个声纹特征,其中,M为正整数;
将所述声纹特征与坐席声纹信息库中的预设声纹特征进行声纹相似度计算,得到M个相似度;
将小于预设的相似度阈值的相似度对应的所述录音信息确定为客户语音。
7.一种智能回访装置,其特征在于,所述智能回访装置包括:
违规语音数据获取模块,用于获取语音数据,对所述语音数据进行语音识别,得到违规语音数据;
外呼数据获取模块,用于根据所述违规语音数据,获取对应的外呼数据;
录音信息获取模块,用于在检测到所述外呼数据对应的外呼操作时,则获取所述外呼操作过程中的录音信息;
语音情绪识别模块,用于提取所述录音信息中的客户语音,并对所述客户语音进行情绪识别,得到所述客户语音对应的语音情绪;
回访结果获取模块,用于基于所述语音情绪,确定回访结果。
8.如权利要求7所述的智能回访装置,其特征在于,所述违规语音数据获取模块,包括:
语音文本转换单元,用于将所述语音数据转换成语音文本;
语音关键词提取单元,用于对所述语音文本进行关键词提取,得到语音关键词;
违规语音关键词获取单元,用于将所述语音关键词与预设的违规关键词库中的违规关键词进行匹配,确定所述语音数据中的违规语音关键词;
违规语音数据获取单元,用于在所述违规语音关键词的数量大于或者等于预设的数量阈值时,则将所述违规语音关键词对应的所述语音数据确定为所述违规语音数据。
9.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至6任一项所述智能回访方法。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述智能回访方法。
CN201910432732.0A 2019-05-23 2019-05-23 智能回访方法、装置、计算机设备及存储介质 Pending CN110265008A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910432732.0A CN110265008A (zh) 2019-05-23 2019-05-23 智能回访方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910432732.0A CN110265008A (zh) 2019-05-23 2019-05-23 智能回访方法、装置、计算机设备及存储介质

Publications (1)

Publication Number Publication Date
CN110265008A true CN110265008A (zh) 2019-09-20

Family

ID=67915153

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910432732.0A Pending CN110265008A (zh) 2019-05-23 2019-05-23 智能回访方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN110265008A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111107230A (zh) * 2019-12-05 2020-05-05 北京高阳捷迅信息技术有限公司 用于智能外呼的数据处理方法及装置
CN112951215A (zh) * 2021-04-27 2021-06-11 平安科技(深圳)有限公司 语音的智能客服回答方法、装置以及计算机设备
CN113450124A (zh) * 2021-06-24 2021-09-28 未鲲(上海)科技服务有限公司 基于用户行为的外呼方法、装置、电子设备及介质
CN115118822A (zh) * 2022-06-15 2022-09-27 马上消费金融股份有限公司 任务处理方法及装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101277338A (zh) * 2007-03-29 2008-10-01 西门子(中国)有限公司 一种记录通信终端下行语音信号的方法及该通信终端
CN103957309A (zh) * 2014-05-07 2014-07-30 北京纽曼腾飞科技有限公司 一种网络录音系统
US20170132380A1 (en) * 2015-11-09 2017-05-11 International Business Machines Corporation Service monitoring and evaluation system, method and program product
CN107293309A (zh) * 2017-05-19 2017-10-24 四川新网银行股份有限公司 一种基于客户情绪分析提升舆情监控效率的方法
CN107798461A (zh) * 2017-09-15 2018-03-13 平安科技(深圳)有限公司 坐席监控方法、装置、设备及计算机可读存储介质
CN108259686A (zh) * 2017-12-28 2018-07-06 合肥凯捷技术有限公司 一种基于语音分析的客服系统
CN108833722A (zh) * 2018-05-29 2018-11-16 平安科技(深圳)有限公司 语音识别方法、装置、计算机设备及存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101277338A (zh) * 2007-03-29 2008-10-01 西门子(中国)有限公司 一种记录通信终端下行语音信号的方法及该通信终端
CN103957309A (zh) * 2014-05-07 2014-07-30 北京纽曼腾飞科技有限公司 一种网络录音系统
US20170132380A1 (en) * 2015-11-09 2017-05-11 International Business Machines Corporation Service monitoring and evaluation system, method and program product
CN107293309A (zh) * 2017-05-19 2017-10-24 四川新网银行股份有限公司 一种基于客户情绪分析提升舆情监控效率的方法
CN107798461A (zh) * 2017-09-15 2018-03-13 平安科技(深圳)有限公司 坐席监控方法、装置、设备及计算机可读存储介质
CN108259686A (zh) * 2017-12-28 2018-07-06 合肥凯捷技术有限公司 一种基于语音分析的客服系统
CN108833722A (zh) * 2018-05-29 2018-11-16 平安科技(深圳)有限公司 语音识别方法、装置、计算机设备及存储介质

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111107230A (zh) * 2019-12-05 2020-05-05 北京高阳捷迅信息技术有限公司 用于智能外呼的数据处理方法及装置
CN112951215A (zh) * 2021-04-27 2021-06-11 平安科技(深圳)有限公司 语音的智能客服回答方法、装置以及计算机设备
CN112951215B (zh) * 2021-04-27 2024-05-07 平安科技(深圳)有限公司 语音的智能客服回答方法、装置以及计算机设备
CN113450124A (zh) * 2021-06-24 2021-09-28 未鲲(上海)科技服务有限公司 基于用户行为的外呼方法、装置、电子设备及介质
CN115118822A (zh) * 2022-06-15 2022-09-27 马上消费金融股份有限公司 任务处理方法及装置

Similar Documents

Publication Publication Date Title
US11380327B2 (en) Speech communication system and method with human-machine coordination
CN111028827B (zh) 基于情绪识别的交互处理方法、装置、设备和存储介质
Rao et al. Robust emotion recognition using spectral and prosodic features
US8214214B2 (en) Emotion detection device and method for use in distributed systems
CN110265008A (zh) 智能回访方法、装置、计算机设备及存储介质
Aloufi et al. Emotionless: Privacy-preserving speech analysis for voice assistants
CN109151218A (zh) 通话语音质检方法、装置、计算机设备及存储介质
Mariooryad et al. Compensating for speaker or lexical variabilities in speech for emotion recognition
Russo et al. Dialogue systems and conversational agents for patients with dementia: The human–robot interaction
CN110298252A (zh) 会议纪要生成方法、装置、计算机设备及存储介质
Kopparapu Non-linguistic analysis of call center conversations
CN114420169B (zh) 情绪识别方法、装置及机器人
Klaylat et al. Enhancement of an Arabic speech emotion recognition system
CN113035232B (zh) 一种基于语音识别的心理状态预测系统、方法及装置
CN115424618A (zh) 一种基于机器学习的电子病历语音交互设备
Kurian et al. Connected digit speech recognition system for Malayalam language
Gallardo et al. On the impact of voice encoding and transmission on the predictions of speaker warmth and attractiveness
CN114328867A (zh) 一种人机对话中智能打断的方法及装置
Matsumoto et al. Speech-like emotional sound generator by WaveNet
Jeyalakshmi et al. Integrated models and features-based speaker independent emotion recognition
Sabu et al. Improving the Noise Robustness of Prominence Detection for Children's Oral Reading Assessment
CN113990288B (zh) 一种语音客服自动生成部署语音合成模型的方法
Kannan et al. Malayalam Isolated Digit Recognition using HMM and PLP cepstral coefficient
US20230298615A1 (en) System and method for extracting hidden cues in interactive communications
US20220215834A1 (en) System and method for speech to text conversion

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination