CN113657118A - 基于通话文本的语义分析方法、装置和系统 - Google Patents

基于通话文本的语义分析方法、装置和系统 Download PDF

Info

Publication number
CN113657118A
CN113657118A CN202110934606.2A CN202110934606A CN113657118A CN 113657118 A CN113657118 A CN 113657118A CN 202110934606 A CN202110934606 A CN 202110934606A CN 113657118 A CN113657118 A CN 113657118A
Authority
CN
China
Prior art keywords
call
model
text
complaints
vocabulary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110934606.2A
Other languages
English (en)
Other versions
CN113657118B (zh
Inventor
陈冠伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Haoxinqing Mobile Medical Technology Co ltd
Original Assignee
Beijing Haoxinqing Mobile Medical Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Haoxinqing Mobile Medical Technology Co ltd filed Critical Beijing Haoxinqing Mobile Medical Technology Co ltd
Priority to CN202110934606.2A priority Critical patent/CN113657118B/zh
Priority claimed from CN202110934606.2A external-priority patent/CN113657118B/zh
Publication of CN113657118A publication Critical patent/CN113657118A/zh
Application granted granted Critical
Publication of CN113657118B publication Critical patent/CN113657118B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Abstract

本发明公开一种基于通话文本的语义分析方法、装置和系统,通过使用通话录音经ASR语音转文本后的通话文本内容作为输入,通过深度学习算法训练,自动识别通话中是否存在被投诉的风险,以及根据模型输出的权重对文本进行自动化标注,将投诉高风险具体来自于通话中哪些部分并用对这些文字进行自动标注和高亮显示。通过以上方式可以得到每个电话记录的文本和是否被投诉的标签信息,当一个通话被投诉后,通话中包含了大量的信息与特征,隐含用户会有投诉倾向,通过使用NLP技术建模对克服电话是否会被投诉的识别,并将这些信息进行输出和可视化显示,提高人工审核的效率。

Description

基于通话文本的语义分析方法、装置和系统
技术领域
本发明涉及人工智能技术领域,应用于智能客服方向,尤其涉及一种基于通话文本的语义分析方法、装置和系统。
背景技术
随着互联网平台上业务体量越来越大,客服从人工向智能化方向发展,客服与用户之间的通话越来越多,越来越多的对话记录被保存,因此如何利用这些存储的记录并从中挖掘出有用的信息以用于实践指导智能客服是一项研究课题。尤其是电话录音包含的大量信息,相对于人工整理的结构化标签等具有非结构化属性、数量庞大、信息杂乱等特点。
发明内容
针对上述缺陷,本发明要解决的技术问题是如何借助人工智能技术和自然语言处理技术感知和识别用户的各种信息并对后续决策流程进行建模,实现自动执行和智能决策。
针对上述缺陷,本发明的目的在于提供一种基于通话文本的语义分析方法、系统及电子设备、计算机存储介质和程序产品。
其中,一种基于通话文本的语义分析方法,应用在服务器端,生成样本数据,对通话文本进行预处理,将通话文本分类为被用户投诉及未被用户投诉并进行标注,预处理时将汉语分割成单独的词,将连续数字段替换为一特殊字符,将连续字母段保留作为一词汇,每段对话分别标注通话发起人的角色,构建层次注意力网络模型,对预处理后的每个词进行序列建模,对通话进行用户投诉风险概率的预测,并使用模型中的注意力机制的权重进行可视化展示。
优选的,将提供服务后被用户投诉的通话文本作为正样本,标签为1,未被用户投诉的通话文本作为负样本,标签为0。
优选的,对上下文序列建模,以实现语义理解,不需要分词即可直接使用汉语作为TOKEN输入。
优选的,对文本预处理时,将每个汉语分开;遇到连续数字将连续数字替换为[NUM]代表一个数字;遇到连续英文字母时,则保留完整的英文作为英文词汇。
优选的,通话文本中,每段对话的开头为代理方或用户方,表示这句话由代理方或用户方表达。
优选的,层次注意力网络模型为层次结构,下层为词汇级编码,输入为每个TOKEN,模型对每段对话中的每个词进行序列建模,得到句子的输入值表达,上层为句子级编码,输入为下层词汇级编码对每段对话的编码表示输入值。
优选的,对通话进行用户投诉风险概率的预测,模型直接输出介于0-1的预测值,表示投诉的概率大小,打分越接近于1,投诉风险越高,打分越接近于0,投诉风险越低。
本发明提供一种基于通话文本的语义分析方法,包括三个步骤:
S101、样本数据的生成及文本预处理;
S102、训练层次注意力网络模型;
S103、用层次注意力网络模型对通话进行用户投诉风险概率的推理,并使用模型中的注意力机制的权重进行可视化展示。
优选的,样本数据的生成包括数据准备及通话文本预处理。
优选的,利用层次注意力网络构建用户投诉风险识别模型,模型为层次结构,下层为词汇级编码,输入为每个TOKEN,模型对每段对话中的每个词进行序列建模,得到句子的量级表示:上层为句子级编码,输入为下层词汇级编码对每段对话的编码表示词汇,经过注意力机制处理后输出文件及文本级的表示词汇,最后通过模型函数进行分类模型推理及注意力机制权重可视化展示。
优选的,在预测阶段,模型可直接输出介于0-1的预测值,表示投诉的概率大小,打分越接近于1,投诉风险越高,反之亦然。
优选的,模型分别在词汇级编码和句子级编码中包含一个注意力层,模型推理时可输出注意力权重,并将权重可视化展示。
本发明提供一种基于通话文本的语义分析系统,包括至少一终端设备以及至少一服务器,所述终端设备采集通话文本并上传到服务器,生成样本数据,对通话文本进行预处理,将通话文本分类为被用户投诉及未被用户投诉并进行标注,预处理时将汉语分割成单独的词,将连续数字段替换为一特殊字符,将连续字母段保留作为一词汇,每段对话分别标注通话发起人的角色,构建层次注意力网络模型,对预处理后的每个词进行序列建模,对通话进行用户投诉风险概率的预测,并使用模型中的注意力机制的权重进行可视化展示。
优选的,通话记录为客服或者回访通话。
优选的,将对话全文进行层次拆分为字/词级别和句级别,使用段到端的模型。
本发明提供一种计算机可读存储介质,其上存储有计算机程序/指令,其特征在于,该计算机程序/指令被处理器执行时实现上述方法的步骤。
本发明提供一种计算机程序产品,包括计算机程序/指令,其特征在于,该计算机程序/指令被处理器执行时实现上述方法的步骤。
本发明提供一种电子设备,包括:
处理器;以及
被设置成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行以下操作:
生成样本数据,对通话文本进行预处理,将通话文本分类为被用户投诉及未被用户投诉并进行标注,预处理时将汉语分割成单独的词,将连续数字段替换为一特殊字符,将连续字母段保留作为一词汇,每段对话分别标注通话发起人的角色,构建层次注意力网络模型,对预处理后的每个词进行序列建模,对通话进行用户投诉风险概率的预测,并使用模型中的注意力机制的权重进行可视化展示。
本发明使用层次结构,将通话文本分为字/词和句两个层次级别,建立端到端的模型,不仅解决了通话文本过长,信息杂乱的问题,还通过对每段对话分开作为模型输入,解决对话中不同角色的切换问题。通过机制算法得到句子中哪个词汇更重要,对话中哪个句子更重要,将字层级和句层级进行权重可视化后,可以很好地标记出对于目标重要的片段、句子以及字词信息。本发明帮助人工审查时,可以快速地从几千字的文本中定位到客服与用户发生潜在矛盾的时间点,极大节省人力和时间。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例中所需要使用的附图作简单地介绍,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了本发明基于通话文本的语义分析方法一实施例结构示意图;
图2示出了本发明基于通话文本的语义分析方法另一实施例结构示意图;
图3示出了本发明基于通话文本的语义分析方法另一实施例结构示意图。
具体实施方式
下面将详细描述本发明的各个方面的特征和示例性实施例,为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细描述。应理解,此处所描述的具体实施例仅被配置为解释本发明,并不被配置为限定本发明。对于本领域技术人员来说,本发明可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本发明的示例来提供对本发明更好的理解。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
如图1所示,本说明书的一个实施例提供的一种基于通话文本的语义分析方法,应用在服务器端,生成样本数据,对通话文本进行预处理,将通话文本分类为被用户投诉及未被用户投诉并进行标注,预处理时将汉语分割成单独的词,将连续数字段替换为一特殊字符,将连续字母段保留作为一词汇,每段对话分别标注通话发起人的角色,构建层次注意力网络模型,对预处理后的每个词进行序列建模,对通话进行用户投诉风险概率的预测,并使用模型中的注意力机制的权重进行可视化展示。
在一些实施例中,将提供服务后被用户投诉的通话文本作为正样本,标签为1,未被用户投诉的通话文本作为负样本,标签为0。
在一些实施例中,对上下文序列建模,以实现语义理解,不需要分词即可直接使用汉语作为TOKEN(令牌)输入。Token是服务端生成的一串字符串,以作客户端进行请求的一个令牌,当第一次登录后,服务器生成一个Token便将此Token返回给客户端,以后客户端只需带上这个Token前来请求数据即可,无需再次带上用户名和密码。
在一些实施例中,对文本预处理时,将每个汉语分开;遇到连续数字将连续数字替换为[NUM]代表一个数字;遇到连续英文字母时,则保留完整的英文作为英文词汇。
在一些实施例中,通话文本中,每段对话的开头为代理方或用户方,表示这句话由代理方或用户方发起。
在一些实施例中,层次注意力网络模型为层次结构,下层为词汇级编码,输入为每个TOKEN,模型对每段对话中的每个词进行序列建模,得到句子的输入值表达,上层为句子级编码,输入为下层词汇级编码对每段对话的编码表示输入值。
在一些实施例中,对通话进行用户投诉风险概率的预测,模型直接输出介于0-1的预测值,表示投诉的概率大小,打分越接近于1,投诉风险越高,打分越接近于0,投诉风险越低。
如图2所示,本发明的目的在于提供一种基于通话文本的语义分析方法,主要包括三个步骤:
S101、样本数据的生成及文本预处理;
S102、层次注意力网络模型(HAN,Hierarchical Attention Network)的训练;
S103、用层次注意力网络HAN对通话进行用户投诉风险概率的推理,并使用模型中的注意力机制的权重进行可视化展示。
如图3所示,本发明的目的在于提供一种基于通话文本的语义分析方法,主要包括:
S201、生成样本数据,对通话文本进行预处理;
S202、将通话文本分类为被用户投诉及未被用户投诉并进行标注,预处理时将汉语分割成单独的词,将连续数字段替换为一特殊字符,将连续字母段保留作为一词汇;
S203、每段对话分别标注通话发起人的角色,构建层次注意力网络模型;
S204、对预处理后的每个词进行序列建模,对通话进行用户投诉风险概率的预测,并使用模型中的注意力机制的权重进行可视化展示。
在一些实施例中,样本数据的生成包括数据准备及通话文本预处理。
在一些具体的实施例中,提供服务后被用户投诉的通话文本作为正样本,标签为1,未被用户投诉的通话文本作为负样本,标签为0。
由于文本分类模型中,会将中文文本进行分词后作为模型的输入。在一些实施例中,神经网络模型可对上下文序列建模,达到语义理解的效果,因此不需要分词,可直接使用汉语作为TOKEN输入。
对文本预处理时,会将每个汉语分开,遇到连续数字(如1597876149),则将连续数字替换为[NUM]代表一个数字。
在一些实施例中,连续数字为689,390,为金额;
在一些实施例中,连续数字为13912345678(示例),这种场景下为电话号码;
在一些实施例中,遇到连续英文字母(如OK,yes等)时,则保留完整的英文作为英文词汇。通过文本预处理后,整个模型大约收录一定数量的TOKEN,在一个具体的实施例中,整个模型大约收录4000个字级别TOKEN(包含中文汉语、[NUM],英文单词,以及表示说话角色的[AGENT]和[USER]等),大大降低了中文词汇的词汇量体量。特别地,通话文本中,每段对话的开头为代理方或用户方,表示这句话由代理方或用户方表达。
代理方(AGENT)和用户方(USER)作为TOKEN加入词汇量,通过模型则可以学习到代理方(AGENT)和用户方(USER)的词汇,可以表示这句话是由哪个角色表达的,达到区分不同角色的作用。
在一些实施例中,模型训练及特殊身份识别模型输出,利用层次注意力网络(HAN,Hierarchical Attention Network)构建用户投诉风险识别模型。模型为层次结构,下层为词汇级编码(word-level encoder),输入为每个TOKEN,模型对每段对话中的每个词进行序列建模,得到句子的量级表示:上层为句子级编码(sentence-lever encoder),输入为下层词汇级编码(word-level encoder)对每段对话的编码表示词汇,经过注意力机制处理后输出文件及文本级(doc-level)的表示词汇,最后通过模型函数进行分类模型推理及注意力机制权重可视化展示。
在预测阶段,模型可直接输出介于0-1的预测值,表示投诉的概率大小,打分越接近于1,投诉风险越高,反之亦然。模型分别在词汇级编码(word-level encoder)和句子级编码(sentence-lever encoder)中包含一个注意力层,模型推理时可输出注意力权重,并将权重可视化展示。
权重可视化后,在人工对通话进行事后复查时,可以快速定位到潜在存在问题的字词、句子,极大提高人工复查的效率。
在一个具体例子中,采用层次注意力网络,构建一种基于通话录音经ASR语音转文本后的通话文本数据判断用户是否存在投诉风险的意图,解决了常规NLP分类模型(RNN,CNN,BERT)等,不区分说话者角色和全文本过长的问题。另一方面,针对每一句单独建模,再在句子级别建模的两阶段模型,也会存在信息丢失的问题。本发明通过将对话全文进行层次拆分为字/词级别和句级别,使用段到端的模型,更好地学习全文中的关键信息,减少了信息丢失,从结果上也有更好的输出。
可视化标注解释:
1.通话的打分越接近于1,存在越大的投诉风险;
2.通话的打分越接近于0,存在越小的投诉风险;
3.每段对话前面的红色方块,表示这句话对于整个通话的重要程度,红色越深,句子约重要;
4.每段对话中的字的蓝色背景,表示这个字对于整句话的重要程度,蓝色越深,字词越重要;
特别地,对于高投诉风险的通话,字词,句子的重要性体现在表现通话中的摩擦、矛盾等信息;而对于低投诉风险的通话,字词、句子的重要性体现在通话双方的正常沟通,礼貌性结束语等信息。
在一些实施例中,比如通话中出现,用户表达“你这是在骚扰我”、“别再给我打电话了,否则我举报你”、“你这是在恐吓我”等,“骚扰”、“恐吓”、“举报”的高亮背景比其他字词更深。同时,业务员的句子也是语气内容较为不当或态度强硬的信息。
当通话发生时,客服和用户进行正常的打招呼,比如出现“先生/女生,非常抱歉打扰您一下”、“感谢您的耐心接听”、“我稍微占用您两分钟时间”,则这些字词和句子均表现为正常的可视化标注,可极大地提高人工在审核高投诉风险通话时的效率,可以快速定位到问题出现的片段。
本说明书的一个实施例提供的一种基于通话文本的语义分析系统,包括至少一终端设备以及至少一服务器,所述终端设备采集通话文本并上传到服务器,生成样本数据,对通话文本进行预处理,将通话文本分类为被用户投诉及未被用户投诉并进行标注,预处理时将汉语分割成单独的词,将连续数字段替换为一特殊字符,将连续字母段保留作为一词汇,每段对话分别标注通话发起人的角色,构建层次注意力网络模型,对预处理后的每个词进行序列建模,对通话进行用户投诉风险概率的预测,并使用模型中的注意力机制的权重进行可视化展示。
在一些实施例中,通话记录为客服或者回访通话。
在一些实施例中,将对话全文进行层次拆分为字/词级别和句级别,使用段到端的模型。
本说明书的一个实施例提供的一种计算机可读存储介质,其上存储有计算机程序/指令,其特征在于,该计算机程序/指令被处理器执行时实现以下方法:生成样本数据,对通话文本进行预处理,将通话文本分类为被用户投诉及未被用户投诉并进行标注,预处理时将汉语分割成单独的词,将连续数字段替换为一特殊字符,将连续字母段保留作为一词汇,每段对话分别标注通话发起人的角色,构建层次注意力网络模型,对预处理后的每个词进行序列建模,对通话进行用户投诉风险概率的预测,并使用模型中的注意力机制的权重进行可视化展示。
本说明书的一个实施例提供的一种计算机程序产品,包括计算机程序/指令,其特征在于,该计算机程序/指令被处理器执行时实现以下方法:生成样本数据,对通话文本进行预处理,将通话文本分类为被用户投诉及未被用户投诉并进行标注,预处理时将汉语分割成单独的词,将连续数字段替换为一特殊字符,将连续字母段保留作为一词汇,每段对话分别标注通话发起人的角色,构建层次注意力网络模型,对预处理后的每个词进行序列建模,对通话进行用户投诉风险概率的预测,并使用模型中的注意力机制的权重进行可视化展示。
本说明书的一个实施例提供的一种电子设备,包括:
处理器;以及
被设置成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行以下操作:
生成样本数据,对通话文本进行预处理,将通话文本分类为被用户投诉及未被用户投诉并进行标注,预处理时将汉语分割成单独的词,将连续数字段替换为一特殊字符,将连续字母段保留作为一词汇,每段对话分别标注通话发起人的角色,构建层次注意力网络模型,对预处理后的每个词进行序列建模,对通话进行用户投诉风险概率的预测,并使用模型中的注意力机制的权重进行可视化展示。
本发明使用层次结构,将通话文本分为字/词和句两个层次级别,建立端到端的模型,不仅解决了通话文本过长,信息杂乱的问题,还通过对每段对话分开作为模型输入,解决对话中不同角色的切换问题。通过机制算法得到句子中哪个词汇更重要,对话中哪个句子更重要,将字层级和句层级进行权重可视化后,可以很好地标记出对于目标重要的片段、句子以及字词信息。本发明帮助人工审查时,可以快速地从几千字的文本中定位到客服与用户发生潜在矛盾的时间点,极大节省人力和时间。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flashRAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (18)

1.一种基于通话文本的语义分析方法,应用在服务器端,生成样本数据,对通话文本进行预处理,将通话文本分类为被用户投诉及未被用户投诉并进行标注,预处理时将汉语分割成单独的词,将连续数字段替换为一特殊字符,将连续字母段保留作为一词汇,每段对话分别标注通话发起人的角色,构建层次注意力网络模型,对预处理后的每个词进行序列建模,对通话进行用户投诉风险概率的预测,并使用模型中的注意力机制的权重进行可视化展示。
2.根据权利要求1所述的基于通话文本的语义分析方法,将提供服务后被用户投诉的通话文本作为正样本,标签为1,未被用户投诉的通话文本作为负样本,标签为0。
3.根据权利要求1所述的基于通话文本的语义分析方法,对上下文序列建模,以实现语义理解,不需要分词即可直接使用汉语作为令牌输入。
4.根据权利要求1或3所述的基于通话文本的语义分析方法,对文本预处理时,将每个汉语分开;遇到连续数字将连续数字替换为[NUM]以代表一个数字;遇到连续英文字母时,则保留完整的英文作为英文词汇。
5.根据权利要求1所述的基于通话文本的语义分析方法,所述通话文本中,每段对话的开头为代理方或用户方,表示这句话由代理方或用户方发起。
6.根据权利要求1所述的基于通话文本的语义分析方法,所述层次注意力网络模型为层次结构,下层为词汇级编码,输入为每个令牌,模型对每段对话中的每个词进行序列建模,得到句子的输入值表达,上层为句子级编码,输入为下层词汇级编码对每段对话的编码表示输入值。
7.根据权利要求1或6所述的基于通话文本的语义分析方法,对通话进行用户投诉风险概率的预测,模型直接输出介于0-1的预测值,表示投诉的概率大小,打分越接近于1,投诉风险越高,打分越接近于0,投诉风险越低。
8.一种基于通话文本的语义分析方法,包括三个步骤:
S101、样本数据的生成及文本预处理;
S102、训练层次注意力网络模型;
S103、用层次注意力网络模型对通话进行用户投诉风险概率的推理,并使用模型中的注意力机制的权重进行可视化展示。
9.根据权利要求8所述的方法,所述样本数据的生成包括数据准备。
10.根据权利要求8所述的方法,利用所述层次注意力网络构建用户投诉风险识别模型,模型为层次结构,下层为词汇级编码,输入为每个TOKEN,模型对每段对话中的每个词进行序列建模,得到句子的量级表示:上层为句子级编码,输入为下层词汇级编码对每段对话的编码表示词汇,经过注意力机制处理后输出文件及文本级的表示词汇,最后通过模型函数进行分类模型推理及注意力机制权重可视化展示。
11.根据权利要求8所述的方法,在预测阶段,模型直接输出介于0-1的预测值,表示投诉的概率大小,打分越接近于0,投诉风险越低,打分越接近于1,投诉风险越高。
12.根据权利要求8所述的方法,模型分别在词汇级编码和句子级编码中包含一个注意力层,模型推理时输出注意力权重,并将权重可视化展示。
13.一种基于通话文本的语义分析系统,包括至少一终端设备以及至少一服务器,所述终端设备采集通话文本并上传到服务器,生成样本数据,对通话文本进行预处理,将通话文本分类为被用户投诉及未被用户投诉并进行标注,预处理时将汉语分割成单独的词,将连续数字段替换为一特殊字符,将连续字母段保留作为一词汇,每段对话分别标注通话发起人的角色,构建层次注意力网络模型,对预处理后的每个词进行序列建模,对通话进行用户投诉风险概率的预测,并使用模型中的注意力机制的权重进行可视化展示。
14.根据权利要求13所述的系统,所述对话的记录为客服或者回访通话。
15.根据权利要求13或14所述的系统,将对话全文进行层次拆分为字/词级别和句级别,使用端到端的模型。
16.一种计算机可读存储介质,其上存储有计算机程序/指令,其特征在于,该计算机程序/指令被处理器执行时实现权利要求1-7之一所述方法的步骤。
17.一种计算机程序产品,包括计算机程序/指令,其特征在于,该计算机程序/指令被处理器执行时实现权利要求1-7之一所述方法的步骤。
18.一种电子设备,包括:
处理器;以及
被设置成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行以下操作:
生成样本数据,对通话文本进行预处理,将通话文本分类为被用户投诉及未被用户投诉并进行标注,预处理时将汉语分割成单独的词,将连续数字段替换为一特殊字符,将连续字母段保留作为一词汇,每段对话分别标注通话发起人的角色,构建层次注意力网络模型,对预处理后的每个词进行序列建模,对通话进行用户投诉风险概率的预测,并使用模型中的注意力机制的权重进行可视化展示。
CN202110934606.2A 2021-08-16 基于通话文本的语义分析方法、装置和系统 Active CN113657118B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110934606.2A CN113657118B (zh) 2021-08-16 基于通话文本的语义分析方法、装置和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110934606.2A CN113657118B (zh) 2021-08-16 基于通话文本的语义分析方法、装置和系统

Publications (2)

Publication Number Publication Date
CN113657118A true CN113657118A (zh) 2021-11-16
CN113657118B CN113657118B (zh) 2024-05-14

Family

ID=

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116595990A (zh) * 2023-05-18 2023-08-15 保利物业服务股份有限公司 一种物业投诉电话通话处理方法及系统

Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102081667A (zh) * 2011-01-23 2011-06-01 浙江大学 基于Base64编码的中文文本分类方法
CN108628822A (zh) * 2017-03-24 2018-10-09 阿里巴巴集团控股有限公司 无语义文本的识别方法及装置
US20180341395A1 (en) * 2017-05-23 2018-11-29 Servicenow, Inc. Transactional Conversation-Based Computing System
CN111145718A (zh) * 2019-12-30 2020-05-12 中国科学院声学研究所 一种基于自注意力机制的中文普通话字音转换方法
CN111198848A (zh) * 2020-01-03 2020-05-26 南京领行科技股份有限公司 一种分布式文件访问方法、系统、服务器和存储介质
CN111354333A (zh) * 2018-12-21 2020-06-30 中国科学院声学研究所 一种基于自注意力的汉语韵律层级预测方法及系统
CN111553155A (zh) * 2020-04-29 2020-08-18 上海交通大学 基于语义结构的口令分词系统及方法
CN111695360A (zh) * 2020-06-15 2020-09-22 深圳追一科技有限公司 语义分析方法、装置、电子设备及存储介质
CN111813909A (zh) * 2020-06-24 2020-10-23 泰康保险集团股份有限公司 一种智能问答方法和装置
CN111862977A (zh) * 2020-07-27 2020-10-30 北京嘀嘀无限科技发展有限公司 一种语音对话处理方法和系统
US20200387570A1 (en) * 2019-06-05 2020-12-10 Fmr Llc Automated identification and classification of complaint-specific user interactions using a multilayer neural network
CN112131391A (zh) * 2020-11-25 2020-12-25 江苏电力信息技术有限公司 一种基于胶囊网络的供电服务客户诉求文本分类方法
CN112364623A (zh) * 2020-11-02 2021-02-12 安阳师范学院 基于Bi-LSTM-CRF的三位一体字标注汉语词法分析方法
CN112766990A (zh) * 2021-02-01 2021-05-07 北京邮电大学 基于多轮对话改进的智能客服辅助系统系统和方法
CN112818105A (zh) * 2021-02-05 2021-05-18 江苏实达迪美数据处理有限公司 一种融合上下文信息的多轮对话方法及系统
CN113064992A (zh) * 2021-03-22 2021-07-02 平安银行股份有限公司 投诉工单结构化处理方法、装置、设备及存储介质

Patent Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102081667A (zh) * 2011-01-23 2011-06-01 浙江大学 基于Base64编码的中文文本分类方法
CN108628822A (zh) * 2017-03-24 2018-10-09 阿里巴巴集团控股有限公司 无语义文本的识别方法及装置
US20180341395A1 (en) * 2017-05-23 2018-11-29 Servicenow, Inc. Transactional Conversation-Based Computing System
CN111354333A (zh) * 2018-12-21 2020-06-30 中国科学院声学研究所 一种基于自注意力的汉语韵律层级预测方法及系统
US20200387570A1 (en) * 2019-06-05 2020-12-10 Fmr Llc Automated identification and classification of complaint-specific user interactions using a multilayer neural network
CN111145718A (zh) * 2019-12-30 2020-05-12 中国科学院声学研究所 一种基于自注意力机制的中文普通话字音转换方法
CN111198848A (zh) * 2020-01-03 2020-05-26 南京领行科技股份有限公司 一种分布式文件访问方法、系统、服务器和存储介质
CN111553155A (zh) * 2020-04-29 2020-08-18 上海交通大学 基于语义结构的口令分词系统及方法
CN111695360A (zh) * 2020-06-15 2020-09-22 深圳追一科技有限公司 语义分析方法、装置、电子设备及存储介质
CN111813909A (zh) * 2020-06-24 2020-10-23 泰康保险集团股份有限公司 一种智能问答方法和装置
CN111862977A (zh) * 2020-07-27 2020-10-30 北京嘀嘀无限科技发展有限公司 一种语音对话处理方法和系统
CN112364623A (zh) * 2020-11-02 2021-02-12 安阳师范学院 基于Bi-LSTM-CRF的三位一体字标注汉语词法分析方法
CN112131391A (zh) * 2020-11-25 2020-12-25 江苏电力信息技术有限公司 一种基于胶囊网络的供电服务客户诉求文本分类方法
CN112766990A (zh) * 2021-02-01 2021-05-07 北京邮电大学 基于多轮对话改进的智能客服辅助系统系统和方法
CN112818105A (zh) * 2021-02-05 2021-05-18 江苏实达迪美数据处理有限公司 一种融合上下文信息的多轮对话方法及系统
CN113064992A (zh) * 2021-03-22 2021-07-02 平安银行股份有限公司 投诉工单结构化处理方法、装置、设备及存储介质

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
KESONG LIU等: "Product Related Information Sentiment-Content Analysis Based on Convolutional Neural Networks for the Chinese Micro-Blog", 2016 INTERNATIONAL CONFERENCE ON NETWORK AND INFORMATION SYSTEMS FOR COMPUTERS, 12 June 2017 (2017-06-12), pages 357 *
刘全超等: "面向中文微博的评价对象与评价词语联合抽取", 电子学报, vol. 44, no. 7, 15 July 2016 (2016-07-15), pages 1662 *
刘雨心等: "基于分层注意力机制的神经网络垃圾评论检测模型", 计算机应用, vol. 38, no. 11, pages 3063 *
曹湘;李誉坤;钱叶;闫晨阳;杨忠光;: "基于混合神经网络的电力短文本分类方法研究", 计算机与数字工程, vol. 47, no. 05, 20 May 2019 (2019-05-20), pages 1145 *
郭勇等: "结合改进Bi-LSTM和CNN的文本情感分析", 信息技术, no. 2, 25 February 2021 (2021-02-25), pages 50 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116595990A (zh) * 2023-05-18 2023-08-15 保利物业服务股份有限公司 一种物业投诉电话通话处理方法及系统

Similar Documents

Publication Publication Date Title
US11676067B2 (en) System and method for creating data to train a conversational bot
US11507756B2 (en) System and method for estimation of interlocutor intents and goals in turn-based electronic conversational flow
US10909328B2 (en) Sentiment adapted communication
US10740380B2 (en) Incremental discovery of salient topics during customer interaction
AU2021322785B2 (en) Communication content tailoring
US11258902B2 (en) Partial automation of text chat conversations
US20230162051A1 (en) Method, device and apparatus for execution of automated machine learning process
US11188193B2 (en) Method and system for generating a prioritized list
CN113268610B (zh) 基于知识图谱的意图跳转方法、装置、设备及存储介质
CN111651996A (zh) 摘要生成方法、装置、电子设备及存储介质
US20230244855A1 (en) System and Method for Automatic Summarization in Interlocutor Turn-Based Electronic Conversational Flow
US20200219489A1 (en) Intelligent facilitation of communications
CN111858878B (zh) 从自然语言文本中自动提取答案的方法、系统及存储介质
CN116235177A (zh) 与通过使用相关联的样本话语的已知意图从对话数据挖掘意图来进行机器人创作相关的系统和方法
CN111930914A (zh) 问题生成方法和装置、电子设备以及计算机可读存储介质
US20230237276A1 (en) System and Method for Incremental Estimation of Interlocutor Intents and Goals in Turn-Based Electronic Conversational Flow
US20220207234A1 (en) Context Aware Personalization
CN113918710A (zh) 文本数据处理方法、装置、电子设备和可读存储介质
US20200364304A1 (en) Automatic evaluation of artificial intelligence-based processes
CN113657118B (zh) 基于通话文本的语义分析方法、装置和系统
US20220207384A1 (en) Extracting Facts from Unstructured Text
CN112506405B (zh) 一种基于互联网监管领域的人工智能语音大屏指挥方法
CN113657118A (zh) 基于通话文本的语义分析方法、装置和系统
US11113081B2 (en) Generating a video for an interactive session on a user interface
US11227127B2 (en) Natural language artificial intelligence topology mapping for chatbot communication flow

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: Rooms 1601 and 1602, 16th floor, No. 52, North Fourth Ring West Road, Haidian District, Beijing 100080

Applicant after: Good Feeling Health Industry Group Co.,Ltd.

Address before: Rooms 1601 and 1602, 16th floor, No. 52, North Fourth Ring West Road, Haidian District, Beijing 100080

Applicant before: BEIJING HAOXINQING MOBILE MEDICAL TECHNOLOGY CO.,LTD.

GR01 Patent grant