CN114064873A - 保险领域faq知识库构建方法、装置及电子设备 - Google Patents
保险领域faq知识库构建方法、装置及电子设备 Download PDFInfo
- Publication number
- CN114064873A CN114064873A CN202111354977.XA CN202111354977A CN114064873A CN 114064873 A CN114064873 A CN 114064873A CN 202111354977 A CN202111354977 A CN 202111354977A CN 114064873 A CN114064873 A CN 114064873A
- Authority
- CN
- China
- Prior art keywords
- answers
- conversation
- pairs
- answer
- similar
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/027—Frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/08—Insurance
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Finance (AREA)
- Accounting & Taxation (AREA)
- Software Systems (AREA)
- Human Computer Interaction (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- Technology Law (AREA)
- General Business, Economics & Management (AREA)
- Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
Abstract
本申请公开一种保险领域FAQ知识库构建方法、装置及电子设备,通过从保险领域客户与顾问的会话文本中抽取问题答案对和/或异议答案对得到会话对,并对会话对中的答案进行质量排序处理及基于预设质量条件的会话对滤除处理,最终构建包括符合质量条件的保险领域FAQ知识库。在对抽取的会话对中的答案进行质量排序处理时,对会话对中的相似会话对,通过相似会话对中的问题或异议控制答案质量排序结果。本申请通过构建FAQ知识库并通过相似会话对中的问题或异议控制答案质量排序结果,为分析客户问题及异议提供了支撑,能够有效缩短保险顾问解决客户疑问时间并提升解决客户疑问的精准度,相应可达到辅助公司运营,制定更好的营销策略的目的。
Description
技术领域
本申请属于保险与人工智能领域,尤其涉及一种保险领域FAQ(Frequently AskedQuestions,常见问题解答)知识库构建方法、装置及电子设备。
背景技术
保险作为规避风险的一种手段,近年来逐渐被大众所熟知,市面保险产品玲琅满目,由于保险产品专业性较强,特别地像长期险或者年金险等险种,普通消费者更多地会通过相应保险顾问去了解具体产品,保险顾问也随之扮演着越来越重要的角色,为有效促进销售转化要求保险顾问能够精准解决客户问题和疑虑。
然而,保险顾问每天面临不同的客户,不同客户存在不同方面的问题或疑虑,加之保险产品的强专业性特征及其伴随的保险顾问成长速度较为缓慢等各方面因素,均为保险顾问精准解决客户问题和疑虑带来了挑战。由此,通过技术手段缩短保险顾问解决客户疑问时间、提升解决客户疑问的精准度,相应达到辅助公司运营,制定更好的营销策略的目的,成为该领域亟需解决的技术问题。
发明内容
有鉴于此,本申请提供一种保险领域FAQ知识库构建方法、装置及电子设备,通过针对保险领域客户问题或异议进行知识库构建,为分析客户问题及异议提供支撑,以缩短保险顾问解决客户疑问时间并提升精准度,相应达到辅助公司运营,制定更好的营销策略的目的。
具体技术方案如下:
一种保险领域FAQ知识库构建方法,包括:
获取保险领域客户与顾问的会话文本;
从所述会话文本中抽取问题及与问题匹配的答案,和/或,抽取异议及与异议匹配的答案,得到包括问题答案对和/或异议答案对的会话对;
对抽取的会话对中的答案进行质量排序处理,得到答案质量排序结果;其中,对所述会话对中的相似会话对,通过相似会话对中的问题或异议控制答案质量排序结果;
基于所述答案质量排序结果,滤除所述会话对中答案质量不符合预设质量条件的会话对,并构建包括未被滤除会话对的保险领域FAQ知识库。
可选的,所述从所述会话文本中抽取问题及与问题匹配的答案,包括:
利用预先构建的句式识别模型对所述会话文本中的客户语句进行句式预测,得到指示客户语句为疑问句或非疑问句的句式预测结果;
筛选句式预测结果为疑问句的客户语句作为问题;
将问题在所述会话文本中对应的顾问第一次连续会话内容作为问题的答案,得到问题答案对;
所述抽取异议及与异议匹配的答案,包括:
利用预先构建的异议模型对所述会话文本中的客户语句进行内容预测,得到表征客户语句的内容存在异议或未存在异议的内容预测结果;
提取内容预测结果表征存在异议的客户异议语句;
将客户异议语句在所述会话文本中对应的顾问会话内容作为客户异议语句的答案,得到异议答案对。
可选的,所述对抽取的会话对中的答案进行质量排序处理,得到答案质量排序结果,包括:
基于预设聚类算法对抽取的会话对进行聚类处理,得到多组不同的相似会话对;
确定相似会话对中不同问题或异议对不同答案的影响程度;
基于相似会话对中不同问题或异议对不同答案的影响程度,对相似会话对中的答案及其匹配的问题或异议进行特征交互,得到答案对应的交互特征;
对答案对应的交互特征与答案所属组的相似会话对中其他答案的答案特征进行融合处理,得到相似会话对中答案对应的融合特征。
基于相似会话对中各答案分别对应的融合特征,对相似会话对中各答案进行质量排序处理。
可选的,所述确定相似会话对中不同问题或异议对不同答案的影响程度,基于相似会话对中不同问题或异议对不同答案的影响程度,对相似会话对中的答案及其匹配的问题或异议进行特征交互,得到答案对应的交互特征,包括:
对相似会话对中的不同问题或异议进行编码处理,得到问题向量或异议向量;对相似会话对中的不同答案进行编码处理,得到答案向量;
利用以下计算式分别计算相似会话对中不同问题或异议对不同答案的影响程度及答案对应的融合问题向量:
g(QE)=softmax(W*QE)
其中,W∈Rn*n表示权重映射矩阵,n*n表示所述矩阵的矩阵维度,R表示维度符号,n表示相似会话对中的问题及异议数,softmax为概率归一化函数,g(QE)∈Rn*1表示相似会话对中不同问题或异议对答案的权重分布,用于衡量相似会话对中不同问题或异议对不同答案的影响程度;att_QEi表示第i个答案对应的融合问题向量;
将相似会话对中的不同答案分别对应的答案向量及融合问题向量进行交互处理,得到不同答案分别对应的交互特征。
可选的,所述对答案对应的交互特征与答案所属组的相似会话对中其他答案的答案特征进行融合处理,得到相似会话对中答案对应的融合特征,包括:
对相似会话对中不同答案分别对应的交互特征进行均值计算处理,得到排序融合向量;
将排序融合向量串联至相似会话对中每个答案的交互特征,得到相似会话对中每个答案对应的融合特征。
可选的,通过预先训练的多源答案质量排序模型对答案进行质量排序处理;
其中,所述多源答案质量排序模型为:通过将伪答案质量标签作为模型训练标签训练得到的模型;所述伪答案质量标签为基于预定业务规则对各组相似会话对中的答案进行质量评估所生成的质量标签。
可选的,在基于预设聚类算法对抽取的会话对进行聚类处理之前,所述方法还包括:
基于预设的过滤规则,滤除所抽取的会话对中的低质量会话对,以对滤除低质量会话对后所得的会话对进行聚类处理。
可选的,在所述对相似会话对中各答案进行质量排序处理之前,所述方法还包括:
提取相似会话对在保险领域对应的预定统计特征,以结合所述预定统计特征对相似会话对中的各答案进行质量排序处理。
一种保险领域FAQ知识库构建装置,包括:
文本获取单元,用于获取保险领域客户与顾问的会话文本;
会话对抽取单元,用于从所述会话文本中抽取问题及与问题匹配的答案,和/或,抽取异议及与异议匹配的答案,得到包括问题答案对和/或异议答案对的会话对;
质量排序处理单元,用于对抽取的会话对中的答案进行质量排序处理,得到答案质量排序结果;其中,对所述会话对中的相似会话对,通过相似会话对中的问题或异议控制答案质量排序结果;
知识库构建单元,用于基于所述答案质量排序结果,滤除所述会话对中答案质量不符合预设质量条件的会话对,并构建包括未被滤除会话对的保险领域FAQ知识库。
一种电子设备,包括:
存储器,用于存放计算机指令集;
处理器,用于通过执行存储器上存放的指令集,实现如上文任一项所述的保险领域FAQ知识库构建方法。
相较于传统技术,本申请具有以下有益效果:
本申请提供的保险领域FAQ知识库构建方法、装置及电子设备,通过获取保险领域客户与顾问的会话文本,从会话文本中抽取问题及与问题匹配的答案和/或抽取异议及与异议匹配的答案得到会话对,并对会话对中的答案进行质量排序处理及基于预设质量条件的会话对过滤处理,最终构建包括符合质量条件的未被滤除会话对的保险领域FAQ知识库。其中,在对抽取的会话对中的答案进行质量排序处理时,对会话对中的相似会话对,通过相似会话对中的问题或异议控制答案质量排序结果。
从而,本申请提出并实现了一种将保险领域问题答案对和/或异议答案对作为知识对的FAQ知识库构建方案,通过构建保险领域FAQ知识库为分析客户问题及异议提供支撑,并且,在构建FAQ知识库时,通过相似会话对中的问题或异议控制相似会话对中答案的质量排序结果,使得在答案质量排序中融入相似会话对中的问题或异议体现的上下文特征,进一步提高了答案质量排序性能,便于进一步构建得到包括高质量会话对的FAQ知识库,为缩短保险顾问解决客户疑问时间并提升解决客户疑问提供了基础,相应可达到辅助公司运营,制定更好的营销策略的目的。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1是本申请提供的保险领域FAQ知识库构建方法流程图;
图2是本申请提供的句式识别模型的训练框架;
图3是本申请提供的多源答案质量排序模型的模型结构图;
图4是本申请提供的对答案进行质量排序处理的流程图;
图5是本申请提供的保险领域FAQ知识库构建装置的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
申请人研究发现,目前保险行业已存在一些类型的知识库,这些知识库为普遍构建的保险产品知识图谱,主要集中在保险产品侧,保险顾问能够通过该知识库搜索具体保险产品的基本信息,例如最高保额,所属保险公司等,然而这些类型的知识库仅针对保险产品进行了构建,未涉及到客户问题或异议的知识库构建,无法用于分析客户问题及异议。并且这些知识库为量级小的人工构建的知识库,难以完成保险领域知识的大规模知识库构建。
由此,本申请公开一种保险领域FAQ知识库构建方法、装置及电子设备,以解决上述技术问题。
本申请公开的保险领域FAQ知识库构建方法的处理过程如图1所示,具体包括:
步骤101、获取保险领域客户与顾问的会话文本。
首先获取保险顾问与客户沟通时的对话文本,作为数据基础。
具体的,获取的对话文本,一部分作为训练样本用于相关模型(如,后文涉及的句式识别模型、异议模型、多源答案质量排序模型等)的训练,另一部分则作为模型的预测样本使用,以最终构建所需的FAQ知识库。
以下通过表1提供获取的对话文本的具体示例:
表1
步骤102、从会话文本中抽取问题及与问题匹配的答案,和/或,抽取异议及与异议匹配的答案,得到包括问题答案对和/或异议答案对的会话对。
本申请实施例预先构建有问答对抽取器和异议对抽取器,分别用于抽取会话文本中的问题答案对和异议答案对,其中,客户异议不同于客户问题,客户异议具体指在沟通过程中客户对保险公司或销售平台产品存在不信任导致影响成交,保险顾问相应需解答客户异议以促进成交。
问答对抽取器包括句式识别模型,该句式识别模型具体为二分类句式识别模型,用于对会话文本中的客户语句进行句式标签预测,预测的标签为:疑问句或非疑问句。
结合参见图2示出的句式识别模型的训练框架,二分类句式识别模型的训练过程包括:
11)人工标注会话文本中的客户说话内容,标记为疑问句或非疑问句,针对非客户内容,则标记为空,如下表所示:
表2
角色 | 内容 | 标签 |
客户 | 你好 | 非疑问句 |
客户 | 我想问一下什么是现金价值? | 疑问句 |
顾问 | 您好!所谓保单的现金价值,就是 | 空 |
客户 | 喔喔,原来是这样 | 非疑问句 |
12)对步骤11)中的客户角色内容进行自定义分词并去除停用词;
其中,具体可添加自定义词典以能够有效对特定领域的词汇进行分词,自定义词典可选择具体领域下的业务热词,分词示例如下:
表3
原始语句 | 分词后 |
我想问一下什么是现金价值? | 我,想,问一下,什么,是,现金价值,? |
13)利用步骤12)中的标注样本训练二分类句式识别模型。
其中,可以但不限于选择FastText,TextCNN等框架训练二分类句式识别模型。
异议对抽取器包括异议模型,相类似,异议模型具体为二分类异议模型,用于对会话文本中的客户语句进行存在异议与否的内容预测,预测的标签为:异议或非异议。
二分类异议模型的训练过程包括:
21)人工标注会话文本中客户说话内容的内容标签,包括异议和非异议;
具体示例如下表所示:
表4
内容 | 标签 |
我想看下这款产品。 | 非异议 |
但是觉得小的保险公司不怎么靠谱 | 异议 |
我更相信线下的保险公司 | 异议 |
22)利用已标注样本进行二分类异议模型训练。
二分类异议模型的训练,同样可以但不限于采用FastText,TextCNN等框架。
基于预先构建的问答对抽取器和异议对抽取器,对于获取的保险顾问与客户沟通时的对话文本(如其中的预测样本),可进一步利用问答对抽取器从中抽取客户的问题答案对,利用异议对抽取器从中抽取客户的异议答案对,得到会话文本对应的会话对,也即,本申请实施例将问题答案对和异议答案对统称为会话对。
具体的,利用问答对抽取器从会话文本中抽取问题答案对的过程,可进一步实现为:
31)利用问答对抽取器中的句式识别模型对会话文本中的客户语句进行句式预测,得到指示客户语句为疑问句或非疑问句的句式预测结果;
32)筛选句式预测结果为疑问句的客户语句作为问题;
33)将问题在会话文本中对应的顾问第一次连续会话内容作为问题的答案,得到问题答案对。
如表1的示例中,具体可将索引4与索引5指示的顾问会话内容合并,并作为索引3指示的客户问题的答案,相应得到问题答案对,示例如下:
表5
问题 | 答案 |
现金价值指的是什么? | 对应答案 |
医疗险和重疾险的区别是什么? | 对应答案 |
利用异议对抽取器从会话文本中抽取异议答案对的过程,可进一步实现为:
41)利用预先构建的异议模型对会话文本中的客户语句进行内容预测,得到表征客户语句的内容存在异议或未存在异议的内容预测结果;
42)提取内容预测结果表征存在异议的客户异议语句;
43)将客户异议语句在会话文本中对应的顾问会话内容作为客户异议语句的答案,得到异议答案对。
以下通过表6提供异议答案对的具体示例:
表6
步骤103、对抽取的会话对中的答案进行质量排序处理,得到答案质量排序结果;其中,对所述会话对中的相似会话对,通过相似会话对中的问题或异议控制答案质量排序结果。
申请人研究发现,由于保险顾问与客户沟通对话偏向口语化,简单的将客户问题或异议下顾问说话内容作为答案,会存在大量低质量回答,进而导致构建的知识库知识对存在冗余并且质量较低,无法达到实际使用效果。针对该情况,本实施例进一步提出对抽取的会话对中的答案进行质量排序处理,以便于筛选出高质量会话对作为构建知识库时的知识对。
具体的,本申请实施提出多源答案质量排序模型,并基于该模型对抽取的会话对中的答案进行质量排序处理。
多源答案质量排序模型可通过以下处理过程构建:
一、规则过滤会话对
该基于规则过滤会话对的步骤为可选步骤。
由于FAQ知识对均来源于保险顾问与客户沟通时的会话文本,存在大量无意义文本,因此优选的,本实施例首先采用预设的规则逻辑对抽取的会话对进行过滤,具体步骤如下:
51)过滤问题/异议和回答无重复词汇的会话对;
首先,利用开源分词工具(如,jieba)对知识库中的会话对进行分词,若问题或异议与答案无重复词,则剔除该会话对。
52)过滤回答中仍然存在疑问的回答;
利用上文提供的句式识别模型或异议模型对问题或异议对应的答案进行句式/内容预测,若答案对应的预测标签为疑问句或异议句,则剔除该会话对。
53)过滤答案中明显无意义文本,例如:嗯,啊。
二、相似会话对聚合
通过规则过滤后所得的会话对仍存在大量相似问题,为了进一步减小冗余,提高后期使用效率,针对保险垂直领域,本申请基于预定聚类算法如singlepass将会话对聚类为多组不同的相似会话对,如下所示;
表7
三、伪答案质量标签
当前答案质量判断严格依赖人工标注会话对质量,而不同的人对答案质量存在不同的判断标准。自动从沟通文本中抽取的答案未经过严格人工校正,质量参差不齐,为了尽可能地减少人工干预,本申请提出一种基于业务角度生成答案质量伪标签的方法,具体如下:
61)将从会话文本中提取并聚类的每组相似会话对中的各会话对区分为来自于成交单或非成交单;
62)由于成交单中沟通所提取的会话对能够间接反映顾问答案对成交有促进作用,因此本实施例将每组相似会话对中成交单中顾问或销售当月成交转化率>R1且顾问/销售级别>S1的答案质量类别定义为:“好”;
63)N个月内沟通但未成交单中沟通所提取的顾问或销售当月成交转化率<R2且顾问/销售级别<S2的答案质量类别定义为“普通”;
生成的伪标签如下表所示:
表8
需要说明是,以上基于业务角度生成答案质量伪标签时,所采用的规则仅为本申请的一个示例,实施中,可根据需求进行答案质量伪标签生成规则的灵活设定。
四、多源答案质量排序模型训练
当前质量评估方法单纯地通过人工标注答案质量类别,训练答案质量模型。该方法如上文所述,严重依赖人工标注的质量标签,并且将统一建模不同会话对的答案质量,并未充分考虑到相似会话对中不同答案间的质量顺序;基于此,本申请提出一种基于相似会话对的条件控制答案质量排序模型,即多源答案质量排序模型。
步骤三对每组相似会话对中的各会话对生成的伪标签虽然无法作为精准标签,在生成的伪标签中既包含“好”类别标签,也有可能包含“普通”类别标签,但随着从成交单中提取的会话对达到一定数量后,某种质量标签如“好”标签将占据主导,可当做答案质量排序模型的训练标签进行模型训练。
通过训练所构建的多源答案质量排序模型的模型结构如图3所示,具体包括:答案编码模块(encoder)、条件控制模块(Gate)、交互模块(interaction)和答案排序(context-ranking)模块,以下将通过利用该多源答案质量排序模型对抽取的会话对中的答案进行质量排序处理的过程,对各模块功能进行说明。
基于本申请实施例提出的多源答案质量排序模型,参见图4,该步骤103(对抽取的会话对中的答案进行质量排序处理),可进一步实现为:
步骤401、基于预设聚类算法对抽取的会话对进行聚类处理,得到多组不同的相似会话对。
具体可以但不限于基于singlepass等聚类算法,将用于作为预测样本的会话对聚类为多组不同的相似会话对,且可选的,在聚类处理之前,还可以基于上文提供的规则过滤方式,对作为预测样本的会话对进行过滤处理。
步骤402、确定相似会话对中不同问题或异议对不同答案的影响程度;基于相似会话对中不同问题或异议对不同答案的影响程度,对相似会话对中的答案及其匹配的问题或异议进行特征交互,得到答案对应的交互特征。
申请人研究发现,可以从相似会话对中的不同问题信息进行信息挖掘来作为上下文特征辅助提升答案质量排序的准确性,且申请人研究发现,相似会话对中不同答案的侧重回答不同,基于此,为了更全面、精准的评价答案质量,本实施例提出充分建模相似会话对下问题/异议文本,通过相似会话对中的问题/异议来控制相似会话对中不同答案的质量排序结果。
首先,在条件控制模块将每组相似会话对中的不同问题编码为对应的问题向量QE1,QE2,...,QEn,编码如下:
QEi=encoder(Qi) (1)
式(1)中,encoder具体可以是但不限于BERT、XLNet等预训练模型结构。得到的相似问题向量组(QE1,QE2,...,QEn)用于作为门控装置控制相似会话对中不同答案的质量排序结果。
之后,引入权重映射矩阵W∈Rn*n,计算相似会话对中不同问题对不同答案的影响程度,并计算相似会话对中不同答案分别对应的融合问题向量,具体计算如下:
g(QE)=softmax(W*QE) (2)
式(2)-(3)中,W∈Rn*n表示权重映射矩阵,n*n表示所述矩阵的矩阵维度,R表示维度符号,n表示相似问答对中的问题及异议数,softmax为概率归一化函数,g(QE)∈Rn*1表示相似会话对中不同问题或异议对答案的权重分布,用于衡量相似会话对中不同问题或异议对不同答案的影响程度;att_QEi表示第i个答案对应的融合问题向量。
在此基础上,将相似会话对中的不同答案分别对应的答案向量及融合问题向量进行交互处理,得到不同答案分别对应的交互特征。
具体的,交互模块主要用于对相似会话对中的问题和答案进行特征交互,相应可利用交互模块将答案向量与其对应的融合问题向量进行交互,在答案编码向量基础上加上融合匹配的问题向量,得到相似会话对中的不同答案分别对应的交互特征F_AQEi,可表示为[fi1,...,fin]。交互处理具体如下:
步骤403、对答案对应的交互特征与答案所属组的相似会话对中其他答案的答案特征进行融合处理,得到相似会话对中答案对应的融合特征。
步骤404、基于相似会话对中各答案分别对应的融合特征,对相似会话对中各答案进行质量排序处理。
当前排序方法主要有基于poist-wise,pair-wise和list-wise等方法,基于point-wise和基于pair-wise排序方法无法充分融入全部文档信息,基于list-wise方法存在计算复杂问题,本申请为了进一步充分融入相似会话对提供的潜在上下文特征,提出一种排序特征融合方法,使得相似会话对中不同答案间排序时进一步引入答案间的相互交互,其中,相似会话对中不同答案间排序时进一步引入的答案间的相互交互,即指步骤403的对答案对应的交互特征与答案所属组相似会话对中其他答案的答案特征进行融合处理。
其中,对答案对应的交互特征与答案所处相似会话对中其他答案的答案特征进行融合处理,可进一步实现为:对相似会话对中不同答案分别对应的交互特征进行均值计算处理,得到排序融合向量,并将排序融合向量串联至相似会话对中每个答案的交互特征,得到相似会话对中每个答案对应的融合特征。
具体的,首先将F_AQE1,...,F_AQEn特征向量(即,相似会话对中不同答案对应的交互特征)求平均得到排序融合向量FM_AQE,表征融合向量为[fm1,...,fmn],该向量能够代表相似会话对不同特征,并将该向量串联至F_AQE1,...,F_AQEn各向量上,串联后的答案向量融入了所属组相似会话对中其他答案的特征,表征为[f1,...,fn,fm1,...,fmn],相应得到相似会话对中每个答案对应的融合特征。
以下对特征向量间的串联处理进行具体说明:
假设一个向量为[1,2,3],另一个向量为[3,4,5],则将两者串联后得到串联向量[1,2,3,3,4,5]。
在此基础上,利用答案排序模块根据相似会话对中每个答案对应的融合特征,对各个答案进行质量排序处理。由于在排序阶段为答案融合了所属组的上下文向量,从而本申请的该排序方法能够进一步提高各答案的质量排序性能。
步骤104、基于所述答案质量排序结果,滤除所述会话对中答案质量不符合预设质量条件的会话对,并构建包括未被滤除会话对的保险领域FAQ知识库。
在对各组相似会话对中的不同答案进行质量排序的基础上,可进一步过滤掉不符合预设质量条件的会话对。预设质量条件可以但不限于设定为,质量预测置信度需达到设定的置信度阈值,或质量排名在top k范围内等(k为大于0的整数,可根据需求设置其具体取值)。
保险行业规定,网销保险需满足合规要求,顾问表述内容需要合规检测,顾问的回答需要通过合规检测,由此,可选的,还可以对会话对进行合规检测,若检测到违规会话对,则剔除该违规的会话对。
最终将满足质量条件(或,满足质量条件且合规)的各会话对作为知识库的知识对导入对应的知识库,以实现知识库构建。其中,可以采用不同的数据库作为知识载体来构建知识库。
另外,可选的,构建的知识库中除了包括满足要求的问题答案对/异议答案对等会话对,还可以包括相似会话对中不同答案的质量评估信息(如置信度数值,和/或质量排名等),以为保险顾问解决客户疑问时提供更丰富的参考作用。
综上所示,本申请实施例的方法,从而,本申请提出并实现了一种将保险领域问题答案对和/或异议答案对作为知识对的FAQ知识库构建方案,通过构建保险领域FAQ知识库为分析客户问题及异议提供支撑,并且,在构建FAQ知识库时,通过相似会话对中的问题或异议控制相似会话对中答案的质量排序结果,使得在答案质量排序中融入相似会话对中的问题或异议体现的上下文特征,进一步提高了答案质量排序性能,便于进一步构建得到包括高质量会话对的FAQ知识库,为缩短保险顾问解决客户疑问时间并提升解决客户疑问提供了基础,相应可达到辅助公司运营,制定更好的营销策略的目的。
可选的,在一实施例中,本申请的保险领域FAQ知识库构建方法,在对相似会话对中各答案进行质量排序处理之前,还可以包括:
提取相似会话对在保险领域对应的预定统计特征,以结合提取的预定统计特征对相似会话对中各答案进行质量排序处理。
为进一步提升答案质量判断的准确性,本实施例除了将答案特征(如,答案对应的融合特征)作为判断答案质量的特征外,还提出基于保险销售领域业务,加入特定统计特征参与质量判断。
针对保险领域,引入的统计特征包括但不限于:
a、保险顾问级别:可结合特定业务下的顾问级别定义;
b、对话性别:性别男或女;
需要说明的是,虽然理论上很难将男、女不同性别的可信程度/权重作区别设置,使得基于性别特征对答案质量的判断产生不同影响,然而对于特定领域如保险领域,不同性别可能仍存在潜在的细微差别(如,亲和度、给人的主观可信度感受)致使对答案质量的判断产生一定影响,鉴于此,本实施例引入对话性别作为一个辅助特征(非主要区分特征),参与模型训练及基于已训练模型对相似会话中不同答案的质量排序处理。
本实施例通过基于保险销售领域业务,引入特定统计特征参与对相似会话对中不同答案的质量排序处理,尽可能从多方面、多维度挖掘了影响答案质量评估的潜在因素,可进一步提升最终的答案质量排序结果的精准度。
对应于上述的保险领域FAQ知识库构建方法,本申请实施例还公开一种保险领域FAQ知识库构建装置,如图5所示,该装置包括:
文本获取单元501,用于获取保险领域客户与顾问的会话文本;
会话对抽取单元502,用于从所述会话文本中抽取问题及与问题匹配的答案,和/或,抽取异议及与异议匹配的答案,得到包括问题答案对和/或异议答案对的会话对;
质量排序处理单元503,用于对抽取的会话对中的答案进行质量排序处理,得到答案质量排序结果;其中,对所述会话对中的相似会话对,通过相似会话对中的问题或异议控制答案质量排序结果;
知识库构建单元504,用于基于所述答案质量排序结果,滤除所述会话对中答案质量不符合预设质量条件的会话对,并构建包括未被滤除会话对的保险领域FAQ知识库。
在一实施方式中,会话对抽取单元502,在从所述会话文本中抽取问题及与问题匹配的答案时,具体用于:
利用预先构建的句式识别模型对所述会话文本中的客户语句进行句式预测,得到指示客户语句为疑问句或非疑问句的句式预测结果;
筛选句式预测结果为疑问句的客户语句作为问题;
将问题在所述会话文本中对应的顾问第一次连续会话内容作为问题的答案,得到问题答案对。
会话对抽取单元502,在从所述会话文本中抽取异议及与异议匹配的答案时,具体用于:
利用预先构建的异议模型对所述会话文本中的客户语句进行内容预测,得到表征客户语句的内容存在异议或未存在异议的内容预测结果;
提取内容预测结果表征存在异议的客户异议语句;
将客户异议语句在会话文本中对应的顾问会话内容作为客户异议语句的答案,得到异议答案对。
在一实施方式中,质量排序处理单元503,具体用于:
基于预设聚类算法对抽取的会话对进行聚类处理,得到多组不同的相似会话对;
确定相似会话对中不同问题或异议对不同答案的影响程度;
基于相似会话对中不同问题或异议对不同答案的影响程度,对相似会话对中的答案及其匹配的问题或异议进行特征交互,得到答案对应的交互特征;
对答案对应的交互特征与答案所属组的相似会话对中其他答案的答案特征进行融合处理,得到相似会话对中答案对应的融合特征。
基于相似会话对中各答案分别对应的融合特征,对相似会话对中各答案进行质量排序处理。
在一实施方式中,质量排序处理单元503,在确定相似会话对中不同问题或异议对不同答案的影响程度,基于相似会话对中不同问题或异议对不同答案的影响程度,对相似会话对中的答案及其匹配的问题或异议进行特征交互,得到答案对应的交互特征时,具体用于:
对相似会话对中的不同问题或异议进行编码处理,得到问题向量或异议向量;对相似会话对中的不同答案进行编码处理,得到答案向量;
利用以下计算式分别计算相似会话对中不同问题或异议对不同答案的影响程度及答案对应的融合问题向量:
g(QE)=softmax(W*QE)
其中,W∈Rn*n表示权重映射矩阵,n*n表示所述矩阵的矩阵维度,R表示维度符号,n表示相似会话对中的问题及异议数,softmax为概率归一化函数,g(QE)∈Rn*1表示相似会话对中不同问题或异议对答案的权重分布,用于衡量相似会话对中不同问题或异议对不同答案的影响程度;att_QEi表示第i个答案对应的融合问题向量;
将相似会话对中的不同答案分别对应的答案向量及融合问题向量进行交互处理,得到不同答案分别对应的交互特征。
在一实施方式中,质量排序处理单元503,在对答案对应的交互特征与答案所属组的相似会话对中其他答案的答案特征进行融合处理,得到相似会话对中答案对应的融合特征时,具体用于:
对相似会话对中不同答案分别对应的交互特征进行均值计算处理,得到排序融合向量;
将排序融合向量串联至相似会话对中每个答案的交互特征,得到相似会话对中每个答案对应的融合特征。
在一实施方式中,上述装置通过预先训练的多源答案质量排序模型对抽取的会话对中的答案进行质量排序处理;
其中,多源答案质量排序模型为:通过将伪答案质量标签作为模型训练标签训练得到的模型;所述伪答案质量标签为基于预定业务规则对各组相似会话对中的答案进行质量评估所生成的质量标签。
在一实施方式中,质量排序处理单元503,在基于预设聚类算法对抽取的会话对进行聚类处理之前,还用于:
基于预设的过滤规则,滤除所抽取的会话对中的低质量会话对,以对滤除低质量会话对后所得的会话对进行聚类处理。
在一实施方式中,质量排序处理单元503,在对相似会话对中各答案进行质量排序处理之前,还用于:
提取相似会话对在保险领域对应的预定统计特征,以结合所述预定统计特征对相似会话对中的各答案进行质量排序处理。
对于本申请实施例公开的保险领域FAQ知识库构建装置而言,由于其与上文方法实施例公开的保险领域FAQ知识库构建方法相对应,所以描述的比较简单,相关相似之处请参见上文相应方法实施例的说明即可,此处不再详述。
本申请实施例还公开一种电子设备,该电子设备具体包括:
存储器,用于存放计算机指令集;
计算机指令集可以通过计算机程序的形式实现。
处理器,用于通过执行计算机指令集,实现如上文任一方法实施例公开的保险领域FAQ知识库构建方法。
处理器可以为中央处理器(Central Processing Unit,CPU),特定应用集成电路(application-specific integrated circuit,ASIC),数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件等。
除此之外,电子设备还可以包括通信接口、通信总线等组成部分。存储器、处理器和通信接口通过通信总线完成相互间的通信。
通信接口用于电子设备与其他设备之间的通信。通信总线可以是外设部件互连标准(Peripheral Component Interconnect,PCI)总线或扩展工业标准结构(ExtendedIndustry Standard Architecture,EISA)总线等,该通信总线可以分为地址总线、数据总线、控制总线等。
另外,本申请实施例还公开一种存储介质,该存储介质内存储有计算机指令集,所存储的计算机指令集在运行时能用于实现如上文任一方法实施例公开的保险领域FAQ知识库构建方法。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
为了描述的方便,描述以上系统或装置时以功能分为各种模块或单元分别描述。当然,在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。
最后,还需要说明的是,在本文中,诸如第一、第二、第三和第四等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅是本申请的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。
Claims (10)
1.一种保险领域FAQ知识库构建方法,其特征在于,包括:
获取保险领域客户与顾问的会话文本;
从所述会话文本中抽取问题及与问题匹配的答案,和/或,抽取异议及与异议匹配的答案,得到包括问题答案对和/或异议答案对的会话对;
对抽取的会话对中的答案进行质量排序处理,得到答案质量排序结果;其中,对所述会话对中的相似会话对,通过相似会话对中的问题或异议控制答案质量排序结果;
基于所述答案质量排序结果,滤除所述会话对中答案质量不符合预设质量条件的会话对,并构建包括未被滤除会话对的保险领域FAQ知识库。
2.根据权利要求1所述的方法,其特征在于,所述从所述会话文本中抽取问题及与问题匹配的答案,包括:
利用预先构建的句式识别模型对所述会话文本中的客户语句进行句式预测,得到指示客户语句为疑问句或非疑问句的句式预测结果;
筛选句式预测结果为疑问句的客户语句作为问题;
将问题在所述会话文本中对应的顾问第一次连续会话内容作为问题的答案,得到问题答案对;
所述抽取异议及与异议匹配的答案,包括:
利用预先构建的异议模型对所述会话文本中的客户语句进行内容预测,得到表征客户语句的内容存在异议或未存在异议的内容预测结果;
提取内容预测结果表征存在异议的客户异议语句;
将客户异议语句在所述会话文本中对应的顾问会话内容作为客户异议语句的答案,得到异议答案对。
3.根据权利要求1所述的方法,其特征在于,所述对抽取的会话对中的答案进行质量排序处理,得到答案质量排序结果,包括:
基于预设聚类算法对抽取的会话对进行聚类处理,得到多组不同的相似会话对;
确定相似会话对中不同问题或异议对不同答案的影响程度;
基于相似会话对中不同问题或异议对不同答案的影响程度,对相似会话对中的答案及其匹配的问题或异议进行特征交互,得到答案对应的交互特征;
对答案对应的交互特征与答案所属组的相似会话对中其他答案的答案特征进行融合处理,得到相似会话对中答案对应的融合特征;
基于相似会话对中各答案分别对应的融合特征,对相似会话对中各答案进行质量排序处理。
4.根据权利要求3所述的方法,其特征在于,所述确定相似会话对中不同问题或异议对不同答案的影响程度,基于相似会话对中不同问题或异议对不同答案的影响程度,对相似会话对中的答案及其匹配的问题或异议进行特征交互,得到答案对应的交互特征,包括:
对相似会话对中的不同问题或异议进行编码处理,得到问题向量或异议向量;对相似会话对中的不同答案进行编码处理,得到答案向量;
利用以下计算式分别计算相似会话对中不同问题或异议对不同答案的影响程度及答案对应的融合问题向量:
g(QE)=softmax(W*QE)
其中,W∈Rn*n表示权重映射矩阵,n*n表示所述矩阵的矩阵维度,R表示维度符号,n表示相似会话对中的问题及异议数,softmax为概率归一化函数,g(QE)∈Rn*1表示相似会话对中不同问题或异议对答案的权重分布,用于衡量相似会话对中不同问题或异议对不同答案的影响程度;att_QEi表示第i个答案对应的融合问题向量;
将相似会话对中的不同答案分别对应的答案向量及融合问题向量进行交互处理,得到不同答案分别对应的交互特征。
5.根据权利要求4所述的方法,其特征在于,所述对答案对应的交互特征与答案所属组的相似会话对中其他答案的答案特征进行融合处理,得到相似会话对中答案对应的融合特征,包括:
对相似会话对中不同答案分别对应的交互特征进行均值计算处理,得到排序融合向量;
将排序融合向量串联至相似会话对中每个答案的交互特征,得到相似会话对中每个答案对应的融合特征。
6.根据权利要求5所述的方法,其特征在于,通过预先训练的多源答案质量排序模型对答案进行质量排序处理;
其中,所述多源答案质量排序模型为:通过将伪答案质量标签作为模型训练标签训练得到的模型;所述伪答案质量标签为基于预定业务规则对各组相似会话对中的答案进行质量评估所生成的质量标签。
7.根据权利要求3所述的方法,其特征在于,在基于预设聚类算法对抽取的会话对进行聚类处理之前,还包括:
基于预设的过滤规则,滤除所抽取的会话对中的低质量会话对,以对滤除低质量会话对后所得的会话对进行聚类处理。
8.根据权利要求3所述的方法,其特征在于,在所述对相似会话对中各答案进行质量排序处理之前,还包括:
提取相似会话对在保险领域对应的预定统计特征,以结合所述预定统计特征对相似会话对中的各答案进行质量排序处理。
9.一种保险领域FAQ知识库构建装置,其特征在于,包括:
文本获取单元,用于获取保险领域客户与顾问的会话文本;
会话对抽取单元,用于从所述会话文本中抽取问题及与问题匹配的答案,和/或,抽取异议及与异议匹配的答案,得到包括问题答案对和/或异议答案对的会话对;
质量排序处理单元,用于对抽取的会话对中的答案进行质量排序处理,得到答案质量排序结果;其中,对所述会话对中的相似会话对,通过相似会话对中的问题或异议控制答案质量排序结果;
知识库构建单元,用于基于所述答案质量排序结果,滤除所述会话对中答案质量不符合预设质量条件的会话对,并构建包括未被滤除会话对的保险领域FAQ知识库。
10.一种电子设备,其特征在于,包括:
存储器,用于存放计算机指令集;
处理器,用于通过执行存储器上存放的指令集,实现如权利要求1-8任一项所述的保险领域FAQ知识库构建方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111354977.XA CN114064873A (zh) | 2021-11-16 | 2021-11-16 | 保险领域faq知识库构建方法、装置及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111354977.XA CN114064873A (zh) | 2021-11-16 | 2021-11-16 | 保险领域faq知识库构建方法、装置及电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114064873A true CN114064873A (zh) | 2022-02-18 |
Family
ID=80272660
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111354977.XA Pending CN114064873A (zh) | 2021-11-16 | 2021-11-16 | 保险领域faq知识库构建方法、装置及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114064873A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115168564A (zh) * | 2022-09-07 | 2022-10-11 | 平安银行股份有限公司 | 一种对话挖掘方法、装置、电子设备及介质 |
-
2021
- 2021-11-16 CN CN202111354977.XA patent/CN114064873A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115168564A (zh) * | 2022-09-07 | 2022-10-11 | 平安银行股份有限公司 | 一种对话挖掘方法、装置、电子设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Desai et al. | Techniques for sentiment analysis of Twitter data: A comprehensive survey | |
CN109783639B (zh) | 一种基于特征提取的调解案件智能分派方法及系统 | |
CN108363790A (zh) | 用于对评论进行评估的方法、装置、设备和存储介质 | |
CN107092596A (zh) | 基于attention CNNs和CCR的文本情感分析方法 | |
CN109255027B (zh) | 一种电商评论情感分析降噪的方法和装置 | |
US11386354B2 (en) | Information processing apparatus, information processing method, and program | |
CN110175229B (zh) | 一种基于自然语言进行在线培训的方法和系统 | |
CN111581966A (zh) | 一种融合上下文特征方面级情感分类方法和装置 | |
CN106202584A (zh) | 一种基于标准词典和语义规则的微博情感分析方法 | |
CN107818173B (zh) | 一种基于向量空间模型的中文虚假评论过滤方法 | |
CN110019758B (zh) | 一种核心要素提取方法、装置及电子设备 | |
CN111462752A (zh) | 基于注意力机制、特征嵌入及bi-lstm的客户意图识别方法 | |
JP2018025874A (ja) | テキスト解析装置及びプログラム | |
CN111651606A (zh) | 一种文本处理方法、装置及电子设备 | |
CN117493513A (zh) | 一种基于向量和大语言模型的问答系统及方法 | |
CN110399473A (zh) | 为用户问题确定答案的方法和装置 | |
KR101326313B1 (ko) | 컨텍스트 정보를 이용한 다중 문장으로부터의 감정 분류 방법 | |
CN115600605A (zh) | 一种中文实体关系联合抽取方法、系统、设备及存储介质 | |
CN112287240A (zh) | 基于双嵌入多层卷积神经网络的案件微博评价对象抽取方法及装置 | |
CN110782221A (zh) | 一种面试智能评测系统及方法 | |
CN110232328A (zh) | 一种征信报告解析方法、装置及计算机可读存储介质 | |
CN114064873A (zh) | 保险领域faq知识库构建方法、装置及电子设备 | |
CN114118062A (zh) | 客户特征提取方法、装置、电子设备及存储介质 | |
CN118133820A (zh) | 一种政务数据资源名称检测方法、系统、设备及介质 | |
CN110969005A (zh) | 一种确定实体语料之间的相似性的方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |