CN116561287A - 一种基于深度语义学习的智能客服实现方法及系统 - Google Patents
一种基于深度语义学习的智能客服实现方法及系统 Download PDFInfo
- Publication number
- CN116561287A CN116561287A CN202310838313.3A CN202310838313A CN116561287A CN 116561287 A CN116561287 A CN 116561287A CN 202310838313 A CN202310838313 A CN 202310838313A CN 116561287 A CN116561287 A CN 116561287A
- Authority
- CN
- China
- Prior art keywords
- question
- answer
- similarity
- customer service
- answer pair
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 36
- 238000011156 evaluation Methods 0.000 claims description 29
- 238000012549 training Methods 0.000 claims description 23
- 238000012546 transfer Methods 0.000 claims description 14
- 230000001960 triggered effect Effects 0.000 claims description 13
- 239000013598 vector Substances 0.000 claims description 12
- 238000004364 calculation method Methods 0.000 claims description 8
- 238000012360 testing method Methods 0.000 claims description 7
- 238000012545 processing Methods 0.000 claims description 6
- 238000012407 engineering method Methods 0.000 claims description 5
- 230000011218 segmentation Effects 0.000 claims description 5
- 238000000605 extraction Methods 0.000 claims description 4
- 238000013145 classification model Methods 0.000 claims description 3
- 238000005516 engineering process Methods 0.000 description 6
- 230000005540 biological transmission Effects 0.000 description 4
- 239000002131 composite material Substances 0.000 description 3
- 230000008676 import Effects 0.000 description 3
- 238000012423 maintenance Methods 0.000 description 3
- 238000007781 pre-processing Methods 0.000 description 3
- 230000001360 synchronised effect Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 230000003213 activating effect Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/01—Customer relationship services
- G06Q30/015—Providing customer assistance, e.g. assisting a customer within a business location or via helpdesk
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Business, Economics & Management (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Accounting & Taxation (AREA)
- General Business, Economics & Management (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Finance (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- Human Computer Interaction (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种基于深度语义学习的智能客服实现方法及系统,基于问答对数据库,以及,根据深度算法学习模型构建的标签分类器,对用户输入的检索问题提供最佳答案。在问答对数据库中不存在最佳答案时,采用深度算法问答工具获取答案发送至人工客服,并将用户转接入人工客服,使用户能够通过人工客服获得答案。本发明提供的方法能够显著提升服务的有效性以及用户体验。
Description
技术领域
本发明属于自然语言处理和工业自动化技术领域,具体涉及一种基于深度语义学习的智能客服实现方法及系统。
背景技术
近年来,随着人工智能技术的发展,人机对话技术得到越来越多的关注,各领域的相关产品也不断涌现。其中,智能客服作为人机对话的一个典型场景表现出极大的商业潜力和很强的研究价值。FAQ问答技术作为智能客服系统最核心技术之一,在智能客服系统中发挥重要作用。通过该技术,可实现在知识库中快速找到与用户问题相匹配的问答,为用户提供满意的答案,从而极大提升客服人员效率,改善客服人员服务化水平,降低企业客服成本。
采用了问答技术的问答系统目前被大量使用在电商、金融、社会治理、工业制造等行业中。但现阶段的AI问答系统功能都存在很大的局限性,主要存在回答信息有误(答非所问),回答信息冗余(抓不住关键,不够简洁)、无客服兜底等问题。由于这些问题的困扰,导致了用户体验感较差,使用频率和用户数量大大降低,无法满足日益增长的用户问答需求。
发明内容
本发明提供了一种基于深度语义学习的智能客服实现方法及系统,以解决现有技术中由于回答信息有误、冗余,导致用户体验较差的问题。
为了解决上述技术问题,本发明公开了如下技术方案:
本发明的一个方面提供一种基于深度语义学习的智能客服实现方法,包括:
构建问答对数据库,所述问答对数据库包含多组问答对数据,每组问答对数据中均包含问题和答案;
基于问答对数据库,采用深度算法学习模型建立标签分类器,所述标签分类器能够确定问题和答案的分类标签;
根据用户输入的检索问题,判断是否触发转人工客服的条件,
如果是,将用户转接入人工客服;
如果否,提取检索问题中的关键词,并且,利用标签分类器确定检索问题的分类标签;
根据检索问题的关键词和分类标签,判断问答对数据库中是否存在最佳答案,
如果是,向用户输出最佳答案;
如果否,将检索问题输入预设的深度算法问答工具中获取对应的答案,并将检索问题和对应的答案发送至人工客服;
判断是否接收到人工客服发送的转接信息,
如果是,将用户转接入人工客服。
可选地,所述根据用户输入的检索问题,判断是否触发转人工客服的条件,包括:
利用错别词校验器对检索问题进行校验;
采用LAC分词器对校验后的检索问题进行分词,并去除停用词;
对剩余的分词进行组合,获得检索问题对应的文本数据;
判断文本数据中包含的汉字数量是否不超过10,且文本数据中包含预设的转人工关键词,
如果是,确认触发转人工客服条件。
可选地,所述提取检索问题中的关键词,并且,利用标签分类器确定检索问题的分类标签,包括:
使用预设的深度算法问答工具对检索问题的文本数据进行关键词提取,获取检索关键词列表;
根据文本数据和检索关键词列表,基于标签分类器获取检索问题的分类标签。
可选地,所述根据检索问题的关键词和分类标签,判断问答对数据库中是否存在最佳答案,包括:
利用标签分类器确定问答对数据库中,每一组问答对数据对应的分类标签;
利用关键词提取技术对问答对数据库中,所有问答对数据的问题和答案进行关键词提取,获得问题关键词和答案关键词;
根据问题、问题关键词和分类标签,利用ES检索,计算在问答对数据库中,与检索问题具有相同分类标签的问答对数据与检索问题之间的相似度得分;
选取相似度得分最高的前预设数量组问答对数据作为相似问答对;
判断是否存在相似度得分超过预设阈值的相似问答对,
如果是,将相似度得分最高的一组相似问答对中的答案作为最佳答案。
可选地,在不存在相似度得分超过预设阈值的相似问答对时,所述方法包括:
基于特征工程方法,分别对每个相似问答对进行综合相似度计算,获得综合相似度得分;
判断是否存在综合相似度得分超过最高阈值的相似问答对,
如果是,将综合相似度得分最高的相似问答对中的答案作为最佳答案;
如果否,判断是否存在综合相似度得分超过最低阈值的相似问答对,
如果存在综合相似度得分超过最低阈值的相似问答对,将综合相似度得分最高的5个相似问答对中的问题作为模糊匹配结果展示给用户,并根据用户的选择输出对应答案。
可选地,所述基于特征工程方法,分别对每个相似问答对进行综合相似度计算,获得综合相似度得分,包括:
针对每个相似问答对,均采用以下方式计算词性相似度、问题关键词相似度、答案关键词相似度、问句长度相似度和编码相似度:
(1)采用以下方式计算词性相似度:
采用LAC词性标注工具获取检索问题文本数据的词性列表;
将检索问题文本数据的词性列表排序成自然数序列;
获取在问答对数据库中与检索问题具有相同分类标签,且问题与所述文本数据具有相同词性的集合,所述集合中各词性的值为文本数据的自然数序列中对应词性的值;
按照以下公式分别计算每个相似问答对中问题的词性相似度:
;
其中,为预设数量n个相似问答对中,第i个问题的最大逆序数,/>为所述集合的逆序数;
(2)采用以下公式计算问题关键词相似度:
;
其中,kw1是检索问题的文本数据中非重复关键词的个数,是第i个相似问答对中,问题包含所述文本数据中关键词的个数;
(3)采用以下公式计算答案关键词相似度:
;
其中,kw1是检索问题的文本数据中非重复关键词的个数,是第i个相似问答对中,答案包含所述文本数据中关键词的个数;
(4)按照以下公式计算问句长度相似度:
;
其中,len1是检索问题文本数据的长度,是第i个相似问答对中问题的长度;
(5)按照以下公式计算编码相似度:
;
其中,encode1是检索问题文本数据的Bert编码向量,是第i个相似问答对中问题的Bert编码向量;
基于每个相似问答对的词性相似度、问题关键词相似度、答案关键词相似度、问句长度相似度和编码相似度,按照以下公式计算每个相似问答对的综合相似度得分:
;
其中,权重系数,且/>,权重系数的初始值为预设值;sim为综合相似度得分。
可选地,所述基于问答对数据库,采用深度算法学习模型建立标签分类器,包括:
按照以下方式建立初始的标签分类器:
针对每个问答对数据,均基于相似度算法计算问题关键词、答案关键词与预设分类标签的相似度,具体计算公式如下:
;
其中,simQ为问题关键词和预设分类标签的相似度值,simA为答案关键词和预设分类标签的相似度值,embQ和embA分别是问题关键词和答案关键词的bertSim词嵌入向量,embC是预设分类标签的bertSim词嵌入向量;
按照以下公式,获取每个问答对数据与每个分类标签的相似度值simC:
;
其中, 和/> 分别为预设的权重值;
针对每个问答对数据,均将对应最大simC的分类标签作为所述问答对数据的分类标签;
利用问答对数据库中的数据,设置训练集和测试集,其中,问题和问题关键词均作为训练数据;
基于训练集和测试集,采用Bert文本分类模型进行训练,在模型准确率超过预设阈值时停止训练,得到标签分类器。
可选地,所述方法还包括:
在向用户输出答案之后,判断是否接收到用户输入的评价信息,所述评价信息包括有用和无用两种类型,
如果是,在评价信息为有用时,将检索问题和对应的答案存储在问答对数据库中;
在评价信息为无用时,将检索问题加入未知问题列表;
判断问答对数据库中新增加问答对数据的数量是否超过预设训练数量,
如果是,利用新增加的问答对数据重新训练标签分类器。
可选地,所述方法还包括:
建立人工客服数据库,所述人工客服数据库中包含多个样本,每个样本均至少包括客服姓名和领域评价;
在人工客服的服务结束后,判断是否接收到用户发送的服务满意度信息,
如果是,在对应所述人工客服的样本中,更新领域评价。
本发明的另一个方面提供一种基于深度语义学习的智能客服系统,包括:
问答对数据集模块,用于构建问答对数据库,所述问答对数据库包含多组问答对数据,每组问答对数据中均包含问题和答案;
标签分类器模块,用于基于问答对数据库,采用深度算法学习模型建立标签分类器,所述标签分类器能够确定问题和答案的分类标签;
判断及处理模块,用于根据用户输入的检索问题,判断是否触发转人工客服的条件,在触发转人工客服的条件时,将用户转接入人工客服;在未触发转人工客服的条件时,提取检索问题中的关键词,并且,利用标签分类器确定检索问题的分类标签;
最佳答案判断模块,用于根据检索问题的关键词和分类标签,判断问答对数据库中是否存在最佳答案,
最佳答案输出模块,用于在存在最佳答案时,向用户输出最佳答案;
答案获取模块,用于在不存在最佳答案时,将检索问题输入预设的深度算法问答工具中获取对应的答案,并将检索问题和对应的答案发送至人工客服;
所述判断及处理模块,还用于判断是否接收到人工客服发送的转接信息,如果是,将用户转接入人工客服。
本发明提供的基于深度语义学习的智能客服实现方法及系统,基于问答对数据库,以及,根据深度算法学习模型构建的标签分类器,对用户输入的检索问题提供最佳答案,在问答对数据库中不存在最佳答案时,采用深度算法问答工具获取对应的答案发送至人工客服,并将用户转接入人工客服,使用户能够通过人工客服获得答案。本发明提供的方法能够显著提升服务的有效性以及用户体验。
附图说明
图1为本发明实施例的一种基于深度语义学习的智能客服实现方法的流程示意图;
图2为本发明一实施例的一种实现图1中步骤S103的流程示意图;
图3为本发明一实施例的一种实现图1中步骤S105的流程示意图;
图4为本发明一实施例的一种实现图1中步骤S106的流程示意图;
图5为本发明实施例的另一种基于深度语义学习的智能客服实现方法的流程示意图;
图6为本发明实施例的另一种基于深度语义学习的智能客服实现方法的流程示意图;
图7为本发明实施例的一种基于深度语义学习的智能客服系统的结构示意图。
具体实施方式
为使本领域技术人员更好地理解本发明的技术方案,下面结合附图和具体实施方式对本发明作进一步详细描述。
图1为本发明实施例公开的一种基于深度语义学习的智能客服实现方法的流程示意图,如图1所示,该方法包括以下步骤:
步骤S101:构建问答对数据库。
问答对数据库包含多组问答对数据,每组问答对数据中均包含问题和答案。
在本发明公开的一个具体实施例中,一个问答对数据中可以包含以下内容:问题、答案、相似问题、标注状态(0:未标注,1:已标注,默认值0)、发布时间、发布(关联)单位、一级标签、二级标签、问题关键词、答案关键词、所属行业、地域、来源等。
在采集样本时,可采用多渠道多方式,例如,设计预处理规则利用ETL工具做文本预处理,转化为设计好的数据格式存入问答对数据库。主要来源渠道和方式包括:线下文件批量导入、线上逐条录入(根据预设的数据格式进行数据填写并提交上传)、数字厂牌同步导入(自动同步关联数字厂牌相关资料和故障维修单)、客服工单自动导入(自动同步客服工单)、利用爬虫工具自动同步外网相关问答对数据。
步骤S102:基于问答对数据库,采用深度算法学习模型建立标签分类器。
标签分类器能够确定问题和答案的分类标签。
在本发明公开的一个实施例中,可采用以下方式建立标签分类器。
首先,按照以下方式建立初始的标签分类器:
针对每个问答对数据,均基于相似度算法计算问题关键词、答案关键词与预设分类标签的相似度。
在本发明后续公开的实施例中,利用关键词提取技术,例如keyBert工具,对问答对数据库中,所有问答对数据的问题和答案进行关键词提取,获得问题关键词和答案关键词,并且,将问题关键词和答案关键词存储在问答对数据库对应的样本数据中。
利用bertSim算法,分别计算问题关键词、答案关键词和预设的分类标签的相似度,在本发明公开的具体实施例中,分类标签可以包括一级标签和二级标签,例如,一级标签(大类)有:故障维修、使用说明、维护保养、检查检测、产品(设备)介绍、企业资料、行业动态,二级标签(子类:以产品(设备)介绍为例)有:发电机、变压器、电线电缆、电工器材、开关、灯具、插座、断路器、传动装置、控制器、传感器、逆变器、电池板等。
具体计算公式如下:
;
其中,simQ为问题关键词和预设分类标签的相似度值,simA为答案关键词和预设分类标签的相似度值,embQ和embA分别是问题关键词和答案关键词的bertSim词嵌入向量,embC是预设分类标签的bertSim词嵌入向量。
按照以下公式,获取每个问答对数据与每个分类标签的相似度值simC:
;
其中,和/>分别为预设的权重值。
针对每个问答对数据,均将对应最大simC的分类标签作为问答对数据的分类标签,并将分类标签存储在问答对数据库对应的样本数据中。
利用问答对数据库中的数据,设置训练集和测试集,其中,将问题和问题关键词均作为输入数据,将分类标签作为输出变量。
在本发明公开的一个具体实施例中,基于所有样本中问答对数据与对应分类标签的相似度值,将相似度值simC由大至小进行排列,令排列中前m1个较大的相似度值所对应的样本作为训练样本,问答对数据库中剩余的样本m2作为测试集。
基于训练集和测试集,采用Bert文本分类模型进行训练,预先设置预期准确率目标为P1,在模型准确率超过预设阈值P1时停止训练,将得到的模型作为标签分类器,若模型准确率未超过预设阈值,则人工重新标注训练集中错误的分类标签,并重新训练模型,直至模型准确率超过预设阈值。
在本发明公开的另一个实施例中,用户输入检索问题后,首先判断当前是否已经处于激活人工客服的状态,如果已经激活,则继续进行人工客服的服务,若未激活,则执行步骤S103。
步骤S103:根据用户输入的检索问题,判断是否触发转人工客服的条件。
在本发明公开的实施例中,如图2所示,可采用以下子步骤,判断是否触发转人工客服的条件。
步骤S1031:利用错别词校验器对检索问题进行校验。
步骤S1032:采用LAC分词器对校验后的检索问题进行分词,并去除停用词。
步骤S1033:对剩余的分词进行组合,获得检索问题对应的文本数据。
步骤S1034:判断文本数据中包含的汉字数量是否不超过10,且文本数据中包含预设的转人工关键词。
例如,预设的转人工关键词可以为:“人工”,“客服”,“不要机器人”等类似的词汇。
如果文本数据中包含的汉字数量不超过10,且文本数据中包含预设的转人工关键词,则确认触发转人工客服条件。
如果文本数据中包含的汉字数量超过10,或者,文本数据中不包含预设的转人工关键词,则确认未触发转人工客服条件,继续执行步骤S105。
在本发明公开的另一个实施例中,当出现以下情形也将自动触发转人工客服的条件:
用户连续5次输入的检索问题均为同一个问题,则提醒用户是否需要转人工服务,若用户确认需要,则触发转人工客服的条件。
在本发明公开的另一个实施例中,当出现以下情形则触发关闭人工客服的条件:
预先设置最大无会话消息时长阈值t1,当无会话消息传输时长超过t1时则关闭人工客服。
或者,当出现会话窗口关闭或人工客服完成会话主动关闭窗口时直接触发关闭人工客服的条件。
如果触发转人工客服的条件,则执行步骤S104。
步骤S104:将用户转接入人工客服。
由人工客服为用户直接服务。
如果未触发转人工客服的条件,则执行步骤S105。
步骤S105:提取检索问题中的关键词,并且,利用标签分类器确定检索问题的分类标签。
在本发明公开的一个实施例中,如图3所示,可采用以下子步骤完成步骤S105。
步骤S1051:使用预设的深度算法问答工具对检索问题的文本数据进行关键词提取,获取检索关键词列表。
在本发明公开的一个实施例中,采用预设的深度算法问答工具,对检索问题进行关键词提取,获取检索关键词列表记。
步骤S1052:根据文本数据和检索关键词列表,基于标签分类器获取检索问题的分类标签。
将前述实施例中获得的检索问题的文本数据,以及步骤S1051中获取的检索关键词列表,输入预先设置的标签分类器,根据标签分类器的输出确定检索问题的分类标签。
步骤S106:根据检索问题的关键词和分类标签,判断问答对数据库中是否存在最佳答案。
在本发明公开的实施例中,如图4所示,可采用以下子步骤完成步骤S106。
步骤S1061:利用标签分类器确定问答对数据库中,每一组问答对数据所对应的分类标签。
将问答对数据库中每个样本的问题和答案,输入至标签分类器中,根据输出的数据确定每个样本中问题和答案对应的分类标签。
步骤S1062:利用关键词提取技术对问答对数据库中,所有问答对数据的问题和答案进行关键词提取,获得问题关键词和答案关键词。
在本发明公开的实施例中,可采用深度算法问答工具,提取所有问答对数据中问题和答案的关键词,从而获得每个问答对数据对应的问题关键词和答案关键词。
步骤S1063:根据问题、问题关键词和分类标签,利用ES检索,计算在问答对数据库中,与检索问题具有相同分类标签的问答对数据与检索问题之间的相似度得分。
获知检索问题的分类标签后,在问答对数据库中,确定具有相同分类标签的样本,并根据这些具有相同分类标签样本中的问题和问题关键词,基于ES检索分别计算与检索问题之间的相似度得分。
步骤S1064:选取相似度得分最高的前预设数量组问答对数据作为相似问答对。
在获知与检索问题具有相同分类标签样本的相似度得分后,选取相似度得分最高的前预设数量n个样本,将这些样本的问答对数据作为与检索问题最相近的相似问答对。
步骤S1065:判断是否存在相似度得分超过预设阈值的相似问答对。
在这n个相似问答对中,判断是否存在相似度得分超过预设阈值的相似问答对。
如果存在相似度得分超过预设阈值的相似问答对,则将相似度得分最高的一组相似问答对中的答案作为最佳答案。
如果不存在相似度得分超过预设阈值的相似问答对,如图4所示,则执行以下步骤:
步骤S601:基于特征工程方法,分别对每个相似问答对进行综合相似度计算,获得综合相似度得分。
在本发明公开的实施例中,可采用以下方式计算综合相似度得分:
针对每个相似问答对,均计算词性相似度、问题关键词相似度、答案关键词相似度、问句长度相似度和编码相似度:
(1)采用以下方式计算词性相似度:
采用LAC词性标注工具获取检索问题文本数据的词性列表;
将检索问题文本数据的词性列表排序成自然数序列;
获取在问答对数据库中与检索问题具有相同分类标签,且问题与文本数据具有相同词性的集合,集合中各词性的值为文本数据的自然数序列中对应词性的值;
按照以下公式分别计算每个相似问答对中问题的词性相似度:
;
其中,为预设数量n个相似问答对中,第i个问题的最大逆序数,/>为集合的逆序数;
(2)采用以下公式计算问题关键词相似度:
;
其中,kw1是检索问题的文本数据中非重复关键词的个数,是第i个相似问答对中,问题包含文本数据中关键词的个数;
(3)采用以下公式计算答案关键词相似度:
;
其中,kw1是检索问题的文本数据中非重复关键词的个数,是第i个相似问答对中,答案包含文本数据中关键词的个数;
(4)按照以下公式计算问句长度相似度:
;
其中,len1是检索问题文本数据的长度,是第i个相似问答对中问题的长度;
(5)按照以下公式计算编码相似度:
;
其中,encode1是检索问题文本数据的Bert编码向量,是第i个相似问答对中问题的Bert编码向量;
基于每个相似问答对的词性相似度、问题关键词相似度、答案关键词相似度、问句长度相似度和编码相似度,按照以下公式计算每个相似问答对的综合相似度得分:
;
其中,权重系数,/>,权重系数的初始值为预设值;sim为综合相似度得分。
步骤S602:判断是否存在综合相似度得分超过最高阈值的相似问答对。
预先设置最高阈值和最低阈值,用于划分相似问答对与检索问题之间相似的程度。若存在综合相似度得分sim大于最高阈值的相似问答对,则执行步骤S603。
步骤S603:将综合相似度得分最高的相似问答对中的答案作为最佳答案。
如果不存在综合相似度得分超过最高阈值的相似问答对,则执行步骤S604。
步骤S604:判断是否存在综合相似度得分超过最低阈值的相似问答对。
如果存在综合相似度得分超过最低阈值且低于最高阈值的相似问答对,则执行步骤S605。
步骤S605:将综合相似度得分最高的5个相似问答对中的问题作为模糊匹配结果展示给用户,并根据用户的选择输出对应答案。
当用户在模糊匹配结果中选择一个或多个时,将对应的答案输出给用户进行浏览。如果不存在综合相似度得分超过最低阈值的相似问答对,则执行步骤S108。
在执行以上步骤后,如果确定问答对数据库中存在最佳答案,执行步骤S107。
步骤S107:向用户输出最佳答案。
如果确定问答对数据库中不存在最佳答案,则执行步骤S108。
步骤S108:将检索问题输入预设的深度算法问答工具中获取对应的答案,并将检索问题和对应的答案发送至人工客服。
将检索问题加入未知问题列表,并调用预设的深度算法问答工具,获取与检索问题最匹配的通用答案,同时,将检索问题和深度算法问答工具的通用答案发送给人工客服。优先选择任务量最少的人工客服,其次选择在对应分类标签下综合得分最高的人工客服。
步骤S109:判断是否接收到人工客服发送的转接信息。
如果接收到人工客服发送的转接信息,则执行步骤S110。
步骤S110:将用户转接入人工客服。
如果未接收到人工客服发送到转接信息,则结束服务。
在本发明公开的另一个实施例中,如图5所示,前述实施例中的智能客服实现方法还包括以下步骤:
步骤S111:在向用户输出答案之后,判断是否接收到用户输入的评价信息。
在本发明公开的实施例中,可建立用户评价体系,每次向输出答案时,用户可对推荐的答案进行点击评价,评价信息包括有用和无用两种类型。
如果接收到用户输入的评价信息,执行步骤S112。
步骤S112:在评价信息为有用时,将检索问题和对应的答案存储在问答对数据库中。
在评价信息为无用时,将检索问题加入未知问题列表。
如果未接收到用户输入的评价信息,则不做任何操作。
步骤S113:判断问答对数据库中新增加问答对数据的数量是否超过预设训练数量。
在本发明公开实施例中,标签分类器采用自动迭代策略。预先设置一个预设训练数量h,每当问答对数据库中新增问答对数据的数量超过h时,则自动触发模型迭代优化策略。
如果问答对数据库中新增加问答对数据的数量超过预设训练数量,则执行步骤S114。
步骤S114:利用新增加的问答对数据重新训练标签分类器。
如果问答对数据库中新增加问答对数据的数量未超过预设训练数量,则继续判断问答对数据库中新增加问答对数据的数量是否超过预设训练数量。
在本发明公开的另一个实施例中,前述实施例中的智能客服实现方法针对未知问题列表中的每一个问题,均采用预设的深度算法问答工具获取答案,并利用标签分类器获取问题对应的分类标签,将问题、答案和分类标签作为一个样本存入问答对数据库。
在本发明公开的另一个实施例中,如图6所示,前述实施例中的智能客服实现方法还包括以下步骤:
步骤S115:建立人工客服数据库。
人工客服数据库中包含多个样本,每个样本均至少包括客服姓名和领域评价。
在本发明公开的一个具体实施例中,人工客服数据库中的每个样本均具包含以下数据:工号、姓名、擅长领域、领域评价、领域服务次数,其中,领域评价包含全部分类标签。
步骤S116:在人工客服的服务结束后,判断是否接收到用户发送到服务满意度信息。
在本发明公开的一个具体实施例中,服务满意度信息包括非常满意、满意、不满意。
如果接收到用户发送到服务满意度信息,则执行步骤S117。
步骤S117:在对应人工客服的样本中,更新领域评价。
在本发明公开的一个具体实施例中,可建立客服评价体系,当人工客服会话结束时,则向用户发送评价消息,用户可输入服务满意度信息。若用户输入的是非常满意,则该人工客服在领域评价对应检索问题的分类标签下的评价分增加2,若用户输入的是满意,则该人工客服在领域评价对应检索问题的分类标签下的评价分增加1,若用户输入的是不满意,则不做任何操作。
如果未接收到用户发送到服务满意度信息,则不做任何操作。
在本发明公开的另一个实施例中,前述实施例中的智能客服实现方法采用客服评价体系的自动迭代策略,每隔预设天数T便自动触发更新策略,重新计算人工客服人员的擅长领域。
在本发明公开的一个实施例中,可采用以下方式计算人工客服人员的擅长领域:
当且仅当人工客服人员在某个领域(即分类标签)的综合得分超过预设能力阈值s时,才会在对应擅长领域中增加相应分类标签并赋值,其中/>是人工客服人员在第j个领域下的综合得分,具体计算公式如下:
;
其中,L是标签的分类总数,是客服人员在第i个领域下的服务总次数,/>是人工客服人员在第j个领域下的服务总次数,/>是客服人员在第j个领域下的综合服务得分。
;
其中,L是标签的分类总数,是人工客服人员在第i个领域下的评价分,/>是人工客服人员在第j个领域下的的评价分,/>是人工客服人员在第j个领域下的综合评价得分。
;
其中, 、/>为预设值。
图7为本发明实施例公开的一种基于深度语义学习的智能客服系统的结构示意图,如图7所示,该系统包括以下模块:
问答对数据集模块11,被配置为构建问答对数据库,问答对数据库包含多组问答对数据,每组问答对数据中均包含问题和答案;
标签分类器模块12,被配置为基于问答对数据库,采用深度算法学习模型建立标签分类器,标签分类器能够确定问题和答案的分类标签;
判断及处理模块13,被配置为根据用户输入的检索问题,判断是否触发转人工客服的条件,在触发转人工客服的条件时,将用户转接入人工客服;在未触发转人工客服的条件时,提取检索问题中的关键词,并且,利用标签分类器确定检索问题的分类标签;
最佳答案判断模块14,被配置为根据检索问题的关键词和分类标签,判断问答对数据库中是否存在最佳答案,
最佳答案输出模块15,被配置为在存在最佳答案时,向用户输出最佳答案;
答案获取模块16,被配置为在不存在最佳答案时,将检索问题输入预设的深度算法问答工具中获取对应的答案,并将检索问题和对应的答案发送至人工客服;
判断及处理模块13,还被配置为判断是否接收到人工客服发送的转接信息,如果是,将用户转接入人工客服。
可以理解的是,以上实施方式仅仅是为了说明本发明的原理而采用的示例性实施方式,然而本发明并不局限于此。对于本领域内的普通技术人员而言,在不脱离本发明的精神和实质的情况下,可以做出各种变型和改进,这些变型和改进也视为本发明的保护范围。
Claims (10)
1.一种基于深度语义学习的智能客服实现方法,其特征在于,包括:
构建问答对数据库,所述问答对数据库包含多组问答对数据,每组问答对数据中均包含问题和答案;
基于问答对数据库,采用深度算法学习模型建立标签分类器,所述标签分类器能够确定问题和答案的分类标签;
根据用户输入的检索问题,判断是否触发转人工客服的条件,
如果是,将用户转接入人工客服;
如果否,提取检索问题中的关键词,并且,利用标签分类器确定检索问题的分类标签;
根据检索问题的关键词和分类标签,判断问答对数据库中是否存在最佳答案,
如果是,向用户输出最佳答案;
如果否,将检索问题输入预设的深度算法问答工具中获取对应的答案,并将检索问题和对应的答案发送至人工客服;
判断是否接收到人工客服发送的转接信息,
如果是,将用户转接入人工客服。
2.根据权利要求1所述的方法,其特征在于,所述根据用户输入的检索问题,判断是否触发转人工客服的条件,包括:
利用错别词校验器对检索问题进行校验;
采用LAC分词器对校验后的检索问题进行分词,并去除停用词;
对剩余的分词进行组合,获得检索问题对应的文本数据;
判断所述文本数据中包含的汉字数量是否不超过10,且文本数据中包含预设的转人工关键词,
如果是,确认触发转人工客服条件。
3.根据权利要求2所述的方法,其特征在于,所述提取检索问题中的关键词,并且,利用标签分类器确定检索问题的分类标签,包括:
使用预设的深度算法问答工具对检索问题的文本数据进行关键词提取,获取检索关键词列表;
根据文本数据和检索关键词列表,基于标签分类器获取检索问题的分类标签。
4.根据权利要求3所述的方法,其特征在于,所述根据检索问题的关键词和分类标签,判断问答对数据库中是否存在最佳答案,包括:
利用标签分类器确定问答对数据库中,每一组问答对数据对应的分类标签;
利用关键词提取技术对问答对数据库中,所有问答对数据的问题和答案进行关键词提取,获得问题关键词和答案关键词;
根据问题、问题关键词和分类标签,利用ES检索,计算在问答对数据库中,与检索问题具有相同分类标签的问答对数据与检索问题之间的相似度得分;
选取相似度得分最高的前预设数量组问答对数据作为相似问答对;
判断是否存在相似度得分超过预设阈值的相似问答对,
如果是,将相似度得分最高的一组相似问答对中的答案作为最佳答案。
5.根据权利要求4所述的方法,其特征在于,在不存在相似度得分超过预设阈值的相似问答对时,所述方法包括:
基于特征工程方法,分别对每个相似问答对进行综合相似度计算,获得综合相似度得分;
判断是否存在综合相似度得分超过最高阈值的相似问答对,
如果是,将综合相似度得分最高的相似问答对中的答案作为最佳答案;
如果否,判断是否存在综合相似度得分超过最低阈值的相似问答对,
如果存在综合相似度得分超过最低阈值的相似问答对,将综合相似度得分最高的5个相似问答对中的问题作为模糊匹配结果展示给用户,并根据用户的选择输出对应答案。
6.根据权利要求5所述的方法,其特征在于,所述基于特征工程方法,分别对每个相似问答对进行综合相似度计算,获得综合相似度得分,包括:
针对每个相似问答对,均采用以下方式计算词性相似度、问题关键词相似度、答案关键词相似度、问句长度相似度和编码相似度:
(1)采用以下方式计算词性相似度:
采用LAC词性标注工具获取检索问题文本数据的词性列表;
将检索问题文本数据的词性列表排序成自然数序列;
获取在问答对数据库中与检索问题具有相同分类标签,且问题与所述文本数据具有相同词性的集合,所述集合中各词性的值为文本数据的自然数序列中对应词性的值;
按照以下公式分别计算每个相似问答对中问题的词性相似度:
;
其中,为预设数量n个相似问答对中,第i个问题的最大逆序数,/>为所述集合的逆序数;
(2)采用以下公式计算问题关键词相似度:
;
其中,kw1是检索问题的文本数据中非重复关键词的个数,是第i个相似问答对中,问题包含所述文本数据中关键词的个数;
(3)采用以下公式计算答案关键词相似度:
;
其中,kw1是检索问题的文本数据中非重复关键词的个数,是第i个相似问答对中,答案包含所述文本数据中关键词的个数;
(4)按照以下公式计算问句长度相似度:
;
其中,len1是检索问题文本数据的长度,是第i个相似问答对中问题的长度;
(5)按照以下公式计算编码相似度:
;
其中,encode1是检索问题文本数据的Bert编码向量,是第i个相似问答对中问题的Bert编码向量;
基于每个相似问答对的词性相似度、问题关键词相似度、答案关键词相似度、问句长度相似度和编码相似度,按照以下公式计算每个相似问答对的综合相似度得分:
;
其中,权重系数,且/>,权重系数的初始值为预设值;sim为综合相似度得分。
7.根据权利要求6所述的方法,其特征在于,所述基于问答对数据库,采用深度算法学习模型建立标签分类器,包括:
按照以下方式建立初始的标签分类器:
针对每个问答对数据,均基于相似度算法计算问题关键词、答案关键词与预设分类标签的相似度,具体计算公式如下:
;
其中,simQ为问题关键词和预设分类标签的相似度值,simA为答案关键词和预设分类标签的相似度值,embQ和embA分别是问题关键词和答案关键词的bertSim词嵌入向量,embC是预设分类标签的bertSim词嵌入向量;
按照以下公式,获取每个问答对数据与每个分类标签的相似度值simC:
;
其中,和/>分别为预设的权重值;
针对每个问答对数据,均将对应最大simC的分类标签作为所述问答对数据的分类标签;
利用问答对数据库中的数据,设置训练集和测试集,其中,问题和问题关键词均作为训练数据;
基于训练集和测试集,采用Bert文本分类模型进行训练,在模型准确率超过预设阈值时停止训练,得到标签分类器。
8.根据权利要求1所述的方法,其特征在于,所述方法还包括:
在向用户输出答案之后,判断是否接收到用户输入的评价信息,所述评价信息包括有用和无用两种类型,
如果是,在评价信息为有用时,将检索问题和对应的答案存储在问答对数据库中;在评价信息为无用时,将检索问题加入未知问题列表;
判断问答对数据库中新增加问答对数据的数量是否超过预设训练数量,
如果是,利用新增加的问答对数据重新训练标签分类器。
9.根据权利要求1所述的方法,其特征在于,所述方法还包括:
建立人工客服数据库,所述人工客服数据库中包含多个样本,每个样本均至少包括客服姓名和领域评价;
在人工客服的服务结束后,判断是否接收到用户发送的服务满意度信息,
如果是,在对应所述人工客服的样本中,更新领域评价。
10.一种基于深度语义学习的智能客服系统,其特征在于,包括:
问答对数据集模块,用于构建问答对数据库,所述问答对数据库包含多组问答对数据,每组问答对数据中均包含问题和答案;
标签分类器模块,用于基于问答对数据库,采用深度算法学习模型建立标签分类器,所述标签分类器能够确定问题和答案的分类标签;
判断及处理模块,用于根据用户输入的检索问题,判断是否触发转人工客服的条件,在触发转人工客服的条件时,将用户转接入人工客服;在未触发转人工客服的条件时,提取检索问题中的关键词,并且,利用标签分类器确定检索问题的分类标签;
最佳答案判断模块,用于根据检索问题的关键词和分类标签,判断问答对数据库中是否存在最佳答案,
最佳答案输出模块,用于在存在最佳答案时,向用户输出最佳答案;
答案获取模块,用于在不存在最佳答案时,将检索问题输入预设的深度算法问答工具中获取对应的答案,并将检索问题和对应的答案发送至人工客服;
所述判断及处理模块,还用于判断是否接收到人工客服发送的转接信息,如果是,将用户转接入人工客服。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310838313.3A CN116561287B (zh) | 2023-07-10 | 2023-07-10 | 一种基于深度语义学习的智能客服实现方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310838313.3A CN116561287B (zh) | 2023-07-10 | 2023-07-10 | 一种基于深度语义学习的智能客服实现方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116561287A true CN116561287A (zh) | 2023-08-08 |
CN116561287B CN116561287B (zh) | 2023-09-22 |
Family
ID=87493231
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310838313.3A Active CN116561287B (zh) | 2023-07-10 | 2023-07-10 | 一种基于深度语义学习的智能客服实现方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116561287B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112527972A (zh) * | 2020-12-25 | 2021-03-19 | 东云睿连(武汉)计算技术有限公司 | 基于深度学习的智能客服聊天机器人实现方法和系统 |
CN114357127A (zh) * | 2021-11-19 | 2022-04-15 | 武汉科技大学 | 基于机器阅读理解及常用问题解答模型的智能问答方法 |
CN114416942A (zh) * | 2021-12-29 | 2022-04-29 | 南京视察者智能科技有限公司 | 一种基于深度学习的自动化问答方法 |
-
2023
- 2023-07-10 CN CN202310838313.3A patent/CN116561287B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112527972A (zh) * | 2020-12-25 | 2021-03-19 | 东云睿连(武汉)计算技术有限公司 | 基于深度学习的智能客服聊天机器人实现方法和系统 |
CN114357127A (zh) * | 2021-11-19 | 2022-04-15 | 武汉科技大学 | 基于机器阅读理解及常用问题解答模型的智能问答方法 |
CN114416942A (zh) * | 2021-12-29 | 2022-04-29 | 南京视察者智能科技有限公司 | 一种基于深度学习的自动化问答方法 |
Also Published As
Publication number | Publication date |
---|---|
CN116561287B (zh) | 2023-09-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111860882A (zh) | 一种电网调度故障处理知识图谱的构建方法及装置 | |
CN108491378B (zh) | 电力信息运维智能应答系统 | |
CN108304468A (zh) | 一种文本分类方法以及文本分类装置 | |
CN107918633B (zh) | 基于语义分析技术的敏感舆情内容识别方法和预警系统 | |
CN112419096B (zh) | 基于nlp信息萃取与少样本自学习的用户用电诉求工单自动流转方法 | |
CN110888973B (zh) | 一种监控信息表自动结构化梳理的方法 | |
CN111222330B (zh) | 一种中文事件的检测方法和系统 | |
CN111090730A (zh) | 智能语音调度系统及方法 | |
CN115409018B (zh) | 基于大数据的公司舆情监测系统及其方法 | |
CN111091002B (zh) | 一种中文命名实体的识别方法 | |
CN115129892A (zh) | 配电网故障处置知识图谱构建方法及装置 | |
CN113946657A (zh) | 一种基于知识推理的电力业务意图自动识别方法 | |
CN115878778A (zh) | 面向业务领域的自然语言理解方法 | |
CN115827886A (zh) | 电网一体化调度运行管理智能语音客服系统 | |
CN110674276A (zh) | 机器人自学习方法、机器人终端、装置及可读存储介质 | |
CN116561287B (zh) | 一种基于深度语义学习的智能客服实现方法及系统 | |
CN114398466A (zh) | 基于语义识别的投诉分析方法、装置、计算机设备及介质 | |
CN113591463A (zh) | 意图识别方法、装置、电子设备及存储介质 | |
CN112925895A (zh) | 自然语言软件运维方法及装置 | |
CN115905187A (zh) | 一种面向云计算工程技术人员认证的智能化命题系统 | |
CN115936001A (zh) | 基于BERT-BiLSTM-CRF模型和注意力的电网IT运维实体识别方法及系统 | |
CN105511612A (zh) | 一种基于语音/手势的多通道融合方法 | |
CN115358774A (zh) | 一种智慧客服机器人数据处理方法及系统 | |
CN115238077A (zh) | 基于人工智能的文本分析方法、装置、设备及存储介质 | |
CN109726286B (zh) | 一种基于lda主题模型的图书自动分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |