CN110263141A - 一种基于bert的客服问答系统 - Google Patents

一种基于bert的客服问答系统 Download PDF

Info

Publication number
CN110263141A
CN110263141A CN201910556777.9A CN201910556777A CN110263141A CN 110263141 A CN110263141 A CN 110263141A CN 201910556777 A CN201910556777 A CN 201910556777A CN 110263141 A CN110263141 A CN 110263141A
Authority
CN
China
Prior art keywords
module
way
put questions
bert
questions
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910556777.9A
Other languages
English (en)
Inventor
高凯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Weier Network Technology Co Ltd
Original Assignee
Hangzhou Weier Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Weier Network Technology Co Ltd filed Critical Hangzhou Weier Network Technology Co Ltd
Priority to CN201910556777.9A priority Critical patent/CN110263141A/zh
Publication of CN110263141A publication Critical patent/CN110263141A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Abstract

一种基于BERT的客服问答系统,属于数据计算技术领域,包括接收模块、预处理模块、意图模块和模板引擎模块;所述接收模块用于接收用户端提出的问题;所述预处理模块用于对接收到的问题进行处理;所述意图模块是用于对获取的问题的意图进行解析获取;所述模板引擎模块用于对获取的问题和标准问题进行匹配,获得问法;所述答案配置模块用于对系统提供的问法生成答案;本发明的系统采用BERT模型用于特征向量提取,并基于欧式距离的triplet loss函数进行监督,相比于采用二分类的cross entropy loss函数,这样产生的向量在计算相似度距离会更加自然合理,而对比常规的训练模型,triplet net同时训练正负样例,模型收敛更快;同时,系统中的数据为闭环状态,缩短修改周期,以及提高系统的准确性。

Description

一种基于BERT的客服问答系统
技术领域
本发明属于数据计算技术领域,特别涉及一种基于BERT的客服问答系统。
背景技术
自然语言处理(Nature Language Processing,NLP)是语言学、计算机科学、以及人工智能相互作用的领域。NLP是数据科学的一个分支,以一种智能与高效的方式,对文本数据进行系统化分析、理解与信息提取的过程。通过使用NLP及其组件,能够解决各式各样的文本问题,如文本相似度、自动摘要、机器翻译、命名实体识别、关系提取、情感分析以及主题分割等。
客服是一种解答顾客疑问,满足顾客合理诉求的职业。其形式以文字客服为主,如淘宝客服、京东客服等。客服是一种机械重复性高,人力密集型的工作。客服人员每天需要接收大量顾客的不同情绪,难免会影响服务质量。
基于NLP技术实现的客服问答系统,可以精准捕捉用户意图,理解用户自然语言提问,将答案直接返回给用户,能够有效减少客服的工作量。目前客服问答系统主要基于Convolutional Neural Networks(CNN)和Recurrent Neural Network(RNN)实现,通过对字向量或者词向量进行特征提取来获取文本特征,难以对句子进行完整的语义表达,影响问答系统的准确性。
发明内容
本发明的目的在于克服上述提到的缺陷和不足,而提供一种基于BERT的客服问答系统。
为了解决上述技术问题,采用如下技术方案:
一种基于BERT的客服问答系统,包括接收模块(100)、预处理模块(101)、意图模块(110)和模板引擎模块(102);所述接收模块(100)用于接收用户端提出的问题;所述预处理模块(101)用于对接收到的问题进行处理,具体工作步骤内容如下:
(1)、对获取到的用户问题数据字数进行比对,若字数≤5时,结合用户问题的上下文,便于意图模块(110)来对用户的意图进行理解;
(2)、若字数>5时,对于句子中的噪点进行祛除,便于意图模块(110)来对用户的意图进行理解;
(3)、其中,预处理模块(101)中设置有一个负面情绪识别的分类器,用于分类正向、负向情感,若判别为负面情绪时,启动人工服务;若判别为正向情绪时,则由本系统自动进行答疑。
所述意图模块(110)是用于对获取的问题的意图进行解析获取;所述模板引擎模块(102)用于对获取的问题和标准问题进行匹配,获得问法;工作步骤具体内容如下: (1)、根据意图模块(110)获得意图匹配对应的问法,若匹配到相应的问法时,直接发送至答案配置模块(105),生成答案,进行解疑;
(2)、若未匹配到相应的问法时,启动检索模块(103)检索相应的问法。
所述排序模块(104)工作步骤的具体内容如下:
(1)、获取检索模块(103)检索出的多个候选问法,通过对多个候选问法的字面得分、语义得分、关键词得分等多维度进行排序,确定排序第一的问法。
所述答案配置模块(105)用于对系统提供的问法生成答案;其中,所述模板引擎模块(102)具体包括检索模块(103)、排序模块(104)、聚类模块(107)和知识库(106),所述知识库(106)用来存储问法以及该问法其他形式的描述数据,所述检索模块(103)根据获得的问法和知识库(106)中进行相似度计算,得到较为接近的多个候选问法,所述排序模块(104)用于对获得的多个候选问法进行排序,确定最优的候选问法,输送至答案配置模块(105),所述聚类模块(107)将筛选出的未匹配问法进行聚类,便于知识库(106)内部问法数据进一步的完善。
所述检索模块(103)包括字面检索模块(109)和语义检索模块(108),所述字面检索模块(109)通过对获取的用户问题进行分词检索,结合知识库(106)中的数据,计算权重,快速检索相似的句子;所述语义检索模块(108)通过Bert模型提取用户问题的语义向量和知识库(106)中的语义特征向量进行相似度计算。
所述Bert模型提取采用的是基于Bert模型改进的triplet net模型,在计算loss采用的triplet loss,即扩大同义问题与不同义问题的距离。
所述聚类模块(107)将筛选出的未匹配问法进行聚类,即系统内部设置有阀值,当分值低于阀值时,筛选出来的候选问法归类为未匹配问法。
由于采用上述技术方案,具有以下有益效果:
本发明的系统采用BERT模型用于特征向量提取,并基于欧式距离的triplet loss函数进行监督,相比于采用二分类的cross entropy loss函数,这样产生的向量在计算相似度距离会更加自然合理,而对比常规的训练模型,triplet net同时训练正负样例,模型收敛更快;同时,系统中的数据为闭环状态,缩短修改周期,以及提高系统的准确性。
附图说明
图1是本发明的一种基于BERT的客服问答系统的系统架构图;
图2是本发明中排序模块的结构示意图;
图3是本发明一种基于BERT的客服问答系统的流程框图;
图中:100-接收模块;101-预处理模块;102-模板引擎模块;103-检索模块;104-排序模块;105-答案配置模块;106-知识库;107-聚类模块;108-语义检索模块;109-字面检索模块;110-意图模块。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
如图1-3所示的一种基于BERT的客服问答系统,包括接收模块100、预处理模块101、意图模块110和模板引擎模块102,;
所述接收模块100用于接收用户端提出的问题;所述预处理模块101用于对接收到的问题进行处理;
所述意图模块110是用于对获取的问题的意图进行解析获取;所述模板引擎模块102用于对获取的问题和标准问题进行匹配,获得问法;工作步骤具体内容如下:
(1)、根据意图模块110获得意图匹配对应的问法,若匹配到相应的问法时,直接发送至答案配置模块105,生成答案,进行解疑;
(2)、若未匹配到相应的问法时,启动检索模块103检索相应的问法。
所述答案配置模块105用于对系统提供的问法生成答案;其中,所述模板引擎模块102具体包括检索模块103、排序模块104、聚类模块107和知识库106,所述知识库106用来存储问法以及该问法其他形式的描述数据,所述检索模块103根据获得的问法和知识库106中进行相似度计算,得到较为接近的多个候选问法,所述排序模块104用于对获得的多个候选问法进行排序,确定最优的候选问法,输送至答案配置模块105,所述聚类模块107将筛选出的未匹配问法进行聚类,便于知识库106内部问法数据进一步的完善。
进一步,所述预处理模块101的具体工作步骤内容如下:
(1)、对获取到的用户问题数据字数进行比对,若字数≤5时,结合用户问题的上下文,便于意图模块110来对用户的意图进行理解;
(2)、若字数>5时,对于句子中的噪点进行祛除,便于意图模块110来对用户的意图进行理解;
(3)、其中,预处理模块101中设置有一个负面情绪识别的分类器,用于分类正向、负向情感,若判别为负面情绪时,启动人工服务;若判别为正向情绪时,则由本系统自动进行答疑。
进一步,所述排序模块104工作步骤的具体内容如下:
(1)、获取检索模块103检索出的多个候选问法,通过对多个候选问法的字面得分、语义得分、关键词得分等多维度进行排序,确定排序第一的问法。
进一步,所述检索模块103包括字面检索模块109和语义检索模块108,所述字面检索模块109通过对获取的用户问题进行分词检索,结合知识库106中的数据,计算权重,快速检索相似的句子;所述语义检索模块108通过Bert模型提取用户问题的语义向量和知识库106中的语义特征向量进行相似度计算。
进一步,所述Bert模型提取采用的是基于Bert模型改进的triplet net模型,在计算loss采用的triplet loss,即扩大同义问题与不同义问题的距离。
进一步,所述聚类模块107将筛选出的未匹配问法进行聚类,即系统内部设置有阀值,当分值低于阀值时,筛选出来的候选问法归类为未匹配问法。
本发明的工作原理:首先,接收模块100接收用户端的用户问题数据,在预处理模块100的作用下进行数据初处理,便于意图模块110更准确的识别用户意图,缩小模板引擎模块102的匹配范围,然后,模板引擎模块102匹配到相应的问法时,发送至答案配置模块105,生成答案,若模板引擎模块102为匹配对应的问法时,检索模块103通过对知识库106的比对,筛选出多个候选问法,接着,通过排序模块104选择出排序第一的问法,然后有答案配置模块105进行解答,其中,在排序过程中,设有阀值,若分值低于阀值,则候选问法进入聚类模块107,便于后续运营人员人工筛选添加知识库106中,增强系统的准确性。
本发明按照实施例进行了说明,在不脱离本原理的前提下,本装置还可以作出若干变形和改进。应当指出,凡采用等同替换或等效变换等方式所获得的技术方案,均落在本发明的保护范围内。

Claims (7)

1.一种基于BERT的客服问答系统,其特征在于,包括接收模块(100)、预处理模块(101)、意图模块(110)和模板引擎模块(102);所述接收模块(100)用于接收用户端提出的问题;所述预处理模块(101)用于对接收到的问题进行处理;所述意图模块(110)是用于对获取的问题的意图进行解析获取;所述模板引擎模块(102)用于对获取的问题和标准问题进行匹配,获得问法;所述答案配置模块(105)用于对系统提供的问法生成答案;其中,所述模板引擎模块(102)具体包括检索模块(103)、排序模块(104)、聚类模块(107)和知识库(106),所述知识库(106)用来存储问法以及该问法其他形式的描述数据,所述检索模块(103)根据获得的问法和知识库(106)中进行相似度计算,得到较为接近的多个候选问法,所述排序模块(104)用于对获得的多个候选问法进行排序,确定最优的候选问法,输送至答案配置模块(105),所述聚类模块(107)将筛选出的未匹配问法进行聚类,便于知识库(106)内部问法数据进一步的完善。
2.根据权利要求1所述的一种基于BERT的客服问答系统,其特征在于,所述预处理模块(101)的具体工作步骤内容如下:
(1)、对获取到的用户问题数据字数进行比对,若字数≤5时,结合用户问题的上下文,便于意图模块(110)来对用户的意图进行理解;
(2)、若字数>5时,对于句子中的噪点进行祛除,便于意图模块(110)来对用户的意图进行理解;
(3)、其中,预处理模块(101)中设置有一个负面情绪识别的分类器,用于分类正向、负向情感,若判别为负面情绪时,启动人工服务;若判别为正向情绪时,则由本系统自动进行答疑。
3.根据权利要求1所述的一种基于BERT的客服问答系统,其特征在于,所述模板引擎模块(102)的工作步骤具体内容如下:
(1)、根据意图模块(110)获得意图匹配对应的问法,若匹配到相应的问法时,直接发送至答案配置模块(105),生成答案,进行解疑;
(2)、若未匹配到相应的问法时,启动检索模块(103)检索相应的问法。
4.根据权利要求1所述的一种基于BERT的客服问答系统,其特征在于,所述排序模块(104)工作步骤的具体内容如下:
(1)、获取检索模块(103)检索出的多个候选问法,通过对多个候选问法的字面得分、语义得分、关键词得分等多维度进行排序,确定排序第一的问法。
5.根据权利要求1所述的一种基于BERT的客服问答系统,其特征在于,所述检索模块(103)包括字面检索模块(109)和语义检索模块(108),所述字面检索模块(109)通过对获取的用户问题进行分词检索,结合知识库(106)中的数据,计算权重,快速检索相似的句子;所述语义检索模块(108)通过Bert模型提取用户问题的语义向量和知识库(106)中的语义特征向量进行相似度计算。
6.根据权利要求5所述的一种基于BERT的客服问答系统,其特征在于,所述Bert模型提取采用的是基于Bert模型改进的triplet net模型,在计算loss采用的triplet loss,即扩大同义问题与不同义问题的距离。
7.根据权利要求1所述的一种基于BERT的客服问答系统,其特征在于,所述聚类模块(107)将筛选出的未匹配问法进行聚类,即系统内部设置有阀值,当分值低于阀值时,筛选出来的候选问法归类为未匹配问法。
CN201910556777.9A 2019-06-25 2019-06-25 一种基于bert的客服问答系统 Pending CN110263141A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910556777.9A CN110263141A (zh) 2019-06-25 2019-06-25 一种基于bert的客服问答系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910556777.9A CN110263141A (zh) 2019-06-25 2019-06-25 一种基于bert的客服问答系统

Publications (1)

Publication Number Publication Date
CN110263141A true CN110263141A (zh) 2019-09-20

Family

ID=67921422

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910556777.9A Pending CN110263141A (zh) 2019-06-25 2019-06-25 一种基于bert的客服问答系统

Country Status (1)

Country Link
CN (1) CN110263141A (zh)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110704591A (zh) * 2019-09-27 2020-01-17 联想(北京)有限公司 一种信息处理方法及计算机设备
CN110909144A (zh) * 2019-11-28 2020-03-24 中信银行股份有限公司 问答对话方法、装置、电子设备及计算机可读存储介质
CN111062220A (zh) * 2020-03-13 2020-04-24 成都晓多科技有限公司 一种基于记忆遗忘装置的端到端意图识别系统和方法
CN111291166A (zh) * 2020-05-09 2020-06-16 支付宝(杭州)信息技术有限公司 基于Bert的语言模型的训练方法及装置
CN111538824A (zh) * 2020-05-25 2020-08-14 武汉烽火普天信息技术有限公司 一种基于bert的智能问答实现方法及系统
CN111651566A (zh) * 2020-08-10 2020-09-11 四川大学 基于多任务的小样本学习的裁判文书争议焦点提取方法
CN111813910A (zh) * 2020-06-24 2020-10-23 平安科技(深圳)有限公司 客服问题的更新方法、系统、终端设备及计算机存储介质
CN112131370A (zh) * 2020-11-23 2020-12-25 四川大学 问答模型构建方法及系统、问答方法及装置、审判系统
CN112256847A (zh) * 2020-09-30 2021-01-22 昆明理工大学 融合事实文本的知识库问答方法
CN112328786A (zh) * 2020-11-03 2021-02-05 平安科技(深圳)有限公司 基于bert的文本分类方法、装置、计算机设备及存储介质
CN112347295A (zh) * 2020-11-13 2021-02-09 杭州微洱网络科技有限公司 电商客服场景图片处理系统
CN112818102A (zh) * 2021-02-01 2021-05-18 杭州微洱网络科技有限公司 基于上下文的faq知识库的快速问答方法
CN113297360A (zh) * 2021-04-29 2021-08-24 天津汇智星源信息技术有限公司 基于弱监督学习和联合学习机制的法律问答方法及设备
CN113538075A (zh) * 2020-04-14 2021-10-22 阿里巴巴集团控股有限公司 数据的处理方法、模型的训练方法、装置和设备
CN116303947A (zh) * 2023-02-24 2023-06-23 首都师范大学 一种问答文本的情绪识别方法、装置及电子设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104657346A (zh) * 2015-01-15 2015-05-27 深圳市前海安测信息技术有限公司 智能交互系统中的问题匹配方法和系统
CN106844587A (zh) * 2017-01-11 2017-06-13 北京光年无限科技有限公司 一种用于对话交互系统的数据处理方法及装置
CN107015983A (zh) * 2016-01-27 2017-08-04 阿里巴巴集团控股有限公司 一种用于智能问答中提供知识信息的方法与设备
CN107918767A (zh) * 2017-11-27 2018-04-17 北京旷视科技有限公司 目标检测方法、装置、电子设备及计算机可读介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104657346A (zh) * 2015-01-15 2015-05-27 深圳市前海安测信息技术有限公司 智能交互系统中的问题匹配方法和系统
CN107015983A (zh) * 2016-01-27 2017-08-04 阿里巴巴集团控股有限公司 一种用于智能问答中提供知识信息的方法与设备
CN106844587A (zh) * 2017-01-11 2017-06-13 北京光年无限科技有限公司 一种用于对话交互系统的数据处理方法及装置
CN107918767A (zh) * 2017-11-27 2018-04-17 北京旷视科技有限公司 目标检测方法、装置、电子设备及计算机可读介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
JACOB DEVLIN ET AL: "BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding", 《ARXIV:COMPUTATION AND LANGUAGE》 *

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110704591A (zh) * 2019-09-27 2020-01-17 联想(北京)有限公司 一种信息处理方法及计算机设备
CN110909144A (zh) * 2019-11-28 2020-03-24 中信银行股份有限公司 问答对话方法、装置、电子设备及计算机可读存储介质
CN111062220A (zh) * 2020-03-13 2020-04-24 成都晓多科技有限公司 一种基于记忆遗忘装置的端到端意图识别系统和方法
CN113538075A (zh) * 2020-04-14 2021-10-22 阿里巴巴集团控股有限公司 数据的处理方法、模型的训练方法、装置和设备
CN111291166A (zh) * 2020-05-09 2020-06-16 支付宝(杭州)信息技术有限公司 基于Bert的语言模型的训练方法及装置
CN111538824A (zh) * 2020-05-25 2020-08-14 武汉烽火普天信息技术有限公司 一种基于bert的智能问答实现方法及系统
CN111538824B (zh) * 2020-05-25 2024-04-16 武汉烽火普天信息技术有限公司 一种基于bert的智能问答实现方法及系统
CN111813910A (zh) * 2020-06-24 2020-10-23 平安科技(深圳)有限公司 客服问题的更新方法、系统、终端设备及计算机存储介质
CN111651566A (zh) * 2020-08-10 2020-09-11 四川大学 基于多任务的小样本学习的裁判文书争议焦点提取方法
CN112256847A (zh) * 2020-09-30 2021-01-22 昆明理工大学 融合事实文本的知识库问答方法
CN112256847B (zh) * 2020-09-30 2023-04-07 昆明理工大学 融合事实文本的知识库问答方法
CN112328786A (zh) * 2020-11-03 2021-02-05 平安科技(深圳)有限公司 基于bert的文本分类方法、装置、计算机设备及存储介质
CN112347295A (zh) * 2020-11-13 2021-02-09 杭州微洱网络科技有限公司 电商客服场景图片处理系统
CN112131370A (zh) * 2020-11-23 2020-12-25 四川大学 问答模型构建方法及系统、问答方法及装置、审判系统
CN112818102A (zh) * 2021-02-01 2021-05-18 杭州微洱网络科技有限公司 基于上下文的faq知识库的快速问答方法
CN113297360A (zh) * 2021-04-29 2021-08-24 天津汇智星源信息技术有限公司 基于弱监督学习和联合学习机制的法律问答方法及设备
CN116303947A (zh) * 2023-02-24 2023-06-23 首都师范大学 一种问答文本的情绪识别方法、装置及电子设备
CN116303947B (zh) * 2023-02-24 2024-01-19 首都师范大学 一种问答文本的情绪识别方法、装置及电子设备

Similar Documents

Publication Publication Date Title
CN110263141A (zh) 一种基于bert的客服问答系统
CN110309267A (zh) 基于预训练模型的语义检索方法和系统
CN110413783B (zh) 一种基于注意力机制的司法文本分类方法及系统
CN110717018A (zh) 一种基于知识图谱的工业设备故障维修问答系统
CN112699246A (zh) 基于知识图谱的领域知识推送方法
Ueki et al. Waseda_Meisei at TRECVID 2017: Ad-hoc Video Search.
CN106649258A (zh) 一种智能的问答系统
CN110362819A (zh) 基于卷积神经网络的文本情感分析方法
CN108121702A (zh) 数学主观题评阅方法及系统
CN110489548A (zh) 一种基于语义、时间和社交关系的中文微博话题检测方法及系统
CN106776832A (zh) 用于问答交互日志的处理方法、装置及系统
Wang et al. Kga: A general machine unlearning framework based on knowledge gap alignment
CN112468659A (zh) 应用于电话客服的质量评价方法、装置、设备及存储介质
CN111191051A (zh) 一种基于中文分词技术的应急知识图谱的构建方法及系统
Wei et al. Cross-modal knowledge distillation in multi-modal fake news detection
CN112100212A (zh) 一种基于机器学习和规则匹配的案件情节抽取方法
CN113065341A (zh) 一种环境类投诉举报文本自动标注和分类方法
CN110287298A (zh) 一种基于问句主题的自动问答答案选择方法
Wang et al. Facial affective behavior analysis method for 5th abaw competition
CN115905187B (zh) 一种面向云计算工程技术人员认证的智能化命题系统
Liu et al. icsberts: Optimizing pre-trained language models in intelligent customer service
Ye et al. A sentiment based non-factoid question-answering framework
CN116935411A (zh) 一种基于字符分解和重构的部首级古文字识别方法
CN111312394A (zh) 一种基于组合情感的心理健康状况评估系统及其处理方法
Zhang et al. Chinese short text classification by ERNIE based on LTC_Block

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190920

RJ01 Rejection of invention patent application after publication