CN107545036A - 客服机器人知识库建设方法、客服机器人及可读存储介质 - Google Patents

客服机器人知识库建设方法、客服机器人及可读存储介质 Download PDF

Info

Publication number
CN107545036A
CN107545036A CN201710637726.XA CN201710637726A CN107545036A CN 107545036 A CN107545036 A CN 107545036A CN 201710637726 A CN201710637726 A CN 201710637726A CN 107545036 A CN107545036 A CN 107545036A
Authority
CN
China
Prior art keywords
sentence
customer service
service robot
similarity
specific products
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710637726.XA
Other languages
English (en)
Other versions
CN107545036B (zh
Inventor
卢道和
张超
杨海军
郑德荣
钟伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
WeBank Co Ltd
Original Assignee
WeBank Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by WeBank Co Ltd filed Critical WeBank Co Ltd
Priority to CN201710637726.XA priority Critical patent/CN107545036B/zh
Publication of CN107545036A publication Critical patent/CN107545036A/zh
Application granted granted Critical
Publication of CN107545036B publication Critical patent/CN107545036B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种客服机器人知识库建设方法、客服机器人以及计算机可读存储介质,该方法包括步骤:当客服机器人侦测获取特定产品问题语句的获取指令时,根据获取指令获取问题语句,其中,问题语句至少包括两条;计算每条问题语句与其它问题语句之间的语义相似度;根据语义相似度构建特定产品的第一平行语料;通过第一平行语料得到与特定产品对应的通用产品的第二平行语料,以得到通用产品的知识库。本发明实现了不同产品客服机器人的知识库可以互用,提高了客服机器人知识库建设的效率,降低了客服机器人知识库的建立成本。

Description

客服机器人知识库建设方法、客服机器人及可读存储介质
技术领域
本发明涉及人机交互技术领域,尤其涉及一种客服机器人知识库建设方法、客服机器人及可读存储介质。
背景技术
在早期的客服机器人系统中,是由人工手动编辑知识库里面的问题和答案。为了减少人工编辑问题和答案所带来的效率低下问题,因此就演变出自动编辑知识库问题和答案。自动编辑知识库可以自动扩充知识库问题的类型,自动扩大同一类别下问题的个数。但是由于语言表达的多样性,知识库的问题通常会有很多不同说法的平行问题,如“吃饭了吗?”对应的平行问题有“吃了吗?”、“你吃了没?”、以及“吃过了没?”等,这些问题都对应着同一个答案。但是现有的知识库只针对特定的产品,对于不同的产品,需要训练出不同的知识库,无法通过一个产品的知识库实现演变出对应所有产品的知识库,导致不同产品的客服机器人的知识库建立效率低下(如电商客服机器人有其自己的知识库,银行客服机器人也有自己的知识库,电商客服机器人的知识库与银行客服机器人的知识库不能互用)。
发明内容
本发明的主要目的在于提供一种客服机器人知识库建设方法、客服机器人及可读存储介质,旨在解决不同产品的客服机器人的知识库不能互用,导致客服机器人知识库建设效率低下的技术问题。
为实现上述目的,本发明提供一种客服机器人知识库建设方法,所述客服机器人知识库建设方法包括步骤:
当客服机器人侦测获取特定产品问题语句的获取指令时,根据所述获取指令获取所述问题语句,其中,所述问题语句至少包括两条;
计算每条问题语句与其它问题语句之间的语义相似度;
根据所述语义相似度构建所述特定产品的第一平行语料;
通过所述第一平行语料得到与所述特定产品对应的通用产品的第二平行语料,以得到所述通用产品的知识库。
优选地,所述根据所述语义相似度构建所述特定产品的第一平行语料的步骤包括:
根据所述语义相似度建立无向图,其中,在所述无向图中,每一条问题语句为一个节点;
确定所述无向图中的连通分量;
通过所述连通分量确定所述特定产品的第一平行语料。
优选地,所述通过所述连通分量确定所述特定产品的第一平行语料的步骤之前,还包括:
检测所述特定产品知识库中是否存在与所述连通分量对应的待连接问题语句;
若所述特定产品知识库中存在与所述连通分量对应的待连接问题语句,则通过所述连通分量确定所述特定产品的第一平行语料的步骤包括:
将所述连通分量与所述待连接问题语句连接,得到所述特定产品的第一平行语料。
优选地,所述计算每条问题语句与其它问题语句之间的语义相似度的步骤之前,还包括:
计算每条问题语句出现的次数;
根据所述次数,按照预设规则在所述问题语句中确定目标问题语句;
所述计算每条问题语句与其它问题语句之间的语义相似度的步骤包括:
计算每条目标问题语句与其它目标问题语句之间的语义相似度。
优选地,所述计算每条问题语句与其它问题语句之间的语义相似度的步骤包括:
通过每条问题语句与其它问题语句之间的编辑距离计算每条问题语句与其它问题语句之间的第一相似度;
通过余弦相似度算法计算每条问题语句与其它问题语句之间的第二相似度;
通过所述第一相似度和所述第二相似度得到每条问题语句与其它问题语句之间的所述语义相似度。
优选地,所述通过所述第一相似度和所述第二相似度得到每条问题语句与其它问题语句之间的所述语义相似度的步骤包括:
确定所述第一相似度对应的第一权重,以及所述第二相似度对应的第二权重;
将所述第一相似度与所述第一权重相乘,得到第一乘积;
将所述第二相似度与所述第二权重相乘,得到第二乘积;
将所述第一乘积和所述第二乘积相加,得到每条问题语句与其它问题语句之间的所述语义相似度。
优选地,所述通过所述第一平行语料得到与所述特定产品对应的通用产品的第二平行语料,以得到所述通用产品的知识库的步骤包括:
提取所述第一平行语料中所述特定产品的产品名称;
将所述特定产品的产品名称替换与所述特定产品对应的通用产品的产品名称,得到第二平行语料,以得到所述通用产品的知识库。
优选地,所述当客服机器人侦测获取特定产品问题语句的获取指令时,根据所述获取指令获取所述问题语句的步骤包括:
当所述客服机器人侦测到获取特定产品问题语句的获取指令时,根据所述获取指令获取预设时间段的所述问题语句。
此外,为实现上述目的,本发明还提供一种客服机器人,所述客服机器人包括存储器、处理器和存储在所述存储器上并可在所述处理器上运行的知识库建设程序,所述知识库建设程序被所述处理器执行时实现如上所述的客服机器人知识库建设方法的步骤。
此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有知识库建设程序,所述知识库建设程序被处理器执行时实现如上所述的客服机器人知识库建设方法的步骤。
本发明通过检测所述特定产品知识库中是否存在与所述连通分量对应的待连接问题语句,若所述特定产品知识库中存在与所述连通分量对应的待连接问题语句,将所述连通分量与所述待连接问题语句连接,得到所述特定产品的第一平行语料。实现了不同产品客服机器人的知识库可以互用,提高了客服机器人知识库建设的效率,降低了客服机器人知识库的建立成本。
附图说明
图1是本发明实施例方案涉及的硬件运行环境的系统结构示意图;
图2为本发明客服机器人知识库建设方法第一实施例的流程示意图;
图3为本发明实施例中计算每条问题语句与其它问题语句之间的语义相似度的一种流程示意图;
图4为本发明实施例中根据所述语义相似度构建所述特定产品的第一平行语料的一种流程示意图;
图5为本发明客服机器人知识库建设方法第三实施例的流程示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明实施例的解决方案主要是:当客服机器人侦测获取特定产品问题语句的获取指令时,根据所述获取指令获取所述问题语句,其中,所述问题语句至少包括两条;计算每条问题语句与其它问题语句之间的语义相似度;根据所述语义相似度构建所述特定产品的第一平行语料;通过所述第一平行语料得到与所述特定产品对应的通用产品的第二平行语料,以得到所述通用产品的知识库。以解决不同产品的客服机器人的知识库不能互用,导致客服机器人知识库建设效率低下的问题。
如图1所示,图1是本发明实施例方案涉及的硬件运行环境的系统结构示意图。
本发明实施例客服机器人可以是PC,也可以是平板电脑、计算机等的终端设备。
如图1所示,该客服机器人可以包括:处理器1001,例如CPU,用户接口1003,存储器1005,通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
可选地,客服机器人还可以包括摄像头、RF(Radio Frequency,射频)电路,传感器、音频电路、WiFi模块等等。
本领域技术人员可以理解,图1中示出的客服机器人结构并不构成对终端的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种计算机存储介质的存储器1005中可以包括操作系统以及知识库建设程序。其中,操作系统是管理和控制客服机器人硬件和软件资源的程序,支持知识库建设程序以及其它软件和/或程序的运行。
在图1所示的客服机器人中,用户接口1003主要用于侦测获取指令等。而处理器1001可以用于调用存储器1005中存储的知识库建设程序,并执行以下步骤:
当客服机器人侦测获取特定产品问题语句的获取指令时,根据所述获取指令获取所述问题语句,其中,所述问题语句至少包括两条;
计算每条问题语句与其它问题语句之间的语义相似度;
根据所述语义相似度构建所述特定产品的第一平行语料;
通过所述第一平行语料得到与所述特定产品对应的通用产品的第二平行语料,以得到所述通用产品的知识库。
进一步地,所述根据所述语义相似度构建所述特定产品的第一平行语料的步骤包括:
根据所述语义相似度建立无向图,其中,在所述无向图中,每一条问题语句为一个节点;
确定所述无向图中的连通分量;
通过所述连通分量确定所述特定产品的第一平行语料。
进一步地,所述通过所述连通分量确定所述特定产品的第一平行语料的步骤之前,处理器1001还可以用于调用存储器1005中存储的知识库建设程序,并执行以下步骤:
检测所述特定产品知识库中是否存在与所述连通分量对应的待连接问题语句;
若所述特定产品知识库中存在与所述连通分量对应的待连接问题语句,则通过所述连通分量确定所述特定产品的第一平行语料的步骤包括:
将所述连通分量与所述待连接问题语句连接,得到所述特定产品的第一平行语料。
进一步地,所述计算每条问题语句与其它问题语句之间的语义相似度的步骤之前,处理器1001还可以用于调用存储器1005中存储的知识库建设程序,并执行以下步骤:
计算每条问题语句出现的次数;
根据所述次数,按照预设规则在所述问题语句中确定目标问题语句;
所述计算每条问题语句与其它问题语句之间的语义相似度的步骤包括:
计算每条目标问题语句与其它目标问题语句之间的语义相似度。
进一步地,所述计算每条问题语句与其它问题语句之间的语义相似度的步骤包括:
通过每条问题语句与其它问题语句之间的编辑距离计算每条问题语句与其它问题语句之间的第一相似度;
通过余弦相似度算法计算每条问题语句与其它问题语句之间的第二相似度;
通过所述第一相似度和所述第二相似度得到每条问题语句与其它问题语句之间的所述语义相似度。
进一步地,所述通过所述第一相似度和所述第二相似度得到每条问题语句与其它问题语句之间的所述语义相似度的步骤包括:
确定所述第一相似度对应的第一权重,以及所述第二相似度对应的第二权重;
将所述第一相似度与所述第一权重相乘,得到第一乘积;
将所述第二相似度与所述第二权重相乘,得到第二乘积;
将所述第一乘积和所述第二乘积相加,得到每条问题语句与其它问题语句之间的所述语义相似度。
进一步地,所述通过所述第一平行语料得到与所述特定产品对应的通用产品的第二平行语料,以得到所述通用产品的知识库的步骤包括:
提取所述第一平行语料中所述特定产品的产品名称;
将所述特定产品的产品名称替换与所述特定产品对应的通用产品的产品名称,得到第二平行语料,以得到所述通用产品的知识库。
进一步地,所述当客服机器人侦测获取特定产品问题语句的获取指令时,根据所述获取指令获取所述问题语句的步骤包括:
当所述客服机器人侦测到获取特定产品问题语句的获取指令时,根据所述获取指令获取预设时间段的所述问题语句。
基于上述的硬件结构,提出客服机器人知识库建设方法的各个实施例。
参照图2,图2为本发明客服机器人知识库建设方法第一实施例的流程示意图。
在本实施例中,提供了客服机器人知识库建设方法的实施例,需要说明的是,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
所述客服机器人知识库建设方法包括:
步骤S10,当客服机器人侦测获取特定产品问题语句的获取指令时,根据所述获取指令获取所述问题语句,其中,所述问题语句至少包括两条。
当智能机器人侦测到获取特定产品问题语句的获取指令时,智能机器人根据获取指令获取该特定产品的问题语句,其中,所获取的问题语句至少包括两条,问题语句可从特定产品知识库和用户日志中获取。当获取到问题语句时,客服机器人会建立一个临时存储空间,将所获取的问题语句存储在临时存储空间中,以便于后续执行计算每条问题语句与其它问题语句之间的语义相似度的步骤。客服机器人也可将所获取的问题语句存储至其存储器中,以便于后续执行计算每条问题语句与其它问题语句之间的语义相似度过程中在存储器中调取问题语句。
需要说明的是,在客服机器人中,当用户输入对应的问题语句时,客服机器人会返回与该问题语句对应的答案。当客服机器人中不存在与该问题语句对应的答案时,客服机器人也会返回提示信息,提示用户不存在与该问题语句对应的答案。该获取指令可由客服机器人对应的工作人员触发,也可以设置一个定时任务,由客服机器人定时触发。
步骤S20,计算每条问题语句与其它问题语句之间的语义相似度。
当客服机器人获取到用户输入的问题语句时,客服机器人计算每条问题语句与其它问题语句之间的语义相似度。如当客服机器人获取到A、B、C、D、E和F六条问题语句时,需要计算A与B、C、D、E和F之间的语义相似度,B与A、C、D、E和F之间的语义相似度、C与A、B、D、E和F之间的语义相似度等。
进一步地,参照图3,步骤S20包括:
步骤S21,通过每条问题语句与其它问题语句之间的编辑距离计算每条问题语句与其它问题语句之间的第一相似度。
客服机器人通过每条问题语句与其它问题语句之间的编辑距离计算得到每条问题语句与其它问题语句之间的第一相似度。具体地,若两条问题语句之间的编辑距离为N,确定计算编辑距离的两条问题语句字符串长度的最大值L,这两条问题语句之间的第一相似度S=1-N/L。同理可以计算出每条问题语句与其它问题语句之间的第一相似度。
需要说明的是,编辑距离(Edit Distance),又称Levenshtein距离,是指两个字串之间,由一个转成另一个所需的最少编辑操作次数,许可的编辑操作包括将一个字符替换成另一个字符,插入一个字符,删除一个字符,一般来说,编辑距离越小,两个串的相似度越大。如“微粒贷”与“微粒袋”之间的编辑距离为1,其操作为将“贷”替换为“袋”;“微粒贷”与“微粒袋”两个字符串长度的最大值为3,则“微粒贷”与“微粒袋”之间的第一相似度S=1-1/3=0.666。
步骤S22,通过余弦相似度算法计算每条问题语句与其它问题语句之间的第二相似度。
步骤S23,通过所述第一相似度和所述第二相似度得到每条问题语句与其它问题语句之间的所述语义相似度。
客服机器人通过余弦相似度算法计算每条问题语句与其它问题语句之间的第二相似度,并通过计算所得的第一相似度和第二相似度得到所获取的每条问题语句与所获取的其它问题语句之间的语义相似度。余弦相似度是通过计算两个向量的夹角余弦值来评估两个语句之间的第二相似度。如两个语句分为语句A:这只皮靴号码大了,那只号码合适;语句B:这只皮靴号码不小,那只更合适。则通过余弦相似度计算语句A和语句B之间第二相似度的具体过程为:①先将语句A和语句B进行分词,得到语句A:这只/皮靴/号码/大了,那只/号码/合适;语句B:这只/皮靴/号码/不/小,那只/更/合适。②提取语句A和语句B中所有出现的词:这只、皮靴、号码、大了、那只、合适、不、小、更。③计算语句A和语句B中所有出现的词在语句A和语句B中出现的次数,得到语句A:这只1(表示“这只”在语句A中出现1次),皮靴1,号码2,大了1,那只1,合适1,不0,小0,更0;语句B:这只1,皮靴1,号码1,大了0,那只1,合适1,不1,小1,更1。④通过语句A和语句B中所有出现的词在语句A和语句B中出现的次数得到语句A和语句B的词频向量,语句A的词频向量为:(1,1,2,1,1,1,0,0,0);语句B的词频向量为:(1,1,1,0,1,1,1,1,1)。⑤通过语句A和语句B的词频向量,以及余弦公式计算向量余弦值为:
则语句A和语句B之间的第一相似度为0.81。
进一步地,步骤S23包括:
步骤a,确定所述第一相似度对应的第一权重,以及所述第二相似度对应的第二权重。
步骤b,将所述第一相似度与所述第一权重相乘,得到第一乘积。
步骤c,将所述第二相似度与所述第二权重相乘,得到第二乘积。
步骤d,将所述第一乘积和所述第二乘积相加,得到每条问题语句与其它问题语句之间的所述语义相似度。
进一步地,当客服机器人计算得到第一相似度和第二相似度时,客服机器人确定第一相似度对应的第一权重,以及第二相似度对应的第二权重,将第一相似度与第一权重相乘,得到第一乘积,第二相似度与第二权重相乘,得到第二乘积。客服机器人将第一乘积和第二乘积相加即可得到每条问题语句与其它问题语句之间的语义相似度。需要说明的是,第一权重和第二权重可根据具体需要而设置,第一权重和第二权重之和等于1。如可将第一权重设置为0.2,第二权重设置为0.8;或者将第一权重设置为0.4,第二权重设置为0.6。如当第一相似度为0.65,第一权重为0.2,第二相似度为0.8,第二权重为0.8时,语义相似度=0.65×0.2+0.8×0.8=0.77。
步骤S30,根据所述语义相似度构建所述特定产品的第一平行语料。
当客服机器人确定每条问题语句与其它问题语句之间的语义相似度时,根据语义相似度更新特定产品的知识库,以构建特定产品的第一平行语料。在本实施例中,平行语料可理解为相同意思语句的不同说法。
进一步地,参照图4,步骤S30包括:
步骤S31,根据所述语义相似度建立无向图,其中,在所述无向图中,每一条问题语句为一个节点。
步骤S32,确定所述无向图中的连通分量。
步骤S33,通过所述连通分量确定所述特定产品的第一平行语料。
进一步地,当客服机器人确定每条问题语句与其它问题语句之间的语义相似度时,判断计算所得的语义相似度是否大于预设相似度。当计算所得的语义相似度大于预设相似度时,客服机器人确定语义相似度对应的两条问题语句的语义是一致的;当计算所得的语义相似度小于或者等于预设相似度时,客服机器人确定语义相似度对应的两条问题语句的语义是不一致的。客服机器人根据计算语义相似度对应的问题语句建立无向图,并确定所建立的无向图中的连通分量,通过无向图中的连通分量确定特定产品的第一平行语料。
在本实施例中,预设相似度可根据具体需要而设置,如可设置为0.7,0.75或者0.8等。在所建立的无向图中,一个节点表示一条问题语句,两个节点之间边的权值使用两条问题语句之间的语义相似度得分来表示。如果两条问题语句的语义是一致的,则认为两条问题语句之间存在边,即两条问题语句对应的节点之间存在连接关系,否则两条问题语句之间没有边,即两条问题语句对应的节点之间不存在连接关系,这样就构建了一个无向图。
需要说明的是,在一个无向图G中,若从顶点vi到顶点vj有路径相连(当然从vj到vi也一定有路径),则称vi和vj是连通的。图中任意两点都是连通的,那么图被称作连通图。图的连通性是图的基本性质,连通分量是无向图G的一个极大连通子图称为G的一个连通分量(或连通分支)。连通图只有一个连通分量,即其自身;非连通的无向图有多个连通分量。可以理解的是,在该连通分量中节点对应的问题语句就是特定产品的第一平行语料。
步骤S40,通过所述第一平行语料得到与所述特定产品对应的通用产品的第二平行语料,以得到所述通用产品的知识库。
当客服机器人得到第一平行语料时,客服机器人通过第一平行语料得到与特定产品对应的通用产品的第二平行语料,以得到通用产品的知识库。需要说明的是,特定产品的知识库为某一具体的产品的知识库,如“微粒贷”的知识库,通用产品知识库为可以适用不同产品的知识库。
进一步地,步骤S40包括:
步骤e,提取所述第一平行语料中所述特定产品的产品名称。
步骤f,将所述特定产品的产品名称替换与所述特定产品对应的通用产品的产品名称,得到第二平行语料,以得到所述通用产品的知识库。
具体地,当客服机器人得到第一平行语料时,提取第一平行语料中特定产品的产品名称,将特定产品的产品名称替换成对应通用产品的产品名称,得到第二平行语料,得到通用产品的知识库。在本实施例中,可通过TF-IDF(term frequency–inverse documentfrequency)算法提取第一平行语料中特定产品的产品名称。在其它实施例中,也可通过其它提取关键字的算法提取第一平行语料中特定产品的产品名称。
如微粒贷产品得到了一个平行语料中包含“怎样开通微粒贷”、“给我开通微粒贷”、“怎样才能开通微粒贷”等。为了得到“钱生钱”这个产品的知识库,对于微粒贷产品每一个平行语料,先提取出“微粒贷”平行语料中微粒贷产品的产品名称;然后将“钱生钱”替换成“微粒贷”,即可得到“钱生钱”的知识库,即得到了“怎样开通钱生钱”、“给我开通钱生钱”、“怎样才能开通钱生钱”等平行语料。
本实施例通过当客服机器人侦测获取特定产品问题语句的获取指令时,根据所述获取指令获取所述问题语句,其中,所述问题语句至少包括两条;计算每条问题语句与其它问题语句之间的语义相似度;根据所述语义相似度构建所述特定产品的第一平行语料;通过所述第一平行语料得到与所述特定产品对应的通用产品的第二平行语料,以得到所述通用产品的知识库。实现了不同产品客服机器人的知识库可以互用,提高了客服机器人知识库建设的效率,降低了客服机器人知识库的建立成本。
进一步地,提出本发明客服机器人知识库建设方法第二实施例。
所述客服机器人知识库建设方法第二实施例与所述客服机器人知识库建设方法第一实施例的区别在于,客服机器人知识库建设方法还包括:
步骤g,检测所述特定产品知识库中是否存在与所述连通分量对应的待连接问题语句。
若所述特定产品知识库中存在与所述连通分量对应的待连接问题语句,则步骤S33包括:
步骤h,将所述连通分量与所述待连接问题语句连接,得到所述特定产品的第一平行语料。
当客服机器人根据计算所得的语义相似度建立无向图后,客服机器人检测特定产品知识库中是否存在与无向图中连通分量对应的待连接问题语句。若特定产品知识库中存在与连通分量对应的待连接问题语句,客服机器人则将该待连接问题语句作为一个节点与连通分量连接,通过与待连接问题语句对应节点连接后的连通分量得到特定产品的第一平行语料。若特定产品知识库中不存在与无向图中连通分量对应的待连接问题语句,则不将连通分量与待连接问题语句对应的节点连接,直接将连通分量对应问题语句作为特定产品的第一平行语料。
需要说明的是,当特定产品知识库中存在与无向图连通分量中问题语句之间语义相似度大于预设相似度的问题语句时,则确认特定产品知识库中存在与连通分量对应的待连接问题语句,否则,则确认特定产品知识库中不存在与连通分量对应的待连接问题语句。计算特定产品知识库中问题语句与无向图连通分量对应的问题语句之间语义相似度的计算方法与计算所获取的每条问题语句与所获取的其它问题语句之间的语义相似度的方法一致,在此不再赘述。
本实施例通过检测特定产品知识库中是否存在与连通分量对应的待连接问题语句,若特定产品知识库中存在与连通分量对应的待连接问题语句,将连通分量与待连接问题语句连接,得到特定产品的第一平行语料。通过特定产品原有的知识库丰富特定产品的第一平行语料,丰富了所建立的通用产品的知识库。
进一步地,提出本发明客服机器人知识库建设方法第三实施例。
所述客服机器人知识库建设方法第三实施例与所述客服机器人知识库建设方法第一实施例的区别在于,参照图5,客服机器人知识库建设方法还包括:
步骤S50,计算每条问题语句出现的次数。
步骤S60,根据所述次数,按照预设规则在所述问题语句中确定目标问题语句。
步骤S20包括:
步骤S21:计算每条目标问题语句与其它目标问题语句之间的语义相似度。
当客服机器人获取到用户输入的特定产品的问题语句时,客服机器人计算每条问题语句出现的次数,根据所计算的次数,按照预设规则在问题语句中确定目标问题语句。当确定目标问题语句后,计算每条目标问题语句与其它目标问题语句之间的语义相似度。
在本实施例中,预设规则可包括两种,第一种预设规则为判断每条问题语句出现的次数是否大于与预设次数。当问题语句出现的次数大于预设次数时,客服机器人将出现次数大于预设次数对应的问题语句标记为目标问题语句。当问题语句出现的次数小于或者等于预设次数时,客服机器人不计算出现次数小于或者等于预设次数的问题语句与其它问题语句之间的相似度,即不将出现次数小于或者等于预设次数的问题语句作为目标问题语句。预设次数可根据具体需要而设置,如可设置为5次,10次,或者15次等。
第二种预设规则可为客服机器人按照每条问题语句出现的次数按照从大到小排序,得到排序结果,在排序结果中从前到后取预设数量的问题语句记为目标问题语句。需要说明的是,预设数量可根据具体需要而设置,如可设置为15,20,或者30等。
进一步地,还可将预设规则设置为当问题语句的数量大于某个阈值时,采用第二种预设规则确定目标问题语句;当问题语句的数量小于或者等于该阈值时,采用第一种预设规则确定目标问题语句。在本实施例中,阈值可根据具体需要而设置,如阈值可设置为100万,或者50万等。
进一步地,步骤S10包括:
步骤i,当所述客服机器人侦测到获取特定产品问题语句的获取指令时,根据所述获取指令获取预设时间段的所述问题语句。
当客服机器人侦测到获取特定产品问题语句的获取指令时,客服机器人根据获取指令获取预设时间段的问题语句。预设时间段可根据具体需要而设置,如可以设置为获取当天的问题语句,或者设置为获取从当前时间起三天内的问题语句。
本实施例通过计算获取的每条问题语句出现的次数,根据计算所得的次数确定目标问题语句,并计算每条目标问题语句与其它目标问题语句之间的语义相似度,减小了知识库建立过程中的计算量。
此外,本发明实施例还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有知识库建设程序,所述知识库建设程序被处理器执行时实现如下步骤:
当客服机器人侦测获取特定产品问题语句的获取指令时,根据所述获取指令获取所述问题语句,其中,所述问题语句至少包括两条;
计算每条问题语句与其它问题语句之间的语义相似度;
根据所述语义相似度构建所述特定产品的第一平行语料;
通过所述第一平行语料得到与所述特定产品对应的通用产品的第二平行语料,以得到所述通用产品的知识库。
进一步地,所述根据所述语义相似度构建所述特定产品的第一平行语料的步骤包括:
根据所述语义相似度建立无向图,其中,在所述无向图中,每一条问题语句为一个节点;
确定所述无向图中的连通分量;
通过所述连通分量确定所述特定产品的第一平行语料。
进一步地,所述通过所述连通分量确定所述特定产品的第一平行语料的步骤之前,所述知识库建设程序被处理器执行时实现如下步骤:
检测所述特定产品知识库中是否存在与所述连通分量对应的待连接问题语句;
若所述特定产品知识库中存在与所述连通分量对应的待连接问题语句,则通过所述连通分量确定所述特定产品的第一平行语料的步骤包括:
将所述连通分量与所述待连接问题语句连接,得到所述特定产品的第一平行语料。
进一步地,所述计算每条问题语句与其它问题语句之间的语义相似度的步骤之前,所述知识库建设程序被处理器执行时实现如下步骤:
计算每条问题语句出现的次数;
根据所述次数,按照预设规则在所述问题语句中确定目标问题语句;
所述计算每条问题语句与其它问题语句之间的语义相似度的步骤包括:
计算每条目标问题语句与其它目标问题语句之间的语义相似度。
进一步地,所述计算每条问题语句与其它问题语句之间的语义相似度的步骤包括:
通过每条问题语句与其它问题语句之间的编辑距离计算每条问题语句与其它问题语句之间的第一相似度;
通过余弦相似度算法计算每条问题语句与其它问题语句之间的第二相似度;
通过所述第一相似度和所述第二相似度得到每条问题语句与其它问题语句之间的所述语义相似度。
进一步地,所述通过所述第一相似度和所述第二相似度得到每条问题语句与其它问题语句之间的所述语义相似度的步骤包括:
确定所述第一相似度对应的第一权重,以及所述第二相似度对应的第二权重;
将所述第一相似度与所述第一权重相乘,得到第一乘积;
将所述第二相似度与所述第二权重相乘,得到第二乘积;
将所述第一乘积和所述第二乘积相加,得到每条问题语句与其它问题语句之间的所述语义相似度。
进一步地,所述通过所述第一平行语料得到与所述特定产品对应的通用产品的第二平行语料,以得到所述通用产品的知识库的步骤包括:
提取所述第一平行语料中所述特定产品的产品名称;
将所述特定产品的产品名称替换与所述特定产品对应的通用产品的产品名称,得到第二平行语料,以得到所述通用产品的知识库。
进一步地,所述当客服机器人侦测获取特定产品问题语句的获取指令时,根据所述获取指令获取所述问题语句的步骤包括:
当所述客服机器人侦测到获取特定产品问题语句的获取指令时,根据所述获取指令获取预设时间段的所述问题语句。
本发明计算机可读存储介质具体实施方式与上述客服机器人知识库建设方法各实施例基本相同,在此不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种客服机器人知识库建设方法,其特征在于,所述客服机器人知识库建设方法包括以下步骤:
当客服机器人侦测获取特定产品问题语句的获取指令时,根据所述获取指令获取所述问题语句,其中,所述问题语句至少包括两条;
计算每条问题语句与其它问题语句之间的语义相似度;
根据所述语义相似度构建所述特定产品的第一平行语料;
通过所述第一平行语料得到与所述特定产品对应的通用产品的第二平行语料,以得到所述通用产品的知识库。
2.如权利要求1所述的客服机器人知识库建设方法,其特征在于,所述根据所述语义相似度构建所述特定产品的第一平行语料的步骤包括:
根据所述语义相似度建立无向图,其中,在所述无向图中,每一条问题语句为一个节点;
确定所述无向图中的连通分量;
通过所述连通分量确定所述特定产品的第一平行语料。
3.如权利要求2所述的客服机器人知识库建设方法,其特征在于,所述通过所述连通分量确定所述特定产品的第一平行语料的步骤之前,还包括:
检测所述特定产品知识库中是否存在与所述连通分量对应的待连接问题语句;
若所述特定产品知识库中存在与所述连通分量对应的待连接问题语句,则通过所述连通分量确定所述特定产品的第一平行语料的步骤包括:
将所述连通分量与所述待连接问题语句连接,得到所述特定产品的第一平行语料。
4.如权利要求1所述的客服机器人知识库建设方法,其特征在于,所述计算每条问题语句与其它问题语句之间的语义相似度的步骤之前,还包括:
计算每条问题语句出现的次数;
根据所述次数,按照预设规则在所述问题语句中确定目标问题语句;
所述计算每条问题语句与其它问题语句之间的语义相似度的步骤包括:
计算每条目标问题语句与其它目标问题语句之间的语义相似度。
5.如权利要求1所述的客服机器人知识库建设方法,其特征在于,所述计算每条问题语句与其它问题语句之间的语义相似度的步骤包括:
通过每条问题语句与其它问题语句之间的编辑距离计算每条问题语句与其它问题语句之间的第一相似度;
通过余弦相似度算法计算每条问题语句与其它问题语句之间的第二相似度;
通过所述第一相似度和所述第二相似度得到每条问题语句与其它问题语句之间的所述语义相似度。
6.如权利要求5所述的客服机器人知识库建设方法,其特征在于,所述通过所述第一相似度和所述第二相似度得到每条问题语句与其它问题语句之间的所述语义相似度的步骤包括:
确定所述第一相似度对应的第一权重,以及所述第二相似度对应的第二权重;
将所述第一相似度与所述第一权重相乘,得到第一乘积;
将所述第二相似度与所述第二权重相乘,得到第二乘积;
将所述第一乘积和所述第二乘积相加,得到每条问题语句与其它问题语句之间的所述语义相似度。
7.如权利要求1所述的客服机器人知识库建设方法,其特征在于,所述通过所述第一平行语料得到与所述特定产品对应的通用产品的第二平行语料,以得到所述通用产品的知识库的步骤包括:
提取所述第一平行语料中所述特定产品的产品名称;
将所述特定产品的产品名称替换与所述特定产品对应的通用产品的产品名称,得到第二平行语料,以得到所述通用产品的知识库。
8.如权利要求1至7任一项所述的客服机器人知识库建设方法,其特征在于,所述当客服机器人侦测获取特定产品问题语句的获取指令时,根据所述获取指令获取所述问题语句的步骤包括:
当所述客服机器人侦测到获取特定产品问题语句的获取指令时,根据所述获取指令获取预设时间段的所述问题语句。
9.一种客服机器人,其特征在于,所述客服机器人包括存储器、处理器和存储在所述存储器上并可在所述处理器上运行的知识库建设程序,所述知识库建设程序被所述处理器执行时实现如权利要求1至8中任一项所述的客服机器人知识库建设方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有知识库建设程序,所述知识库建设程序被处理器执行时实现如权利要求1至8中任一项所述的客服机器人知识库建设方法的步骤。
CN201710637726.XA 2017-07-28 2017-07-28 客服机器人知识库建设方法、客服机器人及可读存储介质 Active CN107545036B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710637726.XA CN107545036B (zh) 2017-07-28 2017-07-28 客服机器人知识库建设方法、客服机器人及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710637726.XA CN107545036B (zh) 2017-07-28 2017-07-28 客服机器人知识库建设方法、客服机器人及可读存储介质

Publications (2)

Publication Number Publication Date
CN107545036A true CN107545036A (zh) 2018-01-05
CN107545036B CN107545036B (zh) 2021-01-19

Family

ID=60970417

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710637726.XA Active CN107545036B (zh) 2017-07-28 2017-07-28 客服机器人知识库建设方法、客服机器人及可读存储介质

Country Status (1)

Country Link
CN (1) CN107545036B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108763462A (zh) * 2018-05-28 2018-11-06 深圳前海微众银行股份有限公司 平行语句库的更新方法、设备及计算机可读存储介质
CN108776677A (zh) * 2018-05-28 2018-11-09 深圳前海微众银行股份有限公司 平行语句库的创建方法、设备及计算机可读存储介质
CN111026921A (zh) * 2019-12-26 2020-04-17 深圳前海环融联易信息科技服务有限公司 基于图的关联关系获取方法、装置及计算机设备
CN112818127A (zh) * 2019-11-15 2021-05-18 北京中关村科金技术有限公司 一种检测知识库中的语料冲突的方法、装置和介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101079028A (zh) * 2007-05-29 2007-11-28 中国科学院计算技术研究所 一种统计机器翻译中的在线翻译模型选择方法
CN103631944A (zh) * 2013-12-10 2014-03-12 华中师范大学 一种基于内容相似的网页分割方法
CN103914447A (zh) * 2013-01-09 2014-07-09 富士通株式会社 信息处理设备和信息处理方法
CN103927360A (zh) * 2014-04-18 2014-07-16 北京大学 基于图模型的软件项目语义信息表示及检索方法
CN105719191A (zh) * 2016-01-20 2016-06-29 东北大学 多尺度空间下不确定行为语义的社交群体发现系统及方法
CN106202068A (zh) * 2016-07-25 2016-12-07 哈尔滨工业大学 基于多语平行语料的语义向量的机器翻译方法
US20170193086A1 (en) * 2015-12-31 2017-07-06 Shanghai Xiaoi Robot Technology Co., Ltd. Methods, devices, and systems for constructing intelligent knowledge base

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101079028A (zh) * 2007-05-29 2007-11-28 中国科学院计算技术研究所 一种统计机器翻译中的在线翻译模型选择方法
CN103914447A (zh) * 2013-01-09 2014-07-09 富士通株式会社 信息处理设备和信息处理方法
CN103631944A (zh) * 2013-12-10 2014-03-12 华中师范大学 一种基于内容相似的网页分割方法
CN103927360A (zh) * 2014-04-18 2014-07-16 北京大学 基于图模型的软件项目语义信息表示及检索方法
US20170193086A1 (en) * 2015-12-31 2017-07-06 Shanghai Xiaoi Robot Technology Co., Ltd. Methods, devices, and systems for constructing intelligent knowledge base
CN105719191A (zh) * 2016-01-20 2016-06-29 东北大学 多尺度空间下不确定行为语义的社交群体发现系统及方法
CN106202068A (zh) * 2016-07-25 2016-12-07 哈尔滨工业大学 基于多语平行语料的语义向量的机器翻译方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108763462A (zh) * 2018-05-28 2018-11-06 深圳前海微众银行股份有限公司 平行语句库的更新方法、设备及计算机可读存储介质
CN108776677A (zh) * 2018-05-28 2018-11-09 深圳前海微众银行股份有限公司 平行语句库的创建方法、设备及计算机可读存储介质
CN108776677B (zh) * 2018-05-28 2021-11-12 深圳前海微众银行股份有限公司 平行语句库的创建方法、设备及计算机可读存储介质
CN108763462B (zh) * 2018-05-28 2021-11-12 深圳前海微众银行股份有限公司 平行语句库的更新方法、设备及计算机可读存储介质
CN112818127A (zh) * 2019-11-15 2021-05-18 北京中关村科金技术有限公司 一种检测知识库中的语料冲突的方法、装置和介质
CN111026921A (zh) * 2019-12-26 2020-04-17 深圳前海环融联易信息科技服务有限公司 基于图的关联关系获取方法、装置及计算机设备

Also Published As

Publication number Publication date
CN107545036B (zh) 2021-01-19

Similar Documents

Publication Publication Date Title
CN107436875B (zh) 文本分类方法及装置
US20230237328A1 (en) Information processing method and terminal, and computer storage medium
CN106126521B (zh) 目标对象的社交账号挖掘方法及服务器
CN109582764A (zh) 基于依存句法的交互注意力情感分析方法
CN107545036A (zh) 客服机器人知识库建设方法、客服机器人及可读存储介质
CN108874992A (zh) 舆情分析方法、系统、计算机设备和存储介质
US9460071B2 (en) Rule development for natural language processing of text
CN110413769A (zh) 场景分类方法、装置、存储介质及其电子设备
CN112036577B (zh) 基于数据形式的应用机器学习的方法、装置和电子设备
CN109740152A (zh) 文本类目的确定方法、装置、存储介质和计算机设备
CN109117474A (zh) 语句相似度的计算方法、装置及存储介质
Zalmout et al. Adversarial multitask learning for joint multi-feature and multi-dialect morphological modeling
CN108170678A (zh) 一种文本实体抽取方法与系统
CN113095080A (zh) 基于主题的语义识别方法、装置、电子设备和存储介质
CN111460145A (zh) 一种学习资源推荐方法、设备及存储介质
CN116681561A (zh) 一种政策匹配方法、装置、电子设备及存储介质
Lu et al. A modified whale optimization algorithm for parameter estimation of software reliability growth models
CN108776677A (zh) 平行语句库的创建方法、设备及计算机可读存储介质
CN113822072A (zh) 关键词抽取方法、装置及电子设备
JP7181999B2 (ja) 検索方法及び検索装置、記憶媒体
CN110209860B (zh) 一种模板引导的基于服装属性的可解释服装搭配方法及装置
CN110334185A (zh) 一种平台中数据的处理方法和装置
CN109740947A (zh) 基于专利数据的专家挖掘方法、系统、存储介质及电子终端
CN109992665A (zh) 一种基于问题目标特征扩展的分类方法
CN113342944A (zh) 一种语料泛化方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant