CN110555101A - 一种客服知识库更新方法、装置、设备及存储介质 - Google Patents

一种客服知识库更新方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN110555101A
CN110555101A CN201910849744.3A CN201910849744A CN110555101A CN 110555101 A CN110555101 A CN 110555101A CN 201910849744 A CN201910849744 A CN 201910849744A CN 110555101 A CN110555101 A CN 110555101A
Authority
CN
China
Prior art keywords
sentences
knowledge base
customer service
clustering
service knowledge
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910849744.3A
Other languages
English (en)
Inventor
刘海明
张子轩
董利华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Novo Network Technology Co Ltd
Original Assignee
Zhejiang Novo Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Novo Network Technology Co Ltd filed Critical Zhejiang Novo Network Technology Co Ltd
Priority to CN201910849744.3A priority Critical patent/CN110555101A/zh
Publication of CN110555101A publication Critical patent/CN110555101A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Abstract

本发明公开了一种客服知识库更新方法、装置、设备及存储介质,该方法的步骤包括:获取用户的问题语句,并对问题语句进行特征抽取生成语句特征;根据语句特征对问题语句执行聚类算法并生成聚类结果,聚类结果包含类别相同的语句;通过聚类结果中的语句与客服知识库中已有问题类别的语句进行比对分析,确定聚类结果对应的目标问题类别;将聚类结果中的语句更新至客服知识库中目标问题类别的语句集合。本方法相对减少了客服知识库更新过程所需的人工开销。此外,本发明还提供一种客服知识库更新装置、设备及存储介质,有益效果同上所述。

Description

一种客服知识库更新方法、装置、设备及存储介质
技术领域
本发明涉及智能客服领域,特别是涉及一种客服知识库更新方法、装置、设备及存储介质。
背景技术
目前智能客服已广泛的应用于各种垂直领域,比如电商领域、金融领域、银行领域等,客服知识库一般的是以用户的常见问题为基础建立的,客服知识库中以问题含义划分相应的问题类别,每个问题类别中包括一组相似问题或一个标准问题,在当用户向客服系统发起提问时,客服系统根据用户的问题匹配客服知识库中与之相符的问题,并以对应问题类别的答案答复用户的问题,其中知识库对客服系统回答用户问题的准确性起到了决定性的作用。
由于用户对于问题的表述方式不尽相同,这就导致客服知识库需要不断更新问题类别的问题,以此更加准确的为用户发起的问题提供准确的答案。当前的客服知识库通常由专业人员以人工方式进行更新,由于对知识库的更新需要维护人员具有较高的专业领域知识,才能够将用户发起的问题归纳到知识库中相应含义的问题类别中,因此通过人工方式更新客服知识库的人工开销较大。
由此可见,提供一种客服知识库更新方法,以相对减少对客服知识库更新所需的人工开销,是本领域技术人员需要解决的问题。
发明内容
本发明的目的是提供一种客服知识库更新方法、装置、设备及存储介质,以相对减少对客服知识库更新所需的人工开销。
为解决上述技术问题,本发明提供一种客服知识库更新方法,包括:
获取用户的问题语句,并对问题语句进行特征抽取生成语句特征;
根据语句特征对问题语句执行聚类算法并生成聚类结果,聚类结果包含类别相同的语句;
通过聚类结果中的语句与客服知识库中已有问题类别的语句进行比对分析,确定聚类结果对应的目标问题类别;
将聚类结果中的语句更新至客服知识库中目标问题类别的语句集合。
优选的,通过聚类结果中的语句与客服知识库中已有问题类别的语句进行比对分析,确定聚类结果对应的目标问题类别,包括:
获取聚类结果的第一聚类中心;
计算第一聚类中心与客服知识库中已有问题类别的语句之间的相似度;
判断相似度是否满足阈值条件;
如果是,则将已有问题类别标记为聚类结果对应的目标问题类别;
否则,在客服知识库中生成新问题类别,并将新问题类别标记为聚类结果对应的目标问题类别。
优选的,在将聚类结果中的语句更新至客服知识库中目标问题类别的语句集合之后,方法还包括:
对目标问题类别的语句集合执行聚类算法,生成第二聚类中心;
在目标问题类别的语句集合中去除与第二聚类中心的相似度小于预设阈值的目标语句。
优选的,在对目标问题类别的语句集合执行聚类算法之前,方法还包括:
去除目标问题类别的语句集合中内容重复的语句。
优选的,在对问题语句进行特征抽取生成语句特征之前,方法还包括:
对问题语句进行数据清洗,数据清洗的操作至少包括去除问题语句中内容重复的语句、对问题语句进行分词、根据符号对问题语句进行过滤以及对问题语句进行繁简体转化中的一项或多项。
优选的,对问题语句进行特征抽取生成语句特征,包括:
对问题语句进行特征抽取生成语句向量。
优选的,聚类算法包括k-means聚类算法以及基于k-means聚类算法衍生的聚类算法。
此外,本发明还提供一种客服知识库更新装置,包括:
特征抽取模块,用于获取用户的问题语句,并对问题语句进行特征抽取生成语句特征;
特征聚类模块,用于根据语句特征对问题语句执行聚类算法并生成聚类结果,聚类结果包含类别相同的语句;
类别判定模块,用于通过聚类结果中的语句与客服知识库中已有问题类别的语句进行比对分析,确定聚类结果对应的目标问题类别;
语句更新模块,用于将聚类结果中的语句更新至客服知识库中目标问题类别的语句集合。
此外,本发明还提供一种客服知识库更新设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行计算机程序时实现如上述的客服知识库更新方法的步骤。
此外,本发明还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现如上述的客服知识库更新方法的步骤。
本发明所提供的客服知识库更新方法,首先获取用户的问题语句,进而对问题语句进行特征抽取,生成相应的语句特征,进而根据语句特征对问题语句执行聚类算法生成包含有相同类别语句的聚类结果,并通过聚类结构中的语句与知识库中已有问题类别的语句进行对比分析,最终确定聚类结果对应的目标问题类别,并将聚类结果中的语句更新至客服知识库中目标问题类别的语句集合。由于本方法采用聚类算法,对用户所发起问题语句的语句特征进行聚类,以此根据语句特征将问题语句划分为相应类别的聚类结果,进而再将聚类结果与客服知识库中已有问题类别的语句进行比对分析,以此将聚类结果划分至知识库中对应的问题类别,进而实现对客服知识库的更新,因此无需维护人员具有较高的专业领域知识,即可实现对客服知识库的更新,相对减少了客服知识库更新过程所需的人工开销。此外,本发明还提供一种客服知识库更新装置、设备及存储介质,有益效果同上所述。
附图说明
为了更清楚地说明本发明实施例,下面将对实施例中所需要使用的附图做简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种客服知识库更新方法的流程图;
图2为本发明实施例提供的一种客服知识库更新方法的流程图;
图3为本发明实施例提供的一种客服知识库更新方法的流程图;
图4为本发明实施例提供的一种客服知识库更新装置的结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下,所获得的所有其他实施例,都属于本发明保护范围。
目前智能客服已广泛的应用于各种垂直领域,当用户向客服系统发起提问时,客服系统根据用户的问题匹配客服知识库中与之相符的问题,并以对应问题类别的答案答复用户的问题,其中知识库对客服系统回答用户问题的准确性起到了决定性的作用。
由于用户对于问题的表述方式不尽相同,这就导致客服知识库需要不断更新问题类别的问题,以此更加准确的为用户发起的问题提供准确的答案。当前的客服知识库通常由专业人员以人工方式进行更新,由于对知识库的更新需要维护人员具有较高的专业领域知识,才能够将用户发起的问题归纳到知识库中相应含义的问题类别中,因此通过人工方式更新客服知识库的人工开销较大。
为此,本发明的核心是提供一种客服知识库更新方法,以相对减少对客服知识库更新所需的人工开销。本发明的另一核心是提供一种客服知识库更新装置、设备及存储介质。
为了使本技术领域的人员更好地理解本发明方案,下面结合附图和具体实施方式对本发明作进一步的详细说明。
图1为本发明实施例提供的一种客服知识库更新方法的流程图。请参考图1,客服知识库更新方法的具体步骤包括:
步骤S10:获取用户的问题语句,并对问题语句进行特征抽取生成语句特征。
需要说明的是,本步骤中获取的问题语句指的是用户在客服系统中发起的提问内容。获取用户的问题语句的目的是为了将用户的问题语句更新至客服知识库的对应问题类别中,因此在获取用户的问题语句后,进一步对问题语句进行特征抽取,生成相应的语句特征。本步骤中对问题语句进行特征抽取可以具体采用深度语言模型进行实现,例如BERT模型或GPT模型等。
步骤S11:根据语句特征对问题语句执行聚类算法并生成聚类结果,聚类结果包含类别相同的语句。
聚类算法的目的是衡量不同数据源间的相似性,以及把数据源分类到不同的簇中。在获取到问题语句的语句特征后,由于语句特征能够对应相应的问题语句,因此根据语句特征对问题语句执行聚类算法,进而生成聚类结果,本步骤本质上是将语句特征相近的问题语句划分至相同的聚类结果中,聚类结果中包含类别相应的语句。
步骤S12:通过聚类结果中的语句与客服知识库中已有问题类别的语句进行比对分析,确定聚类结果对应的目标问题类别。
可以理解的是,聚类结果中的语句均属于相同的类别,在此基础上本步骤进一步根据聚类结果中的语句与客服知识库中已有问题类别的语句进行比对分析,以此判断聚类结果在客服知识库中所属的类别,本质上是根据聚类结果中语句与客服知识库中已有问题类别的语句之间的相似性,判定聚类结果在客服知识库中对应的问题类别。
步骤S13:将聚类结果中的语句更新至客服知识库中目标问题类别的语句集合。
在确定聚类结果对应的目标问题类别之后,本步骤进一步将聚类结果中的语句更新至客服知识库中目标问题类别的语句集合,也就是将聚类结果中的语句新增至客服知识库中目标问题类别对应的语句集合中。
本发明所提供的客服知识库更新方法,首先获取用户的问题语句,进而对问题语句进行特征抽取,生成相应的语句特征,进而根据语句特征对问题语句执行聚类算法生成包含有相同类别语句的聚类结果,并通过聚类结构中的语句与知识库中已有问题类别的语句进行对比分析,最终确定聚类结果对应的目标问题类别,并将聚类结果中的语句更新至客服知识库中目标问题类别的语句集合。由于本方法采用聚类算法,对用户所发起问题语句的语句特征进行聚类,以此根据语句特征将问题语句划分为相应类别的聚类结果,进而再将聚类结果与客服知识库中已有问题类别的语句进行比对分析,以此将聚类结果划分至知识库中对应的问题类别,进而实现对客服知识库的更新,因此无需维护人员具有较高的专业领域知识,即可实现对客服知识库的更新,相对减少了客服知识库更新过程所需的人工开销。
在上述实施例的基础上,本发明还提供如下一系列优选的实施方式。
作为一种优选的实施方式,在对问题语句进行特征抽取生成语句特征之前,方法还包括:
对问题语句进行数据清洗,数据清洗的操作至少包括去除问题语句中内容重复的语句、对问题语句进行分词、根据符号对问题语句进行过滤以及对问题语句进行繁简体转化中的一项或多项。
需要说明的是,由于考虑到在实际情况下,问题语句中往往掺杂有一些对于客服知识库更新而言不具有使用价值的内容,或存在一些语句格式不利于进行后续聚类分析的问题语句,因此本实施方式,在对问题语句进行特征抽取生成语句特征之前,先对问题语句进行数据清洗,以此进一步提高对客户知识库进行更新的准确性。
作为一种优选的实施方式,对问题语句进行特征抽取生成语句特征,包括:
对问题语句进行特征抽取生成语句向量。
语句向量能够更加准确的体现问题语句所具有的特征,因此能够进一步确保对客户知识库进行更新的准确性。
此外,作为一种优选的实施方式,聚类算法包括k-means聚类算法以及基于k-means聚类算法衍生的聚类算法。
需要说明的是,本实施方式中基于k-means聚类算法衍生的聚类算法,指的是与k-means聚类算法有着相同聚类原理的算法,由于k-means聚类算法是解决聚类问题的一种经典算法,简单、快速,并且对处理大数据集,该算法具有可伸缩性和高效性,因此能够相对提高对于客服知识库更新的整体实现效率。
图2为本发明实施例提供的一种客服知识库更新方法的流程图。请参考图2,客服知识库更新方法的具体步骤包括:
步骤S20:获取用户的问题语句,并对问题语句进行特征抽取生成语句特征。
步骤S21:根据语句特征对问题语句执行聚类算法并生成聚类结果,聚类结果包含类别相同的语句。
步骤S22:获取聚类结果的第一聚类中心。
需要说明的是,本步骤中的第一聚类中心指的是对问题语句执行聚类算法后所生成的聚类结果中最具有代表性的语句。第一聚类中心可以是聚类结果中的一个语句也可以是聚类结果中的一组语句,应根据实际情况而定,在此不做具体限定。
步骤S23:计算第一聚类中心与客服知识库中已有问题类别的语句之间的相似度。
在获取到第一聚类中心后,进一步计算第一聚类中心与客户知识库中已有问题类别下的语句之间的相似度,进而根据第一聚类中心与客户知识库已有问题类别的语句之间的相似度判定第一聚类中心对应的聚类结果的类型是否与客户知识库中已有的问题别类一致。
步骤S24:判断相似度是否满足阈值条件,如果是,则执行步骤S25,否则,执行步骤S26。
步骤S25:将已有问题类别标记为聚类结果对应的目标问题类别。
步骤S26:在客服知识库中生成新问题类别,并将新问题类别标记为聚类结果对应的目标问题类别。
需要说明的是,本实施例中判定第一聚类中心对应的聚类结果与客户知识库中已有的问题别类之间是否一致的方式,具体是基于预设的阈值条件进行的,当第一聚类中心与客服知识库中已有问题类别的语句之间的相似度满足阈值条件时,将已有问题类别标记为聚类结果对应的目标问题类别;当第一聚类中心与客服知识库中已有问题类别的语句之间的相似度不满足阈值条件时,在客服知识库中生成新问题类别,并将新问题类别标记为聚类结果对应的目标问题类别。
也就是说,本步骤的目的是判断客服知识库是否存在与第一聚类中心相似度较高的已有问题类型,如果有,则将该已有问题类型作为承载聚类结果中语句的目标问题类别,否则,认为聚类结果属于新增的问题类别,进而在客服知识库中生成新问题类别,并将新问题类别作为聚类结果中的语句在客服知识库中对应的问题类别。
步骤S27:将聚类结果中的语句更新至客服知识库中目标问题类别的语句集合。
本实施例通过计算第一聚类中心与客服知识库中已有问题类别的语句之间的相似度,进而根据相似度是否满足阈值条件判定聚类结果对应的目标问题类别,能够相对确保对客户知识库进行问题语句更新时的准确性。
图3为本发明实施例提供的一种客服知识库更新方法的流程图。请参考图3,客服知识库更新方法的具体步骤包括:
步骤S30:获取用户的问题语句,并对问题语句进行特征抽取生成语句特征。
步骤S31:根据语句特征对问题语句执行聚类算法并生成聚类结果,聚类结果包含类别相同的语句。
步骤S32:获取聚类结果的第一聚类中心。
步骤S33:计算第一聚类中心与客服知识库中已有问题类别的语句之间的相似度。
步骤S34:判断相似度是否满足阈值条件,如果是,则执行步骤S35,否则,执行步骤S36。
步骤S35:将已有问题类别标记为聚类结果对应的目标问题类别。
步骤S36:在客服知识库中生成新问题类别,并将新问题类别标记为聚类结果对应的目标问题类别。
步骤S37:将聚类结果中的语句更新至客服知识库中目标问题类别的语句集合。
步骤S38:对目标问题类别的语句集合执行聚类算法,生成第二聚类中心。
步骤S39:在目标问题类别的语句集合中去除与第二聚类中心的相似度小于预设阈值的目标语句。
需要说明的是,本实施例在将聚类结果中的语句更新至客服知识库中目标问题类别的语句集合之后,进一步基于聚类算法对目标问题类别对应的语句集合执行聚类处理,进而根据聚类处理生成的聚类结果获取第二聚类中心,第二聚类中心相当于目标问题类别中的全部语句整体趋近的特征类型,进而在目标问题类别的语句集合中去除与第二聚类中心的相似度小于预设阈值的目标语句,相当于在目标问题类别的语句集合中去除与目标问题类别相似性较低的目标语句,以此进一步提高对客户知识库进行更新的准确性。
在上述实施例的基础上,本发明还提供如下优选的实施方式。
作为一种优选的实施方式,在对目标问题类别的语句集合执行聚类算法之前,方法还包括:
去除目标问题类别的语句集合中内容重复的语句。
需要说明的是,本实施方式考虑到目标问题类别的语句集合中可能存在内容重复的语句,进而导致客服知识库中内容的冗余,因此为了避免客服知识库中语句的冗余,而造成不必要的资源占用,本实施方式在对目标问题类别的语句集合执行聚类算法之前,先去除目标问题类别的语句集合中内容重复的语句,避免了因客服知识库中语句冗余而造成对客服知识库不必要的资源占用。
为了进一步加深对于本发明技术方案的理解,下面提供一种具体场景下的应用场景实施例。
在具体应用场景下,客服知识库更新方法包括:
步骤1:智能客服线上会话数据采集,提取用户问句;
步骤2:对采集的用户问句数据进行清洗;
步骤3:对清洗后的问句数据进行特征抽取,提取句向量;
步骤4:对用户问句的句向量特征进行聚类;
步骤5:将聚类结果和客服知识库进行对比分析,确定类别的归并或新增,并将原客服知识库扩充为新客服知识库;
步骤6:按新客服知识库的类别,对新客服知识库进行再次聚类;
步骤7:对聚类结果进行分析,确定最终更新后的客服知识库。
步骤1中的线上会话数据采集指的是采集固定时间间隔内的线上智能客服的会话数据,并提取其中用户的问句。
步骤2中的用户问句数据清洗指的是具体包括用户问句数据去重,数据中无效语句及寒暄语句剔除,并对用户问句进行分词、符号过滤及繁简体转换等自然语言预处理操作。
步骤3中的对清洗后的问句数据进行特征提取,具体采用深度语言模型进行特征抽取,将清洗后的问句数据转换为句向量。
步骤4中的对句向量进行聚类,所采用的具体的聚类方法为k-means聚类算法或与其相关的改进算法,采用轮廓系数来确定最优K值。
步骤5中的将聚类结果和客服知识库进行对比分析,计算聚类结果中每个类的类中心,与客服知识库中每一类中所有语句的距离,并计算对应类别中距离的均值、标准差及两者的比值,选取距离均值最小的客服知识库中的类别作为备选的待合并类别,进一步如果该类的距离均值与标准差的比值满足给定的阈值条件,则合并这两类,否则将该类作为客服知识库的新增类别,将原客服知识库通过归并及新增扩充为新的客服知识库。
步骤6中的按新客服知识库的类别,对新客服知识库进行再次聚类,具体包括:采用k-means聚类算法或其改进算法作为聚类算法,以新客服知识库中的类别作为聚类类别,类中心的初始过程包括:若为合并类别,则选取合并前原客服知识库中对应类别的语句向量均值作为聚类中心,若为新增类别,则选取该类中所有语句向量的均值作为聚类中心,按此规则对新客服知识库进行聚类。
步骤7中的对聚类结果进行分析,确定最终更新后的客服知识库,具体包括:将聚类结果中每一类的语句和新知识中对应类别的语句进行对比,取出所有重复的语句及原始客服知识库中该类的语句作为该类的选定语句,剩余的语句作为备选语句,对备选语句和选定语句中进行两两的余弦相似度计算,如果相似度大于给定的阈值,则将该备选语句标记为选定语句,否则舍弃该语句,从而完成客服知识库中问句的自动更新,人工进行审核校验,并对新增类别增加问句答案,完善整个客服知识库。
在上文中对于客服知识库更新方法的实施例进行了详细的描述,本发明还提供一种与该方法对应的客服知识库更新装置,由于客服知识库更新装置部分的实施例与方法部分的实施例相互对应,客服知识库更新装置部分的实施例请参见方法部分的实施例的描述,这里暂不赘述。
图4为本发明实施例提供的一种客服知识库更新装置的结构图。
本发明还提供一种客服知识库更新装置,包括:
特征抽取模块10,用于获取用户的问题语句,并对问题语句进行特征抽取生成语句特征;
特征聚类模块11,用于根据语句特征对问题语句执行聚类算法并生成聚类结果,聚类结果包含类别相同的语句;
类别判定模块12,用于通过聚类结果中的语句与客服知识库中已有问题类别的语句进行比对分析,确定聚类结果对应的目标问题类别;
语句更新模块13,用于将聚类结果中的语句更新至客服知识库中目标问题类别的语句集合。
本发明所提供的客服知识库更新装置,首先获取用户的问题语句,进而对问题语句进行特征抽取,生成相应的语句特征,进而根据语句特征对问题语句执行聚类算法生成包含有相同类别语句的聚类结果,并通过聚类结构中的语句与知识库中已有问题类别的语句进行对比分析,最终确定聚类结果对应的目标问题类别,并将聚类结果中的语句更新至客服知识库中目标问题类别的语句集合。由于本装置采用聚类算法,对用户所发起问题语句的语句特征进行聚类,以此根据语句特征将问题语句划分为相应类别的聚类结果,进而再将聚类结果与客服知识库中已有问题类别的语句进行比对分析,以此将聚类结果划分至知识库中对应的问题类别,进而实现对客服知识库的更新,因此无需维护人员具有较高的专业领域知识,即可实现对客服知识库的更新,相对减少了客服知识库更新过程所需的人工开销。
此外,本发明还提供一种客服知识库更新设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行计算机程序时实现如上述的客服知识库更新方法的步骤。
本发明所提供的客服知识库更新设备,首先获取用户的问题语句,进而对问题语句进行特征抽取,生成相应的语句特征,进而根据语句特征对问题语句执行聚类算法生成包含有相同类别语句的聚类结果,并通过聚类结构中的语句与知识库中已有问题类别的语句进行对比分析,最终确定聚类结果对应的目标问题类别,并将聚类结果中的语句更新至客服知识库中目标问题类别的语句集合。由于本设备采用聚类算法,对用户所发起问题语句的语句特征进行聚类,以此根据语句特征将问题语句划分为相应类别的聚类结果,进而再将聚类结果与客服知识库中已有问题类别的语句进行比对分析,以此将聚类结果划分至知识库中对应的问题类别,进而实现对客服知识库的更新,因此无需维护人员具有较高的专业领域知识,即可实现对客服知识库的更新,相对减少了客服知识库更新过程所需的人工开销。
此外,本发明还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现如上述的客服知识库更新方法的步骤。
本发明所提供的计算机可读存储介质,首先获取用户的问题语句,进而对问题语句进行特征抽取,生成相应的语句特征,进而根据语句特征对问题语句执行聚类算法生成包含有相同类别语句的聚类结果,并通过聚类结构中的语句与知识库中已有问题类别的语句进行对比分析,最终确定聚类结果对应的目标问题类别,并将聚类结果中的语句更新至客服知识库中目标问题类别的语句集合。由于本计算机可读存储介质采用聚类算法,对用户所发起问题语句的语句特征进行聚类,以此根据语句特征将问题语句划分为相应类别的聚类结果,进而再将聚类结果与客服知识库中已有问题类别的语句进行比对分析,以此将聚类结果划分至知识库中对应的问题类别,进而实现对客服知识库的更新,因此无需维护人员具有较高的专业领域知识,即可实现对客服知识库的更新,相对减少了客服知识库更新过程所需的人工开销。
以上对本发明所提供的一种客服知识库更新方法、装置、设备及存储介质进行了详细介绍。说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。
还需要说明的是,在本说明书中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims (10)

1.一种客服知识库更新方法,其特征在于,包括:
获取用户的问题语句,并对所述问题语句进行特征抽取生成语句特征;
根据所述语句特征对所述问题语句执行聚类算法并生成聚类结果,所述聚类结果包含类别相同的语句;
通过所述聚类结果中的语句与客服知识库中已有问题类别的语句进行比对分析,确定所述聚类结果对应的目标问题类别;
将所述聚类结果中的语句更新至所述客服知识库中所述目标问题类别的语句集合。
2.根据权利要求1所述的客服知识库更新方法,其特征在于,所述通过所述聚类结果中的语句与客服知识库中已有问题类别的语句进行比对分析,确定所述聚类结果对应的目标问题类别,包括:
获取所述聚类结果的第一聚类中心;
计算所述第一聚类中心与所述客服知识库中已有问题类别的语句之间的相似度;
判断所述相似度是否满足阈值条件;
如果是,则将所述已有问题类别标记为所述聚类结果对应的目标问题类别;
否则,在所述客服知识库中生成新问题类别,并将所述新问题类别标记为所述聚类结果对应的目标问题类别。
3.根据权利要求2所述的客服知识库更新方法,其特征在于,在所述将所述聚类结果中的语句更新至所述客服知识库中所述目标问题类别的语句集合之后,所述方法还包括:
对所述目标问题类别的语句集合执行所述聚类算法,生成第二聚类中心;
在所述目标问题类别的语句集合中去除与所述第二聚类中心的相似度小于预设阈值的目标语句。
4.根据权利要求3所述的客服知识库更新方法,其特征在于,在所述对所述目标问题类别的语句集合执行所述聚类算法之前,所述方法还包括:
去除所述目标问题类别的语句集合中内容重复的语句。
5.根据权利要求1所述的客服知识库更新方法,其特征在于,在所述对所述问题语句进行特征抽取生成语句特征之前,所述方法还包括:
对所述问题语句进行数据清洗,所述数据清洗的操作至少包括去除所述问题语句中内容重复的语句、对所述问题语句进行分词、根据符号对所述问题语句进行过滤以及对所述问题语句进行繁简体转化中的一项或多项。
6.根据权利要求1所述的客服知识库更新方法,其特征在于,所述对所述问题语句进行特征抽取生成语句特征,包括:
对所述问题语句进行特征抽取生成语句向量。
7.根据权利要求1至6任意一项所述的客服知识库更新方法,其特征在于,所述聚类算法包括k-means聚类算法以及基于所述k-means聚类算法衍生的聚类算法。
8.一种客服知识库更新装置,其特征在于,包括:
特征抽取模块,用于获取用户的问题语句,并对所述问题语句进行特征抽取生成语句特征;
特征聚类模块,用于根据所述语句特征对所述问题语句执行聚类算法并生成聚类结果,所述聚类结果包含类别相同的语句;
类别判定模块,用于通过所述聚类结果中的语句与客服知识库中已有问题类别的语句进行比对分析,确定所述聚类结果对应的目标问题类别;
语句更新模块,用于将所述聚类结果中的语句更新至所述客服知识库中所述目标问题类别的语句集合。
9.一种客服知识库更新设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至7任一项所述的客服知识库更新方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的客服知识库更新方法的步骤。
CN201910849744.3A 2019-09-09 2019-09-09 一种客服知识库更新方法、装置、设备及存储介质 Pending CN110555101A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910849744.3A CN110555101A (zh) 2019-09-09 2019-09-09 一种客服知识库更新方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910849744.3A CN110555101A (zh) 2019-09-09 2019-09-09 一种客服知识库更新方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN110555101A true CN110555101A (zh) 2019-12-10

Family

ID=68739661

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910849744.3A Pending CN110555101A (zh) 2019-09-09 2019-09-09 一种客服知识库更新方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN110555101A (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111159370A (zh) * 2019-12-20 2020-05-15 中国建设银行股份有限公司 一种短会话新问题生成方法、存储介质和人机交互装置
CN111858891A (zh) * 2020-07-23 2020-10-30 平安科技(深圳)有限公司 问答库构建方法、装置、电子设备及存储介质
CN111966894A (zh) * 2020-08-05 2020-11-20 深圳市欢太科技有限公司 信息查询方法、装置、存储介质及电子设备
WO2021114834A1 (zh) * 2020-06-24 2021-06-17 平安科技(深圳)有限公司 客服问题的更新方法、系统、终端设备及计算机存储介质
CN113127611A (zh) * 2019-12-31 2021-07-16 北京中关村科金技术有限公司 对问句语料进行处理的方法、装置以及存储介质
WO2021169173A1 (zh) * 2020-02-29 2021-09-02 深圳壹账通智能科技有限公司 数据聚类的存储方法、装置、计算机设备及存储介质
CN113676527A (zh) * 2021-08-10 2021-11-19 未鲲(上海)科技服务有限公司 信息推送方法、装置、设备及存储介质
CN113921016A (zh) * 2021-10-15 2022-01-11 阿波罗智联(北京)科技有限公司 语音处理方法、装置、电子设备以及存储介质
CN114254090A (zh) * 2021-12-08 2022-03-29 马上消费金融股份有限公司 问答知识库的扩充方法及装置
CN113127611B (zh) * 2019-12-31 2024-05-14 北京中关村科金技术有限公司 对问句语料进行处理的方法、装置以及存储介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170228372A1 (en) * 2016-02-08 2017-08-10 Taiger Spain Sl System and method for querying questions and answers
CN107562789A (zh) * 2017-07-28 2018-01-09 深圳前海微众银行股份有限公司 知识库问题更新方法、客服机器人以及可读存储介质
CN107862089A (zh) * 2017-12-02 2018-03-30 北京工业大学 一种基于感知数据的标签提取方法
CN108376151A (zh) * 2018-01-31 2018-08-07 深圳市阿西莫夫科技有限公司 问题分类方法、装置、计算机设备和存储介质
CN108804567A (zh) * 2018-05-22 2018-11-13 平安科技(深圳)有限公司 提高智能客服应答率的方法、设备、存储介质及装置
CN109033270A (zh) * 2018-07-09 2018-12-18 深圳追科技有限公司 一种基于人工客服日志自动构建客服知识库的方法
CN109460503A (zh) * 2018-09-14 2019-03-12 广州神马移动信息科技有限公司 答案输入方法、装置、存储介质及电子设备
CN109918498A (zh) * 2019-01-16 2019-06-21 平安科技(深圳)有限公司 一种问题入库方法和装置
CN110019733A (zh) * 2017-12-28 2019-07-16 中兴通讯股份有限公司 一种面向社区的智能问答方法及装置

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170228372A1 (en) * 2016-02-08 2017-08-10 Taiger Spain Sl System and method for querying questions and answers
CN107562789A (zh) * 2017-07-28 2018-01-09 深圳前海微众银行股份有限公司 知识库问题更新方法、客服机器人以及可读存储介质
CN107862089A (zh) * 2017-12-02 2018-03-30 北京工业大学 一种基于感知数据的标签提取方法
CN110019733A (zh) * 2017-12-28 2019-07-16 中兴通讯股份有限公司 一种面向社区的智能问答方法及装置
CN108376151A (zh) * 2018-01-31 2018-08-07 深圳市阿西莫夫科技有限公司 问题分类方法、装置、计算机设备和存储介质
CN108804567A (zh) * 2018-05-22 2018-11-13 平安科技(深圳)有限公司 提高智能客服应答率的方法、设备、存储介质及装置
CN109033270A (zh) * 2018-07-09 2018-12-18 深圳追科技有限公司 一种基于人工客服日志自动构建客服知识库的方法
CN109460503A (zh) * 2018-09-14 2019-03-12 广州神马移动信息科技有限公司 答案输入方法、装置、存储介质及电子设备
CN109918498A (zh) * 2019-01-16 2019-06-21 平安科技(深圳)有限公司 一种问题入库方法和装置

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111159370A (zh) * 2019-12-20 2020-05-15 中国建设银行股份有限公司 一种短会话新问题生成方法、存储介质和人机交互装置
CN113127611A (zh) * 2019-12-31 2021-07-16 北京中关村科金技术有限公司 对问句语料进行处理的方法、装置以及存储介质
CN113127611B (zh) * 2019-12-31 2024-05-14 北京中关村科金技术有限公司 对问句语料进行处理的方法、装置以及存储介质
WO2021169173A1 (zh) * 2020-02-29 2021-09-02 深圳壹账通智能科技有限公司 数据聚类的存储方法、装置、计算机设备及存储介质
WO2021114834A1 (zh) * 2020-06-24 2021-06-17 平安科技(深圳)有限公司 客服问题的更新方法、系统、终端设备及计算机存储介质
CN111858891A (zh) * 2020-07-23 2020-10-30 平安科技(深圳)有限公司 问答库构建方法、装置、电子设备及存储介质
CN111966894A (zh) * 2020-08-05 2020-11-20 深圳市欢太科技有限公司 信息查询方法、装置、存储介质及电子设备
CN113676527A (zh) * 2021-08-10 2021-11-19 未鲲(上海)科技服务有限公司 信息推送方法、装置、设备及存储介质
CN113921016A (zh) * 2021-10-15 2022-01-11 阿波罗智联(北京)科技有限公司 语音处理方法、装置、电子设备以及存储介质
CN114254090A (zh) * 2021-12-08 2022-03-29 马上消费金融股份有限公司 问答知识库的扩充方法及装置

Similar Documents

Publication Publication Date Title
CN110555101A (zh) 一种客服知识库更新方法、装置、设备及存储介质
CN109783639B (zh) 一种基于特征提取的调解案件智能分派方法及系统
CN111460250B (zh) 用于画像的数据的清洗方法、装置、介质及电子设备
CN112560450B (zh) 一种文本纠错方法及装置
CN111159404B (zh) 文本的分类方法及装置
CN111476296A (zh) 样本生成方法、分类模型训练方法、识别方法及对应装置
CN104347071B (zh) 生成口语考试参考答案的方法及系统
CN114399379A (zh) 基于人工智能的催收行为识别方法、装置、设备及介质
CN113342955A (zh) 一种问答语句的处理方法、装置及电子设备
CN113486174B (zh) 模型训练、阅读理解方法、装置、电子设备及存储介质
CN113297365A (zh) 一种用户意向判定方法、装置、设备及存储介质
CN108962281B (zh) 一种语言表达的评价和辅助方法及装置
CN110929506A (zh) 一种垃圾信息检测方法、装置、设备及可读存储介质
CN115564276A (zh) 项目统计储备管理系统、方法及存储介质
CN112991131A (zh) 一种适用于电子政务平台的政务数据处理方法
CN113486151A (zh) 故障维修知识点查询方法、装置、电子设备和存储介质
CN113254612A (zh) 知识问答处理方法、装置、设备及存储介质
CN107784080B (zh) 自动建立用户知识框架的方法、装置、系统及存储介质
CN111552785A (zh) 人机交互系统数据库更新方法、装置、计算机设备和介质
CN114942980B (zh) 一种确定文本匹配方法及装置
CN111460107A (zh) 一种应答方法和应答系统
CN115273854B (zh) 一种服务质量确定方法、装置、电子设备及存储介质
CN113255324B (zh) 一种用于专利数据中发明人姓名消歧的方法
CN113743124B (zh) 一种智能问答异常的处理方法、装置及电子设备
CN116187299B (zh) 一种科技项目文本数据检定评价方法、系统及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20191210