CN113254623A

CN113254623A - 数据处理方法、装置、服务器、介质及产品

Info

Publication number: CN113254623A
Application number: CN202110700339.2A
Authority: CN
Inventors: 申亚坤; 谭莹坤; 周慧婷; 陶威; 刘烨敏; 丁锐
Original assignee: Bank of China Ltd
Current assignee: Bank of China Ltd
Priority date: 2021-06-23
Filing date: 2021-06-23
Publication date: 2021-08-13
Anticipated expiration: 2041-06-23
Also published as: CN113254623B

Abstract

本申请提供了数据处理方法、装置、服务器、介质及产品，该方法中，在接收到客户端发送的查询语句后，可以从第一数据库中搜索与查询语句的相关度大于或等于第一阈值的多个源文档；发送多个源文档的链接至客户端；用户可以通过客户端从多个源文档的链接确定目标源文档的链接，即用户认为目标源文档可能是自己所需的源文档；但是本申请并不会直接将源文档反馈至客户端，而是计算目标源文档包含的多个目标子文档分别与查询语句的相关度；按照目标子文档的相关度对多个目标子文档分别对应的链接降序排序，得到排序结果；发送排序结果至客户端。用户在查看排序结果时，可以最先查看到与查询语句相关度最高的目标子文档。缩写了用户的阅读时长。

Description

数据处理方法、装置、服务器、介质及产品

技术领域

本申请涉及数据处理技术领域，更具体的说，是涉及数据处理方法、装置、服务器、介质及产品。

背景技术

可以基于用户输入的查询语句从数据库中搜索与查询语句相匹配的文档；用户可以通过阅读文档进一步判断该文档是否是自己需要的文档。

在申请人实现本发明创造的过程中发现，若文档的内容较多，可能需要用户阅读较长时间，才能从文档中找到自己所需内容，或，文档中与查询语句最相关的内容位于文档的末尾，可能出现用户在阅读了文档中前面部分内容后，若未发现自己需要的内容，可能认为该文档不是自己所需的文档，导致用户错过该篇文档。

发明内容

有鉴于此，本申请提供了一种数据处理方法、装置、服务器、介质及产品。

本申请提供如下技术方案：

根据本公开实施例的第一方面，提供一种数据处理方法，包括：

接收来自客户端的查询语句；

从第一数据库中搜索与所述查询语句的相关度大于或等于第一阈值的多个源文档，所述第一数据库用于存储源文档，所述源文档包括多个子文档，所述源文档对应有属性特征，所述属性特征包括所述源文档包含的多个子文档分别对应的索引标识；

发送所述多个源文档的链接至所述客户端；

接收来自所述客户端的第一点击操作，所述第一点击操作为从所述多个源文档中确定目标源文档的链接的操作；

响应所述第一点击操作，计算所述目标源文档包含的多个目标子文档分别与所述查询语句的相关度；

基于所述目标源文档对应的属性特征，获得所述目标源文档包含的多个目标子文档分别对应的链接；

按照所述目标子文档的相关度对所述多个目标子文档分别对应的链接降序排序，得到排序结果；

发送所述排序结果至所述客户端。

根据本公开实施例的第二方面，提供一种数据处理装置，包括：

第一接收模块，用于接收来自客户端的查询语句；

第一搜索模块，用于从第一数据库中搜索与所述查询语句的相关度大于或等于第一阈值的多个源文档，所述第一数据库用于存储源文档，所述源文档包括多个子文档，所述源文档对应有属性特征，所述属性特征包括所述源文档包含的多个子文档分别对应的索引标识；

第一发送模块，用于发送所述多个源文档的链接至所述客户端；

第二接收模块，用于接收来自所述客户端的第一点击操作，所述第一点击操作为从所述多个源文档中确定目标源文档的链接的操作；

计算模块，用于响应所述第一点击操作，计算所述目标源文档包含的多个目标子文档分别与所述查询语句的相关度；

第一获取模块，用于基于所述目标源文档对应的属性特征，获得所述目标源文档包含的多个目标子文档分别对应的链接；

排序模块，用于按照所述目标子文档的相关度对所述多个目标子文档分别对应的链接降序排序，得到排序结果；

第二发送模块，用于发送所述排序结果至所述客户端。

根据本公开实施例的第三方面，提供一种服务器，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如第一方面所述的知识点查询方法。

根据本公开实施例的第四方面，提供一种计算机可读存储介质，当所述存储介质中的指令由服务器的处理器执行时，使得所述服务器能够执行如第一方面所述的数据处理方法。

根据本公开实施例的第五方面，提供一种计算机程序产品，可直接加载到计算机的内部存储器，例如第三方面所述服务器包含的存储器中，并含有软件代码，该计算机程序经由计算机载入并执行后能够实现如第一方面所述的数据处理方法。

经由上述的技术方案可知，本申请实施例提供的数据处理方法中，在接收到客户端发送的查询语句后，可以从第一数据库中搜索与所述查询语句的相关度大于或等于第一阈值的多个源文档；发送所述多个源文档的链接至所述客户端；用户可以通过客户端从多个源文档的链接确定目标源文档的链接，即用户认为目标源文档可能是自己所需的源文档；但是本申请实施例并不会直接将源文档反馈至客户端，而是计算所述目标源文档包含的多个目标子文档分别与所述查询语句的相关度；按照目标子文档的相关度对多个目标子文档分别对应的链接降序排序，得到排序结果；发送排序结果至所述客户端。用户在通过运行客户端的电子设备查看排序结果时，由于排序结果中的各目标子文档的链接是按照相关度由高至低排序的，所以用户可以最先查看到与查询语句相关度最高的目标子文档。与目前需要用户阅读整篇源文档后，才能发现与查询语句相关度最高的目标子文档相比，缩写了用户的阅读时长，且由于用户会优先看到与查询语句相关度最高的子文档，所以不会让用户错过与查询语句相关度最高的子文档。减少用户检索次数，提高检索效率。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请实施例涉及的硬件架构的结构图；

图2为本申请实施例提供的数据处理方法的流程图；

图3为本申请实施例提供的源文档和源文档的属性信息的关系示意图；

图4为本申请实施例提供的数据处理装置的结构图；

图5是根据一示例性实施例示出的一种用于服务器的装置的框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例提供了数据处理方法、装置、服务器、介质及产品，在介绍本申请实施例提供的技术方案之前，先对本申请实施例涉及的硬件架构进行说明。

如图1所示，为本申请实施例涉及的硬件架构的结构图，该硬件架构包括：电子设备11、服务器12、第一数据库13以及第二数据库14。

示例性的，电子设备11可以是任何一种可与用户通过键盘、触摸板、触摸屏、遥控器、语音交互或手写设备等一种或多种方式进行人机交互的电子产品，例如，手机、笔记本电脑、平板电脑、掌上电脑、个人计算机、可穿戴设备、智能电视、PAD等。

示例性的，服务器12可以是一台服务器，也可以是由多台服务器组成的服务器集群，或者是一个云计算服务器中心。服务器12可以包括处理器、存储器以及网络接口等。

应注意的是，图1仅仅是一种示例，电子设备的类型可以有多种，不限于图1中的计算机。

示例性的，电子设备11可以通过无线网络或有线网络与服务器12建立连接并通信。

示例性的，第一数据库13以及第二数据库14可以通过无线网络或有线网络与服务器12建立连接并通信。

示例性的，用户可以通过电子设备11输入查询语句。电子设备11可以将查询语句发送至服务器12。电子设备11可以显示服务器12反馈的查询结果。

示例性的，用户可以为人工坐席或客户。

示例性的，用户可以通过电子设备11展示的客户端的用户界面输入查询语句，该客户端可以为应用程序客户端或网页版客户端。

服务器12用于执行本申请实施例提供的数据处理方法，并与第一数据库13以及第二数据库14进行交互。

示例性的，第一数据库13包括多个源文档。

示例性的，第二数据库14包括多个知识点，知识点是从源文档拆分得到的，任一个知识点包括来自源文档的一个子文档。

示例性的，多个知识点是通过拆分源文档得到的。不同知识点对应的源文档可能相同可能不同。

例如，源文档包括10个段落，示例性的，源文本被拆分为10个知识点，即每一个段落对应一个知识点；示例性的，源文档本拆分为5个知识点，一个知识点包括源文档中的一个或多个段落；示例性的，源文档被拆分为20个知识点，一个知识点包括一个段落中的一个或多个语句。

示例性的，知识点是基于其他知识点得到的。

示例性的，知识点的表示方式有多种，本申请实施例提供但不限于：链表、数组、结构体、表格中任一种。下面以表格为例对知识点的结构进行举例说明。

表1知识点的结构

示例性的，知识正文包括知识标题以及子文档中任一个；示例性的，子文档与知识标题相对应，例如，与知识标题“中银富登个人通知存款的存款期限”对应的子文档可以为：个人通知存款不论实际存期多长，按存款人提前通知的期限长短划分为1天通知存款和7天通知存款两个品种。1天通知存款必须提前1天通知约定支取存款，7天通知存款则必须提前7天通知约定支取存款。1天通知存款和7天通知存款，客户必须提前1天或提前7天来到柜台预约支取登记。所谓转存是系统可以自动在到期日将本息转到客户的活期账户，但需要客户在每个周期(7天)都来柜台办理约定转存的业务。

示例性的，知识点包含的业务目录可以包括一级或多级目录，表1中是以业务目录包括两级目录为例进行说明的。

示例性的，知识点包含的业务目录用于指示知识点包含的知识正文的存储路径。示例性的，知识点包含的业务目录即为存储知识点的存储设备的名称和/或文件夹的名称。

示例性的，知识标题，可以是基于自然语言处理技术从子文档文中得到的；示例性的，知识标题可以是从源文档中获得的。

示例性的，知识点包含的图谱标签是指知识正文的属性信息。示例性的，图谱标签包括：产品(知识正文的内容描述的产品)、所属银行(知识正文的内容针对哪个分行或哪个总行)、客户类型。示例性的，客户类型包括但不限于：个人客户、财富管理客户、普通客户、私人银行客户、中银理财客户等等。

示例性的，知识点包含的个性标签是由人工坐席添加的，人工坐席可以基于自己的对知识点的理解，对知识点进行标注，例如，表1中具有人工坐席的标识A的人工坐席标注了“富登特色定期存款”，下次具有人工坐席的标识A的人工坐席可以基于查询语句“富登特色定期存款”准确的搜索到表1所示的知识点。

需要说明的是，有时候人工坐席在查询的时候查询到所需的知识点，但是人工坐席对该知识点有一些自己的理解，或者对知识点有自己的称谓习惯，那么人工坐席可以人为将自己的理解添加到该知识点的个性标签中。这样就可以照顾到不同人工坐席的思维习惯，丰富知识的标注，从而加快知识查询的效率以及提升知识查询的准确率。

示例性的，对于同一知识点，不同人工坐席标注的个性标签可能不同，可能相同；由于人工坐席在搜索知识点之前，需要进行登陆，所以人工坐席的查询语句包括人工坐席的标识，因此，在通过个性标签检索知识点的过程中，不会受到其他人工坐席标注的个性标签的影响。

示例性的，知识点包含的管理属性是指管理该知识点的管理员的信息，例如，管理属性包括管理员所属部门以及管理员所属用户组。

表1中的知识点的结构仅为示例，并不对知识点的结构造成限定，例如，知识点可以包括：业务目录、知识正文、图谱标签、个性标签、管理属性中一个或多个字段。示例性的，知识点还包括：子文档的关键词。

示例性的，知识点还包括接收组，接收组包括能够查询得到该知识点的用户的标识。

可以理解的是，由于知识点包含的子文档是从源文档中拆分得到的，所以知识点还可以包括第一标识和第二标识。所述第一标识为所述源文档中位于所述知识点包含的子文档的前一子文档对应的知识点的标识；所述第二标识为所述源文档中位于所述知识点包含的子文档的下一子文档对应的知识点的标识。

示例性的，本申请实施例中知识点的结构还可以如表2所示。

表2知识点的结构

示例性的，知识点的标识，例如，第一标识和第二标识的表示方式有多种，例如，用字母、数字、特殊符号中的一个或多个进行表示，表2中是以第一标识和第二标识用数字表示为例进行说明。

示例性的，知识点的标识可以是随机分配的，不同知识点的标识不同；示例性的，知识点的标识与知识点包含的子文档在源文档的位置有关。

例如，源文档包含的第3段落、第4段落和第5段落分别为一个子文档，即分别对应一个知识点，表2所示的知识点对应源文档包含的第4段落，所以“在源文档位置”为4；示例性的，源文档上下文索引包括第一标识以及第二标识，如表2中，第一标识为3，第二标识为5。

示例性的，知识点可以包括一个或多个第一标识。若知识点包括一个第一标识，示例性的，第一标识为源文档中位于知识点包含的子文档的任一前一子文档对应的知识点的标识。以源文档包含的每一段落分别为一个子文档为例进行说明，假设每一子文档对应一知识点，若知识点A对应源文档的第1段、知识点B对应源文档的第2段、知识点C对应源文档的第3段、知识点D对应源文档的第4段、知识点E对应源文档的第5段，那么，知识点C包含的第一标识可以为知识点B的标识或知识点A的标识。示例性的，第一标识为源文档中位于知识点包含的子文档的相邻的前一子文档对应的知识点的标识。例如，知识点C包含的第一标识为知识点B的标识。

若知识点E包括多个第一标识，则具有多个第一标识的知识点包含的子文档在源文档的位置是相邻的，且，与知识点E包含的子文档相邻；例如，知识点E包含的多个第一标识分别为：知识点D的标识、知识点C的标识。

若知识点E包括多个第一标识，则具有多个第一标识的知识点包含的子文档在源文档的位置可以不相邻，例如，知识点E包含的多个第一标识分别为：知识点C的标识以及知识点A的标识。

示例性的，知识点包含的第二标识的数目可以为一个或多个。对于第二标识的说明可以参见第一标识，这里不再赘述。

示例性的，知识点还包括：源文档的标识ID、源文档名称中至少一个。

综上，本申请实施例提供的知识点包含源文档上下文索引(即第一知识点和第二知识点)，使得来源于同一源文档的多个知识点具有关联关系。

示例性的，第一数据库13以及第二数据库14可以位于服务器12，或者，第一数据库13以及第二数据库14独立于服务器12。

示例性的，第一数据库13以及第二数据库14可以为同一数据，也可以不同的数据。

本领域技术人员应能理解上述电子设备和服务器仅为举例，其他现有的或今后可能出现的电子设备或服务器如可适用于本公开，也应包含在本申请保护范围以内，并在此以引用方式包含于此。

下面结合上述硬件架构对本申请实施例提供的数据处理方法进行说明。

如图2所示，为本申请实施例提供的数据处理方法的流程图，该方法可以应用于图1所示的服务器12，所述数据处理方法在实施过程中可以包括以下步骤S21至步骤S28。

步骤S21：接收来自客户端的查询语句。

在一可选实施例中，查询语句可以为语音或文本。若查询语句为语音，需要将语音转换成文本。

步骤S22：从第一数据库中搜索与所述查询语句的相关度大于或等于第一阈值的多个源文档。

示例性的，第一阈值可以基于实际情况而定，这里不进行限定。

示例性的，源文档可以是各种格式的文件，例如可以是txt文件、word文件、PPT文件、excel文件等。

所述第一数据库用于存储源文档，所述源文档包括多个子文档，所述源文档对应有属性特征，所述属性特征包括所述源文档包含的多个子文档分别对应的索引标识。

在一可选实现方式中，子文档对应的索引标识可以为包含子文档的知识点的ID或包含子文档的知识点的标题。

在一可选实现方式中，源文档和源文档对应的属性信息的存储方式有多种，例如，数组、链表、表格、函数等任一种。

示例性的，获得与所述查询语句的相关度大于或等于第一阈值的多个源文档，即为获得与查询语句包含的关键词的相关度大于或等于第一阈值的多个源文档。下面对获得查询语句包含的关键词的过程进行说明。

可选的，本发明实施例提供但不限于以下获得查询语句包含的关键词的方法。

第一种获得查询语句包含的关键词的方法包括：

步骤A1：将查询语句进行划分，以得到多个词汇。

可选的，若查询语句为“客户购房的贷款合同”，那么，查询语句包含的词汇为：客户、购房、的、贷款合同。

步骤A2：根据预设停词规则，从多个词汇中获得关键词。

可选的，预设停词规则可以包括：去除步骤A1得到的多个词汇中属于停用词的词汇。假设停用词包括：的、得、了、吗、吧、在、中等等。那么，通过步骤A2得到的关键词包括：客户、购房、贷款合同。

第二种获得查询语句包含的关键词的方法包括：基于统计特征的关键词提取方法。

基于统计特征的关键词提取算法是利用查询语句中词语的统计信息抽取查询语句的关键词。

第三种获得查询语句包含的关键词的方法包括：基于词图模型的关键词提取算法，如，TextRank算法。

基于词图模型的关键词提取算法，首先要构建查询语句的语言网络图，然后对语言网络图进行分析，在语言网络图上寻找具有重要作用的词或者短语，这些短语就是查询语句的关键词。

第四种获得查询语句包含的关键词的方法包括：基于主题模型的关键词提取算法，如，LDA算法。

基于主题模型的关键词提取算法主要利用的是主题模型中关于主题分布的性质进行关键词提取。

步骤S23：发送所述多个源文档的链接至所述客户端。

步骤S24：接收来自所述客户端的第一点击操作，所述第一点击操作为从所述多个源文档中确定目标源文档的链接的操作。

可以理解的是，用户可以通过运行客户端的电子设备展示多个源文档的链接，用户可以点击多个源文档的链接中的目标源文档，从而得到第一点击操作。

步骤S25：响应所述第一点击操作，计算所述目标源文档包含的多个目标子文档分别与所述查询语句的相关度。

本申请实施例中，称目标源文档包含的子文档为目标子文档。

可以理解的是，由于目标源文档对应的属性信息包括多个目标子文档分别对应的索引标识；所以可以区分目标源文档包含的各个目标子文档。从而可以计算多个目标子文档分别与所述查询语句的相关度。

示例性的，相关度可以为余弦相似度、皮尔森相关系数、Jaccard相似系数、Tanimoto系数、词频-逆文档频率(TF-IDF)中任一个。

步骤S26：基于所述目标源文档对应的属性特征，获得所述目标源文档包含的多个目标子文档分别对应的链接。

示例性的，可以基于目标子文档对应的索引标识，得到目标子文档的链接。

步骤S27：按照所述目标子文档的相关度对所述多个目标子文档分别对应的链接降序排序，得到排序结果。

步骤S28：发送所述排序结果至所述客户端。

本申请实施例提供的数据处理方法中，在接收到客户端发送的查询语句后，可以从第一数据库中搜索与所述查询语句的相关度大于或等于第一阈值的多个源文档；发送所述多个源文档的链接至所述客户端；用户可以通过客户端从多个源文档的链接确定目标源文档的链接，即用户认为目标源文档可能是自己所需的源文档；但是本申请实施例并不会直接将源文档反馈至客户端，而是计算所述目标源文档包含的多个目标子文档分别与所述查询语句的相关度；按照目标子文档的相关度对多个目标子文档分别对应的链接降序排序，得到排序结果；发送排序结果至所述客户端。用户在通过运行客户端的电子设备查看排序结果时，由于排序结果中的各目标子文档的链接是按照相关度由高至低排序的，所以用户可以最先查看到与查询语句相关度最高的目标子文档。与目前需要用户阅读整篇源文档后，才能发现与查询语句相关度最高的目标子文档相比，缩写了用户的阅读时长，且不会让用户错过与查询语句相关度最高的子文档。减少用户检索次数，提高检索效率。

在一可选实现方式中，在步骤S28之后，还包括以下步骤B1至步骤B3。

步骤B1：接收来自所述客户端的第二点击操作，所述第二点击操作为从所述排序结果中确定目标链接的操作。

可以理解的是，用户可以从运行客户端的电子设备展示的排序结果中确定目标链接，即用户认为目标链接对应的子文档可能是自己所需的子文档。

步骤B2：响应所述第二点击操作，从第二数据库存储的多个知识点中获得所述目标链接对应的目标知识点，所述目标知识点包括所述目标子文档以及所述目标子文档对应的索引标识。

示例性的，目标子文档对应的链接与包含该目标子文档的知识点的链接相同。

步骤B3：发送所述目标知识点至所述客户端。

在一可选实现方式中，为了更加快速的得到检索结果，在步骤S21之后，还可以包括以下步骤C1至C2。

示例性的，步骤C1至步骤C2，与步骤S22至步骤S28同时运行。或者，步骤C1至步骤C2，在步骤S22至步骤S28之前，或者，步骤C1至步骤C2，在步骤S22至步骤S28之后。

步骤C1：从第二数据库中搜索与所述查询语句的相关度大于或等于第二阈值的多个知识点。

所述第二数据库存储有多个知识点，所述知识点包括所述子文档以及所述子文档对应的索引标识。

步骤C2：发送所述多个知识点分别对应的链接至所述客户端。

示例性的，可以将步骤C1确定出的多个知识点分别对应的链接按照多个知识点分别与查询语句的相关度进行降序排序，得到排序结果。步骤C2可以将该排序结果发送至客户端。

综上，若步骤C2得到的排序结果的时间早于步骤S23得到多个源文档的链接的时间，则可以将步骤C2得到的排序结果发送至客户端；若步骤S23得到多个源文档的链接的时间早于步骤C2得到的排序结果的时间，则可以将步骤S23得到多个源文档的链接发送至客户端。从而更加快速的响应用户的查询语句。

在一可选实现方式中，从源文档中拆分得到多个知识点的方法包括但不限于以下两种。

第一种方式包括以下步骤D1至步骤D6。

步骤D1：从所述源文档中获得多个子文档。

拆分源文档的方式有多种，本申请实施例提供但不限于以下两种。

第一种步骤D1的实现方式包括：基于自然语言处理技术，拆分所述源文档得到多个子文档。

示例性的，计算源文档中多个段落之间的相关度，将相关度大于或等于阈值A的段落确定为一个子文档；将相关度小于阈值A的不同段落确定为不同子文档。

示例性的，计算源文档中多个语句之间的相关度，将相关度大于或等于阈值A的语句确定为一个子文档；将相关度小于阈值A的不同语句确定为不同子文档。

第二种步骤D1的实现方式包括：根据预设的提取规则从源文档中获得多个子文档。

示例性的，预设的提取规则可以基于源文档的结构设置，例如，源文档包括的内容已被设置大纲级别，提取规则可以为将大纲级别为正文文本的内容确定为子文档，示例性的，将两个大纲级别为非正文文本(例如1级、2级、3级)之间的大纲级别为正文文本的内容确定为一个子文档。

步骤D2：确定所述源文档所属的目标文档类型。

在一可选实现方式中，源文档对应的属性信息还包括源文档所属的目标文档类型。

在一可选实现方式中，可以将源文档输入分类模型，通过分类模型输出源文档的目标文档类型。所述分类模型是将样本源文档作为机器学习模型的输入，将所述样本源文档对应的标注文档类型作为输出，训练机器学习模型得到的。

示例性的，机器学习模型可以为神经网络模型、逻辑回归模型、线性回归模型、支持向量机(SVM)、Adaboost、提升树模型、Transformer-Encoder模型中任一种模型。

示例性的，神经网络模型可以为基于循环神经网络的模型、基于卷积神经网络的模型、基于Transformer-encoder的分类模型中的任一种。

示例性的，机器学习模型可以为基于循环神经网络的模型、基于卷积神经网络的模型以及基于Transformer-encoder的分类模型的深度混合模型。

示例性的，机器学习模型可以为基于注意力的深度模型、基于记忆网络的深度模型、基于深度学习的短文本分类模型中任一种。

基于深度学习的短文本分类模型为循环神经网络(RNN)或卷积神经网络(CNN)或者基于循环神经网络或卷积神经网络的变种。

示例性的，可以在已经预训练好的模型上做一些简单的领域适应性改造，以得到机器学习模型。

示例性的，“简单的领域适应性改造”包括但不限于在已经预训练好的模型上，再次利用大规模无监督领域语料进行二次预训练，和/或，通过模型蒸馏的方式对已经预训练好的模型进行模型压缩。

示例性的，上述训练机器学习模型的过程可以为有监督学习。示例性的，还可以对机器学习模型进行半监督学习。半监督学习是有监督学习与无监督学习相结合的一种学习方法。半监督学习使用大量的未标记数据以及同时使用标记数据，来进行模式识别工作。

示例性的，文档类型包括通用知识类型或专用知识类型。下面举例对文档类型进行说明。

通用知识类型：属于通用知识类型的知识正文知识结构清晰，集中化描述较多的知识。如银行中的坐席知识、企业中的规章制度等，属于通用知识类型的知识正文大部分以段落为单位进行描述知识所包含的内容。

专用知识类型：适用于特定场景的知识，如电信套餐知识、信用卡知识、理财产品知识等。属于专用知识类型的知识正文具有特定的字段，且，通常以条目(非大段落)的形式描述知识所包含的内容。

本申请实施例提及的专用知识类型可以包括理财知识类型、电信套餐知识类型、信用卡知识类型中的任一种。

分类模型可以获得源文档所属的具体专用知识类型，例如，理财知识类型、电信套餐知识类型、信用卡知识类型中的任一种。

步骤D3：从预设的文档类型与拆分模板的对应关系中，查找所述目标文档类型对应的目标拆分模板。

所述目标拆分模板用于指示包含所述子文档的知识点包含的字段，以及，承载所述字段以及所述字段的字段值的预设符号。

示例性的，不同文档类型对应的拆分模板指示的字段不完全相同，或者，完全不同；这是因为属于不同专用知识类型的源文档包含的字段可能不同，可能相同，下面举例进行说明。示例性的，属于理财知识类型的源文档包含的字段包括但不限于：产品编号、产品名称、产品在售状态、货币、预期年收益率、发售地区、发售渠道、七日年化收益等。而属于电芯套餐类型的源文档包含的字段不包括上述字段。

示例性的，不同文档类型对应的拆分模板指示的预设符号可能不同，可能相同。

下面举例对拆分模板进行说明。

假设拆分模板包括以下内容：

[[业务目录:以/为分隔符，分割不同目录层级]]、[[相关知识:相关知识的名称，例如河北ETC的业务办理流程，多个用,分隔]]、[[源文档名称:]]、[[图谱标签:多个标签用,分隔]]、[[个性标签:多个标签用,分隔]]。

其中，预设符号为[[]]；该拆分模板指示的字段包括：业务目录、相关知识、源文档名称、图谱标签、个性标签。该拆分模板还指有从源文档提取相应字段的字段值的规则，以业务目录为例，不同业务目录之间用“/”分隔。

针对每一所述子文档执行步骤D4至步骤D6。

步骤D4：基于所述目标拆分模板从所述源文档中识别出所述子文档对应的所述预设符号。

在一可选实现方式中，源文档对应的属性信息以及源文档共同存储在同一文件，下面以文件为word文件为例进行说明。

如图3所示，为本申请实施例提供的源文档和源文档的属性信息的关系示意图。

示例性的，源文档的属性信息可以包括：源文档所属目标文档类型，或，拆分源文档所需使用的目标拆分模板，如图3所示的“所属类型或所属模板:目标文档类型或目标拆分模板”。

示例性的，源文档的属性信息还可以包括字段，如图3所示的以下内容：业务目录、相关知识、源文档名称、图谱标签、个性标签、机器人知识：$$标准问问题$$、子文档的索引标识。

示例性的，源文档包括字段的字段值，如图3所示的，字段“业务目录”对应的字段值“一级目录/二级目录/三级目录”，字段“相关知识”对应的字段值“河北ETC的业务办理流程，河南ETC的业务办理流程”，字段“源文档名称”对应的字段值“安徽_ETC业务”，字段“图谱标签”对应的字段值“ETC业务，安徽分行，个人客户”，字段“个性标签”对应的字段值“用户1-123，用户2-234”，字段“机器人知识：$$标准问问题$$”对应的字段值“网点人员审核相关资料并留存复印件。补卡业务受理后，网点开具《安徽交通卡(储值卡)业务受理表》，用户签字确认，并将《安徽交通卡(储值卡)业务受理表》(客户联)给用户，原储值卡内余额自动转入新卡。”，字段“子文档的索引标识”对应的字段值“知识点的标题”。

步骤D5：从所述预设符号承载的信息中得到目标字段以及所述目标字段的字段值。

示例性的，识别出预设符号[[]]后，可以从[[]]中获得目标字段以及所述目标字段的字段值。

例如，可以从[[相关知识:河北ETC的业务办理流程，河南ETC的业务办理流程]]中得到字段“相关知识”以及字段值“河北ETC的业务办理流程”以及“河南ETC的业务办理流程”。

示例性的，用户在查看源文档时，源文档中的预设符号以及字段是不可见的，用户在编辑源文档时，源文档中的预设符号以及字段是可见的；示例性的，用户若查看或编辑源文档时，源文档中的预设符号以及字段是可见的。

步骤D6：基于所述子文档以及所述目标字段以及所述目标字段的字段值，形成知识点。

示例性的，知识点可以如表1或表2所示，这里不再赘述。

第二种方式包括以下步骤E1至步骤E2。

若源文档不包括预设符号，则可以通过第二种方式从源文档拆分得到多个知识点。

步骤E1：基于源文档的格式，获得源文档包含的多个子文档。

示例性的，将两个相邻大纲级别为非正文内容(例如大纲级别为1级、2级或3级)的标题之间的内容确定为一个子文档。

步骤E2：对于每一子文档，基于自然语言处理技术，从子文档的内容中得到图谱标签、业务目录等内容，从而形成知识点。

上述本申请公开的实施例中详细描述了方法，对于本申请的方法可采用多种形式的装置实现，因此本申请还公开了一种装置，下面给出具体的实施例进行详细说明。

如图4所示，为本申请实施例提供的数据处理装置的结构图，该数据处理装置包括：第一接收模块41、第一搜索模块42、第一发送模块43、第二接收模块44、计算模块45、第一获取模块46、排序模块47以及第二发送模块48，其中：

第一接收模块41，用于接收来自客户端的查询语句；

第一搜索模块42，用于从第一数据库中搜索与所述查询语句的相关度大于或等于第一阈值的多个源文档，所述第一数据库用于存储源文档，所述源文档包括多个子文档，所述源文档对应有属性特征，所述属性特征包括所述源文档包含的多个子文档分别对应的索引标识；

第一发送模块43，用于发送所述多个源文档的链接至所述客户端；

第二接收模块44，用于接收来自所述客户端的第一点击操作，所述第一点击操作为从所述多个源文档中确定目标源文档的链接的操作；

计算模块45，用于响应所述第一点击操作，计算所述目标源文档包含的多个目标子文档分别与所述查询语句的相关度；

第一获取模块46，用于基于所述目标源文档对应的属性特征，获得所述目标源文档包含的多个目标子文档分别对应的链接；

排序模块47，用于按照所述目标子文档的相关度对所述多个目标子文档分别对应的链接降序排序，得到排序结果；

第二发送模块48，用于发送所述排序结果至所述客户端。

在一可选实现方式中，还包括：

第三接收模块，用于接收来自所述客户端的第二点击操作，所述第二点击操作为从所述排序结果中确定目标链接的操作；

第二获取模块，用于响应所述第二点击操作，从第二数据库存储的多个知识点中获得所述目标链接对应的目标知识点，所述目标知识点包括所述目标子文档以及所述目标子文档对应的索引标识；

第三发送模块，用于发送所述目标知识点至所述客户端。

在一可选实现方式中，还包括：

第二搜索模块，用于从第二数据库中搜索与所述查询语句的相关度大于或等于第二阈值的多个知识点，所述第二数据库存储有多个知识点，所述知识点包括所述子文档以及所述子文档对应的索引标识；

第四发送模块，用于发送所述多个知识点分别对应的链接至所述客户端。

在一可选实现方式中，还包括：

第三获取模块，用于从所述源文档中获得多个子文档；

确定模块，用于确定所述源文档所属的目标文档类型；

查找模块，用于从预设的文档类型与拆分模板的对应关系中，查找所述目标文档类型对应的目标拆分模板，所述目标拆分模板用于指示包含所述子文档的知识点包含的字段，以及，承载所述字段以及所述字段的字段值的预设符号；

识别模块，用于针对每一所述子文档，基于所述目标拆分模板从所述源文档中识别出所述子文档对应的所述预设符号；

第四获取模块，用于从所述预设符号承载的信息中得到目标字段以及所述目标字段的字段值；

形成模块，用于基于所述子文档以及所述目标字段以及所述目标字段的字段值，形成知识点。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

服务器包括但不限于：处理器51、存储器52、网络接口53、I/O控制器54以及通信总线55。

需要说明的是，本领域技术人员可以理解，图5中示出的服务器的结构并不构成对服务器的限定，服务器可以包括比图5所示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

下面结合图5对服务器的各个构成部件进行具体的介绍：

处理器51是服务器的控制中心，利用各种接口和线路连接整个服务器的各个部分，通过运行或执行存储在存储器52内的软件程序和/或模块，以及调用存储在存储器52内的数据，执行服务器的各种功能和处理数据，从而对服务器进行整体监控。处理器51可包括一个或多个处理单元；示例性的，处理器51可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器51中。

处理器51可能是一个中央处理器(CentralProcessing Unit，CPU)，或者是特定集成电路ASIC(Application Specific Integrated Circuit)，或者是被配置成实施本发明实施例的一个或多个集成电路等；

存储器52可能包含内存，例如高速随机存取存储器(Random-Access Memory，RAM)521和只读存储器(Read-Only Memory，ROM)522，也可能还包括大容量存储设备523，例如至少1个磁盘存储器等。当然，该服务器还可能包括其他业务所需要的硬件。

其中，上述的存储器52，用于存储上述处理器51可执行指令。上述处理器51具有以下功能：接收来自客户端的查询语句；

发送所述多个源文档的链接至所述客户端；

发送所述排序结果至所述客户端。

处理器51、存储器52、网络接口53和I/O控制器54可以通过通信总线55相互连接，该通信总线可以是ISA(Industry Standard Architecture，工业标准体系结构)总线、PCI(PeripheralComponent Interconnect，外设部件互连标准)总线或EISA(ExtendedIndustry Standard Architecture，扩展工业标准结构)总线等。所述总线可以分为地址总线、数据总线、控制总线等。

在示例性实施例中，服务器可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述数据处理方法。

在示例性实施例中，本公开实施例提供了一种包括指令的存储介质，例如包括指令的存储器52，上述指令可由服务器的处理器51执行以完成上述方法。可选地，存储介质可以是非临时性计算机可读存储介质，例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

在示例性实施例中，还提供了一种计算机可读存储介质，可直接加载到计算机的内部存储器，例如上述存储器52中，并含有软件代码，该计算机程序经由计算机载入并执行后能够实现上述数据处理方法任一实施例所示步骤。

在示例性实施例中，还提供一种计算机程序产品，可直接加载到计算机的内部存储器，例如所述服务器包含的存储器中，并含有软件代码，该计算机程序经由计算机载入并执行后能够实现上述所述的数据处理方法任一实施例所示步骤。

需要说明的是，本说明书中的各个实施例中记载的特征可以相互替换或者组合。对于装置或系统类实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种数据处理方法，其特征在于，包括：

接收来自客户端的查询语句；

发送所述多个源文档的链接至所述客户端；

发送所述排序结果至所述客户端。

2.根据权利要求1所述数据处理方法，其特征在于，在所述发送所述排序结果至所述客户端步骤之后，还包括：

接收来自所述客户端的第二点击操作，所述第二点击操作为从所述排序结果中确定目标链接的操作；

响应所述第二点击操作，从第二数据库存储的多个知识点中获得所述目标链接对应的目标知识点，所述目标知识点包括所述目标子文档以及所述目标子文档对应的索引标识；

发送所述目标知识点至所述客户端。

3.根据权利要求1所述数据处理方法，其特征在于，在所述接收来自客户端的查询语句步骤之后，还包括：

从第二数据库中搜索与所述查询语句的相关度大于或等于第二阈值的多个知识点，所述第二数据库存储有多个知识点，所述知识点包括所述子文档以及所述子文档对应的索引标识；

发送所述多个知识点分别对应的链接至所述客户端。

4.根据权利要求2或3所述数据处理方法，其特征在于，从所述源文档拆分得到多个知识点的步骤包括：

从所述源文档中获得多个子文档；

确定所述源文档所属的目标文档类型；

从预设的文档类型与拆分模板的对应关系中，查找所述目标文档类型对应的目标拆分模板，所述目标拆分模板用于指示包含所述子文档的知识点包含的字段，以及，承载所述字段以及所述字段的字段值的预设符号；

针对每一所述子文档，基于所述目标拆分模板从所述源文档中识别出所述子文档对应的所述预设符号；

从所述预设符号承载的信息中得到目标字段以及所述目标字段的字段值；

基于所述子文档以及所述目标字段以及所述目标字段的字段值，形成知识点。

5.一种数据处理装置，其特征在于，包括：

第一接收模块，用于接收来自客户端的查询语句；

第二发送模块，用于发送所述排序结果至所述客户端。

6.根据权利要求5所述数据处理装置，其特征在于，还包括：

第三发送模块，用于发送所述目标知识点至所述客户端。

7.根据权利要求5所述数据处理装置，其特征在于，还包括：

8.一种服务器，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求1至4中任一项所述的数据处理方法。

9.一种计算机可读存储介质，当所述存储介质中的指令由服务器的处理器执行时，使得所述服务器能够执行如权利要求1至4中任一项所述的数据处理方法。

10.一种计算机程序产品，可直接加载到计算机的内部存储器，例如权利要求8所述服务器包含的存储器中，并含有软件代码，该计算机程序经由计算机载入并执行后能够实现如权利要求1至4中任一项所述的数据处理方法。