CN111858963B

CN111858963B - 网页客服知识抽取方法及装置

Info

Publication number: CN111858963B
Application number: CN202010735444.5A
Authority: CN
Inventors: 申亚坤
Original assignee: Bank of China Ltd
Current assignee: Bank of China Ltd
Priority date: 2020-07-28
Filing date: 2020-07-28
Publication date: 2024-02-23
Anticipated expiration: 2040-07-28
Also published as: CN111858963A

Abstract

本发明提供了一种网页客服知识抽取方法及装置，涉及数据处理技术领域，该方法包括：获取网页的客服数据；计算客服数据与模板库中各模板的匹配度；模板是用于进行知识拆分的组件；根据匹配度确定目标模板；利用目标模板对网页进行知识抽取。本发明可以根据基于匹配度确定出的目标模板，自动进行知识抽取，得到的抽取结果可用于更新客服知识库，从而提高客服知识库的知识迭代效率。

Description

网页客服知识抽取方法及装置

技术领域

本发明涉及数据处理技术领域，尤其是涉及一种网页客服知识抽取方法及装置。

背景技术

知识抽取即从不同来源、不同结构的数据中进行知识提取，形成知识条目(结构化知识、资源描述框架三元组)存入到知识图谱中，从而进行知识检索和知识推理。客服知识库用于存储知识图谱。客服知识库中存储的基本单元是知识本体，这些知识本体通常是知识维护人员根据业务经验从网页、文档等根据知识模板手动拆解得到，这种方式依赖人工以及知识梳理专家的模板，适用于小数据集。面对海量客服知识时，客服知识库数据更新迭代效率低。

发明内容

本发明提供了一种网页客服知识抽取方法及装置，可以用于提升客服知识库数据更新迭代效率。

第一方面，本发明实施例提供了一种网页客服知识抽取方法，该方法包括：获取所述网页的客服数据；计算所述客服数据与模板库中各模板的匹配度；所述模板是用于进行知识筛选的组件；根据所述匹配度确定目标模板；利用所述目标模板对所述网页进行知识抽取。

第二方面，本发明实施例还提供一种网页客服知识抽取装置，该装置包括：获取模块，用于获取所述网页的客服数据；匹配模块，用于计算所述客服数据与模板库中各模板的匹配度；所述模板是用于进行知识筛选的组件；确定模块，用于根据所述匹配度确定目标模板；抽取模块，用于利用所述目标模板对所述网页进行知识抽取

第三方面，本发明实施例还提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述网页客服知识抽取方法。

第四方面，本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质存储有执行上述网页客服知识抽取方法的计算机程序。

本发明实施例带来了以下有益效果：本发明实施例提供了一种网页客服知识抽取方案，该方案首先获取待进行知识抽取的网页中的客服数据，通过计算客服数据与模板库中各模板之间的匹配度，从而确定目标模板，其中，模板是用于进行知识筛选的组件，最后，根据确定出的目标模板对网页进行知识抽取，从而得到网页客服知识抽取结果。本发明实施例可以根据基于匹配度确定出的目标模板，自动进行知识抽取，得到的抽取结果可用于更新客服知识库，从而提高客服知识库的知识迭代效率。

本发明的其他特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的网页客服知识抽取方法流程图；

图2为本发明实施例提供的网页客服知识抽取方法执行流程示意图；

图3为本发明实施例提供的一种网页客服知识抽取装置结构框图；

图4为本发明实施例提供的另一种网页客服知识抽取装置结构框图；

图5为本发明实施例提供的计算机设备结构框图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

目前，现有的客服知识库依赖人工进行知识抽取进行知识迭代，现有方案存在难以维护、可移植性差、工作量大、自动化程度不高等缺点。

基于此，本发明实施例提供的一种网页客服知识抽取方法及装置，可以针对列表、Html(Hyper Text Markup Language，超级文本标记语言)页面、表格等半结构化数据来源，通过包装器归纳和自动梳理知识完成自动抽取，最终将海量非机构化文档源中的知识自动添加到业务本体知识图谱中，使系统知识有了更新迭代，一定程度上解放了知识管理员的双手，提高了知识迭代效率。

为便于对本实施例进行理解，首先对本发明实施例所公开的一种网页客服知识抽取方法进行详细介绍。

本发明实施例提供了一种网页客服知识抽取方法，参见图1所示的一种网页客服知识抽取方法流程图，该方法包括以下步骤：

步骤S102，获取网页的客服数据。

在本发明实施例中，网页可是待进行知识抽取的网页，网页中包括如客户身份数据、银行卡卡号数据、住址数据、收费数据以及办理条件等客服数据。

步骤S104，计算客服数据与模板库中各模板的匹配度。

在本发明实施例中，模板是用于进行知识筛选的组件。模板中包括例如客户姓名、银行卡卡号、办理条件等项目信息。不同的网页包括不同的项目组合，模板库中包括不同网页创建时所对应的模板。因此，通过计算客服数据与模板库中各模板的匹配度，从而确定模板与网页的匹配情况。

需要说明的是，模板库可以根据要进行知识抽取的网页预先确定。鉴于客服领域网页页面的业务知识很多都是具有相同的模板，针对大量有规律的知识页面，提取有限的知识提取模板，并将知识提取模板存入模板库。模板可以是Xpath(XML Path Language，XML路径语言)或CSS(Cascading Style Sheets，层叠样式表)选择器等具有一定筛选过滤功能的组件。

步骤S106，根据匹配度确定目标模板。

在本发明实施例中，在得到网页与模板之间的匹配度之后，根据匹配度筛选匹配程度较高的模板，作为目标模板。

步骤S108，利用目标模板对网页进行知识抽取。

在本发明实施例中，确定了目标模板之后，利用目标模板对网页进行知识抽取，即从网页中筛选目标模板中各项目对应的数据。例如，目标模板中包括客户姓名项目，则根据目标模板从网页中获取到客户姓名“张三”。从网页中筛选目标模板中各项目对应的客服数据，得到知识抽取结果。

本发明实施例提供了一种网页客服知识抽取方案，该方案首先获取待进行知识抽取的网页中的客服数据，通过计算客服数据与模板库中各模板之间的匹配度，从而确定目标模板，其中，模板是用于进行知识筛选的组件，最后，根据确定出的目标模板对网页进行知识抽取，从而得到网页客服知识抽取结果。本发明实施例可以根据基于匹配度确定出的目标模板，自动进行知识抽取，得到的抽取结果可用于更新客服知识库，从而提高客服知识库的知识迭代效率。

为了进一步提升数据处理效率，获取网页的客服数据之前，还可以执行如下步骤：

利用网页爬取组件，获取网页的业务数据；对业务数据进行清洗处理，得到客服数据。

在本发明实施例中，通过网页爬取程序获取海量的客服业务知识时，首先对网页的业务数据进行数据清洗，去除无效页面、过时页面、错误页面等，将过滤后的页面数据作为客服数据，从而提升数据处理效率以及后续知识抽取的准确率。

为了提升数据抽取结果的准确性，根据匹配度确定目标模板，可以按照如下步骤执行：

若第一模板对应的匹配度大于预设匹配度阈值，且第一模板对应的匹配度大于模板库中任意模板对应的匹配度，则将第一模板作为目标模板。

在本发明实施例中，计算与模板库中已知模板与客服数据的匹配度，当第一模板对应的匹配度大于预设匹配度阈值时，选择匹配度最高的第一模板作为目标模板，进行知识提取。

需要说明的是预设匹配度阈值的大小可以根据实际需求进行设置，本发明实施例对此不作具体限定。

参见图2所示的网页客服知识抽取方法执行流程示意图，其中包装器即为目标模板，通过包装器对网页进行知识提取，得到多个资源描述框架(Resource DescriptionFramework，RDF)。需要说明的是，在确定多个RDF时，也可以同时确定RDF之间的关联关系。从而将多个RDF用于更新本体库，完成客服知识库数据更新迭代。

考虑到网页信息格式以及内容的多样性，为了提升自动化程度，利用目标模板对网页进行知识抽取，可以按照如下步骤执行：

接收网页标注信息；根据网页标注信息，利用目标模板对网页进行知识抽取。

网页标注信息可以是人工发出的信息，例如，目标模板中，客户姓名项目为中文，而网页中姓名信息为英文，为了提升自动化程度，可以人工预先对网页中的信息进行处理或修正，得到网页标注信息，接收人工发送的网页标注信息，基于网页标注信息利用目标模板对网页进行知识抽取。

考虑到网页可能为后补网页或存在特殊知识，该方法还可以执行如下步骤：

若不存在目标模板，则生成知识抽取提醒信息，并将知识抽取提醒信息发送至显示模块，以使显示模块显示抽取提醒信息。

在本发明实施例中，若客服数据与模板库中各模板的匹配度均低于预设匹配度阈值，可确定不存在目标模板，因此，需生成知识抽取提醒信息，将知识抽取提醒信息发送至显示模块，以使显示模块显示抽取提醒信息，从而提醒相关人员采用现有的方法进行知识抽取。

参见图2所示的网页客服知识抽取方法执行流程示意图，对于在模板库中匹配不到拆解模板的网页，采用常规知识抽取方法，即先后通过命名实体识别、术语抽取、关系抽取、共指消解等步骤完成RDF三元组的拆解，最终将审核通过的RDF组存入到本体库中。

本发明实施例提供了一种网页客服知识抽取方法及装置，该方法能够利用大部分业务知识具有相同业务模板的特点，对海量的客服知识采用模板匹配方法进行初步过滤，符合模板的知识进行包装器方式进行拆解，对于模板外知识采用非机构化知识拆解流程进行提取，采用包装器和非机构化知识抽取相结合的方式进行自动知识抽取，在一定程度上解决了管理员的工作量，为本体库补充了一定规模的知识，提升了系统的智能化程度。

本发明实施例中还提供了一种网页客服知识抽取装置，如下面的实施例所述。由于该装置解决问题的原理与网页客服知识抽取方法相似，因此该装置的实施可以参见网页客服知识抽取方法的实施，重复之处不再赘述。参见图3所示的一种网页客服知识抽取装置结构框图，该装置包括：

获取模块71，用于获取网页的客服数据；匹配模块72，用于计算客服数据与模板库中各模板的匹配度；模板是用于进行知识筛选的组件；确定模块73，用于根据匹配度确定目标模板；抽取模块74，用于利用目标模板对网页进行知识抽取。

在一个实施例中，参见图4所示的另一种网页客服知识抽取装置结构框图，该装置还包括预处理模块75，用于：获取网页的业务数据；对业务数据进行清洗处理，得到客服数据。

在一个实施例中，确定模块，具体用于：若第一模板对应的匹配度大于预设匹配度阈值，且第一模板对应的匹配度大于模板库中任意模板对应的匹配度，将第一模板作为目标模板。

在一个实施例中，抽取模块，具体用于：接收网页标注信息；根据网页标注信息，利用目标模板对网页进行知识抽取。

在一个实施例中，参见图4所示的另一种网页客服知识抽取装置结构框图，该装置还包括生成模块76，用于：若不存在目标模板，则生成知识抽取提醒信息，并将知识抽取提醒信息发送至显示模块，以使所述显示模块显示所述抽取提醒信息。

本发明实施例还提供一种计算机设备，参见图5所示的计算机设备结构示意框图，该计算机设备包括存储器81、处理器82及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述任一种网页客服知识抽取方法的步骤。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的计算机设备的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

本发明实施例还提供一种计算机可读存储介质，计算机可读存储介质存储有执行上述任一种网页客服知识抽取方法的计算机程序。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

最后应说明的是：以上所述实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种客服知识库数据更新方法，其特征在于，包括：

获取网页的客服数据；

计算所述客服数据与模板库中各模板的匹配度；所述模板是用于进行知识筛选的组件，所述模板包括基于路径选择语言XML组件、层叠样式表CSS选择器组件；

根据所述匹配度确定目标模板；

利用所述目标模板对所述网页进行知识抽取；

根据所述匹配度确定目标模板，包括：

若第一模板对应的匹配度大于预设匹配度阈值，且所述第一模板对应的匹配度大于所述模板库中任意模板对应的匹配度，则将所述第一模板作为目标模板；

通过所述目标模板对网页进行知识抽取，得到多个资源描述框架RDF，确定多个RDF之间的关联关系，更新本体库；所述本体库用于完成客服知识库数据更新迭代；

获取所述网页的客服数据之前，还包括：

利用网页爬取组件，获取所述网页的业务数据；

对所述网页的业务数据进行清洗处理，去除无效页面、过时页面、错误页面，将过滤后的页面数据作为客服数据。

2.根据权利要求1所述的方法，其特征在于，利用所述目标模板对所述网页进行知识抽取，包括：

接收网页标注信息；

根据所述网页标注信息，利用所述目标模板对所述网页进行知识抽取。

3.根据权利要求1所述的方法，其特征在于，还包括：

若不存在目标模板，则生成知识抽取提醒信息，并将所述知识抽取提醒信息发送至显示模块，以使所述显示模块显示所述抽取提醒信息。

4.一种客服知识库数据更新装置，其特征在于，包括：

获取模块，用于获取网页的客服数据；

匹配模块，用于计算所述客服数据与模板库中各模板的匹配度；所述模板是用于进行知识筛选的组件，所述模板包括基于路径选择语言XML、层叠样式表CSS选择器组件；

确定模块，用于根据所述匹配度确定目标模板；

抽取模块，用于利用所述目标模板对所述网页进行知识抽取，通过所述目标模板对网页进行知识抽取，得到多个资源描述框架RDF，确定多个RDF之间的关联关系，更新本体库；

所述确定模块，具体用于：

若第一模板对应的匹配度大于预设匹配度阈值，且所述第一模板对应的匹配度大于所述模板库中任意模板对应的匹配度，将所述第一模板作为目标模板；

还包括预处理模块，用于：

利用网页爬取组件，获取所述网页的业务数据；

5.根据权利要求4所述的装置，其特征在于，所述抽取模块，具体用于：

接收网页标注信息；

6.根据权利要求4所述的装置，其特征在于，还包括生成模块，用于：

7.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至3任一所述方法。

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1至3任一所述方法。