CN113011152B

CN113011152B - 文本处理方法、装置、设备及计算机可读存储介质

Info

Publication number: CN113011152B
Application number: CN202110241509.5A
Authority: CN
Inventors: 冯杨阳
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-03-04
Filing date: 2021-03-04
Publication date: 2022-08-26
Anticipated expiration: 2041-03-04
Also published as: CN113011152A

Abstract

本申请实施例提供了一种文本处理方法、装置、设备及计算机可读存储介质，包括：获取至少两个待处理文本；确定各待处理文本之间的相似度；根据各待处理文本之间的相似度和预设的相似度阈值，确定至少两个第一文本；对至少两个第一文本进行识别，确定至少两个第一文本分别对应的类别，以及从至少两个第一文本确定出每一类别对应的第二文本；根据预设的实体词，从各第二文本中确定得到用于提取三元组的第二文本。该方法通过上述处理，从待处理文本中筛除了无三元组的样本和包括重复的三元组的样本，从而可以向人工样本标注提供有效的样本，提升了人工智能的知识图谱领域中的人工样本标注的效率。

Description

文本处理方法、装置、设备及计算机可读存储介质

技术领域

本申请涉及计算机技术领域，具体而言，本申请涉及一种文本处理方法、装置、设备及计算机可读存储介质。

背景技术

自然语言处理技术早已深入了我们的日常生活。很多人都没有意识到，我们每天都在享受自然语言处理技术提供的便利，例如，拼音输入法。不仅如此，自然语言处理通过深度学习的方式影响了各个方向，极大推动了自然语言处理的发展，深度学习的诸多局限性也慢慢得到广泛认知。对于自然语言处理而言，要做到精细深度的语义理解，单纯依靠数据标注与算力投入无法解决本质问题。例如，“冬天，能穿多少穿多少”与“夏天，能穿多少穿多少”，在计算机看来语义上并没有巨大差异，而实际上两句中的“穿多少”意思正好相反。因此，融入知识来进行知识指导的自然语言处理，是通向精细而深度的语言理解的必由之路。

现有技术中，知识获取通过人工样本标注来提取三元组，即三元组关系，随着三元组的不断扩充，由于出现越来越多的无效样本，从而导致人工样本标注的效率降低。

发明内容

本申请针对现有的方式的缺点，提出一种文本处理方法、装置、设备及计算机可读存储介质，用以解决如何提升样本标注的效率的问题。

第一方面，本申请提供了一种文本处理方法，包括：

获取至少两个待处理文本；

确定各待处理文本之间的相似度；

根据各待处理文本之间的相似度和预设的相似度阈值，确定至少两个第一文本；

对至少两个第一文本进行识别，确定至少两个第一文本分别对应的类别，以及从至少两个第一文本确定出每一类别对应的第二文本；

根据预设的实体词，从各第二文本中确定得到用于提取三元组的第二文本。

在一个实施例中，在获取至少两个待处理文本之前，还包括：

获取原始样本；

基于预设的字符长度、预设的标识中至少一项，将原始样本拆分成至少两个待处理文本。

在一个实施例中，确定各待处理文本之间的相似度，包括：

确定各待处理文本的词向量；

根据各待处理文本的词向量之间的夹角，确定各待处理文本之间的相似度。

在一个实施例中，根据各待处理文本之间的相似度和预设的相似度阈值，确定至少两个第一文本，包括：

针对一个待处理文本，当一个待处理文本与除一个待处理文本之外的任一待处理文本之间的相似度大于相似度阈值，则将一个待处理文本确定为第一文本。

在一个实施例中，对至少两个第一文本进行识别，确定至少两个第一文本分别对应的类别，以及从至少两个第一文本确定出每一类别对应的第二文本，包括：

将至少两个第一文本的词向量进行聚类识别，确定至少两个第一文本分别对应的类别，以及每一类别对应的聚类中心点；

针对每一聚类中心点，将与每一聚类中心点距离最近的词向量对应的第一文本确定为第二文本。

在一个实施例中，根据预设的实体词，从各第二文本中确定得到用于提取三元组的第二文本，包括：

当确定第二文本中包括实体词，则将第二文本确定为用于提取三元组的样本，三元组包括的实体对应实体词。

在一个实施例中，在根据预设的实体词，从各第二文本中确定得到用于提取三元组的第二文本之后，还包括：

从用于提取三元组的样本中提取到至少一个三元组；

当至少一个三元组中的一个三元组包括的第一实体、第二实体、第一实体与第二实体之间的关系中的至少一项与预设的知识图谱中的各实体、各实体之间的关系中的任一项不同，则将一个三元组加入至知识图谱中，并将一个三元组对应的用于提取三元组的样本确定为待标注样本。

在一个实施例中，获取原始样本，包括：

根据实体词，通过预设的脚本，从超文本标记语言页面中获取原始样本。

第二方面，本申请提供了一种文本处理装置，包括：

第一处理模块，用于获取至少两个待处理文本；

第二处理模块，用于确定各待处理文本之间的相似度；

第三处理模块，用于根据各待处理文本之间的相似度和预设的相似度阈值，确定至少两个第一文本；

第四处理模块，用于对至少两个第一文本进行识别，确定至少两个第一文本分别对应的类别，以及从至少两个第一文本确定出每一类别对应的第二文本；

第五处理模块，用于根据预设的实体词，从各第二文本中确定得到用于提取三元组的第二文本。

第三方面，本申请提供了一种电子设备，包括：处理器、存储器和总线；

总线，用于连接处理器和存储器；

存储器，用于存储操作指令；

处理器，用于通过调用操作指令，执行本申请第一方面的文本处理方法。

第四方面，本申请提供了一种计算机可读存储介质，存储有计算机程序，计算机程序被用于执行本申请第一方面的文本处理方法。

本申请实施例提供的技术方案，至少具有如下有益效果：

获取至少两个待处理文本；确定各待处理文本之间的相似度；根据各待处理文本之间的相似度和预设的相似度阈值，确定至少两个第一文本；对至少两个第一文本进行识别，确定至少两个第一文本分别对应的类别，以及从至少两个第一文本确定出每一类别对应的第二文本；根据预设的实体词，从各第二文本中确定得到用于提取三元组的第二文本；如此通过上述处理，从待处理文本中筛除了无三元组的样本和包括重复的三元组的样本，从而可以向人工样本标注提供有效的样本，提升了知识图谱领域中的人工样本标注的效率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对本申请实施例描述中所需要使用的附图作简单地介绍。

图1为本申请实施例提供的系统架构的示意图；

图2为本申请实施例提供的一种文本处理方法的流程示意图；

图3为本申请实施例提供的另一种文本处理方法的流程示意图；

图4为本申请实施例提供的文本处理的示意图；

图5为本申请实施例提供的一种文本处理装置的结构示意图；

图6为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

为使得本申请的发明目的、特征、优点能够更加的明显和易懂，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而非全部实施例。基于本申请中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

下面详细描述本申请的实施例，该实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本申请，而不能解释为对本申请的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本申请的说明书中使用的措辞“包括”是指存在特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

本申请实施例是针对知识图谱领域中的人工样本标注提供的一种文本处理方法，该文本处理方法涉及人工智能领域中的自然语言处理技术领域，例如知识图谱，以及云技术的多种领域，例如云技术中的云计算、云服务等。

人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

云计算(cloud computing)是一种计算模式，它将计算任务分布在大量计算机构成的资源池上，使各种应用系统能够根据需要获取计算力、存储空间和信息服务。提供资源的网络被称为“云”。“云”中的资源在使用者看来是可以无限扩展的，并且可以随时获取，按需使用，随时扩展，按使用付费。

作为云计算的基础能力提供商，会建立云计算资源池(简称云平台，一般称为IaaS(Infrastructure as a Service，基础设施即服务)平台，在资源池中部署多种类型的虚拟资源，供外部客户选择使用。云计算资源池中主要包括：计算设备(为虚拟化机器，包含操作系统)、存储设备、网络设备。

按照逻辑功能划分,在IaaS(Infrastructure as a Service，基础设施即服务)层上可以部署PaaS(Platform as a Service,平台即服务)层，PaaS层之上再部署SaaS(Software as a Service,软件即服务)层，也可以直接将SaaS部署在IaaS上。PaaS为软件运行的平台，如数据库、web容器等。SaaS为各式各样的业务软件，如web门户网站、短信群发器等。一般来说，SaaS和PaaS相对于IaaS是上层。

所谓人工智能云服务，一般也被称作是AIaaS(AI as a Service，中文为“AI即服务”)。这是目前主流的一种人工智能平台的服务方式，具体来说AIaaS平台会把几类常见的AI服务进行拆分，并在云端提供独立或者打包的服务。这种服务模式类似于开了一个AI主题商城：所有的开发者都可以通过API接口的方式来接入使用平台提供的一种或者是多种人工智能服务，部分资深的开发者还可以使用平台提供的AI框架和AI基础设施来部署和运维自已专属的云人工智能服务。

为了更好的理解及说明本申请实施例的方案，下面对本申请实施例中所涉及到的一些技术用语进行简单说明。

知识图谱(Knowledge Graph)：知识图谱在图书情报界称为知识域可视化或知识领域映射地图，知识图谱是显示知识发展进程与结构关系的一系列各种不同的图形，用可视化技术描述知识资源及其载体，挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。知识图谱本质上是一种语义网络，一个网状知识库。知识图谱用图的形式表示知识，描述客观事物；这里的图指的是数据结构中的图，也就是由节点和边组成。知识图谱中的节点表示概念和实体，概念是抽象出来的事物，实体是具体的事物；边表示事物的关系和属性，事物的内部特征用属性来表示，外部联系用关系来表示。

三元组：三元组为知识图谱的基本组成单位，三元组可以为<实体1，关系，实体2>，三元组也可以为<实体，属性，属性值>。

实体：现实世界中具有可区别性且独立存在的某种事务，例如：人名、地名、游戏名称等。

三元组关系抽取：三元组关系定义为两个或多个实体之间的联系，三元组关系抽取就是通过学习文本中多实体之间的语义联系，来识别其关系。三元组关系抽取的输入是一段或者一句文本，输出通常是至少一个三元组：<实体1，关系，实体2>。例如，输入文本“张三的妹妹是小红”，经过关系抽取后，输出的三元组为<张三，妹妹，小红>，<小红，哥哥，张三>。

Scrapy框架爬虫：Scrapy是爬虫框架，是使用Python编写的；Scrapy可以很方便的进行Web(World Wide Web，全球广域网)抓取，并且也可以很方便的根据自己的需求进行定制。

Goose3库：Goose3库是一个文章内容提取器，可以从任意资讯文章类的网页中提取文章主体，并提取标题、标签、摘要、图片、视频等信息，且支持中文网页。

Python：一种计算机编程语言，Python提供了高效的高级数据结构，还能简单有效地面向对象编程；Python语法和动态类型，以及解释型语言的本质，使它成为多数平台上写脚本和快速开发应用的编程语言。

TF-IDF算法：一个词的权重由TF×IDF表示，其中TF表示词频，即一个词在这篇文本中出现的频率；IDF表示逆文档频率，即一个词在所有文本中出现的频率倒数。

BM25算法：对查询句子进行分词，每个词作为qi；对于搜索到的句子d，计算每个词qi与d的相关度得分，将qi与d的相关性得分进行加权求和，从而得到查询句子与检索句子的相关性得分。

Simhash算法：Simhash算法的主要思想是降维，将文本分词结果从一个高维向量映射成一个0和1组成的bit指纹，然后通过比较这个二进制数字串的差异进而来表示原始文本内容的差异。

DB-SCAN算法：根据预先给定的邻域半径参数和最小簇样本数(默认为2)，利用DB-SCAN算法对文本进行聚类。DB-SCAN需要两个参数：ε(eps)和形成高密度区域所需要的最少点数(minPts)，由一个任意未被访问的点开始，然后探索这个点的ε-邻域，如果ε-邻域里有足够的点，则建立一个新的聚类，否则这个点被标签为杂音。注意这个点之后可能被发现在其它点的ε-邻域里，而该ε-邻域可能有足够的点，届时这个点会被加入该聚类中。如果一个点位于一个聚类的密集区域里，一个点的ε-邻域里的点也属于该聚类，当这些新的点被加进聚类后，如果这些新的点也在密集区域里，这些新的点的ε-邻域里的点也会被加进聚类里。这个过程将一直重复，直至不能再加进更多的点为止，这样，一个密度连结的聚类被完整地找出来。然后，一个未曾被访问的点将被探索，从而发现一个新的聚类或杂音。

K均值聚类算法：K均值聚类算法(K-means clustering algorithm)是一种迭代求解的聚类分析算法，其步骤是，预先将数据分为K组，随机选取K个对象作为初始的聚类中心，然后计算每个对象与各个种子聚类中心之间的距离，把每个对象分配给距离它最近的聚类中心。聚类中心以及分配给它们的对象就代表一个聚类。每分配一个样本，聚类的聚类中心会根据聚类中现有的对象被重新计算。这个过程将不断重复直到满足某个终止条件。终止条件可以是没有(或最小数目)对象被重新分配给不同的聚类，没有(或最小数目)聚类中心再发生变化，误差平方和局部最小。由于K-means属于无监督机器学习方法，因此事先只能制定结果聚类的数目，例如K值为2，而无法为每一类指定具体的类别名。

jieba：jieba是一个python实现的中文分词组件，支持简、繁体中文，高级用户还可以加入自定义词典以提高分词的准确率。

本申请实施例提供的方案涉及人工智能的知识图谱技术，下面以具体的实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图，对本申请的实施例进行描述。

本申请实施例所提供的方案可以适用于知识图谱领域中任意需要人工样本标注的应用场景，通过该方案可以对原始样本进行处理，从原始样本中筛除无三元组的样本和包括重复的三元组的样本，从而可以向人工样本标注提供有效的样本，提升了知识图谱领域中的人工样本标注的效率。为了更好的理解本申请实施例提供的方案，下面结合具体的一个应用场景对该方案进行说明。

在一个实施例中，图1中示出了本申请实施例所适用的一种文本处理系统的结构示意图，可以理解的是，本申请实施例所提供的文本处理方法可以适用于但不限于应用于如图1所示的应用场景中。

本示例中，如图1所示，该示例中的文本处理系统可以包括但不限于服务器101、网络102、安装了客户端程序的用户终端103。用户终端103可以通过网络102与服务器101通信。服务器101包括的数据库1011和处理引擎1012。用户终端103中包括人机交互屏幕1031(应用程序的用户界面)，处理器1032及存储器1033；其中，人机交互屏幕1031用于用户通过该人机交互屏幕浏览原始样本，处理器1032用于处理该用户的相关操作，存储器1033用于存储该原始样本。

如图1所示，本申请中的文本处理方法的具体实现过程可以包括步骤S1-S6：

步骤S1，对于任一用户，可以通过用户终端103的人机交互屏幕1031浏览原始样本，用户终端103将原始样本发送给服务器101。

步骤S2，服务器101中的处理引擎1012获取原始样本，并通过原始样本得到多个待处理文本；其中，服务器101中的数据库1011可以用于存储原始样本和待处理文本。

步骤S3，服务器101中的处理引擎1012确定各待处理文本之间的相似度，并根据各待处理文本之间的相似度和预设的相似度阈值，确定多个第一文本；其中，服务器101中的数据库1011还可以用于存储各待处理文本之间的相似度、预设的相似度阈值和第一文本。

步骤S4，服务器101中的处理引擎1012对多个第一文本进行识别，确定多个第一文本分别对应的类别，以及从多个第一文本确定出每一类别对应的第二文本；其中，服务器101中的数据库1011还可以用于存储多个第一文本分别对应的类别和第二文本。

步骤S5，服务器101中的处理引擎1012根据预设的实体词，从各第二文本中确定得到用于提取三元组的第二文本；其中，服务器101中的数据库1011还可以用于存储实体词和用于提取三元组的第二文本。

步骤S6，服务器101将用于提取三元组的第二文本发送给客户端103。

可理解，上述仅为一种示例，本实施例在此不作限定。

其中，服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network，内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器或服务器集群。上述网络可以包括但不限于：有线网络，无线网络，其中，该有线网络包括：局域网、城域网和广域网，该无线网络包括：蓝牙、Wi-Fi及其他实现无线通信的网络。用户终端可以是智能手机(如Android手机、iOS手机等)、平板电脑、笔记本电脑、数字广播接收器、MID(Mobile InternetDevices，移动互联网设备)、PDA(个人数字助理)、台式计算机、车载终端(例如车载导航终端)、智能音箱、智能手表等，用户终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，但并不局限于此。具体也可基于实际应用场景需求确定，在此不作限定。

参见图2，图2示出了本申请实施例提供的一种文本处理方法的流程示意图，其中，该方法可以由任一电子设备执行，如可以是服务器，作为一可选实施方式，该方法可以由服务器执行，为了描述方便，在下文的一些可选实施例的描述中，将以服务器作为该方法执行主体为例进行说明。如图2所示，本申请实施例提供的文本处理方法包括如下步骤：

S101，获取至少两个待处理文本。

在一个实施例中，基于知识图谱的构成方向，获取与知识图谱的构成方向相关的多个待处理文本。

知识图谱的构成方向可以是以人物、物品的品牌、物品的价格、商家等作为目标。例如，知识图谱的构成方向的目标人物为李四，待处理文本中包括李四的同学是王五，则可以从该待处理文本中提取三元组<李四，同学，王五>。

在一个实施例中，在获取至少两个待处理文本之前，可以构建初始的知识图谱，知识图谱为知识库。例如，初始的知识图谱的构成方向的目标人物为刘三，由于刘三为明星，可以通过预设的脚本爬取影视剧、歌曲等内容，通过搜索引擎从影视剧、歌曲中查找刘三的文本信息。

举例说明：

<dt class＝“basicInfo-item name>别&nbsp；&nbsp；&nbsp；&nbsp；名

</dt>

刘三(原名)、刘星、刘新、小刘

</dd>

需要说明的是，获取<basicinfo-itemvalue>后的文本信息，文本信息包括刘三(原名)、刘星、刘新、小刘，直到</dd>结束，并导出人名、别名两个字段；其中，人名为刘三，别名包括刘星、刘新和小刘。

在一个实施例中，如表1所示，对导出人名、别名通过“、”进行分列，将A列作为实体1，关系定义为别名，B列、C列和D列都作为实体2，其中，实体1为刘三，实体2为刘星、刘新或小刘；如表2所示，构建的三元组为<刘三，别名，刘星>、<刘三，别名，刘新>和<刘三，别名，小刘>，并将上述<刘三，别名，刘星>、<刘三，别名，刘新>和<刘三，别名，小刘>纳入知识库，即初始的知识图谱，从而构建了初始的知识图谱。可以通过获取多个待处理文本，并从多个待处理文本中筛选得到多个三元组，将多个三元组纳入到初始的知识图谱，从而实现了对初始的知识图谱的扩展。表1和表2如下所示：

表1人名、别名分列

A	B	C	D
				人名	别名
刘三	刘星、	刘新、	小刘

表2三元组

刘三	别名	刘星
			刘三	别名	刘新
刘三	别名	小刘

在一个实施例中，在获取至少两个待处理文本之前，还包括步骤A1-A2：

步骤A1，获取原始样本。

在一个实施例中，定向获取数据源，例如，艺人人物关系可从娱乐圈新闻获取，定向获取自媒体门户网站；根据自媒体门户网站中的【娱乐】标签或相关标签，通过Python编程语言编写Scrapy框架爬虫，并使用Goose3库对URL(Uniform Resource Locator，统一资源定位器)发起请求；获取对应HTML(HyperText Markup Language，超文本标记语言)信息，根据HTML信息，通过集成提取器获取HTML页面对应的HTML标题title和HTML内容content对象；根据HTML标题和HTML内容对象，生成原始样本。

在一个实施例中，获取原始样本，包括：

在一个实施例中，实体词可以是人名、地名、物品名等；实体词可通过网上开源直接获取，或通过自定义词库配置理想的实体词。预设的脚本可以是一种按照一定的规则，自动地抓取万维网信息的程序。通过预设的脚本，从超文本标记语言HTML页面中获取原始样本。

步骤A2，基于预设的字符长度、预设的标识中至少一项，将原始样本拆分成至少两个待处理文本。

在一个实施例中，原始样本为待人工进行标注的样本，根据预设的固定格式，对原始样本进行拆分，生成若干片段，每个片段是一个待处理文本；其中，固定格式可以是通过标点符号对原始样本进行拆分，也可以是根据字符数量对原始样本进行拆分，预设的标识可以为标点符号，预设的字符长度可以为字符数量。

S102，确定各待处理文本之间的相似度。

在一个实施例中，通过TF-IDF算法、BM25算法、Simhash算法等算法中任意一种，确定各待处理文本之间的相似度。

在一个实施例中，确定各待处理文本之间的相似度，包括步骤B1-B2：

步骤B1，确定各待处理文本的词向量。

在一个实施例中，确定待处理文本S的词向量和待处理文本Q的词向量，包括步骤B11-B14：

步骤B11，对待处理文本S和待处理文本Q进行分词。

在一个实施例中，分词有专门的分词工具，例如，通过python的jieba进行分词。

在一个实施例中，分词是将句子拆分成一个一个的词，待处理文本S为句子S，待处理文本Q为句子Q，用符号“/”对句子S和句子Q进行分词。

举例说明，句子S：刘三/喜欢/看/喜剧片，不/喜欢/看/科幻片。句子Q：刘三/不/喜欢/看/喜剧片，也/不/喜欢/看/科幻片。

步骤B12，列出句子S和句子Q进行分词后得到的所有的词。

举例说明，所有的词包括：刘三，喜欢，看，喜剧片，科幻片，不，也。

步骤B13，计算所有的词中各词的词频。

举例说明，计算得到句子S中各词的词频：刘三的词频为1，喜欢的词频为2，看的词频为2，喜剧片的词频为1，科幻片的词频为1，不的词频为1，也的词频为0。计算得到句子Q中各词的词频：刘三的词频为1，喜欢的词频为2，看的词频为2，喜剧片的词频为1，科幻片的词频为1，不的词频为2，也的词频为1。

步骤B14，确定词频向量。

举例说明，确定句子S的词频向量为[1,2,2,1,1,1,0]，确定句子Q的词频向量为[1,2,2,1,1,2,1]；词频向量为词向量。

步骤B2，根据各待处理文本的词向量之间的夹角，确定各待处理文本之间的相似度。

在一个实施例中，根据两个待处理文本的词向量之间的夹角，确定这两个词向量之间的余弦相似度，即这两个待处理文本之间的相似度。

举例说明，计算待处理文本A的词向量A和待处理文本B的词向量B之间的余弦相似度的公式(1)如下所示：

公式(1)中，A为词向量A，B为词向量B，θ为词向量A和词向量B之间的夹角，cosθ为余弦相似度，cosθ为待处理文本A和待处理文本B之间的相似度。

S103，根据各待处理文本之间的相似度和预设的相似度阈值，确定至少两个第一文本。

在一个实施例中，各待处理文本之间的相似度为余弦相似度，当余弦相似度的值越大，则各待处理文本之间越相似。相似度阈值可以为小于等于1的实数，例如，相似度阈值为0.8。

在一个实施例中，共有四个待处理文本，分别为待处理文本1、待处理文本2、待处理文本3和待处理文本4。待处理文本1、待处理文本2、待处理文本3、待处理文本4两两之间的相似度如表3所示，相似度阈值为0.8。表3如下所示：

表3相似度

	待处理文本1	待处理文本2	待处理文本3	待处理文本4
					待处理文本1	/	0.1	0.3	0.25
待处理文本2	0.1	/	0.03	0.85
					待处理文本3	0.3	0.03	/	0.96
待处理文本4	0.25	0.85	0.96	/

其中，待处理文本1与待处理文本2之间的相似度为0.1，待处理文本1与待处理文本3之间的相似度为0.3，待处理文本1与待处理文本4之间的相似度为0.25，因为相似度0.1、相似度0.3和相似度0.25都小于相似度阈值0.8，则确定待处理文本1不是第一文本；待处理文本2与待处理文本1之间的相似度为0.1，待处理文本2与待处理文本3之间的相似度为0.03，待处理文本2与待处理文本4之间的相似度为0.85，因为相似度0.85大于相似度阈值0.8，则确定待处理文本2是第一文本；待处理文本3与待处理文本1之间的相似度为0.3，待处理文本3与待处理文本2之间的相似度为0.03，待处理文本3与待处理文本4之间的相似度为0.96，因为相似度0.96大于相似度阈值0.8，则确定待处理文本3是第一文本；待处理文本4与待处理文本1之间的相似度为0.25，待处理文本4与待处理文本2之间的相似度为0.85，待处理文本4与待处理文本3之间的相似度为0.96，因为相似度0.85和相似度0.96大于相似度阈值0.8，则确定待处理文本4是第一文本。由上述可知，待处理文本1不是第一文本；待处理文本2、待处理文本3和待处理文本4都是第一文本。

S104，对至少两个第一文本进行识别，确定至少两个第一文本分别对应的类别，以及从至少两个第一文本确定出每一类别对应的第二文本。

在一个实施例中，通过聚类算法，对N个第一文本进行识别，确定N个第一文本分别对应的类别，并确定M种类别，其中，M小于等于N，N和M都为正整数。当从归属于同一类别的多个第一文本中选择一个第一文本作为第二文本，则可以从N个第一文本中选择M个第一文本作为第二文本。聚类算法可以是DB-SCAN算法、K均值聚类算法等。

在一个实施例中，对至少两个第一文本进行识别，确定至少两个第一文本分别对应的类别，以及从至少两个第一文本确定出每一类别对应的第二文本，包括步骤C1-C2：

步骤C1，将至少两个第一文本的词向量进行聚类识别，确定至少两个第一文本分别对应的类别，以及每一类别对应的聚类中心点。

在一个实施例中，在K均值聚类算法中，可以预先将要聚类的多个对象分为K组，其中，一个对象为一个第一文本的词向量V，K是预设的正整数。可以随机选取K个对象作为初始的聚类中心。然后，可以计算要聚类的每个对象与各个聚类中心之间的距离，并把每个对象分配给距离最近的聚类中心。针对每个聚类，每分配一个对象，需要基于该类别中包括的对象之间的距离重新计算该聚类的聚类中心，其中，对象之间的距离可以为余弦距离。上述过程将不断重复直到满足终止条件。在一些实现方式中，终止条件可以是没有(或小于最小数量的)对象被重新分配给不同的聚类，或没有(或小于最小数量的)聚类中心发生变化，或各聚类的误差平方和局部最小。利用K均值聚类算法可以将多个第一文本的词向量V聚类成K个不同的类别，其中每个类别中包括至少一个第一文本的词向量V。可以将一个词向量V所属的类别确定为该词向量V对应的第一文本的类别。

步骤C2，针对每一聚类中心点，将与每一聚类中心点距离最近的词向量对应的第一文本确定为第二文本。

在一个实施例中，在K均值聚类算法中，针对K个聚类中心，将与K个聚类中心中每一聚类中心点距离最近的词向量V对应的第一文本确定为第二文本，从而可以确定K个第二文本。

本申请实施例中，针对每一聚类中心点，将与每一聚类中心点距离最近的词向量对应的第一文本确定为第二文本，实现了从同一聚类中心点对应的多个词向量中选择最优的一个词向量，筛除了其他词向量，即将同一类别的多个第一文本中重复类似的第一文本进行筛除，只保留一个第一文本作为第二文本，降低了人工样本标注的重复操作，提高了人工样本标注的效率。

S105，根据预设的实体词，从各第二文本中确定得到用于提取三元组的第二文本。

在一个实施例中，基于知识图谱的构成方向，进行预设的实体词的构建，例如，初始的知识图谱的构成方向的目标人物为刘三，则构建的实体词包括刘三。

举例说明，将第二文本与预设的实体词进行匹配，实体词为刘三，当确定第二文本中包括刘三，则将第二文本确定为用于提取三元组的样本，其中，三元组可以为<刘三，别称，刘星>、<刘三，别称，刘新>、<刘三，别称，小刘>等。

在一个实施例中，在根据预设的实体词，从各第二文本中确定得到用于提取三元组的第二文本之后，还包括步骤D1-D2：

步骤D1，从用于提取三元组的样本中提取到至少一个三元组。

在一个实施例中，从用于提取三元组的样本中提取到至少一个三元组，即进行三元组关系抽取。三元组关系抽取的输入是用于提取三元组的样本，输出是至少一个三元组：<实体1，关系，实体2>。例如，输入用于提取三元组的样本“张三的妹妹是小红”，通过三元组关系抽取后，输出的三元组为<张三，妹妹，小红>和<小红，哥哥，张三>。

步骤D2，当至少一个三元组中的一个三元组包括的第一实体、第二实体、第一实体与第二实体之间的关系中的至少一项与预设的知识图谱中的各实体、各实体之间的关系中的任一项不同，则将一个三元组加入至知识图谱中，并将一个三元组对应的用于提取三元组的样本确定为待标注样本。

在一个实施例中，三元组：<实体1，关系，实体2>，其中，实体1为第一实体，实体2为第二实体，关系为第一实体与第二实体之间的关系。例如，通过三元组关系抽取的三元组为<张三，妹妹，小红>，预设的知识图谱中的三元组为<张三，妹妹，小兰>，当三元组<张三，妹妹，小红>的实体小红与预设的知识图谱中的三元组<张三，妹妹，小兰>的实体小兰不同，则将三元组<张三，妹妹，小红>加入至知识图谱中，并将三元组<张三，妹妹，小红>对应的用于提取三元组的样本确定为待标注样本。将三元组<张三，妹妹，小红>高亮提示用户。

本申请实施例中，从待处理文本中筛除了无三元组的样本和包括重复的三元组的样本，从而可以向人工样本标注提供有效的样本，提升了知识图谱领域中的人工样本标注的效率。

为了更好的理解本申请实施例所提供的方法，下面结合具体应用场景的示例对本申请实施例的方案进行进一步说明。

本申请实施例所提供的文本处理方法应用于知识图谱，例如，知识图谱的人工样本标注。

参见图3，图3示出了本申请实施例提供的另一种文本处理方法的流程示意图，其中，该方法可以由任一电子设备执行，如可以是服务器，作为一可选实施方式，将以服务器作为该方法执行主体为例进行说明。如图3所示，本申请实施例提供的文本处理方法包括如下步骤：

S201，根据知识图谱的构成方向，构建初始的知识图谱。

在一个实施例中，构建初始的知识图谱，知识图谱为知识库。例如，知识图谱的构成方向的目标人物为李三，由于李三为体育明星，可以通过预设的脚本爬取体育赛事等内容，通过搜索引擎从体育赛事中查找李三的文本信息，根据李三的文本信息，确定多个三元组，由多个三元组构建初始的知识图谱。

S202，定向获取数据源，生成原始样本。

在一个实施例中，知识图谱的构成方向的目标人物为李三，由于李三为体育明星，数据源为体育赛事新闻，体育人物关系可从体育赛事新闻获取，定向获取自媒体门户网站；根据自媒体门户网站中的【体育】标签或相关标签，通过Python编程语言编写Scrapy框架爬虫，并使用Goose3库对URL发起请求；获取对应HTML信息，根据HTML信息，通过集成提取器获取HTML页面对应的HTML标题和HTML内容对象；根据HTML标题和HTML内容对象，生成原始样本。

S203，基于预设的字符长度、预设的标识中至少一项，将原始样本拆分成多个待处理文本。

在一个实施例中，对原始样本进行拆分，生成若干片段，每个片段是一个待处理文本。

举例说明，原始样本：李三的队友李四喜欢看喜剧片，不喜欢看科幻片。李三不喜欢看喜剧片，也不喜欢看科幻片。基于预设的标识“。”，即标点符号“。”，将原始样本拆分成待处理文本1和待处理文本2；其中，待处理文本1：李三的队友李四喜欢看喜剧片，不喜欢看科幻片；待处理文本2：李三不喜欢看喜剧片，也不喜欢看科幻片。

S204，确定各待处理文本的词向量。

在一个实施例中，对待处理文本1和待处理文本2进行分词；列出待处理文本1和待处理文本2进行分词后得到的所有的词；计算所有的词中各词的词频；确定待处理文本1的词频向量和待处理文本2的词频向量，其中，词频向量为词向量。

S205，根据各待处理文本的词向量之间的夹角，确定各待处理文本之间的相似度。

S206，根据各待处理文本之间的相似度和预设的相似度阈值，确定多个第一文本。

在一个实施例中，针对一个待处理文本，当一个待处理文本与除一个待处理文本之外的任一个待处理文本之间的相似度大于相似度阈值，则将一个待处理文本确定为第一文本。

S207，将多个第一文本的词向量进行聚类识别，确定多个第一文本分别对应的类别，以及每一类别对应的聚类中心点。

在一个实施例中，根据预先给定的邻域半径参数和最小簇样本数(默认为2)，通过DB-SCAN算法对多个第一文本进行聚类，确定多个第一文本分别对应的类别，以及每一类别对应的聚类中心点，其中，聚类中心点为簇心。如图4所示，通过DB-SCAN算法得到了三个簇，每个簇有一个簇心，每个簇中的词向量对应的第一文本归属于同一类。

S208，针对每一聚类中心点，将与每一聚类中心点距离最近的词向量对应的第一文本确定为第二文本。

在一个实施例中，通过DB-SCAN算法确定的每簇中保留一个第一文本，选取最接近簇心的词向量对应的第一文本作为第二文本。

S209，根据预设的实体词，从各第二文本中确定得到用于提取三元组的第二文本。

在一个实施例中，当确定第二文本中包括实体词，则将第二文本确定为用于提取三元组的样本，三元组包括的实体对应实体词。

S210，从用于提取三元组的第二文本中提取到至少一个三元组。

在一个实施例中，从用于提取三元组的样本中提取到至少一个三元组，即进行三元组关系抽取。例如，输入用于提取三元组的样本“李三的队友是李四”，通过三元组关系抽取后，输出的三元组为<李三，队友，李四>。

S211，将三元组加入至初始的知识图谱中，并将三元组对应的用于提取三元组的第二文本确定为待人工标注样本。

在一个实施例中，当至少一个三元组中的一个三元组包括的第一实体、第二实体、第一实体与第二实体之间的关系中的至少一项与预设的知识图谱中的各实体、各实体之间的关系中的任一项不同，则将一个三元组加入至初始的知识图谱中，并将一个三元组对应的用于提取三元组的样本确定为待人工标注样本。

本申请实施例中，从原始样本中筛除了无三元组的样本和包括重复的三元组的样本，从而可以向人工样本标注提供有效的样本，提升了知识图谱领域中的人工样本标注的效率。

基于相同的发明构思，本申请实施例还提供了一种文本处理装置，该装置的结构示意图如图5所示，文本处理装置40，包括第一处理模块401、第二处理模块402、第三处理模块403、第四处理模块404和第五处理模块405。

第一处理模块401，用于获取至少两个待处理文本。

第二处理模块402，用于确定各待处理文本之间的相似度。

第三处理模块403，用于根据各待处理文本之间的相似度和预设的相似度阈值，确定至少两个第一文本。

第四处理模块404，用于对至少两个第一文本进行识别，确定至少两个第一文本分别对应的类别，以及从至少两个第一文本确定出每一类别对应的第二文本。

第五处理模块405，用于根据预设的实体词，从各第二文本中确定得到用于提取三元组的第二文本。

在一个实施例中，第一处理模块401，还用于获取原始样本；基于预设的字符长度、预设的标识中至少一项，将原始样本拆分成至少两个待处理文本。

在一个实施例中，第二处理模块402，具体用于确定各待处理文本的词向量；根据各待处理文本的词向量之间的夹角，确定各待处理文本之间的相似度。

在一个实施例中，第三处理模块403，具体用于针对一个待处理文本，当一个待处理文本与除一个待处理文本之外的任一待处理文本之间的相似度大于相似度阈值，则将一个待处理文本确定为第一文本。

在一个实施例中，第四处理模块404，具体用于将至少两个第一文本的词向量进行聚类识别，确定至少两个第一文本分别对应的类别，以及每一类别对应的聚类中心点；针对每一聚类中心点，将与每一聚类中心点距离最近的词向量对应的第一文本确定为第二文本。

在一个实施例中，第五处理模块405，具体用于当确定第二文本中包括实体词，则将第二文本确定为用于提取三元组的样本，三元组包括的实体对应实体词。

在一个实施例中，第五处理模块405，还用于从用于提取三元组的样本中提取到至少一个三元组；当至少一个三元组中的一个三元组包括的第一实体、第二实体、第一实体与第二实体之间的关系中的至少一项与预设的知识图谱中的各实体、各实体之间的关系中的任一项不同，则将一个三元组加入至知识图谱中，并将一个三元组对应的用于提取三元组的样本确定为待标注样本。

在一个实施例中，第一处理模块401，具体用于根据实体词，通过预设的脚本，从超文本标记语言页面中获取原始样本。

应用本申请实施例，至少具有如下有益效果：

基于相同的发明构思，本申请实施例还提供了一种电子设备，该电子设备的结构示意图如图6所示，该电子设备9000包括至少一个处理器9001、存储器9002和总线9003，至少一个处理器9001均与存储器9002电连接；存储器9002被配置用于存储有至少一个计算机可执行指令，处理器9001被配置用于执行该至少一个计算机可执行指令，从而执行如本申请中任意一个实施例或任意一种可选实施方式提供的任意一种文本处理方法的步骤。

进一步，处理器9001可以是FPGA(Field－Programmable Gate Array，现场可编程门阵列)或者其它具有逻辑处理能力的器件，如MCU(Microcontroller Unit，微控制单元)、CPU(Central Process Unit，中央处理器)。

应用本申请实施例，至少具有如下有益效果：

基于相同的发明构思，本申请实施例还提供了另一种计算机可读存储介质，存储有计算机程序，该计算机程序用于被处理器执行时实现本申请中任意一个实施例或任意一种可选实施方式提供的任意一种文本处理方法的步骤。

本申请实施例提供的计算机可读存储介质包括但不限于任何类型的盘(包括软盘、硬盘、光盘、CD-ROM、和磁光盘)、ROM(Read-Only Memory，只读存储器)、RAM(RandomAccess Memory，随即存储器)、EPROM(Erasable Programmable Read-Only Memory，可擦写可编程只读存储器)、EEPROM(Electrically Erasable Programmable Read-Only Memory，电可擦可编程只读存储器)、闪存、磁性卡片或光线卡片。也就是，可读存储介质包括由设备(例如，计算机)以能够读的形式存储或传输信息的任何介质。

应用本申请实施例，至少具有如下有益效果：

本技术领域技术人员可以理解，可以用计算机程序来实现这些结构图和/或框图和/或流图中的每个框以及这些结构图和/或框图和/或流图中的框的组合。本技术领域技术人员可以理解，可以将这些计算机程序产品提供给通用计算机、专业计算机或其他可编程数据处理方法的处理器来实现，从而通过计算机或其他可编程数据处理方法的处理器来执行本申请公开的结构图和/或框图和/或流图的框或多个框中指定的方案。

本技术领域技术人员可以理解，本申请中已经讨论过的各种操作、方法、流程中的步骤、措施、方案可以被交替、更改、组合或删除。进一步地，具有本申请中已经讨论过的各种操作、方法、流程中的其他步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。进一步地，现有技术中的具有与本申请中公开的各种操作、方法、流程中的步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。

以上所述仅是本申请的部分实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种文本处理方法，其特征在于，包括：

获取至少两个待处理文本；

确定各待处理文本之间的相似度；

根据所述各待处理文本之间的相似度和预设的相似度阈值，确定至少两个第一文本；

对所述至少两个第一文本进行识别，确定所述至少两个第一文本分别对应的类别，以及从所述至少两个第一文本确定出每一类别对应的第二文本；

根据预设的实体词，从各第二文本中确定得到用于提取三元组的第二文本；

在所述获取至少两个待处理文本之前，还包括：

获取原始样本；

基于预设的字符长度、预设的标识中至少一项，将所述原始样本拆分成所述至少两个待处理文本；

所述根据所述各待处理文本之间的相似度和预设的相似度阈值，确定至少两个第一文本，包括：

针对一个待处理文本，当所述一个待处理文本与除所述一个待处理文本之外的任一待处理文本之间的相似度大于所述相似度阈值，则将所述一个待处理文本确定为第一文本；

所述对所述至少两个第一文本进行识别，确定所述至少两个第一文本分别对应的类别，以及从所述至少两个第一文本确定出每一类别对应的第二文本，包括：

将所述至少两个第一文本的词向量进行聚类识别，确定所述至少两个第一文本分别对应的类别，以及所述每一类别对应的聚类中心点；

针对每一聚类中心点，将与所述每一聚类中心点距离最近的词向量对应的第一文本确定为第二文本。

2.根据权利要求1所述的方法，其特征在于，所述确定各待处理文本之间的相似度，包括：

确定所述各待处理文本的词向量；

根据所述各待处理文本的词向量之间的夹角，确定所述各待处理文本之间的相似度。

3.根据权利要求1所述的方法，其特征在于，所述根据预设的实体词，从各第二文本中确定得到用于提取三元组的第二文本，包括：

当确定所述第二文本中包括所述实体词，则将所述第二文本确定为用于提取三元组的样本，所述三元组包括的实体对应所述实体词。

4.根据权利要求3所述的方法，其特征在于，在所述根据预设的实体词，从各第二文本中确定得到用于提取三元组的第二文本之后，还包括：

从所述用于提取三元组的样本中提取到至少一个三元组；

当所述至少一个三元组中的一个三元组包括的第一实体、第二实体、所述第一实体与所述第二实体之间的关系中的至少一项与预设的知识图谱中的各实体、所述各实体之间的关系中的任一项不同，则将所述一个三元组加入至所述知识图谱中，并将所述一个三元组对应的用于提取三元组的样本确定为待标注样本。

5.根据权利要求1所述的方法，其特征在于，所述获取原始样本，包括：

根据所述实体词，通过预设的脚本，从超文本标记语言页面中获取原始样本。

6.一种文本处理装置，其特征在于，包括：

第一处理模块，用于获取至少两个待处理文本；

第二处理模块，用于确定各待处理文本之间的相似度；

第三处理模块，用于根据所述各待处理文本之间的相似度和预设的相似度阈值，确定至少两个第一文本；

第四处理模块，用于对所述至少两个第一文本进行识别，确定所述至少两个第一文本分别对应的类别，以及从所述至少两个第一文本确定出每一类别对应的第二文本；

第五处理模块，用于根据预设的实体词，从各第二文本中确定得到用于提取三元组的第二文本；

所述第一处理模块，还用于：

获取原始样本；

所述第三处理模块，具体用于：

所述第四处理模块，具体用于：

7.一种电子设备，其特征在于，包括：处理器、存储器；

所述存储器，用于存储计算机程序；

所述处理器，用于通过调用所述计算机程序，执行如权利要求1-5中任一项所述的文本处理方法。

8.一种计算机可读存储介质，其特征在于，存储有计算机程序，所述计算机程序用于被处理器执行时实现如权利要求1-5中任一项所述的文本处理方法。