CN114328818A

CN114328818A - 文本语料处理方法、装置、存储介质及电子设备

Info

Publication number: CN114328818A
Application number: CN202111415376.5A
Authority: CN
Inventors: 石志林
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-11-25
Filing date: 2021-11-25
Publication date: 2022-04-12

Abstract

本申请实施例公开了文本语料处理方法、装置、存储介质及电子设备，上述方法包括获取文本语料；对上述文本语料进行分词处理，得到上述文本语料对应的词序列；对上述词序列进行信息提取处理，得到上述词序列中每个词对应的特征信息和权重信息，上述权重信息根据上述词在上述词序列中的语义重要程度和位置重要程度确定；对上述每个词对应的特征信息进行哈希映射，得到上述每个词对应的编码信息；根据上述每个词对应的编码信息和对应的权重信息，得到上述每个词对应的加权编码信息；对各个词对应的编码信息进行融合操作，得到上述文本语料对应的文本信息。本申请可以提升文本语料去重速度和去重准确度。

Description

文本语料处理方法、装置、存储介质及电子设备

技术领域

本申请实施例涉及人工智能技术领域，尤其涉及文本语料处理方法、装置、存储介质及电子设备。

背景技术

随着计算机技术的发展，依赖于文本信息分析的应用得到了越来越多的普及，比如，广告推荐、新闻推广、各种媒体内容的分享等应用均依赖于对文本信息的分析。为了降低文本信息分析的压力，需要对海量的文本语料进行去重操作。相关技术中对文本语料的文本信息提取准确度低、速度慢，导致文本语料的去重操作效率低，效果差，也难以适用于海量文本语料的去重场景。

发明内容

为了解决上述至少一个技术问题，本申请实施例提供文本语料处理方法、装置、存储介质及电子设备。

一方面，本申请实施例提供了一种文本语料处理方法，所述方法包括：

获取文本语料；

对所述文本语料进行分词处理，得到所述文本语料对应的词序列；

对所述词序列进行信息提取处理，得到所述词序列中每个词对应的特征信息和权重信息，所述权重信息根据所述词在所述词序列中的语义重要程度和位置重要程度确定；

对所述每个词对应的特征信息进行哈希映射，得到所述每个词对应的编码信息；

根据所述每个词对应的编码信息和对应的权重信息，得到所述每个词对应的加权编码信息；

对各个词对应的编码信息进行融合操作，得到所述文本语料对应的文本信息。

另一方面，本申请实施例提供一种文本语料处理装置，所述装置包括：

文本语料获取模块，用于获取文本语料；

分析模块，用于对所述文本语料进行分词处理，得到所述文本语料对应的词序列；

信息提取模块，用于对所述词序列进行信息提取处理，得到所述词序列中每个词对应的特征信息和权重信息，所述权重信息根据所述词在所述词序列中的语义重要程度和位置重要程度确定；

哈希模块，用于对所述每个词对应的特征信息进行哈希映射，得到所述每个词对应的编码信息；

加权模块，用于根据所述每个词对应的编码信息和对应的权重信息，得到所述每个词对应的加权编码信息；

融合模块，用于对各个词对应的编码信息进行融合操作，得到所述文本语料对应的文本信息。

另一方面，本申请实施例提供了一种分布式存储系统，所述分布式存储系统包括上述的一种文本语料处理装置。

另一方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条指令或至少一段程序，所述至少一条指令或至少一段程序由处理器加载并执行以实现上述的一种文本语料处理方法。

另一方面，本申请实施例提供了一种电子设备，包括至少一个处理器，以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述至少一个处理器通过执行所述存储器存储的指令实现上述的一种文本语料处理方法。

另一方面，本申请实施例提供了一种计算机程序产品，包括计算机程序或指令，该计算机程序或指令被处理器执行时实现上述的一种文本语料处理方法。

本申请提供的文本语料处理方法，基于文本语料本身的词的特征，结合文本语料的语义重要程度和位置重要程度，改进了哈希算法，从而得到能更为准确地表征文本语料中的信息的文本信息，基于该文本信息进行文本语料的去重可以显著提升文本语料去重速度和去重准确度。并且，本申请实施例还将文本信息的提取方法应用于海量数据分布式存储的场景之中，从而使得海量数据分布式存储场景中文本信息可以被及时提取，文本语料可以被及时去重，从而避免冗余的文本语料对下游的文本分析带来压力。

附图说明

为了更清楚地说明本申请实施例或相关技术中的技术方案和优点，下面将对实施例或相关技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本申请实施例的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它附图。

图1是本说明书实施例提供的文本语料处理方法的一种可行的实施框架示意图；

图2是本说明书实施例提供的一种文本语料处理方法的流程示意图；

图3是本申请实施例提供的分布式系统去重方法流程图；

图4是本申请实施例提供的基于第一标识或述第二标识查询方法流程示意图；

图5是本申请实施例提供的文本语料处理装置的框图；

图6是本申请实施例提供的一种用于实现本申请实施例所提供的方法的设备的硬件结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请实施例一部分实施例，而不是全部的实施例。基于本申请实施例中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请实施例保护的范围。

需要说明的是，本申请实施例的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请实施例的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或服务器不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为了使本申请实施例公开的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请实施例进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请实施例，并不用于限定本申请实施例。

以下，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本实施例的描述中，除非另有说明，“多个”的含义是两个或两个以上。为了便于理解本申请实施例上述的技术方案及其产生的技术效果，本申请实施例首先对于相关专业名词进行解释：

人工智能(Artificial Intelligence,AI)：是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

卷积神经网络:Convolutional Neural Networks,CNN。是一类包含卷积计算且具有深度结构的前馈神经网络，是深度学习的代表算法之一。卷积神经网络具有表征学习能力，能够按其阶层结构对输入信息进行平移不变分类，因此也被称为平移不变人工神经网络。

循环神经网络：Recurrent Neural Network,RNN。是一类以序列数据为输入，在序列的演进方向进行递归且所有节点(循环单元)按链式连接的递归神经网络。

基于转换模型的双向编码表示模型(Bidirectional Encoder Representationfrom Transformers，BERT)：是一种用于预训练语言表征的模型，在文本语料的基础上训练一个通用的“语言理解”模型，基于通过BERT模型可以辅助执行自然语言处理(NaturalLanguage Processing，NLP)任务。

Spark：一种专为大数据处理设计的快速通用计算引擎。Spark是一种开源集群计算环境，启用了内存分布数据集，除了能够提供交互式查询外，它还可以优化迭代工作负载，可以像操作本地集合对象一样轻松地操作分布式数据集。

HDFS：Hadoop Distributed File System，分布式文件系统。HDFS是一个高度容错性的系统，适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问，非常适合大规模数据集上的应用。

Redis：Remote Dictionary Server，远程字典服务，是一个开源的支持网络、可基于内存亦可持久化的日志型、Key-Value数据库。

BitMap：用一个bit位来标记某个元素对应的Value，而Key即是该元素。由于采用了Bit为单位来存储数据，因此在存储空间方面，可以大大节省。

海明距离：一个有效bit编码集中，对两个bit串进行异或运算，计算出异或运算结果中1的个数即为两个bit串的海明距离，或者两个长度相等字符串的海明距离是在相同位置上不同字符的个数。

SimHash算法：传统的哈希算法两个原始内容只相差很少的字节，所产生的哈希值也可能相差巨大。SimHash算法如果原始内容相差不大，则哈希值相差也很小。

相关技术对文本语料的去重可以依赖于哈希(Hash)方法，而传统的Hash方法只负责将原始内容尽量均匀随机地映射为一个签名值，即便是两个文本只相差很少的字符，得到的哈希值也很可能差距很大，所以传统的哈希算法是难以用来衡量内容的相似度的。而SimHash算法是数据局部敏感哈希，其主要思想是降维，将高维的特征向量转化成一个固定长度的哈希值，通过算出两个哈希值的距离来确定两个文本的相似度。但是相关技术中SimHash算法对于文本语料中词的语义重要度和位置重要度的考虑较少，从而一定程度影响了去重准确度，并且结合余弦相似度来进行文本语料是否重复或者是否相似的判断，也一定程度上降低了去重速度。

并且，相关技术中的对文本语料的去重操作并未考虑到海量文本语料在分布式场景中存储的场景，文本语料去重方法难以与文本语料的存储结构进行有效兼容适配，也一定程度上影响了文本语料的去重效率。

为了提升文本语料的去重准确度和去重速度，使得文本语料在海量数据分布式存储场景中可以被更加高效的去重，降低基于文本语料进行分析的压力，本申请实施例提供一种文本语料处理方法。基于文本语料本身的词的特征，结合文本语料的语义重要程度和位置重要程度，改进了哈希算法，从而得到能更为准确地表征文本语料中的信息的文本信息，基于该文本信息进行文本语料的去重可以显著提升文本语料去重速度和去重准确度。并且，本申请实施例还将文本信息的提取方法应用于海量数据分布式存储的场景之中，从而使得海量数据分布式存储场景中文本信息可以被及时提取，文本语料可以被及时去重，从而避免冗余的文本语料对下游的文本分析带来压力。

本申请实施例可能涉及云技术和云游戏。云技术是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来，实现数据的计算、储存、处理和共享的一种托管技术。云技术是基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称，可以组成资源池，按需所用，灵活便利。云计算技术将变成重要支撑。技术网络系统的后台服务需要大量的计算、存储资源，如视频网站、图片类网站和更多的门户网站。伴随着互联网行业的高度发展和应用，将来每个物品都有可能存在自己的识别标志，都需要传输到后台系统进行逻辑处理，不同程度级别的数据将会分开处理，各类行业数据皆需要强大的系统后盾支撑，只能通过云计算来实现。

本申请实施例所提供的方法还可以涉及区块链，即本申请实施例提供的方法可以基于区块链实现，或者本申请实施例提供的方法中涉及到的数据可以基于区块链存储，或本申请实施例中提供的方法的执行主体可以位于区块链中。区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层。

区块链底层平台可以包括用户管理、基础服务、智能合约以及运营监控等处理模块。其中，用户管理模块负责所有区块链参与者的身份信息管理，包括维护公私钥生成(账户管理)、密钥管理以及用户真实身份和区块链地址对应关系维护(权限管理)等，并且在授权的情况下，监管和审计某些真实身份的交易情况，提供风险控制的规则配置(风控审计)；基础服务模块部署在所有区块链节点设备上，用来验证业务请求的有效性，并对有效请求完成共识后记录到存储上，对于一个新的业务请求，基础服务先对接口适配解析和鉴权处理(接口适配)，然后通过共识算法将业务信息加密(共识管理)，在加密之后完整一致地传输至共享账本上(网络通信)，并进行记录存储；智能合约模块负责合约的注册发行以及合约触发和合约执行，开发人员可以通过某种编程语言定义合约逻辑，发布到区块链上(合约注册)，根据合约条款的逻辑，调用密钥或者其它的事件触发执行，完成合约逻辑，同时还提供对合约升级注销的功能；运营监控模块主要负责产品发布过程中的部署、配置的修改、合约设置、云适配以及产品运行中的实时状态的可视化输出，例如：告警、监控网络情况、监控节点设备健康状态等。

平台产品服务层提供典型应用的基本能力和实现框架，开发人员可以基于这些基本能力，叠加业务的特性，完成业务逻辑的区块链实现。应用服务层提供基于区块链方案的应用服务给业务参与方进行使用。

请参阅图1，图1是本说明书实施例提供的文本语料处理方法的一种可行的实施框架示意图，如图1所示，该实施框架可以运行分布式存储系统，具体来说，至少包括数据存储组件01、数据管理组件02、数据分析组件03。其中，数据存储组件01、数据管理组件02、数据分析组件03均可以为位于互联网中的设备，可以为用户提供各种可选的基于互联网的服务，其包括但不限于手机、电脑、智能语音交互设备、智能家电、车载终端、独立服务器或运行于云环境的服务器等。

本申请实施例中数据存储组件01可以运行有HDFS，数据管理组件02可以运行有Redis，数据分析组件03可以运行有Spark。数据存储组件01存储有去重后的文本语料的全部数据，数据管理组件02存储有基于去重后的文本语料的标题对应的哈希值得到的第一索引，以及基于去重后的文本语料的内容语料对应的哈希值得到的第二索引，以及去重后的文本语料的文本信息。上述数据分析组件03通过与数据管理组件02交互实施文本去重。

以下介绍本申请实施例的一种文本语料处理方法，图2示出了本申请实施例提供的一种文本语料处理方法的流程示意图，本申请实施例提供了如实施例或流程图上述的方法操作步骤，但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式，不代表唯一的执行顺序。在实际中的系统、终端设备或服务器产品执行时，可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)，上述方法可以包括：

S101.获取文本语料。

本申请实施例并不限定文本语料的类型，比如，该文本语料可以是来自互联网中的各种文本形式存储的信息，比如，可以来自社区网站、即时通信记录、媒体内容分享平台等。本申请实施例中文本语料可以是准备存入分布式存储系统中的语料，在存入之前执行本申请实施例的方法检查该文本语料是否与分布式存储系统中已有的文本语料存在重复或者相似，如果是直接丢弃该文本语料，否则，存储该文本语料。

S102.对上述文本语料进行分词处理，得到上述文本语料对应的词序列。

本申请实施例中文本语料可以包括标题和内容两部分内容，即文本语料包括标题语料和内容语料。以中文形式的文本语料为例，示例性的，文本语料“今天天气真好”可以经过分词，形成一个包括三个词的词序列{‘今天’，‘天气’，‘真好’}。以英文形式的文本语句为例，文本语料“david is a cute boy”可以经过分词，形成一个包括五个词的词序列{‘david’，‘is’，‘a”，‘cute’，‘boy’}。

本申请实施例并不对使用的分词方法进行限定。举例来说，可以使用基于字符串匹配的分词方法，是指按照一定的策略将待分析的汉字串与一个预置的机器词典中的词条进行匹配，根据匹配结果进行分词。还可以使用基于特征扫描或标志切分的分词方法，优先在待分析字符串中识别和切分出一些带有明显特征的词，以这些词作为断点，可将原字符串分为较小的串再来进机械分词，从而提高分词的准确率。还可以使用基于理解的分词方法，是指通过让计算机模拟人对句子的理解，达到识别词的效果。其基本思想就是在分词的同时进行句法、语义分析，利用句法信息和语义信息来处理歧义现象。或者还可以使用基于统计的分词方法，由于字与字相邻共现的频率或概率能够较好的反映成词的可信度，所以可以对语料中相邻共现的各个字的组合的频度进行统计，计算它们的互现信息，基于互现信息进行分词。

S103.对上述词序列进行信息提取处理，得到上述词序列中每个词对应的特征信息和权重信息，上述权重信息根据上述词在上述词序列中的语义重要程度和位置重要程度确定。

本申请实施例并不限定信息提取处理的具体操作方法，比如，可以依赖于神经网络实现，比如，可以使用有监督神经网络模型或无监督神经网络模型实现，以BERT模型进行详述。

具体来说，可以获取样本语料，对样本语料的标题和文本进行分词处理，得到样本词序列，人工基于样本词序列中每个词的语义重要度和位置重要度进行权重标注，得到标注结果。在一个实施例中，人工可以根据语义重要度对该词进行打分，分数为0至1之间，分数越高表征该词的语义对于整个样本语料的理解而言越重要。确定该词在语料中的位置，根据该位置确定该词的位置重要度，位置重要度也可以使用0至1之间的数字进行表征，对所述语义重要度和位置重要度进行加权平均即可得到标注结果，当然本申请实施例对于权值不做限定，可以根据实际情况进行设定。基于携带标注结果的样本语料训练BERT模型，即可使得模型预测出语料中每个词的权重信息，根据预测结果和标注结果可以修正BERT模型参数。将步骤S102中的词序列输入训练后的BERT模型，即可得到上述词序列中每个词对应的特征信息和权重信息。

S104.对上述每个词对应的特征信息进行哈希映射，得到上述每个词对应的编码信息。

具体来说，可以对上述每个词对应的特征向量进行哈希散射，得到上述每个词对应的第一编码串，上述第一编码串为基于二进制数构成的数据串。将上述第一编码串中的0值设定为预设负值，得到上述每个词对应的编码信息。预设负值可以是根据实际情况设定的取值为负的任一整数，比如，-1，-2等。

以词序列中的词“我们”为例，可以对其进行哈希散射得到其对应的第一编码串，第一编码串为二进制数0或1组成的数据串，其可以被存储为BitMap的形式。比如单词“我们”对应的第一编码串为[1,1,0,1,0,1]。在第一编码串的基础上，将第一编码串中所有bit位的0值转换为-1。例如“我们”对应的第一编码串为[1,1,0,1,0,1，则转换得到的编码信息为[1,1,-1,1,-1,1]。

S105.根据上述每个词对应的编码信息和对应的权重信息，得到上述每个词对应的加权编码信息。

具体来说，可以直接根据上述每个词对应的编码信息和对应的权重信息的乘积，确定加权编码信息，仍然“我们”为例，如果其对应的权重值为3,则其对应的加权编码信息为[3,3,-3,3,-3,3]。

S106.对各个词对应的编码信息进行融合操作，得到上述文本语料对应的文本信息。

具体来说，可以对各个词对应的编码信息进行按位加操作，得到融合编码信息。对上述融合编码信息进行降维操作，得到上述文本语料对应的文本信息。

具体而言，可以将所有词的加权编码信息累加，并且累加结果大于0的位置为1，小于0的位置为0，从而得到文本语料对应的文本信息。

为了进行更清楚地表达，再进行一个举例，例如“生活”对应的第一编码串为“110101”，加权得到的加权编码信息可以为“5，5，-5，5，-5，5”。“没有”对应的第一编码串为“101001”，加权得到加权编码信息可以为“2，2，2，-2，-2，2”。而文本语料“生活没有”对应的文本信息通过下述方法得到：将“5，5，-5，5，-5，5”和“2，2，2，-2，-2，2进行累加，得到“7，3，-3，3，-7，7”。如果大于0则置1，否则置0，得到最终的文本信息“1，1，0，1，0，1”。

在一个实施例中，如图3所示，可以将上述方法应用于分布式存储系统，上述分布式存储系统包括数据分析组件，上述分布式存储系统还包括数据存储组件和数据管理组件，上述对上述文本语料进行分词处理，得到上述文本语料对应的词序列之前，上述方法还包括：

S201.上述数据分析组件提取上述文本语料中的标题语料和内容语料。

本申请实施例中并不限定提取方式，可以使用数据分析组件来进行标题语料和内容语料的提取，如果数据分析组件包括Spark，可以使用Spark固有算子执行步骤S201。

S202.响应于第一情况，上述第一情况表征上述标题语料和上述内容语料均与上述分布式存储系统已存语料不重复，上述数据分析组件执行上述对上述文本语料进行分词处理，得到上述文本语料对应的词序列的操作。

如果标题语料与分布式存储系统已有文本语料的标题语料重复，则认为出现了标题语料重复的情况，如果内容语料与分布式存储系统已有文本语料的内容语料重复，则认为出现了内容语料重复的情况。在分布存储系统中，当获取到文本语料之后，只有在这两种重复都不存在的情况下(第一情况)，执行步骤S101。否则，直接丢弃该语料即可，避免将已经存储过的文本语料存储在分布式存储系统中。

S203.响应于不同于第一情况的其它情况，上述数据分析组件丢弃上述文本语料。

在一个实施例中，响应于第一情况，执行上述对上述文本语料进行分词处理，得到上述文本语料对应的词序列的操作之前，上述方法还包括；

S301.上述数据分析组件获取第一标识或第二标识，上述第一标识是上述标题语料对应的哈希值，上述第二标识是上述内容语料对应的哈希值。

S302.上述数据分析组件基于上述第一标识或上述第二标识访问上述数据管理组件，以获取上述数据管理组件反馈的查询结果，上述查询结果表征上述文本语料以及上述内容语料的重复情况。

本申请实施例并不限定获取查询结果的方法，可以使用结构化查询语言进行查询，比如，向上述数据管理组件查询命中第一标识的记录或者命中第二标识的记录，通过与上述数据管理组件的交互，查询出与步骤S101的文本语料标题相同或者内容相同的已有语料，如果被查询结果不为空，则说明存在重复的情况，就可以放弃步骤S101中的文本语料，避免重复存储。

具体来说，请参考图4，上述数据分析组件基于上述第一标识或上述第二标识访问上述数据管理组件，以获取上述数据管理组件反馈的查询结果，包括：

S3021.上述数据分析组件基于上述第一标识向上述数据管理组件发出第一查询指令。

第一查询指令根据第一标识生成，用于向数据管理组件查询包括该第一标识的相关记录，也就是查询与步骤S101中文本语料存在标题相同情况的已有语料。

S3022.响应于上述第一查询指令，上述数据管理组件基于上述第一标识查询第一索引，反馈第一查询结果，上述第一索引为基于上述数据存储组件中已有文本语料的标题语料对应的哈希值构建的索引。

S3023.上述数据分析组件响应于上述第一查询结果不为空的情况，判定上述标题语料重复。

第一索引基于已有语料中标题语料对应的哈希值构建得到，通过索引查询可以快速判断出与步骤S101中文本语料标题相同的已有语料的存在情况。

S3024.上述数据分析组件响应于上述第一查询结果为空的情况，基于上述第二标识向上述数据管理组件发出第二查询指令。

第二查询指令根据第二标识生成，用于向数据管理组件查询包括该第二标识的相关记录，也就是查询与步骤S101中文本语料存在内容相同情况的已有语料。

S3025.响应于上述第二查询指令，上述数据管理组件基于上述第二标识查询第二索引，反馈第二查询结果，上述第二索引为基于上述数据存储组件中已有文本语料的内容语料对应的哈希值构建的索引。

S3026.上述数据分析组件响应于上述第二查询结果不为空的情况，判定上述内容语料重复。

第二索引基于已有语料中内容语料对应的哈希值构建得到，通过索引查询可以快速判断出与步骤S101中文本语料内容相同的已有语料的存在情况。

S3027.上述数据分析组件响应于上述第二查询结果为空的情况，判定上述标题语料以及上述内容语料均不重复。

本申请实施例通过基于标题的哈希值和基于内容的哈希值分别构建第一索引和第二索引的方式，实现了标题重复的情况的快速查询以及内容重复的情况的快速查询，可以显著提升文本语料查重速度。

在一个实施例中，响应于第一情况，上述方法还包括：

S401.上述数据分析组件基于上述文本语料对应的文本信息，向上述数据管理组件发出第三查询指令，以得到上述数据管理组件反馈的第三查询结果，上述第三查询结果表征上述数据存储组件中是否存在上述文本语料对应的相似语料。

具体来说，上述数据管理组件获取文本信息表，上述文本信息表中的记录表征上述数据存储组件中已存储文本语料对应的第一文本信息的前预设数量位的信息。上述数据管理组件基于上述文本信息的上述前预设数量位的信息，查询上述文本信息表，得到第三查询结果，上述第三查询结果中的记录与上述文本信息的上述前预设数量位的信息的相似度满足预设要求。

对于以往每个存储在数据存储组件中的文本语料i，本申请实施例均可以参考前文步骤S101-S106的操作提取文本语料i对应的第一文本信息，该第一文本信息通过V_i表示，可以将该V_i分为n份，其中V_i的长度为m，每份有m/n位，将每份的值存储到数据管理组件，基于每个第一文本信息的前m/n位的内容可以得到文本信息表。为了提升查询速度，可以用精确匹配的方式查找前m/n位的记录，如果查询到满足要求的记录，则基于该记录得到上述第三查询结果。

为了提升查询速度，本申请实施例使用了海明距离。具体来说，上述数据管理组件计算上述文本信息的上述前预设数量位的信息，与上述文本信息表中每一记录的海明距离；根据上述海明距离符合预设要求的记录，得到上述第三查询结果。

具体来说，海明距离越小，相似度越低。一般认为海明距离为3就代表两篇文章相同。因此，如果存在海明距离小于3的记录，则可以认为该记录与步骤S101中的语料文本相似。

S402.响应于上述第三查询结果表征不存在上述相似语料的情况，将上述文本语料存储在上述数据存储组件，将上述文本语料对应的文本信息、上述第一标识和上述第二标识存储在上述数据管理组件。

S403.响应于上述第三查询结果表征存在上述相似语料的情况，丢弃上述文本语料。

请参考图5，其示出本实施例中一种文本语料处理装置的框图，上述装置包括：

文本语料获取模块101，用于获取文本语料；

分析模块102，用于对上述文本语料进行分词处理，得到上述文本语料对应的词序列；

信息提取模块103，用于对上述词序列进行信息提取处理，得到上述词序列中每个词对应的特征信息和权重信息，上述权重信息根据上述词在上述词序列中的语义重要程度和位置重要程度确定；

哈希模块104，用于对上述每个词对应的特征信息进行哈希映射，得到上述每个词对应的编码信息；

加权模块105，用于根据上述每个词对应的编码信息和对应的权重信息，得到上述每个词对应的加权编码信息；

融合模块106，用于对各个词对应的编码信息进行融合操作，得到上述文本语料对应的文本信息。

在一个实施例中，上述哈希模块104，用于执行下述操作：

对上述每个词对应的特征向量进行哈希散射，得到上述每个词对应的第一编码串，上述第一编码串为基于二进制数构成的数据串；

将上述第一编码串中的0值设定为预设负值，得到上述每个词对应的编码信息。

在一个实施例中，上述融合模块106，用于执行下述操作：对各个词对应的编码信息进行按位加操作，得到融合编码信息；

对上述融合编码信息进行降维操作，得到上述文本语料对应的文本信息。

在一个实施例中，上述装置应用于分布式存储系统，上述分布式存储系统包括数据分析组件，上述分布式存储系统用于执行下述操作：

上述数据分析组件提取上述文本语料中的标题语料和内容语料；

响应于第一情况，上述第一情况表征上述标题语料和上述内容语料均与上述分布式存储系统已存语料不重复，上述数据分析组件执行上述对上述文本语料进行分词处理，得到上述文本语料对应的词序列的操作；

响应于不同于第一情况的其它情况，上述数据分析组件丢弃上述文本语料。

在一个实施例中，上述分布式存储系统用于执行下述操作：

上述数据分析组件获取第一标识或第二标识，上述第一标识是上述标题语料对应的哈希值，上述第二标识是上述内容语料对应的哈希值；

上述数据分析组件基于上述第一标识或上述第二标识访问上述数据管理组件，以获取上述数据管理组件反馈的查询结果，上述查询结果表征上述文本语料以及上述内容语料的重复情况。

在一个实施例中，上述分布式存储系统用于执行下述操作：

上述数据分析组件基于上述第一标识向上述数据管理组件发出第一查询指令；

响应于上述第一查询指令，上述数据管理组件基于上述第一标识查询第一索引，反馈第一查询结果，上述第一索引为基于上述数据存储组件中已有文本语料的标题语料对应的哈希值构建的索引；

上述数据分析组件响应于上述第一查询结果不为空的情况，判定上述标题语料重复；

上述数据分析组件响应于上述第一查询结果为空的情况，基于上述第二标识向上述数据管理组件发出第二查询指令；

响应于上述第二查询指令，上述数据管理组件基于上述第二标识查询第二索引，反馈第二查询结果，上述第二索引为基于上述数据存储组件中已有文本语料的内容语料对应的哈希值构建的索引；

上述数据分析组件响应于上述第二查询结果不为空的情况，判定上述内容语料重复；

上述数据分析组件响应于上述第二查询结果为空的情况，判定上述标题语料以及上述内容语料均不重复。

在一个实施例中，上述分布式存储系统用于执行下述操作：

上述数据分析组件基于上述文本语料对应的文本信息，向上述数据管理组件发出第三查询指令，以得到上述数据管理组件反馈的第三查询结果，上述第三查询结果表征上述数据存储组件中是否存在上述文本语料对应的相似语料；

响应于上述第三查询结果表征不存在上述相似语料的情况，将上述文本语料存储在上述数据存储组件，将上述文本语料对应的文本信息、上述第一标识和上述第二标识存储在上述数据管理组件；

响应于上述第三查询结果表征存在上述相似语料的情况，丢弃上述文本语料。

在一个实施例中，上述分布式存储系统用于执行下述操作：

上述数据管理组件获取文本信息表，上述文本信息表中的记录表征上述数据存储组件中已存储文本语料对应的第一文本信息的前预设数量位的信息；

上述数据管理组件基于上述文本信息的上述前预设数量位的信息，查询上述文本信息表，得到第三查询结果，上述第三查询结果中的记录与上述文本信息的上述前预设数量位的信息的相似度满足预设要求。

在一个实施例中，上述分布式存储系统用于执行下述操作：

上述数据管理组件计算上述文本信息的上述前预设数量位的信息，与上述文本信息表中每一记录的海明距离；

根据上述海明距离符合预设要求的记录，得到上述第三查询结果。

本申请实施例装置实施例与方法实施例基于相同发明构思，在此不做赘述。

本申请实施例还提供了一种分布式存储系统，其上述系统包括上述的一种文本语料处理装置。

本申请实施例还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述一种文本语料处理方法。

本申请实施例还提供了一种计算机可读存储介质，上述计算机可读存储介质可以存储有多条指令。上述指令可以适于由处理器加载并执行本申请实施例上述的一种文本语料处理方法。

在一个实施例中，上述一种文本语料处理方法，包括：

获取文本语料；

对上述文本语料进行分词处理，得到上述文本语料对应的词序列；

对上述词序列进行信息提取处理，得到上述词序列中每个词对应的特征信息和权重信息，上述权重信息根据上述词在上述词序列中的语义重要程度和位置重要程度确定；

对上述每个词对应的特征信息进行哈希映射，得到上述每个词对应的编码信息；

根据上述每个词对应的编码信息和对应的权重信息，得到上述每个词对应的加权编码信息；

对各个词对应的编码信息进行融合操作，得到上述文本语料对应的文本信息。

在一个实施例中，上述特征信息通过特征向量表征，对上述每个词对应的特征信息进行哈希映射，得到上述每个词对应的编码信息，包括：

在一个实施例中，上述对各个词对应的编码信息进行融合操作，得到上述文本语料对应的文本信息，包括：

对各个词对应的编码信息进行按位加操作，得到融合编码信息；

在一个实施例中，上述方法应用于分布式存储系统，上述分布式存储系统包括数据分析组件，上述对上述文本语料进行分词处理，得到上述文本语料对应的词序列之前，上述方法还包括：

在一个实施例中，上述分布式存储系统还包括数据存储组件和数据管理组件，上述对上述文本语料进行分词处理，得到上述文本语料对应的词序列的操作之前，上述方法还包括；

在一个实施例中，上述数据分析组件基于上述第一标识或上述第二标识访问上述数据管理组件，以获取上述数据管理组件反馈的查询结果，包括：

在一个实施例中，响应于第一情况，上述方法还包括：

在一个实施例中，上述数据分析组件基于上述文本语料对应的文本信息，向上述数据管理组件发出第三查询指令，以得到上述数据管理组件反馈的第三查询结果，包括：

在一个实施例中，上述数据管理组件基于上述文本信息的上述前预设数量位的信息，查询上述文本信息表，得到第三查询结果，包括：

进一步地，图6示出了一种用于实现本申请实施例所提供的方法的设备的硬件结构示意图，上述设备可以参与构成或包含本申请实施例所提供的装置或系统。如图6所示，设备10可以包括一个或多个(图中采用102a、102b，……，102n来示出)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器104、以及用于通信功能的传输装置106。除此以外，还可以包括：显示器、输入/输出接口(I/O接口)、通用串行总线(USB)端口(可以作为I/O接口的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解，图6所示的结构仅为示意，其并不对上述电子装置的结构造成限定。例如，设备10还可包括比图6中所示更多或者更少的组件，或者具有与图6所示不同的配置。

应当注意到的是上述一个或多个处理器102和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分地体现为软件、硬件、固件或其他任意组合。此外，数据处理电路可为单个独立的处理模块，或全部或部分的结合到设备10(或移动设备)中的其他元件中的任意一个内。如本申请实施例中所涉及到的，该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。

存储器104可用于存储应用软件的软件程序以及模块，如本申请实施例中上述的方法对应的程序指令/数据存储装置，处理器102通过运行存储在存储器104内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的一种文本语料处理方法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104可进一步包括相对于处理器102远程设置的存储器，这些远程存储器可以通过网络连接至设备10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括设备10的通信供应商提供的无线网络。在一个实例中，传输装置106包括一个网络适配器(NetworkInterfaceController，NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输装置106可以为射频(RadioFrequency，RF)模块，其用于通过无线方式与互联网进行通讯。

显示器可以例如触摸屏式的液晶显示器(LCD)，该液晶显示器可使得用户能够与设备10(或移动设备)的用户界面进行交互。

需要说明的是：上述本申请实施例先后顺序仅仅为了描述，不代表实施例的优劣。且上述对本申请实施例特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本申请实施例中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置和服务器实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，上述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上上述仅为本申请实施例的较佳实施例，并不用以限制本申请实施例，凡在本申请实施例的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请实施例的保护范围之内。

Claims

1.一种文本语料处理方法，其特征在于，所述方法包括：

获取文本语料；

2.根据权利要求1所述的方法，其特征在于，所述特征信息通过特征向量表征，所述对所述每个词对应的特征信息进行哈希映射，得到所述每个词对应的编码信息，包括：

对所述每个词对应的特征向量进行哈希散射，得到所述每个词对应的第一编码串，所述第一编码串为基于二进制数构成的数据串；

将所述第一编码串中的0值设定为预设负值，得到所述每个词对应的编码信息。

3.根据权利要求2所述的方法，其特征在于，所述对各个词对应的编码信息进行融合操作，得到所述文本语料对应的文本信息，包括：

对所述融合编码信息进行降维操作，得到所述文本语料对应的文本信息。

4.根据权利要求1至3中任一项所述的方法，其特征在于，所述方法应用于分布式存储系统，所述分布式存储系统包括数据分析组件，所述对所述文本语料进行分词处理，得到所述文本语料对应的词序列之前，所述方法还包括：

所述数据分析组件提取所述文本语料中的标题语料和内容语料；

响应于第一情况，所述第一情况表征所述标题语料和所述内容语料均与所述分布式存储系统已存语料不重复，所述数据分析组件执行所述对所述文本语料进行分词处理，得到所述文本语料对应的词序列的操作；

响应于不同于第一情况的其它情况，所述数据分析组件丢弃所述文本语料。

5.根据权利要求4所述的方法，其特征在于，所述分布式存储系统还包括数据存储组件和数据管理组件，所述对所述文本语料进行分词处理，得到所述文本语料对应的词序列的操作之前，所述方法还包括；

所述数据分析组件获取第一标识或第二标识，所述第一标识是所述标题语料对应的哈希值，所述第二标识是所述内容语料对应的哈希值；

所述数据分析组件基于所述第一标识或所述第二标识访问所述数据管理组件，以获取所述数据管理组件反馈的查询结果，所述查询结果表征所述文本语料以及所述内容语料的重复情况。

6.根据权利要求5所述的方法，其特征在于，所述数据分析组件基于所述第一标识或所述第二标识访问所述数据管理组件，以获取所述数据管理组件反馈的查询结果，包括：

所述数据分析组件基于所述第一标识向所述数据管理组件发出第一查询指令；

响应于所述第一查询指令，所述数据管理组件基于所述第一标识查询第一索引，反馈第一查询结果，所述第一索引为基于所述数据存储组件中已有文本语料的标题语料对应的哈希值构建的索引；

所述数据分析组件响应于所述第一查询结果不为空的情况，判定所述标题语料重复；

所述数据分析组件响应于所述第一查询结果为空的情况，基于所述第二标识向所述数据管理组件发出第二查询指令；

响应于所述第二查询指令，所述数据管理组件基于所述第二标识查询第二索引，反馈第二查询结果，所述第二索引为基于所述数据存储组件中已有文本语料的内容语料对应的哈希值构建的索引；

所述数据分析组件响应于所述第二查询结果不为空的情况，判定所述内容语料重复；

所述数据分析组件响应于所述第二查询结果为空的情况，判定所述标题语料以及所述内容语料均不重复。

7.根据权利要求5所述的方法，其特征在于，响应于第一情况，所述方法还包括：

所述数据分析组件基于所述文本语料对应的文本信息，向所述数据管理组件发出第三查询指令，以得到所述数据管理组件反馈的第三查询结果，所述第三查询结果表征所述数据存储组件中是否存在所述文本语料对应的相似语料；

响应于所述第三查询结果表征不存在所述相似语料的情况，将所述文本语料存储在所述数据存储组件，将所述文本语料对应的文本信息、所述第一标识和所述第二标识存储在所述数据管理组件；

响应于所述第三查询结果表征存在所述相似语料的情况，丢弃所述文本语料。

8.根据权利要求7所述的方法，其特征在于，所述数据分析组件基于所述文本语料对应的文本信息，向所述数据管理组件发出第三查询指令，以得到所述数据管理组件反馈的第三查询结果，包括：

所述数据管理组件获取文本信息表，所述文本信息表中的记录表征所述数据存储组件中已存储文本语料对应的第一文本信息的前预设数量位的信息；

所述数据管理组件基于所述文本信息的所述前预设数量位的信息，查询所述文本信息表，得到第三查询结果，所述第三查询结果中的记录与所述文本信息的所述前预设数量位的信息的相似度满足预设要求。

9.根据权利要求8所述的方法，其特征在于，所述数据管理组件基于所述文本信息的所述前预设数量位的信息，查询所述文本信息表，得到第三查询结果，包括：

所述数据管理组件计算所述文本信息的所述前预设数量位的信息，与所述文本信息表中每一记录的海明距离；

根据所述海明距离符合预设要求的记录，得到所述第三查询结果。

10.一种文本语料处理装置，其特征在于，所述装置包括：

文本语料获取模块，用于获取文本语料；

11.一种分布式存储系统，其特征在于，所述系统包括权利要求10所述的一种文本语料处理装置。

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一条指令或至少一段程序，所述至少一条指令或至少一段程序由处理器加载并执行以实现如权利要求1至9中任一项所述的一种文本语料处理方法。

13.一种电子设备，其特征在于，包括至少一个处理器，以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述至少一个处理器通过执行所述存储器存储的指令实现如权利要求1至9中任一项所述的一种文本语料处理方法。

14.一种计算机程序产品，包括计算机程序或指令，其特征在于，该计算机程序或指令被处理器执行时实现权利要求1至9中任一项所述的一种文本语料处理方法。