CN110765259A

CN110765259A - 基于词汇义原的文本过滤方法及相关设备

Info

Publication number: CN110765259A
Application number: CN201910884727.3A
Authority: CN
Inventors: 陈霖捷; 王健宗; 黄章成
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2019-09-19
Filing date: 2019-09-19
Publication date: 2020-02-07

Abstract

本申请涉及人工智能领域，本申请公开了一种基于词汇义原的文本过滤方法及相关设备，所述方法包括：获取待过滤文本及参考文本，对所述待过滤文本及参考文本进行预处理，获得词汇义原，并根据所述词汇义原映射成文本向量集；根据待过滤文本向量集及参考文本向量集计算获得文本相似度，并根据所述文本相似度对所述待过滤文本进行文本过滤。本申请通过将文本数据分解成以义原为单位的向量集，并与参考文本的向量计算相似度，根据所述相似度进行过滤，可以有效对中英混合文本进行有效过滤，提高训练文本数据的质量。

Description

基于词汇义原的文本过滤方法及相关设备

技术领域

本申请涉及人工智能领域，特别涉及一种基于词汇义原的文本过滤方法及相关设备。

背景技术

一个良好的中英机器翻译模型需要大量的中英对照文本作为训练数据，然而训练文本的质量对模型的好坏起着非常重要的作用，因此往往需要对搜集来的文本内容进行过滤，选取优质的文本内容。面对庞大的数据量，如果通过人工的方式过滤则效率会非常低，这时候就需要一个科学有效的模型来自动处理过滤文本。

另外，针对中英对照文本，需要同时评估两种语言的文本质量，因此需要一个有效的跨语种文本过滤模型来进行双重文本过滤。已有的机器文本过滤模型有基于词汇控制的方法，即把用户需求表示成固定词汇后再进行匹配，但词汇一旦超过控制范围，模型的准确率和召回率都会下降。另外一种基于字典的方法则因为一词多义的情况在跨语种文本的情况表现并不理想。

发明内容

本申请的目的在于针对现有技术的不足，提供一种基于词汇义原的文本过滤方法及相关设备，通过将文本数据分解成以义原为单位的向量集，并与参考文本的向量计算相似度，根据所述相似度进行过滤，可以有效对中英混合文本进行有效过滤，提高训练文本数据的质量。

为达到上述目的，本申请的技术方案提供一种基于词汇义原的文本过滤方法及相关设备。

本申请公开了一种基于词汇义原的文本过滤方法，包括以下步骤：

获取待过滤文本，对所述待过滤文本进行预处理，获得所述待过滤文本的词汇义原，并根据所述词汇义原将所述待过滤文本映射成待过滤文本向量集；

获取参考文本，对所述参考文本进行预处理，获得所述参考文本的词汇义原，并根据所述词汇义原将所述参考文本映射成参考文本向量集；

根据所述待过滤文本向量集及参考文本向量集计算获得文本相似度，并根据所述文本相似度对所述待过滤文本进行文本过滤。

较佳地，所述对所述待过滤文本进行预处理，获得所述待过滤文本的词汇义原，包括：

对所述待过滤文本进行分词，获得所述待过滤文本的词汇集合；

对所述词汇集合中的每个词汇进行分解，获得每个词汇的义原。

较佳地，所述根据所述词汇义原将所述待过滤文本映射成待过滤文本向量集，包括：

对所述词汇集合中的每个词汇进行词性标注；

对所述词性标注后的待过滤文本进行权重调整；

根据所述权重调整后的待过滤文本获得每个义原的标量值，根据所述标量值获得所述待过滤文本向量集。

较佳地，所述对所述词性标注后的待过滤文本进行权重调整，包括：

对所述词汇集合中每个词汇的每个义原分配初始权重，并对每个词汇的所有义原进行归一化处理；

依次对每个词汇的每个义原调整权重。

较佳地，所述依次对每个词汇的每个义原调整权重，包括：

获取所述待过滤文本中的任意一个句子，并获得所述句子中的任意一个词汇；

计算所述词汇与所属同一句子中其它词汇的关联性，并根据所述词汇与所属同一句子中其它词汇的关联性调整所述词汇对应义原的权重；

遍历所述待过滤文本中所有句子的所有词汇，对所有词汇对应的义原进行权重调整。

较佳地，所述根据所述待过滤文本向量集及参考文本向量集计算获得文本相似度，包括：

根据公式

获得所述待过滤文本向量集与参考文本向量集之间的文本相似度，其中，V_ref为参考文本向量集，V_text为待过滤文本向量集，(V_ref，V_text)为待过滤文本向量集与参考文本向量集的内积，|V_text|与|V_ref|分别为待过滤文本向量集与参考文本向量集的标量。

较佳地，所述根据所述文本相似度对所述待过滤文本进行文本过滤，包括：

预设文本相似度阈值；

当获取到所述待过滤文本向量集与参考文本向量集之间的文本相似度之后，将所述文本相似度与所述文本相似度阈值进行比较；

当所述文本相似度大于所述文本相似度阈值时，保留当前待过滤文本，否则删除当前待过滤文本。

本申请还公开了一种基于词汇义原的文本过滤装置，所述装置包括：

第一获取模块：设置为获取待过滤文本，对所述待过滤文本进行预处理，获得所述待过滤文本的词汇义原，并根据所述词汇义原将所述待过滤文本映射成待过滤文本向量集；

第二获取模块：设置为获取参考文本，对所述参考文本进行预处理，获得所述参考文本的词汇义原，并根据所述词汇义原将所述参考文本映射成参考文本向量集；

过滤模块：设置为根据所述待过滤文本向量集及参考文本向量集计算获得文本相似度，并根据所述文本相似度对所述待过滤文本进行文本过滤。

本申请还公开了一种计算机设备，所述计算机设备包括存储器和处理器，所述存储器中存储有计算机可读指令，所述计算机可读指令被一个或多个所述处理器执行时，使得一个或多个所述处理器执行上述所述文本过滤方法的步骤。

本申请还公开了一种存储介质，所述存储介质可被处理器读写，所述存储介质存储有计算机指令，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行上述所述文本过滤方法的步骤。

本申请的有益效果是：本申请通过将文本数据分解成以义原为单位的向量集，并与参考文本的向量计算相似度，根据所述相似度进行过滤，可以有效对中英混合文本进行有效过滤，提高训练文本数据的质量。

附图说明

图1为本申请第一个实施例的一种基于词汇义原的文本过滤方法的流程示意图；

图2为本申请第二个实施例的一种基于词汇义原的文本过滤方法的流程示意图；

图3为本申请第三个实施例的一种基于词汇义原的文本过滤方法的流程示意图；

图4为本申请第四个实施例的一种基于词汇义原的文本过滤方法的流程示意图；

图5为本申请第五个实施例的一种基于词汇义原的文本过滤方法的流程示意图；

图6为本申请第六个实施例的一种基于词汇义原的文本过滤方法的流程示意图；

图7为本申请实施例的一种基于词汇义原的文本过滤装置结构示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。

本申请第一个实施例的一种基于词汇义原的文本过滤方法流程如图1所示，本实施例包括以下步骤：

步骤s101，获取待过滤文本，对所述待过滤文本进行预处理，获得所述待过滤文本的词汇义原，并根据所述词汇义原将所述待过滤文本映射成待过滤文本向量集；

具体的，所述待过滤文本可以一种类型的文本，也可以是多种类型的文本，例如，只对中文文本进行过滤，或者对中文和英文混合的文本进行过滤；当获取到待过滤文本之后，可以对所述待过滤文本进行预处理，所述预处理包括对所述待过滤文本进行分词、词性识别及词义分解等操作，由此获得所述待过滤文本的词汇义原；当获取到所述待过滤文本中每个词汇的义原之后，可以根据所述词汇义原将所述待过滤文本映射成待过滤文本向量集。其中，所述词汇的分解可根据义原知识库进行，所述义原知识库来自《知网》，通过义原知识库的词汇定义可将待过滤文本中的词汇分解成义原，所述义原可包括中文义原和英文义原。所述义原分为可分义原与不可分义原，所述可分义原指能表示该概念的重要性质并能与其他概念区分开的义原，所述不可分义原指那些无法用来指出该概念一些特有性质的义原；当对待过滤文本进行分解后，还需去除不可分义原。

具体的，所述义原知识库可看做是一个可分义原向量集D，所述可分义原向量集D由无数个向量d_i组成，所述向量d_i是义原知识库中的一个可分义原，由于待过滤文本可能有中文和英文，因此义原知识库可包含中文可分义原向量集D_chinese和英文可分义原向量集D_english，当待过滤文本根据义原知识库的义原定义进行分解后，可获得中文待过滤文本向量集V_TEXT_chinese和英文待过滤文本向量集V_TEXT_english

步骤s102，获取参考文本，对所述参考文本进行预处理，获得所述参考文本的词汇义原，并根据所述词汇义原将所述参考文本映射成参考文本向量集；

具体的，所述参考文本也可分为中文参考文本和英文参考文本，所述参考文本为用户感兴趣的内容或领域，且是中文或者英文的单语言文本材料，且所述参考文本与所述待过滤文本的类型必须一致，即如果待过滤文本是中文，那么所述参考文本也应是中文，如果待过滤文本是英文，则所述参考文本也应是英文；当获取到所述参考文本之后，可以通过步骤s101所述对所述参考文本进行处理，同样获得参考文本向量集。

步骤s103，根据所述待过滤文本向量集及参考文本向量集计算获得文本相似度，并根据所述文本相似度对所述待过滤文本进行文本过滤。

具体的，当获得待过滤文本向量集和参考文本向量集后，可以通过公式计算所述待过滤文本向量集与参考文本向量集之间的文本相似度，用以确定当前的待过滤文本是否是需要的文本，如果是需要的文本，则进行保留，否则就把当前的待过滤文本进行删除，并对下一个待过滤文本进行判别，直到把所有的待过滤文本过滤完毕。

本实施例中，通过将文本数据分解成以义原为单位的向量集，并与参考文本的向量计算相似度，根据所述相似度进行过滤，可以有效对中英混合文本进行有效过滤，提高训练文本数据的质量。

图2为本申请第二个实施例的一种基于词汇义原的文本过滤方法流程示意图，如图所示，所述步骤s101，对所述待过滤文本进行预处理，获得所述待过滤文本的词汇义原，包括：

步骤s201，对所述待过滤文本进行分词，获得所述待过滤文本的词汇集合；

具体的，所述分词包括对所述待过滤文本中的内容进行词汇的划分，当对所述文本内容进行分词时，如果待过滤文本是中文和英文的混合文本，应对中文待过滤文本和英文待过滤文本分别进行；所述分词工具可采用工具Thulac，所述Thulac是一个模型，通过Thulac模型可对待处理文本进行分词，筛选出名词、动词、形容词等句子主要成分，当对所述待过滤文本分词结束之后，就可获得所述待过滤文本的词汇集合。

步骤s202，对所述词汇集合中的每个词汇进行分解，获得每个词汇的义原。

具体的，当获得所述待过滤文本的词汇集合之后，可对所述词汇集合中的每个词汇进行分解，获得每个词汇的义原，所述义原是表示每个词汇意思的最小单位。

本实施例中，通过对待过滤文本进行预处理获得每个词汇的义原，可以有效提高对待过滤文本的语义识别。

图3为本申请第三个实施例的一种基于词汇义原的文本过滤方法流程示意图，如图所示，所述步骤s101，根据所述词汇义原将所述待过滤文本映射成待过滤文本向量集，包括：

步骤s301，对所述词汇集合中的每个词汇进行词性标注；

具体的，所述词性标注同样可通过工具Thulac进行，通过Thulac模型可以对每个词汇的词性进行标注，区分名词、动词、量词、代词等，这样就能去除冠词、副词、情态动词、连接词及虚词等不必要的词汇引起的干扰。

步骤s302，对所述词性标注后的待过滤文本进行权重调整；

具体的，当获取到所述待过滤文本中每个词汇的词性后，可对不同词性的词汇对应的义原进行权重调整，由于一个词汇可由多个义原组成，因此通过调整义原的权重，可以改变所述词汇在整个句子中的意思。

步骤s303，根据所述权重调整后的待过滤文本获得每个义原的标量值，根据所述标量值获得所述待过滤文本向量集。

具体的，在权重调整之后可重新计算每个义原的标量值，并根据所述标量值获得所述待过滤文本向量集，所述标量值为所述待过滤文本向量集的数值。

本实施例中，通过获取每个词汇的词性，并对每个词汇进行权重调整，可以有效提高待过滤文本向量集的获取效率。

图4为本申请第四个实施例的一种方法流程示意图，如图所示，所述步骤s302，对所述词性标注后的待过滤文本进行权重调整，包括：

步骤s401，对所述词汇集合中每个词汇的每个义原分配初始权重，并对每个词汇的所有义原进行归一化处理；

具体的，可先对所述词汇集合中每个词汇的每个义原分配初始权重，其中，每个词汇可能有多个意思，每个意思由一个或多个义原组成，因此分配的权重是每个词汇中每个意思的每个义原的权重；对于每个词的每个意思，可以通过归一化函数对每个意思下的所有义原的权重进行归一化处理。

步骤s402，依次对每个词汇的每个义原调整权重。

具体的，当对所有义原进行归一化之后，继续计算在一个句子中每个词汇与其他词汇的关联性，并以此调整每个义原的权重。

本实施例中，通过在待过滤文本中调整义原的权重，可以更精确的表达文本中每个词汇的意思，有利于对文本的意思进行识别。

图5为本申请第五个实施例的一种方法流程示意图，如图所示，所述步骤s402，依次对每个词汇的每个义原调整权重，包括：

步骤s501，获取所述待过滤文本中的任意一个句子，并获得所述句子中的任意一个词汇；

具体的，可先任意获取所述待过滤文本中的一个句子，并对所述句子进行分词，获得所述句子中的每一个词汇，然后取其中任意一个词汇。

步骤s502，计算所述词汇与所属同一句子中其它词汇的关联性，并根据所述词汇与所属同一句子中其它词汇的关联性调整所述词汇对应义原的权重；

具体的，对于一个句子，计算其中一个词汇相对于其它词汇的关联性，所述关联性的计算包括：假设有一个句子n个词汇，则计算所述词汇与剩余n-1个词汇的关联性；所述关联性可通过计算CS_IJK与WCS_JK在义原知识库有对应的因果关系进行，所述CS_IJK为第I个词的第J个意思的第K个可分义原，WCS_JK为词w的第J个意思的第K个可分义原；所述因果关系可预先在义原知识库中设置，如果满足这种因果关系，则在初始权重上提高词汇对应义原的权重。

步骤s503，遍历所述待过滤文本中所有句子的所有词汇，对所有词汇对应的义原进行权重调整。

具体的，首先遍历一个句子中的所有词汇，即将一个句子中所有词汇与其它词汇的关联性遍历完毕，然后再遍历所述待过滤文本中的其它句子，当对所述待过滤文本中的所有词汇遍历完成之后，也就完成了对所有词汇对应的义原的权重的调整。

本实施例中，通过根据每个词汇与其它词汇的关联性调整权重，可以提高待过滤文本的语义识别。

在一个实施例中，所述步骤s103，根据所述待过滤文本向量集及参考文本向量集计算获得文本相似度，包括：

根据公式

具体的，所述待过滤文本向量集与参考文本向量集之间的文本相似度可通过公式获得，所述待过滤文本向量集与参考文本向量集之间的文本相似度即为待过滤文本向量集与参考文本向量集之间的向量夹角的余弦值cos(a)，其中，(V_ref，V_text)表示待过滤文本向量集V_TEXT与参考文本向量集V_REF之间的内积，所述内积就是对待过滤文本向量集V_TEXT与参考文本向量集V_REF执行点乘运算；|V_text|与|V_ref|分别是待过滤文本向量集V_TEXT与参考文本向量集V_REF的标量，所述标量就是待过滤文本向量集V_TEXT与参考文本向量集V_REF的数值。

具体的，由于待过滤文本可分为中文和英文，因此要分别计算中文和英文待过滤文本的每个文本与参考文本的余弦值，所述余弦值的计算应是中文待过滤文本与中文参考文本进行计算，英文待过滤文本与英文参考文本进行计算，并将获得的余弦值结果存储为cos(a)_english，及cos(a)_chinese。

本实施例中，通过计算待过滤文本向量集与参考文本向量集之间的向量夹角的余弦值获得文本相似度，很容易获取文本相似度，由此可以提高系统的识别效率。

图6为本申请实施例的一种方法流程示意图，如图所示，所述步骤s103，根据所述文本相似度对所述待过滤文本进行文本过滤，包括：

步骤s601，预设文本相似度阈值；

具体的，可先在系统中预设一个数值，所述数值可作为文本相似度的阈值，也可预设两个数值，分别对应不同类型的文本，例如，中文文本的文本相似度设置一个阈值，英文文本的文本相似度另设置一个阈值。

步骤s602，当获取到所述待过滤文本向量集与参考文本向量集之间的文本相似度之后，将所述文本相似度与所述文本相似度阈值进行比较；

具体的，当获取到所述待过滤文本向量集与参考文本向量集之间的文本相似度之后，可将本次的文本相似度与所述预设的文本相似度阈值进行比较，所述比较仅比较数值大小。

具体的，当进行比较时，如果预先设置了两个阈值，则需要将所述文本相似度与对应的文本相似度阈值进行比较，例如，如果当前待过滤文本是中文文本，则获取的当前的文本相似度是中文文本相似度，因此需要和中文文本相似度阈值进行比较。

步骤s603，当所述文本相似度大于所述文本相似度阈值时，保留当前待过滤文本，否则删除当前待过滤文本。

具体的，当通过比较，如果所述文本相似度大于所述文本相似度阈值时，则说明当前的待过滤文本符合要求，可以进行保留，并进行下一个待过滤文本的筛选，直到所有待过滤文本筛选完成为止；否则可以将当前的待过滤文本进行删除，并进行下一个待过滤文本的筛选，直到所有待过滤文本筛选完成为止。

本实施例中，通过对文本相似度的比较对待过滤文本进行筛选，可以提高系统的过滤效率。

本申请实施例的一种装置结构如图7所示，包括：

第一获取模块701、第二获取模块702及过滤模块703；其中，第一获取模块701与第二获取模块702相连，第二获取模块702与过滤模块703相连；第一获取模块701设置为获取待过滤文本，对所述待过滤文本进行预处理，获得所述待过滤文本的词汇义原，并根据所述词汇义原将所述待过滤文本映射成待过滤文本向量集；第二获取模块702设置为获取参考文本，对所述参考文本进行预处理，获得所述参考文本的词汇义原，并根据所述词汇义原将所述参考文本映射成参考文本向量集；过滤模块703设置为根据所述待过滤文本向量集及参考文本向量集计算获得文本相似度，并根据所述文本相似度对所述待过滤文本进行文本过滤。

本申请实施例还公开了一种计算机设备，所述计算机设备包括存储器和处理器，所述存储器中存储有计算机可读指令，所述计算机可读指令被一个或多个所述处理器执行时，使得一个或多个所述处理器执行上述各实施例中所述文本过滤方法中的步骤。

本申请实施例还公开了一种存储介质，所述存储介质可被处理器读写，所述存储器存储有计算机可读指令，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行上述各实施例中所述文本过滤方法中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，该计算机程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)等非易失性存储介质，或随机存储记忆体(Random Access Memory，RAM)等。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种基于词汇义原的文本过滤方法，其特征在于，包括以下步骤：

2.如权利要求1所述的基于词汇义原的文本过滤方法，其特征在于，所述对所述待过滤文本进行预处理，获得所述待过滤文本的词汇义原，包括：

3.如权利要求2所述的基于词汇义原的文本过滤方法，其特征在于，所述根据所述词汇义原将所述待过滤文本映射成待过滤文本向量集，包括：

对所述词汇集合中的每个词汇进行词性标注；

对所述词性标注后的待过滤文本进行权重调整；

4.如权利要求3所述的基于词汇义原的文本过滤方法，其特征在于，所述对所述词性标注后的待过滤文本进行权重调整，包括：

依次对每个词汇的每个义原调整权重。

5.如权利要求1所述的基于词汇义原的文本过滤方法，其特征在于，所述依次对每个词汇的每个义原调整权重，包括：

6.如权利要求5所述的基于词汇义原的文本过滤方法，其特征在于，所述根据所述待过滤文本向量集及参考文本向量集计算获得文本相似度，包括：

根据公式

7.如权利要求6所述的基于词汇义原的文本过滤方法，其特征在于，所述根据所述文本相似度对所述待过滤文本进行文本过滤，包括：

预设文本相似度阈值；

8.一种基于词汇义原的文本过滤装置，其特征在于，所述装置包括：

9.一种计算机设备，其特征在于，所述计算机设备包括存储器和处理器，所述存储器中存储有计算机可读指令，所述计算机可读指令被一个或多个所述处理器执行时，使得一个或多个所述处理器执行如权利要求1至7中任一项所述文本过滤方法的步骤。

10.一种存储介质，其特征在于，所述存储介质可被处理器读写，所述存储介质存储有计算机指令，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行如权利要求1至7中任一项所述文本过滤方法的步骤。