CN114254636A

CN114254636A - 文本处理方法、装置、设备及存储介质

Info

Publication number: CN114254636A
Application number: CN202111573599.4A
Authority: CN
Inventors: 高亨德; 刘钊; 李瑞锋
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-12-21
Filing date: 2021-12-21
Publication date: 2022-03-29

Abstract

本公开提供了一种文本处理方法、装置、设备及存储介质，涉及数据处理领域，尤其涉及人工智能、大数据处理领域。具体实现方案为：从多个初始待处理句中筛选出包含目标关键词的初始待处理句，作为候选待处理句，得到包含有至少一个所述候选待处理句的候选集合；其中，所述目标关键词为从关键词集合中的多个初始关键词中选取出的；所述初始关键词为属于目标领域的关键词；将所述候选待处理句，与包含有所述目标关键词的目标关键句进行比较，得到第一相似度信息；将所述第一相似度信息满足第一相似度规则的候选待处理句，作为属于所述目标领域的目标处理句。这样，提升了识别效率和识别准确率，为净化网络环境提供了技术支持。

Description

文本处理方法、装置、设备及存储介质

技术领域

本公开涉及数据处理技术领域，尤其涉及人工智能、大数据处理领域。

背景技术

网络违禁违法文本问题在互联网信息中心流通，影响社会的和谐稳定。因此，如何有效对违禁违法文本进行识别，成为净化网络环境所不可或缺的一个课题。

发明内容

本公开提供了一种文本处理方法、装置、设备及存储介质。

根据本公开的一方面，提供了一种文本处理方法，包括：

从多个初始待处理句中筛选出包含目标关键词的初始待处理句，作为候选待处理句，得到包含有至少一个所述候选待处理句的候选集合；其中，所述目标关键词为从关键词集合中的多个初始关键词中选取出的；所述初始关键词为属于目标领域的关键词；

将所述候选待处理句，与包含有所述目标关键词的目标关键句进行比较，得到第一相似度信息；

将所述第一相似度信息满足第一相似度规则的候选待处理句，作为属于所述目标领域的目标处理句。

根据本公开的另一方面，提供了一种文本处理装置，包括：

筛选单元，用于从多个初始待处理句中筛选出包含目标关键词的初始待处理句，作为候选待处理句，得到包含有至少一个所述候选待处理句的候选集合；其中，所述目标关键词为从关键词集合中的多个初始关键词中选取出的；所述初始关键词为属于目标领域的关键词；

比较单元，用于将所述候选待处理句，与包含有所述目标关键词的目标关键句进行比较，得到第一相似度信息；

目标确定单元，用于将所述第一相似度信息满足第一相似度规则的候选待处理句，作为属于所述目标领域的目标处理句。

根据本公开的另一方面，提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述所述的方法。

根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据上述所述的方法。

根据本公开的另一方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据上述所述的方法。

这样，本公开方案能够有效识别属于目标领域的目标处理句，提升了识别效率和识别准确率，为净化网络环境提供了技术支持。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是根据本公开实施例文本处理方法的实现流程示意图；

图2(a)至图2(d)是根据本公开实施例文本处理方法在一具体示例中构建领域句库和领域词库的实现流程示意图；

图3(a)和图3(b)是根据本公开实施例文本处理方法对待处理文本进行识别的流程示意图；

图4是根据本公开实施例文本处理装置的结构示意图

图5是用来实现本公开实施例的文本处理方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

本公开方案提供了一种文本处理方法，具体地，如图1所示，包括：

步骤S101：从多个初始待处理句中筛选出包含目标关键词的初始待处理句，作为候选待处理句，得到包含有至少一个所述候选待处理句的候选集合。

这里，所述目标关键词为从关键词集合中的多个初始关键词中选取出的；所述初始关键词为属于目标领域的关键词；基于此，所述目标关键词也为属于目标领域的关键词，为后续进行高效筛查奠定了基础。

步骤S102：将所述候选待处理句，与包含有所述目标关键词的目标关键句进行比较，得到第一相似度信息。

步骤S103：将所述第一相似度信息满足第一相似度规则的候选待处理句，作为属于所述目标领域的目标处理句。

在一具体示例中，可以对候选待处理句和目标关键句进行词特征向量化处理，进而得到候选待处理句的特征向量，以及目标关键句的特征向量，将目标关键句的特征向量与候选待处理句的特征向量进行相似度比较，如基于余弦相似度来度量句间相似度等，得到第一相似度信息。如此，来确定进行比较的候选待处理句和目标关键句是否为相似句，且该比较结果是可解释性强。。

需要说明的是，在进行词特征向量化的处理过程中，目标关键句中目标领域词的权重可以加大，以便于从多个初始待处理句中确定出属于目标领域的目标处理句。

在实际应用中，还可以输出目标处理句所对应的第一相似度信息，以及所述目标处理句的特征向量，和与目标处理句为相似句关系的目标关键句的特征向量，如此，来进一步提升比较结果(也即第一相似度信息)的可解释性。

可以理解的是，本公开方案所述第一相似度规则，可以基于实际场景的实际需求而定，本公开方案对此不作限制。比如，该第一相似度规则可以具体为一阈值，比如第一阈值，此时，可以将大于第一阈值的第一相似度信息所对应的两个句子，作为相似句，该相似句所对应的候选待处理句即为目标处理句。

这样，本公开方案能够有效对初始待处理句进行识别，而且，该识别过程能够锚定目标领域，所以，实现了有效识别属于目标领域的目标处理句的目的，为净化网络环境提供了技术支持。

而且，由于本公开方案能够基于句维度进行识别，并得到目标处理句，所以，对变种较大的句子也具有较强的识别能力，同时，提升了整体识别效率和识别准确率，而且，结果的可解释性强。

在本公开方案的一具体示例中，可以采用如下方式得到初始待处理句，具体地，对待处理文本进行预处理，得到所述多个初始待处理句。举例来说，将待处理文本中的停用词、标点、特殊符号等替换为空格，然后基于得到的空格对待处理文本进行分句处理，得到多个初始待处理句。实际应用中，还可以有其他分句处理方案，本公开方案对此不作限制。

这样，实现对待处理文本中目标领域的相关句，比如属于目标领域的目标处理句的识别和筛查，为净化网络环境提供了技术支持。同时，将本公开方案应用场景扩展到了文本领域，即扩展了应用场景，如此，为工程化应用和推广奠定了基础。

在本公开方案的一具体示例中，在得到属于所述目标领域的目标处理句的情况下，可基于以下至少之一方式对所述待处理文本进行标记，具体包括：对所述目标处理句进行标记；对所述目标处理句所在段落进行标记。也就是说，在得到目标处理句后，还可以对待处理文本中目标处理句进行标记，或者对所述目标处理句所在段落进行标记，再或者对待处理文本中目标处理句，以及所述目标处理句所在段落均进行标记。这里，标记可以具体为字体放大、高亮、下划线或者标记框等方式进行标记，本公开方案对标记方式不作具体限制。这样，为有效截获违禁违法文本提供了技术支持，同时也提升了效率。

在本公开方案的一具体示例中，以上所述的从多个初始待处理句中筛选出包含目标关键词的初始待处理句，作为候选待处理句，得到包含有至少一个所述候选待处理句的候选集合，可以具体包括：

从所述多个初始待处理句中筛选出包含目标关键词的初始待处理句，作为候选待处理句；从所述多个初始待处理句中筛选出包含预设关键词的初始待处理句，作为非候选处理句；这里，所述预设关键词为预设词集合中的预设关键词之一；所述预设关键词为不属于所述目标领域的关键词；进一步地，基于所述候选待处理句，以及所述多个初始待处理句中除所述非候选处理句之外的其他初始待处理句，得到候选集合。即将所述候选待处理句，以及所述多个初始待处理句中除所述非候选处理句之外的其他初始待处理句均加入到候选集合，以进行下一步筛选。

也就是说，基于目标关键词和预设关键词对多个初始待处理句进行分类。这里，需要明确的是，该目标关键词为属于目标领域的关键词，该预设关键词为不属于该目标领域的指定关键词(该指定关键词，可以为与目标领域差距较大的词，或者也可以为与该目标领域相关的，但人工筛选后排除在该目标领域之外的词)；如此，得到候选待处理句以及非候选待处理句。实际应用中，可能存在如下情况：存在初始待处理句既未认定为候选待处理句，同时也未认定为是非候选处理句。此时，为了进一步扩大筛选范围，避免筛漏，可以将所述候选待处理句，以及所述多个初始待处理句中除所述非候选处理句之外的其他初始待处理句均加入到候选集合，如此，扩大筛查识别范围，为有效避免漏检奠定了基础。

在另一具体示例中，还可以将未认定为候选待处理句，同时也未认定为是非候选处理句的初始待处理句直接排除，即认定为非候选处理句；换言之，仅将目标关键词筛查得到的候选待处理句加入到候选集合进行下一步筛选，如此，来提升筛选效率。

在本公开方案的一具体示例中，还可以采用如下方式来得到目标关键词；具体地，基于所述目标领域的历史文本，确定出属于所述目标领域的多个初始关键词，得到所述关键词集合；对所述关键词集合中的初始关键词进行排序处理，基于排序结果从所述多个初始关键词选取出至少一个所述目标关键词。

举例来说，将关键词集合中的初始关键词进行排序处理，比如基于重要程度或者优先程度从高到低将关键词集合中的初始关键词进行排序，基于排序结果选取出位于前预设数量的初始领域词作为目标领域词，如此，基于该目标领域词对初始待处理句进行筛选。这样，在确保识别准确率的基础上，还能够有效提升筛选效率。

在本公开方案的一具体示例中，可以采用如下方式得到初始关键词，具体地，以上所述的基于所述目标领域的历史文本，确定出属于所述目标领域的多个初始关键词，包括：基于所述目标领域的历史文本，得到属于所述目标领域的多个特征词，也即多个领域特征词；进而将所述特征词直接作为所述初始关键词，或者，将所述特征词和所述特征词的相似词均作为所述初始关键词。这里，所述历史文本为认定属于该目标领域的文本；如此，从历史文本中来确定初始关键词，能够有效提升识别效率。而且，当将特征词的相似词也作为初始关键词的情况下，还能够有效扩展初始关键词的范围，为后续提升识别准确率奠定了基础。

在本公开方案的一具体示例中，可以采用如下方式来得到相似词，具体包括：对所述历史文本进行向量处理，得到所述特征词的特征向量；从基于所述历史文本建立的分词词典中选取出与所述特征词的特征向量的相似度满足预设规则的词，作为所述特征词的相似词。如此，来有效扩展初始关键词的范围，使得本公开方案具有很强的泛化能力，为后续提升识别准确率奠定了基础。而且，该扩展方式可解释性强。

需要说明的是，本公开方案对向量处理的方式不作限制，只要能够得到特征词的特征向量，并基于特征向量进行向量相似度匹配得到相似词即可。

在本公开方案的一具体示例中，可以采用如下方式，构建分词词典，具体包括：基于所述目标领域的历史文本，得到多个初始词，以及得到属于所述目标领域的至少一个特征词；构建包含所述多个初始词和至少一个特征词的分词词典。

举例来说，可以先构建自定义词典。比如，利用凝聚度、互信息等方式从该目标领域的历史文本中挖掘出关键词(包括关键短语)，加入到自定义词典；还可以利用隐马尔可夫模型HMM对该目标领域的历史文本进行分词处理，并将分词处理后得到的多个分词结果(也可称为关键词)加入到所述自定义词典。实际应用中，还可以采用其他方式对从该目标领域的历史文本中挖掘出关键词，本公开方案对此不作限制。

进一步地，需要说明的是，该自定义词典中所包含的关键词，可能为该目标领域的关键词，也可能并非为该目标领域的关键词；这里，构建该自定义词典的目的是找到词(包括短语、词组等)，以便于后续以词的维度，来寻找属于该目标领域的初始关键词。这里，自定义词典中的关键词即为作为初始词。

进一步地，再从该目标领域的历史文本中小批量筛选得到该目标领域的种子词(也包括种子短语，也即特征词)。

构建分词词典，该分词词典中包含有种子词以及自定义词典中的关键词(也即初始词)。

需要说明的是，该分词词典中所包含的关键词，可能为该目标领域的关键词，也可能并非为该目标领域的关键词；这里，构建该分词词典的目的是找到该目标领域的历史文本中所有的词，以便于从其中(也即该分词词典中)确定出属于该目标领域的关键词。

这样，为后续精准地从词的维度确定出初始关键词奠定了数据基础，同时，也提升了处理效率。

在本公开方案的一具体示例中，可以采用如下方式构建关键句集合，进而为能够从句维度进行筛选提供了数据支持，同时，也为提升本公开方案的整体识别能力提供了数据支持。具体包括：对所述目标领域的历史文本进行预处理，得到多个初始句；从所述多个初始句筛选出包含有所述初始关键词的初始句作为初始关键句，得到关键句集合。

举例来说，将该目标领域的历史文本中的连续数字、停用词、标点、特殊符号等替换为空格。依据预处理后的空格将历史文本进行分句处理，得到多个句子(也即多个初始句)。利用关键词集合中的初始关键词对分句处理后得到的初始句进行初筛，并将筛选出的包含所述初始关键词的初始句作为初始关键句，得到关键句集合。

以上所述的目标关键句为所述关键句集合所包含的初始关键句之一。也就是说，在得到所述目标关键词的情况下，从所述关键句集合中确定包含有所述目标关键词的目标关键句。

本示例所述的初始关键词可以是基于上述方式得到关键词集合中的初始关键词。

在本公开方案的一具体示例中，还可以采用如下方式，对得到的关键句集合中的初始关键句进一步进行筛选，以避免将不属于目标领域的关键句作为初始关键句，如此，为后续提升识别准确率奠定了基础，同时，也为提升识别效率奠定了基础。具体包括：

将所述关键句集合中的初始关键句与预设关键句进行比较，得到第二相似度信息；其中，所述预设关键句为包含不属于所述目标领域的关键词的关键句；所述预设关键词为以上所述的预设词集合中的预设关键词之一；换言之，预先设置预设词集合，该预设词集合中的预设关键词均为不属于所述目标领域的指定关键词。进一步地，所述预设关键句为预设句集合中预设关键句之一；同理，预先设置预设句集合，该预设句集合中的预设关键句均为包括不属于所述目标领域的指定关键词的关键句。

进一步地，从所述关键句集合中删除所述第二相似度信息满足第二相似度规则的初始关键句。比如，从所述关键句集合中删除第二相似度信息大于第二阈值的初始关键句，也即认为第二相似度信息大于第二阈值的初始关键句为非领域句。

举例来说，将领域句库(也即关键句集合)中的初始领域句(也即初始关键句)，与非领域句库(也可称为预设句集合)中非领域句(也即预设关键句)进行比较，得到相似度信息(也即第二相似度信息)，若得到相似度信息(也即第二相似度信息)满足第二相似度规则，则从所述领域句库中删除相似度信息(也即第二相似度信息)满足第二相似度规则(比如相似度超出第二阈值)的初始领域句，同时，更新所述领域句库。

需要说明的是，若特定初始领域句与特定非领域句的相似度超出第二阈值，则说明该特定初始领域句并非为属于该目标领域的领域句，此时，可以从领域句库中删除该特定初始领域句。

按照上述方式，将领域句库中的各初始领域句逐个与非领域句进行比较，以更新所述领域句库，如此，有效避免领域句库中出现非目标领域的领域句。

另外，需要说明的是，实际应用中，还可以将基于上述方式得到的领域句库中的初始领域句进行聚类处理，以减少领域句库中初始领域句的数量，如此，便于减少后期检索量。

需要说明的是，本公开所述的历史文本指一个或多个文本，本公开方案对历史文本的数量和文本长度不作限制，只要是认定为属于该目标领域的文本均可作为历史文本。

同时，还需要说明的是，本公开方案所述的词，包括但不限于关键词、初始词、特征词等均可以包括短语、词组等。

同时，本公开方案还可以对数据样本，也即历史文本进行持续维护，如此，来进一步提升布控能力，以及进一步提升识别准确率。

以下结合具体示例对本公开方案做进一步详细说明；详细步骤包括：

第一部分：构建领域句库(也即关键句集合)和领域词库(也即关键词集合)。

可以理解的是，领域词可以理解为属于特定领域，比如色情领域的关键词，此时，可统称为该特定领域的领域词；同理，领域句可以理解为包含特定领域的领域词的句子，可称为该特定领域的领域句。这里，所述的特定领域，本公开方案对此不作限制，相应地，属于该特定领域的领域词或领域句，本公开对此也不作限制。

本示例以内容风控场景下的色情领域为例，具体地，构建与目标领域，比如色情领域，相关的领域词库以及领域句库。

这里，可以理解的是，领域词库中所包含的领域词可以是具体词语，也可以是短语，本公开方案对具体的领域词的形式也不作限定，属于特定领域的任意词、词组或短语均可作为本示例所述的领域词。

如图2(a)和图2(b)所示，具体步骤包括：

步骤201：从属于该目标领域的历史文本中挖掘出初始领域词(也即初始关键词)，基于挖掘出的初始领域词构建领域词库。比如，如图2(c) 所示，可以采用如下方式得到：

步骤2011：构建自定义词典。举例来说，利用凝聚度、互信息、最大熵、语音模型等方式从该目标领域的历史文本中挖掘出关键词(包括关键短语)(也即图2(b)所示的词挖掘)，加入到自定义词典；还可以利用隐马尔可夫模型HMM对该目标领域的历史文本进行分词处理，并将分词处理后得到的多个分词结果(也可称为关键词)加入到所述自定义词典。

实际应用中，还可以采用其他方式对从该目标领域的历史文本中挖掘出关键词，本公开方案对此不作限制。

进一步地，需要说明的是，该自定义词典中所包含的关键词，可能为该目标领域的关键词，也可能并非为该目标领域的关键词；这里，构建该自定义词典的目的是找到词(包括短语、词组等)，以便于后续以词的维度，来寻找属于该目标领域的初始关键词。

步骤2012：采用人工筛选的方式，从该目标领域的历史文本小批量筛选得到该目标领域的种子词(也包括种子短语，也即以上所述的特征词)。

步骤2013：构建分词词典，该分词词典中包含有种子词以及自定义词典中的关键词；换言之，基于该步骤2011得到的自定义词典中的关键词，以及步骤2012得到的种子词构建分词词典。

实际应用中，还可以对构建的所述分词词典中词进行预处理，比如，去掉停用词、繁体字转换为简体字、大小写转换、符号处理等。

步骤2014：对该目标领域的历史文本进行向量处理，得到该种子词的特征向量(也即特征向量)，从所述分词词典中确定出与该种子词的特征向量所匹配的词，作为该种子词的相似词(包括相似短语)。比如，从所述分词词典中选取出与该种子词的特征向量的相似度满足预设规则的词，作为该种子词的相似词。

可以理解的是，实际应用中，对分词词典进行预处理后的词进行向量处理，比如，基于增量训练方式、利用管理工具(如手动对词进行控制等)，或者word2vec(word tovector)、GloVe模型、浅层网络(FastText)等训练词向量的方式得到分词词典中各词的特征向量。

步骤2015：将该种子词，以及该种子词的相似词，作为该目标领域的初始领域词(也即初始关键词)，得到领域词库(也即关键词集合)。

需要说明的是，实际应用中，还可以手工录入方式来新增种子词，进而基于该种子词的特征向量，得到新增的种子词的相似词，如此，来扩充所述关键词集合。

步骤202：从属于该目标领域的历史文本中挖掘出属于该目标领域的初始领域句(也即初始关键句)，得到领域句库。

如图2(d)所示，具体步骤：

步骤2021：将该目标领域的历史文本进行预处理，比如将连续数字、停用词、标点、特殊符号等替换为空格。

步骤2022：依据预处理后的空格将历史文本进行分句处理，得到多个句子(也即多个初始句)。

步骤2023：利用领域词库中的初始领域词对分句处理后得到的初始句进行初筛，并将筛选出的包含所述初始领域词的初始句作为初始领域句 (也即初始关键句)，得到领域句库(也即关键句集合)。

可以理解的是，为了进一步提升得到的初始领域句的数量以及精准度，还可以将初始领域词进行组合得到组合领域词，或者进行人工干预(比如人工添加领域词)等方式来挖掘初始领域词，以得到领域句库。

步骤2024：将领域句库中的初始领域句，与非领域句库(也可称为预设句集合)中非领域句(也即预设关键句)进行比较，得到相似度信息(也即以上所述的第二相似度信息)，若得到相似度信息(也即以上所述的第二相似度信息)满足第二相似度规则，则从所述领域句库中删除相似度信息(也即以上所述的第二相似度信息)满足第二相似度规则(比如相似度超出第二阈值)的初始领域句，并更新所述领域句库。

按照上述方式，将领域句库中的各初始领域句逐个与非领域句进行比较，以更新所述领域句库，避免领域句库中出现非目标领域的领域句。

另外，需要说明的是，实际应用中，还可以将基于上述方式得到的领域句库中的初始领域句进行聚类处理，比如，基于特征抽取、短文本聚类算法等进行领域句库的聚类处理，以减少领域句库中初始领域句的数量，如此，便于减少后期检索量。

第二部分：基于构建的领域词库和领域句库，对目标场景，如内容风控场景下的色情场景的文本(也即待处理文本)进行筛查识别，如图3(a) 和图3(b)所示，具体步骤包括：

步骤301：输入待处理文本，并根据目标领域词(也即目标关键词)，将该待处理文本分为正样本句库和负样本句库。

这里，正样本句库(也即候选集合)中所包含的句子为包含目标关键词的句子(也即以上所述的候选待处理句)；负样本句库中所包含的句子为不包括所述目标领域的目标关键词的句子(也即以上所述的非候选待处理句)；进一步地，为了便于筛选，可以预先设置预设词集合，该预设词集合中包括多个预设关键词，所述预设关键词为不属于所述目标领域的指定关键词，也即指定的非领域词；基于此，所述负样本句库中所包含的句子为包含预设关键词的句子(也即非候选待处理句)。

具体步骤包括：

步骤3011：对待处理文本进行预处理，比如，将连续数字替换为<num>、非中文英文数字及非常用断句标点替换为空格。依据预处理后的空格将待处理文本进行分句处理，得到多个初始待处理句。

步骤3012：从多个初始待处理句中筛选出包括目标领域词(也即目标关键词)的初始处理句，作为候选待处理句，得到正样本句库；从多个初始待处理句中筛选出包括领域白名单(一般为人工预设)(该领域白名单中包括指定的非领域词，即以上所述的预设关键词)的初始待处理句，得到领域句白库(也可称为负样本库)，该领域句白库中的句子均为非领域句，也即非候选处理句。

需要说明的是，并非所有的非领域词，均可作为领域白名单，实际应用中，可以基于人工筛选的方式，将指定的非领域词作为领域白名单的非领域词。

需要说明的是，可能有些初始待处理句既未落入正样本句库，同时也未落入负样本句库，此时，可将未落入正样本的初始待处理句均作为非候选待处理句，并落入负样本句库。

实际应用中，可以采用如下方式来得到目标领域词，即将领域词库中的初始领域词进行排序处理，比如基于重要程度或者优先程度从高到低将领域词库中的初始领域词进行排序(这里，实际应用中，为了提升匹配的精准度，还可以基于字进行排序处理)，基于排序结果选取出位于前预设数量的初始领域词作为目标领域词，进而基于该目标领域词对初始待处理句进行筛选。

可以理解的是，在排序处理过程中，还可以对英文/数字等进行特殊处理。

步骤302：将得到的正样本句库中候选待处理句进一步进行筛选；具体地，在确定出目标领域词后，从领域句库中选择出该目标领域词所对应的初始领域句，作为目标领域句(也即目标关键句)；确定各所述目标领域句的特征向量，以及候选待处理句的特征向量，比如将目标领域句和候选待处理句进行特征向量化处理即句维度的Embedding，进而将目标领域句的特征向量与候选待处理句的特征向量进行相似度比较，如基于余弦相似度来度量句间相似度等。

需要说明的是，在进行特征向量化的处理过程中，也即构建句向量的过程中，目标领域句中的目标领域词的权重可以加大，比如，使用TF-IDF (term frequency–inversedocument frequency)来调整目标领域句中的目标领域词的权重；或者，还可以采用抽取关键词方式、词向量拼接等方式来构建句向量等，如此，便于从待处理文本中确定出属于目标领域的句子。

进一步地，在进行相似度比较时，可以基于编辑距离、句向量余弦相似度、领域权重等几个维度进行比较；而且，为了进一步提升结果的精确度，还可以在相似度匹配结束后，将相似度匹配结果进行深度文本匹配，比如，浅层转换(Transformer)模型，或文本分类模型(TextCNN)/浅层网络(FastText)等方式进行匹配，如此，得到匹配结果。

实际应用中，在基于句维度进行相似度匹配的过程中，还可以对不同长度的文本或句进行区别对待，如此，来提升匹配精度；或者，使用GPU 资源来快速处理应对，比如，快速排除复杂模型或对复杂模型进行蒸馏等处理。

步骤303：基于比较结果得到相似句，即基于比较结果确定目标领域句的特征向量与候选待处理句的特征向量的相似度大于第一阈值，此时，可认为该目标领域句与候选待处理句为相似句，进而将相似句所对应的候选待处理句作为目标处理句，如此，确定出所述正样本句库，也即候选集合中的所有目标处理句，从所述待处理文本中标记出各目标处理句，或者各目标处理句所在的段落，完成本次处理流程。

实际应用中，在得到相似句后，还可以将得到相似句输入到文本匹配模型中进行验证，如此，来进一步提升匹配精度。

需要说明的是，以上所述的预设句集合(包含预设关键句，也即非领域句)，以及预设词集合(包括预设关键词，也即指定的非领域词)均可以通过该目标领域的历史文本得到，比如，可以基于得到的领域词库和领域句库的方式得到，本公开对此不作限制。

可以理解的是，实际应用中，可以通过对历史文件进行持续迭代，来更新领域词库、领域句库，以及非领域词库和非领域句库等，如此，来提升领域样本布控的准确率。

这样，本公开方案能够有效对初始待处理句进行识别，而且，该识别过程能够锚定目标领域，所以，实现了有效识别属于目标领域的目标处理句的目的，同时，对变种词(也即以上所述的相关词)也有较强的识别能力，提升了整体识别效率和识别准确率，为净化网络环境提供了技术支持。

而且，由于本公开方案能够基于句维度进行识别，并得到目标处理句，所以，对变种较大的句子也具有较强的识别能力，同时，进一步提升了整体识别效率和识别准确率，而且，结果的可解释性强。

本公开方案还提供了一种文本处理装置，如图4所示，包括：

筛选单元401，用于从多个初始待处理句中筛选出包含目标关键词的初始待处理句，作为候选待处理句，得到包含有至少一个所述候选待处理句的候选集合；其中，所述目标关键词为从关键词集合中的多个初始关键词中选取出的；所述初始关键词为属于目标领域的关键词；

比较单元402，用于将所述候选待处理句，与包含有所述目标关键词的目标关键句进行比较，得到第一相似度信息；

目标确定单元403，用于将所述第一相似度信息满足第一相似度规则的候选待处理句，作为属于所述目标领域的目标处理句。

在本公开方案的一具体示例中，还包括：

第一预处理单元，用于对待处理文本进行预处理，得到所述多个初始待处理句。

在本公开方案的一具体示例中，还包括：

文本标记单元，用于在得到属于所述目标领域的目标处理句的情况下，基于以下至少之一方式对所述待处理文本进行标记：

对所述目标处理句进行标记；

对所述目标处理句所在段落进行标记。

在本公开方案的一具体示例中，所述筛选单元，具体包括：

从所述多个初始待处理句中筛选出包含目标关键词的初始待处理句，作为候选待处理句；

从所述多个初始待处理句中筛选出包含预设关键词的初始待处理句，作为非候选处理句；其中，所述预设关键词为不属于所述目标领域的关键词；

基于所述候选待处理句，以及所述多个初始待处理句中除所述非候选处理句之外的其他初始待处理句，得到候选集合。

在本公开方案的一具体示例中，还包括：

关键词处理单元，用于基于所述目标领域的历史文本，确定出属于所述目标领域的多个初始关键词，得到所述关键词集合；对所述关键词集合中的初始关键词进行排序处理，基于排序结果从所述多个初始关键词选取出至少一个所述目标关键词。

在本公开方案的一具体示例中，所述关键词处理单元，具体包括：

基于所述目标领域的历史文本，得到属于所述目标领域的多个特征词；

将所述特征词作为所述初始关键词，或者，将所述特征词和所述特征词的相似词作为所述初始关键词。

在本公开方案的一具体示例中，所述关键词处理单元，还用于：

对所述历史文本进行向量处理，得到所述特征词的特征向量；

从基于所述历史文本建立的分词词典中选取出与所述特征词的特征向量的相似度满足预设规则的词，作为所述特征词的相似词。

基于所述目标领域的历史文本，得到多个初始词，以及得到属于所述目标领域的至少一个特征词；

构建包含所述多个初始词和至少一个特征词的分词词典。

在本公开方案的一具体示例中，还包括：

第二预处理单元，用于对所述目标领域的历史文本进行预处理，得到多个初始句；

关键句处理单元，用于从所述多个初始句筛选出包含有所述初始关键词的初始句作为初始关键句，得到关键句集合；其中，所述目标关键句为所述关键句集合所包含的初始关键句之一。

在本公开方案的一具体示例中，所述关键句处理单元，还用于：

将所述关键句集合中的初始关键句与预设关键句进行比较，得到第二相似度信息；其中，所述预设关键句为包含不属于所述目标领域的关键词的关键句；

从所述关键句集合中删除所述第二相似度信息满足第二相似度规则的初始关键句。

上述装置中各单元具体功能可参照上述方法描述，这里不再赘述。

本公开的技术方案中，所涉及的用户个人信息的获取，存储和应用等，均符合相关法律法规的规定，且不违背公序良俗。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图5示出了可以用来实施本公开的实施例的示例电子设备500的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图5所示，设备500包括计算单元501，其可以根据存储在只读存储器(ROM)502中的计算机程序或者从存储单元508加载到随机访问存储器(RAM)503中的计算机程序，来执行各种适当的动作和处理。在RAM 503中，还可存储设备500操作所需的各种程序和数据。计算单元501、 ROM 502以及RAM 503通过总线504彼此相连。输入/输出(I/O)接口 505也连接至总线504。

设备500中的多个部件连接至I/O接口505，包括：输入单元506，例如键盘、鼠标等；输出单元507，例如各种类型的显示器、扬声器等；存储单元508，例如磁盘、光盘等；以及通信单元509，例如网卡、调制解调器、无线通信收发机等。通信单元509允许设备500通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元501可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元501的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元501执行上文所描述的各个方法和处理，例如文本处理方法。例如，在一些实施例中，文本处理方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元 508。在一些实施例中，计算机程序的部分或者全部可以经由ROM 502和 /或通信单元509而被载入和/或安装到设备500上。当计算机程序加载到 RAM 503并由计算单元501执行时，可以执行上文描述的文本处理方法的一个或多个步骤。备选地，在其他实施例中，计算单元501可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行文本处理方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/ 或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入、或者触觉输入) 来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种文本处理方法，包括：

2.根据权利要求1所述的方法，还包括：

对待处理文本进行预处理，得到所述多个初始待处理句。

3.根据权利要求2所述的方法，还包括：

在得到属于所述目标领域的目标处理句的情况下，基于以下至少之一方式对所述待处理文本进行标记：

对所述目标处理句进行标记；

对所述目标处理句所在段落进行标记。

4.根据权利要求1至3任一项所述的方法，其中，所述从多个初始待处理句中筛选出包含目标关键词的初始待处理句，作为候选待处理句，得到包含有至少一个所述候选待处理句的候选集合，包括：

5.根据权利要求1至4任一项所述的方法，还包括：

基于所述目标领域的历史文本，确定出属于所述目标领域的多个初始关键词，得到所述关键词集合；

对所述关键词集合中的初始关键词进行排序处理，基于排序结果从所述多个初始关键词选取出至少一个所述目标关键词。

6.根据权利要求5所述的方法，其中，所述基于所述目标领域的历史文本，确定出属于所述目标领域的多个初始关键词，包括：

7.根据权利要求6所述的方法，还包括：

8.根据权利要求7所述的方法，还包括：

构建包含所述多个初始词和至少一个特征词的分词词典。

9.根据权利要求6至8任一项所述的方法，还包括：

对所述目标领域的历史文本进行预处理，得到多个初始句；

从所述多个初始句筛选出包含有所述初始关键词的初始句作为初始关键句，得到关键句集合；

其中，所述目标关键句为所述关键句集合所包含的初始关键句之一。

10.根据权利要求9所述的方法，还包括：

11.一种文本处理装置，包括：

12.根据权利要求11所述的装置，还包括：

13.根据权利要求12所述的装置，还包括：

对所述目标处理句进行标记；

对所述目标处理句所在段落进行标记。

14.根据权利要求11至13任一项所述的装置，其中，所述筛选单元，具体包括：

15.根据权利要求11至14任一项所述的装置，还包括：

16.根据权利要求15所述的装置，其中，所述关键词处理单元，具体包括：

17.根据权利要求16所述的装置，其中，所述关键词处理单元，还用于：

18.根据权利要求17所述的装置，其中，所述关键词处理单元，还用于：

构建包含所述多个初始词和至少一个特征词的分词词典。

19.根据权利要求16至18任一项所述的装置，还包括：

20.根据权利要求19所述的装置，其中，所述关键句处理单元，还用于：

21.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-10中任一项所述的方法。

22.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-10中任一项所述的方法。

23.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1-10中任一项所述的方法。