CN114138969A

CN114138969A - 文本处理方法及装置

Info

Publication number: CN114138969A
Application number: CN202111508826.5A
Authority: CN
Inventors: 刘波; 陈炳煌; 钟朝龙; 刘松喜
Original assignee: Chengdu Xishanju Shiyou Technology Co ltd; Zhuhai Kingsoft Digital Network Technology Co Ltd
Current assignee: Chengdu Xishanju Shiyou Technology Co ltd; Zhuhai Kingsoft Digital Network Technology Co Ltd
Priority date: 2021-12-10
Filing date: 2021-12-10
Publication date: 2022-03-04

Abstract

本申请提供一种文本处理方法及装置，其中所述文本处理方法包括：获取待处理文本；对所述待处理文本进行预处理，获得所述待处理文本对应的词单元集合；计算所述词单元集合中包含的每个词单元，与预设的敏感词集合中的敏感词之间的属性相似度；根据所述属性相似度在所述词单元集合中筛选目标词单元，并基于所述目标词单元将所述敏感词集合更新为目标敏感词集合。实现了对待处理文本的语义扩展和对敏感词集合的敏感词数量的扩展，提高了文本处理的实用性和精确度。

Description

文本处理方法及装置

技术领域

本申请涉及自然语言处理技术领域，特别涉及一种文本处理方法。本申请同时涉及一种文本过滤方法、一种文本处理装置、一种文本过滤装置、一种计算设备，以及一种计算机可读存储介质。

背景技术

随着互联网技术的发展，越来越多的人开始通过网络与人交流或发表自己的观点。为达到净化网络环境的目的，通常会对敏感词进行过滤，脱敏。现有技术中，通常采用字符串比较，字符串正则匹配这两种方法对同一段文字进行过滤。当检测到文字中包含不符合规则的敏感字/词语时，就会被特定的符号替换，或禁止该文字的发布。

然而，这种过滤方法虽然在一定程度上达到了过滤文字中出现的敏感词的目的，但同时也存在一些问题：字符串匹配只能匹配特定的或者满足特定正则表达式的词，有极大的局限性。文字过滤的范围被限定在预置的敏感词表中，过滤效果较差。

发明内容

有鉴于此，本申请实施例提供了一种文本处理方法，以解决现有技术中存在的技术缺陷。本申请实施例同时提供了一种文本过滤方法、一种文本处理装置，一种文本过滤装置、一种计算设备，以及一种计算机可读存储介质。

根据本申请实施例的第一方面，提供了一种文本处理方法，包括：

获取待处理文本；

对所述待处理文本进行预处理，获得所述待处理文本对应的词单元集合；

计算所述词单元集合中包含的每个词单元，与预设的敏感词集合中的敏感词之间的属性相似度；

根据所述属性相似度在所述词单元集合中筛选目标词单元，并基于所述目标词单元将所述敏感词集合更新为目标敏感词集合。

可选地，所述计算所述词单元集合中包含的每个词单元，与预设的敏感词集合中的敏感词之间的属性相似度，包括：

对所述词单元集合中包含的每个词单元进行标准化处理，将标准化处理结果存储至数据集；

计算所述数据集中的初始词单元，与预设的敏感词集合中的敏感词之间的属性相似度。

所述根据所述属性相似度在所述词单元集合中筛选目标词单元，包括：根据所述属性相似度在所述数据集中筛选目标词单元。

可选地，所述计算所述数据集中的初始词单元，与预设的敏感词集合中的敏感词之间的属性相似度步骤执行之前，还包括：

在所述数据集满足相似度计算条件的情况下，执行所述计算所述数据集中的初始词单元，与预设的敏感词集合中的敏感词之间的属性相似度步骤；

其中，所述计算所述数据集中的初始词单元，与预设的敏感词集合中的敏感词之间的属性相似度，包括：

从所述数据集中读取每个初始词单元对应的词向量；

基于相似度算法，计算每个初始词单元对应的词向量，与所述敏感词集合中的敏感词对应的词向量之间的属性相似度。

可选地，所述对所述待处理文本进行预处理，获得所述待处理文本对应的词单元集合，包括：

基于预设的敏感词集合对所述待处理文本进行字符串比较和字符串正则匹配，获得初始过滤文本；

对所述初始过滤文本进行分词处理，获得所述词单元集合。

可选地，所述对所述初始过滤文本进行分词处理，获得所述的词单元集合，包括：

基于预设的数据集对所述初始过滤文本进行字符检测，获得目标字符；

在所述初始过滤文本中删除所述目标字符，获得目标过滤文本；

利用所述数据集和分词算法对所述目标过滤文本进行分词识别，获得与所述待处理文本对应的初始词单元集合；

对所述初始词单元集合中每个词单元进行词性标记，生成携带词性信息的词单元集合。

可选地，所述利用所述数据集和分词算法对所述目标过滤文本进行分词识别，获得与所述待处理文本对应的初始词单元集合，包括：

基于所述数据集构建与所述目标过滤文本对应的有向无环图；

采用动态规划策略在所述有向无环图中查找目标路径；

根据所述目标路径确定目标切分组合，并根据所述目标切分组合确定初始词单元集合。

可选地，所述对所述待处理文本进行预处理，获得所述待处理文本对应的词单元集合步骤执行之后，还包括：

对所述词单元集合中的每个词单元进行标注，获得词单元标注集合；

对所述词单元标注集合中的每个词单元进行变换处理，获得每个词单元对应的词向量；

相应的，计算所述词单元集合中包含的每个词单元，与预设的敏感词集合中的敏感词之间的属性相似度，包括：

基于相似度算法，计算每个词单元对应的词向量，与所述敏感词集合中的敏感词对应的词向量之间的属性相似度。

可选地，所述根据所述属性相似度在所述词单元集合中筛选目标词单元，包括：

将所述属性相似度与预设的属性相似度阈值进行比较，选择大于等于所述属性相似度阈值的词单元作为目标词单元；或者

按照预设的排序策略对所述属性相似度进行排序，根据排序结果选择设定数量的词单元作为目标词单元。

可选地，所述对所述词单元标注集合中的每个词单元进行变换处理，获得每个词单元对应的词向量，包括：

将所述词单元标注集合中的每个词单元输入词向量计算模型，获得每个词单元对应的词向量。

可选地，获取待处理文本，包括：

获取文本交互信息，将所述文本交互信息作为待处理文本；

相应的，所述根据所述属性相似度在所述词单元集合中筛选目标词单元，并基于所述目标词单元将所述敏感词集合更新为目标敏感词集合步骤执行之后，还包括：

基于目标敏感词集合对待处理文本进行检测，根据检测结果生成反馈信息。

根据本申请实施例的第二方面，提供了一种文本过滤方法，包括：

获取初始文本；

对所述初始文本进行预处理，获得所述初始文本对应的词单元集合；

计算所述词单元集合中包含的每个词单元，与上述文本过滤方法中所述的目标敏感词集合中的敏感词之间的属性相似度；

根据所述属性相似度对所述初始文本进行检测，获得所述初始文本对应的过滤文本。

可选地，根据所述属性相似度对所述初始文本进行检测，获得所述初始文本对应的过滤文本，包括：

根据所述属性相似度对所述初始文本进行检测，获得与所述初始文本对应的目标初始文本；

根据所述目标初始文本生成与所述初始文本对应的反馈信息；或者

根据所述目标初始文本生成目标过滤文本。

将所述属性相似度与预设的属性相似度阈值进行比较，选择大于等于所述属性相似度阈值的词单元作为目标词单元，或者

按照预设的排序策略对所述属性相似度进行排序，根据排序结果选择设定数量的词单元作为目标词单元；

基于所述目标词单元对所述初始文本进行更新，获得所述初始文本对应的过滤文本。

根据本申请实施例的第三方面，提供了一种文本处理装置，包括：

第一获取模块，被配置为获取待处理文本；

第一预处理模块，被配置为对所述待处理文本进行预处理，获得所述待处理文本对应的词单元集合；

第一计算模块，被配置为计算所述词单元集合中包含的每个词单元，与预设的敏感词集合中的敏感词之间的属性相似度；

更新模块，被配置为根据所述属性相似度在所述词单元集合中筛选目标词单元，并基于所述目标词单元将所述敏感词集合更新为目标敏感词集合。

根据本申请实施例的第四方面，提供了一种文本处理装置，包括：

第二获取模块，被配置为获取初始文本；

第二预处理模块，被配置为对所述初始文本进行预处理，获得所述初始文本对应的词单元集合；

第二计算模块，被配置为计算所述词单元集合中包含的每个词单元，与上述文本过滤方法中所述的目标敏感词集合中的敏感词之间的属性相似度；

检测模块，被配置为根据所述属性相似度对所述初始文本进行检测，获得所述初始文本对应的过滤文本。

根据本申请实施例的第五方面，提供了一种计算设备，包括：

存储器和处理器；

所述存储器用于存储计算机可执行指令，所述处理器执行所述计算机可执行指令时实现所述文本处理方法的步骤。

根据本申请实施例的第六方面，提供了一种计算机可读存储介质，其存储有计算机可执行指令，该指令被处理器执行时实现所述文本处理方法的步骤。

根据本申请实施例的第七方面，提供了一种芯片，其存储有计算机程序，该计算机程序被芯片执行时实现所述文本处理方法的步骤。

本申请提供的文本处理方法，通过对获取到的文本内容进行预处理后对文本内容进行分词处理，得到与文本内容对应的词单元及词性组成的词单元集合，计算词单元集合中的词单元与预设的敏感词集合中的敏感词之间的属性相似度，根据属性相似度在词单元集合中筛选目标词单元，基于目标词单元将敏感词集合更新为目标敏感词集合，实现对敏感词集合的扩充，使得敏感词集合不断的进行扩展，可以覆盖更大的敏感词范围。

附图说明

图1是本申请一实施例提供的一种文本处理方法的流程图；

图2是本申请一实施例提供的一种文本处理装置的结构示意图；

图3是本申请一实施例提供的一种文本过滤方法的流程图；

图4是本申请一实施例提供的一种文本过滤装置的结构示意图；

图5是本申请一实施例提供的一种应用于聊天场景的文本处理方法以及文本过滤方法的处理流程图；

图6是本申请一实施例提供的一种计算设备的结构框图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本申请内涵的情况下做类似推广，因此本申请不受下面公开的具体实施的限制。

在本申请一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请一个或多个实施例。在本申请一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本申请一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本申请一个或多个实施例中可能采用术语第一、第二等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本申请一个或多个实施例范围的情况下，第一也可以被称为第二，类似地，第二也可以被称为第一。

首先，对本发明一个或多个实施例涉及的名词术语进行解释。

预处理(pre-treatment)，是指在进行最后加工完善前进行的准备过程，具体应用在不同的行业或领域，会有不同的解释。程序设计领域中，预处理一般是指在程序源代码被翻译为目标代码的过程中，生成二进制代码之前的过程。

字符串比较：是指用关系运算符连接两个字符串组成的式子，称为字符串关系表达式，他的运算结果是一个逻辑值(真或假)，两个字符串比较，是将这两个字符串从左到右逐个字符比较。

正则表达式，又称规则表达式，(Regular Expression，在代码中常简写为regex、regexp或RE)，计算机科学的一个概念。正则表达式通常被用来检索、替换那些符合某个模式(规则)的文本。

数据集，Data set(或dataset)，又称为资料集、数据集合或资料集合，是一个数据的集合，通常以表格形式出现。每一列代表一个特定变量。每一行都对应于某一成员的数据集的问题。它列出的价值观为每一个变量，如身高和体重的一个物体或价值的随机数。每个数值被称为数据资料。对应于行数，该数据集的数据可能包括一个或多个成员。

有向无环图：在数学，特别是图论和计算机科学中，有向无环图指的是一个无回路的有向图。如果有一个非有向无环图，且A点出发向B经C可回到A，形成一个环。将从C到A的边方向改为从A到C，则变成有向无环图。有向无环图的生成树个数等于入度非零的节点的入度积。

动态规划(Dynamic Programming，DP)，是运筹学的一个分支，是求解决策过程最优化的过程。

词向量(Word embedding)，又叫Word嵌入式自然语言处理(NLP)中的一组语言建模和特征学习技术的统称，其中来自词汇表的单词或短语被映射到实数的向量。从概念上讲，它涉及从每个单词一维的空间到具有更低维度的连续向量空间的数学嵌入。

JieBa分词，基于统计词典，构造一个前缀词典；然后利用前缀词典对输入句子进行切分，得到所有的切分可能，根据切分位置，构造一个有向无环图；通过动态规划算法，计算得到最大概率路径，也就得到了最终的切分形式。

TF-IDF关键词提取算法，TF(term frequency)，指文本中的词频。衡量一个词语在文档中的出现频率有很多方法，最简单也足够有效的，便是直接计算这个词出现的次数，作为这个词的TF值；IDF(inverse document frequency)，指“逆文档频率”，是一个用来衡量一个词常见程度的值。这个值的计算不应该基于单个文档，而应该考虑所有要进行分析的文档，来得出结果。

CBOW，是用周围词预测中心词，从而利用中心词的预测结果情况，使用GradientDesent方法，不断的去调整周围词的向量。

Skip-gram，是用中心词来预测周围的词。在Skip-gram中，会利用周围的词的预测结果情况，使用GradientDecent来不断的调整中心词的词向量，最终所有的文本遍历完毕之后，也就得到了文本所有词的词向量。

梯度下降(Gradient Descent)，是迭代法的一种，可以用于求解最小二乘问题(线性和非线性都可以)。在求解损失函数的最小值时，可以通过梯度下降法来一步步的迭代求解，得到最小化的损失函数和模型参数值。

余弦相似度(Cosine Similarity)，又称为余弦相似性，是通过计算两个向量的夹角余弦值来评估他们的相似度。余弦相似度将向量根据坐标值，绘制到向量空间中，如最常见的二维空间。

编辑距离(Levenshtein Distance)，是针对两个字符串(例如英文字)的差异程度的量化量测，量测方式是看至少需要多少次的处理才能将一个字符串变成另一个字符串。编辑距离可以用在自然语言处理中，例如拼写检查可以根据一个拼错的字和其他正确的字的编辑距离，判断哪一个(或哪几个)是比较可能的字。

在本申请中，提供了一种文本处理方法。本申请同时涉及一种文本过滤方法、一种文本处理装置、一种文本过滤装置、一种计算设备，以及一种计算机可读存储介质。

随着游戏行业的发展，聊天过滤已经成为了游戏中必须具备功能。在当前的网络游戏中，通常需要对游戏内聊天文字进行过滤，从而达到净化游戏环境的目的。现有技术中通常会通过字符串比较，字符串正则表达式匹配这两种方法实现。当玩家在游戏中发言时，如果聊天文字中包含敏感词语，则会被替换为“*”等特定的符号，再展示到游戏界面中，或者禁止该聊天文字的发布。然而这种方法存在一定的局限性，一些敏感词可以轻松绕过检测，敏感词过滤的范围被限定在预置的敏感词表中，无法进行语义扩展，过滤效果较差且过滤效率较低。

有鉴于此，本申请提供的文本处理方法，通过对获取到的文本内容进行预处理后对文本内容进行分词处理，得到与文本内容对应的词单元及词性组成的词单元集合，计算词单元集合中的词单元与预设的敏感词集合中的敏感词之间的属性相似度，根据属性相似度在词单元集合中筛选目标词单元，基于目标词单元将敏感词集合更新为目标敏感词集合，实现对敏感词集合的扩充，使得敏感词集合不断的进行扩展，可以覆盖更大的敏感词范围。

图1示出了根据本申请一实施例提供的一种文本处理方法的流程图，具体包括以下步骤：

步骤S102，获取待处理文本。

具体的，待处理文本包括网络游戏中的聊天文字，即时通讯等应用程序中用户将要发送的文字类信息，对音视频等媒体资源发表的评论性文字，浏览网页时的留言，还包括预先构建的样本语料，公开的文章和学术论文等。

举例说明，本实施例以网络游戏领域中的聊天文字为待处理文本，对文本处理方法进行说明。在网络游戏中，为了加强游戏过程中游戏用户之间的交流，带给用户更好的游戏体验，通常会为游戏用户提供文字聊天功能，用户在聊天过程中，不可避免的会发送一些不文明的字/词语，为了净化网络游戏环境，就需要对这些不文明的字/词语进行的处理，当用户将要发送编辑好的聊天文字时，获取到这些聊天文字，作为待处理文本。

步骤S104，对所述待处理文本进行预处理，获得所述待处理文本对应的词单元集合。

具体的，在获取到待处理文本后，由于待处理文本的组成形式具有多样性，待处理文本可以是由文字和符号组成的，也可以是纯文字或纯符号，此时就需要先对待处理文本进行预处理，以便于获得与待处理文本对应的词单元集合。预处理是指在进行最后加工完善以前进行的准备过程，在本实施例中预处理是指对获取到的待处理文本进行拆分，得到多个字/词语，一个字/词语即为一个词单元；词单元集合是指，对一个待处理文本进行拆分得到的多个字或词语组成的一个整体。

基于此，在获取到待处理文本之后，即可对待处理文本进行拆分，得到与待处理文本对应的多个词单元，由多个词单元组成词单元集合，以便于后续对词单元集合进行计算。

沿用上例，在获取到网络游戏领域中的聊天文字时，对聊天文字“ABCaa，BbbCCDddbE。”进行拆分，得到多个词单元“A”，“B”，“C”，“B”，“bb”，“CC”，“D”，“dd”，“b”，“E”，组成与聊天文字“ABCBbbCCDddbE”对应的词单元集合。

进一步的，在获取到待处理文本后，由于待处理文本中可能存在干扰信息，不能直接进行计算，所以需要先对待处理文本进行过滤，再进行拆分得到词单元集合，具体实现如下：

基于预设的敏感词集合对所述待处理文本进行字符串比较和字符串正则匹配，获得初始过滤文本；对所述初始过滤文本进行分词处理，获得所述词单元集合。

具体的，敏感词集合是指预先确定的由多个不文明的字/词语组成的一个整体；字符串比较，用关系运算符连接两个字符串组成的式子，称为字符串关系表达式，它的运算结果是一个逻辑值(真或假)，两个字符串进行比较，是将这两个字符串从左到右逐个字符进行比较；正则匹配是指通过正则表达式对词单元与敏感词集合中的敏感词进行比对；初始过滤文本是指对待处理文本进行字符串比较和字符串正则匹配后得到的文本内容；分词处理是指将待处理文本按照语义或词性等规则进行拆分的过程。

基于此，在获取到待处理文本后，将待处理文本基于预设的敏感词集合进行字符串比较和字符串正则匹配，以实现对待处理文本的初步过滤，找出待处理文本中与预设的敏感词集合中的敏感词相同的词语，同时过滤掉待处理文本中的符号等干扰信息，得到初始过滤文本，再对初始过滤文本按照语义或词性等规则进行分词处理，得到由多个词单元组成的词单元集合。

沿用上例，在获取到网络游戏领域中的聊天文字时，先基于预设的敏感词集合采用字符串匹配的方法对聊天文字“ABCaa，BbbCCDddbE。”进行过滤，由于“aa”存在于敏感词集合中，通过字符串匹配的方法将“aa”过滤掉，再基于字符串正则匹配的方法对过滤掉“aa”的聊天文字进行匹配，当正则匹配的规则是进一步去掉敏感词时，确定正则表达式，根据确定的正则表达式对聊天文字进行匹配，由于“dd”为敏感词，将“dd”删除，得到聊天文字“ABC，BbbCCDbE”，再对得到的聊天文字“ABC，BbbCCDbE”进行分词处理，得到词单元“A”，“B”，“C”，“，”“B”，“bb”，“CC”，“D”，“b”，“E”。需要说明的是，对于字符串正则匹配，本实施例中仅以去敏感词为例进行说明，由于正则表达式的功能具有多样性，本实施例在此对正则表达式不做过多限定。

综上，通过对聊天文字采用字符串比较和字符串正则匹配的方法进行过滤，可以初步去除聊天文字中的敏感词，还可以去除聊天文字中的干扰信息，在初步过滤的基础上再进行分词处理，有效提高分词处理的效率。

进一步的，在通过字符串比较和字符串正则匹配的方法，对聊天文字进行了初步过滤得到初始过滤文本后，先基于数据集对初始过滤文本进行检测，检测出与数据集中相同的字符并删除，再进行分词处理，具体实现如下：

基于预设的数据集对所述初始过滤文本进行字符检测，获得目标字符；在所述初始过滤文本中删除所述目标字符，获得目标过滤文本；利用所述数据集和分词算法对所述目标过滤文本进行分词识别，获得与所述待处理文本对应的初始词单元集合；对所述初始词单元集合中每个词单元进行词性标记，生成携带词性信息的词单元集合。

具体的，数据集是指数据集合，由多个包含特定数据的表格组成，本实施例中数据集中的数据表有：同义词表，IDF表(逆向文件频率表)、停用词表(指“啊”、“你”、“我”、“他”、标点符号等)、词向量数据等；字符是指类字形单位或符号，包括字母、数字、运算符号、标点符号和其他符号，以及一些功能性符号；目标字符在本实施例中是指根据特定的检测策略对字符进行检测，检测到的符合检测策略的字符即为目标字符；目标过滤文本是指对待处理文本基于目标字符进行过滤后得到的文本；分词算法是指将待处理文本划分为字/词语的划分方法；初始词单元集合是指基于数据集和分词算法对待处理文本进行分词处理后得到的词单元集合；词性是指词语的属性，如名词，代词，介词，副词，形容词等。

基于此，在获得初始过滤文本后，由于初始过滤文本只是对待处理文本进行初步过滤得到的，还需要进一步的基于预设的数据集对初始过滤文本进行字符检测，检测出初始过滤文本与数据集包括的字符表中的字符相同的字符，其中，字符表包括同义词表、停用词表等，将检测到的字符删除，得到目标过滤文本。

也就是说，通过数据集中包含的同义词表、停用词表，对初始过滤文本进行字符检测，以实现将存储于同义词表中的词语，与初始过滤文本中的词语进行比较，达到过滤初始过滤文本的目的，同时将存储于停用词表中的字符与初始过滤文本中的字符进行比较，实现对初始过滤文本中存在的停用词的过滤。

再基于分词算法对得到的目标过滤文本进行分词识别，将目标过滤文本划分为由字/词语组成的初始词单元集合，为初始词单元集合中的每个词单元进行词性标记，确定每个词单元对应的词性，生成携带词性信息的词单元集合。

通过对初始过滤文本基于预设的数据集进行字符检测，实现了基于数据集中包含的同义词表和停用词表中存储的词语或字符等，对初始过滤文本进行检测，检测出初始过滤文本中与同义词表和停用词表中相同的字符并删除该字符，达到初步过滤初始过滤文本的目的。

进一步的，利用数据集和分词算法对目标过滤文本进行分词识别，获得与待处理文本对应的初始词单元集合的具体实现如下：

基于所述数据集构建与所述目标过滤文本对应的有向无环图；采用动态规划策略在所述有向无环图中查找目标路径；根据所述目标路径确定目标切分组合，并根据所述目标切分组合确定初始词单元集合。

具体的，有向无环图是指一个无回路的有向图，用于表征目标过滤文本中，字与字之间可能存在的路径，由多条路径构成不存在回路的有向图；动态规划是指求解决策过程最优化的过程；目标路径是指在有向无环图中选择的路径；目标切分组合是指与选择的目标路径对应的，对待处理文本中的字/词语进行划分后得到的字/词语；初始词单元集合是指根据确定的目标切分组合对待处理文本进行划分得到的字/词语组成的整体。

基于此，在确定了目标过滤文本后，即可对目标过滤文本进行分词处理，在对目标过滤文本进行划分时，先基于数据集构建目标过滤文本对应的有向无环图，构建目标过滤文本中所有可能的字或词语之间的组合路径，从多条路径中选择目标路径，确定与目标路径对应的目标切分组合，根据目标切分组合确定对目标过滤文本的划分方法，从而得到与目标过滤文本对应的初始词单元集合。

沿用上例，在得到字符串比较和字符串正则匹配后的聊天文字“ABC，BbbCCDbE”后，再对得到的聊天文字“ABC，BbbCCDbE”进行分词处理。预设的数据集中存储有停用词表，字符表，先基于停用词表去除标点符号“，”，再基于字符表对聊天文字“ABCBbbCCDbE”进行检测，当检测到“A”，“B”，

“C”，“E”存储于字符表中时，将“A”，“B”，“C”，“E”作为检测到的字符，将聊天文字“ABCBbbCCDbE”中的“A”，“B”，“C”，“E”删除，得到检测后的聊天文字“bbCCDb”，将聊天文字“bbCCDb”按照字符进行划分，以每个字符的位置为标记，构建字符与字符之间的路径，得到有向无环图，采用动态规划的方法在有向无环图中确定目标路径，根据目标路径对聊天文字进行切分，得到{0:[0,1],1:[1],2:[2,3],3:[3],4:[4],5:[5]}，其中，0:[0,1]表示词“bb”，2:[2,3]表示词“CC”，4:[4]表示“D”，5:[5]表示“b”，即为对聊天文字的分词结果，由这一分词结果组成了初始词单元集合，再对初始词单元集合中的每个词单元进行词性标记，“bb”为名词，“CC”为名词，“D”为动词，“b”为名词，由词单元和对应的词性组成词单元集合。

综上，通过对聊天文字采用分词算法进行划分，再为划分得到的每个词单元进行词性标记，得到与聊天文字对应的携带词性信息的词单元集合。

步骤S106，计算所述词单元集合中包含的每个词单元，与预设的敏感词集合中的敏感词之间的属性相似度。

具体的，在上述对待处理文本进行预处理，得到与待处理文本对应的词单元的基础上，即可对词单元进行进一步的属性相似度计算。属性相似度在本实施例中是指词单元与敏感词集合中的敏感词之间的相似程度，通过比较词性等特征，以及对词单元进行语义分析确定一个具体的相似度数值。

基于此，在确定了与待处理文本对应的词单元集合后，根据词单元集合中的词单元以及词单元对应的词性，计算每个词单元与预设的敏感词集合中敏感词之间的属性相似度，得到每个词单元与敏感词集合中敏感词之间的相似度值。根据得到的相似度值对词单元进行选择。

沿用上例，在确定了与聊天文本对应的，由“bb”名词，“CC”名词，“D”动词，“b”名词，组成的词单元集合后，分别计算每个词单元与敏感词集合中的敏感词之间的属性相似度，得到一个具体的属性相似度值，“bb”与敏感词集合中的敏感词之间的属性相似度为85％，“CC”与敏感词集合中的敏感词之间的属性相似度为77％，“D”与敏感词集合中的敏感词之间的属性相似度为60％，“b”与敏感词集合中的敏感词之间的属性相似度为87％，以用于后续根据属性相似度对词单元集合中的词单元进行选择。

进一步的，在确定了由词单元和对应的词性组成的词单元集合后，通过计算词单元集合中的词单元与敏感词集合中的敏感词之间的属性相似度，根据属性相似度确定可以添加到敏感词集合中的词单元，具体实现如下：

对所述词单元集合中的每个词单元进行标注，获得词单元标注集合；对所述词单元标注集合中的每个词单元进行变换处理，获得每个词单元对应的词向量；相应的，计算所述词单元集合中包含的每个词单元，与预设的敏感词集合中的敏感词之间的属性相似度，包括：基于相似度算法，计算每个词单元对应的词向量，与所述敏感词集合中的敏感词对应的词向量之间的属性相似度。

具体的，标注是指对词单元集合中的每个词单元进行属性标记；词单元标注集合是指对词单元集合中的每个词单元进行属性标记后得到的集合；变换处理在本实施例中是指计算词单元集合中的每个词单元对应的词向量；词向量是指把一个维数为所有词的数量的高维空间嵌入到一个维数低得多的连续向量空间中，每个单词或词组被映射为实数域上的向量；相似度算法是指用于计算词单元与敏感词集合中的敏感词之间的属性相似度的计算方法。

基于此，在确定了与待处理文本对应的词单元集合后，对每个词单元分别进行标注，即为每个词单元标注一个属性标签，得到词单元标注集合，再对词单元标注集合中的每个词单元进行变换处理，即词向量计算，得到每个词单元对应的词向量，根据词单元集合中的词单元对应的词向量结合词单元的，基于相似度算法计算每个词单元对应的词向量，与预设的敏感词集合中敏感词对应的词向量之间的属性相似度，得到每个词单元与敏感词集合中敏感词之间的相似度值。

综上，通过对词单元进行标注和词向量计算，采用相似度算法基于计算得到的词向量确定词单元与敏感词集合中敏感词之间的属性相似度，从而提高属性相似度计算的准确性。

进一步的，在对词单元集合中每个词单元进行标注后，为了实现对敏感词集合的扩充，还需要通过词向量计算的方式，计算词单元集合中的词单元与敏感词集合中的敏感词之间的属性相似度，具体实现如下：

具体的，词向量计算模型是指用于计算词单元对应的词向量的模型。

基于此，在对词单元集合中的每个词单元进行标注后，结合词单元的标注结果，采用词向量计算模型计算每个词单元对应的词向量，以便于通过词向量，计算词单元集合中每个词单元与敏感词集合中的敏感词之间的属性相似度，从而根据属性相似度确定词单元集合中，可以添加到敏感词集合中的词单元。

沿用上例，在确定了与聊天文本对应的，“bb”名词，“CC”名词，“D”动词，“b”名词，组成的词单元集合后，分别对每个词单元进行属性标注，“bb”名词，属性为不健康色彩类词，“CC”名词，属性为侮辱类词，“D”动词，属性为不文明类词，“b”名词，属性为侮辱类词，同时，使用JieBa分词提供的TF-IDF关键词提取算法，计算每个词单元的词频TF和逆文档频率IDF，由此生成词单元标注集合，计算词单元标注集合中的每个词单元的词向量时，可以基于Negative Sampling的CBOW和Skip-gram模型，计算得到词向量数据。具体的计算方法是，基于Word2vec工具对词单元集合进行词频统计，得到每个词单元出现的频率，针对词频统计结果构建词典，基于词典初始化霍夫曼树，将词单元作为输入，输入到NegativeSampling的CBOW模型和Skip-gram模型中，在进行梯度迭代后，得到与词单元对应的词向量。基于每个词单元对应的词向量，以及敏感词集合中的敏感词对应的词向量，进行CosineSimilarity(余弦相似性)和Levenshtein Distance(编辑距离)计算，得到相似度，再将通过Levenshtein Distance(编辑距离)计算得到的相似度分为多个梯度，结合CosineSimilarity(余弦相似性)计算得到的相似度基于预设的参数进行平滑处理，得到词单元与敏感词之间的相似度。

综上，通过先对词单元集合中的词单元进行标注，再计算词单元对应的词向量，最后计算每个词单元对应的词向量，与敏感词对应的词向量之间的属性相似度，提高了相似度计算的准确性，从而获得与敏感词集合中的敏感词之间属性相似度较高的词单元。

此外，在确定了由词单元和对应的词性组成的词单元集合后，为了达到丰富敏感词集合的目的还可以在确定了词单元集合后，继续对词单元集合中的词单元进行标准化处理，将标准化处理结果存储到数据集中，再计算敏感词集合中的敏感词与数据集中初始词单元之间的属性相似度，根据属性相似度确定可以添加到敏感词集合中的初始词单元，具体实现如下：

对所述词单元集合中包含的每个词单元进行标准化处理，将标准化处理结果存储至数据集；计算所述数据集中的初始词单元，与预设的敏感词集合中的敏感词之间的属性相似度；所述根据所述属性相似度在所述词单元集合中筛选目标词单元，包括：根据所述属性相似度在所述数据集中筛选目标词单元。

具体的，标准化处理是指对词单元进行标注和词向量计算，标注即对词单元的属性进行标注；初始词单元是指存储于数据集中的，对词单元进行标准化处理后的词单元。

基于此，在确定了由多个词单元及其对应的词性组成的词单元集合后，先对每个词单元分别进行标注，即，为每个词单元标注一个属性标签，再结合对词单元的标注结果计算每个词单元对应的词向量，此时即完成了对词单元的标准化处理，再将每个词单元及其对应的标注和词向量作为初始词单元存储到数据集中。计算数据集中每个初始词单元与敏感词集合中的敏感词之间的属性相似度，基于计算得到的属性相似度，从初始词单元中筛选可以添加到敏感词集合中的初始词单元，并将其添加到敏感词集合中，生成新的敏感词集合，即目标敏感词集合。

综上，通过对词单元集合中的词单元进行处理，将处理结果存储到数据集中，再从数据集中筛选出可以作为敏感词的初始词单元添加到敏感词集合中，实现了对敏感词集合的扩充。

进一步的，在对词单元集合进行标准化处理，并将处理结果存储到数据集中后，为了更准确的确定数据集中可以存储到敏感词集合中的初始词单元，采用相似度算法计算敏感词集合中的敏感词与数据集中初始词单元之间的属性相似度，具体实现如下：

在所述数据集满足相似度计算条件的情况下，执行所述计算所述数据集中的初始词单元，与预设的敏感词集合中的敏感词之间的属性相似度步骤；其中，所述计算所述数据集中的初始词单元，与预设的敏感词集合中的敏感词之间的属性相似度，包括：

从所述数据集中读取每个初始词单元对应的词向量；基于相似度算法，计算每个初始词单元对应的词向量，与所述敏感词集合中的敏感词对应的词向量之间的属性相似度。

具体的，相似度计算条件是指针对数据集预设的，可以开始对数据集中的初始词单元进行计算的前提条件，如数据集中初始词单元的数量达到阈值，或预设时间周期对数据集进行相似度计算。

基于此，在对词单元集合进行标准化处理，并将处理结果存储到数据集中之后，即可在数据集满足相似度计算条件时，采用相似度算法计算数据集中的初始词单元与敏感词集合中的敏感词之间的属性相似度。具体的计算方法是，读取出数据集中每个初始词单元对应的词向量，计算词单元对应的词向量与敏感词对应的词向量之间的属性相似度，对数据集中每个初始词单元都进行计算，分别得到每个初始词单元与敏感词之间的属性相似度，以便于后续基于属性相似度确定对应的可以添加到敏感词集合中的初始词单元。

沿用上例，在确定了与聊天文本对应的词单元“bb”名词，“CC”名词，“D”动词，“b”名词，组成的词单元集合后，分别对每个词单元进行属性标注和词向量计算，具体的属性标注方法以及词向量计算方法已在上述实施例中详细的阐述，在此不再赘述。对词单元的处理结果为“bb”名词，属性为不健康色彩类词，“CC”名词，属性为侮辱类词，“D”动词，属性为不文明类词，“b”名词，属性为侮辱类词，以及与词单元对应的词向量，将处理结果存储到数据集中。判断数据集是否满足可以进行相似度计算的条件，其中，相似度计算条件可以是时间，即按照一定的时间周期计算数据集中初始词单元与敏感词之间的属性相似度；也可以是数据集中初始词单元的数量，即当数据集中新增的初始词单元的数量达到预设的阈值时，计算数据集中初始词单元与敏感词之间的属性相似度。若满足则读取数据集中存储的初始词单元对应的词向量，计算词单元对应的词向量与敏感词集合中敏感词对应的词向量之间的属相相似度，得到计算结果：“bb”的属性相似度为85％，“CC”的属性相似度为70％，“D”的属性相似度为62％，“b”的属性相似度为82％。将得到的属性相似度按照从高到底的顺序进行排序，选择排列在前两位的初始词单元“bb”和“b”；或者选择属性相似度大于80％的初始词单元，即“bb”和“b”，将“bb”和“b”添加到敏感词集合中。

综上，通过相似度算法计算数据集中初始词单元对应的词向量与敏感词集合中的敏感词对应的词向量之间的属性相似度，提高了属性相似度的计算效率和计算的准确性。

步骤S108，根据所述属性相似度在所述词单元集合中筛选目标词单元，并基于所述目标词单元将所述敏感词集合更新为目标敏感词集合。

具体的，在上述完成词单元集合中包含的各个词单元，与预设的敏感词集合中的敏感词之间属性相似度的计算后，即可根据计算得到的属性相似度在词单元集合中筛选目标词单元，并实现敏感词集合的更新。目标词单元在本实施例中是在对词单元与敏感词之间的相似度进行计算后，根据相似度对词单元进行选择，被选择的词单元即为目标词单元；目标敏感词集合是指由目标词单元组成的一个整体。

基于此，在通过相似度算法计算得到了每个词单元与敏感词集合中的敏感词之间的属性相似度后，根据每个词单元对应的属性相似度在词单元集合中进行选择，将被选中的词单元作为敏感词添加到敏感词集合中，生成目标敏感词集合。

沿用上例，在确定了词单元集合中每个词单元与敏感词集合中的敏感词之间的相似度后，基于得到的相似度，即，词单元“bb”的相似度：85％，词单元“CC”的相似度：77％，词单元“D”的相似度：60％，词单元“b”的相似度：87％，对词单元进行筛选，选择相似度在80％以上的词单元，即词单元“bb”和词单元“b”，将这两个词单元作为敏感词添加到敏感词集合中，生成新的敏感词集合。

进一步的，在确定了词单元集合中每个词单元与敏感词集合中的敏感词之间的属性相似度后，根据相似度筛选词单元中的目标词单元时，具体实现如下：

将所述属性相似度与预设的属性相似度阈值进行比较，选择大于等于所述属性相似度阈值的词单元作为目标词单元；或者按照预设的排序策略对所述属性相似度进行排序，根据排序结果选择设定数量的词单元作为目标词单元。

具体的，属性相似度阈值是指对属性相似度预先确定的一个临界值；排序策略是指将一组“无序”的数据序列按照一定的规则调整为“有序”的数据序列。

基于此，在确定了词单元集合中每个词单元与敏感词集合中的敏感词之间的属性相似度后，依次将每个词单元与敏感词集合中的敏感词之间的属性相似度，与预先设置的属性相似度阈值进行比较，选择大于属性相似度阈值的属性相似度对应的词单元，将其作为目标词单元；或者在确定了词单元集合中每个词单元与敏感词集合中的敏感词之间的属性相似度后，按照属性相似度的数值从高到低的顺序对与属性相似度对应的词单元进行排序，对排序后的词单元进行选择，确定目标词单元。

沿用上例，在确定了词单元集合中每个词单元与敏感词集合中的敏感词之间的相似度后，即，词单元“bb”的相似度：85％，词单元“CC”的相似度：77％，词单元“D”的相似度：60％，词单元“b”的相似度：87％。将80％设置为属性相似度阈值，属性相似度大于这个阈值的词单元即为被选中的目标词单元；或者对词单元按照相似度从高到底的顺序进行排列，得到排列后的词单元：词单元“b”，词单元“bb”，词单元“CC”，词单元“D”，选择排在前两位的词单元作为目标词单元。需要说明的是，属性相似度阈值以及对词单元的排列顺序可以根据实际情况确定，本实施例在此不作过多限定。

综上，在确定了词单元集合中每个词单元与敏感词集合中的敏感词之间的相似度后，根据实际情况选择属性相似度阈值，以及制定词单元的排序策略，提高了目标词单元选择的合理性。

此外，在获取到待处理文本后，基于对待处理文本的预处理以及属性相似度的计算，实现对敏感词进行更新后，还可以实现对待处理文本进行检测，检测出待处理文本中包含的敏感词，并生成反馈信息，具体实现如下：

获取文本交互信息，将所述文本交互信息作为待处理文本；相应的，所述根据所述属性相似度在所述词单元集合中筛选目标词单元，并基于所述目标词单元将所述敏感词集合更新为目标敏感词集合步骤执行之后，还包括：基于目标敏感词集合对待处理文本进行检测，根据检测结果生成反馈信息。

具体的，文本交互信息是指与上述待处理文本对应的文字类信息；反馈信息是指对文本交互信息进行检测后生成的与文本交互信息对应的检测结果。

基于此，获取到文本交互信息后，以文本交互信息为待处理文本；对文本交互信息执行上述与待处理文本相同的步骤S104-步骤S108，相应的，在根据属性相似度在词单元集合中筛选目标词单元，并基于目标词单元将敏感词集合更新为目标敏感词集合步骤执行之后，再基于目标敏感词集合对待处理文本进行敏感词检测，根据敏感词检测结果生成与文本交互信息对应的反馈信息。

沿用上例，在根据目标词单元将敏感词集合更新为目标敏感词集合后，基于确定的目标词单元对文本交互信息进行检测，将文本交互信息中存在的目标词单元以特殊符号“*”等进行替换，得到替换后的文本交互信息；或计算文本交互信息中需要替换的目标词单元对应的字符数量，若超过一定的数值，则禁止发送该文本信息，并提示用户，该文本交互信息中不文明词语较多，禁止发送。

此外，在获取到文本交互信息，并对文本交互信息进行字符串比较和字符串正则匹配，以及分词处理和词性确定等预处理操作得到词单元集合后，基于得到的词单元，结合敏感词集合，可以实现对文本交互信息的替换以及反馈，同时也可以对词单元集合中的词单元进行标注，计算词向量，通过相似度算法计算每个词单元与敏感词集合中的敏感词之间的属性相似度，确定用于添加到敏感词集合中的目标词单元，实现对敏感词集合的更新。实现了获取到文本交互信息时，在对文本交互信息进行敏感词检测的同时选择文本交互信息中的词单元添加到敏感词集合中，实现对敏感词集合的扩充。

综上，通过对聊天文本进行过滤处理，得到初步过滤结果，去掉常用敏感词以及字符等干扰信息，再对聊天文本的初步过滤结果进行分词处理和词性确定，同时通过对分词词语进行标注、词向量计算，语言模型训练的方法来迭代数据集，以分词处理后得到的多个从词单元为基础计算与敏感词集合中敏感词之间的属性相似度，实现在过滤聊天文本的同时扩展敏感词集合中敏感词的数量，增强了聊天过滤的实用性以及准确度。

与上述方法实施例相对应，本申请还提供了文本处理装置实施例，图2示出了本申请一实施例提供的一种文本处理装置的结构示意图。如图2所示，该装置包括：

第一获取模块202，被配置为获取待处理文本；

第一预处理模块204，被配置为对所述待处理文本进行预处理，获得所述待处理文本对应的词单元集合；

第一计算模块206，被配置为计算所述词单元集合中包含的每个词单元，与预设的敏感词集合中的敏感词之间的属性相似度；

更新模块208，被配置为根据所述属性相似度在所述词单元集合中筛选目标词单元，并基于所述目标词单元将所述敏感词集合更新为目标敏感词集合。

一个可选的实施例中，所述第一计算模块206还被配置为：

一个可选的实施例中，所述第一计算模块206进一步被配置为：

在所述数据集满足相似度计算条件的情况下，执行所述计算所述数据集中的初始词单元，与预设的敏感词集合中的敏感词之间的属性相似度步骤；其中，所述计算所述数据集中的初始词单元，与预设的敏感词集合中的敏感词之间的属性相似度，包括：从所述数据集中读取每个初始词单元对应的词向量；基于相似度算法，计算每个初始词单元对应的词向量，与所述敏感词集合中的敏感词对应的词向量之间的属性相似度。

一个可选的实施例中，所述第一预处理模块204进一步被配置为：

一个可选的实施例中，所述第一预处理模块204还被配置为：

一个可选的实施例中，所述更新模块208进一步被配置为：

一个可选的实施例中，所述第一获取模块202进一步被配置为：

获取文本交互信息，将所述文本交互信息作为待处理文本；

相应的，所述文本处理装置，还包括：

更新模块208，进一步被配置为基于目标敏感词集合对聊天文本进行检测，根据检测结果生成反馈信息。

上述为本实施例的一种文本处理装置的示意性方案。需要说明的是，该文本处理装置的技术方案与上述的文本处理方法的技术方案属于同一构思，文本处理装置的技术方案未详细描述的细节内容，均可以参见上述文本处理方法的技术方案的描述。此外，装置实施例中的各组成部分应当理解为实现该程序流程各步骤或该方法各步骤所必须建立的功能模块，各个功能模块并非实际的功能分割或者分离限定。由这样一组功能模块限定的装置权利要求应当理解为主要通过说明书记载的计算机程序实现该解决方案的功能模块构架，而不应当理解为主要通过硬件方式实现该解决方案的实体装置。

图3示出了根据本申请一实施例提供的一种文本过滤方法的流程图，具体包括以下步骤：

步骤S302，获取初始文本。

步骤S304，对所述初始文本进行预处理，获得所述初始文本对应的词单元集合。

步骤S306，计算所述词单元集合中包含的每个词单元，与上述文本处理方法中所述的目标敏感词集合中的敏感词之间的属性相似度。

步骤S308，根据所述属性相似度对所述初始文本进行检测，获得所述初始文本对应的过滤文本。

具体的，初始文本是指与上述实施例中待处理文本对应的文字类信息，包括但不限于在游戏场景下的聊天信息，在即时通讯场景下发出的文本信息，针对音视频等多媒体内容发表的评论，弹幕等以文字形式呈现的文本内容，还包括在即时通讯场景或游戏等场景下，通过语音输入产生的音频，并对音频进行转化后获得的文本内容；过滤文本是指对初始文本进行分析后，将初始文本中包含的敏感词删除或以符号替换后得到的文本信息。

基于此，当使用本实施例提供的文本过滤方法对初始文本进行处理时，获取初始文本，再对初始文本进行初步过滤，得到符合拆分条件的初始文本，对初始文本进行拆分，得到多个词单元，由多个词单元构成词单元集合，根据词单元集合中的词单元以及词单元对应的词性，计算每个词单元与预设的敏感词集合中敏感词之间的属性相似度，得到每个词单元与敏感词集合中敏感词之间的相似度值。根据得到的相似度值对初始文本中的词单元进行检测，根据检测结果确定与初始文本对应的过滤文本。

进一步的，在根据属性相似度对初始文本进行检测时，由于初始文本中存在多个与敏感词集合中敏感词之间的属性相似度不同的词单元，此时则需要根据属性相似度数值的大小对词单元进行选择，可以通过设定一个属性相似度阈值的方法确定词单元，也可以对词单元按照属性相似度的数值大小进行排序，在排序后的词单元中选择一定数量的词单元，具体实现如下：

将所述属性相似度与预设的属性相似度阈值进行比较，选择大于等于所述属性相似度阈值的词单元作为目标词单元，或者按照预设的排序策略对所述属性相似度进行排序，根据排序结果选择设定数量的词单元作为目标词单元；基于所述目标词单元对所述初始文本进行更新，获得所述初始文本对应的过滤文本。

基于此，在确定了词单元集合中每个词单元与敏感词集合中的敏感词之间的属性相似度后，依次将每个词单元与敏感词集合中的敏感词之间的属性相似度，与预先设置的属性相似度阈值进行比较，选择大于属性相似度阈值的属性相似度对应的词单元，将其作为目标词单元；或者在确定了词单元集合中每个词单元与敏感词集合中的敏感词之间的属性相似度后，按照属性相似度的数值从高到低的顺序对与属性相似度对应的词单元进行排序，对排序后的词单元进行选择，确定目标词单元。基于确定的目标词单元对初始文本进行更新，获得与初始文本对应的过滤文本。

综上，根据词单元对应的属性相似度，对词单元进行选择，从而实现对初始文本的更新，获得过滤后的初始文本，降低了初始文本中的敏感词被绕过的概率。

此外，在根据属性相似度对初始文本进行检测时除了可以对初始文本进行更新生成与初始文本对应的过滤文本之外，还可以直接生成与初始文本对应的反馈信息，具体实现如下：

根据所述属性相似度对所述初始文本进行检测，获得与所述初始文本对应的目标初始文本；根据所述目标初始文本生成与所述初始文本对应的反馈信息；或者根据所述目标初始文本生成目标过滤文本。

具体的，目标初始文本在本实施例中是指根据属性相似度对初始文本进行检测后得到的初始文本，可以在检测的过程中对初始文本中的词单元进行标记；反馈信息在本实施例中是指将初始文本的检测结果以文字描述的方式进行反馈；目标过滤文本在本实施例中是指根据目标初始文本中词单元的标记，将与标记对应的词单元以特定的符号替换，替换后的目标初始文本即为目标过滤文本。

基于此，在确定了词单元集合中每个词单元与敏感词集合中的敏感词之间的属性相似度后，即可根据属性相似度对初始文本进行词单元检测，可以在对初始文本进行检测后将检测到的确定属于敏感词的词单元以特殊符号代替，生成经过符号替换后的初始文本；也可以在直接将初始文本以一条提示信息替换，说明初始文本中包含敏感词。

举例说明，本实施例以对音视频等媒体资源发表的评论性文本为例对文本过滤方法进行说明，用户在观看或收听音视频等媒体资源时，通常会通过评论的方式表达自己即时的感受，或与其他用户进行交流讨论，用户的这些主观言论难免会携带一些不文明的字或词语，为了给用户提供一个健康舒适的观看环境，则需要对用户的这些言论中携带的不文明的字或词语进行过滤。

需要说明的是，本实施例中描述的文本过滤方法，与前述实施例中描述的文本处理方法中对文本的预处理，属性相似度的计算等均采用相同的方法，本实施例中对评论文字的预处理，以及属性相似度计算的方法均可参考前述实施例中对待处理文本的处理方法，在本实施例中不做详细描述。

在用户编辑好了要发表的评论文字“我觉得这个视频LL，快KT啊，H！”(K，T，H，LL表示不文明的字/词语)，点击提交后，在生成对音视频等媒体资源的评论信息展示在对应的媒体资源的评论展示区域之前，会先对该评论文字进行预处理，即通过字符串比较的方法去除评论文字“我觉得这个视频LL，快KT啊，H！”中存在于敏感词集合中的词语“LL”，得到评论文字“我觉得这个视频，快KT啊，H”，再进行字符串正则匹配，当正则匹配的规则是去掉常见的敏感词时，确定正则表达式，根据确定的正则表达式对评论文字进行匹配，去掉“T”，得到去除常见的敏感词的评论文字“我觉得这个视频，快K啊，H！”。

对得到的评论文字“我觉得这个视频，快K啊，H！”基于数据集中的停用词表进行检测，检测出评论文字“我觉得这个视频，快K啊，H！”中的停用词，即“我”，“这个”，“啊”，“，”，删除停用词后得到评论文字“觉得视频快KH”再对评论文字“觉得视频快KH”进行分词处理，由得到的“觉得”，“视频”，“快”，“K”，“H”组成词单元集合，进一步的确定词单元集合中的每个词的词性，即“觉得”：动词，“视频”：名词，“快”：形容词，“K”名词，“H”：动词。计算每个词以及与词对应的词性，与敏感词集合中的敏感词之间的属性相似度，得到每个词对应的属性相似度数值，“觉得”：56％，“视频”：20％，“快”：40％，“K”：82％，“H”：86％。

基于得到的词与属性相似度数值，将属性相似度阈值设定为80％，将大于80％的词作为目标词；或者将得到的词与属性相似度数值，按照属性相似度数值从大到小的顺序进行排列，得到“H”：86％，“K”：82％，“觉得”：56％，“快”：40％，“视频”：20％。根据词的数量选择排序靠前的两个词作为目标词，即“H”：86％，“K”：82％。确定了目标词后，在评论文字中找出目标词，并以特殊符号如“*”，“#”等替换，将通过字符串比较得到的“LL”也进行替换，得到替换后的评论文字“我觉得这个视频**，快*啊，*！”。或者当评论文字中需要被替换的总的目标词的文字数量超过评论文字总数量的60％时，不允许用户发表该评论文字，并提示用户，该条评论文字中包含的不文明词语较多，禁止发表。

综上，通过对用户发表的评论文字进行过滤，能够实现过滤掉其中的不文明用语，达到净化多媒体资源观看环境的目的。

与上述方法实施例相对应，本申请还提供了文本过滤装置实施例，图4示出了本申请一实施例提供的一种文本过滤装置的结构示意图。如图4所示，该装置包括：

第二获取模块402，被配置为获取初始文本；

第二预处理模块404，被配置为对所述初始文本进行预处理，获得所述初始文本对应的词单元集合；

第二计算模块406，被配置为计算所述词单元集合中包含的每个词单元，与上述方法中所述的目标敏感词集合中的敏感词之间的属性相似度；

检测模块408，被配置为根据所述属性相似度对所述初始文本进行检测，获得所述初始文本对应的过滤文本。

一个可选的实施例中，所述检测模块408进一步被配置为：

上述为本实施例的一种文本过滤装置的示意性方案。需要说明的是，该文本过滤装置的技术方案与上述文本过滤方法的技术方案属于同一构思，文本过滤装置的技术方案未详细描述的细节内容，均可以参见上述文本过滤方法的技术方案的描述。此外，装置实施例中的各组成部分应当理解为实现该程序流程各步骤或该方法各步骤所必须建立的功能模块，各个功能模块并非实际的功能分割或者分离限定。由这样一组功能模块限定的装置权利要求应当理解为主要通过说明书记载的计算机程序实现该解决方案的功能模块构架，而不应当理解为主要通过硬件方式实现该解决方案的实体装置。

下述结合附图5，以本申请提供的文本处理方法以及文本过滤方法对聊天场景的应用为例，对所述文本处理方法以及所述文本过滤方法进行进一步说明。其中，图5示出了本申请一实施例提供的一种应用于聊天场景的文本处理方法以及文本过滤方法的处理流程图，具体包括以下步骤：

步骤S502，获取聊天文本。

本实施例以即时通讯场景下用户之间进行聊天交流为例，在用户确定了信息发送人，对编辑的聊天信息点击发送后，在完成聊天信息送达到发送人之前，获取到聊天信息。

步骤S504，基于敏感词集合，对聊天文本进行字符串比较和字符串正则匹配，获得初始聊天文本。

基于预设的敏感词集合对聊天信息进行字符串比较，以实现过滤掉聊天信息中存在于敏感词集合中的词语，再进行字符串正则匹配，得到去除常用敏感词后的聊天信息，即初始聊天文本。

步骤S506，基于数据集对初始聊天文本进行停用词检测，分词处理和词性标记，获得初始词单元集合。

基于数据集中的停用词表对初始聊天文本进行检测，检测出聊天信息中的语气词，“你，我，他/她”等词，将检测到的词从聊天信息中删除，再进行分词处理，得到多个字/词语组成的词单元集合。

在步骤S506之后，可同时执行步骤S508和步骤S512，或者先执行步骤S512，再执行步骤S508。

步骤S508，基于敏感词集合对词单元集合进行相似度比较。

结合词单元以及词单元对应的词性，分别计算词单元集合中的每个词单元，与预设的敏感词集合中的敏感词之间的相似度，得到一个相似度数值。

步骤S510，根据相似度比较结果确定与聊天文本对应的目标聊天文本。

根据每个词单元的相似度计算结果，将相似度按照从高到底的顺序进行排序，选择前排在前十位的词单元作为目标词单元，或者选择相似度计算结果中大于等于80％的词单元作为目标词单元，将聊天文本中的目标词单元用特定的符号“*”替换，得到与聊天信息对应的目标聊天文本。

步骤S512，对词单元进行标注获得词单元标注集合，并存入数据集。

对由字/词语组成的词单元集合中的每个词单元根据词单元的属性以及词单元在聊天信息中的语义进行分类和标注，生成词单元标注集合，并将词单元标注集合存储到数据集中。

步骤S514，对词单元标注集合进行变换处理，获得词向量并存入数据集。

计算词单元标注集合中每个词单元对应的词向量，将计算得到的词向量数据也存储到数据集中对应的词向量数据表中，实现对词向量数据表的扩展。

步骤S516，计算词单元对应的词向量，与敏感词集合中敏感词对应的词向量之间的相似度。

计算词单元标注集合中每个词单元对应的词向量，与敏感词集合中的敏感词之间的相似度，得到每个词单元对应的相似度计算结果。

步骤S518，根据相似度计算结果确定目标词单元存储至敏感词名单。

根据计算得到的每个词单元与敏感词集合中的敏感词之间的属性相似度，对每个词单元对应的属性相似度按照从大到小的顺序进行排序，选择排在前十位的词单元作为目标词单元；或者设定一个属性相似度阈值，将属性相似度大于这个阈值的词单元作为目标词单元。将目标词单元存储到敏感词集合中，实现对敏感词几个的扩充。

综上，通过对聊天文本进行过滤处理，得到初步过滤结果，去掉常用敏感词以及字符等干扰信息，再对聊天文本的初步过滤结果进行分词处理和词性确定，同时通过对分词词语进行标注、词向量计算，语言模型训练的方法来迭代数据集，以分词处理后得到的多个从词单元为基础计算与敏感词集合中敏感词之间的属性相似度，实现在过滤聊天文本的同时扩展敏感词集合中敏感词的数量，以及数据集中的数据量，增强了聊天过滤的实用性以及准确度。

图6示出了根据本申请一实施例提供的一种计算设备600的结构框图。该计算设备600的部件包括但不限于存储器610和处理器620。处理器620与存储器610通过总线630相连接，数据库650用于保存数据。

计算设备600还包括接入设备640，接入设备640使得计算设备600能够经由一个或多个网络660通信。这些网络的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。接入设备640可以包括有线或无线的任何类型的网络接口(例如，网络接口卡(NIC))中的一个或多个，诸如IEEE802.11无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口，等等。

在本申请的一个实施例中，计算设备600的上述部件以及图6中未示出的其他部件也可以彼此相连接，例如通过总线。应当理解，图6所示的计算设备结构框图仅仅是出于示例的目的，而不是对本申请范围的限制。本领域技术人员可以根据需要，增添或替换其他部件。

计算设备600可以是任何类型的静止或移动计算设备，包括移动计算机或移动计算设备(例如，平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如，智能手机)、可佩戴的计算设备(例如，智能手表、智能眼镜等)或其他类型的移动设备，或者诸如台式计算机或PC的静止计算设备。计算设备600还可以是移动式或静止式的服务器。

其中，处理器620用于执行所述文本处理方法以及文本过滤方法的计算机可执行指令。

上述为本实施例的一种计算设备的示意性方案。需要说明的是，该计算设备的技术方案与上述的文本处理方法以及文本过滤方法的技术方案属于同一构思，计算设备的技术方案未详细描述的细节内容，均可以参见上述文本处理方法以及文本过滤方法的技术方案的描述。

本申请一实施例还提供一种计算机可读存储介质，其存储有计算机指令，该指令被处理器执行时以用于文本处理方法以及文本过滤方法。

上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是，该存储介质的技术方案与上述的文本处理方法以及文本过滤方法的技术方案属于同一构思，存储介质的技术方案未详细描述的细节内容，均可以参见上述文本处理方法以及文本过滤方法的技术方案的描述。

本申请一实施例还提供一种芯片，其存储有计算机程序，该计算机程序被芯片执行时实现所述文本处理方法以及文本过滤方法的步骤。

上述对本申请特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

所述计算机指令包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

需要说明的是，对于前述的各方法实施例，为了简便描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其它顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定都是本申请所必须的。

在上述实施例中，对每个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其它实施例的相关描述。

以上公开的本申请优选实施例只是用于帮助阐述本申请。可选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本申请的内容，可作很多的修改和变化。本申请选取并具体描述这些实施例，是为了更好地解释本申请的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本申请。本申请仅受权利要求书及其全部范围和等效物的限制。

Claims

1.一种文本处理方法，其特征在于，包括：

获取待处理文本；

2.根据权利要求1所述的方法，其特征在于，所述计算所述词单元集合中包含的每个词单元，与预设的敏感词集合中的敏感词之间的属性相似度，包括：

计算所述数据集中的初始词单元，与预设的敏感词集合中的敏感词之间的属性相似度；

3.根据权利要求2所述的方法，其特征在于，所述计算所述数据集中的初始词单元，与预设的敏感词集合中的敏感词之间的属性相似度步骤执行之前，还包括：

从所述数据集中读取每个初始词单元对应的词向量；

4.根据权利要求1所述的方法，其特征在于，所述对所述待处理文本进行预处理，获得所述待处理文本对应的词单元集合，包括：

对所述初始过滤文本进行分词处理，获得所述词单元集合。

5.根据权利要求4所述的方法，其特征在于，所述对所述初始过滤文本进行分词处理，获得所述词单元集合，包括：

6.根据权利要求5所述的方法，其特征在于，所述利用所述数据集和分词算法对所述目标过滤文本进行分词识别，获得与所述待处理文本对应的初始词单元集合，包括：

采用动态规划策略在所述有向无环图中查找目标路径；

7.根据权利要求4-6任意一项所述的方法，其特征在于，所述对所述待处理文本进行预处理，获得所述待处理文本对应的词单元集合步骤执行之后，还包括：

8.根据权利要求1所述的方法，其特征在于，所述根据所述属性相似度在所述词单元集合中筛选目标词单元，包括：

9.根据权利要求7所述的方法，其特征在于，所述对所述词单元标注集合中的每个词单元进行变换处理，获得每个词单元对应的词向量，包括：

10.根据权利要求1所述的方法，其特征在于，所述获取待处理文本，包括：

获取文本交互信息，将所述文本交互信息作为待处理文本；

11.一种文本过滤方法，其特征在于，包括：

获取初始文本；

计算所述词单元集合中包含的每个词单元，与权利要求1-10任意一项中所述的目标敏感词集合中的敏感词之间的属性相似度；

12.根据权利要求11所述的方法，其特征在于，所述根据所述属性相似度对所述初始文本进行检测，获得所述初始文本对应的过滤文本，包括：

根据所述目标初始文本生成目标过滤文本。

13.根据权利要求11所述的方法，其特征在于，所述根据所述属性相似度对所述初始文本进行检测，获得所述初始文本对应的过滤文本，包括：

14.一种文本处理装置，其特征在于，包括：

第一获取模块，被配置为获取待处理文本；

15.一种文本过滤装置，其特征在于，包括：

第二获取模块，被配置为获取初始文本；

第二计算模块，被配置为计算所述词单元集合中包含的每个词单元，与权利要求1-10任意一项中所述的目标敏感词集合中的敏感词之间的属性相似度；

16.一种计算设备，其特征在于，包括：

存储器和处理器；

所述存储器用于存储计算机可执行指令，所述处理器用于执行所述计算机可执行指令实现权利要求1-10或者11-13任意一项所述文本处理方法的步骤。

17.一种计算机可读存储介质，其存储有计算机指令，其特征在于，该指令被处理器执行时实现权利要求1-10或者11-13任意一项所述文本处理方法的步骤。