CN109543024A

CN109543024A - 一种文本处理方法及装置

Info

Publication number: CN109543024A
Application number: CN201811306958.8A
Authority: CN
Inventors: 崔洪清; 王涛; 李翔
Original assignee: Union Mobile Pay Co Ltd
Current assignee: Union Mobile Pay Co Ltd
Priority date: 2018-11-05
Filing date: 2018-11-05
Publication date: 2019-03-29
Anticipated expiration: 2038-11-05
Also published as: CN109543024B

Abstract

本发明涉及自然语言处理技术领域，尤其涉及一种文本处理方法及装置，用于提升文本的过滤准确度。所述方法包括：获得输入的文本，所述文本中包括N个字符，N为大于1的整数；针对所述文本中的任一个字符，依次查找该任一个字符与紧挨该任一个字符的M个字符所组成的词，在敏感词组合库中的组合信息，从而获得所述文本中所有词的组合信息，M为大于等于1、且小于N的整数，且M的初始值为1；若所有词中存在多个词的组合信息所包括的组合特征与所述敏感词组合库的至少一个敏感词组合所具有的组合特征一致，则确定所述文本属于目标文本，否则确定所述文本不属于目标文本。

Description

一种文本处理方法及装置

技术领域

本发明涉及自然语言处理技术领域，尤其涉及一种文本处理方法及装置。

背景技术

随着移动通信和互联网的发展，基于文本的服务如短信、即时通讯工具、微博、论坛等已经渗透到社会的各个领域，为防止不良信息内容的发布，需要对待发布的文本进行过滤，以拦截不良的文本内容，因此，如何提升文本的过滤准确度，是一个需要解决的技术问题。

发明内容

本发明实施例提供一种文本处理方法及装置，用于提升文本过滤准确度。

一方面，本发明实施例提供了一种文本处理方法，所述方法包括：

获得输入的文本，所述文本中包括N个字符，N为大于1的整数；

针对所述文本中的任一个字符，依次查找该任一个字符与紧挨该任一个字符的M个字符所组成的词，在敏感词组合库中的组合信息，从而获得所述文本中所有词的组合信息，M为大于等于1、且小于N的整数，且M的初始值为1；

若所有词中存在多个词的组合信息所包括的组合特征与所述敏感词组合库的至少一个敏感词组合所具有的组合特征一致，则确定所述文本属于目标文本，否则确定所述文本不属于目标文本。

可选的，所述组合信息包括与其对应的词在所述敏感词组合库中的所属组合，以及该词在该组合中的所属子组合；其中，子组合为与其对应的组合中的近义词组成的集合。

可选的，所述所有词中存在多个词的组合信息所包括的组合特征与所述敏感词组合库的任一个敏感词组合所具有的组合特征一致，具体为：

若根据所述多个词的组合信息，确定所述多个词属于所述敏感词组合库中的同一个组合，且所述多个词所在的子组合包括了该同一个组合的所有子组合；

则确定所述多个词的组合信息所包括的组合特征与该同一个组合的组合特征一致。

可选的，所述敏感词组合库包括的敏感词组合为用于过滤文本的组合时，所述目标文本为需要拦截的文本；以及

在确定所述文本属于需要拦截的文本时，拦截所述文本；在确定所述文本不属于需要拦截的文本，则释放所述文本。

可选的，所述方法还包括：

在查找该任一个字符与紧挨该任一个字符的M个字符所组成的词在敏感词组合库中的组合信息时，若连续K次未查找到该任一个字符与其紧挨的M个字符所组成的词在敏感词组合库中的组合信息时，则查找紧挨该任一个字符之后的下一个字符与紧挨该下一个字符的M个字符所组成的词在敏感词组合库中的组合信息。

可选的，所述敏感词组合库中的所有组合按哈希有向图方式进行排列，获得所有组合中每个组合的组合特征。

另一方面，本发明实施例提供了一种文本处理装置，包括：

获得单元，用于获得输入的文本，所述文本中包括N个字符，N为大于1的整数；

查找单元，用于针对所述文本中的任一个字符，依次查找该任一个字符与紧挨该任一个字符的M个字符所组成的词，在敏感词组合库中的组合信息，从而获得所述文本中所有词的组合信息，M为大于等于1、且小于N的整数，且M的初始值为1；

确定单元，用于若所有词中存在多个词的组合信息所包括的组合特征与所述敏感词组合库的至少一个敏感词组合所具有的组合特征一致，则确定所述文本属于目标文本，否则确定所述文本不属于目标文本。

可选的，所述确定单元，还用于：

所述确定单元，还用于：

可选的，所述查找单元还用于：

可选的，述获得单元，还用于将所述敏感词组合库中的所有组合按哈希有向图方式进行排列，获得所有组合中每个组合的组合特征。

在本发明实施例中，在获得输入的文本时，针对文本中的任一个字符，依次查找该任一个字符与紧挨该任一个字符的M个字符所组成的词，在敏感词组合库中的组合信息，从而获得所述文本中所有词的组合信息，以便基于查找的所有词，确定所有词中存在多个词的组合信息所包括的组合特征是否与所述敏感词组合库的至少一个敏感词组合所具有的组合特征一致，并在确定存在多个词的组合信息所包括的组合特征与至少一个敏感词组合所具有的组合特征一致时，确定该文本属于目标文本，否则确定该文本不属于目标文本。即该方法对输入的文本中所有的词进行了多种组合与敏感词组合进行敏感词配置，能够最大程度的确定该文本是否符合敏感词组合库中的一个或多个敏感词组合的特征，从而提升了文本的过滤的准确度。

进一步的，由于本发明实施例中的方法，在查找该任一个字符与紧挨该任一个字符的M个字符所组成的词在敏感词组合库中的组合信息时，若连续K次未查找到该任一个字符与其紧挨的M个字符所组成的词在敏感词组合库中的组合信息时，则查找紧挨该任一个字符之后的下一个字符与紧挨该下一个字符的M个字符所组成的词在敏感词组合库中的组合信息，所以，也提升了查找速度，进而提升了文本过滤的效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例。

图1为本发明实施例提供的一种应用场景示意图；

图2为本发明实施例提供的一种文本处理方法流程图；

图3为本发明实施例提供的一种敏感词组按照按哈希有向图方式排列示意图；

图4为本发明实施例提供的另一种敏感词组按照按哈希有向图方式排列示意图；

图5为本发明实施例提供的另一种敏感词组按照按哈希有向图方式排列示意图；

图6为本发明实施例提供的一种文本处理装置示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明技术方案的一部分实施例，而不是全部的实施例。基于本申请文件中记载的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明技术方案保护的范围。

本发明实施例中的文本处理方法可以应用于如图1所示的应用场景，该应用场景中包括用户终端设备10以及文本处理中心11，其中，用户终端设备10可以为任何能够按照程序运行，自动、高速处理大量数据的智能电子设备，这样的终端设备如电脑，ipad，手机等。文本处理中心11可以是一台服务器，也可以是若干台服务器组成的服务器集群或云计算中心，也可以是终端设备如电脑。

用户终端设备10与文本处理中心11通过网络连接，网络可以为局域网、广域网或移动互联网等通信网络中的任意一种。在该场景中，用户可在用户终端设备10输入待发送的文本，用户终端设备10发送文本之前，可将待发送的文本发送给文本处理中心11，按照本发明实施例提供的方法进行处理，下文将进行详细介绍。

需要注意的是，上文提及的应用场景仅是为了便于理解本发明的精神和原理而示出，本发明实施例在此方面不受任何限制。相反，本发明实施例可以应用于适用的任何场景。

下面结合图1所示的应用场景，对本发明实施例提供的一种文本处理方法进行说明。

如图2所示，本发明实施例中提供的一种文本处理方法，包括：

步骤201：获得输入的文本，输入的文本中包括N个字符，N为大于1的整数。

本发明实施例中的文本处理方法可应用于任何需要文本过滤的场景中，这样的场景如使用即时通讯发送短信，发布微博、论坛留言等，在此，就不一一列举。在本发明实施例中，用户可在图1所示的用户终端设备中输入需要发送的文本，例如，通过终端设备中文本输入框输入待发送的文本，或通过终端设备的语音输入模块以语音的方式输入待发送的文本，在完成待发送的文本输入之后，文本处理中心可获取输入的文本，并进行下文即将介绍的处理。

其中，输入的文本通过包括多个字符，字符可以具体为英文字符，也可以汉语中的单词，也可为其他语种的词。

步骤202：针对文本中的任一个字符，依次查找该任一个字符与紧挨该任一个字符的M个字符所组成的词，在敏感词组合库中的组合信息，从而获得所述文本中所有词的组合信息。

其中，M为大于等于1、且小于N的整数，且M的初始值为1。

在本发明实施例中，为了提升文本过滤的准确性，减少误判或漏判，在获得输入的文本之后，可先针对文本中的任一字符，依次查找该任一个字符与紧挨该任一个字符的M个字符所组成的词在敏感词组合库中的组合信息，即从文本中查找出由该文本中的字符组成的所有词在敏感词组合库中的组合信息。

其中，组合信息包括与其对应的词在敏感词组合库中的所属组合，以及该词在该组合中的所属子组合，子组合为与其对应的组合中的近义词组成的集合。

因此，在针对文本中的任一字符，依次查找该任一个字符与紧挨该任一个字符的M个字符所组成的词在敏感词组合库中的组合信息，即为查找该文本中属于敏感词组合库中的敏感词组合的所有词，以及每个词所属的敏感词组合和该词在该其所属敏感词组合的子组合的信息。

例如，当输入的文本具体为caadddcdccc时，可查找到该文本中属于敏感词组合库中的敏感词组合的所有词，这里继续以上述列举的敏感词组合库包括敏感词组合(aaa|bbb)&(ccc|ddd)，以及敏感词组合(aa|bbbb)&(cd)&(ddd|ee)为例，那么，查找到的所有词包括aa、ddd、cd以及ccc，每个词的组合信息分别为：

aa的组合信息为：id＝2，groupNums＝3，groupSeq＝1；

ddd的组合信息为：id＝1，groupNums＝2，groupSeq＝2；

id＝2，groupNums＝3，groupSeq＝3；

cd的组合信息为：id＝2，groupNums＝3，groupSeq＝2；

ccc的组合信息为:id＝1，groupNums＝2，groupSeq＝2；

其中，其中groupSeq表示词在敏感词组合中的具体子组合，例如，aa的组合信息为：id＝2表示aa所在的敏感词组合，即属于敏感词组合库的敏感词组合(aaa|bbb)&(ccc|ddd)中的词，groupNums＝3表示aa所在的敏感词组合包括3个子组合，groupSeq＝1表示aa在其所在的敏感词组合中的第一个子组合中，同理于ddd、cd、ccc的组合信息，在此就不重复叙述了。

步骤203：确定所有词中存在多个词的组合信息所包括的组合特征是否与所述敏感词组合库的至少一个敏感词组合所具有的组合特征一致，若是，则执行步骤204；否则执行步骤205；

在本发明实施例中，在查找到输入的文本中属于敏感词组合库中的敏感词组合的所有词，以及每个词所属的敏感词组合和该词在该其所属敏感词组合的子组合的信息之后，可进一步确定查到的所有词中是否存在多个词的组合信息所包括的组合特征与所述敏感词组合库的一个敏感词组合所具有的组合特征一致。

在实际应用中，步骤203还可以具体通过以下方式执行：

步骤204：确定所述文本属于目标文本。

由于文本caadddcdccc中，存在aa、ddd、以及cd的组合信息所包括的组合特征与敏感词组合库的一个敏感词组合即敏感词组合(aa|bbbb)&(cd)&(ddd|ee)所具有的组合特征一致，则可确定文本caadddcdccc属于目标文本。

其中，目标文本可以是可释放通过的文本，也可以为需要拦截的文本，还可以是用于白名单判断的文本。

例如，在敏感词组合库包括的敏感词组合为用于过滤文本的组合时，目标文本为需要拦截的文本，那么，针对上文中的文本caadddcdccc，由于其存在aa、ddd、以及cd的组合信息所包括的组合特征与敏感词组合库的一个敏感词组合即敏感词组合(aa|bbbb)&(cd)&(ddd|ee)所具有的组合特征一致，所以，可以确定文本caadddcdccc为需要拦截的文本，此时还可以拦截该文本。

在敏感词组合库包括的敏感词组合为用于白名单判断的组合，目标文本为可进行白名单判断的文本时，那么，针对上文中的文本caadddcdccc，由于其存在aa、ddd、以及cd的组合信息所包括的组合特征与敏感词组合库的一个敏感词组合即敏感词组合(aa|bbbb)&(cd)&(ddd|ee)所具有的组合特征一致，所以，可以确定文本caadddcdccc为可进行白名单判断的文本，此时还可以将该文本中查找出的词作为白名单中的词。

步骤205：确定所述文本不属于目标文本。

在具体实践过程中，也存在确定的所有词中的任意多个词的组合信息所包括的组合特征与所述敏感词组合库的每一个敏感词组合所具有的组合特征不一致的情况，此时可确定该文本不属于目标文本。

例如，文本caadddcdccc中的任意多个词的组合信息所包括的组合特征与敏感词组合(aa|bbbb)&(cd)&(ddd|ee)所具有的组合特征也不同，则可确定文本caadddcdccc不属于目标文本。在敏感词组合库包括的敏感词组合为用于过滤文本的组合时，目标文本为需要拦截的文本，那么，可以确定文本caadddcdccc为不需要拦截的文本，此时可释放该文本。在敏感词组合库包括的敏感词组合为用于白名单判断的组合，目标文本为可进行白名单判断的文本时，那么，可以确定文本caadddcdccc为不能进行白名单判断的文本。

所以，通过上述方法，在获得输入的文本时，针对文本中的任一个字符，依次查找该任一个字符与紧挨该任一个字符的M个字符所组成的词，在敏感词组合库中的组合信息，从而获得所述文本中所有词的组合信息，以便基于查找的所有词，确定所有词中存在多个词的组合信息所包括的组合特征是否与所述敏感词组合库的至少一个敏感词组合所具有的组合特征一致，并在确定存在多个词的组合信息所包括的组合特征与至少一个敏感词组合所具有的组合特征一致时，确定该文本属于目标文本，否则确定该文本不属于目标文本。即该方法对输入的文本中所有的词进行了多种组合与敏感词组合进行敏感词配置，能够最大程度的确定该文本是否符合敏感词组合库中的一个或多个敏感词组合的特征，从而提升了文本的过滤的准确度。

作为一种可选的方案，在本发明实施例中，可以将敏感词组合库中的所有组合按哈希有向图方式进行排列，获得所有组合中每个组合的组合特征，以便与从文本中查找的多个词的组合信息所包括的组合特征进行一致判断。

同理，针对敏感词组合(aa|bbbb)&(cd)&(ddd|ee)也可进行上文相同的处理，进而获得该组合的组合信息，该组合信息如图5所示包括：该组合中aa的组合信息包括：id＝2，groupNums＝3，groupSeq＝1；bbbb的组合信息包括：id＝2，groupNums＝3，groupSeq＝1；cd的组合信息包括：id＝2，groupNums＝3，groupSeq＝2；ddd的组合信息包括：id＝2，groupNums＝3，groupSeq＝3；ee的组合信息包括：id＝2，groupNums＝3，groupSeq＝3。其中，图5还包括敏感词组合(aaa|bbb)&(ccc|ddd)的组合信息。

作为一种可选的方案，在本发明实施例中，为了提升文本处理速度，步骤202：针对文本中的任一个字符，依次查找该任一个字符与紧挨该任一个字符的M个字符所组成的词，在敏感词组合库中的组合信息时，可以按照以下方法执行：

即在本发明实施例中，考虑到词通常由有限个字符组成，若超过一定数量的字符组成的就不属于一个词的范畴，而是属于一个句子或一个句子的一部分内容，因此，针对文本中任一个字符，若连续K次未查找到该任一个字符与其紧挨的M个字符所组成的词在敏感词组合库中的组合信息时，则查找紧挨该任一个字符之后的下一个字符与紧挨该下一个字符的M个字符所组成的词在敏感词组合库中的组合信息。

其中，M初始值为1，K可根据该文本所述语种的字符与词特征设置，例如，在输入文本为中文，则一个字符为一个字，在中文中，词通过可以两个字、3个字或4个字组成，因此，K可选择为3，那么，针对文本中第一个字，可先查找该第一个字与第二个字组成的词在敏感词组合库中的组合信息，若未查找到，则在第二次查找时，可查找该第一个字与第二个字、第三个字组成的词在敏感词组合库中的组合信息，若未查找到；则在第三次查找时，可查找该第一个字与第二个字、第三个字以及第四个字组成的词在敏感词组合库中的组合信息，若未查找到，则停止以该第一个字进行的查找，继而查找第二个字与紧挨第二字符的M个字符所组成的词在敏感词组合库中的组合信息，在此就不重复叙述了，所以，提升文本处理速度。

基于同一发明构思，本发明实施例中提供了一种文本处理装置，如图6所示，包括：

获得单元50，用于获得输入的文本，所述文本中包括N个字符，N为大于1的整数；

查找单元51，用于针对所述文本中的任一个字符，依次查找该任一个字符与紧挨该任一个字符的M个字符所组成的词，在敏感词组合库中的组合信息，从而获得所述文本中所有词的组合信息，M为大于等于1、且小于N的整数，且M的初始值为1；

确定单元52，用于若所有词中存在多个词的组合信息所包括的组合特征与所述敏感词组合库的至少一个敏感词组合所具有的组合特征一致，则确定所述文本属于目标文本，否则确定所述文本不属于目标文本。

可选的，所述确定单元，还用于：

所述确定单元，还用于：

可选的，所述查找单元还用于：

可选的，所述获得单元，还用于将所述敏感词组合库中的所有组合按哈希有向图方式进行排列，获得所有组合中每个组合的组合特征。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种文本处理方法，其特征在于，所述方法包括：

2.如权利要求1所述的方法，其特征在于，所述组合信息包括与其对应的词在所述敏感词组合库中的所属组合，以及该词在该组合中的所属子组合；其中，子组合为与其对应的组合中的近义词组成的集合。

3.如权利要求2所述的方法，其特征在于，所述所有词中存在多个词的组合信息所包括的组合特征与所述敏感词组合库的任一个敏感词组合所具有的组合特征一致，具体为：

4.如权利要求1-3中任一项所述的方法，其特征在于，所述敏感词组合库包括的敏感词组合为用于过滤文本的组合时，所述目标文本为需要拦截的文本；以及

5.如权利要求1-3中任一项所述的方法，其特征在于，所述方法还包括：

6.如权利要求1-3中任一项所述的方法，其特征在于，所述敏感词组合库中的所有组合按哈希有向图方式进行排列，获得所有组合中每个组合的组合特征。

7.一种文本处理装置，其特征在于，包括：

8.如权利要求7所述的装置，其特征在于，所述组合信息包括与其对应的词在所述敏感词组合库中的所属组合，以及该词在该组合中的所属子组合；其中，子组合为与其对应的组合中的近义词组成的集合。

9.如权利要求8所述的装置，其特征在于，所述确定单元，还用于：

10.如权利要求7-9中任一项所述的装置，其特征在于，所述敏感词组合库包括的敏感词组合为用于过滤文本的组合时，所述目标文本为需要拦截的文本；以及

所述确定单元，还用于