CN106372052A

CN106372052A - 文本过滤处理方法及装置

Info

Publication number: CN106372052A
Application number: CN201510435097.3A
Authority: CN
Inventors: 张鹏霄; 于大明
Original assignee: Beijing Gridsum Technology Co Ltd
Current assignee: Beijing Gridsum Technology Co Ltd
Priority date: 2015-07-22
Filing date: 2015-07-22
Publication date: 2017-02-01

Abstract

本申请公开了一种文本过滤处理方法及装置。该方法包括：确定待处理文本中所有的常用汉字，其中，待处理文本为中文文本；分别获取待处理文本的长度和待处理文本中常用汉字的长度；计算长度比率，其中，长度比率为待处理文本中常用汉字的长度与待处理文本的长度的比值；判断长度比率是否小于预设比率；以及当长度比率小于预设比率时，对待处理文本进行过滤处理。通过本申请，解决了相关技术中文本过滤后信息完整性低的问题。

Description

文本过滤处理方法及装置

技术领域

本申请涉及文本过滤处理技术领域，具体而言，涉及一种文本过滤处理方法及装置。

背景技术

在实际应用中，许多场合需要展示文本，然而文本中往往有很多的词由于解码方式错误导致呈现为不明语义的乱码。现有技术中，通常采用正则表达式去对文本进行过滤，如果文本中含有非汉字的乱码，则将该文本过滤。然而，很多的乱码都被解析为一些很生僻的汉字，如“鬺”，“蠡”等，这些字会被视为汉字，因此该方案无法过滤含有生僻汉字的文本。通常，对含有生僻汉字的文本不进行处理，直接展示该文本，由于该文本含有由乱码解析出的生僻汉字，该方案将导致文本显示的信息不准确。相关技术中，为了提升文本显示信息的准确性，只要发现含有生僻汉字的文本，都将其进行过滤，这会将含有个别生僻汉字但属于可以正确解析的文本过滤掉，继而导致文本信息完整性低的问题。

针对相关技术中文本过滤后信息完整性低的问题，目前尚未提出有效的解决方案。

发明内容

本申请的主要目的在于提供一种文本过滤处理方法及装置，以解决相关技术中文本过滤后信息完整性低的问题。

为了实现上述目的，根据本申请的一个方面，提供了一种文本过滤处理方法。该方法包括：确定待处理文本中所有的常用汉字，其中，待处理文本为中文文本；分别获取待处理文本的长度和待处理文本中常用汉字的长度；计算长度比率，其中，长度比率为待处理文本中常用汉字的长度与待处理文本的长度的比值；判断长度比率是否小于预设比率；以及当长度比率小于预设比率时，对待处理文本进行过滤处理。

进一步地，在确定待处理文本中所有的常用汉字之前，该方法还包括：获取正则表达式，其中，正则表达式为预先存储用于对待处理文本中乱码进行过滤的表达式；以及根据正则表达式对文本进行过滤处理，得到待处理文本。

进一步地，确定待处理文本中所有的常用汉字包括：分别判断待处理文本中的每个汉字是否在第一预设数据库中存在，其中，第一预设数据库为预先存储有常用汉字的数据库；当待处理文本中的汉字在第一预设数据库中存在时，将待处理文本中在第一预设数据库中存在的汉字作为待处理文本中的常用汉字。

进一步地，分别获取待处理文本的长度和待处理文本中常用汉字的长度包括：获取第一起始位置数据和第二起始位置数据，其中，第一起始位置数据为待处理文本的起始位置的数据，第二起始位置数据为待处理文本中所有的常用汉字起始位置的数据；以及获取第一数值和第二数值，其中，第一数值为根据第一起始位置数据计算出偏移量的数值，第二数值为根据第二起始位置数据计算出偏移量的数值；以及将第一数值作为待处理文本的长度，第二数值作为待处理文本中常用汉字的长度。

进一步地，该方法还包括：当长度比率大于或等于预设比率时，将待处理文本存储至第二预设数据库，其中，第二预设数据库用于存储过滤后的文本。

为了实现上述目的，根据本申请的另一方面，提供了一种中文文本的过滤处理文本过滤处理装置。该装置包括：确定单元，用于确定待处理文本中所有的常用汉字，其中，待处理文本为中文文本；第一获取单元，用于分别获取待处理文本的长度和待处理文本中常用汉字的长度；计算单元，用于计算长度比率，其中，长度比率为待处理文本中常用汉字的长度与待处理文本的长度的比值；判断单元，用于判断长度比率是否小于预设比率；以及第一处理单元，用于当长度比率小于预设比率时，对待处理文本进行过滤处理。

进一步地，该装置还包括：第二获取单元，用于获取正则表达式，其中，正则表达式为预先存储用于对待处理文本中乱码进行过滤的表达式；以及第二处理单元，用于根据正则表达式对文本进行过滤处理，得到待处理文本。

进一步地，确定单元包括：判断模块，用于分别判断待处理文本中的每个汉字是否在第一预设数据库中存在，其中，第一预设数据库为预先存储有常用汉字的数据库；以及第一确定模块，用于当待处理文本中的汉字在第一预设数据库中存在时，将待处理文本中在第一预设数据库中存在的汉字作为待处理文本中的常用汉字。

进一步地，第一获取单元包括：第一获取模块，用于获取第一起始位置数据和第二起始位置数据，其中，第一起始位置数据为待处理文本的起始位置的数据，第二起始位置数据为待处理文本中所有的常用汉字起始位置的数据；第二获取模块，用于获取第一数值和第二数值，其中，第一数值为根据第一起始位置数据计算出偏移量的数值，第二数值为根据第二起始位置数据计算出偏移量的数值；以及第二确定模块，用于将第一数值作为待处理文本的长度，第二数值作为待处理文本中常用汉字的长度。

进一步地，该装置还包括：存储单元，用于当长度比率大于或等于预设比率时，将待处理文本存储至第二预设数据库，其中，第二预设数据库用于存储过滤后的文本。

本申请通过确定待处理文本中所有的常用汉字；分别获取待处理文本的长度和待处理文本中常用汉字的长度；计算长度比率；判断长度比率是否小于预设比率；以及当长度比率小于预设比率时，对待处理文本进行过滤处理，避免了将只要含有不常用汉字的待处理文本全部过滤掉，提升了文本过滤后信息的完整性。

附图说明

构成本申请的一部分的附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请第一实施例的文本过滤处理方法的流程图；

图2是根据本申请第二实施例的文本过滤处理方法的流程图；以及

图3是根据本申请实施例的文本过滤处理装置的示意图。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

根据本申请的实施例，提供了一种文本过滤处理方法。

图1是根据本申请第一实施例的文本过滤处理方法的流程图。如图1所示，该方法包括如下步骤：

步骤S101，确定待处理文本中所有的常用汉字，其中，待处理文本为中文文本。

在一些场合下需要展示一系列的中文文本，然而中文文本中往往有很多的词由于解码方式错误导致很多的乱码都被解析为一些生僻的中文汉字，为了显示信息的准确性，需要对一些生僻的中文汉字进行过滤处理，因此，在多个中文文本中确定需要处理的文本，即待处理文本。中文汉字的总数量将近十万，但是日常所使用的汉字只有3000多字，因此，在本申请实施例中将日常所使用的汉字叫做常用汉字。确定待处理文本中所有的常用汉字有多种方式，例如，逐一判断待处理文本中每个汉字是否为日常所使用的汉字，从而确定出待处理的中文文本中所有的常用汉字。

步骤S102，分别获取待处理文本的长度和待处理文本中常用汉字的长度。

例如，待处理文本为：他具有很强恴图像记忆螚力，能够以槱快的速度廟画出飝氅复杂螚造型。那么确定出的待处理文本中所有的常用汉字为：他具有很强图像记忆力，能够以快的速度画出复杂造型。则待处理文本的长度为30，待处理文本中常用汉字的长度为23。

需要说明的是，本申请实施例中的待处理文本可以是一个语句。

步骤S103，计算长度比率。

本申请第一实施例的长度比率为待处理文本中常用汉字的长度与待处理文本的长度的比值。例如待处理文本为：他具有很强恴图像记忆螚力，能够以槱快的速度廟画出飝氅复杂螚造型。则该待处理文本的长度为30，该待处理文本中常用汉字的长度为23。计算长度比率为23÷30＝76.7％。

步骤S104，判断长度比率是否小于预设比率。

步骤S105，当长度比率小于预设比率时，对待处理文本进行过滤处理。

例如，预设比率为80％，由于上述计算出的长度比率为76.7％，那么判断出76.7％小于预设比率80％，则对待处理文本进行过滤处理。具体地，过滤掉长度比率小于预设比率的待处理文本。

当长度比率大于或等于预设比率时，将待处理文本存储至第二预设数据库，其中，第二预设数据库用于存储过滤后的文本。

例如，预设比率为60％，待处理文本为：他具有很强恴图像记忆螚力，能够以槱快的速度廟画出飝氅复杂螚造型过滤掉。计算出长度比率为76.7％，判断出76.7％大于预设比率60％，不需要对待处理文本进行过滤处理，将待处理文本存储至第二预设数据库中。通过本方案，提升了对待处理文本的处理效率。同时也保证了过滤后文本信息的完整性。

本申请第一实施例提供的文本过滤处理方法，通过确定待处理文本中所有的常用汉字；分别获取待处理文本的长度和待处理文件中常用汉字的长度；计算长度比率；判断长度比率是否小于预设比率；以及当长度比率小于预设比率时，对待处理文本进行过滤处理，避免了将只要含有不常用汉字的待处理文本全部过滤掉，提升了文本过滤后信息的完整性。

优选地，在本申请第一实施例提供的文本过滤处理方法中，确定待处理文本中所有的常用汉字可以通过以下步骤实现：分别判断待处理文本中的每个汉字是否在第一预设数据库中存在，其中，第一预设数据库为预先存储有常用汉字的数据库；当待处理文本中的汉字在第一预设数据库中存在时，将待处理文本中在第一预设数据库中存在的汉字作为待处理文本的常用汉字。

本申请第一实施例中的第一预设数据库预先存储了常用的中文汉字。一级常用汉字大概有3800个左右，即，将常用的3800个汉字预先存储在第一预设数据库中。通过判断待处理文本中的每个汉字是否在第一预设数据库存在，将在第一预设数据库中存在的汉字作为待处理文本中的常用汉字，快速的获取到待处理文本中所有的常用汉字，从而提升对待处理文本进行过滤处理的效率。

例如，待处理文本为：她垚一个兴趣广泛恏姑娘，相奣刕后她生活会更加丰富多彩充满阳光。通过判断该待处理文本中的每个汉字是否在第二预设数据库存在，确定出所有的常用汉字为：她一个兴趣广泛姑娘，相后她生活会更加丰富多彩充满阳光。

可选地，在本申请第一实施例提供的文本过滤处理方法中，分别获取待处理文本的长度和待处理文本中常用汉字的长度可以通过以下步骤实现：获取第一起始位置数据和第二起始位置数据，其中，第一起始位置数据为待处理文本的起始位置的数据，第二起始位置数据为待处理文本中所有的常用汉字起始位置的数据；获取第一数值和第二数值，其中，第一数值为根据第一起始位置数据计算出偏移量的数值，第二数值为根据第二起始位置数据计算出偏移量的数值；以及将第一数值作为待处理文本的长度，第二数值作为待处理文本中常用汉字的长度。

通过偏移量来确定待处理文本的长度和待处理文本中常用汉字的长度，保证了获取待处理文本的长度和待处理文本中常用汉字的长度的准确性。

图2是根据本申请第二实施例的文本过滤处理方法的流程图。图2可以作为图1所示实施例的一种优选实施方式。如图2所示，该方法包括如下步骤：

步骤S201，获取正则表达式，其中，正则表达式为预先存储用于对待处理文本中乱码进行过滤的表达式。

正则表达式为对文本中乱码进行过滤的规则，预设存储常用的乱码过滤的正则表达式，在本申请第二实施例中的乱码为非中文字符。

步骤S202，根据正则表达式对文本进行过滤处理，得到待处理文本。

通常，文本中的每个中文字符有一个字符编码，通过该字符编码可以确定中文字符存储区间的位置信息，中文字符都存储在一个区间范围内。通过正则表达式对文本进行过滤处理，即过滤文本中未在该区间范围内的字符，即通过该操作过滤掉文本中的非中文字符，得到待处理文本。

步骤S203，确定待处理文本中所有的常用汉字，其中，待处理文本为中文文本。

步骤S203同上述步骤S101，在此不再赘述。

步骤S204，分别获取待处理文本的长度和待处理文本中常用汉字的长度。

步骤S204同上述步骤S102，在此不再赘述。

步骤S205，计算长度比率，其中，长度比率为待处理文本中常用汉字的长度与待处理文本的长度的比值。

步骤S205同上述步骤S103，在此不再赘述。

步骤S206，判断长度比率是否小于预设比率。

步骤S206同上述步骤S104，在此不再赘述。

步骤S207，当长度比率小于预设比率时，对待处理文本进行过滤处理。

步骤S207同上述步骤S105，在此不再赘述。

在本申请第二实施例提供的文本过滤处理方法中，通过正则表达式过滤掉了文本中的乱码词语，再根据长度比率对待处理文本进行过滤处理，即避免了将只要含有不常用汉字的待处理文本全部过滤掉，又经过双重过滤的方式进行中文乱码过滤，提高了文本过滤处理的精度，同时也保证了文本过滤后信息的完整性。

优选地，在本申请第二实施例提供的文本过滤处理方法中，确定待处理文本中所有的常用汉字可以通过以下步骤实现：分别判断待处理文本中的每个汉字是否在第一预设数据库中存在，其中，第一预设数据库为预先存储有常用汉字的数据库；当待处理文本中的汉字在第一预设数据库中存在时，将待处理文本中在第一预设数据库中存在的汉字作为待处理文本中的常用汉字。

本申请第二实施例中的第一预设数据库预先存储了常用的中文汉字。一级常用汉字大概有3800个左右，即，将常用的3800个汉字预先存储在第一预设数据库中。通过判断待处理文本中的每个汉字是否在第一预设数据库存在，将在第一预设数据库中存在的汉字作为待处理文本中的常用汉字，快速的获取到待处理文本中所有的常用汉字，从而提升对待处理文本进行过滤处理的效率。

例如，待处理文本为：她垚一个兴趣广泛恏姑娘，相奣刕后她生活会更加丰富多彩充满阳光。通过判断该待处理文本中的每个汉字是否在第二预设数据库存在，确定出该待处理文本中所有的常用汉字为：她一个兴趣广泛姑娘，相后她生活会更加丰富多彩充满阳光。

可选地，在本申请第二实施例提供的文本过滤处理方法中，分别获取待处理文本的长度和待处理文本中常用汉字的长度可以通过以下步骤实现：获取第一起始位置数据和第二起始位置数据，其中，第一起始位置数据为待处理文本的起始位置的数据，第二起始位置数据为待处理文本中所有的常用汉字起始位置的数据；获取第一数值和第二数值，其中，第一数值为根据第一起始位置数据计算出偏移量的数值，第二数值为根据第二起始位置数据计算出偏移量的数值；以及将第一数值作为待处理文本的长度，第二数值作为待处理文本中常用汉字的长度。

需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

下面根据本申请的实施例，提供了一种文本过滤处理装置。

本申请实施例还提供了一种文本过滤处理装置，需要说明的是，本申请实施例的文本过滤处理装置可以用于执行本申请实施例所提供的用于文本过滤处理方法。以下对本申请实施例提供的文本过滤处理装置进行介绍。

图3是根据本申请实施例的文本过滤处理装置的示意图。如图3所示，该装置包括：确定单元10、第一获取单元20、计算单元30、判断单元40和第一处理单元50。

确定单元10，用于确定待处理文本中所有的常用汉字，其中，待处理文本为中文文本。

第一获取单元20，用于分别获取待处理文本的长度和待处理文本中常用汉字的长度。

计算单元30，用于计算长度比率，其中，长度比率为待处理文本中常用汉字的长度与待处理文本的长度的比值。

判断单元40，用于判断长度比率是否小于预设比率。

第一处理单元50，用于当长度比率小于预设比率时，对待处理文本进行过滤处理。

本申请实施例提供的文本过滤处理装置，由于包括：确定单元10，用于确定待处理文本中所有的常用汉字，其中，待处理文本为中文文本，第一获取单元20，用于分别获取待处理文本的长度和待处理文本中常用汉字的长度，计算单元30，用于计算长度比率，其中，长度比率为待处理文本中常用汉字的长度与待处理文本的长度的比值，判断单元40，用于判断长度比率是否小于预设比率，第一处理单元50，用于当长度比率小于预设比率时，对待处理文本进行过滤处理，避免了将只要含有不常用汉字的待处理文本全部过滤掉，提升了文本过滤后信息的完整性。

优选地，在本申请实施例提供的文本过滤处理装置中，该装置还包括：第二获取单元，用于获取正则表达式，其中，正则表达式为预先存储用于对待处理文本中乱码进行过滤的表达式；以及第二处理单元，用于根据正则表达式对文本进行过滤处理，得到待处理文本。

可选地，在本申请实施例提供的文本过滤处理装置中，确定单元10包括：判断模块，用于分别判断待处理文本中的每个汉字是否在第一预设数据库中存在，其中，第一预设数据库为预先存储有常用汉字的数据库；以及第一确定模块，用于当待处理文本中的汉字在第一预设数据库中存在时，将待处理文本中在第一预设数据库中存在的汉字作为待处理文本中的常用汉字。

可选地，在本申请实施例提供的文本过滤处理装置中，第一获取单元20包括：第一获取模块，用于获取第一起始位置数据和第二起始位置数据，其中，第一起始位置数据为待处理文本的起始位置的数据，第二起始位置数据为待处理文本中所有的常用汉字起始位置的数据；第二获取模块，用于获取第一数值和第二数值，其中，第一数值为根据第一起始位置数据计算出偏移量的数值，第二数值为根据第二起始位置数据计算出偏移量的数值；以及第二确定模块，用于将第一数值作为待处理文本的长度，第二数值作为待处理文本中常用汉字的长度。

可选地，在本申请实施例提供的文本过滤处理装置中，该装置还包括：存储单元，用于当长度比率大于或等于预设比率时，将待处理文本存储至第二预设数据库，其中，第二预设数据库用于存储过滤后的文本。

显然，本领域的技术人员应该明白，上述的本申请的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本申请不限制于任何特定的硬件和软件结合。

以上所述仅为本申请的优选实施例，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种文本过滤处理方法，其特征在于，包括：

确定待处理文本中所有的常用汉字，其中，所述待处理文本为中文文本；

分别获取所述待处理文本的长度和待处理文本中常用汉字的长度；

计算长度比率，其中，所述长度比率为所述待处理文本中常用汉字的长度与所述待处理文本的长度的比值；

判断所述长度比率是否小于预设比率；以及

当所述长度比率小于所述预设比率时，对所述待处理文本进行过滤处理。

2.根据权利要求1所述的方法，其特征在于，在确定待处理文本中所有的常用汉字之前，所述方法还包括：

获取正则表达式，其中，所述正则表达式为预先存储用于对所述待处理文本中乱码进行过滤的表达式；以及

根据所述正则表达式对文本进行过滤处理，得到所述待处理文本。

3.根据权利要求1或2所述的方法，其特征在于，确定待处理文本中所有的常用汉字包括：

分别判断所述待处理文本中的每个汉字是否在第一预设数据库中存在，其中，所述第一预设数据库为预先存储有常用汉字的数据库；

当所述待处理文本中的汉字在所述第一预设数据库中存在时，将所述待处理文本中在所述第一预设数据库中存在的汉字作为所述待处理文本中的常用汉字。

4.根据权利要求1或2所述的方法，其特征在于，分别获取所述待处理文本的长度和待处理文本中常用汉字的长度包括：

获取第一起始位置数据和第二起始位置数据，其中，所述第一起始位置数据为所述待处理文本的起始位置的数据，所述第二起始位置数据为所述待处理文本中所有的常用汉字起始位置的数据；

获取第一数值和第二数值，其中，所述第一数值为根据所述第一起始位置数据计算出偏移量的数值，所述第二数值为根据所述第二起始位置数据计算出偏移量的数值；以及

将所述第一数值作为所述待处理文本的长度，所述第二数值作为所述待处理文本中常用汉字的长度。

5.根据权利要求1所述的方法，其特征在于，所述方法还包括：

当所述长度比率大于或等于所述预设比率时，将所述待处理文本存储至第二预设数据库，其中，所述第二预设数据库用于存储过滤后的文本。

6.一种文本过滤处理装置，其特征在于，包括：

确定单元，用于确定待处理文本中所有的常用汉字，其中，所述待处理文本为中文文本；

第一获取单元，用于分别获取所述待处理文本的长度和待处理文本中常用汉字的长度；

计算单元，用于计算长度比率，其中，所述长度比率为所述待处理文本中常用汉字的长度与待处理文本的长度的比值；

判断单元，用于判断所述长度比率是否小于预设比率；以及

第一处理单元，用于当所述长度比率小于所述预设比率时，对所述待处理文本进行过滤处理。

7.根据权利要求6所述的装置，其特征在于，所述装置还包括：

第二获取单元，用于获取正则表达式，其中，所述正则表达式为预先存储用于对所述待处理文本中乱码进行过滤的表达式；以及

第二处理单元，用于根据所述正则表达式对文本进行过滤处理，得到所述待处理文本。

8.根据权利要求6或7所述的装置，其特征在于，所述确定单元包括：

判断模块，用于分别判断所述待处理文本中的每个汉字是否在第一预设数据库中存在，其中，所述第一预设数据库为预先存储有常用汉字的数据库；以及

第一确定模块，用于当所述待处理文本中的汉字在所述第一预设数据库中存在时，将所述待处理文本中在所述第一预设数据库中存在的汉字作为所述待处理文本中的常用汉字。

9.根据权利要求6或7所述的装置，其特征在于，所述第一获取单元包括：

第一获取模块，用于获取第一起始位置数据和第二起始位置数据，其中，所述第一起始位置数据为所述待处理文本的起始位置的数据，所述第二起始位置数据为所述待处理文本中所有的常用汉字起始位置的数据；

第二获取模块，用于获取第一数值和第二数值，其中，所述第一数值为根据所述第一起始位置数据计算出偏移量的数值，所述第二数值为根据所述第二起始位置数据计算出偏移量的数值；以及

第二确定模块，用于将所述第一数值作为所述待处理文本的长度，所述第二数值作为所述待处理文本中常用汉字的长度。

10.根据权利要求6所述的装置，其特征在于，所述装置还包括：

存储单元，用于当所述长度比率大于或等于所述预设比率时，将所述待处理文本存储至第二预设数据库，其中，所述第二预设数据库用于存储过滤后的文本。