CN106528504A

CN106528504A - 社交应用的数据筛选方法和装置

Info

Publication number: CN106528504A
Application number: CN201510580188.6A
Authority: CN
Inventors: 李新国
Original assignee: Beijing Gridsum Technology Co Ltd
Current assignee: Beijing Gridsum Technology Co Ltd
Priority date: 2015-09-11
Filing date: 2015-09-11
Publication date: 2017-03-22

Abstract

本发明公开了一种社交应用的数据筛选方法和装置。其中，该方法包括：获取用于筛选数据的标准文本比；获取待筛选数据并计算待筛选数据的有效文本比，其中，有效文本比为待筛选数据中有效文本长度与待筛选数据的总长度的比值；判断待筛选数据的有效文本比是否小于标准文本比；如果待筛选数据的有效文本比小于标准文本比，则丢弃待筛选数据；以及如果待筛选数据的有效文本比大于等于标准文本比，则保留待筛选数据。本发明解决了筛选社交应用的数据时不准确的技术问题。

Description

社交应用的数据筛选方法和装置

技术领域

本发明涉及数据筛选领域，具体而言，涉及一种社交应用的数据筛选方法和装置。

背景技术

在对社交应用的数据(例如微博数据)进行语义分析时，会发现很多不具备语义分析价值的微博，这些微博可能只有几个表情，或者只有简短的几个字，或者只是转发一个链接等等，对于这类微博数据，进行语义分析时一般无法获取到有价值的信息，白白耗费服务器的运算和存储，所以需要在进行语义分析之前将此类信息过滤掉。现有方案一般是根据经验值设定文本最小长度来判断，当微博文本长度小于一定值时则认为该微博不具备语义分析的价值。

上述方案的缺点在于，难以确定一个长度基准值，若基准值设置过大，会造成部分有意义短文本被错误的过滤掉，若基准值过小又难以过滤掉很多无意义微博。即现有技术存在筛选社交应用的数据时不准确的问题。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种社交应用的数据筛选方法和装置，以至少解决筛选社交应用的数据时不准确的技术问题。

根据本发明实施例的一个方面，提供了一种社交应用的数据筛选方法，包括：获取用于筛选数据的标准文本比；获取待筛选数据并计算所述待筛选数据的有效文本比，其中，所述有效文本比为待筛选数据中有效文本长度与所述待筛选数据的总长度的比值；判断所述待筛选数据的有效文本比是否小于所述标准文本比；如果所述待筛选数据的有效文本比小于所述标准文本比，则丢弃所述待筛选数据；以及如果所述待筛选数据的有效文本比大于等于所述标准文本比，则保留所述待筛选数据。

进一步地，计算所述待筛选数据的有效文本比包括：识别所述待筛选数据中的无效数据元素；检测所述待筛选数据的总长度和所述无效数据元素的长度；根据所述待筛选数据的总长度和所述无效数据元素的长度计算所述待筛选数据的有效文本长度；将计算得到的有效文本长度和所述总长度的比值作为所述有效文本比。

进一步地，在判断出所述待筛选数据的有效文本比大于所述标准文本比之后，并且保留所述待筛选数据之前，所述方法还包括：判断所述有效文本长度是否大于等于标准文本长度，其中，所述标准文本长度用于筛选数据；如果判断出所述有效文本长度大于等于所述标准文本长度，则确定保留所述待筛选数据。

进一步地，在判断所述待筛选数据的有效文本比是否小于所述标准文本比之前，所述方法还包括：获取用于筛选数据的标准文本长度；判断所述待筛选数据的总长度是否大于所述标准文本长度；如果所述待筛选数据的总长度大于所述标准文本长度，则继续判断所述待筛选数据的有效文本比是否小于所述标准文本比；如果所述待筛选数据的总长度小于所述标准文本长度，则丢弃所述待筛选数据。

进一步地，获取用于筛选数据的标准文本比包括：获取所述社交应用的样本数据；计算所述样本数据的有效文本比，得到多个有效文本比；统计所述多个有效文本比确定所述标准文本比。

根据本发明实施例的另一方面，还提供了一种社交应用的数据筛选装置，包括：比值获取单元，用于获取用于筛选数据的标准文本比；计算单元，用于获取待筛选数据并计算所述待筛选数据的有效文本比，其中，所述有效文本比为待筛选数据中有效文本长度与所述待筛选数据的总长度的比值；比值判断单元，用于判断所述待筛选数据的有效文本比是否小于所述标准文本比；比值丢弃单元，用于在所述待筛选数据的有效文本比小于所述标准文本比时，丢弃所述待筛选数据；以及保留单元，用于在所述待筛选数据的有效文本比大于等于所述标准文本比时，保留所述待筛选数据。

进一步地，所述计算单元包括：识别模块，用于识别所述待筛选数据中的无效数据元素；检测模块，用于检测所述待筛选数据的总长度和所述无效数据元素的长度；长度计算模块，用于根据所述待筛选数据的总长度和所述无效数据元素的长度计算所述待筛选数据的有效文本长度；确定模块，用于将计算得到的有效文本长度和所述总长度的比值作为所述有效文本比。

进一步地，所述装置还包括：第一长度判断单元，用于在所述比值判断单元判断出所述待筛选数据的有效文本比大于所述标准文本比之后，并且保留所述待筛选数据之前，判断所述有效文本长度是否大于等于标准文本长度，其中，所述标准文本长度用于筛选数据；长度确定单元，用于在所述第一长度判断单元判断出所述有效文本长度大于等于所述标准文本长度时，确定保留所述待筛选数据。

进一步地，所述装置还包括：长度获取单元，用于在所述比值判断单元判断所述待筛选数据的有效文本比是否小于所述标准文本比之前，获取用于筛选数据的标准文本长度；第二长度判断单元，用于判断所述待筛选数据的总长度是否大于所述标准文本长度；比值确定单元，用于在所述第二长度判断单元所述待筛选数据的总长度大于所述标准文本长度时，由所述比值判断单元判断所述待筛选数据的有效文本比是否小于所述标准文本比；长度丢弃单元，用于在所述第二长度判断单元判断出所述待筛选数据的总长度小于所述标准文本长度时，丢弃所述待筛选数据。

进一步地，所述比值获取单元包括：获取模块，用于获取所述社交应用的样本数据；比值计算模块，用于计算所述样本数据的有效文本比，得到多个有效文本比；统计模块，用于统计所述多个有效文本比确定所述标准文本比。

在本发明实施例中，采用获取用于筛选数据的标准文本比；获取待筛选数据并计算待筛选数据的有效文本比，其中，有效文本比为待筛选数据中有效文本长度与待筛选数据的总长度的比值；判断待筛选数据的有效文本比是否小于标准文本比；如果待筛选数据的有效文本比小于标准文本比，则丢弃待筛选数据；以及如果待筛选数据的有效文本比大于等于标准文本比，则保留待筛选数据，由于有效文本比体现了待筛选数据中的有效文本的长度占整个待筛选数据的长度的比值，从而排除了在利用待筛选数据的长度来判断哪些数据保留哪些数丢弃时无效文本对判断结果的影响，利用有效文本比来筛选数据能够突出有语义分析意义的文本对判断结果的影响，从而实现了提高筛选的准确性的技术效果，进而解决了筛选社交应用的数据时不准确的技术问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的社交应用的数据的筛选方法的流程图；

图2是根据本发明实施例的一种可选的社交应用的数据的筛选方法的流程图；以及

图3是根据本发明实施例的社交应用的数据的筛选装置的示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

根据本发明实施例，提供了一种社交应用的数据的筛选方法的方法实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

图1是根据本发明实施例的社交应用的数据的筛选方法的流程图，如图1所示，该方法包括如下步骤：

步骤S102，获取用于筛选数据的标准文本比。

步骤S104，获取待筛选数据并计算待筛选数据的有效文本比，其中，有效文本比为待筛选数据中有效文本长度与待筛选数据的总长度的比值。社交应用数据可以是微博、空间状态和评论等。在这些社交应用数据中可能包括表情符号、转发的地址、简单的文字和@好友等内容，有效文本长度就是社交应用数据中除表情符号、转发的地址等以外的文字的长度。待筛选数据的总长度就是包括这些表情符号、文字和地址等的整条数据的长度。

步骤S106，判断待筛选数据的有效文本比是否小于标准文本比。

步骤S108，如果待筛选数据的有效文本比小于标准文本比，则丢弃待筛选数据。丢弃的待筛选数据是不具有语义分析意义的数据。

步骤S110，如果待筛选数据的有效文本比大于等于标准文本比，则保留待筛选数据。保留的待筛选数据是具有语义分析意义的数据。

通常待筛选数据中包含了有效文本和无效文本，由于有效文本比体现了待筛选数据中的有效文本的长度占整个待筛选数据的长度的比值，从而排除了在利用待筛选数据的长度来判断哪些数据保留哪些数据丢弃时无效文本的长度对判断结果的影响，使得利用有效文本比来筛选数据能够突出有效文本对判断结果的影响,解决了现有技术中筛选社交应用的数据时不准确的技术问题，达到了提高筛选的准确性的技术效果。

利用有效文本比来筛选数据得到的判断结果可以是保留待筛选数据或者丢弃待筛选数据，保留的待筛选数据是具有语义分析意义的数据，丢弃的待筛选数据是不具有语义分析意义的数据。从大量的待筛选数据中筛选出保留的数据，并利用保留的数据进行语义分析，能够得到比较准确的分析结果，即提高筛选的数据的准确性的同时，能够提高语义分析的准确性。

可选地，计算待筛选数据的有效文本比包括：识别待筛选数据中的无效数据元素。检测待筛选数据的总长度和无效数据元素的长度。根据待筛选数据的总长度和无效数据元素的长度计算待筛选数据的有效文本长度。将计算得到的有效文本长度和总长度的比值作为有效文本比。

例如，待筛选数据为微博数据，该微博数据的无效数据元素包括：话题标签(##)、提及人(@标签)、URL和表情等。待筛选数据的总长度为56个字节，无效数据元素的长度为30个字节，那么，有效文本长度为26个字节，计算得到的有效文本比为26/56＝46.42％。假设标准文本比为50％，则该微博数据是没有语义分析意义的，舍弃。如果按照现有技术的按照微博数据的长度来判断其为有语义分析意义或者没有语义分析意义时，总长度超过50个字符就是有分析意义的语句，该微博被判断为具有语义分析意义。但是，其中有效文本仅有26个字节，可能并不具有分析意义。因此，通过本实施例的方法相比现有技术更能体现有效文本的分析意义，避免了无效文本所导致的错误判断，解决了现有技术中筛选社交应用的数据时不准确的技术问题，达到了提高筛选的准确性的技术效果。

可选地，在判断出待筛选数据的有效文本比大于标准文本比之后，并且保留待筛选数据之前，方法还包括：判断有效文本长度是否大于等于标准文本长度，其中，标准文本长度用于筛选数据。如果判断出有效文本长度大于等于标准文本长度，则确定保留待筛选数据。

为了进一步提高筛选的准确性，避免文字过少但是有效文本比大于标准文本比所导致的误筛选，在判断出有效文本比大于标准文本比之后，判断有效文本长度是否大于标准文本长度，当有效文本长度大于等于标准文本长度时，确定该待筛选数据为有语义分析意义的文本，将其保留。

例如，某评论为“表情符号+好”，计算的有效文本比为50％，等于标准文本比，因此，待筛选数据被判断为有语义分析意义的数据，并且被保留。其中具有语义分析意义的文字仅有“好”，为了避免这种情况的发生，进一步判断有效文本的长度是否大于等于标准文本长度，假设标准文本长度为5，则该评论的有效文本长度1小于5，确定其为没有语义分析意义的数据，被舍弃。

可选地，为了提高筛选的效率，先筛选去掉明显不具有分析意义的数据，比如数据的总长度小于标准文本长度的待筛选数据，即在判断待筛选数据的有效文本比是否小于标准文本比之前，方法还包括：获取用于筛选数据的标准文本长度。判断待筛选数据的总长度是否大于标准文本长度。如果待筛选数据的总长度大于标准文本长度，则继续判断待筛选数据的有效文本比是否小于标准文本比。如果待筛选数据的总长度小于标准文本长度，则丢弃待筛选数据。

在判断待筛选数据的有效文本比是否小于标准文本比之前，或者在计算待选数据的有效文本比之前，已经得知标准文本长度，则可以利用标准文本长度先对数据进行筛选，以提高筛选效率。待筛选的数据的长度为4，标准文本长度为5，明显不具有语义分析意义，因此，在进行有效文本比的筛选之前，先去掉该待筛选数据，从而提高了筛选的效率，能够快速筛选去掉没有语义分析意义的数据。

可选地，获取用于筛选数据的标准文本比包括：获取社交应用的样本数据。计算样本数据的有效文本比，得到多个有效文本比。统计多个有效文本比确定标准文本比。

在获取标准文本比之前，先确定标准文本比，标准文本比可以根据大量的社交应用的样本数据统计得到。具体地，收集没有语义分析意义的社交应用的数据作为样本数据，计算每个样本数据的有效文本比，从大量的样本数据的有效文本比中训练出标准文本比。由于该标准文本比是从大量的没有语义分析意义的社交应用的数据中统计得到的，因此，能够体现没有语义分析意义的数据的文本比的特点，那么，根据标准文本比判断出来的待筛选数据是准确的数据，从而解决了现有技术中筛选社交应用的数据时不准确的技术问题。

以下结合图2对本实施例的筛选方法进行说明。

步骤S201，获取一条微博数据D，其长度为L(D)。即该微博数据的总长度为L(D)，包括有效文本数据和无效文本数据。

步骤S202，判断L(D)>＝L，即判断微博数据的长度是否大于标准文本长度，如果大于标准文本长度，则执行步骤S203，否则，确定该微博不具有语义分析价值。

步骤S203，识别出D中的无效文本D1，其总长度为L(D1)，即计算微博中的无效数据元素的长度。

步骤S204，计算微博有效文本比X＝(L(D)-L(D1))/L(D)。即计算微博中的有效文本的长度与整条微博的长度的比值。

步骤S205，判断X>＝F，且L(D)-L(D1)>＝L,即判断微博的有效文本比大于等于标准文本比，有效文本长度大于标准文本长度。当满足上述条件时，执行步骤S206，确定该微博具有语义分析价值，否则，执行步骤S207，确定该微博不具有语义分析价值。

步骤S206，确定该微博具有语义分析价值。

步骤S207，确定该微博不具有语义分析价值。

通过上述实施例，利用有效文本比充分体现了待筛选数据中的有效文本的长度占整个待筛选数据的长度的比值的特点，排除了在利用待筛选数据的长度来判断哪些数据保留哪些数丢弃时，无效文本对判断的影响，从而利用有效文本比来筛选数据能够突出有效文本对判断的影响，避免无效文本对判断的影响，根据有效文本来判断该待筛选数据是否有语义分析意义，解决筛选社交应用的数据时不准确的技术问题，达到了提高筛选的准确性的技术效果。

根据本发明实施例，提供了一种社交应用的数据的筛选装置的装置实施例。该社交应用的数据的筛选装置可以用于执行上述社交应用的数据的筛选方法，上述社交应用的数据的筛选方法也可以通过该社交应用的数据的筛选装置执行。

图3是根据本发明实施例的社交应用的数据的筛选装置的示意图。如图3所示，该社交应用的数据的筛选装置包括：比值获取单元10、计算单元20、比值判断单元30、比值丢弃单元40和保留单元50。其中：

比值获取单元10用于获取用于筛选数据的标准文本比。

计算单元20用于获取待筛选数据并计算待筛选数据的有效文本比，其中，有效文本比为待筛选数据中有效文本长度与待筛选数据的总长度的比值。社交应用数据可以是微博、空间状态和评论等。在这些社交应用数据中可能包括表情符号、转发的地址、简单的文字和@好友等内容，有效文本长度就是社交应用数据中除表情符号、转发的地址等以外的文字的长度。待筛选数据的总长度就是包括这些表情符号、文字和地址等的整条数据的长度。

比值判断单元30用于判断待筛选数据的有效文本比是否小于标准文本比。

比值丢弃单元40用于在比值判断单元判断出待筛选数据的有效文本比小于标准文本比时，丢弃待筛选数据。丢弃的待筛选数据是不具有语义分析意义的数据。

保留单元50用于在比值判断单元判断出待筛选数据的有效文本比大于等于标准文本比时，保留待筛选数据。保留的待筛选数据是具有语义分析意义的数据。

可选地，计算单元包括：识别模块，用于识别待筛选数据中的无效数据元素；检测模块，用于检测待筛选数据的总长度和无效数据元素的长度；长度计算模块，用于根据待筛选数据的总长度和无效数据元素的长度计算待筛选数据的有效文本长度；确定模块，用于将计算得到的有效文本长度和总长度的比值作为有效文本比。

可选地，装置还包括：第一长度判断单元，用于在比值判断单元判断出待筛选数据的有效文本比大于标准文本比之后，并且保留待筛选数据之前，判断有效文本长度是否大于等于标准文本长度，其中，标准文本长度用于筛选数据；长度确定单元，用于在第一长度判断单元判断出有效文本长度大于等于标准文本长度时，确定保留待筛选数据。

可选地，为了提高筛选的效率，先筛选去掉明显不具有分析意义的数据，比如数据的总长度小于标准文本长度的待筛选数据，即装置还包括：长度获取单元，用于在比值判断单元判断待筛选数据的有效文本比是否小于标准文本比之前，获取用于筛选数据的标准文本长度；第二长度判断单元，用于判断待筛选数据的总长度是否大于标准文本长度；比值确定单元，用于在第二长度判断单元判断出待筛选数据的总长度大于标准文本长度时，由比值判断单元判断待筛选数据的有效文本比是否小于标准文本比；长度丢弃单元，用于在第二长度判断单元判断出待筛选数据的总长度小于标准文本长度时，丢弃待筛选数据。

在判断待筛选数据的有效文本比是否小于标准文本比之前，或者在计算待选数据的有效文本比之前，已经得知标准文本长度，则可以利用标准文本长度先对数据进行筛选，以提高筛选效率。例如，待筛选的数据的长度为4，标准文本长度为5，明显不具有语义分析意义，因此，在进行有效文本比的筛选之前，先去掉该待筛选数据，从而提高了筛选的效率，能够快速筛选去掉没有语义分析意义的数据。

可选地，比值获取单元包括：获取模块，用于获取社交应用的样本数据；比值计算模块，用于计算样本数据的有效文本比，得到多个有效文本比；统计模块，用于统计多个有效文本比确定标准文本比。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，可以为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种社交应用的数据筛选方法，其特征在于，包括：

获取用于筛选数据的标准文本比；

获取待筛选数据并计算所述待筛选数据的有效文本比，其中，所述有效文本比为待筛选数据中有效文本长度与所述待筛选数据的总长度的比值；

判断所述待筛选数据的有效文本比是否小于所述标准文本比；

如果所述待筛选数据的有效文本比小于所述标准文本比，则丢弃所述待筛选数据；以及

如果所述待筛选数据的有效文本比大于等于所述标准文本比，则保留所述待筛选数据。

2.根据权利要求1所述的方法，其特征在于，计算所述待筛选数据的有效文本比包括：

识别所述待筛选数据中的无效数据元素；

检测所述待筛选数据的总长度和所述无效数据元素的长度；

根据所述待筛选数据的总长度和所述无效数据元素的长度计算所述待筛选数据的有效文本长度；

将计算得到的有效文本长度和所述总长度的比值作为所述有效文本比。

3.根据权利要求2所述的方法，其特征在于，在判断出所述待筛选数据的有效文本比大于所述标准文本比之后，并且保留所述待筛选数据之前，所述方法还包括：

判断所述有效文本长度是否大于等于标准文本长度，其中，所述标准文本长度用于筛选数据；

如果判断出所述有效文本长度大于等于所述标准文本长度，则确定保留所述待筛选数据。

4.根据权利要求1所述的方法，其特征在于，在判断所述待筛选数据的有效文本比是否小于所述标准文本比之前，所述方法还包括：

获取用于筛选数据的标准文本长度；

判断所述待筛选数据的总长度是否大于所述标准文本长度；

如果所述待筛选数据的总长度大于所述标准文本长度，则继续判断所述待筛选数据的有效文本比是否小于所述标准文本比；

如果所述待筛选数据的总长度小于所述标准文本长度，则丢弃所述待筛选数据。

5.一种社交应用的数据筛选装置，其特征在于，包括：

比值获取单元，用于获取用于筛选数据的标准文本比；

计算单元，用于获取待筛选数据并计算所述待筛选数据的有效文本比，其中，所述有效文本比为待筛选数据中有效文本长度与所述待筛选数据的总长度的比值；

比值判断单元，用于判断所述待筛选数据的有效文本比是否小于所述标准文本比；

比值丢弃单元，用于在所述比值判断单元判断出所述待筛选数据的有效文本比小于所述标准文本比时，丢弃所述待筛选数据；以及

保留单元，用于在所述比值判断单元判断出所述待筛选数据的有效文本比大于等于所述标准文本比时，保留所述待筛选数据。

6.根据权利要求5所述的装置，其特征在于，所述计算单元包括：

识别模块，用于识别所述待筛选数据中的无效数据元素；

检测模块，用于检测所述待筛选数据的总长度和所述无效数据元素的长度；

长度计算模块，用于根据所述待筛选数据的总长度和所述无效数据元素的长度计算所述待筛选数据的有效文本长度；

确定模块，用于将计算得到的有效文本长度和所述总长度的比值作为所述有效文本比。

7.根据权利要求6所述的装置，其特征在于，所述装置还包括：

第一长度判断单元，用于在所述比值判断单元判断出所述待筛选数据的有效文本比大于所述标准文本比之后，并且在所述保留单元保留所述待筛选数据之前，判断所述有效文本长度是否大于等于标准文本长度，其中，所述标准文本长度用于筛选数据；

长度确定单元，用于在所述第一长度判断单元判断出所述有效文本长度大于等于所述标准文本长度时，确定保留所述待筛选数据。

8.根据权利要求5所述的装置，其特征在于，所述装置还包括：

长度获取单元，用于在所述比值判断单元判断所述待筛选数据的有效文本比是否小于所述标准文本比之前，获取用于筛选数据的标准文本长度；

第二长度判断单元，用于判断所述待筛选数据的总长度是否大于所述标准文本长度；

比值确定单元，用于在所述第二长度判断单元判断出所述待筛选数据的总长度大于所述标准文本长度时，由所述比值判断单元判断所述待筛选数据的有效文本比是否小于所述标准文本比；

长度丢弃单元，用于在所述第二长度判断单元判断出所述待筛选数据的总长度小于所述标准文本长度时，丢弃所述待筛选数据。