CN104899201A

CN104899201A - 文本提取方法、敏感词判定方法、装置和服务器

Info

Publication number: CN104899201A
Application number: CN201410077249.2A
Authority: CN
Inventors: 李炳
Original assignee: Tencent Technology Beijing Co Ltd
Current assignee: Tencent Technology Beijing Co Ltd
Priority date: 2014-03-04
Filing date: 2014-03-04
Publication date: 2015-09-09
Anticipated expiration: 2034-03-04
Also published as: CN104899201B

Abstract

本发明公开了一种文本提取方法、敏感词判定方法、装置和服务器，属于互联网技术领域。所述文本提取方法包括：对于文本集合中的每一条文本信息，提取文本信息中的关键词；对于提取到的每一个关键词，通过至少两个预定哈希函数中的每一个哈希函数分别计算关键词在预定阵列中所对应的位置；检测关键词在预定阵列中所对应的位置处存储的内容是否都是预定标识；若检测结果为都是预定标识，则判定关键词为敏感词；提取文本集合中不包含敏感词的文本信息；达到了当通过多个哈希函数计算得到的关键词在预定阵列中所对应的位置处存储的内容都是预定标识时，即可判定关键词是敏感词，提高了文本信息的提取效率的效果。

Description

文本提取方法、敏感词判定方法、装置和服务器

技术领域

本发明实施例涉及互联网技术领域，特别涉及一种文本提取方法、敏感词判定方法、装置和服务器。

背景技术

随着互联网技术的发展，用户可以发布文本信息，并且为了向其它用户展示用户发布的各条文本信息中价值较高的文本信息，服务器通常需要提取多条文本信息中的一部分文本信息，进而向其它用户展示提取到的文本信息。

目前，常见的一种文本提取方法包括：服务器获取目标用户最近一次发布的文本信息；提取文本信息中的关键词；对于提取得到的每个关键词，通过预定哈希函数计算关键词的哈希值；检测计算得到的哈希值在哈希表中所对应的存储空间中存储的内容是否是该关键词；若检测结果为存储的内容是该关键词，则确定该关键词是敏感词；若检测结果为存储的内容为空，则确定该关键词不是敏感词；当服务器检测到文本信息中有一个关键词是敏感词时，服务器抛弃本条文本信息，并继续对历史发布的其它文本信息进行检测，直至提取到目标文本信息，目标文本信息中的各个关键词都不是敏感词。其中，哈希表是指通过上述哈希函数对敏感词库中的各个敏感词进行哈希计算之后，将敏感词存储在计算得到的哈希值所对应的位置后建立的表格。

在实现本发明实施例的过程中，发明人发现背景技术至少存在如下问题：

由于在哈希计算时会存在哈希冲突，所以当服务器对某一关键词进行检测时，服务器可能会检测到计算得到某一关键词的哈希值所对应的存储空间不为空且存储的内容也不是关键词的情况，此时服务器就需要处理哈希冲突之后才能最终判断该关键词是否是敏感词，所以服务器提取文本信息的提取效率较低。

发明内容

为了解决背景技术中服务器提取文本信息时的提取效率较低的问题，本发明实施例提供了一种文本提取方法、敏感词判定方法、装置和服务器。所述技术方案如下：

第一方面，提供了一种文本提取方法，所述方法包括：

对于文本集合中的每一条文本信息，提取文本信息中的关键词；

对于提取到的每一个关键词，通过至少两个预定哈希函数中的每一个哈希函数分别计算所述关键词在预定阵列中所对应的位置，所述预定阵列为目标位置处存储有预定标识的阵列，所述目标位置为通过所述至少两个预定哈希函数中的每一个哈希函数对敏感词库中的每个敏感词进行哈希计算后，计算得到的哈希值在所述预定阵列中所对应的位置；

检测所述关键词在所述预定阵列中所对应的位置处存储的内容是否都是所述预定标识；

若检测结果为都是所述预定标识，则判定所述关键词为敏感词；

提取所述文本集合中不包含敏感词的文本信息。

第二方面，提供了一种敏感词判定方法，所述方法包括：

对于关键词库中的每一个关键词，通过至少两个预定哈希函数中的每一个哈希函数分别计算所述关键词在预定阵列中所对应的位置，所述预定阵列为目标位置处存储有预定标识的阵列，所述目标位置为通过所述至少两个预定哈希函数中的每一个哈希函数对敏感词库中的每个敏感词进行哈希计算后，计算得到的哈希值在所述预定阵列中所对应的位置；

若检测结果为都是所述预定标识，则判定所述关键词为敏感词。

第三方面，提供了一种文本提取装置，所述装置包括：

关键词提取模块，用于对于文本集合中的每一条文本信息，提取文本信息中的关键词；

位置计算模块，用于对于所述关键词提取模块提取到的每一个关键词，通过至少两个预定哈希函数中的每一个哈希函数分别计算所述关键词在预定阵列中所对应的位置，所述预定阵列为目标位置处存储有预定标识的阵列，所述目标位置为通过所述至少两个预定哈希函数中的每一个哈希函数对敏感词库中的每个敏感词进行哈希计算后，计算得到的哈希值在所述预定阵列中所对应的位置；

内容检测模块，用于检测所述关键词在所述预定阵列中所对应的位置处存储的内容是否都是所述预定标识；

敏感词判定模块，用于在所述内容检测模块的检测结果为都是所述预定标识时，判定所述关键词为敏感词；

文本提取模块，用于提取所述文本集合中不包含敏感词的文本信息。

第四方面，提供了一种敏感词判定装置，所述装置包括：

位置计算模块，用于对于关键词库中的每一个关键词，通过至少两个预定哈希函数中的每一个哈希函数分别计算所述关键词在预定阵列中所对应的位置，所述预定阵列为目标位置处存储有预定标识的阵列，所述目标位置为通过所述至少两个预定哈希函数中的每一个哈希函数对敏感词库中的每个敏感词进行哈希计算后，计算得到的哈希值在所述预定阵列中所对应的位置；

敏感词判定模块，用于在所述内容检测模块的检测结果为都是所述预定标识时，判定所述关键词为敏感词。

第五方面，提供了一种服务器，所述服务器包括第三方面所述的文本提取装置。

第六方面，提供了一种服务器，所述服务器包括第四方面所述的敏感词判定装置。

本发明实施例提供的技术方案的有益效果是：

通过提取文本集合中的每个文本信息中的关键词，对于每一个关键词，通过至少两个哈希函数中的每一个哈希函数分别计算每一个关键词在预定阵列中所对应的位置，进而检测关键词在预定阵列中所对应的位置处存储的内容是否都是预定标识，当检测结果为都是预定标识时，判定关键词为敏感词，进而提取文本集合中不包含敏感词的文本信息；其中，预定阵列为目标位置处存储有预定标识的阵列，目标位置为通过至少两个预定哈希函数中的每一个哈希函数对敏感词库中的每个敏感词进行哈希计算后，计算得到的哈希值在预定阵列中所对应的位置；解决了背景技术中服务器提取文本信息的提取效率较低的问题；达到了当通过多个哈希函数计算得到的关键词在预定阵列中所对应的位置处存储的内容都是预定标识时，即可判定关键词是敏感词，提高了文本信息的提取效率的效果。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一个实施例提供的文本提取方法的方法流程图；

图2是本发明另一个实施例提供的文本提取方法的方法流程图；

图3是本发明再一个实施例提供的文本提取方法的方法流程图；

图4是本发明一个实施例提供的敏感词判定方法的方法流程图；

图5是本发明一个实施例提供的文本提取装置的结构方框图；

图6是本发明另一实施例提供的文本提取装置的结构方框图；

图7是本发明一个实施例提供的敏感词判定装置的结构方框图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，显然，所描述的实施例仅仅是本发明一部份实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

为了避免在哈希计算时关键词与某一敏感词的哈希值相同时，服务器需要先处理哈希冲突然后才能判定该关键词是否是敏感词，敏感词的判定效率较低，也即文本信息的提取效率低的问题，发明人提出同时使用至少两个哈希函数中的每一个哈希函数对关键词进行判定，进而提高文本信息的提取效率的解决方案。具体的，服务器先通过至少两个哈希函数中的每一个哈希函数对敏感词库中的每个敏感词进行计算，并在计算得到的哈希值所对应的位置处直接存储预定标识。当需要对某一关键词进行判定时，服务器使用相同的哈希函数对关键词进行计算，并在检测到计算得到的哈希值所对应的位置都存储有预定标识时，直接将该关键词判定为敏感词；而只要检测到有一处位置存储的内容不是预定标识，服务器即可判定该关键词所对应的其它位置会存储有预定标识很可能是因为哈希冲突引起的，所以服务器可以直接将该关键词判定为敏感词；所以在发明人提供的方案中，服务器可以很容易的判定一个关键词是否是敏感词，而不需要在处理哈希冲突之后才能得到最终判定结果，达到了提高敏感词的判定效率，也即提高了文本信息的提取效率的效果。下面，将结合具体的实施例对发明人提供的这种方案进行详细介绍和说明。

请参考图1，其示出了本发明一个实施例提供的文本提取方法的方法流程图，该文本提取方法可以包括：

步骤101，对于文本集合中的每一条文本信息，提取文本信息中的关键词；

步骤102，对于提取到的每一个关键词，通过至少两个预定哈希函数中的每一个哈希函数分别计算关键词在预定阵列中所对应的位置；

其中，预定阵列为目标位置处存储有预定标识的阵列，目标位置为通过至少两个预定哈希函数中的每一个哈希函数对敏感词库中的每个敏感词进行哈希计算后，计算得到的哈希值在预定阵列中所对应的位置。

步骤103，检测关键词在预定阵列中所对应的位置处存储的内容是否都是预定标识；

步骤104，若检测结果为都是预定标识，则判定关键词为敏感词；

步骤105，提取文本集合中不包含敏感词的文本信息。

综上所述，本实施例提供的文本提取方法，通过提取文本集合中的每个文本信息中的关键词，对于每一个关键词，通过至少两个哈希函数中的每一个哈希函数分别计算每一个关键词在预定阵列中所对应的位置，进而检测关键词在预定阵列中所对应的位置处存储的内容是否都是预定标识，当检测结果为都是预定标识时，判定关键词为敏感词，进而提取文本集合中不包含敏感词的文本信息；其中，预定阵列为目标位置处存储有预定标识的阵列，目标位置为通过至少两个预定哈希函数中的每一个哈希函数对敏感词库中的每个敏感词进行哈希计算后，计算得到的哈希值在预定阵列中所对应的位置；解决了背景技术中服务器提取文本信息的提取效率较低的问题；达到了当通过多个哈希函数计算得到的关键词在预定阵列中所对应的位置处存储的内容都是预定标识时，即可判定关键词是敏感词，提高了文本信息的提取效率的效果。

请参考图2，其示出了本发明另一实施例提供的文本提取方法的方法流程图，该文本提取方法可以包括：

步骤201，根据至少两个预定哈希函数以及敏感词库中的各个敏感词构建预定阵列；

为了后续步骤的执行，服务器可以根据至少两个预定哈希函数以及敏感词库中的各个敏感词构建预定阵列。

具体的，服务器构建预定阵列的步骤可以包括：

第一，选择一个预定长度的空阵列；

为了后续步骤的执行，服务器可以先选择一个预定长度的空阵列。

第二，对于敏感库中的每一个敏感词，通过至少两个预定哈希函数中的每一个哈希函数对敏感词进行哈希计算，并在计算得到的哈希值所对应的位置存储预定标识，将存入预定标识之后的阵列作为预定阵列。

比如，预定哈希函数有2个，预定标识为1，阵列长度为10，敏感词库中的敏感词有3个，则服务器通过2个哈希函数对其中一个敏感词‘AA’进行哈希计算之后，服务器可以在计算得到的哈希值所对应的位置3以及位置8处存储预定标识1，具体请参考表2A；

0

1

0

1

0

表2A

当服务器通过上述两个预定哈希函数中的每一个哈希函数对3个敏感词中的每一个敏感词进行哈希计算之后，服务器可以得到表2B所示的预定阵列。

1

0

1

0

1

0

1

0

1

表2B

需要说明的是，为了减小预定阵列所占据的存储空间，进而减小占用的内存，在实际实现时预定标识可以是一个预定比特；当然，当无需考虑内存占用情况时，预定标识还可以是任意内容，本实施例对预定标识的具体表示形式并不做限定。

步骤202，对于文本集合中的每一条文本信息，提取文本信息中的关键词；

当服务器需要为某一用户账户提取文本信息时，服务器可以获取用户账户发布的文本信息，并将获取到的各条文本信息作为文本集合中的信息。对于文本集合中的每一条文本信息，服务器可以提取文本信息中的关键词。

其中，服务器获取用户账户发布的文本信息的获取方式可以包括：服务器获取用户账户在历史时间段内发布的文本信息；比如，获取在过去一个月内发布的文本信息；或者获取用户账户在历史时间段内发布的预定条数的文本信息，比如获取用户账户最近发布的10条文本信息，本实施例对其具体获取方式并不做限定。此处的文本信息可以是微博、签名、聊天记录和空间状态之类的字数不超过预定阈值的短文本信息。

服务器提取文本信息中的关键词的步骤可以包括：第一，对文本信息进行分词；第二，对分词得到的各个词语进行预处理，进而将处理后得到的词语作为关键词。其中，预处理包括去重、去停用词或者两者的组合。

步骤203，对于提取到的每一个关键词，通过至少两个预定哈希函数中的每一个哈希函数分别计算关键词在预定阵列中所对应的位置；

对于服务器提取得到的每一条文本信息中的每一个关键词，服务器可以通过至少两个哈希函数中的每一个哈希函数分别计算关键词在预定阵列中所对应的位置。

比如，预定哈希函数有2个，关键词为‘XX’，服务器通过两个哈希函数计算得到的‘XX’在预定阵列中所对应的位置为位置3和位置8。

步骤204，检测关键词在预定阵列中所对应的位置处存储的内容是否都是预定标识；

在服务器计算得到关键词在预定阵列中所对应的位置后，服务器可以检测关键词在预定阵列中所对应的位置处存储的内容是否都是预定标识。

比如，当服务器计算得到关键词‘XX’在预定阵列中所对应的位置为位置3和位置8之后，服务器可以检测预定阵列的位置3和位置8两处存储的内容是否均为1。

步骤205，若检测结果为都是预定标识，则判定关键词为敏感词；

由于使用每个哈希函数对关键词进行计算时都会得到一个哈希值，而不同的哈希函数在对不同的关键词进行哈希计算时，计算得到的多个哈希值都相同的概率极小甚至根本不可能，所以当服务器的检测结果为关键词在预定阵列中所对应的位置处存储的内容都是预定标识时，服务器可以判定该关键词就是敏感词库中的敏感词。

比如，根据表2B可以知道，服务器计算得到关键词‘XX’在预定阵列中所对应的位置3和位置8处都存储有预定标识，所以服务器可以判定关键词‘XX’是敏感词。

而由于同一词语在使用多个哈希函数进行多次哈希计算时，每次计算得到的哈希值都不会变化，所以当服务器的检测结果为至少一处存储的内容不是预定标识时，服务器可以判定其它几处存储的内容是预定标识的原因可能是因为哈希冲突引起的，而关键词本身并不是该位置所对应的敏感词，所以服务器可以判定关键词不是敏感词。

比如，服务器计算得到关键词‘XY’在预定阵列中所对应的位置为位置3和位置7，则根据表2B所示的预定阵列可以知道，在位置7处存储的内容并不是预定标识‘1’，所以此时服务器可以判定关键词‘XY’在预定阵列的位置3处存储的内容为1的原因很可能是：哈希函数对‘XY’计算得到的哈希值与对位置3处所对应的敏感词进行计算时计算得到的哈希值相同而引起的，该关键词并不是此位置对应的敏感词，所以服务器可以判定该关键词‘XY’不是敏感词。

需要说明的是，由于在哈希计算时会有哈希冲突，所以为了避免当关键词不是敏感词，但关键词的哈希值与敏感词的哈希值相同，进而导致服务器将关键词误判为敏感词的情况发生，在实际实现时，服务器可以选择个数更多的预定哈希函数以及使用长度较长的预定阵列，并且根据不同的使用需求，服务器可以选择不同个数的预定哈希函数以及不同长度的预定阵列，本实施例对此并不做限定。

步骤206，提取文本集合中不包含敏感词的文本信息；

在服务器对文本集合中的各条文本信息中的关键词进行检测之后，服务器可以提取文本集合中不包含敏感词的文本信息。

需要说明的是，由于当一条文本信息的各个关键词中存在一个关键词是敏感词时，整条文本信息就会被舍弃，所以当服务器检测到一条文本信息中的一个关键词是敏感词时，服务器可以抛弃该文本信息，并舍弃从该文本信息中提取的其它关键词，进而继续检测下一条文本信息中的关键词是否是敏感词，避免了对包含敏感词的文本信息中的其它关键词进行检测时耗用大量系统资源的问题，提高了对文本信息的提取效率。

在本实施例的一个应用场景中，应用客户端的资料面板上可以显示说说和微博，则服务器可以通过步骤201至步骤206的处理方式对应用客户端所对应的用户账户的说说和微博分别进行处理，并最终只在资料面板上显示提取得到的说说以及提取得到的微博，避免了在资料面板上显示最近发布的说说和微博时，由于最近发布的说说和微博信息价值不高而降低用户体验的问题。

请参考图3，其示出了本发明再一实施例提供的文本提取方法的方法流程图，与上述实施例不同的是，本实施例在提取到的文本信息有两条或者两条以上，为了提高提取得到的文本信息的质量，服务器还可以继续从提取到的文本信息中选择文本信息，该文本提取方法可以包括：

步骤301，根据至少两个预定哈希函数以及敏感词库中的各个敏感词构建预定阵列；

具体的，服务器构建预定阵列的步骤可以包括：

第一，选择一个预定长度的空阵列；

步骤302，对于文本集合中的每一条文本信息，提取文本信息中的关键词；

步骤303，对于提取到的每一个关键词，通过至少两个预定哈希函数中的每一个哈希函数分别计算关键词在预定阵列中所对应的位置；

步骤304，检测关键词在预定阵列中所对应的位置处存储的内容是否都是预定标识；

步骤305，若检测结果为都是预定标识，则判定关键词为敏感词；

步骤306，提取文本集合中不包含敏感词的文本信息；

需要说明的是，步骤301至步骤306与上述实施例中的步骤201至步骤206类似，详细技术细节请参考上述实施例，本实施例在此不再赘述。

步骤307，若提取得到的文本信息有两条或者两条以上，根据预定评分项计算两条或者两条以上的文本信息中的每一条文本信息的得分；

当服务器提取得到的文本信息有两条或者两条以上时，为了能够挑选出价值更高的文本信息，服务器还可以根据预定评分项计算两条或者两条以上的文本信息中的每一条文本信息的得分。其中，预定评分项包括文本信息的特征信息、文本信息的信息量和文本信息的活跃度中的至少一种。

具体的，服务器根据预定评分项计算两条或者两条以上的文本信息中的每一条文本信息的得分的步骤可以包括：

第一，若预定评分项包括文本信息的特征信息，则获取每一条文本信息的特征信息，特征信息包括文本信息的内容、文本信息中的链接地址、文本信息被转播的次数、文本信息被评论的次数以及文本信息被浏览的次数中的至少一种，根据特征信息计算每一条文本信息的第一得分；

具体的，

当特征信息包括文本信息的内容时，服务器可以先获取每一条文本信息的内容，计算文本信息的内容的特征值，进而查询第二关联关系得到对于内容的得分。其中，第二关联关系为内容的特征值与内容的得分呈正相关关系。

当特征信息包括文本信息的链接地址时，服务器可以先获取链接地址所对应的页面中的内容，计算页面内容的特征值，进而通过查询第三关联关系来计算对于链接地址的得分。其中，第三关联关系为链接地址所对应的页面的内容的特征值与链接地址的得分呈正相关关系。

当特征信息包括文本信息被转播的次数时，服务器可以获取文本信息被转播的次数，进而通过查询第四关联关系计算对于被转播次数的得分。其中，第四关联关系为文本信息被转播的次数与被转播次数的得分呈正相关关系。比如，由于文本信息被转播的次数越多，说明这条文本信息被其它用户喜欢的可能性也就越大，所以服务器对该条文本信息被转播次数的得分也可以越高。

当特征信息包括文本信息被评论的次数时，服务器可以获取文本信息被评论的次数，进而通过查询第五关联关系的方式计算对于被评论次数的得分。其中，第五关联关系为文本信息被评论的次数与被评论次数的得分呈正相关关系。

当特征信息包括文本信息被浏览的次数时，服务器可以获取文本信息被浏览的次数，进而通过查询第五关联关系的方式计算对于被浏览次数的得分。其中，第五关联关系为文本信息被浏览的次数与被浏览次数的得分呈正相关关系。

在服务器计算得到上述各个得分之后，服务器可以根据各个得分以及各个得分所对应的权重计算第一得分。比如，服务器计算得到的各个得分依次为5、7、9、6和8，各个得分所对应的权重分别为0.1、0.3、0.2、0.2、0.2，则服务器计算得到的第一得分为5*0.1+7*0.3+9*0.2+6*0.2+8*0.2=7.2分。

需要说明的是，由于当文本信息是短文本信息时，文本信息中的内容较少，在对内容进行特征提取进而计算特征值时并不能很好的表示文本信息的特征，所以本实施例采用文本信息的内容与文本信息的链接地址、文本信息被转播的次数、文本信息被评论的次数以及文本信息被浏览的次数中的至少一种的结合共同来计算对于文本信息特征的得分，提高了对文本信息的提取准确度。

第二，若预定评分项包括文本信息的信息量，则计算每一条文本信息中的每一个关键词的权值，计算每一条文本信息中所有关键词的权值之和，根据第一关联关系计算每一条文本信息的第二得分，第一关联关系为文本信息中的所有关键词的权值之和与第二得分呈正相关关系；

具体的，服务器可以通过TF-IDF算法来计算每一条文本信息中的每一个关键词的权值，并在计算得到每一个关键词的权值之后，服务器计算各个关键词的权值之和；同时由于关键词的权值越大，说明该关键词表征文本信息的含义的效果也就越好，所以当服务器计算得到的文本信息中的各个关键词的权值之和越大时，说明该文本信息表达的信息量越多，服务器对文本信息的信息量的评分也可以越高，所以服务器可以通过查询文本信息中的所有关键词的权值之和与第二得分之间的第一关联关系来计算文本信息的第二得分，本实施例在此不再赘述。

其中，设关键词i的权值为W_i,j、词频为TF_i,j、逆文档频率为IDF_i,j，则服务器计算得到的关键词i的权值为：W_i,j=TF_i,j*IDF_i,j，i和j均为正整数。具体的，服务器可以先统计关键词i在一条文本信息中出现的次数n以及文本信息中所有词语的个数N，然后计算关键词i在文本信息中的词频，词频可以表示为TF_i,j=n/N；另外，服务器可以计算文本集合中所有文本信息的个数M，包含关键词i的文本信息的个数m，然后计算关键词i的逆文档频率，逆文档频率可以表示为IDF_i,j=log(M/m)。

第三，若预定评分项包括文本信息的活跃度，则获取每一条文本信息的活跃参数，活跃参数包括文本信息被转播的次数、文本信息被评论的次数以及文本信息被浏览的次数中的至少一种，根据活跃参数计算每一条文本信息的第三得分；

由于活跃参数的参数值越大，说明该条文本信息被其它用户的关注程度也就越高，该条文本信息的价值也就越高，所以服务器在获取到活跃参数之后，服务器可以根据活跃参数与第三得分之间的正相关关系计算第三得分。

在实际实现时，如果活跃参数包括上述几种中的两种或者三种，则服务器在计算得到对应每一种活跃参数的得分之后，服务器可以根据各种活跃参数的得分以及各自对应的权重计算第三得分。比如，服务器计算得到文本信息被转播的次数所对应的得分为7分、文本信息被评论的次数的得分为6分以及文本信息被浏览的次数的得分为8分，并且各自对应的权重分别为0.6、0.2和0.2，则第三得分为7.2*0.6+6*0.2+8*0.2=7分。

第四，根据第一得分、第二得分和第三得分中的至少一种以及各自对应的权重计算两条或者两条以上的文本信息中的每一条文本信息的得分。

在服务器计算得到第一得分、第二得分和第三得分之后，服务器可以根据第一得分、第二得分和第三得分中的至少一种以及各自对应的权重计算两条或者两条以上的文本信息中的每一条文本信息的得分。具体可以表示为：得分=第一得分*第一权重+第二得分*第二权重+第三得分*第三权重。其中，各个得分所对应的权重可以根据实际使用需求进行配置，本实施例对其具体比例并不做限定。比如计算得到的第一得分为7.2分、第二得分为6分以及第三得分为7分，第一权重、第二权重和第三权重分别为0.3、0.5和0.2，则服务器计算得到的该文本信息的得分为7.2*0.3+6*0.5+7*0.2=6.56分。

步骤308，根据两条或者两条以上的文本信息的得分对两条或者两条以上的文本信息进行排名；

在服务器计算得到提取得到的各条文本信息的得分之后，为了后续步骤的执行，服务器可以按照计算得到的每条文本信息的得分由高到低的顺序进行排名。

步骤309，选择两条或者两条以上的文本信息中排名在前n位的文本信息，n为正整数。

由于文本信息的排名越高，说明该条文本信息被其它用户关注的程度也即该条文本信息的价值也就越高，所以在服务器对两条或者两条以上的文本信息进行排名之后，服务器可以选择两条或者两条以上的文本信息中排名在前n位的文本信息。其中，n为整数。

本实施例在提取得到的文本信息有两条或者两条以上时，服务器继续对提取得到的每一条文本信息进行评分，进而选择评分排名在前n位的文本信息，提高了提取得到的文本信息的质量。

需要补充说明的是，在上述各个方法实施例中，服务器可以根据敏感词库中的敏感词的个数以及允许的对关键词进行判定时的最大错误率来设置阵列的长度。其具体设置方法可以包括：

设阵列长度为L，全集中的元素的个数为u个，允许由于哈希冲突而引起的最大错误率为ε；X为全集中任意n个元素的集合也即敏感词的集合，F（X）表示X的位数组，那么对于集合X中的任意一个元素x，在s=F(X)中查询x都能查询到肯定的结果，即s能够接受x。s能够接受的不仅仅是X中的元素，它还能够接受(u-n)个false positive。因此，对于一个确定的位数组来说，它能够接受总共n+(u-n)个元素。在n+(u-n)个元素中，s真正表示的只有其中n个，所以一个确定的位数组可以表示个集合，L位的位数组共有2^L个不同的组合，进而可以推出，L位的位数组可以表示个集合，敏感词库中n个元素的集合总共有个，因此，要让l位的位数组能够表示所有n个敏感词的集合，必须有也即：

L &GreaterEqual; \log_{2} \frac{(\begin{matrix} u \\ n \end{matrix})}{(\begin{matrix} n + ϵ (u - n) \\ n \end{matrix})} \approx \log_{2} \frac{(\begin{matrix} u \\ n \end{matrix})}{(\begin{matrix} ϵu \\ n \end{matrix})} &GreaterEqual; \log_{2} ϵ^{- n} = nlo g_{2} (1 / ϵ)

上述公式中近似的前提是n与u相比很小，这也是实际情况中常常发生的，根据上述公式，我们得出的结论：在错误率不大于ε的情况下，L至少要等于nlog₂(1/ε)才能表示任意n个敏感词的敏感词库，所以服务器选择的预定阵列的长度至少为nlog₂(1/ε)，本实施例在此不再赘述。

请参考图4，其示出了本发明一个实施例提供的敏感词判定方法的方法流程图，该敏感词判定方法包括：

步骤401，根据至少两个预定哈希函数以及敏感词库中的各个敏感词构建预定阵列；

具体的，服务器构建预定阵列的步骤可以包括：

第一，选择一个预定长度的空阵列；

需要说明的是，本步骤与上述实施例中的步骤201类似，详细技术细节请参考步骤201，本实施例在此不再赘述。

步骤402，对于关键词库中的每一个关键词，通过至少两个预定哈希函数中的每一个哈希函数分别计算关键词在预定阵列中所对应的位置；

对于关键词库中的每一个关键词，服务器可以通过至少两个哈希函数中的每一个哈希函数分别计算关键词在预定阵列中所对应的位置。

需要说明的一点是，为了减小预定阵列所占据的存储空间，进而减小占用的内存，在实际实现时预定标识可以是一个预定比特；当然，当无需考虑内存占用情况时，预定标识还可以是任意内容，本实施例对预定标识的具体表示形式并不做限定。

需要说明的另一点时，本实施例中计算关键词库中的关键词在预定阵列中所对应的位置的计算方式与上述实施例中计算服务器提取得到的关键词在预定阵列中所对应的位置的计算方式类似，具体技术细节请参考上述实施例中的步骤203，本实施例在此不再赘述。

步骤403，检测关键词在预定阵列中所对应的位置处存储的内容是否都是预定标识；

步骤404，若检测结果为都是预定标识，则判定关键词为敏感词。

由于不同的哈希函数在对不同的关键词进行多次哈希计算时，计算得到的多个哈希值都相同的概率极小甚至根本不可能，所以当服务器的检测结果为关键词在预定阵列中所对应的位置处存储的内容都是预定标识时，服务器可以判定该关键词就是敏感词库中的敏感词。

而由于同一词语在使用多个哈希函数进行多次哈希计算时，每次计算得到的哈希值都不会变化，所以当服务器的检测结果为至少一处存储的内容不是预定标识时，服务器可以判定其它几处存储的内容是预定标识可能是因为哈希冲突引起的，而关键词本身并不是该位置所对应的敏感词，所以服务器可以判定关键词不是敏感词。

综上所述，本实施例提供的敏感词判定方法，对于对关键词库中的每一个关键词，通过至少两个哈希函数中的每一个哈希函数分别计算每一个关键词在预定阵列中所对应的位置，进而检测关键词在预定阵列中所对应的位置处存储的内容是否都是预定标识，当检测结果为都是预定标识时，判定关键词为敏感词；其中，预定阵列为目标位置处存储有预定标识的阵列，目标位置为通过至少两个预定哈希函数中的每一个哈希函数对敏感词库中的每个敏感词进行哈希计算后，计算得到的哈希值在预定阵列中所对应的位置；解决了背景技术中在判断某一关键词是否是敏感词时，服务器可能需要处理哈希冲突之后才能最终确定，进而导致的敏感词的判定效率低的问题；达到了当通过多个哈希函数计算得到的关键词在预定阵列中所对应的位置处存储的内容都是预定标识时，即可判定关键词是敏感词，提高了敏感词的判定效率的效果。

请参考图5，其示出了本发明一个实施例提供的文本提取装置的结构方框图，该文本提取装置可以通过软件、硬件或者两者的组合实现成为服务器中的全部或者部分，该文本提取装置可以包括：关键词提取模块510、位置计算模块520、内容检测模块530、敏感词判定模块540和文本提取模块550；

关键词提取模块510，用于对于文本集合中的每一条文本信息，提取文本信息中的关键词；

位置计算模块520，用于对于所述关键词提取模块510提取到的每一个关键词，通过至少两个预定哈希函数中的每一个哈希函数分别计算所述关键词在预定阵列中所对应的位置，所述预定阵列为目标位置处存储有预定标识的阵列，所述目标位置为通过所述至少两个预定哈希函数中的每一个哈希函数对敏感词库中的每个敏感词进行哈希计算后，计算得到的哈希值在所述预定阵列中所对应的位置；

内容检测模块530，用于检测所述关键词在所述预定阵列中所对应的位置处存储的内容是否都是所述预定标识；

敏感词判定模块540，用于在所述内容检测模块530的检测结果为都是所述预定标识时，判定所述关键词为敏感词；

文本提取模块550，用于提取所述文本集合中不包含敏感词的文本信息。

综上所述，本实施例提供的文本提取装置，通过提取文本集合中的每个文本信息中的关键词，对于每一个关键词，通过至少两个哈希函数中的每一个哈希函数分别计算每一个关键词在预定阵列中所对应的位置，进而检测关键词在预定阵列中所对应的位置处存储的内容是否都是预定标识，当检测结果为都是预定标识时，判定关键词为敏感词，进而提取文本集合中不包含敏感词的文本信息；其中，预定阵列为目标位置处存储有预定标识的阵列，目标位置为通过至少两个预定哈希函数中的每一个哈希函数对敏感词库中的每个敏感词进行哈希计算后，计算得到的哈希值在预定阵列中所对应的位置；解决了背景技术中服务器提取文本信息的提取效率较低的问题；达到了当通过多个哈希函数计算得到的关键词在预定阵列中所对应的位置处存储的内容都是预定标识时，即可判定关键词是敏感词，提高了文本信息的提取效率的效果。

请参考图6，其示出了本发明另一实施例提供的文本提取装置的结构方框图，该文本提取装置可以通过软件、硬件或者两者的组合实现成为服务器中的全部或者部分，该文本提取装置可以包括：关键词提取模块610、位置计算模块620、内容检测模块630、敏感词判定模块640和文本提取模块650；

关键词提取模块610，用于对于文本集合中的每一条文本信息，提取文本信息中的关键词；

位置计算模块620，用于对于所述关键词提取模块610提取到的每一个关键词，通过至少两个预定哈希函数中的每一个哈希函数分别计算所述关键词在预定阵列中所对应的位置，所述预定阵列为目标位置处存储有预定标识的阵列，所述目标位置为通过所述至少两个预定哈希函数中的每一个哈希函数对敏感词库中的每个敏感词进行哈希计算后，计算得到的哈希值在所述预定阵列中所对应的位置；

内容检测模块630，用于检测所述关键词在所述预定阵列中所对应的位置处存储的内容是否都是所述预定标识；

敏感词判定模块640，用于在所述内容检测模块630的检测结果为都是所述预定标识时，判定所述关键词为敏感词；

文本提取模块650，用于提取所述文本集合中不包含敏感词的文本信息。

在本实施例的第一种可能的实现方式中，若提取得到的所述文本信息有两条或者两条以上，所述装置还包括：得分计算模块660、文本排名模块670和文本选择模块680；

得分计算模块660，用于根据预定评分项计算所述两条或者两条以上的文本信息中的每一条文本信息的得分，所述预定评分项包括文本信息的特征信息、文本信息的信息量和文本信息的活跃度中的至少一种；

文本排名模块670，用于根据所述得分计算模块660计算得到的所述两条或者两条以上的文本信息的得分对所述两条或者两条以上的文本信息进行排名；

文本选择模块680，用于选择所述两条或者两条以上的文本信息中排名在前n位的文本信息，所述n为正整数。

在本实施例的第二种可能的实现方式中，所述得分计算模块660，包括：

第一计算单元661，用于在所述预定评分项包括文本信息的特征信息时，获取每一条文本信息的特征信息，所述特征信息包括文本信息的内容、文本信息中的链接地址、文本信息被转播的次数、文本信息被评论的次数以及文本信息被浏览的次数中的至少一种，根据所述特征信息计算每一条文本信息的第一得分；

第二计算单元662，用于在所述预定评分项包括文本信息的信息量时，计算每一条文本信息中的每一个关键词的权值，计算每一条文本信息中所有关键词的权值之和，根据第一关联关系计算每一条文本信息的第二得分，所述第一关联关系为文本信息中的所有关键词的权值之和与所述第二得分呈正相关关系；

第三计算单元663，用于在所述预定评分项包括文本信息的活跃度时，获取每一条文本信息的活跃参数，所述活跃参数包括文本信息被转播的次数、文本信息被评论的次数以及文本信息被浏览的次数中的至少一种，根据所述活跃参数计算每一条文本信息的第三得分；

得分计算单元664，用于根据所述第一得分、所述第二得分和所述第三得分中的至少一种以及各自对应的权重计算所述两条或者两条以上的文本信息中的每一条文本信息的得分。

在本实施例的第三种可能的实现方式中，

所述第二计算单元662，还用于在关键词i的权值为W_i,j、词频为TF_i,j以及逆文档频率为IDF_i,j时，所述关键词i的权值为：

W_i,j=TF_i,j*IDF_i,j；

其中，所述i和j均为正整数。

请参考图7，其示出了本发明一个实施例提供的敏感词判定装置的结构方框图，该敏感词判定装置可以通过软件、硬件或者两者的组合实现成为服务器中的全部或者部分，该敏感词判定装置可以包括：位置计算模块710、内容检测模块720和敏感词判定模块730；

位置计算模块710，用于对于关键词库中的每一个关键词，通过至少两个预定哈希函数中的每一个哈希函数分别计算所述关键词在预定阵列中所对应的位置，所述预定阵列为目标位置处存储有预定标识的阵列，所述目标位置为通过所述至少两个预定哈希函数中的每一个哈希函数对敏感词库中的每个敏感词进行哈希计算后，计算得到的哈希值在所述预定阵列中所对应的位置；

内容检测模块720，用于检测所述关键词在所述预定阵列中所对应的位置处存储的内容是否都是所述预定标识；

敏感词判定模块730，用于在所述内容检测模块720的检测结果为都是所述预定标识时，判定所述关键词为敏感词。

综上所述，本实施例提供的敏感词提取装置，对于对关键词库中的每一个关键词，通过至少两个哈希函数中的每一个哈希函数分别计算每一个关键词在预定阵列中所对应的位置，进而检测关键词在预定阵列中所对应的位置处存储的内容是否都是预定标识，当检测结果为都是预定标识时，判定关键词为敏感词；其中，预定阵列为目标位置处存储有预定标识的阵列，目标位置为通过至少两个预定哈希函数中的每一个哈希函数对敏感词库中的每个敏感词进行哈希计算后，计算得到的哈希值在预定阵列中所对应的位置；解决了背景技术中在判断某一关键词是否是敏感词时，服务器可能需要处理哈希冲突之后才能最终确定，进而导致的敏感词的判定效率低的问题；达到了当通过多个哈希函数计算得到的关键词在预定阵列中所对应的位置处存储的内容都是预定标识时，即可判定关键词是敏感词，提高了敏感词的判定效率的效果。

需要说明的是：上述实施例提供的文本提取装置在提取文本时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的文本提取装置与文本提取方法的方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种文本提取方法，其特征在于，所述方法包括：

提取所述文本集合中不包含敏感词的文本信息。

2.根据权利要求1所述的方法，其特征在于，若提取得到的所述文本信息有两条或者两条以上，所述提取所述文本集合中不包含敏感词的文本信息之后，所述方法还包括：

根据预定评分项计算所述两条或者两条以上的文本信息中的每一条文本信息的得分，所述预定评分项包括文本信息的特征信息、文本信息的信息量和文本信息的活跃度中的至少一种；

根据所述两条或者两条以上的文本信息的得分对所述两条或者两条以上的文本信息进行排名；

选择所述两条或者两条以上的文本信息中排名在前n位的文本信息，所述n为正整数。

3.根据权利要求2所述的方法，其特征在于，所述根据预定评分项计算所述两条或者两条以上的文本信息中的每一条文本信息的得分，包括：

若所述预定评分项包括文本信息的特征信息，则获取每一条文本信息的特征信息，所述特征信息包括文本信息的内容、文本信息中的链接地址、文本信息被转播的次数、文本信息被评论的次数以及文本信息被浏览的次数中的至少一种，根据所述特征信息计算每一条文本信息的第一得分；

若所述预定评分项包括文本信息的信息量，则计算每一条文本信息中的每一个关键词的权值，计算每一条文本信息中所有关键词的权值之和，根据第一关联关系计算每一条文本信息的第二得分，所述第一关联关系为文本信息中的所有关键词的权值之和与所述第二得分呈正相关关系；

若所述预定评分项包括文本信息的活跃度，则获取每一条文本信息的活跃参数，所述活跃参数包括文本信息被转播的次数、文本信息被评论的次数以及文本信息被浏览的次数中的至少一种，根据所述活跃参数计算每一条文本信息的第三得分；

根据所述第一得分、所述第二得分和所述第三得分中的至少一种以及各自对应的权重计算所述两条或者两条以上的文本信息中的每一条文本信息的得分。

4.根据权利要求3所述的方法，其特征在于，所述计算每一条文本信息中的每一个关键词的权值，包括：

设关键词i的权值为W_i,j、词频为TF_i,j以及逆文档频率为IDF_i,j；

所述关键词i的权值为：

W_i,j=TF_i,j*IDF_i,j；

其中，所述i和j均为正整数。

5.一种敏感词判定方法，其特征在于，所述方法包括：

6.一种文本提取装置，其特征在于，所述装置包括：

7.根据权利要求6所述的装置，其特征在于，若提取得到的所述文本信息有两条或者两条以上，所述装置还包括：

得分计算模块，用于根据预定评分项计算所述两条或者两条以上的文本信息中的每一条文本信息的得分，所述预定评分项包括文本信息的特征信息、文本信息的信息量和文本信息的活跃度中的至少一种；

文本排名模块，用于根据所述得分计算模块计算得到的所述两条或者两条以上的文本信息的得分对所述两条或者两条以上的文本信息进行排名；

文本选择模块，用于选择所述两条或者两条以上的文本信息中排名在前n位的文本信息，所述n为正整数。

8.根据权利要求7所述的装置，其特征在于，所述得分计算模块，包括：

第一计算单元，用于在所述预定评分项包括文本信息的特征信息时，获取每一条文本信息的特征信息，所述特征信息包括文本信息的内容、文本信息中的链接地址、文本信息被转播的次数、文本信息被评论的次数以及文本信息被浏览的次数中的至少一种，根据所述特征信息计算每一条文本信息的第一得分；

第二计算单元，用于在所述预定评分项包括文本信息的信息量时，计算每一条文本信息中的每一个关键词的权值，计算每一条文本信息中所有关键词的权值之和，根据第一关联关系计算每一条文本信息的第二得分，所述第一关联关系为文本信息中的所有关键词的权值之和与所述第二得分呈正相关关系；

第三计算单元，用于在所述预定评分项包括文本信息的活跃度时，获取每一条文本信息的活跃参数，所述活跃参数包括文本信息被转播的次数、文本信息被评论的次数以及文本信息被浏览的次数中的至少一种，根据所述活跃参数计算每一条文本信息的第三得分；

得分计算单元，用于根据所述第一得分、所述第二得分和所述第三得分中的至少一种以及各自对应的权重计算所述两条或者两条以上的文本信息中的每一条文本信息的得分。

9.根据权利要求8所述的装置，其特征在于，

所述第二计算单元，还用于在关键词i的权值为W_i,j、词频为TF_i,j以及逆文档频率为IDF_i,j时，所述关键词i的权值为：

W_i,j=TF_i,j*IDF_i,j；

其中，所述i和j均为正整数。

10.一种敏感词判定装置，其特征在于，所述装置包括：

11.一种服务器，其特征在于，其包括如权利要求6至9任一所述的文本提取装置。

12.一种服务器，其特征在于，其包括如权利要求10所述的敏感词判定装置。