CN107861949B

CN107861949B - 文本关键词的提取方法、装置及电子设备

Info

Publication number: CN107861949B
Application number: CN201711171954.9A
Authority: CN
Inventors: 米明恒
Original assignee: Zhuhai Juntian Electronic Technology Co Ltd
Current assignee: Zhuhai Juntian Electronic Technology Co Ltd
Priority date: 2017-11-22
Filing date: 2017-11-22
Publication date: 2020-11-20
Anticipated expiration: 2037-11-22
Also published as: CN107861949A

Abstract

本发明实施例提供了一种文本关键词的提取方法、装置及电子设备。该方法可以包括：获取待提取关键词的输入文本；按照输入文本中字符的预设顺序，从输入文本的首字符位置，以一个字符为步长，依次提取预设提取数量的多个字符串；针对多个字符串中的每个字符串，将该字符串中每个字符的编码，采用预设混淆算法进行混淆运算，得到混淆结果，并将得到的该字符串中每个字符的混淆结果求和，得到该字符串的叠加值；对多个字符串中满足预设条件的字符串，按照叠加值的预设大小顺序进行排序，得到排序后的字符串；选取排序后的字符串中，排在前面且与预设关键词数量相同的字符串，确定为输入文本的关键词，提高了相似文本检索精度和效率。

Description

文本关键词的提取方法、装置及电子设备

技术领域

本发明涉及计算机应用技术领域，特别是涉及一种文本关键词的提取方法、装置及电子设备。

背景技术

在新闻网页抓取过程中，往往遇到不同网站转载同一篇新闻文本，或同一媒体对某一事件持续报道并连续更新该新闻页面。在为用户提供新闻文本时，此类新闻文本应当合并为同一篇文本，避免用户重复看到针对同一事件的新闻文本，从而提升用户体验。

目前可以通过文本排重技术对文本进行检测，文本排重技术可以分为特征对比算法以及全文检索算法等。其中，全文检索算法需要保留文本的全部内容，即对文本的全部内容进行检索，导致资源占用率高，检索效率低，因此应用较少。特征对比算法是将文本先提取可以代表文本，但长度很短的关键词，然后通过对比关键词的相似度来判定文本的相似度，即针对同一事件的多个相似文本的关键词相同或相似。其中，现有的关键词提取算法主要通过对输入文本中的分词或输入文本中的字符等进行间隔抽样的方式来获取关键词。例如，对于输入文本abcdefghijk，若采取固定间隔抽样，且规定间隔为2个字符，则可以得到的该输入文本的关键词分别为a、d、g、j。

然而，当针对某一事件的输入文本发生增删变化，转换为针对同一事件的相似输入文本时，该提取算法容易对相似输入文本提取出与输入文本不同的关键词。例如，对输入文本增加内容转换为相似输入文本，如增加字符X，相似输入文本为abcXdefghijk，此时提取出来的关键词变为a、X、f、i，与输入文本的关键词差距较大，判定出的文本的相似度不准确。

可见，固定间隔提取对于定长输入文本可用，但当输入文本出现增删变化时，容易对相似文本提取出不同的关键词，降低检索精确度。

发明内容

本发明实施例的目的在于提供一种文本关键词的提取方法、装置及电子设备，以提高了相似文本检索精度和效率。具体技术方案如下：

第一方面，提供了一种文本关键词的提取方法，该方法可以包括：获取待提取关键词的输入文本；按照输入文本中字符的预设顺序，从初始提取位置，以一个字符为步长，依次提取预设提取数量的多个字符串，初始提取位置为输入文本的首字符位置；针对多个字符串中的每个字符串，将该字符串中每个字符的编码，采用预设混淆算法进行混淆运算，得到混淆结果，并将得到的该字符串中每个字符的混淆结果求和，得到该字符串的叠加值；对多个字符串中满足预设条件的字符串，按照叠加值的预设大小顺序进行排序，得到排序后的字符串；选取排序后的字符串中，排在前面且与预设关键词数量相同的字符串，确定为输入文本的关键词。

在一个可选的示例中，预设关键词数量是基于输入文本的长度和预设关键词提取比例确定的。

在一个可选的示例中，预设关键词数量是采用如下表达式表示确定的：N＝int(L*r)；其中，int()为取整函数，L为输入文本的长度，r为预设关键词提取比例，N和L均为正整数，0<r<1。

在一个可选的示例中，排序后的字符串中叠加值相同的字符串，是按照从前到后的提取顺序进行排序的。

在一个可选的示例中，依次提取预设提取数量的多个字符串之后，该方法还包括：基于多个字符串中每个字符串的提取位置与预设提取数量，确定每个字符串对应的提取区域。对多个字符串中满足预设条件的字符串，按照叠加值的预设大小顺序进行排序，得到排序后的字符串，包括：对多个字符串，按照叠加值的预设大小顺序进行排序，得到第一排序结果；从多个字符串中选取出提取区域无重叠的多个字符串，作为多个待排序字符串，其中，第一排序结果靠前的字符串优先选取；对多个待排序字符串，按照叠加值的预设大小顺序进行排序，得到第二排序结果；选取排序后的字符串中，排在前面且与预设关键字数量相同的字符串，确定为输入文本的关键词，包括：选取第二排序结果中，排在前面且与预设关键字数量相同的字符串，确定为输入文本的关键词。

在一个可选的示例中，选取排序后的字符串中，排在前面且与预设关键词数量相同的字符串，确定为输入文本的关键词之前，该方法还包括：当排序后的字符串中包含相同的字符串时，保留一个字符串。

在一个可选的示例中，待提取关键词的输入文本包括英文字符、汉字字符、数字字符或二进制序列。

第二方面，提供了一种提取装置，该装置可以包括：获取模块、提取模块、运算模块、排序模块和选取模块；

获取模块，用于获取待提取关键词的输入文本；

提取模块，用于按照输入文本中字符的预设顺序，从初始提取位置，以一个字符为步长，依次提取预设提取数量的多个字符串，初始提取位置为输入文本的首字符位置；

运算模块，用于针对多个字符串中的每个字符串，将该字符串中每个字符的编码，采用预设混淆算法进行混淆运算，得到混淆结果，并将得到的该字符串中每个字符的混淆结果求和，得到该字符串的叠加值；

排序模块，用于对多个字符串中满足预设条件的字符串，按照叠加值的预设大小顺序进行排序，得到排序后的字符串；

选取模块，用于选取排序后的字符串中，排在前面且与预设关键词数量相同的字符串，确定为输入文本的关键词。

在一个可选的示例中，该装置还可以包括提取区域确定模块；

提取区域确定模块，用于在提取模块依次提取预设数量的多个字符串之后，基于多个字符串中每个字符串的提取位置与预设提取数量，确定每个字符串对应的提取区域；

排序模块，具体用于对多个字符串，按照叠加值的预设大小顺序进行排序，得到第一排序结果；从多个字符串中选取出提取区域无重叠的多个字符串，作为多个待排序字符串，其中，第一排序结果靠前的字符串优先选取；对多个待排序字符串，按照叠加值的预设大小顺序进行排序，得到第二排序结果；

选取模块，具体用于选取排序模块得到的第二排序结果中，排在前面且与预设关键字数量相同的字符串，确定为输入文本的关键词。

在一个可选的示例中，在选取模块选取排序后的字符串中，排在前面且与预设关键词数量相同的字符串，确定为输入文本的关键词之前，排序模块，还用于当排序后的字符串中包含相同的字符串时，保留一个字符串。

第三方面，提供了一种电子设备，该电子设备可以包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现上述第一方面中任一所述的方法步骤。

在本发明实施的又一方面，还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述任一所述的文本关键词的提取方法。

在本发明实施的又一方面，本发明实施例还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述任一所述的文本关键词的提取方法。

本发明实施例提供的一种文本关键词的提取方法、装置及电子设备，在获取待提取关键词的输入文本后，按照该输入文本中字符的预设顺序，从输入文本的首字符起，以一个字符为步长，依次提取预设提取数量的多个字符串；针对多个字符串中的每个字符串，将该字符串中每个字符的编码通过数学运算中的预设混淆算法与求和算法，获取每个字符串的叠加值；对多个字符串中满足预设条件的字符串，按照叠加值的预设大小顺序进行排序，得到排序后的字符串；选取排序后的字符串中，排在前面且与预设关键词数量相同的字符串，确定为输入文本的关键词。由于叠加值服从正态分布。叠加值较大区域的字符串或叠加值较小区域的字符串分布在正态分布的两端，对应的出现的概率较小。当输入文本发生修改操作时，影响叠加值较大区域的字符串或叠加值较小区域的字符串的概率较小。因此在叠加值较大区域的字符串或叠加值较小区域的字符串中提取关键词，可以提高相似文本检索精度和效率。当然，实施本发明的任一产品或方法必不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。

图1为本发明实施例提供的一种文本关键词的提取方法的一种流程示意图；

图2为本发明实施例中的一种滑动窗口提取字符串的过程示意图；

图3为本发明实施例提供的一种文本关键词的提取方法的另一种流程示意图；

图4为本发明实施例提供的一种提取装置的结构示意图；

图5为本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行描述。

由于语言的多样性和复杂性，在输入文本中，若提取预设提取数量的多个字符串，则提取的多个字符串中的每个字符的组合情况可以近似为随机组合。当输入文本的首字符位置起，以一个字符为步长，依次提取预设提取数量的多个字符串时，每次提取的字符串中的每个字符位置上的字符对应的Unicode编码可以近似认为随机变化。因此，可将每次提取的字符串中的每个字符位置可以看做一个随机变量，且每个字符位置相互独立。

依据中心极限定理，多个独立随机变量(或称字符位置)求和所得到的随机变量服从正态分布。因此，将每次提取的字符串中的每个字符位置对应的字符编码相加可以得到叠加值，提取的多个字符串对应的叠加值是一个近似服从正态分布的随机变量。

由正态分布的特性可以知道，对于提取的字符串的较大叠加值或较小叠加值的区域位于正态分布的两边，即较大叠加值或较小叠加值的区域在输入文本中出现的概率很小。因此，具有较大叠加值或较小叠加值的区域所对应的字符串，在输入文本中是比较特殊的字符串。当输入文本发生修改(如增、删、改)操作时，依据概率分布，影响到具有较大叠加值或较小叠加值的字符串的概率较小，故可以将具有较大叠加值或较小叠加值的字符串作为输入文本的关键词。

可选地，常见语言字符的Unicode编码范围是0x0000～0xFFFF，而对于英文文本来说，其26个英文字母字符所在的Unicode编码区间为0x0061～0x007A，即英文字母字符没有均匀分布在0x0000～0xFFFF内。为了克服文本语言的限制，该方法将每次提取的预设提取数量的字符串的多个编码输入预设混淆函数中，预设混淆函数用于将Unicode编码转化为具有随机性的混淆数值，该混淆数值不再包含字符原来在Unicode编码表中的分布位置信息，从而使不同语言的字符或序列都能均匀映射到一个概率区间内。

需要说明的是，输入文本可以包括英文字符、汉字字符、数字字符或二进制序列。其中，英文字符、汉字字符和数字字符都可以转换为相应的编码；对于二进制序列可以按照8、16或32等不同个数进行分组，转变成一个数值，即转变为Uint8、Uint16、Uint32等类型的数值，该数值可以认为是编码，从而正常执行本申请提供的方法。

下面以输入文本为英文文本为例详细进行说明。

图1为本发明实施例提供的一种文本关键词的提取方法的流程示意图。如图1所示，该方法的执行主体可以是关键词的提取装置，该方法可以包括：

步骤110、获取待提取关键词的输入文本。

在执行该步骤之前，提取装置对待检测相似性的输入文本进行预处理，获取待提取关键词的输入文本。预处理可以包括对该输入文本进行去标点符号、去特殊字符，以及统一大小写的处理。其中，标点符号可以为逗号、分号、句号中的至少一种符号，特殊字符可以为_、@、&、*、()、％、#等，以及包含空格，换行等不可见字符中的至少一种字符，如待检测相似性的输入文本为“By2h_it great#”经预处理后，获取的待提取关键词的输入文本为“by2hitgreat”。

步骤120、按照该待提取关键词的输入文本中字符的预设顺序，从初始提取位置，以一个字符为步长，依次提取预设提取数量的多个字符串，初始提取位置为输入文本的首字符位置。

待提取关键词的输入文本的预设顺序可以是组成该文本的从左到右的顺序。预设的初始提取位置可以为待提取关键词的输入文本的首字符位置。从首字符位置起，以一个字符为步长向后移动，依次提取预设提取数量的多个字符串。

可选地，基于提取的多个字符串中每个字符串的提取位置与预设提取数量，可以确定出每个字符串对应的提取区域。

可选地，提取装置可以设置提取关键词的滑动窗口，滑动窗口的长度为预设提取数量个字符，滑动窗口的初始滑动位置为预设的初始提取位置，提取每次滑动过程中该滑动窗口内预设提取数量的多个字符。

例如，设置提取关键词的滑动窗口，该滑动窗口设置固定的窗口长度为W个字符，W为正整数。初始滑动位置P为第一个字符位置，记为P＝1。从设定的初始滑动位置P，按照输入文本从左到右的顺序，滑动该滑动窗口，提取每次滑动过程中该滑动窗口内的W个字符，其中，在提取字符串过程中，滑动窗口所覆盖的区域为该字符串对应的提取区域。

在一个例子中，以待提取关键词的输入文本为“by2hitgreat”，滑动窗口宽度为5个字符为例，每次提取的滑动窗口内的字符的过程可以如图2所示，滑动窗口的初始滑动位置P＝1，此时可以提取滑动窗口在P＝1时的5个字符为“by2hi”，之后滑动该滑动窗口至P＝2，此时可以提取滑动窗口在P＝2时的5个字符为“y2hit”，以此类推，直到提取出最后的5个字符为“great”，此时P＝7。

可以理解的是，针对一个输入文本，多次提取的字符串中可能有相同的字符串，如输入文本为“abcdabcd”，在提取位置P＝1时，提取的字符串为“abcd”，在P＝5时，提取的字符串也为“abcd”。

步骤130、针对多个字符串中的每个字符串，将该字符串中每个字符的编码，采用预设混淆算法进行混淆运算，得到混淆结果，并将得到的该字符串中每个字符的混淆结果求和，得到该字符串的叠加值。

预设混淆算法可以通过预设混淆函数进行运算，预设混淆函数可以为R(x)＝(x^(x>>4)^(x>>8)^(x>>12))&0x0f。预设混淆函数用于将编码转化为具有随机性的混淆数值，该混淆数值不再包含字符原来在Unicode编码表中的分布位置信息，从而使不同语言的字符或序列都能均匀映射到一个预设数值区间内，增大了提取的编码的随机性。

例如，预设混淆函数可以进行异或运算，将16bit长度的编码拆分为4个4bit长度的编码片段，并用异或运算将4个4bit长度的编码片段融合和为1个4bit长度的编码片段，此时，这1个4bit长度的编码片段继承了原来16bit长度的编码的随机性，且可以将任意字符的编码范围缩小到0x0000～0x000F范围内。

获取提取的多个字符串中每个字符串的字符转换为相应的编码。

将每个字符串中每个字符的编码，采用预设混淆算法进行混淆运算，得到混淆结果。如字符串“by2hi”中每个字符的编码得到的混淆结果组成的混淆结果序列为“0x4,0xe,0x1,0xe,0xf”；字符串“y2hit”中每个字符的编码得到的混淆结果组成的混淆结果序列为“0xe,0x1,0xe,0xf,0x3”。

将得到的每个字符串中每个字符的混淆结果相加，得到每个字符串的叠加值。其中，在不同的提取位置可以提取到的相同的字符串，相同的字符串的叠加值一定相同；在不同的提取位置可以提取到的不同的字符串，不同的字符串的叠加值可能相同，也可能不同。字符串的叠加值是一个随机变量，该随机变量服从正态分布。

步骤140、对多个字符串中满足预设条件的字符串，按照叠加值的预设大小顺序进行排序，得到排序后的字符串。

具体的，对多个字符串，按照叠加值的预设大小顺序进行排序，得到第一排序结果。也就是说，按照字符串的叠加值的大小进行降序排列或升序排列，可得到第一排序结果。

可选地，对于多个字符串中叠加值相同的字符串，可以按照从前到后的提取顺序进行排序。

为了进一步提高提取的关键词的精确度，可以从多个字符串中选取出提取区域无重叠的多个字符串，作为多个待排序字符串，其中，第一排序结果靠前的字符串优先选取。

该选取方式具体可以为：以按照字符串的叠加值的大小进行降序排列为例。

由于得到的第一排序结果中第一位置上的字符串的叠加值最大，故确定第一位置上的字符串作为待排序字符串。

将第二位置上字符串对应的提取区域与第一位置上字符串对应的提取区域进行检测。若第二位置上字符串对应的提取区域与第一位置上字符串对应的提取区域间有重叠，则确定第二位置上的字符串不能作为待排序字符串。

然后，将第三位置上字符串对应的提取区域与第一位置上字符串对应的提取区域进行检测。若第三位置上字符串对应的提取区域与第一位置上字符串对应的提取区域间无重叠，则将第三位置上的字符串也可以作为待排序字符串。此时待排序字符串包括第一位置上的字符串和第三位置上的字符串；

之后，将第四位置上字符串对应的提取区域分别与第一位置上字符串对应的提取区域和第三位置上字符串对应的提取区域进行检测。若第四位置上字符串对应的提取区域与第一位置上字符串对应的提取区域间无重叠，且与第三位置上字符串对应的提取区域也无重叠，则将第四位置上字符串作为待排序字符串。此时待排序字符串包括第一位置上的字符串、第三位置上的字符串和第四位置上的字符串。

需要说明的是，若第一位置上字符串对应的提取区域和第三位置上字符串对应的提取区域中的至少一个提取区域与第四位置上字符串对应的提取区域与有重叠，则确定第四位置上的字符串不能作为待排序字符串。

按照第一排序结果中字符串的排序顺序确定待检测位置上的字符串，将待检测位置上字符串对应的提取区域与前面得到的所有待排序字符串进行检测，判断待检测位置上字符串对应的提取区域分别与前面得到的所有待排序字符串提取区域间是否有重叠，若无重叠，则确定待检测位置上的字符串为待排序字符串；若有重叠，则确定待检测位置上的字符串不为待排序字符串。直到对第一排序结果中的所有字符串对应的提取区域全部检测完成。

对检测得到的多个待排序字符串，按照叠加值的预设大小顺序再次进行排序，得到第二排序结果。

可选地，当排序后的字符串中包含相同的字符串时，进行字符串排重，保留一个字符串，如可以保留提取顺序在前的字符串，该方式可以进一步提高提取关键词的精确性。

可以理解的是，根据实际情况，在排序过程中也可以不进行对多个字符串对应的提取区域间的重叠性进行检测，本发明实施例在此不做赘述。

步骤150、选取排序后的字符串中，排在前面且与预设关键词数量相同的字符串，确定为输入文本的关键词。

选取上述步骤得到的第二排序结果中，排在前面且与预设关键字数量相同的字符串，确定为输入文本的关键词。

预设关键词数量是基于输入文本的长度和预设关键词提取比例确定的，其可以表示为：N＝int(L*r)；其中，int()为取整函数，L为输入文本的长度，r为预设关键词提取比例，N和L均为正整数，0<r<1。

例如，若输入文本的长度为12个字符，预设关键词提取比例r＝0.6，则根据N＝int(L*r)，获取到预设关键词数量N为7。

需要说明的是，在上述方法步骤中是在选取多个字符串的提取区域间无重叠的字符串后，按照叠加值的预设大小顺序进行排序，之后选取预设关键词数量个字符串；该方法还可以先对多个字符串按照叠加值的预设大小顺序进行排序，然后选取预设关键词数量个字符串，之后从选取的字符串中选取预设关键词数量个字符串的提取区域间无重叠的字符串。

在一个例子中，以待提取关键词的文本为“by2hitgreat”为例，如图3所示，该方法可以包括：

步骤301、获取待提取关键词的输入文本。

对待检测相似性的输入文本去标点符号、特殊字符，且统一为小写后，获取待提取关键词的输入文本，该待提取关键词的输入文本为“by2hitgreat”。

步骤302、按照待提取关键词的输入文本中字符从左到右的顺序，从该输入文本的首字符位置开始，以一个字符为步长，依次提取预设提取数量的多个字符串。

预设提取数量为5个字符，待提取关键词的输入文本为“by2hitgreat”，从字符“b”开始，以一个字符为步长，提取的字符串分别为：“by2hi”、“y2hit”、“2hitg”、“hitgr”、“itgre”、“tgrea”和“great”。

基于提取的多个字符串中每个字符串的提取位置与5个字符的长度，可以确定出每个字符串对应的提取区域(或称提取窗口覆盖的区域)。

步骤303、将提取的每个字符串中每个字符的编码，采用预设混淆算法进行混淆运算，得到混淆结果。

预设混淆算法可以通过预设混淆函数完成，预设混淆函数R(x)＝(x^(x>>4)^(x>>8)^(x>>12))&0x0f。

字符串“by2hi”对应的混淆结果序列为：0x4,0xe,0x1,0xe,0xf；

字符串“y2hit”对应的混淆结果序列为：0xe,0x1,0xe,0xf,0x3；

字符串“2hitg”对应的混淆结果序列为：0x1,0xe,0xf,0x3,0x1；

字符串“hitgr”对应的混淆结果序列为：0xe,0xf,0x3,0x1,0x5；

字符串“itgre”对应的混淆结果序列为：0xf,0x3,0x1,0x5,0x3；

字符串“tgrea”对应的混淆结果序列为：0x3,0x1,0x5,0x3,0x7；

字符串“great”对应的混淆结果序列为：0x1,0x5,0x3,0x7,0x3。

步骤304、将得到的每个字符串中每个字符的混淆结果求和，得到每个字符串的叠加值。

字符串“by2hi”对应的混淆结果序列：0x4,0xe,0x1,0xe,0xf的和为48；

字符串“y2hit”对应的混淆结果序列：0xe,0x1,0xe,0xf,0x3的和为47；

字符串“2hitg”对应的混淆结果序列：0x1,0xe,0xf,0x3,0x1的和为34；

字符串“hitgr”对应的混淆结果序列：0xe,0xf,0x3,0x1,0x5的和为38；

字符串“itgre”对应的混淆结果序列：0xf,0x3,0x1,0x5,0x3的和为27；

字符串“tgrea”对应的混淆结果序列：0x3,0x1,0x5,0x3,0x7的和为19；

字符串“great”对应的混淆结果序列：0x1,0x5,0x3,0x7,0x3的和为19；

可见，通过步骤303和步骤304，针对提取的多个字符串可以得到字符串、混淆结果序列、叠加值和提取顺序号之间的关系表，如表1所示：

表1

提取顺序号	字符串	混淆结果序列	叠加值
				0	by2hi	0x4,0xe,0x1,0xe,0xf	48
1	y2hit	0xe,0x1,0xe,0xf,0x3	47
				2	2hitg	0x1,0xe,0xf,0x3,0x1	34
3	hitgr	0xe,0xf,0x3,0x1,0x5	38
				4	itgre	0xf,0x3,0x1,0x5,0x3	27
5	tgrea	0x3,0x1,0x5,0x3,0x7	19
				6	great	0x1,0x5,0x3,0x7,0x3	19

步骤305、按照叠加值的预设大小顺序，对多个字符串降序排列，并对叠加值相同的字符串，按照从前到后的提取顺序进行排序，得到第一排序结果。即在表1中对字符串排序后可以得到表2，如下：

表2

步骤306、从第一排序结果中选取出提取区域无重叠的多个字符串，作为多个待排序字符串，其中，第一排序结果靠前的字符串优先选取。

判断提取区域无重叠的依据为两个字符串中无重复的字符。

选取方式为：选中最大叠加值的字符串(第一位置上的个字符串)“by2hi”要进一步的排序的待排序字符串。将第二位置上字符串“y2hit”对应的提取区域，与字符串“by2hi”对应的提取区域进行检测，检测到字符串“y2hit”对应的提取区域，与字符串“by2hi”对应的提取区域有重叠，确定出字符串“y2hit”不是要进一步的排序的待排序字符串。

然后，将第三位置上字符串“hitgr”对应的提取区域，与字符串“by2hi”对应的提取区域进行检测，检测到字符串“hitgr”对应的提取区域，与字符串“by2hi”对应的提取区域有重叠，确定出字符串“y2hit”不是要进一步的排序的待排序字符串。

以此类推，最后将第七位置上字符串“great”对应的提取区域，分别与前面检测出的所有待排序字符串进行检测，检测到字符串“great”对应的提取区域，分别与前面检测出的所有待排序字符串对应的提取区域无重叠，确定出字符串“great”是要进一步的排序的待排序字符串。

步骤307、对选取的多个待排序字符串，按照叠加值的预设大小顺序进行排序，得到第二排序结果。

此时按照叠加值的预设大小顺序还进行降序排列，其中，若排序后的字符串中包含相同的字符串，则需要进行字符串排重，保留一个字符串，该方式可以进一步提高提取关键词的精确性。由此可以得到表3，如下：

表3

提取顺序号	字符串	混淆结果序列	叠加值
				0	by2hi	0x4,0xe,0x1,0xe,0xf	48
5	tgrea	0x3,0x1,0x5,0x3,0x7	19
				6	great	0x1,0x5,0x3,0x7,0x3	19

步骤308、选取第二排序结果中，排在前面且与预设关键词数量相同的字符串，确定为所述输入文本的关键词。

预设关键词数量是基于待提取关键词的输入文本的长度和预设关键词提取比例确定的。待提取关键词的输入文本为“by2hitgreat”，长度为11个字符，预设的r＝0.2，预设关键词数量N＝int(11*0.2)＝2。

从表3中，选取排在前面的2个字符串“by2hi”和“tgrea”，这两个字符串为待提取关键词的输入文本的关键词。

综上可知，在获取待提取关键词的输入文本后，按照该输入文本中字符的预设顺序，从输入文本的首字符起，以一个字符为步长，依次提取预设提取数量的多个字符串；针对多个字符串中的每个字符串，将该字符串中每个字符的编码通过数学运算中的预设混淆算法与求和算法，获取每个字符串的叠加值；对多个字符串中满足预设条件的字符串，按照叠加值的预设大小顺序进行排序，得到排序后的字符串；选取排序后的字符串中，排在前面且与预设关键词数量相同的字符串，确定为输入文本的关键词。由于叠加值服从正态分布。叠加值较大区域的字符串或叠加值较小区域的字符串分布在正态分布的两端，对应的出现的概率较小。当输入文本发生修改操作时，影响叠加值较大区域的字符串或叠加值较小区域的字符串的概率较小。因此，在叠加值较大区域的字符串或叠加值较小区域的字符串中提取关键词，可以提高相似文本检索精度和效率。

与上述方法对应的本发明实施例提供了一种提取装置，如图4所示，该装置可以包括：获取模块410、提取模块420、运算模块430、排序模块440和选取模块450；

获取模块410，用于获取待提取关键词的输入文本；

提取模块420，用于按照输入文本中字符的预设顺序，从初始提取位置，以一个字符为步长，依次提取预设提取数量的多个字符串，初始提取位置为输入文本的首字符位置；

运算模块430，用于针对多个字符串中的每个字符串，将该字符串中每个字符的编码，采用预设混淆算法进行混淆运算，得到混淆结果，并将得到的该字符串中每个字符的混淆结果求和，得到该字符串的叠加值；

排序模块440，用于对多个字符串中满足预设条件的字符串，按照叠加值的预设大小顺序进行排序，得到排序后的字符串；

选取模块450，用于选取排序后的字符串中，排在前面且与预设关键词数量相同的字符串，确定为输入文本的关键词。

可选地，预设关键词数量是基于输入文本的长度和预设关键词提取比例确定的。

可选地，预设关键词数量是采用如下表达式表示确定的：N＝int(L*r)；其中，int()为取整函数，L为输入文本的长度，r为预设关键词提取比例，N和L均为正整数，0<r<1。

可选地，排序后的字符串中叠加值相同的字符串，是按照从前到后的提取顺序进行排序的。

可选地，该装置还可以包括提取区域确定模块460；

提取区域确定模块460，用于在提取模块依次提取预设数量的多个字符串之后，基于多个字符串中每个字符串的提取位置与预设提取数量，确定每个字符串对应的提取区域；

排序模块440，具体用于对多个字符串，按照叠加值的预设大小顺序进行排序，得到第一排序结果；

从多个字符串中选取出提取区域无重叠的多个字符串，作为多个待排序字符串，其中，第一排序结果靠前的字符串优先选取；

对多个待排序字符串，按照叠加值的预设大小顺序进行排序，得到第二排序结果；

选取模块450，具体用于选取排序模块得到的第二排序结果中，排在前面且与预设关键字数量相同的字符串，确定为输入文本的关键词。

可选地，在选取模块选取排序后的字符串中，排在前面且与预设关键词数量相同的字符串，确定为输入文本的关键词之前，

排序模块440，还用于当排序后的字符串中包含相同的字符串时，保留一个字符串。

可选地，待提取关键词的输入文本包括英文字符、汉字字符、数字字符或二进制序列。

上述本发明实施例提供的提取装置的各功能模块的功能，可以通过图1所示的各方法步骤来实现，因此，本发明实施例提供的检测装置中的各个模块的具体工作过程和有益效果。在此不复赘述。

图5为本发明实施例提供了一种电子设备的结构示意图。如图5所示，包括处理器510、通信接口520、存储器530和通信总线540，其中，处理器510，通信接口520，存储器530通过通信总线540完成相互间的通信，

存储器530，用于存放计算机程序；

处理器510，用于执行存储器530上所存放的程序时，实现如下步骤：

获取待提取关键词的输入文本；

按照输入文本中字符的预设顺序，从初始提取位置，以一个字符为步长，依次提取预设提取数量的多个字符串，初始提取位置为输入文本的首字符位置；

针对多个字符串中的每个字符串，将该字符串中每个字符的编码，采用预设混淆算法进行混淆运算，得到混淆结果，并将得到的该字符串中每个字符的混淆结果求和，得到该字符串的叠加值；

对多个字符串中满足预设条件的字符串，按照叠加值的预设大小顺序进行排序，得到排序后的字符串；选取排序后的字符串中，排在前面且与预设关键词数量相同的字符串，确定为输入文本的关键词。

可选地，依次提取预设数量的多个字符串之后，基于多个字符串中每个字符串的提取位置与预设提取数量，确定每个字符串对应的提取区域；

对多个字符串中满足预设条件的字符串，按照叠加值的预设大小顺序进行排序，得到排序后的字符串，包括：

对多个字符串，按照叠加值的预设大小顺序进行排序，得到第一排序结果；

选取排序后的字符串中，排在前面且与预设关键字数量相同的字符串，确定为输入文本的关键词，包括：

选取第二排序结果中，排在前面且与预设关键字数量相同的字符串，确定为输入文本的关键词。

可选地，选取排序后的字符串中，排在前面且与预设关键词数量相同的字符串，确定为输入文本的关键词之前，当排序后的字符串中包含相同的字符串时，保留一个字符串。

上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，RAM)，也可以包括非易失性存储器(Non-Volatile Memory，NVM)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(Digital SignalProcessing，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本发明提供的又一实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述实施例中任一所述的文本关键词的提取方法。

在本发明提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例中任一所述的文本关键词的提取方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置、电子设备、计算机可读存储介质和计算机程序产品的实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种文本关键词的提取方法，其特征在于，所述方法包括：

获取待提取关键词的输入文本；

按照所述输入文本中字符的预设顺序，从初始提取位置，以一个字符为步长，依次提取预设提取数量的多个字符串，所述初始提取位置为所述输入文本的首字符位置；

针对所述多个字符串中的每个字符串，将该字符串中每个字符的编码，采用预设混淆算法进行混淆运算，得到混淆结果，并将得到的该字符串中每个字符的混淆结果求和，得到该字符串的叠加值；

对所述多个字符串中满足预设条件的字符串，按照叠加值的预设大小顺序进行排序，得到排序后的字符串；

选取排序后的字符串中，排在前面且与预设关键词数量相同的字符串，确定为所述输入文本的关键词。

2.根据权利要求1所述的方法，其特征在于，所述预设关键词数量是基于所述输入文本的长度和预设关键词提取比例确定的。

3.根据权利要求2所述的方法，其特征在于，所述预设关键词数量是采用如下表达式表示确定的：

N＝int(L*r)；

其中，int()为取整函数，L为所述输入文本的长度，r为预设关键词提取比例，N和L均为正整数，0<r<1。

4.根据权利要求1所述的方法，其特征在于，所述排序后的字符串中叠加值相同的字符串，是按照从前到后的提取顺序进行排序的。

5.根据权利要求1所述的方法，其特征在于，所述依次提取预设提取数量的多个字符串之后，所述方法还包括：

基于所述多个字符串中每个字符串的提取位置与所述预设提取数量，确定每个字符串对应的提取区域；

对所述多个字符串中满足预设条件的字符串，按照叠加值的预设大小顺序进行排序，得到排序后的字符串，包括：

对所述多个字符串，按照叠加值的预设大小顺序进行排序，得到第一排序结果；

从所述多个字符串中选取出提取区域无重叠的多个字符串，作为多个待排序字符串，其中，所述第一排序结果靠前的字符串优先选取；

对所述多个待排序字符串，按照叠加值的所述预设大小顺序进行排序，得到第二排序结果；

选取排序后的字符串中，排在前面且与预设关键字数量相同的字符串，确定为所述输入文本的关键词，包括：

选取所述第二排序结果中，排在前面且与预设关键字数量相同的字符串，确定为所述输入文本的关键词。

6.根据权利要求1所述的方法，其特征在于，所述选取排序后的字符串中，排在前面且与预设关键词数量相同的字符串，确定为所述输入文本的关键词之前，所述方法还包括：

当排序后的字符串中包含相同的字符串时，保留一个字符串。

7.根据权利要求1所述的方法，其特征在于，所述待提取关键词的输入文本包括英文字符、汉字字符、数字字符或二进制序列。

8.一种文本关键词的提取装置，其特征在于，所述装置包括：获取模块、提取模块、运算模块、排序模块和选取模块；

所述获取模块，用于获取待提取关键词的输入文本；

所述提取模块，用于按照所述输入文本中字符的预设顺序，从初始提取位置，以一个字符为步长，依次提取预设提取数量的多个字符串，所述初始提取位置为所述输入文本的首字符位置；

所述运算模块，用于针对所述多个字符串中的每个字符串，将该字符串中每个字符的编码，采用预设混淆算法进行混淆运算，得到混淆结果，并将得到的该字符串中每个字符的混淆结果求和，得到该字符串的叠加值；

所述排序模块，用于对所述多个字符串中满足预设条件的字符串，按照叠加值的预设大小顺序进行排序，得到排序后的字符串；

所述选取模块，用于选取排序后的字符串中，排在前面且与预设关键词数量相同的字符串，确定为所述输入文本的关键词。

9.根据权利要求8所述的装置，其特征在于，所述预设关键词数量是基于所述输入文本的长度和预设关键词提取比例确定的。

10.根据权利要求9所述的装置，其特征在于，所述预设关键词数量是采用如下表达式表示确定的：

N＝int(L*r)；

11.根据权利要求8所述的装置，其特征在于，所述排序后的字符串中叠加值相同的字符串，是按照从前到后的提取顺序进行排序的。

12.根据权利要求8所述的装置，其特征在于，所述装置还包括提取区域确定模块；

所述提取区域确定模块，用于在所述提取模块依次提取预设数量的多个字符串之后，基于所述多个字符串中每个字符串的提取位置与所述预设提取数量，确定每个字符串对应的提取区域；

所述排序模块，具体用于对所述多个字符串，按照叠加值的预设大小顺序进行排序，得到第一排序结果；

所述选取模块，具体用于选取所述排序模块得到的所述第二排序结果中，排在前面且与预设关键字数量相同的字符串，确定为所述输入文本的关键词。

13.根据权利要求8所述的装置，其特征在于，在所述选取模块选取排序后的字符串中，排在前面且与预设关键词数量相同的字符串，确定为所述输入文本的关键词之前，

所述排序模块，还用于当排序后的字符串中包含相同的字符串时，保留一个字符串。

14.根据权利要求8所述的装置，其特征在于，所述待提取关键词的输入文本包括英文字符、汉字字符、数字字符或二进制序列。

15.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1-7任一所述的方法步骤。