CN111832310B

CN111832310B - 一种文本处理方法及装置

Info

Publication number: CN111832310B
Application number: CN201910330851.5A
Authority: CN
Inventors: 兰红云
Original assignee: Beijing Didi Infinity Technology and Development Co Ltd
Current assignee: Beijing Didi Infinity Technology and Development Co Ltd
Priority date: 2019-04-23
Filing date: 2019-04-23
Publication date: 2024-04-16
Anticipated expiration: 2039-04-23
Also published as: CN111832310A

Abstract

本申请提供了一种文本处理方法及装置，该文本处理方法包括确定多个文本中的重复字符串；从重复字符串中筛选不包含已有独立词汇的候选字符串；基于候选字符串的长度、候选字符串中每个字符对应的第一词汇在多个文本中出现的概率，和每个字符对应的第二词汇在多个文本中出现的概率，确定候选字符串是否能够形成一个新的独立词汇；第一词汇为对应的字符和候选字符串中该字符的前一个字符形成的词汇，第二词汇为对应的字符和候选字符串中该字符的后一个字符形成的词汇。利用本申请提供的上述方法可以精确地发现新的独立词汇，将该新的独立词汇存入词库中，用更新后的词库对待分析文本进行语义分析，提高了语义分析结果的准确度。

Description

一种文本处理方法及装置

技术领域

本申请涉及数据处理技术领域，具体而言，涉及一种文本处理方法及装置。

背景技术

在对文本进行语义分析的过程中，对于新词的发现和处理，是影响分析结果准确度的一个关键因素，也即是理解生成上述文本的用户的真实意图的关键因素。

现有技术中，通过处理预设字符个数的文本，或者通过文本中字符的凝固度来筛选出可能的新词。但是，在对非预设字符个数的字符串进行处理时，会很难识别并确定其是否可以成为新词；通过文本的凝固度来筛选新词时，仅利用各个字符在文本中出现的概率来计算两个相邻字符的凝固度，即组合成新词的概率，但不能计算多个字符组合成新词的概率。可见，上述两种方法均无法有效的找到新词的发现。

发明内容

有鉴于此，本申请实施例的目的在于提供一种文本处理方法及装置，能够精确地发现新的独立词汇，进而有利于提高语义分析结果的准确度。

第一方面，本申请实施例提供了一种文本处理方法，其中，包括：

确定多个文本中的重复字符串；

从所述重复字符串中筛选不包含已有独立词汇的候选字符串；

基于所述候选字符串的长度、所述候选字符串中每个字符对应的第一词汇在所述多个文本中出现的概率，和每个字符对应的第二词汇在所述多个文本中出现的概率，确定所述候选字符串是否能够形成一个新的独立词汇；所述第一词汇为对应的字符和候选字符串中该字符的前一个字符形成的词汇，所述第二词汇为对应的字符和候选字符串中该字符的后一个字符形成的词汇。

结合第一方面，本申请实施例提供了第一方面的第一种可能的实施方式，其中，所述从所述重复字符串中筛选不包含已有独立词汇的候选字符串，包括：

基于所述重复字符串中每个字符对应的第三词汇在所述多个文本中出现的概率，和每个字符对应的第四词汇在所述多个文本中出现的概率，确定所述重复字符串中的独立词汇；所述第三词汇为对应的字符和重复字符串中该字符的前一个字符形成的词汇，所述四词汇为对应的字符和重复字符串中该字符的后一个字符形成的词汇；

从所述重复字符串中的除所述独立词汇以外的字符串中，筛选所述候选字符串。

结合第一方面的第一种可能的实施方式，本申请实施例提供了第一方面的第二种可能的实施方式，其中，所述从所述重复字符串中的除所述独立词汇以外的字符串中，筛选所述候选字符串，包括：

从所述重复字符串中，获取除所述独立词汇以外的字符串，得到待选字符串；

从所述待选字符串中，选取包含的字符的数量大于预定数值的待选字符串，得到所述候选字符串。

结合第一方面的第一种可能的实施方式，本申请实施例提供了第一方面的第三种可能的实施方式，其中，所述基于所述重复字符串中每个字符对应的第三词汇在所述多个文本中出现的概率，和每个字符对应的第四词汇在所述多个文本中出现的概率，确定所述重复字符串中的独立词汇，包括：

获取预设的第一阈值；

针对所述重复字符串中除首字符和尾字符以外的每个字符，计算该字符对应的第三词汇在所述多个文本中出现的概率，与该字符对应的第四词汇在所述多个文本中出现的概率的比值，得到该字符对应的成词比率；

筛选成词比率大于所述第一阈值的字符，并根据筛选得到字符确定所述重复字符串中的独立词汇。

结合第一方面的第三种可能的实施方式，本申请实施例提供了第一方面的第四种可能的实施方式，其中，所述根据筛选得到字符确定所述重复字符串中的独立词汇，包括：

若筛选得到的字符的数量为一个，则将筛选得到的字符、重复字符串中该字符的前一个字符、和重复字符串中该字符的后一个字符组成的字符串作为所述独立词汇；

若筛选得到的字符的数量为多个，并且筛选得到的字符在所述重复字符串中连续排列，则将筛选得到的字符、筛选得到的字符中的第一字符的前一个字符、和筛选得到的字符中的最后一字符的后一个字符组成的字符串作为所述独立词汇；

若筛选得到的字符的数量为多个，并且筛选得到的字符在所述重复字符串中不连续排列，则针对每个筛选得到字符，将该字符、重复字符串中该字符的前一个字符、和重复字符串中该字符的后一个字符组成的字符串作为该字符对应的独立词汇。

结合第一方面的第一种可能的实施方式，本申请实施例提供了第一方面的第五种可能的实施方式，其中，还包括：

若所述重复字符串包括两个字符，则将所述重复字符串作为所述独立词汇。

结合第一方面的第一种可能的实施方式，本申请实施例提供了第一方面的第六种可能的实施方式，其中，在确定所述新的独立词汇之前，还包括：

从确定的独立词汇中，筛选包含其他独立词汇的词汇，得到待拆分词汇；

对所述待拆分词汇进行拆分，并从拆分得到字符串中筛选不包含已有独立词汇的候选字符串。

结合第一方面，本申请实施例提供了第一方面的第七种可能的实施方式，其中，所述基于所述候选字符串的长度、所述候选字符串中每个字符对应的第一词汇在所述多个文本中出现的概率，和每个字符对应的第二词汇在所述多个文本中出现的概率，确定所述候选字符串是否能够形成一个新的独立词汇，包括：

针对所述候选字符串中除首字符和尾字符之外的每个字符，基于该字符对应的第一词汇在所述多个文本中出现的概率、该字符对应的第二词汇在所述多个文本中出现的概率、该字符在所述多个文本中出现的概率、和所述候选字符串的长度，确定该字符对应的新词比率；

基于候选字符串中除首字符和尾字符之外的每个字符，对应的新词比率，确定所述候选字符串是否能够形成一个新的独立词汇。

结合第一方面，本申请实施例提供了第一方面的第八种可能的实施方式，其中，还包括：

若候选字符串能够形成一个新的独立词汇，则判断词库中是否包括所述新的独立词汇；所述词库包括多个独立词汇；

若所述词库中不包括所述新的独立词汇，则将所述新的独立词汇存入所述词库中。

结合第一方面的第八种可能的实施方式，本申请实施例提供了第一方面的第九种可能的实施方式，其中，还包括：

获取待分析文本；

基于所述词库，确定所述待分析文本中的独立词汇；

基于所述待分析文本中的独立词汇中在所述多个文本中出现的概率，从待分析文本中的独立词汇中筛选目标独立词汇。

结合第一方面的第九种可能的实施方式，本申请实施例提供了第一方面的第十种可能的实施方式，其中，所述基于所述待分析文本中的独立词汇中在所述多个文本中出现的概率，从待分析文本中的独立词汇中筛选目标独立词汇，包括：

获取预设的第二阈值；

从所述待分析文本中的独立词汇中，筛选在所述待分析文本中出现的概率大于所述第二阈值的独立词汇，得到所述目标独立词汇。

结合第一方面的第九种可能的实施方式，本申请实施例提供了第一方面的第十一种可能的实施方式，其中，所述基于所述待分析文本中的独立词汇中在所述多个文本中出现的概率，从待分析文本中的独立词汇中筛选目标独立词汇，包括：

从待分析文本中的独立词汇中筛选预定数量个，在所述多个文本中出现的概率最大的独立词汇，得到所述目标独立词汇。

第二方面，本申请实施例还提供了一种文本处理装置，其中，包括：

重复字符串确定模块，用于确定多个文本中的重复字符串；

候选字符串筛选模块，用于从所述重复字符串中筛选不包含已有独立词汇的候选字符串；

新的独立词汇确定模块，用于基于所述候选字符串的长度、所述候选字符串中每个字符对应的第一词汇在所述多个文本中出现的概率，和每个字符对应的第二词汇在所述多个文本中出现的概率，确定所述候选字符串是否能够形成一个新的独立词汇；所述第一词汇为对应的字符和候选字符串中该字符的前一个字符形成的词汇，所述第二词汇为对应的字符和候选字符串中该字符的后一个字符形成的词汇。

结合第二方面，本申请实施例提供了第二方面的第一种可能的实施方式，其中，所述候选字符串筛选模块包括：

独立词汇确定单元，用于基于所述重复字符串中每个字符对应的第三词汇在所述多个文本中出现的概率，和每个字符对应的第四词汇在所述多个文本中出现的概率，确定所述重复字符串中的独立词汇；所述第三词汇为对应的字符和重复字符串中该字符的前一个字符形成的词汇，所述四词汇为对应的字符和重复字符串中该字符的后一个字符形成的词汇；

候选字符串筛选单元，用于从所述重复字符串中的除所述独立词汇以外的字符串中，筛选所述候选字符串。

结合第二方面的第一种可能的实施方式，本申请实施例提供了第二方面的第二种可能的实施方式，其中，所述候选字符串筛选单元，具体用于：

结合第二方面的第一种可能的实施方式，本申请实施例提供了第二方面的第三种可能的实施方式，其中，所述独立词汇确定单元，具体用于：

获取预设的第一阈值；

结合第二方面的第三种可能的实施方式，本申请实施例提供了第二方面的第四种可能的实施方式，其中，所述独立词汇确定单元，还具体用于：

结合第二方面的第一种可能的实施方式，本申请实施例提供了第二方面的第五种可能的实施方式，其中，还包括：

独立词汇确定单元，还用于若所述重复字符串包括两个字符，则将所述重复字符串作为所述独立词汇。

结合第二方面的第一种可能的实施方式，本申请实施例提供了第二方面的第六种可能的实施方式，其中，还包括：

拆分模块，用于从确定的独立词汇中，筛选包含其他独立词汇的词汇，得到待拆分词汇；

结合第二方面，本申请实施例提供了第二方面的第七种可能的实施方式，其中，所述新的独立词汇确定模块，具体用于：

结合第二方面，本申请实施例提供了第二方面的第八种可能的实施方式，其中，还包括：

存储模块，用于若候选字符串能够形成一个新的独立词汇，则判断词库中是否包括所述新的独立词汇；所述词库包括多个独立词汇；

结合第二方面的第八种可能的实施方式，本申请实施例提供了第二方面的第九种可能的实施方式，其中，还包括：

获取模块，用于获取待分析文本；

确定模块，用于基于所述词库，确定所述待分析文本中的独立词汇；

筛选模块，用于基于所述待分析文本中的独立词汇中在所述多个文本中出现的概率，从待分析文本中的独立词汇中筛选目标独立词汇。

结合第二方面的第九种可能的实施方式，本申请实施例提供了第二方面的第十种可能的实施方式，其中，所述筛选模块，具体用于：

获取预设的第二阈值；

结合第二方面的第九种可能的实施方式，本申请实施例提供了第二方面的第十一种可能的实施方式，其中，所述筛选模块，还用于：

第三方面，本申请实施例还提供一种电子设备，包括：处理器、存储介质和总线，所述存储介质存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储介质之间通过总线通信，所述处理器执行所述机器可读指令，以执行时执行本申请实施例第一方面，以及第一方面中任一种可能的实施方式中的步骤。

第四方面，本申请实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行本申请实施例第一方面，以及第一方面中任一种可能的实施方式中的步骤。

本申请实施例提供的一种文本处理方法及装置，其中，文本处理方法包括确定多个文本中的重复字符串；从重复字符串中筛选不包含已有独立词汇的候选字符串；基于候选字符串的长度、候选字符串中每个字符对应的第一词汇在多个文本中出现的概率，和每个字符对应的第二词汇在多个文本中出现的概率，确定候选字符串是否能够形成一个新的独立词汇；第一词汇为对应的字符和候选字符串中该字符的前一个字符形成的词汇，二词汇为对应的字符和候选字符串中该字符的后一个字符形成的词汇。本申请实施例首先查找出多个文本中的重复字符串中除独立词汇之外的候选字符串，并判断该候选字符串是否能够形成新的独立词汇，在该候选字符串能够形成新的独立词汇时，将该新的独立词汇存入词库中，用更新后的词库对待分析文本进行语义分析，提高了语义分析结果的准确度。

为使本申请的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本申请实施例所提供的一种文本处理方法的流程图；

图2示出了本申请实施例所提供的另一种文本处理方法的流程图；

图3示出了本申请实施例所提供的另一种文本处理方法的流程图；

图4示出了本申请实施例所提供的一种文本处理装置的结构示意图；

图5示出了本申请实施例所提供的另一种文本处理装置的结构示意图；

图6示出了本申请实施例所提供的另一种文本处理装置的结构示意图；

图7示出了本申请实施例所提供的电子设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

现有技术中，通过预先设定可以处理的字符个数，或者通过字符串的凝固度来筛选出可能的新词。但是，在判断除预先设定的字符个数的字符串之外的字符串时，会很难识别并确定其是否可以成为新词；通过字符串的凝固度来筛选新词时，仅利用各个字符在文本中出现的概率来计算两个字符的凝固度，即组合成新词的概率，但不能计算多个字符组合成新词的概率。可见，上述两种方法均无法有效的找到新词的发现。针对上述问题，本申请实施例提供的一种文本处理方法及装置，能够精确地发现新的独立词汇，进而有利于提高语义分析结果的准确度。

为便于对本申请实施例进行理解，首先对本申请实施例所公开的一种文本处理方法进行详细介绍。具体的，实施例以服务器为执行主体进行介绍。

如图1所示，为本申请实施例提供的文本处理方法的流程图，具体步骤如下：

S101，确定多个文本中的重复字符串。

在具体实施中，每个文本包括多个连续的字符，将每两个文本分别进行对比，将两个文本中重复出现的字符串筛选出来，得到重复字符串。

其中，该重复字符串为至少两个连续的字符，并且将每两个文本进行对比之后，可以得到多个重复字符串。

例如，当前有三个文本，将第一个和第二个进行对比，得到第一重复字符串；将第一个和第三个进行对比，得到第二重复字符串；将第二个和第三个进行对比，得到第三重复字符串；将第一重复字符串、第二重复字符串、第三重复字符串进行合并，得到该三个文本的重复字符串。

若第一重复字符串和第二重复字符串相同，则可以保留其中一个作为重复字符串。

S102，从重复字符串中筛选不包含已有独立词汇的候选字符串。

在具体实施中，可以先判断重复字符串中能够形成独立词汇的字符串，将重复字符串中能够形成独立词汇的字符串去除，剩余的则为候选字符串。

这里，确定重复字符串中能够形成独立词汇的字符串的方法参照图2，具体的在后文中进行详细阐述，在此不做过多赘述。

S103，基于候选字符串的长度、候选字符串中每个字符对应的第一词汇在多个文本中出现的概率，和每个字符对应的第二词汇在多个文本中出现的概率，确定候选字符串是否能够形成一个新的独立词汇；第一词汇为对应的字符和候选字符串中该字符的前一个字符形成的词汇，二词汇为对应的字符和候选字符串中该字符的后一个字符形成的词汇。

在具体实施中，候选字符串为长度大于或等于3的字符串。

针对候选字符串中除首字符和尾字符之外的每个字符，基于该字符对应的第一词汇在多个文本中出现的概率、该字符对应的第二词汇在多个文本中出现的概率、该字符在多个文本中出现的概率、和候选字符串的长度，确定该字符对应的新词比率；其中，具体的按照公式1来确定该字符对应的新词比率。

其中，公式1如下：

其中，P_i表示新词比率，P₁表示字符对应的第一词汇在多个文本中出现的概率，P₂表示字符对应的第二词汇在多个文本中出现的概率，Len_total表示候选字符串的长度。

基于候选字符串中除首字符和尾字符之外的每个字符，对应的新词比率，确定候选字符串是否能够形成一个新的独立词汇。

即，判断上述新词比率是否超过预设标准，若超过，则确定候选字符串能够形成一个新的独立词汇；若未超过，则确定候选字符串不能形成一个新的独立词汇。还可以预先设定一个阈值，将新词比率与预设阈值进行对比，若新词比率大于预设阈值则确定候选字符串能够形成一个新的独立词汇；若新词比率小于或等于预设阈值，则确定候选字符串不能形成一个新的独立词汇。

在确定候选字符串能够形成一个新的独立词汇之后，则查找词库中是否包括该新的独立词汇，若不包括，则将该新的独立词汇存入词库中，以更新词库。

本申请实施例中，通过服务器首先查找出多个文本中的重复字符串中除独立词汇之外的候选字符串，并对该候选字符串进行判断，确定该候选字符串是否能够形成新的独立词汇。在该候选字符串能够形成新的独立词汇时，将该新的独立词汇存入词库中，用更新后的词库对待分析文本进行语义分析，提高了语义分析结果的准确度。

具体的，可以按照图2所示的方法从重复字符串中筛选不包含已有独立词汇的候选字符串，其中，具体步骤如下：

S201，基于重复字符串中每个字符对应的第三词汇在多个文本中出现的概率，和每个字符对应的第四词汇在多个文本中出现的概率，确定重复字符串中的独立词汇；第三词汇为对应的字符和重复字符串中该字符的前一个字符形成的词汇，第四词汇为对应的字符和重复字符串中该字符的后一个字符形成的词汇；

S202，从重复字符串中的除独立词汇以外的字符串中，筛选候选字符串。

在具体实施中，先判断重复字符串中能够形成独立词汇的字符串，即确定出重复字符串中的独立词汇。其中，该重复字符串的字符长度大于或等于3。

具体的，针对重复字符串中除首字符和尾字符以外的每个字符，计算该字符对应的第三词汇在多个文本中出现的概率，与该字符对应的第四词汇在多个文本中出现的概率的比值(具体算法可以参照公式2)，得到该字符对应的成词比率；其中，第三词汇为对应的字符和重复字符串中该字符的前一个字符形成的词汇，四词汇为对应的字符和重复字符串中该字符的后一个字符形成的词汇。

上述公式2如下：

其中，P表示成词比率，P₃表示第三词汇在多个文本中出现的概率，P₄表示第四词汇在多个文本中出现的概率。

将成词比率与获取的预设的第一阈值进行对比，并筛选成词比率大于第一阈值的字符，并根据筛选得到字符确定重复字符串中的独立词汇。其中，该独立词汇中包括的至少3个连续的字符。

若筛选得到的字符的数量为一个，则将筛选得到的字符、重复字符串中该字符的前一个字符、和重复字符串中该字符的后一个字符组成的字符串作为独立词汇。

例如，重复字符串为“我喜欢红玫瑰花”，则将“喜”、“欢”、“红”、“玫”、“瑰”分别按照上述方法进行判断。针对“欢”，将“喜”在多个文本中出现的概率，与“红”在多个文本中出现的概率进行求比值运算，得到“欢”对应的成词比率，若该成词比率大于第一阈值，则“喜欢红”可以作为独立词汇，若该成词比率小于或等于第一阈值，则“喜欢红”不可以作为独立词汇。

若筛选得到的字符的数量为多个，并且筛选得到的字符在重复字符串中连续排列，则将筛选得到的字符、筛选得到的字符中的第一字符的前一个字符、和筛选得到的字符中的最后一字符的后一个字符组成的字符串作为独立词汇。

例如，根据上述判断“红玫瑰花”是否可以作为独立词汇，针对“玫”，“红”在多个文本中出现的概率，与“瑰”在多个文本中出现的概率之间进行求比值运算之后，得到的“玫”对应的成词比率，大于第一阈值；且针对“瑰”，“玫”在多个文本中出现的概率，与“花”在多个文本中出现的概率之间进行求比值运算之后，得到的“瑰”对应的成词比率，大于第一阈值；则可以将“红玫瑰花”作为独立词汇。

若筛选得到的字符的数量为多个，并且筛选得到的字符在重复字符串中不连续排列，则针对每个筛选得到字符，将该字符、重复字符串中该字符的前一个字符、和重复字符串中该字符的后一个字符组成的字符串作为该字符对应的独立词汇。

例如，根据上述判断方法，确定出“喜欢红”可以作为独立词汇，在后续判断中，针对“红”，“欢”在多个文本中出现的概率，与“玫”在多个文本中出现的概率之间进行求比值运算之后，得到的“红”对应的成词比率，小于或等于第一阈值，则“喜欢红”不可以作为独立词汇，而是将“喜欢”作为独立词汇。

即，若相邻的两个字符分别对应的成词比率中，一个大于第一阈值，而另一个小于或等于第一阈值，则该相邻的两个字符以及对应的第三词汇、第四词汇不能作为独立词汇。

值得说明的是，若重复字符串包括两个字符，则将重复字符串作为独立词汇。

在具体实施中，通过上述方法确定的独立词汇中，可能存在第一独立词汇包含第二独立词汇的情况，例如，“蓝色妖姬”和“蓝色”均被确定为独立词汇，但“蓝色妖姬”中包含“蓝色”。针对该情况，需要对“蓝色妖姬”进行进一步的拆分。

具体的，从确定的独立词汇中，筛选包含其他独立词汇的词汇，得到待拆分词汇；对待拆分词汇进行拆分，并从拆分得到字符串中筛选不包含已有独立词汇的候选字符串。

这里，可以将待拆分词汇中包含的其他独立词汇提取出来，从待拆分词汇中剩余的字符串中筛选不包含已有独立词汇的候选字符串。

在具体实施中，待拆分词汇中剩余的字符串可以包含一个字符、两个字符或多个字符，因此，筛选不包含已有独立词汇的候选字符串也可以包含一个字符、两个字符或多个字符。

在确定出重复字符串中的独立词汇之后，从重复字符串中，获取除独立词汇以外的字符串，得到待选字符串；从待选字符串中，选取包含的字符的数量大于预定数值的待选字符串，得到候选字符串。其中，预定数值为2。

在具体实施中，可以按照图3所示的方法利用更新后的词库对待分析文本进行语义分析，其中，具体步骤如下：

S301，获取待分析文本；

S302，基于所述词库，确定所述待分析文本中的独立词汇；

S303，基于所述待分析文本中的独立词汇中在所述多个文本中出现的概率，从待分析文本中的独立词汇中筛选目标独立词汇。

这里，待分析文本可以是一篇微博，一段评论等。

在获取微博或评论之后，以句号为边界，将微博或评论划分为多个文本。

将词库与待分析文本中包括的所有字符串进行匹配，得到待分析文本中的独立词汇。

计算上述确定的独立词汇在待分析文本中出现的概率，筛选在待分析文本中出现的概率大于预设的第二阈值的独立词汇，将筛选得到的独立词汇作为目标独立词汇。还可以判断独立词汇在待分析文本中出现的概率是否落入预设范围内，将概率落入预设范围内的独立词汇作为目标独立词汇。

另外，在筛选出在待分析文本中出现的概率大于预设的第二阈值的独立词汇，或者独立词汇在待分析文本中出现的概率落入预设范围内的独立词汇大于预定数量时，可以将独立词汇按照概率从大到小进行排列，从概率大的开始，选取预定数量个独立词汇，将该预定数量个独立词汇作为目标独立词汇。

在确定目标独立词汇之后，根据目标独立词汇分析待分析文本的整体语义，得到待分析文本的语义分析结果。

根据该语义分析结果可以确定当前时间段内的热度词，还可以确定该餐厅的优点以及缺点等。

在将微博或评论划分为多个文本之后，可以将每个文本进行编号。针对每个文本，将该文本中每个字符进行编号。其中，可以对文本中每个字符随机进行编号，还可以对语义相近的字符或词汇设置相近的编号等。

基于同一发明构思，本申请实施例还提供了与文本处理方法对应的文本处理装置，由于本申请实施例中的装置解决问题的原理与本申请实施例上述文本处理方法相似，因此装置的实施可以参见方法的实施，重复之处不再赘述。

参见图4所示，本申请又一实施例所提供的文本处理装置包括：

重复字符串确定模块401，用于确定多个文本中的重复字符串；

候选字符串筛选模块402，用于从所述重复字符串中筛选不包含已有独立词汇的候选字符串；

新的独立词汇确定模块403，用于基于所述候选字符串的长度、所述候选字符串中每个字符对应的第一词汇在所述多个文本中出现的概率，和每个字符对应的第二词汇在所述多个文本中出现的概率，确定所述候选字符串是否能够形成一个新的独立词汇；所述第一词汇为对应的字符和候选字符串中该字符的前一个字符形成的词汇，所述第二词汇为对应的字符和候选字符串中该字符的后一个字符形成的词汇。

参见图5所示，在一种实施方式中，上述所述候选字符串筛选模块402包括：

独立词汇确定单元4021，用于基于所述重复字符串中每个字符对应的第三词汇在所述多个文本中出现的概率，和每个字符对应的第四词汇在所述多个文本中出现的概率，确定所述重复字符串中的独立词汇；所述第三词汇为对应的字符和重复字符串中该字符的前一个字符形成的词汇，所述四词汇为对应的字符和重复字符串中该字符的后一个字符形成的词汇；

候选字符串筛选单元4022，用于从所述重复字符串中的除所述独立词汇以外的字符串中，筛选所述候选字符串。

在另一种实施方式中，上述所述候选字符串筛选单元4022，具体用于：

在又一种实施方式中，所述独立词汇确定单元4021，具体用于：

获取预设的第一阈值；

在再一种实施方式中，所述独立词汇确定单元4021，还具体用于：

在再一种实施方式中，上述文本处理装置还包括：

独立词汇确定单元4021，还用于若所述重复字符串包括两个字符，则将所述重复字符串作为所述独立词汇。

在再一种实施方式中，上述文本处理装置还包括：

拆分模块404，用于从确定的独立词汇中，筛选包含其他独立词汇的词汇，得到待拆分词汇；

在再一种实施方式中，所述新的独立词汇确定模块403，具体用于：

在再一种实施方式中，上述文本处理装置还包括：

存储模块405，用于若候选字符串能够形成一个新的独立词汇，则判断词库中是否包括所述新的独立词汇；所述词库包括多个独立词汇；

参见图6所示，在再一种实施方式中，上述文本处理装置还包括：

获取模块601，用于获取待分析文本；

确定模块602，用于基于所述词库，确定所述待分析文本中的独立词汇；

筛选模块603，用于基于所述待分析文本中的独立词汇中在所述多个文本中出现的概率，从待分析文本中的独立词汇中筛选目标独立词汇。

图7描述了本发明实施例提供的一种电子设备700的结构，该电子设备700包括：至少一个处理器701，至少一个网络接口704或者其他用户接口703，存储器705，至少一个通信总线702。通信总线702用于实现这些组件之间的连接通信。该电子设备700可选的包含用户接口703，包括显示器(例如，触摸屏、LCD、CRT、全息成像(Holographic)或者投影(Projector)等)，键盘或者点击设备(例如，鼠标，轨迹球(trackball)，触感板或者触摸屏等)。

存储器705可以包括只读存储器和随机存取存储器，并向处理器701提供指令和数据。存储器705的一部分还可以包括非易失性随机存取存储器(NVRAM)。

在一些实施方式中，存储器705存储了如下的元素，可执行模块或者数据结构，或者他们的子集，或者他们的扩展集：

操作系统7051，包含各种系统程序，用于实现各种基础业务以及处理基于硬件的任务；

应用程序7052，包含各种应用程序，例如桌面(launcher)、媒体播放器(MediaPlayer)、浏览器(Browser)等，用于实现各种应用业务。

在本发明实施例中，通过调用存储器705存储的程序或指令，处理器701用于：确定多个文本中的重复字符串；

可选地，处理器701执行的方法中，所述从所述重复字符串中筛选不包含已有独立词汇的候选字符串，包括：

可选地，处理器701执行的方法中，所述从所述重复字符串中的除所述独立词汇以外的字符串中，筛选所述候选字符串，包括：

可选地，处理器701执行的方法中，所述基于所述重复字符串中每个字符对应的第三词汇在所述多个文本中出现的概率，和每个字符对应的第四词汇在所述多个文本中出现的概率，确定所述重复字符串中的独立词汇，包括：

获取预设的第一阈值；

可选地，处理器701执行的方法中，所述根据筛选得到字符确定所述重复字符串中的独立词汇，包括：

可选地，处理器701执行的方法中，还包括：

可选地，处理器701执行的方法中，在确定所述新的独立词汇之前，还包括：

可选地，处理器701执行的方法中，所述基于所述候选字符串的长度、所述候选字符串中每个字符对应的第一词汇在所述多个文本中出现的概率，和每个字符对应的第二词汇在所述多个文本中出现的概率，确定所述候选字符串是否能够形成一个新的独立词汇，包括：

可选地，处理器701执行的方法中，还包括：

获取待分析文本；

基于所述词库，确定所述待分析文本中的独立词汇；

可选地，处理器701执行的方法中，所述基于所述待分析文本中的独立词汇中在所述多个文本中出现的概率，从待分析文本中的独立词汇中筛选目标独立词汇，包括：

获取预设的第二阈值；

本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述任一实施例中的检测方法的步骤。

本申请实施例还提供了一种计算机程序产品，其包括存储了处理器可执行的非易失的程序代码的计算机可读存储介质，所述程序代码包括的指令可用于执行前面方法实施例中所述的方法，具体实现可参见方法实施例，在此不再赘述。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统和装置的具体工作过程，可以参考方法实施例中的对应过程，本申请中不再赘述。在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个模块或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种文本处理方法，其特征在于，包括：

确定多个文本中的重复字符串；

基于所述候选字符串的长度、所述候选字符串中每个字符对应的第一词汇在所述多个文本中出现的概率，和每个字符对应的第二词汇在所述多个文本中出现的概率，确定所述候选字符串是否能够形成一个新的独立词汇；所述第一词汇为对应的字符和候选字符串中该字符的前一个字符形成的词汇，所述第二词汇为对应的字符和候选字符串中该字符的后一个字符形成的词汇；

其中，所述基于所述候选字符串的长度、所述候选字符串中每个字符对应的第一词汇在所述多个文本中出现的概率，和每个字符对应的第二词汇在所述多个文本中出现的概率，确定所述候选字符串是否能够形成一个新的独立词汇，包括：

2.根据权利要求1所述的文本处理方法，其特征在于，所述从所述重复字符串中筛选不包含已有独立词汇的候选字符串，包括：

3.根据权利要求2所述的文本处理方法，其特征在于，所述从所述重复字符串中的除所述独立词汇以外的字符串中，筛选所述候选字符串，包括：

4.根据权利要求2所述的文本处理方法，其特征在于，所述基于所述重复字符串中每个字符对应的第三词汇在所述多个文本中出现的概率，和每个字符对应的第四词汇在所述多个文本中出现的概率，确定所述重复字符串中的独立词汇，包括：

获取预设的第一阈值；

5.根据权利要求4所述的文本处理方法，其特征在于，所述根据筛选得到字符确定所述重复字符串中的独立词汇，包括：

6.根据权利要求2所述的文本处理方法，其特征在于，还包括：

7.根据权利要求2所述的文本处理方法，其特征在于，在确定所述新的独立词汇之前，还包括：

8.一种文本处理装置，其特征在于，包括：

重复字符串确定模块，用于确定多个文本中的重复字符串；

新的独立词汇确定模块，用于基于所述候选字符串的长度、所述候选字符串中每个字符对应的第一词汇在所述多个文本中出现的概率，和每个字符对应的第二词汇在所述多个文本中出现的概率，确定所述候选字符串是否能够形成一个新的独立词汇；所述第一词汇为对应的字符和候选字符串中该字符的前一个字符形成的词汇，所述第二词汇为对应的字符和候选字符串中该字符的后一个字符形成的词汇；

所述新的独立词汇确定模块，具体用于：

9.一种电子设备，其特征在于，包括：处理器、存储介质和总线，所述存储介质存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储介质之间通过总线通信，所述处理器执行所述机器可读指令，以执行如权利要求1至7任一所述文本处理方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行如权利要求1至7任一所述文本处理方法的步骤。