CN104182383B

CN104182383B - 一种文字统计方法及设备

Info

Publication number: CN104182383B
Application number: CN201310200348.0A
Authority: CN
Inventors: 朱锋
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2013-05-27
Filing date: 2013-05-27
Publication date: 2019-01-01
Anticipated expiration: 2033-05-27
Also published as: CN104182383A; WO2014190714A1

Abstract

本发明实施例公开了一种文字统计方法，包括：获取目标文本中文字组合的首字母组合，且每一文字组合对应一个首字母组合；其中，所述文字组合是指位置连续的且文字个数至少为一个的组合，所述文字组合的首字母组合是指该文字组合中每个字的拼音的首个字母的组合；统计所述首字母组合出现的频次，并确定一个或多个首字母组合作为目标首字母组合；通过所述文字组合与首字母组合的对应关系，确定所述目标首字母组合对应的目标文字组合，所述目标首字母组合出现的频次即为所述目标文字组合出现的频次。相应地，本发明实施例还公开了一种文字统计设备。本发明实施例可以在统计文字出现频次的过程中可以减少设备的内存消耗。

Description

一种文字统计方法及设备

技术领域

本发明涉及文字处理领域，尤其涉及一种文字统计方法及设备。

背景技术

提取出现概率高的文字在当今应用十分广泛，例如：从某一段文本选取出现次数最多的词语作为该文本关键字。目前主要通过使用单个汉字对文本进行统计，以统计出文本中的文字出现的频次。该技术是通过存储所有两个连续的汉字，如果一篇文章有M个汉字，在极端的情况下会有M-1个组合，这个组合数会随着文字字数的增多而最多，带来的内存消耗也会增加.

发明内容

本发明实施例提供了一种文字统计方法及设备，在统计文字出现频次的过程中可以减少设备的内存消耗。

为了解决上述技术问题，本发明实施例提供的一种文字统计方法，包括：

获取目标文本中文字组合的首字母组合，且每一文字组合对应一个首字母组合；其中，所述文字组合是指位置连续的且文字个数至少为一个的组合，所述文字组合的首字母组合是指该文字组合中每个字的拼音的首个字母的组合；

统计所述首字母组合出现的频次，并确定一个或多个首字母组合作为目标首字母组合；

通过所述文字组合与首字母组合的对应关系，确定所述目标首字母组合对应的目标文字组合，所述目标首字母组合出现的频次即为所述目标文字组合出现的频次。

相应地，本发明实施例还提供一种文字统计设备，包括：获取单元、统计单元和查找单元，其中：

所述获取单元，用于获取目标文本中文字组合的首字母组合，且每一文字组合对应一个首字母组合；其中，所述文字组合是指位置连续的且文字个数至少为一个的组合，所述文字组合的首字母组合是指该文字组合中每个字的拼音的首个字母的组合；

所述统计单元，用于统计所述首字母组合出现的频次，并确定一个或多个首字母组合作为目标首字母组合；

所述查找单元，用于通过所述文字组合与首字母组合的对应关系，确定所述目标首字母组合对应的目标文字组合，所述目标首字母组合出现的频次即为所述目标文字组合出现的频次。

上述技术方案中，获取目标文本中文字组合的首字母组合，且每一文字组合对应一个首字母组合；其中，所述文字组合是指位置连续的且文字个数至少为一个的组合，所述文字组合的首字母组合是指该文字组合中每个字的拼音的首个字母的组合；统计所述首字母组合出现的频次，并确定一个或多个首字母组合作为目标首字母组合；通过所述文字组合与首字母组合的对应关系，确定所述目标首字母组合对应的目标文字组合，所述目标首字母组合出现的频次即为所述目标文字组合出现的频次。这样在统计文字出现频次的过程中，只需要存储文字的首字母组合，而常用汉字3755个的首字母总共会出现的字母有23个，由于一个拼音组合会有多个汉字的原因，则在一篇M个字的文章中实际出现的拼音首字母组合数会远远小于汉字的组合，从而内存消耗也会减少。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种文字统计方法的流程示意图；

图2是本发明实施例提供的另一种文字统计方法的流程示意图；

图3是本发明实施例提供的一种文字统计设备的结构示意图；

图4是本发明实施例提供的另一种文字统计设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1是本发明实施例提供的一种文字统计方法的流程示意图，如图1所示，包括：

101、获取目标文本中文字组合的首字母组合，且每一文字组合对应一个首字母组合；其中，所述文字组合是指位置连续的且文字个数至少为一个的组合，所述文字组合的首字母组合是指该文字组合中每个字的拼音的首个字母的组合。

所述文字组合是指位置连续的且文字个数至少为一个的组合，即文字组合可以包含一个或者多个字，例如：目标文本中包含“发”、“网络”、“计算机”等文字组合，而这些文字组合分别对应首字母组合“F”“WL”“JSJ”。当然本实施例中还可以是获取目标文本中特定属性的文字组合的首字母组合，例如：获取目标文本中名词的文字组合的首字母组合，或者获取目标文本中动词的文字组合的首字母组合，即上述文字组合可以是名词或者动词，当然该特定属性可以是根据用户需要示而设置为不同的属性，例如：名词、动词、形容词等。

102、统计所述首字母组合出现的频次，并确定一个或多个首字母组合作为目标首字母组合。

该目标首字母组合可以是步骤101获取的首字母组合中出现频次最多的一个或者多个首字母组合，还可以是步骤101获取的首字母组合中为预先指定的一个或者多个首字母组合，还可以是步骤101获取的首字母组合中预先指定的一个或者多个文字组合的首字母组合。

103、通过所述文字组合与首字母组合的对应关系，确定所述目标首字母组合对应的目标文字组合，所述目标首字母组合出现的频次即为所述目标文字组合出现的频次。

可选的，上述目标文本可以是计算机、手机、平板电脑、服务器、或者虚拟网络中存储的任何文本。例如，目前最常见的评论、或者微博等。

可选的，所述方法可以应用于计算机、手机、平板电脑或者服务器等任何可以处理文本的设备上，即这些设备都可以实现所述方法。

例如：“网络原指用一个巨大的虚拟画面，网络把所有东西连接起来，网络也可以作为动词使用。”这个段文本为例进行说明，假设上述文字组合是指位置连续的且文字个数为2的组合，且确定步骤101获取的首字母组合中出现频次最多的一个首字母组合为目标首字母组合，那么该文本中就有“网络”、“络原”、“原指”、“用一”…、“动词”、“词使”和“使用”这些文字组合，其中“网络”的首字母组合就为WL，其它文字组合的首字母组合就不一一例举，经过步骤102统计就得到目标首字母组合为WL；步骤103就所述目标文本中查找出WL的目标文字组合，即查找出“网络”，即该文本出网络这一词语出现最多，且统计出该组合出现的频次。

图2是本发明实施例提供的另一种文字统计方法的流程示意图，如图2所示，包括：

201、获取目标文本中文字组合的首字母组合，且每一文字组合对应一个首字母组合；其中，所述文字组合是指位置连续的且文字个数至少为一个的组合，所述文字组合的首字母组合是指该文字组合中每个字的拼音的首个字母的组合。

可选的，步骤201可以是将目标文本中每个文字转换为拼音，再每个文字组合的首字母组合。

可选的，由于文字的美国信息交换标准代码(American Standard Code forInformation Interchange，Ascii)都是按照拼音排序的，这样步骤201就可以根据每个文字的Ascii获取到该文字的拼音。

202、统计所述首字母组合出现的频次，并确定一个或多个首字母组合作为目标首字母组合；

可选的，步骤202可以是将步骤201获取的所有首字母组合进行出现次数排序，选择出现次数最多H个首字母组合作为目标首字母组合，其中，H为大于零的整数。

203、通过所述文字组合与首字母组合的对应关系，确定所述目标首字母组合对应的目标文字组合，所述目标首字母组合出现的频次即为所述目标文字组合出现的频次。

可选的，步骤203可以将每个目标首字母组合对应的文字组合都选取出来，再分别对每个目标首字母组合对应的文字组合进行现出次数排序，选择出每个所述目标首字母组合的目标文字组合；例如：首字母组合为目标首字母组合1的文字组合包括：文字组合1、文字组合2和文字组合3，其中，文字组合1出现的频次最多，即将文字组合1作为目标首字母组合1的目标文字组合。

204、判断所述确定出的目标文字组合是否包括第一目标文字组合和第二目标文字组合，其中，所述第一目标文字组合的最后一个文字与所述第二目标文字组合的第一个文字相同；若是，则执行步骤205；若否，则执行步骤206；

205、将所述第一目标文字组合与所述第二目标文字组合进行合并得到第三目标文字组合，并将所述查找出的目标文字组合中的其它文字组合和所述第三目标文字组合作为所述目标文本中出现概率最多的词语；所述其它文字组合是所述查找出的目标文字组合除所述第一目标文字组合和所述第二目标文字组合之外的所有目标文字组合。

可选的，例如：目标文本中最的多词语为“为什么”，而上述文字组合定义为的位置连续的且文字个数为2，那么步骤203查找出的目标文字组合就为“为什”和“什么”，步骤204就判断“为什”为第一目标文字组合，“什么”为第二目标文字组合；步骤205再将这两个文字组合进行合并，得到第三目标文字组合“为什么”。例如：目标文本中最的多词语为“为什么会是”，而文字组合定义为的位置连续的且文字个数为3，那么步骤203查找出的目标文字组合就为“为什么”和“么会是”，步骤204就判断“为什么”为第一目标文字组合，“么会是”为第二目标文字组合；步骤205再将这两个文字组合进行合并，得到第三目标文字组合“为什么会是”。

206、将查找出的目标文字组合作为所述目标文本中出现概率最多的词语。

作为一种可选的实施方式，步骤205中的将所述第一目标文字组合与所述第二目标文字组合进行合并得到第三目标文字组合，可以包括：

将所述第一目标文字组合与所述第二目标文字组合进行合并得到候选目标文字组合；

判断所述目标文本是否包含所述候选目标文字组合，若是，则将所述候选目标文字组合作为第三目标文字组合；若否，将放弃所述候选目标文字组合，并触发步骤206。

例如，文字组合定义为的位置连续的且文字个数为2，那么步骤203查找出的目标文字组合就为“为什”和“什么”，步骤204就判断“为什”为第一目标文字组合，“什么”为第二目标文字组合；步骤205再将这两个文字组合进行合并，得到候选目标文字组合“为什么”。而目标文本中存在“为什么”这个组合，即将“为什么”作为上述第三目标文字组合。例如：文字组合定义为的位置连续的且文字个数为2，那么步骤203查找出的目标文字组合就为“问题”和“题目”，步骤204就判断“问题”为第一目标文字组合，“题目”为第二目标文字组合；步骤205再将这两个文字组合进行合并，得到候选目标文字组合“问题目”，而目标文本中不存在“问题目”这个组合时，就可以放弃该候选目标文字组合。

判断所述第一目标文字组合与所述第二目标文字组合在所述目标文本中出现的频次是否相同，若是，则将所述第一目标文字组合与所述第二目标文字组合进行合并得到第三目标文字组合。

可选的，判断所述第一目标文字组合与所述第二目标文字组合在所述目标文本中出现的频次不相同，则触发步骤206。

判断所述第一目标文字组合与所述第二目标文字组合在所述目标文本中出现的频次是否相同，若相同，将所述第一目标文字组合与所述第二目标文字组合进行合并得到候选目标文字组合；判断所述目标文本是否包含所述候选目标文字组合，若包含，则将所述候选目标文字组合作为第三目标文字组合；若不包含，将放弃所述候选目标文字组合，并触发步骤206；

若判断所述第一目标文字组合与所述第二目标文字组合在所述目标文本中出现的频次不相同，则触发步骤206。

上述技术方案，在上面实施例的基础上，实现了多种查找文字的方法，且都可以减少内存的消耗。

下面为本发明装置实施例，本发明装置实施例用于执行本发明方法实施例一至二实现的方法，为了便于说明，仅示出了与本发明实施例相关的部分，具体技术细节未揭示的，请参照本发明实施例一和实施例二。

图3是本发明实施例提供的一种文字统计设备的结构示意图，如图3所示，包括：获取单元31、统计单元32和查找单元33，其中：

获取单元31，用于获取目标文本中文字组合的首字母组合，且每一文字组合对应一个首字母组合；其中，所述文字组合是指位置连续的且文字个数至少为一个的组合，所述文字组合的首字母组合是指该文字组合中每个字的拼音的首个字母的组合。

统计单元32，用于统计所述首字母组合出现的频次，并确定一个或多个首字母组合作为目标首字母组合。

该目标首字母组合可以是获取单元31获取的首字母组合中出现频次最多的一个或者多个首字母组合，还可以是获取单元31获取的首字母组合中为预先指定的一个或者多个首字母组合，还可以是获取单元31获取的首字母组合中预先指定的一个或者多个文字组合的首字母组合。

查找单元33，用于通过所述文字组合与首字母组合的对应关系，确定所述目标首字母组合对应的目标文字组合，所述目标首字母组合出现的频次即为所述目标文字组合出现的频次。

可选的，所述设备可以是计算机、手机、平板电脑或者服务器等任何可以处理文本的设备。

作为一种可选的实施方式，如图4所示，所述设备还可以包括：

判断单元34，用于判断所述确定出的目标文字组合是否包括第一目标文字组合和第二目标文字组合，其中，所述第一目标文字组合的最后一个文字与所述第二目标文字组合的第一个文字相同；

合并单元35，用于当判断单元34判断结果为是时，将所述第一目标文字组合与所述第二目标文字组合进行合并得到第三目标文字组合，并将所述查找出的目标文字组合中的其它文字组合和所述第三目标文字组合作为所述目标文本中出现概率最多的词语；所述其它文字组合是所述查找出的目标文字组合除所述第一目标文字组合和所述第二目标文字组合之外的所有目标文字组合。

确定单元36，用于当判断单元34判断结果为否时，将查找出的目标文字组合作为所述目标文本中出现概率最多的词语。

可选的，合并单元35还可以用于将所述第一目标文字组合与所述第二目标文字组合进行合并得到候选目标文字组合；以及判断所述目标文本是否包含所述候选目标文字组合，若是，则将所述候选目标文字组合作为第三目标文字组合；若否，将放弃所述候选目标文字组合。

可选的，合并单元35还可以用于判断所述第一目标文字组合与所述第二目标文字组合在所述目标文本中出现的频次是否相同，若是，则将所述第一目标文字组合与所述第二目标文字组合进行合并得到第三目标文字组合。

可选的，合并单元35判断所述第一目标文字组合与所述第二目标文字组合在所述目标文本中出现的频次是否相同，若相同，将所述第一目标文字组合与所述第二目标文字组合进行合并得到候选目标文字组合；判断所述目标文本是否包含所述候选目标文字组合，若包含，则将所述候选目标文字组合作为第三目标文字组合；若不包含，将放弃所述候选目标文字组合；

确定单元36，用于当合并单元35判断所述第一目标文字组合与所述第二目标文字组合在所述目标文本中出现的频次不相同时，将查找出的目标文字组合作为所述目标文本中出现概率最多的词语。

上述技术方案中，通过所述文字组合与首字母组合的对应关系，确定所述目标首字母组合对应的目标文字组合，所述目标首字母组合出现的频次即为所述目标文字组合出现的频次。这样在统计文字出现频次的过程中，只需要存储文字的首字母组合，而常用汉字3755个的首字母总共会出现的字母有23个，由于一个拼音组合会有多个汉字的原因，则在一篇M个字的文章中实际出现的拼音首字母组合数会远远小于汉字的组合，从而内存消耗也会减少。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存取存储器(Random AccessMemory，简称RAM)等。

以上所揭露的仅为本发明较佳实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

Claims

1.一种文字统计方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，所述确定所述目标首字母组合对应的目标文字组合之后，所述方法包括：

判断所述确定出的目标文字组合是否包括第一目标文字组合和第二目标文字组合，其中，所述第一目标文字组合的最后一个文字与所述第二目标文字组合的第一个文字相同；若是，则将所述第一目标文字组合与所述第二目标文字组合进行合并得到第三目标文字组合，并将所述确定出的目标文字组合中的其它文字组合和所述第三目标文字组合作为所述目标文本中出现概率最多的词语；所述其它文字组合是所述确定出的目标文字组合除所述第一目标文字组合和所述第二目标文字组合之外的所有目标文字组合；

若否，则将所述确定出的目标文字组合作为所述目标文本中出现概率最多的词语。

3.如权利要求2所述的方法，其特征在于，所述将所述第一目标文字组合与所述第二目标文字组合进行合并得到第三目标文字组合，包括：

判断所述目标文本是否包含所述候选目标文字组合，若是，则将所述候选目标文字组合作为第三目标文字组合；若否，将放弃所述候选目标文字组合。

4.如权利要求2所述的方法，其特征在于，所述将所述第一目标文字组合与所述第二目标文字组合进行合并得到第三目标文字组合，包括：

5.如权利要求1-4中任一项所述的方法，其特征在于，所述获取目标文本中文字组合的首字母组合，包括：

获取目标文本中特定属性的文字组合的首字母组合。

6.一种文字统计设备，其特征在于，包括：获取单元、统计单元和查找单元，其中：

7.如权利要求6所述的设备，其特征在于，所述设备包括：

判断单元，用于判断所述确定出的目标文字组合是否包括第一目标文字组合和第二目标文字组合，其中，所述第一目标文字组合的最后一个文字与所述第二目标文字组合的第一个文字相同；

合并单元，用于当所述判断单元判断结果为是时，将所述第一目标文字组合与所述第二目标文字组合进行合并得到第三目标文字组合，并将所述确定出的目标文字组合中的其它文字组合和所述第三目标文字组合作为所述目标文本中出现概率最多的词语；所述其它文字组合是所述确定出的目标文字组合除所述第一目标文字组合和所述第二目标文字组合之外的所有目标文字组合；

确定单元，用于当所述判断单元判断结果为否时，将所述确定出的目标文字组合作为所述目标文本中出现概率最多的词语。

8.如权利要求7所述的设备，其特征在于，所述合并单元还用于将所述第一目标文字组合与所述第二目标文字组合进行合并得到候选目标文字组合；以及判断所述目标文本是否包含所述候选目标文字组合，若是，则将所述候选目标文字组合作为第三目标文字组合；若否，将放弃所述候选目标文字组合。

9.如权利要求7所述的设备，其特征在于，所述合并单元还用于判断所述第一目标文字组合与所述第二目标文字组合在所述目标文本中出现的频次是否相同，若是，则将所述第一目标文字组合与所述第二目标文字组合进行合并得到第三目标文字组合。

10.如权利要求6-9中任一项所述的设备，其特征在于，所述获取单元还用于获取目标文本中特定属性的文字组合的首字母组合。