CN104182383B - 一种文字统计方法及设备 - Google Patents

一种文字统计方法及设备 Download PDF

Info

Publication number
CN104182383B
CN104182383B CN201310200348.0A CN201310200348A CN104182383B CN 104182383 B CN104182383 B CN 104182383B CN 201310200348 A CN201310200348 A CN 201310200348A CN 104182383 B CN104182383 B CN 104182383B
Authority
CN
China
Prior art keywords
combination
target
text
spelling words
target text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201310200348.0A
Other languages
English (en)
Other versions
CN104182383A (zh
Inventor
朱锋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201310200348.0A priority Critical patent/CN104182383B/zh
Priority to PCT/CN2013/088853 priority patent/WO2014190714A1/en
Priority to US14/245,274 priority patent/US20140350919A1/en
Publication of CN104182383A publication Critical patent/CN104182383A/zh
Application granted granted Critical
Publication of CN104182383B publication Critical patent/CN104182383B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例公开了一种文字统计方法,包括:获取目标文本中文字组合的首字母组合,且每一文字组合对应一个首字母组合;其中,所述文字组合是指位置连续的且文字个数至少为一个的组合,所述文字组合的首字母组合是指该文字组合中每个字的拼音的首个字母的组合;统计所述首字母组合出现的频次,并确定一个或多个首字母组合作为目标首字母组合;通过所述文字组合与首字母组合的对应关系,确定所述目标首字母组合对应的目标文字组合,所述目标首字母组合出现的频次即为所述目标文字组合出现的频次。相应地,本发明实施例还公开了一种文字统计设备。本发明实施例可以在统计文字出现频次的过程中可以减少设备的内存消耗。

Description

一种文字统计方法及设备
技术领域
本发明涉及文字处理领域,尤其涉及一种文字统计方法及设备。
背景技术
提取出现概率高的文字在当今应用十分广泛,例如:从某一段文本选取出现次数最多的词语作为该文本关键字。目前主要通过使用单个汉字对文本进行统计,以统计出文本中的文字出现的频次。该技术是通过存储所有两个连续的汉字,如果一篇文章有M个汉字,在极端的情况下会有M-1个组合,这个组合数会随着文字字数的增多而最多,带来的内存消耗也会增加.
发明内容
本发明实施例提供了一种文字统计方法及设备,在统计文字出现频次的过程中可以减少设备的内存消耗。
为了解决上述技术问题,本发明实施例提供的一种文字统计方法,包括:
获取目标文本中文字组合的首字母组合,且每一文字组合对应一个首字母组合;其中,所述文字组合是指位置连续的且文字个数至少为一个的组合,所述文字组合的首字母组合是指该文字组合中每个字的拼音的首个字母的组合;
统计所述首字母组合出现的频次,并确定一个或多个首字母组合作为目标首字母组合;
通过所述文字组合与首字母组合的对应关系,确定所述目标首字母组合对应的目标文字组合,所述目标首字母组合出现的频次即为所述目标文字组合出现的频次。
相应地,本发明实施例还提供一种文字统计设备,包括:获取单元、统计单元和查找单元,其中:
所述获取单元,用于获取目标文本中文字组合的首字母组合,且每一文字组合对应一个首字母组合;其中,所述文字组合是指位置连续的且文字个数至少为一个的组合,所述文字组合的首字母组合是指该文字组合中每个字的拼音的首个字母的组合;
所述统计单元,用于统计所述首字母组合出现的频次,并确定一个或多个首字母组合作为目标首字母组合;
所述查找单元,用于通过所述文字组合与首字母组合的对应关系,确定所述目标首字母组合对应的目标文字组合,所述目标首字母组合出现的频次即为所述目标文字组合出现的频次。
上述技术方案中,获取目标文本中文字组合的首字母组合,且每一文字组合对应一个首字母组合;其中,所述文字组合是指位置连续的且文字个数至少为一个的组合,所述文字组合的首字母组合是指该文字组合中每个字的拼音的首个字母的组合;统计所述首字母组合出现的频次,并确定一个或多个首字母组合作为目标首字母组合;通过所述文字组合与首字母组合的对应关系,确定所述目标首字母组合对应的目标文字组合,所述目标首字母组合出现的频次即为所述目标文字组合出现的频次。这样在统计文字出现频次的过程中,只需要存储文字的首字母组合,而常用汉字3755个的首字母总共会出现的字母有23个,由于一个拼音组合会有多个汉字的原因,则在一篇M个字的文章中实际出现的拼音首字母组合数会远远小于汉字的组合,从而内存消耗也会减少。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种文字统计方法的流程示意图;
图2是本发明实施例提供的另一种文字统计方法的流程示意图;
图3是本发明实施例提供的一种文字统计设备的结构示意图;
图4是本发明实施例提供的另一种文字统计设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1是本发明实施例提供的一种文字统计方法的流程示意图,如图1所示,包括:
101、获取目标文本中文字组合的首字母组合,且每一文字组合对应一个首字母组合;其中,所述文字组合是指位置连续的且文字个数至少为一个的组合,所述文字组合的首字母组合是指该文字组合中每个字的拼音的首个字母的组合。
所述文字组合是指位置连续的且文字个数至少为一个的组合,即文字组合可以包含一个或者多个字,例如:目标文本中包含“发”、“网络”、“计算机”等文字组合,而这些文字组合分别对应首字母组合“F”“WL”“JSJ”。当然本实施例中还可以是获取目标文本中特定属性的文字组合的首字母组合,例如:获取目标文本中名词的文字组合的首字母组合,或者获取目标文本中动词的文字组合的首字母组合,即上述文字组合可以是名词或者动词,当然该特定属性可以是根据用户需要示而设置为不同的属性,例如:名词、动词、形容词等。
102、统计所述首字母组合出现的频次,并确定一个或多个首字母组合作为目标首字母组合。
该目标首字母组合可以是步骤101获取的首字母组合中出现频次最多的一个或者多个首字母组合,还可以是步骤101获取的首字母组合中为预先指定的一个或者多个首字母组合,还可以是步骤101获取的首字母组合中预先指定的一个或者多个文字组合的首字母组合。
103、通过所述文字组合与首字母组合的对应关系,确定所述目标首字母组合对应的目标文字组合,所述目标首字母组合出现的频次即为所述目标文字组合出现的频次。
可选的,上述目标文本可以是计算机、手机、平板电脑、服务器、或者虚拟网络中存储的任何文本。例如,目前最常见的评论、或者微博等。
可选的,所述方法可以应用于计算机、手机、平板电脑或者服务器等任何可以处理文本的设备上,即这些设备都可以实现所述方法。
例如:“网络原指用一个巨大的虚拟画面,网络把所有东西连接起来,网络也可以作为动词使用。”这个段文本为例进行说明,假设上述文字组合是指位置连续的且文字个数为2的组合,且确定步骤101获取的首字母组合中出现频次最多的一个首字母组合为目标首字母组合,那么该文本中就有“网络”、“络原”、“原指”、“用一”…、“动词”、“词使”和“使用”这些文字组合,其中“网络”的首字母组合就为WL,其它文字组合的首字母组合就不一一例举,经过步骤102统计就得到目标首字母组合为WL;步骤103就所述目标文本中查找出WL的目标文字组合,即查找出“网络”,即该文本出网络这一词语出现最多,且统计出该组合出现的频次。
上述技术方案中,获取目标文本中文字组合的首字母组合,且每一文字组合对应一个首字母组合;其中,所述文字组合是指位置连续的且文字个数至少为一个的组合,所述文字组合的首字母组合是指该文字组合中每个字的拼音的首个字母的组合;统计所述首字母组合出现的频次,并确定一个或多个首字母组合作为目标首字母组合;通过所述文字组合与首字母组合的对应关系,确定所述目标首字母组合对应的目标文字组合,所述目标首字母组合出现的频次即为所述目标文字组合出现的频次。这样在统计文字出现频次的过程中,只需要存储文字的首字母组合,而常用汉字3755个的首字母总共会出现的字母有23个,由于一个拼音组合会有多个汉字的原因,则在一篇M个字的文章中实际出现的拼音首字母组合数会远远小于汉字的组合,从而内存消耗也会减少。
图2是本发明实施例提供的另一种文字统计方法的流程示意图,如图2所示,包括:
201、获取目标文本中文字组合的首字母组合,且每一文字组合对应一个首字母组合;其中,所述文字组合是指位置连续的且文字个数至少为一个的组合,所述文字组合的首字母组合是指该文字组合中每个字的拼音的首个字母的组合。
可选的,步骤201可以是将目标文本中每个文字转换为拼音,再每个文字组合的首字母组合。
可选的,由于文字的美国信息交换标准代码(American Standard Code forInformation Interchange,Ascii)都是按照拼音排序的,这样步骤201就可以根据每个文字的Ascii获取到该文字的拼音。
202、统计所述首字母组合出现的频次,并确定一个或多个首字母组合作为目标首字母组合;
可选的,步骤202可以是将步骤201获取的所有首字母组合进行出现次数排序,选择出现次数最多H个首字母组合作为目标首字母组合,其中,H为大于零的整数。
203、通过所述文字组合与首字母组合的对应关系,确定所述目标首字母组合对应的目标文字组合,所述目标首字母组合出现的频次即为所述目标文字组合出现的频次。
可选的,步骤203可以将每个目标首字母组合对应的文字组合都选取出来,再分别对每个目标首字母组合对应的文字组合进行现出次数排序,选择出每个所述目标首字母组合的目标文字组合;例如:首字母组合为目标首字母组合1的文字组合包括:文字组合1、文字组合2和文字组合3,其中,文字组合1出现的频次最多,即将文字组合1作为目标首字母组合1的目标文字组合。
204、判断所述确定出的目标文字组合是否包括第一目标文字组合和第二目标文字组合,其中,所述第一目标文字组合的最后一个文字与所述第二目标文字组合的第一个文字相同;若是,则执行步骤205;若否,则执行步骤206;
205、将所述第一目标文字组合与所述第二目标文字组合进行合并得到第三目标文字组合,并将所述查找出的目标文字组合中的其它文字组合和所述第三目标文字组合作为所述目标文本中出现概率最多的词语;所述其它文字组合是所述查找出的目标文字组合除所述第一目标文字组合和所述第二目标文字组合之外的所有目标文字组合。
可选的,例如:目标文本中最的多词语为“为什么”,而上述文字组合定义为的位置连续的且文字个数为2,那么步骤203查找出的目标文字组合就为“为什”和“什么”,步骤204就判断“为什”为第一目标文字组合,“什么”为第二目标文字组合;步骤205再将这两个文字组合进行合并,得到第三目标文字组合“为什么”。例如:目标文本中最的多词语为“为什么会是”,而文字组合定义为的位置连续的且文字个数为3,那么步骤203查找出的目标文字组合就为“为什么”和“么会是”,步骤204就判断“为什么”为第一目标文字组合,“么会是”为第二目标文字组合;步骤205再将这两个文字组合进行合并,得到第三目标文字组合“为什么会是”。
206、将查找出的目标文字组合作为所述目标文本中出现概率最多的词语。
作为一种可选的实施方式,步骤205中的将所述第一目标文字组合与所述第二目标文字组合进行合并得到第三目标文字组合,可以包括:
将所述第一目标文字组合与所述第二目标文字组合进行合并得到候选目标文字组合;
判断所述目标文本是否包含所述候选目标文字组合,若是,则将所述候选目标文字组合作为第三目标文字组合;若否,将放弃所述候选目标文字组合,并触发步骤206。
例如,文字组合定义为的位置连续的且文字个数为2,那么步骤203查找出的目标文字组合就为“为什”和“什么”,步骤204就判断“为什”为第一目标文字组合,“什么”为第二目标文字组合;步骤205再将这两个文字组合进行合并,得到候选目标文字组合“为什么”。而目标文本中存在“为什么”这个组合,即将“为什么”作为上述第三目标文字组合。例如:文字组合定义为的位置连续的且文字个数为2,那么步骤203查找出的目标文字组合就为“问题”和“题目”,步骤204就判断“问题”为第一目标文字组合,“题目”为第二目标文字组合;步骤205再将这两个文字组合进行合并,得到候选目标文字组合“问题目”,而目标文本中不存在“问题目”这个组合时,就可以放弃该候选目标文字组合。
作为一种可选的实施方式,步骤205中的将所述第一目标文字组合与所述第二目标文字组合进行合并得到第三目标文字组合,可以包括:
判断所述第一目标文字组合与所述第二目标文字组合在所述目标文本中出现的频次是否相同,若是,则将所述第一目标文字组合与所述第二目标文字组合进行合并得到第三目标文字组合。
可选的,判断所述第一目标文字组合与所述第二目标文字组合在所述目标文本中出现的频次不相同,则触发步骤206。
作为一种可选的实施方式,步骤205中的将所述第一目标文字组合与所述第二目标文字组合进行合并得到第三目标文字组合,可以包括:
判断所述第一目标文字组合与所述第二目标文字组合在所述目标文本中出现的频次是否相同,若相同,将所述第一目标文字组合与所述第二目标文字组合进行合并得到候选目标文字组合;判断所述目标文本是否包含所述候选目标文字组合,若包含,则将所述候选目标文字组合作为第三目标文字组合;若不包含,将放弃所述候选目标文字组合,并触发步骤206;
若判断所述第一目标文字组合与所述第二目标文字组合在所述目标文本中出现的频次不相同,则触发步骤206。
上述技术方案,在上面实施例的基础上,实现了多种查找文字的方法,且都可以减少内存的消耗。
下面为本发明装置实施例,本发明装置实施例用于执行本发明方法实施例一至二实现的方法,为了便于说明,仅示出了与本发明实施例相关的部分,具体技术细节未揭示的,请参照本发明实施例一和实施例二。
图3是本发明实施例提供的一种文字统计设备的结构示意图,如图3所示,包括:获取单元31、统计单元32和查找单元33,其中:
获取单元31,用于获取目标文本中文字组合的首字母组合,且每一文字组合对应一个首字母组合;其中,所述文字组合是指位置连续的且文字个数至少为一个的组合,所述文字组合的首字母组合是指该文字组合中每个字的拼音的首个字母的组合。
所述文字组合是指位置连续的且文字个数至少为一个的组合,即文字组合可以包含一个或者多个字,例如:目标文本中包含“发”、“网络”、“计算机”等文字组合,而这些文字组合分别对应首字母组合“F”“WL”“JSJ”。当然本实施例中还可以是获取目标文本中特定属性的文字组合的首字母组合,例如:获取目标文本中名词的文字组合的首字母组合,或者获取目标文本中动词的文字组合的首字母组合,即上述文字组合可以是名词或者动词,当然该特定属性可以是根据用户需要示而设置为不同的属性,例如:名词、动词、形容词等。
统计单元32,用于统计所述首字母组合出现的频次,并确定一个或多个首字母组合作为目标首字母组合。
该目标首字母组合可以是获取单元31获取的首字母组合中出现频次最多的一个或者多个首字母组合,还可以是获取单元31获取的首字母组合中为预先指定的一个或者多个首字母组合,还可以是获取单元31获取的首字母组合中预先指定的一个或者多个文字组合的首字母组合。
查找单元33,用于通过所述文字组合与首字母组合的对应关系,确定所述目标首字母组合对应的目标文字组合,所述目标首字母组合出现的频次即为所述目标文字组合出现的频次。
可选的,上述目标文本可以是计算机、手机、平板电脑、服务器、或者虚拟网络中存储的任何文本。例如,目前最常见的评论、或者微博等。
可选的,所述设备可以是计算机、手机、平板电脑或者服务器等任何可以处理文本的设备。
作为一种可选的实施方式,如图4所示,所述设备还可以包括:
判断单元34,用于判断所述确定出的目标文字组合是否包括第一目标文字组合和第二目标文字组合,其中,所述第一目标文字组合的最后一个文字与所述第二目标文字组合的第一个文字相同;
合并单元35,用于当判断单元34判断结果为是时,将所述第一目标文字组合与所述第二目标文字组合进行合并得到第三目标文字组合,并将所述查找出的目标文字组合中的其它文字组合和所述第三目标文字组合作为所述目标文本中出现概率最多的词语;所述其它文字组合是所述查找出的目标文字组合除所述第一目标文字组合和所述第二目标文字组合之外的所有目标文字组合。
确定单元36,用于当判断单元34判断结果为否时,将查找出的目标文字组合作为所述目标文本中出现概率最多的词语。
可选的,合并单元35还可以用于将所述第一目标文字组合与所述第二目标文字组合进行合并得到候选目标文字组合;以及判断所述目标文本是否包含所述候选目标文字组合,若是,则将所述候选目标文字组合作为第三目标文字组合;若否,将放弃所述候选目标文字组合。
可选的,合并单元35还可以用于判断所述第一目标文字组合与所述第二目标文字组合在所述目标文本中出现的频次是否相同,若是,则将所述第一目标文字组合与所述第二目标文字组合进行合并得到第三目标文字组合。
可选的,合并单元35判断所述第一目标文字组合与所述第二目标文字组合在所述目标文本中出现的频次是否相同,若相同,将所述第一目标文字组合与所述第二目标文字组合进行合并得到候选目标文字组合;判断所述目标文本是否包含所述候选目标文字组合,若包含,则将所述候选目标文字组合作为第三目标文字组合;若不包含,将放弃所述候选目标文字组合;
确定单元36,用于当合并单元35判断所述第一目标文字组合与所述第二目标文字组合在所述目标文本中出现的频次不相同时,将查找出的目标文字组合作为所述目标文本中出现概率最多的词语。
上述技术方案中,通过所述文字组合与首字母组合的对应关系,确定所述目标首字母组合对应的目标文字组合,所述目标首字母组合出现的频次即为所述目标文字组合出现的频次。这样在统计文字出现频次的过程中,只需要存储文字的首字母组合,而常用汉字3755个的首字母总共会出现的字母有23个,由于一个拼音组合会有多个汉字的原因,则在一篇M个字的文章中实际出现的拼音首字母组合数会远远小于汉字的组合,从而内存消耗也会减少。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存取存储器(Random AccessMemory,简称RAM)等。
以上所揭露的仅为本发明较佳实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。

Claims (10)

1.一种文字统计方法,其特征在于,包括:
获取目标文本中文字组合的首字母组合,且每一文字组合对应一个首字母组合;其中,所述文字组合是指位置连续的且文字个数至少为一个的组合,所述文字组合的首字母组合是指该文字组合中每个字的拼音的首个字母的组合;
统计所述首字母组合出现的频次,并确定一个或多个首字母组合作为目标首字母组合;
通过所述文字组合与首字母组合的对应关系,确定所述目标首字母组合对应的目标文字组合,所述目标首字母组合出现的频次即为所述目标文字组合出现的频次。
2.如权利要求1所述的方法,其特征在于,所述确定所述目标首字母组合对应的目标文字组合之后,所述方法包括:
判断所述确定出的目标文字组合是否包括第一目标文字组合和第二目标文字组合,其中,所述第一目标文字组合的最后一个文字与所述第二目标文字组合的第一个文字相同;若是,则将所述第一目标文字组合与所述第二目标文字组合进行合并得到第三目标文字组合,并将所述确定出的目标文字组合中的其它文字组合和所述第三目标文字组合作为所述目标文本中出现概率最多的词语;所述其它文字组合是所述确定出的目标文字组合除所述第一目标文字组合和所述第二目标文字组合之外的所有目标文字组合;
若否,则将所述确定出的目标文字组合作为所述目标文本中出现概率最多的词语。
3.如权利要求2所述的方法,其特征在于,所述将所述第一目标文字组合与所述第二目标文字组合进行合并得到第三目标文字组合,包括:
将所述第一目标文字组合与所述第二目标文字组合进行合并得到候选目标文字组合;
判断所述目标文本是否包含所述候选目标文字组合,若是,则将所述候选目标文字组合作为第三目标文字组合;若否,将放弃所述候选目标文字组合。
4.如权利要求2所述的方法,其特征在于,所述将所述第一目标文字组合与所述第二目标文字组合进行合并得到第三目标文字组合,包括:
判断所述第一目标文字组合与所述第二目标文字组合在所述目标文本中出现的频次是否相同,若是,则将所述第一目标文字组合与所述第二目标文字组合进行合并得到第三目标文字组合。
5.如权利要求1-4中任一项所述的方法,其特征在于,所述获取目标文本中文字组合的首字母组合,包括:
获取目标文本中特定属性的文字组合的首字母组合。
6.一种文字统计设备,其特征在于,包括:获取单元、统计单元和查找单元,其中:
所述获取单元,用于获取目标文本中文字组合的首字母组合,且每一文字组合对应一个首字母组合;其中,所述文字组合是指位置连续的且文字个数至少为一个的组合,所述文字组合的首字母组合是指该文字组合中每个字的拼音的首个字母的组合;
所述统计单元,用于统计所述首字母组合出现的频次,并确定一个或多个首字母组合作为目标首字母组合;
所述查找单元,用于通过所述文字组合与首字母组合的对应关系,确定所述目标首字母组合对应的目标文字组合,所述目标首字母组合出现的频次即为所述目标文字组合出现的频次。
7.如权利要求6所述的设备,其特征在于,所述设备包括:
判断单元,用于判断所述确定出的目标文字组合是否包括第一目标文字组合和第二目标文字组合,其中,所述第一目标文字组合的最后一个文字与所述第二目标文字组合的第一个文字相同;
合并单元,用于当所述判断单元判断结果为是时,将所述第一目标文字组合与所述第二目标文字组合进行合并得到第三目标文字组合,并将所述确定出的目标文字组合中的其它文字组合和所述第三目标文字组合作为所述目标文本中出现概率最多的词语;所述其它文字组合是所述确定出的目标文字组合除所述第一目标文字组合和所述第二目标文字组合之外的所有目标文字组合;
确定单元,用于当所述判断单元判断结果为否时,将所述确定出的目标文字组合作为所述目标文本中出现概率最多的词语。
8.如权利要求7所述的设备,其特征在于,所述合并单元还用于将所述第一目标文字组合与所述第二目标文字组合进行合并得到候选目标文字组合;以及判断所述目标文本是否包含所述候选目标文字组合,若是,则将所述候选目标文字组合作为第三目标文字组合;若否,将放弃所述候选目标文字组合。
9.如权利要求7所述的设备,其特征在于,所述合并单元还用于判断所述第一目标文字组合与所述第二目标文字组合在所述目标文本中出现的频次是否相同,若是,则将所述第一目标文字组合与所述第二目标文字组合进行合并得到第三目标文字组合。
10.如权利要求6-9中任一项所述的设备,其特征在于,所述获取单元还用于获取目标文本中特定属性的文字组合的首字母组合。
CN201310200348.0A 2013-05-27 2013-05-27 一种文字统计方法及设备 Active CN104182383B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201310200348.0A CN104182383B (zh) 2013-05-27 2013-05-27 一种文字统计方法及设备
PCT/CN2013/088853 WO2014190714A1 (en) 2013-05-27 2013-12-09 Method and apparatus for word counting
US14/245,274 US20140350919A1 (en) 2013-05-27 2014-04-04 Method and apparatus for word counting

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310200348.0A CN104182383B (zh) 2013-05-27 2013-05-27 一种文字统计方法及设备

Publications (2)

Publication Number Publication Date
CN104182383A CN104182383A (zh) 2014-12-03
CN104182383B true CN104182383B (zh) 2019-01-01

Family

ID=51963443

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310200348.0A Active CN104182383B (zh) 2013-05-27 2013-05-27 一种文字统计方法及设备

Country Status (2)

Country Link
CN (1) CN104182383B (zh)
WO (1) WO2014190714A1 (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1728143A (zh) * 2004-07-26 2006-02-01 咕果公司 基于短语产生文献说明
CN101162146A (zh) * 2007-02-01 2008-04-16 厦门雅迅网络股份有限公司 一种联网车载导航设备中兴趣点按拼音首字母检索的方法
CN101819471A (zh) * 2010-03-27 2010-09-01 孙强国 一种拼音文字单词与短语的输入和显示方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7131117B2 (en) * 2002-09-04 2006-10-31 Sbc Properties, L.P. Method and system for automating the analysis of word frequencies
US8775441B2 (en) * 2008-01-16 2014-07-08 Ab Initio Technology Llc Managing an archive for approximate string matching

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1728143A (zh) * 2004-07-26 2006-02-01 咕果公司 基于短语产生文献说明
CN101162146A (zh) * 2007-02-01 2008-04-16 厦门雅迅网络股份有限公司 一种联网车载导航设备中兴趣点按拼音首字母检索的方法
CN101819471A (zh) * 2010-03-27 2010-09-01 孙强国 一种拼音文字单词与短语的输入和显示方法

Also Published As

Publication number Publication date
CN104182383A (zh) 2014-12-03
WO2014190714A1 (en) 2014-12-04

Similar Documents

Publication Publication Date Title
CN104102720B (zh) 高效输入的预测方法和装置
TWI653542B (zh) 一種基於網路媒體資料流程發現並跟蹤熱點話題的方法、系統和裝置
Fuentes et al. Glitch time series and size distributions in eight prolific pulsars
CN104615608B (zh) 一种数据挖掘处理系统及方法
CN104750705B (zh) 信息回复方法及装置
CN108197285A (zh) 一种数据推荐方法以及装置
US20180246962A1 (en) Playlist list determining method and device, electronic apparatus, and storage medium
CN103258025B (zh) 生成共现关键词的方法、提供关联搜索词的方法以及系统
CN102184256A (zh) 一种针对海量相似短文本的聚类方法和系统
CN106294314A (zh) 主题挖掘方法及装置
CN104102635B (zh) 一种挖掘知识图谱的方法及装置
Vakulenko et al. Measuring semantic coherence of a conversation
CN110222194A (zh) 基于自然语言处理的数据图表生成方法和相关装置
Xu et al. Chunk-level password guessing: Towards modeling refined password composition representations
CN105279159B (zh) 联系人的提示方法和装置
CN105159927B (zh) 目标文本主题词的选取方法、装置及终端
CN106708796A (zh) 一种基于文本的关键人名的提取方法及系统
CN104899201B (zh) 文本提取方法、敏感词判定方法、装置和服务器
Samory et al. Quotes reveal community structure and interaction dynamics
CN106372038A (zh) 关键词的抽取方法及装置
CN110020430A (zh) 一种恶意信息识别方法、装置、设备及存储介质
CN109558531A (zh) 新闻信息推送方法、装置以及计算机设备
CN104077320B (zh) 一种用于生成待发布信息的方法和装置
CN104182383B (zh) 一种文字统计方法及设备
US9679046B2 (en) Identification and quantification of predatory behavior across communications systems

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant