CN108536667A

CN108536667A - 中文文本识别方法及装置

Info

Publication number: CN108536667A
Application number: CN201710129217.6A
Authority: CN
Inventors: 徐志焕; 陈文鸿; 陈利青; 郑丽燕; 吴锐彬; 徐睿; 张晓川
Original assignee: China Mobile Communications Group Co Ltd; China Mobile Group Guangdong Co Ltd
Current assignee: China Mobile Communications Group Co Ltd; China Mobile Group Guangdong Co Ltd
Priority date: 2017-03-06
Filing date: 2017-03-06
Publication date: 2018-09-14
Anticipated expiration: 2037-03-06
Also published as: CN108536667B

Abstract

本发明涉及一种中文文本识别方法及装置，该方法中首先获取PS域信令中各个终端的应用程序上报的关键词，并根据应用程序的类别对关键词进行分类处理，针对存储在不同搜索语料库中的关键词基于不同的预设算法对所述关键词进行切分、初步识别以及概率筛选，最后将筛选得到的结果加入到预设词库中，从而相比于现有的识别方法，本发明实施例提供的方法能够根据上报关键词的应用程序的类别不同对不同的词汇进行特定的处理，更具有针对性，从而能够得到更准确的识别结果，提高识别的效率。

Description

中文文本识别方法及装置

技术领域

本发明实施例涉及软件技术领域，具体涉及一种中文文本识别方法及装置。

背景技术

随着互联网时代的到来，人们越来越依赖于搜索引擎进行信息检索，然而传统的机械分词方法对于日新月异的网络用词和新兴词组的识别效果并不理想。中文分词技术是搜索引擎和中文自然语言处理的基础，未登录词识别中文分词的一大瓶颈。其中，未登录词是指未被分词系统所收录的词语。

针对未登录新词的识别，目前较为常用的方法为获取网页内容、搜索日志或查询日志，根据网页内容、搜索日志或查询日志中的内容基于规则方法或基于统计方法进行新词识别。

然而，在实施本发明实施例的过程中发明人发现，由于汉语存在多样性，各个领域的词汇都有着自身的特点。尤其是地名、人名等词汇，很多情况下没有特殊的含义，无法仅从语义分析或数据统计上能够将地名或者人名进行很好的划分。而采用这样的识别方法虽然容易实现，但在新词的识别过程中，对所有待确认的词汇均采用一种规则或方式来进行识别，从而不利于识别地名、人名等特殊词汇，识别率较低。

发明内容

本发明提供了一种中文文本识别方法及装置，用于克服现有的新词识别方法对于所有的待确认词汇采用统一的方式来识别，对于特殊词汇的识别率较低的缺陷。

第一方面，本发明实施例提供了一种中文文本识别方法，包括：

获取各终端应用程序上报的用户在应用程序搜索的关键词，并根据所述关键词的类别属性，将所述关键词存储至对应类别的搜索语料库中；

针对各个搜索语料库采用对应的预设算法对存储的关键词进行多次切分直至得到无法继续切分的单字符串；

根据所述单字符串所属的搜索语料库的类别，基于对应预设的规则识别算法或基于预设词库对所述单字符串进行识别，筛选出初步识别字符，并将所述初步识别字符加入到候选新词词库中；

当所述初步识别字符在所述候选新词词库中出现的概率达到预设的概率阈值时，将所述初步识别字符添加到所述预设词库中。

第二方面，本发明实施例提供了一种中文文本识别装置，包括：

关键词获取单元，用于获取各终端应用程序上报的用户在应用程序搜索的关键词，并根据所述关键词的类别属性，将所述关键词存储至对应类别的搜索语料库中；

字符串切分单元，用于针对各个搜索语料库采用对应的预设算法对存储的关键词进行多次切分直至得到无法继续切分的单字符串；

初步识别单元，用于根据所述单字符串所属的搜索语料库的类别，基于对应预设的规则识别算法或基于预设词库对所述单字符串进行识别，筛选出初步识别字符，并将所述初步识别字符加入到候选新词词库中；

概率筛选单元，用于当所述初步识别字符在所述候选新词词库中出现的概率达到预设的概率阈值时，将所述初步识别字符添加到所述预设词库中。

本发明实施例提供的中文文本识别方法中，首先获取PS域信令中各个终端的应用程序上报的关键词，并根据应用程序的类别对关键词进行分类处理，针对存储在不同搜索语料库中的关键词基于不同的预设算法对所述关键词进行切分、初步识别以及概率筛选，最后将筛选得到的结果加入到预设词库中。从而相比于现有的识别方法，本发明实施例提供的方法能够根据上报关键词的应用程序的类别不同对不同的词汇进行特定的处理，更具有针对性，从而能够得到更准确的识别结果，提高识别的效率。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1是本发明提供的一种中文文本分词方法实施例流程图；

图2是本发明提供的基于中文检索关键词的新词识别流程图；

图3是本发明提供的基于BI-gram模型及词位置统计信息的通用未登录词识别流程图；

图4是本发明提供的基于概率识别器的中文姓名未登录词识别方法的流程图；

图5是本发明提供的基于地址后缀规则和统计相结合的地址新词识别流程图；

图6是本发明提供的基于动态词库更新的中文分词方法的流程图；

图7是本发明提供的一种中文文本分词装置实施例结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

第一方面，本发明实施例提供了一种中文文本识别方法，如图1 所示，包括：

S101、获取各终端应用程序上报的用户在应用程序搜索的关键词，并根据所述关键词的类别属性，将所述关键词存储至对应类别的搜索语料库中；

S102、针对各个搜索语料库采用对应的预设算法对存储的关键词进行多次切分直至得到无法继续切分的单字符串；

S103、根据所述单字符串所属的搜索语料库的类别，基于对应预设的规则识别算法或基于预设词库对所述单字符串进行识别，筛选出初步识别字符，并将所述初步识别字符加入到候选新词词库中；

S104、当所述初步识别字符在所述候选新词词库中出现的概率达到预设的概率阈值时，将所述初步识别字符添加到所述预设词库中。

在实际应用中，这里终端可以通过PS域上报关键词。这里的PS 域具体是指运营商提供的在2G、3G或4G网络中传输的信令。本发明实施例可以基于运营商的优势获取PS域的信令，从而相比于现有的基于某一应用自身搜索引擎获取关键词的方式，能够获取更多的关键词资源，进而能够及时识别当下流行的新词。

在实际应用中，这里的关键词的类别属性具体可以理解为根据关键词的属性所确定的关键词的所属类别。

在实际应用中，需要注意的是，这里的单字符串并代表其是单独一个汉字，其只是在经过预设的切分算法进行切分后无法再继续切分的字符串。可以理解的是，只有将待识别的字符串切分至最小的单元才可以方便的对每个最小单元的字符串进行识别。

在具体实施时，由于中文的地名具有特殊性，其设置可能不符合语义或者有比较独特的含义，将其与其他词汇一起识别很难获得好的识别效果，因此，上述方法实施例中的步骤S101进一步包括：

S1011、将携带地理位置信息的关键词存储在地址搜索语料库中；将未携带地理位置信息的关键词存储在通用搜索语料库中。

这里的携带的地理位置信息例如可以为“村”、“市”、“站”、 “机场”、“车站”等能够表明地点的词语。也就是说携带类似这些词语的关键词很有可能是一个地名，因此将这样的关键词存储在地址搜索语料库中，而将未携带地理位置信息的关键词存储在通用搜索语料库中。

当然，除了地名之外，还可以对其他特定应用程序上报的特定类的词汇进行类似于上述过程的分类处理，本发明对此不作具体限定。

在这一基础上，在具体实施时，针对于地名类关键词的特殊识别处理，上述方法实施例中的步骤S103具体可以包括：

S1031、对于属于地址搜索语料库中单字符串，筛选出包含预设地址后缀关键词的单字符串，并将预设的地址后缀关键词为分隔符，将单字符串划分为若干个词条，将若干个词条作为初步识别字符加入到候选地址新词词库中；

相应地，步骤S104具体可以包括：

S1041、在初步识别字符在候选地址新词词库中出现的概率达到预设的概率阈值时，将初步识别字符加入到地址搜索新词词库中。

具体来说，由于现阶段分词主要有基于统计的方法和基于语言规则的方法。基于统计的分词方法用字与字相邻共现的频率反映成词的可信度。在上下文中，相邻的字同时出现的次数越多，就越有可能构成一个词。因此，需要对语料中相邻共现各个字的组合频率进行统计，计算它们的互现信息。基于统计的分词方法是当前分词识别的主流方法，只要数学模型适当，就会有较高的精度和查全率。然而上述方法都具有各自的局限性。基于统计的方法经常会抽出一些共现频度高但并不是词的常用字组，并且对常用词的识别精度较差。基于规则的分词方法是基于语言学知识建立词的构成规则，大多数词语符合构词规则。此方法对于大部分符合规则的常用词汇很有效，但是由于规则方法是基于动词、名词、形容词三大词汇的构词，而常用词汇中存在大量的兼类词，所以规则的运行也常常会产生一些错召和漏召的情况。用统计方法识别错误单词具有一定的规则性。

因此，针对这一问题，本发明实施例提供的方法在对地名关键词进行处理是将语言规则方法与统计方法结合起来，从而发挥各自方法的优势，提高新词识别的精度和查全度。具体来说，中文地址识别往往使用基于地址构成规则的匹配方法进行识别。对于地址搜索语料库，本发明采用基于规则方法和基于统计方法相结合进行处理：基于规则方法本发明采用基于地址名词后缀规则进行识别，对地址未登录词临时词库中的词条进行逐条匹配，判断词条中符合地址后缀关键词规则，然后根据地址后缀词对词条进行拆分，分解成一个个独立的地名词。最后统计各个地址名词的出现频率，筛选出频率较高且不在已识别词库中的地址名词加入到中文地址新词词库中。

在具体实施时，针对于中文姓名关键词的特殊识别处理，上述方法实施例中的步骤S103具体可以包括：

S103a、对于属于通用搜索语料库中单字符串，在判断其为中文姓名单字符串时，将单字符串划分为姓字符以及若干个名字字符，在姓字符在现有的汉语姓字库中出现的第一概率大于0且名字字符在现有的汉语名字字库中出现的第二概率大于0时，将单字符串添加至候选姓名词库中。

相应地，步骤S104具体可以包括：

S104a、根据第一概率与第二概率得到中文姓名单字符串对应的第三概率；在第三概率在候选姓名词库中出现的概率达到预设的概率阈值时，将中文姓名单字符串加入到中文姓名新词词库中。

同样地，对于通用搜索语料库中的中文姓名单字符串，本发明实施例采用的方法仍能是基于规则方法和基于统计方法相结合的方法。具体来说，基于通用搜索语料库，针对中文姓名进行未登录词识别：利用已识别的汉语姓名词库构建中文姓词库及中文名词库，对于语料库中任何两字词W_iW_i+1和三字词W_iW_i+1W_i+2，判断W_i是否存在中文姓词库中，W_i+1或W_i+2是否在中文名词库中，从而初步识别出两字姓名候选词和三字姓名候选词。针对识别出的姓名候选词，引入概率识别器进行统计筛选。基于中文姓名组成概率的方法，概率识别器利用姓名用字的规律性信息，提高最后结果的识别准确率。本发明采用概率识别器为：

P_name(W₁W₂W₃)＝P(W₁)*P(W₂)*P(W₃)

或P_name(W₁W₂)＝P(W₁)*P(W₂) (1)

其中，P(W_i)＝F(W_i)*D(W_i)，F(W_i)为已识别词字典中W_i作为姓或名的频率，D(W_i)为已识别汉语姓名词库中W_i作为姓或名的概率。如果P(W₁W₂W₃)大于阈值T_three或P(W₁W₂)大于阈值T_two，，则将W₁W₂或W₁W₂W₃识别为新姓名用词，如果该词语不存在已识别词库中，且出现次数高于一定阈值，则加入中文姓名新词词库中。

在具体实施时，针对于其他关键词的特殊识别处理，上述方法实施例中的步骤S103具体可以包括：

S103i、对于属于通用搜索语料库中单字符串，在判断其为非中文姓名单字符串时，基于BI-gram模型筛选出初步识别字符，并将所述初步识别字符加入到候选通用新词词库中；

相应地，步骤S104具体可以包括：

S104i、在所述初步识别字符在所述候选通用新词词库中出现的概率达到预设的概率阈值时，将所述初步识别字符加入到通用搜索新词词库中。

同样地，对于通用搜索语料库中的非中文姓名单字符串，本发明实施例采用的方法仍能是基于规则方法和基于统计方法相结合的方法。

具体来说，对于通用搜索语料库中的词语采用可以N-gram模型和基于统计方法结合进行处理。在应用N-gram模型之前，为了保证模型的效率，需要先进行数据平滑处理，使所有的N-gram概率之和为1且所有的N-gram概率都不为0。N-gram模型基于以下假设：第N个词的出现只与前面N-1个词相关，而与其它任何词都不相关，整句的概率就是各个词出现概率的乘积。这些概率可以通过直接从语料中统计N 个词同时出现的次数得到。对于一个句子T，假设T是由词序列 W₁,W₂,W₃,…W_n组成的，那么这个句子出现的概率为：

常用的是二元的BI-gram和三元的Tri-gram。有关统计信息显示，汉语中相邻两个词语组合成新词语的可能性是很大的，特定概念通常都是由多个词语组合来表达的，其中两个词语的组合最为普遍，而且两个词语组合又是多个词语组合的基础，因此本发明使用BI-gram作为统计模型，只考虑任何两个标点符号之间的连续词序列。

此处同时引入马尔科夫假设：一个词的出现仅仅依赖于它前面出现的有限的一个或者几个词。如果一个词的出现仅依赖于它前面出现的一个词，那么就是本发明使用的BI-gram模型。即

然后使用最大似然估计方法得到P(W_n|W₁W₂...W_n-1)，即 P(W_n|W₁W₂…W_n-1)＝(C(W₁W₂…W_n))/(C(W₁W₂…W_n-1))，并统计序列 C(W₁W₂…W_n)出现的次数和C(W₁W₂…W_n-1)出现的次数。其中，

条件概率：

乘法公式：

P(AB)＝P(A)P(B|A)，(P(A)＞0)

P(A₁A₂…A_n)＝P(A₁)P(A₂|A₁)…P(A_n|A₁A₂…A_n-1)

(P(A_n|A₁A₂…A_n-1)＞0) (5)

从序列的第一个词语开始，依次记录相邻两个词语组合的共现串、共现文档名称、共现位置等信息，同时实现共现次数、共现文档数目的累计。在文本上下文序列“W₁W₂W₃…W_n”中，若W_i后面紧跟词 W_j，则W_iW_j组成新词的可信度定义为W_i后出现W_j的概率： P(W_j|W_i)＝dfij/dfi，dfij代表词W_i和词W_j共现频次，dfi代表词W_i出现频次。针对每个首词W_i分别计算与其共现的所有尾词W_j(设共有K个) 的共现频次均值：这里本发明取阈值为 E(dfi)，即当dfij＞E(dfi)，则将该词组存入候选新词词库。

针对候选新词词库中的候选词语，利用词语位置统计概率进行筛选：对于已识别词库中的词条，统计每个字作为前缀词(即词条的第一个字)，后缀词(即词条的最后一个字)及单字词(单独一个字组成词条)的概率，记作P_first(x)，P_last(x)，P_single(x)，其定义如下：

对于候选新词词库中的每个候选词语W₁W₂…W_n，如果P_first(W₁)> T_first，P_single(W_n)>T_last且不存在W_x(1<＝x<＝n)，使得P_single(W_x)>T_single，则将该词语视为通用搜索新词。如果该词语不存在已识别词库中，且出现次数高于一定阈值，则加入通用搜索新词词库中。

需要说明的是，本发明实施例提供的方法在步骤S102中所采用的词汇切分方法，可以为最大匹配分词方法。由于该方法为常用的分词方法在此不作过多的介绍。

还需要说明的是，为了进一步区分出各个新词词库(例如通用搜索新词词库、地址搜索新词词库以及中文姓名新词词库)中各个新词的热度，本发明实施例提供的方法还包括对新词的出现热度进行区别的步骤。

具体来说，可以以一周为周期抓取本地手机用户的搜索关键词记录，利用上面三种不同新词识别方法分别对语料库进行识别，根据不同阈值将识别到的新词分为高频新词与低频新词。对于高频新词，直接将其添加到已识别分词词典中；对于低频新词，将其添加到历史低频新词词库中，更新词库词频，如果更新后的词频是否达到一定阈值，则添加到已识别分词词典。使用新的分词词典对搜索关键句进行文本分词，从而提高分词的准确率。

不难理解的是，上述实施例中的举例说明只是为了便于更好地理解本发明实施例提供的方法，并不能构成对本发明的具体限定。且上述的各个优选实施方式之间不会相互影响，各个优选实施方式之间的任意组合所得到的方案均应该落入本发明的保护范围。

为便于理解的本发明实施例提供的方法的完整流程，下面结合附图2至附图6来详细介绍本发明实施例提供的方法。

图2示出了基于网上检索关键词的中文新词识别流程图，具体算法如下：

(1)利用手机用户的2G\3G\4G上网信令数据，抓取用户使用搜索引擎或地图类网站等关键词记录，以关键词+搜索次数的格式写入搜索语料库中；

(2)对于获取的关键词记录，按不同搜索类别分为通用搜索语料库，地址搜索语料库。来自百度，360搜索等通用检索网站的关键词放入通用搜索语料库，来自百度地图等地点位置查询网站的关键词放入地址搜索语料库；

搜索关键字	搜索词频
		微信	5335
大主宰	6787
		完美世界小说	8180
百度寻人	16664
		完美世界	4050
百度	2345
		万能钥匙	1900
雪鹰领主	3387
		天气	1665
完美世界	4050

表1通用搜索原始语料库案例

搜索关键字	搜索词频
		景点	222
揭阳市	208
		美食	198
广州市	149
		公交站	149
酒店	89
		揭阳马牙长途汽车站	66
百度地图	76
		农业银行	106
揭阳潮汕国际机场	70

表2地图搜索原始语料库案例

(3)导入已识别中文词典，对两大个语料库分别运用最大匹配算法进行初步分词处理，切分出单字串，然后和词库进行比对，如果是一个词就记录下来，否则通过增加或者减少一个单字，继续比较，直到只剩下一个单字则终止，如果该单字串无法切分，则作为未登录词处理，并作词性标注。将最大匹配分词后作为未登录处理的单字分布存入通用搜索未登录词初始语料库、地址搜索未登录词初始语料库；

表3通用搜索未登录词初始语料库案例

切分单字串	词频
		黄满寨	33
高埔镇	15
		霖磐镇	6
万泰城	8
		容桂街马岗	2
上寮村	8
		顺丰	10
盛泰君和园	4
		马牙路	15
洪阳岐岗村	2

表4地址搜索未登录词初始语料库案例

对于通用搜索初始语料库采用N-gram模型和基于统计方法结合进行处理，获取通用搜索中文新词，其实现具体的步骤如图3所示：

(4)基于BI-gram模型的统计方法，具体步骤如下：

①在文本上下文序列“w1w2w3…wn”中，若wi后面紧跟词wj，则记为wi→wj；

②定义wiwj组成新词的可信度为wi后出现wj的概率： P(wj|wi)＝dfij/dfi，dfij代表词wi和词wj共现频次，dfi代表词wi出现频次；

③针对每个首词wi分别计算与其共现的所有尾词w_j(设共有K个) 的共现频次均值：

④取阈值T为E(df_i)，当df_ij>E(df_i)则保留该词条，否则丢弃该词条；

⑤将最终保留下来的词条存入候选通用搜索新词词库中。退出算法。

(5)利用词语位置统计概率进行筛选，对于候选新词词库中的每个候选词语W₁W₂…W_n，如果P_first(W₁)>T_first，P_single(W_n)>T_last(T_first取 0.1，T_last取0.2)且不存在W_x(1<＝x<＝n)，使得P_single(W_x)>T_single(T_single取 0.7)，则将该词语识别为通用搜索新词，否则丢弃该词语。

(6)如果已识别通用搜索新词W₁W₂…W_n对应语料库词频大于 T_normal(T_normal取10)，则将W₁W₂…W_n加入高频通用新词词典中，否则将W₁W₂…W_n加入低频通用新词词典中，退出算法。

高频通用新词	词频
		痘印	122
刮腋	7
		傻妃	27
吊坠	10
		心水	266
噬骨	13
		擦脸	18
庶女	16
		抠图	41
人鱼	32
		舌吻戏	6

表5高频通用新词词典案例

表6低频通用新词词典案例

对于通用搜索语料库采用初步统计识别和基于概率识别器的筛选方法进行处理，获取中文姓名新词，具体实现步骤如图4所示：

(6)基于统计的初步姓名识别具体步骤如下：

①对于通用搜索语料库中的任何未识别词条W₁W₂…W_n，按照从前往后的顺序循环取出W_jW_j+1；

②利用已识别的汉语姓名词库构建中文姓词典及中文名词典，对于任意姓名用词X，P_xing(X)为X在中文姓词典中的频率，P_ming(X)为X 在中文名词典中的频率，判断P_xing(W_j)>0且P_ming(W_j+1)>0是否成立，如果是，则进入③，否则丢弃该词条；

③如果存在W_j+2且P_ming(W_j+2)>0，则将W_jW_j+1W_j+2放入候选三字姓名候选词库中，否则进入④；

④如果存在W_j-1且P_ming(W_j-1)>P_avg，则丢弃该词条，否则将W_jW_j+1放入候选二字姓名候选词库中，其中P_avg为中文姓词典中所有字作为姓用字的概率平均值。退出算法。

(7)基于概率识别器的筛选方法具体步骤如下：

①定义概率识别器为

P_name(W₁W₂W₃)=P(W₁)*P(W₂)*P(W₃)

或P_name(W₁W₂)=P(W₁)*P(W₂)

其中，P(W_i)＝F(W_i)*D(W_i)，F(W_i)为已识别词字典中W_i作为姓或名的频率，D(W_i)为已识别汉语姓名词库中W_i作为姓或名的概率。

②对于三字姓名候选词库中的任意词条W_jW_j+1W_j+2，判断 P_name(W_jW_j+1W_j+2)＞T_three(t取0.02*10-⁷)且W_jW_j+1W_j+2不在已识别词典库中，则将W_jW_j+1W_j+2添加中文姓名新词后续词典，否则丢弃该词条；

③对于二字姓名候选词库中的任意词条W_jW_j+1，判断 P_name(W_jW_j+1)＞T_two(T_two取1.5*10^-7)且W_jW_j+1不在已识别词典库中，则将W_jW_j+1添加中文姓名新词后续词典，否则丢弃该词条。

④如果中文姓名新词后续词典中词条W_jW_j+1W_j+2或W_jW_j+1出现次数大于T_name(T_name对于W_jW_j+1W_j+2取5，对于W_jW_j+1取20)，则将词条添加到高频中文姓名新词词典，否则添加到低频中文姓名新词词典，退出算法。

高频中文姓名新词	词频
		杨国福	9
陈伟霆	128
		林敏华	14
陈少梅	47
		李玉刚	16
陈赫	69
		杨蓉	26
林峰	23
		谢娜	196
宋茜	281

表7高频中文姓名新词词典案例

低频中文姓名新词	词频
		刘大明	2
王文芳	1
		毛旭东	1
李克群	2
		郭晓婷	1
赵迪	3
		范芳	1
胡军	8
		乔威	1
赵信	9

表8低频中文姓名新词词典案例

对于地址搜索语料库采用同样方法处理，即基于统计方法和基于规则方法相结合。

(8)基于规则的方法采用地址后缀词匹配规则算法，具体步骤如下：

①将上一步得到的所有的连续单字连接起来，作为一个未识别词条，存入一个临时库A中；

②对任何未识别词条W₁W₂…W_n，判断W₁W₂…W_n是否包含地址后缀词，如表9所示。如果存在，则进入③，否则丢弃改词条；

表9地址后缀词

③以地址后缀词为分隔符，将W₁W₂…W_n划分为多个子词条，将包含有地址后缀词的词条存入候选地址新词词库中。

④针对临时库A中不包含地址后缀词的W₁W₂…W_k，如果候选地址新词词库中词语W₁W₂…W_n包含W₁W₂…W_k，则W₁W₂…W_n对应语料库词频加1；

⑤如果已识别词典中的词语W₁W₂…W_n中存在子串W_iW_i+1…W_i+k，且W_iW_i+1…W_i+k也在已识别词典中，则剔除从已识别词典剔除词语 W₁W₂…W_n；如果已识别词典中的词语存在数字或英文字符，则从已识别词典剔除该词语；

⑥如果已识别词典中存在候选地址新词词库中词语W₁W₂…W_n且 W₁W₂…W_n对应语料库词频大于T_address(T_address取10)，则将W₁W₂…W_n加入高频中文地址新词词典中，否则将将W₁W₂…W_n加入低频中文地址新词词典中，退出算法。其实现具体的步骤如图5所示。

高频中文地址新词	词频
		上寮村	20
上义村	10
		洋淇村	7
玉湖镇	43
		贵屿镇	8
云落镇	23
		新坛紫晖园	21
钟厝洋村	16
		凤岗镇	8
陈岱镇	6

表10高频中文地址新词词典案例

表11低频中文地址新词词典案例

图6为基于动态词库更新的中文分词方法的流程图：将三个新词词典添加到分词词典中，以一周为周期抓取本地手机用户的搜索关键词记录，利用三种不同新词识别方法分别对语料库进行识别，根据不同阈值将识别到的新词分为高频新词与低频新词。

(1)对于高频新词，直接将其添加到已识别新词词典中；

(2)对于低频新词，将其添加到历史低频新词词库中，更新词库词频，如果更新后的词频达到一定阈值，则添加到已识别新词词典；

人工剔除已识别新词词典中识别错误的新词，更新识别后的分词词典，使用新的分词词典对搜索关键句进行文本分词，从而提高分词准确率，实现动态更新。

例一：

原始搜索记录：黑曜石吊坠用红绳好还是黑绳

Jieba中文分词结果[8]：黑曜石,吊坠用,红绳,好,还是,黑绳

基于动态词库更新的Jieba分词结果：黑曜石,吊坠,用红绳,好, 还是,黑绳

例二：

原始搜索记录：刘涛霸气壁咚杨紫

Jieba中文分词结果：刘涛,霸气,壁咚,杨,紫

基于动态词库更新的Jieba分词结果：刘涛，霸气，壁咚，杨紫

例三：

原始搜索记录：蓝城区月城医院

Jieba中文分词结果：蓝,城区,月,城,医院

基于动态词库更新的Jieba分词结果：蓝城区,月城,医院

第二方面，本发明实施例提供了一种中文文本识别装置，如图7 所示，包括：

关键词获取单元201，用于获取各终端应用程序上报的用户在应用程序搜索的关键词，并根据所述关键词的类别属性，将所述关键词存储至对应类别的搜索语料库中；

字符串切分单元202，用于针对各个搜索语料库采用对应的预设算法对存储的关键词进行多次切分直至得到无法继续切分的单字符串；

初步识别单元203，用于根据所述单字符串所属的搜索语料库的类别，基于对应预设的规则识别算法或基于预设词库对所述单字符串进行识别，筛选出初步识别字符，并将所述初步识别字符加入到候选新词词库中；

概率筛选单元204，用于当所述初步识别字符在所述候选新词词库中出现的概率达到预设的概率阈值时，将所述初步识别字符添加到所述预设词库中。

可选地，所述关键词获取单元，进一步用于：

将携带地理位置信息的关键词存储在地址搜索语料库中；

将未携带地理位置信息的关键词存储在通用搜索语料库中。

可选地，所述初步识别单元203，进一步用于：

对于属于地址搜索语料库中单字符串，筛选出包含预设地址后缀关键词的单字符串，并将预设的地址后缀关键词为分隔符，将所述单字符串划分为若干个词条，将所述若干个词条作为初步识别字符加入到候选地址新词词库中；

相应地，所述概率筛选单元204，进一步用于：

在初步识别字符在候选地址新词词库中出现的概率达到预设的概率阈值时，将所述初步识别字符加入到地址搜索新词词库中。

可选地，所述初步识别单元203，进一步用于：

对于属于通用搜索语料库中单字符串，在判断其为非中文姓名单字符串时，基于BI-gram模型筛选出初步识别字符，并将所述初步识别字符加入到候选通用新词词库中；

相应地，所述概率筛选单元204，进一步用于：

在所述初步识别字符在所述候选通用新词词库中出现的概率达到预设的概率阈值时，将所述初步识别字符加入到通用搜索新词词库中。

可选地，所述初步识别单元203，进一步用于：

对于属于通用搜索语料库中单字符串，在判断其为中文姓名单字符串时，将所述单字符串划分为姓字符以及若干个名字字符，在所述姓字符在现有的汉语姓字库中出现的第一概率大于0且所述名字字符在现有的汉语名字字库中出现的第二概率大于0时，将所述单字符串添加至候选姓名词库中；

相应地，所述概率筛选单元204，进一步用于：

根据所述第一概率与第二概率得到所述中文姓名单字符串对应的第三概率；在所述第三概率在所述候选姓名词库中出现的概率达到预设的概率阈值时，将所述中文姓名单字符串加入到中文姓名新词词库中。

由于本实施例所介绍的中文文本分词装置为可以执行本发明实施例中的中文文本分词方法的装置，故而基于本发明实施例中所介绍的中文文本分词的方法，本领域所属技术人员能够了解本实施例的中文文本分词装置的具体实施方式以及其各种变化形式，所以在此对于该中文文本分词装置如何实现本发明实施例中的中文文本分词方法不再详细介绍。只要本领域所属技术人员实施本发明实施例中中文文本分词方法所采用的装置，都属于本申请所欲保护的范围。

本发明的某些部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器 (DSP)来实现根据本发明实施例的网关、代理服务器、系统中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

Claims

1.一种中文文本识别方法，其特征在于，包括：

获取各终端应用程序上报的用户在应用程序搜索的关键词，并根据所述关键词的搜索类别属性，将所述关键词存储至对应类别的搜索语料库中；

2.根据权利要求1所述的方法，其特征在于，所述根据所述关键词的类别属性，将所述关键词存储至对应类别的搜索语料库中包括：

将携带地理位置信息的关键词存储在地址搜索语料库中；

将未携带地理位置信息的关键词存储在通用搜索语料库中。

3.根据权利要求2所述的方法，其特征在于，所述根据所述单字符串所属的搜索语料库的类别，基于对应预设的规则识别算法或基于对应的现有词库对所述单字符串进行识别，筛选出初步识别字符，并加所述初步识别字符加入到候选新词词库中，包括：

相应地，所述在初步识别字符在所述候选新词词库中出现的概率达到预设的概率阈值时，将所述初步识别字符加入到对应的现有词库中，包括：

4.根据权利要求2所述的方法，其特征在于，所述根据所述单字符串所属的搜索语料库的类别，基于对应预设的规则识别算法或基于对应的现有词库对所述单字符串进行识别，筛选出初步识别字符，并加所述初步识别字符加入到候选新词词库中，包括：

5.根据权利要求2所述的方法，其特征在于，所述根据所述单字符串所属的搜索语料库的类别，基于对应预设的规则识别算法或基于对应的现有词库对所述单字符串进行识别，筛选出初步识别字符，并加所述初步识别字符加入到候选新词词库中，包括：

6.一种中文文本识别装置，其特征在于，包括：

7.根据权利要求6所述的装置，其特征在于，所述关键词获取单元，进一步用于：

将携带地理位置信息的关键词存储在地址搜索语料库中；

将未携带地理位置信息的关键词存储在通用搜索语料库中。

8.根据权利要求7所述的装置，其特征在于，所述初步识别单元，进一步用于：

相应地，所述概率筛选单元，进一步用于：

9.根据权利要求7所述的装置，其特征在于，所述初步识别单元，进一步用于：

相应地，所述概率筛选单元，进一步用于：

10.根据权利要求7所述的装置，其特征在于，所述初步识别单元，进一步用于：

相应地，所述概率筛选单元，进一步用于：