CN108536667B - 中文文本识别方法及装置 - Google Patents

中文文本识别方法及装置 Download PDF

Info

Publication number
CN108536667B
CN108536667B CN201710129217.6A CN201710129217A CN108536667B CN 108536667 B CN108536667 B CN 108536667B CN 201710129217 A CN201710129217 A CN 201710129217A CN 108536667 B CN108536667 B CN 108536667B
Authority
CN
China
Prior art keywords
probability
preset
single character
word
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710129217.6A
Other languages
English (en)
Other versions
CN108536667A (zh
Inventor
徐志焕
陈文鸿
陈利青
郑丽燕
吴锐彬
徐睿
张晓川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
China Mobile Group Guangdong Co Ltd
Original Assignee
China Mobile Communications Group Co Ltd
China Mobile Group Guangdong Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd, China Mobile Group Guangdong Co Ltd filed Critical China Mobile Communications Group Co Ltd
Priority to CN201710129217.6A priority Critical patent/CN108536667B/zh
Publication of CN108536667A publication Critical patent/CN108536667A/zh
Application granted granted Critical
Publication of CN108536667B publication Critical patent/CN108536667B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Character Discrimination (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种中文文本识别方法及装置,该方法中首先获取PS域信令中各个终端的应用程序上报的关键词,并根据应用程序的类别对关键词进行分类处理,针对存储在不同搜索语料库中的关键词基于不同的预设算法对所述关键词进行切分、初步识别以及概率筛选,最后将筛选得到的结果加入到预设词库中,从而相比于现有的识别方法,本发明实施例提供的方法能够根据上报关键词的应用程序的类别不同对不同的词汇进行特定的处理,更具有针对性,从而能够得到更准确的识别结果,提高识别的效率。

Description

中文文本识别方法及装置
技术领域
本发明实施例涉及软件技术领域,具体涉及一种中文文本识别方法及装置。
背景技术
随着互联网时代的到来,人们越来越依赖于搜索引擎进行信息检索,然而传统的机械分词方法对于日新月异的网络用词和新兴词组的识别效果并不理想。中文分词技术是搜索引擎和中文自然语言处理的基础,未登录词识别中文分词的一大瓶颈。其中,未登录词是指未被分词系统所收录的词语。
针对未登录新词的识别,目前较为常用的方法为获取网页内容、搜索日志或查询日志,根据网页内容、搜索日志或查询日志中的内容基于规则方法或基于统计方法进行新词识别。
然而,在实施本发明实施例的过程中发明人发现,由于汉语存在多样性,各个领域的词汇都有着自身的特点。尤其是地名、人名等词汇,很多情况下没有特殊的含义,无法仅从语义分析或数据统计上能够将地名或者人名进行很好的划分。而采用这样的识别方法虽然容易实现,但在新词的识别过程中,对所有待确认的词汇均采用一种规则或方式来进行识别,从而不利于识别地名、人名等特殊词汇,识别率较低。
发明内容
本发明提供了一种中文文本识别方法及装置,用于克服现有的新词识别方法对于所有的待确认词汇采用统一的方式来识别,对于特殊词汇的识别率较低的缺陷。
第一方面,本发明实施例提供了一种中文文本识别方法,包括:
获取各终端应用程序上报的用户在应用程序搜索的关键词,并根据所述关键词的类别属性,将所述关键词存储至对应类别的搜索语料库中;
针对各个搜索语料库采用对应的预设算法对存储的关键词进行多次切分直至得到无法继续切分的单字符串;
根据所述单字符串所属的搜索语料库的类别,基于对应预设的规则识别算法或基于预设词库对所述单字符串进行识别,筛选出初步识别字符,并将所述初步识别字符加入到候选新词词库中;
当所述初步识别字符在所述候选新词词库中出现的概率达到预设的概率阈值时,将所述初步识别字符添加到所述预设词库中。
第二方面,本发明实施例提供了一种中文文本识别装置,包括:
关键词获取单元,用于获取各终端应用程序上报的用户在应用程序搜索的关键词,并根据所述关键词的类别属性,将所述关键词存储至对应类别的搜索语料库中;
字符串切分单元,用于针对各个搜索语料库采用对应的预设算法对存储的关键词进行多次切分直至得到无法继续切分的单字符串;
初步识别单元,用于根据所述单字符串所属的搜索语料库的类别,基于对应预设的规则识别算法或基于预设词库对所述单字符串进行识别,筛选出初步识别字符,并将所述初步识别字符加入到候选新词词库中;
概率筛选单元,用于当所述初步识别字符在所述候选新词词库中出现的概率达到预设的概率阈值时,将所述初步识别字符添加到所述预设词库中。
本发明实施例提供的中文文本识别方法中,首先获取PS域信令中各个终端的应用程序上报的关键词,并根据应用程序的类别对关键词进行分类处理,针对存储在不同搜索语料库中的关键词基于不同的预设算法对所述关键词进行切分、初步识别以及概率筛选,最后将筛选得到的结果加入到预设词库中。从而相比于现有的识别方法,本发明实施例提供的方法能够根据上报关键词的应用程序的类别不同对不同的词汇进行特定的处理,更具有针对性,从而能够得到更准确的识别结果,提高识别的效率。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1是本发明提供的一种中文文本分词方法实施例流程图;
图2是本发明提供的基于中文检索关键词的新词识别流程图;
图3是本发明提供的基于BI-gram模型及词位置统计信息的通用未登录词识别流程图;
图4是本发明提供的基于概率识别器的中文姓名未登录词识别方法的流程图;
图5是本发明提供的基于地址后缀规则和统计相结合的地址新词识别流程图;
图6是本发明提供的基于动态词库更新的中文分词方法的流程图;
图7是本发明提供的一种中文文本分词装置实施例结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
第一方面,本发明实施例提供了一种中文文本识别方法,如图1所示,包括:
S101、获取各终端应用程序上报的用户在应用程序搜索的关键词,并根据所述关键词的类别属性,将所述关键词存储至对应类别的搜索语料库中;
S102、针对各个搜索语料库采用对应的预设算法对存储的关键词进行多次切分直至得到无法继续切分的单字符串;
S103、根据所述单字符串所属的搜索语料库的类别,基于对应预设的规则识别算法或基于预设词库对所述单字符串进行识别,筛选出初步识别字符,并将所述初步识别字符加入到候选新词词库中;
S104、当所述初步识别字符在所述候选新词词库中出现的概率达到预设的概率阈值时,将所述初步识别字符添加到所述预设词库中。
本发明实施例提供的中文文本识别方法中,首先获取PS域信令中各个终端的应用程序上报的关键词,并根据应用程序的类别对关键词进行分类处理,针对存储在不同搜索语料库中的关键词基于不同的预设算法对所述关键词进行切分、初步识别以及概率筛选,最后将筛选得到的结果加入到预设词库中。从而相比于现有的识别方法,本发明实施例提供的方法能够根据上报关键词的应用程序的类别不同对不同的词汇进行特定的处理,更具有针对性,从而能够得到更准确的识别结果,提高识别的效率。
在实际应用中,这里终端可以通过PS域上报关键词。这里的PS域具体是指运营商提供的在2G、3G或4G网络中传输的信令。本发明实施例可以基于运营商的优势获取PS域的信令,从而相比于现有的基于某一应用自身搜索引擎获取关键词的方式,能够获取更多的关键词资源,进而能够及时识别当下流行的新词。
在实际应用中,这里的关键词的类别属性具体可以理解为根据关键词的属性所确定的关键词的所属类别。
在实际应用中,需要注意的是,这里的单字符串并不代表其是单独一个汉字,其只是在经过预设的切分算法进行切分后无法再继续切分的字符串。可以理解的是,只有将待识别的字符串切分至最小的单元才可以方便的对每个最小单元的字符串进行识别。
在具体实施时,由于中文的地名具有特殊性,其设置可能不符合语义或者有比较独特的含义,将其与其他词汇一起识别很难获得好的识别效果,因此,上述方法实施例中的步骤S101进一步包括:
S1011、将携带地理位置信息的关键词存储在地址搜索语料库中;将未携带地理位置信息的关键词存储在通用搜索语料库中。
这里的携带的地理位置信息例如可以为“村”、“市”、“站”、“机场”、“车站”等能够表明地点的词语。也就是说携带类似这些词语的关键词很有可能是一个地名,因此将这样的关键词存储在地址搜索语料库中,而将未携带地理位置信息的关键词存储在通用搜索语料库中。
当然,除了地名之外,还可以对其他特定应用程序上报的特定类的词汇进行类似于上述过程的分类处理,本发明对此不作具体限定。
在这一基础上,在具体实施时,针对于地名类关键词的特殊识别处理,上述方法实施例中的步骤S103具体可以包括:
S1031、对于属于地址搜索语料库中单字符串,筛选出包含预设地址后缀关键词的单字符串,并将预设的地址后缀关键词为分隔符,将单字符串划分为若干个词条,将若干个词条作为初步识别字符加入到候选地址新词词库中;
相应地,步骤S104具体可以包括:
S1041、在初步识别字符在候选地址新词词库中出现的概率达到预设的概率阈值时,将初步识别字符加入到地址搜索新词词库中。
具体来说,由于现阶段分词主要有基于统计的方法和基于语言规则的方法。基于统计的分词方法用字与字相邻共现的频率反映成词的可信度。在上下文中,相邻的字同时出现的次数越多,就越有可能构成一个词。因此,需要对语料中相邻共现各个字的组合频率进行统计,计算它们的互现信息。基于统计的分词方法是当前分词识别的主流方法,只要数学模型适当,就会有较高的精度和查全率。然而上述方法都具有各自的局限性。基于统计的方法经常会抽出一些共现频度高但并不是词的常用字组,并且对常用词的识别精度较差。基于规则的分词方法是基于语言学知识建立词的构成规则,大多数词语符合构词规则。此方法对于大部分符合规则的常用词汇很有效,但是由于规则方法是基于动词、名词、形容词三大词汇的构词,而常用词汇中存在大量的兼类词,所以规则的运行也常常会产生一些错召和漏召的情况。用统计方法识别错误单词具有一定的规则性。
因此,针对这一问题,本发明实施例提供的方法在对地名关键词进行处理是将语言规则方法与统计方法结合起来,从而发挥各自方法的优势,提高新词识别的精度和查全度。具体来说,中文地址识别往往使用基于地址构成规则的匹配方法进行识别。对于地址搜索语料库,本发明采用基于规则方法和基于统计方法相结合进行处理:基于规则方法本发明采用基于地址名词后缀规则进行识别,对地址未登录词临时词库中的词条进行逐条匹配,判断词条中符合地址后缀关键词规则,然后根据地址后缀词对词条进行拆分,分解成一个个独立的地名词。最后统计各个地址名词的出现频率,筛选出频率较高且不在已识别词库中的地址名词加入到中文地址新词词库中。
在具体实施时,针对于中文姓名关键词的特殊识别处理,上述方法实施例中的步骤S103具体可以包括:
S103a、对于属于通用搜索语料库中单字符串,在判断其为中文姓名单字符串时,将单字符串划分为姓字符以及若干个名字字符,在姓字符在现有的汉语姓字库中出现的第一概率大于0且名字字符在现有的汉语名字字库中出现的第二概率大于0时,将单字符串添加至候选姓名词库中。
相应地,步骤S104具体可以包括:
S104a、根据第一概率与第二概率得到中文姓名单字符串对应的第三概率;在第三概率在候选姓名词库中出现的概率达到预设的概率阈值时,将中文姓名单字符串加入到中文姓名新词词库中。
同样地,对于通用搜索语料库中的中文姓名单字符串,本发明实施例采用的方法仍能是基于规则方法和基于统计方法相结合的方法。具体来说,基于通用搜索语料库,针对中文姓名进行未登录词识别:利用已识别的汉语姓名词库构建中文姓词库及中文名词库,对于语料库中任何两字词WiWi+1和三字词WiWi+1Wi+2,判断Wi是否存在中文姓词库中,Wi+1或Wi+2是否在中文名词库中,从而初步识别出两字姓名候选词和三字姓名候选词。针对识别出的姓名候选词,引入概率识别器进行统计筛选。基于中文姓名组成概率的方法,概率识别器利用姓名用字的规律性信息,提高最后结果的识别准确率。本发明采用概率识别器为:
Pname(W1W2W3)=P(W1)*P(W2)*P(W3)或Pname(W1W2)=P(W1)*P(W2) (1)
其中,P(Wi)=F(Wi)*D(Wi),F(Wi)为已识别词字典中Wi作为姓或名的频率,D(Wi)为已识别汉语姓名词库中Wi作为姓或名的概率。如果P(W1W2W3)大于阈值Tthree或P(W1W2)大于阈值Ttwo,,则将W1W2或W1W2W3识别为新姓名用词,如果该词语不存在已识别词库中,且出现次数高于一定阈值,则加入中文姓名新词词库中。
在具体实施时,针对于其他关键词的特殊识别处理,上述方法实施例中的步骤S103具体可以包括:
S103i、对于属于通用搜索语料库中单字符串,在判断其为非中文姓名单字符串时,基于BI-gram模型筛选出初步识别字符,并将所述初步识别字符加入到候选通用新词词库中;
相应地,步骤S104具体可以包括:
S104i、在所述初步识别字符在所述候选通用新词词库中出现的概率达到预设的概率阈值时,将所述初步识别字符加入到通用搜索新词词库中。
同样地,对于通用搜索语料库中的非中文姓名单字符串,本发明实施例采用的方法仍能是基于规则方法和基于统计方法相结合的方法。
具体来说,对于通用搜索语料库中的词语采用可以N-gram模型和基于统计方法结合进行处理。在应用N-gram模型之前,为了保证模型的效率,需要先进行数据平滑处理,使所有的N-gram概率之和为1且所有的N-gram概率都不为0。N-gram模型基于以下假设:第N个词的出现只与前面N-1个词相关,而与其它任何词都不相关,整句的概率就是各个词出现概率的乘积。这些概率可以通过直接从语料中统计N个词同时出现的次数得到。对于一个句子T,假设T是由词序列W1,W2,W3,…Wn组成的,那么这个句子出现的概率为:
P(T)=P(W1W2...Wn)
=P(W1)P(W2|W1)P(W3|W1W2)...P(Wn|W1W2...Wn-1) (2)
常用的是二元的BI-gram和三元的Tri-gram。有关统计信息显示,汉语中相邻两个词语组合成新词语的可能性是很大的,特定概念通常都是由多个词语组合来表达的,其中两个词语的组合最为普遍,而且两个词语组合又是多个词语组合的基础,因此本发明使用BI-gram作为统计模型,只考虑任何两个标点符号之间的连续词序列。
此处同时引入马尔科夫假设:一个词的出现仅仅依赖于它前面出现的有限的一个或者几个词。如果一个词的出现仅依赖于它前面出现的一个词,那么就是本发明使用的BI-gram模型。即
Figure GDA0003206247810000081
然后使用最大似然估计方法得到P(Wn|W1W2…Wn-1),即P(Wn|W1W2…Wn-1)=(C(W1W2…Wn))/(C(W1W2…Wn-1)),并统计序列C(W1 W2…Wn)出现的次数和C(W1 W2…Wn-1)出现的次数。其中,
条件概率:
Figure GDA0003206247810000091
乘法公式:
P(AB)=P(A)P(B|A),(P(A)>0)
P(A1A2...An)=P(A1)P(A2|A1)...P(An|A1A2...An-1)
(P(An|A1A2...An-1)>0) (5)
从序列的第一个词语开始,依次记录相邻两个词语组合的共现串、共现文档名称、共现位置等信息,同时实现共现次数、共现文档数目的累计。在文本上下文序列“W1W2W3…Wn”中,若Wi后面紧跟词Wj,则WiWj组成新词的可信度定义为Wi后出现Wj的概率:P(Wj|Wi)=dfij/dfi,dfij代表词Wi和词Wj共现频次,dfi代表词Wi出现频次。针对每个首词Wi分别计算与其共现的所有尾词Wj(设共有K个)的共现频次均值:
Figure GDA0003206247810000092
这里本发明取阈值为E(dfi),即当dfij>E(dfi),则将该词组存入候选新词词库。
针对候选新词词库中的候选词语,利用词语位置统计概率进行筛选:对于已识别词库中的词条,统计每个字作为前缀词(即词条的第一个字),后缀词(即词条的最后一个字)及单字词(单独一个字组成词条)的概率,记作Pfirst(x),Plast(x),Psingle(x),其定义如下:
Figure GDA0003206247810000093
Figure GDA0003206247810000094
Figure GDA0003206247810000095
对于候选新词词库中的每个候选词语W1W2…Wn,如果Pfirst(W1)>Tfirst,Psingle(Wn)>Tlast且不存在Wx(1<=x<=n),使得Psingle(Wx)>Tsingle,则将该词语视为通用搜索新词。如果该词语不存在已识别词库中,且出现次数高于一定阈值,则加入通用搜索新词词库中。
需要说明的是,本发明实施例提供的方法在步骤S102中所采用的词汇切分方法,可以为最大匹配分词方法。由于该方法为常用的分词方法在此不作过多的介绍。
还需要说明的是,为了进一步区分出各个新词词库(例如通用搜索新词词库、地址搜索新词词库以及中文姓名新词词库)中各个新词的热度,本发明实施例提供的方法还包括对新词的出现热度进行区别的步骤。
具体来说,可以以一周为周期抓取本地手机用户的搜索关键词记录,利用上面三种不同新词识别方法分别对语料库进行识别,根据不同阈值将识别到的新词分为高频新词与低频新词。对于高频新词,直接将其添加到已识别分词词典中;对于低频新词,将其添加到历史低频新词词库中,更新词库词频,如果更新后的词频是否达到一定阈值,则添加到已识别分词词典。使用新的分词词典对搜索关键句进行文本分词,从而提高分词的准确率。
不难理解的是,上述实施例中的举例说明只是为了便于更好地理解本发明实施例提供的方法,并不能构成对本发明的具体限定。且上述的各个优选实施方式之间不会相互影响,各个优选实施方式之间的任意组合所得到的方案均应该落入本发明的保护范围。
为便于理解的本发明实施例提供的方法的完整流程,下面结合附图2至附图6来详细介绍本发明实施例提供的方法。
图2示出了基于网上检索关键词的中文新词识别流程图,具体算法如下:
(1)利用手机用户的2G\3G\4G上网信令数据,抓取用户使用搜索引擎或地图类网站等关键词记录,以关键词+搜索次数的格式写入搜索语料库中;
(2)对于获取的关键词记录,按不同搜索类别分为通用搜索语料库,地址搜索语料库。来自百度,360搜索等通用检索网站的关键词放入通用搜索语料库,来自百度地图等地点位置查询网站的关键词放入地址搜索语料库;
搜索关键字 搜索词频
微信 5335
大主宰 6787
完美世界小说 8180
百度寻人 16664
完美世界 4050
百度 2345
万能钥匙 1900
雪鹰领主 3387
天气 1665
完美世界 4050
表1通用搜索原始语料库案例
搜索关键字 搜索词频
景点 222
揭阳市 208
美食 198
广州市 149
公交站 149
酒店 89
揭阳马牙长途汽车站 66
百度地图 76
农业银行 106
揭阳潮汕国际机场 70
表2地图搜索原始语料库案例
(3)导入已识别中文词典,对两大个语料库分别运用最大匹配算法进行初步分词处理,切分出单字串,然后和词库进行比对,如果是一个词就记录下来,否则通过增加或者减少一个单字,继续比较,直到只剩下一个单字则终止,如果该单字串无法切分,则作为未登录词处理,并作词性标注。将最大匹配分词后作为未登录处理的单字分布存入通用搜索未登录词初始语料库、地址搜索未登录词初始语料库;
切分单字串 词频
快闪 138
之家 145
K歌 181
被称 80
易某 192
酷我 1
被打 58
杨某 55
月嫂 47
表3通用搜索未登录词初始语料库案例
Figure GDA0003206247810000121
Figure GDA0003206247810000131
表4地址搜索未登录词初始语料库案例
对于通用搜索初始语料库采用N-gram模型和基于统计方法结合进行处理,获取通用搜索中文新词,其实现具体的步骤如图3所示:
(4)基于BI-gram模型的统计方法,具体步骤如下:
①在文本上下文序列“w1 w2 w3…wn”中,若wi后面紧跟词wj,则记为wi→wj;
②定义wiwj组成新词的可信度为wi后出现wj的概率:P(wj|wi)=dfij/dfi,dfij代表词wi和词wj共现频次,dfi代表词wi出现频次;
③针对每个首词wi分别计算与其共现的所有尾词wj(设共有K个)的共现频次均值:
Figure GDA0003206247810000132
④取阈值T为E(dfi),当dfij>E(dfi)则保留该词条,否则丢弃该词条;
⑤将最终保留下来的词条存入候选通用搜索新词词库中。退出算法。
(5)利用词语位置统计概率进行筛选,对于候选新词词库中的每个候选词语W1W2…Wn,如果Pfirst(W1)>Tfirst,Psingle(Wn)>Tlast(Tfirst取0.1,Tlast取0.2)且不存在Wx(1<=x<=n),使得Psingle(Wx)>Tsingle(Tsingle取0.7),则将该词语识别为通用搜索新词,否则丢弃该词语。
(6)如果已识别通用搜索新词W1W2…Wn对应语料库词频大于Tnormal(Tnormal取10),则将W1W2…Wn加入高频通用新词词典中,否则将W1W2…Wn加入低频通用新词词典中,退出算法。
Figure GDA0003206247810000133
Figure GDA0003206247810000141
表5高频通用新词词典案例
低频通用新词 词频
O,腿 4
虾蟹 1
袪斑 3
钾镁 3
爱动 2
沐足 1
攀上 1
表6低频通用新词词典案例
对于通用搜索语料库采用初步统计识别和基于概率识别器的筛选方法进行处理,获取中文姓名新词,具体实现步骤如图4所示:
(6)基于统计的初步姓名识别具体步骤如下:
①对于通用搜索语料库中的任何未识别词条W1W2…Wn,按照从前往后的顺序循环取出WjWj+1
②利用已识别的汉语姓名词库构建中文姓词典及中文名词典,对于任意姓名用词X,Pxing(X)为X在中文姓词典中的频率,Pming(X)为X在中文名词典中的频率,判断Pxing(Wj)>0且Pming(Wj+1)>0是否成立,如果是,则进入③,否则丢弃该词条;
③如果存在Wj+2且Pming(Wj+2)>0,则将WjWj+1Wj+2放入候选三字姓名候选词库中,否则进入④;
④如果存在Wj-1且Pming(Wj-1)>Pavg,则丢弃该词条,否则将WjWj+1放入候选二字姓名候选词库中,其中Pavg为中文姓词典中所有字作为姓用字的概率平均值。退出算法。
(7)基于概率识别器的筛选方法具体步骤如下:
①定义概率识别器为
Pname(W1W2W3)=P(W1)*P(W2)*P(W3)或Pname(W1W2)=P(W1)*P(W2)
其中,P(Wi)=F(Wi)*D(Wi),F(Wi)为已识别词字典中Wi作为姓或名的频率,D(Wi)为已识别汉语姓名词库中Wi作为姓或名的概率。
②对于三字姓名候选词库中的任意词条WjWj+1Wj+2,判断Pname(WjWj+1Wj+2)>Tthree(t取0.02*10-7)且WjWj+1Wj+2不在已识别词典库中,则将WjWj+1Wj+2添加中文姓名新词后续词典,否则丢弃该词条;
③对于二字姓名候选词库中的任意词条WjWj+1,判断Pname(WjWj+1)>Ttwo(Ttwo取1.5*10-7)且WjWj+1不在已识别词典库中,则将WjWj+1添加中文姓名新词后续词典,否则丢弃该词条。
④如果中文姓名新词后续词典中词条WjWj+1Wj+2或WjWj+1出现次数大于Tname(Tname对于WjWj+1Wj+2取5,对于WjWj+1取20),则将词条添加到高频中文姓名新词词典,否则添加到低频中文姓名新词词典,退出算法。
Figure GDA0003206247810000151
Figure GDA0003206247810000161
表7高频中文姓名新词词典案例
低频中文姓名新词 词频
刘某明 2
王某芳 1
毛某东 1
李某群 2
郭某婷 1
赵某迪 3
范某芳 1
胡某军 8
乔某威 1
赵某信 9
表8低频中文姓名新词词典案例
对于地址搜索语料库采用同样方法处理,即基于统计方法和基于规则方法相结合。
(8)基于规则的方法采用地址后缀词匹配规则算法,具体步骤如下:
①将上一步得到的所有的连续单字连接起来,作为一个未识别词条,存入一个临时库A中;
②对任何未识别词条W1W2…Wn,判断W1W2…Wn是否包含地址后缀词,如表9所示。如果存在,则进入③,否则丢弃改词条;
Figure GDA0003206247810000162
Figure GDA0003206247810000171
表9地址后缀词
③以地址后缀词为分隔符,将W1W2…Wn划分为多个子词条,将包含有地址后缀词的词条存入候选地址新词词库中。
④针对临时库A中不包含地址后缀词的W1W2…Wk,如果候选地址新词词库中词语W1W2…Wn包含W1W2…Wk,则W1W2…Wn对应语料库词频加1;
⑤如果已识别词典中的词语W1W2…Wn中存在子串WiWi+1…Wi+k,且WiWi+1…Wi+k也在已识别词典中,则剔除从已识别词典剔除词语W1W2…Wn;如果已识别词典中的词语存在数字或英文字符,则从已识别词典剔除该词语;
⑥如果已识别词典中存在候选地址新词词库中词语W1W2…Wn且W1W2…Wn对应语料库词频大于Taddress(Taddress取10),则将W1W2…Wn加入高频中文地址新词词典中,否则将将W1W2…Wn加入低频中文地址新词词典中,退出算法。其实现具体的步骤如图5所示。
高频中文地址新词 词频
上寮村 20
上义村 10
洋淇村 7
玉湖镇 43
贵屿镇 8
云落镇 23
新坛紫晖园 21
钟厝洋村 16
凤岗镇 8
陈岱镇 6
表10高频中文地址新词词典案例
低频中文地址新词 词频
金京路 1
侨怡一街 3
麻涌镇 2
新和惠路 3
上洞村 4
岐宁村 2
西二街 2
归湖镇 1
同协路 4
篮兜村 2
表11低频中文地址新词词典案例
图6为基于动态词库更新的中文分词方法的流程图:将三个新词词典添加到分词词典中,以一周为周期抓取本地手机用户的搜索关键词记录,利用三种不同新词识别方法分别对语料库进行识别,根据不同阈值将识别到的新词分为高频新词与低频新词。
(1)对于高频新词,直接将其添加到已识别新词词典中;
(2)对于低频新词,将其添加到历史低频新词词库中,更新词库词频,如果更新后的词频达到一定阈值,则添加到已识别新词词典;
人工剔除已识别新词词典中识别错误的新词,更新识别后的分词词典,使用新的分词词典对搜索关键句进行文本分词,从而提高分词准确率,实现动态更新。
例一:
原始搜索记录:黑曜石吊坠用红绳好还是黑绳
Jieba中文分词结果[8]:黑曜石,吊坠用,红绳,好,还是,黑绳
基于动态词库更新的Jieba分词结果:黑曜石,吊坠,用红绳,好,还是,黑绳
例二:
原始搜索记录:蓝城区月城医院
Jieba中文分词结果:蓝,城区,月,城,医院
基于动态词库更新的Jieba分词结果:蓝城区,月城,医院
第二方面,本发明实施例提供了一种中文文本识别装置,如图7所示,包括:
关键词获取单元201,用于获取各终端应用程序上报的用户在应用程序搜索的关键词,并根据所述关键词的类别属性,将所述关键词存储至对应类别的搜索语料库中;
字符串切分单元202,用于针对各个搜索语料库采用对应的预设算法对存储的关键词进行多次切分直至得到无法继续切分的单字符串;
初步识别单元203,用于根据所述单字符串所属的搜索语料库的类别,基于对应预设的规则识别算法或基于预设词库对所述单字符串进行识别,筛选出初步识别字符,并将所述初步识别字符加入到候选新词词库中;
概率筛选单元204,用于当所述初步识别字符在所述候选新词词库中出现的概率达到预设的概率阈值时,将所述初步识别字符添加到所述预设词库中。
可选地,所述关键词获取单元,进一步用于:
将携带地理位置信息的关键词存储在地址搜索语料库中;
将未携带地理位置信息的关键词存储在通用搜索语料库中。
可选地,所述初步识别单元203,进一步用于:
对于属于地址搜索语料库中单字符串,筛选出包含预设地址后缀关键词的单字符串,并将预设的地址后缀关键词为分隔符,将所述单字符串划分为若干个词条,将所述若干个词条作为初步识别字符加入到候选地址新词词库中;
相应地,所述概率筛选单元204,进一步用于:
在初步识别字符在候选地址新词词库中出现的概率达到预设的概率阈值时,将所述初步识别字符加入到地址搜索新词词库中。
可选地,所述初步识别单元203,进一步用于:
对于属于通用搜索语料库中单字符串,在判断其为非中文姓名单字符串时,基于BI-gram模型筛选出初步识别字符,并将所述初步识别字符加入到候选通用新词词库中;
相应地,所述概率筛选单元204,进一步用于:
在所述初步识别字符在所述候选通用新词词库中出现的概率达到预设的概率阈值时,将所述初步识别字符加入到通用搜索新词词库中。
可选地,所述初步识别单元203,进一步用于:
对于属于通用搜索语料库中单字符串,在判断其为中文姓名单字符串时,将所述单字符串划分为姓字符以及若干个名字字符,在所述姓字符在现有的汉语姓字库中出现的第一概率大于0且所述名字字符在现有的汉语名字字库中出现的第二概率大于0时,将所述单字符串添加至候选姓名词库中;
相应地,所述概率筛选单元204,进一步用于:
根据所述第一概率与第二概率得到所述中文姓名单字符串对应的第三概率;在所述第三概率在所述候选姓名词库中出现的概率达到预设的概率阈值时,将所述中文姓名单字符串加入到中文姓名新词词库中。
由于本实施例所介绍的中文文本分词装置为可以执行本发明实施例中的中文文本分词方法的装置,故而基于本发明实施例中所介绍的中文文本分词的方法,本领域所属技术人员能够了解本实施例的中文文本分词装置的具体实施方式以及其各种变化形式,所以在此对于该中文文本分词装置如何实现本发明实施例中的中文文本分词方法不再详细介绍。只要本领域所属技术人员实施本发明实施例中中文文本分词方法所采用的装置,都属于本申请所欲保护的范围。
本发明的某些部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的网关、代理服务器、系统中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。

Claims (10)

1.一种中文文本识别方法,其特征在于,包括:
获取各终端应用程序上报的用户在应用程序搜索的关键词,并根据所述关键词的搜索类别属性,将所述关键词存储至对应类别的搜索语料库中;
针对各个搜索语料库采用对应的预设算法对存储的关键词进行多次切分直至得到无法继续切分的单字符串;
根据所述单字符串所属的搜索语料库的类别,基于对应预设的规则识别算法或基于预设词库对所述单字符串进行识别,筛选出初步识别字符,并将所述初步识别字符加入到候选新词词库中;
当所述初步识别字符在所述候选新词词库中出现的概率达到预设的概率阈值时,将所述初步识别字符添加到所述预设词库中;
其中,所述根据所述单字符串所属的搜索语料库的类别,基于对应预设的规则识别算法或基于预设词库对所述单字符串进行识别,筛选出初步识别字符,并加所述初步识别字符加入到候选新词词库中,包括:
对于属于地址搜索语料库中单字符串,筛选出包含预设地址后缀关键词的单字符串,并将预设的地址后缀关键词为分隔符,将所述单字符串划分为若干个词条,将所述若干个词条作为初步识别字符加入到候选地址新词词库中;
对于属于通用搜索语料库中单字符串,在判断其为非中文姓名单字符串时,基于BI-gram模型筛选出初步识别字符,并将所述初步识别字符加入到候选通用新词词库中。
2.根据权利要求1所述的方法,其特征在于,所述根据所述关键词的搜索类别属性,将所述关键词存储至对应类别的搜索语料库中包括:
将携带地理位置信息的关键词存储在地址搜索语料库中;
将未携带地理位置信息的关键词存储在通用搜索语料库中。
3.根据权利要求2所述的方法,其特征在于,所述初步识别字符在所述候选新词词库中出现的概率达到预设的概率阈值时,将所述初步识别字符加入到预设词库中,包括:
在初步识别字符在候选地址新词词库中出现的概率达到预设的概率阈值时,将所述初步识别字符加入到地址搜索新词词库中。
4.根据权利要求2所述的方法,其特征在于,所述初步识别字符在所述候选新词词库中出现的概率达到预设的概率阈值时,将所述初步识别字符加入到预设词库中,包括:
在所述初步识别字符在所述候选通用新词词库中出现的概率达到预设的概率阈值时,将所述初步识别字符加入到通用搜索新词词库中。
5.根据权利要求2所述的方法,其特征在于,所述根据所述单字符串所属的搜索语料库的类别,基于对应预设的规则识别算法或基于预设词库对所述单字符串进行识别,筛选出初步识别字符,并加所述初步识别字符加入到候选新词词库中,包括:
对于属于通用搜索语料库中单字符串,在判断其为中文姓名单字符串时,将所述单字符串划分为姓字符以及若干个名字字符,在所述姓字符在现有的汉语姓字库中出现的第一概率大于0且所述名字字符在现有的汉语名字字库中出现的第二概率大于0时,将所述单字符串添加至候选姓名词库中;
相应地,所述初步识别字符在所述候选新词词库中出现的概率达到预设的概率阈值时,将所述初步识别字符加入到预设词库中,包括:
根据所述第一概率与第二概率得到所述中文姓名单字符串对应的第三概率;在所述第三概率在所述候选姓名词库中出现的概率达到预设的概率阈值时,将所述中文姓名单字符串加入到中文姓名新词词库中。
6.一种中文文本识别装置,其特征在于,包括:
关键词获取单元,用于获取各终端应用程序上报的用户在应用程序搜索的关键词,并根据所述关键词的类别属性,将所述关键词存储至对应类别的搜索语料库中;
字符串切分单元,用于针对各个搜索语料库采用对应的预设算法对存储的关键词进行多次切分直至得到无法继续切分的单字符串;
初步识别单元,用于根据所述单字符串所属的搜索语料库的类别,基于对应预设的规则识别算法或基于预设词库对所述单字符串进行识别,筛选出初步识别字符,并将所述初步识别字符加入到候选新词词库中;
概率筛选单元,用于当所述初步识别字符在所述候选新词词库中出现的概率达到预设的概率阈值时,将所述初步识别字符添加到所述预设词库中;
其中,所述初步识别单元进一步用于:
对于属于地址搜索语料库中单字符串,筛选出包含预设地址后缀关键词的单字符串,并将预设的地址后缀关键词为分隔符,将所述单字符串划分为若干个词条,将所述若干个词条作为初步识别字符加入到候选地址新词词库中;
对于属于通用搜索语料库中单字符串,在判断其为非中文姓名单字符串时,基于BI-gram模型筛选出初步识别字符,并将所述初步识别字符加入到候选通用新词词库中。
7.根据权利要求6所述的装置,其特征在于,所述关键词获取单元,进一步用于:
将携带地理位置信息的关键词存储在地址搜索语料库中;
将未携带地理位置信息的关键词存储在通用搜索语料库中。
8.根据权利要求7所述的装置,其特征在于,所述概率筛选单元,进一步用于:
在初步识别字符在候选地址新词词库中出现的概率达到预设的概率阈值时,将所述初步识别字符加入到地址搜索新词词库中。
9.根据权利要求7所述的装置,其特征在于,所述概率筛选单元,进一步用于:
在所述初步识别字符在所述候选通用新词词库中出现的概率达到预设的概率阈值时,将所述初步识别字符加入到通用搜索新词词库中。
10.根据权利要求7所述的装置,其特征在于,所述初步识别单元,进一步用于:
对于属于通用搜索语料库中单字符串,在判断其为中文姓名单字符串时,将所述单字符串划分为姓字符以及若干个名字字符,在所述姓字符在现有的汉语姓字库中出现的第一概率大于0且所述名字字符在现有的汉语名字字库中出现的第二概率大于0时,将所述单字符串添加至候选姓名词库中;
相应地,所述概率筛选单元,进一步用于:
根据所述第一概率与第二概率得到所述中文姓名单字符串对应的第三概率;在所述第三概率在所述候选姓名词库中出现的概率达到预设的概率阈值时,将所述中文姓名单字符串加入到中文姓名新词词库中。
CN201710129217.6A 2017-03-06 2017-03-06 中文文本识别方法及装置 Active CN108536667B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710129217.6A CN108536667B (zh) 2017-03-06 2017-03-06 中文文本识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710129217.6A CN108536667B (zh) 2017-03-06 2017-03-06 中文文本识别方法及装置

Publications (2)

Publication Number Publication Date
CN108536667A CN108536667A (zh) 2018-09-14
CN108536667B true CN108536667B (zh) 2021-12-07

Family

ID=63489778

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710129217.6A Active CN108536667B (zh) 2017-03-06 2017-03-06 中文文本识别方法及装置

Country Status (1)

Country Link
CN (1) CN108536667B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109408818B (zh) * 2018-10-12 2023-04-07 平安科技(深圳)有限公司 新词识别方法、装置、计算机设备及存储介质
CN109388806B (zh) * 2018-10-26 2023-06-27 北京布本智能科技有限公司 一种基于深度学习及遗忘算法的中文分词方法
CN109510904B (zh) * 2018-12-25 2020-10-27 携程旅游网络技术(上海)有限公司 呼叫中心外呼录音的检测方法及系统
CN111370083B (zh) * 2018-12-26 2023-04-25 阿里巴巴集团控股有限公司 一种文本结构化方法及装置
CN110287488A (zh) * 2019-06-18 2019-09-27 上海晏鼠计算机技术股份有限公司 一种基于大数据和中文特征的中文文本分词方法
CN112148936A (zh) * 2020-10-10 2020-12-29 广州瀚信通信科技股份有限公司 一种基于scrapy爬虫架构及文本分析的商旅舆情分析方法
CN112395865B (zh) * 2020-11-17 2024-01-02 中国外运股份有限公司 报关单校验方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101131705A (zh) * 2007-09-27 2008-02-27 中国科学院计算技术研究所 一种新词发现方法和系统
CN101655866A (zh) * 2009-08-14 2010-02-24 北京中献电子技术开发中心 科技术语的自动化抽取方法
CN101950309A (zh) * 2010-10-08 2011-01-19 华中师范大学 一种面向学科领域的新专业词汇识别方法
US9317594B2 (en) * 2012-12-27 2016-04-19 Sas Institute Inc. Social community identification for automatic document classification

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101131705A (zh) * 2007-09-27 2008-02-27 中国科学院计算技术研究所 一种新词发现方法和系统
CN101655866A (zh) * 2009-08-14 2010-02-24 北京中献电子技术开发中心 科技术语的自动化抽取方法
CN101950309A (zh) * 2010-10-08 2011-01-19 华中师范大学 一种面向学科领域的新专业词汇识别方法
US9317594B2 (en) * 2012-12-27 2016-04-19 Sas Institute Inc. Social community identification for automatic document classification

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
基于概率统计技术和规则方法的新词发现;贾自艳 等;《计算机工程》;20041031;第1-4页 *
基于规则和统计相结合的中文命名实体识别研究;潘正高;《情报科学》;20120531;全文 *
基于词表和N一gram算法的新词识别实验;曹艳 等;《情报科学》;20071130;全文 *

Also Published As

Publication number Publication date
CN108536667A (zh) 2018-09-14

Similar Documents

Publication Publication Date Title
CN108536667B (zh) 中文文本识别方法及装置
CN107451126B (zh) 一种近义词筛选方法及系统
CN109101620B (zh) 相似度计算方法、聚类方法、装置、存储介质及电子设备
CN106682169B (zh) 一种应用标签挖掘方法、装置和应用搜索方法、服务器
WO2020140373A1 (zh) 一种意图识别方法、识别设备及计算机可读存储介质
WO2015149533A1 (zh) 一种基于网页内容分类进行分词处理的方法和装置
WO2008014702A1 (fr) Procédé et système d&#39;extraction de mots nouveaux
WO2022062523A1 (zh) 一种基于人工智能的文本挖掘方法、相关装置及设备
US10713302B2 (en) Search processing method and device
US20100318532A1 (en) Unified inverted index for video passage retrieval
WO2017088363A1 (zh) 筛选发音词典有效词条的方法及装置
US9798776B2 (en) Systems and methods for parsing search queries
WO2007143914A1 (fr) Procédé, dispositif et système de saisie pour la création d&#39;une base de données de fréquence de mots basée sur des informations issues du web
CN108038099B (zh) 基于词聚类的低频关键词识别方法
CN109033212B (zh) 一种基于相似度匹配的文本分类方法
CN111460170B (zh) 一种词语识别方法、装置、终端设备及存储介质
CN109815396B (zh) 搜索词权重确定方法及装置
WO2022068543A1 (zh) 一种多媒体内容发布的方法、装置、电子设备及存储介质
CN111090771A (zh) 歌曲搜索方法、装置及计算机存储介质
CN114896305A (zh) 一种基于大数据技术的智慧互联网安全平台
CN111488429A (zh) 一种基于搜索引擎的短文本聚类系统及其短文本聚类方法
CN111930949B (zh) 搜索串处理方法、装置、计算机可读介质及电子设备
CN114036929A (zh) 一种基于多模型特征融合的全简称匹配的方法
CN109918661B (zh) 同义词获取方法及装置
WO2017088126A1 (zh) 获取未登录词的方法与装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant