CN108536667A - 中文文本识别方法及装置 - Google Patents

中文文本识别方法及装置 Download PDF

Info

Publication number
CN108536667A
CN108536667A CN201710129217.6A CN201710129217A CN108536667A CN 108536667 A CN108536667 A CN 108536667A CN 201710129217 A CN201710129217 A CN 201710129217A CN 108536667 A CN108536667 A CN 108536667A
Authority
CN
China
Prior art keywords
probability
single character
candidate
word
preset
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710129217.6A
Other languages
English (en)
Other versions
CN108536667B (zh
Inventor
徐志焕
陈文鸿
陈利青
郑丽燕
吴锐彬
徐睿
张晓川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
China Mobile Group Guangdong Co Ltd
Original Assignee
China Mobile Communications Group Co Ltd
China Mobile Group Guangdong Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd, China Mobile Group Guangdong Co Ltd filed Critical China Mobile Communications Group Co Ltd
Priority to CN201710129217.6A priority Critical patent/CN108536667B/zh
Publication of CN108536667A publication Critical patent/CN108536667A/zh
Application granted granted Critical
Publication of CN108536667B publication Critical patent/CN108536667B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Character Discrimination (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种中文文本识别方法及装置,该方法中首先获取PS域信令中各个终端的应用程序上报的关键词,并根据应用程序的类别对关键词进行分类处理,针对存储在不同搜索语料库中的关键词基于不同的预设算法对所述关键词进行切分、初步识别以及概率筛选,最后将筛选得到的结果加入到预设词库中,从而相比于现有的识别方法,本发明实施例提供的方法能够根据上报关键词的应用程序的类别不同对不同的词汇进行特定的处理,更具有针对性,从而能够得到更准确的识别结果,提高识别的效率。

Description

中文文本识别方法及装置
技术领域
本发明实施例涉及软件技术领域,具体涉及一种中文文本识别方 法及装置。
背景技术
随着互联网时代的到来,人们越来越依赖于搜索引擎进行信息检 索,然而传统的机械分词方法对于日新月异的网络用词和新兴词组的 识别效果并不理想。中文分词技术是搜索引擎和中文自然语言处理的 基础,未登录词识别中文分词的一大瓶颈。其中,未登录词是指未被 分词系统所收录的词语。
针对未登录新词的识别,目前较为常用的方法为获取网页内容、 搜索日志或查询日志,根据网页内容、搜索日志或查询日志中的内容 基于规则方法或基于统计方法进行新词识别。
然而,在实施本发明实施例的过程中发明人发现,由于汉语存在 多样性,各个领域的词汇都有着自身的特点。尤其是地名、人名等词 汇,很多情况下没有特殊的含义,无法仅从语义分析或数据统计上能 够将地名或者人名进行很好的划分。而采用这样的识别方法虽然容易 实现,但在新词的识别过程中,对所有待确认的词汇均采用一种规则 或方式来进行识别,从而不利于识别地名、人名等特殊词汇,识别率 较低。
发明内容
本发明提供了一种中文文本识别方法及装置,用于克服现有的新 词识别方法对于所有的待确认词汇采用统一的方式来识别,对于特殊 词汇的识别率较低的缺陷。
第一方面,本发明实施例提供了一种中文文本识别方法,包括:
获取各终端应用程序上报的用户在应用程序搜索的关键词,并根 据所述关键词的类别属性,将所述关键词存储至对应类别的搜索语料 库中;
针对各个搜索语料库采用对应的预设算法对存储的关键词进行多 次切分直至得到无法继续切分的单字符串;
根据所述单字符串所属的搜索语料库的类别,基于对应预设的规 则识别算法或基于预设词库对所述单字符串进行识别,筛选出初步识 别字符,并将所述初步识别字符加入到候选新词词库中;
当所述初步识别字符在所述候选新词词库中出现的概率达到预设 的概率阈值时,将所述初步识别字符添加到所述预设词库中。
第二方面,本发明实施例提供了一种中文文本识别装置,包括:
关键词获取单元,用于获取各终端应用程序上报的用户在应用程 序搜索的关键词,并根据所述关键词的类别属性,将所述关键词存储 至对应类别的搜索语料库中;
字符串切分单元,用于针对各个搜索语料库采用对应的预设算法 对存储的关键词进行多次切分直至得到无法继续切分的单字符串;
初步识别单元,用于根据所述单字符串所属的搜索语料库的类别, 基于对应预设的规则识别算法或基于预设词库对所述单字符串进行识 别,筛选出初步识别字符,并将所述初步识别字符加入到候选新词词 库中;
概率筛选单元,用于当所述初步识别字符在所述候选新词词库中 出现的概率达到预设的概率阈值时,将所述初步识别字符添加到所述 预设词库中。
本发明实施例提供的中文文本识别方法中,首先获取PS域信令中 各个终端的应用程序上报的关键词,并根据应用程序的类别对关键词 进行分类处理,针对存储在不同搜索语料库中的关键词基于不同的预 设算法对所述关键词进行切分、初步识别以及概率筛选,最后将筛选 得到的结果加入到预设词库中。从而相比于现有的识别方法,本发明 实施例提供的方法能够根据上报关键词的应用程序的类别不同对不同 的词汇进行特定的处理,更具有针对性,从而能够得到更准确的识别 结果,提高识别的效率。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处 对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施 方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用 相同的参考符号表示相同的部件。在附图中:
图1是本发明提供的一种中文文本分词方法实施例流程图;
图2是本发明提供的基于中文检索关键词的新词识别流程图;
图3是本发明提供的基于BI-gram模型及词位置统计信息的通用未 登录词识别流程图;
图4是本发明提供的基于概率识别器的中文姓名未登录词识别方 法的流程图;
图5是本发明提供的基于地址后缀规则和统计相结合的地址新词 识别流程图;
图6是本发明提供的基于动态词库更新的中文分词方法的流程图;
图7是本发明提供的一种中文文本分词装置实施例结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方 案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部 分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普 通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例, 都属于本发明保护的范围。
第一方面,本发明实施例提供了一种中文文本识别方法,如图1 所示,包括:
S101、获取各终端应用程序上报的用户在应用程序搜索的关键词, 并根据所述关键词的类别属性,将所述关键词存储至对应类别的搜索 语料库中;
S102、针对各个搜索语料库采用对应的预设算法对存储的关键词 进行多次切分直至得到无法继续切分的单字符串;
S103、根据所述单字符串所属的搜索语料库的类别,基于对应预 设的规则识别算法或基于预设词库对所述单字符串进行识别,筛选出 初步识别字符,并将所述初步识别字符加入到候选新词词库中;
S104、当所述初步识别字符在所述候选新词词库中出现的概率达 到预设的概率阈值时,将所述初步识别字符添加到所述预设词库中。
本发明实施例提供的中文文本识别方法中,首先获取PS域信令中 各个终端的应用程序上报的关键词,并根据应用程序的类别对关键词 进行分类处理,针对存储在不同搜索语料库中的关键词基于不同的预 设算法对所述关键词进行切分、初步识别以及概率筛选,最后将筛选 得到的结果加入到预设词库中。从而相比于现有的识别方法,本发明 实施例提供的方法能够根据上报关键词的应用程序的类别不同对不同 的词汇进行特定的处理,更具有针对性,从而能够得到更准确的识别 结果,提高识别的效率。
在实际应用中,这里终端可以通过PS域上报关键词。这里的PS 域具体是指运营商提供的在2G、3G或4G网络中传输的信令。本发明 实施例可以基于运营商的优势获取PS域的信令,从而相比于现有的基 于某一应用自身搜索引擎获取关键词的方式,能够获取更多的关键词 资源,进而能够及时识别当下流行的新词。
在实际应用中,这里的关键词的类别属性具体可以理解为根据关 键词的属性所确定的关键词的所属类别。
在实际应用中,需要注意的是,这里的单字符串并代表其是单独 一个汉字,其只是在经过预设的切分算法进行切分后无法再继续切分 的字符串。可以理解的是,只有将待识别的字符串切分至最小的单元 才可以方便的对每个最小单元的字符串进行识别。
在具体实施时,由于中文的地名具有特殊性,其设置可能不符合 语义或者有比较独特的含义,将其与其他词汇一起识别很难获得好的 识别效果,因此,上述方法实施例中的步骤S101进一步包括:
S1011、将携带地理位置信息的关键词存储在地址搜索语料库中; 将未携带地理位置信息的关键词存储在通用搜索语料库中。
这里的携带的地理位置信息例如可以为“村”、“市”、“站”、 “机场”、“车站”等能够表明地点的词语。也就是说携带类似这些 词语的关键词很有可能是一个地名,因此将这样的关键词存储在地址 搜索语料库中,而将未携带地理位置信息的关键词存储在通用搜索语 料库中。
当然,除了地名之外,还可以对其他特定应用程序上报的特定类 的词汇进行类似于上述过程的分类处理,本发明对此不作具体限定。
在这一基础上,在具体实施时,针对于地名类关键词的特殊识别 处理,上述方法实施例中的步骤S103具体可以包括:
S1031、对于属于地址搜索语料库中单字符串,筛选出包含预设地 址后缀关键词的单字符串,并将预设的地址后缀关键词为分隔符,将 单字符串划分为若干个词条,将若干个词条作为初步识别字符加入到 候选地址新词词库中;
相应地,步骤S104具体可以包括:
S1041、在初步识别字符在候选地址新词词库中出现的概率达到预 设的概率阈值时,将初步识别字符加入到地址搜索新词词库中。
具体来说,由于现阶段分词主要有基于统计的方法和基于语言规 则的方法。基于统计的分词方法用字与字相邻共现的频率反映成词的 可信度。在上下文中,相邻的字同时出现的次数越多,就越有可能构 成一个词。因此,需要对语料中相邻共现各个字的组合频率进行统计, 计算它们的互现信息。基于统计的分词方法是当前分词识别的主流方 法,只要数学模型适当,就会有较高的精度和查全率。然而上述方法 都具有各自的局限性。基于统计的方法经常会抽出一些共现频度高但 并不是词的常用字组,并且对常用词的识别精度较差。基于规则的分 词方法是基于语言学知识建立词的构成规则,大多数词语符合构词规 则。此方法对于大部分符合规则的常用词汇很有效,但是由于规则方 法是基于动词、名词、形容词三大词汇的构词,而常用词汇中存在大 量的兼类词,所以规则的运行也常常会产生一些错召和漏召的情况。 用统计方法识别错误单词具有一定的规则性。
因此,针对这一问题,本发明实施例提供的方法在对地名关键词 进行处理是将语言规则方法与统计方法结合起来,从而发挥各自方法 的优势,提高新词识别的精度和查全度。具体来说,中文地址识别往 往使用基于地址构成规则的匹配方法进行识别。对于地址搜索语料库, 本发明采用基于规则方法和基于统计方法相结合进行处理:基于规则 方法本发明采用基于地址名词后缀规则进行识别,对地址未登录词临 时词库中的词条进行逐条匹配,判断词条中符合地址后缀关键词规则, 然后根据地址后缀词对词条进行拆分,分解成一个个独立的地名词。 最后统计各个地址名词的出现频率,筛选出频率较高且不在已识别词 库中的地址名词加入到中文地址新词词库中。
在具体实施时,针对于中文姓名关键词的特殊识别处理,上述方 法实施例中的步骤S103具体可以包括:
S103a、对于属于通用搜索语料库中单字符串,在判断其为中文姓 名单字符串时,将单字符串划分为姓字符以及若干个名字字符,在姓 字符在现有的汉语姓字库中出现的第一概率大于0且名字字符在现有 的汉语名字字库中出现的第二概率大于0时,将单字符串添加至候选 姓名词库中。
相应地,步骤S104具体可以包括:
S104a、根据第一概率与第二概率得到中文姓名单字符串对应的第 三概率;在第三概率在候选姓名词库中出现的概率达到预设的概率阈 值时,将中文姓名单字符串加入到中文姓名新词词库中。
同样地,对于通用搜索语料库中的中文姓名单字符串,本发明实 施例采用的方法仍能是基于规则方法和基于统计方法相结合的方法。 具体来说,基于通用搜索语料库,针对中文姓名进行未登录词识别: 利用已识别的汉语姓名词库构建中文姓词库及中文名词库,对于语料 库中任何两字词WiWi+1和三字词WiWi+1Wi+2,判断Wi是否存在中文 姓词库中,Wi+1或Wi+2是否在中文名词库中,从而初步识别出两字姓 名候选词和三字姓名候选词。针对识别出的姓名候选词,引入概率识 别器进行统计筛选。基于中文姓名组成概率的方法,概率识别器利用 姓名用字的规律性信息,提高最后结果的识别准确率。本发明采用概 率识别器为:
Pname(W1W2W3)=P(W1)*P(W2)*P(W3)
或Pname(W1W2)=P(W1)*P(W2) (1)
其中,P(Wi)=F(Wi)*D(Wi),F(Wi)为已识别词字典中Wi作为姓或 名的频率,D(Wi)为已识别汉语姓名词库中Wi作为姓或名的概率。如 果P(W1W2W3)大于阈值Tthree或P(W1W2)大于阈值Ttwo,,则将W1W2或W1W2W3识别为新姓名用词,如果该词语不存在已识别词库中,且 出现次数高于一定阈值,则加入中文姓名新词词库中。
在具体实施时,针对于其他关键词的特殊识别处理,上述方法实 施例中的步骤S103具体可以包括:
S103i、对于属于通用搜索语料库中单字符串,在判断其为非中文 姓名单字符串时,基于BI-gram模型筛选出初步识别字符,并将所述 初步识别字符加入到候选通用新词词库中;
相应地,步骤S104具体可以包括:
S104i、在所述初步识别字符在所述候选通用新词词库中出现的概 率达到预设的概率阈值时,将所述初步识别字符加入到通用搜索新词 词库中。
同样地,对于通用搜索语料库中的非中文姓名单字符串,本发明 实施例采用的方法仍能是基于规则方法和基于统计方法相结合的方 法。
具体来说,对于通用搜索语料库中的词语采用可以N-gram模型和 基于统计方法结合进行处理。在应用N-gram模型之前,为了保证模型 的效率,需要先进行数据平滑处理,使所有的N-gram概率之和为1且 所有的N-gram概率都不为0。N-gram模型基于以下假设:第N个词 的出现只与前面N-1个词相关,而与其它任何词都不相关,整句的概 率就是各个词出现概率的乘积。这些概率可以通过直接从语料中统计N 个词同时出现的次数得到。对于一个句子T,假设T是由词序列 W1,W2,W3,…Wn组成的,那么这个句子出现的概率为:
常用的是二元的BI-gram和三元的Tri-gram。有关统计信息显示, 汉语中相邻两个词语组合成新词语的可能性是很大的,特定概念通常 都是由多个词语组合来表达的,其中两个词语的组合最为普遍,而且 两个词语组合又是多个词语组合的基础,因此本发明使用BI-gram作 为统计模型,只考虑任何两个标点符号之间的连续词序列。
此处同时引入马尔科夫假设:一个词的出现仅仅依赖于它前面出 现的有限的一个或者几个词。如果一个词的出现仅依赖于它前面出现 的一个词,那么就是本发明使用的BI-gram模型。即
然后使用最大似然估计方法得到P(Wn|W1W2...Wn-1),即 P(Wn|W1W2…Wn-1)=(C(W1W2…Wn))/(C(W1W2…Wn-1)),并统计序列 C(W1W2…Wn)出现的次数和C(W1W2…Wn-1)出现的次数。其中,
条件概率:
乘法公式:
P(AB)=P(A)P(B|A),(P(A)>0)
P(A1A2…An)=P(A1)P(A2|A1)…P(An|A1A2…An-1)
(P(An|A1A2…An-1)>0) (5)
从序列的第一个词语开始,依次记录相邻两个词语组合的共现串、 共现文档名称、共现位置等信息,同时实现共现次数、共现文档数目 的累计。在文本上下文序列“W1W2W3…Wn”中,若Wi后面紧跟词 Wj,则WiWj组成新词的可信度定义为Wi后出现Wj的概率: P(Wj|Wi)=dfij/dfi,dfij代表词Wi和词Wj共现频次,dfi代表词Wi出现 频次。针对每个首词Wi分别计算与其共现的所有尾词Wj(设共有K个) 的共现频次均值:这里本发明取阈值为 E(dfi),即当dfij>E(dfi),则将该词组存入候选新词词库。
针对候选新词词库中的候选词语,利用词语位置统计概率进行筛 选:对于已识别词库中的词条,统计每个字作为前缀词(即词条的第 一个字),后缀词(即词条的最后一个字)及单字词(单独一个字组 成词条)的概率,记作Pfirst(x),Plast(x),Psingle(x),其定义如下:
对于候选新词词库中的每个候选词语W1W2…Wn,如果Pfirst(W1)> Tfirst,Psingle(Wn)>Tlast且不存在Wx(1<=x<=n),使得Psingle(Wx)>Tsingle, 则将该词语视为通用搜索新词。如果该词语不存在已识别词库中,且 出现次数高于一定阈值,则加入通用搜索新词词库中。
需要说明的是,本发明实施例提供的方法在步骤S102中所采用的 词汇切分方法,可以为最大匹配分词方法。由于该方法为常用的分词 方法在此不作过多的介绍。
还需要说明的是,为了进一步区分出各个新词词库(例如通用搜 索新词词库、地址搜索新词词库以及中文姓名新词词库)中各个新词 的热度,本发明实施例提供的方法还包括对新词的出现热度进行区别 的步骤。
具体来说,可以以一周为周期抓取本地手机用户的搜索关键词记 录,利用上面三种不同新词识别方法分别对语料库进行识别,根据不 同阈值将识别到的新词分为高频新词与低频新词。对于高频新词,直 接将其添加到已识别分词词典中;对于低频新词,将其添加到历史低 频新词词库中,更新词库词频,如果更新后的词频是否达到一定阈值, 则添加到已识别分词词典。使用新的分词词典对搜索关键句进行文本 分词,从而提高分词的准确率。
不难理解的是,上述实施例中的举例说明只是为了便于更好地理 解本发明实施例提供的方法,并不能构成对本发明的具体限定。且上 述的各个优选实施方式之间不会相互影响,各个优选实施方式之间的 任意组合所得到的方案均应该落入本发明的保护范围。
为便于理解的本发明实施例提供的方法的完整流程,下面结合附 图2至附图6来详细介绍本发明实施例提供的方法。
图2示出了基于网上检索关键词的中文新词识别流程图,具体算 法如下:
(1)利用手机用户的2G\3G\4G上网信令数据,抓取用户使用搜 索引擎或地图类网站等关键词记录,以关键词+搜索次数的格式写入搜 索语料库中;
(2)对于获取的关键词记录,按不同搜索类别分为通用搜索语料 库,地址搜索语料库。来自百度,360搜索等通用检索网站的关键词放 入通用搜索语料库,来自百度地图等地点位置查询网站的关键词放入 地址搜索语料库;
搜索关键字 搜索词频
微信 5335
大主宰 6787
完美世界小说 8180
百度寻人 16664
完美世界 4050
百度 2345
万能钥匙 1900
雪鹰领主 3387
天气 1665
完美世界 4050
表1通用搜索原始语料库案例
搜索关键字 搜索词频
景点 222
揭阳市 208
美食 198
广州市 149
公交站 149
酒店 89
揭阳马牙长途汽车站 66
百度地图 76
农业银行 106
揭阳潮汕国际机场 70
表2地图搜索原始语料库案例
(3)导入已识别中文词典,对两大个语料库分别运用最大匹配算 法进行初步分词处理,切分出单字串,然后和词库进行比对,如果是 一个词就记录下来,否则通过增加或者减少一个单字,继续比较,直 到只剩下一个单字则终止,如果该单字串无法切分,则作为未登录词 处理,并作词性标注。将最大匹配分词后作为未登录处理的单字分布 存入通用搜索未登录词初始语料库、地址搜索未登录词初始语料库;
表3通用搜索未登录词初始语料库案例
切分单字串 词频
黄满寨 33
高埔镇 15
霖磐镇 6
万泰城 8
容桂街马岗 2
上寮村 8
顺丰 10
盛泰君和园 4
马牙路 15
洪阳岐岗村 2
表4地址搜索未登录词初始语料库案例
对于通用搜索初始语料库采用N-gram模型和基于统计方法结合进 行处理,获取通用搜索中文新词,其实现具体的步骤如图3所示:
(4)基于BI-gram模型的统计方法,具体步骤如下:
①在文本上下文序列“w1w2w3…wn”中,若wi后面紧跟词wj, 则记为wi→wj;
②定义wiwj组成新词的可信度为wi后出现wj的概率: P(wj|wi)=dfij/dfi,dfij代表词wi和词wj共现频次,dfi代表词wi出现 频次;
③针对每个首词wi分别计算与其共现的所有尾词wj(设共有K个) 的共现频次均值:
④取阈值T为E(dfi),当dfij>E(dfi)则保留该词条,否则丢弃该词 条;
⑤将最终保留下来的词条存入候选通用搜索新词词库中。退出算 法。
(5)利用词语位置统计概率进行筛选,对于候选新词词库中的每 个候选词语W1W2…Wn,如果Pfirst(W1)>Tfirst,Psingle(Wn)>Tlast(Tfirst取 0.1,Tlast取0.2)且不存在Wx(1<=x<=n),使得Psingle(Wx)>Tsingle(Tsingle取 0.7),则将该词语识别为通用搜索新词,否则丢弃该词语。
(6)如果已识别通用搜索新词W1W2…Wn对应语料库词频大于 Tnormal(Tnormal取10),则将W1W2…Wn加入高频通用新词词典中,否 则将W1W2…Wn加入低频通用新词词典中,退出算法。
高频通用新词 词频
痘印 122
刮腋 7
傻妃 27
吊坠 10
心水 266
噬骨 13
擦脸 18
庶女 16
抠图 41
人鱼 32
舌吻戏 6
表5高频通用新词词典案例
表6低频通用新词词典案例
对于通用搜索语料库采用初步统计识别和基于概率识别器的筛选 方法进行处理,获取中文姓名新词,具体实现步骤如图4所示:
(6)基于统计的初步姓名识别具体步骤如下:
①对于通用搜索语料库中的任何未识别词条W1W2…Wn,按照从 前往后的顺序循环取出WjWj+1
②利用已识别的汉语姓名词库构建中文姓词典及中文名词典,对 于任意姓名用词X,Pxing(X)为X在中文姓词典中的频率,Pming(X)为X 在中文名词典中的频率,判断Pxing(Wj)>0且Pming(Wj+1)>0是否成立, 如果是,则进入③,否则丢弃该词条;
③如果存在Wj+2且Pming(Wj+2)>0,则将WjWj+1Wj+2放入候选三字 姓名候选词库中,否则进入④;
④如果存在Wj-1且Pming(Wj-1)>Pavg,则丢弃该词条,否则将WjWj+1放入候选二字姓名候选词库中,其中Pavg为中文姓词典中所有字作为 姓用字的概率平均值。退出算法。
(7)基于概率识别器的筛选方法具体步骤如下:
①定义概率识别器为
Pname(W1W2W3)=P(W1)*P(W2)*P(W3)
或Pname(W1W2)=P(W1)*P(W2)
其中,P(Wi)=F(Wi)*D(Wi),F(Wi)为已识别词字典中Wi作为姓或 名的频率,D(Wi)为已识别汉语姓名词库中Wi作为姓或名的概率。
②对于三字姓名候选词库中的任意词条WjWj+1Wj+2,判断 Pname(WjWj+1Wj+2)>Tthree(t取0.02*10-7)且WjWj+1Wj+2不在已识别词 典库中,则将WjWj+1Wj+2添加中文姓名新词后续词典,否则丢弃该词 条;
③对于二字姓名候选词库中的任意词条WjWj+1,判断 Pname(WjWj+1)>Ttwo(Ttwo取1.5*10-7)且WjWj+1不在已识别词典库中, 则将WjWj+1添加中文姓名新词后续词典,否则丢弃该词条。
④如果中文姓名新词后续词典中词条WjWj+1Wj+2或WjWj+1出现次 数大于Tname(Tname对于WjWj+1Wj+2取5,对于WjWj+1取20),则将 词条添加到高频中文姓名新词词典,否则添加到低频中文姓名新词词 典,退出算法。
高频中文姓名新词 词频
杨国福 9
陈伟霆 128
林敏华 14
陈少梅 47
李玉刚 16
陈赫 69
杨蓉 26
林峰 23
谢娜 196
宋茜 281
表7高频中文姓名新词词典案例
低频中文姓名新词 词频
刘大明 2
王文芳 1
毛旭东 1
李克群 2
郭晓婷 1
赵迪 3
范芳 1
胡军 8
乔威 1
赵信 9
表8低频中文姓名新词词典案例
对于地址搜索语料库采用同样方法处理,即基于统计方法和基于 规则方法相结合。
(8)基于规则的方法采用地址后缀词匹配规则算法,具体步骤如 下:
①将上一步得到的所有的连续单字连接起来,作为一个未识别词 条,存入一个临时库A中;
②对任何未识别词条W1W2…Wn,判断W1W2…Wn是否包含地址 后缀词,如表9所示。如果存在,则进入③,否则丢弃改词条;
表9地址后缀词
③以地址后缀词为分隔符,将W1W2…Wn划分为多个子词条,将 包含有地址后缀词的词条存入候选地址新词词库中。
④针对临时库A中不包含地址后缀词的W1W2…Wk,如果候选地 址新词词库中词语W1W2…Wn包含W1W2…Wk,则W1W2…Wn对应语 料库词频加1;
⑤如果已识别词典中的词语W1W2…Wn中存在子串WiWi+1…Wi+k, 且WiWi+1…Wi+k也在已识别词典中,则剔除从已识别词典剔除词语 W1W2…Wn;如果已识别词典中的词语存在数字或英文字符,则从已识 别词典剔除该词语;
⑥如果已识别词典中存在候选地址新词词库中词语W1W2…Wn且 W1W2…Wn对应语料库词频大于Taddress(Taddress取10),则将W1W2…Wn加入高频中文地址新词词典中,否则将将W1W2…Wn加入低频中文地 址新词词典中,退出算法。其实现具体的步骤如图5所示。
高频中文地址新词 词频
上寮村 20
上义村 10
洋淇村 7
玉湖镇 43
贵屿镇 8
云落镇 23
新坛紫晖园 21
钟厝洋村 16
凤岗镇 8
陈岱镇 6
表10高频中文地址新词词典案例
表11低频中文地址新词词典案例
图6为基于动态词库更新的中文分词方法的流程图:将三个新词 词典添加到分词词典中,以一周为周期抓取本地手机用户的搜索关键 词记录,利用三种不同新词识别方法分别对语料库进行识别,根据不 同阈值将识别到的新词分为高频新词与低频新词。
(1)对于高频新词,直接将其添加到已识别新词词典中;
(2)对于低频新词,将其添加到历史低频新词词库中,更新词库 词频,如果更新后的词频达到一定阈值,则添加到已识别新词词典;
人工剔除已识别新词词典中识别错误的新词,更新识别后的分词 词典,使用新的分词词典对搜索关键句进行文本分词,从而提高分词 准确率,实现动态更新。
例一:
原始搜索记录:黑曜石吊坠用红绳好还是黑绳
Jieba中文分词结果[8]:黑曜石,吊坠用,红绳,好,还是,黑绳
基于动态词库更新的Jieba分词结果:黑曜石,吊坠,用红绳,好, 还是,黑绳
例二:
原始搜索记录:刘涛霸气壁咚杨紫
Jieba中文分词结果:刘涛,霸气,壁咚,杨,紫
基于动态词库更新的Jieba分词结果:刘涛,霸气,壁咚,杨紫
例三:
原始搜索记录:蓝城区月城医院
Jieba中文分词结果:蓝,城区,月,城,医院
基于动态词库更新的Jieba分词结果:蓝城区,月城,医院
第二方面,本发明实施例提供了一种中文文本识别装置,如图7 所示,包括:
关键词获取单元201,用于获取各终端应用程序上报的用户在应用 程序搜索的关键词,并根据所述关键词的类别属性,将所述关键词存 储至对应类别的搜索语料库中;
字符串切分单元202,用于针对各个搜索语料库采用对应的预设算 法对存储的关键词进行多次切分直至得到无法继续切分的单字符串;
初步识别单元203,用于根据所述单字符串所属的搜索语料库的类 别,基于对应预设的规则识别算法或基于预设词库对所述单字符串进 行识别,筛选出初步识别字符,并将所述初步识别字符加入到候选新 词词库中;
概率筛选单元204,用于当所述初步识别字符在所述候选新词词库 中出现的概率达到预设的概率阈值时,将所述初步识别字符添加到所 述预设词库中。
可选地,所述关键词获取单元,进一步用于:
将携带地理位置信息的关键词存储在地址搜索语料库中;
将未携带地理位置信息的关键词存储在通用搜索语料库中。
可选地,所述初步识别单元203,进一步用于:
对于属于地址搜索语料库中单字符串,筛选出包含预设地址后缀 关键词的单字符串,并将预设的地址后缀关键词为分隔符,将所述单 字符串划分为若干个词条,将所述若干个词条作为初步识别字符加入 到候选地址新词词库中;
相应地,所述概率筛选单元204,进一步用于:
在初步识别字符在候选地址新词词库中出现的概率达到预设的概 率阈值时,将所述初步识别字符加入到地址搜索新词词库中。
可选地,所述初步识别单元203,进一步用于:
对于属于通用搜索语料库中单字符串,在判断其为非中文姓名单 字符串时,基于BI-gram模型筛选出初步识别字符,并将所述初步识 别字符加入到候选通用新词词库中;
相应地,所述概率筛选单元204,进一步用于:
在所述初步识别字符在所述候选通用新词词库中出现的概率达到 预设的概率阈值时,将所述初步识别字符加入到通用搜索新词词库中。
可选地,所述初步识别单元203,进一步用于:
对于属于通用搜索语料库中单字符串,在判断其为中文姓名单字 符串时,将所述单字符串划分为姓字符以及若干个名字字符,在所述 姓字符在现有的汉语姓字库中出现的第一概率大于0且所述名字字符 在现有的汉语名字字库中出现的第二概率大于0时,将所述单字符串 添加至候选姓名词库中;
相应地,所述概率筛选单元204,进一步用于:
根据所述第一概率与第二概率得到所述中文姓名单字符串对应的 第三概率;在所述第三概率在所述候选姓名词库中出现的概率达到预 设的概率阈值时,将所述中文姓名单字符串加入到中文姓名新词词库 中。
由于本实施例所介绍的中文文本分词装置为可以执行本发明实施 例中的中文文本分词方法的装置,故而基于本发明实施例中所介绍的 中文文本分词的方法,本领域所属技术人员能够了解本实施例的中文 文本分词装置的具体实施方式以及其各种变化形式,所以在此对于该 中文文本分词装置如何实现本发明实施例中的中文文本分词方法不再详细介绍。只要本领域所属技术人员实施本发明实施例中中文文本分 词方法所采用的装置,都属于本申请所欲保护的范围。
本发明的某些部件实施例可以以硬件实现,或者以在一个或者多 个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的 技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器 (DSP)来实现根据本发明实施例的网关、代理服务器、系统中的一些 或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这 里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算 机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计 算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信 号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任 何其他形式提供。

Claims (10)

1.一种中文文本识别方法,其特征在于,包括:
获取各终端应用程序上报的用户在应用程序搜索的关键词,并根据所述关键词的搜索类别属性,将所述关键词存储至对应类别的搜索语料库中;
针对各个搜索语料库采用对应的预设算法对存储的关键词进行多次切分直至得到无法继续切分的单字符串;
根据所述单字符串所属的搜索语料库的类别,基于对应预设的规则识别算法或基于预设词库对所述单字符串进行识别,筛选出初步识别字符,并将所述初步识别字符加入到候选新词词库中;
当所述初步识别字符在所述候选新词词库中出现的概率达到预设的概率阈值时,将所述初步识别字符添加到所述预设词库中。
2.根据权利要求1所述的方法,其特征在于,所述根据所述关键词的类别属性,将所述关键词存储至对应类别的搜索语料库中包括:
将携带地理位置信息的关键词存储在地址搜索语料库中;
将未携带地理位置信息的关键词存储在通用搜索语料库中。
3.根据权利要求2所述的方法,其特征在于,所述根据所述单字符串所属的搜索语料库的类别,基于对应预设的规则识别算法或基于对应的现有词库对所述单字符串进行识别,筛选出初步识别字符,并加所述初步识别字符加入到候选新词词库中,包括:
对于属于地址搜索语料库中单字符串,筛选出包含预设地址后缀关键词的单字符串,并将预设的地址后缀关键词为分隔符,将所述单字符串划分为若干个词条,将所述若干个词条作为初步识别字符加入到候选地址新词词库中;
相应地,所述在初步识别字符在所述候选新词词库中出现的概率达到预设的概率阈值时,将所述初步识别字符加入到对应的现有词库中,包括:
在初步识别字符在候选地址新词词库中出现的概率达到预设的概率阈值时,将所述初步识别字符加入到地址搜索新词词库中。
4.根据权利要求2所述的方法,其特征在于,所述根据所述单字符串所属的搜索语料库的类别,基于对应预设的规则识别算法或基于对应的现有词库对所述单字符串进行识别,筛选出初步识别字符,并加所述初步识别字符加入到候选新词词库中,包括:
对于属于通用搜索语料库中单字符串,在判断其为非中文姓名单字符串时,基于BI-gram模型筛选出初步识别字符,并将所述初步识别字符加入到候选通用新词词库中;
相应地,所述在初步识别字符在所述候选新词词库中出现的概率达到预设的概率阈值时,将所述初步识别字符加入到对应的现有词库中,包括:
在所述初步识别字符在所述候选通用新词词库中出现的概率达到预设的概率阈值时,将所述初步识别字符加入到通用搜索新词词库中。
5.根据权利要求2所述的方法,其特征在于,所述根据所述单字符串所属的搜索语料库的类别,基于对应预设的规则识别算法或基于对应的现有词库对所述单字符串进行识别,筛选出初步识别字符,并加所述初步识别字符加入到候选新词词库中,包括:
对于属于通用搜索语料库中单字符串,在判断其为中文姓名单字符串时,将所述单字符串划分为姓字符以及若干个名字字符,在所述姓字符在现有的汉语姓字库中出现的第一概率大于0且所述名字字符在现有的汉语名字字库中出现的第二概率大于0时,将所述单字符串添加至候选姓名词库中;
相应地,所述在初步识别字符在所述候选新词词库中出现的概率达到预设的概率阈值时,将所述初步识别字符加入到对应的现有词库中,包括:
根据所述第一概率与第二概率得到所述中文姓名单字符串对应的第三概率;在所述第三概率在所述候选姓名词库中出现的概率达到预设的概率阈值时,将所述中文姓名单字符串加入到中文姓名新词词库中。
6.一种中文文本识别装置,其特征在于,包括:
关键词获取单元,用于获取各终端应用程序上报的用户在应用程序搜索的关键词,并根据所述关键词的类别属性,将所述关键词存储至对应类别的搜索语料库中;
字符串切分单元,用于针对各个搜索语料库采用对应的预设算法对存储的关键词进行多次切分直至得到无法继续切分的单字符串;
初步识别单元,用于根据所述单字符串所属的搜索语料库的类别,基于对应预设的规则识别算法或基于预设词库对所述单字符串进行识别,筛选出初步识别字符,并将所述初步识别字符加入到候选新词词库中;
概率筛选单元,用于当所述初步识别字符在所述候选新词词库中出现的概率达到预设的概率阈值时,将所述初步识别字符添加到所述预设词库中。
7.根据权利要求6所述的装置,其特征在于,所述关键词获取单元,进一步用于:
将携带地理位置信息的关键词存储在地址搜索语料库中;
将未携带地理位置信息的关键词存储在通用搜索语料库中。
8.根据权利要求7所述的装置,其特征在于,所述初步识别单元,进一步用于:
对于属于地址搜索语料库中单字符串,筛选出包含预设地址后缀关键词的单字符串,并将预设的地址后缀关键词为分隔符,将所述单字符串划分为若干个词条,将所述若干个词条作为初步识别字符加入到候选地址新词词库中;
相应地,所述概率筛选单元,进一步用于:
在初步识别字符在候选地址新词词库中出现的概率达到预设的概率阈值时,将所述初步识别字符加入到地址搜索新词词库中。
9.根据权利要求7所述的装置,其特征在于,所述初步识别单元,进一步用于:
对于属于通用搜索语料库中单字符串,在判断其为非中文姓名单字符串时,基于BI-gram模型筛选出初步识别字符,并将所述初步识别字符加入到候选通用新词词库中;
相应地,所述概率筛选单元,进一步用于:
在所述初步识别字符在所述候选通用新词词库中出现的概率达到预设的概率阈值时,将所述初步识别字符加入到通用搜索新词词库中。
10.根据权利要求7所述的装置,其特征在于,所述初步识别单元,进一步用于:
对于属于通用搜索语料库中单字符串,在判断其为中文姓名单字符串时,将所述单字符串划分为姓字符以及若干个名字字符,在所述姓字符在现有的汉语姓字库中出现的第一概率大于0且所述名字字符在现有的汉语名字字库中出现的第二概率大于0时,将所述单字符串添加至候选姓名词库中;
相应地,所述概率筛选单元,进一步用于:
根据所述第一概率与第二概率得到所述中文姓名单字符串对应的第三概率;在所述第三概率在所述候选姓名词库中出现的概率达到预设的概率阈值时,将所述中文姓名单字符串加入到中文姓名新词词库中。
CN201710129217.6A 2017-03-06 2017-03-06 中文文本识别方法及装置 Active CN108536667B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710129217.6A CN108536667B (zh) 2017-03-06 2017-03-06 中文文本识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710129217.6A CN108536667B (zh) 2017-03-06 2017-03-06 中文文本识别方法及装置

Publications (2)

Publication Number Publication Date
CN108536667A true CN108536667A (zh) 2018-09-14
CN108536667B CN108536667B (zh) 2021-12-07

Family

ID=63489778

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710129217.6A Active CN108536667B (zh) 2017-03-06 2017-03-06 中文文本识别方法及装置

Country Status (1)

Country Link
CN (1) CN108536667B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109388806A (zh) * 2018-10-26 2019-02-26 北京布本智能科技有限公司 一种基于深度学习及遗忘算法的中文分词方法
CN109510904A (zh) * 2018-12-25 2019-03-22 携程旅游网络技术(上海)有限公司 呼叫中心外呼录音的检测方法及系统
CN110287488A (zh) * 2019-06-18 2019-09-27 上海晏鼠计算机技术股份有限公司 一种基于大数据和中文特征的中文文本分词方法
WO2020073523A1 (zh) * 2018-10-12 2020-04-16 平安科技(深圳)有限公司 新词识别方法、装置、计算机设备及计算机可读存储介质
CN111370083A (zh) * 2018-12-26 2020-07-03 阿里巴巴集团控股有限公司 一种文本结构化方法及装置
CN112148936A (zh) * 2020-10-10 2020-12-29 广州瀚信通信科技股份有限公司 一种基于scrapy爬虫架构及文本分析的商旅舆情分析方法
CN112395865A (zh) * 2020-11-17 2021-02-23 中国外运股份有限公司 报关单校验方法及装置
CN118485072A (zh) * 2024-07-12 2024-08-13 社治无忧(成都)智慧科技有限公司 一种通过多语料库发现新词的方法和系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101131705A (zh) * 2007-09-27 2008-02-27 中国科学院计算技术研究所 一种新词发现方法和系统
CN101655866A (zh) * 2009-08-14 2010-02-24 北京中献电子技术开发中心 科技术语的自动化抽取方法
CN101950309A (zh) * 2010-10-08 2011-01-19 华中师范大学 一种面向学科领域的新专业词汇识别方法
US9317594B2 (en) * 2012-12-27 2016-04-19 Sas Institute Inc. Social community identification for automatic document classification

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101131705A (zh) * 2007-09-27 2008-02-27 中国科学院计算技术研究所 一种新词发现方法和系统
CN101655866A (zh) * 2009-08-14 2010-02-24 北京中献电子技术开发中心 科技术语的自动化抽取方法
CN101950309A (zh) * 2010-10-08 2011-01-19 华中师范大学 一种面向学科领域的新专业词汇识别方法
US9317594B2 (en) * 2012-12-27 2016-04-19 Sas Institute Inc. Social community identification for automatic document classification

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
曹艳 等: "基于词表和N一gram算法的新词识别实验", 《情报科学》 *
潘正高: "基于规则和统计相结合的中文命名实体识别研究", 《情报科学》 *
贾自艳 等: "基于概率统计技术和规则方法的新词发现", 《计算机工程》 *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020073523A1 (zh) * 2018-10-12 2020-04-16 平安科技(深圳)有限公司 新词识别方法、装置、计算机设备及计算机可读存储介质
CN109388806B (zh) * 2018-10-26 2023-06-27 北京布本智能科技有限公司 一种基于深度学习及遗忘算法的中文分词方法
CN109388806A (zh) * 2018-10-26 2019-02-26 北京布本智能科技有限公司 一种基于深度学习及遗忘算法的中文分词方法
CN109510904A (zh) * 2018-12-25 2019-03-22 携程旅游网络技术(上海)有限公司 呼叫中心外呼录音的检测方法及系统
CN109510904B (zh) * 2018-12-25 2020-10-27 携程旅游网络技术(上海)有限公司 呼叫中心外呼录音的检测方法及系统
CN111370083A (zh) * 2018-12-26 2020-07-03 阿里巴巴集团控股有限公司 一种文本结构化方法及装置
CN111370083B (zh) * 2018-12-26 2023-04-25 阿里巴巴集团控股有限公司 一种文本结构化方法及装置
CN110287488A (zh) * 2019-06-18 2019-09-27 上海晏鼠计算机技术股份有限公司 一种基于大数据和中文特征的中文文本分词方法
CN112148936A (zh) * 2020-10-10 2020-12-29 广州瀚信通信科技股份有限公司 一种基于scrapy爬虫架构及文本分析的商旅舆情分析方法
CN112395865A (zh) * 2020-11-17 2021-02-23 中国外运股份有限公司 报关单校验方法及装置
CN112395865B (zh) * 2020-11-17 2024-01-02 中国外运股份有限公司 报关单校验方法及装置
CN118485072A (zh) * 2024-07-12 2024-08-13 社治无忧(成都)智慧科技有限公司 一种通过多语料库发现新词的方法和系统
CN118485072B (zh) * 2024-07-12 2024-09-17 社治无忧(成都)智慧科技有限公司 一种通过多语料库发现新词的方法和系统

Also Published As

Publication number Publication date
CN108536667B (zh) 2021-12-07

Similar Documents

Publication Publication Date Title
CN108536667B (zh) 中文文本识别方法及装置
CN107451126B (zh) 一种近义词筛选方法及系统
CN109101620B (zh) 相似度计算方法、聚类方法、装置、存储介质及电子设备
CN102929873B (zh) 一种基于情境搜索提取搜索价值词的方法及装置
CN106682169B (zh) 一种应用标签挖掘方法、装置和应用搜索方法、服务器
CN102737039B (zh) 索引建立方法、搜索方法和搜索结果排序方法及对应装置
WO2008014702A1 (fr) Procédé et système d&#39;extraction de mots nouveaux
CN107544988B (zh) 一种获取舆情数据的方法和装置
CN106682170B (zh) 一种应用搜索方法和装置
US10713302B2 (en) Search processing method and device
CN103106189B (zh) 一种挖掘同义属性词的方法和装置
TW201409261A (zh) 發掘可疑帳號之分身群組的方法與系統
WO2019218527A1 (zh) 多系统相结合的自然语言处理方法及装置
CN109033212B (zh) 一种基于相似度匹配的文本分类方法
CN108038099B (zh) 基于词聚类的低频关键词识别方法
CN108073571B (zh) 一种多语言文本质量评估方法及系统、智能文本处理系统
WO2022068543A1 (zh) 一种多媒体内容发布的方法、装置、电子设备及存储介质
CN114896305A (zh) 一种基于大数据技术的智慧互联网安全平台
CN111488429A (zh) 一种基于搜索引擎的短文本聚类系统及其短文本聚类方法
CN112149422B (zh) 一种基于自然语言的企业新闻动态监测方法
CN110705285B (zh) 一种政务文本主题词库构建方法、装置、服务器及可读存储介质
CN110767211B (zh) 一种基于文本内容数据清洗的语音合成播报系统
CN103218368A (zh) 一种挖掘热词的方法与装置
CN111930949B (zh) 搜索串处理方法、装置、计算机可读介质及电子设备
CN109298796B (zh) 一种词联想方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant