CN104765724A - 一种分词方法及装置 - Google Patents

一种分词方法及装置 Download PDF

Info

Publication number
CN104765724A
CN104765724A CN201510179858.3A CN201510179858A CN104765724A CN 104765724 A CN104765724 A CN 104765724A CN 201510179858 A CN201510179858 A CN 201510179858A CN 104765724 A CN104765724 A CN 104765724A
Authority
CN
China
Prior art keywords
phrase
matching result
numerical value
matching
dictionary storehouse
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510179858.3A
Other languages
English (en)
Inventor
李成华
王峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hisense Group Co Ltd
Original Assignee
Hisense Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hisense Group Co Ltd filed Critical Hisense Group Co Ltd
Publication of CN104765724A publication Critical patent/CN104765724A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种分词方法,用于提高分词准确度。所述方法包括:获得待处理的字符串;根据正向最大匹配法将所述待处理的字符串与通用词典库进行匹配,得到第一匹配结果,和根据逆向最大匹配法将所述待处理的字符串与通用词典库进行匹配,得到第二匹配结果;判断所述第一匹配结果与所述第二匹配结果是否一致;在一致时,输出所述第一匹配结果或所述第二匹配结果作为分词结果。本发明还公开了用于实现所述方法的装置。

Description

一种分词方法及装置
本申请是2012年10月23日提出的发明名称为“一种分词方法及装置”的中国发明专利申请201210407529.6的分案申请。
技术领域
本发明涉及分词领域,特别涉及一种分词方法及装置。
背景技术
随着网络的普及和电子技术的成熟,使电视机逐步趋向于“高清化”、“网络化”、“智能化”。
通过互联网进行视频点播搜索成为智能电视中主要的需求和应用。而要从互联网海量视频中准确地搜索出用户想要看的视频内容,就需要有效地提取文本信息,因此,如何有效提取文本信息也就成为了信息检索领域的重要问题。中文分词作为信息处理及检索的一个主要技术而受到广泛关注,特别是在不同领域的不同应用中对分词要求越来越高,可以说分词技术的好坏也直接影响到了信息处理和检索的结果。
现有技术中有多种分词方法,其中基于字符串的分词方法因为较为简单而比较通用。
现有的基于字符串的分词方法大概可以包括正向最大匹配法和逆向最大匹配法。例如有一种基于字符串的分词方法主要采用正向最大匹配法或逆向最大匹配法对需要分词的字符串进行机械分词处理,对未识别出的单字实现了地名和街道名的分词识别,其目的在于识别地名、街道名称等,扩充了地名词库。
本申请发明人在实现本申请实施例技术方案的过程中,至少发现现有技术中存在如下技术问题:
1、现有的分词系统只采用一种分词方法(正向最大匹配法或逆向最大匹配法)来进行分词,分词过程较为粗糙,导致得到的分词结果不够准确,降低了分词准确度;
2、现有的分词方法只涉及到地名领域的分词,对于其他领域的字符串仍然无法进行有效识别。
发明内容
本发明实施例提供一种分词方法及装置,用于解决现有技术中分词准确度不高的技术问题,实现了提高分词准确度的技术效果。
本发明的一方面,提供了一种分词方法,包括以下步骤:
获得待处理的字符串;
根据正向最大匹配法将所述待处理的字符串与通用词典库进行匹配,得到第一匹配结果,和根据逆向最大匹配法将所述待处理的字符串与通用词典库进行匹配,得到第二匹配结果,其中,所述第一匹配结果中包含有第一数值个的第一词组,所述第二匹配结果中包含有第二数值个的第二词组,所述第一数值为根据第一匹配结果确定的所述第一匹配结果中所包含的所述第一词组的数量,所述第二数值为根据所述第二匹配结果确定的所述第二匹配结果中所包含的所述第二词组的数量,所述第一匹配结果中包含有第三数值个的单字,所述第二匹配结果中包含有第四数值个的单字,所述第三数值为根据所述第一匹配结果确定的所述第一匹配结果中所包含的单字的数量,所述第四数值为根据所述第二匹配结果确定的所述第二匹配结果中所包含的单字的数量;
判断所述第一数值与所述第二数值是否相等;
当所述第一数值与所述第二数值相等时,判断所述第三数值是否大于所述第四数值,其中,所述第一匹配结果中包含有第三数值个的单字,所述第二匹配结果中包含有第四数值个的单字;
当所述第三数值等于所述第四数值时,输出所述第一数值个词组。
本发明的另一方面,提供了一种分词装置,包括:
获取模块,用于获得待处理的字符串;
匹配模块,用于根据正向最大匹配法将所述待处理的字符串与通用词典库进行匹配,得到第一匹配结果,和根据逆向最大匹配法将所述待处理的字符串与通用词典库进行匹配,得到第二匹配结果,其中,所述第一匹配结果中包含有第一数值个的第一词组,所述第二匹配结果中包含有第二数值个的第二词组,所述第一数值为根据第一匹配结果确定的所述第一匹配结果中所包含的所述第一词组的数量,所述第二数值为根据所述第二匹配结果确定的所述第二匹配结果中所包含的所述第二词组的数量,所述第一匹配结果中包含有第三数值个的单字,所述第二匹配结果中包含有第四数值个的单字,所述第三数值为根据所述第一匹配结果确定的所述第一匹配结果中所包含的单字的数量,所述第四数值为根据所述第二匹配结果确定的所述第二匹配结果中所包含的单字的数量;
第一判断模块,用于判断所述第一数值与所述第二数值是否相同;
第二判断模块,当所述第一数值与所述第二数值相同时,判断所述第三数值是否大于所述第四数值,其中,所述第一匹配结果中包含有第三数值个的单字,所述第二匹配结果中包含有第四数值个的单字;
输出模块,当所述第三数值等于所述第四数值时,输出所述第一数值个词组。
本发明实施例中的分词方法包括:获得待处理的字符串;根据正向最大匹配法将所述待处理的字符串与通用词典库进行匹配,得到第一匹配结果,和根据逆向最大匹配法将所述待处理的字符串与通用词典库进行匹配,得到第二匹配结果,其中,所述第一匹配结果中包含有第一数值个的第一词组,所述第二匹配结果中包含有第二数值个的第二词组,所述第一数值为根据第一匹配结果确定的所述第一匹配结果中所包含的所述第一词组的数量,所述第二数值为根据所述第二匹配结果确定的所述第二匹配结果中所包含的所述第二词组的数量,所述第一匹配结果中包含有第三数值个的单字,所述第二匹配结果中包含有第四数值个的单字,所述第三数值为根据所述第一匹配结果确定的所述第一匹配结果中所包含的单字的数量,所述第四数值为根据所述第二匹配结果确定的所述第二匹配结果中所包含的单字的数量;判断所述第一数值与所述第二数值是否相等;当所述第一数值与所述第二数值相等时,判断所述第三数值是否大于所述第四数值,其中,所述第一匹配结果中包含有第三数值个的单字,所述第二匹配结果中包含有第四数值个的单字;当所述第三数值等于所述第四数值时,输出所述第一数值个词组。
本发明实施例中,采用正向最大匹配法及逆向最大匹配法分别对同一待处理的字符串进行匹配,待匹配完毕后,如果匹配结果相同,则可以直接输出结果,这样一来,首先是采用两种匹配方法,之后比对匹配结果,如果相同再进行输出,显然提高了分词的准确度。且本发明实施例中,如果匹配结果不同,还可以对匹配结果进行一定歧义消除,从而可以尽量保证得到的结果较为准确,从多方面保证了分词的准确性。
附图说明
图1为本发明实施例中分词方法的主要流程图;
图2为本发明实施例中分词装置的详细结构图。
具体实施方式
本发明实施例中的分词方法包括:获得待处理的字符串;根据正向最大匹配法将所述待处理的字符串与通用词典库进行匹配,得到第一匹配结果,和根据逆向最大匹配法将所述待处理的字符串与通用词典库进行匹配,得到第二匹配结果;判断所述第一匹配结果与所述第二匹配结果是否一致;在一致时,输出所述第一匹配结果或所述第二匹配结果作为分词结果。
本发明实施例中,采用正向最大匹配法及逆向最大匹配法分别对同一待处理的字符串进行匹配,待匹配完毕后,如果匹配结果相同,则可以直接输出结果,这样一来,首先是采用两种匹配方法,之后比对匹配结果,如果相同再进行输出,显然提高了分词的准确度。且本发明实施例中,如果匹配结果不同,还可以对匹配结果进行一定歧义消除,从而可以尽量保证得到的结果较为准确,从多方面保证了分词的准确性。
参见图1,本发明实施例中的分词方法可以包括以下步骤:
步骤101:获得待处理的字符串。
本发明实施例中,可以首先获得一段文字,在获得一段文字后,可以先加载词典库。现有技术中,加载的词典库可以是普通的通用词典库,本发明实施例中,可以自行构建一专用词典库,该专用词典库可以为任意领域的专用词典库,例如可以为影视领域的专用词典库,或者可以为建筑领域的专用词典库,或者可以为电气领域的专用词典库,等等,本发明实施例中以所述专用词典库为影视领域的专用词典库为例进行说明。在该影视领域的专用词典库中可以包括有各演员姓名、导演姓名、影视名称、影视类型、影视语言等不同的与影视相关的信息,通过在该影视领域的专用词典库中进行搜索及匹配,可以使分词装置在视频搜索领域的应用效果更佳。
本发明实施例中,还可以自行构建一停用词扩展词典库,在所述停用词扩展词典库中包括有多种词汇,例如可以有语气助词、连词等,在所述停用词扩展词典库中包括的词汇都是对理解整个句子无帮助的词汇。例如,有一句话:“我和你一起去吃饭。”主语是“我、你”,谓语是“去”,宾语是“吃饭”,而其中的“和”就是连词,对理解整个句子来说就是无意义的词组,则这个“和”字就可以包括在所述停用词扩展词典库中。
本发明实施例中,构建的所述专用词典库和所述停用词扩展词典库都可以包括在一通用词典库中。但本发明实施例中所述的通用词典库不同于现有技术中的通用词典库,本发明实施例中的通用词典库是包含了所述专用词典库和所述停用词扩展词典库的通用词典库。例如本发明实施例中是以所述专用词典库为影视领域的专用词典库为例进行说明,则本发明实施例中的所述通用词典库可以是包含了所述影视领域的专用词典库和所述停用词扩展词典库的通用词典库。
在加载包含了所述专用词典库和所述停用词扩展词典库的所述通用词典库后,可以先根据标点等信息对获得的一段文字进行粗切分,可以将其切分为多个句子。其中,每一个句子都可以是所述待处理的字符串。
步骤102:根据正向最大匹配法将所述待处理的字符串与通用词典库进行匹配,得到第一匹配结果,和根据逆向最大匹配法将所述待处理的字符串与通用词典库进行匹配,得到第二匹配结果。
本发明实施例中,可以首先根据正向最大匹配法对所述待处理的字符串进行匹配,得到所述第一匹配结果,所述第一匹配结果可以对应于第一数值个的第一词组。在根据正向最大匹配法对所述待处理的字符串进行匹配后,可以继续根据逆向最大匹配法对所述待处理的字符串进行匹配,得到所述第二匹配结果,所述第二匹配结果可以对应于第二数值个的第二词组。其中,所述第一数值为所述第一匹配结果中包含的所述第一词组的数量,所述第二数值为所述第二匹配结果中包含的所述第二词组的数量,即所述第一数值可以根据所述第一匹配结果确定,所述第二数值可以根据所述第二匹配结果确定。本发明实施例中的词组可以包括多字词组和单字。根据所述第一匹配结果即可获得所述第一数值,根据所述第二匹配结果即可获得所述第二数值。
或者,本发明实施例中,可以首先根据逆向最大匹配法对所述待处理的字符串进行匹配,得到所述第二匹配结果,所述第二匹配结果可以对应于所述第二数值个词组。在根据逆向最大匹配法对所述待处理的字符串进行匹配后,可以继续根据正向最大匹配法对所述待处理的字符串进行匹配,得到所述第一匹配结果,所述第一匹配结果可以对应于第一数值个的第一词组。
或者,本发明实施例中,也可以同时根据正向最大匹配法和逆向最大匹配法分别对所述待处理的字符串进行匹配,分别得到所述第一匹配结果和所述第二匹配结果。即,本发明实施例中,采用正向最大匹配法和逆向最大匹配法对所述待处理的字符串进行匹配的先后顺序可以任意。
其中,正向最大匹配法(MM)的过程可以如下:
首先设定一个最大词长,该最大词长的长度需要不大于所述待处理的字符串的长度,较佳的,该最大词长的长度小于所述待处理的字符串的长度。一般来说,该最大词长的长度可以根据经验来设定。例如设定的所述最大词长为n,则可以对所述待处理的字符串自左向右取n个字符,与所述通用词典库进行匹配,如果所述通用词典库中存在该词条,则匹配成功,将该n个字符从所述待处理的字符串中切分出去,继续从剩余的所述待处理的字符串中自左至右取n个字符进行匹配,直到将所述待处理的字符串处理完毕为止;如果其中一次词条匹配未成功,则从该n个字符中去掉最后一个字符,再与所述通用词典库中的词条进行匹配,如果匹配还是不成功,则再从该n-1个字符中去掉最后一个字符,再与所述通用词典库中的词条进行匹配,如此重复处理。其中,假设所述待处理的字符串的长度为m,则n应为大于1且不大于m的自然数。
逆向最大匹配法(RMM)的基本原理与正向最大匹配法相同 ,不同的是分词切分的方向与正向最大匹配法相反,可以从所述待处理的字符串的末端开始匹配扫描,每次取最末端的最大词长个字符作为匹配字段,若匹配失败,则去掉匹配字段最前面的一个字,继续匹配。
下面举例说明正向匹配法。
例如,一个待处理的字符串为:“我一个人吃饭”。
第一步,首先设定最大词长为5。则首先切分出的字符为“我一个人吃”,将这5个字符与所述通用词典库进行匹配,发现无法匹配,则将该5个字符的最后一个字符去掉,变为“我一个人”,将这4个字符与所述通用词典库进行匹配,发现无法匹配,则将该4个字符的最后一个字符去掉,变为“我一个”,将这3个字符与所述通用词典库进行匹配,发现无法匹配,则将该3个字符的最后一个字符去掉,变为“我一”,将这2个字符与所述通用词典库进行匹配,发现无法匹配,则将该2个字符的最后一个字符去掉,变为“我”,将这1个字符与所述通用词典库进行匹配,匹配成功。
第二步,将剩余的所述待处理的字符串进行切分,得到“一个人吃饭”。将这5个字符与所述通用词典库进行匹配,发现无法匹配,则将该5个字符的最后一个字符去掉,变为“一个人吃”,将这4个字符与所述通用词典库进行匹配,发现无法匹配,则将该4个字符的最后一个字符去掉,变为“一个人”,将这3个字符与所述通用词典库进行匹配,发现无法匹配,则将该3个字符的最后一个字符去掉,变为“一个”,将这2个字符与所述通用词典库进行匹配,匹配成功。
第三步,将剩余的所述待处理的字符串进行切分,得到“人吃饭”。将这3个字符与所述通用词典库进行匹配,发现无法匹配,则将该3个字符的最后一个字符去掉,变为“人吃”,将这2个字符与所述通用词典库进行匹配,发现无法匹配,则将该2个字符的最后一个字符去掉,变为“人”,将这1个字符与所述通用词典库进行匹配,匹配成功。
第四步,将剩余的所述待处理的字符串进行切分,得到“吃饭”。将这2个字符与所述通用词典库进行匹配,匹配成功。
则,采用正向最大匹配法对“我一个人吃饭”这句话进行分词后得到的分词结果为:我/一个/人/吃饭,即得到了四个词组,其中包括两个单字。
再采用逆向最大匹配法对“我一个人吃饭”这句话进行分词,得到的分词结果为:我/一/个人/吃饭。
在根据正向最大匹配法对所述待处理的字符串进行匹配后,可以得到所述第一匹配结果,所述第一匹配结果可以对应于所述第一数值个的第一词组,例如在上述实施例中,所述第一数值为4,在根据逆向最大匹配法对所述待处理的字符串进行匹配后,可以得到所述第二匹配结果,所述第二匹配结果可以对应于所述第二数值个的第二词组,例如在上述实施例中,所述第二数值为4。
步骤103:判断所述第一匹配结果与所述第二匹配结果是否一致。
本发明实施例中,在得到所述第一匹配结果和所述第二匹配结果后,可以判断所述第一匹配结果与所述第二匹配结果是否一致。此处的一致指的不仅是词组数量一致,并且得到的词组内容也要完全一致。例如,对于“我一个人吃饭”这句话,采用正向最大匹配法得到的所述第一匹配结果为:我/一个/人/吃饭,而如果采用逆向最大匹配法,则得到的所述第二匹配结果可以是:我/一/个人/吃饭,所述第一数值为4,所述第二数值也为4,虽然所述第一匹配结果对应的所述第一数值与所述第二匹配结果对应的所述第二数值相等,但得到的词组并不完全相同,因此依然判断确定所述第一匹配结果与所述第二匹配结果不一致。
例如,判断所述第一匹配结果和所述第二匹配结果是否一致,具体可以是:
判断所述第一数值是否与所述第二数值相等。
当所述第一数值与所述第二数值不相等时,可以表明所述第一匹配结果与所述第二匹配结果间有歧义。
当所述第一数值与所述第二数值相等时,判断所述第一数值个的第一词组与所述第二数值个的第二词组是否完全相同。其中,此处的相同指的是所述第一数值个的第一词组与所述第二数值个的第二词组的内容是否完全一致。例如,所述第一数值为4,所述第一词组分别为:我/一个/人/吃饭,所述第二数值为4,所述第二词组分别为:我/一/个人/吃饭,虽然所述第一数值与所述第二数值相等,但所述第一词组与所述第二词组的内容不完全一致,因此所述第一数值个的第一词组与所述第二数值个的第二词组不完全相同。而,如果,所述第一数值为4,所述第一词组分别为:我/一个/人/吃饭,所述第二数值为4,所述第二词组分别为:我/一个/人/吃饭,则可以确定所述第一数值个的第一词组与所述第二数值个的第二词组完全相同。
当所述第一数值个的第一词组与所述第二数值个的第二词组完全相同时,表明所述第一匹配结果与所述第二匹配结果间没有歧义,当所述第一数值个的第一词组与所述第二数值个的第二词组不完全相同时,表明所述第一匹配结果与所述第二匹配结果间有歧义。
较佳的,本发明实施例中,在步骤101之前,可以首先加载包含所述专用词典库的所述通用词典库,其中,在加载所述通用词典库之前,可以首先对所述专用词典库进行分类。这样,在判断所述第一匹配结果与所述第二匹配结果是否一致之后,可以将所述第一匹配结果或所述第二匹配结果中包括的词组分别按照类别与分类后的所述专用词典库中的词组进行匹配。因在判断所述第一匹配结果与所述第二匹配结果是否一致之后已经可以确定待输出的匹配结果,例如,如果所述待输出的匹配结果为所述第一匹配结果,则可以将所述第一匹配结果中包括的词组分别按照类别与分类后的所述专用词典库中的词组进行匹配,如果所述待输出的匹配结果为所述第二匹配结果,则可以将所述第二匹配结果中包括的词组分别按照类别与分类后的所述专用词典库中的词组进行匹配。
步骤104:在一致时,输出所述第一匹配结果或所述第二匹配结果作为分词结果。
如果判断确定所述第一匹配结果和所述第二匹配结果一致,即,所述第一数值与所述第二数值相等,且所述第一数值个的第一词组与所述第二数值个的第二词组的内容完全相同,则可以输出所述第一匹配结果或所述第二匹配结果以作为分词结果。
本发明实施例中,如果判断确定所述第一匹配结果与所述第二匹配结果不一致,则可以对所述第一匹配结果与所述第二匹配结果进行歧义消除,以输出经过歧义消除后的所述第一匹配结果或所述第二匹配结果作为分词结果。
本发明实施例中,歧义消除的过程可以如下:
首先可以判断所述第一数值与所述第二数值是否不相等,如果判断确定所述第一数值与所述第二数值不相等,则可以继续判断所述第一数值是否大于所述第二数值,如果判断确定所述第一数值大于所述第二数值,则可以确定需要输出的是所述第二数值个词组,即根据逆向最大匹配法得到的词组,而如果判断确定所述第一数值小于所述第二数值,则可以确定需要输出的是所述第一数值个词组,即根据正向最大匹配法得到的词组。
而如果判断确定所述第一数值与所述第二数值相等,则可以继续其它判断步骤。例如,可以确定所述第一数值个词组中可以包括第三数值个单字,所述第二数值个词组中可以包括第四数值个单字,可以继续判断所述第三数值是否与所述第四数值不相等。如果判断确定所述第三数值与所述第四数值不相等,则可以判断所述第三数值是否大于所述第四数值,如果判断确定所述第三数值大于所述第四数值,则可以确定需要输出的是所述第二数值个词组,即输出根据逆向最大匹配法得到的词组,而如果判断确定所述第三数值小于所述第四数值,则可以确定需要输出的是所述第一数值个词组,即输出根据正向最大匹配法得到的词组。其中,所述第三数值为所述第一匹配结果中包含的单字的数量,所述第四数值为所述第二匹配结果中包含的单字的数量,即所述第三数值可以根据所述第一匹配结果确定,所述第四数值可以根据所述第二匹配结果确定。根据所述第一匹配结果即可获得所述第三数值,根据所述第二匹配结果即可获得所述第四数值。
如果判断确定所述第一数值与所述第二数值相等,所述第三数值与所述第四数值也相等,则可以确定需要输出的是所述第一数值个词组,即输出根据正向最大匹配法得到的词组。
即,本发明实施例中,如果所述第一匹配结果对应的所述第一数值与所述第二匹配结果对应的所述第二数值不同,则可以确定需要输出的是词组数量较少的结果,如果所述第一匹配结果对应的所述第一数值与所述第二匹配结果对应的所述第二数值相同,而所述第三数值与所述第四数值不同,则可以确定需要输出的是单字数量较少的结果。本发明实施例中采用这种处理方法,主要是为了提高歧义消除的准确度。
本发明实施例中,对所述第一匹配结果与所述第二匹配结果进行歧义消除,以输出经过歧义消除后的所述第一匹配结果或所述第二匹配结果作为分词结果。
较佳的,本发明实施例中,在步骤101之前,可以首先加载包含所述专用词典库的所述通用词典库,其中,在加载所述通用词典库之前,可以首先对所述专用词典库进行分类。这样,在对所述第一匹配结果与所述第二匹配结果进行歧义消除之后,可以将歧义消除后的分词结果中包括的词组分别按照类别与分类后的所述专用词典库中的词组进行匹配。因在进行歧义消除之后已经可以确定待输出的匹配结果,例如,如果所述待输出的匹配结果为经歧义消除后的所述第一匹配结果,则可以将经歧义消除后的所述第一匹配结果中包括的词组分别按照类别与分类后的所述专用词典库中的词组进行匹配,如果所述待输出的匹配结果为经歧义消除后的所述第二匹配结果,则可以将经歧义消除后的所述第二匹配结果中包括的词组分别按照类别与分类后的所述专用词典库中的词组进行匹配。
例如,如果将所述影视领域的专用词典库分为了5个类别,分别为演员姓名、导演姓名、影视名称、影视类型和影视语言,则在匹配时可以分别将每个词组与每个类别依次匹配。具体先与哪个类别进行匹配,后与哪个类别进行匹配,顺序可以自行设定,或者顺序可以任意。
例如,如果将所述影视领域的专用词典库分为了5个类别,分别为演员姓名、导演姓名、影视名称、影视类型和影视语言,设定的匹配顺序为:演员姓名-影视名称-导演姓名-影视类型-影视语言。而歧义消除后的分词结果中包含的一个词组为“潜伏”,则可以将该词组首先与演员姓名这一类别进行匹配,发现没有词条与之匹配,则继续将该词组与影视名称这一类别进行匹配,匹配成功,则可以输出匹配后的分词结果,且在输出时可以明确,该词组为影视名称。
本发明实施例中,在判断所述第一匹配结果与所述第二匹配结果是否一致之前,还可以根据所述停用词扩展词典库将所述第一匹配结果和所述第二匹配结果中第一类型的词组均进行删除。因为在判断所述第一匹配结果与所述第二匹配结果是否一致之前无法确定需要输出的是所述第一匹配结果还是所述第二匹配结果,因此可以根据所述停用词扩展词典库将所述第一匹配结果和所述第二匹配结果中第一类型的词组均进行删除。
本发明实施例中,在判断所述第一匹配结果与所述第二匹配结果是否一致之后,还可以根据所述停用词扩展词典库将待输出的匹配结果中所述第一类型的词组进行删除,其中,所述待输出的匹配结果为所述第一匹配结果或所述第二匹配结果。因为在判断所述第一匹配结果与所述第二匹配结果是否一致之后,已经可以确定需要输出的是所述第一匹配结果或所述第二匹配结果,则如果确定所述待输出的匹配结果是所述第一匹配结果,可以根据所述停用词扩展词典库将所述第一匹配结果中所述第一类型的词组进行删除,无需对所述第二匹配结果进行处理,如果确定所述待输出的匹配结果是所述第二匹配结果,可以根据所述停用词扩展词典库将所述第二匹配结果中所述第一类型的词组进行删除,无需对所述第一匹配结果进行处理,这样也可以节约步骤。
本发明实施例中,所述第一类型的词组可以是指对理解所述待处理的字符串的含义无意义的词组。例如,有一分词结果为“哎呀/我/不知道”,则其中的“哎呀”为语气助词,显然对理解所述待处理的字符串没有意义,在将其与所述停用词扩展词典库进行匹配时匹配成功,可以将其删除。具体的,本发明实施例中,所述第一类型的词组可以是虚词词组,例如,所述第一类型的词组可以是助词词组、连词词组、副词词组、介词词组、叹词词组、拟声词词组,等等。较佳的,所述停用词扩展词典库中所包含的词组的种类可以根据所述待处理的字符串所属领域的不同而有所变化,具体所述停用词扩展词典库中包含哪些种类的词组可根据具体需求而确定,本发明对此不做限制。
即,本发明实施例中,可以将所述第一匹配结果得到的所述第一数值个的第一词组分别与所述停用词扩展词典库进行匹配,如果有词组匹配成功,则将该词组删除,也可以将所述第二匹配结果得到的所述第二数值个的第二词组分别与所述停用词扩展词典库进行匹配,如果有词组匹配成功,则将该词组删除。
参见图2,本发明还提供一种分词装置,所述装置可以包括获取模块201、匹配模块202、判断模块203和输出模块204。所述装置还可以包括歧义消除模块205、加载模块206、分类模块207和处理模块208。
获取模块201可以用于获得待处理的字符串。
匹配模块202可以用于根据正向最大匹配法将所述待处理的字符串与通用词典库进行匹配,得到第一匹配结果,和根据逆向最大匹配法将所述待处理的字符串与通用词典库进行匹配,得到第二匹配结果。
匹配模块202还可以用于将所述第一匹配结果或所述第二匹配结果中包括的词组分别按照类别与分类后的所述专用词典库中的词组进行匹配。
匹配模块202还可以用于将进行歧义消除后的第一匹配结果或所述第二匹配结果中包括的词组分别按照类别与分类后的所述专用词典库中的词组进行匹配。
判断模块203可以用于判断所述第一匹配结果与所述第二匹配结果是否一致。
所述第一匹配结果中包含有第一数值个的第一词组,所述第二匹配结果中包含有第二数值个的第二词组,所述第一数值为根据所述第一匹配结果确定的所述第一匹配结果中所包含的所述第一词组的数量,所述第二数值为根据所述第二匹配结果确定的所述第二匹配结果中所包含的所述第二词组的数量。判断模块203具体可以用于:判断所述第一数值是否与所述第二数值相等;当所述第一数值与所述第二数值不相等时,表明所述第一匹配结果与所述第二匹配结果间有歧义;当所述第一数值与所述第二数值相等时,判断所述第一数值个的第一词组与所述第二数值个的第二词组是否完全相同;当所述第一数值个的第一词组与所述第二数值个的第二词组完全相同时,表明所述第一匹配结果与所述第二匹配结果间没有歧义,当所述第一数值个的第一词组与所述第二数值个的第二词组不完全相同时,表明所述第一匹配结果与所述第二匹配结果间有歧义。
输出模块204可以用于在一致时,输出所述第一匹配结果或所述第二匹配结果作为分词结果。
输出模块204还可以用于输出经过歧义消除后的所述第一匹配结果或所述第二匹配结果作为分词结果。
输出模块204具体可以用于:当所述第一数值大于所述第二数值时,输出所述第二数值个词组;当所述第一数值小于所述第二数值时,输出所述第一数值个词组。
输出模块204具体可以用于:当所述第三数值大于所述第四数值时,输出所述第二数值个词组;当所述第三数值小于所述第四数值时,输出所述第一数值个词组;当所述第三数值等于所述第四数值时,输出所述第一数值个词组。
歧义消除模块205可以用于在不一致时,对所述第一匹配结果与所述第二匹配结果进行歧义消除,以输出经过歧义消除后的所述第一匹配结果或所述第二匹配结果作为分词结果。
歧义消除模块205具体可以用于在述第一数值与所述第二数值不相等时,判断所述第一数值是否大于所述第二数值。
所述第一匹配结果中包含有第三数值个的单字,所述第二匹配结果中包含有第四数值个的单字,所述第三数值为根据所述第一匹配结果确定的所述第一匹配结果中所包含的单字的数量,所述第四数值为根据所述第二匹配结果确定的所述第二匹配结果中所包含的单字的数量。歧义消除模块205具体可以用于:在述第一数值与所述第二数值相等时,判断所述第三数值是否大于所述第四数值。
加载模块206可以用于加载所述通用词典库,所述通用词典库中包括专用词典库。
加载模块206可以用于加载所述通用词典库,所述通用词典库中包括停用词扩展词典库。
分类模块207可以用于对所述专用词典库进行分类。
处理模块208可以用于根据所述停用词扩展词典库,将所述第一匹配结果和所述第二匹配结果中第一类型的词组均进行删除。
处理模块208可以用于根据所述停用词扩展词典库,将待输出的匹配结果中第一类型的词组进行删除,所述待输出的匹配结果为所述第一匹配结果或所述第二匹配结果。
本发明实施例中,所述第一类型的词组可以是虚词词组,例如,所述第一类型的词组可以是助词词组、连词词组、副词词组、介词词组、叹词词组、拟声词词组,等等。较佳的,所述停用词扩展词典库中所包含的词组的种类可以根据所述待处理的字符串所属领域的不同而有所变化,具体所述停用词扩展词典库中包含哪些种类的词组可根据具体需求而确定。
本发明实施例中的分词方法包括:获得待处理的字符串;根据正向最大匹配法将所述待处理的字符串与通用词典库进行匹配,得到第一匹配结果,和根据逆向最大匹配法将所述待处理的字符串与通用词典库进行匹配,得到第二匹配结果;判断所述第一匹配结果与所述第二匹配结果是否一致;在一致时,输出所述第一匹配结果或所述第二匹配结果作为分词结果。
本发明实施例中,采用正向最大匹配法及逆向最大匹配法分别对同一待处理的字符串进行匹配,待匹配完毕后,如果匹配结果相同,则可以直接输出结果,这样一来,首先是采用两种匹配方法,之后比对匹配结果,如果相同再进行输出,显然提高了分词的准确度。且本发明实施例中,如果匹配结果不同,还可以对匹配结果进行一定歧义消除,从而可以尽量保证得到的结果较为准确,从多方面保证了分词的准确性。
本发明实施例中,详细描述了歧义消除的过程,本领域技术人员根据本发明实施例描述的内容可以很容易实现本发明的技术方案,公开较为充分。且采用本发明实施例中的歧义消除方法,可以提高分词的准确性。
本发明实施例专门构建了专用词典库,可以根据所述专用词典库对分词结果进行匹配,使输出的分词结果更有针对性。所述专用词典库可以是各个领域的专用词典库,从而可以使本发明实施例中的分词装置能够更好地对各领域中的所述待处理的字符串进行分词。例如,如果所述专用词典库为所述影视领域的专用词典库,则可以使所述分词装置能够更好地应用到视频搜索过程中。
本发明实施例还专门构建了停用词扩展词典库,可以在输出匹配结果之前首先删除词组中无意义的词组,既不影响分词输出的结果,也减少了后续的操作过程,节省了步骤。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (10)

1.一种分词方法,其特征在于,包括以下步骤:
获得待处理的字符串;
根据正向最大匹配法和逆向最大匹配法,把所述待处理的字符串与通用词典库分别进行匹配,得到二个匹配结果;
判断所述二个匹配结果中的词组数值和单字数值是否都相等;
若相等,输出所述字符串的匹配结果。
2.如权利要求1所述的方法,其特征在于,所述判断所述二个匹配结果中的词组数值和单字数值是否都相等,具体包括:
判断所述二个匹配结果中的词组数值是否相等,若所述词组数值不相等,则输出词组数值小的匹配结果。
3.如权利要求1所述的方法,其特征在于,所述判断所述二个匹配结果中的词组数值和单字数值是否都相等,具体包括:
判断所述二个匹配结果中的词组数值是否相等,若所述词组数值相等,则判断所述二个匹配结果中的单字数值是否相等,若所述单字数值不相等,则输出单字数值小的匹配结果。
4.如权利要求1所述的方法,其特征在于,在获得待处理的字符串之前还包括步骤:加载所述通用词典库,所述通用词典库中包括专用词典库。
5.如权利要求4所述的方法,其特征在于,在加载所述通用词典库之前还包括步骤:对所述专用词典库进行分类。
6.如权利要求5所述的方法,其特征在于,在所述判断所述二个匹配结果中的词组数值是否相等,还包括步骤:若所述词组数值相等,将所述二个匹配结果中包括的词组分别按照类别与分类后的所述专用词典库中的词组进行匹配。
7.如权利要求5所述的方法,其特征在于,在所述判断所述二个匹配结果中的词组数值不相等,还包括步骤:将所述二个匹配结果中包括的词组分别按照类别与分类后的所述专用词典库中的词组进行匹配。
8.如权利要求1所述的方法,其特征在于,在获得待处理的字符串之前还包括步骤:加载所述通用词典库,所述通用词典库中包括停用词扩展词典库。
9.一种分词装置,其特征在于,包括:
获取模块,用于获得待处理的字符串;
匹配模块,用于根据正向最大匹配法和逆向最大匹配法,把所述待处理的字符串与通用词典库分别进行匹配,得到二个匹配结果;
判断模块,用于判断所述二个匹配结果中的词组数值和单字数值是否都相等,若相等,输出所述字符串的匹配结果。
10.如权利要求9所述的装置,其特征在于,所述判断模块还包括,具体用于:
若所述词组数值不相等,则输出词组数值小的匹配结果。
CN201510179858.3A 2012-10-23 2012-10-23 一种分词方法及装置 Pending CN104765724A (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210407529.6A CN102915299B (zh) 2012-10-23 2012-10-23 一种分词方法及装置

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
CN201210407529.6A Division CN102915299B (zh) 2012-10-23 2012-10-23 一种分词方法及装置

Publications (1)

Publication Number Publication Date
CN104765724A true CN104765724A (zh) 2015-07-08

Family

ID=47613670

Family Applications (3)

Application Number Title Priority Date Filing Date
CN201510179584.8A Pending CN104765838A (zh) 2012-10-23 2012-10-23 一种分词方法及装置
CN201510179858.3A Pending CN104765724A (zh) 2012-10-23 2012-10-23 一种分词方法及装置
CN201210407529.6A Active CN102915299B (zh) 2012-10-23 2012-10-23 一种分词方法及装置

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN201510179584.8A Pending CN104765838A (zh) 2012-10-23 2012-10-23 一种分词方法及装置

Family Applications After (1)

Application Number Title Priority Date Filing Date
CN201210407529.6A Active CN102915299B (zh) 2012-10-23 2012-10-23 一种分词方法及装置

Country Status (1)

Country Link
CN (3) CN104765838A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107680689A (zh) * 2017-05-05 2018-02-09 平安科技(深圳)有限公司 医疗文本的潜在疾病推断方法、系统及可读存储介质

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103544309B (zh) * 2013-11-04 2017-03-15 北京中搜网络技术股份有限公司 一种中文垂直搜索的检索串拆分方法
CN103593338B (zh) * 2013-11-15 2016-05-11 北京锐安科技有限公司 一种信息处理方法及装置
CN104077275A (zh) * 2014-06-27 2014-10-01 北京奇虎科技有限公司 一种基于语境进行分词的方法和装置
CN105630807B (zh) * 2014-10-31 2020-02-07 高德软件有限公司 一种未知道路与已知道路关联关系的分析方法和装置
CN104461056B (zh) * 2014-12-22 2018-06-01 联想(北京)有限公司 一种信息处理方法和电子设备
CN105138514B (zh) * 2015-08-24 2018-11-09 昆明理工大学 一种基于词典的正向逐次加一字最大匹配中文分词方法
CN105243055B (zh) * 2015-09-28 2018-07-31 北京橙鑫数据科技有限公司 基于多语言的分词方法和装置
CN105335488A (zh) * 2015-10-16 2016-02-17 中国南方电网有限责任公司电网技术研究中心 一种知识库构建方法
CN106649251B (zh) * 2015-10-30 2019-07-09 北京国双科技有限公司 一种中文分词的方法及装置
CN105550170B (zh) * 2015-12-14 2018-10-12 北京锐安科技有限公司 一种中文分词方法及装置
CN106202040A (zh) * 2016-06-28 2016-12-07 邓力 一种pda翻译系统的中文分词方法
CN107622044A (zh) * 2016-07-13 2018-01-23 阿里巴巴集团控股有限公司 字符串的分词方法、装置及设备
CN107092590A (zh) * 2017-03-17 2017-08-25 贵州恒昊软件科技有限公司 一种语句分词方法和系统
CN107220300B (zh) * 2017-05-05 2018-07-20 平安科技(深圳)有限公司 信息挖掘方法、电子装置及可读存储介质
CN108009153A (zh) * 2017-12-08 2018-05-08 北京明朝万达科技股份有限公司 一种基于搜索语句切词结果的搜索方法及系统
CN110222335A (zh) * 2019-05-20 2019-09-10 平安科技(深圳)有限公司 一种文本分词方法及装置
CN112215010A (zh) * 2019-07-10 2021-01-12 北京猎户星空科技有限公司 一种语义识别方法及设备
CN113302683B (zh) * 2019-12-24 2023-08-04 深圳市优必选科技股份有限公司 多音字预测方法及消歧方法、装置、设备及计算机可读存储介质
CN112287108B (zh) * 2020-10-29 2022-08-16 四川长虹电器股份有限公司 一种物联领域的意图识别优化方法
CN113342989B (zh) * 2021-05-24 2022-12-20 北京航空航天大学 专利数据的知识图谱构建方法、装置、存储介质及终端

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101042692A (zh) * 2006-03-24 2007-09-26 富士通株式会社 基于语义预测的译文获取方法和设备
CN102394061A (zh) * 2011-11-08 2012-03-28 中国农业大学 基于语义检索的文语转换方法及系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101122900A (zh) * 2007-09-25 2008-02-13 中兴通讯股份有限公司 一种分词系统及方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101042692A (zh) * 2006-03-24 2007-09-26 富士通株式会社 基于语义预测的译文获取方法和设备
CN102394061A (zh) * 2011-11-08 2012-03-28 中国农业大学 基于语义检索的文语转换方法及系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
HFGANG: "中文分词基础原则及正向最大匹配法、逆向最大匹配法、双向最大匹配法的分析", 《新浪微博》 *
张旭: "一个基于词典与统计的中文分词算法", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
罗杰 等: "基于新的关键词提取方法的快速文本分类系统", 《计算机应用研究》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107680689A (zh) * 2017-05-05 2018-02-09 平安科技(深圳)有限公司 医疗文本的潜在疾病推断方法、系统及可读存储介质

Also Published As

Publication number Publication date
CN102915299A (zh) 2013-02-06
CN102915299B (zh) 2015-04-08
CN104765838A (zh) 2015-07-08

Similar Documents

Publication Publication Date Title
CN102915299B (zh) 一种分词方法及装置
KR100721406B1 (ko) 카테고리별 검색 로직을 이용한 상품 검색 시스템 및 방법
US10445359B2 (en) Method and system for classifying media content
US20050021545A1 (en) Very-large-scale automatic categorizer for Web content
US8126897B2 (en) Unified inverted index for video passage retrieval
AU2018349276A1 (en) Methods and system for semantic search in large databases
CN102339294B (zh) 一种对关键词进行预处理的搜索方法和系统
CN107784110B (zh) 一种索引建立方法及装置
CN111444330A (zh) 提取短文本关键词的方法、装置、设备及存储介质
CN106777261A (zh) 基于多源异构数据集的数据查询方法及装置
CN102789464A (zh) 基于语意识别的自然语言处理方法、装置和系统
Ye et al. Unknown Chinese word extraction based on variety of overlapping strings
CN109522396B (zh) 一种面向国防科技领域的知识处理方法及系统
CN109446313B (zh) 一种基于自然语言分析的排序系统及方法
US20040122660A1 (en) Creating taxonomies and training data in multiple languages
Celikyilmaz et al. Leveraging web query logs to learn user intent via bayesian latent variable model
CN109933216B (zh) 一种用于智能输入的词语联想提示方法、装置、设备以及计算机存储介质
Watrin et al. An N-gram frequency database reference to handle MWE extraction in NLP applications
CN110705285A (zh) 一种政务文本主题词库构建方法、装置、服务器及可读存储介质
RU2004127924A (ru) Способ перевода данных и устройство для осуществления этого способа
CN112818645A (zh) 一种化学信息抽取方法、装置、设备及存储介质
CN107463549B (zh) 一种提取实例模板的方法和设备
CN106484768B (zh) 文本内容显著性区域的局部特征抽取方法及系统
CN113330430A (zh) 语句结构向量化装置、语句结构向量化方法及语句结构向量化程序
RU2266560C1 (ru) Способ поиска информации в политематических массивах неструктурированных текстов

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
EXSB Decision made by sipo to initiate substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20150708