CN101876975A - 汉语地名的识别方法 - Google Patents
汉语地名的识别方法 Download PDFInfo
- Publication number
- CN101876975A CN101876975A CN2009102368869A CN200910236886A CN101876975A CN 101876975 A CN101876975 A CN 101876975A CN 2009102368869 A CN2009102368869 A CN 2009102368869A CN 200910236886 A CN200910236886 A CN 200910236886A CN 101876975 A CN101876975 A CN 101876975A
- Authority
- CN
- China
- Prior art keywords
- place name
- candidate
- word
- value
- place
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 69
- 238000012545 processing Methods 0.000 claims abstract description 75
- 238000004364 calculation method Methods 0.000 claims abstract description 59
- 230000011218 segmentation Effects 0.000 claims abstract description 25
- 238000002372 labelling Methods 0.000 claims abstract description 4
- 238000012549 training Methods 0.000 claims description 87
- 238000010606 normalization Methods 0.000 claims description 24
- 230000006870 function Effects 0.000 claims description 21
- 238000001914 filtration Methods 0.000 claims description 2
- 238000012163 sequencing technique Methods 0.000 claims description 2
- 230000000052 comparative effect Effects 0.000 abstract 2
- 230000015654 memory Effects 0.000 description 14
- 239000012634 fragment Substances 0.000 description 8
- 238000013519 translation Methods 0.000 description 7
- 238000011156 evaluation Methods 0.000 description 6
- 238000003672 processing method Methods 0.000 description 6
- 238000007670 refining Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 238000013179 statistical model Methods 0.000 description 3
- 239000002344 surface layer Substances 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000002457 bidirectional effect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000010365 information processing Effects 0.000 description 2
- 238000005192 partition Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000007619 statistical method Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 239000012467 final product Substances 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 239000010410 layer Substances 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 238000004886 process control Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 238000001363 water suppression through gradient tailored excitation Methods 0.000 description 1
Images
Landscapes
- Character Discrimination (AREA)
Abstract
本发明提供一种汉语地名的识别方法,包括:读入待处理的汉语文本以及候选地名识别所需的计算参数;对待处理的汉语文本中的各个语句,根据地名尾字字表找出语句中的地名尾字,然后以地名尾字为基础,计算地名尾字前若干个字符所组成的字符串为候选地名的分数值,根据该分数值与门限值间的比较结果,确定字符串是否为所在语句中的候选地名;对包含候选地名的语句做分词处理,标注出分词后所得到的词语的概念属性;读入对候选地名做细化计算所需要的参数;对待处理的汉语文本中的各个语句,根据候选地名以及词语的概念属性,计算候选地名的细化处理分数值,将所得到的细化处理分数值与门限值加以比较,根据比较结果确定候选地名是否为真正的地名。
Description
技术领域
本发明涉及语言信息处理领域,特别涉及汉语地名的识别方法。
背景技术
随着网络技术的发展,人们可以自由地获取大量的信息。然而面对海量的信息资源,如何利用计算机自动获取有效的信息,无疑是充满挑战、需要探索的技术研究方向,同时也是信息时代具有应用价值的技术。其中对于文字文本内容的处理,则是这一技术研究的热点内容。如果能够通过对文字文本内容的分析处理,从中发现和提取相关的知识内容,无疑将推进信息的有效利用。
地名是描述具体事件的一个重要维度。目前在语言信息处理领域已经展开研究的问答系统、内容抽取、信息检索等工作都或多或少地涉及到这一内容的发现和提取。所以,如何能够从文字文本中发现并提取地名信息是这些研究中的共同基础技术。地名发现和提取同时也是机器翻译中不可或缺的一部分。例如在汉英机器翻译中,需要识别出源语言(汉语)中的地名,对于地名进行音译而不是根据字面进行翻译,形成可信的翻译文本。举例来说,对于像“和平门”这样的地名,直接翻译为“Hepingmen”,比翻译成“Peace Gate”会更易于交流和理解;如果说“和平门”这样的地名还可以翻译的话,那么像“德胜门”“宣武门”就很难找到英语中对应的翻译词汇了,而翻译出来的结果可能就不知所云了。因此,地名识别处理也是高质量的机器翻译需要的基础技术。
然而中文地名的识别中存在着表述形式多样,没有固定格式,无法总结出较为通用的统一识别模板等诸多难点。同时由于汉语中汉字表述的特点,组成句子的词语之间没有间隔,地名等专有名词的表达也没有特殊的标记进行指示(英语中有首字母大写的指示),在不同的上下文中有着多样的表达方式,其前后也没有固定出现的可供参考的标志词汇。这都构成了在实际文字文本中地名识别的困难。
在已有的中文地名识别方法中,一般研究者倾向采用统计模型与规则相结合的处理方法。统计模型一般包括最大熵模型、条件随机场、支持向量机、隐马尔科夫模型、N元文法、依存文法、神经网络等。这些方法多以对词及词性的分析为统计特征。
现有的中文地名识别方法的基本步骤包括:
1、通过对已人工标注好的熟语料进行训练,建立词表。
2、利用词表对待测试的文字文本进行分词,得到分词结果。所得到的分词结果中大多为第1步建立的词表中的词,其他为分词碎片。分词碎片夹杂在已分好的词当中,这些碎片是没有在词表中出现的未登录词,其中可能有需要识别的地名,也可能是简单的无意义的字串。
3、利用统计方法计算训练语料中地名等上下文的组成概率。
4、利用统计方法分析分词碎片的上下文,计算它们作为地名的概率,给出判断的结果。
5、根据统计处理结果的情况制定修正规则,并使用规则对产生的结果进行修正。
6、将最终结果输出。
从上述步骤可以看出,在识别分词碎片构成的未登录词时,本领域技术人员通常采用“统计与规则相结合”的方法。该方法先通过统计模型大规模处理数据,再通过语法语义等知识制定规则修正,因而往往能够取得比较理想的识别结果。目前这些处理方法已经在各种利用真实语料的评测得到应用,并且在评测中取得较好的准确率和召回率。然而现有方法在实际应用中仍有不足。
1、尽管是针对真实文本进行评测,然而评测中用于训练的语料和评测的语料往往都具有比较强的相似性,因此在相关的评测中可以取得较好的评测结果。但是实际的处理中,比较难于保证训练文本和待处理文本之间具有较强的相似性,因此,处理的结果也不稳定。如何保证处理效果的稳定性,是地名辨识技术走向实用的重要问题。
2、无论词表的建立是否依赖于训练语料,上述处理方法都要对分词碎片做再处理,而对于海量的待处理文本,对于全部文本进行分词处理显然需要较大的时间开销,因此这一处理模式在实际应用中急待改观以真正适应面向海量文字文本的自动处理。
3、这些方法在处理过程中,主要使用的是文字文本的表层信息,即词语的词形信息,或者词语的词性信息,还缺乏对于语义信息利用的手段。汉语中的词语常常出现词性兼类的现象,而词形信息也经常并不稳定。因此,如何使用文字文本的语义信息改善地名的识别也是地名处理实用中一个需要突破的问题。
发明内容
本发明的目的是克服现有的汉语地名识别方法识别结果不稳定、识别过程所需开销大、缺乏对语义信息的利用等缺陷,从而提供一种识别结果稳定、识别开销小的汉语地名识别方法。
为了实现上述目的,本发明提供了一种汉语地名的识别方法,包括:
步骤1)、读入待处理的汉语文本以及候选地名识别所需的计算参数;其中,所述的候选地名识别所需的计算参数包括:地名尾字字表、汉字出现概率、未出现的两字组出现频次期望值、地名中两字组的条件概率值、地名的首字和尾字条件概率、归一化因子以及门限值;
步骤2)、对待处理的汉语文本中的各个语句,根据地名尾字字表找出语句中的地名尾字,然后以地名尾字为基础,计算地名尾字前若干个字符所组成的字符串为候选地名的分数值,根据该分数值与所述门限值间的比较结果,确定所述字符串是否为所在语句中的候选地名;对包含候选地名的语句做分词处理,标注出分词后所得到的词语的概念属性;
步骤3)、读入对候选地名做细化计算所需要的参数,所述参数包括用于表示词语的各个概念类别在确认候选地名时的权重因子λi以及用于表示认可候选地名为地名时的置信门限值PT;
步骤4)、对待处理的汉语文本中的各个语句,根据步骤2)的结果得到语句中的候选地名以及词语的概念属性,然后利用所述的参数λi计算所述候选地名的细化处理分数值,将所得到的细化处理分数值与所述门限值PT加以比较,根据比较结果确定候选地名是否为真正的地名。
上述技术方案中,在所述的步骤2)之后还包括步骤2100):
利用语言规则对已经得到的候选地名加以过滤。
上述技术方案中,所述的步骤2)包括:
步骤201)、从待处理的汉语文本中读取一尚未处理的语句;
步骤202)、根据所述的地名尾字字表在所述的待处理的语句中检测是否有地名尾字出现;
步骤203)、如果出现了地名尾字,就执行后续步骤,否则就重新执行前面的步骤201);
步骤204)、由所述的尾字条件概率得到已发现的地名尾字CF的条件概率值P(尾字|CF),将该值除以所述的归一化因子得到当前候选地名字串的归一化分数值G*h,其中,G*h=P(C2|C1)…P(Ch|Ch-1)P(尾字|Ch)/λh,h表示地名的长度,P(Ch|Ch-1)表示在Ch-1出现的条件下Ch出现的概率,P(尾字|Ch)表示Ch出现地名尾字的概率,λ表示归一化因子;
步骤205)、计算以当前候选地名字串当前的首字为地名首字的归一化候选地名分数Gh,其中,Gh=P(C1|首字)P(C2|C1)…P(Ch|Ch-1)P(尾字|Ch)/λh+1,P(C1|首字)表示C1作为地名首字的概率;
步骤206)、如果所得到的分数值Gh大于或等于门限值GT,则将候选地名字串记录为候选地名后执行下一步,否则,直接执行下一步;
步骤207)、判断当前处理的字串前是否有汉字,如果是,执行下一步,否则,执行步骤209);
步骤208)、计算增加这个字后的归一化候选地名字串的分数值G*h+1,判断该分数值是否大于原来的归一化候选地名字串的分数值G*h,若大于则在当前候选地名字串中增加一字作为当前值,然后刷新当前候选地名字串的分数值,否则执行下一步;
步骤209)、判断句子中是否有候选地名,若存在,对句子做分词处理,标注词语对应的概念属性后执行下一步,否则,直接执行下一步;
步骤210)、对待处理的汉语文本中的未处理语句重新执行上述步骤201)-步骤209),直到完成对文本中所有语句的处理。
上述技术方案中,所述的步骤4)包括:
步骤401)、从经过步骤2)处理的汉语文本中读入一未经细化处理的语句;
步骤402)、判断该语句中是否有候选地名,如果没有,重新执行上一步骤,否则,执行下一步;
步骤403)、根据参数λi计算所述候选地名的细化处理分数值,该分数值用p*(y|x)表示;其中,该公式表示特征x出现的时候,候选地名y成立的概率,其中的表示归一化因子,fi(x,y)表示与特征x对应的特征函数;
步骤404)、判断在该语句中是否有位置交叉的多个候选地名,如果存在,则从这些候选地名中选取候选地名细化处理分数值最大的候选地名,然后执行下一步,否则直接执行下一步;
步骤405)、将候选地名的细化处理分数值与所述门限值PT加以比较,如果分数值大于或等于该门限值,则将该候选地名作为识别出的地名并输出,否则该候选地名不认为是真正的地名;
步骤406)、对汉语文本中未经细化处理的语句重新执行上述步骤401)-步骤405),直到完成对所有语句的处理。
上述技术方案中,在所述的步骤1)中,所述的候选地名识别所需的计算参数的计算包括:
步骤101)、读入一待处理的训练语料,所述训练语料包括单独的地名以及包括有地名的句子,所述训练语料中的地名已经被标出;
步骤102)、对所述该待处理训练语料中在地名末尾和首部出现的汉字加以记录,并对这些汉字作为地名首字和地名尾字在本条训练语料中出现的频次加以统计,将统计结果与已处理训练语料中所累计的相应地名首字和地名尾字的频次做累加;
步骤103)、对待处理训练语料中出现的所有汉字加以记录,统计这些汉字在训练语料中的出现频次,将统计结果与已处理训练语料中相应汉字的频次进行累加;
步骤104)、对训练语料中的地名的汉字串进行重叠的两字划分,记录所得到的两字组并对两字组的出现频次加以统计;
步骤105)、对所有的待处理训练语料重复上述操作;
步骤106)、统计所有处理后的训练语料,得到关于汉字频次、地名首字和尾字频次、两字组频次的统计观测值,计算各个两字组、地名首字和地名尾字的频次期望值;
步骤107)、根据频次的期望值,计算两字组的出现概率,地名的首字和尾字概率,进而计算所有两字组的后一字出现条件下,前一个字出现的条件概率;
步骤108)、对步骤107)得到的两字组的条件概率按从大到小的顺序排序,选择能够覆盖第一比率的条件概率值为归一化因子;所述第一比率为80%~95%之间的一个值;
步骤109)、计算训练语料中所有地名的归一化候选地名分数,并按照从大到小的顺序进行排序,选择能够覆盖第二比率的的归一化候选地名分数作为门限值;其中,所述第二比率为75%~90%之间的一个值,所述的归一化候选地名分数的计算采用如下公式:
Gh=P(C1|首字)P(C2|C1)…P(Ch|Ch-1)P(尾字|Ch)/λh+1
G表示归一化的候选地名分数,h表示地名的长度,P(Cl|Cl+1)表示条件概率,P(C1|首字)表示C1作为地名首字的概率,P(尾字|Ch)表示Ch出现地名尾字的概率,λ为步骤108)中所得到的归一化因子。
上述技术方案中,在所述的步骤3)中,对候选地名做细化计算所需要的参数的计算包括:
步骤301)、从训练语料中读入一训练语句,所述训练语料为包含有地名的句子,且句子中的各个词语的概念类别已经做了标记;
步骤302)、记录并统计所读入训练语句中各种概念类别出现的频次,将统计结果与已处理语句的统计结果进行累加;
步骤303)、设定获取知识的窗口的大小,统计在窗口范围内各个特征函数所代表的特征概念出现的频次;所述特征函数描述了各个概念类别出现在窗口中不同位置上的情况;
步骤304)、对所述训练语料中的所有训练语句执行上述的步骤301)-步骤303);
步骤305)、根据在训练语料中统计得到的、在所述窗口范围内特征函数为1时的特征概念出现的频次总和,利用迭代方法求解各个概念特征对应的权重因子λi;
步骤306)、根据参数λi计算所述候选地名的细化处理分数值,该分数值用p*(y|x)表示,然后按照从大到小的顺序进行排列,选择覆盖第三比率的数值作为门限值PT;其中,该公式表示特征x出现的时候,候选地名y成立的概率,其中的表示归一化因子,fi(x,y)表示与特征x对应的特征函数;所述第三比率为75%~90%中的一个值。
上述技术方案中,所述的语言规则包括:排除各种带符号的潜在地名;查看去掉“为”、“于”字的地名是否已经被包含,如果被包含则优先处理不包含这些字的地名;查看去掉“和”、“与”、以及顿号的地名是否已经被包含,同时查看这些字前面是否出现了地名,如果前面出现地名同时候选的地名已经包括了去掉这些字的地名候选,则优先处理不包含这些字的地名;由“门”构成的候选地面如果紧邻“事件”,则排除作为候选地名。
本发明的优点在于:
1、本发明能够更好地实现对实际文本的汉语地名识别。
2、本发明能够节省计算时间和计算开销。
3、本发明能够避免过于依赖地名统计知识而造成的错误。
4、本发明具有较高的稳定性。
附图说明
图1为本发明中根据训练语料得到候选地名识别所需的计算参数的流程图;
图2为本发明中从待处理的汉语文本找出候选地名的方法的流程图;
图3为本发明中根据训练语料得到细化处理所需的计算参数的流程图;
图4为本发明中细化处理的具体实现过程的流程图;
图5为本发明的地名识别装置的一个实施例的示意图;
图6为地名识别装置中的专用存储器的数据分区结构图;
图7为候选地名细化处理特征的概念类别组;
图8为本发明中使用的汉语词语知识样例。
具体实施方式
下面结合附图和具体实施方式对本发明加以说明。
本发明要在待识别的汉语文本中提取地名信息,首先需要利用汉语地名用字的统计知识从待处理的汉语文本中找出可能成为地名的候选地名,然后利用出现在地名前后的概念关联知识对候选地名进行细化计算,根据概念关联知识判断候选地名是否是真正的地名。下面对上述过程的具体实现步骤分别予以详细的说明。
首先,对如何从待处理的汉语文本中找出候选地名加以说明。
待处理的汉语文本为用汉语表达的文字作品,其大小不受限制。如何利用计算机读取汉语文本为本领域技术人员的公知常识,因此不在本发明中做详细说明。
要在待处理的汉语文本中找出候选地名,需要汉语地名用字的统计知识的帮助,这些统计知识也被称为候选地名识别所需的计算参数。具体的说,候选地名识别所需的计算参数包括:地名尾字字表,汉字出现概率,未出现的两字组出现频次期望值,地名中两字组的条件概率值,地名的首字和尾字条件概率,归一化因子以及门限值。在一次候选地名识别过程中,如果已经有可用的上述计算参数,则可以直接利用这些计算参数识别候选地名。但如果不存在可用的计算参数,则需要通过对训练语料的训练来获取相关的计算参数。但无论计算参数在当前候选地名识别过程中是否已知,计算参数最终还是由训练语料得到的,因此在下文中结合实例对候选地名识别所需的计算参数加以说明。
候选地名识别所需的计算参数的获取
为了使得计算参数能够尽可能地反映地名用字的规律,需要收集尽可能多的汉语地名作为训练语料。在本实施例中,采用了两种类型的训练语料,一类是出现地名的句子(将该类记为A类),另一类就是收集到的地名本身(将该类记为B类)。例如:
A类:
受厄尔尼诺现象的影响,<西藏/pn>的<唐古拉山/pn>、<喜马拉雅山/pn>一线9月以来提前开始降雪,降雪持续不断。
12月份,受南支槽云系和北部冷空气的共同影响,<那曲/pn>、<阿里/pn>、<日喀则/pn>、<拉萨/pn>、<山南/pn>以及<昌都/pn>等6地市都出现了不同的降雪过程,其中一部分地区已经成重灾。
<那曲地区/pn>自9月以来降雪已达40余次,包括5次强降雪,遭受严重雪灾袭击的有<尼玛县/pn>、<安多县/pn>等县、57个乡。
B类:
<株林镇/pn>
<株木山乡/pn>
<株潭镇/pn>
从上述示例可知,在A类语料中,语料的组织形式是以一句为一个基本单元,如果句子中有多个地名就全部标注出来;B类语料中按照一个地名为一个基本单元,一个地名中只标注一个地名。为了处理的统一,无论是A类语料还是B类语料,都采用符号<……/pn>形式进行标注,明确给出地名的首尾边界信息。在语料输入的时候,可以将A类语料和B类语料混合输入,也可以分开输入,这里采用混合输入。另外,在A类语料中,地名可以重复出现,而在B类语料中则要避免输入重复的地名。上述将地名标注出来的训练语料的获取以及标注地名的过程都可通过现有技术实现。
在得到上述A、B两类训练语料后,参考图1,对如何根据训练语料得到候选地名识别所需的计算参数加以说明。首先,读入一待处理的训练语料数据(步骤113)。然后,对该待处理训练语料中在地名末尾和首部出现的汉字加以记录,并对这些汉字作为地名首字和地名尾字在本条训练语料中出现的频次加以统计,将统计结果与已处理训练语料中所累计的相应地名首字和地名尾字的频次做累加(步骤114)。在该步骤中所得到的地名首字的频次记作f(Ci,首字),其中Ci表示在地名首部的汉字,“首字”表示在地名首部;地名尾字的频次记作f(Cj,尾字),Cj表示地名尾部的汉字,“尾字”表示在地名的末尾。接着,对待处理训练语料中出现的所有汉字加以记录,统计这些汉字在训练语料中的出现频次,将统计结果与已处理训练语料中相应汉字的频次进行累加,记为f(Cr)(步骤115)。再接着,对训练语料中的地名的汉字串进行重叠的两字划分,记录所得到的两字组并对两字组的出现频次加以统计(步骤116)。假设一个地名用ClCl+1Cl+2…Cl+h-1表示,其中C用来表示构成地名的汉字,h用来表示地名的长度,那么经过前述重叠的两字划分所得到的两字组为ClCl+1/Cl+1Cl+2/…/Cl+h-2Cl+h-1/,其中用“/”表示间隔,统计得到的两字组的频次记作f(Cl,Cl+1)。例如,前面所列举的例子中所提到的“西藏”,经过两字划分后的结果为“西藏/”;而“唐古拉山”两字划分后的结果为“唐古/古拉/拉山/”。
以上是对一训练语料的处理过程,当对所有的训练语料都做相应处理后,就可以知道关于汉字频次、地名首字和尾字频次、两字组频次的统计观测值。在上述频次观测值的基础上,可进一步计算各个两字组、地名首字和地名尾字的频次期望值(步骤117),进而利用这些频次期望值计算相应的条件概率值。
在上述步骤117中,由频次观测值计算频次期望值的具体实现方法如下:
假设N是样本数据的大小,nr是在样本中正好出现r次的事件的数目,即:出现1次的n1个,出现2次的n2个,……,那么,对于观测得到的r需要进行数据平滑,得到期望值r*。在本发明中,当r≤10时,此时如果nr=0,则r*=0;如果nr+1=0,则用下一个不为0的nr+k取代nr+1进行计算。当r>10时,r*=r-1。因此估计在样本中出现r次的事件的概率为:
根据上述的期望值估计方法,还可以对样本数据中没有出现的事件也分配一定的期望值R*=n1/N0。在本发明中,仅对未出现的两字组估算期望值,这时N0=108-Nt,其中,108是对可能出现的两字组的估计,根据经验估计为1亿,Nt是在训练语料中已经出现的两字组种类总数,即
计算得到频次的期望值之后(为了与前面的观测值区别,期望值用f*表示),可以分别得到两字组的出现概率,地名的首字和尾字概率(这两种情况下的概率也可以看作是一种特殊的两字组,这时组合中的Cl=首字或者Cl+1=尾字)。
单字的出现概率的计算公式为:
P(Cr)=f(Cr)/Nc(1)
其中,Cr表示任意一个汉字,f(Cr)为统计得到的观测值,Nc表示整个训练语料中的总字数。
包括首字尾字在内的两字组(下文中如果没有特殊说明,两字组包括地名的首字和尾字的情况)的出现概率的计算公式为:
P(Cl,Cl+1)=f*(Cl,Cl+1)/Nb(2)
其中,Cl和Cl+1表示包括首字尾字在内的地名中的一个两字组,f*(Cl,Cl+1)表示期望值,Nb表示在整个训练语料中得到的两字组的总个数。
根据上述的公式(1)和公式(2)可以实现条件概率P(Cl|Cl+1)=P(Cl,Cl+1)/P(Cl+1)的计算,这一条件概率表示在Cl+1出现条件下Cl出现的概率。
根据上述说明,计算所有两字组的后一字出现条件下,前一个字出现的条件概率,即P(Cl|Cl+1);在得到条件概率计算结果后还可以按照从大到小的顺序排序,选择能够覆盖90%的条件概率值作为后续计算中的归一化因子λ(步骤118)。换言之,90%的P(Cl|Cl+1)大于λ。虽然在前面的说明中归一化因子λ的大小设为90%,但在实际操作中,归一化因子λ可以在一定的范围内,如80%~95%。
在得到条件概率值和归一化因子λ以后,还可以根据条件概率值和归一化因子,并结合训练语料中出现的地名计算候选地名的门限值。
在计算门限值前,先要计算归一化候选地名分数。归一化候选地名分数的计算公式为:
Gh=P(C1|首字)P(C2|C1)…P(Ch|Ch-1)P(尾字|Ch)/λh+1(3)
其中,G表示归一化的候选地名分数,h表示地名的长度,P(Cl|Cl+1)表示条件概率,P(C1|首字)表示C1作为地名首字的概率,P(尾字|Ch)表示Ch出现地名尾字的概率,λ就是上面计算得到的归一化因子。
根据上述归一化候选地名分数的计算方法,对于训练语料中出现的所有地名计算归一化候选地名分数G,并按照从大到小的顺序进行排序,选择能够覆盖85%的归一化候选地名分数作为门限GT,即训练语料中的地名有85%的归一化分数值大于GT(步骤119)。虽然门限值GT的大小在前面的说明中被设为85%,但在实际操作中,门限值GT的大小可以在一定范围内,如75%~90%。
从上述的说明可以知道,由训练语料可以得到包括地名尾字、汉字出现概率、未出现的两字组出现频次期望值、地名中两字组的条件概率值、地名的首字和尾字条件概率、归一化因子以及门限值在内的诸多内容,由此实现了候选地名识别所需的计算参数的计算。
识别候选地名
无论候选地名识别所需的计算参数是如何得到的,一旦具有这一参数后,就可以从待处理的汉语文本中找出候选地名。如图2所示,首先从待处理的汉语文本中读取一尚未处理的语句(步骤213)。然后在待处理的语句中检测是否有地名尾字出现(步骤214),如果出现了地名尾字,就执行后续步骤,否则就重新执行前面的步骤213。将已发现地名尾字CF的条件概率值P(尾字|CF)读入,然后除以归一化因子λ得到当前候选地名字串的归一化分数值G*h(步骤215),其中,G*h=P(C2|C1)…P(Ch|Ch-1)P(尾字|Ch)/λh。根据前述的公式(3)计算以当前候选地名字串当前的首字为地名首字的归一化候选地名分数(步骤216)。如果所得到的分数值大于门限值GT(步骤217),则将候选地名字串记录为候选地名(步骤218)。需要说明的是,如果需要计算的两字组的频次f(Cl,Cl+1)=0,则f*(Cl,Cl+1)=R*,并以此计算P(Cl|Cl+1)值;如果此时按照前面计算得到的P(Cl+1)=0,那么此时P(Cl|Cl+1)=0。如果所得到的分数小于门限值GT,或者已经将当前候选地名字串记录为候选地名,则进一步考虑当前候选地名字串向前增加一个后是否可能成为候选地名。如果在当前处理的字串前有汉字(步骤219),计算增加这个字后的归一化候选地名字串的分数值G*h+1(步骤220),判断该分数值是否大于原来的归一化候选地名字串的分数值G*h(步骤221),如果大于则在当前候选地名字串中增加一字作为当前值,然后刷新当前候选地名字串的分数值(步骤222)。
如果在句子中出现多个地名尾字,则需要对这些尾字一一处理。如果一个地名尾字在向前增加的过程中有多个候选地名字串超过了门限值GT,则将这些候选地名结果都保留,待细化处理时再进行选择。
为了便于理解上述内容,下面结合一个具体的例子加以说明。
有这样一个尚未处理的语句:
子弟兵在张家口抗震救灾第一线。
在识别候选地名的过程中,首先在句子中找到地名尾词“口”字,并取出“口”作为地名尾字的概率作为此时的归一化候选地名字串的分数值G*1。
而后,判断“口”作为单字地名的归一化候选地名分数G1是否大于门限值GT。结果小于门限值,因此不作为候选地名输出。
然后,计算“家口”的G*2。而G*2>G*1,因此候选地名字串增加一个字。
计算“家口”的G2,有G2>GT,因此,“家口”作为一个候选地名输出。
计算“张家口”的G*3,而G*3>G*2,因此候选地名字串增加一个字。
计算“张家口”的G3,有G3>GT,因此,“张家口”作为一个,候选地名输出。
计算“在张家口”的G*4。而G*4>G*3,因此候选地名增加一个字。
计算“在张家口”的G4,有G4>GT,因此,“在张家口”作为一个,候选地名输出。
计算“兵在张家口”的G*5。而G*5<G*4,因此以“口”为尾字的候选地名处理结束。
综上所述,对于前述的输入语句一共得到三个候选地名:在张家口、张家口、家口。
一旦待处理语句中发现有候选地名后,还需要对这一待处理语句做分词处理,并标注出词语对应的概念属性(步骤224)。词语的概念属性和义项符号表示完全可以采用已有的汉语词语知识数据,图8给出了相应的范例。需要说明的是,在分词处理过程中,由于处理的中心是候选地名,因此分词处理也是以已经发现的候选地名为中心,向左右两边分别进行分词操作。
下面结合图8与前面所提到的例子,对分词、标注情况做示例性说明:
</N3-1><子弟兵/p><在张家口/pn><抗震救灾/v;g><第一线/j0>
</N3-2><子弟兵/p><在/11><张家口/pn><抗震救灾/v;g><第一线/j0>
</N3-3><子弟兵/p><在/11><张/p><家口/pn><抗震救灾/v;g><第一线/j0>
从上面的示例可以看出,由于同一个地名尾字发现多个候选地名,因此,对于不同的候选地名要分别进行标注,并用</N3-1>在句子开始的地方进行说明。该符号表示有3个交叉的地名,这是第一个。词语使用“<>”给出边界来,“/”后面给出词语的概念属性,如果词语有多个用分号分割如“v;g”就表示既是动态概念又是抽象名词概念。
以上是对如何在待处理汉语文本中提取候选地名的说明。作为一种优选实现方式,在将整个待处理汉语文本中的候选地名加以输出前,还可以利用一些语言规则对已得到的候选地名加以过滤,如,排除符号(排除各种带符号的潜在地名);“为”、“于”等字的特殊处理(查看去掉这些字的地名是否已经被包含,如果被包含则优先处理不包含这些字的地名);“和”、“与”、“顿号”等字的特殊处理(查看去掉这些字的地名是否已经被包含,同时查看这些字前面是否出现了地名,如果前面出现地名同时候选的地名已经包括了去掉这些字的地名候选则优先处理不包含这些字的地名);“门”的特殊处理(由“门”构成的候选地面如果紧邻“事件”,则排除作为候选地名)。例如,很多地名常常使用“门”作为尾字,这也是通过训练语料可以获取的汉语地名用字知识,然而,有些时候“门”组成的不是地名而是特指某一事件。而当这种情况出现时,后面往往跟着“事件”这一词语。因此,设置一条规则,即如果识别得到的地名以“门”结尾,同时其后紧邻着“事件”,那么就否定得到的候选地名。根据这一规则,可以排除掉“水门事件”,“艳照门事件”等干扰选项。
其次,在得到候选地名后,就要对所得到的候选地名做细化计算,以确定哪些候选地名是真正的地名。在细化计算的过程中同样需要有相应的参数,在一次细化计算过程中,可以直接利用已有的参数,也可以通过对训练语料的计算来得到相应参数。但参数的获取最终还是通过对训练语料的计算得到的,因此首先对参数计算的实现过程加以说明。
细化计算所需参数的获取
细化计算所需参数具体包括门限值PT和参数λi,其中的参数λi表示本发明中选取的12类概念在确认候选地名时的权重因子,门限值PT表示认可候选地名为地名时的置信门限值,即根据候选地名出现的上下文条件计算得到细化处理分数值,这个分数值如果大于置信门限值就认可,否则就否定掉。要获得上述参数同样需要训练语料,但与前述获取候选地名识别所需计算参数时所用到的训练语料不同的是,此次所用到的训练语料不仅仅需要标注出地名信息,还需要将句子中词语的概念类别标注出来,以便从中获取有关的上下文概念关联知识。由于需要上下文的概念关联知识,所以细化计算所要用到的训练语料只能是前述候选地名处理中的A类语料,而且应当标注有概念类别。训练语料的一个实例如下:
<12月份/j1>,<受/10><南支槽/fw><云系/w><和/14><北部/j2><冷/jx><空气/w><的/14><共同/u><影响/v>,<那曲/pn>、<阿里/pn>、<日喀则/pn>、<拉萨/pn>、<山南/pn><以及/14><昌都/pn><等/15><6/j3><地市/j2><都/u><出现/v><了/uv><不同/jx><的><降雪/w><过程/g>,<其中/15><一部分/j3><地区/j2<已经/uv><成/v>重灾/r>。
在这一实例中,对训练语料中的概念类别的标注方法应当满足图7中的相关定义。本发明并不关注上述训练语料如何生成,只要具有满足上述条件的训练语料,就可以根据训练语料计算相应的参数。
如图3所示,在进行参数的计算时,从前述训练语料中读入未经处理的训练语句(步骤313),然后记录并统计该训练语句中各种概念类别出现的频次,将统计结果与已处理语句的统计结果进行累加(步骤314)。在图7所示的实例中,将词语的概念类别分成12个大类,因此,本发明若遵循这一分类方法,则统计待处理训练语句中12个概念类别出现的频次。对于概念类别组中没有的概念类别,则不进行统计,如在例句中出现的“j3”。
除了要统计待处理训练语句中各个概念类别的频次外,还要获取地名上下文的关联知识。要得到地名上下文关联知识首先要设定获取知识的窗口。在本发明的一个实施例中,将地名前后2个词的位置作为考察的窗口,记为C-2C-1W0C1C2,其中W0表示出现地名的位置,C-2表示向前两个词的位置的词语所对应的概念类别,C2表示向后两个词的位置的词语所对应的概念类别,其余类推。在本实施例中,考察窗口的大小为固定值,但在其他实施例中,考察窗口的大小也可以根据需要加以调整,但下文中所提到的特征函数的数量等相关值也会随之发生变化。
在设定窗口后,进一步制定特征函数以便具体描述上下文的概念关联知识。
所述特征函数的形式如下:
根据前文中提到的12个概念类别和窗口中的4个位置,一共可设置48个特征函数,用来具体描述地名上下文的概念关联知识。48个函数分别描述了12类概念出现在地名前后4个不同位置上的统计知识。例如有以下特征函数:
其余的特征函数可以通过类推得到。
在设定窗口的大小,设置特征函数后,就可以在确定的窗口内,统计各个特征函数所代表的特征概念出现的频次(步骤315)。
对训练语料中所有训练语句都做如上处理后,就可以开始计算细化处理参数(步骤316)。细化处理参数的计算实际上就是根据从训练语料中得到的观测数据,求解概率处理方法中的参数。在得到参数之后,再根据候选地名出现的上下文情况,计算候选地名为真正地名的概率。
本发明中采取如下公式计算候选地名为真正地名的概率:
该公式表示对于选择的一组特征(x)出现时,y成立的概率,对于本发明而言,就是选择的特征出现时,候选地名成为地名的概率。其中,是归一化因子,需要求解的细化参数是对于不同特征函数fi(x,y)对应的λi。
从上述公式可以看出,要求出候选地名成为地名的概率,先要知道细化参数λi,而细化参数λi的求解,则是通过以下迭代的方法计算下面的等式得到的。
其中,
上述公式中,pλ(y|x)是按照p*(y|x)代入λi计算得到的值,为通过训练语料统计得到的在窗口内特征函数为1时的特征概念出现的频次总和,N(x)为特征概念在整个训练语料中的出现频次。这两个值都是通过统计训练语料得到的。
在得到这两个统计之后,迭代计算过程如下:
1、取λi=0,i=1,2...48
2、对每一个i=1,2...48,
(a)求解上面给出的公式(5)得到δi,i=1,2...48;
(b)对i=1,2...48,更新λi,即λi←λi+δi;
3、循环第2步直到收敛。即对于所有的i=1,2...48,δi=0。
通过上述迭代过程,计算得到的λi就是与细化处理有关的参数。
在得到细化处理参数后,就可以计算候选地名成为地名的概率,然后按照从大到小的顺序进行排列,选择覆盖85%的数值作为门限值PT(步骤317),即对于训练语料中出现的地名计算得到的p*(y|x),有85%大于PT。虽然在本实施里中,门限值PT选择为85%,但门限值范围不限于该值,根据实验结果,75%~90%都为有效值。
上述操作所得到的门限值PT和参数λi就是细化处理中所涉及的参数,将它们输出(步骤318)。
候选地名的细化处理
在得到细化处理参数之后,就可以对候选地名进行细化处理,从中选定可信的地名作为最终的输出。细化处理的具体实现过程参考图4,首先从前述待处理文本中读入一未经细化处理的语句(步骤413)。由于在前述候选地名识别的阶段中已经将待处理文本中的候选地名做了标记,因此可以判断所读入的未经细化的语句中是否有候选地名,如果该语句中没有候选地名,则重新读入新的未经细化处理的语句,如果语句中存在候选地名,则执行下一步(步骤414)。根据前文计算得到的处理参数λi,计算每个候选地名的p*(y|x)值,这一值也被称为候选地名细化处理分数值(步骤415)。从前面的说明中可以知道,在识别候选地名时,具有存在位置冲突的多个候选地名的可能,因此,要对这一情况加以判断(步骤416)。如果存在位置交叉的多个候选地名,则从这些候选地名中选取候选地名细化处理分数值最大的候选地名,然后执行下一步(步骤417),如果不存在位置交叉的多个候选地名,则直接执行下一步。将候选地名的候选地名细化处理分数值与前面所提到的门限值PT加以比较,如果分数值大于或等于该门限值,则将该候选地名作为识别出的地名并输出(步骤419),如果分数值小于该门限值,则该候选地名不认为是真正的地名(步骤420)。将待处理文本中的所有未经细化处理的语句都做上述操作,从而识别出待处理文本中的所有地名。
继续以前面候选地名识别中所提到的语句为例,在前面的例子中已经提到,存在位置冲突的地名有三个:在张家口,张家口,家口。根据计算结果最终选择“张家口”作为这个位置上的候选地名。同时细化计算达到的分数值也大于门限值,因此,“张家口”作为地名输出。输出的文本形式如下:
子弟兵在<张家口/pn>抗震救灾第一线。
利用<…/pn>对发现的地名进行标注。
以上是对本发明的地名识别方法的完整流程的说明。
除了上述的地名识别方法外,本发明还提供了用于实现该方法的相关装置。在图5中给出了地名识别装置的一个实施例,在该例子中,地名识别装置包括有两个单片机1、2,两个专用存储器3、4,数据交换存储器5,供电电路6以及四个指示灯11、12、13和14。
两个单片机1、2用于完成系统计算处理和处理处理过程控制,完成周围器件的调度和协同。具体的说,在单片机1内可完成地名识别方法中候选地名识别阶段所要完成的工作,而在单片机2内可完成地名识别方法中候选地名细化处理计算所要完成的工作。上述两个单片机可采用现有技术中的相关芯片实现,如ATMEL公司的AVR系列控制芯片、INTEL公司的51系列单片机以及ARM系列芯片,本实施例中优选ATMEL公司的AVR系列控制芯片。
专用存储器3连接到单片机1上,专用存储器4连接到单片机2上,而数据交换存储器5则连接在单片机1与单片机2之间。上述的专用存储器3、专用存储器4、数据交换存储器5都用于存放地名识别时所需的各项数据。具体的说,专用存储器3所要存储的数据包括:候选地名计算的参数、汉语词语知识数据和处理规则数据,关于这些数据的具体内容在前面的方法说明已经有详细的说明,因此不再重复。图6给出了专用存储器3的数据分区结构图。专用存储器4用来存储候选地名细化计算所需的参数。数据交换存储器5用来存储候选地名的处理结果,这一结果将作为地名细化处理的输入。
供电电路6为装置的各个部件提供电能。装置上还有4个数据接口,分别用7、8、9和10表示,这些数据接口用来完成数据输入输出和交换。其中数据接口7是单向输入的,与单片机1相连接,用于输入待处理的文字文本或者计算候选地名识别参数时的训练文本。数据接口8是单向输出的,与单片机2相连,用于输出系统的处理结果。数据接口9是输入输出双向的,与单片机1相连接,用于输入或者输出专用存储器3中的数据。数据接口10是双向的,与单片机2相连接,用于输入或者输出地名细化处理模型的参数,也用于输入计算候选地名细化处理参数时的训练文本。指示灯11、12、13和14用于指示数据接口的是否处于数据传输状态。其中,11指示数据接口7,12指示数据接口8,13指示数据接口9,14指示数据接口10。指示灯亮起,表示相应数据接口正处于数据传输状态,不能关闭电源。如果这时候掉电,将造成相应数据接口中数据传输的不完整或者错误。
以上是对本发明的地名识别装置的硬件结构的一个实施例的说明,地名识别装置的硬件结构并不局限于上述实施例,本领域普通技术人员可采用其他的能够实现本发明的地名识别方法的其他识别装置。
本发明的方法将候选地名初步识别与细化识别处理相结合,充分利用地名用字的统计知识和地名在语句中的上下文概念知识,能够比较好地在地名获取处理中将地名用字的统计知识和地名在语句中的上下文概念知识结合起来,从而提升整个系统的处理能力,更好服务于实际的文本处理。
本发明在获取候选地名时重点利用了地名中用字的统计知识,这样可以利用已经整理形成的各种地名词典(或者地名词表)作为训练语料。不仅可以扩充训练语料,而且地名词典(或词表)中出现的地名数量更多,形式更加丰富,覆盖更加全面,因此统计得到的地名用字知识也更加反映地名的实际情况,能够在处理取得更好的效果。
本发明中对于地名的获取是通过地名的尾字激活的,即只有在处理的文字中发现有地名的尾字时才进行处理。同时处理过程也是依赖地名中的用字知识,而不是对分词处理后的单字进行组合。这样可以避免将分词作为地名处理的基础,从而节约对于整个文本分词而带来的计算时间和运算量的开销,同时也可以避免由于分词错误而造成的对地名识别的干扰,使得处理方法更加符合实际应用的需要。
本发明对于得到的候选地名利用地名在文本出现的上下文知识进行细化处理,因此允许在候选地名识别阶段输出多个位置冲突的候选地名,然后再根据这些候选地名的上下文知识进行取舍判断。从地名用字统计知识和地名上文知识两个方面综合进行判断,避免过分依赖地名统计知识而造成的错误出现。
本发明为了尽量减少处理参数对训练语料的影响,采用了语义概念表述体系的概念类别作为获取知识的对象,而不是词语字形等表层的信息载体。由于概念是词语语义内容共性的反映,而概念类别则是词语的概念范畴和组成语句的特征体现,因此能够从深层反映出内在的关联知识,减少字词层面由于用词不同而造成的干扰,从而提高处理方法的稳定性,减少对于训练语料表层字词信息的依赖。
最后所应说明的是,以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,对本发明的技术方案进行修改或者等同替换,都不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。
Claims (7)
1.一种汉语地名的识别方法,包括:
步骤1)、读入待处理的汉语文本以及候选地名识别所需的计算参数;其中,所述的候选地名识别所需的计算参数包括:地名尾字字表、汉字出现概率、未出现的两字组出现频次期望值、地名中两字组的条件概率值、地名的首字和尾字条件概率、归一化因子以及门限值;
步骤2)、对待处理的汉语文本中的各个语句,根据地名尾字字表找出语句中的地名尾字,然后以地名尾字为基础,计算地名尾字前若干个字符所组成的字符串为候选地名的分数值,根据该分数值与所述门限值间的比较结果,确定所述字符串是否为所在语句中的候选地名;对包含候选地名的语句做分词处理,标注出分词后所得到的词语的概念属性;
步骤3)、读入对候选地名做细化计算所需要的参数,所述参数包括用于表示词语的各个概念类别在确认候选地名时的权重因子λi以及用于表示认可候选地名为地名时的置信门限值PT;
步骤4)、对待处理的汉语文本中的各个语句,根据步骤2)的结果得到语句中的候选地名以及词语的概念属性,然后利用所述的参数λi计算所述候选地名的细化处理分数值,将所得到的细化处理分数值与所述门限值PT加以比较,根据比较结果确定候选地名是否为真正的地名。
2.根据权利要求1所述的汉语地名的识别方法,其特征在于,在所述的步骤2)之后还包括步骤2100):
利用语言规则对已经得到的候选地名加以过滤。
3.根据权利要求1或2所述的汉语地名的识别方法,其特征在于,所述的步骤2)包括:
步骤201)、从待处理的汉语文本中读取一尚未处理的语句;
步骤202)、根据所述的地名尾字字表在所述的待处理的语句中检测是否有地名尾字出现;
步骤203)、如果出现了地名尾字,就执行后续步骤,否则就重新执行前面的步骤201);
步骤204)、由所述的尾字条件概率得到已发现的地名尾字CF的条件概率值P(尾字|CF),将该值除以所述的归一化因子得到当前候选地名字串的归一化分数值G*h,其中,G*h=P(C2|C1)…P(Ch|Ch-1)P(尾字|Ch)/λh,h表示地名的长度,P(Ch|Ch-1)表示在Ch-1出现的条件下Ch出现的概率,P(尾字|Ch)表示Ch出现地名尾字的概率,λ表示归一化因子;
步骤205)、计算以当前候选地名字串当前的首字为地名首字的归一化候选地名分数Gh,其中,Gh=P(C1|首字)P(C2|C1)…P(Ch|Ch-1)P(尾字|Ch)/λh+1,P(C1|首字)表示C1作为地名首字的概率;
步骤206)、如果所得到的分数值Gh大于或等于门限值GT,则将候选地名字串记录为候选地名后执行下一步,否则,直接执行下一步;
步骤207)、判断当前处理的字串前是否有汉字,如果是,执行下一步,否则,执行步骤209);
步骤208)、计算增加这个字后的归一化候选地名字串的分数值G*h+1,判断该分数值是否大于原来的归一化候选地名字串的分数值G*h,若大于则在当前候选地名字串中增加一字作为当前值,然后刷新当前候选地名字串的分数值,否则执行下一步;
步骤209)、判断句子中是否有候选地名,若存在,对句子做分词处理,标注词语对应的概念属性后执行下一步,否则,直接执行下一步;
步骤210)、对待处理的汉语文本中的未处理语句重新执行上述步骤201)-步骤209),直到完成对文本中所有语句的处理。
4.根据权利要求1或2所述的汉语地名的识别方法,其特征在于,所述的步骤4)包括:
步骤401)、从经过步骤2)处理的汉语文本中读入一未经细化处理的语句;
步骤402)、判断该语句中是否有候选地名,如果没有,重新执行上一步骤,否则,执行下一步;
步骤403)、根据参数λi计算所述候选地名的细化处理分数值,该分数值用p*(y|x)表示;其中,该公式表示特征x出现的时候,候选地名y成立的概率,其中的表示归一化因子,fi(x,y)表示与特征x对应的特征函数;
步骤404)、判断在该语句中是否有位置交叉的多个候选地名,如果存在,则从这些候选地名中选取候选地名细化处理分数值最大的候选地名,然后执行下一步,否则直接执行下一步;
步骤405)、将候选地名的细化处理分数值与所述门限值PT加以比较,如果分数值大于或等于该门限值,则将该候选地名作为识别出的地名并输出,否则该候选地名不认为是真正的地名;
步骤406)、对汉语文本中未经细化处理的语句重新执行上述步骤401)-步骤405),直到完成对所有语句的处理。
5.根据权利要求1或2所述的汉语地名识别方法,其特征在于,在所述的步骤1)中,所述的候选地名识别所需的计算参数的计算包括:
步骤101)、读入一待处理的训练语料,所述训练语料包括单独的地名以及包括有地名的句子,所述训练语料中的地名已经被标出;
步骤102)、对所述该待处理训练语料中在地名末尾和首部出现的汉字加以记录,并对这些汉字作为地名首字和地名尾字在本条训练语料中出现的频次加以统计,将统计结果与已处理训练语料中所累计的相应地名首字和地名尾字的频次做累加;
步骤103)、对待处理训练语料中出现的所有汉字加以记录,统计这些汉字在训练语料中的出现频次,将统计结果与已处理训练语料中相应汉字的频次进行累加;
步骤104)、对训练语料中的地名的汉字串进行重叠的两字划分,记录所得到的两字组并对两字组的出现频次加以统计;
步骤105)、对所有的待处理训练语料重复上述操作;
步骤106)、统计所有处理后的训练语料,得到关于汉字频次、地名首字和尾字频次、两字组频次的统计观测值,计算各个两字组、地名首字和地名尾字的频次期望值;
步骤107)、根据频次的期望值,计算两字组的出现概率,地名的首字和尾字概率,进而计算所有两字组的后一字出现条件下,前一个字出现的条件概率;
步骤108)、对步骤107)得到的两字组的条件概率按从大到小的顺序排序,选择能够覆盖第一比率的条件概率值为归一化因子;所述第一比率为80%~95%之间的一个值;
步骤109)、计算训练语料中所有地名的归一化候选地名分数,并按照从大到小的顺序进行排序,选择能够覆盖第二比率的的归一化候选地名分数作为门限值;
其中,所述第二比率为75%~90%之间的一个值,所述的归一化候选地名分数的计算采用如下公式:
Gh=P(C1|首字)P(C2|C1)…P(Ch|Ch-1)P(尾字|Ch)/λh+1
G表示归一化的候选地名分数,h表示地名的长度,P(Cl|Cl+1)表示条件概率,P(C1|首字)表示C1作为地名首字的概率,P(尾字|Ch)表示Ch出现地名尾字的概率,λ为步骤108)中所得到的归一化因子。
6.根据权利要求1或2所述的汉语地名识别方法,其特征在于,在所述的步骤3)中,对候选地名做细化计算所需要的参数的计算包括:
步骤301)、从训练语料中读入一训练语句,所述训练语料为包含有地名的句子,且句子中的各个词语的概念类别已经做了标记;
步骤302)、记录并统计所读入训练语句中各种概念类别出现的频次,将统计结果与已处理语句的统计结果进行累加;
步骤303)、设定获取知识的窗口的大小,统计在窗口范围内各个特征函数所代表的特征概念出现的频次;所述特征函数描述了各个概念类别出现在窗口中不同位置上的情况;
步骤304)、对所述训练语料中的所有训练语句执行上述的步骤301)-步骤303);
步骤305)、根据在训练语料中统计得到的、在所述窗口范围内特征函数为1时的特征概念出现的频次总和,利用迭代方法求解各个概念特征对应的权重因子λi;
7.根据权利要求2所述的汉语地名识别方法,其特征在于,所述的语言规则包括:排除各种带符号的潜在地名;查看去掉“为”、“于”字的地名是否已经被包含,如果被包含则优先处理不包含这些字的地名;查看去掉“和”、“与”、以及顿号的地名是否已经被包含,同时查看这些字前面是否出现了地名,如果前面出现地名同时候选的地名已经包括了去掉这些字的地名候选,则优先处理不包含这些字的地名;由“门”构成的候选地面如果紧邻“事件”,则排除作为候选地名。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2009102368869A CN101876975A (zh) | 2009-11-04 | 2009-11-04 | 汉语地名的识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2009102368869A CN101876975A (zh) | 2009-11-04 | 2009-11-04 | 汉语地名的识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN101876975A true CN101876975A (zh) | 2010-11-03 |
Family
ID=43019533
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2009102368869A Pending CN101876975A (zh) | 2009-11-04 | 2009-11-04 | 汉语地名的识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101876975A (zh) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103186524A (zh) * | 2011-12-30 | 2013-07-03 | 高德软件有限公司 | 一种地名识别方法和装置 |
CN103678288A (zh) * | 2013-11-30 | 2014-03-26 | 武汉传神信息技术有限公司 | 一种专名自动翻译的方法 |
CN103714081A (zh) * | 2012-09-29 | 2014-04-09 | 北京百度网讯科技有限公司 | 一种专有地名的识别方法和装置 |
CN104346379A (zh) * | 2013-07-31 | 2015-02-11 | 克拉玛依红有软件有限责任公司 | 一种基于逻辑和统计技术的数据元识别方法 |
CN107608959A (zh) * | 2017-09-08 | 2018-01-19 | 电子科技大学 | 一种英文社交媒体短文本地名识别方法 |
CN109408819A (zh) * | 2018-10-16 | 2019-03-01 | 武大吉奥信息技术有限公司 | 一种基于自然语言处理技术的核心地名提取方法及装置 |
CN110956959A (zh) * | 2019-11-25 | 2020-04-03 | 科大讯飞股份有限公司 | 语音识别纠错方法、相关设备及可读存储介质 |
CN111460790A (zh) * | 2020-03-30 | 2020-07-28 | 中国测绘科学研究院 | 英语地名通名的确定方法、装置、翻译设备和存储介质 |
CN112069232A (zh) * | 2020-09-08 | 2020-12-11 | 中国移动通信集团河北有限公司 | 宽带业务覆盖范围的查询方法及装置 |
CN113361288A (zh) * | 2021-06-30 | 2021-09-07 | 民政部地名研究所 | 基于字组的自动化外语地名汉字译写方法 |
CN114078470A (zh) * | 2020-08-17 | 2022-02-22 | 阿里巴巴集团控股有限公司 | 模型处理方法及装置、语音识别方法及装置 |
-
2009
- 2009-11-04 CN CN2009102368869A patent/CN101876975A/zh active Pending
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103186524A (zh) * | 2011-12-30 | 2013-07-03 | 高德软件有限公司 | 一种地名识别方法和装置 |
CN103186524B (zh) * | 2011-12-30 | 2016-04-13 | 高德软件有限公司 | 一种地名识别方法和装置 |
CN103714081A (zh) * | 2012-09-29 | 2014-04-09 | 北京百度网讯科技有限公司 | 一种专有地名的识别方法和装置 |
CN103714081B (zh) * | 2012-09-29 | 2018-10-16 | 北京百度网讯科技有限公司 | 一种专有地名的识别方法和装置 |
CN104346379A (zh) * | 2013-07-31 | 2015-02-11 | 克拉玛依红有软件有限责任公司 | 一种基于逻辑和统计技术的数据元识别方法 |
CN104346379B (zh) * | 2013-07-31 | 2017-06-20 | 克拉玛依红有软件有限责任公司 | 一种基于逻辑和统计技术的数据元识别方法 |
CN103678288A (zh) * | 2013-11-30 | 2014-03-26 | 武汉传神信息技术有限公司 | 一种专名自动翻译的方法 |
CN107608959A (zh) * | 2017-09-08 | 2018-01-19 | 电子科技大学 | 一种英文社交媒体短文本地名识别方法 |
CN109408819A (zh) * | 2018-10-16 | 2019-03-01 | 武大吉奥信息技术有限公司 | 一种基于自然语言处理技术的核心地名提取方法及装置 |
CN110956959A (zh) * | 2019-11-25 | 2020-04-03 | 科大讯飞股份有限公司 | 语音识别纠错方法、相关设备及可读存储介质 |
CN111460790A (zh) * | 2020-03-30 | 2020-07-28 | 中国测绘科学研究院 | 英语地名通名的确定方法、装置、翻译设备和存储介质 |
CN114078470A (zh) * | 2020-08-17 | 2022-02-22 | 阿里巴巴集团控股有限公司 | 模型处理方法及装置、语音识别方法及装置 |
CN112069232A (zh) * | 2020-09-08 | 2020-12-11 | 中国移动通信集团河北有限公司 | 宽带业务覆盖范围的查询方法及装置 |
CN112069232B (zh) * | 2020-09-08 | 2023-08-01 | 中国移动通信集团河北有限公司 | 宽带业务覆盖范围的查询方法及装置 |
CN113361288A (zh) * | 2021-06-30 | 2021-09-07 | 民政部地名研究所 | 基于字组的自动化外语地名汉字译写方法 |
CN113361288B (zh) * | 2021-06-30 | 2024-03-12 | 民政部地名研究所 | 基于字组的自动化外语地名汉字译写方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101876975A (zh) | 汉语地名的识别方法 | |
CN108829893B (zh) | 确定视频标签的方法、装置、存储介质和终端设备 | |
US9223779B2 (en) | Text segmentation with multiple granularity levels | |
CN106897439B (zh) | 文本的情感识别方法、装置、服务器以及存储介质 | |
CN107818085B (zh) | 阅读机器人进行阅读理解的答案选择方法及系统 | |
US10198506B2 (en) | System and method of sentiment data generation | |
CN102929870B (zh) | 一种建立分词模型的方法、分词的方法及其装置 | |
CN103544266B (zh) | 一种搜索建议词生成的方法以及装置 | |
WO2016008452A1 (zh) | 高效输入的预测方法和装置 | |
KR101500617B1 (ko) | 한국어 어휘 의미망을 이용한 문맥 철자오류 교정 장치 및 방법 | |
CN103309926A (zh) | 基于条件随机场的中英文混合命名实体识别方法及系统 | |
JP2002215617A (ja) | 品詞タグ付けをする方法 | |
CN110941694A (zh) | 知识图谱的搜索定位方法、系统、电子设备和存储介质 | |
TW201741908A (zh) | 將一申請專利範圍中的申請專利範圍元件名詞所屬元件名詞對應標號予以對應之對應方法 | |
CN109522396B (zh) | 一种面向国防科技领域的知识处理方法及系统 | |
CN112631436A (zh) | 输入法敏感词的过滤方法及装置 | |
CN112631437A (zh) | 信息推荐方法、装置及电子设备 | |
CN112380866A (zh) | 一种文本话题标签生成方法、终端设备及存储介质 | |
CN105389303B (zh) | 一种异源语料自动融合方法 | |
US20220365956A1 (en) | Method and apparatus for generating patent summary information, and electronic device and medium | |
Oo et al. | An analysis of ambiguity detection techniques for software requirements specification (SRS) | |
Uchimoto et al. | Morphological analysis of the Corpus of Spontaneous Japanese | |
CN108573025B (zh) | 基于混合模板抽取句子分类特征的方法及装置 | |
CN111008519A (zh) | 阅读页面的展示方法、电子设备及计算机存储介质 | |
Khoufi et al. | Statistical-based system for morphological annotation of Arabic texts |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C12 | Rejection of a patent application after its publication | ||
RJ01 | Rejection of invention patent application after publication |
Open date: 20101103 |