CN103150405B - 一种分类模型建模方法、中文跨文本指代消解方法和系统 - Google Patents
一种分类模型建模方法、中文跨文本指代消解方法和系统 Download PDFInfo
- Publication number
- CN103150405B CN103150405B CN201310108506.XA CN201310108506A CN103150405B CN 103150405 B CN103150405 B CN 103150405B CN 201310108506 A CN201310108506 A CN 201310108506A CN 103150405 B CN103150405 B CN 103150405B
- Authority
- CN
- China
- Prior art keywords
- entity
- statement
- text
- feature
- centering
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Abstract
本申请提供一种分类模型建模方法、中文跨文本指代消解方法和系统。其中一种分类模型建模方法,包括:获取训练文本集;从训练文本集中选取实体表述对;获取每个实体表述对的特征项;选取正训练实例和负训练实例,将每个正训练实例和每个负训练实例的特征项分别加载到支持向量机的建模工具中,得到分类模型。对于待识别文本集中的实体表述对,在提取特征项后,可以使用分类模型判断是否具有指代关系,然后合并具有指代关系的实体表述对,构成跨文本指代链,从而达到跨文本指代消解的目的。由于上述方案获取的语义特征可以充分利用各种外部语义资源,挖掘实体表述对所具有的实际含义,从而提高分类模型及跨文本指代消解系统的准确度。
Description
技术领域
本申请属于文本处理技术领域,尤其涉及一种分类模型建模方法、中文跨文本指代消解方法和系统。
背景技术
跨文本指代消解可以将分布在不同文本但指向同一实体的名称合并起来,形成一条跨文本指代链。但由于不同实体具有相同名称,并且同一实体具有不同名称,所以跨文本指代消解需要解决重名消歧和多名聚合的问题。
其中,重名消歧是指将相同名称的不同实体区分开来,如名称“布什”既可表示美国第43任总统乔治·W·布什,也可表示美国第41任总统乔治·H·W·布什,在对不同文本进行跨文本指代消解时,则需要将两个指代不同总统的名称“布什”分开。多名聚合是指将指向同一实体的不同名称合并起来,如“北韩”与“朝鲜”都表示同一个实体“朝鲜人民民主主义共和国”,在对不同文本进行跨文本指代消解时,则需要将“北韩”与“朝鲜”合并。
传统的跨文本指代消解主要面向信息检索,如在搜索引擎中搜索某一人名、机构名或地名时,将检索到的Web网页中具有相同名称的不同实体区分开来,这种面向信息检索的跨文本指代消解解决跨文本指代消解中的重名消歧问题。然而随着信息抽取技术的日渐成熟,面向信息抽取的跨文本指代消解得到了广泛的重视。与面向信息检索的跨文本指代消解不同的是,面向信息抽取的跨文本指代消解需要着重于多名聚合问题,即将同一实体的不同名称合并起来,以将不同文本中的同一实体的信息融合起来。
目前面向信息检索的跨文本指代消解通常采用基于聚类的无监督方法,该基于聚类的无监督方法通过计算实体名称间相似度,然后利用分层聚类等方法来区分不同的实体。由于该方法仅通过计算实体名称间相似度进行跨文本指代消解,而影响跨文本指代消解的多名聚合问题的因素很多,所以导致得出的跨文本指代链的精准度不高。
发明内容
有鉴于此,本申请的目的在于提供一种分类模型建模方法,在执行分类模型建模过程中,获取每个实体表述对的特征项中基于外部资源的语义特征,该基于外部资源的语义特征可以充分利用各种外部资源,并挖掘实体表述对所具有的实际含义,从而提高分类模型的准确度。
本申请还提供一种中文跨文本指代消解方法,以解决现有技术中仅通过计算实体名称间相似度进行跨文本指代消解导致跨文本指代链的精准度不高的问题。
本申请还提供了一种分类模型建模装置和中文跨文本指代消解装置,用以保证上述方法在实际中的实现及应用。
基于本申请的一方面,本申请提供一种分类模型建模方法,包括:
获取已标注出中文跨文本指代链的训练文本集;
从所述训练文本集中选取实体表述对;
获取每个所述实体表述对的特征项,其中所述特征项包括基于外部资源的语义特征;
将包括在所述中文跨文本指代链中的所述实体表述对确定为正训练实例,将未包括在所述中文跨文本指代链中的所述实体表述对确定为负训练实例,将每个所述正训练实例的特征项和每个所述负训练实例的特征项分别加载到支持向量机的建模工具中,得到分类模型。
优选地,所述基于外部资源的语义特征包括搜索引擎特征、维基百科特征和词林编码特征中的至少一种特征;
获取每个所述实体表述对的特征项包括获取每个所述实体表述对的搜索引擎特征、维基百科特征和词林编码特征中的至少一种特征。
优选地,获取所述实体表述对的搜索引擎特征包括:获取实体表述对中每一个实体表述与所述实体表述的文本内共现实体表述的共现权值其中Nik为实体表述ei与共现实体表述ceik在网络上共同出现的文档数量,Ni为实体表述ei在网络上出现的文档数量,Nk为共现实体表述ceik在网络上出现的文档数量;
计算所述实体表述对中两个所述实体表述的语义相似度 得出实体表述对的搜索引擎特征,其中为实体表述ei对应的权值向量的模,wik为实体表述ceik相对于ei的共现权值,为实体表述ej对应的权值向量的模,wjk为实体表述cejk相对于ej的共现权值。
优选地,获取所述实体表述对的维基百科特征包括:
将实体表述对中每一个实体表述分别作为维基百科中的锚点文本;
获取每个所述锚点文本链接到维基百科页面Pik的频度cik;
计算所述实体表述对中两个实体表述的相似度得出实体表述对的维基百科特征,其中为实体表述ei对应的频度向量的模,cik为实体表述ei链到维基页面Pik的频度,为实体表述ej对应的频度向量的模,cjk为实体表述ej链到维基页面Pjk的频度。
优选地,获取所述实体表述对的词林编码特征包括:获取所述实体表述对中两个实体表述在同义词词林中的编码,并将两个编码的比较结果作为所述实体表述对的词林编码特征。
优选地,所述特征项还包括:词形特征、语音特征和文本内特征中的至少一种特征;
获取每个所述实体表述对的特征项还包括获取每个所述实体表述对的词形特征、语音特征和文本内特征中的至少一种特征。
优选地,获取所述实体表述对的词形特征包括:
将所述实体表述对中的两个实体表述划分为由一元字符所组成的集合Si1和Sj1,计算集合Si1和Sj1之间的一元相似度系数其中|Si1∩Sj1|是Si1和Sj1的交集的大小,|Si1|和|Sj1|分别为集合Si1和Sj1的大小;
将所述实体表述对中的两个实体表述划分为由二元字符所组成的集合Si2和Sj2,计算集合Si2和Sj2之间的二元相似度系数其中|Si2∩Sj2|是Si2和Sj2的交集的大小,|Si2|和|Sj2|分别为集合Si2和Sj2的大小;
获取所述实体表述对中两个实体表述之间相同的字符,并判断所述相同字符在两个实体表述中是否以相同的顺序出现;
判断所述实体表述对中两个实体表述的修饰词是否相同;
判断所述实体表述对中的一个实体表述是否包含在另一个实体表述中。
优选地,获取所述实体表述对的语音特征包括:
将所述实体表述对中的两个实体表述的拼音划分为由三元字母所组成的集合Si3和Sj3,计算集合Si3和Sj3之间的三元相似度系数其中|Si3∩Sj3|是Si3和Sj3的交集的大小,|Si3|和|Sj3|分别为集合Si3和Sj3的大小;
将所述实体表述对中的两个实体表述的拼音划分为由四元字母所组成的集合Si4和Sj4,计算集合Si4和Sj4之间的四元相似度系数其中|Si4∩Sj4|是Si4和Sj4的交集的大小,|Si4|和|Sj4|分别为集合Si4和Sj4的大小;
将所述实体表述对中的两个实体表述的拼音划分为由五元字母所组成的集合Si5和Sj5,计算集合Si5和Sj5之间的五元相似度系数其中|Si5∩Sj5|是Si5和Sj5的交集的大小,|Si5|和|Sj5|分别为集合Si5和Sj5的大小;
判断所述实体表述对中两个实体表述的拼音是否相同。
优选地,获取所述实体表述对的文本内特征包括:
获取并判断所述实体表述对中每个实体表述的实体类型;
获取所述实体表述对中每个实体表述在文本内的共现实体表述,并获取两个实体表述相同的共现实体表述的数量,判断所述数量是否大于预设阈值;
判断所述实体表述对中两个实体表述是否出现在同一文本中且两个实体表述为文本内指代关系。
基于本申请的另一方面,本申请还提供一种中文跨文本指代消解方法,包括:
加载使用上述分类模型建模方法得到的分类模型;
输入待识别文本集,并从所述待识别文本集中选取出实体表述对;
获取所述实体表述对的特征项;
加载所述特征项到所述分类模型中,得出具有共指关系的所述实体表述对;
将具有共指关系的所述实体表述对进行链接,得到跨文本指代链。
基于本申请的再一方面,本申请还提供一种分类模型建模系统,包括:
第一获取模块,用于获取已标注出中文跨文本指代链的训练文本集;
选取模块,用于从所述训练文本集中选取实体表述对;
第二获取模块,用于获取每个所述实体表述对的特征项,其中所述特征项包括基于外部资源的语义特征;
加载模块,用于将包括在所述中文跨文本指代链中的所述实体表述对确定为正训练实例,将未包括在所述中文跨文本指代链中的所述实体表述对确定为负训练实例,将每个所述正训练实例的特征项和每个所述负训练实例的特征项分别加载到支持向量机的建模工具中,得到分类模型。
优选地,所述基于外部资源的语义特征包括搜索引擎特征、维基百科特征和词林编码特征中的至少一种特征;
所述第二获取模块具体用于获取每个所述实体表述对的搜索引擎特征、维基百科特征和词林编码特征中的至少一种特征。
优选地,所述第二获取模块包括:
第一获取单元,用于获取实体表述对中每一个实体表述与所述实体表述的文本内共现实体表述的共现权值其中Nik为实体表述ei与共现实体表述ceik在网络上共同出现的文档数量,Ni为实体表述ei在网络上出现的文档数量,Nk为共现实体表述ceik在网络上出现的文档数量;
第一计算单元,用于计算所述实体表述对中两个所述实体表述的语义相似度 得出实体表述对的搜索引擎特征,其中为实体表述ei对应的权值向量的模,wik为实体表述ceik相对于ei的共现权值,为实体表述ej对应的权值向量的模,wjk为实体表述cejk相对于ej的共现权值。
优选地,所述第二获取模块包括:
第二获取单元,用于将实体表述对中每一个实体表述分别作为维基百科中的锚点文本;
第三获取单元,用于获取每个所述锚点文本链接到维基百科页面Pik的频度cik;
第二计算单元,用于计算所述实体表述对中两个实体表述的相似度得出实体表述对的维基百科特征,其中为作为锚点文本的实体表述ei对应的频度向量的模,为作为锚点文本的实体表述ej对应的频度向量的模。
优选地,所述第二获取模块具体用于获取所述实体表述对中两个实体表述在同义词词林中的编码,并将两个编码的比较结果作为所述实体表述对的词林编码特征。
优选地,所述特征项还包括:词形特征、语音特征和文本内特征中的至少一种特征;
所述第二获取模块进一步用于每个所述实体表述对的特征项还包括获取每个所述实体表述对的词形特征、语音特征和文本内特征中的至少一种特征。
优选地,所述第二获取模块包括:
第三计算单元,用于将所述实体表述对中的两个实体表述划分为由一元字符所组成的集合Si1和Sj1,计算集合Si1和Sj1之间的一元相似度系数其中|Si1∩Sj1|是Si1和Sj1的交集的大小,|Si1|和|Sj1|分别为集合Si1和Sj1的大小;
第四计算单元,用于将所述实体表述对中的两个实体表述划分为由二元字符所组成的集合Si2和Sj2,计算集合Si2和Sj2之间的二元相似度系数其中|Si2∩Sj2|是Si2和Sj2的交集的大小,|Si2|和|Sj2|分别为集合Si2和Sj2的大小;
第一判断单元,用于获取所述实体表述对中两个实体表述之间相同的字符,并判断所述相同字符在两个实体表述中是否以相同的顺序出现;
第二判断单元,用于判断所述实体表述对中两个实体表述的修饰词是否相同;
第三判断单元,用于判断所述实体表述对中的一个实体表述是否包含在另一个实体表述中。
优选地,所述第二获取模块包括:
第五计算单元,用于将所述实体表述对中的两个实体表述的拼音划分为由三元字母所组成的集合Si3和Sj3,计算集合Si3和Sj3之间的三元相似度系数其中|Si3∩Sj3|是Si3和Sj3的交集的大小,|Si3|和|Sj3|分别为集合Si3和Sj3的大小;
第六计算单元,用于将所述实体表述对中的两个实体表述的拼音划分为由四元字母所组成的集合Si4和Sj4,计算集合Si4和Sj4之间的四元相似度系数其中|Si4∩Sj4|是Si4和Sj4的交集的大小,|Si4|和|Sj4|分别为集合Si4和Sj4的大小;
第七计算单元,用于将所述实体表述对中的两个实体表述的拼音划分为由五元字母所组成的集合Si5和Sj5,计算集合Si5和Sj5之间的五元相似度系数其中|Si5∩Sj5|是Si5和Sj5的交集的大小,|Si5|和|Sj5|分别为集合Si5和Sj5的大小;
第四判断单元,用于判断所述实体表述对中两个实体表述的拼音是否相同。
优选地,所述第二获取模块包括:
第五判断单元,用于获取并判断所述实体表述对中每个实体表述的实体类型;
第六判断单元,用于获取所述实体表述对中每个实体表述在文本内的共现实体表述,并获取两个实体表述相同的共现实体表述的数量,判断所述数量是否大于预设阈值;
第七判断单元,用于判断所述实体表述对中两个实体表述是否出现在同一文本中且两个实体表述为文本内指代关系。
基于本申请的再一方面,本申请还提供一种中文跨文本指代消解系统,包括:
加载模块,用于加载使用上述分类模型建模系统得到的分类模型;
选取模块,用于输入待识别文本集,并从所述待识别文本集中选取出实体表述对;
获取模块,用于获取所述实体表述对的特征项;
第一获得模块,用于加载所述特征项到所述分类模型中,得出具有共指关系的所述实体表述对;
第二获得模块,用于将具有共指关系的所述实体表述对进行链接,得到跨文本指代链。
由于本申请实施例提供的分类模型建模方法可以获取每个实体表述对的特征项中基于外部资源的语义特征,该基于外部资源的语义特征可以充分利用各种外部资源,并挖掘实体表述对所具有的实际含义,从而提高分类模型的准确度。
进一步在使用分类模型建模方法得出的分类模型进行中文跨文本指代消解时,也可以获取每个实体表述对的特征项中基于外部资源的语义特征。换言之,在进行中文跨文本指代消解时可以充分利用各种外部资源,并挖掘实体表述对所具有的实际含义,即在中文跨文本指代消解时综合考虑实体表述对实际含义对多名聚合问题的影响,从而提高跨文本指代链的精准度。
附图说明
图1是本申请提供的分类模型建模方法的一种流程图;
图2是本申请提供的分类模型建模方法的另一种流程图;
图3是本申请提供的分类模型建模方法的再一种流程图;
图4是本申请提供的分类模型建模方法的再一种流程图;
图5是本申请提供的分类模型建模方法的一种子流程图;
图6是本申请提供的分类模型建模方法的另一种子流程图;
图7是本申请提供的分类模型建模方法的再一种子流程图;
图8是本申请提供的中文跨文本指代消解方法的一种流程图;
图9是本申请提供的分类模型建模系统的结构示意图;
图10是本申请提供的分类模型建模系统中第二获取模块的一种结构示意图;
图11是本申请提供的分类模型建模系统中第二获取模块的另一种结构示意图;
图12是本申请提供的分类模型建模系统中第二获取模块的再一种结构示意图;
图13是本申请提供的分类模型建模系统中第二获取模块的再一种结构示意图;
图14是本申请提供的分类模型建模系统中第二获取模块的再一种结构示意图;
图15是本申请提供的中文跨文本指代消解系统的结构示意图。
具体实施方式
为了使本领域技术人员更好的理解本申请阐述的技术方案,首先对本申请中涉及的名词作简要说明。
实体:现实世界中的一个对象或者是一组对象的集合,如人物、机构、组织和地名等,如朝鲜人民民主共和国表示一个国家实体;
实体表述:实体在文本中的引用名词、名词性短语或者代词等,如朝鲜或者北朝表示朝鲜人民民主共和国这一国家实体在文本中的引用名词;
实体表述对:两个属于相同或不同实体的表述,如朝鲜和北朝这一实体表述对,该实体表述对属于相同实体朝鲜人民民主共和国的表述;
文本内指代链:单个文本的所有指向同一实体的实体表述的集合;
跨文本指代链:多个文本之间的指向同一实体的实体表述的集合;
准确率(P):是指识别出的正确的指代链占识别出的所有指代链的百分比,其中指代链包括文本指代链和/或跨文本指代链;
召回率(R):是指识别出的正确的指代链占所有识别出的正确的指代链的百分比,其中指代链包括文本指代链和/或跨文本指代链;
F1性能:是指准确率和召回率的调和平均值,计算公式为
请参阅图1,其示出了本申请实施例提供的一种分类模型建模方法的流程图,可以包括以下步骤:
步骤101:获取已标注出中文跨文本指代链的训练文本集。
在本实施例中,获取的训练文本集将其内指向同一实体的跨文本指代链通过人工标注方法标注出,并可以将每个跨文本指代链的指代链信息存放在一个独立的标注文件中,其中指代链信息表明跨文本指代链指向的实体,并且标注文件中的每行记录有一个指代链信息。
当然,该训练文本集也可以通过人工标注方法识别出文本内实体和文本内指代链。
步骤102:从所述训练文本集中选取实体表述对。
由于训练文本集中的实体表述较多,得出的候选实体表述对总数较多,所以获取每个实体表述对的特征项之前首选需要从训练文本集中选取实体表述对,即从所有候选实体表述对中选取一部分作为实体表述对。
具体选取过程可以为:对所述训练文本集中每个文本内的每一个文本指代链,选出所述文本指代链中的一个实体表述。选取出的实体表述可以是文本指代链中名称最长的实体表述,如朝鲜——朝鲜人民民主共和国这一文本指代链,选取出的实体表述可以是朝鲜人民民主共和国。
在选取出所有文本指代链中的所有实体表述后,形成每个文本的实体表述列表。然后对于实体表述列表中的任意两个实体表述,在判断出所述两个实体表述具有相同的实体类型则进行下一步判断,否则转向判断下一对实体表述对。
其中下一步判断包括判断两个实体表述的字符相似度是否大于预设值或者判断两个实体表述是否具有可能的别名关系。在判断出所述两个实体表述的字符相似度大于预设值则将两个实体表述作为实体表述对;或者在判断出两个实体表述具有可能的别名关系,则将两个实体表述作为实体表述对。两个实体表述具有可能的别名关系是指两个实体表述在维基百科中具有重定向关系,或在维基百科页面中一个实体表述指向另一个实体表述。如澳洲和澳是澳大利亚的可能的别名表述,澳大利亚是澳大利亚足球队可能的别名表述。
在本实施例中,预设值可以依据实际应用设定不同数值,如依据所要选取的实体表述对数量设定,在所要选取的实体表述对数量越多时,预设值越小,在所要选取的实体表述对数量越少时,预设值越大。下面举例说明如何选取实体表述对。
例如文本1中的所有实体表述为:澳大利亚(GPE),澳(GPE),悉尼(GPE),墨尔本(GPE),中华人民共和国(GPE),南方航空公司(ORG),波音(ORG),美国(GPE)和西班牙(GPE)。同时“澳大利亚(GPE)”和“澳(GPE)”具有文本内指代关系。文档2中的所有实体表述为:澳洲(GPE),美国(GPE),德国(GPE),西班牙(GPE),中国大陆(GPE)和南航公司(ORG)。其中括号内为实体类型,GPE表示行政区,ORG表示机构。
选取两文本内的两两实体表述形成候选实体表述对:(澳大利亚,澳洲),(澳大利亚,美国),……,(南方航空公司,德国),(南方航空公司,西班牙),……(西班牙,西班牙)。
在上述候选实体表述对中,(南方航空公司,德国)为具有不同的实体类型的实体表述,所以这两个实体表述组成的候选实体表述对不作为实体表述对。而(澳大利亚,美国)为具有相同的实体类型的实体表述,所以这两个实体表述组成的候选实体表述对可以作为实体表述对。
步骤103:获取每个所述实体表述对的特征项,其中所述特征项包括基于外部资源的语义特征。
在选取出实体表述对后,获取每个实体表述对的特征项,其中所获取的特征项包括基于外部资源的语义特征。该基于外部资源的语义特征可以充分利用各种外部资源,并挖掘实体表述对所具有的实际含义。如基于外部资源的语义特征可以是基于网络的语义特征,该基于网络的语义特征可以充分利用各种网络资源,通过网络资源挖掘出实体表述对中每个实体表述所具有的实际含义。
例如在获取朝鲜和北朝这个实体表述对的基于外部资源的语义特征时,可以通过网络资源得出朝鲜和北朝可以指向同一个实体——朝鲜人民民主共和国。
由于获取的每个实体表述对的特征项中包括基于外部资源的语义特征,而该语义特征可以充分利用各种外部资源,并挖掘实体表述对所具有的实际含义,即在建模过程中综合考虑实体表述对实际含义对多名聚合问题的影响,从而提高分类模型的准确度。
步骤104:将包括在所述中文跨文本指代链中的所述实体表述对确定为正训练实例,将未包括在所述中文跨文本指代链中的所述实体表述对确定为负训练实例,将每个所述正训练实例的特征项和每个所述负训练实例的特征项分别加载到支持向量机的建模工具中,得到分类模型。
仍以上述文档1和文档2为例,文档1和文档2组成的训练文本集中已标注出的跨文本指代链为澳大利亚——澳洲——澳。因此在选取出实体表述对后,将每个实体表述对分别与该跨文本指代链进行匹配,可以得出实体表述对(澳大利亚,澳洲)包括在跨文本指代链中,说明该实体表述对具有共指关系,将该实体表述对确定为正训练实例,而实体表述对(澳大利亚,美国)不包括在跨文本指代链中,说明该实体表述对不具有共指关系,将该实体表述对确定为负训练实例。其中共指关系是指实体表述对中的两个实体表述指向同一实体,正训练实例说明实体表述对具有共指关系,负训练实例说明实体表述对不具有共指关系。
在确定出正训练实例和负训练实例后,将每个正训练实例和负训练实例的特征项分别加载到支持向量机的建模工具中。具体过程可以为:将特征项中的各种特征形成一个特征向量,将正训练实例的特征向量和负训练实例的特征向量输入到一个支持向量机的建模工具中,如SVMlight中,得出一个SVM分类模型。
分类模型是下列判别式函数中的支撑向量及其权重的集合:
其中包含S个支撑向量,分别为分类模型中支撑向量tj的权重、特征向量及其标号,z为要测试的实体表述对。该判别式函数可对测试实体表述对进行二元分类,当f>=0时,测试实体表述对具有共指关系,反之,则没有共指关系。标号根据训练实例类型不同而不同,在训练实例为正训练实例时,标号为正,在训练实例为负训练实例时,标号为负。
应用上述技术方案,在分类模型建模过程中可以获取每个实体表述对的特征项中基于外部资源的语义特征,这些语义特征可以充分利用各种外部资源,挖掘实体表述对所具有的实际含义,即在建模过程中综合考虑实体表述对实际含义对多名聚合问题的影响,从而提高分类模型的准确度。
在本实施例中,图1所示的分类模型建模方法在建模过程中获取的基于外部资源的语义特征可以包括搜索引擎特征、维基百科特征和词林编码特征中的至少一种特征。则步骤102获取每个所述实体表述对的特征项包括获取每个所述实体表述对的搜索引擎特征、维基百科特征和词林编码特征中的至少一种特征。下面分别以不同流程图分别阐述获取搜索引擎特征、维基百科特征和词林编码特征得过程。
请参阅图2,其示出了本申请实施例提供的一种分类模型建模方法的另一种流程图,其阐述了如何获取每个实体表述对的搜索引擎特征,可以包括以下步骤:
步骤201:获取已标注出中文跨文本指代链的训练文本集。
步骤202:从所述训练文本集中选取实体表述对。
在本实施例中,步骤201和步骤202的具体执行过程请参阅图1所示的分类模型建模方法中的步骤101和步骤102,对此本实施例不再加以阐述。
步骤203:获取实体表述对中每一个实体表述与所述实体表述的文本内共现实体表述的共现权值
其中Nik为实体表述ei与共现实体表述ceik在网络上共同出现的文档数量,Ni为实体表述ei在网络上出现的文档数量,Nk为共现实体表述ceik在网络上出现的文档数量。共现实体表述是指和实体表述在同一个地方,如网络或文本内出现的实体表述。
步骤204:计算所述实体表述对中两个所述实体表述的语义相似度 得出实体表述对的搜索引擎特征。
其中该语义相似度即为搜索引擎特征,为实体表述ei对应的权值向量的模,wik为实体表述ceik相对于ei的共现权值,为实体表述ej对应的权值向量的模,wjk为实体表述cejk相对于ej的共现权值。每个实体表述可以有多个共现实体表述,形成一个文本向量则其对应的权值向量权值向量为实体表述ei的共现权值的集合。
下面以(澳大利亚,澳洲)为例,利用Google为搜索引擎来介绍如何计算搜索引擎特征。
澳大利亚的共现实体表述有悉尼、墨尔本、中华人民共和国、南方航空公司、波音、美国和西班牙。澳洲的共现实体表述有美国,德国,西班牙和中国大陆。以“澳大利亚”为关键字,Google返回的结果数为116,000,000条,以“悉尼”为关键字,Google返回的结果数为32,500,000,以“澳大利亚AND悉尼”为关键字,Google返回的结果数为11,700,000,因此“悉尼”对于“澳大利亚”
以此类推计算“澳大利亚”所有的共现实体表述对于“澳大利亚”的权重,以及“澳洲”所有的共现实体表述对于“澳洲”的权重,最后得到两个向量,并归一化后为:
(悉尼:0.39,墨尔本:0.39,中华人民共和国:0.09,美国:0.26,南方航空公司:0.004,波音:0.3,西班牙:0.73);
(德国:0.68,中国大陆:0.26,美国:0.34,西班牙:0.60)。
因此,“澳大利亚”和“澳洲”之间的搜索引擎特征为:0.34×0.26+0.60×0.73≈0.53。
步骤205:将包括在所述中文跨文本指代链中的所述实体表述对确定为正训练实例,将未包括在所述中文跨文本指代链中的所述实体表述对确定为负训练实例,将每个所述正训练实例的特征项和每个所述负训练实例的特征项分别加载到支持向量机的建模工具中,得到分类模型。
在本实施例中,步骤205的具体执行过程与图1所示的分类模型建模方法中步骤104相同,对此本实施例不在加以阐述。
需要说明的是:在本实施例中,实体表述和共现实体表述单独搜索时,从检索到的页面中可以发现页面中存在的实体表述与页面中其他语句的结合,以及共现实体表述与页面中其他语句的结合遵循了语言学和社会学这两个自然科学。同样实体表述和共现实体表述之间的结合也遵循了语言学和社会学这两个自然科学。因此基于搜索引擎特征的分类模型建模方法遵循了自然规律。
请参阅图3,其示出了本申请实施例提供的一种分类模型建模方法的再一种流程图,其阐述了如何获取每个实体表述对的维基百科特征,可以包括以下步骤:
步骤301:获取已标注出中文跨文本指代链的训练文本集。
步骤302:从所述训练文本集中选取实体表述对。
在本实施例中,步骤301和步骤302的具体执行过程请参阅图1所示的分类模型建模方法中的步骤101和步骤102,对此本实施例不再加以阐述。
步骤303:将实体表述对中每一个实体表述分别作为维基百科中的锚点文本。
步骤304:获取每个所述锚点文本链接到维基百科页面Pik的频度cik。
步骤305:计算所述实体表述对中两个实体表述的相似度 得出实体表述对的维基百科特征。
在本实施例中,对于每一实体表述ei,将其作为锚点文本后链接到的维基百科页面和链接到维基百科页面的频度的集合可表示为:
其中Pik表示被链接到的维基百科页面,cik表示被链接到该条维基百科页面Pik的频度。因此两个实体表述的相似度可表示为:
其中,为实体表述ei对应的向量的模,cik为实体表述ei链到维基页面Pik的频度,为实体表述ej对应的向量的模,cjk为实体表述ej链到维基页面Pjk的频度。为实体表述ei的频度向量,频度向量为实体表述ei链接到维基百科页面的频度的集合,为实体表述ej的频度向量,频度向量为实体表述ej链接到维基百科页面的频度的集合。
以“澳大利亚”为锚点文本被链接到的维基百科页面有:{澳大利亚(3536),澳大利亚元(2),澳大利亚电影(3),澳洲国家足球队(51),澳大利亚国旗(1),澳大利亚地理(1),澳大利亚大陆(2)}。
以“澳洲”为锚点文本被链接到的维基百科页面有:{澳大利亚(5299),澳大利亚电影(7),澳洲国家足球队(178),澳大利亚战役(1),澳大利亚大奖赛(1)},其中括号内的数字为该种链接出现的频度。
将上述结果进行归一化处理得到两个集合:
{(澳大利亚,0.98),(澳大利亚元,0.0005),(澳大利亚电影,0.0009),(澳洲国家足球队,0.014),(澳大利亚国旗,0.0003),(澳大利亚地理,0.0003)(澳大利亚大陆,0.0005)};
{(澳大利亚,0.966),(澳大利亚电影,0.001),(澳洲国家足球队,0.032),(澳大利亚战役,0.0005),(澳大利亚大奖赛,0.0005)}。
因此,澳大利亚和澳洲之间的维基百科特征为:0.98*0.966+0.0009*0.001+0.014*0.032≈0.95。
步骤306:将包括在所述中文跨文本指代链中的所述实体表述对确定为正训练实例,将未包括在所述中文跨文本指代链中的所述实体表述对确定为负训练实例,将每个所述正训练实例的特征项和每个所述负训练实例的特征项分别加载到支持向量机的建模工具中,得到分类模型。
在本实施例中,步骤306的具体执行过程与图1所示的分类模型建模方法中步骤104相同,对此本实施例不在加以阐述。
需要说明的是:在本实施例中,实体表述在作为锚点文本链接到的维基百科页面中,实体表述与页面中其他语句的结合遵循了语言学和社会学这两个自然科学,因此基于维基百科特征的分类模型建模方法遵循了自然规律。
请参阅图4,其示出了本申请实施例提供的一种分类模型建模方法的再一种流程图,该流程图介绍如何获取每个实体表述对的词林编码特征,可以包括以下步骤:
步骤401:获取已标注出中文跨文本指代链的训练文本集。
步骤402:从所述训练文本集中选取实体表述对。
在本实施例中,步骤401和步骤402的具体执行过程请参阅图1所示的分类模型建模方法中的步骤101和步骤102,对此本实施例不再加以阐述。
步骤403:获取所述实体表述对中两个实体表述在同义词词林中的编码,并将两个编码的比较结果作为所述实体表述对的词林编码特征。
由于每个实体表述在《同义词词林》中对应的编码位数为8位,并且每个实体表述的编码共分为5个级别,分别为“大类”、“中类”、“小类”、“词群”和“原子词群”,所以需要对提取到的《同义词词林》编码进行截断,编码截取方式为取前5位,然后再对提取后得到的编码进行比较。
例如“澳大利亚”在同义词词林中的编码为Di02A,而“澳洲”在同义词词林中的编码为“Cb08A”,因此比较结果为词林编码不同。在本实施例中比较结果作为词林编码特征,并且在词林编码特征为词林编码不同或者词林编码相同时,可以为词林编码特征配置不同数值,以表明不同实体表述对可以具有不同的词林编码特征。
如词林编码特征取值1时,表明实体表述对的词林编码相同,词林编码特征取值0时,表明实体表述对的词林编码不同。
步骤404:将包括在所述中文跨文本指代链中的所述实体表述对确定为正训练实例,将未包括在所述中文跨文本指代链中的所述实体表述对确定为负训练实例,将每个所述正训练实例的特征项和每个所述负训练实例的特征项分别加载到支持向量机的建模工具中,得到分类模型。
在本实施例中,步骤404的具体执行过程与图1所示的分类模型建模方法中步骤104相同,对此本实施例不在加以阐述。
需要说明的是,在本实施例中,实体表述的词林编码遵循了语言学规律,因此基于词林编码特征的分类模型建模方法遵循了自然规律。
当然,本申请还可以将上述搜索引擎特征、维基百科特征和词林编码特征全部使用到分类模型建模方法中,即获取每个实体表述对的搜索引擎特征、维基百科特征和词林编码特征。本申请在同时获取搜索引擎特征、维基百科特征和词林编码特征相对于单独一个特征来说,每个特征获取过程与单独特征获取相同,而在加载特征项到支持向量机的建模工具中需要将三个特征全部加载,然后得出分类模型。由于获取的特征项增加,从而使得最终得出的分类模型的准确度提高。
当然,本申请提供的分类模型建模方法获取的特征项还可以包括词形特征、语音特征和文本内特征中的至少一种特征。词形特征、语音特征和文本内特征遵循语言学规律,因此基于词形特征、语音特征和文本内特征中至少一种特征的分类模型建模方法遵循了自然规律。下面以方法流程图阐述如何获取实体表述对的词形特征、语音特征和文本内特征。
请参阅图5,其示出了本申请实施例提供的分类模型建模方法中获取实体表述对的词形特征的流程图,其中词形特征考虑两个实体表述的构词信息,获取实体表述对的词形特征可以包括以下步骤:
步骤501:将所述实体表述对中的两个实体表述划分为由一元字符所组成的集合Si1和Sj1,计算集合Si1和Sj1之间的一元相似度系数其中|Si1∩Sj1|是Si1和Sj1的交集的大小,|Si1|和|Sj1|分别为集合Si1和Sj1的大小。
以(澳大利亚,澳洲)为例,“澳大利亚”可划分为集合{“澳”,“大”,“利”,“亚”},“澳洲”可划分为集合{“澳”,“洲”},所以|Si1∩Sj1|=1,|Si1|=4,|Sj1|=2,因此两个实体表述对间的一元相似度系数为0.33。
步骤502:将所述实体表述对中的两个实体表述划分为由二元字符所组成的集合Si2和Sj2,计算集合Si2和Sj2之间的二元相似度系数其中|Si2∩Sj2|是Si2和Sj2的交集的大小,|Si2|和|Sj2|分别为集合Si2和Sj2的大小。
以(澳大利亚,澳洲)为例,“澳大利亚”可划分为集合{“澳大”,“大利”,“利亚”},“澳洲”可划分为集合{“澳洲”},所以|Si2∩Sj2|=0,|Si2|=3,|Sj2|=1,因此两个实体表述对间的二元相似度系数为0。
步骤503:获取所述实体表述对中两个实体表述之间相同的字符,并判断所述相同字符在两个实体表述中是否以相同的顺序出现。
以(南方航空公司,南航公司)为例,两者间相同的字符为{“南”,“航”},并且两字符在两字串中以相同顺序出现。在本实施例中,实体表述对中两个实体表述以相同顺序出现时,该特征的取值可以为1;当实体表述对中两个实体表述以不同顺序出现时,该特征的取值可以为0。
步骤504:判断所述实体表述对中两个实体表述的修饰词是否相同。
以(南方航空公司,南航公司)为例,两者皆有中心词“公司”,两者的修饰成分分别为“南方航空”和“南航”,所以两者的修饰部分不相同。在本实施例中,实体表述对中两个实体表述的修饰词相同时,该特征的取值可以为1;当实体表述对中两个实体表述的修饰词不同时,该特征的取值可以为0。
步骤505:判断所述实体表述对中的一个实体表述是否包含在另一个实体表述中。
仍以(南方航空公司,南航公司)为例,两个实体表述在词形上具有超集、子集的包含关系,所以实体表述南航公司包含在另一实体表述南方航空公司中。在本实施例中,实体表述对中一个实体表述包含在另一个实体表述中,该特征的取值可以为1;当实体表述对中一个实体表述不包含在另一个实体表述中时,该特征的取值可以为0。
请参阅图6,其示出了本申请实施例提供的分类模型建模方法获取实体表述对的语音特征的流程图,其中语音特征考虑实体表述对中两个实体表述的词汇拼音之间的相似度。获取实体表述对的语音特征可以包括以下步骤:
步骤601:将所述实体表述对中的两个实体表述的拼音划分为由三元字母所组成的集合Si3和Sj3,计算集合Si3和Sj3之间的三元相似度系数其中|Si3∩Sj3|是Si3和Sj3的交集的大小,|Si3|和|Sj3|分别为集合Si3和Sj3的大小。
步骤602:将所述实体表述对中的两个实体表述的拼音划分为由四元字母所组成的集合Si4和Sj4,计算集合Si4和Sj4之间的四元相似度系数其中|Si4∩Sj4|是Si4和Sj4的交集的大小,|Si4|和|Sj4|分别为集合Si4和Sj4的大小。
步骤603:将所述实体表述对中的两个实体表述的拼音划分为由五元字母所组成的集合Si5和Sj5,计算集合Si5和Sj5之间的五元相似度系数其中|Si5∩Sj5|是Si5和Sj5的交集的大小,|Si5|和|Sj5|分别为集合Si5和Sj5的大小。
下面以三元相似度系数计算为例进行说明、以(澳大利亚,澳洲)为例,利用VBA编写Excel的自定义宏,从内置的汉字拼音数据库提取出两个实体表述的汉语拼音,“澳大利亚”的音节可以划分为{“aod”,“oda”,“dal”,“ali”,“iya”},“澳洲”的音节可划分为{“aoz”,“ozh”,“zho”,“hou”},|Si3∩Sj3|=0,所以三元相似度系数为0。
步骤604:判断所述实体表述对中两个实体表述的拼音是否相同。
利用VBA编写Excel的自定义宏,从内置的汉字拼音数据库提取出的“澳大利亚”的汉语拼音为“aodaliya”,“澳洲”的汉语拼音为“aozhou”,则两个实体表述的拼音不相同。在本实施例中,两个实体表述的拼音相同时,该特征的取值可以为1;当两个实体表述的拼音不相同时,该特征的取值可以为0。
请参阅图7,其示出了本申请实施例提供的分类模型建模方法获取实体表述对的文本内特征的流程图,可以包括以下步骤:
步骤701:获取并判断所述实体表述对中每个实体表述的实体类型。
以(澳大利亚,澳洲)为例,其实体类型为“GPE”类型。在本实施例中,两个实体表述的实体类型为“GPE”,则该特征取值为GPE。
步骤702:获取所述实体表述对中每个实体表述在文本内的共现实体表述,并获取两个实体表述相同的共现实体表述的数量,判断所述数量是否大于预设阈值。
以(澳大利亚,澳洲),预设阈值为3为例,与“澳大利亚”的共现实体表述有悉尼、墨尔本、中华人民共和国、南方航空公司、波音、美国、西班牙;与“澳洲”的共现实体表述有美国,德国,西班牙,中国大陆。澳大利亚和澳洲的共现实体表述的交集为{美国,西班牙},即相同共现实体表述的数量为2。
由于预设阈值为3,所以数量小于预设阈值。在本实施例中,数量大于预设阈值时,该特征的取值可以为1;当数量小于预设阈值时,该特征的取值可以为0。
其中预设阈值可以依据实际应用设定不同数值,如在相同的共现实体表述数量越多表明实体表述对指向同一实体的可能性越大,则需要预设阈值的取值越大。对于如何设定预设阈值本实施例不加以限制。
步骤703:判断所述实体表述对中两个实体表述是否出现在同一文本中且两个实体表述是否为文本内指代关系。
以文本1为例,文本1中的所有实体表述为:澳大利亚,澳,悉尼(GPE),墨尔本,中华人民共和国,南方航空公司,波音,美国和西班牙。则“澳大利亚”和“澳”具有文本内指代关系。
当然,本申请提供的分类模型建模方法还可以同时获取实体表述对的词形特征、语音特征和文本内特征,获取过程请参阅图5至图7所示。此外本申请提供的分类模型建模方法可以同时获取实体表述对的搜索引擎特征、维基百科特征、词林编码特征、词形特征、语音特征和文本内特征,以提高分类模型的准确度。
本申请还提供一种中文跨文本指代消解方法,在进行指代消解过程中,采用上述分类模型建模方法得出的分类模型。请参阅图8,其示出了本申请实施例提供的一种中文跨文本指代消解的流程图,可以包括以下步骤:
步骤801:加载分类模型。该分类模型采用上述图1至图7所示的流程图得出,具体过程请参阅图1至图7所示流程图对应的方法实施例,对此本实施例不再加以阐述。
步骤802:输入待识别文本集,并从所述待识别文本集中选取出实体表述对。其中从待识别文本集中选取出实体表述对的过程请参阅图1所对应的方法实施例,对此本实施例不再加以说明。
步骤803:获取所述实体表述对的特征项。其中获取的特征项可以包括搜索引擎特征、维基百科特征和词林编码特征中的至少一种。当然特征项还可以包括词形特征、语音特征和文本内特征。特征项获取的具体过程请参阅图2至图7所对应的方法实施例,对此本实施例不再加以说明。
步骤804:加载所述特征项到所述分类模型中,得出具有共指关系的所述实体表述对。
将特征项加载到分类模型中的判别函数式后,根据函数式的取值判断是否具有共指关系。如果该值为大于等于零,则说明实体表述对具有共指关系;如果该值小于零,则说明实体表述对不具有共指关系。
步骤805:将具有共指关系的所述实体表述对进行链接,得到跨文本指代链。
例如在一个待识别文本集中实体表述对“澳大利亚”和“澳洲”,“澳大利亚”和“澳”分别被识别为具有共指关系,那么根据指代关系的传递性规则生成一条指代链:澳大利亚—澳洲—澳。其中指代关系的传递性规则是指某种关系可以传递下去,例如,若A等价于B且B等价于C,则A等价于C,即等价关系是可传递的。
为了验证本申请的有益之处,本申请采用在ACE2005中文语料的基础上构建的跨文本指代语料库作为实验语料。它总共包含633篇文章,分别选自新华网、央视、台湾国际之声、联合早报、马来西亚之声等境内外中文媒体的新闻、博客、演讲、访谈等。语料库中总共有3,618个实体和6,771个实体表述。
在语料库的633个文件中随机挑选317个文件组成训练文本集,剩余文件构成待识别文本集。待识别文本集共包含了3,442个实体表述,2,080个实体。测试结果采用P/R/F1来衡量其性能。
使用传统的聚类方法进行中文跨文本指代消解,通常只考虑某一实体表述的共现实体表述,再用层次聚类的方法来合并不同文本内的实体表述。而本申请综合考虑词形、语音、文本内和语义等特征,并采用分类方法解决中文跨文本指代消解。下表1列出了这两种方法在上述语料库上的性能差异。
表1性能差异对比表
从上表中可以看出,本申请使用的中文跨文本指代消解方法相对于传统方法在解决多名聚合问题上取得较好的性能,F1指数明显提高。
与上述方法实施例相对应,本申请还提供一种分类模型建模系统,其结构示意图请参阅图9所示,包括:第一获取模块11、选取模块12、第二获取模块13和加载模块14。其中,
第一获取模块11,用于获取已标注出中文跨文本指代链的训练文本集。
选取模块12,用于从所述训练文本集中选取实体表述对。
选取模块12的选取过程具体为:对所述训练文本集中每个文本内的每一个文本指代链,选出所述文本指代链中的一个实体表述,形成每个文本的实体表述列表;对于实体表述列表中的任意两个实体表述,在判断出所述两个实体表述具有相同的实体类型或者两个实体表述的字符相似度大于预设值或者两个实体表述具有别名关系,则将两个实体表述作为实体表述对。具体请参阅图1所对应的方法实施例中的阐述。
第二获取模块13,用于获取每个所述实体表述对的特征项,其中所述特征项包括基于外部资源的语义特征。
加载模块14,用于将包括在所述中文跨文本指代链中的所述实体表述对确定为正训练实例,将未包括在所述中文跨文本指代链中的所述实体表述对确定为负训练实例,将每个所述正训练实例的特征项和每个所述负训练实例的特征项分别加载到支持向量机的建模工具中,得到分类模型。
在本实施例中,第二获取模块13获取的基于外部资源的语义特征包括搜索引擎特征、维基百科特征和词林编码特征中的至少一种特征。则第二获取模块13具体用于获取每个所述实体表述对的搜索引擎特征、维基百科特征和词林编码特征中的至少一种特征。
第二获取模块13在获取实体表述对的词林编码特征时,具体用于获取所述实体表述对中两个实体表述在同义词词林中的编码,并将两个编码的比较结果作为所述实体表述对的词林编码特征。
在本实施例中,第二获取模块13的一种结构示意图请参阅图10所示,其用于获取实体表述对的搜索引擎特征,可以包括:第一获取单元131和第一计算单元132。其中,
第一获取单元131,用于获取实体表述对中每一个实体表述与所述实体表述的文本内共现实体表述的共现权值其中Nik为实体表述ei与共现实体表述ceik在网络上共同出现的文档数量,Ni为实体表述ei在网络上出现的文档数量,Nk为共现实体表述ceik在网络上出现的文档数量。。
第一计算单元132,用于计算所述实体表述对中两个所述实体表述的语义相似度 得出实体表述对的搜索引擎特征,其中为实体表述ei对应的权值向量的模,wik为实体表述ceik相对于ei的共现权值,为实体表述ej对应的权值向量的模,wjk为实体表述cejk相对于ej的共现权值。
请参阅图11,其示出了本申请实施例提供第二获取模块13的另一种结构示意图,该第二获取模块13用于获取实体表述对的维基百科特征,可以包括:第二获取单元133、第三获取单元134和第二计算单元135。其中,
第二获取单元133,用于将实体表述对中每一个实体表述分别作为维基百科中的锚点文本。
第三获取单元134,用于获取每个所述锚点文本链接到维基百科页面Pik的频度cik。
第二计算单元135,用于计算所述实体表述对中两个实体表述的相似度得出实体表述对的维基百科特征,其中为作为锚点文本的实体表述ei对应的频度向量的模,为作为锚点文本的实体表述ej对应的频度向量的模。
当然,在本实施例中,第二获取模块13可以同时获取实体表述对的搜索引擎特征、维基百科特征和词林编码特征,具体获取过程请参阅本实施例中对第二获取模块13的说明。
此外,第二获取模块13获取的特征项还包括:词形特征、语音特征和文本内特征中的至少一种特征。
请参阅图12,其示出了本申请实施例提供的分类模型建模系统中第二获取模块13的再一种结构示意图,该第二获取模块13用于获取实体表述对的词形特征,可以包括:第三计算单元136、第四计算单元137、第一判断单元138、第二判断单元139和第三判断单元140。其中,
第三计算单元136,用于将所述实体表述对中的两个实体表述划分为由一元字符所组成的集合Si1和Sj1,计算集合Si1和Sj1之间的一元相似度系数其中|Si1∩Sj1|是Si1和Sj1的交集的大小,|Si1|和|Sj1|分别为集合Si1和Sj1的大小。
第四计算单元137,用于将所述实体表述对中的两个实体表述划分为由二元字符所组成的集合Si2和Sj2,计算集合Si2和Sj2之间的二元相似度系数其中|Si2∩Sj2|是Si2和Sj2的交集的大小,|Si2|和|Sj2|分别为集合Si2和Sj2的大小。
第一判断单元138,用于获取所述实体表述对中两个实体表述之间相同的字符,并判断所述相同字符在两个实体表述中是否以相同的顺序出现。
第二判断单元139,用于判断所述实体表述对中两个实体表述的修饰词是否相同。
第三判断单元140,用于判断所述实体表述对中的一个实体表述是否包含在另一个实体表述中。
请参阅图13,其示出了本申请实施例提供的分类模型建模系统中第二获取模块13的再一种结构示意图,该第二获取模块13用于获取实体表述对的语音特征,可以包括:第五计算单元141、第六计算单元142、第七计算单元143和第四判断单元144。其中,
第五计算单元141,用于将所述实体表述对中的两个实体表述的拼音划分为由三元字母所组成的集合Si3和Sj3,计算集合Si3和Sj3之间的三元相似度系数其中|Si3∩Sj3|是Si3和Sj3的交集的大小,|Si3|和|Sj3|分别为集合Si3和Sj3的大小。
第六计算单元142,用于将所述实体表述对中的两个实体表述的拼音划分为由四元字母所组成的集合Si4和Sj4,计算集合Si4和Sj4之间的四元相似度系数其中|Si4∩Sj4|是Si4和Sj4的交集的大小,|Si4|和|Sj4|分别为集合Si4和Sj4的大小。
第七计算单元143,用于将所述实体表述对中的两个实体表述的拼音划分为由五元字母所组成的集合Si5和Sj5,计算集合Si5和Sj5之间的五元相似度系数其中|Si5∩Sj5|是Si5和Sj5的交集的大小,|Si5|和|Sj5|分别为集合Si5和Sj5的大小。
第四判断单元144,用于判断所述实体表述对中两个实体表述的拼音是否相同。
请参阅图14,其示出了本申请实施例提供的分类模型建模系统中第二获取模块13的再一种结构示意图,该第二获取模块13用于获取实体表述对的文本内特征,可以包括:第五判断单元145、第六判断单元146和第七判断单元147。其中,
第五判断单元145,用于获取所述实体表述对中每个实体表述的实体类型。
第六判断单元146,用于获取所述实体表述对中每个实体表述在文本内的共现实体表述,并获取两个实体表述相同的共现实体表述的数量,判断所述数量是否大于预设阈值。
第七判断单元147,用于判断所述实体表述对中两个实体表述是否出现在同一文本中且两个实体表述为文本内指代关系。
此外,本申请还提供一种中文跨文本指代消解系统,其结构示意图请参阅图15所示,可以包括:加载模块21、选取模块22、获取模块23、第一获得模块24和第二获得模块25。其中,
加载模块21,用于加载分类模型。该分类模型使用上述图9至图14所对应的分类模型建模系统实施例提供的分类模型建模系统得到,具体过程请参阅分类模型建模系统实施例中的说明。
选取模块22,用于输入待识别文本集,并从所述待识别文本集中选取出实体表述对。
获取模块23,用于获取所述实体表述对的特征项。其中获取的特征项可以包括搜索引擎特征、维基百科特征和词林编码特征中的至少一种。当然特征项还可以包括词形特征、语音特征和文本内特征。特征项获取的具体过程请参阅图2至图7所对应的方法实施例,对此本实施例不再加以说明。
第一获得模块24,用于加载所述特征项到所述分类模型中,得出具有共指关系的所述实体表述对。
第二获得模块25,用于将具有共指关系的所述实体表述对进行链接,得到跨文本指代链。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于系统类实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅是本申请的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。
Claims (16)
1.一种分类模型建模方法,其特征在于,包括:
获取已标注出中文跨文本指代链的训练文本集;
所述中文跨文本指代链为所述训练文本集内指向同一实体的跨文本指代链;
从所述训练文本集中选取实体表述对;
获取每个所述实体表述对的特征项,其中所述特征项包括基于外部资源的语义特征;
将包括在所述中文跨文本指代链中的所述实体表述对确定为正训练实例,将未包括在所述中文跨文本指代链中的所述实体表述对确定为负训练实例,将每个所述正训练实例的特征项和每个所述负训练实例的特征项分别加载到支持向量机的建模工具中,得到分类模型;
所述基于外部资源的语义特征包括搜索引擎特征、维基百科特征和词林编码特征中的至少一种特征;
获取每个所述实体表述对的特征项包括获取每个所述实体表述对的搜索引擎特征、维基百科特征和词林编码特征中的至少一种特征;
获取所述实体表述对的搜索引擎特征包括:获取实体表述对中每一个实体表述与所述实体表述的文本内共现实体表述的共现权值其中Nik为实体表述ei与共现实体表述ceik在网络上共同出现的文档数量,Ni为实体表述ei在网络上出现的文档数量,Nk为共现实体表述ceik在网络上出现的文档数量;
计算所述实体表述对中两个所述实体表述的语义相似度得出实体表述对的搜索引擎特征,其中为实体表述ei对应的权值向量的模,wik为实体表述ceik相对于ei的共现权值,为实体表述ej对应的权值向量的模,wjk为实体表述cejk相对于ej的共现权值。
2.根据权利要求1所述的方法,其特征在于,获取所述实体表述对的维基百科特征包括:
将实体表述对中每一个实体表述分别作为维基百科中的锚点文本;
获取每个所述锚点文本链接到维基百科页面Pik的频度cik;
计算所述实体表述对中两个实体表述的相似度得出实体表述对的维基百科特征,其中为实体表述ei对应的频度向量的模,cik为实体表述ei链到维基页面Pik的频度,为实体表述ej对应的频度向量的模,cjk为实体表述ej链到维基页面Pjk的频度。
3.根据权利要求1所述的方法,其特征在于,获取所述实体表述对的词林编码特征包括:获取所述实体表述对中两个实体表述在同义词词林中的编码,并将两个编码的比较结果作为所述实体表述对的词林编码特征。
4.根据权利要求1至3任意一项所述的方法,其特征在于,所述特征项还包括:词形特征、语音特征和文本内特征中的至少一种特征;
获取每个所述实体表述对的特征项还包括获取每个所述实体表述对的词形特征、语音特征和文本内特征中的至少一种特征。
5.根据权利要求4所述的方法,其特征在于,获取所述实体表述对的词形特征包括:
将所述实体表述对中的两个实体表述划分为由一元字符所组成的集合Si1和Sj1,计算集合Si1和Sj1之间的一元相似度系数其中|Si1∩Sj1|是Si1和Sj1的交集的大小,|Si1|和|Sj1|分别为集合Si1和Sj1的大小;
将所述实体表述对中的两个实体表述划分为由二元字符所组成的集合Si2和Sj2,计算集合Si2和Sj2之间的二元相似度系数其中|Si2∩Sj2|是Si2和Sj2的交集的大小,|Si2|和|Sj2|分别为集合Si2和Sj2的大小;
获取所述实体表述对中两个实体表述之间相同的字符,并判断所述相同字符在两个实体表述中是否以相同的顺序出现;
判断所述实体表述对中两个实体表述的修饰词是否相同;
判断所述实体表述对中的一个实体表述是否包含在另一个实体表述中。
6.根据权利要求5所述的方法,其特征在于,获取所述实体表述对的语音特征包括:
将所述实体表述对中的两个实体表述的拼音划分为由三元字母所组成的集合Si3和Sj3,计算集合Si3和Sj3之间的三元相似度系数其中|Si3∩Sj3|是Si3和Sj3的交集的大小,|Si3|和|Sj3|分别为集合Si3和Sj3的大小;
将所述实体表述对中的两个实体表述的拼音划分为由四元字母所组成的集合Si4和Sj4,计算集合Si4和Sj4之间的四元相似度系数其中|Si4∩Sj4|是Si4和Sj4的交集的大小,|Si4|和|Sj4|分别为集合Si4和Sj4的大小;
将所述实体表述对中的两个实体表述的拼音划分为由五元字母所组成的集合Si5和Sj5,计算集合Si5和Sj5之间的五元相似度系数其中|Si5∩Sj5|是Si5和Sj5的交集的大小,|Si5|和|Sj5|分别为集合Si5和Sj5的大小;
判断所述实体表述对中两个实体表述的拼音是否相同。
7.根据权利要求6所述的方法,其特征在于,获取所述实体表述对的文本内特征包括:
获取并判断所述实体表述对中每个实体表述的实体类型;
获取所述实体表述对中每个实体表述在文本内的共现实体表述,并获取两个实体表述相同的共现实体表述的数量,判断所述数量是否大于预设阈值;
判断所述实体表述对中两个实体表述是否出现在同一文本中且两个实体表述为文本内指代关系。
8.一种中文跨文本指代消解方法,其特征在于,包括:
加载使用权利要求1至7任意一项所述的分类模型建模方法得到的分类模型;
输入待识别文本集,并从所述待识别文本集中选取出实体表述对;
获取所述实体表述对的特征项;
加载所述特征项到所述分类模型中,得出具有共指关系的所述实体表述对;
将具有共指关系的所述实体表述对进行链接,得到跨文本指代链;
所述跨文本指代链为所述训练文本集内指向同一实体的跨文本指代链。
9.一种分类模型建模系统,其特征在于,包括:
第一获取模块,用于获取已标注出中文跨文本指代链的训练文本集;
所述中文跨文本指代链为所述训练文本集内指向同一实体的跨文本指代链;
选取模块,用于从所述训练文本集中选取实体表述对;
第二获取模块,用于获取每个所述实体表述对的特征项,其中所述特征项包括基于外部资源的语义特征;
加载模块,用于将包括在所述中文跨文本指代链中的所述实体表述对确定为正训练实例,将未包括在所述中文跨文本指代链中的所述实体表述对确定为负训练实例,将每个所述正训练实例的特征项和每个所述负训练实例的特征项分别加载到支持向量机的建模工具中,得到分类模型;
所述基于外部资源的语义特征包括搜索引擎特征、维基百科特征和词林编码特征中的至少一种特征;
所述第二获取模块具体用于获取每个所述实体表述对的搜索引擎特征、维基百科特征和词林编码特征中的至少一种特征;
所述第二获取模块包括:
第一获取单元,用于获取实体表述对中每一个实体表述与所述实体表述的文本内共现实体表述的共现权值其中Nik为实体表述ei与共现实体表述ceik在网络上共同出现的文档数量,Ni为实体表述ei在网络上出现的文档数量,Nk为共现实体表述ceik在网络上出现的文档数量;
第一计算单元,用于计算所述实体表述对中两个所述实体表述的语义相似度得出实体表述对的搜索引擎特征,其中为实体表述ei对应的权值向量的模,wik为实体表述ceik相对于ei的共现权值,为实体表述ej对应的权值向量的模,wjk为实体表述cejk相对于ej的共现权值。
10.根据权利要求9所述的系统,其特征在于,所述第二获取模块包括:
第二获取单元,用于将实体表述对中每一个实体表述分别作为维基百科中的锚点文本;
第三获取单元,用于获取每个所述锚点文本链接到维基百科页面Pik的频度cik;
第二计算单元,用于计算所述实体表述对中两个实体表述的相似度得出实体表述对的维基百科特征,其中为作为锚点文本的实体表述ei对应的频度向量的模,为作为锚点文本的实体表述ej对应的频度向量的模。
11.根据权利要求10所述的系统,其特征在于,所述第二获取模块具体用于获取所述实体表述对中两个实体表述在同义词词林中的编码,并将两个编码的比较结果作为所述实体表述对的词林编码特征。
12.根据权利要求9至11任意一项所述的系统,其特征在于,所述特征项还包括:词形特征、语音特征和文本内特征中的至少一种特征;
所述第二获取模块进一步用于每个所述实体表述对的特征项还包括获取每个所述实体表述对的词形特征、语音特征和文本内特征中的至少一种特征。
13.根据权利要求12所述的系统,其特征在于,所述第二获取模块包括:
第三计算单元,用于将所述实体表述对中的两个实体表述划分为由一元字符所组成的集合Si1和Sj1,计算集合Si1和Sj1之间的一元相似度系数其中|Si1∩Sj1|是Si1和Sj1的交集的大小,|Si1|和|Sj1|分别为集合Si1和Sj1的大小;
第四计算单元,用于将所述实体表述对中的两个实体表述划分为由二元字符所组成的集合Si2和Sj2,计算集合Si2和Sj2之间的二元相似度系数其中|Si2∩Sj2|是Si2和Sj2的交集的大小,|Si2|和|Sj2|分别为集合Si2和Sj2的大小;
第一判断单元,用于获取所述实体表述对中两个实体表述之间相同的字符,并判断所述相同字符在两个实体表述中是否以相同的顺序出现;
第二判断单元,用于判断所述实体表述对中两个实体表述的修饰词是否相同;
第三判断单元,用于判断所述实体表述对中的一个实体表述是否包含在另一个实体表述中。
14.根据权利要求13所述的系统,其特征在于,所述第二获取模块包括:
第五计算单元,用于将所述实体表述对中的两个实体表述的拼音划分为由三元字母所组成的集合Si3和Sj3,计算集合Si3和Sj3之间的三元相似度系数其中|Si3∩Sj3|是Si3和Sj3的交集的大小,|Si3|和|Sj3|分别为集合Si3和Sj3的大小;
第六计算单元,用于将所述实体表述对中的两个实体表述的拼音划分为由四元字母所组成的集合Si4和Sj4,计算集合Si4和Sj4之间的四元相似度系数其中|Si4∩Sj4|是Si4和Sj4的交集的大小,|Si4|和|Sj4|分别为集合Si4和Sj4的大小;
第七计算单元,用于将所述实体表述对中的两个实体表述的拼音划分为由五元字母所组成的集合Si5和Sj5,计算集合Si5和Sj5之间的五元相似度系数其中|Si5∩Sj5|是Si5和Sj5的交集的大小,|Si5|和|Sj5|分别为集合Si5和Sj5的大小;
第四判断单元,用于判断所述实体表述对中两个实体表述的拼音是否相同。
15.根据权利要求14所述的系统,其特征在于,所述第二获取模块包括:
第五判断单元,用于获取并判断所述实体表述对中每个实体表述的实体类型;
第六判断单元,用于获取所述实体表述对中每个实体表述在文本内的共现实体表述,并获取两个实体表述相同的共现实体表述的数量,判断所述数量是否大于预设阈值;
第七判断单元,用于判断所述实体表述对中两个实体表述是否出现在同一文本中且两个实体表述为文本内指代关系。
16.一种中文跨文本指代消解系统,其特征在于,包括:
加载模块,用于加载使用权利要求9至15任意一项所述的分类模型建模系统得到的分类模型;
选取模块,用于输入待识别文本集,并从所述待识别文本集中选取出实体表述对;
获取模块,用于获取所述实体表述对的特征项;
第一获得模块,用于加载所述特征项到所述分类模型中,得出具有共指关系的所述实体表述对;
第二获得模块,用于将具有共指关系的所述实体表述对进行链接,得到跨文本指代链;
所述跨文本指代链为所述训练文本集内指向同一实体的跨文本指代链。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310108506.XA CN103150405B (zh) | 2013-03-29 | 2013-03-29 | 一种分类模型建模方法、中文跨文本指代消解方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310108506.XA CN103150405B (zh) | 2013-03-29 | 2013-03-29 | 一种分类模型建模方法、中文跨文本指代消解方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103150405A CN103150405A (zh) | 2013-06-12 |
CN103150405B true CN103150405B (zh) | 2014-12-10 |
Family
ID=48548482
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310108506.XA Expired - Fee Related CN103150405B (zh) | 2013-03-29 | 2013-03-29 | 一种分类模型建模方法、中文跨文本指代消解方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103150405B (zh) |
Families Citing this family (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104462053B (zh) * | 2013-09-22 | 2018-10-12 | 江苏金鸽网络科技有限公司 | 一种文本内的基于语义特征的人称代词指代消解方法 |
US10223410B2 (en) | 2014-01-06 | 2019-03-05 | Cisco Technology, Inc. | Method and system for acquisition, normalization, matching, and enrichment of data |
CN105988990B (zh) * | 2015-02-26 | 2021-06-01 | 索尼公司 | 汉语零指代消解装置和方法、模型训练方法和存储介质 |
CN104866614A (zh) * | 2015-06-05 | 2015-08-26 | 深圳市爱学堂教育科技有限公司 | 创建词条的方法及创建词条的装置 |
CN106294313A (zh) * | 2015-06-26 | 2017-01-04 | 微软技术许可有限责任公司 | 学习用于实体消歧的实体及单词嵌入 |
CN106445911B (zh) * | 2016-03-18 | 2022-02-22 | 苏州大学 | 一种基于微观话题结构的指代消解方法及系统 |
CN107402913B (zh) | 2016-05-20 | 2020-10-09 | 腾讯科技(深圳)有限公司 | 先行词的确定方法和装置 |
CN106502988B (zh) * | 2016-11-02 | 2019-06-07 | 广东惠禾科技发展有限公司 | 一种目标属性抽取的方法和设备 |
CN107590123B (zh) * | 2017-08-07 | 2022-07-05 | 大众问问(北京)信息科技有限公司 | 车载中地点上下文指代消解方法及装置 |
CN109033303B (zh) * | 2018-07-17 | 2021-07-02 | 东南大学 | 一种基于约简锚点的大规模知识图谱融合方法 |
CN110059320B (zh) * | 2019-04-23 | 2021-03-16 | 腾讯科技(深圳)有限公司 | 实体关系抽取方法、装置、计算机设备和存储介质 |
CN111626042B (zh) * | 2020-05-28 | 2023-07-21 | 成都网安科技发展有限公司 | 指代消解方法及装置 |
CN112835852B (zh) * | 2021-04-20 | 2021-08-17 | 中译语通科技股份有限公司 | 提升逐篇归档的效率的人物重名消歧方法、系统、设备 |
CN113656556B (zh) * | 2021-08-20 | 2023-08-15 | 广州天宸健康科技有限公司 | 一种文本特征抽取方法及知识图谱构建方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101446942A (zh) * | 2008-12-10 | 2009-06-03 | 苏州大学 | 一种自然语言句子的语义角色标注方法 |
CN101901213A (zh) * | 2010-07-29 | 2010-12-01 | 哈尔滨工业大学 | 一种基于实例动态泛化的共指消解方法 |
CN102023986A (zh) * | 2009-09-22 | 2011-04-20 | 日电(中国)有限公司 | 参考外部知识构建文本分类器的方法和设备 |
-
2013
- 2013-03-29 CN CN201310108506.XA patent/CN103150405B/zh not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101446942A (zh) * | 2008-12-10 | 2009-06-03 | 苏州大学 | 一种自然语言句子的语义角色标注方法 |
CN102023986A (zh) * | 2009-09-22 | 2011-04-20 | 日电(中国)有限公司 | 参考外部知识构建文本分类器的方法和设备 |
CN101901213A (zh) * | 2010-07-29 | 2010-12-01 | 哈尔滨工业大学 | 一种基于实例动态泛化的共指消解方法 |
Non-Patent Citations (2)
Title |
---|
指代消解关键问题研究;孔芳;《中国博士学位论文全文数据库 信息科技辑》;20101231(第6期);第22页-第33页 * |
面向信息抽取的中文跨文本指代消解研究;季红洁等;《福建电脑》;20121130(第11期);第10页-第12页 * |
Also Published As
Publication number | Publication date |
---|---|
CN103150405A (zh) | 2013-06-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103150405B (zh) | 一种分类模型建模方法、中文跨文本指代消解方法和系统 | |
CN110442760B (zh) | 一种问答检索系统的同义词挖掘方法及装置 | |
CN106777274B (zh) | 一种中文旅游领域知识图谱构建方法及系统 | |
CN104391942B (zh) | 基于语义图谱的短文本特征扩展方法 | |
CN104679728B (zh) | 一种文本相似度检测方法 | |
CN109582704B (zh) | 招聘信息和求职简历匹配的方法 | |
CN106777275A (zh) | 基于多粒度语义块的实体属性和属性值提取方法 | |
CN106776538A (zh) | 企业非标准格式文档的信息提取方法 | |
CN104216876B (zh) | 信息文本过滤方法及系统 | |
CN105279252A (zh) | 挖掘相关词的方法、搜索方法、搜索系统 | |
CN106066866A (zh) | 一种英文文献关键短语自动抽取方法与系统 | |
CN104011712A (zh) | 对跨语言查询建议的查询翻译进行评价 | |
CN103473217B (zh) | 从文本中抽取关键词的方法和装置 | |
CN101702167A (zh) | 一种基于互联网的模板抽取属性和评论词的方法 | |
CN110362678A (zh) | 一种自动提取中文文本关键词的方法与装置 | |
CN113157860B (zh) | 一种基于小规模数据的电力设备检修知识图谱构建方法 | |
CN105224520A (zh) | 一种中文专利文献术语自动识别方法 | |
CN112837184A (zh) | 一种适用于建筑工程的项目管理系统 | |
CN109213998A (zh) | 中文错字检测方法及系统 | |
CN111090994A (zh) | 一种面向中文网络论坛文本的事件地点归属省份识别方法 | |
CN109446288A (zh) | 一种基于Spark互联网涉密地图检测算法 | |
CN110348003A (zh) | 文本有效信息的抽取方法及装置 | |
CN110457711A (zh) | 一种基于主题词的社交媒体事件主题识别方法 | |
CN105243053A (zh) | 提取文档关键句的方法及装置 | |
CN104536951A (zh) | 一种微博文本规范化及分词和词性标注的方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20141210 Termination date: 20200329 |