CN104462063A - 基于语义位置模型的位置信息结构化提取方法及系统 - Google Patents
基于语义位置模型的位置信息结构化提取方法及系统 Download PDFInfo
- Publication number
- CN104462063A CN104462063A CN201410768372.9A CN201410768372A CN104462063A CN 104462063 A CN104462063 A CN 104462063A CN 201410768372 A CN201410768372 A CN 201410768372A CN 104462063 A CN104462063 A CN 104462063A
- Authority
- CN
- China
- Prior art keywords
- rule
- node
- ontology
- concept
- group
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 19
- 238000000034 method Methods 0.000 claims abstract description 57
- 238000013507 mapping Methods 0.000 claims abstract description 7
- 230000008878 coupling Effects 0.000 claims description 55
- 238000010168 coupling process Methods 0.000 claims description 55
- 238000005859 coupling reaction Methods 0.000 claims description 55
- 230000008569 process Effects 0.000 claims description 27
- 230000015572 biosynthetic process Effects 0.000 claims description 16
- 238000010276 construction Methods 0.000 claims description 9
- 239000011159 matrix material Substances 0.000 claims description 5
- 239000000203 mixture Substances 0.000 description 8
- 230000006870 function Effects 0.000 description 7
- 238000013461 design Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000013011 mating Effects 0.000 description 2
- 235000008331 Pinus X rigitaeda Nutrition 0.000 description 1
- 235000011613 Pinus brutia Nutrition 0.000 description 1
- 241000018646 Pinus brutia Species 0.000 description 1
- 241000168254 Siro Species 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000009987 spinning Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
Landscapes
- Machine Translation (AREA)
Abstract
一种基于语义位置模型的位置信息结构化提取方法及系统,包括基于语义位置模型构建位置基础概念本体、位置实体概念本体,并填充本体实例;对位置基础概念本体和位置实体概念本体进行分类,建立对应的位置结构概念本体;自动化映射位置结构概念本体生成规则类,每一条规则类对应一个位置实体概念本体,规则类具有继承性和贪婪性;规则类实例化之后成为规则对象,将所有规则类实例化,最终生成规则集合;对规则集合进行分类,重新划分为若干个规则组,形成规则检索依赖图;针对每个规则组,进一步建立概念本体和规则之间的倒排索引;进行位置描述图匹配,利用规则匹配算法进行匹配完成位置信息的结构化提取。
Description
技术领域
本发明属于自然语言位置提取技术领域,特别是涉及一种基于语义位置模型的位置信息结构化提取方法及系统。
背景技术
自然语言位置提取技术是自然语言理解领域一直以来的重点研究问题之一,其主要内容是对位置名称和位置关系的识别,主要有两种方法:一种是基于正则表达式规则的方法,另一种是地理信息抽取(Geographical information retrieval)方法。
基于正则表达式规则的方法需要建立地理命名实体或地名的语料库和构造规则,采用规则匹配的方式进行识别,对概念构造规则要求严格,能够提高抽取结果的准确率,但其缺点也比较明显。一是由于一般正则表达式规则只能对字符串信息进行匹配,难以灵活的融入地名实体和关系词汇之间的语义关系。其二,规则本身难以处理嵌套的空间关系、地名,在编写规则时,很容易出现组合爆炸问题,换言之,由于规则之间缺乏层次关系,编写足够保证查全率的规则十分困难。其三,正则表达式规则使用独立的匹配软件模块,其从语法和软件实现角度都难以和模糊位置识别方法有效的进行结合。其四,在规则数量较多时,且需要解析匹配较细尺度的地名如街道、POI时,编译完成后的规则会非常庞大,系统效率极速降低。最后由于本身规则数量较多,且正则表达式语法在匹配较复杂的句法时语法非常复杂,难以编写和维护,这样也很难保证位置信息的查全率。POI是兴趣点,一般而言,每个POI包含四方面信息,名称、类别、经度、纬度。
地理信息抽取方法则一般针对篇章级文本进行处理,其基本思路是利用自然语言处理的一些通用工具如命名实体识别、词性标注等对文本进行处理,由于这些通用工具并不针对位置提取领域,需要进行大量的后处理对前期提取的地理实体进行修正,常用的方法包括边界扩张、元规则地名重构、词性判别、类型传播(Lieberman and Samet 2011),最后一个步骤是进行地名歧义消解和定位。针对短语级的描述信息,其相比长文本一般需要更精确地提取和定位,局部语句的句法结构变化方式比一般的篇章文本中更为复杂,在近两年也引起了该领域一些研究者的注意。如Gelernter and Balaji(2013)从微博信息中进行街道级别位置的定位,使用机器学习方法对于英文的缩写问题进行判别。针对空间关系的提取也有研究者提出三元组的方式进行提取(Khan et al.2013)。针对中文泛在信息的位置解析匹配工作开展的较晚,中文因为其语法结构跟英语等有明显的不同,研究者一般还需要采取预先分词的方式进行处理,而分词由于切分歧义,本身也会引入错误,会给后期处理带来进一步的问题。
发明内容
针对上述问题,本发明提出一种基于语义位置模型的位置信息结构化提取技术方案,能有效提高自然语言位置提取效率和准确率,支持灵活定义规则语句,从而实现简单和复杂句法模式的匹配。
本发明技术方案提供一种基于语义位置模型的位置信息结构化提取方法,包括以下步骤:步骤1,基于语义位置模型构建位置基础概念本体、位置实体概念本体,并填充本体实例;所述位置基础概念本体为地理实体的基本组成部分对应的概念本体,所述位置实体概念本体为地理实体的概念本体;
步骤2,对位置基础概念本体和位置实体概念本体进行分类,针对每一个位置实体概念本体建立对应的位置结构概念本体;所述位置结构概念本体为位置实体概念本体具体组成方式的句法模式表达;
步骤3,自动化映射位置结构概念本体生成规则类,每一条规则类对应一个位置实体概念本体,规则类具有继承性和贪婪性;继承性支持规则的多级扩展,顶层父类定义规则类的基本方法和属性,子类根据该类对应的位置实体概念本体定义相应的方法和属性;贪婪标性包括设置一组贪婪标注,分为自贪婪标注、组贪婪标注和优先级贪婪标注;
自贪婪标注是指在匹配过程中,若句子同时被多个规则匹配,则舍弃其中匹配字数较少的规则,取匹配字数最多的规则作为最终匹配结果;
组贪婪标注是指在匹配过程中,若句子同时被多个规则组匹配,则选取规则组中规则成员最齐全的规则组作为最终匹配结果;
优先级贪婪标注是指在匹配过程中,若句子中的部分内容同时被多个规则匹配,则取优先级最高的规则作为这部分内容的匹配结果;
步骤4,规则类实例化之后成为规则对象,将所有规则类实例化,最终生成规则集合;
步骤5,对规则集合进行分类,重新划分为若干个规则组,形成规则检索依赖图;所述规则检索依赖图是统计规则集合中每条规则包含的位置基础概念本体和对应的位置实体概念本体信息,以及规则之间的依赖关系,根据这些信息对规则集合进行分类,重新划分为若干个规则组,形成的图状数据结构;
步骤6,针对每个规则组,进一步建立概念本体和规则之间的倒排索引;
步骤7,进行位置描述图匹配,以任意自然语言文本位置描述语句作为输入,并利用语义位置模型知识库对自然语言文本位置描述语句进行位置基础概念本体实例或别名的提取工作;
步骤8,将原始的自然语言文本位置描述语句和步骤7所得位置基础概念本体实例作为输入,并利用规则匹配算法进行匹配,完成位置信息的结构化提取。
而且,所述的步骤8的规则匹配算法包括以下子步骤,
步骤8.1,初始化生成一张匹配图,将位置基础概念本体实例作为概念节点插入到相应的原子词节点中,原子词节点对应基础概念本体实例;
步骤8.2,对每一个位置概念基础本体实例,从规则检索依赖图中查找匹配规则组进行匹配;
步骤8.3,接下来进行规则生长,在规则组内部利用相应倒排索引提取可能匹配的规则集,用规则集中每条规则进行匹配,找到符合规则的路径,根据该路径将匹配到的位置实体概念本体实例作为概念节点插入到相应的原子词节点中;
步骤8.4,规则生长完成后进行规则压抑,包括进行位置实体概念本体实例相应概念节点的剪除,若该节点违反了规则定义的贪婪规则,则将该节点剪除,剪除完成后,匹配图生成完成;
步骤8.5,根据匹配图的边权值转换为节点权重进行分值计算,对各概念节点和原子词节点给出评分;
步骤8.6,对匹配图进行K最短路径搜索,完成后根据概念节点转换成为最终的匹配树,完成位置信息的结构化提取。
而且,步骤8.5中的分值计算,包括针对原子词节点,计两个原子词节点间的边权值为2,1个原子词节点和1个概念节点的边权值为0;对于概念节点,其权值为所对应的概念匹配分值T,表达如下,
T=a×Tvalid+b×Tnode+c×Tclass
其中,Tvalid是指概念节点的有效性评分,通过计算总字数与有效字数比值得出;Tnode是指概念节点的子节点数评分,为该概念节点的子节点数N的反比1/N;Tclass是指概念节点的概念类评分;a,b,c为预设的权值。
本发明还相应提供一种基于语义位置模型的位置信息结构化提取系统,包括以下模块:本体构建模块,用于基于语义位置模型构建位置基础概念本体、位置实体概念本体,并填充本体实例;所述位置基础概念本体为地理实体的基本组成部分对应的概念本体,所述位置实体概念本体为地理实体的概念本体;
分类构建模块,用于对位置基础概念本体和位置实体概念本体进行分类,针对每一个位置实体概念本体建立对应的位置结构概念本体;所述位置结构概念本体为位置实体概念本体具体组成方式的句法模式表达;
规则类模块,用于自动化映射位置结构概念本体生成规则类,每一条规则类对应一个位置实体概念本体,规则类具有继承性和贪婪性;继承性支持规则的多级扩展,顶层父类定义规则类的基本方法和属性,子类根据该类对应的位置实体概念本体定义相应的方法和属性;贪婪标性包括设置一组贪婪标注,分为自贪婪标注、组贪婪标注和优先级贪婪标注;
自贪婪标注是指在匹配过程中,若句子同时被多个规则匹配,则舍弃其中匹配字数较少的规则,取匹配字数最多的规则作为最终匹配结果;
组贪婪标注是指在匹配过程中,若句子同时被多个规则组匹配,则选取规则组中规则成员最齐全的规则组作为最终匹配结果;
优先级贪婪标注是指在匹配过程中,若句子中的部分内容同时被多个规则匹配,则取优先级最高的规则作为这部分内容的匹配结果;
规则集合生成模块,用于规则类实例化之后成为规则对象,将所有规则类实例化,最终生成规则集合;
规则集合分类模块,用于对规则集合进行分类,重新划分为若干个规则组,形成规则检索依赖图;所述规则检索依赖图是统计规则集合中每条规则包含的位置基础概念本体和对应的位置实体概念本体信息,以及规则之间的依赖关系,根据这些信息对规则集合进行分类,重新划分为若干个规则组,形成的图状数据结构;
倒排索引模块,用于针对每个规则组,进一步建立概念本体和规则之间的倒排索引;
位置描述图匹配模块,用于进行位置描述图匹配,以任意自然语言文本位置描述语句作为输入,并利用语义位置模型知识库对自然语言文本位置描述语句进行位置基础概念本体实例或别名的提取工作;
匹配模块,用于将原始的自然语言文本位置描述语句和位置描述图匹配模块所得位置基础概念本体实例作为输入,并利用规则匹配算法进行匹配,完成位置信息的结构化提取。
而且,所述的匹配模块包括以下子模块,
初始化子模块,用于初始化生成一张匹配图,将位置基础概念本体实例作为概念节点插入到相应的原子词节点中,原子词节点对应基础概念本体实例;
匹配规则组子模块,用于对每一个位置概念基础本体实例,从规则检索依赖图中查找匹配规则组进行匹配;
规则生长子模块,用于接下来进行规则生长,在规则组内部利用相应倒排索引提取可能匹配的规则集,用规则集中每条规则进行匹配,找到符合规则的路径,根据该路径将匹配到的位置实体概念本体实例作为概念节点插入到相应的原子词节点中;
规则压抑子模块,用于规则生长完成后进行规则压抑,包括进行位置实体概念本体实例相应概念节点的剪除,若该节点违反了规则定义的贪婪规则,则将该节点剪除,剪除完成后,匹配图生成完成;
分值计算子模块,用于根据匹配图的边权值转换为节点权重进行分值计算,对各概念节点和原子词节点给出评分;
匹配树生成子模块,用于对匹配图进行K最短路径搜索,完成后根据概念节点转换成为最终的匹配树,完成位置信息的结构化提取。
而且,分值计算子模块的分值计算,包括针对原子词节点,计两个原子词节点间的边权值为2,1个原子词节点和1个概念节点的边权值为0;对于概念节点,其权值为所对应的概念匹配分值T,表达如下,
T=a×Tvalid+b×Tnode+c×Tclass
其中,Tvalid是指概念节点的有效性评分,通过计算总字数与有效字数比值得出;Tnode是指概念节点的子节点数评分,为该概念节点的子节点数N的反比1/N;Tclass是指概念节点的概念类评分;a,b,c为预设的权值。
本发明首次将语义位置模型引入自然语言文本位置匹配技术中,灵活定义规则,按规则对应的位置实体概念和规则包含的位置基础概念进行分类,生成规则集,并指定规则集之间的相互依赖关系,形成规则依赖图,能有效提高规则匹配的效率和准确率。另外,本发明建立了生长-压抑规则图匹配框架,并提供新型对象级规则,与Java无缝集成,支持函数与层次子概念;提供基于规则依赖图的匹配算法,并集成“贪婪”策略,以知识抽取替代分词,大大加快了匹配速度。
附图说明
图1为本发明实施例的规则依赖示意图。
图2为本发明实施例的规则匹配示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。
1、为便于实施参考起见,首先介绍本发明的理论基础:
现有技术中的语义位置模型是对位置的语义表达,本发明实施例基于语义位置模型定义了位置概念本体,分为位置基础概念本体和位置实体概念本体,主要包括泛在信息提取所需的地名、地址和POI等,其中位置基础概念本体对应语义位置的原子组成词汇,不对应具体的空间实体或关系,而位置实体概念本体则具体对应了某个空间实体或关系。即所述位置基础概念本体为地理实体的基本组成部分对应的概念本体,所述位置实体概念本体为地理实体的概念本体。如“湖北省”本身对应了一个实体概念(ADMProvinceName),但其本身由两个基础概念本体的实例构成(分别为ADMProvince(省)和特征词概念FeaWord);再比如“长江通信产业集团武汉工贸分公司”本身对应了一个POI类型的实体概念(POI),但其本身又由多个基础概念本体和实体概念本体组成,“长江”是一个简单地名实例(SimpleGName),“通信产业集团”是一个业务名实例(BusinessName),“武汉工贸分公司”是一个信息辅助词实例(AdditionalWord)。
位置结构概念本体是对位置实体概念本体具体组成方式的句法模式表达,其代表了这个位置实体概念本体的组成规则,包含子对象的出现次序与次数、类型指定、连接方式与条件限定,位置结构概念本体类似一条对象化的规则,相较于正则表达式作用于字符串,其处于更为抽象的一个层次,可以更加灵活的表达多类对象的组成模式和限定关系。规则具有规则名、对应的概念名、概念连接符和条件函数名等属性。
具体而言,规则的组成主要由位置基础概念、位置实体概念、概念连接符和概念之间的限制条件构成,位置基础概念和位置实体概念组成规则的主体部分,如“武汉大学”、“长江”等;概念连接符用来表示上述位置概念之间的连接关系,紧密连接表示两个位置概念之间不能有其他字符,松连接则可以有其他字符;概念之间的限制条件表示位置概念之间的相互关系,如空间包含关系、空间相交关系和空间相离关系等。
此外,规则具有继承和贪婪特性,贪婪特性是本方法针对实际匹配效率与内存需求设计的一组贪婪(“Greedy”)标注,其主要作用是在后面的匹配过程中大幅减少匹配中间节点,提高匹配效率,共分为自贪婪标注、组贪婪标注和优先级贪婪标注。自贪婪标注即在匹配过程中,若句子同时被多个规则匹配,则舍弃其中匹配字数较少的规则,取匹配字数最多的规则作为最终匹配结果;组贪婪标注即在匹配过程中,若句子同时被多个规则组匹配,则选取规则组中规则成员最齐全的规则组作为最终匹配结果;优先级贪婪标注即在匹配过程中,若句子中的部分内容同时被多个规则匹配,则取优先级最高的规则作为这部分内容的匹配结果。
继承特性是规则类之间相互关系的体现,规则之间共同的属性和方法由规则顶层父类进行定义和实现,子类则根据自己特有的属性和方法在父类基础之上进行定义和实现即可。
具体实施时,本领域技术人员可自行预设类的定义和实现,建议规则顶层父类具体设计如下:
Class Rule
{
String ruleName;//规则名
String ConceptName;//对应的概念名
String ConnectorSymbol;//概念连接符
String whereFunName;//条件函数名
//贪婪相关信息
String greedyGroup;//自贪婪
boolean selfGreedy;//组贪婪
boolean forceGreedy;//优先级贪婪
List<String>priorRuleNames;//优先规则集
//
public String getRuleName(){}//获取规则名
public String getConceptName(){}//获取对应的概念名
public String getGreedyInfo(){}//获取贪婪属性
public String getConnectorSymbol(){}//获取连接符
}
规则检索依赖图中由若干规则组RG构成,每个规则组包含若干规则节点N,一个规则节点对应一个规则集合R,取RG中所有规则节点的规则集合并集Ru,将Ru中每条规则对应概念本体T取并集,得到集合Tu,而将组成每条规则的概念本体Tr集合取并集得到集合Tru。规则组之间存在单向的依赖关系,则指上层的规则组中的Tru与下层规则组中的Tu存在交集,且上层的规则组中的Tu与下层规则组中的Tru不存在交集。最底层规则组为所有基础概念本体组合而成。
规则匹配过程中将位置基础概念本体集合作为输入对象,利用规则编译生成的规则集和规则依赖图,按照规则匹配算法进行匹配、检索和生长-压抑,最终生成匹配图,并利用K最短路径计算得出匹配树以及匹配树对应的分数集,给出最终的匹配结果,成位置信息的结构化提取。
2、具体实施时,可采用计算机软件技术实现方法流程的自动运行,实施例所提供方法的实现流程包括以下步骤:
步骤1:基于语义位置模型构建位置基础概念本体、位置实体概念本体,并填充本体实例。具体实施时,可以由本领域技术人员或专家预先分析统计大量的自然语言文本位置描述语句,构建位置基础概念本体、位置实体概念本体,直接输入使用。
步骤2:对位置基础概念本体和位置实体概念本体进行分类,可分成地址、POI、道路、行政区、空间关系等各类与位置有关的对象的基本组成和层次关系,针对每一个位置实体概念本体建立对应的位置结构概念本体,位置结构概念本体代表了这个位置实体概念本体的组成规则(包含子对象的出现次序与次数、类型指定、连接方式与条件限定)。位置结构概念本体与步骤1中构建的基础概念本体、位置实体概念本体共同构成语义位置模型知识库。
步骤3:自动化映射位置结构概念本体生成Java规则类,每一条规则类对应一个位置实体概念本体,规则类支持继承和贪婪标注。具体实施时,若以后发现还有新的规则出现,则继续更新新的规则类。继承性支持规则的多级扩展,顶层父类定义规则类的基本方法和属性,子类根据该类对应的位置实体概念本体定义相应的方法和属性;贪婪标注是本方法针对实际匹配效率与内存需求设计的一组贪婪(“Greedy”)标注,其主要作用是在后面的匹配过程中大幅减少匹配中间节点,提高匹配效率。
步骤4:规则类实例化之后成为规则对象Rule,将所有规则类实例化,最终生成规则对象Rule集合。实施例中,每个Rule对象对应一个位置实体概念本体T,并由一系列规则条目RuleItem组成,记录了其引用的位置基础概念本体Tr、条件函数、重复次数、与后续条目连接形式;Rule对象也具有贪婪属性,贪婪属性是本方法针对实际匹配效率与内存需求设计的一组贪婪(“Greedy”)标注,其主要作用是在后面的匹配过程中大幅减少匹配中间节点,提高匹配效率,共分为自贪婪标注、组贪婪标注和优先级贪婪标注。
步骤5:对规则集合进行分类,重新划分为若干个规则组,形成规则检索依赖图,实现规则组初始化。所述规则检索依赖图是统计规则集合中每条规则包含的位置基础概念本体和对应的位置实体概念本体信息,以及规则之间的依赖关系,根据这些信息对规则集合进行分类,重新划分为若干个规则组,形成的图状数据结构。
实施例中,步骤4实例化生成规则对象Rules集合结束后,统计规则集合中每条规则包含的位置基础概念本体Tr和对应的位置实体概念本体T信息,以及规则之间的依赖关系,根据这些信息对规则集合进行分类,重新划分为若干个规则组,形成规则检索依赖图。规则检索依赖图G中由若干规则组RG构成,每个规则组包含若干规则节点N,一个规则节点对应一个规则集合R,取RG中所有规则节点的规则集合并集Ru,将Ru中每条规则对应概念本体T取并集,得到集合Tu,而将组成每条规则的概念本体Tr集合取并集得到集合Tru。规则组之间存在单向的依赖关系,则指上层的规则组中的Tru与下层规则组中的Tu存在交集,且上层的规则组中的Tu与下层规则组中的Tru不存在交集。最底层规则组为所有基础概念本体组合而成。
参见图1,其中:
RG表示规则组,有三个规则组,分别记为RG1、RG2、RG3;
N表示规则节点,一个规则节点对应一个规则集合R;
Tu表示将规则节点中所有规则对应的位置实体概念本体T取并集得到的集合;
Tru表示将规则节点中所有规则对应的位置基础概念本体Tr取并集得到的集合。
步骤6:在规则组初始化完成后,针对每个规则组,进一步建立概念本体和规则之间的倒排索引,这样在进行匹配查询时可以快速得到某个规则组内对应某个位置实体概念本体潜在需要匹配的规则集合;
步骤7:至此,语义位置模型知识库和规则匹配算法初始化完毕,接下来进行位置描述图匹配,以任意自然语言文本位置描述语句作为输入,并利用已经构建好的语义位置模型知识库对自然语言文本位置描述语句进行位置基础概念本体实例的提取工作;
步骤8:将原始的自然语言文本位置描述语句和步骤7所得位置基础概念本体实例作为输入,并利用规则匹配算法进行匹配,得到最终的匹配树集合,并给出所有匹配树对应的匹配分值,完成位置信息的结构化提取。
所述的步骤8的规则匹配算法包括以下子步骤:
步骤8.1:初始化生成一张匹配图,将位置基础概念本体实例作为概念节点插入到相应的原子词节点中,所述原子词节点对应基础概念本体实例,每个字符对应一个原子词节点。初始化生成一张匹配图时,即初始化空的匹配图,只包含开始节点和终止节点。
实施例中,匹配图中有两种节点:S节点和C节点。其中,S节点为原子词节点,即每个字符(中文或英文)对应一个S节点,而C节点代表概念节点,由两部分形成:一部分为位置基础概念本体实例,另一部分为规则匹配得出的位置实体概念本体实例。S节点起到连接C节点的作用。
参见图2,其中:
两端的菱形代表起始节点(开始节点和终止节点),表示匹配流程开始和结束;
S节点为原子词节点,即每个字符(中文或英文)对应一个S节点,如“武”即是一个S节点;
C节点代表概念节点,由两部分形成:一部分为位置基础概念本体实例,另一部分为规则匹配得出的位置实体概念本体实例。C节点由S节点连接形成;例如S节点“武”和“汉”构成一个C节点。
步骤8.2:对每一个位置基础概念本体实例,从规则检索依赖图中查找相应的匹配规则组进行匹配。
步骤8.3:接下来进行规则生长,在规则组内部利用组规则倒排索引提取可能匹配的规则集,用规则集中每条规则进行匹配,找到符合规则的路径,根据该路径将匹配到的位置实体概念本体实例作为概念节点插入到相应的原子词节点中。
步骤8.4:规则生长完成后进行规则压抑,即进行位置实体概念本体实例相应概念节点的剪除,若该节点违反了规则定义的贪婪规则,则将该节点剪除,剪除完成后,匹配图生成完成。
步骤8.5:根据匹配图的边权值转换为节点权重进行分值计算,对概念节点和原子词节点给出评分。本发明技术人员可自行设定评分规则,实施例针对S节点,计两个S节点间的边权值为2,1个S节点和1个C节点的边权值为0;对于C节点,其权值为所对应的概念匹配分值T,可表达为:
T=a×Tvalid+b×Tnode+c×Tclass
其中,Tvalid是指节点的有效性评分,通过计算总字数与有效字数比值得出。Tnode是指节点的子节点数评分,为该节点的子节点数N的反比1/N。Tclass是指节点的概念类评分,节点的概念类评分可根据经验预先给定。a,b,c为各部分权值,可由本领域技术人员根据数据特点进行经验设置。
步骤8.6:最后,对匹配图进行K最短路径搜索,完成后根据概念节点转换成为最终的匹配树,完成位置信息的结构化提取。
3、本发明还相应提供一种基于语义位置模型的位置信息结构化提取系统,包括以下模块:本体构建模块,用于基于语义位置模型构建位置基础概念本体、位置实体概念本体,并填充本体实例;所述位置基础概念本体为地理实体的基本组成部分对应的概念本体,所述位置实体概念本体为地理实体的概念本体;
分类构建模块,用于对位置基础概念本体和位置实体概念本体进行分类,针对每一个位置实体概念本体建立对应的位置结构概念本体;所述位置结构概念本体为位置实体概念本体具体组成方式的句法模式表达;
规则类模块,用于自动化映射位置结构概念本体生成规则类,每一条规则类对应一个位置实体概念本体,规则类具有继承性和贪婪性;继承性支持规则的多级扩展,顶层父类定义规则类的基本方法和属性,子类根据该类对应的位置实体概念本体定义相应的方法和属性;贪婪标性包括设置一组贪婪标注,分为自贪婪标注、组贪婪标注和优先级贪婪标注;
自贪婪标注是指在匹配过程中,若句子同时被多个规则匹配,则舍弃其中匹配字数较少的规则,取匹配字数最多的规则作为最终匹配结果;
组贪婪标注是指在匹配过程中,若句子同时被多个规则组匹配,则选取规则组中规则成员最齐全的规则组作为最终匹配结果;
优先级贪婪标注是指在匹配过程中,若句子中的部分内容同时被多个规则匹配,则取优先级最高的规则作为这部分内容的匹配结果;
规则集合生成模块,用于规则类实例化之后成为规则对象,将所有规则类实例化,最终生成规则集合;
规则集合分类模块,用于对规则集合进行分类,重新划分为若干个规则组,形成规则检索依赖图;所述规则检索依赖图是统计规则集合中每条规则包含的位置基础概念本体和对应的位置实体概念本体信息,以及规则之间的依赖关系,根据这些信息对规则集合进行分类,重新划分为若干个规则组,形成的图状数据结构;
倒排索引模块,用于针对每个规则组,进一步建立概念本体和规则之间的倒排索引;
位置描述图匹配模块,用于进行位置描述图匹配,以任意自然语言文本位置描述语句作为输入,并利用语义位置模型知识库对自然语言文本位置描述语句进行位置基础概念本体实例或别名的提取工作;
匹配模块,用于将原始的自然语言文本位置描述语句和位置描述图匹配模块所得位置基础概念本体实例作为输入,并利用规则匹配算法进行匹配,完成位置信息的结构化提取。
匹配模块包括以下子模块,
初始化子模块,用于初始化生成一张匹配图,将位置基础概念本体实例作为概念节点插入到相应的原子词节点中,原子词节点对应基础概念本体实例;
匹配规则组子模块,用于对每一个位置概念基础本体实例,从规则检索依赖图中查找匹配规则组进行匹配;
规则生长子模块,用于接下来进行规则生长,在规则组内部利用相应倒排索引提取可能匹配的规则集,用规则集中每条规则进行匹配,找到符合规则的路径,根据该路径将匹配到的位置实体概念本体实例作为概念节点插入到相应的原子词节点中;
规则压抑子模块,用于规则生长完成后进行规则压抑,包括进行位置实体概念本体实例相应概念节点的剪除,若该节点违反了规则定义的贪婪规则,则将该节点剪除,剪除完成后,匹配图生成完成;
分值计算子模块,用于根据匹配图的边权值转换为节点权重进行分值计算,对各概念节点和原子词节点给出评分;
匹配树生成子模块,用于对匹配图进行K最短路径搜索,完成后根据概念节点转换成为最终的匹配树,完成位置信息的结构化提取。
各模块具体实现与方法步骤相应,本发明不予赘述。
本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。
Claims (6)
1.一种基于语义位置模型的位置信息结构化提取方法,其特征在于,包括以下步骤:
步骤1,基于语义位置模型构建位置基础概念本体、位置实体概念本体,并填充本体实例;所述位置基础概念本体为地理实体的基本组成部分对应的概念本体,所述位置实体概念本体为地理实体的概念本体;
步骤2,对位置基础概念本体和位置实体概念本体进行分类,针对每一个位置实体概念本体建立对应的位置结构概念本体;所述位置结构概念本体为位置实体概念本体具体组成方式的句法模式表达;
步骤3,自动化映射位置结构概念本体生成规则类,每一条规则类对应一个位置实体概念本体,规则类具有继承性和贪婪性;继承性支持规则的多级扩展,顶层父类定义规则类的基本方法和属性,子类根据该类对应的位置实体概念本体定义相应的方法和属性;贪婪标性包括设置一组贪婪标注,分为自贪婪标注、组贪婪标注和优先级贪婪标注;
自贪婪标注是指在匹配过程中,若句子同时被多个规则匹配,则舍弃其中匹配字数较少的规则,取匹配字数最多的规则作为最终匹配结果;
组贪婪标注是指在匹配过程中,若句子同时被多个规则组匹配,则选取规则组中规则成员最齐全的规则组作为最终匹配结果;
优先级贪婪标注是指在匹配过程中,若句子中的部分内容同时被多个规则匹配,则取优先级最高的规则作为这部分内容的匹配结果;
步骤4,规则类实例化之后成为规则对象,将所有规则类实例化,最终生成规则集合;
步骤5,对规则集合进行分类,重新划分为若干个规则组,形成规则检索依赖图;所述规则检索依赖图是统计规则集合中每条规则包含的位置基础概念本体和对应的位置实体概念本体信息,以及规则之间的依赖关系,根据这些信息对规则集合进行分类,重新划分为若干个规则组,形成的图状数据结构;
步骤6,针对每个规则组,进一步建立概念本体和规则之间的倒排索引;
步骤7,进行位置描述图匹配,以任意自然语言文本位置描述语句作为输入,并利用语义位置模型知识库对自然语言文本位置描述语句进行位置基础概念本体实例或别名的提取工作;步骤8,将原始的自然语言文本位置描述语句和步骤7所得位置基础概念本体实例作为输入,并利用规则匹配算法进行匹配,完成位置信息的结构化提取。
2.根据权利要求1所述基于语义位置模型的位置信息结构化提取方法,其特征在于:所述的步骤8的规则匹配算法包括以下子步骤,
步骤8.1,初始化生成一张匹配图,将位置基础概念本体实例作为概念节点插入到相应的原子词节点中,原子词节点对应基础概念本体实例;
步骤8.2,对每一个位置概念基础本体实例,从规则检索依赖图中查找匹配规则组进行匹配;步骤8.3,接下来进行规则生长,在规则组内部利用相应倒排索引提取可能匹配的规则集,用规则集中每条规则进行匹配,找到符合规则的路径,根据该路径将匹配到的位置实体概念本体实例作为概念节点插入到相应的原子词节点中;
步骤8.4,规则生长完成后进行规则压抑,包括进行位置实体概念本体实例相应概念节点的剪除,若该节点违反了规则定义的贪婪规则,则将该节点剪除,剪除完成后,匹配图生成完成;步骤8.5,根据匹配图的边权值转换为节点权重进行分值计算,对各概念节点和原子词节点给出评分;
步骤8.6,对匹配图进行K最短路径搜索,完成后根据概念节点转换成为最终的匹配树,完成位置信息的结构化提取。
3.根据权利要求2所述基于语义位置模型的位置信息结构化提取方法,其特征在于:步骤8.5中的分值计算,包括针对原子词节点,计两个原子词节点间的边权值为2,1个原子词节点和1个概念节点的边权值为0;对于概念节点,其权值为所对应的概念匹配分值T,表达如下,
T=a×Tvalid+b×Tnode+c×Tclass
其中,Tvalid是指概念节点的有效性评分,通过计算总字数与有效字数比值得出;Tnode是指概念节点的子节点数评分,为该概念节点的子节点数N的反比1/N;Tclass是指概念节点的概念类评分;a,b,c为预设的权值。
4.一种基于语义位置模型的位置信息结构化提取系统,其特征在于,包括以下模块:
本体构建模块,用于基于语义位置模型构建位置基础概念本体、位置实体概念本体,并填充本体实例;所述位置基础概念本体为地理实体的基本组成部分对应的概念本体,所述位置实体概念本体为地理实体的概念本体;
分类构建模块,用于对位置基础概念本体和位置实体概念本体进行分类,针对每一个位置实体概念本体建立对应的位置结构概念本体;所述位置结构概念本体为位置实体概念本体具体组成方式的句法模式表达;
规则类模块,用于自动化映射位置结构概念本体生成规则类,每一条规则类对应一个位置实体概念本体,规则类具有继承性和贪婪性;继承性支持规则的多级扩展,顶层父类定义规则类的基本方法和属性,子类根据该类对应的位置实体概念本体定义相应的方法和属性;贪婪标性包括设置一组贪婪标注,分为自贪婪标注、组贪婪标注和优先级贪婪标注;
自贪婪标注是指在匹配过程中,若句子同时被多个规则匹配,则舍弃其中匹配字数较少的规则,取匹配字数最多的规则作为最终匹配结果;
组贪婪标注是指在匹配过程中,若句子同时被多个规则组匹配,则选取规则组中规则成员最齐全的规则组作为最终匹配结果;
优先级贪婪标注是指在匹配过程中,若句子中的部分内容同时被多个规则匹配,则取优先级最高的规则作为这部分内容的匹配结果;
规则集合生成模块,用于规则类实例化之后成为规则对象,将所有规则类实例化,最终生成规则集合;
规则集合分类模块,用于对规则集合进行分类,重新划分为若干个规则组,形成规则检索依赖图;所述规则检索依赖图是统计规则集合中每条规则包含的位置基础概念本体和对应的位置实体概念本体信息,以及规则之间的依赖关系,根据这些信息对规则集合进行分类,重新划分为若干个规则组,形成的图状数据结构;
倒排索引模块,用于针对每个规则组,进一步建立概念本体和规则之间的倒排索引;
位置描述图匹配模块,用于进行位置描述图匹配,以任意自然语言文本位置描述语句作为输入,并利用语义位置模型知识库对自然语言文本位置描述语句进行位置基础概念本体实例或别名的提取工作;
匹配模块,用于将原始的自然语言文本位置描述语句和位置描述图匹配模块所得位置基础概念本体实例作为输入,并利用规则匹配算法进行匹配,完成位置信息的结构化提取。
5.根据权利要求4所述基于语义位置模型的位置信息结构化提取系统,其特征在于:所述的匹配模块包括以下子模块,
初始化子模块,用于初始化生成一张匹配图,将位置基础概念本体实例作为概念节点插入到相应的原子词节点中,原子词节点对应基础概念本体实例;
匹配规则组子模块,用于对每一个位置概念基础本体实例,从规则检索依赖图中查找匹配规则组进行匹配;
规则生长子模块,用于接下来进行规则生长,在规则组内部利用相应倒排索引提取可能匹配的规则集,用规则集中每条规则进行匹配,找到符合规则的路径,根据该路径将匹配到的位置实体概念本体实例作为概念节点插入到相应的原子词节点中;
规则压抑子模块,用于规则生长完成后进行规则压抑,包括进行位置实体概念本体实例相应概念节点的剪除,若该节点违反了规则定义的贪婪规则,则将该节点剪除,剪除完成后,匹配图生成完成;
分值计算子模块,用于根据匹配图的边权值转换为节点权重进行分值计算,对各概念节点和原子词节点给出评分;
匹配树生成子模块,用于对匹配图进行K最短路径搜索,完成后根据概念节点转换成为最终的匹配树,完成位置信息的结构化提取。
6.根据权利要求4所述基于语义位置模型的位置信息结构化提取系统,其特征在于:分值计算子模块的分值计算,包括针对原子词节点,计两个原子词节点间的边权值为2,1个原子词节点和1个概念节点的边权值为0;对于概念节点,其权值为所对应的概念匹配分值T,表达如下,
T=a×Tvalid+b×Tnode+c×Tclass
其中,Tvalid是指概念节点的有效性评分,通过计算总字数与有效字数比值得出;Tnode是指概念节点的子节点数评分,为该概念节点的子节点数N的反比1/N;Tclass是指概念节点的概念类评分;a,b,c为预设的权值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410768372.9A CN104462063B (zh) | 2014-12-12 | 2014-12-12 | 基于语义位置模型的位置信息结构化提取方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410768372.9A CN104462063B (zh) | 2014-12-12 | 2014-12-12 | 基于语义位置模型的位置信息结构化提取方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104462063A true CN104462063A (zh) | 2015-03-25 |
CN104462063B CN104462063B (zh) | 2016-08-17 |
Family
ID=52908133
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410768372.9A Expired - Fee Related CN104462063B (zh) | 2014-12-12 | 2014-12-12 | 基于语义位置模型的位置信息结构化提取方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104462063B (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107391574A (zh) * | 2017-06-19 | 2017-11-24 | 福建工程学院 | 一种基于本体和群智能算法的中文歧义切分方法 |
CN108241678A (zh) * | 2016-12-26 | 2018-07-03 | 北京搜狗信息服务有限公司 | 兴趣点数据的挖掘方法和装置 |
CN108984527A (zh) * | 2018-07-10 | 2018-12-11 | 广州极天信息技术股份有限公司 | 一种基于概念的语义识别方法及装置 |
CN111914534A (zh) * | 2020-07-30 | 2020-11-10 | 上海数策软件股份有限公司 | 构建知识图谱语义映射方法及系统 |
CN112507083A (zh) * | 2020-12-16 | 2021-03-16 | 中国南方电网有限责任公司 | 一种基于调度防误领域语言的防误规则库构建方法 |
CN113077353A (zh) * | 2021-04-22 | 2021-07-06 | 北京十一贝科技有限公司 | 用于生成核保结论的方法、装置、电子设备和介质 |
CN113190655A (zh) * | 2021-05-10 | 2021-07-30 | 南京大学 | 一种基于语义依赖的空间关系抽取方法及装置 |
CN113282689A (zh) * | 2021-07-22 | 2021-08-20 | 药渡经纬信息科技(北京)有限公司 | 基于领域知识图谱的检索方法、装置和搜索引擎 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08221427A (ja) * | 1995-02-15 | 1996-08-30 | Nippon Telegr & Teleph Corp <Ntt> | シソーラス登録支援装置及びシソーラス登録支援方法 |
CN101251841A (zh) * | 2007-05-17 | 2008-08-27 | 华东师范大学 | 基于语义的Web文档的特征矩阵的建立和检索方法 |
CN102207945A (zh) * | 2010-05-11 | 2011-10-05 | 天津海量信息技术有限公司 | 基于知识网络的文本标引系统及其方法 |
CN103309992A (zh) * | 2013-06-20 | 2013-09-18 | 武汉大学 | 一种面向自然语言的位置信息提取方法 |
CN103514234A (zh) * | 2012-06-30 | 2014-01-15 | 北京百度网讯科技有限公司 | 一种页面信息提取方法和装置 |
CN103927358A (zh) * | 2014-04-15 | 2014-07-16 | 清华大学 | 文本检索方法及系统 |
-
2014
- 2014-12-12 CN CN201410768372.9A patent/CN104462063B/zh not_active Expired - Fee Related
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08221427A (ja) * | 1995-02-15 | 1996-08-30 | Nippon Telegr & Teleph Corp <Ntt> | シソーラス登録支援装置及びシソーラス登録支援方法 |
CN101251841A (zh) * | 2007-05-17 | 2008-08-27 | 华东师范大学 | 基于语义的Web文档的特征矩阵的建立和检索方法 |
CN102207945A (zh) * | 2010-05-11 | 2011-10-05 | 天津海量信息技术有限公司 | 基于知识网络的文本标引系统及其方法 |
CN103514234A (zh) * | 2012-06-30 | 2014-01-15 | 北京百度网讯科技有限公司 | 一种页面信息提取方法和装置 |
CN103309992A (zh) * | 2013-06-20 | 2013-09-18 | 武汉大学 | 一种面向自然语言的位置信息提取方法 |
CN103927358A (zh) * | 2014-04-15 | 2014-07-16 | 清华大学 | 文本检索方法及系统 |
Non-Patent Citations (1)
Title |
---|
姜景锋: "基于本体的关系模型数据语义提取方法研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 * |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108241678B (zh) * | 2016-12-26 | 2021-10-15 | 北京搜狗信息服务有限公司 | 兴趣点数据的挖掘方法和装置 |
CN108241678A (zh) * | 2016-12-26 | 2018-07-03 | 北京搜狗信息服务有限公司 | 兴趣点数据的挖掘方法和装置 |
CN107391574B (zh) * | 2017-06-19 | 2020-10-16 | 福建工程学院 | 一种基于本体和群智能算法的中文歧义切分方法 |
CN107391574A (zh) * | 2017-06-19 | 2017-11-24 | 福建工程学院 | 一种基于本体和群智能算法的中文歧义切分方法 |
CN108984527A (zh) * | 2018-07-10 | 2018-12-11 | 广州极天信息技术股份有限公司 | 一种基于概念的语义识别方法及装置 |
CN111914534A (zh) * | 2020-07-30 | 2020-11-10 | 上海数策软件股份有限公司 | 构建知识图谱语义映射方法及系统 |
CN111914534B (zh) * | 2020-07-30 | 2024-02-13 | 上海数策软件股份有限公司 | 构建知识图谱语义映射方法及系统 |
CN112507083A (zh) * | 2020-12-16 | 2021-03-16 | 中国南方电网有限责任公司 | 一种基于调度防误领域语言的防误规则库构建方法 |
CN112507083B (zh) * | 2020-12-16 | 2022-07-01 | 中国南方电网有限责任公司 | 一种基于调度防误领域语言的防误规则库构建方法 |
CN113077353A (zh) * | 2021-04-22 | 2021-07-06 | 北京十一贝科技有限公司 | 用于生成核保结论的方法、装置、电子设备和介质 |
CN113077353B (zh) * | 2021-04-22 | 2024-02-02 | 北京十一贝科技有限公司 | 用于生成核保结论的方法、装置、电子设备和介质 |
CN113190655A (zh) * | 2021-05-10 | 2021-07-30 | 南京大学 | 一种基于语义依赖的空间关系抽取方法及装置 |
CN113190655B (zh) * | 2021-05-10 | 2023-08-11 | 南京大学 | 一种基于语义依赖的空间关系抽取方法及装置 |
CN113282689A (zh) * | 2021-07-22 | 2021-08-20 | 药渡经纬信息科技(北京)有限公司 | 基于领域知识图谱的检索方法、装置和搜索引擎 |
Also Published As
Publication number | Publication date |
---|---|
CN104462063B (zh) | 2016-08-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104462063A (zh) | 基于语义位置模型的位置信息结构化提取方法及系统 | |
CN109492077B (zh) | 基于知识图谱的石化领域问答方法及系统 | |
CN104854583B (zh) | 搜索结果排名和呈现 | |
CN101630314B (zh) | 一种基于领域知识的语义查询扩展方法 | |
CN106055675B (zh) | 一种基于卷积神经网络和距离监督的关系抽取方法 | |
CN1661593B (zh) | 一种计算机语言翻译方法及其翻译系统 | |
CN114996488B (zh) | 一种天网大数据决策级融合方法 | |
CN110674252A (zh) | 一种面向司法领域的高精度语义搜索系统 | |
CN111190900B (zh) | 一种云计算模式下json数据可视化优化方法 | |
CN104866593A (zh) | 一种基于知识图谱的数据库搜索方法 | |
CN109902302B (zh) | 一种适用于文本分析或数据挖掘的主题图谱生成方法、装置、设备以及计算机存储介质 | |
CN103646032A (zh) | 一种基于本体和受限自然语言处理的数据库查询方法 | |
CN110795526B (zh) | 一种用于检索系统的数学公式索引创建方法与系统 | |
CN104462227A (zh) | 一种图形化知识谱系自动构建方法 | |
CN106446162A (zh) | 一种面向领域的本体知识库文本检索方法 | |
CN112417100A (zh) | 辽代历史文化领域知识图谱及其智能问答系统的构建方法 | |
CN107316062A (zh) | 一种改进的面向领域的命名实体消歧方法 | |
CN109522396B (zh) | 一种面向国防科技领域的知识处理方法及系统 | |
CN111639165A (zh) | 基于自然语言处理和深度学习的智能问答优化方法 | |
CN107679124B (zh) | 一种基于动态规划算法的知识图谱中文问答检索方法 | |
CN111191084B (zh) | 一种基于图结构的地名地址的解析方法 | |
CN105447104A (zh) | 一种知识地图生成方法及装置 | |
CN117272073B (zh) | 文本单位语义距离预计算方法及装置、查询方法及装置 | |
CN101916260A (zh) | 一种灾害本体和关系数据库间语义映射构建的方法 | |
CN111737482B (zh) | 一种适用于数据挖掘的全景可视化图谱生成方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20160817 |
|
CF01 | Termination of patent right due to non-payment of annual fee |