CN113190655A - 一种基于语义依赖的空间关系抽取方法及装置 - Google Patents

一种基于语义依赖的空间关系抽取方法及装置 Download PDF

Info

Publication number
CN113190655A
CN113190655A CN202110506597.7A CN202110506597A CN113190655A CN 113190655 A CN113190655 A CN 113190655A CN 202110506597 A CN202110506597 A CN 202110506597A CN 113190655 A CN113190655 A CN 113190655A
Authority
CN
China
Prior art keywords
semantic
spatial relationship
spatial
role
dependency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110506597.7A
Other languages
English (en)
Other versions
CN113190655B (zh
Inventor
于辛
丁文韬
瞿裕忠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University
Original Assignee
Nanjing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University filed Critical Nanjing University
Priority to CN202110506597.7A priority Critical patent/CN113190655B/zh
Publication of CN113190655A publication Critical patent/CN113190655A/zh
Application granted granted Critical
Publication of CN113190655B publication Critical patent/CN113190655B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Machine Translation (AREA)

Abstract

一种基于语义依赖的空间关系抽取方法及装置,构建语义依赖识别模型,从非结构化文本中抽取出空间关系元组,首先定义语义依赖类型,分别为包含触发词角色类型和不包含触发词角色类型;然后将待识别文本及预标注的空间元素输入基于深度自注意力网络的语义依赖识别模型,结合定义的语义依赖类型,得到空间元素间的所有语义依赖识别结果;最后将得到的语义依赖识别结果进行组合,输出完整的空间关系元组。本发明将空间关系抽取问题转化为语义依赖识别问题,可同时处理多种空间关系,包括包含触发词和不含触发词的空间关系;本发明可以有效表示文本中的空间语义信息,抽取出空间元素间的语义依赖,无须人工设计特征,泛化性能强,准确率高。

Description

一种基于语义依赖的空间关系抽取方法及装置
技术领域
本发明属于自然语言处理技术领域,涉及信息抽取技术,为一种基于语义依赖的空间关系抽取方法及装置。
背景技术
随着互联网信息产业的快速发展以及网络大数据时代的到来,网络数据增长迅速,人们期望能快速、高效地从海量数据中挖掘抽取出有用的信息。
文本中蕴含了丰富的空间信息。空间信息的含义比较广泛,一般反映了客观对象的空间分布特征的信息,例如自身的位置、空间结构以及与其他对象在空间分布上的关联。理解自然语言中的空间信息可以为不同领域的应用系统提供底层支撑,例如:对于问答系统,可以用于空间相关问题求解;对于知识图谱领域,从文本中抽取空间信息可用于补充知识图谱空间相关数据;对于地理信息系统,从文本中获取高质量的空间信息可以帮助扩充地理数据库。
目前在空间关系抽取领域目前已经开展了很多工作,德克萨斯大学人类语言技术研究所的研究人员提出一种基于sieve的抽取方法,其将空间关系分解为多个子关系,利用结合了句法树特征的一系列支持向量机分类器对子关系进行分类,但是训练分类器需要人工设计特征,效率低且可拓展性差;里斯本大学的研究人员尝试使用基于卷积神经网络的序列标注模型,对于给定文本首先识别出触发词,也称为空间关系词,然后将触发词和文本作为输入抽取出空间关系的其他角色,该方法存在的主要问题是无法处理不含触发词的空间关系,即隐式的空间关系;专利申请《一种水利空间关系词识别与提取的方法》(公开号CN110532553A),提出了一种基于弱监督的水利领域的空间关系词识别方法,通过种子集合挖掘空间关系模式,进而抽取出空间关系元组,该方法在处理过程中需要设计大量的词法语法规则和特征;专利申请《提取地理位置点空间关系的方法、训练提取模型的方法及装置》(公开号CN111737383A),提出了一种提取地理位置点空间关系的方法,建模为序列标注问题,对于给定地点,输出其空间位置信息,该方法也无法处理不含触发词的关系。
发明内容
针对现有方法的不足,本发明的目的是提供一种面向文本的无需人工设计特征、准确率高、通用性好、适用于多种空间关系的基于语义依赖的空间关系抽取方法,从非结构化的文本数据中抽取结构化的空间关系元组。
本发明的技术方案为:一种基于语义依赖的空间关系抽取方法,构建语义依赖识别模型,从非结构化文本中抽取出空间关系元组,包括以下步骤:
步骤1:定义语义依赖类型,分别为包含触发词角色类型和不包含触发词角色类型;
步骤2:构建基于深度自注意力网络的语义依赖识别模型,包括标签嵌入层、词嵌入层、编码层和解码层;将待识别文本及预标注的空间元素输入训练好的语义依赖识别模型,结合定义的语义依赖类型,得到空间元素间的所有语义依赖识别结果:
2.1)将待识别文本输入词嵌入层得到词向量;
2.2)将空间元素采用BIO标注方法进行标注,输入标签嵌入层,得到空间元素标签向量;
2.3)将2.1)得到的词向量和2.2)得到的空间元素标签向量进行拼接作为编码层的输入向量;
2.4)将2.3)得到的输入向量输入基于元素感知自注意力的编码层得到特征表示向量;
2.5)将2.4)输出的特征表示向量输入解码层得到空间元素间的语义依赖输出;
步骤3:将步骤2得到的语义依赖识别结果进行组合,输出完整的空间关系元组。
进一步的,步骤1具体为:根据空间关系元组是否包含触发词角色定义两种语义依赖类型:
1.1)包含触发词角色类型:对于除触发词角色之外的每个角色成员,定义一条语义依赖,即二元有向关系,从触发词指向该角色,语义依赖的类型由关系类型和该角色的类型共同决定,其中触发词角色称为语义依赖的头元素,其他角色元素称为语义依赖的尾元素;
1.2)不包含触发词角色类型:空间关系元组只有方位关系和拓扑关系,不含触发词角色,对于这种情况,直接从射体角色连一条语义依赖至界标角色,语义依赖类型由关系类型决定,其中射体角色称为该语义依赖的头元素,界标角色称为该语义依赖的尾元素。
进一步的,步骤3的语义依赖识别结果进行组合具体为:
3.1)将所有的语义依赖按照其对应的空间关系进行分组;
3.2)对于每个空间关系组内,根据头元素是否为触发词分别处理;
3.3)如果头元素为触发词,则将所有头元素相同的语义依赖组合为完整的空间关系元组,其中头元素作为空间关系的触发词角色,其他尾元素作为空间关系的其余角色,角色类型由依赖关系对应的角色类型决定;
3.4)如果头元素不是触发词,则直接将该依赖关系组合为空间关系元组,将该依赖关系的头元素作为射体角色,尾元素作为界标角色。
本发明还提出一种基于语义依赖的空间关系抽取装置,所述装置配置有计算机程序实现语义依赖识别模型,所述语义依赖识别模型被执行时实现上述的空间关系抽取方法。
本发明与现有技术相比,其优点在于:(1)提出了一种通用的语义依赖表示方法,将空间关系抽取问题转化为语义依赖识别问题,首先识别出文本中的空间元素间的语义依赖,进而组合得到空间关系元组,可同时处理多种空间关系,包括包含触发词和不含触发词的空间关系;(2)提出了一种基于深度自注意力神经网络的语义依赖识别模型,可以有效表示文本中的空间语义信息,抽取出空间元素间的语义依赖,无须人工设计特征,泛化性能强,准确率高。
附图说明
图1是本发明的基于语义依赖的空间关系抽取方法的整体处理流程图。
图2是本发明的基于深度自注意力神经网络的语义依赖识别模型示意图。
具体实施方式
下面结合附图及具体实施例对本发明作进一步详细说明。
如图1所示,本发明提出一种基于语义依赖识别的空间关系抽取方法,从非结构化文本中抽取出空间关系元组,包括如下步骤:
步骤1:根据空间关系元组定义语义依赖类型。
步骤2:构建基于深度自注意力网络的语义依赖识别模型,并先在训练数据集上训练。将待识别文本和预标注的空间元素输入训练好的基于深度自注意力网络的语义依赖识别模型,得到空间元素间的所有语义依赖。
步骤3:将步骤2得到的语义依赖输出组合为完整的空间关系元组。
本发明适用的空间信息标注规范如下:
1)空间元素:指文本中的空间语义单元,包括:地点、空间实体、空间信号、运动事件、度量值等。
2)空间关系:指空间元素间的空间语义关联,包括拓扑关系、方位关系、距离关系、运动关系等:
a)拓扑关系、方位关系有3个角色成员,包括触发词、射体、界标,其中触发词对应的空间元素类型为空间信号。
b)距离关系有3个角色成员,包括触发词、射体和界标,其中触发词对应的空间元素类型为度量值。
c)运动关系有8个角色,包括触发词、运动对象、起点、终点、途径地、路径、界标、运动信号,其中触发词对应的空间元素类型为运动事件。
下面对各个步骤的实施进行具体说明。
步骤1所述的“根据空间关系元组定义语义依赖类型”,具体来说,根据空间关系元组是否包含触发词角色分别处理:
1.1)包含触发词角色:对于除触发词角色之外的每个角色成员,定义一条语义依赖,即二元有向关系,从触发词指向该角色,语义依赖的类型由关系类型和该角色的类型共同决定,其中触发词角色称为语义依赖的头元素,其他角色元素称为语义依赖的尾元素。例如,对于空间关系元组“<方位关系,触发词=a,射体=b,界标=c>”,可将其转换为以下语义依赖:方位-射体(a,b)、方位-界标(a,c),其中a为头元素,b和c为尾元素。
1.2)不包含触发词角色:只有方位关系和拓扑关系可能出现不含触发词角色的情况,对于这种情况,直接从射体角色连一条语义依赖至界标角色,语义依赖类型由关系类型决定。其中射体角色称为该语义依赖的头元素,界标角色称为该语义依赖的尾元素。例如,对于空间关系元组“<拓扑关系,射体=a,界标=b>”,可将其转换为以下语义依赖:拓扑(a,b),其中a为头元素,b为尾元素。
步骤2构建基于深度自注意力网络的语义依赖识别模型,用于识别空间元素间的所有语义依赖,图2给出了基于深度自注意力网络的语义依赖模型的架构,下面具体阐述:
2.1)将文本输入词嵌入层得到词向量,词嵌入层采用BERT(BidirectionalEncoder Representations from Transformers)预训练模型。图2中文本输入为“Nanjingis northeast of Shanghai.”,用T=(t1,t2,…,tn)表示句子中的所有词,句子通过词嵌入层得到了词向量:(w1,w2,…,wn),其中wi表示ti的词向量。
2.2)将空间元素采用BIO标注方法进行标注。BIO标注方法指将每个元素标注为“B-X”、“I-X”或者“O”。其中,“B-X”表示此元素所在的片段属于X类型并且此元素在此片段的开头,“I-X”表示此元素所在的片段属于X类型并且此元素在此片段的中间位置,“O”表示不属于任何类型。
图2句中有3个空间元素,“Nanjing”和“Shanghai”表示地点(PLACE),“northeast”为空间信号(SS),经过BIO标注方法得到“Nanjing/B-PLACE is/O northeast/B-SS of/OShanghai/B-PLACE”,将标签序列输入标签嵌入层得到空间元素标签向量L=(l1,l2,…,ln),其中li表示ti的空间元素标签向量。
2.3)将步骤2.1)输出的词向量和步骤2.2)输出的空间元素标签向量进行拼接得到模型输入向量X=(x1,x2,…,xn),其中xi由wi和li拼接而成。
2.4)将2.3)得到的模型输入向量输入编码层得到特征表示向量。编码层由多层自注意力神经网络组成,对于输入向量xi
Figure BDA0003058664580000041
i=1,2,…,n,每一层自注意力神经网络的输出hi计算方式如下:
hi=LayerNorm(ci+ei)
ci=σ(eiWH+bH)
ei=LayerNorm(zi+xi)
Figure BDA0003058664580000051
Figure BDA0003058664580000052
Figure BDA0003058664580000053
Figure BDA0003058664580000054
上述公式中
Figure BDA0003058664580000055
分别表示第l个自注意力网络结构的参数权重矩阵,L表示自注意力网络结构的个数,Concat表示将参与向量进行拼接;
Figure BDA0003058664580000056
Figure BDA0003058664580000057
分别为前馈神经网络结构的参数权重矩阵和偏置系数,σ表示激活函数,LayerNorm表示层归一化函数。dx表示xi的维度,dz表示
Figure BDA0003058664580000058
的维度,并且满足dx=dz×L。
空间关系与空间元素具有密切相关性,为了更好的表示空间元素之间的相对关系,本发明使用
Figure BDA0003058664580000059
Figure BDA00030586645800000510
表示单词ti和tj之间的关系向量,具体而言:
clip(x,k)=max(-k,min(k,x))
Figure BDA00030586645800000511
其中k表示裁剪长度,
Figure BDA00030586645800000512
Figure BDA00030586645800000513
均为参数权重矩阵,并且
Figure BDA00030586645800000514
将最后一层的输出作为特征表示向量H=(h1,h2,…,hn)。
2.5)将步骤2.4)输出的特征表示向量输入解码层,输出空间元素之间的所有语义依赖。
计算方式如下:
2.5.1)定义D表示所有语义依赖类型集合,对于任意单词对(ti,tj),若ti和tj均为空间元素,则利用二者的特征表示向量hi和hj,计算二者对于每种语义依赖d∈D的预测概率P(d|ti,tj):
P(d|ti,tj)=sigmoid([hi;hj]wd+bd)
Figure BDA00030586645800000515
为权重矩阵,
Figure BDA00030586645800000516
为偏置系数;
2.5.2)在模型的训练阶段,定义模型的损失函数为:
Figure BDA00030586645800000517
其中
Figure BDA0003058664580000061
表示ti,tj之间真实的语义依赖类型集合;
在模型的预测阶段,对于每种语义依赖类型d∈D,如果P(d|ti,tj)>0.5,则认为ti和tj之间存在语义依赖d。如图2所示,模型输出了两个语义依赖:“方位-射体(Northwest,Nanjing)”和“方位-界标(Northwest,Shanghai)”。
步骤3:将步骤2得到的语义依赖输出组合为完整的空间关系元组。包括以下步骤:
3.1)将所有的语义依赖按照其对应的空间关系进行分组。
3.2)对于每个关系组内,根据头元素是否为触发词分别处理。
3.3)如果头元素为触发词,则将所有头元素相同的语义依赖为组合为完整的空间关系元组,其中头元素作为空间关系的触发词角色,其他尾元素作为空间关系的其余角色,角色类型由依赖关系对应的角色类型决定。
3.4)如果头元素不是触发词,则直接将该依赖关系组合为空间关系元组,将该依赖关系的头元素作为射体角色,尾元素作为界标角色。
如图2为例,输出了“方位-射体(Northwest,Nanjing)”和“方位-界标(Northwest,Shanghai)”两个语义依赖,同属于方位关系,头元素为Northwest,且头元素类型为空间信息(SS)表示为触发词角色,因此可以两个语义依赖合并为一个完整的空间关系:“<方位关系,触发词=Northwest,射体=Nanjing,界标=Shanghai>”。
对于不含触发词角色的空间关系,例如“There we met the priest”,语义依赖识别模型可以识别出语义依赖“拓扑(met,There)”,进而组合得到完整的空间关系“<拓扑关系,射体=met,界标=Shanghai>”。
综上,本发明对于两类空间关系均能进行处理,具有良好的通用泛化性。
本发明在SpaceEval等空间关系抽取任务上取得了优异的效果,相比基于sieve的抽取方法,不仅处理的通用性更好,准确率也提高超过5%,具有良好的泛化性和准确性。
本发明还提供一种基于语义依赖的空间关系抽取装置,所述装置配置有计算机程序实现语义依赖识别模型,所述语义依赖识别模型被执行时实现上述的空间关系抽取方法。

Claims (7)

1.一种基于语义依赖的空间关系抽取方法,其特征是构建语义依赖识别模型,从非结构化文本中抽取出空间关系元组,包括以下步骤:
步骤1:定义语义依赖类型,分别为包含触发词角色类型和不包含触发词角色类型;
步骤2:构建基于深度自注意力网络的语义依赖识别模型,包括标签嵌入层、词嵌入层、编码层和解码层;将待识别文本及预标注的空间元素输入训练好的语义依赖识别模型,结合定义的语义依赖类型,得到空间元素间的所有语义依赖识别结果:
2.1)将待识别文本输入词嵌入层得到词向量;
2.2)将空间元素采用BIO标注方法进行标注,输入标签嵌入层,得到空间元素标签向量;
2.3)将2.1)得到的词向量和2.2)得到的空间元素标签向量进行拼接作为编码层的输入向量;
2.4)将2.3)得到的输入向量输入基于元素感知自注意力的编码层得到特征表示向量;
2.5)将2.4)输出的特征表示向量输入解码层得到空间元素间的语义依赖输出;
步骤3:将步骤2得到的语义依赖识别结果进行组合,输出完整的空间关系元组。
2.根据权利要求1所述的一种基于语义依赖的空间关系抽取方法,其特征是步骤1具体为:根据空间关系元组是否包含触发词角色定义两种语义依赖类型:
1.1)包含触发词角色类型:对于除触发词角色之外的每个角色成员,定义一条语义依赖,即二元有向关系,从触发词指向该角色,语义依赖的类型由关系类型和该角色的类型共同决定,其中触发词角色称为语义依赖的头元素,其他角色元素称为语义依赖的尾元素;
1.2)不包含触发词角色类型:空间关系元组只有方位关系和拓扑关系,不含触发词角色,对于这种情况,直接从射体角色连一条语义依赖至界标角色,语义依赖类型由关系类型决定,其中射体角色称为该语义依赖的头元素,界标角色称为该语义依赖的尾元素。
3.根据权利要求1所述的一种基于语义依赖的空间关系抽取方法,其特征是步骤3的语义依赖识别结果进行组合具体为:
3.1)将所有的语义依赖按照其对应的空间关系进行分组;
3.2)对于每个空间关系组内,根据头元素是否为触发词分别处理;
3.3)如果头元素为触发词,则将所有头元素相同的语义依赖组合为完整的空间关系元组,其中头元素作为空间关系的触发词角色,其他尾元素作为空间关系的其余角色,角色类型由依赖关系对应的角色类型决定;
3.4)如果头元素不是触发词,则直接将该依赖关系组合为空间关系元组,将该依赖关系的头元素作为射体角色,尾元素作为界标角色。
4.根据权利要求1所述的一种基于语义依赖的空间关系抽取方法,其特征是步骤2.1)中,词嵌入层采用BERT预训练模型。
5.根据权利要求1所述的一种基于语义依赖的空间关系抽取方法,其特征是2.4)中基于元素感知自注意力的编码层具体为:编码层由堆叠的元素感知自注意力层组成,对于输入向量X=(x1,x2,…,xn),
Figure FDA0003058664570000021
i=1,2,...,n,每一层的输出hi计算方式如下:
hi=LayerNorm(ci+ei)
ci=σ(eiWH+bH)
ei=LayerNorm(zi+xi)
Figure FDA0003058664570000022
Figure FDA0003058664570000023
Figure FDA0003058664570000024
Figure FDA0003058664570000025
上述公式中
Figure FDA0003058664570000026
分别表示第l个自注意力网络结构的参数权重矩阵,L表示自注意力网络结构的个数,Concat表示将参与向量进行拼接;
Figure FDA0003058664570000027
Figure FDA0003058664570000028
分别为前馈神经网络结构的参数权重矩阵和偏置系数,σ表示激活函数,LayerNorm表示层归一化函数,dx表示xi的维度,dz表示
Figure FDA0003058664570000029
的维度,并且满足dx=dz×L;
空间关系与空间元素密切相关,使用
Figure FDA00030586645700000210
Figure FDA00030586645700000211
表示单词ti和tj之间的关系向量,具体而言:
clip(x,k)=max(-k,min(k,x))
Figure FDA00030586645700000212
其中k表示裁剪长度,
Figure FDA00030586645700000213
Figure FDA00030586645700000214
均为权重矩阵,并且
Figure FDA00030586645700000215
Figure FDA00030586645700000216
将堆叠的元素感知自注意力层的最后一层的输出作为特征表示向量H=(h1,h2,...,hn)。
6.根据权利要求1所述的一种基于语义依赖的空间关系抽取方法,其特征是2.5)的解码层具体为:
2.5.1)定义D表示所有语义依赖类型集合,对于任意单词对(ti,tj),若ti和tj均为空间元素,则利用二者的特征表示向量hi和hj,计算二者对于每种语义依赖d∈D的预测概率P(d|ti,tj):
P(d|ti,tj)=sigmoid([hi;hj]wd+bd)
Figure FDA0003058664570000031
为权重矩阵,
Figure FDA0003058664570000032
为偏置系数;
在模型的训练阶段,定义模型的损失函数为:
Figure FDA0003058664570000033
其中
Figure FDA0003058664570000034
表示ti,tj之间真实的语义依赖类型集合;
在模型的预测阶段,如果P(d|ti,tj)>0.5,则认为ti和tj之间存在语义依赖d。
7.一种基于语义依赖的空间关系抽取装置,其特征是所述装置配置有计算机程序实现语义依赖识别模型,所述语义依赖识别模型被执行时实现权利要求1-6任一项所述的空间关系抽取方法。
CN202110506597.7A 2021-05-10 2021-05-10 一种基于语义依赖的空间关系抽取方法及装置 Active CN113190655B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110506597.7A CN113190655B (zh) 2021-05-10 2021-05-10 一种基于语义依赖的空间关系抽取方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110506597.7A CN113190655B (zh) 2021-05-10 2021-05-10 一种基于语义依赖的空间关系抽取方法及装置

Publications (2)

Publication Number Publication Date
CN113190655A true CN113190655A (zh) 2021-07-30
CN113190655B CN113190655B (zh) 2023-08-11

Family

ID=76988642

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110506597.7A Active CN113190655B (zh) 2021-05-10 2021-05-10 一种基于语义依赖的空间关系抽取方法及装置

Country Status (1)

Country Link
CN (1) CN113190655B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114528368A (zh) * 2021-11-12 2022-05-24 南京师范大学 基于预训练语言模型与文本特征融合的空间关系抽取方法
CN114579688A (zh) * 2022-04-29 2022-06-03 中国地质科学院地质力学研究所 一种基于gis的地质数据呈现方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080033935A1 (en) * 2006-08-04 2008-02-07 Metacarta, Inc. Systems and methods for presenting results of geographic text searches
CN103309992A (zh) * 2013-06-20 2013-09-18 武汉大学 一种面向自然语言的位置信息提取方法
CN104462063A (zh) * 2014-12-12 2015-03-25 武汉大学 基于语义位置模型的位置信息结构化提取方法及系统
CN107180045A (zh) * 2016-03-10 2017-09-19 中国科学院地理科学与资源研究所 一种互联网文本蕴含地理实体关系的抽取方法
CN110377686A (zh) * 2019-07-04 2019-10-25 浙江大学 一种基于深度神经网络模型的地址信息特征抽取方法
CN112257386A (zh) * 2020-10-26 2021-01-22 重庆邮电大学 一种文景转换中场景空间关系信息布局生成的方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080033935A1 (en) * 2006-08-04 2008-02-07 Metacarta, Inc. Systems and methods for presenting results of geographic text searches
CN103309992A (zh) * 2013-06-20 2013-09-18 武汉大学 一种面向自然语言的位置信息提取方法
CN104462063A (zh) * 2014-12-12 2015-03-25 武汉大学 基于语义位置模型的位置信息结构化提取方法及系统
CN107180045A (zh) * 2016-03-10 2017-09-19 中国科学院地理科学与资源研究所 一种互联网文本蕴含地理实体关系的抽取方法
CN110377686A (zh) * 2019-07-04 2019-10-25 浙江大学 一种基于深度神经网络模型的地址信息特征抽取方法
CN112257386A (zh) * 2020-10-26 2021-01-22 重庆邮电大学 一种文景转换中场景空间关系信息布局生成的方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
JENNIFER D’SOUZA等: "Sieve-Based Spatial Relation Extraction with Expanding Parse Trees", PROCEEDINGS OF THE 2015 CONFERENCE ON EMPIRICAL METHODS IN NATURAL LANGUAGE PROCESSING, pages 758 *
ZHOU, C等: "A topology-preserving polygon rasterization algorithm", CARTOGRAPHY AND GEOGRAPHIC INFORMATION SCIENCE, vol. 45, no. 6, pages 495 *
刘俊楠等: "基于地理空间数据的知识图谱构建技术研究", 刘俊楠等, vol. 34, no. 11, pages 29 - 36 *
施林锋: "面向文本的空间信息抽取方法研究", 中国优秀硕士学位论文全文数据库 (信息科技辑), no. 7, pages 138 - 1504 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114528368A (zh) * 2021-11-12 2022-05-24 南京师范大学 基于预训练语言模型与文本特征融合的空间关系抽取方法
CN114528368B (zh) * 2021-11-12 2023-08-25 南京师范大学 基于预训练语言模型与文本特征融合的空间关系抽取方法
CN114579688A (zh) * 2022-04-29 2022-06-03 中国地质科学院地质力学研究所 一种基于gis的地质数据呈现方法及系统

Also Published As

Publication number Publication date
CN113190655B (zh) 2023-08-11

Similar Documents

Publication Publication Date Title
CN111767408B (zh) 一种基于多种神经网络集成的因果事理图谱构建方法
CN110737764B (zh) 一种个性化对话内容生成方法
CN113239700A (zh) 改进bert的文本语义匹配设备、系统、方法及存储介质
CN111027595B (zh) 双阶段语义词向量生成方法
CN109284406B (zh) 基于差异循环神经网络的意图识别方法
CN110619034A (zh) 基于Transformer模型的文本关键词生成方法
CN109684449B (zh) 一种基于注意力机制的自然语言语义表征方法
CN113407660B (zh) 非结构化文本事件抽取方法
CN110196995B (zh) 一种基于带偏置随机游走的复杂网络特征提取方法
CN113190655A (zh) 一种基于语义依赖的空间关系抽取方法及装置
CN109918477B (zh) 一种基于变分自编码器的分布式检索资源库选择方法
CN112860904B (zh) 一种融入外部知识的生物医疗关系抽取方法
CN109522432B (zh) 一种融合自适应相似度和贝叶斯框架的图像检索方法
CN115982403B (zh) 一种多模态哈希检索方法及装置
CN112732921B (zh) 一种虚假用户评论检测方法及系统
CN113157919A (zh) 语句文本方面级情感分类方法及系统
Phan-Vu et al. Neural machine translation between Vietnamese and English: an empirical study
CN114138971A (zh) 一种基于遗传算法的极大多标签分类方法
CN113392191A (zh) 一种基于多维度语义联合学习的文本匹配方法和装置
CN116226357B (zh) 一种输入中包含错误信息场景下的文档检索方法
CN117033423A (zh) 一种注入最优模式项和历史交互信息的sql生成方法
CN111581365A (zh) 一种谓词抽取方法
CN115796029A (zh) 基于显式及隐式特征解耦的nl2sql方法
Chen et al. Text classification based on a new joint network
CN106570187B (zh) 一种基于本体概念相似度的软件构件检索方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant