CN107273349B - 一种基于多种语言的实体关系抽取方法及服务器 - Google Patents

一种基于多种语言的实体关系抽取方法及服务器 Download PDF

Info

Publication number
CN107273349B
CN107273349B CN201710322534.XA CN201710322534A CN107273349B CN 107273349 B CN107273349 B CN 107273349B CN 201710322534 A CN201710322534 A CN 201710322534A CN 107273349 B CN107273349 B CN 107273349B
Authority
CN
China
Prior art keywords
entities
vector
language
sentence
relationship
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710322534.XA
Other languages
English (en)
Other versions
CN107273349A (zh
Inventor
孙茂松
林衍凯
刘知远
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN201710322534.XA priority Critical patent/CN107273349B/zh
Publication of CN107273349A publication Critical patent/CN107273349A/zh
Application granted granted Critical
Publication of CN107273349B publication Critical patent/CN107273349B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开一种基于多种语言的实体关系抽取方法及服务器。其中,所述方法包括:在多种语言中获取待抽取关系的两个实体以及在每种语言中第一预设数量的与所述两个实体相关的句子,并构建每个与两个实体相关的句子的向量表示;根据某一种语言中每个与两个实体相关的句子的向量表示以及预设的两个实体间的关系的向量表示,获得所述某一种语言中与两个实体相关的句子相对于多种语言中任意一种语言的综合向量表示;根据各个所述综合向量表示以及预先建立的关系抽取模型,在所述预设的两个实体间的关系中抽取两个实体间的关系。所述服务器用于执行上述方法。本发明提供的基于多种语言的实体关系抽取方法及服务器,提高了两个实体间关系抽取的准确性。

Description

一种基于多种语言的实体关系抽取方法及服务器
技术领域
本发明涉及信息处理技术领域,具体涉及一种基于多种语言的实体关系抽取方法及服务器。
背景技术
随着社会飞速发展,我们已经进入信息爆炸时代,每天都会有海量新的实体与信息产生。互联网作为当今最为便捷的信息获取平台,用户对有效信息筛选与归纳的需求日益迫切,如何从海量数据中获取有价值的信息成为一个难题。
为了结构化地对现实世界的知识进行存储和处理,人们建立了很多大规模的知识图谱,例如Wikidata和Dbpedia等。知识图标将世界上所有人物、地名、机构名等专有名词与事物表示为实体,将实体之间的内在联系表示为关系,旨在将数据库中的海量知识表示为实体之间的利用关系,例如,“纽约是美国的一座城市”这一知识,在知识图谱中则利用三元组关系(纽约,是……的一座城市,美国)进行表示,“纽约”和“美国”为实体,“是……的一座城市”为关系。目前,关系抽取作为一种从自然文本中抽取有结构数据的方法,得到了广泛应用。现有关系抽取都需要大量的人工标注数据,非常的耗时耗力。针对这个问题,基于远程监督的关系抽取方法提出可以通过对纯文本和知识库之间进行对其来自动产生训练数据。但是,这种远程监督产生的训练数据存在一个严重的问题,就是产生的训练数据噪音非常严重,因为并不是所有的包含两个实体的句子都会反映他们两者之间的关系。为了降低噪声,传统非神经网络的方法通常通过概率图模型的方法优化句子与两个实体关系之间关系。而上述关系抽取的方法,专注于在单语言数据上进行关系抽取,并没有涉及到对多语言数据进行关系提取。
因此,如何提出一种方法,能够基于多种语言资源,提高两个实体间关系抽取的准确性成为业界亟待解决的重要课题。
发明内容
针对现有技术中的缺陷,本发明提供一种基于多种语言的实体关系抽取方法及服务器。
一方面,本发明提出一种基于多种语言的实体关系抽取方法,包括:
在多种语言中获取待抽取关系的两个实体以及在每种语言中第一预设数量的与所述两个实体相关的句子,并构建每个与所述两个实体相关的句子的向量表示;
根据某一种语言中每个与所述两个实体相关的句子的向量表示以及预设的所述两个实体间的关系的向量表示,获得所述某一种语言中与所述两个实体相关的句子相对于所述多种语言中任意一种语言的综合向量表示;
根据各个所述综合向量表示以及预先建立的关系抽取模型,在所述预设的所述两个实体间的关系中抽取所述两个实体间的关系。
另一方面,本发明提供一种服务器,包括:
第一构建单元,用于在多种语言中获取待抽取关系的两个实体以及在每种语言中第一预设数量的与所述两个实体相关的句子,并构建每个与所述两个实体相关的句子的向量表示;
第一获得单元,用于根据某一种语言中每个与所述两个实体相关的句子的向量表示以及预设的所述两个实体间的关系的向量表示,获得所述某一种语言中与所述两个实体相关的句子相对于所述多种语言中任意一种语言的综合向量表示;
抽取单元,用于根据各个所述综合向量表示以及预先建立的关系抽取模型,在所述预设的所述两个实体间的关系中抽取所述两个实体间的关系。
本发明提供的基于多种语言的实体关系抽取方法及服务器,由于能够在多种语言中获取待抽取关系的两个实体以及与两个实体相关的句子,并构建与两个实体相关的句子的向量表示,再结合预设的两个实体间的关系的向量表示,获得在一种语言中与两个实体相关的句子相对于任意一种语言的综合向量表示,再根据综合向量表示以及预先建立的关系抽取模型,在预设的两个实体间的关系中获取到两个实体间的关系,提高了两个实体间关系抽取的准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一实施例基于多种语言的实体关系抽取方法的流程示意图;
图2为本发明另一实施例基于多种语言的实体关系抽取方法的流程示意图;
图3为本发明又一实施例基于多种语言的实体关系抽取方法的流程示意图;
图4为本发明再一实施例基于多种语言的实体关系抽取方法的流程示意图;
图5为本发明一实施例服务器的结构示意图;
图6为本发明另一实施例服务器的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
基于以下两点原因,不同语言的资源可以提高两个实体间关系的抽取效果。第一、不同语言的资源拥有相互补充性。例如,包括两个实体的句子在一种语言中比在另一种语言中拥有更多的实例,对所述两个实体进行关系抽取时,拥有实例较多的语言可以对拥有实例较少的语言进行补充。第二、不同语言的资源拥有一致性。世界上不同语言地区的人们用不同的语言描述知识,由于拥有相似的经历和认知系统,使用不同语言的人们对世界上的知识拥有相似的认知。例如,对于中文中的“美国”、“纽约”和英文中的“United States”,“New York”,无论美国人还是中国人都认为“纽约是美国的一座城市”。
图1为本发明一实施例基于多种语言的实体关系抽取方法的流程示意图,如图1所示,本发明提供的基于多种语言的实体关系抽取方法,包括:
S101、在多种语言中获取待抽取关系的两个实体以及在每种语言中第一预设数量的与所述两个实体相关的句子,并构建每个与所述两个实体相关的句子的向量表示;
具体地,服务器在对给定的两个实体进行关系抽取时,在多种语言中获取在每种语言中第一预设数量的与所述两个实体相关的句子,所述给定的两个实体即待抽取关系的两个实体,如果句子中包括所述两个实体,那么所述句子与所述两个实体相关。所述服务器在获取到所述两个实体以及与所述两个实体相关的句子之后,构建每个与所述两个实体相关的句子的向量表示。其中,所述第一预设数量根据实际情况进行设定,本发明实施例不做限定。可理解是是,所述两个实体在所述多种语言中有不同的表示,例如“美国”在中文可以表示为“美国”,在英语中可以表示为“America”。
S102、根据某一种语言中每个与所述两个实体相关的句子的向量表示以及预设的所述两个实体间的关系的向量表示,获得所述某一种语言中与所述两个实体相关的句子相对于所述多种语言中任意一种语言的综合向量表示;
具体地,所述服务器在构建所述多种语言中的每个与所述两个实体相关的句子的向量表示之后,可以从中获得所述多种语言中的某一种语言中每个与所述两个实体相关的句子的向量表示。所述服务器获得预设的两个实体间的关系,例如可以从知识图谱Wikidata和Dbpedia中获得所述两个实体间的关系,再将所述两个实体间的关系转化为向量表示,即获得了预设的所述两个实体间的关系的向量表示。所述服务器根据某一种语言中每个与所述两个实体相关的句子的向量表示以及预设的所述两个实体间的关系的向量表示,获得所述某一种语言中与所述两个实体相关的句子相对于所述多种语言中任意一种语言的综合向量表示。其中,所述两个实体间的关系在所有语言中都是相同的。
S103、根据各个所述综合向量表示以及预先建立的关系抽取模型,在所述预设的所述两个实体间的关系中抽取所述两个实体间的关系。
具体地,所述服务器根据获得的所述两个实体对应的各个所述综合向量表示以及关系抽取模型,在所述预设的所述两个实体间的关系中抽取两个实体间的关系。其中,所述关系抽取模型预先建立的。
本发明提供的基于多种语言的实体关系抽取方法,由于能够在多种语言中获取待抽取关系的两个实体以及与两个实体相关的句子,并构建与两个实体相关的句子的向量表示,再结合预设的两个实体间的关系的向量表示,获得在一种语言中与两个实体相关的句子相对于任意一种语言的综合向量表示,再根据综合向量表示以及预先建立的关系抽取模型,在预设的两个实体间的关系中获取到两个实体间的关系,提高了两个实体间关系抽取的准确性。
图2为本发明另一实施例基于多种语言的实体关系抽取方法的流程示意图,如图2所示,在上述各实施例的基础上,进一步地,所述构建每个与所述两个实体相关的句子的向量表示包括:
S1011、分别构建所述句子中每个词的词向量,所述词向量为所述词的内容向量和位置向量的拼接;
具体地,所述服务器采用卷积神经网络分别构建所述句子中每个词的词向量,所述卷积神经网络的输入为所述句子中包括的所有的词。所述服务器首先将所述词转化为连续的向量表示,每一个词转化为所述词向量矩阵中的向量,所述词向量由所述词的内容向量和位置向量拼接而成。所述内容向量用于刻画每个词的语法和语义信息,可以采用word2vec学习得到;所述位置向量用于刻画所述词在所述句子中的位置信息,定义为所述句子中的每个词与所述句子的头实体、尾实体之间的相互位置差的向量表示。
S1012、根据所述句子对应的所有词向量,获得所述句子的向量表示。
具体地,所述服务器将所述句子的一个词向量序列w和卷积矩阵W之间进行操作,即卷积操作。所述卷积操作可以通过一个长度为l的滑动窗口对局部特征进行提取。定义qi为第i个窗口内部的所述词向量的拼接信息:qi=wi-1+1:i,然后得到所述句子的的第i维特征为:其中W为卷积矩阵,b为偏置向量。所述句子的第i维特征通过池化定义为xi=max(pi),对xi进行非线性化操作,得到tanh(xi),再对tanh(xi)进行拼接,最终可以得到在语言j下所述句子的向量表示:xj,其中,所述语言j是所述多种语言中的任意一种语言。
在上述各实施例的基础上,进一步地,所述根据某一种语言中每个与所述两个实体相关的句子的向量表示以及预设的所述两个实体间的关系的向量表示,获得所述某一种语言中与所述两个实体相关的句子相对于所述多种语言中任意一种语言的综合向量表示包括:采用语言选择注意力机制获得所述综合向量表示,其中:
根据公式计算获得语言j中所有与所述两个实体相关的句子相对于语言k的综合向量表示Sjk,其中,所述语言j与所述语言k是所述多种语言中的任意一种语言,表示所述语言j中第i个与所述两个实体相关的句子的向量表示相对于所述语言k的语言选择注意力权重,i为正整数,n等于所述第一预设数量;
根据公式计算获得所述语言选择注意力权重其中,表示所述语言j中第i个与所述两个实体相关的句子的向量表示与所述预设的所述两个实体间的关系之间的关联程度;
根据公式计算获得所述关联程度其中,r为所述预设的所述两个实体间的关系的向量表示。
具体地,所述服务器将语言j中的与所述两个实体相关的第i句子的向量表示表示为其中,所述语言j是所述多种语言中的一种,i为正整数,且i等于所述第一预设数量。根据所述预设的所述两个实体间的关系,得到所述两个实体间的关系向量表示为r。采用一个基于查询的函数来衡量所述句子的向量表示与所述预设的所述两个实体间的关系之间的关联程度,所述函数表示为定义为所述语言j中第i个与所述两个实体相关的句子的向量表示相对于所述语言k的语言选择注意力权重,根据公式 计算获得。定义Sjk为语言j中所有与所述两个实体相关的句子相对于语言k的综合向量表示Sjk,根据公式计算获得。
图3为本发明又一实施例基于多种语言的实体关系抽取方法的流程示意图,如图3所示,在上述各实施例的基础上,进一步地,所述根据各个所述综合向量表示以及预设的关系抽取模型,在所述预设的所述两个实体间的关系中抽取所述两个实体间的关系包括:
S1031、根据各个所述综合向量表示以及所述关系抽取模型,计算获得所述两个实体间关系的评分值;
具体地,所述服务器在获得各个所述综合向量表示之后,将所述各个综合向量表示输入到所述关系抽取模型中,可以计算获得所述两个实体间关系的评分值。
例如,基于m种语言资源,服务器可以获得所述两个实体的m×m个所述综合向量表示T={Sjk∣j,k∈{1,…,m}。通过模型训练可以获得所述关系抽取模型其中,i为正整数,r为所述预设的所述两个实体间的关系的向量表示,θ表示所述关系抽取模型中需要用到的参数,在模型训练的时候可以获得所述参数的值,将各个所述综合向量表示作为所述关系抽取模型输入,计算结果即为所述两个实体间关系的评分值。
S1032、若判断获知所述评分值大于预设值,则获取与所述评分值对应的所述两个实体之间的关系。
具体地,所述服务器将计算获得的所述评分值与预设值比较,如果所述评分值大于所述预设值,那么获取与所述评分值对应的所述两个实体之间的关系。其中,所述预设值根据实际需要进行设定,本发明实施例不做限制。
图4为本发明再一实施例基于多种语言的实体关系抽取方法的流程示意图,如图4所示,在上述各实施例的基础上,进一步地,建立所述关系抽取模型的步骤包括:
S401、在所述多种语言中,获取第二预设数量的实体对,所述第二预设数量的实体对中包括所述两个实体;
具体地,所述服务器在所述多种语言中,获取第二预设数量的实体对,所述两个实体包括在所述第二预设数量的实体对中。其中,所述第二预设数量根据实际情况进行设定,本发明实施例不做限定。
S402、在每种种语言中,获得第三预设数量的与每个实体对相关的句子,并构建每个与所述每个实体对相关的句子的向量表示;
具体地,所述服务器基于多种语言资源,在每种语言中获得第三预设数量的与每个实体对相关的句子,其中,所述第三预设数量可以为10,即在每种语言中对所述每个实体获取10个与其相关的句子。然后,构建每个与所述每个实体对相关的句子的向量表示,例如,对于某对实体,在一种语言中获得了10个与其相关的句子,则需要构建10个与所述某对实体相关的句子的向量表示。对于与所述每个实体对相关的句子的向量表示的构建方法,与步骤S101类似,此处不再赘述。
S403、根据所述某一种语言中每个与所述每个实体对相关的句子的向量表示以及所述预设的每个实体对间的关系的向量表示,获得所述某一种语言中与所述每个实体对相关的句子相对于所述多种语言中任一种语言的综合向量表示;
具体地,所述服务器可以从所述多种语言每个与所述每个实体对相关的句子的向量表示中,获得所述某一种语言中每个与所述每个实体对相关的句子的向量表示。所述服务器获得所述预设的两个实体间的关系,例如可以从知识图谱Wikidata和Dbpedia中获得所述两个实体间的关系,再将所述两个实体间的关系转化向量表示,即获得了所述预设的两个实体间的关系的向量表示。所述服务器根据某一种语言中每个与所述两个实体相关的句子的向量表示以及预设的所述两个实体间的关系的向量表示,获得所述某一种语言中与所述两个实体相关的句子相对于所述多种语言中任意一种语言的综合向量表示。所述综合向量表示的具体获得方法,与步骤S102类似,此处不再赘述。
S404、根据所述第二预设数量的实体对对应的所述综合向量表示以及设定的评分函数,采用随机梯度下降算法最大化所述评分函数,获得所述关系抽取模型。
具体地,所述服务器在获得所述第二预设数量的实体对对应的所述综合向量表示之后,将每个实体对对应的所述综合向量表示输入到设定评分函数中,再采用随机梯度下降算法最大化所述评分函数,可以通过迭代计算获得所述评分函数中的未知参数,从而获得所述关系抽取模型。
例如,基于m种语言资源和所述第二预设数量的实体对,服务器可以获得每个实体对的m×m个所述综合向量表示T={Sjk∣j,k∈{1,…,m}。设定评分函数为其中,i为正整数,r为所述预设的每个实体对间的关系的向量表示,的θ表示所述关系抽取模型中需要用到的参数,P(r∣Sjk,θ)为给定Sjk预测出其对应的实体对间的关系的条件概率,可以根据公式P(r∣Sjk,θ)=softmax(MSjk+d)计算获得,其中,d为偏置向量,M为全局的关系表示矩阵,d和M的值均可以在计算模型参数θ时获得。根据公式通过随机梯度下降算法最大化所述评分函数,获得模型参数θ值,其中,Ti为所述每个实体对的所述综合向量表示,n为所述第二预设数量,i为正整数,且i小于等于所述第二预设数量。计算出模型参数θ值的所述评分函数可以作为所述关系抽取模型。
本发明提供的基于多种语言的实体关系抽取方法,由于能够在多种语言中获取待抽取关系的两个实体以及与两个实体相关的句子,并构建与两个实体相关的句子的向量表示,再结合预设的两个实体间的关系的向量表示,获得在一种语言中与两个实体相关的句子相对于任意一种语言的综合向量表示,再根据综合向量表示以及预先建立的关系抽取模型,在预设的两个实体间的关系中获取到两个实体间的关系,提高了两个实体间关系抽取的准确性。而通过对设定的评分函数进行模型训练,获得关系抽取模型,有利于保证两个实体间关系抽取的准确性。
图5为本发明一实施例服务器的结构示意图,如图5所示,本发明提供的服务器包括:第一构建单元501、第一获得单元502和抽取单元503,其中:
第一构建单元501用于在多种语言中获取待抽取关系的两个实体以及在每种语言中第一预设数量的与所述两个实体相关的句子,并构建每个与所述两个实体相关的句子的向量表示;第一获得单元502用于根据某一种语言中每个与所述两个实体相关的句子的向量表示以及预设的所述两个实体间的关系的向量表示,获得所述某一种语言中与所述两个实体相关的句子相对于所述多种语言中任意一种语言的综合向量表示;抽取单元503用于根据各个所述综合向量表示以及预先建立的关系抽取模型,在所述预设的所述两个实体间的关系中抽取所述两个实体间的关系。
具体地,在对给定的两个实体进行关系抽取时,第一构建单元501在多种语言中获取在每种语言中第一预设数量的与所述两个实体相关的句子,所述给定的两个实体即待抽取关系的两个实体,如果句子中包括所述两个实体,那么所述句子与所述两个实体相关。第一构建单元501在获取到所述两个实体以及与所述两个实体相关的句子之后,构建每个与所述两个实体相关的句子的向量表示。其中,所述第一预设数量根据实际情况进行设定,本发明实施例不做限定。可理解是是,所述两个实体在所述多种语言中有不同的表示,例如“美国”在中文可以表示为“美国”,在英语中可以表示为“America”。
在构建所述多种语言中的每个与所述两个实体相关的句子的向量表示之后,第一获得单元502可以从中获得所述多种语言中的某一种语言中每个与所述两个实体相关的句子的向量表示。第一获得单元502获得预设的两个实体间的关系,例如可以从知识图谱Wikidata和Dbpedia中获得所述两个实体间的关系,再将所述两个实体间的关系转化向量表示,即获得了预设的所述两个实体间的关系的向量表示。第一获得单元502根据某一种语言中每个与所述两个实体相关的句子的向量表示以及预设的所述两个实体间的关系的向量表示,获得所述某一种语言中与所述两个实体相关的句子相对于所述多种语言中任意一种语言的综合向量表示,其中,所述两个实体间的关系在所有语言中都是一样的。
取单元503根据获得的所述两个实体对应的各个所述综合向量表示以及关系抽取模型,在所述预设的所述两个实体间的关系中抽取所述两个实体间的关系。其中,所述关系抽取模型预先建立的。
本发明提供的服务器,由于能够在多种语言中获取待抽取关系的两个实体以及与两个实体相关的句子,并构建与两个实体相关的句子的向量表示,再结合预设的两个实体间的关系的向量表示,获得在一种语言中与两个实体相关的句子相对于任意一种语言的综合向量表示,再根据综合向量表示以及预先建立的关系抽取模型,在预设的两个实体间的关系中获取到两个实体间的关系,提高了两个实体间关系抽取的准确性。
在上述实施例的基础上,进一步地,第一构建单元501包括:
构建子单元用于分别构建所述句子中每个词的词向量,所述词向量为所述词的内容向量和位置向量的拼接;转化子单元用于根据所述句子对应的所有词向量,获得所述句子的向量表示。
具体地,所述构建子单元采用卷积神经网络分别构建所述句子中每个词的词向量,所述卷积神经网络的输入为所述句子中包括的所有的词。所述构建子单元首先将所述词转化为连续的向量表示,每一个词转化为所述词向量矩阵中的向量,所述词向量由所述词的内容向量和位置向量拼接而成。所述内容向量用于刻画每个词的语法和语义信息,可以采用word2vec学习得到;所述位置向量用于刻画所述词在所述句子中的位置信息,定义为所述句子中的每个词与所述句子的头实体、尾实体之间的相互位置差的向量表示。
转化子单元将将所述句子的一个词向量序列w和卷积矩阵W之间进行操作,即卷积操作。所述卷积操作可以通过一个长度为l的滑动窗口对局部特征进行提取。定义qi为第i个窗口内部的所述词向量的拼接信息:qi=wi-1+1:i,然后得到所述句子的的第i维特征为:其中W为卷积矩阵,b为偏置向量。所述句子的第i维特征通过池化定义为xi=max(pi),对xi进行非线性化操作,得到tanh(xi),再对tanh(xi)进行拼接,最终可以得到在语言j下所述句子的向量表示:xj,其中,所述语言j是所述多种语言中的任意一种语言。
在上述各实施例的基础上,进一步地,第一获得单元502具体用于:
根据公式计算获得语言j中所有与所述两个实体相关的句子相对于语言k的综合向量表示Sjk,其中,所述语言j与所述语言k是所述多种语言中的任意一种语言,表示所述语言j中第i个与所述两个实体相关的句子的向量表示相对于所述语言k的语言选择注意力权重i为正整数,n等于所述第一预设数量;根据公式计算获得所述语言选择注意力权重其中,表示所述语言j中第i个与所述两个实体相关的句子的向量表示与所述预设的所述两个实体间的关系之间的关联程度;根据公式计算获得所述关联程度其中,r为所述预设的所述两个实体间的关系的向量表示。
具体地,第一获得单元502将语言j中的与所述两个实体相关的第i句子的向量表示表示为其中,所述语言j是所述多种语言中的一种,i为正整数,且i等于所述第一预设数量。根据所述预设的所述两个实体间的关系,得到所述两个实体间的关系向量表示为r。采用一个基于查询的函数来衡量所述句子的向量表示与所述预设的所述两个实体间的关系之间的关联程度,所述函数表示为定义为所述语言j中第i个与所述两个实体相关的句子的向量表示相对于所述语言k的语言选择注意力权重,根据公式 计算获得。定义Sjk为语言j中所有与所述两个实体相关的句子相对于语言k的综合向量表示Sjk,根据公式计算获得。
在上述各实施例的基础上,进一步地,抽取单元503包括:
评分计算子单元用于根据各个所述综合向量表示以及所述关系抽取模型,计算获得所述两个实体间关系的评分值;获取子单元用于在判断获知所述评分值大于预设值之后,获取与所述评分值对应的所述两个实体之间的关系。
具体地,所述评分计算子单元在获得各个所述综合向量表示之后,将所述各个综合向量表示输入到所述关系抽取模型中,可以计算获得所述两个实体间关系的评分值。
所述获取子单元将计算获得的所述评分值与预设值比较,如果所述评分值大于所述预设值,那么获取与所述评分值对应的所述两个实体之间的关系。其中,所述预设值根据实际需要进行设定,本发明实施例不做限制。
图6为本发明另一实施例服务器的结构示意图,如图6所示,在上述各实施例的基础上,进一步地,本发明提供的服务器还包括:获取单元504、第二构建单元505、第二获得单元506和第三获得单元507,其中:
获取单元504用于在所述多种语言中,获取第二预设数量的实体对,所述第二预设数量的实体对中包括所述两个实体;第二构建单元505用于在每种种语言中,获得第三预设数量的、与每个实体对相关的句子,并构建每个与所述每个实体对相关的句子的向量表示;第二获得单元506用于根据所述某一种语言中每个与所述每个实体对相关的句子的向量表示以及预设的所述每个实体对间的关系的向量表示,获得所述某一种语言中与所述每个实体对相关的句子相对于所述多种语言中任一种语言的综合向量表示;第三获得单元507用于根据所述第二预设数量的实体对相对的所述综合向量表示以及设定的评分函数,采用随机梯度下降算法最大化所述评分函数,获得所述关系抽取模型。
具体地,获取单元504在所述多种语言中,获取第二预设数量的实体对,所述两个实体包括在所述第二预设数量的实体对中。其中,所述第二预设数量根据实际情况进行设定,本发明实施例不做限定。
第二构建单元505基于多种语言资源,在每种语言中获得第三预设数量的、与每个实体对相关的句子,其中,所述第三预设数量可以为10,即在每种语言中对所述每个实体获取10个与其相关的句子。然后,构建每个与所述每个实体对相关的句子的向量表示,例如,对于某对实体,在一种语言中获得了10个与其相关的句子,则需要构建10个与所述某对实体相关的句子的向量表示。对于与所述每个实体对相关的句子的向量表示的构建方法,与步骤S101类似,此处不再赘述。
第二获得单元506可以从所述多种语言每个与所述每个实体对相关的句子的向量表示中,获得所述某一种语言中每个与所述每个实体对相关的句子的向量表示。第二获得单元506获得所述预设的两个实体间的关系,例如可以从知识图谱Wikidata和Dbpedia中获得所述两个实体间的关系,再将所述两个实体间的关系转化向量表示,即获得了所述预设的两个实体间的关系的向量表示。第二获得单元506根据某一种语言中每个与所述两个实体相关的句子的向量表示以及预设的所述两个实体间的关系的向量表示,获得所述某一种语言中与所述两个实体相关的句子相对于所述多种语言中任意一种语言的综合向量表示。所述综合向量表示的具体获得方法,与步骤S102类似,此处不再赘述。
第三获得单元507在获得所述第二预设数量的实体对相对的所述综合向量表示之后,将每个实体对相对的所述综合向量表示输入到设定评分函数中,再采用随机梯度下降算法最大化所述评分函数,可以通过迭代计算获得所述评分函数中的未知参数,从而获得所述关系抽取模型。
本发明提供的服务器,由于能够在多种语言中获取待抽取关系的两个实体以及与两个实体相关的句子,并构建与两个实体相关的句子的向量表示,再结合预设的两个实体间的关系的向量表示,获得在一种语言中与两个实体相关的句子相对于任意一种语言的综合向量表示,再根据综合向量表示以及预先建立的关系抽取模型,在预设的两个实体间的关系中获取到两个实体间的关系,提高了两个实体间关系抽取的准确性。而通过对设定的评分函数进行模型训练,获得关系抽取模型,有利于保证两个实体间关系抽取的准确性。
本发明提供的服务器的实施例具体可以用于执行上述各方法实施例的处理流程,其功能在此不再赘述,可以参照上述方法实施例的详细描述。
以上所描述的服务器实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (8)

1.一种基于多种语言的实体关系抽取方法,其特征在于,包括:
在多种语言中获取待抽取关系的两个实体以及在每种语言中第一预设数量的与所述两个实体相关的句子,并构建每个与所述两个实体相关的句子的向量表示;
根据某一种语言中每个与所述两个实体相关的句子的向量表示以及预设的所述两个实体间的关系的向量表示,获得所述某一种语言中与所述两个实体相关的句子相对于所述多种语言中任意一种语言的综合向量表示;
根据各个所述综合向量表示以及预先建立的关系抽取模型,在所述预设的所述两个实体间的关系中抽取所述两个实体间的关系;
所述根据某一种语言中每个与所述两个实体相关的句子的向量表示以及预设的所述两个实体间的关系的向量表示,获得所述某一种语言中与所述两个实体相关的句子相对于所述多种语言中任意一种语言的综合向量表示,包括:
采用语言选择注意力机制获得所述综合向量表示,其中:
根据公式计算获得语言j中所有与所述两个实体相关的句子相对于语言k的综合向量表示Sjk,其中,所述语言j与所述语言k是所述多种语言中的任意一种语言,表示所述语言j中第i个与所述两个实体相关的句子的向量表示相对于所述语言k的语言选择注意力权重,为语言j中的与所述两个实体相关的第i句子的向量表示,i为正整数,n等于所述第一预设数量;
根据公式计算获得所述语言选择注意力权重其中,表示所述语言j中第i个与所述两个实体相关的句子的向量表示与所述预设的所述两个实体间的关系之间的关联程度;
根据公式计算获得所述关联程度其中,r为所述预设的所述两个实体间的关系的向量表示。
2.根据权利要求1所述的方法,其特征在于,所述构建每个与所述两个实体相关的句子的向量表示包括:
分别构建所述句子中每个词的词向量,所述词向量为所述词的内容向量和位置向量的拼接;
根据所述句子对应的所有词向量,获得所述句子的向量表示。
3.根据权利要求1所述的方法,其特征在于,所述根据各个所述综合向量表示以及预设的关系抽取模型,在所述预设的所述两个实体间的关系中抽取所述两个实体间的关系包括:
根据各个所述综合向量表示以及所述关系抽取模型,计算获得所述两个实体间关系的评分值;
若判断获知所述评分值大于预设值,则获取与所述评分值对应的所述两个实体之间的关系。
4.根据权利要求1至3任一项所述的方法,其特征在于,建立所述关系抽取模型的步骤包括:
在所述多种语言中,获取第二预设数量的实体对,所述第二预设数量的实体对中包括所述两个实体;
在每种语言中,获得第三预设数量的与每个实体对相关的句子,并构建每个与所述每个实体对相关的句子的向量表示;
根据所述某一种语言中每个与所述每个实体对相关的句子的向量表示以及所述预设的每个实体对间的关系的向量表示,获得所述某一种语言中与所述每个实体对相关的句子相对于所述多种语言中任一种语言的综合向量表示;
根据所述第二预设数量的实体对对应的所述综合向量表示以及设定的评分函数,采用随机梯度下降算法最大化所述评分函数,获得所述关系抽取模型。
5.一种服务器,其特征在于,包括:
第一构建单元,用于在多种语言中获取待抽取关系的两个实体以及在每种语言中第一预设数量的与所述两个实体相关的句子,并构建每个与所述两个实体相关的句子的向量表示;
第一获得单元,用于根据某一种语言中每个与所述两个实体相关的句子的向量表示以及预设的所述两个实体间的关系的向量表示,获得所述某一种语言中与所述两个实体相关的句子相对于所述多种语言中任意一种语言的综合向量表示;
抽取单元,用于根据各个所述综合向量表示以及预先建立的关系抽取模型,在所述预设的所述两个实体间的关系中抽取所述两个实体间的关系;
所述第一获得单元具体用于:
根据公式计算获得语言j中所有与所述两个实体相关的句子相对于语言k的综合向量表示Sjk,其中,语言j与语言k是所述多种语言中的任意一种语言,表示所述语言j中第i个与所述两个实体相关的句子的向量表示相对于所述语言k的语言选择注意力权重,为语言j中的与所述两个实体相关的第i句子的向量表示,i为正整数,n等于所述第一预设数量;
根据公式计算获得所述语言选择注意力权重其中,表示所述语言j中第i个与所述两个实体相关的句子的向量表示与所述预设的所述两个实体间的关系之间的关联程度;
根据公式计算获得所述关联程度其中,r为所述预设的所述两个实体间的关系的向量表示。
6.根据权利要求5所述的服务器,其特征在于,所述第一构建单元包括:
构建子单元,用于分别构建所述句子中每个词的词向量,所述词向量为所述词的内容向量和位置向量的拼接;
转化子单元,用于根据所述句子对应的所有词向量,获得所述句子的向量表示。
7.根据权利要求5所述的服务器,其特征在于,所述抽取单元包括:
评分计算子单元,用于根据各个所述综合向量表示以及所述关系抽取模型,计算获得所述两个实体间关系的评分值;
获取子单元,用于在判断获知所述评分值大于预设值之后,获取与所述评分值对应的所述两个实体之间的关系。
8.根据权利要求5至7任一项所述的服务器,其特征在于,还包括:
获取单元,用于在所述多种语言中,获取第二预设数量的实体对,所述第二预设数量的实体对中包括所述两个实体;
第二构建单元,用于在每种语言中,获得第三预设数量的、与每个实体对相关的句子,并构建每个与所述每个实体对相关的句子的向量表示;
第二获得单元,用于根据所述某一种语言中每个与所述每个实体对相关的句子的向量表示以及预设的所述每个实体对间的关系的向量表示,获得所述某一种语言中与所述每个实体对相关的句子相对于所述多种语言中任一种语言的综合向量表示;
第三获得单元,用于根据所述第二预设数量的实体对对应的所述综合向量表示以及设定的评分函数,采用随机梯度下降算法最大化所述评分函数,获得所述关系抽取模型。
CN201710322534.XA 2017-05-09 2017-05-09 一种基于多种语言的实体关系抽取方法及服务器 Active CN107273349B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710322534.XA CN107273349B (zh) 2017-05-09 2017-05-09 一种基于多种语言的实体关系抽取方法及服务器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710322534.XA CN107273349B (zh) 2017-05-09 2017-05-09 一种基于多种语言的实体关系抽取方法及服务器

Publications (2)

Publication Number Publication Date
CN107273349A CN107273349A (zh) 2017-10-20
CN107273349B true CN107273349B (zh) 2019-11-22

Family

ID=60073904

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710322534.XA Active CN107273349B (zh) 2017-05-09 2017-05-09 一种基于多种语言的实体关系抽取方法及服务器

Country Status (1)

Country Link
CN (1) CN107273349B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108647258B (zh) * 2018-01-24 2020-12-22 北京理工大学 一种基于实体关联性约束的表示学习方法
CN108536754A (zh) * 2018-03-14 2018-09-14 四川大学 基于blstm和注意力机制的电子病历实体关系抽取方法
CN110852066B (zh) * 2018-07-25 2021-06-01 清华大学 一种基于对抗训练机制的多语言实体关系抽取方法及系统
CN109597894B (zh) * 2018-09-30 2023-10-03 创新先进技术有限公司 一种关联模型生成方法及装置、一种数据关联方法及装置
CN111191461B (zh) * 2019-06-06 2021-08-03 北京理工大学 一种基于课程学习的远程监督关系抽取方法
CN110705301B (zh) * 2019-09-30 2021-01-26 北京京东智能城市大数据研究院 实体关系抽取方法及装置、存储介质、电子设备
US11593560B2 (en) 2020-10-21 2023-02-28 Beijing Wodong Tianjun Information Technology Co., Ltd. System and method for relation extraction with adaptive thresholding and localized context pooling
CN112784173B (zh) * 2021-02-26 2022-06-10 电子科技大学 一种基于自注意力对抗神经网络的推荐系统评分预测方法
CN114386425B (zh) * 2022-03-24 2022-06-10 天津思睿信息技术有限公司 用于对自然语言文本内容进行处理的大数据体系建立方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104809176A (zh) * 2015-04-13 2015-07-29 中央民族大学 藏语实体关系抽取方法
CN106354710A (zh) * 2016-08-18 2017-01-25 清华大学 一种神经网络关系抽取方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104809176A (zh) * 2015-04-13 2015-07-29 中央民族大学 藏语实体关系抽取方法
CN106354710A (zh) * 2016-08-18 2017-01-25 清华大学 一种神经网络关系抽取方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
论文引介 Neural Relation Extraction with Multi-lingual Attention;林衍凯 智能立方;《https://mp.weixin.qq.com/s/upAnMVAsHE4GmWWvRpwgHA》;20170425;第1-4页 *

Also Published As

Publication number Publication date
CN107273349A (zh) 2017-10-20

Similar Documents

Publication Publication Date Title
CN107273349B (zh) 一种基于多种语言的实体关系抽取方法及服务器
CN109918680B (zh) 实体识别方法、装置及计算机设备
CN108563653B (zh) 一种用于知识图谱中知识获取模型的构建方法及系统
CN106202010B (zh) 基于深度神经网络构建法律文本语法树的方法和装置
CN109145290B (zh) 基于字向量与自注意力机制的语义相似度计算方法
CN111143576A (zh) 一种面向事件的动态知识图谱构建方法和装置
CN110532554A (zh) 一种中文摘要生成方法、系统及存储介质
CN109408526A (zh) Sql语句生成方法、装置、计算机设备及存储介质
CN110781663B (zh) 文本分析模型的训练方法及装置、文本分析方法及装置
CN110162767A (zh) 文本纠错的方法和装置
CN113127624B (zh) 问答模型的训练方法及装置
CN109582767A (zh) 对话系统处理方法、装置、设备及可读存储介质
CN109102809A (zh) 一种用于智能机器人的对话方法及系统
CN110309511B (zh) 基于共享表示的多任务语言分析系统及方法
CN111931517A (zh) 文本翻译方法、装置、电子设备以及存储介质
CN110457661B (zh) 自然语言生成方法、装置、设备及存储介质
EP4113357A1 (en) Method and apparatus for recognizing entity, electronic device and storage medium
CN110532395B (zh) 一种基于语义嵌入的词向量改进模型的建立方法
CN109299264A (zh) 文本分类方法、装置、计算机设备及存储介质
JP2022006173A (ja) 知識事前訓練モデルの訓練方法、装置及び電子機器
CN113705315A (zh) 视频处理方法、装置、设备及存储介质
CN117556027B (zh) 基于数字人技术的智能交互系统及方法
CN112800339B (zh) 信息流搜索方法、装置及设备
CN112905796B (zh) 基于再注意力机制的文本情绪分类方法及系统
CN114970733A (zh) 语料生成方法及装置、系统、存储介质和电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant