CN108052501A - 一种基于人工智能的实体关系对识别方法及系统 - Google Patents

一种基于人工智能的实体关系对识别方法及系统 Download PDF

Info

Publication number
CN108052501A
CN108052501A CN201711332925.6A CN201711332925A CN108052501A CN 108052501 A CN108052501 A CN 108052501A CN 201711332925 A CN201711332925 A CN 201711332925A CN 108052501 A CN108052501 A CN 108052501A
Authority
CN
China
Prior art keywords
sentence
relationship
link
entity
holotype
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201711332925.6A
Other languages
English (en)
Inventor
朱瑾鹏
黄诗剑
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Digital Technology Co Ltd
Original Assignee
Beijing Digital Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Digital Technology Co Ltd filed Critical Beijing Digital Technology Co Ltd
Priority to CN201711332925.6A priority Critical patent/CN108052501A/zh
Publication of CN108052501A publication Critical patent/CN108052501A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Abstract

本发明公开了一种基于人工智能的实体关系对识别方法及系统,通过人工智能的方式,从训练语料库中自动分析句子并得到目标关系对应实体,然后结合两个或多个实体的时间属性,提取出符合时间属性的实体关系对,用以具体的语义分析。本实施例的方案,能够准确识别语句中实体关系对,从而能够准确分析语句中目标关系的词语以及短语的实际关系,从而准确识别语句的实际含义,为人工智能开展语义识别奠定基础。

Description

一种基于人工智能的实体关系对识别方法及系统
技术领域
本公开涉及人工智能识别技术领域,具体涉及一种基于人工智能的实体关系对识别方法及系统。
背景技术
随着科技技术的迅猛发展,数据化时代下的各项数据呈现指数级规模的增长,且数据的形式也逐渐演变的更为复杂化。“数据信息超负荷”和“数据信息泛滥”的现象日益严重。
因而,基于人工智能技术,将机器学习方法与规则相结合,抽取实体信息关系的方式,可以有效帮助人们快速提取所需的有用信息,甚至隐含于信息下的隐性信息。
现有技术中,大多数的实体关系抽取主要集中在显性关系上,对于实体隐性关系的抽取相对较少。
发明内容
鉴于上述问题,提出了本公开以便提供一种克服上述问题或者至少部分地解决上述问题的基于人工智能的实体关系对识别方法及装置。
根据本公开的一个方面,提供了一种基于人工智能的实体关系对识别方法,其包括:
从训练语料库中获取出现正例的句子,将所述句子解析成链接语法解析形式;所述正例为存在目标关系的两个实体;
将所述链接语法解析形式的句子中链接符链接的两个实体替换为占位符;根据所述占位符和对应的链接符,提取得到正模式;
根据所述正模式,遍历所述训练语料库中句子;当能与所述正模式匹配并同时能够产生反例的句子的数量小于设定阈值时,保留所述正模式;
将所述训练语料库中句子按带时间属性实体关系抽取处理,得到带时间属性的所述正例;
将所述带时间属性的正例与所述正模式匹配,将能够匹配的所述带时间属性的正例中的两个实体、时间属性以及所述目标关系作为实体关系对。
所述方法还包括:
将所述训练语料库中句子按带时间属性实体关系抽取处理,得到带时间属性的链接语法解析形式;
将所述带时间属性的链接语法解析形式中的两个实体替换为占位符,并与所述正模式匹配;
将能够匹配的对应句子中的所述两个实体、时间属性以及所述目标关系作为实体关系对。
所述带时间属性实体关系抽取处理,包括:
获取所述训练语料库中的句子,将所述句子解析成链接语法解析形式;
根据所述句子的连接语法解析形式,提取目标关系的实体关系;
获取所有在所述句子中出现过的日期列表;
获取所述句子中包含在实体关系中的谓语;
获取所述句子中位于所述日期前的介词;
检测在所述句子的主语、谓语与日期前的介词之间,在链接语法结构中是否有一条直接的链接;
若是,通过所述句子所包含的与主语、谓语有链接的日期,构建新的时间关系;
循环执行上述过程,直到得到所述训练语料库中所有符合所述正例的句子。
所述带时间属性的正例,用如下方式表示:
其中,Entity分别表示两个实体,Relation表示实体之间的关系类型,[t1,t2]表示实体关系开始的时间和结束时间。
所述链接语法解析形式,包括:
链接为链接句子中两个或两个以上词的平面无向图结构;链接任意两个词的为边;每条边都用链接符标注;链接符取自一个有限的符号集合,标明了一条句子中两个词之间的实体关系;
所述边和链接符满足链接语法生产规则;
符合上述形式的句子即为所述句子的链接语法解析形式。
所述正模式为一种逻辑结构,表征两个或两个以上的实体之间的逻辑关系;所述逻辑关系唯一对应两个实体之间的目标关系。
所述方法还包括:
当能与所述正模式匹配并同时能够产生反例的句子的数量大于等于设定阈值时,删除所述正模式。
根据本公开的另一方面,提供了一种基于人工智能的实体关系对识别系统,包括:
解析单元,用于从训练语料库中获取出现正例的句子,将所述句子解析成链接语法解析形式;所述正例为存在目标关系的两个实体;
正模式单元,用于将所述链接语法解析形式的句子中链接符链接的两个实体替换为占位符;根据所述占位符和对应的链接符,提取得到正模式;
删选单元,用于根据所述正模式,遍历所述训练语料库中句子;当能与所述正模式匹配并同时能够产生反例的句子的数量小于设定阈值时,保留所述正模式;
实体对识别单元,用于将所述训练语料库中句子按带时间属性实体关系抽取处理,得到带时间属性的所述正例;将所述带时间属性的正例与所述正模式匹配,将能够匹配的所述带时间属性的正例中的两个实体、时间属性以及所述目标关系作为实体关系对。
所述实体对识别单元,还用于:
获取所述训练语料库中的句子,将所述句子解析成链接语法解析形式;
根据所述句子的连接语法解析形式,提取目标关系的实体关系;
获取所有在所述句子中出现过的日期列表;
获取所述句子中包含在实体关系中的谓语;
获取所述句子中位于所述日期前的介词;
检测在所述句子的主语、谓语与日期前的介词之间,在链接语法结构中是否有一条直接的链接;
若是,通过所述句子所包含的与主语、谓语有链接的日期,构建新的时间关系;
循环执行上述过程,直到得到所述训练语料库中所有符合所述正例的句子。
根据本公开上述的一个或多个技术方案,其提供了一种基于人工智能的实体关系对识别的方案,通过人工智能的方式,从训练语料库中自动分析句子并得到目标关系对应实体,然后结合两个或多个实体的时间属性,提取出符合时间属性的实体关系对,用以具体的语义分析。本实施例的方案,能够准确识别语句中实体关系对,从而能够准确分析语句中目标关系的词语以及短语的实际关系,从而准确识别语句的实际含义,为人工智能开展语义识别奠定基础。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本公开的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了根据本公开一个实施例的基于人工智能的实体关系对识别方法的流程图;
图2示出了根据本公开一个实施例的基于人工智能的实体关系对识别装置的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
本发明的目的即在于基于协陪义动词的研究,对实体关系进行推理、分析、抽取。
实施例一
图1示出了本实施例的基于人工智能的实体关系对识别方法流程图,参照图1,所述方法可以包括:
步骤11,从训练语料库中获取出现正例的句子,将所述句子解析成链接语法解析形式;所述正例为存在目标关系的两个实体。
从训练语料库中寻找出现正例的句子,将其解析成链接语法解析形式。
链接语法解析中,一个链接是指链接句子中两个或多个词的平面无向图结构(Planar Undirected Graph)。
其中链接两个词的叫做边(link)。.
每条边都用链接符(connector)标注,例如“det”、“mod”等。
链接符取自一个有限的符号集合。如subj标明了一条句子中从主语词到谓语词的边。
这些边和链接符必须满足一定的语法生产规则,这些语法规则就称为链接语法(link grammar)。
link grammar是一组规则集合,决定了什么样的词可以通过什么样的链接符与前面或者在后面的词管理。
具体来说,正例即为存在目标关系的两个实体。目标关系是设定的关系,也即两个实体间的设定关系。当两个实体存在目标关系时,为一个正例。当句子中出现这个正例时,这个句子命中,进一步将该句子解析。
实际上,目标关系并不限定数量,可以是很多种。实体也可以包括很多对。因而,正例可以是同时存在的多个正例。
步骤12,将所述链接语法解析形式的句子中链接符链接的两个实体替换为占位符;根据所述占位符和对应的链接符,提取得到正模式。
在解析中,两个实体被占位符替换,转化成正模式(positive patterns)。正模式解释:如对于“生日(birthday)”关系这一目标关系,一个人与其生日日期的实体对就是“生日”关系的目标关系的正例。而当两个实体符合目标关系时,则两个实体再句子中的逻辑关系即为正模式。因而,正模式是一种逻辑关系,不依赖于实体,仅表示两个占位符所代表的实体之间的逻辑关系。换句话说,符合正模式的两个实体间的实际关系即为目标关系。
所述正模式为一种逻辑结构,表征两个或两个以上的实体之间的逻辑关系;所述逻辑关系唯一对应两个实体之间的目标关系。
步骤13,根据所述正模式,遍历所述训练语料库中句子;当能与所述正模式匹配并同时能够产生反例的句子的数量小于设定阈值时,保留所述正模式。
当能与所述正模式匹配并同时能够产生反例的句子的数量大于等于设定阈值时,删除所述正模式。
本步骤的目的在于对提取出的正模式进行验证。使用训练语料库中的句子,遍历其中的句子,与正模式匹配。若句子能够匹配正模式,并且能够产生反例,则标注该反例为反模式(negative patterns)。
反模式解释:比如对于“生日”关系,如果(“Chopin”,1810)是一个正例,则(“Chopin”,2000)就是一个反例,因为一个人只能有一个生日。
本步骤旨在验证提取出来的正模式是否准确。当与正模式匹配的句子中两个实体的关系确实为目标关系时,该句子中的正模式予以保留。否则,当与正模式匹配的句子中两个实体的关系不是目标关系时,可以对该正模式予以修正。
具体来说,对训练语料库中所有句子遍历以后,统计所有的正模式与反模式的数量和占比,若反模式数量大于一定阈值,则删除对应的正模式。若正模式数量大于一定的阈值,则保留该正模式。
步骤14,将所述训练语料库中句子按带时间属性实体关系抽取处理,得到带时间属性的所述正例。
将所述训练语料库中句子按带时间属性实体关系抽取处理,得到带时间属性的链接语法解析形式;将所述带时间属性的链接语法解析形式中的两个实体替换为占位符,并与所述正模式匹配。
带时间属性实体关系抽取算法步骤包括:
对时间属性进行定义如下:
Entity表示两个实体,Relation表示实体之间的关系类型。[t1,t2]表示实体关系开始的时间和结束时间。
本实施例中,在Leila算法的基础上,分析句子中的时间成本,根据句子特点,将时间信息与实体关系进行匹配。
算法原理如下:
根据链接语法原理,提出了Leila算法。在Leila算法中,给定一个目标关系类型,一个实体对会根据一个分类函数将其分成四类。
Leila算法中分的四类如下所述:
实体对是目标关系的正例。
实体对是目标关系的反例。
实体对是目标关系的一个候选项。
不是上面任何一种。
Leila算法使用的语料由自然语句组成。这些语句需要解析成深层语法结构。Leila算法的阶段可解析成发现阶段、评估阶段、抽取阶段这三个阶段。
算法流程步骤如下:
Leila运算法则是先输入一个整句,输出相应语法的结构解析链接。
Algorithm ExtendedLeila
Input:A sentence Sent
Output:A list of facts.
LinkGrammarParser:这个模块接受一个自然语言句子作为输入,并输出相应的链接语法解析结构。
parsedGram←LinkGrammarParser(Sent)
Leila:本系统在句子处理过程中实现Leila算法,并利用Leila发现句子中隐藏的实体关系。Leila算法接受链接语法解析输出结果作为输入,并返回一个抽取实体关系列表。
factList←Leila(parsedGram)
DateRecognition:函数通过接受一个句子作为输入,并输出所有在此句子中出现过的日期列表。在这里日期包含了不同维度的时间表示,包括年、月和日。这个函数主要通过模板匹配的方法识别H期。
dateList←DateRecognition(Sent)
GetVerb:函数在句子中监测包含在实体关系中的谓语。
for each fact in factlist,do
verb←GetVerb(parsedGram,fact)
GetPreposition:函数用于检测谓语日期短语前的介词。
for each date in dateList,do
prep←Getpreposition(date,Sent)
Haslinkage:函数检测在主谓与日期前的介词之间是否有一条直接的链接(在链接语法结构中)。
if HasLinkage(prep,verb)is true,then
GetTimeRelation:函数在HasLinkage函数判断为真的时候,构建一些新的时间关系,这些时间关系都是通过主关系的标识和与他们所包含的主谓语有链接的日期短语组成。
newFactList←GetTimeRelation(prep,Sent)
factList←factList+newFactList
如此一直反复循环,直到输出训练语料库中所有句子对应的正例。
步骤15,将所述带时间属性的正例与所述正模式匹配,将能够匹配的所述带时间属性的正例中的两个实体、时间属性以及所述目标关系作为实体关系对。
具体将带时间属性的正例与提取出的正模式相匹配,能够匹配的两个实体作为实体关系对输出。同时,两个实体还包括时间属性和相互间的关系。
本实施例中,通过人工智能的方式,从训练语料库中自动分析句子并得到目标关系对应实体,然后结合两个或多个实体的时间属性,提取出符合时间属性的实体关系对,用以具体的语义分析。本实施例的方案,能够准确识别语句中实体关系对,从而能够准确分析语句中目标关系的词语以及短语的实际关系,从而准确识别语句的实际含义,为人工智能开展语义识别奠定基础。
实施例二
如图2所示,其中公开了一种基于人工智能的实体关系对识别系统,其中,
解析单元21,用于从训练语料库中获取出现正例的句子,将所述句子解析成链接语法解析形式;所述正例为存在目标关系的两个实体;
正模式单元22,用于将所述链接语法解析形式的句子中链接符链接的两个实体替换为占位符;根据所述占位符和对应的链接符,提取得到正模式;
删选单元23,用于根据所述正模式,遍历所述训练语料库中句子;当能与所述正模式匹配并同时能够产生反例的句子的数量小于设定阈值时,保留所述正模式;
实体对识别单元24,用于将所述训练语料库中句子按带时间属性实体关系抽取处理,得到带时间属性的所述正例;将所述带时间属性的正例与所述正模式匹配,将能够匹配的所述带时间属性的正例中的两个实体、时间属性以及所述目标关系作为实体关系对。
进一步的,所述实体对识别单元24,还用于:
获取所述训练语料库中的句子,将所述句子解析成链接语法解析形式;
根据所述句子的连接语法解析形式,提取目标关系的实体关系;
获取所有在所述句子中出现过的日期列表;
获取所述句子中包含在实体关系中的谓语;
获取所述句子中位于所述日期前的介词;
检测在所述句子的主语、谓语与日期前的介词之间,在链接语法结构中是否有一条直接的链接;
若是,通过所述句子所包含的与主语、谓语有链接的日期,构建新的时间关系;
循环执行上述过程,直到得到所述训练语料库中所有符合所述正例的句子。
根据本公开上述的一个或多个技术方案,一种基于人工智能的实体关系对识别的方案,通过人工智能的方式,从训练语料库中自动分析句子并得到目标关系对应实体,然后结合两个或多个实体的时间属性,提取出符合时间属性的实体关系对,用以具体的语义分析。本实施例的方案,能够准确识别语句中实体关系对,从而能够准确分析语句中目标关系的词语以及短语的实际关系,从而准确识别语句的实际含义,为人工智能开展语义识别奠定基础。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本公开的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本公开的示例性实施例的描述中,本公开的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本公开要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本公开的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本公开的范围之内并且形成不同的实施例。例如,在权利要求书中所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本公开的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本公开还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本公开的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本公开进行说明而不是对本公开进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本公开可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。
以上所述仅是本公开的具体实施方式,应当指出的是,对于本领域的普通技术人员来说,在不脱离本公开精神的前提下,可以作出若干改进、修改、和变形,这些改进、修改、和变形都应视为落在本申请的保护范围内。

Claims (9)

1.一种基于人工智能的实体关系对识别方法,其特征在于,包括:
从训练语料库中获取出现正例的句子,将所述句子解析成链接语法解析形式;所述正例为存在目标关系的两个实体;
将所述链接语法解析形式的句子中链接符链接的两个实体替换为占位符;根据所述占位符和对应的链接符,提取得到正模式;
根据所述正模式,遍历所述训练语料库中句子;当能与所述正模式匹配并同时能够产生反例的句子的数量小于设定阈值时,保留所述正模式;
将所述训练语料库中句子按带时间属性实体关系抽取处理,得到带时间属性的所述正例;
将所述带时间属性的正例与所述正模式匹配,将能够匹配的所述带时间属性的正例中的两个实体、时间属性以及所述目标关系作为实体关系对。
2.如权利要求1所述的方法,其特征在于,所述方法还包括:
将所述训练语料库中句子按带时间属性实体关系抽取处理,得到带时间属性的链接语法解析形式;
将所述带时间属性的链接语法解析形式中的两个实体替换为占位符,并与所述正模式匹配;
将能够匹配的对应句子中的所述两个实体、时间属性以及所述目标关系作为实体关系对。
3.如权利要求1所述的方法,其特征在于,所述带时间属性实体关系抽取处理,包括:
获取所述训练语料库中的句子,将所述句子解析成链接语法解析形式;
根据所述句子的连接语法解析形式,提取目标关系的实体关系;
获取所有在所述句子中出现过的日期列表;
获取所述句子中包含在实体关系中的谓语;
获取所述句子中位于所述日期前的介词;
检测在所述句子的主语、谓语与日期前的介词之间,在链接语法结构中是否有一条直接的链接;
若是,通过所述句子所包含的与主语、谓语有链接的日期,构建新的时间关系;
循环执行上述过程,直到得到所述训练语料库中所有符合所述正例的句子。
4.如权利要求3所述的方法,其特征在于,所述带时间属性的正例,用如下方式表示:
其中,Entity分别表示两个实体,Relation表示实体之间的关系类型,[t1,t2]表示实体关系开始的时间和结束时间。
5.如权利要求1所述的方法,其特征在于,所述链接语法解析形式,包括:
链接为链接句子中两个或两个以上词的平面无向图结构;链接任意两个词的为边;每条边都用链接符标注;链接符取自一个有限的符号集合,标明了一条句子中两个词之间的实体关系;
所述边和链接符满足链接语法生产规则;
符合上述形式的句子即为所述句子的链接语法解析形式。
6.如权利要求1所述的方法,其特征在于,所述正模式为一种逻辑结构,表征两个或两个以上的实体之间的逻辑关系;所述逻辑关系唯一对应两个实体之间的目标关系。
7.如权利要求1所述的方法,其特征在于,所述方法还包括:
当能与所述正模式匹配并同时能够产生反例的句子的数量大于等于设定阈值时,删除所述正模式。
8.一种基于人工智能的实体关系对识别系统,其特征在于,包括:
解析单元,用于从训练语料库中获取出现正例的句子,将所述句子解析成链接语法解析形式;所述正例为存在目标关系的两个实体;
正模式单元,用于将所述链接语法解析形式的句子中链接符链接的两个实体替换为占位符;根据所述占位符和对应的链接符,提取得到正模式;
删选单元,用于根据所述正模式,遍历所述训练语料库中句子;当能与所述正模式匹配并同时能够产生反例的句子的数量小于设定阈值时,保留所述正模式;
实体对识别单元,用于将所述训练语料库中句子按带时间属性实体关系抽取处理,得到带时间属性的所述正例;将所述带时间属性的正例与所述正模式匹配,将能够匹配的所述带时间属性的正例中的两个实体、时间属性以及所述目标关系作为实体关系对。
9.如权利要求8所述的系统,其特征在于,所述实体对识别单元,还用于:
获取所述训练语料库中的句子,将所述句子解析成链接语法解析形式;
根据所述句子的连接语法解析形式,提取目标关系的实体关系;
获取所有在所述句子中出现过的日期列表;
获取所述句子中包含在实体关系中的谓语;
获取所述句子中位于所述日期前的介词;
检测在所述句子的主语、谓语与日期前的介词之间,在链接语法结构中是否有一条直接的链接;
若是,通过所述句子所包含的与主语、谓语有链接的日期,构建新的时间关系;
循环执行上述过程,直到得到所述训练语料库中所有符合所述正例的句子。
CN201711332925.6A 2017-12-13 2017-12-13 一种基于人工智能的实体关系对识别方法及系统 Pending CN108052501A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711332925.6A CN108052501A (zh) 2017-12-13 2017-12-13 一种基于人工智能的实体关系对识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711332925.6A CN108052501A (zh) 2017-12-13 2017-12-13 一种基于人工智能的实体关系对识别方法及系统

Publications (1)

Publication Number Publication Date
CN108052501A true CN108052501A (zh) 2018-05-18

Family

ID=62132718

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711332925.6A Pending CN108052501A (zh) 2017-12-13 2017-12-13 一种基于人工智能的实体关系对识别方法及系统

Country Status (1)

Country Link
CN (1) CN108052501A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110895584A (zh) * 2018-09-10 2020-03-20 百度在线网络技术(北京)有限公司 用于生成数据的方法和装置
CN111291554A (zh) * 2020-02-27 2020-06-16 京东方科技集团股份有限公司 标注方法、关系抽取方法、存储介质和运算装置
WO2023206261A1 (zh) * 2022-04-28 2023-11-02 西门子股份公司 生成描述工作流的自然语言语句的方法、装置及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090112825A1 (en) * 2007-10-31 2009-04-30 Nec (China) Co., Ltd Entity relation mining apparatus and method
CN105938495A (zh) * 2016-04-29 2016-09-14 乐视控股(北京)有限公司 实体关系识别方法及装置
CN107391673A (zh) * 2017-07-21 2017-11-24 深圳狗尾草智能科技有限公司 携带时间戳的中文通用知识图谱的生成方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090112825A1 (en) * 2007-10-31 2009-04-30 Nec (China) Co., Ltd Entity relation mining apparatus and method
CN101425065A (zh) * 2007-10-31 2009-05-06 日电(中国)有限公司 实体关系挖掘设备和方法
CN105938495A (zh) * 2016-04-29 2016-09-14 乐视控股(北京)有限公司 实体关系识别方法及装置
CN107391673A (zh) * 2017-07-21 2017-11-24 深圳狗尾草智能科技有限公司 携带时间戳的中文通用知识图谱的生成方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张奇: "信息抽取中实体关系识别研究", 《中国博士学位论文全文数据库信息科技辑》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110895584A (zh) * 2018-09-10 2020-03-20 百度在线网络技术(北京)有限公司 用于生成数据的方法和装置
CN111291554A (zh) * 2020-02-27 2020-06-16 京东方科技集团股份有限公司 标注方法、关系抽取方法、存储介质和运算装置
CN111291554B (zh) * 2020-02-27 2024-01-12 京东方科技集团股份有限公司 标注方法、关系抽取方法、存储介质和运算装置
WO2023206261A1 (zh) * 2022-04-28 2023-11-02 西门子股份公司 生成描述工作流的自然语言语句的方法、装置及存储介质

Similar Documents

Publication Publication Date Title
Xiao et al. Improving bug localization with word embedding and enhanced convolutional neural networks
US11625424B2 (en) Ontology aligner method, semantic matching method and apparatus
CN106202380B (zh) 一种分类语料库的构建方法、系统及具有该系统的服务器
US7689527B2 (en) Attribute extraction using limited training data
US11816138B2 (en) Systems and methods for parsing log files using classification and a plurality of neural networks
US20220004878A1 (en) Systems and methods for synthetic document and data generation
CN105701253A (zh) 中文自然语言问句语义化的知识库自动问答方法
Ell et al. A language-independent method for the extraction of RDF verbalization templates
Ferrara et al. Benchmarking matching applications on the semantic web
CN108052501A (zh) 一种基于人工智能的实体关系对识别方法及系统
JP2022115815A (ja) 拡張プログラミング言語コーパスに基づく意味コード検索
CN109840255A (zh) 答复文本生成方法、装置、设备及存储介质
CN113779358A (zh) 一种事件检测方法和系统
Gupta et al. Joint bootstrapping machines for high confidence relation extraction
Li et al. Improvement of n-ary relation extraction by adding lexical semantics to distant-supervision rule learning
Bogatu et al. Towards automatic data format transformations: data wrangling at scale
JP6327799B2 (ja) 自然言語推論システム、自然言語推論方法及びプログラム
CN110008352A (zh) 实体发现方法及装置
US20230075290A1 (en) Method for linking a cve with at least one synthetic cpe
CN104298704B (zh) 在博客上实现文本推送的方法和系统
CN108415896A (zh) 深度学习模型训练方法、分词方法、训练系统和分词系统
RU2643438C2 (ru) Обнаружение языковой неоднозначности в тексте
CN109189910B (zh) 一种面向移动应用问题报告的标签自动推荐方法
Mihindukulasooriya et al. Repairing hidden links in linked data: enhancing the quality of RDF knowledge graphs
Patel et al. Combining holistic source code representation with siamese neural networks for detecting code clones

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20180518

RJ01 Rejection of invention patent application after publication