CN111027309A - 一种基于双向长短期记忆网络的实体属性值的抽取方法 - Google Patents

一种基于双向长短期记忆网络的实体属性值的抽取方法 Download PDF

Info

Publication number
CN111027309A
CN111027309A CN201911235497.4A CN201911235497A CN111027309A CN 111027309 A CN111027309 A CN 111027309A CN 201911235497 A CN201911235497 A CN 201911235497A CN 111027309 A CN111027309 A CN 111027309A
Authority
CN
China
Prior art keywords
entity
attribute values
term memory
short term
attribute
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911235497.4A
Other languages
English (en)
Other versions
CN111027309B (zh
Inventor
韩伟红
徐菁
陈雷霆
陈育梅
赵朗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Electronic Information Engineering Research Institute of UESTC
Original Assignee
Guangdong Electronic Information Engineering Research Institute of UESTC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Electronic Information Engineering Research Institute of UESTC filed Critical Guangdong Electronic Information Engineering Research Institute of UESTC
Priority to CN201911235497.4A priority Critical patent/CN111027309B/zh
Publication of CN111027309A publication Critical patent/CN111027309A/zh
Application granted granted Critical
Publication of CN111027309B publication Critical patent/CN111027309B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Machine Translation (AREA)

Abstract

本发明属于网络文本数据处理的技术领域,具体涉及一种基于双向长短期记忆网络的实体属性值的抽取方法,包括如下步骤,步骤一、对文档集进行预处理;步骤二、采用类别映射,从包含实体的语句中识别属性值;步骤三、对实体和属性值的语句执行深层句法分析,抽取与相关的句子成分,作为训练语料;步骤四、采用词向量模型对所述训练语料进行向量转化,结合句法特征,训练BLSTM模型参数,将所述实体和所述属性值分类到给定的属性名类别中。本发明采用双向长短期记忆网络,能够精准判别实体、属性名和属性值之间关系。

Description

一种基于双向长短期记忆网络的实体属性值的抽取方法
技术领域
本发明属于网络文本数据处理的技术领域,具体涉及一种基于双向长短期记忆网络的实体属性值的抽取方法。
背景技术
随着各类网络媒体的蓬勃发展,互联网上的非结构化文本数据呈现爆炸式增长,如新闻、微博、博客、聊天记录、电子邮件等。这些数据中蕴含着大量的价值信息,比如实体。实体是文本数据中承载信息的最基本单位,随着数据的大量发布,实体名称的歧义性和多样性问题也日益普遍,仅识别实体名称无法满足人们对文本深层次语义信息的需求。因而,为了描述实体的本质,越来越多的研究者开始关注实体的属性信息,比如人物的年龄、籍贯、出生日期;机构的创办时间、地点、领导成员等。实体属性值抽取作为信息抽取技术的一种任务,为许多技术和互联网应用提供了重要的数据来源,包括实体消歧、用户意图理解、推荐系统、问答系统、知识图谱等。然而互联网上文本数据的海量性、异构性、领域开放性、不规范性等特点,导致实体属性值的类别多样、构成复杂,给实体属性值抽取技术带来了新的研究挑战。
发明人发现现有方案至少还存在以下缺陷:实体、属性名和属性值之间关系难以判别。
发明内容
本发明的目的在于:针对现有技术的不足,提供一种基于双向长短期记忆网络的实体属性值的抽取方法,采用双向长短期记忆网络,能够精准判别实体、属性名和属性值之间关系。
为了实现上述目的,本发明采用如下技术方案:
一种基于双向长短期记忆网络的实体属性值的抽取方法,包括如下步骤:
步骤一、对文档集进行预处理;
步骤二、采用类别映射,从包含实体的语句中识别属性值;
步骤三、对实体和属性值的语句执行深层句法分析,抽取与相关的句子成分,作为训练语料;
步骤四、采用词向量模型对所述训练语料进行向量转化,结合句法特征,训练BLSTM模型参数,将所述实体和所述属性值分类到给定的属性名类别中。
需要说明的是,本发明的抽取方法中,利用长短期记忆网络强大的自学习能力,可以挖掘序列数据内部复杂的结构特征,首先,结合句法分析和设计的基于类别映射方法,自动构建训练语料并进行优化,有效降低了深度学习模型对训练语料规模的依赖性,并摆脱了外部数据资源的限制。然后,结合词向量模型和文本特征,训练双向长短期记忆网络模型参数,有利于实体、属性名和属性值之间关系的精准判别。
作为本发明所述的一种基于双向长短期记忆网络的实体属性值的抽取方法的一种改进,所述步骤一中,所述预处理包括分句、分词、词性标注、依存关系解析及实体缺失处理。
作为本发明所述的一种基于双向长短期记忆网络的实体属性值的抽取方法的一种改进,所述步骤一中,所述预处理包括:
根据给定的实体的文本位置,结合句子结束的标记符号;
通过语料分析,判断部分语句存在实体缺失的情况;
借助HanLP中文自然语言处理工具,对所述语句进行分词、词性标注和依存关系解析操作,然后将每个所述语句表示为自然语言标记的词语序列。
作为本发明所述的一种基于双向长短期记忆网络的实体属性值的抽取方法的一种改进,所述步骤二中,识别所述属性值包括:
分析属性名列表,获取所述属性值所属的实体类别,以及对应的词性标签;
利用依存关系信息,将与所述实体具有最短依存关系路径的词语作为所述属性值输出。
作为本发明所述的一种基于双向长短期记忆网络的实体属性值的抽取方法的一种改进,所述步骤四中,还包括:
从所述语句中提取与所述实体和所述属性值相关的文本片段代表该语句的核心语义;
基于所述句子成分之间的依存关系,从所述实体与所述属性值的依存关系路径上提取相关的词语,并按照文本位置进行排列。
作为本发明所述的一种基于双向长短期记忆网络的实体属性值的抽取方法的一种改进,所述步骤四,还包括:
对于训练语料中的每个所述语句,组合其中每个词语向量、词性向量、词语和所述实体的距离向量、及所述属性值的距离向量;
形成一个行数为语料中词语总数,作为BLSTM的输入。
作为本发明所述的一种基于双向长短期记忆网络的实体属性值的抽取方法的一种改进,所述训练预料包括用于槽填充竞赛的数据集。
作为本发明所述的一种基于双向长短期记忆网络的实体属性值的抽取方法的一种改进,所述词向量模型为word2vec词向量模型。
本发明的有益效果在于,本发明包括如下步骤,步骤一、对文档集进行预处理;步骤二、采用类别映射,从包含实体的语句中识别属性值;步骤三、对实体和属性值的语句执行深层句法分析,抽取与相关的句子成分,作为训练语料;步骤四、采用词向量模型对所述训练语料进行向量转化,结合句法特征,训练BLSTM模型参数,将所述实体和所述属性值分类到给定的属性名类别中。利用长短期记忆网络强大的自学习能力,可以挖掘序列数据内部复杂的结构特征,首先,结合句法分析和设计的基于类别映射方法,自动构建训练语料并进行优化,有效降低了深度学习模型对训练语料规模的依赖性,并摆脱了外部数据资源的限制。然后,结合词向量模型和文本特征,训练双向长短期记忆网络模型参数,有利于实体、属性名和属性值之间关系的精准判别。本发明采用双向长短期记忆网络,能够精准判别实体、属性名和属性值之间关系。
附图说明
图1为本发明的结构示意图。
图2为本发明中句法解释的示意图。
图3为本发明中依存解释树结构示意图。
图4为本发明中输入语句的向量矩阵示意图。
图5为本发明中LSTM结构图。
图6为本发明中BLSTM结构图。
具体实施方式
如在说明书及权利要求当中使用了某些词汇来指称特定组件。本领域技术人员应可理解,硬件制造商可能会用不同名词来称呼同一个组件。本说明书及权利要求并不以名称的差异来作为区分组件的方式,而是以组件在功能上的差异来作为区分的准则。如在通篇说明书及权利要求当中所提及的“包含”为一开放式用语,故应解释成“包含但不限定于”。“大致”是指在可接受的误差范围内,本领域技术人员能够在一定误差范围内解决技术问题,基本达到技术效果。
在本发明的描述中,需要理解的是,术语“上”、“下”、“前”、“后”、“左”、“右”、水平”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
在发明中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
以下结合附图1~6对本发明作进一步详细说明,但不作为对本发明的限定。
一种基于双向长短期记忆网络的实体属性值的抽取方法,包括如下步骤:
步骤一、对文档集进行预处理;
步骤二、采用类别映射,从包含实体的语句中识别属性值;
步骤三、对实体和属性值的语句执行深层句法分析,抽取与相关的句子成分,作为训练语料;
步骤四、采用词向量模型对训练语料进行向量转化,结合句法特征,训练BLSTM模型参数,将实体和属性值分类到给定的属性名类别中。
需要说明的是,本发明的抽取方法中,利用长短期记忆网络强大的自学习能力,可以挖掘序列数据内部复杂的结构特征,首先,结合句法分析和设计的基于类别映射方法,自动构建训练语料并进行优化,有效降低了深度学习模型对训练语料规模的依赖性,并摆脱了外部数据资源的限制。然后,结合词向量模型和文本特征,训练双向长短期记忆网络模型参数,有利于实体、属性名和属性值之间关系的精准判别。
优选的,步骤一中,预处理包括分句、分词、词性标注、依存关系解析及实体缺失处理。
优选的,步骤一中,预处理包括:
根据给定的实体的文本位置,结合句子结束的标记符号;
通过语料分析,判断部分语句存在实体缺失的情况;
借助HanLP中文自然语言处理工具,对语句进行分词、词性标注和依存关系解析操作,然后将每个语句表示为自然语言标记的词语序列。
需要说明的是:结合句子结束的标记符号,包括“句号、问号、感叹号、分号、省略号”等标点符号;实体缺失表现为实体由人称代词替代和实体省略两种情况。针对第一种情况,采用了简单的指代消解方法,即直接将人称代词替换为实体名称。针对第二种情况,基于实体是语句描述的主题,在句子开头添加了实体名称和逗号,用于区分实体和其他句子成分,可以避免错误分词导致的实体被分割或与其他词语组合。经过以上处理,使得实体名称的有效语句增加,有助于提高训练语料的覆盖率。
优选的,步骤二中,识别属性值包括:
分析属性名列表,获取属性值所属的实体类别,以及对应的词性标签;
利用依存关系信息,将与实体具有最短依存关系路径的词语作为属性值输出。
需要说明的是:分析属性名列表,获取属性值所属的实体类别,以及对应的词性标签,如表1所示,其中“√”表示人物和机构类别的实体的属性值对应的实体类别及词性标签,“×”则相反。比如,人物类实体没有网址类别的属性值,其属性名“出生地”对应的属性值是地点,依据HanLP工具的词性标注集合,获取表示地点的词性,为“ns”。数字、日期、网址具有规律固定的构成形式,比如网址一般以www开头,日期包含“年月日”中一个或多个,或者用“-”隔开等,采用正则表达式来识别此类属性值。由于其他类别的属性值,比如人物、地点、组织、疾病和头衔,构成成分复杂,表示形式多变,且存在未登陆词,即不在词典中的词语,导致分词工具容易将其分割。为了获取完整的名称表示形式,综合利用词性和依存关系等句法信息,寻找具有表1所列的词性标签的词语,若是核心词,且存在与其具有“定中关系”的依存关系的名词性词语,且两者之间不存在助词,如“的”,则将它们组合作为属性值输出。从图2中的语句中可以获取“桂发祥麻花饮食集团公司”的完整表示。通过语料统计,该方法比直接使用分词工具提高了10.55%准确度,达到了95.36%的准确度。考虑到一条语句中可能存在多个与属性值词性相同的词语,针对这种情况,利用依存关系信息,将与实体具有最短依存关系路径的词语作为属性值输出。
表1
Figure BDA0002304776540000071
优选的,步骤四中,还包括:
从语句中提取与实体和属性值相关的文本片段代表该语句的核心语义;
基于句子成分之间的依存关系,从实体与属性值的依存关系路径上提取相关的词语,并按照文本位置进行排列。
需要说明的是:通常直接使用实体和属性值共现的语句作为输入,然而其中包含很多和实体和属性值没有关联的噪音信息,会严重影响模型的学习和预测性能。比如,对于语句“郭全宝,出生于北京,是一名相声演员。”,对于实体“郭全宝”和属性值“演员”来说,句子成分“出生于北京”对它们分类到属性名“职业”没有帮助,还会增加BLSTM学习句子结构和特征的负担。基于以上考虑,提取方法对训练语料进行优化,从语句中提取与实体和属性值相关的文本片段代表该语句的核心语义。具体实现是基于句子成分之间的依存关系,从实体与属性值的依存关系路径上提取相关的词语,并按照文本位置进行排列,在保证文本语义的同时,降低了计算复杂度和成本。其中,为了保证词语的有效描述,获取词语的完整表示形式,从前面提到的例句的依存关系解析树中,如图3所示,提取的核心内容为“郭全宝,是,一名,相声,演员”
优选的,步骤四,还包括:
对于训练语料中的每个语句,组合其中每个词语向量、词性向量、词语和实体的距离向量、及属性值的距离向量;
形成一个行数为语料中词语总数,作为BLSTM的输入。
需要说明的是:训练语料还使用了用于槽填充竞赛的数据集。利用训练好的词向量模型,每个词语w可以被表示为w=(v1,v2,...,vn)的实值向量形式。其中,n表示向量维度,可以在训练词向量模型时进行设置,vi表示第i维度上的实值数字。从而,一个包含m个词语wj的输入语句
Figure BDA0002304776540000081
可以表示为行数为m,列数为n的向量矩阵形式,如图4所示。对于词性和距离特征,本发明采用独热码编码方式进行向量表示。独热码编码,直观上讲有多少个状态就对应多少比特,其中只有一个比特为1,其他全为0的一种编码方式。应用到词性向量转化上,具体实现为:为语料中所有词语的词性标签建立一个词典Dp=(p1,p2,...,pa),词典的规模a作为向量的维度,相同词性的位置赋值1,其他位置赋值0。比如对于词性pi,则获取了一个a维的词性向量Pi=(...,010,...)。同理,对于距离向量转化,统计语料中所有词语与实体和属性值的距离,建立一个距离词典Dd=(d1,d2...db),词典的规模b作为向量的维度,相同距离的位置赋值1,其他位置赋值0。比如,对于距离dj,则获取了一个b维的词性向量dj=(...,010,...)。
优选的,训练预料包括用于槽填充竞赛的数据集。
优选的,词向量模型为word2vec词向量模型。
将文本特征融入模型的有效性,在准确性和召回率上均有了明显提升。原因是使用与实体和属性值的相关词语作为输入语料,可以去除噪音信息的负面影响,降低了BLSTM模型学习其他文本信息和复杂结构的负担。词性信息可以泛化词语的表达能力,有助于BLSTM模型捕获新数据的特征。距离特征度量了输入语料中词语与实体和属性值的相关性,进一步提高了语料的描述力度。
如图5所示,LSTM神经元的基本结构,包括输入门、输出门、遗忘门和记忆神经元。给定当前时刻t的输入向量xi,以及前一时刻的神经元的输出向量hi-1和记忆状态ci-1,当前时刻神经元的输出向量hi和记忆状态ci,可以使用公式如下
ii=σ(Wihi-1+Uixi+bi)
Figure BDA0002304776540000091
fi=σ(Wfhi-1+Ufxi+bf)
Figure BDA0002304776540000092
oi=σ(Woht-t+Uoxi+bo)
hi=oi⊙tanh(ci)
其中,it
Figure BDA0002304776540000093
ct组合对应输入门,用于控制需要更新的信息。ft对应遗忘门,用于决定丢失的信息。ot、ht组合对应输出门,用于决定输出的信息。σ表示一个点对sigmoid函数,⊙表示点对操作运算,比如向量的乘和加。Wi、Wf、Wc、Wo分别表示输出向量ht-1的不同权值矩阵。bi、bf、bc、bo表示不同的偏置向量。Ui、Uf、Uc、Uo分别表示输入向量xi的不同权值矩阵。
长短期记忆网络的传播是单方向的,即信息由前一时刻传播到后一时刻,导致任意时刻的神经元只能接收前一时刻神经元发送的信息,而无法获知后面时刻神经元的信息。然而,针对序列数据而言,当前词会同时受到上下文中的词语影响,若仅捕捉前文中的信息,势必影响处理性能。BLSTM由两层不同传播方向的LSTM网络组成,通过组合前向传播层和后向传播层的神经元输出,使得当前时刻t的神经元可以同时具有前一时刻t-1和后一时刻t+1的神经元的输出信息,进而达成捕获上下文语境信息的目的。
根据上述说明书的揭示和教导,本发明所属领域的技术人员还能够对上述实施方式进行变更和修改。因此,本发明并不局限于上述的具体实施方式,凡是本领域技术人员在本发明的基础上所作出的任何显而易见的改进、替换或变型均属于本发明的保护范围。此外,尽管本说明书中使用了一些特定的术语,但这些术语只是为了方便说明,并不对本发明构成任何限制。

Claims (8)

1.一种基于双向长短期记忆网络的实体属性值的抽取方法,其特征在于,包括如下步骤:
步骤一、对文档集进行预处理;
步骤二、采用类别映射,从包含实体的语句中识别属性值;
步骤三、对实体和属性值的语句执行深层句法分析,抽取与相关的句子成分,作为训练语料;
步骤四、采用词向量模型对所述训练语料进行向量转化,结合句法特征,训练BLSTM模型参数,将所述实体和所述属性值分类到给定的属性名类别中。
2.如权利要求1所述的一种基于双向长短期记忆网络的实体属性值的抽取方法,其特征在于:所述步骤一中,所述预处理包括分句、分词、词性标注、依存关系解析及实体缺失处理。
3.如权利要求1所述的一种基于双向长短期记忆网络的实体属性值的抽取方法,其特征在于,所述步骤一中,所述预处理包括:
根据给定的实体的文本位置,结合句子结束的标记符号;
通过语料分析,判断部分语句存在实体缺失的情况;
借助HanLP中文自然语言处理工具,对所述语句进行分词、词性标注和依存关系解析操作,然后将每个所述语句表示为自然语言标记的词语序列。
4.如权利要求1所述的一种基于双向长短期记忆网络的实体属性值的抽取方法,其特征在于,所述步骤二中,识别所述属性值包括:
分析属性名列表,获取所述属性值所属的实体类别,以及对应的词性标签;
利用依存关系信息,将与所述实体具有最短依存关系路径的词语作为所述属性值输出。
5.如权利要求1所述的一种基于双向长短期记忆网络的实体属性值的抽取方法,其特征在于,所述步骤四中,还包括:
从所述语句中提取与所述实体和所述属性值相关的文本片段代表该语句的核心语义;
基于所述句子成分之间的依存关系,从所述实体与所述属性值的依存关系路径上提取相关的词语,并按照文本位置进行排列。
6.如权利要求1所述的一种基于双向长短期记忆网络的实体属性值的抽取方法,其特征在于,所述步骤四,还包括:
对于训练语料中的每个所述语句,组合其中每个词语向量、词性向量、词语和所述实体的距离向量、及所述属性值的距离向量;
形成一个行数为语料中词语总数,作为BLSTM的输入。
7.如权利要求1所述的一种基于双向长短期记忆网络的实体属性值的抽取方法,其特征在于,所述训练预料包括用于槽填充竞赛的数据集。
8.如权利要求1所述的一种基于双向长短期记忆网络的实体属性值的抽取方法,其特征在于,所述词向量模型为word2vec词向量模型。
CN201911235497.4A 2019-12-05 2019-12-05 一种基于双向长短期记忆网络的实体属性值的抽取方法 Active CN111027309B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911235497.4A CN111027309B (zh) 2019-12-05 2019-12-05 一种基于双向长短期记忆网络的实体属性值的抽取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911235497.4A CN111027309B (zh) 2019-12-05 2019-12-05 一种基于双向长短期记忆网络的实体属性值的抽取方法

Publications (2)

Publication Number Publication Date
CN111027309A true CN111027309A (zh) 2020-04-17
CN111027309B CN111027309B (zh) 2023-05-23

Family

ID=70207688

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911235497.4A Active CN111027309B (zh) 2019-12-05 2019-12-05 一种基于双向长短期记忆网络的实体属性值的抽取方法

Country Status (1)

Country Link
CN (1) CN111027309B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111598550A (zh) * 2020-05-22 2020-08-28 深圳市小满科技有限公司 邮件签名信息提取方法、装置、电子设备及介质
CN111611799A (zh) * 2020-05-07 2020-09-01 北京智通云联科技有限公司 基于字典和序列标注模型实体属性抽取方法、系统及设备
CN111627564A (zh) * 2020-05-25 2020-09-04 日立楼宇技术(广州)有限公司 用户检测模型的训练及检测方法、装置、设备和存储介质
CN111985207A (zh) * 2020-08-17 2020-11-24 中国人民解放军战略支援部队信息工程大学 一种访问控制策略的获取方法、装置及电子设备
CN113609838A (zh) * 2021-07-14 2021-11-05 华东计算技术研究所(中国电子科技集团公司第三十二研究所) 文档信息抽取及图谱化方法和系统
WO2023060633A1 (zh) * 2021-10-12 2023-04-20 深圳前海环融联易信息科技服务有限公司 增强语义的关系抽取方法、装置、计算机设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109255119A (zh) * 2018-07-18 2019-01-22 五邑大学 一种基于分词和命名实体识别的多任务深度神经网络的句子主干分析方法及系统
CN109344390A (zh) * 2018-08-23 2019-02-15 昆明理工大学 一种基于多特征神经网络的柬语实体识别的方法
CN110188193A (zh) * 2019-04-19 2019-08-30 四川大学 一种基于最短依存子树的电子病历实体关系抽取方法
CN110210019A (zh) * 2019-05-21 2019-09-06 四川大学 一种基于递归神经网络的事件要素抽取方法
CN110232192A (zh) * 2019-06-19 2019-09-13 中国电力科学研究院有限公司 电力术语命名实体识别方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109255119A (zh) * 2018-07-18 2019-01-22 五邑大学 一种基于分词和命名实体识别的多任务深度神经网络的句子主干分析方法及系统
CN109344390A (zh) * 2018-08-23 2019-02-15 昆明理工大学 一种基于多特征神经网络的柬语实体识别的方法
CN110188193A (zh) * 2019-04-19 2019-08-30 四川大学 一种基于最短依存子树的电子病历实体关系抽取方法
CN110210019A (zh) * 2019-05-21 2019-09-06 四川大学 一种基于递归神经网络的事件要素抽取方法
CN110232192A (zh) * 2019-06-19 2019-09-13 中国电力科学研究院有限公司 电力术语命名实体识别方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
孙紫阳;顾君忠;杨静;: "基于深度学习的中文实体关系抽取方法" *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111611799A (zh) * 2020-05-07 2020-09-01 北京智通云联科技有限公司 基于字典和序列标注模型实体属性抽取方法、系统及设备
CN111611799B (zh) * 2020-05-07 2023-06-02 北京智通云联科技有限公司 基于字典和序列标注模型实体属性抽取方法、系统及设备
CN111598550A (zh) * 2020-05-22 2020-08-28 深圳市小满科技有限公司 邮件签名信息提取方法、装置、电子设备及介质
CN111627564A (zh) * 2020-05-25 2020-09-04 日立楼宇技术(广州)有限公司 用户检测模型的训练及检测方法、装置、设备和存储介质
CN111985207A (zh) * 2020-08-17 2020-11-24 中国人民解放军战略支援部队信息工程大学 一种访问控制策略的获取方法、装置及电子设备
CN111985207B (zh) * 2020-08-17 2023-06-06 中国人民解放军战略支援部队信息工程大学 一种访问控制策略的获取方法、装置及电子设备
CN113609838A (zh) * 2021-07-14 2021-11-05 华东计算技术研究所(中国电子科技集团公司第三十二研究所) 文档信息抽取及图谱化方法和系统
CN113609838B (zh) * 2021-07-14 2024-05-24 华东计算技术研究所(中国电子科技集团公司第三十二研究所) 文档信息抽取及图谱化方法和系统
WO2023060633A1 (zh) * 2021-10-12 2023-04-20 深圳前海环融联易信息科技服务有限公司 增强语义的关系抽取方法、装置、计算机设备及存储介质

Also Published As

Publication number Publication date
CN111027309B (zh) 2023-05-23

Similar Documents

Publication Publication Date Title
CN111027309A (zh) 一种基于双向长短期记忆网络的实体属性值的抽取方法
US11775760B2 (en) Man-machine conversation method, electronic device, and computer-readable medium
Gupta et al. Abstractive summarization: An overview of the state of the art
CN110717047B (zh) 一种基于图卷积神经网络的Web服务分类方法
US11914954B2 (en) Methods and systems for generating declarative statements given documents with questions and answers
WO2019153737A1 (zh) 用于对评论进行评估的方法、装置、设备和存储介质
CN109800310B (zh) 一种基于结构化表达的电力运维文本分析方法
WO2018218706A1 (zh) 一种基于神经网络的新闻事件抽取的方法及系统
WO2018028077A1 (zh) 一种基于深度学习的中文语义分析的方法及装置
Chen et al. Semafor: Frame argument resolution with log-linear models
CN108763333A (zh) 一种基于社会媒体的事件图谱构建方法
CN109460552B (zh) 基于规则和语料库的汉语语病自动检测方法及设备
CN108052625B (zh) 一种实体精细分类方法
CN108846017A (zh) 基于Bi-GRU和字向量的大规模新闻文本的端到端分类方法
Husain OSACT4 shared task on offensive language detection: Intensive preprocessing-based approach
CN107180026B (zh) 一种基于词嵌入语义映射的事件短语学习方法及装置
CN113704451A (zh) 一种电力用户诉求筛选方法、系统、电子设备和存储介质
CN113157859B (zh) 一种基于上位概念信息的事件检测方法
CN111027323A (zh) 一种基于主题模型和语义分析的实体指称项识别方法
CN111444704B (zh) 基于深度神经网络的网络安全关键词抽取方法
Hossny et al. Feature selection methods for event detection in Twitter: a text mining approach
CN113255320A (zh) 基于句法树和图注意力机制的实体关系抽取方法及装置
Liu et al. Multiple relations extraction among multiple entities in unstructured text
JPWO2014002774A1 (ja) 同義語抽出システム、方法および記録媒体
US20230054726A1 (en) Query-focused extractive text summarization of textual data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant