CN107957991A - 一种基于句法依赖的实体属性信息抽取方法及装置 - Google Patents

一种基于句法依赖的实体属性信息抽取方法及装置 Download PDF

Info

Publication number
CN107957991A
CN107957991A CN201711263702.9A CN201711263702A CN107957991A CN 107957991 A CN107957991 A CN 107957991A CN 201711263702 A CN201711263702 A CN 201711263702A CN 107957991 A CN107957991 A CN 107957991A
Authority
CN
China
Prior art keywords
attribute
word
entity
mrow
extracted
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201711263702.9A
Other languages
English (en)
Other versions
CN107957991B (zh
Inventor
郭建京
彭建辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hunan Xinghan Shuzhi Technology Co Ltd
Original Assignee
Hunan Xinghan Shuzhi Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hunan Xinghan Shuzhi Technology Co Ltd filed Critical Hunan Xinghan Shuzhi Technology Co Ltd
Priority to CN201711263702.9A priority Critical patent/CN107957991B/zh
Publication of CN107957991A publication Critical patent/CN107957991A/zh
Application granted granted Critical
Publication of CN107957991B publication Critical patent/CN107957991B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于句法依赖的实体属性信息抽取方法及装置,该方法首先对待抽取文本进行预处理,得到待抽取文本实体;然后根据待抽取文本的句法依赖和词性关系,建立词语之间的无向有权图,根据词性关系得到待抽取文本实体的候选属性信息;搜索待抽取文本实体与候选属性信息的词语之间的最短路径,将最短路径上经过的词语组成关联信息词语集合;最后计算属性集合中的每个属性与关联信息词语集合之间的语义相似度,得到实体属性,整合实体、实体属性和属性信息作为最终的抽取结果。本发明将自然语言处理技术和图论模型相结合,解决文本信息的歧义性,提高了文本抽取准确率;利用关键词的语义相似度,自动归纳抽象信息的属性,提高了抽取效率。

Description

一种基于句法依赖的实体属性信息抽取方法及装置
技术领域
本发明涉及自然语言处理技术领域,特别涉及一种基于句法依赖的实体属性信息抽取方法及装置。
背景技术
随着互联网应用的迅猛发展,网络上的蕴含的网页和文本数量也呈指数型增长,如何从这些海量的网页和文本中抽取有效实用的信息,成为目前工业界和学术界研究和开发的热点。目前,基于结构化文本的信息抽取已经取得了巨大的进展,并且得到了广泛的应用。然而,由于非结构化的自由文本的呈现形式复杂多变、杂乱无章,以及文本语义的多样性和歧义性,再加之文本中存在大量无效和干扰的文字图片等信息,进一步增加了自由文本信息抽取的难度,使得实体属性信息抽取效果不佳,且包含大量的错误,因此文本信息抽取仍然是一项具有挑战性的工作。
现有文本信息抽取方法,主要分为以下两类:
1、基于数据挖掘的信息抽取。该方法主要通过对海量数据进行统计,对文本信息进行分析处理,建立信息抽取模板,从而提取数据中的实体属性信息。但由于该方法需要事先配置大量的抽取模板,抽取效率较低,且缺乏对文本语义信息的理解,因此得到的结果中包含大量的错误信息,导致抽取结果的准确率不佳。
2、基于自然语言处理的信息抽取。该方法目前较为流行,其对自由文本进行分词,命名实体识别和句法依赖解析等操作,再对文本信息进行识别和理解,并提取文本信息的主干成分,作为文本中的实体关联信息。与基于数据挖掘的信息抽取方法相比,本方法增加了语言理解知识,较好的解决了文本之间的歧义性,提升了信息抽取的准确率,信息抽取效率大大提高。但是,由于基于自然语言处理的信息抽取得到的实体关联信息,没有进行属性对齐,要得到实体属性信息仍需对抽取得到的实体关联信息进行整理归类,增加了后期处理的难度。
发明内容
发明的目的:为了解决现有基于自然语言处理的信息抽取方法属性未对齐的技术问题,提供一种基于句法依赖的实体属性信息抽取方法及装置,将自然语言处理与图论思想相结合,利用自然语言处理结果中的句法依赖树创建无向有权图,并使用图论中最短路径算法搜索实体与关联信息之间的最短关联路径,计算路径上词语与属性关键词之间的语义相似度,自动对实体和关联信息进行属性对齐。
为达到上述目的,本发明采用的技术方案是:提供了一种基于句法依赖的实体属性信息抽取方法,包括以下过程:
步骤1:根据用户输入的关键字请求,从互联网爬取待抽取文本,对待抽取文本进行预处理,得到待抽取文本实体;
步骤2:根据待抽取文本的句法依赖和词性关系,建立词语之间的无向有权图,并根据词性关系得到待抽取文本实体的候选属性信息;在无向有权图中搜索待抽取文本实体与候选属性信息的词语之间的最短路径,并将最短路径上经过的词语组成关联信息词语集合;
步骤3:计算属性集合中的每个属性与关联信息词语集合之间的语义相似度,将相似度最大的属性作为候选实体属性,并对其进行筛选得到实体属性,整合实体、实体属性和属性信息作为最终的抽取结果。
其中,所述对待抽取文本进行预处理,得到待抽取文本实体,具体包括以下过程:
步骤1.1:利用分词工具对待抽取文本进行处理,得到该文本分词后的词语集合;
步骤1.2:对词语集合进行词性标注和命名实体识别,得到词性集合和命名实体结果集合;
步骤1.3:依次取词语集合和命名实体结果集合的词语,组成词语对,并依次在待抽取文本中遍历,得到命名实体为人名或机构的词语,并将该词语组成待抽取文本实体。
其中,所述步骤2具体包括以下过程:
步骤2.1:根据待抽取文本的词语集合和词性集合,构建词语之间的句法依赖树,将句法依赖树抽象为无向有权图;
步骤2.2:根据词性集合遍历词语集合,选取词性为名词的词语作为待抽取文本实体的候选属性信息;
步骤2.3:分别依次取待抽取文本实体和候选属性信息中的词语,组成若干对节点,并从无向有权图中搜索节点对的所有可达路径,通过最短路径算法得到长度最短的可达路径,并将其作为实体与属性信息的关联路径;
步骤2.4:根据实体与属性信息的关联路径,对路径上经过的词语进行过滤处理,得到具有实际含义的关联信息词语集合。
其中,步骤3具体包括以下过程:
步骤3.1:为实体与属性信息自定义一系列属性,形成属性集合,属性集合中的每个属性都包括若干个关键词;
步骤3.2:依次计算每个属性与关联信息词语集合之间的相似度,公式为:
其中,sim(Wr,Pk)表示关联信息词语集合Wr与任意一个属性Pk之间的语义相似度,i表示关联词语集合Wr中任意一个词语,j表示属性Pk对应的任意一个关键词,m表示属性Pk包含的关键词数量,n表示关联词语集合Wr中词语的数量,Wri表示关联词语集合中任意一个词语,Pkj表示任意一个属性中的任意一个词语,word2vec(*)表示使用Google开源的Word2Vec模型,可将任意词语转化为对应词向量;
步骤3.3:从属性集合中选取与关联信息词语集合相似度最大的属性,作为待抽取文本实体与关联信息词语集合的候选实体属性;
步骤3.4:将候选实体属性的相似度与预设阈值进行比较;低于预设阈值的候选实体属性,进行过滤;等于或高于预设阈值的候选实体属性,则为具有实际含义的实体属性,进行保留;整合实体、实体属性和属性信息,作为最终的抽取结果。
本发明还提供了一种基于句法依赖路径的实体属性信息抽取装置,包括:
预处理模块,用于根据用户输入的关键字请求,从互联网爬取待抽取文本,对待抽取文本进行预处理,得到待抽取文本实体;
路径计算模块,用于根据待抽取文本的句法依赖和词性关系,建立词语之间的无向有权图,并根据词性关系得到待抽取文本实体的候选属性信息;在无向有权图中搜索待抽取文本实体与候选属性信息的词语之间的最短路径,并将最短路径上经过的词语组成关联信息词语集合;
结果输出模块,计算属性集合中的每个属性与关联信息词语集合之间的语义相似度,将相似度最大的属性作为候选实体属性,并对其进行筛选得到实体属性,整合实体、实体属性和属性信息作为最终的抽取结果。
其中,所述预处理模块,具体用于:
利用分词工具对待抽取文本进行处理,得到该文本分词后的词语集合;
对词语集合进行词性标注和命名实体识别,得到词性集合和命名实体结果集合;
依次取词语集合和命名实体结果集合的词语,组成词语对,并依次在待抽取文本中遍历,得到命名实体为人名或机构的词语,并将该词语组成待抽取文本实体。
其中,所述路径计算模块,具体用于:
根据待抽取文本的词语集合和词性集合,构建词语之间的句法依赖树,将句法依赖树抽象为无向有权图;
根据词性集合遍历词语集合,选取词性为名词的词语作为待抽取文本实体的候选属性信息;
分别依次取待抽取文本实体和候选属性信息中的词语,组成若干对节点,并从无向有权图中搜索节点对的所有可达路径,通过最短路径算法得到长度最短的可达路径,并将其作为实体与属性信息的关联路径;
根据实体与属性信息的关联路径,对路径上经过的词语进行过滤处理,得到具有实际含义的关联信息词语集合。
其中,所述结果输出模块,具体用于:
为实体与属性信息定义一系列属性,形成属性集合,属性集合中的每个属性都包括若干个关键词;
依次计算每个属性与关联信息词语集合之间的相似度,公式为:
其中,sim(Wr,Pk)表示关联信息词语集合Wr与任意一个属性Pk之间的语义相似度,i表示关联词语集合Wr中任意一个词语,j表示属性Pk对应的任意一个关键词,m表示属性Pk包含的关键词数量,n表示关联词语集合Wr中词语的数量,Wri表示关联词语集合中任意一个词语,Pkj表示任意一个属性中的任意一个词语,word2vec(*)表示使用Google开源的Word2Vec模型,可将任意词语转化为对应词向量;
从属性集合中选取与关联信息词语集合相似度最大的属性,作为待抽取文本实体与关联信息词语集合的候选实体属性;
将候选实体属性的相似度与预设阈值进行比较;低于预设阈值的候选实体属性,进行过滤;等于或高于预设阈值的候选实体属性,则为具有实际含义的实体属性,进行保留;整合实体、实体属性和属性信息,作为最终的抽取结果。
本发明的有益效果是:本方法首先利用自然语言处理工具对文本进行预处理,消除文本中的语义歧义性;然后将句法依赖树与词语的词性和依赖关系相结合,构建无向有权图,利用图论最短路径思想搜索实体和关联信息之间相关性最强的依赖路径;最后将依赖路径与属性关键词之间的语义相似度作为抽取结果的置信度评估标准,选取置信度最高的属性作为最终的实体与关联信息之间的属性对齐结果。与传统的信息抽取方法相比,本发明方法利用自然语言处理技术和图论模型相结合,解决文本信息的歧义性,提高了文本抽取的准确率。此外,利用关键词的语义相似度计算,自动归纳抽象信息的属性,降低了信息抽取的工作量,提高了抽取的效率。
附图说明
图1是本发明基于句法依赖路径的实体属性信息抽取方法的实现流程图。
图2是本发明实施例1基于句法依赖路径的实体属性信息抽取方法的主要流程图。
图3是实施例1基于句法依赖路径的实体属性信息抽取方法的句法依赖解析图。
图4是实施例2基于句法依赖路径的实体属性信息抽取方法的句法依赖解析图。
图5是实施例3基于句法依赖路径的实体属性信息抽取装置的结构框图。
具体实施方式
为使本发明解决的技术问题、采用的技术方案和达到的技术效果更加清楚,下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。
实施例1
参照图1-2,现以文本“邓超,1979年出生在江西南昌,1998年考入中央戏剧学院表演系。”为例,对基于句法依赖路径的实体属性信息抽取方法进行详细说明:
步骤1:根据用户输入的关键字请求,借助现有爬虫软件从互联网获得待抽取文本,对待抽取文本进行预处理,得到待抽取文本实体;
步骤1.1:将待抽取文本“邓超,1979年出生在江西南昌,1998年考入中央戏剧学院表演系。”记为I,使用HanLP开源工具对文本I进行分词处理,得到分词后的词语集合,记为W;
步骤1.2:使用HanLP开源工具对词语集合进行词性标注和命名实体识别,得到的词语词性集合记为P,命名实体结果集合记为E;
步骤1.3:依次取词语集合和命名实体结果集合的词语,组成词语对,并依次在待抽取文本中进行遍历,得到命名实体为人名或机构的词语,并将该词语组成待抽取文本实体,记为We,We={邓超,中央戏剧学院};所述依次取词语集合和命名实体结果集合的词语,组成词语对,并依次在待抽取文本中遍历,指的是取词语集合中第一个词语与命名实体结果集合中第一个词语,组成词语对,在待抽取文本中遍历;再取词语集合中第二个词语与命名实体结果集合中第二个词语,组成词语对,在待抽取文本中遍历;依此类推,直至所有词语对遍历结束。
步骤2:根据待抽取文本的句法依赖和词性关系,建立词语之间的无向有权图,并根据词性关系得到待抽取文本实体的候选属性信息;在无向有权图中搜索待抽取文本实体与候选属性信息的词语之间的最短路径,并将最短路径上经过的词语组成关联信息词语集合;
步骤2.1:根据待抽取文本的词语集合和词性集合,利用HanLP开源工具构建词语之间的句法依赖树,将句法依赖树抽象为无向有权图,将词语抽象为无向有权图中的节点;所述句法依赖树记为T,所述依赖关系记为D;所述依赖关系结果如图3所示,WP表示标点符号依赖关系,COO表示并列依赖关系,SBV表示主语依赖关系,ATT表示定中依赖关系,VOB表示宾语依赖关系,ADV表示副词依赖关系;
步骤2.2:根据词性集合遍历词语集合,选取词性为名词的词语作为待抽取文本实体的候选属性信息,记为Wp,Wp={邓超,江西,南昌,中央戏剧学院,表演系};
步骤2.3:分别依次取待抽取文本实体和候选属性信息中的词语,组成若干对节点,并从无向有权图中搜索节点对的所有可达路径,通过Dijkstra算法得到长度最短的可达路径,即最短路径,并将其作为实体与属性信息的关联路径;如一对节点(“邓超”,“江西”),从无向有权图中找出这两个节点之间的所有可达路径,并计算任意可达路径的长度,选取长度最短的可达路径,作为实体与属性信息的关联路径,如“邓超→出生→在→南昌→江西”;所述长度最短的可达路径对应的节点对词语,包括一个实体和一个属性信息,即实体与属性信息;
所述通过Dijkstra算法得到长度最短的可达路径,具体包括以下过程:
1)计算无向有权图中任意两个节点之间的边权重,所述边权重为句法依赖权重与词性权重之和,公式为:
其中,i、j表示待抽取文本中任意两个词语,在无向有权图中,即可看作为两个节点,节点i和j在待抽取文本中存在句法依赖关系,则视为两个节点存在边;wi,j表示无向有权图中任意两个节点对应的词语之间的边权重,fD(i,j)表示自定义的依赖关系映射权重函数,fP(i,j)表示自定义的词语词性对映射权重函数;
2)将无向有权图中的所有节点分成S和U两个集合,S集合初始只包括待计算实体所对应的节点v,记为S={v},U集合初始包括除了v以外的其他所有节点;所述待计算实体指的是节点对中的实体词语;
3)遍历U集合中与v相邻的节点,选取与v的边权重最小的节点k,并将节点k从U集合中转移至S集合中;
4)以节点k为中心,修改节点v到其他各节点的边权重;
5)重复上述3)和4)两个步骤,直到待计算属性信息对应的节点也加入S集合中,并此时的路径长度记为最短路径;所述待计算属性信息指的是节点对中的属性信息词语;
步骤2.4:根据实体与属性信息的关联路径,遍历路径上依次经过的词语,并利用现有的停用词表,过滤对语义贡献较小的虚词和助词,得到具有实际含义的关联词语集合,记为Wr,Wr={Wr1,Wr2,...,Wn},具体为Wr={邓超,出生,南昌,江西}。
步骤3:计算属性集合中的每个属性与关联信息词语集合之间的语义相似度,将相似度最大的属性作为候选实体属性,并对其进行筛选得到实体属性,整合实体、实体属性和属性信息作为最终的抽取结果;
步骤3.1:为实体与属性信息自定义一系列属性,组成属性集合,记为P,如:{出生地,毕业院校};其中,每一个属性包含若干个属性触发关键词,记为Pk={pk1,pk2,...,pkm},如:P出生地={出生,生于,诞生,生在};
步骤3.2:依次计算每个属性与关联信息词语集合之间的相似度,选取相似度最大的属性作为待抽取文本实体与关联信息词语集合的候选实体属性,实现属性对齐;如:Wr={邓超,出生,南昌,江西}与属性“出生地”的语义相似度大于属性“毕业院校”的相似度,因此,实体“邓超”,与关联信息“江西,南昌”的属性对齐结果为:出生地;其中,相似度公式为:
其中,sim(Wr,Pk)表示关联信息词语集合Wr与任意一个属性Pk之间的语义相似度,i表示关联词语集合Wr中任意一个词语,j表示属性Pk对应的任意一个关键词,m表示属性Pk包含的关键词数量,n表示关联词语集合Wr中词语的数量,Wri表示关联词语集合中任意一个词语,Pkj表示任意一个属性中的任意一个词语,word2vec(*)表示使用Google开源的Word2Vec模型,可将任意词语转化为对应词向量;
步骤3.4:将最终得到的属性“出生地”的词语语义相似度与预设阈值进行比较,如果低于设定的阈值,则认为抽取实体与关联信息置信度较低,进行过滤,若等于或高于预定的阈值,则认为该属性置信度较高,作为实体属性进行保留;整合实体、实体属性和属性信息,作为最终的抽取结果,记为“邓超:出生地:江西南昌”。
本发明涉及的自然语言处理工具,包括但不限于HanLP开源工具、Stanford开源工具、中科院ICTCLAS、FudanNLP等;涉及的最短路径计算方法包括但不限于Dijkstra算法、Floyd算法、SPFA算法等。
实施例2
现以文本“袁弘,毕业于上海戏剧学院,是胡歌的同窗好友。”为例,对基于句法依赖路径的实体关联信息抽取方法进行详细说明:
步骤1:对待抽取文本进行预处理,得到待抽取文本实体;
步骤1.1:将待抽取文本“袁弘,毕业于上海戏剧学院,是胡歌的同窗好友。”记为I,使用Stanford开源NLP工具对文本I进行处理,得到文本分词后的词语集合,记为W,词语集合如图3所示,NN表示常用名词,PU表示断句符,VV表示动词,NR表示固有名词,VC表示是,DEG表示助词的;
步骤1.2:使用Stanford开源NLP工具对词语集合进行词性标注和命名实体识别,得到的词语词性集合记为P,命名实体结果集合记为E;
步骤1.3:将词语集合中的词语与命名实体结果集合中的命名实体结果一一对应,依次在待抽取文本中进行遍历,得到命名实体为人名或机构的词语,并将该词语组成待抽取文本实体,记为We,We={袁弘,上海戏剧学院}。
步骤2:根据待抽取文本的句法依赖和词性关系,建立词语之间的无向有权图,并根据词性关系得到待抽取文本实体的候选属性信息;在无向有权图中搜索待抽取文本实体与候选属性信息的词语之间的最短路径,并将最短路径上经过的词语组成关联信息词语集合;
步骤2.1:根据待抽取文本的词语集合和词性集合,利用Stanford开源NLP工具构建词语之间的句法依赖树和依赖关系,所述句法依赖树记为T,所述依赖关系记为D;所述依赖关系结果如图4所示,punct表示标点符号依赖关系,nsubj表示主语依赖关系,dobj表示动宾依赖关系,compound:nn表示名词补充关系,nmod:assmod表示名词关联修饰关系,cop表示系动词关系;
步骤2.2:根据词性集合遍历词语集合,选取词性为名词的词语作为待抽取文本实体的候选属性信息,记为Wp,Wp={袁弘,上海,戏剧,学院,胡歌,同窗,好友};
步骤2.3:分别依次取待抽取文本实体和候选属性信息中的词语,组成若干对节点,并从无向有权图中搜索节点对的所有可达路径,通过Floyd算法得到长度最短的可达路径,即最短路径,并将其作为实体与属性信息的关联路径;如一对节点(“袁弘”,“学院”),从无向有权图中找出这两个节点之间的所有可达路径,并计算任意可达路径的长度,选取长度最短的可达路径,作为实体与属性信息的关联路径,如“袁弘→毕业于→学院”;所述长度最短的可达路径对应的节点对词语,包括一个实体和一个属性信息,即实体与属性信息;
所述通过Floyd算法得到长度最短的可达路径,具体包括以下过程:
1)计算无向有权图中任意两个节点之间的边权重,所述边权重为句法依赖权重与词性权重之和,公式为:
其中,i、j表示待抽取文本中任意两个词语,在无向有权图中,即可看作为两个节点,节点i和j在待抽取文本中存在句法依赖关系,则视为两个节点存在边;wi,j表示无向有权图中任意两个节点对应的词语之间的边权重,fD(i,j)表示自定义的依赖关系映射权重函数,fP(i,j)表示自定义的词语词性对映射权重函数;
2)将无向有权图中的所有节点分成S和U两个集合,S集合初始只包括待计算实体所对应的节点v,记为S={v},U集合初始包括除了v以外的其他所有节点;所述待计算实体指的是节点对中的实体词语;
3)遍历U集合中与v相邻的节点,选取与v的边权重最小的节点k,并将节点k从U集合中转移至S集合中;
4)以节点k为中心,修改节点v到其他各节点的边权重;
5)重复上述3)和4)两个步骤,直到待计算属性信息对应的节点也加入S集合中,并此时的路径长度记为最短路径;所述待计算属性信息指的是节点对中的属性信息词语;
步骤2.4:根据实体与属性信息的关联路径,遍历路径上依次经过的词语,并利用现有的停用词表,过滤对语义贡献较小的虚词和助词,得到具有实际含义的关联词语集合,记为Wr,Wr={Wr1,Wr2,...,Wn},具体为Wr={袁弘,毕业于,学院}。
步骤3:计算属性集合中的每个属性与关联信息词语集合之间的语义相似度,将相似度最大的属性作为候选实体属性,并对其进行筛选得到实体属性信息,整合实体、实体属性和属性信息作为最终的抽取结果。
步骤3.1:为实体与属性信息自定义一系列属性,组成属性集合,记为P,如:{出生地,毕业院校};其中,每一个属性包含若干个属性触发关键词,记为Pk={pk1,pk2,...,pkm},如:P毕业院校={毕业,就读,考入};
步骤3.2:依次计算每个属性与关联信息词语集合之间的相似度,公式为:
其中,sim(Wr,Pk)表示关联信息词语集合Wr与任意一个属性Pk之间的语义相似度,i表示关联词语集合Wr中任意一个词语,j表示属性Pk对应的任意一个关键词,m表示属性Pk包含的关键词数量,n表示关联词语集合Wr中词语的数量,Dis(wri,pkj)表示使用知网提供的词语之间的义原距离,α为调节因子,实验中取值为0.5,Wri表示关联词语集合中任意一个词语,Pkj表示任意一个属性中的任意一个词语;
步骤3.3:从所有自定义的属性集合P中,选取相似度最大的属性作为待抽取文本实体与关联信息词语集合的候选实体属性,实现属性对齐;如:Wr={袁弘,毕业于,学院}与属性“毕业院校”的语义相似度最大,因此,实体“袁弘”,与属性信息“学院”的属性对齐结果为:毕业院校。
步骤3.4:由于Stanford开源NLP工具容易将命名实体切换成多个词语,为将抽取信息尽可能完善,需要对抽取的关联信息进行合并,具体过程如下:
从句法依赖树T中,找到与关联信息“学院”有边的词语,并结合句法依赖关系D进行过滤,只保留与关联信息“学院”有“compound:nn”关系的词语,如“上海”,“戏剧”,并将其合并到关联信息中,得到完整的关联信息“上海戏剧学院”。
步骤3.5:将最终得到的属性“毕业院校”的词语语义相似度与预设阈值进行比较,如果低于设定的阈值,则认为抽取实体与关联信息置信度较低,进行过滤,若等于或高于预定的阈值,则认为该属性置信度较高,作为实体属性进行保留;整合实体、实体属性和属性信息,作为最终的抽取结果,记为“袁弘:毕业院校:上海戏剧学院”。
实施例3
参照图5,本发明还公开了一种基于句法依赖路径的实体关联信息抽取装置,包括:
预处理模块,用于根据用户输入的关键字请求,借助现有爬虫软件从互联网获得待抽取文本,对待抽取文本进行预处理,得到待抽取文本实体;
路径计算模块,用于根据待抽取文本的句法依赖和词性关系,建立词语之间的无向有权图,并根据词性关系得到待抽取文本实体的候选属性信息;在无向有权图中搜索待抽取文本实体与候选属性信息的词语之间的最短路径,并将最短路径上经过的词语组成关联信息词语集合;
结果输出模块,计算属性集合中的每个属性与关联信息词语集合之间的语义相似度,将相似度最大的属性作为候选实体属性,并对其进行筛选得到实体属性,整合实体、实体属性和属性信息作为最终的抽取结果。
优选的,所述预处理模块,具体用于:
利用自然语言处理工具对待抽取文本进行处理,得到该文本分词后的词语集合;
使用自然语言处理工具对词语集合进行词性标注和命名实体识别,得到词性集合和命名实体结果集合;
依次取词语集合和命名实体结果集合的词语,组成词语对,并依次在待抽取文本中遍历,得到命名实体为人名或机构的词语,并将该词语组成待抽取文本实体。
优选的,所述路径计算模块,具体用于:
根据待抽取文本的词语集合和词性集合,利用自然语言处理工具构建词语之间的句法依赖树,将句法依赖树抽象为无向有权图;
根据词性集合遍历词语集合,选取词性为名词的词语作为待抽取文本实体的候选属性信息;
分别依次取待抽取文本实体和候选属性信息中的词语,组成若干对节点,并从无向有权图中搜索节点对的所有可达路径,通过最短路径算法得到长度最短的可达路径,并将其作为实体与属性信息的关联路径;
通过最短路径算法得到长度最短的可达路径,具体包括以下过程:
1)计算无向有权图中任意两个节点之间的边权重,所述边权重为句法依赖权重与词性权重之和,公式为:
其中,i、j表示待抽取文本中任意两个词语,在无向有权图中,即可看作为两个节点,节点i和j在待抽取文本中存在句法依赖关系,则视为两个节点存在边;wi,j表示无向有权图中任意两个节点对应的词语之间的边权重,fD(i,j)表示自定义的依赖关系映射权重函数,fP(i,j)表示自定义的词语词性对映射权重函数;
2)将无向有权图中的所有节点分成S和U两个集合,S集合初始只包括待计算实体所对应的节点v,记为S={v},U集合初始包括除了v以外的其他所有节点;所述待计算实体指的是节点对中的实体词语;
3)遍历U集合中与v相邻的节点,选取与v的边权重最小的节点k,并将节点k从U集合中转移至S集合中;
4)以节点k为中心,修改节点v到其他各节点的边权重;
5)重复上述3)和4)两个步骤,直到待计算属性信息对应的节点也加入S集合中,并此时的路径长度记为最短路径;所述待计算属性信息指的是节点对中的属性信息词语;
根据实体与属性信息的关联路径,对路径上经过的词语进行过滤处理,得到具有实际含义的关联信息词语集合。
优选的,所述结果输出模块,具体用于:
为实体与属性信息定义一系列属性,形成属性集合,属性集合中的每个属性都包括若干个关键词;
依次计算每个属性与关联信息词语集合之间的相似度,公式为:
其中,sim(Wr,Pk)表示关联信息词语集合Wr与任意一个属性Pk之间的语义相似度,i表示关联词语集合Wr中任意一个词语,j表示属性Pk对应的任意一个关键词,m表示属性Pk包含的关键词数量,n表示关联词语集合Wr中词语的数量,Wri表示关联词语集合中任意一个词语,Pkj表示任意一个属性中的任意一个词语,word2vec(*)表示使用Google开源的Word2Vec模型,可将任意词语转化为对应词向量;
从属性集合中选取与关联信息词语集合相似度最大的属性,作为待抽取文本实体与关联信息词语集合的候选实体属性;
将候选实体属性的相似度与预设阈值进行比较;低于预设阈值的候选实体属性,进行过滤;等于或高于预设阈值的候选实体属性,则为具有实际含义的实体属性,进行保留;整合实体、实体属性和属性信息,作为最终的抽取结果。
本发明涉及的自然语言处理工具,包括但不限于HanLP开源工具、Stanford开源工具、中科院ICTCLAS、FudanNLP等;涉及的最短路径计算方法包括但不限于Dijkstra算法、Floyd算法、SPFA算法等。
注意,上述内容仅为本发明的较佳实施例。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其它等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (8)

1.一种基于句法依赖的实体属性信息抽取方法,其特征在于,包括以下过程:
步骤1:根据用户输入的关键字请求,从互联网爬取待抽取文本,对待抽取文本进行预处理,得到待抽取文本实体;
步骤2:根据待抽取文本的句法依赖和词性关系,建立词语之间的无向有权图,并根据词性关系得到待抽取文本实体的候选属性信息;在无向有权图中搜索待抽取文本实体与候选属性信息的词语之间的最短路径,并将最短路径上经过的词语组成关联信息词语集合;
步骤3:计算属性集合中的每个属性与关联信息词语集合之间的语义相似度,将相似度最大的属性作为候选实体属性,并对其进行筛选得到实体属性,整合实体、实体属性和属性信息作为最终的抽取结果。
2.根据权利要求1所述的基于句法依赖的实体属性信息抽取方法,其特征在于,所述对待抽取文本进行预处理,得到待抽取文本实体,具体包括以下过程:
步骤1.1:利用分词工具对待抽取文本进行处理,得到该文本分词后的词语集合;
步骤1.2:对词语集合进行词性标注和命名实体识别,得到词性集合和命名实体结果集合;
步骤1.3:依次取词语集合和命名实体结果集合的词语,组成词语对,并依次在待抽取文本中遍历,得到命名实体为人名或机构的词语,并将该词语组成待抽取文本实体。
3.根据权利要求2所述的基于句法依赖的实体属性信息抽取方法,其特征在于,所述步骤2具体包括以下过程:
步骤2.1:根据待抽取文本的词语集合和词性集合,构建词语之间的句法依赖树,将句法依赖树抽象为无向有权图;
步骤2.2:根据词性集合遍历词语集合,选取词性为名词的词语作为待抽取文本实体的候选属性信息;
步骤2.3:分别依次取待抽取文本实体和候选属性信息中的词语,组成若干对节点,并从无向有权图中搜索节点对的所有可达路径,通过最短路径算法得到长度最短的可达路径,并将其作为实体与属性信息的关联路径;
步骤2.4:根据实体与属性信息的关联路径,对路径上经过的词语进行过滤处理,得到具有实际含义的关联信息词语集合。
4.根据权利要求3所述的基于句法依赖的实体属性信息抽取方法,其特征在于,步骤3具体包括以下过程:
步骤3.1:为实体与属性信息自定义一系列属性,形成属性集合,属性集合中的每个属性都包括若干个关键词;
步骤3.2:依次计算每个属性与关联信息词语集合之间的相似度,公式为:
<mrow> <mi>s</mi> <mi>i</mi> <mi>m</mi> <mrow> <mo>(</mo> <msub> <mi>W</mi> <mi>r</mi> </msub> <mo>,</mo> <msub> <mi>P</mi> <mi>k</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <munder> <mrow> <mi>m</mi> <mi>a</mi> <mi>x</mi> </mrow> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> <mo>...</mo> <mi>n</mi> <mo>,</mo> <mi>j</mi> <mo>=</mo> <mn>1</mn> <mo>...</mo> <mi>m</mi> </mrow> </munder> <mo>{</mo> <mfrac> <mrow> <mi>w</mi> <mi>o</mi> <mi>r</mi> <mi>d</mi> <mn>2</mn> <mi>v</mi> <mi>e</mi> <mi>c</mi> <mrow> <mo>(</mo> <msub> <mi>w</mi> <mrow> <mi>r</mi> <mi>i</mi> </mrow> </msub> <mo>)</mo> </mrow> <mo>&amp;CenterDot;</mo> <mi>w</mi> <mi>o</mi> <mi>r</mi> <mi>d</mi> <mn>2</mn> <mi>v</mi> <mi>e</mi> <mi>c</mi> <mrow> <mo>(</mo> <msub> <mi>p</mi> <mrow> <mi>k</mi> <mi>j</mi> </mrow> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <mo>|</mo> <mi>w</mi> <mi>o</mi> <mi>r</mi> <mi>d</mi> <mn>2</mn> <mi>v</mi> <mi>e</mi> <mi>c</mi> <mrow> <mo>(</mo> <msub> <mi>w</mi> <mrow> <mi>r</mi> <mi>i</mi> </mrow> </msub> <mo>)</mo> </mrow> <mo>|</mo> <mo>&amp;times;</mo> <mo>|</mo> <mi>w</mi> <mi>o</mi> <mi>r</mi> <mi>d</mi> <mn>2</mn> <mi>v</mi> <mi>e</mi> <mi>c</mi> <mrow> <mo>(</mo> <msub> <mi>p</mi> <mrow> <mi>k</mi> <mi>j</mi> </mrow> </msub> <mo>)</mo> </mrow> <mo>|</mo> </mrow> </mfrac> <mo>}</mo> </mrow>
其中,sim(Wr,Pk)表示关联信息词语集合Wr与任意一个属性Pk之间的语义相似度,i表示关联词语集合Wr中任意一个词语,j表示属性Pk对应的任意一个关键词,m表示属性Pk包含的关键词数量,n表示关联词语集合Wr中词语的数量,Wri表示关联词语集合中任意一个词语,Pkj表示任意一个属性中的任意一个词语,word2vec(*)表示使用Google开源的Word2Vec模型,可将任意词语转化为对应词向量;
步骤3.3:从属性集合中选取与关联信息词语集合相似度最大的属性,作为待抽取文本实体与关联信息词语集合的候选实体属性;
步骤3.4:将候选实体属性的相似度与预设阈值进行比较;低于预设阈值的候选实体属性,进行过滤;等于或高于预设阈值的候选实体属性,则为具有实际含义的实体属性,进行保留;整合实体、实体属性和属性信息,作为最终的抽取结果。
5.一种基于句法依赖路径的实体属性信息抽取装置,其特征在于,包括:
预处理模块,用于根据用户输入的关键字请求,从互联网爬取待抽取文本,对待抽取文本进行预处理,得到待抽取文本实体;
路径计算模块,用于根据待抽取文本的句法依赖和词性关系,建立词语之间的无向有权图,并根据词性关系得到待抽取文本实体的候选属性信息;在无向有权图中搜索待抽取文本实体与候选属性信息的词语之间的最短路径,并将最短路径上经过的词语组成关联信息词语集合;
结果输出模块,计算属性集合中的每个属性与关联信息词语集合之间的语义相似度,将相似度最大的属性作为候选实体属性,并对其进行筛选得到实体属性,整合实体、实体属性和属性信息作为最终的抽取结果。
6.根据权利要求5基于句法依赖路径的实体属性信息抽取装置,其特征在于,所述预处理模块,具体用于:
利用分词工具对待抽取文本进行处理,得到该文本分词后的词语集合;
对词语集合进行词性标注和命名实体识别,得到词性集合和命名实体结果集合;
依次取词语集合和命名实体结果集合的词语,组成词语对,并依次在待抽取文本中遍历,得到命名实体为人名或机构的词语,并将该词语组成待抽取文本实体。
7.根据权利要求6基于句法依赖路径的实体属性信息抽取装置,其特征在于,所述路径计算模块,具体用于:
根据待抽取文本的词语集合和词性集合,构建词语之间的句法依赖树,将句法依赖树抽象为无向有权图;
根据词性集合遍历词语集合,选取词性为名词的词语作为待抽取文本实体的候选属性信息;
分别依次取待抽取文本实体和候选属性信息中的词语,组成若干对节点,并从无向有权图中搜索节点对的所有可达路径,通过最短路径算法得到长度最短的可达路径,并将其作为实体与属性信息的关联路径;
根据实体与属性信息的关联路径,对路径上经过的词语进行过滤处理,得到具有实际含义的关联信息词语集合。
8.根据权利要求7所述的基于句法依赖的实体属性信息抽取方法,其特征在于,所述结果输出模块,具体用于:
为实体与属性信息定义一系列属性,形成属性集合,属性集合中的每个属性都包括若干个关键词;
依次计算每个属性与关联信息词语集合之间的相似度,公式为:
<mrow> <mi>s</mi> <mi>i</mi> <mi>m</mi> <mrow> <mo>(</mo> <msub> <mi>W</mi> <mi>r</mi> </msub> <mo>,</mo> <msub> <mi>P</mi> <mi>k</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <munder> <mrow> <mi>m</mi> <mi>a</mi> <mi>x</mi> </mrow> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> <mo>...</mo> <mi>n</mi> <mo>,</mo> <mi>j</mi> <mo>=</mo> <mn>1</mn> <mo>...</mo> <mi>m</mi> </mrow> </munder> <mo>{</mo> <mfrac> <mrow> <mi>w</mi> <mi>o</mi> <mi>r</mi> <mi>d</mi> <mn>2</mn> <mi>v</mi> <mi>e</mi> <mi>c</mi> <mrow> <mo>(</mo> <msub> <mi>w</mi> <mrow> <mi>r</mi> <mi>i</mi> </mrow> </msub> <mo>)</mo> </mrow> <mo>&amp;CenterDot;</mo> <mi>w</mi> <mi>o</mi> <mi>r</mi> <mi>d</mi> <mn>2</mn> <mi>v</mi> <mi>e</mi> <mi>c</mi> <mrow> <mo>(</mo> <msub> <mi>p</mi> <mrow> <mi>k</mi> <mi>j</mi> </mrow> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <mo>|</mo> <mi>w</mi> <mi>o</mi> <mi>r</mi> <mi>d</mi> <mn>2</mn> <mi>v</mi> <mi>e</mi> <mi>c</mi> <mrow> <mo>(</mo> <msub> <mi>w</mi> <mrow> <mi>r</mi> <mi>i</mi> </mrow> </msub> <mo>)</mo> </mrow> <mo>|</mo> <mo>&amp;times;</mo> <mo>|</mo> <mi>w</mi> <mi>o</mi> <mi>r</mi> <mi>d</mi> <mn>2</mn> <mi>v</mi> <mi>e</mi> <mi>c</mi> <mrow> <mo>(</mo> <msub> <mi>p</mi> <mrow> <mi>k</mi> <mi>j</mi> </mrow> </msub> <mo>)</mo> </mrow> <mo>|</mo> </mrow> </mfrac> <mo>}</mo> </mrow>
其中,sim(Wr,Pk)表示关联信息词语集合Wr与任意一个属性Pk之间的语义相似度,i表示关联词语集合Wr中任意一个词语,j表示属性Pk对应的任意一个关键词,m表示属性Pk包含的关键词数量,n表示关联词语集合Wr中词语的数量,Wri表示关联词语集合中任意一个词语,Pkj表示任意一个属性中的任意一个词语,word2vec(*)表示使用Google开源的Word2Vec模型,可将任意词语转化为对应词向量;
从属性集合中选取与关联信息词语集合相似度最大的属性,作为待抽取文本实体与关联信息词语集合的候选实体属性;
将候选实体属性的相似度与预设阈值进行比较;低于预设阈值的候选实体属性,进行过滤;等于或高于预设阈值的候选实体属性,则为具有实际含义的实体属性,进行保留;整合实体、实体属性和属性信息,作为最终的抽取结果。
CN201711263702.9A 2017-12-05 2017-12-05 一种基于句法依赖的实体属性信息抽取方法及装置 Active CN107957991B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711263702.9A CN107957991B (zh) 2017-12-05 2017-12-05 一种基于句法依赖的实体属性信息抽取方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711263702.9A CN107957991B (zh) 2017-12-05 2017-12-05 一种基于句法依赖的实体属性信息抽取方法及装置

Publications (2)

Publication Number Publication Date
CN107957991A true CN107957991A (zh) 2018-04-24
CN107957991B CN107957991B (zh) 2021-06-01

Family

ID=61963215

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711263702.9A Active CN107957991B (zh) 2017-12-05 2017-12-05 一种基于句法依赖的实体属性信息抽取方法及装置

Country Status (1)

Country Link
CN (1) CN107957991B (zh)

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108664468A (zh) * 2018-05-02 2018-10-16 武汉烽火普天信息技术有限公司 一种基于词典和语义消歧的人名识别方法和装置
CN108763221A (zh) * 2018-06-20 2018-11-06 科大讯飞股份有限公司 一种属性名表征方法及装置
CN109582756A (zh) * 2018-10-30 2019-04-05 长春理工大学 非结构化源数据的云端自主逻辑归档方法
CN109815497A (zh) * 2019-01-23 2019-05-28 四川易诚智讯科技有限公司 基于句法依存的人物属性抽取方法
CN109902147A (zh) * 2019-02-13 2019-06-18 北京百度网讯科技有限公司 用于查询处理的方法、装置、设备和存储介质
CN109960722A (zh) * 2019-03-31 2019-07-02 联想(北京)有限公司 一种信息处理方法及装置
CN110162786A (zh) * 2019-04-23 2019-08-23 百度在线网络技术(北京)有限公司 构建配置文件以及抽取结构化信息的方法、装置
CN110457686A (zh) * 2019-07-23 2019-11-15 福建奇点时空数字科技有限公司 一种基于深度学习的信息技术数据实体属性抽取方法
CN110765276A (zh) * 2019-10-21 2020-02-07 北京明略软件系统有限公司 知识图谱中的实体对齐方法及装置
CN111091915A (zh) * 2019-12-24 2020-05-01 医渡云(北京)技术有限公司 医疗数据处理方法及装置、存储介质、电子设备
CN111221916A (zh) * 2019-10-08 2020-06-02 上海逸迅信息科技有限公司 一种实体联系图erd图生成方法及设备
CN111259659A (zh) * 2020-01-14 2020-06-09 北京百度网讯科技有限公司 信息处理方法和装置
US20200210955A1 (en) * 2018-12-28 2020-07-02 Atlassian Pty. Ltd. Autonomous suggestion of issue request content in an issue tracking system
CN111400451A (zh) * 2020-03-16 2020-07-10 北京百度网讯科技有限公司 信息抽取方法、信息抽取装置和电子设备
CN111507789A (zh) * 2019-01-31 2020-08-07 阿里巴巴集团控股有限公司 商品属性词的确定方法、装置及计算设备
CN111639499A (zh) * 2020-06-01 2020-09-08 北京中科汇联科技股份有限公司 一种复合实体提取方法及系统
CN111985232A (zh) * 2020-08-10 2020-11-24 南京航空航天大学 基于nlp的机载显控系统需求的领域模型提取方法
CN112307172A (zh) * 2020-10-31 2021-02-02 平安科技(深圳)有限公司 一种语义解析设备、方法、终端及存储介质
CN112380866A (zh) * 2020-11-25 2021-02-19 厦门市美亚柏科信息股份有限公司 一种文本话题标签生成方法、终端设备及存储介质
CN112926332A (zh) * 2021-03-30 2021-06-08 善诊(上海)信息技术有限公司 一种实体关系联合抽取方法及装置
CN113869034A (zh) * 2021-09-29 2021-12-31 重庆理工大学 基于强化依赖图的方面情感分类方法

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114492387B (zh) * 2022-04-18 2022-07-19 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 基于句法结构的领域自适应方面术语抽取方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103838870A (zh) * 2014-03-21 2014-06-04 武汉科技大学 基于信息单元融合的新闻原子事件抽取方法
US20160203130A1 (en) * 2013-08-30 2016-07-14 Unsilo A/S Method and system for identifying and evaluating semantic patterns in written language
CN105893346A (zh) * 2016-03-30 2016-08-24 齐鲁工业大学 一种基于依存句法树的图模型词义消歧方法
CN106484675A (zh) * 2016-09-29 2017-03-08 北京理工大学 融合分布式语义和句义特征的人物关系抽取方法
CN106777275A (zh) * 2016-12-29 2017-05-31 北京理工大学 基于多粒度语义块的实体属性和属性值提取方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160203130A1 (en) * 2013-08-30 2016-07-14 Unsilo A/S Method and system for identifying and evaluating semantic patterns in written language
CN103838870A (zh) * 2014-03-21 2014-06-04 武汉科技大学 基于信息单元融合的新闻原子事件抽取方法
CN105893346A (zh) * 2016-03-30 2016-08-24 齐鲁工业大学 一种基于依存句法树的图模型词义消歧方法
CN106484675A (zh) * 2016-09-29 2017-03-08 北京理工大学 融合分布式语义和句义特征的人物关系抽取方法
CN106777275A (zh) * 2016-12-29 2017-05-31 北京理工大学 基于多粒度语义块的实体属性和属性值提取方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
郭剑毅 等: "领域本体概念实例、属性和属性值的抽取及关系预测", 《南京大学学报(自然科学)》 *
黄廷磊 等: "数据驱动的细粒度中文属性对齐方法", 《东南大学学报(自然科学版)》 *

Cited By (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108664468A (zh) * 2018-05-02 2018-10-16 武汉烽火普天信息技术有限公司 一种基于词典和语义消歧的人名识别方法和装置
CN108763221A (zh) * 2018-06-20 2018-11-06 科大讯飞股份有限公司 一种属性名表征方法及装置
CN108763221B (zh) * 2018-06-20 2022-05-17 科大讯飞股份有限公司 一种属性名表征方法及装置
CN109582756A (zh) * 2018-10-30 2019-04-05 长春理工大学 非结构化源数据的云端自主逻辑归档方法
CN109582756B (zh) * 2018-10-30 2022-10-14 长春理工大学 非结构化源数据的云端自主逻辑归档方法
US20200210955A1 (en) * 2018-12-28 2020-07-02 Atlassian Pty. Ltd. Autonomous suggestion of issue request content in an issue tracking system
US11720857B2 (en) * 2018-12-28 2023-08-08 Atlassian Pty Ltd. Autonomous suggestion of issue request content in an issue tracking system
CN109815497A (zh) * 2019-01-23 2019-05-28 四川易诚智讯科技有限公司 基于句法依存的人物属性抽取方法
CN109815497B (zh) * 2019-01-23 2023-04-18 四川易诚智讯科技有限公司 基于句法依存的人物属性抽取方法
CN111507789A (zh) * 2019-01-31 2020-08-07 阿里巴巴集团控股有限公司 商品属性词的确定方法、装置及计算设备
CN109902147A (zh) * 2019-02-13 2019-06-18 北京百度网讯科技有限公司 用于查询处理的方法、装置、设备和存储介质
CN109960722A (zh) * 2019-03-31 2019-07-02 联想(北京)有限公司 一种信息处理方法及装置
CN109960722B (zh) * 2019-03-31 2021-10-22 联想(北京)有限公司 一种信息处理方法及装置
CN110162786B (zh) * 2019-04-23 2024-02-27 百度在线网络技术(北京)有限公司 构建配置文件以及抽取结构化信息的方法、装置
CN110162786A (zh) * 2019-04-23 2019-08-23 百度在线网络技术(北京)有限公司 构建配置文件以及抽取结构化信息的方法、装置
CN110457686A (zh) * 2019-07-23 2019-11-15 福建奇点时空数字科技有限公司 一种基于深度学习的信息技术数据实体属性抽取方法
CN111221916A (zh) * 2019-10-08 2020-06-02 上海逸迅信息科技有限公司 一种实体联系图erd图生成方法及设备
CN110765276A (zh) * 2019-10-21 2020-02-07 北京明略软件系统有限公司 知识图谱中的实体对齐方法及装置
CN111091915A (zh) * 2019-12-24 2020-05-01 医渡云(北京)技术有限公司 医疗数据处理方法及装置、存储介质、电子设备
CN111259659B (zh) * 2020-01-14 2023-07-04 北京百度网讯科技有限公司 信息处理方法和装置
CN111259659A (zh) * 2020-01-14 2020-06-09 北京百度网讯科技有限公司 信息处理方法和装置
CN111400451A (zh) * 2020-03-16 2020-07-10 北京百度网讯科技有限公司 信息抽取方法、信息抽取装置和电子设备
CN111639499B (zh) * 2020-06-01 2023-06-16 北京中科汇联科技股份有限公司 一种复合实体提取方法及系统
CN111639499A (zh) * 2020-06-01 2020-09-08 北京中科汇联科技股份有限公司 一种复合实体提取方法及系统
CN111985232A (zh) * 2020-08-10 2020-11-24 南京航空航天大学 基于nlp的机载显控系统需求的领域模型提取方法
CN111985232B (zh) * 2020-08-10 2024-04-19 南京航空航天大学 基于nlp的机载显控系统需求的领域模型提取方法
CN112307172B (zh) * 2020-10-31 2023-08-01 平安科技(深圳)有限公司 一种语义解析设备、方法、终端及存储介质
CN112307172A (zh) * 2020-10-31 2021-02-02 平安科技(深圳)有限公司 一种语义解析设备、方法、终端及存储介质
CN112380866A (zh) * 2020-11-25 2021-02-19 厦门市美亚柏科信息股份有限公司 一种文本话题标签生成方法、终端设备及存储介质
CN112926332A (zh) * 2021-03-30 2021-06-08 善诊(上海)信息技术有限公司 一种实体关系联合抽取方法及装置
CN113869034A (zh) * 2021-09-29 2021-12-31 重庆理工大学 基于强化依赖图的方面情感分类方法

Also Published As

Publication number Publication date
CN107957991B (zh) 2021-06-01

Similar Documents

Publication Publication Date Title
CN107957991A (zh) 一种基于句法依赖的实体属性信息抽取方法及装置
CN107436864B (zh) 一种基于Word2Vec的中文问答语义相似度计算方法
CN107291693B (zh) 一种改进词向量模型的语义计算方法
CN104915340B (zh) 自然语言问答方法及装置
CN103488724B (zh) 一种面向图书的阅读领域知识图谱构建方法
CN109635116B (zh) 文本词向量模型的训练方法、电子设备及计算机存储介质
CN107885721A (zh) 一种基于lstm的命名实体识别方法
CN107463658A (zh) 文本分类方法及装置
CN102693279B (zh) 一种快速计算评论相似度的方法、装置及系统
AU2020104254A4 (en) Healthcare question answering (qa) method and system based on contextualized language model and knowledge embedding
CN106970910A (zh) 一种基于图模型的关键词提取方法及装置
CN106776548A (zh) 一种文本的相似度计算的方法和装置
CN109062904B (zh) 逻辑谓词提取方法和装置
WO2020074023A1 (zh) 基于深度学习的医学文献中关键句筛选方法及装置
CN105528437A (zh) 一种基于结构化文本知识提取的问答系统构建方法
CN107092605A (zh) 一种实体链接方法及装置
CN107844608A (zh) 一种基于词向量的句子相似度比较方法
CN112883165B (zh) 一种基于语义理解的智能全文检索方法及系统
Choi et al. A syllable-based technique for word embeddings of Korean words
CN107656921A (zh) 一种基于深度学习的短文本依存分析方法
US20230153534A1 (en) Generating commonsense context for text using knowledge graphs
US20230094730A1 (en) Model training method and method for human-machine interaction
CN111444695B (zh) 基于人工智能的文本生成方法、装置、设备及存储介质
CN105956158A (zh) 基于海量微博文本和用户信息的网络新词自动提取的方法
Wu et al. WTMED at MEDIQA 2019: A hybrid approach to biomedical natural language inference

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant