CN105808525A - 一种基于相似概念对的领域概念上下位关系抽取方法 - Google Patents

一种基于相似概念对的领域概念上下位关系抽取方法 Download PDF

Info

Publication number
CN105808525A
CN105808525A CN201610186810.XA CN201610186810A CN105808525A CN 105808525 A CN105808525 A CN 105808525A CN 201610186810 A CN201610186810 A CN 201610186810A CN 105808525 A CN105808525 A CN 105808525A
Authority
CN
China
Prior art keywords
concept
pair
similar
field
hyponymy
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610186810.XA
Other languages
English (en)
Other versions
CN105808525B (zh
Inventor
刘春阳
赵志云
庞琳
张旭
李雄
王萌
陈新蕾
贾岩涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Computer Network and Information Security Management Center
Original Assignee
National Computer Network and Information Security Management Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Computer Network and Information Security Management Center filed Critical National Computer Network and Information Security Management Center
Priority to CN201610186810.XA priority Critical patent/CN105808525B/zh
Publication of CN105808525A publication Critical patent/CN105808525A/zh
Application granted granted Critical
Publication of CN105808525B publication Critical patent/CN105808525B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供一种基于相似概念对的领域概念上下位关系抽取方法,包括以下步骤:步骤1,领域概念集合由若干个领域概念组成;基于概念聚类的方法从领域概念集合中抽取相似的领域概念;步骤2,获得可能存在上下位关系的候选概念对,然后根据步骤1获取的相似概念产生相似候选概念对;步骤3,利用知识库获取部分训练数据,并通过相似候选概念对共同表征关系特征,实现基于多句特征的关系抽取,从而抽取到领域概念上下位关系。优点为:本发明可以突破语料规模的限制,利用多句特征抽取领域概念的上下位关系,可提升领域概念上下位关系抽取的准确率。

Description

一种基于相似概念对的领域概念上下位关系抽取方法
技术领域
本发明属于领域概念上下位关系抽取技术领域,具体涉及一种基于相似概念对的领域概念上下位关系抽取方法。
背景技术
领域概念以及领域概念关系的语义理解,是自然语言处理相关技术的综合应用,也是该领域的难题。领域概念关系主要包括上下位关系、同义关系、整体-部分关系等。其中,上下位关系是一种基本的语义关系,是构建层次本体的基础。上下位关系是指上位词和下位词之间的关系,其中,上位词为概念上外延更广的主题词,下位词为概念上内涵更窄的主题词。例如对于“中国”,“国家”两个词语,“国家”为上位词,“中国”为下位词。领域概念的上下位关系抽取主要关注如何对领域概念的上下位关系进行识别,并进一步用于构建领域知识库。
目前,领域概念上下位关系抽取的方法主要有基于模板的关系抽取方法和基于机器学习模型的关系抽取方法:
1.基于模板的关系抽取方法:利用文本中词与词之间的顺序信息,对不同关系编写不同的句法模板,依照句法模板自动从大量语料中抽取上下位关系。该种方法对于语言结构简单的英文有着较好的效果,但仍存在如下几个问题:1)模板需要人工制定,耗时耗力;2)在中文处理上,很难找到完全准确的模板;3)模板抽取的召回率较低;4)由于领域概念具有多义性,在多次迭代的模板抽取中容易出现语义漂移,导致大量错误数据引入,准确率急速下降。
2.基于机器学习模型的关系抽取方法:根据采用的模型和训练数据获取方式不同,可以分为有监督、半监督、弱监督、无监督的学习模型。
(1)有监督的关系抽取方法:主要采用候选概念对共现的句子作为训练数据,认为每一个概念对共现的句子就表示了概念对的一种关系。通过手工标注训练数据,从每个句子中获取词法、词性、句法、依存关系等特征作为训练数据的特征,通过训练数据构建分类器模型实现关系类型的预测。此方法准确率高,但需要手工标注训练数据,费时费力,并且受语料质量限制较多,无法满足大规模、多种类、多语言的关系抽取。
(2)半监督的关系抽取方法:给定抽取系统一些种子实体或种子关系,通过抽取系统获取更多含有种子实体或种子关系的实例,通过这些实例获取新的抽取模板或者抽取实体对,并对这些新的模板和实体对评估,选择质量较好的模板作为下一轮抽取的模板,多次迭代抽取。此方法只需少量数据标注,在小规模大数据结合上抽取效果较好,但由于模板筛选存在误差,多次迭代之后会导致语义漂移。
(3)弱监督的关系抽取方法。利用已知的知识库信息和未标注的语料共同产生训练数据。在未标注数据中查找从知识库中获取的候选概念对共现的句子作为关系预测模型的训练数据。这种方法能获得更多的训练数据,极大提高召回率,但在数据规模有限、面向特定领域的语料中,由于训练数据过少,不能很好利用句子的特征。
(4)无监督的关系抽取方法。多使用聚类方法实现关系类型的识别,这种方法不需要手工标注训练数据,而是利用共现句中的词法、句法、词向量等特征,利用聚类方法将相似特征的数据聚在一起,认为聚类在一团中的语句表示同一种关系。此方法较节省人力,但准确率不如其他抽取方法,在实际系统中应用较少,而且还可能错误地将不同的实体识别为同一个。
在上述各类基于机器学习模型的关系抽取方法,弱监督的关系抽取方法应用更为普遍。该方法认为两个候选领域概念共现的所有句子的集合共同表达概念之间的关系。然而在数据规模有限的情况下,候选概念对共同出现在同一个句子中的情况少之又少,大多数情况下候选概念对共现次数仅为1。在这种情况下,基于共现句子集合的弱监督关系抽取方法退化为基于单句级别特征的关系抽取方法,导致抽取结果准确率低。
发明内容
针对现有技术存在的缺陷,本发明提供一种基于相似概念对的领域概念上下位关系抽取方法,可有效解决上述问题。
本发明采用的技术方案如下:
本发明提供一种基于相似概念对的领域概念上下位关系抽取方法,包括以下步骤:
步骤1,领域概念集合由若干个领域概念组成;基于概念聚类的方法从领域概念集合中抽取相似的领域概念;
步骤2,获得可能存在上下位关系的候选概念对,然后根据步骤1获取的相似概念产生相似候选概念对;
步骤3,利用知识库获取部分训练数据,并通过相似候选概念对共同表征关系特征,实现基于多句特征的关系抽取,从而抽取到领域概念上下位关系。
优选的,步骤1中,基于概念聚类的方法从领域概念集合中抽取相似的领域概念,包括以下步骤:
步骤101,对于领域概念集合,基于公式1计算领域概念集合中任意两个领域概念之间的相似度,从而构造得到所有领域概念的相似度矩阵SimMatrix[ci,cj];
S i m ( c i , c j ) = 1 2 · Sim s t r i n g ( c i , c j ) + 1 2 · Sim s e m a t i c ( c i , c j )
其中,ci,cj为领域概念集合中任意两个领域概念;Simstring(ci,cj)表示领域概念ci,cj的字符串字面相似度,Simsemantic(ci,cj)为根据同义词词林计算的领域概念语义相似度;
步骤102,将每个领域概念ci作为一类(Ci),对于与分类Ci相似度最高的分类Cj,合并分类Ci和分类Cj为新分类Ck
重复执行步骤102,直到聚类的数目达到设定聚类数目阈值,从而将相似的若干个领域概念聚合成一个聚类团。
优选的,所述设定聚类数目阈值为领域概念总数的1%。
优选的,步骤2中,通过以下三种方式获得可能存在上下位关系的候选概念对:
(1)对于短语形式的领域概念,对短语本身进行句法分析,获得可能存在上下位关系的候选概念对;
(2)对于在百度百科中有分类信息的领域概念,基于百度百科词条的上下级分类关系,获得可能存在上下位关系的候选概念对;
(3)对步骤102获得的每个聚类团进行分析,获得可能存在上下位关系的候选概念对。
优选的,步骤2中,所述相似候选概念对是指符合如下两个定义的概念对:
定义1:如果两个概念c1,c2在同一聚类团中,并且有共同的候选上位概念c3,则:pair(c1,c3)和pair(c2,c3)是相似候选概念对;
定义2:设两个概念c1,c2的上位概念分别为c3,c4,如果两个概念c1,c2在同一聚类团中,并且,c3,c4也在同一聚类团中,则:pair(c1,c3)和pair(c2,c4)是相似候选概念对。
优选的,步骤3中,基于多句特征的关系抽取是指:如果有相似候选概念对pair(c1,c3)和pair(c2,c4),对于各自概念对的共现句子集合Set(pair(c1,c3))、Set(pair(c2,c4)),这两个句子集合能够共同表征同一种关系,这种方法即为基于多句特征的关系抽取方法,具体包括以下两步:
步骤301,利用训练数据进行分类模型的训练:
获取训练数据,训练数据由两部分组成:标注的训练数据和利用相似候选概念对扩展的训练数据;其中,对于标注的训练数据,直接抽取所标注训练数据的词性特征用于SVM分类模型的训练;对于利用相似候选概念对扩展的训练数据,针对每个候选概念对及其利用步骤2得到的相似候选概念对,查找它们所有的共现句子并抽取词性特征,用以训练上下位关系抽取的SVM分类模型;
步骤302,在对SVM分类模型进行训练后,得到最终的分类模型;采用所述最终的分类模型基于词性特征进行上下位关系的抽取,得到上下位关系的抽取结果。
本发明提供的基于相似概念对的领域概念上下位关系抽取方法具有以下优点:
传统的上下位关系抽取方法由于语料规模的限制,导致候选领域概念共同出现的训练语句过少。本发明可以突破语料规模的限制,利用多句特征抽取领域概念的上下位关系,可提升领域概念上下位关系抽取的准确率。
附图说明
图1为本发明提供的基于相似概念对的领域概念上下位关系抽取方法的整体流程示意图;
图2为本发明提供的对领域概念聚类之后形成的聚类团示意图;
图3为本发明提供的步骤3中领域概念上下位关系训练和抽取过程流程示意图。
具体实施方式
为了使本发明所解决的技术问题、技术方案及有益效果更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
本发明提出一种基于相似概念对的领域概念上下位关系抽取方法,本发明主要针对训练数据特征不明显的问题,基于多句特征对领域概念的上下位关系进行抽取。该方法的主要思想是:认为具有相似意义的概念对组成的句子集合可以表达同一种关系特征,首先抽取相似概念对,然后在此基础之上融合多句特征,对领域概念的上下位关系进行抽取,可以在数据规模有限、存在噪声的语料中得到有效表征关系特征的领域概念关系,提高关系抽取的准确率。
结合图1,本发明提供的基于相似概念对的领域概念上下位关系抽取方法,包括以下步骤:
步骤1,领域概念集合由若干个领域概念组成;基于概念聚类的方法从领域概念集合中抽取相似的领域概念;
本步骤中,基于概念聚类的方法从领域概念集合中抽取相似的领域概念,所采用的聚类方法为层次聚类方法,包括以下步骤:
步骤101,对于领域概念集合,基于公式1计算领域概念集合中任意两个领域概念之间的相似度,从而构造得到所有领域概念的相似度矩阵SimMatrix[ci,cj];
S i m ( c i , c j ) = 1 2 · Sim s t r i n g ( c i , c j ) + 1 2 · Sim s e m a t i c ( c i , c j )
其中,ci,cj为领域概念集合中任意两个领域概念;Simstring(ci,cj)表示领域概念ci,cj的字符串字面相似度,Simsemantic(ci,cj)为根据同义词词林计算的领域概念语义相似度;其中,同义词词林是梅家驹等人于1983年编纂而成,该词典不仅包括一个词语的同义词,也包含了一定数量的同类词,即广义的相关词。
步骤102,将每个领域概念ci作为一类(Ci),对于与分类Ci相似度最高的分类Cj,合并分类Ci和分类Cj为新分类Ck
重复执行步骤102,直到聚类的数目达到设定聚类数目阈值,例如,达到领域概念总数的1%时终止,从而将相似的若干个领域概念聚合成一个聚类团。参考图2,为对领域概念聚类之后形成的聚类团示意图。
步骤2,获得可能存在上下位关系的候选概念对,例如pair(“美国”,“北美洲”)。然后根据步骤1获取的相似概念产生相似候选概念对;
候选概念对pair(c1,c2)表示领域概念对包含的两个领域概念c1,c2之间存在关系。存在潜在上下位关系的概念对来源主要有三个:从领域概念短语本身抽取、百科词条对应的分类信息、聚类结果,这三种来源产生的候选概念对质量较高:
(1)领域概念本身。一般来说,较长的领域概念表示的较为抽象,多为短语的形式。相对容易从概念本身抽取潜在的上位关系。由于短语形式的领域概念在领域概念的抽取结果中占有相当数量的比重,所以这是一种较为快速有效的潜在领域概念对的抽取方法。例如,对于“C-17A环球霸王运输机”,根据句法分析可以找到潜在的上位概念“运输机”。
(2)百科分类。部分领域概念在百度百科中有分类信息,这些分类信息很好表征了领域概念的上位概念。将领域概念和领域概念在百科中的分类信息作为概念对的准确率更高。例如“奥巴马”在百度百科词条的上级分类“美国总统”、“政治人物”、“人物”、“国家首脑”等都是准确率高的上位概念。
(3)聚类结果。由于在聚类中使用了概念的上下文特征和同义词词林的语义特征作为相似度计算的部分,所以在步骤1)得到的领域概念聚类的团中包含潜在的上下位概念关系。如图2中所示聚类团,岛屿和海岛存在上下位关系、争端和领土争端存在上下位关系等。
本发明中,相似候选概念对是指符合如下两个定义的概念对:
定义1:如果两个概念c1,c2在同一聚类团中,并且有共同的候选上位概念c3,则:pair(c1,c3)和pair(c2,c3)是相似候选概念对;
定义2:设两个概念c1,c2的上位概念分别为c3,c4,如果两个概念c1,c2在同一聚类团中,并且,c3,c4也在同一聚类团中,则:pair(c1,c3)和pair(c2,c4)是相似候选概念对。
步骤3,利用知识库,例如百度百科知识库,获取部分训练数据,并通过相似候选概念对共同表征关系特征,实现基于多句特征的关系抽取,从而抽取到领域概念上下位关系。
其中,基于多句特征的关系抽取是指:如果有相似候选概念对pair(c1,c3)和pair(c2,c4),对于各自概念对的共现句子集合Set(pair(c1,c3))、Set(pair(c2,c4)),这两个句子集合能够共同表征同一种关系,这种方法即为基于多句特征的关系抽取方法,如图3所示,具体包括以下两步:
步骤301,利用训练数据进行分类模型的训练:
获取训练数据,训练数据由两部分组成:标注的训练数据和利用相似候选概念对扩展的训练数据;其中,对于标注的训练数据,直接抽取所标注训练数据的词性特征用于SVM分类模型的训练;对于利用相似候选概念对扩展的训练数据,针对每个候选概念对及其利用步骤2得到的相似候选概念对,查找它们所有的共现句子并抽取词性特征,用以训练上下位关系抽取的SVM分类模型;
也就是说,本发明中,用以训练上下位关系抽取的分类模型需要用到各个训练数据的词性特征(使用Stanford的词性分析工具,并且把词性分为名词、动词、形容词、副词、数量词、外文词和其他,共7种)。这里用到的分类模型是SVM,SVM支持向量机,是一个有监督的二类分类模型,其基本模型定义为特征空间上的间隔最大的线性分类器,其学习策略便是间隔最大化,最终可转化为一个凸二次规划问题的求解的分类方法。
步骤302,在对SVM分类模型进行训练后,得到最终的分类模型;采用所述最终的分类模型基于词性特征进行上下位关系的抽取,得到上下位关系的抽取结果。
为了进一步验证本发明的技术效果,使用南海方面的包含29822篇文本的领域文本集合进行上下位关系抽取的测试。将本发明提出的基于弱监督的多句特征的方法与传统的从单句中抽取特征的分类方法在数据集合上做实验进行比较,实验结果表明:多句特征在准确率上较单句特征有所下降,但召回率上升了4%。这也说明多句特征的方法将某种关系较为共性的特征更加显著化,在损失一定准确率的情况下提高了同类型的关系召回率。多句特征的方法在F1值方面较单句特征提高了3%,证明了多句特征提取的上下位关系抽取方法的有效性。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视本发明的保护范围。

Claims (6)

1.一种基于相似概念对的领域概念上下位关系抽取方法,其特征在于,包括以下步骤:
步骤1,领域概念集合由若干个领域概念组成;基于概念聚类的方法从领域概念集合中抽取相似的领域概念;
步骤2,获得可能存在上下位关系的候选概念对,然后根据步骤1获取的相似概念产生相似候选概念对;
步骤3,利用知识库获取部分训练数据,并通过相似候选概念对共同表征关系特征,实现基于多句特征的关系抽取,从而抽取到领域概念上下位关系。
2.根据权利要求1所述的基于相似概念对的领域概念上下位关系抽取方法,其特征在于,步骤1中,基于概念聚类的方法从领域概念集合中抽取相似的领域概念,包括以下步骤:
步骤101,对于领域概念集合,基于公式1计算领域概念集合中任意两个领域概念之间的相似度,从而构造得到所有领域概念的相似度矩阵SimMatrix[ci,cj];
S i m ( c i , c j ) = 1 2 · Sim s t r i n g ( c i , c j ) + 1 2 · Sim s e m a t i c ( c i , c j )
其中,ci,cj为领域概念集合中任意两个领域概念;Simstring(ci,cj)表示领域概念ci,cj的字符串字面相似度,Simsemantic(ci,cj)为根据同义词词林计算的领域概念语义相似度;
步骤102,将每个领域概念ci作为一类(Ci),对于与分类Ci相似度最高的分类Cj,合并分类Ci和分类Cj为新分类Ck
重复执行步骤102,直到聚类的数目达到设定聚类数目阈值,从而将相似的若干个领域概念聚合成一个聚类团。
3.根据权利要求2所述的基于相似概念对的领域概念上下位关系抽取方法,其特征在于,所述设定聚类数目阈值为领域概念总数的1%。
4.根据权利要求2所述的基于相似概念对的领域概念上下位关系抽取方法,其特征在于,步骤2中,通过以下三种方式获得可能存在上下位关系的候选概念对:
(1)对于短语形式的领域概念,对短语本身进行句法分析,获得可能存在上下位关系的候选概念对;
(2)对于在百度百科中有分类信息的领域概念,基于百度百科词条的上下级分类关系,获得可能存在上下位关系的候选概念对;
(3)对步骤102获得的每个聚类团进行分析,获得可能存在上下位关系的候选概念对。
5.根据权利要求2所述的基于相似概念对的领域概念上下位关系抽取方法,其特征在于,步骤2中,所述相似候选概念对是指符合如下两个定义的概念对:
定义1:如果两个概念c1,c2在同一聚类团中,并且有共同的候选上位概念c3,则:pair(c1,c3)和pair(c2,c3)是相似候选概念对;
定义2:设两个概念c1,c2的上位概念分别为c3,c4,如果两个概念c1,c2在同一聚类团中,并且,c3,c4也在同一聚类团中,则:pair(c1,c3)和pair(c2,c4)是相似候选概念对。
6.根据权利要求2所述的基于相似概念对的领域概念上下位关系抽取方法,其特征在于,步骤3中,基于多句特征的关系抽取是指:如果有相似候选概念对pair(c1,c3)和pair(c2,c4),对于各自概念对的共现句子集合Set(pair(c1,c3))、Set(pair(c2,c4)),这两个句子集合能够共同表征同一种关系,这种方法即为基于多句特征的关系抽取方法,具体包括以下两步:
步骤301,利用训练数据进行分类模型的训练:
获取训练数据,训练数据由两部分组成:标注的训练数据和利用相似候选概念对扩展的训练数据;其中,对于标注的训练数据,直接抽取所标注训练数据的词性特征用于SVM分类模型的训练;对于利用相似候选概念对扩展的训练数据,针对每个候选概念对及其利用步骤2得到的相似候选概念对,查找它们所有的共现句子并抽取词性特征,用以训练上下位关系抽取的SVM分类模型;
步骤302,在对SVM分类模型进行训练后,得到最终的分类模型;采用所述最终的分类模型基于词性特征进行上下位关系的抽取,得到上下位关系的抽取结果。
CN201610186810.XA 2016-03-29 2016-03-29 一种基于相似概念对的领域概念上下位关系抽取方法 Expired - Fee Related CN105808525B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610186810.XA CN105808525B (zh) 2016-03-29 2016-03-29 一种基于相似概念对的领域概念上下位关系抽取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610186810.XA CN105808525B (zh) 2016-03-29 2016-03-29 一种基于相似概念对的领域概念上下位关系抽取方法

Publications (2)

Publication Number Publication Date
CN105808525A true CN105808525A (zh) 2016-07-27
CN105808525B CN105808525B (zh) 2018-06-29

Family

ID=56454185

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610186810.XA Expired - Fee Related CN105808525B (zh) 2016-03-29 2016-03-29 一种基于相似概念对的领域概念上下位关系抽取方法

Country Status (1)

Country Link
CN (1) CN105808525B (zh)

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106354715A (zh) * 2016-09-28 2017-01-25 医渡云(北京)技术有限公司 医疗词汇处理方法及装置
CN106649819A (zh) * 2016-12-29 2017-05-10 北京奇虎科技有限公司 一种提取实体词和上位词的方法及装置
CN106875014A (zh) * 2017-03-02 2017-06-20 上海交通大学 基于半监督学习的软件工程知识库的自动化构建实现方法
CN107783957A (zh) * 2016-08-30 2018-03-09 中国电信股份有限公司 本体创建方法和装置
CN108280221A (zh) * 2018-02-08 2018-07-13 北京百度网讯科技有限公司 关注点的层次化构建方法、装置和计算机设备
WO2018171499A1 (zh) * 2017-03-21 2018-09-27 腾讯科技(深圳)有限公司 一种信息检测方法、设备及存储介质
CN108733702A (zh) * 2017-04-20 2018-11-02 北京京东尚科信息技术有限公司 用户查询上下位关系提取的方法、装置、电子设备和介质
CN108959240A (zh) * 2017-05-26 2018-12-07 上海醇聚信息科技有限公司 一种专有本体自动生成系统及方法
CN109189941A (zh) * 2018-09-07 2019-01-11 百度在线网络技术(北京)有限公司 用于更新模型参数的方法、装置、设备和介质
CN109472033A (zh) * 2018-11-19 2019-03-15 华南师范大学 文本中的实体关系抽取方法及系统、存储介质、电子设备
CN109710928A (zh) * 2018-12-17 2019-05-03 新华三大数据技术有限公司 非结构化文本的实体关系抽取方法及装置
CN110019648A (zh) * 2017-12-05 2019-07-16 深圳市腾讯计算机系统有限公司 一种训练数据的方法、装置及存储介质
CN110532548A (zh) * 2019-08-12 2019-12-03 上海大学 一种基于FP-Growth算法的上下位关系抽取方法
CN110852066A (zh) * 2018-07-25 2020-02-28 清华大学 一种基于对抗训练机制的多语言实体关系抽取方法及系统
CN110874395A (zh) * 2019-10-14 2020-03-10 中国船舶重工集团公司第七0九研究所 一种基于上下文相关性的抽象概念实例化方法
CN111048167A (zh) * 2019-10-31 2020-04-21 中电药明数据科技(成都)有限公司 一种层级式病例结构化方法及系统
CN112164400A (zh) * 2020-09-18 2021-01-01 广州小鹏汽车科技有限公司 语音交互方法、服务器和计算机可读存储介质
WO2021053511A1 (en) * 2019-09-18 2021-03-25 International Business Machines Corporation Hypernym detection using strict partial order networks
CN113139389A (zh) * 2021-04-29 2021-07-20 南宁师范大学 基于动态优化的图模型语义查询扩展方法和装置
CN113535967A (zh) * 2020-04-17 2021-10-22 复旦大学 中文通用概念图谱纠错装置
CN115203429A (zh) * 2022-06-27 2022-10-18 南京审计大学 一种用于构建审计领域本体框架的知识图谱自动扩充方法
US11556570B2 (en) 2018-09-20 2023-01-17 International Business Machines Corporation Extraction of semantic relation

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080249764A1 (en) * 2007-03-01 2008-10-09 Microsoft Corporation Smart Sentiment Classifier for Product Reviews
CN102799577A (zh) * 2012-08-17 2012-11-28 苏州大学 一种中文实体间语义关系抽取方法
CN105138864A (zh) * 2015-09-24 2015-12-09 大连理工大学 基于生物医学文献的蛋白质交互关系数据库构建方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080249764A1 (en) * 2007-03-01 2008-10-09 Microsoft Corporation Smart Sentiment Classifier for Product Reviews
CN102799577A (zh) * 2012-08-17 2012-11-28 苏州大学 一种中文实体间语义关系抽取方法
CN105138864A (zh) * 2015-09-24 2015-12-09 大连理工大学 基于生物医学文献的蛋白质交互关系数据库构建方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
仲云云 等: "电子政务主题词表的自动构建研究", 《中国图书馆学报》 *
张巍 等: "面向词汇知识库自动构建的概念术语关系识别", 《现代图书情报技术》 *
舒万里: "中文领域本体学习中概念和关系抽取的研究", 《中国优秀硕士学位论文全文数据库》 *
陈新蕾 等: "基于词向量的开放文本领域概念识别方法", 《山西大学学报(自然科学版)》 *

Cited By (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107783957A (zh) * 2016-08-30 2018-03-09 中国电信股份有限公司 本体创建方法和装置
CN107783957B (zh) * 2016-08-30 2021-05-18 中国电信股份有限公司 本体创建方法和装置
CN106354715B (zh) * 2016-09-28 2019-04-16 医渡云(北京)技术有限公司 医疗词汇处理方法及装置
CN106354715A (zh) * 2016-09-28 2017-01-25 医渡云(北京)技术有限公司 医疗词汇处理方法及装置
CN106649819A (zh) * 2016-12-29 2017-05-10 北京奇虎科技有限公司 一种提取实体词和上位词的方法及装置
CN106875014A (zh) * 2017-03-02 2017-06-20 上海交通大学 基于半监督学习的软件工程知识库的自动化构建实现方法
CN106875014B (zh) * 2017-03-02 2021-06-15 上海交通大学 基于半监督学习的软件工程知识库的自动化构建实现方法
WO2018171499A1 (zh) * 2017-03-21 2018-09-27 腾讯科技(深圳)有限公司 一种信息检测方法、设备及存储介质
CN108733702A (zh) * 2017-04-20 2018-11-02 北京京东尚科信息技术有限公司 用户查询上下位关系提取的方法、装置、电子设备和介质
CN108733702B (zh) * 2017-04-20 2020-09-29 北京京东尚科信息技术有限公司 用户查询上下位关系提取的方法、装置、电子设备和介质
CN108959240A (zh) * 2017-05-26 2018-12-07 上海醇聚信息科技有限公司 一种专有本体自动生成系统及方法
CN110019648A (zh) * 2017-12-05 2019-07-16 深圳市腾讯计算机系统有限公司 一种训练数据的方法、装置及存储介质
CN110019648B (zh) * 2017-12-05 2021-02-02 深圳市腾讯计算机系统有限公司 一种训练数据的方法、装置及存储介质
CN108280221B (zh) * 2018-02-08 2022-04-15 北京百度网讯科技有限公司 关注点的层次化构建方法、装置和计算机设备
CN108280221A (zh) * 2018-02-08 2018-07-13 北京百度网讯科技有限公司 关注点的层次化构建方法、装置和计算机设备
CN110852066A (zh) * 2018-07-25 2020-02-28 清华大学 一种基于对抗训练机制的多语言实体关系抽取方法及系统
CN110852066B (zh) * 2018-07-25 2021-06-01 清华大学 一种基于对抗训练机制的多语言实体关系抽取方法及系统
CN109189941A (zh) * 2018-09-07 2019-01-11 百度在线网络技术(北京)有限公司 用于更新模型参数的方法、装置、设备和介质
US11556570B2 (en) 2018-09-20 2023-01-17 International Business Machines Corporation Extraction of semantic relation
CN109472033A (zh) * 2018-11-19 2019-03-15 华南师范大学 文本中的实体关系抽取方法及系统、存储介质、电子设备
CN109472033B (zh) * 2018-11-19 2022-12-06 华南师范大学 文本中的实体关系抽取方法及系统、存储介质、电子设备
CN109710928B (zh) * 2018-12-17 2022-08-19 新华三大数据技术有限公司 非结构化文本的实体关系抽取方法及装置
CN109710928A (zh) * 2018-12-17 2019-05-03 新华三大数据技术有限公司 非结构化文本的实体关系抽取方法及装置
CN110532548A (zh) * 2019-08-12 2019-12-03 上海大学 一种基于FP-Growth算法的上下位关系抽取方法
US11068665B2 (en) 2019-09-18 2021-07-20 International Business Machines Corporation Hypernym detection using strict partial order networks
US11694035B2 (en) 2019-09-18 2023-07-04 International Business Machines Corporation Hypernym detection using strict partial order networks
WO2021053511A1 (en) * 2019-09-18 2021-03-25 International Business Machines Corporation Hypernym detection using strict partial order networks
GB2602762A (en) * 2019-09-18 2022-07-13 Ibm Hypernym detection using strict partial order networks
CN110874395B (zh) * 2019-10-14 2022-05-31 中国船舶重工集团公司第七0九研究所 一种基于上下文相关性的抽象概念实例化方法
CN110874395A (zh) * 2019-10-14 2020-03-10 中国船舶重工集团公司第七0九研究所 一种基于上下文相关性的抽象概念实例化方法
CN111048167B (zh) * 2019-10-31 2023-08-18 中电药明数据科技(成都)有限公司 一种层级式病例结构化方法及系统
CN111048167A (zh) * 2019-10-31 2020-04-21 中电药明数据科技(成都)有限公司 一种层级式病例结构化方法及系统
CN113535967B (zh) * 2020-04-17 2022-02-22 复旦大学 中文通用概念图谱纠错装置
CN113535967A (zh) * 2020-04-17 2021-10-22 复旦大学 中文通用概念图谱纠错装置
CN112164400A (zh) * 2020-09-18 2021-01-01 广州小鹏汽车科技有限公司 语音交互方法、服务器和计算机可读存储介质
CN113139389B (zh) * 2021-04-29 2023-01-13 南宁师范大学 基于动态优化的图模型语义查询扩展方法和装置
CN113139389A (zh) * 2021-04-29 2021-07-20 南宁师范大学 基于动态优化的图模型语义查询扩展方法和装置
CN115203429A (zh) * 2022-06-27 2022-10-18 南京审计大学 一种用于构建审计领域本体框架的知识图谱自动扩充方法

Also Published As

Publication number Publication date
CN105808525B (zh) 2018-06-29

Similar Documents

Publication Publication Date Title
CN105808525A (zh) 一种基于相似概念对的领域概念上下位关系抽取方法
Jones et al. Bootstrapping for text learning tasks
CN107463607B (zh) 结合词向量和自举学习的领域实体上下位关系获取与组织方法
Kaji et al. Building lexicon for sentiment analysis from massive collection of HTML documents
Denis et al. Coupling an annotated corpus and a morphosyntactic lexicon for state-of-the-art POS tagging with less human effort
CN109408642A (zh) 一种基于距离监督的领域实体属性关系抽取方法
CN106383817A (zh) 利用分布式语义信息的论文标题生成方法
CN103488623A (zh) 多种语言文本数据分类处理方法
CN102214166A (zh) 基于句法分析和层次模型的机器翻译系统和方法
CN106257455A (zh) 一种基于依存关系模板抽取观点评价对象的Bootstrapping算法
CN110287298A (zh) 一种基于问句主题的自动问答答案选择方法
Lagakis et al. Automated essay scoring: A review of the field
CN104317882A (zh) 一种决策级中文分词融合方法
Wan et al. Enhancing metaphor detection by gloss-based interpretations
CN114579695A (zh) 一种事件抽取方法、装置、设备及存储介质
Zhang et al. Word sense disambiguation with knowledge-enhanced and local self-attention-based extractive sense comprehension
Kambarami et al. Computational modeling of agglutinative languages: the challenge for southern bantu languages
Xu et al. Product feature mining: Semantic clues versus syntactic constituents
Comas et al. Sibyl, a factoid question-answering system for spoken documents
Adouane et al. A comparison of character neural language model and bootstrapping for language identification in multilingual noisy texts
Kessler et al. Extraction of terminology in the field of construction
CN112307756A (zh) 基于Bi-LSTM和字词融合的汉语分词方法
CN103793491B (zh) 一种基于柔性语义相似性度量的中文新闻故事分割方法
Hong et al. Deep inside-outside recursive autoencoder with all-span objective
Byamugisha Noun Class Disambiguation in Runyankore and Related Languages

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20180629

Termination date: 20190329