CN104933027A - 一种利用依存分析的开放式中文实体关系抽取方法 - Google Patents

一种利用依存分析的开放式中文实体关系抽取方法 Download PDF

Info

Publication number
CN104933027A
CN104933027A CN201510321339.6A CN201510321339A CN104933027A CN 104933027 A CN104933027 A CN 104933027A CN 201510321339 A CN201510321339 A CN 201510321339A CN 104933027 A CN104933027 A CN 104933027A
Authority
CN
China
Prior art keywords
named entity
word
relation
dependency analysis
sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510321339.6A
Other languages
English (en)
Other versions
CN104933027B (zh
Inventor
杨静
李明耀
贺樑
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Chengguan Information Technology Co., Ltd.
Original Assignee
East China Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by East China Normal University filed Critical East China Normal University
Priority to CN201510321339.6A priority Critical patent/CN104933027B/zh
Publication of CN104933027A publication Critical patent/CN104933027A/zh
Application granted granted Critical
Publication of CN104933027B publication Critical patent/CN104933027B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)

Abstract

本发明公开了一种利用依存分析的开放式中文实体关系抽取方法,该方法首先对句子进行依存分析,再结合中文语法启发式规则和依存分析的结果抽取关系词语,然后根据距离确定命名实体位置,最后进行三元组输出。在SogouCA和SogouCS语料库上进行实验,结果表明本发明适用于大规模语料库,具有良好的可移植性。本发明从根本上克服了汉语语法复杂,表达方式多样,语义丰富等固有性质的限制。

Description

一种利用依存分析的开放式中文实体关系抽取方法
技术领域
本发明涉及自然语言的信息抽取技术领域,尤其是一种利用依存分析的开放式中文实体关系抽取方法。
背景技术
近年来,随着互联网技术的发展,万维网逐渐成为一个取之不尽用之不竭的信息来源,如何快速获得用户感兴趣的信息成为研究关注的焦点。信息抽取(Information Extraction,IE)技术正是在这种背景下应运而生,信息抽取的主要目的是从自然语言文本中抽取指定的实体(Entity)、关系(Relation)、事件(Event)等事实信息,把文本中无结构化信息转化成结构化的信息。实体关系抽取(Relation Extraction,RE)是指确定实体之间是否存在某种语义关系,是信息抽取的重要组成部分,涉及自然语言处理、机器学习等多方面的理论,在自动问答系统、文本挖掘、搜索引擎、知识图谱构建等有着广泛的应用。
传统的信息抽取是面向限定领域文本的、限定类别实体、关系和事件等的抽取,面对日益增多不规范的和开放的海量数据,传统的依赖于标注语料的统计机器学习方法遇到了严重的挑战。开放式信息抽取(Open Information Extraction,OIE)在这种背景下产生,目标是从海量、异构、不规范、含有大量噪声和冗余的网页中大规模地抽取开放类别的实体、关系、事件等,并形成结构化的数据格式输出。
开放式实体关系抽取可以分为半监督、远程监督和无监督三种方法。其中,半监督的抽取方法需要少量的人工种子数据,并没有用到句法特征,更多的是一系列的正则表达式,而初始种子的好坏能够明显影响程序结果。远程监督的方法需要一个较大规模的知识库,需要尽可能多地含有关系类别以及对应的关系实例。知识库中的关系类别的数量会直接影响到能够抽取出来的关系类别,每种关系类别中的关系实例数量会直接影响到特征的数量,最终影响抽取关系抽取的准确率和召回率。此外,在中文上,也很难找到一个大规模的可用的关系知识库。无监督的抽取方法不需要任何人工标注数据,聚类方法在很大程度上减少了人工的介入,消除了预定义关系类别、不依赖标注的语料以及人工指定的规则。但这类方法仍存在一些不足,例如特征获取不准确、聚类结果不合理、准确率较低以及聚类数目、聚类中心难以确定等。在英文上无监督的另一种方法就是用实体之间的谓语作为关系表述,大量的研究学者在此基础上进行了研究。理论上,英文实体关系抽取的方法可以用于中文实体关系抽取。但是由于汉语语法复杂,表达方式多样,语义丰富等固有性质的限制,一些英文实体关系抽取的方法很难直接用在中文实体关系抽取上。
发明内容
本发明的目的是针对现有技术的不足而提供的一种利用依存分析的开放式中文实体关系抽取方法,利用依存分析结合中文语法启发式规则实现中文实体关系抽取。该方法以大规模的自由文本作为关系抽取的目标文本,并借助语言云(Language Technology Platform,LTP)对分句后的自由文本进行分词、词性标注、命名实体识别和依存分析等预处理;然后,结合中文语法启发式规则和依存分析的结果抽取关系表述,然后根据距离确定命名实体位置,最后输出表示实体关系的三元组的集合。
本发明的目的是这样实现的:
一种利用依存分析的开放式中文实体关系抽取方法,该方法包括以下具体步骤:
第一步:对大规模的自由文本采用基于视觉信息的网页分块算法进行正文提取;
第二步:按照句号、问号和感叹号对提取到的正文进行分句处理,得到单句的集合;
第三步:采用语言技术平台云,对每个单句进行分词、词性标注、命名实体识别和依存分析,得到带有分词、词性标注、命名实体和依存分析信息的单句;
第四步:根据第三步中依存分析的结果判断句子是不是动词谓语句,如果不是,执行第十步;
第五步:结合关系表述即“状语*动词+补语?宾语?”,以及第三步的依存分析结果抽取关系词语;
第六步:根据第三步的结果,将组成命名实体的词进行合并;根据第五步的结果,将组成关系词语的词进行合并;最后,将词、命名实体以及关系词语从右向左依次将它们的位置标记为1,2,......,N;若关系词语中含有命名实体,则其位置标记相同;
第七步:根据第六步的位置标记,确定命名实体位置,利用公式(1)计算置信度,当置信度Confidence(Li,Lj)达到最大值时,选择Li的位置作为命名实体1,选择Lj的位置作为命名实体2,设命名实体1的位置总是位于命名实体2的位置的左边;
Confidence ( L i , L j ) = 1 L i - L j + 1 L i - R + 1 L j - R + 1 ( L i > L j ) - - - ( 1 )
在公式(1)中,L表示命名实体的位置,R表示关系词语的位置;第一个分式中,Li-Lj表示命名实体1和命名实体2的距离;在第二个分式中,Li-R表示命名实体1和关系词语的距离;在第三个分式中,Lj-R+1表示命名实体2和关系词语的距离,距离越大表示命名实体和命名实体之间、命名实体和关系词语之间存在语义关系的可能性越小,置信度也会越低;
第八步:手动设置关系词语比例r
通过爬取百度百科WEB页面,选取公式(2)中的r=0.1,0.2,0.3……,0.9作为阈值,通过实验当r=0.7的时候准确率、召回率、F值最优;当命名实体长度为1时,识别出来的命名实体为1个字,这里选取命名实体的长度大于等于2作为阈值;
第九步:根据第五步抽取到关系词语和第七步的命名实体以及第八步的过滤条件,如果符合条件则输出三元组,如果不符合条件则不输出该三元组;
第十步:结束。
所述依存分析依是通过分析语言单位内成分之间的依存关系揭示其句法结构,主张句子中核心动词是支配其它成分的中心成分,而核心动词本身却不受其它任何成分的支配,所有受支配成分都以某种依存关系从属于核心动词。
与背景技术相比,本发明有以下优点:
根据本发明的实现步骤,能够从大规模的自由文本中抽取出中文实体关系,克服了半监督方法初始种子选择困难的问题;克服了远程监督方法,在中文上很难找到一个大规模的可用的关系知识库;克服了无监督聚类方法特征获取不准确、聚类结果不合理、准确率较低以及聚类数目、聚类中心难以确定的问题;克服了汉语语法复杂,表达方式多样,语义丰富等固有性质的限制,保证了关系抽取的准确率、召回率和F值。
附图说明
图1为本发明流程图
图2为本发明依存分析实例示意图;
图3为本发明依存句法分析标注关系示意图;
图4为本发明的关系词语示意图。
具体实施方式
参阅图1,本发明包括以下具体步骤:
第一步:对输入的自由文本采用基于视觉信息的网页分块(Vision-based PageSegmentation,VIPS)算法进行正文提取;
第二步:按照句号、问号和感叹号对提取的正文进行分句处理,输出单句的集合;
句子是语言的使用单位,句子由词或短语构成,能表达一个完整的意思,在书面上用句号、问号或感叹号表示停顿和语调。以句子的结构特点为分类标准,中文的句子可分为两大类:单句和复句。两个或两个以上的单句,意义上密切相连,结构上互不包含,组成一句话,这就是复句。复句拆分以后,即可成为单句。
第三步:借助哈工大社会计算与信息检索研究中心的语言技术平台云(LanguageTechnology Platform,LTP),对每个单句进行分词、词性标注、命名实体识别和依存分析,输出带有分词、词性标注、命名实体和依存分析信息的单句。
依存分析通过分析语言单位内成分之间的依存关系揭示其句法结构,主张句子中核心动词是支配其它成分的中心成分,而核心动词本身却不受其它任何成分的支配,所有受支配成分都以某种依存关系从属于核心动词。依存句法分析可以反映出句子各成分之间的语义修饰关系,识别句子中的“主谓宾”、“定状补”这些语法成分,并分析各成分之间的关系。
第四步:根据第三步中依存分析的结果判断句子是不是动词谓语句,如果不是,执行第十步。
单句又可分为非主谓句和主谓句,其中主谓句由单个词或其他短语构成,可以分析出主语和谓语作为命名实体。主谓句分为动词谓语句、形容词谓语句和名词谓语句,动词谓语句的谓语是动词或者动词短语,它在日常用语中占了很大的比重,是汉语中常见的句型。
第五步:结合关系表述即“状语*动词+补语?宾语?”,以及第三步中的依存分析的结果抽取关系词语。
其中*表示出现0次或者任意多次,+表示出现1次或者任意多次,?表示出现0次或者1次。动词谓语句主要分为三大类,动词做谓语、动词短语做谓语、复杂的动词短语作谓语。动词作谓语的情况比较简单,动词作为谓语。动词短语做谓语是以动词为主体,主要分为三大类:动宾短语、后补短语、偏正短语。其中,偏正短语的结构由中心语和修饰语配对组成,可以分为两类:定语中心语、状语中心语。复杂的动词短语作谓语是一个动词同时带有状、宾、补语或其中的两个。例如:“状+动+补+宾”,“状+动+补”,“状+动+宾”,“动+补+宾”。
第六步:根据第三步的结果,将组成命名实体的词进行合并。根据第五步的结果,将组成关系词语的词进行合并。最后,将词、命名实体以及关系词语,从右向左依次将它们的位置标记为1,2,......,N。若关系词语中含有命名实体,则它们的位置标记相同。
第七步:根据第六步的位置标记,确定命名实体位置,当公式(1)中置信度Confidence(Li,Lj)达到最大值时,选择Li的位置作为命名实体1,选择Lj的位置作为命名实体2,假定命名实体1的位置总是位于命名实体2的位置的左边。
Confidence ( L i , L j ) = 1 L i - L j + 1 L i - R + 1 L j - R + 1 ( L i > L j ) - - - ( 1 )
在公式(1)中,L表示命名实体的位置,R表示关系词语的位置。第一个分式中,Li-Lj表示命名实体1和命名实体2的距离;在第二个分式中,Li-R表示命名实体1和关系词语的距离;在第三个分式中,Lj-R+1表示命名实体2和关系词语的距离,分母中加1的目的是为了防止除数为0,因为命名实体2有可能出现在关系词语中,距离越大表示命名实体和命名实体之间、命名实体和关系词语之间存在语义关系的可能性越小,置信度也会越低。
第八步:手动设置关系词语比例r
通过爬取的百度百科WEB页面,选取了公式(2)中的r=0.1,0.2,0.3……,0.9作为阈值,通过实验当r=0.7的时候准确率、召回率、F值最优。当命名实体长度为1的时候,识别出来的命名实体为1个字,选取命名实体的长度大于等于2作为阈值。
第九步:根据第五步抽取到关系表述和第七步的论元以及第八步的过滤条件,如果符合条件则输出三元组,如果不符合条件则不输出该三元组;
第十步:结束。
实施例
参阅图1-4,将大规模自由文本进行输入,接着对输入的自由文本进行预处理。
第一步:由于自由文本中含有大量的HTML标签以及其它噪声,对输入的自由文本采用基于视觉信息的网页分块(Vision-based Page Segmentation,VIPS)算法进行正文提取;
第二步:按照句号、问号和感叹号对输出的正文进行分句处理,输出单句的集合;
第三步:由于中文不像英文一样,词和词之间有空格作为明显的分割边界,借助哈工大社会计算与信息检索研究中心的语言技术平台云(Language Technology Platform,LTP),对每个单句进行分词、词性标注、命名实体识别和依存分析。例如,用LTP对句子“上海市公安局和上海海关缉私局成立联合专案组,迅速开展案件侦查。”进行分析,可以得到图2的结果,其中n表示名词、v表示动词、a表示形容词。如图3所示,展示了在本专利方法中常用的依存句法分析标注关系。
第四步:根据第三步中的依存分析的结果判断句子是不是动词谓语句,如果不是,执行第十步。结合图3通过依存弧VOB确定图2中的句子是动词谓语句。
第五步:结合关系表述即“状语*动词+补语?宾语?”,以及第三步中的依存分析的结果抽取关系词语。图2中的句子,通过依存弧VOB确定动宾关系:“成立专案组和开展侦查”。然后按照关系表述更形象化的如图4所示,对动宾关系进一步完善,在“成立专案组”中,依存弧ATT表示定中关系,“联合”修饰“专案组”,最后可以得到关系词语“成立联合专案组”。在“开展侦查”中,依存弧ADV表示状中结构,“迅速”修饰“开展”,依存弧FOB表示前置宾语,“案件”修饰“侦查”,最后可以得到关系词语“迅速开展案件侦查”。
第六步:根据第三步的结果,将组成命名实体的词进行合并。根据第五步的结果,将组成关系词语的词进行合并。最后,将剩下的词、命名实体以及关系词语,从右向左依次将它们的位置标记为1,2,......,N。若关系词语中含有命名实体,则它们的位置标记相同。
第七步:根据第六步的位置标记,确定命名实体位置,当公式(1)中置信度Confidence(Li,Lj)达到最大值时,选择Li的位置作为命名实体1,选择Lj的位置作为命名实体2,假定命名实体1的位置总是位于命名实体2的位置的左边。
第八步:手动设置关系表述比例r小于等于0.7以及论元的长度大于等于2:
第九步:根据第五步抽取到关系词语和第七步的命名实体以及第八步的过滤条件,如果符合条件则输出三元组,如果不符合条件则不输出该三元组。从第五步得到关系词语“成立联合专案组”和“迅速开展案件侦查”以及从第七步得到的命名实体“上海市公安局”和“上海海关缉私局”,最后输出关系三元组Triple1-(上海市公安局,上海海关缉私局,成立联合专案组)和Triple2-(上海市公安局,上海海关缉私局,迅速开展案件侦查)。
第十步:结束。

Claims (2)

1.一种利用依存分析的开放式中文实体关系抽取方法,其特征在于该方法包括以下具体步骤:
第一步:对大规模的自由文本采用基于视觉信息的网页分块算法进行正文提取;
第二步:按照句号、问号和感叹号对提取到的正文进行分句处理,得到单句的集合;
第三步:采用语言技术平台云,对每个单句进行分词、词性标注、命名实体识别和依存分析,得到带有分词、词性标注、命名实体和依存分析信息的单句;
第四步:根据第三步中依存分析的结果判断句子是不是动词谓语句,如果不是,执行第十步;
第五步:结合关系表述即“状语*动词+补语?宾语?”,以及第三步的依存分析结果抽取关系词语;
第六步:根据第三步的结果,将组成命名实体的词进行合并;根据第五步的结果,将组成关系词语的词进行合并;最后,将词、命名实体以及关系词语从右向左依次将它们的位置标记为1,2,......,N;若关系词语中含有命名实体,则其位置标记相同;
第七步:根据第六步的位置标记,确定命名实体位置,利用公式(1)计算置信度,当置信度Confidence(Li,Lj)达到最大值时,选择Li的位置作为命名实体1,选择Lj的位置作为命名实体2,设命名实体1的位置总是位于命名实体2的位置的左边;
Confidence ( L i , L j ) = 1 L i - L j + 1 L i - R + 1 L j - R + 1 ( L i > L j ) - - - ( 1 )
在公式(1)中,L表示命名实体的位置,R表示关系词语的位置;第一个分式中,Li-Lj表示命名实体1和命名实体2的距离;在第二个分式中,Li-R表示命名实体1和关系词语的距离;在第三个分式中,Lj-R+1表示命名实体2和关系词语的距离,距离越大表示命名实体和命名实体之间、命名实体和关系词语之间存在语义关系的可能性越小,置信度也会越低;
第八步:手动设置关系词语比例r
通过爬取百度百科WEB页面,选取公式(2)中的r=0.1,0.2,0.3……,0.9作为阈值,通过实验当r=0.7的时候准确率、召回率、F值最优;当命名实体长度为1时,识别出来的命名实体为1个字,这里选取命名实体的长度大于等于2作为阈值;
第九步:根据第五步抽取到关系词语和第七步的命名实体以及第八步的过滤条件,如果符合条件则输出三元组,如果不符合条件则不输出该三元组;
第十步:结束。
2.根据权利要求1所述的方法,其特征在于所述依存分析是通过分析语言单位内成分之间的依存关系揭示其句法结构,主张句子中核心动词是支配其它成分的中心成分,而核心动词本身却不受其它任何成分的支配,所有受支配成分都以某种依存关系从属于核心动词。
CN201510321339.6A 2015-06-12 2015-06-12 一种利用依存分析的开放式中文实体关系抽取方法 Active CN104933027B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510321339.6A CN104933027B (zh) 2015-06-12 2015-06-12 一种利用依存分析的开放式中文实体关系抽取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510321339.6A CN104933027B (zh) 2015-06-12 2015-06-12 一种利用依存分析的开放式中文实体关系抽取方法

Publications (2)

Publication Number Publication Date
CN104933027A true CN104933027A (zh) 2015-09-23
CN104933027B CN104933027B (zh) 2017-10-27

Family

ID=54120196

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510321339.6A Active CN104933027B (zh) 2015-06-12 2015-06-12 一种利用依存分析的开放式中文实体关系抽取方法

Country Status (1)

Country Link
CN (1) CN104933027B (zh)

Cited By (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105653522A (zh) * 2016-01-21 2016-06-08 中国农业大学 一种针对植物领域的非分类关系识别方法
CN105938495A (zh) * 2016-04-29 2016-09-14 乐视控股(北京)有限公司 实体关系识别方法及装置
CN106484675A (zh) * 2016-09-29 2017-03-08 北京理工大学 融合分布式语义和句义特征的人物关系抽取方法
CN106777275A (zh) * 2016-12-29 2017-05-31 北京理工大学 基于多粒度语义块的实体属性和属性值提取方法
CN107180045A (zh) * 2016-03-10 2017-09-19 中国科学院地理科学与资源研究所 一种互联网文本蕴含地理实体关系的抽取方法
CN107291687A (zh) * 2017-04-27 2017-10-24 同济大学 一种基于依存语义的中文无监督开放式实体关系抽取方法
CN107301163A (zh) * 2016-04-14 2017-10-27 科大讯飞股份有限公司 包含公式的文本语义解析方法及装置
CN107590219A (zh) * 2017-09-04 2018-01-16 电子科技大学 网页人物主题相关信息提取方法
CN107783957A (zh) * 2016-08-30 2018-03-09 中国电信股份有限公司 本体创建方法和装置
CN107977379A (zh) * 2016-10-25 2018-05-01 百度国际科技(深圳)有限公司 用于挖掘信息的方法和装置
CN108021595A (zh) * 2016-10-28 2018-05-11 北大方正集团有限公司 检验知识库三元组的方法及装置
CN108363816A (zh) * 2018-03-21 2018-08-03 北京理工大学 基于句义结构模型的开放式实体关系抽取方法
CN108573025A (zh) * 2018-03-12 2018-09-25 北京云知声信息技术有限公司 基于混合模板抽取句子分类特征的方法及装置
CN108647194A (zh) * 2018-04-28 2018-10-12 北京神州泰岳软件股份有限公司 信息抽取方法及装置
CN108763195A (zh) * 2018-05-02 2018-11-06 武汉烽火普天信息技术有限公司 一种基于依存句法和模式规则的非限定型关系挖掘方法
CN109241538A (zh) * 2018-09-26 2019-01-18 上海德拓信息技术股份有限公司 基于关键词和动词依存的中文实体关系抽取方法
CN109271504A (zh) * 2018-11-07 2019-01-25 爱因互动科技发展(北京)有限公司 基于知识图谱的推理对话的方法
CN110008465A (zh) * 2019-01-25 2019-07-12 网经科技(苏州)有限公司 句子语义距离的度量方法
CN110020038A (zh) * 2017-08-01 2019-07-16 阿里巴巴集团控股有限公司 网页信息提取方法、装置、系统及电子设备
CN110147436A (zh) * 2019-03-18 2019-08-20 清华大学 一种基于教育知识图谱与文本的混合自动问答方法
CN110162788A (zh) * 2019-05-06 2019-08-23 三角兽(北京)科技有限公司 实体依存关系的确定方法及装置
CN110222332A (zh) * 2019-04-29 2019-09-10 闽江学院 基于依存分析实现菜名实体识别的方法
CN110309513A (zh) * 2019-07-09 2019-10-08 北京金山数字娱乐科技有限公司 一种文本依存分析的方法和装置
CN110502642A (zh) * 2019-08-21 2019-11-26 武汉工程大学 一种基于依存句法分析与规则的实体关系抽取方法
CN110569510A (zh) * 2019-09-17 2019-12-13 四川长虹电器股份有限公司 一种对用户请求数据的命名实体识别的方法
CN110569494A (zh) * 2018-06-05 2019-12-13 北京百度网讯科技有限公司 用于生成信息的方法和装置
CN110597998A (zh) * 2019-07-19 2019-12-20 中国人民解放军国防科技大学 一种结合句法分析的军事想定实体关系抽取方法及装置
CN110866389A (zh) * 2018-08-17 2020-03-06 北大方正集团有限公司 信息价值评估方法、装置、设备及计算机可读存储介质
CN111177393A (zh) * 2020-01-02 2020-05-19 广东博智林机器人有限公司 一种知识图谱的构建方法、装置、电子设备及存储介质
CN111209411A (zh) * 2020-01-03 2020-05-29 北京明略软件系统有限公司 一种文档分析的方法及装置
CN111581954A (zh) * 2020-05-15 2020-08-25 中国人民解放军国防科技大学 一种基于语法依存信息的文本事件抽取方法及装置
CN111932174A (zh) * 2020-07-28 2020-11-13 中华人民共和国深圳海关 货运监管异常信息获取方法、装置、服务器及存储介质
CN112214999A (zh) * 2020-09-30 2021-01-12 内蒙古科技大学 一种基于图模型和词向量相结合的词义消歧方法及装置
CN112232074A (zh) * 2020-11-13 2021-01-15 完美世界控股集团有限公司 实体关系抽取方法、装置、电子设备及存储介质
CN112711949A (zh) * 2021-01-05 2021-04-27 山东众阳健康科技集团有限公司 一种命名实体识别和实体关系抽取的联合方法
CN113761919A (zh) * 2020-06-04 2021-12-07 国家计算机网络与信息安全管理中心 一种口语化短文本的实体属性提取方法及电子装置
CN117609518A (zh) * 2024-01-17 2024-02-27 江西科技师范大学 一种面向定中结构的分层级中文实体关系抽取方法及系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040181389A1 (en) * 2001-06-01 2004-09-16 Didier Bourigault Method and large syntactical analysis system of a corpus, a specialised corpus in particular
CN101799802A (zh) * 2009-02-05 2010-08-11 日电(中国)有限公司 利用结构信息进行实体关系提取的方法和系统
CN102243626A (zh) * 2011-07-22 2011-11-16 中国科学院计算技术研究所 一种基于依存句法树的翻译规则抽取方法和翻译方法
CN102866989A (zh) * 2012-08-30 2013-01-09 北京航空航天大学 基于词语依存关系的观点抽取方法
CN103530281A (zh) * 2013-10-15 2014-01-22 苏州大学 一种论元抽取方法和系统
CN104516874A (zh) * 2014-12-29 2015-04-15 北京牡丹电子集团有限责任公司数字电视技术中心 一种对名词短语进行依存句法分析的方法及系统
US9031933B2 (en) * 2013-04-03 2015-05-12 International Business Machines Corporation Method and apparatus for optimizing the evaluation of semantic web queries

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040181389A1 (en) * 2001-06-01 2004-09-16 Didier Bourigault Method and large syntactical analysis system of a corpus, a specialised corpus in particular
CN101799802A (zh) * 2009-02-05 2010-08-11 日电(中国)有限公司 利用结构信息进行实体关系提取的方法和系统
CN102243626A (zh) * 2011-07-22 2011-11-16 中国科学院计算技术研究所 一种基于依存句法树的翻译规则抽取方法和翻译方法
CN102866989A (zh) * 2012-08-30 2013-01-09 北京航空航天大学 基于词语依存关系的观点抽取方法
US9031933B2 (en) * 2013-04-03 2015-05-12 International Business Machines Corporation Method and apparatus for optimizing the evaluation of semantic web queries
CN103530281A (zh) * 2013-10-15 2014-01-22 苏州大学 一种论元抽取方法和系统
CN104516874A (zh) * 2014-12-29 2015-04-15 北京牡丹电子集团有限责任公司数字电视技术中心 一种对名词短语进行依存句法分析的方法及系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
LUCIANO DEL CORRO 等: "ClausIE: Clause-Based Open Information Extraction", 《INTERNATIONAL WORLD WIDE WEB CONFERENCE》 *
PABLO GAMALLO 等: "Dependency-Based Open Information Extraction", 《PROCEEDINGS OF THE 13TH CONFERENCE OF THE EUROPEAN CHAPTER OF THE ASSOCIATION FOR COMPUTATIONAL LINGUISTICS》 *
刘宁锋 等: "中文问答系统中答案抽取的研究", 《电脑知识与技术》 *

Cited By (57)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105653522A (zh) * 2016-01-21 2016-06-08 中国农业大学 一种针对植物领域的非分类关系识别方法
CN105653522B (zh) * 2016-01-21 2019-04-05 中国农业大学 一种针对植物领域的非分类关系识别方法
CN107180045A (zh) * 2016-03-10 2017-09-19 中国科学院地理科学与资源研究所 一种互联网文本蕴含地理实体关系的抽取方法
CN107180045B (zh) * 2016-03-10 2020-10-16 中国科学院地理科学与资源研究所 一种互联网文本蕴含地理实体关系的抽取方法
CN107301163A (zh) * 2016-04-14 2017-10-27 科大讯飞股份有限公司 包含公式的文本语义解析方法及装置
CN105938495A (zh) * 2016-04-29 2016-09-14 乐视控股(北京)有限公司 实体关系识别方法及装置
CN107783957A (zh) * 2016-08-30 2018-03-09 中国电信股份有限公司 本体创建方法和装置
CN107783957B (zh) * 2016-08-30 2021-05-18 中国电信股份有限公司 本体创建方法和装置
CN106484675A (zh) * 2016-09-29 2017-03-08 北京理工大学 融合分布式语义和句义特征的人物关系抽取方法
CN107977379B (zh) * 2016-10-25 2022-06-28 百度国际科技(深圳)有限公司 用于挖掘信息的方法和装置
CN107977379A (zh) * 2016-10-25 2018-05-01 百度国际科技(深圳)有限公司 用于挖掘信息的方法和装置
CN108021595B (zh) * 2016-10-28 2020-07-14 北大方正集团有限公司 检验知识库三元组的方法及装置
CN108021595A (zh) * 2016-10-28 2018-05-11 北大方正集团有限公司 检验知识库三元组的方法及装置
CN106777275B (zh) * 2016-12-29 2018-03-06 北京理工大学 基于多粒度语义块的实体属性和属性值提取方法
CN106777275A (zh) * 2016-12-29 2017-05-31 北京理工大学 基于多粒度语义块的实体属性和属性值提取方法
CN107291687A (zh) * 2017-04-27 2017-10-24 同济大学 一种基于依存语义的中文无监督开放式实体关系抽取方法
CN110020038A (zh) * 2017-08-01 2019-07-16 阿里巴巴集团控股有限公司 网页信息提取方法、装置、系统及电子设备
CN107590219A (zh) * 2017-09-04 2018-01-16 电子科技大学 网页人物主题相关信息提取方法
CN108573025B (zh) * 2018-03-12 2021-07-02 云知声智能科技股份有限公司 基于混合模板抽取句子分类特征的方法及装置
CN108573025A (zh) * 2018-03-12 2018-09-25 北京云知声信息技术有限公司 基于混合模板抽取句子分类特征的方法及装置
CN108363816A (zh) * 2018-03-21 2018-08-03 北京理工大学 基于句义结构模型的开放式实体关系抽取方法
CN108647194B (zh) * 2018-04-28 2022-04-19 北京神州泰岳软件股份有限公司 信息抽取方法及装置
CN108647194A (zh) * 2018-04-28 2018-10-12 北京神州泰岳软件股份有限公司 信息抽取方法及装置
CN108763195A (zh) * 2018-05-02 2018-11-06 武汉烽火普天信息技术有限公司 一种基于依存句法和模式规则的非限定型关系挖掘方法
CN108763195B (zh) * 2018-05-02 2022-01-18 武汉烽火普天信息技术有限公司 一种基于依存句法和模式规则的非限定型关系挖掘方法
CN110569494A (zh) * 2018-06-05 2019-12-13 北京百度网讯科技有限公司 用于生成信息的方法和装置
CN110866389A (zh) * 2018-08-17 2020-03-06 北大方正集团有限公司 信息价值评估方法、装置、设备及计算机可读存储介质
CN110866389B (zh) * 2018-08-17 2021-12-17 北大方正集团有限公司 信息价值评估方法、装置、设备及计算机可读存储介质
CN109241538B (zh) * 2018-09-26 2022-12-20 上海德拓信息技术股份有限公司 基于关键词和动词依存的中文实体关系抽取方法
CN109241538A (zh) * 2018-09-26 2019-01-18 上海德拓信息技术股份有限公司 基于关键词和动词依存的中文实体关系抽取方法
CN109271504A (zh) * 2018-11-07 2019-01-25 爱因互动科技发展(北京)有限公司 基于知识图谱的推理对话的方法
CN110008465B (zh) * 2019-01-25 2023-05-12 网经科技(苏州)有限公司 句子语义距离的度量方法
CN110008465A (zh) * 2019-01-25 2019-07-12 网经科技(苏州)有限公司 句子语义距离的度量方法
CN110147436A (zh) * 2019-03-18 2019-08-20 清华大学 一种基于教育知识图谱与文本的混合自动问答方法
CN110222332B (zh) * 2019-04-29 2023-06-16 闽江学院 基于依存分析实现菜名实体识别的方法
CN110222332A (zh) * 2019-04-29 2019-09-10 闽江学院 基于依存分析实现菜名实体识别的方法
CN110162788B (zh) * 2019-05-06 2021-02-09 腾讯科技(深圳)有限公司 实体依存关系的确定方法及装置
CN110162788A (zh) * 2019-05-06 2019-08-23 三角兽(北京)科技有限公司 实体依存关系的确定方法及装置
CN110309513B (zh) * 2019-07-09 2023-07-25 北京金山数字娱乐科技有限公司 一种文本依存分析的方法和装置
CN110309513A (zh) * 2019-07-09 2019-10-08 北京金山数字娱乐科技有限公司 一种文本依存分析的方法和装置
CN110597998A (zh) * 2019-07-19 2019-12-20 中国人民解放军国防科技大学 一种结合句法分析的军事想定实体关系抽取方法及装置
CN110502642A (zh) * 2019-08-21 2019-11-26 武汉工程大学 一种基于依存句法分析与规则的实体关系抽取方法
CN110502642B (zh) * 2019-08-21 2024-01-23 武汉工程大学 一种基于依存句法分析与规则的实体关系抽取方法
CN110569510A (zh) * 2019-09-17 2019-12-13 四川长虹电器股份有限公司 一种对用户请求数据的命名实体识别的方法
CN111177393B (zh) * 2020-01-02 2023-03-24 广东博智林机器人有限公司 一种知识图谱的构建方法、装置、电子设备及存储介质
CN111177393A (zh) * 2020-01-02 2020-05-19 广东博智林机器人有限公司 一种知识图谱的构建方法、装置、电子设备及存储介质
CN111209411A (zh) * 2020-01-03 2020-05-29 北京明略软件系统有限公司 一种文档分析的方法及装置
CN111581954A (zh) * 2020-05-15 2020-08-25 中国人民解放军国防科技大学 一种基于语法依存信息的文本事件抽取方法及装置
CN113761919A (zh) * 2020-06-04 2021-12-07 国家计算机网络与信息安全管理中心 一种口语化短文本的实体属性提取方法及电子装置
CN111932174A (zh) * 2020-07-28 2020-11-13 中华人民共和国深圳海关 货运监管异常信息获取方法、装置、服务器及存储介质
CN112214999A (zh) * 2020-09-30 2021-01-12 内蒙古科技大学 一种基于图模型和词向量相结合的词义消歧方法及装置
CN112232074B (zh) * 2020-11-13 2022-01-04 完美世界控股集团有限公司 实体关系抽取方法、装置、电子设备及存储介质
CN112232074A (zh) * 2020-11-13 2021-01-15 完美世界控股集团有限公司 实体关系抽取方法、装置、电子设备及存储介质
CN112711949B (zh) * 2021-01-05 2022-04-22 山东众阳健康科技集团有限公司 一种命名实体识别和实体关系抽取的联合方法
CN112711949A (zh) * 2021-01-05 2021-04-27 山东众阳健康科技集团有限公司 一种命名实体识别和实体关系抽取的联合方法
CN117609518A (zh) * 2024-01-17 2024-02-27 江西科技师范大学 一种面向定中结构的分层级中文实体关系抽取方法及系统
CN117609518B (zh) * 2024-01-17 2024-04-26 江西科技师范大学 一种面向定中结构的分层级中文实体关系抽取方法及系统

Also Published As

Publication number Publication date
CN104933027B (zh) 2017-10-27

Similar Documents

Publication Publication Date Title
CN104933027A (zh) 一种利用依存分析的开放式中文实体关系抽取方法
CN104391942B (zh) 基于语义图谱的短文本特征扩展方法
CN104636466B (zh) 一种面向开放网页的实体属性抽取方法和系统
CN106503049A (zh) 一种基于svm融合多种情感资源的微博情感分类方法
CN105843897A (zh) 一种面向垂直领域的智能问答系统
CN102591988A (zh) 基于语义图的短文本分类方法
CN103631858A (zh) 一种科技项目相似度计算方法
CN105095430A (zh) 构建词语网络及抽取关键词的方法和装置
Wu et al. Community answer generation based on knowledge graph
TW201403354A (zh) 以資料降維法及非線性算則建構中文文本可讀性數學模型之系統及其方法
CN102779119B (zh) 一种抽取关键词的方法及装置
CN104933032A (zh) 一种基于复杂网络的博客关键词提取方法
Li et al. The mixture of textrank and lexrank techniques of single document automatic summarization research in Tibetan
CN112183059A (zh) 一种中文结构化事件抽取方法
CN103336803B (zh) 一种嵌名春联的计算机生成方法
Wang et al. A joint chinese named entity recognition and disambiguation system
Ma et al. Combining n-gram and dependency word pair for multi-document summarization
Guo et al. Research and development of entity extraction based on information extraction
Osochkin et al. Automatic Identification of Authors' Stylistics and Gender on the Basis of the Corpus of Russian Fiction Using Extended Set-theoretic Model with Collocation Extraction.
Ji et al. Measurement of sentence similarity based on constituency parsing and dilated convolution
Zhao et al. Open domain event attribute extraction method
Li et al. Sentiment classification of financial microblogs through automatic text summarization
TWI813028B (zh) 文字資料之篩選關聯方法及系統
Zhao et al. Research on syntactic dependency tree and Ontology constraint in remote Supervising relation extraction
Sun et al. Word Sense Disambiguation Method Based on Graph Model and Word Vector

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20200227

Address after: 201203 room 15201, building 15, Shanghai Pudong Software Park, No. 498, GuoShouJing Road, Pudong New Area, Shanghai

Patentee after: Shanghai Chengguan Information Technology Co., Ltd.

Address before: 200241 No. 500, Dongchuan Road, Shanghai, Minhang District

Patentee before: EAST CHINA NORMAL University