CN110502642A - 一种基于依存句法分析与规则的实体关系抽取方法 - Google Patents
一种基于依存句法分析与规则的实体关系抽取方法 Download PDFInfo
- Publication number
- CN110502642A CN110502642A CN201910773552.9A CN201910773552A CN110502642A CN 110502642 A CN110502642 A CN 110502642A CN 201910773552 A CN201910773552 A CN 201910773552A CN 110502642 A CN110502642 A CN 110502642A
- Authority
- CN
- China
- Prior art keywords
- ingredient
- sentence
- interdependent
- entity
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 30
- 239000004615 ingredient Substances 0.000 claims description 93
- 239000000203 mixture Substances 0.000 claims description 11
- 230000001419 dependent effect Effects 0.000 claims description 9
- 238000010276 construction Methods 0.000 claims description 6
- 230000011218 segmentation Effects 0.000 claims description 3
- 238000000354 decomposition reaction Methods 0.000 claims description 2
- 238000007689 inspection Methods 0.000 claims 1
- 230000015572 biosynthetic process Effects 0.000 abstract description 6
- 239000000284 extract Substances 0.000 abstract description 4
- 238000000034 method Methods 0.000 description 13
- 238000005516 engineering process Methods 0.000 description 5
- 238000003058 natural language processing Methods 0.000 description 4
- 230000007123 defense Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 241000408659 Darpa Species 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- KRTSDMXIXPKRQR-AATRIKPKSA-N monocrotophos Chemical compound CNC(=O)\C=C(/C)OP(=O)(OC)OC KRTSDMXIXPKRQR-AATRIKPKSA-N 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000003245 working effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本发明提供了一种基于依存句法分析与规则的实体关系抽取方法,通过依存句法分析确定句子的句法结构和识别句子中的实体之间的依存关系,通过制定规则识别和提取文本中的实体关系,约束三元组的形成,提高了提取实体关系的准确度;本发明直接对输入的文本进行提取,不需要形成关键词词库,通用性强;本发明输出三元组的速度快,提高了运算效率。
Description
技术领域
本发明属于自然语言处理和语义分析技术领域,具体涉及一种基于依存句法分析与规则的实体关系抽取方法。
背景技术
互联网技术的快速发展和大数据时代的到来使得互联网信息量激增,如何从海量的信息中获取人们感兴趣的内容成为自然语言处理的焦点问题。美国国防高级研究计划委员会(DARPA,defense advanced research project agency)在1998年资助的最后一届消息理解会议(MUC,message understanding conference)上首次引入了实体关系抽取任务,实体关系抽取是自然语言处理中较为重要的子任务,同时也是语义分析的重要组成部分。在自然语言处理发展的过程中,已经有很多学者根据不同的需求和文本内容提出了不同的实体关系抽取方法,但现有的实体关系抽取的方法均存在一定的局限性以及准确率不高的问题。
基于模式匹配的关系抽取方法,需要领域专家和语言学家互相合作,运用语言学知识和专业领域知识构造出基于词语、词性或语义的模式集合。该方法需要大量人工工作且对于文本格式有一定的限制,虽然在正确率上有较为出色的成绩,但需要人工编写方法,只适用于特定格式;且人工处理容易出错,不便于维护,实用性相对较差。
基于树核的语义信息抽取方法,利用解析树和实体对构造丰富的语义关系结构来综合句法和语义信息。基于核函数的方法在运算速度上有一定的弊端,研究者希望通过对核函数的进一步研究来获得关系抽取方法的进展。
基于Bootstrapping的半监督方法进行实体关系抽取,该方法首先需要确立关系种子类型,接着从包含种子的上下文中总结关系模式从而寻找更多的关系种子实例以便于扩充种子集合,最后迭代得到领域关系实例和序列模式。这种方法对初始关系种子的质量要求较高,如果初始关系种子选择不恰当就会对种子集合的扩展有影响。当领域发生迁移时需要重新确立序列模式并且重新构建高质量的关系种子。
基于无监督的关系抽取方法,该方法识别出实体对的类型,把共同出现次数多于一定阈值的实体对作为潜在的语义关系,并且计算实体对间的词汇相似度对其进行聚类,最后根据经验给聚类的实体对冠上合适的关系名称。无监督的实体关系抽取需要预先确定聚类阈值,这是该方法的难点,同时,无监督的实体关系抽取尚缺乏客观的评价标准。
面向开放领域文本的实体关系抽取方法,该方法不需要人工标注语料,也不需要事先知道抽取哪些实体关系,其目标是自动将自然语言句子转换为有意义的事实性命题。开放式实体关系抽取方法还存在很大的进步空间:其一,由于数据来源的不统一,实体关系抽取结果评价体系还没有达成一致标准;其二,当前大部分实验都是在数据进行大量清洗之后的干净数据上进行的,数据真实性难免会有所下降。
句子成分间相互支配与被支配、依存与被依存的现象普遍存在于汉语的词汇(合成语)、短语、单句、复合直到句群的各级能够独立运用的语言单位之中,这一特点为依存关系的普遍性。依存句法分析识别句子中的“主谓宾”、“定状补”这些语法成分,并分析各成分之间的关系,反映出句子各成分之间的语义修饰关系,获得长距离的搭配信息,并且与句子成分的物理位置无关。依存句法通过分析语言单位内成分之间的依存关系来解释句法结构,主张句子中的核心动词是支配其他成分的中心成分;而动词本身不受其他任何成分的支配,所有受支配成分都以某种关系从属于支配者。
发明内容
本发明要解决的技术问题是:提供一种基于依存句法分析与规则的实体关系抽取方法,通过依存句法分析确定句子的句法结构和识别句子中的实体之间的依存关系,通过制定规则识别和提取文本中的实体关系,约束三元组的形成,提高提取实体关系的准确度
本发明为解决上述技术问题所采取的技术方案为:一种基于依存句法分析与规则的实体关系抽取方法,包括以下步骤:
S1:输入文本并进行预处理,形成数据集合;
S2:以句号为句子的结束点将数据集合中的文本分割为多个句子,更新数据集合;
S3:遍历步骤S2得到的数据集合,通过句法分析逐句得到构成句子的成分,形成由包括支配词、被支配词的成分以及成分间的依存关系构成的若干三元组;
S4:通过依存句法分析确定句子的中心词;
S5:检测中心词分别与句子的其他成分的依存距离,构造满足约束的依存树,得到句子的最佳依存关系;
S6:根据预设规则约束最佳依存关系,得到并输出句子的最佳三元组;
S7:判断对数据集合的遍历是否完成,若未完成,则从步骤S3循环;若完成,则根据得到的数据集合中的每个句子的最佳三元组,输出文本的三元组的合集。
按上述方案,所述的步骤S1中,具体步骤为:
S11:输入文本;
S12:将文本整合为统一的存储格式,形成数据集合。
进一步的,所述的步骤S2中,具体步骤为:
S21:遍历步骤S1得到的数据集合检测是否有句号,若未检测到句号则继续遍历;若检测到句号,则将句号及句号之前的成分判断为一个句子,直至遍历完成;
S22:按步骤S21得到的结果更新数据集合。
进一步的,所述的步骤S3中,具体步骤为:
S31:将句子分解为若干个成分,所述的成分是有意义的、不可拆分的最小语言单位,成分包括实体和节点;
S32:通过句法分析得到实体和节点的词性;
S33:根据实体和节点的词性得出句子的成分之间的依存关系,所述的依存关系满足:实体作为被依赖的结构,一个实体即为一个节点,一个节点依赖一个结构,一个节点被多个结构所依赖,被依赖的成分是支配词,依赖支配词的成分是被支配词;
S34:根据成分和成分之间的依存关系得到若干三元组,更新数据集合。
进一步的,所述的步骤S4中,具体步骤为:根据步骤S3得到的句子的成分确定句子的谓语动词为中心词,句子的其他成分为从属词;所述的中心词和从属词满足依存关系的公理描述:一个句子只有一个中心词;从属词直接依存某一成分;任何成分都不能依存两个或两个以上成分;若成分C在成分A和成分B之间,且成分A直接依存成分B,则成分C直接依存成分B,或者成分C直接依存成分A和成分B之间某一成分;中心词左右两边的成分相互不发生关系。
进一步的,所述的步骤S5中,具体步骤为:
S51:检测中心词分别与句子的其他成分的依存距离,若存在依存距离不相等的情况,则删去较大的依存距离对应的依存关系,直至所有成分到中心词的依存距离相等,形成满足约束的依存树;所述的依存距离是两个具有句法关系的成分在句子中的线性距离;
S52:通过依存树得到句子的最佳依存关系,更新数据集合。
进一步的,所述的步骤S6中,具体步骤为:
S61:根据预设规则约束最佳依存关系得到句子的最佳三元组,所述的预设规则为:将紧跟谓语动词且距谓语动词最短长度的左右两个句子成分识别为主语和宾语;若谓语动词后紧跟成分过长,则将紧跟成分再次进行句法分析直至整个句子为词距最短的三元组形式;将拥有共同主语的宾语成分作为同级目标进行整理且根据距离特征筛选出该主语的最佳三元组形式;
S62:更新数据集合并输出句子的最佳三元组。
本发明的有益效果为:
1.本发明的一种基于依存句法分析与规则的实体关系抽取方法通过依存句法分析确定句子的句法结构和识别句子中的实体之间的依存关系,通过制定规则识别和提取文本中的实体关系,约束三元组的形成,提高了提取实体关系的准确度。
2.本发明直接对输入的文本进行提取,不需要形成关键词词库,通用性强。
3.本发明输出三元组的速度快,提高了运算效率。
附图说明
图1是本发明实施例的流程图。
图2是本发明实施例的句法分析示意图。
具体实施方式
下面结合附图和具体实施方式对本发明作进一步详细的说明。
参见图1,采用本发明的一种基于依存句法分析与规则的实体关系抽取方法提取句子“中国企业将奋力追赶各国企业的科技工程建设事业。”的实体关系,包括以下步骤:
S1:输入文本并进行预处理,形成数据集合:
S11:输入文本“中国企业将奋力追赶各国企业的科技工程建设事业。”;
S12:将文本整合为统一的txt或word存储格式,形成数据集合。
S2:以句号为句子的结束点将数据集合中的文本分割为多个句子,更新数据集合:
S21:遍历步骤S1得到的数据集合检测是否有句号,检测到句号,将句号及句号之前的成分判断为一个句子,遍历完成;
S22:按步骤S21得到的结果更新数据集合。
S3:遍历步骤S2得到的数据集合,通过句法分析逐句得到构成句子的成分,形成由包括支配词、被支配词的成分以及成分间的依存关系构成的若干三元组:
S31:将句子“中国企业将奋力追赶各国企业的科技工程建设事业”分解为若干个成分“中国企业”、“将”、“奋力”、“追赶”、“各国企业”、“的”、“科技”、“工程”和“建设事业”;
S32:分别确定各成分的词性:“中国企业”为名词,“将”为副词,“奋力”为形容词,“追赶”为动词,“各国企业”为名词,“的”为助词,“科技”为名词,“工程”为名词,“建设事业”为名词;
S33:根据实体和节点的词性参照下表的定义分别确定句子各成分的之间的依存关系:实体作为箭头的头部表示被依赖的结构,一个实体即为一个节点,一个节点依赖一个结构,一个节点被多个结构所依赖,被依赖的成分是支配词,依赖支配词的成分是被支配词;
表1 依存句法分析标注关系
S34:根据上述分析结果得到若干三元组,更新数据集合。
S4:通过依存句法分析确定句子的中心词:
根据步骤S3得到的句子的成分确定“追赶”为中心词,句子的其他成分为从属词;所述的中心词和从属词满足依存关系的公理描述:一个句子只有一个中心词;从属词直接依存某一成分;任何成分都不能依存两个或两个以上成分;若成分C在成分A和成分B之间,且成分A直接依存成分B,则成分C直接依存成分B,或者成分C直接依存成分A和成分B之间某一成分;中心词左右两边的成分相互不发生关系。
S5:检测中心词分别与句子的其他成分的依存距离,构造满足约束的依存树,参见图2,得到句子的最佳依存关系:
S51:检测中心词分别与句子的其他成分的依存距离,若存在依存距离不相等的情况,则删去较大的依存距离对应的依存关系,直至所有成分到中心词的依存距离相等,形成满足约束的依存树;所述的依存距离是两个具有句法关系的成分在句子中的线性距离;
S52:通过依存树得到句子的最佳依存关系,更新数据集合。
S6:根据预设规则约束最佳依存关系,得到并输出句子的最佳三元组;
S61:根据预设规则约束最佳依存关系得到句子的最佳三元组,所述的预设规则为:将紧跟谓语动词且距谓语动词最短长度的左右两个句子成分识别为主语和宾语;若谓语动词后紧跟成分过长,则将紧跟成分再次进行句法分析直至整个句子为词距最短的三元组形式;将拥有共同主语的宾语成分作为同级目标进行整理且根据距离特征筛选出该主语的最佳三元组形式;
S62:更新数据集合并输出句子的最佳三元组形式(中国企业,追赶,建设事业);
S7:判断对数据集合的遍历是否完成,若未完成,则从步骤S3循环;若完成,则根据得到的数据集合中的每个句子的最佳三元组,输出文本的三元组的合集。
综上所述,本发明的一种基于依存句法分析与规则的实体关系抽取方法通过依存句法分析确定句子的句法结构和识别句子中的实体之间的依存关系,通过制定规则识别和提取文本中的实体关系,约束三元组的形成,提高了提取实体关系的准确度;本发明直接对输入的文本进行提取,不需要形成关键词词库,通用性强;本发明输出三元组的速度快,提高了运算效率。
以上实施例仅用于说明本发明的设计思想和特点,其目的在于使本领域内的技术人员能够了解本发明的内容并据以实施,本发明的保护范围不限于上述实施例。所以,凡依据本发明所揭示的原理、设计思路所作的等同变化或修饰,均在本发明的保护范围之内。
Claims (7)
1.一种基于依存句法分析与规则的实体关系抽取方法,其特征在于:包括以下步骤:
S1:输入文本并进行预处理,形成数据集合;
S2:以句号为句子的结束点将数据集合中的文本分割为多个句子,更新数据集合;
S3:遍历步骤S2得到的数据集合,通过句法分析逐句得到构成句子的成分,形成由包括支配词、被支配词的成分以及成分间的依存关系构成的若干三元组;
S4:通过依存句法分析确定句子的中心词;
S5:检测中心词分别与句子的其他成分的依存距离,构造满足约束的依存树,得到句子的最佳依存关系;
S6:根据预设规则约束最佳依存关系,得到并输出句子的最佳三元组;
S7:判断对数据集合的遍历是否完成,若未完成,则从步骤S3循环;若完成,则根据得到的数据集合中的每个句子的最佳三元组,输出文本的三元组的合集。
2.根据权利要求1所述的一种基于依存句法分析与规则的实体关系抽取方法,其特征在于:所述的步骤S1中,具体步骤为:
S11:输入文本;
S12:将文本整合为统一的存储格式,形成数据集合。
3.根据权利要求2所述的一种基于依存句法分析与规则的实体关系抽取方法,其特征在于:所述的步骤S2中,具体步骤为:
S21:遍历步骤S1得到的数据集合检测是否有句号,若未检测到句号则继续遍历;若检测到句号,则将句号及句号之前的成分判断为一个句子,直至遍历完成;
S22:按步骤S21得到的结果更新数据集合。
4.根据权利要求3所述的一种基于依存句法分析与规则的实体关系抽取方法,其特征在于:所述的步骤S3中,具体步骤为:
S31:将句子分解为若干个成分,所述的成分是有意义的、不可拆分的最小语言单位,成分包括实体和节点;
S32:通过句法分析得到实体和节点的词性;
S33:根据实体和节点的词性得出句子的成分之间的依存关系,所述的依存关系满足:实体作为被依赖的结构,一个实体即为一个节点,一个节点依赖一个结构,一个节点被多个结构所依赖,被依赖的成分是支配词,依赖支配词的成分是被支配词;
S34:根据成分和成分之间的依存关系得到若干三元组,更新数据集合。
5.根据权利要求4所述的一种基于依存句法分析与规则的实体关系抽取方法,其特征在于:所述的步骤S4中,具体步骤为:根据步骤S3得到的句子的成分确定句子的谓语动词为中心词,句子的其他成分为从属词;所述的中心词和从属词满足依存关系的公理描述:一个句子只有一个中心词;从属词直接依存某一成分;任何成分都不能依存两个或两个以上成分;若成分C在成分A和成分B之间,且成分A直接依存成分B,则成分C直接依存成分B,或者成分C直接依存成分A和成分B之间某一成分;中心词左右两边的成分相互不发生关系。
6.根据权利要求5所述的一种基于依存句法分析与规则的实体关系抽取方法,其特征在于:所述的步骤S5中,具体步骤为:
S51:检测中心词分别与句子的其他成分的依存距离,若存在依存距离不相等的情况,则删去较大的依存距离对应的依存关系,直至所有成分到中心词的依存距离相等,形成满足约束的依存树;所述的依存距离是两个具有句法关系的成分在句子中的线性距离;
S52:通过依存树得到句子的最佳依存关系,更新数据集合。
7.根据权利要求6所述的一种基于依存句法分析与规则的实体关系抽取方法,其特征在于:所述的步骤S6中,具体步骤为:
S61:根据预设规则约束最佳依存关系得到句子的最佳三元组,所述的预设规则为:将紧跟谓语动词且距谓语动词最短长度的左右两个句子成分识别为主语和宾语;若谓语动词后紧跟成分过长,则将紧跟成分再次进行句法分析直至整个句子为词距最短的三元组形式;将拥有共同主语的宾语成分作为同级目标进行整理且根据距离特征筛选出该主语的最佳三元组形式;
S62:更新数据集合并输出句子的最佳三元组。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910773552.9A CN110502642B (zh) | 2019-08-21 | 2019-08-21 | 一种基于依存句法分析与规则的实体关系抽取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910773552.9A CN110502642B (zh) | 2019-08-21 | 2019-08-21 | 一种基于依存句法分析与规则的实体关系抽取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110502642A true CN110502642A (zh) | 2019-11-26 |
CN110502642B CN110502642B (zh) | 2024-01-23 |
Family
ID=68588612
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910773552.9A Active CN110502642B (zh) | 2019-08-21 | 2019-08-21 | 一种基于依存句法分析与规则的实体关系抽取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110502642B (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110969008A (zh) * | 2019-12-03 | 2020-04-07 | 北京中科院软件中心有限公司 | 一种将加工过程描述语句转换为三元组结构的方法及系统 |
CN111460787A (zh) * | 2020-03-27 | 2020-07-28 | 深圳价值在线信息科技股份有限公司 | 一种话题提取方法、装置、终端设备及存储介质 |
CN111597794A (zh) * | 2020-05-11 | 2020-08-28 | 浪潮软件集团有限公司 | 一种基于依存关系的“是”字句关系抽取方法和装置 |
CN111625622A (zh) * | 2020-04-28 | 2020-09-04 | 北京中科智加科技有限公司 | 领域本体构建方法、装置、电子设备及存储介质 |
CN111666738A (zh) * | 2020-06-09 | 2020-09-15 | 南京师范大学 | 一种动作描述自然文本的形式化编码方法 |
CN112099764A (zh) * | 2020-08-13 | 2020-12-18 | 南京航空航天大学 | 基于形式化转换规则的航电领域需求的规范化方法 |
CN112214999A (zh) * | 2020-09-30 | 2021-01-12 | 内蒙古科技大学 | 一种基于图模型和词向量相结合的词义消歧方法及装置 |
CN114997398A (zh) * | 2022-03-09 | 2022-09-02 | 哈尔滨工业大学 | 一种基于关系抽取的知识库融合方法 |
CN116991969A (zh) * | 2023-05-23 | 2023-11-03 | 暨南大学 | 可配置语法关系的检索方法、系统、电子设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2010050675A2 (ko) * | 2008-10-29 | 2010-05-06 | 한국과학기술원 | 의존 문법 구문 트리의 탐색을 통한 자동 관계 트리플 추출 방법 |
CN104933027A (zh) * | 2015-06-12 | 2015-09-23 | 华东师范大学 | 一种利用依存分析的开放式中文实体关系抽取方法 |
CN107291687A (zh) * | 2017-04-27 | 2017-10-24 | 同济大学 | 一种基于依存语义的中文无监督开放式实体关系抽取方法 |
CN108763195A (zh) * | 2018-05-02 | 2018-11-06 | 武汉烽火普天信息技术有限公司 | 一种基于依存句法和模式规则的非限定型关系挖掘方法 |
CN109241538A (zh) * | 2018-09-26 | 2019-01-18 | 上海德拓信息技术股份有限公司 | 基于关键词和动词依存的中文实体关系抽取方法 |
-
2019
- 2019-08-21 CN CN201910773552.9A patent/CN110502642B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2010050675A2 (ko) * | 2008-10-29 | 2010-05-06 | 한국과학기술원 | 의존 문법 구문 트리의 탐색을 통한 자동 관계 트리플 추출 방법 |
CN104933027A (zh) * | 2015-06-12 | 2015-09-23 | 华东师范大学 | 一种利用依存分析的开放式中文实体关系抽取方法 |
CN107291687A (zh) * | 2017-04-27 | 2017-10-24 | 同济大学 | 一种基于依存语义的中文无监督开放式实体关系抽取方法 |
CN108763195A (zh) * | 2018-05-02 | 2018-11-06 | 武汉烽火普天信息技术有限公司 | 一种基于依存句法和模式规则的非限定型关系挖掘方法 |
CN109241538A (zh) * | 2018-09-26 | 2019-01-18 | 上海德拓信息技术股份有限公司 | 基于关键词和动词依存的中文实体关系抽取方法 |
Non-Patent Citations (7)
Title |
---|
TSENG Y H,ET AL: "Chinese open ralation extraction for knowledge acquisition", 《PROCEEDINGS OF THE 14TH CONFERENCE OF THE EUROPEAN CHAPTER OF THE ASSOCIATION FOR COMPUTATIONAL LINGUISTICS》, 30 April 2014 (2014-04-30), pages 13 - 16 * |
四川师范学院中文系汉语教研组: "现代汉语", 四川师范学院中文系汉语教研组, pages: 197 * |
杨梅: "中文开放域关系抽取研究与实现,", 《中国优秀硕士学位论文全文数据库信息科技辑》 * |
杨梅: "中文开放域关系抽取研究与实现,", 《中国优秀硕士学位论文全文数据库信息科技辑》, 15 February 2018 (2018-02-15), pages 3 - 4 * |
欧珠: "《藏语计算语言学 藏文信息处理技术》", 30 November 2014, pages: 125 - 126 * |
郑珊珊: "基于中文语法特征的开放领域实体关系抽取", 《中国优秀硕士学位论文全文数据库信息科技辑》 * |
郑珊珊: "基于中文语法特征的开放领域实体关系抽取", 《中国优秀硕士学位论文全文数据库信息科技辑》, 15 December 2013 (2013-12-15), pages 4 - 5 * |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110969008A (zh) * | 2019-12-03 | 2020-04-07 | 北京中科院软件中心有限公司 | 一种将加工过程描述语句转换为三元组结构的方法及系统 |
CN111460787A (zh) * | 2020-03-27 | 2020-07-28 | 深圳价值在线信息科技股份有限公司 | 一种话题提取方法、装置、终端设备及存储介质 |
CN111460787B (zh) * | 2020-03-27 | 2023-09-22 | 深圳价值在线信息科技股份有限公司 | 一种话题提取方法、装置、终端设备及存储介质 |
CN111625622A (zh) * | 2020-04-28 | 2020-09-04 | 北京中科智加科技有限公司 | 领域本体构建方法、装置、电子设备及存储介质 |
CN111597794B (zh) * | 2020-05-11 | 2023-06-06 | 浪潮软件集团有限公司 | 一种基于依存关系的“是”字句关系抽取方法和装置 |
CN111597794A (zh) * | 2020-05-11 | 2020-08-28 | 浪潮软件集团有限公司 | 一种基于依存关系的“是”字句关系抽取方法和装置 |
CN111666738A (zh) * | 2020-06-09 | 2020-09-15 | 南京师范大学 | 一种动作描述自然文本的形式化编码方法 |
CN112099764A (zh) * | 2020-08-13 | 2020-12-18 | 南京航空航天大学 | 基于形式化转换规则的航电领域需求的规范化方法 |
CN112214999A (zh) * | 2020-09-30 | 2021-01-12 | 内蒙古科技大学 | 一种基于图模型和词向量相结合的词义消歧方法及装置 |
CN114997398A (zh) * | 2022-03-09 | 2022-09-02 | 哈尔滨工业大学 | 一种基于关系抽取的知识库融合方法 |
CN114997398B (zh) * | 2022-03-09 | 2023-05-26 | 哈尔滨工业大学 | 一种基于关系抽取的知识库融合方法 |
CN116991969A (zh) * | 2023-05-23 | 2023-11-03 | 暨南大学 | 可配置语法关系的检索方法、系统、电子设备及存储介质 |
CN116991969B (zh) * | 2023-05-23 | 2024-03-19 | 暨南大学 | 可配置语法关系的检索方法、系统、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN110502642B (zh) | 2024-01-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110502642A (zh) | 一种基于依存句法分析与规则的实体关系抽取方法 | |
CN104679850B (zh) | 地址结构化方法及装置 | |
JP6309644B2 (ja) | スマート質問回答の実現方法、システム、および記憶媒体 | |
Bouma et al. | Alpino: Wide-coverage computational analysis of Dutch | |
CN109522418B (zh) | 一种半自动的知识图谱构建方法 | |
CA2793268A1 (en) | Method and apparatus for paraphrase acquisition | |
JP2007188356A (ja) | 不正ハイパーリンク検出装置及びその方法 | |
WO2016138773A1 (zh) | 基于图的地址知识处理方法及装置 | |
Shigeto et al. | Construction of English MWE dictionary and its application to POS tagging | |
Sun et al. | Capturing paradigmatic and syntagmatic lexical relations: Towards accurate Chinese part-of-speech tagging | |
CN108959630A (zh) | 一种面向英文无结构文本的人物属性抽取方法 | |
Nakayama et al. | Wikipedia Link Structure and Text Mining for Semantic Relation Extraction. | |
Sun et al. | Syntactic parsing of web queries | |
CN106650803A (zh) | 一种计算字符串间相似度的方法及装置 | |
Parameswarappa et al. | Kannada word sense disambiguation for machine translation | |
Droganova et al. | Parse me if you can: Artificial treebanks for parsing experiments on elliptical constructions | |
JP6106489B2 (ja) | 語義解析装置、及びプログラム | |
Sennrich et al. | A tree does not make a well-formed sentence: Improving syntactic string-to-tree statistical machine translation with more linguistic knowledge | |
US11520989B1 (en) | Natural language processing with keywords | |
US20230140938A1 (en) | Sentence data analysis information generation device using ontology, sentence data analysis information generation method, and sentence data analysis information generation program | |
Way | Translating with examples: The LFG-DOT models of translation | |
JP2008140204A (ja) | データ検索システム及びプログラム | |
Frunza et al. | A text processing tool for the romanian language | |
Zhou et al. | Delexicalized Cross-lingual Dependency Parsing for Xibe | |
TWI594135B (zh) | 英文資料之抄襲偵測方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |