CN112651234A - 一种半开放信息抽取的方法及装置 - Google Patents
一种半开放信息抽取的方法及装置 Download PDFInfo
- Publication number
- CN112651234A CN112651234A CN202011502018.3A CN202011502018A CN112651234A CN 112651234 A CN112651234 A CN 112651234A CN 202011502018 A CN202011502018 A CN 202011502018A CN 112651234 A CN112651234 A CN 112651234A
- Authority
- CN
- China
- Prior art keywords
- representation
- predicate
- word
- private
- target entity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 65
- 239000011159 matrix material Substances 0.000 claims abstract description 25
- 230000014509 gene expression Effects 0.000 claims abstract description 14
- 238000000034 method Methods 0.000 claims abstract description 13
- 238000002372 labelling Methods 0.000 claims description 16
- 239000012634 fragment Substances 0.000 claims description 8
- 238000012545 processing Methods 0.000 claims description 4
- 238000013527 convolutional neural network Methods 0.000 claims description 3
- 230000008447 perception Effects 0.000 claims description 2
- 238000003058 natural language processing Methods 0.000 abstract description 4
- 230000007547 defect Effects 0.000 abstract description 2
- 230000000694 effects Effects 0.000 description 4
- 238000012549 training Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000009411 base construction Methods 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 239000003999 initiator Substances 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/253—Grammatical analysis; Style critique
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/103—Formatting, i.e. changing of presentation of documents
- G06F40/117—Tagging; Marking up; Designating a block; Setting of attributes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/169—Annotation, e.g. comment data or footnotes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/247—Thesauruses; Synonyms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本发明公开一种半开放信息抽取的方法及装置,涉及自然语言处理领域,通过将目标实体和无结构文本前后拼接构成组合文本,处理得到目标实体感知的上下文表示;再将目标实体感知的上下文表示作为共享特征,为后续的谓语抽取、宾语抽取和边界对齐这三个子任务生成特定的私有表示,对私有表示进行谓语和宾语的抽取,以及进行边界对齐;最后通过谓语和宾语组合,查找起始和结束位置组合在边界对齐矩阵中是否有相应的标签,如果找到,则保留<谓语,宾语>元组并作为输出的关系知识。本发明能够克服现有的开放信息抽取方法不能有效抽取特定实体相关的目标知识的不足。
Description
技术领域
本发明涉及自然语言处理领域,具体为一种面向特定实体抽取对应的描述、同义词、下位词等词汇知识,以及包含特定实体的三元组等关系知识的抽取方法及装置。
背景技术
信息抽取是从大量数据中准确、快速地获取目标信息,提高信息的利用率,随着互联网应用的发展,其价值也正日益显现。传统信息抽取任务是面向限定领域文本的、限定类别实体、关系和事件等的抽取,这大大制约了文本信息抽取技术在开放领域的发展和应用。为了适应互联网实际应用的需求,越来越多的研究者开始研究开放信息抽取技术,目标是从海量、冗余、含有大量噪声的网页文本中大规模地抽取开放类别的实体、关系等语义单元信息。总体来看,目前的开放信息抽取方法都以自由文本作为输入,输出无目标的结构化知识。其中,比较流行的有OpenIE系列、NeuOIE、Logician等。
然而,众多知识增强的自然语言处理任务如知识库构建、语义搜索、问答系统通常会指定一个目标实体,并要求抽取系统返回该实体的相关知识作为外部信息辅助任务解决。现有的开放信息抽取方法应用于这一场景存在以下两个问题:(1)冗余抽取。现有方法只能先从文本集合中抽取一般性的知识,再从抽取结果中进行检索,造成计算资源和存储资源的浪费。(2)语义缺失。现有方法无法利用给定的实体语义信息进行抽取,缺失了这一重要的先验知识,导致目标相关的知识无法被准确的抽取。
发明内容
为了克服现有的开放信息抽取方法不能有效抽取特定实体相关的目标知识的不足,本发明提供一种新的半开放信息抽取的方法及装置,给定目标实体以及包含该实体的文本集合,返回目标实体的描述、同义词、下位词等词汇知识集合(包含一个或多个<词汇知识,知识类型>元组),以及目标实体参与的关系知识集合(包含一个或多个<谓语,宾语>元组)。
本发明采用以下技术方案:
一种半开放信息抽取的方法,包括以下步骤:
将目标实体和无结构文本前后拼接,构成组合文本,处理得到融入目标实体语义的文本表示序列,该表示序列中目标实体位置的表示作为条件向量对其他位置的词表示进行条件层正则化,得到目标实体感知的上下文表示;
将目标实体感知的上下文表示作为共享特征,为后续的谓语抽取、宾语抽取和边界对齐这三个子任务生成特定的私有表示;
对谓语抽取的私有表示进行一次标注,得到以每个词为起始词开始的所有谓语片段,并通过递归的片段组合得到所有的谓语;
对宾语抽取的私有表示进行一次标注,得到以每个词为起始词开始的所有宾语片段,并通过递归的片段组合得到所有的宾语;
对边界对齐的私有表示中的各个词项进行两两组合,构成词对矩阵,对词对矩阵中的每个位置分配一个标签,产生每个<谓语,宾语>元组的开始位置对PS-OS标签和结束位置对PE-OE标签;
对抽取得到的谓语和宾语进行两两组合,通过判断谓语和宾语的起始位置组合和结束位置组合是否在边界对齐矩阵中找到对应的PS-OS和PE-OE标签,如果找到,则保留<谓语,宾语>元组并作为输出的关系知识。
进一步地,每个子任务的私有表示作为查询向量对其他子任务的私有表示进行自注意力操作,得到关于当前子任务的其他子任务表示,并与当前子任务的私有表示拼接,作为后续的三个子任务的输入,以此建立三个子任务之间的相互依赖关系。
进一步地,在对边界对齐的私有任务的标注中,对词对矩阵中的每个位置分配标签时,还产生不属于PS-OS和PE-OE标签的所有词对O标签。
进一步地,在对宾语抽取的私有表示进行标注中,还标注同义词、下位词和描述语句,作为最终输出的关系知识的一部分。
一种半开放信息抽取的装置,包括:
目标实体感知的编码器,用于处理目标实体和无结构文本前后拼接构成的组合文本,得到融入目标实体语义的文本表示序列,该表示序列中目标实体位置的表示作为条件向量对其他位置的词表示进行条件层正则化,得到目标实体感知的上下文表示;
协同学习模块,用于将目标实体感知的上下文表示作为共享特征,为后续的谓语抽取、宾语抽取和边界对齐这三个子任务生成特定的私有表示;
谓语抽取器,用于对谓语抽取的私有表示进行一次标注,得到以每个词为起始词开始的所有谓语片段,并通过递归的片段组合得到所有的谓语;
宾语抽取器,用于对宾语抽取的私有表示进行一次标注,得到以每个词为起始词开始的所有宾语片段,并通过递归的片段组合得到所有的宾语;
边界对齐模块,用于对边界对齐的私有表示中的各个词项进行两两组合,构成词对矩阵,对词对矩阵中的每个位置分配一个标签,产生每个<谓语,宾语>元组的开始位置对PS-OS标签和结束位置对PE-OE标签;
解码模块,用于对抽取得到的谓语和宾语进行两两组合,通过判断谓语和宾语的起始位置组合和结束位置组合是否在边界对齐矩阵中找到对应的PS-OS和PE-OE标签,如果找到,则保留<谓语,宾语>元组并作为输出的关系知识。
进一步地,目标实体感知的编码器,基于深层预训练表示模型,该模型包括多层可进行交互的Transformer网络。
进一步地,协同学习模块基于卷积神经网络,谓语抽取器和宾语抽取器均基于矩阵标注网络。
进一步地,协同学习模块还用于将每个子任务的私有表示作为查询向量对其他子任务的私有表示进行自注意力操作,得到关于当前子任务的其他子任务表示,并与当前子任务的私有表示拼接,作为后续的三个子任务的输入,以此建立谓语抽取器、宾语抽取器和边界对齐模块之间的相互依赖关系。
进一步地,边界对齐模块对词对矩阵中的每个位置分配标签时,还产生不属于PS-OS和PE-OE标签的所有词对O标签。
进一步地,宾语抽取器还标注同义词、下位词和描述语句,作为最终输出的关系知识的一部分。
本发明方法有以下优点:
(1)将特定实体的语义编码进入抽取过程中,能够准确地抽取目标相关的知识;
(2)不受级联误差影响。和当前基于序列到序列的抽取算法相比,本发明将抽取任务分解为谓语抽取、宾语抽取以及边界对齐三个子任务,他们独立执行,不依赖于其他抽取模块的结果,同时利用协同学习策略隐式建模不同抽取子任务间的语义关联,在人工标注的大规模数据集上获得了当前最好的技术效果。
附图说明
图1是本发明的一种半开放信息抽取的装置结构图。
具体实施方式
为使本发明的技术方案能更明显易懂,特举实施例并结合附图详细说明如下。
如图1所示,为了实现半开放抽取的目标,本发明提出的模型将抽取过程分解为四个模块:目标实体感知的编码器、协同学习模块、谓语抽取器、宾语抽取器以及边界对齐模块。对于输入的目标实体以及无结构文本,编码器首先将目标实体的语义信息融入上下文表示的建模过程中,作为后续抽取步骤的基础特征。协同学习模块接受编码器输出的共享表示,为后续的三个抽取子任务生成任务特定的私有表示,增强不同子任务的抽取器间的关联性。谓语抽取和宾语抽取模块以矩阵标注的方式得到目标实体的谓语和宾语,边界对齐模块产生每个<谓语,宾语>元组的开始位置对和结束位置对。最后,通过组合抽取出的谓语、宾语以及他们对齐的边界来获得目标实体相关的结构化知识。词汇知识被当做特殊类型的宾语由宾语抽取器直接产生。接下来对各个模块的详细信息进行具体介绍。
(一)目标实体感知的编码器
深层预训练表示模型在自然语言处理的各个任务上都表现了极佳的效果。本发明将目标实体拼接在文本之前,构成组合文本,再输入表示模型中,通过多层的Transformer网络进行交互,得到融入目标实体语义的文本表示序列。进一步地,表示序列中拼接的目标实体位置的表示被当做是条件向量对其他位置的词表示进行条件层正则化,得到目标实体感知的上下文表示。
(二)协同学习模块
该模块接收编码器产生的上下文表示作为共享特征,通过任务特定的卷积神经网络为后续的每个子任务生成私有表示,每个任务的私有表示作为查询向量对其他任务的表示进行自注意力操作,得到关于该任务的其他任务表示,与该任务的私有表示拼接作为后续抽取模块的输入,以此建模谓语抽取器、宾语抽取器和边界对齐模块间的相互依赖关系。
(三)谓语(宾语)抽取器
谓语抽取和宾语抽取可以分别被建模为两个单独的序列标注任务,考虑到不连贯谓语和宾语的存在,本发明使用矩阵标注网络作为谓语(宾语)的抽取器。对于序列中的每个词t,网络对输入序列进行一次标注,得到以t为起始词的所有谓语(宾语)片段,并通过递归的片段组合到所有的谓语(宾语),每个词对应的标注序列可以看做标注矩阵的一行。
(四)边界对齐模块
输入序列的N个词项两两组合,得到N*N个词对,构成N*N的词对矩阵。边界对齐模块为词对矩阵中的每个位置分配一个标签:PS-OS(表示谓语起始词-宾语起始词)或PE-OE(表示谓语结束词-宾语结束词)或O(表示不属于PS-OS和PE-OE的所有词对)
(五)解码模块
所有模块执行完毕后,对于抽取得到的谓语和宾语进行两两组合,通过判断他们的起始位置组合以及结束位置组合是否在边界对齐矩阵中可以找到对应的PS-OS和PE-OE的标签,来获得<谓语,宾语>元组作为输出的关系知识。如果找到,那么保留该<谓语,宾语>;如果未能找到,则舍弃。宾语抽取器还会标注同义词、下位词和描述等词汇知识,也一并作为抽取系统的输出,这些词汇知识通过宾语抽取器中特殊的标签加以区分。
以下列举一具体实例:
如图1所示,本例基于一种半开放信息抽取的装置,首先利用搜索引擎等工具从互联网中检索得到包含特定实体的网页,对其进行文本提取、清洗、分句,得到包含特定实体的句子集合。对于候选的每个<实体,句子>元组,均采用半开放信息抽取模型从中获取实体相关的知识。具体来说,假设候选句为“全国社会保障基金(社保基金)是政府用以提供社会保障的基金,包括养老保险基金,医疗保险基金等,用于社会保险待遇的当期发放。”目标实体为“全国社会保障基金”,首先将目标实体和候选句拼接输入中文预训练表示模型中,基于协同学习得到的任务特定表示,谓语抽取器标注得到谓语集合{“包括”,“用于”},宾语抽取器标注得到基础宾语集合{“养老保险基金”,“医疗保险基金”,“社会保险待遇的当期发放”}以及同义词集合{“社保基金”}、下位词集合{“养老保险基金”,“医疗保险基金”}以及描述集合{“政府用以提供社会保障的基金”},边界对齐模块得到开始位置对齐集合{“包-养”,“包-医”,“用-社}与结束位置对齐集合{“括-金”,“括-金”,“用-放”},综合考虑对齐的边界和抽取出的谓语和宾语,可以得到最终的抽取结果。
本发明的半开放信息抽取装置(USE)与其他基线模型在中文数据集上的抽取结果如表1,可见在各项的F1值中表现优越,表中overall指代关系知识(Relational Fact)和词汇知识(Lexical Fact)抽取结果的微平均,P表示准确率,R表示召回率,F1值表示P和R的调和平均。
表1
以上实施例仅用以说明本发明的技术方案而非对其进行限制,本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换,本发明的保护范围以权利要求所述为准。
Claims (10)
1.一种半开放信息抽取的方法,其特征在于,包括以下步骤:
将目标实体和无结构文本前后拼接,构成组合文本,处理得到融入目标实体语义的文本表示序列,该表示序列中目标实体位置的表示作为条件向量对其他位置的词表示进行条件层正则化,得到目标实体感知的上下文表示;
将目标实体感知的上下文表示作为共享特征,为后续的谓语抽取、宾语抽取和边界对齐这三个子任务生成特定的私有表示;
对谓语抽取的私有表示进行一次标注,得到以每个词为起始词开始的所有谓语片段,并通过递归的片段组合得到所有的谓语;
对宾语抽取的私有表示进行一次标注,得到以每个词为起始词开始的所有宾语片段,并通过递归的片段组合得到所有的宾语;
对边界对齐的私有表示中的各个词项进行两两组合,构成词对矩阵,对词对矩阵中的每个位置分配一个标签,产生每个<谓语,宾语>元组的开始位置对PS-OS标签和结束位置对PE-OE标签;
对抽取得到的谓语和宾语进行两两组合,通过判断谓语和宾语的起始位置组合和结束位置组合是否在边界对齐矩阵中找到对应的PS-OS和PE-OE标签,如果找到,则保留<谓语,宾语>元组并作为输出的关系知识。
2.如权利要求1所述的方法,其特征在于,每个子任务的私有表示作为查询向量对其他子任务的私有表示进行自注意力操作,得到关于当前子任务的其他子任务表示,并与当前子任务的私有表示拼接,作为后续的三个子任务的输入,以此建立三个子任务之间的相互依赖关系。
3.如权利要求1所述的方法,其特征在于,在对边界对齐的私有任务的标注中,对词对矩阵中的每个位置分配标签时,还产生不属于PS-OS和PE-OE标签的所有词对O标签。
4.如权利要求1所述的方法,其特征在于,在对宾语抽取的私有表示进行标注中,还标注同义词、下位词和描述语句,作为最终输出的关系知识的一部分。
5.一种半开放信息抽取的装置,其特征在于,包括:
目标实体感知的编码器,用于处理目标实体和无结构文本前后拼接构成的组合文本,得到融入目标实体语义的文本表示序列,该表示序列中目标实体位置的表示作为条件向量对其他位置的词表示进行条件层正则化,得到目标实体感知的上下文表示;
协同学习模块,用于将目标实体感知的上下文表示作为共享特征,为后续的谓语抽取、宾语抽取和边界对齐这三个子任务生成特定的私有表示;
谓语抽取器,用于对谓语抽取的私有表示进行一次标注,得到以每个词为起始词开始的所有谓语片段,并通过递归的片段组合得到所有的谓语;
宾语抽取器,用于对宾语抽取的私有表示进行一次标注,得到以每个词为起始词开始的所有宾语片段,并通过递归的片段组合得到所有的宾语;
边界对齐模块,用于对边界对齐的私有表示中的各个词项进行两两组合,构成词对矩阵,对词对矩阵中的每个位置分配一个标签,产生每个<谓语,宾语>元组的开始位置对PS-OS标签和结束位置对PE-OE标签;
解码模块,用于对抽取得到的谓语和宾语进行两两组合,通过判断谓语和宾语的起始位置组合和结束位置组合是否在边界对齐矩阵中找到对应的PS-OS和PE-OE标签,如果找到,则保留<谓语,宾语>元组并作为输出的关系知识。
6.如权利要求5所述的装置,其特征在于,目标实体感知的编码器,基于深层预训练表示模型,该模型包括多层可进行交互的Transformer网络。
7.如权利要求5所述的装置,其特征在于,协同学习模块基于卷积神经网络,谓语抽取器和宾语抽取器均基于矩阵标注网络。
8.如权利要求5所述的装置,其特征在于,协同学习模块还用于将每个子任务的私有表示作为查询向量对其他子任务的私有表示进行自注意力操作,得到关于当前子任务的其他子任务表示,并与当前子任务的私有表示拼接,作为后续的三个子任务的输入,以此建立谓语抽取器、宾语抽取器和边界对齐模块之间的相互依赖关系。
9.如权利要求5所述的装置,其特征在于,边界对齐模块对词对矩阵中的每个位置分配标签时,还产生不属于PS-OS和PE-OE标签的所有词对O标签。
10.如权利要求5所述的装置,其特征在于,宾语抽取器还标注同义词、下位词和描述语句,作为最终输出的关系知识的一部分。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011502018.3A CN112651234B (zh) | 2020-12-18 | 2020-12-18 | 一种半开放信息抽取的方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011502018.3A CN112651234B (zh) | 2020-12-18 | 2020-12-18 | 一种半开放信息抽取的方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112651234A true CN112651234A (zh) | 2021-04-13 |
CN112651234B CN112651234B (zh) | 2023-11-28 |
Family
ID=75355092
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011502018.3A Active CN112651234B (zh) | 2020-12-18 | 2020-12-18 | 一种半开放信息抽取的方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112651234B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113705196A (zh) * | 2021-08-02 | 2021-11-26 | 清华大学 | 基于图神经网络的中文开放信息抽取方法和装置 |
CN115510866A (zh) * | 2022-11-16 | 2022-12-23 | 国网江苏省电力有限公司营销服务中心 | 一种面向电力领域实体关系协同的知识抽取方法及系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150339577A1 (en) * | 2014-05-22 | 2015-11-26 | Ulli Waltinger | Generating a Classifier for Performing a Query to a Given Knowledge Base |
US20180232443A1 (en) * | 2017-02-16 | 2018-08-16 | Globality, Inc. | Intelligent matching system with ontology-aided relation extraction |
WO2020001373A1 (zh) * | 2018-06-26 | 2020-01-02 | 杭州海康威视数字技术股份有限公司 | 一种本体构建方法及装置 |
CN111061832A (zh) * | 2019-12-05 | 2020-04-24 | 电子科技大学广东电子信息工程研究院 | 基于开放域信息抽取的人物行为抽取方法 |
CN111967242A (zh) * | 2020-08-17 | 2020-11-20 | 支付宝(杭州)信息技术有限公司 | 一种文本信息的抽取方法、装置及设备 |
JPWO2020240871A1 (zh) * | 2019-05-31 | 2020-12-03 |
-
2020
- 2020-12-18 CN CN202011502018.3A patent/CN112651234B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150339577A1 (en) * | 2014-05-22 | 2015-11-26 | Ulli Waltinger | Generating a Classifier for Performing a Query to a Given Knowledge Base |
US20180232443A1 (en) * | 2017-02-16 | 2018-08-16 | Globality, Inc. | Intelligent matching system with ontology-aided relation extraction |
WO2020001373A1 (zh) * | 2018-06-26 | 2020-01-02 | 杭州海康威视数字技术股份有限公司 | 一种本体构建方法及装置 |
JPWO2020240871A1 (zh) * | 2019-05-31 | 2020-12-03 | ||
CN111061832A (zh) * | 2019-12-05 | 2020-04-24 | 电子科技大学广东电子信息工程研究院 | 基于开放域信息抽取的人物行为抽取方法 |
CN111967242A (zh) * | 2020-08-17 | 2020-11-20 | 支付宝(杭州)信息技术有限公司 | 一种文本信息的抽取方法、装置及设备 |
Non-Patent Citations (1)
Title |
---|
荆涛;左万利;孙吉贵;车海燕;: "中文网页语义标注:由句子到RDF表示", 计算机研究与发展, no. 07, pages 1221 - 1231 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113705196A (zh) * | 2021-08-02 | 2021-11-26 | 清华大学 | 基于图神经网络的中文开放信息抽取方法和装置 |
CN115510866A (zh) * | 2022-11-16 | 2022-12-23 | 国网江苏省电力有限公司营销服务中心 | 一种面向电力领域实体关系协同的知识抽取方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN112651234B (zh) | 2023-11-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10482115B2 (en) | Providing question and answers with deferred type evaluation using text with limited structure | |
JP5936698B2 (ja) | 単語意味関係抽出装置 | |
Do et al. | Developing a BERT based triple classification model using knowledge graph embedding for question answering system | |
US10025819B2 (en) | Generating a query statement based on unstructured input | |
CN107391677B (zh) | 携带实体关系属性的中文通用知识图谱的生成方法及装置 | |
Gokul et al. | Sentence similarity detection in Malayalam language using cosine similarity | |
CN112651234B (zh) | 一种半开放信息抽取的方法及装置 | |
Ahmed et al. | Named entity recognition by using maximum entropy | |
CN116595195A (zh) | 一种知识图谱构建方法、装置及介质 | |
CN114153994A (zh) | 医保信息问答方法及装置 | |
CN110929518A (zh) | 一种使用重叠拆分规则的文本序列标注算法 | |
Das et al. | The 5w structure for sentiment summarization-visualization-tracking | |
CN110705285B (zh) | 一种政务文本主题词库构建方法、装置、服务器及可读存储介质 | |
Arbaaeen et al. | Natural language processing based question answering techniques: A survey | |
Srinivasagan et al. | An automated system for tamil named entity recognition using hybrid approach | |
CN115757694A (zh) | 招聘行业文本召回方法及系统、设备与介质 | |
Ghosh et al. | Clause identification and classification in bengali | |
Yu et al. | Sentiment Classification of Scientific Citation Based on Modified BERT Attention by Sentiment Dictionary. | |
Kim et al. | A local tree alignment approach to relation extraction of multiple arguments | |
Zhuang et al. | Research and Application of Artificial Intelligence Large Language Models Based on Feature Enhancement | |
Giannini et al. | A Logic-based approach to Named-Entity Disambiguation in the Web of Data | |
Madi et al. | Grammar checking and relation extraction in text: approaches, techniques and open challenges | |
TWI807400B (zh) | 產生實體關係抽取模型的裝置及方法 | |
Valêncio et al. | A system proposal for automated data cleaning environment | |
CN109815495B (zh) | 一种通过标签传播算法进行主题分面挖掘的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |