CN113836281A - 一种基于自动问答的实体关系联合抽取方法 - Google Patents

一种基于自动问答的实体关系联合抽取方法 Download PDF

Info

Publication number
CN113836281A
CN113836281A CN202111068697.2A CN202111068697A CN113836281A CN 113836281 A CN113836281 A CN 113836281A CN 202111068697 A CN202111068697 A CN 202111068697A CN 113836281 A CN113836281 A CN 113836281A
Authority
CN
China
Prior art keywords
question
entity
extraction
answer
answering
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111068697.2A
Other languages
English (en)
Inventor
刘姗姗
丁鲲
张骁雄
刘浏
刘茗
张慧
蒋国权
钱璟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National University of Defense Technology
Original Assignee
National University of Defense Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National University of Defense Technology filed Critical National University of Defense Technology
Priority to CN202111068697.2A priority Critical patent/CN113836281A/zh
Publication of CN113836281A publication Critical patent/CN113836281A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3346Query execution using probabilistic model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/186Templates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Human Computer Interaction (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于自动问答的实体关系联合抽取方法,属于信息抽取和自然语言处理技术领域。包括对数据进行预处理;设计实体抽取问题模板并生成实体抽取问答对;基于预训练语言模型的第一自动问答模型抽取实体;结合识别出的实体和根据数据集特点设计的关系抽取问题模板,采用无监督方式生成关系抽取问答对;基于预训练语言模型的第二自动问答模型抽取关系;将第一自动问答模型和第二自动问答模型进行联合训练;将关系抽取问答对和输出的尾实体进行三元组转化。本发明将实体关系抽取转化为问答任务,可以有效解决实体关系抽取中存在的跨句关系、多元关系难以识别的问题,且能识别出训练集中未预先定义的实体关系类型。

Description

一种基于自动问答的实体关系联合抽取方法
技术领域
本发明属于信息抽取和自然语言处理技术领域,具体涉及一种基于自动问答的实体关系联合抽取方法。
背景技术
身处大数据时代,如何快速高效地从海量无结构或半结构数据中抽取出有价值的信息,成为了摆在人们面前的重要问题,信息抽取技术应运而生。实体抽取和关系抽取作为信息抽取的关键步骤,近年来受到了学术界和工业界的广泛关注。实体抽取,又称为命名实体识别,其任务是识别出文本当中具有特定意义的实体,如人名、组织、机构名、地理位置等。关系抽取,即在识别出关键实体后,判断实体之间的语义关系。实体关系抽取作为自然语言处理重要的一环,可以从非结构化文本快速提取出有效的语义信息,为文本摘要、机器翻译、知识图谱构建等下游任务提供有力支撑。
实体关系抽取常被作为序列标注任务处理,面临着以下挑战:1)高质量人工标注数据缺乏。训练实体关系抽取的深度神经网络模型需要大量的标注数据,人工标注虽然质量高但耗时耗力,模板匹配等自动标注方法节省了时间成本但引入了噪声。2)跨句实体关系难以识别。现有的实体关系抽取模型主要针对句子级别,即识别一句话中的实体及其之间的关系,而在现实场景中实体关系可能会跨句出现,判断难度更大。3)预先定义的关系类型不符合应用场景。在对训练数据进行标注时,会预先定义若干实体类型、关系类型,现有模型在标注数据上训练之后,只能识别预先定义的实体关系类型,而对现实场景中存在却未预先定义的类型无法进行识别。4)多元关系识别困难。现有的实体关系抽取模型只能识别单一关系,句子中若出现多种关系且实体有重叠时,难以准确识别。
发明内容
技术问题:针对上述问题,本发明提出一种基于自动问答的实体关系联合抽取方法,基于自动问答的实体关系联合抽取方法更符合人在进行信息抽取的一般过程,有效解决跨句关系识别、多元关系识别等问题。
技术方案:本发明提供一种基于自动问答的实体关系联合抽取方法,包括:
对数据进行预处理,至少包括分词和词性标注;
根据数据集特点设计实体抽取问题模板,并根据模板生成实体抽取问答对;
将实体抽取问题和给定文本输入到基于预训练语言模型的第一自动问答模型中,输出实体;
结合识别出的实体和根据数据集特点设计的关系抽取问题模板,采用无监督方式生成关系抽取问答对;
将关系抽取问题和给定文本输入到基于预训练语言模型的第二自动问答模型中,输出尾实体;
将第一自动问答模型和第二自动问答模型进行联合训练;
将关系抽取问答对和输出的尾实体进行三元组转化,输出由主语、谓语、宾语构成的三元组,分别对应头实体、关系和尾实体。
进一步地,所述分词的方法为:将连续的字序列按照规范划分成词序列;
所述词性标注的方法为:将分词结果中每个词标注一个正确的词性。
进一步地,所述根据数据集特点设计实体抽取问题模板,并根据模板生成实体抽取问答对的方法包括:
通过对数据集进行分析,对不同类型的头实体设计不同的问题,形成实体抽取问题模板;
当给定一段输入文本后,对所有头实体类型遍历进行提问,若文本中存在该类型的头实体,则将该头实体标记为问题的答案,若不存在该类型的头实体,则将答案标记为None,构造出实体抽取问答对。
进一步地,构造所述基于预训练语言模型的第一自动问答模型的方法包括:
将输入文本、问题进行拼接,并对其进行嵌入编码;
将文本、问题嵌入编码的结果输入到预训练语言模型中;
对预训练语言模型的输出层进行微调。
进一步地,所述将输入文本、问题进行拼接的方法为:给定问题
Figure BDA0003259338540000021
和文本
Figure BDA0003259338540000022
其中Nq和Nc分别表示问题和文本中的字数,将问题和文章用特殊符号[CLS]和[SEP]拼接,输入形式为[CLS]Q[SEP]C[SEP];
嵌入编码的方法为:以序列[CLS]Q[SEP]C[SEP]中每一个字的字向量、片段向量和位置向量的和作为嵌入编码。
进一步地,所述预训练语言模型为BERT模型。
进一步地,所述对预训练语言模型的输出层进行微调的方法为:
将BERT模型的输出结果输入到全连接层中,之后再进行Softmax;
求得开始位置和结束位置概率最高的位置,将从开始位置到结束位置之间的序列作为预测答案的输出。
进一步地,还包括:对基于预训练模型的第一自动应答模型进行训练,训练的方法为:通过最小化开始和结束位置负对数的概率和,公式如下:
Figure BDA0003259338540000031
其中,N是训练样本中的样例数,
Figure BDA0003259338540000032
Figure BDA0003259338540000033
是样例i的真实标记的开始位置和结束位置,
Figure BDA0003259338540000034
是预测答案开始位置在
Figure BDA0003259338540000035
的概率,
Figure BDA0003259338540000036
是预测答案结束位置在
Figure BDA0003259338540000037
的概率,θ表示模型中所有可训练权重的集合;
给预测答案开始和结束位置的置信度得分向量pb和pe分别拼接一个可训练的偏置t,新的置信度得分向量表示为
Figure BDA0003259338540000038
其中NS表示句子中的字数,
Figure BDA0003259338540000039
Figure BDA00032593385400000310
“;”表示按行进行拼接;
没有答案时的概率表示为:
Figure BDA00032593385400000311
其中a表示答案,
Figure BDA00032593385400000312
表示没有答案;当
Figure BDA00032593385400000313
的概率大于最优答案片段的得分时,则该问题没有答案。
进一步地,所述结合识别出的实体和根据数据集特点设计的关系抽取问题模板,采用无监督方式生成关系抽取问答对的方法为:
通过对数据集进行分析,对不同类型的头实体、关系设计不同的问题,形成关系抽取模板;
对实体抽取识别的每一个实体可能存在的关系根据问题模板进行提问,并将问题模板中的“xx”替换为实体抽取识别出的实体,若该实体在文本中存在该类的关系,则将尾实体作为问题的答案,反之,若不存在该类关系,则问题的答案为None,以此方法循环遍历所有样例构造关系抽取问答对。
进一步地,所述基于预训练语言模型的第二自动问答模型与基于预训练语言模型的第一自动问答模型采用同一模型,两个模型在训练过程中共享参数。
进一步地,所述将第一自动问答模型和第二自动问答模型进行联合训练的方法为:
利用目标函数:L=(1-λ)Lentity+λLrelation对两个自动问答模型进行训练,其中,Lentity和Lrelation分别表示实体抽取和关系抽取时开始和结束位置负对数概率和,λ∈[0,1]是调节实体抽取和关系抽取两个目标函数权重的参数。
本发明与现有技术相比,具有以下优点:通过数据预处理、基于问答的实体抽取、基于问答的关系抽取、三元组转化等步骤,将实体关系抽取任务转化为自动问答任务,有效发挥了问答模型的优势,可以解决实体关系抽取中存在的跨句关系、多元关系难以识别问题,并且更符合人在进行信息抽取的一般过程,且能识别出训练集中未预先定义的实体关系类型。
附图说明
图1为本发明的实施例中基于自动问答的实体关系联合抽取方法的流程图。
图2为本发明的实施例中自动问答的实体(关系)抽取模型图;
图3为本发明的实施例中关系抽取问答对无监督生成算法流程图;
图4为本发明的一个应用示例的示意图。
具体实施方式
图1示出了本发明的实施例中基于自动问答的实体关系联合抽取方法的流程图。结合图1所示,该方法包括:
S100:对数据进行预处理,至少包括分词和词性标注。具体的,可以根据数据的情况增加其他的预处理操作,例如去停用词等。其中分词方法是将连续的字序列按照规范划分成词序列;性标注的方法是将分词结果中每个词标注一个正确的词性;去停用词的方法是根据停用词表删除文本中的助词、语气词等没有意义的词。例如,输入的文本为:韩国总统文在寅夫人金正淑为美国总统特朗普之女伊万卡设计了一双“丝绸室内拖鞋”。使用jieba进行分词,分词后的结果为:韩国/总统/文在寅/夫人/金正淑/为/美国/总统/特朗普/之/女/伊万卡/设计/了/一双/“/丝绸/室内拖鞋/”/。对分词后的结果使用HanLP工具进行词性标注,结果为:韩国(ns)/总统(n)/文在寅(nr)/夫人(n)/金正淑(nr)/为(p)/美国(ns)/总统(n)/特朗普(nr)/之(u)/女(n)/伊万卡(nrf)/设计(vn)/了(ul)/一双(m)/“(x)/丝绸(n)/室内拖鞋(n)/”(x)/。(x)
S200:根据数据集特点设计实体抽取问题模板,并根据模板生成实体抽取问答对。在本发明的一个实施例中,采用2021语言与智能技术竞赛中多形态信息抽取任务的关系抽取的数据集,该任务的目标是对于给定的自然语言句子,根据预先定义的模式集合,抽取出所有满足模式约束的主谓宾三元组,句子中包括多元关系。训练集包括171293条数据,其中输入的自然语言句子字数最长达300个字,存在远距离的跨句关系。训练集中的实体类型包括地点、电视综艺、歌曲、国家、行政区、机构、景点、历史人物、企业、人物、图书作品、网络小说、学科专业、影视作品、娱乐人物等15类,为这15类主体类型设计的问题模板如表1所示。
表1实体抽取问题生成模板
Figure BDA0003259338540000051
根据所设计的模板生成实体抽取问答对的方法为:当给定一段输入文本后,对所有主体类型遍历进行提问,若文本中存在该类型的实体,则将该头实体标记为问题的答案,若不存在该类型的头实体,则将答案标记为None,以此方法构造实体抽取问答对。例如,输入文本为:韩国总统文在寅夫人金正淑为美国总统特朗普之女伊万卡设计了一双“丝绸室内拖鞋”。构造的实体抽取问答对为:(文中提到的地点是哪?None),(文中提到的电视综艺是什么?None),(文中提到的歌曲是什么?None),(文中提到的国家是什么?韩国;美国),(文中提到的行政区是什么?None),(文中提到的机构是什么?None),(文中提到的景点是哪?None),(文中提到的历史人物是谁?None),(文中提到的企业是什么?None),(文中提到的人物是谁?文在寅;金正淑;特朗普;伊万卡),(文中提到的图书作品是什么?None),(文中提到的网络小说是什么?None),(文中提到的学科专业是什么?None),(文中提到的影视作品是什么?None),(文中提到的娱乐人物是谁?None)。
S300:将实体抽取问题和给定文本输入到基于预训练语言模型的第一自动问答模型中,输出实体。基于预训练语言模型的问答模型包括将高维离散空间的词映射到低维连续空间向量的嵌入编码输入、预训练和输出微调,
在本发明的实施例中,基于预训练语言模型的自动问答模型的本体是谷歌所公布的针对中文进行训练的BERT模型,即预训练语言模型为BERT模型。在本发明的实施例中,如图2,构建基于预训练语言模型的第一自动问答模型的过程包括以下步骤:
S310:将输入文本、问题进行拼接,并对其进行嵌入编码。具体的,给定问题
Figure BDA0003259338540000061
和文本
Figure BDA0003259338540000062
其中Nq和Nc分别表示问题和文本中的字数,将问题和文章用特殊符号[CLS]和[SEP]拼接,输入形式为[CLS]Q[SEP]C[SEP]。将序列[CLS]Q[SEP]C[SEP]中每一个字的字向量、片段向量和位置向量的和作为嵌入编码。
S320:将文本、问题嵌入编码的结果输入到预训练语言模型中。预训练语言模型采用的是谷歌所公布的针对中文进行训练的BERT模型,即预训练语言模型为BERT模型。将步骤S310中的嵌入编码输入到针对中文预训练好的BERT模型中,其中片段向量用于区分问题和文本,位置向量编码文本中每个字的位置。BERT模型是一个多层双向的Transformer结构,在预训练阶段通过带掩码的语言模型和下一句预测两个任务有效编码上下文信息,从而习得语法、句法等信息。
S330:对预训练语言模型的输出层进行微调。为了使BERT模型完成问答任务,需要对其输出层进行微调。在问答任务中,预测答案的流行方式是预测答案在文本中开始和结束的位置,所以将BERT模型的输出结果输入到全连接层中,之后再进行Softmax,求得开始位置和结束位置概率最高的位置,将从开始位置到结束位置之间的序列作为预测答案的输出。
在本发明的实施例中,对基于预训练语言模型的自动问答模型进行训练时,训练时的目标为最小化开始和结束位置负对数概率和,即:
Figure BDA0003259338540000071
其中,N是训练样本中的样例数,
Figure BDA0003259338540000072
Figure BDA0003259338540000073
是样例i的真实标记的开始位置和结束位置,
Figure BDA0003259338540000074
是预测答案开始位置在
Figure BDA0003259338540000075
的概率,
Figure BDA0003259338540000076
是预测答案结束位置在
Figure BDA0003259338540000077
的概率,θ表示模型中所有可训练权重的集合。
为了使自动问答模型判断问题是否有答案,给预测答案开始和结束位置的置信度得分向量pb和pe分别拼接一个可训练的偏置t,新的置信度得分向量表示为
Figure BDA0003259338540000078
其中NS表示句子中的字数,
Figure BDA0003259338540000079
“;”表示按行进行拼接。
没有答案时的概率表示为:
Figure BDA00032593385400000710
其中a表示答案,
Figure BDA00032593385400000711
表示没有答案;当
Figure BDA00032593385400000712
的概率大于最优答案片段的得分时,则该问题没有答案。
S400:结合识别出的实体和根据数据集特点设计的关系抽取问题模板,采用无监督方式生成关系抽取问答对。设计关系抽取问题模板具体的是通过对数据集进行分析,对不同类型的头实体、关系设计不同的问题,形成关系抽取模板。例如头实体类型为人物、关系类型为祖籍时,问题为“xx人物的祖籍是哪里?”。
例如在本发明的一个示例中,根据主体、关系、客体三者的类型设计关系抽取问题模板结果表2所示,共计54种关系,其中对多元关系分多个问题进行提问,例如“票房”这一关系既涉及票房值,也涉及地区,所以分别用“xx影视作品的票房是多少?”和“xx影视作品在哪里上映?”两个问题进行提问。
表2关系抽取问题生成模板
Figure BDA00032593385400000713
Figure BDA0003259338540000081
结合实体抽取识别到的实体和关系抽取问题模板,按图3所示的算法流程,以无监督的方式生成关系抽取问答对。无监督的方式生成关系抽取问答对,具体的是对实体抽取识别的每一个实体可能存在的关系根据问题模板进行提问,并将问题模板中的“xx”替换为实体抽取识别出的实体,若该实体在文本中存在该类的关系,则将尾实体作为问题的答案,反之,若不存在该类关系,则问题的答案为None,以此方法循环遍历所有样例构造关系抽取问答对。
例如,输入文本为:韩国总统文在寅夫人金正淑为美国总统特朗普之女伊万卡设计了一双“丝绸室内拖鞋”。抽取出的实体包括,国家:韩国、美国,人物:文在寅、金正淑、特朗普、伊万卡。针对国家类型的实体,可能存在的关系有官方语言、首都、总统等3个,其关系抽取问题分别为:“xx国家的官方语言是什么?”,“xx国家的首都是什么?”,“xx国家的总统是谁?”,将问题模板中的“xx”替换为实体抽取中识别出的实体,最终构造的关系抽取问答对为:(韩国国家的官方语言是什么?None),(韩国国家的首都是什么?None),(韩国国家的总统是谁?文在寅),(美国国家的官方语言是什么?None),(美国国家的首都是什么?None),(美国国家的总统是谁?特朗普)。在构造关系抽取问答对时保留了主体类型,这样可以为后续模型识别尾实体提供额外的辅助信息。
S500:将关系抽取问题和给定文本输入到基于预训练语言模型的第二自动问答模型中,输出尾实体。在本发明的实施例中,基于预训练语言模型的第一自动问答模型和基于预训练语言模型的第二自动问答模型采用同一问答模型,并且在在训练过程中共享参数。
S600:将第一自动问答模型和第二自动问答模型进行联合训练;在本发明的实施例中,利用下面的目标函数进行联合训练:
L=(1-λ)Lentity+λLrelation
其中,Lentity和Lrelation分别表示实体抽取和关系抽取时开始和结束位置负对数概率和,λ∈[0,1]是调节实体抽取和关系抽取两个目标函数权重的参数。
S700:将关系抽取问答对和输出的尾实体进行三元组转化,输出由主语、谓语、宾语构成的三元组,分别对应头实体、关系和尾实体。在本发明的一个具体示例中,如图4所示,输入文本为:韩国总统文在寅夫人金正淑为美国总统特朗普之女伊万卡设计了一双“丝绸室内拖鞋”。通过实体抽取和关系抽取两轮问答,最终得到的三元组有:(韩国,总统,文在寅),(文在寅,妻子,金正淑),(金正淑,丈夫,文在寅),(美国,总统,特朗普),(特朗普,女儿,伊万卡),(伊万卡,父亲,特朗普)。抽取出的三元组可以用于知识图谱的构建。
本发明将实体关系抽取转化为问答任务,有效发挥了成熟问答模型的优势,更为自然的将实体抽取和关系抽取进行联合训练,避免了流水线做法带来的误差传递。同时,本发明更符合人在进行信息抽取时的一般过程,可以解决实体关系抽取中存在的跨句关系、多元关系难以识别等问题。
上述实施例仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和等同替换,这些对本发明权利要求进行改进和等同替换后的技术方案,均落入本发明的保护范围。

Claims (11)

1.一种基于自动问答的实体关系联合抽取方法,其特征在于,包括:
对数据进行预处理,至少包括分词和词性标注;
根据数据集特点设计实体抽取问题模板,并根据模板生成实体抽取问答对;
将实体抽取问题和给定文本输入到基于预训练语言模型的第一自动问答模型中,输出实体;
结合识别出的实体和根据数据集特点设计的关系抽取问题模板,采用无监督方式生成关系抽取问答对;
将关系抽取问题和给定文本输入到基于预训练语言模型的第二自动问答模型中,输出尾实体;
将第一自动问答模型和第二自动问答模型进行联合训练;
将关系抽取问答对和输出的尾实体进行三元组转化,输出由主语、谓语、宾语构成的三元组,分别对应头实体、关系和尾实体。
2.根据权利要求1所述的基于自动问答的实体关系联合抽取方法,其特征在于,所述分词的方法为:将连续的字序列按照规范划分成词序列;
所述词性标注的方法为:将分词结果中每个词标注一个正确的词性。
3.根据权利要求1所述的基于自动问答的实体关系联合抽取方法,其特征在于,所述根据数据集特点设计实体抽取问题模板,并根据模板生成实体抽取问答对的方法包括:
通过对数据集进行分析,对不同类型的头实体设计不同的问题,形成实体抽取问题模板;
当给定一段输入文本后,对所有头实体类型遍历进行提问,若文本中存在该类型的头实体,则将该头实体标记为问题的答案,若不存在该类型的头实体,则将答案标记为None,构造出实体抽取问答对。
4.根据权利要求1所述的基于自动问答的实体关系联合抽取方法,其特征在于,构造所述基于预训练语言模型的第一自动问答模型的方法包括:
将输入文本、问题进行拼接,并对其进行嵌入编码;
将文本、问题嵌入编码的结果输入到预训练语言模型中;
对预训练语言模型的输出层进行微调。
5.根据权利要求4所述的基于自动问答的实体关系联合抽取方法,其特征在于,所述将输入文本、问题进行拼接的方法为:给定问题
Figure FDA00032593385300000214
和文本
Figure FDA00032593385300000215
其中Nq和Nc分别表示问题和文本中的字数,将问题和文章用特殊符号[CLS]和[SEP]拼接,输入形式为[CLS]Q[SEP]C[SEP];
嵌入编码的方法为:以序列[CLS]Q[SEP]C[SEP]中每一个字的字向量、片段向量和位置向量的和作为嵌入编码。
6.根据权利要求5所述的基于自动问答的实体关系联合抽取方法,其特征在于,所述预训练语言模型为BERT模型。
7.根据权利要求6所述的基于自动问答的实体关系联合抽取方法,其特征在于,所述对预训练语言模型的输出层进行微调的方法为:
将BERT模型的输出结果输入到全连接层中,之后再进行Softmax;
求得开始位置和结束位置概率最高的位置,将从开始位置到结束位置之间的序列作为预测答案的输出。
8.根据权利要求7所述的基于自动问答的实体关系联合抽取方法,其特征在于,还包括:对基于预训练模型的第一自动问答模型进行训练,训练的方法为:通过最小化开始和结束位置负对数的概率和,公式如下:
Figure FDA0003259338530000021
其中,N是训练样本中的样例数,
Figure FDA0003259338530000022
Figure FDA0003259338530000023
是样例i的真实标记的开始位置和结束位置,
Figure FDA0003259338530000024
是预测答案开始位置在
Figure FDA0003259338530000025
的概率,
Figure FDA0003259338530000026
是预测答案结束位置在
Figure FDA0003259338530000027
的概率,θ表示模型中所有可训练权重的集合;
给预测答案开始和结束位置的置信度得分向量pb和pe分别拼接一个可训练的偏置t,新的置信度得分向量表示为
Figure FDA0003259338530000028
其中NS表示句子中的字数,
Figure FDA0003259338530000029
Figure FDA00032593385300000210
“;”表示按行进行拼接;
没有答案时的概率表示为:
Figure FDA00032593385300000211
其中a表示答案,
Figure FDA00032593385300000212
表示没有答案;当
Figure FDA00032593385300000213
的概率大于最优答案片段的得分时,则该问题没有答案。
9.根据权利要求1所述的基于自动问答的实体关系联合抽取方法,其特征在于,所述结合识别出的实体和根据数据集特点设计的关系抽取问题模板,采用无监督方式生成关系抽取问答对的方法为:
通过对数据集进行分析,对不同类型的头实体、关系设计不同的问题,形成关系抽取模板;
对实体抽取识别的每一个实体可能存在的关系根据问题模板进行提问,并将问题模板中的“xx”替换为实体抽取识别出的实体,若该实体在文本中存在该类的关系,则将尾实体作为问题的答案,反之,若不存在该类关系,则问题的答案为None,以此方法循环遍历所有样例构造关系抽取问答对。
10.根据权利要求9所述的基于自动问答的实体关系联合抽取方法,其特征在于,所述基于预训练语言模型的第二自动问答模型与基于预训练语言模型的第一自动问答模型采用同一模型,两个模型在训练过程中共享参数。
11.根据权利要求10所述的基于自动问答的实体关系联合抽取方法,其特征在于,所述将第一自动问答模型和第二自动问答模型进行联合训练的方法为:
利用目标函数:L=(1-λ)Lentity+λLrelation对两个自动问答模型进行训练,其中,Lentity和Lrelation分别表示实体抽取和关系抽取时开始和结束位置负对数概率和,λ∈[0,1]是调节实体抽取和关系抽取两个目标函数权重的参数。
CN202111068697.2A 2021-09-13 2021-09-13 一种基于自动问答的实体关系联合抽取方法 Pending CN113836281A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111068697.2A CN113836281A (zh) 2021-09-13 2021-09-13 一种基于自动问答的实体关系联合抽取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111068697.2A CN113836281A (zh) 2021-09-13 2021-09-13 一种基于自动问答的实体关系联合抽取方法

Publications (1)

Publication Number Publication Date
CN113836281A true CN113836281A (zh) 2021-12-24

Family

ID=78958971

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111068697.2A Pending CN113836281A (zh) 2021-09-13 2021-09-13 一种基于自动问答的实体关系联合抽取方法

Country Status (1)

Country Link
CN (1) CN113836281A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114036933A (zh) * 2022-01-10 2022-02-11 湖南工商大学 基于法律文书的信息抽取方法
CN114996424A (zh) * 2022-06-01 2022-09-02 吴艳 一种基于深度学习的弱监督跨域问答对生成方法
CN117708306A (zh) * 2024-02-06 2024-03-15 神州医疗科技股份有限公司 基于层进式问答结构的医学问答架构生成方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110795543A (zh) * 2019-09-03 2020-02-14 腾讯科技(深圳)有限公司 基于深度学习的非结构化数据抽取方法、装置及存储介质
CN111897944A (zh) * 2020-08-17 2020-11-06 哈尔滨工业大学 基于语义空间共享的知识图谱问答系统
CN112417877A (zh) * 2020-11-24 2021-02-26 广州平云信息科技有限公司 一种基于改进bert的文本蕴含关系识别方法
CN112487206A (zh) * 2020-12-09 2021-03-12 中国电子科技集团公司第三十研究所 一种自动构建数据集的实体关系抽取方法
CN112612885A (zh) * 2020-12-18 2021-04-06 成都三零凯天通信实业有限公司 一种基于bert类模型的阅读理解式新闻文本事件抽取方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110795543A (zh) * 2019-09-03 2020-02-14 腾讯科技(深圳)有限公司 基于深度学习的非结构化数据抽取方法、装置及存储介质
CN111897944A (zh) * 2020-08-17 2020-11-06 哈尔滨工业大学 基于语义空间共享的知识图谱问答系统
CN112417877A (zh) * 2020-11-24 2021-02-26 广州平云信息科技有限公司 一种基于改进bert的文本蕴含关系识别方法
CN112487206A (zh) * 2020-12-09 2021-03-12 中国电子科技集团公司第三十研究所 一种自动构建数据集的实体关系抽取方法
CN112612885A (zh) * 2020-12-18 2021-04-06 成都三零凯天通信实业有限公司 一种基于bert类模型的阅读理解式新闻文本事件抽取方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114036933A (zh) * 2022-01-10 2022-02-11 湖南工商大学 基于法律文书的信息抽取方法
CN114036933B (zh) * 2022-01-10 2022-04-22 湖南工商大学 基于法律文书的信息抽取方法
CN114996424A (zh) * 2022-06-01 2022-09-02 吴艳 一种基于深度学习的弱监督跨域问答对生成方法
CN114996424B (zh) * 2022-06-01 2023-05-09 吴艳 一种基于深度学习的弱监督跨域问答对生成方法
CN117708306A (zh) * 2024-02-06 2024-03-15 神州医疗科技股份有限公司 基于层进式问答结构的医学问答架构生成方法及系统
CN117708306B (zh) * 2024-02-06 2024-05-03 神州医疗科技股份有限公司 基于层进式问答结构的医学问答架构生成方法及系统

Similar Documents

Publication Publication Date Title
CN110795543B (zh) 基于深度学习的非结构化数据抽取方法、装置及存储介质
CN113836281A (zh) 一种基于自动问答的实体关系联合抽取方法
CN109871538A (zh) 一种中文电子病历命名实体识别方法
CN108984683A (zh) 结构化数据的提取方法、系统、设备及存储介质
CN105608070B (zh) 一种面向新闻标题的人物关系抽取方法
CN110941720B (zh) 一种基于知识库的特定人员信息纠错方法
CN114036281B (zh) 基于知识图谱的柑橘管控问答模块构建方法及问答系统
CN110276069A (zh) 一种中国盲文错误自动检测方法、系统及存储介质
CN110287482A (zh) 半自动化分词语料标注训练装置
CN114444507A (zh) 基于水环境知识图谱增强关系的上下文参数中文实体预测方法
CN112417873B (zh) 基于bbwc模型和mcmc的自动漫画生成方法和系统
CN112926345A (zh) 基于数据增强训练的多特征融合神经机器翻译检错方法
CN113901170A (zh) 结合Bert模型和模板匹配的事件抽取方法及系统、电子设备
CN115034218A (zh) 一种基于多阶段训练和编辑级别投票的中文语法错误诊断方法
CN115858750A (zh) 基于自然语言处理的电网技术标准智能问答方法及系统
CN112015871B (zh) 基于事件集远程监督的人物关系自动标注方法
CN115795060B (zh) 一种基于知识增强的实体对齐方法
CN112307756A (zh) 基于Bi-LSTM和字词融合的汉语分词方法
CN116304064A (zh) 一种基于抽取式的文本分类方法
CN114880994A (zh) 一种直白文本到反讽文本的文本风格转换方法及装置
CN110955768B (zh) 一种基于句法分析的问答系统答案生成方法
CN114564942A (zh) 一种用于监管领域的文本纠错方法、存储介质和装置
CN114077839A (zh) 一种少量标注场景下的知识库问答方法
CN117371534B (zh) 一种基于bert的知识图谱构建方法及系统
CN117453895B (zh) 一种智能客服应答方法、装置、设备及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination