CN112364125A - 一种联合阅读课程学习机制的文本信息抽取系统及方法 - Google Patents

一种联合阅读课程学习机制的文本信息抽取系统及方法 Download PDF

Info

Publication number
CN112364125A
CN112364125A CN202110045286.5A CN202110045286A CN112364125A CN 112364125 A CN112364125 A CN 112364125A CN 202110045286 A CN202110045286 A CN 202110045286A CN 112364125 A CN112364125 A CN 112364125A
Authority
CN
China
Prior art keywords
text
entity
relation
model
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110045286.5A
Other languages
English (en)
Other versions
CN112364125B (zh
Inventor
刘广峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Zhidu Technology Co ltd
Original Assignee
Hangzhou Zhidu Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Zhidu Technology Co ltd filed Critical Hangzhou Zhidu Technology Co ltd
Priority to CN202110045286.5A priority Critical patent/CN112364125B/zh
Publication of CN112364125A publication Critical patent/CN112364125A/zh
Application granted granted Critical
Publication of CN112364125B publication Critical patent/CN112364125B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种联合阅读课程学习机制的文本信息抽取系统,包括:预处理模块:用于对输入文本进行纠错操作,降低噪声;粗粒度抽取模块:用于对预处理模块处理的文本进行实体识别和关系抽取,获取对应的实体集合和关系集合;细粒度抽取模块:用于对实体关系集合进行校验,输出预测结果集合;后处理模块:用于对预测结果集合进行规则处理,得到输入文本对应的结构化信息。本发明能够提升捕获实体和关系语境表示信息的能力;同时由于所采取模型结构简单可以一定程度上降低pipeline方法误差传播的影响,并进一步提升推理速度。

Description

一种联合阅读课程学习机制的文本信息抽取系统及方法
技术领域
本发明属于信息处理领域,特别涉及一种联合阅读课程学习机制的文本信息抽取系统及方法。
背景技术
在国务院颁发的《新一代人工智能发展规划》中,明确指出“关联理解与知识挖掘、知识图谱构建与学习、知识演化与推理、智能描述与生成等技术”为新一代人工智能关键共性技术体系的重点突破领域。其中涉及的知识图谱构建与学习、知识演化与推理两个关键模块都是以信息抽取技术为底层支撑。信息抽取技术可分为两种类型:pipeline方法和联合方法。其中,pipeline方法分为两步:第一步是命名实体识别,第二步是关系抽取;联合方法是一种端到端的抽取,直接抽取出对应的实体和关系对。
以文本为处理对象,信息抽取技术在工业界的应用中仍存在诸多难点亟待攻破,大致表现在如下方面:
(1)传统的pipeline方法存在误差传播问题,上一轮模型抽取的结果会影响下一轮模型的性能表现。
(2)联合方法针对开放域文本不能很好地处理多对多的情况,其训练得到的模型不能很好的捕获实体和关系的语境表示信息。
(3)目前流行的信息抽取模型结构复杂且推理计算量大,进一步降低了在工业界应用的实用性。
发明内容
为了解决上述问题,本发明提出了一种联合阅读课程学习机制的文本信息抽取系统及方法,能够提升捕获实体和关系语境表示信息的能力;同时由于所采取模型结构简单可以一定程度上降低pipeline方法误差传播的影响,并进一步提升推理速度。
本发明的技术方案如下所示:
一种联合阅读课程学习机制的文本信息抽取系统,包括:
预处理模块:用于对输入文本进行纠错操作,降低噪声;
粗粒度抽取模块:用于对预处理模块处理的文本进行实体识别和关系抽取,获取对应的实体集合和关系集合;
细粒度抽取模块:用于对实体关系集合进行校验,输出预测结果集合;
后处理模块:用于对预测结果集合进行规则处理,得到输入文本对应的结构化信息。
优选的,所述纠错操作采用语法纠错工具来对输入文本进行纠错。
优选的,所述粗粒度抽取模块中实体识别的过程为:加载预先训练的Bert+CRF模型识别预处理后的文本的实体,获取实体集合;
所述粗粒度抽取模块中关系抽取的过程为:加载预先训练的基于BERT微调的多标签分类模型识别预处理的文本的对应的关系类别,得到关系集合。
优选的,所述细粒度抽取模块中输出预测结果集合的具体步骤为:
描述问的生成:针对获取的实体集合和关系集合,基于逻辑关系模板构建描述问集合;
答案检验:将构建的描述问集合与对应的预处理文本以预设格式输入到训练好的BertSim模型中,得到对应的预测结果集合。
优选的,所述后处理模块中结构化信息获取的具体过程为:针对细粒度抽取模块得到的预测结果集合preds,抽取出其中label为1的结果res,基于指定的逻辑关系模板解析res中的实体信息和关系信息得到最终的结构化信息result。
本发明提供了一种联合阅读课程学习机制的文本信息抽取方法,包括以下步骤:
S1:通过爬虫手段及收集公开数据集错的方式构建用于信息抽取的数据,并以固定格式存储成定制数据集;
S2:针对生成的定制数据集中的字段,基于预设的转换规则转换生成实体识别训练集,并通过实体识别模型进行实体训练;针对定制数据集的字段进行转换生成关系抽取模型的训练集,并基于分类模型进行训练,获取实体关系对;
S3:针对抽取出的实体关系进行检验,具体包括描述问集合的构建和答案校验模型的训练,利用模型答案校验模型获取预测结果。
优选的,所述步骤S1中的固定格式中包括的字段为:表示文本的text、表示对应的实体关系三元组字典列表的spo_list、表示列表内的每一个字典中的关系的predicate、表示主体的subject,表示客体的object、表示主体类型的subject_type,表示客体类型的object_type。
优选的,所述实体识别模型采用Bert+CRF的模型组合,所述分类模型采用基于BERT微调的多标签分类模型。
优选的,所述描述问生成过程为:针对定制数据集中每个样本对应的text和三元组信息spo_list基于逻辑关系模板构建描述问。
优选的,所述答案校验模型训练过程为:将构建的描述问集合与对应的text以固定格式<text,描述问,0/1>转换成本地训练数据,并以二分类模型进行训练。
本发明的有益效果为:本发明提供的方法及系统将人工智能领域的阅读课程学习机制应用于文本信息抽取领域,能够提升捕获实体和关系语境表示信息的能力,并进一步促进推理速度提升。
附图说明
图1为本发明提出的文本信息抽取系统的架构图。
图2为本发明提出的描述问集合生成流程图。
图3为本发明中文本信息抽取方法的流程图。
图4为本发明提出的实体识别模型训练集的格式示例图。
具体实施方式
下面将结合说明书附图对本发明的实施例进行详细说明。
如图1所示,本发明提供了一种联合阅读课程学习机制的文本信息抽取系统,包括:
预处理模块:用于对输入文本进行纠错操作,降低噪声;
粗粒度抽取模块:用于对预处理模块处理的文本进行实体识别和关系抽取,获取对应的实体集合和关系集合;
细粒度抽取模块:用于对实体关系集合进行校验,输出预测结果集合;
后处理模块:用于对预测结果集合进行规则处理,得到输入文本对应的结构化信息。
作为本发明的一种实施方式,预处理的过程为中纠错操作采用语法纠错工具来对输入文本进行纠错,具体举例如下:
在真实业务场景中的文本普遍存在错字情况,这会对模型预测结果造成不利影响,因此需要针对输入文本S借助语法纠错工具进行纠错,形成新输入文本S1。此处给出示例:S为“阿狸的董事长是马某,在1999年创建。”,经过纠错为形成S1即“某公司的董事长是马某,在1999年创建。”。
作为本发明的一种实施方式,粗粒度抽取模块中实体识别的过程为:加载预先训练的Bert+CRF模型识别预处理后的文本的实体,获取实体集合;前述例子的文本抽取出的实体集合et即{‘公司’:某公司,‘人物’:马某,‘日期’:1999年}。
粗粒度抽取模块中关系抽取的过程为:加载预先训练的基于BERT微调的多标签分类模型识别预处理的文本的对应的关系类别,得到关系集合;前述例子的文本识别对应的关系集合pt,即[‘董事长’,‘成立日期’]。
作为本发明的一种实施方式,细粒度抽取模块中输出预测结果集合的具体步骤为:
描述问的生成:针对获取的实体集合和关系集合,基于逻辑关系模板构建描述问集合;
针对前述例子的关系集合pt的各个关系梳理出关联的subject类型和object类型,然后基于逻辑关系模板<subject的predicate是object吗>针对实体集合et构建描述问,具体流程如图2所示。针对上述示例的关系集合pt,‘董事长’这个关系关联的subject类型和object类型分别是‘公司’和‘人物’,‘成立日期’这个关系关联的subject类型和object类型分别是‘公司’和‘日期’,继而基于逻辑关系模板构建描述问,得到描述问集合dt,即[‘某公司的董事长是马某吗’,‘某公司的成立日期是1999年吗’]。
答案检验:将构建的描述问集合与对应的预处理文本以预设格式输入到训练好的BertSim模型中,得到对应的预测结果集合。
针对前述例子的描述问集合dt与对应的预处理文本S1以固定格式<text,描述问>进行存储得到新的集合S2,即[<‘某公司的董事长是马某,在1999年创建。’,‘某公司的董事长是马某吗’>,<‘某公司的董事长是马某,在1999年创建。’,‘某公司的成立日期是1999年吗’>];然后将S2输入到训练好的BertSim模型中,得到对应的预测结果集合preds,即[<‘某公司的董事长是马某,在1999年创建。’,‘某公司的董事长是马某吗’,{‘label’:1,‘confidence’:0.995}>,<‘某公司的董事长是马某,在1999年创建。’,‘某公司的成立日期是1999年吗’,{‘label’:1,‘confidence’:0.9963}>]。
作为本发明的一种实施方式,后处理模块中结构化信息获取的具体过程为:针对细粒度抽取模块得到的预测结果集合preds,抽取出其中label为1的结果res,基于指定的逻辑关系模板解析res中的实体信息和关系信息得到最终的结构化信息result。
针对上述例子中的细粒度抽取模块得到的预测结果集合preds,抽取出其中label为1的结果res,即[‘某公司的董事长是马某吗’,‘某公司的成立日期是1999年吗’],然后基于指定的逻辑关系模板<subject的predicate是object吗>解析res中的实体信息(subject、object)和关系信息,得到最终的结构化信息result,即[<某公司,董事长,马某>,<某公司,成立日期,1999年>]。
如图3所示,本发明一种联合阅读课程学习机制的文本信息抽取方法,包括以下步骤:
S1:通过爬虫手段及收集公开数据集错的方式构建用于信息抽取的数据,并以固定格式存储成定制数据集;
S2:针对生成的定制数据集中的字段,基于预设的转换规则转换生成实体识别训练集,并通过实体识别模型进行实体训练;针对定制数据集的字段进行转换生成关系抽取模型的训练集,并基于分类模型进行训练,获取实体关系对;
S3:针对抽取出的实体关系进行检验,具体包括描述问集合的构建和答案校验模型的训练,利用模型答案校验模型获取预测结果。
作为本发明的一种实施方式,步骤S1中的固定格式中包括的字段为:表示文本的text、表示对应的实体关系三元组字典列表的spo_list、表示列表内的每一个字典中的关系的predicate、表示主体的subject,表示客体的object、表示主体类型的subject_type,表示客体类型的object_type。
格式具体举例为:{
"text": "《某小说》是某作家写的网络小说连载于某书网",
"spo_list": [
{"predicate": "作者", "subject_type": "图书作品", "object_type": "人物","object": "某作家", "subject": "某小说"}
]
};
其中《某小说》是某作家写的网络小说连载于某书网"这段文本对应的三元组为<某小说/subject,作者/predicate,某作家/object>,其对应的三元组逻辑关系为<图书作品/subject_type,作者/predicate,人物/object_type>,意思是"某小说"这部图书作品的作者是"某作家"这个人物。
基于数据集的支撑来训练后续的信息抽取模型。针对现今信息抽取模型存在误差传播导致效果不佳和模型本身不能很好的捕捉实体和关系的上下文表示能力这两个问题,本发明引入阅读理解课程的学习机制,模拟人类针对阅读理解课程学习过程中的粗读和精读两个步骤,进而将模型分为粗读和精度两个模块
作为本发明的一种实施方式,实体识别模型采用Bert+CRF的模型组合,所述分类模型采用基于BERT微调的多标签分类模型。
实体识别模型训练过程为:针对定制数据集中的text、subject、object、subject_type以及object_type字段基于指定转换规则转换生成实体识别训练集,并以经典实体识别模型Bert+CRF但不限于这类模型进行训练。训练集格式例子如图4所示,转换规则为:首先依据业界公认的实体识别标签体系指定BIE标签,然后针对训练集中所有的实体类型(包括subject_type和object_type)指定类型简称,随后将其中涉及到的所有实体(包括subject和object)依据类型简称和BIE标签完成训练样本转换。示例中的“PER”和“BK”分别是人物和图书作品的类型简称,“PER-B”、“PER-I”和“PER-E”分别代表“某作家”这个人物实体的开始、中间和结束字符。
作为本发明的一种实施方式,描述问生成过程为:针对定制数据集中每个样本对应的text和三元组信息spo_list基于逻辑关系模板构建描述问。
其中关系抽取模型训练过程为:针对定制数据集中的text、predicate字段进行转换生成关系抽取模型训练集,并以基于BERT微调的多标签分类模型但不限于这类模型进行训练。训练集样本示例为<《某小说》是某作家写的网络小说连载于某书网,作者>,若存在多个关系(作者和连载),则训练样本为<某小说》是某作家写的网络小说连载于某书网,作者_连载>,多个关系之间以“_”连接。
针对待抽取文本通过粗读模块训练好的实体识别模型和关系抽取模型即可得到所有可能的实体集合和关系集合,此时需要接入精读模块针对这些实体和关系集合进行答案校验,因此需要训练答案校验模型。
作为本发明的一种实施方式,答案校验模型训练过程为:将构建的描述问集合与对应的text以固定格式<text,描述问,0/1>转换成本地训练数据,并以二分类模型进行训练。
具体为:S1,描述问生成。为了充分发挥实体和关系的先验知识编码能力以及提高模型推理速度,首先针对定制数据集制定逻辑关系模板<subject的predicate是object吗>,然后针对定制数据集中每个样本对应的text和三元组信息spo_list构建描述问。针对上述示例文本“《某小说》是某作家写的网络小说连载于某书网”,对应的描述问为“某小说的作者是某作家吗”;若存在另一个三元组<某小说,连载网站,某书网>,则对应的描述问为“某小说的连载网站是某书网吗”。
S2,针对定制数据集中的三元组信息生成描述问之后,则需要训练答案校验模型来更好的区分这个描述问对应的答案是否正确并给出对应的置信度。将构建的描述问集合与对应的text以固定格式<text,描述问,0/1>转换成本地训练数据,并以经典句对二分类模型BertSim但不限于这类模型进行训练。训练样本示例为:<《某小说》是某作家写的网络小说连载于某书网,某小说的作者是某作家吗,1>、<《某小说》是某作家写的网络小说连载于某书网,某小说的连载网站是某书网吗,1>。此外,为了增强答案校验模型的泛化能力,在生成训练集时采用经典的负采样操作来生成负样本,如<《某小说》是某作家写的网络小说连载于某书网,某小说的连载网站是某作家吗,0>。
S3,答案校验模型训练完毕后,即可使用训练好的模型对输入文本和描述问进行预测,得到预测结果。例如输入文本为“《某小说》是某作家写的网络小说连载于某书网”,输入的描述问为“某小说的作者是某书网”,对应的预测结果为{‘label’:0,‘confidence’:0.132},其中label为0代表这个描述问对应的答案是错的,对应的置信度为confidence即0.132。
最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围。都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

Claims (10)

1.一种联合阅读课程学习机制的文本信息抽取系统,其特征在于,包括:
预处理模块:用于对输入文本进行纠错操作,降低噪声;
粗粒度抽取模块:用于对预处理模块处理的文本进行实体识别和关系抽取,获取对应的实体集合和关系集合;
细粒度抽取模块:用于对实体关系集合进行校验,输出预测结果集合;
后处理模块:用于对预测结果集合进行规则处理,得到输入文本对应的结构化信息。
2.根据权利要求1所述的联合阅读课程学习机制的文本信息抽取系统,其特征在于,所述纠错操作采用语法纠错工具来对输入文本进行纠错。
3.根据权利要求1所述的联合阅读课程学习机制的文本信息抽取系统,其特征在于,所述粗粒度抽取模块中实体识别的过程为:加载预先训练的Bert+CRF模型识别预处理后的文本的实体,获取实体集合;
所述粗粒度抽取模块中关系抽取的过程为:加载预先训练的基于BERT微调的多标签分类模型识别预处理的文本的对应的关系类别,得到关系集合。
4.根据权利要求1所述的联合阅读课程学习机制的文本信息抽取系统,其特征在于,所述细粒度抽取模块中输出预测结果集合的具体步骤为:
描述问的生成:针对获取的实体集合和关系集合,基于逻辑关系模板构建描述问集合;
答案检验:将构建的描述问集合与对应的预处理文本以预设格式输入到训练好的BertSim模型中,得到对应的预测结果集合。
5.根据权利要求1所述的联合阅读课程学习机制的文本信息抽取系统,其特征在于,所述后处理模块中结构化信息获取的具体过程为:针对细粒度抽取模块得到的预测结果集合preds,抽取出其中label为1的结果res,基于指定的逻辑关系模板解析res中的实体信息和关系信息得到最终的结构化信息result。
6.一种联合阅读课程学习机制的文本信息抽取方法,其特征在于,包括以下步骤:
S1:通过爬虫手段及收集公开数据集的方式构建用于信息抽取的数据,并以固定格式存储成定制数据集;
S2:针对生成的定制数据集中的字段,基于预设的转换规则转换生成实体识别训练集,并通过实体识别模型进行实体训练;针对定制数据集的字段进行转换生成关系抽取模型的训练集,并基于分类模型进行训练,获取实体关系对;
S3:针对抽取出的实体关系进行检验,具体包括描述问集合的构建和答案校验模型的训练,利用答案校验模型获取预测结果。
7.根据权利要求6所述的联合阅读课程学习机制的文本信息抽取方法,其特征在于,所述步骤S1中的固定格式中包括的字段为:表示文本的text、表示对应的实体关系三元组字典列表的spo_list、表示列表内的每一个字典中的关系的predicate、表示主体的subject,表示客体的object、表示主体类型的subject_type,表示客体类型的object_type。
8.根据权利要求6所述的联合阅读课程学习机制的文本信息抽取方法,其特征在于,所述实体识别模型采用Bert+CRF的模型组合,所述分类模型采用基于BERT微调的多标签分类模型。
9.根据权利要求7所述的联合阅读课程学习机制的文本信息抽取方法,其特征在于,所述描述问生成过程为:针对定制数据集中每个样本对应的text和三元组信息spo_list基于逻辑关系模板构建描述问。
10.根据权利要求7所述的联合阅读课程学习机制的文本信息抽取方法,其特征在于,所述答案校验模型训练过程为:将构建的描述问集合与对应的text以固定格式<text,描述问,0/1>转换成本地训练数据,并以二分类模型进行训练。
CN202110045286.5A 2021-01-14 2021-01-14 一种联合阅读课程学习机制的文本信息抽取系统及方法 Active CN112364125B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110045286.5A CN112364125B (zh) 2021-01-14 2021-01-14 一种联合阅读课程学习机制的文本信息抽取系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110045286.5A CN112364125B (zh) 2021-01-14 2021-01-14 一种联合阅读课程学习机制的文本信息抽取系统及方法

Publications (2)

Publication Number Publication Date
CN112364125A true CN112364125A (zh) 2021-02-12
CN112364125B CN112364125B (zh) 2021-06-25

Family

ID=74534931

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110045286.5A Active CN112364125B (zh) 2021-01-14 2021-01-14 一种联合阅读课程学习机制的文本信息抽取系统及方法

Country Status (1)

Country Link
CN (1) CN112364125B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112966527A (zh) * 2021-04-21 2021-06-15 吉林大学 一种基于自然语言推理的关系抽取模型
CN113051896A (zh) * 2021-04-23 2021-06-29 百度在线网络技术(北京)有限公司 对文本进行纠错的方法、装置、电子设备和存储介质
CN114595691A (zh) * 2022-03-04 2022-06-07 中南大学 一种基于课程学习的文本实体识别方法
CN115168619A (zh) * 2022-09-06 2022-10-11 科大讯飞(苏州)科技有限公司 实体关系抽取方法及相关装置、电子设备、存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140289176A1 (en) * 2000-09-28 2014-09-25 Yimin Zhang Method and Apparatus for Extracting Entity Names and Their Relations
CN109446328A (zh) * 2018-11-02 2019-03-08 成都四方伟业软件股份有限公司 一种文本识别方法、装置及其存储介质
CN109582800A (zh) * 2018-11-13 2019-04-05 北京合享智慧科技有限公司 一种训练结构化模型、文本结构化的方法及相关装置
CN110569366A (zh) * 2019-09-09 2019-12-13 腾讯科技(深圳)有限公司 文本的实体关系抽取方法、装置及存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140289176A1 (en) * 2000-09-28 2014-09-25 Yimin Zhang Method and Apparatus for Extracting Entity Names and Their Relations
CN109446328A (zh) * 2018-11-02 2019-03-08 成都四方伟业软件股份有限公司 一种文本识别方法、装置及其存储介质
CN109582800A (zh) * 2018-11-13 2019-04-05 北京合享智慧科技有限公司 一种训练结构化模型、文本结构化的方法及相关装置
CN110569366A (zh) * 2019-09-09 2019-12-13 腾讯科技(深圳)有限公司 文本的实体关系抽取方法、装置及存储介质

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112966527A (zh) * 2021-04-21 2021-06-15 吉林大学 一种基于自然语言推理的关系抽取模型
CN113051896A (zh) * 2021-04-23 2021-06-29 百度在线网络技术(北京)有限公司 对文本进行纠错的方法、装置、电子设备和存储介质
CN113051896B (zh) * 2021-04-23 2023-08-18 百度在线网络技术(北京)有限公司 对文本进行纠错的方法、装置、电子设备和存储介质
CN114595691A (zh) * 2022-03-04 2022-06-07 中南大学 一种基于课程学习的文本实体识别方法
CN115168619A (zh) * 2022-09-06 2022-10-11 科大讯飞(苏州)科技有限公司 实体关系抽取方法及相关装置、电子设备、存储介质

Also Published As

Publication number Publication date
CN112364125B (zh) 2021-06-25

Similar Documents

Publication Publication Date Title
CN112364125B (zh) 一种联合阅读课程学习机制的文本信息抽取系统及方法
CN112487143B (zh) 一种基于舆情大数据分析的多标签文本分类方法
CN109885824B (zh) 一种层次的中文命名实体识别方法、装置及可读存储介质
CN111209401A (zh) 网络舆情文本信息情感极性分类处理系统及方法
CN108287858A (zh) 自然语言的语义提取方法及装置
CN112307773B (zh) 机器阅读理解系统的自定义问题数据自动生成方法
CN113869055B (zh) 基于深度学习的电网项目特征属性识别方法
CN113742733B (zh) 阅读理解漏洞事件触发词抽取和漏洞类型识别方法及装置
US20230289528A1 (en) Method for constructing sentiment classification model based on metaphor identification
CN114818717A (zh) 融合词汇和句法信息的中文命名实体识别方法及系统
CN112699685A (zh) 基于标签引导的字词融合的命名实体识别方法
CN115858750A (zh) 基于自然语言处理的电网技术标准智能问答方法及系统
CN111428104A (zh) 基于观点型阅读理解的癫痫病辅助医疗智能问答方法
CN117236335A (zh) 基于提示学习的两阶段命名实体识别方法
CN111026908B (zh) 歌曲标签确定方法、装置、计算机设备以及存储介质
CN114780723B (zh) 基于向导网络文本分类的画像生成方法、系统和介质
CN114492460B (zh) 基于衍生提示学习的事件因果关系抽取方法
CN113869054B (zh) 一种基于深度学习的电力领域项目特征识别方法
CN116383414A (zh) 一种基于碳核查知识图谱的智能文件评审系统及方法
CN112989803B (zh) 一种基于主题向量学习的实体链接预测方法
CN114330349A (zh) 一种特定领域命名实体识别方法
CN114330350A (zh) 一种命名实体识别方法、装置、电子设备及存储介质
CN114330483A (zh) 数据处理方法及模型训练方法、装置、设备、存储介质
CN113705207A (zh) 语法错误识别方法及装置
CN118278543A (zh) 答案评价模型训练方法、评价方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CB03 Change of inventor or designer information

Inventor after: Liu Guangfeng

Inventor after: Xia Fei

Inventor before: Liu Guangfeng

CB03 Change of inventor or designer information
CP03 Change of name, title or address

Address after: Room 608, Building 4, Zhongfu Future Xingchen Jinzuo, Wuchang Street, Yuhang District, Hangzhou City, Zhejiang Province 311121

Patentee after: Hangzhou zhidu Technology Co.,Ltd.

Country or region after: China

Address before: 310000 rooms 501-506, building 11, Chuangzhi Tiandi center, Wuchang Street, Yuhang District, Hangzhou City, Zhejiang Province

Patentee before: Hangzhou zhidu Technology Co.,Ltd.

Country or region before: China

CP03 Change of name, title or address