CN112819622A - 一种信息的实体关系联合抽取方法、装置及终端设备 - Google Patents

一种信息的实体关系联合抽取方法、装置及终端设备 Download PDF

Info

Publication number
CN112819622A
CN112819622A CN202110104073.5A CN202110104073A CN112819622A CN 112819622 A CN112819622 A CN 112819622A CN 202110104073 A CN202110104073 A CN 202110104073A CN 112819622 A CN112819622 A CN 112819622A
Authority
CN
China
Prior art keywords
entity
text
relationship
loss value
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110104073.5A
Other languages
English (en)
Other versions
CN112819622B (zh
Inventor
赵洋
朱继刚
陈龙
包荣鑫
张皓禹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Valueonline Technology Co ltd
Original Assignee
Shenzhen Valueonline Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Valueonline Technology Co ltd filed Critical Shenzhen Valueonline Technology Co ltd
Priority to CN202110104073.5A priority Critical patent/CN112819622B/zh
Publication of CN112819622A publication Critical patent/CN112819622A/zh
Application granted granted Critical
Publication of CN112819622B publication Critical patent/CN112819622B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/04Trading; Exchange, e.g. stocks, commodities, derivatives or currency exchange
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/186Templates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Finance (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Accounting & Taxation (AREA)
  • Health & Medical Sciences (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Technology Law (AREA)
  • General Business, Economics & Management (AREA)
  • Machine Translation (AREA)

Abstract

本申请适用于数据处理技术领域,提供了一种信息的实体关系联合抽取方法、装置及终端设备,包括:获取待处理文本,所述待处理文本中包括第一文本段落和第一表格;将所述待处理文本中的所述第一文本段落和所述第一表格进行格式统一处理,获得预处理文本;将所述预处理文本输入到训练后到实体关系联合抽取模型中,输出目标信息。通过上述方法,可以从待处理文本中提取出准确的、完整的目标信息。

Description

一种信息的实体关系联合抽取方法、装置及终端设备
技术领域
本申请属于数据处理技术领域,尤其涉及一种信息的实体关系联合抽取方法、装置及终端设备。
背景技术
上市公司披露的《权益变动报告书》会描述特定股东的减持情况,报告中提及到的信息披露义务人、变动前持股数及持股比例、变动后持股数及持股比例是权益变动的重要信息。因此,如何快速准确抽取出相关信息,是迫切需要解决的问题。
现有的信息提取方法只能提取出独立的实体信息,无法获取实体信息之间的关联关系。由于权益变动信息位于报告书中的不同位置,且以多种形式存在,通过现有的信息提取方法无法提取出准确的、完整的权益变动信息。例如:通过现有的信息提取方法能够分别提取出多个信息披露义务人、变动前持股数和变动后持股数,但是无法将变动前持股数、变动后持股数和信息披露义务人一一对应。
发明内容
本申请实施例提供了一种信息的实体关系联合抽取方法、装置及终端设备,可以提取出准确的、完整的权益变动信息。
第一方面,本申请实施例提供了一种信息的实体关系联合抽取方法,包括:
获取待处理文本,所述待处理文本中包括第一文本段落和第一表格;
将所述待处理文本中的所述第一文本段落和所述第一表格进行格式统一处理,获得预处理文本;
将所述预处理文本输入到训练后到实体关系联合抽取模型中,输出目标信息。
在本申请实施例中,通过将待处理文本中的第一文本段落和第一表格进行格式统一处理,保证了获得的预处理文本中文本形式的一致性,为后续的信息提取提供了可靠的数据基础;然后通过训练后的实体关系联合抽取模型提取预处理文本中的目标信息。由于上述方法是对实体与关系进行联合抽取,因此,在提取出目标实体的同时,还能够提取出实体之间的关系信息,保证了提取出的信息是完整的、准确的。另外,实体关系联合抽取模型是预先训练好的,因此,利用训练后的实体关系联合抽取模型能够有效提高信息提取的效率。
在第一方面的一种可能的实现方式中,所述将所述待处理文本中的所述第一文本段落和所述第一表格进行格式统一处理,获得预处理文本,包括:
按照预设模版将所述待处理文本中的所述第一表格生成第二文本段落;
按照文本顺序将所述第一文本段落和所述第二文本段落拼接为所述预处理文本。
在第一方面的一种可能的实现方式中,所述实体关系联合抽取模型包括实体识别网络和关系识别网络;
所述方法包括:
获取训练文本,所述训练文本中携带有字符的实体类型标记和每两个实体之间的关系类型标记;
将所述训练文本输入到所述实体识别网络中,输出实体预测结果;
根据所述实体预测结果,生成所述训练文本中每两个实体之间的候选关系数据;
将所述候选关系数据输入到所述关系识别网络中,输出关系预测结果;
根据所述实体类型标记、所述关系类型标记、所述实体预测结果和所述关系预测结果计算所述实体关系联合抽取模型的第一损失值;
根据所述第一损失值更新所述实体关系联合抽取模型的模型参数。
在第一方面的一种可能的实现方式中,所述实体预测结果包括所述训练文本中字符的预测实体类型和字符隐层向量;
所述根据所述实体预测结果,生成所述训练文本中每两个实体之间的候选关系数据,包括:
根据所述字符的预测实体类型,将所述训练文本中的字符划分为多个关系组;
对于每个所述关系组,根据所述关系组中每个字符的所述字符隐层向量生成所述关系组的所述候选关系数据;
其中,每个关系组中包括预设窗口内的字符,所述预设窗口内包含所述训练文本中的第一实体和第二实体,所述第一实体在所述第二实体之前,所述预设窗口的起始点为第一实体之前的第n个字符,所述预设窗口的截止点为第二实体之后的第m个字符,所述n和所述m为非负整数。
在第一方面的一种可能的实现方式中,所述关系预测结果包括所述训练文本中每两个实体之间的预测关系类型;
所述根据所述实体类型标记、所述关系类型标记、所述实体预测结果和所述关系预测结果计算所述实体关系联合抽取模型的第一损失值,包括:
根据所述训练文本中字符的所述实体类型标记和所述预测实体类型计算所述实体识别网络的第二损失值;
根据所述训练文本中每两个实体之间的关系类型标记和所述预测关系类型计算所述关系识别网络的第三损失值;
将所述第二损失值和所述第三损失值加权求和,得到所述第一损失值。
在第一方面的一种可能的实现方式中,所述根据所述训练文本中字符的所述实体类型标记和所述预测实体类型计算所述实体识别网络的第二损失值,包括:
通过公式
Figure BDA0002916646670000031
计算所述第二损失值;
其中,Lrec为所述第二损失值,|s|为所述训练文本中字符的个数,
Figure BDA0002916646670000032
为第i个字符的所述实体类型标记,
Figure BDA0002916646670000041
为第i个字符的所述预测实体类型,
Figure BDA0002916646670000042
Wrec为所述实体识别网络的网络参数,hi为第i个字符的隐层向量。
在第一方面的一种可能的实现方式中,所述根据所述训练文本中每两个实体之间的关系类型标记和所述预测关系类型计算所述关系识别网络的第三损失值,包括:
通过公式
Figure BDA0002916646670000043
计算所述第三损失值;
其中,Lrel为所述第三损失值,num为所述关系组的组数,
Figure BDA0002916646670000044
Figure BDA0002916646670000045
Wrel为所述关系识别网络的网络参数,
Figure BDA0002916646670000046
为第v个实体与第j个实体之间关系的隐层向量。
第二方面,本申请实施例提供了一种信息的实体关系联合抽取装置,包括:
文本获取单元,用于获取待处理文本,所述待处理文本中包括第一文本段落和第一表格;
预处理单元,用于将所述待处理文本中的所述第一文本段落和所述第一表格进行格式统一处理,获得预处理文本;
信息抽取单元,用于将所述预处理文本输入到训练后到实体关系联合抽取模型中,输出目标信息。
第三方面,本申请实施例提供了一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如上述第一方面中任一项所述的信息的实体关系联合抽取方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如上述第一方面中任一项所述的信息的实体关系联合抽取方法。
第五方面,本申请实施例提供了一种计算机程序产品,当计算机程序产品在终端设备上运行时,使得终端设备执行上述第一方面中任一项所述的信息的实体关系联合抽取方法。
可以理解的是,上述第二方面至第五方面的有益效果可以参见上述第一方面中的相关描述,在此不再赘述。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的实体关系联合抽取模型的结构示意图;
图2是本申请实施例提供的实体关系联合抽取模型的训练方法的流程示意图;
图3是本申请实施例提供的模型训练过程的示意图;
图4是本申请实施例提供的信息的实体关系联合提取方法的流程示意图;
图5是本申请实施例提供的信息的实体关系联合抽取装置的结构框图;
图6是本申请实施例提供的终端设备的结构示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本申请实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本申请的描述。
应当理解,当在本申请说明书和所附权利要求书中使用时,术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
另外,在本申请说明书和所附权利要求书的描述中,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
在本申请说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此,在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例,而是意味着“一个或多个但不是所有的实施例”,除非是以其他方式另外特别强调。
上市公司披露的《权益变动报告书》会描述特定股东的减持情况,其中报告中提及到的信息披露义务人、变动前持股数及持股比例、变动后持股数及持股比例是权益变动的关键信息。因此,如何快速准确抽取出相关信息,是迫切需要解决的问题。但是提取信息的难点主要有两个方面,其一,关键信息位于公告的不同位置,且以多种形式存在。例如:信息披露义务人的名称通常位于《权益变动报告书》的首页或信息披露义务人介绍表格中,而变动前后持股数及持股比例通常位于《权益变动报告书》的“权益变动方式”章节。可见,关键信息在《权益变动报告书》中的位置不同,且有些关键信息存在于文字段落中,有些关键信息存在于表格中,即关键信息的形式不统一。其二,《权益变动报告书》中可能包含多个信息披露义务人,而关键信息在公告中的位置又不同,因此很难将提取出的关键信息一一对应。综上,现有的信息提取方法只能提取出独立的实体信息,无法获取实体信息之间的关联关系,进而无法提取出准确的、完整的权益变动信息。
基于上述问题,本申请实施例提供了一种信息的实体关系联合抽取方法。在本申请提供的方法中,首先通过将待处理文本中的文本段落和表格进行格式统一处理,保证了文本形式的一致性,为后续的信息提取提供了可靠的数据基础;然后通过训练后的实体关系联合抽取模型提取格式统一后的文本中的目标信息。由于上述方法是对实体与关系进行联合抽取,因此,在提取出目标实体的同时,还能够提取出实体之间的关系信息,保证了提取出的信息是完整的、准确的。另外,实体关系联合抽取模型是预先训练好的,因此,利用训练后的实体关系联合抽取模型能够有效提高信息提取的效率。下面详细介绍本申请实施例提供的方法。
由于本申请实施例提供的方法中涉及到实体关系联合抽取模型,而该模型需要预先训练。因此,本申请实施例中将分别介绍模型训练方法和信息提取方法。
首先介绍模型训练方法。
参见图1,是本申请实施例提供的实体关系联合抽取模型的结构示意图。如图1所示,本申请实施例提供的实体关系联合抽取模型包括实体识别网络101和关系识别网络102。
基于上述模型结构,参见图2,是本申请实施例提供的实体关系联合抽取模型的训练方法的流程示意图,作为示例而非限定,所述方法可以包括以下步骤:
S201,获取训练文本,训练文本中携带有字符的实体类型标记和每两个实体之间的关系类型标记。
本申请实施例中的训练文本是指经过标注后的、且文本格式统一的文本。
在实际应用中,一个文本中通常包括不同格式的文本内容,如文本段落和表格等。在将该文本作为训练样本之前,首先需要对该文本进行格式统一处理。
在一个实施例中,获取训练文本的过程包括:
获取样本文本,样本文本中包括第三文本段落和第二表格;按照预设模版将样本文本中的第二表格生成第四文本段落;按照文本顺序将第三文本段落和第四文本段落拼接为训练文本。
其中,预设模版可以为:{表头}:{表内容}。即将表格中的表头内容和表内容提取出来,并拼接为文本。
以《权益变动报告书》为例,首先识别出《权益变动报告书》中的“权益变动报告”章节(该章节通常为文本段落)和“附表”(此为表格)。将“附表”基于模版进行段落化处理。如下表所示:
表一
Figure BDA0002916646670000081
将上表按照预设模版段落化处理后的第四文本段落为:
“上市公司名称:AAA公司,上市公司所在地:北京,股票简称:AAA,股票代码:000000;信息披露义务人:BBB公司,信息披露义务人注册地:上海。”
然后,删除《权益变动报告书》中上述表一,并将上述生成的第四文本段落拼接到《权益变动报告书》中上述表一的位置,获得训练文本。
在一个应用场景中,如果《权益变动报告书》中信息披露人有且仅有一个,则将训练文本中的“信息披露义务人”字样替换为抽取的信息披露义务人名称。
通过上述步骤,可以将样本文本的文本格式进行统一,便于后续处理。
在格式统一之后,还需要对训练文本进行实体类型和关系类型的标记。
仍以《权益变动报告书》为例。通常,《权益变动报告书》中的关键信息有信息披露义务人、变动前持股数、变动后持股数、变动前持股比例和变动后持股比例这几项信息。在上述信息中,信息披露义务人、持股数、持股比例可以看作是实体类型,而变动前、变动后可以看作是关系类型。这样,通过实体类型和关系类型即可确定出关键信息。
标记可以是数字、字母或符号,在此不做具体限定。
可选的,文本中存在几种实体,即定义几种标记。例如:文本“AAA公司在变动前,持股数为num,占比C%”。其中,“AAA公司”属于实体(即公司名称),可以标记为NA;“num”属于实体(即持股数),可以标记为NU;“C%”属于实体(即持股比例),可以标记为PE。另外,根据上述文本中“变动前”可以将“AAA公司”和持股数“num”两个实体之间的关系标记为“bf”,将“AAA公司”和持股比例“C%”之间的关系标记为“bf”,“bf”表示关系类型为变动前。
从上述示例中可以看出,每个实体中可能包括多个字符(如“AAA公司”中包括5个字符),如果对该类型实体仅标注一个标记,无法区分该类型实体的起始节点和长度。
为了解决上述问题,可选的,对训练文本中的每个字符进行标记。例如:上述示例中,将“A”、“A”、“A”、“公”、“司”均标记为NA。
但是这种标记只能便于识别出实体的长度,仍无法区分实体的起始位置。可选的,对实体开始字符和内部字符区分标记。以“AAA公司”为例,将该实体中第一个“A”标记为B-NA,表示实体开始,将第二个A、第三个A、“公”和“司”均标记为I-NA,表示实体内部。
示例性的,实体标记如下表所示:
表二
标记 含义
B-MAJ 信息披露义务人开始
I-MAJ 信息披露义务人内部
B-NU 持股数开始
I-NU 持股数内部
B-PE 持股比例开始
I-PE 持股比例内部
O 非实体
如上表所示的标记,能够区分每个实体的起始字符和内部字符,为后续模型的训练提供了可靠的数据依据。
S202,将训练文本输入到实体识别网络中,输出实体预测结果。
可选的,实体识别网络可以选用基于双向长短时记忆递归网络(Bi-LSTM,Bi-directional Long Short-Term Memory)。
LSTM网络主要解决长序列训练过程中的梯度消失和梯度爆炸问题。简单来说,就是相比普通的神经网络,LSTM能够在更长的序列中有更好的表现。Bi-LSTM是由前向LSTM与后向LSTM组合而成。两者在自然语言处理任务中均常被用来建模上下文信息。
可以将训练文本整体输入到实体识别网络中,但是这样训练出的实体识别网络,是基于整个训练文本的上下文,而无法体现训练文本中各个句子之间的上下文关系。导致训练后的实体识别网络只能识别某种类型文本中的实体信息,一旦文本格式、内容发生较大变化,实体识别网络的识别准确度将会大大降低。
为了解决上述问题,可选的,先将训练文本划分为多个句子,然后分别将每个句子输入到实体识别网络中进行训练。这样,相当于每个句子都可以看作是一个训练样本,丰富了训练样本的数量,同时提高了实体识别网络的训练精度、拓宽了网络的适用范围。
S203,根据实体预测结果,生成训练文本中每两个实体之间的候选关系数据。
实体预测结果包括训练文本中字符的预测实体类型和字符隐层向量。其中,字符隐层向量可以看作是字符的词向量,用于包含字符的特征信息。
在一个实施例中,S203的一种实现方式包括:
根据字符的预测实体类型,将训练文本中的字符划分为多个关系组;对于每个关系组,根据关系组中每个字符的字符隐层向量生成关系组的候选关系数据。
其中,每个关系组中包括预设窗口内的字符,预设窗口内包含训练文本中的第一实体和第二实体,第一实体在第二实体之前,预设窗口的起始点为第一实体之前的第n个字符,预设窗口的截止点为第二实体之后的第m个字符,n和m为非负整数。
当n和m为0时,预设窗口中包括的字符为第一实体到第二实体之间的字符。例如:文本“变动前AAA公司持股数为num,占比C”中,第一实体为“AAA公司”,第二实体为“num”,第一实体与第二实体对应的预设窗口内包含的字符有“AAA公司持股数为num”。当n和m为正整数时,预设窗口中不仅包含第一实体到第二实体之间的字符,还包含第一实体之前的n个字符和第二实体之后的m个字符。例如:n=3,m=3,那么上述文本中预设窗口内包含的字符有“变动前AAA公司持股数为num占比C”。
n和m的取值越大,预设窗口内包含的字符越多,包含的连个实体之间的关系信息越多,但是数据处理量也越大。
在训练文本中,每两个实体均可以确定出一个关系组。例如:假设训练文本中有3个实体a、b、c,相应的可以确定出3个关系组,即a和b对应的关系组、a和c对应的关系组、b和c对应的关系组。
S204,将候选关系数据输入到关系识别网络中,输出关系预测结果。
其中,关系预测结果包括训练文本中每两个实体之间的预测关系类型。
可选的,关系识别网络可以采用卷积神经网络。
在一个实施例中,可以根据关系预测结果计算出一个损失值,然后利用该损失值更新实体关系联合抽取模型的模型参数。
但由于实体关系联合抽取模型中包含两个网络,且其各自功能不同。实体识别网络主要用于识别实体类型,而关系识别网络主要用于识别两个实体之间的关系类型。如果仅根据关系识别网络输出的结果更新实体关系联合抽取模型中两个网络的参数,则是忽略了实体识别网络结果的影响。
为了解决上述问题,可以综合考虑两个网络的输出结果,因此,在本申请实施例中,采用以下步骤计算模型的损失值。
S205,根据实体类型标记、关系类型标记、实体预测结果和关系预测结果计算实体关系联合抽取模型的第一损失值。
在一个实施例中,S205的一种实现方式包括:
I、根据训练文本中字符的实体类型标记和预测实体类型计算实体识别网络的第二损失值。
可选的,通过公式
Figure BDA0002916646670000121
计算第二损失值。
其中,Lrec为第二损失值,|s|为训练文本中字符的个数,
Figure BDA0002916646670000122
为第i个字符的实体类型标记,
Figure BDA0002916646670000123
为第i个字符的预测实体类型,
Figure BDA0002916646670000124
Figure BDA0002916646670000125
Wrec为实体识别网络的网络参数,hi为第i个字符的隐层向量。
II、根据训练文本中每两个实体之间的关系类型标记和预测关系类型计算关系识别网络的第三损失值。
可选的,可以通过公式
Figure BDA0002916646670000126
计算第三损失值。
其中,Lrel为第三损失值,num为关系组的组数,
Figure BDA0002916646670000127
Figure BDA0002916646670000128
Wrel为关系识别网络的网络参数,
Figure BDA0002916646670000129
为第v个实体与第j个实体之间关系的隐层向量。
III、将第二损失值和第三损失值加权求和,得到第一损失值。
可选的,可以通过公式Ljoint=αLrec+(1-α)Lrel计算第一损失值。其中,α为预设权值。
S206,根据第一损失值更新实体关系联合抽取模型的模型参数。
可选的,可以基于梯度下降法根据第一损失值更新模型参数。
梯度下降法可用以下公式表示:
Figure BDA00029166466700001210
其中,θ是模型参数,WBi-LSTM为实体识别网络的模型参数,WCNN为关系识别网络的模型参数,lr为学习率,t为学习次数。
示例性的,介绍图2实施例的一个应用场景。参见图3,是本申请实施例提供的模型训练过程的示意图。如图3所示,将训练文本划分为多个句子、生成每个句子的句向量;然后将每个句向量输入到实体识别网络Bi-LSTM中,输出实体预测结果;之后根据实体预测结果将每两个实体(如图3中的e1和e2、e1和ei、e1和ej、ei和ej)对应的候选关系数据(如图3中的r12、r1i、r1j和rij)输入到关系识别网络CNN中,输出关系预测结果;最后根据实体预测结果计算损失值Lrec、根据关系预测结果计算损失值Lrel,将两个损失值加权求和计算出损失值Ljoint;利用损失值Ljoint更新实体关系联合抽取模型的模型参数。
基于上述图2实施例中的模型训练方法,能够获得满足一定精度要求的实体关系联合抽取模型,利用该模型进行信息提取,能够提取出准确的、完整的目标信息。下面介绍本申请实施例提供的信息提取方法。
参见图4,是本申请实施例提供的信息的实体关系联合提取方法的流程示意图。如图4所示,作为示例而非限定,信息提取方法可以包括以下步骤:
S401,获取待处理文本,待处理文本中包括第一文本段落和第一表格。
S402,将待处理文本中的第一文本段落和第一表格进行格式统一处理,获得预处理文本。
对待处理文本进行格式统一处理的过程与图2实施例S201中获取训练文本的过程相似,具体可参见S201中的描述,在此不再赘述。
S403,将预处理文本输入到训练后到实体关系联合抽取模型中,输出目标信息。
本申请实施例中的目标信息是指需要从待处理文本中提取的信息。
通过上述方法,能够提取出目标信息、并确定目标信息之间的关系。之后可以根据目标信息之间的关系对提取出的目标信息进行后处理,以使目标信息以预设形式显示给用户。对于后处理的过程本案不做要求。
在本申请实施例中,通过将待处理文本中的第一文本段落和第一表格进行格式统一处理,保证了获得的预处理文本中文本形式的一致性,为后续的信息提取提供了可靠的数据基础;然后通过训练后的实体关系联合抽取模型提取预处理文本中的目标信息。由于上述方法是对实体与关系进行联合抽取,因此,在提取出目标实体的同时,还能够提取出实体之间的关系信息,保证了提取出的信息是完整的、准确的。另外,实体关系联合抽取模型是预先训练好的,因此,利用训练后的实体关系联合抽取模型能够有效提高信息提取的效率。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
对应于上文实施例所述的信息的实体关系联合抽取方法,图5是本申请实施例提供的信息的实体关系联合抽取装置的结构框图,为了便于说明,仅示出了与本申请实施例相关的部分。
参照图5,该装置包括:
文本获取单元51,用于获取待处理文本,所述待处理文本中包括第一文本段落和第一表格。
预处理单元52,用于将所述待处理文本中的所述第一文本段落和所述第一表格进行格式统一处理,获得预处理文本。
信息抽取单元53,用于将所述预处理文本输入到训练后到实体关系联合抽取模型中,输出目标信息。
可选的,预处理单元52还用于:
按照预设模版将所述待处理文本中的所述第一表格生成第二文本段落;按照文本顺序将所述第一文本段落和所述第二文本段落拼接为所述预处理文本。
可选的,所述实体关系联合抽取模型包括实体识别网络和关系识别网络。
可选的,装置5还包括:
模型训练单元54,用于获取训练文本,所述训练文本中携带有字符的实体类型标记和每两个实体之间的关系类型标记。将所述训练文本输入到所述实体识别网络中,输出实体预测结果;根据所述实体预测结果,生成所述训练文本中每两个实体之间的候选关系数据;将所述候选关系数据输入到所述关系识别网络中,输出关系预测结果;根据所述实体类型标记、所述关系类型标记、所述实体预测结果和所述关系预测结果计算所述实体关系联合抽取模型的第一损失值;根据所述第一损失值更新所述实体关系联合抽取模型的模型参数。
可选的,所述实体预测结果包括所述训练文本中字符的预测实体类型和字符隐层向量。模型训练单元54还用于:
根据所述字符的预测实体类型,将所述训练文本中的字符划分为多个关系组;对于每个所述关系组,根据所述关系组中每个字符的所述字符隐层向量生成所述关系组的所述候选关系数据;其中,每个关系组中包括预设窗口内的字符,所述预设窗口内包含所述训练文本中的第一实体和第二实体,所述第一实体在所述第二实体之前,所述预设窗口的起始点为第一实体之前的第n个字符,所述预设窗口的截止点为第二实体之后的第m个字符,所述n和所述m为非负整数。
可选的,所述关系预测结果包括所述训练文本中每两个实体之间的预测关系类型。模型训练单元54还用于:
根据所述训练文本中字符的所述实体类型标记和所述预测实体类型计算所述实体识别网络的第二损失值;根据所述训练文本中每两个实体之间的关系类型标记和所述预测关系类型计算所述关系识别网络的第三损失值;将所述第二损失值和所述第三损失值加权求和,得到所述第一损失值。
可选的,模型训练单元54还用于:
通过公式
Figure BDA0002916646670000151
计算所述第二损失值;通过公式
Figure BDA0002916646670000152
计算所述第三损失值。
其中,Lrec为所述第二损失值,|s|为所述训练文本中字符的个数,
Figure BDA0002916646670000153
为第i个字符的所述实体类型标记,
Figure BDA0002916646670000154
为第i个字符的所述预测实体类型,
Figure BDA0002916646670000155
Wrec为所述实体识别网络的网络参数,hi为第i个字符的隐层向量;Lrel为所述第三损失值,num为所述关系组的组数,
Figure BDA0002916646670000156
Wrel为所述关系识别网络的网络参数,
Figure BDA0002916646670000157
为第v个实体与第j个实体之间关系的隐层向量。
需要说明的是,上述装置/单元之间的信息交互、执行过程等内容,由于与本申请方法实施例基于同一构思,其具体功能及带来的技术效果,具体可参见方法实施例部分,此处不再赘述。
另外,图5所示的装置可以是内置于现有的终端设备内的软件单元、硬件单元、或软硬结合的单元,也可以作为独立的挂件集成到所述终端设备中,还可以作为独立的终端设备存在。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
图6是本申请实施例提供的终端设备的结构示意图。如图6所示,该实施例的终端设备6包括:至少一个处理器60(图6中仅示出一个)处理器、存储器61以及存储在所述存储器61中并可在所述至少一个处理器60上运行的计算机程序62,所述处理器60执行所述计算机程序62时实现上述任意各个方法实施例中的步骤。
所述终端设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。该终端设备可包括,但不仅限于,处理器、存储器。本领域技术人员可以理解,图6仅仅是终端设备6的举例,并不构成对终端设备6的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如还可以包括输入输出设备、网络接入设备等。
所称处理器60可以是中央处理单元(Central Processing Unit,CPU),该处理器60还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器61在一些实施例中可以是所述终端设备6的内部存储单元,例如终端设备6的硬盘或内存。所述存储器61在另一些实施例中也可以是所述终端设备6的外部存储设备,例如所述终端设备6上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器61还可以既包括所述终端设备6的内部存储单元也包括外部存储设备。所述存储器61用于存储操作系统、应用程序、引导装载程序(BootLoader)、数据以及其他程序等,例如所述计算机程序的程序代码等。所述存储器61还可以用于暂时地存储已经输出或者将要输出的数据。
本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现可实现上述各个方法实施例中的步骤。
本申请实施例提供了一种计算机程序产品,当计算机程序产品在终端设备上运行时,使得终端设备执行时实现可实现上述各个方法实施例中的步骤。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实现上述实施例方法中的全部或部分流程,可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质至少可以包括:能够将计算机程序代码携带到装置/终端设备的任何实体或装置、记录介质、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random AccessMemory)、电载波信号、电信信号以及软件分发介质。例如U盘、移动硬盘、磁碟或者光盘等。在某些司法管辖区,根据立法和专利实践,计算机可读介质不可以是电载波信号和电信信号。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
在本申请所提供的实施例中,应该理解到,所揭露的装置/终端设备和方法,可以通过其它的方式实现。例如,以上所描述的装置/终端设备实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
以上所述实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。

Claims (10)

1.一种信息的实体关系联合抽取方法,其特征在于,所述方法包括:
获取待处理文本,所述待处理文本中包括第一文本段落和第一表格;
将所述待处理文本中的所述第一文本段落和所述第一表格进行格式统一处理,获得预处理文本;
将所述预处理文本输入到训练后到实体关系联合抽取模型中,输出目标信息。
2.如权利要求1所述的信息的实体关系联合抽取方法,其特征在于,所述将所述待处理文本中的所述第一文本段落和所述第一表格进行格式统一处理,获得预处理文本,包括:
按照预设模版将所述待处理文本中的所述第一表格生成第二文本段落;
按照文本顺序将所述第一文本段落和所述第二文本段落拼接为所述预处理文本。
3.如权利要求1所述的信息的实体关系联合抽取方法,其特征在于,所述实体关系联合抽取模型包括实体识别网络和关系识别网络;
所述方法包括:
获取训练文本,所述训练文本中携带有字符的实体类型标记和每两个实体之间的关系类型标记;
将所述训练文本输入到所述实体识别网络中,输出实体预测结果;
根据所述实体预测结果,生成所述训练文本中每两个实体之间的候选关系数据;
将所述候选关系数据输入到所述关系识别网络中,输出关系预测结果;
根据所述实体类型标记、所述关系类型标记、所述实体预测结果和所述关系预测结果计算所述实体关系联合抽取模型的第一损失值;
根据所述第一损失值更新所述实体关系联合抽取模型的模型参数。
4.如权利要求3所述的信息的实体关系联合抽取方法,其特征在于,所述实体预测结果包括所述训练文本中字符的预测实体类型和字符隐层向量;
所述根据所述实体预测结果,生成所述训练文本中每两个实体之间的候选关系数据,包括:
根据所述字符的预测实体类型,将所述训练文本中的字符划分为多个关系组;
对于每个所述关系组,根据所述关系组中每个字符的所述字符隐层向量生成所述关系组的所述候选关系数据;
其中,每个关系组中包括预设窗口内的字符,所述预设窗口内包含所述训练文本中的第一实体和第二实体,所述第一实体在所述第二实体之前,所述预设窗口的起始点为第一实体之前的第n个字符,所述预设窗口的截止点为第二实体之后的第m个字符,所述n和所述m为非负整数。
5.如权利要求4所述的信息的实体关系联合抽取方法,其特征在于,所述关系预测结果包括所述训练文本中每两个实体之间的预测关系类型;
所述根据所述实体类型标记、所述关系类型标记、所述实体预测结果和所述关系预测结果计算所述实体关系联合抽取模型的第一损失值,包括:
根据所述训练文本中字符的所述实体类型标记和所述预测实体类型计算所述实体识别网络的第二损失值;
根据所述训练文本中每两个实体之间的关系类型标记和所述预测关系类型计算所述关系识别网络的第三损失值;
将所述第二损失值和所述第三损失值加权求和,得到所述第一损失值。
6.如权利要求5所述的信息的实体关系联合抽取方法,其特征在于,所述根据所述训练文本中字符的所述实体类型标记和所述预测实体类型计算所述实体识别网络的第二损失值,包括:
通过公式
Figure FDA0002916646660000021
计算所述第二损失值;
其中,Lrec为所述第二损失值,|s|为所述训练文本中字符的个数,
Figure FDA0002916646660000022
为第i个字符的所述实体类型标记,
Figure FDA0002916646660000031
为第i个字符的所述预测实体类型,
Figure FDA0002916646660000032
Wrec为所述实体识别网络的网络参数,hi为第i个字符的隐层向量。
7.如权利要求5所述的信息的实体关系联合抽取方法,其特征在于,所述根据所述训练文本中每两个实体之间的关系类型标记和所述预测关系类型计算所述关系识别网络的第三损失值,包括:
通过公式
Figure FDA0002916646660000033
计算所述第三损失值;
其中,Lrel为所述第三损失值,num为所述关系组的组数,
Figure FDA0002916646660000034
Figure FDA0002916646660000035
Wrel为所述关系识别网络的网络参数,
Figure FDA0002916646660000036
为第v个实体与第j个实体之间关系的隐层向量。
8.一种信息的实体关系联合抽取装置,其特征在于,所述装置包括:
文本获取单元,用于获取待处理文本,所述待处理文本中包括第一文本段落和第一表格;
预处理单元,用于将所述待处理文本中的所述第一文本段落和所述第一表格进行格式统一处理,获得预处理文本;
信息抽取单元,用于将所述预处理文本输入到训练后到实体关系联合抽取模型中,输出目标信息。
9.一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的方法。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的方法。
CN202110104073.5A 2021-01-26 2021-01-26 一种信息的实体关系联合抽取方法、装置及终端设备 Active CN112819622B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110104073.5A CN112819622B (zh) 2021-01-26 2021-01-26 一种信息的实体关系联合抽取方法、装置及终端设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110104073.5A CN112819622B (zh) 2021-01-26 2021-01-26 一种信息的实体关系联合抽取方法、装置及终端设备

Publications (2)

Publication Number Publication Date
CN112819622A true CN112819622A (zh) 2021-05-18
CN112819622B CN112819622B (zh) 2023-10-17

Family

ID=75859363

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110104073.5A Active CN112819622B (zh) 2021-01-26 2021-01-26 一种信息的实体关系联合抽取方法、装置及终端设备

Country Status (1)

Country Link
CN (1) CN112819622B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116522935A (zh) * 2023-03-29 2023-08-01 北京德风新征程科技股份有限公司 文本数据处理方法、处理装置和电子设备

Citations (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005031950A (ja) * 2003-07-11 2005-02-03 Canon Inc 情報検索装置、情報検索方法およびプログラム
US20050108630A1 (en) * 2003-11-19 2005-05-19 Wasson Mark D. Extraction of facts from text
CN110162786A (zh) * 2019-04-23 2019-08-23 百度在线网络技术(北京)有限公司 构建配置文件以及抽取结构化信息的方法、装置
CN110209993A (zh) * 2019-06-17 2019-09-06 中国电子科技集团公司信息科学研究院 一种探测目标的信息抽取方法及系统
CN110348003A (zh) * 2019-05-22 2019-10-18 安徽省泰岳祥升软件有限公司 文本有效信息的抽取方法及装置
CN110765774A (zh) * 2019-10-08 2020-02-07 北京三快在线科技有限公司 信息抽取模型的训练方法、装置及信息抽取方法、装置
CN110825839A (zh) * 2019-11-07 2020-02-21 成都国腾实业集团有限公司 一种对文本信息中目标的关联关系分析方法
WO2020107878A1 (zh) * 2018-11-30 2020-06-04 平安科技(深圳)有限公司 文本摘要生成方法、装置、计算机设备及存储介质
CN111324743A (zh) * 2020-02-14 2020-06-23 平安科技(深圳)有限公司 文本关系抽取的方法、装置、计算机设备及存储介质
CN111339774A (zh) * 2020-02-07 2020-06-26 腾讯科技(深圳)有限公司 文本的实体关系抽取方法和模型训练方法
CN111666427A (zh) * 2020-06-12 2020-09-15 长沙理工大学 一种实体关系联合抽取方法、装置、设备及介质
CN111723177A (zh) * 2020-05-06 2020-09-29 第四范式(北京)技术有限公司 信息提取模型的建模方法、装置及电子设备
CN111767334A (zh) * 2020-06-30 2020-10-13 北京百度网讯科技有限公司 信息抽取方法、装置、电子设备及存储介质
CN111858942A (zh) * 2020-07-29 2020-10-30 阳光保险集团股份有限公司 一种文本抽取方法、装置、存储介质和电子设备
US20200380211A1 (en) * 2019-05-31 2020-12-03 Baidu Online Network Technology (Beijing) Co., Ltd. Method, apparatus, computer device and readable medium for knowledge hierarchical extraction of a text
CN112052305A (zh) * 2020-09-02 2020-12-08 平安资产管理有限责任公司 信息提取方法、装置、计算机设备及可读存储介质
CN112069319A (zh) * 2020-09-10 2020-12-11 杭州中奥科技有限公司 文本抽取方法、装置、计算机设备和可读存储介质
CN112214987A (zh) * 2020-09-08 2021-01-12 深圳价值在线信息科技股份有限公司 一种信息提取方法、提取装置、终端设备及可读存储介质

Patent Citations (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005031950A (ja) * 2003-07-11 2005-02-03 Canon Inc 情報検索装置、情報検索方法およびプログラム
US20050108630A1 (en) * 2003-11-19 2005-05-19 Wasson Mark D. Extraction of facts from text
WO2020107878A1 (zh) * 2018-11-30 2020-06-04 平安科技(深圳)有限公司 文本摘要生成方法、装置、计算机设备及存储介质
CN110162786A (zh) * 2019-04-23 2019-08-23 百度在线网络技术(北京)有限公司 构建配置文件以及抽取结构化信息的方法、装置
CN110348003A (zh) * 2019-05-22 2019-10-18 安徽省泰岳祥升软件有限公司 文本有效信息的抽取方法及装置
US20200380211A1 (en) * 2019-05-31 2020-12-03 Baidu Online Network Technology (Beijing) Co., Ltd. Method, apparatus, computer device and readable medium for knowledge hierarchical extraction of a text
CN110209993A (zh) * 2019-06-17 2019-09-06 中国电子科技集团公司信息科学研究院 一种探测目标的信息抽取方法及系统
CN110765774A (zh) * 2019-10-08 2020-02-07 北京三快在线科技有限公司 信息抽取模型的训练方法、装置及信息抽取方法、装置
CN110825839A (zh) * 2019-11-07 2020-02-21 成都国腾实业集团有限公司 一种对文本信息中目标的关联关系分析方法
CN111339774A (zh) * 2020-02-07 2020-06-26 腾讯科技(深圳)有限公司 文本的实体关系抽取方法和模型训练方法
CN111324743A (zh) * 2020-02-14 2020-06-23 平安科技(深圳)有限公司 文本关系抽取的方法、装置、计算机设备及存储介质
CN111723177A (zh) * 2020-05-06 2020-09-29 第四范式(北京)技术有限公司 信息提取模型的建模方法、装置及电子设备
CN111666427A (zh) * 2020-06-12 2020-09-15 长沙理工大学 一种实体关系联合抽取方法、装置、设备及介质
CN111767334A (zh) * 2020-06-30 2020-10-13 北京百度网讯科技有限公司 信息抽取方法、装置、电子设备及存储介质
CN111858942A (zh) * 2020-07-29 2020-10-30 阳光保险集团股份有限公司 一种文本抽取方法、装置、存储介质和电子设备
CN112052305A (zh) * 2020-09-02 2020-12-08 平安资产管理有限责任公司 信息提取方法、装置、计算机设备及可读存储介质
CN112214987A (zh) * 2020-09-08 2021-01-12 深圳价值在线信息科技股份有限公司 一种信息提取方法、提取装置、终端设备及可读存储介质
CN112069319A (zh) * 2020-09-10 2020-12-11 杭州中奥科技有限公司 文本抽取方法、装置、计算机设备和可读存储介质

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
李天颍;刘;赵德旺;曹原;: "一种基于依存文法的需求文本策略依赖关系抽取方法", 计算机学报, no. 01, pages 56 - 64 *
王雷;陈治平;李志成;: "基于文本分块的多模板隐马尔可夫模型的文本信息抽取", 山东大学学报(理学版), no. 03, pages 27 - 30 *
谢彬;: "基于语义网络的舆情信息分类方法", 计算机工程, no. 03, pages 231 - 237 *
赵军;刘康;周光有;蔡黎;: "开放式文本信息抽取", 中文信息学报, no. 06, pages 98 - 110 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116522935A (zh) * 2023-03-29 2023-08-01 北京德风新征程科技股份有限公司 文本数据处理方法、处理装置和电子设备
CN116522935B (zh) * 2023-03-29 2024-03-29 北京德风新征程科技股份有限公司 文本数据处理方法、处理装置和电子设备

Also Published As

Publication number Publication date
CN112819622B (zh) 2023-10-17

Similar Documents

Publication Publication Date Title
CN108460014B (zh) 企业实体的识别方法、装置、计算机设备及存储介质
CN111695352A (zh) 基于语义分析的评分方法、装置、终端设备及存储介质
CN112084381A (zh) 一种事件抽取方法、系统、存储介质以及设备
CN109582772B (zh) 合同信息提取方法、装置、计算机设备和存储介质
CN111191275A (zh) 敏感数据识别方法、系统及其装置
CN111046142A (zh) 文本审查方法、装置、电子设备及计算机存储介质
CN111723569A (zh) 一种事件抽取方法、装置和计算机可读存储介质
CN111143505B (zh) 文档处理方法、装置、介质及电子设备
CN112214987B (zh) 一种信息提取方法、提取装置、终端设备及可读存储介质
CN110765889B (zh) 法律文书的特征提取方法、相关装置及存储介质
CN112084746A (zh) 一种实体识别方法、系统、存储介质及设备
CN110929520B (zh) 非命名实体对象抽取方法、装置、电子设备及存储介质
CN112328761A (zh) 一种意图标签设置方法、装置、计算机设备及存储介质
CN111428503B (zh) 同名人物的识别处理方法及处理装置
CN116402166B (zh) 一种预测模型的训练方法、装置、电子设备及存储介质
CN111695337A (zh) 智能面试中专业术语的提取方法、装置、设备及介质
CN114580424A (zh) 一种用于法律文书的命名实体识别的标注方法和装置
CN111581346A (zh) 一种事件抽取方法和装置
CN112819622B (zh) 一种信息的实体关系联合抽取方法、装置及终端设备
CN111597302B (zh) 文本事件的获取方法、装置、电子设备及存储介质
CN109214640A (zh) 指标结果的确定方法、设备及计算机可读存储介质
CN112597299A (zh) 文本的实体分类方法、装置、终端设备和存储介质
CN114842982B (zh) 一种面向医疗信息系统的知识表达方法、装置及系统
CN109614494B (zh) 一种文本分类方法及相关装置
CN114138928A (zh) 文本内容提取的方法、系统、装置、电子设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant