CN109977402B - 一种命名实体识别方法及系统 - Google Patents
一种命名实体识别方法及系统 Download PDFInfo
- Publication number
- CN109977402B CN109977402B CN201910202512.9A CN201910202512A CN109977402B CN 109977402 B CN109977402 B CN 109977402B CN 201910202512 A CN201910202512 A CN 201910202512A CN 109977402 B CN109977402 B CN 109977402B
- Authority
- CN
- China
- Prior art keywords
- text
- character
- processed
- information
- named entity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Document Processing Apparatus (AREA)
- Machine Translation (AREA)
Abstract
本申请公开了一种命名实体识别方法及系统,所述方法包括:对待处理文本进行预处理,得到预处理结果;根据所述预处理结果得到对应所述待处理文本的上下文信息敏感的字符级表达信息;创建与不同命名实体类型一一对应的条件随机场CRF解码单元,各条件随机场CRF解码单元分别对所述上下文信息敏感的字符级表达信息进行解码,生成各命名实体类型对应的标签序列;分别根据各标签序列抽取对应的命名实体。本申请解决了现有技术中对于重叠的命名实体识别方案中所存在的效率低下的问题,通过共享机制减少了冗余信息,降低了推理时间,使得不同类型实体识别时能够进行相互协助,从而提升了单类实体的识别效果。
Description
技术领域
本申请涉及自然语言处理领域,尤其涉及一种命名实体识别方法及系 统。
背景技术
自然语言处理(Natural Language Processing,简称“NLP”)是计算机 科学领域与人工智能领域中的一个重要方向,研究能实现人与计算机之间用 自然语言进行有效通信的各种理论和方法。基于自然语言处理的应用已经开 始影响人们生活和生产的方方面面,如智能问答机器人、自动文本摘要等等。 作为信息抽取的基石,命名实体识别(NamedEntity Recognition,简称“NER”) 技术应用在每一个成熟的NLP应用中。命名实体识别指的是以名称为标识 的实体,如:人名、地名、组织机构名称、时间等。由于NER技术所处的 基石位置,NER的效果将直接影响着整个信息抽取链条的效果。一个NER 系统所要解决的问题就是识别出输入文本中所包含的所有实体。例如,文本 “张小明,1961年9月27日出生于中国香港”包含实体张小明(人名)、1961 年9月27日(时间)、中国香港(地点)三个实体。
传统上,NER系统多是基于给定特征模版的条件随机场(Conditional RandomField,简称“CRF”)来实现。CRF算法解码文本的机理是为文 本的字符序列打上正确的预测标签。基于通用的BIESO标签体系,以文本 “张小明出生于中国香港”为例,给该文本打上标签后的示意图如图1所示, 其中命名实体“张小明”所包含的三个字符的标签分别为B_PER,I_PER, E_PER。
近来,人们在生产生活逐渐对命名实体识别系统衍生出了更多的需求, 如命名实体之间有着交叠的现象。如图2所示,文本“大家一起前往华盛顿 特区”中包含有重叠的实体“华盛顿特区”(地点)和“华盛顿”(人名)。 其中“华盛顿”具有两种标签:(1)B_PER,I_PER,E_PER;(2)B_LOC, I_LOC,I_LOC。然而,基于特征模板的CRF算法只能为一则文本打上一条 标签序列,对于这种包含重叠实体的文本是失效的。
为了解决上述问题,一种可行性的方案是为每一种类型的实体分配一个 独立的NER系统,以实现单条文本序列解码为多条标签序列。如对于图2 所示包含重叠的命名实体的文本,可以创建两个NER系统分别单独负责人 名、地名的识别,如图3所示,其中NER(人名)负责对文本中的人名实 体进行识别,NER(地名)负责对文本中的地名实体进行识别。然而,由于 这些子NER系统之间的独立性,共性的知识难以在子系统之间共享,整个 系统存在高度的信息冗余。因此,在实际情况下,该方案的效率较为低下。
如何解决现有技术中对于重叠的命名实体识别方案中所存在的效率低 下的问题,减少冗余信息,从而提升单类实体的识别效果,是目前亟待解决 的问题。
发明内容
本申请的主要目的在于提出一种命名实体识别方法,解决了现有技术中 对于重叠的命名实体识别方案中所存在的效率低下的问题,通过共享机制减 少了冗余信息,降低了推理时间,使得不同类型实体识别时能够进行相互协 助,从而提升了单类实体的识别效果。
为实现上述目的,本申请实施例提供了一种命名实体识别方法,包括:
对待处理文本进行预处理,得到预处理结果;
根据所述预处理结果得到对应所述待处理文本的上下文信息敏感的字 符级表达信息;
创建与不同命名实体类型一一对应的条件随机场CRF解码单元,各条 件随机场CRF解码单元分别对所述上下文信息敏感的字符级表达信息进行 解码,生成各命名实体类型对应的标签序列;
分别根据各标签序列抽取对应的命名实体。
可选地,其中,所述预处理结果的类型包括:对应所述待处理文本的字 符集,对所述待处理文本进行分词后的词汇集,对所述待处理文本进行句子 切分后的句子集和对应所述词汇集的词性集。
可选地,所述根据所述预处理结果得到对应所述待处理文本的上下文信 息敏感的字符级表达信息,包括:
根据所述预处理结果的类型构建与所述类型对应的特征信息;
对所述特征信息进行处理,得到对应所述待处理文本的上下文信息敏感 的字符级表达信息。
可选地,其中,所述特征信息包括:对应所述字符集的字符编码信息, 对应所述词汇集的分词边界信息,对应所述句子集的句子边界距离信息和对 应所述词性集的词性特征信息。
可选地,所述对所述特征信息进行处理,得到对应所述待处理文本的上 下文信息敏感的字符级表达信息,包括:
利用双向长短时记忆循环神经网络从正向和反向两种维度扫描所述特 征信息,构建出对应所述待处理文本的上下文信息敏感的字符级表达信息。
本申请实施例还提供了一种命名实体识别系统,包括:
文本预处理模块,设置为对待处理文本进行预处理,得到预处理结果;
编码模块,设置为根据所述预处理结果得到对应所述待处理文本的上下 文信息敏感的字符级表达信息;
多任务CRF解码模块,设置为创建与不同命名实体类型一一对应的条 件随机场CRF解码单元,各条件随机场CRF解码单元分别对所述上下文信 息敏感的字符级表达信息进行解码,生成各命名实体类型对应的标签序列;
输出整合模块,设置为分别根据各标签序列抽取对应的命名实体。
可选地,其中,所述预处理结果的类型包括:对应所述待处理文本的字 符集,对所述待处理文本进行分词后的词汇集,对所述待处理文本进行句子 切分后的句子集和对应所述词汇集的词性集。
可选地,所述编码模块,具体设置为:
特征抽取模块,设置为根据所述预处理结果的类型构建与所述类型对应 的特征信息;
上下文表达构建模块,设置为对所述特征信息进行处理,得到对应所述 待处理文本的上下文信息敏感的字符级表达信息。
可选地,其中,所述特征信息包括:对应所述字符集的字符编码信息, 对应所述词汇集的分词边界信息,对应所述句子集的句子边界距离信息和对 应所述词性集的词性特征信息。
可选地,所述上下文表达构建模块,具体设置为:
利用双向长短时记忆循环神经网络从正向和反向两种维度扫描所述特 征信息,构建出对应所述待处理文本的上下文信息敏感的字符级表达信息。
本申请提出的技术方案包括:对待处理文本进行预处理,得到预处理结 果;根据所述预处理结果得到对应所述待处理文本的上下文信息敏感的字符 级表达信息;创建与不同命名实体类型一一对应的条件随机场CRF解码单 元,各条件随机场CRF解码单元分别对所述上下文信息敏感的字符级表达 信息进行解码,生成各命名实体类型对应的标签序列;分别根据各标签序列 抽取对应的命名实体。
本申请提供了一种基于多任务学习机制的命名实体识别系统来解决现 有技术中对于重叠的命名实体识别方案中所存在的效率低下的问题,通过共 享机制减少了冗余信息,降低了推理时间,使得不同类型实体识别时能够进 行相互协助,从而提升了单类实体的识别效果。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部 分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的 不当限定。在附图中:
图1所示为现有技术中CRF解码标签序列示意图;
图2所示为现有技术中示例文本包含重叠实体时的标签序列图;
图3所示为现有技术中互相独立的NER系统集合示意图;
图4所示为多任务学习系统示意图;
图5所示为本申请基于多任务学习的命名实体识别系统示意图;
图6所示为本申请实施例1的命名实体识别方法流程图;
图7所示为本申请实施例2的命名实体识别系统结构图;
本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步 说明。
具体实施方式
下文中将参考附图并结合实施例来详细说明本申请。需要说明的是,在 不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
多任务学习机制将多个子任务联合起来进行学习,能够挖掘并利用不同 子任务的共性知识,同时学习得到子任务特有的知识。多任务学习机制广泛 应用于机器学习的诸多领域,如图像(语义分割+深度预测)、异源文本分类 等等。相比于每个子任务单独学习的策略,多任务联合学习的机制使得不同 子任务之间可以互相协助来得到更好的效果。如图4所示为多任务学习系统 示意图。
本申请基于多任务学习机制,设计出一套命名实体识别方法及系统。通 过将每种类型的实体识别任务抽象为一个子任务,并将命名实体识别系统建 模为多任务学习神经网络系统,该系统具有在子任务间共享的编码模块以及 在子任务间独立的解码模块。解码阶段的多任务CRFs结构允许多任务模型 学习得到每类命名实体所特有的知识,同时,通过共享机制减少了冗余信息, 从而解决了现有技术中对于重叠的命名实体识别方案中所存在的效率低下 的问题,图5为本申请基于多任务学习的命名实体识别系统示意图。
图6所示为本申请实施例1的命名实体识别方法流程图,包括以下步骤:
步骤601:对待处理文本进行预处理,得到预处理结果;
本申请中的“待处理文本”可以是用户的输入文本,可以包含重叠的命 名实体,例如:图2所示的文本“大家一起前往华盛顿特区”,其中包含了 “华盛顿”和“华盛顿特区”两种命名实体,并且两种命名实体中均包含了 “华盛顿”,也就是说在该文本中,两种类型的命名实体是存在部分重叠的。
本步骤601是将待处理文本进行加工,生成可用于后续多任务模型输入 的各种信息。
一种示例性的实施例中,可以首先基于数据集构建出相应的词/字库, 并将低频字/词加入到低频字/词库中。对于待处理文本d*,预处理阶段将会 对其进行分词、句子切分、词性识别,并且将文本中出现的低频字替换为 统一的无效字符。
一种示例性的实施例中,经过步骤601之后,可以根据待处理文本d* 得到预处理结果{C,W,S,P},其中C,W,S,P分别表征字符集、词汇集、 句子集、词性集。这些信息可以被整合后输入到后续多任务模型中用于命名 实体的识别。
步骤602:根据所述预处理结果得到对应所述待处理文本的上下文信息 敏感的字符级表达信息;
具体地,本步骤602可以通过如下具体步骤实现:
步骤6021:根据所述预处理结果的类型构建与所述类型对应的特征信 息;
在本步骤6021中,接收来自预处理后的文本信息,并构建成输入特征。 可以通过对预处理后的文本信息进行加工,构建了四种字符级别的特征,包 括字符、分词边界、句子边界距离、词性特征。这些特征在离散、向量化后 被输入到后续多任务模型中。各种特征构造方式如下:
字符编码:文本中的每一个字符在经过查询词汇表之后,转换为相应地 字符编码。
分词边界:给定输入文本的分词信息,如果:(1)字符出现在某一词汇的 首部,其分词边界特征编码为0;(2)字符出现在某一词汇的尾部,其分词 边界特征编码为1;(3)否则,其分词边界特征编码为2。
句子边界距离:给定输入文本的断句信息,字符的句子边界距离特征可 定义为log2(d1)和log2(d2),其中d1,d2分别标注该字符与句首、末的距离。
词性特征:给定输入文本的词性信息,包括名词、动词、形容词、代词、 数词、量词等,字符的词性特征定义为其所在词汇词性的编码。
步骤6022:对所述特征信息进行处理,得到对应所述待处理文本的上 下文信息敏感的字符级表达信息。
在本步骤6022中,可以采用语言模型中通用的循环神经网络来捕获字 符上下文的信息。具体地,基于四种字符级别的特征,本文采用双向长短时 记忆循环神经网络来从正向和反向两种维度扫描文本,构建出上下文信息敏 感的字符级表达。
步骤603:创建与不同命名实体类型一一对应的条件随机场CRF解码单 元,各条件随机场CRF解码单元分别对所述上下文信息敏感的字符级表达 信息进行解码,生成各所述命名实体类型对应的标签序列;
在本步骤603中,本申请基于设计需要,定义所要获取的命名实体的类 型,然后为每种类型的命名实体分配一个条件随机场CRF解码单元,对于 N种实体,所有的条件随机场CRF解码单元构成了集合 {CRF1,CRF2,…,CRFN}。为了尽可能利用不同实体类型之间的共性知识来提升 单个任务的效果,这些条件随机场CRF解码单元将接收共同的输入(上下文 信息敏感的字符级表达信息)。
步骤604:分别根据各标签序列抽取对应的命名实体。
在本步骤中,将对在上一步骤不同CRF解码单元解码出的所有的N条 标签序列进行处理,之后可以抽取出可重叠的命名实体集合。如对于例句“大 家一起前往华盛顿特区”,CRF1负责解码得到地点类型的命名实体对应的标 签序列,其解码后的标签序列能够在本步骤中抽出地点“华盛顿特区”;CRF2负责解码得到人名类型的命名实体对应的标签序列,其解码后的标签序列能 够在本步骤中抽出人名“华盛顿”。
通过学习器对本申请命名实体识别系统进行训练,不同于按照子任务交 替训练多任务模型的策略,本申请采用联合优化的机制对多任务CRFs结构 进行联合学习,其优化目标(损失函数)为:
其中,Ji(θ)表征第i个解码单元的损失函数,wi是用来平衡不同任务 的权重因子。考虑到本申请不同子任务是均为命名实体识别任务,它们所对 应损失函数的量纲相同,因此本申请设定权重因子wi=1,基 于上述联合优化目标,本申请可以采用反向传播算法来学习出多任务CRFs 神经网络结构中的参数。
这里需要说明的是,本申请提供了一种基于多任务学习机制的命名实体 识别系统来解决现有技术中对于重叠的命名实体识别方案中所存在的效率 低下的问题,通过共享机制减少了冗余信息,降低了推理时间,使得不同类 型实体识别时能够进行相互协助,从而提升了单类实体的识别效果。
图7为本申请实施例2的命名实体识别系统结构图,如图7所示,该系 统包括:
文本预处理模块,设置为对待处理文本进行预处理,得到预处理结果;
编码模块,设置为根据所述预处理结果得到对应所述待处理文本的上下 文信息敏感的字符级表达信息;
多任务CRF解码模块,设置为创建与不同命名实体类型一一对应的条 件随机场CRF解码单元,各条件随机场CRF解码单元分别对所述上下文信 息敏感的字符级表达信息进行解码,生成各命名实体类型对应的标签序列;
输出整合模块,设置为分别根据各标签序列抽取对应的命名实体。
其中,所述预处理结果的类型包括:对应所述待处理文本的字符集,对 所述待处理文本进行分词后的词汇集,对所述待处理文本进行句子切分后的 句子集和对应所述词汇集的词性集。
具体地,所述编码模块,具体设置为:
特征抽取模块,设置为根据所述预处理结果的类型构建与所述类型对应 的特征信息;
上下文表达构建模块,设置为对所述特征信息进行处理,得到对应所述 待处理文本的上下文信息敏感的字符级表达信息。
其中,所述特征信息包括:对应所述字符集的字符编码信息,对应所述 词汇集的分词边界信息,对应所述句子集的句子边界距离信息和对应所述词 性集的词性特征信息。
具体地,所述上下文表达构建模块,具体设置为:
利用双向长短时记忆循环神经网络从正向和反向两种维度扫描所述特 征信息,构建出对应所述待处理文本的上下文信息敏感的字符级表达信息。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意 在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者 装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包 括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况 下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方 法、物品或者装置中还存在另外的相同要素。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述 实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通 过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的 技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式 体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、 光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器, 空调器,或者网络设备等)执行本申请各个实施例所述的方法。
以上仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是 利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间 接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。
Claims (10)
2.根据权利要求1所述的方法,其特征在于,其中,所述预处理结果的类型包括:对应所述待处理文本的字符集,对所述待处理文本进行分词后的词汇集,对所述待处理文本进行句子切分后的句子集和对应所述词汇集的词性集。
3.根据权利要求2所述的方法,其特征在于,所述根据所述预处理结果得到对应所述待处理文本的上下文信息敏感的字符级表达信息,包括:
根据所述预处理结果的类型构建与所述类型对应的特征信息;
对所述特征信息进行处理,得到对应所述待处理文本的上下文信息敏感的字符级表达信息。
4.根据权利要求3所述的方法,其特征在于,其中,所述特征信息包括:对应所述字符集的字符编码信息,对应所述词汇集的分词边界信息,对应所述句子集的句子边界距离信息和对应所述词性集的词性特征信息。
5.根据权利要求4所述的方法,其特征在于,所述对所述特征信息进行处理,得到对应所述待处理文本的上下文信息敏感的字符级表达信息,包括:
利用双向长短时记忆循环神经网络从正向和反向两种维度扫描所述特征信息,构建出对应所述待处理文本的上下文信息敏感的字符级表达信息。
7.根据权利要求6所述的系统,其特征在于,其中,所述预处理结果的类型包括:对应所述待处理文本的字符集,对所述待处理文本进行分词后的词汇集,对所述待处理文本进行句子切分后的句子集和对应所述词汇集的词性集。
8.根据权利要求7所述的系统,其特征在于,所述编码模块,具体设置为:
特征抽取模块,设置为根据所述预处理结果的类型构建与所述类型对应的特征信息;
上下文表达构建模块,设置为对所述特征信息进行处理,得到对应所述待处理文本的上下文信息敏感的字符级表达信息。
9.根据权利要求8所述的系统,其特征在于,其中,所述特征信息包括:对应所述字符集的字符编码信息,对应所述词汇集的分词边界信息,对应所述句子集的句子边界距离信息和对应所述词性集的词性特征信息。
10.根据权利要求9所述的系统,其特征在于,所述上下文表达构建模块,具体设置为:
利用双向长短时记忆循环神经网络从正向和反向两种维度扫描所述特征信息,构建出对应所述待处理文本的上下文信息敏感的字符级表达信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910202512.9A CN109977402B (zh) | 2019-03-11 | 2019-03-11 | 一种命名实体识别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910202512.9A CN109977402B (zh) | 2019-03-11 | 2019-03-11 | 一种命名实体识别方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109977402A CN109977402A (zh) | 2019-07-05 |
CN109977402B true CN109977402B (zh) | 2022-11-11 |
Family
ID=67079236
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910202512.9A Active CN109977402B (zh) | 2019-03-11 | 2019-03-11 | 一种命名实体识别方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109977402B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110598212A (zh) * | 2019-09-05 | 2019-12-20 | 清华大学 | 一种快速命名体识别方法 |
CN110705258A (zh) * | 2019-09-18 | 2020-01-17 | 北京明略软件系统有限公司 | 文本实体识别方法及装置 |
CN111191275A (zh) * | 2019-11-28 | 2020-05-22 | 深圳云安宝科技有限公司 | 敏感数据识别方法、系统及其装置 |
CN114240506A (zh) * | 2021-12-21 | 2022-03-25 | 北京有竹居网络技术有限公司 | 多任务模型的建模方法、推广内容处理方法及相关装置 |
CN115118385A (zh) * | 2022-05-25 | 2022-09-27 | 阿里巴巴(中国)有限公司 | 解码方法及装置 |
CN115238700B (zh) * | 2022-08-17 | 2024-07-26 | 苏州大学 | 基于多任务学习的生物医学实体抽取方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107644014A (zh) * | 2017-09-25 | 2018-01-30 | 南京安链数据科技有限公司 | 一种基于双向lstm和crf的命名实体识别方法 |
CN108536679A (zh) * | 2018-04-13 | 2018-09-14 | 腾讯科技(成都)有限公司 | 命名实体识别方法、装置、设备及计算机可读存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104750687B (zh) * | 2013-12-25 | 2018-03-20 | 株式会社东芝 | 改进双语语料库的方法及装置、机器翻译方法及装置 |
-
2019
- 2019-03-11 CN CN201910202512.9A patent/CN109977402B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107644014A (zh) * | 2017-09-25 | 2018-01-30 | 南京安链数据科技有限公司 | 一种基于双向lstm和crf的命名实体识别方法 |
CN108536679A (zh) * | 2018-04-13 | 2018-09-14 | 腾讯科技(成都)有限公司 | 命名实体识别方法、装置、设备及计算机可读存储介质 |
Non-Patent Citations (1)
Title |
---|
基于深度学习的主题建模方法研究;朱佳辉;《中国优秀硕士学委论文全文库 信息科技辑》;20170815;I138-587 * |
Also Published As
Publication number | Publication date |
---|---|
CN109977402A (zh) | 2019-07-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109977402B (zh) | 一种命名实体识别方法及系统 | |
CN109299273B (zh) | 基于改进seq2seq模型的多源多标签文本分类方法及其系统 | |
US11860684B2 (en) | Few-shot named-entity recognition | |
CN111783471B (zh) | 自然语言的语义识别方法、装置、设备及存储介质 | |
Yan et al. | ConvMath: a convolutional sequence network for mathematical expression recognition | |
CN112188311B (zh) | 用于确定新闻的视频素材的方法和装置 | |
CN116775872A (zh) | 一种文本处理方法、装置、电子设备及存储介质 | |
CN109933773A (zh) | 一种多重语义语句解析系统及方法 | |
CN116341519A (zh) | 基于背景知识的事件因果关系抽取方法、装置及存储介质 | |
CN111694936B (zh) | 用于ai智能面试的识别的方法、装置、计算机设备及存储介质 | |
CN117373591A (zh) | 电子病历的疾病识别方法和装置、电子设备及存储介质 | |
CN117131868A (zh) | 一种基于“表格-图”两阶段的面向文档级别实体关系联合抽取方法及装置 | |
CN116628207A (zh) | 文本分类模型的训练方法和装置、电子设备及存储介质 | |
CN116595979A (zh) | 一种基于标签提示的命名实体识别方法、装置及介质 | |
CN114611529B (zh) | 意图识别方法和装置、电子设备及存储介质 | |
CN110705268A (zh) | 基于人工智能的文章主旨提取方法、装置及计算机可读存储介质 | |
CN115759102A (zh) | 一种中国诗酒文化命名实体识别方法 | |
CN112800186B (zh) | 阅读理解模型的训练方法及装置、阅读理解方法及装置 | |
CN115033683A (zh) | 摘要生成方法、装置、设备及存储介质 | |
CN115203388A (zh) | 机器阅读理解方法、装置、计算机设备和存储介质 | |
CN114637852A (zh) | 医学文本的实体关系抽取方法、装置、设备及存储介质 | |
CN114398896A (zh) | 信息录入方法、装置、电子设备及计算机可读存储介质 | |
CN114548325A (zh) | 基于对偶对比学习的零样本关系抽取方法和系统 | |
CN114648005A (zh) | 一种多任务联合学习的多片段机器阅读理解方法及装置 | |
CN113657092A (zh) | 识别标签的方法、装置、设备以及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |