CN113128227A - 实体抽取方法及装置 - Google Patents

实体抽取方法及装置 Download PDF

Info

Publication number
CN113128227A
CN113128227A CN202010039059.7A CN202010039059A CN113128227A CN 113128227 A CN113128227 A CN 113128227A CN 202010039059 A CN202010039059 A CN 202010039059A CN 113128227 A CN113128227 A CN 113128227A
Authority
CN
China
Prior art keywords
text
entity
entity extraction
recognized
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010039059.7A
Other languages
English (en)
Inventor
张春荣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Potevio Information Technology Co Ltd
Original Assignee
Potevio Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Potevio Information Technology Co Ltd filed Critical Potevio Information Technology Co Ltd
Priority to CN202010039059.7A priority Critical patent/CN113128227A/zh
Publication of CN113128227A publication Critical patent/CN113128227A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明实施例提供一种实体抽取方法及装置,所述方法包括:获取待识别文本;将所述待识别文本输入至预先训练好的实体抽取模型中,获得所述待识别文本的实体抽取结果;其中,所述实体抽取模型是基于语料样本和所述语料样本对应的实体标注进行训练获得的,所述实体抽取模型包括BERT语言模型、双向长短期记忆网络LSTM层和条件随机场CRF层。本发明实施例提供的实体抽取方法及装置,采用BERT构建一个底层的基础模型来彻底建模上下文关系,进一步增加词向量模型泛化能力,利用标签转移概率来做句子级别的标签预测,使得实体标注过程是整体的,不仅能够对通用的多种类型的命名实体进行识别,还可以对特定的命名实体进行识别。

Description

实体抽取方法及装置
技术领域
本发明涉及自然语言处理技术领域,更具体地,涉及一种实体抽取方法及装置。
背景技术
实体抽取是知识图谱构建的基本技术之一,与实体链接、实体关系抽取、事件抽取是知识图谱构建的关键。实体抽取,又称命名实体识别(Named Entity Recognition,NER),是自然语言处理中的一项基础任务,应用范围非常广泛。命名实体一般指的是文本中具有特定意义或者指代性强的实体,通常包括人名、地名、组织机构名、日期时间、专有名词等。NER系统就是从非结构化的输入文本中抽取出上述实体,并且可以按照业务需求识别出更多类别的实体,比如产品名称、型号、价格等。实体这个概念可以很广,只要是业务需要的特殊文本片段都可以称为实体。学术上NER所涉及的命名实体一般包括3大类(实体类,时间类,数字类)和7小类(人名、地名、组织机构名、时间、日期、货币、百分比)。实际应用中,NER模型通常只要识别出人名、地名、组织机构名、日期时间即可,一些系统还会给出专有名词结果(比如缩写、会议名、产品名等)。货币、百分比等数字类实体可通过正则搞定。另外,在一些应用场景下会给出特定领域内的实体,如书名、歌曲名、期刊名等。NER也是关系抽取、事件抽取、知识图谱、机器翻译、问答系统等诸多NLP任务的基础。
在基于机器学习的方法中,NER被当作序列标注问题。利用大规模语料来学习出标注模型,从而对句子的各个位置进行标注。目前实体抽取的研究状态:只是在有限的文本类型(主要是新闻语料中)和实体类别(主要是人名、地名、组织机构名)中取得了不错的效果;与其他信息检索领域相比,命名实体识别评测语料较小,容易产生过拟合;命名实体识别更侧重高召回率,但在信息检索领域,高准确率更重要;通用的识别多种类型的命名实体的系统性能很差。
在基于机器学习的方法中,实体抽取NER被当作序列标注问题。利用大规模语料来学习出标注模型,从而对句子的各个位置进行标注。这类方法对于序列标注任务的处理方式是类似的:采用word2vec将token从离散one-hot表示映射到低维空间中成为稠密的词向量embedding,随后将句子的词向量embedding序列输入到循环神经网络RNN中,用循环神经网络自动提取特征,Softmax来预测每个字或词的标签。
首先,对于深度学习方法,一般需要大量标注语料,否则极易出现过拟合,无法达到预期的泛化能力。其次,这种方法使得模型的训练成为一个端到端的过程,而非传统的pipeline,不依赖于特征工程,是一种数据驱动的方法,但网络种类繁多、对参数设置依赖大,模型可解释性差。此外,这种方法的一个缺点是对每个token打标签的过程是独立的进行,不能直接利用上文已经预测的标签(只能靠隐含状态传递上文信息),进而导致预测出的标签序列可能是无效的,例如标签I-PER后面是不可能紧跟着B-PER的,但Softmax不会利用到这个信息。
发明内容
本发明实施例提供一种克服上述问题或者至少部分地解决上述问题的实体抽取方法及装置。
第一方面,本发明实施例提供一种实体抽取方法,包括:
获取待识别文本;
将所述待识别文本输入至预先训练好的实体抽取模型中,获得所述待识别文本的实体抽取结果;
其中,所述实体抽取模型是基于语料样本和所述语料样本对应的实体标注进行训练获得的,所述实体抽取模型包括BERT语言模型、双向长短期记忆网络LSTM层和条件随机场CRF层。
其中,将所述待识别文本输入至预先训练好的实体抽取模型中,获得所述待识别文本的实体抽取结果,具体包括:
将所述待识别文本输入至所述BERT语言模型中,获得所述待识别文本对应的字向量序列;
将所述待识别文本对应的字向量序列输入至所述双向长短期记忆网络LSTM层中进行语义关系提取;
将所述双向长短期记忆网络LSTM层的输出结果输入至所述条件随机场CRF层,通过利用标签转移概率来进行句子级别的标签预测,获得所述待识别文本的实体抽取结果。
其中,训练获得所述实体抽取模型的步骤,具体包括:
利用通用语料样本和所述通用语料样本对应的实体标注对基于BERT语言模型的实体抽取模型进行预训练;
利用特定实体语料样本和所述特定实体语料样本对应的实体标注对预训练的BERT语言模型进行微调,获得训练好的实体抽取模型。
其中,所述获取待识别文本,具体为:
利用解析器对HTML网页进行解析,将所述HTML网页解析成文本,并进行数据清洗,仅保留有用的文本信息,获得待识别文本。
第二方面,本发明实施例提供一种实体抽取装置,包括:
文本获取模块,用于获取待识别文本;
实体抽取模块,用于将所述待识别文本输入至预先训练好的实体抽取模型中,获得所述待识别文本的实体抽取结果;
其中,所述实体抽取模型是基于语料样本和所述语料样本对应的实体标注进行训练获得的,所述实体抽取模型包括BERT语言模型、双向长短期记忆网络LSTM层和条件随机场CRF层。
其中,所述实体抽取模块具体用于:
将所述待识别文本输入至所述BERT语言模型中,获得所述待识别文本对应的字向量序列;
将所述待识别文本对应的字向量序列输入至所述双向长短期记忆网络LSTM层中进行语义关系提取;
将所述双向长短期记忆网络LSTM层的输出结果输入至所述条件随机场CRF层,通过利用标签转移概率来进行句子级别的标签预测,获得所述待识别文本的实体抽取结果。
其中,还包括训练模块,所述训练模块具体用于:
利用通用语料样本和所述通用语料样本对应的实体标注对基于BERT语言模型的实体抽取模型进行预训练;
利用特定实体语料样本和所述特定实体语料样本对应的实体标注对预训练的BERT语言模型进行微调,获得训练好的实体抽取模型。
其中,所述文本获取模块具体用于:
利用解析器对HTML网页进行解析,将所述HTML网页解析成文本,并进行数据清洗,仅保留有用的文本信息,获得待识别文本。
第三方面,本发明实施例提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如第一方面所提供的实体抽取方法的步骤。
第四方面,本发明实施例提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如第一方面所提供的实体抽取方法的步骤。
本发明实施例提供的实体抽取方法及装置,采用BERT构建一个底层的基础模型来彻底建模上下文关系,进一步增加词向量模型泛化能力,充分描述字符级、词级、句子级甚至句间关系特征,利用标签转移概率来做句子级别的标签预测,使得实体标注过程是整体的,可以直接利用上文已经预测的标签,并且不仅能够对通用的多种类型的命名实体进行识别,还可以对特定的命名实体进行识别,识别精度高。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的实体抽取方法的流程示意图;
图2为本发明实施例提供的实体抽取模型的结构示意图;
图3为本发明实施例提供的将所述待识别文本输入至预先训练好的实体抽取模型中,获得所述待识别文本的实体抽取结果的流程示意图;
图4为本发明实施例提供的实体抽取装置的结构示意图;
图5为本发明实施例提供的电子设备的实体结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,为本发明实施例提供的实体抽取方法的流程示意图,包括:
步骤100、获取待识别文本;
具体地,通过进行数据清洗等预处理操作获取待识别文本,待识别文本中仅保留了有用的文本信息。
在一个实施例中,利用解析器对HTML网页进行解析,将所述HTML网页解析成文本,并进行数据清洗,仅保留有用的文本信息,获得待识别文本。
步骤101、将所述待识别文本输入至预先训练好的实体抽取模型中,获得所述待识别文本的实体抽取结果;
值得说明的是,本发明实施例提出了一种基于BERT语言模型的实体抽取模型。采用BERT构建一个底层的基础模型来彻底建模上下文关系,进一步增加词向量模型泛化能力,充分描述字符级、词级、句子级甚至句间关系特征。
所述实体抽取模型是基于语料样本和所述语料样本对应的实体标注进行训练获得的。
所述实体抽取模型包括BERT语言模型、双向长短期记忆网络LSTM层和条件随机场CRF层。如图2所示,为本发明实施例提供的实体抽取模型的结构示意图。
本发明实施例提供的实体抽取方法,采用BERT构建一个底层的基础模型来彻底建模上下文关系,进一步增加词向量模型泛化能力,充分描述字符级、词级、句子级甚至句间关系特征,利用标签转移概率来做句子级别的标签预测,使得实体标注过程是整体的,可以直接利用上文已经预测的标签,并且不仅能够对通用的多种类型的命名实体进行识别,还可以对特定的命名实体进行识别,识别精度高。
如图3所示,为本发明实施例提供的将所述待识别文本输入至预先训练好的实体抽取模型中,获得所述待识别文本的实体抽取结果的流程示意图,具体包括:
步骤300、将所述待识别文本输入至所述BERT语言模型中,获得所述待识别文本对应的字向量序列;
步骤301、将所述待识别文本对应的字向量序列输入至所述双向长短期记忆网络LSTM层中进行语义关系提取;
步骤302、将所述双向长短期记忆网络LSTM层的输出结果输入至所述条件随机场CRF层,通过利用标签转移概率来进行句子级别的标签预测,获得所述待识别文本的实体抽取结果。
具体地,将待识别文本输入至BERT语言模型中,获得所述待识别文本对应的实体相关的字向量序列;
然后,将待识别文本对应的字向量序列输入至双向长短期记忆网络LSTM层中进行上下文语义关系提取;
在所述实体抽取模型的输出层接入条件随机场CRF层,利用标签转移概率来做句子级别的标签预测,使得标注过程不再是对各个token独立分类。
基于上述实施例的内容,训练获得所述实体抽取模型的步骤,具体包括:
利用通用语料样本和所述通用语料样本对应的实体标注对基于BERT语言模型的实体抽取模型进行预训练;
利用特定实体语料样本和所述特定实体语料样本对应的实体标注对预训练的BERT语言模型进行微调,获得训练好的实体抽取模型。
具体地,本发明实施例通过对预训练的BERT语言模型进行微调,来实现对文本中的实体相关字向量序列进行提取。
首先,利用通用语料样本和所述通用语料样本对应的实体标注对基于BERT语言模型的实体抽取模型进行预训练,得到预训练的BERT语言模型;
然后,利用特定实体语料样本和所述特定实体语料样本对应的实体标注对预训练的BERT语言模型进行微调,获得训练好的实体抽取模型。
本发明实施例提出一种基于BERT预训练的实体抽取方法,构建一个底层的BERT基础模型来彻底建模上下文关系,而通过fine-tuning来进一步构造出针对特定中文命名实体识别问题的特定模型,可充分描述字符级、词级、句子级甚至句间关系特征。应用于NER中的biLSTM-CRF模型主要由Embedding层(主要有词向量,字向量以及一些额外特征),双向LSTM层,以及最后的CRF层构成。在神经网络的输出层接入CRF层,利用标签转移概率来做句子级别的标签预测,使得标注过程不再是对各个token独立分类。
如图4所示,为本发明实施例提供的实体抽取装置的结构示意图,包括:
文本获取模块410,用于获取待识别文本;
具体地,文本获取模块410通过进行数据清洗等预处理操作获取待识别文本,待识别文本中仅保留了有用的文本信息。
在一个实施例中,文本获取模块410具体用于利用解析器对HTML网页进行解析,将所述HTML网页解析成文本,并进行数据清洗,仅保留有用的文本信息,获得待识别文本。
实体抽取模块420,用于将所述待识别文本输入至预先训练好的实体抽取模型中,获得所述待识别文本的实体抽取结果;
值得说明的是,本发明实施例提出了一种基于BERT语言模型的实体抽取模型。实体抽取模块420采用BERT构建一个底层的基础模型来彻底建模上下文关系,进一步增加词向量模型泛化能力,充分描述字符级、词级、句子级甚至句间关系特征。
所述实体抽取模型是基于语料样本和所述语料样本对应的实体标注进行训练获得的。
所述实体抽取模型包括BERT语言模型、双向长短期记忆网络LSTM层和条件随机场CRF层。
本发明实施例提供的实体抽取装置,采用BERT构建一个底层的基础模型来彻底建模上下文关系,进一步增加词向量模型泛化能力,充分描述字符级、词级、句子级甚至句间关系特征,利用标签转移概率来做句子级别的标签预测,使得实体标注过程是整体的,可以直接利用上文已经预测的标签,并且不仅能够对通用的多种类型的命名实体进行识别,还可以对特定的命名实体进行识别,识别精度高。
基于上述实施例的内容,所述实体抽取模块420具体用于:
将所述待识别文本输入至所述BERT语言模型中,获得所述待识别文本对应的字向量序列;
将所述待识别文本对应的字向量序列输入至所述双向长短期记忆网络LSTM层中进行语义关系提取;
将所述双向长短期记忆网络LSTM层的输出结果输入至所述条件随机场CRF层,通过利用标签转移概率来进行句子级别的标签预测,获得所述待识别文本的实体抽取结果。
具体地,实体抽取模块420将待识别文本输入至BERT语言模型中,获得所述待识别文本对应的实体相关的字向量序列;
然后,将待识别文本对应的字向量序列输入至双向长短期记忆网络LSTM层中进行上下文语义关系提取;
在所述实体抽取模型的输出层接入条件随机场CRF层,利用标签转移概率来做句子级别的标签预测,使得标注过程不再是对各个token独立分类。
基于上述实施例的内容,所述实体抽取装置还包括训练模块,其中,所述训练模块具体用于:
利用通用语料样本和所述通用语料样本对应的实体标注对基于BERT语言模型的实体抽取模型进行预训练;
利用特定实体语料样本和所述特定实体语料样本对应的实体标注对预训练的BERT语言模型进行微调,获得训练好的实体抽取模型。
具体地,本发明实施例通过对预训练的BERT语言模型进行微调,来实现对文本中的实体相关字向量序列进行提取。
首先,训练模块利用通用语料样本和所述通用语料样本对应的实体标注对基于BERT语言模型的实体抽取模型进行预训练,得到预训练的BERT语言模型;
然后,训练模块利用特定实体语料样本和所述特定实体语料样本对应的实体标注对预训练的BERT语言模型进行微调,获得训练好的实体抽取模型。
本发明实施例提出一种基于BERT预训练的实体抽取装置,构建一个底层的BERT基础模型来彻底建模上下文关系,而通过fine-tuning来进一步构造出针对特定中文命名实体识别问题的特定模型,可充分描述字符级、词级、句子级甚至句间关系特征。应用于NER中的biLSTM-CRF模型主要由Embedding层(主要有词向量,字向量以及一些额外特征),双向LSTM层,以及最后的CRF层构成。在神经网络的输出层接入CRF层,利用标签转移概率来做句子级别的标签预测,使得标注过程不再是对各个token独立分类。
图5为本发明实施例提供的电子设备的实体结构示意图,如图5所示,该电子设备可以包括:处理器(processor)510、通信接口(Communications Interface)520、存储器(memory)530和通信总线540,其中,处理器510,通信接口520,存储器530通过通信总线540完成相互间的通信。处理器510可以调用存储在存储器530上并可在处理器510上运行的计算机程序,以执行上述各方法实施例所提供的实体抽取方法,例如包括:获取待识别文本;将所述待识别文本输入至预先训练好的实体抽取模型中,获得所述待识别文本的实体抽取结果;其中,所述实体抽取模型是基于语料样本和所述语料样本对应的实体标注进行训练获得的,所述实体抽取模型包括BERT语言模型、双向长短期记忆网络LSTM层和条件随机场CRF层。
此外,上述的存储器530中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本发明实施例还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例提供的实体抽取方法,例如包括:获取待识别文本;将所述待识别文本输入至预先训练好的实体抽取模型中,获得所述待识别文本的实体抽取结果;其中,所述实体抽取模型是基于语料样本和所述语料样本对应的实体标注进行训练获得的,所述实体抽取模型包括BERT语言模型、双向长短期记忆网络LSTM层和条件随机场CRF层。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种实体抽取方法,其特征在于,包括:
获取待识别文本;
将所述待识别文本输入至预先训练好的实体抽取模型中,获得所述待识别文本的实体抽取结果;
其中,所述实体抽取模型是基于语料样本和所述语料样本对应的实体标注进行训练获得的,所述实体抽取模型包括BERT语言模型、双向长短期记忆网络LSTM层和条件随机场CRF层。
2.根据权利要求1所述的实体抽取方法,其特征在于,将所述待识别文本输入至预先训练好的实体抽取模型中,获得所述待识别文本的实体抽取结果,具体包括:
将所述待识别文本输入至所述BERT语言模型中,获得所述待识别文本对应的字向量序列;
将所述待识别文本对应的字向量序列输入至所述双向长短期记忆网络LSTM层中进行语义关系提取;
将所述双向长短期记忆网络LSTM层的输出结果输入至所述条件随机场CRF层,通过利用标签转移概率来进行句子级别的标签预测,获得所述待识别文本的实体抽取结果。
3.根据权利要求1所述的实体抽取方法,其特征在于,训练获得所述实体抽取模型的步骤,具体包括:
利用通用语料样本和所述通用语料样本对应的实体标注对基于BERT语言模型的实体抽取模型进行预训练;
利用特定实体语料样本和所述特定实体语料样本对应的实体标注对预训练的BERT语言模型进行微调,获得训练好的实体抽取模型。
4.根据权利要求1所述的实体抽取方法,其特征在于,所述获取待识别文本,具体为:
利用解析器对HTML网页进行解析,将所述HTML网页解析成文本,并进行数据清洗,仅保留有用的文本信息,获得待识别文本。
5.一种实体抽取装置,其特征在于,包括:
文本获取模块,用于获取待识别文本;
实体抽取模块,用于将所述待识别文本输入至预先训练好的实体抽取模型中,获得所述待识别文本的实体抽取结果;
其中,所述实体抽取模型是基于语料样本和所述语料样本对应的实体标注进行训练获得的,所述实体抽取模型包括BERT语言模型、双向长短期记忆网络LSTM层和条件随机场CRF层。
6.根据权利要求5所述的实体抽取装置,其特征在于,所述实体抽取模块具体用于:
将所述待识别文本输入至所述BERT语言模型中,获得所述待识别文本对应的字向量序列;
将所述待识别文本对应的字向量序列输入至所述双向长短期记忆网络LSTM层中进行语义关系提取;
将所述双向长短期记忆网络LSTM层的输出结果输入至所述条件随机场CRF层,通过利用标签转移概率来进行句子级别的标签预测,获得所述待识别文本的实体抽取结果。
7.根据权利要求5所述的实体抽取装置,其特征在于,还包括训练模块,所述训练模块具体用于:
利用通用语料样本和所述通用语料样本对应的实体标注对基于BERT语言模型的实体抽取模型进行预训练;
利用特定实体语料样本和所述特定实体语料样本对应的实体标注对预训练的BERT语言模型进行微调,获得训练好的实体抽取模型。
8.根据权利要求5所述的实体抽取装置,其特征在于,所述文本获取模块具体用于:
利用解析器对HTML网页进行解析,将所述HTML网页解析成文本,并进行数据清洗,仅保留有用的文本信息,获得待识别文本。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至4任一项所述实体抽取方法的步骤。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1至4任一项所述实体抽取方法的步骤。
CN202010039059.7A 2020-01-14 2020-01-14 实体抽取方法及装置 Pending CN113128227A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010039059.7A CN113128227A (zh) 2020-01-14 2020-01-14 实体抽取方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010039059.7A CN113128227A (zh) 2020-01-14 2020-01-14 实体抽取方法及装置

Publications (1)

Publication Number Publication Date
CN113128227A true CN113128227A (zh) 2021-07-16

Family

ID=76771170

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010039059.7A Pending CN113128227A (zh) 2020-01-14 2020-01-14 实体抽取方法及装置

Country Status (1)

Country Link
CN (1) CN113128227A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113449528A (zh) * 2021-08-30 2021-09-28 企查查科技有限公司 一种地址要素提取方法、装置、计算机设备和存储介质
CN113486153A (zh) * 2021-07-20 2021-10-08 上海明略人工智能(集团)有限公司 一种领域知识抽取方法、系统、电子设备及介质
CN113627189A (zh) * 2021-08-17 2021-11-09 青岛全掌柜科技有限公司 一种面向保险条款的实体识别信息抽取、存储、展示方法
CN113761891A (zh) * 2021-08-31 2021-12-07 国网冀北电力有限公司 电网文本数据实体识别方法、系统、设备及介质
CN115081451A (zh) * 2022-06-30 2022-09-20 中国电信股份有限公司 实体识别方法、装置、电子设备及存储介质
CN115080924A (zh) * 2022-07-25 2022-09-20 南开大学 一种基于自然语言理解的软件许可证条款抽取方法
CN116187342A (zh) * 2023-03-03 2023-05-30 北京青萌数海科技有限公司 一种提取商品标签的方法及系统

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113486153A (zh) * 2021-07-20 2021-10-08 上海明略人工智能(集团)有限公司 一种领域知识抽取方法、系统、电子设备及介质
CN113627189A (zh) * 2021-08-17 2021-11-09 青岛全掌柜科技有限公司 一种面向保险条款的实体识别信息抽取、存储、展示方法
CN113449528A (zh) * 2021-08-30 2021-09-28 企查查科技有限公司 一种地址要素提取方法、装置、计算机设备和存储介质
CN113449528B (zh) * 2021-08-30 2021-11-30 企查查科技有限公司 一种地址要素提取方法、装置、计算机设备和存储介质
CN113761891A (zh) * 2021-08-31 2021-12-07 国网冀北电力有限公司 电网文本数据实体识别方法、系统、设备及介质
CN115081451A (zh) * 2022-06-30 2022-09-20 中国电信股份有限公司 实体识别方法、装置、电子设备及存储介质
CN115080924A (zh) * 2022-07-25 2022-09-20 南开大学 一种基于自然语言理解的软件许可证条款抽取方法
CN115080924B (zh) * 2022-07-25 2022-11-15 南开大学 一种基于自然语言理解的软件许可证条款抽取方法
CN116187342A (zh) * 2023-03-03 2023-05-30 北京青萌数海科技有限公司 一种提取商品标签的方法及系统

Similar Documents

Publication Publication Date Title
Mohammed et al. Deep learning approaches for Arabic sentiment analysis
CN113128227A (zh) 实体抽取方法及装置
CN112784578B (zh) 法律要素提取方法、装置和电子设备
CN109086265B (zh) 一种语义训练方法、短文本中多语义词消歧方法
Suissa et al. Text analysis using deep neural networks in digital humanities and information science
CN113392209B (zh) 一种基于人工智能的文本聚类方法、相关设备及存储介质
US10915756B2 (en) Method and apparatus for determining (raw) video materials for news
CN111145914B (zh) 一种确定肺癌临床病种库文本实体的方法及装置
Rafail et al. Natural language processing
CN113947086A (zh) 样本数据生成方法、训练方法、语料生成方法和装置
Zeng et al. Modeling citation worthiness by using attention-based bidirectional long short-term memory networks and interpretable models
Rudra Murthy et al. A deep learning solution to named entity recognition
CN114357167A (zh) 基于Bi-LSTM-GCN的多标签文本分类方法和系统
Goyal et al. Recurrent neural network-based model for named entity recognition with improved word embeddings
JP7043373B2 (ja) 情報処理装置、情報処理方法、およびプログラム
CN114676699A (zh) 实体情感分析方法、装置、计算机设备和存储介质
CN115114924A (zh) 命名实体识别方法、装置、计算设备和存储介质
Kozhirbayev et al. Document and word-level language identification for noisy user generated text
CN113377910A (zh) 情感评价方法、装置、电子设备和存储介质
Wang et al. FHTC: Few-shot hierarchical text classification in financial domain
Sabharwal et al. Introduction to Natural Language Processing
CN116089602B (zh) 信息处理方法、装置、电子设备、存储介质和程序产品
Cai et al. Improving word embeddings by emphasizing co-hyponyms
Freeman et al. Detecting anomalies in sequences of short text using iterative language models
Zhang et al. Distant supervision for Chinese temporal tagging

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination