CN110704633B - 命名实体识别方法、装置、计算机设备及存储介质 - Google Patents
命名实体识别方法、装置、计算机设备及存储介质 Download PDFInfo
- Publication number
- CN110704633B CN110704633B CN201910832541.3A CN201910832541A CN110704633B CN 110704633 B CN110704633 B CN 110704633B CN 201910832541 A CN201910832541 A CN 201910832541A CN 110704633 B CN110704633 B CN 110704633B
- Authority
- CN
- China
- Prior art keywords
- named entity
- text
- training
- sample data
- identified
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
- Character Discrimination (AREA)
Abstract
本发明提供一种命名实体识别方法,包括:获取初始样本数据集,若初始样本数据集中的训练文本数量达到预设阈值,根据初始样本数据集对的命名实体识别模型进行训练;利用训练得到的命名实体识别模型对第一待识别文本进行处理,得到命名实体自动标注结果;比对命名实体自动标注结果与命名实体人工标注结果是否相同,若相同,则将命名实体自动标注结果作为目标命名实体标注结果,否则输出第一人工审核通知,并接收响应第一人工审核通知的第一目标命名实体标注结果;比对命名实体自动标注结果与第一目标命名实体标注结果是否相同,若不相同,则将第一待识别文本加入初始样本数据集中。本发明可以提高命名实体识别的准确率。
Description
技术领域
本发明属于计算机技术领域,尤其涉及一种命名实体识别方法、装置、计算机设备及存储介质。
背景技术
命名实体(例如时间、人名、地名、组织机构名称、特定领域词汇等)识别是自然语言理解的一个重要组成部分,常用于信息抽取、实体链接等自然语言处理场景中。在现有技术中,一般采用CRF(Conditional Random Field,条件随机场)模型、RNN(RecurrentNeural Network,循环神经网络)或LSTM(long-short term memory,长短期记忆)+CRF模型等方式对第一待识别文本进行命名实体识别。然而,无论采用CRF模型或RNN或LSTM+CRF模型进行命名实体识别,准确率都不高。
发明内容
针对上述现有技术的不足,本发明提供一种识别准确率高的命名实体识别方法,以解决现有技术命名实体识别准确不高的问题。
为了实现上述目的,本发明提供一种命名实体识别方法,包括以下步骤:
从样本数据库中获取初始样本数据集,该初始样本数据集中包含多个训练文本以及各训练文本对应的命名实体标注结果;
判断所述初始样本数据集中的训练文本数量是否达到预设阈值,若是,则执行如下操作:
根据所述初始样本数据集对预设的命名实体识别模型进行训练;
接收第一待识别文本,并对所述第一待识别文本进行预处理;
利用训练得到的命名实体识别模型对预处理后的第一待识别文本进行处理,得到所述第一待识别文本的命名实体自动标注结果;
比对所述命名实体自动标注结果与预先获得的命名实体人工标注结果是否相同,若相同,则将所述命名实体自动标注结果作为所述第一待识别文本的目标命名实体标注结果,若不相同,则输出第一人工审核通知,并接收响应所述第一人工审核通知的第一目标命名实体标注结果;
比对所述命名实体自动标注结果与接收到的所述第一目标命名实体标注结果是否相同,若不相同,则将所述第一待识别文本及所述第一待识别文本对应的第一目标命名实体标注结果加入所述初始样本数据集中,以便在所述初始样本数据集中的训练文本达到预设数量时,根据训练文本达到预设数量的初始样本数据集对命名实体识别模型进行重新训练。
在本发明一个实施例中,,当所述判断所述初始样本数据集中的训练文本数量是否达到预设阈步骤的判断结果为否时,执行以下操作:
对所述初始样本数据集中的训练文本的语句顺序进行N次打乱处理,生成N个不同的新样本数据集,其中N取正整数;
根据所述初始样本数据集对所述预设的命名实体识别模型进行训练,并根据所述N个不同的新样本数据集分别对所述预设的命名实体识别模型进行训练,得到N+1个训练后的命名实体识别模型;
根据所述初始样本数据集对所述预设的命名实体识别模型进行训练,并根据所述N个不同的新样本数据集分别对所述预设的命名实体识别模型进行训练,得到N+1个训练后的命名实体识别模型;
接收第二待识别文本,并对所述第二待识别文本进行预处理;
利用所述N+1个训练后的命名实体识别模型分别对预处理后的第二待识别文本进行处理,得到所述第二待识别文本对应的N+1个命名实体自动标注结果;
比对所述N+1个命名实体标注结果是否相同,若相同,则将相同的命名实体自动标注结果作为所述第二待识别文本的目标命名实体标注结果,若不相同,则输出第二人工审核通知,并接收响应所述第二人工审核通知的第二目标命名实体标注结果;
将所述第二待识别文本及所述第二待识别文本对应的第二目标命名实体标注结果加入所述初始样本数据集中,直到所述初始样本数据集中的训练文本数量达到预设阈值。
在本发明一个实施例中,所述根据所述初始样本数据集对命名实体识别模型进行训练的步骤包括:
将所述初始样本数据集划分为训练集、验证集和测试集;
根据所述训练集对命名实体识别模型进行训练;
根据所述验证集对经过训练的命名实体识别模型进行验证;
根据所述测试集对经过验证的命名实体识别模型进行测试,若测试成功,训练结束。
在本发明一个实施例中,所述命名实体识别模型包括BERT层和CRF层。
在本发明一个实施例中,所述利用训练得到的命名实体识别模型对预处理后的第一待识别文本进行处理,得到所述第一待识别文本的命名实体自动标注结果的步骤包括:
利用BERT层对所述第一待识别文本对应的输入序列进行处理,得到所述第一待识别文本的文本特征序列;
利用CRF层对所述第一待识别文本的文本特征序列进行处理,得到所述第一待识别文本的命名实体自动标注结果。
在本发明一个实施例中,所述从样本数据库中获取初始样本数据集的步骤具体包括:
从所述样本数据库中获取所述初始样本数据集,所述初始样本数据集包含多个训练文本,各训练文本中不同类别的命名实体已预先设置为不同的字体样式;
根据各训练文本中每个词的字体样式,获取各训练文本对应的命名实体标注结果。
在本发明一个实施例中,所述对所述第一待识别文本进行预处理的步骤包括:
对所述第一待识别文本进行文本序列化处理。
为了实现上述目的,本发明还提供一种命名实体识别装置,包括:
初始样本数据集获取模块,用于从样本数据库中获取初始样本数据集,该初始样本数据集中包含多个训练文本以及各训练文本对应的命名实体标注结果;
判断模块,用于判断所述初始样本数据集中的训练文本数量是否达到预设阈值:
第一模型训练模块,用于在所述判断模块的结果为是时,根据所述初始样本数据集对预设的命名实体识别模型进行训练;
第一文本接收模块,用于接收第一待识别文本,并对所述第一待识别文本进行预处理;
第一模型处理模块,用于利用训练得到的命名实体识别模型对预处理后的第一待识别文本进行处理,得到所述第一待识别文本的命名实体自动标注结果;
第一比对模块,用于比对所述命名实体自动标注结果与预先获得的命名实体人工标注结果是否相同,若相同,则将所述命名实体自动标注结果作为所述第一待识别文本的目标命名实体标注结果,若不相同,则输出第一人工审核通知,并接收响应所述第一人工审核通知的第一目标命名实体标注结果;
第二比对模块,用于比对所述命名实体自动标注结果与接收到的所述第一目标命名实体标注结果是否相同;
第一样本增加模块,用于在所述命名实体自动标注结果与接收到的第一目标命名实体标注结果不相同时,将所述第一待识别文本及所述第一待识别文本对应的第一目标命名实体标注结果加入所述初始样本数据集中,以便在所述初始样本数据集中的训练文本达到预设数量时,根据训练文本达到预设数量的初始样本数据集对命名实体识别模型进行重新训练。
在本发明一个实施例中,所述装置还包括:
新样本数据集获取模块,用于在所述判断模块的判断结果为否时,对所述初始样本数据集中的训练文本的语句顺序进行N次打乱处理,生成N个不同的新样本数据集,其中N取正整数;
第二模型训练模块,用于根据所述初始样本数据集和每个所述新样本数据集分别训练得到一个命名实体识别模型;
第二文本接收模块,用于接收第二待识别文本,并对所述第二待识别文本进行预处理;
第二模型处理模块,用于利用训练得到的各命名实体识别模型分别对预处理后的第二待识别文本进行处理,得到所述第二待识别文本对应的N+1个命名实体自动标注结果;
第三比对模块,用于比对所述N+1个命名实体标注结果是否相同,若相同,则将相同的命名实体自动标注结果作为所述第二待识别文本的目标命名实体标注结果,若不相同,则输出第二人工审核通知,并接收响应所述第二人工审核通知的第二目标命名实体标注结果;
第二样本增加模块,用于将所述第二待识别文本及所述第二待识别文本对应的第二目标命名实体标注结果加入所述初始样本数据集中,直到所述初始样本数据集中的训练文本数量达到预设阈值。
在本发明一个实施例中,所述第一模型训练模块具体用于:
将所述初始样本数据集划分为训练集、验证集和测试集;
根据所述训练集对命名实体识别模型进行训练;
根据所述验证集对经过训练的命名实体识别模型进行验证;
根据所述测试集对经过验证的命名实体识别模型进行测试,若测试成功,训练结束。
在本发明一个实施例中,所述命名实体识别模型包括BERT层和CRF层。
在本发明一个实施例中,所述第一模型处理模块具体用于:
利用BERT层对所述第一待识别文本对应的输入序列进行处理,得到所述第一待识别文本对应的文本特征序列;
利用CRF层对所述第一待识别文本的文本特征序列进行处理,得到所述第一待识别文本的命名实体自动标注结果。
在本发明一个实施例中,所述初始样本数据集获取模块具体用于:
从所述样本数据库中获取所述初始样本数据集,所述初始样本数据集包含多个训练文本,各训练文本中不同类别的命名实体已预先设置为不同的字体样式;
根据各训练文本中每个词的字体样式,获取各训练文本对应的命名实体标注结果。
在本发明一个实施例中,所述预处理为文本序列化处理。
为了实现上述目的,本发明还提供一种计算机设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现前述方法的步骤。
为了实现上述目的,本发明还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现前述方法的步骤。
通过采用上述技术方案,本发明具有如下有益效果:
本发明对第一待识别文本进行命名实体识别后,比对命名实体自动标注结果与预先获得的命名实体人工标注结果是否相同,若不相同,则输出第一人工审核通知,并接收响应所述第一人工审核通知的第一目标命名实体标注结果;若所述命名实体自动标注结果与第一目标命名实体标注结果不相同,则所述第一待识别文本及所述第一待识别文本对应的第一目标命名实体标注结果加入所述初始样本数据集中,以在所述初始样本数据集中的训练文本达到预设数量时,根据训练文本达到预设数量的初始样本数据集对命名实体识别模型进行重新训练,从而提高了模型的准确度,进而提高命名实体识别的准确率。
附图说明
图1为本发明一种命名实体识别方法的一个实施例的流程图;
图2为本发明中命名实体识别模型的原理图;
图3为本发明一种命名实体识别装置的一个实施例的结构框图;
图4为本发明计算机设备的一个实施例的硬件架构图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一
本实施例提供一种命名实体识别方法,如图1所示,包括以下步骤:
S1,从样本数据库中获取初始样本数据集,该初始样本数据集中包含多个训练文本以及各训练文本对应的命名实体标注结果。在本实施例中,训练文本为.doc或.docx格式的文本,训练文本中可包含时间、人名、地点、组织机构名称、公司名称、国家名称、经济词汇、交易类型、经济质量指标、产品名称等各种不同类别的命名实体。其中,各训练文本中不同类别的命名实体已预先设置为不同的字体样式,如设置为不同的字体颜色。在此情况下,步骤S1具体包括如下过程:首先,从样本数据库中获取初始样本数据集,初始样本数据集包含多个训练文本,各训练文本中不同类别的命名实体已预先设置为不同的字体样式;而后,根据各训练文本中每个词的字体样式(如字体颜色属性),获取各训练文本对应的命名实体标注结果。例如,假设预先通过人工将训练文本中的人名字体设置为红色,时间字体设置为黄色,地点字体设置为蓝色、组织机构名称设置为绿色,非命名实体设置为黑色,则将训练文本中红色字体的词标注为人名命名实体识别标签PERS,黄色字体的词标注为时间命名实体识别标签TIME,蓝色字体的词标注为地点命名实体识别标签LOC,绿色字体的词标注为组织机构名称命名实体识别标签ORGE,黑色字体的词标注为非命名实体标签O,在此不一一列举。
S2,判断初始样本数据集中的训练文本数量是否达到预设阈值,若是,执行步骤S3。
S3,根据初始样本数据集对命名实体识别模型进行训练。在本实施例中,如图2所示,命名实体识别模型包含BERT层和CRF层,即,本实施例的命名实体识别模型是通过在BERT模型的基础上再拼接一层CRF模型而构成。
BERT模型是由Google公司发布的自然语言处理模型,其框架如图2所示,具有双向Transformer编码器(即图中的双层Trm),通过双向Transformer编码器的处理,能充分考虑上下文词与词之间的关系,使得命名实体标注结果更加准确。如图2所示,tok1、tok2、…、tokN表示训练文本的输入序列,E1、E2、…、EN表示tok1、tok2、…、tokN分别对应的向量,各向量分别输入前向层Transformer中的每一个Transformer编码器,将前向层Transformer中的每一个Transformer编码器的输出作为后向层Transformer中的每一个Transformer编码器的输入,将后向层Transformer中的各Transformer编码器输出的结果通过softmax函数做归一化处理,得到每个词对应命名实体类别的概率矩阵T1、T2、…、TN。
CRF模型是一种判别式概率模型,是随机场的一种,常用于标注或分析序列资料,如自然语言文字序列,对于输入的长度为N的序列T[T1、T2…Ti…TN],假设标签的标注结果为[y1,…,yN],则CRF模型将在已知序列X的条件下,找出使得[y1,…,yN]的概率P(y1,…,yN)最大的序列[Y1,…,YN],然后预测每个词的标签,即得到命名实体识别结果。
在本实施例中,步骤S3具体通过如下步骤实现:首先,将初始样本数据集划分为训练集、验证集和测试集;而后,根据训练集对命名实体识别模型进行训练;当训练完成后,根据验证集对经过训练的命名实体识别模型的准确率等性能进行验证;当验证通过后,根据测试集对经过验证的命名实体识别模型进行测试,若测试成功,训练结束。其中,根据训练集对命名实体识别模型进行训练的过程如下:将训练集中的样本数据输入到BERT层,再将BERT层的输出结果输入到CRF层,以对BERT层和CRF层的训练参数进行迭代训练。
S4,接收第一待识别文本,并对第一待识别文本进行预处理,此处的预处理具体是指文本序列化处理。具体来说,首先对第一待识别文本中的语句进行词处理,并在语句的前面加上开始标志符CLS,在两个语句之间加上分隔标志符SEP。例如,假设第一待识别文本为“小明喜欢看NBA”,则对应的输入序列为“[CLS]、小明、喜欢、看、NBA”。
S5,利用训练得到的命名实体识别模型对预处理后的第一待识别文本进行处理,得到第一待识别文本的命名实体自动标注结果。具体包括以下步骤:
S51,利用BERT层对第一待识别文本对应的输入序列进行处理,得到待识别文本对应的文本特征序列。具体处理过程如下:
首先,对待识别文本对应的输入序列中每个词或标志符([CLS]、[SEP])进行词编码、对每个词或标志符所在的段落进行段落编码,对每个词或标志符在相应语句中的位置进行位置编码,从而得到每个词或标志符对应的词嵌入表征向量、段落嵌入表征向量和位置嵌入表征向量,并将对应的词嵌入表征向量、段落嵌入表征向量和位置嵌入表征向量拼接组合成各词或标志符对应的总向量。例如,某词对应的词嵌入表征向量为Etoken=[0.05,0.82,0.03,0.05]、段落嵌入表征向量为Esegment=[0,0,0,0]、位置嵌入表征向量为Eposition=[0,1,2,3],则该词对应的总向量E=[0.05,0.82,0.03,0.05,0,0,0,0,0,1,2,3]。
而后,将输入序列中每个词或标志符对应的总向量输入前向层Transformer中的每一个Transformer编码器,将前向层Transformer中的每一个Transformer编码器的输出结果作为后向层Transformer中的每一个Transformer编码器的输入,将后向层Transformer中的各Transformer编码器的输出结果通过softmax函数做归一化处理,得到输入序列中每个词对应命名实体类别的概率矩阵,作为第一待识别文本对应的文本特征序列。
S52,利用CRF层对第一待识别文本的文本特征序列进行处理,以预测第一待识别文本中各词的命名实体标签,得到第一待识别文本的命名实体自动标注结果。例如,针对待识别文本“小明在北京大学的图书馆学习”,标注结果将如下表1所示:
表1
命名实体识别结果 | PERS | O | ORG | O | LOC | O |
待识别文本 | 小明 | 在 | 北京大学 | 的 | 图书馆 | 学习 |
S6,比对命名实体自动标注结果与预先获得的命名实体人工标注结果是否相同,若相同,认为第一待识别文本的命名实体自动标注结果是准确的,则将命名实体自动标注结果作为第一待识别文本的目标命名实体标注结果;若不相同,则认为第一待识别文本的命名实体自动标注结果可能是错误的,则输出第一人工审核通知,工作人员接收到通知后进行审核,并返回第一待识别文本的目标命名实体标注结果,记为第一目标命名实体标注结果,从而可以接收到响应第一人工审核通知的第一目标命名实体标注结果。
S7,比对第一待识别文本的命名实体自动标注结果与接收到的第一目标命名实体标注结果是否相同,若相同,流程结束,若不相同,认为第一待识别文本的命名实体自动标注结果是错误的,则将第一待识别文本及第一待识别文本对应的第一目标命名实体标注结果加入初始样本数据集中,以在初始样本数据集中的训练文本达到预设数量时,根据训练文本达到预设数量的初始样本数据集对命名实体识别模型进行重新训练,从而提高了模型的准确度。
回到步骤S2,当判断得到初始样本数据集中的训练文本数量未达到预设阈值时,则执行以下操作:
S21,对初始样本数据集中的训练文本的语句顺序进行N次打乱处理,生成N个不同的新样本数据集,其中N取正整数。可以理解,一个训练文本的语句打乱后,可以得到一个新的训练文本,初始样本数据集中的所有训练文本的语句打乱后,即可得到一个新的样本数据集,随机打乱N次可得到N个不同的新样本数据集。
S22,根据初始样本数据集对前述预设的命名实体识别模型进行训练,并根据所述N个不同的新样本数据集分别对前述预设的命名实体识别模型进行训练,从而得到N+1个训练后的命名实体识别模型。可以理解,根据初始样本数据集可以训练得到一个命名实体识别模型,根据一个新样本数据集也可以训练得到一个命名实体识别模型,则根据初始样本数据集和N个新样本数据集可以训练得到N+1个命名实体识别模型。
S23,接收第二待识别文本,并对第二待识别文本进行预处理。其中,对第二待识别文本的预处理过程与对第一待识别文本的预处理过程是相同的,故在此不再赘述。
S24,利用前述N+1个训练后的训练得到的N+1个命名实体识别模型分别对的预处理后的第二待识别文本进行处理,可以理解,利用一个命名实体识别模型对第二待识别文本处理,可以得到一个命名实体自动标注结果,则利用N+1个命名实体识别模型对第二待识别文本进行处理,可以得到第二待识别文本对应的N+1个命名实体自动标注结果。
S25,比对前述N+1个命名实体标注结果是否相同,若相同,则认为相同的命名实体自动标注结果是正确的,将相同的命名实体自动标注结果作为第二待识别文本的目标命名实体标注结果,若不相同,则输出第二人工审核通知,工作人员接收到通知后进行审核,并返回第二待识别文本的目标命名实体标注结果,记为第二目标命名实体标注结果,从而可以接收到响应第二人工审核通知的第二目标命名实体标注结果;
S26,将第二待识别文本及第二待识别文本对应的第二目标命名实体标注结果加入初始样本数据集中,直到初始样本数据集中的训练文本数量达到预设阈值,而后执行步骤S3,从而提高模型的准确度,进而提高命名实体识别的准确性。
需要说明的是,对于本实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明所必须的。
实施例二
本实施例提供一种命名实体识别装置10,如图3所示,包括:
初始样本数据集获取模块101,用于从样本数据库中获取初始样本数据集,该初始样本数据集中包含多个训练文本以及各训练文本对应的命名实体标注结果;
判断模块102,用于判断初始样本数据集中的训练文本数量是否达到预设阈值:
第一模型训练模块103,用于在判断模块的结果为是时,根据初始样本数据集对预设的命名实体识别模型进行训练;
第一文本接收模块104,用于接收第一待识别文本,并对第一待识别文本进行预处理;
第一模型处理模块105,用于利用训练得到的命名实体识别模型对预处理后的第一待识别文本进行处理,得到所述第一待识别文本的命名实体自动标注结果;
第一比对模块106,用于比对命名实体自动标注结果与预先获得的命名实体人工标注结果是否相同,若相同,则将命名实体自动标注结果作为第一待识别文本的目标命名实体标注结果,若不相同,则输出第一人工审核通知,并接收响应第一人工审核通知的第一目标命名实体标注结果;
第二比对模块107,用于比对命名实体自动标注结果与接收到的第一目标命名实体标注结果是否相同;
第一样本增加模块108,用于在命名实体自动标注结果与接收到的第一目标命名实体标注结果不相同时,将第一待识别文本及第一待识别文本对应的第一目标命名实体标注结果加入初始样本数据集中,以便在初始样本数据集中的训练文本达到预设数量时,根据训练文本达到预设数量的初始样本数据集对命名实体识别模型进行重新训练。
在本发明一个实施例中,命名实体识别装置10还包括:
新样本数据集获取模块109,用于在判断模块的判断结果为否时,对初始样本数据集中的训练文本的语句顺序进行N次打乱处理,生成N个不同的新样本数据集,其中N取正整数;
第二模型训练模块110,根据初始样本数据集对所述预设的命名实体识别模型进行训练,并根据N个不同的新样本数据集分别对所述预设的命名实体识别模型进行训练,得到N+1个训练后的命名实体识别模型;
第二文本接收模块111,用于接收第二待识别文本,并对第二待识别文本进行预处理;
第二模型处理模块112,用于利用所述N+1个训练后的命名实体识别模型分别对预处理后的第二待识别文本进行处理,得到第二待识别文本对应的N+1个命名实体自动标注结果;
第三比对模块113,用于比对N+1个命名实体标注结果是否相同,若相同,则将相同的命名实体自动标注结果作为第二待识别文本的目标命名实体标注结果,若不相同,则输出第二人工审核通知,并接收响应第二人工审核通知的第二目标命名实体标注结果;
第二样本增加模块114,用于将第二待识别文本及第二待识别文本对应的第二目标命名实体标注结果加入初始样本数据集中,直到初始样本数据集中的训练文本数量达到预设阈值。
在本发明一个实施例中,第一模型训练模块具体用于:
将初始样本数据集划分为训练集、验证集和测试集;
根据训练集对命名实体识别模型进行训练;
根据验证集对经过训练的命名实体识别模型进行验证;
根据测试集对经过验证的命名实体识别模型进行测试,若测试成功,训练结束。
在本发明一个实施例中,命名实体识别模型包括BERT层和CRF层。
在本发明一个实施例中,第一模型处理模块具体用于:
利用BERT层对第一待识别文本对应的输入序列进行处理,得到第一待识别文本对应的文本特征序列;
利用CRF层对第一待识别文本的文本特征序列进行处理,得到第一待识别文本的命名实体自动标注结果。
在本发明一个实施例中,初始样本数据集获取模块具体用于:
从样本数据库中获取初始样本数据集,初始样本数据集包含多个训练文本,各训练文本中不同类别的命名实体已预先设置为不同的字体样式;
根据各训练文本中每个词的字体样式,获取各训练文本对应的命名实体标注结果。
在本发明一个实施例中,预处理为文本序列化处理。
本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的模块作并不一定是本发明所必须的。
实施例三
本发明还提供一种计算机设备,如可以执行程序的智能手机、平板电脑、笔记本电脑、台式计算机、机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器,或者多个服务器所组成的服务器集群)等。本实施例的计算机设备20至少包括但不限于:可通过系统总线相互通信连接的存储器21、处理器22,如图4所示。需要指出的是,图4仅示出了具有组件21-22的计算机设备20,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。
本实施例中,存储器21(即可读存储介质)包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,存储器21可以是计算机设备20的内部存储单元,例如该计算机设备20的硬盘或内存。在另一些实施例中,存储器21也可以是计算机设备20的外部存储设备,例如该计算机设备20上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。当然,存储器21还可以既包括计算机设备20的内部存储单元也包括其外部存储设备。本实施例中,存储器21通常用于存储安装于计算机设备20的操作系统和各类应用软件,例如实施例二的命名实体识别置10的程序代码等。此外,存储器21还可以用于暂时地存储已经输出或者将要输出的各类数据。
处理器22在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器22通常用于控制计算机设备20的总体操作。本实施例中,处理器22用于运行存储器21中存储的程序代码或者处理数据,例如运行命名实体识别装置10,以实现实施例一的命名实体识别方法。
实施例四
本发明还提供一种计算机可读存储介质,如闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘、服务器、App应用商城等等,其上存储有计算机程序,程序被处理器执行时实现相应功能。本实施例的计算机可读存储介质用于存储命名实体识别装置10,被处理器执行时实现实施例一的命名实体识别方法。
Claims (9)
1.一种命名实体识别方法,其特征在于,包括以下步骤:
从样本数据库中获取初始样本数据集,该初始样本数据集中包含多个训练文本以及各训练文本对应的命名实体标注结果;
判断所述初始样本数据集中的训练文本数量是否达到预设阈值,若是,则执行如下操作:
根据所述初始样本数据集对预设的命名实体识别模型进行训练;
接收第一待识别文本,并对所述第一待识别文本进行预处理;
利用训练得到的命名实体识别模型对预处理后的第一待识别文本进行处理,得到所述第一待识别文本的命名实体自动标注结果;
比对所述命名实体自动标注结果与预先获得的命名实体人工标注结果是否相同,若相同,则将所述命名实体自动标注结果作为所述第一待识别文本的目标命名实体标注结果,若不相同,则输出第一人工审核通知,并接收响应所述第一人工审核通知的第一目标命名实体标注结果;
比对所述命名实体自动标注结果与接收到的所述第一目标命名实体标注结果是否相同,若不相同,则将所述第一待识别文本及所述第一待识别文本对应的第一目标命名实体标注结果加入所述初始样本数据集中,以便在所述初始样本数据集中的训练文本达到预设数量时,根据训练文本达到预设数量的初始样本数据集对命名实体识别模型进行重新训练;
当所述判断所述初始样本数据集中的训练文本数量是否达到预设阈步骤的判断结果为否时,执行以下操作:
对所述初始样本数据集中的训练文本的语句顺序进行N次打乱处理,生成N个不同的新样本数据集,其中N取正整数;
根据所述初始样本数据集对所述预设的命名实体识别模型进行训练,并根据所述N个不同的新样本数据集分别对所述预设的命名实体识别模型进行训练,得到N+1个训练后的命名实体识别模型;
接收第二待识别文本,并对所述第二待识别文本进行预处理;
利用所述N+1个训练后的命名实体识别模型分别对预处理后的第二待识别文本进行处理,得到所述第二待识别文本对应的N+1个命名实体自动标注结果;
比对所述N+1个命名实体标注结果是否相同,若相同,则将相同的命名实体自动标注结果作为所述第二待识别文本的目标命名实体标注结果,若不相同,则输出第二人工审核通知,并接收响应所述第二人工审核通知的第二目标命名实体标注结果;
将所述第二待识别文本及所述第二待识别文本对应的第二目标命名实体标注结果加入所述初始样本数据集中,直到所述初始样本数据集中的训练文本数量达到预设阈值。
2.根据权利要求1所述的命名实体识别方法,其特征在于,所述根据所述初始样本数据集对命名实体识别模型进行训练的步骤包括:
将所述初始样本数据集划分为训练集、验证集和测试集;
根据所述训练集对命名实体识别模型进行训练;
根据所述验证集对经过训练的命名实体识别模型进行验证;
根据所述测试集对经过验证的命名实体识别模型进行测试,若测试成功,训练结束。
3.根据权利要求1所述的命名实体识别方法,其特征在于,所述命名实体识别模型包括BERT层和CRF层。
4.根据权利要求3所述的命名实体识别方法,其特征在于,所述利用训练得到的命名实体识别模型对预处理后的第一待识别文本进行处理,得到所述第一待识别文本的命名实体自动标注结果的步骤包括:
利用BERT层对所述第一待识别文本对应的输入序列进行处理,得到所述第一待识别文本的文本特征序列;
利用CRF层对所述第一待识别文本的文本特征序列进行处理,得到所述第一待识别文本的命名实体自动标注结果。
5.根据权利要求1所述的命名实体识别方法,其特征在于,所述从样本数据库中获取初始样本数据集的步骤具体包括:
从所述样本数据库中获取所述初始样本数据集,所述初始样本数据集包含多个训练文本,各训练文本中不同类别的命名实体已预先设置为不同的字体样式;
根据各训练文本中每个词的字体样式,获取各训练文本对应的命名实体标注结果。
6.根据权利要求1所述的命名实体识别方法,其特征在于,所述对所述第一待识别文本进行预处理的步骤包括:
对所述第一待识别文本进行文本序列化处理。
7.一种命名实体识别装置,其特征在于,包括:
初始样本数据集获取模块,用于从样本数据库中获取初始样本数据集,该初始样本数据集中包含多个训练文本以及各训练文本对应的命名实体标注结果;
判断模块,用于判断所述初始样本数据集中的训练文本数量是否达到预设阈值:
第一模型训练模块,用于在所述判断模块的结果为是时,根据所述初始样本数据集对预设的命名实体识别模型进行训练;
第一文本接收模块,用于接收第一待识别文本,并对所述第一待识别文本进行预处理;
第一模型处理模块,用于利用训练得到的命名实体识别模型对预处理后的第一待识别文本进行处理,得到所述第一待识别文本的命名实体自动标注结果;
第一比对模块,用于比对所述命名实体自动标注结果与预先获得的命名实体人工标注结果是否相同,若相同,则将所述命名实体自动标注结果作为所述第一待识别文本的目标命名实体标注结果,若不相同,则输出第一人工审核通知,并接收响应所述第一人工审核通知的第一目标命名实体标注结果;
第二比对模块,用于比对所述命名实体自动标注结果与接收到的所述第一目标命名实体标注结果是否相同;
第一样本增加模块,用于在所述命名实体自动标注结果与接收到的第一目标命名实体标注结果不相同时,将所述第一待识别文本及所述第一待识别文本对应的第一目标命名实体标注结果加入所述初始样本数据集中,以便在所述初始样本数据集中的训练文本达到预设数量时,根据训练文本达到预设数量的初始样本数据集对命名实体识别模型进行重新训练;
新样本数据集获取模块,用于在所述判断模块的判断结果为否时,对所述初始样本数据集中的训练文本的语句顺序进行N次打乱处理,生成N个不同的新样本数据集,其中N取正整数;
第二模型训练模块,用于根据所述初始样本数据集和每个所述新样本数据集分别训练得到一个命名实体识别模型;
第二文本接收模块,用于接收第二待识别文本,并对所述第二待识别文本进行预处理;
第二模型处理模块,用于利用训练得到的各命名实体识别模型分别对预处理后的第二待识别文本进行处理,得到所述第二待识别文本对应的N+1个命名实体自动标注结果;
第三比对模块,用于比对所述N+1个命名实体标注结果是否相同,若相同,则将相同的命名实体自动标注结果作为所述第二待识别文本的目标命名实体标注结果,若不相同,则输出第二人工审核通知,并接收响应所述第二人工审核通知的第二目标命名实体标注结果;
第二样本增加模块,用于将所述第二待识别文本及所述第二待识别文本对应的第二目标命名实体标注结果加入所述初始样本数据集中,直到所述初始样本数据集中的训练文本数量达到预设阈值。
8.一种计算机设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6任一项所述方法的步骤。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6任一项所述方法的步骤。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910832541.3A CN110704633B (zh) | 2019-09-04 | 2019-09-04 | 命名实体识别方法、装置、计算机设备及存储介质 |
PCT/CN2020/112303 WO2021043085A1 (zh) | 2019-09-04 | 2020-08-29 | 命名实体识别方法、装置、计算机设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910832541.3A CN110704633B (zh) | 2019-09-04 | 2019-09-04 | 命名实体识别方法、装置、计算机设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110704633A CN110704633A (zh) | 2020-01-17 |
CN110704633B true CN110704633B (zh) | 2023-07-21 |
Family
ID=69194309
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910832541.3A Active CN110704633B (zh) | 2019-09-04 | 2019-09-04 | 命名实体识别方法、装置、计算机设备及存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN110704633B (zh) |
WO (1) | WO2021043085A1 (zh) |
Families Citing this family (41)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110704633B (zh) * | 2019-09-04 | 2023-07-21 | 平安科技(深圳)有限公司 | 命名实体识别方法、装置、计算机设备及存储介质 |
CN111259134B (zh) * | 2020-01-19 | 2023-08-08 | 出门问问信息科技有限公司 | 一种实体识别方法、设备及计算机可读存储介质 |
CN111444718A (zh) * | 2020-03-12 | 2020-07-24 | 泰康保险集团股份有限公司 | 一种保险产品需求文档处理方法、装置及电子设备 |
CN111414950B (zh) * | 2020-03-13 | 2023-08-18 | 天津美腾科技股份有限公司 | 基于标注者专业度管理的矿石图片标注方法和系统 |
CN111597813A (zh) * | 2020-05-21 | 2020-08-28 | 上海创蓝文化传播有限公司 | 一种基于命名实体识别提取短信文本摘要的方法及装置 |
CN111522958A (zh) * | 2020-05-28 | 2020-08-11 | 泰康保险集团股份有限公司 | 文本分类方法和装置 |
CN111738004B (zh) * | 2020-06-16 | 2023-10-27 | 中国科学院计算技术研究所 | 一种命名实体识别模型的训练方法及命名实体识别的方法 |
CN111797629B (zh) * | 2020-06-23 | 2022-07-29 | 平安医疗健康管理股份有限公司 | 医疗文本数据的处理方法、装置、计算机设备和存储介质 |
CN111881296A (zh) * | 2020-07-31 | 2020-11-03 | 深圳市万物云科技有限公司 | 一种基于社区场景的工单处理方法及相关组件 |
CN112257441B (zh) * | 2020-09-15 | 2024-04-05 | 浙江大学 | 一种基于反事实生成的命名实体识别增强方法 |
CN112487817A (zh) * | 2020-12-14 | 2021-03-12 | 北京明略软件系统有限公司 | 命名实体识别模型训练方法、样本标注方法、装置及设备 |
CN112507082B (zh) * | 2020-12-16 | 2024-08-16 | 作业帮教育科技(北京)有限公司 | 一种智能识别不当文本交互的方法、装置和电子设备 |
CN112633002A (zh) * | 2020-12-29 | 2021-04-09 | 上海明略人工智能(集团)有限公司 | 样本标注、模型训练、命名实体识别方法和装置 |
CN112765985B (zh) * | 2021-01-13 | 2023-10-27 | 中国科学技术信息研究所 | 一种面向特定领域专利实施例的命名实体识别方法 |
CN112686047B (zh) * | 2021-01-21 | 2024-03-29 | 北京云上曲率科技有限公司 | 一种基于命名实体识别的敏感文本识别方法、装置、系统 |
CN112818691A (zh) * | 2021-02-01 | 2021-05-18 | 北京金山数字娱乐科技有限公司 | 命名实体识别模型训练方法及装置 |
CN113064992A (zh) * | 2021-03-22 | 2021-07-02 | 平安银行股份有限公司 | 投诉工单结构化处理方法、装置、设备及存储介质 |
CN112906375B (zh) * | 2021-03-24 | 2024-05-14 | 平安科技(深圳)有限公司 | 文本数据标注方法、装置、设备及存储介质 |
CN112906349A (zh) * | 2021-03-30 | 2021-06-04 | 苏州大学 | 一种数据标注的方法、系统、设备及可读存储介质 |
CN113807096B (zh) * | 2021-04-09 | 2024-10-18 | 京东科技控股股份有限公司 | 文本数据的处理方法、装置、计算机设备和存储介质 |
CN113221576B (zh) * | 2021-06-01 | 2023-01-13 | 复旦大学 | 一种基于序列到序列架构的命名实体识别方法 |
CN113449632B (zh) * | 2021-06-28 | 2023-04-07 | 重庆长安汽车股份有限公司 | 一种基于融合感知的视觉与雷达感知算法优化方法、系统及汽车 |
CN113723102B (zh) * | 2021-06-30 | 2024-04-26 | 平安国际智慧城市科技股份有限公司 | 命名实体识别方法、装置、电子设备及存储介质 |
CN113779065B (zh) * | 2021-08-23 | 2024-09-06 | 深圳价值在线信息科技股份有限公司 | 数据比对的验证方法、装置、终端设备及介质 |
CN113849597B (zh) * | 2021-08-31 | 2024-04-30 | 艾迪恩(山东)科技有限公司 | 基于命名实体识别的违法广告词检测方法 |
CN113762132B (zh) * | 2021-09-01 | 2024-07-16 | 国网浙江省电力有限公司金华供电公司 | 一种无人机巡检图像自动归类与自动命名系统 |
CN113838524B (zh) * | 2021-09-27 | 2024-04-26 | 电子科技大学长三角研究院(衢州) | S-亚硝基化位点预测方法、模型训练方法及存储介质 |
CN113836927B (zh) * | 2021-09-27 | 2023-09-29 | 平安科技(深圳)有限公司 | 命名实体识别模型的训练方法、装置、设备及存储介质 |
CN114048744A (zh) * | 2021-10-28 | 2022-02-15 | 盐城金堤科技有限公司 | 基于实体抽取的任职记录生成方法、装置及设备 |
CN114492383B (zh) * | 2021-12-20 | 2024-09-10 | 北京邮电大学 | 一种数字货币交易地址的实体名称识别方法和装置 |
CN114580413A (zh) * | 2022-02-15 | 2022-06-03 | 阿里巴巴(中国)有限公司 | 模型训练和命名实体识别方法、装置、电子设备以及存储介质 |
CN114818929B (zh) * | 2022-04-27 | 2024-10-15 | 杭州卓印智能科技有限公司 | 一种基于自学习标注的标注模型训练方法及标注方法 |
CN114912455B (zh) * | 2022-07-12 | 2022-09-30 | 共道网络科技有限公司 | 命名实体识别的方法和装置 |
CN115640808B (zh) * | 2022-12-05 | 2023-03-21 | 苏州浪潮智能科技有限公司 | 一种文本的标注方法、装置、电子设备及可读存储介质 |
CN117010390B (zh) * | 2023-07-04 | 2024-07-05 | 北大荒信息有限公司 | 基于招标信息的公司实体识别方法、装置、设备及介质 |
CN117034864B (zh) * | 2023-09-07 | 2024-05-10 | 广州市新谷电子科技有限公司 | 可视化标注方法、装置、计算机设备以及存储介质 |
CN117077679B (zh) * | 2023-10-16 | 2024-03-12 | 之江实验室 | 命名实体识别方法和装置 |
CN117252202B (zh) * | 2023-11-20 | 2024-03-19 | 江西风向标智能科技有限公司 | 高中数学题目中命名实体的构建方法、识别方法和系统 |
CN117877466B (zh) * | 2023-12-22 | 2024-08-06 | 中国电子科技集团公司第二十八研究所 | 一种基于实体替换的语音数据增强方法 |
CN117875319B (zh) * | 2023-12-29 | 2024-09-03 | 汉王科技股份有限公司 | 医疗领域标注数据的获取方法、装置、电子设备 |
CN117610574B (zh) * | 2024-01-23 | 2024-04-26 | 广东省人民医院 | 一种基于跨域迁移学习的命名实体识别方法和装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102033950A (zh) * | 2010-12-23 | 2011-04-27 | 哈尔滨工业大学 | 电子产品命名实体自动识别系统的构建方法及识别方法 |
CN109145303A (zh) * | 2018-09-06 | 2019-01-04 | 腾讯科技(深圳)有限公司 | 命名实体识别方法、装置、介质以及设备 |
CN109241520A (zh) * | 2018-07-18 | 2019-01-18 | 五邑大学 | 一种基于分词和命名实体识别的多层误差反馈神经网络的句子主干分析方法及系统 |
CN109543181A (zh) * | 2018-11-09 | 2019-03-29 | 中译语通科技股份有限公司 | 一种基于主动学习和深度学习相结合的命名实体模型和系统 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6928407B2 (en) * | 2002-03-29 | 2005-08-09 | International Business Machines Corporation | System and method for the automatic discovery of salient segments in speech transcripts |
CN109101481B (zh) * | 2018-06-25 | 2022-07-22 | 北京奇艺世纪科技有限公司 | 一种命名实体识别方法、装置及电子设备 |
CN109885825A (zh) * | 2019-01-07 | 2019-06-14 | 平安科技(深圳)有限公司 | 基于注意力机制的命名实体识别方法、装置和计算机设备 |
CN110704633B (zh) * | 2019-09-04 | 2023-07-21 | 平安科技(深圳)有限公司 | 命名实体识别方法、装置、计算机设备及存储介质 |
-
2019
- 2019-09-04 CN CN201910832541.3A patent/CN110704633B/zh active Active
-
2020
- 2020-08-29 WO PCT/CN2020/112303 patent/WO2021043085A1/zh active Application Filing
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102033950A (zh) * | 2010-12-23 | 2011-04-27 | 哈尔滨工业大学 | 电子产品命名实体自动识别系统的构建方法及识别方法 |
CN109241520A (zh) * | 2018-07-18 | 2019-01-18 | 五邑大学 | 一种基于分词和命名实体识别的多层误差反馈神经网络的句子主干分析方法及系统 |
CN109145303A (zh) * | 2018-09-06 | 2019-01-04 | 腾讯科技(深圳)有限公司 | 命名实体识别方法、装置、介质以及设备 |
CN109543181A (zh) * | 2018-11-09 | 2019-03-29 | 中译语通科技股份有限公司 | 一种基于主动学习和深度学习相结合的命名实体模型和系统 |
Also Published As
Publication number | Publication date |
---|---|
CN110704633A (zh) | 2020-01-17 |
WO2021043085A1 (zh) | 2021-03-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110704633B (zh) | 命名实体识别方法、装置、计算机设备及存储介质 | |
KR102171220B1 (ko) | 클레임 서류의 문자 인식 방법, 장치, 서버 및 저장매체 | |
CN111695439B (zh) | 图像结构化数据提取方法、电子装置及存储介质 | |
CN110362822B (zh) | 用于模型训练的文本标注方法、装置、计算机设备及存储介质 | |
CN112651238A (zh) | 训练语料扩充方法及装置、意图识别模型训练方法及装置 | |
CN111191275A (zh) | 敏感数据识别方法、系统及其装置 | |
CN112052682A (zh) | 事件实体联合抽取方法、装置、计算机设备及存储介质 | |
CN110750637B (zh) | 文本摘要提取方法、装置、计算机设备及存储介质 | |
CN112418813B (zh) | 基于智能解析识别的aeo资质智能评级管理系统、方法及存储介质 | |
CN110119353B (zh) | 测试数据生成方法、装置以及控制器和介质 | |
CN111723870B (zh) | 基于人工智能的数据集获取方法、装置、设备和介质 | |
CN110363222B (zh) | 用于模型训练的图片标注方法、装置、计算机设备及存储介质 | |
CN110750984B (zh) | 命令行字符串处理方法、终端、装置及可读存储介质 | |
CN112052305A (zh) | 信息提取方法、装置、计算机设备及可读存储介质 | |
CN112800239A (zh) | 意图识别模型训练方法、意图识别方法及装置 | |
CN111506595B (zh) | 一种数据查询方法、系统及相关设备 | |
CN112951233A (zh) | 语音问答方法、装置、电子设备及可读存储介质 | |
CN111126056B (zh) | 一种识别触发词的方法及装置 | |
CN110674250A (zh) | 一种文本匹配方法、装置、计算机系统及可读存储介质 | |
CN115357699A (zh) | 文本抽取方法、装置、设备及存储介质 | |
CN110705211A (zh) | 文本重点内容标记方法、装置、计算机设备及存储介质 | |
CN117274969A (zh) | 一种印章识别方法、装置、设备及介质 | |
CN111754352A (zh) | 一种观点语句正确性的判断方法、装置、设备和存储介质 | |
CN114638229A (zh) | 笔录数据的实体识别方法、装置、介质及设备 | |
CN114154480A (zh) | 信息提取方法、装置、设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |