CN115204176A - 命名实体识别方法、系统及存储介质 - Google Patents
命名实体识别方法、系统及存储介质 Download PDFInfo
- Publication number
- CN115204176A CN115204176A CN202210899520.5A CN202210899520A CN115204176A CN 115204176 A CN115204176 A CN 115204176A CN 202210899520 A CN202210899520 A CN 202210899520A CN 115204176 A CN115204176 A CN 115204176A
- Authority
- CN
- China
- Prior art keywords
- entity
- data set
- characters
- model
- recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Character Discrimination (AREA)
- Image Analysis (AREA)
Abstract
本申请提供了一种命名实体识别方法、系统及存储介质,将样本中的字符进行类别标签标注,得到第一数据集;将第一数据集的字符进行实体标签标注,得到第二数据集;根据第二数据集,训练BERT模型及其衍生模型,得到实体边界识别模型;根据第一数据集,训练实体边界识别模型,得到实体综合识别模型;通过实体识别模型进行命名实体识别。本申请提高了模型训练效果以及命名实体识别准确性,一定程度上解决了目前实体边界识别不清导致的实体识别错误的问题。
Description
技术领域
本申请属于自然语言处理技术领域,具体地,涉及一种命名实体识别方法、系统及存储介质。
背景技术
命名实体识别是自然语言处理领域中一个重要的基础任务。其主要目标是抽取文本语句中相应的实体描述并将其分类为对应实体类别比如人名,地名,组织等,这些词可以是独立的单个词也可以是多个词。因此,命名实体识别常被视为序列标注任务,这个任务也用于大量信息抽取框架、基于目标的对话系统的核心组成部分。当拥有大量标注数据时,命名实体识别任务可以以较高的标注质量完成。但是,现有的实体边界识别方法中,使用命名实体识别模型NER(Named Entity Recognition)总是出现识别结果不准确、实体识别错误等问题。
发明内容
本发明提出的命名实体识别方法、系统及存储介质,可以一定程度上解决以上技术问题。
根据本申请实施例的第一个方面,提供了一种命名实体识别方法,具体包括以下步骤:
将样本中的字符进行类别标签标注,得到第一数据集;
将第一数据集的字符进行实体标签标注,得到第二数据集;
根据第二数据集,训练BERT模型及其衍生模型,得到实体边界识别模型;
根据第一数据集,训练实体边界识别模型,得到实体综合识别模型;通过实体识别模型进行命名实体识别。
在本申请一些实施方式中,将样本中的字符进行类别标签标注,得到第一数据集,具体包括:
将样本中字符的属性按照具体命名类型进行分类,得到至少一种类别标签;
按照至少一种类别标签将样本中的字符进行标注,得到第一数据集。
在本申请一些实施方式中,将样本中的字符进行类别标签标注,得到第一数据集,具体包括:
将样本中字符的属性按照不同的实体类型以及非实体进行区分,并对应编号不同的数字或者字母;
将不同的数字或者字母作为类别标签,对样本中的字符进行标注,得到第一数据集。
在本申请一些实施方式中,将第一数据集的字符进行实体标签标注,得到第二数据集,具体包括:
将第一数据集中字符的属性按照实体以及非实体进行分类,得到实体标签和非实体标签;
按照实体标签和非实体标签将第一数据集进行标注,得到第二数据集。
在本申请一些实施方式中,将第一数据集的字符进行实体标签标注,得到第二数据集,具体包括:
将第一数据集的字符按照实体以及非实体进行区分,并对应编号不同的数字或者字母;实体包括不同的人名实体以及不同的组织机构名实体;
将不同的数字或者字母作为实体标签或者非实体标签,并对样本中的字符进行标注,得到第二数据集。
在本申请一些实施方式中,得到第二数据集之后,还包括:
查询到第二数据集的字符中标注为实体标签且周围均为实体标签时,确定周围的实体标签为边界实体标签,确定被包围的实体标签为边界内实体标签;
将边界内实体标签置换为非实体标签,对第二数据集进行重新标注,得到强化边界信息的第二数据集。
在本申请一些实施方式中,根据第一数据集,训练实体边界识别模型,得到实体综合识别模型,具体包括:
由第一数据集中样本中标注的字符生成实体边界识别模型的输入层;
从预先定义的词表中查找输入层中每个字符对应的词向量,由词向量生成词向量层;
对词向量层进行矩阵映射,得到隐藏层;
以每个字符的词向量作为条件,在条件下分别计算与每个字符对应的多个命名实体属性标志的概率,作为实体边界识别模型输出层;
利用第一数据集中样本中多个标注的样本数据对实体边界识别模型进行训练,通过损失函数计算参数,得到实体综合识别模型。
根据本申请实施例的第二个方面,提供了一种命名实体识别系统,具体包括:
第一数据集模块:用于将样本中的字符进行类别标签标注,得到第一数据集;
第二数据集模块:用于将第一数据集的字符进行实体标签标注,得到第二数据集;
第一模型训练模块:用于根据第二数据集,训练BERT模型及其衍生模型,得到实体边界识别模型;
第二模型训练模块:用于根据第一数据集,训练实体边界识别模型,得到实体综合识别模型;通过实体识别模型进行命名实体识别。
根据本申请实施例的第三个方面,提供了一种命名实体识别设备,包括:
存储器:用于存储可执行指令;以及
处理器:用于与存储器连接以执行可执行指令从而完成命名实体识别方法。
根据本申请实施例的第四个方面,提供了一种计算机可读存储介质,其上存储有计算机程序;计算机程序被处理器执行以实现命名实体识别方法。
采用本申请的命名实体识别方法、系统及存储介质,将样本中的字符进行类别标签标注,得到第一数据集;将第一数据集的字符进行实体标签标注,得到第二数据集;根据第二数据集,训练BERT模型及其衍生模型,得到实体边界识别模型;根据第一数据集,训练实体边界识别模型,得到实体综合识别模型;通过实体识别模型进行命名实体识别。本申请提高了模型训练效果以及命名实体识别准确性,一定程度上解决了目前实体边界识别不清导致的实体识别错误的问题。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1中示出了根据本申请实施例的命名实体识别方法的步骤示意图;
图2中示出了根据本申请实施例中标注得到第一数据集的步骤示意图;
图3中示出了根据本申请实施例中标注得到第二数据集的步骤示意图;
图4中示出了根据本申请另一实施例中标注得到第二数据集的步骤示意图;
图5中示出了根据本申请实施例的命名实体识别系统的结构示意图;
图6中示出了根据本申请实施例的命名实体识别设备的结构示意图。
具体实施方式
在实现本申请的过程中,发明人发现用于命名实体识别模型的数据集需要拥有丰富标注数据,而训练样本需要大量的人工进行标注,需要耗费时间以及财力。同时,实体边界识别不清导致的实体识别错误是命名实体识别模型(Named Entity Recognition,NER)使用时的常见错误之一。并发现在数据集制作的时候实体边界没有单独地标注,训练模型的时候损失函数等部分也没有对实体边界进行强调。
针对该类问题的一种常规解决方案是在标注的时候利用BIEO方法或者MBES方法与实体标签拼接,形成带有位置信息的类别标签不加区分地进行训练。以及在分类结果输出前叠加一层条件随机场,利用标签之间的转移关系,使得输出标签序列更加合理化。但是,均不能达到理想的识别效果。
本申请的命名实体识别方法、系统及存储介质,不主要针对文本中出现的人名、组织机构名、产品类实体和技术类实体进行识别。可以通过带有目标实体类别的标注数据的输入扩展到其他类别实体。
本申请依赖现在预训练语言模型可以微调的特点,将命名实体识别任务拆分成实体边界识别任务和实体具体类型识别任务。
一方面训练一个边界识别任务,即训练一个实体边界识别模型用于仅学习判断实体的边界;另一方面,输入带有实体类别标签的标注数据至实体边界识别模型学习各种实体类别,将实体边界识别模型训练成完整的命名实体识别模型。即,类型识别任务“渐进式”训练,即先训练简单的实体边界识别模型解决边界问题,进一步带入实体类别标签,完成完整的实体识别。
具体的,
命名实体识别方法中,将样本中的字符进行类别标签标注,得到第一数据集;将第一数据集的字符进行实体标签标注,得到第二数据集;根据第二数据集,训练BERT模型及其衍生模型,得到实体边界识别模型;根据第一数据集,训练实体边界识别模型,得到实体综合识别模型;通过实体识别模型进行命名实体识别。本申请提高了模型训练效果以及命名实体识别准确性,一定程度上解决了目前实体边界识别不清导致的实体识别错误的问题。
为了使本申请实施例中的技术方案及优点更加清楚明白,以下结合附图对本申请的示例性实施例进行进一步详细的说明,显然,所描述的实施例仅是本申请的一部分实施例,而不是所有实施例的穷举。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
实施例1
图1中示出了根据本申请实施例的命名实体识别方法的步骤示意图。
如图1所示,本申请实施例的命名实体识别方法,具体包括以下步骤:
S1:将样本中的字符进行类别标签标注,得到第一数据集。
图2中示出了根据本申请实施例中标注得到第一数据集的步骤示意图。
具体的,如图2所示,首先,S11:将样本中字符的属性按照具体命名类型进行分类,得到至少一种类别标签。例如人名实体,组织机构名实体,产品类实体和技术类实体。
然后,S12:按照至少一种类别标签将样本中的字符进行标注,得到第一数据集。
其中,可以通过带有目标实体类别的标注数据的输入扩展到其他类别实体,提高了实体识别范围。
优选实施的,将样本中的字符进行类别标签标注,得到第一数据集,具体包括:将样本中字符的属性按照不同的实体类型,例如人名实体、不同的组织机构名实体,以及非实体进行区分,并对应编号不同的数字或者字母;然后,将不同的数字或者字母作为类别标签,对样本中的字符进行标注,得到第一数据集。
本实施例中提出的方法主要针对文本中出现的产品技术实体进行识别,但同样可以根据自定义扩展到文本中的人名、地名、组织机构名等常见实体的识别。
具体在第一数据集制作时,首先按照传统命名实体识别BIEO标注方法,将文本中的每一个字符,标上对应的实体标签。
如表1为第一数据集标注样例:
张 | 小 | 明 | 今 | 天 | 去 | X | X | 公 | 司 | 拜 | 访 | 张 | 三 | 老 | 师 |
1 | 2 | 3 | 0 | 0 | 0 | 4 | 5 | 5 | 6 | 0 | 0 | 1 | 3 | 0 | 0 |
表1
如表1所示,其中,数字1-3代表不同的人名实体,数字4-6代表组织机构名实体,O标签则代表了对应的字符为非目标实体。
S2:将第一数据集的字符进行实体标签标注,得到第二数据集。
图3中示出了根据本申请实施例中标注得到第二数据集的步骤示意图。
具体的,如图3所示,首先,S21:将第一数据集中字符的属性按照实体类型以及非实体类型进行分类,得到实体标签和非实体标签。
然后,S22:按照实体标签和非实体标签将第一数据集进行标注,得到第二数据集,即得到边界标注数据集。
优选实施时,将第一数据集的字符进行实体标签标注,得到第二数据集,具体包括:首先,将第一数据集的字符按照实体以及非实体进行区分,并对应编号不同的数字或者字母;实体包括不同的人名实体以及不同的组织机构名实体;然后,将不同的数字或者字母作为实体标签或者非实体标签,并对样本中的字符进行标注,得到第二数据集。
图4中示出了根据本申请另一实施例中标注得到第二数据集的步骤示意图。
如图4所示,进一步展开描述的,在得到第二数据集之后,还包括:
S23:查询到第二数据集的字符中标注为实体标签且周围均为实体标签时,确定周围的实体标签为边界实体标签,确定被包围的实体标签为边界内实体标签。
S24:将边界内实体标签置换为非实体标签,对第二数据集进行重新标注,得到强化边界信息的第二数据集。
具体实施制作第二数据集时,首先在上一步的第一数据集标注的弱化实体类别基础上,进行实体边界标注,转化为边界标注数据集。
例如:将表1中所有带有实体类型标签的位置的数字全部置为1。例如数字1-3代表不同的人名实体以及数字4-6代表组织机构名实体,均用数字1表示,其他非实体都标记为0。
这里,去掉表示具体类别的字符仅保留目标实体和非目标实体两类即0/1,主要目的是强化训练模型的区分实体字符和非实体字符的能力,因此本步骤不带入实体类型信息。
接下来,进一步标记强化边界标签,进一步强化实体边界信息。
如表2所示,将被“1”标签包围的“1”标签置“0”,即将处于边界的实体标签保留,非边界的实体标签弱化置0。
张 | 小 | 明 | 今 | 天 | 去 | X | X | 公 | 司 | 拜 | 访 | 张 | 三 | 老 | 师 |
1 | 1 | 1 | 0 | 0 | 0 | 1 | 1 | 1 | 1 | 0 | 0 | 1 | 1 | 0 | 0 |
1 | 0 | 1 | 0 | 0 | 0 | 1 | 0 | 0 | 1 | 0 | 0 | 1 | 1 | 0 | 0 |
表2
参见表2中数据,第一行用于训练实体边界识别模型的第二数据集的标签,第二行作为强化边界信息的第二数据集的标签,与第一行的区别在于将被“1”标签包围的“1”标签置“0”进一步强化实体边界信息。
第二数据集与强化边界信息的第二数据集,这两种数据集可以在训练过程中叠加使用。
S3:根据第二数据集,训练BERT模型及其衍生模型,得到实体边界识别模型。
本申请采用支持微调的特性的BERT及其衍生模型,包括但不限于原始BERT、BERT-wwm、RoBERTa等模型。首先根据第二数据集进行训练,得到实体边界识别模型解决边界问题。
S4:根据第一数据集,训练实体边界识别模型,得到实体综合识别模型;通过实体识别模型进行命名实体识别。
在实体边界识别模型解决边界问题基础上,通过第一数据集继续进行模型训练。在已经微调过实体边界的模型上进行完整的命名实体识别任务的训练,进一步训练对具体实体类别标签的分类能力。
此时所使用的数据集为S1步骤得到的第一数据集,即自标注数据集,主要标注文本中的人名、组织机构名、产品类实体和技术类实体。进而实现完整的命名实体识别模型训练,即得到实体综合识别模型。
其中loss函数从原来的普通cross entropy函数变成一个综合边界识别和实体识别的loss函数。
普通cross entropy loss函数是:
调整后是:
其中k为一个预设常数权重,取值范围是[1,5],ax则是S1中数据集制作实体边界识别训练集第二行的位置掩码,根据输入的位置获取,强化对实体边界位置的loss。
进一步描述的,首先,由第一数据集中样本中标注的字符生成实体边界识别模型的输入层;然后,从预先定义的词表中查找输入层中每个字符对应的词向量,由词向量生成词向量层;其次,对词向量层进行矩阵映射,得到隐藏层;最后,以每个字符的词向量作为条件,在条件下分别计算与每个字符对应的多个命名实体属性标志的概率,作为实体边界识别模型输出层;最终,利用第一数据集中样本中多个标注的样本数据对实体边界识别模型进行训练,通过损失函数计算参数,得到实体综合识别模型。
采用本申请的命名实体识别方法,将样本中的字符进行类别标签标注,得到第一数据集;将第一数据集的字符进行实体标签标注,得到第二数据集;根据第二数据集,训练BERT模型及其衍生模型,得到实体边界识别模型;根据第一数据集,训练实体边界识别模型,得到实体综合识别模型;通过实体识别模型进行命名实体识别。本申请提高了模型训练效果以及命名实体识别准确性,一定程度上解决了目前实体边界识别不清导致的实体识别错误的问题。
本申请首先将原有语言模型微调成一个边界识别模型,强化模型对实体边界的识别能力,在具有边界识别能力的模型基础上,进一步训练完整的实体识别能力;同时,利用loss函数的改造,强化对边界识别错误的惩罚,进一步提高对边界的判断力。进一步解决了命名实体识别模型对实体边界识别不清的问题。
实施例2
本实施例提供了一种命名实体识别系统,对于本实施例的命名实体识别系统中未披露的细节,请参照其它实施例中的命名实体识别方法的具体实施内容。
图5中示出了根据本申请实施例的命名实体识别系统的结构示意图。
如图5所示,本申请实施例的命名实体识别系统,具体包括第一数据集模块10、第二数据集模块20、第一模型训练模块30以及第二模型训练模块40。
具体的,
第一数据集模块10:用于将样本中的字符进行类别标签标注,得到第一数据集。
首先,将样本中字符的属性按照具体命名类型进行分类,得到至少一种类别标签。例如人名实体,组织机构名实体,产品类实体和技术类实体。
然后,按照至少一种类别标签将样本中的字符进行标注,得到第一数据集。
其中,可以通过带有目标实体类别的标注数据的输入扩展到其他类别实体,提高了实体识别范围。
优选实施的,将样本中的字符进行类别标签标注,得到第一数据集,具体包括:将样本中字符的属性按照不同的实体类型,例如人名实体、不同的组织机构名实体,以及非实体进行区分,并对应编号不同的数字或者字母;然后,将不同的数字或者字母作为类别标签,对样本中的字符进行标注,得到第一数据集。
本实施例中提出的方法主要针对文本中出现的产品技术实体进行识别,但同样可以根据自定义扩展到文本中的人名、地名、组织机构名等常见实体的识别。
第二数据集模块20:用于将第一数据集的字符进行实体标签标注,得到第二数据集。
具体的,首先,将第一数据集中字符的属性按照实体类型以及非实体类型进行分类,得到实体标签和非实体标签。
然后,按照实体标签和非实体标签将第一数据集进行标注,得到第二数据集,即得到边界标注数据集。
优选实施时,将第一数据集的字符进行实体标签标注,得到第二数据集,具体包括:首先,将第一数据集的字符按照实体以及非实体进行区分,并对应编号不同的数字或者字母;实体包括不同的人名实体以及不同的组织机构名实体;然后,将不同的数字或者字母作为实体标签或者非实体标签,并对样本中的字符进行标注,得到第二数据集。
进一步展开描述的,在得到第二数据集之后,还包括:
查询到第二数据集的字符中标注为实体标签且周围均为实体标签时,确定周围的实体标签为边界实体标签,确定被包围的实体标签为边界内实体标签。
然后,将边界内实体标签置换为非实体标签,对第二数据集进行重新标注,得到强化边界信息的第二数据集。
第一模型训练模块30:用于根据第二数据集,训练BERT模型及其衍生模型,得到实体边界识别模型。
本申请采用支持微调的特性的BERT及其衍生模型,包括但不限于原始BERT、BERT-wwm、RoBERTa等模型。首先根据第二数据集进行训练,得到实体边界识别模型解决边界问题。
第二模型训练模块40:用于根据第一数据集,训练实体边界识别模型,得到实体综合识别模型;通过实体识别模型进行命名实体识别。
在实体边界识别模型解决边界问题基础上,通过第一数据集继续进行模型训练。在已经微调过实体边界的模型上进行完整的命名实体识别任务的训练,进一步训练对具体实体类别标签的分类能力。
此时所使用的数据集为第一数据集模块10得到的第一数据集,即自标注数据集,主要标注文本中的人名、组织机构名、产品类实体和技术类实体。进而实现完整的命名实体识别模型训练,即得到实体综合识别模型。
其中loss函数从原来的普通cross entropy函数变成一个综合边界识别和实体识别的loss函数。
采用本申请的命名实体识别系统,第一数据集模块10将样本中的字符进行类别标签标注,得到第一数据集;第二数据集模块20将第一数据集的字符进行实体标签标注,得到第二数据集;第一模型训练模块30根据第二数据集,训练BERT模型及其衍生模型,得到实体边界识别模型;第二模型训练模块40根据第一数据集,训练实体边界识别模型,得到实体综合识别模型;通过实体识别模型进行命名实体识别。本申请提高了模型训练效果以及命名实体识别准确性,一定程度上解决了目前实体边界识别不清导致的实体识别错误的问题。
本申请首先将原有语言模型微调成一个边界识别模型,强化模型对实体边界的识别能力,在具有边界识别能力的模型基础上,进一步训练完整的实体识别能力;同时,利用loss函数的改造,强化对边界识别错误的惩罚,进一步提高对边界的判断力。进一步解决了命名实体识别模型对实体边界识别不清的问题。
实施例3
本实施例提供了一种命名实体识别设备,对于本实施例的命名实体识别设备中未披露的细节,请参照其它实施例中的命名实体识别方法或系统具体的实施内容。
图6中示出了根据本申请实施例的命名实体识别设备400的结构示意图。
如图6所示,命名实体识别设备400,包括:
存储器402:用于存储可执行指令;以及
处理器401:用于与存储器402连接以执行可执行指令从而完成运动矢量预测方法。
本领域技术人员可以理解,示意图6仅仅是命名实体识别设备400的示例,并不构成对命名实体识别设备400的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如命名实体识别设备400还可以包括输入输出设备、网络接入设备、总线等。
所称处理器401(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application SpecificIntegrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器401也可以是任何常规的处理器等,处理器401是命名实体识别设备400的控制中心,利用各种接口和线路连接整个命名实体识别设备400的各个部分。
存储器402可用于存储计算机可读指令,处理器401通过运行或执行存储在存储器402内的计算机可读指令或模块,以及调用存储在存储器402内的数据,实现命名实体识别设备400的各种功能。存储器402可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据命名实体识别设备400使用所创建的数据等。此外,存储器402可以包括硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(SecureDigital,SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)或其他非易失性/易失性存储器件。
命名实体识别设备400集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机可读指令来指令相关的硬件来完成,的计算机可读指令可存储于一计算机可读存储介质中,该计算机可读指令在被处理器执行时,可实现上述各个方法实施例的步骤。
实施例4
本实施例提供了一种计算机可读存储介质,其上存储有计算机程序;计算机程序被处理器执行以实现其他实施例中的命名实体识别方法。
本申请实施例的命名实体识别设备及存储介质,将样本中的字符进行类别标签标注,得到第一数据集;将第一数据集的字符进行实体标签标注,得到第二数据集;根据第二数据集,训练BERT模型及其衍生模型,得到实体边界识别模型;根据第一数据集,训练实体边界识别模型,得到实体综合识别模型;通过实体识别模型进行命名实体识别。本申请提高了模型训练效果以及命名实体识别准确性,一定程度上解决了目前实体边界识别不清导致的实体识别错误的问题。
本申请首先将原有语言模型微调成一个边界识别模型,强化模型对实体边界的识别能力,在具有边界识别能力的模型基础上,进一步训练完整的实体识别能力;同时,利用loss函数的改造,强化对边界识别错误的惩罚,进一步提高对边界的判断力。进一步解决了命名实体识别模型对实体边界识别不清的问题。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在本发明使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本发明可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本发明范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。
Claims (10)
1.一种命名实体识别方法,其特征在于,具体包括以下步骤:
将样本中的字符进行类别标签标注,得到第一数据集;
将所述第一数据集的字符进行实体标签标注,得到第二数据集;
根据所述第二数据集,训练BERT模型及其衍生模型,得到实体边界识别模型;
根据所述第一数据集,训练所述实体边界识别模型,得到实体综合识别模型;通过所述实体识别模型进行命名实体识别。
2.根据权利要求1所述的命名实体识别方法,其特征在于,所述将样本中的字符进行类别标签标注,得到第一数据集,包括:
将样本中字符的属性按照具体命名类型进行分类,得到至少一种类别标签;
按照所述至少一种类别标签将样本中的字符进行标注,得到第一数据集。
3.根据权利要求1所述的命名实体识别方法,其特征在于,所述将样本中的字符进行类别标签标注,得到第一数据集,包括:
将样本中字符的属性按照不同的实体类型以及非实体进行区分,并对应编号不同的数字或者字母;
将所述不同的数字或者字母作为类别标签,对样本中的字符进行标注,得到第一数据集。
4.根据权利要求1所述的命名实体识别方法,其特征在于,所述将所述第一数据集的字符进行实体标签标注,得到第二数据集,包括:
将第一数据集中字符的属性按照实体以及非实体进行分类,得到实体标签和非实体标签;
按照所述实体标签和非实体标签将所述第一数据集进行标注,得到第二数据集。
5.根据权利要求1所述的命名实体识别方法,其特征在于,所述将所述第一数据集的字符进行实体标签标注,得到第二数据集,包括:
将第一数据集的字符按照实体以及非实体进行区分,并对应编号不同的数字或者字母;所述实体包括不同的人名实体以及不同的组织机构名实体;
将所述不同的数字或者字母作为实体标签或者非实体标签,并对样本中的字符进行标注,得到第二数据集。
6.根据权利要求1或5所述的命名实体识别方法,其特征在于,所述得到第二数据集之后,还包括:
查询到第二数据集的字符中标注为实体标签且周围均为实体标签时,确定周围的实体标签为边界实体标签,确定被包围的实体标签为边界内实体标签;
将所述边界内实体标签置换为非实体标签,对所述第二数据集进行重新标注,得到强化边界信息的第二数据集。
7.根据权利要求1所述的命名实体识别方法,其特征在于,所述根据所述第一数据集,训练所述实体边界识别模型,得到实体综合识别模型,包括:
由所述第一数据集中样本中标注的字符生成所述实体边界识别模型的输入层;
从预先定义的词表中查找所述输入层中每个字符对应的词向量,由所述词向量生成词向量层;
对所述词向量层进行矩阵映射,得到隐藏层;
以每个所述字符的词向量作为条件,在所述条件下分别计算与每个所述字符对应的多个命名实体属性标志的概率,作为所述实体边界识别模型输出层;
利用所述所述第一数据集中样本中多个标注的样本数据对所述实体边界识别模型进行训练,通过损失函数计算参数,得到实体综合识别模型。
8.一种命名实体识别系统,其特征在于,具体包括:
第一数据集模块:用于将样本中的字符进行类别标签标注,得到第一数据集;
第二数据集模块:用于将所述第一数据集的字符进行实体标签标注,得到第二数据集;
第一模型训练模块:用于根据所述第二数据集,训练BERT模型及其衍生模型,得到实体边界识别模型;
第二模型训练模块:用于根据所述第一数据集,训练所述实体边界识别模型,得到实体综合识别模型;通过所述实体识别模型进行命名实体识别。
9.一种命名实体识别设备,包括:
存储器:用于存储可执行指令;以及
处理器:用于与存储器连接以执行可执行指令从而完成如权利要求1-7任一项所述的命名实体识别方法。
10.一种计算机可读存储介质,其特征在于,其上存储有计算机程序;计算机程序被处理器执行以实现如权利要求1-7任一项所述的命名实体识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210899520.5A CN115204176B (zh) | 2022-07-28 | 2022-07-28 | 命名实体识别方法、系统及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210899520.5A CN115204176B (zh) | 2022-07-28 | 2022-07-28 | 命名实体识别方法、系统及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115204176A true CN115204176A (zh) | 2022-10-18 |
CN115204176B CN115204176B (zh) | 2023-06-06 |
Family
ID=83583321
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210899520.5A Active CN115204176B (zh) | 2022-07-28 | 2022-07-28 | 命名实体识别方法、系统及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115204176B (zh) |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110032737A (zh) * | 2019-04-10 | 2019-07-19 | 贵州大学 | 一种基于神经网络的边界组合命名实体识别方法 |
US20200004815A1 (en) * | 2018-06-29 | 2020-01-02 | Microsoft Technology Licensing, Llc | Text entity detection and recognition from images |
CN110852103A (zh) * | 2019-10-28 | 2020-02-28 | 青岛聚好联科技有限公司 | 一种命名实体识别方法及装置 |
EP3767516A1 (en) * | 2019-07-18 | 2021-01-20 | Ricoh Company, Ltd. | Named entity recognition method, apparatus, and computer-readable recording medium |
CN112364656A (zh) * | 2021-01-12 | 2021-02-12 | 北京睿企信息科技有限公司 | 一种基于多数据集多标签联合训练的命名实体识别方法 |
CN112541355A (zh) * | 2020-12-11 | 2021-03-23 | 华南理工大学 | 一种实体边界类别解耦的少样本命名实体识别方法与系统 |
CN112989834A (zh) * | 2021-04-15 | 2021-06-18 | 杭州一知智能科技有限公司 | 一种基于平格增强线性转换器的命名实体识别方法和系统 |
CN113656544A (zh) * | 2021-08-11 | 2021-11-16 | 云知声智能科技股份有限公司 | 嵌套命名实体识别模型的训练方法、装置、设备和介质 |
CN113656555A (zh) * | 2021-08-19 | 2021-11-16 | 云知声智能科技股份有限公司 | 嵌套命名实体识别模型的训练方法、装置、设备和介质 |
CN114580422A (zh) * | 2022-03-14 | 2022-06-03 | 昆明理工大学 | 一种结合近邻分析的两阶段分类的命名实体识别方法 |
-
2022
- 2022-07-28 CN CN202210899520.5A patent/CN115204176B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200004815A1 (en) * | 2018-06-29 | 2020-01-02 | Microsoft Technology Licensing, Llc | Text entity detection and recognition from images |
CN110032737A (zh) * | 2019-04-10 | 2019-07-19 | 贵州大学 | 一种基于神经网络的边界组合命名实体识别方法 |
EP3767516A1 (en) * | 2019-07-18 | 2021-01-20 | Ricoh Company, Ltd. | Named entity recognition method, apparatus, and computer-readable recording medium |
CN110852103A (zh) * | 2019-10-28 | 2020-02-28 | 青岛聚好联科技有限公司 | 一种命名实体识别方法及装置 |
CN112541355A (zh) * | 2020-12-11 | 2021-03-23 | 华南理工大学 | 一种实体边界类别解耦的少样本命名实体识别方法与系统 |
CN112364656A (zh) * | 2021-01-12 | 2021-02-12 | 北京睿企信息科技有限公司 | 一种基于多数据集多标签联合训练的命名实体识别方法 |
CN112989834A (zh) * | 2021-04-15 | 2021-06-18 | 杭州一知智能科技有限公司 | 一种基于平格增强线性转换器的命名实体识别方法和系统 |
CN113656544A (zh) * | 2021-08-11 | 2021-11-16 | 云知声智能科技股份有限公司 | 嵌套命名实体识别模型的训练方法、装置、设备和介质 |
CN113656555A (zh) * | 2021-08-19 | 2021-11-16 | 云知声智能科技股份有限公司 | 嵌套命名实体识别模型的训练方法、装置、设备和介质 |
CN114580422A (zh) * | 2022-03-14 | 2022-06-03 | 昆明理工大学 | 一种结合近邻分析的两阶段分类的命名实体识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN115204176B (zh) | 2023-06-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109710590B (zh) | 一种错题本生成方法及装置 | |
CN111046784A (zh) | 文档版面分析识别方法、装置、电子设备和存储介质 | |
CN112070138B (zh) | 多标签混合分类模型的构建方法、新闻分类方法及系统 | |
CN110222330B (zh) | 语义识别方法及装置、存储介质、计算机设备 | |
CN111274239B (zh) | 试卷结构化处理方法、装置和设备 | |
CN111488931A (zh) | 文章质量评估方法、文章推荐方法及其对应的装置 | |
CN102436547A (zh) | 一种教学用错题统计方法及系统 | |
CN114596566B (zh) | 文本识别方法及相关装置 | |
CN112711660A (zh) | 文本分类样本的构建方法和文本分类模型的训练方法 | |
CN107977364B (zh) | 维语子词切分方法及装置 | |
CN111274822A (zh) | 语义匹配方法、装置、设备及存储介质 | |
US11386263B2 (en) | Automatic generation of form application | |
CN116152840A (zh) | 文件分类方法、装置、设备和计算机存储介质 | |
US20240331432A1 (en) | Method and apparatus for data structuring of text | |
CN117851605B (zh) | 一种行业知识图谱构建方法、计算机设备及存储介质 | |
CN115374259A (zh) | 一种问答数据挖掘方法、装置及电子设备 | |
CN111581346A (zh) | 一种事件抽取方法和装置 | |
CN114676705A (zh) | 一种对话关系处理方法、计算机及可读存储介质 | |
CN110866394A (zh) | 公司名称识别方法及装置、计算机设备及可读存储介质 | |
CN115116069A (zh) | 文本处理方法、装置、电子设备及存储介质 | |
CN115204176A (zh) | 命名实体识别方法、系统及存储介质 | |
CN114067343A (zh) | 一种数据集的构建方法、模型训练方法和对应装置 | |
CN114254138A (zh) | 多媒体资源分类方法、装置、电子设备和存储介质 | |
CN114564942A (zh) | 一种用于监管领域的文本纠错方法、存储介质和装置 | |
CN114138928A (zh) | 文本内容提取的方法、系统、装置、电子设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |