CN113656544B - 嵌套命名实体识别模型的训练方法、装置、设备和介质 - Google Patents
嵌套命名实体识别模型的训练方法、装置、设备和介质 Download PDFInfo
- Publication number
- CN113656544B CN113656544B CN202110921590.1A CN202110921590A CN113656544B CN 113656544 B CN113656544 B CN 113656544B CN 202110921590 A CN202110921590 A CN 202110921590A CN 113656544 B CN113656544 B CN 113656544B
- Authority
- CN
- China
- Prior art keywords
- entity
- data set
- word
- prediction result
- entity word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012549 training Methods 0.000 title claims abstract description 49
- 238000000034 method Methods 0.000 title claims abstract description 46
- 239000013598 vector Substances 0.000 claims description 24
- 230000006870 function Effects 0.000 claims description 12
- 238000004364 calculation method Methods 0.000 claims description 7
- 230000005540 biological transmission Effects 0.000 abstract description 5
- 238000010586 diagram Methods 0.000 description 10
- 238000012986 modification Methods 0.000 description 5
- 230000004048 modification Effects 0.000 description 5
- 230000009471 action Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 238000006467 substitution reaction Methods 0.000 description 3
- 230000004075 alteration Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000004575 stone Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Databases & Information Systems (AREA)
- Molecular Biology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Character Discrimination (AREA)
Abstract
本发明涉及嵌套命名实体识别模型的训练方法、装置、电子设备和存储介质,该方法包括:获取标注好的数据集,根据数据集确定第一数据集,根据第一数据集确定实体词边界预测结果;根据实体词边界预测结果确定实体类型预测结果;根据第一数据集、实体词边界预测结果和实体类型预测结果计算实体词边界预测损失和实体类型预测损失;根据实体词边界预测损失和实体类型预测损失调整模型参数得到嵌套命名实体识别模型。本申请实施例没有使用堆叠式的模型,避免了堆叠式LSTM+CRF错误传递的问题,并将实体词边界预测损失与实体类型预测损失结合起来调整模型参数得到嵌套命名实体识别模型,因为模型联合了实体词边界与实体类型的信息,提高了嵌套命名实体识别能力。
Description
技术领域
本发明涉及人工智能技术领域,具体涉及一种嵌套命名实体识别模型的训练方法、装置、电子设备和存储介质。
背景技术
目前,现有的嵌套命名实体识别技术普遍采用多层堆叠的BiLSTM+CRF,速度较慢,并且因为堆叠式模型存在错误传递的情况,因此导致指标会较低。
嵌套命名实体识别难度较大,目前的技术对于这类问题普遍没有较好的解决方案。
发明内容
本发明提供一种嵌套命名实体识别模型的训练方法、装置、电子设备和存储介质,能够解决上述嵌套命名实体识别难度较大、堆叠式模型存在错误传递的技术问题。
本发明解决上述技术问题的技术方案如下:
第一方面,本发明实施例提供了一种嵌套命名实体识别模型的训练方法,包括:
获取标注好的数据集,数据集包括:文字样本和文字样本对应的实体标签;
根据数据集确定第一数据集,第一数据集包括:文字样本、文字样本对应的实体标签和实体标签边界对应的位置坐标表示;
根据第一数据集确定实体词边界预测结果;
根据实体词边界预测结果确定实体类型预测结果;
根据第一数据集、实体词边界预测结果和实体类型预测结果计算实体词边界预测损失和实体类型预测损失;
根据实体词边界预测损失和实体类型预测损失调整模型参数得到嵌套命名实体识别模型。
在一些实施例中,上述一种嵌套命名实体识别模型的训练方法中,所述根据所述第一数据集确定实体词边界预测结果,包括:
根据第一数据集确定第一数据集对应的字向量;
将第一数据集对应的字向量中每个字向量分别输入全连接层和softmax函数得到实体词边界预测结果。
在一些实施例中,上述一种嵌套命名实体识别模型的训练方法中,所述根据所述实体词边界预测结果确定实体类型预测结果,包括:
根据实体词边界预测结果中实体开始位置和实体结束位置确定实体区间;
将实体区间输入全连接层和softmax函数得到实体类型预测结果。
在一些实施例中,上述一种嵌套命名实体识别模型的训练方法中,所述根据所述数据集确定第一数据集,包括:
将数据集中文字样本对应的实体词标签替换为只标注实体词开始的标签和实体词结束的标签;
根据只标注实体词开始的标签和实体词结束的标签确定实体标签边界对应的位置坐标表示;
数据集和实体词标签边界对应的位置坐标表示组成了第一数据集。
在一些实施例中,上述一种嵌套命名实体识别模型的训练方法中,根据第一数据集确定第一数据集对应的字向量,包括:
将第一数据集中的文字样本输入到预训练BERT模型中;
通过前向计算得到文字样本中每个字对应的字向量。
在一些实施例中,上述一种嵌套命名实体识别模型的训练方法中,根据第一数据集、实体词边界预测结果和实体类型预测结果计算实体词边界预测损失和实体类型预测损失,包括:
根据第一数据集和所述实体词边界预测结果计算得到实体词边界预测损失;
根据第一数据集和所述实体类型预测结果计算得到实体类型预测损失。
在一些实施例中,上述一种嵌套命名实体识别模型的训练方法中,
根据实体词边界预测损失和所述实体类型预测损失调整模型参数得到嵌套命名实体识别模型,包括:
根据实体词边界预测损失和实体类型预测损失求和后的损失调整模型参数得到嵌套命名实体识别模型。
第二方面,本发明实施例还提供了一种嵌套命名实体识别模型的训练装置,包括:
获取模块:用于获取标注好的数据集,所述数据集包括:文字样本和文字样本对应的实体标签;
第一确定模块:用于根据数据集确定第一数据集,第一数据集包括:文字样本、文字样本对应的实体标签和实体标签边界对应的位置坐标表示;
第二确定模块:用于根据第一数据集确定实体词边界预测结果;
第三确定模块:用于根据实体词边界预测结果确定实体类型预测结果;
计算模块:用于根据第一数据集、实体词边界预测结果和实体类型预测结果计算实体词边界预测损失和实体类型预测损失;
调整模块:用于根据实体词边界预测损失和所述实体类型预测损失调整模型参数得到嵌套命名实体识别模型。
第三方面,本发明实施例还提供了一种电子设备,包括:处理器和存储器;
所述处理器通过调用所述存储器存储的程序或指令,用于执行如上所述任一项所述一种嵌套命名实体识别模型的训练方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储程序或指令,所述程序或指令使计算机执行如上所述任一项所述一种嵌套命名实体识别模型的训练方法。
本发明的有益效果是:本发明涉及本发明涉及嵌套命名实体识别模型的训练方法、装置、电子设备和存储介质,该方法包括:获取标注好的数据集,根据数据集确定第一数据集,根据第一数据集确定实体词边界预测结果;根据实体词边界预测结果确定实体类型预测结果;根据第一数据集、实体词边界预测结果和实体类型预测结果计算实体词边界预测损失和实体类型预测损失;根据实体词边界预测损失和实体类型预测损失调整模型参数得到嵌套命名实体识别模型。本申请实施例没有使用堆叠式的模型,避免了堆叠式LSTM+CRF错误传递的问题,并将实体词边界预测损失与实体类型预测损失结合起来调整模型参数得到嵌套命名实体识别模型,因为模型联合了实体词边界与实体类型的信息,提高了嵌套命名实体识别能力。
附图说明
图1为本发明实施例提供的一种嵌套命名实体识别模型的训练方法图一;
图2为本发明实施例提供的一种嵌套命名实体识别模型的训练方法图二;
图3为本发明实施例提供的一种嵌套命名实体识别模型的训练方法图三;
图4为本发明实施例提供的一种嵌套命名实体识别模型的训练装置图;
图5为本发明实施例提供的一种电子设备的示意性框图。
具体实施方式
以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。
为了能够更清楚地理解本申请的上述目的、特征和优点,下面结合附图和实施例对本公开作进一步的详细说明。可以理解的是,所描述的实施例是本公开的一部分实施例,而不是全部的实施例。此处所描述的具体实施例仅仅用于解释本公开,而非对本申请的限定。基于所描述的本申请的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本申请保护的范围。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。
图1为本发明实施例提供的一种嵌套命名实体识别模型的训练方法图一。
第一方面,结合图1,本发明实施例提供了一种嵌套命名实体识别模型的训练方法,包括S101至S106六个步骤:
S101:获取标注好的数据集,数据集包括:文字样本和文字样本对应的实体标签;
具体的,本申请实施例中,标注好的数据集可以表示为:
其中,Xi表示一条文字样本,Yi表示Xi样本对应的实体标签;分别表示一个字,与这个字对应的实体标签。如:
标注好的数据集X=[我,要,去,石,家,庄,万,达,广,场],Y=[4,6,CITY||4,10,LOCATION]。
S102:根据数据集确定第一数据集,第一数据集包括:文字样本、文字样本对应的实体标签和实体标签边界对应的位置坐标表示;
具体的,本申请实施例中,根据数据集(Xi,Yi)确定第一数据集(Xi,Yi,Li),Li表示实体标签边界对应的位置坐标表示。
S103:根据第一数据集确定实体词边界预测结果。
具体的,本申请实施例中,根据第一数据集(Xi,Yi,Li)确定实体词边界预测结果
S104:根据实体词边界预测结果确定实体类型预测结果;
具体的,本申请实施例中,根据实体词边界预测结果确定实体类型预测结果
S105:根据第一数据集、实体词边界预测结果和实体类型预测结果计算实体词边界预测损失和实体类型预测损失;
具体的,本申请实施例中,根据第一数据集(Xi,Yi,Li)、和/>计算实体词边界预测损失loss1和实体类型预测损失loss2。
S106:根据实体词边界预测损失和实体类型预测损失调整模型参数得到嵌套命名实体识别模型。
具体的,本申请实施例中,根据实体词边界预测损失loss1和实体类型预测损失loss2,调整模型参数得到嵌套命名实体识别模型,本申请实施例没有使用堆叠式的模型,避免了堆叠式LSTM+CRF错误传递的问题,并将实体词边界预测损失与实体类型预测损失结合起来调整模型参数得到嵌套命名实体识别模型,因为嵌套命名实体识别模型联合了实体词边界与实体类型的信息,提高了嵌套命名实体识别能力。
图2为本发明实施例提供的一种嵌套命名实体识别模型的训练方法图二。
在一些实施例中,结合图2,上述一种嵌套命名实体识别模型的训练方法中,所述根据所述第一数据集确定实体词边界预测结果,包括S201至S202两个步骤:
S201:根据第一数据集确定第一数据集对应的字向量;
具体的,本申请实施例中,根据第一数据集确定第一数据集对应的字向量,包括:将第一数据集中的文字样本输入到预训练BERT模型中;通过前向计算得到文字样本中每个字对应的字向量。
S202:将第一数据集对应的字向量中每个字向量分别输入全连接层和softmax函数得到实体词边界预测结果。
具体的,本申请实施例中,将第一数据集中的X作为输入,使用预训练BERT模型得到每一条数据的字向量的表示(Xi,Yi,Li)的向量表示Vi;
Vi=f(θ,Xi)
其中,θ为BERT模型的参数,f(θ,Xi)表示对于第一数据集(Xi,Yi,Li)通过前向计算,得到每个字的字向量。输出Vi为ni,ni表示数据(Xi,Yi)的字个数个向量,即每个字对应一个向量j表示第j个字。
对于数据(Xi,Yi,Li)的字向量Vi针对Li进实体标签边界对应的位置坐标表示进行预测,其中的每个字向量分别输入全连接层,得到隐层表示,隐层表示经过softmax函数,得到实体词边界预测结果
其中,δ为全连接层的模型参数。FC1()表示经过全连接层和softmax函数。
图3为本发明实施例提供的一种嵌套命名实体识别模型的训练方法图三。
在一些实施例中,结合图3,上述一种嵌套命名实体识别模型的训练方法中,所述根据所述实体词边界预测结果确定实体类型预测结果,包括S301至S302两个步骤。
S301:根据实体词边界预测结果中实体词开始位置和实体词结束位置确定实体区间;
S302:将实体区间输入全连接层和softmax函数得到实体类型预测结果。
具体的,本申请实施例中,上述S201至S202步骤得到了第一数据集数据(Xi,Yi,Li)的实体词边界预测结果接着将实体词边界预测结果/>中的实体词开始位置“B”,实体词结束位置“E”连接成区间,得到区间表示R(s,e),其中s表示实体词开始的位置,e表示实体词结束的位置,得到区间的表示,即字向量Vik求平均:
得到了实体区间的表示后,将/>输入全连接层,之后再输入softmax函数得到实体类型预测结果/>
其中,α为全连接层的模型参数。FC2()表示经过全连接层和softmax函数。
在一些实施例中,上述一种嵌套命名实体识别模型的训练方法中,所述根据所述数据集确定第一数据集,包括:
将数据集中文字样本对应的实体词标签替换为只标注实体词开始的标签和实体结束的标签;
根据只标注实体词开始的标签和实体词结束的标签确定实体标签边界对应的位置坐标表示;
数据集和实体词标签边界对应的位置坐标表示组成了第一数据集。
具体的,本申请实施例中,将数据集中的实体标签进行处理。将实体词的标签,替换为只标注实体词开始结束的标签“BOE”。用“B”表示实体词的开始,“E”表示实体词的结束,其余均替换为“O”,得到数据(Xi,Yi)的新表示(Xi,Yi,Li)。举例说明:Xi=[我,要,去,石,家,庄,万,达,广,场],Yi=Y=[4,6,CITY||4,10,LOCATION],将Yi变换为Li=[O O O B O EO O O E]。
在一些实施例中,上述一种嵌套命名实体识别模型的训练方法中,根据第一数据集、实体词边界预测结果和实体类型预测结果计算实体词边界预测损失和实体类型预测损失,包括:
根据第一数据集和所述实体词边界预测结果计算得到实体词边界预测损失;
根据第一数据集和所述实体类型预测结果计算得到实体类型预测损失。
具体的,本申请实施例中,实体词边界预测损失表示为:
该公式表示针对第一数据集(Xi,Yi,Li)以及对应的实体词边界预测结果求得的实体词边界预测损失loss1
具体的,本申请实施例中,实体类型预测损失表示为:
该公式表示针对第一数据集(Xi,Yi,Li)以及对应的实体类型预测结果求得的实体类型预测损失loss2。
在一些实施例中,上述一种嵌套命名实体识别模型的训练方法中,
根据实体词边界预测损失和所述实体类型预测损失调整模型参数得到嵌套命名实体识别模型,包括:
根据实体词边界预测损失和实体类型预测损失求和后的损失调整模型参数得到嵌套命名实体识别模型。
具体的,实体词边界预测损失和实体类型预测损失求和后的损失表示为:
loss=loss1+loss2
根据loss调整模型参数得到嵌套命名实体识别模型,因为嵌套命名实体识别模型联合了实体词边界与实体类型的信息,提高了嵌套命名实体识别能力。
图4为本发明实施例提供的一种嵌套命名实体识别模型的训练装置图。
第二方面,结合图4,本发明实施例还提供了一种嵌套命名实体识别模型的训练装置,包括:
获取模块401:用于获取标注好的数据集,所述数据集包括:文字样本和文字样本对应的实体标签;
具体的,本申请实施例中,获取模块401获取标注好的数据集可以表示为:
其中,Xi表示一条文字样本,Yi表示Xi样本对应的实体标签;分别表示一个字,与这个字对应的实体标签。如:
标注好的数据集X=[我,要,去,石,家,庄,万,达,广,场],Y=[4,6,CITY||4,10,LOCATION]。
第一确定模块402:用于根据数据集确定第一数据集,第一数据集包括:文字样本、文字样本对应的实体标签和实体标签边界对应的位置坐标表示;
具体的,本申请实施例中,第一确定模块402根据数据集(Xi,Yi)确定第一数据集(Xi,Yi,Li),Li表示实体标签边界对应的位置坐标表示。
第二确定模块403:用于根据第一数据集确定实体词边界预测结果;
具体的,本申请实施例中,第二确定模块403根据第一数据集(Xi,Yi,Li)确定实体词边界预测结果
第三确定模块404:用于根据实体词边界预测结果确定实体类型预测结果;
具体的,本申请实施例中,第三确定模块404根据实体词边界预测结果确定实体类型预测结果/>
计算模块405:用于根据第一数据集、实体词边界预测结果和实体类型预测结果计算实体词边界预测损失和实体类型预测损失;
具体的,本申请实施例中,计算模块405根据第一数据集(Xi,Yi,Li)、和计算实体词边界预测损失loss1和实体类型预测损失loss2。
调整模块406:用于根据实体词边界预测损失和所述实体类型预测损失调整模型参数得到嵌套命名实体识别模型。
具体的,本申请实施例中,调整模块406根据实体词边界预测损失loss1和实体类型预测损失loss2,调整模型参数得到嵌套命名实体识别模型,本申请实施例没有使用堆叠式的模型,避免了堆叠式LSTM+CRF错误传递的问题,并将实体词边界预测损失与实体类型预测损失结合起来调整模型参数得到嵌套命名实体识别模型,因为嵌套命名实体识别模型联合了实体词边界与实体类型的信息,提高了嵌套命名实体识别能力。
第三方面,本发明实施例还提供了一种电子设备,包括:处理器和存储器;
所述处理器通过调用所述存储器存储的程序或指令,用于执行如上所述任一项所述一种嵌套命名实体识别模型的训练方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储程序或指令,所述程序或指令使计算机执行如上所述任一项所述一种嵌套命名实体识别模型的训练方法。
图5是本公开实施例提供的一种电子设备的示意性框图。
如图5所示,电子设备包括:至少一个处理器501、至少一个存储器502和至少一个通信接口503。电子设备中的各个组件通过总线系统504耦合在一起。通信接口503,用于与外部设备之间的信息传输。可理解,总线系统504用于实现这些组件之间的连接通信。总线系统504除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但为了清楚说明起见,在图5中将各种总线都标为总线系统504。
可以理解,本实施例中的存储器502可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。
在一些实施方式中,存储器502存储了如下的元素,可执行单元或者数据结构,或者他们的子集,或者他们的扩展集:操作系统和应用程序。
其中,操作系统,包含各种系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务。应用程序,包含各种应用程序,例如媒体播放器(Media Player)、浏览器(Browser)等,用于实现各种应用业务。实现本申请实施例提供的嵌套命名实体识别模型的训练方法中任一方法的程序可以包含在应用程序中。
在本申请实施例中,处理器501通过调用存储器502存储的程序或指令,具体的,可以是应用程序中存储的程序或指令,处理器501用于执行本申请实施例提供的嵌套命名实体识别模型的训练方法各实施例的步骤。
获取标注好的数据集,数据集包括:文字样本和文字样本对应的实体标签;
根据数据集确定第一数据集,第一数据集包括:文字样本、文字样本对应的实体标签和实体标签边界对应的位置坐标表示;
根据第一数据集确定实体词边界预测结果;
根据实体词边界预测结果确定实体类型预测结果;
根据第一数据集、实体词边界预测结果和实体类型预测结果计算实体词边界预测损失和实体类型预测损失;
根据实体词边界预测损失和实体类型预测损失调整模型参数得到嵌套命名实体识别模型。
本申请实施例提供的嵌套命名实体识别模型的训练方法中任一方法可以应用于处理器501中,或者由处理器501实现。处理器501可以是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器501中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器501可以是通用处理器、数字信号处理器(DigitalSignal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
本申请实施例提供的嵌套命名实体识别模型的训练方法中任一方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件单元组合执行完成。软件单元可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器502,处理器501读取存储器502中的信息,结合其硬件完成嵌套命名实体识别模型的训练方法的步骤。
本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本申请的范围之内并且形成不同的实施例。
本领域的技术人员能够理解,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
虽然结合附图描述了本申请的实施方式,但是本领域技术人员可以在不脱离本申请的精神和范围的情况下做出各种修改和变型,这样的修改和变型均落入由所附权利要求所限定的范围之内以上,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
以上,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
Claims (7)
1.一种嵌套命名实体识别模型的训练方法,其特征在于,包括:
获取标注好的数据集,所述数据集包括:文字样本和所述文字样本对应的实体标签;
将所述数据集中文字样本对应的实体词标签替换为只标注实体词开始的标签和实体词结束的标签;
根据所述只标注实体词开始的标签和实体词结束的标签确定实体词标签边界对应的位置坐标表示;
所述数据集和实体词标签边界对应的位置坐标表示组成了第一数据集;
根据所述第一数据集确定所述第一数据集对应的字向量;
将第一数据集对应的字向量中每个字向量分别输入全连接层和softmax函数得到实体词边界预测结果;
根据所述实体词边界预测结果中实体词开始位置和实体词结束位置确定实体区间;
将所述实体区间输入全连接层和softmax函数得到实体类型预测结果;
根据所述第一数据集、所述实体词边界预测结果和所述实体类型预测结果计算实体词边界预测损失和实体类型预测损失;
根据所述实体词边界预测损失和所述实体类型预测损失调整模型参数得到嵌套命名实体识别模型。
2.根据权利要求1所述的一种嵌套命名实体识别模型的训练方法,其特征在于,所述根据所述第一数据集确定所述第一数据集对应的字向量,包括:
将所述第一数据集中的文字样本输入到预训练BERT模型中;
通过前向计算得到文字样本中每个字对应的字向量。
3.根据权利要求1所述的一种嵌套命名实体识别模型的训练方法,其特征在于,所述根据所述第一数据集、所述实体词边界预测结果和所述实体类型预测结果计算实体词边界预测损失和实体类型预测损失,包括:
根据所述第一数据集和所述实体词边界预测结果计算得到实体词边界预测损失;
根据所述第一数据集和所述实体类型预测结果计算得到实体类型预测损失。
4.根据权利要求1所述的一种嵌套命名实体识别模型的训练方法,其特征在于,根据所述实体词边界预测损失和所述实体类型预测损失调整模型参数得到嵌套命名实体识别模型,包括:
根据所述实体词边界预测损失和所述实体类型预测损失求和后的损失调整模型参数得到嵌套命名实体识别模型。
5.一种嵌套命名实体识别模型的训练装置,其特征在于,包括:
获取模块:用于获取标注好的数据集,所述数据集包括:文字样本和所述文字样本对应的实体标签;
第一确定模块:用于将所述数据集中文字样本对应的实体词标签替换为只标注实体词开始的标签和实体词结束的标签;
根据所述只标注实体词开始的标签和实体词结束的标签确定实体词标签边界对应的位置坐标表示;
所述数据集和实体词标签边界对应的位置坐标表示组成了第一数据集;
第二确定模块:用于根据所述第一数据集确定所述第一数据集对应的字向量;
将第一数据集对应的字向量中每个字向量分别输入全连接层和softmax函数得到实体词边界预测结果;
第三确定模块:
根据所述实体词边界预测结果中实体词开始位置和实体词结束位置确定实体区间;
将所述实体区间输入全连接层和softmax函数得到实体类型预测结果;
计算模块:用于根据所述第一数据集、所述实体词边界预测结果和所述实体类型预测结果计算实体词边界预测损失和实体类型预测损失;
调整模块:用于根据所述实体词边界预测损失和所述实体类型预测损失调整模型参数得到嵌套命名实体识别模型。
6.一种电子设备,其特征在于,包括:处理器和存储器;
所述处理器通过调用所述存储器存储的程序或指令,用于执行如权利要求1至4任一项所述嵌套命名实体识别模型的训练方法。
7.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储程序或指令,所述程序或指令使计算机执行如权利要求1至4任一项所述一种嵌套命名实体识别模型的训练方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110921590.1A CN113656544B (zh) | 2021-08-11 | 2021-08-11 | 嵌套命名实体识别模型的训练方法、装置、设备和介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110921590.1A CN113656544B (zh) | 2021-08-11 | 2021-08-11 | 嵌套命名实体识别模型的训练方法、装置、设备和介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113656544A CN113656544A (zh) | 2021-11-16 |
CN113656544B true CN113656544B (zh) | 2024-03-15 |
Family
ID=78480203
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110921590.1A Active CN113656544B (zh) | 2021-08-11 | 2021-08-11 | 嵌套命名实体识别模型的训练方法、装置、设备和介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113656544B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114692636B (zh) * | 2022-03-09 | 2023-11-03 | 南京海泰医疗信息系统有限公司 | 一种基于关系分类与序列标注的嵌套命名实体识别方法 |
CN115204176B (zh) * | 2022-07-28 | 2023-06-06 | 平安科技(深圳)有限公司 | 命名实体识别方法、系统及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020193964A1 (en) * | 2019-03-26 | 2020-10-01 | Benevolentai Technology Limited | Entity type identification for named entity recognition systems |
CN112257421A (zh) * | 2020-12-21 | 2021-01-22 | 完美世界(北京)软件科技发展有限公司 | 嵌套实体数据的识别方法、装置及电子设备 |
CN112487812A (zh) * | 2020-10-21 | 2021-03-12 | 上海旻浦科技有限公司 | 一种基于边界识别的嵌套实体识别方法及系统 |
CN112800768A (zh) * | 2021-02-03 | 2021-05-14 | 北京金山数字娱乐科技有限公司 | 一种嵌套命名实体识别模型的训练方法及装置 |
CN113221539A (zh) * | 2021-07-08 | 2021-08-06 | 华东交通大学 | 一种集成句法信息的嵌套命名实体识别方法与系统 |
-
2021
- 2021-08-11 CN CN202110921590.1A patent/CN113656544B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020193964A1 (en) * | 2019-03-26 | 2020-10-01 | Benevolentai Technology Limited | Entity type identification for named entity recognition systems |
CN112487812A (zh) * | 2020-10-21 | 2021-03-12 | 上海旻浦科技有限公司 | 一种基于边界识别的嵌套实体识别方法及系统 |
CN112257421A (zh) * | 2020-12-21 | 2021-01-22 | 完美世界(北京)软件科技发展有限公司 | 嵌套实体数据的识别方法、装置及电子设备 |
CN112800768A (zh) * | 2021-02-03 | 2021-05-14 | 北京金山数字娱乐科技有限公司 | 一种嵌套命名实体识别模型的训练方法及装置 |
CN113221539A (zh) * | 2021-07-08 | 2021-08-06 | 华东交通大学 | 一种集成句法信息的嵌套命名实体识别方法与系统 |
Non-Patent Citations (1)
Title |
---|
实体提及的多层嵌套识别方法研究;刘非凡;赵军;徐波;;中文信息学报;20070325(第02期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113656544A (zh) | 2021-11-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113656544B (zh) | 嵌套命名实体识别模型的训练方法、装置、设备和介质 | |
JP2020149685A (ja) | 視覚的質問応答モデル、電子機器、および記憶媒体 | |
EP4209965A1 (en) | Data processing method and related device | |
CN109635990B (zh) | 一种训练方法、预测方法、装置、电子设备及存储介质 | |
CN114511472B (zh) | 一种视觉定位方法、装置、设备及介质 | |
US20240127795A1 (en) | Model training method, speech recognition method, device, medium, and apparatus | |
CN112132834B (zh) | 一种心室图像分割方法、系统、装置及存储介质 | |
CN114385178A (zh) | 基于抽象语法树结构信息增强的代码生成方法 | |
Phan et al. | Consensus-based sequence training for video captioning | |
US20200364216A1 (en) | Method, apparatus and storage medium for updating model parameter | |
CN112084301A (zh) | 文本修正模型的训练方法及装置、文本修正方法及装置 | |
AU2019270109B2 (en) | Chapter-level text translation method and device | |
CN113656555B (zh) | 嵌套命名实体识别模型的训练方法、装置、设备和介质 | |
CN111737957B (zh) | 汉字拼音转换方法、装置、电子设备及存储介质 | |
CN116756536B (zh) | 数据识别方法、模型训练方法、装置、设备及存储介质 | |
CN116992880A (zh) | 建筑物名称的识别方法、装置、电子设备和存储介质 | |
CN112509559B (zh) | 音频识别方法、模型训练方法、装置、设备及存储介质 | |
WO2022134338A1 (zh) | 领域适应方法、装置、电子设备及存储介质 | |
CN115270792A (zh) | 一种医疗实体识别方法及装置 | |
CN116756554A (zh) | 对齐模型的训练方法、装置、设备、介质及程序产品 | |
WO2021082518A1 (zh) | 机器翻译方法、机器翻译模型训练方法、装置及存储介质 | |
CN117407754B (zh) | 一种多模态大模型训练策略确定方法、电子设备及介质 | |
CN114492457B (zh) | 语义识别方法、装置、电子设备及存储介质 | |
WO2024114659A1 (zh) | 一种摘要生成方法及其相关设备 | |
CN116634415A (zh) | 一种传感器网络安全预测方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |