CN116384392A - 文本关键词提取方法、模型的训练方法、装置和电子设备 - Google Patents
文本关键词提取方法、模型的训练方法、装置和电子设备 Download PDFInfo
- Publication number
- CN116384392A CN116384392A CN202310458542.2A CN202310458542A CN116384392A CN 116384392 A CN116384392 A CN 116384392A CN 202310458542 A CN202310458542 A CN 202310458542A CN 116384392 A CN116384392 A CN 116384392A
- Authority
- CN
- China
- Prior art keywords
- training
- model
- language
- text
- trained
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012549 training Methods 0.000 title claims abstract description 327
- 238000000605 extraction Methods 0.000 title claims abstract description 171
- 238000000034 method Methods 0.000 title claims abstract description 78
- 230000006870 function Effects 0.000 claims abstract description 137
- 230000015654 memory Effects 0.000 claims description 27
- 238000004590 computer program Methods 0.000 claims description 11
- 238000013507 mapping Methods 0.000 claims description 5
- 238000012545 processing Methods 0.000 abstract description 9
- 230000000875 corresponding effect Effects 0.000 description 42
- 230000008685 targeting Effects 0.000 description 16
- 201000005947 Carney Complex Diseases 0.000 description 7
- 235000019687 Lamb Nutrition 0.000 description 7
- 238000010586 diagram Methods 0.000 description 7
- 230000000694 effects Effects 0.000 description 6
- 238000003058 natural language processing Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 3
- 238000009826 distribution Methods 0.000 description 3
- 230000006978 adaptation Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000002596 correlated effect Effects 0.000 description 2
- 238000013136 deep learning model Methods 0.000 description 2
- 230000000873 masking effect Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000036961 partial effect Effects 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 230000002829 reductive effect Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biomedical Technology (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Mathematical Physics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Character Discrimination (AREA)
- Machine Translation (AREA)
Abstract
本申请涉及文字处理技术领域,提供一种文本关键词提取方法、模型的训练方法、装置和电子设备,获取待处理文本包含的待处理注释信息;将待处理注释信息输入已训练的关键词识别模型,得到待处理注释信息的文本关键词;生成的文本关键词用于数据元对标,其中,关键词识别模型是采用训练样本数据对语言提取模型进行训练得到的,训练样本数据包括带有关键词标签的字段注释文本;关键词识别模型的目标损失函数为截断交叉熵损失函数。该方法,可以使得模型能够将更多的精力放在模型难以区分的样本上,让模型有意识的去分辨模棱两可的样本,能有效缓解模型的过拟合,实现对原始字段注释的关键词的准确提取,可以提高数据元对标的准确率。
Description
技术领域
本申请实施例涉及文字处理技术领域,尤其涉及一种文本关键词提取方法、模型的训练方法、装置和电子设备。
背景技术
在自然语言处理过程中,不论自然语言处理任务是文本生成、文本分类、机器翻译或者是其他类型的任务,如果希冀任务最终的性能表现比较好,就需要保证数据的质量。所以,无论是基于什么任务都需要对数据进行相关的处理,将其处理成为模型更好理解的形式。
在数据元对标领域也是如此,数据元对标这个任务本质上可以理解成为一个文本匹配问题,将需要进行对标的数据与现存库中的数据进行一种相似度计算,召回相似度最高的数据元作为其对标数据元。在这个文本匹配的任务当中,重点在于对于字段注释文本的表示,文本表示的效果越好,其对标的效果也就越好。但是,在数据元对标的过程中,会面临着很多的挑战,其中亟待解决的就是对于原始字段注释的处理,在注释当中,一般都会包含了对于这一个字段的解释和说明,方便其他人更好的理解其意义,数据元对标也需要利用它的表示来进行文本匹配。
相关技术中,通常是将原始字段注释的信息都作为模型的输入进行数据元对标,容易造成数据元对标的准确性低下。因此,如何提供一种方法提高数据元对标的准确率,具有重要的现实意义。
发明内容
本申请实施例提供了一种文本关键词提取方法、模型的训练方法、装置和电子设备,实现原始字段注释的关键词提取,可以提高数据元对标的准确率。
为达到上述目的,本申请实施例的技术方案是这样实现的:
第一方面,本申请实施例提供文本关键词提取方法,所述文本关键词用于数据元对标;所述方法包括:
获取待处理文本包含的待处理注释信息;
将所述待处理注释信息输入已训练的关键词识别模型,得到所述待处理注释信息的所述文本关键词;
所述关键词识别模型是采用训练样本数据对语言提取模型进行训练得到的,所述训练样本数据包括带有关键词标签的字段注释文本,所述语言提取模型用于获取输入注释信息的关键词,且语言提取模型的目标损失函数收敛至预设的目标条件时获得已训练的关键词识别模型;所述目标损失函数为截断交叉熵损失函数;所述截断交叉熵损失函数为使第一类样本对应的损失值收敛,且使第二类样本对应的损失值不收敛的交叉熵损失函数;所述第一类样本的预测概率落入第一控制值和第二控制值之间的概率控制区域;所述第二类样本的预测概率未落入所述概率控制区域。
本申请实施例提供的文本关键词提取方法,获取待处理文本包含的待处理注释信息;将所述待处理注释信息输入已训练的关键词识别模型,得到所述待处理注释信息的所述文本关键词,生成的文本关键词用于数据元对标,其中,关键词识别模型的目标损失函数为截断交叉熵损失函数。该方法,可以使得模型能够将更多的精力放在模型难以区分的样本上,让模型有意识的去分辨模棱两可的样本,能有效缓解模型的过拟合,实现对原始字段注释的关键词的准确提取,可以提高数据元对标的准确率。
在一种可选的实施例中,所述关键词识别模型通过如下方式训练得到:
获得训练样本数据,所述训练样本数据包括带有关键词标签的字段注释文本;
基于所述训练样本数据,选取批次训练语料;所述批次训练语料包括所述字段注释文本中的一部分;
将所述批次训练语料输入待训练的语言提取模型进行训练,并确定所述待训练的语言提取模型的目标损失函数的识别损失值;所述目标损失函数为截断交叉熵损失函数;所述截断交叉熵损失函数为使第一类样本对应的损失值收敛,且使第二类样本对应的损失值不收敛的交叉熵损失函数;所述第一类样本的预测概率落入第一控制值和第二控制值之间的概率控制区域;所述第二类样本的预测概率未落入所述概率控制区域;所述预测概率表征所述批次训练语料的关键词为所述关键词标签的概率;
若确定所述批次训练语料为所述第二类样本,则不调整待训练的语言提取模型的参数并进行再次训练;
若确定所述批次训练语料为所述第一类样本,则判断所述识别损失值是否收敛至预设的目标值,如果判断结果为否,则根据确定的识别损失值对待训练的语言提取模型的参数进行调整并进行再次训练;如果判断结果为是,则结束训练,得到已训练的关键词识别模型。
该实施例的方法,通过将所述批次训练语料输入待训练的语言提取模型进行训练,并确定所述待训练的语言提取模型的目标损失函数的识别损失值;所述目标损失函数为截断交叉熵损失函数;所述截断交叉熵损失函数为使第一类样本对应的损失值收敛,且使第二类样本对应的损失值不收敛的交叉熵损失函数;所述第一类样本的预测概率落入第一控制值和第二控制值之间的概率控制区域;所述第二类样本的预测概率未落入所述概率控制区域;所述预测概率表征所述批次训练语料的关键词为所述关键词标签的概率;若确定所述批次训练语料为所述第二类样本,则不调整待训练的语言提取模型的参数并进行再次训练;若确定所述批次训练语料为所述第一类样本,则判断所述识别损失值是否收敛至预设的目标值,如果判断结果为否,则根据确定的识别损失值对待训练的语言提取模型的参数进行调整并进行再次训练;如果判断结果为是,则结束训练,得到已训练的关键词识别模型,可以使得到的已训练关键词识别模型有意识的去分辨模棱两可的样本,能有效缓解模型的过拟合,实现对原始字段注释的关键词的准确提取,可以提高数据元对标的准确率。
在一种可选的实施例中,所述获得训练样本数据之前,所述方法还包括:
收集目标领域的文本数据集;
基于所述文本数据集,对预设的语言模型进行无监督语言模型训练,得到所述语言提取模型。
该实施例的方法中,通过收集目标领域的文本数据集;基于所述文本数据集,对预设的语言模型进行无监督语言模型训练,得到所述语言提取模型,可以实现基于深度学习模型直接提取出待处理注释信息的所述文本关键词,能够在有效节省人力成本,有效提升数据元对标过程的效率。
第二方面,本申请实施例还提供了一种关键词识别模型的训练方法,用于生成权利要求1中所使用的关键词识别模型,所述训练方法包括:
获得训练样本数据,所述训练样本数据包括带有关键词标签的字段注释文本;
基于所述训练样本数据,选取批次训练语料;所述批次训练语料包括所述字段注释文本中的一部分;
将所述批次训练语料输入待训练的语言提取模型进行训练,并确定所述待训练的语言提取模型的目标损失函数的识别损失值;所述目标损失函数为截断交叉熵损失函数;所述截断交叉熵损失函数为使第一类样本对应的损失值收敛,且使第二类样本对应的损失值不收敛的交叉熵损失函数;所述第一类样本的预测概率落入第一控制值和第二控制值之间的概率控制区域;所述第二类样本的预测概率未落入所述概率控制区域;所述预测概率表征所述批次训练语料的关键词为所述关键词标签的概率;
若确定所述批次训练语料为所述第一类样本,则判断所述识别损失值是否收敛至预设的目标值,如果判断结果为是,则结束训练,得到已训练的关键词识别模型,如果判断结果为否,则根据确定的识别损失值对待训练的语言提取模型的参数进行调整并进行再次训练;以及,若确定所述批次训练语料为所述第二类样本,则不调整待训练的语言提取模型的参数并进行再次训练。
本申请实施例提供的关键词识别模型的训练方法,包括:获得训练样本数据,所述训练样本数据包括带有关键词标签的字段注释文本;基于所述训练样本数据,选取批次训练语料;所述批次训练语料包括所述字段注释文本中的一部分;将所述批次训练语料输入待训练的语言提取模型进行训练,并确定所述待训练的语言提取模型的目标损失函数的识别损失值;所述目标损失函数为截断交叉熵损失函数;所述截断交叉熵损失函数为使第一类样本对应的损失值收敛,且使第二类样本对应的损失值不收敛的交叉熵损失函数;所述第一类样本的预测概率落入第一控制值和第二控制值之间的概率控制区域;所述第二类样本的预测概率未落入所述概率控制区域;所述预测概率表征所述批次训练语料的关键词为所述关键词标签的概率;若确定所述批次训练语料为所述第一类样本,则判断所述识别损失值是否收敛至预设的目标值,如果判断结果为是,则结束训练,得到已训练的关键词识别模型,如果判断结果为否,则根据确定的识别损失值对待训练的语言提取模型的参数进行调整并进行再次训练;以及,若确定所述批次训练语料为所述第二类样本,则不调整待训练的语言提取模型的参数并进行再次训练。该方法,可以使得到的已训练关键词识别模型有意识的去分辨模棱两可的样本,能有效缓解模型的过拟合,实现对原始字段注释的关键词的准确提取,可以提高数据元对标的准确率。
在一种可选的实施例中,所述获得训练样本数据之前,所述方法还包括:
收集目标领域的文本数据集;
基于所述文本数据集,对预设的语言模型进行无监督语言模型训练,得到所述语言提取模型。
该实施例的方法,通过先收集目标领域的文本数据集;基于所述文本数据集,对预设的语言模型进行无监督语言模型训练,得到所述语言提取模型,可以实现基于深度学习模型直接提取出待处理注释信息的所述文本关键词,能够在有效节省人力成本,有效提升数据元对标过程的效率。
在一种可选的实施例中,所述基于所述文本数据集,对预设的语言模型进行无监督语言模型训练,得到所述语言提取模型,包括:
基于所述文本数据集,对预设的语言模型进行无监督语言模型训练,得到预训练语言模型;所述预训练语言模型包括Bert编码器;
对所述预训练语言模型进行编码器重构,得到所述语言提取模型;所述编码器重构为在所述Bert编码器之后连接TextCNN模块。
该实施例的方法,基于所述文本数据集,对预设的语言模型进行无监督语言模型训练,得到预训练语言模型;所述预训练语言模型包括Bert编码器;对所述预训练语言模型进行编码器重构,得到所述语言提取模型;所述编码器重构为在所述Bert编码器之后连接TextCNN模块。通过对预训练语言模型包括Bert编码器进行编码器重构,在所述Bert编码器之后连接TextCNN模块,实现BERT和TextCNN相结合,可以将BERT的每层输出都作为TextCNN的输入通道,进入到TextCNN的内部,得到最终的文本表示,使得到的文本表示更加全面的考虑到模型的多层表示,进一步提高数据元对标的准确率。
在一种可选的实施例中,所述目标领域为数据元领域。
在一种可选的实施例中,所述根据确定的识别损失值对待训练的语言提取模型的参数进行调整并进行再次训练,包括:
根据确定的识别损失值对待训练的语言提取模型的参数进行调整,直至识别损失值收敛至预设的目标值为止,将得到的语言提取模型作为已训练的关键词识别模型。
第三方面,本申请实施例还提供了一种文本关键词提取装置,所述文本关键词用于数据元对标;所述装置包括:
注释信息获取单元,用于获取待处理文本包含的待处理注释信息;
关键词生成单元,用于将所述待处理注释信息输入已训练的关键词识别模型,得到所述待处理注释信息的所述文本关键词;所述关键词识别模型是采用训练样本数据对语言提取模型进行训练得到的,所述训练样本数据包括带有关键词标签的字段注释文本,所述语言提取模型用于获取输入注释信息的关键词,且语言提取模型的目标损失函数收敛至预设的目标条件时获得已训练的关键词识别模型;所述目标损失函数为截断交叉熵损失函数;所述截断交叉熵损失函数为使第一类样本对应的损失值收敛,且使第二类样本对应的损失值不收敛的交叉熵损失函数;所述第一类样本的预测概率落入第一控制值和第二控制值之间的概率控制区域;所述第二类样本的预测概率未落入所述概率控制区域。
在一种可选的实施例中,还包括模型训练单元,所述模型训练单元用于通过如下方式训练得到所述关键词识别模型:
获得训练样本数据,所述训练样本数据包括带有关键词标签的字段注释文本;
基于所述训练样本数据,选取批次训练语料;所述批次训练语料包括所述字段注释文本中的一部分;
将所述批次训练语料输入待训练的语言提取模型进行训练,并确定所述待训练的语言提取模型的目标损失函数的识别损失值;所述目标损失函数为截断交叉熵损失函数;所述截断交叉熵损失函数为使第一类样本对应的损失值收敛,且使第二类样本对应的损失值不收敛的交叉熵损失函数;所述第一类样本的预测概率落入第一控制值和第二控制值之间的概率控制区域;所述第二类样本的预测概率未落入所述概率控制区域;所述预测概率表征所述批次训练语料的关键词为所述关键词标签的概率;
若确定所述批次训练语料为所述第二类样本,则不调整待训练的语言提取模型的参数并进行再次训练;
若确定所述批次训练语料为所述第一类样本,则判断所述识别损失值是否收敛至预设的目标值,如果判断结果为否,则根据确定的识别损失值对待训练的语言提取模型的参数进行调整并进行再次训练;如果判断结果为是,则结束训练,得到已训练的关键词识别模型。
在一种可选的实施例中,所述模型训练单元,还用于:收集目标领域的文本数据集;
基于所述文本数据集,对预设的语言模型进行无监督语言模型训练,得到所述语言提取模型。
第四方面,本申请实施例还提供了一种关键词识别模型的训练装置,用于生成第三方面中所使用的关键词识别模型,所述训练装置包括:
训练数据获取单元,用于获得训练样本数据,所述训练样本数据包括带有关键词标签的字段注释文本;
模型训练执行单元,用于将所述批次训练语料输入待训练的语言提取模型进行训练,并确定所述待训练的语言提取模型的目标损失函数的识别损失值;所述目标损失函数为截断交叉熵损失函数;所述截断交叉熵损失函数为使第一类样本对应的损失值收敛,且使第二类样本对应的损失值不收敛的交叉熵损失函数;所述第一类样本的预测概率落入第一控制值和第二控制值之间的概率控制区域;所述第二类样本的预测概率未落入所述概率控制区域;所述预测概率表征所述批次训练语料的关键词为所述关键词标签的概率;若确定所述批次训练语料为所述第一类样本,则判断所述识别损失值是否收敛至预设的目标值,如果判断结果为是,则结束训练,得到已训练的关键词识别模型,如果判断结果为否,则根据确定的识别损失值对待训练的语言提取模型的参数进行调整并进行再次训练;以及,若确定所述批次训练语料为所述第二类样本,则不调整待训练的语言提取模型的参数并进行再次训练。
在一种可选的实施例中,所述装置还包括模型预训练单元,所述模型预训练单元,用于:
在所述获得训练样本数据之前,收集目标领域的文本数据集;
基于所述文本数据集,对预设的语言模型进行无监督语言模型训练,得到所述语言提取模型。
在一种可选的实施例中,所述模型预训练单元,具体用于:
基于所述文本数据集,对预设的语言模型进行无监督语言模型训练,得到预训练语言模型;所述预训练语言模型包括Bert编码器;
对所述预训练语言模型进行编码器重构,得到所述语言提取模型;所述编码器重构为在所述Bert编码器之后连接TextCNN模块。
在一种可选的实施例中,所述目标领域为数据元领域。
在一种可选的实施例中,所述模型训练执行单元,具体用于:
根据确定的识别损失值对待训练的语言提取模型的参数进行调整,直至识别损失值收敛至预设的目标值为止,将得到的语言提取模型作为已训练的关键词识别模型。
第五方面,本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时,实现第一方面或第二方面任一项所述的方法。
第六方面,本申请实施例还提供了一种电子设备,包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的计算机程序,当所述计算机程序被所述处理器执行时,使得所述处理器实现第一方面或第二方面任一项所述的方法。
第三方面至第六方面中任意一种实现方式所带来的技术效果可参见第一方面至第二方面中对应的实现方式所带来的技术效果,此处不再赘述。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种文本关键词提取方法的流程示意图;
图2为本申请实施例提供的一种文本关键词提取方法的得到关键词识别模型的流程示意图;
图3为本申请实施例提供的一种文本关键词提取方法的得到语言提取模型的流程示意图;
图4为本申请实施例提供的一种关键词识别模型的训练方法的流程示意图;
图5为本申请实施例提供的另一种关键词识别模型的训练方法的流程示意图;
图6为本申请实施例提供的一种文本关键词提取装置的结构示意图之一;
图7为本申请实施例提供的一种文本关键词提取装置的结构示意图之二;
图8为本申请实施例提供的一种关键词识别模型的训练装置的结构示意图之一;
图9为本申请实施例提供的一种关键词识别模型的训练装置的结构示意图之二;
图10为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
为了使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请作进一步地详细描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
需要说明的是,本申请的文件中涉及的术语“包括”和“具有”以及它们的变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
下面对文中出现的一些词语进行解释:
(1)、Bert模型:Bert模型为一种面向自然语言处理任务的无监督预训练语言模型。Bert模型采用双编码,为基于Transformer(变换器)模型的自然语言处理模型,具有编码器-解码器的架构,使得BERT在对输入文本的编码过程中,利用了每个词的所有上下文信息,与只能使用前序信息提取语义的单向编码器相比,可以利用更多的上下文信息来辅助当前的语义判断,BERT模型的语义信息提取能力更强。
(2)、TextCNN:TextCNN是用来做文本分类的卷积神经网络。TextCNN的结构较简单,输入数据首先通过一个embedding layer,得到输入语句的embedding的表示,然后通过一个convolution layer,提取语句的特征,最后通过一个fully connected layer得到最终的输出。
(3)、全词Mask(Whole Word Masking,WWM):全词Mask也称全词覆盖。在BERT模型中,原有基于WordPiece的分词方式会把一个完整的词切分成若干个子词,在生成训练样本时,这些被分开的子词会随机被mask。在全词覆盖Mask中,如果一个完整的词的部分WordPiece子词被mask,则同属该词的其他部分也会被mask。
(4)、LAMB优化器:LAMB优化器通过更准确的分层,削减信任比来调整模型训练过程的学习率。本申请的一些实施例中通过LAMB优化器,将BERT模型的训练时间减少。
(5)、MLM(Masked Language Modle,屏蔽语言建模)损失:MLM损失是指MLM语言模型中预测mask词的损失。在MLM语言模型中,通常屏蔽给定句子中特定百分比的单词,模型期望基于该句子中的其他单词预测这些被屏蔽的单词。该训练方案使这个模型在本质上是双向的,因为掩蔽词的表示是根据出现的词来学习的,类似于一个填空式的问题陈述。
在自然语言处理过程中,不论自然语言处理任务是文本生成、文本分类、机器翻译或者是其他类型的任务,如果希冀任务最终的性能表现比较好,就需要保证数据的质量。所以,无论是基于什么任务都需要对数据进行相关的处理,将其处理成为模型更好理解的形式。
在数据元对标领域也是如此,数据元对标这个任务本质上可以理解成为一个文本匹配问题,将需要进行对标的数据与现存库中的数据进行一种相似度计算,召回相似度最高的数据元作为其对标数据元。在这个文本匹配的任务当中,重点在于对于字段注释文本的表示,文本表示的效果越好,其对标的效果也就越好。但是,在数据元对标的过程中,会面临着很多的挑战,其中亟待解决的就是对于原始字段注释的处理,在注释当中,一般都会包含了对于这一个字段的解释和说明,方便其他人更好的理解其意义,数据元对标也需要利用它的表示来进行文本匹配。
相关技术中,通常是将原始字段注释的信息都作为模型的输入进行数据元对标,容易造成数据元对标的准确性低下。因此,如何提供一种方法提高数据元对标的准确率是亟需解决的问题,具有重要的现实意义。
为解决现有存在的技术问题,本申请实施例提供了一种文本关键词提取方法、模型的训练方法、装置和电子设备,其中的文本关键词提取方法,获取待处理文本包含的待处理注释信息;将待处理注释信息输入已训练的关键词识别模型,得到待处理注释信息的文本关键词;文本关键词用于数据元对标;关键词识别模型是采用训练样本数据对语言提取模型进行训练得到的,训练样本数据包括带有关键词标签的字段注释文本,语言提取模型用于获取输入注释信息的关键词,且语言提取模型的目标损失函数收敛至预设的目标条件时获得已训练的关键词识别模型;目标损失函数为截断交叉熵损失函数;截断交叉熵损失函数为使第一类样本对应的损失值收敛,且使第二类样本对应的损失值不收敛的交叉熵损失函数;第一类样本的预测概率落入第一控制值和第二控制值之间的概率控制区域;第二类样本的预测概率未落入概率控制区域。该方法获取待处理文本包含的待处理注释信息;将待处理注释信息输入已训练的关键词识别模型,得到待处理注释信息的文本关键词,生成的文本关键词用于数据元对标,其中,关键词识别模型的目标损失函数为截断交叉熵损失函数,使得模型能够将更多的精力放在模型难以区分的样本上,让模型有意识的去分辨模棱两可的样本,能有效缓解模型的过拟合,实现对原始字段注释的关键词的准确提取,可以提高数据元对标的准确率。
为了使本申请实施例的发明目的、技术方案和优点更加清楚,下面将结合附图对本申请作进一步地详细描述,显然,所描述的实施例仅仅是本申请一部份实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
需要说明的是,下述本申请实施例描述的应用场景是为了更加清楚的说明本申请实施例的技术方案,并不构成对于本申请实施例提供的技术方案的限定,本领域普通技术人员可知,随着新应用场景的出现,本申请实施例提供的技术方案对于类似的技术问题,同样适用。
图1示出了本申请实施例提供的一种文本关键词提取方法,该文本关键词用于数据元对标;如图1所示,该方法包括如下步骤:
步骤S101,获取待处理文本包含的待处理注释信息。
示例性地,获取待处理文本File_01包含的待处理注释信息Text_i。
步骤S102,将待处理注释信息输入已训练的关键词识别模型,得到待处理注释信息的文本关键词;关键词识别模型是采用训练样本数据对语言提取模型进行训练得到的,训练样本数据包括带有关键词标签的字段注释文本,语言提取模型用于获取输入注释信息的关键词,且语言提取模型的目标损失函数收敛至预设的目标条件时获得已训练的关键词识别模型。
其中,目标损失函数为截断交叉熵损失函数;截断交叉熵损失函数为使第一类样本对应的损失值收敛,且使第二类样本对应的损失值不收敛的交叉熵损失函数;第一类样本的预测概率落入第一控制值和第二控制值之间的概率控制区域;第二类样本的预测概率未落入概率控制区域。
示例性地,将待处理注释信息Text_i输入已训练的关键词识别模型KW_mold_Tr,得到待处理注释信息Text_i的文本关键词Key_w_i。其中,关键词识别模型KW_mold_Tr是采用训练样本数据对语言提取模型Lan_Deal_Mold进行训练得到的,训练样本数据Train_data包括带有关键词标签Lable_Key的字段注释文本Text_Ini,语言提取模型Lan_Deal_Mold用于获取输入注释信息的关键词,且语言提取模型Lan_Deal_Mold的目标损失函数收敛至预设的目标条件时获得已训练的关键词识别模型KW_mold_Tr;目标损失函数为截断交叉熵损失函数;截断交叉熵损失函数为使第一类样本对应的损失值收敛,且使第二类样本对应的损失值不收敛的交叉熵损失函数;第一类样本的预测概率落入第一控制值和第二控制值之间的概率控制区域;第二类样本的预测概率未落入概率控制区域。
在一些可选的实施例中,如图2所示,关键词识别模型通过以下步骤训练得到:
步骤S201,获得训练样本数据,训练样本数据包括带有关键词标签的字段注释文本。
本申请的实施例中,可以对于大量的字段注释文本进行标注,标注出其中的关键词,将标注的关键词作为关键词标签,得到训练样本数据。
步骤S202,基于训练样本数据,选取批次训练语料;批次训练语料包括字段注释文本中的一部分。
本申请的实施例中,批次训练语料通过在训练样本数据中随机选取得到。其中,批次训练语料包括字段注释文本中的一部分,例如,批次训练语料可以包括字段注释文本中随机选取的N个。
步骤S203,将批次训练语料输入待训练的语言提取模型进行训练,并确定待训练的语言提取模型的目标损失函数的识别损失值;目标损失函数为截断交叉熵损失函数。
其中,截断交叉熵损失函数为使第一类样本对应的损失值收敛,且使第二类样本对应的损失值不收敛的交叉熵损失函数;第一类样本的预测概率落入第一控制值和第二控制值之间的概率控制区域;第二类样本的预测概率未落入概率控制区域;预测概率表征批次训练语料的关键词为关键词标签的概率。
步骤S204,若确定批次训练语料为第二类样本,则不调整待训练的语言提取模型的参数并进行再次训练。
步骤S205,若确定批次训练语料为第一类样本,则判断识别损失值是否收敛至预设的目标值,如果判断结果为否,则根据确定的识别损失值对待训练的语言提取模型的参数进行调整并进行再次训练;如果判断结果为是,则结束训练,得到已训练的关键词识别模型。
在本申请的一些实施例中,如图3所示,关键词识别模型通过以下步骤进行训练而得到:
步骤S301,收集目标领域的文本数据集。
具体实施时,首先可以收集大量目标领域的文本数据集,并做一些简单的文本处理,方便接下来的语言模型的训练。在本实施例中,以目标领域为数据元领域为例进行说明。
步骤S302,基于文本数据集,对预设的语言模型进行无监督语言模型训练,得到语言提取模型。
具体实施时,基于文本数据集对预设的语言模型进行无监督语言模型训练的过程,mask策略采用全词Mask。本申请的一些实施例中,通过使用mask策略,当某个完整的词的某个子词被mask时,属于这个完整的词的其他子词也将会被mask,从而可以使得语言提取模型有意识地去恢复完整的词语。另外,优化器可以采用LAMB优化器。LAMB优化器适合大批次的数据计算,其采用一种通用的适应策略,同时通过理论分析提供对收敛性的洞察,从而可以加速训练的进行。此外,依然按照MLM损失作为损失函数训练语言模型。在预训练语言模型得到语言提取模型之后,将模型文件等保存备用。
步骤S303,获得训练样本数据,训练样本数据包括带有关键词标签的字段注释文本。
步骤S304,基于训练样本数据,选取批次训练语料;批次训练语料包括字段注释文本中的一部分。
步骤S305,将批次训练语料输入待训练的语言提取模型进行训练,并确定待训练的语言提取模型的目标损失函数的识别损失值;目标损失函数为截断交叉熵损失函数。
其中,截断交叉熵损失函数为使第一类样本对应的损失值收敛,且使第二类样本对应的损失值不收敛的交叉熵损失函数;第一类样本的预测概率落入第一控制值和第二控制值之间的概率控制区域;第二类样本的预测概率未落入概率控制区域;预测概率表征批次训练语料的关键词为关键词标签的概率。
步骤S306,若确定批次训练语料为第二类样本,则不调整待训练的语言提取模型的参数并进行再次训练。
步骤S307,若确定批次训练语料为第一类样本,则判断识别损失值是否收敛至预设的目标值,如果判断结果为否,则根据确定的识别损失值对待训练的语言提取模型的参数进行调整并进行再次训练;如果判断结果为是,则结束训练,得到已训练的关键词识别模型。
上述实施例提供的文本关键词提取方法,获取待处理文本包含的待处理注释信息;将待处理注释信息输入已训练的关键词识别模型,得到待处理注释信息的文本关键词,生成的文本关键词用于数据元对标,其中,关键词识别模型的目标损失函数为截断交叉熵损失函数,使得模型能够将更多的精力放在模型难以区分的样本上,让模型有意识的去分辨模棱两可的样本,能有效缓解模型的过拟合,实现对原始字段注释的关键词的准确提取,可以提高数据元对标的准确率。
进一步地,本申请实施例还提供了一种关键词识别模型的训练方法,用于训练上述文本关键词提取方法中所使用的关键词识别模型。图4示出了本申请实施例提供的一种关键词识别模型的训练方法,该关键词识别模型的训练方法可以由服务器执行,也可以由终端设备执行。本实施例以服务器执行该训练方法为例进行说明。
如图4所示,该关键词识别模型的训练方法,具体包括如下步骤:
步骤S401,获得训练样本数据。
其中,训练样本数据包括带有关键词标签的字段注释文本。
具体实施时,可以预先获取训练数据集,对模型进行训练时,从训练数据集中抽取训练样本数据。训练数据集中的训练样本数据可以包括带有关键词标签的字段注释文本。
示例性地,服务器获得的训练样本数据Train_data中,带有关键词标签的字段注释文本可以是来源于数据元对标服务器。数据元对标服务器中存储训练数据集。训练数据集中的训练样本数据Train_data可以包括带有关键词标签的字段注释文本。
步骤S402,基于训练样本数据,选取批次训练语料;批次训练语料包括字段注释文本中的一部分。
在本申请的一种实施例中,批次训练语料通过在字段注释文本中随机选取得到。
示例性地,基于训练样本数据Train_data,选取批次训练语料Train_batch。批次训练语料Train_batch包括字段注释文本中的一部分。
步骤S403,将批次训练语料输入待训练的语言提取模型进行训练,并确定待训练的语言提取模型的目标损失函数的识别损失值;目标损失函数为截断交叉熵损失函数。
其中,截断交叉熵损失函数为使第一类样本对应的损失值收敛,且使第二类样本对应的损失值不收敛的交叉熵损失函数;第一类样本的预测概率落入第一控制值和第二控制值之间的概率控制区域;第二类样本的预测概率未落入概率控制区域;预测概率表征批次训练语料的关键词为关键词标签的概率。
具体实施时,将批次训练语料输入待训练的语言提取模型进行训练,并确定待训练的语言提取模型的目标损失函数的识别损失值;目标损失函数为截断交叉熵损失函数。
本申请的一些实施例中,待训练的语言提取模型可以对批次训练语料进行分词,得到的文本表示可以是一个预测值,该预测值表征分词序列的每个token是否是关键词,其损失函数采用的交叉熵函数。
交叉熵函数如下:
对于同一个离散的事件X,P(X)是根据模型预测得出的分布,Q(X)是其真实的分布,那么他们之间的交叉熵为:
H(P,Q)=-∑P(X)logQ(X)
交叉熵衡量的是两个分布之间的差异,经常用来作为分类问题的损失,对于任何一个样本的标签,它都会给出0~1之间的一个概率。为了使模型能够将更多的精力放在0.5左右的那些模棱两可的样本,而对于比较确定的样本,例如0.9、0.1,则不需要太大的关注度,以更有效地避免过拟合,实现使模型更加地关注在那些难以区分的样本上,降低损失函数。
本申请的实施例中,添加截断函数f(x):
并定义一个函数h:
h(p,q)=1-f(1-m-q)f(1-m-p)-f(q-m)f(p-m)。
其中,m为设定截断的阈值。本申请的实施例中,m的取值范围介于0.5与1之间。本申请的实施例中,第一控制值的取值可以是m;第二控制值的取值可以是1-m。
当Q=1时,f(1-m-q)=0,f(q-m)=1,此时:
h(p,q)=1-f(p-m)。
对于上式,当预测概率P>m时,对应的样本为第二类样本,h=0,此时梯度会被截断,不会更新这样的样本;
当预测概率P小于1-m时,对应的样本也属于第二类样本,该样本的梯度也不会得到更新。
当预测概率取值在[1-m,m]的范围之内时,对应的样本属于第一类样本,此时梯度不被截断,该样本的梯度进行更新。
此时,可以得到带有硬截断的交叉熵损失函数:
Loss=-∑H(p,q)p logq。
将Loss作为待训练的语言提取模型的损失函数,进行反向更新模型的参数。
步骤S404,若确定批次训练语料为第一类样本,则判断识别损失值是否收敛至预设的目标值,如果判断结果为是,则结束训练,得到已训练的关键词识别模型,如果判断结果为否,则根据确定的识别损失值对待训练的语言提取模型的参数进行调整并进行再次训练;以及,若确定批次训练语料为第二类样本,则不调整待训练的语言提取模型的参数并进行再次训练。
在一种实施例中,步骤S404中,根据确定的识别损失值对待训练的语言提取模型的参数进行调整并进行再次训练,可以具体为:
根据确定的识别损失值对待训练的语言提取模型的参数进行调整,直至识别损失值收敛至预设的目标值为止,将得到的语言提取模型作为已训练的关键词识别模型。
图5为本申请实施例提供的另一种关键词识别模型的训练方法的流程示意图。如图5所示,该关键词识别模型的训练方法,具体包括如下步骤:
步骤S501,收集目标领域的文本数据集。
具体实施时,首先可以收集大量目标领域的文本数据集,并做一些简单的文本处理,方便接下来的语言模型的训练。
可选地,目标领域为数据元领域。
步骤S502,基于文本数据集,对预设的语言模型进行无监督语言模型训练,得到语言提取模型。
在一种实施例中,在上述步骤S502中,对预设的语言模型进行无监督语言模型训练时,可以通过以下步骤实现:
步骤A1,基于文本数据集,对预设的语言模型进行无监督语言模型训练,得到预训练语言模型;预训练语言模型包括Bert编码器。
基于文本数据集对预设的语言模型进行无监督语言模型训练的过程中,mask策略采用全词Mask。通过使用mask策略,当某个完整的词的某个子词被mask时,属于这个完整的词的其他子词也将会被mask,从而可以使得语言提取模型有意识地去恢复完整的词语。另外,优化器可以采用LAMB优化器。LAMB优化器适合大批次的数据计算,其采用一种通用的适应策略,同时通过理论分析提供对收敛性的洞察,从而可以加速训练的进行。此外,依然按照MLM损失作为损失函数训练语言模型。在预训练语言模型得到语言提取模型之后,将模型文件等保存备用。
步骤A2,对预训练语言模型进行编码器重构,得到语言提取模型;编码器重构为在Bert编码器之后连接TextCNN模块。
具体实施时,对预训练语言模型进行编码器重构,得到语言提取模型。具体可以是,选用的编码器为Bert与TextCNN结合的方式。通过对于大量的字段注释数据进行标注,标注出其中的关键词,作为训练数据。训练数据输入到编码器作为输入文本。Bert的编码器一般有13个层,除了第一层的embedding层,其他每个层都会学习到输入文本的一种表示,这些表示都是不相同的,对于任务最终的贡献也是不一样的。所以,本申请实施例基于能够利用到Bert的编码器每个层的表示,丰富最终的文本表示的构思,在原始的Bert编码器后面接上了一个TextCNN,将Bert每个层的输出都作为TextCNN的一个输入通道的表示。将Bert每层的输出都作为输入,传递到TextCNN,使TextCNN捕捉同一个文本不同的表示,最终得到编码器的文本表示。其中,TextCNN的卷积核大小分别为(2,3,4)。
步骤S503,获得训练样本数据。
其中,训练样本数据包括带有关键词标签的字段注释文本。
步骤S504,基于训练样本数据,选取批次训练语料;批次训练语料包括字段注释文本中的一部分。
具体实施时,批次训练语料可以通过在字段注释文本中随机选取得到。
步骤S505,将批次训练语料输入待训练的语言提取模型进行训练,并确定待训练的语言提取模型的目标损失函数的识别损失值;目标损失函数为截断交叉熵损失函数。
其中,截断交叉熵损失函数为使第一类样本对应的损失值收敛,且使第二类样本对应的损失值不收敛的交叉熵损失函数;第一类样本的预测概率落入第一控制值和第二控制值之间的概率控制区域;第二类样本的预测概率未落入概率控制区域;预测概率表征批次训练语料的关键词为关键词标签的概率。
步骤S506,若确定批次训练语料为第一类样本,则判断识别损失值是否收敛至预设的目标值,如果判断结果为是,则结束训练,得到已训练的关键词识别模型,如果判断结果为否,则根据确定的识别损失值对待训练的语言提取模型的参数进行调整并进行再次训练;以及,若确定批次训练语料为第二类样本,则不调整待训练的语言提取模型的参数并进行再次训练。
本申请实施例的关键词识别模型的训练方法,可以使得到的已训练关键词识别模型有意识的去分辨模棱两可的样本,能有效缓解模型的过拟合,实现对原始字段注释的关键词的准确提取,可以提高数据元对标的准确率。
与图1所示的文本关键词提取方法基于同一发明构思,本申请实施例中还提供了一种文本关键词提取装置,该文本关键词提取装置可以布设在服务器或终端设备中。由于该装置是本申请文本关键词提取方法对应的装置,并且该装置解决问题的原理与该方法相似,因此该装置的实施可以参见上述方法的实施,重复之处不再赘述。
图6示出了本申请实施例提供的一种文本关键词提取装置的结构示意图,如图6所示,该文本关键词提取装置包括注释信息获取单元601和关键词生成单元602。
其中,
注释信息获取单元601,用于获取待处理文本包含的待处理注释信息;
关键词生成单元602,用于将待处理注释信息输入已训练的关键词识别模型,得到待处理注释信息的文本关键词;关键词识别模型是采用训练样本数据对语言提取模型进行训练得到的,训练样本数据包括带有关键词标签的字段注释文本,语言提取模型用于获取输入注释信息的关键词,且语言提取模型的目标损失函数收敛至预设的目标条件时获得已训练的关键词识别模型;目标损失函数为截断交叉熵损失函数;截断交叉熵损失函数为使第一类样本对应的损失值收敛,且使第二类样本对应的损失值不收敛的交叉熵损失函数;第一类样本的预测概率落入第一控制值和第二控制值之间的概率控制区域;第二类样本的预测概率未落入概率控制区域。
在一种可选的实施例中,该文本关键词提取装置,如图7所示,还包括模型训练单元701,模型训练单元701用于通过如下方式训练得到关键词识别模型:
获得训练样本数据,训练样本数据包括带有关键词标签的字段注释文本;
基于训练样本数据,选取批次训练语料;批次训练语料包括字段注释文本中的一部分;
将批次训练语料输入待训练的语言提取模型进行训练,并确定待训练的语言提取模型的目标损失函数的识别损失值;目标损失函数为截断交叉熵损失函数;截断交叉熵损失函数为使第一类样本对应的损失值收敛,且使第二类样本对应的损失值不收敛的交叉熵损失函数;第一类样本的预测概率落入第一控制值和第二控制值之间的概率控制区域;第二类样本的预测概率未落入概率控制区域;预测概率表征批次训练语料的关键词为关键词标签的概率;
若确定批次训练语料为第二类样本,则不调整待训练的语言提取模型的参数并进行再次训练;
若确定批次训练语料为第一类样本,则判断识别损失值是否收敛至预设的目标值,如果判断结果为否,则根据确定的识别损失值对待训练的语言提取模型的参数进行调整并进行再次训练;如果判断结果为是,则结束训练,得到已训练的关键词识别模型。
在一种可选的实施例中,模型训练单元701,还用于:收集目标领域的文本数据集;
基于文本数据集,对预设的语言模型进行无监督语言模型训练,得到语言提取模型。
与图4所示的关键词识别模型的训练方法基于同一发明构思,本申请实施例中还提供了一种关键词识别模型的训练装置,同样,该关键词识别模型的训练装置可以布设在服务器或终端设备中。由于该装置是本申请关键词识别模型的训练方法对应的装置,并且该装置解决问题的原理与该方法相似,因此该装置的实施可以参见上述方法的实施,重复之处不再赘述。
图8示出了本申请实施例提供的一种关键词识别模型的训练装置的结构示意图,该文本关键词提取装置用于生成第三方面中所使用的关键词识别模型,如图8所示,该文本关键词提取装置包括训练数据获取单元801和模型训练执行单元802。
其中,训练数据获取单元801,用于获得训练样本数据,训练样本数据包括带有关键词标签的字段注释文本;
模型训练执行单元802,用于将批次训练语料输入待训练的语言提取模型进行训练,并确定待训练的语言提取模型的目标损失函数的识别损失值;目标损失函数为截断交叉熵损失函数;截断交叉熵损失函数为使第一类样本对应的损失值收敛,且使第二类样本对应的损失值不收敛的交叉熵损失函数;第一类样本的预测概率落入第一控制值和第二控制值之间的概率控制区域;第二类样本的预测概率未落入概率控制区域;预测概率表征批次训练语料的关键词为关键词标签的概率;若确定批次训练语料为第一类样本,则判断识别损失值是否收敛至预设的目标值,如果判断结果为是,则结束训练,得到已训练的关键词识别模型,如果判断结果为否,则根据确定的识别损失值对待训练的语言提取模型的参数进行调整并进行再次训练;以及,若确定批次训练语料为第二类样本,则不调整待训练的语言提取模型的参数并进行再次训练。
在一种可选的实施例中,如图9所示,该装置还包括模型预训练单元901,模型预训练单元901,用于:
在获得训练样本数据之前,收集目标领域的文本数据集;
基于文本数据集,对预设的语言模型进行无监督语言模型训练,得到语言提取模型。
在一种可选的实施例中,模型预训练单元901,具体用于:
基于文本数据集,对预设的语言模型进行无监督语言模型训练,得到预训练语言模型;预训练语言模型包括Bert编码器;
对预训练语言模型进行编码器重构,得到语言提取模型;编码器重构为在Bert编码器之后连接TextCNN模块。
在一种可选的实施例中,目标领域为数据元领域。
在一种可选的实施例中,模型训练执行单元802,具体用于:
根据确定的识别损失值对待训练的语言提取模型的参数进行调整,直至识别损失值收敛至预设的目标值为止,将得到的语言提取模型作为已训练的关键词识别模型。
与上述方法实施例基于同一发明构思,本申请实施例中还提供了一种电子设备。该电子设备可以用于文本关键词提取,或者用于关键词识别模型的训练。在一种实施例中,该电子设备可以是服务器,在另一些实施例中,也可以是终端设备或其他电子设备。在该实施例中,电子设备的结构可以如图10所示,包括存储器101,通讯模块103以及一个或多个处理器102。
存储器101,用于存储处理器102执行的计算机程序。存储器101可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统,以及运行即时通讯功能所需的程序等;存储数据区可存储各种即时通讯信息和操作指令集等。
存储器101可以是易失性存储器(volatile memory),例如随机存取存储器(random-access memory,RAM);存储器101也可以是非易失性存储器(non-volatilememory),例如只读存储器,快闪存储器(flash memory),硬盘(hard disk drive,HDD)或固态硬盘(solid-state drive,SSD);或者存储器101是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。存储器101可以是上述存储器的组合。
处理器102,可以包括一个或多个中央处理单元(central processing unit,CPU)或者为数字处理单元等等。处理器102,用于调用存储器101中存储的计算机程序时实现上述文本关键词提取方法或关键词识别模型的训练方法。
通讯模块103用于与终端设备和其他服务器进行通信。
本申请实施例中不限定上述存储器101、通讯模块103和处理器102之间的具体连接介质。本公开实施例在图10中以存储器101和处理器102之间通过总线104连接,总线104在图10中以粗线表示,其它部件之间的连接方式,仅是进行示意性说明,并不引以为限。总线104可以分为地址总线、数据总线、控制总线等。为便于表示,图10中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
存储器101中存储有计算机存储介质,计算机存储介质中存储有计算机可执行指令,计算机可执行指令用于实现本申请实施例的文本关键词提取方法或关键词识别模型的训练方法。处理器102用于执行上述的文本关键词提取方法或关键词识别模型的训练方法。
另外,本申请还提供一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序用于使计算机执行上述实施例中任何一项所述的方法。
根据本申请的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述实施例中的文本关键词提取方法。所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。
Claims (12)
1.一种文本关键词提取方法,其特征在于,所述文本关键词用于数据元对标;所述方法包括:
获取待处理文本包含的待处理注释信息;
将所述待处理注释信息输入已训练的关键词识别模型,得到所述待处理注释信息的所述文本关键词;
所述关键词识别模型是采用训练样本数据对语言提取模型进行训练得到的,所述训练样本数据包括带有关键词标签的字段注释文本,所述语言提取模型用于获取输入注释信息的关键词,且语言提取模型的目标损失函数收敛至预设的目标条件时获得已训练的关键词识别模型;所述目标损失函数为截断交叉熵损失函数;所述截断交叉熵损失函数为使第一类样本对应的损失值收敛,且使第二类样本对应的损失值不收敛的交叉熵损失函数;所述第一类样本的预测概率落入第一控制值和第二控制值之间的概率控制区域;所述第二类样本的预测概率未落入所述概率控制区域。
2.根据权利要求1所述的方法,其特征在于,所述关键词识别模型通过如下方式训练得到:
获得训练样本数据,所述训练样本数据包括带有关键词标签的字段注释文本;
基于所述训练样本数据,选取批次训练语料;所述批次训练语料包括所述字段注释文本中的一部分;
将所述批次训练语料输入待训练的语言提取模型进行训练,并确定所述待训练的语言提取模型的目标损失函数的识别损失值;所述目标损失函数为截断交叉熵损失函数;所述截断交叉熵损失函数为使第一类样本对应的损失值收敛,且使第二类样本对应的损失值不收敛的交叉熵损失函数;所述第一类样本的预测概率落入第一控制值和第二控制值之间的概率控制区域;所述第二类样本的预测概率未落入所述概率控制区域;所述预测概率表征所述批次训练语料的关键词为所述关键词标签的概率;
若确定所述批次训练语料为所述第二类样本,则不调整待训练的语言提取模型的参数并进行再次训练;
若确定所述批次训练语料为所述第一类样本,则判断所述识别损失值是否收敛至预设的目标值,如果判断结果为否,则根据确定的识别损失值对待训练的语言提取模型的参数进行调整并进行再次训练;如果判断结果为是,则结束训练,得到已训练的关键词识别模型。
3.根据权利要求2所述的方法,其特征在于,所述获得训练样本数据之前,所述方法还包括:
收集目标领域的文本数据集;
基于所述文本数据集,对预设的语言模型进行无监督语言模型训练,得到所述语言提取模型。
4.一种关键词识别模型的训练方法,其特征在于,用于生成权利要求1中所使用的关键词识别模型,所述训练方法包括:
获得训练样本数据,所述训练样本数据包括带有关键词标签的字段注释文本;
基于所述训练样本数据,选取批次训练语料;所述批次训练语料包括所述字段注释文本中的一部分;
将所述批次训练语料输入待训练的语言提取模型进行训练,并确定所述待训练的语言提取模型的目标损失函数的识别损失值;所述目标损失函数为截断交叉熵损失函数;所述截断交叉熵损失函数为使第一类样本对应的损失值收敛,且使第二类样本对应的损失值不收敛的交叉熵损失函数;所述第一类样本的预测概率落入第一控制值和第二控制值之间的概率控制区域;所述第二类样本的预测概率未落入所述概率控制区域;所述预测概率表征所述批次训练语料的关键词为所述关键词标签的概率;
若确定所述批次训练语料为所述第一类样本,则判断所述识别损失值是否收敛至预设的目标值,如果判断结果为是,则结束训练,得到已训练的关键词识别模型,如果判断结果为否,则根据确定的识别损失值对待训练的语言提取模型的参数进行调整并进行再次训练;以及,若确定所述批次训练语料为所述第二类样本,则不调整待训练的语言提取模型的参数并进行再次训练。
5.根据权利要求4所述的训练方法,其特征在于,所述获得训练样本数据之前,所述方法还包括:
收集目标领域的文本数据集;
基于所述文本数据集,对预设的语言模型进行无监督语言模型训练,得到所述语言提取模型。
6.根据权利要求5所述的训练方法,其特征在于,所述基于所述文本数据集,对预设的语言模型进行无监督语言模型训练,得到所述语言提取模型,包括:
基于所述文本数据集,对预设的语言模型进行无监督语言模型训练,得到预训练语言模型;所述预训练语言模型包括Bert编码器;
对所述预训练语言模型进行编码器重构,得到所述语言提取模型;所述编码器重构为在所述Bert编码器之后连接TextCNN模块。
7.根据权利要求5所述的训练方法,其特征在于,所述目标领域为数据元领域。
8.根据权利要求4所述的训练方法,其特征在于,所述根据确定的识别损失值对待训练的语言提取模型的参数进行调整并进行再次训练,包括:
根据确定的识别损失值对待训练的语言提取模型的参数进行调整,直至识别损失值收敛至预设的目标值为止,将得到的语言提取模型作为已训练的关键词识别模型。
9.一种文本关键词提取装置,其特征在于,所述文本关键词用于数据元对标;所述装置包括:
注释信息获取单元,用于获取待处理文本包含的待处理注释信息;
关键词生成单元,用于将所述待处理注释信息输入已训练的关键词识别模型,得到所述待处理注释信息的所述文本关键词;所述关键词识别模型是采用训练样本数据对语言提取模型进行训练得到的,所述训练样本数据包括带有关键词标签的字段注释文本,所述语言提取模型用于获取输入注释信息的关键词,且语言提取模型的目标损失函数收敛至预设的目标条件时获得已训练的关键词识别模型;所述目标损失函数为截断交叉熵损失函数;所述截断交叉熵损失函数为使第一类样本对应的损失值收敛,且使第二类样本对应的损失值不收敛的交叉熵损失函数;所述第一类样本的预测概率落入第一控制值和第二控制值之间的概率控制区域;所述第二类样本的预测概率未落入所述概率控制区域。
10.一种关键词识别模型的训练装置,其特征在于,用于生成权利要求9中所使用的关键词识别模型,所述训练装置包括:
训练数据获取单元,用于获得训练样本数据,所述训练样本数据包括带有关键词标签的字段注释文本;
模型训练执行单元,用于将所述批次训练语料输入待训练的语言提取模型进行训练,并确定所述待训练的语言提取模型的目标损失函数的识别损失值;所述目标损失函数为截断交叉熵损失函数;所述截断交叉熵损失函数为使第一类样本对应的损失值收敛,且使第二类样本对应的损失值不收敛的交叉熵损失函数;所述第一类样本的预测概率落入第一控制值和第二控制值之间的概率控制区域;所述第二类样本的预测概率未落入所述概率控制区域;所述预测概率表征所述批次训练语料的关键词为所述关键词标签的概率;若确定所述批次训练语料为所述第一类样本,则判断所述识别损失值是否收敛至预设的目标值,如果判断结果为是,则结束训练,得到已训练的关键词识别模型,如果判断结果为否,则根据确定的识别损失值对待训练的语言提取模型的参数进行调整并进行再次训练;以及,若确定所述批次训练语料为所述第二类样本,则不调整待训练的语言提取模型的参数并进行再次训练。
11.一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,其特征在于:所述计算机程序被处理器执行时,实现权利要求1~3中任一项所述的方法或权利要求4~8中任一项所述的方法。
12.一种电子设备,其特征在于,包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的计算机程序,当所述计算机程序被所述处理器执行时,使得所述处理器实现权利要求1~3中任一项所述的方法或权利要求4~8中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310458542.2A CN116384392A (zh) | 2023-04-24 | 2023-04-24 | 文本关键词提取方法、模型的训练方法、装置和电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310458542.2A CN116384392A (zh) | 2023-04-24 | 2023-04-24 | 文本关键词提取方法、模型的训练方法、装置和电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116384392A true CN116384392A (zh) | 2023-07-04 |
Family
ID=86961725
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310458542.2A Pending CN116384392A (zh) | 2023-04-24 | 2023-04-24 | 文本关键词提取方法、模型的训练方法、装置和电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116384392A (zh) |
-
2023
- 2023-04-24 CN CN202310458542.2A patent/CN116384392A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112084337B (zh) | 文本分类模型的训练方法、文本分类方法及设备 | |
US11941366B2 (en) | Context-based multi-turn dialogue method and storage medium | |
CN111738003B (zh) | 命名实体识别模型训练方法、命名实体识别方法和介质 | |
Zhang et al. | Top-down tree long short-term memory networks | |
CN109062901B (zh) | 神经网络训练方法和装置及命名实体识别方法和装置 | |
CN111783462A (zh) | 基于双神经网络融合的中文命名实体识别模型及方法 | |
CN111950269A (zh) | 文本语句处理方法、装置、计算机设备和存储介质 | |
CN111062217B (zh) | 语言信息的处理方法、装置、存储介质及电子设备 | |
CN114861600B (zh) | 一种面向ner的中文临床文本数据增强方法及装置 | |
CN110263325B (zh) | 中文分词系统 | |
CN112052684A (zh) | 电力计量的命名实体识别方法、装置、设备和存储介质 | |
CN112163429B (zh) | 结合循环网络及bert的句子相关度获取方法、系统及介质 | |
CN113177412A (zh) | 基于bert的命名实体识别方法、系统、电子设备及存储介质 | |
CN113536795B (zh) | 实体关系抽取的方法、系统、电子装置和存储介质 | |
CN114026556A (zh) | 义素预测方法、计算机设备和存储介质背景 | |
Feng et al. | Focal CTC loss for Chinese optical character recognition on unbalanced datasets | |
US20240119743A1 (en) | Pre-training for scene text detection | |
Venkataramana et al. | Abstractive text summarization using bart | |
Zhang et al. | Sjtu-nlp at semeval-2018 task 9: Neural hypernym discovery with term embeddings | |
CN117708324A (zh) | 一种文本主题分类方法、装置、芯片及终端 | |
Zhu et al. | A named entity recognition model based on ensemble learning | |
CN116263786A (zh) | 舆情文本情感分析方法、装置、计算机设备及介质 | |
Ouyang et al. | Gated pos-level language model for authorship verification | |
CN116384392A (zh) | 文本关键词提取方法、模型的训练方法、装置和电子设备 | |
CN114722818A (zh) | 一种基于对抗迁移学习的命名实体识别模型 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |