CN117273174A - 模型的训练方法、装置和可读存储介质 - Google Patents
模型的训练方法、装置和可读存储介质 Download PDFInfo
- Publication number
- CN117273174A CN117273174A CN202311566922.4A CN202311566922A CN117273174A CN 117273174 A CN117273174 A CN 117273174A CN 202311566922 A CN202311566922 A CN 202311566922A CN 117273174 A CN117273174 A CN 117273174A
- Authority
- CN
- China
- Prior art keywords
- target text
- topic
- preset
- model
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012549 training Methods 0.000 title claims abstract description 189
- 238000000034 method Methods 0.000 title claims abstract description 56
- 238000013145 classification model Methods 0.000 claims abstract description 55
- 238000012795 verification Methods 0.000 claims description 18
- 238000002372 labelling Methods 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 7
- 238000010586 diagram Methods 0.000 description 10
- 230000006870 function Effects 0.000 description 6
- 230000008569 process Effects 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 3
- 238000003491 array Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/194—Calculation of difference between files
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本申请公开了一种模型的训练方法、装置和可读存储介质。模型的训练方法包括:获取待处理的目标文本;基于目标文本与多个预设话题中的预设关键词之间的匹配,确定目标文本对应的第一话题;基于目标文本与多个预设话题中的预设文本例句之间的匹配,确定目标文本对应的第二话题;基于第一话题和第二话题,确定目标文本的第三话题,并标注为目标文本的第一标签,添加至训练集数据中;基于训练集数据进行模型训练,得到目标文本分类模型。本申请实施方式的模型的训练方法、装置和可读存储介质,通过基于关键词的匹配和基于文本例句的匹配来标注文本的标签,进而扩充训练集数据,提高模型的准确度,并且无需人工标注,从而降低模型训练的成本。
Description
技术领域
本申请涉及模型训练技术领域,特别涉及一种模型的训练方法、装置和可读存储介质。
背景技术
为了提高自然语言AI模型的准确度,需要获取更加准确且更多数量的训练集数据来进行模型训练。相关技术中,训练集数据往往是由人工标注得到。然而,人工标注的方式往往需要人工先理解这类数据的语义,然后进行手动标注,这样会使得训练集数据的获取成本较大,往往无法获取到大量的训练集数据,从而导致训练的数据不足,该部分数据应当覆盖的维度就会缺失,降低模型的准确度。
可以看出,现有的模型的训练方案存在成本较大的技术问题。
发明内容
本申请实施方式提供了一种模型的训练方法、装置和可读存储介质。
本申请实施方式的模型的训练方法,包括:
获取待处理的目标文本;
基于所述目标文本与多个预设话题中的预设关键词之间的匹配,在多个所述预设话题中确定所述目标文本对应的第一话题;
基于所述目标文本与多个所述预设话题中的预设文本例句之间的匹配,在多个所述预设话题中确定所述目标文本对应的第二话题;
基于所述第一话题和所述第二话题,确定所述目标文本的第三话题,并将所述第三话题标注为所述目标文本的第一标签;
将具有所述第一标签的所述目标文本,添加至训练集数据中;
基于所述训练集数据进行模型训练,得到目标文本分类模型。
在某些实施方式中,所述基于所述目标文本与多个预设话题中的预设关键词之间的匹配,在多个所述预设话题中确定所述目标文本对应的第一话题,包括:
对于每一所述预设话题,检测所述目标文本中是否存在所述预设话题中的预设关键词;
若所述目标文本中存在所述预设话题中的预设关键词,确定所述预设话题中的预设关键词在所述目标文本中的出现次数;
基于所述出现次数,确定所述预设话题是否为所述目标文本对应的第一话题,从而得到所述目标文本对应的第一话题。
在某些实施方式中,所述基于所述目标文本与多个所述预设话题中的预设文本例句之间的匹配,在多个所述预设话题中确定所述目标文本对应的第二话题,包括:
对于每一所述预设话题,确定所述目标文本与所述预设话题中的各所述预设文本例句之间的文本相似度,得到多个所述文本相似度;
确定多个所述文本相似度的平均值;
基于所述平均值是否大于或等于预设阈值,确定所述预设话题是否为所述目标文本对应的第二话题,从而得到所述目标文本对应的第二话题。
在某些实施方式中,所述基于所述第一话题和所述第二话题,确定所述目标文本的第三话题,包括:
检测所述第一话题与所述第二话题是否相同;
在所述第一话题与所述第二话题相同时,将所述第一话题或所述第二话题,作为所述目标文本的第三话题。
在某些实施方式中,所述基于所述训练集数据进行模型训练,得到目标文本分类模型,包括:
定时读取所述训练集数据;
将所述训练集数据拆分为训练数据和验证数据;
采用所述训练数据进行模型训练,得到训练后的模型;
采用所述验证数据对训练后的模型进行模型验证,在模型验证通过后,得到所述目标文本分类模型。
在某些实施方式中,所述基于所述训练集数据进行模型训练,得到目标文本分类模型之后,还包括:
将所述训练集数据中具有标签的各文本,依次输入至所述目标文本分类模型,得到各所述文本的所述标签的置信度评分;
在所述置信度评分小于预设评分时,将相应的所述文本从所述训练集数据中删除,以更新所述训练集数据。
在某些实施方式中,所述基于所述目标文本与多个预设话题中的预设关键词之间的匹配,在多个所述预设话题中确定所述目标文本对应的第一话题之后,还包括:
检测是否存在所述目标文本分类模型;
若不存在所述目标文本分类模型,执行所述基于所述目标文本与多个所述预设话题中的预设文本例句之间的匹配,在多个所述预设话题中确定所述目标文本对应的第二话题的步骤;
若存在所述目标文本分类模型,将所述目标文本输入至所述目标文本分类模型,得到所述目标文本的第二标签;
基于所述第一话题和所述第二标签对应的预设话题,确定所述目标文本的第四话题,并将所述第四话题标注为所述目标文本的第一标签;
将具有所述第一标签的所述目标文本,添加至所述训练集数据中;
基于所述训练集数据进行模型训练,以更新所述目标文本分类模型。
在某些实施方式中,所述方法还包括:
若在多个所述预设话题中,不存在所述目标文本对应的第一话题或所述目标文本对应的第二话题,则删除所述目标文本。
本申请实施方式的模型的训练装置,包括一个或多个处理器和存储器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行的情况下,实现上述任一实施方式的模型的训练方法。
本申请实施方式的计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行的情况下,实现上述任一实施方式的模型的训练方法。
本申请实施方式的模型的训练方法、装置和可读存储介质,通过基于关键词的匹配和基于文本例句的匹配来标注文本的标签,进而扩充训练集数据,提高模型的准确度,并且无需人工标注,从而降低模型训练的成本。
本申请实施方式的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请实施方式的实践了解到。
附图说明
本申请的上述和/或附加的方面和优点从结合下面附图对实施方式的描述中将变得明显和容易理解,其中:
图1是本申请某些实施方式的模型的训练方法的流程示意图;
图2是本申请某些实施方式的模型的训练方法的流程示意图;
图3是本申请某些实施方式的模型的训练方法的流程示意图;
图4是本申请某些实施方式的模型的训练方法的流程示意图;
图5是本申请某些实施方式的模型的训练方法的流程示意图;
图6是本申请某些实施方式的模型的训练方法的流程示意图;
图7是本申请某些实施方式的模型的训练方法的流程示意图;
图8是本申请某些实施方式的模型的训练装置的模块示意图;
图9是本申请某些实施方式的模型的训练装置的模块示意图;
图10是本申请某些实施方式的计算机可读存储介质与处理器的连接状态示意图。
具体实施方式
以下结合附图对本申请的实施方式作进一步说明。附图中相同或类似的标号自始至终表示相同或类似的元件或具有相同或类似功能的元件。另外,下面结合附图描述的本申请的实施方式是示例性的,仅用于解释本申请的实施方式,而不能理解为对本申请的限制。
请参阅图1,本申请实施方式提供一种模型的训练方法。模型的训练方法包括:
101:获取待处理的目标文本;
102:基于目标文本与多个预设话题中的预设关键词之间的匹配,在多个预设话题中确定目标文本对应的第一话题;
103:基于目标文本与多个预设话题中的预设文本例句之间的匹配,在多个预设话题中确定目标文本对应的第二话题;
104:基于第一话题和第二话题,确定目标文本的第三话题,并将第三话题标注为目标文本的第一标签;
105:将具有第一标签的目标文本,添加至训练集数据中;
106:基于训练集数据进行模型训练,得到目标文本分类模型。
本申请实施方式的模型的训练方法,通过基于关键词的匹配和基于文本例句的匹配来标注文本的标签,进而扩充训练集数据,提高模型的准确度,并且无需人工标注,从而降低模型训练的成本。
具体地,待处理的目标文本可以是用户反馈意见形成的文案,例如用户在使用指定应用程序的过程中产生了一些反馈意见,此时可将用户上传的反馈意见的文案,作为待处理的目标文本。而在获取到这些文本后,需要采用文本分类模型对这些文本进行分类,以便于对这些文本的外部展示消费。文本分类模型例如TextCNN等。
在一个实施例中,事先设置有多个预设话题,不同预设话题为对文本进行分类时的不同类别。以指定应用程序为物流类应用程序为例,物流类应用程序的用户可以是司机,多个预设话题可以是“司机收不到钱(用户未支付)”、“油价高问题”、“悬浮窗问题”等。预先针对每一预设话题设置有多个预设关键词以及多个预设文本例句,例如“悬浮窗问题”这一预设话题的多个预设关键词可以包括“悬浮窗”、“漂浮窗”、“浮动窗口”等,而预设文本例句是指,用户针对相应预设话题可能上传的反馈意见的文案示例。
可以看出,针对关键词这一维度,可将目标文本与每一预设话题中的预设关键词进行匹配,从而确定目标文本对应的第一话题,即目标文本可能属于的类别。而针对句子这一维度,可将目标文本与每一预设话题中的预设文本例句进行匹配,从而确定目标文本对应的第二话题,即目标文本也可能属于的类别。其中,第一话题与第二话题可能相同,也可能不同。
基于第一话题和第二话题,确定目标文本的第三话题,即是综合第一话题和第二话题,来确定目标文本更有可能属于的第三话题。将第三话题标注为目标文本的第一标签,以实现对目标文本的自动标注,避免了人工标注带来的高成本。
训练集数据中包括多个具有标签的文本,标签即是相应文本所属的类别。在将具有第一标签的目标文本,添加至训练集数据中后,训练集数据的数据量得到扩充,这样,基于训练集数据训练得到的目标文本分类模型也会更加准确。而由于大量用户会不断的反馈待处理的目标文本,因此训练集数据的数据量也会随着时间不断扩充,使得目标文本分类模型可以动态地更新迭代,更加符合实时的应用场景。
在一个实施例中,模型的训练方法还可以包括:若在多个预设话题中,不存在目标文本对应的第一话题或目标文本对应的第二话题,即在多个预设话题中确定不出目标文本对应的第一话题,或者在多个预设话题中确定不出目标文本对应的第二话题,此时可认为目标文本与任何预设话题均不匹配,因此可删除该目标文本。
在本实施例公开的技术方案中,通过基于关键词的匹配和基于文本例句的匹配来标注文本的标签,进而扩充训练集数据,训练集数据的数据量随着时间的推移会越来越丰富,所包含的维度也会越来越全面,进而提高模型的应用场景的覆盖,提高模型的准确度,并且无需人工标注,从而大幅降低模型训练的成本。此外,由于人工标注的训练集数据往往是取自“老”数据,通过在“老”数据中人工标注训练集数据然后训练模型,随着时间的推移,“老”数据会与当前数据存在差异性,导致模型的时效性较差,而本实施例中对于训练集数据的及时扩充,以及对模型的定时训练,可以避免模型在时间维度上准确度下降的问题,提高了模型的时效性。
请参阅图2,在某些实施方式中,基于目标文本与多个预设话题中的预设关键词之间的匹配,在多个预设话题中确定目标文本对应的第一话题(即102),包括:
201:对于每一预设话题,检测目标文本中是否存在预设话题中的预设关键词;
202:若目标文本中存在预设话题中的预设关键词,确定预设话题中的预设关键词在目标文本中的出现次数;
203:基于出现次数,确定预设话题是否为目标文本对应的第一话题,从而得到目标文本对应的第一话题。
具体地,针对每一预设话题,将该预设话题中的每一预设关键词与目标文本进行匹配,从而确定目标文本中是否存在该预设话题中的各预设关键词。通过统计目标文本中包括的该预设话题中的预设关键词的数量,即可得到该预设话题中的预设关键词在目标文本中的出现次数。其中,若目标文本中包括该预设话题中的多个不同的预设关键词,该出现次数可以是多个不同的预设关键词的总数量。
在一个实施例中,基于出现次数,确定预设话题是否为目标文本对应的第一话题,可以包括:将出现次数与预设次数进行比较,预设次数可基于实际需求事先设置,例如预设次数可设置为2次;若出现次数大于或等于预设次数,确定预设话题为目标文本对应的第一话题;若出现次数小于预设次数,确定预设话题不为目标文本对应的第一话题。
在遍历每一预设话题后,即可得到目标文本对应的第一话题。需要说明的是,目标文本对应的第一话题可以仅存在一个,也可同时存在多个,在此不作限定。
在本实施例公开的技术方案中,针对关键词这一维度,将目标文本与每一预设话题中的预设关键词进行匹配,从而确定目标文本对应的第一话题,实现了目标文本基于关键词的分类。
请参阅图3,在某些实施方式中,基于目标文本与多个预设话题中的预设文本例句之间的匹配,在多个预设话题中确定目标文本对应的第二话题(即203),包括:
301:对于每一预设话题,确定目标文本与预设话题中的各预设文本例句之间的文本相似度,得到多个文本相似度;
302:确定多个文本相似度的平均值;
303:基于平均值是否大于或等于预设阈值,确定预设话题是否为目标文本对应的第二话题,从而得到目标文本对应的第二话题。
具体地,针对每一预设话题,将该预设话题中的每一预设文本例句与目标文本进行匹配,从而确定出目标文本与该预设话题中的每一预设文本例句的文本相似度。
在一个实施例中,文本相似度可以是余弦相似度。具体地,确定目标文本与预设文本例句之间的文本相似度,可以包括:将目标文本转换为第一向量;将预设文本例句转换为第二向量;计算第一向量与第二向量之间的余弦相似度,并作为目标文本与预设文本例句之间的文本相似度。
由于在目标文本与预设话题中的某一个预设文本例句之间的文本相似度较高时,目标文本可能并不属于该预设话题,因此在确定出目标文本与预设话题中的各预设文本例句之间的文本相似度之后,还可将该预设话题下的多个文本相似度取平均值。若平均值大于或等于预设阈值,确定预设话题为目标文本对应的第二话题,若平均值小于预设阈值,确定预设话题不为目标文本对应的第二话题,以使对目标文本的分类更加准确。其中,预设阈值例如可取值为0.7。
在遍历每一预设话题后,即可得到目标文本对应的第二话题。需要说明的是,目标文本对应的第二话题可以仅存在一个,也可同时存在多个,在此不作限定。
在本实施例公开的技术方案中,针对句子这一维度,将目标文本与每一预设话题中的每一预设文本例句进行匹配,从而确定目标文本对应的第二话题,实现了目标文本基于句子的分类。
请参阅图4,基于第一话题和第二话题,确定目标文本的第三话题(即104),包括:
401:检测第一话题与第二话题是否相同;
402:在第一话题与第二话题相同时,将第一话题或第二话题,作为目标文本的第三话题。
具体地,若第一话题与第二话题相同,表明目标文本很大可能属于该预设话题,因此将第一话题或第二话题,作为目标文本的第三话题。若第一话题与第二话题不相同,表明无法准确判断目标文本属于的预设话题,因此不将第一话题或第二话题,作为目标文本的第三话题,或者由人工来确定目标文本的第三话题。
在一个实施例中,针对第一话题或第二话题同时存在多个的情况,基于第一话题和第二话题,确定目标文本的第三话题,可以包括:将多个第一话题作为第一集合,将多个第二话题作为第二集合;将第一集合和第二集合的并集中的预设话题,作为目标文本的第三话题。
在本实施例公开的技术方案中,通过第一话题与第二话题的匹配,确定目标文本的第三话题,使得目标文本的话题分类更加准确。
请参阅图5,在某些实施方式中,基于训练集数据进行模型训练,得到目标文本分类模型(即106),包括:
501:定时读取训练集数据;
502:将训练集数据拆分为训练数据和验证数据;
503:采用训练数据进行模型训练,得到训练后的模型;
504:采用验证数据对训练后的模型进行模型验证,在模型验证通过后,得到目标文本分类模型。
具体地,训练集数据存储于预设的数据库中,可通过定时从数据库中读取训练集数据,来周期性进行模型训练,实现对模型的迭代训练。在基于训练集数据进行模型训练时,将训练集数据按照一定比例拆分为训练数据和验证数据,例如70%的训练数据和30%的验证数据。训练数据和验证数据中分别包括多个具有标签的文本,例如具有第一标签的目标文本。
在基于训练集数据进行模型训练时,采用训练数据进行模型训练,得到训练后的模型,从而实现模型参数的调优。然后再采用验证数据对训练后的模型进行模型验证,以验证模型的准确性,在模型验证通过后,即可得到目标文本分类模型,完成模型训练。由于模型通常为卷积神经网络(Convolutional Neural Networks,CNN)模型,因此模型训练的具体过程可利用Torch模块来实现,其中,torch模块中包括用于卷积模型训练的一些常用的激活函数。
在本实施例公开的技术方案中,通过定时读取训练集数据,基于训练集数据对模型进行迭代训练,得到准确度更高的文本分类模型。
请参阅图6,在某些实施方式中,基于训练集数据进行模型训练,得到目标文本分类模型(即106)之后,还包括:
601:将训练集数据中具有标签的各文本,依次输入至目标文本分类模型,得到各文本的标签的置信度评分;
602:在置信度评分小于预设评分时,将相应的文本从训练集数据中删除,以更新训练集数据。
在本实施例中,可通过训练好的目标文本分类模型对训练集数据进行自检,以保证训练集数据中各文本的标签的准确性。具体地,针对训练集数据中具有标签的每一文本,将文本输入至目标文本分类模型,并接收目标文本分类模型输出的文本相对于各标签的置信度评分。其中,若该文本相对于该文本具有的标签的置信度评分小于预设评分,则认为该文本具有的标签不够准确,因此可将该文本从训练集数据中删除,以更新训练集数据。若该文本相对于该文本具有的标签的置信度评分大于或等于预设评分,则认为该文本具有的标签准确,因此可将该文本保留在训练集数据中。其中,预设评分的取值例如可以是0.6,置信度评分的范围可以是[0,1]。
在遍历训练集数据中具有标签的每一文本后,即完成了对训练集数据的一次自检。而在完成对模型的一次迭代训练后,均可执行对训练集数据的一次自检,从而始终保持训练集数据的准确性。
在本实施例公开的技术方案中,通过目标文本分类模型对训练集数据进行自检,提高了训练集数据的准确度。
请参阅图7,在某些实施方式中,基于所述目标文本与多个预设话题中的预设关键词之间的匹配,在多个所述预设话题中确定所述目标文本对应的第一话题(即102)之后,还包括:
701:检测是否存在目标文本分类模型;
702:若存在目标文本分类模型,将目标文本输入至目标文本分类模型,得到目标文本的第二标签;
703:基于第一话题和第二标签对应的预设话题,确定目标文本的第四话题,并将第四话题标注为目标文本的第一标签;
704:将具有第一标签的目标文本,添加至训练集数据中;
705:基于训练集数据进行模型训练,以更新目标文本分类模型。
在本实施例中,由于目标文本分类模型的优势在于可以理解文本中上下文的关系,因此在得到目标文本分类模型后,可将基于句子这一维度的话题分类,替换为基于目标文本分类模型的分类。具体地,在步骤102之后,还可以包括:检测是否存在目标文本分类模型;若不存在目标文本分类模型,则执行步骤103及其后续步骤,以生成目标文本分类模型;若存在目标文本分类模型,则可不执行步骤103,而是将目标文本输入至目标文本分类模型,得到目标文本的第二标签,其中,目标文本的第二标签可以是目标文本分类模型输出的目标文本相对于多个标签的置信度评分中,置信度评分最高的标签,且目标文本的第二标签的置信度评分应当大于或等于上述的预设评分。
而基于第一话题和第二标签对应的预设话题,确定目标文本的第四话题的步骤,可参照基于第一话题和第二话题,确定目标文本的第三话题,在此不作赘述。
通过将第四话题标注为目标文本的第一标签,以及将具有第一标签的目标文本,添加至训练集数据中,实现了训练集数据的数据量的扩充。基于训练集数据对目标文本分类模型再次进行模型训练,即可更新目标文本分类模型,实现对于目标文本分类模型的周期性迭代训练。
在本实施例公开的技术方案中,通过基于关键词这一维度的分类以及基于目标文本分类模型的分类,可提高训练集数据的准确度。
请参阅图8,本申请实施方式还提供一种模型的训练装置100,用于实现上述任一实施例所述的模型的训练方法。例如,模型的训练装置100包括获取模块10、确定模块20、添加模块30和训练模块40。获取模块10可以用于获取待处理的目标文本;确定模块20可以用于基于目标文本与多个预设话题中的预设关键词之间的匹配,在多个预设话题中确定目标文本对应的第一话题,基于目标文本与多个预设话题中的预设文本例句之间的匹配,在多个预设话题中确定目标文本对应的第二话题。添加模块30可以用于基于第一话题和第二话题,确定目标文本的第三话题,并将第三话题标注为目标文本的第一标签,将具有第一标签的目标文本,添加至训练集数据中。训练模块40可以用于基于训练集数据进行模型训练,得到目标文本分类模型。
需要指出的是,前述实施方式中对模型的训练方法的解释说明同样适用于本申请实施方式的模型的训练装置100,在此不再展开说明。
请参阅图9,本申请实施方式还提供一种模型的训练装置100。模型的训练装置100包括一个或多个处理器110和存储器120。存储器120存储有计算机程序,计算机程序被处理器110执行的情况下,实现上述任一实施例的模型的训练方法。
例如,计算机程序被处理器110执行的情况下,实现如下的模型的训练方法:
101:获取待处理的目标文本;
102:基于目标文本与多个预设话题中的预设关键词之间的匹配,在多个预设话题中确定目标文本对应的第一话题;
103:基于目标文本与多个预设话题中的预设文本例句之间的匹配,在多个预设话题中确定目标文本对应的第二话题;
104:基于第一话题和第二话题,确定目标文本的第三话题,并将第三话题标注为目标文本的第一标签;
105:将具有第一标签的目标文本,添加至训练集数据中;
106:基于训练集数据进行模型训练,得到目标文本分类模型。
需要指出的是,前述实施方式中对模型的训练方法的解释说明同样适用于本申请实施方式的模型的训练装置100,在此不再展开说明。
请参阅图10,本申请实施方式还提供一种计算机可读存储介质200,其上存储有计算机程序210。程序被处理器220执行的情况下,实现上述任一实施例所述的模型的训练方法。
例如,程序被处理器220执行的情况下,实现如下的模型的训练方法:
101:获取待处理的目标文本;
102:基于目标文本与多个预设话题中的预设关键词之间的匹配,在多个预设话题中确定目标文本对应的第一话题;
103:基于目标文本与多个预设话题中的预设文本例句之间的匹配,在多个预设话题中确定目标文本对应的第二话题;
104:基于第一话题和第二话题,确定目标文本的第三话题,并将第三话题标注为目标文本的第一标签;
105:将具有第一标签的目标文本,添加至训练集数据中;
106:基于训练集数据进行模型训练,得到目标文本分类模型。
需要指出的是,前述实施方式中对模型的训练方法和模型的训练装置100的解释说明同样适用于本申请实施方式的计算机可读存储介质200,在此不再展开说明。
综上,本申请实施方式的模型的训练方法、模型的训练装置100和计算机可读存储介质200,通过基于关键词的匹配和基于文本例句的匹配来标注文本的标签,进而扩充训练集数据,提高模型的准确度,并且无需人工标注,从而降低模型训练的成本。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本申请的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读存储介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,计算机可读存储介质可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读存储介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置)、便携式计算机盘盒(磁装置)、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编辑只读存储器(EPROM或闪速存储器)、光纤装置、以及便携式光盘只读存储器(CDROM)。另外,计算机可读存储介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。此外,在本申请各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。上述提到的存储介质可以是只读存储器,磁盘或光盘等。
尽管上面已经示出和描述了本申请的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本申请的限制,本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型,本申请的范围由权利要求及其等同物限定。
Claims (10)
1.一种模型的训练方法,其特征在于,包括:
获取待处理的目标文本;
基于所述目标文本与多个预设话题中的预设关键词之间的匹配,在多个所述预设话题中确定所述目标文本对应的第一话题;
基于所述目标文本与多个所述预设话题中的预设文本例句之间的匹配,在多个所述预设话题中确定所述目标文本对应的第二话题;
基于所述第一话题和所述第二话题,确定所述目标文本的第三话题,并将所述第三话题标注为所述目标文本的第一标签;
将具有所述第一标签的所述目标文本,添加至训练集数据中;
基于所述训练集数据进行模型训练,得到目标文本分类模型。
2.根据权利要求1所述的模型的训练方法,其特征在于,所述基于所述目标文本与多个预设话题中的预设关键词之间的匹配,在多个所述预设话题中确定所述目标文本对应的第一话题,包括:
对于每一所述预设话题,检测所述目标文本中是否存在所述预设话题中的预设关键词;
若所述目标文本中存在所述预设话题中的预设关键词,确定所述预设话题中的预设关键词在所述目标文本中的出现次数;
基于所述出现次数,确定所述预设话题是否为所述目标文本对应的第一话题,从而得到所述目标文本对应的第一话题。
3.根据权利要求1所述的模型的训练方法,其特征在于,所述基于所述目标文本与多个所述预设话题中的预设文本例句之间的匹配,在多个所述预设话题中确定所述目标文本对应的第二话题,包括:
对于每一所述预设话题,确定所述目标文本与所述预设话题中的各所述预设文本例句之间的文本相似度,得到多个所述文本相似度;
确定多个所述文本相似度的平均值;
基于所述平均值是否大于或等于预设阈值,确定所述预设话题是否为所述目标文本对应的第二话题,从而得到所述目标文本对应的第二话题。
4.根据权利要求1所述的模型的训练方法,其特征在于,所述基于所述第一话题和所述第二话题,确定所述目标文本的第三话题,包括:
检测所述第一话题与所述第二话题是否相同;
在所述第一话题与所述第二话题相同时,将所述第一话题或所述第二话题,作为所述目标文本的第三话题。
5.根据权利要求1所述的模型的训练方法,其特征在于,所述基于所述训练集数据进行模型训练,得到目标文本分类模型,包括:
定时读取所述训练集数据;
将所述训练集数据拆分为训练数据和验证数据;
采用所述训练数据进行模型训练,得到训练后的模型;
采用所述验证数据对训练后的模型进行模型验证,在模型验证通过后,得到所述目标文本分类模型。
6.根据权利要求5所述的模型的训练方法,其特征在于,所述基于所述训练集数据进行模型训练,得到目标文本分类模型之后,还包括:
将所述训练集数据中具有标签的各文本,依次输入至所述目标文本分类模型,得到各所述文本的所述标签的置信度评分;
在所述置信度评分小于预设评分时,将相应的所述文本从所述训练集数据中删除,以更新所述训练集数据。
7.根据权利要求1所述的模型的训练方法,其特征在于,所述基于所述目标文本与多个预设话题中的预设关键词之间的匹配,在多个所述预设话题中确定所述目标文本对应的第一话题之后,还包括:
检测是否存在所述目标文本分类模型;
若不存在所述目标文本分类模型,执行所述基于所述目标文本与多个所述预设话题中的预设文本例句之间的匹配,在多个所述预设话题中确定所述目标文本对应的第二话题的步骤;
若存在所述目标文本分类模型,将所述目标文本输入至所述目标文本分类模型,得到所述目标文本的第二标签;
基于所述第一话题和所述第二标签对应的预设话题,确定所述目标文本的第四话题,并将所述第四话题标注为所述目标文本的第一标签;
将具有所述第一标签的所述目标文本,添加至所述训练集数据中;
基于所述训练集数据进行模型训练,以更新所述目标文本分类模型。
8.根据权利要求1所述的模型的训练方法,其特征在于,所述方法还包括:
若在多个所述预设话题中,不存在所述目标文本对应的第一话题或所述目标文本对应的第二话题,则删除所述目标文本。
9.一种模型的训练装置,其特征在于,所述模型的训练装置包括一个或多个处理器和存储器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行的情况下,实现权利要求1-8任意一项所述的模型的训练方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行的情况下,实现权利要求1-8任意一项所述的模型的训练方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311566922.4A CN117273174B (zh) | 2023-11-23 | 2023-11-23 | 模型的训练方法、装置和可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311566922.4A CN117273174B (zh) | 2023-11-23 | 2023-11-23 | 模型的训练方法、装置和可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117273174A true CN117273174A (zh) | 2023-12-22 |
CN117273174B CN117273174B (zh) | 2024-06-11 |
Family
ID=89206700
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311566922.4A Active CN117273174B (zh) | 2023-11-23 | 2023-11-23 | 模型的训练方法、装置和可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117273174B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109918653A (zh) * | 2019-02-21 | 2019-06-21 | 腾讯科技(深圳)有限公司 | 确定文本数据的关联话题及模型的训练方法、装置和设备 |
CN112417158A (zh) * | 2020-12-15 | 2021-02-26 | 中国联合网络通信集团有限公司 | 文本数据分类模型的训练方法、分类方法、装置和设备 |
CN113722483A (zh) * | 2021-08-31 | 2021-11-30 | 平安银行股份有限公司 | 话题分类方法、装置、设备及存储介质 |
CN114691864A (zh) * | 2020-12-31 | 2022-07-01 | 北京金山数字娱乐科技有限公司 | 文本分类模型训练方法及装置、文本分类方法及装置 |
CN114756675A (zh) * | 2021-12-29 | 2022-07-15 | 合肥讯飞数码科技有限公司 | 文本分类方法、相关设备及可读存储介质 |
US20230139663A1 (en) * | 2020-03-25 | 2023-05-04 | Telefonaktiebolaget Lm Ericsson (Publ) | Text Classification Method and Text Classification Device |
-
2023
- 2023-11-23 CN CN202311566922.4A patent/CN117273174B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109918653A (zh) * | 2019-02-21 | 2019-06-21 | 腾讯科技(深圳)有限公司 | 确定文本数据的关联话题及模型的训练方法、装置和设备 |
US20230139663A1 (en) * | 2020-03-25 | 2023-05-04 | Telefonaktiebolaget Lm Ericsson (Publ) | Text Classification Method and Text Classification Device |
CN112417158A (zh) * | 2020-12-15 | 2021-02-26 | 中国联合网络通信集团有限公司 | 文本数据分类模型的训练方法、分类方法、装置和设备 |
CN114691864A (zh) * | 2020-12-31 | 2022-07-01 | 北京金山数字娱乐科技有限公司 | 文本分类模型训练方法及装置、文本分类方法及装置 |
CN113722483A (zh) * | 2021-08-31 | 2021-11-30 | 平安银行股份有限公司 | 话题分类方法、装置、设备及存储介质 |
CN114756675A (zh) * | 2021-12-29 | 2022-07-15 | 合肥讯飞数码科技有限公司 | 文本分类方法、相关设备及可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN117273174B (zh) | 2024-06-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107193865B (zh) | 人机交互中自然语言意图理解方法及装置 | |
US20190043506A1 (en) | Methods and systems for transcription | |
CN109165291B (zh) | 一种文本匹配方法及电子设备 | |
US8719192B2 (en) | Transfer of learning for query classification | |
CN112163424B (zh) | 数据的标注方法、装置、设备和介质 | |
WO2016179938A1 (zh) | 题目推荐方法和题目推荐装置 | |
CN111695385B (zh) | 文本识别方法、装置及设备 | |
CN110413760B (zh) | 人机对话方法、装置、存储介质及计算机程序产品 | |
CN109086265B (zh) | 一种语义训练方法、短文本中多语义词消歧方法 | |
CN109766550B (zh) | 一种文本品牌识别方法、识别装置和存储介质 | |
CN109598000B (zh) | 语义关系识别方法、装置、计算机设备和存储介质 | |
CN106844340B (zh) | 基于人工智能的新闻摘要生成和显示方法、装置及系统 | |
JP2020512651A (ja) | 検索方法、装置及び非一時的コンピュータ読取可能記憶媒体 | |
CN110413307A (zh) | 代码功能的关联方法、装置及电子设备 | |
CN110263345B (zh) | 关键词提取方法、装置及存储介质 | |
CN115964484A (zh) | 基于多标签分类模型实现的法律多意图识别方法和装置 | |
CN117744661B (zh) | 基于提示词工程的文本生成模型训练方法和文本生成方法 | |
CA3104292C (en) | Systems and methods for identifying and linking events in structured proceedings | |
CN112632287A (zh) | 电力知识图谱构建方法和装置 | |
CN117273174B (zh) | 模型的训练方法、装置和可读存储介质 | |
CN112163415A (zh) | 针对反馈内容的用户意图识别方法、装置及电子设备 | |
CN116662555A (zh) | 一种请求文本处理方法、装置、电子设备及存储介质 | |
CN111274404B (zh) | 一种基于人机协同的小样本实体多领域分类方法 | |
CN111798214B (zh) | 职位技能标签生成系统及方法 | |
CN114781485A (zh) | 文本分类方法、装置、计算机设备和计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |