CN116701636A - 一种数据分类方法、装置、设备及存储介质 - Google Patents
一种数据分类方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN116701636A CN116701636A CN202310762159.6A CN202310762159A CN116701636A CN 116701636 A CN116701636 A CN 116701636A CN 202310762159 A CN202310762159 A CN 202310762159A CN 116701636 A CN116701636 A CN 116701636A
- Authority
- CN
- China
- Prior art keywords
- classification
- model
- determining
- text data
- label
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 81
- 238000013145 classification model Methods 0.000 claims abstract description 34
- 238000013507 mapping Methods 0.000 claims description 53
- 238000012545 processing Methods 0.000 claims description 16
- 238000004590 computer program Methods 0.000 claims description 5
- 238000003062 neural network model Methods 0.000 claims description 3
- 238000012549 training Methods 0.000 description 13
- 238000010586 diagram Methods 0.000 description 8
- 230000000694 effects Effects 0.000 description 8
- 230000006870 function Effects 0.000 description 7
- 238000010276 construction Methods 0.000 description 4
- 230000008451 emotion Effects 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 230000001502 supplementing effect Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000013523 data management Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000007935 neutral effect Effects 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/186—Templates
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种数据分类方法、装置、设备及存储介质,其中,所述方法包括:获得文本数据,并确定当前的目标分类任务;从至少一个提示模板中,确定与所述目标分类任务匹配的目标提示模板;其中,不同的所述提示模板对应不同的分类任务,所述提示模板是将标签集合和至少一个关键词输入预设的生成模型得到的,所述标签集合与所述分类任务对应;基于所述文本数据、所述目标提示模板和已训练的分类模型,确定所述文本数据的分类结果。
Description
技术领域
本申请实施例涉及数据处理领域,涉及但不限于一种数据分类方法、装置、设备及存储介质。
背景技术
结构化数据是指以关系数据库表等形式管理的数据,在企业中存在大量的此类型数据。针对这些数据进行文本分类,对于企业的数据治理工作具有重要意义。该类型数据具有上下文语义信息缺乏和标注数据稀少两个显著的特点,给基于深度学习的分类方法造成了极大的困难。
针对结构化的数据进行文本分类,现有技术存在模板构造复杂性和不稳定性问题:提示学习方法的效果受限于模板的好坏,为找到较为合适的模板,需要人工设计不同模板,为模型训练增加较大时间开销。
发明内容
有鉴于此,本申请实施例提供一种数据分类方法、装置、设备及存储介质。
本申请实施例的技术方案是这样实现的:
第一方面,本申请实施例提供一种数据分类方法,所述方法包括:
获得文本数据,并确定当前的目标分类任务;
从至少一个提示模板中,确定与所述目标分类任务匹配的目标提示模板;其中,不同的所述提示模板对应不同的分类任务,所述提示模板是将标签集合和至少一个关键词输入预设的生成模型得到的,所述标签集合与所述分类任务对应;
基于所述文本数据、所述目标提示模板和已训练的分类模型,确定所述文本数据的分类结果。
第二方面,本申请实施例提供一种数据分类装置,所述装置包括:
第一获取模块,用于获得文本数据,并确定当前的目标分类任务;
第一确定模块,用于从至少一个提示模板中,确定与所述目标分类任务匹配的目标提示模板;其中,不同的所述提示模板对应不同的分类任务,所述提示模板是将标签集合和关键词输入预设的生成模型得到的,所述标签集合与所述分类任务对应;
第二确定模块,用于基于所述文本数据、所述目标提示模板和已训练的分类模型,确定所述文本数据的分类结果。
第三方面,本申请实施例提供一种电子设备,包括存储器和处理器,所述存储器存储有可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述方法。
第四方面,本申请实施例提供一种存储介质,存储有可执行指令,用于处理器执行时,实现上述方法。
本申请实施例中,本申请实施例中,首先获得文本数据,并确定当前的目标分类任务;然后从至少一个提示模板中,确定与所述目标分类任务匹配的目标提示模板;其中,不同的所述提示模板对应不同的分类任务,所述提示模板是将标签集合和至少一个关键词输入预设的生成模型得到的,所述标签集合与所述分类任务对应;最后基于所述文本数据、所述目标提示模板和已训练的分类模型,确定所述文本数据的分类结果。这样,将模板构造与结构化数据自身统计信息相结合,避免人工构造模板的复杂性和不稳定性问题。模型的分类效果受模板影响较小,效果更加稳定。
附图说明
图1为本申请实施例提供的一种数据分类方法的实现流程示意图;
图2为本申请实施例提供的一种生成提示模板方法的实现流程示意图;
图3A为本申请实施例提供的一种分类文本数据方法的实现流程示意图;
图3B为本申请实施例提供的一种标签映射的示意图
图4为本申请实施例提供的结构化数据分类方法的实现流程示意图;
图5为本申请实施例提供的一种数据分类装置的组成结构示意图;
图6为本申请实施例提供的电子设备的一种硬件实体示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对申请实施例的具体技术方案做进一步详细描述。以下实施例用于说明本申请,但不用来限制本申请的范围。
在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。
在以下的描述中,所涉及的术语“第一\第二\第三”仅仅是是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序,以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的,不是旨在限制本申请。
本申请实施例提供一种数据分类方法,如图1所示,该方法包括:
步骤S110、获得文本数据,并确定当前的目标分类任务;
这里,文本数据可以是结构化数据。结构化数据是指以关系数据库表等形式管理的数据,在企业中存在大量的此类型数据。
在实施过程中,不同文本数据集合对应不同的分类任务。可以基于获取到的文本数据集合的数据特征,确定该文本数据对应的目标分类任务。举例来说,包含个人信息的文本数据集合,可以确定该文本数据对应的分类任务为将文本数据按照姓名、籍贯、住址、职位等至少一项进行分类。
步骤S120、从至少一个提示模板中,确定与所述目标分类任务匹配的目标提示模板;其中,不同的所述提示模板对应不同的分类任务,所述提示模板是将标签集合对应的至少一个关键词输入预设的生成模型得到的,所述标签集合与所述分类任务对应;
这里,预设的生成模型可以是生成式预训练模型(Generative PretrainedTransformer,GPT),即基于预训练模型的自然语言处理技术。预训练模型是指在大规模的数据集上训练的模型。预训练步骤可以使用海量语料库学习通用语言特征,并生成一个通用的语言模型,即GPT模型。GPT模型可以通过泛化训练的文本,生成高质量自然语言文本。
在一些实施例中,得到提示模块可以包括以下过程:可以先确定分类任务对应的标签集合,再基于标签集合中的标签与所述标签对应上下文获取语义信息,利用滑动窗口从语义信息中抽取至少一个关键词,最后将标签集合对应的至少一个关键词输入预设的生成模型得到提示模板。这样,可以实现在预设的模型中生成提示模板,从而避免人工构造模板的复杂性和不稳定性问题。
在实施过程中,可以从至少一个提示模板中,确定与目标分类任务匹配的目标提示模板。举例来说,分类任务为个人信息分类的情况下,可以确定目标提示模板为“[CLS]以下是个人身份信息的[MASK]信息”。
步骤S130、基于所述文本数据、所述目标提示模板和已训练的分类模型,确定所述文本数据的分类结果。
在实施过程中,可以先组合文本数据和目标提示模板,得到组合数据;然后将组合数据输入已经完成训练的分类模型,得到文本数据的分类结果。
本申请实施例中,首先获得文本数据,并确定当前的目标分类任务;然后从至少一个提示模板中,确定与所述目标分类任务匹配的目标提示模板;其中,不同的所述提示模板对应不同的分类任务,所述提示模板是将标签集合和至少一个关键词输入预设的生成模型得到的,所述标签集合与所述分类任务对应;最后基于所述文本数据、所述目标提示模板和已训练的分类模型,确定所述文本数据的分类结果。这样,将模板构造与结构化数据自身统计信息相结合,避免人工构造模板的复杂性和不稳定性问题。模型的分类效果受模板影响较小,效果更加稳定。
在一些实施例中,如图2所示,生成提示模板的方法包括以下步骤:
步骤S210、获取语料集合;
这里,可以获取通用领域的语料,例如来源于网络平台、文献资料等。
步骤S220、确定第一分类任务包括的标签集合;其中,所述第一分类任务为所述不同的分类任务中的任一分类任务;
在实施过程中,不同的分类任务对应不同的标签集合。举例来说个人信息对应的标签集合可以为{姓名、籍贯、住址、职位};表征情感的文本对应的标签集合可以为{积极情感、消极情感和中性情感}。
步骤S230、基于所述语料集合、所述第一分类任务包括的标签集合和所述预设的生成模型,得到所述第一分类任务的提示模板。
在实施过程中,可以基于语料集合和标签集合确定标签的上下文信息,再基于上下文信息确定关键词,最后将关键词输入预设的生成模型,得到提示模板。
本申请实施例中,首先获取语料集合;然后确定第一分类任务包括的标签集合;最后基于所述语料集合、所述第一分类任务包括的标签集合和所述预设的生成模型,得到所述第一分类任务的提示模板。这样,可以利用预设的生成模型自动生成标签对应的提示模板。
在一些实施例中,以上步骤S230“基于所述语料集合、所述第一分类任务包括的标签集合和所述预设的生成模型,得到所述第一分类任务的提示模板”可以通过以下步骤实现:
步骤231、根据所述语料集合和所述第一分类任务包括的标签集合,确定至少一个所述关键词;
这里,关键词可以是与标签存在关系的词语,即可以是生成提示模板的词语。
在实施过程中,可以根据第一分类任务包括的标签集合,在语料集合中确定至少一个关键词。举例来说,第一分类任务包括的标签集合为{姓名、籍贯、住址、职位}的情况下,关键词至少包括个人信息、信息等关键词。
步骤232、将所述第一分类任务包括的标签集合和所述至少一个关键词输入所述预设的生成模型,得到所述第一分类任务的提示模板。
本申请实施例中,首先根据所述语料集合和所述第一分类任务包括的标签集合,确定至少一个所述关键词;然后将所述第一分类任务包括的标签集合和所述至少一个关键词输入所述预设的生成模型,得到所述第一分类任务的提示模板。这样,可以基于标签对应的关键词,利用生成模型得到提示模板,3.将模板构造与标签集合和关键词相结合,避免人工构造模板的复杂性和不稳定性问题。
在一些实施例中,以上步骤231“根据所述语料集合和所述第一分类任务包括的标签集合,确定至少一个关键词”可以通过以下步骤实现:
步骤2311、确定第一标签在第一语料中的上下文;其中,所述第一标签属于所述第一分类任务所包括的标签集合,所述第一语料属于所述语料集合;
在实施过程中,可以确定标签集合中每一标签在对应语料集合中的上下文,即,可以在语料集合中确定包括第一标签的第一语料,在确定该第一标签在第一语料中的上下文。
步骤2312、确定所述第一标签与所述上下文之间的语义信息;
在实施过程中,可以在语料集合中挖掘第一标签与上下文之间的语义信息。
步骤2313、基于所述语义信息,利用滑动窗口在所述第一语料中抽取所述至少一个关键词。
在实施过程中,可以根据具体需求设置滑动窗口,以利用该滑动窗口在第一语料中抽取至少一个关键词。
本申请实施例中,首先确定第一标签在第一语料中的上下文;然后确定所述第一标签与所述上下文之间的语义信息;最后基于所述语义信息,利用滑动窗口在所述第一语料中抽取所述至少一个关键词。这样,可以得到用于构建提示模板的至少一个关键词。
在一些实施例中,以上步骤S130“基于所述文本数据、所述目标提示模板和已训练的分类模型,确定所述文本数据的分类结果”可以通过以下步骤实现:
步骤131、将所述文本数据和所述目标提示模板相结合,得到输入数据;
这里,文本数据可以是待分类的数据。在实施过程中,可以拼接文本数据和目标提示模板,得到输入数据。举例来说,目标提示模板为“[CLS]以下是个人身份信息的[MASK]信息”,文本数据为“小王在上海陆家嘴软件园上班”的情况下,输入数据可以为“[CLS]以下是个人身份信息的[MASK]信息:小王在上海陆家嘴软件园上班”。
步骤132、将所述输入数据输入已训练的分类模型,得到所述文本数据的分类结果。
这里,可以将输入数据输入已训练的分类模型,预测概率最大的取值为分类结果。
举例来说,输入数据可以为“[CLS]以下是个人身份信息的[MASK]信息:小王在上海陆家嘴软件园上班”。将该输入数据输入已训练的分类模型,可以得到分类结果为:姓名和地址。
输入数据可以为“[CLS]以下是个人身份信息的[MASK]信息:小王”。将该输入数据输入已训练的分类模型,可以得到分类结果为:姓名。
输入数据可以为“[CLS]以下是个人身份信息的[MASK]信息:上海陆家嘴软件园”。将该输入数据输入已训练的分类模型,可以得到分类结果为:地址。
以上举例可以看出,不同的输入数据,可以得到不同的分类结果。在一些实施例中,可以得到一个分类结果;在一些实施例中,也可以得到两个分类结果;在一些实施例中,还可以得到两个以上的分类结果。
本申请实施例中,首先将所述文本数据和所述目标提示模板相结合,得到输入数据;然后将所述输入数据输入已训练的分类模型,得到所述文本数据的分类结果。这样,可以利用已训练的分类模型,对输入数据进行分类,得到文本数据的分类结果。
在一些实施例中,所述分类模型包括:语言处理模型和标签映射模型;对应地,如图3A所示,以上步骤132“将所述输入数据输入已训练的分类模型,得到所述文本数据的分类结果”可以通过以下步骤实现:
步骤S310、将所述输入数据输入已训练的语言处理模型,得到掩码向量;
这里,语言处理模型可以处理语言信息,经过训练的语音处理模型,可以对输入数据进行分类,得到的分类结果为掩码向量。即该掩码向量可以是用于表征分类结果的向量。
步骤S320、将所述掩码向量输入已训练的标签映射模型,得到所述文本数据的分类结果。
这里,标签映射模型可以用于学习语音处理模型的输出掩码向量与标签标识之间的映射关系。完成训练的该标签映射模型,可以得到掩码向量与分类结果的映射关系。
在实施过程中,将掩码向量输入已训练的标签映射模型,可以利用该映射关系得到文本数据的分类结果。
在一些实施例中,可以将语言处理模型和标签映射模型进行联合训练,同时得到完成训练的语言处理模型和标签映射模型。
本申请实施例中,首先将所述输入数据输入已训练的语言处理模型,得到掩码向量;然后将所述掩码向量输入已训练的标签映射模型,得到所述文本数据的分类结果。这样,可以通过标签映射模型,帮助模型学习掩码向量和标签之间的关系,从而避免人工构造标签映射的复杂性和不完备性问题。
在一些实施例中,以上步骤S320“基于所述掩码向量和已训练的标签映射模型,得到所述文本数据的分类结果”可以通过以下步骤实现:
步骤321、将所述掩码向量输入已训练的标签映射模型,得到至少一个标签标识;其中,所述标签映射模型为一神经网络模型,所述标签映射模型能够学习掩码向量与标签标识之间的映射关系;
这里,标签映射模型可以对应一个标签映射函数,该标签映射函数的输入为掩码向量,输出为掩码向量对应的标签标识。
在实施过程中,该掩码向量对应一个标签标识,则将该掩码向量输入已训练的标签映射模型,得到一个标签标识;该掩码向量对应两个标签标识,则将该掩码向量输入已训练的标签映射模型,得到两个标签标识;该掩码向量对应多个标签标识,则将该掩码向量输入已训练的标签映射模型,得到多个标签标识。
图3B为本申请实施例提供的一种标签映射的示意图,如图3B所示,该示意图包括掩码[MASK]向量,该掩码向量包括至少一个标记(token),将该掩码向量输入标签映射标签,可以得到每一token对应的标签标识(label)。
步骤322、根据至少一个所述标签标识,确定所述文本数据的至少一个标签类别。
在实施过程中,由于标签标识与标签类别为一一对应的关系,所以可以根据标签标识确定标签类别。
本申请实施例中,首先将所述掩码向量输入已训练的标签映射模型,得到至少一个标签标识;然后根据至少一个所述标签标识,确定所述文本数据的至少一个标签类别。这样,将标签映射关系自动化,避免人工构造的复杂性和不完备性问题。
本申请实施例提供一种结构化数据分类的方法,如图4所示,该方法包括:
步骤S410、自动构造模板;
该步骤S410可以利用以下步骤S411至步骤S413完成:
步骤S411、获取通用语料;
在实施过程中,可以获取通用领域的语料,例如来源于网络平台、文献资料等。
步骤S412、基于通用语料抽取关键词;
在实施过程中,可以通过在通用语料中挖掘标签与上下文之间的语义信息,通过滑动窗口抽取关键词。
步骤S413、基于标签和关键词自动构造模板。
在实施过程中,可以将标签以及关键词输入到GPT3等生成模型中,自动构造提示学习的模板。
步骤S420、提示学习;
该步骤S420可以利用以下步骤S421至步骤S423完成:
步骤S421、获取结构化数据;
步骤S422、将结构化数据与模板合成生成输入;
在实施过程中,可以取出带标签的结构化数据。
将结构化数据与模板相结合,补充结构化数据的语义信息,生成BERT等预训练模型的输入。
在训练过程中,可以获取带标签的训练数据;将训练数据与模板相结合,补充训练数据的语义信息,以训练分类模型。
步骤S423、将生成输入分类模型,得到掩码向量。
这里,分类模型可以基于BERT等模型搭建骨干网络,并获取[MASK]对应的隐含层向量表示。
在实施过程中,将生成输入分类模型,可以得到该结构化数据对应的掩码标签。
步骤S430、自动标签映射;
该步骤S430可以利用以下步骤S431至步骤S433完成:
步骤S431、获取掩码向量;
步骤S432、自动标签映射;
这里,可以将掩码向量输入标签映射模型,得到标签标识。标签映射模型可以构造标签映射函数,标签映射函数的输入为[MASK]向量,输出为对应的标签标识。
步骤S433、得到分类标签。
这里,可以组合训练分类模型和标签映射模型,以得到组合后的分类模型,用于分类结构化文本数据。在训练过程中,也可以训练组合后的分类模型。
本申请实施例中,通过构造模板生成模型,在预训练模型中生成模板,从而避免人工构造模板的复杂性和不稳定性问题。首先,该模块在通用语料中挖掘标签与上下文之间的语义信息,通过滑动窗口抽取关键词。然后,将关键词和标签输入到GPT3等生成模型中自动生成模板,以此提示BERT等预训练模型进行分类任务。这样,将模板构造与结构化数据自身统计信息相结合,避免人工构造模板的复杂性和不稳定性问题。模型的分类效果受模板影响较小,效果更加稳定。
本申请实施例中,分类模型可以基于BERT等模型搭建骨干网络,并获取[MASK]对应的隐含层向量表示。这样,能够在一定程度上解决结构化数据文本分类的上下文语义信息缺乏和训练样本不足问题。
本申请实施例中,通过构造标签映射模型,帮助模型学习[MASK]和标签之间的关系,从而避免人工构造标签映射的复杂性和不完备性问题。该模型首先获取[MASK]所对应的向量,然后通过一个独立的神经网络学习此向量与标签ID之间的映射关系。这样,将标签映射关系自动化,避免人工构造的复杂性和不完备性问题。
基于前述的实施例,本申请实施例提供一种数据分类装置,该装置包括所包括的各模块,各模块包括各子模块,各子模块包括单元,可以通过电子设备中的处理器来实现;当然也可通过具体的逻辑电路实现;在实施的过程中,处理器可以为中央处理器(CentralProcessing Unit,CPU)、微处理器(Microprocessor Unit,MPU)、数字信号处理器(DigitalSignal Process,DSP)或现场可编程门阵列(Field Programmable Gate Array,FPGA)等。
图5为本申请实施例提供的数据分类装置的组成结构示意图,如图5所示,所述装置500包括:
第一获取模块510,用于获得文本数据,并确定当前的目标分类任务;
第一确定单元520,用于从至少一个提示模板中,确定与所述目标分类任务匹配的目标提示模板;其中,不同的所述提示模板对应不同的分类任务,所述提示模板是将标签集合和关键词输入预设的生成模型得到的,所述标签集合与所述分类任务对应;
第二确定单元530,用于基于所述文本数据、所述目标提示模板和已训练的分类模型,确定所述文本数据的分类结果。
在一些实施例中,所述装置还包括第二获取模块、第三确定模块和得到模块,其中,所述第二获取模块,用于获取语料集合;所述第三确定模块,用于确定第一分类任务包括的标签集合;其中,所述第一分类任务为所述不同的分类任务中的任一分类任务;所述得到模块,用于基于所述语料集合、所述第一分类任务包括的标签集合和所述预设的生成模型,得到所述第一分类任务的提示模板。
在一些实施例中,所述得到模块包括确定子模块和第一输入子模块,其中,所述确定子模块,用于根据所述语料集合和所述第一分类任务包括的标签集合,确定至少一个所述关键词;所述第一输入子模块,用于将所述第一分类任务包括的标签集合和所述至少一个关键词输入所述预设的生成模型,得到所述第一分类任务的提示模板。
在一些实施例中,所述确定子模块包括第一确定单元、第二确定单元和抽取单元,其中,所述第一确定单元,用于确定第一标签在第一语料中的上下文;其中,所述第一标签属于所述第一分类任务所包括的标签集合,所述第一语料属于所述语料集合;所述第二确定单元,用于确定所述第一标签与所述上下文之间的语义信息;所述抽取单元,用于基于所述语义信息,利用滑动窗口在所述第一语料中抽取所述至少一个关键词。
在一些实施例中,所述第二确定模块包括结合子模块和第二输入子模块,其中,所述结合子模块,用于将所述文本数据和所述目标提示模板相结合,得到输入数据;所述第二输入子模块,用于将所述输入数据输入已训练的分类模型,得到所述文本数据的分类结果。
在一些实施例中,所述分类模型包括:语言处理模型和标签映射模型;对应地,所述第二输入子模块包括第一输入单元和第二输入单元,其中,所述第一输入单元,用于将所述输入数据输入已训练的语言处理模型,得到掩码向量;所述第二输入单元,用于基于所述掩码向量输入已训练的标签映射模型,得到所述文本数据的分类结果。
在一些实施例中,所述第二输入单元包括第一输入子单元和确定子单元,其中,所述第一输入子单元,用于将所述掩码向量输入已训练的标签映射模型,得到至少一个标签标识;所述确定子单元,用于根据至少一个所述标签标识,确定所述文本数据的至少一个标签类别;其中,所述标签映射模型为一神经网络模型,所述标签映射模型能够学习掩码向量与标签标识之间的映射关系。
以上装置实施例的描述,与上述方法实施例的描述是类似的,具有同方法实施例相似的有益效果。对于本申请装置实施例中未披露的技术细节,请参照本申请方法实施例的描述而理解。
需要说明的是,本申请实施例中,如果以软件功能模块的形式实现上述方法,并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实施例的技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得电子设备(可以是手机、平板电脑、笔记本电脑、台式计算机等)执行本申请各个实施例所述方法的全部或部分。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read Only Memory,ROM)、磁碟或者光盘等各种可以存储程序代码的介质。这样,本申请实施例不限制于任何特定的硬件和软件结合。
对应地,本申请实施例提供一种存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述实施例中提供的数据分类方法中的步骤。
对应地,本申请实施例提供一种电子设备,图6为本申请实施例提供的电子设备的一种硬件实体示意图,如图6所示,该设备600的硬件实体包括:包括存储器601和处理器602,所述存储器601存储有可在处理器602上运行的计算机程序,所述处理器602执行所述程序时实现上述实施例中提供的数据分类方法中的步骤。
存储器601配置为存储由处理器602可执行的指令和应用,还可以缓存待处理器602以及电子设备600中各模块待处理或已经处理的数据(例如,图像数据、音频数据、语音通信数据和视频通信数据),可以通过闪存(FLASH)或随机访问存储器(Random AccessMemory,RAM)实现。
这里需要指出的是:以上存储介质和设备实施例的描述,与上述方法实施例的描述是类似的,具有同方法实施例相似的有益效果。对于本申请存储介质和设备实施例中未披露的技术细节,请参照本申请方法实施例的描述而理解。
应理解,说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本申请的至少一个实施例中。因此,在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。此外,这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。应理解,在本申请的各种实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元;既可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
另外,在本申请各实施例中的各功能单元可以全部集成在一个处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(Read Only Memory,ROM)、磁碟或者光盘等各种可以存储程序代码的介质。
或者,本申请上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实施例的技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得电子设备(可以是手机、平板电脑、笔记本电脑、台式计算机等)执行本申请各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、ROM、磁碟或者光盘等各种可以存储程序代码的介质。
本申请所提供的几个方法实施例中所揭露的方法,在不冲突的情况下可以任意组合,得到新的方法实施例。
本申请所提供的几个产品实施例中所揭露的特征,在不冲突的情况下可以任意组合,得到新的产品实施例。
本申请所提供的几个方法或设备实施例中所揭露的特征,在不冲突的情况下可以任意组合,得到新的方法实施例或设备实施例。
以上所述,仅为本申请的实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。
Claims (10)
1.一种数据分类方法,所述方法包括:
获得文本数据,并确定当前的目标分类任务;
从至少一个提示模板中,确定与所述目标分类任务匹配的目标提示模板;其中,不同的所述提示模板对应不同的分类任务,所述提示模板是将标签集合对应的至少一个关键词输入预设的生成模型得到的,所述标签集合与所述分类任务对应;
基于所述文本数据、所述目标提示模板和已训练的分类模型,确定所述文本数据的分类结果。
2.根据权利要求1所述的方法,所述方法还包括:
获取语料集合;
确定第一分类任务包括的标签集合;其中,所述第一分类任务为所述不同的分类任务中的任一分类任务;
基于所述语料集合、所述第一分类任务包括的标签集合和所述预设的生成模型,得到所述第一分类任务的提示模板。
3.根据权利要求2所述的方法,所述基于所述语料集合、所述第一分类任务包括的标签集合和所述预设的生成模型,得到所述第一分类任务的提示模板,包括:
根据所述语料集合和所述第一分类任务包括的标签集合,确定至少一个所述关键词;
将所述第一分类任务包括的标签集合和所述至少一个关键词输入所述预设的生成模型,得到所述第一分类任务的提示模板。
4.根据权利要求3所述的方法,所述根据所述语料集合和所述第一分类任务包括的标签集合,确定至少一个关键词,包括:
确定第一标签在第一语料中的上下文;其中,所述第一标签属于所述第一分类任务所包括的标签集合,所述第一语料属于所述语料集合;
确定所述第一标签与所述上下文之间的语义信息;
基于所述语义信息,利用滑动窗口在所述第一语料中抽取所述至少一个关键词。
5.根据权利要求1至4任一项所述的方法,所述基于所述文本数据、所述目标提示模板和已训练的分类模型,确定所述文本数据的分类结果,包括:
将所述文本数据和所述目标提示模板相结合,得到输入数据;
将所述输入数据输入已训练的分类模型,得到所述文本数据的分类结果。
6.根据权利要求5所述的方法,所述分类模型包括:语言处理模型和标签映射模型;对应地,所述将所述输入数据输入已训练的分类模型,得到所述文本数据的分类结果,包括:
将所述输入数据输入已训练的语言处理模型,得到掩码向量;
将所述掩码向量输入已训练的标签映射模型,得到所述文本数据的分类结果。
7.根据权利要求6所述的方法,所述基于所述掩码向量和已训练的标签映射模型,得到所述文本数据的分类结果,包括:
将所述掩码向量输入已训练的标签映射模型,得到至少一个标签标识;
根据至少一个所述标签标识,确定所述文本数据的至少一个标签类别;
其中,所述标签映射模型为一神经网络模型,所述标签映射模型能够学习掩码向量与标签标识之间的映射关系。
8.一种数据分类装置,所述装置包括:
第一获取模块,用于获得文本数据,并确定当前的目标分类任务;
第一确定模块,用于从至少一个提示模板中,确定与所述目标分类任务匹配的目标提示模板;其中,不同的所述提示模板对应不同的分类任务,所述提示模板是将标签集合和关键词输入预设的生成模型得到的,所述标签集合与所述分类任务对应;
第二确定模块,用于基于所述文本数据、所述目标提示模板和已训练的分类模型,确定所述文本数据的分类结果。
9.一种电子设备,包括存储器和处理器,所述存储器存储有可在处理器上运行的计算机程序,所述处理器执行所述程序时实现权利要求1至7任一项所述分类方法中的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现权利要求1至7任一项所述分类方法中的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310762159.6A CN116701636A (zh) | 2023-06-26 | 2023-06-26 | 一种数据分类方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310762159.6A CN116701636A (zh) | 2023-06-26 | 2023-06-26 | 一种数据分类方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116701636A true CN116701636A (zh) | 2023-09-05 |
Family
ID=87833835
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310762159.6A Pending CN116701636A (zh) | 2023-06-26 | 2023-06-26 | 一种数据分类方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116701636A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116975410A (zh) * | 2023-09-22 | 2023-10-31 | 北京中关村科金技术有限公司 | 网页数据采集方法、装置、电子设备及可读存储介质 |
-
2023
- 2023-06-26 CN CN202310762159.6A patent/CN116701636A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116975410A (zh) * | 2023-09-22 | 2023-10-31 | 北京中关村科金技术有限公司 | 网页数据采集方法、装置、电子设备及可读存储介质 |
CN116975410B (zh) * | 2023-09-22 | 2023-12-19 | 北京中关村科金技术有限公司 | 网页数据采集方法、装置、电子设备及可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111046133B (zh) | 基于图谱化知识库的问答方法、设备、存储介质及装置 | |
CN108920622B (zh) | 一种意图识别的训练方法、训练装置和识别装置 | |
CN107291783B (zh) | 一种语义匹配方法及智能设备 | |
CN110442710B (zh) | 一种基于知识图谱的短文本语义理解与精准匹配方法及装置 | |
CN110168535B (zh) | 一种信息处理方法及终端、计算机存储介质 | |
CN107705066B (zh) | 一种商品入库时信息录入方法及电子设备 | |
CN111368049B (zh) | 信息获取方法、装置、电子设备及计算机可读存储介质 | |
CN117033608A (zh) | 一种基于大语言模型的知识图谱生成式问答方法及系统 | |
EP3926531A1 (en) | Method and system for visio-linguistic understanding using contextual language model reasoners | |
CN112182229A (zh) | 一种文本分类模型构建方法、文本分类方法及装置 | |
CN104462064A (zh) | 一种移动终端信息通讯提示输入内容的方法和系统 | |
US11783179B2 (en) | System and method for domain- and language-independent definition extraction using deep neural networks | |
KR20200087977A (ko) | 멀티모달 문서 요약 시스템 및 방법 | |
CN110968725B (zh) | 图像内容描述信息生成方法、电子设备及存储介质 | |
CN112632242A (zh) | 智能对话方法及装置、电子设备 | |
CN111783471A (zh) | 自然语言的语义识别方法、装置、设备及存储介质 | |
CN113821605A (zh) | 一种事件抽取方法 | |
CN110827797A (zh) | 语音应答事件分类处理方法和装置 | |
CN116701636A (zh) | 一种数据分类方法、装置、设备及存储介质 | |
CN114625858A (zh) | 一种基于神经网络的政务问答智能回复方法及装置 | |
CN110737811A (zh) | 应用分类方法、装置以及相关设备 | |
CN117390497A (zh) | 基于大语言模型的类目预测方法、装置和设备 | |
CN110750626A (zh) | 一种基于场景的任务驱动的多轮对话方法及系统 | |
CN113342935A (zh) | 语义识别方法、装置、电子设备及可读存储介质 | |
CN112800177A (zh) | 基于复杂数据类型的faq知识库自动生成方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |