CN113934848B - 一种数据分类方法、装置和电子设备 - Google Patents
一种数据分类方法、装置和电子设备 Download PDFInfo
- Publication number
- CN113934848B CN113934848B CN202111231704.6A CN202111231704A CN113934848B CN 113934848 B CN113934848 B CN 113934848B CN 202111231704 A CN202111231704 A CN 202111231704A CN 113934848 B CN113934848 B CN 113934848B
- Authority
- CN
- China
- Prior art keywords
- classified
- data
- keyword
- label
- classification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 63
- 239000013598 vector Substances 0.000 claims description 60
- 230000011218 segmentation Effects 0.000 claims description 17
- 238000004590 computer program Methods 0.000 claims description 16
- 238000004364 calculation method Methods 0.000 claims description 5
- 230000000694 effects Effects 0.000 description 10
- 238000010586 diagram Methods 0.000 description 5
- 238000012216 screening Methods 0.000 description 3
- 238000010276 construction Methods 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000004140 cleaning Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供了一种数据分类方法、装置和电子设备,所述数据分类方法包括:获取第一待分类数据;将所述第一待分类数据与K个分类词表进行匹配,得到与所述K个分类词表一一对应的K个频次,其中,一个所述分类词表对应一个类别标签,所述分类词表包括至少一个关键词,所述K为大于1的整数;在所述K个频次中的最大频次与次大频次之间的差值小于或等于预设值的情况下,基于预设规则在所述K个分类词表对应的K个类别标签中确定所述第一待分类数据的类别标签。本申请技术方案至少可以解决现有的文本分类方法存在的分类准确性较差的问题。
Description
技术领域
本申请涉及自然语言处理领域,具体涉及一种数据分类方法、装置和电子设备。
背景技术
在自然语言处理领域中,大量业务场景均涉及到需要对文本进行分类的问题,例如,在搜索引擎、问答系统、会话系统等场景均需要对文本进行分类。目前,在对文本进行分类时,主要是采用人工筛选关键词进行分类,然而,采用现有的分类方法存在分类的准确性较差的问题。
发明内容
本申请涉及一种数据分类方法、装置和电子设备,可以解决现有的文本分类方法存在的分类准确性较差的问题。
第一方面,本申请实施例提供了一种数据分类方法,包括:
获取第一待分类数据;
将所述第一待分类数据与K个分类词表进行匹配,得到与所述K个分类词表一一对应的K个频次,其中,一个所述分类词表对应一个类别标签,所述分类词表包括至少一个关键词,所述K为大于1的整数;
在所述K个频次中的最大频次与次大频次之间的差值小于或等于预设值的情况下,基于预设规则在所述K个分类词表对应的K个类别标签中确定所述第一待分类数据的类别标签。
第二方面,本申请实施例提供了一种数据分类装置,包括:
获取模块,用于获取第一待分类数据;
匹配模块,用于将所述第一待分类数据与K个分类词表进行匹配,得到与所述K个分类词表一一对应的K个频次,其中,一个所述分类词表对应一个类别标签,所述分类词表包括至少一个关键词,所述K为大于1的整数;
第一确定模块,用于在所述K个频次中的最大频次与次大频次之间的差值小于或等于预设值的情况下,基于预设规则在所述K个分类词表对应的K个类别标签中确定所述第一待分类数据的类别标签。
第三方面,本申请实施例还提供了一种电子设备,包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如上述第一方面所述的方法步骤。
第四方面,本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上述第一方面所述的方法步骤。
本申请实施例中,在将待分类数据分别与K个分类词表进行匹配,得到与K个分类词表一一对应的K个频次之后,进一步通过确定最大频次与次大频次之间的差值来确定待分类数据的类别,当所述差值小于或等于所述预设值的情况下,则说明在此情况下,基于分类词表对待分类数据进行分类的分类效果较差,因此,进一步基于预设规则对待分类数据进行分类,以提高对文本分类的准确性。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的数据分类方法的流程图;
图2是本申请实施例中生成K个关键词集合的流程图;
图3是本申请实施例中生成分类词表过程的流程图;
图4是本申请实施例中进行文本分类过程的流程图;
图5是本申请实施例提供的数据分类装置的结构示意图之一;
图6是本申请实施例提供的数据分类装置的结构示意图之二。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
相关技术中,在对文本进行分类时,主要是采用人工筛选关键词的方式进行分类。而当待分类数据为长文本数据,且存在多个待定类别时,采用人工筛选关键词的方式需要耗费大量人力物力,且在此情况下,可能出现遗漏部分关键词,或者,将部分关键词划分至错误的类别下等现象,进而可能导致分类效率低、分类的准确性低等问题。
基于此,本申请实施例中,通过构建K个分类词表,以实现自动匹配待分类数据中的关键词,从而提高分类效率和关键词匹配的准确性。同时,在基于分类词表对待分类数据中的关键词匹配,得到K个频次之后,进一步基于最大频次与次大频次之间的差值,确定基于分类词表匹配的方式进行标签分类的效果,在分类效果较好的情况下,将基于分类词表匹配的方式确定的标签作为待分类数据的类别标签,在分类效果较差的情况下,进一步基于预设规则在K个类别标签中确定待分类数据的类别标签,以进一步提高文本分类的准确性。
请参见图1,为本申请实施例提供的一种数据分类方法的流程图,所述方法包括:
步骤101、获取第一待分类数据;
步骤102、将所述第一待分类数据与K个分类词表进行匹配,得到与所述K个分类词表对应的K个频次,其中,一个所述分类词表对应一个类别标签,所述分类词表包括至少一个关键词,所述K为大于1的整数;
步骤103、在所述K个频次中的最大频次与次大频次之间的差值小于或等于预设值的情况下,基于预设规则在所述K个分类词表对应的K个类别标签中确定所述第一待分类数据的类别标签。
其中,上述K个分类词表可以理解为预先构建的字典库。在某一特定应用场景下,可以预先确定K个类别标签,然后,通过获取大量待分类数据,从待分类数据中挖掘大量关键词,并将所挖掘得到的关键词分别划分至对应类别标签对应的分类词表内,从而完成分别词表的构建过程。例如,在金融领域,K个类别标签可以包括:“投资理财”、“信用贷款”、“金融诈骗”等类别标签。
上述第一待分类数据与所述分类词表分别为相同场景下的数据,例如,可以均为上述金融领域中的数据。
上述将所述第一待分类数据与K个分类词表进行匹配,可以是指:将所述K个分类词表中的每个关键词与第一待分类数据进行匹配,以确定每个关键词在第一待分类数据中出现的次数,从而得到与所述K个分类词表一一对应的K个频次,其中,一个分类词表对应一个频次,任意一个分类词表对应的频次为该分类词表中所有关键词在第一待分类数据中出现的次数之和。
可以理解的是,上述分类词表中的关键词可以用于判别对应的待分类数据是否属于所对应的分类标签,当某一待分类数据包括某一分类词表中的关键词的数量和种类越多时,该待分类数据属于该分类词表对应的类别标签的概率越大。相应地,当某一待分类数据不包括某一分类词表中的任意一个关键词时,则该待分类数据很可能不属于该分类词表对应的类别标签。
本申请实施例中,在得到上述K个频次之后,可以确定频次越大,频次对应的类别标签越可能作为第一待分类数据的类别标签。然而,基于此种方式可能存在多个类别标签对应的频次均相对较大的情况下,在此情况下,可能导致无法准确的对第一待分类数据进行分类。
基于此,本申请实施例中进一步计算最大频次与次大频次之间的差值,当所述差值小于或等于所述预设值的情况下,则说明在此情况下,存在至少两个类别标签对应的频次均较大,此时,若直接根据待分类数据与词表之间的频次来对待分类数据进行分类,可能导致无法准确的对第一待分类数据进行分类的问题,基于此,本申请实施例中,进一步基于预设规则对待分类数据进行分类,以提高对文本分类的准确性。
其中,上述最大频次为所述K个频次中的最大值,所述次大频次为所述K个频次中的第二大的值。由于所述K个分类词表与所述K个频次一一对应,且一个所述分类词表对应一个类别标签,因此,可以确定一个频次具有一个唯一对应的类别标签,例如,在目标频次与目标分类词表对应,且目标分类词表与目标类别标签对应的情况下,所述目标频次与所述目标类别标签对应,其中,所述目标频次为所述K个频次中的任意频次。上述预设值的取值可以根据实际应用场景进行选取。
该实施方式中,通过在将待分类数据分别与K个分类词表进行匹配,得到与K个分类词表一一对应的K个频次之后,进一步判断最大频次与次大频次之间的差值。当所述差值大于预设值的情况下,说明仅最大频次对应的分类词表中的关键词在待分类数据中出现的次数较多,而其他频次对应的分类词表中的关键词在待分类数据中出现的次数较少,说明在此情况下,基于分类词表对待分类数据进行分类具有较好的分类效果,因此,可以直接将最大频次对应的类别标签确定为待分类数据的类别标签。相应地,当所述差值小于或等于所述预设值的情况下,则说明在此情况下,基于分类词表对待分类数据进行分类的分类效果较差,因此,进一步基于预设规则对待分类数据进行分类,以提高对文本分类的准确性。
可选地,所述将所述第一待分类数据与K个分类词表进行匹配,得到与所述K个分类词表一一对应的K个频次之后,所述方法还包括:
在所述K个频次中的最大频次与次大频次之间的差值大于预设值的情况下,将所述最大频次对应的类别标签确定为所述第一待分类数据的类别标签。
具体地,当最大频次与次大频次之间的差值大于预设值时,可以确定最大频次与次大频次相差较大。由于最大频次与次大频次支架的差值大于所述预设值,因此,所述最大频次与所述K个频次中其他频次之间的差值均大于所述预设值,即所述最大频次与所述K个频次中其他频次之间的差值均较大。在此情况下,由于仅一个类别标签对应的频次相对较大,而其他类别标签对应的频次均较小,因此,说明在此情况下,基于分类词表对待分类数据进行分类具有较好的分类效果,因此,可以直接将最大频次对应的类别标签确定为待分类数据的类别标签。
可选地,所述基于预设规则在所述K个分类词表对应的K个类别标签中确定所述第一待分类数据的类别标签,包括:
计算所述第一待分类数据与每个所述分类词表之间的相似度;
将所述K个分类词表中,与所述第一待分类数据的相似度最高的分类词表所对应的类别标签确定为所述第一待分类数据的类别标签。
具体地,可以通过计算第一待分类数据与分类词表中的关键词的相似度,以确定所述第一待分类数据与分类词表之间的相似度。其中,第一待分类数据与关键词之间的相似度可以采用:欧几里得距离、曼哈顿距离、明可夫斯基距离、余弦相似度、Jaccard等方法进行确定。
在本申请一个实施例中,所述计算所述第一待分类数据与每个所述分类词表之间的相似度,包括:
确定所述第一待分类数据的第一文本向量,以及,确定与所述K个分类词表一一对应的K个第二文本向量,其中,所述第二文本向量为所述第二文本向量对应的分类词表中所有关键词的文本向量的平均值;
基于所述第一文本向量与每个所述第二文本向量之间的向量距离,确定所述第一待分类数据与每个所述分类词表之间的相似度,其中,所述向量距离越小,所述相似度越高。
具体地,可以预先计算得到所述K个第二文本向量,其中,可以先基于现有的方法将每个分类词表中的所有关键词转换为文本向量形式,例如,采用词向量模型将所述关键词转换为文本向量的形式,所述词向量模型可以采用word2vec、glove、ELMo、BERT等。然后,可以计算每个分类词表中所有关键词对应的文本向量的平均文本向量,并将平均文本向量确定为对应的第二文本向量,从而得到每个分类词表对应的第二文本向量。
相应地,可以采用上述词向量模型将所述第一待分类数据转换为所述第一文本向量。这样,可以分别计算第一文本向量与各第二文本向量之间的距离,从而确定第一待分类数据与各个类别标签之间的相似度,并可将K个类别标签中,与第一待分类数据相似度最高的类别标签确定为所述第一待分类数据的类别标签。从而提高对文本进行分类的准确性。
可选地,所述分类词表的构建方法包括:
获取待分类数据集,所述待分类数据集包括至少两条第二待分类数据;
对所述待分类数据集中的第二待分类数据进行聚类处理,得到与每个所述类别标签对应的第二待分类数据;
基于每个类别标签对应的第二待分类数据,确定每个类别标签对应的分类词表。
其中,可以在所述将所述第一待分类数据与K个分类词表进行匹配,得到与所述K个分类词表一一对应的K个频次之前,执行所述分类词表的构建方法的步骤。
具体地,可以预先获取大量某一特定应用场景中第二待分类数据,从而得到所述待分类数据集,并通过对待分类数据集中的每条第二待分类数据进行聚类处理,所述聚类处理即可以通过为每个第二待分类数据设置类别标签,并将具有同一类别标签的第二待分类数据确定为同一类数据,从而得到与每个类别标签对应的第二待处理数据。这样,可以基于现有的分词处理手段对每个类别标签对应的第二待处理数据进行分词处理操作,以得到每个类别标签对应的分类词表。其中,所述对待分类数据集中的第二待分类数据进行聚类具体可以采用Kmeans等聚类方法进行聚类。
可以理解的是,每一应用场景仅需构建一次分类词表,后续在需要对相同应用场景的待识别数据进行文本分类时,可以直接使用该场景对应的分类词表。
上述获取待分类数据集的过程中,可以进行预处理,具体可以对第二待分类数据进行数据清洗、去除短文本、平衡样本等操作。例如,可以去除“好的”等短文本,以及,可以使待分类数据集中,所包括的各个类别标签对应的第二待分类数据的数量相对均衡。
可选地,所述基于每个类别标签对应的第二待分类数据,确定每个类别标签对应的分类词表,包括:
在目标标签对应的第二待分类数据中,确定与所述目标标签相似度较高的前n条第二待分类数据,所述目标标签为所述K个类别标签中的任意类别标签,所述n为大于零的整数;
对所述n条第二待分类数据进行分词处理,得到与所述目标标签对应的关键词集合,所述关键词集合包括所述分词处理后得到的关键词;
基于所述关键词集合,生成所述目标标签对应的分类词表。
由于在构建所述分类词表时,通常需要获取大量第二待分类数据,这样,将导致每个类别标签均有大量与之对应的第二待分类数据。若需要对每个第二待分类数据均进行分词,将导致每个分类词表中均存在大量关键词,且不同分类词表中可能存在大量相同的关键词,这样,可能降低后续基于分类词表对待分类数据进行分类时的准确性。
又由于同一类别标签对应的全部第二待分类数据中,不同的第二待分类数据与该类别标签之间的接近程度不同,因此,可以获取每个类别标签对应的全部第二待分类数据中,与对应类别标签最接近的前n个第二待分类数据。然后,基于每个类别标签对应的n个第二待分类数据生成对应的分类词表。
具体地,可以分别对每个类别标签对应的n个第二待分类数据进行分词处理,得到每个类别标签对应的分词集合,然后,通过加载停用词表去除每个分词集合中的停用词,并将去除停用词之后得到的词集合作为类别标签对应的关键词集合。
可选地,所述基于所述关键词集合,生成所述目标标签对应的分类词表,包括:
计算所述关键词集合中,每个关键词的词频率文本概率(term frequency–inverse document frequency,TF-IDF)值;
基于所述关键词集合获取所述目标标签对应的分类词表,所述目标标签对应的分类词表包括:所述关键词集合中,所述TF-IDF值大于预设阈值的关键词;以及,所述关键词集合中,所述TF-IDF值小于或等于所述预设阈值,且满足预设条件的关键词。
其中,上述TF-IDF是一种用于信息检索与数据挖掘的常用加权技术。所述TF-IDF值可以基于如下公式进行计算:
TF-IDF=TF×IDF
其中,TF(Term Frequency)表示词频,即某个词在特定文本中出现的次数,所述IDF(Inverse Document Frequency)表示逆文本频率指数。在计算目标标签对应的分类词表时,第一关键词的TF的取值为:所述目标标签对应的n条第二待分类数据中,所述第一关键词出现的次数,所述第一关键词为所述目标标签对应的关键词集合中的任意关键词。所述IDF可以采用如下公式进行计算:
其中,所述m为所述目标标签对应的n条第二待分类数据中,包括所述第一关键词的第二待分类数据的条数。
在计算完目标标签的关键词集合中的全部关键词的TF-IDF值之后,所述关键词集合中的关键词可以采用如下形式进行表示:
Dict_1={关键词1:TF-IDF值;关键词2:TF-IDF值;…}。
其中,所述Dict_1表示第1类别标签,相应地,上述k个类别标签可以依次表示为:Dict_1,Dict_2,…Dict_K。
由于TF-IDF是一种统计方法,对应的TF-IDF值可以用于评估对应关键词在目标标签对应的n条第二待分类数据中的重要程度。TF-IDF值越高,对应的关键词的重要程度也相应越高。因此,将所述关键词集合中的TF-IDF值较大的前预设个或者TF-IDF值较大前预设比例的关键词直接确定为目标标签对应的分类词表中的关键词。以确保重要程度较高的关键词可以全部纳入目标标签对应的分类词表中。
此外,可以采用如下手段,判断所述关键词集合中,所述TF-IDF值小于或等于所述预设阈值,是否满足预设条件:
获取第一关键词,所述第一关键词为所述关键词集合中,所述TF-IDF值小于或等于所述预设阈值的关键词;
在所述第一关键词为目标关键词集合之外的关键词情况下,确定所述第一关键词满足所述预设条件,并将所述第一关键词确定为所述目标标签对应的分类词表中的关键词;
其中,所述目标关键词集合为:所述K个类别标签中,除所述目标类别标签之外的K-1个类别标签对应的K-1个关键词集合的并集。
相应地,在所述第一关键词为目标关键词集合之内的关键词情况下,确定所述第一关键词不满足所述预设条件。
该实施方式中,当所述第一关键词位于所述目标关键词集合之外时,则说明所述第一关键词仅与所述目标标签对应,而与所述目标标签之外的其他K-1个标签均不对应,这样,后续在基于分类词表进行文本分类时,可以将该第一关键词作为判断待分类数据是否与目标标签对应的分类条件之一,以进一步提高基于分类词表分类时的区分度。
请参见图2-4,本申请一个实施例中提供的一种数据分类方法,所述数据分类方法包括如图2所示的构建K个关键词集合的过程,如图3所示的构建K个分类词表的过程,以及如图4所示的分类过程。
具体地,请参见图2,所述构建K个关键词集合的过程主要包括以下步骤:获取待分类数据集,所述待分类数据集包括至少两条第二待分类数据;对所述待分类数据集中的第二待分类数据进行聚类处理,得到与每个所述类别标签对应的第二待分类数据;选取每个类别标签对应的第二待分类数据中,与对应类别标签相似度较高的前n条第二待分类数据;依次对K个类别标签对应的n条第二待分类数据进行分词、出去停用词和计算关键词的TF-IDF值,输出与K个类别标签一一对应的K个关键词集合。其具体实现过程与上述实施例相同,为避免重复,在此不再予以赘述。
请参见图3,为构建K个分类词表中的第1分类词表的过程的流程图,所述K个关键词集合包括第1关键词集合、第2关键词集合…第K关键词集合,所述第1关键词集合与目标标签对应,所述第1分类词表为所述目标标签对应的分类词表,所述第1分类词表的构建过程主要包括以下步骤:
将第1关键词集合中的关键词按照关键词的TF-IDF值进行排序,将第1关键词集合中TF-IDF值较高的前s%的关键词加入第1分类词表中。同时,计算第2关键词集合、第3关键词集合…和第K关键词集合的并集,得到目标关键词集合。将第1关键词集合中TF-IDF值位于前s%之外的关键词与目标关键词集合进行对比,并将第1关键词集合中,TF-IDF值位于前s%之外且位于所述目标关键词集合之外的关键词加入第1分类词表中,从而得到所述第1分类词表。按照该方法分布对K个关键词集合进行处理,即可得到K个分类词表。
请参见图4,为对第一待分类数据进行分类的流程图,主要包括如下步骤:
将第一待分类数据分别与K个分类词表进行匹配,得到K个频次,计算最大频次与次大频次之间的差值,在所述差值大于预设值的情况下,将最大频次对应的类别标签确定为第一待分类数据的类别标签。在所述差值小于等于预设值的情况下,基于词向量模型加载K个第二文本向量,基于TF-IDF模型将第一待分类数据转换为第一文本向量,分别计算第一文本向量与K个第二文本向量之间的向量距离,得到K个向量距离S1、S2、…、SK,并确定K个向量距离中的最小值,并将与第一文本向量的向量距离最小的第二文本向量对应的类别标签确定为第一待分类数据的类别标签。
该实施方式的具体实现过程与上述实施例类似,为避免重复,在此不再予以赘述。
该实施方式中,在将第一待分类数据分别与K个分类词表进行匹配,得到与K个分类词表一一对应的K个频次之后,进一步通过确定最大频次与次大频次之间的差值来确定待分类数据的类别。当最大频次与次大频次之间的差值大于预设值时,说明在此情况下,基于分类词表对第一待分类数据进行分类具有较好的分类效果,因此,可以直接将最大频次对应的类别标签确定为待分类数据的类别标签。相应地,当所述差值小于或等于所述预设值的情况下,则说明在此情况下,基于分类词表对待分类数据进行分类的分类效果较差,因此,进一步将文本转换为向量,并通过计算向量距离,以确定第一待分类数据与各分类词表之间的相似度,并将与第一待分类数据相似度最高的分类词表对应的类别标签,确定为所述第一待分类数据的类别标签,从而实现对第一待分类数据的分类。
请参见图5为本申请实施例提供的一种数据分类装置500的结构示意图,所述装置包括:
获取模块501,用于获取第一待分类数据;
匹配模块502,用于将所述第一待分类数据与K个分类词表进行匹配,得到与所述K个分类词表一一对应的K个频次,其中,一个所述分类词表对应一个类别标签,所述分类词表包括至少一个关键词,所述K为大于1的整数;
第一确定模块503,用于在所述K个频次中的最大频次与次大频次之间的差值小于或等于预设值的情况下,基于预设规则在所述K个分类词表对应的K个类别标签中确定所述第一待分类数据的类别标签。
可选地,所述第一确定模块503,还用于在所述K个频次中的最大频次与次大频次之间的差值大于预设值的情况下,将所述最大频次对应的类别标签确定为所述第一待分类数据的类别标签。
可选地,所述第一确定模块503,包括:
计算子模块,用于计算所述第一待分类数据与每个所述分类词表之间的相似度;
第一确定子模块,用于将所述K个分类词表中,与所述第一待分类数据的相似度最高的分类词表所对应的类别标签确定为所述第一待分类数据的类别标签。
可选地,所述计算子模块,包括:
第一确定单元,用于确定所述第一待分类数据的第一文本向量,以及,确定与所述K个分类词表一一对应的K个第二文本向量,其中,所述第二文本向量为所述第二文本向量对应的分类词表中所有关键词的文本向量的平均值;
第二确定单元,用于基于所述第一文本向量与每个所述第二文本向量之间的向量距离,确定所述第一待分类数据与每个所述分类词表之间的相似度。
可选地,所述装置还包括:
获取模块501,用于获取待分类数据集,所述待分类数据集包括至少两条第二待分类数据;
聚类模块,用于对所述待分类数据集中的第二待分类数据进行聚类处理,得到与每个所述类别标签对应的第二待分类数据;
第二确定模块,用于基于每个类别标签对应的第二待分类数据,确定每个类别标签对应的分类词表。
所述第二确定模块,包括:
第二确定子模块,用于在目标标签对应的第二待分类数据中,确定与所述目标标签相似度较高的前n条第二待分类数据,所述目标标签为所述K个类别标签中的任意类别标签,所述n为大于0的整数;
分词子模块,用于对所述n条第二待分类数据进行分词处理,得到与所述目标标签对应的关键词集合,所述关键词集合包括所述分词处理后得到的关键词;
生成子模块,用于基于所述关键词集合,生成所述目标标签对应的分类词表。
可选地,所述生成子模块,包括:
计算单元,用于计算所述关键词集合中,每个关键词的词频率文本概率TF-IDF值;
获取单元,用于基于所述关键词集合获取所述目标标签对应的分类词表,所述目标标签对应的分类词表包括:所述关键词集合中,所述TF-IDF值大于预设阈值的关键词;以及,所述关键词集合中,所述TF-IDF值小于或等于所述预设阈值,且满足预设条件的关键词。
可选地,所述获取单元,包括:
获取子单元,用于获取第一关键词,所述第一关键词为所述关键词集合中,所述TF-IDF值小于或等于所述预设阈值的关键词;
确定子单元,用于在所述第一关键词为目标关键词集合之外的关键词情况下,将所述第一关键词确定为所述目标标签对应的分类词表中的关键词;
其中,所述目标关键词集合为:所述K个类别标签中,除所述目标类别标签之外的K-1个类别标签对应的K-1个关键词集合的并集。
本申请实施例提供的数据分类装置500能够实现上述数据分类方法实施例中的各个过程,为避免重复,这里不再赘述。
参见图6,图6是本申请另一实施提供的数据分类装置600的结构图,如图6所示,数据分类装置600包括:处理器601、存储器602及存储在所述存储器602上并可在所述处理器上运行的计算机程序,数据分类装置600中的各个组件通过总线接口603耦合在一起,所述计算机程序被所述处理器601执行时实现如下步骤:
获取第一待分类数据;
将所述第一待分类数据与K个分类词表进行匹配,得到与所述K个分类词表一一对应的K个频次,其中,一个所述分类词表对应一个类别标签,所述分类词表包括至少一个关键词,所述K为大于1的整数;
在所述K个频次中的最大频次与次大频次之间的差值小于或等于预设值的情况下,基于预设规则在所述K个分类词表对应的K个类别标签中确定所述第一待分类数据的类别标签。
可选地,所述基于预设规则在所述K个分类词表对应的K个类别标签中确定所述第一待分类数据的类别标签,包括:
计算所述第一待分类数据与每个所述分类词表之间的相似度;
将所述K个分类词表中,与所述第一待分类数据的相似度最高的分类词表所对应的类别标签确定为所述第一待分类数据的类别标签。
可选地,所述计算所述第一待分类数据与每个所述分类词表之间的相似度,包括:
确定所述第一待分类数据的第一文本向量,以及,确定与所述K个分类词表一一对应的K个第二文本向量,其中,所述第二文本向量为所述第二文本向量对应的分类词表中所有关键词的文本向量的平均值;
基于所述第一文本向量与每个所述第二文本向量之间的向量距离,确定所述第一待分类数据与每个所述分类词表之间的相似度。
可选地,所述将所述第一待分类数据与K个分类词表进行匹配,得到与所述K个分类词表一一对应的K个频次之前,所述方法还包括:
获取待分类数据集,所述待分类数据集包括至少两条第二待分类数据;
对所述待分类数据集中的第二待分类数据进行聚类处理,得到与每个所述类别标签对应的第二待分类数据;
基于每个类别标签对应的第二待分类数据,确定每个类别标签对应的分类词表。
可选地,所述基于每个类别标签对应的第二待分类数据,确定每个类别标签对应的分类词表,包括:
在目标标签对应的第二待分类数据中,确定与所述目标标签相似度较高的前n条第二待分类数据,所述目标标签为所述K个类别标签中的任意类别标签,所述n为大于0的整数;
对所述n条第二待分类数据进行分词处理,得到与所述目标标签对应的关键词集合,所述关键词集合包括所述分词处理后得到的关键词;
基于所述关键词集合,生成所述目标标签对应的分类词表。
可选地,所述基于所述关键词集合,生成所述目标标签对应的分类词表,包括:
计算所述关键词集合中,每个关键词的词频率文本概率TF-IDF值;
基于所述关键词集合获取所述目标标签对应的分类词表,所述目标标签对应的分类词表包括:所述关键词集合中,所述TF-IDF值大于预设阈值的关键词;以及,所述关键词集合中,所述TF-IDF值小于或等于所述预设阈值,且满足预设条件的关键词。
可选地,所述基于所述关键词集合获取所述目标标签对应的分类词表,包括:
获取第一关键词,所述第一关键词为所述关键词集合中,所述TF-IDF值小于或等于所述预设阈值的关键词;
在所述第一关键词为目标关键词集合之外的关键词情况下,将所述第一关键词确定为所述目标标签对应的分类词表中的关键词;
其中,所述目标关键词集合为:所述K个类别标签中,除所述目标类别标签之外的K-1个类别标签对应的K-1个关键词集合的并集。
可选地,所述方法还包括:
在所述K个频次中的最大频次与次大频次之间的差值大于预设值的情况下,将所述最大频次对应的类别标签确定为所述第一待分类数据的类别标签。
本申请实施例还提供一种电子设备,包括处理器,存储器,存储在存储器上并可在所述处理器上运行的计算机程序,该计算机程序被处理器执行时实现上述方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
本申请实施例还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。其中,所述的计算机可读存储介质,如只读存储器(Read-Only Memory,简称ROM)、随机存取存储器(Random Access Memory,简称RAM)、磁碟或者光盘等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台电子设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本申请各个实施例所述的方法。
上面结合附图对本申请的实施例进行了描述,但是本申请并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本申请的启示下,在不脱离本申请宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本申请的保护之内。
Claims (10)
1.一种数据分类方法,其特征在于,包括:
获取特定应用场景的第一待分类数据;
将所述第一待分类数据与K个分类词表进行匹配,得到与所述K个分类词表对应的K个频次,其中,一个所述分类词表对应一个类别标签,所述分类词表包括至少一个关键词,所述K为大于1的整数;所述K个分类词表中每个所述分类词表对应的类别标签均为所述特定应用场景下预先确定的分类标签;目标标签对应的分类词表通过如下方式获取:
获取待分类数据集,所述待分类数据集包括至少两条第二待分类数据;对所述第二待分类数据进行分词处理,得到与所述目标标签对应的关键词集合;计算所述关键词集合中,每个关键词的词频率文本概率值;获取第一关键词,所述第一关键词为所述目标标签对应的关键词集合中,所述词频率文本概率值小于或等于预设阈值的关键词;在所述第一关键词为目标关键词集合之外的关键词情况下,将所述第一关键词确定为所述目标标签对应的分类词表中的关键词;所述目标关键词集合为:所述K个类别标签中,除目标标签之外的K-1个类别标签对应的K-1个关键词集合的并集;
在所述K个频次中的最大频次与次大频次之间的差值小于或等于预设值的情况下,基于预设规则在所述K个分类词表对应的K个类别标签中确定所述第一待分类数据的类别标签;
所述基于预设规则在所述K个分类词表对应的K个类别标签中确定所述第一待分类数据的类别标签,包括:
计算所述第一待分类数据与每个所述分类词表之间的相似度;
将所述K个分类词表中,与所述第一待分类数据的相似度最高的分类词表所对应的类别标签,确定为所述第一待分类数据的类别标签。
2.根据权利要求1所述的方法,其特征在于,所述计算所述第一待分类数据与每个所述分类词表之间的相似度,包括:
确定所述第一待分类数据的第一文本向量,以及,确定与所述K个分类词表对应的K个第二文本向量,其中,所述第二文本向量为所述第二文本向量对应的分类词表中所有关键词的文本向量的平均值;
基于所述第一文本向量与每个所述第二文本向量之间的向量距离,确定所述第一待分类数据与每个所述分类词表之间的相似度。
3.根据权利要求1所述的方法,其特征在于,所述分类词表的构建方法包括:
获取待分类数据集,所述待分类数据集包括至少两条第二待分类数据;
对所述待分类数据集中的第二待分类数据进行聚类处理,得到与每个所述类别标签对应的第二待分类数据;
基于每个类别标签对应的第二待分类数据,确定每个类别标签对应的分类词表。
4.根据权利要求3所述的方法,其特征在于,所述基于每个类别标签对应的第二待分类数据,确定每个类别标签对应的分类词表,包括:
在目标标签对应的第二待分类数据中,确定与所述目标标签相似度较高的前n条第二待分类数据,所述目标标签为所述K个类别标签中的任意类别标签,所述n为大于零的整数;
对所述n条第二待分类数据进行分词处理,得到与所述目标标签对应的关键词集合;
基于所述关键词集合,生成所述目标标签对应的分类词表。
5.根据权利要求4所述的方法,其特征在于,所述基于所述关键词集合,生成所述目标标签对应的分类词表,包括:
计算所述关键词集合中,每个关键词的词频率文本概率值;
基于所述关键词集合获取所述目标标签对应的分类词表,所述目标标签对应的分类词表包括:所述关键词集合中,所述词频率文本概率值大于预设阈值的关键词;以及,所述关键词集合中,所述词频率文本概率值小于或等于所述预设阈值,且满足预设条件的关键词。
6.根据权利要求5所述的方法,其特征在于,所述基于所述关键词集合获取所述目标标签对应的分类词表,包括:
获取所述第一关键词,所述第一关键词为所述关键词集合中,所述词频率文本概率值小于或等于所述预设阈值的关键词;
在所述第一关键词为所述目标关键词集合之外的关键词情况下,将所述第一关键词确定为所述目标标签对应的分类词表中的关键词。
7.根据权利要求1-6中任一项所述的方法,其特征在于,所述方法还包括:
在所述K个频次中的最大频次与次大频次之间的差值大于所述预设值的情况下,将所述最大频次对应的类别标签确定为所述第一待分类数据的类别标签。
8.一种数据分类装置,其特征在于,包括:
获取模块,用于获取特定应用场景的第一待分类数据;
匹配模块,用于将所述第一待分类数据与K个分类词表进行匹配,得到与所述K个分类词表一一对应的K个频次,其中,一个所述分类词表对应一个类别标签,所述分类词表包括至少一个关键词,所述K为大于1的整数;所述K个分类词表中每个所述分类词表对应的类别标签均为所述特定应用场景下预先确定的分类标签;目标标签对应的分类词表通过如下方式获取:
获取待分类数据集,所述待分类数据集包括至少两条第二待分类数据;对所述第二待分类数据进行分词处理,得到与所述目标标签对应的关键词集合;计算所述关键词集合中,每个关键词的词频率文本概率值;获取第一关键词,所述第一关键词为所述目标标签对应的关键词集合中,所述词频率文本概率值小于或等于预设阈值的关键词;在所述第一关键词为目标关键词集合之外的关键词情况下,将所述第一关键词确定为所述目标标签对应的分类词表中的关键词;所述目标关键词集合为:所述K个类别标签中,除目标标签之外的K-1个类别标签对应的K-1个关键词集合的并集;
第一确定模块,用于在所述K个频次中的最大频次与次大频次之间的差值小于或等于预设值的情况下,基于预设规则在所述K个分类词表对应的K个类别标签中确定所述第一待分类数据的类别标签;
所述第一确定模块,包括:
计算子模块,用于计算所述第一待分类数据与每个所述分类词表之间的相似度;
第一确定子模块,用于将所述K个分类词表中,与所述第一待分类数据的相似度最高的分类词表所对应的类别标签确定为所述第一待分类数据的类别标签。
9.一种电子设备,其特征在于,包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1至7中任一项所述的方法步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的方法步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111231704.6A CN113934848B (zh) | 2021-10-22 | 2021-10-22 | 一种数据分类方法、装置和电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111231704.6A CN113934848B (zh) | 2021-10-22 | 2021-10-22 | 一种数据分类方法、装置和电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113934848A CN113934848A (zh) | 2022-01-14 |
CN113934848B true CN113934848B (zh) | 2023-04-07 |
Family
ID=79283724
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111231704.6A Active CN113934848B (zh) | 2021-10-22 | 2021-10-22 | 一种数据分类方法、装置和电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113934848B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113051450B (zh) * | 2021-03-12 | 2023-04-07 | 云汉芯城(上海)互联网科技股份有限公司 | 一种器件型号自动归类方法、装置、存储介质和设备 |
CN115310564B (zh) * | 2022-10-11 | 2023-01-13 | 北京睿企信息科技有限公司 | 一种分类标签更新方法及系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106339459A (zh) * | 2016-08-26 | 2017-01-18 | 中国科学院信息工程研究所 | 基于关键词匹配进行中文网页预分类的方法 |
CN111651596A (zh) * | 2020-05-27 | 2020-09-11 | 软通动力信息技术有限公司 | 一种文本聚类的方法、装置、服务器及存储介质 |
CN112308672A (zh) * | 2020-11-03 | 2021-02-02 | 上海智能制造功能平台有限公司 | 一种基于知识图谱的智能制造行业供需匹配方法 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5371807A (en) * | 1992-03-20 | 1994-12-06 | Digital Equipment Corporation | Method and apparatus for text classification |
CN101561805B (zh) * | 2008-04-18 | 2014-06-25 | 日电(中国)有限公司 | 文档分类器生成方法和系统 |
CN107045524B (zh) * | 2016-12-30 | 2019-12-27 | 中央民族大学 | 一种网络文本舆情分类的方法及系统 |
CN108334533B (zh) * | 2017-10-20 | 2021-12-24 | 腾讯科技(深圳)有限公司 | 关键词提取方法和装置、存储介质及电子装置 |
CN107844559A (zh) * | 2017-10-31 | 2018-03-27 | 国信优易数据有限公司 | 一种文件分类方法、装置及电子设备 |
CN112380350B (zh) * | 2021-01-14 | 2021-05-07 | 北京育学园健康管理中心有限公司 | 一种文本分类方法和装置 |
CN112989761B (zh) * | 2021-05-20 | 2021-08-24 | 腾讯科技(深圳)有限公司 | 文本分类方法及装置 |
CN113420138B (zh) * | 2021-07-15 | 2024-02-13 | 上海明略人工智能(集团)有限公司 | 用于文本分类的方法及装置、电子设备、存储介质 |
-
2021
- 2021-10-22 CN CN202111231704.6A patent/CN113934848B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106339459A (zh) * | 2016-08-26 | 2017-01-18 | 中国科学院信息工程研究所 | 基于关键词匹配进行中文网页预分类的方法 |
CN111651596A (zh) * | 2020-05-27 | 2020-09-11 | 软通动力信息技术有限公司 | 一种文本聚类的方法、装置、服务器及存储介质 |
CN112308672A (zh) * | 2020-11-03 | 2021-02-02 | 上海智能制造功能平台有限公司 | 一种基于知识图谱的智能制造行业供需匹配方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113934848A (zh) | 2022-01-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110287328B (zh) | 一种文本分类方法、装置、设备及计算机可读存储介质 | |
CN109872162B (zh) | 一种处理用户投诉信息的风控分类识别方法及系统 | |
CN105022754B (zh) | 基于社交网络的对象分类方法及装置 | |
JP6335898B2 (ja) | 製品認識に基づく情報分類 | |
CN112035599B (zh) | 基于垂直搜索的查询方法、装置、计算机设备及存储介质 | |
CN104834651B (zh) | 一种提供高频问题回答的方法和装置 | |
CN113934848B (zh) | 一种数据分类方法、装置和电子设备 | |
CN113254643B (zh) | 文本分类方法、装置、电子设备和 | |
US10565253B2 (en) | Model generation method, word weighting method, device, apparatus, and computer storage medium | |
CN110046648B (zh) | 基于至少一个业务分类模型进行业务分类的方法及装置 | |
CN113326420B (zh) | 问题检索方法、装置、电子设备和介质 | |
CN114995903B (zh) | 一种基于预训练语言模型的类别标签识别方法及装置 | |
CN115392235A (zh) | 字符匹配方法、装置、电子设备及可读存储介质 | |
CN111027316A (zh) | 文本处理方法、装置、电子设备及计算机可读存储介质 | |
WO2022242923A1 (en) | Artificial intelligence based cognitive test script generation | |
CN112925912A (zh) | 文本处理方法、同义文本召回方法及装置 | |
CN109446322B (zh) | 文本分析方法、装置、电子设备及可读存储介质 | |
CN111382265B (zh) | 搜索方法、装置、设备和介质 | |
CN112597208A (zh) | 企业名称检索方法、企业名称检索装置及终端设备 | |
CN115618968B (zh) | 新意图发现方法、装置、电子设备及存储介质 | |
CN115860012B (zh) | 用户意图识别方法、装置、电子设备及介质 | |
CN117709917B (zh) | 用于招聘平台的数据智能处理方法及系统 | |
CN114139541B (zh) | 命名实体识别方法、装置、设备及介质 | |
CN114238634B (zh) | 正则表达式的生成方法及应用、装置、设备和存储介质 | |
CN110750639A (zh) | 一种基于向量空间模型的文本分类及r语言实现 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |