CN115409130A - 一种更新分类标签的优化方法及系统 - Google Patents

一种更新分类标签的优化方法及系统 Download PDF

Info

Publication number
CN115409130A
CN115409130A CN202211241084.9A CN202211241084A CN115409130A CN 115409130 A CN115409130 A CN 115409130A CN 202211241084 A CN202211241084 A CN 202211241084A CN 115409130 A CN115409130 A CN 115409130A
Authority
CN
China
Prior art keywords
similarity
classification
word
updating
seg
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211241084.9A
Other languages
English (en)
Other versions
CN115409130B (zh
Inventor
石江枫
王全修
于伟
靳雯
赵洲洋
王明超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Rizhao Ruian Information Technology Co ltd
Beijing Rich Information Technology Co ltd
Original Assignee
Rizhao Ruian Information Technology Co ltd
Beijing Rich Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Rizhao Ruian Information Technology Co ltd, Beijing Rich Information Technology Co ltd filed Critical Rizhao Ruian Information Technology Co ltd
Priority to CN202211241084.9A priority Critical patent/CN115409130B/zh
Publication of CN115409130A publication Critical patent/CN115409130A/zh
Application granted granted Critical
Publication of CN115409130B publication Critical patent/CN115409130B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本发明涉及数据处理技术领域,具体涉及一种更新分类标签的优化方法及系统,该方法通过获取L个待匹配的分类标签,第i个待匹配的分类标签Di有J个关键词;获取第m个待更新的分类标签中的第q个文本条目的R个词向量;计算词向量与所有关键词的综合相似度,其中,Vm q与Di的综合相似度为R个词向量与J个关键词之间的向量相似度的加权求和,其中权重分别与词向量在相应子标签中出现的次数和子标签总数量正相关、与包括该词向量的子标签数量负相关;根据综合相似度更新第q个文本条目的类别标签,解决了现有技术中无法消除人为主观因素对分类的影响的技术问题,同时调整词向量对于相似度的权重,使最终得到更新结果更加准确。

Description

一种更新分类标签的优化方法及系统
技术领域
本发明涉及数据处理技术领域,具体涉及一种更新分类标签的优化方法及系统。
背景技术
在对某一个文本条目进行分类时,工作人员会根据文本条目的实际内容将相应的文本条目进行分类,一般情况下文本条目的分类是将有明确类别的赋予相应类别,没有明确类别的归为其他类别。但是由于工作人员的主观因素的影响以及有些文本条目中涉及多个类别的关键词时,工作人员可能会将本应属于A类别的文本条目标注为其他类别,或者将A类别的文本条目标注为B类别,因此工作人员分类中会存在较多分类错误的类别,当前常规的做法是人工更正文本条目分类的错误问题,但是人工更正的方式不仅耗费人力,而且依然无法消除人为主观因素对分类的影响。
发明内容
为了解决上述技术问题,本发明的目的在于提供一种更新分类标签的优化方法及系统,所采用的技术方案具体如下:
第一方面,本发明一个实施例提供了一种更新分类标签的优化方法,其特征在于,该
优化方法包括:
S100,获取用户指定的L个待匹配的分类标签{D1,D2,…,DL},其中,第i个待匹配的分类标签Di具有J个关键词
Figure BDA0003884273950000011
其中i的取值范围为1到L;
S200,获取用户指定的第m个待更新的分类标签中的第q个文本条目
Figure BDA0003884273950000012
获取
Figure BDA0003884273950000013
的R个词向量集合
Figure BDA0003884273950000014
其中R为正整数;
S300,计算
Figure BDA0003884273950000015
分别与每个待匹配的分类标签中所有关键词的综合相似度
Figure BDA0003884273950000016
Figure BDA0003884273950000017
其中,
Figure BDA0003884273950000018
与第i个待匹配的分类标签Di的综合相似度
Figure BDA0003884273950000019
Figure BDA00038842739500000110
Figure BDA00038842739500000111
中R个词向量与Di中J个关键词之间的向量相似度的加权求和;第r个词向量
Figure BDA00038842739500000112
的权重
Figure BDA00038842739500000113
的获取步骤包括:
S351,获取语料库中所有A个父标签seg={seg1,seg2,…,segA},第a个父标签包括Sum(a)个子标签sega={sega,1,sega,2,…,sega,Sum(a)},a的取值范围为1到A,且子标签的总数量SA满足
Figure BDA00038842739500000114
其中,Sum(a)的函数值为整数;
S352,获取
Figure BDA00038842739500000115
所在的第m个待更新的分类标签sega,m,根据对sega,m中所有的文本条目进行分词得到的MX个词,统计
Figure BDA00038842739500000116
对应的词在sega,m中出现的次数得到
Figure BDA00038842739500000117
S353,获取在SA个子标签中包括
Figure BDA00038842739500000118
对应的词的子标签的数量
Figure BDA00038842739500000119
S354,根据
Figure BDA0003884273950000021
和SA计算
Figure BDA0003884273950000022
其中
Figure BDA0003884273950000023
分别与
Figure BDA0003884273950000024
和SA正相关、与
Figure BDA0003884273950000025
负相关;
S400,获取
Figure BDA0003884273950000026
中的最大值,在最大值大于相似度阈值时,将第m个类别中第q个文本条目的类别标签更新为最大值对应的类别标签。
第二方面,本发明另一个实施例提供了一种更新分类标签的优化系统,所述系统包括处理器和非瞬时性计算机可读存储介质,所述非瞬时性计算机可读存储介质中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由处理器加载并执行以实现上述更新方法。
本发明具有如下有益效果:
通过提取第m个待更新的分类标签中第q个文本条目
Figure BDA0003884273950000027
中的词向量,并通过提取待匹配的分类标签对应的关键词,计算
Figure BDA0003884273950000028
中词向量与关键词之间的相似度,为了计算
Figure BDA0003884273950000029
与第i个待匹配的分类标签之间的相似度,需要计算第i个待匹配的分类标签中每个关键词分别与
Figure BDA00038842739500000210
中每个词向量之间的综合相似度,在综合相似度大于相似度阈值时,将第q个文本条目对应的分类标签更新为最大值对应的分类标签,解决了现有技术中无法消除人为主观因素对分类的影响的技术问题。同时在聚类时将重复的词去除,不仅能够使聚类的过程中不受重复词的影响,提高聚类的准确性,同时统计重复词出现的频率以及包括该重复词的分类标签的数量,计算权重
Figure BDA00038842739500000211
利用
Figure BDA00038842739500000212
调整词向量对于相似度的权重,使最终得到匹配结果更加准确。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
图1为本发明一个实施例所提供的一种更新分类标签的优化方法流程图。
具体实施方式
为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的一种更新分类标签的优化方法及系统,其具体实施方式、结构、特征及其功效,详细说明如下。在下述说明中,不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外,一个或多个实施例中的特定特征、结构、或特点可由任何合适形式组合。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。
下面结合附图具体的说明本发明所提供的一种分类标签的更新方法,该方法包括以下步骤:
S100,获取用户指定的L个待匹配的分类标签{D1,D2,…,DL},其中,第i个待匹配的分类标签Di具有J个关键词
Figure BDA0003884273950000031
其中i的取值范围为1到L。
需要说明的是,在语料库中用户输入多个文本条目,每个文本条目具有用户指定的分类标签。其中,每个文本条目是指用户记录的一个事件的描述文字。多个文本条目为多个事件的文本描述。例如用户记录了一条报警记录,则这一条报警记录为一个文本条目。其中,分类标签为用户指定的标签,例如按照预设的分类规则将一条文本条目的标签标记为“盗窃”标签或者“抢劫”标签等。每个文本条目对应一个分类标签。
其中,待匹配的分类标签为用户指定的标签,用于作为标准标签来更正其他文本条目的分类标签。需要说明的是,待匹配的分类标签和待更新的分别标签均为用户预先标注的分类标签,例如,分类标签可以是“盗窃手机”、“盗窃机动车”、“抢劫”、“酒驾”、“故意伤害”等,用户将其中的“抢劫”和“故意伤害”指定为待匹配的分类标签,将其中的“盗窃手机”指定为待更新的分类标签。
可选的,关键词的获取方法为:将第i个待匹配的分类标签Di对应的所有词向量进行聚类得到R个簇,每个簇中对应的词向量为关键词。
可选的,第i个待匹配的分类标签Di的关键词的获取步骤包括:
S110,根据第i个待匹配的分类标签Di索引所有的相应文本条目,得到待匹配的N个文本条目集合
Figure BDA0003884273950000032
其中N为正整数。
S120,对Wi进行分词得到X个词,对X个词中的常用词、数字和标点进行过滤得到M个词;将M个词转为词向量得到M个词向量集合
Figure BDA0003884273950000033
其中M为正整数。
可选的,分词的模型为中文分词模型。可选的,中文分词模型为jieba分词模型。
获取词向量的方法为通过词向量模型获取,可选的,词向量模型为word2vec。
其中,在对Wi中所有文本条目分别进行分词之后,利用常用词词表、数字表和标点符号表对分词结果进行过滤,过滤掉与最终提取的关键词无关的干扰项。其中,现有技术中公开的使用常用词词表、数字和标点对分词结果进行过滤的方法均在本发明的保护范围之内。
S130,对Vi进行聚类得到Y个簇,提取Y个簇中的关键词,得到Di的J个关键词
Figure BDA0003884273950000034
Figure BDA0003884273950000041
可选的,聚类算法为K-means聚类算法或DBSCAN聚类算法。
对聚类所得到的簇进行人工筛选,保留下来的簇内的所有词向量为关键词。人工筛选的目的是筛除明显不能代表分类标签的簇,例如地址类的名词构成的簇等;保留可以代表分类标签的名词和动词所构成的簇,例如“盗窃”或者“偷盗”等动词所构成的簇,以及盗窃的对象所在的簇,例如“手机”、“平板”或者“电脑”等名词。
S200,获取用户指定的第m个待更新的分类标签中的第q个文本条目
Figure BDA0003884273950000042
获取
Figure BDA0003884273950000043
的R个词向量集合
Figure BDA0003884273950000044
其中R为正整数;
可以理解的是,S100与S200之间的先后顺序不做限定。可以先进行步骤S100之后,再执行S200;也可以先执行S200,再执行步骤S100;还可以是S100和S200同时进行。
其中,待更新的分类标签为用户指定的需要更新文本条目的分类标签的类别。
其中,获取
Figure BDA0003884273950000045
的R个词向量集合的步骤与待匹配的分类标签中获取词向量集合的方式相同:首先,对
Figure BDA0003884273950000046
进行分词得到MX个词,然后利用常用词、数字和标点对分词结果进行过滤,并去除过滤后的词中的重复词,得到R个词;将R个词转为R个词向量。词向量集合
Figure BDA0003884273950000047
中的任意两个词向量之间满足
Figure BDA0003884273950000048
其中i和j的取值范围均为1到R且i≠j,能够进一步减少计算量,同时消除多个相同词向量对最终结果造成的影响。
可选的,分词的模型为中文分词模型。可选的,中文分词模型为jieba分词模型。
可选的,词向量的模型为word2vec模型。通过该词向量模型将每一个词都映射为一个d维的浮点数向量。
需要说明的是,每个待更新的分类标签中包括多个文本条目,在分词时需要对每个文本条目进行分词,每个文本条目对应多个词。
优选的,第m个类别中第q个文本条目中第r个词向量
Figure BDA0003884273950000049
和第i个类别中第j个关键词
Figure BDA00038842739500000410
均为d维向量,其中r的取值范围为1到R,j的取值范围为1到J。d为预设的向量维度,例如d的取值为200,表示
Figure BDA00038842739500000411
Figure BDA00038842739500000420
均为200维的向量。
S300,分别获取
Figure BDA00038842739500000412
与每个待匹配的分类标签中所有关键词的综合相似度
Figure BDA00038842739500000413
Figure BDA00038842739500000414
其中,第m个待更新的分类标签中第q个文本条目
Figure BDA00038842739500000415
与第i个待匹配的分类标签Di的综合相似度
Figure BDA00038842739500000416
Figure BDA00038842739500000417
中R个词向量与Di中J个关键词之间的向量相似度的加权求和。
其中,综合相似度
Figure BDA00038842739500000418
满足:
Figure BDA00038842739500000419
其中,
Figure BDA0003884273950000051
Figure BDA0003884273950000052
的权重,
Figure BDA0003884273950000053
为第r个词向量
Figure BDA0003884273950000054
与第i个待匹配的分类标签中的第j个关键词
Figure BDA0003884273950000055
之间的向量相似度。
可选的,
Figure BDA0003884273950000056
的取值为1。
可选的,向量相似度
Figure BDA0003884273950000057
Figure BDA0003884273950000058
Figure BDA0003884273950000059
之间的余弦相似度、距离相似度、或者
Figure BDA00038842739500000510
Figure BDA00038842739500000511
余弦相似度和距离相似度之和。
优选的,向量相似度
Figure BDA00038842739500000512
其中,
Figure BDA00038842739500000513
为第r个词向量
Figure BDA00038842739500000514
与第i个待匹配的分类标签中的第j个关键词
Figure BDA00038842739500000515
之间的第一向量相似度,
Figure BDA00038842739500000516
Figure BDA00038842739500000517
为第r个词向量
Figure BDA00038842739500000518
与第i个待匹配的分类标签中的第j个关键词
Figure BDA00038842739500000519
之间的第二向量相似度。
Figure BDA00038842739500000520
Figure BDA00038842739500000521
不同。
可选的,第一向量相似度
Figure BDA00038842739500000522
为词向量
Figure BDA00038842739500000523
Figure BDA00038842739500000524
之间的余弦相似度。
可选的,第二向量相似度
Figure BDA00038842739500000525
为距离相似度,所述距离相似度与
Figure BDA00038842739500000526
Figure BDA00038842739500000527
之间的欧氏距离负相关。
优选的,第二向量相似度
Figure BDA00038842739500000528
其中
Figure BDA00038842739500000529
为词向量
Figure BDA00038842739500000530
Figure BDA00038842739500000531
之间的欧式距离。
优选的,第二向量相似度
Figure BDA00038842739500000532
利用两个文本向量在空间向量的方向差异以及多维空间的绝对距离来评价词向量
Figure BDA00038842739500000533
Figure BDA00038842739500000534
之间的相似度,第一向量相似度和第二向量相似度两者相互补充,能够使得到的相似度更加准确。
S400,获取
Figure BDA00038842739500000535
中的最大值,在最大值大于相似度阈值时,将第m个类别中第q个文本条目的类别标签更新为最大值对应的类别标签。
如果综合相似度中的最大值高于相似度阈值,则说明第m个待更新类别中第q个文本条目与最大值对应的类别相似度最高,因此将第m个待更新类别中第q个文本条目的分别标签更新为最大值对应的分类标签。
其中,相似度阈值为预设值。可选的,相似度阈值为0.8。
综上所述,本发明实施例提供了一种分类标签的更新方法,通过对第m个待更新的分类标签中第q个文本条目
Figure BDA00038842739500000536
中的文本进行分词,并将分词结果转为词向量,为了计算
Figure BDA00038842739500000537
与第i个待匹配的分类标签之间的相似度,需要计算第i个待匹配的分类标签中每个关键词分别与
Figure BDA00038842739500000538
中每个词向量之间的综合相似度,在综合相似度大于相似度阈值时,将第q个文本条目对应的分类标签更新为最大值对应的分类标签,解决了现有技术中无法消除人为主观因素对分类的影响的技术问题。
但是由于利用聚类得到的簇内的所有词向量作为关键词参与后续与待更新的文本条目所对应的词向量一对一进行相似度的计算,不仅计算量大,而且对于簇内距离簇中心点较远的关键词来说,其计算得到的相似度相对来说与该簇的平均语义相差较大,相似度的可靠程度交底,导致的相似度准确率低,进一步标签更新的准确率也被降低。为了解决该问题,S100进一步优化为:获取用户指定的L个待匹配的分类标签,对第i个待匹配的分类标签Di对应的词向量进行K-means聚类得到Y个簇的簇中心点T={T1,T2,…,TY}。
优选的,聚类算法为K-means算法,获取簇中心点的方法包括:
S131,初始迭代值为K,迭代值每次迭代的步长为d,第x次迭代的迭代值为K+xd,x≥0;随机选取K+xd个词向量作为聚类中心点对Vi进行聚类,得到K+xd个簇{C1,C2,…,CK+xd}。
其中,初始迭代值为用户指定的初始的K值。可选的,初始迭代值K=1,或者K=3。优选的,K=3。
其中,迭代的步长为在当前这次聚类完成之后,下次的迭代值与当前迭代值的差值,也即当前的迭代值加上步长即为下次的迭代值。
则当迭代次数为0时,迭代值为K,初始聚类的簇数为K;当迭代次数为1时,迭代值为K+d,第一次聚类的簇数为K+d簇;当迭代次数为2时,迭代值为K+2d,第一次聚类的簇数为K+2d簇;以此类推。
可选的,迭代的步长d=1。
S132,根据每次聚类得到的簇,计算x次迭代的误差平方和的集合Er={Er(K),Er(K+1),…,Er(K+x)},其中第c次迭代得到的K+cd个簇的误差平方和Er(K+c)满足:
Figure BDA0003884273950000061
式中,Vh,g为第h个簇中第g个词向量,Th为第h个簇的簇中心点,G为第h个簇中词向量的总数量,K+cd为簇的总数量,c的取值范围为0到x。
S133,计算Er中每次迭代的误差平方和的变化率得到变化率集合,在变化率集合中变化率最小的误差平方和对应的迭代值为最佳的K值,所述最佳的K值为Y。
其中,第c次迭代的误差平方和Er(K+c)的变化率λK+c满足:
λK+c=∣Er(K+c-1)-Er(K+c)∣-∣Er(K+c)-Er(K+c+1)∣;
其中,Er(K+c-1)为第c-1次迭代的误差平方和,Er(K+c+1)为第c+1次迭代的误差平方和。
对于x次迭代,计算每次迭代结果的误差平方和,从对第一次迭代的结果计算变化率λK+1开始到对倒数第二次迭代的结果计算变化率λK+x-1为止,得到x次迭代对应的变化率集合λ={λK+1K+2,…,λK+f,…,λK+x},在变化率集合λ中变化率最小值的误差平方和对应的迭代值为最佳的K值,该最佳K值为Y,也即将Vi聚为Y个簇具有最佳的聚类效果,Y个簇分别对应的Y个簇中心点。
且对S300做进一步的优化:获取
Figure BDA0003884273950000071
分别与每个待匹配的分类标签中簇中心点之间的综合相似度,得到综合相似度集合
Figure BDA0003884273950000072
其中,综合相似度集合中综合相似度
Figure BDA0003884273950000073
Figure BDA0003884273950000074
中R个词向量与Di对应的簇中心点T之间向量相似度的加权求和,其中i的取值范围为1到L;其中
Figure BDA0003884273950000075
满足:
Figure BDA0003884273950000076
其中,
Figure BDA0003884273950000077
为第r个词向量
Figure BDA0003884273950000078
的权重,
Figure BDA0003884273950000079
为第r个词向量
Figure BDA00038842739500000710
与第i个待匹配的分类标签Di对应的簇中心点T中第y个簇中心点Ty之间的向量相似度。
可选的,
Figure BDA00038842739500000711
Figure BDA00038842739500000712
与Ty之间的余弦相似度、
Figure BDA00038842739500000713
与Ty之间的距离相似度、或者
Figure BDA00038842739500000714
与Ty之间的余弦相似度和距离相似度之和。
优选的,向量相似度
Figure BDA00038842739500000715
其中,
Figure BDA00038842739500000716
Figure BDA00038842739500000717
与Ty之间的第一向量相似度,
Figure BDA00038842739500000718
Figure BDA00038842739500000719
与Ty之间的第二向量相似度。
Figure BDA00038842739500000720
Figure BDA00038842739500000721
不同。
可选的,第一向量相似度
Figure BDA00038842739500000722
为词向量
Figure BDA00038842739500000723
和Ty之间的余弦相似度。
可选的,第二向量相似度
Figure BDA00038842739500000724
Figure BDA00038842739500000725
和Ty之间的欧氏距离负相关。
优选的,第二向量相似度
Figure BDA00038842739500000726
其中
Figure BDA00038842739500000727
为词向量
Figure BDA00038842739500000728
Figure BDA00038842739500000729
之间的欧式距离。
优选的,第二向量相似度
Figure BDA00038842739500000730
综上所述,该方法进一步通过提取每个簇的簇中心点的语义向量,簇中心点的语义向量能够表征相应簇的平均语义,计算
Figure BDA00038842739500000731
中词向量与簇中心点之间的相似度,相较于计算
Figure BDA00038842739500000732
中词向量与簇中每一个词向量之间的相似度而言,能够大幅度的降低计算量,提高了标签更新的效率。同时进一步的消除了与簇中心点距离较远的词向量导致的相似度准确率低的问题,进一步的提高了标签更新的准确率。
在上述任意一个实施例中,由于多次出现的词向量不仅会被重复计算,增加了系统的运算量,导致标签更新的效率较低;并且由于同一个标签下的重复的词向量在聚类时会导致聚类中心偏向重复的词向量,进而导致聚类得到的分类结果不准确,在根据分类结果计算综合相似度的准确性也会受到影响,进而导致待分类标签的更新结果不准确。为了解决该问题,对S120进行进一步的优化以及权重
Figure BDA0003884273950000081
的获取步骤:
进一步优化S120,对Wi进行分词得到X个词,对X个词中的常用词、数字和标点进行过滤且并去除重复词得到M个词;将M个词转为词向量得到M个词向量集合
Figure BDA0003884273950000082
Figure BDA0003884273950000083
其中M为正整数。词向量集合Vi中的任意两个词向量之间满足
Figure BDA0003884273950000084
其中h和f的取值范围均为1到M且h≠f。
其中,去除重复词的方法为比较两个词是否相同,将相同的词视为重复的词,只保留其中任意一个词,将其他的重复词删除,也即得到的M个词中没有重复的词语。
其中,第r个词向量的权重
Figure BDA0003884273950000085
的获取步骤包括:
S310,获取语料库中所有的A个父标签seg={seg1,seg2,…,segA},第a个父标签包括Sum(a)个子标签sega={sega,1,sega,2,…,sega,Sum(a)},a的取值范围为1到A,且子标签的总数量SA满足
Figure BDA0003884273950000086
其中,Sum(a)的函数值为整数。
需要说明的是,在上述实施例中的分类标签均为子标签,子标签为父标签进一步细分得到的标签,例如,父标签“盗窃”下包括子标签“盗窃手机”、“盗窃机动车”和“入室盗窃”等。子标签和父标签均为用户指定的分类标签。
S320,获取
Figure BDA0003884273950000087
所在的第m个待更新的子标签sega,m,根据对sega,m中所有的文本条目进行分词得到的MX个词,统计
Figure BDA0003884273950000088
所对应的词在sega,m中出现的次数得到
Figure BDA0003884273950000089
需要说明的是,在词向量集合中词向量是唯一的,多个重复词对应的同一个词向量,在去重操作时已经将词向量做了去重处理,因此,统计
Figure BDA00038842739500000810
时,需要在去重处理之前的词语中进行统计,也即需要利用词向量
Figure BDA00038842739500000811
对应的词,在去重之前的词中统计该词出现的次数。
S330,获取在SA个子标签中包括
Figure BDA00038842739500000812
所对应的词的子标签的数量
Figure BDA00038842739500000813
S340,根据
Figure BDA00038842739500000814
和SA计算
Figure BDA00038842739500000815
其中
Figure BDA00038842739500000816
分别与
Figure BDA00038842739500000817
和SA正相关、与
Figure BDA00038842739500000818
负相关。
优选的,
Figure BDA00038842739500000819
满足:
Figure BDA00038842739500000820
可选的,log的底数为10、e或者2。
Figure BDA00038842739500000821
能够反映出
Figure BDA00038842739500000822
在第m个标签中的重要性,
Figure BDA00038842739500000823
能够反映出
Figure BDA00038842739500000824
对于第m个待更新的分类标签中的特有性。若
Figure BDA00038842739500000825
为通用词,则
Figure BDA00038842739500000826
值较小;而
Figure BDA00038842739500000827
在第m个待更新的分类标签中出现的频率高且在所有标签中出现的频率低,那么
Figure BDA00038842739500000828
对第m个待更新的分类标签来说重要性高,
Figure BDA00038842739500000829
值较大。
由于在计算相似度时利用重复词出现的频率
Figure BDA0003884273950000091
调整重复词对应的词向量的权重,因此能够在保证重复词对于标签权重的情况下,使聚类的过程中不受重复词的影响,提高聚类的准确性,同时利用
Figure BDA0003884273950000092
降低第m个待更新的分类标签中通用词的权重,提高第m个待更新的分类标签中特有词的权重。将
Figure BDA0003884273950000093
作为融合相似度的权重能够使综合相似度相对于单纯的采用一种向量相似度来评估整体相似度而言更加准确。
基于与上述方法实施例相同的发明构思,本发明实施例还提供了一种更新分类标签的优化系统,所述系统包括处理器和非瞬时性计算机可读存储介质,所述非瞬时性计算机可读存储介质中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由处理器加载并执行以实现上述任意一个实施例所描述的分类标签更新方法,该分类标签更新方法在上述实施例已经详细说明,不再赘述。
需要说明的是:上述本发明实施例先后顺序仅仅为了描述,不代表实施例的优劣。且上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种更新分类标签的优化方法,其特征在于,该优化方法包括:
S100,获取用户指定的L个待匹配的分类标签{D1,D2,…,DL},其中,第i个待匹配的分类标签Di具有J个关键词
Figure FDA0003884273940000011
其中i的取值范围为1到L;
S200,获取用户指定的第m个待更新的分类标签中的第q个文本条目
Figure FDA0003884273940000012
获取
Figure FDA0003884273940000013
的R个词向量集合
Figure FDA0003884273940000014
其中R为正整数;
S300,计算
Figure FDA0003884273940000015
分别与每个待匹配的分类标签中所有关键词的综合相似度
Figure FDA0003884273940000016
Figure FDA0003884273940000017
其中,
Figure FDA0003884273940000018
与第i个待匹配的分类标签Di的综合相似度
Figure FDA0003884273940000019
Figure FDA00038842739400000110
Figure FDA00038842739400000111
中R个词向量与Di中J个关键词之间的向量相似度的加权求和;第r个词向量
Figure FDA00038842739400000112
的权重
Figure FDA00038842739400000113
的获取步骤包括:
S351,获取语料库中所有A个父标签seg={seg1,seg2,…,segA},第a个父标签包括Sum(a)个子标签sega={sega,1,sega,2,…,sega,Sum(a)},a的取值范围为1到A,且子标签的总数量SA满足
Figure FDA00038842739400000114
其中,Sum(a)的函数值为整数;
S352,获取
Figure FDA00038842739400000115
所在的第m个待更新的分类标签sega,m,根据对sega,m中所有的文本条目进行分词得到的MX个词,统计
Figure FDA00038842739400000116
对应的词在sega,m中出现的次数得到
Figure FDA00038842739400000117
S353,获取在SA个子标签中包括
Figure FDA00038842739400000118
对应的词的子标签的数量
Figure FDA00038842739400000119
S354,根据
Figure FDA00038842739400000120
和SA计算
Figure FDA00038842739400000121
其中
Figure FDA00038842739400000122
分别与
Figure FDA00038842739400000123
和SA正相关、与
Figure FDA00038842739400000124
负相关;
S400,获取
Figure FDA00038842739400000125
中的最大值,在最大值大于相似度阈值时,将第m个类别中第q个文本条目的类别标签更新为最大值对应的类别标签。
2.根据权利要求1所述的更新分类标签的优化方法,其特征在于,所述
Figure FDA00038842739400000126
满足:
Figure FDA00038842739400000127
3.根据权利要求1所述的更新分类标签的优化方法,其特征在于,所述S100包括:
S110,根据第i个待匹配的分类标签Di索引所有的相应文本条目,得到待匹配的N个文本条目集合
Figure FDA00038842739400000128
其中N为正整数。
S120,对Wi进行分词得到X个词,对X个词中的常用词、数字和标点进行过滤且并去除重复词得到M个词;将M个词转为词向量得到M个词向量集合
Figure FDA00038842739400000129
其中M为正整数;
S130,对Vi进行聚类得到Y个簇,提取Y个簇中的关键词,得到Di的J个关键词
Figure FDA00038842739400000130
Figure FDA00038842739400000131
4.根据权利要求1所述的更新分类标签的优化方法,其特征在于,所述词向量集合Vi中的任意两个词向量之间满足
Figure FDA0003884273940000021
其中h和f的取值范围均为1到M且h≠f。
5.根据权利要求1所述的更新分类标签的优化方法,其特征在于,所述词向量的模型为word2vec模型。
6.根据权利要求1所述的更新分类标签的优化方法,其特征在于,所述
Figure FDA0003884273940000022
满足:
Figure FDA0003884273940000023
其中,
Figure FDA0003884273940000024
为第r个词向量
Figure FDA0003884273940000025
与第i个待匹配的分类标签中的第j个关键词
Figure FDA0003884273940000026
之间的相似度,
Figure FDA0003884273940000027
为第r个词向量
Figure FDA0003884273940000028
的权重。
7.根据权利要求书5所述的更新方法,其特征在于,所述
Figure FDA0003884273940000029
Figure FDA00038842739400000210
Figure FDA00038842739400000211
之间的余弦相似度、距离相似度、或者
Figure FDA00038842739400000212
Figure FDA00038842739400000213
余弦相似度和距离相似度之和。
8.根据权利要求书5所述的更新方法,其特征在于,所述距离相似度与
Figure FDA00038842739400000214
Figure FDA00038842739400000215
之间的欧氏距离负相关。
9.一种更新分类标签的优化系统,其特征在于,所述系统包括处理器和非瞬时性计算机可读存储介质,所述非瞬时性计算机可读存储介质中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由处理器加载并执行以实现权利要求1-8任意一项所述的更新方法。
CN202211241084.9A 2022-10-11 2022-10-11 一种更新分类标签的优化方法及系统 Active CN115409130B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211241084.9A CN115409130B (zh) 2022-10-11 2022-10-11 一种更新分类标签的优化方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211241084.9A CN115409130B (zh) 2022-10-11 2022-10-11 一种更新分类标签的优化方法及系统

Publications (2)

Publication Number Publication Date
CN115409130A true CN115409130A (zh) 2022-11-29
CN115409130B CN115409130B (zh) 2023-08-15

Family

ID=84168383

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211241084.9A Active CN115409130B (zh) 2022-10-11 2022-10-11 一种更新分类标签的优化方法及系统

Country Status (1)

Country Link
CN (1) CN115409130B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090094231A1 (en) * 2007-10-05 2009-04-09 Fujitsu Limited Selecting Tags For A Document By Analyzing Paragraphs Of The Document
CN110633365A (zh) * 2019-07-25 2019-12-31 北京国信利斯特科技有限公司 一种基于词向量的层次多标签文本分类方法及系统
CN111104526A (zh) * 2019-11-21 2020-05-05 新华智云科技有限公司 一种基于关键词语义的金融标签提取方法及系统
CN112380350A (zh) * 2021-01-14 2021-02-19 北京崔玉涛儿童健康管理中心有限公司 一种文本分类方法和装置
US11016997B1 (en) * 2019-12-19 2021-05-25 Adobe Inc. Generating query results based on domain-specific dynamic word embeddings
CN113591476A (zh) * 2021-08-10 2021-11-02 闪捷信息科技有限公司 一种基于机器学习的数据标签推荐方法
CN114691866A (zh) * 2022-03-09 2022-07-01 航空工业信息中心 面向多级标签的文本分类方法、装置、设备及存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090094231A1 (en) * 2007-10-05 2009-04-09 Fujitsu Limited Selecting Tags For A Document By Analyzing Paragraphs Of The Document
CN110633365A (zh) * 2019-07-25 2019-12-31 北京国信利斯特科技有限公司 一种基于词向量的层次多标签文本分类方法及系统
CN111104526A (zh) * 2019-11-21 2020-05-05 新华智云科技有限公司 一种基于关键词语义的金融标签提取方法及系统
US11016997B1 (en) * 2019-12-19 2021-05-25 Adobe Inc. Generating query results based on domain-specific dynamic word embeddings
CN112380350A (zh) * 2021-01-14 2021-02-19 北京崔玉涛儿童健康管理中心有限公司 一种文本分类方法和装置
CN113591476A (zh) * 2021-08-10 2021-11-02 闪捷信息科技有限公司 一种基于机器学习的数据标签推荐方法
CN114691866A (zh) * 2022-03-09 2022-07-01 航空工业信息中心 面向多级标签的文本分类方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN115409130B (zh) 2023-08-15

Similar Documents

Publication Publication Date Title
US20200401615A1 (en) System and methods thereof for generation of searchable structures respective of multimedia data content
US9672217B2 (en) System and methods for generation of a concept based database
US8868619B2 (en) System and methods thereof for generation of searchable structures respective of multimedia data content
EP1191463A2 (en) A method for adapting a k-means text clustering to emerging data
CN110209808A (zh) 一种基于文本信息的事件生成方法以及相关装置
CN107862089B (zh) 一种基于感知数据的标签提取方法
CN112463952B (zh) 一种基于近邻搜索的新闻文本聚合方法及系统
CN110858217A (zh) 微博敏感话题的检测方法、装置及可读存储介质
CN113918753A (zh) 基于人工智能的图像检索方法及相关设备
US6798911B1 (en) Method and system for fuzzy clustering of images
CN110134777A (zh) 问题去重方法、装置、电子设备和计算机可读存储介质
Gialampoukidis et al. A hybrid framework for news clustering based on the DBSCAN-Martingale and LDA
CN111353045A (zh) 构建文本分类体系的方法
CN116362243A (zh) 一种融入句子间关联关系的文本关键短语提取方法、存储介质及装置
CN110083731B (zh) 图像检索方法、装置、计算机设备及存储介质
CN116032741A (zh) 一种设备识别方法、装置、电子设备和计算机存储介质
Vidhya et al. Hybrid text mining model for document classification
Besiris et al. Key frame extraction in video sequences: a vantage points approach
CN115409130A (zh) 一种更新分类标签的优化方法及系统
CN115757896A (zh) 向量检索方法、装置、设备及可读存储介质
CN115310564B (zh) 一种分类标签更新方法及系统
CN113010669B (zh) 一种新闻分类方法和系统
CN112528021B (zh) 一种模型训练方法、模型训练装置及智能设备
CN115964658B (zh) 一种基于聚类的分类标签更新方法及系统
CN114090850A (zh) 日志分类方法、电子设备及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant