CN115409130B - 一种更新分类标签的优化方法及系统 - Google Patents
一种更新分类标签的优化方法及系统 Download PDFInfo
- Publication number
- CN115409130B CN115409130B CN202211241084.9A CN202211241084A CN115409130B CN 115409130 B CN115409130 B CN 115409130B CN 202211241084 A CN202211241084 A CN 202211241084A CN 115409130 B CN115409130 B CN 115409130B
- Authority
- CN
- China
- Prior art keywords
- similarity
- classification
- word
- seg
- label
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 43
- 238000005457 optimization Methods 0.000 title claims abstract description 14
- 239000013598 vector Substances 0.000 claims abstract description 90
- 230000011218 segmentation Effects 0.000 claims description 21
- 238000001914 filtration Methods 0.000 claims description 5
- 238000012545 processing Methods 0.000 abstract description 4
- 230000002596 correlated effect Effects 0.000 abstract 2
- 230000000875 corresponding effect Effects 0.000 abstract 1
- 230000008859 change Effects 0.000 description 10
- 230000000694 effects Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 208000014674 injury Diseases 0.000 description 2
- 238000003064 k means clustering Methods 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及数据处理技术领域,具体涉及一种更新分类标签的优化方法及系统,该方法通过获取L个待匹配的分类标签,第i个待匹配的分类标签Di有J个关键词;获取第m个待更新的分类标签中的第q个文本条目的R个词向量;计算词向量与所有关键词的综合相似度,其中,Vm q与Di的综合相似度为R个词向量与J个关键词之间的向量相似度的加权求和,其中权重分别与词向量在相应子标签中出现的次数和子标签总数量正相关、与包括该词向量的子标签数量负相关;根据综合相似度更新第q个文本条目的类别标签,解决了现有技术中无法消除人为主观因素对分类的影响的技术问题,同时调整词向量对于相似度的权重,使最终得到更新结果更加准确。
Description
技术领域
本发明涉及数据处理技术领域,具体涉及一种更新分类标签的优化方法及系统。
背景技术
在对某一个文本条目进行分类时,工作人员会根据文本条目的实际内容将相应的文本条目进行分类,一般情况下文本条目的分类是将有明确类别的赋予相应类别,没有明确类别的归为其他类别。但是由于工作人员的主观因素的影响以及有些文本条目中涉及多个类别的关键词时,工作人员可能会将本应属于A类别的文本条目标注为其他类别,或者将A类别的文本条目标注为B类别,因此工作人员分类中会存在较多分类错误的类别,当前常规的做法是人工更正文本条目分类的错误问题,但是人工更正的方式不仅耗费人力,而且依然无法消除人为主观因素对分类的影响。
发明内容
为了解决上述技术问题,本发明的目的在于提供一种更新分类标签的优化方法及系统,所采用的技术方案具体如下:
第一方面,本发明一个实施例提供了一种更新分类标签的优化方法,其特征在于,该
优化方法包括:
S100,获取用户指定的L个待匹配的分类标签{D1,D2,…,DL},其中,第i个待匹配的分类标签Di具有J个关键词其中i的取值范围为1到L;
S200,获取用户指定的第m个待更新的分类标签中的第q个文本条目获取/>的R个词向量集合/>其中R为正整数;
S300,计算分别与每个待匹配的分类标签中所有关键词的综合相似度/> 其中,/>与第i个待匹配的分类标签Di的综合相似度/> 为/>中R个词向量与Di中J个关键词之间的向量相似度的加权求和;第r个词向量/>的权重/>的获取步骤包括:
S351,获取语料库中所有A个父标签seg={seg1,seg2,…,segA},第a个父标签包括Sum(a)个子标签sega={sega,1,sega,2,…,sega,Sum(a)},a的取值范围为1到A,且子标签的总数量SA满足其中,Sum(a)的函数值为整数;
S352,获取所在的第m个待更新的分类标签sega,m,根据对sega,m中所有的文本条目进行分词得到的MX个词,统计/>对应的词在sega,m中出现的次数得到/>
S353,获取在SA个子标签中包括对应的词的子标签的数量/>
S354,根据和SA计算/>其中/>分别与/>和SA正相关、与负相关;
S400,获取中的最大值,在最大值大于相似度阈值时,将第m个类别中第q个文本条目的类别标签更新为最大值对应的类别标签。
第二方面,本发明另一个实施例提供了一种更新分类标签的优化系统,所述系统包括处理器和非瞬时性计算机可读存储介质,所述非瞬时性计算机可读存储介质中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由处理器加载并执行以实现上述更新方法。
本发明具有如下有益效果:
通过提取第m个待更新的分类标签中第q个文本条目中的词向量,并通过提取待匹配的分类标签对应的关键词,计算/>中词向量与关键词之间的相似度,为了计算/>与第i个待匹配的分类标签之间的相似度,需要计算第i个待匹配的分类标签中每个关键词分别与/>中每个词向量之间的综合相似度,在综合相似度大于相似度阈值时,将第q个文本条目对应的分类标签更新为最大值对应的分类标签,解决了现有技术中无法消除人为主观因素对分类的影响的技术问题。同时在聚类时将重复的词去除,不仅能够使聚类的过程中不受重复词的影响,提高聚类的准确性,同时统计重复词出现的频率以及包括该重复词的分类标签的数量,计算权重/>利用/>调整词向量对于相似度的权重,使最终得到匹配结果更加准确。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
图1为本发明一个实施例所提供的一种更新分类标签的优化方法流程图。
具体实施方式
为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的一种更新分类标签的优化方法及系统,其具体实施方式、结构、特征及其功效,详细说明如下。在下述说明中,不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外,一个或多个实施例中的特定特征、结构、或特点可由任何合适形式组合。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。
下面结合附图具体的说明本发明所提供的一种分类标签的更新方法,该方法包括以下步骤:
S100,获取用户指定的L个待匹配的分类标签{D1,D2,…,DL},其中,第i个待匹配的分类标签Di具有J个关键词其中i的取值范围为1到L。
需要说明的是,在语料库中用户输入多个文本条目,每个文本条目具有用户指定的分类标签。其中,每个文本条目是指用户记录的一个事件的描述文字。多个文本条目为多个事件的文本描述。例如用户记录了一条报警记录,则这一条报警记录为一个文本条目。其中,分类标签为用户指定的标签,例如按照预设的分类规则将一条文本条目的标签标记为“盗窃”标签或者“抢劫”标签等。每个文本条目对应一个分类标签。
其中,待匹配的分类标签为用户指定的标签,用于作为标准标签来更正其他文本条目的分类标签。需要说明的是,待匹配的分类标签和待更新的分别标签均为用户预先标注的分类标签,例如,分类标签可以是“盗窃手机”、“盗窃机动车”、“抢劫”、“酒驾”、“故意伤害”等,用户将其中的“抢劫”和“故意伤害”指定为待匹配的分类标签,将其中的“盗窃手机”指定为待更新的分类标签。
可选的,关键词的获取方法为:将第i个待匹配的分类标签Di对应的所有词向量进行聚类得到R个簇,每个簇中对应的词向量为关键词。
可选的,第i个待匹配的分类标签Di的关键词的获取步骤包括:
S110,根据第i个待匹配的分类标签Di索引所有的相应文本条目,得到待匹配的N个文本条目集合其中N为正整数。
S120,对Wi进行分词得到X个词,对X个词中的常用词、数字和标点进行过滤得到M个词;将M个词转为词向量得到M个词向量集合其中M为正整数。
可选的,分词的模型为中文分词模型。可选的,中文分词模型为jieba分词模型。
获取词向量的方法为通过词向量模型获取,可选的,词向量模型为word2vec。
其中,在对Wi中所有文本条目分别进行分词之后,利用常用词词表、数字表和标点符号表对分词结果进行过滤,过滤掉与最终提取的关键词无关的干扰项。其中,现有技术中公开的使用常用词词表、数字和标点对分词结果进行过滤的方法均在本发明的保护范围之内。
S130,对Vi进行聚类得到Y个簇,提取Y个簇中的关键词,得到Di的J个关键词
可选的,聚类算法为K-means聚类算法或DBSCAN聚类算法。
对聚类所得到的簇进行人工筛选,保留下来的簇内的所有词向量为关键词。人工筛选的目的是筛除明显不能代表分类标签的簇,例如地址类的名词构成的簇等;保留可以代表分类标签的名词和动词所构成的簇,例如“盗窃”或者“偷盗”等动词所构成的簇,以及盗窃的对象所在的簇,例如“手机”、“平板”或者“电脑”等名词。
S200,获取用户指定的第m个待更新的分类标签中的第q个文本条目获取/>的R个词向量集合/>其中R为正整数;
可以理解的是,S100与S200之间的先后顺序不做限定。可以先进行步骤S100之后,再执行S200;也可以先执行S200,再执行步骤S100;还可以是S100和S200同时进行。
其中,待更新的分类标签为用户指定的需要更新文本条目的分类标签的类别。
其中,获取的R个词向量集合的步骤与待匹配的分类标签中获取词向量集合的方式相同:首先,对/>进行分词得到MX个词,然后利用常用词、数字和标点对分词结果进行过滤,并去除过滤后的词中的重复词,得到R个词;将R个词转为R个词向量。词向量集合/>中的任意两个词向量之间满足/>其中i和j的取值范围均为1到R且i≠j,能够进一步减少计算量,同时消除多个相同词向量对最终结果造成的影响。
可选的,分词的模型为中文分词模型。可选的,中文分词模型为jieba分词模型。
可选的,词向量的模型为word2vec模型。通过该词向量模型将每一个词都映射为一个d维的浮点数向量。
需要说明的是,每个待更新的分类标签中包括多个文本条目,在分词时需要对每个文本条目进行分词,每个文本条目对应多个词。
优选的,第m个类别中第q个文本条目中第r个词向量和第i个类别中第j个关键词/>均为d维向量,其中r的取值范围为1到R,j的取值范围为1到J。d为预设的向量维度,例如d的取值为200,表示/>和/>均为200维的向量。
S300,分别获取与每个待匹配的分类标签中所有关键词的综合相似度/> 其中,第m个待更新的分类标签中第q个文本条目/>与第i个待匹配的分类标签Di的综合相似度/>为/>中R个词向量与Di中J个关键词之间的向量相似度的加权求和。
其中,综合相似度满足:
其中,为/>的权重,/>为第r个词向量/>与第i个待匹配的分类标签中的第j个关键词/>之间的向量相似度。
可选的,的取值为1。
可选的,向量相似度为/>与/>之间的余弦相似度、距离相似度、或者/>与/>余弦相似度和距离相似度之和。
优选的,向量相似度其中,/>为第r个词向量/>与第i个待匹配的分类标签中的第j个关键词/>之间的第一向量相似度,/> 为第r个词向量/>与第i个待匹配的分类标签中的第j个关键词/>之间的第二向量相似度。/>与/>不同。
可选的,第一向量相似度为词向量/>与/>之间的余弦相似度。
可选的,第二向量相似度为距离相似度,所述距离相似度与/>和/>之间的欧氏距离负相关。
优选的,第二向量相似度其中/>为词向量/>与之间的欧式距离。
优选的,第二向量相似度
利用两个文本向量在空间向量的方向差异以及多维空间的绝对距离来评价词向量与/>之间的相似度,第一向量相似度和第二向量相似度两者相互补充,能够使得到的相似度更加准确。
S400,获取中的最大值,在最大值大于相似度阈值时,将第m个类别中第q个文本条目的类别标签更新为最大值对应的类别标签。
如果综合相似度中的最大值高于相似度阈值,则说明第m个待更新类别中第q个文本条目与最大值对应的类别相似度最高,因此将第m个待更新类别中第q个文本条目的分别标签更新为最大值对应的分类标签。
其中,相似度阈值为预设值。可选的,相似度阈值为0.8。
综上所述,本发明实施例提供了一种分类标签的更新方法,通过对第m个待更新的分类标签中第q个文本条目中的文本进行分词,并将分词结果转为词向量,为了计算/>与第i个待匹配的分类标签之间的相似度,需要计算第i个待匹配的分类标签中每个关键词分别与/>中每个词向量之间的综合相似度,在综合相似度大于相似度阈值时,将第q个文本条目对应的分类标签更新为最大值对应的分类标签,解决了现有技术中无法消除人为主观因素对分类的影响的技术问题。
但是由于利用聚类得到的簇内的所有词向量作为关键词参与后续与待更新的文本条目所对应的词向量一对一进行相似度的计算,不仅计算量大,而且对于簇内距离簇中心点较远的关键词来说,其计算得到的相似度相对来说与该簇的平均语义相差较大,相似度的可靠程度交底,导致的相似度准确率低,进一步标签更新的准确率也被降低。为了解决该问题,S100进一步优化为:获取用户指定的L个待匹配的分类标签,对第i个待匹配的分类标签Di对应的词向量进行K-means聚类得到Y个簇的簇中心点T={T1,T2,…,TY}。
优选的,聚类算法为K-means算法,获取簇中心点的方法包括:
S131,初始迭代值为K,迭代值每次迭代的步长为d,第x次迭代的迭代值为K+xd,x≥0;随机选取K+xd个词向量作为聚类中心点对Vi进行聚类,得到K+xd个簇{C1,C2,…,CK+xd}。
其中,初始迭代值为用户指定的初始的K值。可选的,初始迭代值K=1,或者K=3。优选的,K=3。
其中,迭代的步长为在当前这次聚类完成之后,下次的迭代值与当前迭代值的差值,也即当前的迭代值加上步长即为下次的迭代值。
则当迭代次数为0时,迭代值为K,初始聚类的簇数为K;当迭代次数为1时,迭代值为K+d,第一次聚类的簇数为K+d簇;当迭代次数为2时,迭代值为K+2d,第一次聚类的簇数为K+2d簇;以此类推。
可选的,迭代的步长d=1。
S132,根据每次聚类得到的簇,计算x次迭代的误差平方和的集合Er={Er(K),Er(K+1),…,Er(K+x)},其中第c次迭代得到的K+cd个簇的误差平方和Er(K+c)满足:
式中,Vh,g为第h个簇中第g个词向量,Th为第h个簇的簇中心点,G为第h个簇中词向量的总数量,K+cd为簇的总数量,c的取值范围为0到x。
S133,计算Er中每次迭代的误差平方和的变化率得到变化率集合,在变化率集合中变化率最小的误差平方和对应的迭代值为最佳的K值,所述最佳的K值为Y。
其中,第c次迭代的误差平方和Er(K+c)的变化率λK+c满足:
λK+c=∣Er(K+c-1)-Er(K+c)∣-∣Er(K+c)-Er(K+c+1)∣;
其中,Er(K+c-1)为第c-1次迭代的误差平方和,Er(K+c+1)为第c+1次迭代的误差平方和。
对于x次迭代,计算每次迭代结果的误差平方和,从对第一次迭代的结果计算变化率λK+1开始到对倒数第二次迭代的结果计算变化率λK+x-1为止,得到x次迭代对应的变化率集合λ={λK+1,λK+2,…,λK+f,…,λK+x},在变化率集合λ中变化率最小值的误差平方和对应的迭代值为最佳的K值,该最佳K值为Y,也即将Vi聚为Y个簇具有最佳的聚类效果,Y个簇分别对应的Y个簇中心点。
且对S300做进一步的优化:获取分别与每个待匹配的分类标签中簇中心点之间的综合相似度,得到综合相似度集合/>
其中,综合相似度集合中综合相似度为/>中R个词向量与Di对应的簇中心点T之间向量相似度的加权求和,其中i的取值范围为1到L;其中/>满足:
其中,为第r个词向量/>的权重,/>为第r个词向量/>与第i个待匹配的分类标签Di对应的簇中心点T中第y个簇中心点Ty之间的向量相似度。
可选的,为/>与Ty之间的余弦相似度、/>与Ty之间的距离相似度、或者与Ty之间的余弦相似度和距离相似度之和。
优选的,向量相似度其中,/>为/>与Ty之间的第一向量相似度,/>为/>与Ty之间的第二向量相似度。/>和/>不同。
可选的,第一向量相似度为词向量/>和Ty之间的余弦相似度。
可选的,第二向量相似度与/>和Ty之间的欧氏距离负相关。
优选的,第二向量相似度其中/>为词向量/>和之间的欧式距离。
优选的,第二向量相似度
综上所述,该方法进一步通过提取每个簇的簇中心点的语义向量,簇中心点的语义向量能够表征相应簇的平均语义,计算中词向量与簇中心点之间的相似度,相较于计算/>中词向量与簇中每一个词向量之间的相似度而言,能够大幅度的降低计算量,提高了标签更新的效率。同时进一步的消除了与簇中心点距离较远的词向量导致的相似度准确率低的问题,进一步的提高了标签更新的准确率。
在上述任意一个实施例中,由于多次出现的词向量不仅会被重复计算,增加了系统的运算量,导致标签更新的效率较低;并且由于同一个标签下的重复的词向量在聚类时会导致聚类中心偏向重复的词向量,进而导致聚类得到的分类结果不准确,在根据分类结果计算综合相似度的准确性也会受到影响,进而导致待分类标签的更新结果不准确。为了解决该问题,对S120进行进一步的优化以及权重的获取步骤:
进一步优化S120,对Wi进行分词得到X个词,对X个词中的常用词、数字和标点进行过滤且并去除重复词得到M个词;将M个词转为词向量得到M个词向量集合 其中M为正整数。词向量集合Vi中的任意两个词向量之间满足/>其中h和f的取值范围均为1到M且h≠f。
其中,去除重复词的方法为比较两个词是否相同,将相同的词视为重复的词,只保留其中任意一个词,将其他的重复词删除,也即得到的M个词中没有重复的词语。
其中,第r个词向量的权重的获取步骤包括:
S310,获取语料库中所有的A个父标签seg={seg1,seg2,…,segA},第a个父标签包括Sum(a)个子标签sega={sega,1,sega,2,…,sega,Sum(a)},a的取值范围为1到A,且子标签的总数量SA满足其中,Sum(a)的函数值为整数。
需要说明的是,在上述实施例中的分类标签均为子标签,子标签为父标签进一步细分得到的标签,例如,父标签“盗窃”下包括子标签“盗窃手机”、“盗窃机动车”和“入室盗窃”等。子标签和父标签均为用户指定的分类标签。
S320,获取所在的第m个待更新的子标签sega,m,根据对sega,m中所有的文本条目进行分词得到的MX个词,统计/>所对应的词在sega,m中出现的次数得到/>
需要说明的是,在词向量集合中词向量是唯一的,多个重复词对应的同一个词向量,在去重操作时已经将词向量做了去重处理,因此,统计时,需要在去重处理之前的词语中进行统计,也即需要利用词向量/>对应的词,在去重之前的词中统计该词出现的次数。
S330,获取在SA个子标签中包括所对应的词的子标签的数量/>
S340,根据和SA计算/>其中/>分别与/>和SA正相关、与负相关。
优选的,满足:
可选的,log的底数为10、e或者2。
能够反映出/>在第m个标签中的重要性,/>能够反映出/>对于第m个待更新的分类标签中的特有性。若/>为通用词,则/>值较小;而/>在第m个待更新的分类标签中出现的频率高且在所有标签中出现的频率低,那么/>对第m个待更新的分类标签来说重要性高,/>值较大。
由于在计算相似度时利用重复词出现的频率调整重复词对应的词向量的权重,因此能够在保证重复词对于标签权重的情况下,使聚类的过程中不受重复词的影响,提高聚类的准确性,同时利用/>降低第m个待更新的分类标签中通用词的权重,提高第m个待更新的分类标签中特有词的权重。将/>作为融合相似度的权重能够使综合相似度相对于单纯的采用一种向量相似度来评估整体相似度而言更加准确。
基于与上述方法实施例相同的发明构思,本发明实施例还提供了一种更新分类标签的优化系统,所述系统包括处理器和非瞬时性计算机可读存储介质,所述非瞬时性计算机可读存储介质中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由处理器加载并执行以实现上述任意一个实施例所描述的分类标签更新方法,该分类标签更新方法在上述实施例已经详细说明,不再赘述。
需要说明的是:上述本发明实施例先后顺序仅仅为了描述,不代表实施例的优劣。且上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (6)
1.一种更新分类标签的优化方法,其特征在于,该优化方法包括:
S100,获取用户指定的L个待匹配的分类标签{D1,D2,…,DL},其中,第i个待匹配的分类标签Di具有J个关键词其中i的取值范围为1到L;其中,Di的关键词的获取步骤包括:
S110,根据第i个待匹配的分类标签Di索引所有的相应文本条目,得到待匹配的N个文本条目集合其中N为正整数;
S120,对Wi进行分词得到X个词,对X个词中的常用词、数字和标点进行过滤且去除重复词得到M个词;将M个词转为词向量得到M个词向量集合其中M为正整数;
S130,对Vi进行聚类得到Y个簇,提取Y个簇中的关键词,得到Di的J个关键词
S200,获取用户指定的第m个待更新的分类标签中的第q个文本条目获取/>的R个词向量集合/>其中R为正整数;
S300,计算分别与每个待匹配的分类标签中所有关键词的综合相似度其中,/>与第i个待匹配的分类标签Di的综合相似度为/>中R个词向量与Di中J个关键词之间的向量相似度的加权求和;第r个词向量的权重/>的获取步骤包括:
S351,获取语料库中所有A个父标签seg={seg1,seg2,…,segA},第a个父标签包括Sum(a)个子标签sega={sega,1,sega,2,…,sega,Sum(a)},a的取值范围为1到A,且子标签的总数量SA满足其中,Sum(a)的函数值为整数;
S352,获取所在的第m个待更新的分类标签sega,m,根据对sega,m中所有的文本条目进行分词得到的MX个词,统计/>对应的词在sega,m中出现的次数得到/>
S353,获取在SA个子标签中包括对应的词的子标签的数量/>
S354,根据和SA计算/>其中所述/>满足:
S400,获取中的最大值,在最大值大于相似度阈值时,将第m个类别中第q个文本条目的类别标签更新为最大值对应的类别标签;
其中,所述满足:
其中,为第r个词向量/>与第i个待匹配的分类标签中的第j个关键词/>之间的相似度,/>为第r个词向量/>的权重。
2.根据权利要求1所述的更新分类标签的优化方法,其特征在于,所述词向量集合Vi中的任意两个词向量之间满足其中h和f的取值范围均为1到M且h≠f。
3.根据权利要求1所述的更新分类标签的优化方法,其特征在于,所述词向量的模型为word2vec模型。
4.根据权利要求1所述的更新分类标签的优化方法,其特征在于,所述 为/>与/>之间的余弦相似度、距离相似度、或者/>与/>余弦相似度和距离相似度之和。
5.根据权利要求4所述的更新分类标签的优化方法,其特征在于,所述距离相似度与与/>之间的欧氏距离负相关。
6.一种更新分类标签的优化系统,其特征在于,所述系统包括处理器和非瞬时性计算机可读存储介质,所述非瞬时性计算机可读存储介质中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由处理器加载并执行以实现权利要求1-5任意一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211241084.9A CN115409130B (zh) | 2022-10-11 | 2022-10-11 | 一种更新分类标签的优化方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211241084.9A CN115409130B (zh) | 2022-10-11 | 2022-10-11 | 一种更新分类标签的优化方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115409130A CN115409130A (zh) | 2022-11-29 |
CN115409130B true CN115409130B (zh) | 2023-08-15 |
Family
ID=84168383
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211241084.9A Active CN115409130B (zh) | 2022-10-11 | 2022-10-11 | 一种更新分类标签的优化方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115409130B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110633365A (zh) * | 2019-07-25 | 2019-12-31 | 北京国信利斯特科技有限公司 | 一种基于词向量的层次多标签文本分类方法及系统 |
CN111104526A (zh) * | 2019-11-21 | 2020-05-05 | 新华智云科技有限公司 | 一种基于关键词语义的金融标签提取方法及系统 |
CN112380350A (zh) * | 2021-01-14 | 2021-02-19 | 北京崔玉涛儿童健康管理中心有限公司 | 一种文本分类方法和装置 |
US11016997B1 (en) * | 2019-12-19 | 2021-05-25 | Adobe Inc. | Generating query results based on domain-specific dynamic word embeddings |
CN113591476A (zh) * | 2021-08-10 | 2021-11-02 | 闪捷信息科技有限公司 | 一种基于机器学习的数据标签推荐方法 |
CN114691866A (zh) * | 2022-03-09 | 2022-07-01 | 航空工业信息中心 | 面向多级标签的文本分类方法、装置、设备及存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8280892B2 (en) * | 2007-10-05 | 2012-10-02 | Fujitsu Limited | Selecting tags for a document by analyzing paragraphs of the document |
-
2022
- 2022-10-11 CN CN202211241084.9A patent/CN115409130B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110633365A (zh) * | 2019-07-25 | 2019-12-31 | 北京国信利斯特科技有限公司 | 一种基于词向量的层次多标签文本分类方法及系统 |
CN111104526A (zh) * | 2019-11-21 | 2020-05-05 | 新华智云科技有限公司 | 一种基于关键词语义的金融标签提取方法及系统 |
US11016997B1 (en) * | 2019-12-19 | 2021-05-25 | Adobe Inc. | Generating query results based on domain-specific dynamic word embeddings |
CN112380350A (zh) * | 2021-01-14 | 2021-02-19 | 北京崔玉涛儿童健康管理中心有限公司 | 一种文本分类方法和装置 |
CN113591476A (zh) * | 2021-08-10 | 2021-11-02 | 闪捷信息科技有限公司 | 一种基于机器学习的数据标签推荐方法 |
CN114691866A (zh) * | 2022-03-09 | 2022-07-01 | 航空工业信息中心 | 面向多级标签的文本分类方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN115409130A (zh) | 2022-11-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108052593B (zh) | 一种基于主题词向量和网络结构的主题关键词提取方法 | |
US8719267B2 (en) | Spectral neighborhood blocking for entity resolution | |
US9087297B1 (en) | Accurate video concept recognition via classifier combination | |
US20140214835A1 (en) | System and method for automatically classifying documents | |
CN107862089B (zh) | 一种基于感知数据的标签提取方法 | |
CN108647322B (zh) | 基于词网识别大量Web文本信息相似度的方法 | |
WO2018090468A1 (zh) | 视频节目的搜索方法和装置 | |
CN110858217A (zh) | 微博敏感话题的检测方法、装置及可读存储介质 | |
CN110866102A (zh) | 检索处理方法 | |
CN112632261A (zh) | 智能问答方法、装置、设备及存储介质 | |
CN110083731B (zh) | 图像检索方法、装置、计算机设备及存储介质 | |
CN106570196B (zh) | 视频节目的搜索方法和装置 | |
CN116362243A (zh) | 一种融入句子间关联关系的文本关键短语提取方法、存储介质及装置 | |
CN111125329B (zh) | 一种文本信息筛选方法、装置及设备 | |
JP5833499B2 (ja) | 高次元の特徴ベクトル集合で表現されるコンテンツを高精度で検索する検索装置及びプログラム | |
JP6017277B2 (ja) | 特徴ベクトルの集合で表されるコンテンツ間の類似度を算出するプログラム、装置及び方法 | |
CN115409130B (zh) | 一种更新分类标签的优化方法及系统 | |
CN115964658B (zh) | 一种基于聚类的分类标签更新方法及系统 | |
CN115168345B (zh) | 数据库分级分类方法、系统、装置及存储介质 | |
CN116151258A (zh) | 文本消岐方法、电子设备、存储介质 | |
CN113159155B (zh) | 再犯罪风险预警混合属性数据处理方法、介质和设备 | |
CN115757896A (zh) | 向量检索方法、装置、设备及可读存储介质 | |
CN111899832B (zh) | 基于上下文语义分析的医疗主题管理系统与方法 | |
CN115310564B (zh) | 一种分类标签更新方法及系统 | |
CN114637846A (zh) | 视频数据处理方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |