CN115310564A - 一种分类标签更新方法及系统 - Google Patents

一种分类标签更新方法及系统 Download PDF

Info

Publication number
CN115310564A
CN115310564A CN202211238893.4A CN202211238893A CN115310564A CN 115310564 A CN115310564 A CN 115310564A CN 202211238893 A CN202211238893 A CN 202211238893A CN 115310564 A CN115310564 A CN 115310564A
Authority
CN
China
Prior art keywords
similarity
word
classification label
sim
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211238893.4A
Other languages
English (en)
Other versions
CN115310564B (zh
Inventor
靳雯
赵洲洋
石江枫
王全修
于伟
王明超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Rizhao Ruian Information Technology Co ltd
Beijing Rich Information Technology Co ltd
Original Assignee
Rizhao Ruian Information Technology Co ltd
Beijing Rich Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Rizhao Ruian Information Technology Co ltd, Beijing Rich Information Technology Co ltd filed Critical Rizhao Ruian Information Technology Co ltd
Priority to CN202211238893.4A priority Critical patent/CN115310564B/zh
Publication of CN115310564A publication Critical patent/CN115310564A/zh
Application granted granted Critical
Publication of CN115310564B publication Critical patent/CN115310564B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及数据处理技术领域,具体涉及一种分类标签更新方法及系统,通过提取第m个待更新的分类标签中第q个文本条目Vm q中的词向量,并通过提取待匹配的分类标签对应的关键词词向量,计算Vm q中词向量与关键词词向量之间的相似度,为了计算Vm q与第i个待匹配的分类标签之间的相似度,需要计算第i个待匹配的分类标签中每个关键词词向量分别与Vm q中每个词向量之间的综合相似度,在综合相似度大于相似度阈值时,将第q个文本条目对应的分类标签更新为最大值对应的分类标签,解决了现有技术中无法消除人为主观因素对分类的影响的技术问题。

Description

一种分类标签更新方法及系统
技术领域
本发明涉及数据处理技术领域,具体涉及一种分类标签更新方法及系统。
背景技术
在对某一个文本条目进行分类时,工作人员会根据文本条目的实际内容将相应的文本条目进行分类,一般情况下文本条目的分类是将有明确类别的赋予相应类别,没有明确类别的归为其他类别。但是由于工作人员的主观因素的影响以及有些文本条目中涉及多个类别的关键词时,工作人员可能会将本应属于A类别的文本条目标注为其他类别,或者将A类别的文本条目标注为B类别,进而导致存在较多分类错误的类别,当前常规的做法是人工更正文本条目分类的错误问题,但是人工更正的方式不仅耗费人力,而且依然无法消除人为主观因素对分类的影响。
发明内容
为了解决上述技术问题,本发明的目的在于提供一种分类标签更新方法及系统,所采用的技术方案具体如下:
第一方面,本发明一个实施例提供了一种分类标签更新方法,该方法包括:
S100,获取用户指定的L个待匹配的分类标签{D1,D2,…,Di,…,DL},其中,Di为第i个待匹配的分类标签,i的取值范围为1到L,L为待匹配的分类标签的数量;Di具有J个关键词词向量{Di 1,Di 2,…,Di j,…,Di J},其中,Di j为Di中的第j个关键词词向量,j的取值范围为1到J,J为Di中关键词词向量数量。
S200,获取用户指定的第m个待更新的分类标签中的第q个文本条目Um q,获取Um q的R个词向量集合Vm q={Vm q1,Vm q2,…,Vm qr…,Vm qR},其中,Vm qr为Vm q中的第r个词向量,Vm qr与Di j的向量维度相同,R为Vm q中词向量的数量。
S300,计算Vm q分别与每个待匹配的分类标签中所有关键词词向量之间的综合相似度SIM={SIM1 SIM2,…,SIMi,…,SIML},其中,SIMi为Vm q中R个词向量与Di中J个关键词词向量之间的向量相似度的加权求和。
S400,获取S中的最大值,在最大值大于相似度阈值时,将第m个待更新的分类标签中第q个文本条目的分类标签更新为最大值对应的分类标签。
第二方面,本发明另一个实施例提供了一种分类标签更新系统,所述系统包括处理器和非瞬时性计算机可读存储介质,所述非瞬时性计算机可读存储介质中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由处理器加载并执行以实现上述更新方法。
本发明具有如下有益效果:
本发明实施例提供了一种分类标签的更新方法,通过提取第m个待更新的分类标签中第q个文本条目Vm q中的词向量,并通过提取待匹配的分类标签对应的关键词词向量,计算Vm q中词向量与关键词词向量之间的相似度,为了计算Vm q与第i个待匹配的分类标签之间的相似度,需要计算第i个待匹配的分类标签中每个关键词词向量分别与Vm q中每个词向量之间的综合相似度,在综合相似度大于相似度阈值时,将第q个文本条目对应的分类标签更新为最大值对应的分类标签,解决了现有技术中无法消除人为主观因素对分类的影响的技术问题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
图1为本发明一个实施例所提供的一种分类标签更新方法流程图。
具体实施方式
为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的一种分类标签更新方法及系统,其具体实施方式、结构、特征及其功效,详细说明如下。在下述说明中,不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外,一个或多个实施例中的特定特征、结构、或特点可由任何合适形式组合。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。
下面结合附图1具体的说明本发明所提供的一种分类标签的更新方法,该方法包括以下步骤:
S100,获取用户指定的L个待匹配的分类标签{D1,D2,…,Di,…,DL},其中,Di为第i个待匹配的分类标签,i的取值范围为1到L,L为待匹配的分类标签的数量;Di具有J个关键词词向量{Di 1,Di 2,…,Di j,…,Di J},其中,Di j为Di中的第j个关键词词向量,j的取值范围为1到J,J为Di中关键词词向量数量。
需要说明的是,在语料库中用户输入多个文本条目,每个文本条目具有用户指定的分类标签。其中,每个文本条目是指用户记录的一个事件的描述文字。多个文本条目为多个事件的文本描述。例如用户记录了一条报警记录,则这一条报警记录为一个文本条目。其中,分类标签为用户指定的标签,例如按照预设的分类规则将一条文本条目的标签标记为“超载”标签或者“酒驾”标签等。每个文本条目对应一个分类标签。
其中,待匹配的分类标签为用户指定的标签,用于作为标准标签来更正其他文本条目的分类标签。需要说明的是,待匹配的分类标签和待更新的分别标签均为用户预先标注的分类标签,例如,分类标签可以是“超载”、“超速”、“饮酒驾驶”、“醉酒驾驶”等,用户将其中的“饮酒驾驶”和“醉酒驾驶”指定为待匹配的分类标签,将其中的“超速”指定为待更新的分类标签。
可选的,关键词词向量的获取方法为:将第i个待匹配的分类标签Di对应的所有词向量进行聚类得到R个簇,每个簇中对应的词向量为关键词词向量。
可选的,第i个待匹配的分类标签Di的关键词的获取步骤包括:
S110,根据第i个待匹配的分类标签Di索引所有的相应文本条目,得到待匹配的N个文本条目集合Wi={Wi 1,Wi 2,…,Wi N},其中N为Wi中文本条目的数量。
S120,对Wi进行分词得到X个词,对X个词中的常用词、数字和标点进行过滤得到M个词;将M个词分别转为词向量得到M个词向量集合Vi={Vi 1,Vi 2,…,Vi M},其中M为Vi中词向量的数量。
可选的,分词的模型为中文分词模型。可选的,中文分词模型为jieba分词模型。
获取词向量的方法为通过词向量模型获取,可选的,词向量模型为word2vec。
其中,在对Wi中所有文本条目分别进行分词之后,利用常用词词表、数字表和标点符号表对分词结果进行过滤,过滤掉与最终提取的关键词无关的干扰项。其中,现有技术中公开的使用常用词词表、数字和标点对分词结果进行过滤的方法均在本发明的保护范围之内。
S130,对Vi进行聚类得到Y个簇,提取Y个簇中的词向量,得到Di的J个关键词词向量{Di 1,Di 2,…,Di J}。
可选的,聚类算法为K-means聚类算法或DBSCAN聚类算法。
对聚类所得到的簇进行人工筛选,保留下来的簇内的所有词向量为关键词。人工筛选的目的是筛除明显不能代表分类标签的簇,例如地址类的名词构成的簇等;保留可以代表分类标签的名词和动词所构成的簇,例如“饮酒”或者“驾驶”等动词所构成的簇,以及相应对象所在的簇,例如“机动车”、“营运机动车”或者“酒精”等名词。
S200,获取用户指定的第m个待更新的分类标签中的第q个文本条目Um q,获取Um q的R个词向量集合Vm q={Vm q1,Vm q2,…,Vm qr…,Vm qR},其中,Vm qr为Vm q中的第r个词向量,Vm qr与Di j的向量维度相同,R为Vm q中词向量的数量。
可以理解的是,S100与S200之间的先后顺序不做限定。可以先进行步骤S100之后,再执行S200;也可以先执行S200,再执行步骤S100;还可以是S100和S200同时进行。
其中,待更新的分类标签为用户指定的需要更新文本条目的分类标签的类别。
其中,获取Vm q的R个词向量集合的步骤与待匹配的分类标签中获取词向量集合的方式相同:首先,对Vm q进行分词得到MX个词,然后利用常用词、数字和标点对分词结果进行过滤,并去除过滤后的词中的重复词,得到R个词;将R个词转为R个词向量。词向量集合Vm q中的任意两个词向量之间满足Vm qi≠Vm qj,其中i和j的取值范围均为1到R且i≠j,能够进一步减少计算量,同时消除多个相同词向量对最终结果造成的影响。
可选的,分词的模型为中文分词模型。可选的,中文分词模型为jieba分词模型。
可选的,词向量的模型为word2vec模型。通过该词向量模型将每一个词都映射为一个d维的浮点数向量。
需要说明的是,每个待更新的分类标签中包括多个文本条目,在分词时需要对每个文本条目进行分词,每个文本条目对应多个词。
优选的,第m个类别中第q个文本条目中第r个词向量Vm qr和第i个类别中第j个关键词Di j均为d维向量,其中r的取值范围为1到R,j的取值范围为1到J。d为预设的向量维度,例如d的取值为200,表示Vm qr和Di j均为200维的向量。
S300,分别获取Vm q与每个待匹配的分类标签中所有关键词词向量之间的综合相似度SIM={SIM1,SIM2,…,SIMi,…,SIML},其中,SIMi为第m个待更新的分类标签中第q个文本条目Vm q与第i个待匹配的分类标签Di的综合相似度,SIMi为Vm q中R个词向量与Di中J个关键词词向量之间的向量相似度的加权求和。
其中,综合相似度SIMi满足:
SIMi=(1/J)×∑J j=1 [(1/R)×∑R r=1 (E(Vm qr)×ES(Vm qr,Di j))];
其中,E(Vm qr)为Vm qr的权重,ES(Vm qr, Di j)为第r个词向量Vm qr与第i个待匹配的分类标签中的第j个关键词Di j之间的向量相似度。
可选的,E(Vm qr)的取值为1。
可选的,向量相似度ES(Vm qr,Di j)为Vm qr与Di j之间的余弦相似度、距离相似度、或者Vm qr与Di j余弦相似度和距离相似度之和。
优选的,向量相似度ES(Vm qr,Di j)=S1(Vm qr,Di j)+S2(Vm qr,Di j)。其中,S1(Vm qr,Di j)为第r个词向量Vm qr与第i个待匹配的分类标签中的第j个关键词Di j之间的第一向量相似度,S2(Vm qr,Di j)为第r个词向量Vm qr与第i个待匹配的分类标签中的第j个关键词Di j之间的第二向量相似度。S1(Vm qr,Di j)与S2(Vm qr,Di j)不同。
可选的,第一向量相似度S1(Vm qr,Di j)为词向量Vm qr与Di j之间的余弦相似度。
可选的,第二向量相似度S2(Vm qr,Di j)为距离相似度,所述距离相似度和Vm qr与Di j之间的欧氏距离负相关。
优选的,第二向量相似度S2(Vm qr,Di j)=-dis(Vm qr,Di j),其中dis(Vm qr,Di j)为词向量Vm qr与Di j之间的欧式距离。
优选的,第二向量相似度S2(Vm qr,Di j)=1/dis(Vm qr,Di j)。
利用两个文本向量在空间向量的方向差异以及多维空间的绝对距离来评价词向量Vm qr与Di j之间的相似度,第一向量相似度和第二向量相似度两者相互补充,能够使得到的相似度更加准确。
S400,获取SIM中的最大值,在最大值大于相似度阈值时,将第m个待更新的分类标签中第q个文本条目的类别标签更新为最大值对应的类别标签。
如果综合相似度中的最大值高于相似度阈值,则说明第m个待更新类别中第q个文本条目与最大值对应的类别相似度最高,因此将第m个待更新类别中第q个文本条目的分别标签更新为最大值对应的分类标签。
其中,相似度阈值为预设值。可选的,相似度阈值为0.8。
综上所述,本发明实施例提供了一种分类标签的更新方法,通过对第m个待更新的分类标签中第q个文本条目Vm q中的文本进行分词,并将分词结果转为词向量,为了计算Vm q与第i个待匹配的分类标签之间的相似度,需要计算第i个待匹配的分类标签中每个关键词分别与Vm q中每个词向量之间的综合相似度,在综合相似度大于相似度阈值时,将第q个文本条目对应的分类标签更新为最大值对应的分类标签,解决了现有技术中无法消除人为主观因素对分类的影响的技术问题。
但是由于利用聚类得到的簇内的所有词向量作为关键词参与后续与待更新的文本条目所对应的词向量一对一进行相似度的计算,不仅计算量大,而且对于簇内距离簇中心点较远的关键词来说,其计算得到的相似度相对来说与该簇的平均语义相差较大,相似度的可靠程度交底,导致的相似度准确率低,进一步标签更新的准确率也被降低。为了解决该问题,S100进一步优化为:获取用户指定的L个待匹配的分类标签,对第i个待匹配的分类标签Di对应的词向量进行K-means聚类得到Y个簇的簇中心点T={T1,T2,…,TY}。
优选的,聚类算法为K-means算法,获取簇中心点的方法包括:
S131,初始迭代值为K,迭代值每次迭代的步长为d,第x次迭代的迭代值为K+xd,x≥0;随机选取K+xd个词向量作为聚类中心点对Vi进行聚类,得到K+xd个簇{C1,C2,…,CK+xd}。
其中,初始迭代值为用户指定的初始的K值。可选的,初始迭代值K=1,或者K=3。优选的,K=3。
其中,迭代的步长为在当前这次聚类完成之后,下次的迭代值与当前迭代值的差值,也即当前的迭代值加上步长即为下次的迭代值。
则当迭代次数为0时,迭代值为K,初始聚类的簇数为K;当迭代次数为1时,迭代值为K+d,第一次聚类的簇数为K+d簇;当迭代次数为2时,迭代值为K+2d,第一次聚类的簇数为K+2d簇;以此类推。
可选的,迭代的步长d=1。
S132,根据每次聚类得到的簇,计算x次迭代的误差平方和的集合Er={Er(K),Er(K+1),…,Er(K+x)},其中第c次迭代得到的K+cd个簇的误差平方和Er(K+c)满足:
Er(K+c)=∑K+cd h=1G g=1∣Vh,g-Th2
式中,Vh,g为第h个簇中第g个词向量,Th为第h个簇的簇中心点,G为第h个簇中词向量的总数量,K+cd为簇的总数量,c的取值范围为0到x。
S133,计算Er中每次迭代的误差平方和的变化率得到变化率集合,在变化率集合中变化率最小的误差平方和对应的迭代值为最佳的K值,所述最佳的K值为Y。
其中,第c次迭代的误差平方和Er(K+c)的变化率λK+c满足:
λK+c=∣Er(K+c-1)-Er(K+c)∣-∣Er(K+c)-Er(K+c+1)∣;
其中,Er(K+c-1)为第c-1次迭代的误差平方和,Er(K+c+1)为第c+1次迭代的误差平方和。
对于x次迭代,计算每次迭代结果的误差平方和,从对第一次迭代的结果计算变化率λK+1开始到对倒数第二次迭代的结果计算变化率λK+x-1为止,得到x次迭代对应的变化率集合λ={λK+1,λK+2,…,λK+f,…,λK+x},在变化率集合λ中变化率最小值的误差平方和对应的迭代值为最佳的K值,该最佳K值为Y,也即将Vi聚为Y个簇具有最佳的聚类效果,Y个簇分别对应的Y个簇中心点。
且对S300做进一步的优化:获取Vm q分别与每个待匹配的分类标签中簇中心点之间的综合相似度,得到综合相似度集合SIM={SIM1,SIM2,…,SIMi,…,SIML}。
其中,综合相似度集合中SIMi为Vm q中R个词向量与Di对应的簇中心点T之间向量相似度的加权求和,其中i的取值范围为1到L;其中S0(Vm q,Di)满足:
S0(Vm q,Di)=(1/Y)×∑Y y=1[(1/R)×∑R r=1(E(Vm qr)×ES(Vm qr,Ty))];
其中,E(Vm qr)为第r个词向量Vm qr的权重,ES(Vm qr,Ty)为第r个词向量Vm qr与第i个待匹配的分类标签Di对应的簇中心点T中第y个簇中心点Ty之间的向量相似度。
可选的,ES(Vm qr,Ty)为Vm qr与Ty之间的余弦相似度、Vm qr与Ty之间的距离相似度、或者Vm qr与Ty之间的余弦相似度和距离相似度之和。
优选的,向量相似度ES(Vm qr,Ty)=S1(Vm qr,Ty)+S2(Vm qr,Ty)。其中,S1(Vm qr,Ty)为Vm qr与Ty之间的第一向量相似度,S2(Vm qr,Ty)为Vm qr与Ty之间的第二向量相似度。S1(Vm qr,Ty)和S2(Vm qr,Ty)不同。
可选的,第一向量相似度S1(Vm qr,Ty)为词向量Vm qr和Ty之间的余弦相似度。
可选的,第二向量相似度S2(Vm qr,Ty)与Vm qr和Ty之间的欧氏距离负相关。
优选的,第二向量相似度S2(Vm qr,Ty)=-dis(Vm qr,Ty),其中dis(Vm qr,Ty)为Ty和Vm qr之间的欧式距离。
优选的,第二向量相似度S2(Vm qr,Ty)=1/dis(Vm qr,Ty)。
综上所述,该方法进一步通过提取每个簇的簇中心点的语义向量,簇中心点的语义向量能够表征相应簇的平均语义,计算Vm q中词向量与簇中心点之间的相似度,相较于计算Vm q中词向量与簇中每一个词向量之间的相似度而言,能够大幅度的降低计算量,提高了标签更新的效率。同时进一步的消除了与簇中心点距离较远的词向量导致的相似度准确率低的问题,进一步的提高了标签更新的准确率。
在上述任意一个实施例中,由于多次出现的词向量不仅会被重复计算,增加了系统的运算量,导致标签更新的效率较低;并且由于同一个标签下的重复的词向量在聚类时会导致聚类中心偏向重复的词向量,进而导致聚类得到的分类结果不准确,在根据分类结果计算综合相似度的准确性也会受到影响,进而导致待分类标签的更新结果不准确。为了解决该问题,对S120进行进一步的优化以及权重E(Vm qr)的获取步骤:
进一步优化S120,对Wi进行分词得到X个词,对X个词中的常用词、数字和标点进行过滤且并去除重复词得到M个词;将M个词转为词向量得到M个词向量集合Vi={Vi 1,Vi 2,…,Vi M},其中M为正整数。词向量集合Vi中的任意两个词向量之间满足Vi h≠Vi f,其中h和f的取值范围均为1到M且h≠f。
其中,去除重复词的方法为比较两个词是否相同,将相同的词视为重复的词,只保留其中任意一个词,将其他的重复词删除,也即得到的M个词中没有重复的词语。
其中,第r个词向量的权重E(Vm qr)的获取步骤包括:
S310,获取语料库中所有的A个父标签seg={seg1,seg2,…,segA},第a个父标签包括Sum(a)个子标签sega={sega,1,sega,2,…,sega,Sum(a)},a的取值范围为1到A,且子标签的总数量SA满足SA=∑A a=1Sum(a),其中,Sum(a)的函数值为整数。
需要说明的是,在上述实施例中的分类标签均为子标签,子标签为父标签进一步细分得到的标签,例如,父标签“酒驾”下包括子标签“饮酒驾驶”、“醉酒驾驶”等。子标签和父标签均为用户指定的分类标签。
S320,获取Vm qr所在的第m个待更新的子标签sega,m,对sega,m中所有的文本条目进行分词得到的MX个词,统计Vm qr所对应的词在sega,m中出现的次数得到F(Vm qr)。
需要说明的是,在词向量集合中词向量是唯一的,多个重复词对应的同一个词向量,在去重操作时已经将词向量做了去重处理,因此,统计F(Vm qr)时,需要在去重处理之前的词语中进行统计,也即需要利用词向量Vm qr对应的词,在去重之前的词中统计该词出现的次数。
S330,获取在SA个子标签中包括Vm qr所对应的词的子标签的数量U(Vm qr)。
S340,根据F(Vm qr)、U(Vm qr)和SA计算E(Vm qr),其中E(Vm qr)分别与F(Vm qr)和SA正相关、与U(Vm qr)负相关。
优选的,E(Vm qr)满足:
E(Vm qr)=F(Vm qr)×log(SA/(U(Vm qr)+1));
可选的,log的底数为10、e或者2。
E(Vm qr)能够反映出Vm qr在第m个标签中的重要性,log(N/(U(Vm qr)+1))能够反映出Vm qr对于第m个待更新的分类标签中的特有性。若Vm qr为通用词,则E(Vm qr)值较小;而Vm qr在第m个待更新的分类标签中出现的频率高且在所有标签中出现的频率低,那么Vm qr对第m个待更新的分类标签来说重要性高,E(Vm qr)值较大。
由于在计算相似度时利用重复词出现的频率F(Vm qr)调整重复词对应的词向量的权重,因此能够在保证重复词对于标签权重的情况下,使聚类的过程中不受重复词的影响,提高聚类的准确性,同时利用SA/(U(Vm qr)降低第m个待更新的分类标签中通用词的权重,提高第m个待更新的分类标签中特有词的权重。将E(Vm qr)作为融合相似度的权重能够使综合相似度相对于单纯的采用一种向量相似度来评估整体相似度而言更加准确。
基于与上述方法实施例相同的发明构思,本发明实施例还提供了一种分类标签更新系统,所述系统包括处理器和非瞬时性计算机可读存储介质,所述非瞬时性计算机可读存储介质中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由处理器加载并执行以实现上述任意一个实施例所描述的分类标签更新方法,该分类标签更新方法在上述实施例已经详细说明,不再赘述。
需要说明的是:上述本发明实施例先后顺序仅仅为了描述,不代表实施例的优劣。且上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种分类标签更新方法,其特征在于,该方法包括:
S100,获取用户指定的L个待匹配的分类标签{D1,D2,…,Di,…,DL},其中,Di为第i个待匹配的分类标签,i的取值范围为1到L,L为待匹配的分类标签的数量;Di具有J个关键词词向量{Di 1,Di 2,…,Di j,…,Di J},其中,Di j为Di中的第j个关键词词向量,j的取值范围为1到J,J为Di中关键词词向量的数量;
S200,获取用户指定的第m个待更新的分类标签中的第q个文本条目Um q,获取Um q的R个词向量集合Vm q={Vm q1,Vm q2,…,Vm qr…,Vm qR},其中,Vm qr为Vm q中的第r个词向量,Vm qr与Di j的向量维度相同,R为Vm q中词向量的数量;
S300,计算Vm q分别与每个待匹配的分类标签中所有关键词词向量之间的综合相似度SIM={SIM1,SIM2,…,SIMi,…,SIML},其中,SIMi为Vm q与Di之间的综合相似度,SIMi为Vm q中R个词向量与Di中J个关键词词向量之间的向量相似度的加权求和;
S400,获取SIM中的最大值,在最大值大于相似度阈值时,将第m个待更新的分类标签中第q个文本条目的分类标签更新为最大值对应的分类标签。
2.根据权利要求1所述的更新方法,其特征在于,所述S100包括:
S110,根据第i个待匹配的分类标签Di索引所有的相应文本条目,得到待匹配的N个文本条目集合Wi={Wi 1,Wi 2,…,Wi N},其中N为Wi中文本条目的数量;
S120,对Wi进行分词得到X个词,对X个词中的常用词、数字和标点进行过滤得到M个词;将M个词分别转为词向量得到M个词向量集合Vi={Vi 1,Vi 2,…,Vi M},其中M为Vi中词向量的数量;
S130,对Vi进行聚类得到Y个簇,提取Y个簇中的词向量,得到Di的J个关键词词向量{Di 1,Di 2,…,Di j,…,Di J}。
3.根据权利要求2所述的更新方法,其特征在于,S130中的聚类采用K-means聚类算法。
4.根据权利要求2所述的更新方法,其特征在于,S120中,利用word2vec词向量模型将M个词转为词向量。
5.根据权利要求1所述的更新方法,其特征在于,S300中SIMi满足:
SIMi=(1/J)×∑J j=1 [(1/R)×∑R r=1 (E(Vm qr)×ES(Vm qr,Di j))];
其中,ES(Vm qr,Di j)为Vm qr与Di j之间的相似度,E(Vm qr)为Vm qr的权重。
6.根据权利要求5所述的更新方法,其特征在于,所述ES(Vm qr,Di j)为Vm qr与Di j之间的余弦相似度或者距离相似度。
7.根据权利要求5所述的更新方法,其特征在于,所述ES(Vm qr,Di j)为Vm qr与Di j余弦相似度和距离相似度之和。
8.根据权利要求7所述的更新方法,其特征在于,所述距离相似度与Vm qr与Di j之间的欧氏距离负相关。
9.根据权利要求8所述的更新方法,其特征在于,所述距离相似度为欧氏距离的倒数。
10.一种分类标签更新系统,所述系统包括处理器和非瞬时性计算机可读存储介质,所述非瞬时性计算机可读存储介质中存储有至少一条指令或至少一段程序,其特征在于,所述至少一条指令或所述至少一段程序由处理器加载并执行以实现权利要求1-9任意一项所述的更新方法。
CN202211238893.4A 2022-10-11 2022-10-11 一种分类标签更新方法及系统 Active CN115310564B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211238893.4A CN115310564B (zh) 2022-10-11 2022-10-11 一种分类标签更新方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211238893.4A CN115310564B (zh) 2022-10-11 2022-10-11 一种分类标签更新方法及系统

Publications (2)

Publication Number Publication Date
CN115310564A true CN115310564A (zh) 2022-11-08
CN115310564B CN115310564B (zh) 2023-01-13

Family

ID=83867647

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211238893.4A Active CN115310564B (zh) 2022-10-11 2022-10-11 一种分类标签更新方法及系统

Country Status (1)

Country Link
CN (1) CN115310564B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108197117A (zh) * 2018-01-31 2018-06-22 厦门大学 一种基于文档主题结构与语义的中文文本关键词提取方法
CN111241273A (zh) * 2018-11-29 2020-06-05 北京京东尚科信息技术有限公司 文本数据分类方法、装置、电子设备及计算机可读介质
CN112966072A (zh) * 2021-03-11 2021-06-15 暨南大学 案件的预判方法、装置、电子装置和存储介质
CN113590763A (zh) * 2021-09-27 2021-11-02 湖南大学 一种基于深度学习的相似文本检索方法、装置及存储介质
CN113934848A (zh) * 2021-10-22 2022-01-14 马上消费金融股份有限公司 一种数据分类方法、装置和电子设备
CN114443850A (zh) * 2022-04-06 2022-05-06 杭州费尔斯通科技有限公司 基于语义相似模型的标签生成方法、系统、装置和介质
CN114691866A (zh) * 2022-03-09 2022-07-01 航空工业信息中心 面向多级标签的文本分类方法、装置、设备及存储介质
CN114936277A (zh) * 2022-01-28 2022-08-23 中国银联股份有限公司 相似问题匹配方法和户相似问题匹配系统

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108197117A (zh) * 2018-01-31 2018-06-22 厦门大学 一种基于文档主题结构与语义的中文文本关键词提取方法
CN111241273A (zh) * 2018-11-29 2020-06-05 北京京东尚科信息技术有限公司 文本数据分类方法、装置、电子设备及计算机可读介质
CN112966072A (zh) * 2021-03-11 2021-06-15 暨南大学 案件的预判方法、装置、电子装置和存储介质
CN113590763A (zh) * 2021-09-27 2021-11-02 湖南大学 一种基于深度学习的相似文本检索方法、装置及存储介质
CN113934848A (zh) * 2021-10-22 2022-01-14 马上消费金融股份有限公司 一种数据分类方法、装置和电子设备
CN114936277A (zh) * 2022-01-28 2022-08-23 中国银联股份有限公司 相似问题匹配方法和户相似问题匹配系统
CN114691866A (zh) * 2022-03-09 2022-07-01 航空工业信息中心 面向多级标签的文本分类方法、装置、设备及存储介质
CN114443850A (zh) * 2022-04-06 2022-05-06 杭州费尔斯通科技有限公司 基于语义相似模型的标签生成方法、系统、装置和介质

Also Published As

Publication number Publication date
CN115310564B (zh) 2023-01-13

Similar Documents

Publication Publication Date Title
CN111104794B (zh) 一种基于主题词的文本相似度匹配方法
US8280719B2 (en) Methods and systems relating to information extraction
CN111581354A (zh) 一种faq问句相似度计算方法及其系统
US20140214835A1 (en) System and method for automatically classifying documents
CN110134777B (zh) 问题去重方法、装置、电子设备和计算机可读存储介质
CN109934251B (zh) 一种用于小语种文本识别的方法、识别系统及存储介质
CN110858217A (zh) 微博敏感话题的检测方法、装置及可读存储介质
CN115186665B (zh) 一种基于语义的无监督学术关键词提取方法及设备
CN110866102A (zh) 检索处理方法
CN115048464A (zh) 用户操作行为数据的检测方法、装置及电子设备
CN110287493B (zh) 风险短语识别方法、装置、电子设备及存储介质
CN116362243A (zh) 一种融入句子间关联关系的文本关键短语提取方法、存储介质及装置
CN115062621A (zh) 标签提取方法、装置、电子设备和存储介质
CN112395881B (zh) 物料标签的构建方法、装置、可读存储介质及电子设备
CN111339778B (zh) 文本处理方法、装置、存储介质和处理器
CN111460808B (zh) 同义文本识别及内容推荐方法、装置及电子设备
CN111125329B (zh) 一种文本信息筛选方法、装置及设备
CN115310564B (zh) 一种分类标签更新方法及系统
CN113010669B (zh) 一种新闻分类方法和系统
Yafooz et al. Enhancing multi-class web video categorization model using machine and deep learning approaches
CN114281942A (zh) 问答处理方法、相关设备及可读存储介质
CN112651590B (zh) 一种指令处理流程推荐的方法
CN113407700A (zh) 一种数据查询方法、装置和设备
CN113934833A (zh) 训练数据的获取方法、装置、系统及存储介质
CN115964658B (zh) 一种基于聚类的分类标签更新方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant