CN114443850A - 基于语义相似模型的标签生成方法、系统、装置和介质 - Google Patents

基于语义相似模型的标签生成方法、系统、装置和介质 Download PDF

Info

Publication number
CN114443850A
CN114443850A CN202210356249.0A CN202210356249A CN114443850A CN 114443850 A CN114443850 A CN 114443850A CN 202210356249 A CN202210356249 A CN 202210356249A CN 114443850 A CN114443850 A CN 114443850A
Authority
CN
China
Prior art keywords
word
text
label
vectors
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210356249.0A
Other languages
English (en)
Other versions
CN114443850B (zh
Inventor
周泽伟
杨红飞
程东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huoshi Creation Technology Co ltd
Original Assignee
Hangzhou Firestone Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Firestone Technology Co ltd filed Critical Hangzhou Firestone Technology Co ltd
Priority to CN202210356249.0A priority Critical patent/CN114443850B/zh
Publication of CN114443850A publication Critical patent/CN114443850A/zh
Application granted granted Critical
Publication of CN114443850B publication Critical patent/CN114443850B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及一种基于语义相似模型的标签生成方法、系统、装置和介质,其中,该方法包括:将待标注文本进行分词得到若干文本词汇,并计算其词向量;对文本词汇进行层次聚类,得到预设个数的词簇集合;根据词簇集合中文本词汇的词向量,计算词簇集合的中心点向量;根据中心点向量和词簇集合中文本词汇的词向量,从词向量中得出各个词簇集合的核心语义关键词;分别计算核心语义关键词与预设标签列表中各个标签分类词的相似距离,生成待标注文本的标签,通过本申请,解决了文本标签生成不灵活、可扩展性差的问题,兼顾了模型准确率与模型预测时间之间的平衡,实现了较强的可扩展性,能覆盖到较广范围的具体项目的实际应用中。

Description

基于语义相似模型的标签生成方法、系统、装置和介质
技术领域
本申请涉及自然语言处理领域,特别是涉及一种基于语义相似模型的标签生成方法、系统、装置和介质。
背景技术
文本标签生成技术主要是应用于文本分类或者为文本打上相应的标签,该技术的实现一般基于关键词规则匹配与机器学习模型。
目前,一般关键词规则匹配使用范围窄,可扩展性差;同时,一般机器学习模型的标签生成准确率与模型预测时间需要平衡,以及需要考虑到使用范围的扩展性。本发明的目的是解决上述两个问题,本发明平衡了标签生成的准确率与模型预测时间,具有使用范围广,可扩展性强的特点。
目前针对相关技术中文本标签生成不灵活、可扩展性差的问题,尚未提出有效的解决方案。
发明内容
本申请实施例提供了一种基于语义相似模型的标签生成方法、系统、装置和介质,以至少解决相关技术中文本标签生成不灵活、可扩展性差的问题。
第一方面,本申请实施例提供了一种基于语义相似模型的标签生成方法,所述方法包括:
将待标注文本进行分词,得到若干文本词汇,计算所述文本词汇的词向量;
初始化设置所述文本词汇为若干初始集合,根据所述文本词汇的词向量,搜寻距离最近的两个初始集合进行聚类合并,得到若干词簇集合,继续将所述初始集合和所述词簇集合进行所述聚类合并,直至得到预设个数的词簇集合;
根据词簇集合中文本词汇的词向量,计算所述词簇集合的中心点向量;
根据所述中心点向量和词簇集合中文本词汇的词向量,从所述词向量中得出各个词簇集合的核心语义关键词;
分别计算所述核心语义关键词与预设标签列表中各个标签分类词的相似距离,生成所述待标注文本的标签。
在其中一些实施例中,根据所述中心点向量和词簇集合中文本词汇的词向量,从所述词向量中得出各个词簇集合的核心语义关键词包括:
通过算法公式
Figure DEST_PATH_IMAGE001
从所述词 向量中计算出各个词簇集合的核心语义关键词V_SELECT,其中,V_CENTER为词簇集合的中 心点向量,Vl为所述词簇集合中第l个文本词汇的词向量,Wi为词向量第i维的数值,N为词 向量的维度,L为所述词簇集合中的文本词汇个数;Min表示取最小值。
在其中一些实施例中,根据词簇集合中文本词汇的词向量,计算所述词簇集合的中心点向量包括:
通过算法公式
Figure 734249DEST_PATH_IMAGE002
计算出所述词簇集合的中心点 向量V_CENTER,其中,Vi为所述词簇集合中第i个文本词汇的词向量,Wj为词向量第j维的数 值,N为词向量的维度,L为所述词簇集合中的文本词汇个数。
在其中一些实施例中,分别计算所述核心语义关键词与预设标签列表中各个标签分类词的相似距离包括:
通过算法公式
Figure DEST_PATH_IMAGE003
计 算出所述核心语义关键词与预设标签列表中标签分类词的相似距离,其中,Vl为所述待标 注文本中第l个核心语义关键词的词向量,V_LABEL_j为预设标签列表中第j个标签分类词 的词向量,Wi为词向量第i维的数值,N为词向量的维度,K为所述核心语义关键词的个数。
在其中一些实施例中,生成所述待标注文本的标签包括:
依次判断所述相似距离是否小于预设阈值,若是,则将所述相似距离对应的标签分类词与所述待标注文本关联,根据所述标签分类词生成所述待标注文本的标签。
在其中一些实施例中,将待标注文本进行分词,得到若干文本词汇包括:
通过预设分词工具对待标注文本进行分词,得到若干文本词汇,其中,所述预设分词工具包括THULAC分词工具和jieba分词工具。
在其中一些实施例中,计算所述文本词汇的词向量包括:
通过预设词嵌入算法计算所述文本词汇的词向量,其中,所述词嵌入算法包括Word2Vec算法和BERT算法。
第二方面,本申请实施例提供了一种基于语义相似模型的标签生成系统,所述系统包括分词嵌入模块、层次聚类模块、关键词模块和标签生成模块;
所述分词嵌入模块用于将待标注文本进行分词,得到若干文本词汇,计算所述文本词汇的词向量;
所述层次聚类模块用于初始化设置所述文本词汇为若干初始集合,根据所述文本词汇的词向量,搜寻距离最近的两个初始集合进行聚类合并,得到若干词簇集合,继续将所述初始集合和所述词簇集合进行所述聚类合并,直至得到预设个数的词簇集合;
所述关键词模块用于根据词簇集合中文本词汇的词向量,计算所述词簇集合的中心点向量;根据所述中心点向量和词簇集合中文本词汇的词向量,从所述词向量中得出各个词簇集合的核心语义关键词;
所述标签生成模块用于分别计算所述核心语义关键词与预设标签列表中各个标签分类词的相似距离,生成所述待标注文本的标签。
第三方面,本申请实施例提供了一种电子装置,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述第一方面所述的基于语义相似模型的标签生成方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述第二方面所述的基于语义相似模型的标签生成方法。
相比于相关技术,本申请实施例提供的一种基于语义相似模型的标签生成方法、系统、装置和介质,通过将待标注文本进行分词,得到若干文本词汇,计算文本词汇的词向量;初始化设置文本词汇为若干初始集合,根据文本词汇的词向量,搜寻距离最近的两个初始集合进行聚类合并,得到若干词簇集合,继续将初始集合和词簇集合进行聚类合并,直至得到预设个数的词簇集合;根据词簇集合中文本词汇的词向量,计算词簇集合的中心点向量;根据中心点向量和词簇集合中文本词汇的词向量,从词向量中得出各个词簇集合的核心语义关键词;分别计算核心语义关键词与预设标签列表中各个标签分类词的相似距离,生成待标注文本的标签,解决了文本标签生成不灵活、可扩展性差的问题,兼顾了模型准确率与模型预测时间之间的平衡,实现了较强的可扩展性,能覆盖到较广范围的具体项目的实际应用中。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请实施例的基于语义相似模型的标签生成方法的步骤流程图;
图2是根据本申请实施例的基于语义相似模型的标签生成系统的结构框图;
图3是根据本申请实施例的电子设备的内部结构示意图。
附图说明:21、分词嵌入模块;22、层次聚类模块;23、关键词模块;24、标签生成模块。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行描述和说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。基于本申请提供的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
显而易见地,下面描述中的附图仅仅是本申请的一些示例或实施例,对于本领域的普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图将本申请应用于其他类似情景。此外,还可以理解的是,虽然这种开发过程中所作出的努力可能是复杂并且冗长的,然而对于与本申请公开的内容相关的本领域的普通技术人员而言,在本申请揭露的技术内容的基础上进行的一些设计,制造或者生产等变更只是常规的技术手段,不应当理解为本申请公开的内容不充分。
在本申请中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域普通技术人员显式地和隐式地理解的是,本申请所描述的实施例在不冲突的情况下,可以与其它实施例相结合。
除非另作定义,本申请所涉及的技术术语或者科学术语应当为本申请所属技术领域内具有一般技能的人士所理解的通常意义。本申请所涉及的“一”、“一个”、“一种”、“该”等类似词语并不表示数量限制,可表示单数或复数。本申请所涉及的术语“包括”、“包含”、“具有”以及它们任何变形,意图在于覆盖不排他的包含;例如包含了一系列步骤或模块(单元)的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可以还包括没有列出的步骤或单元,或可以还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。本申请所涉及的“连接”、“相连”、“耦接”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电气的连接,不管是直接的还是间接的。本申请所涉及的“多个”是指两个或两个以上。“和/或”描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。本申请所涉及的术语“第一”、“第二”、“第三”等仅仅是区别类似的对象,不代表针对对象的特定排序。
本申请实施例提供了一种基于语义相似模型的标签生成方法,图1是根据本申请实施例的基于语义相似模型的标签生成方法的步骤流程图,如图1所示,该方法包括以下步骤:
步骤S102,将待标注文本进行分词,得到若干文本词汇,计算文本词汇的词向量;
具体地,通过预设分词工具对待标注文本进行分词,得到若干文本词汇,通过预设词嵌入算法计算文本词汇的词向量,其中,预设分词工具包括但不限于THULAC分词工具和jieba分词工具;词嵌入算法包括但不限于Word2Vec算法和BERT算法。
优选地,假设输入待标注文本“原神 一起去新天地冒险吧 立即下载 原神”,采用分词工具(如THULAC、jieba分词、哈工大的LTP等)得到若干文本词汇“原神 | 一起 | 去 |新天地 | 冒险 | 吧 | 立即 | 下载 | 原神”,再通过词嵌入算法(如Bert、word2vec等)得到各个文本词汇的词向量如下:原神:[0.42469802 0.08802186 0.2853215 -0.48638964 -0.6230728 -0.70477460.4945337 1.2566687 -0.17913796 -0.423691180.4977282 -0.33415303 1.2347499 1.1930337 0.51374805 0.91994804 -0.70886075 -0.4691273 -1.1471336 -0.5088495-0.31905976 -1.4938208 -0.09018043 -0.10618938 0.11279639 0.222118140.45901206 -0.38901812 -0.42876673 -2.32288530.37945002 0.58088416];一起:[-1.6414598 0.95705235 0.6393121 1.0176244 0.2746066 0.9978276 -4.226699 2.334568 1.5408924 -3.29347420.52857864 -0.64769465 -7.593346 1.2912569 -0.28171125-3.8727374 -0.90557116 1.7110124 0.39683253 -6.410930.2341823 -4.8999124 -0.47043678 -0.16697234 -1.4693865-2.3039536 -0.42026693 4.329778 0.88015056 -2.07346872.6402948 -0.4511141];去:[-1.9031266 -2.8371859 0.27924415 -1.8986939 1.14846442.595208 -4.679209 1.324284 2.0293486 -3.4399495-1.4304163 1.3717887 -8.982302 0.21778306 -3.1690974-2.4770646 1.503651 2.7916336 0.6282288 -3.7816656-1.3105294 0.42651665 -2.405412 -1.1926383 0.5475887-3.5449975 -1.2047628 1.9605174 0.13223659 -2.96694452.6410055 -0.33723852];新天地:[-0.11872965 0.08149788 -1.4408684 -0.49612924 1.4673253 -3.2387486 2.5427182 0.708592 -2.1570175 0.5203028-3.6954303 2.7719023 0.93770796 -1.1167578 -0.04272039 -1.3974430.50132596 3.9892418 0.5339715 -1.60807344.18693 -0.19431356 -1.0330347 1.5391058 2.3048-0.71662915 1.8508694 0.04112947 -4.822595 -3.67381831.103161 2.2785928];冒险:[-2.0396042 -2.619467 1.511167 -3.985392 0.18290085-2.2843277 -2.566535 4.820677 -0.60243106 -2.20326610.54757905 0.34254843 0.23628 3.420111 1.4944948-3.7414339 -2.6000648 0.11651406 -2.2757022 -4.1689396 -1.8402563 -5.1943555 2.5105536 1.4131982 -1.38539910.5027256 -2.6252513 -0.82116073 -1.8567455 -6.994954-0.41701564 -1.4369024];吧:[-0.7010415 2.3374808 -0.75740755 -4.304561 3.73316340.9798 -2.2633524 3.70071 -0.7744246 -4.24647141.3874322 1.9157615 -6.2738094 0.91235054 -3.7836652 -0.8385296 -0.43506786 2.7735174 -2.1208959 -5.402918 1.6570529 -3.0840173 -0.7582686 3.6905906 -2.8092256 -0.90222824 -3.0004568 6.3049340.9695382 -6.72158774.216572 1.1971864];立即:[-3.2336922 1.9255701 -1.4932973 0.13945788 2.8103013 7.9426985 -1.6662611 -0.06120035 1.6888058 -4.272214 -0.16207987 2.6777744 -6.1523423 1.437423 -1.3304111 -3.8970494 2.3074832 0.22207190.32177252 1.1643796-1.2075183 -1.03807 -2.330601 -1.912265 0.5221586-1.0981721 1.5967995 0.8107143 0.38152733 -1.2200392.5726552 -2.0123644];下载: [-0.85923624 -0.371434 4.2333846 -0.39569533 2.7654943 -3.7123337-1.0066513 -1.6060812 4.1668854 -2.696111 0.16108409 9.821048 0.46212762.3589056 -0.10650773-0.9778401 0.42995185 0.6406851 -9.512161 1.0247332-3.1859524 -5.0010366 -4.739097 0.31711522 -3.00129151.5234387 -0.7456441 -2.8500197 -1.4898897 -6.9807925-3.1814556 1.6959637]。
步骤S104,初始化设置文本词汇为若干初始集合,根据文本词汇的词向量,搜寻距离最近的两个初始集合进行聚类合并,得到若干词簇集合,继续将初始集合和词簇集合进行聚类合并,直至得到预设个数的词簇集合;
优选地,利用层次聚类方法思想,初始化设置N维空间的每个文本词汇为M个初始集合(如上述步骤S102优选中待标注文本的文本词汇是32维的、有9个,即N=32、M=9);然后搜寻距离最近的2个初始集合合并成1个集合;接着继续搜寻距离最近的2个集合合并成1个集合;如此反复执行上述合并步骤,直到最后形成的词簇集合的个数满足预设个数K。
以上述步骤S102的优选为例,设定K=2,经过步骤S104的层次聚类,得到两个词簇集合,分别为:
词簇集合1:[原神 冒险 立即 下载];
词簇集合2:[一起 去 新天地 吧]。
步骤S106,根据词簇集合中文本词汇的词向量,计算词簇集合的中心点向量;
具体地,通过算法公式
Figure 323494DEST_PATH_IMAGE002
计算出词簇集合的中 心点向量V_CENTER,其中,Vi为词簇集合中第i个文本词汇的词向量,Wj为词向量第j维的数 值,N为词向量的维度,L为词簇集合中的文本词汇个数。
步骤S108,根据中心点向量和词簇集合中文本词汇的词向量,从词向量中得出各个词簇集合的核心语义关键词;
具体地,通过算法公式
Figure 978597DEST_PATH_IMAGE004
从 词向量中计算出各个词簇集合的核心语义关键词V_SELECT,其中,V_CENTER为词簇集合的 中心点向量,Vl为词簇集合中第l个文本词汇的词向量,Wi为词向量第i维的数值,N为词向 量的维度,L为词簇集合中的文本词汇个数;Min表示取最小值。
优选地,以上述步骤S104的优选为例,经过步骤S106的计算得出两个词簇的中心点向量,再通过步骤S108计算得出:
词簇集合1的核心语义语义词:原神;
词簇集合2的核心语义语义词:新天地。
步骤S110,分别计算核心语义关键词与预设标签列表中各个标签分类词的相似距离,生成待标注文本的标签。
具体地,通过算法公式
Figure DEST_PATH_IMAGE005
计算出核心语义关键词与 预设标签列表中标签分类词的相似距离,其中,Vl为待标注文本中第l个核心语义关键词的 词向量,V_LABEL_j为预设标签列表中第j个标签分类词的词向量,Wi为词向量第i维的数 值,N为词向量的维度,K为核心语义关键词的个数;再生成待标注文本的标签。
优选地,以上述步骤S108的优选为例,假设预设标签列表中的标签分类词为游戏和教育,采用词嵌入算法计算出两者的词向量:游戏:[-2.7808518 0.41961846 -0.54264456 0.02211485 -0.04979197-1.6513786 -3.9122758 0.67012274 1.2189704 -1.29411053.95616 5.886044 1.7551677 3.7951279 2.6051126-5.7468834 -2.6039023 0.43394396 -7.2831016 -1.9458483-1.4982023 -8.956041 3.0637383 -0.577928 -2.3499971.7055703 -3.1995888 1.6963526 -4.9452863 -7.13235571.1273681 -0.5466683];教育:[-0.02953097 -2.1173713 -0.7003877 4.9582105 -1.8854314-1.7531995 -3.2873142 -0.5889249 -1.7152025 1.2804587-5.692385 7.520673 -1.4028773 -1.817927 -1.173675-3.4589016 2.4559987 -0.7553403 0.2188847 -5.4087954-2.4403467 0.22940844 2.2926576 0.90357417 1.69756352.2723484 0.36912856 0.4831917 -1.6271886 -0.872336150.5711816 -2.8528566];再通过步骤S110计算出核心语义关键词(原神、新天地)与标签分类词(游戏)的相似距离为19.93;计算出核心语义关键词(原神、新天地)与标签分类词(教育)的相似距离为7469112。
最后,依次判断相似距离是否小于预设阈值,若是,则将相似距离对应的标签分类词与待标注文本关联,根据标签分类词生成待标注文本的标签,如相似距离19.93小于预设阈值,则为待标注文本“原神 一起去新天地冒险吧 立即下载 原神”生成标签:“游戏”。
通过本申请实施例中的步骤S102至步骤S110,解决了文本标签生成不灵活、可扩展性差的问题,兼顾了模型准确率与模型预测时间之间的平衡,实现了较强的可扩展性,能覆盖到较广范围的具体项目的实际应用中。
需要说明的是,在上述流程中或者附图的流程图中示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本申请实施例提供了一种基于语义相似模型的标签生成系统,图2是根据本申请实施例的基于语义相似模型的标签生成系统的结构框图,如图2所示,系统包括分词嵌入模块21、层次聚类模块22、关键词模块23和标签生成模块24;
分词嵌入模块21用于将待标注文本进行分词,得到若干文本词汇,计算文本词汇的词向量;
层次聚类模块22用于初始化设置文本词汇为若干初始集合,根据文本词汇的词向量,搜寻距离最近的两个初始集合进行聚类合并,得到若干词簇集合,继续将初始集合和词簇集合进行聚类合并,直至得到预设个数的词簇集合;
关键词模块23用于根据词簇集合中文本词汇的词向量,计算词簇集合的中心点向量;根据中心点向量和词簇集合中文本词汇的词向量,从词向量中得出各个词簇集合的核心语义关键词;
标签生成模块24用于分别计算核心语义关键词与预设标签列表中各个标签分类词的相似距离,生成待标注文本的标签。
通过本申请实施例中的分词嵌入模块21、层次聚类模块22、关键词模块23和标签生成模块24,解决了文本标签生成不灵活、可扩展性差的问题,兼顾了模型准确率与模型预测时间之间的平衡,实现了较强的可扩展性,能覆盖到较广范围的具体项目的实际应用中。
需要说明的是,上述各个模块可以是功能模块也可以是程序模块,既可以通过软件来实现,也可以通过硬件来实现。对于通过硬件来实现的模块而言,上述各个模块可以位于同一处理器中;或者上述各个模块还可以按照任意组合的形式分别位于不同的处理器中。
本实施例还提供了一种电子装置,包括存储器和处理器,该存储器中存储有计算机程序,该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。
可选地,上述电子装置还可以包括传输设备以及输入输出设备,其中,该传输设备和上述处理器连接,该输入输出设备和上述处理器连接。
需要说明的是,本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例,本实施例在此不再赘述。
另外,结合上述实施例中的基于语义相似模型的标签生成方法,本申请实施例可提供一种存储介质来实现。该存储介质上存储有计算机程序;该计算机程序被处理器执行时实现上述实施例中的任意一种基于语义相似模型的标签生成方法。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于语义相似模型的标签生成方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
在一个实施例中,图3是根据本申请实施例的电子设备的内部结构示意图,如图3所示,提供了一种电子设备,该电子设备可以是服务器,其内部结构图可以如图3所示。该电子设备包括通过内部总线连接的处理器、网络接口、内存储器和非易失性存储器,其中,该非易失性存储器存储有操作系统、计算机程序和数据库。处理器用于提供计算和控制能力,网络接口用于与外部的终端通过网络连接通信,内存储器用于为操作系统和计算机程序的运行提供环境,计算机程序被处理器执行时以实现一种基于语义相似模型的标签生成方法,数据库用于存储数据。
本领域技术人员可以理解,图3中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的电子设备的限定,具体的电子设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink) DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
本领域的技术人员应该明白,以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种基于语义相似模型的标签生成方法,其特征在于,所述方法包括:
将待标注文本进行分词,得到若干文本词汇,计算所述文本词汇的词向量;
初始化设置所述文本词汇为若干初始集合,根据所述文本词汇的词向量,搜寻距离最近的两个初始集合进行聚类合并,得到若干词簇集合,继续将所述初始集合和所述词簇集合进行所述聚类合并,直至得到预设个数的词簇集合;
根据词簇集合中文本词汇的词向量,计算所述词簇集合的中心点向量;
根据所述中心点向量和词簇集合中文本词汇的词向量,从所述词向量中得出各个词簇集合的核心语义关键词;
分别计算所述核心语义关键词与预设标签列表中各个标签分类词的相似距离,生成所述待标注文本的标签。
2.根据权利要求1所述的方法,其特征在于,根据所述中心点向量和词簇集合中文本词汇的词向量,从所述词向量中得出各个词簇集合的核心语义关键词包括:
通过算法公式
Figure DEST_PATH_IMAGE002
从所述词向量中计算出各个词簇集合的核心语义关键词V_SELECT,其中,V_CENTER为词簇集合的中心点向量,Vl为所述词簇集合中第l个文本词汇的词向量,Wi为词向量第i维的数值,N为词向量的维度,L为所述词簇集合中的文本词汇个数;Min表示取最小值。
3.根据权利要求1所述的方法,其特征在于,根据词簇集合中文本词汇的词向量,计算所述词簇集合的中心点向量包括:
通过算法公式
Figure DEST_PATH_IMAGE004
计算出所述词簇集合的中心点向量V_CENTER,其中,Vi为所述词簇集合中第i个文本词汇的词向量,Wj为词向量第j维的数值,N为词向量的维度,L为所述词簇集合中的文本词汇个数。
4.根据权利要求1所述的方法,其特征在于,分别计算所述核心语义关键词与预设标签列表中各个标签分类词的相似距离包括:
通过算法公式
Figure DEST_PATH_IMAGE006
计算出所述核心语义关键词与预设标签列表中标签分类词的相似距离,其中,Vl为所述待标注文本中第l个核心语义关键词的词向量,V_LABEL_j为预设标签列表中第j个标签分类词的词向量,Wi为词向量第i维的数值,N为词向量的维度,K为所述核心语义关键词的个数。
5.根据权利要求1所述的方法,其特征在于,生成所述待标注文本的标签包括:
依次判断所述相似距离是否小于预设阈值,若是,则将所述相似距离对应的标签分类词与所述待标注文本关联,根据所述标签分类词生成所述待标注文本的标签。
6.根据权利要求1所述的方法,其特征在于,将待标注文本进行分词,得到若干文本词汇包括:
通过预设分词工具对待标注文本进行分词,得到若干文本词汇,其中,所述预设分词工具包括THULAC分词工具和jieba分词工具。
7.根据权利要求1所述的方法,其特征在于,计算所述文本词汇的词向量包括:
通过预设词嵌入算法计算所述文本词汇的词向量,其中,所述词嵌入算法包括Word2Vec算法和BERT算法。
8.一种基于语义相似模型的标签生成系统,其特征在于,所述系统包括分词嵌入模块、层次聚类模块、关键词模块和标签生成模块;
所述分词嵌入模块用于将待标注文本进行分词,得到若干文本词汇,计算所述文本词汇的词向量;
所述层次聚类模块用于初始化设置所述文本词汇为若干初始集合,根据所述文本词汇的词向量,搜寻距离最近的两个初始集合进行聚类合并,得到若干词簇集合,继续将所述初始集合和所述词簇集合进行所述聚类合并,直至得到预设个数的词簇集合;
所述关键词模块用于根据词簇集合中文本词汇的词向量,计算所述词簇集合的中心点向量;根据所述中心点向量和词簇集合中文本词汇的词向量,从所述词向量中得出各个词簇集合的核心语义关键词;
所述标签生成模块用于分别计算所述核心语义关键词与预设标签列表中各个标签分类词的相似距离,生成所述待标注文本的标签。
9.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行权利要求1至7中任一项所述的基于语义相似模型的标签生成方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1至7中任一项所述的基于语义相似模型的标签生成方法。
CN202210356249.0A 2022-04-06 2022-04-06 基于语义相似模型的标签生成方法、系统、装置和介质 Active CN114443850B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210356249.0A CN114443850B (zh) 2022-04-06 2022-04-06 基于语义相似模型的标签生成方法、系统、装置和介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210356249.0A CN114443850B (zh) 2022-04-06 2022-04-06 基于语义相似模型的标签生成方法、系统、装置和介质

Publications (2)

Publication Number Publication Date
CN114443850A true CN114443850A (zh) 2022-05-06
CN114443850B CN114443850B (zh) 2022-07-22

Family

ID=81359053

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210356249.0A Active CN114443850B (zh) 2022-04-06 2022-04-06 基于语义相似模型的标签生成方法、系统、装置和介质

Country Status (1)

Country Link
CN (1) CN114443850B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114741499A (zh) * 2022-06-08 2022-07-12 杭州费尔斯通科技有限公司 一种基于句子语义模型的文本摘要生成方法和系统
CN115310564A (zh) * 2022-10-11 2022-11-08 北京睿企信息科技有限公司 一种分类标签更新方法及系统
CN115964658A (zh) * 2022-10-11 2023-04-14 北京睿企信息科技有限公司 一种基于聚类的分类标签更新方法及系统

Citations (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107180075A (zh) * 2017-04-17 2017-09-19 浙江工商大学 文本分类集成层次聚类分析的标签自动生成方法
US20180053097A1 (en) * 2016-08-16 2018-02-22 Yahoo Holdings, Inc. Method and system for multi-label prediction
CN108133045A (zh) * 2018-01-12 2018-06-08 广州杰赛科技股份有限公司 关键词提取方法与系统、关键词提取模型生成方法与系统
CN108628906A (zh) * 2017-03-24 2018-10-09 北京京东尚科信息技术有限公司 短文本模板挖掘方法、装置、电子设备和可读存储介质
CN108647529A (zh) * 2018-05-09 2018-10-12 上海海事大学 一种基于语义的多关键词排序搜索隐私保护系统及方法
US20180357216A1 (en) * 2017-06-07 2018-12-13 International Business Machines Corporation Domain concept discovery and clustering using word embedding in dialogue design
CN111090719A (zh) * 2019-10-11 2020-05-01 平安科技(深圳)有限公司 文本分类方法、装置、计算机设备及存储介质
CN111325030A (zh) * 2020-03-31 2020-06-23 卓尔智联(武汉)研究院有限公司 文本标签构建方法、装置、计算机设备和存储介质
WO2020161505A1 (en) * 2019-02-08 2020-08-13 All Street Research Limited Improved method and system for text based searching
CN111738009A (zh) * 2019-03-19 2020-10-02 百度在线网络技术(北京)有限公司 实体词标签生成方法、装置、计算机设备和可读存储介质
CN112101015A (zh) * 2020-09-08 2020-12-18 腾讯科技(深圳)有限公司 一种识别多标签对象的方法及装置
CN112395421A (zh) * 2021-01-21 2021-02-23 平安科技(深圳)有限公司 课程标签的生成方法、装置、计算机设备及介质
US20210081899A1 (en) * 2019-09-13 2021-03-18 Oracle International Corporation Machine learning model for predicting litigation risk on construction and engineering projects
CN112579730A (zh) * 2019-09-11 2021-03-30 慧科讯业有限公司 高扩展性、多标签的文本分类方法和装置
US20210157983A1 (en) * 2019-11-27 2021-05-27 Oracle International Corporation Hybrid in-domain and out-of-domain document processing for non-vocabulary tokens of electronic documents
US20210173862A1 (en) * 2019-12-09 2021-06-10 Verint Americas Inc. Systems and methods for generating labeled short text sequences
CN112988953A (zh) * 2021-04-26 2021-06-18 成都索贝数码科技股份有限公司 自适应广播电视新闻关键词标准化方法
CN113064990A (zh) * 2021-01-04 2021-07-02 上海金融期货信息技术有限公司 一种基于多层次聚类的热点事件识别方法和系统
CN113591469A (zh) * 2021-06-15 2021-11-02 杭州费尔斯通科技有限公司 一种基于词语解释的文本增强的方法和系统
CN114138971A (zh) * 2021-11-29 2022-03-04 江苏大学 一种基于遗传算法的极大多标签分类方法

Patent Citations (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180053097A1 (en) * 2016-08-16 2018-02-22 Yahoo Holdings, Inc. Method and system for multi-label prediction
CN108628906A (zh) * 2017-03-24 2018-10-09 北京京东尚科信息技术有限公司 短文本模板挖掘方法、装置、电子设备和可读存储介质
CN107180075A (zh) * 2017-04-17 2017-09-19 浙江工商大学 文本分类集成层次聚类分析的标签自动生成方法
US20180357216A1 (en) * 2017-06-07 2018-12-13 International Business Machines Corporation Domain concept discovery and clustering using word embedding in dialogue design
CN108133045A (zh) * 2018-01-12 2018-06-08 广州杰赛科技股份有限公司 关键词提取方法与系统、关键词提取模型生成方法与系统
CN108647529A (zh) * 2018-05-09 2018-10-12 上海海事大学 一种基于语义的多关键词排序搜索隐私保护系统及方法
WO2020161505A1 (en) * 2019-02-08 2020-08-13 All Street Research Limited Improved method and system for text based searching
CN111738009A (zh) * 2019-03-19 2020-10-02 百度在线网络技术(北京)有限公司 实体词标签生成方法、装置、计算机设备和可读存储介质
CN112579730A (zh) * 2019-09-11 2021-03-30 慧科讯业有限公司 高扩展性、多标签的文本分类方法和装置
US20210081899A1 (en) * 2019-09-13 2021-03-18 Oracle International Corporation Machine learning model for predicting litigation risk on construction and engineering projects
CN111090719A (zh) * 2019-10-11 2020-05-01 平安科技(深圳)有限公司 文本分类方法、装置、计算机设备及存储介质
US20210157983A1 (en) * 2019-11-27 2021-05-27 Oracle International Corporation Hybrid in-domain and out-of-domain document processing for non-vocabulary tokens of electronic documents
US20210173862A1 (en) * 2019-12-09 2021-06-10 Verint Americas Inc. Systems and methods for generating labeled short text sequences
CN111325030A (zh) * 2020-03-31 2020-06-23 卓尔智联(武汉)研究院有限公司 文本标签构建方法、装置、计算机设备和存储介质
CN112101015A (zh) * 2020-09-08 2020-12-18 腾讯科技(深圳)有限公司 一种识别多标签对象的方法及装置
CN113064990A (zh) * 2021-01-04 2021-07-02 上海金融期货信息技术有限公司 一种基于多层次聚类的热点事件识别方法和系统
CN112395421A (zh) * 2021-01-21 2021-02-23 平安科技(深圳)有限公司 课程标签的生成方法、装置、计算机设备及介质
CN112988953A (zh) * 2021-04-26 2021-06-18 成都索贝数码科技股份有限公司 自适应广播电视新闻关键词标准化方法
CN113591469A (zh) * 2021-06-15 2021-11-02 杭州费尔斯通科技有限公司 一种基于词语解释的文本增强的方法和系统
CN114138971A (zh) * 2021-11-29 2022-03-04 江苏大学 一种基于遗传算法的极大多标签分类方法

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
ALFARO RODRIGO ET AL.: "Text Representation in Multi-label Classification: Two New Input Representations", 《10TH INTERNATIONAL CONFERENCE ON ARTIFICIAL NEURAL NETWORKS AND GENETIC ALGORITHMS》 *
JAEWOOK LEE ET AL.: "An improved cluster labeling method for support vector clustering", 《IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE》 *
刘培磊等: "基于词向量语义聚类的微博热点挖掘方法", 《计算机工程与科学》 *
夏天: "词向量聚类加权TextRank的关键词抽取", 《数据分析与知识发现》 *
郑开雨等: "基于上下文语义的朴素贝叶斯文本分类算法", 《计算机与现代化》 *
阮光册等: "基于主题模型的检索结果聚类应用研究", 《情报杂志》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114741499A (zh) * 2022-06-08 2022-07-12 杭州费尔斯通科技有限公司 一种基于句子语义模型的文本摘要生成方法和系统
CN115310564A (zh) * 2022-10-11 2022-11-08 北京睿企信息科技有限公司 一种分类标签更新方法及系统
CN115964658A (zh) * 2022-10-11 2023-04-14 北京睿企信息科技有限公司 一种基于聚类的分类标签更新方法及系统
CN115964658B (zh) * 2022-10-11 2023-10-20 北京睿企信息科技有限公司 一种基于聚类的分类标签更新方法及系统

Also Published As

Publication number Publication date
CN114443850B (zh) 2022-07-22

Similar Documents

Publication Publication Date Title
CN114443850B (zh) 基于语义相似模型的标签生成方法、系统、装置和介质
CN111444320B (zh) 文本检索方法、装置、计算机设备和存储介质
CN109815333B (zh) 信息获取方法、装置、计算机设备和存储介质
Shi et al. Functional and contextual attention-based LSTM for service recommendation in mashup creation
US10394956B2 (en) Methods, devices, and systems for constructing intelligent knowledge base
CN109800307B (zh) 产品评价的分析方法、装置、计算机设备及存储介质
CN111459977B (zh) 自然语言查询的转换
CN112732870B (zh) 基于词向量的搜索方法、装置、设备及存储介质
CN111737560B (zh) 内容搜索方法、领域预测模型训练方法、装置及存储介质
JP6848091B2 (ja) 情報処理装置、情報処理方法、及びプログラム
CN113191152B (zh) 一种基于实体扩展的实体识别方法和系统
CN111274822A (zh) 语义匹配方法、装置、设备及存储介质
CN111400584A (zh) 联想词的推荐方法、装置、计算机设备和存储介质
CN112101042A (zh) 文本情绪识别方法、装置、终端设备和存储介质
CN114818729A (zh) 一种训练语义识别模型、查找语句的方法、装置及介质
CN113836303A (zh) 一种文本类别识别方法、装置、计算机设备及介质
CN114881035A (zh) 训练数据的增广方法、装置、设备和存储介质
CN113590815A (zh) 一种层级性多元标签文本分类的方法和系统
CN111291563A (zh) 词向量对齐方法和词向量对齐模型训练方法
CN110309252B (zh) 一种自然语言处理方法及装置
CN111680519B (zh) 基于降维桶模型的文本翻译方法及装置
CN113591469A (zh) 一种基于词语解释的文本增强的方法和系统
CN114741499B (zh) 一种基于句子语义模型的文本摘要生成方法和系统
CN116956954A (zh) 文本翻译方法、装置、电子设备及存储介质
CN111368554A (zh) 语句处理方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP01 Change in the name or title of a patent holder

Address after: 310000 7th floor, building B, No. 482, Qianmo Road, Xixing street, Binjiang District, Hangzhou City, Zhejiang Province

Patentee after: Huoshi Creation Technology Co.,Ltd.

Address before: 310000 7th floor, building B, No. 482, Qianmo Road, Xixing street, Binjiang District, Hangzhou City, Zhejiang Province

Patentee before: HANGZHOU FIRESTONE TECHNOLOGY Co.,Ltd.

CP01 Change in the name or title of a patent holder