CN114443850B - 基于语义相似模型的标签生成方法、系统、装置和介质 - Google Patents
基于语义相似模型的标签生成方法、系统、装置和介质 Download PDFInfo
- Publication number
- CN114443850B CN114443850B CN202210356249.0A CN202210356249A CN114443850B CN 114443850 B CN114443850 B CN 114443850B CN 202210356249 A CN202210356249 A CN 202210356249A CN 114443850 B CN114443850 B CN 114443850B
- Authority
- CN
- China
- Prior art keywords
- word
- text
- label
- vector
- words
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 41
- 239000013598 vector Substances 0.000 claims abstract description 112
- 230000011218 segmentation Effects 0.000 claims description 27
- 238000004590 computer program Methods 0.000 claims description 18
- 238000004422 calculation algorithm Methods 0.000 claims description 15
- 238000010586 diagram Methods 0.000 description 9
- 238000004364 calculation method Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及一种基于语义相似模型的标签生成方法、系统、装置和介质,其中,该方法包括:将待标注文本进行分词得到若干文本词汇,并计算其词向量;对文本词汇进行层次聚类,得到预设个数的词簇集合;根据词簇集合中文本词汇的词向量,计算词簇集合的中心点向量;根据中心点向量和词簇集合中文本词汇的词向量,从词向量中得出各个词簇集合的核心语义关键词;分别计算核心语义关键词与预设标签列表中各个标签分类词的相似距离,生成待标注文本的标签,通过本申请,解决了文本标签生成不灵活、可扩展性差的问题,兼顾了模型准确率与模型预测时间之间的平衡,实现了较强的可扩展性,能覆盖到较广范围的具体项目的实际应用中。
Description
技术领域
本申请涉及自然语言处理领域,特别是涉及一种基于语义相似模型的标签生成方法、系统、装置和介质。
背景技术
文本标签生成技术主要是应用于文本分类或者为文本打上相应的标签,该技术的实现一般基于关键词规则匹配与机器学习模型。
目前,一般关键词规则匹配使用范围窄,可扩展性差;同时,一般机器学习模型的标签生成准确率与模型预测时间需要平衡,以及需要考虑到使用范围的扩展性。本发明的目的是解决上述两个问题,本发明平衡了标签生成的准确率与模型预测时间,具有使用范围广,可扩展性强的特点。
目前针对相关技术中文本标签生成不灵活、可扩展性差的问题,尚未提出有效的解决方案。
发明内容
本申请实施例提供了一种基于语义相似模型的标签生成方法、系统、装置和介质,以至少解决相关技术中文本标签生成不灵活、可扩展性差的问题。
第一方面,本申请实施例提供了一种基于语义相似模型的标签生成方法,所述方法包括:
将待标注文本进行分词,得到若干文本词汇,计算所述文本词汇的词向量;
初始化设置所述文本词汇为若干初始集合,根据所述文本词汇的词向量,搜寻距离最近的两个初始集合进行聚类合并,得到若干词簇集合,继续将所述初始集合和所述词簇集合进行所述聚类合并,直至得到预设个数的词簇集合;
根据词簇集合中文本词汇的词向量,计算所述词簇集合的中心点向量;
根据所述中心点向量和词簇集合中文本词汇的词向量,从所述词向量中得出各个词簇集合的核心语义关键词;
分别计算所述核心语义关键词与预设标签列表中各个标签分类词的相似距离,生成所述待标注文本的标签。
在其中一些实施例中,根据所述中心点向量和词簇集合中文本词汇的词向量,从所述词向量中得出各个词簇集合的核心语义关键词包括:
通过算法公式从所述词向量中计算出各个词簇集合的核心语义关键词V_SELECT,其中,V_CENTER为词簇集合的中心点向量,Vl为所述词簇集合中第l个文本词汇的词向量,Wi为词向量第i维的数值,N为词向量的维度,L为所述词簇集合中的文本词汇个数;Min表示取最小值。
在其中一些实施例中,根据词簇集合中文本词汇的词向量,计算所述词簇集合的中心点向量包括:
在其中一些实施例中,分别计算所述核心语义关键词与预设标签列表中各个标签分类词的相似距离包括:
通过算法公式计算出所述核心语义关键词与预设标签列表中标签分类词的相似距离,其中,Vk为所述待标注文本中第k个核心语义关键词的词向量,V_LABEL_j为预设标签列表中第j个标签分类词的词向量,Wi为词向量第i维的数值,N为词向量的维度,K为所述核心语义关键词的个数。
在其中一些实施例中,生成所述待标注文本的标签包括:
依次判断所述相似距离是否小于预设阈值,若是,则将所述相似距离对应的标签分类词与所述待标注文本关联,根据所述标签分类词生成所述待标注文本的标签。
在其中一些实施例中,将待标注文本进行分词,得到若干文本词汇包括:
通过预设分词工具对待标注文本进行分词,得到若干文本词汇,其中,所述预设分词工具包括THULAC分词工具和jieba分词工具。
在其中一些实施例中,计算所述文本词汇的词向量包括:
通过预设词嵌入算法计算所述文本词汇的词向量,其中,所述词嵌入算法包括Word2Vec算法和BERT算法。
第二方面,本申请实施例提供了一种基于语义相似模型的标签生成系统,所述系统包括分词嵌入模块、层次聚类模块、关键词模块和标签生成模块;
所述分词嵌入模块用于将待标注文本进行分词,得到若干文本词汇,计算所述文本词汇的词向量;
所述层次聚类模块用于初始化设置所述文本词汇为若干初始集合,根据所述文本词汇的词向量,搜寻距离最近的两个初始集合进行聚类合并,得到若干词簇集合,继续将所述初始集合和所述词簇集合进行所述聚类合并,直至得到预设个数的词簇集合;
所述关键词模块用于根据词簇集合中文本词汇的词向量,计算所述词簇集合的中心点向量;根据所述中心点向量和词簇集合中文本词汇的词向量,从所述词向量中得出各个词簇集合的核心语义关键词;
所述标签生成模块用于分别计算所述核心语义关键词与预设标签列表中各个标签分类词的相似距离,生成所述待标注文本的标签。
第三方面,本申请实施例提供了一种电子装置,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述第一方面所述的基于语义相似模型的标签生成方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述第二方面所述的基于语义相似模型的标签生成方法。
相比于相关技术,本申请实施例提供的一种基于语义相似模型的标签生成方法、系统、装置和介质,通过将待标注文本进行分词,得到若干文本词汇,计算文本词汇的词向量;初始化设置文本词汇为若干初始集合,根据文本词汇的词向量,搜寻距离最近的两个初始集合进行聚类合并,得到若干词簇集合,继续将初始集合和词簇集合进行聚类合并,直至得到预设个数的词簇集合;根据词簇集合中文本词汇的词向量,计算词簇集合的中心点向量;根据中心点向量和词簇集合中文本词汇的词向量,从词向量中得出各个词簇集合的核心语义关键词;分别计算核心语义关键词与预设标签列表中各个标签分类词的相似距离,生成待标注文本的标签,解决了文本标签生成不灵活、可扩展性差的问题,兼顾了模型准确率与模型预测时间之间的平衡,实现了较强的可扩展性,能覆盖到较广范围的具体项目的实际应用中。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请实施例的基于语义相似模型的标签生成方法的步骤流程图;
图2是根据本申请实施例的基于语义相似模型的标签生成系统的结构框图;
图3是根据本申请实施例的电子设备的内部结构示意图。
附图说明:21、分词嵌入模块;22、层次聚类模块;23、关键词模块;24、标签生成模块。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行描述和说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。基于本申请提供的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
显而易见地,下面描述中的附图仅仅是本申请的一些示例或实施例,对于本领域的普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图将本申请应用于其他类似情景。此外,还可以理解的是,虽然这种开发过程中所作出的努力可能是复杂并且冗长的,然而对于与本申请公开的内容相关的本领域的普通技术人员而言,在本申请揭露的技术内容的基础上进行的一些设计,制造或者生产等变更只是常规的技术手段,不应当理解为本申请公开的内容不充分。
在本申请中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域普通技术人员显式地和隐式地理解的是,本申请所描述的实施例在不冲突的情况下,可以与其它实施例相结合。
除非另作定义,本申请所涉及的技术术语或者科学术语应当为本申请所属技术领域内具有一般技能的人士所理解的通常意义。本申请所涉及的“一”、“一个”、“一种”、“该”等类似词语并不表示数量限制,可表示单数或复数。本申请所涉及的术语“包括”、“包含”、“具有”以及它们任何变形,意图在于覆盖不排他的包含;例如包含了一系列步骤或模块(单元)的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可以还包括没有列出的步骤或单元,或可以还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。本申请所涉及的“连接”、“相连”、“耦接”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电气的连接,不管是直接的还是间接的。本申请所涉及的“多个”是指两个或两个以上。“和/或”描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。本申请所涉及的术语“第一”、“第二”、“第三”等仅仅是区别类似的对象,不代表针对对象的特定排序。
本申请实施例提供了一种基于语义相似模型的标签生成方法,图1是根据本申请实施例的基于语义相似模型的标签生成方法的步骤流程图,如图1所示,该方法包括以下步骤:
步骤S102,将待标注文本进行分词,得到若干文本词汇,计算文本词汇的词向量;
具体地,通过预设分词工具对待标注文本进行分词,得到若干文本词汇,通过预设词嵌入算法计算文本词汇的词向量,其中,预设分词工具包括但不限于THULAC分词工具和jieba分词工具;词嵌入算法包括但不限于Word2Vec算法和BERT算法。
优选地,假设输入待标注文本“原神一起去新天地冒险吧立即下载原神”,采用分词工具(如THULAC、jieba分词、哈工大的LTP等)得到若干文本词汇“原神|一起|去|新天地|冒险|吧|立即|下载|原神”,再通过词嵌入算法(如Bert、word2vec等)得到各个文本词汇的词向量如下:
原神:[0.42469802 0.08802186 0.2853215 -0.48638964 -0.6230728 -0.7047746 0.4945337 1.2566687 -0.17913796 -0.42369118 0.4977282 -0.334153031.2347499 1.1930337 0.51374805 0.91994804 -0.70886075 -0.4691273 -1.1471336 -0.5088495 -0.31905976 -1.4938208 -0.09018043 -0.10618938 0.112796390.22211814 0.45901206 -0.38901812 -0.42876673 -2.3228853 0.379450020.58088416];
一起:[-1.6414598 0.95705235 0.6393121 1.0176244 0.2746066 0.9978276-4.226699 2.334568 1.5408924 -3.2934742 0.52857864 -0.64769465-7.5933461.2912569 -0.28171125 -3.8727374 -0.90557116 1.7110124 0.39683253 -6.410930.2341823 -4.8999124 -0.47043678 -0.16697234 -1.4693865 -2.3039536 -0.42026693 4.329778 0.88015056 -2.0734687 2.6402948 -0.4511141];
去:[-1.9031266 -2.8371859 0.27924415 -1.8986939 1.1484644 2.595208-4.679209 1.324284 2.0293486 -3.4399495 -1.4304163 1.3717887 -8.9823020.21778306 -3.1690974 -2.4770646 1.503651 2.7916336 0.6282288 -3.7816656 -1.3105294 0.42651665 -2.405412 -1.1926383 0.5475887 -3.5449975 -1.20476281.9605174 0.13223659 -2.9669445 2.6410055 -0.33723852];
新天地:[-0.11872965 0.08149788 -1.4408684 -0.49612924 1.4673253 -3.2387486 2.5427182 0.708592 -2.1570175 0.5203028 -3.6954303 2.77190230.93770796 -1.1167578 -0.04272039 -1.397443 0.50132596 3.9892418 0.5339715 -1.6080734 4.18693 -0.19431356 -1.0330347 1.5391058 2.3048 -0.716629151.8508694 0.04112947 -4.822595 -3.6738183 1.103161 2.2785928];
冒险:[-2.0396042 -2.619467 1.511167 -3.985392 0.18290085 -2.2843277 -2.566535 4.820677 -0.60243106 -2.2032661 0.54757905 0.34254843 0.236283.420111 1.4944948 -3.7414339 -2.6000648 0.11651406 -2.2757022 -4.1689396 -1.8402563 -5.1943555 2.5105536 1.4131982 -1.3853991 0.5027256 -2.6252513 -0.82116073 -1.8567455 -6.994954 -0.41701564-1.4369024];
吧:[-0.7010415 2.3374808 -0.75740755 -4.304561 3.7331634 0.9798-2.2633524 3.70071 -0.7744246 -4.2464714 1.3874322 1.9157615 -6.27380940.91235054 -3.7836652 -0.8385296 -0.43506786 2.7735174-2.1208959 -5.4029181.6570529 -3.0840173 -0.7582686 3.6905906-2.8092256 -0.90222824 -3.00045686.304934 0.9695382 -6.7215877 4.216572 1.1971864];
立即:[-3.2336922 1.9255701 -1.4932973 0.13945788 2.8103013 7.9426985-1.6662611 -0.06120035 1.6888058 -4.272214 -0.16207987 2.6777744 -6.15234231.437423 -1.3304111 -3.8970494 2.3074832 0.2220719 0.32177252 1.1643796 -1.2075183 -1.03807 -2.330601-1.912265 0.5221586 -1.0981721 1.59679950.8107143 0.38152733 -1.220039 2.5726552 -2.0123644];
下载:[-0.85923624 -0.371434 4.2333846 -0.395695332.7654943 -3.7123337-1.0066513 -1.6060812 4.1668854-2.696111 0.16108409 9.821048 0.46212762.3589056 -0.10650773 -0.9778401 0.42995185 0.6406851-9.512161 1.0247332 -3.1859524 -5.0010366 -4.739097 0.31711522 -3.0012915 1.5234387 -0.7456441 -2.8500197 -1.4898897 -6.9807925 -3.1814556 1.6959637]。
步骤S104,初始化设置文本词汇为若干初始集合,根据文本词汇的词向量,搜寻距离最近的两个初始集合进行聚类合并,得到若干词簇集合,继续将初始集合和词簇集合进行聚类合并,直至得到预设个数的词簇集合;
优选地,利用层次聚类方法思想,初始化设置N维空间的每个文本词汇为M个初始集合(如上述步骤S102优选中待标注文本的文本词汇是32维的、有9个,即N=32、M=9);然后搜寻距离最近的2个初始集合合并成1个集合;接着继续搜寻距离最近的2个集合合并成1个集合;如此反复执行上述合并步骤,直到最后形成的词簇集合的个数满足预设个数K。
以上述步骤S102的优选为例,设定K=2,经过步骤S104的层次聚类,得到两个词簇集合,分别为:
词簇集合1:[原神冒险立即下载];
词簇集合2:[一起去新天地吧]。
步骤S106,根据词簇集合中文本词汇的词向量,计算词簇集合的中心点向量;
步骤S108,根据中心点向量和词簇集合中文本词汇的词向量,从词向量中得出各个词簇集合的核心语义关键词;
具体地,通过算法公式从词向量中计算出各个词簇集合的核心语义关键词V_SELECT,其中,V_CENTER为词簇集合的中心点向量,Vl为词簇集合中第l个文本词汇的词向量,Wi为词向量第i维的数值,N为词向量的维度,L为词簇集合中的文本词汇个数;Min表示取最小值。
优选地,以上述步骤S104的优选为例,经过步骤S106的计算得出两个词簇的中心点向量,再通过步骤S108计算得出:
词簇集合1的核心语义关键词:原神;
词簇集合2的核心语义关键词:新天地。
步骤S110,分别计算核心语义关键词与预设标签列表中各个标签分类词的相似距离,生成待标注文本的标签。
具体地,通过算法公式计算出核心语义关键词与预设标签列表中标签分类词的相似距离,其中,V为待标注文本中第k个核心语义关键词的词向量,V_LABEL_j为预设标签列表中第j个标签分类词的词向量,Wi为词向量第i维的数值,N为词向量的维度,K为核心语义关键词的个数;再生成待标注文本的标签。
优选地,以上述步骤S108的优选为例,假设预设标签列表中的标签分类词为游戏和教育,采用词嵌入算法计算出两者的词向量:
游戏:[-2.7808518 0.41961846-0.54264456 0.02211485-0.04979197 -1.6513786-3.9122758 0.67012274 1.2189704 -1.2941105 3.95616 5.8860441.7551677 3.7951279 2.6051126 -5.7468834 -2.6039023 0.43394396 -7.2831016 -1.9458483 -1.4982023 -8.956041 3.0637383 -0.577928 -2.349997 1.7055703 -3.1995888 1.6963526 -4.9452863 -7.1323557 1.1273681 -0.5466683];
教育:[-0.02953097 -2.1173713 -0.7003877 4.9582105 -1.8854314 -1.7531995-3.2873142 -0.5889249 -1.7152025 1.2804587 -5.692385 7.520673-1.4028773 -1.817927 -1.173675 -3.4589016 2.4559987 -0.7553403 0.2188847 -5.4087954 -2.4403467 0.22940844 2.2926576 0.90357417 1.6975635 2.27234840.36912856 0.4831917 -1.6271886 -0.87233615 0.5711816 -2.8528566];
再通过步骤S110计算出核心语义关键词(原神、新天地)与标签分类词(游戏)的相似距离为19.93;计算出核心语义关键词(原神、新天地)与标签分类词(教育)的相似距离为7469112。
最后,依次判断相似距离是否小于预设阈值,若是,则将相似距离对应的标签分类词与待标注文本关联,根据标签分类词生成待标注文本的标签,如相似距离19.93小于预设阈值,则为待标注文本“原神一起去新天地冒险吧立即下载原神”生成标签:“游戏”。
通过本申请实施例中的步骤S102至步骤S110,解决了文本标签生成不灵活、可扩展性差的问题,兼顾了模型准确率与模型预测时间之间的平衡,实现了较强的可扩展性,能覆盖到较广范围的具体项目的实际应用中。
需要说明的是,在上述流程中或者附图的流程图中示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本申请实施例提供了一种基于语义相似模型的标签生成系统,图2是根据本申请实施例的基于语义相似模型的标签生成系统的结构框图,如图2所示,系统包括分词嵌入模块21、层次聚类模块22、关键词模块23和标签生成模块24;
分词嵌入模块21用于将待标注文本进行分词,得到若干文本词汇,计算文本词汇的词向量;
层次聚类模块22用于初始化设置文本词汇为若干初始集合,根据文本词汇的词向量,搜寻距离最近的两个初始集合进行聚类合并,得到若干词簇集合,继续将初始集合和词簇集合进行聚类合并,直至得到预设个数的词簇集合;
关键词模块23用于根据词簇集合中文本词汇的词向量,计算词簇集合的中心点向量;根据中心点向量和词簇集合中文本词汇的词向量,从词向量中得出各个词簇集合的核心语义关键词;
标签生成模块24用于分别计算核心语义关键词与预设标签列表中各个标签分类词的相似距离,生成待标注文本的标签。
通过本申请实施例中的分词嵌入模块21、层次聚类模块22、关键词模块23和标签生成模块24,解决了文本标签生成不灵活、可扩展性差的问题,兼顾了模型准确率与模型预测时间之间的平衡,实现了较强的可扩展性,能覆盖到较广范围的具体项目的实际应用中。
需要说明的是,上述各个模块可以是功能模块也可以是程序模块,既可以通过软件来实现,也可以通过硬件来实现。对于通过硬件来实现的模块而言,上述各个模块可以位于同一处理器中;或者上述各个模块还可以按照任意组合的形式分别位于不同的处理器中。
本实施例还提供了一种电子装置,包括存储器和处理器,该存储器中存储有计算机程序,该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。
可选地,上述电子装置还可以包括传输设备以及输入输出设备,其中,该传输设备和上述处理器连接,该输入输出设备和上述处理器连接。
需要说明的是,本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例,本实施例在此不再赘述。
另外,结合上述实施例中的基于语义相似模型的标签生成方法,本申请实施例可提供一种存储介质来实现。该存储介质上存储有计算机程序;该计算机程序被处理器执行时实现上述实施例中的任意一种基于语义相似模型的标签生成方法。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于语义相似模型的标签生成方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
在一个实施例中,图3是根据本申请实施例的电子设备的内部结构示意图,如图3所示,提供了一种电子设备,该电子设备可以是服务器,其内部结构图可以如图3所示。该电子设备包括通过内部总线连接的处理器、网络接口、内存储器和非易失性存储器,其中,该非易失性存储器存储有操作系统、计算机程序和数据库。处理器用于提供计算和控制能力,网络接口用于与外部的终端通过网络连接通信,内存储器用于为操作系统和计算机程序的运行提供环境,计算机程序被处理器执行时以实现一种基于语义相似模型的标签生成方法,数据库用于存储数据。
本领域技术人员可以理解,图3中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的电子设备的限定,具体的电子设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
本领域的技术人员应该明白,以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (7)
1.一种基于语义相似模型的标签生成方法,其特征在于,所述方法包括:
将待标注文本进行分词,得到若干文本词汇,计算所述文本词汇的词向量;
初始化设置所述文本词汇为若干初始集合,根据所述文本词汇的词向量,搜寻距离最近的两个初始集合进行聚类合并,得到若干词簇集合,继续将所述初始集合和所述词簇集合进行所述聚类合并,直至得到预设个数的词簇集合;
根据词簇集合中文本词汇的词向量,计算所述词簇集合的中心点向量;
通过算法公式|:1~L从所述词向量中计算出各个词簇集合的核心语义关键词V_SELECT,其中,V_CENTER为词簇集合的中心点向量,Vl为所述词簇集合中第l个文本词汇的词向量,Wi为词向量第i维的数值,N为词向量的维度,L为所述词簇集合中的文本词汇个数;Min表示取最小值;
通过算法公式计算出所述核心语义关键词与预设标签列表中标签分类词的相似距离,其中,Vk为所述待标注文本中第k个核心语义关键词的词向量,V_LABEL_j为预设标签列表中第j个标签分类词的词向量,Wi为词向量第i维的数值,N为词向量的维度,K为所述核心语义关键词的个数;
依次判断所述相似距离是否小于预设阈值,若是,则将所述相似距离对应的标签分类词与所述待标注文本关联,根据所述标签分类词生成所述待标注文本的标签。
3.根据权利要求1所述的方法,其特征在于,将待标注文本进行分词,得到若干文本词汇包括:
通过预设分词工具对待标注文本进行分词,得到若干文本词汇,其中,所述预设分词工具包括THULAC分词工具和jieba分词工具。
4.根据权利要求1所述的方法,其特征在于,计算所述文本词汇的词向量包括:
通过预设词嵌入算法计算所述文本词汇的词向量,其中,所述词嵌入算法包括Word2Vec算法和BERT算法。
5.一种基于语义相似模型的标签生成系统,其特征在于,所述系统包括分词嵌入模块、层次聚类模块、关键词模块和标签生成模块;
所述分词嵌入模块用于将待标注文本进行分词,得到若干文本词汇,计算所述文本词汇的词向量;
所述层次聚类模块用于初始化设置所述文本词汇为若干初始集合,根据所述文本词汇的词向量,搜寻距离最近的两个初始集合进行聚类合并,得到若干词簇集合,继续将所述初始集合和所述词簇集合进行所述聚类合并,直至得到预设个数的词簇集合;
所述关键词模块用于根据词簇集合中文本词汇的词向量,计算所述词簇集合的中心点向量;通过算法公式|:1~L从所述词向量中计算出各个词簇集合的核心语义关键词V_SELECT,其中,V_CENTER为词簇集合的中心点向量,Vl为所述词簇集合中第l个文本词汇的词向量,Wi为词向量第i维的数值,N为词向量的维度,L为所述词簇集合中的文本词汇个数;Min表示取最小值;
6.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行权利要求1至4中任一项所述的基于语义相似模型的标签生成方法。
7.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1至4中任一项所述的基于语义相似模型的标签生成方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210356249.0A CN114443850B (zh) | 2022-04-06 | 2022-04-06 | 基于语义相似模型的标签生成方法、系统、装置和介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210356249.0A CN114443850B (zh) | 2022-04-06 | 2022-04-06 | 基于语义相似模型的标签生成方法、系统、装置和介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114443850A CN114443850A (zh) | 2022-05-06 |
CN114443850B true CN114443850B (zh) | 2022-07-22 |
Family
ID=81359053
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210356249.0A Active CN114443850B (zh) | 2022-04-06 | 2022-04-06 | 基于语义相似模型的标签生成方法、系统、装置和介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114443850B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114741499B (zh) * | 2022-06-08 | 2022-09-06 | 杭州费尔斯通科技有限公司 | 一种基于句子语义模型的文本摘要生成方法和系统 |
CN115964658B (zh) * | 2022-10-11 | 2023-10-20 | 北京睿企信息科技有限公司 | 一种基于聚类的分类标签更新方法及系统 |
CN115310564B (zh) * | 2022-10-11 | 2023-01-13 | 北京睿企信息科技有限公司 | 一种分类标签更新方法及系统 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107180075A (zh) * | 2017-04-17 | 2017-09-19 | 浙江工商大学 | 文本分类集成层次聚类分析的标签自动生成方法 |
CN108133045A (zh) * | 2018-01-12 | 2018-06-08 | 广州杰赛科技股份有限公司 | 关键词提取方法与系统、关键词提取模型生成方法与系统 |
CN108628906A (zh) * | 2017-03-24 | 2018-10-09 | 北京京东尚科信息技术有限公司 | 短文本模板挖掘方法、装置、电子设备和可读存储介质 |
CN108647529A (zh) * | 2018-05-09 | 2018-10-12 | 上海海事大学 | 一种基于语义的多关键词排序搜索隐私保护系统及方法 |
CN111325030A (zh) * | 2020-03-31 | 2020-06-23 | 卓尔智联(武汉)研究院有限公司 | 文本标签构建方法、装置、计算机设备和存储介质 |
CN111738009A (zh) * | 2019-03-19 | 2020-10-02 | 百度在线网络技术(北京)有限公司 | 实体词标签生成方法、装置、计算机设备和可读存储介质 |
CN112579730A (zh) * | 2019-09-11 | 2021-03-30 | 慧科讯业有限公司 | 高扩展性、多标签的文本分类方法和装置 |
CN113064990A (zh) * | 2021-01-04 | 2021-07-02 | 上海金融期货信息技术有限公司 | 一种基于多层次聚类的热点事件识别方法和系统 |
CN113591469A (zh) * | 2021-06-15 | 2021-11-02 | 杭州费尔斯通科技有限公司 | 一种基于词语解释的文本增强的方法和系统 |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180053097A1 (en) * | 2016-08-16 | 2018-02-22 | Yahoo Holdings, Inc. | Method and system for multi-label prediction |
US11048870B2 (en) * | 2017-06-07 | 2021-06-29 | International Business Machines Corporation | Domain concept discovery and clustering using word embedding in dialogue design |
GB2586002A (en) * | 2019-02-08 | 2021-02-03 | All Street Res Limited | Improved method and system for text based searching |
US11481734B2 (en) * | 2019-09-13 | 2022-10-25 | Oracle International Corporation | Machine learning model for predicting litigation risk on construction and engineering projects |
CN111090719B (zh) * | 2019-10-11 | 2024-05-03 | 平安科技(上海)有限公司 | 文本分类方法、装置、计算机设备及存储介质 |
US11494559B2 (en) * | 2019-11-27 | 2022-11-08 | Oracle International Corporation | Hybrid in-domain and out-of-domain document processing for non-vocabulary tokens of electronic documents |
US11797594B2 (en) * | 2019-12-09 | 2023-10-24 | Verint Americas Inc. | Systems and methods for generating labeled short text sequences |
CN112101015B (zh) * | 2020-09-08 | 2024-01-26 | 腾讯科技(深圳)有限公司 | 一种识别多标签对象的方法及装置 |
CN112395421B (zh) * | 2021-01-21 | 2021-05-11 | 平安科技(深圳)有限公司 | 课程标签的生成方法、装置、计算机设备及介质 |
CN112988953B (zh) * | 2021-04-26 | 2021-09-03 | 成都索贝数码科技股份有限公司 | 自适应广播电视新闻关键词标准化方法 |
CN114138971A (zh) * | 2021-11-29 | 2022-03-04 | 江苏大学 | 一种基于遗传算法的极大多标签分类方法 |
-
2022
- 2022-04-06 CN CN202210356249.0A patent/CN114443850B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108628906A (zh) * | 2017-03-24 | 2018-10-09 | 北京京东尚科信息技术有限公司 | 短文本模板挖掘方法、装置、电子设备和可读存储介质 |
CN107180075A (zh) * | 2017-04-17 | 2017-09-19 | 浙江工商大学 | 文本分类集成层次聚类分析的标签自动生成方法 |
CN108133045A (zh) * | 2018-01-12 | 2018-06-08 | 广州杰赛科技股份有限公司 | 关键词提取方法与系统、关键词提取模型生成方法与系统 |
CN108647529A (zh) * | 2018-05-09 | 2018-10-12 | 上海海事大学 | 一种基于语义的多关键词排序搜索隐私保护系统及方法 |
CN111738009A (zh) * | 2019-03-19 | 2020-10-02 | 百度在线网络技术(北京)有限公司 | 实体词标签生成方法、装置、计算机设备和可读存储介质 |
CN112579730A (zh) * | 2019-09-11 | 2021-03-30 | 慧科讯业有限公司 | 高扩展性、多标签的文本分类方法和装置 |
CN111325030A (zh) * | 2020-03-31 | 2020-06-23 | 卓尔智联(武汉)研究院有限公司 | 文本标签构建方法、装置、计算机设备和存储介质 |
CN113064990A (zh) * | 2021-01-04 | 2021-07-02 | 上海金融期货信息技术有限公司 | 一种基于多层次聚类的热点事件识别方法和系统 |
CN113591469A (zh) * | 2021-06-15 | 2021-11-02 | 杭州费尔斯通科技有限公司 | 一种基于词语解释的文本增强的方法和系统 |
Non-Patent Citations (2)
Title |
---|
基于上下文语义的朴素贝叶斯文本分类算法;郑开雨等;《计算机与现代化》;20180615(第06期);第1-6页 * |
词向量聚类加权TextRank的关键词抽取;夏天;《数据分析与知识发现》;20170225(第02期);第28-34页 * |
Also Published As
Publication number | Publication date |
---|---|
CN114443850A (zh) | 2022-05-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114443850B (zh) | 基于语义相似模型的标签生成方法、系统、装置和介质 | |
Shi et al. | Functional and contextual attention-based LSTM for service recommendation in mashup creation | |
CN109815333B (zh) | 信息获取方法、装置、计算机设备和存储介质 | |
CN111444320A (zh) | 文本检索方法、装置、计算机设备和存储介质 | |
CN113569135B (zh) | 基于用户画像的推荐方法、装置、计算机设备及存储介质 | |
CN111459977B (zh) | 自然语言查询的转换 | |
CN112732870B (zh) | 基于词向量的搜索方法、装置、设备及存储介质 | |
CN112541079A (zh) | 多意图识别方法、装置、设备及介质 | |
CN113536735B (zh) | 一种基于关键词的文本标记方法、系统和存储介质 | |
CN113191152B (zh) | 一种基于实体扩展的实体识别方法和系统 | |
CN111274822A (zh) | 语义匹配方法、装置、设备及存储介质 | |
CN112101042A (zh) | 文本情绪识别方法、装置、终端设备和存储介质 | |
CN113177411A (zh) | 命名实体识别模型的训练方法和命名实体识别的方法 | |
CN111737560A (zh) | 内容搜索方法、领域预测模型训练方法、装置及存储介质 | |
CN113836303A (zh) | 一种文本类别识别方法、装置、计算机设备及介质 | |
CN114881035A (zh) | 训练数据的增广方法、装置、设备和存储介质 | |
CN113468322A (zh) | 关键词识别模型的训练、提取方法、装置、设备及介质 | |
CN113535965A (zh) | 一种文本大规模分类的方法和系统 | |
CN111814028B (zh) | 一种信息搜索方法及装置 | |
CN113591469A (zh) | 一种基于词语解释的文本增强的方法和系统 | |
CN111680519B (zh) | 基于降维桶模型的文本翻译方法及装置 | |
CN117194616A (zh) | 一种垂域知识图谱的知识查询方法、装置、计算机设备和存储介质 | |
CN112988971A (zh) | 基于词向量的搜索方法、终端、服务器及存储介质 | |
CN114741499B (zh) | 一种基于句子语义模型的文本摘要生成方法和系统 | |
CN114398903B (zh) | 意图识别方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CP01 | Change in the name or title of a patent holder | ||
CP01 | Change in the name or title of a patent holder |
Address after: 310000 7th floor, building B, No. 482, Qianmo Road, Xixing street, Binjiang District, Hangzhou City, Zhejiang Province Patentee after: Huoshi Creation Technology Co.,Ltd. Address before: 310000 7th floor, building B, No. 482, Qianmo Road, Xixing street, Binjiang District, Hangzhou City, Zhejiang Province Patentee before: HANGZHOU FIRESTONE TECHNOLOGY Co.,Ltd. |