CN110795911B - 在线文本标签的实时添加方法、装置及相关设备 - Google Patents
在线文本标签的实时添加方法、装置及相关设备 Download PDFInfo
- Publication number
- CN110795911B CN110795911B CN201910871158.9A CN201910871158A CN110795911B CN 110795911 B CN110795911 B CN 110795911B CN 201910871158 A CN201910871158 A CN 201910871158A CN 110795911 B CN110795911 B CN 110795911B
- Authority
- CN
- China
- Prior art keywords
- word
- word segmentation
- text data
- preset
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 56
- 239000013598 vector Substances 0.000 claims abstract description 180
- 230000011218 segmentation Effects 0.000 claims abstract description 145
- 238000013507 mapping Methods 0.000 claims abstract description 59
- 238000012545 processing Methods 0.000 claims abstract description 37
- 238000004364 calculation method Methods 0.000 claims abstract description 27
- 238000012549 training Methods 0.000 claims description 34
- 238000001914 filtration Methods 0.000 claims description 10
- 238000007781 pre-processing Methods 0.000 claims description 9
- 238000012935 Averaging Methods 0.000 claims description 4
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 238000004422 calculation algorithm Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 4
- 238000013459 approach Methods 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明属于人工智能领域,涉及一种在线文本标签的实时添加方法、装置及计算机设备、存储介质,所述方法包括:实时获取文本数据,对所述文本数据进行分词处理得到一组分词;根据预设的词向量生成模型获取每个分词的词向量;将所述每个分词的词向量与预设关键词库中的关键词的词向量进行相似性计算,匹配得到相似性满足预设阈值的关键词和分词;根据匹配得到的关键词和预设的主题映射信息获取与所述匹配得到的关键词相对应的主题;输出匹配得到的分词和获取的主题至用户端界面。本发明提供的方案使得分词能够以语义近邻的方式匹配主题,可优化关键词与主题映射匹配的模式,提高文本标签覆盖率,减少工作量,以及实现关键词库的扩充。
Description
技术领域
本发明实施例属于人工智能技术领域,尤其涉及一种在线文本标签的实时添加方法、装置及计算机设备、存储介质。
背景技术
用户在网络上发布提问、话题、评论、资讯或者其他在线文本时,往往需要在发布后显示与提问、话题、评论、资讯等相关联的关键词和主题,即为在线文本添加文本标签,现有的在线文本添加标签的方式包括用户自定义添加或者后台系统从提问、话题、评论、资讯中提取关键词和通过关键词匹配主题进行添加,后台系统在获取主题的过程主要通过使用预先设定的关键词与主题映射规则来匹配实现,现有的这种实现方式至少存在如下问题:
1、关键词与主题映射规则的规则匹配覆盖率不高;
2、无法自动扩展关键词词典,也无法自动扩展关键词与主题映射规则;
3、需要定期更新迭代关键词与主题及其映射规则,人工工作量大。
发明内容
本发明实施例提供一种在线文本标签的实时添加方法、装置及计算机设备、存储介质,以解决现有技术中对在线文本添加文本标签时关键词与主题映射规则的规则匹配覆盖率不高、无法自动扩展关键词词典、无法自动扩展关键词与主题映射规则,以及需要定期更新迭代关键词与主题及其映射规则,人工工作量大的问题。
第一方面,本发明实施例提供一种在线文本标签的实时添加方法,包括:
实时获取用户端输入的文本数据,对所述文本数据进行分词处理,得到一组分词;
根据预设的词向量生成模型获取每个分词的词向量;
将所述每个分词的词向量与预设关键词库中的关键词的词向量进行相似性计算,匹配得到相似性满足预设阈值的关键词和分词;
根据匹配得到的关键词和预设的主题映射信息获取与所述匹配得到的关键词相对应的主题;
输出匹配得到的分词和获取的主题至用户端界面。
作为本发明可实施的方式,所述方法还包括:
根据所述每个分词的词向量计算所述文本数据的句向量,将所述文本数据的句向量与历史文本数据库中的历史文本数据的句向量进行相似性计算,若匹配得到相似性满足预设阈值的历史文本数据,则获取匹配得到的历史文本数据所对应的主题,并将其作为所述文本数据的主题输出至用户端界面。
作为本发明可实施的方式,所述根据所述每个分词的词向量计算所述文本数据的句向量包括:
将所述文本数据的所有分词的词向量进行加和平均,得到所述文本数据的句向量。
作为本发明可实施的方式,所述根据所述每个分词的词向量计算所述文本数据的句向量包括:
对所述文本数据中的所有分词进行权重分配,根据各分词的权重和词向量进行加权平均,得到所述文本数据的句向量。
作为本发明可实施的方式,在所述实时获取用户端输入的文本数据之前,所述方法包括训练所述预设的词向量生成模型,其中所述预设的词向量生成模型的训练包括:
访问文本数据库,获取所述文本数据库中的所有文本数据;
对所有文本数据进行分词处理;
根据分词处理得到分词对初始的词向量生成模型进行训练,训练结束后得到所述预设的词向量生成模型。
作为本发明可实施的方式,所述对所有文本数据进行分词处理包括:
对所有文本数据进行初始分词;
对初始分词得到的结果进行分词预处理,并将分词预处理之后得到的分词映射到至少一个主题,以得到所述预设的主题映射信息;其中分词预处理之后得到的分词用于输入所述初始的词向量生成模型进行训练。
作为本发明可实施的方式,所述方法还包括:
将分词预处理之后得到的分词和映射得到的主题形成文本标签集合,按照预设的过滤配置信息对所述文本标签集合进行过滤,得到用于在界面显示的关键词和主题,并将得到的关键词存储以形成所述预设关键词库。
第二方面,本发明实施例提供一种在线文本标签的实时添加装置,包括:
分词处理模块,用于实时获取用户端输入的文本数据,对所述文本数据进行分词处理,得到一组分词;
词向量获取模块,用于根据预设的词向量生成模型获取每个分词的词向量;
匹配模块,用于将所述每个分词的词向量与预设关键词库中的关键词的词向量进行相似性计算,匹配得到相似性满足预设阈值的关键词和分词;
主题获取模块,用于根据匹配得到的关键词和预设的主题映射信息获取与所述匹配得到的关键词相对应的主题;
输出模块,用于输出匹配得到的分词和获取的主题至用户端界面。
第三方面,本发明实施例提供一种计算机设备,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的计算机可读指令,所述计算机可读指令被所述至少一个处理器执行时,使得所述至少一个处理器执行上述的在线文本标签的实时添加方法的步骤。
第四方面,本发明实施例提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机可读指令,所述计算机可读指令被至少一个处理器执行时实现如上所述的在线文本标签的实时添加方法的步骤。
根据本发明实施例提供的在线文本标签的实时添加方法、装置及计算机设备、存储介质,通过实时对文本数据进行分词和计算词向量,以高纬词向量来表征每个分词结果,再通过词向量的相似性计算,可以从预设关键词库中匹配到与分词的词向量相近或者相同的关键词,并以该关键词对应的主题作为分词的主题,并输出显示主题及相关的分词,实现自动添加文本标签,通过这种方式,能够识别关键词的近义词或者变形词,使得分词能够以语义近邻的方式匹配到对应的主题,从而生成新的主题映射信息,这优化了现有的关键词与主题映射匹配的模式,提高了文本标签覆盖率,有利于提升用户体验,提高用户留存率与活跃度,同时可实现关键词与主题映射匹配的动态更新,减少人工手动更新带来的工作量,此外在现有关键词库的基础上,也以语义近邻的方式实现了关键词库的扩充。
附图说明
为了更清楚地说明本发明的方案,下面将对实施例描述中所需要使用的附图作一个简单介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的在线文本标签的实时添加方法的流程图;
图2为本发明实施例提供的词向量生成模型的训练的流程图;
图3为本发明实施例提供的在线文本标签的实时添加装置的示意图;
图4为本发明实施例提供的在线文本标签的实时添加装置的另一示意图;
图5为本发明实施例提供的在线文本标签的实时添加装置的又一示意图;
图6为本发明实施例提供的计算机设备的结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。
在说明书中的各个位置出现的“实施例”该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
本发明实施例提供一种在线文本标签的实时添加方法,用于在用户发布提问、话题、评论、资讯或者其他在线文本时,在用户完成在线文本输入后实时输出标签供用户添加或者在用户发布后自动标识。如图1所示,所述在线文本标签的实时添加方法包括:
S1、实时获取用户端输入的文本数据,对所述文本数据进行分词处理,得到一组分词;
S2、根据预设的词向量生成模型获取每个分词的词向量;
S3、将所述每个分词的词向量与预设关键词库中的关键词的词向量进行相似性计算,匹配得到相似性满足预设阈值的关键词和分词;
S4、根据匹配得到的关键词和预设的主题映射信息获取与所述匹配得到的关键词相对应的主题;
S5、输出匹配得到的分词和获取的主题至用户端界面。
具体的,步骤S1中采用分词算法对实时获取的文本数据进行分词操作,针对不同的语言可选择不同类型的分词算法,比如中文分词可采用机械分词或者最短路径分词等算法,本方案中不作限定。
步骤S2中所述预设的词向量生成模型具体可为word2vec模型,其中word2vec模型是由Google公司提供的开源模型,训练方法与使用方法可以按word2vec的常用方法进行,其中提供的供训练的文本数据越多,训练后得到的模型越准确。
步骤S3中的预设关键词库中也可以包含主题词,而词向量的相似性计算用于判断各分词与预设关键词库中的某个或某些词语的语义是否相同或相近,因此本步骤中进行相似性计算可理解为进行语义相似性计算,即语义是否相同或相近通过两个词向量的相似性达到预设阈值来衡量,在一些实施例中,可通过计算分词的词向量与预设关键词库中的关键词的词向量之间的欧氏距离或者夹角余弦等方式来实现,具体不作限定。在本实施例中,与预设关键词库中的关键词的词向量相似性达到预设阈值的分词可分为两类,一类是与预设关键词库中某一个关键词的词向量完全相同,另一类是与预设关键词库中某一个或某些关键词的词向量的相似度达到某个预设阈值,当通过欧式距离衡量相似度时,若欧式距离小于预设阈值时则认为匹配,否则不匹配,而通过夹角余弦衡量相似度时,若夹角余弦大于预设阈值时则认为匹配,否则不匹配。
步骤S4中主题映射信息包含有预设关键词库中的关键词与其对应的主题的映射关系,根据匹配得到的关键词和预设的主题映射信息所获取的主题即可作为所述文本数据的主题。对于匹配得到的分词而言,若要获取该分词所属的主题,需要获取其对应的主题映射信息,对于与预设关键词库中某一个关键词的词向量完全相同的分词,说明该分词直接存在对应的主题映射信息,可以直接通过预设的主题映射信息来获取相应的主题;而对于与预设关键词库中某一个或某些关键词的词向量近似且满足相似度要求(即相似度满足预设阈值)的分词,由于没有存在对应的主题映射信息,此时将套用相近似的关键词所对应的主题映射信息来获取相应的主题,此时匹配得到的分词也与某一个或多个主题形成了映射关系,这样使得关键词的近义词或关键词的变形词得到了匹配,匹配得到的分词可作为新的关键词被加入预设关键词库,扩充了关键词库,同时也对应实现了主题映射信息的自动扩充,减少了人工操作更新所带来的工作量。
步骤S5中输出的匹配得到的分词即可作为要显示给用户的关键词,属于本发明实施例中所述的文本标签的一种。
在本发明实施例中,在输出匹配得到的分词和获取的主题至用户端界面之前,除通过根据匹配得到的关键词和预设的主题映射信息获取与所述匹配得到的关键词相对应的主题之外,还可进一步地结合其他方式获取文本数据所对应的主题,在一种可实现的方式中,所述在线文本标签的实时添加方法还包括:根据所述每个分词的词向量计算所述文本数据的句向量,将所述文本数据的句向量与历史文本数据库中的历史文本数据的句向量进行相似性计算,若匹配得到相似性满足预设阈值的历史文本数据,则获取匹配得到的历史文本数据所对应的主题,并将其作为所述文本数据的主题输出至用户端界面。
具体的,历史文本数据所对应的主题是已预先确定的。在本实施例中,句向量的相似性匹配以相似性小于预设阈值来衡量,类似于词向量的相似性计算,其可通过计算实时获取的所述文本数据的句向量与已经确定主题的历史文本数据的句向量之间的欧氏距离或者夹角余弦等方式来实现近似匹配,具体的,若欧式距离或者夹角余弦小于预设阈值,则说明匹配,此时将待打标签的文本数据映射到匹配的历史文本数据所属的主题,比如历史文本数据的主题为“体育”,若代打标签的文本数据的句向量与该历史文本数据的句向量相似性小于预设阈值,则确定的主题“体育”将作为待打标签的文本数据的一个主题。
在本实施例中,对于所述文本数据的句向量的计算可通过多种方式实现。在一种可能的方式中,所述根据所述每个分词的词向量计算所述文本数据的句向量包括:将所述文本数据的所有分词的词向量进行加和平均,得到所述文本数据的句向量。这种方式对于各分词的重要程度差别不大的情形较为适用。
在另一种可能的方式中,所述根据所述每个分词的词向量计算所述文本数据的句向量包括:对所述文本数据中的所有分词进行权重分配,根据各分词的权重和词向量进行加权平均,得到所述文本数据的句向量。对于文本数据中的各分词的重要程度存在差别,且差别程度较大的情形,可以对各分词设置权重,使得加权得到句向量可以更加精确地表征文本数据的内容。
在本发明实施例中,在步骤S1所述的实时获取用户端输入的文本数据之前,所述在线文本标签的实时添加方法包括训练所述预设的词向量生成模型,其中,如图2所示,所述预设的词向量生成模型的训练包括:
S01、访问文本数据库,获取所述文本数据库中的所有文本数据;
S02、对所有文本数据进行分词处理;
S03、根据分词处理得到分词对初始的词向量生成模型进行训练,训练结束后得到所述预设的词向量生成模型。
通过步骤S03得到训练后的词向量生成模型可以获得文本数据库(专门用于存储文本数据,包括实时获取的文本数据和历史文本数据)中各文本数据中的分词的词向量,这些词向量将被存储。其中,当所述词向量生成模型为word2vec模型时,对word2vec模型进行训练后,将得到基准的词向量,步骤S1中得到的分词结果经过word2vec模型后将得到待匹配的词向量。
进一步地,所述在线文本标签的实时添加方法还可包括:根据文本数据库中各文本数据中的分词的词向量来获取各文本数据的句向量并存储。
在本实施例中,步骤S02中所述对所有文本数据进行分词处理包括:对所有文本数据进行初始分词,对初始分词得到的结果进行分词预处理,并将分词预处理之后得到的分词映射到至少一个主题,以得到所述预设的主题映射信息;其中分词预处理之后得到的分词用于输入所述初始的词向量生成模型进行训练。
具体的,分词具体采用分词算法对文本数据进行分词操作来实现,针对不同的语言可选择不同类型的分词算法,比如中文分词可采用机械分词或者最短路径分词等算法,本方案中不作限定。分词后的预处理包括去除停用词,名词性短语识别,TF-IDF处理,TextRank关键词提取、命名实体识别、句法依存关系识别、文本主题分类等处理方式的一种或多种,分词后的预处理的目的在于去除无关词语,得到能够体现文本数据意义的分词。
其中,进行主题映射即为将分词的预处理之后得到的关键词映射到至少一个主题,可用于形成多层级的文本标签集合。故在一些实施例中,所述在线文本标签的实时添加方法还可包括:将分词预处理之后得到的分词和映射得到的主题形成文本标签集合,按照预设的过滤配置信息对所述文本标签集合进行过滤,得到用于在界面显示的关键词和主题,并将得到的关键词存储以形成所述预设关键词库。其中,文本标签集合包含分词的预处理之后得到的词语和映射得到的主题。
在本发明实施例中,步骤S1中实时获取的文本数据可被添加至上述的历史文本数据库中,在一些实施例中,当历史文本数据库中新增的文本数据量达到预设阈值时,将根据最新的历史文本数据库中的数据对上述的词向量生成模型进行重训练,优化所述词向量生成模型。
根据本发明实施例提供的在线文本标签的实时添加方法,通过实时对文本数据进行分词和计算词向量,以高纬词向量来表征每个分词结果,再通过词向量的相似性计算,可以从预设词库关键词库中匹配到与分词的词向量相近或者相同的词语关键词,并以该词语关键词对应的主题作为分词的主题,并输出显示主题及相关的分词,实现自动添加文本标签,通过这种方式,能够识别关键词的近义词或者变形词,使得分词能够以语义近邻的方式匹配到对应的主题,从而生成新的主题映射信息,这优化了现有的文本数据中的关键词与主题映射匹配的模式,提高了文本标签覆盖率,有利于提升用户体验,提高用户留存率与活跃度,同时可实现关键词与主题映射匹配的动态更新,减少人工手动更新带来的工作量,此外在现有词库关键词库的基础上,也以语义近邻的方式实现了词库关键词库的扩充。
本发明实施例提供一种在线文本标签的实时添加装置,可执行上述实施例提供的在线文本标签的实时添加方法。如图3所示,所述在线文本标签的实时添加装置包括分词处理模块10、词向量获取模块20、匹配模块30、主题获取模块40和输出模块50;其中,所述分词处理模块10用于实时获取用户端输入的文本数据,对所述文本数据进行分词处理,得到一组分词;所述词向量获取模块20用于根据预设的词向量生成模型获取每个分词的词向量;所述匹配模块30用于将所述每个分词的词向量与预设关键词库中的关键词的词向量进行相似性计算,匹配得到相似性满足预设阈值的关键词和分词;所述主题获取模块40用于根据匹配得到的关键词和预设的主题映射信息获取与所述匹配得到的关键词相对应的主题;所述输出模块50用于输出匹配得到的分词和获取的主题至用户端界面。
具体的,所述分词处理模块10采用分词算法对实时获取的文本数据进行分词操作,针对不同的语言可采用不同类型的分词算法,比如中文分词可采用机械分词或者最短路径分词等算法,本方案中不作限定。
所述词向量获取模块20所采用的预设的词向量生成模型具体可为word2vec模型,其中word2vec模型是由Google公司提供的开源模型,训练方法与使用方法可以按word2vec的常用方法进行,其中提供的供训练的文本数据越多,训练后得到的模型越准确。
所述匹配模块30所访问的预设关键词库中也可以包含主题词,所述匹配模块30进行词向量的相似性计算具体用于判断各分词与预设关键词库中的某个或某些词语的语义是否相同或相近,所述匹配模块30进行词向量的相似性计算可理解为进行语义相似性计算,即语义是否相同或相近通过两个词向量的相似性达到预设阈值来衡量,在一些实施例中,所述匹配模块30可通过计算分词的词向量与预设关键词库中的关键词的词向量之间的欧氏距离或者夹角余弦等方式来实现相似性计算,具体不作限定。在本实施例中,与预设关键词库中的关键词的词向量相似性达到预设阈值的分词可分为两类,一类是与预设关键词库中某一个关键词的词向量完全相同,另一类是与预设关键词库中某一个或某些关键词的词向量的相似度达到某个预设阈值,当通过欧式距离衡量相似度时,若欧式距离小于预设阈值时则认为匹配,否则不匹配,而通过夹角余弦衡量相似度时,若夹角余弦大于预设阈值时则认为匹配,否则不匹配。
所述主题获取模块40获取的主题映射信息包含有预设关键词库中的关键词与其对应的主题的映射关系,根据匹配得到的关键词和预设的主题映射信息所获取的主题即可作为所述文本数据的主题。对于匹配得到的分词而言,若所述主题获取模块40要获取该分词所属的主题,需要获取其对应的主题映射信息,对于与预设关键词库中某一个关键词的词向量完全相同的分词,说明该分词直接存在对应的主题映射信息,所述主题获取模块40可以直接通过预设的主题映射信息来获取相应的主题;而对于与预设关键词库中某一个或某些关键词的词向量近似且满足相似度要求(即相似度满足预设阈值)的分词,由于没有存在对应的主题映射信息,此时所述主题获取模块40将套用相近似的关键词所对应的主题映射信息来获取相应的主题,此时匹配得到的分词也与某一个或多个主题形成了映射关系,这样使得关键词的近义词或关键词的变形词得到了匹配,匹配得到的分词可作为新的关键词被加入预设关键词库,扩充了关键词库,同时也对应实现了主题映射信息的自动扩充,减少了人工操作更新所带来的工作量。
所述输出模块50输出的匹配得到的分词即可作为要显示给用户的关键词,属于本发明实施例中所述的文本标签的一种。
在本发明实施例中,在所述输出模块50输出匹配得到的分词和获取的主题至用户端界面之前,除通过根据匹配得到的关键词和预设的主题映射信息获取与所述匹配得到的关键词相对应的主题之外,还可进一步地结合其他方式获取文本数据所对应的主题,在一种可实现的方式中,如图4所示,所述在线文本标签的实时添加装置还包括句向量获取模块60,所述句向量获取模块60用于根据所述每个分词的词向量计算所述文本数据的句向量,所述匹配模块30还用于将所述文本数据的句向量与历史文本数据库中的历史文本数据的句向量进行相似性计算,以匹配得到相似性满足预设阈值的历史文本数据,所述主题获取模块40还用于获取匹配得到的历史文本数据所对应的主题,所述输出模块50还用于将匹配得到的历史文本数据所对应的主题作为所述文本数据的主题输出至用户端界面。
具体的,历史文本数据所对应的主题是已预先确定的。在本实施例中,句向量的相似性匹配以相似性小于预设阈值来衡量,类似于词向量的相似性计算,其可通过计算实时获取的所述文本数据的句向量与已经确定主题的历史文本数据的句向量之间的欧氏距离或者夹角余弦等方式来实现近似匹配,具体的,若欧式距离或者夹角余弦小于预设阈值,则说明匹配,此时将待打标签的文本数据映射到匹配的历史文本数据所属的主题,比如历史文本数据的主题为“体育”,若代打标签的文本数据的句向量与该历史文本数据的句向量相似性小于预设阈值,则确定的主题“体育”将作为待打标签的文本数据的一个主题。
在本实施例中,所述句向量获取模块60对于所述文本数据的句向量的计算可通过多种方式实现。在一种可能的方式中,所述句向量获取模块60根据所述每个分词的词向量计算所述文本数据的句向量时具体用于:将所述文本数据的所有分词的词向量进行加和平均,得到所述文本数据的句向量。这种方式对于各分词的重要程度差别不大的情形较为适用。
在另一种可能的方式中,所述句向量获取模块60根据所述每个分词的词向量计算所述文本数据的句向量时具体用于:对所述文本数据中的所有分词进行权重分配,根据各分词的权重和词向量进行加权平均,得到所述文本数据的句向量。对于文本数据中的各分词的重要程度存在差别,且差别程度较大的情形,可以对各分词设置权重,使得加权得到句向量可以更加精确地表征文本数据的内容。
在本发明实施例中,如图5所示,所述在线文本标签的实时添加装置还包括模型训练模块70,用于在所述分词处理模块10实时获取用户端输入的文本数据之前训练所述预设的词向量生成模型,其中所述模型训练模块70训练所述预设的词向量生成模型的训练时具体用于:通过所述分词处理模块10访问文本数据库,获取所述文本数据库中的所有文本数据,对所有文本数据进行分词处理;然后根据分词处理得到分词对初始的词向量生成模型进行训练,训练结束后得到所述预设的词向量生成模型,以供所述词向量获取模块20调用。训练后得到的词向量生成模型可以获得文本数据库(专门用于存储文本数据,包括实时获取的文本数据和历史文本数据)中各文本数据中的分词的词向量,这些词向量将被存储,进一步地,通过这些存储的词向量还可获取各文本数据的句向量并存储。其中,当所述词向量生成模型为word2vec模型时,对word2vec模型进行训练后,将得到基准的词向量,所述分词处理模块10得到的分词结果经过word2vec模型后将得到待匹配的词向量。
在本实施例中,所述分词处理模块10在对所有文本数据进行分词处理时具体用于:对所有文本数据进行初始分词,对初始分词得到的结果进行分词预处理,并将分词预处理之后得到的分词映射到至少一个主题,以得到所述预设的主题映射信息;其中分词预处理之后得到的分词用于输入所述初始的词向量生成模型进行训练。具体的,所述分词处理模块10进行分词时具体采用分词算法对文本数据进行分词操作来实现,针对不同的语言可选择不同类型的分词算法,比如中文分词可采用机械分词或者最短路径分词等算法,本方案中不作限定。分词后的预处理包括去除停用词,名词性短语识别,TF-IDF处理,TextRank关键词提取、命名实体识别、句法依存关系识别、文本主题分类等处理方式的一种或多种,分词后的预处理的目的在于去除无关词语,得到能够体现文本数据意义的分词。
其中,进行主题映射即为将分词的预处理之后得到的关键词映射到至少一个主题,可用于形成多层级的文本标签集合。故在一些实施例中,所述分词处理模块10还用于将分词预处理之后得到的分词和映射得到的主题形成文本标签集合,按照预设的过滤配置信息对所述文本标签集合进行过滤,得到用于在界面显示的关键词和主题,并将得到的关键词存储至所述预设关键词库。其中,文本标签集合包含分词的预处理之后得到的词语和映射得到的主题。
在本发明实施例中,所述分词处理模块10实时获取的文本数据可被添加至上述的历史文本数据库中,在一些实施例中,当历史文本数据库中新增的文本数据量达到预设阈值时,所述模型训练模块70将根据最新的历史文本数据库中的数据对上述的词向量生成模型进行重训练,优化所述词向量生成模型。
根据本发明实施例提供的在线文本标签的实时添加装置,通过实时对文本数据进行分词和计算词向量,以高纬词向量来表征每个分词结果,再通过词向量的相似性计算,可以从预设词库关键词库中匹配到与分词的词向量相近或者相同的词语关键词,并以该词语关键词对应的主题作为分词的主题,并输出显示主题及相关的分词,实现自动添加文本标签,通过这种方式,能够识别关键词的近义词或者变形词,使得分词能够以语义近邻的方式匹配到对应的主题,从而生成新的主题映射信息,这优化了现有的文本数据中的关键词与主题映射匹配的模式,提高了文本标签覆盖率,有利于提升用户体验,提高用户留存率与活跃度,同时可实现关键词与主题映射匹配的动态更新,减少人工手动更新带来的工作量,此外在现有词库关键词库的基础上,也以语义近邻的方式实现了词库关键词库的扩充。
本发明实施例还提供一种计算机设备,如图6所示,所述计算机设备包括至少一个处理器61,以及与所述至少一个处理器61通信连接的存储器62,图6中示出一个处理器61,所述存储器62存储有可被所述至少一个处理器61执行的计算机可读指令,所述计算机可读指令被所述至少一个处理器61执行,以使所述至少一个处理器61能够执行如上所述的在线文本标签的实时添加方法的步骤。
具体的,本发明实施例中的存储器62为非易失性计算机可读存储介质,可用于存储计算机可读指令、非易失性软件程序、非易失性计算机可执行程序以及模块,如本申请上述实施例中的在线文本标签的实时添加方法对应的程序指令/模块;所述处理器61通过运行存储在存储器62中的非易失性软件程序、计算机可读指令以及模块,从而执行各种功能应用以及进行数据处理,即实现上述方法实施例中所述的在线文本标签的实时添加方法。
在一些实施例中,所述存储器62可以包括程序存储区和数据存储区,其中,程序存储区可存储操作系统、至少一个功能所需要的应用程序;数据存储区可存储在线文本标签的实时添加方法的处理过程中所创建的数据等。此外,存储器62可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件;
在一些实施例中,存储器62可选包括相对于处理器61远程设置的远程存储器,这些远程存储器可以通过网络连接至执行域名过滤处理的计算机设备,前述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
在本发明实施例中,执行在线文本标签的实时添加方法的计算机设备还可以包括输入装置63和输出装置64;其中,输入装置63可获取用户在计算机设备上的操作信息,输出装置64可包括显示屏等显示设备。在本发明实施例中,所述处理器61、存储器62、输入装置63和输出装置64可以通过总线或者其他方式连接,图6中以通过总线连接为例。
根据本发明实施例提供的计算机设备,通过处理器61执行存储器62中的代码时能够执行上述实施例中在线文本标签的实时添加方法的步骤,且具有上述方法实施例的技术效果,未在本实施例中详尽描述的技术细节,可参见本申请方法实施例中所提供的技术内容。
本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机可读指令,所述计算机可读指令被至少一个处理器执行时,能够实现如上所述的在线文本标签的实时添加方法的步骤,当执行所述方法的步骤时,具有上述方法实施例的技术效果,未在本实施例中详尽描述的技术细节,可参见本申请方法实施例中所提供的技术内容。
本发明实施例还提供一种计算机程序产品,所述产品可执行本申请方法实施例中所提供的在线文本标签的实时添加方法,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本申请方法实施例中所提供的技术内容。
需要说明的是,在本发明上述实施例中的各功能模块可以集成在一个处理单元中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干计算机可读指令用以使得一台计算机装置(可以是个人计算机,服务器,或者网络装置等)或智能终端设备或处理器(Processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
在本发明所提供的上述实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如,至少两个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到至少两个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
显然,以上所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例,附图中给出了本发明的较佳实施例,但并不限制本发明的专利范围。本发明可以以许多不同的形式来实现,相反地,提供这些实施例的目的是使对本发明的公开内容的理解更加透彻全面。尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来而言,其依然可以对前述各具体实施方式所记载的技术方案进行修改,或者对其中部分技术特征进行等效替换。凡是利用本发明说明书及附图内容所做的等效结构,直接或间接运用在其他相关的技术领域,均同理在本发明专利保护范围之内。
Claims (7)
1.一种在线文本标签的实时添加方法,其特征在于,包括:
访问文本数据库,获取所述文本数据库中的所有文本数据;
对所有文本数据进行初始分词,对初始分词得到的结果进行分词预处理,并将分词预处理之后得到的分词映射到至少一个主题,以得到预设的主题映射信息;
根据分词处理得到分词对初始的词向量生成模型进行训练,训练结束后得到预设的词向量生成模型;
将分词预处理之后得到的分词和映射得到的主题形成文本标签集合,按照预设的过滤配置信息对所述文本标签集合进行过滤,得到用于在界面显示的关键词和主题,并将得到的关键词存储以形成预设关键词库;
实时获取用户端输入的文本数据,对所述文本数据进行分词处理,得到一组分词;
根据所述预设的词向量生成模型获取每个分词的词向量;
将所述每个分词的词向量与预设关键词库中的关键词的词向量进行相似性计算,匹配得到相似性满足预设阈值的关键词和分词;
根据匹配得到的关键词和预设的主题映射信息获取与所述匹配得到的关键词相对应的主题;
输出匹配得到的分词和获取的主题至用户端界面。
2.根据权利要求1所述的在线文本标签的实时添加方法,其特征在于,所述方法还包括:
根据所述每个分词的词向量计算所述文本数据的句向量,将所述文本数据的句向量与历史文本数据库中的历史文本数据的句向量进行相似性计算,若匹配得到相似性满足预设阈值的历史文本数据,则获取匹配得到的历史文本数据所对应的主题,并将其作为所述文本数据的主题输出至用户端界面。
3.根据权利要求2所述的在线文本标签的实时添加方法,其特征在于,所述根据所述每个分词的词向量计算所述文本数据的句向量包括:
将所述文本数据的所有分词的词向量进行加和平均,得到所述文本数据的句向量。
4.根据权利要求2所述的在线文本标签的实时添加方法,其特征在于,所述根据所述每个分词的词向量计算所述文本数据的句向量包括:
对所述文本数据中的所有分词进行权重分配,根据各分词的权重和词向量进行加权平均,得到所述文本数据的句向量。
5.一种在线文本标签的实时添加装置,其特征在于,包括:
模型训练模块,用于训练预设的词向量生成模型;
分词处理模块,用于实时获取用户端输入的文本数据,对所述文本数据进行分词处理,得到一组分词;
词向量获取模块,用于根据预设的词向量生成模型获取每个分词的词向量;
匹配模块,用于将所述每个分词的词向量与预设关键词库中的关键词的词向量进行相似性计算,匹配得到相似性满足预设阈值的关键词和分词;
主题获取模块,用于根据匹配得到的关键词和预设的主题映射信息获取与所述匹配得到的关键词相对应的主题;
输出模块,用于输出匹配得到的分词和获取的主题至用户端界面;
其中,所述模型训练模块训练预设的词向量生成模型的训练时,具体用于:通过所述分词处理模块访问文本数据库,获取所述文本数据库中的所有文本数据,对所有文本数据进行初始分词,对初始分词得到的结果进行分词预处理,并将分词预处理之后得到的分词映射到至少一个主题,以得到所述预设的主题映射信息;根据分词处理得到分词对初始的词向量生成模型进行训练,训练结束后得到所述预设的词向量生成模型;
所述分词处理模块还用于将分词预处理之后得到的分词和映射得到的主题形成文本标签集合,按照预设的过滤配置信息对所述文本标签集合进行过滤,得到用于在界面显示的关键词和主题,并将得到的关键词存储至所述预设关键词库。
6.一种计算机设备,其特征在于,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有计算机可读指令,所述计算机可读指令被所述至少一个处理器执行时,使得所述至少一个处理器执行如权利要求1至4中任一项所述的在线文本标签的实时添加方法。
7.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机可读指令,所述计算机可读指令被至少一个处理器执行时实现如权利要求1至4中任一项权利要求所述的在线文本标签的实时添加方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910871158.9A CN110795911B (zh) | 2019-09-16 | 2019-09-16 | 在线文本标签的实时添加方法、装置及相关设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910871158.9A CN110795911B (zh) | 2019-09-16 | 2019-09-16 | 在线文本标签的实时添加方法、装置及相关设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110795911A CN110795911A (zh) | 2020-02-14 |
CN110795911B true CN110795911B (zh) | 2023-07-21 |
Family
ID=69427146
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910871158.9A Active CN110795911B (zh) | 2019-09-16 | 2019-09-16 | 在线文本标签的实时添加方法、装置及相关设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110795911B (zh) |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111309869B (zh) * | 2020-02-28 | 2023-09-22 | 中国工商银行股份有限公司 | 实时文本流信息检索方法及系统 |
CN111325033B (zh) * | 2020-03-20 | 2023-07-11 | 中国建设银行股份有限公司 | 实体识别方法、装置、电子设备及计算机可读存储介质 |
CN111930805A (zh) * | 2020-08-10 | 2020-11-13 | 中国平安人寿保险股份有限公司 | 一种信息挖掘方法及计算机设备 |
CN111967261B (zh) * | 2020-10-20 | 2021-02-12 | 平安科技(深圳)有限公司 | 癌症分期信息处理方法、装置及存储介质 |
CN112328788A (zh) * | 2020-11-04 | 2021-02-05 | 上海豹云网络信息服务有限公司 | 一种文章的分类方法、装置及计算机系统 |
CN112381038B (zh) * | 2020-11-26 | 2024-04-19 | 中国船舶工业系统工程研究院 | 一种基于图像的文本识别方法、系统和介质 |
CN112579738A (zh) * | 2020-12-23 | 2021-03-30 | 广州博冠信息科技有限公司 | 目标对象的标签处理方法、装置、设备及存储介质 |
CN112819512B (zh) * | 2021-01-22 | 2023-03-24 | 北京有竹居网络技术有限公司 | 一种文本处理方法、装置、设备及介质 |
CN114510566B (zh) * | 2021-11-29 | 2023-07-07 | 上海市黄浦区城市运行管理中心(上海市黄浦区城市网格化综合管理中心、上海市黄浦区大数据中心) | 基于工单的热词挖掘、分类和分析的方法和系统 |
CN114281992A (zh) * | 2021-12-22 | 2022-04-05 | 北京朗知网络传媒科技股份有限公司 | 基于传媒领域的汽车文章智能分类方法及系统 |
CN114896004A (zh) * | 2022-04-25 | 2022-08-12 | 中国建设银行股份有限公司 | 数据处理方法、装置、电子设备和存储介质 |
CN115421396A (zh) * | 2022-09-29 | 2022-12-02 | 深圳康佳电子科技有限公司 | 一种智能家居设备控制方法和装置、电子设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105893410A (zh) * | 2015-11-18 | 2016-08-24 | 乐视网信息技术(北京)股份有限公司 | 一种关键词提取方法和装置 |
CN106844647A (zh) * | 2017-01-22 | 2017-06-13 | 南方科技大学 | 一种搜索关键词获取的方法及装置 |
JP2017151838A (ja) * | 2016-02-26 | 2017-08-31 | トヨタ自動車株式会社 | 話題推定学習装置及び話題推定学習方法 |
CN108090047A (zh) * | 2018-01-10 | 2018-05-29 | 华南师范大学 | 一种文本相似度的确定方法及设备 |
CN110134786A (zh) * | 2019-05-14 | 2019-08-16 | 南京大学 | 一种基于主题词向量与卷积神经网络的短文本分类方法 |
-
2019
- 2019-09-16 CN CN201910871158.9A patent/CN110795911B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105893410A (zh) * | 2015-11-18 | 2016-08-24 | 乐视网信息技术(北京)股份有限公司 | 一种关键词提取方法和装置 |
JP2017151838A (ja) * | 2016-02-26 | 2017-08-31 | トヨタ自動車株式会社 | 話題推定学習装置及び話題推定学習方法 |
CN106844647A (zh) * | 2017-01-22 | 2017-06-13 | 南方科技大学 | 一种搜索关键词获取的方法及装置 |
CN108090047A (zh) * | 2018-01-10 | 2018-05-29 | 华南师范大学 | 一种文本相似度的确定方法及设备 |
CN110134786A (zh) * | 2019-05-14 | 2019-08-16 | 南京大学 | 一种基于主题词向量与卷积神经网络的短文本分类方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110795911A (zh) | 2020-02-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110795911B (zh) | 在线文本标签的实时添加方法、装置及相关设备 | |
US10755048B2 (en) | Artificial intelligence based method and apparatus for segmenting sentence | |
CN108121700B (zh) | 一种关键词提取方法、装置及电子设备 | |
CN107679039B (zh) | 用于确定语句意图的方法和装置 | |
US11301637B2 (en) | Methods, devices, and systems for constructing intelligent knowledge base | |
CN107526799B (zh) | 一种基于深度学习的知识图谱构建方法 | |
US20200110882A1 (en) | Bipartite graph-based topic categorization system | |
CN104615589A (zh) | 训练命名实体识别模型的方法、命名实体识别方法及装置 | |
CN109948140B (zh) | 一种词向量嵌入方法及装置 | |
CN112784589B (zh) | 一种训练样本的生成方法、装置及电子设备 | |
WO2022174496A1 (zh) | 基于生成模型的数据标注方法、装置、设备及存储介质 | |
CN111859964A (zh) | 一种语句中命名实体的识别方法及装置 | |
US11036996B2 (en) | Method and apparatus for determining (raw) video materials for news | |
CN111143571B (zh) | 实体标注模型的训练方法、实体标注方法以及装置 | |
US20230103728A1 (en) | Method for sample augmentation | |
CN112528654A (zh) | 自然语言处理方法、装置及电子设备 | |
CN114297388A (zh) | 一种文本关键词提取方法 | |
CN113051368A (zh) | 双塔模型训练方法、检索方法、装置及电子设备 | |
CN110633724A (zh) | 意图识别模型动态训练方法、装置、设备和存储介质 | |
JP2022088540A (ja) | ユーザ興味画像の生成方法、装置、電子機器及び記憶媒体 | |
CN113609847B (zh) | 信息抽取方法、装置、电子设备及存储介质 | |
CN112528653B (zh) | 短文本实体识别方法和系统 | |
CN107122378B (zh) | 对象处理方法、装置及移动终端 | |
CN113761124A (zh) | 文本编码模型的训练方法、信息检索方法及设备 | |
CN114004233B (zh) | 一种基于半训练和句子选择的远程监督命名实体识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |