CN113139141A - 用户标签扩展标注方法、装置、设备及存储介质 - Google Patents
用户标签扩展标注方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN113139141A CN113139141A CN202110433761.6A CN202110433761A CN113139141A CN 113139141 A CN113139141 A CN 113139141A CN 202110433761 A CN202110433761 A CN 202110433761A CN 113139141 A CN113139141 A CN 113139141A
- Authority
- CN
- China
- Prior art keywords
- label
- labels
- user
- text
- predicted
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000002372 labelling Methods 0.000 title claims abstract description 60
- 239000013598 vector Substances 0.000 claims abstract description 128
- 238000000034 method Methods 0.000 claims abstract description 55
- 238000012706 support-vector machine Methods 0.000 claims abstract description 52
- 238000000605 extraction Methods 0.000 claims abstract description 32
- 238000012216 screening Methods 0.000 claims abstract description 30
- 238000012549 training Methods 0.000 claims description 36
- 238000004364 calculation method Methods 0.000 claims description 16
- 238000012545 processing Methods 0.000 claims description 14
- 238000013507 mapping Methods 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims 1
- 238000005516 engineering process Methods 0.000 abstract description 3
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 238000004422 calculation algorithm Methods 0.000 description 12
- 230000008569 process Effects 0.000 description 10
- 238000013145 classification model Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 8
- 230000006399 behavior Effects 0.000 description 7
- 230000007547 defect Effects 0.000 description 7
- 238000013500 data storage Methods 0.000 description 6
- 238000013528 artificial neural network Methods 0.000 description 4
- 230000007812 deficiency Effects 0.000 description 4
- 238000007637 random forest analysis Methods 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000010835 comparative analysis Methods 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 230000002950 deficient Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/955—Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
- G06F16/9562—Bookmark management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Databases & Information Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Evolutionary Biology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及人工智能领域,公开了一种用户标签扩展标注方法、装置、设备及存储介质,该方法包括:获取文本信息,并将文本信息输入到深度网络模型中进行特征提取,得到第一特征向量;将第一特征向量进行级联拼接,得到第二特征向量并输入到预先训练好的支持向量机模型的n个分类器,得到n个预测标签概率;确定n个预测标签概率中大于预设概率阈值的预测标签概率,将对应的标签作为第一预测标签;将第一预测标签与标签库中的标签相似度计算,从标签库中筛选标签作为第二预测标签;将第一预测标签和第二预测标签作为用户标签。通过本方法,避免用户标签匮乏,便于用户画像的生成,此外,本发明还涉及区块链技术,历史用户数据集可存储于区块链中。
Description
技术领域
本发明涉及人工智能领域,尤其涉及一种用户标签扩展标注方法、装置、设备及存储介质。
背景技术
随着互联网应用中大数据处理技术的实现,每个用户都有对应的用户标签,用户标签是构成用户画像的核心因素,是将用户在平台内所产生的行为数据,经过分析提炼后生成具有差异性特征的词语,平台将用户所有行为数据提炼出来形成支撑业务实现的可视化信息,实现个性化服务。
现有的用户标签推荐使用单一的机器学习算法对用户的静态数据,如姓名、性别、年龄、身高、体重、职业、地区、设备信息、来源渠道等或是动态数据如用户的点击、浏览行为、互动、评论、点赞、转发、收藏行为等直接进行用户标签的预测,得到单一的用户标签,容易导致用户标签的数量稀少,无法准确推荐用户感兴趣的信息。
发明内容
本发明的主要目的在于解决现有的标签预测出的用标签数量少,导致无法准确推荐用户感兴趣的信息的技术问题。
本发明第一方面提供了一种用户标签扩展标注方法,包括:获取客户端采集的待标注用户的文本信息,并将所述文本信息输入到至少一种深度网络模型中进行特征提取,得到至少一种第一特征向量;若所述第一特征向量的数量大于一,则将所述第一特征向量进行级联拼接,得到第二特征向量;将所述第二特征向量输入到预先训练好的支持向量机模型的n个分类器中,得到n个预测标签概率,其中,所述分类器根据预设的标签库中的标签训练得到,所述n为不小于1的自然数;确定n个所述预测标签概率中大于预设概率阈值的预测标签概率,并将对应的标签作为第一预测标签;将所述第一预测标签与预设的标签库中的标签进行相似度计算,从所述标签库中筛选预设数量的标签作为第二预测标签;将所述第一预测标签和所述第二预测标签作为用户标签,并根据所述用户标签为所述待标注用户进行标签标注。
可选的,在本发明第一方面的第一种实现方式中,在所述获取客户端采集的待标注用户的文本信息,并将所述文本信息输入到至少一种深度网络模型中进行特征提取,得到至少一种第一特征向量之前,还包括:获取预设的标签库和历史用户文本,其中所述历史用户文本为已进行人工标签标注的文本信息;将所述历史用户文本输入到少一种深度网络模型中进行特征提取,得到至少一种历史用户文本的低维特征;若所述历史用户文本的特征的数量大于一,则将所述历史用户文本的特征进行级联拼接,得到所述历史用户文本的高维特征;将所述历史用户文本的高维特征输入支持向量机模型中,得到所述历史用户文本的预测标签;根据所述预测标签和所述历史用户文本的人工标签标注的标签进行所述深度网络模型的模型训练。
可选的,在本发明第一方面的第二种实现方式中,所述根据所述预测标签和所述历史用户文本的人工标签标注的标签进行所述深度网络模型的模型训练包括:计算所述历史用户样本的预测标签与人工标签标注的标签的误差率;若所述误差率大于预设阈值,则调整所述深度网络模型的网络参数;将所述历史用户文本重新输入所述深度网络模型中,进行模型训练,直至所述误差率小于预设阈值。
可选的,在本发明第一方面的第三种实现方式中,所述支持向量机由n个分类器构成,所述将所述历史用户文本的高维特征输入支持向量机模型中,得到所述历史用户文本的预测标签包括:将所述高维特征输入所述支持向量机中,通过所述支持向量机的n个分类器,获得所述历史用户文本的n个预测标签概率;将所述n个预测标签概率与预设概率阈值进行数值比较,筛选m个大于预设概率阈值的预测标签概率;确定m个大于预设概率阈值的预测标签概率对应的分类器,并从所述标签库中筛选出与所述分类器对应的m个标签;将筛选的m个标签作为所述历史用户文本的预测标签。
可选的,在本发明第一方面的第四种实现方式中,所述将所述第一预测标签与预设的标签库中的标签进行相似度计算,从所述标签库中筛选预设数量的标签作为第二预测标签包括:将所述第一预测标签通过结合词嵌入模型word2vec映射到文本向量空间,得到所述第一预测标签的文本向量;计算所述文本向量与所述标签库中其他向量的余弦相似度;根据所述余弦相似度,通过K近邻方法从所述标签库中筛选标签作为第二预测标签。
可选的,在本发明第一方面的第五种实现方式中,所述根据所述余弦相似度,通过K近邻方法从所述标签库中筛选标签作为第二预测标签包括:根据所述余弦相似度,计算所述文本向量与标签库中其他向量的余弦距离;根据所述余弦距离对所述标签库中的标签进行从大到小排序,并筛选其中的前k个标签;将所述前k个标签作为第二预测标签。
可选的,在本发明第一方面的第六种实现方式中,其特征在于,定义埋点内容,并根据所述埋点内容在所述客户端上埋点;当用户在操作所述客户端产生埋点数据时,与服务器建立连接,将所述埋点数据上传至服务器,通过所述服务器解析所述埋点数据,得到目标字段,并将所述目标字段发送至Kafka消息队列;采用流式计算框架storm对所述Kafka消息队列中的目标字段进行拓扑处理,并将拓扑处理后的目标字段按照预设的时间间隔存储至分布式文件系统HDFS;将所述分布式文件系统HDFS中的目标字段作为历史用户文本存储至hive数据仓库工具中。
本发明第二方面提供了一种用户标签扩展标注装置,包括:获取模块,用于获取客户端采集的待标注用户的文本信息,并将所述文本信息输入到至少一种深度网络模型中进行特征提取,得到至少一种第一特征向量;拼接模块,用于当所述第一特征向量的数量大于一时,将所述第一特征向量进行级联拼接,得到第二特征向量;输入模块,用于将所述第二特征向量输入到预先训练好的支持向量机模型的n个分类器中,得到n个预测标签概率,其中,所述分类器根据预设的标签库中的标签训练得到,所述n为不小于1的自然数;第一标签模块,用于确定n个所述预测标签概率中大于预设概率阈值的预测标签概率,并将对应的标签作为第一预测标签;第二标签模块,用于将所述第一预测标签与预设的标签库中的标签进行相似度计算,从所述标签库中筛选预设数量的标签作为第二预测标签;打标模块,用于将所述第一预测标签和所述第二预测标签作为用户标签,并根据所述用户标签为所述待标注用户进行标签标注。
可选的,在本发明第二方面的第一种实现方式中,所述用户标签扩展标注装置还包括模型训练模块,所述模型训练模块具体用于:获取预设的标签库和历史用户文本,其中所述历史用户文本为已进行人工标签标注的文本信息;将所述历史用户文本输入到少一种深度网络模型中进行特征提取,得到至少一种历史用户文本的低维特征;若所述历史用户文本的特征的数量大于一,则将所述历史用户文本的特征进行级联拼接,得到所述历史用户文本的高维特征;将所述历史用户文本的高维特征输入支持向量机模型中,得到所述历史用户文本的预测标签;根据所述预测标签和所述历史用户文本的人工标签标注的标签进行所述深度网络模型的模型训练。
可选的,在本发明第二方面的第二种实现方式中,所述支持向量机由n个分类器构成,所述模型训练模块还具体用于:将所述高维特征输入所述支持向量机中,通过所述支持向量机的n个分类器,获得所述历史用户文本的n个预测标签概率;将所述n个预测标签概率与预设概率阈值进行数值比较,筛选m个大于预设概率阈值的预测标签概率;确定m个大于预设概率阈值的预测标签概率对应的分类器,并从所述标签库中筛选出与所述分类器对应的m个标签;将筛选的m个标签作为所述历史用户文本的预测标签。
可选的,在本发明第二方面的第三种实现方式中,所述模型训练模块具体还用于:计算所述历史用户样本的预测标签与人工标签标注的标签的误差率;若所述误差率大于预设阈值,则调整所述深度网络模型的网络参数;将所述历史用户文本重新输入所述深度网络模型中,进行模型训练,直至所述误差率小于预设阈值。
可选的,在本发明第二方面的第四种实现方式中,所述第二标签模块包括:向量映射单元,用于将所述第一预测标签通过结合词嵌入模型word2vec映射到文本向量空间,得到所述第一预测标签的文本向量;相似度计算单元,用于计算所述文本向量与所述标签库中其他向量的余弦相似度;筛选单元,用于根据所述余弦相似度,通过K近邻方法从所述标签库中筛选标签作为第二预测标签。
可选的,在本发明第二方面的第五种实现方式中,所述筛选单元具体用于:根据所述余弦相似度,计算所述文本向量与标签库中其他向量的余弦距离;根据所述余弦距离对所述标签库中的标签进行从大到小排序,并筛选其中的前k个标签;将所述前k个标签作为第二预测标签。
可选的,在本发明第二方面的第六种实现方式中,所述用户标签扩展标注装置还包括数据存储模块,所述数据存储模块具体用于:定义埋点内容,并根据所述埋点内容在所述客户端上埋点;当用户在操作所述客户端产生埋点数据时,与服务器建立连接,将所述埋点数据上传至服务器,通过所述服务器解析所述埋点数据,得到目标字段,并将所述目标字段发送至Kafka消息队列;采用流式计算框架storm对所述Kafka消息队列中的目标字段进行拓扑处理,并将拓扑处理后的目标字段按照预设的时间间隔存储至分布式文件系统HDFS;将所述分布式文件系统HDFS中的目标字段作为历史用户文本存储至hive数据仓库工具中。
本发明第三方面提供了一种用户标签扩展标注设备,包括:存储器和至少一个处理器,所述存储器中存储有指令,所述存储器和所述至少一个处理器通过线路互连;所述至少一个处理器调用所述存储器中的所述指令,以使得所述用户标签扩展标注设备执行上述的用户标签扩展标注方法的步骤。
本发明的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述的用户标签扩展标注方法的步骤。
本发明的技术方案中,通过获取客户端采集的待标注用户的文本信息,并将所述文本信息输入到至少一种深度网络模型中进行特征提取,得到至少一种第一特征向量;若所述第一特征向量的数量大于一,则将所述第一特征向量进行级联拼接,得到第二特征向量;将所述第二特征向量输入到预先训练好的支持向量机模型的n个分类器中,得到n个预测标签概率,其中,所述分类器根据预设的标签库中的标签训练得到,所述n为不小于1的自然数;确定n个所述预测标签概率中大于预设概率阈值的预测标签概率,并将对应的标签作为第一预测标签;将所述第一预测标签与预设的标签库中的标签进行相似度计算,从所述标签库中筛选预设数量的标签作为第二预测标签;将所述第一预测标签和所述第二预测标签作为用户标签,并根据所述用户标签为所述待标注用户进行标签标注。本方法通过多个深度网络模型对用户的文本信息进行特征提取解决了单个模型或者某一组参数的模型所固有的缺陷,从而整合起更多的模型,取长补短,避免局限性,同时,在通过支持向量机得到第一预测标签后,通过相似度算法,进行标签扩展,将扩展得到的标签与第一预测标签作为用户的用户标签,避免用户标签匮乏,便于后续用户画像的生成。
附图说明
图1为本发明实施例中用户标签扩展标注方法的第一个实施例示意图;
图2为本发明实施例中用户标签扩展标注方法的第二个实施例示意图;
图3为本发明实施例中用户标签扩展标注方法的第三个实施例示意图;
图4为本发明实施例中用户标签扩展标注方法的第四个实施例示意图;
图5为本发明实施例中用户标签扩展标注装置的一个实施例示意图;
图6为本发明实施例中用户标签扩展标注装置的另一个实施例示意图;
图7为本发明实施例中用户标签扩展标注设备的一个实施例示意图。
具体实施方式
本发明的技术方案中,通过获取客户端采集的待标注用户的文本信息,并将所述文本信息输入到至少一种深度网络模型中进行特征提取,得到至少一种第一特征向量;若所述第一特征向量的数量大于一,则将所述第一特征向量进行级联拼接,得到第二特征向量;将所述第二特征向量输入到预先训练好的支持向量机模型的n个分类器中,得到n个预测标签概率,其中,所述分类器根据预设的标签库中的标签训练得到,所述n为不小于1的自然数;确定n个所述预测标签概率中大于预设概率阈值的预测标签概率,并将对应的标签作为第一预测标签;将所述第一预测标签与预设的标签库中的标签进行相似度计算,从所述标签库中筛选预设数量的标签作为第二预测标签;将所述第一预测标签和所述第二预测标签作为用户标签,并根据所述用户标签为所述待标注用户进行标签标注。本方法通过多个深度网络模型对用户的文本信息进行特征提取解决了单个模型或者某一组参数的模型所固有的缺陷,从而整合起更多的模型,取长补短,避免局限性,同时,在通过支持向量机得到第一预测标签后,通过相似度算法,进行标签扩展,将扩展得到的标签与第一预测标签作为用户的用户标签,避免用户标签匮乏,便于后续用户画像的生成。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”或“具有”及其任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
为便于理解,下面对本发明实施例的具体流程进行描述,请参阅图1,本发明实施例中用户标签扩展标注方法的第一个实施例包括:
101、获取客户端采集的待标注用户的文本信息,并将文本信息输入到至少一种深度网络模型中进行特征提取,得到至少一种第一特征向量;
可以理解的是,本发明的执行主体可以为用户标签扩展标注装置,还可以是终端或者服务器,具体此处不做限定。本发明实施例以服务器为执行主体为例进行说明。
需要强调的是,为保证数据的私密和安全性,上述文本信息可以存储于一区块链的节点中。
在本实施例中,根据对用户进行标签标注需要的数据内容,对客户端的埋点内容进行定义,埋点内容主要为客户端中涉及的各类事件,如页面浏览事件
(page_evt)、用户事件(user_evt)、启动(start_evt)和退出事件(quit_evt)、点击事件(click_evt),当上述的埋点内容也无法满足业务统计需要时,可对当前的操作定义为自定义事件(custom_evt),通过上述事件,实现对用户原始数据的获取,例如对于用户浏览记录通过页面浏览事件(page_evt)进行埋点采集,用户购买行为使用点击事件(click_evt)进行埋点采集、对于部分用户问诊记录、用户的留言、评论,通过自定义事件进行埋点采集。通过对客户端进行埋点操作,实现对用户的原始数据的实时获取,需要进行标签标记的用户的客户端对采集到的原始数据转换为文本信息。
在本实施例中,所述深度网络模型主要包括基于Random Forest随机森林的分类模型,基于DNN深度神经网络的分类模型和基于RNN循环神经网络的分类模型,在实际应用中,还可以使用其他深度网络模型进行特征提取,本发明不做限定。
102、若第一特征向量的数量大于一,则将第一特征向量进行级联拼接,得到第二特征向量;
在实际应用中,深度网络模型的数量可以有多个,使用多个深度网络模型对文本信息进行特征提取能够避免单个模型或者某一组参数的模型所固有的缺陷,从而整合起更多的模型,取长补短,避免局限性,在本实施例中,深度网络模型主要包括基于RandomForest随机森林的分类模型,基于DNN深度神经网络的分类模型和基于RNN循环神经网络的分类模型,对三种模型进行了集成,即ensemble思想,一般情况下集成学习用于同质学习器,而在本实施例中,将这种思想运用在了异质学习器上。
在本实施例中,将上述三个不同深度网络分类模型提取的三种特征级联在一起形成新的多维特征向量,在很多工作中,融合不同尺度的特征是提高分割性能的一个重要手段。低维特征分辨率更高,包含更多位置、细节信息,但是由于经过的卷积更少,其语义性更低,噪声更多,而高维特征具有更强的语义信息,通过将多个深度网络模型提取的特征进行拼接,即可的到高维特征。
103、将第二特征向量输入到预先训练好的支持向量机模型的n个分类器中,得到n个预测标签概率;
104、确定n个预测标签概率中大于预设概率阈值的预测标签概率,并将对应的标签作为第一预测标签;
在本实施例中,将拼接得到的高维向量输入到训练好的支持向量机模型中,所述支持向量机模型由多个分类器组成,分类器的数量为预设的标签库中标签的数量,不同的分类器对应不同的标签预测,分类器对样本进行预测,判断样本是否具有对应的标签,输出具有对应标签的概率,并将概率大于预设阈值的标签作为第一预测标签,例如标签库有三个标签,对应的支持向量机由共有3个分类器,样本的第二特征向量输出支持向量机后,通过3个分类器,分别输出概率为95%,97%,76%,若预设的概率阈值为95%,则将前两个分类器对应的标签作为第一预测标签输出。
105、将第一预测标签与预设的标签库中的标签进行相似度计算,从标签库中筛选预设数量的标签作为第二预测标签;
在本实施例中,根据历史用户数据对历史用户进行了用户画像的构建,用户画像的核心在于给用户“打标签”,每一个标签通常是人为规定的特征标识,用高度精炼的特征描述一类人,用户标签可以是从用户浏览的语料中得到,也可以是用户设定的,例如,在文本推荐应用中,通过用户触发进行的点击,文本推荐应用将拉取各种文本进行内容显示,此时,所进行内容显示的文本便可作为获得用户标签的语料,此外,工作人员也可通过在文本推荐应用中进行设置来添加或删除用户标签,本发明不做限定。也即时说,人为地事先设定对用户标签进行了设定,例如根据用户的多消费单数和高消费金额的购物数据,给用户打“高频、高价值”的标签,同时将“高频、高价值”的标签存储在标签库中。
在本实施例中,所述相似度计算主要使用结合词嵌入模型word2vec和knn算法,将第一预测标签对应的文本通过embedding训练成词向量的形式,对于标签库中,语义相似的标签文本表示转化为向量之后将会具有较小的距离,语义不相似的标签文本表示将具有较大的距离,基于此特征将第一预测主题标签映射到词向量空间,进一步通过KNN算法计算输入标签的相似的K个第二预测标签。
106、将第一预测标签和第二预测标签作为用户标签,并根据用户标签为待标注用户进行标签标注。
在本实施例中,将第一预测标签和第二预测标签作为最终的用户标签,对用户进行打标,通过结合词嵌入模型word2vec和knn算法对支持向量机预测的第一预测标签进行扩展,得到语义类似的第二预测标签,丰富数据分析的维度,可以对业务做更深层次的对比分析,也可以将用户切割成更细的粒度,使运营从粗放式到精细化,用户标签的扩展能够作为数据产品的基础,在后续根据用户画像进行数据产品,比如推荐系统、广告系统、客户系统等开发的过程中,丰富且自动化的标签能使这些系统功效更大。
在本实施例中,通过获取客户端采集的待标注用户的文本信息,并将文本信息输入到至少一种深度网络模型中进行特征提取,得到至少一种第一特征向量;若第一特征向量的数量大于一,则将第一特征向量进行级联拼接,得到第二特征向量;将第二特征向量输入到预先训练好的支持向量机模型的n个分类器中,得到n个预测标签概率,其中,分类器根据预设的标签库中的标签训练得到,n为不小于1的自然数;确定n个预测标签概率中大于预设概率阈值的预测标签概率,并将对应的标签作为第一预测标签;将第一预测标签与预设的标签库中的标签进行相似度计算,从标签库中筛选预设数量的标签作为第二预测标签;将第一预测标签和第二预测标签作为用户标签,并根据用户标签为待标注用户进行标签标注。本方法通过多个深度网络模型对用户的文本信息进行特征提取解决了单个模型或者某一组参数的模型所固有的缺陷,从而整合起更多的模型,取长补短,避免局限性,同时,在通过支持向量机得到第一预测标签后,通过相似度算法,进行标签扩展,将扩展得到的标签与第一预测标签作为用户的用户标签,避免用户标签匮乏,便于后续用户画像的生成。
请参阅图2,本发明实施例中用户标签扩展标注方法的第二个实施例包括:
201、获取预设的标签库和历史用户文本,其中历史用户文本为已进行人工标签标注的文本信息;
在本实施例中,工作人员根据历史用户数据对历史用户进行了用户画像的构建,也即时说,人为地事先设定对用户标签进行了设定,例如根据用户的多消费单数和高消费金额的购物数据,给用户打“高频、高价值”的标签,同时将“高频、高价值”的标签存储在标签库中,为用户进行打标的依据文本,即为历史用户文本,将人工生成的标签标注在历史用户文本中。
202、将历史用户文本输入到少一种深度网络模型中进行特征提取,得到至少一种历史用户文本的低维特征;
在本实施例中,所述深度网络模型主要包括基于Random Forest随机森林的分类模型,基于DNN深度神经网络的分类模型和基于RNN循环神经网络的分类模型,在实际应用中,还可以使用其他深度网络模型进行特征提取,本发明不做限定。
203、若历史用户文本的特征的数量大于一,则将历史用户文本的特征进行级联拼接,得到历史用户文本的高维特征;
在本实施例中,将上述三个不同深度网络分类模型提取的三种特征级联在一起形成新的高维特征向量,高维特征具有更强的语义信息。
204、将高维特征输入支持向量机中,通过支持向量机的n个分类器,获得历史用户文本的n个预测标签概率;
在本实施例中,所述支持向量机模型由多个分类器组成,分类器的数量为预设的标签库中标签的数量,不同的分类器对应不同的标签预测,分类器对样本进行预测,判断样本是否具有对应的标签,输出具有对应标签的概率。
205、将n个预测标签概率与预设概率阈值进行数值比较,筛选m个大于预设概率阈值的预测标签概率;
206、确定m个大于预设概率阈值的预测标签概率对应的分类器,并从标签库中筛选出与分类器对应的m个标签;
将概率大于预设阈值的标签作为预测标签,例如标签库有三个标签,对应的支持向量机由共有3个分类器,样本的第二特征向量输出支持向量机后,通过3个分类器,分别输出概率为95%,97%,76%,若预设的概率阈值为95%,则将前两个分类器对应的标签作为预测标签输出。
207、将筛选的m个标签作为历史用户文本的预测标签;
208、计算历史用户样本的预测标签与人工标签标注的标签的误差率;
在本实施例中,计算历史用户样本的预测标签与人工标签标注的标签的误差率进而判断是否需要进行深度网络模型的网络参数的调整,误差值的计算方式主要是通过判断支持向量机预测的历史用户样本的预测标签与人工标签标注的标签相同的数量,例如,工作人员根据某历史用户的历史用户样本对历史用户进行人工标签标注,人工标签标注的数量为50,而通过支持向量机进行预测得到的,得到的预测标签为40个,其中有30个预测标签与人工标注的标签相同,则预测的正确率为60%,误差率为40%。
209、若误差率大于预设阈值,则调整深度网络模型的网络参数;
210、将历史用户文本重新输入深度网络模型中,进行模型训练,直至误差率小于预设阈值;
若计算出来的误差率大于预设的阈值,则进行模型的下一次训练,并误差率高的样本放入下一个模型训练中,直至误差率小于预设阈值,通过不断优化深度网络模型的网络参数,完成模型训练过程。
211、获取客户端采集的待标注用户的文本信息,并将文本信息输入到至少一种深度网络模型中进行特征提取,得到至少一种第一特征向量;
212、若第一特征向量的数量大于一,则将第一特征向量进行级联拼接,得到第二特征向量;
213、将第二特征向量输入到预先训练好的支持向量机模型的n个分类器中,得到n个预测标签概率;
214、确定n个预测标签概率中大于预设概率阈值的预测标签概率,并将对应的标签作为第一预测标签;
215、将第一预测标签与预设的标签库中的标签进行相似度计算,从标签库中筛选预设数量的标签作为第二预测标签;
216、将第一预测标签和第二预测标签作为用户标签,并根据用户标签为待标注用户进行标签标注。
本实施例中的步骤211-216与第一实施例中的步骤101-106相似,此处不再赘述。
本实施例在上一实施例的基础上,增加了对深度网络模型进行训练的过程,通过获取预设的标签库和历史用户文本,其中历史用户文本为已进行人工标签标注的文本信息;将历史用户文本输入到少一种深度网络模型中进行特征提取,得到至少一种历史用户文本的低维特征;若历史用户文本的特征的数量大于一,则将历史用户文本的特征进行级联拼接,得到历史用户文本的高维特征;将历史用户文本的高维特征输入支持向量机模型中,得到历史用户文本的预测标签;根据预测标签和历史用户文本的人工标签标注的标签进行深度网络模型的模型训练。通过本方法对样本进行数据清洗,能够数据倾斜现象,使得后续生成的模型准确率更高。通过训练出来的深度网络模型,多个深度网络模型对用户的文本信息进行特征提取解决了单个模型或者某一组参数的模型所固有的缺陷,从而整合起更多的模型,取长补短,避免局限性,同时,在通过支持向量机得到第一预测标签后,通过相似度算法,进行标签扩展,将扩展得到的标签与第一预测标签作为用户的用户标签,避免用户标签匮乏,便于后续用户画像的生成。
请参阅图3,本发明实施例中用户标签扩展标注方法的第三个实施例包括:
301、获取客户端采集的待标注用户的文本信息,并将文本信息输入到至少一种深度网络模型中进行特征提取,得到至少一种第一特征向量;
302、若第一特征向量的数量大于一,则将第一特征向量进行级联拼接,得到第二特征向量;
303、将第二特征向量输入到预先训练好的支持向量机模型的n个分类器中,得到n个预测标签概率;
304、确定n个预测标签概率中大于预设概率阈值的预测标签概率,并将对应的标签作为第一预测标签;
305、将第一预测标签通过结合词嵌入模型word2vec映射到文本向量空间,得到第一预测标签的文本向量;
在本实施例中,结合词嵌入模型word2vec建模了文本之间的相关性关系,结合词嵌入模型word2vec将文本表示转化为词向量形式,对于语义相似的文本表示转化为向量之后将会具有较小的距离,语义不相似的文本表示将具有较大的距离,基于此特征,结合词嵌入模型word2vec将第一预测标签投影到词向量空间,得到第一预测标签对应的文本向量。
306、计算文本向量与标签库中其他向量的余弦相似度;
在本实施例中,比较第一预测标签与标签库中其他标签的文本向量之间的距离,所述距离可以使用余弦相似度计算,也可使用欧式距离进行计算,本发明不做限定。
307、根据余弦相似度,计算文本向量与标签库中其他向量的余弦距离;
在计算出第一预测标签的文本向量与标签库中所有标签的文本向量之间的距离之后,进一步利用K近邻算法搜索获取与第一预测标签相似的K个主题标签作为的最终主题标签进行标注。
在本实施例中,余弦相似度,就是计算两个向量间的夹角的余弦值,而余弦距离就是用1减去这个获得的余弦相似度。
308、根据余弦距离对标签库中的标签进行从大到小排序,并筛选其中的前k个标签;
309、将前k个标签作为第二预测标签;
在本实施例中,使用k近邻方法,其中,k值的选择,一般根据样本的分布,选择一个较小的值,然后通过交叉验证选择一个合适的k值,在本实施例中,通过事先验证的方法,进行k值的选择,从k=1开始,使用检验集估计分类器的误差率。重复该过程,每次K增值1,允许增加一个近邻,选取产生最小误差率的K。
310、将第一预测标签和第二预测标签作为用户标签,并根据用户标签为待标注用户进行标签标注。
本实施例在前实施例的基础上,详细描述了将所述第一预测标签与预设的标签库中的标签进行相似度计算,从所述标签库中筛选预设数量的标签作为第二预测标签的过程。通过将所述第一预测标签通过结合词嵌入模型word2vec映射到文本向量空间,得到所述第一预测标签的文本向量;计算所述文本向量与所述标签库中其他向量的余弦相似度;根据所述余弦相似度,通过K近邻方法从所述标签库中筛选标签作为第二预测标签。通过本方法能够对初始的预测标签进行扩展,避免用户标签匮乏,便于后续用户画像的生成。
请参阅图4,本发明实施例中用户标签扩展标注方法的第四个实施例包括:
401、定义埋点内容,并根据埋点内容在客户端上埋点;
402、当用户在操作客户端产生埋点数据时,与服务器建立连接,将埋点数据上传至服务器,通过服务器解析埋点数据,得到目标字段,并将目标字段发送至Kafka消息队列;
403、采用流式计算框架storm对Kafka消息队列中的目标字段进行拓扑处理,并将拓扑处理后的目标字段按照预设的时间间隔存储至分布式文件系统HDFS;
404、将分布式文件系统HDFS中的目标字段作为文本信息存储至hive数据仓库工具中;
在本实施例中,埋点内容主要为交易客户端中涉及的各类事件,如页面浏览事件(page_evt)、用户事件(user_evt)、启动(start_evt)和退出事件(quit_evt)、点击事件(click_evt),当上述的埋点内容也无法满足业务统计需要时,可对当前的操作定义为自定义事件(custom_evt),通过上述事件,获取客户端上的用户行为数据,作为后续的文本信息进行模型训练或者标签标注的依据。
405、获取客户端采集的待标注用户的文本信息,并将文本信息输入到至少一种深度网络模型中进行特征提取,得到至少一种第一特征向量;
406、若第一特征向量的数量大于一,则将第一特征向量进行级联拼接,得到第二特征向量;
407、将第二特征向量输入到预先训练好的支持向量机模型的n个分类器中,得到n个预测标签概率;
408、确定n个预测标签概率中大于预设概率阈值的预测标签概率,并将对应的标签作为第一预测标签;
409、将第一预测标签与预设的标签库中的标签进行相似度计算,从标签库中筛选预设数量的标签作为第二预测标签;
410、将第一预测标签和第二预测标签作为用户标签,并根据用户标签为待标注用户进行标签标注。
本实施例中前述实施例的基础上,增加了数据存储的过程,通过定义埋点内容,并根据所述埋点内容在所述客户端上埋点;当用户在操作所述客户端产生埋点数据时,与服务器建立连接,将所述埋点数据上传至服务器,通过所述服务器解析所述埋点数据,得到目标字段,并将所述目标字段发送至Kafka消息队列;采用流式计算框架storm对所述Kafka消息队列中的目标字段进行拓扑处理,并将拓扑处理后的目标字段按照预设的时间间隔存储至分布式文件系统HDFS;将所述分布式文件系统HDFS中的目标字段作为历史用户文本存储至hive数据仓库工具中。通过本方法,能够将用户在客户端中的行为存储为历史用文本,便于后续进行模型训练。
上面对本发明实施例中用户标签扩展标注方法进行了描述,下面对本发明实施例中用户标签扩展标注装置进行描述,请参阅图5,本发明实施例中用户标签扩展标注装置一个实施例包括:
获取模块501,用于获取客户端采集的待标注用户的文本信息,并将所述文本信息输入到至少一种深度网络模型中进行特征提取,得到至少一种第一特征向量;
拼接模块502,用于当所述第一特征向量的数量大于一时,将所述第一特征向量进行级联拼接,得到第二特征向量;
输入模块503,用于将所述第二特征向量输入到预先训练好的支持向量机模型的n个分类器中,得到n个预测标签概率,其中,所述分类器根据预设的标签库中的标签训练得到,所述n为不小于1的自然数;
第一标签模块504,用于确定n个所述预测标签概率中大于预设概率阈值的预测标签概率,并将对应的标签作为第一预测标签;
第二标签模块505,用于将所述第一预测标签与预设的标签库中的标签进行相似度计算,从所述标签库中筛选预设数量的标签作为第二预测标签;
打标模块506,用于将所述第一预测标签和所述第二预测标签作为用户标签,并根据所述用户标签为所述待标注用户进行标签标注。
需要强调的是,为保证数据的私密和安全性,上述历史用户数据集可以存储于一区块链的节点中。
本发明实施例中,所述用户标签扩展标注装置运行上述用户标签扩展标注方法,所述用户标签扩展标注方法包括:通过获取客户端采集的待标注用户的文本信息,并将所述文本信息输入到至少一种深度网络模型中进行特征提取,得到至少一种第一特征向量;若所述第一特征向量的数量大于一,则将所述第一特征向量进行级联拼接,得到第二特征向量;将所述第二特征向量输入到预先训练好的支持向量机模型的n个分类器中,得到n个预测标签概率,其中,所述分类器根据预设的标签库中的标签训练得到,所述n为不小于1的自然数;确定n个所述预测标签概率中大于预设概率阈值的预测标签概率,并将对应的标签作为第一预测标签;将所述第一预测标签与预设的标签库中的标签进行相似度计算,从所述标签库中筛选预设数量的标签作为第二预测标签;将所述第一预测标签和所述第二预测标签作为用户标签,并根据所述用户标签为所述待标注用户进行标签标注。本方法通过多个深度网络模型对用户的文本信息进行特征提取解决了单个模型或者某一组参数的模型所固有的缺陷,从而整合起更多的模型,取长补短,避免局限性,同时,在通过支持向量机得到第一预测标签后,通过相似度算法,进行标签扩展,将扩展得到的标签与第一预测标签作为用户的用户标签,避免用户标签匮乏,便于后续用户画像的生成。
请参阅图6,本发明实施例中用户标签扩展标注装置的第二个实施例包括:
获取模块501,用于获取客户端采集的待标注用户的文本信息,并将所述文本信息输入到至少一种深度网络模型中进行特征提取,得到至少一种第一特征向量;
拼接模块502,用于当所述第一特征向量的数量大于一时,将所述第一特征向量进行级联拼接,得到第二特征向量;
输入模块503,用于将所述第二特征向量输入到预先训练好的支持向量机模型的n个分类器中,得到n个预测标签概率,其中,所述分类器根据预设的标签库中的标签训练得到,所述n为不小于1的自然数;
第一标签模块504,用于确定n个所述预测标签概率中大于预设概率阈值的预测标签概率,并将对应的标签作为第一预测标签;
第二标签模块505,用于将所述第一预测标签与预设的标签库中的标签进行相似度计算,从所述标签库中筛选预设数量的标签作为第二预测标签;
打标模块506,用于将所述第一预测标签和所述第二预测标签作为用户标签,并根据所述用户标签为所述待标注用户进行标签标注。
其中,所述用户标签扩展标注装置还包括模型训练模块507,所述模型训练模块507具体用于:
获取预设的标签库和历史用户文本,其中所述历史用户文本为已进行人工标签标注的文本信息;
将所述历史用户文本输入到少一种深度网络模型中进行特征提取,得到至少一种历史用户文本的低维特征;
若所述历史用户文本的特征的数量大于一,则将所述历史用户文本的特征进行级联拼接,得到所述历史用户文本的高维特征;
将所述历史用户文本的高维特征输入支持向量机模型中,得到所述历史用户文本的预测标签;
根据所述预测标签和所述历史用户文本的人工标签标注的标签进行所述深度网络模型的模型训练。
可选中,所述支持向量机由n个分类器构成,所述模型训练模块还具体用于:
将所述高维特征输入所述支持向量机中,通过所述支持向量机的n个分类器,获得所述历史用户文本的n个预测标签概率;
将所述n个预测标签概率与预设概率阈值进行数值比较,筛选m个大于预设概率阈值的预测标签概率;
确定m个大于预设概率阈值的预测标签概率对应的分类器,并从所述标签库中筛选出与所述分类器对应的m个标签;
将筛选的m个标签作为所述历史用户文本的预测标签。
可选的,所述模型训练模块具体还用于:
计算所述历史用户样本的预测标签与人工标签标注的标签的误差率;
若所述误差率大于预设阈值,则调整所述深度网络模型的网络参数;
将所述历史用户文本重新输入所述深度网络模型中,进行模型训练,直至所述误差率小于预设阈值。
其中,所述第二标签模块505包括:
向量映射单元5051,用于将所述第一预测标签通过结合词嵌入模型word2vec映射到文本向量空间,得到所述第一预测标签的文本向量;
相似度计算单元5052,用于计算所述文本向量与所述标签库中其他向量的余弦相似度;
筛选单元5053,用于根据所述余弦相似度,通过K近邻方法从所述标签库中筛选标签作为第二预测标签。
可选的,所述筛选单元5053具体用于:
根据所述余弦相似度,计算所述文本向量与标签库中其他向量的余弦距离;
根据所述余弦距离对所述标签库中的标签进行从大到小排序,并筛选其中的前k个标签;
将所述前k个标签作为第二预测标签。
可选的,所述用户标签扩展标注装置还包括数据存储模块508,所述数据存储模块508具体用于:
定义埋点内容,并根据所述埋点内容在所述客户端上埋点;
当用户在操作所述客户端产生埋点数据时,与服务器建立连接,将所述埋点数据上传至服务器,通过所述服务器解析所述埋点数据,得到目标字段,并将所述目标字段发送至Kafka消息队列;
采用流式计算框架storm对所述Kafka消息队列中的目标字段进行拓扑处理,并将拓扑处理后的目标字段按照预设的时间间隔存储至分布式文件系统HDFS;
将所述分布式文件系统HDFS中的目标字段作为历史用户文本存储至hive数据仓库工具中。
本实施例在上一实施例的基础上,详细描述了各个模块的具体功能以及部分模块的单元构成,通过本装置,通过多个深度网络模型对用户的文本信息进行特征提取解决了单个模型或者某一组参数的模型所固有的缺陷,从而整合起更多的模型,取长补短,避免局限性,同时,在通过支持向量机得到第一预测标签后,通过相似度算法,进行标签扩展,将扩展得到的标签与第一预测标签作为用户的用户标签,避免用户标签匮乏,便于后续用户画像的生成。
上面图5和图6从模块化功能实体的角度对本发明实施例中的中用户标签扩展标注装置进行详细描述,下面从硬件处理的角度对本发明实施例中用户标签扩展标注设备进行详细描述。
图7是本发明实施例提供的一种用户标签扩展标注设备的结构示意图,该用户标签扩展标注设备700可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(central processing units,CPU)710(例如,一个或一个以上处理器)和存储器720,一个或一个以上存储应用程序733或数据732的存储介质730(例如一个或一个以上海量存储设备)。其中,存储器720和存储介质730可以是短暂存储或持久存储。存储在存储介质730的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对用户标签扩展标注设备700中的一系列指令操作。更进一步地,处理器710可以设置为与存储介质730通信,在用户标签扩展标注设备700上执行存储介质730中的一系列指令操作,以实现上述用户标签扩展标注方法的步骤。
用户标签扩展标注设备700还可以包括一个或一个以上电源740,一个或一个以上有线或无线网络接口750,一个或一个以上输入输出接口760,和/或,一个或一个以上操作系统731,例如Windows Serve,Mac OS X,Unix,Linux,FreeBSD等等。本领域技术人员可以理解,图7示出的用户标签扩展标注设备结构并不构成对本申请提供的用户标签扩展标注设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
本发明还提供一种计算机可读存储介质,该计算机可读存储介质可以为非易失性计算机可读存储介质,该计算机可读存储介质也可以为易失性计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在计算机上运行时,使得计算机执行所述用户标签扩展标注方法的步骤。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统或装置、单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种用户标签扩展标注方法,其特征在于,所述用户标签扩展标注方法包括:
获取客户端采集的待标注用户的文本信息,并将所述文本信息输入到至少一种深度网络模型中进行特征提取,得到至少一种第一特征向量;
若所述第一特征向量的数量大于一,则将所述第一特征向量进行级联拼接,得到第二特征向量;
将所述第二特征向量输入到预先训练好的支持向量机模型的n个分类器中,得到n个预测标签概率,其中,所述分类器根据预设的标签库中的标签训练得到,所述n为不小于1的自然数;
确定n个所述预测标签概率中大于预设概率阈值的预测标签概率,并将对应的标签作为第一预测标签;
将所述第一预测标签与预设的标签库中的标签进行相似度计算,从所述标签库中筛选预设数量的标签作为第二预测标签;
将所述第一预测标签和所述第二预测标签作为用户标签,并根据所述用户标签为所述待标注用户进行标签标注。
2.根据权利要求1所述的用户标签扩展标注方法,其特征在于,在所述获取客户端采集的待标注用户的文本信息,并将所述文本信息输入到至少一种深度网络模型中进行特征提取,得到至少一种第一特征向量之前,还包括:
获取预设的标签库和历史用户文本,其中所述历史用户文本为已进行人工标签标注的文本信息;
将所述历史用户文本输入到少一种深度网络模型中进行特征提取,得到至少一种历史用户文本的低维特征;
若所述历史用户文本的特征的数量大于一,则将所述历史用户文本的特征进行级联拼接,得到所述历史用户文本的高维特征;
将所述历史用户文本的高维特征输入支持向量机模型中,得到所述历史用户文本的预测标签;
根据所述预测标签和所述历史用户文本的人工标签标注的标签进行所述深度网络模型的模型训练。
3.根据权利要求2所述的用户标签扩展标注方法,其特征在于,所述支持向量机由n个分类器构成,所述将所述历史用户文本的高维特征输入支持向量机模型中,得到所述历史用户文本的预测标签包括:
将所述高维特征输入所述支持向量机中,通过所述支持向量机的n个分类器,获得所述历史用户文本的n个预测标签概率;
将所述n个预测标签概率与预设概率阈值进行数值比较,筛选m个大于预设概率阈值的预测标签概率,m为小于n且不小于1的自然数;
确定m个大于预设概率阈值的预测标签概率对应的分类器,并从所述标签库中筛选出与所述分类器对应的m个标签;
将筛选的m个标签作为所述历史用户文本的预测标签。
4.根据权利要求3所述的用户标签扩展标注方法,其特征在于,所述根据所述预测标签和所述历史用户文本的人工标签标注的标签进行所述深度网络模型的模型训练包括:
计算所述历史用户样本的预测标签与人工标签标注的标签的误差率;
若所述误差率大于预设阈值,则调整所述深度网络模型的网络参数;
将所述历史用户文本重新输入所述深度网络模型中,进行模型训练,直至所述误差率小于预设阈值。
5.根据权利要求4所述的用户标签扩展标注方法,其特征在于,所述将所述第一预测标签与预设的标签库中的标签进行相似度计算,从所述标签库中筛选预设数量的标签作为第二预测标签包括:
将所述第一预测标签通过结合词嵌入模型word2vec映射到文本向量空间,得到所述第一预测标签的文本向量;
计算所述文本向量与所述标签库中其他向量的余弦相似度;
根据所述余弦相似度,通过K近邻方法从所述标签库中筛选标签作为第二预测标签。
6.根据权利要求5所述的用户标签扩展标注方法,其特征在于,所述根据所述余弦相似度,通过K近邻方法从所述标签库中筛选标签作为第二预测标签包括:
根据所述余弦相似度,计算所述文本向量与标签库中其他向量的余弦距离;
根据所述余弦距离对所述标签库中的标签进行从大到小排序,并筛选其中的前k个标签,k为不小于1的自然数;
将所述前k个标签作为第二预测标签。
7.根据权利要求2-6中任一项中所述的用户标签扩展标注方法,其特征在于,在获取预设的标签库和历史用户文本,其中所述历史用户文本为已进行人工标签标注的文本信息之前,还包括:
定义埋点内容,并根据所述埋点内容在所述客户端上埋点;
当用户在操作所述客户端产生埋点数据时,与服务器建立连接,将所述埋点数据上传至服务器,通过所述服务器解析所述埋点数据,得到目标字段,并将所述目标字段发送至Kafka消息队列;
采用流式计算框架storm对所述Kafka消息队列中的目标字段进行拓扑处理,并将拓扑处理后的目标字段按照预设的时间间隔存储至分布式文件系统HDFS;
将所述分布式文件系统HDFS中的目标字段作为历史用户文本存储至hive数据仓库工具中。
8.一种用户标签扩展标注装置,其特征在于,所述用户标签扩展标注装置包括:
获取模块,用于获取客户端采集的待标注用户的文本信息,并将所述文本信息输入到至少一种深度网络模型中进行特征提取,得到至少一种第一特征向量;
拼接模块,用于当所述第一特征向量的数量大于一时,将所述第一特征向量进行级联拼接,得到第二特征向量;
输入模块,用于将所述第二特征向量输入到预先训练好的支持向量机模型的n个分类器中,得到n个预测标签概率,其中,所述分类器根据预设的标签库中的标签训练得到,所述n为不小于1的自然数;
第一标签模块,用于确定n个所述预测标签概率中大于预设概率阈值的预测标签概率,并将对应的标签作为第一预测标签;
第二标签模块,用于将所述第一预测标签与预设的标签库中的标签进行相似度计算,从所述标签库中筛选预设数量的标签作为第二预测标签;
打标模块,用于将所述第一预测标签和所述第二预测标签作为用户标签,并根据所述用户标签为所述待标注用户进行标签标注。
9.一种用户标签扩展标注设备,其特征在于,所述用户标签扩展标注设备包括:存储器和至少一个处理器,所述存储器中存储有指令,所述存储器和所述至少一个处理器通过线路互连;
所述至少一个处理器调用所述存储器中的所述指令,以使得所述用户标签扩展标注设备执行如权利要求1-7中任一项所述的用户标签扩展标注方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-7中任一项所述的用户标签扩展标注方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110433761.6A CN113139141B (zh) | 2021-04-22 | 2021-04-22 | 用户标签扩展标注方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110433761.6A CN113139141B (zh) | 2021-04-22 | 2021-04-22 | 用户标签扩展标注方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113139141A true CN113139141A (zh) | 2021-07-20 |
CN113139141B CN113139141B (zh) | 2023-10-31 |
Family
ID=76813462
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110433761.6A Active CN113139141B (zh) | 2021-04-22 | 2021-04-22 | 用户标签扩展标注方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113139141B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113379270A (zh) * | 2021-06-22 | 2021-09-10 | 特赞(上海)信息科技有限公司 | 基于标签的客户需求管理方法、装置及存储介质 |
CN114860912A (zh) * | 2022-05-20 | 2022-08-05 | 马上消费金融股份有限公司 | 数据处理方法、装置、电子设备和存储介质 |
WO2023134084A1 (zh) * | 2022-01-11 | 2023-07-20 | 平安科技(深圳)有限公司 | 多标签识别方法、装置、电子设备及存储介质 |
CN116894973A (zh) * | 2023-07-06 | 2023-10-17 | 北京长木谷医疗科技股份有限公司 | 一种基于集成学习的髋关节病变智能自标注方法及装置 |
CN116992031A (zh) * | 2023-08-29 | 2023-11-03 | 腾讯科技(深圳)有限公司 | 数据处理方法、装置、电子设备、存储介质及程序产品 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108229529A (zh) * | 2017-08-18 | 2018-06-29 | 北京市商汤科技开发有限公司 | 分类器集成分类方法和装置、电子设备、存储介质 |
CN109409529A (zh) * | 2018-09-13 | 2019-03-01 | 北京中科闻歌科技股份有限公司 | 一种事件认知分析方法、系统及存储介质 |
CN109684627A (zh) * | 2018-11-16 | 2019-04-26 | 北京奇虎科技有限公司 | 一种文本分类方法及装置 |
CN110297953A (zh) * | 2019-05-22 | 2019-10-01 | 深圳壹账通智能科技有限公司 | 产品信息推荐方法、装置、计算机设备以及存储介质 |
CN110297933A (zh) * | 2019-07-01 | 2019-10-01 | 山东浪潮人工智能研究院有限公司 | 一种基于深度学习的主题标签推荐方法及工具 |
CN110347823A (zh) * | 2019-06-06 | 2019-10-18 | 平安科技(深圳)有限公司 | 基于语音的用户分类方法、装置、计算机设备及存储介质 |
CN111444341A (zh) * | 2020-03-16 | 2020-07-24 | 中国平安人寿保险股份有限公司 | 用户画像构建方法、装置、设备及可读存储介质 |
-
2021
- 2021-04-22 CN CN202110433761.6A patent/CN113139141B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108229529A (zh) * | 2017-08-18 | 2018-06-29 | 北京市商汤科技开发有限公司 | 分类器集成分类方法和装置、电子设备、存储介质 |
CN109409529A (zh) * | 2018-09-13 | 2019-03-01 | 北京中科闻歌科技股份有限公司 | 一种事件认知分析方法、系统及存储介质 |
CN109684627A (zh) * | 2018-11-16 | 2019-04-26 | 北京奇虎科技有限公司 | 一种文本分类方法及装置 |
CN110297953A (zh) * | 2019-05-22 | 2019-10-01 | 深圳壹账通智能科技有限公司 | 产品信息推荐方法、装置、计算机设备以及存储介质 |
CN110347823A (zh) * | 2019-06-06 | 2019-10-18 | 平安科技(深圳)有限公司 | 基于语音的用户分类方法、装置、计算机设备及存储介质 |
CN110297933A (zh) * | 2019-07-01 | 2019-10-01 | 山东浪潮人工智能研究院有限公司 | 一种基于深度学习的主题标签推荐方法及工具 |
CN111444341A (zh) * | 2020-03-16 | 2020-07-24 | 中国平安人寿保险股份有限公司 | 用户画像构建方法、装置、设备及可读存储介质 |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113379270A (zh) * | 2021-06-22 | 2021-09-10 | 特赞(上海)信息科技有限公司 | 基于标签的客户需求管理方法、装置及存储介质 |
WO2023134084A1 (zh) * | 2022-01-11 | 2023-07-20 | 平安科技(深圳)有限公司 | 多标签识别方法、装置、电子设备及存储介质 |
CN114860912A (zh) * | 2022-05-20 | 2022-08-05 | 马上消费金融股份有限公司 | 数据处理方法、装置、电子设备和存储介质 |
CN114860912B (zh) * | 2022-05-20 | 2023-08-29 | 马上消费金融股份有限公司 | 数据处理方法、装置、电子设备和存储介质 |
CN116894973A (zh) * | 2023-07-06 | 2023-10-17 | 北京长木谷医疗科技股份有限公司 | 一种基于集成学习的髋关节病变智能自标注方法及装置 |
CN116894973B (zh) * | 2023-07-06 | 2024-05-03 | 北京长木谷医疗科技股份有限公司 | 一种基于集成学习的髋关节病变智能自标注方法及装置 |
CN116992031A (zh) * | 2023-08-29 | 2023-11-03 | 腾讯科技(深圳)有限公司 | 数据处理方法、装置、电子设备、存储介质及程序产品 |
CN116992031B (zh) * | 2023-08-29 | 2024-01-09 | 腾讯科技(深圳)有限公司 | 数据处理方法、装置、电子设备、存储介质及程序产品 |
Also Published As
Publication number | Publication date |
---|---|
CN113139141B (zh) | 2023-10-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111753060B (zh) | 信息检索方法、装置、设备及计算机可读存储介质 | |
Vysotska et al. | Web Content Support Method in Electronic Business Systems. | |
CN113139141B (zh) | 用户标签扩展标注方法、装置、设备及存储介质 | |
US11036791B2 (en) | Computerized system and method for determining non-redundant tags from a user's network activity | |
US20210397980A1 (en) | Information recommendation method and apparatus, electronic device, and readable storage medium | |
Jänicke et al. | On Close and Distant Reading in Digital Humanities: A Survey and Future Challenges. | |
Liu et al. | Crowdsourcing construction activity analysis from jobsite video streams | |
CN107205016B (zh) | 物联网设备的检索方法 | |
US7987417B2 (en) | System and method for detecting a web page template | |
CN108874992A (zh) | 舆情分析方法、系统、计算机设备和存储介质 | |
CN114238573B (zh) | 基于文本对抗样例的信息推送方法及装置 | |
JP2011198364A (ja) | 媒体文書へのラベル添加方法及び該方法を用いるシステム | |
CN110765301B (zh) | 图片处理方法、装置、设备及存储介质 | |
CN111723256A (zh) | 一种基于信息资源库的政务用户画像构建方法及其系统 | |
CN104516635A (zh) | 管理内容显示 | |
CN115659008A (zh) | 大数据信息反馈的信息推送系统、方法、电子设备及介质 | |
CN116049379A (zh) | 知识推荐方法、装置、电子设备和存储介质 | |
CN111696656A (zh) | 一种互联网医疗平台的医生评价方法、装置 | |
CN116882414B (zh) | 基于大规模语言模型的评语自动生成方法及相关装置 | |
JP2005267095A (ja) | 情報表示方法及び装置及び情報表示プログラム | |
CN116777692A (zh) | 基于数据分析的在线学习方法、装置、设备及存储介质 | |
CN116755688A (zh) | 组件处理方法、装置、计算机设备及存储介质 | |
Abebe et al. | Overview of event-based collective knowledge management in multimedia digital ecosystems | |
CN113420153B (zh) | 一种基于话题库和事件库的专题制作方法、装置及设备 | |
Santos | Real Estate Market Data Scraping and Analysis for Financial Investments |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |