CN111046952B - 标签挖掘模型的建立方法、装置、存储介质及终端 - Google Patents
标签挖掘模型的建立方法、装置、存储介质及终端 Download PDFInfo
- Publication number
- CN111046952B CN111046952B CN201911272018.6A CN201911272018A CN111046952B CN 111046952 B CN111046952 B CN 111046952B CN 201911272018 A CN201911272018 A CN 201911272018A CN 111046952 B CN111046952 B CN 111046952B
- Authority
- CN
- China
- Prior art keywords
- label
- sample data
- mining
- label mining
- positive
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000005065 mining Methods 0.000 title claims abstract description 337
- 238000000034 method Methods 0.000 title claims abstract description 54
- 238000010801 machine learning Methods 0.000 claims abstract description 17
- 238000012216 screening Methods 0.000 claims description 14
- 230000000875 corresponding effect Effects 0.000 claims description 13
- 230000002596 correlated effect Effects 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 9
- 238000013528 artificial neural network Methods 0.000 claims description 4
- 239000013598 vector Substances 0.000 description 14
- 238000010586 diagram Methods 0.000 description 13
- 239000002609 medium Substances 0.000 description 12
- 238000002372 labelling Methods 0.000 description 9
- 238000007405 data analysis Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 230000036651 mood Effects 0.000 description 1
- 239000012120 mounting media Substances 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000008707 rearrangement Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Business, Economics & Management (AREA)
- Strategic Management (AREA)
- General Physics & Mathematics (AREA)
- Finance (AREA)
- Development Economics (AREA)
- Accounting & Taxation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Entrepreneurship & Innovation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Game Theory and Decision Science (AREA)
- Economics (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明实施例公开了一种标签挖掘模型的建立方法、装置、存储介质及终端。所述方法包括:获取标签挖掘正样本数据和标签挖掘负样本数据;其中,所述标签挖掘正样本数据与预先设定的标签定义的关联度大于所述标签挖掘负样本数据与所述预先设定的标签定义的关联度;调整所述标签挖掘正样本数据和所述标签挖掘负样本数据的比例,生成标签挖掘训练数据集;根据所述标签挖掘训练数据集对预设机器学习模型进行训练,生成标签挖掘模型。通过采用上述技术方案,通过构建标签挖掘模型,能够快速、准确地预测出用户标签,从而能够给用户信息数据打上用户画像标签。
Description
技术领域
本发明实施例涉及数据分析技术领域,尤其涉及标签挖掘模型的建立方法、装置、存储介质及终端。
背景技术
在数据分析和用户运营领域,通常会根据实际业务领域的运营需要,给用户打上业务属性的标签(有车、有房等),以供分析、运营和营销活动时提供用户的筛选和细化,以实现精准营销。以“车主人群”标签为例,现需要给有车用户推送营销广告,如推销各银行的车主信用卡、汽车保险、汽车用品、加油优惠等,这是从消费交易流水数据中挖掘车主标签的一个直接的驱动因素。准确地从个人消费金融交易流水和其备注文本信息中识别出潜在有车人群,给其打上“车主人群”标签,是完善用户画像及后续对其进行广告推送和营销的必要前提。
相关技术中,一般使用“关键词命中”的方法给用户生成定性标签。传统的关键词命中的方法,准确率低。
发明内容
本发明实施例提供一种标签挖掘模型的建立方法、装置、存储介质及终端,以快速、准确地预测出用户标签。
第一方面,本发明实施例提供了一种标签挖掘模型的建立方法,该方法包括:
获取标签挖掘正样本数据和标签挖掘负样本数据;其中,所述标签挖掘正样本数据与预先设定的标签定义的关联度大于所述标签挖掘负样本数据与所述预先设定的标签定义的关联度;
调整所述标签挖掘正样本数据和所述标签挖掘负样本数据的比例,生成标签挖掘训练数据集;
根据所述标签挖掘训练数据集对预设机器学习模型进行训练,生成标签挖掘模型。
第二方面,本发明实施例还提供了一种标签挖掘模型的建立装置,该装置包括:
正负样本数据获取模块,用于获取标签挖掘正样本数据和标签挖掘负样本数据;其中,所述标签挖掘正样本数据与预先设定的标签定义的关联度大于所述标签挖掘负样本数据与所述预先设定的标签定义的关联度;
正负样本数据调整模块,用于调整所述标签挖掘正样本数据和所述标签挖掘负样本数据的比例,生成标签挖掘训练数据集;
标签挖掘模型训练模块,用于根据所述标签挖掘训练数据集对预设机器学习模型进行训练,生成标签挖掘模型。
第三方面,本发明实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明实施例提供的标签挖掘模型的建立方法。
第四方面,本发明实施例提供了一种终端,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如本发明实施例提供的标签挖掘模型的建立方法。
本发明实施例中提供的标签挖掘模型的建立方法,获取标签挖掘正样本数据和标签挖掘负样本数据;其中,标签挖掘正样本数据与预先设定的标签定义的关联度大于标签挖掘负样本数据与预先设定的标签定义的关联度;调整标签挖掘正样本数据和标签挖掘负样本数据的比例,生成标签挖掘训练数据集;根据标签挖掘训练数据集对预设机器学习模型进行训练,生成标签挖掘模型。通过采用上述技术手段,通过构建标签挖掘模型,能够快速、准确地预测出用户标签,从而能够给用户信息数据打上用户画像标签。
附图说明
图1为本发明实施例提供的传统打标签的流程示意图;
图2为本发明实施例提供的打“车主人群”标签的过程示意图;
图3为本发明实施例提供的一种标签挖掘模型的建立方法的流程示意图;
图4为本发明实施例提供的标签挖掘正样本数据和所述标签挖掘负样本数据的比例的调整过程示意图;
图5为本发明实施例提供的“车主人群”标签模型建立示意图;
图6为本发明实施例提供的“车主人群”标签预测示意图;
图7为本发明实施例提供的另一种标签挖掘模型的建立方法的流程示意图;
图8为本发明实施例提供的用户标签预测系统示意图;
图9为本发明实施例提供的一种标签挖掘模型的建立装置的结构框图;
图10为本发明实施例提供的一种终端的结构框图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
相关技术中,关键词命中的方法的直观之处在于将标签的概念进行定义,并转化成一组能够描述和刻画标签对象特性的关键词,然后以SQL(Structured Query Language,结构化查询语言)查询等技术检测文本数据中是否包含这些关键词,以此为判断标准打卡目标标签。图1为本发明实施例提供的传统打标签的流程示意图,如图1所示,具体的,该方法大致可以分解为四个处理步骤:1.标签概念定义;2.标签关键词组收集;3.SQL检测关键词命中;4.按命中频次打标签。以定义“车主人群”标签为例,详细处理过程如图2所示。
然而,传统关键词命中的方法,虽然准确度高,但覆盖率低和灵活性差。具体的,基于关键词命中的方法中,受限于关键词枚举,在文本挖掘和抽取标签时,很难覆盖大部分的情况,导致标签覆盖率低。如“加油费”是刻画“车主人群”给汽车加油消费的一个优良的关键词;但“92#”的文本,却无法被“加油费”关键词所覆盖。中文自然语言表述的多样性,是基于关键词命中的打标签方法所无法处理的。特别地,在“车主人群”的关键词规则定义下,在我们积累的海量用户记账数据中,只能给2.747%的用户打上“是”的取值。另外,若当下有个营销任务希望覆盖总用户量10%的潜在有车用户,“车主人群”标签并不能标记足够的用户供使用。而网络新词的涌现,也会为关键词命中的方法带来可扩展性的问题,导致标签应用的灵活性差。因此,传统关键词命中技术方案存在覆盖度低和灵活性差两大缺点。
图3为本发明实施例提供的一种标签挖掘模型的建立方法的流程示意图,该方法可以由标签挖掘模型的建立装置执行,其中该装置可由软件和/或硬件实现,一般可集成在终端设备中。如图3所示,该方法包括:
步骤301、获取标签挖掘正样本数据和标签挖掘负样本数据。
其中,所述标签挖掘正样本数据与预先设定的标签定义的关联度大于所述标签挖掘负样本数据与所述预先设定的标签定义的关联度。
示例性的,终端可以包括但不限于智能手机、平板电脑、笔记本电脑、掌上电脑等终端设备。其中,该终端的操作系统可以包括但不限于Android操作系统、IOS操作系统、Windows Phone8操作系统等。
在本发明实施例中,预先设定的标签定义可以理解为能够涵盖标签的本质特征的概括性信息。示例性的,“车主人群”可以描述为“拥有自用私家车,包含贷款购车的用户”。获取与预先设定的标签定义正相关的标签挖掘正样本数据,并获取与预先设定的标签定义负相关的标签挖掘负样本数据。可以理解的是,标签挖掘正样本数据和标签挖掘负样本数据为两个定义相反的标签对应的样本数据。以“车主人群”为例,标签挖掘正样本数据为拥有私家车的用户的消费交易流水数据,也即“车主人群”的消费交易流水数据;标签挖掘负样本数据为没有私家车的用户的消费交易流水数据,也即“非车主人群”的消费交易流水数据。
可选的,获取标签挖掘正样本数据和标签挖掘负样本数据,包括:获取与所述预先设定的标签定义关联的正向关键词和负向关键词;其中,所述正向关键词与所述预先设定的标签定义正相关,所述负向关键词与所述预先设定的标签定义负相关;基于所述正向关键词和所述负向关键词对标签挖掘样本数据进行检索,根据检索结果从所述标签挖掘样本数据集中确定标签挖掘正样本数据和标签挖掘负样本数据。
可选的,基于所述正向关键词和所述负向关键词对标签挖掘样本数据进行检索,根据检索结果从所述标签挖掘样本数据中确定标签挖掘正样本数据和标签挖掘负样本数据,包括:分别基于所述正向关键词和所述负向关键词对标签挖掘样本数据进行检索,获取所述正向关键词命中频次和所述负向关键词命中频次;在所述标签挖掘样本数据中筛选出所述正向关键词命中频次大于第一频次阈值且所述负向关键词命中频次小于第二频次阈值的第一目标数据作为标签挖掘正样本数据;其中,所述第一频次阈值大于所述第二频次阈值;在所述标签挖掘样本数据中筛选出所述正向关键词命中频次小于所述第一频次阈值且所述负向关键词命中频次大于所述第二频次阈值的第二目标数据作为标签挖掘负样本数据。
示例性的,依据预先设定的标签定义确定与标签定义正相关的正向关键词以及与标签定义负相关的负向关键词。以“车主人群”这一标签为例,与“车主人群”正相关的正向关键词可以包括:停车费、4S、加油及车险等关键词,与“车主人群”负相关的负向关键词可以包括:公交、地铁、共享单车、摩拜及班车等关键词。需要说明的是,正向关键词可以为一个也可以为多个,负向关键词可以为一个也可以为多个,本发明实施例对正向关键词和负向关键词的数量不做限定。
在本发明实施例中,基于正向关键词对标签挖掘样本数据进行检索,获取正向关键词命中频次;基于负向关键词对标签挖掘样本数据进行检索,获取负向关键词命中频次。可选的,可以通过SQL查询统计的方式获取正向关键词命中频次和负向关键词命中频次,也可以通过编程直接统计的方式获取正向关键词命中频次和负向关键词命中频次。
示例性的,将正向关键词命中频次大于第一频次阈值且负向关键词命中频次小于第二频次阈值的标签挖掘样本数据作为标签挖掘正样本数据;将正向关键词命中频次小于第一频次阈值且负向关键词命中频次大于第二频次阈值的第二目标数据作为标签挖掘负样本数据。将正向关键词命中频次大于第一频次阈值且负向关键词命中频次大于第二频次阈值的标签挖掘样本数据,或者正向关键词命中频次小于第一频次阈值且负向关键词命中频次小于第二频次阈值的标签挖掘样本数据作为模棱两可的数据,可直接过滤掉。
步骤302、调整所述标签挖掘正样本数据和所述标签挖掘负样本数据的比例,生成标签挖掘训练数据集。
在本发明实施例中,由于获取标签挖掘正样本数据和标签挖掘负样本数据的数据量的比例可能不是很合理,容易导致标签挖掘模型进行标签预测时准确度不高,因此,可对标签挖掘正样本数据和标签挖掘负样本数据的比例进行调整。例如,标签挖掘正样本数据的数据量远远大于标签挖掘负样本数据的数据量,此时,可以通过删除标签挖掘正样本数据或增加标签挖掘负样本数据来调整标签挖掘正样本数据和标签挖掘负样本数据的比例。又如,标签挖掘正样本数据的数据量远远小于标签挖掘负样本数据的数据量,此时,可以通过删除标签挖掘负样本数据或增加标签挖掘正样本数据来调整标签挖掘正样本数据和标签挖掘负样本数据的比例。
可选的,当基于正向关键词和负向关键词对用户数据中进行检索,然后根据命中频次来筛选确定标签挖掘正样本数据和标签挖掘负样本数据时,可通过调整正向关键词的命中频次或负向关键词的命中频次的方式,来调整标签挖掘正样本数据和标签挖掘负样本数据的比例。需要说明的是,本发明实施例对标签挖掘正样本数据和标签挖掘负样本数据的比例的调整方式不做限定。
可选的,调整所述标签挖掘正样本数据和所述标签挖掘负样本数据的比例,包括:调整所述第一频次阈值和/或第二频次阈值,直至所述标签挖掘正样本数据和所述标签挖掘负样本数据的比例达到预设比例阈值。
示例性的,图4为本发明实施例提供的标签挖掘正样本数据和所述标签挖掘负样本数据的比例的调整过程示意图。如图4所示,设定第一频次阈值为16,第二频次阈值为8,以此为从标签挖掘样本数据中筛选标签挖掘正样本数据和标签挖掘负样本数据的依据,筛选出的标签挖掘正样本数据和标签挖掘负样本数据的比例为(19.69%:80.31%),显然,筛选出的标签挖掘正样本数据远远少于标签挖掘负样本数据。由于国家统计2018年的车主人群占比为40%,显然不符合外部权威统计数据,可将第一频次阈值调整为13,将第二频次阈值调整为5,以此为从标签挖掘样本数据中筛选标签挖掘正样本数据和标签挖掘负样本数据的依据,筛选出的标签挖掘正样本数据和标签挖掘负样本数据的比例为(32.90%:67.10%)。显然,调整后的标签挖掘正样本数据和标签挖掘负样本数据的比例与外部权威统计数据较接近。可选的,在调整标签挖掘正样本数据和标签挖掘负样本数据的比例的过程中,使用JS散度衡量调整后的标签挖掘样本数据稳定性,使得JS散度稳定性水平达到较小的阈值。
步骤303、根据所述标签挖掘训练数据集对预设机器学习模型进行训练,生成标签挖掘模型。
在本发明实施例中,将标签挖掘训练数据集作为训练样本,对预设机器学习模型进行训练,生成标签挖掘模型。
可选的,根据所述标签挖掘训练数据集对预设机器学习模型进行训练,包括:分计算所述正向关键词和所述负向关键词与所述标签挖掘训练数据集间的语义相似度值;根据所述语义相似度值对所述标签挖掘训练数据集进行标签标记;根据标签标记后的标签挖掘训练数据集对长短记忆LSTM神经网络学习模型进行训练,生成标签挖掘模型。
示例性的,基于自然语言处理技术将标签挖掘训练数据集中的每条数据进行向量化。例如,针对标签挖掘训练数据集中的每条数据,按中文分词,并基于公开的词向量字典,使用词向量化的方法,将数据转化成算法模型能够处理的数值向量。确定正向关键词对应的正向关键词向量和负向关键词对应的负向关键词向量。计算正向关键词向量与标签挖掘训练数据对应的数据向量间的第一距离,以及负向关键词向量与标签挖掘训练数据对应的数据向量间的第二距离,对第一距离和第二距离进行求和并缩放为范围为0-1的概率值,并将概率值作为正向关键词和负向关键词与标签挖掘训练数据集间的语义相似度。根据语义相似度对标签挖掘训练数据集进行标签标记。示例性的,将语义相似度大于预设相似度阈值的标签挖掘数据标记为1,将语音相似度小于预设相似度阈值的标签挖掘数据标记为0。将标签标记后的标签挖掘训练数据集输入至LSTM神经网络模型中进行训练,生成标签挖掘模型。示例性的,图5为本发明实施例提供的“车主人群”标签模型建立示意图。如图5所示,在标签挖掘模型建立的优化过程中,确保“车主人群”标记为“1”(也即标记为“是”)的样例,如User#1的备注文本的词向量,离正向词向量尽可能的近,而离负向词向量尽可能的远,也即使正向关键词和负向关键词与User#1的备注文本的语义相似度尽可能大;而“车主人群”标记为“0”(也即标记为“否”)的样例,如User#3的备注文本的词向量,离正向词向量尽可能的远,而离负向词向量尽可能的近,也即使正向关键词和负向关键词与User#3的备注文本的语义相似度尽可能小。
需要说明的是,本发明实施例对预设机器学习模型的种类不做限定,可以是BERT(Bidirectional Encoder Representation from Transformers)或XLNet模型。
本发明实施例中提供的标签挖掘模型的建立方法,获取标签挖掘正样本数据和标签挖掘负样本数据;其中,标签挖掘正样本数据与预先设定的标签定义的关联度大于标签挖掘负样本数据与预先设定的标签定义的关联度;调整标签挖掘正样本数据和标签挖掘负样本数据的比例,生成标签挖掘训练数据集;根据标签挖掘训练数据集对预设机器学习模型进行训练,生成标签挖掘模型。通过采用上述技术手段,通过构建标签挖掘模型,能够快速、准确地预测出用户标签,从而能够给用户信息数据打上用户画像标签。
在一些实施例中,在生成标签挖掘模型之后,还包括:获取待预测标签的用户信息;将所述待预测标签的用户信息输入至所述标签挖掘模型中,根据所述标签挖掘模型输出的概率值确定与所述用户信息对应的用户标签。可以理解的是,将待预测标签的用户信息输入至标签挖掘模型中,标签挖掘模型对用户信息进行分析,并输出一个概率值,根据标签挖掘模型输出的概率值确定与用户信息对应的用户标签。示例性的,标签挖掘模型为“车主人群”的标签挖掘模型,将待预测标签的用户信息输入至“车主人群”的标签挖掘模型中,并输出一个概率值,当“车主人群”的标签挖掘模型输出的概率值大于预设概率阈值时,将该用户确定为“车主人群”,当“车主人群”的标签挖掘模型输出的概率值小于预设概率阈值时,将该用户确定为“非车主人群”。图6为本发明实施例提供的“车主人群”标签预测示意图。
在本发明实施例中,当根据标签挖掘模型确定好待预测标签的用户信息对应的用户标签后,为用户打上对应的用户画像标签,此后可以进行精准的广告推送和投放。如给打有“有车人群”标签的用户推送营销广告,如推销各银行的车主信用卡、汽车保险、汽车用品、加油优惠等。可选的,可以通过调整预设概率阈值,调整对大量用户数据打“有车人群”标签的数据量多少。
图7为本发明实施例提供的另一种标签挖掘模型的建立方法的流程示意图,如图7所示,该方法包括如下步骤:
步骤701、获取与预先设定的标签定义关联的正向关键词和负向关键词。
其中,所述正向关键词与所述预先设定的标签定义正相关,所述负向关键词与所述预先设定的标签定义负相关;
步骤702、分别基于所述正向关键词和所述负向关键词对标签挖掘样本数据进行检索,获取所述正向关键词命中频次和所述负向关键词命中频次。
步骤703、在所述标签挖掘样本数据中筛选出所述正向关键词命中频次大于第一频次阈值且所述负向关键词命中频次小于第二频次阈值的第一目标数据作为标签挖掘正样本数据。
其中,所述第一频次阈值大于所述第二频次阈值;
步骤704、在所述标签挖掘样本数据中筛选出所述正向关键词命中频次小于所述第一频次阈值且所述负向关键词命中频次大于所述第二频次阈值的第二目标数据作为标签挖掘负样本数据。
步骤705、调整所述第一频次阈值和/或第二频次阈值,直至所述标签挖掘正样本数据和所述标签挖掘负样本数据的比例达到预设比例阈值。
步骤706、计算所述正向关键词和所述负向关键词与所述标签挖掘训练数据集间的语义相似度值。
步骤707、根据所述语义相似度值对所述标签挖掘训练数据集进行标签标记。
步骤708、根据标签标记后的标签挖掘训练数据集对长短记忆LSTM神经网络学习模型进行训练,生成标签挖掘模型。
步骤709、获取待预测标签的用户信息。
步骤710、将所述待预测标签的用户信息输入至所述标签挖掘模型中,根据所述标签挖掘模型输出的概率值确定与所述用户信息对应的用户标签。
图8为本发明实施例提供的用户标签预测系统示意图。
本发明实施例提供的标签挖掘模型的建立方法,通过获取与预先设定的标签定义正相关的正向关键词和与标签定义负相关的负向关键词,并基于正向关键词和负向关键词对标签挖掘样本数据进行检索,根据检索结果从标签挖掘样本数据集中确定标签挖掘正样本数据和标签挖掘负样本数据,生成标签挖掘训练数据集,庵后根据标签挖掘训练数据集对预设机器学习模型进行训练,生成标签挖掘模型,可以有效扩大基于标签挖掘模型对用户数据标签进行预测时的覆盖面,同时由于标签挖掘模型输出0-1之间的概率预测值,广告推送和营销运营时能够根据自身活动规划调整概率阈值,通过调整概率阈值选取自身需要的用户规模进行定向精准投放,能够提高打标签时的灵活性。
图9为本发明实施例提供的一种标签挖掘模型的建立装置的结构框图,该装置可由软件和/或硬件实现,一般集成在终端中,可通过执行标签挖掘模型的建立方法来进行标签挖掘模型的建立。如图9所示,该装置包括:
正负样本数据获取模块901,用于获取标签挖掘正样本数据和标签挖掘负样本数据;其中,所述标签挖掘正样本数据与预先设定的标签定义的关联度大于所述标签挖掘负样本数据与所述预先设定的标签定义的关联度;
正负样本数据调整模块902,用于调整所述标签挖掘正样本数据和所述标签挖掘负样本数据的比例,生成标签挖掘训练数据集;
标签挖掘模型训练模块903,用于根据所述标签挖掘训练数据集对预设机器学习模型进行训练,生成标签挖掘模型。
本发明实施例中提供的标签挖掘模型的建立装置,获取标签挖掘正样本数据和标签挖掘负样本数据;其中,标签挖掘正样本数据与预先设定的标签定义的关联度大于标签挖掘负样本数据与预先设定的标签定义的关联度;调整标签挖掘正样本数据和标签挖掘负样本数据的比例,生成标签挖掘训练数据集;根据标签挖掘训练数据集对预设机器学习模型进行训练,生成标签挖掘模型。通过采用上述技术手段,通过构建标签挖掘模型,能够快速、准确地预测出用户标签,从而能够给用户信息数据打上用户画像标签。
可选的,所述正负样本数据获取模块,包括:
正负关键词获取单元,用于获取与所述预先设定的标签定义关联的正向关键词和负向关键词;其中,所述正向关键词与所述预先设定的标签定义正相关,所述负向关键词与所述预先设定的标签定义负相关;
正负关键词检索单元,用于分别基于所述正向关键词和所述负向关键词对标签挖掘样本数据进行检索,根据检索结果从所述标签挖掘样本数据集中确定标签挖掘正样本数据和标签挖掘负样本数据。
可选的,所述正负关键词检索单元,用于:
分别基于所述正向关键词和所述负向关键词对标签挖掘样本数据进行检索,获取所述正向关键词命中频次和所述负向关键词命中频次;
在所述标签挖掘样本数据中筛选出所述正向关键词命中频次大于第一频次阈值且所述负向关键词命中频次小于第二频次阈值的第一目标数据作为标签挖掘正样本数据;其中,所述第一频次阈值大于所述第二频次阈值;
在所述标签挖掘样本数据中筛选出所述正向关键词命中频次小于所述第一频次阈值且所述负向关键词命中频次大于所述第二频次阈值的第二目标数据作为标签挖掘负样本数据。
可选的,所述正负样本数据调整模块,用于:
调整所述第一频次阈值和/或第二频次阈值,直至所述标签挖掘正样本数据和所述标签挖掘负样本数据的比例达到预设比例阈值。
可选的,所述标签挖掘模型训练模块,用于:
计算所述正向关键词和所述负向关键词与所述标签挖掘训练数据集间的语义相似度值;
根据所述语义相似度值对所述标签挖掘训练数据集进行标签标记;
根据标签标记后的标签挖掘训练数据集对长短记忆LSTM神经网络学习模型进行训练,生成标签挖掘模型。
可选的,所述装置还包括:
用户信息获取模块,用于在生成标签挖掘模型之后,获取待预测标签的用户信息;
用户标签预测模块,用于将所述待预测标签的用户信息输入至所述标签挖掘模型中,根据所述标签挖掘模型输出的概率值确定与所述用户信息对应的用户标签。
本发明实施例还提供一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行标签挖掘模型的建立方法,该方法包括:
获取标签挖掘正样本数据和标签挖掘负样本数据;其中,所述标签挖掘正样本数据与预先设定的标签定义的关联度大于所述标签挖掘负样本数据与所述预先设定的标签定义的关联度;
调整所述标签挖掘正样本数据和所述标签挖掘负样本数据的比例,生成标签挖掘训练数据集;
根据所述标签挖掘训练数据集对预设机器学习模型进行训练,生成标签挖掘模型。
存储介质——任何的各种类型的存储器设备或存储设备。术语“存储介质”旨在包括:安装介质,例如CD-ROM、软盘或磁带装置;计算机系统存储器或随机存取存储器,诸如DRAM、DDRRAM、SRAM、EDORAM,兰巴斯(Rambus)RAM等;非易失性存储器,诸如闪存、磁介质(例如硬盘或光存储);寄存器或其它相似类型的存储器元件等。存储介质可以还包括其它类型的存储器或其组合。另外,存储介质可以位于程序在其中被执行的第一计算机系统中,或者可以位于不同的第二计算机系统中,第二计算机系统通过网络(诸如因特网)连接到第一计算机系统。第二计算机系统可以提供程序指令给第一计算机用于执行。术语“存储介质”可以包括可以驻留在不同位置中(例如在通过网络连接的不同计算机系统中)的两个或更多存储介质。存储介质可以存储可由一个或多个处理器执行的程序指令(例如具体实现为计算机程序)。
当然,本发明实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的标签挖掘模型的建立操作,还可以执行本发明任意实施例所提供的标签挖掘模型的建立方法中的相关操作。
本发明实施例提供了一种终端,该终端中可集成本发明实施例提供的标签挖掘模型的建立装置。图10为本发明实施例提供的一种终端的结构框图。终端1000可以包括:存储器1001,处理器1002及存储在存储器1001上并可在处理器运行的计算机程序,所述处理器1002执行所述计算机程序时实现如本发明实施例所述的标签挖掘模型的建立方法。
本发明实施例中提供的终端,获取标签挖掘正样本数据和标签挖掘负样本数据;其中,标签挖掘正样本数据与预先设定的标签定义的关联度大于标签挖掘负样本数据与预先设定的标签定义的关联度;调整标签挖掘正样本数据和标签挖掘负样本数据的比例,生成标签挖掘训练数据集;根据标签挖掘训练数据集对预设机器学习模型进行训练,生成标签挖掘模型。通过采用上述技术手段,通过构建标签挖掘模型,能够快速、准确地预测出用户标签,从而能够给用户信息数据打上用户画像标签。
上述实施例中提供的标签挖掘模型的建立装置、存储介质及终端可执行本发明任意实施例所提供的标签挖掘模型的建立方法,具备执行该方法相应的功能模块和有益效果。未在上述实施例中详尽描述的技术细节,可参见本发明任意实施例所提供的标签挖掘模型的建立方法。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。
Claims (6)
1.一种标签挖掘模型的建立方法,其特征在于,包括:
获取标签挖掘正样本数据和标签挖掘负样本数据;其中,所述标签挖掘正样本数据与预先设定的标签定义的关联度大于所述标签挖掘负样本数据与所述预先设定的标签定义的关联度;
调整所述标签挖掘正样本数据和所述标签挖掘负样本数据的比例,生成标签挖掘训练数据集;
根据所述标签挖掘训练数据集对预设机器学习模型进行训练,生成标签挖掘模型;
其中,获取标签挖掘正样本数据和标签挖掘负样本数据,包括:
获取与所述预先设定的标签定义关联的正向关键词和负向关键词;其中,所述正向关键词与所述预先设定的标签定义正相关,所述负向关键词与所述预先设定的标签定义负相关;
分别基于所述正向关键词和所述负向关键词对标签挖掘样本数据进行检索,根据检索结果从所述标签挖掘样本数据集中确定标签挖掘正样本数据和标签挖掘负样本数据;
其中,分别基于所述正向关键词和所述负向关键词对标签挖掘样本数据进行检索,根据检索结果从所述标签挖掘样本数据中确定标签挖掘正样本数据和标签挖掘负样本数据,包括:
分别基于所述正向关键词和所述负向关键词对标签挖掘样本数据进行检索,获取所述正向关键词命中频次和所述负向关键词命中频次;
在所述标签挖掘样本数据中筛选出所述正向关键词命中频次大于第一频次阈值且所述负向关键词命中频次小于第二频次阈值的第一目标数据作为标签挖掘正样本数据;其中,所述第一频次阈值大于所述第二频次阈值;
在所述标签挖掘样本数据中筛选出所述正向关键词命中频次小于所述第一频次阈值且所述负向关键词命中频次大于所述第二频次阈值的第二目标数据作为标签挖掘负样本数据;
其中,调整所述标签挖掘正样本数据和所述标签挖掘负样本数据的比例,包括:
调整所述第一频次阈值和/或第二频次阈值,直至所述标签挖掘正样本数据和所述标签挖掘负样本数据的比例达到预设比例阈值。
2.根据权利要求1所述的方法,其特征在于,根据所述标签挖掘训练数据集对预设机器学习模型进行训练,包括:
计算所述正向关键词和所述负向关键词与所述标签挖掘训练数据集间的语义相似度值;
根据所述语义相似度值对所述标签挖掘训练数据集进行标签标记;
根据标签标记后的标签挖掘训练数据集对长短记忆LSTM神经网络学习模型进行训练,生成标签挖掘模型。
3.根据权利要求1所述的方法,其特征在于,在生成标签挖掘模型之后,还包括:
获取待预测标签的用户信息;
将所述待预测标签的用户信息输入至所述标签挖掘模型中,根据所述标签挖掘模型输出的概率值确定与所述用户信息对应的用户标签。
4.一种标签挖掘模型的建立装置,其特征在于,包括:
正负样本数据获取模块,用于获取标签挖掘正样本数据和标签挖掘负样本数据;其中,所述标签挖掘正样本数据与预先设定的标签定义的关联度大于所述标签挖掘负样本数据与所述预先设定的标签定义的关联度;
正负样本数据调整模块,用于调整所述标签挖掘正样本数据和所述标签挖掘负样本数据的比例,生成标签挖掘训练数据集;
标签挖掘模型训练模块,用于根据所述标签挖掘训练数据集对预设机器学习模型进行训练,生成标签挖掘模型;
其中,所述正负样本数据获取模块,包括:
正负关键词获取单元,用于获取与所述预先设定的标签定义关联的正向关键词和负向关键词;其中,所述正向关键词与所述预先设定的标签定义正相关,所述负向关键词与所述预先设定的标签定义负相关;
正负关键词检索单元,用于分别基于所述正向关键词和所述负向关键词对标签挖掘样本数据进行检索,根据检索结果从所述标签挖掘样本数据集中确定标签挖掘正样本数据和标签挖掘负样本数据;
其中,所述正负关键词检索单元,用于:
分别基于所述正向关键词和所述负向关键词对标签挖掘样本数据进行检索,获取所述正向关键词命中频次和所述负向关键词命中频次;
在所述标签挖掘样本数据中筛选出所述正向关键词命中频次大于第一频次阈值且所述负向关键词命中频次小于第二频次阈值的第一目标数据作为标签挖掘正样本数据;其中,所述第一频次阈值大于所述第二频次阈值;
在所述标签挖掘样本数据中筛选出所述正向关键词命中频次小于所述第一频次阈值且所述负向关键词命中频次大于所述第二频次阈值的第二目标数据作为标签挖掘负样本数据;
其中,所述正负样本数据调整模块,用于:
调整所述第一频次阈值和/或第二频次阈值,直至所述标签挖掘正样本数据和所述标签挖掘负样本数据的比例达到预设比例阈值。
5.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-3任一所述的标签挖掘模型的建立方法。
6.一种终端,其特征在于,包括存储器,处理器及存储在存储器上并可在处理器运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1-3任一所述的标签挖掘模型的建立方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911272018.6A CN111046952B (zh) | 2019-12-12 | 2019-12-12 | 标签挖掘模型的建立方法、装置、存储介质及终端 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911272018.6A CN111046952B (zh) | 2019-12-12 | 2019-12-12 | 标签挖掘模型的建立方法、装置、存储介质及终端 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111046952A CN111046952A (zh) | 2020-04-21 |
CN111046952B true CN111046952B (zh) | 2023-11-14 |
Family
ID=70236189
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911272018.6A Active CN111046952B (zh) | 2019-12-12 | 2019-12-12 | 标签挖掘模型的建立方法、装置、存储介质及终端 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111046952B (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111859953B (zh) * | 2020-06-22 | 2023-08-22 | 北京百度网讯科技有限公司 | 训练数据的挖掘方法、装置、电子设备及存储介质 |
CN111784448A (zh) * | 2020-06-24 | 2020-10-16 | 支付宝(杭州)信息技术有限公司 | 一种商户数据的处理方法及系统 |
CN113946605A (zh) * | 2020-07-16 | 2022-01-18 | 北京达佳互联信息技术有限公司 | 标签挖掘方法、装置及电子设备 |
CN112069046B (zh) * | 2020-08-28 | 2022-03-29 | 平安科技(深圳)有限公司 | 数据泄露提醒方法、装置、设备及计算机可读存储介质 |
CN112163081B (zh) * | 2020-10-14 | 2024-08-27 | 网易(杭州)网络有限公司 | 标签确定方法、装置、介质及电子设备 |
CN112989023B (zh) * | 2021-03-25 | 2023-07-28 | 北京百度网讯科技有限公司 | 标签推荐方法、装置、设备、存储介质及计算机程序产品 |
CN113378067B (zh) * | 2021-07-13 | 2023-03-17 | 深圳前海微众银行股份有限公司 | 基于用户挖掘的消息推荐方法、设备、介质 |
CN113919936B (zh) * | 2021-09-22 | 2022-08-05 | 百融至信(北京)征信有限公司 | 样本数据的处理方法及装置 |
CN115344757A (zh) * | 2022-02-07 | 2022-11-15 | 花瓣云科技有限公司 | 一种标签预测方法、电子设备及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017219548A1 (zh) * | 2016-06-20 | 2017-12-28 | 乐视控股(北京)有限公司 | 用户属性预测方法及装置 |
CN109783539A (zh) * | 2019-01-07 | 2019-05-21 | 腾讯科技(深圳)有限公司 | 用户挖掘及其模型构建方法、装置及计算机设备 |
CN110555717A (zh) * | 2019-07-29 | 2019-12-10 | 华南理工大学 | 基于用户行为特征挖掘用户潜在购买商品和品类的方法 |
-
2019
- 2019-12-12 CN CN201911272018.6A patent/CN111046952B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017219548A1 (zh) * | 2016-06-20 | 2017-12-28 | 乐视控股(北京)有限公司 | 用户属性预测方法及装置 |
CN109783539A (zh) * | 2019-01-07 | 2019-05-21 | 腾讯科技(深圳)有限公司 | 用户挖掘及其模型构建方法、装置及计算机设备 |
CN110555717A (zh) * | 2019-07-29 | 2019-12-10 | 华南理工大学 | 基于用户行为特征挖掘用户潜在购买商品和品类的方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111046952A (zh) | 2020-04-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111046952B (zh) | 标签挖掘模型的建立方法、装置、存储介质及终端 | |
US11030415B2 (en) | Learning document embeddings with convolutional neural network architectures | |
US11775838B2 (en) | Image captioning with weakly-supervised attention penalty | |
CN110135427B (zh) | 用于识别图像中的字符的方法、装置、设备和介质 | |
Meng et al. | Oracle bone inscription detector based on ssd | |
CN109271624B (zh) | 一种目标词确定方法、装置及存储介质 | |
CN111191445A (zh) | 广告文本分类方法及装置 | |
CN111046184A (zh) | 文本的风险识别方法、装置、服务器和存储介质 | |
CN111274822A (zh) | 语义匹配方法、装置、设备及存储介质 | |
Sun et al. | Analyzing Cross-domain Transportation Big Data of New York City with Semi-supervised and Active Learning. | |
CN115689717A (zh) | 企业风险预警方法、装置、电子设备、介质和程序产品 | |
CN110362592B (zh) | 裁决指引信息推送方法、装置、计算机设备和存储介质 | |
Alam et al. | Faster RCNN based robust vehicle detection algorithm for identifying and classifying vehicles | |
CN110069558A (zh) | 基于深度学习的数据分析方法及终端设备 | |
US20210110275A1 (en) | System and method of machine learning using embedding networks | |
US20240220511A1 (en) | Machine learning techniques for normalization of unstructured data into structured data | |
CN112579774B (zh) | 模型训练方法、模型训练装置及终端设备 | |
US20230224493A1 (en) | Segment-wise prediction machine learning frameworks | |
CN111695922A (zh) | 潜在用户确定方法及装置、存储介质和电子设备 | |
CN116090450A (zh) | 一种文本处理方法及计算设备 | |
CN115358817A (zh) | 基于社交数据的智能产品推荐方法、装置、设备及介质 | |
US20220121891A1 (en) | Labeling and data augmentation for graph data | |
CN114490993A (zh) | 小样本意图识别方法、系统、设备及存储介质 | |
CN115129863A (zh) | 意图识别方法、装置、设备、存储介质和计算机程序产品 | |
CN111414483B (zh) | 一种文档处理设备和方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Address after: 518000 Room 201, building A, No. 1, Qian Wan Road, Qianhai Shenzhen Hong Kong cooperation zone, Shenzhen, Guangdong (Shenzhen Qianhai business secretary Co., Ltd.) Applicant after: Shenzhen Mingshu Information Co.,Ltd. Address before: 518000 Room 201, building A, No. 1, Qian Wan Road, Qianhai Shenzhen Hong Kong cooperation zone, Shenzhen, Guangdong (Shenzhen Qianhai business secretary Co., Ltd.) Applicant before: Shenzhen Suishou Jinfu Information Technology Co.,Ltd. |
|
GR01 | Patent grant | ||
GR01 | Patent grant |