CN109857854A - 一种用户商业标签挖掘方法及装置、服务器 - Google Patents
一种用户商业标签挖掘方法及装置、服务器 Download PDFInfo
- Publication number
- CN109857854A CN109857854A CN201910000564.8A CN201910000564A CN109857854A CN 109857854 A CN109857854 A CN 109857854A CN 201910000564 A CN201910000564 A CN 201910000564A CN 109857854 A CN109857854 A CN 109857854A
- Authority
- CN
- China
- Prior art keywords
- commercial
- data
- labels
- commercial labels
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例提供一种用户商业标签挖掘方法及装置、服务器,该方法包括:从获取的用户的特定商业行为数据中抽取文本数据;基于预先生成的候选商业标签词库对文本数据进行分词,输出分词后的文本数据;基于预先生成的商业标签词库对分词后的文本数据进行商业关键词抽取,得到抽取出的商业标签数据;根据用户的原始商业行为数据对抽取出的商业标签数据进行挖掘,分别得到不同商业行为下的商业标签数据。能够更准确的挖掘商业标签,实现商业标签词库的动态更新,减少人力维护成本。
Description
技术领域
本发明涉及互联网广告技术领域,尤指一种用户商业标签挖掘方法及装置、服务器。
背景技术
在大数据时代,数据管理平台(Data Management Platform,DMP)成为互联网广告领域的重要组成部分,主要用于管理用户的商业行为数据,包括:页面浏览、广告点击、关键词搜索等,并从中挖掘用户画像属性,例如:年龄、性别、地域等,以便提供精准的个性化广告投放,提高广告主的转化收益。然而DMP挖掘的用户画像属性对于用户的商业价值偏好描述比较笼统、不够精准,对于垂直行业的广告主无法定向到商品/条目(item)粒度的受众。
因此,挖掘用户的商业标签挖掘在广告投放过程中显得十分重要,而用户的商业标签挖掘需要解决的问题如下:
1)如何通过神经语言程序学(Neuro-Linguistic Programming,NLP)技术精准、细致刻画对象(用户、广告创意、页面)的商业价值偏好;
2)需要构建并维护一套统一的动态更新的高质量商业标签词库。
现有技术中已有的解决方案,对于问题1),一般是通过词频-逆文本频率指数(term frequency–inverse document frequency,TF-IDF)技术挖掘文本关键词;对于问题2),一般是人工构建并维护(review)标签词库。
现有解决方案具有如下缺点:
1)通过TF-IDF技术挖掘文本关键词仅考虑到词语的频度属性、位置属性,并没有引入语义特征等,准确率和召回率都相对较低;而且挖掘出的关键词包含较多人名、地名等商业价值较低的词语,不利于商业广告投放;
2)通过人工构建并维护商业标签词库,人力成本较大,词库更新迭代效率较低,很大程度上影响到商业标签质量。
发明内容
本发明实施例提供一种用户商业标签挖掘方法及装置、服务器,用以解决现有技术中存在的商业标签挖掘的准确率和召回率低、挖掘出的商业标签质量差,且需要人工维护标签词库导致人力维护成本高的问题。
一方面,本发明实施例提供了一种用户商业标签挖掘方法,包括:
从获取的用户的特定商业行为数据中抽取文本数据;
基于预先生成的候选商业标签词库对文本数据进行分词,输出分词后的文本数据;
基于预先生成的商业标签词库对分词后的文本数据进行商业关键词抽取,得到抽取出的商业标签数据;
根据用户的原始商业行为数据对抽取出的商业标签数据进行挖掘,分别得到不同商业行为下的商业标签数据。
在一些可选的实施例中,从获取的用户的特定商业行为数据中抽取文本数据,包括:
针对获取到的不同类别的用户商业行为数据,抽取该类别的商业行为数据的商业行为特征词,得到所述文本数据。
在一些可选的实施例中,基于预先生成的商业标签词库对分词后的文本数据进行商业关键词抽取,得到抽取出的商业标签数据,包括:
根据分词后的文本数据中包括的分词和对应的词性,构建关键词图;所述关键词图中包括文本数据中不重复的分词的集合和任意两个分词相连的边的集合;
根据各所述边在集合中的出现位置,确定对应分词的重要性并进行打分;
采用选定的优化因子对所述分词的重要性进行优化,得到优化后的打分结果;
根据打分结果选取商业关键词,得到所述商业标签数据。
在一些可选的实施例中,根据用户的原始商业行为数据对抽取出的商业标签数据进行挖掘,分别得到不同商业行为下的商业标签数据,包括:
基于用户设定级别的商业行为数据,得到相应级别的不同商业行为下的商业行为标签;和/或
基于用户设定时间段内的商业行为数据,得到相应时间段内不同商业行为下的商业行为标签。
在一些可选的实施例中,生成候选商业标签词库的过程包括:
获取具有成熟体系的商品类科目和/或获取自有资源挖掘出的商业标签,作为候选商业标签词;
对候选商业标签词进行预处理;
对候选商业标签词标记来源并存储到候选商业标签词库中。
在一些可选的实施例中,生成商业标签词库的过程包括:
对候选商业标签词库中的候选商业标签词的逆文本频率指数IDF和重要性进行打分;
基于打分结果选取符合设定条件的候选商业标签词,得到商业标签词,存储到商业标签词库中。
在一些可选的实施例中,上述方法还包括:
对自有资源挖掘出的商业标签进行增量更新,和/或
基于用户输入的评价结果,修改商业标签的标记状态。
在一些可选的实施例中,上述方法还包括:使用得到不同商业行为下的商业标签数据,完成如下操作中的至少一个:
商业模型评估和训练、生成用户兴趣图谱生成、作为广告关键词包用于商业广告的定向投放。
本发明实施例还提供一种用户商业标签挖掘装置,包括:
文本生成模块,用于从获取的用户的特定商业行为数据中抽取文本数据;
分词模块,用于基于预先生成的候选商业标签词库对文本数据进行分词,输出分词后的文本数据;
数据处理模块,用于基于预先生成的商业标签词库对分词后的文本数据进行商业关键词抽取,得到抽取出的商业标签数据;
标签挖掘模块,用于根据用户的原始商业行为数据对抽取出的商业标签数据进行挖掘,分别得到不同商业行为下的商业标签数据。
在一些可选的实施例中,所述文本生成模块,具体用于:
针对获取到的不同类别的用户商业行为数据,抽取该类别的商业行为数据的商业行为特征词,得到所述文本数据。
在一些可选的实施例中,所述数据处理模块,具体用于:
根据分词后的文本数据中包括的分词和对应的词性,构建关键词图;所述关键词图中包括文本数据中不重复的分词的集合和任意两个分词相连的边的集合;
根据各所述边在集合中的出现位置,确定对应分词的重要性并进行打分;
采用选定的优化因子对所述分词的重要性进行优化,得到优化后的打分结果
根据打分结果选取商业关键词,得到所述商业标签数据。
在一些可选的实施例中,所述标签挖掘模块,具体用于:
基于用户设定级别的商业行为数据,得到相应级别的不同商业行为下的商业行为标签;和/或
基于用户设定时间段内的商业行为数据,得到相应时间段内不同商业行为下的商业行为标签。
在一些可选的实施例中,上述装置还包括:标签词库生成模块,用于生成候选商业标签词库,包括:
获取具有成熟体系的商品类科目和/或获取自有资源挖掘出的商业标签,作为候选商业标签词;
对候选商业标签词进行预处理;
对候选商业标签词标记来源并存储到候选商业标签词库中。
在一些可选的实施例中,上述装置还包括:标签词库生成模块,用于生成商业标签词库,包括:
对候选商业标签词库中的候选商业标签词的逆文本频率指数IDF和重要性进行打分;
基于打分结果选取符合设定条件的候选商业标签词,得到商业标签词,存储到商业标签词库中。
在一些可选的实施例中,所述标签词库生成模块,还用于:
对自有资源挖掘出的商业标签进行增量更新,和/或
基于用户输入的评价结果,修改商业标签的标记状态。
在一些可选的实施例中,上述装置还包括:还包括:
标签应用模块,用于使用得到不同商业行为下的商业标签数据,完成如下操作中的至少一个:商业模型评估和训练、生成用户兴趣图谱生成、作为广告关键词包用于商业广告的定向投放。
本发明实施例还提供一种计算机存储介质,所述计算机存储介质中存储有计算机可执行指令,所述计算机可执行指令被处理器执行时实现上述的用户商业标签挖掘方法。
本发明实施例还提供一种服务器,包括:存储器、处理器及存储于存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述的用户商业标签挖掘方法。
上述技术方案具有如下有益效果:
从获取的用户的特定商业行为数据中抽取文本数据;基于预先生成的候选商业标签词库对文本数据进行分词,并基于预先生成的商业标签词库对分词后的文本数据进行商业关键词抽取,抽取出商业标签数据;进而分别针对不同的商业行为,挖掘商业标签数据,能够充分考虑文本词语位置、覆盖、频度、共现等特征,并在此基础上优化关键词抽取过程,提高了标签挖掘的准确率和召回率,减少了人力维护成本,提高了词库更新迭代的效率和商业标签挖掘的质量。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例一中用户商业标签挖掘方法的流程图;
图2是本发明实施例二中用户商业标签挖掘方法的流程图;
图3是本发明实施例二中关键词抽取过程的流程图;
图4是本发明实施例中用户商业标签挖掘装置的一种结构示意图;
图5是本发明实施例中用户商业标签挖掘的另一种结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
针对现有技术中存在问题,本发明实施例提供一种用户商业标签挖掘方法,基于构建词典和文本排序(Textrank)技术实现商业标签挖掘,该方法应用在互联网广告领域,尤其涉及门户商业广告定向投放和数据管理平台(DMP)中,抽取用户、广告、页面的商业标签,实现广告系统商业价值偏好描述的统一。
下面通过具体的实施例进行详细描述。
实施例一
本发明实施例一提供的用户商业标签挖掘方法,其流程如图1所示,包括如下步骤:
步骤S101:从获取的用户的特定商业行为数据中抽取文本数据。
针对获取到的不同类别的用户商业行为数据,抽取该类别的商业行为数据的商业行为特征词,得到文本数据。例如:广告创意的文本数据考虑广告创意标题、子标题、落地页标题、正文、描述、关键词等,又例如:页面的文本数据考虑页面标题、正文、编辑标签等。
步骤S102:基于预先生成的候选商业标签词库对文本数据进行分词,输出分词后的文本数据。
对文本数据进行分词之前可以先进行预处理,包括:字符全脚转半角、消除文本中特殊字符、英文字符大写转小写等中的一项或多项。
采用选择的分词工具,基于预先生成的候选商业标签词库对文本数据进行分词处理,输出分词后的文本数据,分词后的文本数据中可以包括分词和分词的词性。
预先生成的候选商业标签词库包括从获取的样本数据中抽取出的候选商业标签词。
步骤S103:基于预先生成的商业标签词库对分词后的文本数据进行商业关键词抽取,得到抽取出的商业标签数据。
商业标签词库可以基于候选商业标签词库预先生成,生成的商业标签词库中包括提取出来的商业标签词,这些商业标签词可以从候选商业标签词库中进行提取,也可以从样本数据中进行提取。
抽取商业标签数据时,根据分词后的文本数据中包括的分词和对应的词性,构建关键词图;关键词图中包括文本数据中不重复的分词的集合和任意两个分词相连的边的集合;根据各边在集合中的出现位置,确定对应分词的重要性并进行打分;采用选定的优化因子对分词的重要性进行优化,得到优化后的打分结果;根据打分结果选取商业关键词,得到所述商业标签数据。
步骤S104:根据用户的原始商业行为数据对抽取出的商业标签数据进行挖掘,分别得到不同商业行为下的商业标签数据。
对用户原始的商业行为数据进行处理,用户行为数据可以包括点击广告、浏览页面、搜索关键词等用户行为,对这些用户商业行为数据进行预处理后,可以基于这些用户商业行为数据进行商业标签提取,例如分别挖掘点击广告、浏览页面、搜索关键词等用户行为下的商业标签数据。
获得不同商业行为下的商业标签数据挖掘时,可以基于用户设定级别的商业行为数据,得到相应级别的不同商业行为下的商业行为标签;和/或,可以基于用户设定时间段内的商业行为数据,得到相应时间段内不同商业行为下的商业行为标签。
上述方法中,生成候选商业标签词库的过程包括:
获取具有成熟体系的商品类科目和/或获取自有资源挖掘出的商业标签,作为候选商业标签词;
对候选商业标签词进行预处理;
对候选商业标签词标记来源并存储到候选商业标签词库中。
上述方法中,生成商业标签词库的过程包括:
对候选商业标签词库中的候选商业标签词的逆文本频率指数IDF和重要性进行打分;
基于打分结果选取符合设定条件的候选商业标签词,得到商业标签词,存储到商业标签词库中。
生成商业标签词库后,还包括对自有资源挖掘出的商业标签进行增量更新,和/或基于用户输入的评价结果,修改商业标签的标记状态。
上述方法中,得到不同商业行为下的商业标签数据后,还可以使用得到不同商业行为下的商业标签数据,完成如下操作中的至少一个:商业模型评估和训练、生成用户兴趣图谱生成、作为广告关键词包用于商业广告的定向投放。
实施例二
本发明实施例二提供的用户商业标签挖掘方法的一种具体实现流程示例,其流程如图2所示,图2展示了DMP商业标签挖掘系统的整体架构和实现流程示例,包括商业标签词库构建、动态更新和商业标签挖掘等关键步骤,最终输出结果。
该方法输入为挖掘文本对象,通常表示为用户商业行为基础粒度的文本数据,存储于数据库表中,数据库表可以是hive表,hive是基于Hadoop的一个数据仓库,可以将结构化的数据文件映射为一张表,并提供类结构化查询语言(Structured Query Language,SQL)查询功能,hive底层将SQL语句转化为mapreduce(一种分布式计算模型,也是一种适用于海量数据处理的编程模型)任务运行,输入的文本数据包括:广告创意(创意标题、子标题、落地页正文等)、页面(页面标题、正文等)、搜索文本(关键词组等),该方法的输出为用户基于特定商业行为的商业标签,可以存储于hive表、远程字典服务(REmote DIctionaryServe,redis)等数据库中,提供给广告投放策略采用。该方法包括如下步骤:
步骤S201:生成候选商业标签词库。
该步骤主要针对候选商业标签词库进行生成操作,主要包括以下操作:
候选商业标签词库选取:作为候选商业标签的词库,一方面倾向于选取具有成熟体系的商品类目,例如:苏宁、百分点、晶赞的商品类目;另一方面倾向于利用自有资源挖掘商业标签,例如:垂直频道(汽车、财经、科技手机、化妆品)、广告落地页、页面编辑标签、广告主标签等;
词库预处理:对于所有候选商业标签词进行统一预处理,主要包括:字符全脚转半角、消除词中特殊字符、英文字符大写转小写等;特殊字符可以包含:超文本标记语言(Hyper Text Markup Language,HTML)标签、中文空格等。
候选商业标签词库增量更新:对于自有资源挖掘的候选商业标签可实现增量更新,可实现条目级别的时事热点词的吸收;
候选商业标签词库存储:不同候选词库得到的候选商业标签统一存储于mysql(一种关系型数据库管理系统),并标记候选商业标签的来源。
步骤S202:生成商业标签词库。
该步骤可以实现对商业标签词典的优化处理,采用的方式可以包括下列至少一种:
a)增量更新:对于基于自由资源挖掘商业标签候选,例如:广告主标签、编辑标签、垂直频道、广告标注等可实现增量更新;
b)人工标记(review)平台:对于候选商业标签可通过前端页面进行操作,根据人工评价结果修改候选商业标签标记状态,从而达到优化商业标签词典的目的;
c)商业标签价值评估:对于基于候选商业标签词库挖掘的创意商业标签数据,统计各个标签的IDF和重要性打分,并对打分求和,将设定数量的(例如前50%的)标签标记为商业标签,实现条目级别标记更新。
即针对预先生成的候选商业标签词库,通过优化处理得到商业标签词库。
步骤S203:从获取的用户的特定商业行为数据中抽取文本数据,即文本数据生成。
该步骤主要针对用户商业行为数据进行操作,主要基于特定商业行为数据抽取相应的文本数据,例如:广告创意的文本数据考虑广告创意标题、子标题、落地页标题、正文、描述、关键词等可以表征创意含义的文本;页面的文本数据考虑页面标题、正文、编辑标签;搜索的文本数据考虑晶赞等第三方关键词搜索词组等。
步骤S204:对文本数据进行预处理和分词处理。
要针对基于特定商业行为数据抽取的文本数据进行处理,主要包括如下操作:
进行统一预处理,主要包括:字符全脚转半角、消除文本中特殊字符、英文字符大写转小写等;特殊字符包含:html标签、中文空格等等。
基于预先生成的候选商业标签词库对文本数据进行分词,输出分词后的文本数据;对文本数据进行分词处理时,采用选择的分词工具(例如ansj分词),基于预先生成的候选商业标签词库(词库中可以包括候选商业标签词和对应的词性)对文本数据进行分词,输出分词后文本数据,包含:分词和对应的词性。
步骤S205:文本数据挖掘:基于预先生成的商业标签词库对分词后的文本数据进行商业关键词抽取,得到抽取出的商业标签数据。
该步骤主要针对分词后的文本数据进行商业标签挖掘,采用优化的Textrank模型抽取关键词产出条目(item)级别的商业标签数据,该过程具体参见图3的相关描述。
步骤S206:用户行为数据生成。
该步骤主要针对用户原始商业行为数据,抽取“用户+item”行为数据,主要操作包括:item基础数据汇总、清洗、预处理;
步骤S207:用户商业标签挖掘:根据用户的原始商业行为数据对抽取出的商业标签数据进行挖掘,分别得到不同商业行为下的商业标签数据。。
该步骤主要产出用户基于特定商业行为的商业标签,主要操作如下:
a)基于用户条目级别的商业行为数据,产出用户条目级别基于特定商业行为的商业标签,存储于数据库表中,例如hive表;
b)基于用户一定时间段内,例如近一个月内的条目级别的特定商业行为的商业标签,产出用户一定时间段内基于特定商业行为的商业标签,存储于数据库表中,例如hive表;
步骤S208:用户商业标签应用。
该步骤主要针对item商业标签(例如广告创意)和用户商业标签数据进行应用,主要应用点如下:
CTR/CVR模型特征:用户广告点击商业标签可以作为用户特征进行特征工程实验,一定程度上可提升模型评估效果;其中,CVR是指转化率(Click Value Rate),CTR是指点击率(Click Through Rate)。
兴趣图谱:用户广告点击商业标签、用户页面浏览商业标签可分别包装为“偏爱商品品牌”、“浏览关注”两个方面为广告主展示受众的兴趣偏好;
关键词定向:商业标签可包装为关键词包作为商业广告投放的定向,满足垂直行业的行业广告主对某个细粒度的受众定向投放的需求,例如:宝马系列车、苹果6s等。
如图3所示为基于Textrank技术的优化关键词抽取过程,包括如下步骤:
步骤S301:构建实验数据集。
该步骤主要操作如下:
获取数据:获取内容管理平台的网页内容数据,考虑到媒体网站页面内容绝大多数会由编辑在浏览页面内容后打上一些标签,简称“编辑标签”,从中过滤编辑标签非空的页面数据作为实验集合;
优化实验数据集:由于网页内容数据较杂,可从中选取页面质量较高的频道(新闻、财经、体育、娱乐)的网页内容数据;
这里的实验数据,在上述图2所示的商业标签挖掘过程中,可以是步骤S203中所述的文本数据。
步骤S302:对于实验数据进行分词。该步骤的实现过程参见步骤S204。
步骤S303:关键词抽取优化。
实现关键词优化抽取的主要思想如下:
textrank算法核心思想:该算法是基于图论的无监督关键词抽取算法,通过把文本分割成若干组成单元并建立以词语作为顶点、词语间关联作为边的图模型,利用投票机制对于文本中的重要成分进行排序,仅利用单篇文档本身的信息即可实现关键词抽取。
主要步骤如下:
1)把给定文本T按照完整句子进行分割,即:T=[S1,S2,...,Sm];
2)对于每一个句子Si∈T,进行中文分词和词性标注处理,仅保留分词后的重要词性,如名词、动词、形容词,即:Si=[ti,1,ti,2,……ti,j,……ti,n];其中,ti,n表示句子中的一个分词,一般是筛选后分词,例如ti,n表示的是第i个句子中的第n个分词。
3)构建候选关键词图G=(V,E),对于每一个ti,j∈Si,ti,j+1∈Si,有<ti,j,ti,j+1>∈E;
其中:V表示文本中不重复的词的集合,E表示两个词连起来的边的集合,
4)令入度In(vi)和出度Out(vi)分别满足:
In(vi)={vj|<vj,vi>∈E},Out(vi)={vj|<vi,vj>∈E}
则:集合V中结点vi的分值计算公式为:
其中,WS(vi)表示词的重要性;d是一个参数,可以选取固定值,例如0.85等;wji、wjk表示边的权重。
分值的基础模型公式可表示如下:
优化点:由上述公式可以看出,候选关键词转移矩阵中的打分为“0”或“1”,不能有效体现打分的差异化,故考虑引入3个因子优化候选关键词转移矩阵,分别为:覆盖影响力、位置影响力、频度影响力,计算公式如下:
覆盖影响力系数:
位置影响力系数:
频度影响力系数:
其中,I(vj)、I(vk)是表征位置影响力的相关参数,C(vj)、C(vk)是表征频度影响力的相关参数。
则上述基础模型公式可表示为:
其中:
wij=α·wα(vj,vi)+β·wβ(vj,vi)+γ·wγ(vj,vi)
其中,S(vi)表示词的打分值。
使用上述模型进行关键词抽取时,可以选取不止一个模型特征,例如:模型主要抽取了候选关键词的8个特征进行模型训练,具体包括:是否为标题、是否为首段词、是否为首句词、词性、词长度、词频、上下文关联词、是否为停用词。
根据训练结果抽取关键词。可以基于公式中的打分结果进行抽取。
步骤S304:模型效果评估:在给定参数条件下,分别计算实验数据集的准确率、召回率、F值(准确率*召回率/2*准确率*召回率),将F值作为评估模型效果的指标。
步骤S305:参数优化:在其他参数条件不变情况下,通过遍历有限范围内的参数取值,输出评估指标,取评估指标最高的参数取值,从而优化参数。
基于同一发明构思,本发明实施例还提供一种用户商业标签挖掘装置,其结构如图4所示,包括:文本生成模块51、分词模块52、数据处理模块53和标签挖掘模块54。
文本生成模块51,用于从获取的用户的特定商业行为数据中抽取文本数据;
分词模块52,用于基于预先生成的候选商业标签词库对文本数据进行分词,输出分词后的文本数据;
数据处理模块53,用于基于预先生成的商业标签词库对分词后的文本数据进行商业关键词抽取,得到抽取出的商业标签数据;
标签挖掘模块54,用于根据用户的原始商业行为数据对抽取出的商业标签数据进行挖掘,分别得到不同商业行为下的商业标签数据。
在一个实施例中,文本生成模块51,具体用于针对获取到的不同类别的用户商业行为数据,抽取该类别的商业行为数据的商业行为特征词,得到所述文本数据。
在一个实施例中,数据处理模块53,具体用于根据分词后的文本数据中包括的分词和对应的词性,构建关键词图;所述关键词图中包括文本数据中不重复的分词的集合和任意两个分词相连的边的集合;根据各所述边在集合中的出现位置,确定对应分词的重要性并进行打分;采用选定的优化因子对所述分词的重要性进行优化,得到优化后的打分结果;根据打分结果选取商业关键词,得到所述商业标签数据。
在一个实施例中,标签挖掘模块,具体用于基于用户设定级别的商业行为数据,得到相应级别的不同商业行为下的商业行为标签;和/或基于用户设定时间段内的商业行为数据,得到相应时间段内不同商业行为下的商业行为标签。
可选的,本发明实施例还提供另一种用户商业标签挖掘装置,其结构如图5所示,包括文本生成模块51、分词模块52、数据处理模块53和标签挖掘模块54,还包括标签词库生成模块55/或标签应用模块56。
文本生成模块51、分词模块52、数据处理模块53和标签挖掘模块54参见上述图4的相关描述。
可选的,标签词库生成模块55,用于生成候选商业标签词库,包括:获取具有成熟体系的商品类科目和/或获取自有资源挖掘出的商业标签,作为候选商业标签词;对候选商业标签词进行预处理;对候选商业标签词标记来源并存储到候选商业标签词库中。
可选的,标签词库生成模块,用于生成商业标签词库,包括:对候选商业标签词库中的候选商业标签词的逆文本频率指数(IDF)和重要性进行打分;基于打分结果选取符合设定条件的候选商业标签词,得到商业标签词,存储到商业标签词库中。
在一个实施例中,标签词库生成模块55,还用于对自有资源挖掘出的商业标签进行增量更新,和/或基于用户输入的评价结果,修改商业标签的标记状态。
标签应用模块56,用于使用得到不同商业行为下的商业标签数据,完成如下操作中的至少一个:商业模型评估和训练、生成用户兴趣图谱生成、作为广告关键词包用于商业广告的定向投放。
本发明实施例还提供一种计算机存储介质,计算机存储介质中存储有计算机可执行指令,计算机可执行指令被处理器执行时实现上述的用户商业标签挖掘方法。
本发明实施例还提供一种服务器,包括存储器、处理器及存储于存储器上并可在处理器上运行的计算机程序,处理器执行所述程序时实现上述的用户商业标签挖掘方法。
本发明的提供的上述用户商业标签挖掘方法和装置,能够实现自动化的用户商业标签挖掘,通过NLP技术进行用户商业价值偏好刻画。基于构建词典和Textrank技术实现商业标签挖掘,通过优化Textrank关键词抽取模型,在考虑了文本词语位置、覆盖、频度、共现等特征的基础上,通过优化关键词转移矩阵,提高了关键词抽取的准确率。
本发明的提供的上述用户商业标签挖掘方法和装置,能够提供一套可动态更新的商业标签词库,作为商业标签挖掘系统的数据基础,有效解决了人力维护成本高的问题;;以及基于商业标签词库和Textrank优化模型挖掘文本商业关键词,作为用户商业标签抽取数据基础,将Textrank等关键词挖掘技术与自定义商业标签词库相结合,调优模型效果,运用于文本商业标签挖掘。
本申请方法可用于DMP系统,用于挖掘用户、页面、广告创意的商业标签,提升扶翼商业广告定向投放效果,以及广告主的受众偏好展示体验。
本领域技术人员还可以了解到本发明实施例列出的各种说明性逻辑块(illustrative logical block),单元,和步骤可以通过电子硬件、电脑软件,或两者的结合进行实现。为清楚展示硬件和软件的可替换性(interchangeability),上述的各种说明性部件(illustrative components),单元和步骤已经通用地描述了它们的功能。这样的功能是通过硬件还是软件来实现取决于特定的应用和整个系统的设计要求。本领域技术人员可以对于每种特定的应用,可以使用各种方法实现所述的功能,但这种实现不应被理解为超出本发明实施例保护的范围。
本发明实施例中所描述的各种说明性的逻辑块,或单元都可以通过通用处理器,数字信号处理器,专用集成电路(ASIC),现场可编程门阵列或其它可编程逻辑装置,离散门或晶体管逻辑,离散硬件部件,或上述任何组合的设计来实现或操作所描述的功能。通用处理器可以为微处理器,可选地,该通用处理器也可以为任何传统的处理器、控制器、微控制器或状态机。处理器也可以通过计算装置的组合来实现,例如数字信号处理器和微处理器,多个微处理器,一个或多个微处理器联合一个数字信号处理器核,或任何其它类似的配置来实现。
本发明实施例中所描述的方法或算法的步骤可以直接嵌入硬件、处理器执行的软件模块、或者这两者的结合。软件模块可以存储于RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可移动磁盘、CD-ROM或本领域中其它任意形式的存储媒介中。示例性地,存储媒介可以与处理器连接,以使得处理器可以从存储媒介中读取信息,并可以向存储媒介存写信息。可选地,存储媒介还可以集成到处理器中。处理器和存储媒介可以设置于ASIC中,ASIC可以设置于用户终端中。可选地,处理器和存储媒介也可以设置于用户终端中的不同的部件中。
在一个或多个示例性的设计中,本发明实施例所描述的上述功能可以在硬件、软件、固件或这三者的任意组合来实现。如果在软件中实现,这些功能可以存储与电脑可读的媒介上,或以一个或多个指令或代码形式传输于电脑可读的媒介上。电脑可读媒介包括电脑存储媒介和便于使得让电脑程序从一个地方转移到其它地方的通信媒介。存储媒介可以是任何通用或特殊电脑可以接入访问的可用媒体。例如,这样的电脑可读媒体可以包括但不限于RAM、ROM、EEPROM、CD-ROM或其它光盘存储、磁盘存储或其它磁性存储装置,或其它任何可以用于承载或存储以指令或数据结构和其它可被通用或特殊电脑、或通用或特殊处理器读取形式的程序代码的媒介。此外,任何连接都可以被适当地定义为电脑可读媒介,例如,如果软件是从一个网站站点、服务器或其它远程资源通过一个同轴电缆、光纤电缆、双绞线、数字用户线(DSL)或以例如红外、无线和微波等无线方式传输的也被包含在所定义的电脑可读媒介中。所述的碟片(disk)和磁盘(disc)包括压缩磁盘、镭射盘、光盘、DVD、软盘和蓝光光盘,磁盘通常以磁性复制数据,而碟片通常以激光进行光学复制数据。上述的组合也可以包含在电脑可读媒介中。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (18)
1.一种用户商业标签挖掘方法,其特征在于,包括:
从获取的用户的特定商业行为数据中抽取文本数据;
基于预先生成的候选商业标签词库对文本数据进行分词,输出分词后的文本数据;
基于预先生成的商业标签词库对分词后的文本数据进行商业关键词抽取,得到抽取出的商业标签数据;
根据用户的原始商业行为数据对抽取出的商业标签数据进行挖掘,分别得到不同商业行为下的商业标签数据。
2.如权利要求1所述的方法,其特征在于,从获取的用户的特定商业行为数据中抽取文本数据,包括:
针对获取到的不同类别的用户商业行为数据,抽取该类别的商业行为数据的商业行为特征词,得到所述文本数据。
3.如权利要求1所述的方法,其特征在于,基于预先生成的商业标签词库对分词后的文本数据进行商业关键词抽取,得到抽取出的商业标签数据,包括:
根据分词后的文本数据中包括的分词和对应的词性,构建关键词图;所述关键词图中包括文本数据中不重复的分词的集合和任意两个分词相连的边的集合;
根据各所述边在集合中的出现位置,确定对应分词的重要性并进行打分;
采用选定的优化因子对所述分词的重要性进行优化,得到优化后的打分结果;
根据打分结果选取商业关键词,得到所述商业标签数据。
4.如权利要求1所述的方法,其特征在于,根据用户的原始商业行为数据对抽取出的商业标签数据进行挖掘,分别得到不同商业行为下的商业标签数据,包括:
基于用户设定级别的商业行为数据,得到相应级别的不同商业行为下的商业行为标签;和/或
基于用户设定时间段内的商业行为数据,得到相应时间段内不同商业行为下的商业行为标签。
5.如权利要求1所述的方法,其特征在于,生成候选商业标签词库的过程包括:
获取具有成熟体系的商品类科目和/或获取自有资源挖掘出的商业标签,作为候选商业标签词;
对候选商业标签词进行预处理;
对候选商业标签词标记来源并存储到候选商业标签词库中。
6.如权利要求5所述的方法,其特征在于,生成商业标签词库的过程包括:
对候选商业标签词库中的候选商业标签词的逆文本频率指数IDF和重要性进行打分;
基于打分结果选取符合设定条件的候选商业标签词,得到商业标签词,存储到商业标签词库中。
7.如权利要求6所述的方法,其特征在于,还包括:
对自有资源挖掘出的商业标签进行增量更新,和/或
基于用户输入的评价结果,修改商业标签的标记状态。
8.如权利要求1-7任一所述的方法,其特征在于,还包括使用得到不同商业行为下的商业标签数据,完成如下操作中的至少一个:
商业模型评估和训练、生成用户兴趣图谱生成、作为广告关键词包用于商业广告的定向投放。
9.一种用户商业标签挖掘装置,其特征在于,包括:
文本生成模块,用于从获取的用户的特定商业行为数据中抽取文本数据;
分词模块,用于基于预先生成的候选商业标签词库对文本数据进行分词,输出分词后的文本数据;
数据处理模块,用于基于预先生成的商业标签词库对分词后的文本数据进行商业关键词抽取,得到抽取出的商业标签数据;
标签挖掘模块,用于根据用户的原始商业行为数据对抽取出的商业标签数据进行挖掘,分别得到不同商业行为下的商业标签数据。
10.如权利要求9所述的装置,其特征在于,所述文本生成模块,具体用于:
针对获取到的不同类别的用户商业行为数据,抽取该类别的商业行为数据的商业行为特征词,得到所述文本数据。
11.如权利要求9所述的装置,其特征在于,所述数据处理模块,具体用于:
根据分词后的文本数据中包括的分词和对应的词性,构建关键词图;所述关键词图中包括文本数据中不重复的分词的集合和任意两个分词相连的边的集合;
根据各所述边在集合中的出现位置,确定对应分词的重要性并进行打分;
采用选定的优化因子对所述分词的重要性进行优化,得到优化后的打分结果;
根据打分结果选取商业关键词,得到所述商业标签数据。
12.如权利要求9所述的装置,其特征在于,所述标签挖掘模块,具体用于:
基于用户设定级别的商业行为数据,得到相应级别的不同商业行为下的商业行为标签;和/或
基于用户设定时间段内的商业行为数据,得到相应时间段内不同商业行为下的商业行为标签。
13.如权利要求9所述的装置,其特征在于,还包括标签词库生成模块,用于生成候选商业标签词库,包括:
获取具有成熟体系的商品类科目和/或获取自有资源挖掘出的商业标签,作为候选商业标签词;
对候选商业标签词进行预处理;
对候选商业标签词标记来源并存储到候选商业标签词库中。
14.如权利要求9所述的装置,其特征在于,还包括标签词库生成模块,用于生成商业标签词库,包括:
对候选商业标签词库中的候选商业标签词的逆文本频率指数IDF和重要性进行打分;
基于打分结果选取符合设定条件的候选商业标签词,得到商业标签词,存储到商业标签词库中。
15.如权利要求14所述的装置,其特征在于,所述标签词库生成模块,还用于:
对自有资源挖掘出的商业标签进行增量更新,和/或
基于用户输入的评价结果,修改商业标签的标记状态。
16.如权利要求9-15任一所述的装置,其特征在于,还包括:
标签应用模块,用于使用得到不同商业行为下的商业标签数据,完成如下操作中的至少一个:商业模型评估和训练、生成用户兴趣图谱生成、作为广告关键词包用于商业广告的定向投放。
17.一种计算机存储介质,其特征在于,所述计算机存储介质中存储有计算机可执行指令,所述计算机可执行指令被处理器执行时实现权利要求1-8任一所述的用户商业标签挖掘方法。
18.一种服务器,其特征在于,包括:存储器、处理器及存储于存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现权利要求1-8任一所述的用户商业标签挖掘方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910000564.8A CN109857854A (zh) | 2019-01-02 | 2019-01-02 | 一种用户商业标签挖掘方法及装置、服务器 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910000564.8A CN109857854A (zh) | 2019-01-02 | 2019-01-02 | 一种用户商业标签挖掘方法及装置、服务器 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109857854A true CN109857854A (zh) | 2019-06-07 |
Family
ID=66893645
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910000564.8A Pending CN109857854A (zh) | 2019-01-02 | 2019-01-02 | 一种用户商业标签挖掘方法及装置、服务器 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109857854A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110516030A (zh) * | 2019-08-26 | 2019-11-29 | 北京百度网讯科技有限公司 | 意图词的确定方法、装置、设备及计算机可读存储介质 |
CN110706021A (zh) * | 2019-09-12 | 2020-01-17 | 微梦创科网络科技(中国)有限公司 | 一种广告投放方法及系统 |
CN111339250A (zh) * | 2020-02-20 | 2020-06-26 | 北京百度网讯科技有限公司 | 新类别标签的挖掘方法及电子设备、计算机可读介质 |
CN112016789A (zh) * | 2020-07-15 | 2020-12-01 | 北京淇瑀信息科技有限公司 | 互联网金融业务处理方法、装置和电子设备 |
CN114138857A (zh) * | 2021-11-10 | 2022-03-04 | 北京师范大学 | 一种基于流域水环境的大数据挖掘方法及装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104281645A (zh) * | 2014-08-27 | 2015-01-14 | 北京理工大学 | 一种基于词汇语义和句法依存的情感关键句识别方法 |
US9324082B2 (en) * | 2007-07-06 | 2016-04-26 | Ebay Inc. | System and method for providing information tagging in a networked system |
CN106354860A (zh) * | 2016-09-06 | 2017-01-25 | 中国传媒大学 | 基于标签集的信息资源自动贴标签并自动推送的方法 |
CN106682149A (zh) * | 2016-12-22 | 2017-05-17 | 湖南科技学院 | 一种基于元搜索引擎的标签自动生成方法 |
CN108363821A (zh) * | 2018-05-09 | 2018-08-03 | 深圳壹账通智能科技有限公司 | 一种信息推送方法、装置、终端设备及存储介质 |
-
2019
- 2019-01-02 CN CN201910000564.8A patent/CN109857854A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9324082B2 (en) * | 2007-07-06 | 2016-04-26 | Ebay Inc. | System and method for providing information tagging in a networked system |
CN104281645A (zh) * | 2014-08-27 | 2015-01-14 | 北京理工大学 | 一种基于词汇语义和句法依存的情感关键句识别方法 |
CN106354860A (zh) * | 2016-09-06 | 2017-01-25 | 中国传媒大学 | 基于标签集的信息资源自动贴标签并自动推送的方法 |
CN106682149A (zh) * | 2016-12-22 | 2017-05-17 | 湖南科技学院 | 一种基于元搜索引擎的标签自动生成方法 |
CN108363821A (zh) * | 2018-05-09 | 2018-08-03 | 深圳壹账通智能科技有限公司 | 一种信息推送方法、装置、终端设备及存储介质 |
Non-Patent Citations (3)
Title |
---|
夏天: "词语位置加权TextRank 的关键词抽取研究", 《现代图书情报技术》 * |
张文升: "《迎销 大数据时代的营销出路》", 30 June 2017, 南开大学出版社 * |
邵贵平: "《网店数据分析》", 31 December 2017, 北京理工大学出版社 * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110516030A (zh) * | 2019-08-26 | 2019-11-29 | 北京百度网讯科技有限公司 | 意图词的确定方法、装置、设备及计算机可读存储介质 |
CN110516030B (zh) * | 2019-08-26 | 2022-11-01 | 北京百度网讯科技有限公司 | 意图词的确定方法、装置、设备及计算机可读存储介质 |
CN110706021A (zh) * | 2019-09-12 | 2020-01-17 | 微梦创科网络科技(中国)有限公司 | 一种广告投放方法及系统 |
CN111339250A (zh) * | 2020-02-20 | 2020-06-26 | 北京百度网讯科技有限公司 | 新类别标签的挖掘方法及电子设备、计算机可读介质 |
CN111339250B (zh) * | 2020-02-20 | 2023-08-18 | 北京百度网讯科技有限公司 | 新类别标签的挖掘方法及电子设备、计算机可读介质 |
US11755654B2 (en) | 2020-02-20 | 2023-09-12 | Beijing Baidu Netcom Science Technology Co., Ltd. | Category tag mining method, electronic device and non-transitory computer-readable storage medium |
CN112016789A (zh) * | 2020-07-15 | 2020-12-01 | 北京淇瑀信息科技有限公司 | 互联网金融业务处理方法、装置和电子设备 |
CN112016789B (zh) * | 2020-07-15 | 2024-01-16 | 北京淇瑀信息科技有限公司 | 互联网金融业务处理方法、装置和电子设备 |
CN114138857A (zh) * | 2021-11-10 | 2022-03-04 | 北京师范大学 | 一种基于流域水环境的大数据挖掘方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11720572B2 (en) | Method and system for content recommendation | |
CN109857854A (zh) | 一种用户商业标签挖掘方法及装置、服务器 | |
CN110941692B (zh) | 互联网政治外交类新闻事件抽取方法 | |
CN106682192B (zh) | 一种基于搜索关键词训练回答意图分类模型的方法和装置 | |
CN101271459B (zh) | 一种生成词库的方法、一种输入的方法和一种输入法系统 | |
US11138005B2 (en) | Methods and systems for automatically generating documentation for software | |
CN102902700B (zh) | 基于在线增量演化主题模型的软件自动分类方法 | |
US20180232451A1 (en) | Search engine for processing image search queries in multiple languages | |
US8370352B2 (en) | Contextual searching of electronic records and visual rule construction | |
CN104462593A (zh) | 一种提供用户个性化资源消息推送的方法和装置 | |
CN101004737A (zh) | 基于关键词的个性化文档处理系统 | |
CN104462594A (zh) | 一种提供用户个性化资源消息推送的方法和装置 | |
Wang et al. | The application of nltk library for python natural language processing in corpus research | |
US20120158742A1 (en) | Managing documents using weighted prevalence data for statements | |
US10558631B2 (en) | Enhancing textual searches with executables | |
US20160086499A1 (en) | Knowledge brokering and knowledge campaigns | |
Bulut et al. | Generating campaign ads & keywords for programmatic advertising | |
Mundotiya et al. | Development of a Dataset and a Deep Learning Baseline Named Entity Recognizer for Three Low Resource Languages: Bhojpuri, Maithili, and Magahi | |
Bakaev et al. | Web intelligence linked open data for website design reuse | |
CN112015866A (zh) | 用于生成同义文本的方法、装置、电子设备及存储介质 | |
KR20240020166A (ko) | Esg 보조 툴을 이용하여 정형화된 esg 데이터로 기계학습 모델을 학습하는 방법 및 기계학습 모델로 자동완성된 esg 문서를 생성하는 서비스 서버 | |
CN102999487A (zh) | 一种数字出版资源语义增强描述系统及其方法 | |
KR20230059364A (ko) | 언어 모델을 이용한 여론조사 시스템 및 운영 방법 | |
Thakkar | Twitter sentiment analysis using hybrid naive Bayes | |
Heiden | Annotation-based digital text corpora analysis within the TXM platform |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190607 |