CN107133315B - 一种基于语义分析的智能媒介推荐方法 - Google Patents
一种基于语义分析的智能媒介推荐方法 Download PDFInfo
- Publication number
- CN107133315B CN107133315B CN201710304364.2A CN201710304364A CN107133315B CN 107133315 B CN107133315 B CN 107133315B CN 201710304364 A CN201710304364 A CN 201710304364A CN 107133315 B CN107133315 B CN 107133315B
- Authority
- CN
- China
- Prior art keywords
- media
- word
- vector
- semantic
- article
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0241—Advertisements
- G06Q30/0251—Targeted advertisements
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Development Economics (AREA)
- Mathematical Physics (AREA)
- Finance (AREA)
- Accounting & Taxation (AREA)
- Strategic Management (AREA)
- Computational Linguistics (AREA)
- Game Theory and Decision Science (AREA)
- General Business, Economics & Management (AREA)
- Health & Medical Sciences (AREA)
- Marketing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Economics (AREA)
- General Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Entrepreneurship & Innovation (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于语义分析的智能媒介推荐方法,包含以下步骤:抓取媒体号的文章内容并进行预处理;训练词向量模型;计算每个词的逆文档频率;计算媒体号语义向量;媒体号初筛;计算关键词列表语义向量;计算关键词列表语义向量A与初筛之后的媒体号语义向量Sj的余弦相似度;基于语义的媒体号细筛选。本发明据广告主的关键词和预算,利用语义分析技术自动筛选出适合投放的媒体号,精准触达用户群。
Description
技术领域
本发明涉及广告领域,特别涉及一种基于语义分析的智能媒介推荐方法。
背景技术
数字营销市场发生了巨变,程序化购买飞速发展,在这样的环境下,实现广告的精准投放成为越来越多品牌主的首要需求。在稳中求进的经济环境下,广告投放必然更需要深思熟虑,力求达到更高的投入产出比。
例如权威数据营销技术公司AdMaster推出的《2017年数字营销趋势报告》,为广告主和市场从业人员提供了投放建议。在该报告中,2017年数字营销花费预计平均增长17%,投放进一步倾斜移动端:根据AdMaster数据显示,80%以上的广告主表示将在2017年继续增加数字营销领域的预算,平均预算的增长量为17%,其中预算增长量预计达到10%以上的品牌达59%,发展态势积极,仅有3%的广告主表示将缩减预算。在营销预算分配上,广告主一致同意向移动端倾斜将是2017年的一大趋势,87%的广告主表示明年将进一步增加移动营销预算。相反,PC端的投放趋势则逐年走低,约六成品牌主选择减少投放甚至不投放。
目前媒介环境越来越碎片化,消费者可选择的平台、消费行为都越来越多元化。品牌主在投放广告时,需要通过不同渠道、终端、区域和平台之间进行组合,以此实现投放收益最大化。
而无论是投放在移动端还是PC端,常常都会采用以下两种方法之一:
(1)人工选号。平台明码实价的标明媒体号的价格,提供媒体号的相关信息,如粉丝数、阅读数、媒体类别、价格等信息,任广告主自主在平台进行挑选。
(2)公开竞价。广告主将投放的广告素材、关键词、投放时间、投放价格等公开放在广告平台上,由媒体号来竞标。
对于人工选号,尽管广告平台提供了专业运营人员辅助选号,但由于媒体号众多,分布较散,往往很多广告主都无法挑选到合适的媒体号;对于公开竞价,需要媒体号主动竞标,效率不高。
同时社媒广告平台提供在微信公众号、微博大V等社交媒体账号上进行广告投放的服务。在社媒平台投放广告中重要的步骤是选择合适的账号(选号)作为投放媒体。目前市场上绝大多数平台都是明码实价的标明媒体号的价格,提供媒体号的相关信息,如粉丝数、阅读数、媒体类别、价格等信息,任广告主自主在平台进行挑选,尽管广告平台提供了人工辅助选号的功能,但往往很多广告主都无法挑选到合适的媒体号。
因此有必要提供一种新的媒介推荐方法来解决上述问题。
发明内容
本发明的目的在于克服现有技术的缺点与不足,提供一种基于语义分析的智能媒介推荐方法,其根据广告主的关键词和预算,利用语义分析技术自动筛选出适合投放的媒体号,精准触达用户群。
本发明的目的通过以下的技术方案实现:
一种基于语义分析的智能媒介推荐方法,包含以下步骤:
S1、抓取媒体号的文章内容并进行预处理;所述预处理是对每个媒体号,利用自然语言处理工具将其每篇文章分句、分词,最终将这个媒体号的所有文章合并成一个大文章,文章中的每句是分完词的句子;
S2、使用gensim工具训练词向量模型;
采用基于Negative Sampling的CBOW模型训练词向量,给定语料库C,词w的上下文是Context(w),词w为正样本,其他词则为负样本;负样本子集NEG(w)包含若干负样本,对于(即对于任意属于语料库C的词),定义损失函数:
整体的目标函数Obj定义为:
其中σ(·)为sigmoid函数,T为转置运算符号,xw表示Context(w)中各词的词向量之和,即其中表示词的词向量;θu表示词u对应的一个辅助向量,为待训练参数;词向量和辅助向量都是长度为m的实数向量;利用梯度上升方法对上述目标函数进行优化,从而训练出语料库中每个词的词向量;
S3、计算每个词的逆文档频率IDF,对于词w来说,
其中N代表媒体号的总数,N(w)表示文章内容中含有词w的媒体号总数;
S4、计算媒体号语义向量:对于媒体号Mj,利用TF‐IDF模型对其词向量加权,得到媒体号的语义向量Sj;计算方法如下:
其中vw为词w的词向量,count(w,Mj)代表词w在媒体号Mj的文章中出现的次数,|Mj|表示媒体号Mj文章的总词数;
S5、媒体号初筛:通过人工设定的筛选条件,初筛出一批待挑选的媒体号;
S6、计算关键词列表语义向量:对于长度为k的广告关键词列表L=[w1,w2,…,wk],其语义向量A计算方式为:
其中vw是词w的词向量;
S7、计算关键词列表语义向量A与初筛之后的媒体号语义向量Sj的相似度:
其中A·Sj表示两个向量的内积,为向量A的L2范数,为向量Sj的L2范数;
S8、基于语义的媒体号细筛选:综合步骤S7算出的相似度以及设定的筛选条件,利用预先设定的每个筛选条件的权重,算出最终的媒体匹配值,从高到低取前K个形成待选媒体号列表。
步骤S1中,所述媒体号的文章内容是通过网络爬虫和官方API爬取的。
所述步骤S1、S2、S3、S4是离线计算,定期更新即可;所述步骤S5、S6、S7、S8是在线计算,对每个新的广告推广实时自动推荐出待选媒体号列表。
步骤S5、S8中,所述筛选条件包括媒体号价位、档期、广告类别。
步骤S1中,所述自然语言处理工具包括OpenNLP、LTP。
本发明与现有技术相比,具有如下优点和有益效果:
将本发明应用在微信公众号投放的选号上,测试了5个广告。首先人工为每个广告选择了10个待选的公众号,然后应用该技术为每个广告自动选出前20个公众号。对比结果发现,人工选出的公众号80%被自动选出的前20个公众号覆盖,证明了该技术的有效性。
相比人工选号,本发明在5秒之内即可提供前20个待选公众号,速度大幅提升。
附图说明
图1为本发明所述一种基于语义分析的智能媒介推荐方法的流程图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
如图1,一种基于语义分析的智能媒介推荐方法的流程图,包含以下顺序的步骤:
(1)利用网络爬虫爬取微信10万个媒体号发布的文章内容。
(2)对每个媒体号,利用LTP‐Cloud工具包将其每篇文章分段、分句、分词。最终将这个媒体号的所有文章合并成一个大文章,文章中的每句是分完词的句子。
(3)使用gensim工具训练词向量模型,选取隐藏层大小为100,词的上下文窗口为5,负例样本数为5。
(4)计算每个词的逆文档频率(IDF),将上一步的词向量模型以及此步的IDF模型保存。
(5)计算媒体号文章语义向量。
(6)媒体号初筛。通过对媒体号价位、档期、广告类别等条件的选择,初筛出前50个待挑选的媒体号。
(7)计算关键词列表语义向量,与前50个媒体号的文章语义向量计算余弦相似度。
(8)给语义相似度、媒体号价位匹配度、档期匹配度设定权重,分别是0.6,0.2,0.2,算出最终的加权媒体匹配值,从高到低取前20个形成待选媒体号列表。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
Claims (4)
1.一种基于语义分析的智能媒介推荐方法,其特征在于,包含以下步骤:
S1、抓取媒体号的文章内容并进行预处理;所述预处理是对每个媒体号,利用自然语言处理工具将其每篇文章分句、分词,最终将这个媒体号的所有文章合并成一个大文章,文章中的每句是分完词的句子;
S2、使用gensim工具训练词向量模型;
采用基于Negative Sampling的CBOW模型训练词向量,给定语料库C,词w的上下文是Context(w),词w为正样本,其他词则为负样本;负样本子集NEG(w)包含若干负样本,对于定义损失函数
整体的目标函数Obj定义为:
其中σ(·)为sigmoid函数,T为转置运算符号,xw表示Context(w)中各词的词向量之和,即其中表示词的词向量;θu表示词u对应的一个辅助向量,为待训练参数;词向量和辅助向量都是长度为m的实数向量;利用梯度上升方法对上述目标函数进行优化,从而训练出语料库中每个词的词向量;
S3、计算每个词的逆文档频率IDF,对于词w来说,
其中N代表媒体号的总数,N(w)表示文章内容中含有词w的媒体号总数;
S4、计算媒体号语义向量:对于媒体号Mj,利用TF-IDF模型对其词向量加权,得到媒体号的语义向量Sj;计算方法如下:
其中vw为词w的词向量,count(w,Mj)代表词w在媒体号Mj的文章中出现的次数,|Mj|表示媒体号Mj文章的总词数;
S5、媒体号初筛:通过人工设定的筛选条件,初筛出一批待挑选的媒体号;所述筛选条件包括媒体号价位、档期、广告类别;
S6、计算关键词列表语义向量:对于长度为k的广告关键词列表L=[w1,w2,...,wk],其语义向量A计算方式为:
其中vw是词w的词向量;
S7、计算关键词列表语义向量A与初筛之后的媒体号语义向量Sj的相似度:
其中A·Sj表示两个向量的内积,为向量A的L2范数,为向量Sj的L2范数;
S8、基于语义的媒体号细筛选:综合步骤S7算出的相似度以及设定的筛选条件,利用预先设定的每个筛选条件的权重,算出最终的媒体匹配值,从高到低取前K个形成待选媒体号列表;
所述筛选条件包括媒体号价位、档期、广告类别。
2.根据权利要求1所述基于语义分析的智能媒介推荐方法,其特征在于,步骤S1中,所述媒体号的文章内容是通过网络爬虫和官方API爬取的。
3.根据权利要求1所述基于语义分析的智能媒介推荐方法,其特征在于,所述步骤S1、S2、S3、S4是离线计算,定期更新即可;所述步骤S5、S6、S7、S8是在线计算,对每个新的广告推广实时自动推荐出待选媒体号列表。
4.根据权利要求1所述基于语义分析的智能媒介推荐方法,其特征在于,步骤S1中,所述自然语言处理工具包括OpenNLP、LTP。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710304364.2A CN107133315B (zh) | 2017-05-03 | 2017-05-03 | 一种基于语义分析的智能媒介推荐方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710304364.2A CN107133315B (zh) | 2017-05-03 | 2017-05-03 | 一种基于语义分析的智能媒介推荐方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107133315A CN107133315A (zh) | 2017-09-05 |
CN107133315B true CN107133315B (zh) | 2018-09-28 |
Family
ID=59715475
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710304364.2A Active CN107133315B (zh) | 2017-05-03 | 2017-05-03 | 一种基于语义分析的智能媒介推荐方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107133315B (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107305543B (zh) * | 2016-04-22 | 2021-05-11 | 富士通株式会社 | 对实体词的语义关系进行分类的方法和装置 |
CN110020110B (zh) * | 2017-09-15 | 2023-04-07 | 腾讯科技(北京)有限公司 | 媒体内容推荐方法、装置及存储介质 |
CN108170665B (zh) * | 2017-11-29 | 2021-06-04 | 有米科技股份有限公司 | 基于综合相似度的关键词拓展方法和装置 |
CN107992596B (zh) * | 2017-12-12 | 2021-05-18 | 百度在线网络技术(北京)有限公司 | 一种文本聚类方法、装置、服务器和存储介质 |
CN108829822B (zh) * | 2018-06-12 | 2023-10-27 | 腾讯科技(深圳)有限公司 | 媒体内容的推荐方法和装置、存储介质、电子装置 |
CN110020189A (zh) * | 2018-06-29 | 2019-07-16 | 武汉掌游科技有限公司 | 一种基于中文相似性计算的文章推荐方法 |
TWI676110B (zh) * | 2018-08-21 | 2019-11-01 | 良知股份有限公司 | 以讀者為中心進行文章分析的語意特徵分析系統 |
CN111275496B (zh) * | 2020-02-24 | 2023-05-30 | 北京头条易科技有限公司 | 一种自媒体广告智能推荐方法 |
CN118349584A (zh) * | 2024-04-26 | 2024-07-16 | 工业和信息化部人才交流中心 | 一种基于人才大数据分析的专家库管理系统及方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7567958B1 (en) * | 2000-04-04 | 2009-07-28 | Aol, Llc | Filtering system for providing personalized information in the absence of negative data |
CN103778260A (zh) * | 2014-03-03 | 2014-05-07 | 哈尔滨工业大学 | 一种个性化微博信息推荐系统和方法 |
-
2017
- 2017-05-03 CN CN201710304364.2A patent/CN107133315B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN107133315A (zh) | 2017-09-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107133315B (zh) | 一种基于语义分析的智能媒介推荐方法 | |
Sudirjo et al. | The Application of Extended Expectation-Confirmation Model to Identify Influencing Factors Digital Loyalty for Mobile-Based Travel Platform | |
Kovacova et al. | Behavioral analytics, immersive technologies, and machine vision algorithms in the Web3-powered Metaverse world | |
CN107944911B (zh) | 一种基于文本分析的推荐系统的推荐方法 | |
CN109255651A (zh) | 一种基于大数据的搜索广告转化智能预测方法 | |
CN105678587A (zh) | 一种推荐特征确定方法、信息推荐方法及装置 | |
WO2008112033A1 (en) | Ad performance optimization for rich media content | |
CN108230050A (zh) | 广告投放方法及系统 | |
CN108415961A (zh) | 一种广告图片推荐方法及装置 | |
CN103246991A (zh) | 一种基于数据挖掘的客户关系管理方法和系统 | |
CN105740382A (zh) | 一种对短评论文本进行方面分类方法 | |
KR101441164B1 (ko) | 오브젝트 커스터마이제이션 및 관리 시스템 | |
CN101359997A (zh) | 一种自动计算网络广告等级并显示广告的方法 | |
TWM546531U (zh) | 文字探勘衡量系統 | |
CN115345681A (zh) | 一种基于人工智能的大市场精准营销算法及系统 | |
JP7012892B1 (ja) | 情報処理装置、情報処理方法および情報処理プログラム | |
CN114549035A (zh) | 一种基于电信大数据的理财用户精准获客标签构建方法 | |
CN114493724A (zh) | 一种基于多任务学习的竞价关键词效果预估模型构建方法 | |
CN113254775A (zh) | 一种基于客户浏览行为序列的信用卡产品推荐方法 | |
CN107688956A (zh) | 一种信息处理方法及服务器 | |
CN115618871A (zh) | 商户文本的识别方法、装置、设备和存储介质 | |
CN110442767A (zh) | 一种确定内容互动平台标签的方法、装置及可读存储介质 | |
Mandegari et al. | Identifying Factors Affecting the Acceptance of Mobile Marketing Activities by Customers Using a Meta-Synthesis Approach | |
CN109325186B (zh) | 一种用户偏好与地理特征融合的行为动机推断算法 | |
CN117611255B (zh) | 基于大数据的广告运营方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |