CN107133315B - 一种基于语义分析的智能媒介推荐方法 - Google Patents

一种基于语义分析的智能媒介推荐方法 Download PDF

Info

Publication number
CN107133315B
CN107133315B CN201710304364.2A CN201710304364A CN107133315B CN 107133315 B CN107133315 B CN 107133315B CN 201710304364 A CN201710304364 A CN 201710304364A CN 107133315 B CN107133315 B CN 107133315B
Authority
CN
China
Prior art keywords
media
word
vector
semantic
article
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710304364.2A
Other languages
English (en)
Other versions
CN107133315A (zh
Inventor
李百川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Umi-Tech Co Ltd
Original Assignee
Umi-Tech Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Umi-Tech Co Ltd filed Critical Umi-Tech Co Ltd
Priority to CN201710304364.2A priority Critical patent/CN107133315B/zh
Publication of CN107133315A publication Critical patent/CN107133315A/zh
Application granted granted Critical
Publication of CN107133315B publication Critical patent/CN107133315B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0251Targeted advertisements

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Development Economics (AREA)
  • Mathematical Physics (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • Strategic Management (AREA)
  • Computational Linguistics (AREA)
  • Game Theory and Decision Science (AREA)
  • General Business, Economics & Management (AREA)
  • Health & Medical Sciences (AREA)
  • Marketing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于语义分析的智能媒介推荐方法,包含以下步骤:抓取媒体号的文章内容并进行预处理;训练词向量模型;计算每个词的逆文档频率;计算媒体号语义向量;媒体号初筛;计算关键词列表语义向量;计算关键词列表语义向量A与初筛之后的媒体号语义向量Sj的余弦相似度;基于语义的媒体号细筛选。本发明据广告主的关键词和预算,利用语义分析技术自动筛选出适合投放的媒体号,精准触达用户群。

Description

一种基于语义分析的智能媒介推荐方法
技术领域
本发明涉及广告领域,特别涉及一种基于语义分析的智能媒介推荐方法。
背景技术
数字营销市场发生了巨变,程序化购买飞速发展,在这样的环境下,实现广告的精准投放成为越来越多品牌主的首要需求。在稳中求进的经济环境下,广告投放必然更需要深思熟虑,力求达到更高的投入产出比。
例如权威数据营销技术公司AdMaster推出的《2017年数字营销趋势报告》,为广告主和市场从业人员提供了投放建议。在该报告中,2017年数字营销花费预计平均增长17%,投放进一步倾斜移动端:根据AdMaster数据显示,80%以上的广告主表示将在2017年继续增加数字营销领域的预算,平均预算的增长量为17%,其中预算增长量预计达到10%以上的品牌达59%,发展态势积极,仅有3%的广告主表示将缩减预算。在营销预算分配上,广告主一致同意向移动端倾斜将是2017年的一大趋势,87%的广告主表示明年将进一步增加移动营销预算。相反,PC端的投放趋势则逐年走低,约六成品牌主选择减少投放甚至不投放。
目前媒介环境越来越碎片化,消费者可选择的平台、消费行为都越来越多元化。品牌主在投放广告时,需要通过不同渠道、终端、区域和平台之间进行组合,以此实现投放收益最大化。
而无论是投放在移动端还是PC端,常常都会采用以下两种方法之一:
(1)人工选号。平台明码实价的标明媒体号的价格,提供媒体号的相关信息,如粉丝数、阅读数、媒体类别、价格等信息,任广告主自主在平台进行挑选。
(2)公开竞价。广告主将投放的广告素材、关键词、投放时间、投放价格等公开放在广告平台上,由媒体号来竞标。
对于人工选号,尽管广告平台提供了专业运营人员辅助选号,但由于媒体号众多,分布较散,往往很多广告主都无法挑选到合适的媒体号;对于公开竞价,需要媒体号主动竞标,效率不高。
同时社媒广告平台提供在微信公众号、微博大V等社交媒体账号上进行广告投放的服务。在社媒平台投放广告中重要的步骤是选择合适的账号(选号)作为投放媒体。目前市场上绝大多数平台都是明码实价的标明媒体号的价格,提供媒体号的相关信息,如粉丝数、阅读数、媒体类别、价格等信息,任广告主自主在平台进行挑选,尽管广告平台提供了人工辅助选号的功能,但往往很多广告主都无法挑选到合适的媒体号。
因此有必要提供一种新的媒介推荐方法来解决上述问题。
发明内容
本发明的目的在于克服现有技术的缺点与不足,提供一种基于语义分析的智能媒介推荐方法,其根据广告主的关键词和预算,利用语义分析技术自动筛选出适合投放的媒体号,精准触达用户群。
本发明的目的通过以下的技术方案实现:
一种基于语义分析的智能媒介推荐方法,包含以下步骤:
S1、抓取媒体号的文章内容并进行预处理;所述预处理是对每个媒体号,利用自然语言处理工具将其每篇文章分句、分词,最终将这个媒体号的所有文章合并成一个大文章,文章中的每句是分完词的句子;
S2、使用gensim工具训练词向量模型;
采用基于Negative Sampling的CBOW模型训练词向量,给定语料库C,词w的上下文是Context(w),词w为正样本,其他词则为负样本;负样本子集NEG(w)包含若干负样本,对于(即对于任意属于语料库C的词),定义损失函数:
整体的目标函数Obj定义为:
其中σ(·)为sigmoid函数,T为转置运算符号,xw表示Context(w)中各词的词向量之和,即其中表示词的词向量;θu表示词u对应的一个辅助向量,为待训练参数;词向量和辅助向量都是长度为m的实数向量;利用梯度上升方法对上述目标函数进行优化,从而训练出语料库中每个词的词向量;
S3、计算每个词的逆文档频率IDF,对于词w来说,
其中N代表媒体号的总数,N(w)表示文章内容中含有词w的媒体号总数;
S4、计算媒体号语义向量:对于媒体号Mj,利用TF‐IDF模型对其词向量加权,得到媒体号的语义向量Sj;计算方法如下:
其中vw为词w的词向量,count(w,Mj)代表词w在媒体号Mj的文章中出现的次数,|Mj|表示媒体号Mj文章的总词数;
S5、媒体号初筛:通过人工设定的筛选条件,初筛出一批待挑选的媒体号;
S6、计算关键词列表语义向量:对于长度为k的广告关键词列表L=[w1,w2,…,wk],其语义向量A计算方式为:
其中vw是词w的词向量;
S7、计算关键词列表语义向量A与初筛之后的媒体号语义向量Sj的相似度:
其中A·Sj表示两个向量的内积,为向量A的L2范数,为向量Sj的L2范数;
S8、基于语义的媒体号细筛选:综合步骤S7算出的相似度以及设定的筛选条件,利用预先设定的每个筛选条件的权重,算出最终的媒体匹配值,从高到低取前K个形成待选媒体号列表。
步骤S1中,所述媒体号的文章内容是通过网络爬虫和官方API爬取的。
所述步骤S1、S2、S3、S4是离线计算,定期更新即可;所述步骤S5、S6、S7、S8是在线计算,对每个新的广告推广实时自动推荐出待选媒体号列表。
步骤S5、S8中,所述筛选条件包括媒体号价位、档期、广告类别。
步骤S1中,所述自然语言处理工具包括OpenNLP、LTP。
本发明与现有技术相比,具有如下优点和有益效果:
将本发明应用在微信公众号投放的选号上,测试了5个广告。首先人工为每个广告选择了10个待选的公众号,然后应用该技术为每个广告自动选出前20个公众号。对比结果发现,人工选出的公众号80%被自动选出的前20个公众号覆盖,证明了该技术的有效性。
相比人工选号,本发明在5秒之内即可提供前20个待选公众号,速度大幅提升。
附图说明
图1为本发明所述一种基于语义分析的智能媒介推荐方法的流程图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
如图1,一种基于语义分析的智能媒介推荐方法的流程图,包含以下顺序的步骤:
(1)利用网络爬虫爬取微信10万个媒体号发布的文章内容。
(2)对每个媒体号,利用LTP‐Cloud工具包将其每篇文章分段、分句、分词。最终将这个媒体号的所有文章合并成一个大文章,文章中的每句是分完词的句子。
(3)使用gensim工具训练词向量模型,选取隐藏层大小为100,词的上下文窗口为5,负例样本数为5。
(4)计算每个词的逆文档频率(IDF),将上一步的词向量模型以及此步的IDF模型保存。
(5)计算媒体号文章语义向量。
(6)媒体号初筛。通过对媒体号价位、档期、广告类别等条件的选择,初筛出前50个待挑选的媒体号。
(7)计算关键词列表语义向量,与前50个媒体号的文章语义向量计算余弦相似度。
(8)给语义相似度、媒体号价位匹配度、档期匹配度设定权重,分别是0.6,0.2,0.2,算出最终的加权媒体匹配值,从高到低取前20个形成待选媒体号列表。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (4)

1.一种基于语义分析的智能媒介推荐方法,其特征在于,包含以下步骤:
S1、抓取媒体号的文章内容并进行预处理;所述预处理是对每个媒体号,利用自然语言处理工具将其每篇文章分句、分词,最终将这个媒体号的所有文章合并成一个大文章,文章中的每句是分完词的句子;
S2、使用gensim工具训练词向量模型;
采用基于Negative Sampling的CBOW模型训练词向量,给定语料库C,词w的上下文是Context(w),词w为正样本,其他词则为负样本;负样本子集NEG(w)包含若干负样本,对于定义损失函数
整体的目标函数Obj定义为:
其中σ(·)为sigmoid函数,T为转置运算符号,xw表示Context(w)中各词的词向量之和,即其中表示词的词向量;θu表示词u对应的一个辅助向量,为待训练参数;词向量和辅助向量都是长度为m的实数向量;利用梯度上升方法对上述目标函数进行优化,从而训练出语料库中每个词的词向量;
S3、计算每个词的逆文档频率IDF,对于词w来说,
其中N代表媒体号的总数,N(w)表示文章内容中含有词w的媒体号总数;
S4、计算媒体号语义向量:对于媒体号Mj,利用TF-IDF模型对其词向量加权,得到媒体号的语义向量Sj;计算方法如下:
其中vw为词w的词向量,count(w,Mj)代表词w在媒体号Mj的文章中出现的次数,|Mj|表示媒体号Mj文章的总词数;
S5、媒体号初筛:通过人工设定的筛选条件,初筛出一批待挑选的媒体号;所述筛选条件包括媒体号价位、档期、广告类别;
S6、计算关键词列表语义向量:对于长度为k的广告关键词列表L=[w1,w2,...,wk],其语义向量A计算方式为:
其中vw是词w的词向量;
S7、计算关键词列表语义向量A与初筛之后的媒体号语义向量Sj的相似度:
其中A·Sj表示两个向量的内积,为向量A的L2范数,为向量Sj的L2范数;
S8、基于语义的媒体号细筛选:综合步骤S7算出的相似度以及设定的筛选条件,利用预先设定的每个筛选条件的权重,算出最终的媒体匹配值,从高到低取前K个形成待选媒体号列表;
所述筛选条件包括媒体号价位、档期、广告类别。
2.根据权利要求1所述基于语义分析的智能媒介推荐方法,其特征在于,步骤S1中,所述媒体号的文章内容是通过网络爬虫和官方API爬取的。
3.根据权利要求1所述基于语义分析的智能媒介推荐方法,其特征在于,所述步骤S1、S2、S3、S4是离线计算,定期更新即可;所述步骤S5、S6、S7、S8是在线计算,对每个新的广告推广实时自动推荐出待选媒体号列表。
4.根据权利要求1所述基于语义分析的智能媒介推荐方法,其特征在于,步骤S1中,所述自然语言处理工具包括OpenNLP、LTP。
CN201710304364.2A 2017-05-03 2017-05-03 一种基于语义分析的智能媒介推荐方法 Active CN107133315B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710304364.2A CN107133315B (zh) 2017-05-03 2017-05-03 一种基于语义分析的智能媒介推荐方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710304364.2A CN107133315B (zh) 2017-05-03 2017-05-03 一种基于语义分析的智能媒介推荐方法

Publications (2)

Publication Number Publication Date
CN107133315A CN107133315A (zh) 2017-09-05
CN107133315B true CN107133315B (zh) 2018-09-28

Family

ID=59715475

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710304364.2A Active CN107133315B (zh) 2017-05-03 2017-05-03 一种基于语义分析的智能媒介推荐方法

Country Status (1)

Country Link
CN (1) CN107133315B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107305543B (zh) * 2016-04-22 2021-05-11 富士通株式会社 对实体词的语义关系进行分类的方法和装置
CN110020110B (zh) * 2017-09-15 2023-04-07 腾讯科技(北京)有限公司 媒体内容推荐方法、装置及存储介质
CN108170665B (zh) * 2017-11-29 2021-06-04 有米科技股份有限公司 基于综合相似度的关键词拓展方法和装置
CN107992596B (zh) * 2017-12-12 2021-05-18 百度在线网络技术(北京)有限公司 一种文本聚类方法、装置、服务器和存储介质
CN108829822B (zh) * 2018-06-12 2023-10-27 腾讯科技(深圳)有限公司 媒体内容的推荐方法和装置、存储介质、电子装置
CN110020189A (zh) * 2018-06-29 2019-07-16 武汉掌游科技有限公司 一种基于中文相似性计算的文章推荐方法
TWI676110B (zh) * 2018-08-21 2019-11-01 良知股份有限公司 以讀者為中心進行文章分析的語意特徵分析系統
CN111275496B (zh) * 2020-02-24 2023-05-30 北京头条易科技有限公司 一种自媒体广告智能推荐方法
CN118349584A (zh) * 2024-04-26 2024-07-16 工业和信息化部人才交流中心 一种基于人才大数据分析的专家库管理系统及方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7567958B1 (en) * 2000-04-04 2009-07-28 Aol, Llc Filtering system for providing personalized information in the absence of negative data
CN103778260A (zh) * 2014-03-03 2014-05-07 哈尔滨工业大学 一种个性化微博信息推荐系统和方法

Also Published As

Publication number Publication date
CN107133315A (zh) 2017-09-05

Similar Documents

Publication Publication Date Title
CN107133315B (zh) 一种基于语义分析的智能媒介推荐方法
Sudirjo et al. The Application of Extended Expectation-Confirmation Model to Identify Influencing Factors Digital Loyalty for Mobile-Based Travel Platform
Kovacova et al. Behavioral analytics, immersive technologies, and machine vision algorithms in the Web3-powered Metaverse world
CN107944911B (zh) 一种基于文本分析的推荐系统的推荐方法
CN109255651A (zh) 一种基于大数据的搜索广告转化智能预测方法
CN105678587A (zh) 一种推荐特征确定方法、信息推荐方法及装置
WO2008112033A1 (en) Ad performance optimization for rich media content
CN108230050A (zh) 广告投放方法及系统
CN108415961A (zh) 一种广告图片推荐方法及装置
CN103246991A (zh) 一种基于数据挖掘的客户关系管理方法和系统
CN105740382A (zh) 一种对短评论文本进行方面分类方法
KR101441164B1 (ko) 오브젝트 커스터마이제이션 및 관리 시스템
CN101359997A (zh) 一种自动计算网络广告等级并显示广告的方法
TWM546531U (zh) 文字探勘衡量系統
CN115345681A (zh) 一种基于人工智能的大市场精准营销算法及系统
JP7012892B1 (ja) 情報処理装置、情報処理方法および情報処理プログラム
CN114549035A (zh) 一种基于电信大数据的理财用户精准获客标签构建方法
CN114493724A (zh) 一种基于多任务学习的竞价关键词效果预估模型构建方法
CN113254775A (zh) 一种基于客户浏览行为序列的信用卡产品推荐方法
CN107688956A (zh) 一种信息处理方法及服务器
CN115618871A (zh) 商户文本的识别方法、装置、设备和存储介质
CN110442767A (zh) 一种确定内容互动平台标签的方法、装置及可读存储介质
Mandegari et al. Identifying Factors Affecting the Acceptance of Mobile Marketing Activities by Customers Using a Meta-Synthesis Approach
CN109325186B (zh) 一种用户偏好与地理特征融合的行为动机推断算法
CN117611255B (zh) 基于大数据的广告运营方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant