CN113361911A - 一种基于资产风控的新媒体内容投放方法及设备 - Google Patents
一种基于资产风控的新媒体内容投放方法及设备 Download PDFInfo
- Publication number
- CN113361911A CN113361911A CN202110623206.XA CN202110623206A CN113361911A CN 113361911 A CN113361911 A CN 113361911A CN 202110623206 A CN202110623206 A CN 202110623206A CN 113361911 A CN113361911 A CN 113361911A
- Authority
- CN
- China
- Prior art keywords
- data
- new media
- enterprise
- media
- self
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000002716 delivery method Methods 0.000 title claims abstract description 12
- 238000012384 transportation and delivery Methods 0.000 claims abstract description 61
- 239000011159 matrix material Substances 0.000 claims abstract description 55
- 238000000034 method Methods 0.000 claims abstract description 42
- 238000013439 planning Methods 0.000 claims abstract description 32
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 8
- 238000012549 training Methods 0.000 claims description 49
- 238000010801 machine learning Methods 0.000 claims description 24
- 230000011218 segmentation Effects 0.000 claims description 22
- 230000008451 emotion Effects 0.000 claims description 20
- 238000007726 management method Methods 0.000 claims description 17
- 238000012360 testing method Methods 0.000 claims description 15
- 238000004458 analytical method Methods 0.000 claims description 14
- 230000002996 emotional effect Effects 0.000 claims description 14
- 238000003860 storage Methods 0.000 claims description 12
- 230000009471 action Effects 0.000 claims description 8
- 238000012545 processing Methods 0.000 claims description 5
- 238000010276 construction Methods 0.000 claims description 4
- 238000007781 pre-processing Methods 0.000 claims description 4
- 238000003058 natural language processing Methods 0.000 claims description 3
- 238000005457 optimization Methods 0.000 claims description 3
- 238000003062 neural network model Methods 0.000 claims description 2
- 230000000694 effects Effects 0.000 abstract description 8
- 230000008901 benefit Effects 0.000 abstract description 7
- 238000012954 risk control Methods 0.000 abstract 2
- 230000007246 mechanism Effects 0.000 description 11
- 238000004364 calculation method Methods 0.000 description 10
- 230000002354 daily effect Effects 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 238000004590 computer program Methods 0.000 description 4
- 238000012544 monitoring process Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000007480 spreading Effects 0.000 description 3
- 238000003892 spreading Methods 0.000 description 3
- 230000003993 interaction Effects 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 238000012163 sequencing technique Methods 0.000 description 2
- 239000013598 vector Substances 0.000 description 2
- 101100264174 Mus musculus Xiap gene Proteins 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000002407 reforming Methods 0.000 description 1
- 230000002040 relaxant effect Effects 0.000 description 1
- 230000003442 weekly effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0635—Risk analysis of enterprise or organisation activities
Landscapes
- Business, Economics & Management (AREA)
- Engineering & Computer Science (AREA)
- Human Resources & Organizations (AREA)
- Theoretical Computer Science (AREA)
- Economics (AREA)
- Entrepreneurship & Innovation (AREA)
- Strategic Management (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Tourism & Hospitality (AREA)
- Software Systems (AREA)
- Quality & Reliability (AREA)
- Marketing (AREA)
- Game Theory and Decision Science (AREA)
- General Business, Economics & Management (AREA)
- Educational Administration (AREA)
- Development Economics (AREA)
- Operations Research (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及新媒体内容投放,更具体的说是一种基于资产风控的新媒体内容投放方法及设备,该方法包括以下步骤:获取企业的财务数据、新媒体舆情数据和交易数据;对财务数据和交易数据进行预处理,对新媒体数据按照来源和事件主体进行归类,构建企业新媒体流量矩阵;使用DBSCAN聚类算法确定新媒体流量矩阵中各元素对企业风险水平和企业营收的影响力度可以对新媒体内容与企业财务数据和市值数据进行整合,能够更为有效地确认当前企业在面临新媒体内容时可能面临的风险和收益水平;根据影响权重矩阵构建基于企业内容投放要求的规划问题,求解得到最优可行方案,并通过投放模块实施新媒体内容投放,以达到资产风控的效果。
Description
技术领域
本发明涉及新媒体内容投放,更具体的说是一种基于资产风控的新媒体内容投放方法及设备。
背景技术
新媒体主要是指利用数字技术、网络技术,通过互联网、宽带局域网、无线通信网、卫星等道,以及电脑、手机、数字电视机等终端,向用户提供信息和娱乐服务的传播形态。由于新媒体与公众举例更近,且内容筛选更聚焦大众需求,因而,新媒体中的企业舆情在传播效率和影响能力都较传统媒体时代有显著提升。近年来,新媒体中的企业舆情监控对企业公共关系部门的重要性不断提高,为企业市场营销、品牌塑造、危机应对和市值管理等均具有重要意义。
当前,企业基于自身利益诉求,需要为企业公开信息、营销内容妥善安排内容渠道。因而,本文结合企业主要关注的市值风险,企业需要识别舆情内容投放对市值风险的影响管控,以达成企业在预期成本下能达到的最优投放效果。
尽管,已有的舆情监测系统产品能够实现数据采集、内容存储和查询以及基于自然语言处理技术的基本分析,其提出的分析成果,包含:情绪水平、话题声量、话题生命等,但其成果由于缺乏基于金融学和传播学的理论支撑,难以基于企业市值管理的需求为企业管理者提供在内容投放领域上有针对性的建议。
发明内容
本发明的目的是提供一种基于资产风控的新媒体内容投放方法及设备,能够实现对企业新媒体舆情数据的采集、归纳以及潜在投放风险识别;从而为企业提供基于市值风险考量的企业信息披露建议,更好、更有效地辅助企业完成新媒体内容投放。
本发明的目的通过以下技术方案来实现:
一种基于资产风控的新媒体内容投放方法,该方法包括以下步骤:
步骤一:从服务器获得企业的财务数据、新媒体舆情数据和交易数据;
步骤二:按照企业风控需求设定日市值波动的安全范围,标注企业市值风险;若,市值波动在安全范围内设为1,反之则为0。对财务数据和交易数据进行预处理,对新媒体舆情数据按照来源和事件主体进行归纳,并对舆情数据进行预处理;进而,计算各类舆情内容的流量并依据情感词汇本体库计算内容对应的细粒度情感强度,细粒度情感如好、乐、哀、怒、惊、惧、悲,整合各类型内容流量和情感强度构建企业新媒体流量矩阵;将标注后的企业市值风险水平、财务数据、交易数据及新媒体流量矩阵所对应的流量及情感数据整合成为资产风控数据集,其中包括训练集和测试集;将训练集输入套索回归LASSO进行训练。确定各类数据来源传播在传播不同企业内容时对企业市值风险水平的影响权重,尤其关注自媒体渠道的权重效果。
步骤三:输入通过机器学习算法确定新媒体流量矩阵中各元素对企业风险水平和企业营收的影响力度、以及各类媒体对应的投放成本和投放活动对企业带来的固定效益影响,构建内容投放的线性规划目标及约束,得到企业内容投放策略。
步骤一中,对财务数据和交易数据进行的预处理操作包括:
对企业的财务数据按照企业财务季度完成更新入库,其中包含企业的操控性应计项目数量、总资产收益率、公司资产规模、雇员数量、产权性质、流动负债等关键指标。
对企业的交易数据分别按天完成更新入库,其中包括企业市值、换手率、日收益率等关键指标。
按天对数据进行重整,对缺失数据采用滑动平均法进行填充,按照财务数据特征和交易数据特征构建多维特征向量m=<f1,f2,f3,...,fN1,t1,t2,t3,...,tN2>,其中f对应财务数据指标,对应N1个维度;t对应交易数据指标,对应N2个维度。
步骤二中,依据系统自建的主体来源库对每日新媒体舆情数据的来源进行核实,对应舆情数据将数据来源归纳为以下六类:官媒、主流商业媒体、有影响力的财经自媒体、有影响力的产品相关自媒体、其他高影响力其他自媒体以及普通自媒体;
自媒体影响力得分按照粉丝数、内容更新频率、内容平均阅读量等指标进行打分取得;
官媒对应以《中国证券报》、《证券日报》、《证券时报》、《上海证券报》为代表的由官方控制的媒体,其新媒体数据对应上述机构及其旗下机构运营的媒体账号。
主流商业媒体对应《中国经营报》、《第一财经日报》、《经济观察报》、《21世纪经济报道》等以市场导向型的媒体,其新媒体数据对应上述机构及其旗下机构运营的媒体账号。
其他媒体账号对应自媒体账号,其中包含企业自营的媒体账号。
对新媒体数据进行去除停用词并进行分词,按照分词结果对舆情对应主要事件归纳至企业业绩与财务分析;高管及主要人员行动和企业营销业务三类,集合来源划分结果,完成新媒体流量矩阵的构建。同时,对分词中出现的新词汇重新整理,更新事件主体对应的词库。
对归化在矩阵中各个子集的新媒体舆情数据的流量进行计算,并利用自然语言处理方法确定各个子集的各类情绪倾向占比,将上述数据按照从主体来源到事件主体,从流量到流量对应的各类情绪占比的顺序进行入库。
进一步的,对上述技术方案进一步描述,对库内的财务数据、交易数据和新媒体流量矩阵对应的数据分为训练集和测试集。采用市值风险测度,如企业股价崩盘风险等作为训练目标1。采用季度营收水平,如企业销售收入等作为训练目标2。使用机器学习算法对训练集进行训练,在保证测试集性能的前提下,确定新媒体流量矩阵中各元素对企业风险水平和企业营收的影响力度。
事件主体类别所对应关键词的确认包括如下计算步骤:
步骤一:针对企业业绩和财务分析类别内的关键词,由上市公司季报、年报文本中财务信息对应的关键词构成;
步骤二:针对高管及主要人员行动的关键词,对应上市公司季报、年报中公布的企业高层管理人员、董事会成员等企业主要人员;
步骤三:针对企业营销业务的关键词,由上市公司季报、年报中为企业带来营业收入的关键产品和业务构成。
进一步的,对上述技术方案进一步描述,其中对应新媒体舆情数据,数据来源对应以下六类:官媒、主流商业媒体、有影响力的财经自媒体、有影响力的产品相关自媒体、其他高影响力其他自媒体以及普通自媒体,自媒体影响力得分按照粉丝数、内容更新频率、内容平均阅读量等指标进行打分取得;
自媒体影响力的计算步骤包括:
步骤一:根据自媒体名称对其在各新媒体平台的粉丝数量逐日进行更新。
步骤二:结合同名自媒体在各新媒体内的账号群体计算其每日对应的各平台更新频率和最近一周更新内容的平均阅读量;
步骤三:对更新内容按照体裁即文本、音频和视频三类进行归纳,计算其每日更新的数量,构建影响力的特征向量如下:
mediai,t=<fansi,t,frequencyi,t,ave_volumei,t,text_frequencyi,t,audio_frequencyi,t,video_frequencyi,t>
其中i对应企业,t对应时间更新频率;
步骤四:基于上述指标,采用DBSCAN聚类算法,按照特征分布的密度,将自媒体划分为2类,包含较高粉丝数量、更新频率较高且对应高阅读量的账号对应高影响力类别,反之则为低影响力类别。
自媒体是否属于高影响力的财经自媒体的计算步骤包括:
步骤一:对归属于高影响力类别的自媒体最近一个月的内容进行归纳,去除停用词并进行分词。
步骤二:对内容的分词结果中关键词中包含企业业绩与财务分析词库关键词进行比对。若重合的关键词数目超过自媒体内容分词结果关键词数量的20%,且重合的关键词总数超过自媒体内容分词总词频的10%,则定义该自媒体为财经类别的自媒体。
步骤三:对所有自媒体是否处于财经类别,按照上述流程逐月进行更新。
自媒体是否属于有影响力的产品相关自媒体的计算步骤包括:
步骤一:对归属于高影响力类别的自媒体最近一个月的内容进行归纳,去除停用词并进行分词。
步骤二:对内容的分词结果中关键词中包含企业主营业务及相关产品的关键词进行比对。若重合的关键词数目超过自媒体内容分词结果关键词数量的20%,且重合的关键词总数超过自媒体内容分词总词频的5%,则定义该自媒体为产品相关的自媒体。
步骤三:对所有自媒体是否处于产品相关类别,按照上述流程逐月进行更新。
数据来源的更新包括如下计算步骤:
对数据采集过程中出现的新的自媒体账号,首先计算其自媒体影响力,若不符合高影响力类别,则仅将其归纳为普通自媒体;若符合高影响力类别,则将进一步判定其是否属于财经自媒体,若符合判定条件,则定义为高影响力财经自媒体,反之则进一步判定其是否属于产品相关有影响力的自媒体;均不符合,则定义为高影响力非财经自媒体。
新媒体数据归类包括如下计算步骤:
步骤一:对新媒体内容去除停用词,并进行分词。按照词频对分词结果进行排序。
步骤二:按照分词结果对归属于企业业绩和财务分析类别的关键词总数进行计算,定义其为L1。
步骤三:按照分词结果对归属于高管及主要人员行动的关键词总数进行计算,定义其为L2。
步骤四:按照分词结果对归属于企业营销业务的关键词总数进行计算,定义其为L3;
若L1、L2、L3均等于0,则该新媒体内容不属于任何类别,不划分到新媒体流量矩阵进行进一步运算。
若L1高于L2与L3之和,则认定该内容属于企业业绩与财务分析类别;同理,若L2高于L1与L3之和,则认定该内容属于高管及主要人员行动类别;若L3高于L1与L2之和,则认定该内容属于企业营销业务类别。
对新媒体数据中的词库构建包括如下计算步骤:
(1)基于证监会等其他监管机构发布的企业披露信息对应的政策与规范要求等文件构建媒体常用内容关键词库。针对企业业绩和财务分析类别内、高管及主要人员行动和企业营销业务的关键词,分别由上市公司季报和年报文本中财务信息对应的关键词、企业高层管理人员及董事会成员等企业主要人员对应的关键词和为企业带营业收入的关键产品和业务的关键词构成;
(2)对新媒体内容中出现的新名词,若出自证监会等其他监管机构发布的相关文件,则划归到企业业绩和财务分析类别。
(3)对企业公布的主要人员变更,将新人名划归到高管及主要人员类别,同时替换掉原职务对应人。
(4)对应企业营销业务的关键词,若新名词对应利益相关者对企业、主营业务和产品等的昵称、别称,如米哈游对应的“米忽悠”等,则直接扩充进企业营销业务类别对应的词库中。
对新媒体数据的情绪倾向占比包括如下计算步骤:
本文按照新媒体流量矩阵中的内容,顺序采用采用大连理工大学依据本土化要求开发的Ekman情感本体词库与分词后的各类情感词汇进行匹配,计算每个矩阵内元素各情感类别对应的情感词汇频数ei,j,k,其中ei,j,k∈E,i对应自媒体内容来源,j对应自媒体内容类别,k对应情感类型,应情感类型包含,好、乐、哀、怒、惊、惧、悲七种。
(2)将每一个矩阵内元素的各情感类别对应的情感词汇频数占对应内容的情感词汇总数的比例,取得每个矩阵内要素对应的情感强度edi,j,k,其中:
综上完成了对新媒体流量矩阵的构建。
企业股价崩盘风险的确定对应如下计算步骤:
本专利将市值风险的定义为股价崩盘风险,对应为周现金红利再投资收益率残差的负收益偏态系数值。
新媒体流量矩阵中各元素对企业风险影响作用的模型参数计算对应如下步骤:
利用所述每组企业样本数据中的财务数据、交易数据和新媒体流量矩阵对应的特征及所述的企业市值风险的数据标签,如企业股价崩盘风险,训练基于套索回归LASSO的机器学习模型方法,采取罚函数法以筛选关键特征,取得新媒体流量矩阵中各元素对企业风险水平的影响力度。
新媒体流量矩阵中各元素对企业营收影响作用的模型参数计算对应如下步骤:
利用所述每组企业样本数据中的财务数据、交易数据和新媒体流量矩阵对应的特征及所述的企业营收的数据标签,如企业营业收入,训练所述机器学习模型,取得新媒体流量矩阵中各元素对企业营收的影响力度。
企业新媒体影响作用的模型参数计算对应如下步骤:
基于企业内容投放要求,包括目标成本、最小化市值风险、最大化营收,实施对各类自媒体内容的进行规划,得到最优可行性方案。
进一步的,对上述技术方案进一步描述,其中官媒对应以《中国证券报》、《证券日报》、《证券时报》、《上海证券报》为代表的由官方控制的媒体,其新媒体数据对应上述机构及其旗下机构运营的媒体账号;
进一步的,对上述技术方案进一步描述,其中主流商业媒体对应《中国经营报》、《第一财经日报》、《经济观察报》、《21世纪经济报道》等以市场导向型的媒体,其新媒体数据对应上述机构及其旗下机构运营的媒体账号;其他媒体账号对应自媒体账号,其中包含企业自营的媒体账号。
进一步的,对上述技术方案进一步描述,对需要投放的企业内容进行分类,本文将其划分为以下三类:企业业绩和财务分析;高管及主要人员行动;企业营销业务。
进一步,步骤2中还包含对机器学习模型的训练。企业财务数据、交易数据及新媒体流量矩阵所对应的流量及情感数据用多维特征向量进行表示,采用套索回归(LASSO)。设定回归方程为对应的损失函数设置为选用LASSO回归,可以惩罚效用不足的特征,进而更为有效地筛选关键特征。当损失函数值降至最低时,获取模型对应系数β,作为新媒体流量矩阵中各要素影响能力的权重。
进一步的,基于企业内容投放要求,包括目标成本、最小化市值风险、最大化营收,实施对各类自媒体内容的规划求解,得到最优可行性方案。
企业内容投放获得效益可由式(1)表示:
π(X)=∑i(wixi-cixi)+f (1)
具体优化策略的制定需对以下优化问题进行建模求解:
s.t.C(x)=cixi≤cm
其中xi代表企业在第i个投放对象上的内容投放决策,wi代表在第i个投放对象上进行单位内容投放给企业带来的效益,ci代表企业在第i个投放对象上进行单位内容投放需要的成本,f为企业在进行内容投放活动对企业带来的固定效益,cm为企业设定的内容投放目标成本最大值。
本发明一种基于资产风控的新媒体内容投放方法及设备的有益效果为:
本发明一种基于资产风控的新媒体内容投放方法及设备,可以对新媒体内容与企业财务数据和市值数据进行整合,能够更为有效地确认当前企业在面临新媒体内容时可能面临的风险和收益水平;使用机器学习模型对新媒体内容矩阵中各类元素对风险和收益的作用进行确认,能够有效辅助企业做出决策;本发明中还具备规划功能,能够为企业在内容投放方面针对投放来源和主体做出有针对性的分析决策。
一种基于资产风控的新媒体内容投放设备,可以获取企业在当前时刻对应的财务数据、市值数据和企业对应的各类新媒体数据,然后对当前时刻所对应天的市值风险波动进行监测和管理,对是否需要进行内容投放进行策略规划,能够提高企业市值风险管理策略的有效性和可靠性。
一种基于资产风控的新媒体内容投放设备中的内容投放规划装置,可以应用于基于新媒体数据的企业市值风险管理中,对企业新媒体投放策略进行规划,并用于执行基于新媒体数据的企业市值风险管理的内容投放策略各步骤。
一种基于资产风控的新媒体内容投放方法及系统对应的可读存储介质,当计算机程序在计算机上运行时,计算机执行如基于新媒体数据的企业市值风险管理内容投放方法。
附图说明
下面结合附图和具体实施方法对本发明做进一步详细的说明。
图1是本发明的基于资产风控的新媒体内容投放设备结构示意图;
图2是本发明的基于资产风控的新媒体内容投放方法应用于电子设备中示意图;
图3是本发明的基于资产风控的新媒体内容投放设备中的内容投放规划装置示意图;
图中:电子设备10;处理模块11;存储模块12;内容投放规划装置100;获取单元110;训练单元120;规划单元130。
具体实施方式
下面结合附图1至3对本发明作进一步详细说明。
一种基于资产风控的新媒体内容投放设备,包括处理模块11和存储模块12,还包括固化在存储模块12中的内容投放规划装置100,存储模块12内存储计算机程序,当计算机程序被所述处理模块11执行时,使得电子设备10能够执行下述方法中的各步骤。
处理模块11和存储模块12各个元件之间直接或间接链接,以实现数据的传输或交互。例如,这些元件相互之间可通过多条通讯总线实施连接。
电子设备10还可以包括其他硬件模块、软件模块等。例如,电子设备10还可以包括通信模块,用于与其他设备建立通信连接以进行数据交互。另外,电子设备10还可以包括固化在存储模块12中的内容投放规划装置100。其中,电子设备10可以是但不限于服务器、个人电脑等设备,这里不作具体限定。
一种基于资产风控的新媒体内容投放设备,可以获取企业在当前时刻对应的财务数据、市值数据和企业对应的各类新媒体数据,然后对当前时刻所对应时段的市值风险和营收水平的影响进行预测。进一步使用规划方法,实现在预期成本下,达到营收水平最优化和市值风险最低化的投放要求,能够为企业提供最优化的新媒体内容投放方案。
一种基于资产风控的新媒体内容投放方法,可以应用于上述的基于资产风控的新媒体内容投放设备,即电子设备10中,由电子设备10执行或实现方法的各步骤。方法可以包括以下步骤:
步骤S210,获取训练数据集,所述训练数据集包括多组样本数据,每组样本数据包括与多个时间序列对应的企业财务数据、市值数据及新媒体数据,所述多组样本数据中的部分组样本数据的所述数据包括上述企业数据特征及历史数据中企业市值风险、企业营收标签;
步骤S220,利用所述训练数据集训练机器学习模型,得到经过训练的机器学习模型,取得新媒体流量矩阵中各元素对企业风险水平和企业营收的影响力度。
步骤S230,企业输入投放成本,以及各新媒体来源的投放成本和投放内容类型数据。结合有限成本、最小化市值风险、最大化营收的企业投放要求,对各类自媒体内容实施规划,得到最优可行性方案。
在上述的实施方式中,训练数据集的样本数据中,包括了已经发布在新媒体渠道所获取的企业舆情数据,如此,可以丰富样本数据的多样性和实时性,从而有利于准确估计新媒体流量矩阵中各元素对企业风险水平和企业营收的影响力度,逐步放宽对企业对专家知识的依赖程度。
下面将对方法的各步骤进行详细阐述,如下:
在步骤S210中,训练数据集为在对机器学习模型进行训练前准备的数据集。训练数据集可以存储在电子设备10中,或者,训练数据集存储在其他设备中,可以供电子设备10从其他设备获取。训练数据集所包括的样本组数的数量通常较大,可以根据实际情况进行设置。
步骤S220,利用所述训练数据集训练机器学习模型,得到经过训练索套LASSO模型,取得新媒体流量矩阵中各元素对企业风险水平和企业营收的影响力度。
步骤S230,企业根据企业资源约束输入投放成本,以及各新媒体来源的投放成本和投放内容类型数据,结合有限成本、最小化市值风险、最大化营收的企业投放要求,对各类自媒体内容设定具有成本约束的规划目标。输入新媒体流量矩阵,构建规划目标函数与约束矩阵。对该规划问题进行求解,得到最优可行性方案。
其中,在每组样本数据中,数据特征为采集网络在不同时间序列得到的企业市值、营收数据和新媒体内容数据。
其中,基于企业对应的新媒体数据构建新媒体流量矩阵,对新媒体内容去除停用词,并进行分词。按照词频对分词结果进行排序。按照分词结果对归属于企业业绩和财务分析类别的关键词总数进行计算,定义其为L1。按照分词结果对归属于高管及主要人员行动的关键词总数进行计算,定义其为L2。按照分词结果对归属于企业营销业务的关键词总数进行计算,定义其为L3。若L1、L2、L3均等于0,则该新媒体内容不属于任何类别,不划分到新媒体流量矩阵进行进一步运算。若L1高于L2与L3之和,则认定该内容属于企业业绩与财务分析类别;同理,若L2高于L1与L3之和,则认定该内容属于高管及主要人员行动类别;若L3高于L1与L2之和,则认定该内容属于企业营销业务类别。
对数据采集过程中出现的新的自媒体账号,首先计算其自媒体影响力,若不符合高影响力类别,则仅将其归纳为普通自媒体;若符合高影响力类别,则将进一步判定其是否属于财经自媒体,若符合判定条件,则定义为高影响力财经自媒体;若符合产品相关高影响新媒体,则定义为有影响力的产品相关自媒体;反之则定义为高影响力非财经自媒体。
对新媒体流量矩阵中每个元素所对应的文本数量和文本对应的情感倾向进行计算。顺序采用采用大连理工大学依据本土化要求开发的Ekman情感本体词库与分词后的各类情感词汇进行匹配,计算每个矩阵内元素各情感类别对应的情感词汇频数ei,j,k,其中ei,j,k∈E,i对应自媒体内容来源,j对应自媒体内容类别,k对应情感类型,应情感类型包含,好、乐、哀、怒、惊、惧、悲七种。将每一个矩阵内元素的各情感类别对应的情感词汇频数占对应内容的情感词汇总数的比例,取得每个矩阵内要素对应的情感强度edi,j,k,其中:
在本实施例中,步骤S210可以包括子步骤S211至子步骤S212,如下:
S211:从以指定采集频率采集得到的企业财务、市值与新媒体内容数据集中,通过滑动窗口获取多组数据,每组数据包括采集的时间序列连续的多个值;
S212:针对每组所述企业财务、市值与新媒体内容数据,当对应市值风险极高及营收阶跃的样本时,对这类样本进行过采样。
在本实施例中,电子设备10可以以指定采集频率,定时采集企业的市值数据和新媒体内容数据,形成企业财务、市值与新媒体内容数据集。其中,被采集的企业数量可以根据实际情况进行确定,可以为一个或多个关联企业。
在企业财务、市值与新媒体内容数据集中,企业市值和新媒体内容数据与相应的时间序列对应,该时间序列可理解为采集到企业市值和新媒体内容数据的时间戳。然后通过滑动窗口从企业财务、市值和新媒体内容数据获取每组企业数据标签对应的历史数据。
进一步考察训练数据的样例。例如,以30天作为滑窗,天为采集频率,预测时间范围亦设定为天,即以过去30天的企业财务、市值和新媒体内容数据以及对应时段的企业市值风险水平和企业营收水平标签;一般而言,设置年或季度为训练数据的时间范围,滑动时间窗,获得训练数据集。
当然,在其他实时方式中,滑动窗口的长度、采集频率、预测时间范围和训练数据对应的时间范围可以根据实际情况进行设置,这里不作具体限定。
放大在市值风险极高及营收阶跃的样本作用,对其进行过采样。例如,将过采样的比例设置为1:2,即将需要重点关注的样本数量放大一倍,提升模型对这类样本的描述能力,力图放宽数据不平衡的相关限制,提升新媒体流量矩阵中各元素对企业风险水平和企业营收的影响力度计算结果的有效性和可靠性。
在步骤S220中,在获取到训练数据集后,可以直接利用训练数据集中的每组样本数据,对机器学习模型进行训练。其中,机器学习模型可以是但不限于逻辑回归模型及各类决策树模型。基于结果稳定的机器学习模型,取得新媒体流量矩阵中各元素对企业风险水平和企业营收的影响力度。
在本实施例中,步骤S220可以包括:利用所述每组样本数据中的多个所述数据特征及所述数据标签,训练所述机器学习模型,使得所述机器学习模型学习多个所述数据特征与所述数据标签的特征关系,得到所述经过训练的机器学习模型,取得新媒体流量矩阵中各元素对企业风险水平和企业营收的影响力度。
可理解地,在训练机器学习模型时,在将每组样本数据中的多个数据特征及数据标签输入至套索回归LASSO模型,以得到每组中的多个数据特征与企业市值风险和营收数据标签的特征关系,使得套索回归LASSO模型具有根据多个数据特征预测下一时间序列或其他时间点的市值风险及营收水平的能力,如此,便可以从模型中各特征系数中得到新媒体流量矩阵中各元素对企业风险水平和企业营收的影响力度。步骤S230,企业输入投放成本,以及各新媒体来源的投放成本和投放内容类型数据。结合有限成本、最小化市值风险、最大化营收的企业投放要求,对各类自媒体内容实施规划,得到最优可行性方案。
在本实施例中,步骤S230可以包括:企业根据企业资源约束输入投放成本,以及各新媒体来源的投放成本和投放内容类型数据,采用各类有效的规划求解算法,所取得的最符合企业内容投放目标的可行性方案。
请参照图3,本申请实施例还提供一种内容投放规划装置100,可以应用于上述的电子设备10中,用于执行方法中的各步骤。
内容投放规划装置100包括获取单元110、训练单元120和规划单元130;
获取单元110用于获取训练数据集,所述训练数据集包括多组样本数据,每组样本数据包括与多个时间序列对应的财务数据、交易数据和新媒体流量矩阵数据,所述多组样本数据中的部分组样本数据的所述数据包括财务数据、交易数据和新媒体流量矩阵数据特征及市值风险、营收对应的数据标签;
所述获取单元110,还用于获取所述当前时刻之前的一个月内的财务数据、交易数据和新媒体流量矩阵数据,所述数据包括与多个时间序列对应的财务数据、交易数据和新媒体流量矩阵数据;
训练单元120用于利用训练数据集训练机器学习模型,得到新媒体流量矩阵中各元素对企业风险水平和企业营收的影响力度;
训练单元120还用于利用所述每组样本数据中的财务数据、交易数据和新媒体流量矩阵数据特征及及市值风险、营收对应的数据标签,训练所述的基于套索回归LASSO的机器学习模型,采用惩罚效用不足的特征,使得所述机器学习模型能够针对多投放决策的内容起到有效降维作用,以更好学习所述数据特征与所述数据标签的特征关系,得到可靠的对企业风险水平和企业营收的影响力度系数。
规划单元130用于按照企业输入的投放成本,以及各新媒体来源的投放成本和投放内容类型数据,规划有限成本、最小化市值风险、最大化营收最优化投放方案,规划单元130用于按照企业的投放需求,对目标成本、市值风险、营收构建投放内容的规划,筛选最优可行性方案;
内容投放规划装置100内还可以设置有测试单元,对测试样本使用所述经过训练的神经网络模型进行测试,得到测试结果,所述测试样本包含的数据类别和标签在格式上与训练数据一致,所述测试结果包括与市值风险、营收对应的数据标签;
一种基于资产风控的新媒体内容投放方法的计算机可读存储介质,计算机可读存储介质中存储有计算机程序,当计算机程序在计算机上运行时,使得计算机执行基于企业市值风险管理的新媒体内容投放方法。
综上所述,本申请实施例提供一种基于资产风控的新媒体内容投放方法及设备。方法包括:获取训练数据集,训练数据集包括多组样本数据,每组样本数据包括与多个时间序列对应的企业财务、市值和新媒体数据,多组样本数据中的部分组样本预测数据包括数据特征及市值风险和企业营收的数据标签;利用训练数据集训练机器学习模型,得到新媒体流量矩阵中各元素对企业风险水平和企业营收的影响力度:根据及其学习模型预测结果,产生相应的新媒体内容投放策略;
在本方案中,训练数据集的样本数据中亦包括与多个时间序列对应的企业财务、市值和新媒体数据,多组样本数据中的部分组样本预测数据包括数据特征及市值风险和企业营收的数据标签。如此,可以丰富样本数据的维度,从而有利于提高训练后的机器学习模型所预测的市值范围的准确性和可靠性,改善因样本数据采集单一而使得机器学习模型预测的准确性和可靠性低的问题。
虽然示例性实施例已经在这里公开,应当理解,其它的变化是可以的。该变化不应被认为是背离本发明的示例性实施例的精神和范围,对本领域的技术人员来说所有的这些修改将是明显的,这些修改均旨在被包括于所附的权利要求的范围内。
Claims (10)
1.一种基于资产风控的新媒体内容投放方法,其特征在于:该方法包括以下步骤:
步骤一:获取企业的财务数据、新媒体舆情数据和交易数据;
步骤二:对财务数据和交易数据进行预处理,对新媒体数据按照来源和事件主体进行归类,构建企业新媒体流量矩阵,确定各类数据来源传播在传播不同企业内容时对企业市值风险水平的影响权重;
步骤三:输入内容投放企业对应的财务数据、交易数据及新媒体流量矩阵中对应的数据,使用套索回归LASSO算法确定新媒体流量矩阵中各元素对企业风险水平和企业营收的影响力度,构建内容投放的线性规划目标及约束。
2.根据权利要求1所述的一种基于资产风控的新媒体内容投放方法,其特征在于:所述新媒体舆情数据数据来源对应以下六类:官媒、主流商业媒体、财经自媒体、产品相关自媒体、高影响力自媒体和普通自媒体。
3.根据权利要求2所述的一种基于资产风控的新媒体内容投放方法,其特征在于:自媒体影响力得分按照粉丝数、内容更新频率和内容平均阅读量指标进行打分取得通过DBSCAN聚类算法对新媒体以高影响力与低影响力进行分类。
4.根据权利要求1所述的一种基于资产风控的新媒体内容投放方法,其特征在于:使用Ekman情绪模型对新媒体流量矩阵中涉及内容对应的流量数据及情绪倾向进行计算,采用机器学习算法,将财务数据、交易数据及新媒体流量矩阵所对应的流量及情感数据投入Ekman情绪模型。
5.根据权利要求4所述的一种基于资产风控的新媒体内容投放方法,其特征在于:新媒体流量矩阵数据及情绪倾向进行计算的步骤包括:
步骤一:对企业的财务数据和交易数据分别按照季度和天为更新单位完成入库;
步骤二:依据系统自建的主体来源库对每日新媒体舆情数据的来源进行核实,并按照官媒、主流商业媒体、财经自媒体、产品相关自媒体、高影响力自媒体和普通自媒体六种类型进行划分,同时更新主体来源库中自媒体主体的信息;
步骤三:对新媒体数据进行去除停用词并进行分词,按照分词结果对新媒体舆情数据对应主要事件归纳至企业业绩与财务分析、高管及主要人员行动和企业营销业务三类,集合来源划分结果,完成新媒体流量矩阵的构建;
步骤四:对归化在矩阵中各个子集新媒体舆情数据的流量进行计算,并利用自然语言处理方法确定各个子集的各类情绪倾向占比,将上述数据按照从主体来源到事件主体,从流量到流量对应的各类情绪占比的顺序进行入库。
6.根据权利要求5所述的一种基于企业市值风险管理的新媒体内容投放方法,其特征在于:采用套索回归LASSO算法将财务数据、交易数据和新媒体流量矩阵对应的数据分为训练集和测试集,在保证测试集性能的前提下对训练集进行训练,得到新媒体流量矩阵中各元素对企业风险水平的影响力度。
7.根据权利要求6所述的一种基于企业市值风险管理的新媒体内容投放方法,其特征在于:基于企业内容投放要求,包括目标成本、最小化市值风险、最大化营收,实施对各类自媒体内容的规划求解。
8.一种基于资产风控的新媒体内容投放设备,包括处理模块(11)和存储模块(12),其特征在于:还包括固化在存储模块(12)中的内容投放规划装置(100)。
9.根据权利要求7所述的一种基于资产风控的新媒体内容投放设备,其特征在于:内容投放规划装置(100)包括用于获取训练数据集的获取单元(110),用于利用训练数据集训练机器学习模型的训练单元(120),用于按照企业输入的投放成本,以及各新媒体来源的投放成本和投放内容类型数据,规划有限成本、最小化市值风险、最大化营收最优化投放方案的规划单元(130)。
10.根据权利要求8所述的一种基于资产风控的新媒体内容投放设备,其特征在于:内容投放规划装置(100)还包括用于对测试样本使用经过训练的神经网络模型进行测试得到测试结果的测试单元。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110623206.XA CN113361911B (zh) | 2021-06-04 | 2021-06-04 | 一种基于资产风控的新媒体内容投放方法及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110623206.XA CN113361911B (zh) | 2021-06-04 | 2021-06-04 | 一种基于资产风控的新媒体内容投放方法及设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113361911A true CN113361911A (zh) | 2021-09-07 |
CN113361911B CN113361911B (zh) | 2024-10-15 |
Family
ID=77532049
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110623206.XA Active CN113361911B (zh) | 2021-06-04 | 2021-06-04 | 一种基于资产风控的新媒体内容投放方法及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113361911B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114118526A (zh) * | 2021-10-29 | 2022-03-01 | 中国建设银行股份有限公司 | 一种企业风险预测方法、装置、设备及存储介质 |
CN114186629A (zh) * | 2021-12-09 | 2022-03-15 | 中国建设银行股份有限公司 | 投行产品适配方法、装置、设备及可读存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070219896A1 (en) * | 2005-05-10 | 2007-09-20 | Seth Goldstein | Methods and systems for facilitating investment in consumer interest in online media |
CN101208716A (zh) * | 2005-04-26 | 2008-06-25 | 管理动力学有限责任公司 | 动态、实时环境下的数字商品投放的方法 |
CN103729778A (zh) * | 2013-12-12 | 2014-04-16 | 广州市网威信息技术有限公司 | 全渠道广告精准投放系统及其方法 |
CN104137128A (zh) * | 2011-12-27 | 2014-11-05 | 汤姆森路透社全球资源公司 | 用于使用源于社交媒体的数据和情绪分析来生成企业绿色分数的方法及系统 |
-
2021
- 2021-06-04 CN CN202110623206.XA patent/CN113361911B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101208716A (zh) * | 2005-04-26 | 2008-06-25 | 管理动力学有限责任公司 | 动态、实时环境下的数字商品投放的方法 |
US20070219896A1 (en) * | 2005-05-10 | 2007-09-20 | Seth Goldstein | Methods and systems for facilitating investment in consumer interest in online media |
CN104137128A (zh) * | 2011-12-27 | 2014-11-05 | 汤姆森路透社全球资源公司 | 用于使用源于社交媒体的数据和情绪分析来生成企业绿色分数的方法及系统 |
CN103729778A (zh) * | 2013-12-12 | 2014-04-16 | 广州市网威信息技术有限公司 | 全渠道广告精准投放系统及其方法 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114118526A (zh) * | 2021-10-29 | 2022-03-01 | 中国建设银行股份有限公司 | 一种企业风险预测方法、装置、设备及存储介质 |
CN114186629A (zh) * | 2021-12-09 | 2022-03-15 | 中国建设银行股份有限公司 | 投行产品适配方法、装置、设备及可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113361911B (zh) | 2024-10-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106651424B (zh) | 基于大数据技术的电力用户画像建立与分析方法 | |
US20120303504A1 (en) | Market value matrix | |
WO2021042006A1 (en) | Data driven systems and methods for optimization of a target business | |
US20080015871A1 (en) | Varr system | |
CN110929797A (zh) | 一种人员能力量化评估方法 | |
CN118552303B (zh) | 一种面向金融大数据融合分析方法 | |
Nepomuceno et al. | Exploring knowledge benchmarking using time‐series directional distance functions and bibliometrics | |
CN113590807A (zh) | 一种基于大数据挖掘的科技企业信用评价方法 | |
CN113361911A (zh) | 一种基于资产风控的新媒体内容投放方法及设备 | |
CN119359357A (zh) | 一种车险渠道全流程营销管理的方法与系统 | |
CN117011065A (zh) | 基于企业标签的金融产品动态匹配推荐方法及设备 | |
CN113222471B (zh) | 一种基于新媒体数据的资产风控方法及设备 | |
CN115099307A (zh) | 一种金融事件多标签分类方法及系统 | |
CN104899652A (zh) | 综合数据交互下的文化演艺运营平台决策支持系统 | |
CN113742495A (zh) | 基于预测模型的评级特征权重确定方法及装置、电子设备 | |
CN118710283A (zh) | 一种客户服务能力画像生成方法、装置及介质 | |
CN117726452A (zh) | 金融智能大数据分析与风险管理系统 | |
CN116384750A (zh) | 生成标记样本及训练风险评级预测模型的方法及计算设备 | |
CN115952216A (zh) | 一种养老保险数据挖掘方法、装置、存储介质及电子设备 | |
CN120086445B (zh) | 一种基于协同过滤与循环神经网络的差旅推荐方法及系统 | |
CN119719205B (zh) | 一种基于规则引擎的纳税申报底稿管理系统及方法 | |
CN119850154B (zh) | 一种基于nlp的文件审批方法 | |
US20240303572A1 (en) | Identification of similar processes in enterprise | |
US20220114518A1 (en) | Computer system and computer implemented method | |
US8095405B1 (en) | Freight and logistics high performance capability assessment |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |