CN118093678A - 一种互联网媒体中信息曝光率的测量方法及装置 - Google Patents
一种互联网媒体中信息曝光率的测量方法及装置 Download PDFInfo
- Publication number
- CN118093678A CN118093678A CN202410487818.4A CN202410487818A CN118093678A CN 118093678 A CN118093678 A CN 118093678A CN 202410487818 A CN202410487818 A CN 202410487818A CN 118093678 A CN118093678 A CN 118093678A
- Authority
- CN
- China
- Prior art keywords
- information
- exposure
- artificial
- intelligent agent
- artificial intelligent
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 80
- 230000000694 effects Effects 0.000 claims abstract description 73
- 238000004088 simulation Methods 0.000 claims abstract description 19
- 239000003795 chemical substances by application Substances 0.000 claims description 276
- 238000013473 artificial intelligence Methods 0.000 claims description 31
- 230000006399 behavior Effects 0.000 claims description 30
- 230000008569 process Effects 0.000 claims description 15
- 230000005540 biological transmission Effects 0.000 claims description 13
- 238000012216 screening Methods 0.000 claims description 13
- 230000005059 dormancy Effects 0.000 claims description 3
- 238000005259 measurement Methods 0.000 abstract description 5
- 238000000691 measurement method Methods 0.000 abstract 1
- 230000000875 corresponding effect Effects 0.000 description 16
- 238000004364 calculation method Methods 0.000 description 10
- 238000011835 investigation Methods 0.000 description 8
- 230000001276 controlling effect Effects 0.000 description 6
- 238000004422 calculation algorithm Methods 0.000 description 5
- 238000000605 extraction Methods 0.000 description 5
- 230000009471 action Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- VYZAMTAEIAYCRO-UHFFFAOYSA-N Chromium Chemical compound [Cr] VYZAMTAEIAYCRO-UHFFFAOYSA-N 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- BUGBHKTXTAQXES-UHFFFAOYSA-N Selenium Chemical compound [Se] BUGBHKTXTAQXES-UHFFFAOYSA-N 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 239000011651 chromium Substances 0.000 description 2
- 229910052804 chromium Inorganic materials 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000002354 daily effect Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000008451 emotion Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000003278 mimic effect Effects 0.000 description 2
- 239000011669 selenium Substances 0.000 description 2
- 229910052711 selenium Inorganic materials 0.000 description 2
- 238000013475 authorization Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 230000007958 sleep Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2462—Approximate or statistical queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/248—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/29—Geographical information databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/004—Artificial life, i.e. computing arrangements simulating life
- G06N3/006—Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Probability & Statistics with Applications (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Remote Sensing (AREA)
- Health & Medical Sciences (AREA)
- Fuzzy Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种互联网媒体中信息曝光率的测量方法及装置,包括以下步骤:统计互联网媒体平台中用户群体,并提取相应的属性特征,从而得到用户的特征描述,根据特征描述分割提取相似的用户群体,并得到群体属性特征;根据群体属性特征,建立和部署针对性的模拟用人工智能体集群;采集由人工智能体集群模拟信息消费活动所产生的曝光信息数据;从曝光信息数据中识别出符合条件的目标信息集合;基于目标信息集合,统计并展示目标信息的曝光率。本发明用于解决现有的信息曝光率测量方法存在不全面、不及时、不客观以及低效的技术问题,从而对特定信息的实际曝光率实现全面、及时、客观以及高效的测量。
Description
技术领域
本发明涉及信息曝光率测量技术领域,具体涉及一种互联网媒体中信息曝光率的测量方法及装置。
背景技术
当前,互联网媒体已经成为信息传播和公众信息消费的最主要的技术媒介。在传播领域中,信息的曝光率是衡量信息传播效果的一项重要指标,在热点监测、市场营销和社会治理等多个环节发挥着重要的作用。
对于广播、电视等传统电子媒体,节目的曝光率,也就是收视率,主要通过自动化或人工的方式对样本用户行为进行采样统计获得。自动化方式是利用预先安装的测量仪记录用户家中广播电视的观看情况,通过测量仪自动回传数据。而人工方式则是样本用户每日自行记录自身的广播电视节目收视情况,而后由调查人员定时回收记录。上述两种方式均属于典型社会调查方法的范畴。
随着互联网媒体的发展,基于真实用户的社会调查方法在效率和准确性方面都暴露出了明显的缺陷。大数据方法可以通过全面统计互联网媒体平台后台信息发布和传播数据集,有效确定每条信息在用户客户端的曝光和消费情况,从而准确确定信息在某平台的曝光情况。
然而,随着以推荐和排序算法为代表的智能算法在互联网媒体平台中的普及,大数据方法也面临着诸多挑战,包括:(1)智能算法的动态性、随机性和黑箱性,以及真实系统中庞大的信息和用户规模,使利用常见开放数据信息重建信息从发布到特定用户屏幕曝光的过程变得困难;(2)智能推荐和排序的核心特点是个性化,因此,大数据方法可以通过利用用户的日常个人浏览记录计算曝光率,但大规模使用用户个性化私人数据实现商业目的,涉及个人权益和隐私保护等伦理问题;(3)在不依赖用户隐私数据的条件下,大数据方法可以采用浏览、点赞、评论等显性信息消费行为来推理隐形的曝光情况,但精确度难以保证;(4)大数据方法普遍依赖平台内部的授权支持,因此,该方法很难同时一致的处理多平台曝光率的测量问题。
因此,需要一种可以全面、及时、客观、高效测量特定信息的实际曝光率的新方法。
发明内容
为了克服现有技术的不足,本发明提供一种互联网媒体中信息曝光率的测量方法及装置,用于解决现有的信息曝光率测量方法存在不全面、不及时、不客观以及低效的技术问题,从而对特定信息的实际曝光率实现全面、及时、客观以及高效的测量。
为解决上述问题,本发明所采用的技术方案如下:
一种互联网媒体中信息曝光率的测量方法,包括以下步骤:
统计互联网媒体平台中用户群体,并提取相应的属性特征,从而得到用户的特征描述,根据所述特征描述分割提取相似的用户群体,并得到群体属性特征;
根据所述群体属性特征,建立和部署针对性的模拟用人工智能体集群;
采集由所述人工智能体集群模拟信息消费活动所产生的曝光信息数据;
从所述曝光信息数据中识别出符合条件的目标信息集合;
基于所述目标信息集合,统计并展示目标信息的曝光率;
在识别出符合条件的目标信息集合时,包括:
在人工智能体控制器的数据库中获取一个带有待识别目标标识的曝光信息,得到待识别曝光信息,并对所述待识别曝光信息匹配判断是否属于曝光目标信息;
其中,所述数据库中包含互联网媒体平台向人工智能体推送的页面信息和曝光评论信息;
所述曝光率包括:基于信息数量获取的曝光率和基于人工智能体数量获取的曝光率;
所述基于信息数量获取的曝光率为:曝光目标信息的数量与其他信息的数量的比例;
所述基于人工智能体数量获取的曝光率为:接收到曝光目标信息的人工智能体的数量与其他人工智能体的数量的比例。
作为本发明优选的实施方式,在得到群体属性特征时,包括:
获取用户整体的属性分布,所述属性分布包括:地理分布属性、年龄属性、性别属性、活动时间属性、内容偏好属性;
在地理、年龄以及性别三个维度进行属性项匹配组合,进行用户群体划分,获得多个用户群体;
分析不同用户群体的信息消费内容偏好,在新闻分类和关键词两个维度建立用户群体行为属性特征;
在多个地理特征中重复所述多个用户群体,并加入相应地理关键词,构成最终的多个模拟用户群体。
作为本发明优选的实施方式,在获取用户整体的属性分布时,包括:
选取不同地区的多个代表性城市或县区作为所述地理分布属性;
按照年龄段进行划分,得到若干个梯度的年龄属性,年龄梯度粒度包括:未成年、青年、中年和老年;
所述性别属性除男性和女性外,以用户群体刻画为目的,加入一个混合项;
所述活动时间属性定义为用户使用所述互联网媒体平台的活动时间分布和活动间隔分布;将所述活动时间分布和所述活动间隔分布,依据用户的活动历史,综合刻画用户是否处于活动状态;
所述内容偏好属性分为内容分类和关键词两个部分,其中,所述内容分类指遵循约定的分类原则和方法,按照信息的内涵和性质,将所有信息,按一定的结构体系,分门别类加以集合,使得每个信息在相应的分类体系中都有一个或多个对应位置;
其中,所述关键词包括:针对内容标识的关键词、地理关键词以及性别关键词。
作为本发明优选的实施方式,在建立和部署针对性的模拟用人工智能体集群时,包括:
平台账号获取与基本资料设定,包括:所在地区、人口特征和初始兴趣偏好及相关关注;
对人工智能体进行设计与实现;
设定所述人工智能体的软件参数,绑定账号特征,设定活动时间与内容偏好属性;
启动所述人工智能体执行逻辑行为;
对所述人工智能体的活动进行控制;
其中,通过人工智能体控制器下达启动/重启指令,完成所述人工智能体的启动。
作为本发明优选的实施方式,在对人工智能体进行设计与实现时,包括:
使用自动化工具操作互联网浏览器或移动应用APP,实现所述人工智能体对所述互联网媒体平台的自动化访问,包括:
在人工辅助下,登录已初始化完成的账号;
访问账号主页页面,按照关键词挑选内容进行点击进入详细浏览;
访问热门推荐信息页面,按照关键词和内容分类进行点击进入详细浏览;
访问热门分类信息页面,按照内容分类进行点击进入详细浏览;
访问搜索页面,按照关键词进行搜索,选择点击搜索结果进入详细浏览;
在详细内容页面,进行点赞操作、发布者关注操作;
在绑定账号特征时,包括:在人工辅助下,完成所述人工智能体在所述互联网媒体平台的登录,实现所述人工智能体和已注册账号的绑定。
作为本发明优选的实施方式,在设定所述人工智能体的软件参数时,包括:
以预定义的条件概率选择来源页面中的一个;
从所述来源页面中按照浏览操作执行比例,依据信息的分类或是否包含特定关键词,抽取一条随机信息并对其执行浏览操作;如果未能寻找到匹配信息,则放弃本次操作;
在浏览所述详细内容页面时,按照设定概率,随机选择是否执行点赞和关注操作;
所述人工智能体依据活动时间分布和活动间隔分布,随机休眠一段时间,直到执行下一个操作;
其中,所述来源页面包括:所述账号主页页面、所述热门推荐信息页面、所述热门分类信息页面、所述搜索页面以及所述详细内容页面;
所述人工智能体能够监听来自人工智能体控制器的控制指令,完成停止、重启、修改配置以及执行额外浏览任务操作;
将所述人工智能体的逻辑控制行为过程由Java、JavaScript和Python语言描述并转换为可执行程序,并在人工智能体宿主器中执行;
将所述人工智能体的逻辑控制行为参数储存储在JSON格式的配置文件或嵌入可执行程序中,并将所述配置文件和所述嵌入可执行程序放入所述人工智能体宿主器中;
在对所述人工智能体的活动进行控制时,包括:
对于位于所述人工智能体宿主器中的一个正在执行的人工智能体,通过所述人工智能体控制器控制所述人工智能体的活动,包括:
停止、重启所述人工智能体的活动、修改配置文件参数、执行临时浏览活动;
其中,所述临时浏览活动由浏览源页面、关键词或分类名、浏览数量、点赞概率以及关注概率共5个参数描述,并由所述人工智能体控制器通过指令通路下发所述人工智能体执行。
作为本发明优选的实施方式,在采集曝光信息数据时,包括:
所述人工智能体在模拟用户群体访问和操作所述互联网媒体平台时,同时记录所述互联网媒体平台向其推送时,在主页页面、推荐信息页面、分类信息页面和搜索页面中出现的信息,包括所述信息的内容、来源、发布时间、点赞量、评论量、转发量;
对于被选择进行详细浏览的信息,同时记录曝光评论信息,包括:所属信息、评论内容、评论作者、评论时间、回复关系、评论点赞量、评论转发量以及评论回复量;
将记录数据以预设的格式,通过人工智能体宿主器和人工智能体控制器间的数据上传通路,将记录的信息和评论数据传输给人工智能体控制器;
人工智能体控制器接收到数据后,以数据库形式,对数据进行储存,并作为后继查询和统计的基础;
其中,所述人工智能体控制器除记录信息和评论数据本身外,还将记录关于所述人工智能体和采集行为本身的相关数据,包括:人工智能体各类属性特征、采集时间、来源页面,另外对于被选择进行详细阅读的信息,还需要记录判别用依据关键词或分类。
作为本发明优选的实施方式,在对所述待识别曝光信息匹配判断是否属于曝光目标信息时,包括:
基于名称标识和曝光信息的来源属性匹配判断所述待识别曝光信息是否属于曝光目标信息;
基于信息名称或链接标识和曝光信息的内容属性匹配判断所述待识别曝光信息是否属于曝光目标信息;
将识别结果与曝光信息以及人工智能体的信息数据一起存放在曝光率计算器的缓存中,用于曝光率的获取。
作为本发明优选的实施方式,在统计并展示目标信息的曝光率时,包括:
对所述目标信息集合进行筛选,筛选条件包括:时间范围、人工智能体地理属性、人工智能体年龄属性、人工智能体性别属性;
通过所述筛选条件,确定不同范围的曝光率,包括:某时间段内的曝光率、某地域的曝光率、某年龄段的曝光率、某性别的曝光率;
将所述不同范围的曝光率进行自由组合,形成更为精准的子群体曝光率。
一种互联网媒体中信息曝光率的测量装置,包括:
人工智能体宿主器,用于部署和运行人工智能体及所需互联网访问环境;
人工智能体控制器,用于收集来自一个或者多个所述人工智能体宿主器中的多个人工智能体的账号特征和曝光数据的上传,并向所述人工智能体宿主器发布控制指令;
曝光率计算器,用于定时或按需查询数据记录与访问器,进行目标信息识别,统计和获取信息曝光率;
曝光率呈现器,用于交互式查询和显示实体曝光率获取结果;
其中,多个所述人工智能体宿主器能在地理和互联网空间中进行分布式部署,多个所述人工智能体宿主器之间能相互独立;
多个所述人工智能体宿主器与多个所述人工智能体控制器之间存在曝光数据上传信号通路和人工智能体控制指令的传递信号通路;
所述曝光率计算器和所述人工智能体控制器之间存在查询指令传递信号通路和数据结果反馈信号通路;
所述曝光率呈现器和所述曝光率计算器之间存在查询指令传递信号通路和曝光率获取结果反馈信号通路;
所述测量装置在运行时,执行权利要求1-9任一项所述的测量方法。
相比现有技术,本发明的有益效果在于:
(1)采用本发明所提供的测量方法,可以自主高效、实时快速的评估互联网媒体信息在用户中的传播效果;
(2)本发明利用人工智能体的模拟替代对真实用户信息的调查采集,获取互联网媒体平台中具有特定属性特征的群体的曝光信息记录;人工智能体旨在模仿互联网媒体中真实用户的行为,以便从人工智能体的行为和交互中收集的曝光数据反映用户在平台上的真实体验。人工智能体的所有动作均由随机模型控制,该模型在执行过程中保持一致,并且在模拟期间保持不变,从而实现曝光率全面、及时、客观以及高效的测量;
(3)本发明所应用的互联网媒体平台涉及所有具备通过个性化推荐和排序算法向用户传播信息能力的互联网平台,包括但不限于:新闻、视频、短视频、论坛、社区、电商消费等类型平台,因此本发明具有较宽的适用面。
下面结合附图和具体实施方式对本发明作进一步详细说明。
附图说明
图1是本发明所提供的一个实施例中的测量互联网媒体中信息曝光率的方法的流程图;
图2是本发明所提供的一个实施例中的用户群体提取结果和相应属性特征的示意图;
图3是本发明所提供的一个实施例中的人工智能体逻辑流程图;
图4是本发明所提供的一个实施例中的平台1的曝光计算结果;
图5是本发明所提供的一个实施例中的平台2的曝光计算结果;
图6是本发明所提供的一个实施例中用于测量互联网媒体中信息曝光率的示例装置结构图。
附图标号说明:1、人工智能体宿主器;2、人工智能体控制器;3、曝光率计算器;4、曝光率呈现器;5、控制模块;6、储存模块。
具体实施方式
本发明所提供的互联网媒体中信息曝光率的测量方法,包括以下步骤:
步骤S1:统计互联网媒体平台中用户群体,并提取相应的属性特征,从而得到用户的特征描述,根据特征描述分割提取相似的用户群体,并得到群体属性特征;
步骤S2:根据群体属性特征,建立和部署针对性的模拟用人工智能体集群;
步骤S3:采集由人工智能体集群模拟信息消费活动所产生的曝光信息数据;
步骤S4:从曝光信息数据中识别出符合条件的目标信息集合;
步骤S5:基于目标信息集合,统计并展示目标信息的曝光率;
在识别出符合条件的目标信息集合时,包括:
在人工智能体控制器2的数据库中获取一个带有待识别目标标识的曝光信息,得到待识别曝光信息,并对待识别曝光信息匹配判断是否属于曝光目标信息;
其中,数据库中包含互联网媒体平台向人工智能体推送的页面信息和曝光评论信息;
曝光率包括:基于信息数量获取的曝光率和基于人工智能体数量获取的曝光率;
基于信息数量获取的曝光率为:曝光目标信息的数量与其他信息的数量的比例;
基于人工智能体数量获取的曝光率为:接收到曝光目标信息的人工智能体的数量与其他人工智能体的数量的比例。
具体地,本发明利用人工智能体的模拟替代对真实用户数据的采集,获取互联网媒体平台中具有特定属性特征的群体的曝光信息记录,进而用于计算信息曝光率。
属性信息指平台中传播的文本、图像、视频、短视频、评论、商品描述等内容。
用户群体指一个在地理分布、活动时间、人口特征(年龄、性别、学历、职业等)以及信息消费行为(内容偏好、意见表达等)等属性方面具有一定相似程度的用户个体的集合,可使用一组明确的属性值来描述该群体的整体特征。
群体提取指依据上述用户的属性信息,利用人工分析判断或聚类、分类、社团识别等计算机算法,从全体用户集合中识别和提取特定用户群体的过程。
人工智能体指利用计算机技术自动化访问和操作互联网媒体平台,且能够在访问过程中,有效模拟一个用户群体的主要属性和行为的自动化软件。
人工智能体在模拟用户群体访问和操作互联网媒体平台时,需要同时记录平台向其推送,并在其访问界面中出现的,即曝光的所有信息,包括信息的内容、来源、时间、消费数据(点赞、评论、转发等消费行为数量)、评论内容等。
目标信息指包含特定实体信息或属于特定分类的信息子集。实体指平台传播信息当中所包含的互联网账号、地理地标、组织机构、自然人、商品、事件和活动等具备被传播价值的对象的文本和图像等的标识。分类指信息在内容特征上所属的类别,包括:新闻信息分类、商品信息分类、情感意见分类等。
实体识别方法,包括:从获取自人工智能体的曝光信息中的文本信息提取出名称标识;从获取自人工智能体的曝光信息中的音频信息提取出名称标识;
从获取自人工智能体的曝光信息中的图像视频信息提取出图形标识;将提取出的标识与目标标识进行对照匹配;匹配结果判断曝光信息是否包含特定实体。名称标识和图形标识的提取,可使用人工方式,也可利用人工智能技术实现自动提取。信息分类,可使用人工方式分类,也可利用人工智能技术实现自动分类。
本发明通过选择具有特定属性特征的人工智能体集合作为曝光信息数据来源,可计算不同用户群体中的曝光率。
在上述步骤S1中,在得到群体属性特征时,包括:
获取用户整体的属性分布,属性分布包括:地理分布属性、年龄属性、性别属性、活动时间属性、内容偏好属性;
在年龄和性别两个维度进行属性项匹配组合,进行用户群体划分,获得多个用户群体;
分析不同用户群体的信息消费内容偏好,在新闻分类和关键词两个维度建立用户群体行为属性特征;
在多个地理特征中重复多个用户群体,并加入相应地理关键词,构成最终的多个模拟用户群体。
具体地,在获取用户整体的属性分布时,包括:人工方式、社会调查方式以及大数据方式。
社会调查方式:利用问卷、社会实验等社会调查方法,获取用户平台使用与其属性间关系。
大数据方式:利用自动化方法采集相应平台中开放的用户账号与其属性信息。
进一步地,在获取用户整体的属性分布时,包括:
选取不同地区的多个代表性城市或县区作为地理分布属性;
按照年龄段进行划分,得到若干个梯度的年龄属性,年龄梯度粒度包括:未成年、青年、中年和老年;
性别属性除男性和女性外,以用户群体刻画为目的,加入一个混合项;
活动时间属性定义为用户使用互联网媒体平台的活动时间分布和活动间隔分布;将活动时间分布和活动间隔分布,依据用户的活动历史,综合刻画用户是否处于活动状态;
内容偏好属性分为内容分类和关键词两个部分,其中,内容分类指遵循约定的分类原则和方法,按照信息的内涵和性质,将所有信息,按一定的结构体系,分门别类加以集合,使得每个信息在相应的分类体系中都有一个或多个对应位置。
其中,关键词包括:针对内容标识的关键词、地理关键词以及性别关键词。
在上述步骤S2中,在建立和部署针对性的模拟用人工智能体集群时,包括:
平台账号获取与基本资料设定,包括:所在地区、人口特征和初始兴趣偏好及相关关注;
对人工智能体进行设计与实现;
设定人工智能体的软件参数,绑定账号特征,设定活动时间与内容偏好属性;
启动人工智能体执行逻辑行为;
对人工智能体的活动进行控制;
其中,通过人工智能体控制器2下达启动/重启指令,完成人工智能体的启动。
进一步地,在对人工智能体进行设计与实现时,包括:
使用自动化工具操作互联网浏览器或移动应用APP,实现人工智能体对互联网媒体平台的自动化访问,包括:
在人工辅助下,登录已初始化完成的账号;
访问账号主页页面,按照关键词挑选内容进行点击进入详细浏览;
访问热门推荐信息页面,按照关键词和内容分类进行点击进入详细浏览;
访问热门分类信息页面,按照内容分类进行点击进入详细浏览;
访问搜索页面,按照关键词进行搜索,选择点击搜索结果进入详细浏览;
在详细内容页面,进行点赞操作、发布者关注操作;
在绑定账号特征时,包括:在人工辅助下,完成人工智能体在所述互联网媒体平台的登录,实现人工智能体和已注册账号的绑定。
具体地,自动化工具包括:Webdriver,puppeteer等浏览器自动化操作工具、浏览器插件、Appium,Auto.js等移动终端自动化操作工具以及屏幕模拟点击工具。
互联网浏览器包括:Chromium内核互联网浏览器。
更进一步地,在设定人工智能体的软件参数时,包括:
以预定义的条件概率选择来源页面中的一个;
从来源页面中按照浏览操作执行比例,依据信息的分类或是否包含特定关键词,抽取一条随机信息并对其执行浏览操作;如果未能寻找到匹配信息,则放弃本次操作;
在浏览详细内容页面时,按照设定概率,随机选择是否执行点赞和关注操作;
人工智能体依据活动时间分布和活动间隔分布,随机休眠一段时间,直到执行下一个操作;
其中,来源页面包括:账号主页页面、热门推荐信息页面、热门分类信息页面、搜索页面以及详细内容页面;
人工智能体能够监听来自人工智能体控制器2的控制指令,完成停止、重启、修改配置以及执行额外浏览任务操作;
将人工智能体的逻辑控制行为过程由Java、JavaScript和Python语言描述并转换为可执行程序,并在人工智能体宿主器1中执行;
将人工智能体的逻辑控制行为参数储存储在配置文件或嵌入可执行程序中,并将配置文件和嵌入可执行程序放入人工智能体宿主器1中;
在对人工智能体的活动进行控制时,包括:
对于位于人工智能体宿主器1中的一个正在执行的人工智能体,通过人工智能体控制器2控制人工智能体的活动,包括:
停止、重启人工智能体的活动、修改配置文件参数、执行临时浏览活动;
其中,临时浏览活动由浏览源页面、关键词或分类名、浏览数量、点赞概率以及关注概率共5个参数描述,并由人工智能体控制器2通过指令通路下发人工智能体执行。
具体地,配置文件包括:JSON或XML等文本格式的配置文件。
在上述步骤S3中,在采集曝光信息数据时,包括:
人工智能体在模拟用户群体访问和操作互联网媒体平台时,同时记录互联网媒体平台向其推送时,在主页页面、推荐信息页面、分类信息页面和搜索页面中出现的信息,包括信息的内容、来源、发布时间、点赞量、评论量、转发量;
对于被选择进行详细浏览的信息,同时记录曝光评论信息,包括:
所属信息、评论内容、评论作者、评论时间、回复关系、评论点赞量、评论转发量以及评论回复量;
将记录数据以预设的格式,通过人工智能体宿主器1和人工智能体控制器2间的数据上传通路,将记录的信息和评论数据传输给人工智能体控制器2;
人工智能体控制器2接收到数据后,以数据库形式,对数据进行储存,并作为后继查询和统计的基础;
其中,人工智能体控制器2除记录信息和评论数据本身外,还将记录关于人工智能体和采集行为本身的相关数据,包括:人工智能体各类属性特征、采集时间、来源页面,另外对于被选择进行详细阅读的信息,还需要记录判别用依据关键词或分类。
具体地,预设的格式包括:JSON等文本格式、SQL等数据库格式、二进制压缩格式。
在上述步骤S4中,在对待识别曝光信息匹配判断是否属于曝光目标信息时,包括:
基于名称标识和曝光信息的来源属性匹配判断待识别曝光信息是否属于曝光目标信息;
基于信息名称或链接标识和曝光信息的内容属性匹配判断待识别曝光信息是否属于曝光目标信息;
将识别结果与曝光信息以及人工智能体的信息数据一起存放在曝光率计算器3的缓存中,用于曝光率的获取。
在上述步骤S5中,在统计并展示目标信息的曝光率时,包括:
对目标信息集合进行筛选,筛选条件包括:时间范围、人工智能体地理属性、人工智能体年龄属性、人工智能体性别属性;
通过筛选条件,确定不同范围的曝光率,包括:某时间段内的曝光率、某地域的曝光率、某年龄段的曝光率、某性别的曝光率;
将不同范围的曝光率进行自由组合,形成更为精准的子群体曝光率。
本发明所提供的互联网媒体中信息曝光率的测量装置,包括:人工智能体宿主器1、人工智能体控制器2、曝光率计算器3以及曝光率呈现器4。
人工智能体宿主器1,用于部署和运行人工智能体及所需互联网访问环境。
人工智能体控制器2,用于收集来自一个或者多个人工智能体宿主器1中的多个人工智能体的账号特征和曝光数据的上传,并向人工智能体宿主器1发布控制指令。
曝光率计算器3,用于定时或按需查询数据记录与访问器,进行目标信息识别,统计和获取信息曝光率。
曝光率呈现器4,用于交互式查询和显示实体曝光率获取结果。
其中,多个人工智能体宿主器1能在地理和互联网空间中进行分布式部署,多个人工智能体宿主器1之间能相互独立。
多个人工智能体宿主器1与多个人工智能体控制器2之间存在曝光数据上传信号通路和人工智能体控制指令的传递信号通路。
曝光率计算器3和人工智能体控制器2之间存在查询指令传递信号通路和数据结果反馈信号通路;
曝光率呈现器4和曝光率计算器3之间存在查询指令传递信号通路和曝光率获取结果反馈信号通路;
本发明所提供的测量装置在运行时,执行本发明所提供的测量方法。
以下的实施例是对本发明的进一步说明,但本发明的范围并不限制于此。
实施例一
本实施例将描述在单一微博平台(weibo.com)中,测量特定账号实体的曝光率的过程。
如图1所示,确定特定账号实体在微博平台中的曝光率的方法至少包括以下步骤:
步骤S100,统计微博平台中用户群体,并提取相应的属性特征,从而得到微博用户的特征描述,并进而分割提取相应具有一定相似程度的用户群体,主要包括以下步骤:
步骤S110,在本实施例中,通过微博平台自身年度报告和文献调研,采用人工分析方式,获取用户整体的属性分布,包括:地理、年龄、性别、活动时间、内容偏好。
由于微博平台为全国性平台,其用户为全国分布,本实施例选取了华北、华东、华南、华中和西南5个地区的5个代表性一二线城市作为用户地理分布属性特征。
年龄属性可按照年龄段划分,包括:未成年、青年、中年和老年,共4个梯度。
性别属性除男性和女性外,以用户群体刻画为目的,加入一个混合项。
活动时间属性按照六类目标服务,其中微博平台涉及的社交服务和网络新闻服务的用户使用时段分布曲线较为接近,使用高峰均在8点至10点间开始,21点至22点间结束,期间使用时长分布比较均匀,占比在5%至6%左右。微博平台部分包含的短视频服务在17点至22点间出现使用高峰,使用时长占比均超过6%。据此,选择相应活动时间分布,其中,即在一天的某个时间点(以小时计算),用户使用平台的概率为。
根据本实施例研究结果,用户两次活动间存在幂律分布特征,如以下公式1所示:
(1);
式中,为用户两次活动之间的时间差,P为概率密度函数,为幂律分布系数。根据研究结果,本实施例选择。
将上述活动时间分布和活动间隔分布,依据用户的活动历史,综合刻画用户是否处于活动状态,使用平台。
内容偏好属性特征在本实施例中,分为内容分类和关键词两个部分。
内容分类包括:运动、娱乐、情感、知识、科技、军事、汽车、时政、金融、历史、法治、时尚、生活、健康、体育和社会共16个类别。
关键词包括针对内容标识的关键词共813个,地理关键词147个和性别关键词78个。
步骤S120,在年龄和性别两个维度进行属性项匹配组合,进行用户群体划分,获得10个用户群体。
分析不同群体的信息消费内容偏好,在新闻分类和关键词两个维度建立用户群体行为属性特征。
在5个地理特征中重复10个用户群体,并加入相应地理关键词,构成最终的30个模拟用户群体。
图2显示了用户群体提取结果和相应属性特征。
步骤S200,建立和部署针对性的模拟用人工智能体集群。
本实施例的一个核心特征在于,利用人工智能体的模拟替代对真实用户信息的调查采集,获取互联网媒体平台中具有特定属性特征的群体的曝光信息记录。
人工智能体旨在模仿互联网媒体中真实用户的行为,以便从人工智能体的行为和交互中收集的曝光数据反映用户在平台上的真实体验。
人工智能体的所有动作均由随机模型控制,该模型在执行过程中保持一致,并且在模拟期间保持不变。
在本实施例中,步骤S200中建立和部署针对性的模拟用人工智能体集群,包括以下步骤:
步骤S210,平台账号获取与基本资料设定,主要包括所在地址、人口特征和初始兴趣偏好及相关关注。
在本实施例中,平台账号通过手机号码注册获得,并依据微博平台账号设置页面进行相关地址、人口特征和初始兴趣偏好设置。
账号初始化过程中,依据兴趣偏好设定,随机赋予3~5个关注账号。
为了避免冒充任何具体人类用户,账户以艺术和文学中虚构的机器人命名;使用公共领域的机器人图像作为其个人资料;并使用随机引用作为个人资料描述。
步骤S220,人工智能体设计与实现。
在本实施例中,使用Selenium Webdriver操作Chromium内核互联网浏览器,实现人工智能体对微博平台的自动化访问。
人工智能体通过Selenium Webdriver可以实现对于微博平台的操作,包括:
在人工辅助下,登录已初始化完成账号;
访问账号主页页面,按照关键词挑选内容进行点击进入详细浏览;
访问热门微博推荐信息页面,按照关键词和内容分类进行点击进入详细浏览;
访问热门微博分类信息页面,按照内容分类进行点击进入详细浏览;
访问微博搜索页面,按照关键词进行搜索,选择点击搜索结果进入详细浏览;
在微博详细内容页面,进行点赞操作;
在微博详细内容页面,进行发布者关注操作。
人工智能体不具备信息发送能力,也没有使用任何先进的自然语言生成模型。
步骤S230,设定人工智能体软件参数,绑定账号特征,设定活动时间与信息消费行为。
在人工辅助下,完成人工智能体在微博平台的登录,实现人工智能体和已注册账号的绑定。
如图3所示,人工智能体可实现动作包括:浏览、点赞和关注。来源页面包括账号主页、推荐页面、分类页面和搜索页面等。
首先,以预定义的条件概率选择可能来源页面中的一个;
第二,从来源页面中按照浏览操作执行比例,依据信息的分类或是否包含特定关键词,抽取一条随机微博并对其执行浏览操作;如果未能寻找到匹配微博,则放弃本次操作;
第三,在浏览微博详细页面时,按照设定概率,随机选择是否执行点赞和关注操作;
第四,人工智能体依据活动时间分布和活动间隔分布,随机休眠一段时间,直到执行下一个操作。
此外,人工智能体能够监听来自人工智能体控制器2的控制指令,完成停止、重启、修改配置以及执行额外浏览任务操作。
在本实施例中,以上人工智能体的逻辑控制行为过程由Java语言描述并转换为可执行程序,在人工智能体宿主器1中执行。
以上人工智能体的逻辑控制行为参数储存在JSON格式的配置文件中,与Java可执行程序同样位于人工智能体宿主器1中。
步骤S240,启动人工智能体的逻辑行为执行。
在本实施例中,通过人工智能体控制器2下达启动/重启指令,完成人工智能体启动。
步骤S250,人工智能体活动控制。
对于位于人工智能体宿主器1中的一个正在执行的人工智能体,控制人员可以通过人工智能体控制器2控制人工智能体的活动,包括:停止人工智能体活动;
重启人工智能体活动;修改配置文件参数;执行临时浏览活动。
其中,临时浏览活动由浏览源页面、关键词或分类名、浏览数量、点赞概率以及关注概率共5个参数描述,并由人工智能体控制器2通过指令通路下发人工智能体执行。
步骤S300,采集由人工智能体集群模拟信息消费活动所产生的曝光信息数据。
步骤S310,在本实施例中,人工智能体在模拟用户群体访问和操作互联网媒体平台时,同时记录平台向其推送时,在主页页面、推荐页面、分类页面和搜索页面中出现的微博,即曝光的所有微博,包括微博的:内容;来源,也就是微博的作者或者本次转发者;发布时间;点赞量;评论量;转发量。
步骤S320,对于被选择进行详细浏览的微博,同时记录曝光评论信息,包括:所属微博;评论内容;评论作者;评论时间;回复关系,也就是上级评论;
评论点赞量;评论转发量;评论回复量。
依据本实施例的主旨,人工智能体对于曝光微博和评论不寻求过度充分采集,而是按照用户日常浏览系统,侧重记录0到2次刷新或翻页中能够曝光的信息。
步骤S330,记录数据将以JSON格式,通过人工智能体宿主器1和人工智能体控制器2间的数据上传通路,将记录的微博和评论数据传输给人工智能体控制器2。
步骤S340,人工智能体控制器2接收到数据后,以数据库形式,对数据进行储存,并作为后继查询和统计的基础。
人工智能体控制器2除记录微博和评论信息本身外,还将补充关于人工智能体和采集行为本身的相关数据,包括:人工智能体各类属性特征;采集时间;
来源页面;对于被选择进行详细阅读的微博,还需要记录判别用依据关键词或分类。
步骤S400,识别曝光信息中的符合条件的目标信息集合。
在本实施例中,目标实体是特定的微博账号,也就是说,本实例的曝光识别目标为一个特定微博账号集合。
该集合包含20个目标微博账号标识,包括:名称标识;微博链接标识。
步骤S410,在人工智能体控制器2的数据库中获取一个待识别目标标识的曝光微博。
步骤S420,对于待识别曝光微博信息,基于名称标识和曝光微博的来源属性匹配判断是否属于曝光目标信息。
对于一条曝光微博,依据字符串相等关系,对比名称标识和微博来源,如果相同,则说明该曝光微博属于目标信息,即;否则,如果不相同,则说明该曝光微博不属于目标信息,即。
步骤S430,对于待识别曝光微博信息,基于微博名称或链接标识和曝光微博的内容属性匹配判断是否属于曝光目标信息。
对于一条曝光微博,其可能通过转发或“@”等机制,在内容中提及目标实体标识。
依据字符串包含关系,在曝光微博的内容中匹配名称或链接标识,如果包含,则说明该曝光微博属于目标信息,即;如果不包含,则说明该曝光微博不属于目标信息,即。
在本实施例中,仅使用了文本信息提取名称标识,但不代表本发明仅限于文本性内容使用。
步骤S440,识别结果,与微博信息以及人工智能体的信息数据一起,存放在曝光率计算器3的缓存中,用于曝光率的计算。
步骤S500,统计和显示目标信息的曝光率。
在可识别目标实体信息的基础上,计算目标信息的占比或涉及目标信息智能体的比例,可以获得多种曝光率。
步骤S510,确定计算基础微博信息集合,,其中,筛选条件包括:
时间范围(t);
人工智能体地理属性(g),例如:北京、上海、广州、武汉、成都中的一个或者多个;
人工智能体年龄属性(a),例如:未成年、青年、中年、老年中的一种或者多种;
人工智能体性别属性(x),例如:女性、男性、不限种的一种;
通过筛选条件,可确定不同范围的曝光率,包括:
某时间段内的曝光率,例如:代表2023年12月1日至2023年12月31日间的所有曝光微博信息;
某地域的曝光率,例如:代表北京地区的所有曝光微博信息,而代表包括上海和广州地区的所有曝光微博信息;
某年龄段的曝光率,例如:代表所有未成年人的人工智能体的曝光微博信息,而代表所有中青年的人工智能体的曝光微博信息;
某性别的曝光率,例如:代表所有女性的曝光微博信息;
以上条件关系可以自由组合,形成更为精准的子群体曝光率,例如:代表2023年12月中,北京地区的所有青年女性人工智能体的曝光微博信息。
步骤S520,基于信息数量计算,曝光率为目标信息的数量与其他信息的数量的比例。
在本实施例中,对于包含n个微博信息的基础微博信息,,基于步骤S420和S430的识别方法,可以获得每条微博的识别结果。
曝光率E,如公式2所示:
(2);
如步骤S510所述,通过调整筛选条件,可获得不同范围的曝光率。
具体比例的计算方法可依据信息数量和类型,以及人工智能体属性和数量,以及曝光率使用目的,设计不同权重系数和公式进行计算。
在本实施例中,例如,以位置所处人口比例为权重,,计算国内平均曝光率,如公式3所示:
步骤S530,基于人工智能体数量计算,曝光率为接收到一定数据目标信息的人工智能体的数量与其他人工智能体的数量的比例。
在本实施例中,对于包含n个微博信息的基础微博信息,,可将其依据来源人工智能体划分为m个子集,,分别代表人工智能体i相关的微博信息。
基于公式2,计算每个人工智能体i是否被曝光于目标信息:
如果,则设,说明该人工智能体被曝光于目标信息;
如果,则设,说明该人工智能体未被曝光于目标信息。
其中,为信息曝光率阈值。
据此,可按照公式4计算基于人工智能体数量的曝光率:
(4);
如步骤S510所述,同样可通过调整筛选条件,获得不同范围的曝光率。
步骤S540,将计算结果从曝光率计算器3反馈给曝光率呈现器4,并展示。
图4显示了实施例一的一个曝光率计算结果。
实施例二
依据本发明的内容,可通过对于实施过程的扩展,形成对于多个互联网媒体平台联合曝光率的测量。
在实施例一的基础上,以加入Bilibili视频网站展示在多个互联网媒体平台上应用本发明的过程和方式。
依据实施例一的过程,通过如下修改:
在实施例一的步骤S100中,增加对于视频网站的行为数据的采集和使用;
在实施例一的步骤S200中,增加对于Bilibili视频网站的操作的实现,并在人工智能体运行逻辑中加入两个平台的同步访问过程;
在实施例一的步骤S300中,增加对于Bilibili视频网站的曝光数据的采集和记录;
在实施例一的步骤S400中,增加对于Bilibili视频网站对应账号的识别;
可以直接获得来自Bilibili视频网站的曝光信息集合并加入到步骤S500的曝光率的计算过程中。
可选的,也可以按照实施例一的公式2或4分别计算两个平台的的基于信息或人工智能体的曝光率,例如:和。
结合两个平台设定的权重系数,和,可计算加权多平台曝光率,如公式5所示:
(5);
图5显示了实施例二的一个曝光率计算结果。
实施例三
基于同一发明构思,本实施例提供了一种测量互联网媒体中信息曝光率的装置,其针对具体问题和基本方法原理与前述实施例中的方法一致,重复之处不重复阐述。
图6展示了本装置的结构示意图,如图所示,该装置包括:人工智能体宿主器1、人工智能体控制器2、曝光率计算器3以及曝光率呈现器4。
人工智能体宿主器1,用于部署和运行人工智能体及所需互联网访问环境的设备。在本实施例中,人工智能体宿主器1由主机云服务器实现,其特征包括:
服务器硬件:2CPU、4GB内存,硬盘储存器40GB;服务器系统:Ubuntu Linux 22.0464位版本;服务器软件:JRE 21,Google Chrome 101以及人工智能体具体Java实现;服务器网络带宽:1 Mbps;固定公网IP。
在本实施例中,共使用50个人工智能体宿主器1实例,人工智能体宿主器1可以在地理和互联网空间中进行分布式部署,分布地区包括:北京:10台;上海:10台;广州:10台;武汉:10台;成都:10台。所有人工智能体宿主器1之间通过互联网公网相互连接,但相互间独立。
人工智能体控制器2,用于收集来自一个或者多个人工智能体宿主器1中的多个人工智能体的账号特征和曝光数据的上传,并向人工智能体宿主器1发布控制指令。人工智能体控制器2包括:用于数据储存的储存模块6;用于接收和发布控制指令的控制模块5。
在本实施例中,储存模块6由主机云服务器实现,其特征包括:服务器硬件:2CPU、8GB内存,硬盘储存器500GB;服务器系统:Ubuntu Linux 22.04 64位版本;服务器软件:MySQL 64位版本;内部访问网络带宽:2000 Mbps。
在本实施例中,控制模块5由主机云服务器实现,其特征包括:服务器硬件:4CPU、8GB内存,硬盘储存器40GB;服务器系统:Ubuntu Linux 22.04 64位版本;服务器软件:控制模块5软件实现;访问网络带宽:1 Mbps。
曝光率计算器3,用于定时或按需查询数据记录与访问器,进行目标信息识别,统计和计算信息曝光率。在本实施例中,曝光率计算器3由主机云服务器实现,其特征包括:服务器硬件:4CPU、8GB内存,硬盘储存器40GB;服务器系统:Ubuntu Linux 22.04 64位版本;服务器软件:曝光率计算器3软件实现;访问网络带宽:1 Mbps。
曝光率呈现器4,用于交互式查询和显示实体曝光率计算结果。在本实施例中,曝光率呈现器4由主机云服务器实现,其特征包括:服务器硬件:2CPU、4GB内存,硬盘储存器40GB;服务器系统:Ubuntu Linux 22.04 64位版本;服务器软件:Web服务器和相关HTML5访问界面实现;访问网络带宽:10 Mbps。
在本实施例中,除人工智能体控制器2内部,各模块之间的通讯链路依赖公共互联网,包括:人工智能体宿主器1和人工智能体控制器2之间存在曝光数据上传信号通路和人工智能体控制指令的传递信号通路;人工智能体计算器和人工智能体控制器2之间存在查询指令传递信号通路和数据结果反馈信号通路;曝光率呈现器4和曝光率计算器3之间存在查询指令传递信号通路和曝光率计算结果反馈信号通路。人工智能体控制器2内部双向通讯依赖局域网本地线路。
上述实施方式仅为本发明的优选实施方式,不能以此来限定本发明保护的范围,本领域的技术人员在本发明的基础上所做的任何非实质性的变化及替换均属于本发明所要求保护的范围。
Claims (10)
1.一种互联网媒体中信息曝光率的测量方法,其特征在于,包括以下步骤:
统计互联网媒体平台中用户群体,并提取相应的属性特征,从而得到用户的特征描述,根据所述特征描述分割提取相似的用户群体,并得到群体属性特征;
根据所述群体属性特征,建立和部署针对性的模拟用人工智能体集群;
采集由所述人工智能体集群模拟信息消费活动所产生的曝光信息数据;
从所述曝光信息数据中识别出符合条件的目标信息集合;
基于所述目标信息集合,统计并展示目标信息的曝光率;
在识别出符合条件的目标信息集合时,包括:
在人工智能体控制器的数据库中获取一个带有待识别目标标识的曝光信息,得到待识别曝光信息,并对所述待识别曝光信息匹配判断是否属于曝光目标信息;
其中,所述数据库中包含互联网媒体平台向人工智能体推送的页面信息和曝光评论信息;
所述曝光率包括:基于信息数量获取的曝光率和基于人工智能体数量获取的曝光率;
所述基于信息数量获取的曝光率为:曝光目标信息的数量与其他信息的数量的比例;
所述基于人工智能体数量获取的曝光率为:接收到曝光目标信息的人工智能体的数量与其他人工智能体的数量的比例。
2.根据权利要求1所述的互联网媒体中信息曝光率的测量方法,其特征在于,在得到群体属性特征时,包括:
获取用户整体的属性分布,所述属性分布包括:地理分布属性、年龄属性、性别属性、活动时间属性、内容偏好属性;
在年龄和性别两个维度进行属性项匹配组合,进行用户群体划分,获得多个用户群体;
分析不同用户群体的信息消费内容偏好,在新闻分类和关键词两个维度建立用户群体行为属性特征;
在多个地理特征中重复所述多个用户群体,并加入相应地理关键词,构成最终的多个模拟用户群体。
3.根据权利要求2所述的互联网媒体中信息曝光率的测量方法,其特征在于,在获取用户整体的属性分布时,包括:
选取不同地区的多个代表性城市或县区作为所述地理分布属性;
按照年龄段进行划分,得到若干个梯度的年龄属性,年龄梯度粒度包括:未成年、青年、中年和老年;
所述性别属性除男性和女性外,以用户群体刻画为目的,加入一个混合项;
所述活动时间属性定义为用户使用所述互联网媒体平台的活动时间分布和活动间隔分布;将所述活动时间分布和所述活动间隔分布,依据用户的活动历史,综合刻画用户是否处于活动状态;
所述内容偏好属性分为内容分类和关键词两个部分,其中,所述内容分类指遵循约定的分类原则和方法,按照信息的内涵和性质,将所有信息,按一定的结构体系,分门别类加以集合,使得每个信息在相应的分类体系中都有一个或多个对应位置;
其中,所述关键词包括:针对内容标识的关键词、地理关键词以及性别关键词。
4.根据权利要求1所述的互联网媒体中信息曝光率的测量方法,其特征在于,在建立和部署针对性的模拟用人工智能体集群时,包括:
平台账号获取与基本资料设定,包括:所在地区、人口特征和初始兴趣偏好及相关关注;
对人工智能体进行设计与实现;
设定所述人工智能体的软件参数,绑定账号特征,设定活动时间与内容偏好属性;
启动所述人工智能体执行逻辑行为;
对所述人工智能体的活动进行控制;
其中,通过人工智能体控制器下达启动/重启指令,完成所述人工智能体的启动。
5.根据权利要求4所述的互联网媒体中信息曝光率的测量方法,其特征在于,在对人工智能体进行设计与实现时,包括:
使用自动化工具操作互联网浏览器或移动应用APP,实现所述人工智能体对所述互联网媒体平台的自动化访问,包括:
在人工辅助下,登录已初始化完成的账号;
访问账号主页页面,按照关键词挑选内容进行点击进入详细浏览;
访问热门推荐信息页面,按照关键词和内容分类进行点击进入详细浏览;
访问热门分类信息页面,按照内容分类进行点击进入详细浏览;
访问搜索页面,按照关键词进行搜索,选择点击搜索结果进入详细浏览;
在详细内容页面,进行点赞操作、发布者关注操作;
在绑定账号特征时,包括:在人工辅助下,完成所述人工智能体在所述互联网媒体平台的登录,实现所述人工智能体和已注册账号的绑定。
6.根据权利要求5所述的互联网媒体中信息曝光率的测量方法,其特征在于,在设定所述人工智能体的软件参数时,包括:
以预定义的条件概率选择来源页面中的一个;
从所述来源页面中按照浏览操作执行比例,依据信息的分类或是否包含特定关键词,抽取一条随机信息并对其执行浏览操作;如果未能寻找到匹配信息,则放弃本次操作;
在浏览所述详细内容页面时,按照设定概率,随机选择是否执行点赞和关注操作;
所述人工智能体依据活动时间分布和活动间隔分布,随机休眠一段时间,直到执行下一个操作;
其中,所述来源页面包括:所述账号主页页面、所述热门推荐信息页面、所述热门分类信息页面、所述搜索页面以及所述详细内容页面;
所述人工智能体能够监听来自人工智能体控制器的控制指令,完成停止、重启、修改配置以及执行额外浏览任务操作;
将所述人工智能体的逻辑控制行为过程由Java、JavaScript和Python语言描述并转换为可执行程序,并在人工智能体宿主器中执行;
将所述人工智能体的逻辑控制行为参数储存储在配置文件或嵌入可执行程序中,并将所述配置文件和所述嵌入可执行程序放入所述人工智能体宿主器中;
在对所述人工智能体的活动进行控制时,包括:
对于位于所述人工智能体宿主器中的一个正在执行的人工智能体,通过所述人工智能体控制器控制所述人工智能体的活动,包括:
停止、重启所述人工智能体的活动、修改配置文件参数、执行临时浏览活动;
其中,所述临时浏览活动由浏览源页面、关键词或分类名、浏览数量、点赞概率以及关注概率共5个参数描述,并由所述人工智能体控制器通过指令通路下发所述人工智能体执行。
7.根据权利要求1所述的互联网媒体中信息曝光率的测量方法,其特征在于,在采集曝光信息数据时,包括:
所述人工智能体在模拟用户群体访问和操作所述互联网媒体平台时,同时记录所述互联网媒体平台向其推送时,在主页页面、推荐信息页面、分类信息页面和搜索页面中出现的信息,包括所述信息的内容、来源、发布时间、点赞量、评论量、转发量;
对于被选择进行详细浏览的信息,同时记录曝光评论信息,包括:所属信息、评论内容、评论作者、评论时间、回复关系、评论点赞量、评论转发量以及评论回复量;
将记录数据以预设的格式,通过人工智能体宿主器和人工智能体控制器间的数据上传通路,将记录的信息和评论数据传输给人工智能体控制器;
人工智能体控制器接收到数据后,以数据库形式,对数据进行储存,并作为后继查询和统计的基础;
其中,所述人工智能体控制器除记录信息和评论数据本身外,还将记录关于所述人工智能体和采集行为本身的相关数据,包括:人工智能体各类属性特征、采集时间、来源页面,另外对于被选择进行详细阅读的信息,还需要记录判别用依据关键词或分类。
8.根据权利要求1所述的互联网媒体中信息曝光率的测量方法,其特征在于,在对所述待识别曝光信息匹配判断是否属于曝光目标信息时,包括:
基于名称标识和曝光信息的来源属性匹配判断所述待识别曝光信息是否属于曝光目标信息;
基于信息名称或链接标识和曝光信息的内容属性匹配判断所述待识别曝光信息是否属于曝光目标信息;
将识别结果与曝光信息以及人工智能体的信息数据一起存放在曝光率计算器的缓存中,用于曝光率的获取。
9.根据权利要求1所述的互联网媒体中信息曝光率的测量方法,其特征在于,在统计并展示目标信息的曝光率时,包括:
对所述目标信息集合进行筛选,筛选条件包括:时间范围、人工智能体地理属性、人工智能体年龄属性、人工智能体性别属性;
通过所述筛选条件,确定不同范围的曝光率,包括:某时间段内的曝光率、某地域的曝光率、某年龄段的曝光率、某性别的曝光率;
将所述不同范围的曝光率进行自由组合,形成更为精准的子群体曝光率。
10.一种互联网媒体中信息曝光率的测量装置,其特征在于,包括:
人工智能体宿主器,用于部署和运行人工智能体及所需互联网访问环境;
人工智能体控制器,用于收集来自一个或者多个所述人工智能体宿主器中的多个人工智能体的账号特征和曝光数据的上传,并向所述人工智能体宿主器发布控制指令;
曝光率计算器,用于定时或按需查询数据记录与访问器,进行目标信息识别,统计和获取信息曝光率;
曝光率呈现器,用于交互式查询和显示实体曝光率获取结果;
其中,多个所述人工智能体宿主器能在地理和互联网空间中进行分布式部署,多个所述人工智能体宿主器之间能相互独立;
多个所述人工智能体宿主器与多个所述人工智能体控制器之间存在曝光数据上传信号通路和人工智能体控制指令的传递信号通路;
所述曝光率计算器和所述人工智能体控制器之间存在查询指令传递信号通路和数据结果反馈信号通路;
所述曝光率呈现器和所述曝光率计算器之间存在查询指令传递信号通路和曝光率获取结果反馈信号通路;
所述测量装置在运行时,执行权利要求1-9任一项所述的测量方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410487818.4A CN118093678B (zh) | 2024-04-23 | 2024-04-23 | 一种互联网媒体中信息曝光率的测量方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410487818.4A CN118093678B (zh) | 2024-04-23 | 2024-04-23 | 一种互联网媒体中信息曝光率的测量方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN118093678A true CN118093678A (zh) | 2024-05-28 |
CN118093678B CN118093678B (zh) | 2024-07-05 |
Family
ID=91157306
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410487818.4A Active CN118093678B (zh) | 2024-04-23 | 2024-04-23 | 一种互联网媒体中信息曝光率的测量方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN118093678B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20040001053A (ko) * | 2002-06-26 | 2004-01-07 | 라바테크 주식회사 | 웹기반의 캐릭터 에이전트 제공방법 |
CN111310040A (zh) * | 2020-02-11 | 2020-06-19 | 腾讯科技(北京)有限公司 | 基于人工智能的推荐方法、装置、电子设备及存储介质 |
CN114564567A (zh) * | 2022-01-20 | 2022-05-31 | 浙江工业大学 | 基于用户行为的人工智能体的设计方法及系统 |
CN117522133A (zh) * | 2023-11-21 | 2024-02-06 | 国家计算机网络与信息安全管理中心 | 一种基于人工智能体的购物平台用户权益风险监测方法 |
-
2024
- 2024-04-23 CN CN202410487818.4A patent/CN118093678B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20040001053A (ko) * | 2002-06-26 | 2004-01-07 | 라바테크 주식회사 | 웹기반의 캐릭터 에이전트 제공방법 |
CN111310040A (zh) * | 2020-02-11 | 2020-06-19 | 腾讯科技(北京)有限公司 | 基于人工智能的推荐方法、装置、电子设备及存储介质 |
CN114564567A (zh) * | 2022-01-20 | 2022-05-31 | 浙江工业大学 | 基于用户行为的人工智能体的设计方法及系统 |
CN117522133A (zh) * | 2023-11-21 | 2024-02-06 | 国家计算机网络与信息安全管理中心 | 一种基于人工智能体的购物平台用户权益风险监测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN118093678B (zh) | 2024-07-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10726050B2 (en) | Assigning social networking system users to households | |
Stafford et al. | Eu-social science: the role of internet social networks in the collection of bee biodiversity data | |
US8468143B1 (en) | System and method for directing questions to consultants through profile matching | |
KR101297271B1 (ko) | 소셜 네트워크 분석 서비스 방법 및 장치 | |
TWI549079B (zh) | 用於導引內容至一社群網路引擎之使用者的系統及方法 | |
CN109074358A (zh) | 提供与用户兴趣有关的地理位置 | |
CN111885399B (zh) | 内容分发方法、装置、电子设备以及存储介质 | |
CN110223186B (zh) | 用户相似度确定方法以及信息推荐方法 | |
WO2016015468A1 (zh) | 数据信息交易方法和系统 | |
KR20160058896A (ko) | 소셜 커뮤니케이션 데이터를 분석하고 송신하는 시스템 및 방법 | |
US20140149583A1 (en) | Social network forensic apparatus and method for analyzing sns data using the apparatus | |
CN108959323B (zh) | 视频分类方法和装置 | |
CN111159561A (zh) | 根据用户行为和用户画像构建推荐引擎的方法 | |
KR101559719B1 (ko) | 효과적인 마케팅을 도출하는 자동학습 시스템 및 방법 | |
Issa et al. | Understanding the spatio-temporal characteristics of Twitter data with geotagged and non-geotagged content: two case studies with the topic of flu and Ted (movie) | |
KR20190097879A (ko) | 마케팅 플랫폼 시스템과, 이를 이용한 소셜 네트워크 기반 광고 방법 및 컴퓨터 프로그램 | |
CN111143689A (zh) | 根据用户需求和用户画像构建推荐引擎的方法 | |
CN107818156A (zh) | 一种实时个性化新闻推荐方法及系统 | |
Nguyen et al. | Check out this place: Inferring ambiance from airbnb photos | |
Lim et al. | Consumption of pop culture and tourism demand: Through the lens of herding behaviour | |
CN115115407A (zh) | 城市一体化智能服务平台智能推荐方法及系统 | |
CN111125507B (zh) | 一种群组活动推荐方法、装置、服务器及计算机存储介质 | |
CN113343149A (zh) | 基于Agent的移动端社交媒体传播效果评估方法、系统、应用 | |
WO2013044647A1 (zh) | 一种sns网络中推送关联用户的方法及系统 | |
Kostakos et al. | Where am I? Location archetype keyword extraction from urban mobility patterns |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |