CN113792223B - 属地媒体信源推送方法、系统、电子设备及存储介质 - Google Patents

属地媒体信源推送方法、系统、电子设备及存储介质 Download PDF

Info

Publication number
CN113792223B
CN113792223B CN202110954814.9A CN202110954814A CN113792223B CN 113792223 B CN113792223 B CN 113792223B CN 202110954814 A CN202110954814 A CN 202110954814A CN 113792223 B CN113792223 B CN 113792223B
Authority
CN
China
Prior art keywords
website
new media
place
information source
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110954814.9A
Other languages
English (en)
Other versions
CN113792223A (zh
Inventor
齐飞翔
李青龙
骆飞
张立芳
赵冲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Smart Starlight Information Technology Co ltd
Original Assignee
Beijing Smart Starlight Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Smart Starlight Information Technology Co ltd filed Critical Beijing Smart Starlight Information Technology Co ltd
Priority to CN202110954814.9A priority Critical patent/CN113792223B/zh
Publication of CN113792223A publication Critical patent/CN113792223A/zh
Application granted granted Critical
Publication of CN113792223B publication Critical patent/CN113792223B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9537Spatial or temporal dependent retrieval, e.g. spatiotemporal queries

Abstract

本发明公开了一种属地媒体信源推送方法、系统、电子设备及存储介质,该方法包括:获取信源的域名;根据域名确定信源的媒体类型,媒体类型包括网站和新媒体;若媒体类型为网站,则根据网站备案地、网站工商注册地、网站内容发布地、网站内容提及地和网站物理IP地址确定信源对应的属地信息;若媒体类型为新媒体,则根据新媒体注册地、新媒体内容发布地、新媒体内容提及地和新媒体签到地确定信源对应的属地信息;获取信源的认证类型;根据媒体类型和认证类型对信源进行分类得到信源分类信息;根据属地信息和信源分类信息得到每一个属地对应的属地信源;根据客户所属地域推送所属地域对应的属地信源。通过上述步骤实现了属地信源的准确定位和推送。

Description

属地媒体信源推送方法、系统、电子设备及存储介质
技术领域
本发明涉及数据处理及精准地域信息提取领域,具体涉及到一种属地媒体信源推送方法、系统、电子设备及存储介质。
背景技术
随着互联网的发展,媒体平台日益增长,监测、管理各个媒体渠道的任务越来越重,对各级网信部门来说,发现属地媒体、定位属地信源、管理其发布内容等工作越来越繁重,其中发现属地媒体信源是整个工作的起点,但现在没有相关技术能快捷准确的找出对应信源。
发明内容
有鉴于此,本发明实施例提供了一种属地媒体信源推送方法、系统、电子设备及存储介质,以快捷准确的定位信源。
为此,本发明实施例提供了如下技术方案:
根据第一方面,本发明实施例提供了一种属地媒体信源推送方法,包括:
获取互联网上信源的域名;
根据域名确定信源对应的媒体类型,所述媒体类型包括网站和新媒体;
若信源的媒体类型为网站,则根据网站备案地、网站工商注册地、网站内容发布地、网站内容提及地和网站物理IP地址确定网站类型信源对应的属地信息;
若信源的媒体类型为新媒体,则根据新媒体注册地、新媒体内容发布地、新媒体内容提及地和新媒体签到地确定新媒体类型的信源对应的属地信息;
获取信源对应的认证类型;
根据信源的媒体类型和认证类型对信源进行分类,得到信源分类信息;
根据信源的属地信息和信源分类信息得到每一个属地对应的属地信源;
根据客户所属地域推送所属地域对应的属地信源。
可选地,若信源的媒体类型为网站,则根据网站备案地、网站工商注册地、网站内容发布地、网站内容提及地和网站物理IP地址确定网站类型信源对应的属地信息的步骤中,包括:
若信源的媒体类型为网站,则判断信源的网站备案地址或者网站工商注册地是否存在;
若网站备案地址或者网站工商注册地存在,则根据网站备案地址或者网站工商注册地确定信源对应的网站地域标签;
若网站备案地址和网站工商注册地均不存在,则根据第一预设时间内的网站发布内容进行网站内容发布地的统计,得到网站发布地占比;
判断网站发布地占比是否大于第一预设比例值;
若网站发布地占比大于第一预设比例值,则根据网站发布地占比确定信源对应的网站发布地标签;
若网站发布地占比不大于第一预设比例值,则根据第二预设时间内的网站发布内容进行网站内容提及地的统计,得到网站提及地占比;
判断网站提及地占比是否大于第二预设比例值;
若网站提及地占比大于第二预设比例值,则根据网站提及地占比确定信源对应的网站提及地标签;
若网站提及地占比不大于第二预设比例值,则根据网站物理IP地址确定信源对应的网站物理地址标签;
根据网站地域标签、网站发布地标签、网站提及地标签和网站物理地址标签确定网站类型的信源对应的属地信息。
可选地,若信源的媒体类型为新媒体,则根据新媒体注册地、新媒体内容发布地、新媒体内容提及地和新媒体签到地确定新媒体类型的信源对应的属地信息的步骤中,包括:
若信源的媒体类型为新媒体,则判断信源的新媒体注册地是否存在;
若新媒体注册地存在,则根据新媒体注册地确定信源对应的新媒体地域标签;
若新媒体注册地不存在,则根据第三预设时间内的新媒体发布内容进行新媒体内容发布地的统计,得到新媒体发布地占比;
判断新媒体发布地占比是否大于第三预设比例值;
若新媒体发布地占比大于第三预设比例值,则根据新媒体发布地占比确定信源对应的新媒体发布地标签;
若新媒体发布地占比不大于第三预设比例值,则根据第四预设时间内的新媒体发布内容进行新媒体内容提及地的统计,得到新媒体提及地占比;
判断新媒体提及地占比是否大于第四预设比例值;
若新媒体提及地占比大于第四预设比例值,则根据新媒体提及地占比确定信源对应的新媒体提及地标签;
若新媒体提及地占比不大于第四预设比例值,则根据新媒体签到地确定信源对应的新媒体物理地址标签;
根据新媒体地域标签、新媒体发布地标签、新媒体提及地标签和新媒体物理地址标签确定新媒体类型的信源对应的属地信息。
可选地,获取信源对应的认证类型的步骤中,包括:
获取认证类型和主体性质的映射关系;认证类型包括第一预设类型和第二预设类型;
获取信源的认证主体性质;
判断所述认证主体性质是否为空;
若所述认证主体性质不为空,则根据认证主体性质确定信源的认证类型;
若所述认证主体性质为空,则获取信源的信源名称,并根据信源名称和预设关键词确定信源的认证类型。
可选地,所述认证主体性质包括政府机关、事业单位、企业、国防机构、个人、社会团体、民办非企业单位和基金会;第一预设类型对应政府机关,第二预设类型对应事业单位、企业、国防机构、个人、社会团体、民办非企业单位和基金会。
可选地,根据信源的媒体类型和认证类型对信源进行分类,得到信源分类信息的步骤中,包括:
判断信源的媒体类型是否为网站且信源的认证类型是否为第一预设类型;
若信源的媒体类型为网站且信源的认证类型为第一预设类型,则信源的分类信息为第一分类;
若信源的媒体类型为网站且信源的认证类型不为第一预设类型,则信源的分类信息为第二分类;
若信源的媒体类型不为网站且信源的认证类型为第一预设类型,则信源的分类信息为第三分类;
若信源的媒体类型不为网站且信源的认证类型不为第一预设类型,则信源的分类信息为第四分类。
可选地,根据信源的属地信息和信源分类信息得到每一个属地对应的属地信源的步骤之后,还包括:对属地信源进行过滤处理,得到过滤后的属地信源。
根据第二方面,本发明实施例提供了一种属地媒体信源推送系统,包括:
第一获取模块,用于获取互联网上信源的域名;
第一处理模块,用于根据域名确定信源对应的媒体类型,所述媒体类型包括网站和新媒体;
第二处理模块,用于若信源的媒体类型为网站,则根据网站备案地、网站工商注册地、网站内容发布地、网站内容提及地和网站物理IP地址确定网站类型信源对应的属地信息;
第三处理模块,用于若信源的媒体类型为新媒体,则根据新媒体注册地、新媒体内容发布地、新媒体内容提及地和新媒体签到地确定新媒体类型的信源对应的属地信息;
第二获取模块,用于获取信源对应的认证类型;
第四处理模块,用于根据信源的媒体类型和认证类型对信源进行分类,得到信源分类信息;
第五处理模块,用于根据信源的属地信息和信源分类信息得到每一个属地对应的属地信源;
第六处理模块,用于根据客户所属地域推送所属地域对应的属地信源。
可选地,所述第二处理模块包括:第一判断单元,用于若信源的媒体类型为网站,则判断信源的网站备案地址或者网站工商注册地是否存在;第一处理单元,用于若网站备案地址或者网站工商注册地存在,则根据网站备案地址或者网站工商注册地确定信源对应的网站地域标签;第二处理单元,用于若网站备案地址和网站工商注册地均不存在,则根据第一预设时间内的网站发布内容进行网站内容发布地的统计,得到网站发布地占比;第二判断单元,用于判断网站发布地占比是否大于第一预设比例值;第三处理单元,用于若网站发布地占比大于第一预设比例值,则根据网站发布地占比确定信源对应的网站发布地标签;第四处理单元,用于若网站发布地占比不大于第一预设比例值,则根据第二预设时间内的网站发布内容进行网站内容提及地的统计,得到网站提及地占比;第三判断单元,用于判断网站提及地占比是否大于第二预设比例值;第五处理单元,用于若网站提及地占比大于第二预设比例值,则根据网站提及地占比确定信源对应的网站提及地标签;第六处理单元,用于若网站提及地占比不大于第二预设比例值,则根据网站物理IP地址确定信源对应的网站物理地址标签;第七处理单元,用于根据网站地域标签、网站发布地标签、网站提及地标签和网站物理地址标签确定网站类型的信源对应的属地信息。
可选地,所述第三处理模块包括:第四判断单元,用于若信源的媒体类型为新媒体,则判断信源的新媒体注册地是否存在;第八处理单元,用于若新媒体注册地存在,则根据新媒体注册地确定信源对应的新媒体地域标签;第九处理单元,用于若新媒体注册地不存在,则根据第三预设时间内的新媒体发布内容进行新媒体内容发布地的统计,得到新媒体发布地占比;第五判断单元,用于判断新媒体发布地占比是否大于第三预设比例值;第十处理单元,用于若新媒体发布地占比大于第三预设比例值,则根据新媒体发布地占比确定信源对应的新媒体发布地标签;第十一处理单元,用于若新媒体发布地占比不大于第三预设比例值,则根据第四预设时间内的新媒体发布内容进行新媒体内容提及地的统计,得到新媒体提及地占比;第六判断单元,用于判断新媒体提及地占比是否大于第四预设比例值;第十二处理单元,用于若新媒体提及地占比大于第四预设比例值,则根据新媒体提及地占比确定信源对应的新媒体提及地标签;第十三处理单元,用于若新媒体提及地占比不大于第四预设比例值,则根据新媒体签到地确定信源对应的新媒体物理地址标签;第十四处理单元,用于根据新媒体地域标签、新媒体发布地标签、新媒体提及地标签和新媒体物理地址标签确定新媒体类型的信源对应的属地信息。
可选地,所述第二获取模块包括:第一获取单元,用于获取认证类型和主体性质的映射关系;认证类型包括第一预设类型和第二预设类型;第二获取单元,用于获取信源的认证主体性质;第七判断单元,用于判断所述认证主体性质是否为空;第十五处理单元,用于若所述认证主体性质不为空,则根据认证主体性质确定信源的认证类型;第十六处理单元,用于若所述认证主体性质为空,则获取信源的信源名称,并根据信源名称和预设关键词确定信源的认证类型。
可选地,所述认证主体性质包括政府机关、事业单位、企业、国防机构、个人、社会团体、民办非企业单位和基金会;第一预设类型对应政府机关,第二预设类型对应事业单位、企业、国防机构、个人、社会团体、民办非企业单位和基金会。
可选地,所述第四处理模块包括:第八判断单元,用于判断信源的媒体类型是否为网站且信源的认证类型是否为第一预设类型;第十七处理单元,用于若信源的媒体类型为网站且信源的认证类型为第一预设类型,则信源的分类信息为第一分类;第十八处理单元,用于若信源的媒体类型为网站且信源的认证类型不为第一预设类型,则信源的分类信息为第二分类;第十九处理单元,用于若信源的媒体类型不为网站且信源的认证类型为第一预设类型,则信源的分类信息为第三分类;第二十处理单元,用于若信源的媒体类型不为网站且信源的认证类型不为第一预设类型,则信源的分类信息为第四分类。
可选地,还包括:第七处理模块,用于对属地信源进行过滤处理,得到过滤后的属地信源。
根据第三方面,本发明实施例提供了一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的计算机程序,计算机程序被至少一个处理器执行,以使至少一个处理器执行上述第一方面任意一项描述的属地媒体信源推送方法。
根据第四方面,本发明实施例提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机指令,计算机指令用于使计算机执行上述第一方面任意一项描述的属地媒体信源推送方法。
本发明实施例技术方案,具有如下优点:
本发明实施例提供了一种属地媒体信源推送方法、系统、电子设备及存储介质,其中,该方法包括:获取互联网上信源的域名;根据域名确定信源对应的媒体类型,所述媒体类型包括网站和新媒体;若信源的媒体类型为网站,则根据网站备案地、网站工商注册地、网站内容发布地、网站内容提及地和网站物理IP地址确定网站类型信源对应的属地信息;若信源的媒体类型为新媒体,则根据新媒体注册地、新媒体内容发布地、新媒体内容提及地和新媒体签到地确定新媒体类型的信源对应的属地信息;获取信源对应的认证类型;根据信源的媒体类型和认证类型对信源进行分类,得到信源分类信息;根据信源的属地信息和信源分类信息得到每一个属地对应的属地信源;根据客户所属地域推送所属地域对应的属地信源。上述步骤,先根据互联网上信源的域名得到信源对应的媒体类型;当信源的媒体类型是网站时,根据网站备案地、网站工商注册地、网站内容发布地、网站内容提及地和网站物理IP地址确定网站类型信源对应的属地信息;当信源的媒体类型是新媒体时,根据新媒体注册地、新媒体内容发布地、新媒体内容提及地和新媒体签到地确定新媒体类型的信源对应的属地信息;然后,根据信源对应的认证类型和媒体类型对信源进行分类,得到信源的分类信息;之后,根据信源的属地信息和信源分类信息确定属地对应的属地信源;最后,根据客户所属地域推送属地信源。该方法先根据信源的注册地、内容发布地、提及地、签到地、备案地等多维度信息准确定位信源的所属地信息;对信源进行分类得到信源分类信息;根据信源属地信息和信源分类信息确定每一个属地对应的属地信源,并将属地信源推送至对应属地上的客户;实现了属地信源的准确定位和推送。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例的属地媒体信源推送方法的一个具体示例的流程图;
图2为本发明实施例的属地媒体信源推送系统的一个具体示例的框图;
图3为本发明实施例的电子设备的示意图。
具体实施方式
下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供了一种属地媒体信源推送方法,如图1所示,该方法包括步骤S1-S8。
步骤S1:获取互联网上信源的域名。
本实施例中,信源是信息的来源,互联网上信源指的是互联网上信息的来源,具体可包括网站、微博、微信、短视频、头条、搜狐、贴吧等,本实施例中对此仅作示意性描述,不以此为限;当然,在其它实施例中,还可以包括互联网上的其它信息来源,如网易、腾讯等。
本实施例中,通过网络爬虫爬取到每一个信源的初始域名,将初始域名中的“www.”和结尾的“/”去除掉,保留下来的部分作为信源的域名。例如,信源是微博,对应的域名是weibo.com;信源是头条,对应的域名是toutiao.com。
步骤S2:根据域名确定信源对应的媒体类型,所述媒体类型包括网站和新媒体。
本实施例中,信源的媒体类型包括两类,一种类型是网站,另一种类型是新媒体,新媒体指的是除了网站以外的其它信源,具体可包括微博、微信公众号、短视频、头条、贴吧、百家号、网易号、企鹅号、搜狐号、大风号,本实施例中对此仅作示意性描述,不以此为限。
本实施例中,预先对现有互联网上的信源类型进行划分。具体的,新浪微博和新浪长微博,类型统一为微博;抖音、B站等短视频,类型统一为短视频,媒体平台分别对应抖音和哔哩哔哩;今日头条及其各个频道,类型统一为头条;百度百家类型统一为百家号;企鹅号、腾讯新闻、腾讯看点,类型统一为企鹅号;搜狐新闻、搜狐号,类型统一为搜狐号;凤凰网类型为大风号;网易、网易新闻、网易号,类型统一为网易号。当获取到信源的域名后,根据域名可确定信源的类型,进而得到信源的媒体类型。
步骤S3:若信源的媒体类型为网站,则根据网站备案地、网站工商注册地、网站内容发布地、网站内容提及地和网站物理IP地址确定网站类型信源对应的属地信息。
本实施例中,当信源的媒体类型为网站时,先确定网站是否有网站备案地和工商注册地址,若存在备案地和工商注册地址,则根据网站的备案地、工商注册信息确定网站信源的属地信息;若不存在备案地和工商注册地址,则根据内容发布地、内容提及地、网站物理IP地址确定网站信源的属地信息。
步骤S4:若信源的媒体类型为新媒体,则根据新媒体注册地、新媒体内容发布地、新媒体内容提及地和新媒体签到地确定新媒体类型的信源对应的属地信息。
本实施例中,当信源的媒体类型为新媒体时,先确定新媒体网站的注册地是否存在,若存在注册地,则根据注册地确定新媒体网站的属地信息;若不存在注册地,则根据内容发布地、内容提及地、签到地确定新媒体类型的属地信息。
步骤S5:获取信源对应的认证类型。
本实施例中,信源对应的认证类型用于表征信源的主办单位性质及账号主体性质,是按照职能划分和重要等级对信源进行分级管理,具体可包括政府和属地;本实施例中对此仅作示意性说明,不以此为限。
步骤S6:根据信源的媒体类型和认证类型对信源进行分类,得到信源分类信息。
本实施例中,将信源的媒体类型和认证类型进行综合分类,得到信源的信源分类信息。媒体类型包括网站和新媒体,认证类型包括政府和属地,上述信源分类信息包括政府网站、政务新媒体、属地网站和属地新媒体。
其中,政府网站包括政府门户网站和部门网站。政府门户网站是指县级及以上各级人民政府、国务院部门开设的政府门户网站;部门网站是指省级、地市级政府部门,以及实行全系统垂直管理部门设在地方的县处级以上机构开设的本单位网站。
政务新媒体是指政府机构为主体、在各平台创建的发布渠道账号。例如:政务头条号指今日头条的政务公共信息发布平台。
备案地、运营地、内容发布地、负责人所在地为本地的所有网站都是属地网站。
注册地、运营地、内容发布地、负责人所在地为本地的除网站外的所有信源都是属地新媒体。
步骤S7:根据信源的属地信息和信源分类信息得到每一个属地对应的属地信源。
本实施例中,将信源的属地信息和信源分类信息进行比较,得到属地对应的信源,这些信源便是该属地对应的属地信源。由于信源分类信息包括四类,故属地信源也相应的分为四类。
例如,信源为长治网,信源的属地信息为山西省,信源分类信息为政府网站,则长治网是山西省对应的政府网站信源。
又例如,信源为长治某企业网站,信源的属地信息为山西省,信源分类信息为属地网站,则长治某企业网站时山西省对应的属地网站信源。
步骤S8:根据客户所属地域推送所属地域对应的属地信源。
本实施例中,根据客户所在地确定客户所属地域,将客户所属地域与属地信源进行匹配,找到客户所属地域对应的属地信源,并将对应的属地信源推送给客户。具体的,客户的所属地域为山西省长治市,则将所有属地为山西省长治市的政府网站信源、政务新媒体信源、属地网站信源和属地新媒体信源作为客户所属地域的属地信源;之后,将这些属地信源推送给客户。
上述步骤,先根据互联网上信源的域名得到信源对应的媒体类型;当信源的媒体类型是网站时,根据网站备案地、网站工商注册地、网站内容发布地、网站内容提及地和网站物理IP地址确定网站类型信源对应的属地信息;当信源的媒体类型是新媒体时,根据新媒体注册地、新媒体内容发布地、新媒体内容提及地和新媒体签到地确定新媒体类型的信源对应的属地信息;然后,根据信源对应的认证类型和媒体类型对信源进行分类,得到信源的分类信息;之后,根据信源的属地信息和信源分类信息确定属地对应的属地信源;最后,根据客户所属地域推送属地信源。该方法先根据信源的注册地、内容发布地、提及地、签到地、备案地等多维度信息准确定位信源的所属地信息;对信源进行分类得到信源分类信息;根据信源属地信息和信源分类信息确定每一个属地对应的属地信源,并将属地信源推送至对应属地上的客户;实现了属地信源的准确定位和推送。
作为示例性的实施例,步骤S3若信源的媒体类型为网站,则根据网站备案地、网站工商注册地、网站内容发布地、网站内容提及地和网站物理IP地址确定网站类型信源对应的属地信息的步骤中,包括步骤S301-S310。
S301:若信源的媒体类型为网站,则判断信源的网站备案地址或者网站工商注册地是否存在。
本实施例中,当信源的媒体类型是网站时,先判断信源的网站备案地址或者网站工商注册地是否存在。若存在,则执行步骤S302;若不存在,则执行步骤S303。
本实施例中,网站备案地址是根据ICP备案号确定的,网站工商注册地是根据网站在注册时填写的注册地址确定的。由于网站备案地址或者网站工商注册地是经过工业和信息化部政务服务平台认证过的信息,信息的准确度较高。
S302:若网站备案地址或者网站工商注册地存在,则根据网站备案地址或者网站工商注册地确定信源对应的网站地域标签。
本实施例中,当网站备案地址或者网站工商注册地存在,则根据网站备案地址或者网站工商注册地,这两个信息中的任何一个即可确定信源对应的网站地域,进而根据预先设置好的地域uuid确定网站地域标签。
本实施例中,将全国的省、市、区/县预先设置唯一的uuid,使得每一个uuid唯一对应一个地域。
S303:若网站备案地址和网站工商注册地均不存在,则根据第一预设时间内的网站发布内容进行网站内容发布地的统计,得到网站发布地占比。
本实施例中,当网站备案地址和网站工商注册地均不存在时,也就是网站备案地址和网站工商注册地均无法确定网站的属地信息,则需要根据第一预设时间内的网站发布内容进行网站内容发布地的统计,得到网站发布地占比。
本实施例中,第一预设时间是从最后一次获取到信息倒推半年计算的。具体第一预设时间可设置为半年,本实施例中对此仅作示意性说明,不以此为限,在其它实施例中可根据实际需要合理设置即可。
具体的,对一个信源第一预设时间内所有网站发布内容的发布地进行统计,得到第一预设时间内在每一个发布地所发布内容的条数,然后将发布地发布内容的条数除以第一预设时间内网站发布内容的总条数,这洋便得到了每一个网站发布地占比。
例如,第一预设时间内网站发布内容的总条数为n条,在某一个内容发布地的发布内容的条数为m条,则该网站内容发布地的占比为m/n。
S304:判断网站发布地占比是否大于第一预设比例值。
本实施例中,第一预设比例值是根据经验值确定的,具体可设置为60%,本实施例中对此仅作示意性说明,不以此为限,根据实际需要合理设置即可。若网站发布地占比大于第一预设比例值,则执行步骤S305;若网站发布地占比不大于第一预设比例值,则执行步骤S306。
S305:若网站发布地占比大于第一预设比例值,则根据网站发布地占比确定信源对应的网站发布地标签。
本实施例中,当网站发布地占比大于第一预设比例值时,说明该网站类型信源在网站发布地占比大于第一预设比例值的地域上发布的内容较多,故将网站发布地占比大于第一预设比例值的地域作为信源的网站发布地标签。
S306:若网站发布地占比不大于第一预设比例值,则根据第二预设时间内的网站发布内容进行网站内容提及地的统计,得到网站提及地占比。
本实施例中,当发布地占比小于或者等于第一预设比例值,说明网站内容发布地比较分散,根据内容发布地确定地域属性不准确,故根据第二预设时间内的网站发布内容进行网站内容提及地的统计,得到网站提及地占比。
本实施例中,第二预设时间是根据经验值确定的,具体的第二预设时间可设置为半年,本实施例中对此仅作示意性说明,不以此为限,在其它实施例中可根据实际需要合理设置即可。
具体的,对一个信源第二预设时间内所有网站发布内容的内容提及地进行统计,得到第二预设时间内在每一个提及地出现的次数和所有发布内容中出现的提及地总次数,然后将这个提及地出现的次数除以第二预设时间内所有发布内容中所有提及地出现的次数,这样便得到了每一个网站提及地占比。
例如,第二预设时间内网站提及地总次数为y条,在某一个内容提及地出现的次数为x条,则该内容提及地的占比为x/y。
S307:判断网站提及地占比是否大于第二预设比例值。
本实施例中,第二预设比例值是根据经验值确定的,具体的第二预设比例值设置为60%,本实施例中对此仅作示意性说明,不以此为限,在其它实施例中根据实际需要合理设置即可。若提及地占比大于第二预设比例值,则执行步骤S308;若提及地占比不大于第二预设比例值,则执行步骤S309。
S308:若网站提及地占比大于第二预设比例值,则根据网站提及地占比确定信源对应的网站提及地标签。
本实施例中,当网站提及地占比大于第二预设比例值,说明该提及地在网站发布内容中提及的次数较多,故将该网站提及地占比对应的提及地作为信源对应的网站提及地,并将该网站提及地打上标签,作为网站提及地标签。
S309:若网站提及地占比不大于第二预设比例值,则根据网站物理IP地址确定信源对应的网站物理地址标签。
本实施例中,当网站提及地占比小于或者等于第二预设比例值时,说明网站提及地不集中较分散,故根据网站物理IP地址确定信源对应的网站物理地址标签。
S310:根据网站地域标签、网站发布地标签、网站提及地标签和网站物理地址标签确定网站类型的信源对应的属地信息。
本实施例中,根据客户需求先确定所需要的网站信源标签,客户需求中可以包括网站地域标签、网站发布地标签、网站提及地标签和网站物理地址标签中至少一个标签,这些都是依据客户实际需要确定的。之后,将客户需求中的标签对应的地域作为网站类型的信源对应的属地信息。
上述步骤,对于媒体类型为网站的信源来说,先判断信源的网站备案地址或工商注册地是否存在;当备案地址或工商注册地存在时,则根据备案地址或工商注册地确定网站信源对应的网站地域标签;当备案地址或者工商注册地不存在时,则对网站内容发布地进行统计得到网站发布地占比,当网站发布地占比大于第一预设比例值时,根据发布地占比确定网站发布地标签;当网站发布地占比不大于第一预设比例值时,对网站内容提及地进行统计得到网站提及地占比,当网站提及地占比大于第二预设比例值时,根据提及地确定网站提及地标签;当网站提及地不大于第二预设比例值时,根据网站物理IP地址确定网站物理地址标签;最后,根据网站地域标签、网站发布地标签、网站提及地标签和网站物理地址标签确定信源的属地信息。通过网站备案地、网站工商注册地、网站内容发布地、网站内容提及地和网站物理IP地址多维度的信息综合确定信源的属地信息,实现了网站类型信源属地的准确定位。
作为示例性的实施例,步骤S4若信源的媒体类型为新媒体,则根据新媒体注册地、新媒体内容发布地、新媒体内容提及地和新媒体签到地确定新媒体类型的信源对应的属地信息的步骤中,包括步骤S401-S410。
步骤S401:若信源的媒体类型为新媒体,则判断信源的新媒体注册地是否存在。
本实施例中,当信源的媒体类型为新媒体时,先根据信源的新媒体注册地进行判断,若新媒体注册地存在,则执行步骤S402;若新媒体注册地不存在,则执行步骤S403。
步骤S402:若新媒体注册地存在,则根据新媒体注册地确定信源对应的新媒体地域标签。
本实施例中,当新媒体注册地存在时,则将新媒体注册地作为信源对应的新媒体地域,并将新媒体注册地对应的地域打上标签,作为新媒体地域标签。
步骤S403:若新媒体注册地不存在,则根据第三预设时间内的新媒体发布内容进行新媒体内容发布地的统计,得到新媒体发布地占比。
本实施例中,当新媒体注册地不存在时,根据第三预设时间内的新媒体发布内容确定新媒体内容发布地占比。
本实施例中,第三预设时间是根据经验值确定的,具体第三预设时间可设置为半年,本实施例中对此仅作示意性说明,不以此为限,在其它实施例中可根据实际需要合理设置即可。
具体的,对一个信源第三预设时间内所有新媒体发布内容的发布地进行统计,得到第三预设时间内在每一个发布地所发布内容的条数,然后将发布地发布内容的条数除以第三预设时间内新媒体发布内容的总条数,这样便得到了每一个新媒体发布地占比。
例如,第三预设时间内新媒体发布内容的总条数为A条,在某一个内容发布地的发布内容的条数为B条,则该新媒体内容发布地的占比为B/A。
步骤S404:判断新媒体发布地占比是否大于第三预设比例值。
本实施例中,第三预设比例值是根据经验值确定的,具体可设置为60%,本实施例中对此仅作示意性说明,不以此为限,根据实际需要合理设置即可。若新媒体发布地占比大于第三预设比例值,则执行步骤S405;若新媒体发布地占比不大于第三预设比例值,则执行步骤S406。
步骤S405:若新媒体发布地占比大于第三预设比例值,则根据新媒体发布地占比确定信源对应的新媒体发布地标签。
本实施例中,当新媒体发布地占比大于第三预设比例值时,说明该新媒体类型信源在新媒体发布地占比大于第三预设比例值的地域上发布的内容较多,故将新媒体发布地占比大于第三预设比例值的地域作为信源的新媒体发布地标签。
步骤S406:若新媒体发布地占比不大于第三预设比例值,则根据第四预设时间内的新媒体发布内容进行新媒体内容提及地的统计,得到新媒体提及地占比。
本实施例中,当发布地占比小于或者等于第三预设比例值,说明新媒体内容发布地比较分散,根据内容发布地确定地域属性不准确,故根据第四预设时间内的新媒体发布内容进行新媒体内容提及地的统计,得到新媒体提及地占比。
步骤S407:判断新媒体提及地占比是否大于第四预设比例值。
本实施例中,第四预设比例值是根据经验值确定的,具体的第四预设比例值设置为60%,本实施例中对此仅作示意性说明,不以此为限,在其它实施例中根据实际需要合理设置即可。若新媒体提及地占比大于第四预设比例值,则执行步骤S408;若新媒体提及地占比不大于第四预设比例值,则执行步骤S409。
步骤S408:若新媒体提及地占比大于第四预设比例值,则根据新媒体提及地占比确定信源对应的新媒体提及地标签
本实施例中,当新媒体提及地占比大于第四预设比例值,说明该新媒体提及地在新媒体发布内容中提及的次数较多,故将该新媒体提及地占比对应的提及地作为信源对应的新媒体提及地,并将该新媒体提及地打上标签,作为新媒体提及地标签。
步骤S409:若新媒体提及地占比不大于第四预设比例值,则根据新媒体签到地确定信源对应的新媒体物理地址标签。
本实施例中,当新媒体提及地占比小于或者等于第四预设比例值时,说明新媒体提及地不集中较分散,故根据新媒体签到地确定信源对应的新媒体物理地址标签。
步骤S410:根据新媒体地域标签、新媒体发布地标签、新媒体提及地标签和新媒体物理地址标签确定新媒体类型的信源对应的属地信息。
本实施例中,根据客户需求先确定所需要的新媒体信源标签,客户需求中可以包括新媒体地域标签、新媒体发布地标签、新媒体提及地标签和新媒体物理地址标签中至少一个标签,这些都是依据客户实际需要确定的。之后,将客户需求中的标签对应的地域作为新媒体类型的信源对应的属地信息。
上述步骤,对于媒体类型为新媒体的信源来说,先判断信源的新媒体注册地是否存在;当注册地存在时,则根据注册地确定新媒体信源对应的新媒体地域标签;当注册地不存在时,则对新媒体内容发布地进行统计得到新媒体发布地占比,当新媒体发布地占比大于第三预设比例值时,根据发布地占比确定新媒体发布地标签;当新媒体发布地占比不大于第三预设比例值时,对新媒体内容提及地进行统计得到新媒体提及地占比,当新媒体提及地占比大于第四预设比例值时,根据提及地确定新媒体提及地标签;当新媒体提及地不大于第四预设比例值时,根据新媒体签到地确定新媒体物理地址标签;最后,根据新媒体地域标签、新媒体发布地标签、新媒体提及地标签和新媒体物理地址标签确定信源的属地信息。通过新媒体注册地、新媒体内容发布地、新媒体内容提及地和新媒体签到地多维度的信息综合确定信源的属地信息,实现了信源属地的准确定位。
作为示例性的实施例,步骤S5获取信源对应的认证类型的步骤中,包括步骤S501-S505。
步骤S501:获取认证类型和主体性质的映射关系;认证类型包括第一预设类型和第二预设类型。
本实施例中,认证类型包括第一预设类型和第二预设类型,具体的第一预设类型为政府机关,第二预设类型为非政府机关。主体性质包括政府机关、事业单位、企业、国防机构、个人、社会团体、民办非企业单位和基金会。本实施例中对第二预设类型仅作示意性说明,不以此为限;在其它实施例中可根据实际情况合理设置。
认证类型和主体性质的映射关系为第一预设类型对应政府机关,第二预设类型对应事业单位、企业、国防机构、个人、社会团体、民办非企业单位和基金会。
步骤S502:获取信源的认证主体性质。
本实施例中,网站信源是指在工业和信息化部政务服务平台备案过的网站,这些网站按规定必须有认证主体性质,不存在为空的情况。但新媒体信源,因各平台认证规则不一,且认证信源只占一小部分,所以需要做新媒体信源认证性质的整合以及为空时的自主判断。在获取互联网公开数据的同时采集信源的公开信息,从中获得了认证主体性质。
步骤S503:判断所述认证主体性质是否为空。若认证主体性质不为空,则执行步骤S504;若认证主体性质为空,则执行步骤S505。
步骤S504:若所述认证主体性质不为空,则根据认证主体性质确定信源的认证类型。
本实施例中,当认证主体性质不为空时,根据信源的认证主体性质和映射关系确定信源的认证类型。
例如,认证主体性质不为空,则认证主体性质是确定的,根据确定的信源认证主体性质在映射关系中查找到该认证主体性质对应的认证类型。
步骤S505:若所述认证主体性质为空,则获取信源的信源名称,并根据信源名称和预设关键词确定信源的认证类型。
本实施例中,当认证主体性质为空,则认证主体性质无法确定,需要进一步根据信源名称确定信源的认证类型。
具体的,预设关键词可以包括政府机关关键词、事业单位关键词。信源名称中含有“厅、部、委、科、局”,认证主体性质为政府机关。
信源名称中含有“集团、公司、店、中心”,认证主体性质为企业。其它信源认证主体性质默为个人。根据信源名称和预设关键词先得到信源对应的认证主体性质,然后在根据认证类型和主体性质的映射关系确定信源的认证类型。
上述步骤,先获取认证类型和主体性质的映射关系;获取信源的认证主体性质;当认证主体性质不为空时,根据信源认证主体性质和映射关系确定信源的认证类型;当认证主体性质为空时,根据信源名称和预设关键词确定信源的认证类型。通过上述步骤准确确定信源的认证类型,以便客户对信源进行分类管理。
作为示例性的实施例,步骤S6根据信源的媒体类型和认证类型对信源进行分类,得到信源分类信息的步骤中,包括步骤S601-S605。
步骤S601:判断信源的媒体类型是否为网站且信源的认证类型是否为第一预设类型。
本实施例中,若媒体类型是网站且认证类型为第一预设类型,则执行步骤S602;若媒体类型是网站且认证类型为第二预设类型,则执行步骤S603;若媒体类型是新媒体且认证类型为第一预设类型,则执行步骤S604;若媒体类型是新媒体且认证类型为第二预设类型,则执行步骤S605。
步骤S602:若信源的媒体类型为网站且信源的认证类型为第一预设类型,则信源的分类信息为第一分类。
本实施例中,当信源的媒体类型为网站,并且信源的认证类型为第一预设类型,第一预设类型为政府机关,则信源的分类信息为第一分类,第一分类为政府网站。
步骤S603:若信源的媒体类型为网站且信源的认证类型不为第一预设类型,则信源的分类信息为第二分类。
本实施例中,当信源的媒体类型为网站,并且信源的认证类型不为第一预设类型,信源的认证类型为第二预设类型,第二预设类型为非政府机关,则信源的分类信息为第二分类,第二分类为属地网站。
步骤S604:若信源的媒体类型不为网站且信源的认证类型为第一预设类型,则信源的分类信息为第三分类。
本实施例中,当信源的媒体类型不为网站,媒体类型为新媒体,并且信源的认证类型为第一预设类型,第一预设类型为政府机关,则信源的分类信息为第三分类,第三分类为政务新媒体。
步骤S605:若信源的媒体类型不为网站且信源的认证类型不为第一预设类型,则信源的分类信息为第四分类。
本实施例中,当信源的媒体类型不为网站,媒体类型为新媒体,并且信源的认证类型不为第一预设类型,认证类型为第二预设类型,第二预设类型为非政府机关,则信源的分类信息为第四分类,第四分类为属地新媒体。
上述步骤,根据信源的媒体类型和认证类型将信源分为四大类,分别为政府网站、政务新媒体、属地网站和属地新媒体,按照职能和重要等级划分,便于对属地媒体进行分级分类管理。
作为示例性的实施例,步骤S7根据信源的属地信息和信源分类信息得到每一个属地对应的属地信源的步骤之后,还包括步骤S9。
步骤S9:对属地信源进行过滤处理,得到过滤后的属地信源。
本实施例中,对属地信源进行过滤处理,去除不符合要求的信源,得到过滤后的属地信源。
具体的过滤规则如下所示。
去除ICP备案信息为空的信源;去除网站名称为空的信源;去除网站域名为空的信源;去除网站名称小于三个字的信源(不含三个字,一个字母或数字为一个字,特殊符号“()-”不为一个字);去除网站名称为纯数字、纯英文、包含除“()-”外的特殊符号和敏感词汇的信源;去除网站名称和域名同时一致的信源;去除认证单位名称中纯数字、特殊字符、纯英文的信源。
上述步骤,对属地信源进行过滤处理,去除不符合要求的信源,保证推送的信源的质量,提高了信源推送的准确性。
在本实施例中还提供了一种属地媒体信源推送系统,该系统用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的系统较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
本实施例还提供一种属地媒体信源推送系统,如图2所示,包括:
第一获取模块,用于获取互联网上信源的域名;
第一处理模块,用于根据域名确定信源对应的媒体类型,所述媒体类型包括网站和新媒体;
第二处理模块,用于若信源的媒体类型为网站,则根据网站备案地、网站工商注册地、网站内容发布地、网站内容提及地和网站物理IP地址确定网站类型信源对应的属地信息;
第三处理模块,用于若信源的媒体类型为新媒体,则根据新媒体注册地、新媒体内容发布地、新媒体内容提及地和新媒体签到地确定新媒体类型的信源对应的属地信息;
第二获取模块,用于获取信源对应的认证类型;
第四处理模块,用于根据信源的媒体类型和认证类型对信源进行分类,得到信源分类信息;
第五处理模块,用于根据信源的属地信息和信源分类信息得到每一个属地对应的属地信源;
第六处理模块,用于根据客户所属地域推送所属地域对应的属地信源。
作为示例性的实施例,所述第二处理模块包括:第一判断单元,用于若信源的媒体类型为网站,则判断信源的网站备案地址或者网站工商注册地是否存在;第一处理单元,用于若网站备案地址或者网站工商注册地存在,则根据网站备案地址或者网站工商注册地确定信源对应的网站地域标签;第二处理单元,用于若网站备案地址和网站工商注册地均不存在,则根据第一预设时间内的网站发布内容进行网站内容发布地的统计,得到网站发布地占比;第二判断单元,用于判断网站发布地占比是否大于第一预设比例值;第三处理单元,用于若网站发布地占比大于第一预设比例值,则根据网站发布地占比确定信源对应的网站发布地标签;第四处理单元,用于若网站发布地占比不大于第一预设比例值,则根据第二预设时间内的网站发布内容进行网站内容提及地的统计,得到网站提及地占比;第三判断单元,用于判断网站提及地占比是否大于第二预设比例值;第五处理单元,用于若网站提及地占比大于第二预设比例值,则根据网站提及地占比确定信源对应的网站提及地标签;第六处理单元,用于若网站提及地占比不大于第二预设比例值,则根据网站物理IP地址确定信源对应的网站物理地址标签;第七处理单元,用于根据网站地域标签、网站发布地标签、网站提及地标签和网站物理地址标签确定网站类型的信源对应的属地信息。
作为示例性的实施例,所述第三处理模块包括:第四判断单元,用于若信源的媒体类型为新媒体,则判断信源的新媒体注册地是否存在;第八处理单元,用于若新媒体注册地存在,则根据新媒体注册地确定信源对应的新媒体地域标签;第九处理单元,用于若新媒体注册地不存在,则根据第三预设时间内的新媒体发布内容进行新媒体内容发布地的统计,得到新媒体发布地占比;第五判断单元,用于判断新媒体发布地占比是否大于第三预设比例值;第十处理单元,用于若新媒体发布地占比大于第三预设比例值,则根据新媒体发布地占比确定信源对应的新媒体发布地标签;第十一处理单元,用于若新媒体发布地占比不大于第三预设比例值,则根据第四预设时间内的新媒体发布内容进行新媒体内容提及地的统计,得到新媒体提及地占比;第六判断单元,用于判断新媒体提及地占比是否大于第四预设比例值;第十二处理单元,用于若新媒体提及地占比大于第四预设比例值,则根据新媒体提及地占比确定信源对应的新媒体提及地标签;第十三处理单元,用于若新媒体提及地占比不大于第四预设比例值,则根据新媒体签到地确定信源对应的新媒体物理地址标签;第十四处理单元,用于根据新媒体地域标签、新媒体发布地标签、新媒体提及地标签和新媒体物理地址标签确定新媒体类型的信源对应的属地信息。
作为示例性的实施例,所述第二获取模块包括:第一获取单元,用于获取认证类型和主体性质的映射关系;认证类型包括第一预设类型和第二预设类型;第二获取单元,用于获取信源的认证主体性质;第七判断单元,用于判断所述认证主体性质是否为空;第十五处理单元,用于若所述认证主体性质不为空,则根据认证主体性质确定信源的认证类型;第十六处理单元,用于若所述认证主体性质为空,则获取信源的信源名称,并根据信源名称和预设关键词确定信源的认证类型。
作为示例性的实施例,所述认证主体性质包括政府机关、事业单位、企业、国防机构、个人、社会团体、民办非企业单位和基金会;第一预设类型对应政府机关,第二预设类型对应事业单位、企业、国防机构、个人、社会团体、民办非企业单位和基金会。
作为示例性的实施例,所述第四处理模块包括:第八判断单元,用于判断信源的媒体类型是否为网站且信源的认证类型是否为第一预设类型;第十七处理单元,用于若信源的媒体类型为网站且信源的认证类型为第一预设类型,则信源的分类信息为第一分类;第十八处理单元,用于若信源的媒体类型为网站且信源的认证类型不为第一预设类型,则信源的分类信息为第二分类;第十九处理单元,用于若信源的媒体类型不为网站且信源的认证类型为第一预设类型,则信源的分类信息为第三分类;第二十处理单元,用于若信源的媒体类型不为网站且信源的认证类型不为第一预设类型,则信源的分类信息为第四分类。
作为示例性的实施例,还包括:第七处理模块,用于对属地信源进行过滤处理,得到过滤后的属地信源。
本实施例中的属地媒体信源推送系统是以功能单元的形式来呈现,这里的单元是指ASIC电路,执行一个或多个软件或固定程序的处理器和存储器,和/或其他可以提供上述功能的器件。
上述各个模块的更进一步的功能描述与上述对应实施例相同,在此不再赘述。
本发明实施例还提供了一种电子设备,如图3所示,该电子设备包括一个或多个处理器71以及存储器72,图3中以一个处理器71为例。
该控制器还可以包括:输入装置73和输出装置74。
处理器71、存储器72、输入装置73和输出装置74可以通过总线或者其他方式连接,图3中以通过总线连接为例。
处理器71可以为中央处理器(Central Processing Unit,CPU)。处理器71还可以为其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片,或者上述各类芯片的组合。通用处理器可以是微处理器或者是任何常规的处理器等。
存储器72作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块,如本申请实施例中的属地媒体信源推送方法对应的程序指令/模块。处理器71通过运行存储在存储器72中的非暂态软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例的属地媒体信源推送方法。
存储器72可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据服务器操作的处理装置的使用所创建的数据等。此外,存储器72可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中,存储器72可选包括相对于处理器71远程设置的存储器,这些远程存储器可以通过网络连接至网络连接装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入装置73可接收输入的数字或字符信息,以及产生与服务器的处理装置的用户设置以及功能控制有关的键信号输入。输出装置74可包括显示屏等显示设备。
一个或者多个模块存储在存储器72中,当被一个或者多个处理器71执行时,执行如图1所示的方法。
本领域技术人员可以理解,实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指示相关的硬件来完成,被执行的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述属地媒体信源推送方法的实施例的流程。其中,存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)、随机存储记忆体(RandomAccess Memory,RAM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive,缩写:HDD)或固态硬盘(Solid-State Drive,SSD)等;存储介质还可以包括上述种类的存储器的组合。
虽然结合附图描述了本发明的实施方式,但是本领域技术人员可以在不脱离本发明的精神和范围的情况下作出各种修改和变型,这样的修改和变型均落入由所附权利要求所限定的范围之内。

Claims (8)

1.一种属地媒体信源推送方法,其特征在于,包括:
获取互联网上信源的域名;
根据域名确定信源对应的媒体类型,所述媒体类型包括网站和新媒体;
若信源的媒体类型为网站,则根据网站备案地、网站工商注册地、网站内容发布地、网站内容提及地和网站物理IP地址确定网站类型信源对应的属地信息;
若信源的媒体类型为网站,则根据网站备案地、网站工商注册地、网站内容发布地、网站内容提及地和网站物理IP地址确定网站类型信源对应的属地信息的步骤中,包括:若信源的媒体类型为网站,则判断信源的网站备案地址或者网站工商注册地是否存在;若网站备案地址或者网站工商注册地存在,则根据网站备案地址或者网站工商注册地确定信源对应的网站地域标签;若网站备案地址和网站工商注册地均不存在,则根据第一预设时间内的网站发布内容进行网站内容发布地的统计,得到网站发布地占比;判断网站发布地占比是否大于第一预设比例值;若网站发布地占比大于第一预设比例值,则根据网站发布地占比确定信源对应的网站发布地标签;若网站发布地占比不大于第一预设比例值,则根据第二预设时间内的网站发布内容进行网站内容提及地的统计,得到网站提及地占比;判断网站提及地占比是否大于第二预设比例值;若网站提及地占比大于第二预设比例值,则根据网站提及地占比确定信源对应的网站提及地标签;若网站提及地占比不大于第二预设比例值,则根据网站物理IP地址确定信源对应的网站物理地址标签;根据网站地域标签、网站发布地标签、网站提及地标签和网站物理地址标签确定网站类型的信源对应的属地信息;
若信源的媒体类型为新媒体,则根据新媒体注册地、新媒体内容发布地、新媒体内容提及地和新媒体签到地确定新媒体类型的信源对应的属地信息;
若信源的媒体类型为新媒体,则根据新媒体注册地、新媒体内容发布地、新媒体内容提及地和新媒体签到地确定新媒体类型的信源对应的属地信息的步骤中,包括:若信源的媒体类型为新媒体,则判断信源的新媒体注册地是否存在;若新媒体注册地存在,则根据新媒体注册地确定信源对应的新媒体地域标签;若新媒体注册地不存在,则根据第三预设时间内的新媒体发布内容进行新媒体内容发布地的统计,得到新媒体发布地占比;判断新媒体发布地占比是否大于第三预设比例值;若新媒体发布地占比大于第三预设比例值,则根据新媒体发布地占比确定信源对应的新媒体发布地标签;若新媒体发布地占比不大于第三预设比例值,则根据第四预设时间内的新媒体发布内容进行新媒体内容提及地的统计,得到新媒体提及地占比;判断新媒体提及地占比是否大于第四预设比例值;若新媒体提及地占比大于第四预设比例值,则根据新媒体提及地占比确定信源对应的新媒体提及地标签;若新媒体提及地占比不大于第四预设比例值,则根据新媒体签到地确定信源对应的新媒体物理地址标签;根据新媒体地域标签、新媒体发布地标签、新媒体提及地标签和新媒体物理地址标签确定新媒体类型的信源对应的属地信息;
获取信源对应的认证类型;
根据信源的媒体类型和认证类型对信源进行分类,得到信源分类信息;
根据信源的属地信息和信源分类信息得到每一个属地对应的属地信源;
根据客户所属地域推送所属地域对应的属地信源。
2.根据权利要求1所述的属地媒体信源推送方法,其特征在于,获取信源对应的认证类型的步骤中,包括:
获取认证类型和主体性质的映射关系;认证类型包括第一预设类型和第二预设类型;
获取信源的认证主体性质;
判断所述认证主体性质是否为空;
若所述认证主体性质不为空,则根据认证主体性质确定信源的认证类型;
若所述认证主体性质为空,则获取信源的信源名称,并根据信源名称和预设关键词确定信源的认证类型。
3.根据权利要求2所述的属地媒体信源推送方法,其特征在于,所述认证主体性质包括政府机关、事业单位、企业、国防机构、个人、社会团体、民办非企业单位和基金会;第一预设类型对应政府机关,第二预设类型对应事业单位、企业、国防机构、个人、社会团体、民办非企业单位和基金会。
4.根据权利要求2所述的属地媒体信源推送方法,其特征在于,根据信源的媒体类型和认证类型对信源进行分类,得到信源分类信息的步骤中,包括:
判断信源的媒体类型是否为网站且信源的认证类型是否为第一预设类型;
若信源的媒体类型为网站且信源的认证类型为第一预设类型,则信源的分类信息为第一分类;
若信源的媒体类型为网站且信源的认证类型不为第一预设类型,则信源的分类信息为第二分类;
若信源的媒体类型不为网站且信源的认证类型为第一预设类型,则信源的分类信息为第三分类;
若信源的媒体类型不为网站且信源的认证类型不为第一预设类型,则信源的分类信息为第四分类。
5.根据权利要求1-4中任一所述的属地媒体信源推送方法,其特征在于,根据信源的属地信息和信源分类信息得到每一个属地对应的属地信源的步骤之后,还包括:
对属地信源进行过滤处理,得到过滤后的属地信源。
6.一种属地媒体信源推送系统,其特征在于,包括:
第一获取模块,用于获取互联网上信源的域名;
第一处理模块,用于根据域名确定信源对应的媒体类型,所述媒体类型包括网站和新媒体;
第二处理模块,用于若信源的媒体类型为网站,则根据网站备案地、网站工商注册地、网站内容发布地、网站内容提及地和网站物理IP地址确定网站类型信源对应的属地信息;
第二处理模块包括:第一判断单元,用于若信源的媒体类型为网站,则判断信源的网站备案地址或者网站工商注册地是否存在;第一处理单元,用于若网站备案地址或者网站工商注册地存在,则根据网站备案地址或者网站工商注册地确定信源对应的网站地域标签;第二处理单元,用于若网站备案地址和网站工商注册地均不存在,则根据第一预设时间内的网站发布内容进行网站内容发布地的统计,得到网站发布地占比;第二判断单元,用于判断网站发布地占比是否大于第一预设比例值;第三处理单元,用于若网站发布地占比大于第一预设比例值,则根据网站发布地占比确定信源对应的网站发布地标签;第四处理单元,用于若网站发布地占比不大于第一预设比例值,则根据第二预设时间内的网站发布内容进行网站内容提及地的统计,得到网站提及地占比;第三判断单元,用于判断网站提及地占比是否大于第二预设比例值;第五处理单元,用于若网站提及地占比大于第二预设比例值,则根据网站提及地占比确定信源对应的网站提及地标签;第六处理单元,用于若网站提及地占比不大于第二预设比例值,则根据网站物理IP地址确定信源对应的网站物理地址标签;第七处理单元,用于根据网站地域标签、网站发布地标签、网站提及地标签和网站物理地址标签确定网站类型的信源对应的属地信息;
第三处理模块,用于若信源的媒体类型为新媒体,则根据新媒体注册地、新媒体内容发布地、新媒体内容提及地和新媒体签到地确定新媒体类型的信源对应的属地信息;
第三处理模块包括:第四判断单元,用于若信源的媒体类型为新媒体,则判断信源的新媒体注册地是否存在;第八处理单元,用于若新媒体注册地存在,则根据新媒体注册地确定信源对应的新媒体地域标签;第九处理单元,用于若新媒体注册地不存在,则根据第三预设时间内的新媒体发布内容进行新媒体内容发布地的统计,得到新媒体发布地占比;第五判断单元,用于判断新媒体发布地占比是否大于第三预设比例值;第十处理单元,用于若新媒体发布地占比大于第三预设比例值,则根据新媒体发布地占比确定信源对应的新媒体发布地标签;第十一处理单元,用于若新媒体发布地占比不大于第三预设比例值,则根据第四预设时间内的新媒体发布内容进行新媒体内容提及地的统计,得到新媒体提及地占比;第六判断单元,用于判断新媒体提及地占比是否大于第四预设比例值;第十二处理单元,用于若新媒体提及地占比大于第四预设比例值,则根据新媒体提及地占比确定信源对应的新媒体提及地标签;第十三处理单元,用于若新媒体提及地占比不大于第四预设比例值,则根据新媒体签到地确定信源对应的新媒体物理地址标签;第十四处理单元,用于根据新媒体地域标签、新媒体发布地标签、新媒体提及地标签和新媒体物理地址标签确定新媒体类型的信源对应的属地信息;
第二获取模块,用于获取信源对应的认证类型;
第四处理模块,用于根据信源的媒体类型和认证类型对信源进行分类,得到信源分类信息;
第五处理模块,用于根据信源的属地信息和信源分类信息得到每一个属地对应的属地信源;
第六处理模块,用于根据客户所属地域推送所属地域对应的属地信源。
7.一种电子设备,其特征在于,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器执行权利要求1-5任意一项所述的属地媒体信源推送方法。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使所述计算机执行权利要求1-5任意一项所述的属地媒体信源推送方法。
CN202110954814.9A 2021-08-19 2021-08-19 属地媒体信源推送方法、系统、电子设备及存储介质 Active CN113792223B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110954814.9A CN113792223B (zh) 2021-08-19 2021-08-19 属地媒体信源推送方法、系统、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110954814.9A CN113792223B (zh) 2021-08-19 2021-08-19 属地媒体信源推送方法、系统、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN113792223A CN113792223A (zh) 2021-12-14
CN113792223B true CN113792223B (zh) 2023-11-21

Family

ID=79181828

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110954814.9A Active CN113792223B (zh) 2021-08-19 2021-08-19 属地媒体信源推送方法、系统、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN113792223B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101060539A (zh) * 2006-04-17 2007-10-24 中国电信股份有限公司 采用统一入口网站地址集成和推送多网站内容的方法及系统
CN104965847A (zh) * 2015-02-04 2015-10-07 北京奇虎科技有限公司 信息展示方法及装置
CN107346336A (zh) * 2017-06-29 2017-11-14 北京百度网讯科技有限公司 基于人工智能的信息处理方法和装置
WO2018150244A1 (en) * 2017-02-18 2018-08-23 Yogesh Chunilal Rathod Registering, auto generating and accessing unique word(s) including unique geotags
CN111506791A (zh) * 2020-04-10 2020-08-07 安徽博约信息科技股份有限公司 一种属地网站医药内容监测方法
CN111753171A (zh) * 2020-06-09 2020-10-09 北京天空卫士网络安全技术有限公司 一种恶意网站的识别方法和装置
CN113010703A (zh) * 2021-03-22 2021-06-22 腾讯科技(深圳)有限公司 一种信息推荐方法、装置、电子设备和存储介质
CN113220875A (zh) * 2021-04-09 2021-08-06 北京智慧星光信息技术有限公司 基于行业标签的互联网信息分类方法、系统及电子设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110238495A1 (en) * 2008-03-24 2011-09-29 Min Soo Kang Keyword-advertisement method using meta-information related to digital contents and system thereof

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101060539A (zh) * 2006-04-17 2007-10-24 中国电信股份有限公司 采用统一入口网站地址集成和推送多网站内容的方法及系统
CN104965847A (zh) * 2015-02-04 2015-10-07 北京奇虎科技有限公司 信息展示方法及装置
WO2018150244A1 (en) * 2017-02-18 2018-08-23 Yogesh Chunilal Rathod Registering, auto generating and accessing unique word(s) including unique geotags
CN107346336A (zh) * 2017-06-29 2017-11-14 北京百度网讯科技有限公司 基于人工智能的信息处理方法和装置
CN111506791A (zh) * 2020-04-10 2020-08-07 安徽博约信息科技股份有限公司 一种属地网站医药内容监测方法
CN111753171A (zh) * 2020-06-09 2020-10-09 北京天空卫士网络安全技术有限公司 一种恶意网站的识别方法和装置
CN113010703A (zh) * 2021-03-22 2021-06-22 腾讯科技(深圳)有限公司 一种信息推荐方法、装置、电子设备和存储介质
CN113220875A (zh) * 2021-04-09 2021-08-06 北京智慧星光信息技术有限公司 基于行业标签的互联网信息分类方法、系统及电子设备

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
domain name recommendation based on neural network;Kaoutar Benlamine等;peocedia computer science;第144卷;60-70 *
广播媒体融合发展的三种策略――基于当前国内多家电台融合实践的整体分析;熊科伟;;中国广播(第01期);19-25 *
我国互联网域名行业发展现状及态势;郭丰;嵇叶楠;高琦;;信息通信技术与政策(第12期);1-5 *

Also Published As

Publication number Publication date
CN113792223A (zh) 2021-12-14

Similar Documents

Publication Publication Date Title
Bradshaw et al. Sourcing and automation of political news and information over social media in the United States, 2016-2018
Stieglitz et al. The Adoption of social media analytics for crisis management–Challenges and Opportunities
Huggel et al. Loss and damage attribution
Ratcliffe Damned if you don't, damned if you do: Crime mapping and its implications in the real world
US9729590B2 (en) Digital communication and monitoring system and method designed for school communities
CN110855473A (zh) 一种监控方法、装置、服务器及存储介质
DE202010018500U1 (de) Verfeinerung von Standortschätzungen und Reverse Geocoding basierend auf einem Benutzerprofil
DE202012013463U1 (de) Das Erzeugen und Beobachten von Benachrichtigungen für einen geographischen Bereich
DE202011110866U1 (de) Identifizierung von Nachrichtenempfängern
CN105634855A (zh) 网络地址的异常识别方法及装置
US20150032707A1 (en) Systems and methods for pruning data by sampling
US9081797B2 (en) Systems and methods for associating microposts with geographic locations
US20150302019A1 (en) Event occurence place estimation method, computer-readable recording medium storing event occurrence place estimation program, and event occurrence place estimation apparatus
DE202016008357U1 (de) Entdeckung einer verbundenen entität
US20150213066A1 (en) System and method for creating data models from complex raw log files
US20130275180A1 (en) System and method for social-media generated transit agency content
Li et al. A cyberinfrastructure for community resilience assessment and visualization
Hunter et al. Understanding spatial data usability
CN103544150A (zh) 为移动终端浏览器提供推荐信息的方法及系统
CN114548059A (zh) 一种结构化数据的管理方法、装置、存储介质及电子设备
US20110202542A1 (en) Integration of voter and contributor data into political software and compliance systems for purposes of solicitation, compliance, vetting, and calls to action
CN113792223B (zh) 属地媒体信源推送方法、系统、电子设备及存储介质
WO2017152231A1 (en) "incident reporting"
CN109145307B (zh) 用户画像识别方法、推送方法、装置、设备和存储介质
CN109284833B (zh) 为机器学习模型获取特征数据的方法、设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant