CN111984786A - 一种基于新闻信息的智能吹哨预警方法及服务器 - Google Patents

一种基于新闻信息的智能吹哨预警方法及服务器 Download PDF

Info

Publication number
CN111984786A
CN111984786A CN202010826495.9A CN202010826495A CN111984786A CN 111984786 A CN111984786 A CN 111984786A CN 202010826495 A CN202010826495 A CN 202010826495A CN 111984786 A CN111984786 A CN 111984786A
Authority
CN
China
Prior art keywords
data
early warning
public opinion
news
news public
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010826495.9A
Other languages
English (en)
Inventor
郑创伟
丁芳桂
熊黄
何翼
何亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Creative Intelligence Port Technology Co ltd
Shenzhen News Network Media Co ltd
Original Assignee
Shenzhen Creative Intelligence Port Technology Co ltd
Shenzhen News Network Media Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Creative Intelligence Port Technology Co ltd, Shenzhen News Network Media Co ltd filed Critical Shenzhen Creative Intelligence Port Technology Co ltd
Priority to CN202010826495.9A priority Critical patent/CN111984786A/zh
Publication of CN111984786A publication Critical patent/CN111984786A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking
    • GPHYSICS
    • G08SIGNALLING
    • G08BSIGNALLING OR CALLING SYSTEMS; ORDER TELEGRAPHS; ALARM SYSTEMS
    • G08B21/00Alarms responsive to a single specified undesired or abnormal condition and not otherwise provided for
    • G08B21/18Status alarms
    • G08B21/182Level alarms, e.g. alarms responsive to variables exceeding a threshold
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/12Messaging; Mailboxes; Announcements
    • H04W4/14Short messaging services, e.g. short message services [SMS] or unstructured supplementary service data [USSD]

Abstract

本申请提供一种基于新闻信息的智能吹哨预警方法及服务器,所述基于新闻信息的智能吹哨预警方法包括步骤:服务器从预设指定网络站点自动化采集新闻舆情数据,然后将该新闻舆情数据进行初次智能化处理,并将处理后的数据保存数据库,再将保存数据库的数据进行二次智能化处理,然后根据预设的监测规则和预警规则对二次智能化处理后的数据进行监测,筛选出符合智能吹哨预警要求的新闻舆情数据,最后对符合智能吹哨预警要求的新闻舆情数据进行预警级别判定,并根据预警级别进行对应的预警处理;从而实现对互联网基于新闻信息的智能吹哨预警的采集、分析和预警,实现对各类网络舆情、新闻线索的实时监测发现和预警提示。

Description

一种基于新闻信息的智能吹哨预警方法及服务器
技术领域
本申请涉及数据处理技术领域,具体涉及一种基于新闻信息的智能吹哨预警方法,一种应用所述基于新闻信息的智能吹哨预警方法的服务器。
背景技术
随着移动互联网的发展,如今已经进入了一个数据爆炸的时代,如何让人们在海量的数据中找到他们需要的信息将变得越来越难。随着技术的不断更新迭代,逐渐出现了搜索引擎和推荐引擎来帮助人们更便捷的获取信息。
那么,如何能够结合基于新闻信息的海量历史数据,为编辑、记者等新闻媒体从业者提供快速、精准的、“千人千面”的个性化新闻线索推荐和智能吹哨预警支持,从海量新闻信息中高效、智能地获得受关注、感兴趣、有价值的目标新闻信息,切实增强舆情态势感知能力和新闻洞察力,有效提升办公效率和新闻创造能力,从而更加有力地支撑舆情监测、新闻追踪、新闻生产等业务工作,是当前需要解决的问题。
发明内容
本申请的目的在于,提供一种基于新闻信息的智能吹哨预警方法及服务器,能够实现对互联网基于新闻信息的智能吹哨预警的采集、分析和预警,从而能够在舆情发生的第一时间,从源头发现、掌握舆情动态,实现对编辑、记者“千人千面”的个性化新闻线索推荐,同时结合微信提醒、电话语音提醒,弹窗提醒等功能,实现对各类网络舆情、新闻线索的实时监测发现和预警提示。
为解决上述技术问题,本申请提供一种基于新闻信息的智能吹哨预警方法,作为其中一种实施方式,所述基于新闻信息的智能吹哨预警方法包括步骤:
服务器从预设指定网络站点自动化采集新闻舆情数据;
将所述新闻舆情数据进行初次智能化处理,并将处理后的数据保存数据库;
将保存数据库的数据进行二次智能化处理;
根据预设的监测规则和预警规则对所述二次智能化处理后的数据进行监测,筛选出符合智能吹哨预警要求的新闻舆情数据;
对所述符合智能吹哨预警要求的新闻舆情数据进行预警级别判定,并根据所述预警级别进行对应的预警处理。
进一步的,所述服务器从预设指定网络站点自动化采集新闻舆情数据的步骤之后还包括:
将采集的新闻舆情数据进行内容要素抽取,抽取所述新闻舆情数据的标题、正文、作者和时间等要素。
进一步的,所述将新闻舆情数据进行初次智能化处理的步骤包括:
根据预设的过滤规则对所述采集的新闻舆情数据进行清洗过滤,判断是否为垃圾数据,如果判断出为垃圾数据,则将所述垃圾数据丢弃;
再根据查重规则对已清洗过滤的新闻舆情数据进行查重分析,判断是否为重复数据,如果判断出为重复数据,则将所述重复数据丢弃。
进一步的,所述根据预设的过滤规则对所述采集的新闻舆情数据进行清洗过滤的步骤之后还包括:
对清洗过滤后的新闻舆情数据进行实体信息挖掘:抽取所述数据中的人名、地名、机构名等要素,并将所述要素存入keyword字段。
进一步的,所述将处理后的数据保存数据库的步骤包括:
将清洗过滤并查重后的数据、实体信息挖掘抽取的要素、以及内容要素抽取的要素等数据保存数据库。
进一步的,所述将保存数据库的数据进行二次智能化处理的步骤包括:
对所述初步智能化处理后的新闻舆情数据进行知识图谱分析,获得知识图谱识别数据表。
进一步的,所述对初步智能化处理后的新闻舆情数据进行知识图谱分析的步骤包括:
将新闻舆情数据进行信息抽取,获得新知识三元组,所述新知识三元组包括从所述新闻舆情数据中抽取的实体、属性信息以及实体间的相互关系的数据;
对所述新知识三元组进行知识融合;
对融合后的新知识三元组进行知识加工,保存符合预设质量要求的数据
进一步的,所述根据预设的监测规则和预警规则对所述二次智能化处理后的数据进行监测,筛选出符合智能吹哨预警要求的新闻舆情数据的步骤包括:
对二次智能化处理后的数据根据预设的监测规则进行监测分析;
如果命中所述预设的监测规则,则查看所述数据对应的文章并进行热度和敏感度分析,获得热度和敏感度分析结果;
对二次智能化处理后的数据根据预设的预警规则进行预警分析,获得判定结果;
根据所述判定结果对所述数据进行预警等级判定,获得预警等级判定结果;
根据所述热度和敏感度分析结果,以及所述预警等级判定结果综合分析,得到符合智能吹哨预警要求的新闻舆情数据。
为解决上述技术问题,本申请还提供一种服务器,作为其中一种实施方式,所述服务器配置有处理器,所述处理器用于执行程序数据,以实现如上所述的基于新闻信息的智能吹哨预警方法。
作为其中一种实施方式,所述服务器还配置有数据与服务接口,包括数据访问接口、数据交换接口、身份认证接口和相关系统集成接口,以与相关系统进行集成与数据交互。
本申请提供的基于新闻信息的智能吹哨预警方法及服务器,该基于新闻信息的智能吹哨预警方法包括步骤:服务器从预设指定网络站点自动化采集新闻舆情数据,然后将该新闻舆情数据进行初次智能化处理,并将处理后的数据保存数据库,再将保存数据库的数据进行二次智能化处理,然后根据预设的监测规则和预警规则对二次智能化处理后的数据进行监测,筛选出符合智能吹哨预警要求的新闻舆情数据,最后对符合智能吹哨预警要求的新闻舆情数据进行预警级别判定,并根据预警级别进行对应的预警处理;通过上述方式,本申请能够实现对互联网基于新闻信息的智能吹哨预警的采集、分析和预警,从而能够在舆情发生的第一时间,从源头发现、掌握舆情动态,实现对编辑、记者“千人千面”的个性化新闻线索推荐,同时结合微信提醒、电话语音提醒,弹窗提醒等功能,实现对各类网络舆情、新闻线索的实时监测发现和预警提示。
上述说明仅是本申请技术方案的概述,为了能够更清楚了解本申请的技术手段,而可依照说明书的内容予以实施,并且为了让本申请的上述和其他目的、特征和优点能够更明显易懂,以下特举较佳实施例,并配合附图,详细说明如下。
附图说明
图1为本申请基于新闻信息的智能吹哨预警方法一实施方式的数据流程示意图。
图2为本申请基于新闻信息的智能吹哨预警方法另一实施方式的数据流程示意图。
图3为本申请实施例二中知识图谱分析的数据流程示意图。
图4为本申请服务器一实施方式的结构示意图。
具体实施方式
为更进一步阐述本申请为达成预定申请目的所采取的技术手段及功效,以下结合附图及较佳实施例,对本申请详细说明如下。
通过具体实施方式的说明,当可对本申请为达成预定目的所采取的技术手段及效果得以更加深入且具体的了解,然而所附图式仅是提供参考与说明之用,并非用来对本申请加以限制。
实施例一:
请参阅图1,图1为本申请基于新闻信息的智能吹哨预警方法一实施方式的流程示意图。
其中,本实施方式所述基于新闻信息的智能吹哨预警方法可以包括但不限于如下几个步骤。
101、服务器从预设指定网络站点自动化采集新闻舆情数据;
基于新闻信息的智能吹哨预警处理系统包括服务器和用户端,服务器从指定的、已配置好的网络站点自动化采集新闻舆情数据;
进一步的,在对新闻舆情数据采集过程中,对该新闻舆情数据进行内容要素抽取,具体为抽取新闻舆情数据中的标题、正文、作者、时间等内容要素。
102、将新闻舆情数据进行初次智能化处理,并将处理后的数据保存数据库;
对采集的新闻舆情数据要进行初次智能化处理,主要包括清洗过滤和查重处理,然后将初次智能化处理后的数据保存数据库;
清洗过滤和查重处理具体的:
根据预设的过滤规则对采集的新闻舆情数据进行清洗过滤,判断是否为垃圾数据,如果判断出为垃圾数据,则将垃圾数据丢弃;
再根据查重规则对已清洗过滤的新闻舆情数据进行查重分析,判断是否为重复数据,如果判断出为重复数据,则将重复数据丢弃。
103、将保存数据库的数据进行二次智能化处理;
将保存数据库的新闻舆情数据进行二次智能化处理,具体的:
对初步智能化处理后的新闻舆情数据进行知识图谱分析,即根据设置的检索条件,从数据库中对比实体信息,识别所述新闻舆情数据中的实体、属性和实体之间相互关系的图谱信息,其中实体信息包括人名、地名、机构名等要素。
104、根据预设的监测规则和预警规则对二次智能化处理后的数据进行监测,筛选出符合智能吹哨预警要求的新闻舆情数据;
根据已配置的敏感关键词库、敏感事件库、敏感人物库等监测规则过滤分析新闻舆情数据,判断是否命中监测规则,未命中则对数据进行归档,留作后续待查备用;如果命中了,则查看对应的文章信息,然后对文章的热度、敏感度等相关方面进行分析,再根据分析结果对对应的新闻舆情数据进行预警等级判定,进行红色、橙色、蓝色和一般预警,根据不同等级,通过弹框、电话、短信、微信、APP、邮件等方式进行预警;
进一步的,根据已配置的预警关键词库、预警事件库、预警人物库等预警规则过滤分析新闻舆情数据,判断是否命中预警规则,未命中则对数据进行归档,留作后续待查备用;如果命中了,则对对应的新闻舆情数据进行预警等级判定,进行红色、橙色、蓝色和一般预警,根据不同等级,通过弹框、电话、短信、微信、APP、邮件等方式进行预警。
需要说明的是,根据监测规则对新闻舆情数据进行过滤分析以及根据预警规则对新闻舆情数据进行过滤分析,可以同步进行,也可以先后进行,此处不做限制。
105、对符合智能吹哨预警要求的新闻舆情数据进行预警级别判定,并根据预警级别进行对应的预警处理;
对符合智能吹哨预警要求的新闻舆情数据进行预警级别判定,进行红色、橙色、蓝色和一般预警进行级别判定,根据不同判定等级,通过弹框、电话、短信、微信、APP、邮件等方式向用户发送预警信息。
在本实施例中,服务器从预设指定网络站点自动化采集新闻舆情数据,然后将采集的新闻舆情数据进行初次智能化处理,并将处理后的数据保存数据库,再将保存数据库的数据进行二次智能化处理,然后根据预设的监测规则和预警规则对前述二次智能化处理后的数据进行监测,筛选出符合智能吹哨预警要求的新闻舆情数据,最后对符合智能吹哨预警要求的新闻舆情数据进行预警级别判定,并根据判定的预警级别进行对应的预警处理;实现了对互联网基于新闻信息的智能吹哨预警的采集、分析和预警,从而能够在舆情发生的第一时间,从源头发现、掌握舆情动态,实现对编辑、记者“千人千面”的个性化新闻线索推荐,同时结合微信提醒、电话语音提醒,弹窗提醒等功能,实现对各类网络舆情、新闻线索的实时监测发现和预警提示。
实施例二:
请参阅图2,图2为本申请基于新闻信息的智能吹哨预警方法一实施方式的流程示意图。
其中,本实施方式所述基于新闻信息的智能吹哨预警方法可以包括但不限于如下步骤。
201、服务器从预设指定网络站点自动化采集新闻舆情数据;
基于新闻信息的智能吹哨预警处理系统包括服务器和用户端。用户可以在客户端对网络站点进行设置,具体的,用户可根据不同的需求对需要进行舆情监测的网络站点进行分类,比如“全球疫情数据分析”议题、“美国暴乱”议题等等,根据不同的数据需求设置不同的网络站点;服务器则从指定的、已配置好的网络站点自动化采集新闻舆情数据;
进一步的,在对新闻舆情数据采集过程中,同步对该新闻舆情数据进行内容要素抽取,具体为抽取新闻舆情数据中的标题、正文、作者、时间等内容要素。
202、将新闻舆情数据进行清洗过滤处理;
服务器将采集的原始新闻舆情数据首先进行清洗过滤处理,判断前述数据是否为垃圾信息,如果是垃圾信息则执行步骤203;如果不是垃圾信息,则执行步骤204。
将新闻舆情数据进行清洗过滤处理时,对清洗过滤后的新闻舆情数据进行实体信息挖掘:抽取数据中的人名、地名、机构名等要素,并将抽取的要素存入业务数据库keyword字段。
203、丢弃垃圾信息;
步骤202中若是判断出采集的原始新闻舆情数据属于垃圾信息,则丢弃。
204、将清洗过滤后的数据进行查重处理;
步骤202中若是判断出采集的原始新闻舆情数据不属于垃圾信息,则将数据进行查重处理,根据设定的查重规则判断数据是否为重复数据,如果是重复数据,则执行步骤205;如果不是重复数据,则执行步骤206。
205、丢弃重复信息;
步骤204中若是判断出采集的原始新闻舆情数据属于重复信息,则丢弃。
206、数据入库;
步骤202中若是判断出采集的原始新闻舆情数据不属于重复信息,抽取的要素等需要入库的数据。
207、将保存数据库的数据进行二次智能化处理;
将保存数据库的新闻舆情数据进行二次智能化处理,具体的:
对初步智能化处理后的新闻舆情数据进行知识图谱分析,即根据设置的检索条件,识别文字中的实体信息、属性信息和实体之间相互关系的图谱信息,并将相关实体链接到百科解释页面。知识图谱分析输出知识图谱识别数据表。其中实体信息包括人名、地名、机构名等要素。
请参阅图3,知识图谱分析的数据流程具体为:
2071、将新闻舆情数据进行信息抽取;
将数据库中保存的各种类型数据源的新闻舆情数据中提取出实体、属性信息以及实体间的相互关系,并在此基础上形成本体化的知识表达,获得新知识三元组;
2072、对新知识三元组进行知识融合;
在获得新知识三元组之后,需要对其进行融合,以消除矛盾和歧义,比如某些实体可能有多种表达,某个特定称谓也许对应于多个不同的实体等;
2073、对融合后的新知识三元组进行知识加工;
对于经过知识融合的新知识三元组进行知识加工,即进行质量评估,符合预定的质量要求的合格数据才能进入知识库;其中,部分评估工作需要人工参与甄别,经过质量评估之后,才能将合格的部分加入到知识库中,以确保知识库的质量。
然后将知识图谱识别数据表以及符合质量要求的知识三元组存储到数据库,其中,知识图谱识别数据表包括实体、属性信息以及实体间的相互关系,以及融合的数据等等。
208、对二次智能化处理后的数据进行监测分析;
根据已配置的敏感关键词库、敏感事件库、敏感人物库等监测规则过滤分析新闻舆情数据,判断是否命中监测规则,未命中则对数据进行归档,留作后续待查备用;如果没有命中监测规则,则执行步骤209;如果命中了,则执行步骤210;
209、将数据归档,待查备用;
如果步骤208中对数据进行监测分析,未命中设定的监测规则,则对数据进行归档,留作后续待查备用。
210、查看对应的文章并进行热度和敏感度分析;
如果步骤208中对数据进行监测分析,命中设定的监测规则,则查看对应的文章信息,然后对文章的热度、敏感度等相关方面进行分析和归类,并将分析和归类结果保存。对文章的热度、敏感度等相关方面进行分析和归类的过程具体的:
首先,将语义分解后的新闻舆情数据,即词语化的数据,进行二元分布统计,统计各词语出现的次数,得出二元分布统计结果。
然后,将二元分布统计结果利用标准分数Z-Score算法进行计算,得到各词语的热点值。公式如下:
Figure BDA0002636376680000071
其中,公式中X为词项出现次数;
Figure BDA0002636376680000072
为词项出现次数平均数;S为标准差;结果Z是以标准差为单位的离均差,用以表示词语的热点值。
将热点值大于预设的热点上限阈值的值存入热点词库中的热点活跃词库,将热点值小于预设的热点下限阈值的值存入热点词库中的热点惰性词库;其中,热点词库与领域词库相关联,其中,领域词库包括新闻、博客、论坛、社交网站等等领域;每个热点词库中的热点词来源于哪些领域都可以进行对应查询。
再根据词语热点值和预设的热点词库判定词语化数据中的热点词的共现阈值;
根据新闻舆情数据中出现的词项,通过如下公式计算热点活跃词的共现阈值P1:
Figure BDA0002636376680000081
其中Wx为新闻词项集合,Wh为热点活跃词集合。
再通过如下公式计算热点惰性词的共现阈值P2:
Figure BDA0002636376680000082
其中Wx为新闻词项集合,Wc为热点惰性词集合。
然后,根据热点活跃词和热点惰性词的共现阈值P1和P2,进行线性加权计算,得到热度值。热度值的计算公式如下:
Figure BDA0002636376680000083
其中Zi为第i个词语的热点值,P1为热点活跃词共现阈值,P2为热点惰性词共现阈值。
然后,根据热度值对新闻舆情数据进行热度判定,对热点值根据预设的热度等级评判标准进行等级判定;将符合热度等级评判标准的新闻舆情数据归档至热点文档,将不符合热度等级评判标准的新闻舆情数据归档至非热点文档。
在敏感度分析上,将热点活跃词库与预设的敏感词库进行比对得到热点活跃词库中包含的敏感词数量,再通过下述公式计算敏感值作为新闻敏感度S:
Figure BDA0002636376680000084
其中Ws为包含敏感词数量,Wn为领域词库中新闻中的热点活跃词数量。
211、对二次智能化处理后的数据进行预警分析;
根据已配置的预警规则过滤分析新闻舆情数据,判断是否命中预警规则,未命中则执行步骤212;命中则执行步骤213;
212、将数据归档,待查备用;
如果步骤211中对数据进行预警分析,未命中设定的预警规则,则对数据进行归档,留作后续待查备用。
213、预警等级判定;
如果步骤211中对数据进行预警分析,命中设定的预警规则,则对对应的新闻舆情数据进行预警等级判定,并保存判定结果。具体的,服务器通过计算预警指数来判定预警等级:预警指数是根据若干指标维度加权计算得出红色、蓝色、橙色和一般舆情等四个预警等级,其中,指标维度包括关键词维度、重点媒体维度、相似文章数维度,以及重要账等等,用户可自定义调整的为关键词维度和重要账号,其中,重要账号包括来源与人物库,其他维度由系统内置,不由用户调整。
预警指数计算公式为:预警指数=关键词匹配度×相似文章数维度+重点媒体维度,其中,关键词匹配度的范围表示查新关键词的相关度,数值范围为0-1;相似文章数表示每条信息相似文章的数量,数值范围为大于等于1;重点媒体维度分为:一般媒体、重要媒体、核心媒体,其中一般媒体数值为80,重要媒体数值为90,核心媒体数值为100;预警指数如果大于等于500,则为红色预警;预警指数如果大于等于400且小于500,则为橙色预警;预警指数如果大于等于300且小于400,则为蓝色预警;预警指数如果小于100,则为一般预警。
214、对符合智能吹哨预警要求的新闻舆情数据进行预警级别判定,并根据预警级别进行对应的预警处理;
根据监测分析后的热度敏感度分析和归类结果,以及预警等级判断结果进行综合分析判定,对符合智能吹哨预警要求的新闻舆情数据进行预警级别判定,进行红色、橙色、蓝色和一般预警进行级别判定,根据不同判定等级,通过弹框、电话、短信、微信、APP、邮件等方式向用户发送预警信息。
进一步的,在本实施例中,针对符合智能吹哨预警要求的新闻舆情数据进行吹哨预警,可分为人工吹哨预警和自动吹哨预警两种方式。其中,人工吹哨预警是由人工筛选后报送的预警信息,主要由人工推送预警信息,推送信息内容质量较高。自动吹哨预警是按照预先设置好的规则自动推送预警信息的方式,预警规则可自定义设置,由预警信息由机器自动推送,无人工干预。
本实施例中自动推送预警信息的具体预警流程如下:
从新闻舆情数据存储的数据库中挖掘出当前的热点舆情后,可以将该热点舆情进行提炼和分类,分为焦点舆情、高危舆情和负面舆情三类,某一舆情既可以只是其中的一类也可以是其中的两类、三类的交集。
然后对提炼和分类的舆情数据进行用户关注关联度判断,判断的依据是用户实际设置的关注方向,如果是与用户关注方向密切相关的舆情,根据对该舆情所属类别的判断把将要发送的舆情警报级别分为红色、橙色、蓝色、一般四种级别。
服务器根据关键词库设置预警级别、预警条件,给不同级别的用户发送短信、邮件和弹出提示,对舆情信息进行预警。
215、接收用户的请求,根据预警信息、知识图谱分析数据等自动生成舆情报告;
在本实施例中,本实施例提供的方法可实现自动生成舆情报告并向用户推送。
用户可在客户端选中各种素材,并向服务器发送自动生成舆情报告请求,其中,素材包括预警信息及对应的新闻舆情数据、知识图谱分析数据等。
进一步的,服务器在数据存储的设计上,包括业务数据库、资源索引库和资源文件存储三个部分。
在具体的,业务数据库可以使用MySQL数据库进行存储。目前,主流关系型数据库都提供了主从集群和热备份功能,通过配置两台或多台数据库的主从关系,可以将一台数据库服务器的数据更新同步到另一台服务器上。MySQL作为一种关系型数据库,也支持主从配置。服务器利用数据库主从集群的这一功能,实现数据库的读写分离,从而改善数据库的负载压力。服务器在写数据的时候,访问Master主数据库,主数据库通过主从复制机制将数据更新同步到Slave从数据库,这样当Web服务器读数据的时候,就可以通过从数据库获得数据。这一方案使得在大量读操作的Web应用可以轻松地读取数据,而主数据库也只承受少量的写入操作,同时可以实现数据热备份,增强数据安全性。数据读写分离方案采用数据库中间件Mycat实现。Mycat是一个位于应用程序与MySQL之间中间件,为了减轻单数据库的压力,可以通过配置实现主从、热备、读写分离、分表分库等功能。从而实现数据库的分布式架构,而不需要对应用程序进行任何修改。
资源索引库,本服务器使用全文检索数据库ElasticSearch来存储文本新闻主体关系和媒资数据标引分析后的全文索引数据,支撑数据快速查询和高级检索功能。ElasticSearch是一个基于Lucene的全文检索数据库。它提供了一个基于RESTful接口服务的分布式多用户的全文搜索引擎。Elasticsearch使用Java开发,并作为Apache许可条款下的开放源码发布,是当前流行的企业级搜索引擎。能够满足海量数据实时搜索,具备稳定,可靠,快速的特点。ElasticSearch是对等分布式系统,一个ElasticSearch集群中有多个节点,其中有一个为主节点,这个主节点是通过选举产生的,主从节点是对于集群内部来说的。ElasticSearch的一个概念就是去中心化,字面上理解就是无中心节点,这是对于集群外部来说的,因为从外部来看ElasticSearch集群,在逻辑上是个整体,你与任何一个节点的通信和与整个ElasticSearch集群通信是等价的。
资源文件存储,本服务器采用FastDFS分布式文件存储系统来组织管理文件服务器,用以支撑图片、视频、文档等文件资源的存储、备份、发布、访问、下载等功能实现。FastDFS是一个开源的轻量级分布式文件系统,它对文件进行管理,功能包括:文件存储、文件同步、文件访问(包括文件上传和文件下载),等等,解决了大容量存储和负载均衡的问题。特别适合以文件为载体的在线服务,如图片网站、视频网站等等。FastDFS充分考虑了冗余备份、负载均衡、线性扩容等机制,并注重高可用、高性能等指标,使用FastDFS很容易搭建一套高性能文件服务器集群提供文件上传、下载等服务。
在本实施例中,服务器从预设指定网络站点自动化采集新闻舆情数据,然后将采集的新闻舆情数据进行初次智能化处理,并将处理后的数据保存数据库,再将保存数据库的数据进行二次智能化处理,然后根据预设的监测规则和预警规则对前述二次智能化处理后的数据进行监测,筛选出符合智能吹哨预警要求的新闻舆情数据,最后对符合智能吹哨预警要求的新闻舆情数据进行预警级别判定,并根据判定的预警级别进行对应的预警处理;实现了对互联网基于新闻信息的智能吹哨预警的采集、分析和预警,从而能够在舆情发生的第一时间,从源头发现、掌握舆情动态,实现对编辑、记者“千人千面”的个性化新闻线索推荐,同时结合微信提醒、电话语音提醒,弹窗提醒等功能,实现对各类网络舆情、新闻线索的实时监测发现和预警提示。
请参阅图4,本申请还提供一种服务器,作为其中一种实施方式,该服务器配置有处理器21,所述处理器21用于执行程序数据,以实现如上所述的基于新闻信息的智能吹哨预警方法。
作为其中一种实施方式,本实施例中的服务器还配置有数据与服务接口,包括数据访问接口、数据交换接口、身份认证接口和相关系统集成接口,以与相关系统进行集成与数据交互。
此外,本申请还可以提供一种计算机可读存储介质,其存储有程序数据,用于被处理器执行时,实现如图1-图3及其实施方式所述/所示的方法和功能。
本申请能够实现多层次的数据清理处理过程,可以从数据上实现准确性、完整性、一致性、惟一性、适时性、有效性等多方面效果,可以有效地处理数据的丢失、不一致、重复等问题。
以上所述,仅是本申请的较佳实施例而已,并非对本申请作任何形式上的限制,虽然本申请已以较佳实施例揭露如上,然而并非用以限定本申请,任何熟悉本专业的技术人员,在不脱离本申请技术方案范围内,当可利用上述揭示的技术内容作出些许更动或修饰为等同变化的等效实施例,但凡是未脱离本申请技术方案内容,依据本申请的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均仍属于本申请技术方案的范围内。

Claims (10)

1.一种基于新闻信息的智能吹哨预警方法,其特征在于,所述基于新闻信息的智能吹哨预警方法包括步骤:
服务器从预设指定网络站点自动化采集新闻舆情数据;
将所述新闻舆情数据进行初次智能化处理,并将处理后的数据保存数据库;
将保存数据库的数据进行二次智能化处理;
根据预设的监测规则和预警规则对所述二次智能化处理后的数据进行监测,筛选出符合智能吹哨预警要求的新闻舆情数据;
对所述符合智能吹哨预警要求的新闻舆情数据进行预警级别判定,并根据所述预警级别进行对应的预警处理。
2.根据权利要求1所述的方法,其特征在于,所述服务器从预设指定网络站点自动化采集新闻舆情数据的步骤之后还包括:
将采集的新闻舆情数据进行内容要素抽取,抽取所述新闻舆情数据的标题、正文、作者和时间等要素。
3.根据权利要求2所述的方法,其特征在于,所述将新闻舆情数据进行初次智能化处理的步骤包括:
根据预设的过滤规则对所述采集的新闻舆情数据进行清洗过滤,判断是否为垃圾数据,如果判断出为垃圾数据,则将所述垃圾数据丢弃;
再根据查重规则对已清洗过滤的新闻舆情数据进行查重分析,判断是否为重复数据,如果判断出为重复数据,则将所述重复数据丢弃。
4.根据权利要求3所述的方法,其特征在于,所述根据预设的过滤规则对所述采集的新闻舆情数据进行清洗过滤的步骤之后还包括:
对清洗过滤后的新闻舆情数据进行实体信息挖掘:抽取所述数据中的人名、地名、机构名等要素,并将所述要素存入keyword字段。
5.根据权利要求4所述的方法,其特征在于,所述将处理后的数据保存数据库的步骤包括:
将清洗过滤并查重后的数据、实体信息挖掘抽取的要素、以及内容要素抽取的要素等数据保存数据库。
6.根据权利要求5所述的方法,其特征在于,所述将保存数据库的数据进行二次智能化处理的步骤包括:
对所述初步智能化处理后的新闻舆情数据进行知识图谱分析,获得知识图谱识别数据表。
7.根据权利要求6所述的方法,其特征在于,所述对初步智能化处理后的新闻舆情数据进行知识图谱分析的步骤包括:
将新闻舆情数据进行信息抽取,获得新知识三元组,所述新知识三元组包括从所述新闻舆情数据中抽取的实体、属性信息以及实体间的相互关系的数据;
对所述新知识三元组进行知识融合;
对融合后的新知识三元组进行知识加工,保存符合预设质量要求的数据。
8.根据权利要求7所述的方法,其特征在于,所述根据预设的监测规则和预警规则对所述二次智能化处理后的数据进行监测,筛选出符合智能吹哨预警要求的新闻舆情数据的步骤包括:
对二次智能化处理后的数据根据预设的监测规则进行监测分析;
如果命中所述预设的监测规则,则查看所述数据对应的文章并进行热度和敏感度分析,获得热度和敏感度分析结果;
对二次智能化处理后的数据根据预设的预警规则进行预警分析,获得判定结果;
根据所述判定结果对所述数据进行预警等级判定,获得预警等级判定结果;
根据所述热度和敏感度分析结果,以及所述预警等级判定结果综合分析,得到符合智能吹哨预警要求的新闻舆情数据。
9.一种服务器,其特征在于,所述服务器配置有处理器,所述处理器用于执行程序数据,以实现如权利要求1-8任一项所述的基于新闻信息的智能吹哨预警方法。
10.根据权利要求9所述的服务器,其特征在于,所述服务器还配置有数据与服务接口,包括数据访问接口、数据交换接口、身份认证接口和相关系统集成接口,以与相关系统进行集成与数据交互。
CN202010826495.9A 2020-08-17 2020-08-17 一种基于新闻信息的智能吹哨预警方法及服务器 Pending CN111984786A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010826495.9A CN111984786A (zh) 2020-08-17 2020-08-17 一种基于新闻信息的智能吹哨预警方法及服务器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010826495.9A CN111984786A (zh) 2020-08-17 2020-08-17 一种基于新闻信息的智能吹哨预警方法及服务器

Publications (1)

Publication Number Publication Date
CN111984786A true CN111984786A (zh) 2020-11-24

Family

ID=73434547

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010826495.9A Pending CN111984786A (zh) 2020-08-17 2020-08-17 一种基于新闻信息的智能吹哨预警方法及服务器

Country Status (1)

Country Link
CN (1) CN111984786A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112560461A (zh) * 2020-12-11 2021-03-26 北京百度网讯科技有限公司 新闻线索的生成方法、装置、电子设备及存储介质
CN112905800A (zh) * 2021-01-25 2021-06-04 北京工业大学 基于公众人物舆情知识图谱和XGBoost多特征融合情感预警方法
CN113128231A (zh) * 2021-04-25 2021-07-16 深圳市慧择时代科技有限公司 一种数据质检方法、装置、存储介质和电子设备
CN115934808B (zh) * 2023-03-02 2023-05-16 中国电子科技集团公司第三十研究所 一种融入关联分析和风暴抑制机制的网络舆情预警方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20060098671A (ko) * 2005-03-03 2006-09-19 주식회사 휘닉스커뮤니케이션즈 사이버 여론조사 시스템 및 그 방법
CN104077377A (zh) * 2014-06-25 2014-10-01 红麦聚信(北京)软件技术有限公司 基于网络文章属性的网络舆情热点发现方法和装置
CN109101597A (zh) * 2018-07-31 2018-12-28 中电传媒股份有限公司 一种电力新闻数据采集系统
CN109460922A (zh) * 2018-11-13 2019-03-12 电子科技大学 一种具有电力行业特征的网络舆情分析与辅助决策系统
CN110866126A (zh) * 2019-11-22 2020-03-06 福建工程学院 一种高校网络舆情风险评估方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20060098671A (ko) * 2005-03-03 2006-09-19 주식회사 휘닉스커뮤니케이션즈 사이버 여론조사 시스템 및 그 방법
CN104077377A (zh) * 2014-06-25 2014-10-01 红麦聚信(北京)软件技术有限公司 基于网络文章属性的网络舆情热点发现方法和装置
CN109101597A (zh) * 2018-07-31 2018-12-28 中电传媒股份有限公司 一种电力新闻数据采集系统
CN109460922A (zh) * 2018-11-13 2019-03-12 电子科技大学 一种具有电力行业特征的网络舆情分析与辅助决策系统
CN110866126A (zh) * 2019-11-22 2020-03-06 福建工程学院 一种高校网络舆情风险评估方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112560461A (zh) * 2020-12-11 2021-03-26 北京百度网讯科技有限公司 新闻线索的生成方法、装置、电子设备及存储介质
CN112905800A (zh) * 2021-01-25 2021-06-04 北京工业大学 基于公众人物舆情知识图谱和XGBoost多特征融合情感预警方法
CN113128231A (zh) * 2021-04-25 2021-07-16 深圳市慧择时代科技有限公司 一种数据质检方法、装置、存储介质和电子设备
CN115934808B (zh) * 2023-03-02 2023-05-16 中国电子科技集团公司第三十研究所 一种融入关联分析和风暴抑制机制的网络舆情预警方法

Similar Documents

Publication Publication Date Title
JP7201730B2 (ja) 意図推薦方法、装置、機器及び記憶媒体
Cuzzocrea et al. OLAP analysis of multidimensional tweet streams for supporting advanced analytics
CN111931027A (zh) 一种智能新闻舆情预警系统
US9990368B2 (en) System and method for automatic generation of information-rich content from multiple microblogs, each microblog containing only sparse information
US7912849B2 (en) Method for determining contextual summary information across documents
CN111984786A (zh) 一种基于新闻信息的智能吹哨预警方法及服务器
US9619571B2 (en) Method for searching related entities through entity co-occurrence
Cigarrán et al. A step forward for Topic Detection in Twitter: An FCA-based approach
WO2010144618A1 (en) Methods, apparatus and software for analyzing the content of micro-blog messages
Tajbakhsh et al. Semantic knowledge LDA with topic vector for recommending hashtags: Twitter use case
CN110232126B (zh) 热点挖掘方法及服务器和计算机可读存储介质
Zheng et al. Collecting event‐related tweets from twitter stream
Sapul et al. Trending topic discovery of Twitter Tweets using clustering and topic modeling algorithms
WO2015084757A1 (en) Systems and methods for processing data stored in a database
Kim et al. TwitterTrends: a spatio-temporal trend detection and related keywords recommendation scheme
Sadesh et al. Automatic Clustering of User Behaviour Profiles for Web Recommendation System.
Akhtar et al. Hierarchical summarization of text documents using topic modeling and formal concept analysis
US20160246794A1 (en) Method for entity-driven alerts based on disambiguated features
Spahiu et al. Topic profiling benchmarks in the linked open data cloud: Issues and lessons learned
Dritsas et al. Aspect-based community detection of cultural heritage streaming data
Li et al. Research on hot news discovery model based on user interest and topic discovery
Singhal et al. Leveraging web resources for keyword assignment to short text documents
Ahmad et al. A comparative study on text mining techniques
Yunan et al. Comparison of research on social media in China and foreign countries based on bibliometric analysis
Singh et al. User specific context construction for personalized multimedia retrieval

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination