CN111881302B - 基于知识图谱的银行舆情分析方法和系统 - Google Patents

基于知识图谱的银行舆情分析方法和系统 Download PDF

Info

Publication number
CN111881302B
CN111881302B CN202010717090.1A CN202010717090A CN111881302B CN 111881302 B CN111881302 B CN 111881302B CN 202010717090 A CN202010717090 A CN 202010717090A CN 111881302 B CN111881302 B CN 111881302B
Authority
CN
China
Prior art keywords
public opinion
news
negative
knowledge graph
hotword
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010717090.1A
Other languages
English (en)
Other versions
CN111881302A (zh
Inventor
李振
刘恒
赵兴莹
李勇辉
李毓瑞
吴梅
秦培歌
张泽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Minsheng Science And Technology Co ltd
Original Assignee
Minsheng Science And Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Minsheng Science And Technology Co ltd filed Critical Minsheng Science And Technology Co ltd
Priority to CN202010717090.1A priority Critical patent/CN111881302B/zh
Publication of CN111881302A publication Critical patent/CN111881302A/zh
Application granted granted Critical
Publication of CN111881302B publication Critical patent/CN111881302B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本发明公开了一种基于知识图谱的银行舆情分析方法和系统,涉及信息安全技术领域。该方法包括:从各种搜索引擎中抓取针对待分析主体的原始数据,对原始数据进行预处理,得到舆情数据并存放在数据库中,并生成热词情感表;根据数据库中的舆情数据并结合热词情感表构建热词知识图谱、舆情来源知识图谱和负面舆情知识图谱;根据所建立的热词知识图谱、舆情来源知识图谱和负面舆情知识图谱进行舆情分析。本发明提供的银行舆情分析方法是基于知识图谱的,一方面基于知识图谱将银行的相关舆情进行可视化,另一方面基于图谱利用一些算法挖掘其中的重要知识,可以快速的获取相关信息并作出相关决策。

Description

基于知识图谱的银行舆情分析方法和系统
技术领域
本发明涉及信息安全技术领域,具体涉及一种基于知识图谱的银行舆情分析方法和系统。
背景技术
当下银行所服务的客户群体庞大、覆盖范围又广,所以银行舆情突发率极高,并且银行舆情事件发生后往往都能引发舆论热议。所以,在银行舆情事件突发后,若不能及时加以处理,化解银行舆情风险,其给银行机构造成的损失是极大的。同时由于银行服务网点多,客户群体庞大,所以其舆情监测量大,仅依靠人工在网络上通过搜索关键词进行监测,舆情发现及处置较为滞后,不具备即时性。
发明内容
为了解决以上问题,也为了做到舆情早发现,本发明提出了基于知识图谱的银行舆情分析方法和系统,从而提供一种高效的、直观的银行舆情分析的方法。本发明提供的银行舆情分析方法是基于知识图谱的,一方面基于知识图谱将银行的相关舆情进行可视化,另一方面基于图谱利用一些算法挖掘其中的重要知识,可以快速的获取相关信息并作出相关决策。
根据本发明的第一方面,提供一种基于知识图谱的银行舆情分析方法,所述方法包括:
舆情数据获取采集步骤:从各种搜索引擎中抓取针对待分析主体的原始数据,对原始数据进行预处理,得到舆情数据并存放在数据库中,并生成热词情感表;
舆情知识图谱构建步骤:根据数据库中的舆情数据构建第一知识图谱、第二知识图谱和第三知识图谱;
舆情分析步骤:根据所建立的第一知识图谱、第二知识图谱和第三知识图谱进行舆情分析。
进一步的,所述原始数据包括但不限于:新闻标题、新闻正文、新闻摘要、新闻发布日期、新闻来源数据。
进一步的,所述对原始数据进行预处理包括但不限于:对原始数据进行清洗、删除重复数据和无关内容、数据标准化、实体消歧操作、命名实体识别、实体关系抽取以及确定三元组结构。
进一步的,所述第一知识图谱为热词知识图谱。
进一步的,所述热词知识图谱的构建包括以下步骤:
步骤1:根据数据库中的舆情数据,针对待分析主体创建待分析主体信息表,并根据热词情感表选取待分析主体再所选时间范围内排名前十的一级热词及其对应的二级热词;
步骤2:生成待分析主体与一级热词的关系表,以及一级热词与二级热词的关系表;
步骤3:根据步骤1的结果,创建待分析主体节点、一级热词节点以及二级热词节点;
步骤4:根据步骤2的结果,创建待分析主体与一级热词的关系、一级热词与二级热词的关系;
步骤5:完成构建热词知识图谱。
进一步的,所述第二知识图谱为舆情来源知识图谱。
进一步的,所述舆情来源知识图谱的构建包括以下步骤:
步骤1:根据数据库中的舆情数据,创建待分析主体信息表、正负面信息表、舆情新闻来源信息表、舆情新闻来源分类信息表和新闻事件类型信息表;
步骤2:生成待分析主体与正负面的关系表、正负面与舆情新闻来源分类的关系表、舆情新闻来源分类和舆情新闻来源的关系表、舆情新闻来源与对应的新闻事件类型的关系表;
步骤3:根据步骤1的结果,创建待分析主体节点、正负面节点、舆情新闻来源节点、舆情新闻来源分类节点和新闻事件类型节点;
步骤4:根据步骤2的结果,创建待分析主体与正负面的关系、正负面与舆情新闻来源分类的关系、舆情新闻来源分类和舆情新闻来源的关系、舆情新闻来源与对应的新闻事件类型的关系;
步骤5:完成构建舆情来源知识图谱。
进一步的,所述第三知识图谱为负面舆情知识图谱。
进一步的,所述负面舆情知识图谱的构建包括:
步骤1:根据数据库中的舆情数据,创建负面新闻信息表、负面新闻所涉及时间信息表、负面新闻所涉及待分析主体子主体信息表、舆情新闻来源信息表、舆情新闻来源分类信息表和新闻事件类型信息表;
步骤2:生成负面新闻分别与负面新闻所涉及时间、负面新闻所涉及待分析主体子主体信息表、舆情新闻来源、新闻事件类型的关系表,舆情新闻来源和舆情新闻来源分类的关系表,以及负面新闻与负面新闻的关系表;
步骤3:根据步骤1的结果,创建负面新闻节点、负面新闻所涉及时间节点、负面新闻所涉及待分析主体子主体节点、舆情新闻来源节点、舆情新闻来源分类节点和新闻事件类型节点;
步骤4:根据步骤2的结果,创建负面新闻分别与负面新闻所涉及时间、负面新闻所涉及待分析主体子主体、舆情新闻来源、新闻事件类型的关系,舆情新闻来源和舆情新闻来源分类的关系,以及负面新闻与负面新闻的关系;
步骤5:完成构建负面舆情知识图谱。
进一步的,根据所建立的负面舆情知识图谱进行舆情分析具体包括:
采用基于语义的重叠性算法进行了负面新闻的相似度分析,根据相似度对负面新闻进行分类,并依据每一类别所包含负面新闻数量进行排序,确定热点新闻并关注;
确定负面新闻所涉及时间节点、负面新闻所涉及待分析主体子主体节点或者事件类型节点连接边最多的爆炸性节点,然后该爆炸性节点进行针对性的监控与核查;
对新加入负面新闻进行实体链接(包括实体指称识别、候选实体生成和候选实体消歧),将新加入负面新闻中的实体和负面舆情知识图谱中对应的实体建立链接,将负面新闻所涉及时间、负面新闻所涉及待分析主体子主体、舆情新闻来源、新闻事件类型与负面舆情知识图谱中对应的实体均相同的新加入负面新闻作为重复新闻并删除;
通过查询多度关系,确定任一负面新闻的传播路径。
进一步的,根据相似度对负面新闻进行分类时,以相似度大于90%的负面新闻分为同一类。
进一步的,所述对新加入负面新闻进行实体链接包括:实体指称识别、候选实体生成和候选实体消歧。
进一步的,所述实体指称识别的实现方式包括但不限于:通用命名实体识别技术、词典匹配技术等方式。
进一步的,所述候选实体生成的实现方式包括但不限于:表层名字扩展、基于搜索引擎的方法、构建查询实体引用表等方式。
进一步的,所述候选实体消歧的实现方式包括但不限于:基于图方法、基于概率生成模型、基于主题模型、基于深度学习等方式。
根据本发明的第二方面,提供一种基于知识图谱的银行舆情分析系统,所述系统包括:
舆情数据获取采集模块,通过舆情数据获取采集模块从各种搜索引擎中抓取原始数据,对原始数据进行预处理,得到舆情数据并存放在数据库中,并生成热词情感表;
舆情知识图谱构建模块,通过舆情知识图谱构建模块根据数据库中的舆情数据构建第一知识图谱、第二知识图谱和第三知识图谱;
舆情分析模块,通过舆情分析模块,根据所建立的第一知识图谱、第二知识图谱和第三知识图谱进行舆情分析。
根据本发明的第三方面,提供一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现根据以上任一方面所述方法的步骤。
根据本发明的第四方面,提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现根据任一方面所述方法的步骤。
本发明的有益效果:
本发明提供了基于知识图谱的银行舆情分析。在本发明的基于知识图谱的银行舆情的分析中,在接受用户输入特定银行以及特定时间段后,可以将该银行在特定时间段内的具体舆情以知识图谱可视化的方式呈现给用户,图结构的形式可以让用户更加快速、有效、直观的发现海量数据中隐含的舆情信息,极大的方便了银行进行相应的决策和分析。
附图说明
图1示出三元组的语义重叠的示意图;
图2示出根据本发明实施例的实体链接流程;
图3示出根据本发明实施例的整体框架;
图4示出根据本发明实施例的热词图谱节点和关系生成过程;
图5示出根据本发明实施例的热词知识图谱;
图6示出根据本发明实施例的来源图谱节点和关系生成过程;
图7示出根据本发明实施例的来源知识图谱;
图8示出根据本发明实施例的负面新闻节点生成过程;
图9示出根据本发明实施例的负面新闻知识图谱(只列出了部分负面舆情)。
具体实施方式
下面结合基于知识图谱的某银行舆情的分析过程介绍本发明。
本发明基于知识图谱的银行舆情分析,首先利用爬虫技术,实时获取与银行相关的各种言论新闻话题文章,并且以结构化的形式存储在数据库中,做到了对银行舆情信息的即时获取。同时,之前对这些数据的分析只是基于普通的表、柱状图、条形图或者曲线图等,数据之间的关系不是很具体,很直观。知识图谱概念和技术的出现,将数据以三元组形式存储并以图结构的形式进行可视化,使得数据之间的关系可以一目了然,省时省力,做到了舆情的早发现。基于知识图谱的可视化分析为银行开展业务提供了高效准确的决策支持,做到了实时快速的监测。同时基于银行大量的负面新闻利用基于语义重叠的相似度计算算法,对负面新闻进行相似性分析,可以从繁杂的负面新闻中找到负面新闻的关键所在,快速定位到负面舆情的主要方面。
从知识图谱结构上来看,一个实体可能会存在一个或多个边与另一个实体相连,那些直接相连的三元组之间往往是比较相似的,它表示同一个实体可能具有的多种关系,或者同一种关系代表的不同的实体。但事实上,两个三元组之间的可能没有直接相连的边,但他们具有相同实体标签和边标签,这些三元组之间的相似程度也是不可忽视的。基于三元组的语义重叠就是这样被提出来的,语义重叠表示包含在本体概念中具有上层概念的数量,这可以表明两个概念的相似程度,两个RDF三元组中具有相同元素的数量。例如:具有相同实体名称或者关系名称的两个三元组具有较高的相似度,而头实体、尾实体完全不同的两个三元组认为是完全不相似的。
如图1所示,虚线中的三元组t1和t2拥有相同的头实体和相同的关系类型,因此具有一定的相似性。语义重叠的影响因子的定义如下所示。
上式中t1和t2代表两个三元组,数组3表示三元组中元素数量,dif(t1,t2)表示两个三元组不同元素的数量,r是一个调节参数,通常定义范围0<r≤1。r的作用是提供一种更灵活的方式来调整语义相似度的最终得分。例如,存在两个三元组t1=(s1,p1,o1)和t1=(s1,p1,o2),其中dif(t1,t2)的值为1/3。
实体链接是指将文本的实体指称(Mention)链向其在给定知识库中目标实体的过程。实体链接可以将文本数据转化为有实体标注的形式,建立文本与知识库的联系,可以为进一步文本分析和处理提供基础。实体链接的基本流程如图2所示,包括实体指称识别、候选实体生成和候选实体消歧三个步骤,每个步骤都可以采用不同的技术和方法。
本发明提供的银行舆情分析方法,其整体框架如图3所示。它包括依次相连的三个模块,即三个工作步骤。第一模块为获取和处理银行舆情数据,第二模块是构建银行舆情知识图谱,第三模块是基于负面舆情的各种,给出银行预警和焦点信息,以便决策者进一步的作出决策分析(比如及时回应媒体报道、消除舆论质疑、公开事件全过程等)。
舆情数据获取采集模块(第一模块)是获取和处理银行舆情数据。首先,系统通过爬虫程序从各种搜索引擎中(如360)抓取银行的相关数据,比如新闻标题,新闻正文,新闻摘要,新闻发布日期,新闻来源等数据,然后对这些数据进行数据的清洗、重复数据的筛选、无关内容的筛选、数据的标准化、实体消歧等处理加工,最后将其存在数据库中。
舆情知识图谱构建模块(第二模块)是构建银行舆情知识图谱。这一模块主要包含三部分,首先构建热词知识图谱:将第一模块中由机器学习算法得到的所选时间排名前十的热词及其关联的二级热词用作构建热词知识图谱的节点数据,将其导入到neo4j图数据库中,并建立热词知识图谱;然后构建舆情来源知识图谱:首先以正面和负面为一级关联节点;然后以舆情媒体来源分类(比如国家媒体、知名媒体等)为二级关联节点,一二级节点之间的边以来源的数量为权重;紧接着以舆情新闻媒体的具体来源(人民网、今日头条等)为三级关联节点,二、三级节点之间的边以来源的数量为权重;再以舆情新闻媒体的具体来源的事件类型为四级关联节点,三、四级节点之间的边以属于该新闻类型的数量为权重,然后建立银行舆情来源的知识图谱。最后建立负面舆情的图谱:以所有负面舆情发生的时间、地点、类型等为节点,建立图谱。该模块可以为后续模块的决策提供依据。
舆情分析模块(第三模块)是舆情分析。根据第二模块给出的舆情知识图谱,首先由舆情的热词知识图谱,我们可以直观的发现当下某银行的前十大热词,对银行的整体的情况有个大致的把握了解。然后结合银行舆情的来源知识图谱,我们可以直观的发现银行负面舆情的不同来源情况,以及负面舆情具体涉及哪些事件类型(比如说产品宣传问题、服务不到位问题等),实时的跟进银行负面舆情。最后,针对负面舆情给出了负面舆情的知识图谱,可以对负面舆情进行更加全面的分析和把握,在负面舆情蔓延以及对银行造成损失之前及时的分析并进行决策。
实施例
模块一:获取和处理某银行的舆情数据。
【101】首先系统通过爬虫程序从各种搜索引擎中(如360)抓取某银行的相关数据,比如新闻标题,新闻正文,新闻摘要,新闻发布日期,新闻来源等数据,然后格式化后存在数据库中的ods_news_new表中,然后利用自然语言处理技术中的热词分析和情感分析算法以及事件主体类型的抽取算法将数据库中的数据生成热词情感表sentiment_hot_new。(这两个表字段较多,不方便在这展示)
模块二:构建某银行的舆情的知识图谱。
【201】首先构建某银行热词知识图谱,具体步骤是:
【2010】生成相关的数据。将数据库中的数据导出为csv格式文件,由于图数据库可接受的文件类型是csv类型,而原始数据以表的形式存储在普通数据库中,首先创建某银行这一个单独节点的信息表bank.csv,接着将上述关于某银行指定时间段的前十个一级热词及其对应的二级热词分别存为one_hot_word.csv和next_hot_word.csv表,然后分别创建某银行与一级热词的关系表rel_one.csv和一、二级热词的关系表rel_word.csv。
【2011】生成图谱节点和关系。将上述导出的csv格式文件导入图数据库,用图数据库语言利用上一步导出的bank.csv、one_hot_word.csv和next_hot_word.csv文件,分别创建“某银行”这个中心节点、一级热词节点以及二级热词节点。接下来创建关系:首先利用某银行与一级热词的关系表rel_one.csv创建第一层关系:某银行->一级热词,然后利用一级热词和二级热词的关系表rel_word.csv文件创建第二层关系:一级热词->二级热词,到此为止热词知识图谱就基本完工了,生成的热词知识图谱如图四所示。
【202】创建某银行舆情来源的知识图谱,具体步骤如下所示:
【2020】生成需要的csv数据文件。因为图数据库可接受的文件类型是csv类型,而原始数据以表的形式存储在普通数据库中,所以我们需要把数据库中需要的数据导出为csv文件。一、生成节点表。“某银行”节点表bank.csv和正负面节点表neg_pos.csv,紧接着生成关于某银行舆情新闻来源表media_from.csv和舆情新闻来源分类表media_classify.csv,最后是新闻事件类型表media_variety.csv。二、生成一系列关系表,首先是“某银行”与“正负面”关系表rel1.csv,然后是正负面与舆情新闻来源分类的关系表rel2.csv,接着是舆情新闻来源分类和舆情新闻来源之间的关系表rel3.csv,最后生成舆情新闻来源与对应事件类型的关系报表rel4.csv。
【2021】创建图谱节点和关系。将上述导出的csv格式文件导入图数据库,一、来创建图谱节点:用图数据库语言导入上一步导出的bank.csv、neg_pos.csv、media_from.csv、media_variety.csv以及media_classify.csv文件,并分别创建“某银行”节点,“正负面”节点,银行舆情新闻来源分类节点、舆情新闻具体来源节点以及舆情新闻所属事件类型节点。二、来创建关系节点:用图数据语言建立第一层关系:某银行->正负面;结合步骤一中rel2.csv表来创建第二层关系:正/负面->舆情新闻分类(国家媒体、知名媒体、其他媒体),其中关系节点的属性是来自各个新闻媒体类的总数量;利用rel3.csv表创建第三层关系:舆情新闻分类->舆情新闻具体来源(人民网、东方财富、中国质量、今日头条等),其中该层关系节点的属性是舆情新闻各个分类中分别属于来自于各个舆情新闻具体来源的总数量;最后利用步骤一中的rel4.csv表建立第四层关系:舆情新闻具体来源->事件类型,其中该层节点的属性是某一具体新闻媒体属于该事件类型的总条数,其中该层关系仅展示负面的关系(因为我们主要关注的是负面舆情)。到此为止来源知识图谱建立完毕。如下图六所示。
【203】创建负面新闻信息的知识图谱,具体步骤如下所示:
【2030】生成需要的csv数据文件。一、生成节点表。负面新闻节点表negative.csv,负面新闻涉及的到的所有时间点表time.csv,以及负面新闻涉及到的银行各大分行place.csv,紧接着生成关于银行舆情新闻来源表media_from.csv和舆情新闻来源分类表media_classify.csv,最后是新闻事件类型表media_variety.csv。二、生成一系列关系表,负面新闻与发生时间、地点、媒体、事件类型关系表rel_a.csv、rel_b.csv、rel_c.csv、rel_d.csv。,然后是媒体和媒体类型关系表rel_e.csv,综合起来放在了表rel.csv中,最后对于所有的负面新闻节点时,限制其属性(发布时间)不同,其他一度节点(发生时间、发生地点、事件类型)都一样,就可以找出与其内容一致的所有负面新闻,然后按照其发布时间将其排序后存为rel_node.csv(列出了与负面信息1新闻内容一样的所有负面新闻关系)。
【2031】创建图谱节点和关系。将上述导出的csv格式文件导入图数据库,一、来创建图谱节点:用图数据库语言导入上一步导出的negative.csv、time.csv、media_from.csv、media_classify.csv、media_variety.csv以及place.csv文件,并分别创建负面节点,时间节点、地点节点、银行舆情新闻来源分类节点、舆情新闻具体来源节点以及舆情新闻所属事件类型节点。二、来创建关系节点:首先用图数据语言利用rel.csv建立负面新闻发生的时间、地点、类型、来源的关系。然后,利用表rel_node.csv建立负面新闻节点之间的关系图,到此为止负面舆情知识图谱建立完毕。如下图8所示。
模块三:对某银行舆情的分析与决策。
【301】首先由热词图谱我们可以大致可以了解到某银行的整体情况,比如我们从图谱中可以看一级热词“创新”,说明在外界看来某银行一直以来秉承着创新推动发展的理念,由其对应的二级热词“高质量”,“推动”,“应用”可推知,某银行主要是从应用方面推动高质量的创新;再由一级热词“服务”以及二级热词“客户”,“分行”,“金融服务”可推知某银行的服务主要针对客户进行一些金融服务,并且这种服务遍及各大分行等。因此从热词图谱我们可以大致了解到某银行当下的主要发展情况,整体是比较乐观积极的。
【302】然后由来源图谱我们可以发现当前时间段,来自某银行的负面新闻主要有12个,其中4个是来自于国家媒体,6个是来自于知名媒体,剩下的2个是来自于其他媒体,然后我们还可以直观快捷的看到来自于国家媒体的4条负面新闻中,有1条是来至于新华网的,主要涉及的是产品宣传问题,3条是来自于中国经济的(其中2条说的是服务不到位现象,另外1条是骗贷类),综合可知“服务不到位的”的负面舆情比较多,因此银行之后在对客户的服务方面有必要进一步的加强。同时由来自于其他媒体的2条关于服务收费的负面信息,银行可以针对性的进行核对查实,公开事件全过程,在这种负面舆论蔓延之前及时的进行遏制,做到有则改之无则加勉。针对来至于中国经济的一条“骗贷类”负面舆情,银行可公开事件全过程,及时的对媒体报道进行回应,并说明事情来由等。
【303】最后基于负面舆情图谱,首先采用基于语义的重叠性算法进行了负面舆情的相似性分析,一方面我们可以从繁杂的负面舆情中对负面舆情进行一个分类,从而对负面舆情信息进行全面、快速、高效的分析,比如:经过查询我们可以发现同一时间、同一分行发生的所有负面信息,这样就可以更全面的具体的对该分行在该时间发生的负面事件进行分析并给出相应的预警,采取相应的措施;另一方面银行可以重点关注一下那些相似度比较高的负面舆情,这样的负面舆情一般都是热点,对于银行的舆情分析有决定性的作用。然后,基于负面舆情图谱,我们可以查询发现时间节点、地点节点或者事件类型节点连接边最多的爆炸性节点,然后针对性的对该时间、该地点或者该事件类型进行针对性的监控与核查。最后对新来的负面舆情进行实体链接(包括实体指称识别、候选实体生成和候选实体消歧),这样就可以将新闻中的实体和负面图谱中对应的实体建立链接,如果该新闻对应的发生时间、地点、新闻类型、来源以及事件类型和负面图谱中的某一个负面新闻完全一样,说明这条负面新闻是重复信息,即通过实体链接即可过滤掉负面舆情图谱中与之相似或一样的负面舆情,使得到的负面图谱更完善、纯度更高,分析起来更高效。同时对于任一负面新闻,通过查询其多度关系,可以很清晰的看到该负面舆情的传播路径,以负面新闻1为例,如图9。最后综合进行分析和决策。
以下为本实施例所涉及数据文件:
表1 bank.csv
id label
1 某银行
表2 one_hot_word.csv
id label
1 客户
2 金融服务
3 分行
4 应用
5 推动
6 高质量
7 贷款
8 增长
9 西安
10 应用
表3 next_hot_word.csv
表4 rel_one.csv
1 1
1 2
1 3
1 4
1 5
1 6
1 7
1 8
1 9
1 10
1 1
表5 rel_word.csv
表6 neg_pos.csv
id label
1 正面
2 负面
表7 media_from.csv
id label
1 国家媒体
2 知名媒体
3 其他媒体
4 国家媒体
5 知名媒体
6 其他媒体
表8 media_classify.csv
id label
1 中国网
2 人民网
3 新华网
4 东方财富
5 南昌科技
6 新华网
7 中国经济
8 新浪财经
9 齐鲁网
10 金投网银
表9 media_variety.csv
id label
1 产品宣传的问题
2 服务不到位
3 服务收费
4 金融投资方面
5 骗货类
表10 rel1.csv
from_id relationship to_id
1 1536 1
1 12 2
表11 rel2.csv
from_id relationship to_id
1 1020 1
1 262 2
1 254 3
2 4 4
2 6 5
2 2 6
表12 rel3.csv
表13 rel4.csv
from_id relationship to_id
6 1 1
7 2 2
7 1 5
8 3 2
8 2 4
9 1 1
10 2 3
表14 negative.csv
id label
1 负面1
2 负面2
…… ……
表15 time.csv
id label
1 2020/01/15
2 2020/02/14
…… ……
表16 place.csv
id label
1 北京分行
2 太原分行
…… ……
表17 rel.csv
from_id relationship to_id
1 时间 1
1 地点 1
1 来源 3
1 属于 2
1 类型 4
2 时间 1
2 地点 3
2 来源 1
2 属于 1
2 类型 3
表18 rel_node.csv
本发明提供了基于知识图谱的银行舆情分析。在本发明的基于知识图谱的银行舆情的分析中,在接受用户输入特定银行以及特定时间段后,可以将该银行在特定时间段内的具体舆情以知识图谱可视化的方式呈现给用户,图结构的形式可以让用户更加快速、有效、直观的发现海量数据中隐含的舆情信息,极大的方便了银行进行相应的决策和分析,这里的图谱包括两方面的内容,分别是热词图谱和来源图谱,这些图谱从不同的角度反映了银行的舆情状况。同时本发明还建立了一段时间内银行负面舆情的知识图谱,首先采用基于语义的重叠性算法进行了负面舆情的相似性分析,一方面我们可以根据相似性对繁杂的负面舆情进行一个分类,将相似度大于一定阈值(90%)的负面舆情分为同一类;另一方面对上述分类后的负面舆情中包含的相似负面新闻数量进行一个排序,排名靠前的负面舆情一般都是热点,对于银行的舆情分析有决定性的作用。然后,基于负面舆情图谱,我们可以查询发现时间节点、地点节点或者事件类型节点连接边最多的爆炸性节点,然后针对性的对该时间、该地点或者该事件类型进行针对性的监控与核查。最后对新来的负面舆情进行实体链接(包括实体指称识别、候选实体生成和候选实体消歧),这样就可以过滤掉负面舆情图谱中与之相似度较高或一样的负面舆情,同时针对某一负面新闻进行多度关系查询,可以发现此负面舆情的传播路径。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,这些均属于本发明的保护之内。

Claims (10)

1.一种基于知识图谱的舆情分析方法,其特征在于,所述方法包括:
舆情数据获取采集步骤:从各种搜索引擎中抓取针对待分析主体的原始数据,对原始数据进行预处理,得到舆情数据并存放在数据库中,并生成热词情感表;
舆情知识图谱构建步骤:根据数据库中的舆情数据并结合热词情感表构建热词知识图谱、舆情来源知识图谱和负面舆情知识图谱;
舆情分析步骤:根据所建立的热词知识图谱、舆情来源知识图谱和负面舆情知识图谱进行舆情分析,
其中,所述舆情知识图谱构建步骤具体包括:
构建热词知识图谱:将由机器学习算法得到的所选时间排名前十的热词及其关联的二级热词用作构建热词知识图谱的节点数据,将其导入到neo4j图数据库中,并建立热词知识图谱;
构建舆情来源知识图谱:首先以正面和负面为一级关联节点;然后以舆情媒体来源分类为二级关联节点,一二级节点之间的边以来源的数量为权重;紧接着以舆情新闻媒体的具体来源为三级关联节点,二、三级节点之间的边以来源的数量为权重;再以舆情新闻媒体的具体来源的事件类型为四级关联节点,三、四级节点之间的边以属于该新闻类型的数量为权重,然后建立银行舆情来源的知识图谱;
建立负面舆情的图谱:以所有负面舆情发生的时间、地点、类型为节点,建立图谱。
2.根据权利要求1所述的舆情分析方法,其特征在于,所述热词知识图谱的构建包括以下步骤:
步骤1:根据数据库中的舆情数据,针对待分析主体创建待分析主体信息表,并根据热词情感表选取待分析主体再所选时间范围内排名前十的一级热词及其对应的二级热词;
步骤2:生成待分析主体与一级热词的关系表,以及一级热词与二级热词的关系表;
步骤3:根据步骤1的结果,创建待分析主体节点、一级热词节点以及二级热词节点;
步骤4:根据步骤2的结果,创建待分析主体与一级热词的关系、一级热词与二级热词的关系;
步骤5:完成构建热词知识图谱。
3.根据权利要求1所述的舆情分析方法,其特征在于,所述舆情来源知识图谱的构建包括以下步骤:
步骤1:根据数据库中的舆情数据,创建待分析主体信息表、正负面信息表、舆情新闻来源信息表、舆情新闻来源分类信息表和新闻事件类型信息表;
步骤2:生成待分析主体与正负面的关系表、正负面与舆情新闻来源分类的关系表、舆情新闻来源分类和舆情新闻来源的关系表、舆情新闻来源与对应的新闻事件类型的关系表;
步骤3:根据步骤1的结果,创建待分析主体节点、正负面节点、舆情新闻来源节点、舆情新闻来源分类节点和新闻事件类型节点;
步骤4:根据步骤2的结果,创建待分析主体与正负面的关系、正负面与舆情新闻来源分类的关系、舆情新闻来源分类和舆情新闻来源的关系、舆情新闻来源与对应的新闻事件类型的关系;
步骤5:完成构建舆情来源知识图谱。
4.根据权利要求1所述的舆情分析方法,其特征在于,所述负面舆情知识图谱的构建包括:
步骤1:根据数据库中的舆情数据,创建负面新闻信息表、负面新闻所涉及时间信息表、负面新闻所涉及待分析主体子主体信息表、舆情新闻来源信息表、舆情新闻来源分类信息表和新闻事件类型信息表;
步骤2:生成负面新闻分别与负面新闻所涉及时间、负面新闻所涉及待分析主体子主体信息表、舆情新闻来源、新闻事件类型的关系表,舆情新闻来源和舆情新闻来源分类的关系表,以及负面新闻与负面新闻的关系表;
步骤3:根据步骤1的结果,创建负面新闻节点、负面新闻所涉及时间节点、负面新闻所涉及待分析主体子主体节点、舆情新闻来源节点、舆情新闻来源分类节点和新闻事件类型节点;
步骤4:根据步骤2的结果,创建负面新闻分别与负面新闻所涉及时间、负面新闻所涉及待分析主体子主体、舆情新闻来源、新闻事件类型的关系,舆情新闻来源和舆情新闻来源分类的关系,以及负面新闻与负面新闻的关系;
步骤5:完成构建负面舆情知识图谱。
5.根据权利要求4所述的舆情分析方法,其特征在于,根据所建立的负面舆情知识图谱进行舆情分析具体包括:
采用基于语义的重叠性算法进行了负面新闻的相似度分析,根据相似度对负面新闻进行分类,并依据每一类别所包含负面新闻数量进行排序,确定热点新闻并关注;
确定负面新闻所涉及时间节点、负面新闻所涉及待分析主体子主体节点或者事件类型节点连接边最多的节点作为爆炸性节点,然后该爆炸性节点进行针对性的监控与核查;
对新加入负面新闻进行实体链接,将新加入负面新闻中的实体和负面舆情知识图谱中对应的实体建立链接,将负面新闻所涉及时间、负面新闻所涉及待分析主体子主体、舆情新闻来源、新闻事件类型与负面舆情知识图谱中对应的实体均相同的新加入负面新闻作为重复新闻并删除;
通过查询多度关系,确定任一负面新闻的传播路径。
6.根据权利要求5所述的舆情分析方法,其特征在于,所述对新加入负面新闻进行实体链接包括:实体指称识别、候选实体生成和候选实体消歧。
7.根据权利要求1所述的舆情分析方法,其特征在于,所述对原始数据进行预处理包括但不限于:对原始数据进行清洗、删除重复数据和无关内容、数据标准化、实体消歧操作、命名实体识别、实体关系抽取以及确定三元组结构。
8.一种基于知识图谱的舆情分析系统,其特征在于,所述舆情分析系统基于权利要求1至7中任一项所述方法进行操作,所述系统包括:
舆情数据获取采集模块,通过舆情数据获取采集模块从各种搜索引擎中抓取原始数据,对原始数据进行预处理,得到舆情数据并存放在数据库中,并生成热词情感表;
舆情知识图谱构建模块:根据数据库中的舆情数据并结合热词情感表构建热词知识图谱、舆情来源知识图谱和负面舆情知识图谱;
舆情分析模块:根据所建立的热词知识图谱、舆情来源知识图谱和负面舆情知识图谱进行舆情分析。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现根据权利要求1至7中任一项所述方法的步骤。
10.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现根据权利要求1至7中任一项所述方法的步骤。
CN202010717090.1A 2020-07-23 2020-07-23 基于知识图谱的银行舆情分析方法和系统 Active CN111881302B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010717090.1A CN111881302B (zh) 2020-07-23 2020-07-23 基于知识图谱的银行舆情分析方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010717090.1A CN111881302B (zh) 2020-07-23 2020-07-23 基于知识图谱的银行舆情分析方法和系统

Publications (2)

Publication Number Publication Date
CN111881302A CN111881302A (zh) 2020-11-03
CN111881302B true CN111881302B (zh) 2023-11-28

Family

ID=73154659

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010717090.1A Active CN111881302B (zh) 2020-07-23 2020-07-23 基于知识图谱的银行舆情分析方法和系统

Country Status (1)

Country Link
CN (1) CN111881302B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112581006A (zh) * 2020-12-25 2021-03-30 杭州衡泰软件有限公司 筛选舆情信息及监测企业主体风险等级的舆情引擎及方法
CN112883278A (zh) * 2021-03-23 2021-06-01 西安电子科技大学昆山创新研究院 基于智慧社区大数据知识图谱的不良舆论传播抑制方法
CN113268603A (zh) * 2021-05-08 2021-08-17 大箴(杭州)科技有限公司 一种新闻舆情知识图谱的构建方法及装置、介质、设备
TWI807319B (zh) * 2021-05-10 2023-07-01 中國信託商業銀行股份有限公司 借貸風險偵測方法及其運算裝置
CN113239111A (zh) * 2021-06-17 2021-08-10 上海海洋大学 一种基于知识图谱的网络舆情可视化分析方法及系统
CN113672653A (zh) * 2021-08-09 2021-11-19 支付宝(杭州)信息技术有限公司 识别数据库中的隐私数据的方法和装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8943154B1 (en) * 2012-05-11 2015-01-27 Amazon Technologies, Inc. Systems and methods for modeling relationships between users, network elements, and events
CN105740466A (zh) * 2016-03-04 2016-07-06 百度在线网络技术(北京)有限公司 一种挖掘热点概念之间关联关系的方法和装置
CN107633044A (zh) * 2017-09-14 2018-01-26 国家计算机网络与信息安全管理中心 一种基于热点事件的舆情知识图谱构建方法
CN109509010A (zh) * 2017-09-15 2019-03-22 腾讯科技(北京)有限公司 一种多媒体信息处理方法、终端及存储介质
JP2019219791A (ja) * 2018-06-18 2019-12-26 富士ゼロックス株式会社 情報処理装置及び情報処理プログラム
CN110866126A (zh) * 2019-11-22 2020-03-06 福建工程学院 一种高校网络舆情风险评估方法
CN111026965A (zh) * 2019-12-05 2020-04-17 中国银行股份有限公司 基于知识图谱的热点话题追溯方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10217117B2 (en) * 2011-09-15 2019-02-26 Stephan HEATH System and method for social networking interactions using online consumer browsing behavior, buying patterns, advertisements and affiliate advertising, for promotions, online coupons, mobile services, products, goods and services, entertainment and auctions, with geospatial mapping technology

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8943154B1 (en) * 2012-05-11 2015-01-27 Amazon Technologies, Inc. Systems and methods for modeling relationships between users, network elements, and events
CN105740466A (zh) * 2016-03-04 2016-07-06 百度在线网络技术(北京)有限公司 一种挖掘热点概念之间关联关系的方法和装置
CN107633044A (zh) * 2017-09-14 2018-01-26 国家计算机网络与信息安全管理中心 一种基于热点事件的舆情知识图谱构建方法
CN109509010A (zh) * 2017-09-15 2019-03-22 腾讯科技(北京)有限公司 一种多媒体信息处理方法、终端及存储介质
JP2019219791A (ja) * 2018-06-18 2019-12-26 富士ゼロックス株式会社 情報処理装置及び情報処理プログラム
CN110866126A (zh) * 2019-11-22 2020-03-06 福建工程学院 一种高校网络舆情风险评估方法
CN111026965A (zh) * 2019-12-05 2020-04-17 中国银行股份有限公司 基于知识图谱的热点话题追溯方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Neural network-based question answering over knowledge graphs on word and character level;Jens Lehmann等;《Proceedings of the 26th international conference on world wide web 》;1211-1220 *
突发事件网络舆情演变研究;方付建;《中国博士学位论文全文数据库 信息科技辑》;I141-12 *

Also Published As

Publication number Publication date
CN111881302A (zh) 2020-11-03

Similar Documents

Publication Publication Date Title
CN111881302B (zh) 基于知识图谱的银行舆情分析方法和系统
US11748416B2 (en) Machine-learning system for servicing queries for digital content
Dreżewski et al. System supporting money laundering detection
CN108960833B (zh) 一种基于异构金融特征的异常交易识别方法,设备及存储介质
CN107066599A (zh) 一种基于知识库推理的相似上市公司企业检索分类方法及系统
CN107451710A (zh) 一种信息风险等级五级分类方法及系统
CN110781308A (zh) 一种基于大数据构建知识图谱的反欺诈系统
Choudhury et al. A novel approach to fake news detection in social networks using genetic algorithm applying machine learning classifiers
Sultanov et al. Application of swarm techniques to requirements tracing
Feng et al. Computational social indicators: a case study of chinese university ranking
KR102121901B1 (ko) 정책자금 온라인 심사평가 시스템
CN110458324A (zh) 风险概率的计算方法、装置和计算机设备
CN109635010A (zh) 一种用户特征及特征因子抽取、查询方法和系统
CN114612251A (zh) 风险评估方法、装置、设备及存储介质
CN112632405A (zh) 一种推荐方法、装置、设备及存储介质
KR20180086084A (ko) 인공 지능 기술을 적용한 기계 학습 기반의 입력 특허 집합과 관계성 높은 특허 집합을 생성하는 방법 및 장치
CN107679977A (zh) 一种基于语义分析的税务管理平台及实现方法
Jiang Credit scoring model based on the decision tree and the simulated annealing algorithm
Dabab et al. A decision model for data mining techniques
Rao et al. BMSP-ML: big mart sales prediction using different machine learning techniques
Morrison et al. Business process integration: Method and analysis
Kumar Tripathi et al. Fake review detection in big data using parallel bbo
US20230367821A1 (en) Machine-learning system for servicing queries for digital content
Harris Searching for Diverse Perspectives in News Articles: Using an LSTM Network to Classify Sentiment.
Cao et al. Fake reviewer group detection in online review systems

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant