CN110110156A - 行业舆情监控方法、装置、计算机设备及存储介质 - Google Patents

行业舆情监控方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN110110156A
CN110110156A CN201910270528.3A CN201910270528A CN110110156A CN 110110156 A CN110110156 A CN 110110156A CN 201910270528 A CN201910270528 A CN 201910270528A CN 110110156 A CN110110156 A CN 110110156A
Authority
CN
China
Prior art keywords
industry
public sentiment
website
insurance
corpus
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910270528.3A
Other languages
English (en)
Inventor
吴壮伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN201910270528.3A priority Critical patent/CN110110156A/zh
Publication of CN110110156A publication Critical patent/CN110110156A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/904Browsing; Visualisation therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例提供了一种行业舆情监控方法、装置、计算机设备及计算机可读存储介质,属于数据展示技术领域。方法包括:通过第一预设方式获取行业的关键字,关键字包括行业名称、行业内的子行业关键字及行业内预设目标对象的对象关键字;获取行业的数据源网站列表,并根据第一预设条件从数据源网站列表中筛选出预设数量的网站;根据关键字从预设数量的网站中爬取行业的语料;采用自然语言处理解析语料并通过第二预设方式识别语料包含的对象名称及舆情特征;将对象名称及舆情特征导入图数据库以构建行业的舆情关系图谱;显示舆情关系图谱。本申请实施例从整体上可视化的显示所述行业的舆情关系图谱,从整体的角度提高对行业舆情监控的效率。

Description

行业舆情监控方法、装置、计算机设备及存储介质
技术领域
本申请涉及数据展示技术领域,尤其涉及一种行业舆情监控方法、装置、计算机设备及计算机可读存储介质。
背景技术
传统技术中,对行业舆情进行监控,一般是通过媒体报导或者固定的渠道获取行业内的信息,比如期刊、报纸、财经网站、APP或者公众号等渠道,这样采集的行业信息是碎片化的内容,比较零碎,很难从整体上把握行业舆情,从而导致对行业舆情监控效率不高。
发明内容
本申请实施例提供了一种行业舆情监控方法、装置、计算机设备及计算机可读存储介质,能够解决传统技术中对行业舆情监控效率不高的问题。
第一方面,本申请实施例提供了一种行业舆情监控方法,所述方法包括:通过第一预设方式获取行业的关键字,所述关键字包括行业名称、行业内的子行业关键字及行业内预设目标对象的对象关键字;获取所述行业的数据源网站列表,并根据第一预设条件从所述数据源网站列表中筛选出预设数量的网站;根据所述关键字从所述预设数量的网站中爬取所述行业的语料;采用自然语言处理解析所述语料并通过第二预设方式识别所述语料包含的对象名称及舆情特征;将所述对象名称及所述舆情特征导入图数据库以构建所述行业的舆情关系图谱;显示所述舆情关系图谱。
第二方面,本申请实施例还提供了一种行业舆情监控装置,包括:第一获取单元,用于通过第一预设方式获取行业的关键字,所述关键字包括行业名称、行业内的子行业关键字及行业内预设目标对象的对象关键字;第二获取单元,用于获取所述行业的数据源网站列表,并根据第一预设条件从所述数据源网站列表中筛选出预设数量的网站;爬取单元,用于根据所述关键字从所述预设数量的网站中爬取所述行业的语料;识别单元,用于采用自然语言处理解析所述语料并通过第二预设方式识别所述语料包含的对象名称及舆情特征;构建单元,用于将所述对象名称及所述舆情特征导入图数据库以构建所述行业的舆情关系图谱;显示单元,用于显示所述舆情关系图谱。
第三方面,本申请实施例还提供了一种计算机设备,其包括存储器及处理器,所述存储器上存储有计算机程序,所述处理器执行所述计算机程序时实现所述行业舆情监控方法。
第四方面,本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时使所述处理器执行所述行业舆情监控方法。
本申请实施例提供了一种行业舆情监控方法、装置、计算机设备及计算机可读存储介质。本申请实施例实现行业舆情监控时,在获取行业的关键字和预设数量的数据源网站后,根据所述关键字从有限数量的所述数据源网站中高效率爬取所述行业的的可靠语料,然后采用自然语言处理解析所述语料并通过第二预设方式识别所述语料包含的对象名称及舆情特征,将所述对象名称及所述舆情特征导入图数据库以构建所述行业的舆情关系图谱,从而从整体上可视化的显示所述行业的舆情关系图谱,从整体的角度提高对行业舆情监控的效率。
附图说明
为了更清楚地说明本申请实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的行业舆情监控方法的流程示意图;
图2为本申请实施例提供的行业舆情监控方法一个实施例中保险行业的各个对象关系示意图;
图3为本申请实施例提供的行业舆情监控方法的另一个流程示意图;
图4为本申请实施例提供的行业舆情监控方法的一个子流程示意图;
图5为本申请实施例提供的行业舆情监控方法的另一个子流程示意图;
图6为本申请实施例提供的行业舆情监控方法的第三个子流程示意图;
图7为本申请实施例提供的行业舆情监控装置的示意性框图;
图8为本申请实施例提供的行业舆情监控装置的另一个示意性框图;以及
图9为本申请实施例提供的计算机设备的示意性框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
还应当进一步理解,在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
本申请实施例提供的行业舆情监控方法可应用于终端或者服务器等计算机设备中,通过安装于终端或者服务器上的软件来实现所述行业舆情监控方法的步骤,其中所述终端可以为手机、笔记本电脑、平板电脑或者台式电脑等电子设备,所述服务器可以为云服务器或者服务器集群等。以终端为例,本申请实施例提供的行业舆情监控方法的具体实现过程如下:终端通过第一预设方式获取行业的关键字,所述关键字包括行业名称、行业内的子行业关键字及行业内预设目标对象的对象关键字;获取所述行业的数据源网站列表,并根据第一预设条件从所述数据源网站列表中筛选出预设数量的网站;根据所述关键字从所述预设数量的网站中爬取所述行业的语料;采用自然语言处理解析所述语料并通过第二预设方式识别所述语料包含的对象名称及舆情特征;将所述对象名称及所述舆情特征导入图数据库以构建所述行业的舆情关系图谱;显示所述舆情关系图谱。
需要说明的是,在实际操作过程中,上述行业舆情监控方法的应用场景仅仅用于说明本申请技术方案,并不用于限定本申请技术方案。
图1为本申请实施例提供的行业舆情监控方法的示意性流程图。该行业舆情监控方法应用于终端或者服务器中,以完成行业舆情监控方法的全部或者部分功能。请参阅图1,如图1所示,该方法包括以下步骤S210-S260:
S210、通过第一预设方式获取行业的关键字,所述关键字包括行业名称、行业内的子行业关键字及行业内预设目标对象的对象关键字。
其中,第一预设方式可以是接收人工通过输入设备输入的方式获取关键字,也可以是通过自然语言处理需要进行行业舆情监控的行业相关语料以获得词汇并对获得的词汇进行筛选,所述语料可以是数据库中的数据,对所述词汇进行排序,筛选出排序在预设位置之前的词汇作为行业关键字。
行业内的子行业,是指对行业按照不同属性进行分类后的细分行业,子行业关键字,是指子行业的标识信息。比如,以保险行业为例,请参阅图2,图2为本申请实施例提供的行业舆情监控方法一个实施例中保险行业的各个对象关系示意图,保险行业按照保险业务内容的不同,可以划分为寿险子行业、财险子行业及车险子行业等子行业,其对应的子行业关键字分别为寿险子行业的关键字、财险子行业的关键字及车险子行业的关键字,其中寿险子行业的关键字是指描述寿险特征的词汇,其包括“寿险”、“人寿保险”、“定期人寿保险”、“终身人寿保险”、“疾病险”、“意外险”等描述寿险产品特征的词汇以及用于描述寿险子行业里的组织或者单位的名称,例如“寿险企业1”、“寿险企业2”及“寿险企业3”等词汇,各个寿险企业又可以对应相应的热点、新闻及专题,都属于保险行业的语料,财险子行业的关键字是指描述财险特征的词汇,其包括财产险、机器损坏险及现金保险等描述财险产品特征的词汇及用于描述财险子行业里的组织或者单位的名称,例如“财险企业1”及“财险企业2”等词汇,车险子行业的关键字是指描述车险特征的词汇,其包括汽车保险、交强险及商业险等描述车险产品特征的词汇及用于描述车险子行业里的组织或者单位的名称,例如“车险企业1”及“车险企业2”等词汇。
进一步地,请继续参阅图2,车险子行业还包括关联行业,由于从关联行业中可以获得相关主体之间的关系或者行业与企业主体之间的影响,都可以作为行业舆情分析和监控的参考,比如,针对汽车行业的政策,会影响到车险的发展,在考虑车险对保险行业的影响时,可以考虑汽车行业的政策法规间接对车险行业的影响,进而影响到保险行业的发展,比如图2中汽车行业及汽车行业中的车企1、车企2及汽车行业的政策、环保及限行等政策都会影响到车险子行业。
行业内预设目标对象是指行业内的单位或者组织,行业内目标对象的对象关键字是指行业内单位或者组织的标识信息。对象关键字包括对象名称、对象商标及对象产品等识别出目标对象的词汇。请继续参阅图2,比如,以保险行业为例,若保险行业中存在企业1、企业2及企业3及保监会等目标对象,所述行业内预设目标对象的对象关键字包括企业1、企业2、企业3及保监会等目标对象的名称、商标及产品等信息。
具体地,通过第一预设方式获取行业的关键字,所述行业的关键字可以通过输入设备接收输入的信息,从而获取该行业的关键字以实现该行业进行舆情监控。比如,获取保险行业的关键字包括保险、寿险、车险、财险、保监会、保险企业1、保险企业2及保险企业3等关键字。另外,行业的关键字也可以通过自然语言处理的方式获取,从数据库中或者网络上获取行业的语料,将所述语料进行分词和筛选等自然语言处理,按照分词中的获得的词汇词出现的频率由高到低筛选出行业关键字。比如,终端通过自然语言处理从语料中筛选出保险行业的关键字。其中,所述行业的关键字包括行业名称、行业内的子行业关键字及行业内预设目标对象的对象关键字。比如,以保险行业为例,保险行业的名称为“保险”,保险行业内的子行业包括寿险、财险及车险,寿险、财险及车险又分别对应有相应的关键字,保险行业内预设目标对象一般包括保险行业内位置靠前的组织或者企业,比如保监会,及中国平安保险、中国人民保险等行业内的知名企业,通过包含行业名称、行业内的子行业关键字及行业内预设目标对象的对象关键字,可以实现从多个维度获取关于行业较为全面的语料,从而提高行业舆情监控的可靠性。
进一步地,还可以通过维基百科词向量模型,获取到与行业关键字相近的相近词,构建行业的相近词列表,以实现对于大数据舆情信息,基于行业相近词列表,进行筛选,得到对应的行业信息,包括了行业原始舆情内容,以及代表性企业主体的原始舆情内容。
S220、获取所述行业的数据源网站列表,并根据第一预设条件从所述数据源网站列表中筛选出预设数量的网站。
其中,所述第一预设条件包括根据网站的使用频率、网站的爬取次数或者从网站中爬取的语料数量按照由高到低进行排序后位置靠前的网站,也可以是根据网站的使用频率、网站的爬取次数或者从网站中爬取的语料数量按照由低到高进行排序后位置靠后的网站。其中,使用频率是指在预设时间内使用该网站进行爬取的次数,比如在一周内爬取了10次,使用频率可以反映该网站的质量,网站的爬取次数是指在一次爬取行业语料的过程中针对一网站爬取的次数,爬取的语料数量是指从一网站中爬取的语料的条数。进一步地,还可以将从一网站爬取的语料数量与对该网站的爬取次数的比值作为第一预设条件,以判断网站爬取行业语料的有效性,比如,若在A网站爬取了1000次,获得了一行业的10条语料,在B网站爬取了100次,获得了一行业的10条语料,通过对A网站和B网站的爬取的语料数量与爬取次数的比值,可以获知针对B网站的爬取比A网站有效。
具体地,在首次进行行业舆情监控时,可以由舆情监控人员设置行业的初始数据源网站,并存储所述初始数据源网站形成数据源网站列表,若初始数据源网站的数量超过预设数量,按照任意顺序从初始数据源网站中抽取预设储量的网站,从抽取的预设数量初始数据源网站中爬取进行行业舆情监控需要的语料,若初始数据源网站的数量未超过预设数量,从初始数据源网站中爬取进行行业舆情监控需要的语料。
在爬取行业语料的过程中,根据爬取到的新网页网址所属的网站不断增加所述数据源网站列表中的网站,并根据爬取记录统计所述数据源网站列表中的网站的使用频率、爬取次数或者爬取的语料数量,并根据使用频率、爬取次数或者爬取的语料数量对网站进行排序,在下次进行行业舆情监控进行语料爬取时,若所述数据源网站列表中的网站数量超过预设数量,将所述数据源网站列表中的网站根据使用频率、爬取次数或者爬取的语料数量按照由高到低进行排序,获取排序后位置靠前的预设数量的所述行业的数据源网站,也可以根据使用频率、爬取次数或者爬取的语料数量按照由低到高的顺序进行排序,获取排序后位置靠后的预设数量的所述行业的数据源网站,以进一步从预设数量的网站中爬取行业的语料。由于预设数量的网站使用频率、爬取次数或者爬取的语料数量在数据源网站列表中较大,表明该网站的行业语料较为可靠及全面,同时,通过设置爬取行业语料的网站的数量缩小爬取行业语料的范围,可以提高爬取行业语料的效率,从而通过从可靠性较高的所述预设数量的网站中高效率的爬取所述行业的较为可靠的语料,以进一步提高行业舆情监控的效率和可靠性,需要说明的是,根据爬取记录统计所述数据源网站列表中的网站的使用频率、爬取次数或者爬取的语料数量,并根据使用频率、爬取次数或者爬取的语料数量对网站进行排序的步骤,可以在爬取的过程中进行随时排序,也可以在爬取结束后进行排序,只要在下次进行行业舆情监控时获取预设数量的网站之前进行排序即可。比如,要实现对保险行业的舆情监控,舆情监控人员预先设置了A1、A2和A3三个数据源网站并形成保险行业数据源网站列表,在爬取保险行业的语料过程中,通过爬取保险行业的语料过程中在所述保险行业数据源网站列表中新增加了数据源网站A4、A5、A6、A7、A8、A9和A10,并对保险行业数据源网站列表中的10个网站根据使用频率、爬取次数或者爬取的语料数量进行排序,以获取排序后的数据源网站列表,比如排序后的顺序为A4、A10、A6、A3、A8、A9、A5、A1、A2和A7,若预设数量的网站为5个,取位置靠前的前5个网站A4、A10、A6、A3及A8作为爬取保险行业语料的网站,从而获取可靠保险行业语料的同时提高爬取保险行业语料的效率,以提高保险行业舆情监控的质量和效率。
S230、根据所述关键字从所述预设数量的网站中爬取所述行业的语料。
其中,爬取是指通过爬虫进行爬取,爬虫是指网络爬虫,网络爬虫又被称为网页蜘蛛、网络机器人或者网页追逐者等,是一种按照一定规则自动地抓取万维网信息的程序或者脚本,比如Java爬虫,包括Arachnid爬虫、Crawlzilla爬虫、Heritrix网络爬虫及Ex-Crawler网页爬虫等,可以采取的网络爬虫的爬取策略包括深度爬取策略、广度优先遍历策略、Partial PageRank策略、OCIP策略及大站优先策略等。
具体地,要实施对行业的舆情监控,可以通过构建爬虫系统根据获得的行业的关键字和行业的预设数量的网站中通过爬取互联网上行业的语料,并对语料进行解析以构建行业的舆情关系图谱,行业的舆情监控人员通过所述舆情关系图谱获取行业的舆情以实现对行业的舆情监控。网络爬虫是一个自动提取网页的程序,由于是根据行业对应的关键字进行爬取的,爬虫程序根据行业的关键字可以只爬取与行业有关的语料,从而从所述数据源网站中只爬取包含所述行业对应的关键字的语料。通过第一预设方式获取行业的关键字,所述关键字包括行业名称、行业内的子行业关键字及行业内预设目标对象的对象关键字,并获取行业的预设数量的数据源网站后,爬虫系统根据获得的行业的数据源网站,通过爬取可以获取数据源网站中行业的丰富语料。比如,请继续参阅图2,要实现对保险行业的舆情监控,获取保险行业的关键字保险、寿险、车险、财险、保监会、保险企业1、保险企业2及保险企业3等,并获取保险行业的预设数量的数据源网站后,通过保险行业的关键字从保险行业的数据源网站中获取保险行业的语料,比如,保监会的事件1、事件2及事件3等语料,保险行业事件1及保险行业事件2等语料,保险企业1、保险企业2及保险企业3等语料,车险子行业中的车险企业1及车险企业2等语料,及影响到车险子行业的关联行业汽车行业及汽车行业中的车企1及车企2的语料。通过网络爬虫获取到整个行业的发展现状与关注热度等语料,从而以行业为主体的舆情对象,从整体上把握行业的动态信息。
进一步地,所述根据所述关键字从所述预设数量的网站中爬取所述行业的语料的步骤包括:
根据所述关键字从所述预设数量的网站中爬取预设时间内所述行业的语料。
具体地,预设时间是指预设时间段,比如,一个星期、一个月或者半年内,此处的预设时间可以根据实际需要进行设置,从而对语料进行筛选以实现爬取数据的聚焦,提高对行业语料的处理效率,进一步显示的行业舆情图谱呈现出该预设时间内的行业舆情,从而进一步地对行业舆情进行分析和监控。
进一步地,按照第三预设条件对数据源进行筛选,根据筛选出的数据源获取行业舆情中的语料,以提高爬取的行业舆情监控中数据的可靠性,进而提高舆情监控的可靠性。其中,第三预设条件包括数据源的性质,比如行业中各主体的官方网站及知名网站。比如保险行业,若保险行业包括保监会、保险企业1、保险企业2及保险企业3,还可以进一步包括保险企业1的下属子企业保险企业11,对保险行业数据源的筛选,可以优先爬取保监会、保险企业1、保险企业2、保险企业3及保险企业11的官方网站的语料,及知名新闻网站、财经网站及论坛的数据,从而提高行业舆情监控的可靠性,提高行业舆情监控的质量。
进一步地,还可以对语料按照第四预设条件进行筛选,其中,第四设条件包括行业中的对象或者主体,根据筛选出的数据获取行业舆情中预设主体或者对象的舆情。比如,仍以保险行业为例,保险行业包括车险、财险、产险等对象以及保监会、保险企业1、保险企业2、保险企业3等主体,分别以车险、财险、产险以及保监会、保险企业1、保险企业2、保险企业3为筛选条件对语料进行筛选,可以获得车险、财险、产险以及保监会、保险企业1、保险企业2、保险企业3对应的语料,以实现对车险、财险、产险等细分领域的行业舆情监控,或者对保监会、保险企业1、保险企业2、保险企业3等企业的舆情进行监控,从而实现对行业中某一方面的舆情监控,以提高行业舆情监控的效率。
更进一步地,还可以将上述第三预设条件和第四预设条件结合起来实现对行业舆情监控中数据的筛选,从而进一步提高行业舆情监控的效率和质量。
S240、采用自然语言处理解析所述语料并通过第二预设方式识别所述语料包含的对象名称及舆情特征。
其中,所述第二预设方式包括构建命名实体模型或者使用正则表达式。
对象名称,是指行业中对象的名称,包括主体对象的名称及主题对象的名称,主体对象包括行业中的组织或者单位,比如保险行业中包括的主体对象有保监会、保险企业1、保险企业2及保险企业3等组织或者单位,主题对象是指行业中的主要内容及其分类内容的名称,比如,保险行业的主题对象包括保险、车险、寿险、财险等主题对象,保险、车险、寿险、财险等名称也就是保险行业的主题名称。
舆情特征,是指行业舆情的关键词,是评价行业的特征描述,用于描述行业中主体对象或者主题对象等对象的舆论情况,比如,针对保险行业,保险行业中保险政策的出台及变化,保险事件的发生及发展,保险产品的评价等,相关保险行业中的主体都会产生对应的舆论情况。进一步地,舆情是“舆论情况”的简称,是指在一定的社会空间内,围绕行业事件的发生、发展和变化,作为主体的民众对作为客体的行业的取向产生和持有的态度,它是行业的相关人员关于行业中各种现象、问题所表达的信念、态度、意见和情绪等表现的总和。比如,通过对以上内容的抽取,获取到行业的相关属性以及与其他行业的关系抽取。比如说,保险行业开展了保险峰会,则增加了属性值:保险峰会;保险行业企业进军金融科技行业,则保险行业与金融科技行业构建了关系。
具体地,通过自然语言处理解析所述语料,是指将所述语料根据句子分隔号进行分割以获取句子数据集,根据所述语料构建命名实体模型,通过所述命名实体模型识别出所述句子数据集中所包含的对象,对所述语料进行词性分析及目标关系的检索以获取所述行业的舆情特征。比如,针对保险行业,通过自然语言处理技术,解析获取的保险行业的语料,识别出保险行业中的对象,比如保险、寿险、车险、财险、保监会、保险企业1、保险企业2及保险企业3等对象,对所述保险行业的语料进行词性分析及目标关系的检索以获取所述行业的舆情特征,比如,保监会对寿险产品的政策出台,保险企业1的投资或者保险企业2的理赔等事件的舆情,为行业舆情提供重要的数据。其中,命名实体识别,英文为NamedEntity Recognition,简称NER,又称作“专名识别”,是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。中文命名实体模型包括CRF模型及基于字的BiLSTM-CRF模型。通过获取的详细而全面的数据源获取语料,通过自然语言处理方法以获取有关行业的舆情信息,将舆情信息导入到图数据库中,以完善图数据库中节点和节点属性的数据。比如,通过命名实体模型,识别出有关行业的句子语料,对语料进行分词后,对词进行词性分析和特征词分析,比如名词、动词、形容词及这些词之间的关系,从而抽取出语料中的行业舆情信息。比如,针对保险行业,识别出保监会的政策出台,保险企业1的投资、保险企业2的理赔及保险企业3的营销等行业的舆情信息。
S250、将所述对象名称及所述舆情特征导入图数据库以构建所述行业的舆情关系图谱。
其中,图数据库,又称为图形数据库,英文为Graph Database,图形数据库是NoSQL数据库的一种类型,它应用图形理论存储实体之间的关系信息,常见的图形数据库包括Neo4j、FlockDB及AllegroGrap等。在一个图形数据库中,数据库的最主要组成主要有两种,结点集和连接结点的关系,结点集就是图中一系列结点的集合,图形数据库中,每个结点具有标示自己所属实体类型的标签,也既是其所属的结点集,并记录一系列描述该结点特性的属性,除此之外,还可以通过关系来连接各个结点。
具体地,将通过自然语言处理解析所述语料识别出来所述行业的对象名称及舆情特征导入到图数据库中,完善图数据库的节点和连接节点关系的数据,其中,节点对应对象名称和舆情特征,同时描述节点之间的关系。在设计图形数据库时,由多个节点组成节点集,节点之间通过关系进行关联,分清图中节点集,节点以及节点之间的相互关系,在导入数据时,图形数据库自动识别导入数据中的节点数据和关系数据,将所述节点数据和关系数据分别归属到图形数据库的对应位置上。在本实例中,将所述对象名称及所述舆情特征导入图数据库后,可以自动构建所述行业的舆情关系图谱,比如,针对保险行业,识别出保险行业中的对象及舆情关系特征为“保险企业1投资A项目”,“保险企业1”及“A项目”分为图数据库中的两个节点,这两个节点之间用“投资”作为连接关系,箭头由“保险企业1”节点指向“A项目”节点。本申请实施例中通过所述行业的舆情关系图谱的方式,存储行业的动态舆情数据,能更好地可视化和提取行业的舆情。
S260、显示所述舆情关系图谱。
具体地,将构建的所述行业的舆情关系图谱进行显示,提供给舆情监控人员以使舆情监控人员根据所述行业的舆情关系图谱实现对所述行业的舆情监控,以使行业监控人员根据行业的舆情关系图谱获得行业的舆情结论,实现对目标行业舆情监控,以对行业舆情进行对应处理,可以获得行业舆情的行业正面信息和行业反面信息,获取行业舆情中的事件评估信息和渠道评估信息,以作相应公关措施。比如,针对保险行业,可以获得保险行业中的寿险产品的正面信息和反面信息,获得寿险产品的事件评估信息和渠道评估信息,比如,针对寿险产品中的万能险的正面信息和反面信息,万能险的投资回报率等评估信息及万能险的线上销售渠道和线下销售渠道,基于特定行业的大数据分析,通过每年的公开年报数据,可以抽取出对应的行业数据,并且将对应的行业数据写入到知识图谱中,可以通过检索行业的相关数据分析,得到简洁的结果。
本申请实施例实现行业舆情监控时,在获取行业的关键字和数据源网站列表后,根据所述关键字从所述数据源网站列表所包含的数据源网站中爬取所述行业的较为全面的语料,然后采用自然语言处理解析所述语料并通过第二预设方式识别所述语料包含的对象名称及舆情特征,将所述对象名称及所述舆情特征导入图数据库以构建所述行业的舆情关系图谱,从而从整体上可视化的显示所述行业的舆情关系图谱,从整体的角度提高对行业舆情监控的效率,比如,针对保险行业,从行业的宏观上整体把握行业的趋势,从行业的整体角度为企业的发展方向提供参考,通过行业舆情监控从保险行业的整体发展趋势中考虑寿险领域的发展在整个保险行业中的比重。
请参阅图3,图3为本申请实施例提供的行业舆情监控方法的另一个流程示意图。在该实施例中,所述获取所述行业的数据源网站列表,并根据第一预设条件从所述数据源网站列表中筛选出预设数量的网站的步骤之后,还包括:
S221、通过爬取的方式更新所述数据源网站列表。
具体地,构建一个自动化增加数据源的爬虫策略,通过深度爬取的关联性在上述可靠性比较大的数据源网站列表上增加新数据源网站以从互联网上获取行业较为全面的数据源。
能够自动化增加数据源的爬虫策略,是指所述爬虫获取所述行业的数据源网站列表,并根据第一预设条件从所述数据源网站列表中筛选出预设数量的网站中所包含的初始的数据源网站后,在获得的比较可靠的数据源网站通过爬取自动实现关联以扩展出更多的数据源网站从而增加语料来源,获取行业较全面的语料。在本实施例中,能够自动化增加数据源的爬虫策略是指爬虫根据获得的数据源网站的类型和网址结构特征,通过爬取的方法,挖掘出与获得的数据源网址有关联的新数据源网站,比如与获得的数据源网址有相同的后缀,或者与获得的数据源网址属于同一个类型,比如均属于财经类网站、新闻网站或者论坛等,从而从一个网站扩展出更多的网站来,比如,从一个财经类网站扩展到其他财经类网站,由于同属财经类网站,就有可能存在针对同一个行业中同一事件从不同角度进行解读的语料。由于彼此之间有关联的网站,尤其是在面对行业的热点问题时,会从不同的角度对行业进行解读和报道,从而不断完善数据源网站中的网站,丰富数据源网站中的数据源,达到增加数据源,保证数据量的基础。通过数据源网站获取行业的有关语料,通过丰富的数据源以获取行业全面而丰富的语料。进一步地,自动化增加数据源的爬虫策略可以为构建实时分布式的爬虫系统,构建一个自动化增加数据源的爬虫策略为实时分布式的爬虫系统,所述爬虫系统能根据输入的清单,比如根据输入的清单中网站网址的标识,区分不同网站的类型,根据网站的类型,分配清单到各个服务器中,实现分布式的数据爬取和数据入库,以提高爬取数据的效率。
通过爬虫爬取就能够自动增加数据源,自动化增加数据源就是指采取爬虫策略,如图4所示,图4所示的子流程就是构建自动增加数据源的爬虫策略的过程。请参阅图4,图4为本申请实施例提供的行业舆情监控方法的一个子流程示意图。如图4所示,在该实施例中,所述通过爬取的方式更新所述数据源网站列表的步骤包括:
S2210、获取所述行业的初始数据源网站列表;
S2211、将所述初始数据源网站列表按照第二预设条件进行分类以获取不同类型的数据源网站列表;
S2212、封装所述不同类型的数据源网站列表至对应的Docker容器;
S2213、启动所述Docker容器以使所述Docker容器通过爬取的方式从互联网上获取新数据源网站;
S2214、将所述新数据源网站按照类型分别添加至对应的分类后的数据源网站列表以更新所述细分领域的数据源网站列表。
其中,第二预设条件包括网站地址或者数据来源等条件,网站地址是指根据网站的统一资源定位符(英文为Uniform Resource Locator,缩写为URL)来进行分类,由于不同网站的反爬虫策略不一样,导致网站中网页的数据结构不一样,针对不同的网站需要用不同的爬取策略,比如,新浪网的新闻比较好爬取,用BeautifulSoup直接解析,进行直接爬取即可,网易新闻的标题及内容是使用JS异步加载的,单纯的下载网页源代码是没有标题及内容的,可以在Network的JS中找到需要的内容,可以使用正则表达式来获取我们需要的标题及其链接,今日头条的新闻跟前两个不一样,它的标题和链接是封装到Json文件中的,但是Json文件的URL参数是通过一个JS随机算法变化的,需要模拟Json文件的参数,否则找不到Json文件的具体URL,网站来源包括财经网站、新闻网站或者论坛等。
具体地,获取配置的行业初始数据源网站列表,爬虫系统自动根据所述初始数据源网站列表的第二预设条件将所述初始数据源网站列表进行分类以获取不同类型的数据源网站列表,比如根据网站标识将数据源网站分为不同类型,然后封装不同类型的所述数据源网站列表至对应的Docker容器,所述Docker容器被部署到不同的服务器上,启动所述Docker容器以使所述Docker容器通过爬取从互联网上获取丰富的新数据源网站,将所述新数据源网站添加至对应的初始数据源网站列表以更新所述行业的数据源网站列表,从而不断完善行业的数据源网站。具体来说,包括以下子步骤:
首先,获得初始网站列表,该列表可以通过手动配置,也就是由人工提供初始的数据源网站,也可以是根据关键字通过网络搜索到的网站列表。
其次,通过将编写好的爬虫代码封装到Docker容器中,其中代码包括了提取网站URL的部分,同时还有匹配URL与对应爬取程序的代码,从而使URL自动与爬取程序对应,通过对应的爬虫程序爬取对应的URL的网站。其中,需要构建URL与爬虫程序的索引关系,提前做好所有URL类型的网络爬虫,以使不同类型的URL爬虫对应不同的爬虫程序。
第三,启动容器Docker1,通过爬虫代码将总输入清单进行分类和分割,将同一类的数据源清单进行保存,形成待爬取列表,等待爬取。其中,通过启动URL分类和分割的代码,对输入的网站URL列表根据URL类型进行分类,实现网站URL列表进行分类操作,然后,启动列表分割的代码,将不同的数据源清单分成若干个列表,对应不同机器上的Docker容器。
第四,启动容器Docker2,通过获得的数据源清单列表,通过匹配URL对应的爬虫程序,比如,X网站,对应着X网站爬取和解析的代码,传入X网站即可爬取,对外部网络进行访问,分开抓取对应的数据,并将数据返回到数据库中。
进一步地,爬虫程序根据获取的URL挖掘出新的URL,也就是爬虫程序通过启动URL挖掘出新的URL,并将新的URL存储到待爬取的URL列表中以完善URL列表。同时,还可以核对是否有爬取数据过程中报错的情况,若有报错的情况,针对此网站的爬取过程结束。
对URL进行分类,可以通过预先设置的URL正则表达式进行。每类URL列表都有对应的正则表达式,通过判断返回的结果是否为空,来判定是否为该类URL。判断过程如下:若返回结果非空,则判断为该类URL,若判断结果为空,判断为非该类URL。
第五,直到所有Docker2的待爬取网站列表为空,停止操作。为了完善数据源网站列表,可以采取定时或者不定时的方式根据已获得的数据源网站列表重复上述步骤,以实现数据源网站列表的更新。
在一个实施例中,所述通过第二预设方式识别所述语料包含的对象名称及舆情特征的步骤包括:
通过构建命名实体模型或者使用正则表达式的方式识别所述语料包含的对象名称及舆情特征。
具体地,采用自然语言处理解析所述语料以获得词汇后,可以通过构建命名实体模型的方式识别所述语料包含的对象名称及舆情特征,也可以通过使用正则表达式的方式识别所述语料包含的对象名称及舆情特征。
进一步地,请参阅图5,图5为本申请实施例提供的行业舆情监控方法的另一个子流程示意图。如图5所示,在该实施例中,通过构建命名实体模型的方式识别所述语料包含的对象名称及舆情特征,实现所述采用自然语言处理解析所述语料并通过第二预设方式识别所述语料包含的对象名称及舆情特征的步骤时,具体包括以下步骤:
S2400、将所述语料根据句子分隔号进行分割以获取句子数据集。
其中,句子分隔号包括句子标点符号和分解词,所述句子标点符号包括“。”、“?”、“;”及“!”等标点符号,所述分解词包括“的”、“且”、“中”、“我们”及“根据”等预先设置的可以作为句子隔断的字或者词。
具体地,将通过爬虫系统爬取的语料根据句子分隔号进行分隔,得到句子数据集,以便从句子数据集中筛选出包含名称的句子。
S2401、根据所述语料构建命名实体模型。
其中,命名实体,英文为Named Entity,所谓的命名实体就是人名、机构名、地名以及其他所有以名称为标识的实体,更广泛的实体还包括数字、日期、货币、地址等等。
具体地,诸如中文分词、词性标注、命名实体等问题均属于序列标签标注问题,经典的模型有HMM、MEMM及CRF模型,随着深度学习的兴起,将DNN模型应用到标签标注问题上,取得了较好的结果。比较各模型的结果,一般来说,DNN之前,CRF的结果最好。DNN模型应用到标签标注问题上之后,DNN重在特征的学习和表示,通过DNN学习特征,取代传统CRF中的特征工程,集合DNN和CRF各自的优点。其中,CRF模型,CRF,英文为Conditional RandomField,条件随机场,是自然语言处理领域常用的算法之一,基于统计学的模型。
以CRF模型为例,通过CRF安装包进行CRF安装后,可以通过CRF软件现有的功能构建CRF命名实体模型,并可以根据所述语料进行CRF模型的训练,比如,以寿险领域为例,使用寿险领域的一些特征词,比如“寿险”、“人身险”、“人寿企业1”及“人寿企业2”等寿险领域包含的特征词,进行CRF模型的训练,从而使CRF模型能够针对性的识别出寿险领域的命名实体。使用训练好的CRF模型,进一步识别通过自然语言处理的语料中的命名实体,识别出细分领域的对象名称,也就是进入步骤S2402。
S2402、通过所述命名实体模型识别出所述句子数据集中所包含的对象名称。
其中,命名实体识别,英文为Named Entity Recognition,简称NER,又称作“专名识别”,是指识别文本中具有特定意义的对象,主要包括人名、地名、机构名、专有名词等。
具体地,命名实体模型构建完成后,通过命名实体模型处理获得的句子数据集,通过命名实体模型可以自动识别出句子数据集中包含的对象名称。比如,通过所述语料内容进行命名实体对象的标注,通过CRF模型,构建命名实体识别模型,识别出对象名称。通过命名实体模型,识别出所述行业的相关信息中的句子语料,对词进行词性分析和项目关键关系的检索,若出现了核心的关键词,将相关信息保存为行业的具体属性,同时该具体属性还可以携带上当前日期和时间,丰富行业的舆情关系图谱的舆情数据。比如,针对保险行业,识别出保险、寿险、车险、财险、保监会、保险企业1、保险企业2及保险企业3等对象,及识别出保险企业1的投资或者保险企业2的理赔。
S2403、对所述语料进行词性分析及目标关系的检索以获取所述行业的舆情特征。
其中,词性是指以词的特点作为划分词类的根据,比如动词、名词等词性。目标关系是指所述语料中包含的行业涉及的对象之间的关系,比如,保险企业1对项目的投资关系,保险企业2对投保人的理赔关系,保监会对保险企业的监管关系等。
具体地,对所述语料进行词性分析和主体关系的识别,包括以下过程
首先,对所述语料进行分词。对语句类型进行分词操作可以采用结巴分词。其中,结巴分词是Python中分词工具之一,Python中分词工具很多,包括盘古分词、Yaha分词、Jieba分词、清华THULAC等。
其次,进行核心关系的抽取。具体地,抽取出动词的动作,并且进行关键词列表的匹配,若是动词词汇在关键词内,则认定为核心关系,并且获取到动词后面的名词对象,为命名关系客体,获取到动词前面的名词对象,为命名关系主体,命名关系主体也就是目标。将获取的命名关系主体、命名关系客体以及命名关系主体和命名关系客体之间的关系作为舆情特征,将抽取的核心关系涉及的主体名称及体现属性的特征数据存入图数据库中,比如,保险企业1理赔投保人1,保险企业1为命名关系主体,投保人1为命名关系客体,理赔为命名关系主体和命名关系客体之间的关系。仍以保险行业为例,行业关系的检索,若出现了核心的关键词,如收购、投资、战略合作的话,则将相关信息保存为企业具体属性,同时还可以将关系出现的时间作为属性之一,丰富企业图谱的舆情数据,请继续参阅图,图1所示为各个主体之间的关系,各个主体中的信息又会影响到整个行业的舆情,比如,保险巨头一和保险巨头二的合并,将会影响保险行业的格局,保险行业一的行动,也会引导保险行业中其他企业的行动,比如,若万能险发展迅猛,则其他企业也会加强对万能险的销售,进而影响整个保险行业的舆情。
更进一步地,所述根据所述语料构建命名实体模型的步骤包括:
1)、对所述语料进行分词以获取分词结果;
2)、通过预设的特征模板提取所述分词结果中的特征数据;
3)、基于所述特征数据训练预设的条件随机场模型以构建命名实体模型。
具体地,通过获取的语料构建命名实体模型,具体包括以下步骤:
首先,获得命名实体训练语料,该语料主要来自于爬虫系统通过爬取的方式获取的行业的语料。
其次,对所述语料预处理。主要采用结巴分词并且去除停用词以及无意义的词,获取分词结果。
第三,进行特征提取。通过由正则表达式组成的特征模板进行特征提取,获取的特征包括词、词性、边界词、命名实体特征词。
第四,创建和训练基于条件随机场的模型。条件随机场也就是CRF模型,通过训练数据训练CRF模型,获得CRF模型的参数,保存训练后的CRF模型。
第五,通过测试数据的评价,并保留识别率高等最终符合要求的模型,以获取构建的命名实体模型。
进一步地,请参阅图6,图6为本申请实施例提供的行业舆情监控方法的第三个子流程示意图。在该实施例中,通过使用正则表达式的方式识别所述语料包含的对象名称及舆情特征,实现所述采用自然语言处理解析所述语料并通过第二预设方式识别所述语料包含的对象名称及舆情特征的步骤时,具体包括以下步骤:
S2500、对所述语料进行分词以获取所述语料的词汇列表。
具体地,对所述语料预处理,主要采用结巴分词并且去除停用词以及无意义的词,获取词汇列表。
S2501、使用第一正则表达式抽取出所述词汇列表中的核心关系以得到舆情特征;
S2502、使用第二正则表达式抽取出所述词汇列表中的核心关系涉及的命名实体以得到对象名称。
具体地,使用正则表达式进行核心关系的抽取。比如对于一个语料集,若实体的组成规律是这样的:若干地名+若干其他成分+若干特征词,对语料进行自然语言处理后的数据集做一个正则表达式的匹配即可,模式为:S+O*E+,上面表达式的意思是,必须以1个以上地名开头,以1个以上特征词结尾,中间成分和数量无所谓,匹配出符合要求的字符,将其背后的中文组合起来,就是符合要求的实体,可以任意定义标注和模式,来适应预设规则。比如,针对寿险领域来说,可以定义一个针对“A地B保险公司理赔”,通过这样的正则表达式,可以获知符合条件的理赔关系。通过正则表达式抽取出动词的动作,并且进行关键词列表的匹配,若是动词词汇在关键词内,则认定为核心关系,并且获取到动词后面的名词对象,为命名关系客体,获取到动词前面的名词对象,为命名关系主体,命名关系主体也就是对象。将获取的命名关系主体、命名关系客体以及命名关系主体和命名关系客体之间的关系作为舆情特征,比如,保险企业1理赔投保人1,保险企业1为命名关系主体,投保人1为命名关系客体,理赔为命名关系主体和命名关系客体之间的关系。。其中,正则表达式,又称规则表达式,英语为Regular Expression,在代码中常简写为Regex、Regexp或RE,正则表达式通常被用来检索、替换那些符合某个模式(规则)的文本。
然后,将所述核心关系作为舆情特征及所述命名实体作为主体名称导入图数据库以构建所述行业的舆情关系图谱。在设计图形数据库时,分清图中结点集,结点以及关系之间的相互联系,在导入数据时,图形数据库自动识别导入数据中的节点数据和关系数据,将所述节点数据和关系数据分别归属到图形数据库的对应位置上。在本实例中,将所述核心关系及所述命名实体导入图数据库后,可以自动构建所述行业的舆情关系图谱。其中,图数据库,又称为图形数据库,英文为Graph Database,图形数据库是NoSQL数据库的一种类型,它应用图形理论存储实体之间的关系信息,常见的图形数据库包括Neo4j、FlockDB及AllegroGrap等。
在一个实施例中,所述显示所述舆情关系图谱的步骤包括:
以预设字体格式显示所述舆情关系图谱中的预设内容。
其中,预设字体格式包括字体种类、字体颜色、字体大小及字体粗细等字体格式,其中,字体种类包括楷体、宋体及黑体等字体,字体颜色包括黑色、红色、及黄色等颜色,字体粗细是指字体加粗或者不加粗等,以预设字体格式显示所述舆情关系图谱中的预设内容,可以实现差异化方式显示所述行业中包含的对象及各个对象的舆情,从而提高舆情关系图谱的辨识度。
具体地,以预设字体格式显示所述舆情关系图谱中的预设内容,就是以差异化方式显示所述舆情关系图谱中的各部分,通过将所述舆情关系图谱中的各部分内容采取不同显示形式加以区分,可以提高舆情关系图谱的辨识度,提高对行业舆情关系图谱信息获取的效率。比如,仍以保险行业为例,保险行业中包括保险、寿险、车险、财险、保监会、保险企业1、保险企业2及保险企业3等对象,将寿险以绿色显示,车险以蓝色显示,财险以紫色显示,保监会以红色显示,进一步地还可以将保监会的字体加粗,保险企业1、保险企业2及保险企业3以黑色显示,进一步地,企业1、保险企业2及保险企业3也可以用不同的形式加以区分,比如,不同颜色或者字体是否加粗或者带下划线等方式,若需要重点关注保监会的政策,可以通过加粗的红色迅速找到对应的舆情信息,若保险企业1需要重点关注自己企业的舆情信息,可以只将保险企业1的舆情通过预设方式重点加以突出显示,保险企业1可以通过预设方式迅速找到自己企业的舆情,从而提高舆情获取的效率,再进一步去关注行业内的其他信息。尤其当行业舆情信息图谱比较复杂时,通过差异化方式重点突出显示指定对象的舆情,可以提高舆情监控的效率。
进一步地,还可以对行业舆情监控中更新部分的数据重点突出显示。比如,对一行业舆情关系图谱,若有行业数据更新前的行业舆情关系图谱1和行业数据更新后的行业舆情关系图谱2,若行业舆情关系图谱1和行业舆情关系图谱2有重叠部分,通过差异化方式重点突出行业舆情关系图谱1和行业舆情关系图谱2的不同部分,从而提高行业舆情监控的效率。
请继续参阅图3,如图3所示,在该实施例中,所述显示所述舆情关系图谱的步骤之后,还包括:
S270、按照预设顺序组合所述舆情关系图谱中的元素以通过文字形式描述所述行业的舆情。
进一步地,所述按照预设顺序组合所述舆情关系图谱中的元素以通过文字形式描述所述行业的舆情的步骤包括:
按照预设顺序组合所述舆情关系图谱中的元素以通过文字形式描述所述行业的行业信息、行业内的子行业信息和行业内目标对象的信息。
具体地,不但以所述行业的舆情关系图谱的形式显示行业的舆情以实现目标行业舆情监控,同时,通过结合文字的显示形式,给出所述行业的舆情关系图谱的舆情结论,以供目标行业舆情监控人员参考,比如,保险行业中,保险企业1为命名关系主体,投保人1为命名关系客体,理赔为命名关系主体和命名关系客体之间的关系,可以得出舆情“保险企业1理赔投保人1”。
进一步地,所述舆情结论包括所述行业的行业信息、行业内的子行业信息和行业内目标对象的信息,还可以包括舆情的正面舆情信息、反面舆情信息、事件评估信息和渠道评估信息,其中,所述正面舆情信息指舆情的正面影响,反面舆情信息指舆情的反面影响,事件评估信息是指对舆情中某一事件的影响进行预测评价和估计,渠道评估信息是指语料来源所属的渠道对该目标的影响,比如,不同网站的受众、规模及影响均不相同,需要评估事件所属的渠道对目标影响的估计,比如,微博、微信朋友圈及论坛对目标的影响各不相同。
按照预设顺序组合所述行业的舆情关系图谱中的元素以通过文字形式描述所述行业的舆情时,可以根据图形数据库中存储的实体之间的关系信息,根据图形数据库在设计图形数据库时的信息特征,分清图中结点集与结点以及关系之间的相互联系,然后将节点与节点之间的关系通过文字描述出来,以实现通过文字形式描述所述行业的舆情,给行业舆情监控人员以文字性的提示。比如,若所述行业的舆情关系图谱中,结点A和B之间的关系从属关系,通过文字形式描述所述行业的舆情时可以描述为“节点A从属于节点B”。进一步地,若获得节点A影响节点B的信息,还可以进一步从获取的语料中筛选出节点A影响节点B的相关信息,根据训练出的正则表达式或者语言模型形成节点A影响节点B的信息摘要,以文字形式提供给行业舆情监控人员,供行业舆情监控人员参考,比如,保险行业中,保险企业1为命名关系主体,投保人1为命名关系客体,理赔为命名关系主体和命名关系客体之间的关系,可以得出舆情“保险企业1理赔投保人1”。其中,语言模型,比如N-gram语言模型或者神经网络语言模型等。
进一步地,在一个实施例中,通过构建行业图谱数据,搭建了与行业相关的新闻语料库,在可视化之前,还需要对行业的舆情数据进行时间排序,按照时间顺序罗列出行业排名靠前的新闻数据,以进一步筛选出有效数据,提高数据的处理效率。
需要说明的是,上述各个实施例所述的行业舆情监控方法,可以根据需要将不同实施例中包含的技术特征重新进行组合,以获取组合后的实施方案,但都在本申请要求的保护范围之内。
请参阅图7,图7为本申请实施例提供的行业舆情监控装置的示意性框图。对应于上述行业舆情监控方法,本申请实施例还提供一种行业舆情监控装置。如图7所示,该行业舆情监控装置包括用于执行上述行业舆情监控方法的单元,该装置可以被配置于终端等计算机设备中。具体地,请参阅图7,该行业舆情监控装置700包括第一获取单元701、第二获取单元702、爬取单元703、识别单元704、构建单元705及显示单元706。
其中,第一获取单元701,用于通过第一预设方式获取行业的关键字,所述关键字包括行业名称、行业内的子行业关键字及行业内预设目标对象的对象关键字;
第二获取单元702,用于获取所述行业的数据源网站列表,并根据第一预设条件从所述数据源网站列表中筛选出预设数量的网站;
爬取单元703,用于根据所述关键字从所述预设数量的网站中爬取所述行业的语料;
识别单元704,用于采用自然语言处理解析所述语料并通过第二预设方式识别所述语料包含的对象名称及舆情特征;
构建单元705,用于将所述对象名称及所述舆情特征导入图数据库以构建所述行业的舆情关系图谱;
显示单元706,用于显示所述舆情关系图谱。
请参阅图8,图8为本申请实施例提供的行业舆情监控装置的另一个示意性框图。如图8所示,在该实施例中,所述行业舆情监控装置700还包括:
更新单元707、用于通过爬取的方式更新所述数据源网站列表。
请继续参阅图8,如图8所示,所述更新单元707包括:
获取子单元7071,用于获取所述行业的初始数据源网站列表;
分类子单元7072,用于将所述初始数据源网站列表按照第二预设条件进行分类以获取不同类型的数据源网站列表;
封装子单元7073,用于封装所述不同类型的数据源网站列表至对应的Docker容器;
爬取子单元7074,用于启动所述Docker容器以使所述Docker容器通过爬取的方式从互联网上获取新数据源网站;
更新子单元7075,用于将所述新数据源网站按照类型分别添加至对应的分类后的数据源网站列表以更新所述细分领域的数据源网站列表。
在一个实施例中,所述爬取单元703,用于根据所述关键字从所述预设数量的网站中爬取预设时间内所述行业的语料。
在一个实施例中,所述识别单元704,用于通过构建命名实体模型或者使用正则表达式的方式识别所述语料包含的对象名称及舆情特征。
在一个实施例中,所述显示单元706,用于以预设字体格式显示所述舆情关系图谱中的预设内容。
请继续参阅图8,如图8所示,在该实施例中,所述行业舆情监控装置700还包括:
描述单元708,用于按照预设顺序组合所述舆情关系图谱中的元素以通过文字形式描述所述行业的舆情。
需要说明的是,所属领域的技术人员可以清楚地了解到,上述行业舆情监控装置和各单元的具体实现过程,可以参考前述方法实施例中的相应描述,为了描述的方便和简洁,在此不再赘述。
同时,上述行业舆情监控装置中各个单元的划分和连接方式仅用于举例说明,在其他实施例中,可将行业舆情监控装置按照需要划分为不同的单元,也可将行业舆情监控装置中各单元采取不同的连接顺序和方式,以完成上述行业舆情监控装置的全部或部分功能。
上述行业舆情监控装置可以实现为一种计算机程序的形式,该计算机程序可以在如图9所示的计算机设备上运行。
请参阅图9,图9是本申请实施例提供的一种计算机设备的示意性框图。该计算机设备900可以是台式机电脑或者服务器等计算机设备,也可以是其他设备中的组件或者部件。
参阅图9,该计算机设备900包括通过系统总线901连接的处理器902、存储器和网络接口905,其中,存储器可以包括非易失性存储介质903和内存储器904。
该非易失性存储介质903可存储操作系统9031和计算机程序9032。该计算机程序9032被执行时,可使得处理器902执行一种上述行业舆情监控方法。
该处理器902用于提供计算和控制能力,以支撑整个计算机设备900的运行。
该内存储器904为非易失性存储介质903中的计算机程序9032的运行提供环境,该计算机程序9032被处理器902执行时,可使得处理器902执行一种上述行业舆情监控方法。
该网络接口905用于与其它设备进行网络通信。本领域技术人员可以理解,图9中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备900的限定,具体的计算机设备900可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。例如,在一些实施例中,计算机设备可以仅包括存储器及处理器,在这样的实施例中,存储器及处理器的结构及功能与图9所示实施例一致,在此不再赘述。
其中,所述处理器902用于运行存储在存储器中的计算机程序9032,以实现如下步骤:通过第一预设方式获取行业的关键字,所述关键字包括行业名称、行业内的子行业关键字及行业内预设目标对象的对象关键字;获取所述行业的数据源网站列表,并根据第一预设条件从所述数据源网站列表中筛选出预设数量的网站;根据所述关键字从所述预设数量的网站中爬取所述行业的语料;采用自然语言处理解析所述语料并通过第二预设方式识别所述语料包含的对象名称及舆情特征;将所述对象名称及所述舆情特征导入图数据库以构建所述行业的舆情关系图谱;显示所述舆情关系图谱。
在一实施例中,所述处理器902在实现所述获取所述行业的数据源网站列表,并根据第一预设条件从所述数据源网站列表中筛选出预设数量的网站的步骤之后,还实现以下步骤:
通过爬取的方式更新所述数据源网站列表。
在一实施例中,所述处理器902在实现所述通过爬取的方式更新所述数据源网站列表的步骤时,具体实现以下步骤:
获取所述行业的初始数据源网站列表;
将所述初始数据源网站列表按照第二预设条件进行分类以获取不同类型的数据源网站列表;
封装所述不同类型的数据源网站列表至对应的Docker容器;
启动所述Docker容器以使所述Docker容器通过爬取的方式从互联网上获取新数据源网站;
将所述新数据源网站按照类型分别添加至对应的分类后的数据源网站列表以更新所述细分领域的数据源网站列表。
在一实施例中,所述处理器902在实现所述根据所述关键字从所述预设数量的网站中爬取所述行业的语料的步骤时,具体实现以下步骤:
根据所述关键字从所述预设数量的网站中爬取预设时间内所述行业的语料。
在一实施例中,所述处理器902在实现所述通过第二预设方式识别所述语料包含的对象名称及舆情特征的步骤时,具体实现以下步骤:
通过构建命名实体模型或者使用正则表达式的方式识别所述语料包含的对象名称及舆情特征。
在一实施例中,所述处理器902在实现所述显示所述舆情关系图谱的步骤时,具体实现以下步骤:
以预设字体格式显示所述舆情关系图谱中的预设内容。
在一实施例中,所述处理器902在实现所述显示所述舆情关系图谱的步骤之后,还实现以下步骤:
按照预设顺序组合所述舆情关系图谱中的元素以通过文字形式描述所述行业的舆情。
应当理解,在本申请实施例中,处理器902可以是中央处理单元(CentralProcessing Unit,CPU),该处理器902还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
本领域普通技术人员可以理解的是实现上述实施例的方法中的全部或部分流程,是可以通过计算机程序来完成,该计算机程序可存储于一计算机可读存储介质。该计算机程序被该计算机系统中的至少一个处理器执行,以实现上述方法的实施例的流程步骤。
因此,本申请还提供一种计算机可读存储介质。该计算机可读存储介质可以为非易失性的计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序被处理器执行时使处理器执行如下步骤:
一种计算机程序产品,当其在计算机上运行时,使得计算机执行以上各实施例中所描述的行业舆情监控方法的步骤。
所述计算机可读存储介质可以是前述设备的内部存储单元,例如设备的硬盘或内存。所述计算机可读存储介质也可以是所述设备的外部存储设备,例如所述设备上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述计算机可读存储介质还可以既包括所述设备的内部存储单元也包括外部存储设备。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的设备、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
所述计算机可读存储介质可以是U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、磁碟或者光盘等各种可以存储程序代码的计算机可读存储介质。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
本申请实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。本申请实施例装置中的单元可以根据实际需要进行合并、划分和删减。另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。
以上所述,仅为本申请的具体实施方式,但本申请明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种行业舆情监控方法,其特征在于,所述方法包括:
通过第一预设方式获取行业的关键字,所述关键字包括行业名称、行业内的子行业关键字及行业内预设目标对象的对象关键字;
获取所述行业的数据源网站列表,并根据第一预设条件从所述数据源网站列表中筛选出预设数量的网站;
根据所述关键字从所述预设数量的网站中爬取所述行业的语料;
采用自然语言处理解析所述语料并通过第二预设方式识别所述语料包含的对象名称及舆情特征;
将所述对象名称及所述舆情特征导入图数据库以构建所述行业的舆情关系图谱;
显示所述舆情关系图谱。
2.根据权利要求1所述行业舆情监控方法,其特征在于,所述获取所述行业的数据源网站列表,并根据第一预设条件从所述数据源网站列表中筛选出预设数量的网站的步骤之后,还包括:
通过爬取的方式更新所述数据源网站列表。
3.根据权利要求2所述行业舆情监控方法,其特征在于,所述通过爬取的方式更新所述数据源网站列表的步骤包括:
获取所述行业的初始数据源网站列表;
将所述初始数据源网站列表按照第二预设条件进行分类以获取不同类型的数据源网站列表;
封装所述不同类型的数据源网站列表至对应的Docker容器;
启动所述Docker容器以使所述Docker容器通过爬取的方式从互联网上获取新数据源网站;
将所述新数据源网站按照类型分别添加至对应的分类后的数据源网站列表以更新所述细分领域的数据源网站列表。
4.根据权利要求1所述行业舆情监控方法,其特征在于,所述根据所述关键字从所述预设数量的网站中爬取所述行业的语料的步骤包括:
根据所述关键字从所述预设数量的网站中爬取预设时间内所述行业的语料。
5.根据权利要求1所述行业舆情监控方法,其特征在于,所述通过第二预设方式识别所述语料包含的对象名称及舆情特征的步骤包括:
通过构建命名实体模型或者使用正则表达式的方式识别所述语料包含的对象名称及舆情特征。
6.根据权利要求1所述行业舆情监控方法,其特征在于,所述显示所述舆情关系图谱的步骤包括:
以预设字体格式显示所述舆情关系图谱中的预设内容。
7.根据权利要求1所述行业舆情监控方法,其特征在于,所述显示所述舆情关系图谱的步骤之后,还包括:
按照预设顺序组合所述舆情关系图谱中的元素以通过文字形式描述所述行业的舆情。
8.一种行业舆情监控装置,其特征在于,包括:
第一获取单元,用于通过第一预设方式获取行业的关键字,所述关键字包括行业名称、行业内的子行业关键字及行业内预设目标对象的对象关键字;
第二获取单元,用于获取所述行业的数据源网站列表,并根据第一预设条件从所述数据源网站列表中筛选出预设数量的网站;
爬取单元,用于根据所述关键字从所述预设数量的网站中爬取所述行业的语料;
识别单元,用于采用自然语言处理解析所述语料并通过第二预设方式识别所述语料包含的对象名称及舆情特征;
构建单元,用于将所述对象名称及所述舆情特征导入图数据库以构建所述行业的舆情关系图谱;
显示单元,用于显示所述舆情关系图谱。
9.一种计算机设备,其特征在于,所述计算机设备包括存储器以及与所述存储器相连的处理器;所述存储器用于存储计算机程序;所述处理器用于运行所述存储器中存储的计算机程序,以执行如权利要求1-7任一项所述行业舆情监控方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时使所述处理器执行如权利要求1-7中任一项所述行业舆情监控方法的步骤。
CN201910270528.3A 2019-04-04 2019-04-04 行业舆情监控方法、装置、计算机设备及存储介质 Pending CN110110156A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910270528.3A CN110110156A (zh) 2019-04-04 2019-04-04 行业舆情监控方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910270528.3A CN110110156A (zh) 2019-04-04 2019-04-04 行业舆情监控方法、装置、计算机设备及存储介质

Publications (1)

Publication Number Publication Date
CN110110156A true CN110110156A (zh) 2019-08-09

Family

ID=67485266

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910270528.3A Pending CN110110156A (zh) 2019-04-04 2019-04-04 行业舆情监控方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN110110156A (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110795555A (zh) * 2019-10-31 2020-02-14 北京明略软件系统有限公司 知识图谱数据展示方法及相关装置
CN110992168A (zh) * 2019-11-29 2020-04-10 交通银行股份有限公司 一种银行行内外数据融合方法及系统
CN111143336A (zh) * 2019-11-27 2020-05-12 三盟科技股份有限公司 面向高校科研数据管理的网络爬虫管理方法及平台
CN111241077A (zh) * 2020-01-03 2020-06-05 四川新网银行股份有限公司 基于互联网数据的金融欺诈行为的识别方法
CN111897781A (zh) * 2020-08-03 2020-11-06 厦门渊亭信息科技有限公司 一种知识图谱数据抽取方法和系统
CN111949852A (zh) * 2020-08-31 2020-11-17 东华理工大学 一种基于互联网大数据的宏观经济分析方法及系统
CN112818212A (zh) * 2020-04-23 2021-05-18 腾讯科技(深圳)有限公司 语料数据采集方法、装置、计算机设备和存储介质
CN113609297A (zh) * 2021-08-23 2021-11-05 南京擎盾信息科技有限公司 用于法院行业的舆情监控方法和装置
CN113657547A (zh) * 2021-08-31 2021-11-16 平安医疗健康管理股份有限公司 基于自然语言处理模型的舆情监测方法及其相关设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102708096A (zh) * 2012-05-29 2012-10-03 代松 一种基于语义的网络智能舆情监测系统及其工作方法
CN103544255A (zh) * 2013-10-15 2014-01-29 常州大学 基于文本语义相关的网络舆情信息分析方法
CN104951512A (zh) * 2015-05-27 2015-09-30 中国科学院信息工程研究所 一种基于互联网的舆情数据采集方法及系统
CN107633044A (zh) * 2017-09-14 2018-01-26 国家计算机网络与信息安全管理中心 一种基于热点事件的舆情知识图谱构建方法
CN109409619A (zh) * 2018-12-19 2019-03-01 泰康保险集团股份有限公司 舆情动向的预测方法、装置、介质及电子设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102708096A (zh) * 2012-05-29 2012-10-03 代松 一种基于语义的网络智能舆情监测系统及其工作方法
CN103544255A (zh) * 2013-10-15 2014-01-29 常州大学 基于文本语义相关的网络舆情信息分析方法
CN104951512A (zh) * 2015-05-27 2015-09-30 中国科学院信息工程研究所 一种基于互联网的舆情数据采集方法及系统
CN107633044A (zh) * 2017-09-14 2018-01-26 国家计算机网络与信息安全管理中心 一种基于热点事件的舆情知识图谱构建方法
CN109409619A (zh) * 2018-12-19 2019-03-01 泰康保险集团股份有限公司 舆情动向的预测方法、装置、介质及电子设备

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110795555B (zh) * 2019-10-31 2022-06-17 北京明略软件系统有限公司 知识图谱数据展示方法及相关装置
CN110795555A (zh) * 2019-10-31 2020-02-14 北京明略软件系统有限公司 知识图谱数据展示方法及相关装置
CN111143336A (zh) * 2019-11-27 2020-05-12 三盟科技股份有限公司 面向高校科研数据管理的网络爬虫管理方法及平台
CN110992168A (zh) * 2019-11-29 2020-04-10 交通银行股份有限公司 一种银行行内外数据融合方法及系统
CN111241077A (zh) * 2020-01-03 2020-06-05 四川新网银行股份有限公司 基于互联网数据的金融欺诈行为的识别方法
CN112818212A (zh) * 2020-04-23 2021-05-18 腾讯科技(深圳)有限公司 语料数据采集方法、装置、计算机设备和存储介质
CN112818212B (zh) * 2020-04-23 2023-10-13 腾讯科技(深圳)有限公司 语料数据采集方法、装置、计算机设备和存储介质
CN111897781A (zh) * 2020-08-03 2020-11-06 厦门渊亭信息科技有限公司 一种知识图谱数据抽取方法和系统
CN111897781B (zh) * 2020-08-03 2023-12-26 厦门渊亭信息科技有限公司 一种知识图谱数据抽取方法和系统
CN111949852A (zh) * 2020-08-31 2020-11-17 东华理工大学 一种基于互联网大数据的宏观经济分析方法及系统
CN113609297A (zh) * 2021-08-23 2021-11-05 南京擎盾信息科技有限公司 用于法院行业的舆情监控方法和装置
CN113657547A (zh) * 2021-08-31 2021-11-16 平安医疗健康管理股份有限公司 基于自然语言处理模型的舆情监测方法及其相关设备
CN113657547B (zh) * 2021-08-31 2024-05-14 平安医疗健康管理股份有限公司 基于自然语言处理模型的舆情监测方法及其相关设备

Similar Documents

Publication Publication Date Title
CN110110156A (zh) 行业舆情监控方法、装置、计算机设备及存储介质
CN109614550A (zh) 舆情监控方法、装置、计算机设备及存储介质
Hamborg et al. Automated identification of media bias in news articles: an interdisciplinary literature review
US10896392B2 (en) Methods and systems for generating supply chain representations
US10096034B2 (en) Technology event detection, analysis, and reporting system
Bauer et al. Quantitive evaluation of Web site content and structure
US11048712B2 (en) Real-time and adaptive data mining
CN110134844A (zh) 细分领域舆情监控方法、装置、计算机设备及存储介质
US11205043B1 (en) User interface for use with a search engine for searching financial related documents
US20100049590A1 (en) Method and system for semantic analysis of unstructured data
CN110134845A (zh) 项目舆情监控方法、装置、计算机设备及存储介质
US11783132B2 (en) Technologies for dynamically creating representations for regulations
CN110263248A (zh) 一种信息推送方法、装置、存储介质和服务器
CN105843796A (zh) 一种微博情感倾向分析方法及装置
US10089343B2 (en) Automated analysis of data reports to determine data structure and to perform automated data processing
CN109033282A (zh) 一种基于抽取模板的网页正文抽取方法及装置
CN104199938A (zh) 基于rss的农用土地信息发送方法和系统
CN107798622A (zh) 一种识别用户意图的方法和装置
CN105389331B (zh) 一种基于市场需求的开源软件分析与比较方法
CN115344666A (zh) 政策匹配方法、装置、设备与计算机可读存储介质
Bhatia et al. Machine Learning with R Cookbook: Analyze data and build predictive models
US20210165966A1 (en) Systems and methods of updating computer modeled processes based on real time external data
CN111951079B (zh) 一种基于知识图谱的信用评级方法、装置及电子设备
CN116226494B (zh) 一种用于信息搜索的爬虫系统及方法
US20190102856A1 (en) Policy disruption early warning system

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination