CN110413858A - 企业舆情信息查询方法、装置、计算机设备及存储介质 - Google Patents
企业舆情信息查询方法、装置、计算机设备及存储介质 Download PDFInfo
- Publication number
- CN110413858A CN110413858A CN201910532451.2A CN201910532451A CN110413858A CN 110413858 A CN110413858 A CN 110413858A CN 201910532451 A CN201910532451 A CN 201910532451A CN 110413858 A CN110413858 A CN 110413858A
- Authority
- CN
- China
- Prior art keywords
- information
- enterprise
- public feelings
- related information
- feelings information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 61
- 238000003860 storage Methods 0.000 title claims abstract description 23
- 238000013507 mapping Methods 0.000 claims abstract description 19
- 238000004590 computer program Methods 0.000 claims description 17
- 230000002996 emotional effect Effects 0.000 claims description 14
- 238000004364 calculation method Methods 0.000 claims description 2
- 230000000694 effects Effects 0.000 abstract description 3
- 238000007405 data analysis Methods 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 17
- 230000008451 emotion Effects 0.000 description 16
- 230000006870 function Effects 0.000 description 6
- 230000007935 neutral effect Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000004140 cleaning Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000009193 crawling Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000011835 investigation Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000029058 respiratory gaseous exchange Effects 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明实施例公开了一种企业舆情信息查询方法、装置、计算机设备及存储介质。本发明应用于数据分析中的知识图谱领域。所述方法包括:通过网络爬虫的方式从第一预设网页中根据预设规则获取企业的关联信息,并通过知识图谱的方式将所述关联信息与所述企业进行关联;通过网络爬虫的方式从第二预设网页中根据所述关联信息获取所述企业的舆情信息,并将所述舆情信息与企业进行关联;若接收到用户输入的查询信息,判断所述查询信息是否与所述关联信息相匹配;若所述查询信息与所述关联信息相匹配,返回所述关联信息对应的所述企业的所述舆情信息。通过实施本发明实施例的方法可实现通过关联信息快速查询P2P平台,提高查询效率的效果。
Description
技术领域
本发明涉及互联网技术领域,尤其涉及一种企业舆情信息查询方法、装置、计算机设备及存储介质。
背景技术
随着科技与经济的发展,人们的生活水平逐步改善,在保障日常生活水平的同时还富余有资金进行投资。在如今互联网技术的高速发展下,传统的银行理财已难以满足多元化的投资需求,由于P2P平台利用了互联网的便捷性,逐渐取代传统的银行理财成为主流的投资方式。然而,虽然P2P平台的投资收益高,但是投资风险也大,由于现有的舆论信息查询方式存在信息查询不准确以及不全面的问题,投资者在投资前对P2P平台很难进行充分调查,或者投资后无法及时获知P2P平台的风险变动,造成投资者存在资金安全风险。
发明内容
本发明实施例提供了一种企业舆情信息查询方法、装置、计算机设备及存储介质,旨在解决现有技术方法中企业舆情信息查询不准确以及不全面的问题。
第一方面,本发明实施例提供了一种企业舆情信息查询方法,其包括:通过网络爬虫的方式从第一预设网页中根据预设规则获取企业的关联信息,并通过知识图谱的方式将所述关联信息与所述企业进行关联;通过网络爬虫的方式从第二预设网页中根据所述关联信息获取所述企业的舆情信息,并将所述舆情信息与企业进行关联;若接收到用户输入的查询信息,判断所述查询信息是否与所述关联信息相匹配;若所述查询信息与所述关联信息相匹配,返回所述关联信息对应的所述企业的所述舆情信息。
第二方面,本发明实施例还提供了一种企业舆情信息查询装置,其包括:第一关联单元,用于通过网络爬虫的方式从第一预设网页中根据预设规则获取企业的关联信息,并通过知识图谱的方式将所述关联信息与所述企业进行关联;第二关联单元,用于通过网络爬虫的方式从第二预设网页中根据所述关联信息获取所述企业的舆情信息,并将所述舆情信息与企业进行关联;判断单元,用于若接收到用户输入的查询信息,判断所述查询信息是否与所述关联信息相匹配;返回单元,用于若所述查询信息与所述关联信息相匹配,返回所述关联信息对应的所述企业的所述舆情信息。
第三方面,本发明实施例还提供了一种计算机设备,其包括存储器及处理器,所述存储器上存储有计算机程序,所述处理器执行所述计算机程序时实现上述方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序当被处理器执行时可实现上述方法。
本发明实施例提供了一种企业舆情信息查询方法、装置、计算机设备及存储介质。其中,所述方法包括:通过网络爬虫的方式从第一预设网页中根据预设规则获取企业的关联信息,并通过知识图谱的方式将所述关联信息与所述企业进行关联;通过网络爬虫的方式从第二预设网页中根据所述关联信息获取所述企业的舆情信息,并将所述舆情信息与企业进行关联;若接收到用户输入的查询信息,判断所述查询信息是否与所述关联信息相匹配;若所述查询信息与所述关联信息相匹配,返回所述关联信息对应的所述企业的所述舆情信息。本发明实施例由于通过获取关联信息与企业关联,获取舆情信息与企业关联,根据查询信息与关联信息匹配企业并返回对应企业的舆情信息,可实现通过关联信息快速查询企业舆情信息例如通过该方式加强对P2P平台的调查,本发明实施例可达到提高查询准确率和全面性以及提高查询效率的效果。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的企业舆情信息查询方法的应用场景示意图;
图2为本发明实施例提供的企业舆情信息查询方法的流程示意图;
图3为本发明实施例提供的企业舆情信息查询方法的子流程示意图;
图4为本发明实施例提供的企业舆情信息查询方法的子流程示意图;
图5为本发明另一实施例提供的企业舆情信息查询方法的流程示意图;
图6为本发明另一实施例提供的企业舆情信息查询方法的流程示意图;
图7为本发明实施例提供的企业舆情信息查询方法的子流程示意图;
图8为本发明另一实施例提供的企业舆情信息查询方法的流程示意图;
图9为本发明实施例提供的企业舆情信息查询装置的示意性框图;
图10为本发明实施例提供的企业舆情信息查询装置的具体单元的示意性框图;
图11为本发明另一实施例提供的企业舆情信息查询装置的示意性框图;以及
图12为本发明实施例提供的计算机设备的示意性框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
请参阅图1和图2,图1为本发明实施例提供的企业舆情信息查询方法的应用场景示意图。图2为本发明实施例提供的企业舆情信息查询方法的示意性流程图。该企业舆情信息查询方法应用于终端10中,通过终端10与服务器20之间的交互实现。
图2是本发明实施例提供的企业舆情信息查询方法的流程示意图。如图所示,该方法包括以下步骤S110-S140。
S110、通过网络爬虫的方式从第一预设网页中根据预设规则获取企业的关联信息,并通过知识图谱的方式将所述关联信息与所述企业进行关联。
在一实施例中,关联信息指的是与企业具有关联关系的信息,例如,企业简称、产品名称以及企业高管人员等。网络爬虫指的是一种按照一定的规则,自动地抓取服务器中万维网信息的程序。由于P2P平台是基于互联网实现的新型投资方式,因此每一个P2P平台都有其自身维护的网络平台,那么基于P2P平台其自身的网页即可获取大量与其相关联的关联信息。因而本方案采用网络爬虫的方式爬取P2P平台的官网以获取大量与该P2P平台相关联的关联信息并与该P2P平台进行关联。需要注意的是,还可以从全国和地区企业信用信息公示系统中获取该P2P平台的高管人员与该P2P平台进行关联。
在一实施例中,如图3所示,所述步骤S110可包括步骤:S111-S113。
S111、通过网络爬虫的方式从第一预设网页中获取网页信息。
在一实施例中,第一预设网页主要包括P2P平台的官网以及P2P平台的行业网站,具体地,首先选取预设网页作为初始页,然后从初始页开始爬取,在初始页中抓取其他链接地址,接着再通过这些链接地址寻找下一个网页,重复上述过程直到将所有网站的内容爬取完毕,从而获取到网页信息。
S112、对所述网页信息进行预处理并根据预设规则进行提取得到关联信息。
在一实施例中,在获取到网页信息后,由于网页信息中包含了大量的无关数据,因而需要对网页信息进行预处理以获取到关联信息。具体地,首先对网页信息进行数据清洗,过滤掉网页信息中的链接和图片仅保留文本内容,然后通过分词工具对清洗后的文本内容进行分词,例如,jieba分词工具,最后再根据预设规则从文本中提取出关联信息,其中,该提取的预设规则主要通过关键字设置,例如,词组中包含“宝”、“盈”以及“号”的,其主要用于提取企业简称以及产品名称,例如,PPmoney,省心宝、月月盈以及优享一号等。
S113、通过知识图谱的方式将所述关联信息与企业进行关联。
在一实施例中,知识图谱指的是旨在描述真实世界中存在的各种实体或概念及其关系,其构成一张巨大的网络图,节点表示实体或概念,边则由属性或关系构成。例如,P2P平台表示一个实体,月月盈表示一个实体,P2P平台与月月盈之间则存在一个归属关系,该月月盈是归属与该P2P平台推出的一款理财产品。具体地,将P2P平台作为中心节点,基于从该P2P平台获取的关联信息,将所有从该P2P平台获取的关联信息与P2P平台形成一一映射的关系,从而实现关联信息与企业的关联。
S120、通过网络爬虫的方式从第二预设网页中根据所述关联信息获取所述企业的舆情信息,并将所述舆情信息与企业进行关联。
在一实施例中,舆情信息指的是关于P2P平台的新闻和文章,P2P平台的新闻和文章是投资者获取P2P平台信息的重要渠道,是投资者评估P2P平台风险的一个重要指标,舆情信息在投资者选择P2P平台中起到至关重要的作用。因而,本实施例通过网络爬虫的方式从新闻媒体网站以及P2P平台的行业网站中爬取舆情信息,在爬取到大量的舆情信息后再将每一篇文章或者是新闻与P2P平台进行关联,以便于投资者在查询P2P平台时方便及时地了解到所查询的P2P平台的新闻和文章。
在一实施例中,如图4所示,所述步骤S120可包括步骤:S121-S124。
S121、通过网络爬虫的方式从第二预设网页中获取网页信息。
S122、对所述网页信息进行预处理得到舆情信息。
S123、判断所述舆情信息中是否存在所述关联信息。
S124、若所述舆情信息中存在所述关联信息,将所述舆情信息与所述关联信息对应的所述企业进行关联。
在一实施例中,本步骤获取舆情信息的方法与上述步骤相类似,第二预设网页为新闻媒体网站以及P2P平台的行业网站,首先选取新闻媒体网站以及P2P平台的行业网站作为初始页,然后从初始页开始爬取,在初始页中抓取其他链接地址,接着再通过这些链接地址寻找下一个网页,重复上述过程直到将所有网站的内容爬取完毕,从而获取到网页信息。然后再对网页信息进行预处理,对网页信息进行数据清洗,过滤掉网页信息中的链接和图片仅保留文本内容,再通过分词工具对清洗后的文本内容进行分词,例如,jieba分词工具。最后基于所获取的关联信息,将关联信息与每一篇舆情信息进行匹配,若关联信息与舆情信息匹配成功,说明该篇舆情信息中存在关联信息,该篇舆情信息与关联信息所对应的P2P平台有关,将该篇舆情信息与关联信息所对应的P2P平台进行关联。
在一实施例中,如图5所示,所述步骤S120之后,还包括步骤:S125-S126。
S125、判断所述舆情信息中是否存在预设标签的关联关键词。
S126、若所述舆情信息中存在预设标签的关联关键词,将所述关联关键词对应的所述预设标签与所述舆情信息进行关联。
在一实施例中,预设标签指的是对新闻或文章内容进行概括性总结的标签,例如,“重大事件”、“侵权抄袭”、“亏损盈利”、“造假欺诈”等,每个预设标签都关联有关键词组,关键词组中包含多个关键词,例如,“侵权抄袭”关联的关键词包括“专利侵权”、“版权侵权”、“著作权侵权”以及“商标侵权”等。具体地,在舆情信息与企业关联后,将预设标签的关联关联词与每一篇舆情信息进行匹配,若匹配成功说明该篇舆情信息中存在预设标签的关联关键词,那么将所匹配的关键词对应的预设标签与该篇舆情信息进行关联。由此投资者即可在查询P2P平台时,快速便捷地了解到关于该P2P平台每篇舆情信息的大概情况,辅助投资者评估P2P平台的投资风险。
在一实施例中,如图6所示,所述步骤S120之后,还包括步骤:S127-S128。
S127、根据预设情感词典与所述舆情信息进行匹配以确定所述舆情信息的情感值。
S128、根据所述情感值确定所述舆情信息的情感倾向。
在一实施例中,预设情感词典指的是对情感词进行分类打分的词典,预设情感词典中将词分为三类,包括正面、中性以及负面,正面的情感词例如为,“增长”、“高收益”以及“安全”等,中性词的情感词例如为,“榜单”、“”以及“”等,负面的情感词例如为“非法吸收公众存款”、“卷款”以及“非法集资”等。预设情感词典是已预先构建好的,通过调用预设情感词典的接口来使用。在预设情感词典中,每个情感词都有对应分配的分值,其中,正面的情感词分值都为正数,负面的情感词分值都为负数,中性的情感词分值都为零。具体地,首先根据舆情信息中分词所得的词组在预设情感词典中遍历找到与之相同的词组并获取该词组的分值,然后根据所获取到的情感词的分值进行计算,将所有情感词的分值进行求和最终得到该篇舆情信息的情感值。在得到情感值之后则根据情感值确定该篇舆情信息的情感倾向,若得到的情感值大于零,则判定该篇舆情信息的情感倾向为正面;若得到的情感值小于零,则判定该篇舆情信息的情感倾向为负面;若得到的情感值等于零,则判断该篇舆情信息的情感倾向为中性。
S130、若接收到用户输入的查询信息,判断所述查询信息是否与所述关联信息相匹配。
在一实施例中,现有的投资者在查询企业时,由于企业全称通常名称很长,投资者难记忆,且很少P2P平台会真实披露公司全称,从而导致投资者难以查询到P2P平台的企业信息。而通过本实施例实现的企业与关联信息的关联,能够使得投资者通过其他与P2P平台相关联的信息即可快速查询到P2P平台,在接收到投资者输入的查询信息后,根据查询信息与关联信息进行匹配,即判断在所有的关联信息中是否存在有关联信息与查询信息相同。
S140、若所述查询信息与所述关联信息相匹配,返回所述关联信息对应的所述企业的所述舆情信息。
在一实施例中,若投资者所输入的查询信息与关联信息匹配成功,说明所有的关联信息中存在有与查询信息相同的关联信息,那么则返回该关联信息所对应关联的企业的舆情信息。当然可以理解的是,还可从数据库中调取该企业的工商信息并返回,其中,工商信息指的是企业在工商局登记注册的有关信息,例如,法人代表,注册资本以及经营范围等。
在一实施例中,如图7所示,所述步骤S140包括:S141-S142。
S141、根据舆情信息中所述关联信息出现的频率确定所述舆情信息与企业之间的关联强度,其中,所述关联强度包括强、中以及弱。
S142、根据所述关联强度由强到弱对所述舆情信息进行排序,并根据所述排序返回所述舆情信息。
在一实施例中,由于互联网中存在大量的舆情信息,而每篇舆情信息中可能涉及多家P2P平台,因此,为了提高P2P平台查询的准确性,通过设置关联强度来对舆情信息进行排序,以使投资者能够快速了解到与所查询的P2P平台最相关的舆情信息。具体地,关联强度分为强、中以及弱,根据关联信息与每一篇舆情信息进行匹配,统计关联信息匹配成功的次数,统计的次数越多表示关联强度越强,例如,频率为3次以上关联强度为强,频率为2次关联强度为中,频率小于1词关联强度为弱。在得到每篇舆情信息的关联强度后,那么则根据关联强度由强到弱对投资者所查询的P2P平台所关联的每一篇舆情信息进行排序,再将排序好的舆情信息返回给用户。
在一实施例中,如图8所示,所述步骤S140之后,还包括:S150。
S150、根据第三预设网页通过网络爬虫的方式获取黑名单,并对所述黑名单中的所述企业添加黑名单标签。
在一实施例中,由于部分P2P平台已被曝光为问题平台,为了使投资者能够过滤掉问题平台,通过网络爬虫的方式爬取特定的行业网站来获取黑名单,例如为“网贷之家”,这类的行业网站通常设有网贷黑名单,这类具有黑名单榜单的网站即为第三预设网页。其中,本步骤采用的网络爬虫方式与上述步骤相类似,在此不再赘述。在获取到黑名单后,则对黑名单中的企业添加黑名单标签,实现问题平台的提醒功能,进一步地降低投资者的投资风险。
本发明展示了一种企业舆情信息查询方法,通过通过网络爬虫的方式从第一预设网页中根据预设规则获取企业的关联信息,并通过知识图谱的方式将所述关联信息与所述企业进行关联;通过网络爬虫的方式从第二预设网页中根据所述关联信息获取所述企业的舆情信息,并将所述舆情信息与企业进行关联;若接收到用户输入的查询信息,判断所述查询信息是否与所述关联信息相匹配;若所述查询信息与所述关联信息相匹配,返回所述关联信息对应的所述企业的所述舆情信息,可实现通过关联信息快速查询P2P平台,提高查询准确率和全面性以及提高查询效率的效果。
图9是本发明实施例提供的一种企业舆情信息查询装置200的示意性框图。如图9所示,对应于以上企业舆情信息查询方法,本发明还提供一种企业舆情信息查询装置200。该企业舆情信息查询装置包括用于执行上述企业舆情信息查询方法的单元,该装置可以被配置于台式电脑、平板电脑、手提电脑、等终端中。具体地,请参阅图9,该企业舆情信息查询装置200包括:第一关联单元210、第二关联单元220、第一判断单元230以及返回单元240。
第一关联单元210,用于通过网络爬虫的方式从第一预设网页中根据预设规则获取企业的关联信息,并通过知识图谱的方式将所述关联信息与所述企业进行关联。
在一实施例中,如图10所示,所述第一关联单元210包括:第一爬虫单元211、第一预处理单元212以及第一关联子单元213。
第一爬虫单元211,用于通过网络爬虫的方式从第一预设网页中获取网页信息。
第一预处理单元212,用于对所述网页信息进行预处理并根据预设规则进行提取得到关联信息。
第一关联子单元213,用于通过知识图谱的方式将所述关联信息与企业进行关联。
第二关联单元220,用于通过网络爬虫的方式从第二预设网页中根据所述关联信息获取所述企业的舆情信息,并将所述舆情信息与企业进行关联。
在一实施例中,如图10所示,所述第二关联单元220包括:第二爬虫单元221、第二预处理单元222、判断子单元223以及第二关联子单元224。
第二爬虫单元221,用于通过网络爬虫的方式从第二预设网页中获取网页信息。
第二预处理单元222,用于对所述网页信息进行预处理得到舆情信息。
判断子单元223,用于判断所述舆情信息中是否存在所述关联信息。
第二关联子单元224,用于若所述舆情信息中存在所述关联信息,将所述舆情信息与所述关联信息对应的所述企业进行关联。
在一实施例中,如图11所示,所述企业舆情信息查询装置200还包括:第二判断单元225以及第三关联单元226。
第二判断单元225,用于判断所述舆情信息中是否存在预设标签的关联关键词。
第三关联单元226,用于若所述舆情信息中存在预设标签的关联关键词,将所述关联关键词对应的所述预设标签与所述舆情信息进行关联。
在一实施例中,如图11所示,所述企业舆情信息查询装置200还包括:情感匹配单元227以及情感倾向单元228。
情感匹配单元227,用于根据预设情感词典与所述舆情信息进行匹配以确定所述舆情信息的情感值。
情感倾向单元228,用于根据所述情感值确定所述舆情信息的情感倾向。
第一判断单元230,用于若接收到用户输入的查询信息,判断所述查询信息是否与所述关联信息相匹配。
返回单元240,用于若所述查询信息与所述关联信息相匹配,返回所述关联信息对应的所述企业的所述舆情信息。
在一实施例中,如图10所示,所述返回单元240包括:关联强度单元241以及排序单元242。
关联强度单元241,用于根据舆情信息中所述关联信息出现的频率确定所述舆情信息与企业之间的关联强度,其中,所述关联强度包括强、中以及弱;
排序单元242,用于根据所述关联强度由强到弱对所述舆情信息进行排序,并根据所述排序返回所述舆情信息。
在一实施例中,如图11所示,所述企业舆情信息查询装置200还包括:添加单元250。
添加单元250,用于根据第三预设网页通过网络爬虫的方式获取黑名单,并对所述黑名单中的所述企业添加黑名单标签。
需要说明的是,所属领域的技术人员可以清楚地了解到,上述企业舆情信息查询装置200和各单元的具体实现过程,可以参考前述方法实施例中的相应描述,为了描述的方便和简洁,在此不再赘述。
上述企业舆情信息查询装置可以实现为一种计算机程序的形式,该计算机程序可以在如图12所示的计算机设备上运行。
请参阅图12,图12是本申请实施例提供的一种计算机设备的示意性框图。该计算机设备500可以是终端,其中,终端可以是智能手机、平板电脑、笔记本电脑、台式电脑、个人数字助理和穿戴式设备等具有通信功能的电子设备。
参阅图12,该计算机设备500包括通过系统总线501连接的处理器502、存储器和网络接口505,其中,存储器可以包括非易失性存储介质503和内存储器504。
该非易失性存储介质503可存储操作系统5031和计算机程序5032。该计算机程序5032包括程序指令,该程序指令被执行时,可使得处理器502执行一种企业舆情信息查询方法。
该处理器502用于提供计算和控制能力,以支撑整个计算机设备500的运行。
该内存储器504为非易失性存储介质503中的计算机程序5032的运行提供环境,该计算机程序5032被处理器502执行时,可使得处理器502执行一种企业舆情信息查询方法。
该网络接口505用于与其它设备进行网络通信。本领域技术人员可以理解,图12中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备500的限定,具体的计算机设备500可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
其中,所述处理器502用于运行存储在存储器中的计算机程序5032,以实现如下步骤:通过网络爬虫的方式从第一预设网页中根据预设规则获取企业的关联信息,并通过知识图谱的方式将所述关联信息与所述企业进行关联;通过网络爬虫的方式从第二预设网页中根据所述关联信息获取所述企业的舆情信息,并将所述舆情信息与企业进行关联;若接收到用户输入的查询信息,判断所述查询信息是否与所述关联信息相匹配;若所述查询信息与所述关联信息相匹配,返回所述关联信息对应的所述企业的所述舆情信息。
在一实施例中,处理器502在实现所述通过网络爬虫的方式从第一预设网页中根据预设规则获取企业的关联信息,并通过知识图谱的方式将所述关联信息与所述企业进行关联步骤时,具体实现如下步骤:通过网络爬虫的方式从第一预设网页中获取网页信息;对所述网页信息进行预处理并根据预设规则进行提取得到关联信息;通过知识图谱的方式将所述关联信息与企业进行关联。
在一实施例中,处理器502在实现所述通过网络爬虫的方式从第二预设网页中根据所述关联信息获取所述企业的舆情信息,并将所述舆情信息与企业进行关联步骤时,具体实现如下步骤:通过网络爬虫的方式从第二预设网页中获取网页信息;对所述网页信息进行预处理得到舆情信息;判断所述舆情信息中是否存在所述关联信息;若所述舆情信息中存在所述关联信息,将所述舆情信息与所述关联信息对应的所述企业进行关联。
在一实施例中,处理器502在实现所述通过网络爬虫的方式从第二预设网页中根据所述关联信息获取所述企业的舆情信息,并将所述舆情信息与企业进行关联步骤之后,还实现如下步骤:判断所述舆情信息中是否存在预设标签的关联关键词;若所述舆情信息中存在预设标签的关联关键词,将所述关联关键词对应的所述预设标签与所述舆情信息进行关联。
在一实施例中,处理器502在实现所述通过网络爬虫的方式从第二预设网页中根据所述关联信息获取所述企业的舆情信息,并将所述舆情信息与企业进行关联步骤之后,还实现如下步骤:根据预设情感词典与所述舆情信息进行匹配以确定所述舆情信息的情感值;根据所述情感值确定所述舆情信息的情感倾向。
在一实施例中,处理器502在实现所述若所述查询信息与所述关联信息相匹配,返回所述关联信息对应的所述企业的所述舆情信息步骤时,具体实现如下步骤:根据舆情信息中所述关联信息出现的频率确定所述舆情信息与企业之间的关联强度,其中,所述关联强度包括强、中以及弱;根据所述关联强度由强到弱对所述舆情信息进行排序,并根据所述排序返回所述舆情信息。
在一实施例中,处理器502在实现所述若所述查询信息与所述关联信息相匹配,返回所述关联信息对应的所述企业的所述舆情信息步骤之后,还实现如下步骤:根据第三预设网页通过网络爬虫的方式获取黑名单,并对所述黑名单中的所述企业添加黑名单标签。
应当理解,在本申请实施例中,处理器502可以是中央处理单元(CentralProcessing Unit,CPU),该处理器502还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
本领域普通技术人员可以理解的是实现上述实施例的方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成。该计算机程序包括程序指令,计算机程序可存储于一存储介质中,该存储介质为计算机可读存储介质。该程序指令被该计算机系统中的至少一个处理器执行,以实现上述方法的实施例的流程步骤。
因此,本发明还提供一种存储介质。该存储介质可以为计算机可读存储介质。该存储介质存储有计算机程序,其中计算机程序包括程序指令。该程序指令被处理器执行时使处理器执行如下步骤:通过网络爬虫的方式从第一预设网页中根据预设规则获取企业的关联信息,并通过知识图谱的方式将所述关联信息与所述企业进行关联;通过网络爬虫的方式从第二预设网页中根据所述关联信息获取所述企业的舆情信息,并将所述舆情信息与企业进行关联;若接收到用户输入的查询信息,判断所述查询信息是否与所述关联信息相匹配;若所述查询信息与所述关联信息相匹配,返回所述关联信息对应的所述企业的所述舆情信息。
在一实施例中,所述处理器在执行所述程序指令而实现所述通过网络爬虫的方式从第一预设网页中根据预设规则获取企业的关联信息,并通过知识图谱的方式将所述关联信息与所述企业进行关联步骤时,具体实现如下步骤:通过网络爬虫的方式从第一预设网页中获取网页信息;对所述网页信息进行预处理并根据预设规则进行提取得到关联信息;通过知识图谱的方式将所述关联信息与企业进行关联。
在一实施例中,所述处理器在执行所述程序指令而实现所述通过网络爬虫的方式从第二预设网页中根据所述关联信息获取所述企业的舆情信息,并将所述舆情信息与企业进行关联步骤时,具体实现如下步骤:通过网络爬虫的方式从第二预设网页中获取网页信息;对所述网页信息进行预处理得到舆情信息;判断所述舆情信息中是否存在所述关联信息;若所述舆情信息中存在所述关联信息,将所述舆情信息与所述关联信息对应的所述企业进行关联。
在一实施例中,所述处理器在执行所述程序指令而实现所述通过网络爬虫的方式从第二预设网页中根据所述关联信息获取所述企业的舆情信息,并将所述舆情信息与企业进行关联步骤之后,还实现如下步骤:判断所述舆情信息中是否存在预设标签的关联关键词;若所述舆情信息中存在预设标签的关联关键词,将所述关联关键词对应的所述预设标签与所述舆情信息进行关联。
在一实施例中,所述处理器在执行所述程序指令而实现所述通过网络爬虫的方式从第二预设网页中根据所述关联信息获取所述企业的舆情信息,并将所述舆情信息与企业进行关联步骤之后,还实现如下步骤:根据预设情感词典与所述舆情信息进行匹配以确定所述舆情信息的情感值;根据所述情感值确定所述舆情信息的情感倾向。
在一实施例中,所述处理器在执行所述程序指令而实现所述若所述查询信息与所述关联信息相匹配,返回所述关联信息对应的所述企业的所述舆情信息步骤时,具体实现如下步骤:根据舆情信息中所述关联信息出现的频率确定所述舆情信息与企业之间的关联强度,其中,所述关联强度包括强、中以及弱;根据所述关联强度由强到弱对所述舆情信息进行排序,并根据所述排序返回所述舆情信息。
在一实施例中,所述处理器在执行所述程序指令而实现所述若所述查询信息与所述关联信息相匹配,返回所述关联信息对应的所述企业的所述舆情信息步骤之后,还实现如下步骤:根据第三预设网页通过网络爬虫的方式获取黑名单,并对所述黑名单中的所述企业添加黑名单标签。
所述存储介质可以是U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、磁碟或者光盘等各种可以存储程序代码的计算机可读存储介质。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的。例如,各个单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。
本发明实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。本发明实施例装置中的单元可以根据实际需要进行合并、划分和删减。另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。
该集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,终端,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
Claims (10)
1.一种企业舆情信息查询方法,其特征在于,包括:
通过网络爬虫的方式从第一预设网页中根据预设规则获取企业的关联信息,并通过知识图谱的方式将所述关联信息与所述企业进行关联;
通过网络爬虫的方式从第二预设网页中根据所述关联信息获取所述企业的舆情信息,并将所述舆情信息与企业进行关联;
若接收到用户输入的查询信息,判断所述查询信息是否与所述关联信息相匹配;
若所述查询信息与所述关联信息相匹配,返回所述关联信息对应的所述企业的所述舆情信息。
2.根据权利要求1所述的企业舆情信息查询方法,其特征在于,所述通过网络爬虫的方式从第一预设网页中根据预设规则获取企业的关联信息,并通过知识图谱的方式将所述关联信息与所述企业进行关联,包括:
通过网络爬虫的方式从第一预设网页中获取网页信息;
对所述网页信息进行预处理并根据预设规则进行提取得到关联信息;
通过知识图谱的方式将所述关联信息与企业进行关联。
3.根据权利要求1所述的企业舆情信息查询方法,其特征在于,所述通过网络爬虫的方式从第二预设网页中根据所述关联信息获取所述企业的舆情信息,并将所述舆情信息与企业进行关联,包括:
通过网络爬虫的方式从第二预设网页中获取网页信息;
对所述网页信息进行预处理得到舆情信息;
判断所述舆情信息中是否存在所述关联信息;
若所述舆情信息中存在所述关联信息,将所述舆情信息与所述关联信息对应的所述企业进行关联。
4.根据权利要求1所述的企业舆情信息查询方法,其特征在于,所述通过网络爬虫的方式从第二预设网页中根据所述关联信息获取所述企业的舆情信息,并将所述舆情信息与企业进行关联之后,还包括:
判断所述舆情信息中是否存在预设标签的关联关键词;
若所述舆情信息中存在预设标签的关联关键词,将所述关联关键词对应的所述预设标签与所述舆情信息进行关联。
5.根据权利要求1所述的企业舆情信息查询方法,其特征在于,所述通过网络爬虫的方式从第二预设网页中根据所述关联信息获取所述企业的舆情信息,并将所述舆情信息与企业进行关联之后,还包括:
根据预设情感词典与所述舆情信息进行匹配以确定所述舆情信息的情感值;
根据所述情感值确定所述舆情信息的情感倾向。
6.根据权利要求1所述的企业舆情信息查询方法,其特征在于,所述若所述查询信息与所述关联信息相匹配,返回所述关联信息对应的所述企业的所述舆情信息,包括:
根据舆情信息中所述关联信息出现的频率确定所述舆情信息与企业之间的关联强度,其中,所述关联强度包括强、中以及弱;
根据所述关联强度由强到弱对所述舆情信息进行排序,并根据所述排序返回所述舆情信息。
7.根据权利要求1所述的企业舆情信息查询方法,其特征在于,所述若所述查询信息与所述关联信息相匹配,返回所述关联信息对应的所述企业的所述舆情信息之后,还包括:
根据第三预设网页通过网络爬虫的方式获取黑名单,并对所述黑名单中的所述企业添加黑名单标签。
8.一种企业舆情信息查询装置,其特征在于,包括:
第一关联单元,用于通过网络爬虫的方式从第一预设网页中根据预设规则获取企业的关联信息,并通过知识图谱的方式将所述关联信息与所述企业进行关联;
第二关联单元,用于通过网络爬虫的方式从第二预设网页中根据所述关联信息获取所述企业的舆情信息,并将所述舆情信息与企业进行关联;
第一判断单元,用于若接收到用户输入的查询信息,判断所述查询信息是否与所述关联信息相匹配;
返回单元,用于若所述查询信息与所述关联信息相匹配,返回所述关联信息对应的所述企业的所述舆情信息。
9.一种计算机设备,其特征在于,所述计算机设备包括存储器及处理器,所述存储器上存储有计算机程序,所述处理器执行所述计算机程序时实现如权利要求1-7中任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序当被处理器执行时可实现如权利要求1-7中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910532451.2A CN110413858A (zh) | 2019-06-19 | 2019-06-19 | 企业舆情信息查询方法、装置、计算机设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910532451.2A CN110413858A (zh) | 2019-06-19 | 2019-06-19 | 企业舆情信息查询方法、装置、计算机设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110413858A true CN110413858A (zh) | 2019-11-05 |
Family
ID=68359314
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910532451.2A Pending CN110413858A (zh) | 2019-06-19 | 2019-06-19 | 企业舆情信息查询方法、装置、计算机设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110413858A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111737477A (zh) * | 2020-08-07 | 2020-10-02 | 杭州六棱镜知识产权科技有限公司 | 一种基于知识产权大数据的情报调查方法、系统和存储介质 |
CN111950860A (zh) * | 2020-07-21 | 2020-11-17 | 中证征信(深圳)有限公司 | 一种企业舆情风险指数的监控方法及装置 |
CN113535028A (zh) * | 2021-07-29 | 2021-10-22 | 合肥新青罗数字技术有限公司 | 一种企服运营状态可视化展示方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20090048998A (ko) * | 2007-11-12 | 2009-05-15 | 주식회사 비즈모델라인 | 키워드를 통한 부정 여론 알림 방법 및 시스템과 이를 위한기록매체 |
CN107945024A (zh) * | 2017-12-12 | 2018-04-20 | 厦门市美亚柏科信息股份有限公司 | 识别互联网金融借贷企业经营异常的方法、终端设备及存储介质 |
CN108596439A (zh) * | 2018-03-29 | 2018-09-28 | 北京中兴通网络科技股份有限公司 | 一种基于知识图谱的企业风险预测方法及系统 |
CN109543096A (zh) * | 2018-10-15 | 2019-03-29 | 平安科技(深圳)有限公司 | 数据查询方法、装置、计算机设备和存储介质 |
CN109614550A (zh) * | 2018-12-11 | 2019-04-12 | 平安科技(深圳)有限公司 | 舆情监控方法、装置、计算机设备及存储介质 |
-
2019
- 2019-06-19 CN CN201910532451.2A patent/CN110413858A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20090048998A (ko) * | 2007-11-12 | 2009-05-15 | 주식회사 비즈모델라인 | 키워드를 통한 부정 여론 알림 방법 및 시스템과 이를 위한기록매체 |
CN107945024A (zh) * | 2017-12-12 | 2018-04-20 | 厦门市美亚柏科信息股份有限公司 | 识别互联网金融借贷企业经营异常的方法、终端设备及存储介质 |
CN108596439A (zh) * | 2018-03-29 | 2018-09-28 | 北京中兴通网络科技股份有限公司 | 一种基于知识图谱的企业风险预测方法及系统 |
CN109543096A (zh) * | 2018-10-15 | 2019-03-29 | 平安科技(深圳)有限公司 | 数据查询方法、装置、计算机设备和存储介质 |
CN109614550A (zh) * | 2018-12-11 | 2019-04-12 | 平安科技(深圳)有限公司 | 舆情监控方法、装置、计算机设备及存储介质 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111950860A (zh) * | 2020-07-21 | 2020-11-17 | 中证征信(深圳)有限公司 | 一种企业舆情风险指数的监控方法及装置 |
CN111950860B (zh) * | 2020-07-21 | 2024-04-16 | 中证征信(深圳)有限公司 | 一种企业舆情风险指数的监控方法及装置 |
CN111737477A (zh) * | 2020-08-07 | 2020-10-02 | 杭州六棱镜知识产权科技有限公司 | 一种基于知识产权大数据的情报调查方法、系统和存储介质 |
CN113535028A (zh) * | 2021-07-29 | 2021-10-22 | 合肥新青罗数字技术有限公司 | 一种企服运营状态可视化展示方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11386435B2 (en) | System and method for global third party intermediary identification system with anti-bribery and anti-corruption risk assessment | |
CA2905280C (en) | Automated financial data aggregation | |
CN110413858A (zh) | 企业舆情信息查询方法、装置、计算机设备及存储介质 | |
CN110689438A (zh) | 企业类金融风险评分方法、装置、计算机设备及存储介质 | |
CN103678365B (zh) | 数据的动态获取方法、装置及系统 | |
CN102929873A (zh) | 一种基于情境搜索提取搜索价值词的方法及装置 | |
CN102160329A (zh) | 使用与信息关联的语义语境便于协作搜索 | |
CN109242553A (zh) | 一种用户行为数据推荐方法、服务器及计算机可读介质 | |
CN110147360A (zh) | 一种数据整合方法、装置、存储介质和服务器 | |
CN110134842B (zh) | 基于信息图谱的信息匹配方法、装置、存储介质和服务器 | |
CN106779278A (zh) | 资产信息的评价系统及其信息的处理方法和装置 | |
CN111538794A (zh) | 一种数据融合方法、装置及设备 | |
CN110675078A (zh) | 上市公司风险诊断方法、系统、计算机终端及存储介质 | |
CN110533525A (zh) | 用于评估实体风险的方法及装置 | |
CN107527289A (zh) | 一种投资组合行业配置方法、装置、服务器和存储介质 | |
CN106874368A (zh) | 一种rtb竞价广告位价值分析方法及系统 | |
CN109101657A (zh) | 传销推荐人网站识别方法、装置及设备 | |
Asali | Social media analysis for investigating consumer sentiment on mobile banking | |
CN107515928A (zh) | 一种判断资产价格走势的方法、装置、服务器、存储介质 | |
CN106874505A (zh) | 一种搜索方法及装置 | |
CN111581533B (zh) | 目标对象的状态识别方法、装置、电子设备和存储介质 | |
JP2009163598A (ja) | 株価情報収集分析システム、及びそのサーバ | |
CN108009927A (zh) | 一种股票评分方法及平台 | |
CN109448857B (zh) | 医疗咨询信息聚合分析方法 | |
CN104063514A (zh) | 垂直搜索方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20191105 |
|
WD01 | Invention patent application deemed withdrawn after publication |