CN109918551A - 基于大数据的企业舆情分析方法、装置、设备及存储介质 - Google Patents

基于大数据的企业舆情分析方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN109918551A
CN109918551A CN201910056990.3A CN201910056990A CN109918551A CN 109918551 A CN109918551 A CN 109918551A CN 201910056990 A CN201910056990 A CN 201910056990A CN 109918551 A CN109918551 A CN 109918551A
Authority
CN
China
Prior art keywords
data
business data
scoring
business
enterprise
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910056990.3A
Other languages
English (en)
Inventor
黄武科
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
OneConnect Financial Technology Co Ltd Shanghai
Original Assignee
OneConnect Financial Technology Co Ltd Shanghai
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by OneConnect Financial Technology Co Ltd Shanghai filed Critical OneConnect Financial Technology Co Ltd Shanghai
Priority to CN201910056990.3A priority Critical patent/CN109918551A/zh
Publication of CN109918551A publication Critical patent/CN109918551A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及数据分析领域,尤其涉及一种基于大数据的企业舆情分析方法、装置、设备及存储介质。基于大数据的企业舆情分析方法包括:获取企业数据,将企业数据存储至本地数据库中;计算企业数据的评分,将计算得到的评分与预设的阈值进行比较,当评分高于阈值时,标记对应的企业数据;定期对本地数据库进行检查,清除连续多次未被标记的企业数据;根据企业数据和评分生成对应的企业舆情报告。本发明通过将爬取的企业数据补充到本地数据库中,将其作为自定义数据补充,以及作为付费第三方数据源的备用补充,使得可利用资源丰富,降低第三方数据源开销,同时便于自行修改维护。

Description

基于大数据的企业舆情分析方法、装置、设备及存储介质
技术领域
本发明涉及数据分析领域,具体涉及基于大数据的企业舆情分析方法、装置、设备及存储介质。
背景技术
企业数据泛指所有与企业经营相关的信息、资料,通常所说的企业数据是指狭义的企业数据,一般只包含公司概况介绍,包括公司经营范围、联系方式、企业规模等,通常是公开的数据。企业数据根据获取渠道分为集中式和分布式。集中式的企业数据一般由统一的政府部门发布,具有权威性和全面性,但数据内容比较粗略,缺乏精细度。分布式的企业数据是由商业公司透过下属部门通过各种手段分散获取并统一整理,一般能使数据的精细度和准确度达到一定要求。
目前为各公司提供数据服务的主要是第三方数据公司,第三方数据公司同时服务业内多家公司,将同行业公司的相同业务模块放在一起,制定行业标准,在不泄露客户商业机密的情况下,为客户提供行业标准数据,使得各客户都可以清楚地了解本身在该行业中的地位。但目前,国内的大部分企业,对于本企业的数据仍然比较保守,不愿意过多的让第三方公司介入,从而导致第三方公司在很多行业所拥有的数据源不够全面。
发明内容
基于此,有必要针对目前市场上第三方企业信息数据源数据源单一、数据源覆盖不够全面等问题,提供一种基于大数据的企业舆情分析方法、装置、设备及存储介质。
一种基于大数据的企业舆情分析方法,包括如下步骤:
获取企业数据,将所述企业数据存储至本地数据库中;
计算所述企业数据的评分,将计算得到的所述评分与预设的阈值进行比较,当所述评分高于所述阈值时,标记对应的所述企业数据;
定期对所述本地数据库进行检查,清除连续多次未被标记的所述企业数据;
根据所述企业数据和所述评分生成对应的企业舆情报告。
一种可能的实施方式中,所述获取企业数据,将所述企业数据存储至本地数据库中,包括:
从现有各网络平台中通过网络爬虫的方式爬取所述企业数据,将爬取的所述企业数据按照所属行业的分类缓存于临时数据库中;
比较所述临时数据库和所述本地数据库中的所述企业数据,从所述临时数据库中获取所述本地数据库中不包含的所述企业数据,将所述企业数据按照所属行业的分类更新至所述本地数据库中。
一种可能的实施方式中,所述计算所述企业数据的评分,将计算得到的所述评分与预设的阈值进行比较,当所述评分高于所述阈值时,标记对应的所述企业数据,包括:
获取所述企业数据中各项数据所包含的代表正常交易的正常次数和代表违约交易的违约次数,根据所述正常次数和所述违约次数计算得到所述各项数据的违约率;
根据所述违约率计算所述各项数据的分数;
将所述各项数据的所述分数进行求和后得到对应所述企业数据的所述评分;
将所述企业数据的所述评分与所述阈值进行比较,当所述评分高于所述阈值时,标记所述企业数据,当所述评分低于所述阈值时,不标记所述企业数据。
一种可能的实施方式中,所述定期对所述本地数据库进行检查,清除连续多次未被标记的所述企业数据,包括:
定期获取所述本地数据库中所述企业数据的连续未标记次数;
将所述连续未标记次数与预设的次数阈值进行比较,当所述连续未标记次数低于所述次数阈值时,在所述本地存储库中清除对应的所述企业数据,当所述连续未标记次数高于所述次数阈值时,不清除对应的所述企业数据。
一种可能的实施方式中,所述获取所述企业数据中各项数据所包含的代表正常交易的正常次数和代表违约交易的违约次数,根据所述正常次数和所述违约次数计算得到所述各项数据的违约率,包括:
获取所述企业数据中各项数据所包含的正常次数和违约次数;
根据所述正常次数和所述违约次数计算所述各项数据的违约率,计算公式如公式(1)所示,
公式(1)中Pi表示数据i的违约率,Ni表示数据i所包含的违约次数,Ti表示数据i所包含的正常次数与违约次数之和。
一种可能的实施方式中,所述根据所述违约率计算所述各项数据的分数,包括:
获取所述企业数据中所述各项数据的所述违约率的计算结果;
根据所述违约率的计算结果计算所述各项数据的分数,计算公式如公式(2)所示,
公式(2)中,Si表示数据i的分数,Pi表示数据i的违约率,A、B为常数。
一种可能的实施方式中,所述将所述各项数据的所述分数进行求和后得到对应所述企业数据的所述评分,包括:
获取所述企业数据的所述各项数据的所述分数的计算结果;
将所述各项数据的所述分数的计算结果进行求和计算所述企业数据的评分,计算公式如公式(3)所示,
公式(3)中,S为所述企业数据的评分,S1、S2、Sn为所述企业数据中的各项数据的分数,n为非零自然数。
基于相同的构思,本申请还提供了一种基于大数据的企业舆情分析装置,所述基于大数据的企业舆情分析装置包括:
运算模块,设置为计算所述企业数据的评分,将计算得到的所述评分与预设的阈值进行比较,当所述评分高于所述阈值时,标记对应的所述企业数据;
检测模块,设置为定期对所述本地数据库进行检查,清除连续多次未被标记的所述企业数据;
生成模块,设置为根据所述企业数据和所述评分生成对应的企业舆情报告。
基于相同的构思,本申请实施例还提供一种计算机设备,所述计算机设备包括存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被一个或多个所述处理器执行时,使得一个或多个所述处理器执行上述基于大数据的企业舆情分析方法的步骤。
基于相同的技术构思,本申请实施例还提供了一种存储有计算机可读指令的存储介质,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个所述处理器执行如上述基于大数据的企业舆情分析方法的步骤。
上述基于大数据的企业舆情分析方法、装置、设备及存储介质,通过获取企业数据,将所述企业数据存储至本地数据库中;计算所述企业数据的评分,将计算得到的所述评分与预设的阈值进行比较,当所述评分高于所述阈值时,标记对应的所述企业数据;定期对所述本地数据库进行检查,清除连续多次未被标记的所述企业数据;根据所述企业数据和所述评分生成对应的企业舆情报告。因此,本申请中通过将爬取的企业数据补充到现有库中,将其作为自定义数据补充,以及作为付费第三方数据源的备用补充,使得可利用资源丰富,降低第三方数据源开销,同时便于自行修改维护。
附图说明
图1为本申请在一个实施例中基于大数据的企业舆情分析方法的流程图;
图2为本申请在一个实施例中获取企业数据的流程图;
图3为本申请在一个实施例中计算企业数据评分的流程图;
图4为本申请在一个实施例中基于大数据的企业舆情分析装置的结构框图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
图1为本申请在一个实施例中提供的基于大数据的企业舆情分析方法的流程图,如图所示,包括:
S1、获取企业数据,将所述企业数据存储至本地数据库中;
本步骤中通过网络爬取的方式从现有各网络平台中爬取所述企业数据,将获取的所述企业数据按照其所属的行业分类临时缓存于临时数据库中,比较临时数据库与本地数据库中的所述企业数据,将临时数据库中包含的而本地数据库中不包含的所述企业数据更新至本地数据库中。
S2、计算所述企业数据的评分,将计算得到的所述评分与预设的阈值进行比较,当所述评分高于所述阈值时,标记对应的所述企业数据;
本步骤中通过获取所述企业数据中各项数据所包含的代表正常交易的正常次数和代表异常交易的违约次数,根据所述正常次数和所述违约次数计算所述各项数据的违约率,根据所述违约率的计算结果计算所述各项数据的分数,最后将所述各项数据的所述分数进行求和计算后得到所述企业数据的评分,将计算所得的所述企业数据的所述评分与预设阈值进行比较,并标记所述评分高于所述阈值的所述企业数据。
S3、定期对所述本地数据库进行检查,清除连续多次未被标记的所述企业数据;
本步骤中通过定期获取所述本地数据库中的所述企业数据的连续未被标记次数,将所述连续未被标记次数与预设次数阈值进行比较,当所述连续未被标记次数低于所述次数阈值时,将所述企业数据从所述本地数据库中清除,且后续不再从现有网络平台中对所述企业数据进行爬取,当所述连续未被比较次数高于所述次数阈值时,则从所述本地数据库中清除所述企业数据。
S4、根据所述企业数据和所述评分生成对应的企业舆情报告;
本步骤中根据所述企业数据和所述评分生成对应的所述企业舆情报告,将所述舆情报告传送至后续工作人员,所述舆情报告可根据工作人员的选择进行定制化输出,比如所述舆情报告中将所述企业数据所包含的所述各项数据的每一次的分数结果以列表的形式输出,或者将所述企业数据所包含的所述各项数据的每一项的所述违约率和所述分数结果以列表的形式输出。
本实施例中通过对获取的所述企业数据进行对比以及评分计算后,将符合条件的所述企业数据落库保存,作为自定义数据及付费第三方数据源的备用补充,使得可利用资源更丰富,降低了第三方数据源开销,便于自行修改维护数据。
图2为本申请在一个实施例中提供的获取企业数据的流程图,如图所示,所述S1、获取企业数据,将所述企业数据存储至本地数据库中,包括:
S101、从现有各网络平台中通过网络爬虫的方式爬取所述企业数据,将爬取的所述企业数据按照所属行业的分类缓存于临时数据库中;
本步骤中通过网络爬取的方式从现有各网络平台中爬取所述企业数据,所述网络平台包括第三方数据平台和政府数据平台,爬取的所述企业数据包括企业三类工商数据、企业诉讼信息、企业税务负面信息、行业信息、发票数据、税务数据;将获取到的所述企业数据按照其所属的行业进行分类,将属于同行业的所述企业数据再按照其为该行业的知名企业或普通企业进行标记分类,比如可将知名企业标记为A,而普通企业标记为B,比如中国移动通信公司属于通信行业的知名企业,其分类标签为Communication-A,将分类后的所述企业数据缓存于所述临时数据库中。
S102、比较所述临时数据库和所述本地数据库中的所述企业数据,从所述临时数据库中获取所述本地数据库中不包含的所述企业数据,将所述企业数据按照所属行业的分类更新至所述本地数据库中;
本步骤中获取所述临时数据库中的所述企业数据的关键词,根据所述关键词到所述本地数据库中进行搜索,若所述本地数据库中不包含所述企业数据对应的数据信息,则将所述企业数据添加到所述本地数据库中对应的分类中;若所述本地数据库中包含与所述企业数据对应的数据信息,则比较所述数据信息是否与所述企业数据一致,若所述本地数据库中的所述数据信息与所述企业数据不完全一致时,以所述企业数据中包含的数据为准,将所述临时数据库中的所述企业数据更新至所述本地数据库中。比如,所述临时数据库中的所述企业数据中包含中国移动通信公司的三类工商数据,而所述本地数据库中没有这三类工商数据,则将这三类工商数据补充至所述本地数据库中关于中国移动通信公司的数据模块中;若所述临时数据库和所述本地数据库中均包含有中国移动通信公司的三类工商数据,则以所述本地数据库中的数据信息为准,将所述临时数据库中的所述企业数据中的关于中国移动通信公司的三类工商数据更新至所述本地数据库中。
本实施例中通过将获取的所述企业数据进行检索比对后再进行落库保存,减少所述本地数据库中的数据冗余问题,提高工作效率。
图3为本申请在一个实施例中提供的计算企业数据评分的流程图,如图所示,所述S2、计算所述企业数据的评分,将计算得到的所述评分与预设的阈值进行比较,当所述评分高于所述阈值时,标记对应的所述企业数据,包括:
S201、获取所述企业数据中各项数据所包含的代表正常交易的正常次数和代表违约交易的违约次数,根据所述正常次数和所述违约次数计算得到所述各项数据的违约率;
本步骤中获取所述企业数据中所述各项数据所包含的代表正常交易的所述正常次数和代表异常交易的所述违约次数,根据公式(1)计算所述各项数据的所述违约率,计算公式(1)如下所示,
公式(1)中Pi表示数据i的违约率,Ni表示数据i所包含的违约次数,Ti表示数据i所包含的正常次数与违约次数之和。其中,正常次数指正常交易次数。比如,获取了企业E的10000条发票数据,其中正常交易的发票数据为4000条,异常交易的发票数据为6000条,计算可得企业E的发票数据的违约率为0.6。
S202、根据所述违约率计算所述各项数据的分数;
本步骤中获取所述各项数据的所述违约率,根据公式(2)计算所述各项数据的分数,计算结果如公式(2)所示,
公式(2)中,Si表示数据i的分数,Pi表示数据i的违约率,A、B为常数,借鉴标准FICO信用分与违约率的定义,A取值为437,B取值为58,比如计算得到企业E关于发票数据的违约率为0.6,将0.6代入公式(2)中计算可得企业E的发票数据的分数为426.79。
S203、将所述各项数据的所述分数进行求和后得到对应所述企业数据的所述评分;
本步骤中获取所述各项数据的所述分数,按照公式(3)进行求和计算后得到所述企业数据的所述评分,计算公式如公式(3)所示,
公式(3)中,S为所述企业数据的评分,S1、S2、Sn为所述企业数据中的各项数据的分数,n为非零自然数,比如计算得到企业E所包含的三类工商数据、企业诉讼信息、企业税务负面信息、行业信息、发票数据、税务数据对应的分数分别为600、550、530、490、610、700,求和可得企业E的评分为580。
S204、将所述企业数据的所述评分与所述阈值进行比较,当所述评分高于所述阈值时,标记所述企业数据,当所述评分低于所述阈值时,不标记所述企业数据;
本步骤中获取计算所得的所述企业数据的所述评分,将所述评分与预设的阈值进行比较,标记所述评分高于所述阈值的所述企业数据,比如所述阈值设置为500,企业E的所述评分的计算结果为580,则标记企业E。
本实施例中通过计算所述企业数据的所述评分,并标记所述评分高于所述阈值的所述企业数据,为后续定期检查清理所述本地数据库提供了基础。
在一个实施例中,所述定期对所述本地数据库进行检查,清除连续多次未被标记的所述企业数据,包括:
定期获取所述本地数据库中所述企业数据的连续未标记次数;将所述连续未标记次数与预设的次数阈值进行比较,当所述连续未标记次数低于所述次数阈值时,在所述本地存储库中清除对应的所述企业数据,当所述连续未标记次数高于所述次数阈值时,不清除对应的所述企业数据;
本步骤中对所述本地数据库中的所述企业数据定期进行检查,清楚连续多次没有进行标记的所述企业数据,且后续不再对被清除的所述企业数据进行爬取,比如所述次数阈值设置为15,检测到企业E的所述连续未被标记次数为16,则从所述本地数据库中清除企业E的所述企业数据,且后续不再爬取企业E的相关数据,若企业E的所述连续未被标记次数为10,则不清除企业E的所述企业数据。
本实施例中通过定期对所述本地数据库进行检查,清除所述评分较低的所述企业数据,减少了所述本地数据库中的数据冗余问题,提高了工作效率,提高有效数据的利用率。
在一个实施例中,所述获取所述企业数据中各项数据所包含的代表正常交易的正常次数和代表违约交易的违约次数,根据所述正常次数和所述违约次数计算得到所述各项数据的违约率,包括:
获取所述企业数据中各项数据所包含的正常次数和违约次数;
根据所述正常次数和所述违约次数计算所述各项数据的违约率,计算公式如公式(1)所示,
公式(1)中Pi表示数据i的违约率,Ni表示数据i所包含的违约次数,Ti表示数据i所包含的正常次数与违约次数之和;
本步骤中根据获取到的所述各项数据中包含的所述正常次数和所述违约次数,计算所述各项数据的所述违约率,比如获取了企业E的10000条发票数据,其中正常交易的发票数据为4000条,异常交易的发票数据为6000条,计算可得企业E的发票数据的违约率为0.6。
本实施例中通过对所述各项数据的所述违约率进行计算,为后续计算所述各项数据的所述分数提供了基础。
在一个实施例中,所述根据所述违约率计算所述各项数据的分数,包括:
获取所述企业数据中所述各项数据的所述违约率的计算结果;
根据所述违约率的计算结果计算所述各项数据的分数,计算公式如公式(2)所示,
公式(2)中,Si表示数据i的分数,Pi表示数据i的违约率,A、B为常数;
本步骤中根据获取的所述各项数据的所述违约率计算所述各项数据的所述分数,其中,借鉴标准FICO信用分与违约率的定义,A取值为437,B取值为58,比如计算得到企业E关于发票数据的违约率为0.6,将0.6代入公式中计算可得企业E的发票数据的分数为426.79。
本实施例中通过对所述各项数据的所述分数的计算,为后续计算所述企业数据的所述评分提供了基础。
在一个实施例中,所述将所述各项数据的所述分数进行求和后得到对应所述企业数据的所述评分,包括:
获取所述企业数据的所述各项数据的所述分数的计算结果;
将所述各项数据的所述分数的计算结果进行求和计算所述企业数据的评分,计算公式如公式(3)所示,
公式(3)中,S为所述企业数据的评分,S1、S2、Sn为所述企业数据中的各项数据的分数,n为非零自然数;
本步骤中根据获取的所述各项数据的所述分数,计算所述企业数据的所述评分,比如计算得到企业E所包含的三类工商数据、企业诉讼信息、企业税务负面信息、行业信息、发票数据、税务数据对应的分数分别为600、550、530、490、610、700,求和可得企业E的评分为580。
本实施例中通过对所述企业数据的所述评分的计算,为后续定期检查与维护所述本地数据库提供了基础。
基于相同的构思,本申请还提供了一种基于大数据的企业舆情分析装置,如图4所示,所述基于大数据的企业舆情分析装置包括获取模块、运算模块、检测模块和生成模块,其中:获取模块,设置为获取企业数据,将所述企业数据存储至本地数据库中;运算模块,设置为计算所述企业数据的评分,将计算得到的所述评分与预设的阈值进行比较,当所述评分高于所述阈值时,标记对应的所述企业数据;检测模块,设置为定期对所述本地数据库进行检查,清除连续多次未被标记的所述企业数据;生成模块,设置为根据所述企业数据和所述评分生成对应的企业舆情报告。
在一个实施例中,所述获取模块包括:
缓存单元,设置为从现有各网络平台中通过网络爬虫的方式爬取所述企业数据,将爬取的所述企业数据按照所属行业的分类缓存于临时数据库中;
比较单元,设置为比较所述临时数据库和所述本地数据库中的所述企业数据,从所述临时数据库中获取所述本地数据库中不包含的所述企业数据,将所述企业数据按照所属行业的分类更新至所述本地数据库中。
在一个实施例中,所述运算模块包括:
计算违约率单元,设置为获取所述企业数据中各项数据所包含的代表正常交易的正常次数和代表违约交易的违约次数,根据所述正常次数和所述违约次数计算得到所述各项数据的违约率;
计算分数单元,设置为根据所述违约率计算所述各项数据的分数;
计算评分单元,设置为将所述各项数据的所述分数进行求和后得到对应所述企业数据的所述评分;
标记单元,设置为将所述企业数据的所述评分与所述阈值进行比较,当所述评分高于所述阈值时,标记所述企业数据,当所述评分低于所述阈值时,不标记所述企业数据。
在一个实施例中,所述检测模块包括:
获取单元,设置为定期获取所述本地数据库中所述企业数据的连续未标记次数;
清除单元,设置为将所述连续未标记次数与预设的次数阈值进行比较,当所述连续未标记次数低于所述次数阈值时,在所述本地存储库中清除对应的所述企业数据,当所述连续未标记次数高于所述次数阈值时,不清除对应的所述企业数据。
在一个实施例中,所述计算违约率单元包括:
获取违约次数单元,设置为获取所述企业数据中各项数据所包含的正常次数和违约次数;
一级计算单元,设置为根据所述正常次数和所述违约次数计算所述各项数据的违约率,计算公式如公式(1)所示,
公式(1)中Pi表示数据i的违约率,Ni表示数据i所包含的违约次数,Ti表示数据i所包含的正常次数与违约次数之和。
在一个实施例中,所述计算分数单元,包括:
获取违约率结果单元,设置为获取所述企业数据中所述各项数据的所述违约率的计算结果;
二级计算单元,设置为根据所述违约率的计算结果计算所述各项数据的分数,计算公式如公式(2)所示,
公式(2)中,Si表示数据i的分数,Pi表示数据i的违约率,A、B为常数。
在一个实施例中,所述计算评分单元包括:
获取分数结果单元,设置为获取所述企业数据的所述各项数据的所述分数的计算结果;
三级计算单元,设置为将所述各项数据的所述分数的计算结果进行求和计算所述企业数据的评分,计算公式如公式(3)所示,
公式(3)中,S为所述企业数据的评分,S1、S2、Sn为所述企业数据中的各项数据的分数,n为非零自然数。
基于相同的技术构思,本申请实施例还提供一种计算机设备,所述计算机设备包括存储器和处理器,存储器中存储有计算机可读指令,计算机可读指令被一个或多个处理器执行时,使得一个或多个所述处理器执行计算机可读指令时实现上述各实施例中的基于大数据的企业舆情分析方法的步骤。
基于相同的技术构思,本申请实施例还提供一种存储有计算机可读指令的存储介质,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个所述处理器执行所述计算机可读指令时实现上述各实施例中的基于大数据的企业舆情分析方法的步骤。其中,所述存储介质可以为非易失性存储介质。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取存储器(RAM,RandomAccess Memory)、磁盘或光盘等。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本发明一些示例性实施例,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种基于大数据的企业舆情分析方法,其特征在于,包括:
获取企业数据,将所述企业数据存储至本地数据库中;
计算所述企业数据的评分,将计算得到的所述评分与预设的阈值进行比较,当所述评分高于所述阈值时,标记对应的所述企业数据;
定期对所述本地数据库进行检查,清除连续多次未被标记的所述企业数据;
根据所述企业数据和所述评分生成对应的企业舆情报告。
2.如权利要求1所述的一种基于大数据的企业舆情分析方法,其特征在于,所述获取企业数据,将所述企业数据存储至本地数据库中,包括:
从现有各网络平台中通过网络爬虫的方式爬取所述企业数据,将爬取的所述企业数据按照所属行业的分类缓存于临时数据库中;
比较所述临时数据库和所述本地数据库中的所述企业数据,从所述临时数据库中获取所述本地数据库中不包含的所述企业数据,将所述企业数据按照所属行业的分类更新至所述本地数据库中。
3.如权利要求1所述的一种基于大数据的企业舆情分析方法,其特征在于,所述计算所述企业数据的评分,将计算得到的所述评分与预设的阈值进行比较,当所述评分高于所述阈值时,标记对应的所述企业数据,包括:
获取所述企业数据中各项数据所包含的代表正常交易的正常次数和代表违约交易的违约次数,根据所述正常次数和所述违约次数计算得到所述各项数据的违约率;
根据所述违约率计算所述各项数据的分数;
将所述各项数据的所述分数进行求和后得到对应所述企业数据的所述评分;
将所述企业数据的所述评分与所述阈值进行比较,当所述评分高于所述阈值时,标记所述企业数据,当所述评分低于所述阈值时,不标记所述企业数据。
4.如权利要求1所述的一种基于大数据的企业舆情分析方法,其特征在于,所述定期对所述本地数据库进行检查,清除连续多次未被标记的所述企业数据,包括:
定期获取所述本地数据库中所述企业数据的连续未标记次数;
将所述连续未标记次数与预设的次数阈值进行比较,当所述连续未标记次数低于所述次数阈值时,在所述本地存储库中清除对应的所述企业数据,当所述连续未标记次数高于所述次数阈值时,不清除对应的所述企业数据。
5.如权利要求3所述的一种基于大数据的企业舆情分析方法,其特征在于,所述获取所述企业数据中各项数据所包含的代表正常交易的正常次数和代表违约交易的违约次数,根据所述正常次数和所述违约次数计算得到所述各项数据的违约率,包括:
获取所述企业数据中各项数据所包含的正常次数和违约次数;
根据所述正常次数和所述违约次数计算所述各项数据的违约率,计算公式如公式(1)所示,
公式(1)中Pi表示数据i的违约率,Ni表示数据i所包含的违约次数,Ti表示数据i所包含的正常次数与违约次数之和。
6.如权利要求3所述的一种基于大数据的企业舆情分析方法,其特征在于,所述根据所述违约率计算所述各项数据的分数,包括:
获取所述企业数据中所述各项数据的所述违约率的计算结果;
根据所述违约率的计算结果计算所述各项数据的分数,计算公式如公式(2)所示,
公式(2)中,Si表示数据i的分数,Pi表示数据i的违约率,A、B为常数。
7.如权利要求3所述的一种基于大数据的企业舆情分析方法,其特征在于,所述将所述各项数据的所述分数进行求和后得到对应所述企业数据的所述评分,包括:
获取所述企业数据的所述各项数据的所述分数的计算结果;
将所述各项数据的所述分数的计算结果进行求和计算所述企业数据的评分,计算公式如公式(3)所示,
公式(3)中,S为所述企业数据的评分,S1、S2、Sn为所述企业数据中的各项数据的分数,n为非零自然数。
8.一种基于大数据的企业舆情分析装置,其特征在于,包括:
获取模块,设置为获取企业数据,将所述企业数据存储至本地数据库中;
运算模块,设置为计算所述企业数据的评分,将计算得到的所述评分与预设的阈值进行比较,当所述评分高于所述阈值时,标记对应的所述企业数据;
检测模块,设置为定期对所述本地数据库进行检查,清除连续多次未被标记的所述企业数据;
生成模块,设置为根据所述企业数据和所述评分生成对应的企业舆情报告。
9.一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器执行如权利要求1至7中任一项权利要求所述基于大数据的企业舆情分析方法的步骤。
10.一种存储有计算机可读指令的存储介质,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行如权利要求1至7中任一项权利要求所述基于大数据的企业舆情分析方法的步骤。
CN201910056990.3A 2019-01-22 2019-01-22 基于大数据的企业舆情分析方法、装置、设备及存储介质 Pending CN109918551A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910056990.3A CN109918551A (zh) 2019-01-22 2019-01-22 基于大数据的企业舆情分析方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910056990.3A CN109918551A (zh) 2019-01-22 2019-01-22 基于大数据的企业舆情分析方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN109918551A true CN109918551A (zh) 2019-06-21

Family

ID=66960585

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910056990.3A Pending CN109918551A (zh) 2019-01-22 2019-01-22 基于大数据的企业舆情分析方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN109918551A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112598453A (zh) * 2020-12-29 2021-04-02 上海硬通网络科技有限公司 广告投放方法、装置及电子设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130132269A1 (en) * 2010-08-06 2013-05-23 The Dun And Bradstreet Corporation Method and system for quantifying and rating default risk of business enterprises
CN105913195A (zh) * 2016-04-29 2016-08-31 浙江汇信科技有限公司 基于全行业数据的企业金融风险评分方法
CN106779457A (zh) * 2016-12-29 2017-05-31 深圳微众税银信息服务有限公司 一种企业信用评估方法及系统
CN108229806A (zh) * 2017-12-27 2018-06-29 中国银行股份有限公司 一种分析企业风险的方法以及系统
CN108564286A (zh) * 2018-04-19 2018-09-21 天合泽泰(厦门)征信服务有限公司 一种基于大数据征信的人工智能金融风控授信评定方法和系统
CN108846547A (zh) * 2018-05-06 2018-11-20 成都信息工程大学 一种动态调整的企业信用风险评估方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130132269A1 (en) * 2010-08-06 2013-05-23 The Dun And Bradstreet Corporation Method and system for quantifying and rating default risk of business enterprises
CN105913195A (zh) * 2016-04-29 2016-08-31 浙江汇信科技有限公司 基于全行业数据的企业金融风险评分方法
CN106779457A (zh) * 2016-12-29 2017-05-31 深圳微众税银信息服务有限公司 一种企业信用评估方法及系统
CN108229806A (zh) * 2017-12-27 2018-06-29 中国银行股份有限公司 一种分析企业风险的方法以及系统
CN108564286A (zh) * 2018-04-19 2018-09-21 天合泽泰(厦门)征信服务有限公司 一种基于大数据征信的人工智能金融风控授信评定方法和系统
CN108846547A (zh) * 2018-05-06 2018-11-20 成都信息工程大学 一种动态调整的企业信用风险评估方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JIANCHANG LU 等: "Research on credit risk evaluation of power consumers based on interval number and entropy", 《2010 3RD INTERNATIONAL SYMPOSIUM ON COMPUTATIONAL INTELLIGENCE AND DESIGN (ISCID 2010)>, 31 December 2010 (2010-12-31), pages 160 - 3 *
邱梅: "基于框架方法的信用评估模型研究", 《中国优秀硕士学位论文全文数据库(电子期刊)》, vol. 2018, no. 02, 15 February 2018 (2018-02-15) *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112598453A (zh) * 2020-12-29 2021-04-02 上海硬通网络科技有限公司 广告投放方法、装置及电子设备

Similar Documents

Publication Publication Date Title
CN106649890A (zh) 数据存储方法和装置
Bedeley Big Data opportunities and challenges: the case of banking industry
CN110929969A (zh) 一种供应商的评价方法及装置
Cunningham et al. Data warehouse design to support customer relationship management analyses
Mikavicaa et al. Big data: challenges and opportunities in logistics systems
JP2016206878A (ja) 営業員育成支援システムおよび営業員育成支援方法
Globa et al. Ontology model of telecom operator big data
CN110428139A (zh) 基于标签传播的信息预测方法及装置
Wongthongtham et al. Ontology and trust based data warehouse in new generation of business intelligence: State-of-the-art, challenges, and opportunities
EP1595221A2 (en) Cascaded planning of an enterprise planning model
CN112559524A (zh) 一种指标数据库建立方法、装置及存储介质
Li et al. Big data audit based on financial sharing service model
Truong et al. Frequent high minimum average utility sequence mining with constraints in dynamic databases using efficient pruning strategies
Cao A Novel Optimal Selection Algorithm for Agricultural Trade Export in Blockchain‐Enabled Internet of Things
Rehman et al. Customer churn prediction, segmentation and fraud detection in telecommunication industry
CN109918551A (zh) 基于大数据的企业舆情分析方法、装置、设备及存储介质
CN107194280B (zh) 模型建立方法及装置
Xie et al. A big data technique for internet financial risk control
Hartono et al. Improving SMEs Knowledge and Performance With Cloud Computing CSF Approach: Systematic Literature Review
Ali Big data, Islamic finance, and sustainable development goals
CN109409650A (zh) 一种企业资源的erp管理系统
Qin et al. Improved K-Means algorithm and application in customer segmentation
Sunil Datt The information explosion: Trends in technology 2011 review
CN108009927A (zh) 一种股票评分方法及平台
Vinekar et al. The interaction of business intelligence and knowledge management in organizational decision-making

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination