CN109543985A - 企业风险评估方法、系统及介质 - Google Patents
企业风险评估方法、系统及介质 Download PDFInfo
- Publication number
- CN109543985A CN109543985A CN201811362015.7A CN201811362015A CN109543985A CN 109543985 A CN109543985 A CN 109543985A CN 201811362015 A CN201811362015 A CN 201811362015A CN 109543985 A CN109543985 A CN 109543985A
- Authority
- CN
- China
- Prior art keywords
- webpage
- keyword
- text
- initial data
- assessed
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0635—Risk analysis of enterprise or organisation activities
Landscapes
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Engineering & Computer Science (AREA)
- Strategic Management (AREA)
- Entrepreneurship & Innovation (AREA)
- Economics (AREA)
- Operations Research (AREA)
- Game Theory and Decision Science (AREA)
- Development Economics (AREA)
- Marketing (AREA)
- Educational Administration (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了企业风险评估方法、系统及介质,该方法采用网络爬虫从不同的网络数据源获取与待评估企业相关的原始数据;提取出原始数据中的关键词;构建标准数据库;根据预设的语义相似度阈值构建文本向量,计算原始数据中的关键词与所述标准关键词的语义相似度;当所述语义相似度超过预设的相似度最大值时,用所述标准关键词替换该原始数据中的关键词,得到语义相似概念替换后的文本;根据所述语义相似概念替换后的文本对企业进行风险评估。这样能够从不同的网络数据源获取待评估企业相关的数据,并从这些数据中提取出关键字对企业进行风险评估,使得数据来源更加全面,增大了分析的数据量,提高了评估的准确性。
Description
技术领域
本发明属于信息技术领域,具体涉及企业风险评估方法、系统及介质。
背景技术
中小企业是与所处行业的大企业相比,在人员规模、资产规模与经营规模上都比较小的经济单位。此类企业通常可由单个人或少数人提供资金组成,其雇用人数与营业额皆不大,因此在经营上多半是由业主直接管理,受外界干涉较少。中小企业是实施大众创业、万众创新的重要载体,在增加就业、促进经济增长、科技创新与社会和谐稳定等方面具有不可替代的作用,对国民经济和社会发展具有重要的战略意义。
然而中小企业在发展的过程中却面临着融资难的问题,这主要是因为中小企业的发展时间较短,各种数据较少,尤其是同一金融机构对一个中小企业的历史数据积累较少,且金融机构在对中小企业进行评估的过程中大部分的信息都直接从中小企业获得的,部分中小企业为了尽快获得贷款尽量提供有利于自己的信息而不提供或少量提供不利于自己的信息,这种信息不对称会加大金融机构的放贷风险。
发明内容
针对现有技术中的缺陷,本发明提供一种企业风险评估方法、系统及介质,能够对中小企业进行准确的评估。
第一方面,一种企业风险评估方法,包括以下步骤:
采用网络爬虫从不同的网络数据源获取与待评估企业相关的原始数据;
对所述原始数据进行分析处理,提取出原始数据中的关键词;
构建标准数据库;所述标准数据库中预存有多个标准关键词;
根据预设的语义相似度阈值构建文本向量,计算原始数据中的关键词与所述标准关键词的语义相似度;
当所述语义相似度超过预设的相似度最大值时,用所述标准关键词替换该原始数据中的关键词,得到语义相似概念替换后的文本;
根据所述语义相似概念替换后的文本对企业进行风险评估。
优选地,所述采用网络爬虫从不同的网络数据源获取与待评估企业相关的原始数据具体包括:
网络爬虫按照待评估内容对网络数据源的网页进行筛选,筛选出与所述待评估内容相关度最高的网页;
将该网页加入待爬取网页队列;
对待爬取网页队列中的网页进行解析,提取所述原始数据。
优选地,所述对所述原始数据进行分析处理,提取出原始数据中的关键词具体包括:
将所述原始数据转换为文本格式,得到内容文本;
对格式转换后的内容文本进行中文分词;
提取在内容文本中出现的带有独立语义的词组以确定为所述关键词。
优选地,该方法在所述筛选出与所述待评估内容相关度最高的网页之后,在所述将该网页加入待爬取网页队列之前,还包括:
获取与所述待评估内容相关度最高的网页的发布者;
如果发布者为待评估企业或为预设的权威机构,保留该网页;
如果发布者为预设的黑名单用户,删除该网页,所述黑名单用户为被网络监管机构举报、批评或警告的用户。
优选地,所述根据所述语义相似概念替换后的文本对企业进行风险评估具体包括:
获取所述文本中与各个标准关键词关联的数值,统计每个数值出现的次数;
将表示同一独立语义的标准关键词的数值归为一类;
根据每一类中出现次数最多的数值对企业进行风险评估。
第二方面,一种企业风险评估系统,包括:
采集单元:用于采用网络爬虫从不同的网络数据源获取与待评估企业相关的原始数据;
处理单元:用于对所述原始数据进行分析处理,提取出原始数据中的关键词;还用于构建标准数据库;所述标准数据库中预存有多个标准关键词;根据预设的语义相似度阈值构建文本向量,计算原始数据中的关键词与所述标准关键词的语义相似度;当所述语义相似度超过预设的相似度最大值时,用所述标准关键词替换该原始数据中的关键词,得到语义相似概念替换后的文本;
评估单元:用于根据所述语义相似概念替换后的文本对企业进行风险评估。
优选地,所述采集单元具体用于:
网络爬虫按照待评估内容对网络数据源的网页进行筛选,筛选出与所述待评估内容相关度最高的网页;
将该网页加入待爬取网页队列;
对待爬取网页队列中的网页进行解析,提取所述原始数据;
获取与所述待评估内容相关度最高的网页的发布者;
如果发布者为待评估企业或为预设的权威机构,保留该网页;
如果发布者为预设的黑名单用户,删除该网页;所述黑名单用户为被网络监管机构举报、批评或警告的用户。
优选地,所述处理单元具体用于:
将所述原始数据转换为文本格式,得到内容文本;
对格式转换后的内容文本进行中文分词;
提取在内容文本中出现的带有独立语义的词组以确定为所述关键词;
获取所述文本中与各个标准关键词关联的数值,统计每个数值出现的次数;
将表示同一独立语义的标准关键词的数值归为一类;
根据每一类中出现次数最多的数值对企业进行风险评估。
第三方面,一种企业风险评估系统,包括处理器、输入设备、输出设备和存储器,所述处理器、输入设备、输出设备和存储器相互连接,其中,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行第一方面所述的方法。
第四方面,一种计算机可读存储介质,所述计算机存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行第一方面所述的方法。
由上述技术方案可知,本发明提供的企业风险评估方法、系统及介质,能够从不同的网络数据源获取待评估企业相关的数据,并从这些数据中提取出关键字对企业进行风险评估,使得数据来源更加全面,增大了分析的数据量,提高了评估的准确性。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍。在所有附图中,类似的元件或部分一般由类似的附图标记标识。附图中,各元件或部分并不一定按照实际的比例绘制。
图1为实施例一提供的企业风险评估方法的流程图。
图2为实施例四提供的企业风险评估系统的模块框图。
图3为实施例五提供的企业风险评估系统的实体装置框图。
具体实施方式
下面将结合附图对本发明技术方案的实施例进行详细的描述。以下实施例仅用于更加清楚地说明本发明的技术方案,因此只作为示例,而不能以此来限制本发明的保护范围。需要注意的是,除非另有说明,本申请使用的技术术语或者科学术语应当为本发明所属领域技术人员所理解的通常意义。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
如在本说明书和所附权利要求书中所使用的那样,术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地,短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。
实施例一:
一种企业风险评估方法,参见图1,包括以下步骤:
S1:采用网络爬虫从不同的网络数据源获取与待评估企业相关的原始数据;
具体地,原始数据包括待评估企业的历史评估数据、待评估企业在各金融机构的账户资产流动信息,例如流动资产、总资产、留存收益、息税前利润、负债总额和销售收入等。本实施例可采用爬虫完成从不同数据源获取与待评估企业相关的原始信息,爬虫按照评估内容有选择性的对各大网络的网页进行爬取,它主要是为了在保证页面信息采集覆盖率的前提下,同时有较高的信息准确率。
S2:对所述原始数据进行分析处理,提取出原始数据中的关键词;
具体地,关键词包括收入、融资、成本、警告、批评等。不同的评估内容设置的关键词不一样。
S3:构建标准数据库;所述标准数据库中预存有多个标准关键词;
具体地,由于很多网页上的文字都是通俗易懂的语言,所以很多词组虽然表述不一样,但是其是代表同一个意思。例如:当用工资、发钱、到账等词组来表示员工的收入时,其都是值员工的月薪,表示同一个意思。为了方便统计,定义标准关键字:员工月薪。将工资、发钱、到账全部替换为员工月薪,方便统计。
S4:根据预设的语义相似度阈值构建文本向量,计算原始数据中的关键词与所述标准关键词的语义相似度;
具体地,词语的语义相似度计算主要有两种方法:一类是通过语义词典,把有关词语的概念组织在一个树形的结构中来计算。另一类主要是通过词语上下文的信息,运用统计的方法进行求解。
S5:当所述语义相似度超过预设的相似度最大值时,用所述标准关键词替换该原始数据中的关键词,得到语义相似概念替换后的文本;
具体地,语义相似度越大,代表两个词组越相近。该方法中,如果语义相似度超过预设的相似度最大值,说明原始数据中的关键词和标准数据库中的标准关键词相似程度极高,可以替换。这样后续需要提取原始数据的关键数值时,只需要在替换后的文本中根据标准关键字提取相应的数值即可,方便后续统计。例如:在网页中提取出公布的员工的收入信息时,只需要在替换后的文本中搜索“员工月薪”即可提取出不同的网络数据源公开的员工的收入信息。
S6:根据所述语义相似概念替换后的文本对企业进行风险评估。
具体地,本实施例给出一种风险评估方法,包括如下步骤:
1)根据待评估类型获取该类型的所有资产列表、基本配置信息列表及风险基线;
2)嵌套循环遍历所述资产列表和基本配置信息列表,获取根据所述资产列表的索引得到的所有信息;
3)利用基本配置信息列表中的脆弱性或威胁性配置值,根据威胁风险系数的风险取值级别的自定义规则,得到脆弱性或威胁性的实际值;
4)根据脆弱性和威胁性的实际值计算风险值;
5)判断所述风险值是否超过所述待评估资产类型的风险基线,如果超过,则根据报警配置信息将报警预警信息发送给收信人,否则,返回资产安全提示。
该方法评估项全面、评估范围广、支持自定义规则的评估,及时对威胁与潜在威胁的发现,更好的做好预警处理,同时评估数据达到数据内容包含全面,风险可视化高、潜在威胁的体现和风险情况的描述和处理方案清晰。
该方法能够从不同的网络数据源获取待评估企业相关的数据,并从这些数据中提取出关键字对企业进行风险评估,使得数据来源更加全面,增大了分析的数据量,提高了评估的准确性。
实施例二:
实施例二在实施例一的基础上,增加以下内容:
由于网页数量的急剧增加,与评估内容相关的网页所占的比例随之减少,为了保证页面信息采集的覆盖率和准确率,要在爬行过程中对页面进行筛选,保留与评估内容相关度较高的网页,为此本实施例对爬虫进行以下改进:
所述采用网络爬虫从不同的网络数据源获取与待评估企业相关的原始数据具体包括:
(1)网络爬虫按照待评估内容对网络数据源的网页进行筛选,筛选出与所述待评估内容相关度最高的网页;
具体地,例如如果想要了解待评估企业的资金情况,各大网络中报道的关于该待评估企业的页面包括公司介绍页面、招聘页面、公司活动页面、求职咨询页面、年度总结页面、融资页面等,那么在对页面进行筛选时,筛选出与所述待评估内容相关度最高的网页,例如:年度总结页面和融资页面。
(2)将该网页加入待爬取网页队列;
具体地,例如当前待爬取网页队列包括页面A、页面B和页面C。网络爬虫在进行新的筛选过程中,又筛选出与所述待评估内容相关度最高的网页D,则将网页D加入待爬取网页队列,此时的待爬取网页队列包括页面A、页面B、页面C和页面D。
(3)对待爬取网页队列中的网页进行解析,提取所述原始数据。
该方法利用网络爬虫在筛选出的页面上进行网络抓取,抓取原始数据。
除此以外,本实施例的方法还通过以下方法筛选页面:
该方法在所述筛选出与所述待评估内容相关度最高的网页之后,在所述将该网页加入待爬取网页队列之前,还包括:
获取与所述待评估内容相关度最高的网页的发布者;
如果发布者为待评估企业或为预设的权威机构,保留该网页;
如果发布者为预设的黑名单用户,删除该网页;所述黑名单用户为被网络监管机构举报、批评或警告的用户。
具体地,待评估企业自己发布的内容,或者是预设的权威机构(例如:央视、警方、各大新闻报社等)发布的内容,都列入待爬取网页队列。黑名单用户(例如:因为传播假消息被网络监管机构批评或警告的用户,或者曾经被大量用户举报存在造假的用户,征信差的用户)发布的内容,认为造假程度较高,不列入待爬取网页队列。
优选地,所述对所述原始数据进行分析处理,提取出原始数据中的关键词具体包括:
将所述原始数据转换为文本格式,得到内容文本;
对格式转换后的内容文本进行中文分词;
提取在内容文本中出现的带有独立语义的词组以确定为所述关键词。
具体地,例如在提取网页中的关键词时,首先获取网页中的所有内容,转换为文本格式。然后进行中文分词,根据待评估的内容提取出关键词,例如:如果想要知道员工的收入情况,提取工资、发钱、到账等关键词。
本实施例二提供的方法,适用于网络数据源数据量大的情况,保证页面信息采集的覆盖率和准确率。
本发明实施例所提供的方法,为简要描述,实施例部分未提及之处,可参考前述方法实施例中相应内容。
实施例三:
实施例三在其他实施例的基础上,增加以下内容:
所述根据所述语义相似概念替换后的文本对企业进行风险评估具体包括:
获取所述文本中与各个标准关键词关联的数值,统计每个数值出现的次数;
将表示同一独立语义的标准关键词的数值归为一类;
根据每一类中出现次数最多的数值对企业进行风险评估。
具体地,如果同一个数据、信息或关键字出现的次数越多,认为该数据的可信度越高。根据该数据进行风险评估,提高了评估的准确度。例如:为了了解员工收入情况,从所有的网络数据源中提取出关于员工收入的数据。有8个网络数据源公布员工收入8000,有4个网络数据源公布员工收入4000,有1个网络数据源公布员工收入10000。那么在统计员工收入的情况时,认为出现次数最多的数据(员工收入8000)为最可靠的数据。
除此以外,在评估过程中,应建立相关的文件和文档。记录企业的原始数据、评估结果等信息。为了达到节约资源的效果,采用电子文档存储。在对文档进行管理时,可根据文档的类型和重要性对其等级划分,并根据企业业务和规模的变化,对文档进行定期的修正和补充,而对于一些不再具有参考价值的文档,可定期进行废弃处理。
以下提供一种电子文档的管理方法。
首先,将数据库按预设容量值分配的多个存储区块。其次,将电子文档按所述预设容量值分割为多个部分,并分别存储至不同的所述存储区块,并分配对应的电子文档辨识号(ID)。电子文档在读取时,根据所述辨识号从所述不同存储区块将被分割的电子文档各部分还原成所述电子文档并读取。该方法快速,灵活,查询检索方便。该方法可以使用数据库相关的命令,快速查出符合条件的文件的存储位置,而不需要在一个大类中循环查找,查询的结果信息可以分页的方式返回,节省的服务器的资源和查找时间;并且拥有可以存储上百万的文件而无需担心的扩容性能。该方法还通过网页形式提供对电子文档的各种操作如检索、下载,即“云端”,为了在网页上实现预览文件,需要将所存存储的文件在存储的同时,预先做一个可供在网页上打开的流媒体格式的文档,这个流媒体格式文件的生成方式,主要可采用开源的open office等项目所提供的转换工具,将上传过来的原生的word、ppt、excel等文档,转换成如swf格式的flash文件,这个文件也同样可保存在NoSQL数据库中,当用户需要预览上传的文档时,实际在网页上打开的是转换生成的flash文件。因为flash插件支持在浏览器上以流的方式展现,所以,用户能即时地在网页上浏览这个预生成的flash文件,而不需要将原先上传的word、ppt、excel等文件下载后再打开查看。这样无疑能较大的减少不必要的网络传输。
本实施例提供的方法,使得数据统计更加方便。
本发明实施例所提供的方法,为简要描述,实施例部分未提及之处,可参考前述方法实施例中相应内容。
实施例四:
一种企业风险评估系统,参见图2,包括:
采集单元1:用于采用网络爬虫从不同的网络数据源获取与待评估企业相关的原始数据;
处理单元2:用于对所述原始数据进行分析处理,提取出原始数据中的关键词;还用于构建标准数据库;所述标准数据库中预存有多个标准关键词;根据预设的语义相似度阈值构建文本向量,计算原始数据中的关键词与所述标准关键词的语义相似度;当所述语义相似度超过预设的相似度最大值时,用所述标准关键词替换该原始数据中的关键词,得到语义相似概念替换后的文本;
评估单元3:用于根据所述语义相似概念替换后的文本对企业进行风险评估。
优选地,所述采集单元1具体用于:
网络爬虫按照待评估内容对网络数据源的网页进行筛选,筛选出与所述待评估内容相关度最高的网页;
将该网页加入待爬取网页队列;
对待爬取网页队列中的网页进行解析,提取所述原始数据;
获取与所述待评估内容相关度最高的网页的发布者;
如果发布者为待评估企业或为预设的权威机构,保留该网页;
如果发布者为预设的黑名单用户,删除该网页;所述黑名单用户为被网络监管机构举报、批评或警告的用户。
优选地,所述处理单元2具体用于:
将所述原始数据转换为文本格式,得到内容文本;
对格式转换后的内容文本进行中文分词;
提取在内容文本中出现的带有独立语义的词组以确定为所述关键词;
获取所述文本中与各个标准关键词关联的数值,统计每个数值出现的次数;
将表示同一独立语义的标准关键词的数值归为一类;
根据每一类中出现次数最多的数值对企业进行风险评估。
该系统能够从不同的网络数据源获取待评估企业相关的数据,并从这些数据中提取出关键字对企业进行风险评估,使得数据来源更加全面,增大了分析的数据量,提高了评估的准确性。
本发明实施例所提供的系统,为简要描述,实施例部分未提及之处,可参考前述方法实施例中相应内容。
实施例五:
一种企业风险评估系统,参见图3,包括处理器801、输入设备802、输出设备803和存储器804,所述处理器801、输入设备802、输出设备803和存储器804通过总线805相互连接,其中,所述存储器804用于存储计算机程序,所述计算机程序包括程序指令,所述处理器801被配置用于调用所述程序指令,执行前述方法实施例所述的方法。
应当理解,在本发明实施例中,所称处理器801可以是中央处理单元(CentralProcessing Unit,CPU),该处理器还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
输入设备802可以包括触控板、指纹采传感器(用于采集用户的指纹信息和指纹的方向信息)、麦克风等,输出设备803可以包括显示器(LCD等)、扬声器等。
该存储器804可以包括只读存储器和随机存取存储器,并向处理器801提供指令和数据。存储器804的一部分还可以包括非易失性随机存取存储器。例如,存储器804还可以存储设备类型的信息。
以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接,也可以是电的,机械的或其它的形式连接。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
实施例六:
一种计算机可读存储介质,所述计算机存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器,执行前述方法实施例所述的方法。
所述计算机可读存储介质可以是前述任一实施例所述的系统的内部存储单元,例如系统的硬盘或内存。所述计算机可读存储介质也可以是所述系统的外部存储设备,例如所述系统上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(SecureDigital,SD)卡,闪存卡(Flash Card)等。进一步地,所述计算机可读存储介质还可以既包括所述系统的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述系统所需的其他程序和数据。所述计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围,其均应涵盖在本发明的权利要求和说明书的范围当中。
Claims (10)
1.一种企业风险评估方法,其特征在于,包括以下步骤:
采用网络爬虫从不同的网络数据源获取与待评估企业相关的原始数据;
对所述原始数据进行分析处理,提取出原始数据中的关键词;
构建标准数据库;所述标准数据库中预存有多个标准关键词;
根据预设的语义相似度阈值构建文本向量,计算原始数据中的关键词与所述标准关键词的语义相似度;
当所述语义相似度超过预设的相似度最大值时,用所述标准关键词替换该原始数据中的关键词,得到语义相似概念替换后的文本;
根据所述语义相似概念替换后的文本对企业进行风险评估。
2.根据权利要求1所述企业风险评估方法,其特征在于,
所述采用网络爬虫从不同的网络数据源获取与待评估企业相关的原始数据具体包括:
网络爬虫按照待评估内容对网络数据源的网页进行筛选,筛选出与所述待评估内容相关度最高的网页;
将该网页加入待爬取网页队列;
对待爬取网页队列中的网页进行解析,提取所述原始数据。
3.根据权利要求2所述企业风险评估方法,其特征在于,
所述对所述原始数据进行分析处理,提取出原始数据中的关键词具体包括:
将所述原始数据转换为文本格式,得到内容文本;
对格式转换后的内容文本进行中文分词;
提取在内容文本中出现的带有独立语义的词组以确定为所述关键词。
4.根据权利要求2所述企业风险评估方法,其特征在于,
该方法在所述筛选出与所述待评估内容相关度最高的网页之后,在所述将该网页加入待爬取网页队列之前,还包括:
获取与所述待评估内容相关度最高的网页的发布者;
如果发布者为待评估企业或为预设的权威机构,保留该网页;
如果发布者为预设的黑名单用户,删除该网页,所述黑名单用户为被网络监管机构举报、批评或警告的用户。
5.根据权利要求2所述企业风险评估方法,其特征在于,
所述根据所述语义相似概念替换后的文本对企业进行风险评估具体包括:
获取所述文本中与各个标准关键词关联的数值,统计每个数值出现的次数;
将表示同一独立语义的标准关键词的数值归为一类;
根据每一类中出现次数最多的数值对企业进行风险评估。
6.一种企业风险评估系统,其特征在于,包括:
采集单元:用于采用网络爬虫从不同的网络数据源获取与待评估企业相关的原始数据;
处理单元:用于对所述原始数据进行分析处理,提取出原始数据中的关键词;还用于构建标准数据库;所述标准数据库中预存有多个标准关键词;根据预设的语义相似度阈值构建文本向量,计算原始数据中的关键词与所述标准关键词的语义相似度;当所述语义相似度超过预设的相似度最大值时,用所述标准关键词替换该原始数据中的关键词,得到语义相似概念替换后的文本;
评估单元:用于根据所述语义相似概念替换后的文本对企业进行风险评估。
7.根据权利要求6所述企业风险评估系统,其特征在于,所述采集单元具体用于:
网络爬虫按照待评估内容对网络数据源的网页进行筛选,筛选出与所述待评估内容相关度最高的网页;
将该网页加入待爬取网页队列;
对待爬取网页队列中的网页进行解析,提取所述原始数据;
获取与所述待评估内容相关度最高的网页的发布者;
如果发布者为待评估企业或为预设的权威机构,保留该网页;
如果发布者为预设的黑名单用户,删除该网页;所述黑名单用户为被网络监管机构举报、批评或警告的用户。
8.根据权利要求7所述企业风险评估系统,其特征在于,所述处理单元具体用于:
将所述原始数据转换为文本格式,得到内容文本;
对格式转换后的内容文本进行中文分词;
提取在内容文本中出现的带有独立语义的词组以确定为所述关键词;
获取所述文本中与各个标准关键词关联的数值,统计每个数值出现的次数;
将表示同一独立语义的标准关键词的数值归为一类;
根据每一类中出现次数最多的数值对企业进行风险评估。
9.一种企业风险评估系统,其特征在于,包括处理器、输入设备、输出设备和存储器,所述处理器、输入设备、输出设备和存储器相互连接,其中,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行如权利要求1-5任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行如权利要求1-5任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811362015.7A CN109543985A (zh) | 2018-11-15 | 2018-11-15 | 企业风险评估方法、系统及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811362015.7A CN109543985A (zh) | 2018-11-15 | 2018-11-15 | 企业风险评估方法、系统及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109543985A true CN109543985A (zh) | 2019-03-29 |
Family
ID=65847850
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811362015.7A Pending CN109543985A (zh) | 2018-11-15 | 2018-11-15 | 企业风险评估方法、系统及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109543985A (zh) |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110188980A (zh) * | 2019-04-15 | 2019-08-30 | 深圳壹账通智能科技有限公司 | 企业风险评分方法、装置、计算机设备及存储介质 |
CN110443459A (zh) * | 2019-07-05 | 2019-11-12 | 深圳壹账通智能科技有限公司 | 预警信息推送方法、装置、计算机设备和存储介质 |
CN110689225A (zh) * | 2019-08-26 | 2020-01-14 | 深圳壹账通智能科技有限公司 | 基于外呼的企业金融风险画像创建方法及相关设备 |
CN110909112A (zh) * | 2019-10-18 | 2020-03-24 | 深圳价值在线信息科技股份有限公司 | 数据提取方法、装置、终端设备及介质 |
CN111325024A (zh) * | 2020-01-21 | 2020-06-23 | 南方电网能源发展研究院有限责任公司 | 一种风险项目统计方法 |
WO2021103492A1 (zh) * | 2019-11-28 | 2021-06-03 | 福建亿榕信息技术有限公司 | 一种企业经营风险预测方法和系统 |
CN113255323A (zh) * | 2021-06-16 | 2021-08-13 | 明品云(北京)数据科技有限公司 | 一种描述数据处理方法、系统、电子设备及介质 |
CN113505221A (zh) * | 2020-03-24 | 2021-10-15 | 国家计算机网络与信息安全管理中心 | 一种企业虚假宣传风险识别方法、设备和存储介质 |
CN113962519A (zh) * | 2021-09-10 | 2022-01-21 | 中国计量大学 | 一种企业产品标准技术指标风险识别方法及其系统 |
CN115964582A (zh) * | 2022-11-03 | 2023-04-14 | 太平洋电信股份有限公司 | 一种网络安全风险评估方法及系统 |
CN116523320A (zh) * | 2023-07-04 | 2023-08-01 | 山东省标准化研究院(Wto/Tbt山东咨询工作站) | 基于互联网大数据的知识产权风险智能分析方法 |
CN116562271A (zh) * | 2023-07-10 | 2023-08-08 | 之江实验室 | 一种电子病历的质控方法、装置、存储介质及电子设备 |
CN116862243A (zh) * | 2023-08-29 | 2023-10-10 | 北京融信数联科技有限公司 | 一种基于神经网络的企业风险分析预测方法、系统及介质 |
CN116862243B (zh) * | 2023-08-29 | 2024-06-07 | 北京融信数联科技有限公司 | 一种基于神经网络的企业风险分析预测方法、系统及介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105550930A (zh) * | 2015-12-08 | 2016-05-04 | 安徽融信金模信息技术有限公司 | 一种基于网络数据的企业信用评估方法 |
US20160140656A1 (en) * | 2014-11-14 | 2016-05-19 | Yahoo Japan Corporation | Evaluation device, evaluation method, and non-transitory computer readable storage medium |
CN106777048A (zh) * | 2016-12-09 | 2017-05-31 | 全国组织机构代码管理中心 | 企业质量信用数据获取方法和系统 |
CN107909274A (zh) * | 2017-11-17 | 2018-04-13 | 平安科技(深圳)有限公司 | 企业投资风险评估方法、装置及存储介质 |
CN108154395A (zh) * | 2017-12-26 | 2018-06-12 | 上海新炬网络技术有限公司 | 一种基于大数据的客户网络行为画像方法 |
-
2018
- 2018-11-15 CN CN201811362015.7A patent/CN109543985A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160140656A1 (en) * | 2014-11-14 | 2016-05-19 | Yahoo Japan Corporation | Evaluation device, evaluation method, and non-transitory computer readable storage medium |
CN105550930A (zh) * | 2015-12-08 | 2016-05-04 | 安徽融信金模信息技术有限公司 | 一种基于网络数据的企业信用评估方法 |
CN106777048A (zh) * | 2016-12-09 | 2017-05-31 | 全国组织机构代码管理中心 | 企业质量信用数据获取方法和系统 |
CN107909274A (zh) * | 2017-11-17 | 2018-04-13 | 平安科技(深圳)有限公司 | 企业投资风险评估方法、装置及存储介质 |
CN108154395A (zh) * | 2017-12-26 | 2018-06-12 | 上海新炬网络技术有限公司 | 一种基于大数据的客户网络行为画像方法 |
Cited By (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110188980A (zh) * | 2019-04-15 | 2019-08-30 | 深圳壹账通智能科技有限公司 | 企业风险评分方法、装置、计算机设备及存储介质 |
CN110443459A (zh) * | 2019-07-05 | 2019-11-12 | 深圳壹账通智能科技有限公司 | 预警信息推送方法、装置、计算机设备和存储介质 |
CN110689225A (zh) * | 2019-08-26 | 2020-01-14 | 深圳壹账通智能科技有限公司 | 基于外呼的企业金融风险画像创建方法及相关设备 |
CN110909112A (zh) * | 2019-10-18 | 2020-03-24 | 深圳价值在线信息科技股份有限公司 | 数据提取方法、装置、终端设备及介质 |
WO2021103492A1 (zh) * | 2019-11-28 | 2021-06-03 | 福建亿榕信息技术有限公司 | 一种企业经营风险预测方法和系统 |
CN111325024B (zh) * | 2020-01-21 | 2023-05-16 | 南方电网能源发展研究院有限责任公司 | 一种风险项目统计方法 |
CN111325024A (zh) * | 2020-01-21 | 2020-06-23 | 南方电网能源发展研究院有限责任公司 | 一种风险项目统计方法 |
CN113505221A (zh) * | 2020-03-24 | 2021-10-15 | 国家计算机网络与信息安全管理中心 | 一种企业虚假宣传风险识别方法、设备和存储介质 |
CN113505221B (zh) * | 2020-03-24 | 2024-03-12 | 国家计算机网络与信息安全管理中心 | 一种企业虚假宣传风险识别方法、设备和存储介质 |
CN113255323A (zh) * | 2021-06-16 | 2021-08-13 | 明品云(北京)数据科技有限公司 | 一种描述数据处理方法、系统、电子设备及介质 |
CN113962519A (zh) * | 2021-09-10 | 2022-01-21 | 中国计量大学 | 一种企业产品标准技术指标风险识别方法及其系统 |
CN115964582B (zh) * | 2022-11-03 | 2023-09-19 | 太平洋电信股份有限公司 | 一种网络安全风险评估方法及系统 |
CN115964582A (zh) * | 2022-11-03 | 2023-04-14 | 太平洋电信股份有限公司 | 一种网络安全风险评估方法及系统 |
CN116523320A (zh) * | 2023-07-04 | 2023-08-01 | 山东省标准化研究院(Wto/Tbt山东咨询工作站) | 基于互联网大数据的知识产权风险智能分析方法 |
CN116523320B (zh) * | 2023-07-04 | 2023-09-12 | 山东省标准化研究院(Wto/Tbt山东咨询工作站) | 基于互联网大数据的知识产权风险智能分析方法 |
CN116562271A (zh) * | 2023-07-10 | 2023-08-08 | 之江实验室 | 一种电子病历的质控方法、装置、存储介质及电子设备 |
CN116562271B (zh) * | 2023-07-10 | 2023-10-10 | 之江实验室 | 一种电子病历的质控方法、装置、存储介质及电子设备 |
CN116862243A (zh) * | 2023-08-29 | 2023-10-10 | 北京融信数联科技有限公司 | 一种基于神经网络的企业风险分析预测方法、系统及介质 |
CN116862243B (zh) * | 2023-08-29 | 2024-06-07 | 北京融信数联科技有限公司 | 一种基于神经网络的企业风险分析预测方法、系统及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109543985A (zh) | 企业风险评估方法、系统及介质 | |
CN107909274B (zh) | 企业投资风险评估方法、装置及存储介质 | |
US11481603B1 (en) | System for deep learning using knowledge graphs | |
CN110765101B (zh) | 标签的生成方法、装置、计算机可读存储介质及服务器 | |
CN109274843B (zh) | 按键预测方法、装置及计算机可读存储介质 | |
CN110390044A (zh) | 一种相似网络页面的搜索方法及设备 | |
CN110069561A (zh) | 账务获取方法、系统、电子设备及计算机可读介质 | |
CN109542956A (zh) | 报表生成方法、装置、计算机设备和存储介质 | |
CN110134844A (zh) | 细分领域舆情监控方法、装置、计算机设备及存储介质 | |
CN111382279A (zh) | 审单方法和装置 | |
CN111027832A (zh) | 一种税务风险确定方法、装置及存储介质 | |
Liu et al. | Detecting industry clusters from the bottom up based on co-location patterns mining: A case study in Dongguan, China | |
CN112989763B (zh) | 数据获取方法、装置、计算机设备及存储介质 | |
CN111143394B (zh) | 知识数据处理方法、装置、介质及电子设备 | |
CN115204881A (zh) | 一种数据处理方法、装置、设备及存储介质 | |
CN117033431A (zh) | 工单处理方法、装置、电子设备和介质 | |
CN110377628A (zh) | 一种信息获取方法、装置及电子设备 | |
CN114741501A (zh) | 舆情预警方法、装置、可读存储介质及电子设备 | |
CN112085566B (zh) | 基于智能决策的产品推荐方法、装置及计算机设备 | |
CN113888760A (zh) | 基于软件应用的违规信息监控方法、装置、设备及介质 | |
EP3956774A1 (en) | Company size estimation system | |
CN110889271A (zh) | 基于模板的数据表构建方法、设备及存储介质 | |
CN111858598A (zh) | 一种海量数据综合管理系统与方法 | |
CN113407885B (zh) | XPath数据篡改告警方法、装置、设备及可读存储介质 | |
CN109815479A (zh) | 标签展示方法、装置、计算机设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190329 |