CN113221579A - 一种企业风险评估处理方法及装置 - Google Patents

一种企业风险评估处理方法及装置 Download PDF

Info

Publication number
CN113221579A
CN113221579A CN202110632575.5A CN202110632575A CN113221579A CN 113221579 A CN113221579 A CN 113221579A CN 202110632575 A CN202110632575 A CN 202110632575A CN 113221579 A CN113221579 A CN 113221579A
Authority
CN
China
Prior art keywords
semantic analysis
text
enterprise
risk assessment
risk
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110632575.5A
Other languages
English (en)
Inventor
马小龙
祝世虎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Everbright Bank Co Ltd
Original Assignee
China Everbright Bank Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Everbright Bank Co Ltd filed Critical China Everbright Bank Co Ltd
Priority to CN202110632575.5A priority Critical patent/CN113221579A/zh
Publication of CN113221579A publication Critical patent/CN113221579A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0635Risk analysis of enterprise or organisation activities

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • Human Resources & Organizations (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Strategic Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Economics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Medical Informatics (AREA)
  • Development Economics (AREA)
  • Evolutionary Computation (AREA)
  • Educational Administration (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Game Theory and Decision Science (AREA)
  • Databases & Information Systems (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供了一种企业风险评估处理方法及装置,其中,该方法包括:对企业文本数据进行多角度的语义分析,得到多个风险评估结果;利用集成学习方法对该多个风险评估结果进行聚合,得到风险评估结论,可以解决相关技术中通过人工进行评估企业风险,分析效率较低的问题,通过多个角度得到企业文本数据的风险评估结果,利用集成学习方法对结果进行聚合,得到最终的风险评估结论,达到快速评估企业风险的目的。

Description

一种企业风险评估处理方法及装置
技术领域
本发明涉及数据处理领域,具体而言,涉及一种企业风险评估处理方法及装置。
背景技术
语义分析(Semantic Analysis)是自然语言处理技术的核心任务之一,包括词汇级语义分析、时序语义分析,句子级语义分析等。在分析包含企业风险信息的文本文件时,现有方法是通过人工进行评估,分析效率较低。
针对相关技术中通过人工进行评估企业风险,分析效率较低的问题,尚未提出解决方案。
发明内容
本发明实施例提供了一种企业风险评估处理方法及装置,以至少解决相关技术中通过人工进行评估企业风险,分析效率较低的问题。
根据本发明的一个实施例,提供了一种企业风险评估处理方法,包括:
对企业文本数据进行多角度的语义分析,得到多个风险评估结果;
利用集成学习方法对所述多个风险评估结果进行聚合,得到风险评估结论。
可选地,对企业文本数据进行多角度的语义分析,得到多个风险评估结果包括:
对企业文本数据进行词汇级语义分析,得到第一语义分析结果;
对企业文本数据进行时序语义分析,得到第二语义分析结果;
对企业文本数据进行句子级语义分析,得到第三语义分析结果;
其中,所述多个风险评估结果包括所述第一语义分析结果、所述第二语义分析结果以及所述第三语义分析结果。
可选地,对企业文本数据进行词汇级语义分析,得到第一语义分析结果包括:
获取对所述企业文本数据进行文本分类后出现频率大于预设阈值的经营情况和风险信息的描述文本;
利用预先存储的风险关键词词库,将所述描述文本转换成关键词哑变量特征,得到包括所述关键词哑变量特征的所述第一语义分析结果。
可选地,利用预先存储的风险关键词词库,将所述描述文本转换成关键词哑变量特征包括:
将所述风险关键词词库中的风险关键词按照重要性进行排序;
若所述描述文本中出现所述风险关键词,将关键词哑变量特征设置为1;
若所述描述文本中未出现所述风险关键词,将所述关键词哑变量特征设置为0。
可选地,对企业文本数据进行时序语义分析,得到第二语义分析结果包括:
获取对所述企业文本数据进行文本分类后出现频率大于预设阈值的经营情况和风险信息的描述文本;
统计预设时间段内的关键词哑变量特征;
将所述预设时间段内的关键词哑变量特征组成时序特征,得到包括所述时序特征的第二语义分析结果。
可选地,对企业文本数据进行句子级语义分析,得到第三语义分析结果包括:
获取对所述企业文本数据进行文本分类得到的多类文本信息;
通过神经网络语言模型,将所述多类文本信息进行文本分词,得到多个分词;
分别将所述多个分词中的每个分词转换为预设长度的文本向量,得到多个文本向量;
确定所述多个文本向量的平均值为所述企业文本数据的文本向量特征,得到包括所述文本向量特征的第三语义分析结果。
可选地,利用集成学习方法对所述多个风险评估结果进行聚合,得到风险评估结论包括:
将所述第一语义分析结果输入到第一分类器中,得到第一分类结果;
将所述第二语义分析结果输入到第二分类器中,得到第二分类结果;
将所述第三语义分析结果输入到第三分类器中,得到第三分类结果;
将所述第一分类结果、所述第二分类结果以及所述第三分类结果进行聚合,得到所述风险评估结论。
可选地,在对企业文本数据进行多角度的语义分析,得到多个风险评估结果之前,所述方法还包括:
使用有监督的文本分类方法对所述企业文本数据进行文本分类,得到多类文本信息,其中,所述多类文本信息至少包括:技术创新情况、主营业务信息、经营情况、经营计划信息、核心竞争力、行业情况、风险信息。
根据本发明的另一个实施例,还提供了一种企业风险评估处理装置,包括:
语义分析模块,用于对企业文本数据进行多角度的语义分析,得到多个风险评估结果;
聚合模块,用于利用集成学习方法对所述多个风险评估结果进行聚合,得到风险评估结论。
可选地,所述语义分析模块包括:
第一分析子模块,用于对企业文本数据进行词汇级语义分析,得到第一语义分析结果;
第二分析子模块,用于对企业文本数据进行时序语义分析,得到第二语义分析结果;
第三分析子模块,用于对企业文本数据进行句子级语义分析,得到第三语义分析结果;
其中,所述多个风险评估结果包括所述第一语义分析结果、所述第二语义分析结果以及所述第三语义分析结果。
可选地,所述第一分析子模块包括:
获取单元,用于获取对所述企业文本数据进行文本分类后出现频率大于预设阈值的经营情况和风险信息的描述文本;
转换单元,用于利用预先存储的风险关键词词库,将所述描述文本转换成关键词哑变量特征,得到包括所述关键词哑变量特征的所述第一语义分析结果。
可选地,所述转换单元,还用于
将所述风险关键词词库中的风险关键词按照重要性进行排序;
若所述描述文本中出现所述风险关键词,将关键词哑变量特征设置为1;
若所述描述文本中未出现所述风险关键词,将所述关键词哑变量特征设置为0。
可选地,所述第二分析子模块,还用于
获取对所述企业文本数据进行文本分类后出现频率大于预设阈值的经营情况和风险信息的描述文本;
统计预设时间段内的关键词哑变量特征;
将所述预设时间段内的关键词哑变量特征组成时序特征,得到包括所述时序特征的第二语义分析结果。
可选地,所述第三分析子模块,还用于
获取对所述企业文本数据进行文本分类得到的多类文本信息;
通过神经网络语言模型,将所述多类文本信息进行文本分词,得到多个分词;
分别将所述多个分词中的每个分词转换为预设长度的文本向量,得到多个文本向量;
确定所述多个文本向量的平均值为所述企业文本数据的文本向量特征,得到包括所述文本向量特征的第三语义分析结果。
可选地,所述聚合模块,还用于
将所述第一语义分析结果输入到第一分类器中,得到第一分类结果;
将所述第二语义分析结果输入到第二分类器中,得到第二分类结果;
将所述第三语义分析结果输入到第三分类器中,得到第三分类结果;
将所述第一分类结果、所述第二分类结果以及所述第三分类结果进行聚合,得到所述风险评估结论。
可选地,所述装置还包括:
文本分类模块,用于使用有监督的文本分类方法对所述企业文本数据进行文本分类,得到多类文本信息,其中,所述多类文本信息至少包括:技术创新情况、主营业务信息、经营情况、经营计划信息、核心竞争力、行业情况、风险信息。
根据本发明的又一个实施例,还提供了一种计算机可读的存储介质,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
根据本发明的又一个实施例,还提供了一种电子装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。
通过本发明,对企业文本数据进行多角度的语义分析,得到多个风险评估结果;利用集成学习方法对所述多个风险评估结果进行聚合,得到风险评估结论,可以解决相关技术中通过人工进行评估企业风险,分析效率较低的问题,通过多个角度得到企业文本数据的风险评估结果,利用集成学习方法对结果进行聚合,得到最终的风险评估结论,达到快速评估企业风险的目的。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是本发明实施例的企业风险评估处理方法的移动终端的硬件结构框图;
图2是根据本发明实施例的企业风险评估处理方法的流程图;
图3是根据本发明实施例的,基于语义分析和集成学习的企业风险评估的示意图;
图4是根据本发明实施例的企业风险评估处理装置的框图。
具体实施方式
下文中将参考附图并结合实施例来详细说明本发明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
实施例1
本申请实施例一所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。以运行在移动终端上为例,图1是本发明实施例的企业风险评估处理方法的移动终端的硬件结构框图,如图1所示,移动终端可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)和用于存储数据的存储器104,可选地,上述移动终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述移动终端的结构造成限定。例如,移动终端还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。
存储器104可用于存储计算机程序,例如,应用软件的软件程序以及模块,如本发明实施例中的企业风险评估处理方法对应的计算机程序,处理器102通过运行存储在存储器104内的计算机程序,从而执行各种功能应用以及数据处理,即实现上述的方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至移动终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输设备106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括移动终端的通信供应商提供的无线网络。在一个实例中,传输设备106包括一个网络适配器(Network Interface Controller,简称为NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输设备106可以为射频(Radio Frequency,简称为RF)模块,其用于通过无线方式与互联网进行通讯。
在本实施例中提供了一种运行于上述移动终端或网络架构的企业风险评估处理方法,图2是根据本发明实施例的数企业风险评估处理方法的流程图,如图2所示,该流程包括如下步骤:
步骤S202,对企业文本数据进行多角度的语义分析,得到多个风险评估结果;
步骤S204,利用集成学习方法对所述多个风险评估结果进行聚合,得到风险评估结论。
通过上述步骤S202至S204,对企业文本数据进行多角度的语义分析,得到多个风险评估结果;利用集成学习方法对所述多个风险评估结果进行聚合,得到风险评估结论,可以解决相关技术中通过人工进行评估企业风险,分析效率较低的问题,通过多个角度得到企业文本数据的风险评估结果,利用集成学习方法对结果进行聚合,得到最终的风险评估结论,达到快速评估企业风险的目的。
本发明实施例中,上述步骤S202具体可以包括:
S2021,对企业文本数据进行词汇级语义分析,得到第一语义分析结果;
进一步的,上述步骤S2021具体可以包括:获取对所述企业文本数据进行文本分类后出现频率大于预设阈值的经营情况和风险信息的描述文本;利用预先存储的风险关键词词库,将所述描述文本转换成关键词哑变量特征,得到包括所述关键词哑变量特征的所述第一语义分析结果,具体的,将所述风险关键词词库中的风险关键词按照重要性进行排序;若所述描述文本中出现所述风险关键词,将关键词哑变量特征设置为1;若所述描述文本中未出现所述风险关键词,将所述关键词哑变量特征设置为0。
S2022,对企业文本数据进行时序语义分析,得到第二语义分析结果;
进一步的,上述步骤S2022具体可以包括:获取对所述企业文本数据进行文本分类后出现频率大于预设阈值的经营情况和风险信息的描述文本;统计预设时间段内的关键词哑变量特征;将所述预设时间段内的关键词哑变量特征组成时序特征,得到包括所述时序特征的第二语义分析结果。
S2023,对企业文本数据进行句子级语义分析,得到第三语义分析结果;
进一步的,上述步骤S2023具体可以包括:获取对所述企业文本数据进行文本分类得到的多类文本信息;通过神经网络语言模型,将所述多类文本信息进行文本分词,得到多个分词;分别将所述多个分词中的每个分词转换为预设长度的文本向量,得到多个文本向量;确定所述多个文本向量的平均值为所述企业文本数据的文本向量特征,得到包括所述文本向量特征的第三语义分析结果。
其中,所述多个风险评估结果包括所述第一语义分析结果、所述第二语义分析结果以及所述第三语义分析结果。
本发明实施例中,上述步骤S204具体可与包括:将所述第一语义分析结果输入到第一分类器中,得到第一分类结果;将所述第二语义分析结果输入到第二分类器中,得到第二分类结果;将所述第三语义分析结果输入到第三分类器中,得到第三分类结果;将所述第一分类结果、所述第二分类结果以及所述第三分类结果进行聚合,得到所述风险评估结论。
在一可选的实施例中,在上述步骤S202之前,使用有监督的文本分类方法对所述企业文本数据进行文本分类,得到多类文本信息,其中,所述多类文本信息至少包括:技术创新情况、主营业务信息、经营情况、经营计划信息、核心竞争力、行业情况、风险信息。
图3是根据本发明实施例的,基于语义分析和集成学习的企业风险评估的示意图,如图3所示,包括:
输入企业文本数据后,先使用有监督的文本分类方法(包括但不限于TextCNN、TextRNN等)进行文本分类,包括:本年经营和风险描述文本,近几年经营和风险描述文本,技术创新、主营业务、经营情况、经营计划、核心竞争力、行业情况、风险描述等。企业风险相关的几类文本信息包括技术创新情况、主营业务信息、经营情况、经营计划信息、核心竞争力、行业情况、风险信息等。
语义分析模块中的词汇级语义分析部分,利用风险关键词词库将本年经营和风险描述文本、近几年经营和风险描述文本转换成风险关键词哑变量特征,利用神经网络语言模型将技术创新、主营业务、经营情况、经营计划、核心竞争力、行业情况、风险描述等转换为文本特征向量。即对于文本分类后中出现频率较高的经营情况和风险描述文本,利用经验积累得到的风险关键词词库,将描述文本转换成关键词哑变量特征,即按照风险关键词重要性排序后,描述文本中出现该风险关键词则该哑变量位置特征值为1,描述文本中未出现该风险关键词则该哑变量位置特征值为0,如表1所示。
语义分析模块中的时序语义分析部分,对于文本分类后中出现频率较高的经营情况和风险描述文本,统计近几年(例如近三年或近五年)的关键词哑变量特征,组成时序特征,如表2所示。
表1
公司名称 标签 关键词哑变量特征
XX远程 1 [0,1,0,1,1,1...]
XX照明 0 [1,1,1,0,1,1...]
XX新材 0 [1,1,0,0,0,0...]
XX网络 0 [1,0,1,0,0,1...]
XX股份 0 [1,1,1,1,1,1...]
表2
Figure BDA0003104226620000101
语义分析模块中的句子级语义分析部分,对于文本分类得到的几类文本信息(例如技术创新情况、主营业务信息、经营情况、经营计划信息、核心竞争力、行业情况、风险信息等),通过神经网络语言模型(包括但不限于word2vec等),将文本分词后,每个词都转换为固定长度的文本向量,将文本向量取平均得到该文本的文本向量特征,如表3所示。
将上述得到的特征分别输入到分类器1(包括但不限于线性回归等机器学习算法)、分类器2(包括但不限于卷积神经网络等算法)、分类器3(包括但不限于fastText、transformer等算法),分类标签为企业是否存在风险(例如XX远程标签为1,否则标签为0)。
表3
Figure BDA0003104226620000111
将上述3个分类器的结果,用集成学习模块中的结果融合子模块(例如投票策略,即少数服从多数)进行结果融合,得到最终的评判结果,如表4所示。
表4
Figure BDA0003104226620000112
Figure BDA0003104226620000121
实施例2
根据本发明的另一个实施例,还提供了一种企业风险评估处理装置,图4是根据本发明实施例的企业风险评估处理装置的框图,如图4所示,包括:
语义分析模块42,用于对企业文本数据进行多角度的语义分析,得到多个风险评估结果;
聚合模块44,用于利用集成学习方法对所述多个风险评估结果进行聚合,得到风险评估结论。
可选地,所述语义分析模块42包括:
第一分析子模块,用于对企业文本数据进行词汇级语义分析,得到第一语义分析结果;
第二分析子模块,用于对企业文本数据进行时序语义分析,得到第二语义分析结果;
第三分析子模块,用于对企业文本数据进行句子级语义分析,得到第三语义分析结果;
其中,所述多个风险评估结果包括所述第一语义分析结果、所述第二语义分析结果以及所述第三语义分析结果。
可选地,所述第一分析子模块包括:
获取单元,用于获取对所述企业文本数据进行文本分类后出现频率大于预设阈值的经营情况和风险信息的描述文本;
转换单元,用于利用预先存储的风险关键词词库,将所述描述文本转换成关键词哑变量特征,得到包括所述关键词哑变量特征的所述第一语义分析结果。
可选地,所述转换单元,还用于
将所述风险关键词词库中的风险关键词按照重要性进行排序;
若所述描述文本中出现所述风险关键词,将关键词哑变量特征设置为1;
若所述描述文本中未出现所述风险关键词,将所述关键词哑变量特征设置为0。
可选地,所述第二分析子模块,还用于
获取对所述企业文本数据进行文本分类后出现频率大于预设阈值的经营情况和风险信息的描述文本;
统计预设时间段内的关键词哑变量特征;
将所述预设时间段内的关键词哑变量特征组成时序特征,得到包括所述时序特征的第二语义分析结果。
可选地,所述第三分析子模块,还用于
获取对所述企业文本数据进行文本分类得到的多类文本信息;
通过神经网络语言模型,将所述多类文本信息进行文本分词,得到多个分词;
分别将所述多个分词中的每个分词转换为预设长度的文本向量,得到多个文本向量;
确定所述多个文本向量的平均值为所述企业文本数据的文本向量特征,得到包括所述文本向量特征的第三语义分析结果。
可选地,所述聚合模块44,还用于
将所述第一语义分析结果输入到第一分类器中,得到第一分类结果;
将所述第二语义分析结果输入到第二分类器中,得到第二分类结果;
将所述第三语义分析结果输入到第三分类器中,得到第三分类结果;
将所述第一分类结果、所述第二分类结果以及所述第三分类结果进行聚合,得到所述风险评估结论。
可选地,所述装置还包括:
文本分类模块,用于使用有监督的文本分类方法对所述企业文本数据进行文本分类,得到多类文本信息,其中,所述多类文本信息至少包括:技术创新情况、主营业务信息、经营情况、经营计划信息、核心竞争力、行业情况、风险信息。
需要说明的是,上述各个模块是可以通过软件或硬件来实现的,对于后者,可以通过以下方式实现,但不限于此:上述模块均位于同一处理器中;或者,上述各个模块以任意组合的形式分别位于不同的处理器中。
实施例3
本发明的实施例还提供了一种计算机可读的存储介质,该存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
可选地,在本实施例中,上述存储介质可以被设置为存储用于执行以下步骤的计算机程序:
S1,对企业文本数据进行多角度的语义分析,得到多个风险评估结果;
S2,利用集成学习方法对所述多个风险评估结果进行聚合,得到风险评估结论。
可选地,在本实施例中,上述存储介质可以包括但不限于:U盘、只读存储器(Read-Only Memory,简称为ROM)、随机存取存储器(Random Access Memory,简称为RAM)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。
实施例4
本发明的实施例还提供了一种电子装置,包括存储器和处理器,该存储器中存储有计算机程序,该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。
可选地,上述电子装置还可以包括传输设备以及输入输出设备,其中,该传输设备和上述处理器连接,该输入输出设备和上述处理器连接。
可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:
S1,对企业文本数据进行多角度的语义分析,得到多个风险评估结果;
S2,利用集成学习方法对所述多个风险评估结果进行聚合,得到风险评估结论。
可选地,本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例,本实施例在此不再赘述。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (11)

1.一种企业风险评估处理方法,其特征在于,包括:
对企业文本数据进行多角度的语义分析,得到多个风险评估结果;
利用集成学习方法对所述多个风险评估结果进行聚合,得到风险评估结论。
2.根据权利要求1所述的方法,其特征在于,对企业文本数据进行多角度的语义分析,得到多个风险评估结果包括:
对企业文本数据进行词汇级语义分析,得到第一语义分析结果;
对企业文本数据进行时序语义分析,得到第二语义分析结果;
对企业文本数据进行句子级语义分析,得到第三语义分析结果;
其中,所述多个风险评估结果包括所述第一语义分析结果、所述第二语义分析结果以及所述第三语义分析结果。
3.根据权利要求2所述的方法,其特征在于,对企业文本数据进行词汇级语义分析,得到第一语义分析结果包括:
获取对所述企业文本数据进行文本分类后出现频率大于预设阈值的经营情况和风险信息的描述文本;
利用预先存储的风险关键词词库,将所述描述文本转换成关键词哑变量特征,得到包括所述关键词哑变量特征的所述第一语义分析结果。
4.根据权利要求3所述的方法,其特征在于,利用预先存储的风险关键词词库,将所述描述文本转换成关键词哑变量特征包括:
将所述风险关键词词库中的风险关键词按照重要性进行排序;
若所述描述文本中出现所述风险关键词,将关键词哑变量特征设置为1;
若所述描述文本中未出现所述风险关键词,将所述关键词哑变量特征设置为0。
5.根据权利要求2所述的方法,其特征在于,对企业文本数据进行时序语义分析,得到第二语义分析结果包括:
获取对所述企业文本数据进行文本分类后出现频率大于预设阈值的经营情况和风险信息的描述文本;
统计预设时间段内的关键词哑变量特征;
将所述预设时间段内的关键词哑变量特征组成时序特征,得到包括所述时序特征的第二语义分析结果。
6.根据权利要求2所述的方法,其特征在于,对企业文本数据进行句子级语义分析,得到第三语义分析结果包括:
获取对所述企业文本数据进行文本分类得到的多类文本信息;
通过神经网络语言模型,将所述多类文本信息进行文本分词,得到多个分词;
分别将所述多个分词中的每个分词转换为预设长度的文本向量,得到多个文本向量;
确定所述多个文本向量的平均值为所述企业文本数据的文本向量特征,得到包括所述文本向量特征的第三语义分析结果。
7.根据权利要求2至6中任一项所述的方法,其特征在于,利用集成学习方法对所述多个风险评估结果进行聚合,得到风险评估结论包括:
将所述第一语义分析结果输入到第一分类器中,得到第一分类结果;
将所述第二语义分析结果输入到第二分类器中,得到第二分类结果;
将所述第三语义分析结果输入到第三分类器中,得到第三分类结果;
将所述第一分类结果、所述第二分类结果以及所述第三分类结果进行聚合,得到所述风险评估结论。
8.根据权利要求1至6中任一项所述的方法,其特征在于,在对企业文本数据进行多角度的语义分析,得到多个风险评估结果之前,所述方法还包括:
使用有监督的文本分类方法对所述企业文本数据进行文本分类,得到多类文本信息,其中,所述多类文本信息至少包括:技术创新情况、主营业务信息、经营情况、经营计划信息、核心竞争力、行业情况、风险信息。
9.一种企业风险评估处理装置,其特征在于,包括:
语义分析模块,用于对企业文本数据进行多角度的语义分析,得到多个风险评估结果;
聚合模块,用于利用集成学习方法对所述多个风险评估结果进行聚合,得到风险评估结论。
10.一种计算机可读的存储介质,其特征在于,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行所述权利要求1至8任一项中所述的方法。
11.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行所述权利要求1至8中任一项所述的方法。
CN202110632575.5A 2021-06-07 2021-06-07 一种企业风险评估处理方法及装置 Pending CN113221579A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110632575.5A CN113221579A (zh) 2021-06-07 2021-06-07 一种企业风险评估处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110632575.5A CN113221579A (zh) 2021-06-07 2021-06-07 一种企业风险评估处理方法及装置

Publications (1)

Publication Number Publication Date
CN113221579A true CN113221579A (zh) 2021-08-06

Family

ID=77083064

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110632575.5A Pending CN113221579A (zh) 2021-06-07 2021-06-07 一种企业风险评估处理方法及装置

Country Status (1)

Country Link
CN (1) CN113221579A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113744068A (zh) * 2021-11-08 2021-12-03 博兴兴博投资有限公司 一种金融投资数据测评方法及系统
CN117592092A (zh) * 2024-01-19 2024-02-23 山东铭云信息技术有限公司 一种数据库内容的保密检查方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106611375A (zh) * 2015-10-22 2017-05-03 北京大学 一种基于文本分析的信用风险评估方法及装置
WO2018041114A1 (zh) * 2016-08-30 2018-03-08 北京长亭科技有限公司 网络攻击的检测方法及装置、终端设备和计算机存储介质
CN108595632A (zh) * 2018-04-24 2018-09-28 福州大学 一种融合摘要与主体特征的混合神经网络文本分类方法
CN108874782A (zh) * 2018-06-29 2018-11-23 北京寻领科技有限公司 一种层次注意力lstm和知识图谱的多轮对话管理方法
CN112818699A (zh) * 2021-03-03 2021-05-18 深圳前海微众银行股份有限公司 风险分析方法、装置、设备及计算机可读存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106611375A (zh) * 2015-10-22 2017-05-03 北京大学 一种基于文本分析的信用风险评估方法及装置
WO2018041114A1 (zh) * 2016-08-30 2018-03-08 北京长亭科技有限公司 网络攻击的检测方法及装置、终端设备和计算机存储介质
CN108595632A (zh) * 2018-04-24 2018-09-28 福州大学 一种融合摘要与主体特征的混合神经网络文本分类方法
CN108874782A (zh) * 2018-06-29 2018-11-23 北京寻领科技有限公司 一种层次注意力lstm和知识图谱的多轮对话管理方法
CN112818699A (zh) * 2021-03-03 2021-05-18 深圳前海微众银行股份有限公司 风险分析方法、装置、设备及计算机可读存储介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113744068A (zh) * 2021-11-08 2021-12-03 博兴兴博投资有限公司 一种金融投资数据测评方法及系统
CN113744068B (zh) * 2021-11-08 2022-07-12 深圳市路演中网络科技有限公司 一种金融投资数据测评方法及系统
CN117592092A (zh) * 2024-01-19 2024-02-23 山东铭云信息技术有限公司 一种数据库内容的保密检查方法及系统
CN117592092B (zh) * 2024-01-19 2024-04-05 山东铭云信息技术有限公司 一种数据库内容的保密检查方法及系统

Similar Documents

Publication Publication Date Title
CN108182279B (zh) 基于文本特征的对象分类方法、装置和计算机设备
US9043285B2 (en) Phrase-based data classification system
CN108874921A (zh) 提取文本特征词的方法、装置、终端设备及存储介质
CN109635292B (zh) 基于机器学习算法的工单质检方法和装置
CN108416375B (zh) 工单分类方法及装置
CN113221579A (zh) 一种企业风险评估处理方法及装置
CN112650923A (zh) 新闻事件的舆情处理方法及装置、存储介质、计算机设备
CN110059923A (zh) 岗位画像和简历信息的匹配方法、装置、设备及存储介质
CN110634471B (zh) 一种语音质检方法、装置、电子设备和存储介质
CN104834651A (zh) 一种提供高频问题回答的方法和装置
US11429810B2 (en) Question answering method, terminal, and non-transitory computer readable storage medium
CN109446300B (zh) 一种语料预处理方法、语料预标注方法及电子设备
US20140244241A1 (en) Automated classification of business rules from text
US20190130030A1 (en) Generation method, generation device, and recording medium
CN113806486B (zh) 长文本相似度的计算方法及装置、存储介质、电子装置
CN112215288A (zh) 目标企业的类别确定方法及装置、存储介质、电子装置
CN111309859A (zh) 一种景区网络口碑情感分析方法及装置
CN110245226A (zh) 企业行业分类方法及其装置
CN114464194A (zh) 声纹聚类方法、装置、存储介质及电子装置
CN104699819A (zh) 一种义原的分类方法及装置
CN113052635A (zh) 人口属性标签预测方法、系统、计算机设备和存储介质
CN110705258A (zh) 文本实体识别方法及装置
CN116304008A (zh) 基于关键词的文本分类方法、装置和计算机设备
CN115878793A (zh) 多标签文档分类方法、装置、电子设备及介质
CN114691875A (zh) 一种数据分类分级处理方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination