CN115392787A - 企业的风险评估方法、装置、设备、存储介质及程序产品 - Google Patents
企业的风险评估方法、装置、设备、存储介质及程序产品 Download PDFInfo
- Publication number
- CN115392787A CN115392787A CN202211189830.4A CN202211189830A CN115392787A CN 115392787 A CN115392787 A CN 115392787A CN 202211189830 A CN202211189830 A CN 202211189830A CN 115392787 A CN115392787 A CN 115392787A
- Authority
- CN
- China
- Prior art keywords
- information
- enterprise
- characteristic
- target enterprise
- risk assessment
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0635—Risk analysis of enterprise or organisation activities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Entrepreneurship & Innovation (AREA)
- Economics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Strategic Management (AREA)
- Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Educational Administration (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Molecular Biology (AREA)
- Evolutionary Computation (AREA)
- Development Economics (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Biomedical Technology (AREA)
- Game Theory and Decision Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Marketing (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请公开了一种企业的风险评估方法、装置、设备、存储介质及程序产品。该方法包括:根据目标企业的舆情信息确定目标企业的标签,获取目标企业的第一特征信息,第一特征信息为距离当前的时长不超过第一时长阈值的特征信息,第一特征信息包括第一监管信息、第一信用信息、第一投诉举报信息和第一舆情信息中的一项或多项,从第一特征信息和标签中提取特征字段,将特征字段输入训练好的决策树模型,得到目标企业对应的风险评估结果。根据本申请实施例,能够提升针对企业的风险评估的准确性。
Description
技术领域
本申请属于市场监管技术领域,尤其涉及一种企业的风险评估方法、装置、设备、存储介质及程序产品。
背景技术
为了实现对市场进行高效监管,需要增加对有问题的高风险企业的抽查次数,减少对低风险企业的抽查次数,如此一来,既能够提高监管的效率,也能够降低抽查对低风险企业的干扰。
然而,目前对企业的风险评估比较依赖现有的打分模型,这种打分模型是基于已有的经验和总结对企业进行打分。因此,依赖打分模型的风险评估方式无法将新型风险纳入评估当中,从而导致风险评估的准确性不高。
发明内容
本申请实施例提供了一种企业的风险评估方法、装置、设备、存储介质及程序产品,能够解决现有的风险评估的准确性不高的问题。
第一方面,本申请实施例提供一种企业的风险评估方法,方法包括:
根据获取的网络信息构建至少一个特征词;
根据所述至少一个特征词中各特征词的垂直领域构建至少一个特征词库;
将目标企业的舆情信息拆分为P个第一分词,并根据词性对所述P个第一分词进行筛选,得到至少一个第二分词;
根据所述至少一个第二分词和所述至少一个特征词库确定所述目标企业的标签;
获取第一特征信息,所述第一特征信息为所述目标企业的与第一时间段对应的特征信息,所述特征信息包括监管信息、信用信息、投诉举报信息和舆情信息中的至少一项;
从所述第一特征信息和所述目标企业的标签中提取所述目标企业的特征字段;
将所述目标企业的特征字段输入训练好的决策树模型,得到所述目标企业对应的风险评估结果。
在一些实施例中,所述将所述特征字段输入训练好的决策树模型,得到所述目标企业对应的风险评估结果之前,所述方法还包括:
根据N个企业的舆情信息确定所述N个企业的标签,N为正整数;
获取第二特征信息,所述第二特征信息为所述N个企业的第二时间段对应的特征信息,所述第二时间段的起始时间先于所述第一时间段的终止时间;
对所述第二特征信息进行清洗和转换,得到第三特征信息;
通过所述第三特征信息和所述N个企业的标签构建所述决策树模型。
在一些实施例中,所述对所述N条第二特征信息进行清洗和转换,包括:
在所述第二特征信息中存在部分或全部特征字段缺失的目标特征信息的情况下,对所述目标特征信息执行目标操作;
其中,所述目标操作为以下任一项:
删除所述目标特征信息;
根据所述缺失的特征字段的同类数据,生成所述缺失的特征字段的替代值,并用所述替代值替代所述缺失的特征字段。
在一些实施例中,所述根据所述至少一个第二分词和所述至少一个特征词库确定所述目标企业的标签,包括:
根据所述目标企业的垂直领域确定所述目标企业对应的第一特征词库;
根据所述第一特征词库将所述至少一个第二分词向量化;
根据训练好的自然语言处理模型、向量化的第二分词得到所述目标企业的标签。
在一些实施例中,所述根据获取的网络信息构建至少一个特征词,包括:
从所述网络信息中获取所述N个企业的舆情信息和投诉举报信息;
对所述N个企业的舆情信息和投诉举报信息进行分词处理,得到至少一个第三分词;
根据所述至少一个第三分词的出现次数,从所述至少一个第三分词中选取第一数量的第三分词作为疑似特征词;
根据用户的操作确定各所述疑似特征词对应的向量,生成至少一个特征词。
在一些实施例中,所述将所述目标企业的特征字段输入训练好的决策树模型,得到所述目标企业对应的风险评估结果之后,所述方法还包括:
获取所述目标企业的基本信息;
将所述目标企业对应的风险评估结果和所述目标企业的基本信息相关联;
显示关联后的所述目标企业对应的风险评估结果和所述基本信息。
第二方面,本申请实施例提供一种企业的风险评估装置,装置包括:
确定模块,用于根据目标企业的舆情信息确定所述目标企业的标签;
获取模块,用于获取第一特征信息,所述第一特征信息为所述目标企业的与第一时间段对应的特征信息,所述特征信息包括监管信息、信用信息、投诉举报信息和舆情信息中的至少一项;
提取模块,用于从所述第一特征信息和所述目标企业的标签中提取所述目标企业的特征字段;
评估模块,用于将所述目标企业的特征字段输入训练好的决策树模型,得到所述目标企业对应的风险评估结果。
第三方面,本申请实施例提供了一种企业的风险评估设备,设备包括:处理器以及存储有计算机程序指令的存储器;
处理器执行计算机程序指令时实现如上的企业的风险评估方法。
第四方面,本申请实施例提供了一种计算机存储介质,计算机存储介质上存储有计算机程序指令,计算机程序指令被处理器执行时实现如上的企业的风险评估方法。
第五方面,本申请实施例提供了一种计算机程序产品,所述计算机程序产品包括计算机程序指令,所述计算机程序指令被处理器执行时实现如上的企业的风险评估方法。
在本申请中,首先网络信息构建不同垂直领域的至少一个特征词库,然后将目标企业的舆情信息拆分为第一分词,基于第一分词的词性选择第二分词,并通过第二分词和特征词库得到目标企业的标签。上述方法基于词性在舆情信息中选择特征词,可以得到较为准确的特征词,从而获得准确的标签,并通过决策树模型,可以基于决策树模型,通过企业的标签、监管信息、信用信息、投诉举报信息和舆情信息等多个指标确定企业的风险程度,并可以随时将新类型的风险纳入决策树模型用于企业风险的分析,从而提升了风险评估的准确性。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,显而易见地,下面所描述的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请一实施例提供的企业的风险评估方法的流程示意图;
图2是本申请另一实施例提供的企业的风险评估方法的流程示意图;
图3是本申请又一实施例提供的企业的风险评估方法的流程示意图;
图4是本申请还一实施例提供的企业的风险评估方法的流程示意图;
图5是本申请再一实施例提供的企业的风险评估方法的流程示意图;
图6是本申请再一实施例提供的企业的风险评估方法的流程示意图。
具体实施方式
下面将详细描述本申请的各个方面的特征和示例性实施例,为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及具体实施例,对本申请进行进一步详细描述。应理解,此处所描述的具体实施例仅意在解释本申请,而不是限定本申请。对于本领域技术人员来说,本申请可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本申请的示例来提供对本申请的更好的理解。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将结合附图对实施例进行详细描述。
为了实现对市场的高效监管,需要增加对有问题的高风险企业的抽查次数,减少对低风险企业的抽查次数,如此一来,既能够提高监管的效率,也能够降低抽查对低风险企业的干扰。
然而,目前对企业的风险评估比较依赖现有的打分模型,这种打分模型是基于已有的经验和总结对企业进行打分,并且目前对企业的风险识别一来的数据维度也比较单一,缺乏对监管相关的数据进行深层次的挖掘。上述模型的弊端是依赖较单一的数据根据经验性规则对模型进行打分,很容易遗漏或晚发现新类型的风险,从而导致风险评估的准确性不高。
为了解决上述的技术问题,本申请通过将企业相关的舆情数据输入训练好自然语言处理模型,得到企业的标签,然后通过企业的标签,监管对象数据、监管行为数据、信用信息数据、投诉举报数据以及舆情数据共同训练决策树模型,通过决策树模型来实现企业的风险评估。
具体地,为了解决现有技术问题,本申请实施例提供了一种企业的风险评估方法、装置、设备、存储介质及程序产品。下面首先对本申请实施例所提供的企业的风险评估方法进行介绍。
图1示出了本申请一个实施例提供的企业的风险评估方法的流程示意图。该方法包括以下步骤:
S110,根据获取的网络信息构建至少一个特征词。
在本实施例中,特征词用于在NLP模型的训练和应用过程中,将需要输入NLP模型中自然语言转化为向量,特征词的选取对于NLP模型的训练和应用都有着重要的作用,本实施例的网络信息为网络上能够获取到的文本信息,如一些行业的术语、常见的搜索词以及文献等等,可以对文本信息中的文本内容拆分为词语,并从这些词语中选择出现频率较高的词作为特征词。
S120,根据所述至少一个特征词中各特征词的垂直领域构建至少一个特征词库;
在本实施例中,在获取得到至少一个特征词之后,还需要根据特征词的垂直领域构建特征词库,由于需要保证特征词库中的特征词尽可能的覆盖所有模型应用当中可能会涉及到的文本内容,而构建特征词库的特征词又是有限的,所以在特征词库的构建过程中,需要尽可能的选取应用过程中出现频率高的特征词来构建特征词库。因此,可以利用特征词的垂直领域对特征词进行区分,将垂直领域相同的特征词放在一起构建一个特征词库,构建至少一个特征词库,每个特征词库属于一个垂直领域。
S130,将目标企业的舆情信息拆分为P个第一分词,并根据词性对所述P个第一分词进行筛选,得到至少一个第二分词;
S140,根据所述至少一个第二分词和所述至少一个特征词库确定所述目标企业的标签;
在本实施例中,目标企业的标签的确定过程可以为:将该企业的舆情信息拆分为P个第一分词,然后根据P个第一分词中各第一分词的词性,对P个第一分词进行筛选,得到至少一个第二分词,将至少一个第二分词输入训练好的自然语言处理NLP模型,NLP模型中包括至少一个特征词库,得到针对该目标企业的标签。
由于第二分词是为了得到目标企业的标签,因此需要在P个第一分词中选取更能够表征企业特性的词语作为第二分词。在一实施例中,可以筛选出第一分词中名词词性和动词词性的词语作为第二分词,并将第二分词输入训练好的自然语言处理NLP模型。
此外,还可以为基于专家的经验,根据企业的舆情信息为企业打上标签。企业的标签可以是正面标签,表示目标企业的舆论风评为正面;或者,负面标签,表示舆论风评为负面。其中,舆情信息为对舆论的描述和反应相关的信息。
NLP模型的训练过程可以为:获取互联网舆情信息表中的历史数据,并将历史数据打上标签,作为NLP模型对应的第一样本数据集,并将第一样本数据集划分为第一训练数据集和第一测试数据集,使用第一训练数据集对NLP模型进行构建,并用第一测试数据集对样本进行验证,最终得到训练好的NLP模型。
同时在接收到需要输入模型的自然语言之后,对该自然语言的垂直领域进行判断,别通过与自然语言的垂直领域相同的特征词库来将该自然语言向量化。
S150,获取第一特征信息,所述第一特征信息为所述目标企业的与第一时间段对应的特征信息,所述特征信息包括监管信息、信用信息、投诉举报信息和舆情信息中的至少一项。
在本实施例中,第一时间段为距离当前的时长不超过第一时长阈值的时间段,也即最近一段时间。因此第一特征信息中包括最近一段时间的目标企业的监管信息,信用信息,投诉举报信息和舆情信息中至少一项,监管信息为对企业监督管理相关的信息,信用信息为企业征信状况相关的信息,投诉举报信息为针对企业的投诉和举报相关的信息。
S160,从所述第一特征信息和所述目标企业的标签中提取所述目标企业的特征字段。
在本实施例中,特征字段可以和企业的业务内容具有相关性,从而避免由于通过人为的主观经验评断企业风险时带来的误判或遗漏重要信息。比如,特征字段可以是企业是否被投诉举报的描述,可以是企业被投诉举报的内容的描述,还可以是企业是否被行政处罚过的描述,也可以是对企业进行行政处罚的原因的描述,提取特征字段即从特征信息中截取相应的内容。
S170,将所述目标企业的特征字段输入训练好的决策树模型,得到所述目标企业对应的风险评估结果。
在本实施例中,在获得目标企业的特征字段之后,可以将目标企业的特征字段输入训练好的决策树模型当中,决策树模型将会输出该目标企业的风险评估结果。风险评估结果可以为该目标企业为高风险企业,或该目标企业为低风险企业。
在一实施例中,如图2所示,决策树模型的节点内容可以包括信用评估的行业类别、信用评估的分数、投诉举报的内容、行政处罚的内容和相关信息、行政检查的内容和相关信息等。
在本申请中,首先网络信息构建不同垂直领域的至少一个特征词库,然后将目标企业的舆情信息拆分为第一分词,基于第一分词的词性选择第二分词,并通过第二分词和特征词库得到目标企业的标签。上述方法基于词性在舆情信息中选择特征词,可以得到较为准确的特征词,从而获得准确的标签,并通过决策树模型,可以基于决策树模型,通过企业的监管信息、信用信息、投诉举报信息和舆情信息等多个指标确定企业的风险程度,并可以随时将新类型的风险纳入决策树模型用于企业风险的分析,从而提升了风险评估的准确性。
作为一个可选实施例,为了完成决策树模型的训练,上述S170之前,还可以包括:
S210,根据N个企业的舆情信息确定所述N个企业的标签,N为正整数;
S220,获取第二特征信息,所述第二特征信息为所述N个企业的第二时间段对应的特征信息,所述第二时间段的起始时间先于所述第一时间段的终止时间;
S230,对所述第二特征信息进行清洗和转换,得到第三特征信息;
S240,通过所述第三特征信息和所述N个企业的标签构建所述决策树模型。
在本实施例中,第二特征信息可以为多个企业的特征信息。第二时间段为距离当前的时长超过第一时长阈值的时间段,也即历史的特征信息。可以对第二特征信息进行清洗和转换,得到第三特征信息,然后根据这第三特征信息和这多个企业的标签,来构建决策树模型。
在一个实施例中,可以根据第二特征信息和这多个企业的标签,构造一个市场监管分析主题表,该市场监管分析主题表中每一行可以为一个企业的监管信息,信用信息,投诉举报信息和舆情信息中的一项或多项相关描述,可以从企业的相关描述中提取企业的特征字段,并对这些企业的特征字段打上决策树模型对应的标签,形成决策树模型的第二样本数据集。
在一实施例中,如图3所示,可以将投诉举报信息的文本分类结果,舆情信息的文本分类结果,监管信息中的监管行为数据,监管对象数据以及信用信息中的信用评价数据进行预处理,得到第二样本数据集,将第二样本数据集按6:4进行数据分割,其中将60%的第二样本数据集作为第二训练数据集,40%的第二样本数据集作为第二测试数据集。
依次设置第二训练数据集和第二测试数据集的权重,可以将第二测试数据集和第二训练数据集的权重均设置为1,设置决策树模型的纯度类型,设置决策树模型的决策树层数,然后设置决策树模型的决策规则集。
在设置好决策树模型的初始参数之后,应用第二样本数据集对决策树模型进行训练,并根据决策树模型结果的准确率优化上述参数,从而得到训练好的决策树模型。
在一个实施例中,根据第二训练数据集进行决策树模型训练时,可以通过调用sparkmllib包中的决策树模型训练api:DecisionTree.trainClassifier(训练数据,参数设置)得到决策树模型。
根据决策树模型对第二测试数据集进行测试,调用sparkmllib包中测试api:predict(模型特征,模型标签)。并计算测试误差通过调用MulticlassMetrics(测试数据结果)得到模型准确率,如果准确率不符合期望,可以重新训练决策树模型;如果准确率符合期望,则可以将该决策树模型确定为训练好的决策树模型。
作为一个可选实施例,为了保证决策树模型的模型准确率,上述S230,包括:
S310,在所述第二特征信息中存在部分或全部特征字段缺失的目标特征信息的情况下,对所述目标特征信息执行目标操作;
其中,所述目标操作为以下任一项:
S311,删除所述目标特征信息;
S312,根据所述缺失的特征字段的同类数据,生成所述缺失的特征字段的替代值,并用所述替代值替代所述缺失的特征字段。
在本实施例中,由于在进行决策树模型的训练过程中,要是任一企业相关的特征字段缺失,则该企业很有可能无法参与决策树模型的训练。因此需要对企业的第二特征信息进行清洗和转换,保证各企业的特征字段的完整性,从而保证决策树模型的模型准确率。
作为一个可选实施例,为了提升风险评估的准确性,上述S140,可以包括:
S410,根据所述目标企业的垂直领域确定所述目标企业对应的第一特征词库;
S420,根据所述第一特征词库将所述至少一个第二分词向量化;
S430,根据训练好的自然语言处理模型、向量化的第二分词得到所述目标企业的标签。
在本实施例中,首先获取针对目标企业对应的至少一个第二分词,然后获取和目标企业属于同一垂直领域的第一特征词库,利用第一特征词库对至少一个第二分词进行向量化,然后利用训练好的NLP模型和向量化的第二分词得到目标企业的标签。在一实施例中,NLP模型的输出为相互关联的目标企业的企业代码和标签;标签可以是对目标企业的初步风险评估结果。
在将至少一个第二分词输入NLP模型之后,NLP模型可以基于预先设置的第一特征词库中的特征词将至少一个第二分词向量化,然后通过分析向量化的至少一个第二分词的位置,来得到目标企业的标签。
通过NLP模型,可以将舆情信息和投诉举报信息作为评估企业风险程度的依据,丰富了企业的特征,提升了风险评估的准确性。
作为一个可选实施例,上述S110,可以包括:
S510,从所述网络信息中获取所述N个企业的舆情信息和投诉举报信息;
S520,对所述N个企业的舆情信息和投诉举报信息进行分词处理,得到至少一个第三分词;
S530,根据所述至少一个第三分词的出现次数,从所述至少一个第三分词中选取第一数量的第三分词作为疑似特征词;
S540,根据用户的操作确定各所述疑似特征词对应的向量,生成至少一个特征词。
在本实施例中,在应用NLP模型之前,需要首先构建特征词的词库。可以获取企业的舆情信息和投诉举报信息,并将舆情信息和投诉举报信息进行分词处理,得到至少一个第三分词,在得到第三分词之后,还可以从至少一个第三分词中选取第一数量的第三分词作为疑似特征词,然后设置各疑似特征词对应的向量,在确定疑似特征词的向量之后,即可得到完整的特征词。
上述从至少一个分词中选取第一数量的分词作为特征词的步骤,可以是根据至少一个分词的出现次数,对至少一个分词进行排序,选取出现次数最多的第一数量的分词作为特征词;还可以从出现次数大于某一阈值的分词中,随机选取第一数量的分词作为特征词。
在一实施例中,NLP模型的训练过程如图4所示,可以对互联网舆情信息表进行预处理,得到舆情文本数据序列,然后可以将文本数据中的事件主题字段值、事件摘要字段值、事件情感字段值进行结巴分词,并去除已经停用的分词,得到至少一个分词。然后从至少一个分词中选取前n个分词作为特征词,并为每一个特征词生成id,然后将这些特征词向量化,并将向量化的特征词添加到NLP模型中,构建NLP模型的神经网络结构,以此来训练NLP模型。
作为一个可选实施例,上述S170之后,还可以包括:
S610,获取所述目标企业的基本信息;
S620,将所述目标企业对应的风险评估结果和所述目标企业的基本信息相关联;
S630,显示关联后的所述目标企业对应的风险评估结果和所述基本信息。
在本实施例中,在得到目标企业的风险评估结果之后,可以获取目标企业的基本信息,并将目标企业的风险评估结果和基本信息进行关联,然后显示目标企业的基本信息和风险评估结果,企业的基本信息可以包括企业名称、企业法人和企业代码等等。
通过这种方式,可以向目标人群展示企业的基本信息和企业的风险评估结果,让目标人群很直接的了解目标企业的经营状态和风险状况。
基于上述实施例提供的企业的风险评估方法,相应地,本申请还提供了企业的风险评估装置的具体实现方式。请参见以下实施例。
首先参见图5,本申请实施例提供的企业的风险评估装置500包括以下模块:
第一构建模块501,用于根据获取的网络信息构建至少一个特征词;
第二构建模块502,用于根据所述至少一个特征词中各特征词的垂直领域构建至少一个特征词库;
拆分模块503,用于将目标企业的舆情信息拆分为P个第一分词,并根据词性对所述P个第一分词进行筛选,得到至少一个第二分词;
确定模块504,用于根据所述至少一个第二分词和所述至少一个特征词库确定所述目标企业的标签;
获取模块505,用于获取第一特征信息,所述第一特征信息为所述目标企业的与第一时间段对应的特征信息,所述特征信息包括监管信息、信用信息、投诉举报信息和舆情信息中的至少一项;
提取模块506,用于从所述第一特征信息和所述目标企业的标签中提取所述目标企业的特征字段;
评估模块507,用于将所述目标企业的特征字段输入训练好的决策树模型,得到所述目标企业对应的风险评估结果。
设备可以通过决策树模型,可以基于决策树模型,通过企业的监管信息、信用信息、投诉举报信息和舆情信息等多个指标确定企业的风险程度,并可以随时将新类型的风险纳入决策树模型用于企业风险的分析,从而提升了风险评估的准确性。
作为本申请的一种实现方式,为了完成决策树模型的训练,上述企业的风险评估装置500还可以包括:
第一获取单元,用于根据N个企业的舆情信息确定所述N个企业的标签,N为正整数;
设置单元,用于获取第二特征信息,所述第二特征信息为所述N个企业的第二时间段对应的特征信息,所述第二时间段的起始时间先于所述第一时间段的终止时间;
预处理单元,用于对所述第二特征信息进行清洗和转换,得到第三特征信息;
构建单元,用于通过所述第三特征信息和所述N个企业的标签构建所述决策树模型。
作为本申请的一种实现方式,为了保证决策树模型的模型准确率,上述预处理单元可以包括:
清洗转换单元,用于在所述第二特征信息中存在部分或全部特征字段缺失的目标特征信息的情况下,对所述目标特征信息执行目标操作;
其中,所述清洗转换单元包括:
清洗单元,用于删除所述目标特征信息;
转换单元,用于根据所述缺失的特征字段的同类数据,生成所述缺失的特征字段的替代值,并用所述替代值替代所述缺失的特征字段。
作为本申请的一种实现方式,为了提升风险评估的准确性,上述确定模块504还可以包括:
确定单元,用于根据所述目标企业的垂直领域确定所述目标企业对应的第一特征词库;
向量化单元,用于根据所述第一特征词库将所述至少一个第二分词向量化;
第一预测单元,用于根据训练好的自然语言处理模型、向量化的第二分词得到所述目标企业的标签。
作为本申请的一种实现方式,上述第一构建模块501还可以包括:
第三获取单元,用于从所述网络信息中获取所述N个企业的舆情信息和投诉举报信息;
分词单元,用于对所述N个企业的舆情信息和投诉举报信息进行分词处理,得到至少一个第三分词;
选取单元,用于根据所述至少一个第三分词的出现次数,从所述至少一个第三分词中选取第一数量的第三分词作为疑似特征词;
设置单元,用于根据用户的操作确定各所述疑似特征词对应的向量,生成至少一个特征词。
作为本申请的一种实现方式,上述风险评估装置500还可以包括:
第四获取单元,用于获取所述目标企业的基本信息;
关联单元,用于将所述目标企业对应的风险评估结果和所述目标企业的基本信息相关联;
显示单元,用于显示关联后的所述目标企业对应的风险评估结果和所述基本信息。
本发明实施例提供的企业的风险评估装置能够实现上述的方法实施例中的各个步骤,为避免重复,这里不再赘述。
图6示出了本申请实施例提供的企业的风险评估设备的硬件结构示意图。
在企业的风险评估设备可以包括处理器601以及存储有计算机程序指令的存储器602。
具体地,上述处理器601可以包括中央处理器(CPU),或者特定集成电路(Application Specific Integrated Circuit,ASIC),或者可以被配置成实施本申请实施例的一个或多个集成电路。
存储器602可以包括用于数据或指令的大容量存储器。举例来说而非限制,存储器602可包括硬盘驱动器(Hard Disk Drive,HDD)、软盘驱动器、闪存、光盘、磁光盘、磁带或通用串行总线(Universal Serial Bus,USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下,存储器602可包括可移除或不可移除(或固定)的介质。在合适的情况下,存储器602可在综合网关容灾设备的内部或外部。在特定实施例中,存储器602是非易失性固态存储器。
存储器可包括只读存储器(ROM),随机存取存储器(RAM),磁盘存储介质设备,光存储介质设备,闪存设备,电气、光学或其他物理/有形的存储器存储设备。因此,通常,存储器包括一个或多个编码有包括计算机可执行指令的软件的有形(非暂态)计算机可读存储介质(例如,存储器设备),并且当该软件被执行(例如,由一个或多个处理器)时,其可操作来执行参考根据本公开的一方面的方法所描述的操作。
处理器601通过读取并执行存储器602中存储的计算机程序指令,以实现上述实施例中的任意一种企业的风险评估方法。
在一个示例中,企业的风险评估设备还可包括通信接口603和总线610。其中,如图6所示,处理器601、存储器602、通信接口603通过总线610连接并完成相互间的通信。
通信接口603,主要用于实现本申请实施例中各模块、装置、单元和/或设备之间的通信。
总线610包括硬件、软件或两者,将企业的风险评估设备的部件彼此耦接在一起。举例来说而非限制,总线可包括加速图形端口(AGP)或其他图形总线、增强工业标准架构(EISA)总线、前端总线(FSB)、超传输(HT)互连、工业标准架构(ISA)总线、无限带宽互连、低引脚数(LPC)总线、存储器总线、微信道架构(MCA)总线、外围组件互连(PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(SATA)总线、视频电子标准协会局部(VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下,总线610可包括一个或多个总线。尽管本申请实施例描述和示出了特定的总线,但本申请考虑任何合适的总线或互连。
该企业的风险评估设备可以基于上述实施例,从而实现结合上述的企业的风险评估方法和装置。
另外,结合上述实施例中的企业的风险评估方法,本申请实施例可提供一种计算机存储介质来实现。该计算机存储介质上存储有计算机程序指令;该计算机程序指令被处理器执行时实现上述实施例中的任意一种企业的风险评估方法,且能达到相同的技术效果,为避免重复,这里不再赘述。其中,上述计算机可读存储介质可包括非暂态计算机可读存储介质,如只读存储器(Read-Only Memory,简称ROM)、随机存取存储器(Random AccessMemory,简称RAM)、磁碟或者光盘等,在此并不限定。
另外,本申请实施例还提供了一种计算机程序产品,包括计算机程序指令,计算机程序指令被处理器执行时可实现前述方法实施例的步骤及相应内容。
需要明确的是,本申请并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见,这里省略了对已知方法的详细描述。在上述实施例中,描述和示出了若干具体的步骤作为示例。但是,本申请的方法过程并不限于所描述和示出的具体步骤,本领域的技术人员可以在领会本申请的精神后,作出各种改变、修改和添加,或者改变步骤之间的顺序。
以上的结构框图中所示的功能块可以实现为硬件、软件、固件或者它们的组合。当以硬件方式实现时,其可以例如是电子电路、专用集成电路(ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时,本申请的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中,或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、ROM、闪存、可擦除ROM(EROM)、软盘、CD-ROM、光盘、硬盘、光纤介质、射频(RF)链路,等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。
还需要说明的是,本申请中提及的示例性实施例,基于一系列的步骤或者装置描述一些方法或系统。但是,本申请不局限于上述步骤的顺序,也就是说,可以按照实施例中提及的顺序执行步骤,也可以不同于实施例中的顺序,或者若干步骤同时执行。
上面参考根据本公开的实施例的方法、装置和计算机程序产品的流程图和/或框图描述了本公开的各方面。应当理解,流程图和/或框图中的每个方框以及流程图和/或框图中各方框的组合可以由计算机程序指令实现。这些计算机程序指令可被提供给通用计算机、专用计算机、或其它可编程数据处理装置的处理器,以产生一种机器,使得经由计算机或其它可编程数据处理装置的处理器执行的这些指令使能对流程图和/或框图的一个或多个方框中指定的功能/动作的实现。这种处理器可以是但不限于是通用处理器、专用处理器、特殊应用处理器或者现场可编程逻辑电路。还可理解,框图和/或流程图中的每个方框以及框图和/或流程图中的方框的组合,也可以由执行指定的功能或动作的专用硬件来实现,或可由专用硬件和计算机指令的组合来实现。
以上,仅为本申请的具体实施方式,所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的系统、模块和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。应理解,本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本申请的保护范围之内。
Claims (10)
1.一种风险评估方法,其特征在于,所述方法包括:
根据获取的网络信息构建至少一个特征词;
根据所述至少一个特征词中各特征词的垂直领域构建至少一个特征词库;
将目标企业的舆情信息拆分为P个第一分词,并根据词性对所述P个第一分词进行筛选,得到至少一个第二分词,P为正整数;
根据所述至少一个第二分词和所述至少一个特征词库确定所述目标企业的标签;
获取第一特征信息,所述第一特征信息为所述目标企业的与第一时间段对应的特征信息,所述特征信息包括监管信息、信用信息、投诉举报信息和舆情信息中的至少一项;
从所述第一特征信息和所述目标企业的标签中提取所述目标企业的特征字段;
将所述目标企业的特征字段输入训练好的决策树模型,得到所述目标企业对应的风险评估结果。
2.根据权利要求1所述的企业的风险评估方法,其特征在于,所述将所述特征字段输入训练好的决策树模型,得到所述目标企业对应的风险评估结果之前,所述方法还包括:
根据N个企业的舆情信息确定所述N个企业的标签,N为正整数;
获取第二特征信息,所述第二特征信息为所述N个企业的第二时间段对应的特征信息,所述第二时间段的起始时间先于所述第一时间段的终止时间;
对所述第二特征信息进行清洗和转换,得到第三特征信息;
通过所述第三特征信息和所述N个企业的标签构建所述决策树模型。
3.根据权利要求2所述的企业的风险评估方法,其特征在于,所述对所述N条第二特征信息进行清洗和转换,包括:
在所述第二特征信息中存在部分或全部特征字段缺失的目标特征信息的情况下,对所述目标特征信息执行目标操作;
其中,所述目标操作为以下任一项:
删除所述目标特征信息;
根据所述缺失的特征字段的同类数据,生成所述缺失的特征字段的替代值,并用所述替代值替代所述缺失的特征字段。
4.根据权利要求1所述的企业的风险评估方法,其特征在于,所述根据所述至少一个第二分词和所述至少一个特征词库确定所述目标企业的标签,包括:
根据所述目标企业的垂直领域确定所述目标企业对应的第一特征词库;
根据所述第一特征词库将所述至少一个第二分词向量化;
根据训练好的自然语言处理模型、向量化的第二分词得到所述目标企业的标签。
5.根据权利要求1所述的企业的风险评估方法,其特征在于,所述根据获取的网络信息构建至少一个特征词,包括:
从所述网络信息中获取所述N个企业的舆情信息和投诉举报信息;
对所述N个企业的舆情信息和投诉举报信息进行分词处理,得到至少一个第三分词;
根据所述至少一个第三分词的出现次数,从所述至少一个第三分词中选取第一数量的第三分词作为疑似特征词;
根据用户的操作确定各所述疑似特征词对应的向量,生成至少一个特征词。
6.根据权利要求1所述的企业的风险评估方法,其特征在于,所述将所述目标企业的特征字段输入训练好的决策树模型,得到所述目标企业对应的风险评估结果之后,所述方法还包括:
获取所述目标企业的基本信息;
将所述目标企业对应的风险评估结果和所述目标企业的基本信息相关联;
显示关联后的所述目标企业对应的风险评估结果和所述基本信息。
7.一种企业的风险评估装置,其特征在于,所述装置包括:
第一构建模块,用于根据获取的网络信息构建至少一个特征词;
第二构建模块,用于根据所述至少一个特征词中各特征词的垂直领域构建至少一个特征词库;
拆分模块,用于将目标企业的舆情信息拆分为P个第一分词,并根据词性对所述P个第一分词进行筛选,得到至少一个第二分词;
确定模块,用于根据所述至少一个第二分词和所述至少一个特征词库确定所述目标企业的标签;
获取模块,用于获取第一特征信息,所述第一特征信息为所述目标企业的与第一时间段对应的特征信息,所述特征信息包括监管信息、信用信息、投诉举报信息和舆情信息中的至少一项;
提取模块,用于从所述第一特征信息和所述目标企业的标签中提取所述目标企业的特征字段;
评估模块,用于将所述目标企业的特征字段输入训练好的决策树模型,得到所述目标企业对应的风险评估结果。
8.一种企业的风险评估设备,其特征在于,所述企业的风险评估设备包括:处理器以及存储有计算机程序指令的存储器;
所述处理器执行所述计算机程序指令时实现如权利要求1-6中任一项所述的企业的风险评估方法。
9.一种计算机存储介质,其特征在于,所述计算机存储介质上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现如权利要求1-6中任一项所述的企业的风险评估方法。
10.一种计算机程序产品,其特征在于,所述计算机程序产品包括计算机程序指令,所述计算机程序指令被处理器执行时实现权利要求1-6中任一项所述的企业的风险评估方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211189830.4A CN115392787A (zh) | 2022-09-28 | 2022-09-28 | 企业的风险评估方法、装置、设备、存储介质及程序产品 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211189830.4A CN115392787A (zh) | 2022-09-28 | 2022-09-28 | 企业的风险评估方法、装置、设备、存储介质及程序产品 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115392787A true CN115392787A (zh) | 2022-11-25 |
Family
ID=84128282
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211189830.4A Pending CN115392787A (zh) | 2022-09-28 | 2022-09-28 | 企业的风险评估方法、装置、设备、存储介质及程序产品 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115392787A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115879819A (zh) * | 2022-12-30 | 2023-03-31 | 企查查科技有限公司 | 企业信用评估方法及装置 |
-
2022
- 2022-09-28 CN CN202211189830.4A patent/CN115392787A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115879819A (zh) * | 2022-12-30 | 2023-03-31 | 企查查科技有限公司 | 企业信用评估方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111460250B (zh) | 用于画像的数据的清洗方法、装置、介质及电子设备 | |
CN108550054B (zh) | 一种内容质量评估方法、装置、设备和介质 | |
CN113590764B (zh) | 训练样本构建方法、装置、电子设备和存储介质 | |
CN109360089A (zh) | 贷款风险预测方法及装置 | |
CN115510500B (zh) | 一种文本内容的敏感分析方法及系统 | |
CN113535813B (zh) | 一种数据挖掘方法、装置、电子设备以及存储介质 | |
CN112527977B (zh) | 概念抽取方法、装置、电子设备及存储介质 | |
CN111782793A (zh) | 智能客服处理方法和系统及设备 | |
CN115392787A (zh) | 企业的风险评估方法、装置、设备、存储介质及程序产品 | |
CN113392920B (zh) | 生成作弊预测模型的方法、装置、设备、介质及程序产品 | |
CN110610007A (zh) | 基于nlp的维保车况智能识别方法及装置 | |
CN116579351B (zh) | 一种用户评价信息的分析方法及装置 | |
CN114020904A (zh) | 试题文件筛选方法、模型训练方法、装置、设备及介质 | |
CN112465262A (zh) | 一种事件预测处理方法、装置、设备及存储介质 | |
CN110543910A (zh) | 信用状态监测系统和监测方法 | |
CN115827867A (zh) | 文本类型的检测方法及装置 | |
CN115577109A (zh) | 文本分类方法、装置、电子设备及存储介质 | |
CN110941713A (zh) | 基于主题模型的自优化金融资讯版块分类方法 | |
CN115545481A (zh) | 一种风险等级确定方法、装置、电子设备及存储介质 | |
CN114117031A (zh) | 名单筛查方法、装置、设备及计算机存储介质 | |
CN114218381A (zh) | 立场识别方法、装置、设备及介质 | |
CN113962216A (zh) | 文本处理方法、装置、电子设备及可读存储介质 | |
CN113052604A (zh) | 一种对象检测方法、装置、设备及存储介质 | |
CN114092219A (zh) | 模型验证方法、装置、电子设备和存储介质 | |
CN113988059A (zh) | 一种会话数据类型识别方法、系统、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |