CN110443459A - 预警信息推送方法、装置、计算机设备和存储介质 - Google Patents

预警信息推送方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN110443459A
CN110443459A CN201910604557.9A CN201910604557A CN110443459A CN 110443459 A CN110443459 A CN 110443459A CN 201910604557 A CN201910604557 A CN 201910604557A CN 110443459 A CN110443459 A CN 110443459A
Authority
CN
China
Prior art keywords
sample
information
industry
operation information
enterprise
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910604557.9A
Other languages
English (en)
Inventor
李泓格
陈姗婷
朱玺道
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
OneConnect Smart Technology Co Ltd
Original Assignee
OneConnect Smart Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by OneConnect Smart Technology Co Ltd filed Critical OneConnect Smart Technology Co Ltd
Priority to CN201910604557.9A priority Critical patent/CN110443459A/zh
Publication of CN110443459A publication Critical patent/CN110443459A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0635Risk analysis of enterprise or organisation activities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/06Asset management; Financial planning or analysis
    • GPHYSICS
    • G08SIGNALLING
    • G08BSIGNALLING OR CALLING SYSTEMS; ORDER TELEGRAPHS; ALARM SYSTEMS
    • G08B31/00Predictive alarm systems characterised by extrapolation or other computation using updated historic data

Abstract

本申请涉及大数据领域,具体涉及一种预警信息推送方法、装置、计算机设备和存储介质。所述方法包括:若接收到终端发送的目标企业的预警监控指令,则获取目标企业的行业类别及与目标企业经营相关的目标经营信息;根据行业类别确定样本企业,并获取与样本企业历史经营相关的样本经营信息,样本企业与目标企业同属于一个行业类别;从样本经营信息中提取与行业类别对应的行业预警特征词,行业预警特征词用于表征影响企业经营的风险特征;当检测出目标经营信息中存在行业预警特征词时,基于目标经营信息和行业预警特征词生成预警信息并发送给终端。采用本方法能够有效提前且准确地捕捉各种经营信息,大幅度提高预警准确性,降低人工干预概率。

Description

预警信息推送方法、装置、计算机设备和存储介质
技术领域
本申请涉及计算机技术领域,特别是涉及一种预警信息推送方法、装置、计算机设备和存储介质。
背景技术
风控人员需要对已投资或即将进行投资的企业进行信息监控,并根据监控的信息及时进行投资风险预警。所有行业通用的投资风险预警方法都是根据更新后的企业工商或司法信息作出对应的风险预警,不仅没有针对目标企业进行分析,而且企业工商或司法信息只能从单一方面反应企业经营状态。故而通过现有的投资风险预警方法监控投资企业风险,容易遗漏企业其他关键信息,进而错失预警良机,降低预警的准确性。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高企业预警效果的预警信息推送方法、装置、计算机设备和存储介质。
一种预警信息推送方法,所述方法包括:
若接收到终端发送的目标企业的预警监控指令,则获取所述目标企业的行业类别及与所述目标企业经营相关的目标经营信息;
根据所述行业类别确定样本企业,并获取与所述样本企业历史经营相关的样本经营信息,所述样本企业与所述目标企业同属于一个行业类别;
从所述样本经营信息中提取行业预警特征词,所述行业预警特征词用于表征影响企业经营的风险特征;
当检测出所述目标经营信息中存在所述行业预警特征词时,基于所述目标经营信息和所述行业预警特征词生成预警信息并发送给所述终端。
在其中一个实施例中,所述从所述样本经营信息中提取与所述行业类别对应的行业预警特征词,包括:
获取与所述样本经营信息对应的企业经营状态;
对所述样本经营信息进行语义分析,提取出所述样本经营信息的样本信息主体;
对所述样本信息主体进行信息抽取,得到行业词语;
根据所述样本经营信息和所述企业经营状态对所述行业词语进行筛选,并得到行业预警特征词。
在其中一个实施例中,所述对所述样本信息主体进行信息抽取,得到行业词语,包括:
对所述样本信息主体进行信息抽取,得到与所述样本信息主体对应的主体表达式;
通过聚类算法对所述主体表达式进行消歧;
获取预设阈值;
从消歧后的所述主体表达式中提取出现次数大于所述预定阈值的词语,并设定为行业词语。
在其中一个实施例中,所述根据所述样本经营信息和所述企业经营状态对所述行业词语进行筛选,并得到行业预警特征词,包括:
根据所述行业词语获取关联的扩展词语;
根据所述样本经营信息和所述企业经营状态确定所述行业词语和所述扩展词语对企业经营状态的影响系数;
根据所述影响系数对所述行业词语和所述扩展词语进行筛选,得到行业预警特征词。
在其中一个实施例中,所述若接收到终端发送的目标企业的预警监控指令,则获取所述目标企业的行业类别及与所述目标企业经营相关的目标经营信息,包括:
获取目标企业的行业类别和目标经营信息的爬取地址;
基于接收到的预警监控指令从所述爬取地址获取预定周期内与所述目标企业经营相关的原始数据;
根据所述原始数据生成目标经营信息。
在其中一个实施例中,所述根据所述原始数据生成目标经营信息,包括:
从所述原始数据中提取出历史事件时刻;
根据所述历史事件时刻对所述原始数据进行分类;
基于所述历史事件时刻,根据分类后的所述原始数据生成目标经营信息。
一种预警信息推送装置,所述装置包括:
指令接收处理模块,用于若接收到终端发送的目标企业的预警监控指令,则获取所述目标企业的行业类别及与所述目标企业经营相关的目标经营信息;
样本信息获取模块,用于根据所述行业类别确定样本企业,并获取与所述样本企业历史经营相关的样本经营信息,所述样本企业与所述目标企业同属于一个行业类别;
特征词提取模块,用于从所述样本经营信息中提取行业预警特征词,所述行业预警特征词用于表征影响企业经营的风险特征;
信息生成发送模块,用于当检测出所述目标经营信息中存在所述行业预警特征词时,基于所述目标经营信息和所述行业预警特征词生成预警信息并发送给所述终端。
在其中一个实施例中,所述特征词提取模块,包括:
企业状态获取单元,用于获取与所述样本经营信息对应的企业经营状态;
语义分析单元,用于对所述样本经营信息进行语义分析,提取出所述样本经营信息的样本信息主体;
信息抽取单元,用于对所述样本信息主体进行信息抽取,得到行业词语;
词语筛选单元,用于根据所述样本经营信息和所述企业经营状态对所述行业词语进行筛选,并得到行业预警特征词。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述方法的步骤。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述方法的步骤。
上述预警信息推送方法、装置、计算机设备和存储介质,根据目标企业获取行业类别及与样本企业历史经营相关的样本经营信息,通过对与目标企业同一行业类别的样本企业的样本经营信息和企业经营状态分析,得到针对不同行业类别的不同行业预警特征词,故而根据行业预警特征词筛选得到的预警信息既与目标企业的行业存在关联,又与目标企业的企业经营状态相关,因而能够有效提前且准确地捕捉各种经营信息,大幅度提高预警准确性,降低人工干预概率,并提升人力效能。
附图说明
图1为一个实施例中预警信息推送方法的应用场景图;
图2为一个实施例中预警信息推送方法的流程示意图;
图3为一个实施例中行业预警特征词提取步骤的流程示意图;
图4为另一个实施例中行业词语提取方法的流程示意图;
图5为另一个实施例中行业预警特征词提取步骤的流程示意图;
图6为一个实施例中预警信息推送装置的结构框图;
图7为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供的预警信息推送方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信,服务器104通过另一网络与服务器106通信。终端102将目标企业的预警监控指令发送给服务器104,服务器104接收终端102发送的目标企业的预警监控指令,服务器104根据预警监控指令从服务器106获取目标企业的行业类别及与目标企业经营相关的目标经营信息,服务器104根据行业类别确定样本企业,并获取与样本企业历史经营相关的样本经营信息,服务器104从样本经营信息中提取的行业预警特征词,行业预警特征词用于表征影响企业经营的风险特征,当服务器104检测出目标经营信息中存在行业预警特征词时,服务器104基于目标经营信息和行业预警特征词生成预警信息并发送给终端102。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式智能设备,服务器104和服务器106均可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一个实施例中,如图2所示,提供了一种预警信息推送方法,以该方法应用于图1中的服务器104为例进行说明,包括以下步骤:
步骤202,若接收到终端发送的目标企业的预警监控指令,则获取所述目标企业的行业类别及与所述目标企业经营相关的目标经营信息。
服务器104接收终端102发送的目标企业的预警监控指令。预警监控指令是用于指示对目标企业的各种经营信息进行获取,并根据获得的经营信息进行预警的指令,预警监控指令可以是包含目标企业的工作代码。预警监控指令中的目标企业可以通过用户在终端102输入的语音信息、文字信息等识别。终端102可以获取用户输入的语音信息或文字信息,并根据语音信息或文字信息识别出目标企业,而后生成预警监控指令。例如,用户可以在使用监控界面的过程中,点击语音识别功能,终端102获取用户输入的语音信息并识别出目标企业,并生成携带有目标企业的预警监控指令。
服务器104根据预警监控指令获取目标企业的行业类别并爬取与目标企业经营相关的目标经营信息。行业类别可以根据目标企业的经营范围确定。目标经营信息是指根据目标企业的企业名称或简称或代称在互联网上爬取的与目标企业经营相关的各种经营活动。经营活动可以是工商变更、各种贷还款、法律罚款、环保舆情和财务报告等,经营信息的来源可以是银行报文、法律公告、行政公告等具有公信力的第三方公文。
步骤204,根据所述行业类别确定样本企业,并获取与所述样本企业历史经营相关的样本经营信息,所述样本企业与所述目标企业同属于一个行业类别。
服务器104根据目标企业的行业类别确定样本企业,并获取与所述样本企业历史经营相关的样本经营信息,所述样本企业与所述目标企业同属于一个行业类别。样本企业可以包含该行业类别中的知名企业,也可以包含在该行业类别中已破产的企业。样本企业可以根据当前情况实时更新或扩充。样本企业可以包含该行业类别中所有已上市、曾上市或上市失败的企业。样本经营信息是指根据样本企业的企业名称或简称或代称在互联网上爬取的某一历史时期内与样本企业历史经营相关的各种经营信息。
步骤206,从所述样本经营信息中提取行业预警特征词,所述行业预警特征词用于表征影响企业经营的风险特征。
服务器104从样本经营信息中提取行业预警特征词。在同一行业类别中,影响样本企业和目标企业的风险特征是一致的,因而根据对样本企业的样本经营信息和样本经营状态进行分析,就可以明确对企业经营存在影响的风险特征。而行业预警特征词是通过对样本经营信息和样本经营状态分析,并从样本经营信息提取出的代表风险特征的词语。行业预警特征词用于表征影响企业经营的风险特征。例如,行业预警特征词可以是不良贷款、关注贷款、垫款、同比下降、同比上升、环保处罚等。
服务器可以对样本经营信息进行语义分析,并对样本经营信息进行分词处理,确定各分词的词性。服务器根据词性从样本经营信息中提取出不含有主语和谓语的信息短语。服务器可以将信息短语中出现的分词按出现频次进行排序,而后将排序在前的分词设定为与行业类别对应的行业预警特征词;服务器也可以将信息短语中出现频次大于预定值的分词设定为行业预警特征词。服务器可以获取样本经营信息对应的样本企业经营活动的活动时间,搜索并判定该活动时间后预设时间周期内样本企业出现的企业风险,将样本经营信息与搜索到的企业风险进行对应。企业风险是企业经营过程中的损失程度,例如可以是企业破产、企业濒危、企业大伤元气、企业发生可接受损失等。例如,在2016年01月03日,样本经营信息是“XX公司出现不良贷款YY万元”,预设时间周期为10日,服务器搜索到信息“在2016年01月03日~2016年01月13日之间,样本企业于2016年01月09日发生ZZ万元的损失”,服务器判定该信息对应的企业风险为“企业发生可接受损失”,服务器将样本经营信息“XX公司出现不良贷款YY万元”与“企业发生可接受损失”进行对应。
步骤208,当检测出所述目标经营信息中存在所述行业预警特征词时,基于所述目标经营信息和所述行业预警特征词生成预警信息并发送给所述终端。
当服务器104检测出目标经营信息中存在行业预警特征词时,服务器104基于目标经营信息和行业预警特征词生成预警信息并发送给终端102。服务器可以通过文字或图表的方式将预警信息发送给终端102。
当服务器采用文字方式将预警信息发送给终端时,服务器可以先确定目标经营信息的信息来源,再生成含有信息来源、行业预警特征词和目标经营信息的预警信息,预警信息中行业预警特征词可以被着重标识。服务器将预警信息依次发送给终端。例如,目标经营信息为“XX年XX月XX日,借款人A对外进行不良业务担保,业务对应被担保人C,到期日为XX1”。行业预警特征词为“不良”,服务器检测出目标经营信息中存在行业预警特征词,服务器确定该目标经营信息的信息来源为人行的征信报告,服务器生成的预警信息可以为“XX年XX月XX日,系统查询人行的征信报告发现借款人A对外进行不良业
..
务担保,业务对应被担保人C,到期日为XX1”。
当服务器采用图表方式将预警信息发送给终端时,服务器可以先确定目标经营信息的信息来源,再根据信息来源、行业预警特征词及含有目标经营信息的预警信息按照时间顺序依次排列成表格,服务器将表格发送给终端。
上述预警信息推送方法中,根据目标企业获取行业类别及与样本企业历史经营相关的样本经营信息,通过对与目标企业同一行业类别的样本企业的样本经营信息和企业经营状态分析,得到针对不同行业类别的不同行业预警特征词,故而根据行业预警特征词筛选得到的预警信息既与目标企业的行业存在关联,又与目标企业的企业经营状态相关,因而能够有效提前且准确地捕捉各种经营信息,大幅度提高预警准确性,降低人工干预概率,并提升人力效能。
在一个实施例中,如图3所示,从所述样本经营信息中提取行业预警特征词,具有以下步骤:
步骤302,获取与所述样本经营信息对应的企业经营状态。
服务器104获取与样本企业的样本经营信息对应的企业经营状态。一个企业经营状态可能对应一至多条样本经营信息,且企业经营状态对应的时间周期晚于样本经营信息对应的时间周期。样本经营信息的企业经营状态是样本企业基于样本经营信息在下一个时间周期内的经营发展情况。例如,样本经营信息可以是在2015年1月中发生,企业经营状态可以是企业在2015年2月的经营发展情况。
步骤304,对所述样本经营信息进行语义分析,提取出所述样本经营信息的样本信息主体。
服务器104对样本经营信息进行语义分析,提取出样本经营信息的样本信息主体。服务器可以对各样本经营信息进行切词得到分词,而后服务器确定各分词的词性,并在词向量库中搜索各分词是否存在对应的词向量,服务器根据确定的词向量以及分词的词性得到各样本经营信息的样本信息主体。服务器可以基于词向量和分词的词性构建最短“主谓宾”句式,得到的即为各样本经营信息的样本信息主体。例如,历史经营信息是银行披露的B企业的贷款信息,服务器对该历史经营信息进行语义分析,提取出的历史信息主体是“B企业贷款XX1万元,A企业为B企业进行担保,到期日为XX2月XX3日”。
步骤306,对所述样本信息主体进行信息抽取,得到行业词语。
服务器104对样本信息主体进行信息抽取,得到行业词语。例如,样本信息主体为“主谓宾”句式,服务器可以提取出“主谓宾”句式中的宾语,将宾语中出现频次大于预定值的分词设定为与行业类别对应的行业词语。
步骤308,根据所述样本经营信息和所述企业经营状态对所述行业词语进行筛选,并得到行业预警特征词。
服务器104根据样本经营信息和企业经营状态对行业词语进行筛选,并得到行业预警特征词。服务器将样本经营信息和企业经营状态进行量化,分别得到样本经营信息和企业经营状态的分值,再根据企业经营状态和样本经营信息的对应关系确定各样本经营信息中的行业词语的影响系数。服务器再获取预设系数阈值,将影响系数大于预设系数阈值的行业词语筛选为行业预警特征词。
上述预警信息推送方法中,行业预警特征词是基于行业内各企业的样本经营信息和企业经营状态筛选得到的,适应于行业内的所有企业,具有针对性和代表性。
在一个实施例中,如图4所示,对所述样本信息主体进行信息抽取,得到行业词语,具有以下步骤:
步骤402,对所述样本信息主体进行信息抽取,得到与所述样本信息主体对应的主体表达式。
服务器104对样本信息主体进行信息抽取,得到与样本信息主体对应的主体表达式。主体表达式可以是关系或者事件等。关系是由一对名称和联系这对名称的关系构成的相关三元组,例如,比尔盖茨是微软的CEO,关系为CEO(比尔盖茨,微软)。事件可以是固定的事件描述语句,例如,服务器从描述A和B签订合同的段落中,抽取出事件“A和B签订合同”和“合同金额为5千万”。
步骤404,通过聚类算法对所述主体表达式进行消歧。
服务器104通过聚类算法对主体表达式进行消歧。聚类算法可以是K均值聚类法、层次聚类法、密度聚类法等任意一种。服务器将表达同一事件的主体表达式划分为一类,并判断主体表达式是否相互矛盾。当服务器判定主体表达式互相矛盾时,服务器获取主体表达式的样本经营信息及其信息来源。服务器先将样本经营信息进行比对,判断两个样本经营信息是否为包含关系,当两个样本经营信息为包含关系时,服务器判定被包含的样本经营信息为错误信息,另一个样本经营信息为正确信息。当两个样本经营信息不为包含关系时,服务器再判定信息来源的公信力的级别,例如,国家政府部门的公信力级别>省政府部门的公信力级别>市政府部门的公信力级别,服务器判定公信力级别大的样本经营信息为正确信息。
步骤406,获取预设阈值。
服务器104获取预设阈值,预设阈值的大小可以由用户事先设定,也可以由系统在执行过程中不断调整。
步骤408,从消歧后的所述主体表达式中提取出现次数大于所述预定阈值的词语,并设定为行业词语。
服务器104从消歧后的主体表达式中提取出现次数大于预定阈值的词语,并设定为行业词语。
上述预警信息推送方法中,通过主体表达式识别出错误的样本经营信息,并从消歧后的主体表达式提取出行业词语,提高了行业词语的精准度。
在一个实施例中,如图5所示,根据所述样本经营信息和所述企业经营状态对所述行业词语进行筛选,并得到行业预警特征词,具有以下步骤:
步骤502,根据所述行业词语获取关联的扩展词语。
服务器104根据行业词语获取关联的扩展词语。扩展词语可以根据预定筛选规则对行业词语不断进行扩展,直至无法进行扩展为止。预定筛选规则可以是:当词语的语义与行业词语的语义相近似时,则判定该词语为扩展词语,例如行业词语为法律处罚记录,词语为监管机构处罚记录,两个词语的语义近似,所以判定监管机构处罚记录为扩展词语;预定筛选规则也可以是:当词语的语义与行业词语的语义相反时,则判定该词语为扩展词语,例如行业词语为处罚,词语为奖励,两个词语的语义相反,判定奖励为扩展词语;预定筛选规则也可以是:当词语包含行业词语时,则判定该词语为扩展词语,例如行业词语为风险,词语为风险偏好,风险偏好含有风险,判定风险偏好为扩展词语。
步骤504,根据所述样本经营信息和所述企业经营状态确定所述行业词语和所述扩展词语对企业经营状态的影响系数。
服务器104根据扩展词语和行业词语获取样本经营信息,再将样本经营信息和企业经营状态分别进行量化、得到各样本经营信息和各企业经营状态的分值,再根据企业经营状态和样本经营信息的对应关系确定各样本经营信息中的行业词语和扩展词语的影响系数。
步骤506,根据所述影响系数对所述行业词语和所述扩展词语进行筛选,得到行业预警特征词。
服务器104根据影响系数对行业词语和扩展词语进行筛选,得到行业预警特征词。服务器104可以获取预设系数阈值,将影响系数大于预设系数阈值的行业词语和扩展词语筛选为行业预警特征词;服务器104也可以按影响系数的数值大小对行业词语和扩展词语进行排序,当排序在前的行业词语和扩展词语的影响系数和大于特定值时,将排序在前的行业词语和扩展词语筛选为行业预警特征词。
上述预警信息推送方法中,扩展词语可以根据行业词语进行无限次扩展,不仅扩充最终得到的行业预警特征词的数量,也提高信息预警的准确性。
在一些实施例中,若接收到终端发送的目标企业的预警监控指令,则获取所述目标企业的行业类别及与所述目标企业经营相关的目标经营信息,具有以下步骤:获取目标企业的行业类别和目标经营信息的爬取地址;基于接收到的预警监控指令从所述爬取地址获取预定周期内与所述目标企业经营相关的原始数据;根据所述原始数据生成目标经营信息。
服务器104获取目标企业的行业类别和目标经营信息的爬取地址。行业类别可以根据企业经营范围确定,也可以根据目标企业销售产品确定,或是从企业信息数据库中获取。爬取地址可以存储在地址数据库中,爬取地址可以与目标企业的企业名称对应,也可以与行业类别对应,爬取地址是事先设定的不同互联网地址。例如,针对房地产行业,爬取地址可以是工商管理地址、法律文书获取地址、房产管理局、银行征信等;针对投资服务行业,爬取地址可以是工商管理地址、法律文书获取地址、投基金业协会管理地址、券商管理地址、银行征信等。
服务器104基于爬取地址获取预定周期内与目标企业经营相关的原始数据。原始数据可以是指未进行处理与目标企业经营相关的网页信息等,也可以是与目标企业经营相关的网页代码等。
服务器104根据原始数据生成目标经营信息。服务器对原始数据进行清洗,清洗掉与目标企业经营无关的代码或是页面设置等。服务器根据清洗后的原始数据生成目标经营信息。
上述预警信息推送方法中,对目标经营信息的信息来源预先进行筛选,避免因错误的信息来源造成对企业经营风险的误判。
在另一实施例中,根据所述原始数据生成目标经营信息,包括以下步骤:从所述原始数据中提取出历史事件时刻;根据所述历史事件时刻对所述原始数据进行分类;基于所述历史事件时刻,根据分类后的所述原始数据生成目标经营信息。
服务器104可以先对原始数据进行清洗,清洗掉与目标企业经营无关的代码或是页面设置等,再从清洗后的原始数据中提取出历史事件时刻。服务器104根据历史事件时刻对原始数据进行分类,将不同网址对同一历史事件的原始数据进行分类。服务器104基于历史事件时刻,根据分类后的原始数据生成目标经营信息。服务器104可以将多个原始数据按照各爬取地址的发表时间及来源依次整合到同一信息中,生成目标经营信息。
上述预警信息推送方法中,将不同来源的信息根据事件整合到目标经营信息中,使得目标经营信息更全面,根据目标经营信息得到的预警信息也更准确。
应该理解的是,虽然图2-5的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2-5中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图6所示,提供了一种预警信息推送装置,包括:指令接收处理模块602、样本信息获取模块604、特征词提取模块606和信息生成发送模块608,其中:
指令接收处理模块602,若接收到终端发送的目标企业的预警监控指令,则获取所述目标企业的行业类别及与所述目标企业经营相关的目标经营信息。
样本信息获取模块604,用于根据所述行业类别确定样本企业,并获取与所述样本企业历史经营相关的样本经营信息,所述样本企业与所述目标企业同属于一个行业类别。
特征词提取模块606,用于从所述样本经营信息中提取行业预警特征词,所述行业预警特征词用于表征影响企业经营的风险特征。
信息生成发送模块608,用于当检测出所述目标经营信息中存在所述行业预警特征词时,基于所述目标经营信息和所述行业预警特征词生成预警信息并发送给所述终端。
在另一实施例中,特征词提取模块606包括企业状态获取单元、语义分析单元、信息抽取单元和词语筛选单元,其中:
企业状态获取单元,用于获取与所述样本经营信息对应的企业经营状态。
语义分析单元,用于对所述样本经营信息进行语义分析,提取出所述样本经营信息的样本信息主体。
信息抽取单元,用于对所述样本信息主体进行信息抽取,得到行业词语。
词语筛选单元,用于根据所述样本经营信息和所述企业经营状态对所述行业词语进行筛选,并得到行业预警特征词。
在一些实施例中,特征词提取模块606包括主体表达式抽取单元、消歧单元、预设阈值获取单元和行业词语设定单元,其中:
主体表达式抽取单元,用于对所述样本信息主体进行信息抽取,得到与所述样本信息主体对应的主体表达式。
消歧单元,用于通过聚类算法对所述主体表达式进行消歧。
预设阈值获取单元,用于获取预设阈值。
行业词语设定单元,用于从消歧后的所述主体表达式中提取出现次数大于所述预定阈值的词语,并设定为行业词语。
在一实施例中,特征词提取模块606包括扩展单元、影响系数确定单元和词语筛选单元,其中:
扩展单元,用于根据所述行业词语获取关联的扩展词语。
影响系数确定单元,用于根据所述样本经营信息和所述企业经营状态确定所述行业词语和所述扩展词语对企业经营状态的影响系数。
词语筛选单元,用于根据所述影响系数对所述行业词语和所述扩展词语进行筛选,得到行业预警特征词。
在一些实施例中,经营信息爬取模块602包括爬取地址获取单元、原始数据获取单元和目标经营信息生成单元,其中:
爬取地址获取单元,用于获取目标企业的行业类别和目标经营信息的爬取地址。
原始数据获取单元,用于基于接收到的预警监控指令从所述爬取地址获取预定周期内与所述目标企业经营相关的原始数据。
目标经营信息生成单元,用于根据所述原始数据生成目标经营信息。
在另一实施例中,经营信息爬取模块602包括历史事件时刻提取单元、原始数据分类单元和目标经营信息生成单元,其中:
历史事件时刻提取单元,用于从所述原始数据中提取出历史事件时刻。
原始数据分类单元,用于根据所述历史事件时刻对所述原始数据进行分类。
目标经营信息生成单元,用于基于所述历史事件时刻,根据分类后的所述原始数据生成目标经营信息。
关于预警信息推送装置的具体限定可以参见上文中对于预警信息推送方法的限定,在此不再赘述。上述预警信息推送装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图7所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储目标经营信息的爬取地址、样本企业的样本经营信息和企业经营状态、预定筛选规则等。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种预警信息推送方法。
本领域技术人员可以理解,图7中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,该存储器存储有计算机程序,该处理器执行计算机程序时实现以下步骤:
若接收到终端发送的目标企业的预警监控指令,则获取所述目标企业的行业类别及与所述目标企业经营相关的目标经营信息;
根据所述行业类别确定样本企业,并获取与所述样本企业历史经营相关的样本经营信息,所述样本企业与所述目标企业同属于一个行业类别;
从所述样本经营信息中提取行业预警特征词,所述行业预警特征词用于表征影响企业经营的风险特征;
当检测出所述目标经营信息中存在所述行业预警特征词时,基于所述目标经营信息和所述行业预警特征词生成预警信息并发送给所述终端。
在一个实施例中,处理器执行计算机程序时实现从所述样本经营信息中提取行业预警特征词的步骤时,还用于:获取与所述样本经营信息对应的企业经营状态;对所述样本经营信息进行语义分析,提取出所述样本经营信息的样本信息主体;对所述样本信息主体进行信息抽取,得到行业词语;根据所述样本经营信息和所述企业经营状态对所述行业词语进行筛选,并得到行业预警特征词。
在一个实施例中,处理器执行计算机程序时实现对所述样本信息主体进行信息抽取,得到行业词语的步骤时,还用于:对所述样本信息主体进行信息抽取,得到与所述样本信息主体对应的主体表达式;通过聚类算法对所述主体表达式进行消歧;获取预设阈值;从消歧后的所述主体表达式中提取出现次数大于所述预定阈值的词语,并设定为行业词语。
在一个实施例中,处理器执行计算机程序时实现根据所述样本经营信息和所述企业经营状态对所述行业词语进行筛选,并得到行业预警特征词的步骤时,还用于:根据所述行业词语获取关联的扩展词语;根据所述样本经营信息和所述企业经营状态确定所述行业词语和所述扩展词语对企业经营状态的影响系数;根据所述影响系数对所述行业词语和所述扩展词语进行筛选,得到行业预警特征词。
在一个实施例中,处理器执行计算机程序时实现若接收到终端发送的目标企业的预警监控指令,则获取所述目标企业的行业类别及与所述目标企业经营相关的目标经营信息的步骤时,还用于:获取目标企业的行业类别和目标经营信息的爬取地址;基于接收到的预警监控指令从所述爬取地址获取预定周期内与所述目标企业经营相关的原始数据;根据所述原始数据生成目标经营信息。
在一个实施例中,处理器执行计算机程序时实现根据所述原始数据生成目标经营信息的步骤时,还用于:从所述原始数据中提取出历史事件时刻;根据所述历史事件时刻对所述原始数据进行分类;基于所述历史事件时刻,根据分类后的所述原始数据生成目标经营信息。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
若接收到终端发送的目标企业的预警监控指令,则获取所述目标企业的行业类别及与所述目标企业经营相关的目标经营信息;
根据所述行业类别确定样本企业,并获取与所述样本企业历史经营相关的样本经营信息,所述样本企业与所述目标企业同属于一个行业类别;
从所述样本经营信息中提取行业预警特征词,所述行业预警特征词用于表征影响企业经营的风险特征;
当检测出所述目标经营信息中存在所述行业预警特征词时,基于所述目标经营信息和所述行业预警特征词生成预警信息并发送给所述终端。
在一个实施例中,计算机程序被处理器执行时实现从所述样本经营信息中提取行业预警特征词的步骤时还用于:获取与所述样本经营信息对应的企业经营状态;对所述样本经营信息进行语义分析,提取出所述样本经营信息的样本信息主体;对所述样本信息主体进行信息抽取,得到行业词语;根据所述样本经营信息和所述企业经营状态对所述行业词语进行筛选,并得到行业预警特征词。
在一个实施例中,计算机程序被处理器执行时实现对所述样本信息主体进行信息抽取,得到行业词语的步骤时还用于:对所述样本信息主体进行信息抽取,得到与所述样本信息主体对应的主体表达式;通过聚类算法对所述主体表达式进行消歧;获取预设阈值;从消歧后的所述主体表达式中提取出现次数大于所述预定阈值的词语,并设定为行业词语。
在一个实施例中,计算机程序被处理器执行时实现根据所述样本经营信息和所述企业经营状态对所述行业词语进行筛选,并得到行业预警特征词的步骤时还用于:根据所述行业词语获取关联的扩展词语;根据所述样本经营信息和所述企业经营状态确定所述行业词语和所述扩展词语对企业经营状态的影响系数;根据所述影响系数对所述行业词语和所述扩展词语进行筛选,得到行业预警特征词。
在一个实施例中,计算机程序被处理器执行时实现若接收到终端发送的目标企业的预警监控指令,则获取所述目标企业的行业类别及与所述目标企业经营相关的目标经营信息的步骤时还用于:获取目标企业的行业类别和目标经营信息的爬取地址;基于接收到的预警监控指令从所述爬取地址获取预定周期内与所述目标企业经营相关的原始数据;根据所述原始数据生成目标经营信息。
在一个实施例中,计算机程序被处理器执行时实现根据所述原始数据生成目标经营信息的步骤时还用于:从所述原始数据中提取出历史事件时刻;根据所述历史事件时刻对所述原始数据进行分类;基于所述历史事件时刻,根据分类后的所述原始数据生成目标经营信息。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种预警信息推送方法,所述方法包括:
若接收到终端发送的目标企业的预警监控指令,则获取所述目标企业的行业类别及与所述目标企业经营相关的目标经营信息;
根据所述行业类别确定样本企业,并获取与所述样本企业历史经营相关的样本经营信息,所述样本企业与所述目标企业同属于一个行业类别;
从所述样本经营信息中提取行业预警特征词,所述行业预警特征词用于表征影响企业经营的风险特征;
当检测出所述目标经营信息中存在所述行业预警特征词时,基于所述目标经营信息和所述行业预警特征词生成预警信息并发送给所述终端。
2.根据权利要求1所述的方法,其特征在于,所述从所述样本经营信息中提取与行业预警特征词,包括:
获取与所述样本经营信息对应的企业经营状态;
对所述样本经营信息进行语义分析,提取出所述样本经营信息的样本信息主体;
对所述样本信息主体进行信息抽取,得到行业词语;
根据所述样本经营信息和所述企业经营状态对所述行业词语进行筛选,并得到行业预警特征词。
3.根据权利要求2所述的方法,其特征在于,所述对所述样本信息主体进行信息抽取,得到行业词语,包括:
对所述样本信息主体进行信息抽取,得到与所述样本信息主体对应的主体表达式;
通过聚类算法对所述主体表达式进行消歧;
获取预设阈值;
从消歧后的所述主体表达式中提取出现次数大于所述预定阈值的词语,并设定为行业词语。
4.根据权利要求2所述的方法,其特征在于,所述根据所述样本经营信息和所述企业经营状态对所述行业词语进行筛选,并得到行业预警特征词,包括:
根据所述行业词语获取关联的扩展词语;
根据所述样本经营信息和所述企业经营状态确定所述行业词语和所述扩展词语对企业经营状态的影响系数;
根据所述影响系数对所述行业词语和所述扩展词语进行筛选,得到行业预警特征词。
5.根据权利要求1所述的方法,其特征在于,所述若接收到终端发送的目标企业的预警监控指令,则获取所述目标企业的行业类别及与所述目标企业经营相关的目标经营信息,包括:获取目标企业的行业类别和目标经营信息的爬取地址;
基于接收到的预警监控指令从所述爬取地址获取预定周期内与所述目标企业经营相关的原始数据;
根据所述原始数据生成目标经营信息。
6.根据权利要求5所述的方法,其特征在于,所述根据所述原始数据生成目标经营信息,包括:
从所述原始数据中提取出历史事件时刻;
根据所述历史事件时刻对所述原始数据进行分类;
基于所述历史事件时刻,根据分类后的所述原始数据生成目标经营信息。
7.一种预警信息推送装置,其特征在于,所述装置包括:
指令接收处理模块,用于若接收到终端发送的目标企业的预警监控指令,则获取所述目标企业的行业类别及与所述目标企业经营相关的目标经营信息;
样本信息获取模块,用于根据所述行业类别确定样本企业,并获取与所述样本企业历史经营相关的样本经营信息,所述样本企业与所述目标企业同属于一个行业类别;
特征词提取模块,用于从所述样本经营信息中提取行业预警特征词,所述行业预警特征词用于表征影响企业经营的风险特征;
信息生成发送模块,用于当检测出所述目标经营信息中存在所述行业预警特征词时,基于所述目标经营信息和所述行业预警特征词生成预警信息并发送给所述终端。
8.根据权利要求7所述的装置,其特征在于,所述特征词提取模块,包括:
企业状态获取单元,用于获取与所述样本经营信息对应的企业经营状态;
语义分析单元,用于对所述样本经营信息进行语义分析,提取出所述样本经营信息的样本信息主体;
信息抽取单元,用于对所述样本信息主体进行信息抽取,得到行业词语;
词语筛选单元,用于根据所述样本经营信息和所述企业经营状态对所述行业词语进行筛选,并得到行业预警特征词。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。
CN201910604557.9A 2019-07-05 2019-07-05 预警信息推送方法、装置、计算机设备和存储介质 Pending CN110443459A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910604557.9A CN110443459A (zh) 2019-07-05 2019-07-05 预警信息推送方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910604557.9A CN110443459A (zh) 2019-07-05 2019-07-05 预警信息推送方法、装置、计算机设备和存储介质

Publications (1)

Publication Number Publication Date
CN110443459A true CN110443459A (zh) 2019-11-12

Family

ID=68429072

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910604557.9A Pending CN110443459A (zh) 2019-07-05 2019-07-05 预警信息推送方法、装置、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN110443459A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111369344A (zh) * 2020-03-06 2020-07-03 中国建设银行股份有限公司 一种动态生成预警规则的方法和装置
CN111861255A (zh) * 2020-07-30 2020-10-30 北京金堤征信服务有限公司 企业风险监控方法和装置、以及存储介质和电子设备
CN113269516A (zh) * 2021-05-13 2021-08-17 企家有道网络技术(北京)有限公司 一种通过大数据提高企业能效的方法、装置及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109523153A (zh) * 2018-11-12 2019-03-26 平安科技(深圳)有限公司 非法集资企业的获取方法、装置、计算机设备和存储介质
CN109543985A (zh) * 2018-11-15 2019-03-29 李志东 企业风险评估方法、系统及介质
CN109670837A (zh) * 2018-11-30 2019-04-23 平安科技(深圳)有限公司 债券违约风险的识别方法、装置、计算机设备和存储介质
WO2019095572A1 (zh) * 2017-11-17 2019-05-23 平安科技(深圳)有限公司 企业投资风险评估方法、装置及存储介质
CN109829640A (zh) * 2019-01-23 2019-05-31 平安科技(深圳)有限公司 企业违约风险的识别方法、装置、计算机设备和存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019095572A1 (zh) * 2017-11-17 2019-05-23 平安科技(深圳)有限公司 企业投资风险评估方法、装置及存储介质
CN109523153A (zh) * 2018-11-12 2019-03-26 平安科技(深圳)有限公司 非法集资企业的获取方法、装置、计算机设备和存储介质
CN109543985A (zh) * 2018-11-15 2019-03-29 李志东 企业风险评估方法、系统及介质
CN109670837A (zh) * 2018-11-30 2019-04-23 平安科技(深圳)有限公司 债券违约风险的识别方法、装置、计算机设备和存储介质
CN109829640A (zh) * 2019-01-23 2019-05-31 平安科技(深圳)有限公司 企业违约风险的识别方法、装置、计算机设备和存储介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111369344A (zh) * 2020-03-06 2020-07-03 中国建设银行股份有限公司 一种动态生成预警规则的方法和装置
CN111369344B (zh) * 2020-03-06 2024-03-08 中国建设银行股份有限公司 一种动态生成预警规则的方法和装置
CN111861255A (zh) * 2020-07-30 2020-10-30 北京金堤征信服务有限公司 企业风险监控方法和装置、以及存储介质和电子设备
CN113269516A (zh) * 2021-05-13 2021-08-17 企家有道网络技术(北京)有限公司 一种通过大数据提高企业能效的方法、装置及系统

Similar Documents

Publication Publication Date Title
CN110443458A (zh) 风险评估方法、装置、计算机设备和存储介质
US10713436B2 (en) Method and system for suggesting revisions to an electronic document
US10162848B2 (en) Methods and apparatus for harmonization of data stored in multiple databases using concept-based analysis
CN109523153A (zh) 非法集资企业的获取方法、装置、计算机设备和存储介质
CN110489561A (zh) 知识图谱构建方法、装置、计算机设备和存储介质
US20180053107A1 (en) Aspect-based sentiment analysis
CN109670837A (zh) 债券违约风险的识别方法、装置、计算机设备和存储介质
CN110443459A (zh) 预警信息推送方法、装置、计算机设备和存储介质
CN110880142B (zh) 一种风险实体获取方法及装置
CN109543925A (zh) 基于机器学习的风险预测方法、装置、计算机设备和存储介质
CN110458324A (zh) 风险概率的计算方法、装置和计算机设备
CN110442713A (zh) 文章管理方法、装置、计算机设备和存储介质
CN107679209B (zh) 分类表达式生成方法和装置
US20220229854A1 (en) Constructing ground truth when classifying data
CN113538154A (zh) 风险对象的识别方法、装置、存储介质和电子设备
CN114998004A (zh) 一种基于企业金融贷款风控的方法及系统
Bao et al. Summarization of corporate risk factor disclosure through topic modeling
CN112464670A (zh) 识别方法、识别模型的训练方法、装置、设备、存储介质
CN112036841A (zh) 基于智能语义识别的政策解析系统及方法
US20210073247A1 (en) System and method for machine learning architecture for interdependence detection
Zhu Financial data analysis application via multi-strategy text processing
Obrizzo ESG valuation: a web scraping approach.
Mengelkamp et al. Credit assessment based on user generated content: State of research
CN115210708B (zh) 处理文本数据的方法和系统、非暂时性计算机可读介质
US20230230115A1 (en) Method and system for extracting contextual product feature model from requirements specification documents

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination