CN111899090A - 企业关联风险预警方法及系统 - Google Patents
企业关联风险预警方法及系统 Download PDFInfo
- Publication number
- CN111899090A CN111899090A CN202010674066.4A CN202010674066A CN111899090A CN 111899090 A CN111899090 A CN 111899090A CN 202010674066 A CN202010674066 A CN 202010674066A CN 111899090 A CN111899090 A CN 111899090A
- Authority
- CN
- China
- Prior art keywords
- name
- enterprise
- public opinion
- early warning
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/03—Credit; Loans; Processing thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/316—Indexing structures
- G06F16/322—Trees
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- General Engineering & Computer Science (AREA)
- General Business, Economics & Management (AREA)
- Databases & Information Systems (AREA)
- Strategic Management (AREA)
- Marketing (AREA)
- Economics (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Technology Law (AREA)
- Development Economics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开一种企业关联风险预警方法及系统,涉及风险预警技术领域。该方法包括:训练用于识别企业名称的识别模型;将获取的当前舆情文本输入识别模型获取其中的目标企业名称;采集多份历史舆情文本,通过识别模型识别出每份历史舆情文本中的企业名称后对历史舆情文本与其对应的企业名称做关联索引;根据各企业名称与目标企业名称的相似度值以及每个历史舆情文本的产生时间,过滤得到关联企业名称及对应的关联索引;预设风险事件类别体系,构建目标企业名称的关联风险树;基于风险事件类别体系中风险事件类型的的权重及关联企业名称对应的赋值,计算关联风险树的预警值,并在预警值超过预警阈值时对目标企业名称做预警提示。
Description
技术领域
本发明涉及风险预警技术领域,尤其涉及一种企业关联风险预警方法及系统。
背景技术
在金融风险控制领域,企业信贷审批人员需要对企业的风险做整体把控,传统的尽调方式无法为信贷人员提供企业可能的关联风险信息。随着互联网技术的迅速发展,网络空间产生了大量的企业舆情信息,往往这些舆情信息也暗藏了企业之间的关联关系。
通过人工方式浏览与处理舆情文本,其成本大且效率低下。另外,舆情文本通常包含与目标企业在同一事件背景下相关联的其它企业,通过人工方式从舆情内容挖掘关联企业存在风险揭示不及时、不全面等问题。
现有的舆情分析更多地从企业命名实体识别的角度去分析文本,忽视了企业之间可能存在的关联关系,也没有从企业风险的角度去提供关联风险预警手段。
发明内容
本发明的目的在于提供一种企业关联风险预警方法及系统,通过识别目标企业的关联风险构建企业关联风险树,为风险预警提供计算依据。
为了实现上述目的,本发明的第一方面提供一种企业关联风险预警方法,包括:
基于多份包括企业名称的标注文本,训练用于识别企业名称的识别模型;
将获取的当前舆情文本输入识别模型获取其中的目标企业名称;
采集多份历史舆情文本,通过识别模型识别出每份历史舆情文本中的企业名称后对历史舆情文本与其对应的企业名称做关联索引;
根据各所述企业名称与所述目标企业名称的相似度值以及每个历史舆情文本的产生时间,过滤得到关联企业名称及对应的关联索引;
预设风险事件类别体系,获取历史舆情文本在风险事件类别体系中对应的至少一个风险事件类型、以及与每个所述风险事件类型对应的所述关联企业名称及从关联索引中得到的所述产生时间,构建所述目标企业名称的关联风险树;
基于所述风险事件类别体系中风险事件类型的权重及关联企业名称对应的赋值,计算所述关联风险树的预警值,并在预警值超过预警阈值时对所述目标企业名称做预警提示。
优选地,标注文本的构建方法包括:
获取训练文本预处理后计算每个分词的词向量,并以句子为单位采用标注集L对各分词进行标注得到标注文本;
所述标注集L∈{sb,se,cb,ce,m,o},其中,sb为句子的开始标记符,se为句子的结束标记符,cb为企业实体名称的开始标记符,ce为企业实体名称的结束标记符,m为企业实体名称的中间部位标记符,o为非企业实体名称部分的标记符。
较佳地,基于多份包括企业名称的标注文本,训练用于识别企业名称的识别模型的方法包括:
对训练文本预处理得到的多个句子序列,所述标注文本中包括与所述句子序列一一对应的标注序列;
采用隐马尔可夫模型的概率密度函数对所述句子序列和所述标注序列进行计算,得到所述标注文本对应的模型参数λ;
进一步地,将获取的当前舆情文本输入识别模型获取其中的目标企业名称的方法包括:
针对各最优标注序列,参照所述标注集L提取其中的目标企业名称;
汇总当前舆情文本中的全部目标企业名称,去重后得到目标企业名称集合。
优选地,采集多份历史舆情文本,通过识别模型识别出每份历史舆情文本中的企业名称后,对历史舆情文本与其对应的企业名称做关联索引的方法包括:
将采集的多份历史舆情文本分别输入识别模型,对应识别出每个历史舆情文本中的企业名称;
构建每个所述历史舆情文本与所述企业名称的映射关系,以及每个所述企业名称与所述历史舆情文本的映射关系;
根据每个所述历史舆情文本与每个所述企业名称的双向映射关系,得到所述历史舆情文本与所述企业名称的关联索引;
所述关联索引中还记录有与所述企业名称对应历史舆情文本的产生时间。
较佳地,根据各所述企业名称与所述目标企业名称的相似度值以及每个历史舆情文本的产生时间,过滤得到关联企业名称的方法包括:
S1,选取目标企业名称集合中的任一目标企业名称,将其作为当前目标企业名称准备相似度计算;
S2,分别计算关联索引中每个所述企业名称与所述当前目标企业名称对应词向量的相似度值;
S3,基于关联索引中每个所述企业名称与所述历史舆情文本的映射关系,过滤掉产生时间超过时间范围的历史舆情文本;
S4,汇总保留下的所述历史舆情文本对应的所述企业名称,将其中相似度值大于相似度阈值的所述企业名称筛选出来作为与所述目标企业名称对应的关联企业名称;
S5,遍历目标企业名称集合中的另一目标企业名称,将其作为当前目标企业名称重复执行步骤S2-S5,直至目标企业名称集合中的目标企业名称遍历完毕,输出与目标企业名称集合中各所述目标企业名称对应的关联企业名称。
较佳地,所述风险事件类别体系中至少包括一个风险事件类型,且每个风险事件类型对应有预设的赋值和预设的配置权重。
进一步地,获取历史舆情文本在风险事件类别体系中对应的至少一个风险事件类型、以及与每个所述风险事件类型对应的所述关联企业名称及从关联索引中得到的所述产生时间,构建所述目标企业名称关联风险树的方法包括:
根据历史舆情文本汇总所述目标企业名称涉及的全部风险事件类型;
基于关联索引分别统计每种风险事件类型中与所述目标企业名称对应的关联企业名称及所属历史舆情文本的产生时间,形成所述目标企业名称的关联风险树。
进一步地,基于所述风险事件类别体系中风险事件类型的权重及关联企业名称对应的赋值,计算所述关联风险树的预警值,并在预警值超过预警阈值时对所述目标企业名称做预警提示的方法包括:
设置与所述产生时间关联的重要性衰竭因子;
基于风险事件类型的权重及关联企业名称对应的赋值,计算关联风险树对应的预警值;
将关联风险树中的预警值与预设的预警阈值做比较,并在预警值超过预警阈值时对所述目标企业名称做预警提示。
与现有技术相比,本发明提供的企业关联风险预警方法具有以下有益效果:
本发明提供的企业关联风险预警方法,首先基于多份标注文本训练识别模型,然后使用识别模型对当前舆情文本进行识别得到目标企业名称,之后再从多份历史舆情文本中识别出每份历史舆情文本中的企业名称,并对历史舆情文本与其对应的企业名称做关联索引,根据相似度值和历史舆情文本产生时间的过滤后,可以得到关联企业名称及对应的关联索引,最终通过预设的风险事件类别体系构建目标企业名称的关联风险树,在对关联风险树中各风险事件类型的预警值进行计算后,对预警值超过预警阈值的目标企业名称做风险预警提示。
可见,本发明方案的有益效果如下:
1、采用机器学习训练识别模型来识别舆情文本中的企业名称,相对于传统基于关键词的企业名称识别方法,具有对词典的依赖程度低和对企业名称识别召回率高的特点;
2、通过跨舆情文本的方式挖掘与目标企业名称关联的企业,能够充分利用多份舆情文本信息获得更加全面的风险挖掘结果;
3、提出了关联风险树的概念,并据此计算目标企业名称对应的预警值,通过预警值来实现对企业的风险预警功能。
本发明的第二方面提供一种企业关联风险预警系统,应用于上述技术方案所述的企业关联风险预警方法中,所述系统包括:
模型训练单元,用于基于多份包括企业名称的标注文本,训练用于识别企业名称的识别模型;
当前舆情文本识别单元,用于将获取的当前舆情文本输入识别模型获取其中的目标企业名称;
历史舆情文本单元,用于采集多份历史舆情文本,通过识别模型识别出每份历史舆情文本中的企业名称后对历史舆情文本与其对应的企业名称做关联索引;
关联企业挖掘单元,用于根据各所述企业名称与所述目标企业名称的相似度值以及每个历史舆情文本的产生时间,过滤得到关联企业名称及对应的关联索引;
风险树构建单元,用于预设风险事件类别体系,获取历史舆情文本在风险事件类别体系中对应的至少一个风险事件类型、以及与每个所述风险事件类型对应的所述关联企业名称及从关联索引中得到的所述产生时间,构建所述目标企业名称的关联风险树;
预警提醒单元,基于所述风险事件类别体系中风险事件类型的权重及关联企业名称对应的赋值,计算所述关联风险树的预警值,并在预警值超过预警阈值时对所述目标企业名称做预警提示。
与现有技术相比,本发明提供的企业关联风险预警系统的有益效果与上述技术方案提供的企业关联风险预警方法的有益效果相同,在此不做赘述。
本发明的第三方面提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器运行时执行上述企业关联风险预警方法的步骤。
与现有技术相比,本发明提供的计算机可读存储介质的有益效果与上述技术方案提供的企业关联风险预警方法的有益效果相同,在此不做赘述。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本发明的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1为本发明实施例中企业关联风险预警方法的流程示意图;
图2为本发明实施例中识别模型的示意图;
图3为本发明实施例中基于历史舆情文本挖掘关联企业名称的流程示意图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其它实施例,均属于本发明保护的范围。
实施例一
请参阅图1,本实施例提供一种企业关联风险预警方法,包括:
基于多份包括企业名称的标注文本,训练用于识别企业名称的识别模型;将获取的当前舆情文本输入识别模型获取其中的目标企业名称;采集多份历史舆情文本,通过识别模型识别出每份历史舆情文本中的企业名称后对历史舆情文本与其对应的企业名称做关联索引;根据各所述企业名称与所述目标企业名称的相似度值以及每个历史舆情文本的产生时间,过滤得到关联企业名称及对应的关联索引;预设风险事件类别体系,获取历史舆情文本在风险事件类别体系中对应的至少一个风险事件类型、以及与每个所述风险事件类型对应的所述关联企业名称及从关联索引中得到的所述产生时间,构建所述目标企业名称的关联风险树;基于所述风险事件类别体系中风险事件类型的权重及关联企业名称对应的赋值,计算所述关联风险树的预警值,并在预警值超过预警阈值时对所述目标企业名称做预警提示。
本实施例提供的企业关联风险预警方法,首先基于多份标注文本训练识别模型,然后使用识别模型对当前舆情文本进行识别得到目标企业名称,之后再从多份历史舆情文本中识别出每份历史舆情文本中的企业名称,并对历史舆情文本与其对应的企业名称做关联索引,根据相似度值和历史舆情文本产生时间的过滤后,可以得到关联企业名称及对应的关联索引,最终通过预设的风险事件类别体系构建目标企业名称的关联风险树,在对关联风险树中各风险事件类型的预警值进行计算后,对预警值超过预警阈值的目标企业名称做风险预警提示。
可见,本实施例方案的有益效果如下:
1、采用机器学习训练识别模型来识别舆情文本中的企业名称,相对于传统基于关键词的企业名称识别方法,具有对词典的依赖程度低和对企业名称识别召回率高的特点;
2、通过跨舆情文本的方式挖掘与目标企业名称关联的企业,能够充分利用多份舆情文本信息获得更加全面的风险挖掘结果;
3、提出了关联风险树的概念,并据此计算目标企业名称对应的预警值,通过预警值来实现对企业的风险预警功能。
上述实施例中标注文本的构建方法包括:获取训练文本预处理后计算每个分词的词向量,并以句子为单位采用标注集L对各分词进行标注得到标注文本;标注集L∈{sb,se,cb,ce,m,o},其中,sb为句子的开始标记符,se为句子的结束标记符,cb为企业实体名称的开始标记符,ce为企业实体名称的结束标记符,m为企业实体名称的中间部位标记符,o为非企业实体名称部分的标记符。
具体实施时,对训练文本预处理的步骤包括分句、分词、去除停用词等,以一条训练文本样例进行说明:
在2019年“创新企业”评选中,中鑫金融服务公司荣获第三名的好成绩。
针对上述训练文本做预处理,包括:分句、分词、去除停用词,并计算每个单词的词向量,预处理的结果如下:
上述预处理结果中,将训练文本分为两个句子单元,针对每个句子,用符号/指示分词边界,词向量采用词袋(bog-of-words)方式计算,以单词在语料库中的整数下标替代单词,其中,S1表示第一个句子的词向量序列,S2表示第二个句子的词向量序列。
针对预处理后的训练文本进行标注,标注集为L∈{sb,se,cb,ce,m,o},以sb和se分别作为每个句子的开始标识符和结束标识符,以cb和ce分别作为企业实体名称的开始标识符和结束标识符,企业实体名称中间部分以标识符m填充,非企业实体名称部分以标识符o填充。针对上例,标注结果如下:
上面的标注文本中,每条句子以sb和se作为起始标记符和结束标记符,句子中的每个单词都对应一个标记符,其中“中鑫/金融服务/公司”这三个词分别以cb和ce做为起始标记符和结束标记符,中间以标记符m填充,这三个单词组成一个企业实体名称。将上述训练文本的预处理结果及对应的标注文本存储在语料库中,用做识别模型训练时使用。
上述实施例中,基于多份包括企业名称的标注文本,训练用于识别企业名称识别模型的方法包括:
对训练文本预处理得到的多个句子序列,标注文本中包括与句子序列一一对应的标注序列;采用隐马尔可夫模型的概率密度函数对句子序列和标注序列进行计算,得到标注文本对应的模型参数λ;基于多份训练文本及其对应的标注文本,调用Keras训练单元中的向前-向后迭代算法从多个模型参数λ中求解最优模型参数利用最优模型参数构建用于识别企业名称的识别模型。
具体实施时,参照上述实施例的方式,分别对每份训练文本进行预处理,得到与训练文本一一对应的标注文本,其中,每份训练文本均由多个句子序列组成,每个训练文本均由多个标注序列组成。理论上识别模型可采用多种类型的模型进行训练,本实施例对此不做限定,但为了方便理解,本实施例采用隐马尔可夫模型(简称HMM模型)对训练过程做示例性说明:
如图2所示,隐马尔可夫模型由观测层o与标注层q组成,一个HMM模型通过模型参数λ表示,HMM模型中,o=(o1,…,oT)为句子序列,序列中的元素为单词;q=(q1,…,qT)为标注序列,是针对句子序列o的标注结果,其中qt(t∈{1,…,T})的取值范围为标注集L中所有的元素。
HMM模型的概率密度函数如下:
其中,A为状态转移矩阵,代表从状态i-1转移到状态i的概率,b(·)为观测函数,代表在状态qi观测到o的概率,π(·)为初始状态分布函数,π(q)代表初始状态为q的概率。得到的与标注文本对应的模型参数λ=(A,b)。
调用Keras训练单元中的向前-向后迭代算法,将标注序列按照如下表(o,q)格式输入向前-向后迭代算法完成上述训练,将训练结束后求得的最优模型参数代入模型中得到识别模型。可以理解的是,HMM模型的训练过程为本领域技术人员所熟知的,本实施例不再对具体训练过程进行赘述。
进一步地,上述实施例中将获取的当前舆情文本输入识别模型获取其中的目标企业名称的方法包括:
将当前舆情文本预处理得到的多个句子序列,基于Viterbi函数和所述最优模型参数计算每个句子序列对应的最优标注序列;针对各最优标注序列,参照所述标注集L提取其中的目标企业名称;汇总当前舆情文本中的全部目标企业名称,去重后得到目标企业名称集合。
具体实施时,首先针对当前舆情文本进行预处理,如分句、分词、去除停用词等得到的多个句子序列,并计算每个单词的词向量。然后将预处理后的句子输入识别模型,利用Viterbi算法求解给定句子序列的最优标注序列,识别出目标企业名称。针对预处理结果通过下述步骤完成对目标企业名称的提取:
令输入的句子序列为o′=(o1′,…,oT′),基于下式求解对应的最优标注序列q′=(q1′,…,qT′):
vt(j)=maxi∈Lvt-1(i)Aijbj(ot′),j∈L
其中t∈{1,…,T},vt(j)是Viterbi函数,以递归形式定义,其代表t时刻序列在状态j的最大概率,lT是基于Viterbi算法最优路径终结点,对于t=T-1,T-2,…,1,lt是基于最优路径回溯求得的在t时刻概率最大的标记符,Aijbj为最优模型参数
调用Keras的解码单元,基于上述Viterbi函数求得序列q′=(l1,…,lT),该序列为o′=(o1′,…,oT′)的最优标注序列。针对标注序列q′,提取以cb,ce作为开始标记符和结束标记符的局部序列,以该局部序列组成的词组作为目标企业名称返回,若一个句子存在多个目标企业名称,则以集合形式全部返回。
上述仅为从当前舆情文本中的一个句子序列提取目标企业名称的过程,若当前舆情文本中同时存在多个句子序列,则按照上述步骤处理当前舆情文本中的所有句子序列,并汇总全部的目标企业名称去重后得到目标企业名称集合。
以当前舆情文本“中鑫金融公司将于4月底发布年度报告”为例进行说明,其预处理结果如下:
预处理句子 | 词向量序列 |
中鑫/金融/公司/将/于/4月/底/发布/年度报告 | S<sub>3</sub>=(7,8,10,15,16,17,18,19,20) |
针对处理结果通过下述步骤完成目标企业名称的提取:
1、计算最优标注序列
输入句子序列为o′=(7,8,10,15,16,17,18,19,20),基于下式求解对应的最优标注q′=(q1′,…,qT′):
vt(j)=maxi∈Lvt-1(i)Aijbj(ot′)
lt=j=argmaxi∈Lvt-1(i)Aijbj(ot′)
调用Keras的解码单元,将句子序列o′=(7,8,10,15,16,17,18,19,20)及最优模型参数输入Viterbi函数,计算得到最优标注序列为q′=(sb,cb,m,ce,o,o,o,o,o,o)。
2、提取企业名
针对最优标注序列q′,提取以cb,ce作为开始和结束的子序列,即“中鑫/金融/公司”,将词组组成的实体“中鑫金融公司”作为目标企业名称返回。
上述实施例中,采集多份历史舆情文本,通过识别模型识别出每份历史舆情文本中的企业名称后,对历史舆情文本与其对应的企业名称做关联索引的方法包括:
将采集的多份历史舆情文本分别输入识别模型,对应识别出每个历史舆情文本中的企业名称;构建每个历史舆情文本与企业名称的映射关系,以及每个企业名称与历史舆情文本的映射关系;根据每个历史舆情文本与每个企业名称的双向映射关系,得到历史舆情文本与企业名称的关联索引;关联索引中还记录有与企业名称对应历史舆情文本的产生时间。
具体实施时,如图3所示,采集的多份历史舆情文本Di(i∈{1,…,n}),通过识别模型识别出企业名称Cij(j∈{1,…,m}),其中i表示对应的历史舆情文本编号,j表示企业名称编号,Cij表示企业名称,从中可得到出自历史舆情文本j的信息。
针对历史舆情文本Di及企业名称Cij建立双向的映射关系,得到历史舆情文本Di与企业名称Cij的关联索引:
企业名称索引值C | 历史舆情文本索引值D |
中鑫金融服务公司 | D<sub>1</sub>:20190102a |
常银保险股份有限公司 | D<sub>2</sub>:20190203a |
常银保险股份有限公司 | D<sub>1</sub>:20190102b |
信达股份有限公司 | D<sub>3</sub>:20190123a |
中鑫金融服务公司(南京分公司) | D<sub>1</sub>:20190102c |
上述实例中,“中鑫金融服务公司”,“常银保险股份有限公司”“信达股份有限公司”以及“中鑫金融服务公司(南京分公司)”为映射关系的企业名称索引值,D1,D2,D3表示的是历史舆情文本索引值,分别代表三份不同编号的历史舆情文本。如,D1中识别出了企业名称“中鑫金融服务公司”、“常银保险股份有限公司”和“中鑫金融服务公司(南京分公司)”,20190102为对应历史舆情文本的产生日期。
上述实施例中,根据各所述企业名称与所述目标企业名称的相似度值以及每个历史舆情文本的产生时间,过滤得到关联企业名称的方法包括:
S1,选取目标企业名称集合中的任一目标企业名称,将其作为当前目标企业名称准备相似度计算;
S2,分别计算关联索引中每个所述企业名称与所述当前目标企业名称对应词向量的相似度值;
S3,基于关联索引中每个所述企业名称与所述历史舆情文本的映射关系,过滤掉产生时间超过时间范围的历史舆情文本;
S4,汇总保留下的所述历史舆情文本对应的所述企业名称,将其中相似度值大于相似度阈值的所述企业名称筛选出来作为与所述目标企业名称对应的关联企业名称;
S5,遍历目标企业名称集合中的另一目标企业名称,将其作为当前目标企业名称重复执行步骤S2-S5,直至目标企业名称集合中的目标企业名称遍历完毕,输出与目标企业名称集合中各所述目标企业名称对应的关联企业名称。
其中,A为目标企业名称的词向量,B为关联索引中企业名称索引值的词向量,计算余弦相似度前需将两者都对齐为n维。针对目标企业名称A,筛选出余弦相似度大于阈值ε的所有企业名索引值,将筛选出的集合记为CA,筛选公式为:
其次,基于企业名称索引值集合CA及关联索引获得所有的历史舆情文本,历史舆情文本的集合记为DA,根据用户设置的时间范围过滤历史舆情文本集合DA,最后,将过滤后的历史舆情文本中识别出的企业名称作为关联企业名称。
若还包括其他关联企业名称,则采用上述相同方法得到各目标企业名称对应的关联企业名称。
具体实施时,以“中鑫金融公司”为目标企业名称进行举例说明,历史舆情文本对应的关联索引如上表所示,目标企业名称“中鑫金融公司”的词向量A=(7,8,10),关联索引中索引值为“中鑫金融服务公司”的企业名称的词向量B=(7,8,9,10)。将A与B的维度做对齐操作得到A=(7,8,10,0),然后计算两个词向量的余弦相似度得到sim(A,B)=0.81。
采取同样的方式,计算“中鑫金融公司”与其它索引值的余弦相似度,假设结果如下:
sim(“中鑫金融公司”,“中鑫金融服务公司”)=0.81
sim(“中鑫金融公司”,“常银保险股份有限公司”)=0.24
sim(“中鑫金融公司”,“信达股份有限公司”)=0.37
sim(“中鑫金融公司”,“中鑫金融服务公司(南京分公司)”)=0.77
用户通过系统设置的阈值ε=0.6,针对目标企业名称A=“中鑫金融服务公司”,系统筛选出余弦相似度大于关联阈值0.6的所有企业名称索引值,筛选出的集合记为CA:
CA={“中鑫金融服务公司”,“中鑫金融服务公司(南京分公司)”}
DA={D1,D2}
假设用户设置的筛选时间范围为2019年1月,根据该时间范围以及历史舆情文本的时间戳属性过滤舆情文档集合DA,得到DA={D1}。最后,将过滤后的历史舆情文本中识别出的企业名称作为关联企业名称返回。在上例中,计算得到集合{D1}对应的历史舆情文本包含的关联企业名称集合如下:
{常银保险股份有限公司,中金金融股份有限公司,中鑫金融服务公司(南京分公司)。
示例性地,上述实施例中的风险事件类别体系中至少包括一个风险事件类型,且每个风险事件类型对应有预设的配置权重,关联企业还需预设与每种风险事件类型对应的赋值Z,其中,Z代表的是关联企业名称的重要性,W代表的是风险事件类型的重要性。格式为{关联风险事件:权重}。例如:
{
关联风险事件R1:W1
关联风险事件R2:W2
关联风险事件R3:W3
关联风险事件R4:W4
……
}
例如关联风险事件为交易合作、经营亏损、上市退市、投资融资、收购重组等。关联风险事件可以从舆情文本中语义识别,一般来说一份舆情文本对应一种类型关联风险事件,当然也会存在一份舆情文本对应多种类型关联风险事件的情况。
上述实施例中,获取历史舆情文本在风险事件类别体系中对应的至少一个风险事件类型、以及与每个风险事件类型对应的关联企业名称及从关联索引中得到的产生时间,构建目标企业名称关联风险树的方法包括:
根据历史舆情文本汇总目标企业名称涉及的全部风险事件类型;基于关联索引分别统计每种风险事件类型中与目标企业名称对应的关联企业名称及所属历史舆情文本的产生时间,形成目标企业名称的关联风险树。关联风险树的结构如下:
{目标企业名称A:
关联风险事件R1:[(关联企业AR11,产生时间AR11),(关联企业AR12,产生时间AR12),…];
关联风险事件R2:[(关联企业AR21,产生时间AR21),…];
……}。
上述实施例中,基于风险事件类别体系中风险事件类型的权重及关联企业名称对应的赋值,计算关联风险树的预警值,并在预警值超过预警阈值时对目标企业名称做预警提示的方法包括:
设置与产生时间关联的重要性衰竭因子;基于风险事件类型的权重及关联企业名称对应的赋值,计算关联风险树对应的预警值;将关联风险树中的预警值与预设的预警阈值做比较,并在预警值超过预警阈值时对所述目标企业名称做预警提示。
根据风险事件类型与关联企业重要性的时间加权来计算目标企业在不同风险事件类型中的预警值,根据关联时间设置重要性衰竭因子T(t)=1/(1+log(t)),t为距离计算时关联风险事件发生的时间跨度。关联企业需预设每种风险事件类型对应的赋值Z,以方便计算与风险事件类型对应的预警值,Z≥1。目标企业名称A的预警值计算公式为:
其中,i表示风险事件类型的编号,Ni表示第i个风险事件类型,N表示风险事件类型的总数,j表示关联企业名称的编号,Zj表示第j个关联企业名称对应的赋值。是否对目标企业名称A进行预警,由预设的预警阈值H来控制,当AlarmScoreA≥H时,对目标企业名称A做风险预警提示,同时输出相应的风险事件类型。
为便于理解,假设预设的风险事件类别体系如下:
{
交易合作W1:10%
经营亏损W2:40%
上市退市W3:10%
投资融资W4:25%
收购重组W5:15%
}。
{假设目标企业名称A的关联风险树如下,其对应的风险事件类型及权重为:
经营亏损[(关联企业Y,5天)]
投资融资[(关联企业M,10天),(关联企业N,30天)]
}。
根据预设的关联企业名称阈值ZY=2、ZM=1、ZN=1、H=0.35;
根据预设的预警阈值H,AlarmScoreA≥H,自动对目标企业名称A进行风险预警。
实施例二
本实施例提供一种企业关联风险预警系统,包括:
模型训练单元,用于基于多份包括企业名称的标注文本,训练用于识别企业名称的识别模型;
当前舆情文本识别单元,用于将获取的当前舆情文本输入识别模型获取其中的目标企业名称;
历史舆情文本单元,用于采集多份历史舆情文本,通过识别模型识别出每份历史舆情文本中的企业名称后对历史舆情文本与其对应的企业名称做关联索引;
关联企业挖掘单元,用于根据各所述企业名称与所述目标企业名称的相似度值以及每个历史舆情文本的产生时间,过滤得到关联企业名称及对应的关联索引;
风险树构建单元,用于预设风险事件类别体系,获取历史舆情文本在风险事件类别体系中对应的至少一个风险事件类型、以及与每个所述风险事件类型对应的所述关联企业名称及从关联索引中得到的所述产生时间,构建所述目标企业名称的关联风险树;
预警提醒单元,基于所述风险事件类别体系中风险事件类型的权重及关联企业名称对应的赋值,计算所述关联风险树的预警值,并在预警值超过预警阈值时对所述目标企业名称做预警提示。
与现有技术相比,本发明实施例提供的企业关联风险预警系统的有益效果与上述实施例一提供的企业关联风险预警方法的有益效果相同,在此不做赘述。
实施例三
本实施例提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器运行时执行上述企业关联风险预警方法的步骤。
与现有技术相比,本实施例提供的计算机可读存储介质的有益效果与上述技术方案提供的企业关联风险预警方法的有益效果相同,在此不做赘述。
本领域普通技术人员可以理解,实现上述发明方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,上述程序可以存储于计算机可读取存储介质中,该程序在执行时,包括上述实施例方法的各步骤,而的存储介质可以是:ROM/RAM、磁碟、光盘、存储卡等。
以上,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。
Claims (10)
1.一种企业关联风险预警方法,其特征在于,包括:
基于多份包括企业名称的标注文本,训练用于识别企业名称的识别模型;
将获取的当前舆情文本输入识别模型获取其中的目标企业名称;
采集多份历史舆情文本,通过识别模型识别出每份历史舆情文本中的企业名称后对历史舆情文本与其对应的企业名称做关联索引;
根据各所述企业名称与所述目标企业名称的相似度值以及每个历史舆情文本的产生时间,过滤得到关联企业名称及对应的关联索引;
预设风险事件类别体系,获取历史舆情文本在风险事件类别体系中对应的至少一个风险事件类型、以及与每个所述风险事件类型对应的所述关联企业名称及从关联索引中得到的所述产生时间,构建所述目标企业名称的关联风险树;
基于所述风险事件类别体系中风险事件类型的权重及关联企业名称对应的赋值,计算所述关联风险树的预警值,并在预警值超过预警阈值时对所述目标企业名称做预警提示。
2.根据权利要求1所述的方法,其特征在于,标注文本的构建方法包括:
获取训练文本预处理后计算每个分词的词向量,并以句子为单位采用标注集L对各分词进行标注得到标注文本;
所述标注集L∈{sb,se,cb,ce,m,o},其中,sb为句子的开始标记符,se为句子的结束标记符,cb为企业实体名称的开始标记符,ce为企业实体名称的结束标记符,m为企业实体名称的中间部位标记符,o为非企业实体名称部分的标记符。
5.根据权利要求1所述的方法,其特征在于,采集多份历史舆情文本,通过识别模型识别出每份历史舆情文本中的企业名称后,对历史舆情文本与其对应的企业名称做关联索引的方法包括:
将采集的多份历史舆情文本分别输入识别模型,对应识别出每个历史舆情文本中的企业名称;
构建每个所述历史舆情文本与所述企业名称的映射关系,以及每个所述企业名称与所述历史舆情文本的映射关系;
根据每个所述历史舆情文本与每个所述企业名称的双向映射关系,得到所述历史舆情文本与所述企业名称的关联索引;
所述关联索引中还记录有与所述企业名称对应历史舆情文本的产生时间。
6.根据权利要求5所述的方法,其特征在于,根据各所述企业名称与所述目标企业名称的相似度值以及每个历史舆情文本的产生时间,过滤得到关联企业名称的方法包括:
S1,选取目标企业名称集合中的任一目标企业名称,将其作为当前目标企业名称准备相似度计算;
S2,分别计算关联索引中每个所述企业名称与所述当前目标企业名称对应词向量的相似度值;
S3,基于关联索引中每个所述企业名称与所述历史舆情文本的映射关系,过滤掉产生时间超过时间范围的历史舆情文本;
S4,汇总保留下的所述历史舆情文本对应的所述企业名称,将其中相似度值大于相似度阈值的所述企业名称筛选出来作为与所述目标企业名称对应的关联企业名称;
S5,遍历目标企业名称集合中的另一目标企业名称,将其作为当前目标企业名称重复执行步骤S2-S5,直至目标企业名称集合中的目标企业名称遍历完毕,输出与目标企业名称集合中各所述目标企业名称对应的关联企业名称。
7.根据权利要求6所述的方法,其特征在于,所述风险事件类别体系中至少包括一个风险事件类型,且每个风险事件类型对应有预设的赋值和预设的配置权重。
8.根据权利要求7所述的方法,其特征在于,获取历史舆情文本在风险事件类别体系中对应的至少一个风险事件类型、以及与每个所述风险事件类型对应的所述关联企业名称及从关联索引中得到的所述产生时间,构建所述目标企业名称关联风险树的方法包括:
根据历史舆情文本汇总所述目标企业名称涉及的全部风险事件类型;
基于关联索引分别统计每种风险事件类型中与所述目标企业名称对应的关联企业名称及所属历史舆情文本的产生时间,形成所述目标企业名称的关联风险树。
9.根据权利要求8所述的方法,其特征在于,基于所述风险事件类别体系中风险事件类型的权重及关联企业名称对应的赋值,计算所述关联风险树的预警值,并在预警值超过预警阈值时对所述目标企业名称做预警提示的方法包括:
设置与所述产生时间关联的重要性衰竭因子;
基于风险事件类型的权重及关联企业名称对应的赋值,计算关联风险树对应的预警值;
将关联风险树中的预警值与预设的预警阈值做比较,并在预警值超过预警阈值时对所述目标企业名称做预警提示。
10.一种企业关联风险预警系统,其特征在于,包括:
模型训练单元,用于基于多份包括企业名称的标注文本,训练用于识别企业名称的识别模型;
当前舆情文本识别单元,用于将获取的当前舆情文本输入识别模型获取其中的目标企业名称;
历史舆情文本单元,用于采集多份历史舆情文本,通过识别模型识别出每份历史舆情文本中的企业名称后对历史舆情文本与其对应的企业名称做关联索引;
关联企业挖掘单元,用于根据各所述企业名称与所述目标企业名称的相似度值以及每个历史舆情文本的产生时间,过滤得到关联企业名称及对应的关联索引;
风险树构建单元,用于预设风险事件类别体系,获取历史舆情文本在风险事件类别体系中对应的至少一个风险事件类型、以及与每个所述风险事件类型对应的所述关联企业名称及从关联索引中得到的所述产生时间,构建所述目标企业名称的关联风险树;
预警提醒单元,基于所述风险事件类别体系中风险事件类型的权重及关联企业名称对应的赋值,计算所述关联风险树的预警值,并在预警值超过预警阈值时对所述目标企业名称做预警提示。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010674066.4A CN111899090B (zh) | 2020-07-14 | 2020-07-14 | 企业关联风险预警方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010674066.4A CN111899090B (zh) | 2020-07-14 | 2020-07-14 | 企业关联风险预警方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111899090A true CN111899090A (zh) | 2020-11-06 |
CN111899090B CN111899090B (zh) | 2022-07-26 |
Family
ID=73192623
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010674066.4A Active CN111899090B (zh) | 2020-07-14 | 2020-07-14 | 企业关联风险预警方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111899090B (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112651660A (zh) * | 2021-01-07 | 2021-04-13 | 量子数聚(北京)科技有限公司 | 企业风险预警方法及装置 |
CN112750028A (zh) * | 2020-12-30 | 2021-05-04 | 北京知因智慧科技有限公司 | 基于实体抽取的事件文本的风险预警方法和装置 |
CN113326375A (zh) * | 2021-05-26 | 2021-08-31 | 北京沃东天骏信息技术有限公司 | 舆情处理的方法、装置、电子设备和存储介质 |
CN113342972A (zh) * | 2021-05-24 | 2021-09-03 | 支付宝(杭州)信息技术有限公司 | 舆情识别模型训练方法、系统以及舆情风险监测方法和系统 |
CN113642867A (zh) * | 2021-07-30 | 2021-11-12 | 南京星云数字技术有限公司 | 评估风险的方法及系统 |
CN114492439A (zh) * | 2021-12-27 | 2022-05-13 | 四川新网银行股份有限公司 | 一种应用深度学习提升舆情预警准确率的系统和方法 |
CN114693453A (zh) * | 2022-04-20 | 2022-07-01 | 成都随机森林科技有限公司 | 一种退市预警方法与系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108460014A (zh) * | 2018-02-07 | 2018-08-28 | 百度在线网络技术(北京)有限公司 | 企业实体的识别方法、装置、计算机设备及存储介质 |
CN109492945A (zh) * | 2018-12-14 | 2019-03-19 | 深圳壹账通智能科技有限公司 | 企业风险识别监控方法、装置、设备及存储介质 |
CN110458399A (zh) * | 2019-07-05 | 2019-11-15 | 深圳壹账通智能科技有限公司 | 风险信息生成方法、装置、计算机设备和存储介质 |
CN111339319A (zh) * | 2020-03-02 | 2020-06-26 | 北京百度网讯科技有限公司 | 一种企业名的消歧方法、装置、电子设备及存储介质 |
-
2020
- 2020-07-14 CN CN202010674066.4A patent/CN111899090B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108460014A (zh) * | 2018-02-07 | 2018-08-28 | 百度在线网络技术(北京)有限公司 | 企业实体的识别方法、装置、计算机设备及存储介质 |
CN109492945A (zh) * | 2018-12-14 | 2019-03-19 | 深圳壹账通智能科技有限公司 | 企业风险识别监控方法、装置、设备及存储介质 |
CN110458399A (zh) * | 2019-07-05 | 2019-11-15 | 深圳壹账通智能科技有限公司 | 风险信息生成方法、装置、计算机设备和存储介质 |
CN111339319A (zh) * | 2020-03-02 | 2020-06-26 | 北京百度网讯科技有限公司 | 一种企业名的消歧方法、装置、电子设备及存储介质 |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112750028A (zh) * | 2020-12-30 | 2021-05-04 | 北京知因智慧科技有限公司 | 基于实体抽取的事件文本的风险预警方法和装置 |
CN112651660A (zh) * | 2021-01-07 | 2021-04-13 | 量子数聚(北京)科技有限公司 | 企业风险预警方法及装置 |
CN113342972A (zh) * | 2021-05-24 | 2021-09-03 | 支付宝(杭州)信息技术有限公司 | 舆情识别模型训练方法、系统以及舆情风险监测方法和系统 |
CN113342972B (zh) * | 2021-05-24 | 2023-02-28 | 支付宝(杭州)信息技术有限公司 | 舆情识别模型训练方法、系统以及舆情风险监测方法和系统 |
CN113326375A (zh) * | 2021-05-26 | 2021-08-31 | 北京沃东天骏信息技术有限公司 | 舆情处理的方法、装置、电子设备和存储介质 |
CN113642867A (zh) * | 2021-07-30 | 2021-11-12 | 南京星云数字技术有限公司 | 评估风险的方法及系统 |
CN114492439A (zh) * | 2021-12-27 | 2022-05-13 | 四川新网银行股份有限公司 | 一种应用深度学习提升舆情预警准确率的系统和方法 |
CN114693453A (zh) * | 2022-04-20 | 2022-07-01 | 成都随机森林科技有限公司 | 一种退市预警方法与系统 |
Also Published As
Publication number | Publication date |
---|---|
CN111899090B (zh) | 2022-07-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111899090B (zh) | 企业关联风险预警方法及系统 | |
CN108256074B (zh) | 校验处理的方法、装置、电子设备和存储介质 | |
US20220237230A1 (en) | System and method for automated file reporting | |
CN111914558A (zh) | 基于句袋注意力远程监督的课程知识关系抽取方法及系统 | |
CN110109835A (zh) | 一种基于深度神经网络的软件缺陷定位方法 | |
CN114911917B (zh) | 资产元信息搜索方法、装置、计算机设备及可读存储介质 | |
CN109994215A (zh) | 疾病自动编码系统、方法、设备和存储介质 | |
CN110222192A (zh) | 语料库建立方法及装置 | |
CN116245107B (zh) | 电力审计文本实体识别方法、装置、设备及存储介质 | |
CN112016294A (zh) | 一种基于文本的新闻重要性评估方法、装置及电子设备 | |
CN112149387A (zh) | 财务数据的可视化方法、装置、计算机设备及存储介质 | |
CN115422371A (zh) | 一种基于软件测试知识图谱的检索方法 | |
CN110287493B (zh) | 风险短语识别方法、装置、电子设备及存储介质 | |
CN115936624A (zh) | 基层数据管理方法及装置 | |
CN111160034A (zh) | 一种实体词的标注方法、装置、存储介质及设备 | |
CN110287495A (zh) | 一种电力营销专业词识别方法及系统 | |
CN112286799B (zh) | 结合句嵌入和粒子群优化算法的软件缺陷定位方法 | |
CN112395854B (zh) | 一种标准要素的一致性检验方法 | |
CN110287270B (zh) | 实体关系挖掘方法及设备 | |
CN110188340B (zh) | 一种研报文本实体名词自动识别方法 | |
CN116050404A (zh) | 一种用于电子档案智能分类鉴定的方法及装置 | |
CN114239553A (zh) | 基于人工智能的日志审核方法、装置、设备及介质 | |
CN115659961A (zh) | 用于提取文本观点的方法、装置以及计算机存储介质 | |
CN114756617A (zh) | 一种工程档案结构化数据提取方法、系统、设备和存介质 | |
CN114254607A (zh) | 一种文档审核方法及其相关设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |