CN111899090B - 企业关联风险预警方法及系统 - Google Patents

企业关联风险预警方法及系统 Download PDF

Info

Publication number
CN111899090B
CN111899090B CN202010674066.4A CN202010674066A CN111899090B CN 111899090 B CN111899090 B CN 111899090B CN 202010674066 A CN202010674066 A CN 202010674066A CN 111899090 B CN111899090 B CN 111899090B
Authority
CN
China
Prior art keywords
name
enterprise
public opinion
early warning
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010674066.4A
Other languages
English (en)
Other versions
CN111899090A (zh
Inventor
李加庆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suning Financial Technology Nanjing Co Ltd
Original Assignee
Suning Financial Technology Nanjing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suning Financial Technology Nanjing Co Ltd filed Critical Suning Financial Technology Nanjing Co Ltd
Priority to CN202010674066.4A priority Critical patent/CN111899090B/zh
Publication of CN111899090A publication Critical patent/CN111899090A/zh
Application granted granted Critical
Publication of CN111899090B publication Critical patent/CN111899090B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/03Credit; Loans; Processing thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • G06F16/322Trees
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • General Engineering & Computer Science (AREA)
  • General Business, Economics & Management (AREA)
  • Databases & Information Systems (AREA)
  • Strategic Management (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Technology Law (AREA)
  • Development Economics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种企业关联风险预警方法及系统,涉及风险预警技术领域。该方法包括:训练用于识别企业名称的识别模型;将获取的当前舆情文本输入识别模型获取其中的目标企业名称;采集多份历史舆情文本,通过识别模型识别出每份历史舆情文本中的企业名称后对历史舆情文本与其对应的企业名称做关联索引;根据各企业名称与目标企业名称的相似度值以及每个历史舆情文本的产生时间,过滤得到关联企业名称及对应的关联索引;预设风险事件类别体系,构建目标企业名称的关联风险树;基于风险事件类别体系中风险事件类型的的权重及关联企业名称对应的赋值,计算关联风险树的预警值,并在预警值超过预警阈值时对目标企业名称做预警提示。

Description

企业关联风险预警方法及系统
技术领域
本发明涉及风险预警技术领域,尤其涉及一种企业关联风险预警方法及系统。
背景技术
在金融风险控制领域,企业信贷审批人员需要对企业的风险做整体把控,传统的尽调方式无法为信贷人员提供企业可能的关联风险信息。随着互联网技术的迅速发展,网络空间产生了大量的企业舆情信息,往往这些舆情信息也暗藏了企业之间的关联关系。
通过人工方式浏览与处理舆情文本,其成本大且效率低下。另外,舆情文本通常包含与目标企业在同一事件背景下相关联的其它企业,通过人工方式从舆情内容挖掘关联企业存在风险揭示不及时、不全面等问题。
现有的舆情分析更多地从企业命名实体识别的角度去分析文本,忽视了企业之间可能存在的关联关系,也没有从企业风险的角度去提供关联风险预警手段。
发明内容
本发明的目的在于提供一种企业关联风险预警方法及系统,通过识别目标企业的关联风险构建企业关联风险树,为风险预警提供计算依据。
为了实现上述目的,本发明的第一方面提供一种企业关联风险预警方法,包括:
基于多份包括企业名称的标注文本,训练用于识别企业名称的识别模型;
将获取的当前舆情文本输入识别模型获取其中的目标企业名称;
采集多份历史舆情文本,通过识别模型识别出每份历史舆情文本中的企业名称后对历史舆情文本与其对应的企业名称做关联索引;
根据各所述企业名称与所述目标企业名称的相似度值以及每个历史舆情文本的产生时间,过滤得到关联企业名称及对应的关联索引;
预设风险事件类别体系,获取历史舆情文本在风险事件类别体系中对应的至少一个风险事件类型、以及与每个所述风险事件类型对应的所述关联企业名称及从关联索引中得到的所述产生时间,构建所述目标企业名称的关联风险树;
基于所述风险事件类别体系中风险事件类型的权重及关联企业名称对应的赋值,计算所述关联风险树的预警值,并在预警值超过预警阈值时对所述目标企业名称做预警提示。
优选地,标注文本的构建方法包括:
获取训练文本预处理后计算每个分词的词向量,并以句子为单位采用标注集L对各分词进行标注得到标注文本;
所述标注集L∈{sb,se,cb,ce,m,o},其中,sb为句子的开始标记符,se为句子的结束标记符,cb为企业实体名称的开始标记符,ce为企业实体名称的结束标记符,m为企业实体名称的中间部位标记符,o为非企业实体名称部分的标记符。
较佳地,基于多份包括企业名称的标注文本,训练用于识别企业名称的识别模型的方法包括:
对训练文本预处理得到的多个句子序列,所述标注文本中包括与所述句子序列一一对应的标注序列;
采用隐马尔可夫模型的概率密度函数对所述句子序列和所述标注序列进行计算,得到所述标注文本对应的模型参数λ;
基于多份所述训练文本及其对应的所述标注文本,调用Keras训练单元中的向前-向后迭代算法从多个模型参数λ中求解最优模型参数
Figure BDA0002583420940000021
利用所述最优模型参数
Figure BDA0002583420940000022
构建用于识别企业名称的识别模型。
进一步地,将获取的当前舆情文本输入识别模型获取其中的目标企业名称的方法包括:
将当前舆情文本预处理得到的多个句子序列,基于Viterbi函数和所述最优模型参数
Figure BDA0002583420940000031
计算每个句子序列对应的最优标注序列;
针对各最优标注序列,参照所述标注集L提取其中的目标企业名称;
汇总当前舆情文本中的全部目标企业名称,去重后得到目标企业名称集合。
优选地,采集多份历史舆情文本,通过识别模型识别出每份历史舆情文本中的企业名称后,对历史舆情文本与其对应的企业名称做关联索引的方法包括:
将采集的多份历史舆情文本分别输入识别模型,对应识别出每个历史舆情文本中的企业名称;
构建每个所述历史舆情文本与所述企业名称的映射关系,以及每个所述企业名称与所述历史舆情文本的映射关系;
根据每个所述历史舆情文本与每个所述企业名称的双向映射关系,得到所述历史舆情文本与所述企业名称的关联索引;
所述关联索引中还记录有与所述企业名称对应历史舆情文本的产生时间。
较佳地,根据各所述企业名称与所述目标企业名称的相似度值以及每个历史舆情文本的产生时间,过滤得到关联企业名称的方法包括:
S1,选取目标企业名称集合中的任一目标企业名称,将其作为当前目标企业名称准备相似度计算;
S2,分别计算关联索引中每个所述企业名称与所述当前目标企业名称对应词向量的相似度值;
S3,基于关联索引中每个所述企业名称与所述历史舆情文本的映射关系,过滤掉产生时间超过时间范围的历史舆情文本;
S4,汇总保留下的所述历史舆情文本对应的所述企业名称,将其中相似度值大于相似度阈值的所述企业名称筛选出来作为与所述目标企业名称对应的关联企业名称;
S5,遍历目标企业名称集合中的另一目标企业名称,将其作为当前目标企业名称重复执行步骤S2-S5,直至目标企业名称集合中的目标企业名称遍历完毕,输出与目标企业名称集合中各所述目标企业名称对应的关联企业名称。
较佳地,所述风险事件类别体系中至少包括一个风险事件类型,且每个风险事件类型对应有预设的赋值和预设的配置权重。
进一步地,获取历史舆情文本在风险事件类别体系中对应的至少一个风险事件类型、以及与每个所述风险事件类型对应的所述关联企业名称及从关联索引中得到的所述产生时间,构建所述目标企业名称关联风险树的方法包括:
根据历史舆情文本汇总所述目标企业名称涉及的全部风险事件类型;
基于关联索引分别统计每种风险事件类型中与所述目标企业名称对应的关联企业名称及所属历史舆情文本的产生时间,形成所述目标企业名称的关联风险树。
进一步地,基于所述风险事件类别体系中风险事件类型的权重及关联企业名称对应的赋值,计算所述关联风险树的预警值,并在预警值超过预警阈值时对所述目标企业名称做预警提示的方法包括:
设置与所述产生时间关联的重要性衰竭因子;
基于风险事件类型的权重及关联企业名称对应的赋值,计算关联风险树对应的预警值;
将关联风险树中的预警值与预设的预警阈值做比较,并在预警值超过预警阈值时对所述目标企业名称做预警提示。
与现有技术相比,本发明提供的企业关联风险预警方法具有以下有益效果:
本发明提供的企业关联风险预警方法,首先基于多份标注文本训练识别模型,然后使用识别模型对当前舆情文本进行识别得到目标企业名称,之后再从多份历史舆情文本中识别出每份历史舆情文本中的企业名称,并对历史舆情文本与其对应的企业名称做关联索引,根据相似度值和历史舆情文本产生时间的过滤后,可以得到关联企业名称及对应的关联索引,最终通过预设的风险事件类别体系构建目标企业名称的关联风险树,在对关联风险树中各风险事件类型的预警值进行计算后,对预警值超过预警阈值的目标企业名称做风险预警提示。
可见,本发明方案的有益效果如下:
1、采用机器学习训练识别模型来识别舆情文本中的企业名称,相对于传统基于关键词的企业名称识别方法,具有对词典的依赖程度低和对企业名称识别召回率高的特点;
2、通过跨舆情文本的方式挖掘与目标企业名称关联的企业,能够充分利用多份舆情文本信息获得更加全面的风险挖掘结果;
3、提出了关联风险树的概念,并据此计算目标企业名称对应的预警值,通过预警值来实现对企业的风险预警功能。
本发明的第二方面提供一种企业关联风险预警系统,应用于上述技术方案所述的企业关联风险预警方法中,所述系统包括:
模型训练单元,用于基于多份包括企业名称的标注文本,训练用于识别企业名称的识别模型;
当前舆情文本识别单元,用于将获取的当前舆情文本输入识别模型获取其中的目标企业名称;
历史舆情文本单元,用于采集多份历史舆情文本,通过识别模型识别出每份历史舆情文本中的企业名称后对历史舆情文本与其对应的企业名称做关联索引;
关联企业挖掘单元,用于根据各所述企业名称与所述目标企业名称的相似度值以及每个历史舆情文本的产生时间,过滤得到关联企业名称及对应的关联索引;
风险树构建单元,用于预设风险事件类别体系,获取历史舆情文本在风险事件类别体系中对应的至少一个风险事件类型、以及与每个所述风险事件类型对应的所述关联企业名称及从关联索引中得到的所述产生时间,构建所述目标企业名称的关联风险树;
预警提醒单元,基于所述风险事件类别体系中风险事件类型的权重及关联企业名称对应的赋值,计算所述关联风险树的预警值,并在预警值超过预警阈值时对所述目标企业名称做预警提示。
与现有技术相比,本发明提供的企业关联风险预警系统的有益效果与上述技术方案提供的企业关联风险预警方法的有益效果相同,在此不做赘述。
本发明的第三方面提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器运行时执行上述企业关联风险预警方法的步骤。
与现有技术相比,本发明提供的计算机可读存储介质的有益效果与上述技术方案提供的企业关联风险预警方法的有益效果相同,在此不做赘述。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本发明的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1为本发明实施例中企业关联风险预警方法的流程示意图;
图2为本发明实施例中识别模型的示意图;
图3为本发明实施例中基于历史舆情文本挖掘关联企业名称的流程示意图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其它实施例,均属于本发明保护的范围。
实施例一
请参阅图1,本实施例提供一种企业关联风险预警方法,包括:
基于多份包括企业名称的标注文本,训练用于识别企业名称的识别模型;将获取的当前舆情文本输入识别模型获取其中的目标企业名称;采集多份历史舆情文本,通过识别模型识别出每份历史舆情文本中的企业名称后对历史舆情文本与其对应的企业名称做关联索引;根据各所述企业名称与所述目标企业名称的相似度值以及每个历史舆情文本的产生时间,过滤得到关联企业名称及对应的关联索引;预设风险事件类别体系,获取历史舆情文本在风险事件类别体系中对应的至少一个风险事件类型、以及与每个所述风险事件类型对应的所述关联企业名称及从关联索引中得到的所述产生时间,构建所述目标企业名称的关联风险树;基于所述风险事件类别体系中风险事件类型的权重及关联企业名称对应的赋值,计算所述关联风险树的预警值,并在预警值超过预警阈值时对所述目标企业名称做预警提示。
本实施例提供的企业关联风险预警方法,首先基于多份标注文本训练识别模型,然后使用识别模型对当前舆情文本进行识别得到目标企业名称,之后再从多份历史舆情文本中识别出每份历史舆情文本中的企业名称,并对历史舆情文本与其对应的企业名称做关联索引,根据相似度值和历史舆情文本产生时间的过滤后,可以得到关联企业名称及对应的关联索引,最终通过预设的风险事件类别体系构建目标企业名称的关联风险树,在对关联风险树中各风险事件类型的预警值进行计算后,对预警值超过预警阈值的目标企业名称做风险预警提示。
可见,本实施例方案的有益效果如下:
1、采用机器学习训练识别模型来识别舆情文本中的企业名称,相对于传统基于关键词的企业名称识别方法,具有对词典的依赖程度低和对企业名称识别召回率高的特点;
2、通过跨舆情文本的方式挖掘与目标企业名称关联的企业,能够充分利用多份舆情文本信息获得更加全面的风险挖掘结果;
3、提出了关联风险树的概念,并据此计算目标企业名称对应的预警值,通过预警值来实现对企业的风险预警功能。
上述实施例中标注文本的构建方法包括:获取训练文本预处理后计算每个分词的词向量,并以句子为单位采用标注集L对各分词进行标注得到标注文本;标注集L∈{sb,se,cb,ce,m,o},其中,sb为句子的开始标记符,se为句子的结束标记符,cb为企业实体名称的开始标记符,ce为企业实体名称的结束标记符,m为企业实体名称的中间部位标记符,o为非企业实体名称部分的标记符。
具体实施时,对训练文本预处理的步骤包括分句、分词、去除停用词等,以一条训练文本样例进行说明:
在2019年“创新企业”评选中,中鑫金融服务公司荣获第三名的好成绩。
针对上述训练文本做预处理,包括:分句、分词、去除停用词,并计算每个单词的词向量,预处理的结果如下:
Figure BDA0002583420940000081
上述预处理结果中,将训练文本分为两个句子单元,针对每个句子,用符号/指示分词边界,词向量采用词袋(bog-of-words)方式计算,以单词在语料库中的整数下标替代单词,其中,S1表示第一个句子的词向量序列,S2表示第二个句子的词向量序列。
针对预处理后的训练文本进行标注,标注集为L∈{sb,se,cb,ce,m,o},以sb和se分别作为每个句子的开始标识符和结束标识符,以cb和ce分别作为企业实体名称的开始标识符和结束标识符,企业实体名称中间部分以标识符m填充,非企业实体名称部分以标识符o填充。针对上例,标注结果如下:
Figure BDA0002583420940000082
Figure BDA0002583420940000091
上面的标注文本中,每条句子以sb和se作为起始标记符和结束标记符,句子中的每个单词都对应一个标记符,其中“中鑫/金融服务/公司”这三个词分别以cb和ce做为起始标记符和结束标记符,中间以标记符m填充,这三个单词组成一个企业实体名称。将上述训练文本的预处理结果及对应的标注文本存储在语料库中,用做识别模型训练时使用。
上述实施例中,基于多份包括企业名称的标注文本,训练用于识别企业名称识别模型的方法包括:
对训练文本预处理得到的多个句子序列,标注文本中包括与句子序列一一对应的标注序列;采用隐马尔可夫模型的概率密度函数对句子序列和标注序列进行计算,得到标注文本对应的模型参数λ;基于多份训练文本及其对应的标注文本,调用Keras训练单元中的向前-向后迭代算法从多个模型参数λ中求解最优模型参数
Figure BDA0002583420940000092
利用最优模型参数
Figure BDA0002583420940000093
构建用于识别企业名称的识别模型。
具体实施时,参照上述实施例的方式,分别对每份训练文本进行预处理,得到与训练文本一一对应的标注文本,其中,每份训练文本均由多个句子序列组成,每个训练文本均由多个标注序列组成。理论上识别模型可采用多种类型的模型进行训练,本实施例对此不做限定,但为了方便理解,本实施例采用隐马尔可夫模型(简称HMM模型)对训练过程做示例性说明:
如图2所示,隐马尔可夫模型由观测层o与标注层q组成,一个HMM模型通过模型参数λ表示,HMM模型中,o=(o1,…,oT)为句子序列,序列中的元素为单词;q=(q1,…,qT)为标注序列,是针对句子序列o的标注结果,其中qt(t∈{1,…,T})的取值范围为标注集L中所有的元素。
HMM模型的概率密度函数如下:
Figure BDA0002583420940000101
当i=1时,
Figure BDA0002583420940000102
其中,A为状态转移矩阵,
Figure BDA0002583420940000103
代表从状态i-1转移到状态i的概率,b(·)为观测函数,
Figure BDA0002583420940000104
代表在状态qi观测到o的概率,π(·)为初始状态分布函数,π(q)代表初始状态为q的概率。得到的与标注文本对应的模型参数λ=(A,b)。
基于语料库中的多份标注文本进行训练,训练的目标是针对下式求解最优的参数估计
Figure BDA0002583420940000105
Figure BDA0002583420940000106
调用Keras训练单元中的向前-向后迭代算法,将标注序列按照如下表(o,q)格式输入向前-向后迭代算法完成上述训练,将训练结束后求得的最优模型参数
Figure BDA0002583420940000107
代入模型中得到识别模型。可以理解的是,HMM模型的训练过程为本领域技术人员所熟知的,本实施例不再对具体训练过程进行赘述。
Figure BDA0002583420940000108
进一步地,上述实施例中将获取的当前舆情文本输入识别模型获取其中的目标企业名称的方法包括:
将当前舆情文本预处理得到的多个句子序列,基于Viterbi函数和所述最优模型参数
Figure BDA0002583420940000109
计算每个句子序列对应的最优标注序列;针对各最优标注序列,参照所述标注集L提取其中的目标企业名称;汇总当前舆情文本中的全部目标企业名称,去重后得到目标企业名称集合。
具体实施时,首先针对当前舆情文本进行预处理,如分句、分词、去除停用词等得到的多个句子序列,并计算每个单词的词向量。然后将预处理后的句子输入识别模型,利用Viterbi算法求解给定句子序列的最优标注序列,识别出目标企业名称。针对预处理结果通过下述步骤完成对目标企业名称的提取:
令输入的句子序列为o′=(o1′,…,oT′),基于下式求解对应的最优标注序列q′=(q1′,…,qT′):
vt(j)=maxi∈Lvt-1(i)Aijbj(ot′),j∈L
Figure BDA0002583420940000111
其中t∈{1,…,T},vt(j)是Viterbi函数,以递归形式定义,其代表t时刻序列在状态j的最大概率,lT是基于Viterbi算法最优路径终结点,对于t=T-1,T-2,…,1,lt是基于最优路径回溯求得的在t时刻概率最大的标记符,Aijbj为最优模型参数
Figure BDA0002583420940000112
调用Keras的解码单元,基于上述Viterbi函数求得序列q′=(l1,…,lT),该序列为o′=(o1′,…,oT′)的最优标注序列。针对标注序列q′,提取以cb,ce作为开始标记符和结束标记符的局部序列,以该局部序列组成的词组作为目标企业名称返回,若一个句子存在多个目标企业名称,则以集合形式全部返回。
上述仅为从当前舆情文本中的一个句子序列提取目标企业名称的过程,若当前舆情文本中同时存在多个句子序列,则按照上述步骤处理当前舆情文本中的所有句子序列,并汇总全部的目标企业名称去重后得到目标企业名称集合。
以当前舆情文本“中鑫金融公司将于4月底发布年度报告”为例进行说明,其预处理结果如下:
预处理句子 词向量序列
中鑫/金融/公司/将/于/4月/底/发布/年度报告 S<sub>3</sub>=(7,8,10,15,16,17,18,19,20)
针对处理结果通过下述步骤完成目标企业名称的提取:
1、计算最优标注序列
输入句子序列为o′=(7,8,10,15,16,17,18,19,20),基于下式求解对应的最优标注q′=(q1′,…,qT′):
vt(j)=maxi∈Lvt-1(i)Aijbj(ot′)
lt=j=argmaxi∈Lvt-1(i)Aijbj(ot′)
调用Keras的解码单元,将句子序列o′=(7,8,10,15,16,17,18,19,20)及最优模型参数
Figure BDA0002583420940000121
输入Viterbi函数,计算得到最优标注序列为q′=(sb,cb,m,ce,o,o,o,o,o,o)。
2、提取企业名
针对最优标注序列q′,提取以cb,ce作为开始和结束的子序列,即“中鑫/金融/公司”,将词组组成的实体“中鑫金融公司”作为目标企业名称返回。
上述实施例中,采集多份历史舆情文本,通过识别模型识别出每份历史舆情文本中的企业名称后,对历史舆情文本与其对应的企业名称做关联索引的方法包括:
将采集的多份历史舆情文本分别输入识别模型,对应识别出每个历史舆情文本中的企业名称;构建每个历史舆情文本与企业名称的映射关系,以及每个企业名称与历史舆情文本的映射关系;根据每个历史舆情文本与每个企业名称的双向映射关系,得到历史舆情文本与企业名称的关联索引;关联索引中还记录有与企业名称对应历史舆情文本的产生时间。
具体实施时,如图3所示,采集的多份历史舆情文本Di(i∈{1,…,n}),通过识别模型识别出企业名称Cij(j∈{1,…,m}),其中i表示对应的历史舆情文本编号,j表示企业名称编号,Cij表示企业名称,从中可得到出自历史舆情文本j的信息。
针对历史舆情文本Di及企业名称Cij建立双向的映射关系,得到历史舆情文本Di与企业名称Cij的关联索引:
Figure BDA0002583420940000122
其中i∈{1,…,n},j∈{1,…,m}。
基于上述关联索,给定企业名称Cij可以迅速得到包含该企业名称Cij的历史舆情文本集合
Figure BDA0002583420940000123
给定历史舆情文本Di可以迅速得到从该历史舆情文本Di识别出的企业名集合
Figure BDA0002583420940000124
以下为一个关联索引的实例
Figure BDA0002583420940000125
企业名称索引值C 历史舆情文本索引值D
中鑫金融服务公司 D<sub>1</sub>:20190102a
常银保险股份有限公司 D<sub>2</sub>:20190203a
常银保险股份有限公司 D<sub>1</sub>:20190102b
信达股份有限公司 D<sub>3</sub>:20190123a
中鑫金融服务公司(南京分公司) D<sub>1</sub>:20190102c
上述实例中,“中鑫金融服务公司”,“常银保险股份有限公司”“信达股份有限公司”以及“中鑫金融服务公司(南京分公司)”为映射关系的企业名称索引值,D1,D2,D3表示的是历史舆情文本索引值,分别代表三份不同编号的历史舆情文本。如,D1中识别出了企业名称“中鑫金融服务公司”、“常银保险股份有限公司”和“中鑫金融服务公司(南京分公司)”,20190102为对应历史舆情文本的产生日期。
上述实施例中,根据各所述企业名称与所述目标企业名称的相似度值以及每个历史舆情文本的产生时间,过滤得到关联企业名称的方法包括:
S1,选取目标企业名称集合中的任一目标企业名称,将其作为当前目标企业名称准备相似度计算;
S2,分别计算关联索引中每个所述企业名称与所述当前目标企业名称对应词向量的相似度值;
S3,基于关联索引中每个所述企业名称与所述历史舆情文本的映射关系,过滤掉产生时间超过时间范围的历史舆情文本;
S4,汇总保留下的所述历史舆情文本对应的所述企业名称,将其中相似度值大于相似度阈值的所述企业名称筛选出来作为与所述目标企业名称对应的关联企业名称;
S5,遍历目标企业名称集合中的另一目标企业名称,将其作为当前目标企业名称重复执行步骤S2-S5,直至目标企业名称集合中的目标企业名称遍历完毕,输出与目标企业名称集合中各所述目标企业名称对应的关联企业名称。
如图3所示,本实施例采用模糊搜索方式将历史舆情文本提取的企业名称对应到关联索引
Figure BDA0002583420940000141
的企业名称索引值中。首先,基于下式计算目标企业名称与关联索引
Figure BDA0002583420940000142
中企业名称索引值的余弦相似度:
Figure BDA0002583420940000143
其中,A为目标企业名称的词向量,B为关联索引
Figure BDA0002583420940000144
中企业名称索引值的词向量,计算余弦相似度前需将两者都对齐为n维。针对目标企业名称A,筛选出余弦相似度大于阈值ε的所有企业名索引值,将筛选出的集合记为CA,筛选公式为:
Figure BDA0002583420940000145
其次,基于企业名称索引值集合CA及关联索引
Figure BDA0002583420940000146
获得所有的历史舆情文本,历史舆情文本的集合记为DA
Figure BDA0002583420940000147
根据用户设置的时间范围过滤历史舆情文本集合DA,最后,将过滤后的历史舆情文本中识别出的企业名称作为关联企业名称。
若还包括其他关联企业名称,则采用上述相同方法得到各目标企业名称对应的关联企业名称。
具体实施时,以“中鑫金融公司”为目标企业名称进行举例说明,历史舆情文本对应的关联索引
Figure BDA0002583420940000148
如上表所示,目标企业名称“中鑫金融公司”的词向量A=(7,8,10),关联索引
Figure BDA0002583420940000149
中索引值为“中鑫金融服务公司”的企业名称的词向量B=(7,8,9,10)。将A与B的维度做对齐操作得到A=(7,8,10,0),然后计算两个词向量的余弦相似度得到sim(A,B)=0.81。
采取同样的方式,计算“中鑫金融公司”与其它索引值的余弦相似度,假设结果如下:
sim(“中鑫金融公司”,“中鑫金融服务公司”)=0.81
sim(“中鑫金融公司”,“常银保险股份有限公司”)=0.24
sim(“中鑫金融公司”,“信达股份有限公司”)=0.37
sim(“中鑫金融公司”,“中鑫金融服务公司(南京分公司)”)=0.77
用户通过系统设置的阈值ε=0.6,针对目标企业名称A=“中鑫金融服务公司”,系统筛选出余弦相似度大于关联阈值0.6的所有企业名称索引值,筛选出的集合记为CA
CA={“中鑫金融服务公司”,“中鑫金融服务公司(南京分公司)”}
其次,基于企业名称索引值集合CA及关联索引
Figure BDA0002583420940000151
获得所有的历史舆情文本,文本集合记为DA
DA={D1,D2}
假设用户设置的筛选时间范围为2019年1月,根据该时间范围以及历史舆情文本的时间戳属性过滤舆情文档集合DA,得到DA={D1}。最后,将过滤后的历史舆情文本中识别出的企业名称作为关联企业名称返回。在上例中,计算得到集合{D1}对应的历史舆情文本包含的关联企业名称集合如下:
{常银保险股份有限公司,中金金融股份有限公司,中鑫金融服务公司(南京分公司)。
示例性地,上述实施例中的风险事件类别体系中至少包括一个风险事件类型,且每个风险事件类型对应有预设的配置权重,关联企业还需预设与每种风险事件类型对应的赋值Z,其中,Z代表的是关联企业名称的重要性,W代表的是风险事件类型的重要性。格式为{关联风险事件:权重}。例如:
{
关联风险事件R1:W1
关联风险事件R2:W2
关联风险事件R3:W3
关联风险事件R4:W4
……
}
例如关联风险事件为交易合作、经营亏损、上市退市、投资融资、收购重组等。关联风险事件可以从舆情文本中语义识别,一般来说一份舆情文本对应一种类型关联风险事件,当然也会存在一份舆情文本对应多种类型关联风险事件的情况。
上述实施例中,获取历史舆情文本在风险事件类别体系中对应的至少一个风险事件类型、以及与每个风险事件类型对应的关联企业名称及从关联索引中得到的产生时间,构建目标企业名称关联风险树的方法包括:
根据历史舆情文本汇总目标企业名称涉及的全部风险事件类型;基于关联索引分别统计每种风险事件类型中与目标企业名称对应的关联企业名称及所属历史舆情文本的产生时间,形成目标企业名称的关联风险树。关联风险树的结构如下:
{目标企业名称A:
关联风险事件R1:[(关联企业AR11,产生时间AR11),(关联企业AR12,产生时间AR12),…];
关联风险事件R2:[(关联企业AR21,产生时间AR21),…];
……}。
上述实施例中,基于风险事件类别体系中风险事件类型的权重及关联企业名称对应的赋值,计算关联风险树的预警值,并在预警值超过预警阈值时对目标企业名称做预警提示的方法包括:
设置与产生时间关联的重要性衰竭因子;基于风险事件类型的权重及关联企业名称对应的赋值,计算关联风险树对应的预警值;将关联风险树中的预警值与预设的预警阈值做比较,并在预警值超过预警阈值时对所述目标企业名称做预警提示。
根据风险事件类型与关联企业重要性的时间加权来计算目标企业在不同风险事件类型中的预警值,根据关联时间设置重要性衰竭因子T(t)=1/(1+log(t)),t为距离计算时关联风险事件发生的时间跨度。关联企业需预设每种风险事件类型对应的赋值Z,以方便计算与风险事件类型对应的预警值,Z≥1。目标企业名称A的预警值计算公式为:
Figure BDA0002583420940000171
其中,i表示风险事件类型的编号,Ni表示第i个风险事件类型,N表示风险事件类型的总数,j表示关联企业名称的编号,Zj表示第j个关联企业名称对应的赋值。是否对目标企业名称A进行预警,由预设的预警阈值H来控制,当AlarmScoreA≥H时,对目标企业名称A做风险预警提示,同时输出相应的风险事件类型。
为便于理解,假设预设的风险事件类别体系如下:
{
交易合作W1:10%
经营亏损W2:40%
上市退市W3:10%
投资融资W4:25%
收购重组W5:15%
}。
{假设目标企业名称A的关联风险树如下,其对应的风险事件类型及权重为:
经营亏损[(关联企业Y,5天)]
投资融资[(关联企业M,10天),(关联企业N,30天)]
}。
根据预设的关联企业名称阈值ZY=2、ZM=1、ZN=1、H=0.35;
Figure BDA0002583420940000172
根据预设的预警阈值H,AlarmScoreA≥H,自动对目标企业名称A进行风险预警。
实施例二
本实施例提供一种企业关联风险预警系统,包括:
模型训练单元,用于基于多份包括企业名称的标注文本,训练用于识别企业名称的识别模型;
当前舆情文本识别单元,用于将获取的当前舆情文本输入识别模型获取其中的目标企业名称;
历史舆情文本单元,用于采集多份历史舆情文本,通过识别模型识别出每份历史舆情文本中的企业名称后对历史舆情文本与其对应的企业名称做关联索引;
关联企业挖掘单元,用于根据各所述企业名称与所述目标企业名称的相似度值以及每个历史舆情文本的产生时间,过滤得到关联企业名称及对应的关联索引;
风险树构建单元,用于预设风险事件类别体系,获取历史舆情文本在风险事件类别体系中对应的至少一个风险事件类型、以及与每个所述风险事件类型对应的所述关联企业名称及从关联索引中得到的所述产生时间,构建所述目标企业名称的关联风险树;
预警提醒单元,基于所述风险事件类别体系中风险事件类型的权重及关联企业名称对应的赋值,计算所述关联风险树的预警值,并在预警值超过预警阈值时对所述目标企业名称做预警提示。
与现有技术相比,本发明实施例提供的企业关联风险预警系统的有益效果与上述实施例一提供的企业关联风险预警方法的有益效果相同,在此不做赘述。
实施例三
本实施例提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器运行时执行上述企业关联风险预警方法的步骤。
与现有技术相比,本实施例提供的计算机可读存储介质的有益效果与上述技术方案提供的企业关联风险预警方法的有益效果相同,在此不做赘述。
本领域普通技术人员可以理解,实现上述发明方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,上述程序可以存储于计算机可读取存储介质中,该程序在执行时,包括上述实施例方法的各步骤,而的存储介质可以是:ROM/RAM、磁碟、光盘、存储卡等。
以上,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (10)

1.一种企业关联风险预警方法,其特征在于,包括:
基于多份包括企业名称的标注文本,训练用于识别企业名称的识别模型;
将获取的当前舆情文本输入识别模型获取其中的目标企业名称;
采集多份历史舆情文本,通过识别模型识别出每份历史舆情文本中的企业名称后对历史舆情文本与其对应的企业名称做关联索引;
根据各所述企业名称与所述目标企业名称的相似度值以及每个历史舆情文本的产生时间,过滤得到关联企业名称及对应的关联索引;
预设风险事件类别体系,获取历史舆情文本在风险事件类别体系中对应的至少一个风险事件类型、以及与每个所述风险事件类型对应的所述关联企业名称及从关联索引中得到的所述产生时间,构建所述目标企业名称的关联风险树;
基于所述风险事件类别体系中风险事件类型的权重及关联企业名称对应的赋值,计算所述关联风险树的预警值,并在预警值超过预警阈值时对所述目标企业名称做预警提示。
2.根据权利要求1所述的方法,其特征在于,标注文本的构建方法包括:
获取训练文本预处理后计算每个分词的词向量,并以句子为单位采用标注集L对各分词进行标注得到标注文本;
所述标注集L∈{sb,se,cb,ce,m,o},其中,sb为句子的开始标记符,se为句子的结束标记符,cb为企业实体名称的开始标记符,ce为企业实体名称的结束标记符,m为企业实体名称的中间部位标记符,o为非企业实体名称部分的标记符。
3.根据权利要求2所述的方法,其特征在于,基于多份包括企业名称的标注文本,训练用于识别企业名称的识别模型的方法包括:
对训练文本预处理得到的多个句子序列,所述标注文本中包括与所述句子序列一一对应的标注序列;
采用隐马尔可夫模型的概率密度函数对所述句子序列和所述标注序列进行计算,得到所述标注文本对应的模型参数λ;
基于多份所述训练文本及其对应的所述标注文本,调用Keras训练单元中的向前-向后迭代算法从多个模型参数λ中求解最优模型参数
Figure FDA0002583420930000021
利用所述最优模型参数
Figure FDA0002583420930000022
构建用于识别企业名称的识别模型。
4.根据权利要求3所述的方法,其特征在于,将获取的当前舆情文本输入识别模型获取其中的目标企业名称的方法包括:
将当前舆情文本预处理得到的多个句子序列,基于Viterbi函数和所述最优模型参数
Figure FDA0002583420930000023
计算每个句子序列对应的最优标注序列;
针对各最优标注序列,参照所述标注集L提取其中的目标企业名称;
汇总当前舆情文本中的全部目标企业名称,去重后得到目标企业名称集合。
5.根据权利要求1所述的方法,其特征在于,采集多份历史舆情文本,通过识别模型识别出每份历史舆情文本中的企业名称后,对历史舆情文本与其对应的企业名称做关联索引的方法包括:
将采集的多份历史舆情文本分别输入识别模型,对应识别出每个历史舆情文本中的企业名称;
构建每个所述历史舆情文本与所述企业名称的映射关系,以及每个所述企业名称与所述历史舆情文本的映射关系;
根据每个所述历史舆情文本与每个所述企业名称的双向映射关系,得到所述历史舆情文本与所述企业名称的关联索引;
所述关联索引中还记录有与所述企业名称对应历史舆情文本的产生时间。
6.根据权利要求5所述的方法,其特征在于,根据各所述企业名称与所述目标企业名称的相似度值以及每个历史舆情文本的产生时间,过滤得到关联企业名称的方法包括:
S1,选取目标企业名称集合中的任一目标企业名称,将其作为当前目标企业名称准备相似度计算;
S2,分别计算关联索引中每个所述企业名称与所述当前目标企业名称对应词向量的相似度值;
S3,基于关联索引中每个所述企业名称与所述历史舆情文本的映射关系,过滤掉产生时间超过时间范围的历史舆情文本;
S4,汇总保留下的所述历史舆情文本对应的所述企业名称,将其中相似度值大于相似度阈值的所述企业名称筛选出来作为与所述目标企业名称对应的关联企业名称;
S5,遍历目标企业名称集合中的另一目标企业名称,将其作为当前目标企业名称重复执行步骤S2-S5,直至目标企业名称集合中的目标企业名称遍历完毕,输出与目标企业名称集合中各所述目标企业名称对应的关联企业名称。
7.根据权利要求6所述的方法,其特征在于,所述风险事件类别体系中至少包括一个风险事件类型,且每个风险事件类型对应有预设的赋值和预设的配置权重。
8.根据权利要求7所述的方法,其特征在于,获取历史舆情文本在风险事件类别体系中对应的至少一个风险事件类型、以及与每个所述风险事件类型对应的所述关联企业名称及从关联索引中得到的所述产生时间,构建所述目标企业名称关联风险树的方法包括:
根据历史舆情文本汇总所述目标企业名称涉及的全部风险事件类型;
基于关联索引分别统计每种风险事件类型中与所述目标企业名称对应的关联企业名称及所属历史舆情文本的产生时间,形成所述目标企业名称的关联风险树。
9.根据权利要求8所述的方法,其特征在于,基于所述风险事件类别体系中风险事件类型的权重及关联企业名称对应的赋值,计算所述关联风险树的预警值,并在预警值超过预警阈值时对所述目标企业名称做预警提示的方法包括:
设置与所述产生时间关联的重要性衰竭因子;
基于风险事件类型的权重及关联企业名称对应的赋值,计算关联风险树对应的预警值;
将关联风险树中的预警值与预设的预警阈值做比较,并在预警值超过预警阈值时对所述目标企业名称做预警提示。
10.一种企业关联风险预警系统,其特征在于,包括:
模型训练单元,用于基于多份包括企业名称的标注文本,训练用于识别企业名称的识别模型;
当前舆情文本识别单元,用于将获取的当前舆情文本输入识别模型获取其中的目标企业名称;
历史舆情文本单元,用于采集多份历史舆情文本,通过识别模型识别出每份历史舆情文本中的企业名称后对历史舆情文本与其对应的企业名称做关联索引;
关联企业挖掘单元,用于根据各所述企业名称与所述目标企业名称的相似度值以及每个历史舆情文本的产生时间,过滤得到关联企业名称及对应的关联索引;
风险树构建单元,用于预设风险事件类别体系,获取历史舆情文本在风险事件类别体系中对应的至少一个风险事件类型、以及与每个所述风险事件类型对应的所述关联企业名称及从关联索引中得到的所述产生时间,构建所述目标企业名称的关联风险树;
预警提醒单元,基于所述风险事件类别体系中风险事件类型的权重及关联企业名称对应的赋值,计算所述关联风险树的预警值,并在预警值超过预警阈值时对所述目标企业名称做预警提示。
CN202010674066.4A 2020-07-14 2020-07-14 企业关联风险预警方法及系统 Active CN111899090B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010674066.4A CN111899090B (zh) 2020-07-14 2020-07-14 企业关联风险预警方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010674066.4A CN111899090B (zh) 2020-07-14 2020-07-14 企业关联风险预警方法及系统

Publications (2)

Publication Number Publication Date
CN111899090A CN111899090A (zh) 2020-11-06
CN111899090B true CN111899090B (zh) 2022-07-26

Family

ID=73192623

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010674066.4A Active CN111899090B (zh) 2020-07-14 2020-07-14 企业关联风险预警方法及系统

Country Status (1)

Country Link
CN (1) CN111899090B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112750028A (zh) * 2020-12-30 2021-05-04 北京知因智慧科技有限公司 基于实体抽取的事件文本的风险预警方法和装置
CN113342972B (zh) * 2021-05-24 2023-02-28 支付宝(杭州)信息技术有限公司 舆情识别模型训练方法、系统以及舆情风险监测方法和系统
CN113642867A (zh) * 2021-07-30 2021-11-12 南京星云数字技术有限公司 评估风险的方法及系统
CN114492439A (zh) * 2021-12-27 2022-05-13 四川新网银行股份有限公司 一种应用深度学习提升舆情预警准确率的系统和方法
CN114693453A (zh) * 2022-04-20 2022-07-01 成都随机森林科技有限公司 一种退市预警方法与系统

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108460014B (zh) * 2018-02-07 2022-02-25 百度在线网络技术(北京)有限公司 企业实体的识别方法、装置、计算机设备及存储介质
CN109492945A (zh) * 2018-12-14 2019-03-19 深圳壹账通智能科技有限公司 企业风险识别监控方法、装置、设备及存储介质
CN110458399A (zh) * 2019-07-05 2019-11-15 深圳壹账通智能科技有限公司 风险信息生成方法、装置、计算机设备和存储介质
CN111339319B (zh) * 2020-03-02 2023-08-04 北京百度网讯科技有限公司 一种企业名的消歧方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN111899090A (zh) 2020-11-06

Similar Documents

Publication Publication Date Title
CN111899090B (zh) 企业关联风险预警方法及系统
CN108520343B (zh) 风险模型训练方法、风险识别方法、装置、设备及介质
US20220237230A1 (en) System and method for automated file reporting
CN111767716B (zh) 企业多级行业信息的确定方法、装置及计算机设备
CN114911917B (zh) 资产元信息搜索方法、装置、计算机设备及可读存储介质
CN110222192A (zh) 语料库建立方法及装置
CN112149387A (zh) 财务数据的可视化方法、装置、计算机设备及存储介质
CN116245107B (zh) 电力审计文本实体识别方法、装置、设备及存储介质
CN106776695A (zh) 实现文书档案价值自动鉴定的方法
CN111506595B (zh) 一种数据查询方法、系统及相关设备
CN112181490A (zh) 功能点评估法中功能类别的识别方法、装置、设备及介质
CN110287493B (zh) 风险短语识别方法、装置、电子设备及存储介质
CN111160034A (zh) 一种实体词的标注方法、装置、存储介质及设备
CN110287495A (zh) 一种电力营销专业词识别方法及系统
CN112286799B (zh) 结合句嵌入和粒子群优化算法的软件缺陷定位方法
CN110287270B (zh) 实体关系挖掘方法及设备
CN109710574B (zh) 一种从文献中提取关键信息的方法和装置
CN111104422A (zh) 一种数据推荐模型的训练方法、装置、设备及存储介质
CN116050404A (zh) 一种用于电子档案智能分类鉴定的方法及装置
CN115659961A (zh) 用于提取文本观点的方法、装置以及计算机存储介质
CN112395854B (zh) 一种标准要素的一致性检验方法
CN114756617A (zh) 一种工程档案结构化数据提取方法、系统、设备和存介质
CN111797612A (zh) 一种自动化数据功能项抽取的方法
CN108763208A (zh) 话题信息获取方法、装置、服务器和计算机可读存储介质
CN114722163B (zh) 数据查询方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant