CN117077668A - 风险画像展示方法、装置、计算机设备和可读存储介质 - Google Patents

风险画像展示方法、装置、计算机设备和可读存储介质 Download PDF

Info

Publication number
CN117077668A
CN117077668A CN202311047379.7A CN202311047379A CN117077668A CN 117077668 A CN117077668 A CN 117077668A CN 202311047379 A CN202311047379 A CN 202311047379A CN 117077668 A CN117077668 A CN 117077668A
Authority
CN
China
Prior art keywords
risk
public opinion
keyword
keywords
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311047379.7A
Other languages
English (en)
Inventor
王汉华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Industrial and Commercial Bank of China Ltd ICBC
ICBC Technology Co Ltd
Original Assignee
Industrial and Commercial Bank of China Ltd ICBC
ICBC Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Industrial and Commercial Bank of China Ltd ICBC, ICBC Technology Co Ltd filed Critical Industrial and Commercial Bank of China Ltd ICBC
Priority to CN202311047379.7A priority Critical patent/CN117077668A/zh
Publication of CN117077668A publication Critical patent/CN117077668A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/09Supervised learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0635Risk analysis of enterprise or organisation activities

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Economics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Strategic Management (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Quality & Reliability (AREA)
  • Game Theory and Decision Science (AREA)
  • General Business, Economics & Management (AREA)
  • Tourism & Hospitality (AREA)
  • Operations Research (AREA)
  • Development Economics (AREA)
  • Marketing (AREA)
  • Educational Administration (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及一种风险画像展示的方法、装置、计算机设备、可读存储介质和计算机程序产品。所诉方法包括:获取待进行画像的对象的风险文本信息;通过预先构建的风险关键词词典表和无效词表,对风险文本信息进行分词处理,得到对象的多个风险关键词;根据对象的对象基础信息,从预先获取的舆情信息中筛选出与对象匹配的目标舆情信息;将对象的各个风险关键词与目标舆情信息进行匹配,得到对象的舆情关键词关系表;基于此关系表,统计各个风险关键词的词频,基于词频,以词云形式展示对象的各个风险关键词。采用本方法能够提高风险关键词提取效果,直观展示信息,提高了词云展示效果。

Description

风险画像展示方法、装置、计算机设备和可读存储介质
技术领域
本申请涉及大数据技术领域,特别是涉及一种风险画像展示方法、装置、计算机设备、可读存储介质和计算机程序产品。
背景技术
随着大数据技术的发展,出现了监督学习算法,这个技术仅仅简单基于词频来提取风险关键词,提取出来的风险关键词可能不具备负面的风险语义,因此此方法获取的风险关键词不够准确;现有的关键词展示方法,只是简单地罗列提取出的关键词,并没有任何的实际意义。
传统技术中,简单地将上述方法叠加,从而进行用户的风险画像。
然而,目前的简单叠加的传统方法,存在风险关键词提取效果差且展示效果不佳的问题。
发明内容
基于此,有必要针对上述风险关键词提取效果差且展示效果不佳的技术问题,提供一种风险画像展示方法、装置、计算机设备、可读存储介质和计算机程序产品。
第一方面,本申请提供了一种风险画像展示方法,其特征在于,应用于风险画像中的服务器,所述方法包括:
获取待进行画像的对象的风险文本信息;
通过预先构建的风险关键词词典表和无效词表,对风险文本信息进行分词处理,得到对象的多个风险关键词;
根据对象的对象基础信息,从预先获取的舆情信息中筛选出与对象匹配的目标舆情信息;
将对象的各个风险关键词与目标舆情信息进行匹配,得到对象的舆情关键词关系表;
基于舆情关键词关系表,统计各个风险关键词的词频,基于词频,以词云形式展示对象的各个风险关键词。
在其中一个实施例中,风险关键词词典表通过下述方式构建得到:
获取第一样本数据集;第一样本数据集包括第一样本对象的样本风险文本信息,样本风险信息中的风险关键词具有对应的标注;
以第一样本数据集中的样本风险文本信息为输入变量,以标注的风险关键词为监督信息,对待训练的关键词提取模型进行训练,得到训练好的关键词提取模型;
通过训练好的关键词提取模型,对第二样本数据集中的样本风险文本信息进行风险关键词提取处理,得到多个样本风险关键词;
基于多个样本风险关键词,得到风险关键词词典表。
在其中一个实施例中,获取第一样本数据集,包括:
获取第一样本对象的初始风险文本信息;
对初始风险文本信息进行预处理,得到预处理后的风险文本信息;预处理包括去除空格、修改无法表达风险预警的句子以及补充风险词句的同义词中的至少一种;
对预处理后的风险文本信息中的风险关键词进行标签标注处理,得到标注后的风险文本信息;标注后的风险文本信息中的风险关键词标注有风险类型;
基于标注后的风险文本信息,得到第一样本数据集。
在其中一个实施例中,根据对象的对象基础信息,从预先获取的舆情信息中筛选出与对象匹配的目标舆情信息,包括:
确定对象的风险文本信息的数量标识;
当数量标识为全量时,从预先获取的舆情信息中筛选出第一预设时间段内,与对象匹配的目标舆情信息;
当数量标识为增量时,从预先获取的舆情信息中筛选出第二预设时间段内,与对象匹配的目标舆情信息;第一预设时间段对应的时长大于第二预设时间段。
在其中一个实施例中,将对象的各个风险关键词与目标舆情信息进行匹配,得到对象的舆情关键词关系表,包括:
获取目标舆情信息对应的舆情编码;
基于舆情编码,以及舆情编码与舆情对象之间的映射关系,得到对象的舆情关键词关系表。
在其中一个实施例中,基于词频,以词云形式展示对象的各个风险关键词,包括:
获取对象的风险关键词的总数目;
当风险关键词的总数目大于阈值时,基于词频,分页以词云形式展示对象的风险关键词。
在一个实施例中,基于词频,分页以词云形式展示对象的风险关键词,包括:
确定每页展示的风险关键词数目;
按照词频从高到低的顺序和每页展示的风险关键词数目,确定出每页待展示的目标风险关键词;
按照词频与字体大小成正相关的关系,以及,以颜色区分不同风险关键词的词云形式,在每页上展示对应的目标风险关键词。
在其中一个实施例中,其特征在于,风险关键词关联有对应的舆情信息,方法还包括:
响应于针对词云形式下对象的任一风险关键词的触发操作,展示任一风险关键词关联的舆情信息列表;
响应于针对词云形式下对象的任一风险关键词的悬停操作,显示任一风险关键词对应的词频。
第二方面,本申请还提供了一种风险画像展示装置,其特征在于,应用于风险画像中的服务器,装置包括:
获取模块,获取待进行画像的对象的风险文本信息;
提取模块,通过预先构建的风险关键词词典表和无效词表,对风险文本信息进行分词处理,得到对象的多个风险关键词;
筛选模块,根据对象的对象基础信息,从预先获取的舆情信息中筛选出与对象匹配的目标舆情信息;
匹配模块,将对象的各个风险关键词与目标舆情信息进行匹配,得到对象的舆情关键词关系表;
展示模块,基于舆情关键词关系表,统计各个风险关键词的词频,基于词频,以词云形式展示对象的各个风险关键词。
第三方面,本申请还提供了一种计算机设备。计算机设备包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时实现以下步骤:
获取待进行画像的对象的风险文本信息;
通过预先构建的风险关键词词典表和无效词表,对风险文本信息进行分词处理,得到对象的多个风险关键词;
根据对象的对象基础信息,从预先获取的舆情信息中筛选出与对象匹配的目标舆情信息;
将对象的各个风险关键词与目标舆情信息进行匹配,得到对象的舆情关键词关系表;
基于舆情关键词关系表,统计各个风险关键词的词频,基于词频,以词云形式展示对象的各个风险关键词。
第四方面,本申请还提供了一种计算机可读存储介质。计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
获取待进行画像的对象的风险文本信息;
通过预先构建的风险关键词词典表和无效词表,对风险文本信息进行分词处理,得到对象的多个风险关键词;
根据对象的对象基础信息,从预先获取的舆情信息中筛选出与对象匹配的目标舆情信息;
将对象的各个风险关键词与目标舆情信息进行匹配,得到对象的舆情关键词关系表;
基于舆情关键词关系表,统计各个风险关键词的词频,基于词频,以词云形式展示对象的各个风险关键词。
第五方面,本申请还提供了一种计算机程序产品。计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:
获取待进行画像的对象的风险文本信息;
通过预先构建的风险关键词词典表和无效词表,对风险文本信息进行分词处理,得到对象的多个风险关键词;
根据对象的对象基础信息,从预先获取的舆情信息中筛选出与对象匹配的目标舆情信息;
将对象的各个风险关键词与目标舆情信息进行匹配,得到对象的舆情关键词关系表;
基于舆情关键词关系表,统计各个风险关键词的词频,基于词频,以词云形式展示对象的各个风险关键词。
上述风险画像展示方法、装置、计算机设备、可读存储介质和计算机程序产品,获取待进行画像的对象的风险文本信息;通过预先构建的风险关键词词典表和无效词表,对风险文本信息进行分词处理,得到对象的多个风险关键词;根据对象的对象基础信息,从预先获取的舆情信息中筛选出与对象匹配的目标舆情信息;将对象的各个风险关键词与目标舆情信息进行匹配,得到对象的舆情关键词关系表;基于舆情关键词关系表,统计各个风险关键词的词频,基于词频,以词云形式展示对象的各个风险关键词。利用预先构建的风险关键词词典表和无效词表提取风险关键词,提高了风险关键词的提取效果,将舆情信息,风险关键词,对象基础信息三者联系在一起,并基于词频以词云形式展示风险关键词和对应的舆情信息,用户可以更加直观的获取到自身的风险信息和相关负面新闻舆情,具有更好的展示效果。
附图说明
图1为一个实施例中一种风险画像展示方法的应用环境图;
图2为一个实施例中一种风险画像展示方法的流程示意图;
图3为一个实施例中构建风险关键词词表的流程示意图;
图4为另一个实施例中词云展示的流程示意图;
图5为一个实施例中的一种风险画像展示方法的详细流程示意图;
图6为另一个实施例中一种风险画像展示装置的结构框图;
图7为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请实施例提供风险画像展示方法,可以应用于如图1所示的应用环境中。其中,终端101通过网络与服务器102进行通信。数据存储系统可以存储服务器102需要处理的数据。数据存储系统可以集成在服务器102上,也可以放在云上或其他网络服务器上。服务器通过终端获取对象的风险文本信息,并通过存储在数据存储系统上的分词器,进行分词处理后得到对象的多个风险关键词,联系对象的基础信息和舆情信息生成舆情关键词关系表,基于词频以词云形式展示对象的风险关键词。其中,终端101可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备,物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器102可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一个实施例中,如图2所示,提供了一种风险画像展示方法,以该方法应用于图1中的服务器为例进行说明,包括以下步骤:
步骤S201,获取待进行画像的对象的风险文本信息。
其中,风险文本信息可以理解为对象舆情中出现严重违法、发生重大债务、发生兼并、欠税、行政违法、环保处罚、诚信黑名单、财务造假等负面敏感词的词句。
示例性地,服务器通过与终端交互,获取对象的风险文本信息,并将获取到的风险文本信息存储到数据存储系统以便后续处理,提前收集用户信息减少了后续重新获取的时间。
步骤S202,通过预先构建的风险关键词词典表和无效词表,对风险文本信息进行分词处理,得到对象的多个风险关键词。
其中,风险关键词可以理解为通常用于风险管理、风险评估和风险预警等领域,用于识别、描述和分析潜在的风险,无效词可以理解在句子中不起实际意义的词语,比如你、我、他、的等此类代词或助词。
可选地,服务器将获取到的风险文本信息经过预设的风险关键词词典表和无效词表,经过分词之后,可以得到对象的多个风险关键词。预设的风险关键词表和无效词表统一了风险关键词所需的实体结构,提高了分词的效率以及极大减少了提取关键词耗费的时间。
步骤S203,根据对象的对象基础信息,从预先获取的舆情信息中筛选出与对象匹配的目标舆情信息。
其中,对象的对象基础信息可以理解为描述和标识对象的一些基本属性,比如编号、类型、名称、描述、来源、时间、地点、状态、属性和关联信息。
示例地,服务器根据数据存储系统存储的基础信息和舆情信息,筛选舆情信息,匹配与对象对应的目标舆情信息。将对象与相关的舆情信息联系起来,增加了风险关键词的参考性,与对象相关的舆情信息能帮助用户进行合理的风险评估和决策,减少不必要的试错成本。
步骤S204,将对象的各个风险关键词与目标舆情信息进行匹配,得到对象的舆情关键词关系表。
进一步地,服务器将对象的风险关键词经过基础信息与目标舆情信息匹配起来,得到一个对象、风险关键词、目标舆情信息三者对应的关系表,风险关键词浓缩了风险的类型,舆情信息则表示出该风险不同的表现形式,抽象与具象的结合表达能帮助对象更好理解面临的风险。
步骤S205,基于舆情关键词关系表,统计各个风险关键词的词频,基于词频,以词云形式展示对象的各个风险关键词。
其中,词云可以理解为一种可视化工具,用于展示文本数据中出现频率较高的词语。
示例地,服务器根据舆情关键词关系表,统计出各个风险关键词的词频,并按照词频以可视化的形式展示对象的各个风险关键词。通过词云的可视化形式来展示对象的风险关键词和舆情信息,基于词频直观展示了风险关键词,有效提高了信息摄取的速度和质量。
本申请的实施例中通过预先构建的风险关键词词典表和无效词表,服务器对风险文本信息进行分词处理,得到对象的多个风险关键词;根据对象的对象基础信息,从预先获取的舆情信息中筛选出与对象匹配的目标舆情信息;将对象的各个风险关键词与目标舆情信息进行匹配,得到对象的舆情关键词关系表;基于舆情关键词关系表,统计各个风险关键词的词频,基于词频,以词云形式展示对象的各个风险关键词。服务器利用预先构建的风险关键词词典表和无效词表提取风险关键词,提高了风险关键词的提取效果,将舆情信息,风险关键词,对象基础信息三者联系在一起,并基于词频以词云形式展示风险关键词和对应的舆情信息,用户可以更加直观的获取到自身的风险信息和相关负面新闻舆情,具有更好的展示效果。
在一个实施例中,如图3所示,风险关键词词典表通过下述方式构建得到,具体步骤如下:
步骤S301,获取第一样本数据集,第一样本数据集包括第一样本对象的样本风险文本信息,样本风险信息中的风险关键词具有对应的标注;
其中,对应的标注可以理解为BIO(begin,inside,outside)格式标签和对应的风险类型。
示例地,获取第一样本数据集中的样本风险文本信息和标注的风险关键词,可以为后续输入训练模型提供可靠的数据支持,有利提高训练模型的可靠性。
步骤S302,以第一样本数据集中的样本风险文本信息为输入变量,以标注的风险关键词为监督信息,对待训练的关键词提取模型进行训练,得到训练好的关键词提取模型;
其中,监督信息可以理解为在机器学习中使用带有标签或类别的训练数据,比如样本风险信息中的风险关键词具有对应的标注。
可选地,服务器将对象的其他数据集输入训练好的模型,提取出对象的多个风险关键词,提高了风险关键词的提取效率和关键词的质量。
步骤S303,通过训练好的关键词提取模型,对第二样本数据集中的样本风险文本信息进行风险关键词提取处理,得到多个样本风险关键词;
其中,模型可以理解为用于命名体识别的序列标注模型,比如BERT-BILSTM-CRF模型(Bidirectional Encoder Representations from Transformers,基于编码器-解码器的预测语言训练模型,Bidirectional LSTM,双向长短期记忆网络,Conditional RandomField,条件随机场)。
示例地,配置训练数据的路径、模型配置文件、单元数、训练输出文件路径、迭代次数、批量数据规模、模型输出文件等主要参数,并将第一数据集按照8:2划分为训练集和测试集,在未标注的文本信息中重新标注50条作为验证集,在网络平台(tensorflow)上使用CRFBERT-BILSTM-CRF模型进行模型训练,并针对训练集数据训练所有的时隙使用估值函数评估测试集的数值;调整学习速率、批量数据规模、迭代次数等参数,使用优化器重复模型训练,进而获得测试集最佳数值。从模型输出文件中导出文件,使用部署模型(docker)识别原始语句,提取出风险关键词存入文本文件中。进而实现风险关键词提取自动化。有助于提高系统的安全性和应对潜在风险的能力。
步骤S304,基于多个样本风险关键词,得到风险关键词词典表。
可选地,在大数据平台创建表(Hive表),将上个步骤中的文本文件导入风险关键词词典表,进而提高风险关键词提取的效率和准确性,并且系统是可更新的,有助于保证风险关键词的有效性。
本申请的实施例中服务器输入经过预处理和标注标签之的风险文本信息到模型内,首先训练出来一个相对最优的关键词提取模型,进而将其他的风险文本信息输入到该模型中,输出样本对象的多个风险关键词,由该风险关键词组成风险关键词词典,经过初步处理可减少后续提取关键词的时间,利用训练好的模型进行关键词提取有利于提高提取关键词的效率和质量。
在一个实施例中,步骤S301中,获取第一样本数据集,具体步骤如下:获取第一样本对象的初始风险文本信息;对初始风险文本信息进行预处理,得到预处理后的风险文本信息;预处理包括去除空格、修改无法表达风险预警的句子以及补充风险词句的同义词中的至少一种;对预处理后的风险文本信息中的风险关键词进行标签标注处理,得到标注后的风险文本信息;标注后的风险文本信息中的风险关键词标注有风险类型;基于标注后的风险文本信息,得到第一样本数据集
其中,修改无法表达风险预警的句子可以理解初始句子中原本不含负面敏感词,需要改成带有负面敏感词的语句,补充风险语句可以理解为在原始风险语句后面补充带有负面敏感词的语句。
示例地,在对风险关键词进行标注时,会将其加载至可视化标注界面,将已标注的风险关键词,每个字以字的文本、标签值、当前下标格式存入标签列表;遍历当前关键词句每个字,对风险类型关键词的开端赋B(begin),中间内容赋I(inside),其他词汇赋O(outside)。对多次标注产生的带风险类型标签的关键词数据集,取合集然后评审,形成修订后的风险关键词语料库基线,这样处理之后可获得一个简洁明了的数据集,为后续输入模型进行训练减轻了工作量。
在一个实施例中,步骤S203中,根据对象的对象基础信息,从预先获取的舆情信息中筛选出与对象匹配的目标舆情信息,包括:确定对象的风险文本信息的数量标识;当数量标识为全量时,从预先获取的舆情信息中筛选出第一预设时间段内,与对象匹配的目标舆情信息;当数量标识为增量时,从预先获取的舆情信息中筛选出第二预设时间段内,与对象匹配的目标舆情信息;第一预设时间段对应的时长大于第二预设时间段。
其中,数量标识可以理解为批量参数,服务器自动获取,特别是仅初次获取的批量参数为全量,其他时候获取的批量参数均为增量。第一预设时间段可以理解为最近一年,第二预设时间段可以理解为最近一周。
可选地,服务器确定相应的数量标识,基于不同数量标识筛选不同时间范围内的舆情信息,筛选出合理时间范围内的舆情信息,如果是全量参数则筛选近一年的舆情数据,如果是增量参数则筛选近一周的舆情数据,增强了目标舆情信息的时效性,更符合当下社会形势从而更具有参考的价值。
在另一个实施例中,将对象的风险关键词与目标舆情信息进行匹配,得到对象的舆情关键词关系表,包括:获取目标舆情信息对应的舆情编码;基于舆情编码,以及舆情编码与舆情对象之间的映射关系,得到对象的舆情关键词关系表。
其中,舆情编码可以理解为舆情文本转化的计算机可以处理的数字表达形式,比如二进制的文件等。
可选地,根据关键词关联上目标舆情,又根据目标舆情找到对应的舆情编码,又根据舆情编码找到对象编码,最后找到对象的信用代码与对象基础信息中的信用代码相关联,进而可建立对象,关键词和舆情信息三者之间的联系;其中舆情数据与关键词的具体匹配方式如下:数量标识的不同选择不同的关键词和舆情数据匹配方式,如果是全量参数,首先将舆情数据表按照月份分成12组再使用并行任务(spark并行job)同时将关键词与12组的舆情数据中的标题和摘要进行匹配;如果是增量参数,则关键词只匹配近一周的舆情数据信息,存入临时的舆情关键词关系表,同样基于数量标识导入正式的对象的舆情关键词关系表,若是全量参数则将临时的舆情关键词关系表全部导入正式舆情关键词关系表,若是增量参数则删除距今最远那一周的历史数据,导入最新一周的数据,可获得一个更新后的舆情关键词关系表。对象,风险关键词以及对应的目标舆情信息在同一张表格上出现,极大提高了关键词的查看和舆情信息比对的效率,节约了获知关键词后再查找相关舆情信息的投入成本。
在一个实施例中,如图4所示,基于词频,以词云形式展示对象的各个风险关键词,具体步骤如下:
步骤S401,获取对象的风险关键词的总数目。
示例地,对象登录风险画像模块,输入对象名称或对象编码,搜索到某个客户信息,点开该客户后,系统利用结构化查询语言(SQL语句)根据客户编码从客户负面舆情关键词关系表筛选出当前客户下的风险负面舆情关键词,服务器获取对象的风险关键词总数目可以快速厘清对象的潜在风险和问题。
步骤S402,当风险关键词的总数目大于阈值时,基于词频,分页以词云形式展示对象的风险关键词。
其中,阈值可以理解为风险关键词进行词云展示时每页展示的数目,只有大于或等于这个数值,词云展示才能成功建立。
可选地,基于词频分页以词云形式展示对象的风险关键词可以直观、快速地展示风险情况,帮助用户识别风险重点、进行风险比较和监测,并提供用户交互和探索的功能,从而提高风险管理和决策的效果。
本申请的实施例中,通过统计风险关键词的总数目,按一定的数值分页展示相关的风险关键词可以更直观简洁的展示风险情况,帮助用户识别风险重点,大大提高了风险关键词的展示效果。
在一个实施例中,基于词频,分页以词云形式展示对象的风险关键词,还包括:确定每页展示的风险关键词数目;按照词频从高到低的顺序和每页展示的风险关键词数目,确定出每页待展示的目标风险关键词;按照词频与字体大小成正相关的关系,以及,以颜色区分不同风险关键词的词云形式,在每页上展示对应的目标风险关键词。
其中,词频可以理解该关键词出现的次数,出现的频率越高证明发生该风险的可能性越大。
可选地,按照词频从高到低的顺序确定每页待展示的目标风险关键词,以及基于字体大小和颜色区分风险关键词,可以突出重点关键词、提供全面信息和视觉导航、方便比较和监测,同时提高用户交互和探索的效果,从而提高风险管理和决策的效果。
在一个实施例中,上述方法还包括:响应于针对词云形式下对象的任一风险关键词的触发操作,展示任一风险关键词关联的舆情信息列表。响应于针对词云形式下对象的任一风险关键词的悬停操作,显示任一风险关键词对应的词频。
可选地,响应于针对词云形式下对象的任一风险关键词的触发操作,展示任一风险关键词关联的舆情信息列表可以提供详细信息、多样化视角,辅助风险评估和决策制定,从而提高风险管理和决策的效果;响应于针对词云形式下对象的任一风险关键词的悬停操作,显示任一风险关键词对应的词频可以提供关键词重要性的直观感知、帮助用户快速定位关注点,辅助风险分析和决策制定,从而提高风险管理和决策的效果。
在一个实施例中,如图5所示,风险画像展示方法的最详细实施过程,包括:
步骤S501,获取待进行画像的对象的风险文本信息。
步骤S502,经无效词表和预处理之后的数据集经模型训练后得到的风险关键词词表分词后,获得对象的多个风险关键词。
步骤S503,基于数量标识筛选舆情信息后,确定对象的目标舆情信息。
步骤S504,根据对象的目标舆情信息编码和对象基础信息之间的映射关系,确定舆情关键词关系表。
步骤S505,统计风险关键词数目,基于预设数值和字体大小以及颜色区别分页展示关键词。
步骤S506,基于舆情关键词关系表,点击关键词时,展示关联的风险舆情信息列表。
步骤S507,基于统计词频,悬停在关键词上时显示对应的词频。
本申请的上述实施例中,与现有技术相比具有以下优势:
1、利用训练好的关键词提取模型提取关键词并构建风险关键词词典表,由此来进行风险关键词的获取,大大提高了关键词获取的效率和质量,节约了从大量数据中筛选处理进而提取关键词的时间。
2、基于风险关键词词频,联系字体大小和颜色,可以强调重要性、可视化信息、提供视觉导航,同时增强用户参与,进而提高风险管理和决策的效果。
3、风险关键词关联舆情信息列表,点击关键词可查看其下属舆情信息,同时悬停时可以查看该关键词出现频次,可提供详细化信息,多样化视角提供关键词重要性的直观感知、帮助用户快速定位关注点,辅助风险分析和决策制定。
应该理解的是,虽然如上的所述各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上的所述各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
基于同样的发明构思,本申请实施例还提供了一种用于实现上述所涉及的风险画像展示方法的风险画像展示装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个风险画像展示装置实施例中的具体限定可以参见上文中对于风险画像展示方法的限定,在此不再赘述。
在一个实施例中,如图6所示,提供了一种提取关键词进行风险画像的装置,包括:获取模块601、提取模块602、画像模块603、统计模块604和展示模块605,其中:
获取模块601,获取待进行画像的对象的风险文本信息。
提取模块602,通过预先构建的风险关键词词典表和无效词表,对风险文本信息进行分词处理,得到对象的多个风险关键词。
筛选模块603,根据对象的对象基础信息,从预先获取的舆情信息中筛选出与对象匹配的目标舆情信息。
匹配模块604,将对象的各个风险关键词与目标舆情信息进行匹配,得到对象的舆情关键词关系表。
展示模块605,基于舆情关键词关系表,统计各个风险关键词的词频,基于词频,以词云形式展示对象的各个风险关键词。
在一个实施例中,提取模块602还包括获取子模块、训练子模块、提取子模块和获得子模块,其中:
获取子模块,获取第一样本数据集;第一样本数据集包括第一样本样本对象的样本风险文本信息,样本风险信息中的风险关键词具有对应的标注。
训练子模块,以第一样本数据集中的样本风险文本信息为输入变量,以标注的风险关键词为监督信息,对待训练的关键词提取模型进行训练,得到训练好的关键词提取模型。
提取子模块,通过训练好的关键词提取模型,对第二样本数据集中的样本风险文本信息进行风险关键词提取处理,得到多个样本风险关键词。
获得子模块,基于多个样本风险关键词,得到风险关键词词典表。
在一个实施例中,上述获取子模块具体用于在获取第一样本对象的初始风险文本信息;对初始风险文本信息进行预处理,得到预处理后的风险文本信息;预处理包括去除空格、修改无法表达风险预警的句子以及补充风险词句的同义词中的至少一种;对预处理后的风险文本信息中的风险关键词进行标签标注处理,得到标注后的风险文本信息,标注后的风险文本信息中的风险关键词标注有风险类型,基于标注后的风险文本信息,得到第一样本数据集。
在一个实施例中,上述筛选模块603具体用于在确定对象的风险文本信息的数量标识;当数量标识为全量时,从预先获取的舆情信息中筛选出第一预设时间段内,与对象匹配的目标舆情信息;当数量标识为增量时,从预先获取的舆情信息中筛选出第二预设时间段内,与对象匹配的目标舆情信息;第一预设时间段对应的时长大于第二预设时间段。
在一个实施例中,上述匹配模块604具体用于在获取目标舆情信息对应的舆情编码;基于舆情编码,以及舆情编码与舆情对象之间的映射关系,得到对象的舆情关键词关系表。
在一个实施例中,上述展示模块605还包括数目确定子模块和关键词展示子模块,其中:
数目确定子模块,确定每页展示的风险关键词数目。
关键词展示子模块,当风险关键词的总数目大于阈值时,基于词频,分页以词云形式展示对象的风险关键词。
在一个实施例中,关键词展示子模块具体用于在确定每页展示的风险关键词数目;按照词频从高到低的顺序和每页展示的风险关键词数目,确定出每页待展示的目标风险关键词;按照词频与字体大小成正相关的关系,以及,以颜色区分不同风险关键词的词云形式,在每页上展示对应的目标风险关键词。
在另一个实施例中,上述两个实施例中的风险关键词关联有对应的舆情信息,具体用于在响应于针对词云形式下对象的任一风险关键词的触发操作,展示任一风险关键词关联的舆情信息列表;响应于针对词云形式下对象的任一风险关键词的悬停操作,显示任一风险关键词对应的词频。
上述一种风险画像展示装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图7所示。该计算机设备包括处理器、存储器、输入/输出接口(Input/Output,简称I/O)和通信接口。其中,处理器、存储器和输入/输出接口通过系统总线连接,通信接口通过输入/输出接口连接到系统总线。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储样本对象的风险文本信息和基础信息,舆情信息,风险关键词词典表以及无效词表。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种风险画像展示方法。
本领域技术人员可以理解,图7中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述实施例的风险画像展示方法。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述实施例的风险画像展示方法。
在一个实施例中,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述实施例的风险画像展示方法。
需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory,MRAM)、铁电存储器(Ferroelectric Random Access Memory,FRAM)、相变存储器(Phase Change Memory,PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器等。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory,DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
以上实施例所述的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。

Claims (12)

1.一种风险画像展示方法,其特征在于,所述方法包括:
获取待进行画像的对象的风险文本信息;
通过预先构建的风险关键词词典表和无效词表,对所述风险文本信息进行分词处理,得到所述对象的多个风险关键词;
根据所述对象的对象基础信息,从预先获取的舆情信息中筛选出与所述对象匹配的目标舆情信息;
将所述对象的各个风险关键词与所述目标舆情信息进行匹配,得到所述对象的舆情关键词关系表;
基于所述舆情关键词关系表,统计所述各个风险关键词的词频,基于所述词频,以词云形式展示所述对象的各个风险关键词。
2.根据权利要求1所述的方法,其特征在于,所述风险关键词词典表通过下述方式构建得到:
获取第一样本数据集;所述第一样本数据集包括第一样本对象的样本风险文本信息,所述样本风险信息中的风险关键词具有对应的标注;
以所述第一样本数据集中的样本风险文本信息为输入变量,以标注的风险关键词为监督信息,对待训练的关键词提取模型进行训练,得到训练好的关键词提取模型;
通过所述训练好的关键词提取模型,对第二样本数据集中的样本风险文本信息进行风险关键词提取处理,得到多个样本风险关键词;
基于所述多个样本风险关键词,得到所述风险关键词词典表。
3.根据权利要求2所述的方法,其特征在于,所述获取第一样本数据集,包括:
获取所述第一样本对象的初始风险文本信息;
对所述初始风险文本信息进行预处理,得到预处理后的风险文本信息;所述预处理包括去除空格、修改无法表达风险预警的句子以及补充风险词句的同义词中的至少一种;
对所述预处理后的风险文本信息中的风险关键词进行标签标注处理,得到标注后的风险文本信息;所述标注后的风险文本信息中的风险关键词标注有风险类型;
基于所述标注后的风险文本信息,得到所述第一样本数据集。
4.根据权利要求1所述的方法,其特征在于,所述根据所述对象的对象基础信息,从预先获取的舆情信息中筛选出与所述对象匹配的目标舆情信息,包括:
确定所述对象的风险文本信息的数量标识;
当所述数量标识为全量时,从所述预先获取的舆情信息中筛选出第一预设时间段内,与所述对象匹配的目标舆情信息;
当所述数量标识为增量时,从所述预先获取的舆情信息中筛选出第二预设时间段内,与所述对象匹配的目标舆情信息;所述第一预设时间段对应的时长大于所述第二预设时间段。
5.根据权利要求1所述的方法,其特征在于,所述将所述对象的各个风险关键词与所述目标舆情信息进行匹配,得到所述对象的舆情关键词关系表,包括:
获取所述目标舆情信息对应的舆情编码;
基于所述舆情编码,以及舆情编码与舆情对象之间的映射关系,得到所述对象的舆情关键词关系表。
6.根据权利要求1所述的方法,其特征在于,所述基于所述词频,以词云形式展示所述对象的各个风险关键词,包括:
获取所述对象的风险关键词的总数目;
当所述风险关键词的总数目大于阈值时,基于所述词频,分页以词云形式展示所述对象的风险关键词。
7.根据权利要求6所述的方法,其特征在于,所述基于所述词频,分页以词云形式展示所述对象的风险关键词,包括:
确定每页展示的风险关键词数目;
按照词频从高到低的顺序和所述每页展示的风险关键词数目,确定出每页待展示的目标风险关键词;
按照词频与字体大小成正相关的关系,以及,以颜色区分不同风险关键词的词云形式,在每页上展示对应的目标风险关键词。
8.根据权利要求6或7所述的方法,其特征在于,所述风险关键词关联有对应的舆情信息,所述方法还包括:
响应于针对词云形式下所述对象的任一风险关键词的触发操作,展示所述任一风险关键词关联的舆情信息列表;
响应于针对词云形式下所述对象的任一风险关键词的悬停操作,显示所述任一风险关键词对应的词频。
9.一种风险画像展示装置,其特征在于,包括:
获取模块,获取待进行画像的对象的风险文本信息;
提取模块,通过预先构建的风险关键词词典表和无效词表,对所述风险文本信息进行分词处理,得到所述对象的多个风险关键词;
筛选模块,根据所述对象的对象基础信息,从预先获取的舆情信息中筛选出与所述对象匹配的目标舆情信息;
匹配模块,将所述对象的各个风险关键词与所述目标舆情信息进行匹配,得到所述对象的舆情关键词关系表;
展示模块,基于所述舆情关键词关系表,统计所述各个风险关键词的词频,基于所述词频,以词云形式展示所述对象的各个风险关键词。
10.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至8中任一项所述的方法的步骤。
11.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至8中任一项所述的方法的步骤。
12.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至8中任一项所述的方法的步骤。
CN202311047379.7A 2023-08-18 2023-08-18 风险画像展示方法、装置、计算机设备和可读存储介质 Pending CN117077668A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311047379.7A CN117077668A (zh) 2023-08-18 2023-08-18 风险画像展示方法、装置、计算机设备和可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311047379.7A CN117077668A (zh) 2023-08-18 2023-08-18 风险画像展示方法、装置、计算机设备和可读存储介质

Publications (1)

Publication Number Publication Date
CN117077668A true CN117077668A (zh) 2023-11-17

Family

ID=88716549

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311047379.7A Pending CN117077668A (zh) 2023-08-18 2023-08-18 风险画像展示方法、装置、计算机设备和可读存储介质

Country Status (1)

Country Link
CN (1) CN117077668A (zh)

Similar Documents

Publication Publication Date Title
CN108932294B (zh) 基于索引的简历数据处理方法、装置、设备及存储介质
EP3855324A1 (en) Associative recommendation method and apparatus, computer device, and storage medium
CN108509569B (zh) 企业画像的生成方法、装置、电子设备以及存储介质
US11392775B2 (en) Semantic recognition method, electronic device, and computer-readable storage medium
US20150242401A1 (en) Network searching method and network searching system
WO2021098648A1 (zh) 文本推荐方法、装置、设备及介质
CN112711937A (zh) 一种模板推荐方法、装置、设备及存储介质
CN112035653A (zh) 一种政策关键信息提取方法和装置、存储介质、电子设备
CN111797214A (zh) 基于faq数据库的问题筛选方法、装置、计算机设备及介质
CN111291210A (zh) 图像素材库生成方法、图像素材推荐方法及相关装置
EP3916584A1 (en) Information processing method and apparatus, electronic device and storage medium
CN113312461A (zh) 基于自然语言处理的智能问答方法、装置、设备及介质
CN112651236B (zh) 提取文本信息的方法、装置、计算机设备和存储介质
CN107330079B (zh) 基于人工智能呈现辟谣信息的方法和装置
CN112926308B (zh) 匹配正文的方法、装置、设备、存储介质以及程序产品
CN113609261A (zh) 基于网络信息安全的知识图谱的漏洞信息挖掘方法和装置
CN110275938B (zh) 基于非结构化文档的知识提取方法及系统
CN114116997A (zh) 知识问答方法、装置、电子设备及存储介质
CN111984797A (zh) 客户身份识别装置及方法
US20230090601A1 (en) System and method for polarity analysis
CN116822491A (zh) 日志解析方法及装置、设备、存储介质
CN115048536A (zh) 知识图谱生成方法、装置、计算机设备和存储介质
CN117077668A (zh) 风险画像展示方法、装置、计算机设备和可读存储介质
CN114550157A (zh) 弹幕聚集识别方法以及装置
CN113961811A (zh) 基于事件图谱的话术推荐方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination