CN117078008A - 舆情风险演变路径预测方法、装置、服务器及存储介质 - Google Patents

舆情风险演变路径预测方法、装置、服务器及存储介质 Download PDF

Info

Publication number
CN117078008A
CN117078008A CN202311037922.5A CN202311037922A CN117078008A CN 117078008 A CN117078008 A CN 117078008A CN 202311037922 A CN202311037922 A CN 202311037922A CN 117078008 A CN117078008 A CN 117078008A
Authority
CN
China
Prior art keywords
risk
public opinion
target
content
content risk
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311037922.5A
Other languages
English (en)
Inventor
高巍华
李驰
张兆轶
赵梓言
曾诚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN202311037922.5A priority Critical patent/CN117078008A/zh
Publication of CN117078008A publication Critical patent/CN117078008A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0635Risk analysis of enterprise or organisation activities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Human Resources & Organizations (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Strategic Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Economics (AREA)
  • Animal Behavior & Ethology (AREA)
  • Operations Research (AREA)
  • General Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Development Economics (AREA)
  • Tourism & Hospitality (AREA)
  • Marketing (AREA)
  • Quality & Reliability (AREA)
  • Health & Medical Sciences (AREA)
  • Educational Administration (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请涉及人工智能和金融领域,提供一种舆情风险演变路径预测方法、装置、服务器及存储介质,该方法包括:获取目标舆情事件对应的报道文章集合;对每个报道文章进行分句,得到句子集合,识别句子集合中每个句子的第一内容风险点,并根据每个句子的第一内容风险点,确定目标舆情事件的多个目标内容风险点;从预设的内容风险演变图谱库中获取与多个目标内容风险点匹配的内容风险演变图谱;将每个第一内容风险点与内容风险演变图谱中的第二内容风险点进行匹配,得到内容风险点匹配结果;根据内容风险演变图谱和内容风险点匹配结果,确定目标舆情事件的参考风险演变路径。该方法能够准确地预测金融领域下的舆情事件在未来可能出现的风险。

Description

舆情风险演变路径预测方法、装置、服务器及存储介质
技术领域
本申请涉及人工智能技术领域,尤其涉及一种舆情风险演变路径预测方法、装置、服务器及存储介质。
背景技术
目前,为减少金融舆情事件对金融企业带来的负面影响,金融企业需要监控金融舆情事件的风险变化,然后及时采取舆情应对措施。但是,仅在金融舆情事件的风险变化之后才采取舆情应对措施,无法有效的减少金融舆情事件对金融企业带来的负面影响,甚至可能扩大金融舆情事件对金融企业带来的负面影响。然而,如果能预测金融舆情事件在未来可能出现的风险,那么金融企业就可以提前根据预测得到的风险采取舆情应对措施,以减少舆情带来的负面影响。因此,如何准确地预测金融舆情事件在未来可能出现的风险是目前亟待解决的问题。
发明内容
本申请实施例提供一种舆情风险演变路径预测方法、装置、服务器及存储介质,旨在准确地预测舆情事件在未来可能出现的风险。
第一方面,本申请实施例提供一种舆情风险演变路径预测方法,包括:
获取目标舆情事件对应的报道文章集合,所述报道文章集合包括不同新闻媒体发布的与所述目标舆情事件关联的报道文章;
对每个所述报道文章进行分句,得到句子集合,识别所述句子集合中每个句子的第一内容风险点,并根据每个所述句子的第一内容风险点,确定所述目标舆情事件的多个目标内容风险点;
从预设的内容风险演变图谱库中获取与多个所述目标内容风险点匹配的内容风险演变图谱,所述内容风险演变图谱库中的每个内容风险演变图谱是预先根据对应的历史舆情事件的多个内容风险演变路径构建得到的;
将每个所述第一内容风险点与所述内容风险演变图谱中的第二内容风险点进行匹配,得到内容风险点匹配结果;
根据所述内容风险演变图谱和所述内容风险点匹配结果,确定所述目标舆情事件的参考风险演变路径。
第二方面,本申请实施例还提供一种舆情风险演变路径预测装置,所述舆情风险演变路径预测装置包括:
获取模块,被配置为获取目标舆情事件对应的报道文章集合,所述报道文章集合包括不同新闻媒体发布的与所述目标舆情事件关联的报道文章;
风险点识别模块,被配置为对每个所述报道文章进行分句,得到句子集合,识别所述句子集合中每个句子的第一内容风险点;
风险点确定模块,被配置为根据每个所述句子的第一内容风险点,确定所述目标舆情事件的多个目标内容风险点;
图谱匹配模块,被配置为从预设的内容风险演变图谱库中获取与多个所述目标内容风险点匹配的内容风险演变图谱,所述内容风险演变图谱库中的每个内容风险演变图谱是预先根据对应的历史舆情事件的多个内容风险演变路径构建得到的;
风险点匹配模块,被配置为将每个所述第一内容风险点与所述内容风险演变图谱中的第二内容风险点进行匹配,得到内容风险点匹配结果;
路径预测模块,被配置为根据所述内容风险演变图谱和所述内容风险点匹配结果,确定所述目标舆情事件的参考风险演变路径。
第三方面,本申请实施例还提供一种服务器,所述服务器包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的计算机程序,其中所述计算机程序被所述处理器执行时,实现如第一方面所述的舆情风险演变路径预测方法。
第四方面,本申请实施例还提供一种存储介质,所述存储介质上存储有计算机程序,其中所述计算机程序被处理器执行时,实现如第一方面所述的舆情风险演变路径预测方法。
本申请实施例提供一种舆情风险演变路径预测方法、装置、服务器及存储介质,该方法通过目标舆情事件对应的报道文章集合中的每个报道文章内的各句子的内容风险点,可以准确地确定目标舆情事件的多个目标内容风险点,并从预设的内容风险演变图谱库中获取与多个目标内容风险点匹配的内容风险演变图谱,由于内容风险演变图谱是根据对应的历史舆情事件的多个内容风险演变路径构建得到的,因此通过将每个第一内容风险点与内容风险演变图谱中的第二内容风险点进行匹配,得到内容风险点匹配结果,并根据内容风险演变图谱和内容风险点匹配结果,可以准确地确定目标舆情事件的参考风险演变路径,这样金融企业通过参考风险演变路径即可知道舆情事件在未来可能出现的风险,从而可以提前根据预测得到的风险采取舆情应对措施,以减少舆情带来的负面影响。
附图说明
为了更清楚地说明本申请实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种舆情风险演变路径预测方法的流程示意图;
图2是图1中的舆情风险演变路径预测方法的子步骤流程示意图;
图3是本申请实施例中的内容风险点集合的一示意图;
图4是本申请实施例中的内容风险演变图谱的一示意图;
图5是本申请实施例提供的另一种舆情风险演变路径预测方法的流程示意图;
图6是本申请实施例中的实体关系图谱的一示意图;
图7是本申请实施例提供的又一种舆情风险演变路径预测方法的流程示意图;
图8是本申请实施例提供的一种舆情风险演变路径预测装置的示意性框图;
图9是本申请实施例提供的一种服务器的结构示意性框图。
本申请目的的实现、功能特点及优点将结合实施例,参阅附图做进一步说明。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
附图中所示的流程图仅是示例说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解、组合或部分合并,因此实际执行的顺序有可能根据实际情况改变。
目前,为减少金融舆情事件对金融企业带来的负面影响,金融企业需要监控金融舆情事件的风险变化,然后及时采取舆情应对措施。但是,仅在金融舆情事件的风险变化之后才采取舆情应对措施,无法有效的减少金融舆情事件对金融企业带来的负面影响,甚至可能扩大金融舆情事件对金融企业带来的负面影响。然而,如果能预测金融舆情事件在未来可能出现的风险,那么金融企业就可以提前根据预测得到的风险采取舆情应对措施,以减少舆情带来的负面影响。因此,如何准确地预测金融舆情事件在未来可能出现的风险是目前亟待解决的问题。
为解决上述问题,本申请实施例提供一种舆情风险演变路径预测方法、装置、服务器及存储介质。该方法通过目标舆情事件对应的报道文章集合中的每个报道文章内的各句子的内容风险点,可以准确地确定目标舆情事件的多个目标内容风险点,并从预设的内容风险演变图谱库中获取与多个目标内容风险点匹配的内容风险演变图谱,由于内容风险演变图谱是根据对应的历史舆情事件的多个内容风险演变路径构建得到的,因此通过将每个第一内容风险点与内容风险演变图谱中的第二内容风险点进行匹配,得到内容风险点匹配结果,并根据内容风险演变图谱和内容风险点匹配结果,可以准确地确定目标舆情事件的参考风险演变路径,这样金融企业通过参考风险演变路径即可知道舆情事件在未来可能出现的风险,从而可以提前根据预测得到的风险采取舆情应对措施,以减少舆情带来的负面影响。
本申请实施例中的服务器可以是独立的服务器,也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
下面结合附图,对本申请的一些实施方式作详细说明。在不冲突的情况下,下述的实施例及实施例中的特征可以相互组合。
请参阅图1,图1是本申请实施例提供的一种舆情风险演变路径预测方法的流程示意图。
如图1所示,该舆情风险演变路径预测方法包括步骤S101至步骤S105。
步骤S101、获取目标舆情事件对应的报道文章集合。
本实施例中,该报道文章集合包括不同新闻媒体发布的与目标舆情事件关联的报道文章。其中,目标舆情事件是需要进行风险预测的舆情事件,目标舆情事件可以是金融舆情事件,也可以是其余舆情事件。金融舆情事件是指与设定的金融企业相关的任一舆情事件。
在一些实施例中,终端设备显示舆情风险预测界面,并在舆情风险预测界面中显示用户输入或者上传的舆情文本;响应于用户对该舆情风险预测界面中的确认按键的触发操作,根据用户输入或者上传的舆情文本,生成舆情风险预测请求,将该舆情风险预测请求发送给服务器;服务器在接收到该舆情风险预测请求时,对该舆情风险预测请求进行解析,得到舆情文本,并获取舆情文本描述的目标舆情事件对应的报道文章集合。
在一些实施例中,服务器使用预设爬虫程序从网络中爬取与设定的企业名称相关的报道文章;通过聚类模型对爬取的全部报道文章进行聚类处理,得到不同舆情事件各自对应的报道文章集合,并将每个报道文章集合存储至分布式存储系统的存储分区,一个报道文章集合对应一个存储分区;对于每个报道文章集合,根据报道文章集合中的报道文章的新闻正文,生成舆情文本,该舆情文本用于描述舆情事件,并将该舆情文本与存储分区进行关联绑定。其中,预设爬虫程序可以基于实际情况进行设置,本申请实施例对此不做具体限定。
在一些实施例中,获取舆情文本描述的目标舆情事件对应的报道文章集合可以包括:计算目标舆情事件的舆情文本与每个存储分区绑定的舆情文本之间的相似度;将最高的相似度所对应的舆情文本确定为匹配舆情文本,获取该匹配舆情文本对应的存储分区中的全部报道文章,以形成目标舆情事件对应的报道文章集合。例如,分布式存储系统包括存储分区A、存储分区B和存储分区C,存储分区A、存储分区B和存储分区C分别与舆情文本Text1、舆情文本Text2和舆情文本Text3对应,如果目标舆情事件的舆情文本TextA与舆情文本Text1、舆情文本Text2和舆情文本Text3之间的相似度中,舆情文本TextA与舆情文本Text2之间的相似度最高,则可以获取存储分区B中的全部报道文章,以形成目标舆情事件对应的报道文章集合。
步骤S102、对每个报道文章进行分句,得到句子集合,识别句子集合中每个句子的第一内容风险点,并根据每个句子的第一内容风险点,确定目标舆情事件的多个目标内容风险点。
本实施例中,每个句子的第一内容风险点可以为一个或多个,本申请实施例对此不做具体限定。其中,第一内容风险点可以包括经营不善、集团战略调整、盈利模式被质疑、资金迅速消耗、商标侵权、业务调整、投资者看空、债务违约风险加大、公司赔款、暗示某些业务板块业绩下滑、股价下跌、资金链断裂、资金流失、破产风险加大和经营压力增大中的至少一项。
在一些实施例中,识别句子集合中每个句子的第一内容风险点可以包括:运行预设的风险点识别模型对句子集合中每个句子进行风险点识别,得到每个句子的第一内容风险点。其中,风险点识别模型是根据多个训练样本对预设多分类模型进行训练得到的,该训练样本包括训练文本和训练文本中的各句子的内容风险点。可以理解的是,预设多分类模型可以基于实际情况进行设置,本申请实施例对此不做具体限定。例如,预设多分类模型为梯度提升决策树(Gradient Boosting Decision Tree,GBDT)或卷积神经网络模型(Convolutional Neural Networks,CNN)等。
在一实施例中,如图2所示,步骤S102包括:子步骤S1021至S1025。
子步骤S1021,将全部句子的第一内容风险点作为内容风险点集合,内容风险点集合包括多种第一内容风险点。
例如,如图3所示,某一舆情事件对应的报道文章集合10包括第一报道文章20和第二报道文章30。其中,第一报道文章20包括第一句子21、第二句子22和第三句子23,第二报道文章30包括第四句子31、第五句子32和第六句子33。第一句子21的内容风险点包括内容风险点A和内容风险点B,第二句子22的内容风险点为内容风险点C,第三句子23的内容风险点为内容风险点B。第四句子31的内容风险点为内容风险点B,第五句子32的内容风险点包括内容风险点B和内容风险点C,第六句子33的内容风险点包括内容风险点A和内容风险点C。因此,将第一句子21、第二句子22、第三句子23、第四句子31、第五句子32和第六句子33的内容风险点作为内容风险点集合40,内容风险点集合40包括内容风险点A、内容风险点B、内容风险点C、内容风险点B、内容风险点B、内容风险点B、内容风险点C、内容风险点A和内容风险点C这9个内容风险点,内容风险点集合40包括包括内容风险点A、内容风险点B和内容风险点C这三种内容风险点。
子步骤S1022、统计内容风险点集合中的每种第一内容风险点的数量,并确定每种第一内容风险点的全部句子在对应报道文章中的位置。
本实施例中,句子在对应报道文章中的位置可以包括标题、摘要、正文首部、正文中部和正文尾部中的任一项。例如,如图3所示,统计得到内容风险点集合40中的内容风险点A、内容风险点B和内容风险点C的数量分别为2个、4个和3个,由于内容风险点A与第一句子21和第六句子33对应,则需要确定第一句子21在第一报道文章20中的位置以及第六句子33在第二报道文章30中的位置。由于内容风险点B与第一句子21、第三句子23、第四句子31和第五句子32对应,则需要确定第一句子21和第三句子23分别在第一报道文章20中的位置以及第四句子31和第五句子32分别在第二报道文章30中的位置。由于内容风险点C与第二句子22、第五句子32和第六句子33对应,则需要确定第二句子22第一报道文章20中的位置以及第五句子32和第六句子33分别在第二报道文章30中的位置。
子步骤S1023、根据每种第一内容风险点的数量和每种第一内容风险点的全部句子在对应报道文章中的位置,确定每种第一内容风险点的目标重要性评分。
例如,对于内容风险点A,可以根据内容风险点A的数量和内容风险点A对应的第一句子21在第一报道文章20中的位置以及第六句子33在第二报道文章30中的位置。
在一些实施例中,根据每种第一内容风险点的数量和每种第一内容风险点的全部句子在对应报道文章中的位置,确定每种第一内容风险点的目标重要性评分可以包括:对于每种第一内容风险点,根据第一内容风险点的数量,查询第一映射关系信息,得到第一内容风险点的第一重要性评分,第一映射关系信息用于描述第一内容风险点的数量与重要性评分之间的映射关系;根据第一内容风险点的全部句子在对应报道文章中的位置,查询第二映射关系信息,得到第一内容风险点的第二重要性评分,第二映射关系信息用于描述句子的位置与重要性评分之间的映射关系;对第一重要性评分和第二重要性评分进行加权求和,得到第一内容风险点的目标重要性评分。
示例性的,对第一重要性评分和第二重要性评分进行加权求和,得到第一内容风险点的目标重要性评分可以包括:计算第一加权系数和第一重要性评分的乘积,得到第一加权重要性评分;计算第二加权系数和第二重要性评分的乘积,得到第二加权重要性评分;对第一加权重要性评分和第二加权重要性评分进行求和,得到第一内容风险点的目标重要性评分。其中,第一加权系数和第二加权系数之和为1,且可以基于实际情况进行设置,本申请实施例对此不做具体限定。例如,第一加权系数为0.75,第二加权系数为0.25。
子步骤S1024、基于目标重要性评分对每种第一内容风险点进行排序,得到内容风险点队列。
例如,第一内容风险点A、第一内容风险点B和第一内容风险点C的目标重要性评分分别为N1、N2和N3,且N2>N3>N1,则按照第一内容风险点A、第一内容风险点B和第一内容风险点C各自对应的目标重要性评分的大小顺序N2>N3>N1,对第一内容风险点A、第一内容风险点B和第一内容风险点C进行排序,可以得到内容风险点队列[B,C,A]。
子步骤S1025、将内容风险点队列中的前n个第一内容风险点确定为目标舆情事件的n个目标内容风险点。
本实施例中,n为大于或等于2的整数。例如,内容风险点队列为[B,C,A],n=2,则可以从内容风险点队列[B,C,A]中的前2个第一内容风险点,即第一内容风险点B和第一内容风险点C确定为目标舆情事件的2个目标内容风险点。
步骤S103、从预设的内容风险演变图谱库中获取与多个目标内容风险点匹配的内容风险演变图谱。
本实施例中,预设的内容风险演变图谱库中的每个内容风险演变图谱是预先根据对应的历史舆情事件的多个内容风险演变路径构建得到的,历史舆情事件为真实的,且已经结束的舆情事件,历史舆情事件的内容风险演变路径用于描述历史舆情事件的内容风险点的变化情况。
在一实施例中,从预设的内容风险演变图谱库中获取与多个目标内容风险点匹配的内容风险演变图谱可以包括:确定预设的内容风险演变图谱库中的每个内容风险演变图谱所包含的目标内容风险点的个数,得到每个内容风险演变图谱的风险点匹配个数;将最大的风险点匹配个数所对应的内容风险演变图谱确定为与多个目标内容风险点匹配的内容风险演变图谱。
例如,内容风险演变图谱库包括内容风险演变图谱A、内容风险演变图谱B和内容风险演变图谱C,多个目标内容风险点包括内容风险点A、内容风险点B和内容风险点C,内容风险演变图谱A包含内容风险点A和内容风险点B,则内容风险演变图谱A的风险点匹配个数为2,内容风险演变图谱B包含内容风险点A和内容风险点C,则内容风险演变图谱B的风险点匹配个数为2,内容风险演变图谱C包含内容风险点A、内容风险点B和内容风险点C,则内容风险演变图谱C的风险点匹配个数为3,因此可以将内容风险演变图谱C确定为与内容风险点A、内容风险点B和内容风险点C匹配的内容风险演变图谱。
步骤S104、将每个第一内容风险点与内容风险演变图谱中的第二内容风险点进行匹配,得到内容风险点匹配结果。
本实施例中,内容风险点匹配结果包括每个第一内容风险点与内容风险演变图谱中的第二内容风险点之间的匹配结果,第一内容风险点与第二内容风险点之间的匹配结果可以包括匹配或不匹配,在第一内容风险点与第二内容风险点相同时,确定第一内容风险点与第二内容风险点之间的匹配结果为匹配,在第一内容风险点与第二内容风险点不同时,确定第一内容风险点与第二内容风险点之间的匹配结果为不匹配。
步骤S105、根据内容风险演变图谱和内容风险点匹配结果,确定目标舆情事件的参考风险演变路径。
本实施例中,由于内容风险演变图谱是根据对应的历史舆情事件的多个内容风险演变路径构建得到的,因此通过内容风险演变图谱和内容风险点匹配结果可以准确地确定目标舆情事件的参考风险演变路径,这样金融企业通过参考风险演变路径即可知道舆情事件在未来可能出现的风险,从而可以提前根据预测得到的风险采取舆情应对措施,以减少舆情带来的负面影响。
在一些实施例中,对于每个第二内容风险点,根据内容风险点匹配结果,确定与第二内容风险点匹配的第一内容风险点的数量,得到每个第二内容风险点的命中个数;根据每个第二内容风险点的命中个数,确定内容风险演变图谱中的每条内容风险演变路径的命中个数;将命中个数最高所对应的内容风险演变路径确定为目标舆情事件的参考风险演变路径。在另外一些实施例中,也可以将内容风险演变图谱中的命中个数大于或等于预设个数阈值的风险演变路径均作为目标舆情事件的参考风险演变路径。
例如,如图4所示,某一内容风险演变图谱包括4条内容风险演变路径,这4条内容风险演变路径分别为:经营不善→集团战略调整→业务调整→暗示某些业务板块业绩下滑、经营不善→盈利模式被质疑→投资者看空→股价下跌、经营不善→资金迅速消耗→债务违约风险加大→资金链断裂→破产风险加大和经营不善→商标侵权→公司赔款→资金流失→经营压力增大,设全部句子的第一内容风险点包括经营不善、盈利模式被质疑、投资者看空、公司赔款、盈利模式被质疑、经营不善、资金迅速消耗和投资者看空。
因此,内容风险演变图谱中的经营不善的命中个数为2,盈利模式被质疑的命中个数为2,投资者看空的命中个数为2,公司赔款的命中个数为1,资金迅速消耗的命中个数为1,剩余的内容风险点的的命中个数为0,则经营不善→集团战略调整→业务调整→暗示某些业务板块业绩下滑这个内容风险演变路径的命中个数为2+0+0+0=2,经营不善→盈利模式被质疑→投资者看空→股价下跌这个内容风险演变路径的命中个数为2+2+2+0=6,经营不善→资金迅速消耗→债务违约风险加大→资金链断裂→破产风险加大这个内容风险演变路径的命中个数为2+0+0+0=2,经营不善→商标侵权→公司赔款→资金流失→经营压力增大这个内容风险演变路径的命中个数为2+0+1+0+0=3,由于经营不善→盈利模式被质疑→投资者看空→股价下跌这个内容风险演变路径的命中个数最高,因此将经营不善→盈利模式被质疑→投资者看空→股价下跌这个内容风险演变路径确定为目标舆情事件的参考风险演变路径。
在一些实施例中,如图5所示,步骤S102之后,还包括:
步骤S106、运行预设的命名实体识别模型从每个句子中提取实体,以形成第一实体集合。
本实施例中,该命名实体识别(Named Entity Recognition,NER)模型为预先根据多个样本数据对神经网络模型进行训练得到的,该样本数据包括样本文本以及标注的实体。其中,该实体可以包括金融企业的名称、金融高管人员的姓名和金融产品的名称等中的至少一项。
步骤S107、根据多个目标内容风险点和第一实体集合,确定目标舆情事件的目标风险等级。
本实施例中,可以根据多个目标内容风险点,确定目标舆情事件的第一风险等级;根据第一实体集合,确定目标舆情事件的第二风险等级;将第一风险等级和第二风险等级中较高的风险等级确定为目标舆情事件的目标风险等级,或者在第一风险等级和第二风险等级相同时,若第一风险等级和第二风险等级小于预设风险等级库中的最高风险等级,则将比第一风险等级更高一级的风险等级确定为目标舆情事件的目标风险等级。通过综合考虑目标舆情事件的多个目标内容风险点和第一实体集合,可以准确地确定目标舆情事件的风险等级。
在一些实施例中,根据多个目标内容风险点和第一实体集合,确定目标舆情事件的目标风险等级可以包括:根据多个目标内容风险点,确定目标舆情事件的第一风险等级;根据第一实体集合,确定目标舆情事件的第二风险等级;确定每个新闻媒体的媒体层级,并将最高的媒体层级对应的新闻媒体作为目标新闻媒体;根据目标新闻媒体的媒体层级和目标新闻媒体发布的与目标舆情事件关联的报道文章的发布版面位置,确定目标舆情事件的第三风险等级;根据第一风险等级、第二风险等级和第三风险等级,确定目标舆情事件的目标风险等级。本实施例通过综合考虑舆情事件的多个目标内容风险点、第一实体集合、最高的媒体层级对应的新闻媒体和该新闻媒体发布的报道文章的发布版面位置,能够更加准确地确定舆情事件的风险等级。
本实施例中,新闻媒体的媒体层级可以为中央权威、核心财经、综合门户、资讯客户端、自媒体和其他这6个层级中的任一层级。其中,中央权威、核心财经、综合门户、资讯客户端、自媒体和其他这6个层级中,媒体层级由低到高分别为其他、自媒体、资讯客户端、综合门户、核心财经和中央权威,中央权威这一层级最高,其他这一层级最低。例如,发布目标舆情事件的新闻媒体包括新闻媒体R1、新闻媒体R2、新闻媒体R3和新闻媒体R4,新闻媒体R1、新闻媒体R2、新闻媒体R3和新闻媒体R4的媒体层级分别为其他、核心财经、综合门户和自媒体,由于新闻媒体R2的媒体层级最高,因此,可以将新闻媒体R2作为目标新闻媒体。
在一些实施例中,根据第一风险等级、第二风险等级和第三风险等级,确定目标舆情事件的目标风险等级可以包括:将第一风险等级、第二风险等级和第三风险等级中最高的风险等级确定为目标舆情事件的目标风险等级。或者,将第一风险等级、第二风险等级和第三风险等级中最高的风险等级作为候选风险等级;在该候选风险等级为多个的情况下,若该候选风险等级小于预设风险等级库中的最高风险等级,则将比该候选风险等级更高一级的风险等级确定为目标舆情事件的目标风险等级;若该候选风险等级为预设风险等级库中的最高风险等级,则将该候选风险等级确定为目标舆情事件的目标风险等级。
可以理解的是,预设风险等级库可以包括多个风险等级。举例而言,预设风险等级库包括风险等级I、风险等级II、风险等级III、风险等级IV和风险等级V,风险等级I为最高风险等级,风险等级V为最低风险等级。例如,第一风险等级为风险等级II,第二风险等级为风险等级III,第三风险等级为风险等级IV,由于风险等级II、风险等级III和风险等级IV中风险等级II最高,因此将风险等级II作为目标舆情事件的目标风险等级。又例如,第一风险等级为风险等级III,第二风险等级为风险等级III,第三风险等级为风险等级IV,由于风险等级III、风险等级III和风险等级IV中最高的风险等级有两个,即两个风险等级III,则可以将比风险等级III更高一级的风险等级II确定为目标舆情事件的目标风险等级。
在一些实施例中,根据多个目标内容风险点,确定目标舆情事件的第一风险等级可以包括:查询内容风险点与风险等级之间的映射关系表,得到与多个目标内容风险点对应的风险等级,并将查询得到的风险等级确定为目标舆情事件的第一风险等级。其中,可以预先根据专家经验或业务经验建立风险类型与风险等级之间的映射关系表。
在一些实施例中,根据第一实体集合,确定目标舆情事件的第二风险等级的方式可以为:根据第一实体集合,查询实体与风险等级之间的映射关系表,得到与第一实体集合对应的风险等级,并将查询到的风险等级确定为目标舆情事件的第二风险等级。其中,可以预先根据专家经验或业务经验建立实体与风险等级之间的映射关系表。
在一些实施例中,根据目标新闻媒体的媒体层级和目标新闻媒体发布的与目标舆情事件关联的报道文章的发布版面位置,确定目标舆情事件的第三风险等级可以包括:根据目标新闻媒体的媒体层级以及目标新闻媒体发布的与金融舆情事件关联的报道文章的发布版面位置,查询媒体层级、发布版面位置与风险等级之间的映射关系表,得到与目标新闻媒体的媒体层级以及该发布版面位置对应的风险等级,并将查询得到的风险等级确定为目标舆情事件的第三风险等级。其中,可以预先根据专家经验或业务经验建立媒体层级、发布版面位置与风险等级之间的映射关系表。
步骤S108、根据第一实体集合确定目标舆情事件的涉事主体所属行业,并从预设的实体关系图谱库中获取与涉事主体所属行业匹配的实体关系图谱。
本实施例中,预设的实体关系图谱库中的每个实体关系图谱是预先根据历史舆情事件对应的风险等级、涉事企业名称、涉事人员姓名和涉事产品名称建立得到的。
在一些实施例中,根据第一实体集合确定目标舆情事件的涉事主体所属行业可以包括:查询预存的企业名称与行业之间的映射关系表,得到第一实体集合中的企业名称对应的行业,并将查询到的行业确定为目标舆情事件的涉事主体所属行业。其中,企业名称与行业之间的映射关系表可以根据实际情况进行设置,本申请实施例对此不做具体限定。
在一些实施例中,从预设的实体关系图谱库中获取与涉事主体所属行业匹配的实体关系图谱可以包括:从预设的实体关系图谱库中获取绑定的行业与涉事主体所属行业相同所对应的实体关系图谱。例如,实体关系图谱库包括绑定行业A的第一实体关系图谱库、绑定行业B的第二实体关系图谱库和绑定行业C的第三实体关系图谱库,涉事主体所属行业为行业B,则从实体关系图谱库中获取第二实体关系图谱库。
步骤S109、从实体关系图谱中获取与目标风险等级对应的实体关系子图谱。
本实施例中,实体关系图谱包括多个实体关系子图谱,并且一个实体关系子图谱对应一个风险等级。例如,如图6所示,保险行业的实体关系图谱包括5个风险等级中的每个风险等级各自对应的实体关系子图谱,风险等级I对应的第一实体关系子图谱中的关联公司包括集团公司A、寿险公司B和产险公司C,关联高管包括集团董事长、集团CEO和涉事公司CEO,关联产品为保险A。
风险等级II对应的第二实体关系子图谱中的关联公司包括集团公司A、寿险公司B和产险公司D,关联高管包括集团董事长、集团CEO和涉事公司CEO,关联产品为保险B。风险等级III对应的第三实体关系子图谱中的关联公司包括集团公司A、子公司C,关联高管包括集团其他高管和涉事公司CEO,关联产品为保险D。风险等级IV对应的第四实体关系子图谱中的关联公司为子公司A,关联高管为涉事公司CEO,关联产品为保险B。风险等级V对应的第五实体关系子图谱中的关联公司为子公司B,关联高管为涉事公司其他高管,关联产品为保险C。如果目标风险等级为风险等级III,从图6所示的实体关系图谱中获取第三实体关系子图谱。
步骤S110、根据实体关系子图谱和第一实体集合,确定后续会受到目标舆情事件影响的目标实体。
本实施例中,由于实体关系子图谱包括与历史舆情事件关联的公司、高管和产品等实体,通过与目标舆情事件关联的实体和实体关系子图谱,可以准确地预测得到后续会受到目标舆情事件影响的目标实体,便于企业管理者提前采取应对措施。
在一些实施例中,根据实体关系子图谱和第一实体集合,确定后续会受到目标舆情事件影响的目标实体可以包括:将第一实体集合中的每个第一实体与实体关系子图谱中的每个第二实体进行匹配,得到实体匹配结果;对于每个第二实体,根据实体匹配结果,确定与第二实体匹配的第一实体的数量,得到每个第二实体的命中次数;将实体关系子图谱中命中次数小于预设命中次数所对应的第二实体确定为后续会受到目标舆情事件影响的目标实体。其中,预设命中次数可以基于实际情况进行设置,本申请实施例对此不做具体限定。
例如,第一实体集合包括实体A、实体A、实体A、实体B、实体C、实体C、实体D和实体D,实体关系子图谱包括实体A、实体C、实体D和实体E,因此实体关系子图谱中的实体A、实体C、实体D和实体E的命中次数分别为3、2、2和0,设预设命中次数为2,则可以将实体关系子图谱中的实体C、实体D和实体E确定为后续会受到目标舆情事件影响的目标实体。
在一些实施例中,将第一实体集合中的每个第一实体与实体关系子图谱中的每个第二实体进行匹配,得到实体匹配结果;对于每个第二实体,根据实体匹配结果,确定与第二实体匹配的第一实体的数量,得到每个第二实体的命中次数;确定与第二实体匹配的第一实体所属的新闻媒体的媒体层级,并最高的该媒体层级确定为第二实体的命中媒体层级;根据每个第二实体的命中次数和命中媒体层级,确定每个第二实体的目标匹配分数,并将该目标匹配分数小于预设目标匹配分数所对应的第二实体确定为后续会受到目标舆情事件影响的目标实体;将最高的该目标匹配分数所对应的第二实体确定为目标舆情事件的核心实体,并将该目标匹配分数大于预设目标匹配分数所对应的全部第二实体中除核心实体以为的第二实体确定为目标舆情事件的关联实体。其中,预设目标匹配分数可以基于实际情况进行设置,本申请实施例对此不做具体限定。
在一些实施例中,根据第二实体的命中次数和命中媒体层级,确定第二实体的目标匹配分数可以包括:根据第二实体的命中次数,查询命中次数与匹配分数之间的映射关系表,得到第二实体的命中次数对应的第一匹配分数;根据第二实体的命中媒体层级,查询命中媒体层级与匹配分数之间的映射关系表,得到第二实体的命中媒体层级对应的第二匹配分数;对第一匹配分数和第二匹配分数进行加权求和,得到第二实体的目标匹配分数。
在一些实施例中,如图7所示,步骤S101之后还包括:
步骤S111、根据报道文章集合,确定目标舆情事件的第一特征信息。
本实施例中,第一特征信息包括目标舆情事件的涉事主体所属行业、目标内容风险点、目标风险等级、传播影响力等级、累计报道数量、报道目标舆情事件的每个新闻媒体和每个新闻媒体的媒体层级中的至少一项。其中,累计报道数量为目标舆情事件对应的报道文章集合中的报道文章的总数,确定目标内容风险点和目标风险等级的具体方式可以参考前述实施例中的对应过程,此处不做赘述。
在一些实施例中,根据报道文章集合,确定目标舆情事件的累计报道数量、传播时长以及每个媒体层级对应的报道文章数量;根据累计报道数量和传播时长,确定目标舆情事件的传播速度;根据每个媒体层级对应的报道文章数量以及每个媒体层级对应的预设加权系数,确定目标舆情事件的媒体层级指数;根据累计报道数量、传播时长、传播速度和媒体层级指数,确定目标舆情事件的传播影响力等级。其中,媒体层级对应的报道文章数量是属于该媒体层级的新闻媒体报道的与目标舆情事件相关的报道文章的累计数量。本实施例通过累计报道数量、传播时长、传播速度和媒体层级指数,可以准确地确定目标舆情事件的传播影响力等级,通过传播影响力等级,可以客观和全面地描述目标舆情事件的重要程度。
示例性的,用累计报道数量除以传播时长,得到目标舆情事件的传播速度。例如,目标舆情事件的累计报道数量为1000,传播时长为2小时,则目标舆情事件的传播速度为1000/2=500,即每小时传播500篇与目标舆情事件相关的报道文章。示例性的,计算当前时间与每个报道文章的发布时间的差值,得到多个候选时长,并将多个候选时长中最大的候选时长作为传播时长。
在一些实施例中,根据每个媒体层级对应的报道文章数量以及每个媒体层级对应的预设加权系数,确定目标舆情事件的媒体层级指数可以包括:对于每个媒体层级,计算该媒体层级对应的报道文章数量与对应的预设加权系数的乘积,得到该媒体层级对应的媒体层级指数;累加每个媒体层级对应的媒体层级指数,得到目标舆情事件的媒体层级指数。例如,报道目标舆情事件的新闻媒体的媒体层级包括核心财经、自媒体和综合门户,且核心财经、自媒体和综合门户对应的预设加权系数分别为k1、k2和k3,核心财经、自媒体和综合门户对应的报道文章数量分别为n1、n2和n3,则核心财经对应的媒体层级指数为k1*n1,自媒体对应的媒体层级指数为k2*n2,综合门户对应的媒体层级指数为k3*n3,目标舆情事件的媒体层级指数为k1*n1+k2*n2+k3*n3。
在一些实施例中,根据累计报道数量、传播时长、传播速度和媒体层级指数,确定目标舆情事件的传播影响力等级可以包括:根据累计报道数量、传播时长、传播速度和媒体层级指数,确定目标舆情事件的传播影响力评分;根据目标舆情事件的传播影响力评分所处的分数区间,确定目标舆情事件的传播影响力等级。
示例性的,根据累计报道数量、传播时长、传播速度和媒体层级指数,确定目标舆情事件的传播影响力评分可以包括:通过预设对数函数分别对累计报道数量、传播速度和传播时长进行归一化处理,得累计报道数量对应的第一对数值、传播速度对应的第二对数值和传播时长对应的第三对数值;计算第一对数值与第一预设系数的乘积,得到第一评分,计算第二对数值与第二预设系数的乘积,得到第二评分,计算第三对数值与第三预设系数的乘积,得到第四评分;对第一评分、第二评分、第四评分和媒体层级指数进行求和,得到目标舆情事件的传播影响力评分。
其中,预设对数函数、第一预设系数、第二预设系数和第三预设系数可以基于实际情况进行设置,本申请实施例对此不做具体限定。例如,预设对数函数为y=log10(x),第一预设系数为14,第二预设系数为6.5,第三预设系数为3。举例而言,目标舆情事件的传播影响力评分可以用传播影响力评分的计算公式计算得到,该计算公式为:α1*log10(w1)+α2*log10(w2)+α3*log10(w3)+w4,α1为第一预设系数,α2为第二预设系数,α3为第三预设系数,w1为新闻报道总数,w2为传播速度,w3为传播时长,w4为媒体层级指数。
步骤S112、根据第一特征信息和每个历史舆情事件的第二特征信息,计算目标舆情事件与每个历史舆情事件之间的相似度。
本实施例中,第二特征信息包括历史舆情事件的涉事主体所属行业、目标内容风险点、目标风险等级、传播影响力等级、累计报道数量、报道目标舆情事件的每个新闻媒体和每个新闻媒体的媒体层级中的至少一项。其中,第二特征信息是预先根据历史舆情事件对应的报道文章集合确定的。
在一些实施例中,根据第一特征信息和每个历史舆情事件的第二特征信息,计算目标舆情事件与每个历史舆情事件之间的相似度可以包括,对于每个历史舆情事件,计算目标舆情事件的第一特征信息与历史舆情事件的第二特征信息之间的相似度,并将目标舆情事件的第一特征信息与历史舆情事件的第二特征信息之间的相似度确定为目标舆情事件与历史舆情事件之间的相似度。例如,可以基于MinHash算法,计算目标舆情事件的第一特征信息与历史舆情事件的第二特征信息之间的相似度。
步骤S113、将最高的相似度对应的历史舆情事件的风险演变路径确定为目标舆情事件的参考风险演变路径。
本实施例中,历史舆情事件的风险演变路径是预先建立好的。通过目标舆情事件的第一特征信息与每个历史舆情事件的第二特征信息,可以计算目标舆情事件与每个历史舆情事件之间的相似度,并且将最高的相似度对应的历史舆情事件的风险演变路径确定为目标舆情事件的参考风险演变路径,这样金融企业通过参考风险演变路径即可知道舆情事件在未来可能出现的风险,从而可以提前根据预测得到的风险采取舆情应对措施,以减少舆情带来的负面影响。
例如,目标舆情事件与历史舆情事件A、历史舆情事件B、历史舆情事件C、历史舆情事件D和历史舆情事件E之间的相似度分别为S1、S2、S3、S4和S5,且S3>S2>S4>S1>S5,因此将历史舆情事件C的风险演变路径确定为目标舆情事件的参考风险演变路径。
在一些实施例中,因舆情事件具有持续性,需要持续更新舆情事件对应的报道文章集合。对此,服务器可以每隔预设时长重新获取目标舆情事件对应的报道文章集合,根据重新获取的报道文章集合,确定目标舆情事件的第一特征信息;根据第一特征信息和每个历史舆情事件的第二特征信息,计算目标舆情事件与每个历史舆情事件之间的相似度;将最高的相似度对应的历史舆情事件的风险演变路径确定为目标舆情事件的参考风险演变路径。本实施例通过重新获取的报道文章集合,能够重新确定目标舆情事件的参考风险演变路径,可以进一步的提高参考风险演变路径的准确性。
在一些实施例中,执行步骤S101-S105可以得到目标舆情事件的一个参考风险演变路径,记为第一参考风险演变路径,并且执行步骤S101、S111、S112和S113可以得到目标舆情事件的另一个参考风险演变路径,记为第二参考风险演变路径;在第二参考风险演变路径所对应的历史舆情事件与目标舆情事件之间的相似度大于或等于预设相似度时,输出第二参考风险演变路径;在第二参考风险演变路径所对应的历史舆情事件与目标舆情事件之间的相似度小于预设相似度时,输出第一参考风险演变路径。
请参阅图8,图8是本申请实施例提供的一种舆情风险演变路径预测装置的示意性框图。
如图8所示,该舆情风险演变路径预测装置200,包括:
获取模块210,被配置为获取目标舆情事件对应的报道文章集合,所述报道文章集合包括不同新闻媒体发布的与所述目标舆情事件关联的报道文章;
风险点识别模块220,被配置为对每个所述报道文章进行分句,得到句子集合,识别所述句子集合中每个句子的第一内容风险点;
风险点确定模块230,被配置为根据每个所述句子的第一内容风险点,确定所述目标舆情事件的多个目标内容风险点;
图谱匹配模块240,被配置为从预设的内容风险演变图谱库中获取与多个所述目标内容风险点匹配的内容风险演变图谱,所述内容风险演变图谱库中的每个内容风险演变图谱是预先根据对应的历史舆情事件的多个内容风险演变路径构建得到的;
风险点匹配模块250,被配置为将每个所述第一内容风险点与所述内容风险演变图谱中的第二内容风险点进行匹配,得到内容风险点匹配结果;
路径预测模块260,被配置为根据所述内容风险演变图谱和所述内容风险点匹配结果,确定所述目标舆情事件的参考风险演变路径。
在一些实施例中,所述风险点确定模块230还被配置为:
将全部所述句子的第一内容风险点作为内容风险点集合,所述内容风险点集合包括多种第一内容风险点;
统计所述内容风险点集合中的每种所述第一内容风险点的数量,并确定每种所述第一内容风险点的全部句子在对应所述报道文章中的位置;
根据每种所述第一内容风险点的数量和每种所述第一内容风险点的全部句子在对应所述报道文章中的位置,确定每种所述第一内容风险点的目标重要性评分;
按照每种所述第一内容风险点的目标重要性评分的大小顺序,对每种所述第一内容风险点进行排序,得到内容风险点队列;
将所述内容风险点队列中的前n个第一内容风险点确定为所述目标舆情事件的n个目标内容风险点,n为大于或等于2的整数。
在一些实施例中,所述路径预测模块260还被配置为:
对于每个所述第二内容风险点,根据所述内容风险点匹配结果,确定与所述第二内容风险点匹配的所述第一内容风险点的数量,得到每个所述第二内容风险点的命中个数;
根据每个所述第二内容风险点的命中个数,确定所述内容风险演变图谱中的每条内容风险演变路径的命中个数;
将所述命中个数最高所对应的所述内容风险演变路径确定为所述目标舆情事件的参考风险演变路径。
在一些实施例中,舆情风险演变路径预测装置200还包括:
实体识别模块,被配置为运行预设的命名实体识别模型从每个所述句子中提取实体,以形成第一实体集合;
风险等级确定模块,被配置为根据多个所述目标内容风险点和所述第一实体集合,确定所述目标舆情事件的目标风险等级;
图谱确定模块,被配置为根据所述第一实体集合确定所述目标舆情事件的涉事主体所属行业,并从预设的实体关系图谱库中获取与所述涉事主体所属行业匹配的实体关系图谱;
图谱确定模块,还被配置为从所述实体关系图谱中获取与所述目标风险等级对应的实体关系子图谱;
实体预测模块,被配置为根据所述实体关系子图谱和所述第一实体集合,确定后续会受到所述目标舆情事件影响的目标实体。
在一些实施例中,所述风险等级确定模块,还被配置为:
根据多个所述目标内容风险点,确定所述目标舆情事件的第一风险等级;
根据所述第一实体集合,确定所述目标舆情事件的第二风险等级;
确定每个所述新闻媒体的媒体层级,并将最高的所述媒体层级对应的新闻媒体作为目标新闻媒体;
根据所述目标新闻媒体的媒体层级和所述目标新闻媒体发布的与所述目标舆情事件关联的报道文章的发布版面位置,确定所述目标舆情事件的第三风险等级;
根据所述第一风险等级、所述第二风险等级和所述第三风险等级,确定所述目标舆情事件的目标风险等级。
在一些实施例中,所述实体预测模块,还被配置为:
将所述第一实体集合中的每个第一实体与所述实体关系子图谱中的每个第二实体进行匹配,得到实体匹配结果;
对于每个所述第二实体,根据所述实体匹配结果,确定与所述第二实体匹配的所述第一实体的数量,得到每个所述第二实体的命中次数;
将所述实体关系子图谱中所述命中次数小于预设命中次数所对应的所述第二实体确定为后续会受到所述目标舆情事件影响的目标实体。
在一些实施例中,舆情风险演变路径预测装置200还包括:
特征确定模块,被配置为根据所述报道文章集合,确定所述目标舆情事件的第一特征信息;
计算模块,被配置为根据所述第一特征信息和每个历史舆情事件的第二特征信息,计算所述目标舆情事件与每个所述历史舆情事件之间的相似度;
路径确定模块,被配置为将最高的所述相似度对应的所述历史舆情事件的风险演变路径确定为所述目标舆情事件的参考风险演变路径。
需要说明的是,所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的装置和各模块及单元的具体工作过程,可以参考前述舆情风险演变路径预测方法实施例中的对应过程,在此不再赘述。
上述实施例提供的装置可以实现为一种计算机程序的形式,该计算机程序可以在如图9所示的服务器上运行。
请参阅图9,图9是本申请实施例提供的一种服务器的结构示意性框图。
如图9所示,该服务器包括通过系统总线连接的处理器、存储器和网络接口,其中,存储器可以包括存储介质和内存储器。
存储介质可存储操作系统和计算机程序。该计算机程序包括程序指令,该程序指令被执行时,可使得处理器执行任意一种舆情风险演变路径预测方法。
处理器用于提供计算和控制能力,支撑整个服务器的运行。
该网络接口用于进行网络通信,如发送分配的任务等。本领域技术人员可以理解,图9中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的服务器的限定,具体的服务器可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
应当理解的是,处理器可以是中央处理单元(Central Processing Unit,CPU),该处理器还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
其中,在一实施例中,所述处理器用于运行存储在存储器中的计算机程序,以实现以下步骤:
获取目标舆情事件对应的报道文章集合,所述报道文章集合包括不同新闻媒体发布的与所述目标舆情事件关联的报道文章;
对每个所述报道文章进行分句,得到句子集合,识别所述句子集合中每个句子的第一内容风险点,并根据每个所述句子的第一内容风险点,确定所述目标舆情事件的多个目标内容风险点;
从预设的内容风险演变图谱库中获取与多个所述目标内容风险点匹配的内容风险演变图谱,所述内容风险演变图谱库中的每个内容风险演变图谱是预先根据对应的历史舆情事件的多个内容风险演变路径构建得到的;
将每个所述第一内容风险点与所述内容风险演变图谱中的第二内容风险点进行匹配,得到内容风险点匹配结果;
根据所述内容风险演变图谱和所述内容风险点匹配结果,确定所述目标舆情事件的参考风险演变路径。
在一些实施例中,所述处理器在实现根据每个所述句子的第一内容风险点,确定所述目标舆情事件的多个目标内容风险点时,用于实现:
将全部所述句子的第一内容风险点作为内容风险点集合,所述内容风险点集合包括多种第一内容风险点;
统计所述内容风险点集合中的每种所述第一内容风险点的数量,并确定每种所述第一内容风险点的全部句子在对应所述报道文章中的位置;
根据每种所述第一内容风险点的数量和每种所述第一内容风险点的全部句子在对应所述报道文章中的位置,确定每种所述第一内容风险点的目标重要性评分;
基于所述目标重要性评分对每种所述第一内容风险点进行排序,得到内容风险点队列;
将所述内容风险点队列中的前n个第一内容风险点确定为所述目标舆情事件的n个目标内容风险点,n为大于或等于2的整数。
在一些实施例中,所述处理器在实现根据所述内容风险演变图谱和所述内容风险点匹配结果,确定所述目标舆情事件的参考风险演变路径时,用于实现:
对于每个所述第二内容风险点,根据所述内容风险点匹配结果,确定与所述第二内容风险点匹配的所述第一内容风险点的数量,得到每个所述第二内容风险点的命中个数;
根据每个所述第二内容风险点的命中个数,确定所述内容风险演变图谱中的每条内容风险演变路径的命中个数;
将所述命中个数最高所对应的所述内容风险演变路径确定为所述目标舆情事件的参考风险演变路径。
在一些实施例中,所述处理器在实现根据每个所述句子的第一内容风险点,确定所述目标舆情事件的多个目标内容风险点之后,还用于实现:
运行预设的命名实体识别模型从每个所述句子中提取实体,以形成第一实体集合;
根据多个所述目标内容风险点和所述第一实体集合,确定所述目标舆情事件的目标风险等级;
根据所述第一实体集合确定所述目标舆情事件的涉事主体所属行业,并从预设的实体关系图谱库中获取与所述涉事主体所属行业匹配的实体关系图谱;
从所述实体关系图谱中获取与所述目标风险等级对应的实体关系子图谱;
根据所述实体关系子图谱和所述第一实体集合,确定后续会受到所述目标舆情事件影响的目标实体。
在一些实施例中,所述处理器在实现根据多个所述目标内容风险点和所述第一实体集合,确定所述目标舆情事件的目标风险等级时,用于实现:
根据多个所述目标内容风险点,确定所述目标舆情事件的第一风险等级;
根据所述第一实体集合,确定所述目标舆情事件的第二风险等级;
确定每个所述新闻媒体的媒体层级,并将最高的所述媒体层级对应的新闻媒体作为目标新闻媒体;
根据所述目标新闻媒体的媒体层级和所述目标新闻媒体发布的与所述目标舆情事件关联的报道文章的发布版面位置,确定所述目标舆情事件的第三风险等级;
根据所述第一风险等级、所述第二风险等级和所述第三风险等级,确定所述目标舆情事件的目标风险等级。
在一些实施例中,所述处理器在实现根据所述实体关系子图谱和所述第一实体集合,确定后续会受到所述目标舆情事件影响的目标实体时,用于实现:
将所述第一实体集合中的每个第一实体与所述实体关系子图谱中的每个第二实体进行匹配,得到实体匹配结果;
对于每个所述第二实体,根据所述实体匹配结果,确定与所述第二实体匹配的所述第一实体的数量,得到每个所述第二实体的命中次数;
将所述实体关系子图谱中所述命中次数小于预设命中次数所对应的所述第二实体确定为后续会受到所述目标舆情事件影响的目标实体。
在一些实施例中,所述处理器在实现获取目标舆情事件对应的报道文章集合之后,还用于实现:
根据所述报道文章集合,确定所述目标舆情事件的第一特征信息;
根据所述第一特征信息和每个历史舆情事件的第二特征信息,计算所述目标舆情事件与每个所述历史舆情事件之间的相似度;
将最高的所述相似度对应的所述历史舆情事件的风险演变路径确定为所述目标舆情事件的参考风险演变路径。
需要说明的是,所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的服务器的具体工作过程,可以参考前述舆情风险演变路径预测方法实施例中的对应过程,在此不再赘述。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台服务器(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。
本申请实施例还提供一种存储介质,所述存储介质上存储有计算机程序,所述计算机程序中包括程序指令,所述程序指令被执行时所实现的方法可参阅本申请舆情风险演变路径预测方法的各个实施例。
其中,所述存储介质可以是易失性的,也可以是非易失性的。所述存储介质可以是前述实施例所述的服务器的内部存储单元,例如所述服务器的硬盘或内存。所述存储介质也可以是所述服务器的外部存储设备,例如所述服务器上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。
进一步地,所述存储介质可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据区块链节点的使用所创建的数据等。
本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
应当理解,在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当理解,在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种舆情风险演变路径预测方法,其特征在于,包括:
获取目标舆情事件对应的报道文章集合,所述报道文章集合包括不同新闻媒体发布的与所述目标舆情事件关联的报道文章;
对每个所述报道文章进行分句,得到句子集合,识别所述句子集合中每个句子的第一内容风险点,并根据每个所述句子的第一内容风险点,确定所述目标舆情事件的多个目标内容风险点;
从预设的内容风险演变图谱库中获取与多个所述目标内容风险点匹配的内容风险演变图谱,所述内容风险演变图谱库中的每个内容风险演变图谱是预先根据对应的历史舆情事件的多个内容风险演变路径构建得到的;
将每个所述第一内容风险点与所述内容风险演变图谱中的第二内容风险点进行匹配,得到内容风险点匹配结果;
根据所述内容风险演变图谱和所述内容风险点匹配结果,确定所述目标舆情事件的参考风险演变路径。
2.根据权利要求1所述的舆情风险演变路径预测方法,其特征在于,所述根据每个所述句子的第一内容风险点,确定所述目标舆情事件的多个目标内容风险点,包括:
将全部所述句子的第一内容风险点作为内容风险点集合,所述内容风险点集合包括多种第一内容风险点;
统计所述内容风险点集合中的每种所述第一内容风险点的数量,并确定每种所述第一内容风险点的全部句子在对应所述报道文章中的位置;
根据每种所述第一内容风险点的数量和每种所述第一内容风险点的全部句子在对应所述报道文章中的位置,确定每种所述第一内容风险点的目标重要性评分;
基于所述目标重要性评分对每种所述第一内容风险点进行排序,得到内容风险点队列;
将所述内容风险点队列中的前n个第一内容风险点确定为所述目标舆情事件的n个目标内容风险点,n为大于或等于2的整数。
3.根据权利要求1所述的舆情风险演变路径预测方法,其特征在于,所述根据所述内容风险演变图谱和所述内容风险点匹配结果,确定所述目标舆情事件的参考风险演变路径,包括:
对于每个所述第二内容风险点,根据所述内容风险点匹配结果,确定与所述第二内容风险点匹配的所述第一内容风险点的数量,得到每个所述第二内容风险点的命中个数;
根据每个所述第二内容风险点的命中个数,确定所述内容风险演变图谱中的每条内容风险演变路径的命中个数;
将所述命中个数最高所对应的所述内容风险演变路径确定为所述目标舆情事件的参考风险演变路径。
4.根据权利要求1-3中任一项所述的舆情风险演变路径预测方法,其特征在于,所述根据每个所述句子的第一内容风险点,确定所述目标舆情事件的多个目标内容风险点之后,还包括:
运行预设的命名实体识别模型从每个所述句子中提取实体,以形成第一实体集合;
根据多个所述目标内容风险点和所述第一实体集合,确定所述目标舆情事件的目标风险等级;
根据所述第一实体集合确定所述目标舆情事件的涉事主体所属行业,并从预设的实体关系图谱库中获取与所述涉事主体所属行业匹配的实体关系图谱;
从所述实体关系图谱中获取与所述目标风险等级对应的实体关系子图谱;
根据所述实体关系子图谱和所述第一实体集合,确定后续会受到所述目标舆情事件影响的目标实体。
5.根据权利要求4所述的舆情风险演变路径预测方法,其特征在于,所述根据多个所述目标内容风险点和所述第一实体集合,确定所述目标舆情事件的目标风险等级,包括:
根据多个所述目标内容风险点,确定所述目标舆情事件的第一风险等级;
根据所述第一实体集合,确定所述目标舆情事件的第二风险等级;
确定每个所述新闻媒体的媒体层级,并将最高的所述媒体层级对应的新闻媒体作为目标新闻媒体;
根据所述目标新闻媒体的媒体层级和所述目标新闻媒体发布的与所述目标舆情事件关联的报道文章的发布版面位置,确定所述目标舆情事件的第三风险等级;
根据所述第一风险等级、所述第二风险等级和所述第三风险等级,确定所述目标舆情事件的目标风险等级。
6.根据权利要求4所述的舆情风险演变路径预测方法,其特征在于,所述根据所述实体关系子图谱和所述第一实体集合,确定后续会受到所述目标舆情事件影响的目标实体,包括:
将所述第一实体集合中的每个第一实体与所述实体关系子图谱中的每个第二实体进行匹配,得到实体匹配结果;
对于每个所述第二实体,根据所述实体匹配结果,确定与所述第二实体匹配的所述第一实体的数量,得到每个所述第二实体的命中次数;
将所述实体关系子图谱中所述命中次数小于预设命中次数所对应的所述第二实体确定为后续会受到所述目标舆情事件影响的目标实体。
7.根据权利要求1-3中任一项所述的舆情风险演变路径预测方法,其特征在于,所述获取目标舆情事件对应的报道文章集合之后,还包括:
根据所述报道文章集合,确定所述目标舆情事件的第一特征信息;
根据所述第一特征信息和每个历史舆情事件的第二特征信息,计算所述目标舆情事件与每个所述历史舆情事件之间的相似度;
将最高的所述相似度对应的所述历史舆情事件的风险演变路径确定为所述目标舆情事件的参考风险演变路径。
8.一种舆情风险演变路径预测装置,其特征在于,所述舆情风险演变路径预测装置包括:
获取模块,被配置为获取目标舆情事件对应的报道文章集合,所述报道文章集合包括不同新闻媒体发布的与所述目标舆情事件关联的报道文章;
风险点识别模块,被配置为对每个所述报道文章进行分句,得到句子集合,识别所述句子集合中每个句子的第一内容风险点;
风险点确定模块,被配置为根据每个所述句子的第一内容风险点,确定所述目标舆情事件的多个目标内容风险点;
图谱匹配模块,被配置为从预设的内容风险演变图谱库中获取与多个所述目标内容风险点匹配的内容风险演变图谱,所述内容风险演变图谱库中的每个内容风险演变图谱是预先根据对应的历史舆情事件的多个内容风险演变路径构建得到的;
风险点匹配模块,被配置为将每个所述第一内容风险点与所述内容风险演变图谱中的第二内容风险点进行匹配,得到内容风险点匹配结果;
路径预测模块,被配置为根据所述内容风险演变图谱和所述内容风险点匹配结果,确定所述目标舆情事件的参考风险演变路径。
9.一种服务器,其特征在于,所述服务器包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的计算机程序,其中所述计算机程序被所述处理器执行时,实现如权利要求1至7中任一项所述的舆情风险演变路径预测方法。
10.一种存储介质,用于计算机可读存储,其特征在于,所述存储介质上存储有计算机程序,其中所述计算机程序被处理器执行时,实现如权利要求1至7中任一项所述的舆情风险演变路径预测方法。
CN202311037922.5A 2023-08-16 2023-08-16 舆情风险演变路径预测方法、装置、服务器及存储介质 Pending CN117078008A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311037922.5A CN117078008A (zh) 2023-08-16 2023-08-16 舆情风险演变路径预测方法、装置、服务器及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311037922.5A CN117078008A (zh) 2023-08-16 2023-08-16 舆情风险演变路径预测方法、装置、服务器及存储介质

Publications (1)

Publication Number Publication Date
CN117078008A true CN117078008A (zh) 2023-11-17

Family

ID=88710966

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311037922.5A Pending CN117078008A (zh) 2023-08-16 2023-08-16 舆情风险演变路径预测方法、装置、服务器及存储介质

Country Status (1)

Country Link
CN (1) CN117078008A (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111160738A (zh) * 2019-12-18 2020-05-15 上海秒针网络科技有限公司 事件处理方法、装置、存储介质及电子装置
CA3138730A1 (en) * 2020-11-12 2022-05-12 10353744 Canada Ltd. Public-opinion analysis method and system for providing early warning of enterprise risks
CN115392953A (zh) * 2022-08-09 2022-11-25 太平金融科技服务(上海)有限公司深圳分公司 舆情风险预警方法、装置、计算机设备和存储介质
CN115935073A (zh) * 2023-01-06 2023-04-07 常来信息科技(苏州)有限公司 基于人工智能交叉验证的舆情分析方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111160738A (zh) * 2019-12-18 2020-05-15 上海秒针网络科技有限公司 事件处理方法、装置、存储介质及电子装置
CA3138730A1 (en) * 2020-11-12 2022-05-12 10353744 Canada Ltd. Public-opinion analysis method and system for providing early warning of enterprise risks
CN115392953A (zh) * 2022-08-09 2022-11-25 太平金融科技服务(上海)有限公司深圳分公司 舆情风险预警方法、装置、计算机设备和存储介质
CN115935073A (zh) * 2023-01-06 2023-04-07 常来信息科技(苏州)有限公司 基于人工智能交叉验证的舆情分析方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
魏静;朱恒民;宋瑞晓;蒋世兵;: "个体视角下的网络舆情传递链路预测分析", 现代图书情报技术, no. 01, 25 January 2016 (2016-01-25) *

Similar Documents

Publication Publication Date Title
WO2019218475A1 (zh) 异常行为对象的识别方法、装置、终端设备及介质
CN110751371B (zh) 基于统计四分位距的商品库存风险预警方法、系统及计算机可读存储介质
US8577155B2 (en) System and method for duplicate text recognition
US20110078141A1 (en) Database and Method for Evaluating Data Therefrom
CN111767716A (zh) 企业多级行业信息的确定方法、装置及计算机设备
CN113051291A (zh) 工单信息的处理方法、装置、设备及存储介质
CN117077628A (zh) 舆情应对预案生成方法、装置、服务器及存储介质
CN112052891A (zh) 机器行为识别方法、装置、设备及计算机可读存储介质
CN111428142A (zh) 一种基于随机森林分类器的代码评审人推荐系统及方法
US8311959B2 (en) System and method for classifying data streams with very large cardinality
CN113011689B (zh) 软件开发工作量的评估方法、装置及计算设备
CN117454410A (zh) 基于隐私计算的企业知识大脑数据存储方法
CN111179055A (zh) 授信额度调整方法、装置和电子设备
CN114493142A (zh) 扶持政策与企业匹配的方法、装置、设备及存储介质
CN112035775B (zh) 基于随机森林模型的用户识别方法、装置和计算机设备
CN111325255B (zh) 特定人群圈定方法、装置、电子设备及存储介质
CN117648581A (zh) 一种企业相似度评估方法、装置、终端及介质
CN117078008A (zh) 舆情风险演变路径预测方法、装置、服务器及存储介质
CN113240325B (zh) 数据处理方法、装置、设备及存储介质
CN115619420A (zh) 一种空壳企业精准识别方法、系统、设备及存储介质
CN113379212A (zh) 基于区块链的物流信息平台违约风险评估方法、装置、设备及介质
CN113849618A (zh) 基于知识图谱的策略确定方法、装置、电子设备及介质
CN113689114A (zh) 一种信用度的确定方法、装置和设备
CN113850483A (zh) 一种企业信用风险评级系统
CN117196293A (zh) 基于人工智能的舆情风险确定方法、装置、服务器及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination