CN114741501A - 舆情预警方法、装置、可读存储介质及电子设备 - Google Patents
舆情预警方法、装置、可读存储介质及电子设备 Download PDFInfo
- Publication number
- CN114741501A CN114741501A CN202210072438.5A CN202210072438A CN114741501A CN 114741501 A CN114741501 A CN 114741501A CN 202210072438 A CN202210072438 A CN 202210072438A CN 114741501 A CN114741501 A CN 114741501A
- Authority
- CN
- China
- Prior art keywords
- event
- public opinion
- text
- main body
- determining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0635—Risk analysis of enterprise or organisation activities
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Human Resources & Organizations (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Economics (AREA)
- Entrepreneurship & Innovation (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- Health & Medical Sciences (AREA)
- Operations Research (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Game Theory and Decision Science (AREA)
- Educational Administration (AREA)
- Quality & Reliability (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Development Economics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种舆情预警方法、装置、可读存储介质及其电子设备,舆情预警方法包括:获取舆情文本,根据预先设定的事件标签确定所述舆情文本中包括的事件,确定所述舆情文本中与所述事件对应的事件主体,确定所述舆情文本中所述事件主体的情感极性,将所述舆情文本与所述事件主体和所述事件标签关联。采用本方法能够从大量舆情新闻中获得关注度较高且风险较大的新闻,进一步准确地确定出与该舆情关联的主体,避免了一些无关紧要的舆情新闻与其关系不大的主体进行关联事件的发生,同时,通过本方法能够准确判断出该舆情新闻所表达的情感对应的主体,并与之关联,以使用户可以通过事件标签获取到主体对应的预警舆情以及通过舆情确定风险信息。
Description
技术领域
本发明涉及数据处理技术领域,具体涉及一种舆情预警方法、装置、可读存储介质及电子设备。
背景技术
在企业详情页的舆情板块中,用户希望可以通过该舆情板块了解到一家企业近期发生的事件、新闻等。为了使用户及时了解该企业对应舆情新闻中的舆情风险,需要将存在相关风险信息的舆情与企业对应,以供用户直观了解企业风险。然而互联网时代存在大量的舆情新闻,包括正面舆情和负面舆情,现有技术中并没有针对舆情新闻的情绪进行筛选,就仅通过模型简单的对舆情中的主体进行识别,这样不仅存在企业与舆情对应错误的情况,而且也会将一些无关紧要的舆情新闻与其关系不大的主体进行关联;此外,当舆情新闻中出现多个主体的情况时,现有技术并不能准确判断出该舆情新闻所表达的情感对应于多个主体中的哪个,同时,现有技术中也仅通过模型简单的对舆情进行情感识别,无法与其对应的主体进行准确关联,从而导致风险信息的可信度低,给用户带来了诸多不便。由此可见,如何准确地对具有风险信息的舆情进行预警成为当前亟待解决的技术问题。
发明内容
本发明提供一种舆情预警方法、装置、可读存储介质及其电子设备,用以克服或者缓解现有技术中存在的上述技术问题。
根据本发明的一个方面,提供了一种舆情预警方法,所述方法包括:
获取舆情文本;
根据预先设定的事件标签确定所述舆情文本中包括的事件;
确定所述舆情文本中与所述事件对应的事件主体;
确定所述舆情文本中所述事件主体的情感极性;
响应于根据所述事件主体对应的情感极性确定所述舆情文本符合预警条件,将所述舆情文本与所述事件主体和所述事件标签关联,以使用户通过所述事件标签获取到所述事件主体的风险信息。
可选地,所述根据预先设定的事件标签确定所述舆情文本中包括的事件之前,所述方法还包括:
使用垃圾语料词集合,判断所述舆情文本的质量;
若根据所述舆情文本的质量确定所述舆情文本为垃圾舆情,则对所述舆情文本执行过滤处理;
若根据所述舆情文本的质量确定所述舆情文本为有效舆情,则执行所述根据预先设定的事件标签确定所述舆情文本中包括的事件的步骤。
可选地,所述确定所述舆情文本中与所述事件对应的事件主体,具体包括:
使用事件主体字典树,对所述舆情文本进行事件主体挖掘,以获得所述舆情文本中的第一事件主体;
通过事件主体识别模型,对所述舆情文本进行事件主体识别,以获得所述舆情文本中的第二事件主体;
基于所述舆情文本中的第一事件主体和所述舆情文本中的第二事件主体,确定所述舆情文本中的所述事件主体。
可选地,所述确定所述舆情文本中的所述事件主体具体包括:
确定所述事件主体在所述舆情文本中出现的频次或者所述事件主体在所述舆情文本中以第一人称视角出现的频次;
基于所述事件主体在所述舆情文本中的出现频次或者所述事件主体在所述舆情文本中以第一人称视角出现的频次,确定所述事件主体与所述舆情文本的相关性;
基于所述事件主体与所述舆情文本的相关性,确定最终的事件主体。
可选地,所述确定所述舆情文本中与所述事件对应的事件主体,具体包括:
将所述舆情文本进行分句分词处理得到多个主体;
确定所述多个主体中的各个主体在所述舆情文本中以第一人称视角出现的频次;
基于所述各个主体在所述舆情文本中以第一人称视角出现的频次,确定与所述事件对应的事件主体。
可选地,所述将所述舆情文本进行分句分词处理得到多个主体,具体包括:
响应于舆情文本为中文文本,根据最终标识符对所述舆情文本进行分句得到多个语句;
响应于舆情文本为英文文本,根据预设标号和大写字母的组合方式对所述舆情文本进行分句得到多个语句;
对所述多个语句中的每个语句根据句子构成方式进行分词,得到每个语句的执行主语,将所述执行主语作为所述舆情文本中出现的多个主体。
可选地,所述根据预先设定的事件标签确定所述舆情文本中包括的事件,包括:
根据所述预先设定的事件标签对文本进行语料标注得到舆情样本数据;
基于所述舆情样本数据根据多标签分类模型方法对模型进行机器学习得到第一识别模型;
通过所述第一识别模型确定所述舆情文本中包括的事件。
可选地,所述根据预先设定的事件标签确定所述舆情文本中包括的事件,包括:
将所述预先设定的事件标签分类得到第一级事件标签和第二级事件标签;
根据所述第一级事件标签对文本进行语料标注得到第一舆情样本数据;
基于所述第一舆情样本数据对模型进行机器学习得到第一语义交互数据;
通过所述第一语义交互数据确定所述舆情文本中包括的与所述第一级事件标签对应的事件;
根据所述第二级事件标签对文本进行语料标注得到第二舆情样本数据;
基于所述第二舆情样本数据对模型进行机器学习得到第二语义交互数据;
通过所述第二语义交互数据确定所述舆情文本中包括的与所述第二级事件标签对应的事件。
可选地,所述确定所述舆情文本中与所述事件对应的事件主体,包括:
根据所述预先设定的事件标签和事件主体标签对文本进行语料标注得到舆情样本数据;
基于所述舆情样本数据根据二分类模型方法对模型进行机器学习得到第二识别模型;
通过所述第二识别模型确定所述舆情文本中与所述事件对应的事件主体。
可选地,所述确定所述舆情文本中与所述事件主体对应的情感极性,包括:
基于预先配置的情感问题模板,对舆情样本数据中的事件主体进行扩展,以获得所述舆情样本数据中的事件主体的情感问题文本;
基于所述情感问题文本中的字符的语义特征表征数据和所述舆情文本中的字符的语义特征表征数据,对所述情感问题文本与所述舆情文本进行语义交互处理,以获得所述情感问题文本与所述舆情文本的语义交互数据;
通过事件主体情感预测模型,基于所述情感问题文本与所述舆情文本的语义交互数据,确定所述事件主体在所述舆情文本中的情感极性。
可选地,所述基于所述情感问题文本中的字符的语义特征表征数据和所述舆情文本中的字符的语义特征表征数据,对所述情感问题文本与所述舆情文本进行语义交互处理,以获得所述情感问题文本与所述舆情文本的语义交互数据,包括:
确定所述情感问题文本中的字符的语义特征表征数据与所述舆情文本中的字符的语义特征表征数据的差的绝对值、所述情感问题文本中的字符的语义特征表征数据与所述舆情文本中的字符的语义特征表征数据的乘积,以及所述情感问题文本中的字符的语义特征表征数据与所述舆情文本中的字符的语义特征表征数据的拼接数据;
基于所述情感问题文本中的字符的语义特征表征数据与所述舆情文本中的字符的语义特征表征数据的差的绝对值、所述情感问题文本中的字符的语义特征表征数据与所述舆情文本中的字符的语义特征表征数据的乘积,以及所述情感问题文本中的字符的语义特征表征数据与所述舆情文本中的字符的语义特征表征数据的拼接数据,确定所述情感问题文本中的字符与所述舆情文本中的字符的语义交互数据;
基于所述情感问题文本中的字符与所述舆情文本中的字符的语义交互数据,确定所述情感问题文本与所述舆情文本的语义交互数据。
根据本发明的另一个方面,提供了一种舆情预警装置,所述装置包括:
获取模块,用于获取舆情文本;
第一确定模块,用于根据预先设定的事件标签确定所述舆情文本中包括的事件;
第二确定模块,用于确定所述舆情文本中与所述事件对应的事件主体;
第三确定模块,用于确定所述舆情文本中所述事件主体的情感极性;
所述关联模块,用于响应于根据所述事件主体对应的情感极性确定所述舆情文本符合预警条件,将所述舆情文本与所述事件主体和所述事件标签关联,以使用户通过所述事件标签获取到所述事件主体的风险信息。
根据本发明的又一个方面,提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机可执行程序,所述计算机可执行程序被运行以实施本发明实施例任一所述的方法。
根据本发明的又一个方面,提供了一种电子设备,所述电子设备包括存储器以及处理器,所述存储器上用于存储计算机可执行程序,所述处理器用于运行所述计算机可执行程序以实施本发明实施例任一所述的方法。
本发明提供了一种舆情预警方法,采用本方法能够从大量舆情新闻中获得关注度较高且风险较大的新闻,通过筛选后的舆情新闻进一步准确地确定出与该舆情关联的主体,避免了一些无关紧要的舆情新闻与其关系不大的主体进行关联事件的发生,与此同时,当舆情新闻中出现多个主体的情况时,通过本方法能够准确判断出该舆情新闻所表达的情感对应的主体,并将舆情预该主体进行关联,以使用户可以通过事件标签获取到主体对应的预警舆情以及通过舆情确定风险信息。
附图说明
图1为本发明实施例一种舆情预警方法流程示意图;
图2为本发明实施例一种舆情预警方法流程示意图;
图3为本发明实施例一种舆情预警方法流程示意图;
图4为本发明实施例一种舆情预警装置结构示意图;
图5为本发明实施例中电子设备的结构示意图。
具体实施方式
下面,将参考附图详细地描述根据本发明的示例实施例。显然,所描述的实施例仅仅是本发明的一部分实施例,而不是本发明的全部实施例,应理解,本发明不受这里描述的示例实施例的限制。
应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。
本领域技术人员可以理解,本发明实施例中的“第一”、“第二”等术语仅用于区别不同步骤、设备或模块等,既不代表任何特定技术含义,也不表示它们之间的必然逻辑顺序。
还应理解,在本发明实施例中,“多个”可以指两个或两个以上,“至少一个”可以指一个、两个或两个以上。
还应理解,对于本发明实施例中提及的任一部件、数据或结构,在没有明确限定或者在前后文给出相反启示的情况下,一般可以理解为一个或多个。
另外,本发明中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A 和B,单独存在B这三种情况。另外,本发明中字符“/”,一般表示前后关联对象是一种“或”的关系。
还应理解,本发明对各个实施例的描述着重强调各个实施例之间的不同之处,其相同或相似之处可以相互参考,为了简洁,不再一一赘述。
同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。
以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本发明及其应用或使用的任何限制。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,技术、方法和设备应当被视为说明书的一部分。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
本发明实施例可以应用于终端设备、计算机系统、服务器等电子设备,其可与众多其它通用或专用计算系统环境或配置一起操作。适于与终端设备、计算机系统、服务器等电子设备一起使用,众所周知的终端设备、计算系统、环境和/或配置的例子包括但不限于:个人计算机系统、服务器计算机系统、瘦客户机、胖客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统、大型计算机系统和包括上述任何系统的分布式云计算技术环境,等等。
终端设备、计算机系统、服务器等电子设备可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常,程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等,它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施,分布式云计算环境中,任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中,程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。
示例性方法
图1是本发明一示例性实施例提供的舆情预警方法的流程示意图;如图1 所示,舆情预警方法包括以下步骤:
步骤101、获取舆情文本;
在本实施例中,舆情文本可为从各个新闻媒体等产出舆情的渠道获取,例如各大新闻网站、新闻媒体账号发出的事件或者新闻等。可以理解的是,以上描述仅为示例性的,本实施例对此不做任何限定。
在一些可选实施例中,获取舆情文本之后还包括:
使用垃圾语料词集合,判断舆情文本的质量;
若根据舆情文本的质量确定舆情文本为垃圾舆情,则对舆情文本执行过滤处理;
若根据舆情文本的质量确定舆情文本为有效舆情,则执行根据预先设定的事件标签确定舆情文本中包括的事件的步骤。
在确定所述舆情文本为垃圾舆情时,对所述舆情文本执行过滤处理,能够有效确保所述舆情文本的质量。可以理解的是,以上描述仅为示例性的,本实施例对此不做任何限定。
在一个具体的例子中,垃圾语料词集合可以是预先配置的,若舆情文本的标题或者摘要中出现垃圾语料词集合中的垃圾语料词,则判断舆情文本的质量为低质量,并确定舆情文本为垃圾舆情,再对舆情文本执行过滤处理。例如,舆情文本的标题出现“发红包”等垃圾词,对舆情文本不作处理。若舆情文本的标题或者摘要中未出现垃圾语料词集合中的垃圾语料词,则判断舆情文本的质量为高质量,并确定舆情文本为有效舆情,再对舆情文本执行步骤102。可以理解的是,以上描述仅为示例性的,本实施例对此不做任何限定。
步骤102、根据预先设定的事件标签确定所述舆情文本中包括的事件;
在本实施例中,步骤102之前还包括根据历史新闻数据确定与事件主体有关联的关键词,根据关键词构建事件标签;需要说明的是,关键词包括表达正面意思的词和表达负面意思的词;
具体的,构建的事件标签包括:信用预警、承诺失信、兑付偿付不确定、债券债务违约、中债隐含评级、信用评级下调、评级展望负面、列入评级观察、推迟评级、责令改正、信披问题、财务预警、审计意见、担保预警、资金风险、计提坏账准备管理相关、高管变动、股权激励、员工持股计划、经营相关、经营业绩、战略合作、兼并收购、股权质押、增资募资、投融资、招投标、资产重组、利润分配、接管托管、生产产能、关联交易、产品信息、项目签约、市场相关、增持减持、股份回购、股权转让、新股发行、股价下跌、大宗交易、上市退市、借壳保壳、停复牌、限售股解禁、订单交易、其他相关、信贷业务、股东大会、评级信息、荣誉奖项、政策影响、考察调研、牌照、专利、公示公告、会议相关、比赛竞赛、区块链、竣工投用、组织成立、5G、自动驾驶、不可抗力;
具体的,事件标签还可被分类得到第一级事件标签和第二级事件标签;其中,第一级事件标签包括13个,具体为:信用预警、财务预警、管理预警、经营预警、监管预警、产品预警、项目预警、其他预警、管理相关、经营相关、市场相关、其他相关、不可抗力,上述提到的其他事件标签为第二级事件标签。
在一些可选实施例中,根据预先设定的事件标签确定舆情文本中包括的事件,包括:
根据预先设定的事件标签对文本进行语料标注得到舆情样本数据;
基于舆情样本数据根据多标签分类模型方法对模型进行机器学习得到第一识别模型;
通过第一识别模型确定舆情文本中包括的事件。
比如,在一具体应用场景中,示例文本为:巨头陨落!公司A上市以来首次季度亏损70余亿,昨夜美股狂泻5%。据昨日公布的财报数据显示,公司A2021 年Q4营收1000余亿元,同比增长64%;经营利润亏损70余亿元,而去年同期经营利润为70余亿元,同比暴跌207.73%。调查发现,公司A上一次单季度亏损还要倒回到2012年的二季度,距离目前已经近十年。根据事件标签对文本进行标注的事件包括经营业绩、股价下跌、垄断信息、暴雷事件。
在一些可选实施例中,基于舆情样本数据根据多标签分类模型方法对模型进行机器学习得到第一识别模型,具体包括:
使用基础模型对标注得到的样本数据编码得到文本表征向量;
基于损失函数和文本表征向量进行机器学习得到第一识别模型。
其中,损失函数的设计是针对多个事件样本不均衡的缘由,使用损失函数可加大样本学习的难度,从而增加对难度大的样本的权重系数;具体的,基于损失函数和文本表征向量进行机器学习得到第一识别模型过程中,事件标签与样本中对应词的权重系数根据如下公式计算:Label=a1*trigger+a2* other_word+...+an*low_word。
具体的,基础模型如bert、robert、ernie等加持,使用标注后的样本数据在模型上进行参数学习,使用多标签分类模型方法,对文本及上述事件标签交互学习得到第一识别模型,其中,单个文本使用sigmoid函数对每个事件标签做一次分类,概率值大于预设值0.5的表示存在该事件。
在一些可选实施例中,根据预先设定的事件标签确定舆情文本中包括的事件,包括:
将预先设定的事件标签分类得到第一级事件标签和第二级事件标签;
根据第一级事件标签对文本进行语料标注得到第一舆情样本数据;
基于第一舆情样本数据对模型进行机器学习得到第一语义交互数据;
通过第一语义交互数据确定舆情文本中包括的与第一级事件标签对应的事件;
根据第二级事件标签对文本进行语料标注得到第二舆情样本数据;
基于第二舆情样本数据对模型进行机器学习得到第二语义交互数据;
通过第二语义交互数据确定舆情文本中包括的与第二级事件标签对应的事件。
具体的,将事件标签划分级别,再分别通过不同的级别事件训练得到不同的事件对应的识别模型,这样可以起到制约作用,过滤掉模型预设出的事件关系不准的情形。
步骤103、确定所述舆情文本中与所述事件对应的事件主体;
在一些可选实施例中,如图2所示,确定所述舆情文本中与所述事件对应的事件主体,具体包括:
步骤201、使用事件主体字典树,对舆情文本进行事件主体挖掘,以获得舆情文本中的第一事件主体;
步骤202、通过事件主体识别模型,对舆情文本进行事件主体识别,以获得舆情文本中的第二事件主体;
步骤203、基于舆情文本中的第一事件主体和舆情文本中的第二事件主体,确定舆情文本中的事件主体。
籍此,通过事件主体字典树获得的舆情文本中的第一事件主体和事件主体识别模型获得的舆情文本中的第二事件主体,能够准确地确定舆情文本中的事件主体。在确定舆情文本中的事件主体时,确定舆情文本中的第一事件主体和舆情文本中的第二事件主体的交集为舆情文本中的事件主体。可以理解的是,以上描述仅为示例性的,本实施例对此不做任何限定。
在一个具体的例子中,事件主体字典树可理解为保存有事件主体的字符串的字典树。事件主体识别模型可理解为用于事件主体识别的神经网络模型,事件主体识别模型可以是任意适当的可实现特征提取或目标对象检测的神经网络模型,包括但不限于卷积神经网络、增强学习神经网络、对抗神经网络中的生成网络等。神经网络中具体结构的设置可以由本领域技术人员根据实际需求适当设定,如卷积层的层数、卷积核的大小、通道数等。可以理解的是,以上描述仅为示例性的,本实施例对此不做任何限定。
在一个具体的例子中,使用事件主体字典树做匹配,获得舆情文本中的第一事件主体,即使用字符串匹配方式挖掘事件主体,然而,该方式缺失语义信息,但该方式召回率高。使用事件主体识别方式,可引入语义信息,综合事件主体字典树和事件主体识别模型,能够提升召回率与准确度,则事件主体更可靠,对后续情感极性的确定准确度有提升。例如,舆情文本为“苹果最近涨价,一斤5块钱。/苹果手机最近推出新系列,价格不增反减。”,前面讲的是水果,后面讲的是手机,如果仅通过事件主体字典树匹配,则该事件主体会引入事件主体错误,最终不管情感预测是否准确,结果都是错误的。如果加入事件主体识别模型,最终水果不会被识别,模型仅识别事件主体,如苹果手机中苹果代表苹果公司。这样,可减少事件主体错误,对最终预测的事件主体的情感极性有所提升。可以理解的是,以上描述仅为示例性的,本实施例对此不做任何限定。
在一些可选实施例中,在确定舆情文本中的事件主体之后,还包括:
确定事件主体在舆情文本中的出现频次或者事件主体在舆情文本中以第一人称视角出现的频次;
基于事件主体在舆情文本中的出现频次或者事件主体在舆情文本中以第一人称视角出现的频次,确定事件主体与舆情文本的相关性;
基于事件主体与舆情文本的相关性,确定最终的事件主体。
籍此,通过事件主体在舆情文本中的出现频次或者事件主体在舆情文本中以第一人称视角出现的频次,能够准确地确定事件主体与舆情文本的相关性,此外,通过事件主体与舆情文本的相关性,能够准确地确定最终的事件主体。可以理解的是,以上描述仅为示例性的,本实施例对此不做任何限定。
在一个具体的例子中,事件主体在舆情文本中的出现频次越多,事件主体与舆情文本的相关性越强。事件主体在舆情文本中以第一人称视角出现的频次越多,事件主体与舆情文本的相关性越强。其中,相关性可采用相关性表征数据进行表征。在确定最终的事件主体时,确定与舆情文本的相关性最强的事件主体为最终的事件主体。例如,舆情文本为“公司B与某企业关于某游戏发生诉讼,公司B获胜”,公司B以第一人称视角,且出现两次,则舆情文本与公司B相关性更大。可以理解的是,以上描述仅为示例性的,本实施例对此不做任何限定。
在一些可选实施例中,如图3所示,确定所述舆情文本中与所述事件对应的事件主体,具体包括:
步骤301、将舆情文本进行分句分词处理得到多个主体;
步骤302、确定多个主体中的各个主体在舆情文本中以第一人称视角出现的频次;
步骤303、基于各个主体在舆情文本中以第一人称视角出现的频次,确定与事件对应的事件主体。
具体的,将舆情文本进行分句分词处理得到多个主体,具体包括:
响应于舆情文本为中文文本,根据最终标识符对舆情文本进行分句得到多个语句;
响应于舆情文本为英文文本,根据预设标号和大写字母的组合方式对舆情文本进行分句得到多个语句;
对多个语句中的每个语句根据句子构成方式进行分词,得到每个语句的执行主语,将执行主语作为舆情文本中出现的多个主体。
在一个具体的例子中,若舆情文本为中文文本,则根据句子的结尾符合即句号对舆情文本进行分句得到多个语句;若舆情文本为英文文本,则根据英文句子结尾符合即点与下一个大写字母开头的位置对舆情文本进行分句得到多个语句。
在一些可选实施例中,确定舆情文本中与事件对应的事件主体,包括:
根据预先设定的事件标签和事件主体标签对文本进行语料标注得到舆情样本数据;基于舆情样本数据根据二分类模型方法对模型进行机器学习得到第二识别模型;通过第二识别模型确定舆情文本中与事件对应的事件主体。
比如,在一具体应用场景中,示例文本为:2019年5月,某部门接到有关甲县四家驾校的举报材料。初步核查后,某部门于2019年7月正式立案调查。涉案企业分别为A驾校、B驾校、C驾校,以及D驾校,均在甲县开展驾驶员培训业务。具体的,标注事件包括:垄断信息,立案调查;标注事件对应的主体包括:垄断信息主体为:A驾校、B驾校、C驾校、D驾校,立案调查主体为:A驾校、B驾校、C驾校、D驾校;
具体的,使用预训练语言模型,如bert、robert、ernie等加持,使用标注得到的样本数据在多事件的多主体抽取模型上进行参数学习,本发明使用类阅读理解方式,将多事件拆分,如上垄断信息、立案调查,分别与文本做拼接,即[CLS]垄断信息[SEP]文本,然后通过激活函数sigmoid对事件的多主体完成起始位置的概率预测与终止位置的概率预测,即二分类,判断文本某个字是否为事件主体的起始位置或终止位置,最后对预测出的结果截取实体,得到的实体集合即为事件的多主体,然后对[CLS]立案调查[SEP]文本,做同样操作,即可完成多事件的多主体模型的训练。
在一些可选实施例中,由于事件主体会出现个数不均匀,差异大的问题,对预测难度大的样本,使用损失函数focal loss加大权重系数,其中,损失函数的设计是针对多个事件样本不均衡的缘由,使用损失函数可加大样本学习的难度,从而增加对难度大的样本的权重系数;具体的,事件标签与样本中对应词的权重系数根据如下公式计算:Label=a1*trigger+a2*other_word +...+an*low_word。其中,a1、a2…an表示权重,trigger表示事件的一类关键词,other word表示非事件的一类词,low word表示非关键词。
步骤104、确定所述舆情文本中所述事件主体的情感极性;
在一些可选实施例中,确定舆情文本中与事件主体对应的情感极性,包括:
基于预先配置的情感问题模板,对舆情样本数据中的事件主体进行扩展,以获得舆情样本数据中的事件主体的情感问题文本;
基于情感问题文本中的字符的语义特征表征数据和舆情文本中的字符的语义特征表征数据,对情感问题文本与舆情文本进行语义交互处理,以获得情感问题文本与舆情文本的语义交互数据;
通过事件主体情感预测模型,基于情感问题文本与舆情文本的语义交互数据,确定事件主体在舆情文本中的情感极性。
具体的,基于情感问题文本中的字符的语义特征表征数据和舆情文本中的字符的语义特征表征数据,对情感问题文本与舆情文本进行语义交互处理,以获得情感问题文本与舆情文本的语义交互数据,包括:
确定情感问题文本中的字符的语义特征表征数据与舆情文本中的字符的语义特征表征数据的差的绝对值、情感问题文本中的字符的语义特征表征数据与舆情文本中的字符的语义特征表征数据的乘积,以及情感问题文本中的字符的语义特征表征数据与舆情文本中的字符的语义特征表征数据的拼接数据;
基于情感问题文本中的字符的语义特征表征数据与舆情文本中的字符的语义特征表征数据的差的绝对值、情感问题文本中的字符的语义特征表征数据与舆情文本中的字符的语义特征表征数据的乘积,以及情感问题文本中的字符的语义特征表征数据与舆情文本中的字符的语义特征表征数据的拼接数据,确定情感问题文本中的字符与舆情文本中的字符的语义交互数据;
基于情感问题文本中的字符与所述舆情文本中的字符的语义交互数据,确定情感问题文本与舆情文本的语义交互数据。
在一些可选实施例中,在基于预先配置的情感问题模板,将舆情文本中的事件主体代入预先配置的情感问题模板,以生成事件主体的情感问题文本。
籍此,能够有效地生成事件主体的情感问题文本,进而使得事件主体与舆情文本的交互信息更多,从而提升事件主体的情感极性的准确度。可以理解的是,以上描述仅为示例性的,本实施例对此不做任何限定。
在本实施例中,预先配置的情感问题模板可为“企业、机构等实体xxx 在本段文本内容里存在正面、中性、负面三种情感极性中的一种是”。可以理解的是,以上描述仅为示例性的,本实施例对此不做任何限定。
在一个具体的例子中,例如,事件主体为“公司B”,情感问题模板为“企业、机构等实体xxx在本段文本内容里存在正面、中性、负面三种情感极性中的一种是”,可以将“公司B”代入“企业、机构等实体xx在本段文本内容里存在正面、中性、负面三种情感极性中的一种是”。可以理解的是,以上描述仅为示例性的,本实施例对此不做任何限定。
在本实施例中,事件主体情感预测模型可理解为用于事件主体情感预测的神经网络模型,事件主体情感预测模型可以是任意适当的可实现特征提取或目标对象检测的神经网络模型,包括但不限于卷积神经网络、增强学习神经网络、对抗神经网络中的生成网络等。神经网络中具体结构的设置可以由本领域技术人员根据实际需求适当设定,如卷积层的层数、卷积核的大小、通道数等。在具体实施时,可以使用阅读理解模型替换事件主体情感预测模型,预测事件主体的情感极性。事件主体的情感极性可包括非负面、负面。所述事件主体的情感极性的标签可为0、1。其中,0与负面对应、1与非负面对应。可以理解的是,以上描述仅为示例性的,本实施例对此不做任何限定。
在一个具体的例子中,可以使用大型预训练语言模型,如bert模型、roberta模型、ernie模型等对文本中的字符进行表征,使用深度神经网络学习语义、句法信息,构建舆情文本与事件主体的情感问题文本,进行事件主体的情感极性的预测,最后为对基于事件主体的情感问题文本与舆情文本交互后的关系问答,即预测事件主体的情感极性,该任务为一个文本分类任务,标签数为3,最后全连接层激活函数使用softmax。
例如,所述舆情文本为“某平台:成也AA,败也AA。两年,AA做了两次战略误判:重金押宝C业务和D计划。巧合的是,两次误判在6月30日出现了一个交汇点:AA正式上市,某平台交易量冲至最后一个高点。如果说上市的后续走向还经历了一番博弈,那么某平台的败局则立竿见影,7月1日,全平台交易量断崖式下滑,某些品类甚至跌去60%”,事件主体的情感问题文本为“企业、机构等实体AA在本段文本内容里存在正面、中性、负面三种情感极性中的一种是”,得到的事件主体所属的情感极性及其标签分别为非负面和1。可以理解的是,以上描述仅为示例性的,本实施例对此不做任何限定。
在一些可选实施例中,在确定事件主体所属的情感极性之后,所述方法还包括:使用用于纠正所述情感极性的正则表达式,对所述舆情文本进行事件主体匹配,以获得所述舆情文本中的匹配的事件主体;若所述舆情文本中的匹配的事件主体与所述舆情文本中的事件主体相同,则使用所述正则表达式所表征的情感极性,纠正事件主体所属的情感极性。籍此,能够进一步提高事件主体所属的情感极性的准确度。可以理解的是,以上描述仅为示例性的,本实施例对此不做任何限定。
在一个具体的例子中,事件主体情感预测模型可以解决大部分问题,针对少部分模型未能处理的,易造成模型误解,降低模型性能的情况,可以在不修改模型的前提下,使用明显的特征,对该情况进行处理。例如,当所述舆情文本为“据天眼查数据显示,那么天眼查在文本中情感为中性,且大部分情况下为中性,但如果天眼查数据显示,AA最近被约谈,app被下架”时,一些极其负面的信息出现在天眼查附近,容易对该事件主体造成负面的影响。使用正则表达式,如*实体*数据显示/报道等,可以对该类事件主体的情感极性予以纠正,提升准确度。可以理解的是,以上描述仅为示例性的,本实施例对此不做任何限定。
步骤105、响应于根据所述事件主体对应的情感极性确定所述舆情文本符合预警条件,将所述舆情文本与所述事件主体和所述事件标签关联。
在本实施例中,步骤105还包括,根据所述事件主体对应的情感极性确定所述舆情文本是否符合预警条件;具体的,若舆情文本中存在事件,存在该事件对应的事件主体,并且在该舆情中事件主体情感为负面,则符合预警条件。
在一个具体的例子中,舆情文本为:某新闻网客户端2021年7月27日讯 (某晚报记者甲)近日,某部门开展行动,并对某网约车平台进行约谈。约谈会后,某部门向平台开具《通知书》,该网约车平台涉及事件10宗。具体的,确定的舆情文本中的事件包括:A事件[0.073,0.927],B事件[0.273,0.727];确定的事件对应的事件主体为:某网约车平台;确定的事件主体情感:某网约车平台,负面,[0.97,0.02,0.01];根据情感极性确定该舆情文本符合预警条件:存在事件,事件存在事件主体,事件主体情感为负面,满足以上条件及符合预警条件。
采用本方法能够从大量舆情新闻中获得关注度较高且风险较大的新闻,通过筛选后的舆情新闻进一步准确地确定出与该舆情关联的主体,避免了一些无关紧要的舆情新闻与其关系不大的主体进行关联事件的发生,与此同时,当舆情新闻中出现多个主体的情况时,通过本方法能够准确判断出该舆情新闻所表达的情感对应的主体,并将舆情与该主体进行关联,以使用户可以通过事件标签获取到主体对应的预警舆情以及通过舆情确定风险信息。
示例性装置
图4为本发明实施例一种舆情预警装置的结构示意图;如图4所示,舆情预警装置400包括:
获取模块401,用于获取舆情文本;
第一确定模块402,用于根据预先设定的事件标签确定所述舆情文本中包括的事件;
第二确定模块403,用于确定所述舆情文本中与所述事件对应的事件主体;
第三确定模块404,用于确定所述舆情文本中所述事件主体的情感极性;
所述关联模块405,用于响应于根据所述事件主体对应的情感极性确定所述舆情文本符合预警条件,将所述舆情文本与所述事件主体和所述事件标签关联,以使用户通过所述事件标签获取到所述事件主体的风险信息。
可选地,在本实施例中,该装置还包括:判断模块,用于使用垃圾语料词集合,判断所述舆情文本的质量;还用于根据所述舆情文本的质量确定所述舆情文本为垃圾舆情,对所述舆情文本执行过滤处理;还用于根据所述舆情文本的质量确定所述舆情文本为有效舆情,触发第一确定模块。
可选地,在本实施例中,第二确定模块具体用于使用事件主体字典树,对所述舆情文本进行事件主体挖掘,以获得所述舆情文本中的第一事件主体;通过事件主体识别模型,对所述舆情文本进行事件主体识别,以获得所述舆情文本中的第二事件主体;基于所述舆情文本中的第一事件主体和所述舆情文本中的第二事件主体,确定所述舆情文本中的所述事件主体。
可选地,在本实施例中,该装置还包括第四确定模块,用于确定所述事件主体在所述舆情文本中出现的频次或者所述事件主体在所述舆情文本中以第一人称视角出现的频次;基于所述事件主体在所述舆情文本中的出现频次或者所述事件主体在所述舆情文本中以第一人称视角出现的频次,确定所述事件主体与所述舆情文本的相关性;基于所述事件主体与所述舆情文本的相关性,确定最终的事件主体。
可选地,在本实施例中,第二确定模块具体包括:处理单元和确定单元,其中,处理单元用于将所述舆情文本进行分句分词处理得到多个主体;确定单元用于确定所述多个主体中的各个主体在所述舆情文本中以第一人称视角出现的频次;基于所述各个主体在所述舆情文本中以第一人称视角出现的频次,确定与所述事件对应的事件主体。
可选地,在本实施例中,处理单元具体用于响应于舆情文本为中文文本,根据最终标识符对所述舆情文本进行分句得到多个语句;响应于舆情文本为英文文本,根据预设标号和大写字母的组合方式对所述舆情文本进行分句得到多个语句;对所述多个语句中的每个语句根据句子构成方式进行分词,得到每个语句的执行主语,将所述执行主语作为所述舆情文本中出现的多个主体。
可选地,在本实施例中,第一确定模块具体用于根据所述预先设定的事件标签对文本进行语料标注得到舆情样本数据;基于所述舆情样本数据根据多标签分类模型方法对模型进行机器学习得到第一识别模型;通过所述第一识别模型确定所述舆情文本中包括的事件。
可选地,在本实施例中,第一确定模块具体用于将所述预先设定的事件标签分类得到第一级事件标签和第二级事件标签;根据所述第一级事件标签对文本进行语料标注得到第一舆情样本数据;基于所述第一舆情样本数据对模型进行机器学习得到第一语义交互数据;通过所述第一语义交互数据确定所述舆情文本中包括的与所述第一级事件标签对应的事件;根据所述第二级事件标签对文本进行语料标注得到第二舆情样本数据;基于所述第二舆情样本数据对模型进行机器学习得到第二语义交互数据;通过所述第二语义交互数据确定所述舆情文本中包括的与所述第二级事件标签对应的事件。
可选地,在本实施例中,第二确定模块具体用于根据所述预先设定的事件标签和事件主体标签对文本进行语料标注得到舆情样本数据;基于所述舆情样本数据根据二分类模型方法对模型进行机器学习得到第二识别模型;通过所述第二识别模型确定所述舆情文本中与所述事件对应的事件主体。
可选地,在本实施例中,第三确定模块具体用于基于预先配置的情感问题模板,对舆情样本数据中的事件主体进行扩展,以获得所述舆情样本数据中的事件主体的情感问题文本;基于所述情感问题文本中的字符的语义特征表征数据和所述舆情文本中的字符的语义特征表征数据,对所述情感问题文本与所述舆情文本进行语义交互处理,以获得所述情感问题文本与所述舆情文本的语义交互数据;通过事件主体情感预测模型,基于所述情感问题文本与所述舆情文本的语义交互数据,确定所述事件主体在所述舆情文本中的情感极性。
示例性电子设备
图5是本发明一示例性实施例提供的电子设备的结构。该电子设备可以是第一设备和第二设备中的任一个或两者、或与它们独立的单机设备,该单机设备可以与第一设备和第二设备进行通信,以从它们接收所采集到的输入信号。图5图示了根据本发明实施例的电子设备的框图。如图5所示,电子设备500 包括一个或多个处理器501和存储器502。
处理器501可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元,并且可以控制电子设备中的其他组件以执行期望的功能。
存储器502可以包括一个或多个计算机程序,所述计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器 (cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器501可以运行所述程序指令,以实现上文所述的本发明的各个实施例的舆情预警方法以及/或者其他期望的功能。在一个示例中,电子设备还可以包括:输入装置503和输出装置504,这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。
此外,该输入装置503还可以包括例如键盘、鼠标等等。
该输出装置504可以向外部输出各种信息。该输出设备504可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。
当然,为了简化,图5中仅示出了该电子设备中与本发明有关的组件中的一些,省略了诸如总线、输入/输出接口等等的组件。除此之外,根据具体应用情况,电子设备还可以包括任何其他适当的组件。
示例性计算机程序产品和计算机可读存储介质
除了上述方法和设备以外,本发明的实施例还可以是计算机程序产品,其包括计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本发明各种实施例的舆情预警方法中的步骤。
所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本发明实施例操作的程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如Java、C++等,还包括常规的过程式程序设计语言,诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。
此外,本发明的实施例还可以是计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本发明各种实施例的舆情预警方法中的步骤。
所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器 (CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
以上结合具体实施例描述了本发明的基本原理,但是,需要指出的是,在本发明中提及的优点、优势、效果等仅是示例而非限制,不能认为这些优点、优势、效果等是本发明的各个实施例必须具备的。另外,上述公开的具体细节仅是为了示例的作用和便于理解的作用,而非限制,上述细节并不限制本发明为必须采用上述具体的细节来实现。
本说明书中各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似的部分相互参见即可。对于系统实施例而言,由于其与方法实施例基本对应,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本发明中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的,可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇,指“包括但不限于”,且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”,且可与其互换使用,除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”,且可与其互换使用。
可能以许多方式来实现本发明的方法和装置。例如,可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本发明的方法和装置。用于所述方法的步骤的上述顺序仅是为了进行说明,本发明的方法的步骤不限于以上具体描述的顺序,除非以其它方式特别说明。此外,在一些实施例中,还可将本发明实施为记录在记录介质中的程序,这些程序包括用于实现根据本发明的方法的机器可读指令。因而,本发明还覆盖存储用于执行根据本发明的方法的程序的记录介质。
还需要指出的是,在本发明的装置、设备和方法中,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本发明的等效方案。提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本发明。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的,并且在此定义的一般原理可以应用于其他方面而不脱离本发明的范围。因此,本发明不意图被限制到在此示出的方面,而是按照与在此公开的原理和新颖的特征一致的最宽范围。
为了例示和描述的目的已经给出了以上描述。此外,此描述不意图将本发明的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例,但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。
Claims (14)
1.一种舆情预警方法,其特征在于,所述方法包括:
获取舆情文本;
根据预先设定的事件标签确定所述舆情文本中包括的事件;
确定所述舆情文本中与所述事件对应的事件主体;
确定所述舆情文本中所述事件主体的情感极性;
响应于根据所述事件主体对应的情感极性确定所述舆情文本符合预警条件,将所述舆情文本与所述事件主体和所述事件标签关联,以使用户通过所述事件标签获取到所述事件主体的风险信息。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
使用垃圾语料词集合,判断所述舆情文本的质量;
若根据所述舆情文本的质量确定所述舆情文本为垃圾舆情,则对所述舆情文本执行过滤处理;
若根据所述舆情文本的质量确定所述舆情文本为有效舆情,则执行所述根据预先设定的事件标签确定所述舆情文本中包括的事件的步骤。
3.根据权利要求1所述的方法,其特征在于,所述确定所述舆情文本中与所述事件对应的事件主体,具体包括:
使用事件主体字典树,对所述舆情文本进行事件主体挖掘,以获得所述舆情文本中的第一事件主体;
通过事件主体识别模型,对所述舆情文本进行事件主体识别,以获得所述舆情文本中的第二事件主体;
基于所述舆情文本中的第一事件主体和所述舆情文本中的第二事件主体,确定所述舆情文本中的所述事件主体。
4.根据权利要求3所述的方法,其特征在于,所述确定所述舆情文本中的所述事件主体之后,还包括:
确定所述事件主体在所述舆情文本中出现的频次或者所述事件主体在所述舆情文本中以第一人称视角出现的频次;
基于所述事件主体在所述舆情文本中的出现频次或者所述事件主体在所述舆情文本中以第一人称视角出现的频次,确定所述事件主体与所述舆情文本的相关性;
基于所述事件主体与所述舆情文本的相关性,确定最终的事件主体。
5.根据权利要求1所述的方法,其特征在于,所述确定所述舆情文本中与所述事件对应的事件主体,具体包括:
将所述舆情文本进行分句分词处理得到多个主体;
确定所述多个主体中的各个主体在所述舆情文本中以第一人称视角出现的频次;
基于所述各个主体在所述舆情文本中以第一人称视角出现的频次,确定与所述事件对应的事件主体。
6.根据权利要求1所述的方法,其特征在于,所述将所述舆情文本进行分句分词处理得到多个主体,具体包括:
响应于舆情文本为中文文本,根据最终标识符对所述舆情文本进行分句得到多个语句;
响应于舆情文本为英文文本,根据预设标号和大写字母的组合方式对所述舆情文本进行分句得到多个语句;
对所述多个语句中的每个语句根据句子构成方式进行分词,得到每个语句的执行主语,将所述执行主语作为所述舆情文本中出现的多个主体。
7.根据权利要求1所述的方法,其特征在于,所述根据预先设定的事件标签确定所述舆情文本中包括的事件,包括:
根据所述预先设定的事件标签对文本进行语料标注得到舆情样本数据;
基于所述舆情样本数据根据多标签分类模型方法对模型进行机器学习得到第一识别模型;
通过所述第一识别模型确定所述舆情文本中包括的事件。
8.根据权利要求1所述的方法,其特征在于,所述根据预先设定的事件标签确定所述舆情文本中包括的事件,包括:
将所述预先设定的事件标签分类得到第一级事件标签和第二级事件标签;
根据所述第一级事件标签对文本进行语料标注得到第一舆情样本数据;
基于所述第一舆情样本数据对模型进行机器学习得到第一语义交互数据;
通过所述第一语义交互数据确定所述舆情文本中包括的与所述第一级事件标签对应的事件;
根据所述第二级事件标签对文本进行语料标注得到第二舆情样本数据;
基于所述第二舆情样本数据对模型进行机器学习得到第二语义交互数据;
通过所述第二语义交互数据确定所述舆情文本中包括的与所述第二级事件标签对应的事件。
9.根据权利要求1所述的方法,其特征在于,所述确定所述舆情文本中与所述事件对应的事件主体,包括:
根据所述预先设定的事件标签和事件主体标签对文本进行语料标注得到舆情样本数据;
基于所述舆情样本数据根据二分类模型方法对模型进行机器学习得到第二识别模型;
通过所述第二识别模型确定所述舆情文本中与所述事件对应的事件主体。
10.根据权利要求9所述的方法,其特征在于,所述确定所述舆情文本中与所述事件主体对应的情感极性,包括:
基于预先配置的情感问题模板,对舆情样本数据中的事件主体进行扩展,以获得所述舆情样本数据中的事件主体的情感问题文本;
基于所述情感问题文本中的字符的语义特征表征数据和所述舆情文本中的字符的语义特征表征数据,对所述情感问题文本与所述舆情文本进行语义交互处理,以获得所述情感问题文本与所述舆情文本的语义交互数据;
通过事件主体情感预测模型,基于所述情感问题文本与所述舆情文本的语义交互数据,确定所述事件主体在所述舆情文本中的情感极性。
11.根据权利要求10所述的方法,其特征在于,所述基于所述情感问题文本中的字符的语义特征表征数据和所述舆情文本中的字符的语义特征表征数据,对所述情感问题文本与所述舆情文本进行语义交互处理,以获得所述情感问题文本与所述舆情文本的语义交互数据,包括:
确定所述情感问题文本中的字符的语义特征表征数据与所述舆情文本中的字符的语义特征表征数据的差的绝对值、所述情感问题文本中的字符的语义特征表征数据与所述舆情文本中的字符的语义特征表征数据的乘积,以及所述情感问题文本中的字符的语义特征表征数据与所述舆情文本中的字符的语义特征表征数据的拼接数据;
基于所述情感问题文本中的字符的语义特征表征数据与所述舆情文本中的字符的语义特征表征数据的差的绝对值、所述情感问题文本中的字符的语义特征表征数据与所述舆情文本中的字符的语义特征表征数据的乘积,以及所述情感问题文本中的字符的语义特征表征数据与所述舆情文本中的字符的语义特征表征数据的拼接数据,确定所述情感问题文本中的字符与所述舆情文本中的字符的语义交互数据;
基于所述情感问题文本中的字符与所述舆情文本中的字符的语义交互数据,确定所述情感问题文本与所述舆情文本的语义交互数据。
12.一种舆情预警装置,其特征在于,所述装置包括:
获取模块,用于获取舆情文本;
第一确定模块,用于根据预先设定的事件标签确定所述舆情文本中包括的事件;
第二确定模块,用于确定所述舆情文本中与所述事件对应的事件主体;
第三确定模块,用于确定所述舆情文本中所述事件主体的情感极性;
所述关联模块,用于响应于根据所述事件主体对应的情感极性确定所述舆情文本符合预警条件,将所述舆情文本与所述事件主体和所述事件标签关联,以使用户通过所述事件标签获取到所述事件主体的风险信息。
13.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机可执行程序,所述计算机可执行程序被运行以实施权利要求1-11任一所述的方法。
14.一种电子设备,其特征在于,所述电子设备包括存储器以及处理器,所述存储器上用于存储计算机可执行程序,所述处理器用于运行所述计算机可执行程序以实施权利要求1-11任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210072438.5A CN114741501A (zh) | 2022-01-21 | 2022-01-21 | 舆情预警方法、装置、可读存储介质及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210072438.5A CN114741501A (zh) | 2022-01-21 | 2022-01-21 | 舆情预警方法、装置、可读存储介质及电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114741501A true CN114741501A (zh) | 2022-07-12 |
Family
ID=82274632
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210072438.5A Pending CN114741501A (zh) | 2022-01-21 | 2022-01-21 | 舆情预警方法、装置、可读存储介质及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114741501A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115221416A (zh) * | 2022-08-18 | 2022-10-21 | 上海金仕达软件科技有限公司 | 一种声誉风险定位分析方法及系统 |
-
2022
- 2022-01-21 CN CN202210072438.5A patent/CN114741501A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115221416A (zh) * | 2022-08-18 | 2022-10-21 | 上海金仕达软件科技有限公司 | 一种声誉风险定位分析方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3985578A1 (en) | Method and system for automatically training machine learning model | |
Tang et al. | Incorporating textual and management factors into financial distress prediction: A comparative study of machine learning methods | |
US20230222366A1 (en) | Systems and methods for semantic analysis based on knowledge graph | |
CN109872162B (zh) | 一种处理用户投诉信息的风控分类识别方法及系统 | |
CN107247728B (zh) | 文本处理方法、装置及计算机存储介质 | |
CN109740642A (zh) | 发票类别识别方法、装置、电子设备及可读存储介质 | |
Robb et al. | S tandard B usiness R eporting in A ustralia: efficiency, effectiveness, or both? | |
CN111179051A (zh) | 金融目标客户确定方法、装置及电子设备 | |
WO2018028065A1 (zh) | 一种短信息分类方法、装置及计算机存储介质 | |
CN111782793A (zh) | 智能客服处理方法和系统及设备 | |
CN108804564A (zh) | 金融产品的组合推荐方法及终端设备 | |
CN111582314A (zh) | 目标用户确定方法、装置及电子设备 | |
CN116109373A (zh) | 金融产品的推荐方法、装置、电子设备和介质 | |
CN114119136A (zh) | 一种产品推荐方法、装置、电子设备和介质 | |
EP4044094A1 (en) | System and method for determining and managing reputation of entities and industries through use of media data | |
CN113392920B (zh) | 生成作弊预测模型的方法、装置、设备、介质及程序产品 | |
CN113378090B (zh) | 一种互联网网站相似度分析方法、装置以及可读存储介质 | |
CN114741501A (zh) | 舆情预警方法、装置、可读存储介质及电子设备 | |
CN115563176A (zh) | 一种电子商务数据处理系统及方法 | |
Roelands et al. | Classifying businesses by economic activity using web-based text mining | |
CN114357184A (zh) | 事项推荐方法及相关装置、电子设备和存储介质 | |
CN114936559B (zh) | 一种基于多模型融合的多级事件抽取方法和抽取系统 | |
CN112115258A (zh) | 一种用户的信用评价方法、装置、服务器及存储介质 | |
CN114896987B (zh) | 基于半监督预训练模型的细粒度情感分析方法和装置 | |
US20230368557A1 (en) | Image reading systems, methods and storage medium for performing entity extraction, grouping and validation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |