CN114398484A - 一种舆情分析方法、装置、设备及存储介质 - Google Patents
一种舆情分析方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN114398484A CN114398484A CN202111600425.2A CN202111600425A CN114398484A CN 114398484 A CN114398484 A CN 114398484A CN 202111600425 A CN202111600425 A CN 202111600425A CN 114398484 A CN114398484 A CN 114398484A
- Authority
- CN
- China
- Prior art keywords
- event
- text data
- structured
- data
- target text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2216/00—Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
- G06F2216/03—Data mining
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Fuzzy Systems (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供了一种舆情分析方法、装置、设备及存储介质,其中,方法包括:获取若干文本数据,并将每个文本数据处理为结构化的事件描述,得到若干结构化的事件描述;若当前无事件类,则对所述若干结构化的事件描述进行聚类,以得到若干事件类,若当前已有事件类,则将结构化的事件描述归至所属的事件类;统计每个事件类对应的事件发生数量,并在基于事件发生数量确定对应的事件类满足预设预警条件时,输出对应事件类对应的预警文案。本申请提供的舆情分析方法,可自动、及时、准确地从海量数据中挖掘出舆情信息。
Description
技术领域
本申请涉及自然语言处理技术领域,尤其涉及一种舆情分析方法、装置、设备及存储介质。
背景技术
随着互联网和大数据等技术的发展,各行各业无时无刻都在产生着海量的数据,如何从这些海量数据中实时挖掘出有价值的信息,越来越受到业界的关注。
在某些场景,需要对该场景产生的海量数据进行舆情分析,以从中挖掘出舆情事件。以政务12345场景为例,该场景中每天会产生成千上万通客服数据,这些数据中埋藏着各种舆情事件,及时获取这些事件信息,可以帮助政府更好地施政,及时调整政策方向,及时解决处理各种各样的事件。
目前的舆情分析方法主要为人工分析方法,即人工从海量的数据中挖掘出舆情事件。然而,人工分析方法效率低,成本高,且及时性难以保证。
发明内容
有鉴于此,本申请提供了一种舆情分析方法、装置、设备及存储介质,用以解决现有的人工分析方法效率低,成本高,以及及时性难以保证的问题,其技术方案如下:
一种舆情分析方法,包括:
获取若干文本数据,并将每个文本数据处理为结构化的事件描述,得到若干结构化的事件描述;
若当前无事件类,则对所述若干结构化的事件描述进行聚类,以得到若干事件类,若当前已有事件类,则将结构化的事件描述归至所属的事件类;
统计每个事件类对应的事件发生数量,并在基于所述事件发生数量确定对应的事件类满足预设预警条件时,输出对应事件类对应的预警文案。
可选的,将一待处理的目标文本数据处理为结构化的事件描述,包括:
基于预先训练的数据结构化模型,将所述目标文本数据处理为结构化的事件描述;
其中,所述数据结构化模型采用至少标注有结构化的事件描述的训练文本数据训练得到。
可选的,所述数据结构化模型采用标注有事件类型和结构化的事件描述的训练文本数据训练得到;
所述数据结构化模型的训练目标包括:使针对所述训练文本数据预测的事件类型与所述训练文本数据标注的事件类型趋于一致,以及,使针对所述训练文本数据预测的结构化的事件描述与所述训练文本数据标注的结构化的事件描述一致。
可选的,所述基于预先训练的数据结构化模型,将所述目标文本数据处理为结构化的事件描述,包括:
利用所述数据结构化模型,获取所述目标文本数据的特征向量,其中,所述特征向量包含所述目标文本数据中每个句子的上下文信息;
利用所述数据结构化模型,以所述目标文本数据的特征向量为依据,预测所述目标文本数据对应的事件类型;
利用所述数据结构化模型,以所述目标文本数据对应的事件类型以及所述目标文本数据的特征向量为依据,确定所述目标文本数据对应的结构化的事件描述。
可选的,所述利用所述数据结构化模型,以所述目标文本数据对应的事件类型以及所述目标文本数据的特征向量为依据,确定所述目标文本数据对应的结构化的事件描述,包括:
利用所述数据结构化模型,以所述目标文本数据对应的事件类型的表征向量为依据,确定所述目标文本数据的特征向量包含的信息中与所述目标文本数据对应的事件类型相关的信息的表示向量,作为目标特征向量;
利用所述数据结构化模型,以所述目标特征向量为依据,确定所述目标文本数据对应的结构化的事件描述。
可选的,所述利用所述数据结构化模型,以所述目标特征向量为依据,确定所述目标文本数据对应的结构化的事件描述,包括:
利用所述数据结构化模型,以所述目标特征向量为依据,从所述目标文本数据和词表中逐个确定用于组成所述目标文本数据对应的结构化的事件描述的事件描述词;
其中,确定一事件描述词,包括:
在当前预测时刻,预测所述目标文本数据中每个词被拷贝的概率和所述词表中每个词被生成的概率,并预测待确定的事件描述词来源于所述目标文本数据的概率和来源于所述词表的概率,以得到当前预测时刻的概率预测结果;
根据当前预测时刻的概率预测结果,确定当前预测时刻的事件描述词。
可选的,所述预设预警条件为:
当前监控时间段内的事件发生数量大于或等于预设数量;
或者,当前监控时间段内的事件发生数量比各历史监控时间段内的事件发生数量的平均值高出预设百分比;
或者,当前监控时间段内的事件发生数量比一历史监控时间段内的事件发生数量高出预设百分比。
可选的,所述输出对应事件类对应的预警文案,包括:
从对应事件类包含的结构化的事件描述中确定一结构化的事件描述作为目标事件,并获取对应事件类的事件统计信息;
生成包含所述目标事件和所述事件统计信息的预警文案并输出。
一种舆情分析装置,包括:文本数据获取模块、文本数据处理模块、结构化事件聚类模块和预警模块;
所述文本数据获取模块,用于获取若干文本数据;
所述文本数据处理模块,用于将每个文本数据处理为结构化的事件描述,得到若干结构化的事件描述;
所述结构化事件聚类模块,用于在当前无事件类时,对所述若干结构化的事件描述进行聚类,以得到若干事件类,在当前已有事件类时,将结构化的事件描述归至所属的事件类;
所述预警模块,用于统计每个事件类对应的事件发生数量,并在基于所述事件发生数量确定对应的事件类满足预设预警条件时,输出对应事件类对应的预警文案。
可选的,所述预警模块在输出对应事件类对应的预警文案时,具体用于:
从对应事件类包含的结构化的事件描述中确定一结构化的事件描述作为目标事件,并获取对应事件类的事件统计信息;
生成包含所述目标事件和所述事件统计信息的预警文案并输出。
一种舆情分析设备,包括:存储器和处理器;
所述存储器,用于存储程序;
所述处理器,用于执行所述程序,实现上述任一项所述的舆情分析方法的各个步骤。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,实现上述任一项所述的舆情分析方法的各个步骤。
本申请提供的舆情分析方法、装置、设备及存储介质,在获得若干文本数据后,可将每个文本数据处理为结构化的事件描述,在得到若干结构化的事件描述后,若当前无事件类,则对若干结构化的事件描述进行聚类,以得到若干事件类,若当前已有事件类,则将结构化的事件描述归至所属的事件类,监控每个事件类对应的事件发生数量,并在事件发生数量满足预设预警条件时,输出对应事件类对应的预警文案。本申请提供的舆情分析方法,可自动、及时、准确地从海量数据中挖掘出舆情信息,由于不需要人工参与,避免了人工进行舆情分析所带来的问题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请实施例涉及的一种硬件架构的示意图;
图2为本申请实施例提供的舆情分析方法的一种形式的流程示意图;
图3为本申请实施例提供的舆情分析方法的另一种形式的流程示意图;
图4为本申请实施例提供的将目标文本数据输入至预先训练的数据结构化模型,得到数据结构化模型输出的目标文本数据对应的结构化的事件描述的一种流程示意图;
图5为本申请实施例提供的数据结构化模型的一种结构示意图;
图6为本申请实施例提供的数据结构化模型的一种结构示例;
图7为本申请实施例提供的训练数据结构化模型的一种流程示意图;
图8为本申请实施例提供的舆情分析装置的结构示意图;
图9为本申请实施例提供的语舆情分析设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
现有的舆情分析方法为人工分析方法,然而,人工分析方法存在效率低、成本高、及时性难以保证等问题,鉴于人工分析方法存在诸多问题,申请人试图提出一种自动舆情分析方法,为此,申请人进行了研究,起初的思路是:
预先定义若干舆情事件,并为每个舆情事件设置对应的关键词规则和预警文案,在获得文本数据后,将文本数据与若干舆情事件分别对应的关键词规则进行匹配,将与文本数据匹配的关键词规则对应的舆情事件确定为目标舆情事件,输出目标舆情事件对应的预警文案。
申请人通过对上述的舆情分析方法进行研究发现,上述的舆情分析方法虽然解决了人工分析方法的问题,但带来了新的问题,具体体现在:其一,上述的舆情分析方法只能对单条文本数据进行舆情分析,无法对多条文本数据进行舆情分析,而多条文本数据中往往蕴含更丰富的信息;其二,上述的舆情分析方法中,预警文案是预先设置好的,这意味着输出的预警文案内容是固定的,并且,由于上述舆情分析方法难以挖掘出较为丰富的信息,因此,预警文案的内容也相应较为单一。
针对上述的舆情分析方法存在的问题,申请人继续进行研究,通过不断研究,最终提出了一种效果较好的舆情分析方法,该舆情分析方法不需要人工参与,解决了人工分析方法存在的问题,更为重要的是,该舆情分析方法可对多条文本数据进行舆情分析,且针对不同的舆情事件可输出定制化的预警文案。
在介绍本申请提供的舆情分析方法之前,先对本申请涉及的硬件架构进行说明。
在一种可能的实现方式中,如图1所示,本申请涉及的硬件架构可以包括:电子设备101和服务器102。
示例性的,电子设备101可以是任何一种可与用户通过键盘、触摸板、触摸屏、遥控器、语音交互或手写设备等一种或多种方式进行人机交互的电子产品,例如,手机、笔记本电脑、平板电脑、掌上电脑、个人计算机、可穿戴设备、智能电视、PAD等。
应注意的是,图1仅仅是一种示例,电子设备的类型可以有多种,不限于图1中的笔记本电脑。
示例性的,服务器102可以是一台服务器,也可以是由多台服务器组成的服务器集群,或者是一个云计算服务器中心。服务器102可以包括处理器、存储器以及网络接口等。
示例性的,电子设备101可以通过无线通信网络与服务器102建立连接并通信;示例性的,电子设备101可以通过有线网络与服务器102建立连接并通信。
在一可选实现方式中,电子设备101获取若干文本数据,将获取的若干文本数据发送至服务器102,服务器102对接收的文本数据进行舆情分析。
在一可选实现方式中,电子设备101获取若干条语音数据,并将获取的每条语音数据转换成文本数据,并将转换而来的文本数据发送至服务器102,服务器102对接收的文本数据进行舆情分析。
在一可选实现方式中,电子设备可获取语音数据,并将获取的语音数据发送至服务器102,服务器102将语音数据转换成文本数据,然后对转换而来的文本数据进行舆情分析。
在另一种可能的实现方式中,本申请涉及的硬件架构可以包括:电子设备。电子设备为具有较强数据处理能力的设备。
示例性的,电子设备可以为任何一种可与用户通过键盘、触摸板、触摸屏、遥控器、语音交互或手写设备等一种或多种方式进行人机交互的电子产品,例如,PC、手机、笔记本电脑、平板电脑、掌上电脑、个人计算机等。
在一可选实现方式中,电子设备可获取若干文本数据,并对获取的若干文本数据进行舆情分析。
在一可选实现方式中,电子设备可获取若干条语音数据,将每条语音数据转换成文本数据,对转换而来的文本数据进行舆情分析。
本领域技术人员应能理解上述电子设备和服务器仅为举例,其它现有的或今后可能出现的电子设备或服务器如可适用于本申请,也应包含在本申请保护范围以内,并在此以引用方式包含于此。
接下来通过下述实施例对本申请提供的舆情分析方法进行介绍。
第一实施例
请参阅图2,示出了本申请实施例提供的舆情分析方法的流程示意图,该方法可以包括:
步骤S201:获取若干文本数据。
本实施例中的文本数据可以为任何场景中需要进行舆情分析的文本数据。
可选的,若干文本数据可以为对语音数据(比如,人人对话语音、人机对话语音等)转写得到的文本数据,也可以为通过某种途径直接获取而来的文本数据(比如,从网络上爬取来的一些文本数据)。
步骤S202:将每个文本数据处理为结构化的事件描述,得到若干结构化的事件描述。
如图2所示,在获得若干文本数据后,对每个文本数据进行结构化处理,以得到结构化的事件描述。
可选的,结构化的事件描述可以但不限定为包括:事件类型信息、事件要素信息等,比如,xx公司被举报拖欠工资,拖欠金额为xx,涉及人数为xx,其中,拖欠工资为事件类型信息,涉及的公司、金额和人数为事件要素信息。
步骤S203:若当前无事件类,则对若干结构化的事件描述进行聚类,以得到若干事件类,若当前已有事件类,则将每个结构化的事件描述归至所属的事件类。
若当前无事件类,则将相同或相似的结构化的事件描述聚为一类,以得到若干事件类,图2示出了对若干结构化的事件描述进行聚类,得到若干事件类的示意图,在聚类时,可采用现有的聚类方法对若干结构化的事件描述进行聚类;若当前已有事件类,则将每个结构化的事件描述归至所属的事件类,需要说明的是,若已有的事件类中不存在某个结构化的事件描述所属的事件类,则将该结构化的事件描述归至一个新的事件类。
步骤S204:统计每个事件类对应的事件发生数量,并在基于事件发生数量确定对应的事件类满足预设预警条件时,输出对应事件类对应的预警文案。
一般而言,待分析的文本数据是海量的,因此,会持续获取若干文本数据,将接收的每个文本数据处理为结构化的事件描述,将处理得到的结构化的事件描述进行归类,即每个事件类中不断有新的结构化的事件描述归入,也就是说,每个事件类对应的事件发生数量是不断变化的,为此,如图3所示,本申可实时或按预设的统计周期统计每个事件类对应的事件发生数量,基于每个事件类对应的事件发生数量确定对应事件类是否满足预设预警条件,在确定某一事件类满足预设预警条件时,输出该事件类对应的预警文案,即本申请通过确定每个事件类是否满足预设预警条件来预测舆情的发生。
其中,预设预警条件可以为事件激增条件,事件激增条件为表明事件激增的条件,事件激增条件可根据场景或者具体的需求设定。
可选的,事件激增条件可以为,当前监控时间段内的事件发生数量大于或等于预设数量,或者,当前监控时间段内的事件发生数量比各历史监控时间段内的事件发生数量的平均值高出预设百分比,或者,当前监控时间段内的事件发生数量比一历史监控时间段内的事件发生数量高出预设百分比。
需要说明的是,上述列举的事件激增条件仅为示例,本申请并不限定于此,只要是可以表明事件激增的条件均属于本申请保护的范围。
本实施例在任一事件类对应的事件发生数量满足预设预警条件时,会输该事件类对应的预警文案,输出该事件类对应的预警文案的实现方式有多种:
在一种可能的实现方式中,可从该事件类包含的结构化的事件描述中获取一结构化的事件描述作为目标事件,生成包含目标事件的预警文案并输出。
在另一种可能的实现方式中,可从该事件类包含的结构化的事件描述中获取一结构化的事件描述作为目标事件,并获取该事件类的事件统计信息,生成包含目标事件和事件统计信息的预警文案并输出。其中,一事件类的事件统计信息可以但不限定为包括以下信息中的一种或多种:该事件类的平均事件发生数量、指定监控时间段内的事件发生数量、总的事件发生数量、各监控时间段内的事件发生数量等。
需要说明的是,从一事件类包含的结构化的事件描述中获取一结构化的事件描述作为目标事件的实现方式有多种:在一种可能的实现方式中,可从该事件类包含的结构化的事件描述中随机选取一个,作为目标事件;在另一种可能的实现方式中,可选取出现次数最多的结构化的事件描述,作为目标事件。需要说明的是,上述的两种选取方式仅为示例,本申请对选取方式不做具体限定,只要是从一事件类包含的结构化的事件描述中选取一个作为目标事件都属于本申请保护的范围。
本申请实施例提供的舆情分析方法,在获得干文本数据后,可将每个文本数据处理为结构化的事件描述,在得到若干结构化的事件描述后,若当前无事件类,则对若干结构化的事件描述进行聚类,以得到若干事件类,若当前已有事件类,则将结构化的事件描述归至所属的事件类,监控每个事件类对应的事件发生数量,并在事件发生数量满足预设预警条件时,输出对应事件类对应的预警文案。本申请实施例提供的舆情分析方法,可自动、及时、准确地从海量数据中挖掘出舆情信息,由于不需要人工参与,避免了人工进行舆情分析所带来的问题,另外,本申请针对每个满足预警条件的事件类,可生成定制化的、内容丰富的预警文案。
第二实施例
经由第一实施例提供的舆情分析方法可以看出,将每个文本数据处理为结构化的事件描述为后续聚类、统计、生成预警文案的基础,有鉴于此,本实施例以一文本数据为例(各个文本数据的处理过程相同),对将文本数据处理为结构化的事件描述的实现过程进行重点介绍。
可选的,将一待处理的目标文本数据处理为结构化的事件描述的过程可以包括:基于预先训练的数据结构化模型,将目标文本数据处理为结构化的事件描述。
基于预先训练的数据结构化模型,将目标文本数据处理为结构化的事件描述包括:第一步和第二步。
第一步:获取目标文本数据。
第二步:将目标文本数据输入至预先训练的数据结构化模型,得到数据结构化模型输出的目标文本数据对应的结构化的事件描述。
在一种可能的实现方式中,数据结构化模型采用标注有结构化的事件描述的训练文本数据训练得到,数据结构化模型的训练目标为,使针对训练文本数据预测的结构化的事件描述与训练文本数据标注的结构化的事件描述趋于一致。在该实现方式下,将目标文本数据输入至预先训练的数据结构化模型,得到数据结构化模型输出的目标文本数据对应的结构化的事件描述的过程可以包括:
步骤a1、利用数据结构化模型,获取目标文本数据的特征向量。
其中,目标文本数据的特征向量包含目标文本数据中每个句子的信息以及每个句子的上下文信息。
可选的,利用数据结构化模型,获取目标文本数据的特征向量的过程可以包括:首先利用数据结构化模型获取目标文本数据中每个文本单元(比如字)对应的包含有位置信息和上下文信息的表示向量;然后利用数据结构化模型,以目标文本数据中每个文本单元对应的包含有位置信息和上下文信息的表示向量为依据,获取目标文本数据的每个句子对应的包含有上下文信息的表示向量,由目标文本数据的各句子对应的包含有上下文信息的表示向量组成目标文本数据的特征向量。
步骤a2、利用数据结构化模型,以目标文本数据的特征向量为依据,确定目标文本数据对应的结构化的事件描述。
可选的,利用数据结构化模型,以目标文本数据的特征向量为依据,确定目标文本数据对应的结构化的事件描述的过程可以包括:利用数据结构化模型,以目标文本数据的特征向量为依据,从目标文本数据和词表中逐个确定用于组成目标文本数据对应的结构化的事件描述的事件描述词。
其中,确定一事件描述词的过程包括:在当前预测时刻,预测目标文本数据中每个词被拷贝的概率和词表中每个词被生成的概率,并预测待确定的事件描述词来源于目标文本数据的概率和来源于所述词表的概率,以得到当前预测时刻的概率预测结果;根据当前预测时刻的概率预测结果,确定当前预测时刻的事件描述词。
为了获得性能更佳的数据结构化模型,在另一种可能的实现方式中,数据结构化模型采用标注有事件类型和结构化的事件描述的训练文本数据训练得到,数据结构化模型的训练目标为,使针对训练文本数据预测的事件类型与训练文本数据标注的事件类型趋于一致,以及使针对训练文本数据预测的结构化的事件描述与训练文本数据标注的结构化的事件描述趋于一致。需要说明的是,若结构化的事件描述中包含事件类型信息,则该实现方式中,训练文本可标注事件类型,也可不标注事件类型。请参阅图4,示出了在该实现方式下,将目标文本数据输入至预先训练的数据结构化模型,得到数据结构化模型输出的目标文本数据对应的结构化的事件描述的流程示意图,可以包括:
步骤S401:利用数据结构化模型,获取目标文本数据的特征向量。
步骤S401的具体实现方式和相关解释说明可参见步骤a1的具体实现方式和相关解释说明,本实施例在此不做赘述。
步骤S402:利用数据结构化模型,以目标文本数据的特征向量为依据,预测目标文本数据对应的事件类型。
可选的,步骤S402的实现过程可以包括:利用数据结构化模型,以目标文本数据的特征向量为依据,预测目标文本数据对应的事件类型为设定的各事件类型的概率,根据目标文本数据对应的事件类型为设定的各事件类型的概率,从设定的各事件类型中确定出目标文本数据对应的事件类型,比如,可将预测出的各概率中的最大概率对应的事件类型,确定为目标文本数据对应的事件类型。需要说明的是,上述提及的“各事件类型”根据具体的应用场景设定。
步骤S403:利用数据结构化模型,以目标文本数据对应的事件类型以及目标文本数据的特征向量为依据,确定目标文本数据对应的结构化的事件描述。
可选的,步骤S403的实现过程可以包括:
步骤S4031、基于数据结构化模型,以目标文本数据对应的事件类型的表征向量为依据,确定目标文本数据的特征向量包含的信息中与目标文本数据对应的事件类型相关的信息的表示向量,作为目标特征向量。
为了针对不同的事件类生成有所区别的结构化描述,本申请确定与目标文本数据对应的事件类型相关的特征向量,作为结构化的事件描述的确定依据。
步骤S4032、基于数据结构化模型,以目标特征向量为依据,确定目标文本数据对应的结构化的事件描述。
可选的,基于数据结构化模型,以目标特征向量为依据,确定目标文本数据对应的结构化的事件描述的过程可以包括:基于数据结构化模型,以目标特征向量为依据,从目标文本数据和词表中逐个确定用于组成目标文本数据对应的结构化的事件描述的事件描述词。其中,确定一事件描述词的过程包括:在当前预测时刻,预测目标文本数据中每个词被拷贝的概率和词表中每个词被生成的概率,并预测待确定的事件描述词来源于目标文本数据的概率和来源于所述词表的概率,以得到当前预测时刻的概率预测结果;根据当前预测时刻的概率预测结果,确定当前预测时刻的事件描述词。
第三实施例
下面结合上述第二实施例,对数据结构化模型的结构进行说明,并在对数据结构化模型的结构进行说明的基础上,对基于数据结构化模型将目标文本数据处理成结构化的事件描述的过程进行介绍。
本实施例以采用标注有事件类型和结构化的事件描述的训练文本数据,以使针对训练文本数据预测的事件类型与训练文本数据标注的事件类型趋于一致,以及使针对训练文本数据预测的结构化的事件描述与训练文本数据标注的结构化的事件描述趋于一致为目标训练得到的数据结构化模型为例进行介绍。
可选的,如图5所示,数据结构化模型可以包括:文本特征向量获取模块501、事件类型预测模块502、事件类型相关向量确定模块503和结构化事件描述确定模块504。其中:
待处理的目标文本数据输入文本特征向量获取模块501,文本特征向量获取模块501获取目标文本数据的特征向量并输出。
文本特征向量获取模块501的输出输入事件类型预测模块502,事件类型预测模块502根据输入预测目标文本数据对应的事件类型。
目标文本数据对应的事件类型的表征向量和目标文本数据的特征向量输入事件类型相关向量确定模块503,事件类型相关向量确定模块503根据目标文本数据对应的事件类型的表征向量,确定目标文本数据的特征向量包含的信息中与目标文本数据对应的事件类型相关的信息的表示向量,作为目标特征向量并输出。
事件类型相关向量确定模块503输出的目标特征向量输入结构化事件描述确定模块504,结构化事件描述确定模块504根据目标特征向量确定目标文本数据对应的结构化的事件描述。
接下来,结合数据结构化模型的一示例,对图6示出的数据结构化模型进一步进行介绍。
图6示出的数据结构化模型中的输入模块和编码模块组成了文本特征向量获取模块。其中,输入模块获取目标文本数据中每个文本单元对应的包含有位置信息和上下文信息的表示向量并输出,输入模块的输出输入编码模块,编码模块对输入进行编码,输出目标文本数据的每个句子对应的包含有上下文信息的表示向量,目标文本数据的各句子对应的包含有上下文信息的表示向量组成目标文本数据的特征向量。
可选的,输入模块可以为嵌入层(embedding层),嵌入层的目的是将目标文本数据中的每个词映射为向量表示,且使向量表示具备位置和上下文信息,且包含与各个位置向量的深层次联系。嵌入层可以但不限定采用Bert、Mac-Bert等中的一种,若嵌入层采用Mac-Bert,则目标文本数据T输入Mac-Bert,Mac-Bert的输出可表示为:
E=MacBertEmb(T) (1)
可选的,编码模块可以但不限定为采用RNN、Transformers-Encoder等中的一种,考虑到对于长文本,RNN往往会产生梯度消失的问题,该问题会导致文本中靠前的内容被忽略掉,而Transformer可以解决梯度消失问题,有鉴于此,编码模块优选为采用Transformers-Encoder。
图6示出的数据结构化模型中的事件类型预测模块可以包括softmax层,将编码模块的输出经softmax层可获得目标文本数据对应的事件类型为设定的各事件类型的概率,进而可根据目标文本数据对应的事件类型为设定的各事件类型的概率可确定出目标文本数据对应的事件类型。
数据结构化模型中的事件类型相关向量确定模块可以包括第一向量处理模块和第二向量处理模块,其中,第一向量处理模块对目标文本数据对应的事件类型的表征向量进行处理,第二向量处理模块对第一向量处理模块的处理结果以及目标文本数据的特征向量进行点乘运算,输出目标文本数据的特征向量包含的信息中与目标文本数据对应的事件类型相关的信息的表示向量,即上述的目标特征向量。
可选的,第一向量处理模块可以但不限定为采用全连接层和softmax层,可选的,全连接层可以但不限定为采用DNN。第一向量处理模块采用全连接层和softmax层时,目标特征向量可表示为:
TC=Softmax(Desne(C))·TE (2)
其中,C表示目标文本数据对应的事件类型的表征向量,TE表示目标文本数据的特征向量,Desne表示全连接层,TC表示目标文本数据的特征向量包含的信息中与目标文本数据对应的事件类型相关的信息的表示向量,即目标特征向量。
图6示出的数据结构化模型中的结构化事件描述确定模块在根据目标特征向量确定目标文本数据对应的结构化的事件描述时,根据目标特征向量从目标文本数据和词表中逐个确定用于组成目标文本数据对应的结构化的事件描述的事件描述词。可选的,结构化事件描述确定模块可以包括第一预测模块、第二预测模块和预测结果处理模块。
在每个预测时刻,第一预测模块根据目标特征向量和当前状态特征向量(当前状态特征向量为表示已确定出的事件描述词的信息的向量)确定当前预测时刻的第一预测向量,根据当前预测时刻的第一预测向量和当前状态特征向量,预测目标文本数据中每个词被拷贝的概率,第二预测模块根据目标特征向量和当前状态特征向量确定当前预测时刻的第二预测向量,根据当前预测时刻的第二预测向量和当前状态特征向量,预测词表中每个词被生成的概率,另外,第二预测模块还根据当前预测时刻的第二预测向量预测待确定的事件描述词来源于词表的概率,预测结果处理模块根据目标文本数据中每个词被拷贝的概率和词表中每个词被生成的概率,以及待确定的事件描述词来源于目标文本数据的概率和来源于词表的概率(待确定的事件描述词来源于目标文本数据的概率可用1减去待确定的事件描述词来源于词表的概率得到),确定当前预测时刻的事件描述词。需要说明的是,上述的第一预测向量和第二预测向量本质上均为目标特征向量包含的信息中与待确定的事件描述词较为相关的信息的表示向量,由于目标文本数据中包含的词的数量与词表中包含的词的数量不同,因此,第一预测向量和第二预测向量的维度不同。
其中,第二预测模块可按下式示出的方式预测待确定的事件描述词来源于词表的概率:
pgen=σ(WT·TM+bT) (3)
上式中的TM表示当前预测时刻的第二预测向量,W和b为模型参数,pgen即为待确定的事件描述词来源于词表的概率。
可选的,预测结果处理模块根据目标文本数据中每个词被拷贝的概率和词表中每个词被生成的概率,以及待确定的事件描述词来源于目标文本数据的概率和来源于词表的概率,确定当前预测时刻的事件描述词的过程可以包括:根据目标文本数据中每个词被拷贝的概率和词表中每个词被生成的概率,以及待确定的事件描述词来源于目标文本数据的概率和来源于词表的概率,确定将各候选词分别作为当前预测时刻的事件描述词的概率,根据将各候选词分别作为当前预测时刻的事件描述词的概率,从各候选词中确定当前预测时刻的事件描述词。其中,各候选词为对目标文本数据中的词和词表中的词进行合并去重后得到的各个词。
若将待确定的事件描述词来源于目标文本数据的概率表示为Rk,将待确定的事件描述词来源于词表的概率表示为Rg,则在确定一候选词作为当前预测时刻的事件描述词的概率时,若该候选词仅存在于目标文本数据中,则用Rk对目标文本数据中该词被拷贝的概率加权,将加权后的概率确定为该候选词作为当前预测时刻的事件描述词的概率,若该候选词仅存在于词表中,则用Rg对词表中该词被生成的概率加权,将加权后的概率确定为该候选词作为当前预测时刻的事件描述词的概率,若该候选词既存在于目标文本数据中,又存在于词表中,则用Rk对目标文本数据中该词被拷贝的概率加权,并用Rg对词表中该词被生成的概率加权,然后对两个加权后的概率求和,将求和后的概率确定为该候选词作为当前预测时刻的事件描述词的概率。
可选的,上述的第一预测模块可以包括Transformers的解码器(Transformers-Decoder)、线性层(liner)和softmax层,第二预测模块可以包括多头注意力模块(Muti-Head Attention)和归一化模块(ADD&Norm)。
需要说明的是,若数据结构化模型为采用标注结构化的事件描述的训练文本数据,以使针对训练文本数据预测的结构化的事件描述与训练文本数据标注的结构化的事件描述趋于一致为目标训练得到的数据结构化模型,则将事件类型相关向量确定模块去掉即可,结构化事件描述确定模块根据目标文本数据的特征向量,确定目标文本数据对应的结构化的事件描述,根据目标文本数据的特征向量,确定目标文本数据对应的结构化的事件描述与根据目标特征向量,确定目标文本数据对应的结构化的事件描述的实现过程类似。
第四实施例
本实施例对数据结构化模型的训练过程进行介绍。
请参阅图7,示出了训练数据结构化模型的流程示意图,可以包括:
步骤S701:从训练数据集中获取训练文本数据。
其中,训练数据集中包括多条训练文本数据,每条训练文本数据标注有事件类型和结构化的事件描述。
步骤S702:利用数据结构化模型,获取训练文本数据的特征向量。
其中,训练文本数据的特征向量包含训练文本数据中每个句子的上下文信息。利用数据结构化模型,获取训练文本数据的特征向量的具体实现过程与利用数据结构化模型,获取目标文本数据的特征向量的实现过程相同,本实施例在此不做赘述。
步骤S703:利用数据结构化模型,以训练文本数据的特征向量为依据,预测目标文本数据对应的事件类型为设定的各事件类型的概率。
步骤S704:根据目标文本数据对应的事件类型为设定的各事件类型的概率以及训练文本数据标注的事件类型,确定数据结构化模型的第一预测损失。
可选的,第一预测损失可以为交叉熵损失,交叉熵损失的确定方式为现有技术,本实施例在此不做赘述。
步骤S705:利用数据结构化模型,以训练文本数据标注的事件类型的表征向量以及训练文本数据的特征向量为依据,确定每个预测时刻各候选词分别作为事件描述词的概率。
本步骤中的各候选词为对词表中的词和训练文本数据中的词进行合并去重后得到的各个词。
具体的,以训练文本数据标注的事件类型的表征向量以及训练文本数据的特征向量为依据,确定每个预测时刻各候选词分别作为事件描述词的概率的过程可以包括:以训练文本数据标注的事件类型的表征向量为依据,确定训练文本数据的特征向量包含的信息中与训练文本数据标注的事件类型相关的信息的表示向量,作为事件类型相关特征向量;在每个预测时刻,根据事件类型相关特征向量和当前状态特征向量(此处的当前状态特征向量为,表示训练文本数据标注的结构化的事件描述中在当前预测时刻之前的事件描述词的信息的向量)确定当前预测时刻的第一预测向量,根据当前预测时刻的第一预测向量和当前状态特征向量预测目标文本数据中每个词被拷贝的概率,根据事件类型相关特征向量和当前状态特征向量确定当前预测时刻的第二预测向量,并根据当前预测时刻的第二预测向量和当前状态特征向量预测词表中每个词被生成的概率,根据当前预测时刻的第二预测向量预测待确定的事件描述词来源于词表的概率,根据待确定的事件描述词来源于词表的概率确定待确定的事件描述词来源于训练文本数据的概率,根据训练文本数据中每个词被拷贝的概率和词表中每个词被生成的概率,以及待确定的事件描述词来源于训练文本数据的概率和来源于词表的概率,确定当前预测时刻各候选词分别作为事件描述词的概率。
根据训练文本数据中每个词被拷贝的概率和词表中每个词被生成的概率,以及待确定的事件描述词来源于训练文本数据的概率和来源于词表的概率,确定当前预测时刻各候选词分别作为事件描述词的概率,与上述实施例中根据目标文本数据中每个词被拷贝的概率和词表中每个词被生成的概率,以及待确定的事件描述词来源于目标文本数据的概率和来源于词表的概率,确定当前预测时刻各候选词分别作为事件描述词的概率的实现过程相同,具体可参见上述实施例的相关部分,本实施例在此不做赘述。
步骤S706:根据每个预测时刻各候选词分别作为事件描述词的概率以及训练文本数据标注的结构化的事件描述,确定数据结构化模型的第二预测损失。
可选的,第一预测损失可以为交叉熵损失,交叉熵损失的确定方式为现有技术,本实施例在此不做赘述。
步骤S707:根据数据结构化模型的第一预测损失和数据结构化模型的第二预测损失,对数据结构化模型进行参数更新。
按上述方式对数据结构化模型进行多次迭代训练,直至满足训练结束条件。
上述内容给出了采用标注有事件类型和结构化的事件描述的训练文本数据,以使针对训练文本数据预测的事件类型与训练文本数据标注的事件类型趋于一致,以及使针对训练文本数据预测的结构化的事件描述与训练文本数据标注的结构化的事件描述趋于一致为目标训练得到数据结构化模型的过程。
采用标注有事件类型和结构化的事件描述的训练文本数据,以使针对训练文本数据预测的结构化的事件描述与训练文本数据标注的结构化的事件描述趋于一致为目标训练得到数据结构化模型的过程可以包括:从训练数据集中获取训练文本数据;利用数据结构化模型,获取训练文本数据的特征向量;利用数据结构化模型,以训练文本数据的特征向量为依据,确定每个预测时刻各候选词分别作为事件描述词的概率;根据每个预测时刻各候选词分别作为事件描述词的概率以及训练文本数据标注的结构化的事件描述,确定数据结构化模型的预测损失;根据数据结构化模型的预测损失对数据结构化模型进行参数更新。按上述方式对数据结构化模型进行多次迭代训练,直至满足训练结束条件。该实现方式中各个步骤的具体实现过程可参见上述步骤S701~步骤S707中相关步骤的具体实现过程和相关解释说明,本实施例在此不做赘述。
第五实施例
本申请实施例还提供了一种舆情分析装置,下面对本申请实施例提供的舆情分析装置进行描述,下文描述的舆情分析装置与上文描述的舆情分析方法可相互对应参照。
请参阅图8,示出了本申请实施例提供的舆情分析装置的结构示意图,可以包括:文本数据获取模块801、文本数据处理模块802、结构化事件聚类模块803和预警模块804。
文本数据获取模块801,用于获取若干文本数据;
文本数据处理模块802,用于将每个文本数据处理为结构化的事件描述,得到若干结构化的事件描述。
结构化事件聚类模块803,用于在当前无事件类时,对所述若干结构化的事件描述进行聚类,以得到若干事件类,在当前已有事件类时,将结构化的事件描述归至所属的事件类。
预警模块804,用于统计每个事件类对应的事件发生数量,并在基于所述事件发生数量确定对应的事件类满足预设预警条件时,输出对应事件类对应的预警文案。
可选的,文本数据处理模块802在将一待处理的目标文本数据处理为结构化的事件描述时,具体用于:
基于预先训练的数据结构化模型,将所述目标文本数据处理为结构化的事件描述;其中,所述数据结构化模型采用至少标注有结构化的事件描述的训练文本数据训练得到。
可选的,所述数据结构化模型采用标注有事件类型和结构化的事件描述的训练文本数据训练得到;
所述数据结构化模型的训练目标包括:使针对所述训练文本数据预测的事件类型与所述训练文本数据标注的事件类型趋于一致,以及,使针对所述训练文本数据预测的结构化的事件描述与所述训练文本数据标注的结构化的事件描述一致。
可选的,文本数据处理模块802在基于预先训练的数据结构化模型,将所述目标文本数据处理为结构化的事件描述时,具体用于:
利用所述数据结构化模型,获取所述目标文本数据的特征向量,其中,所述特征向量包含所述目标文本数据中每个句子的上下文信息;
利用所述数据结构化模型,以所述目标文本数据的特征向量为依据,预测所述目标文本数据对应的事件类型;
利用所述数据结构化模型,以所述目标文本数据对应的事件类型以及所述目标文本数据的特征向量为依据,确定所述目标文本数据对应的结构化的事件描述。
可选的,文本数据处理模块802在所述利用所述数据结构化模型,以所述目标文本数据对应的事件类型以及所述目标文本数据的特征向量为依据,确定所述目标文本数据对应的结构化的事件描述时,具体用于:
利用所述数据结构化模型,以所述目标文本数据对应的事件类型的表征向量为依据,确定所述目标文本数据的特征向量包含的信息中与所述目标文本数据对应的事件类型相关的信息的表示向量,作为目标特征向量;
利用所述数据结构化模型,以所述目标特征向量为依据,确定所述目标文本数据对应的结构化的事件描述。
可选的,文本数据处理模块802在利用所述数据结构化模型,以所述目标特征向量为依据,确定所述目标文本数据对应的结构化的事件描述时,具体用于:
利用所述数据结构化模型,以所述目标特征向量为依据,从所述目标文本数据和词表中逐个确定用于组成所述目标文本数据对应的结构化的事件描述的事件描述词;
其中,确定一事件描述词,包括:
在当前预测时刻,预测所述目标文本数据中每个词被拷贝的概率和所述词表中每个词被生成的概率,并预测待确定的事件描述词来源于所述目标文本数据的概率和来源于所述词表的概率,以得到当前预测时刻的概率预测结果;
根据当前预测时刻的概率预测结果,确定当前预测时刻的事件描述词。
可选的,所述预设预警条件为:
当前监控时间段内的事件发生数量大于或等于预设数量;
或者,当前监控时间段内的事件发生数量比各历史监控时间段内的事件发生数量的平均值高出预设百分比;
或者,当前监控时间段内的事件发生数量比一历史监控时间段内的事件发生数量高出预设百分比。
可选的,预警模块804在输出对应事件类对应的预警文案时,具体用于:
从对应事件类包含的结构化的事件描述中确定一结构化的事件描述作为目标事件,并获取对应事件类的事件统计信息;
生成包含所述目标事件和所述事件统计信息的预警文案并输出。
本申请实施例提供的舆情分析装置,在获得干文本数据后,可将每个文本数据处理为结构化的事件描述,在得到若干结构化的事件描述后,若当前无事件类,则对若干结构化的事件描述进行聚类,以得到若干事件类,若当前已有事件类,则将结构化的事件描述归至所属的事件类,监控每个事件类对应的事件发生数量,并在事件发生数量满足预设预警条件时,输出对应事件类对应的预警文案。本申请实施例提供的舆情分析装置,可自动、及时、准确地从海量数据中挖掘出舆情信息,由于不需要人工参与,避免了人工进行舆情分析所带来的问题,另外,本申请实施例提供的舆情分析装置针对每个满足预警条件的事件类,可生成定制化的、内容丰富的预警文案。
第六实施例
本申请实施例还提供了一种舆情分析设备,请参阅图7,示出了该舆情分析设备的结构示意图,该舆情分析设备可以包括:至少一个处理器701,至少一个通信接口702,至少一个存储器703和至少一个通信总线704;
在本申请实施例中,处理器701、通信接口702、存储器703、通信总线704的数量为至少一个,且处理器701、通信接口702、存储器703通过通信总线704完成相互间的通信;
处理器701可能是一个中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路等;
存储器703可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory)等,例如至少一个磁盘存储器;
其中,存储器存储有程序,处理器可调用存储器存储的程序,所述程序用于:
获取若干文本数据,并将每个文本数据处理为结构化的事件描述,得到若干结构化的事件描述;
若当前无事件类,则对所述若干结构化的事件描述进行聚类,以得到若干事件类,若当前已有事件类,则将结构化的事件描述归至所属的事件类;
统计每个事件类对应的事件发生数量,并在基于所述事件发生数量确定对应的事件类满足预设预警条件时,输出对应事件类对应的预警文案。
可选的,所述程序的细化功能和扩展功能可参照上文描述。
第七实施例
本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质可存储有适于处理器执行的程序,所述程序用于:
获取若干文本数据,并将每个文本数据处理为结构化的事件描述,得到若干结构化的事件描述;
若当前无事件类,则对所述若干结构化的事件描述进行聚类,以得到若干事件类,若当前已有事件类,则将结构化的事件描述归至所属的事件类;
统计每个事件类对应的事件发生数量,并在基于所述事件发生数量确定对应的事件类满足预设预警条件时,输出对应事件类对应的预警文案。
可选的,所述程序的细化功能和扩展功能可参照上文描述。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (12)
1.一种舆情分析方法,其特征在于,包括:
获取若干文本数据,并将每个文本数据处理为结构化的事件描述,得到若干结构化的事件描述;
若当前无事件类,则对所述若干结构化的事件描述进行聚类,以得到若干事件类,若当前已有事件类,则将结构化的事件描述归至所属的事件类;
统计每个事件类对应的事件发生数量,并在基于所述事件发生数量确定对应的事件类满足预设预警条件时,输出对应事件类对应的预警文案。
2.根据权利要求1所述的舆情分析方法,其特征在于,将一待处理的目标文本数据处理为结构化的事件描述,包括:
基于预先训练的数据结构化模型,将所述目标文本数据处理为结构化的事件描述;
其中,所述数据结构化模型采用至少标注有结构化的事件描述的训练文本数据训练得到。
3.根据权利要求1所述的舆情分析方法,其特征在于,所述数据结构化模型采用标注有事件类型和结构化的事件描述的训练文本数据训练得到;
所述数据结构化模型的训练目标包括:使针对所述训练文本数据预测的事件类型与所述训练文本数据标注的事件类型趋于一致,以及,使针对所述训练文本数据预测的结构化的事件描述与所述训练文本数据标注的结构化的事件描述一致。
4.根据权利要求2所述的舆情分析方法,其特征在于,所述基于预先训练的数据结构化模型,将所述目标文本数据处理为结构化的事件描述,包括:
利用所述数据结构化模型,获取所述目标文本数据的特征向量,其中,所述特征向量包含所述目标文本数据中每个句子的上下文信息;
利用所述数据结构化模型,以所述目标文本数据的特征向量为依据,预测所述目标文本数据对应的事件类型;
利用所述数据结构化模型,以所述目标文本数据对应的事件类型以及所述目标文本数据的特征向量为依据,确定所述目标文本数据对应的结构化的事件描述。
5.根据权利要求4所述的舆情分析方法,其特征在于,所述利用所述数据结构化模型,以所述目标文本数据对应的事件类型以及所述目标文本数据的特征向量为依据,确定所述目标文本数据对应的结构化的事件描述,包括:
利用所述数据结构化模型,以所述目标文本数据对应的事件类型的表征向量为依据,确定所述目标文本数据的特征向量包含的信息中与所述目标文本数据对应的事件类型相关的信息的表示向量,作为目标特征向量;
利用所述数据结构化模型,以所述目标特征向量为依据,确定所述目标文本数据对应的结构化的事件描述。
6.根据权利要求5所述的舆情分析方法,其特征在于,所述利用所述数据结构化模型,以所述目标特征向量为依据,确定所述目标文本数据对应的结构化的事件描述,包括:
利用所述数据结构化模型,以所述目标特征向量为依据,从所述目标文本数据和词表中逐个确定用于组成所述目标文本数据对应的结构化的事件描述的事件描述词;
其中,确定一事件描述词,包括:
在当前预测时刻,预测所述目标文本数据中每个词被拷贝的概率和所述词表中每个词被生成的概率,并预测待确定的事件描述词来源于所述目标文本数据的概率和来源于所述词表的概率,以得到当前预测时刻的概率预测结果;
根据当前预测时刻的概率预测结果,确定当前预测时刻的事件描述词。
7.根据权利要求1~6中任一项所述的舆情分析方法,所述预设预警条件为:
当前监控时间段内的事件发生数量大于或等于预设数量;
或者,当前监控时间段内的事件发生数量比各历史监控时间段内的事件发生数量的平均值高出预设百分比;
或者,当前监控时间段内的事件发生数量比一历史监控时间段内的事件发生数量高出预设百分比。
8.根据权利要求1~6中任一项所述的舆情分析方法,其特征在于,所述输出对应事件类对应的预警文案,包括:
从对应事件类包含的结构化的事件描述中确定一结构化的事件描述作为目标事件,并获取对应事件类的事件统计信息;
生成包含所述目标事件和所述事件统计信息的预警文案并输出。
9.一种舆情分析装置,其特征在于,文本数据获取模块、文本数据处理模块、结构化事件聚类模块和预警模块;
所述文本数据获取模块,用于获取若干文本数据;
所述文本数据处理模块,用于将每个文本数据处理为结构化的事件描述,得到若干结构化的事件描述;
所述结构化事件聚类模块,用于在当前无事件类时,对所述若干结构化的事件描述进行聚类,以得到若干事件类,在当前已有事件类时,将结构化的事件描述归至所属的事件类;
所述预警模块,用于统计每个事件类对应的事件发生数量,并在基于所述事件发生数量确定对应的事件类满足预设预警条件时,输出对应事件类对应的预警文案。
10.根据权利要求9所述的舆情分析装置,其特征在于,所述预警模块在输出对应事件类对应的预警文案时,具体用于:
从对应事件类包含的结构化的事件描述中确定一结构化的事件描述作为目标事件,并获取对应事件类的事件统计信息;
生成包含所述目标事件和所述事件统计信息的预警文案并输出。
11.一种舆情分析设备,其特征在于,包括:存储器和处理器;
所述存储器,用于存储程序;
所述处理器,用于执行所述程序,实现如权利要求1~8中任一项所述的舆情分析方法的各个步骤。
12.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现如权利要求1~8中任一项所述的舆情分析方法的各个步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111600425.2A CN114398484A (zh) | 2021-12-24 | 2021-12-24 | 一种舆情分析方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111600425.2A CN114398484A (zh) | 2021-12-24 | 2021-12-24 | 一种舆情分析方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114398484A true CN114398484A (zh) | 2022-04-26 |
Family
ID=81226780
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111600425.2A Pending CN114398484A (zh) | 2021-12-24 | 2021-12-24 | 一种舆情分析方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114398484A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116069832A (zh) * | 2023-04-07 | 2023-05-05 | 微网优联科技(成都)有限公司 | 数据挖掘方法、装置及电子设备 |
-
2021
- 2021-12-24 CN CN202111600425.2A patent/CN114398484A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116069832A (zh) * | 2023-04-07 | 2023-05-05 | 微网优联科技(成都)有限公司 | 数据挖掘方法、装置及电子设备 |
CN116069832B (zh) * | 2023-04-07 | 2023-06-06 | 微网优联科技(成都)有限公司 | 数据挖掘方法、装置及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108280458B (zh) | 群体关系类型识别方法及装置 | |
JP2019535047A (ja) | 主題分類器の訓練方法、装置及びコンピュータ読み取り可能な記憶媒体 | |
WO2021121198A1 (zh) | 基于语义相似度的实体关系抽取方法、装置、设备及介质 | |
CN110297935A (zh) | 图像检索方法、装置、介质及电子设备 | |
TW202020691A (zh) | 特徵詞的確定方法、裝置和伺服器 | |
CN104899322A (zh) | 搜索引擎及其实现方法 | |
CN107885717B (zh) | 一种关键词提取方法及装置 | |
CN113095080B (zh) | 基于主题的语义识别方法、装置、电子设备和存储介质 | |
CN112446210B (zh) | 用户性别预测方法、装置及电子设备 | |
CN111159409B (zh) | 基于人工智能的文本分类方法、装置、设备、介质 | |
CN114861889B (zh) | 深度学习模型的训练方法、目标对象检测方法和装置 | |
CN110457672A (zh) | 关键词确定方法、装置、电子设备及存储介质 | |
CN113190702B (zh) | 用于生成信息的方法和装置 | |
CN110619051A (zh) | 问题语句分类方法、装置、电子设备及存储介质 | |
CN112559747B (zh) | 事件分类处理方法、装置、电子设备和存储介质 | |
CN114240552A (zh) | 基于深度聚类算法的产品推荐方法、装置、设备及介质 | |
CN115730597A (zh) | 多级语义意图识别方法及其相关设备 | |
US20230041339A1 (en) | Method, device, and computer program product for user behavior prediction | |
CN114398484A (zh) | 一种舆情分析方法、装置、设备及存储介质 | |
CN110705282A (zh) | 关键词提取方法、装置、存储介质及电子设备 | |
CN112579781B (zh) | 文本归类方法、装置、电子设备及介质 | |
CN106557178B (zh) | 用于更新输入法词条的方法及装置 | |
CN110162535B (zh) | 用于执行个性化的搜索方法、装置、设备以及存储介质 | |
CN111555960A (zh) | 信息生成的方法 | |
CN114547257B (zh) | 类案匹配方法、装置、计算机设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |