CN111400432A - 事件类型信息处理方法、事件类型识别方法及装置 - Google Patents
事件类型信息处理方法、事件类型识别方法及装置 Download PDFInfo
- Publication number
- CN111400432A CN111400432A CN202010497908.3A CN202010497908A CN111400432A CN 111400432 A CN111400432 A CN 111400432A CN 202010497908 A CN202010497908 A CN 202010497908A CN 111400432 A CN111400432 A CN 111400432A
- Authority
- CN
- China
- Prior art keywords
- event
- text
- event type
- type
- support degree
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/313—Selection or weighting of terms for indexing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2216/00—Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
- G06F2216/03—Data mining
Abstract
本发明提供一种事件类型信息处理方法、事件类型识别方法及装置。通过获取语料集,根据语料集所属事件类型下的类别关键词对语料集进行频繁序列模式挖掘,得到各类别关键词的上下文序列模式特征和序列模式支持度,基于得到的上下文序列模式特征和序列模式支持度确定语料集中各事件文本属于事件类型的类型权重,并结合预设权重阈值,构建得到各事件类型下的事件文本信息库。将类别关键词在语料集中的出现频率转化为有效的分类依据,确定出事件文本信息库中各事件文本属于对应事件类型的权重,为准确识别其他待识别事件文本的事件类型提供了参照依据,在依据事件文本信息库进行事件类型识别时,能够提高事件类型识别的准确性。
Description
技术领域
本发明涉及计算机自然语言处理技术领域,尤其涉及一种事件类型信息处理方法、事件类型识别方法及装置。
背景技术
事件类型识别是指从待识别事件文本中抽取出包含特定事件的语句,然后通过判断其特征来识别其所属事件类型。作为事件抽取的一部分,目前进行事件类型识别的方法主要分为基于模式匹配的识别方法、基于扩展触发词表的事件类型识别方法、基于机器学习的事件类型识别方法和基于领域事件词聚类的识别方法,下面具体介绍这几种方法。
1. 基于模式匹配的识别方法,该方法由两个关键步骤组成:模式获取和事件类型识别,利用不同的模式匹配算法对事件类型识别进行引导,将目标事件与模式进行匹配;
2. 基于扩展触发词表的事件类型识别方法,事件由事件触发词和描述事件结构的元素构成,基于触发词的事件探测和分类是将含有特定触发词的语句作为候选事件语句并依据触发词对事件进行分类;
3. 基于机器学习的事件类型识别方法,一般采用最大熵模型和SVM模型,最大熵模型模型简单,不需要特征独立假设,同时速度快,而SVM模型比较适应于小样本的学习和识别;
4. 基于领域事件词聚类的识别方法可分为两个步骤:领域事件词抽取和聚类事件词发现事件类型,具体实现中可采用领域事件词抽取算法,通过计算其在通用领域和目标领域中的分布情况抽取领域事件词,然后借助语义知识实现领域事件词聚类从而发现事件类型。
以上方法存在如下问题:
1.基于模式匹配的识别方法需要将模式建立在具体的语言之上,具有固定的文本格式,导致实际应用中不够灵活,需要有语言学家的全程参与,同时也非常耗时,性价比不高;
2.基于扩展触发词表的事件类型识别方法存在的问题在于:仅仅依据触发词就判定一个语句是否为某类事件容易出错,因为有些包含触发词的语句并未表述相关事件,同时一些词语在多个事件类型中都可以作为触发词,而通过对非触发词分类扩展触发词表的方法也有缺陷,原因在于非触发词的占比很高,如果对这些词进行分类不仅计算量大,同时容易引入噪音造成正反例不平衡;
3.基于机器学习的事件类型识别方法往往会面临正反例严重不平衡的问题,即事件文本和非事件文本的失衡或该类别与非该类别事件文本的失衡,同时,建立二元分类模型无法处理一个事件语句属于多个事件类型的情况;
4.基于领域事件词聚类的识别方法对于聚类的结果所代表的类型没有明确的解释,即每个类别所代表的事件标签是不够具体的,这也是无监督学习存在的共同问题。
发明内容
本发明提供了一种事件类型信息处理方法、事件类型识别方法及装置,能够获得与事件类型准确对应的事件文本信息库,提高事件类型识别的准确度。
第一方面,本发明提供了一种事件类型信息处理方法,包括:
获取至少一个语料集,每个所述语料集中各事件文本属于同一事件类型,并且,每个所述事件文本包含所属事件类型下的类别关键词;
基于所属事件类型下各类别关键词对所述语料集进行频繁序列模式挖掘,得到各类别关键词的上下文序列模式特征和对应的序列模式支持度;
根据所述上下文序列模式特征和对应的序列模式支持度,确定各所述事件文本对应所属事件类型的类型权重;
根据各所述事件文本对应所属事件类型的类型权重和预设权重阈值,创建每个所述事件类型下的事件文本信息库。
第二方面,本发明提供了一种事件类型识别方法,包括:
获取待识别事件文本;
计算所述待识别事件文本与各事件文本信息库中事件文本之间的相似度,所述事件文本信息库由上述第一方面提供的事件类型信息处理方法确定;
根据所述待识别事件文本与各所述事件文本信息库中事件文本之间的相似度,确定所述待识别事件文本的事件类型识别结果。
第三方面,本发明提供了一种事件类型识别装置,包括:
待识别事件文本获取模块,用于获取待识别事件文本;
相似度计算模块,用于计算所述待识别事件文本与各事件文本信息库中事件文本之间的相似度,所述事件文本信息库由上述第一方面提供的事件类型信息处理方法确定;
事件类型识别模块,用于根据所述待识别事件文本与各所述事件文本信息库中事件文本之间的相似度,确定所述待识别事件文本的事件类型识别结果。
第四方面,本发明提供一种计算机存储介质,所述存储介质中存储有至少一条指令或者至少一段程序,所述至少一条指令或者至少一段程序由处理器加载并执行以实现如上述第一方面提供的事件类型信息处理方法或者上述第二方面提供的事件类型识别方法。
本发明提供的一种事件类型信息处理方法、事件类型识别方法及装置,具有如下技术效果:
本发明通过获取语料集,根据语料集所属事件类型下的类别关键词对语料集进行频繁序列模式挖掘,得到各类别关键词的上下文序列模式特征和序列模式支持度,基于得到的上下文序列模式特征和序列模式支持度确定语料集中各事件文本属于事件类型的类型权重,并结合预设权重阈值,构建得到各事件类型下的事件文本信息库。本发明通过频繁序列模式挖掘的方式抽取各类别关键词的上下文序列模式特征,并基于模式支持度获得事件文本属于对应的事件类型的确信度,从而将类别关键词在语料集中的出现频率转化为有效的分类依据,确定出事件文本信息库中各事件文本属于对应事件类型的权重,为准确识别其他待识别事件文本的事件类型提供了参照依据。
在进行事件类型识别时,通过计算待识别事件文本与各事件文本信息库中事件文本之间的相似度,进而基于相似度确定出待识别事件文本的事件类型。由于对事件文本信息库中各事件文本进行了细致的特征和支持度挖掘,细化了每个事件文本属于事件类型的确信度,使得依据事件文本信息库进行事件类型识别时,能够获得准确度更高的识别结果。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
图1是本发明构思的一实施例的事件类型识别系统的结构图;
图2是本发明实施例示出的数据共享系统;
图3是本发明实施例提供的事件类型信息处理方法的流程示意图;
图4是本发明实施例提供的获取语料集的方法的流程示意图;
图5是本发明实施例提供的对语料集进行频繁序列模式挖掘的方法的流程示意图;
图6是本发明实施例提供的确定各事件文本对应所属事件类型的类型权重的方法的流程示意图;
图7是本发明实施例提供的创建事件文本信息库的方法的流程示意图;
图8是本发明实施例提供的事件类型识别方法的流程示意图;
图9是本发明实施例提供的事件类型识别方法的原理图;
图10是本发明实施例提供的事件类型识别模型的结构示意图;
图11是本发明实施例提供的事件类型识别装置的结构示意图;
图12是本发明提供的服务器的一种实施例的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或服务器不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
图1是本发明构思的一实施例的事件类型识别系统的结构图。请参照图1,事件类型识别系统可以包括数据收集装置10和数据处理装置30,数据收集装置10用于存储语料,数据处理装置30从数据收集装置获取语料进行处理。但是,这只是用于实现本发明构思的目的的优选实施例,当然可根据需要附加或删除一部分结构要素,例如,可以省略数据收集装置10,由数据处理装置30直接收集获得语料。此外,图1所示的事件类型识别系统的各个结构要素表示按功能区分的功能要素,应注意在实际物理环境中也可以以彼此合并的形式实现至少一个结构要素。例如,数据收集装置10和数据处理装置30可以以内置在同一服务器或者服务器集群中的方式实现数据收集装置及数据处理装置的各功能,也可以分属于不同的服务器或者服务器集群,并且,数据处理装置30所属服务器可以以云服务器方式存在。
在所述事件类型识别系统中,数据处理装置30为被输入语料并提供基于语料的事件类型信息处理结果以及事件类型识别结果的计算装置。所述计算装置可以是笔记本、台式机(desktop)、便携式电脑(laptop)或智能手机(smart phone)等,但并不局限于此,可包括具备运算单元的所有种类的装置。
根据本发明构思的实施例,为提供事件类型识别,数据处理装置30可以对语料进行事件类型信息处理获得事件文本信息库,基于事件文本信息库构建由深度神经网络构成的事件类型识别模型,并且利用构建出的所述事件类型识别模型来提供对输入语料(待识别事件文本)的事件类型识别结果。在此,所述深度神经网络例如可以是递归神经网络(Recurrent Neural Network,RNN)、双向递归神经网络(Bi-directional RNN,BRNN)、长短期记忆(Long Short TermMemory,LSTM)、双向长短期记忆(Bi-directional LSTM,BLSTM)、门控循环单元(GatedRecurrent Unit,GRU)或双向门控循环单元(Bi-directional GRU,BGRU)等,但并不限定于此。
根据本发明构思的实施例,数据收集装置10向数据处理装置30提供至少一个语料集,每个语料集中各事件文本属于同一事件类型,并且,每个事件文本包含所属事件类型下的类别关键词,数据处理装置30基于所属事件类型下各类别关键词对语料集进行频繁序列模式挖掘,得到各类别关键词的上下文序列模式特征和对应的序列模式支持度,根据上下文序列模式特征和对应的序列模式支持度,确定各事件文本对应所属事件类型的类型权重,根据各事件文本对应所属事件类型的类型权重和预设权重阈值,创建每个事件类型下的事件文本信息库;数据处理装置30还可以从数据收集装置10获取待识别事件文本,并基于事件文本信息库对待识别事件文本进行事件类型识别。由此,通过类别关键词对语料集进行频繁序列模式挖掘,将类别关键词在语料集中的出现频率转化为有效的分类依据,确定出事件文本信息库中各事件文本属于对应事件类型的权重,为准确识别其他待识别事件文本的事件类型提供参照依据,在依据事件文本信息库进行事件类型识别时,能够获得准确度更高的事件类型识别结果。关于此的详细说明将在后面参照图3至图10来进行描述。
本发明实施例涉及的事件类型识别系统中的数据处理装置可以是由多个节点(接入网络中的任意形式的计算设备,如服务器、客户端)通过网络通信的形式连接形成的数据共享系统。
参见图2所示的数据共享系统,数据共享系统100是指用于进行节点与节点之间数据共享的系统,该数据共享系统中可以包括多个节点101,多个节点101可以是指数据共享系统中各个客户端。每个节点101在进行正常工作可以接收到输入信息,并基于接收到的输入信息维护该数据共享系统内的共享数据。为了保证数据共享系统内的信息互通,数据共享系统中的每个节点之间可以存在信息连接,节点之间可以通过上述信息连接进行信息传输。例如,当数据共享系统中的任意节点接收到输入信息时,数据共享系统中的其他节点便根据共识算法获取该输入信息,将该输入信息作为共享数据中的数据进行存储,使得数据共享系统中全部节点上存储的数据均一致。
对于数据共享系统中的每个节点,均具有与其对应的节点标识,而且数据共享系统中的每个节点均可以存储有数据共享系统中其他节点的节点标识,以便后续根据其他节点的节点标识,将生成的区块广播至数据共享系统中的其他节点。每个节点中可维护一个如下表所示的节点标识列表,将节点名称和节点标识对应存储至该节点标识列表中。其中,节点标识可为IP(Internet Protocol,网络之间互联的协议)地址以及其他任一种能够用于标识该节点的信息。
以下介绍本发明事件类型信息处理方法的一种实施例,图2是本发明实施例提供的事件类型信息处理方法的流程示意图,本说明书提供了如实施例或流程图所述的方法操作步骤,但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式,不代表唯一的执行顺序。在实际中的系统产品执行时,可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。具体的如图3所示,所述事件类型信息处理方法可以由服务器端执行,包括:
S201:获取至少一个语料集,每个所述语料集中各事件文本属于同一事件类型,并且,每个所述事件文本包含所属事件类型下的类别关键词。
在一个可行的实施例中,可采用如图4所示的获取语料集的方法获得语料集。请参见图4,该方法包括:
S301、构建对应不同事件类型的关键词词库,所述关键词词库包括预设数量的类别关键词。
在一个可选的实施例中,可以通过划分事件类型,并对各个事件类型进行数据处理,来确定各事件类型对应的关键词词库。具体可以包括:
步骤3011:划分事件类型;
步骤3013:对于每个事件类型,执行如下数据处理:
对所述事件类型的名称进行拆分,得到事件类型的基准词;
对所述基准词进行近义词扩展,得到事件类型的扩展词;
将所述扩展词和所述基准词进行组合,获得类别关键词集合;
从所述类别关键词集合中提取预设数量的类别关键词,组成与所述事件类型对应的关键词词库。
以事件类型为“金融事件”为例,构建“金融事件”的关键词词库,包括以下步骤。
1.1划分事件类型。金融事件可分为公司事件、行情事件、宏观政策事件等,同时细分各个类目构造二级类目、三级类目,例如公司事件可以细分为多个二级类目和三级类目,如表(1)所示:
一级类目 | 二级类目 | 三级类目 |
公司事件 | 公司经营 | 业绩增长 |
公司事件 | 公司经营 | 业绩亏损 |
公司事件 | 人事变动 | 人员调整 |
公司事件 | 人事变动 | 高管变动 |
公司事件 | 公告事件 | 资质认证 |
公司事件 | 公告事件 | 对外投资 |
公司事件 | 公司治理 | 股权激励 |
公司事件 | 公司治理 | 股东大会 |
表(1)。
1.2 根据每个细分类别构建关键词词库,构建方法为:将事件类型名称进行拆分,得到基准词,利用同义词林和word2vec词向量计算相似度方法进行近义词扩展,得到扩展词。如对于"业绩增长"这个事件类型,分词后为“业绩增长”,基准词为“业绩”和“增长”,分别扩展“业绩”和“增长”的近义词,得到的扩展词结果如下:
业绩:绩效、业务、经营、营收、收入、收益、销量、利润…
增长:增加、上升、增进、提高、增强、翻倍、提升、盈利、增…
将扩展词和基准词两两组合,构成该事件类型的正向关键词模式,如“业绩&增长、业绩&增加、业务&上升…”,同时设置窗口范围,即关键词词库内类别关键词的数量不超过预设数量N,N的参考值可设置为10。
处理结果如表(2)所示:
类别关键词 | 一级类目 | 二级类目 | 三级类目 |
业绩&增、业绩&提升、收入&增长… | 公司事件 | 公司经营 | 业绩增长 |
业绩&亏、业绩&赔… | 公司事件 | 公司经营 | 业绩亏损 |
人员&变动、人员&调整… | 公司事件 | 人事变动 | 人员调整 |
高管&调动、高管&任… | 公司事件 | 人事变动 | 高管变动 |
资质&认证、资质&许可… | 公司事件 | 公告事件 | 资质认证 |
外部&投资、对外&撤资… | 公司事件 | 公告事件 | 对外投资 |
股权&激励、股权&鼓励… | 公司事件 | 公司治理 | 股权激励 |
股东&会议、股东&大会… | 公司事件 | 公司治理 | 股东大会 |
表(2)。
S303、获取包含所述关键词词库中任一类别关键词的事件文本,并根据各所述事件文本的分类标识,将获取的所述事件文本划分正样本或负样本,将正样本和负样本分别作为与所述关键词词库所属事件类型对应的语料集。
具体的,可以首先通过以上类别关键词召回各事件类型的事件文本,每个事件文本包含类别关键词,根据事件文本包含的类别关键词所属的事件类型,将事件文本归于各事件类型下,进一步根据事件文本携带的分类标识,搜索分类标识用于指示事件文本的正负向性质,把各事件类型下的事件文本划分出该事件类型的正样本和负样本,得到各个事件类型的语料集,即,每个事件类型下具有至少两个语料集,一个由正样本组成,一个由负样本组成。
S203:基于所属事件类型下各类别关键词对所述语料集进行频繁序列模式挖掘,得到各类别关键词的上下文序列模式特征和对应的序列模式支持度。
图5是本发明实施例提供的对语料集进行频繁序列模式挖掘的方法的流程示意图。请参见图5,对语料集进行频繁序列模式挖掘的方法包括对每个语料集执行如下处理:
S401:遍历所述语料集中的事件文本,从所述事件文本中提取包含该语料集所属事件类型下各类别关键词的句子,根据提取的句子确定与所述语料集对应的样本数据。
S403:以字序列作为频繁序列模式挖掘对象,在所述样本数据中挖掘满足最小支持度要求的各长度的频繁字序列模式,获得所述类别关键词的上下文序列模式特征和对应的序列模式支持度。
本实施例以字序列作为频繁序列模式挖掘对象,为避免无关信息的干扰,仅提取事件文本中包含类别关键词的句子,组成与语料集对应的样本数据,样本数据由多个句子构成,继而基于同一句子中的特征序列组成序列模式的原则,在包含类别关键词的句子中进行频繁序列模式挖掘。
在一个可行的实施例中,步骤S403具体可以包括:
S4031、对样本数据进行预处理。预处理步骤包括:去除样本数据中各句子包含的预设字符,预设字符包括类别关键词;对去除预设字符的句子进行字元素拆分,获得第一样本数据。
具体的,预设字符可以包括标点符号、字母和数字,其中,去除句子包含的预设字符可以通过步骤:(1)正则过滤句子中所有的标点符号、字母和数字;(2)对于经步骤(1)处理的句子,过滤匹配到的类别关键词。
S4033、对第一样本数据进行频繁字序列模式挖掘。包括:根据字元素在第一样本数据所包含的句子中的出现次数,确定各字元素的支持度;去除第一样本数据中支持度小于预设支持度阈值的字元素,得到第二样本数据;将支持度不小于预设支持度阈值的字元素作为前缀,得到前缀集合;根据前缀集合中各前缀在第二样本数据中的出现情况,确定与各前缀对应的由接续在该前缀之后的字元素组成的投影数据集;对每个投影数据集执行递归挖掘操作,获得所有满足最小支持度要求的目标前缀和对应的支持度;将目标前缀作为类别关键词的上下文序列模式特征,将投影数据集中各目标前缀的支持度作为与上下文序列模式特征对应的序列模式支持度。
以上,对每个所述投影数据集执行递归挖掘操作包括:
判断所述投影数据集是否为空集合;如果所述投影数据集为空集合,则递归返回;如果所述投影数据集不为空集合,则统计所述投影数据集中各字元素的支持度,判断各字元素的支持度是否满足最小支持度要求;如果字元素的支持度不满足最小支持度要求,则递归返回;如果字元素的支持度满足最小支持度要求,则将所述字元素与所述投影数据集对应的前缀合并,得到新前缀,确定新前缀的投影数据集,并对新前缀对应的投影数据集执行递归挖掘,获得所有满足最小支持度要求的目标前缀和对应的支持度;
其中,所述递归返回的数据为当前获得的所有满足最小支持度要求的目标前缀和对应的支持度。
本发明实施例中,每个事件类型下具有由正样本组成的语料集和由负样本组成的语料集,在进行频繁序列模式挖掘时,对正样本组成的语料集和负样本组成的语料集分别进行挖掘。
对于由正样本组成的语料集,可以基于prefixspan算法挖掘与类别关键词构成频繁序列模式的特征,作为组成该类别关键词的正向上下文特征,加入该事件类型的正向上下文特征库。对于由负样本组成的语料集,可以基于prefixspan算法挖掘与类别关键词构成频繁序列模式的特征,作为组成该类别关键词的负向上下文特征,加入该事件类型的负向上下文特征库。
下面具体介绍prefixspan算法挖掘与类别关键词构成频繁序列模式的上下文特征的过程。
本发明以字序列作为序列模式挖掘的对象,基于Prefixspan算法挖掘事件文本中包含类别关键词同时满足最小支持度阈值的各个长度的频繁字序列模式。其中,最小支持度阈值的计算方法如公式(1)所示。
其中n为样本数据的句子数量,a为最小支持率,最小支持率参数根据样本数据的量级进行调整,同时,本发明运用了一种“滚雪球”的方法和思路,即每一轮挖掘都设置较高的支持度,保证序列模式挖掘的准确性,通过多轮迭代挖掘提高查全率。
prefixspan算法的具体操作步骤如下:
找出单位长度为1的字序列前缀和对应投影数据集;
统计字序列前缀出现频率并将支持度高于最小支持度阈值的前缀添加到字序列数据集,获取频繁一项集字序列模式;
对所有长度为i且满足最小支持度要求的前缀递归挖掘:
1)挖掘前缀的投影数据集,如果投影数据集为空集合,则返回递归;
2)统计对应投影数据集中各项的支持度,将满足支持度要求的各单项与当前前缀合并,得到新前缀,不满足最小支持度要求则递归返回;
3)令i=i+1,前缀为合并单项后的各个新前缀,分别递归执行第3步;
4. 返回该字序列数据集中所有的频繁字序列模式。
下面以实际样本为例,介绍本发明步骤的挖掘方法。
首先基于每个事件类型的语料集对应的正样本样本数据挖掘该事件类型的正向上下文特征,以“公司事件_公司经营_业绩增长”这个事件类型为例,具体介绍挖掘过程。事件类型对应的正样本样本数据如表(3)所示:
样本数据正样本 | 一级类目 | 二级类目 | 三级类目 | 匹配到的关键词模式 |
今年7月份日照钢铁业绩同比增幅位列全省第一 | 公司事件 | 公司经营 | 业绩增长 | 业绩&增 |
长城汽车1-5月销量环比大增5.11%用行动打破市场坚冰 | 公司事件 | 公司经营 | 业绩增长 | 销量&增 |
李宁(02331.HK)预计中期收益同比增加逾4.4亿元 | 公司事件 | 公司经营 | 业绩增长 | 收益&增加 |
中国神华(01088)上半年神华财务净利润同比增31 | 公司事件 | 公司经营 | 业绩增长 | 利润&增 |
双箭股份预计2019上半年盈利同环比增幅均超过往年达到历史新高 | 公司事件 | 公司经营 | 业绩增长 | 盈利&增 |
宝马集团电动车销量突破40万大关5月交付环比增长9.8% | 公司事件 | 公司经营 | 业绩增长 | 销量&增长 |
腾讯视频今年9月业务营收环比增长42% | 公司事件 | 公司经营 | 业绩增长 | 营收&增长 |
必瘦站(01830)年度纯利同比增加64%至3.19亿港元 | 公司事件 | 公司经营 | 业绩增长 | 纯利&增加 |
腾讯音乐上市后业绩环比提升趋势明显 | 公司事件 | 公司经营 | 业绩增长 | 业绩&提升 |
表(3)。
2.1首先对样本数据进行预处理,预处理步骤包括:
2.1.1正则过滤所有标点符号、字母和数字;
2.1.2过滤匹配到的类别关键词;
预处理后上述样本数据结果见表(4):
预处理后样本数据 |
今年月份日照钢铁同比幅位列全省第一 |
长城汽车月环比大用行动打破市场坚冰 |
李宁预计中期同比逾亿元 |
中国神华上半年神华财务净同比 |
双箭股份预计上半年同环比幅均超过往年达到历史新高 |
宝马集团电动车突破万大关月交付环比 |
腾讯视频今年月业务环比 |
必瘦站年度同比至亿港元 |
腾讯音乐上市后环比趋势明显 |
表(4)。
2.1.3 分字,对句子按字元素进行拆分;
2.2 设定最小支持度,对样本数据进行频繁字序列模式挖掘。
2.2.1 统计所有字元素在各句子中的出现情况,结合样本数据的句子总量,确定出每个字元素的支持度,过滤小于预设支持度阈值的字元素,假设最小支持度设为1/3,即在这9个样本中至少出现4次才能满足支持度阈值,否则过滤该字元素。对剩余字元素进行字频统计,结果如表(5)所示:
字词 | 比 | 年 | 环 | 同 | 月 |
字频 | 9 | 6 | 5 | 5 | 4 |
表(5)。
表(4)过滤后得到的第二样本数据如表(6)所示:
字频支持度过滤结果 |
年月同比 |
月环比 |
同比 |
年同比 |
年同环比年 |
月环比 |
年月环比 |
年同比 |
环比 |
表(6)。
2.2.2 满足最小支持度阈值的一项前缀与其对应后缀如表(7)所示:
表(7)。
2.2.3进行下一轮迭代挖掘二项前缀和对应后缀,以“年”这个一项前缀为例,对应后缀的出现次数如表(8)所示:
字词 | 比 | 同 | 环 | 月 | 年 |
字频 | 5 | 4 | 2 | 2 | 1 |
表(8)。
由于一项后缀中,“环”、“年”、“月”都达不到支持度阈值,因此递归得到前缀为“年”的2项频繁序列为“年比”、“年同”,分别递归得到满足最小支持度阈值的二项前缀和对应后缀见表(9):
表(9)。
2.2.4进行下一轮迭代挖掘三项前缀和对应后缀,结果见表(10),
三项前缀 | 对应后缀 |
年同比 | 年 |
表(10)。
至此,一项前缀为“年”的频繁序列模式迭代结束,得到各个长度的频繁序列及对应的支持度如表(11)所示:
正样本各个长度的频繁序列模式 | 模式支持度 |
年 | 5/9 |
年比 | 5/9 |
年同 | 4/9 |
年同比 | 4/9 |
表(11)。
采用同样的方法挖掘该事件类型的其他一项前缀的各个长度的频繁序列及对应的支持度。
接下来基于每个事件类型的语料集对应的负样本样本数据挖掘该事件类型的负向上下文特征,以“公司事件_公司经营_业绩增长”这个事件类型为例,具体介绍挖掘过程。事件类型对应的负样本样本数据如表(12)所示:
样本数据负样本 | 一级类目 | 二级类目 | 三级类目 | 匹配到的关键词模式 |
乐视融资失败上半年业绩增长受阻 | 公司事件 | 公司经营 | 业绩增长 | 业绩&增长 |
中路股份转型受阻重组失败业绩增长路在何方 | 公司事件 | 公司经营 | 业绩增长 | 业绩&增长 |
欧派“大家居”推进受阻负面缠身利润增长率大幅下降 | 公司事件 | 公司经营 | 业绩增长 | 利润&增长 |
加加食品扩张受阻业绩低迷频繁并购试图提升营业额都以失败告终 | 公司事件 | 公司经营 | 业绩增长 | 业绩&提升 |
渠道受阻优信二手车交易负增长 | 公司事件 | 公司经营 | 业绩增长 | 交易&增长 |
朗姿股份今年至今盈利同比增长仍为负 | 公司事件 | 公司经营 | 业绩增长 | 盈利&增长 |
洋河股份业绩看似增长但经营现金流为负 | 公司事件 | 公司经营 | 业绩增长 | 业绩&增长 |
2018人保集团净利负增长近2成 | 公司事件 | 公司经营 | 业绩增长 | 净利&增长 |
十年首现净利负增长上汽集团“压力山大” | 公司事件 | 公司经营 | 业绩增长 | 净利&增长 |
中骏集团:归母利润负增长融资成本升高 | 公司事件 | 公司经营 | 业绩增长 | 利润&增长 |
表(12)。
经过2.1.1和2.1.2预处理后结果见表(13):
预处理后样本数据 |
乐视融资失败上半年受阻 |
中路股份转型受阻重组失败路在何方 |
欧派大家居推进受阻负面缠身率大幅下降 |
加加食品扩张受阻低迷频繁并购试图营业额都以失败告终 |
渠道受阻优信二手车负 |
朗姿股份今年至今同比仍为负 |
洋河股份看似但经营现金流为负 |
人保集团负近成 |
十年首现负上汽集团压力山大 |
中骏集团归母负融资成本升高 |
表(13)。
进行步骤2.2.1支持度过滤,并进行字频统计,结果如表(14)所示:
字词 | 字频 |
负 | 7 |
受 | 5 |
阻 | 5 |
表(14)。
经过步骤2.2.2,满足最小支持度阈值的一项前缀与其对应后缀见表(15):
表(15)。
经过步骤2.2.3进行下一轮迭代挖掘二项前缀和对应后缀见表(16):
二项前缀 | 对应后缀 |
受阻 |
表(16)。
最终得到各个长度的频繁序列及对应的支持度如表(17):
负样本各个长度的频繁序列模式 | 模式支持度 |
负 | 7/10 |
受 | 1/2 |
阻 | 1/2 |
受阻 | 1/2 |
表(17)。
通过以上方法,根据各个事件类型的正样本语料集和负样本语料集,分别基于频繁字序列模式挖掘得到该类别关键词相应的正向上下文序列模式特征和负向上下文序列模式特征。
S205:根据所述上下文序列模式特征和对应的序列模式支持度,确定各所述事件文本对应所属事件类型的类型权重。
本发明实施例中,上下文序列模式特征包括根据正样本确定的正向上下文序列模式特征和根据负样本确定的负向上下文序列模式特征。
图6是本发明实施例提供的确定各事件文本对应所属事件类型的类型权重的方法的流程示意图。请参见图6,步骤S205可以包括:
S501、将所述事件文本与各事件类型下的类别关键词进行匹配,确定与所述事件文本匹配的类别关键词及对应的事件类型;
S503、获取与匹配到的类别关键词对应的上下文序列模式特征;
S505、将获取的上下文序列模式特征中的最长上下文序列模式特征作为目标上下文序列模式特征;
S507、如果所述目标上下文序列模式特征为正向上下文序列模式特征,将所述目标上下文序列模式特征对应的序列模式支持度作为所述事件文本对应匹配到的所述事件类型的正样本权重;如果所述目标上下文序列模式特征为负向上下文序列模式特征,对所述目标上下文序列模式特征对应的序列模式支持度进行取负运算,将取负运算结果作为所述事件文本对应匹配到的所述事件类型的负样本权重;
S509、将所述正样本权重和所述负样本权重作为所述事件文本对应匹配到的所述事件类型的类型权重。
在一个可行的实施例中,在确定出各事件类型的类别关键词分别对应的各个长度的正负向上下文序列模式特征后,应用时,对于待识别事件类型的事件文本,首先匹配各事件类型的类别关键词,匹配得到类别关键词,确定匹配到的类别关键词所在上下文与该类别的正向上下文序列模式特征库和负向上下文序列模式特征库,利用事件文本中类别关键词上下文所包含的正向最长序列模式特征和负向最长序列模式特征,分别作为该事件文本的正向上下文序列特征和负向上下文序列特征,而该类别关键词的正向权重为正向上下文序列特征的支持度,该类别关键词的负向权重为负向上下文序列特征的支持度取反(负向即支持度为负),从而获取类别关键词与相关上下文组合模式在各事件类型中的正负向权重,其中正负向权重范围为[-1,1],越接近1则说明出现该类别关键词与相关上下文组合模式越能代表事件文本为该事件类别,越接近-1则说明出现该类别关键词与相关上下文组合模式越不能归为该事件类型。
例如对于事件文本,匹配到事件类别关键词和对应的序列模式支持度如表(18):
事件文本 | 匹配事件类别关键词 | 所包含的最长上下文序列模式特征 | 序列模式 支持度 |
腾讯2018年总收入3127亿元同比增长32% | 收入&增长 | 年同比 | 4/9 |
游戏等业务增长受阻腾讯暴跌 B端发力能否雄起 | 业务&增长 | 受阻 | - 1/2 |
表(18)。
将根据类别关键词序列模式支持度获取的正负向权重作为各事件文本对应其事件类型的类型权重。
S207:根据各所述事件文本对应所属事件类型的类型权重和预设权重阈值,创建每个所述事件类型下的事件文本信息库。
图7是本发明实施例提供的创建事件文本信息库的方法的流程示意图。请参见图7,创建事件文本信息库的方法包括:
S601、确定预设权重阈值,所述预设权重阈值包括正样本支持度权重阈值和负样本支持度权重阈值;
S603、获取各事件文本对应所属事件类型的类型权重,所述类型权重包括正样本权重和负样本权重;
S605、将各事件文本对应所属事件类型的类型权重中正样本权重高于所述正样本支持度权重阈值的事件文本作为正向性质的事件文本,将各事件文本对应所属事件类型的类型权重中负样本权重低于所述负样本支持度权重阈值的事件文本作为负向性质的事件文本;
S607、根据所述正向性质的事件文本和负向性质的事件文本构建事件类型库;
S609、根据所述事件文本所属事件类型和正负向性质,对事件类型库中每个事件文本进行事件类型编码;
S611、对具有同一事件类型编码的事件文本进行归类,构建以事件类型编码为标签的事件文本信息库。
在一个可行的实施例中,基于各事件文本对应其事件类型的类型权重, 以事件类型下的类型权重超过预设阈值的正负例事件文本构建每个事件类型下事件文本信息库,具体构建方法为:
预设正样本支持度权重阈值和负样本支持度权重阈值分别为和(,),将获取的各事件文本对应其事件类型的类型权重中正样本权重高于和负样本权重低于的事件文本加入事件类型库(即正负样本支持度权重分别大于和),和根据实际应用场景调整,假设取和,构建后的事件类型库如表(19):
表(19)。
将同一事件类型编码的事件文本作为一类,构建以事件类型编码为标签的事件文本信息库。事件文本信息库的示例见表(20):
表(20)。
接下来可以根据事件文本信息库对待识别事件文本的事件类型进行识别。
本发明实施例通过获取语料集,根据语料集所属事件类型下的类别关键词对语料集进行频繁序列模式挖掘,得到各类别关键词的上下文序列模式特征和序列模式支持度,基于得到的上下文序列模式特征和序列模式支持度确定语料集中各事件文本属于事件类型的类型权重,并结合预设权重阈值,构建得到各事件类型下的事件文本信息库。本发明通过频繁序列模式挖掘的方式抽取各类别关键词的上下文序列模式特征,并基于模式支持度获得事件文本属于对应的事件类型的确信度,从而将类别关键词在语料集中的出现频率转化为有效的分类依据,确定出事件文本信息库中各事件文本属于对应事件类型的权重,为准确识别其他待识别事件文本的事件类型提供了参照依据。
本发明实施例还提供了一种事件类型识别方法,图8是本发明实施例提供的事件类型识别方法的流程示意图,请参见图8,所述事件类型识别方法包括:
S701:获取待识别事件文本。
S703:计算所述待识别事件文本与各事件文本信息库中事件文本之间的相似度,所述事件文本信息库由上述的事件类型信息处理方法确定。
S705:根据所述待识别事件文本与各所述事件文本信息库中事件文本之间的相似度,确定所述待识别事件文本的事件类型识别结果。
在一个可行的实施例中,可以通过上述的事件类型信息处理方法确定出事件文本信息库,接下来对事件文本信息库中的事件文本进行特征向量化编码;基于事件文本信息库和事件文本的特征向量化编码,构建事件类型识别模型,利用事件类型识别模型对待识别事件文本进行事件类型识别。
图9是本发明实施例提供的事件类型识别方法的原理图。请参见图9,将事件文本信息库中标注有事件类型编码标签的事件文本作为训练样本训练深度学习模型,得到事件类型识别模型,后续将待识别事件文本输入事件类型识别模型,输出得到待识别事件文本与事件文本信息库中的事件文本之间的相似度,根据输出的相似度可以确定待识别事件文本的事件类型。
构建事件类型识别模型的步骤可以包括:
(1)对事件文本信息库中的事件文本进行特征向量化编码,包括:首先对事件文本进行分词,然后对句子进行向量化编码,有以下两种方式进行句子向量编码:
利用word2vec进行词向量化,再取均值得到事件文本的句向量;
二、利用word2vec进行词向量化,然后利用获取的类型权重对句子中的字或词向量进行加权,最终对事件文本中的词向量进行加权求和得到整个事件文本的句向量。
将对事件文本进行特征向量化编码获得的句向量作为该事件文本的文本特征。
具体的,可以引入BI-LSTM作为特征提取模型即编码器,对事件文本进行文本特征提取,但本发明方法不限于使用BI-LSTM模型作为特征提取,其他的深度模型如CNN、GRU等同样适用于本发明方法。
将两个事件文本的文本特征作为一组特征数据输入深度学习模型进行相似度运算,根据预设的相似度确定策略,确定两个事件文本的相似度计算结果,其中,相似度确定策略可以是当相似度大于相似度阈值时,确定两个事件文本的相似度计算结果为相似,反之,确定两个事件文本的相似度计算结果为不相似;比对两个事件文本的事件类型编码标签,获得事件类型编码标签的比对结果,将相似度计算结果与事件类型编码标签的比对结果进行对比,计算得到对比损失值,判断所述对比损失值是否满足收敛条件,如果对比损失值不满足收敛条件,则基于该对比损失值更新深度学习模型的参数,基于更新后的参数执行上述调整参数的步骤,直至利用当前更新参数后的深度学习模型计算的对比损失值满足收敛条件时,将当前更新参数后的深度学习模型作为事件类型识别模型。其中,收敛条件可以是参数调整次数达到预设次数或者类型对比损失值小于预设阈值。
具体应用时,可以将事件文本的文本特征输入深度学习模型,构建以AMSoftmaxLoss为损失函数的多分类模型进行事件类型文本的相似度计算。
进一步的,基于事件类型识别模型对待识别事件文本进行事件类型识别,包括:
对待识别事件文本进行向量化处理,获得待识别事件文本的文本特征;
将待识别事件文本的文本特征输入事件类型识别模型,输出得到所述待识别事件文本的文本特征与事件文本信息库中各事件文本的文本特征之间的相似度;
对相似度按照由高至低排序,获取待识别事件文本与每个事件类型下正向性质的事件文本之间的最高相似度和最低相似度,以及与每个事件类型下负向性质的事件文本之间的最高相似度和最低相似度;
对获取的相似度进行判断,包括:如果与事件类型下正向性质的事件文本之间的最低相似度超过预设正向相似度阈值,同时与该事件类型下负向性质的事件文本之间的最高相似度低于预设负向相似度阈值,确定该事件类型为所述待识别事件文本的事件类型识别结果;如果与事件类型下正向性质的事件文本之间的最高相似度未超过预设正向相似度阈值,同时与该事件类型下负向性质的事件文本之间的最低相似度不低于预设负向相似度阈值,确定该事件类型不是所述待识别事件文本的事件类型识别结果。
图10是本发明实施例提供的事件类型识别模型的结构示意图,参见图10,
该模型基于事件文本信息库,同一事件类型编码的事件文本即同一个事件类型,训练基于am-softmax的多分类模型,包括:
BI-LSTM和am-softmax模型通过最小化该am-softmax 的loss进行训练,利用分类模型作为训练方案,而应用时将特征提取模型(这里即BI-LSTM模型)提取的特征进行对比排序,从而计算得到事件文本信息库的事件文本与待预测事件文本的相似度,将与事件类型的事件正样本相似度超过预设正向相似度阈值,同时与该事件类型的事件负样本相似度低于预设负向相似度阈值的,作为该事件类型的事件正例;相反,与事件类型的事件负样本相似度超过预设负向相似度阈值,同时与该事件类型的事件正样本相似度低于预设正向相似度阈值的,作为该事件类型的事件负例。
本发明实施例基于事件文本信息库构建以am-softmax为loss的深度模型获得事件类型识别模型,来进行事件类型识别,提高了模型识别的泛化性能。
当然,除了以上基于训练得到的模型对待识别事件文本进行事件类型识别之外,还可以基于事件文本信息库采用其他方法进行事件类型识别。例如,可以提取待识别事件文本中包含类别关键词的句子,计算提取的各句子与事件文本信息库中各句子之间的相似度,然后对对应同一事件类型的相似度做加权和,获得不同事件类型下的加权和值,然后对加权和值进行排序,将加权和值最大的一项所对应的事件类型作为所述待识别事件文本的事件类型。
本发明实施例在进行事件类型识别时,通过计算待识别事件文本与各事件文本信息库中事件文本之间的相似度,进而基于相似度确定出待识别事件文本的事件类型。由于对事件文本信息库中各事件文本进行了细致的特征和支持度挖掘,细化了每个事件文本属于事件类型的确信度,使得依据事件文本信息库进行事件类型识别时,能够获得准确度更高的识别结果。
本发明首次提出了一种融合序列模式上下文特征相似度计算的事件类型识别方案,适用于事件体系构建、事件抽取、事件图谱构建等场景,具有广泛的应用价值和实践意义。
该方案通过序列模式挖掘的方法构建事件类型的正负上下文特征,并根据支持度阈值构建事件类型正负样本库,基于多分类模型训练得到的编码结果进行相似度计算从而对待预测事件文本进行事件类型识别,该方法无论从事件类型的正负样本特征和事件文本信息库构建,还是从事件类型识别模型的构造,对事件分类等领域都有一定的参考价值和指导意义。
本发明实施例还提供了一种事件类型识别装置,所述事件类型识别装置可以设置在服务器端,图11是本发明实施例提供的事件类型识别装置的结构示意图,请参见图11,所述装置包括待识别事件文本获取模块1010、相似度计算模块1020和事件类型确定模块1030。
其中,待识别事件文本获取模块1010,用于获取待识别事件文本;
相似度计算模块1020,用于计算所述待识别事件文本与各事件文本信息库中事件文本之间的相似度,所述事件文本信息库由上述的事件类型信息处理方法确定;
事件类型确定模块1030,用于根据所述待识别事件文本与各所述事件文本信息库中事件文本之间的相似度,确定所述待识别事件文本的事件类型识别结果。
本实施例中的事件类型识别装置与图8-10对应的方法实施例基于同样地发明构思。
本发明提出的事件类型识别装置,融合了序列模式上下文特征相似度计算,可以广泛应用于事件体系构建、事件抽取、事件图谱构建等场景,例如对金融新闻资讯的事件挖掘,能够挖掘与股票涨跌相关因素的金融事件,从而分析个股涨跌规律甚至预测个股涨跌指导金融理财;对论坛文章进行事件类型识别,能够更好地整理归类相关度较高的文章,帮助用户在自己感兴趣的主题下去浏览。因此在产品侧,本发明方法具有广泛的应用场景,除以上场景外,与事件类型识别的相关场景,都属于该发明的潜在应用场景。
本发明实施例提供了一种电子设备,所述电子设备包括处理器和存储器,所述存储器中存储有至少一条指令和至少一段程序,所述至少一条指令或者至少一段程序由处理器加载并执行以实现如图3-7对应的事件类型信息处理方法或者如图8-10对应的事件类型识别方法。
存储器可用于存储软件程序以及模块,处理器通过运行存储在存储器的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、功能所需的应用程序等;存储数据区可存储根据所述设备的使用所创建的数据等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器还可以包括存储器控制器,以提供处理器对存储器的访问。
本发明实施例还提供了一种服务器的结构示意图,请参阅图12,该服务器1100用于实施上述实施例中提供的事件类型识别方法,具体来讲,所述服务器结构可以包括上述事件类型识别装置。该服务器1100可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(Central Processing Units,CPU)1110(例如,一个或一个以上处理器)和存储器1130,一个或一个以上存储应用程序1123或数据1122的存储介质1120(例如一个或一个以上海量存储设备)。其中,存储器1130和存储介质1120可以是短暂存储或持久存储。存储在存储介质1120的程序可以包括一个或一个以上模块,每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器1110可以设置为与存储介质1120通信,在服务器1100上执行存储介质1120中的一系列指令操作。服务器1100还可以包括一个或一个以上电源1160,一个或一个以上有线或无线网络接口1150,一个或一个以上输入输出接口1140,和/或,一个或一个以上操作系统1121,例如Windows ServerTM,Mac OS XTM,UnixTM, LinuxTM,FreeBSDTM等等。
本发明的实施例还提供了一种存储介质,所述存储介质可设置于服务器之中以保存用于实现方法实施例中一种事件类型信息处理方法相关的至少一条指令和至少一段程序,该至少一条指令和该至少一段程序由该处理器加载并执行以实现上述图3-7对应的事件类型信息处理方法。
可选地,在本实施例中,上述存储介质可以位于计算机网络的多个网络服务器中的至少一个网络服务器。可选地,在本实施例中,上述存储介质可以包括但不限于:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
本发明的实施例还提供了一种存储介质,所述存储介质可设置于服务器之中以保存用于实现方法实施例中一种事件类型识别方法相关的至少一条指令和至少一段程序,该至少一条指令和该至少一段程序由该处理器加载并执行以实现上述图8-10对应的事件类型识别方法。
本发明通过获取语料集,根据语料集所属事件类型下的类别关键词对语料集进行频繁序列模式挖掘,得到各类别关键词的上下文序列模式特征和序列模式支持度,基于得到的上下文序列模式特征和序列模式支持度确定语料集中各事件文本属于事件类型的类型权重,并结合预设权重阈值,构建得到各事件类型下的事件文本信息库。本发明通过频繁序列模式挖掘的方式抽取各类别关键词的上下文序列模式特征,并基于模式支持度获得事件文本属于对应的事件类型的确信度,从而将类别关键词在语料集中的出现频率转化为有效的分类依据,确定出事件文本信息库中各事件文本属于对应事件类型的权重,为准确识别其他待识别事件文本的事件类型提供了参照依据。
在进行事件类型识别时,通过计算待识别事件文本与各事件文本信息库中事件文本之间的相似度,进而基于相似度确定出待识别事件文本的事件类型。由于对事件文本信息库中各事件文本进行了细致的特征和支持度挖掘,细化了每个事件文本属于事件类型的确信度,使得依据事件文本信息库进行事件类型识别时,能够获得准确度更高的识别结果。
本发明提出的事件类型识别方案可以广泛应用于事件体系构建、事件抽取、事件图谱构建等场景,例如对金融新闻资讯的事件挖掘,能够挖掘与股票涨跌相关因素的金融事件,从而分析个股涨跌规律甚至预测个股涨跌指导金融理财;对论坛文章进行事件类型识别,能够更好地整理归类相关度较高的文章,帮助用户在自己感兴趣的主题下去浏览。
需要说明的是:上述本发明实施例先后顺序仅仅为了描述,不代表实施例的优劣。且上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置和服务器实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种事件类型信息处理方法,其特征在于,包括:
获取至少一个语料集,每个所述语料集中各事件文本属于同一事件类型,并且,每个所述事件文本包含所属事件类型下的类别关键词;
基于所属事件类型下各类别关键词对所述语料集进行频繁序列模式挖掘,得到各类别关键词的上下文序列模式特征和对应的序列模式支持度;
根据所述上下文序列模式特征和对应的序列模式支持度,确定各所述事件文本对应所属事件类型的类型权重;
根据各所述事件文本对应所属事件类型的类型权重和预设权重阈值,创建每个所述事件类型下的事件文本信息库。
2.根据权利要求1所述的方法,其特征在于,所述获取至少一个语料集,包括:
构建对应不同事件类型的关键词词库,所述关键词词库包括预设数量的类别关键词;
获取包含所述关键词词库中任一类别关键词的事件文本,并根据各所述事件文本的分类标识,将获取的所述事件文本划分正样本或负样本,将正样本和负样本分别作为与所述关键词词库所属事件类型对应的语料集。
3.根据权利要求1所述的方法,其特征在于,所述基于所属事件类型下各类别关键词对所述语料集进行频繁序列模式挖掘,得到各类别关键词的上下文序列模式特征和对应的序列模式支持度,包括:
对每个语料集执行如下处理:
遍历所述语料集中的事件文本,从所述事件文本中提取包含该语料集所属事件类型下各类别关键词的句子,根据提取的句子确定与所述语料集对应的样本数据;
以字序列作为频繁序列模式挖掘对象,在所述样本数据中挖掘满足最小支持度要求的各长度的频繁字序列模式,获得所述类别关键词的上下文序列模式特征和对应的序列模式支持度。
4.根据权利要求3所述的方法,其特征在于,所述以字序列作为频繁序列模式挖掘对象,在所述样本数据中挖掘满足最小支持度要求的各长度的频繁字序列模式,获得所述类别关键词的上下文序列模式特征和对应的序列模式支持度,包括:
去除所述样本数据中各句子包含的预设字符,所述预设字符包括类别关键词;
对去除预设字符的句子进行字元素拆分,获得第一样本数据;
根据所述字元素在所述第一样本数据所包含的句子中的出现次数,确定各字元素的支持度;
去除所述第一样本数据中支持度小于预设支持度阈值的字元素,得到第二样本数据;
将支持度不小于预设支持度阈值的字元素作为前缀,得到前缀集合;
根据所述前缀集合中各前缀在所述第二样本数据中的出现情况,确定与各前缀对应的由接续在该前缀之后的字元素组成的投影数据集;
对每个所述投影数据集执行递归挖掘操作,获得所有满足最小支持度要求的目标前缀和对应的支持度;
将所述目标前缀作为所述类别关键词的上下文序列模式特征,将所述投影数据集中各目标前缀的支持度作为与上下文序列模式特征对应的序列模式支持度。
5.根据权利要求4所述的方法,其特征在于,所述对每个所述投影数据集执行递归挖掘操作,包括:
判断所述投影数据集是否为空集合;
如果所述投影数据集为空集合,则递归返回;
如果所述投影数据集不为空集合,则统计所述投影数据集中各字元素的支持度,判断各字元素的支持度是否满足最小支持度要求;
如果字元素的支持度不满足最小支持度要求,则递归返回;
如果字元素的支持度满足最小支持度要求,则将所述字元素与所述投影数据集对应的前缀合并,得到新前缀,确定新前缀的投影数据集,并对新前缀对应的投影数据集执行递归挖掘,获得所有满足最小支持度要求的目标前缀和对应的支持度;
其中,所述递归返回的数据为当前获得的所有满足最小支持度要求的目标前缀和对应的支持度。
6.根据权利要求2所述的方法,其特征在于,所述上下文序列模式特征包括根据正样本确定的正向上下文序列模式特征和根据负样本确定的负向上下文序列模式特征;
所述根据所述上下文序列模式特征和对应的序列模式支持度,确定各所述事件文本对应所属事件类型的类型权重,包括:
将所述事件文本与各事件类型下的类别关键词进行匹配,确定与所述事件文本匹配的类别关键词及对应的事件类型;
获取与匹配到的类别关键词对应的上下文序列模式特征;
将获取的上下文序列模式特征中的最长上下文序列模式特征作为目标上下文序列模式特征;
如果所述目标上下文序列模式特征为正向上下文序列模式特征,将所述目标上下文序列模式特征对应的序列模式支持度作为所述事件文本对应匹配到的所述事件类型的正样本权重;
如果所述目标上下文序列模式特征为负向上下文序列模式特征,对所述目标上下文序列模式特征对应的序列模式支持度进行取负运算,将取负运算结果作为所述事件文本对应匹配到的所述事件类型的负样本权重;
将所述正样本权重和所述负样本权重作为所述事件文本对应匹配到的所述事件类型的类型权重。
7.根据权利要求1所述的方法,其特征在于,所述根据各所述事件文本对应所属事件类型的类型权重和预设权重阈值,创建每个所述事件类型下的事件文本信息库,包括:
确定预设权重阈值,所述预设权重阈值包括正样本支持度权重阈值和负样本支持度权重阈值;
获取各事件文本对应所属事件类型的类型权重,所述类型权重包括正样本权重和负样本权重;
将各事件文本对应所属事件类型的类型权重中正样本权重高于所述正样本支持度权重阈值的事件文本作为正向性质的事件文本,将各事件文本对应所属事件类型的类型权重中负样本权重低于所述负样本支持度权重阈值的事件文本作为负向性质的事件文本;
根据所述正向性质的事件文本和负向性质的事件文本构建事件类型库;
根据所述事件文本所属事件类型和正负向性质,对事件类型库中每个事件文本进行事件类型编码;
对具有同一事件类型编码的事件文本进行归类,构建以事件类型编码为标签的事件文本信息库。
8.一种事件类型识别方法,其特征在于,包括:
获取待识别事件文本;
计算所述待识别事件文本与各事件文本信息库中事件文本之间的相似度,所述事件文本信息库由权利要求1-7中任一所述的事件类型信息处理方法确定;
根据所述待识别事件文本与各所述事件文本信息库中事件文本之间的相似度,确定所述待识别事件文本的事件类型识别结果。
9.一种事件类型识别装置,其特征在于,包括:
待识别事件文本获取模块,用于获取待识别事件文本;
相似度计算模块,用于计算所述待识别事件文本与各事件文本信息库中事件文本之间的相似度,所述事件文本信息库由权利要求1-7中任一所述的事件类型信息处理方法确定;
事件类型确定模块,用于根据所述待识别事件文本与各所述事件文本信息库中事件文本之间的相似度,确定所述待识别事件文本的事件类型识别结果。
10.一种计算机存储介质,其特征在于,所述存储介质中存储有至少一条指令或者至少一段程序,所述至少一条指令或者至少一段程序由处理器加载并执行以实现如权利要求1-7任一所述的事件类型信息处理方法或者权利要求8所述的事件类型识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010497908.3A CN111400432B (zh) | 2020-06-04 | 2020-06-04 | 事件类型信息处理方法、事件类型识别方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010497908.3A CN111400432B (zh) | 2020-06-04 | 2020-06-04 | 事件类型信息处理方法、事件类型识别方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111400432A true CN111400432A (zh) | 2020-07-10 |
CN111400432B CN111400432B (zh) | 2020-09-25 |
Family
ID=71435732
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010497908.3A Active CN111400432B (zh) | 2020-06-04 | 2020-06-04 | 事件类型信息处理方法、事件类型识别方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111400432B (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111950261A (zh) * | 2020-10-16 | 2020-11-17 | 腾讯科技(深圳)有限公司 | 提取文本关键词的方法、设备和计算机可读存储介质 |
CN112036169A (zh) * | 2020-09-02 | 2020-12-04 | 深圳前海微众银行股份有限公司 | 事件识别模型优化方法、装置、设备及可读存储介质 |
CN112837148A (zh) * | 2021-03-03 | 2021-05-25 | 中央财经大学 | 一种融合领域知识的风险逻辑关系量化分析方法 |
CN112948589A (zh) * | 2021-05-13 | 2021-06-11 | 腾讯科技(深圳)有限公司 | 文本分类方法、装置和计算机可读存储介质 |
CN113312913A (zh) * | 2021-07-30 | 2021-08-27 | 北京惠每云科技有限公司 | 一种病例书的切分方法、装置、电子设备及可读存储介质 |
CN113326505A (zh) * | 2021-05-19 | 2021-08-31 | 中国联合网络通信集团有限公司 | 数据处理方法及装置 |
CN113342978A (zh) * | 2021-06-23 | 2021-09-03 | 杭州数梦工场科技有限公司 | 一种城市事件处理方法及装置 |
CN114239536A (zh) * | 2022-02-22 | 2022-03-25 | 北京澜舟科技有限公司 | 一种事件抽取方法、系统及计算机可读存储介质 |
CN114330354A (zh) * | 2022-03-02 | 2022-04-12 | 杭州海康威视数字技术股份有限公司 | 一种基于词汇增强的事件抽取方法、装置及存储介质 |
CN115757775A (zh) * | 2022-11-05 | 2023-03-07 | 内蒙古大学 | 基于文本蕴含的无触发词文本事件检测方法及系统 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102043851A (zh) * | 2010-12-22 | 2011-05-04 | 四川大学 | 一种基于频繁项集的多文档自动摘要方法 |
CN102118245A (zh) * | 2009-12-31 | 2011-07-06 | 中国人民解放军国防科学技术大学 | 大规模网络安全事件的规模预测知识训练方法和预测方法 |
CN102609528A (zh) * | 2012-02-14 | 2012-07-25 | 云南大学 | 基于概率图模型的频繁模式关联分类方法 |
CN106202518A (zh) * | 2016-07-22 | 2016-12-07 | 桂林电子科技大学 | 基于chi和分类别关联规则算法的短文本分类方法 |
US20170091287A1 (en) * | 2015-09-30 | 2017-03-30 | University Of Virginia Patent Foundation | Association rule mining with the micron automata processor |
CN107357837A (zh) * | 2017-06-22 | 2017-11-17 | 华南师范大学 | 基于保序子矩阵和频繁序列挖掘的电商评论情感分类方法 |
CN108984596A (zh) * | 2018-06-01 | 2018-12-11 | 阿里巴巴集团控股有限公司 | 一种关键词挖掘以及风险反馈的方法、装置及设备 |
US20190378566A1 (en) * | 2018-06-06 | 2019-12-12 | Micron Technology, Inc. | Weight storage using memory device |
CN111177371A (zh) * | 2019-12-05 | 2020-05-19 | 腾讯科技(深圳)有限公司 | 一种分类方法和相关装置 |
-
2020
- 2020-06-04 CN CN202010497908.3A patent/CN111400432B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102118245A (zh) * | 2009-12-31 | 2011-07-06 | 中国人民解放军国防科学技术大学 | 大规模网络安全事件的规模预测知识训练方法和预测方法 |
CN102043851A (zh) * | 2010-12-22 | 2011-05-04 | 四川大学 | 一种基于频繁项集的多文档自动摘要方法 |
CN102609528A (zh) * | 2012-02-14 | 2012-07-25 | 云南大学 | 基于概率图模型的频繁模式关联分类方法 |
US20170091287A1 (en) * | 2015-09-30 | 2017-03-30 | University Of Virginia Patent Foundation | Association rule mining with the micron automata processor |
CN106202518A (zh) * | 2016-07-22 | 2016-12-07 | 桂林电子科技大学 | 基于chi和分类别关联规则算法的短文本分类方法 |
CN107357837A (zh) * | 2017-06-22 | 2017-11-17 | 华南师范大学 | 基于保序子矩阵和频繁序列挖掘的电商评论情感分类方法 |
CN108984596A (zh) * | 2018-06-01 | 2018-12-11 | 阿里巴巴集团控股有限公司 | 一种关键词挖掘以及风险反馈的方法、装置及设备 |
US20190378566A1 (en) * | 2018-06-06 | 2019-12-12 | Micron Technology, Inc. | Weight storage using memory device |
CN111177371A (zh) * | 2019-12-05 | 2020-05-19 | 腾讯科技(深圳)有限公司 | 一种分类方法和相关装置 |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112036169A (zh) * | 2020-09-02 | 2020-12-04 | 深圳前海微众银行股份有限公司 | 事件识别模型优化方法、装置、设备及可读存储介质 |
CN112036169B (zh) * | 2020-09-02 | 2023-06-20 | 深圳前海微众银行股份有限公司 | 事件识别模型优化方法、装置、设备及可读存储介质 |
CN111950261A (zh) * | 2020-10-16 | 2020-11-17 | 腾讯科技(深圳)有限公司 | 提取文本关键词的方法、设备和计算机可读存储介质 |
CN112837148A (zh) * | 2021-03-03 | 2021-05-25 | 中央财经大学 | 一种融合领域知识的风险逻辑关系量化分析方法 |
CN112948589A (zh) * | 2021-05-13 | 2021-06-11 | 腾讯科技(深圳)有限公司 | 文本分类方法、装置和计算机可读存储介质 |
CN113326505B (zh) * | 2021-05-19 | 2023-06-02 | 中国联合网络通信集团有限公司 | 数据处理方法及装置 |
CN113326505A (zh) * | 2021-05-19 | 2021-08-31 | 中国联合网络通信集团有限公司 | 数据处理方法及装置 |
CN113342978A (zh) * | 2021-06-23 | 2021-09-03 | 杭州数梦工场科技有限公司 | 一种城市事件处理方法及装置 |
CN113312913A (zh) * | 2021-07-30 | 2021-08-27 | 北京惠每云科技有限公司 | 一种病例书的切分方法、装置、电子设备及可读存储介质 |
CN114239536B (zh) * | 2022-02-22 | 2022-06-21 | 北京澜舟科技有限公司 | 一种事件抽取方法、系统及计算机可读存储介质 |
CN114239536A (zh) * | 2022-02-22 | 2022-03-25 | 北京澜舟科技有限公司 | 一种事件抽取方法、系统及计算机可读存储介质 |
CN114330354A (zh) * | 2022-03-02 | 2022-04-12 | 杭州海康威视数字技术股份有限公司 | 一种基于词汇增强的事件抽取方法、装置及存储介质 |
CN114330354B (zh) * | 2022-03-02 | 2022-12-23 | 杭州海康威视数字技术股份有限公司 | 一种基于词汇增强的事件抽取方法、装置及存储介质 |
CN115757775A (zh) * | 2022-11-05 | 2023-03-07 | 内蒙古大学 | 基于文本蕴含的无触发词文本事件检测方法及系统 |
CN115757775B (zh) * | 2022-11-05 | 2023-10-27 | 内蒙古大学 | 基于文本蕴含的无触发词文本事件检测方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN111400432B (zh) | 2020-09-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111400432B (zh) | 事件类型信息处理方法、事件类型识别方法及装置 | |
Li et al. | Document representation and feature combination for deceptive spam review detection | |
CN106649818B (zh) | 应用搜索意图的识别方法、装置、应用搜索方法和服务器 | |
Saraç et al. | An ant colony optimization based feature selection for web page classification | |
CN109255586B (zh) | 一种面向电子政务办事的在线个性化推荐方法 | |
CN111767725B (zh) | 一种基于情感极性分析模型的数据处理方法及装置 | |
CN109858040B (zh) | 命名实体识别方法、装置和计算机设备 | |
El-Fishawy et al. | Arabic summarization in twitter social network | |
CN106844407B (zh) | 基于数据集相关性的标签网络产生方法和系统 | |
CN108647322B (zh) | 基于词网识别大量Web文本信息相似度的方法 | |
CN110110225B (zh) | 基于用户行为数据分析的在线教育推荐模型及构建方法 | |
CN109800350A (zh) | 一种个性化新闻推荐方法及系统、存储介质 | |
CN109086265B (zh) | 一种语义训练方法、短文本中多语义词消歧方法 | |
CN109902290B (zh) | 一种基于文本信息的术语提取方法、系统和设备 | |
KR102371329B1 (ko) | 과학기술 지식정보의 추천을 위한 운영컴퓨터, 과학기술 지식정보 추천 시스템 및 그 방법 | |
CN110990532A (zh) | 一种处理文本的方法和装置 | |
CN109740642A (zh) | 发票类别识别方法、装置、电子设备及可读存储介质 | |
CN111737997A (zh) | 一种文本相似度确定方法、设备及储存介质 | |
CN111859961A (zh) | 一种基于改进TopicRank算法的文本关键词抽取方法 | |
CN107679209B (zh) | 分类表达式生成方法和装置 | |
CN110674301A (zh) | 一种情感倾向预测方法、装置、系统及存储介质 | |
CN112215629B (zh) | 基于构造对抗样本的多目标广告生成系统及其方法 | |
CN111651574A (zh) | 事件类型识别方法、装置、计算机设备和存储介质 | |
CN111754208A (zh) | 一种招聘简历自动筛选方法 | |
CN112560425B (zh) | 模板生成方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |