CN112380300A - 多类别事件要素抽取分析方法及设备 - Google Patents
多类别事件要素抽取分析方法及设备 Download PDFInfo
- Publication number
- CN112380300A CN112380300A CN202011441247.9A CN202011441247A CN112380300A CN 112380300 A CN112380300 A CN 112380300A CN 202011441247 A CN202011441247 A CN 202011441247A CN 112380300 A CN112380300 A CN 112380300A
- Authority
- CN
- China
- Prior art keywords
- event
- elements
- extracting
- text
- events
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000605 extraction Methods 0.000 title claims description 35
- 238000004458 analytical method Methods 0.000 title claims description 27
- 238000000034 method Methods 0.000 claims abstract description 63
- 230000004927 fusion Effects 0.000 claims abstract description 12
- 238000004891 communication Methods 0.000 claims description 7
- 238000002372 labelling Methods 0.000 claims description 7
- 238000012706 support-vector machine Methods 0.000 claims description 4
- 230000008569 process Effects 0.000 abstract description 9
- 238000004141 dimensional analysis Methods 0.000 abstract description 4
- 239000000126 substance Substances 0.000 description 9
- 238000012546 transfer Methods 0.000 description 9
- 235000011430 Malus pumila Nutrition 0.000 description 6
- 235000015103 Malus silvestris Nutrition 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 241000220225 Malus Species 0.000 description 5
- 239000000284 extract Substances 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 241000234295 Musa Species 0.000 description 2
- 235000014443 Pyrus communis Nutrition 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000012805 post-processing Methods 0.000 description 2
- 206010011971 Decreased interest Diseases 0.000 description 1
- 244000141359 Malus pumila Species 0.000 description 1
- 235000018290 Musa x paradisiaca Nutrition 0.000 description 1
- 235000021015 bananas Nutrition 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000001680 brushing effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000013626 chemical specie Substances 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000008094 contradictory effect Effects 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/169—Annotation, e.g. comment data or footnotes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例提供了一种多类别事件要素抽取分析方法及设备。所述方法包括:剔除事件文本中的无效符号,根据预设事件类别对所述事件文本进行分类,得到事件的类别;根据应用需求,对不同类型的事件采用多策略融合的方式抽取特定的事件要素,得到结构化事件文本。本发明实施例提供的多类别事件要素抽取分析方法及设备,通过对事件文本进行分类,抽取不同类型事件的特定要素,然后对抽取的事件要素简化合并后得到结构化事件文本,可以简化抽取事件进行分析的过程,降低了人力成本,综合了多种类事件要素,有利于后续对事件进行多维度分析。
Description
技术领域
本发明实施例涉及数据处理技术领域,尤其涉及一种多类别事件要素抽取分析方法及设备。
背景技术
简要事件描述是对事件基本情况的一个简短叙述,其中的事件要素能够有效的表达事件的重要信息。在日常工作中,通常要对不同类型事件进行事件要素的抽取,并对特定的要素进行统计,由于事件的种类繁多,数量巨大,从非结构化的事件描述中抽取特定的事件要素,并进行归纳总结,过程十分繁琐,依赖人工抽取任务量巨大。现有的事件要素抽取方法都是将其转换成序列标注问题,对不同类型的事件抽取相同的事件要素来表达事件信息。虽然不同类型的事件有一些共有的基本要素,例如:事发时间、事发地点、涉事人员。但是不同类型的事件也具有自身差异化的要素。在进行事件要素抽取时,不考虑事件的类型,则无法后续进行多维度的事件分析工作。因此,开发一种多类别事件要素抽取分析方法及设备,可以有效克服上述相关技术中的缺陷,就成为业界亟待解决的技术问题。
发明内容
针对现有技术存在的上述问题,本发明实施例提供了一种多类别事件要素抽取分析方法及设备。
第一方面,本发明的实施例提供了一种多类别事件要素抽取分析方法,包括:剔除事件文本中的无效符号,根据预设事件类别对所述事件文本进行分类,得到不同类型的事件的类别;根据应用需求,对不同类型的事件采用多策略融合的方式抽取特定的事件要素,根据应用需求对所述事件要素进行简化合并,标准化简化合并后的事件要素,得到结构化事件文本。
在上述方法实施例内容的基础上,本发明实施例中提供的多类别事件要素抽取分析方法,剔除空格及换行符。
在上述方法实施例内容的基础上,本发明实施例中提供的多类别事件要素抽取分析方法,所述根据预设事件类别对所述事件文本进行分类,包括:采用事件类别字典对事件文本进行分类;或者,采用支持向量机模型对事件文本进行分类。
在上述方法实施例内容的基础上,本发明实施例中提供的多类别事件要素抽取分析方法,所述对不同类型的事件抽取事件要素,包括:采用基于词典、规则和序列标注模型的多策略融合方式,对不同类型的事件抽取事件要素。
在上述方法实施例内容的基础上,本发明实施例中提供的多类别事件要素抽取分析方法,所述根据应用需求对所述事件要素进行简化合并,包括:根据应用需求的差异,采用直接合并、规则优先或模型优先的方式,对所述事件要素进行简化合并。
在上述方法实施例内容的基础上,本发明实施例中提供的多类别事件要素抽取分析方法,所述标准化简化合并后的事件要素,包括:将事件发生时间点标准化为年及月;事发地址标准化为省、市、县区及详细地址;事件金额标准化为以元为单位的阿拉伯数字。
在上述方法实施例内容的基础上,本发明实施例中提供的多类别事件要素抽取分析方法,在所述得到结构化事件文本之后,还包括:根据不同的统计需求,将结构化事件文本以图表的形式进行展示。
第二方面,本发明的实施例提供了一种多类别事件要素抽取分析装置,包括:
事件模块,用于剔除事件文本中的无效符号,根据预设事件类别对所述事件文本进行分类,得到不同类型的事件的类别;结构化模块,用于根据应用需求,对不同类型的事件采用多策略融合的方式抽取特定的事件事件要素,根据应用需求对所述事件要素进行简化合并,标准化简化合并后的事件要素,得到结构化事件文本。
第三方面,本发明的实施例提供了一种电子设备,包括:
至少一个处理器;以及
与处理器通信连接的至少一个存储器,其中:
存储器存储有可被处理器执行的程序指令,处理器调用程序指令能够执行第一方面的各种实现方式中任一种实现方式所提供的多类别事件要素抽取分析方法。
第四方面,本发明的实施例提供了一种非暂态计算机可读存储介质,非暂态计算机可读存储介质存储计算机指令,计算机指令使计算机执行第一方面的各种实现方式中任一种实现方式所提供的多类别事件要素抽取分析方法。
本发明实施例提供的多类别事件要素抽取分析方法及设备,通过对事件文本进行分类,构建不同类型的事件,然后抽取事件要素并简化合并后得到结构化事件文本,可以简化抽取事件进行分析的过程,降低了人力成本,综合了多种类事件要素,有利于后续对事件进行多维度分析。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做一简单的介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的多类别事件要素抽取分析方法流程图;
图2为本发明实施例提供的多类别事件要素抽取分析装置结构示意图;
图3为本发明实施例提供的电子设备的实体结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。另外,本发明提供的各个实施例或单个实施例中的技术特征可以相互任意结合,以形成可行的技术方案,这种结合不受步骤先后次序和/或结构组成模式的约束,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时,应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
本发明实施例提供了一种多类别事件要素抽取分析方法,参见图1,该方法包括:剔除事件文本中的无效符号,根据预设事件类别对所述事件文本进行分类,得到不同类型的事件的类别;根据应用需求,对不同类型的事件采用多策略融合的方式抽取特定的事件事件要素,根据应用需求对所述事件要素进行简化合并,标准化简化合并后的事件要素,得到结构化事件文本。
基于上述方法实施例的内容,作为一种可选的实施例,本发明实施例中提供的多类别事件要素抽取分析方法,剔除空格及换行符。
基于上述方法实施例的内容,作为一种可选的实施例,本发明实施例中提供的多类别事件要素抽取分析方法,所述根据预设事件类别对所述事件文本进行分类,包括:采用事件类别字典对事件文本进行分类;或者,采用支持向量机模型对事件文本进行分类。
基于上述方法实施例的内容,作为一种可选的实施例,本发明实施例中提供的多类别事件要素抽取分析方法,所述对不同类型的事件抽取事件要素,包括:采用基于词典、规则和序列标注模型的多策略融合方式,对不同类型的事件抽取事件要素。
基于上述方法实施例的内容,作为一种可选的实施例,本发明实施例中提供的多类别事件要素抽取分析方法,所述根据应用需求对所述事件要素进行简化合并,包括:根据应用需求的差异,采用直接合并、规则优先或模型优先的方式,对所述事件要素进行简化合并。
基于上述方法实施例的内容,作为一种可选的实施例,本发明实施例中提供的多类别事件要素抽取分析方法,所述标准化简化合并后的事件要素,包括:将事件发生时间点标准化为年及月;事发地址标准化为省、市、县区及详细地址;事件金额标准化为以元为单位的阿拉伯数字。
基于上述方法实施例的内容,作为一种可选的实施例,本发明实施例中提供的多类别事件要素抽取分析方法,在所述得到结构化事件文本之后,还包括:根据不同的统计需求,将结构化事件文本以图表的形式进行展示。
本发明实施例提供的多类别事件要素抽取分析方法,通过对事件文本进行分类,构建不同类型的事件,然后抽取事件要素并简化合并后得到结构化事件文本,可以简化抽取事件进行分析的过程,降低了人力成本,综合了多种类事件要素,有利于后续对事件进行多维度分析。
具体地,事件数据可以参见表1。
表1
步骤1:文本预处理模块会对输入的事件数据进行清洗,去除空格、换行符等无用标识。
步骤2:事件类别分类模块会对输入的事件数据进行类别分类。
具体来讲,可以采用基于事件类别字典匹配进行类别划分。事件类别字典需要根据业务提前梳理,其结构可以表示成以类别关键词为键,事件类别为值的形式。具体的分类逻辑是采用事件名称去匹配事件类别字典,如果命中类别关键词,则返回对应的事件类别。例如:事件名称“苹果交易”,命中了事件类别字典中的关键词“苹果买卖”,那么这个事件就被分类成“苹果交易事件”。
根据业务需求,目前事件类别分类模块支持5种事件类别的划分,分别是:资金转移事件、物品转移事件、化学品转移事件、电话信息真伪事件和其他事件。对事件数据进行类别划分之后的结果如表2所示。
表2
步骤3:事件要素抽取模块会根据不同的事件类别抽取不同的要素。
具体来讲,资金转移事件抽取基本要素:时间、地址、人员和金额;物品事件抽取基本要素和转移物品;化学品转移事件抽取基本要素和化学品种类、化学品数量和事件标签;电话信息真伪事件抽取基本要素和通话形式和信息传输手段。根据业务需要,定义化学品转移事件标签为:小区化学品转移、场所化学品转移等;电话信息真伪事件形式为:QQ、微信等;电话信息真伪的手段为:刷单、兼职、贷款等。
事件要素抽取方法采用基于词典、规则和序列标注模型的多策略融合的抽取方式。事件要素抽取所依赖的词典、规则根据实际业务需求提前归纳整理,序列标注模型事先离线训练,预测过程直接使用。事件数据结构化之后结果如表3所示。
表3
步骤4:事件要素后处理模块对事件要素抽取模块的结果按照不同的策略进行合并,并对部分事件要素进行标准化处理。
后处理模块可以根据应用需求的不同,选择采用直接合并、规则优先或者模型优先的策略得到最终的结果。例如:某统计的需求对于事件要素时间只需要精确到月,因此基于规则抽取的时间和基于序列标注模型抽取的时间,采用规则优先策略合并得到最终的事件要素抽取结果。
此外,对部分事件要素进行了标准化处理,方便后续的事件分析模块进行统计展示。例如:事件时间标准化成年、月;事发地址标准化为省、市、县区、详细地址;涉案金额标准化成以‘元’为单位的数字,具体可以参见表4。
表4
事件编号 | 1 | 2 | 3 |
事发时间_年 | 2016 | 2017 | 2018 |
事发时间_月 | 7 | 8 | 4 |
事发地址_省 | 某省 | 某省 | 某省 |
事发地址_市 | 某市 | 某市 | 某市 |
事发地址_区 | 某区 | 某区 | 某区 |
事发地址_详细地址 | 某小区 | 某小区 | 某小区 |
报告人 | |||
事件相关人 | 吴某 | 刘某 | 康某 |
利益损失人 | |||
其他相关人员 | 彭某 | 李某 | 胡某 |
事件金额 | 100元 | 50元 | 150元 |
物品数量、种类 | 一袋苹果 | 一袋香蕉 | 一袋鸭梨 |
物品种类 | 苹果 | 香蕉 | 鸭梨 |
事件标签 | 小区交易 | 小区交易 | 小区交易 |
步骤5:事件分析模块对结构化之后的标准事件数据,按照不同的统计需求,以图表的形式进行展示,辅助执行人员进行事件的分析,得出相应的结论,更好的指导相关工作的进行。例如:2016年到2018年化学品转移事件涉事金额的变化趋势;2017年某市各区域化学品事件中化学品种类的分布情况等。
本发明各个实施例的实现基础是通过具有处理器功能的设备进行程序化的处理实现的。因此在工程实际中,可以将本发明各个实施例的技术方案及其功能封装成各种模块。基于这种现实情况,在上述各实施例的基础上,本发明的实施例提供了一种多类别事件要素抽取分析装置,该装置用于执行上述方法实施例中的多类别事件要素抽取分析方法。参见图2,该装置包括:事件模块,用于剔除事件文本中的无效符号,根据预设事件类别对所述事件文本进行分类,得到不同类型的事件的类别;结构化模块,用于根据应用需求,对不同类型的事件采用多策略融合的方式抽取特定的事件事件要素,根据应用需求对所述事件要素进行简化合并,标准化简化合并后的事件要素,得到结构化事件文本。
本发明实施例提供的多类别事件要素抽取分析装置,采用图2中的各种模块,通过对事件文本进行分类,构建不同类型的事件,然后抽取事件要素并简化合并后得到结构化事件文本,可以简化抽取事件进行分析的过程,降低了人力成本,综合了多种类事件要素,有利于后续对事件进行多维度分析。
需要说明的是,本发明提供的装置实施例中的装置,除了可以用于实现上述方法实施例中的方法外,还可以用于实现本发明提供的其他方法实施例中的方法,区别仅仅在于设置相应的功能模块,其原理与本发明提供的上述装置实施例的原理基本相同,只要本领域技术人员在上述装置实施例的基础上,参考其他方法实施例中的具体技术方案,通过组合技术特征获得相应的技术手段,以及由这些技术手段构成的技术方案,在保证技术方案具备实用性的前提下,就可以对上述装置实施例中的装置进行改进,从而得到相应的装置类实施例,用于实现其他方法类实施例中的方法。例如:
基于上述装置实施例的内容,作为一种可选的实施例,本发明实施例中提供的多类别事件要素抽取分析装置,还包括:第二模块,用于采用事件类别字典对事件文本进行分类;或者,采用支持向量机模型对事件文本进行分类。
基于上述装置实施例的内容,作为一种可选的实施例,本发明实施例中提供的多类别事件要素抽取分析装置,还包括:第三模块,用于采用基于词典、规则和序列标注模型的多策略融合方式,对不同类型的事件抽取事件要素。
基于上述装置实施例的内容,作为一种可选的实施例,本发明实施例中提供的多类别事件要素抽取分析装置,还包括:第四模块,用于根据应用需求的差异,采用直接合并、规则优先或模型优先的方式,对所述事件要素进行简化合并。
基于上述装置实施例的内容,作为一种可选的实施例,本发明实施例中提供的多类别事件要素抽取分析装置,还包括:第五模块,用于将事件发生时间点标准化为年及月;事发地址标准化为省、市、县区及详细地址;事件金额标准化为以元为单位的阿拉伯数字。
基于上述装置实施例的内容,作为一种可选的实施例,本发明实施例中提供的多类别事件要素抽取分析装置,还包括:第六模块,用于根据不同的统计需求,将结构化事件文本以图表的形式进行展示。
本发明实施例的方法是依托电子设备实现的,因此对相关的电子设备有必要做一下介绍。基于此目的,本发明的实施例提供了一种电子设备,如图3所示,该电子设备包括:至少一个处理器(processor)301、通信接口(Communications Interface)304、至少一个存储器(memory)302和通信总线303,其中,至少一个处理器301,通信接口304,至少一个存储器302通过通信总线303完成相互间的通信。至少一个处理器301可以调用至少一个存储器302中的逻辑指令,以执行前述各个方法实施例提供的方法的全部或部分步骤。
此外,上述的至少一个存储器302中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个方法实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。基于这种认识,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
在本专利中,术语"包括"、"包含"或者其任何其它变体意在涵盖非排它性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其它要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句"包括……"限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种多类别事件要素抽取分析方法,其特征在于,包括:剔除事件文本中的无效符号,根据预设事件类别对所述事件文本进行分类,得到不同类型的事件的类别;根据应用需求,对不同类型的事件采用多策略融合的方式抽取特定的事件要素,根据应用需求对所述事件要素进行简化合并,标准化简化合并后的事件要素,得到结构化事件文本。
2.根据权利要求1所述的多类别事件要素抽取分析方法,其特征在于,所述剔除事件文本中的无效符号,包括:剔除空格及换行符。
3.根据权利要求1所述的多类别事件要素抽取分析方法,其特征在于,所述根据预设事件类别对所述事件文本进行分类,包括:采用事件类别字典对事件文本进行分类;或者,采用支持向量机模型对事件文本进行分类。
4.根据权利要求1所述的多类别事件要素抽取分析方法,其特征在于,所述对不同类型的事件抽取事件要素,包括:采用基于词典、规则和序列标注模型的多策略融合方式,对不同类型的事件抽取事件要素。
5.根据权利要求1所述的多类别事件要素抽取分析方法,其特征在于,所述根据应用需求对所述事件要素进行简化合并,包括:根据应用需求的差异,采用直接合并、规则优先或模型优先的方式,对所述事件要素进行简化合并。
6.根据权利要求1所述的多类别事件要素抽取分析方法,其特征在于,所述标准化简化合并后的事件要素,包括:将事件发生时间点标准化为年及月;事发地址标准化为省、市、县区及详细地址;事件金额标准化为以元为单位的阿拉伯数字。
7.根据权利要求1所述的多类别事件要素抽取分析方法,其特征在于,在所述得到结构化事件文本之后,还包括:根据不同的统计需求,将结构化事件文本以图表的形式进行展示。
8.一种多类别事件要素抽取分析装置,其特征在于,包括:事件模块,用于剔除事件文本中的无效符号,根据预设事件类别对所述事件文本进行分类,得到不同类型的事件的类别;结构化模块,用于根据应用需求,对不同类型的事件采用多策略融合的方式抽取特定的事件事件要素,根据应用需求对所述事件要素进行简化合并,标准化简化合并后的事件要素,得到结构化事件文本。
9.一种电子设备,其特征在于,包括:
至少一个处理器、至少一个存储器和通信接口;其中,
所述处理器、存储器和通信接口相互间进行通信;
所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令,以执行权利要求1至7任一项权利要求所述的方法。
10.一种非暂态计算机可读存储介质,其特征在于,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行权利要求1至7中任一项权利要求所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011441247.9A CN112380300A (zh) | 2020-12-11 | 2020-12-11 | 多类别事件要素抽取分析方法及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011441247.9A CN112380300A (zh) | 2020-12-11 | 2020-12-11 | 多类别事件要素抽取分析方法及设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112380300A true CN112380300A (zh) | 2021-02-19 |
Family
ID=74590764
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011441247.9A Pending CN112380300A (zh) | 2020-12-11 | 2020-12-11 | 多类别事件要素抽取分析方法及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112380300A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112597314A (zh) * | 2021-03-03 | 2021-04-02 | 中译语通科技股份有限公司 | 报文信息处理方法及系统 |
CN114021544A (zh) * | 2021-11-19 | 2022-02-08 | 上海国泰君安证券资产管理有限公司 | 产品合同的要素智能抽取和审核方法及系统 |
CN116976313A (zh) * | 2023-09-18 | 2023-10-31 | 中信证券股份有限公司 | 场外交易指令文本的解析方法、装置和计算机可读介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5500855A (en) * | 1994-01-26 | 1996-03-19 | International Business Machines Corporation | Realtime event classification for a data communications network |
CN104572958A (zh) * | 2014-12-29 | 2015-04-29 | 中国科学院计算机网络信息中心 | 一种基于事件抽取的敏感信息监控方法 |
CN106055658A (zh) * | 2016-06-02 | 2016-10-26 | 中国人民解放军国防科学技术大学 | 一种针对Twitter文本事件抽取的方法 |
CN107766585A (zh) * | 2017-12-07 | 2018-03-06 | 中国科学院电子学研究所苏州研究院 | 一种面向社交网络的特定事件抽取方法 |
CN108446355A (zh) * | 2018-03-12 | 2018-08-24 | 深圳证券信息有限公司 | 投融资事件要素抽取方法、装置及设备 |
CN111597817A (zh) * | 2020-05-27 | 2020-08-28 | 北京明略软件系统有限公司 | 一种事件信息抽取方法及装置 |
-
2020
- 2020-12-11 CN CN202011441247.9A patent/CN112380300A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5500855A (en) * | 1994-01-26 | 1996-03-19 | International Business Machines Corporation | Realtime event classification for a data communications network |
CN104572958A (zh) * | 2014-12-29 | 2015-04-29 | 中国科学院计算机网络信息中心 | 一种基于事件抽取的敏感信息监控方法 |
CN106055658A (zh) * | 2016-06-02 | 2016-10-26 | 中国人民解放军国防科学技术大学 | 一种针对Twitter文本事件抽取的方法 |
CN107766585A (zh) * | 2017-12-07 | 2018-03-06 | 中国科学院电子学研究所苏州研究院 | 一种面向社交网络的特定事件抽取方法 |
CN108446355A (zh) * | 2018-03-12 | 2018-08-24 | 深圳证券信息有限公司 | 投融资事件要素抽取方法、装置及设备 |
CN111597817A (zh) * | 2020-05-27 | 2020-08-28 | 北京明略软件系统有限公司 | 一种事件信息抽取方法及装置 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112597314A (zh) * | 2021-03-03 | 2021-04-02 | 中译语通科技股份有限公司 | 报文信息处理方法及系统 |
CN114021544A (zh) * | 2021-11-19 | 2022-02-08 | 上海国泰君安证券资产管理有限公司 | 产品合同的要素智能抽取和审核方法及系统 |
CN116976313A (zh) * | 2023-09-18 | 2023-10-31 | 中信证券股份有限公司 | 场外交易指令文本的解析方法、装置和计算机可读介质 |
CN116976313B (zh) * | 2023-09-18 | 2024-01-02 | 中信证券股份有限公司 | 场外交易指令文本的解析方法、装置和计算机可读介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11397778B2 (en) | Method and device for mining an enterprise relationship | |
CN112380300A (zh) | 多类别事件要素抽取分析方法及设备 | |
CN110263248B (zh) | 一种信息推送方法、装置、存储介质和服务器 | |
CN109523153A (zh) | 非法集资企业的获取方法、装置、计算机设备和存储介质 | |
AU2021388096B2 (en) | Systems and methods for relevance-based document analysis and filtering | |
CN112632989B (zh) | 一种合同文本中风险信息的提示方法、装置及设备 | |
CN111950932A (zh) | 基于多源信息融合的中小微企业综合质量画像方法 | |
CN110909123B (zh) | 一种数据提取方法、装置、终端设备及存储介质 | |
Minhas et al. | From spin to swindle: Identifying falsification in financial text | |
CN110929520B (zh) | 非命名实体对象抽取方法、装置、电子设备及存储介质 | |
CN104850617A (zh) | 短文本处理方法及装置 | |
CN114218391A (zh) | 一种基于深度学习技术的敏感信息识别方法 | |
CN110610003A (zh) | 用于辅助文本标注的方法和系统 | |
Bhoir | An efficient fake news detector | |
CN109977229A (zh) | 一种基于通用语言特征的生物医学命名实体识别方法 | |
CN113515587B (zh) | 一种标的物信息提取方法、装置、计算机设备及存储介质 | |
CN113177061B (zh) | 一种搜索方法、装置和电子设备 | |
Shaik et al. | Fake news detection using NLP | |
CN114492323A (zh) | 一种基于电子投标文件比对的围串标行为检测方法及装置 | |
CN110543910A (zh) | 信用状态监测系统和监测方法 | |
CN114842982B (zh) | 一种面向医疗信息系统的知识表达方法、装置及系统 | |
CN112199467B (zh) | 函件显示页面的配置方法及装置 | |
CN113344527B (zh) | 一体化管理存储司法建议信息的方法及平台 | |
CN113779256A (zh) | 一种文件审核方法及系统 | |
CN113361585A (zh) | 一种基于有监督学习算法优化筛选线索的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210219 |
|
RJ01 | Rejection of invention patent application after publication |