CN110309296A - 一种事件提取方法及装置 - Google Patents
一种事件提取方法及装置 Download PDFInfo
- Publication number
- CN110309296A CN110309296A CN201810195170.8A CN201810195170A CN110309296A CN 110309296 A CN110309296 A CN 110309296A CN 201810195170 A CN201810195170 A CN 201810195170A CN 110309296 A CN110309296 A CN 110309296A
- Authority
- CN
- China
- Prior art keywords
- event
- core
- sets
- model
- category
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种事件提取方法及装置。方法包括:将目标文书输入至预先训练好的事件模型,所述事件模型基于样本文书中的核心事件进行训练得到;获取所述事件模型输出的事件集合,所述事件集合包括至少一个事件,其中每个事件对应一种事件类别。本发明能够自动获取目标文书中的事件集合,实现自动提取目标文书中的核心事件,大大减少了人工操作的工作量,提高了处理效率。
Description
技术领域
本发明涉及数据处理技术领域,尤其涉及一种事件提取方法及装置。
背景技术
要素式审判法,是围绕案件的基本要素进行庭审并制作裁判文书的一种审判方法。具体而言,要素式审判法就是在审理民事、刑事、行政等各类案件的过程中,对一些能够概括出固定案情要素的案件进行要素提炼,并对双方当事人就案件中各种要素是否存在争议进行归纳,主要包括案件审理方法和裁判文书制作方法。
案件审理方法是指通过人工经验总结要素,制作要素式审判表格进行填写的方法,目的在于简化双方无异议的要素,重点审查双方当事人存在异议的要素。裁判文书制作方法也是通过人工经验总结要素,进行要素式审判的庭前指导,围绕案件的特定要素,进行重点阐述、说理,以简化双方无争议要素的说理。
本申请的申请人发现,无论是案件审理方法还是裁判文书制作方法,在案件处理过程中,都是完全依赖于人工操作,工作量大、效率低。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的事件提取方法及装置,技术方案如下:
基于本发明的一方面,本发明提供一种事件提取方法,所述方法包括:
将目标文书输入至预先训练好的事件模型,所述事件模型基于样本文书中的核心事件进行训练得到;
获取所述事件模型输出的事件集合,所述事件集合包括至少一个事件,其中每个事件对应一种事件类别。
可选地,所述事件模型基于样本文书中的核心事件进行训练得到包括:
获取同一领域的样本文书,所述样本文书中的核心事件对应的语句至少带有事件类别的标记;
基于所述核心事件对应的语句以及该核心事件的事件类别进行训练,得到所述事件模型。
可选地,所述每个核心事件的各个事件要素对应的语句还分别带有相应事件要素信息类别的标记;
所述基于所述核心事件对应的语句以及该核心事件的事件类别进行训练,得到所述事件模型包括:
基于所述核心事件对应的语句、该核心事件的事件类别、以及该核心事件的每一个事件要素对应的语句和该事件要素的事件要素信息类别进行训练,得到所述事件模型。
可选地,所述方法还包括:
获取所述事件集合中每一个事件对应的事件要素数据,所述事件对应的事件要素数据包括该事件对应的所有事件要素信息;
将每个事件对应的事件要素数据关联到该事件对应的事件节点上。
可选地,所述方法还包括:
将所述事件集合中的所有事件,按照事件发生时间的先后顺序进行排序。
可选地,所述将事件集合中的所有事件按照事件发生时间的先后顺序进行排序包括:
对所述事件集合中的所有事件依据行为主体进行区分;
将每个行为主体对应的所有事件按照事件发生时间的先后顺序进行排序。
可选地,所述方法还包括:
依据预设的事件类别与证据材料的对应关系,获取与所述事件集合中每一个事件对应的证据材料。
基于本发明的另一方面,本发明提供一种事件提取装置,所述装置包括:
输入单元,用于将目标文书输入至预先训练好的事件模型,所述事件模型基于样本文书中的核心事件进行训练得到;
事件集合获取单元,用于获取所述事件模型输出的事件集合,所述事件集合包括至少一个事件,其中每个事件对应一种事件类别。
基于本发明的再一方面,本发明提供一种存储介质,其上存储有程序,所述程序被处理器执行时实现前文所述事件提取方法。
基于本发明的再一方面,本发明提供一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行前文所述事件提取方法。
借由上述技术方案,本发明提供的事件提取方法及装置中,将目标文书输入至预先训练好的事件模型,所述事件模型基于样本文书中的核心事件进行训练得到;获取所述事件模型输出的事件集合,所述事件集合包括至少一个事件,其中每个事件对应一种事件类别。本发明能够自动获取目标文书中的事件集合,从而实现自动提取目标文书中的核心事件,大大减少了人工操作的工作量,提高了处理效率。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了本发明实施例提供的一种事件提取方法的流程图;
图2示出了本发明实施例中训练事件模型的方法流程图;
图3示出了本发明实施例中人工标注事件类别的示意图;
图4示出了本发明实施例提供的另一种事件提取方法的流程图;
图5示出了本发明实施例中事件排序示意图;
图6示出了本发明实施例提供的一种事件提取装置的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
审判要素是人民法院提出的要素式审判中的要素,审判要素在不同的领域或者案由下存在不同。民事案件中的审判要素可以包括事实要素、法律关系要素、判决要素、诉请要素和答辩要素等。具体例如,在侵犯商标权案由下,审判要素根据法律法规和审判经验可以总结为商标权属要素、侵权行为要素、赔偿金额要素、诉请要素、答辩要素(比如正当使用)、以及管辖或者时效要素等。
本发明的主要思想之一包括但不限于,基于审判要素,提取与所述审判要素相关的事件,这类与审判要素相关的事件称为核心事件。其中一个审判要素对应至少一种类别的核心事件。比如,对于权属要素,与权属要素对应的核心事件可以包括注册商标事件、转让商标事件等;对于侵权行为要素,与侵权行为要素对应的核心事件可以包括在产品上印制他人商标的事件、盗用他人商标的事件等。
如图1所示,本发明实施例提供的一种事件提取方法,可以包括:
步骤101,将目标文书输入至预先训练好的事件模型,所述事件模型基于样本文书中的核心事件进行训练得到。
本发明中,样本文书按照领域进行分类,相同领域的样本文书归为同一类文书,本发明中的样本文书可以为司法实务中某一领域内典型案例的文书。领域可以是按照案件类型、案由、诉请等作为划分依据,本发明实施例对此不做限定。样本文书优选为裁判文书,也可以为起诉状、答辩状、庭审笔录等法律文书。同理,目标文书优选可以为裁判文书,也可以为起诉状、答辩状、庭审笔录等法律文书。
具体地,如图2所示,本发明训练事件模型的方法可以包括:
步骤201,获取同一领域的样本文书,样本文书中的核心事件对应的语句至少带有事件类别的标记。
具体地,对于同一领域的样本文书,本发明可以选取所有或者其中部分典型案例的样本文书作为事件模型的训练样本集,提取该训练样本集中每一个样本文书中的核心事件。
可选地,本发明可以将提取到的所有核心事件存储在核心事件库中。需要说明的是,从同一领域的样本文书中提取到的与审判要素相关的所有核心事件存储在同一核心事件库中,从不同领域的样本文书中提取到的与审判要素相关的核心事件存储在不同的核心事件库中,即,一个核心事件库对应一个领域的样本文书,用于存储从该一个领域的样本文书中提取到的与审判要素相关的核心事件。
通常,核心事件对应的语句为样本文书中的一段事件描述内容,本发明通过对核心事件对应的语句进行标注,能够言简意赅地表示出核心事件所表示的事件内容,并同时确定了核心事件的类别。具体地,本发明可以采用人工标记或机器学习后标记的方式,对核心事件对应的语句进行标注,如标注为“成立公司”、“注册商标”、“认定著名商标”等。经过对核心事件对应的语句标注,可以清楚地获知该核心事件所表示的事件内容,如成立公司,且同时准确地确定出核心事件的事件类别,即“成立公司”。
结合图3所示,图3中第一列“句子原文”记载的内容即为目标文书中的核心事件对应的语句,其中“句子原文”所在列的第一行记载的内容为“原告于1993年3月24日在xx地区,经由xx市工商行政管理局登记注册,成立xx有限公司”,可以看出句子原文对于这一事件的描述非常冗长,法官得完整看完这段描述才能确定到底是哪种事件。
经过分析确定该段内容记载的核心事件所表示的事件内容为“成立公司”,由此可以为其人工标注“成立公司”,确定该核心事件的事件类别为“成立公司”,该事件类别能够简洁直观的呈现事件内容的要点。
在实际应用过程中,有些核心事件对应语句所反映的事件内容实质一致,如图3中“句子原文”所在列的第二行、第三行记载的内容都是涉及商标注册,其事件类别均为“注册商标”,但其分别记载的事件描述内容(即句子原文)不一致,由此,本发明通过逐个对每个核心事件进行标注,并对标注内容进行聚类及标准化处理,可以为事件内容实质一致但事件描述内容不一致的多个核心事件打上相同的标记,从而保证事件内容实质一致的核心事件的事件类别一致,以此保证后续事件模型训练学习的准确性。
此外,基于每个核心事件的事件类别,本发明还可以实现对核心事件的分类。
可选地,本发明在为核心事件对应的语句进行标注时,可以采用机器可识别的动宾语法结构进行语句标注。
步骤202,基于所述核心事件对应的语句以及该核心事件的事件类别进行训练,得到所述事件模型。
将核心事件对应的语句以及核心事件的事件类别作为事件模型的输入,采用预设算法进行模型训练,得到事件模型。其中预设算法可以为SVM (Support Vector Machine,支持向量机)算法或神经网络算法等。该事件模型通过对核心事件对应的语句以及核心事件的事件类别的充分学习,能够较为准确地判断出哪些事件描述内容属于核心事件,以及确定出核心事件的类别。
步骤102,获取所述事件模型输出的事件集合,所述事件集合包括至少一个事件,其中每个事件对应一种事件类别。
本发明将目标文书输入至预先训练好的事件模型后,事件模型输出一与目标文书对应的事件集合,该事件集合中包括至少一个事件。目标文书与训练事件模型的样本文书属于同一领域。对于不同领域,可以分别针对各领域训练各自的事件模型,那么目标文书可以输入至与该目标文书所属领域对应的预先训练好的事件模型中。
本发明中,事件模型输出的并非是目标文书中核心事件的句子原文,而是各个核心事件的事件类别,例如事件模型输出的事件集合为﹛成立公司、变更公司名称、注册商标、注册商标、签订合同、签订合同……﹜,其中每一个事件均对应一个核心事件,法官通过查阅事件模型输出的事件集合,能够快速准确地掌握目标文书中涉及的核心事件,大大减少了人工操作的工作量,提高了处理效率。
在本发明前述实施例中,仅仅对样本文书中的核心事件进行了语句标注,由此训练得到的事件模型仅仅能够识别出目标文书中的核心事件。本发明实施例在前述实施例的基础上,不仅样本文书中的核心事件对应的语句带有事件类别的标记,且每个核心事件的各个事件要素对应的语句还分别可以带有相应事件要素信息类别的标记,以确定每一个事件要素信息的类别,进而基于核心事件对应的语句、核心事件的事件类别、以及核心事件的每一个事件要素对应的语句和该事件要素的事件要素信息的类别进行训练,得到事件模型,该得到的事件模型不仅能够识别出目标文书中的核心事件,且还能够识别出核心事件的事件要素信息。
本发明中,一个事件包括至少一个要素,每个核心事件当然也包括至少一个事件要素。事件要素信息可以包括事件发生时间、行为主体等。例如对于一个事件提取出的事件要素:事件发生时间:1993年3月24日,行为主体:原告;则其中“事件发生时间”、“行为主体”为事件要素信息类别,“事件发生时间:1993年3月24日”、“行为主体:原告”则是前述两个事件要素信息类别分别对应的事件要素信息。一个事件对应抽取出的所有事件要素信息作为一条事件要素数据进行存储。
基于此,本发明在获取事件模型输出的事件集合后,如图4所示,方法还可以包括:
步骤103,获取所述事件集合中每一个事件对应的事件要素数据。
本发明中,一个事件属于一个事件类别,一个事件类别可以对应至少一个事件,一个事件对应一条事件要素数据,事件要素数据可以包括事件发生时间、行为主体等各种事件要素信息。一个事件对应的事件要素数据包括该事件对应的所有事件要素信息。
具体地,本发明获取事件集合中每一个事件的事件要素数据的实现方式可以包括:默认获取方式和主动获取方式。
默认获取方式指的是系统直接基于各个事件,自动获取每个事件的事件要素数据。
主动获取方式指的是系统为法官提供触发获取事件的事件要素数据的接口,当法官通过点击等操作触发获取某个事件的事件要素数据的接口后,系统再去获取该触发的事件的事件要素数据。
优选的,本发明实施例在获取事件集合中每一个事件对应的事件要素数据后,还包括:将每个事件对应的事件要素数据关联到该事件对应的事件节点上。这样既便于法官查看目标文书的事件梗概,又能在法官要查看某个事件的事件要素信息时,直接通过与该事件的事件节点的交互查看该事件的各种事件要素信息。
步骤104,将事件集合中的所有事件,按照事件发生时间的先后顺序进行排序。
在获取到目标文书包括的多个事件,以及各个事件的事件要素数据后,可以依据每个事件的事件要素数据中的事件发生时间,将该多个事件按照事件发生时间的先后顺序进行排序,如图5所示,其中一个节点对应一个事件,且每个事件对应的节点下都关联有事件的事件要素数据。
优选的,将事件集合中的所有事件按照事件发生时间的先后顺序进行排序包括:对事件集合中的所有事件依据行为主体进行区分;将每个行为主体对应的所有事件按照事件发生时间的先后顺序进行排序。
本发明通过对目标文书中各个事件的有序整理,能够让法官更为清晰直观地查看到目标文书涉及的各个事件以及各个事件的事件要素数据,从而实现要素式审判。
更进一步的,在上述实施例的基础上,本发明在获取事件模型输出的事件集合后,方法还可以包括:依据预设的事件类别与证据材料的对应关系,获取与所述事件集合中每一个事件对应的证据材料。
本发明中,证据材料存储在预设的证据库中。本发明通过预先设置不同的事件类别与证据库中不同的证据材料间的对应关系,当获取到目标文书中各个事件的事件类别后,能够根据预先设置的事件类别与证据材料的对应关系,从证据库中获取到与事件集合中每一个事件对应的证据材料,又因为本发明中利用事件模型获取到的目标文书中的各个事件,都是与审判要素相关的事件,因此本发明建立了审判要素与证据材料间的关联关系,能够及时获取到与审判要素相关的证据材料,更为方便了业务人员的工作。
与上述方法实施例相对应,本发明还提供了一种事件提取装置。
如图6所示,本发明实施例提供的事件提取装置,可以包括:
输入单元100,用于将目标文书输入至预先训练好的事件模型,所述事件模型基于样本文书中的核心事件进行训练得到;
事件集合获取单元200,用于获取所述事件模型输出的事件集合,所述事件集合包括至少一个事件,其中每个事件对应一种事件类别。
所述事件提取装置包括处理器和存储器,上述输入单元100、事件集合获取单元200等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来进行基于要素式审判的事件提取。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
本发明实施例提供了一种存储介质,其上存储有程序,该程序被处理器执行时实现所述事件提取方法。
本发明实施例提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行所述事件提取方法。
本发明实施例提供了一种设备,设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序,处理器执行程序时实现以下步骤:
将目标文书输入至预先训练好的事件模型,所述事件模型基于样本文书中的核心事件进行训练得到;
获取所述事件模型输出的事件集合,所述事件集合包括至少一个事件,其中每个事件对应一种事件类别。
可选地,所述事件模型基于样本文书中的核心事件进行训练得到包括:
获取同一领域的样本文书,所述样本文书中的核心事件对应的语句至少带有事件类别的标记;
基于所述核心事件对应的语句以及该核心事件的事件类别进行训练,得到所述事件模型。
可选地,所述每个核心事件的各个事件要素对应的语句还分别带有相应事件要素信息类别的标记;
所述基于所述核心事件对应的语句以及该核心事件的事件类别进行训练,得到所述事件模型包括:
基于所述核心事件对应的语句、该核心事件的事件类别、以及该核心事件的每一个事件要素对应的语句和该事件要素的事件要素信息类别进行训练,得到所述事件模型。
可选地,所述方法还包括:
获取所述事件集合中每一个事件对应的事件要素数据,所述事件对应的事件要素数据包括该事件对应的所有事件要素信息;
将每个事件对应的事件要素数据关联到该事件对应的事件节点上。
可选地,所述方法还包括:
将所述事件集合中的所有事件,按照事件发生时间的先后顺序进行排序。
可选地,所述将事件集合中的所有事件按照事件发生时间的先后顺序进行排序包括:
对所述事件集合中的所有事件依据行为主体进行区分;
将每个行为主体对应的所有事件按照事件发生时间的先后顺序进行排序。
可选地,所述方法还包括:
依据预设的事件类别与证据材料的对应关系,获取与所述事件集合中每一个事件对应的证据材料。
本文中的设备可以是服务器、PC、PAD、手机等。
本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序:
将目标文书输入至预先训练好的事件模型,所述事件模型基于样本文书中的核心事件进行训练得到;
获取所述事件模型输出的事件集合,所述事件集合包括至少一个事件,其中每个事件对应一种事件类别。
可选地,所述事件模型基于样本文书中的核心事件进行训练得到包括:
获取同一领域的样本文书,所述样本文书中的核心事件对应的语句至少带有事件类别的标记;
基于所述核心事件对应的语句以及该核心事件的事件类别进行训练,得到所述事件模型。
可选地,所述每个核心事件的各个事件要素对应的语句还分别带有相应事件要素信息类别的标记;
所述基于所述核心事件对应的语句以及该核心事件的事件类别进行训练,得到所述事件模型包括:
基于所述核心事件对应的语句、该核心事件的事件类别、以及该核心事件的每一个事件要素对应的语句和该事件要素的事件要素信息类别进行训练,得到所述事件模型。
可选地,所述方法还包括:
获取所述事件集合中每一个事件对应的事件要素数据,所述事件对应的事件要素数据包括该事件对应的所有事件要素信息;
将每个事件对应的事件要素数据关联到该事件对应的事件节点上。
可选地,所述方法还包括:
将所述事件集合中的所有事件,按照事件发生时间的先后顺序进行排序。
可选地,所述将事件集合中的所有事件按照事件发生时间的先后顺序进行排序包括:
对所述事件集合中的所有事件依据行为主体进行区分;
将每个行为主体对应的所有事件按照事件发生时间的先后顺序进行排序。
可选地,所述方法还包括:
依据预设的事件类别与证据材料的对应关系,获取与所述事件集合中每一个事件对应的证据材料。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/ 输出接口、网络接口和内存。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器 (DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。
Claims (10)
1.一种事件提取方法,其特征在于,所述方法包括:
将目标文书输入至预先训练好的事件模型,所述事件模型基于样本文书中的核心事件进行训练得到;
获取所述事件模型输出的事件集合,所述事件集合包括至少一个事件,其中每个事件对应一种事件类别。
2.根据权利要求1所述的方法,其特征在于,所述事件模型基于样本文书中的核心事件进行训练得到包括:
获取同一领域的样本文书,所述样本文书中的核心事件对应的语句至少带有事件类别的标记;
基于所述核心事件对应的语句以及该核心事件的事件类别进行训练,得到所述事件模型。
3.根据权利要求2所述的方法,其特征在于,每个核心事件包括至少一个事件要素,所述每个核心事件的各个事件要素对应的语句还分别带有相应事件要素信息类别的标记;
所述基于所述核心事件对应的语句以及该核心事件的事件类别进行训练,得到所述事件模型包括:
基于所述核心事件对应的语句、该核心事件的事件类别、以及该核心事件的每一个事件要素对应的语句和该事件要素的事件要素信息类别进行训练,得到所述事件模型。
4.根据权利要求1-3任一项所述的方法,其特征在于,所述方法还包括:
获取所述事件集合中每一个事件对应的事件要素数据,所述事件对应的事件要素数据包括该事件对应的所有事件要素信息;
将每个事件对应的事件要素数据关联到该事件对应的事件节点上。
5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
将所述事件集合中的所有事件,按照事件发生时间的先后顺序进行排序。
6.根据权利要求5所述的方法,其特征在于,所述将事件集合中的所有事件按照事件发生时间的先后顺序进行排序包括:
对所述事件集合中的所有事件依据行为主体进行区分;
将每个行为主体对应的所有事件按照事件发生时间的先后顺序进行排序。
7.根据权利要求1-3中任一项所述的方法,其特征在于,所述方法还包括:
依据预设的事件类别与证据材料的对应关系,获取与所述事件集合中每一个事件对应的证据材料。
8.一种事件提取装置,其特征在于,所述装置包括:
输入单元,用于将目标文书输入至预先训练好的事件模型,所述事件模型基于样本文书中的核心事件进行训练得到;
事件集合获取单元,用于获取所述事件模型输出的事件集合,所述事件集合包括至少一个事件,其中每个事件对应一种事件类别。
9.一种存储介质,其特征在于,其上存储有程序,所述程序被处理器执行时实现权利要求1至7中任一项所述事件提取方法。
10.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行权利要求1至7中任一项所述事件提取方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810195170.8A CN110309296A (zh) | 2018-03-09 | 2018-03-09 | 一种事件提取方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810195170.8A CN110309296A (zh) | 2018-03-09 | 2018-03-09 | 一种事件提取方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110309296A true CN110309296A (zh) | 2019-10-08 |
Family
ID=68073846
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810195170.8A Pending CN110309296A (zh) | 2018-03-09 | 2018-03-09 | 一种事件提取方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110309296A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111241274A (zh) * | 2019-12-31 | 2020-06-05 | 航天信息股份有限公司 | 刑事法律文书处理方法和装置、存储介质和电子设备 |
CN111460296A (zh) * | 2020-03-31 | 2020-07-28 | 北京百度网讯科技有限公司 | 用于更新事件集合的方法和装置 |
CN111522915A (zh) * | 2020-04-20 | 2020-08-11 | 北大方正集团有限公司 | 中文事件的抽取方法、装置、设备及存储介质 |
CN112632040A (zh) * | 2020-12-31 | 2021-04-09 | 国家核安保技术中心 | 核安保事件库生成方法、装置、设备及计算机存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104408093A (zh) * | 2014-11-14 | 2015-03-11 | 中国科学院计算技术研究所 | 一种新闻事件要素抽取方法与装置 |
CN104572958A (zh) * | 2014-12-29 | 2015-04-29 | 中国科学院计算机网络信息中心 | 一种基于事件抽取的敏感信息监控方法 |
US20170357625A1 (en) * | 2016-06-14 | 2017-12-14 | Northrop Grumman Systems Corporation | Event extraction from documents |
-
2018
- 2018-03-09 CN CN201810195170.8A patent/CN110309296A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104408093A (zh) * | 2014-11-14 | 2015-03-11 | 中国科学院计算技术研究所 | 一种新闻事件要素抽取方法与装置 |
CN104572958A (zh) * | 2014-12-29 | 2015-04-29 | 中国科学院计算机网络信息中心 | 一种基于事件抽取的敏感信息监控方法 |
US20170357625A1 (en) * | 2016-06-14 | 2017-12-14 | Northrop Grumman Systems Corporation | Event extraction from documents |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111241274A (zh) * | 2019-12-31 | 2020-06-05 | 航天信息股份有限公司 | 刑事法律文书处理方法和装置、存储介质和电子设备 |
CN111241274B (zh) * | 2019-12-31 | 2023-11-28 | 航天信息股份有限公司 | 刑事法律文书处理方法和装置、存储介质和电子设备 |
CN111460296A (zh) * | 2020-03-31 | 2020-07-28 | 北京百度网讯科技有限公司 | 用于更新事件集合的方法和装置 |
CN111460296B (zh) * | 2020-03-31 | 2023-08-04 | 北京百度网讯科技有限公司 | 用于更新事件集合的方法和装置 |
CN111522915A (zh) * | 2020-04-20 | 2020-08-11 | 北大方正集团有限公司 | 中文事件的抽取方法、装置、设备及存储介质 |
CN112632040A (zh) * | 2020-12-31 | 2021-04-09 | 国家核安保技术中心 | 核安保事件库生成方法、装置、设备及计算机存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110309296A (zh) | 一种事件提取方法及装置 | |
CN109472017B (zh) | 获得待生成裁判文书本院认为段相关信息的方法及装置 | |
CN108830443A (zh) | 一种合同审阅方法及装置 | |
CN109598171A (zh) | 一种基于二维码的数据处理方法、装置及系统 | |
CN110458412A (zh) | 风险监控数据的生成方法和装置 | |
CN110046303A (zh) | 一种基于需求匹配平台实现的信息推荐方法及装置 | |
CN108509458A (zh) | 一种业务对象识别方法及装置 | |
CN110245346A (zh) | 事件信息分析方法及装置 | |
Khojasteh | Production management: Advanced models, tools, and applications for pull systems | |
Maritz et al. | Implementation Considerations for Big Data Analytics (BDA): A Benefit Dependency Network Approach | |
CN110069937A (zh) | 基于区块链的数据溯源方法、系统及装置 | |
CN110246063A (zh) | 一种指引案件审理的方法及装置 | |
CN110309295A (zh) | 生成裁判文书经审理查明段的方法及装置 | |
Hijazi | Big Data and Knowledge Management: A Possible Course to Combine Them Together. | |
EP3306540A1 (en) | System and method for content affinity analytics | |
EP3696739A1 (en) | Evaluation of software-based business models | |
CN109561339A (zh) | 视频文件的处理方法和装置 | |
CN107391533A (zh) | 生成图形数据库查询结果的方法及装置 | |
CN114782063B (zh) | 一种基于标识解析的快消品窜货监控方法、设备及介质 | |
CN110347921A (zh) | 一种多模态数据信息的标签抽取方法及装置 | |
CN109542775A (zh) | 一种测试脚本的生成和执行方法及装置 | |
van Dongen | Conformance checking: A systemic view | |
CN110209769A (zh) | 文本填写方法及装置 | |
CN109559141A (zh) | 一种创意样式的自动分类方法、装置及系统 | |
Oura et al. | The study on process for co-creation of value focused on ideation pattern |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20191008 |