CN111538832A - 用于对文书进行事件标注的装置和方法及记录介质 - Google Patents
用于对文书进行事件标注的装置和方法及记录介质 Download PDFInfo
- Publication number
- CN111538832A CN111538832A CN201910107264.XA CN201910107264A CN111538832A CN 111538832 A CN111538832 A CN 111538832A CN 201910107264 A CN201910107264 A CN 201910107264A CN 111538832 A CN111538832 A CN 111538832A
- Authority
- CN
- China
- Prior art keywords
- sentences
- sentence
- keyword
- event
- documents
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/34—Browsing; Visualisation therefor
- G06F16/345—Summarisation for human users
Abstract
公开了一种用于对文书进行事件标注的装置和方法及记录介质。用于对文书进行事件标注的装置包括:提取关键词单元,从每个类别的文书分别提取至少一个关键词;提取语句单元,从指定类别的文书提取包括针对指定类别所提取出的任意关键词的多个语句;聚类单元,基于针对属于指定类别的文书所提取出的多个语句之间的相似度,对多个语句进行聚类;选择单元,从每个聚类后的语句分组中分别选择预定数量的语句,并且在所选的预定数量的语句中标注事件信息;以及匹配单元,针对每个聚类后的语句分组,将所选的预定数量的语句中所标注的事件信息匹配到该语句分组中的所有其他语句,从而对该语句分组中的所有语句标注事件信息。
Description
技术领域
本公开涉及信息提取和自然语言处理领域,具体涉及一种用于对文书进行事件标注的装置和方法及计算机可读记录介质。
背景技术
事件指发生在某个特定的时间点或时间段、某个特定的地域范围内,由一个或者多个角色参与的一个或者多个动作组成的事情或者状态的改变。在文书中,事件是文书的构成要素。识别文书中的事件对于理解文书内容意义重大。
文本中事件的识别包括事件描述段落识别、事件触发词识别以及事件元素的识别。事件识别需要基于事件标注语料,语料的规模以及涵盖的事件种类是影响事件识别性能的关键因素。但文书中涉及的事件多种多样,对事件的表述也是灵活多变,人工标注不可能涵盖各类事件,且标注的整体规模也不容易扩大。语料缺乏制约了针对文书的事件识别性能的提高。
发明内容
在下文中给出了关于本公开的简要概述,以便提供关于本公开的某些方面的基本理解。但是,应当理解,这个概述并不是关于本公开的穷举性概述。它并不是意图用来确定本公开的关键性部分或重要部分,也不是意图用来限定本公开的范围。其目的仅仅是以简化的形式给出关于本公开的某些概念,以此作为稍后给出的更详细描述的前序。
鉴于以上问题,本公开的目的是提供能够解决现有技术中的一个或多个缺点的用于对文书进行事件标注的装置和方法及计算机可读记录介质。
根据本公开的一方面,提供了一种用于对文书进行事件标注的装置,包括:提取关键词单元,被配置成从属于至少两个类别中的每个类别的文书分别提取至少一个关键词;提取语句单元,被配置成从属于所述至少两个类别中的指定类别的文书提取包括针对所述指定类别所提取出的所述至少一个关键词中的任意关键词的多个语句,其中,所述至少一个关键词中的每个关键词用作事件的触发词,所述多个语句中的每个语句用作事件提及;聚类单元,被配置成基于针对属于所述指定类别的文书所提取出的所述多个语句之间的相似度,对所述多个语句进行聚类,从而形成多个聚类后的语句分组;选择单元,被配置成从每个聚类后的语句分组中分别选择预定数量的语句,并且在所选的所述预定数量的语句中标注事件信息;以及匹配单元,被配置成针对每个聚类后的语句分组,将所选的所述预定数量的语句中所标注的事件信息匹配到该语句分组中的所有其他语句,从而对该语句分组中的所有语句标注事件信息。
根据本公开的另一方面,提供了一种用于对文书进行事件标注的方法,包括:提取关键词步骤,从属于至少两个类别中的每个类别的文书分别提取至少一个关键词;提取语句步骤,从属于所述至少两个类别中的指定类别的文书提取包括针对所述指定类别所提取出的所述至少一个关键词中的任意关键词的多个语句,其中,所述至少一个关键词中的每个关键词用作事件的触发词,所述多个语句中的每个语句用作事件提及;聚类步骤,基于针对属于所述指定类别的文书所提取出的所述多个语句之间的相似度,对所述多个语句进行聚类,从而形成多个聚类后的语句分组;选择步骤,从每个聚类后的语句分组中分别选择预定数量的语句,并且在所选的所述预定数量的语句中标注事件信息;以及匹配步骤,针对每个聚类后的语句分组,将所选的所述预定数量的语句中所标注的事件信息匹配到该语句分组中的所有其他语句,从而对该语句分组中的所有语句标注事件信息。
根据本公开的另一方面,提供了一种记录有程序的计算机可读记录介质,所述程序用于使得计算机执行:提取关键词步骤,从属于至少两个类别中的每个类别的文书分别提取至少一个关键词;提取语句步骤,从属于所述至少两个类别中的指定类别的文书提取包括针对所述指定类别所提取出的所述至少一个关键词中的任意关键词的多个语句,其中,所述至少一个关键词中的每个关键词用作事件的触发词,所述多个语句中的每个语句用作事件提及;聚类步骤,基于针对属于所述指定类别的文书所提取出的所述多个语句之间的相似度,对所述多个语句进行聚类,从而形成多个聚类后的语句分组;选择步骤,从每个聚类后的语句分组中分别选择预定数量的语句,并且在所选的所述预定数量的语句中标注事件信息;以及匹配步骤,针对每个聚类后的语句分组,将所选的所述预定数量的语句中所标注的事件信息匹配到该语句分组中的所有其他语句,从而对该语句分组中的所有语句标注事件信息。
根据本公开的其它方面,还提供了用于实现上述根据本公开的方法的计算机程序代码和计算机程序产品。
在下面的说明书部分中给出本公开实施例的其它方面,其中,详细说明用于充分地公开本公开实施例的优选实施例,而不对其施加限定。
附图说明
本公开可以通过参考下文中结合附图所给出的详细描述而得到更好的理解,其中在所有附图中使用了相同或相似的附图标记来表示相同或者相似的部件。所述附图连同下面的详细说明一起包含在本说明书中并形成说明书的一部分,用来进一步举例说明本公开的优选实施例和解释本公开的原理和优点。其中:
图1是示出根据本公开实施例的用于对文书进行事件标注的装置的功能配置示例的框图;
图2是示出根据本公开实施例的第一组聚类结果中的、第一句与第二句的对齐结果的示例的图;
图3是示出根据本公开实施例的用于对文书进行事件标注的方法的流程示例的流程图;以及
图4是示出作为本公开实施例中可采用的个人计算机的示例结构的框图。
具体实施方式
在下文中将结合附图对本公开的示范性实施例进行描述。为了清楚和简明起见,在说明书中并未描述实际实施方式的所有特征。然而,应该了解,在开发任何这种实际实施例的过程中必须做出很多特定于实施方式的决定,以便实现开发人员的具体目标,例如,符合与系统及业务相关的那些限制条件,并且这些限制条件可能会随着实施方式的不同而有所改变。此外,还应该了解,虽然开发工作有可能是非常复杂和费时的,但对得益于本公开内容的本领域技术人员来说,这种开发工作仅仅是例行的任务。
在此,还需要说明的一点是,为了避免因不必要的细节而模糊了本公开,在附图中仅仅示出了与根据本公开的方案密切相关的设备结构和/或处理步骤,而省略了与本公开关系不大的其它细节。
下面结合附图详细说明根据本公开的实施例。
首先,将参照图1描述根据本公开实施例的用于对文书进行事件标注的装置100的功能框图。图1是示出根据本公开实施例的用于对文书进行事件标注的装置100的功能配置示例的框图。如图1所示,根据本公开实施例的用于对文书进行事件标注的装置100包括提取关键词单元102、提取语句单元104、聚类单元106、选择单元108、以及匹配单元110。
提取关键词单元102可以被配置成从属于至少两个类别中的每个类别的文书分别提取至少一个关键词。
具体地,文书可以是中文、英文、日文等语言的文书,只要属于同一类别的文书具有类似的结构即可。具体地,属于同一类别的文书包含大量的相同事件。
例示而非限制,文书可以是裁判文书。作为示例,在中文裁判文书中,事件是文书的构成要素,当事人陈述的主要内容,是判决的依据。但裁判文书中涉及的事件多种多样,几乎涉及社会生活的方方面面。语料缺乏制约了针对裁判文书的事件识别性能的提高。
优选地,属于所述至少两个类别中的每个类别的文书是通过基于裁判文书的案由对文书进行分类而得到的。
属于同一案由的裁判文书包含大量的相同事件,以案由对文书进行分类可以区分出不同类别的文书。具体地,例如可以从文书名称或摘要中获知案由。作为示例,可以基于案由将裁判文书分类,由此将属于同一案由的裁判文书分为一类。
以民事案件中的婚姻家庭纠纷为例,婚姻家庭案件的案由包括离婚纠纷、婚姻无效纠纷、婚约财产纠份等,将相同案由的文书分为相同类别,因此,可将婚姻家庭纠纷的裁判文书分为19个类别。
优选地,提取关键词单元102可以被配置成通过主题词模型()从属于每个类别的文书提取所述至少一个关键词。
例示而非限制,主题词模型可以是LDA(Latent Dirichlet Allocation)文档主体生模型。
优选地,提取关键词单元102可以被配置成通过主题词模型对属于每个类别的文书进行比较,从属于每个类别的文书提取所述至少一个关键词。因此,需要至少两个类别的文书。
以上述婚姻家庭纠纷的裁判文书的19个类别为例,可以采用主题词模型对属于每个类别的裁判文书进行比较,获得每个类别的关键词的集合。作为示例,离婚纠纷中出现的关键词可以包括:外遇、感情破裂、家暴等。
本领域技术人员可以理解,除了主题词模型之外,还可以采用神经网络结构提取每个类别的关键词的集合。另外,还可以采用其他方法提取每个类别的关键词集合,这里不再累述。
提取语句单元104可以被配置成从属于所述至少两个类别中的指定类别的文书提取包括针对指定类别所提取出的所述至少一个关键词中的任意关键词的多个语句,其中,所述至少一个关键词中的每个关键词用作事件的触发词,多个语句中的每个语句用作事件提及。
通过将关键词用作事件的触发词以及所述多个语句中的每个语句用作事件提及,有助于识别文本中的关键事件。
优选地,指定类别包括所述至少两个类别中的所有类别。具体地,对所述至少两个类别中的每个类别的文书提取包括针对该类别所提取出的所述至少一个关键词中的任意关键词的多个语句。然而,本领域技术人员可以理解,可以仅对所述至少两个类别中的所指定的一个或更多个类别的文书提取包括针对该类别所提取出的所述至少一个关键词中的任意关键词的多个语句,从而对所述多个语句进行后续处理。
聚类单元106可以被配置成基于针对属于指定类别的文书所提取出的多个语句之间的相似度,对多个语句进行聚类,从而形成多个聚类后的语句分组。
如上所述,属于同一类别的文书包含大量的相同事件,因此,聚类后的语句分组会包括大量描述相同事件的语句。
优选地,根据本公开实施例的用于对文书进行事件标注的装置100还包括通用化单元,该通用化单元可以被配置成通过将针对指定类别的文书所提取出的多个语句中的名称实体用类型名称来替代,将多个语句进行通用化处理,以及聚类单元106还可以被配置成通过对进行通用化处理后的多个语句进行聚类,从而形成多个聚类后的语句分组。
作为示例,通用化单元可以识别针对指定类别的文书所提取出的多个语句中的名称实体例如人名、地名、时间,并分别将名称实体例如人名、地名和时间泛化为类型名称person、place、以及time,从而将语句进行通用化处理。
优选地,聚类单元106可以被配置成基于多个语句的语句向量之间的相似度,对多个语句进行聚类,其中,语句向量是基于词向量而计算的。
具体地,聚类单元106可以通过以下方式将每个语句进行向量化:先将每个语句分成词,然后将词的词向量相加并求平均,从而得到该语句的语句向量。聚类单元106计算多个语句的语句向量之间的相似度,从而对多个语句进行聚类。
本领域技术人员可以理解,可以使用除了语句向量之间的相似度之外的相似度对多个语句进行聚类,这里不再累述。
关于以上举例的离婚纠纷,以关键词“外遇”为例,可在文书中抽取如下语句,并且对语句聚类后可获得如下两组聚类结果(每组包括三个语句):
(第一组聚类结果)
1.1本院认为,根据现有证据,无法证明原告存在被告所述外遇情形。
1.2本案中原告以被告有外遇为由请求与被告离婚,但没有证据证明原告有外遇。
1.3双方均怀疑对方有外遇,但没有充分的证据能够证明。
(第二组聚类结果)
2.1原告称因被告有外遇导致了夫妻感情破裂,故主张要求被告少分夫妻共同财产。
2.2原告张某某称被告石某甲已有外遇,并当庭提交照片十四张佐证。
2.3被告也不管原告,也未支付医药费,且已有外遇,毫不顾忌夫妻感情。
对于裁判文书而言,如上所述,裁判文书中同一案由的裁判文书包含大量的相同事件,因此,聚类后的语句分组会包括描述相同事件的语句。
选择单元108可以被配置成从每个聚类后的语句分组中分别选择预定数量的语句,并且在所选的预定数量的语句中标注事件信息。
具体地,选择单元108可以从每个聚类后的语句分组中分别选择预定数量的语句作为该语句分组的代表例句进行事件标注,即标注事件元素、元素角色和事件类型。作为示例,选择单元108可以从每个聚类后的语句分组中分别随机选择预定数量的语句作为该语句分组的代表例句。其中,本领域技术人员可以根据经验预先设置所述预定数量。
对于上述两组聚类结果,作为示例,可以分别选择每个语句分组中的第一句作为该语句分组的代表例句进行事件标注。
作为示例,利用人工标注,第一组聚类结果中的第一句的事件元素可以被标注为:
<主角>本院</主角>认为,<依据>根据现有证据</依据>,<结论>无法证明</结论><情节>原告存在被告所述外遇情形</情节>。
由以上描述可知,选择单元108只需要在所选的预定数量的语句中标注事件信息,即只需很少的人工标注。
匹配单元110可以被配置成针对每个聚类后的语句分组,将所选的预定数量的语句中所标注的事件信息匹配到该语句分组中的所有其他语句,从而对该语句分组中的所有语句标注事件信息。
例示而非限制,匹配单元110可以自动地将所选的预定数量的语句中所标注的事件信息匹配到该语句分组中的所有其他语句。
通过将所选的预定数量的语句中所标注的事件信息匹配到该语句分组中的所有其他语句,可以对该语句分组中的所有语句标注事件信息。因此,只需很少的人工标注即可获得大规模的事件标注语料,同时语料还能够涵盖裁判文书中描述的大多数关键事件。
优选地,匹配单元110可以被配置成针对每个聚类后的语句分组,通过语句对齐来将所选的预定数量的语句中所标注的事件信息匹配到该语句分组中的所有其他语句。
具体地,匹配单元110可以将代表例句与该代表例句所属的语句分组中的所有其他语句组合为两两句对,进行语句的成份对齐。通过对齐结果,将代表例句的所标注的事件信息映射于该代表例句所属的语句分组中的所有其他语句,作为其他语句的事件标注。
以上述第一组聚类结果为例,第一句与第二句的对齐结果如图2所示。图2是示出根据本公开实施例的第一组聚类结果中的、第一句与第二句的对齐结果的示例的图。如图2所示,以核心词对第一句与第二句进行对齐,例如,将第一句中的“本院”与第二句中的“本案”对齐,将第一句中的“证据”与第二句中的“证据”对齐,将第一句中的“无法”与第二句中的“没有”对齐,将第一句中的“证明”与第二句中的“证明”对齐,将第一句中的“原告”与第二句中的“原告”对齐,将第一句中的“被告”与第二句中的“被告”对齐,将第一句中的“外遇”与第二句中的“外遇”对齐。
采用语句对齐的方法将代表例句的标注结果映射于该代表例句所属的语句分组中的其它句子,使得可以容易地获得大规模事件标注语料。
例如,基于上述第一组聚类结果中的第一句的事件标注结果,以能对齐的最长连续单元为标注的映射原则,可获得第一组聚类结果中的第二句的标注结果为:
<主角>本案</主角>中<情节>原告以被告有外遇</情节>为由请求与被告离婚,但<结论>没有证据证明</结论>原告有外遇。
除了通过语句对齐来将所选的预定数量的语句中所标注的事件信息匹配到该语句分组中的所有其他语句之外,本领域技术人员还可以想到其他匹配方式,这里不再累述。
上文中关于离婚纠纷以关键词“外遇”为例对语句聚类。如上所述,离婚纠纷中出现的关键词可以包括:外遇、感情破裂、家暴等。对于离婚纠纷中的没有包括关键词“外遇”的语句,可以使用关键词“感情破裂”或“家暴”来对这些语句聚类。如果一个语句既包括在“外遇”的聚类结果分组中、又包括在“感情破裂”的聚类结果分组中,则可以任选匹配单元110对上述两个聚类结果分组中该语句的标注结果中之一来作为该语句的事件标注,或者可以通过将匹配单元110对上述两个聚类结果分组中该语句的标注结果进行组合来作为该语句的事件标注。本领域技术人员可以理解,还可以以至少两个关键词来对语句聚类,这里不再累述。
此外,上文中举例了选择每个语句分组中的一个语句作为该语句分组的代表例句进行事件标注,本领域技术人员可以理解,可以选择每个语句分组中的多于一个语句作为该语句分组的代表例句进行事件标注。在选择多于一个语句作为语句分组的代表例句的情况下,例示而非限制,可以对所选的多于一个语句分别进行人工标注,然后,对所选的多于一个语句的人工标注结果进行结合,匹配单元110可以将所选的多于一个语句的结合后的事件标注信息匹配到该语句分组中的所有其他语句。
由以上描述可知,在根据本公开实施例的用于对文书进行事件标注的装置100中,利用了属于同一类的文书包含大量的相同事件的特性,在将描述相同事件的语句进行聚类后,对聚类中的少量语句进行标注,即可获得该聚类中所有语句的事件标注。因此,只需很少的人工标注即可获得大规模事件标注语料,同时语料还能够涵盖同一类别的文书中描述的大多数关键事件,从而能够扩大文书事件标注语料库,并且能够提高针对文书的事件识别的精度和效率。
更具体地,由文书是裁判文书的示例可知,根据本公开实施例的用于对文书进行事件标注的装置100利用了裁判文书中同一案由的裁判文书包含大量的相同事件的特性,只需很少的人工标注即可获得大规模事件标注语料,同时语料还能够涵盖同一案由的裁判文书中描述的大多数关键事件,从而能够扩大裁判文书事件标注语料库,并且能够提高针对裁判文书的事件识别的精度和效率。
与上述利用分类模型进行分类的装置实施例相对应地,本公开还提供了以下用于对文书进行事件标注的方法300的实施例。
图3是示出根据本公开实施例的用于对文书进行事件标注的方法300的流程示例的流程图。
如图3所示,根据本公开实施例的用于对文书进行事件标注的方法300包括提取关键词步骤S302、提取语句步骤S304、聚类步骤S306、选择步骤S308、以及匹配步骤S310。
在提取关键词步骤S302中,从属于至少两个类别中的每个类别的文书分别提取至少一个关键词。
具体地,文书可以是中文、英文、日文等语言的文书,只要属于同一类别的文书具有类似的结构即可。具体地,属于同一类别的文书包含大量的相同事件。
例示而非限制,文书可以是裁判文书。
优选地,属于所述至少两个类别中的每个类别的文书是通过基于裁判文书的案由对文书进行分类而得到的。
属于同一案由的裁判文书包含大量的相同事件,以案由对文书进行分类可以区分出不同类别的文书。。具体地,例如可以从文书名称或摘要中获知案由作为示例,可以基于案由将裁判文书分类,由此将属于同一案由的裁判文书分为一类。
优选地,在提取关键词步骤S302中,可以通过主题词模型从属于每个类别的文书提取所述至少一个关键词。
优选地,在提取关键词步骤S302中,可以通过主题词模型对属于每个类别的文书进行比较,从属于每个类别的文书提取所述至少一个关键词。因此,需要至少两个类别的文书。
本领域技术人员可以理解,除了主题词模型之外,还可以采用神经网络结构提取每个类别的关键词的集合。另外,还可以采用其他方法提取每个类别的关键词集合,这里不再累述。
在提取语句步骤S304中,可以从属于所述至少两个类别中的指定类别的文书提取包括针对指定类别所提取出的所述至少一个关键词中的任意关键词的多个语句,其中,所述至少一个关键词中的每个关键词用作事件的触发词,多个语句中的每个语句用作事件提及。
通过将关键词用作事件的触发词以及所述多个语句中的每个语句用作事件提及,有助于识别文本中的关键事件。
优选地,指定类别包括所述至少两个类别中的所有类别。具体地,对所述至少两个类别中的每个类别的文书提取包括针对该类别所提取出的所述至少一个关键词中的任意关键词的多个语句。然而,本领域技术人员可以理解,可以仅对所述至少两个类别中的所指定的一个或更多个类别的文书提取包括针对该类别所提取出的所述至少一个关键词中的任意关键词的多个语句,从而对所述多个语句进行后续处理。
在聚类步骤S306中,可以基于针对属于指定类别的文书所提取出的多个语句之间的相似度,对多个语句进行聚类,从而形成多个聚类后的语句分组。
如上所述,属于同一类别的文书包含大量的相同事件,因此,聚类后的语句分组会包括大量描述相同事件的语句。
对于裁判文书而言,裁判文书中同一案由的裁判文书包含大量的相同事件,因此,聚类后的语句分组会包括描述相同事件的语句。
优选地,根据本公开实施例的用于对文书进行事件标注的方法300还包括通用化步骤,在该通用化步骤中,可以通过将针对指定类别的文书所提取出的多个语句中的名称实体用类型名称来替代,将多个语句进行通用化处理,以及在聚类步骤S306中,还可以通过对进行通用化处理后的多个语句进行聚类,从而形成多个聚类后的语句分组。
作为示例,在通用化步骤中,可以识别针对指定类别的文书所提取出的多个语句中的名称实体例如人名、地名、时间,并分别将名称实体例如人名、地名和时间泛化为类型名称person、place、以及time,从而将语句进行通用化处理。
优选地,在聚类步骤S306中,可以基于多个语句的语句向量之间的相似度,对多个语句进行聚类,其中,语句向量是基于词向量而计算的。
具体地,在聚类步骤S306中,可以通过以下方式将每个语句进行向量化:先将每个语句分成词,然后将词的词向量相加并求平均,从而得到该语句的语句向量。在聚类步骤S306中,计算多个语句的语句向量之间的相似度,从而对多个语句进行聚类。
本领域技术人员可以理解,可以使用除了语句向量之间的相似度之外的相似度对多个语句进行聚类,这里不再累述。
在选择步骤S308中,可以从每个聚类后的语句分组中分别选择预定数量的语句,并且在所选的预定数量的语句中标注事件信息。
具体地,在选择步骤S308中,可以从每个聚类后的语句分组中分别选择预定数量的语句作为该语句分组的代表例句进行事件标注,即标注事件元素、元素角色和事件类型。作为示例,在选择步骤S308中,可以从每个聚类后的语句分组中分别随机选择预定数量的语句作为该语句分组的代表例句。其中,本领域技术人员可以根据经验预先设置所述预定数量。
由以上描述可知,在选择步骤S308中,只需要在所选的预定数量的语句中标注事件信息,即只需很少的人工标注。
在匹配步骤S310中,可以针对每个聚类后的语句分组,将所选的预定数量的语句中所标注的事件信息匹配到该语句分组中的所有其他语句,从而对该语句分组中的所有语句标注事件信息。
通过将所选的预定数量的语句中所标注的事件信息匹配到该语句分组中的所有其他语句,可以对该语句分组中的所有语句标注事件信息。因此,只需很少的人工标注即可获得大规模的事件标注语料,同时语料还能够涵盖裁判文书中描述的大多数关键事件。
优选地,在匹配步骤S310中,可以针对每个聚类后的语句分组,通过语句对齐来将所选的预定数量的语句中所标注的事件信息匹配到该语句分组中的所有其他语句。
具体地在匹配步骤S310中,可以将代表例句与该代表例句所属的语句分组中的所有其他语句组合为两两句对,进行语句的成份对齐。通过对齐结果,将代表例句的所标注的事件信息映射于该代表例句所属的语句分组中的所有其他语句,作为其他语句的事件标注。
采用语句对齐的方法将代表例句的标注结果映射于该代表例句所属的语句分组中的其它句子,使得可以容易地获得大规模事件标注语料。
除了通过语句对齐来将所选的预定数量的语句中所标注的事件信息匹配到该语句分组中的所有其他语句之外,本领域技术人员还可以想到其他匹配方式,这里不再累述。
由以上描述可知,在根据本公开实施例的用于对文书进行事件标注的方法300中,利用了属于同一类的文书包含大量的相同事件的特性,在将描述相同事件的语句进行聚类后,对聚类中的少量语句进行标注,即可获得该聚类中所有语句的事件标注。因此,只需很少的人工标注即可获得大规模事件标注语料,同时语料还能够涵盖同一类别的文书中描述的大多数关键事件,从而能够扩大文书事件标注语料库,并且能够提高针对文书的事件识别的精度和效率。
更具体地,由文书是裁判文书的示例可知,根据本公开实施例的用于对文书进行事件标注的方法300利用了裁判文书中同一案由的裁判文书包含大量的相同事件的特性,只需很少的人工标注即可获得大规模事件标注语料,同时语料还能够涵盖同一案由的裁判文书中描述的大多数关键事件,从而能够扩大裁判文书事件标注语料库,并且能够提高针对裁判文书的事件识别的精度和效率。
应指出,尽管以上描述了根据本公开实施例的用于对文书进行事件标注的装置和方法的功能配置以及操作,但是这仅是示例而非限制,并且本领域技术人员可根据本公开的原理对以上实施例进行修改,例如可对各个实施例中的功能模块和操作进行添加、删除或者组合等,并且这样的修改均落入本公开的范围内。
此外,还应指出,这里的方法实施例是与上述装置实施例相对应的,因此在方法实施例中未详细描述的内容可参见装置实施例中相应部分的描述,在此不再重复描述。
此外,本公开还提供了存储介质和程序产品。根据本公开实施例的存储介质和程序产品中的机器可执行的指令可以被配置成执行上述用于对文书进行事件标注的方法,因此在此未详细描述的内容可参考先前相应部分的描述,在此不再重复进行描述。
相应地,用于承载上述包括机器可执行的指令的程序产品的存储介质也包括在本发明的公开中。该存储介质包括但不限于软盘、光盘、磁光盘、存储卡、存储棒等等。
相应地,用于承载上述包括机器可执行的指令的程序产品的存储介质也包括在本发明的公开中。该存储介质包括但不限于软盘、光盘、磁光盘、存储卡、存储棒等等。
另外,还应该指出的是,上述系列处理和装置也可以通过软件和/或固件实现。在通过软件和/或固件实现的情况下,从存储介质或网络向具有专用硬件结构的计算机,例如图4所示的通用个人计算机400安装构成该软件的程序,该计算机在安装有各种程序时,能够执行各种功能等等。
在图4中,中央处理单元(CPU)401根据只读存储器(ROM)402中存储的程序或从存储部分408加载到随机存取存储器(RAM)403的程序执行各种处理。在RAM 403中,也根据需要存储当CPU 401执行各种处理等时所需的数据。
CPU 401、ROM 402和RAM 403经由总线404彼此连接。输入/输出接口405也连接到总线404。
下述部件连接到输入/输出接口405:输入部分406,包括键盘、鼠标等;输出部分407,包括显示器,比如阴极射线管(CRT)、液晶显示器(LCD)等,和扬声器等;存储部分408,包括硬盘等;和通信部分409,包括网络接口卡比如LAN卡、调制解调器等。通信部分409经由网络比如因特网执行通信处理。
根据需要,驱动器410也连接到输入/输出接口405。可拆卸介质411比如磁盘、光盘、磁光盘、半导体存储器等等根据需要被安装在驱动器410上,使得从中读出的计算机程序根据需要被安装到存储部分408中。
在通过软件实现上述系列处理的情况下,从网络比如因特网或存储介质比如可拆卸介质411安装构成软件的程序。
本领域的技术人员应当理解,这种存储介质不局限于图4所示的其中存储有程序、与设备相分离地分发以向用户提供程序的可拆卸介质411。可拆卸介质411的例子包含磁盘(包含软盘(注册商标))、光盘(包含光盘只读存储器(CD-ROM)和数字通用盘(DVD))、磁光盘(包含迷你盘(MD)(注册商标))和半导体存储器。或者,存储介质可以是ROM 402、存储部分408中包含的硬盘等等,其中存有程序,并且与包含它们的设备一起被分发给用户。
以上参照附图描述了本公开的优选实施例,但是本公开当然不限于以上示例。本领域技术人员可在所附权利要求的范围内得到各种变更和修改,并且应理解这些变更和修改自然将落入本公开的技术范围内。
例如,在以上实施例中包括在一个单元中的多个功能可以由分开的装置来实现。替选地,在以上实施例中由多个单元实现的多个功能可分别由分开的装置来实现。另外,以上功能之一可由多个单元来实现。无需说,这样的配置包括在本公开的技术范围内。
在该说明书中,流程图中所描述的步骤不仅包括以所述顺序按时间序列执行的处理,而且包括并行地或单独地而不是必须按时间序列执行的处理。此外,甚至在按时间序列处理的步骤中,无需说,也可以适当地改变该顺序。
另外,根据本公开的技术还可以如下进行配置。
附记1.一种用于对文书进行事件标注的装置,包括:
提取关键词单元,被配置成从属于至少两个类别中的每个类别的文书分别提取至少一个关键词;
提取语句单元,被配置成从属于所述至少两个类别中的指定类别的文书提取包括针对所述指定类别所提取出的所述至少一个关键词中的任意关键词的多个语句,其中,所述至少一个关键词中的每个关键词用作事件的触发词,所述多个语句中的每个语句用作事件提及;
聚类单元,被配置成基于针对属于所述指定类别的文书所提取出的所述多个语句之间的相似度,对所述多个语句进行聚类,从而形成多个聚类后的语句分组;
选择单元,被配置成从每个聚类后的语句分组中分别选择预定数量的语句,并且在所选的所述预定数量的语句中标注事件信息;以及
匹配单元,被配置成针对每个聚类后的语句分组,将所选的所述预定数量的语句中所标注的事件信息匹配到该语句分组中的所有其他语句,从而对该语句分组中的所有语句标注事件信息。
附记2.根据附记1所述的装置,其中,
所述装置还包括通用化单元,所述通用化单元被配置成通过将针对所述指定类别的文书所提取出的所述多个语句中的名称实体用类型名称来替代,将所述多个语句进行通用化处理,以及
所述聚类单元还被配置成通过对进行通用化处理后的所述多个语句进行聚类,从而形成所述多个聚类后的语句分组。
附记3.根据附记1所述的装置,其中,
所述聚类单元被配置成基于所述多个语句的语句向量之间的相似度,对所述多个语句进行聚类,其中,所述语句向量是基于词向量而计算的。
附记4.根据附记1所述的装置,其中,
所述匹配单元被配置成针对每个聚类后的语句分组,通过语句对齐来将所选的所述预定数量的语句中所标注的事件信息匹配到该语句分组中的所有其他语句。
附记5.根据附记1所述的装置,其中,
所述文书是裁判文书。
附记6.根据附记5所述的装置,其中,
属于所述至少两个类别中的每个类别的文书是通过基于所述裁判文书的案由对所述文书进行分类而得到的。
附记7.根据附记1所述的装置,其中,
所述提取关键词单元被配置成通过主题词模型从属于每个类别的文书提取所述至少一个关键词。
附记8.根据附记7所述的装置,其中,
所述提取关键词单元被配置成通过所述主题词模型对属于每个类别的文书进行比较,从属于每个类别的文书提取所述至少一个关键词。
附记9.根据附记1所述的装置,其中,
所述指定类别包括所述至少两个类别中的所有类别。
附记10.一种用于对文书进行事件标注的方法,包括:
提取关键词步骤,从属于至少两个类别中的每个类别的文书分别提取至少一个关键词;
提取语句步骤,从属于所述至少两个类别中的指定类别的文书提取包括针对所述指定类别所提取出的所述至少一个关键词中的任意关键词的多个语句,其中,所述至少一个关键词中的每个关键词用作事件的触发词,所述多个语句中的每个语句用作事件提及;
聚类步骤,基于针对属于所述指定类别的文书所提取出的所述多个语句之间的相似度,对所述多个语句进行聚类,从而形成多个聚类后的语句分组;
选择步骤,从每个聚类后的语句分组中分别选择预定数量的语句,并且在所选的所述预定数量的语句中标注事件信息;以及
匹配步骤,针对每个聚类后的语句分组,将所选的所述预定数量的语句中所标注的事件信息匹配到该语句分组中的所有其他语句,从而对该语句分组中的所有语句标注事件信息。
附记11.根据附记10所述的方法,其中,
所述方法还包括通用化步骤,在所述通用化步骤中,通过将针对所述指定类别的文书所提取出的所述多个语句中的名称实体用类型名称来替代,将所述多个语句进行通用化处理,以及
在所述聚类步骤中,还通过对进行通用化处理后的所述多个语句进行聚类,从而形成所述多个聚类后的语句分组。
附记12.根据附记10所述的方法,其中,
在所述聚类步骤中,基于所述多个语句的语句向量之间的相似度,对所述多个语句进行聚类,其中,所述语句向量是基于词向量而计算的。
附记13.根据附记10所述的方法,其中,
在所述匹配步骤中,针对每个聚类后的语句分组,通过语句对齐来将所选的所述预定数量的语句中所标注的事件信息匹配到该语句分组中的所有其他语句。
附记14.根据附记10所述的方法,其中,
所述文书是裁判文书。
附记15.根据附记14所述的方法,其中,
属于所述至少两个类别中的每个类别的文书是通过基于所述裁判文书的案由对所述文书进行分类而得到的。
附记16.根据附记10所述的方法,其中,
在所述提取关键词步骤中,通过主题词模型从属于每个类别的文书提取所述至少一个关键词。
附记17.根据附记16所述的方法,其中,
在所述提取关键词步骤中,通过所述主题词模型对属于每个类别的文书进行比较,从属于每个类别的文书提取所述至少一个关键词。
附记18.根据附记10所述的方法,其中,
所述指定类别包括所述至少两个类别中的所有类别。
附记19.一种记录有程序的计算机可读记录介质,所述程序用于使得计算机执行:
提取关键词步骤,从属于至少两个类别中的每个类别的文书分别提取至少一个关键词;
提取语句步骤,从属于所述至少两个类别中的指定类别的文书提取包括针对所述指定类别所提取出的所述至少一个关键词中的任意关键词的多个语句,其中,所述至少一个关键词中的每个关键词用作事件的触发词,所述多个语句中的每个语句用作事件提及;
聚类步骤,基于针对属于所述指定类别的文书所提取出的所述多个语句之间的相似度,对所述多个语句进行聚类,从而形成多个聚类后的语句分组;
选择步骤,从每个聚类后的语句分组中分别选择预定数量的语句,并且在所选的所述预定数量的语句中标注事件信息;以及
匹配步骤,针对每个聚类后的语句分组,将所选的所述预定数量的语句中所标注的事件信息匹配到该语句分组中的所有其他语句,从而对该语句分组中的所有语句标注事件信息。
Claims (10)
1.一种用于对文书进行事件标注的装置,包括:
提取关键词单元,被配置成从属于至少两个类别中的每个类别的文书分别提取至少一个关键词;
提取语句单元,被配置成从属于所述至少两个类别中的指定类别的文书提取包括针对所述指定类别所提取出的所述至少一个关键词中的任意关键词的多个语句,其中,所述至少一个关键词中的每个关键词用作事件的触发词,所述多个语句中的每个语句用作事件提及;
聚类单元,被配置成基于针对属于所述指定类别的文书所提取出的所述多个语句之间的相似度,对所述多个语句进行聚类,从而形成多个聚类后的语句分组;
选择单元,被配置成从每个聚类后的语句分组中分别选择预定数量的语句,并且在所选的所述预定数量的语句中标注事件信息;以及
匹配单元,被配置成针对每个聚类后的语句分组,将所选的所述预定数量的语句中所标注的事件信息匹配到该语句分组中的所有其他语句,从而对该语句分组中的所有语句标注事件信息。
2.根据权利要求1所述的装置,其中,
所述装置还包括通用化单元,所述通用化单元被配置成通过将针对所述指定类别的文书所提取出的所述多个语句中的名称实体用类型名称来替代,将所述多个语句进行通用化处理,以及
所述聚类单元还被配置成通过对进行通用化处理后的所述多个语句进行聚类,从而形成所述多个聚类后的语句分组。
3.根据权利要求1所述的装置,其中,
所述聚类单元被配置成基于所述多个语句的语句向量之间的相似度,对所述多个语句进行聚类,其中,所述语句向量是基于词向量而计算的。
4.根据权利要求1所述的装置,其中,
所述匹配单元被配置成针对每个聚类后的语句分组,通过语句对齐来将所选的所述预定数量的语句中所标注的事件信息匹配到该语句分组中的所有其他语句。
5.根据权利要求1所述的装置,其中,
所述文书是裁判文书。
6.根据权利要求5所述的装置,其中,
属于所述至少两个类别中的每个类别的文书是通过基于所述裁判文书的案由对所述文书进行分类而得到的。
7.根据权利要求1所述的装置,其中,
所述提取关键词单元被配置成通过主题词模型从属于每个类别的文书提取所述至少一个关键词。
8.根据权利要求7所述的装置,其中,
所述提取关键词单元被配置成通过所述主题词模型对属于每个类别的文书进行比较,从属于每个类别的文书提取所述至少一个关键词。
9.一种用于对文书进行事件标注的方法,包括:
提取关键词步骤,从属于至少两个类别中的每个类别的文书分别提取至少一个关键词;
提取语句步骤,从属于所述至少两个类别中的指定类别的文书提取包括针对所述指定类别所提取出的所述至少一个关键词中的任意关键词的多个语句,其中,所述至少一个关键词中的每个关键词用作事件的触发词,所述多个语句中的每个语句用作事件提及;
聚类步骤,基于针对属于所述指定类别的文书所提取出的所述多个语句之间的相似度,对所述多个语句进行聚类,从而形成多个聚类后的语句分组;
选择步骤,从每个聚类后的语句分组中分别选择预定数量的语句,并且在所选的所述预定数量的语句中标注事件信息;以及
匹配步骤,针对每个聚类后的语句分组,将所选的所述预定数量的语句中所标注的事件信息匹配到该语句分组中的所有其他语句,从而对该语句分组中的所有语句标注事件信息。
10.一种记录有程序的计算机可读记录介质,所述程序用于使得计算机执行:
提取关键词步骤,从属于至少两个类别中的每个类别的文书分别提取至少一个关键词;
提取语句步骤,从属于所述至少两个类别中的指定类别的文书提取包括针对所述指定类别所提取出的所述至少一个关键词中的任意关键词的多个语句,其中,所述至少一个关键词中的每个关键词用作事件的触发词,所述多个语句中的每个语句用作事件提及;
聚类步骤,基于针对属于所述指定类别的文书所提取出的所述多个语句之间的相似度,对所述多个语句进行聚类,从而形成多个聚类后的语句分组;
选择步骤,从每个聚类后的语句分组中分别选择预定数量的语句,并且在所选的所述预定数量的语句中标注事件信息;以及
匹配步骤,针对每个聚类后的语句分组,将所选的所述预定数量的语句中所标注的事件信息匹配到该语句分组中的所有其他语句,从而对该语句分组中的所有语句标注事件信息。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910107264.XA CN111538832A (zh) | 2019-02-02 | 2019-02-02 | 用于对文书进行事件标注的装置和方法及记录介质 |
JP2020008295A JP2020126631A (ja) | 2019-02-02 | 2020-01-22 | 文書に対してイベントのラベル付けを行う装置及び方法、並びに記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910107264.XA CN111538832A (zh) | 2019-02-02 | 2019-02-02 | 用于对文书进行事件标注的装置和方法及记录介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111538832A true CN111538832A (zh) | 2020-08-14 |
Family
ID=71976653
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910107264.XA Pending CN111538832A (zh) | 2019-02-02 | 2019-02-02 | 用于对文书进行事件标注的装置和方法及记录介质 |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP2020126631A (zh) |
CN (1) | CN111538832A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112651211A (zh) * | 2020-12-11 | 2021-04-13 | 北京大米科技有限公司 | 标签信息确定方法、装置、服务器及存储介质 |
CN114637829A (zh) * | 2022-02-21 | 2022-06-17 | 阿里巴巴(中国)有限公司 | 记录文本处理方法、装置及计算机可读存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102314519A (zh) * | 2011-10-11 | 2012-01-11 | 中国软件与技术服务股份有限公司 | 一种基于公安领域知识本体模型的信息搜索方法 |
CN108073569A (zh) * | 2017-06-21 | 2018-05-25 | 北京华宇元典信息服务有限公司 | 一种基于多层级多维度语义理解的法律认知方法、装置和介质 |
CN108197163A (zh) * | 2017-12-14 | 2018-06-22 | 上海银江智慧智能化技术有限公司 | 一种基于裁判文书的结构化处理方法 |
CN108268431A (zh) * | 2016-12-30 | 2018-07-10 | 北京国双科技有限公司 | 段落向量化的方法和装置 |
CN108304386A (zh) * | 2018-03-05 | 2018-07-20 | 上海思贤信息技术股份有限公司 | 一种基于逻辑规则推断法律文书判决结果的方法及装置 |
CN108984518A (zh) * | 2018-06-11 | 2018-12-11 | 人民法院信息技术服务中心 | 一种面向裁判文书的文本分类方法 |
CN109145097A (zh) * | 2018-06-11 | 2019-01-04 | 人民法院信息技术服务中心 | 一种基于信息提取的裁判文书分类方法 |
-
2019
- 2019-02-02 CN CN201910107264.XA patent/CN111538832A/zh active Pending
-
2020
- 2020-01-22 JP JP2020008295A patent/JP2020126631A/ja active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102314519A (zh) * | 2011-10-11 | 2012-01-11 | 中国软件与技术服务股份有限公司 | 一种基于公安领域知识本体模型的信息搜索方法 |
CN108268431A (zh) * | 2016-12-30 | 2018-07-10 | 北京国双科技有限公司 | 段落向量化的方法和装置 |
CN108073569A (zh) * | 2017-06-21 | 2018-05-25 | 北京华宇元典信息服务有限公司 | 一种基于多层级多维度语义理解的法律认知方法、装置和介质 |
CN108197163A (zh) * | 2017-12-14 | 2018-06-22 | 上海银江智慧智能化技术有限公司 | 一种基于裁判文书的结构化处理方法 |
CN108304386A (zh) * | 2018-03-05 | 2018-07-20 | 上海思贤信息技术股份有限公司 | 一种基于逻辑规则推断法律文书判决结果的方法及装置 |
CN108984518A (zh) * | 2018-06-11 | 2018-12-11 | 人民法院信息技术服务中心 | 一种面向裁判文书的文本分类方法 |
CN109145097A (zh) * | 2018-06-11 | 2019-01-04 | 人民法院信息技术服务中心 | 一种基于信息提取的裁判文书分类方法 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112651211A (zh) * | 2020-12-11 | 2021-04-13 | 北京大米科技有限公司 | 标签信息确定方法、装置、服务器及存储介质 |
CN114637829A (zh) * | 2022-02-21 | 2022-06-17 | 阿里巴巴(中国)有限公司 | 记录文本处理方法、装置及计算机可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
JP2020126631A (ja) | 2020-08-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10019515B2 (en) | Attribute-based contexts for sentiment-topic pairs | |
WO2021068339A1 (zh) | 文本分类方法、装置及计算机可读存储介质 | |
WO2019218514A1 (zh) | 网页目标信息的提取方法、装置及存储介质 | |
Qian et al. | Social event classification via boosted multimodal supervised latent dirichlet allocation | |
US8108413B2 (en) | Method and apparatus for automatically discovering features in free form heterogeneous data | |
Chen et al. | A two-step resume information extraction algorithm | |
US20160203209A1 (en) | Joint approach to feature and document labeling | |
CN104881458B (zh) | 一种网页主题的标注方法和装置 | |
CN106651696B (zh) | 一种近似题推送方法及系统 | |
CN108319583B (zh) | 从中文语料库提取知识的方法与系统 | |
US9996504B2 (en) | System and method for classifying text sentiment classes based on past examples | |
CN109840325B (zh) | 基于点互信息的文本语义相似性度量方法 | |
CN113987125A (zh) | 基于神经网络的文本结构化信息提取方法、及其相关设备 | |
CN107844531B (zh) | 答案输出方法、装置和计算机设备 | |
CN104636487A (zh) | 一种广告信息管理方法 | |
KR100876214B1 (ko) | 문맥기반 광고 장치와 그 방법 및 이를 구현할 수 있는컴퓨터로 읽을 수 있는 기록 매체 | |
CN111538832A (zh) | 用于对文书进行事件标注的装置和方法及记录介质 | |
Wang et al. | Knowledge mining with scene text for fine-grained recognition | |
CN111459973B (zh) | 一种基于案情三元组信息的类案检索方法及系统 | |
JP2021501387A (ja) | 自然言語処理のための表現を抽出するための方法、コンピュータ・プログラム及びコンピュータ・システム | |
JP5972096B2 (ja) | コンテンツに関する投稿を抽出する装置、方法およびプログラム | |
Cai et al. | Semantic entity detection by integrating CRF and SVM | |
CN113486148A (zh) | Pdf文件的转换方法、装置、电子设备以及计算机可读介质 | |
JP5916666B2 (ja) | テキストによる視覚表現を含む文書を分析する装置、方法およびプログラム | |
KR20080091738A (ko) | 문맥기반 광고 장치와 그 방법 및 이를 구현할 수 있는 컴퓨터로 읽을 수 있는 기록 매체 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |