CN107894981A

CN107894981A - 一种案件语义要素的自动抽取方法

Info

Publication number: CN107894981A
Application number: CN201711332273.6A
Authority: CN
Inventors: 金勇�; 邱爽; 李力; 陈云浩; 朱阳光
Original assignee: WUHAN FENGHUO PUTIAN IT Co Ltd
Current assignee: WUHAN FENGHUO PUTIAN IT Co Ltd
Priority date: 2017-12-13
Filing date: 2017-12-13
Publication date: 2018-04-10

Abstract

本发明公开了一种案件语义要素的自动抽取方法，(1)序列标注模块：根据预先训练好的中文序列标注模型对简要案情文本进行词性标注，识别出里面的名词，动词和动名词；(2)词义相似模块：利用词义相似算法丰富种子词库；(3)调优模块：多次人工校准，对要素提取结果进行进一步的调优；(4)分类词库模块：要素按类别形成类别词库。该案件语义要素的自动抽取方法，实现了从繁杂无规律的简要案情中，自动抽取案件语义要素，大大提升了案件语义要素提取的效率，降低了人力抽取成本，同时也可以将此系统用于公安行业的其他非结构化文本信息的语义理解分析，为案件的关联分析提供有效方法，提高办案效率。

Description

一种案件语义要素的自动抽取方法

技术领域

本发明涉及自然语言处理及机器学习技术领域，具体为一种案件语义要素的自动抽取方法。

背景技术

随着自然语言处理和机器学习的快速发展，这些技术已经广泛应用于搜索引擎、智能翻译、机器问答、用户推荐、舆情监测等相关行业。公安机关在长期的信息化进程中积累了大量的数据信息，但现阶段对数据的应用还停留在对结构化数据的简单查询，尚未对非结构化或半结构化数据开展深度应用。与此同时，这些非结构化或半结构化数据还存在很多问题：信息格式不统一、信息描述多样化等。基于此，如何在描述纷繁的警务案情文本中提取出有价值的语义要素信息，将会为公安后期刑侦决策提供坚实基础。

在挖掘案情要素过程中，需要利用中文序列标注工具来提供种子词和最后的各要素提取。目前阶段，中文序列标注方法较多采用隐马尔科夫模型或者条件随机场等传统方法。由于HMM和CRF各有局限，在挖掘案情要素时使用自主研发的半自动的序列标注系统—基于双向的LSTM模型，CRF模型以及词库积累的中文序列标注系统。

在挖掘案情要素过程中，需要利用词义近似算法来计算某些要素之间的相似性。目前计算词语之间的相似性，最简单的词向量方式是one-hot方式。但这种词表示有两个缺点：(1)容易产生维数灾难，尤其是作为深度学习算法的输入时，算法性能受到严重影响；(2)存在“词汇鸿沟”现象，也就是说不能很好地刻画词与词之间的相似性。另一种词向量表示方法就是Distributed Representation，它最早是Hinton于1986年提出的，可以克服one-hot表示方法的缺点。

所以在大数据和人工智能的发展背景下，公安领域中研发一套自动提取案件语义要素的方法是十分必需的。

发明内容

(一)解决的技术问题

针对现有技术的不足，本发明提供了一种案件语义要素的自动抽取方法，解决了容易产生维数灾难，尤其是作为深度学习算法的输入时，算法性能受到严重影响；存在“词汇鸿沟”现象，也就是说不能很好地刻画词与词之间相似性的问题。

(二)技术方案

为实现以上目的，本发明通过以下技术方案予以实现：一种案件语义要素的自动抽取方法，包括如下步骤：

S1、首先根据要素可能出现的词性，利用预先训练好的序列标注模对简要案情的进行词性标注，识别出里面的名词，动词和动名词；

S2、作案工具和涉案物品从名词中抽取，人工进行分类标注少数简要案情中的作案工具和涉案物品；作案手段从动词和动名词中抽取，并且还需要识别作案手段动词和名词的结合，最终形成种子词库；

S3、根据人工标注的种子词库，利用词义相似算法找到更多相类似的词，以便丰富词库；由于词性标注是基于已有的简要案情进行的，为了之后新增案件语义要素抽取可以获得较高的准确率，利用相似算法获取相似词是十分必要的；

S4、利用校对的词库结合已训练好的序列标注模型对所有案件的简要案情进行相关要素的抽取，对抽取的要素进行进一步调优；

S5、要素按类别形成类别词库，结合序列标注算法和正则化处理方法，对新输入的简要案情文本进行自动抽取，将抽取的语义要素对应案件编号入库。

优选的，在S3中，种子词库可以采用作案工具，涉案物品、作案手段、侵害对象、选择场所等。

(三)有益效果

本发明提供了一种案件语义要素的自动抽取方法。具备以下有益效果：该案件语义要素的自动抽取方法，通过该方法封闭式测试涉案物品准确率达到80％以上，作案手段、作案工具准确率达到90％以上；该方法实现了从繁杂无规律的简要案情中，自动抽取案件语义要素，大大提升了案件语义要素提取的效率，降低了人力抽取成本，同时也可以将此系统用于公安行业的其他非结构化文本信息的语义理解分析，为案件的关联分析提供有效方法，提高办案效率。

附图说明

图1为本发明结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供一种案件语义要素的自动抽取方法，如图1所示，包括如下步骤：

S1、首先根据要素可能出现的词性，利用预先训练好的序列标注模对简要案情的进行词性标注，识别出里面的名词，动词和动名词；如涉案物品是名词，作案工具是名词，作案手段是动名词或者动词和名词的组合。

S2、作案工具和涉案物品从名词中抽取，人工进行分类标注少数简要案情中的作案工具和涉案物品；作案手段从动词和动名词中抽取，并且还需要识别作案手段动词和名词的结合，最终形成种子词库；比如“剪刀”、“钳子”、“钢锯”之类的词语为作案工具；“钱包”、“身份证”、“手机”之类的词语为涉案物品；“撬”“翻”之类的词语为作案手段动词，“门”、“窗”之类的词语为作案手段名词，结合起来就是“撬门”，“翻窗”等。

S3、根据人工标注的种子词库，利用词义相似算法找到更多相类似的词，以便丰富词库；由于词性标注是基于已有的简要案情进行的，为了之后新增案件语义要素抽取可以获得较高的准确率，利用相似算法获取相似词是十分必要的；比如：由“棒”获取近义词“铁棒”、“铜棒”、“木棒”、“撬棒”、“棒子”、“银棒”等，依据可能性排除“银棒”、“铜棒”，将其他词加入对应的词库中。

本发明中，在S3中，种子词库可以采用作案工具，涉案物品、作案手段、侵害对象、选择场所等。

基于此，根据大数据趋势下的公安侦防的需求，为了实现案情要素(涉案物品、作案手段、作案工具)的深入挖掘，形成结构化数据，为后期的案件关联挖掘提供必要的技术基础，本发明提供了一套利用机器学习工具(序列标注、相似计算)和人工校对结合的方式，对案情要素(作案手段、作案工具、涉案物品等)进行自动抽取的方法。

本发明主要包含四个模块：

(1)序列标注模块：根据预先训练好的中文序列标注模型对简要案情文本进行词性标注，识别出里面的名词，动词和动名词。

(2)词义相似模块：利用词义相似算法丰富种子词库。

(3)调优模块：多次人工校准，对要素提取结果进行进一步的调优。

(4)分类词库模块：要素按类别形成类别词库。

本发明对于案件语义要素的自动抽取方法主要包括以下内容：

1)利用预先训练好的序列标注模型对简要案情的进行词性标注，识别出里面的名词，动词和动名词。

2)利用词性标注结果，人工校对提炼出少数种子词库，利用词义相似算法找到更多的类似词来丰富词库，并进行校准。

3)词库都是根据案件类别来建立的，辨识率较高。

4)该方法的用户可以根据不同案例的不同种类对相应的词库进行调整，具有人工交互调整的功能。

5)通过对抽取的要素进行进一步调优，以及对多类简要案情的不停测试，实验结果表明效果不错，证明了此案件语义要素的自动抽取方法的有效性。

该方法最重要的是序列标注和词义相似。首先是利用词性标注识别出文本中的名词，动词和动名词。进而利用词性区分出作案手段(名词和动词)、涉案物品(名词)、作案工具(名词)。其次，通过对案件信息中的所有非结构化文本进行智能分词，然后以词为单位，对所有案件信息的案情语料训练神经网络语言模型，从而得到每个词语对应的词向量。将所有这些向量放在一起形成一个词向量空间，而每一向量则为该空间中的一个点，在这个空间上引入“距离”(如余弦距离)，则根据词之间的距离来判断它们之间的(词法、语义上的)相似性。最后，进行迭代调优。

根据词性区分出作案手段、作案工具和涉案物品，进行第一次校准，对于作案手段特殊的动词和名词组合，要将它连接起来。对于词义相似算法找到的近义词需要人工进行第二次校对，剔除一些不可能出现的词；利用校对的词库结合已训练好的序列标注模型，对简要案情进行相关要素的抽取，之后进行第三次调优。对于一些特殊的规律，利用正则表达式进行规避，提高要素自动抽取的准确率。对于“手机店”、“农药门市”等词，利用正则将“物品+店/门市…”这种类型剔除，保证涉案物品的准确率；根据业务需求，需要将一些特定的描述展示为统一方式，可以用正则和映射库进行统一化处理，例如，“现金”、“零钱”、“纸币”需要展示为“现金”，“电动自行车”、“电动车”、“自行车式电动车”需要展示为“电动车”，等等。

下述案例是上述自动化抽取得到的结果示例，简要案情样例为：

2011年10月11日早，在众兴镇同兴居委会新蕾幼儿园东，阳阳(化名)电动车修理门市被人撬门扭锁，盗走一台14寸康佳彩色电视，一台潜水泵，一箱冰红茶，一条软中华(价值700元)，九包小苏烟(价值912元)，两副大手套，一套修理工具，一块旧电瓶车电池，总共损失价值2762元左右。

基于模型，词库以及正则化处理方法，得到符合业务要求的作案手段、涉案物品、作案工具，如下所示：

该方法在前期需要训练序列标注模型、神经网络词向量模型，在训练完成后可直接用来预测，时间开销很小，所以不会影响此系统的生产应用。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下。由语句“包括一个......限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素”。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种案件语义要素的自动抽取方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的一种案件语义要素的自动抽取方法，其特征在于：在S3中，种子词库可以采用作案工具，涉案物品、作案手段、侵害对象、选择场所等。