CN111242237A

CN111242237A - Bert模型训练、分类方法、系统、介质和计算机设备

Info

Publication number: CN111242237A
Application number: CN202010064378.3A
Authority: CN
Inventors: 王双星; 孙德毅; 杨鹏飞
Original assignee: Beijing Mininglamp Software System Co ltd
Current assignee: Beijing Mininglamp Software System Co ltd
Priority date: 2020-01-20
Filing date: 2020-01-20
Publication date: 2020-06-05

Abstract

本发明实施例提供一种Bert模型训练、分类方法、系统、存储介质和计算机设备。所述方法包括：预先对标准的案件类别代码进行拓展，得到拓展详类代码；对Bert模型进行训练，训练时采用所述拓展详类代码对案情文本进行标注。采用本发明实施例的方法和系统，由于对案件类别代码进行了拓展得到了涵盖更广、划分更细的拓展详类代码，使得由该拓展详类代码训练的模型可能达到案件准确分类、案情提取准确的效果。

Description

Bert模型训练、分类方法、系统、介质和计算机设备

技术领域

本文涉及数据处理技术领域，尤指一种Bert模型训练方法及系统、分类方法及系统、存储介质和计算机设备。

背景技术

随着我国经济的快速发展，尤其伴随着互联网的普及，犯罪的形式也越来越多样化，盗窃案、诈骗案、抢夺案等各种侵财案件层出不穷，犯罪的形式也不局限于传统的犯罪形式。新型的案件往往呈现群体性、连环性，受害的群体更广、区域更大。但我们的办案民警人力和资源都是有限的，如果能同案同办，类似案件一起分析无疑能提高办案效率。通常公安民警在录入案情时会添加案件相关要素、案件类别等属性，但由于对案情的录入主要是记录，并未对案件进行深入分析，录入的案件相关信息一般都是比较泛的。这样的案件信息对办案民警实际使用意义并不大，无法准确的对类似案件进行关联分析。所以如何能精准的对案件进行分类、将案件性质相同的案件统一分析就显得非常重要。

目前对案件分类最基本、最普遍的技术是基于我国公安部发布的案件类别代码标准(后面简称为“部标”)进行的，该标准的案件类别代码有6位，其中第一、二位是大类，第三、四位是中类，第五、六位是小类。使用基于空间向量或者基于语义技术，对案件进行类别划分，从而确定案件类别的小类。目前第一种技术的实现方案很多，准确度也随着机器学习的技术发展越来越高。但由于犯罪形式的多样化，部标中的小类案件类别也无法对案件类别进行准确的描述。

发明内容

本申请实施例提供了一种Bert模型的训练方法及系统、基于该Bert模型的分类方法及系统、存储介质和计算机设备，能够对案件进行更准确的分类。

本发明实施例提供一种Bert的训练方法，用于进行案件分类，所述方法包括：

预先对标准的案件类别代码进行拓展，得到拓展详类代码；

对Bert模型进行训练，训练时采用所述拓展详类代码对案情文本进行标注。

本发明实施例还提供一种基于Bert模型的分类方法，所述方法包括：

获取待识别案情文本；

将所述待识别案情文本输入Bert模型，得到拓展详类代码，所述Bert模型为采用前述方法训练得到的Bert模型。

本发明实施例还提供一种Bert模型训练系统，包括拓展模块和训练模块，其中：

所述拓展模块，用于预先对标准的案件类别代码进行拓展，得到拓展详类代码；

所述训练模块，用于对Bert模型进行训练，训练时采用所述拓展详类代码对案情文本进行标注。

本发明实施例还提供一种Bert模型分类系统，所述系统包括获取模块和输出模块，其中：

所述获取模块，用于获取待识别案情文本；

所述输出模块，用于将所述待识别案情文本输入Bert模型，得到拓展详类代码，所述Bert模型为采用前述方法训练得到的Bert模型。

本发明实施例还提供一种计算机可读存储介质，存储有程序指令，当该程序指令被执行时可实现上述方法。

本发明实施例还提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述方法中的步骤。

采用本发明实施例的方法和系统，由于对案件类别代码进行了拓展得到了涵盖更广、划分更细的拓展详类代码，使得由该拓展详类代码训练的模型可能达到案件准确分类、案情提取准确的效果。另外，由于采用Bert模型进行训练和分类，模型训练简单，容易上手，无需太多的复杂模型训练操作就能达到案件准确分类的效果，且使用方便简单。

本申请的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本申请而了解。本申请的其他优点可通过在说明书、权利要求书以及附图中所描述的方案来实现和获得。

附图说明

附图用来提供对本申请技术方案的理解，并且构成说明书的一部分，与本申请的实施例一起用于解释本申请的技术方案，并不构成对本申请技术方案的限制。

图1为本发明实施例Bert模型训练流程图；

图2为以入室盗窃案为例的案件类别代码关联关系以及级联关系示意图；

图3为以入室盗窃案为例的提取关键字示意图；

图4为以入室盗窃案为例的反馈关键字同时反馈拓展详类代码的示意图；

图5为本发明实施例基于Bert模型进行分类的流程图；

图6为本发明实施例训练Bert模型的系统结构示意图；

图7为本发明实施例Bert分类系统的结构示意图；

图8为本发明实施例一种计算机设备的结构示意图。

具体实施方式

本申请描述了多个实施例，但是该描述是示例性的，而不是限制性的，并且对于本领域的普通技术人员来说显而易见的是，在本申请所描述的实施例包含的范围内可以有更多的实施例和实现方案。尽管在附图中示出了许多可能的特征组合，并在具体实施方式中进行了讨论，但是所公开的特征的许多其它组合方式也是可能的。除非特意加以限制的情况以外，任何实施例的任何特征或元件可以与任何其它实施例中的任何其他特征或元件结合使用，或可以替代任何其它实施例中的任何其他特征或元件。

本申请包括并设想了与本领域普通技术人员已知的特征和元件的组合。本申请已经公开的实施例、特征和元件也可以与任何常规特征或元件组合，以形成由权利要求限定的独特的发明方案。任何实施例的任何特征或元件也可以与来自其它发明方案的特征或元件组合，以形成另一个由权利要求限定的独特的发明方案。因此，应当理解，在本申请中示出和/或讨论的任何特征可以单独地或以任何适当的组合来实现。因此，除了根据所附权利要求及其等同替换所做的限制以外，实施例不受其它限制。此外，可以在所附权利要求的保护范围内进行各种修改和改变。

此外，在描述具有代表性的实施例时，说明书可能已经将方法和/或过程呈现为特定的步骤序列。然而，在该方法或过程不依赖于本文所述步骤的特定顺序的程度上，该方法或过程不应限于所述的特定顺序的步骤。如本领域普通技术人员将理解的，其它的步骤顺序也是可能的。因此，说明书中阐述的步骤的特定顺序不应被解释为对权利要求的限制。此外，针对该方法和/或过程的权利要求不应限于按照所写顺序执行它们的步骤，本领域技术人员可以容易地理解，这些顺序可以变化，并且仍然保持在本申请实施例的精神和范围内。

申请人发现由于目前经常使用的部标代码是我国公安部于2000年批准并使用的，随着社会的发展，很多新型的犯罪，之前的部标已经不能准确进行描述了。如诈骗案，根据不同的场景就可以分为接触性诈骗和非接触性诈骗，接触性诈骗有可以根据场景分为金融诈骗、冒充领导、碰瓷诈骗等等多种形式。简单的小类案件类别标识已经达不到民警的使用诉求了。目前也有根据案件的特征要素进行类别划分的技术，通过对模型的训练，提取案件案情中和案件有关的特征或者标识，如"某某于2019年9月入室盗窃一部手机"则标识特征要素为"入室盗窃"，如"某某于2019年5月被彩票诈骗1000元"则标识特征要素为"彩票诈骗"。通过对特征要素的提取，从而对案件进行类别划分。但该分类是根据当前的案件性质构建新的案件标识，并非依照公安部颁发的案件类别代码标准，从而导致部标与多样化的特征要素无法关联起来。

为此本发明实施例提供一种基于Bert(Bidirectional Encoder Representationfrom Transformers，深度双向预训练转换器)的分类方法，具体可分为模型训练过程和根据训练好的模型进行分类的过程，下面分别介绍。

如图1所示为本发明实施例提供的Bert模型的训练过程，包括以下步骤：

步骤11，预先对标准的案件类别代码进行拓展，得到拓展详类代码；

例如可以先在公安部发布的标准案件类别代码的基础上进行位数拓展，即通过增加一个或多个拓展位对类进行拓展，例如将原来的6位部标拓展为7位、8位或者9位或者更多位，得到拓展案件类别代码，即拓展类。通过增加的位数取不同的值来代表更多的案件类别。除此之外，在其他实施例中，还可以重新建立一套新的拓展编码方式，并建立拓展编码方式与部标的映射关系。

以拓展为8位为例进行说明。拓展原则：在原部标的6位案件类别代码后面补充2位，将其拓展为8位。例如通过补0的方式得到8位的拓展案件类别代码(或者简称拓展类)。以侵财类盗窃案为例，公安部发布的侵财类盗窃案类别一共有19类，代码编码为6位。如入室盗窃案【入户盗窃案】公安部的案件类别代码为050201，拓展后的拓展案件类别代码为05020100。

此外，还可以对已有的类(例如小类)进行拓展，以在案件类别代码的基础上添加原案件类别代码中没有的、新型的小类代码，得到新的案件类别代码。例如，部标的大类和中类不变，在当前部标盗窃案的基础上对小类代码进行扩充(如累增)，类增时需要保证与现有的部标其他案件类别不能相同。例如部标的盗窃案中没有盗窃营业场所案，则可以对小类进行拓展，增加小类“05”，设置050205案件类别代码表示盗窃营业场所案。且该050205案件类别代码与部标中的其他案件类别代码不冲突。

上述拓展位数和拓展小类的实施方式可以结合使用，以拓展的盗窃营业场所案案件类别代码050205为例，可通过补0的方式将其拓展为拓展案件类别代码05020500。

在通过增加位数拓展得到拓展案件类别代码之后，在拓展案件类别代码基础上进行拓展，得到拓展详类代码，即对拓展案件类别代码进行进一步的细化，以将每一小类拆分成更小、更细的拓展详类，通过拓展详类能够代表更多的案件类别。以8位拓展案件类别代码为例，为拓展位(最后两位)取不同的值(例如可以类增编码)得到拓展详类代码(简称拓展详类)，对每种拓展详类代码进行命名得到拓展详类名称。例如可以通过场景来划分，原则是尽可能的细化，以便覆盖到每个具体的实际应用场景。对每个场景分别进行编码和命名。此外，还可增加专门用于表示未尽案件类别的拓展详类代码，例如可设置拓展位为"99"表示未尽案件类型。例如盗窃营业场所案，拓展案件类别代码是05020500，根据实际应用场景，盗窃营业场所案又可以拆分为盗窃手机销售场所案、盗窃烟酒销售场所案、入室盗窃经营场所(含娱乐场所)、盗窃沿街铺面、假借购物名义盗窃、其他营业场所盗窃，因此可对这些类别分别进行编码得到：05020501、05020502、05020503、05020504、05020505、05020599，其中拓展详类代码05020501对应的拓展详类名称为盗窃手机销售场所案，拓展详类代码05020502对应的拓展详类名称为盗窃烟酒销售场所案，拓展详类代码05020503对应的拓展详类名称为入室盗窃经营场所(含娱乐场所)案，拓展详类代码05020504对应的拓展详类名称为盗窃沿街铺面案，拓展详类代码05020505对应的拓展详类名称为假借购物名义盗窃案，拓展详类代码05020599对应的拓展详类名称为其他营业场所盗窃案。

以盗窃案为例建立的部分拓展案件类别代码、拓展详类代码、拓展详类名称及对应释义见表1所示。

表1

步骤12，对Bert模型进行训练，训练时采用所述拓展详类代码对案情文本进行标注。

在本实施例中，可使用Bert模型进行训练，针对多种不同的案件类型逐个进行训练，训练的案情文本需要涵盖所有的案件类别即所有的案件类别代码。

训练时可参照拓展详类以及类别解释将不同的案情文本标注为相应的拓展详类代码，每次标注时将整个案情文本完全选择进行分类标识，无需选中里面的关键字进行选择性的标识。

BERT模型是谷歌提出的NLP(自然语言处理)预训练方法，在大型文本语料库上训练通用的“语言理解”模型，该模型用于下游NLP任务(如分类、阅读理解)。BERT优于以前的方法，因为它是用于预训练NLP的第一个“无监督，深度双向”系统。BERT模型的目标是利用大规模无标注语料训练、获得文本的包含丰富语义信息的文本的语义表示，然后将文本的语义表示在特定NLP任务中作微调，最终应用于该NLP任务。基于Bert的模型训练，不用在一段文本中选择某些字段进行标注训练，而是整个文本进行标注，通过快速阅读文本语义，达到标识的目的。相比其他模型训练更加简单，用户只需要对案情文本进行分析并将其进行案件类别划分，就能达到模型的最终训练效果，无需其他复杂操作。当然也可以根据某些文本语义中的关键字快速进行类别划分。在模型训练中，标注的案情文本越多，训练出来的模型越准确。

下面以使用Bert的分类模型进行训练为例进行说明。由于前期对案件类别代码进行更为细致的划分，所以在进行训练时，需要进行更为细致的标注才能满足模型的准确性。为了减轻标注成本，减少人力投入成本以及保证模型标注的准确率。可采用以下标注步骤：

步骤121，在获取待训练案情文本的同时获取案件类别代码即部标；

可选地，为了便于用户标注，还可以同时获取案件类别代码对应的代码释义。

例如：待训练案情文本(即待标注文本)为：【吴某某于2019年5月5日10时左右，在西安市未央区某某某小区，通过撬锁入室盗取失主李某某现金2000元整，手机一部。】，案件类别代码：【050201】，代码释义(可选)：【入室盗窃案】。

步骤122，提取所述案情文本中的关键字信息，返回所述关键字信息和与所述案件类别代码对应的拓展详类代码以供用户进行标注。

在实现时，可使用代码实现案件类别代码与拓展案件类别代码的关联关系，以及拓展案件类别代码和拓展详类代码的级联关系，以使得每次在进行标注时可根据初始的案件类别代码带出对应的拓展详类代码。采用文本关键词提取算法对输入的案情文本进行语义分析，提取出案情文本的关键字信息，并将提取的关键字以及与该案件类别代码对应的拓展详类代码通过标注页面推荐给用户，供用户进行选择标注。从而减少人力分析成本，提升标注的准确率。

以入室盗窃案为例，案件类别代码关联关系以及级联关系如图2所示。对待标注案情文本提取关键字(或关键词)后反馈给用户如图3所示。对待标注案情文本提取关键字后反馈用户同时反馈拓展详类代码如图4所示。如图4所示，训练时输入待标注案情文本，同时输入案件类别代码，对待标注案情文本进行关键词提取，返回提取出的关键词以及与案件类别代码对应的拓展详类代码供用户进行标注。

通过预设的损失函数对Bert模型精度进行约束，当满足预设损失函数要求时，用于进行案情文本识别的Bert模型训练完成，该模型可以帮助用户自动识别输入的案情文本的案件类别，模型输出拓展详类代码。

通过上述方法得到训练好的Bert模型后，可使用训练好的模型进行案件分类，如图5所示，包括以下步骤：

步骤21，获取待识别案情文本；

步骤22，将所述待识别案情文本输入训练好的Bert模型，得到拓展详类代码。

例如，向模型中输入“某某某利用铁锹撬开窗户爬进某某某家里实施盗窃，盗窃金额1000元整”时，模型会输出拓展详类代码：05020103(破门(撬或撞)入户盗窃)。结合步骤11中建立好的部标和拓展案件类别代码的关联关系，模型还可以输出完整的案件类别信息链：050201--05020100--05020101(攀爬入户盗窃)，其中050201表示公安部标，05020100表示拓展类，05020101表示拓展详类，详类名称为攀爬入户盗窃。如果无对应部标，则也可以快速的标识该案情文本的大类以及特征要素。

采用本发明实施例，模型训练简单，容易上手，无需太多的复杂模型训练操作就能达到案件准确分类的效果。且通过本发明实施例识别案件类别，标识案件结果描述详细，除了部标的案件类别外，涵盖了更广、更细的案件类别，同时可替代案件特征要素提取，使得一个模型达到案件准确分类，案情提取准确的效果，且使用方便简单。

本发明实施例还提供了一种Bert模型的训练系统，如图6所示，包括拓展模块31和训练模块32，其中：

所述拓展模块31，用于预先对标准的案件类别代码进行拓展，得到拓展详类代码；

所述训练模块32，用于对Bert模型进行训练，训练时采用所述拓展详类代码对案情文本进行标注。

该系统的实现细节和效果详见方法实施例中描述，此处不再赘述。

本发明实施例还提供了一种基于Bert模型的分类系统，如图7所示，所述系统包括获取模块41和输出模块42，其中：

所述获取模块41，用于获取待识别案情文本；

所述输出模块42，用于将所述待识别案情文本输入Bert模型，得到拓展详类代码，所述Bert模型为采用前述方法训练得到的Bert模型。

本发明实施例还提供一种计算机存储介质，所述计算机存储介质存储有计算机程序；所述计算机程序被执行后，能够实现前述一个或多个示例性实施例提供的方法，例如，执行如图1及图5所示方法中的一个或多个。所述计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。

本发明实施例还提供了一种计算机设备。所述计算机设备可包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现本公开中数据存储装置或数据验证装置所执行的操作。

如图8所示，在一个示例中，计算机设备可包括：处理器51、存储器52、总线系统53和收发器54，其中，该处理器51、该存储器52和该收发器54通过该总线系统53相连，该存储器52用于存储指令，该处理器51用于执行该存储器52存储的指令，以控制该收发器54发送信号。

应理解，处理器51可以是中央处理单元(Central Processing Unit，简称为“CPU”)，处理器51还可以是其他通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器52可以包括只读存储器和随机存取存储器，并向处理器51提供指令和数据。存储器52的一部分还可以包括非易失性随机存取存储器。例如，存储器52还可以存储设备类型的信息。

总线系统53除包括数据总线之外，还可以包括电源总线、控制总线和状态信号总线等。但是为了清楚说明起见，在图8中将所有总线都标为总线系统53。

在实现过程中，该计算机设备所执行的处理可以通过处理器51中的硬件的集成逻辑电路或者软件形式的指令完成。即本公开实施例所公开的方法的步骤可以体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等存储介质中。该存储介质位于存储器52，处理器51读取存储器52中的信息，结合其硬件完成上述方法的步骤。为避免重复，这里不再详细描述。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、系统、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中，在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分；例如，一个物理组件可以具有多个功能，或者一个功能或步骤可以由若干物理组件合作执行。某些组件或所有组件可以被实施为由处理器，如数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。这样的软件可以分布在计算机可读介质上，计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的，术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外，本领域普通技术人员公知的是，通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据，并且可包括任何信息递送介质。

本领域的普通技术人员应当理解，可以对本发明实施例的技术方案进行修改或者等同替换，而不脱离本申请技术方案的精神和范围，均应涵盖在本申请的权利要求范围当中。

Claims

1.一种Bert模型训练方法，其特征在于，用于进行案件分类，所述方法包括：

预先对标准的案件类别代码进行拓展，得到拓展详类代码；

2.根据权利要求1所述的方法，其特征在于，所述对案件类别代码标准进行拓展，得到拓展详类代码，包括：

在案件类别代码的末尾增加一个或多个拓展位，得到拓展案件类别代码；

对拓展案件类别代码进行拓展，得到拓展详类代码。

3.根据权利要求1所述的方法，其特征在于，所述对标准的案件类别代码进行拓展，得到拓展详类代码，包括：

对案件类别代码中的小类进行拓展，新增小类代码，得到新的案件类别代码，在所述新的案件类别代码的末尾增加一个或多个拓展位，得到拓展案件类别代码；

对拓展案件类别代码进行拓展，得到拓展详类代码。

4.根据权利要求2或3所述的方法，其特征在于，所述在案件类别代码的末尾增加一个或多个拓展位，得到拓展案件类别代码，包括：

在案件类别代码通过补0的方式增加拓展位，得到拓展案件类别代码。

5.根据权利要求1所述的方法，其特征在于，所述采用所述拓展详类代码对案情文本进行标注，包括：

在获取案情文本的同时获取案件类别代码；

提取所述案情文本中的关键字信息，返回所述关键字信息和与所述案件类别代码对应的拓展详类代码以供用户进行标注。

6.一种基于Bert模型的分类方法，其特征在于，所述方法包括：

获取待识别案情文本；

将所述待识别案情文本输入Bert模型，得到拓展详类代码，所述Bert模型为采用权利要求1-5中任一方法训练得到的Bert模型。

7.一种Bert模型训练系统，其特征在于，包括拓展模块和训练模块，其中：

8.一种Bert模型分类系统，其特征在于，所述系统包括获取模块和输出模块，其中：

所述获取模块，用于获取待识别案情文本；

所述输出模块，用于将所述待识别案情文本输入Bert模型，得到拓展详类代码，所述Bert模型为采用权利要求1-5中任一方法训练得到的Bert模型。

9.一种计算机可读存储介质，存储有程序指令，当该程序指令被执行时可实现权利要求1-5任一项或权利要求6所述的方法。

10.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至5中任一项或权利要求6所述方法的步骤。