CN109739983A

CN109739983A - 识别公安笔录人物关系的方法、装置及计算机可读介质

Info

Publication number: CN109739983A
Application number: CN201811576727.9A
Authority: CN
Inventors: 刘嘉庆; 喻波; 王志海; 魏力; 谢福进
Original assignee: Beijing Wondersoft Technology Co Ltd
Current assignee: Beijing Wondersoft Technology Co Ltd
Priority date: 2018-12-23
Filing date: 2018-12-23
Publication date: 2019-05-10

Abstract

本发明公开了一种识别公安笔录人物关系的方法，包括如下步骤：准备具有关系种类的实体组，分别获取对应不同实体组的语料库，将对应不同实体组的语料库中的语料进行分词，并将分词得到的词语转化为词向量；将词向量作为输入，将语料库对应的实体组的关系种类作为输出，训练得到实体关系识别模型；从知识库中得到相关语料库，将相关语料库中的语料进行分词，并将分词得到的相关词语转化为相关词向量；将相关词向量按语料转化为矩阵，并将矩阵作为实体关系识别模型的输入，得到相关语料库中相关关系种类的概率值；以及将得到识别结果的概率值按大小进行排序，将排名次序高的概率值对应的相关关系种类作为新预测的实体对之间的关系类别。

Description

识别公安笔录人物关系的方法、装置及计算机可读介质

技术领域

本发明是关于机器学习技术领域，特别是关于一种识别公安笔录人物关系的方法、装置及计算机可读介质。

背景技术

自然语言处理(NLP)是计算机科学，人工智能，语言学关注计算机和人类(自然)语言之间的相互作用的领域，它是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系，但又有重要的区别。自然语言处2理并不是一般地研究自然语言，而在于研制能有效地实现自然语言通信的计算机系统，特别是其中的软件系统。信息抽取是自然语言处理技术的重要组成部分，信息抽取(Information Extraction)技术能够帮助人们在海量的信息中快速定位到自己真正需要的信息，信息抽取是一个以无结构的自然语言文档作为输入，产生固定格式、无歧义的格式化数据的过程。信息抽取更是自然语言处理的一个研究热点。随着网络信息量的增大，对海量数据命名实体关系识别变得越来越难，而如何利用海量数据来挖掘出更多的业务需求所需要的实体关系是目前亟待解决的技术难题，也是目前自然语言研究的一个重要方向。命名实体识别的主要任务是识别出文本中的人名、地名、组织机构名、时间、数字等专有的名词并加以分类识别。命名实体之间存在的关系就是实体所具有的关系。实体关系识别是信息抽取的重要组成部分，对信息抽取技术的研究与应用都有很重要的意义。实体之间的关系识别是一项关键的核心技术，对信息检索、机器翻译等都有非常重要的意义。

目前，命名实体关系识别的方法主要是基于规则库的算法和基于机器学习与深度学习算法这两种方法。基于规则库的算法是建立一些规则，虽然这种方法的效率较高，但是这种规则的确定确实比较难的，而且移植性不好。不同的业务领域往往具有不同的特点，所以这种方法在移植到不同业务场景中时就会导致效率下降。而基于机器学习算法的方法则是采用不同的模型，并以人工标注的方法来标注训练集，进而进行训练学习，对于新的数据集则采用，模型算出相关的概率，这样便能得到新的数据集的结果。基于深度学习算法的方法代价较小，而且便于移植到不同的领域，因此这是当下自然语言处理研究的热点。这种方法需要依赖语料库来进行训练才能得到较好的结果，目前国内常用的语料库有北京大学、微软亚洲研究院等机构的中文语料库。因而目前实体关系识别的主要方法是利用深度学习的方法来进行识别。

目前基于机器学习与深度学习算法的实体关系识别的主要算法有隐马尔科夫模型(HMM)、最大熵(ME)、支持向量机(SVM)、条件随机场(CRF)，还有采用LSTM模型的实体关系识别方法，这些方法没有考虑一个实体与多个实体之间同时存在这关系，只考虑了单个与单个实体之间的关系。即实体关系重叠的问题。且在实体关系识别的过程中对于识别结果只是给出单一的一个结果，但是在实际的业务应用场景中，实体的关系往往是复杂的，这对模型的要求就会更高，这样就会可能造成识别结果不准确而造成误判。

公开于该背景技术部分的信息仅仅旨在增加对本发明的总体背景的理解，而不应当被视为承认或以任何形式暗示该信息构成已为本领域一般技术人员所公知的现有技术。

发明内容

本发明的目的在于提供一种识别公安笔录人物关系的方法、装置及计算机可读介质，其能够克服现有技术的缺点。

为实现上述目的，本发明提供了一种识别公安笔录人物关系的方法，包括如下步骤：

准备具有关系种类的实体组，分别获取对应不同实体组的语料库，将对应不同实体组的语料库中的语料进行分词，并将分词得到的词语转化为词向量；

将词向量作为输入，将语料库对应的实体组的关系种类作为输出，训练得到实体关系识别模型；

从知识库中得到相关语料库，将相关语料库中的语料进行分词，并将分词得到的相关词语转化为相关词向量；

将相关词向量按语料转化为矩阵，并将矩阵作为实体关系识别模型的输入，得到相关语料库中相关关系种类的概率值；以及

将得到识别结果的概率值按大小进行排序，将排名次序高的概率值对应的相关关系种类作为新预测的实体对之间的关系类别。

在一优选的实施方式中，其中，实体关系识别模型的训练过程包括：

将语料库中的词向量转化为矩阵输入到神经网络中；

利用神经网络的正向传播按预设权重进行迭代计算得到预测值；

利用反向传播算法计算预测值与语料库对应的实体组的关系种类之间的误差值；以及

基于误差值，得到实体关系识别模型。

在一优选的实施方式中，其中，基于误差值，得到实体关系识别模型具体包括如下步骤：

当误差值大于或者等于预设阈值时，对权重进行调整，重新计算迭代计算的预测值；以及

当误差值在小于预设阈值时，记录此时的模型，得到实体关系识别模型。

本发明提供了一种识别公安笔录人物关系的装置，该装置包括：

处理器；和

与处理器耦合的存储器，存储器存储有代码，当被执行时，素数代码可操作以使处理器进行以下操作：

将语料库中的词向量转化为矩阵输入到神经网络中；

基于误差值，得到实体关系识别模型。

本发明还提供了一种识别公安笔录人物关系的装置，该装置包括：

用于准备具有关系种类的实体组，分别获取对应不同实体组的语料库，将对应不同实体组的语料库中的语料进行分词，并将分词得到的词语转化为词向量的单元；

用于将词向量作为输入，将语料库对应的实体组的关系种类作为输出，训练得到实体关系识别模型的单元；

用于从知识库中得到相关语料库，将相关语料库中的语料进行分词，并将分词得到的相关词语转化为相关词向量的单元；

用于将相关词向量按语料转化为矩阵，并将矩阵作为实体关系识别模型的输入，得到相关语料库中相关关系种类的概率值的单元；以及

用于将得到识别结果的概率值按大小进行排序，将排名次序高的概率值对应的相关关系种类作为新预测的实体对之间的关系类别的单元。

将语料库中的词向量转化为矩阵输入到神经网络中；

基于误差值，得到实体关系识别模型。

本发明还提供了一种其上存储有计算机可执行代码的非暂时性计算机可读介质，在被执行时，计算机可执行代码可操作以使处理器进行以下操作：

将语料库中的词向量转化为矩阵输入到神经网络中；

基于误差值，得到实体关系识别模型。

与现有技术相比，本发明具有如下优点：本发明主要应用场景是在公安笔录中的实体关系识别。在公安笔录中的实体类别较多，同一个实体可能会表示出不同的含义，而这会对模型识别两者的关系的难度增大，而模型识别出单一的关系所造成的错误结果可能会对民警破案产生影响。因此本发明在使用的过程中识别出实体的重叠关系，且识别出的关系不是单一的关系类别，而是识别出这两个实体之间的多种可能关系类别，然后在识别的结果中按照概率值的大小进行排序，选取概率值最大的关系作为两个实体之间的关系，而其他的概率较小的关系予以保留，在必要的时候为民警提供参考，这样做的结果可以提高在具体业务场景应用中的实用性。本发明在训练时利用Google的深度学习框架TensorFlow框架进行训练，TensorFlow是工业级的深度学习框架，稳定可靠，也能提高了模型训练的速度。

附图说明

图1是根据本发明一实施方式的识别公安笔录人物关系的方法流程图。

具体实施方式

下面结合附图，对本发明的具体实施方式进行详细描述，但应当理解本发明的保护范围并不受具体实施方式的限制。

除非另有其它明确表示，否则在整个说明书和权利要求书中，术语“包括”或其变换如“包含”或“包括有”等等将被理解为包括所陈述的元件或组成部分，而并未排除其它元件或其它组成部分。

图1是根据本发明一实施方式的识别公安笔录人物关系的方法流程图。如图所示，本发明的识别公安笔录人物关系的方法包括如下步骤：

步骤101：准备具有关系种类的实体组，分别获取对应不同实体组的语料库，将对应不同实体组的语料库中的语料进行分词，并将分词得到的词语转化为词向量；

步骤102：将词向量作为输入，将语料库对应的实体组的关系种类作为输出，训练得到实体关系识别模型；

步骤103：从知识库中得到相关语料库，将相关语料库中的语料进行分词，并将分词得到的相关词语转化为相关词向量；

步骤104：将相关词向量按语料转化为矩阵，并将矩阵作为实体关系识别模型的输入，得到相关语料库中相关关系种类的概率值；以及

步骤105：将得到识别结果的概率值按大小进行排序，将排名次序高的概率值对应的相关关系种类作为新预测的实体对之间的关系类别。

在一优选的实施方式中，其中，实体关系识别模型的训练过程包括：将语料库中的词向量转化为矩阵输入到神经网络中；利用神经网络的正向传播按预设权重进行迭代计算得到预测值；利用反向传播算法计算预测值与语料库对应的实体组的关系种类之间的误差值；以及基于误差值，得到实体关系识别模型。

在一优选的实施方式中，其中，基于误差值，得到实体关系识别模型具体包括如下步骤：当误差值大于或者等于预设阈值时，对权重进行调整，重新计算迭代计算的预测值；以及当误差值在小于预设阈值时，记录此时的模型，得到实体关系识别模型。

本发明提供了一种识别公安笔录人物关系的装置，其特征在于：装置包括：处理器；和与处理器耦合的存储器，存储器存储有代码，当被执行时，素数代码可操作以使处理器进行以下操作：准备具有关系种类的实体组，分别获取对应不同实体组的语料库，将对应不同实体组的语料库中的语料进行分词，并将分词得到的词语转化为词向量；将词向量作为输入，将语料库对应的实体组的关系种类作为输出，训练得到实体关系识别模型；从知识库中得到相关语料库，将相关语料库中的语料进行分词，并将分词得到的相关词语转化为相关词向量；将相关词向量按语料转化为矩阵，并将矩阵作为实体关系识别模型的输入，得到相关语料库中相关关系种类的概率值；以及将得到识别结果的概率值按大小进行排序，将排名次序高的概率值对应的相关关系种类作为新预测的实体对之间的关系类别。

本发明还提供了一种识别公安笔录人物关系的装置，该装置包括：用于准备具有关系种类的实体组，分别获取对应不同实体组的语料库，将对应不同实体组的语料库中的语料进行分词，并将分词得到的词语转化为词向量的单元；用于将词向量作为输入，将语料库对应的实体组的关系种类作为输出，训练得到实体关系识别模型的单元；用于从知识库中得到相关语料库，将相关语料库中的语料进行分词，并将分词得到的相关词语转化为相关词向量的单元；用于将相关词向量按语料转化为矩阵，并将矩阵作为实体关系识别模型的输入，得到相关语料库中相关关系种类的概率值的单元；以及用于将得到识别结果的概率值按大小进行排序，将排名次序高的概率值对应的相关关系种类作为新预测的实体对之间的关系类别的单元。

本发明提供了一种其上存储有计算机可执行代码的非暂时性计算机可读介质，在被执行时，计算机可执行代码可操作以使处理器进行以下操作：

本发明的方法首先进行数据预处理，本发明通过采集大量公安笔录数据，经训练将所包含的字符映射成100维实数词向量Word2vec，该矩阵能够捕捉到公安领域词汇所潜在的特征关联信息；将已标注实体关系数据(原始语料数据)分为训练集、测试集和验证集，然后利用训练集进行训练，训练完成之后用测测试集测试模型的准确率，最后用验证集来验证模型。

本专利中在训练的过程中利用TensorFlow作为训练模型的框架。训练完成后得到实体间类别的准确率后，对照某一类准确率最高的实体关系类型进行调优。对每一类的关系类型进行迭代调优，最后使模型识别的准确率提高。

本申请的具体实施例如下：

本发明主要用于公安笔录中人物关系的识别，主要包括人物与人物、人物与地址、人物与数字、等之间的关系，利用此技术可以充分地提取和分析笔录中的有用信息，对笔录中的案情和涉案物品的提取有很大的帮助，这可以简化民警的工作量、提高破案率。

在公安笔录分析中的应用的主要步骤是，首先利用brat标注工具进行笔录中各实体之间的关系标注，然后利用这些数据集进行训练得到实体关系识别模型，再利用测试集进行测试，进而对准确率较低或者较高的的关系类型进行调优，以提高模型的准确率，最后将新数据输入到模型进行预测。

本发明的应用实例采集到350篇入室盗窃案件的讯问笔录，通过标注笔录中所包含的嫌疑人基本信息、发案时间及地点、该装置最终实现了受害人姓名、性别、数字、联系方式、地点等实体以及他们之间的关系作为样本数据集。并将笔录数据分为训练集、测试集与验证集三个数据集。训练模型时的训练迭代次数为310次，训练完成后根据每次迭代的loss值进行优化。

下面是利用训练好的实体关系识别模型得到的操作结果。

语料：

关系识别结果：

本发明应用采用350篇左右的笔录文本作为训练数据量，针对相同数量笔录下，需要很多数据才能达到训练准确率。本发明只需要较少的数据量便能达到较好的识别效果，省去了人工标注的训练数据集的时间，提高了工作效率，且能达到较高的准确率，其中人物与人物的关系识别更是达到了95％的准确率。而且能识别一个实体与多个实体之间的关系，由于公安笔录实体类别较复杂，这点显得尤为重要。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

前述对本发明的具体示例性实施方案的描述是为了说明和例证的目的。这些描述并非想将本发明限定为所公开的精确形式，并且很显然，根据上述教导，可以进行很多改变和变化。对示例性实施例进行选择和描述的目的在于解释本发明的特定原理及其实际应用，从而使得本领域的技术人员能够实现并利用本发明的各种不同的示例性实施方案以及各种不同的选择和改变。本发明的范围意在由权利要求书及其等同形式所限定。

Claims

1.一种识别公安笔录人物关系的方法，其特征在于：所述识别公安笔录人物关系的方法包括如下步骤：

将所述词向量作为输入，将语料库对应的实体组的关系种类作为输出，训练得到实体关系识别模型；

将所述相关词向量按语料转化为矩阵，并将所述矩阵作为实体关系识别模型的输入，得到相关语料库中相关关系种类的概率值；以及

2.如权利要求1所述的识别公安笔录人物关系的方法，其特征在于：其中，所述实体关系识别模型的训练过程包括：

将语料库中的所述词向量转化为矩阵输入到神经网络中；

利用所述神经网络的正向传播按预设权重进行迭代计算得到预测值；

基于所述误差值，得到实体关系识别模型。

3.如权利要求2所述的识别公安笔录人物关系的方法，其特征在于：其中，基于所述误差值，得到实体关系识别模型具体包括如下步骤：

当所述误差值大于或者等于预设阈值时，对权重进行调整，重新计算迭代计算的预测值；以及

当所述误差值在小于预设阈值时，记录此时的模型，得到实体关系识别模型。

4.一种识别公安笔录人物关系的装置，其特征在于：所述装置包括：

处理器；和

与所述处理器耦合的存储器，所述存储器存储有代码，当被执行时，素数代码可操作以使所述处理器进行以下操作：

5.如权利要求4所述的装置，其特征在于：其中，所述实体关系识别模型的训练过程包括：

将语料库中的所述词向量转化为矩阵输入到神经网络中；

基于所述误差值，得到实体关系识别模型。

6.如权利要求5所述的装置，其特征在于：其中，基于所述误差值，得到实体关系识别模型具体包括如下步骤：

7.一种识别公安笔录人物关系的装置，其特征在于：所述装置包括：

用于将所述词向量作为输入，将语料库对应的实体组的关系种类作为输出，训练得到实体关系识别模型的单元；

用于将所述相关词向量按语料转化为矩阵，并将所述矩阵作为实体关系识别模型的输入，得到相关语料库中相关关系种类的概率值的单元；以及

8.如权利要求7所述的装置，其特征在于：其中，所述实体关系识别模型的训练过程包括：

将语料库中的所述词向量转化为矩阵输入到神经网络中；

基于所述误差值，得到实体关系识别模型。

9.如权利要求8所述的装置，其特征在于：其中，基于所述误差值，得到实体关系识别模型具体包括如下步骤：

10.一种其上存储有计算机可执行代码的非暂时性计算机可读介质，其特征在于，在被执行时，所述计算机可执行代码可操作以使处理器进行以下操作：准备具有关系种类的实体组，分别获取对应不同实体组的语料库，将对应不同实体组的语料库中的语料进行分词，并将分词得到的词语转化为词向量；

11.如权利要求10所述的非暂时性计算机可读介质，其特征在于：其中，所述实体关系识别模型的训练过程包括：

将语料库中的所述词向量转化为矩阵输入到神经网络中；

基于所述误差值，得到实体关系识别模型。

12.如权利要求11所述的非暂时性计算机可读介质，其特征在于：其中，基于所述误差值，得到实体关系识别模型具体包括如下步骤：