CN112016313A

CN112016313A - 口语化要素识别方法及装置、警情分析系统

Info

Publication number: CN112016313A
Application number: CN202010937545.0A
Authority: CN
Inventors: 杜渂; 邱祥平; 雷霆; 王聚全; 彭明喜; 周赵云; 索涛; 刘冉东; 杨博; 刘亮亮; 宋平超; 林永生; 何共晖
Original assignee: Ds Information Technology Co ltd
Current assignee: Ds Information Technology Co ltd
Priority date: 2020-09-08
Filing date: 2020-09-08
Publication date: 2020-12-01
Anticipated expiration: 2040-09-08
Also published as: CN112016313B

Abstract

本发明提供了一种口语化要素识别方法及装置、警情分析系统，其中，口语化要素识别方法中包括：获取待识别文本，并将文本中的字符进行映射得到字符向量；使用预训练的循环神经网络对待识别文本进行特征抽取获取字符向量的上下文编码信息，生成语义编码向量；对字符向量和语义编码向量进行融合编码；使用条件随机场对融合后的向量进行类别判断并输出，实现对待识别文本中的要素进行识别。相比传统的CNN、RNN等网络结构，该模型具有更强的上下文双向特征抽取能力，模型的总体命名实体识别准确度达90.84％。

Description

口语化要素识别方法及装置、警情分析系统

技术领域

本发明涉及计算机与网络技术领域，尤指一种口语化要素识别方法及装置、警情分析系统。

背景技术

针对数据分析的需求，有些时候需要从一些文本中抽取一些要素，比如搭建智慧警情系统时就需要从接处警文本中抽取要素。然而，接处警文本中通常会包含大量的口语化要素，包括时间、地点、作案手段等，其中，针对一时间“2020年1月1日8时”就可能会出现“2020年1月1日上午8点”、“2020年1 月1号8点左右”、“2020年元旦那天”等多种表达方式，作案手段可能会出现如“强买强卖”、“必须搭售保险”、“不交押金就不让走”等不同的说法。由于口语化要素缺少较为明显的表述规则，是以很难通过简单的关键字匹配方式来检索。

近年来，学者们先后提出了许多基于神经网络的命名实体识别方法，主要思路是使用卷积神经网络(Convolutional Neural Network，CNN)、循环神经网络(RecurrentNeural Network，RNN)等结构提取序列隐含特征，之后利用条件随机场(ConditionalRandom Field，CRF)求解最优序列。

虽然相比基于统计学的方法，如隐马尔可夫模型(Hidden Markov Model， MM)、最大熵模型(Maximum Entropy Model，MEM)等来说，基于神经网络的命名实体识别算法，可以通过大量文本学习相关的语言特征，自动化地构建实体信息抽取框架，从而提取出特定的要素，但是仍然存在特征抽取能力不足、识别率不够的问题。

发明内容

本发明的目的是提供一种口语化要素识别方法及装置、警情分析系统，有效解决现有技术对口语化要素识别率不高的技术问题。

本发明提供的技术方案如下：

一种口语化要素识别方法，包括：

获取待识别文本，并将文本中的字符进行映射得到字符向量；

使用预训练的循环神经网络对所述待识别文本进行特征抽取获取字符向量的上下文编码信息，生成语义编码向量；

对所述字符向量和语义编码向量进行融合编码；

使用条件随机场对融合后的向量进行类别判断并输出，实现对待识别文本中的要素进行识别。

进一步优选地，在所述将文本中的字符进行映射得到字符向量中：采用跳词模型对满足预设规则的字符进行字向量编码；所述预设规则包括：字符于待识别文本中出现的频率大于预设频率。

进一步优选地，在所述使用预训练的循环神经网络对所述待识别文本进行特征抽取获取字符向量的上下文编码信息，生成语义编码向量中：使用预训练的BiLSTM模型对所述待识别文本进行特征抽取获取字符向量的上下文编码信息，生成语义编码向量。

进一步优选地，在所述将文本中的字符进行映射得到字符向量中，包括：针对所述待识别文本中各汉字的潜在语义，得到每个汉字对应的多个字符向量；

在对所述字符向量和语义编码向量进行融合编码中，包括：从每个汉字对应的多个字符向量中选定一字符向量实现字符向量和语义编码向量的融合编码。

进一步优选地，在对所述字符向量和语义编码向量进行融合编码中，将待识别文本上下文中词语的表征为：

其中，y_j＝{c₁,c₂,...,c_N}表示第j个目标词向量，w_j表示第j个词向量，N_j为第j个词语w_j中汉字的数量，c_k表示第k个汉字被选定的字符向量；

在获取目标词y_j的过程中，第k个汉字对应的字符向量

被选择次数的最大值

为：

其中，r_k表示为第k个汉字对应的字符向量

被选择次数的最大值，S(·)表示余弦相似度函数；v_context表示最后得到的词向量，

表示汉字u中曾被选择次数最多的字符向量，t表示中间变量。

本发明还提供了一种口语化要素识别装置，包括：

字向量嵌入单元，用于获取待识别文本，并将文本中的字符进行映射得到字符向量；

语义编码单元，用于使用预训练的循环神经网络对所述字向量嵌入单元获取的待识别文本进行特征抽取获取字符向量的上下文编码信息，生成语义编码向量；

融合编码单元，用于对所述字向量嵌入单元生成的字符向量和语义编码单元生成的语义编码向量进行融合编码；

类别标注单元，用于使用条件随机场对所述融合编码单元融合后的向量进行类别判断并输出，实现对待识别文本中的要素进行识别。

进一步优选地，在所述字向量嵌入单元中，采用跳词模型对满足预设规则的字符进行字向量编码；所述预设规则包括：字符于待识别文本中出现的频率大于预设频率；和/或，

在所述语义编码单元中，使用预训练的BiLSTM模型对所述待识别文本进行特征抽取获取字符向量的上下文编码信息，生成语义编码向量；和/或

在所述字向量嵌入单元中，针对所述待识别文本中各汉字的潜在语义，得到每个汉字对应的多个字符向量；

在所述融合编码单元中，从每个汉字对应的多个字符向量中选定一字符向量实现字符向量和语义编码向量的融合编码。

进一步优选地，当所述融合编码单元用于从每个汉字对应的多个字符向量中选定一字符向量实现字符向量和语义编码向量的融合编码，在所述融合编码单元中将待识别文本上下文中词语的表征为：

在获取目标词y_j的过程中，第k个汉字对应的字符向量

被选择次数的最大值

为：

其中，r_k表示为第k个汉字对应的字符向量

本发明提供了一种警情分析系统，包括：

数据接入模块，用于录入待识别的警情文本；

数据处理模块，用于对所述数据接入模块录入的警情文本进行警情统计分析，使用上述口语化要素识别装置对警情文本进行要素抽取及警情案由分类；抽取的要素包括：时间要素、地点要素、人名要素及诈骗手段；

入库判断模块，用于根据所述数据处理模块抽取的要素判断是否将相应的警情文本入库；

后台处理模块，用于对入库的警情文本进行检索、查询及展示。

本发明还提供了一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器运行所述计算机程序时实现上述口语化要素识别方法的步骤。

本发明还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述口语化要素识别方法的步骤。

本发明提供的口语化要素识别方法及装置、警情分析系统，采用基于字向量的BiLSTM提取序列隐含特征，相比传统的CNN、RNN等网络结构，该模型具有更强的上下文双向特征抽取能力，模型的总体命名实体识别准确度达 90.84％，以该模型为基础构建的警情分析系统，通过大量警情文本学习相关的语言特征，自动化地构建实体信息抽取框架实现特定警情要素的提取，在口语化要素标准化、接处警文本要素检查、保证接处警文本质量等方面均取得了较好的使用效果。

附图说明

下面将以明确易懂的方式，结合附图说明优选实施例，对上述特性、技术特征、优点及其实现方式予以进一步说明。

图1为现有技术中要素抽取模型图；

图2为本发明中口语化要素识别方法一实施例流程示意图；

图3为本发明中CRF的解码过程示意图；

图4为本发明中口语化要素识别装置一实施例流程示意图；

图5为本发明一实例中建立的口语化要素识别模型结构图；

图6为本发明中警情分析系统结构示意图；

图7为本发明中终端设备结构示意图。

附图标号说明：

100-口语化要素识别装置，110-字向量嵌入单元，120-语义编码单元，130- 融合编码单元，140-类别标注单元。

具体实施方式

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对照附图说明本发明的具体实施例。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图，并获得其他的实施例。

要素抽取是自然语言处理领域(NLP)的一项基础内容，也是搜索引擎、自动问答、知识图谱等技术的核心。其核心内容是找出一套可有效识别并抽取文本中人名、地名、时间等实体要素的算法。要素抽取可以看成是一个序列标注问题，严格的序列标注问题可以采用式(1)的形式进行定义：

f:X(x₁,x₂,...,x_n)→Y(c₁,c₂,...,c_m) (1)

其中，X(x₁,x₂,...,x_n)表示输入序列，每个元素对应文本中的一个字符；Y(c₁,c₂,...,c_m)表示输出序列，里面的元素表示对应字符所属的实体要素类别，也就是说，序列标注是一种求解输入序列中每个元素所属类别的算法。素抽取模型如图1所示。

针对现有技术中，口语化要素识别存在的特征抽取能量不足、识别率不高等技术问题，本发明提供了一种全新的口语化要素识别方法。如图2所示，在一种实施例中，该口语化要素识别方法中包括：

S10获取待识别文本，并将文本中的字符进行映射得到字符向量；

S20使用预训练的循环神经网络对待识别文本进行特征抽取获取字符向量的上下文编码信息，生成语义编码向量；

S30对字符向量和语义编码向量进行融合编码；

S40使用条件随机场对融合后的向量进行类别判断并输出，实现对待识别文本中的要素进行识别。

在本实施例中，待识别文本为需要识别要素的文本，这里特指包含口语化要素的文本，如接处警文本、公检法一线员工的询问笔录等。需要识别的要素由待识别文本的类型确定，如，对于接处警文本发明本来说，需要识别的口语化要素包括：时间要素、地点要素、人名要素及诈骗手段四类。

在自然语言处理中，通常将一个句子看成是一系列词语按某种规律的排列组合，因此可以用Jelinek提出的语言模型(Language Model，LM)来描述自然语言序列中字词的概率分布，如式(2)：

P(x₁,...,x_n)＝P(x₁)P(x₂|x₁)...P(x_n|x₁,...,x_n-1) (2)

其中，P(x₁)表示元素x₁出现的概率，P(x₂|x₁)表示元素x₁出现的情况下元素x₂出现的概率，P(x_n|x₁,...,x_n-1)表示元素x₁,...,x_n-1出现的情况下元素x_n出现的概率。

与英文不同，中文由于自身具有“单字成词”的特点，所以通常会对中文先进行分词处理，但是分词产生的误差会在下游序列标注等任务中进一步传递，从而限制了模型的整体性能。针对口语化要素识别，分词带来的误差要大得多，因此本实施例中采用基于字符的词嵌入方法得到待识别文本中各字符对应的字符向量。

考虑到字向量会缺失许多“词义信息”，因此在步骤S10之后，根据得到的字符向量使用预训练的循环神经网络对其上下文信息进行编码，生成的语义编码向量可以看成是每个字或词的预测特征向量，相比字符向量，包含更丰富的上下文语义信息，解码后可得到每个字符对应的预测标签。

为了减少字符级信息的丢失，进一步采用了字词融合编码的方法将预训练字符向量和语义编码向量相结合，既保留了单独的字信息，又补充了上下文相关信息，使得模型具有更强的表征能力。最后使用条件随机场对融合后的向量进行类别判断并输出，实现对待识别文本中的要素进行识别。

条件随机场(CRF)是一种根据输入序列预测输出序列的判别式模型，擅长标记和切分序列化数据。该模型可以根据给定观察序列，来计算整个标记序列的联合概率，对于序列标记任务中非独立的、相互作用的特征，CRF可以通过赋予特征不同权值来表示特征的重要程度。

例如序列标记中常使用BIO体系来标记实体，其中B表示实体开头，I表示实体开头之后的部分，O表示无关字符。传统的分类器无法考虑这些标签之间内在联系的，往往需要编码层去学习标签的上下文关联，而CRF则可以单独考虑输出层标签之间的关系，因此更适合做序列标注任务。

对于长度为n，实体为k的序列，CRF将该序列标注任务看成从kⁿ条路径选出正确的一条，其对应着一个kⁿ的分类问题。而传统的分类器则是将序列标注看成是n个k分类问题。CRF的解码过程如图3所示。

对上述实施例进行改进得到本实施例，在本实施例中，在步骤S10将文本中的字符进行映射得到字符向量中：采用跳词模型对满足预设规则的字符进行字向量编码；预设规则包括：字符于待识别文本中出现的频率大于预设频率。

在本实施例中，字符向量嵌入(Char Embedding)的作用主要是将字符向量化。目前工业届常用负采样进行词向量编码，主要解决训练样本中的核心词为生僻词时，霍夫曼树及其复杂，训练起来过于费时的问题。在训练词向量中，当中心词与上下文相关存在时，称该词为正例；当中心词与上下文无关时，称该词为负例。通过负采样，可以得到多个不同的中心词。之后利用二元逻辑回归算法求解负采样中每个词对应的模型参数，最后得到每个词对应的词向量。

词嵌入一般有两种实现方法，分别叫跳词模型(Skip-Gram)和连续词袋模型(Continue-Bag-of-Word)。其中，CBoW模型的输入一般是某个特定词的上下文词语对应的词向量，输出为该特定词的词向量；Skip-Gram模型的输入是某个特定词，而输出为这个特定词上下文词语对应的词向量。本实施例中采用Skip-Gram的方式进行字向量编码，字符向量使用[-1,1]范围内的均匀分布进行随机初始化。另外，预训练时不考虑字符频率低于预设频率(如，5、8甚至更大)的字符，对于这些低频词或者未出现的词语，随机分配一个范围在[-1,1] 中的均匀分布的随机初始化向量。

对上述实施例进行改进得到本实施例，在本实施例中，在步骤S20使用预训练的循环神经网络对待识别文本进行特征抽取获取字符向量的上下文编码信息，生成语义编码向量中：使用预训练的BiLSTM模型对待识别文本进行特征抽取获取字符向量的上下文编码信息，生成语义编码向量。

BiLSTM是由两层LSTM模型正反叠加得到的，LSTM是一种加入记忆单元(memorycell)的循环神经网络，其自带时序特征，且可以通过记忆单元来控制历史信息的传递量，因此适合用于抽取具有上下文依赖性的序列特征。本实施例采用该网络结构作为待识别文本的特征抽取器，以获取字符向量的上下文编码信息。

在LSTM中，记忆单元一般用c表示，其由三个其他的门控单元控制，分别称作输入门i(input gate)、遗忘门f(forget gate)和输出门o(output gate)，每一个门控单元均以前一时刻t-1的隐藏单元h^(t-1)和当前时刻t输入信号x^(t)为输入。门控单元常利用sigmoid函数进行非线性激活，更新方式如式(3)～(5)：

i^(t)＝σ(W_ixx^(t)+W_ihh^(t-1)+b_i) (3)

f^(t)＝σ(W_fxx^(t)+W_fhh^(t-1)+b_f) (4)

o^(t)＝σ(W_oxx^(t)+W_ohh^(t-1)+b_o) (5)

其中，σ(·)表示sigmoid函数，W_ix和W_ih表示输入门i^(t)的权值矩阵，W_fx和 W_fh表示遗忘门f^(t)的权值矩阵，W_ox和W_oh表示输出门o^(t)的权值矩阵，b_i、b_f和b_o分别表示输入门i^(t)、遗忘门f^(t)和输出门o^(t)的偏置量。

c^(t)为LSTM中的记忆信息。由两部分组成，分别为遗忘门f^(t)控制的历史信息与输入门i^(t)控制的当前信息。更新方式如式(6)：

c^(t)＝f^(t)*c^(t-1)+i^(t)*δ(W_cxx^(t)+W_chh^(t-1)+b_c) (6)

其中，c^(t-1)表示前一时刻t-1的记忆信息，W_cx和W_ch表示记忆信息的权值矩阵，b_c表示记忆信息的偏置量，δ(·)表示tanh函数。

隐藏单元h^(t)的更新由输出门o^(t)和记忆信息c^(t)决定，更新方式如式(7)：

h^(t)＝o^(t)*δ(c^(t)) (7)

对上述实施例进行改进得到本实施例，在步骤S30对字符向量和语义编码向量进行融合编码中，将待识别文本上下文中词语的表征为式(8)：

其中，y_j＝{c₁,c₂,...,c_N}表示第j个目标词向量，w_j表示第j个词向量，N_j为第j个词语w_j中汉字的数量，c_k表示第k个汉字被选定的字符向量。

在获取目标词y_j的过程中，第k个汉字对应的字符向量

被选择次数的最大值

为式(9)：

其中，r_k表示为第k个汉字对应的字符向量

在上述过程中，针对每个汉字提前分配多个字符向量(为每个汉字分配的字符向量的数量，为模型的一个超参数，代表了潜在定义的每个汉字对应的语义模式)，避免由于同一个汉字在不同词语中可能具有完全不同的语义，造成使用一个字符向量进行表征时，因无法标识出差异性。相较于现有通过式(10) 对上下文中词语进行表征的方法来说，本实施例中的方法明显提升了融合效果。

其中，

表示拼接和相加两种操作方式。

在一实例中，在短语“智能时代到来”中，根据上下文对词语“时代”进行表征过程中，分别针对词语“智能”中的汉字“智”和“能”分配3个字符向量，针对词语“到来”中的汉字“到”和“来”分配3个字符向量，之后由式(9)的方法从分配的3个字符向量中分别选定汉字“智”、“能”、“到”和“来”合适的字符向量，进而最终由式(7)的方法对词语“时代”进行表征。

在本实施例中，采用上述方法完成对待识别文本中字符向量和语义编码向量的融合编码，实现共享汉字词语之间相互产生联系(在词向量训练时，将组成词语的汉字单独抽取出来和词语一起进行训练)的同时将没有语义构成性质的词语挑选出来，且针对这些词不做单个汉字的拆分(单个汉字的意思可能和本来词语要表达的意思相差甚远)，如一些翻译过来的词语“巧克力”、“沙发”等，又如实体名称、人名、地名、国家名等，提高识别效率。

本发明还提供了一种口语化要素识别装置100，在一实例中，如图4所示，包括：字向量嵌入单元110，用于获取待识别文本，并将文本中的字符进行映射得到字符向量；语义编码单元120，用于使用预训练的循环神经网络对字向量嵌入单元110获取的待识别文本进行特征抽取获取字符向量的上下文编码信息，生成语义编码向量；融合编码单元130，用于对字向量嵌入单元110生成的字符向量和语义编码单元120生成的语义编码向量进行融合编码；类别标注单元140，用于使用条件随机场对融合编码单元130融合后的向量进行类别判断并输出，实现对待识别文本中的要素进行识别。

在本实施例中，针对口语化要素识别采用基于字符的词嵌入方法得到待识别文本中各字符对应的字符向量。考虑到字向量会缺失许多“词义信息”，因此在语义编码单元120之后，根据得到的字符向量使用预训练的循环神经网络对其上下文信息进行编码，生成的语义编码向量可以看成是每个字或词的预测特征向量，相比字符向量，包含更丰富的上下文语义信息，解码后可得到每个字符对应的预测标签。

为了减少字符级信息的丢失，融合编码单元130中进一步采用了字词融合编码的方法将预训练字符向量和语义编码向量相结合，既保留了单独的字信息，又补充了上下文相关信息，使得模型具有更强的表征能力。最后类别标注单元 140使用条件随机场对融合后的向量进行类别判断并输出，实现对待识别文本中的要素进行识别。

对上述实施例进行改进得到本实施例，在本实施例中，字向量嵌入单元110 采用跳词模型对满足预设规则的字符进行字向量编码；预设规则包括：字符于待识别文本中出现的频率大于预设频率。

在本实施例中，字符向量嵌入(Char Embedding)的作用主要是将字符向量化。词嵌入一般有两种实现方法，分别叫跳词模型(Skip-Gram)和连续词袋模型(Continue-Bag-of-Word)。其中，CBoW模型的输入一般是某个特定词的上下文词语对应的词向量，输出为该特定词的词向量；Skip-Gram模型的输入是某个特定词，而输出为这个特定词上下文词语对应的词向量。这里采用 Skip-Gram的方式进行字向量编码，字符向量使用[-1,1]范围内的均匀分布进行随机初始化。另外，预训练时不考虑字符频率低于预设频率(如，5、8甚至更大)的字符，对于这些低频词或者未出现的词语，随机分配一个范围在[-1,1] 中的均匀分布的随机初始化向量。

对上述实施例进行改进得到本实施例，在本实施例中，语义编码单元120 使用预训练的BiLSTM模型对待识别文本进行特征抽取获取字符向量的上下文编码信息，生成语义编码向量。

在融合编码单元130中，将待识别文本上下文中词语的表征为式(8)。具体，在获取目标词y_j的过程中，针对每个汉字选取合适的字符向量的过程为：第k个汉字对应的字符向量

被选择次数的最大值

为式(9)。

在融合编码中，针对每个汉字提前分配多个字符向量(为每个汉字分配的字符向量的数量，为模型的一个超参数，代表了潜在定义的每个汉字对应的语义模式)，避免由于同一个汉字在不同词语中可能具有完全不同的语义，造成使用一个字符向量进行表征时，因无法标识出差异性。相较于现有通过式(10) 对上下文中词语进行表征的方法来说，本实施例中的方法明显提升了融合效果。

在一实例中，使用某市与诈骗案件有关的接处警文本作为待识别文本，需要识别的口语化要素包括时间要素、地点要素、人名要素以及诈骗手段这四类，实验数据的语料库详细见表1。

表1：语料库详情

案件/条	字数/个	时间/个	地点/个	人名/个	诈骗手段/个
						1100	132102	1013	2039	2316	416

由于语料库中长度在140～230之间的文本占各类文本的95.27％，93.16％，因此训练时将每次输入数据的长度固定为256，长度不足的部分用占位符 <Padding>代替。

警情语料采用BIO的字标注方式，每个字符都标注相应的实体标签，预先统计所有出现的字符，并为其编号，构建字符对照表。经统计，在本实例中，诈骗案件的字符对照表大小为2071。

建立包括字向量嵌入层(对应图中嵌入层)、基于BiLSTM的语义编码层 (对应图中编码层)和条件随机场层(对应图中CRF层)组成，且包含一个字词融合编码的结构的模型，如图5所示。实验参数设置如表2所示。

表2：模型使用的参数设置

超参数含义	超参数设置
		文本长度	256
词表大小	2071
		字向量维度	128
字符编码层节点数	64
		语义编码层节点数	64
丢弃率	0.5
		分类器大小	10
优化器	Adam
		学习率	0.001
批次大小	64
		训练轮数	100

综合考虑准确率和召回率，使用F1值作为性能指标对建立的模型进行评估。定义Tp为模型识别正确的实体字数，Fp为模型识别到的不相关实体字数，Fn为模型没有检测到的相关实体字数，则根据式(11)～(13)对F1值进行计算：

其中，P表示准确率，R表示召回率。

模型(Char-BiLSTM-CRF)在测试集上的总体性能详见表3。

表3：模型在测试集上的总体性能指标

	准确度	召回率	F1值
				Char-BiLSTM-CRF	0.9257	0.9368	0.9312

针对四类不同实体的性能指标详见表4。

表4：测试集上各类实体要素的识别结果

	准确度	召回率	F1	数目/字
					时间要素	0.9924	0.9283	0.9593	1409
地点要素	0.8571	0.8912	0.8738	956
					人名要素	0.9028	0.9028	0.9028	288
诈骗手段	0.8075	0.8523	0.8293	610

从表4可知，Char-BiLSTM-CRF模型对时间要素、地点要素、人名要素及诈骗手段这四类实体具有较高的识别率，F1值也基本达到可以实用的水平。由此可见，本发明提供的模型能够解决现有技术中口语化要素描述方式多样带来的要素检索困难的问题。

基于此，本发明还提供了一种警情分析系统，如图6所示，包括：数据接入模块，用于录入待识别的警情文本；数据处理模块，用于对数据接入模块录入的警情文本进行警情统计分析，使用上述口语化要素识别装置对警情文本进行要素抽取及警情案由分类；抽取的要素包括：时间要素、地点要素、人名要素及诈骗手段；入库判断模块(对应图示中的审核入库)，用于根据数据处理模块抽取的要素判断是否将相应的警情文本入库；后台处理模块，用于对入库的警情文本进行检索、查询及展示。

在该警情分析系统中，数据接入模块的主要功能包括警情文本录入、警情文本分工核查等；输出处理模块包含警情统计分析、警情文本要素抽取、警情案由分类等功能；后台处理模块主要基于数据库实现，包括对警情文本的增、删、改、查等一系列功能。入库判断模块根据预设判定规则判断是否要将警情文本进行入库，预设判定规则可以根据实际需求进行设定，如，设定为四类要素齐全才能入库等。

系统的核心部分是数据处理模块，除警情统计分析之外，警情文本要素抽取、警情案由分类均使用了要素识别算法。其工作流程如下：

以诈骗案件为例，接处警人员将案件信息录入系统之后，此时系统会对当前文本进行一次扫描，并利用数据处理模块中的要素抽取功能获取当前警情文本的时间要素、地点要素、人名要素及诈骗手段这四类要素，并在界面上对相应字段做高亮处理。对于每一则文本，都会根据处理结果检查时间、地点、人名及手段这四类要素是否齐全，接处警人员或者审核人员可以根据文本要素是否齐全决定这则文本是否入库，从而保证入库的接处警文本均具有较高的质量。

一实例中，警情文本为，2020年01月01日09时15分，胡**报称：2019 年12月30日10时许，在家接到一个自称***旗舰店售后的工作人员的电话，对方以报警人2010年11月份在***旗舰店购买的鞋子有问题要退款理赔为由，通过扫码，微信转账被骗总计10445元。经过模型要素识别后，在界面上对相应字段做高亮处理，其中，时间要素包括：2020年01月01日09时15分、2019 年12月30日10时许、2010年11月份；地点要素包括：***旗舰店；人名要素包括：胡**；诈骗手段包括：在***旗舰店购买的鞋子有问题要退款理赔。

可以看出，系统可以根据当前的警情文本，自动的检查要素是否完整，尤其是作案手段这一项，并将这项内容的检查结果及时反馈给相关人员。

针对接处警场景中包含的大量口语化描述的文本，使用关键词匹配的方式很难直接从中获取有效信息，警情分析系统使用的神经网络可以从警情文本中学习口语化要素表达方式，能够较为灵活地从警情文本中提取要素。

在其他实施例中，识别出的地点要素还可以通过现有的地图接口进行归一化处理，即将不同描述方式的警情文本统一成标准表达方式，便于于案件区域排查、自动GIS标注等方面进行应用，均具有较高的实用价值。

在实际应用中，在对警情文本进行要素识别之前还包括文本分类的步骤，具体，在单一的CNN网络、BiLSTM网络的基础上引入注意力机制(Attention) 和MLP层以改善分类效果，构成了CNN+BiLSTM+Attention+MLP的混合模型，其通过组合多种单一模型得到文本分类模型，实现更加准确的区分文本类别的同时，兼顾分类性能。

基于此，各地区110接警平台接到电话报警后，根据报案人的描述将警情按照相应规则录入到警情分析系统，并根据报警人描述判断警情类别。录入提交过程中系统会根据接警员处理内容对当前警情描述进行分类，判断接警员勾选警情类别和警情描述是否一致，若不一致则给出相应建议提示接警员。警情提交后系统会对该条警情进行案件要素识别，针对不同的案件类型选择不同的识别模型，识别完成后填写到对应数据库中，最终成为分析各地区警务发生情况的重要参数。此外通过对大类警情文本的细分，重复完成上述操作，可以得到更多警情要素，为公安机关后续串并联侦破案件提供更加科学的材料支撑。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各程序模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的程序模块完成，即将装置的内部结构划分成不同的程序单元或模块，以完成以上描述的全部或者部分功能。实施例中的各程序模块可以集成在一个处理单元中，也可是各个单元单独物理存在，也可以两个或两个以上单元集成在一个处理单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件程序单元的形式实现。另外，各程序模块的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。

图7是本发明一个实施例中提供的终端设备的结构示意图，如所示，该终端设备200包括：处理器220、存储器210以及存储在存储器210中并可在处理器220上运行的计算机程序211，例如：口语化要素识别程序。处理器220 执行计算机程序211时实现上述各个口语化要素识别方法实施例中的步骤，或者，处理器220执行计算机程序211时实现上述各口语化要素识别装置实施例中各模块的功能。

终端设备200可以为笔记本、掌上电脑、平板型计算机、手机等设备。终端设备200可包括，但不仅限于处理器220、存储器210。本领域技术人员可以理解，图7仅仅是终端设备200的示例，并不构成对终端设备200的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如：终端设备200还可以包括输入输出设备、显示设备、网络接入设备、总线等。

处理器220可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列 (Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器220可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器210可以是终端设备200的内部存储单元，例如：终端设备200的硬盘或内存。存储器210也可以是终端设备200的外部存储设备，例如：终端设备200上配备的插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。进一步地，存储器210还可以既包括终端设备200的内部存储单元也包括外部存储设备。存储器210用于存储计算机程序211以及终端设备200所需要的其他程序和数据。存储器210 还可以用于暂时地存储已经输出或者将要输出的数据。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详细描述或记载的部分，可以参见其他实施例的相关描述。

本领域普通技术人员可以意识到，结合本发明中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本发明所提供的实施例中，应该理解到，所揭露终端设备和方法，可以通过其他的方式实现。例如，以上所描述的终端设备实施例仅仅是示意性的，例如，模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性、机械或其他的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可能集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序211发送指令给相关的硬件完成，计算机程序211可存储于一计算机可读存储介质中，该计算机程序211在被处理器220执行时，可实现上述各个方法实施例的步骤。其中，计算机程序211包括：计算机程序代码，计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读存储介质可以包括：能够携带计算机程序211代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，RandomAccess Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，计算机可读存储介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如：在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

应当说明的是，上述实施例均可根据需要自由组合。以上所述仅是本发明的优选实施例，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种口语化要素识别方法，其特征在于，包括：

对所述字符向量和语义编码向量进行融合编码；

2.如权利要求1所述的口语化要素识别方法，其特征在于，

在所述将文本中的字符进行映射得到字符向量中：采用跳词模型对满足预设规则的字符进行字向量编码；所述预设规则包括：字符于待识别文本中出现的频率大于预设频率；和/或，

在所述使用预训练的循环神经网络对所述待识别文本进行特征抽取获取字符向量的上下文编码信息，生成语义编码向量中：使用预训练的BiLSTM模型对所述待识别文本进行特征抽取获取字符向量的上下文编码信息，生成语义编码向量。

3.如权利要求1或2所述的口语化要素识别方法，其特征在于，在所述将文本中的字符进行映射得到字符向量中，包括：针对所述待识别文本中各汉字的潜在语义，得到每个汉字对应的多个字符向量；

4.如权利要求3所述的口语化要素识别方法，其特征在于，在对所述字符向量和语义编码向量进行融合编码中，将待识别文本上下文中词语的表征为：

在获取目标词y_j的过程中，第k个汉字对应的字符向量

被选择次数的最大值

为：

其中，r_k表示为第k个汉字对应的字符向量

5.一种口语化要素识别装置，其特征在于，包括：

6.如权利要求5所述的口语化要素识别装置，其特征在于，在所述字向量嵌入单元中，采用跳词模型对满足预设规则的字符进行字向量编码；所述预设规则包括：字符于待识别文本中出现的频率大于预设频率；和/或，

7.如权利要求6所述的口语化要素识别方法，其特征在于，当所述融合编码单元用于从每个汉字对应的多个字符向量中选定一字符向量实现字符向量和语义编码向量的融合编码，在所述融合编码单元中将待识别文本上下文中词语的表征为：

在获取目标词y_j的过程中，第k个汉字对应的字符向量

被选择次数的最大值

为：

其中，r_k表示为第k个汉字对应的字符向量

8.一种警情分析系统，其特征在于，包括：

数据接入模块，用于录入待识别的警情文本；

数据处理模块，用于对所述数据接入模块录入的警情文本进行警情统计分析，使用如权利要求5-7任意一项所述的口语化要素识别装置对警情文本进行要素抽取及警情案由分类；抽取的要素包括：时间要素、地点要素、人名要素及诈骗手段；

9.一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器运行所述计算机程序时实现如权利要求1-4中任一项所述口语化要素识别方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-4中任一项所述口语化要素识别方法的步骤。