CN113111169A

CN113111169A - 基于深度学习模型的接处警文本地址信息提取方法和装置

Info

Publication number: CN113111169A
Application number: CN202010307013.9A
Authority: CN
Inventors: 彭涛
Original assignee: Beijing Mingyi Technology Co ltd
Current assignee: Beijing Mingyi Technology Co ltd
Priority date: 2020-02-13
Filing date: 2020-04-17
Publication date: 2021-07-13

Abstract

本公开实施例公开了基于深度学习模型的接处警文本地址信息提取方法和装置。该方法的一具体实施方式包括：获取待提取地址信息接处警文本；对上述待提取地址信息接处警文本进行切词得到相应的分词序列；对于所得到的分词序列中的每个分词，执行以下地址信息分类操作：将该分词对应的词向量输入地址信息分类模型，得到该分词是否为地址信息的分类结果，其中，上述地址信息分类模型是基于深度学习模型预先训练得到的；根据上述分词序列中相应的分类结果为用于指示是地址信息的各分词确定上述待提取地址信息接处警文本对应的地址信息集合。该实施方式实现了自动提取接处警文本中的地址信息。

Description

基于深度学习模型的接处警文本地址信息提取方法和装置

技术领域

本公开实施例涉及计算机技术领域，具体涉及基于深度学习模型的接处警文本地址信息提取方法和装置。

背景技术

目前，公安机关的110接警员在接警时会录入接警文本。处警员在处警结束后会录入处警文本。接处警文本即包括上述接警文本和处警文本。实践中，大量接处警文本中会涉及关于地址信息的描述。例如，可能会涉及轨迹地地址、居住地地址、户籍地地址或者案情发生地地址等地址信息。案情分析员可以根据接处警文本中的地址信息，对历史案情所涉及的各种不同类型地址进行统计分析，或者也可根据历史接处警文本中的地址信息对未来案情进行预警。因此，提取接处警文本中的地址信息是非常重要的。目前，大都采用人工提取接处警文本中的地址信息，然而凭人工提取接处警文本中的地址信息的人工成本太高且依赖于个人经验。

发明内容

本公开实施例提出了基于深度学习模型的接处警文本地址信息提取方法和装置。

第一方面，本公开实施例提供了一种基于深度学习模型的接处警文本地址信息提取方法，该方法包括：获取待提取地址信息接处警文本；对上述待提取地址信息接处警文本进行切词得到相应的分词序列；对于所得到的分词序列中的每个分词，执行以下地址信息分类操作：将该分词对应的词向量输入地址信息分类模型，得到该分词是否为地址信息的分类结果，其中，上述地址信息分类模型是基于深度学习模型预先训练得到的；根据上述分词序列中相应的分类结果为用于指示是地址信息的各分词确定上述待提取地址信息接处警文本对应的地址信息集合。

在一些实施例中，上述基于深度学习模型的地址信息分类模型是通过如下训练步骤预先训练得到的：获取训练样本集合，其中，训练样本包括对历史接处警文本进行切词所得到的分词序列以及与该分词序列对应的标注信息序列，其中，标注信息用于指示分词序列中相应分词是否为地址信息；将上述训练样本集合中相应分词序列包括地址信息分词的各训练样本确定为正样本集合，其中，地址信息分词为分词序列中相应的标注信息指示该分词为地址信息的分词；根据上述正样本集合中每个正样本的分词序列所包括的各地址信息分词，确定该正样本的文本特征向量；以上述正样本集合中正样本的文本特征向量作为输入，以用于指示是地址信息的分类结果作为相应期望输出，训练初始深度学习模型，得到上述地址信息分类模型。

在一些实施例中，上述训练步骤还包括：将预设负样本特征向量输入上述地址信息分类模型得到相应实际输出结果；根据所得到的实际输出结果和用于指示不是地址信息的分类结果之间的差异调整上述地址信息分类模型的模型参数。

在一些实施例中，上述根据上述正样本集合中每个正样本的分词序列所包括的各地址信息分词，确定该正样本的文本特征向量，包括：对于上述正样本集合中的每个正样本，执行以下向量生成及赋值操作：生成与该正样本对应的文本特征向量，其中，所生成的文本特征向量中的各分量分别与预设词典中的各词语一一对应；对于该正样本的分词序列中的每个地址信息分词，将所生成的文本特征向量中与该地址信息分词对应的分量设置为该地址信息分词的词频-逆文本频率指数TF-IDF；以及将所生成的文本特征向量中的各未赋值分量设置为预设数值，未赋值分量为属于上述预设词典但不属于该正样本的分词序列中的各地址信息分词的词语对应的分量。

第二方面，本公开实施例提供了一种基于深度学习模型的接处警文本地址信息提取装置，该装置包括：获取单元，被配置成获取待提取地址信息接处警文本；切词单元，被配置成对上述待提取地址信息接处警文本进行切词得到相应的分词序列；分类单元，被配置成对于所得到的分词序列中的每个分词，执行以下地址信息分类操作：将该分词对应的词向量输入地址信息分类模型，得到该分词是否为地址信息的分类结果，其中，上述地址信息分类模型是基于深度学习模型预先训练得到的；确定单元，被配置成根据上述分词序列中相应的分类结果为用于指示是地址信息的各分词确定上述待提取地址信息接处警文本对应的地址信息集合。

第三方面，本公开实施例提供了一种电子设备，包括：一个或多个处理器；存储装置，其上存储有一个或多个程序，当上述一个或多个程序被上述一个或多个处理器执行时，使得上述一个或多个处理器实现如第一方面中任一实现方式描述的方法。

第四方面，本公开实施例提供了一种计算机可读存储介质，其上存储有计算机程序，其中，该计算机程序被一个或多个处理器执行时实现如第一方面中任一实现方式描述的方法。

现有技术中一般是通过人工提取接处警文本中的地址信息，可能存在以下问题：(1)历史遗留有大量未曾被提取地址信息的接处警文本，以及随着时间的推移接警处警员每天都会录入新的大量接处警文本，导致接处警文本待提取地址信息的数据体量太大，人工提取所需的人力和时间成本太高；(2)接处警文本大多采用自然语言描述、表达方式严重口语化且无规则，人工提取地址信息难度较高；(3)地址信息项目种类较多，不同项目不同种类的地址信息提取方式不同，依赖于人工经验，即人工提取过程中学习成本较高。

本公开的实施例提供的基于深度学习模型的接处警文本地址信息提取方法和装置，通过将待提取地址信息接处警文本进行切词得到相应的分词序列，再对于所得到的分词序列中的每个分词，将该分词对应的词向量输入预先训练得到的地址信息分类模型，以提取待提取地址信息接处警文本中的地址信息。从而有效利用了地址信息分类模型，实现了对接处警文本自动提取地址信息，无需人工操作，降低了对接处警文本进行地址信息提取的成本，提高了对接处警文本进行地址信息提取的提取速度。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本公开的其它特征、目的和优点将会变得更明显：

图1是本公开的一个实施例可以应用于其中的示例性系统架构图；

图2是根据本公开的基于深度学习模型的接处警文本地址信息提取方法的一个实施例的流程图；

图3是根据本公开的训练步骤的一个实施例的流程图；

图4是根据本公开的基于深度学习模型的接处警文本地址信息提取装置的一个实施例的结构示意图；

图5是适于用来实现本公开实施例的电子设备的计算机系统的结构示意图。

具体实施方式

下面结合附图和实施例对本公开作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本公开中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本公开。

图1示出了可以应用本公开的基于深度学习模型的接处警文本地址信息提取方法或基于深度学习模型的接处警文本地址信息提取装置的实施例的示例性系统架构100。

如图1所示，系统架构100可以包括终端设备101、网络102和服务器103。网络102用以在终端设备101和服务器103之间提供通信链路的介质。网络102可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101通过网络102与服务器103交互，以接收或发送消息等。终端设备101上可以安装有各种通讯客户端应用，例如接处警记录类应用、接处警文本地址信息提取类应用、网页浏览器应用等。

终端设备101可以是硬件，也可以是软件。当终端设备101为硬件时，可以是具有显示屏并且支持文本输入的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。当终端设备101为软件时，可以安装在上述所列举的电子设备中。其可以实现成多个软件或软件模块(例如用来提供接处警文本地址信息提取服务)，也可以实现成单个软件或软件模块。在此不做具体限定。

服务器103可以是提供各种服务的服务器，例如对终端设备101发送的接处警文本提供地址信息提取的后台服务器。后台服务器可以对接收到的接处警文本进行分析等处理，并将处理结果(例如地址信息)反馈给终端设备。

在一些情况下，本公开实施例所提供的基于深度学习模型的接处警文本地址信息提取方法可以由终端设备101和服务器103共同执行，例如，“获取待提取地址信息接处警文本”的步骤可以由终端设备101执行，其余步骤可以由服务器103执行。本公开对此不做限定。相应地，基于深度学习模型的接处警文本地址信息提取装置也可以分别设置于终端设备101和服务器103中。

在一些情况下，本公开实施例所提供的基于深度学习模型的接处警文本地址信息提取方法可以由服务器103执行，相应地，基于深度学习模型的接处警文本地址信息提取装置也可以设置于服务器103中，这时，系统架构100也可以不包括终端设备101。

在一些情况下，本公开实施例所提供的基于深度学习模型的接处警文本地址信息提取方法可以由终端设备101执行，相应地，基于深度学习模型的接处警文本地址信息提取装置也可以设置于终端设备101中，这时，系统架构100也可以不包括服务器103。

需要说明的是，服务器103可以是硬件，也可以是软件。当服务器103为硬件时，可以实现成多个服务器组成的分布式服务器集群，也可以实现成单个服务器。当服务器103为软件时，可以实现成多个软件或软件模块(例如用来提供接处警文本地址信息提取服务)，也可以实现成单个软件或软件模块。在此不做具体限定。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

继续参考图2，其示出了根据本公开的基于深度学习模型的接处警文本地址信息提取方法的一个实施例的流程200。该基于深度学习模型的接处警文本地址信息提取方法，包括以下步骤：

步骤201，获取待提取地址信息接处警文本。

在本实施例中，基于深度学习模型的接处警文本地址信息提取方法的执行主体(例如，图1所示的服务器)可以获取本地存储的待提取地址信息接处警文本，或者上述执行主体也可以远程地从与上述执行主体网络连接的其他电子设备(例如，图1所示的终端设备)获取待提取地址信息接处警文本。

这里，待提取地址信息接处警文本可以是接警员根据接警电话的内容整理的文本数据或者处警员根据处警过程整理的文本数据。待提取地址信息接处警文本也可以是从终端设备接收的用户在终端设备上安装的报警类应用或者具备报警功能的网页中输入的报警文本。

步骤202，对待提取地址信息接处警文本进行切词得到相应的分词序列。

在本实施例中，上述执行主体可以采用各种实现方式对待提取地址信息接处警文本进行切词得到相应的分词序列。需要说明的是，如何对文本进行切词是本领域广泛研究和应用的现有技术，在此不再赘述。例如，可以采用基于字符串匹配的分词方法、基于理解的分词方法或者基于统计的分词方法等等。例如，对待提取地址信息接处警文本“现籍甲省乙市丙小区的张三在丁公交车站将家住戊市己小区的李四打伤”进行切词可以得到分词序列“现/籍/甲/省/乙/市/丙/小区/的/张三/在/丁/公交/车站/将/家/住/戊/市/己/小区/的/李四/打伤”。

步骤203，对于所得到的分词序列中的每个分词执行地址信息分类操作。

在本实施例中，上述执行主体可以对于步骤202中所得到的分词序列中的每个分词执行地址信息分类操作。这里，地址信息分类操作，即将该分词对应的词向量输入地址信息分类模型，得到该分词是否为地址信息的分类结果。

这里，地址信息分类模型是基于深度学习模型预先训练得到的。

在本实施例中，上述执行主体可以首先采用各种实现方式确定该分词对应的词向量。

在一些可选的实现方式中，该分词对应的词向量可以包括N维分量，其中，N为正整数，且上述N维分量中的各维分量分别与预设词典的各词语一一对应。在确定该分词对应的词向量的过程中，可以将该分词的词向量的各分量中与该分词对应的分量设置为第一预设数值(例如，1)；将该分词对应的词向量的其他分量(即，与预设词典中不同于该分词的词语对应的分量)设置为第二预设数值(例如，0)。

在一些可选的实现方式中，该分词对应的词向量可以包括N维分量，其中，N为正整数，且上述N维分量中的各维分量分别与预设词典的各词语一一对应。在确定该分词对应的词向量的过程中，上述执行主体也可以首先计算该分词在待提取地址信息接处警文本的词频-逆文本频率指数(TF-IDF，Term Frequency–Inverse Document Frequency)，再将该分词对应的词向量中与该分词对应的分量设置为计算得到的该分词的词频-逆文本频率指数，最后再将该分词对应的词向量的其他分量(即，与预设词典中不同于该分词的词语对应的分量)设置为第三预设数值(例如，0)。

然后，上述执行主体可以将该分词对应的词向量输入地址信息分类模型，得到该分词是否为地址信息的分类结果。

例如，对待提取地址信息接处警文本“现籍甲省乙市丙小区的张三在丁公交车站将家住戊市己小区的李四打伤”相应的分词序列“现/籍/甲/省/乙/市/丙/小区/的/张三/在/丁/公交/车站/将/家/住/戊/市/己/小区/的/李四/打伤”中的每个分词，将该分词对应的词向量输入预先训练的地址信息分类模型，得到该分词是否为地址信息的分类结果。具体结果请参考表1，表1示出了上述分词序列中各个分词分别输入上述地址信息分类模型所得到的分类结果。

表1

步骤204，根据分词序列中相应的分类结果用于指示是地址信息的各分词确定待提取地址信息接处警文本对应的地址信息集合。

这里，在步骤203中，将分词序列中的某分词输入地址信息分类模型，得到用于指示该分词是否地址信息的分类结果，如果得到的是用于指示是地址信息的分类结果，那么该分词就是地址信息分词。在步骤204中，上述执行主体可以采用各种实现方式根据分词序列中的各地址信息分词确定待提取地址信息接处警文本对应的地址信息集合。

在一些可选的实现方式中，上述执行主体可以将分词序列中每个地址信息分词分别确定为地址信息集合中的地址信息。这种实现方式更适合于切词得到的分词序列中各分词本身是一个相对完整的地址信息。

在一些可选的实现方式中，上述执行主体也可以将分词序列中直接相邻的各地址信息分词合并成一个地址信息，并将所得到的各地址信息作为地址信息集合中的地址信息。这种实现方式更适合于切词得到的分词序列中各分词相对较短不能形成一个完整的地址信息。继续沿用上面关于待提取地址信息接处警文本“现籍甲省乙市丙小区的张三在丁公交车站将家住戊市己小区的李四打伤”的举例可知，相应的分词序列为“现/籍/甲/省/乙/市/丙/小区/的/张三/在/丁/公交/车站/将/家/住/戊/市/己/小区/的/李四/打伤”，按照表1中的分类结果，可以得到其中包括以下地址信息分词：“甲”、“省”、“乙”、“市”、“丙”、“小区”、“丁”、“公交”、“车站”、“戊”、“市”、“己”、“小区”。为了形成更有实际意义的地址信息，我们可以按照上面各个地址信息分词在上述分词序列中的位置，将直接相邻的各地址信息分词合并成地址信息，进而得到地址信息集合中的各个地址信息。例如，这里可以得到以下地址信息集合{“甲省乙市丙小区”，“丁公交车站”，“戊市己小区”}。

需要说明的是，待提取地址信息接处警文本可能不包括任何地址信息，这时待提取地址信息接处警文本对应的地址信息集合可以为空。待提取地址信息接处警文本也可能包括至少一个任何地址信息，这时待提取地址信息接处警文本对应的地址信息集合可以包括至少一个地址信息。

在一些可选的实现方式中，基于深度学习模型的地址信息分类模型可以是通过如图3所示的训练步骤预先训练得到的。请参考图3，图3示出了根据本公开的训练步骤的一个实施例的流程300。该训练步骤包括以下步骤：

这里，训练步骤的执行主体可以与上述基于深度学习模型的接处警文本地址信息提取方法的执行主体相同。这样，训练步骤的执行主体可以在训练得到地址信息分类模型后，将地址信息分类模型的模型参数存储在上述执行主体本地，并在执行上述基于深度学习模型的接处警文本地址信息提取方法的过程中读取上述训练得到的地址信息分类模型的模型参数。

这里，训练步骤的执行主体也可以与上述基于深度学习模型的接处警文本地址信息提取方法的执行主体不同。这样，训练步骤的执行主体可以在训练得到地址信息分类模型后，将地址信息分类模型的模型参数发送给上述基于深度学习模型的接处警文本地址信息提取方法的执行主体。这样，上述基于深度学习模型的接处警文本地址信息提取方法的执行主体可以在执行上述基于深度学习模型的接处警文本地址信息提取方法的过程中读取上述从训练步骤的执行主体接收到的地址信息分类模型的模型参数。

步骤301，获取训练样本集合。

这里，训练步骤的执行主体可以首先获取训练样本集合。其中，每个训练样本包括对历史接处警文本进行切词所得到的分词序列以及与该分词序列对应的标注信息序列，其中，标注信息用于指示分词序列中相应分词是否为地址信息。

作为示例，训练样本可以包括分词序列“现/籍/甲/省/乙/市/丙/小区/的/张三/在/丁/公交/车站/将/家/住/戊/市/己/小区/的/李四/打伤”和标注信息序列“0/0/1/1/1/1/1/1/0/0/0/1/1/1/0/0/0/1/1/1/1/0/0/0”，其中，“0”用于指示其对应的分词不是地址信息，而“1”用于指示其对应的分词是地址信息。

实践中，可以采用人工方式对历史接处警文本进行切词得到分词序列以及对分词序列中每个分词进行标注以得到相应的标注信息序列。

步骤302，将训练样本集合中相应分词序列包括地址信息分词的各训练样本确定为正样本集合。

这里，地址信息分词为分词序列中相应的标注信息指示该分词为地址信息的分词。

步骤303，根据正样本集合中每个正样本的分词序列所包括的各地址信息分词，确定该正样本的文本特征向量。

在本实施例中，训练步骤的执行主体可以对于步骤302中所确定的正样本集合中的每个正样本，根据该正样本的分词序列中所包括的各地址信息分词，确定该正样本的文本特征向量。

在一些可选的实现方式中，步骤303可以如下进行：设预设词典中包括N个词语，其中，N为正整数，则该正样本的文本特征向量可以包括N维分量，且上述N维分量中的各维分量分别与预设词典的各词语一一对应。确定该正样本的文本特征向量可以如下进行：对于该正样本的分词序列中的每个地址信息分词，将该正样本的文本特征向量中与该地址信息分词对应的分量设置为第四预设数值(例如，1)，以及将所该正样本的文本特征向量中的各未赋值分量设置为第五预设数值(例如，0)，未赋值分量为属于预设词典但不属于该正样本的分词序列中各地址信息分词的词语对应的分量。

为便于理解，下面举例说明：假设预设词典包括20个词语，该正样本包括分词序列“现/籍/甲/省/乙/市/丙/小区/的/张三/在/丁/公交/车站/将/家/住/戊/市/己/小区/的/李四/打伤”和标注信息序列“0/0/1/1/1/1/1/1/0/0/0/1/1/1/0/0/0/1/1/1/1/0/0/0”，其中，“0”用于指示其对应的分词不是地址信息，而“1”用于指示其对应的分词是地址信息。这里，可以对于该正样本的分词序列“现/籍/甲/省/乙/市/丙/小区/的/张三/在/丁/公交/车站/将/家/住/戊/市/己/小区/的/李四/打伤”的每个分词，如果该分词是地址信息分词，则将该正样本的20维文本特征向量中与该地址信息分词对应的分量设置为1。具体而言，可以利用分词序列相应的标注信息序列来确定该分词是否是地址信息分词。因此，由上述标注信息序列“0/0/1/1/1/1/1/1/0/0/0/1/1/1/0/0/0/1/1/1/1/0/0/0”可知“甲”、“省”、“乙”、“市”、“丙”、“小区”、“丁”、“公交”、“车站”、“戊”和“己”是地址信息分词。而预设词典中与上述各地址信息分词对应的分量分别为第1、3、6、7、8、12、14、15、16、18、20维，则这里可以将该正样本的20维文本特征向量中第1、3、6、7、8、12、14、15、16、18、20维分别设置为1。接着，可以将该正样本的文本特征向量中的各未赋值分量设置为0，即将除了第1、3、6、7、8、12、14、15、16、18、20维以外的其他分量设置为0，进而得到如下文本特征向量：(1,0,1,0,0,1,1,1,0,0,0,1,0,1,1,1,0,1,0,1)。

在一些可选的实现方式中，步骤303也可以如下进行：

对于所正样本集合中的每个正样本，执行以下向量生成及赋值操作：

首先，生成与该正样本对应的文本特征向量。这里，所生成的文本特征向量中的各分量分别与预设词典中的各词语一一对应。

其次，对于该正样本的分词序列中的每个地址信息分词，将所生成的文本特征向量中与该地址信息分词对应的分量设置为该地址信息分词的词频-逆文本频率指数。

最后，将所生成的文本特征向量中的各未赋值分量设置为预设数值。这里，未赋值分量为属于预设词典但不属于该正样本的分词序列中的各地址信息分词的词语对应的分量。

为便于理解，继续沿用上述举例，与上述举例中不同的是，这里所生成的文本特征向量中，与“甲”、“省”、“乙”、“市”、“丙”、“小区”、“丁”、“公交”、“车站”、“戊”和“己”对应的第1、3、6、7、8、12、14、15、16、18、20维分量不是设置为1，而是分别设置为“甲”、“省”、“乙”、“市”、“丙”、“小区”、“丁”、“公交”、“车站”、“戊”和“己”的词频-逆文本频率指数0.81、0.39、0.63、0.7、0.28、0.12、0.54、0.15、0.36、0.78、0.42。接着，可以将该正样本的文本特征向量中的各未赋值分量设置为0，即将除了第1、3、6、7、8、12、14、15、16、18、20维以外的其他分量设置为0，进而得到如下文本特征向量：(0.81，0，0.39、0,0，0.63，0.7，0.28，0,0,0，0.12，0，0.54，0.15，0.36，0，0.78，0，0.42)。

步骤304，以正样本集合中正样本的文本特征向量作为输入，以用于指示是地址信息的分类结果作为相应期望输出，训练初始深度学习模型，得到地址信息分类模型。

这里，有了正样本集合，训练步骤的执行主体可以以正样本集合中正样本的文本特征向量作为输入，以用于指示是地址信息的分类结果作为相应期望输出，训练初始深度学习模型，得到地址信息分类模型。具体而言，可以如下进行：

首先，可以确定初始深度学习模型的模型结构。

这里，初始深度学习模型可以包括各种深度学习模型。例如，初始深度学习模型可以包括以下至少一项：卷积神经网络、循环神经网络、长短期记忆网络、条件随机场。

作为示例，如果确定初始深度学习模型为卷积神经网络，这里可以确定卷积神经网络具体包括哪些层，比如包括哪些卷积层、池化层、全连接层，以及层与层之间的先后连接关系。如果包括卷积层，可以确定卷积层的卷积核的大小，卷积步长。如果包括池化层，可以确定池化方法。

其次，可以确定初始深度学习模型所包括的模型参数的初始值。

例如，如果确定初始深度学习模型为卷积神经网络，这里可以对卷积神经网络中可能包括的卷积层的卷积核参数进行初始化，针对全连接层的连接参数进行初始化等等。

最后，可以正样本集合中的正样本，执行参数调整操作，直到满足预设训练结束条件，上述参数调整操作包括：将该正样本的文本特征向量输入初始深度学习模型得到相应的实际输出结果，再计算上述所得到的实际输出结果和用于指示是地址信息的分类结果之间的差异，并基于所得到的差异调整上述初始深度学习模型的模型参数。这里，训练结束条件例如可以包括以下至少一项：执行参数调整操作的次数达到预设最多训练次数，计算得到的差异小于预设差异阈值。

经过上述参数调整操作，初始深度学习模型的模型参数得到了优化，可以将上述参数优化之后的初始深度学习模型确定为地址信息分类模型。需要说明的是，如何基于计算所得到的差异对初始深度学习模型的模型参数进行调整优化是本领域广泛研究和应用的现有技术，在此不再赘述。例如，可以采用梯度下降法。

在一些可选的实现方式中，上述流程300还可以包括以下步骤305和步骤306：

步骤305，将预设负样本特征向量输入地址信息分类模型得到相应实际输出结果。

这里，由于负样本特征向量是指用于表征负样本的特征向量，而负样本为训练样本集合中相应分词序列不包括地址信息分词的训练样本。由于负样本的相应分词序列中不包括地址信息分词，因此，可以用预设负样本特征向量来表征所有负样本。

又例如，当正样本的文本特征向量中采用的是步骤303中所记载的第一种可选实现方式，即分别采用第四预设数值和第五预设数值表示地址信息分词和非地址信息分词，那么这里预设负样本特征向量可以是每一维分量均为第五预设数值的特征向量。即，比如正样本的文本特征向量有20维，第五预设数值为0，那么预设负样本特征向量可以为：(0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0)。

例如，当正样本的文本特征向量中采用的是步骤303中所记载的第二种可选实现方式，即分别采用词频-逆文本频率指数和预设数值表示地址信息分词和非地址信息分词，那么这里预设负样本特征向量可以是每一维分量均为预设数值的特征向量。

步骤306，根据所得到的实际输出结果和用于指示不是地址信息的分类结果之间的差异调整地址信息分类模型的模型参数。

利用上述流程300所示的训练步骤，可以自动生成地址信息分类模型，降低了生成地址信息分类模型的人工成本。随着时间的推移，人们表达方式会产生变化，反应在接处警文本中也会产生变化，另外随着社会的发展也可能会出现新型的地址信息。这时，可以获取新的训练样本集合采用训练步骤进行训练得到更新后的地址信息分类模型，以符合当前接处警文本的表达方式变化需求以及新型的地址信息的提取需求。

本公开的上述实施例提供的方法通过利用地址信息分类模型，实现了对接处警文本自动提取地址信息，无需人工操作，降低了对接处警文本进行地址信息提取的成本，提高了对接处警文本进行地址信息提取的提取速度。

进一步参考图4，作为对上述各图所示方法的实现，本公开提供了一种基于深度学习模型的接处警文本地址信息提取装置的一个实施例，该装置实施例与图2所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

如图4所示，本实施例的基于深度学习模型的接处警文本地址信息提取装置400包括：获取单元401、切词单元402、分类单元403和确定单元404。其中，获取单元401，被配置成获取待提取地址信息接处警文本；切词单元402，被配置成对上述待提取地址信息接处警文本进行切词得到相应的分词序列；分类单元403，被配置成对于所得到的分词序列中的每个分词，执行以下地址信息分类操作：将该分词对应的词向量输入地址信息分类模型，得到该分词是否为地址信息的分类结果，其中，上述地址信息分类模型是基于深度学习模型预先训练得到的；确定单元404，被配置成根据上述分词序列中相应的分类结果为用于指示是地址信息的各分词确定上述待提取地址信息接处警文本对应的地址信息集合。

在本实施例中，基于深度学习模型的接处警文本地址信息提取装置400的获取单元401、切词单元402、分类单元403和确定单元404的具体处理及其所带来的技术效果可分别参考图2对应实施例中步骤201、步骤202、步骤203和步骤204的相关说明，在此不再赘述。

在本实施例的一些可选的实现方式中，上述基于深度学习模型的地址信息分类模型可以是通过如下训练步骤预先训练得到的：获取训练样本集合，其中，训练样本包括对历史接处警文本进行切词所得到的分词序列以及与该分词序列对应的标注信息序列，其中，标注信息用于指示分词序列中相应分词是否为地址信息；将上述训练样本集合中相应分词序列包括地址信息分词的各训练样本确定为正样本集合，其中，地址信息分词为分词序列中相应的标注信息指示该分词为地址信息的分词；根据上述正样本集合中每个正样本的分词序列所包括的各地址信息分词，确定该正样本的文本特征向量；以上述正样本集合中正样本的文本特征向量作为输入，以用于指示是地址信息的分类结果作为相应期望输出，训练初始深度学习模型，得到上述地址信息分类模型。

在本实施例的一些可选的实现方式中，上述训练步骤还可以包括：将预设负样本特征向量输入上述地址信息分类模型得到相应实际输出结果；根据所得到的实际输出结果和用于指示不是地址信息的分类结果之间的差异调整上述地址信息分类模型的模型参数。

在本实施例的一些可选的实现方式中，上述根据上述正样本集合中每个正样本的分词序列所包括的各地址信息分词，确定该正样本的文本特征向量，可以包括：对于上述正样本集合中的每个正样本，执行以下向量生成及赋值操作：生成与该正样本对应的文本特征向量，其中，所生成的文本特征向量中的各分量分别与预设词典中的各词语一一对应；对于该正样本的分词序列中的每个地址信息分词，将所生成的文本特征向量中与该地址信息分词对应的分量设置为该地址信息分词的词频-逆文本频率指数TF-IDF；以及将所生成的文本特征向量中的各未赋值分量设置为预设数值，未赋值分量为属于上述预设词典但不属于该正样本的分词序列中的各地址信息分词的词语对应的分量。

需要说明的是，本公开实施例提供的基于深度学习模型的接处警文本地址信息提取装置中各单元的实现细节和技术效果可以参考本公开中其它实施例的说明，在此不再赘述。

下面参考图5，其示出了适于用来实现本公开实施例的电子设备的计算机系统500的结构示意图。图5示出的电子设备仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图5所示，计算机系统500包括中央处理单元(CPU，Central Processing Unit)501，其可以根据存储在只读存储器(ROM，Read Only Memory)502中的程序或者从存储部分508加载到随机访问存储器(RAM，Random Access Memory)503中的程序而执行各种适当的动作和处理。在RAM 503中，还存储有系统500操作所需的各种程序和数据。CPU 501、ROM502以及RAM 503通过总线504彼此相连。输入/输出(I/O，Input/Output)接口505也连接至总线504。

以下部件连接至I/O接口505：包括触控屏、手写板、键盘或鼠标等的输入部分506；包括诸如阴极射线管(CRT，Cathode Ray Tube)、液晶显示器(LCD，Liquid CrystalDisplay)等以及扬声器等的输出部分507；包括硬盘等的存储部分508；以及包括诸如LAN(局域网，Local Area Network)卡、调制解调器等的网络接口卡的通信部分509。通信部分509经由诸如因特网的网络执行通信处理。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分509从网络上被下载和安装。在该计算机程序被中央处理单元(CPU)501执行时，执行本公开的方法中限定的上述功能。需要说明的是，本公开所述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++、Python，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中，例如，可以描述为：一种处理器包括获取单元、切词单元、分类单元和确定单元。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定，例如，获取单元还可以被描述为“获取待提取地址信息接处警文本的单元”。

作为另一方面，本公开还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的装置中所包含的；也可以是单独存在，而未装配入该装置中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该装置执行时，使得该装置：获取待提取地址信息接处警文本；对上述待提取地址信息接处警文本进行切词得到相应的分词序列；对于所得到的分词序列中的每个分词，执行以下地址信息分类操作：将该分词对应的词向量输入地址信息分类模型，得到该分词是否为地址信息的分类结果，其中，上述地址信息分类模型是基于深度学习模型预先训练得到的；根据上述分词序列中相应的分类结果为用于指示是地址信息的各分词确定上述待提取地址信息接处警文本对应的地址信息集合。

以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本公开中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种基于深度学习模型的接处警文本地址信息提取方法，包括：

获取待提取地址信息接处警文本；

对所述待提取地址信息接处警文本进行切词得到相应的分词序列；

对于所得到的分词序列中的每个分词，执行以下地址信息分类操作：将该分词对应的词向量输入地址信息分类模型，得到该分词是否为地址信息的分类结果，其中，所述地址信息分类模型是基于深度学习模型预先训练得到的；

根据所述分词序列中相应的分类结果为用于指示是地址信息的各分词确定所述待提取地址信息接处警文本对应的地址信息集合。

2.根据权利要求1所述的方法，其中，所述基于深度学习模型的地址信息分类模型是通过如下训练步骤预先训练得到的：

获取训练样本集合，其中，训练样本包括对历史接处警文本进行切词所得到的分词序列以及与该分词序列对应的标注信息序列，其中，标注信息用于指示分词序列中相应分词是否为地址信息；

将所述训练样本集合中相应分词序列包括地址信息分词的各训练样本确定为正样本集合，其中，地址信息分词为分词序列中相应的标注信息指示该分词为地址信息的分词；

根据所述正样本集合中每个正样本的分词序列所包括的各地址信息分词，确定该正样本的文本特征向量；

以所述正样本集合中正样本的文本特征向量作为输入，以用于指示是地址信息的分类结果作为相应期望输出，训练初始深度学习模型，得到所述地址信息分类模型。

3.根据权利要求2所述的方法，其中，所述训练步骤还包括：

将预设负样本特征向量输入所述地址信息分类模型得到相应实际输出结果；

根据所得到的实际输出结果和用于指示不是地址信息的分类结果之间的差异调整所述地址信息分类模型的模型参数。

4.根据权利要求2或3所述的方法，其中，所述根据所述正样本集合中每个正样本的分词序列所包括的各地址信息分词，确定该正样本的文本特征向量，包括：

对于所述正样本集合中的每个正样本，执行以下向量生成及赋值操作：生成与该正样本对应的文本特征向量，其中，所生成的文本特征向量中的各分量分别与预设词典中的各词语一一对应；对于该正样本的分词序列中的每个地址信息分词，将所生成的文本特征向量中与该地址信息分词对应的分量设置为该地址信息分词的词频-逆文本频率指数TF-IDF；以及将所生成的文本特征向量中的各未赋值分量设置为预设数值，未赋值分量为属于所述预设词典但不属于该正样本的分词序列中的各地址信息分词的词语对应的分量。

5.一种基于深度学习模型的接处警文本地址信息提取装置，包括：

获取单元，被配置成获取待提取地址信息接处警文本；

切词单元，被配置成对所述待提取地址信息接处警文本进行切词得到相应的分词序列；

分类单元，被配置成对于所得到的分词序列中的每个分词，执行以下地址信息分类操作：将该分词对应的词向量输入地址信息分类模型，得到该分词是否为地址信息的分类结果，其中，所述地址信息分类模型是基于深度学习模型预先训练得到的；

确定单元，被配置成根据所述分词序列中相应的分类结果为用于指示是地址信息的各分词确定所述待提取地址信息接处警文本对应的地址信息集合。

6.根据权利要求5所述的装置，其中，所述基于深度学习模型的地址信息分类模型是通过如下训练步骤预先训练得到的：

7.根据权利要求6所述的装置，其中，所述训练步骤还包括：

8.根据权利要求6或7所述的装置，其中，所述根据所述正样本集合中每个正样本的分词序列所包括的各地址信息分词，确定该正样本的文本特征向量，包括：

9.一种电子设备，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1-4中任一所述的方法。

10.一种计算机可读介质，其上存储有计算机程序，其中，所述程序被处理器执行时实现如权利要求1-4中任一所述的方法。