CN108090044B

CN108090044B - 联系方式的识别方法和装置

Info

Publication number: CN108090044B
Application number: CN201711270166.5A
Authority: CN
Inventors: 刘燕辉
Original assignee: Wuba Co Ltd
Current assignee: Wuba Co Ltd
Priority date: 2017-12-05
Filing date: 2017-12-05
Publication date: 2022-03-15
Anticipated expiration: 2037-12-05
Also published as: CN108090044A

Abstract

本发明实施例提供一种联系方式的识别方法和装置。本发明联系方式的识别方法，包括：获取待识别信息，所述待识别信息包括中文字符、英文字符和数字中任意一项或者多项；根据词向量映射表，确定所述待识别信息的文本向量序列；将所述文本向量序列输入预设的双向循环神经网络分类器中，获取识别结果；根据所述识别结果确定所述待识别信息是否包括联系方式；其中，所述预设的双向循环神经网络分类器为根据样本数据和所述词向量映射表对双向循环神经网络分类器进行训练得到的，所述样本数据包括文本信息和分类结果标记值。本发明实施例可以实现对联系方式的有效识别。

Description

联系方式的识别方法和装置

技术领域

本发明实施例涉及信息技术，尤其涉及一种联系方式的识别方法和装置。

背景技术

信息发布平台可以面向用户发布一些信息，该信息发布平台可以是分类信息网站、分类信息应用程序(APP)等，其为信息交互提供了便利。然而，在信息发布平台上也会存在一些违规类型信息，例如包含联系方式的信息，需要信息发布平台需要对违规类型信息进行召回。对违规类型信息进行召回通常采用的方法为，基于规则判定或抽取特征构建分类器进行识别，并根据识别结果进行召回。

但是，通过对违规类型信息的文本进行变形或变化，使得违规类型信息的相关特征提取难度大，上述分类器难以对违规类型信息进行有效识别。

发明内容

本发明实施例提供一种联系方式的识别方法和装置，以实现对联系方式的有效识别。

第一方面，本发明实施例提供一种联系方式的识别方法，包括：

获取待识别信息，所述待识别信息包括中文字符、英文字符和数字中任意一项或者多项；

根据词向量映射表，确定所述待识别信息的文本向量序列；

将所述文本向量序列输入预设的双向循环神经网络分类器中，获取识别结果；

根据所述识别结果确定所述待识别信息是否包括联系方式；

其中，所述预设的双向循环神经网络分类器为根据样本数据和所述词向量映射表对双向循环神经网络分类器进行训练得到的，所述样本数据包括文本信息和分类结果标记值。

结合第一方面，在第一方面的一种可能的实现方式中，所述词向量映射表包括原始词和词向量的映射关系，所述获取待识别信息之前，所述方法还包括：

建立变形词与所述词向量映射表中的原始词之间的映射关系，所述变形词包括对原始词的字型变形和对原始词的拼音变形。

结合第一方面或者第一方面的一种可能的实现方式，在第一方面的另一种可能的实现方式中，所述获取待识别信息，包括：

接收输入文本；

根据所述变形词与所述词向量映射表中的原始词之间的映射关系对所述输入文本进行预处理，获取所述待识别信息。

结合第一方面或者第一方面的任一种可能的实现方式，在第一方面的另一种可能的实现方式中，所述方法还包括：

将所述文本信息输入所述双向循环神经网络分类器，获取分类器输出的识别结果；

根据所述分类器输出的识别结果和所述分类结果标记值确定是否满足预设条件，若不满足，则调整所述双向循环神经网络分类器，直至调整后的双向循环神经网络分类器满足所述预设条件，得到所述预设的双向循环神经网络分类器；

若满足，则将所述双向循环神经网络分类器作为所述预设的双向循环神经网络分类器。

当根据所述识别结果确定所述待识别信息包括联系方式，则对所述待识别信息进行召回。

第二方面，本发明实施例提供一种联系方式的识别装置，包括：

获取模块，用于获取待识别信息，所述待识别信息包括中文字符、英文字符和数字中任意一项或者多项；

序列确定模块，用于根据词向量映射表，确定所述待识别信息的文本向量序列；

识别模块，用于将所述文本向量序列输入预设的双向循环神经网络分类器中，获取识别结果；

所述识别模块，还用于根据所述识别结果确定所述待识别信息是否包括联系方式；

结合第二方面，在第二方面的一种可能的实现方式中，所述词向量映射表包括原始词和词向量的映射关系，所述装置还包括映射关系建立模块；

所述映射关系建立模块，用于建立变形词与所述词向量映射表中的原始词之间的映射关系，所述变形词包括对原始词的字型变形和对原始词的拼音变形。

结合第二方面或者第二方面的一种可能的实现方式，在第二方面的另一种可能的实现方式中，所述获取模块包括接收模块和预处理模块；

所述接收模块用于接收输入文本；

所述预处理模块用于根据所述变形词与所述词向量映射表中的原始词之间的映射关系对所述输入文本进行预处理，获取所述待识别信息。

结合第二方面或者第二方面的任一种可能的实现方式，在第二方面的另一种可能的实现方式中，所述装置还包括训练模块，所述训练模块用于：

结合第二方面或者第二方面的任一种可能的实现方式，在第二方面的另一种可能的实现方式中，所述装置还包括召回模块，所述召回模块用于：

本发明实施例联系方式的识别方法和装置，通过根据词向量映射表，确定所述待识别信息的文本向量序列，将所述文本向量序列输入预设的双向循环神经网络分类器中，获取识别结果，根据所述识别结果确定所述待识别信息是否包括联系方式，其中使用具有深度学习能力的预设的双向循环神经网络分类器，从而实现对联系方式的有效识别。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的联系方式的识别方法的应用场景示意图；

图2为本发明的联系方式的识别方法实施例一的流程图；

图3为本发明的联系方式的识别方法实施例二的流程图；

图4A为本发明的联系方式的识别方法实施例三的流程图；

图4B为本发明的双向循环神经网络分类器的示意图；

图5为本发明的联系方式的识别方法实施例三的流程图；

图6为本发明的联系方式的识别装置实施例一的结构示意图；

图7为本发明的联系方式的识别装置实施例二的结构示意图；

图8为本发明的联系方式的识别装置实施例三的结构示意图；

图9为本发明的联系方式的识别装置实施例四的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本文所涉及的“联系方式”(Contact Information)，具体指能够达到与个人直接沟通的相关信息，多用于聊天、交流。随着信息技术的不断发展及更新，联系方式包括QQ号码、微信号码、MSN地址、飞信号码、电子邮箱、手机号码、座机号码、以及社交软件用户名等。

图1为本发明的联系方式的识别方法的应用场景示意图，如图1所示，本发明实施例的联系方式的识别方法可以应用于服务器中，例如可以是分类信息网站的服务器，信息发布方可以使用终端通过服务器在信息发布平台上发布信息，服务器可以使用本发明实施例的联系方式的识别方法对该发布信息进行识别，确定该发布信息是否包括联系方式，从而实现对包括联系方式的违规类型信息的有效识别。其具体实现方式可以参见下述实施例的具体解释说明。

需要说明的是，该服务器和终端可以是有线连接，也可以是无线连接。

图2为本发明的联系方式的识别方法实施例一的流程图，如图2所示，本实施例的方法可以包括：

步骤101、获取待识别信息。

其中，该待识别信息包括中文字符、英文字符和数字中任意一项或者多项。

步骤102、根据词向量映射表，确定所述待识别信息的文本向量序列。

具体的，该词向量映射表为根据样本数据和word2vec(word to vector)模型得到的，其中，样本数据包括中文字符、英文字符和数字。词向量映射表包括原始词和M维实数的词向量的映射关系，即每个原始词都可以用词向量来表示，不同原始词的词向量之间的距离可以用于表征不同原始词之间的语义相似度，该距离具体可以是欧式距离，其可以根据需求进行灵活设置。

需要说明的是，本实施例所涉及的“词”具体可以是单个中文字符、多个中文字符、单个英文字符、多个英文字符、单个数字、或者多个数字。

上述待识别信息包括多个词，根据词向量映射表确定每个词的词向量，多个词的词向量组成该待识别信息的文本向量序列。

步骤103、将所述文本向量序列输入预设的双向循环神经网络分类器中，获取识别结果。

其中，所述预设的双向循环神经网络(Bidirectional Recurrent NeuralNetwork，BRNN)分类器为根据样本数据和所述词向量映射表对双向循环神经网络分类器进行训练得到的，所述样本数据包括文本信息和分类结果标记值。该分类结果标记值可以是人工标注的，例如，样本数据为(手计号l3肆

OZ7I9四3，1)，其中，文本信息为手计号l3肆

OZ7I9四3，分类结果标记值为1，该1用于表示该文本信息中包含联系方式。样本数据的大小可以根据需要进行灵活设置，即可以设置多个文本信息和对应的分类结果标记值。其中，可以用0表示文本信息中不包含联系方式。当然可以理解的，也可以使用0表示文本信息中包含联系方式，使用1表示文本信息中不包含联系方式，其具体设置可以根据需求灵活选取。

具体的，预设的双向循环神经网络分类器输出上述分类结果，该分类结果可以是识别概率，其中，识别概率包括包含联系方式的概率和不包含联系方式的概率。

其中，预设的双向循环神经网络可以有效利用上下文信息，从而提高联系方式的识别能力。

步骤104、根据所述识别结果确定所述待识别信息是否包括联系方式。

具体的，根据上述步骤103获取的识别结果确定待识别信息是否包括联系方式，其中，当包含联系方式的概率大于不包含联系方式的概率，则确定所述待识别信息包括联系方式，当包含联系方式的概率小于不包含联系方式的概率，则确定所述待识别信息不包括联系方式。

本实施例，通过根据词向量映射表，确定所述待识别信息的文本向量序列，将所述文本向量序列输入预设的双向循环神经网络分类器中，获取识别结果，根据所述识别结果确定所述待识别信息是否包括联系方式，其中使用具有深度学习能力的预设的双向循环神经网络分类器，从而实现对联系方式的有效识别。

下面采用几个具体的实施例，对图2所示方法实施例的技术方案进行详细说明。

图3为本发明的联系方式的识别方法实施例二的流程图，如图3所示，本实施例的方法可以包括：

步骤201、建立变形词与所述词向量映射表中的原始词之间的映射关系，所述变形词包括对原始词的字型变形和对原始词的拼音变形。

由于在信息发布平台上，信息发布方通常会通过对文本进行变形，以避免被识别，并被召回。所以，本发明实施例建立变形词与词向量映射表中的原始词之间的映射关系，并通过下述步骤202，以提升联系方式的识别效果，即使是变形的联系方式，也可以被有效识别。

本发明实施例可以根据原始词的字型和拼音发音对原始词进行变形，获取该原始词对应的变形词，即建立变形词和原始词之间的映射关系。

其中，对原始词的字型变形可以包括对原始词的拆解变形和使用与原始词相同发音的同音词进行变形。其中，对原始词的拆解变形具体可以是拆解偏旁部首，将一个字变为多个字。使用与原始词相同发音的同音词进行变形具体可以是使用相同发音的其他字进行变形，例如相同发音的生僻字。举例而言，原始词为微信号，该原始词对应的变形词可以包括手木几号、薇信号、威信号、卫星号等。

其中，对原始词的拼音变形可以是使用原始词对应的汉语拼音变形，原始词对应的汉语拼音变形包括与原始词发音相同或相似的汉语拼音变形，其中，与原始词发音相似的汉语拼音可以是与原始词的汉语拼音的声调不一致、平翘舌转换、前后鼻音转换等。举例而言，原始词是微信号，该原始词对应的变形词还可以包括wei xin hao、wei xing hao等。

步骤202、接收输入文本。

其中，该输入文本可以包括变形词、标点、数字和英文等。

步骤203、根据所述变形词与所述词向量映射表中的原始词之间的映射关系对所述输入文本进行预处理，获取所述待识别信息。

具体的，可以根据步骤201的所述变形词与所述词向量映射表中的原始词之间的映射关系对输入文本进行预处理，该预处理可以是将该输入文本中的变形词转换为原始词，从而获取待识别信息，进而可以执行下述步骤204至步骤206。

需要说明的是，该预处理还可以包括去除该输入文本中的标点。

步骤204、根据词向量映射表，确定所述待识别信息的文本向量序列。

步骤205、将所述文本向量序列输入预设的双向循环神经网络分类器中，获取识别结果。

步骤206、根据所述识别结果确定所述待识别信息是否包括联系方式。

其中，步骤204至步骤206的具体解释说明可以参见图2所示实施例的步骤102至步骤104，此处不再赘述。

并且，本实施例通过对输入文本的预处理，可以实现对各种变形词识别，使得联系方式即使使用变形词，也可以被本实施例的联系方式的识别方法所识别，从而进一步提升联系方式的识别效果。

图4A为本发明的联系方式的识别方法实施例三的流程图，图4B为本发明的双向循环神经网络分类器的示意图，本实施例是对上述实施例中的预设的双向循环神经网络分类器的获取方式进行具体解释说明，如图4A所示，本实施例的方法可以包括：

步骤301、将文本信息输入双向循环神经网络分类器，获取分类器输出的识别结果。

具体的，如图4B所示，该双向循环神经网络分类器包括嵌入层、前向隐藏层(图4B的向右的水平箭头的层)、后向隐藏层(图4B的向左的水平箭头的层)和输出层。

如图4B所示，word1、word2、word3为文本信息中的词。其作为输入，输入至双向循环神经网络分类器。

嵌入层包括多个embedding单元，示意性的，如图4B所示本实施例以嵌入层包括3个embedding单元为例做举例说明，本实施例不以此作为限制，embedding可以表示为一个映射函数，将词(word)映射到另外一个空间，生成在一个新的空间上的表达，前向隐藏层和后向隐藏层均包括多个长短时记忆(Long-Short Term Memory，LSTM)单元，示意性的，如图4B所示本实施例以一个隐藏层包括3个LSTM单元为例做举例说明，本实施例不以此作为限制，前向隐藏层和后向隐藏层中的LSTM单元均连接至输出层，该前向隐藏层和后向隐藏层提供给输出层输入序列中每一个点(如图4B所示的word1、word2和word3)的完整的过去和未来的上下文信息。该输出层具体可以是如图4B所示的softmax函数。该softmax函数，可以把任意形式的预测结果转换成正确的概率，例如，应用于本发明中转换成包含联系方式的概率和不包含联系方式的概率。

其中，偏置参数和权值参数(不同层之间连接的权值参数、相同层中不同单元之间连接的权值参数)用于表征该双向循环神经网络分类器，对双向循环神经网络分类器的训练具体指对偏置参数和权值参数的调整。

在本实施例的步骤301中的双向循环神经网络分类器可以是随机初始化的偏置参数和权值参数。可以参考现有技术的初始化方法初始化该双向循环神经网络分类器的权值参数和偏置参数，例如现有技术中的高斯函数初始化，本发明不一一举例说明。

其中，上述分类器输出的识别结果即为如图4B所示的softmax层的输出。

步骤302、根据所述分类器输出的识别结果和所述分类结果标记值确定是否满足预设条件，若否，则执行步骤303，若是，则执行步骤304。

具体的，如果所述分类器输出的识别结果是包含联系方式的概率大于不包含联系方式的概率，且该分类结果标记值表示包含联系方式，则满足预设条件；如果所述分类器输出的识别结果是包含联系方式的概率小于不包含联系方式的概率，且该分类结果标记值表示包含联系方式，则不满足预设条件；如果所述分类器输出的识别结果是包含联系方式的概率大于不包含联系方式的概率，且该分类结果标记值表示不包含联系方式，则不满足预设条件；如果所述分类器输出的识别结果是包含联系方式的概率小于不包含联系方式的概率，且该分类结果标记值表示不包含联系方式，则满足预设条件。

步骤303、调整所述双向循环神经网络分类器，直至调整后的双向循环神经网络分类器满足所述预设条件，得到所述预设的双向循环神经网络分类器。

具体的，调整双向循环神经网络分类器的偏置参数和权值参数，将文本信息输入调整后的双向循环神经网络分类器，根据调整后的双向循环神经网络分类器输出的识别结果和所述分类结果标记值确定是否满足预设条件，如此循环反复，直至调整后的双向循环神经网络分类器满足所述预设条件，得到所述预设的双向循环神经网络分类器。

步骤304、将所述双向循环神经网络分类器作为所述预设的双向循环神经网络分类器。

本实施例，根据文本信息和分类结果标记值对双向循环神经网络分类器进行训练，以获取预设的双向循环神经网络分类器，该预设的双向循环神经网络分类器可以提高对联系方式的识别效果。

图5为本发明的联系方式的识别方法实施例三的流程图，如图5所示，本实施例的方法可以包括：

步骤401、获取待识别信息。

步骤402、根据词向量映射表，确定所述待识别信息的文本向量序列。

步骤403、将所述文本向量序列输入预设的双向循环神经网络分类器中，获取识别结果。

步骤404、根据所述识别结果确定所述待识别信息是否包括联系方式，若是，则执行步骤405。

其中，步骤401至步骤404的具体解释说明可以参见图2所示实施例的步骤101至步骤104，此处不再赘述。

步骤405、对待识别信息进行召回。

具体的，对包括联系方式的信息进行召回。

并且，基于本实施例的联系方式的识别方法对包括联系方式的信息进行召回，可以有效提升召回率，减少信息发布平台上的违规类型信息。

图6为本发明的联系方式的识别装置实施例一的结构示意图，如图6所示，本实施例的装置可以包括：获取模块11、序列确定模块12和识别模块13，其中，获取模块11用于获取待识别信息，所述待识别信息包括中文字符、英文字符和数字中任意一项或者多项，序列确定模块12用于根据词向量映射表，确定所述待识别信息的文本向量序列，识别模块13用于将所述文本向量序列输入预设的双向循环神经网络分类器中，获取识别结果，识别模块13还用于根据所述识别结果确定所述待识别信息是否包括联系方式。

本实施例的装置，可以用于执行图2所示方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。

图7为本发明的联系方式的识别装置实施例二的结构示意图，如图7所示，本实施例的装置在图6所示装置结构的基础上，进一步地，还可以包括：映射关系建立模块14，所述词向量映射表包括原始词和词向量的映射关系，该映射关系建立模块14用于建立变形词与所述词向量映射表中的原始词之间的映射关系，所述变形词包括对原始词的字型变形和对原始词的拼音变形。

所述获取模块11可以包括接收模块111和预处理模块112，所述接收模块111用于接收输入文本；所述预处理模块112用于根据所述变形词与所述词向量映射表中的原始词之间的映射关系对所述输入文本进行预处理，获取所述待识别信息。

本实施例的装置，可以用于执行图3所示方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。

图8为本发明的联系方式的识别装置实施例三的结构示意图，如图8所示，本实施例的装置在图6所示装置结构的基础上，进一步地，还可以包括：训练模块15，该训练模块15用于将所述文本信息输入所述双向循环神经网络分类器，获取分类器输出的识别结果；根据所述分类器输出的识别结果和所述分类结果标记值确定是否满足预设条件，若不满足，则调整所述双向循环神经网络分类器，直至调整后的双向循环神经网络分类器满足所述预设条件，得到所述预设的双向循环神经网络分类器；若满足，则将所述双向循环神经网络分类器作为所述预设的双向循环神经网络分类器。

本实施例的装置，可以用于执行图4A所示方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。

图9为本发明的联系方式的识别装置实施例四的结构示意图，如图9所示，本实施例的装置在图6所示装置结构的基础上，进一步地，还可以包括：召回模块16，该召回模块16用于当根据所述识别结果确定所述待识别信息包括联系方式，则对所述待识别信息进行召回。

本实施例的装置，可以用于执行图5所示方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种联系方式的识别方法，其特征在于，包括：

接收输入文本，根据变形词与词向量映射表中的原始词之间的映射关系对输入文本进行预处理，获取待识别信息，所述待识别信息包括中文字符、英文字符和数字中任意一项或者多项；

根据词向量映射表，确定所述待识别信息的文本向量序列；

根据所述识别结果确定所述待识别信息是否包括联系方式；

其中，所述预设的双向循环神经网络分类器为根据样本数据和所述词向量映射表对双向循环神经网络分类器进行训练得到的，所述样本数据包括文本信息和分类结果标记值；

所述方法还包括：

若满足，则将所述双向循环神经网络分类器作为所述预设的双向循环神经网络分类器；

所述词向量映射表包括原始词和词向量的映射关系，所述获取待识别信息之前，所述方法还包括：

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

3.一种联系方式的识别装置，其特征在于，包括：

所述词向量映射表包括原始词和词向量的映射关系，所述装置还包括映射关系建立模块；

所述映射关系建立模块，用于建立变形词与所述词向量映射表中的原始词之间的映射关系，所述变形词包括对原始词的字型变形和对原始词的拼音变形；

所述获取模块包括接收模块和预处理模块；

所述接收模块用于接收输入文本；

所述预处理模块用于根据所述变形词与所述词向量映射表中的原始词之间的映射关系对所述输入文本进行预处理，获取所述待识别信息；

所述装置还包括训练模块，所述训练模块用于：

4.根据权利要求3所述的装置，其特征在于，所述装置还包括召回模块，所述召回模块用于：