CN110765757A

CN110765757A - 文本识别方法、计算机可读存储介质和计算机设备

Info

Publication number: CN110765757A
Application number: CN201910982889.0A
Authority: CN
Inventors: 陈铭良; 贾佳亚
Original assignee: Tencent Cloud Computing Beijing Co Ltd
Current assignee: Tencent Cloud Computing Beijing Co Ltd
Priority date: 2019-10-16
Filing date: 2019-10-16
Publication date: 2020-02-07

Abstract

本申请涉及一种文本识别方法、计算机可读存储介质和计算机设备，所述方法包括：提取待识别文本中的至少两个词语；获取各个词语在语义维度下的词语编码，以及各个词语在至少两个文本分类维度下的词语编码；将各个词语在语义维度下的词语编码，以及各个词语在至少两个文本分类维度下的词语编码进行连接处理，得到目标矩阵；根据目标矩阵，确定待识别文本在各个文本分类维度下的分类概率；根据待识别文本在各个文本分类维度下的分类概率，确定对待识别文本的文本识别结果。本申请提供的方案综合考虑了文本的词语编码的语义信息以及可解释性，并从多个文本识别维度对文本进行判别，使得文本的识别更加准确，从而提高了文本的识别准确率。

Description

文本识别方法、计算机可读存储介质和计算机设备

技术领域

本申请涉及数据处理技术领域，特别是涉及一种文本识别方法、计算机可读存储介质和计算机设备。

背景技术

随着互联网技术的发展，网络上的各种文本层出不穷，为了过滤文本中的不良信息如违禁、广告等内容，需要对文本进行识别。

然而，目前的文本识别方法，是基于待识别文本中的词语在整个文本集合中的出现频率，对待识别文本进行分类；但是，整个文本集合中包含多种文本类型，对于待识别文本中的每一个词语，都均计算其在整个文本集合中的出现频率，会降低文本的类别区分能力，从而使得文本的识别准确率较低。

发明内容

基于此，有必要针对文本的识别准确率低下的技术问题，提供一种文本识别方法、计算机可读存储介质和计算机设备。

一种文本识别方法，包括：

提取待识别文本中的至少两个词语；

获取各个所述词语在语义维度下的词语编码，以及各个所述词语在至少两个文本分类维度下的词语编码；

将各个所述词语在语义维度下的词语编码，以及各个所述词语在至少两个文本分类维度下的词语编码进行连接处理，得到目标矩阵；

根据所述目标矩阵，确定所述待识别文本在各个所述文本分类维度下的分类概率；

根据所述待识别文本在各个所述文本分类维度下的分类概率，确定对所述待识别文本的文本识别结果。

一种文本识别装置，所述装置包括：

词语提取模块，用于提取待识别文本中的至少两个词语；

词语编码获取模块，用于获取各个所述词语在语义维度下的词语编码，以及各个所述词语在至少两个文本分类维度下的词语编码；

目标矩阵获取模块，用于将各个所述词语在语义维度下的词语编码，以及各个所述词语在至少两个文本分类维度下的词语编码进行连接处理，得当目标矩阵；

分类概率获取模块，根据所述目标矩阵，确定所述待识别文本在各个所述文本分类维度下的分类概率；

文本识别模块，用于根据所述待识别文本在各个所述文本分类维度下的分类概率，确定对所述待识别文本的文本识别结果。

一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行如下步骤：

提取待识别文本中的至少两个词语；

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如下步骤：

提取待识别文本中的至少两个词语；

上述文本识别方法、装置、计算机可读存储介质和计算机设备，通过提取的待识别文本中的至少两个词语在语义维度下的词语编码，以及在至少两个文本分类维度下的词语编码，得到目标矩阵，并根据目标矩阵确定待识别文本在各个文本分类维度下的分类概率，进而确定对待识别文本的文本识别结果；实现了根据待识别文本中的至少两个词语在语义维度下的词语编码，以及在至少两个文本分类维度下的词语编码，得到对待识别文本的文本识别结果的目的；综合考虑了待识别文本的词语编码的语义信息以及可解释性，使得文本的识别更加准确，从而提高了文本的识别准确率；同时，综合考虑待识别文本中的至少两个词语在至少两个文本分类维度下的词语编码，有利于从多个文本识别维度对待识别文本进行判别，避免简单地计算词语在整个文本集合中的出现频率，从而提高了待识别文本的类别区分能力，有利于实现文本的精准识别，进一步提高了文本的识别准确率。此外，通过获取对待识别文本的文本识别结果，有利于对不符合要求的文本进行过滤，从而提高了文本质量。

附图说明

图1为一个实施例中文本识别方法的应用环境图；

图2为一个实施例中计算机设备的结构框图；

图3为一个实施例中文本识别方法的流程示意图；

图4为一个实施例中提取待识别文本中的至少两个词语的步骤的流程示意图；

图5为一个实施例中获取各个词语的词语编码的步骤的流程示意图；

图6为一个实施例中分别获取各个词语在至少两个文本分类维度下的统计概率的步骤的流程示意图；

图7为一个实施例中分别获取各个文本分类维度下，出现各个词语的条件概率的步骤的流程示意图；

图8为一个实施例中分别获取各个词语在各个文本分类维度下的权重的步骤的流程示意图；

图9为一个实施例中得到目标矩阵的步骤的流程示意图；

图10为一个实施例中确定待识别文本在各个文本分类维度下的分类概率的步骤的流程示意图；

图11为另一个实施例中确定待识别文本在各个文本分类维度下的分类概率的步骤的流程示意图；

图12为一个实施例中训练文本分类模型的步骤的流程示意图；

图13为一个实施例中确定对待识别文本的文本识别结果的步骤的流程示意图；

图14为一个实施例中确定待识别文本的文本标签的步骤的流程示意图；

图15为一个实施例中存储待识别文本的步骤的流程示意图；

图16为一个实施例中文本识别方法的应用环境图；

图17为另一个实施例中文本识别方法的流程示意图；

图18为一个实施例中文本审核的界面示意图；

图19为又一个实施例中文本识别方法的流程示意图；

图20为一个实施例中广告识别方法的流程示意图；

图21为一个实施例中文本识别装置的结构框图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

图1为一个实施例中文本识别方法的应用环境图。参照图1，该应用环境图包括服务器110。服务器110提取待识别文本中的至少两个词语，比如待识别文本的词语1、待识别文本的词语2、待识别文本的词语3等；获取各个词语在语义维度下的词语编码，以及各个词语在至少两个文本分类维度下的词语编码；将各个词语在语义维度下的词语编码，以及各个词语在至少两个文本分类维度下的词语编码进行连接处理，得到目标矩阵；根据目标矩阵，确定待识别文本在各个文本分类维度下的分类概率；根据待识别文本在各个文本分类维度下的分类概率，确定对待识别文本的文本识别结果。其中，对待识别文本的文本识别结果可以用于推送至对应的用户；比如，服务器基于终端的文本识别请求，将对待识别文本的文本识别结果推送至对应的终端，以供终端对应的用户进行查看。此外，文本识别方法还可以应用在文本审核系统、文本推荐系统、文本传输系统等，具体本申请不做限定。

图2示出了一个实施例中计算机设备的内部结构图。该计算机设备具体可以是图1中的服务器110。如图2所示，该计算机设备包括该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、输入装置和显示屏。其中，存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作系统，还可存储有计算机程序，该计算机程序被处理器执行时，可使得处理器实现文本识别方法。该内存储器中也可储存有计算机程序，该计算机程序被处理器执行时，可使得处理器执行文本识别方法。计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图2中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

如图3所示，在一个实施例中，提供了一种文本识别方法。本实施例主要以该方法应用于上述图1中的服务器110来举例说明。参照图3，该文本识别方法具体包括如下步骤：

S302，提取待识别文本中的至少两个词语。

其中，待识别文本是指需要确定文本类型的文本，可以是一个完整的句子，也可以是多个句子的组合，还可以是一个篇章，具体本申请不做限定。待识别文本一般由多个词语组成；比如，待识别文本为“出货中，需要下单的宝妈快点来下单”，那么待识别文本中包含的至少两个词语为：出货、中、需要、下单、宝妈、快点、下单。

需要说明的是，待识别文本中的至少两个词语可以是两个或者两个以上词语，具体本申请不做限定。

具体地，服务器基于大数据技术，采集当前网络上未被召回的文本，作为待识别文本；对待识别文本进行分词处理，得到待识别文本中的至少两个词语。

进一步地，在得到待识别文本中包含的词语之后，为了避免有一些词语是停用词，比如“的”、“在”等，服务器还可以对得到的待识别文本中包含的词语进行过滤处理；比如，分别将待识别文本中包含的词语与预设的停用词进行匹配，若待识别文本中包含的词语与预设的停用词匹配成功，则将该词语识别为停用词，并进行舍弃；若待识别文本中包含的词语与预设的停用词匹配失败，则将该词语识别为有效的词语，并进行标记；将已标记的词语，作为待识别文本中的有效词语，从而得到待识别文本中的至少两个词语。这样，通过对得到的待识别文本中的词语进行停用词过滤处理，避免多余词语的干扰，从而使得提取的待识别文本中的词语更加准确，进一步提高了待识别文本中的词语的提取准确率。

在一个实施例中，服务器还可以从本地缓存的文本中，提取出待识别文本；对待识别文本进行分词处理，得到待识别文本中包含的词语；对待识别文本中包含的词语进行停用词过滤处理，以确认哪个词语是停用词，哪个词语不是停用词，从而得到待识别文本中包含的停用词，并对待识别文本中包含的停用词进行舍弃，得到待识别文本中包含的有效词语，作为最终得到的待识别文本中的至少两个词语。

S304，获取各个词语在语义维度下的词语编码，以及各个词语在至少两个文本分类维度下的词语编码。

其中，词语编码是指词向量，词向量是一个指定维度的实值向量，具体是指由一个空间的词语映射到另外一个空间的多维向量。此外，词语在语义维度下的词语编码是指将词语表示为含有语义信息的词向量；例如，词语“出货”在语义维度下的词语编码为：出货(A1，A2，A3······An)；其中，n表示该词语编码的维度。

其中，文本分类维度是指用于确定待识别文本的文本类型的分类角度，与文本类型存在一一对应的关系；且待识别文本的文本领域不一样，对应的文本分类维度也不一样；比如，就广告文本而言，文本分类维度可以是指正常、广告、疑似广告、骗赞关注、提及竞品等。此外，词语在至少两个文本分类维度下的词语编码，是指将词语表示为在至少两个文本分类维度下的词向量，且词语编码的维度与文本分类维度的个数一致。例如，词语“出货”在至少两个文本分类维度下的词语编码为：出货(B1，B2，B3······Bn)；其中，n表示该词语编码的维度，也表示文本分类维度的个数。

需要说明的是，至少两个文本分类维度可以是两个或者两个以上文本分类维度，具体本申请不做限定。

具体地，服务器对待识别文本中的至少两个词语进行语义维度的词语编码转换，得到各个词语在语义维度下的词语编码；识别待识别文本的文本领域标识，查询预设的文本领域标识与文本分类维度的对应关系，确定与该文本领域标识对应的至少两个文本分类维度；对待识别文本中的至少两个词语进行至少两个文本分类维度的词语编码转换，得到各个词语在至少两个文本分类维度下的词语编码；方便后续基于各个词语在语义维度下的词语编码，以及各个词语在至少两个文本分类维度下的词语编码，确定待识别文本在各个文本分类维度下的分类概率，从而得到待识别文本的文本识别结果；通过综合考虑待识别文本的词语编码的语义信息以及可解释性，有利于提高文本的识别准确率。

S306，将各个词语在语义维度下的词语编码，以及各个词语在至少两个文本分类维度下的词语编码进行连接处理，得到目标矩阵。

S308，根据目标矩阵，确定待识别文本在各个文本分类维度下的分类概率。

其中，目标矩阵是指由各个词语在语义维度下的词语编码以及各个词语在至少两个文本分类维度下的词语编码所连接而成的矩阵，比如词语A、词语B在语义维度下的词语编码分别为(A₁ A₂ A₃)、(B₁ B₂ B₃)；词语A、词语B在文本分类维度a、b和c下的词语编码分别为(A_a A_b A_c)、(B_a B_b B_c)；那么目标矩阵为：

其中，待识别文本在各个文本分类维度下的分类概率，是指待识别文本属于各个文本分类维度对应的文本类型的概率。需要说明的是，待识别文本在各个文本分类维度下的分类概率之和恒为1。

具体地，服务器根据各个词语在语义维度下的词语编码，构建待识别文本在语义维度下的矩阵；根据各个词语在至少两个文本分类维度下的词语编码，构建待识别文本在至少两个文本分类维度下的矩阵；将待识别文本在语义维度下的矩阵，以及待识别文本在至少两个文本分类维度下的矩阵进行连接处理，得到目标矩阵；对目标矩阵进行分析处理，得到待识别文本在各个文本分类维度下的分类概率；方便后续基于待识别文本在各个文本分类维度下的分类概率，确定对待识别文本的文本识别结果；从而实现了从多个文本识别维度对待识别文本进行判别的目的，避免简单地计算词语在整个训练文本中的出现频率，从而提高了待识别文本的类别区分能力，有利于实现文本的精准识别，进一步提高了文本的识别准确率。

S310，根据待识别文本在各个文本分类维度下的分类概率，确定对待识别文本的文本识别结果。

其中，对待识别文本的文本识别结果是指对待识别文本的审核结果，具体是指待识别文本的文本类型。

具体地，服务器根据待识别文本在各个文本分类维度下的分类概率，确定待识别文本的目标概率；根据待识别文本的目标概率，确定对待识别文本的文本识别结果。这样，通过获取对待识别文本的文本识别结果，有利于对不符合要求的文本进行过滤，从而提高了文本质量。

举例说明，服务器从待识别文本在各个文本分类维度下的分类概率中，筛选出最大的分类概率，作为待识别文本的目标概率；将目标概率所对应的文本分类维度，作为待识别文本的文本类型。

在一个实施例中，在确定对待识别文本的文本识别结果之后，服务器还可以接收终端的文本识别请求，文本识别请求中携带有文本标识；对文本识别请求进行解析，得到文本标识；从预先存储的多个待识别文本的文本识别结果中，确定与文本标识对应的待识别文本的文本识别结果，并将该文本识别结果推送至对应的终端；这样，有利于终端对应的用户对文本识别结果进行查看，以确定文本是否符合要求，进而做进一步的其它操作；避免了通过人工对文本进行审核，导致过程比较繁琐的缺陷，有利于节省大量的人力审核成本，从而提高了文本识别效率。

上述文本识别方法，通过提取的待识别文本中的至少两个词语在语义维度下的词语编码，以及在至少两个文本分类维度下的词语编码，得到目标矩阵，并根据目标矩阵，确定待识别文本在各个文本分类维度下的分类概率，进而确定对待识别文本的文本识别结果；实现了根据待识别文本中的至少两个词语在语义维度下的词语编码，以及在至少两个文本分类维度下的词语编码，得到对待识别文本的文本识别结果的目的；综合考虑了待识别文本的词语编码的语义信息以及可解释性，使得文本的识别更加准确，从而提高了文本的识别准确率；同时，综合考虑待识别文本中的至少两个词语在至少两个文本分类维度下的词语编码，有利于从多个文本识别维度对待识别文本进行判别，避免简单地计算词语在整个文本集合中的出现频率，从而提高了待识别文本的类别区分能力，有利于实现文本的精准识别，进一步提高了文本的识别准确率。此外，通过获取对待识别文本的文本识别结果，有利于对不符合要求的文本进行过滤，从而提高了文本质量。

如图4所示，在一个实施例中，步骤S302中提取待识别文本中的至少两个词语，具体包括如下步骤：

S402，对待识别文本进行分词处理，得到待识别文本中包含的词语。

具体地，服务器获取预设的分词处理文件，根据预设的分词处理文件对待识别文本进行分词处理；比如基于字符串匹配的分词方法、基于理解的分词方法、基于统计的分词方法等，对待识别文本进行分词处理，可以得到待识别文本中包含的词语。其中，分词处理文件是一种能够自动对待识别文本进行分词处理的算法文件。

当然，服务器还可以基于其他分词处理方法对待识别文本进行分词处理，具体本申请不做限定。

举例说明，若待识别文本为“出货中，需要下单的宝妈快点来下单”，那么经过服务器分词处理后，待识别文本中包含的词语为：出货、中、需要、下单、的、宝妈、快点、来、下单。

S404，对待识别文本中包含的各个词语进行过滤处理，得到待识别文本中的至少两个词语。

具体地，服务器获取预设的停用词过滤处理文件，根据预设的停用词过滤处理文件，对待识别文本中包含的各个词语进行过滤处理，以过滤掉待识别文本中包含的停用词，得到待识别文本中包含的有效词语，作为最终得到的待识别文本中的至少两个词语。其中，停用词过滤处理文件是一种能够自动对待识别文本中包含的停用词进行过滤处理的算法文件。

举例说明，若待识别文本“出货中，需要下单的宝妈快点来下单”中包含的词语为：出货、中、需要、下单、的、宝妈、快点、来、下单，那么经过服务器过滤处理后，确定的停用词为：的、来，则最终得到的待识别文本中的至少两个词语为：出货、中、需要、下单、宝妈、快点、下单。

进一步地，服务器还可以获取预设的停用词标识符，停用词标识符是指用于标识停用词的标识信息；获取待识别文本中包含的词语对应的标识符，分别将待识别文本中包含的词语对应的标识符与停用词标识符进行匹配，若匹配成功，则将该词语识别为停用词，从而得到待识别文本中包含的停用词，并对待识别文本中包含的停用词进行舍弃，得到待识别文本中包含的有效词语，作为最终得到的待识别文本中的至少两个词语。

在本实施例中，通过对待识别文本进行分词处理以及过滤处理，得到待识别文本中的至少两个词语，有利于避免多余词语干扰，从而使得提取的待识别文本中的词语更加准确，进一步提高了待识别文本中的词语的提取准确率。

如图5所示，在一个实施例中，步骤S304中获取各个词语在语义维度下的词语编码，以及各个词语在至少两个文本分类维度下的词语编码，具体包括如下步骤：

S502，分别将各个词语输入预先训练的词编码模型中，得到各个词语在语义维度下的词语编码；预先训练的词编码模型用于生成各个词语在语义维度下的词语编码。

其中，预先训练的词编码模型是一种能够将词语映射为语义维度下的词语编码的模型，比如word embedding模型；是通过历史数据多次训练得到的。

具体地，服务器分别将各个词语输入预先训练的词编码模型中，通过预先训练的词编码模型对各个词语进行语义维度下的词语编码转换，得到各个词语在语义维度下的词语编码。

进一步地，服务器还可以采用现有的word embedding技术，对各个词语进行语义维度下的词语编码转换，得到各个词语在语义维度下的词语编码。

举例说明，若待识别文本中的一个词语为“出货”，则服务器基于现有的wordembedding技术，将词语“出货”转换为含有语义信息的64维词向量。

S504，分别获取各个词语在至少两个文本分类维度下的统计概率。

其中，词语在至少两个文本分类维度下的统计概率是指存在至少两个文本分类维度的情况下，词语在每个文本分类维度下的一个统计概率，即词语在每个文本分类维度下的一个后验概率；用于表示词语在至少两个文本分类维度下的概率分布，能较好地处理线上反馈的紧急badcase；比如在面对线上反馈的紧急badcase时，可以直接使用其来调整文本识别结果。

具体地，服务器通过预设的朴素贝叶斯模型，分别统计每个词语在各个文本分类维度下的后验概率，作为每个词语在各个文本分类维度下的统计概率，从而得到各个词语在至少两个文本分类维度下的统计概率；其中，预设的朴素贝叶斯模型是一种能够统计每个词语在各个文本分类维度下的后验概率的模型。

S506，根据各个词语在至少两个文本分类维度下的统计概率，得到各个词语在至少两个文本分类维度下的词语编码。

具体地，服务器将各个词语在至少两个文本分类维度下的统计概率进行组合，得到各个词语在至少两个文本分类维度下的词语编码。

举例说明，若待识别文本中的一个词语为词语A，至少两个文本分类维度为文本分类维度a、文本分类维度b、文本分类维度c；词语A在文本分类维度a下的统计概率为a1，词语A在文本分类维度b下的统计概率为b1，词语A在文本分类维度c下的统计概率为c1，那么词语A在文本分类维度a、文本分类维度b以及文本分类维度c下的词语编码为A(a1，b1，c1)。

在本实施例中，通过获取各个词语在语义维度下的词语编码，以及各个词语在至少两个文本分类维度下的词语编码，有利于综合考虑待识别文本的词语编码的语义信息以及可解释性，使得后续基于各个词语在语义维度下的词语编码，以及各个词语在至少两个文本分类维度下的词语编码的文本识别更加准确，从而提高了文本的识别准确率。

如图6所示，在一个实施例中，步骤S504中分别获取各个词语在至少两个文本分类维度下的统计概率，具体包括如下步骤：

S602，分别获取各个文本分类维度下的文本比例。

其中，各个文本分类维度下的文本比例是指每个文本分类维度下的文本数目在整个文本集合中的比例，具体是指各个文本分类维度的先验概率。

具体地，服务器获取各个文本分类维度下的文本数目以及整个文本集合中的文本数目，分别计算各个文本分类维度下的文本数目与整个文本集合中的文本数目的比例，作为各个文本分类维度下的文本比例。

进一步地，服务器还可以通过下述公式计算得到各个文本分类维度下的文本比例：

其中，y_c表示文本分类维度c，P(y_c)表示文本分类维度c下的文本比例，也称为文本分类维度c下的先验概率，N_D表示整个文本集合D的文本数目，L_j表示文本j所属的文本分类维度，

表示文本分类维度c下的文本数目。

S604，分别获取各个文本分类维度下，出现各个词语的条件概率。

具体地，服务器分别获取每个文本分类维度下，出现各个词语的条件概率，从而得到各个文本分类维度下，出现各个词语的条件概率。

S606，根据各个文本分类维度下的文本比例，以及各个文本分类维度下，出现各个词语的条件概率，确定各个词语在至少两个文本分类维度下的统计概率。

具体地，服务器分别将各个文本分类维度下的文本比例，与对应的文本分类维度下，出现待识别文本中的一个词语的条件概率进行相乘，得到对应的乘积，并将各个对应的乘积进行相加，得到第一目标值；分别获取各个文本分类维度下的文本比例，与对应文本分类维度下，出现待识别文本中的一个词语的条件概率的乘积，与第一目标值的比值，作为待识别文本中的一个词语在至少两个文本分类维度下的统计概率；以此类推，得到待识别文本中的各个词语在至少两个文本分类维度下的统计概率。

举例说明，假设待识别文本中的一个词语为第一词语，文本分类维度包括第一文本分类维度和第二文本分类维度，第一文本分类维度下的文本比例为第一文本比例，第二文本分类维度下的文本比例为第二文本比例，第一文本分类维度下出现第一词语的条件概率为第一条件概率，第二文本分类维度下出现第一词语的条件概率为第二条件概率，第一词语在第一文本分类维度下的统计概率为第一统计概率，第一词语在第二文本分类维度下的统计概率为第二统计概率，则

第一统计概率＝(第一条件概率×第一文本比例)/(第一条件概率×第一文本比例+第二条件概率×第二文本比例)；

第二统计概率＝(第二条件概率×第二文本比例)/(第一条件概率×第一文本比例+第二条件概率×第二文本比例)。

进一步地，服务器还可以通过下述朴素贝叶斯公式，得到各个词语在至少两个文本分类维度下的统计概率:

其中，y_c表示文本分类维度c，x_i表示词语i，k表示所有文本分类维度中的任意一个文本分类维度，All Label表示所有的文本分类维度，P(y_c|x_i)表示词语i在文本分类维度c下的统计概率，也称为词语i在文本分类维度c下的后验概率，P(x_i|y_c)表示文本分类维度c下，出现词语i的条件概率，P(y_c)表示文本分类维度c下的文本比例，也称为文本分类维度c的后验概率；P(x_i|y_k)表示任意文本分类维度k下，出现词语i的条件概率，P(y_k)表示任意文本分类维度k下的文本比例。

在本实施例中，通过获取各个词语在至少两个文本分类维度下的统计概率，有利于后续根据各个词语在至少两个文本分类维度下的统计概率，得到各个词语在至少两个文本分类维度下的词语编码；同时综合考虑了各个词语在至少两个文本分类维度下的统计概率，有利于从多个文本识别维度对待识别文本进行判别，避免简单地计算词语在整个文本集合中的出现频率，从而提高了待识别文本的类别区分能力，有利于实现文本的精准识别，进一步提高了文本的识别准确率。

如图7所示，在一个实施例中，步骤S604中分别获取各个文本分类维度下，出现各个词语的条件概率，具体包括如下步骤：

S702，分别获取各个词语在待识别文本中的词频。

其中，词频用于表示词语在待识别文本中的出现频率。

具体地，服务器分别统计各个词语在待识别文本中的出现频率，将各个词语在待识别文本中的出现频率，作为各个词语在待识别文本中的词频。

进一步地，服务器还可以通过下述公式计算各个词语在待识别文本中的词频：

其中，TF_i,j表示词语i在文本j中的词频，n_i,j表示词语i在文本j中的出现次数，w为文本j中出现的所有词语，n_k,j表示w中任意一个词语k在文本j中的出现次数。

S704，分别获取各个词语在各个文本分类维度下的权重。

其中，词语在一个文本分类维度下的权重，用于从与该文本分类维度互斥的文本分类维度，衡量词语在该文本分类维度下的重要性；具体表示在与该文本分类维度互斥的文本分类维度下，出现该词语的文本比例的倒数。

具体地，服务器分别统计每个词语在各个文本分类维度下的权重，从而得到各个词语在各个文本分类维度下的权重。

进一步地，当线上反馈某个词语对某个文本分类维度学到的权重有问题的时候，通过调整该词语在某个文本分类维度下的权重，使得该词语在某个文本分类维度下的权重变大或变小，从而调整词语在某个文本分类维度下的统计概率，进而调整文本识别结果。

S706，根据各个词语在待识别文本中的词频、各个词语在各个文本分类维度下的权重，得到各个文本分类维度下，出现各个词语的条件概率。

具体地，服务器将词语在待识别文本中的词频，分别与词语在各个文本分类维度下的权重进行相乘，得到词语在各个文本分类维度下的特征值，以此类推，可以得到各个词语在各个文本分类维度下的特征值；根据各个词语在各个文本分类维度下的特征值，得到各个文本分类维度下，出现各个词语的条件概率。

进一步地，服务器还可以通过下述公式计算词语在文本分类维度下的特征值：

CRTFIDF_i,j＝TF_i,j×CRIDF_i,c；

其中，CRTFIDF_i,j表示文本j中的词语i在文本分类维度c下的特征值，TF_i,j表示词语i在文本j中的词频，CRIDF_i,c表示文本j中的词语i在文本分类维度c下的权重。

进一步地，服务器还可以通过下述公式计算得到各个文本分类维度下，出现各个词语的条件概率：

其中，P(x_i|y_c)表示文本分类维度c下，出现词语i的条件概率，CRTFIDF_i,j表示文本j中的词语i在文本分类维度c下的特征值，w为文本j中出现的所有词语，k表示所有词语w中的任意一个词语，L_j表示文本j所属的文本分类维度。

在本实施例中，通过获取各个文本分类维度下，出现各个词语的条件概率，方便后续基于各个文本分类维度下，出现各个词语的条件概率，确定各个词语在至少两个文本分类维度下的统计概率。

如图8所示，在一个实施例中，步骤S704中分别获取各个词语在各个文本分类维度下的权重，具体包括如下步骤：

S802，分别获取与各个文本分类维度互斥的文本分类维度下，出现各个词语的文本比例。

具体地，服务器获取与文本分类维度互斥的文本分类维度下的第一文本数目，以及与文本分类维度互斥的文本分类维度下，出现词语的第二文本数目；获取第二文本数目与第一文本数目的比值，作为与文本分类维度互斥的文本分类维度下，出现词语的文本比例；以此类推，可以得到与各个文本分类维度互斥的文本分类维度下，出现词语的文本比例，进而得到与各个文本分类维度互斥的文本分类维度下，出现各个词语的文本比例。

举例说明，若有三个文本分类维度，分别是文本分类维度a、文本分类维度b、文本分类维度c；与文本分类维度a互斥的文本分类维度b以及文本分类维度c下的第一文本数目为n，与文本分类维度a互斥的文本分类维度b以及文本分类维度c下，出现词语A的第二文本数目为m，则在与文本分类维度a互斥的文本分类维度b以及文本分类维度c下，出现词语A的文本比例为m/n。

S804，根据与各个文本分类维度互斥的文本分类维度下，出现各个词语的文本比例，确定各个词语在各个文本分类维度下的权重。

具体地，服务器获取与文本分类维度互斥的文本分类维度下，出现词语的文本比例的倒数，作为目标比例；获取目标比例的对数，作为词语在文本分类维度下的权重；以此类推，可以得到词语在各个文本分类维度下的权重，进而得到各个词语在各个文本分类维度下的权重。

举例说明，若在与文本分类维度a互斥的文本分类维度b以及文本分类维度c下，出现词语A的文本比例为m/n，则目标比例为n/m，那么词语A在文本分类维度a下的权重为log(n/m)。

需要说明的是，考虑到词语A有可能不出现在整个文本集合中，需要将目标比例转化为n/(m+1)，则词语A在文本分类维度a下的权重为log[n/(m+1)]。

进一步地，服务器还可以通过下述公式计算词语在文本分类维度下的权重：

其中，CRIDF_i,c表示文本j中的词语i在文本分类维度c下的权重，L_j表示文本j所属的文本分类维度，表示整个文本集合中不属于文本分类维度c的文本数目，

表示在不属于文本分类维度c下，出现词语i的文本数目。

在本实施例中，通过与各个文本分类维度互斥的文本分类维度下，出现各个词语的文本比例，确定各个词语在各个文本分类维度下的权重，有利于从与文本分类维度互斥的文本分类维度，衡量词语在所述文本分类维度下的重要性，避免简单地计算词语在整个文本集合中的出现频率，从而提高了待识别文本的类别区分能力，有利于后续实现文本的精准识别，进一步提高了文本的识别准确率。

如图9所示，在一个实施例中，步骤S306中将各个词语在语义维度下的词语编码，以及各个词语在至少两个文本分类维度下的词语编码进行连接处理，得到目标矩阵，具体包括如下步骤：

S902，根据各个词语在语义维度下的词语编码，得到第一矩阵。

其中，第一矩阵是指由各个词语在语义维度下的词语编码构建而成的矩阵。

具体地，服务器将各个词语在语义维度下的词语编码进行组合，得到第一矩阵。

举例说明，若待识别文本中有三个词语，分别是词语A，词语B，词语C，那么词语A在语义维度下的词语编码为(A₁ A₂ A₃ … A_n)，词语B在语义维度下的词语编码为(B₁ B₂ B₃… B_n)，词语C在语义维度下的词语编码为(C₁ C₂ C₃ … C_n)，则第一矩阵为：

S904，根据各个词语在至少两个文本分类维度下的词语编码，得到第二矩阵。

其中，第二矩阵是指由各个词语在至少两个文本分类维度下的词语编码构建而成的矩阵。

具体地，服务器将每个词语在至少两个文本分类维度下的词语编码进行组合，得到第二矩阵。

举例说明，结合上述实施例，若有三个文本分类维度，分别是文本分类维度a、文本分类维度b、文本分类维度c，那么词语A在文本分类维度a、b和c下的词语编码为(A_a A_b A_c)，词语B在文本分类维度a、b和c下的词语编码为(B_a B_b B_c)，词语C在文本分类维度a、b和c下的词语编码为(C_a C_b C_c)，则第二矩阵为：

S906，将第一矩阵以及第二矩阵进行连接处理，得到目标矩阵。

其中，目标矩阵是指由第一矩阵以及第二矩阵连接而成的矩阵。

具体地，服务器获取预设的矩阵连接处理文件，根据预设的矩阵连接处理文件，对第一矩阵以及第二矩阵进行连接处理，得到目标矩阵。其中，预设的矩阵连接处理文件是一种能够自动将矩阵进行连接处理的算法文件，比如concat算法文件。

举例说明，结合上述实施例，第一矩阵为3×n的矩阵，第二矩阵为3×3的矩阵，则将第一矩阵以及第二矩阵进行连接处理，得到的目标矩阵为3×(n+3)的矩阵：

需要说明的是，第一矩阵和第二矩阵的行数相等，都是指待识别文本的词语的个数；第一矩阵的列数是指语义维度的维数，第二矩阵的列数是指文本分类维度的个数。

在本实施例中，根据各个词语在语义维度下的词语编码构建而成的第一矩阵，以及各个词语在至少两个文本分类维度下的词语编码构建而成的第二矩阵，得到目标矩阵；综合考虑了待识别文本的词语编码的语义信息以及可解释性，使得后续文本的识别更加准确，从而提高了文本的识别准确率；同时有利于后续根据目标矩阵，准确确定待识别文本在各个文本分类维度下的分类概率，从而实现了从多个文本识别维度对待识别文本进行判别的目的，进一步提高了文本的识别准确率。

如图10所示，在一个实施例中，步骤S308中根据目标矩阵，确定待识别文本在各个文本分类维度下的分类概率，具体包括如下步骤：

S1002，分别根据预设的多个卷积层，对目标矩阵进行卷积处理，得到多个不同长度的文本特征编码。

其中，卷积层用于对目标矩阵进行卷积处理，一般包括多个卷积核；文本特征编码是指通过卷积处理后得到的文本特征向量，一般经过卷积处理后得到的文本特征编码的长度不一。

具体地，服务器获取预设的多个卷积层，分别根据预设的每个卷积层，对目标矩阵进行卷积处理，得到多个不同长度的文本特征编码。

S1004，对多个不同长度的文本特征编码进行最大池化处理，得到目标特征编码。

其中，目标特征编码是指通过最大池化处理后得到的特征向量。

具体地，服务器分别对多个不同长度的文本特征编码进行最大池化处理，得到多个相同长度的文本特征编码；对多个相同长度的文本特征编码进行连接处理，得到目标特征编码；这样，避免了得到的多个文本特征编码受不同长度影响。

S1006，分别根据预设的多个文本分类维度下的卷积核，对目标特征编码进行卷积处理，得到待识别文本在各个文本分类维度下的分类编码。

其中，分类编码是指经过文本分类维度下的卷积核处理后得到的向量。

具体地，服务器获取预设的多个文本分类维度下的卷积核，分别根据预设的各个文本分类维度下的卷积核，对目标特征编码进行卷积处理，得到待识别文本在各个文本分类维度下的分类编码。

S1008，对待识别文本在各个文本分类维度下的分类编码进行归一化处理，得到待识别文本在各个文本分类维度下的分类概率。

具体地，服务器对待识别文本在各个文本分类维度下的分类编码进行归一化处理，是指将对待识别文本在各个文本分类维度下的分类编码映射为属于[0,1]的数值，以作为待识别文本在各个文本分类维度下的分类概率。

举例说明，若目标矩阵为7×69的矩阵，预设的卷积层有3个，每个卷积层有8个卷积核；具体来说，第一个卷积层中的卷积核的大小均为69×2，第二个卷积层中的卷积核的大小均为69×3，第三个卷积层中的卷积核的大小均为69×4，分别根据第一个卷积层、第二个卷积层、第三个卷积层中的卷积核，对目标矩阵进行卷积处理，从而得到8个长度为6的文本特征向量，8个长度为5的文本特征向量以及8个长度为4的文本特征向量，一共24个文本特征向量。分别对24个文本特征向量进行最大池化处理，得到多个相同长度的文本特征向量；对多个相同长度的文本特征向量进行concat处理，得到1个24维的目标特征向量；对该24维的目标特征向量进行全连接处理，得到待识别文本在各个文本分类维度下的向量；对待识别文本在各个文本分类维度下的向量进行Softmax处理，得到待识别文本在各个文本分类维度下的分类概率。

在本实施例中，通过对得到的目标矩阵进行处理，可以得到待识别文本在各个文本分类维度下的分类概率，方便后续从多个文本分类维度，对待识别文本进行判别，使得文本的识别更加准确，从而提高了文本的识别准确率。

如图11所示，在另一个实施例中，步骤S308中根据目标矩阵，确定待识别文本在各个文本分类维度下的分类概率，具体包括如下步骤：

S1102，将目标矩阵输入预先训练的文本分类模型中。

其中，预先训练的文本分类模型是一种能够对文本进行分类的卷积神经网络模型，比如TextCNN模型。

S1104，通过预先训练的文本分类模型，基于预设的多个卷积层，对目标矩阵进行卷积处理，得到多个不同长度的文本特征编码；对多个不同长度的文本特征编码进行最大池化处理，得到目标特征编码；分别根据预设的多个文本分类维度下的卷积核，对目标特征编码进行卷积处理，得到待识别文本在各个文本分类维度下的分类编码；对待识别文本在各个文本分类维度下的分类编码进行归一化处理，得到待识别文本在各个文本分类维度下的分类概率。

在本实施例中，通过预先训练的文本分类模型对得到的目标矩阵进行处理，可以得到待识别文本在各个文本分类维度下的分类概率，方便后续从多个文本分类维度，对待识别文本进行判别，使得文本的识别更加准确，从而提高了文本的识别准确率。

进一步地，如图12所示，上述实施例中的文本分类模型可以通过下述方式训练得到：

S1202，获取样本文本的目标矩阵以及在预设文本分类维度下的实际分类概率。

S1204，根据样本文本的目标矩阵，对待训练的文本分类模型进行训练，得到训练后的文本分类模型。

具体地，服务器通过不同样本文本的目标矩阵，对待训练的文本分类模型进行多次训练。

S1206，获取训练后的文本分类模型输出的预设文本分类维度下的分类概率与对应的实际分类概率之间的预测误差。

S1208，当预测误差大于或等于预设阈值时，根据预测误差调整文本分类模型的网络参数，得到调整后的文本分类模型，并对调整后的文本分类模型进行反复训练，直至根据训练后的文本分类模型得到的预测误差小于预设阈值。

具体地，在预测误差大于或等于预设阈值的情况下，服务器不断调整文本分类模型中的网络参数，并根据样本文本的目标矩阵对调整后的文本分类模型进行反复训练，直至根据训练后的文本分类模型得到的预测误差小于预设阈值，将当前的文本分类模型作为预先训练的文本分类模型。

进一步地，采用预先训练的文本分类模型可以获得待识别文本在各个文本分类维度下的分类概率，从而确定对待识别文本的文本识别结果，方便后续根据用户请求将相应的文本识别结果推送至对应的用户。

在本实施例中，服务器通过对文本分类模型进行反复训练，可以提高文本分类模型预测得到的待识别文本在文本分类维度下的分类概率的准确率，使得后续的文本识别更加准确，从而提高了文本的识别准确率。

如图13所示，在一个实施例中，步骤S308根据待识别文本在各个文本分类维度下的分类概率，确定对待识别文本的文本识别结果，具体包括如下步骤：

S1302，从待识别文本在各个文本分类维度下的分类概率中，筛选出最大的分类概率。

S1304，将最大的分类概率所对应的文本分类维度，作为待识别文本的文本类型。

具体地，服务器将最大的分类概率所对应的文本分类维度的文本类型，作为待识别文本的文本类型。

举例说明，若待识别文本在文本分类维度a、b、c下的分类概率分别为50％、30％、20％，则将文本分类维度a对应的文本类型，作为待识别文本的文本类型。

在本实施例中，实现了根据待识别文本在各个文本分类维度下的分类概率，确定对待识别文本的文本识别结果的目的，综合考虑待识别文本在多个文本分类维度下的分类概率，有利于从多个维度对待识别文本进行识别，从而提高了文本的识别准确率。

如图14所示，在一个实施例中，步骤S1304中，在将最大的分类概率所对应的文本分类维度，作为待识别文本的文本类型之后，还包括：

S1402，从待识别文本在各个文本分类维度下的分类概率中，筛选出大于或等于预设概率的分类概率。

S1404，将大于或等于预设概率的分类概率所对应的文本分类维度，作为待识别文本的文本标签。

其中，待识别文本的文本标签用于标识待识别文本的关键信息。

举例说明，若待识别文本在文本分类维度a、b、c下的分类概率分别为50％、45％、5％，预设概率为40％，则将文本分类维度a、b对应的分本类型，均作为待识别文本的文本标签。

本实施例中，通过将大于或等于预设概率的分类概率所对应的文本分类维度，作为待识别文本的文本标签，有利于准确地标识待识别文本的关键信息。

如图15所示，在一个实施例中，本申请的文本识别方法还包括存储待识别文本的步骤，具体包括如下步骤：

S1502，获取待识别文本的文本标识。

其中，文本标识是指用于标识待识别文本的标识信息，比如文本编号、文本名称等。

具体地，服务器为待识别文本分配对应的文本编号，比如1、2、3等，并将文本编号作为待识别文本的文本标识。

进一步地，服务器还可以获取待识别文本的文本名称，并将文本名称作为待识别文本的文本标识。

S1504，将待识别文本按照文本标识存储至预设数据库中；预设数据库中存储的待识别文本中携带有文本标签以及文本类型。

具体地，服务器将待识别文本按照文本标识存储至Redis数据库中，以通过Redis数据库存储多个待识别文本以及待识别文本对应的文本标签、文本类型。当然，服务器还可以采用其他缓存方式将待识别文本进行存储。

进一步地，在将待识别文本按照文本标识存储至预设数据库中之后，在用户发起文本识别请求时，服务器还可以从预设数据库中提取出相应的文本标签以及文本类型，并将该文本标签以及文本类型推送至对应的用户。

本实施例中，实现了将待识别文本的文本类型以及文本标签进行存储的目的，便于后续根据用户发起的文本识别请求，准确地将对应的文本标签以及文本类型推送至对应的用户，无需通过人工审核文本，大大降低了人力成本，从而提高了文本识别效率。

在一个实施例中，本申请还提供了另一种文本识别方法，该文本识别方法可以应用于如图16所示的应用环境图中。参照图16，该文本识别方法应用于文本审核系统。该文本审核系统包括用户终端1610和服务器1620；用户终端1610与服务器1620通过网络连接。用户终端具体可以是台式终端或者移动终端，移动终端具体可以是手机、平板电脑、笔记本电脑等中的至少一种。服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现，具体可以是公有云服务器、私有云服务器。

如图17所示，在一个实施例中，提供了另一种文本识别方法。本实施例主要以该方法应用于上述图16中的服务器1620来举例说明。参照图17，该文本识别方法具体包括如下步骤：

S1702，接收终端发送的文本识别请求；文本识别请求中携带有文本标识。

举例说明，如图18所示，用户在终端的文本审核界面上选择需要审核的文本，并点击审核按钮，触发终端基于用户已选择的文本，生成文本识别请求，并将该文本识别请求发送至对应的服务器。

S1704，从预设数据库中确定与文本标识对应的文本。

其中，预设数据库中存储了多个文本的文本类型以及文本标签。

具体地，服务器根据文本标识查询预设数据库，从预设数据库中确定与文本标识对应的文本，从而获取与文本对应的文本类型以及文本标签。

进一步地，服务器除了从预设数据库中获取与文本标识对应的文本所对应的文本类型以及文本标签之外，还可以实时确定文本标识对应的文本的文本类型以及文本标签。

例如，服务器获取与文本标识对应的文本，提取文本中的至少两个词语；获取各个词语在语义维度下的词语编码，以及各个词语在至少两个文本分类维度下的词语编码；根据各个词语在语义维度下的词语编码，以及各个词语在至少两个文本分类维度下的词语编码，确定文本在各个文本分类维度下的分类概率；将最大的分类概率所对应的文本分类维度，作为文本的文本类型；将大于或等于预设概率的分类概率所对应的文本分类维度，作为文本的文本标签；从而得到文本的文本类型以及文本标签。

S1706，将文本对应的文本类型以及文本标签推送至终端。

具体地，服务器将文本对应的文本类型以及文本标签推送至对应的终端，以通过终端的文本审核界面展示文本对应的文本类型以及文本标签，方便用户查看文本是否符合要求。

请参照图18，以文本审核应用程序为例进行说明。用户终端安装有文本审核应用程序，假设用户在文本审核应用程序上的文本审核界面上选择文本A，并点击审核按钮，即可触发文本识别请求，并通过终端将该文本识别请求发送至腾讯云服务器。腾讯云服务器根据文本识别请求，从预设数据库中获取文本A的文本类型以及文本标签，或者实时确定文本A的文本类型以及文本标签(具体参见本申请上述文本识别方法的实施例)，并将文本A的文本类型以及文本标签推送至文本审核应用程序，以通过该文本审核应用程序的文本审核界面展示文本A的文本类型以及文本标签。

需要说明的是，本申请的文本识别方法除了应用于上述文本审核场景外，还可以应用于其他场景中，具体本申请不做限定。

在本实施例中，实现了根据文本识别请求，将相应的文本的文本类型以及文本标签推送至对应的用户的目的，无需通过人工审核文本，从而提高了文本识别效率，大大降低了人工审核成本。

如图19所示，在一个实施例中，提供了又一种文本识别方法。本实施例主要以该方法应用于上述图16中的服务器1620来举例说明。参照图19，该文本识别方法具体包括如下步骤：

S1902，接收终端发送的文本识别请求；文本识别请求中携带有待识别文本。

S1904，提取待识别文本中的至少两个词语。

具体地，服务器对待识别文本进行分词处理，得到待识别文本中包含的词语；对待识别文本中包含的各个词语进行过滤处理，得到待识别文本中的至少两个词语。

S1906，分别将各个词语输入预先训练的词编码模型中，得到各个词语在语义维度下的词语编码；预先训练的词编码模型用于生成各个词语在语义维度下的词语编码。

S1908，分别获取各个文本分类维度下的文本比例。

S1910，分别获取各个文本分类维度下，出现各个词语的条件概率。

具体地，服务器分别获取各个词语在所述待识别文本中的词频；分别获取与各个文本分类维度互斥的文本分类维度下，出现各个词语的文本比例；根据与各个文本分类维度互斥的文本分类维度下，出现各个词语的文本比例，确定各个词语在各个文本分类维度下的权重；根据各个词语在待识别文本中的词频、各个词语在各个文本分类维度下的权重，得到各个文本分类维度下，出现各个词语的条件概率。

S1912，根据各个文本分类维度下的文本比例，以及各个文本分类维度下，出现各个词语的条件概率，确定各个词语在至少两个文本分类维度下的统计概率。

S1914，根据各个词语在至少两个文本分类维度下的统计概率，得到各个词语在至少两个文本分类维度下的词语编码。

S1916，将各个词语在语义维度下的词语编码，以及各个词语在至少两个文本分类维度下的词语编码进行连接处理，得到目标矩阵。

具体地，服务器根据各个词语在语义维度下的词语编码，得到第一矩阵；根据各个词语在至少两个文本分类维度下的词语编码，得到第二矩阵；将第一矩阵以及所述第二矩阵进行连接处理，得到目标矩阵。

S1918，根据目标矩阵，确定待识别文本在各个文本分类维度下的分类概率。

具体地，服务器分别根据预设的多个卷积层，对目标矩阵进行卷积处理，得到多个不同长度的文本特征编码；对多个不同长度的文本特征编码进行最大池化处理，得到目标特征编码；分别根据预设的多个文本分类维度下的卷积核，对目标特征编码进行卷积处理，得到待识别文本在各个文本分类维度下的分类编码；对待识别文本在各个文本分类维度下的分类编码进行归一化处理，得到待识别文本在各个文本分类维度下的分类概率。

S1920，根据待识别文本在各个文本分类维度下的分类概率，确定对待识别文本的文本识别结果。

具体地，服务器从待识别文本在各个文本分类维度下的分类概率中，筛选出最大的分类概率；将最大的分类概率所对应的文本分类维度，作为待识别文本的文本类型，从而得到对待识别文本的文本识别结果。

进一步地，服务器还可以从待识别文本在各个文本分类维度下的分类概率中，筛选出大于或等于预设概率的分类概率；将大于或等于预设概率的分类概率所对应的文本分类维度，作为待识别文本的文本标签。

S1922，将待识别文本的文本识别结果推送至对应的终端。

在本实施例中，实现了根据待识别文本中的至少两个词语在语义维度下的词语编码，以及在至少两个文本分类维度下的词语编码，得到对待识别文本的文本识别结果的目的；综合考虑了待识别文本的词语编码的语义信息以及可解释性，使得文本的识别更加准确，从而提高了文本的识别准确率；同时，综合考虑待识别文本中的至少两个词语在至少两个文本分类维度下的词语编码，有利于从多个文本识别维度对待识别文本进行判别，避免简单地计算词语在整个文本集合中的出现频率，从而提高了待识别文本的类别区分能力，有利于实现文本的精准识别，进一步提高了文本的识别准确率。此外，通过获取对待识别文本的文本识别结果，有利于对不符合要求的文本进行过滤，从而提高了文本质量。

如图20所示，图20为一个实施例中的广告识别方法的流程示意图。在一个实施例中，提供了一种广告识别方法，本实施例主要以该方法应用于上述图16中的服务器1620来举例说明。

参照图20，该广告识别方法具体包括如下内容：服务器提取待识别广告中的至少两个词语；例如，服务器对标签为0的广告(也称为句子i)“出货中，需要下单的宝妈快点来下单”进行分词处理以及停用词过滤处理，得到广告中的至少两个词语：出货、中、需要、下单、宝妈、快点、下单。服务器获取各个词语在语义维度下的词语编码，以及各个词语在至少两个文本标签下的词语编码；例如，服务器将得到的广告中的至少两个词语分两个流程进行处理，第一个流程是服务器利用word embedding技术直接获得各个词语对应的含有语义的词向量，第二个流程是服务器计算每个词语在当前句子中的CR-TF-IDF特征值(具体参考本申请计算CRTFIDF_i,j的实施例)，比如CR-TF-IDF<出货，j>，CR-TF-IDF<中，j>、CR-TF-IDF<需要，j>、CR-TF-IDF<下单，j>、CR-TF-IDF<宝妈，j>以及CR-TF-IDF<快点，j>；并通过朴素贝叶斯针对每个词语的CR-TF-IDF特征值，计算每个词语在文本标签下的分类概率(具体参考本申请计算P(y_c|x_i)的实施例)，作为每个词语在文本标签下的CR-TF-IDF词向量。服务器根据各个词语在语义维度下的词语编码，以及各个词语在至少两个文本标签下的词语编码，确定待识别广告在各个文本标签下的分类概率；例如，服务器根据各个词语对应的含有语义的词向量，构建第一矩阵；根据每个词语在文本标签下的CR-TF-IDF词向量，构建第二矩阵；将第一矩阵以及第二矩阵进行concat处理，得到目标矩阵，将目标矩阵作为TextCNN网络的输入，通过TextCNN网络对目标矩阵进行一系列处理，得到句子i对应每个文本标签的分类概率。服务器根据待识别广告在各个文本标签下的分类概率，确定对待识别广告的广告识别结果；例如，有5个文本标签，分别是0正常，1广告，2疑似广告，3骗赞关注，4提及竞品，若待识别广告在0正常中的分类概率最大，则确认待识别广告没有广告嫌疑，合规；若待识别广告在其它文本标签中的分类概率最大，则确认待识别广告不合规。

在本实施例中，实现了根据待识别广告中的至少两个词语在语义维度下的词语编码，以及在至少两个文本标签下的词语编码，得到对待识别广告的广告识别结果的目的；综合考虑了待识别广告的词语编码的语义信息以及可解释性，使得广告的识别更加准确，从而提高了广告的识别准确率；同时，综合考虑待识别广告中的至少两个词语在至少两个文本标签下的词语编码，有利于从多个维度对待识别广告进行判别，避免简单地计算词语在整个文本集合中的出现频率，从而提高了待识别广告的类别区分能力，有利于实现广告的精准识别，进一步提高了广告的识别准确率。

应该理解的是，虽然图3-15、17、19的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图3-15、17、19中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

如图21所示，在一个实施例中，提供了一种文本识别装置2100，该装置2100包括：词语提取模块2102，词语编码获取模块2104，目标矩阵获取模块2106，分类概率获取模块2108以及文本识别模块2110，其中：

词语提取模块2102，用于提取待识别文本中的至少两个词语。

词语编码获取模块2104，用于获取各个词语在语义维度下的词语编码，以及各个词语在至少两个文本分类维度下的词语编码。

目标矩阵获取模块2106，用于将各个词语在语义维度下的词语编码，以及各个词语在至少两个文本分类维度下的词语编码进行连接处理，得到目标矩阵。

分类概率获取模块2108，用于根据目标矩阵，确定待识别文本在各个文本分类维度下的分类概率。

文本识别模块2110，用于根据待识别文本在各个文本分类维度下的分类概率，确定对待识别文本的文本识别结果。

在一个实施例中，词语提取模块2102还用于对待识别文本进行分词处理，得到待识别文本中包含的词语；对待识别文本中包含的各个词语进行过滤处理，得到待识别文本中的至少两个词语。

在一个实施例中，词语编码获取模块2104还用于分别将各个词语输入预先训练的词编码模型中，得到各个词语在语义维度下的词语编码；预先训练的词编码模型用于生成各个词语在语义维度下的词语编码；分别获取各个词语在至少两个文本分类维度下的统计概率；根据各个词语在至少两个文本分类维度下的统计概率，得到各个词语在至少两个文本分类维度下的词语编码。

在一个实施例中，词语编码获取模块2104还用于分别获取各个文本分类维度下的文本比例；分别获取各个文本分类维度下，出现各个词语的条件概率；根据各个文本分类维度下的文本比例，以及各个文本分类维度下，出现各个词语的条件概率，确定各个词语在至少两个文本分类维度下的统计概率。

在一个实施例中，词语编码获取模块2104还用于分别获取各个词语在待识别文本中的词频；分别获取各个词语在各个文本分类维度下的权重；根据各个词语在待识别文本中的词频、各个词语在各个文本分类维度下的权重，得到各个文本分类维度下，出现各个词语的条件概率。

在一个实施例中，词语编码获取模块2104还用于分别获取与各个文本分类维度互斥的文本分类维度下，出现各个词语的文本比例；根据与各个文本分类维度互斥的文本分类维度下，出现各个词语的文本比例，确定各个词语在各个文本分类维度下的权重。

在一个实施例中，目标矩阵获取模块2106还用于根据各个词语在语义维度下的词语编码，得到第一矩阵；根据各个词语在至少两个文本分类维度下的词语编码，得到第二矩阵；将第一矩阵以及第二矩阵进行连接处理，得到目标矩阵。

在一个实施例中，分类概率获取模块2108还用于分别根据预设的多个卷积层，对目标矩阵进行卷积处理，得到多个不同长度的文本特征编码；对多个不同长度的文本特征编码进行最大池化处理，得到目标特征编码；分别根据预设的多个文本分类维度下的卷积核，对目标特征编码进行卷积处理，得到待识别文本在各个文本分类维度下的分类编码；对待识别文本在各个文本分类维度下的分类编码进行归一化处理，得到待识别文本在各个文本分类维度下的分类概率。

在一个实施例中，分类概率获取模块2108还用于将目标矩阵输入预先训练的文本分类模型中；通过预先训练的文本分类模型，基于预设的多个卷积层，对目标矩阵进行卷积处理，得到多个不同长度的文本特征编码；对多个不同长度的文本特征编码进行最大池化处理，得到目标特征编码；分别根据预设的多个文本分类维度下的卷积核，对目标特征编码进行卷积处理，得到待识别文本在各个文本分类维度下的分类编码；对待识别文本在各个文本分类维度下的分类编码进行归一化处理，得到待识别文本在各个文本分类维度下的分类概率。

在一个实施例中，文本识别模块2110还用于从待识别文本在各个文本分类维度下的分类概率中，筛选出最大的分类概率；将最大的分类概率所对应的文本分类维度，作为待识别文本的文本类型。

在一个实施例中，文本识别装置2100具体还包括：文本标签确定模块。

文本标签确定模块，用于从待识别文本在各个文本分类维度下的分类概率中，筛选出大于或等于预设概率的分类概率；将大于或等于预设概率的分类概率所对应的文本分类维度，作为待识别文本的文本标签。

在一个实施例中，文本识别装置2100具体还包括：文本存储模块。

文本存储模块，用于获取待识别文本的文本标识；将待识别文本按照文本标识存储至预设数据库中；预设数据库中存储的待识别文本中携带有文本标签以及文本类型。

在一个实施例中，文本识别装置2100具体还包括：文本类型推送模块。

文本类型推送模块，用于接收终端发送的文本识别请求；文本识别请求中携带有文本标识；从预设数据库中确定与文本标识对应的文本；将文本对应的文本类型以及文本标签推送至终端。

在本实施例中，通过提取的待识别文本中的至少两个词语在语义维度下的词语编码，以及在至少两个文本分类维度下的词语编码，得到目标矩阵，并根据目标矩阵，确定待识别文本在各个文本分类维度下的分类概率，进而确定对待识别文本的文本识别结果；实现了根据待识别文本中的至少两个词语在语义维度下的词语编码，以及在至少两个文本分类维度下的词语编码，得到对待识别文本的文本识别结果的目的；综合考虑了待识别文本的词语编码的语义信息以及可解释性，使得文本的识别更加准确，从而提高了文本的识别准确率；同时，综合考虑待识别文本中的至少两个词语在至少两个文本分类维度下的词语编码，有利于从多个文本识别维度对待识别文本进行判别，避免简单地计算词语在整个文本集合中的出现频率，从而提高了待识别文本的类别区分能力，有利于实现文本的精准识别，进一步提高了文本的识别准确率。此外，通过获取对待识别文本的文本识别结果，有利于对不符合要求的文本进行过滤，从而提高了文本质量。

在一个实施例中，本申请提供的文本识别装置可以实现为一种计算机程序的形式，计算机程序可在如图2所示的计算机设备上运行。计算机设备的存储器中可存储组成该文本识别装置的各个程序模块，比如，图21所示的词语提取模块2102、词语编码获取模块2104、目标矩阵获取模块2106、分类概率获取模块2108和文本识别模块2110。各个程序模块构成的计算机程序使得处理器执行本说明书中描述的本申请各个实施例的文本识别方法中的步骤。

例如，图2所示的计算机设备可以通过如图21所示的文本识别装置中的词语提取模块2102提取待识别文本中的至少两个词语。计算机设备可通过词语编码获取模块2104获取各个词语在语义维度下的词语编码，以及各个词语在至少两个文本分类维度下的词语编码。计算机设备可通过目标矩阵获取模块2106将各个词语在语义维度下的词语编码，以及各个词语在至少两个文本分类维度下的词语编码进行连接处理，得到目标矩阵。计算机设备可通过分类概率获取模块2108根据目标矩阵，确定待识别文本在各个文本分类维度下的分类概率；并通过文本识别模块2110根据待识别文本在各个文本分类维度下的分类概率，确定对待识别文本的文本识别结果。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器存储有计算机程序，计算机程序被处理器执行时，使得处理器执行上述文本识别方法的步骤。此处文本识别方法的步骤可以是上述各个实施例的文本识别方法中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，存储有计算机程序，计算机程序被处理器执行时，使得处理器执行上述文本识别方法的步骤。此处文本识别方法的步骤可以是上述各个实施例的文本识别方法中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一非易失性计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种文本识别方法，包括：

提取待识别文本中的至少两个词语；

2.根据权利要求1所述的方法，其特征在于，所述提取待识别文本中的至少两个词语，包括：

对所述待识别文本进行分词处理，得到所述待识别文本中包含的词语；

对所述待识别文本中包含的各个所述词语进行过滤处理，得到所述待识别文本中的至少两个词语。

3.根据权利要求1所述的方法，其特征在于，所述获取各个所述词语在语义维度下的词语编码，以及各个所述词语在至少两个文本分类维度下的词语编码，包括：

分别将各个所述词语输入预先训练的词编码模型中，得到各个所述词语在语义维度下的词语编码；所述预先训练的词编码模型用于生成各个所述词语在语义维度下的词语编码；

分别获取各个所述词语在至少两个文本分类维度下的统计概率；

根据各个所述词语在至少两个文本分类维度下的统计概率，得到各个所述词语在至少两个文本分类维度下的词语编码。

4.根据权利要求3所述的方法，其特征在于，所述分别获取各个所述词语在至少两个文本分类维度下的统计概率，包括：

分别获取各个所述文本分类维度下的文本比例；

分别获取各个所述文本分类维度下，出现各个所述词语的条件概率；

根据各个所述文本分类维度下的文本比例，以及各个所述文本分类维度下，出现各个所述词语的条件概率，确定各个所述词语在至少两个文本分类维度下的统计概率。

5.根据权利要求4所述的方法，其特征在于，所述分别获取各个所述文本分类维度下，出现各个所述词语的条件概率，包括：

分别获取各个所述词语在所述待识别文本中的词频；

分别获取各个所述词语在各个所述文本分类维度下的权重；

根据各个所述词语在所述待识别文本中的词频、各个所述词语在各个所述文本分类维度下的权重，得到各个所述文本分类维度下，出现各个所述词语的条件概率。

6.根据权利要求5所述的方法，其特征在于，分别获取各个所述词语在各个所述文本分类维度下的权重，包括：

分别获取与各个所述文本分类维度互斥的文本分类维度下，出现各个所述词语的文本比例；

根据与各个所述文本分类维度互斥的文本分类维度下，出现各个所述词语的文本比例，确定各个所述词语在各个所述文本分类维度下的权重。

7.根据权利要求1所述的方法，其特征在于，所述将各个所述词语在语义维度下的词语编码，以及各个所述词语在至少两个文本分类维度下的词语编码进行连接处理，得到目标矩阵，包括：

根据各个所述词语在语义维度下的词语编码，得到第一矩阵；

根据各个所述词语在至少两个文本分类维度下的词语编码，得到第二矩阵；

将所述第一矩阵以及所述第二矩阵进行连接处理，得到目标矩阵。

8.根据权利要求1所述的方法，其特征在于，所述根据所述目标矩阵，确定所述待识别文本在各个所述文本分类维度下的分类概率，包括：

分别根据预设的多个卷积层，对所述目标矩阵进行卷积处理，得到多个不同长度的文本特征编码；

对所述多个不同长度的文本特征编码进行最大池化处理，得到目标特征编码；

分别根据预设的多个文本分类维度下的卷积核，对所述目标特征编码进行卷积处理，得到所述待识别文本在各个所述文本分类维度下的分类编码；

对所述待识别文本在各个所述文本分类维度下的分类编码进行归一化处理，得到所述待识别文本在各个所述文本分类维度下的分类概率。

9.根据权利要求1所述的方法，其特征在于，所述根据所述目标矩阵，确定所述待识别文本在各个所述文本分类维度下的分类概率，还包括：

将所述目标矩阵输入预先训练的文本分类模型中；

通过所述预先训练的文本分类模型，基于预设的多个卷积层，对所述目标矩阵进行卷积处理，得到多个不同长度的文本特征编码；对所述多个不同长度的文本特征编码进行最大池化处理，得到目标特征编码；分别根据预设的多个文本分类维度下的卷积核，对所述目标特征编码进行卷积处理，得到所述待识别文本在各个所述文本分类维度下的分类编码；对所述待识别文本在各个所述文本分类维度下的分类编码进行归一化处理，得到所述待识别文本在各个所述文本分类维度下的分类概率。

10.根据权利要求1至9任一项所述的方法，其特征在于，所述根据所述待识别文本在各个所述文本分类维度下的分类概率，确定对所述待识别文本的文本识别结果，包括：

从所述待识别文本在各个所述文本分类维度下的分类概率中，筛选出最大的分类概率；

将所述最大的分类概率所对应的文本分类维度，作为所述待识别文本的文本类型。

11.根据权利要求10所述的方法，其特征在于，在将所述最大的分类概率所对应的文本分类维度，作为所述待识别文本的文本类型之后，还包括：

从所述待识别文本在各个所述文本分类维度下的分类概率中，筛选出大于或等于预设概率的分类概率；

将所述大于或等于所述预设概率的分类概率所对应的文本分类维度，作为所述待识别文本的文本标签。

12.根据权利要求11所述的方法，其特征在于，所述方法还包括：

获取所述待识别文本的文本标识；

将所述待识别文本按照所述文本标识存储至预设数据库中；所述预设数据库中存储的所述待识别文本中携带有所述文本标签以及所述文本类型。

13.根据权利要求12所述的方法，其特征在于，所述方法还包括：

接收终端发送的文本识别请求；所述文本识别请求中携带有文本标识；

从所述预设数据库中确定与所述文本标识对应的文本；

将所述文本对应的文本类型以及文本标签推送至所述终端。

14.一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行如权利要求1至13中任一项所述方法的步骤。

15.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如权利要求1至13中任一项所述方法的步骤。