CN111079410B

CN111079410B - 文本识别方法、装置、电子设备及存储介质

Info

Publication number: CN111079410B
Application number: CN201911342338.4A
Authority: CN
Inventors: 赵忠信
Original assignee: Wuba Co Ltd
Current assignee: Wuba Co Ltd
Priority date: 2019-12-23
Filing date: 2019-12-23
Publication date: 2023-12-22
Anticipated expiration: 2039-12-23
Also published as: CN111079410A

Abstract

本发明公开了一种文本识别方法、装置、电子设备及存储介质，首先将待识别的文本数据生成若干个文本段，然后分别计算每一个文本段的困惑度，当所有文本段对应的困惑度中最大的困惑度大于预设阈值时，确定该文本数据为垃圾文本。本发明中可以直接将文本数据进行识别，只需要根据计算出的文本段的困惑度就可以识别出文本数据是否为垃圾文本，该方法能够适应大量的文本识别内容，也无需预先收集垃圾文本和设置识别规则，节省大量时间，在提高垃圾文本识别的准确率的同时，也能提高垃圾文本识别的效率。

Description

文本识别方法、装置、电子设备及存储介质

技术领域

本发明涉及软件开发技术领域，尤其涉及文本识别方法、装置、电子设备及存储介质。

背景技术

低质量文本是指在具体业务场景下，句子中出现无意义的文字或者符号的文本。这种文本表达的意思不明确，难以合符常用的语言规范，又称为垃圾文本。

目前，要识别这种垃圾文本，首先收集大量的已知的垃圾文本作为样本数据，通过人工或者机器从字面上对每一条样本数据进行规律总结，总结出无意义文字或者符号出现的规律；然后将这些规律作为判断规则，最后通过机器利用这些判断规则对待识别的文本进行识别，一旦文本命中了这些规则中的一个或者多个，该文本就被识别为垃圾文本。

然而，上述这种识别垃圾文本的方法，由于样本数据是有限的，因此所能总结出来的判断规则也是有限的。例如，如果一条样本数据中出现的无意义的文字或者符号并未命中任何一个判断规则，那么即使其本质上属于垃圾文本，上述识别的方式也无法把这条垃圾文本识别出来，识别后的结果很可能是将这条文本归类为正常文本。可见，目前的这种识别垃圾文本的方式存在一定的局限性，当存在大量待识别的文本而根据样本数据总结的规则有限时，垃圾文本识别的准确率会降低。

发明内容

本发明提供了一种文本识别方法、装置、电子设备及存储介质，以解决目前识别垃圾文本的方式在存在大量待识别的文本而根据样本数据总结的规则有限时，垃圾文本识别的准确率降低的问题。

第一方面，本发明提供了一种文本识别方法，包括：

基于文本数据生成文本段，所述文本数据为待识别的文本；

利用神经概率语言模型计算每一个文本段的困惑度，所述困惑度用于表示所述文本段在所述文本数据中出现的概率，所述神经概率语言模型是预先利用符合具体业务规范的正常文本训练而来的；

将所有文本段对应困惑度中最大的困惑度与预设阈值进行比较；

如果所述最大的困惑度大于所述预设阈值，则生成所述文本数据为垃圾文本的识别结果。

结合第一方面，在第一方面的一种可实施方式中，基于文本数据生成文本段的步骤，包括：

获取预设截取长度，所述预设截取长度是指字符长度；

将所述文本数据从其段首开始按照所述预设截取长度分别截取若干个长度相同的文本段，截取的任一文本段的段尾与其后一文本段的段首具有相互重叠的部分，所述相互重叠的部分的长度是指字符长度，以及，如果截取的最后一个文本段的长度无法满足所述预设截取长度，则从文本数据末尾处往前截取所述预设截取长度的文本段作为最后一个文本段。

结合第一方面，在第一方面的一种可实施方式中，利用神经概率语言模型计算每一个文本段的困惑度的步骤，包括：

利用神经概率语言模型，计算文本段中每一个单词在上下文语义环境下出现的概率，所述单词用于表示在所述具体业务场景中有对应含义的词语或者字符；

利用文本段中每一个单词在上下文语义环境下出现的概率，计算所述文本段的困惑度。

结合第一方面，在第一方面的一种可实施方式中，基于文本数据生成文本段之前，包括：

识别所述文本数据中的非正规数据，所述非正规数据用于表示在所述具体业务场景中无对应含义的数据；

利用特殊字符替换所述非正规数据，获得书写符合所述业务规范的正规文本数据，所述特殊字符用于表示在所述具体业务场景中有对应含义的字符。

结合第一方面，在第一方面的一种可实施方式中，根据如下公式利用文本段中每一个单词在上下文语义环境下出现的概率，计算所述文本段的困惑度：

其中，ppl(w)表示所述文本段的困惑度，n表示所述文本段中单词的数量，i表示在所述文本段中的第i个单词，所述P(w_i|w_<i)表示所述文本段中第i个单词在上下文语义环境下出现的概率。

第二方面，本发明提供了一种文本识别装置，包括：

文本段生成模块，用于基于文本数据生成文本段，所述文本数据为待识别的文本；

困惑度计算模块，用于利用神经概率语言模型计算每一个文本段的困惑度，所述困惑度用于表示所述文本段在所述文本数据中出现的概率，所述神经概率语言模型是预先利用符合具体业务规范的正常文本训练而来的；

困惑度比较模块，用于将所有文本段对应困惑度中最大的困惑度与预设阈值进行比较；

文本识别模块，用于在所述最大的困惑度大于所述预设阈值时，则生成所述文本数据为垃圾文本的识别结果。

结合第二方面，在第二方面的一种可实施方式中，所述文本段生成模块包括：

截取长度获取单元，用于获取预设截取长度，所述预设截取长度是指字符长度；

截取单元，用于将所述文本数据从其段首开始按照所述预设截取长度分别截取若干个长度相同的文本段，截取的任一文本段的段尾与其后一文本段的段首具有相互重叠的部分，所述相互重叠的部分的长度是指字符长度，以及，如果截取的最后一个文本段的长度无法满足所述预设截取长度，则从文本数据末尾处往前截取所述预设截取长度的文本段作为最后一个文本段。

结合第二方面，在第二方面的一种可实施方式中，所述困惑度计算模块包括：

概率计算单元，用于利用神经概率语言模型，计算文本段中每一个单词在上下文语义环境下出现的概率，所述单词用于表示在所述具体业务场景中有对应含义的词语或者字符；

困惑度计算单元，用于利用文本段中每一个单词在上下文语义环境下出现的概率，计算所述文本段的困惑度。

结合第二方面，在第二方面的一种可实施方式中，所述装置还包括：

数据识别单元，用于识别所述文本数据中的非正规数据，所述非正规数据用于表示在所述具体业务场景中无对应含义的数据；

数据替换单元，用于利用特殊字符替换所述非正规数据，获得书写符合所述业务规范的正规文本数据，所述特殊字符用于表示在所述具体业务场景中有对应含义的字符。

结合第二方面，在第二方面的一种可实施方式中，所述困惑度计算单元根据如下公式利用文本段中每一个单词在上下文语义环境下出现的概率，计算所述文本段的困惑度：

第三方面，本发明提供了一种电子设备，包括：

存储器，用于存储程序指令；

处理器，用于调用并执行所述存储器中的程序指令，以实现第一方面所述的文本识别方法。

第四方面，本发明提供还提供了一种存储介质，所述存储介质中存储有计算机程序，当文本识别装置的至少一个处理器执行所述计算机程序时，文本识别装置执行第一方面所述的文本识别方法。

由以上技术方案可知，本发明提供的文本识别方法、装置、电子设备及存储介质，首先将待识别的文本数据生成若干个文本段，然后分别计算每一个文本段的困惑度，当所有文本段对应的困惑度中最大的困惑度大于预设阈值时，确定该文本数据为垃圾文本。本发明中可以直接将文本数据进行识别，只需要根据计算出的文本段的困惑度就可以识别出文本数据是否为垃圾文本，该方法能够适应大量的文本识别内容，也无需预先收集垃圾文本和设置识别规则，节省大量时间，在提高垃圾文本识别的准确率的同时，也能提高垃圾文本识别的效率。

附图说明

为了更清楚地说明本发明的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的文本识别方法的流程图；

图2为本发明实施例提供的一种生成文本段的方法流程图；

图3为本发明实施例提供的计算困惑度的方法流程图；

图4为本发明实施例提供的对文本数据进行正规化的方法流程图；

图5为本发明实施例提供的文本识别装置的结构框图；

图6为本发明实施例提供的电子设备硬件结构示意图。

具体实施方式

目前识别低质量文本的方式通常是通过人工或者机器从字面上对低质量文本的样本数据进行规律总结，总结出无意义文字或者符号出现的规律，然后将这些规律作为判断规则，通过机器利用这些判断规则对待识别文本进行识别，判断其是否是低质量文本。然而这种方式由于样本数据是有限的，因此所能总结出来的判断规则也是有限的，当存在大量待识别的文本而根据样本数据总结的规则有限时，垃圾文本识别的准确率会降低。因此，本发明实施例提供了一种文本识别方法、装置、电子设备及存储介质，可以直接将文本数据进行识别，只需要根据计算出的文本段的困惑度就可以识别出文本数据是否为低质量文本。在本发明实施例中，低质量文本也可以称为垃圾文本。

图1为本发明实施例提供的文本识别方法的流程图。如图1所示，本发明实施例提供的文本识别方法包括：

S101，基于文本数据生成文本段，所述文本数据为待识别的文本。

本发明实施例中在具体进行文本识别之前，还包括神经概率语言模型的训练过程，在这个过程中利用具体业务场景下的大规模公开数据集进行训练，可以认为公开数据集是符合语义表达习惯的正常文本数据，训练后的神经概率语言模型可以根据上下文语义预测一段语句中每一个字或者词出现的概率。在训练过程完成后，进行文本识别过程，文本识别的过程就是识别出不符合具体业务场景要求的垃圾文本，例如，在具体业务场景中，存在机器发帖等现象，这种帖子数据有一个共性特点，就是文本某个片段会出现乱码、生僻字、语义不连贯等情况，这时利用本发明中的文本识别方法，利于训练好的神经概率语言模型，获得文本段的困惑度，进而根据困惑度判断出该文本是低质量文本，即垃圾文本。

另外，本发明实施例中在神经概率语言模型训练时，使用的样本数据都是符合具体业务场景书写的符合业务规范的文本，而在具文本识别的过程中，由于事先不知道待识别的文本是否是垃圾文本，因此，待识别文本可能是垃圾文本也可能是符合具体业务规范的正常文本。

在获得文本数据后，还要对文本数据按照从文首到文尾的顺序进行截取或者分割，使得一个完整的文本数据分为若干个文本段，这些文本段按照顺序拼接可以获得完整的文本数据内容。

S102，利用神经概率语言模型计算每一个文本段的困惑度，所述困惑度用于表示所述文本段在所述文本数据中出现的概率。

神经语言概率模型的主要功能就是计算一个词语序列构成一个句子的概率，或者说计算一个词语序列的联合概率，这可以用来判断一句话出现的概率高不高、是否通顺等。本发明中就是利用这种模型具体计算出每一个文本段在文本数据中出现的概率，即计算出文本段的困惑度。

S103，将所有文本段对应困惑度中最大的困惑度与预设阈值进行比较。

由一个完整的文本数据可以得到若干个文本段，每一个文本段对应一个困惑度，因此一个文本数据可以有若干个困惑度，为了识别文本数据是否是垃圾文本，需要选择出这些困惑度中最大的困惑度，与预设阈值进行比较。如果这些困惑度中最大的困惑度都没有超过预设阈值，则说明若干个文本段中的每一个都符合业务场景的具体书写规范要求，进而这段完整的文本数据本身是规范的文本，并非垃圾文本。

S104，如果所述最大的困惑度大于所述预设阈值，则生成所述文本数据为垃圾文本的识别结果。

可见，本发明实施例中提供的文本识别方法，首先将待识别的文本数据生成若干个文本段，然后分别计算每一个文本段的困惑度，当所有文本段对应的困惑度中最大的困惑度大于预设阈值时，确定该文本数据为垃圾文本。本发明中可以直接将文本数据进行识别，只需要根据计算出的文本段的困惑度就可以识别出文本数据是否为垃圾文本，该方法能够适应大量的文本识别内容，也无需预先收集垃圾文本和设置识别规则，节省大量时间，在提高垃圾文本识别的准确率的同时，也能提高垃圾文本识别的效率。

图2为本发明实施例提供的一种生成文本段的方法流程图。如图2所示，本发明实施例提供的生成文段的方法，包括：

S201，获取预设截取长度。

本发明实施例中的预设截取长度是根据神经概率语言模型训练时采用的参数设置的，通常为一个固定的常数，依此长度截取出的文本段能够符合神经概率语言模型预测的长度要求。

S202，将所述文本数据从其段首开始按照所述预设截取长度分别截取若干个长度相同的文本段。

另外，本发明实施例中的截取过程由于只按照固定长度截取文本段，所以文本段段首的词语可能会被截取拆分，导致文本段段首词语的语义环境丢失，在语义环境丢失的情况下，神经概率语言模型的预测结果也是不准确的。因此，本发明实施例中还可以在文本截取时保留各个文本段之间少量的重叠部分，而对于截取的最后一个文本段的长度不符合预设截取长度的情况，还可以从文本末尾处往前截取固定长度的文本段作为最后一个文本段。比如截取如下文本：

“网站定位于本地社区及免费分类信息服务，帮助人们解决生活和工作所遇到的难题。”

其中，选择的预设截取长度为15、重叠长度为3，进而可以将该文本截取为3段，分别是“网站定位于本地社区及免费分类信”、“分类信息服务，帮助人们解决生活”和“们解决生活和工作所遇到的难题。”

值得说明的是，本发明实施例中选取的预设截取长度和重叠长度均是指字符长度，包括文字和标点符号等。

本发明实施例中提供的文本识别方法，可以选取预设的截取长度，对文本数据进行截取，进而获得若干长度相同的文本段，在对不同的文本段进行困惑度计算，基于困惑度就可以识别出文本数据是否为垃圾文本。

图3为本发明实施例提供的计算困惑度的方法流程图。如图3所示，本发明实施例中利用神经概率语言模型计算每一个文本段的困惑度的步骤，包括：

S301，利用神经概率语言模型，计算文本段中每一个单词在上下文语义环境下出现的概率，所述单词用于表示在所述具体业务场景中有对应含义的词语或者字符。

例如，一个文本段的内容为“依托公司资源与客户通过电话、微信、邮件等多种方式进行沟通，达成工作指标”，其中的单词包括“依托”、“公司”、“资源”等等，可以利用神经概率语言模型预测“依托”这个单词在句首出现的概率，根据“依托”出现的概率，计算出“公司”出现在“依托”之后的概率，再根据“依托”和“公司”出现的概率，计算出“资源”出现在“公司”之后的概率，其余的单词出现概率也根据这个方式依次进行，最后计算出这个文本段中每一个单词在上下文语义环境下出现的概率。

S302，利用文本段中每一个单词在上下文语义环境下出现的概率，计算所述文本段的困惑度。具体的，根据如下公式利用文本段中每一个单词在上下文语义环境下出现的概率，计算所述文本段的困惑度：

本发明实施例中引入神经概率语言模型，计算出文本段中每一个单词出现的概率，再通过具体的计算公式获得文本段的困惑度，得出的计算结果更加准确，进而使得文本识别结果更加准确。

图4为本发明实施例提供的对文本数据进行正规化的方法流程图。如图4所示，本发明实施例中基于文本数据生成文本段之前，包括：

S401，识别所述文本数据中的非正规数据，所述非正规数据用于表示在所述具体业务场景中无对应含义的数据。

本发明实施例中为了保证文本数据中的内容都是有具体含义的，还要对文本数据进行正规化处理，将其中在具体业务场景中没有对应含义的数据内容替换为特殊的字符，以便神经概率语言模型能够识别出单词并计算概率。本发明实施例中可以将非正规数据分为字符、网址、邮箱、电话、分词+命名实体等。

S402，利用特殊字符替换所述非正规数据，获得书写符合所述业务规范的正规文本数据，所述特殊字符用于表示在所述具体业务场景中有对应含义的字符。

例如，可以将①替换为1，将替换为a；用正则的方式匹配一些整数或浮点数，并替换为特殊字符，如将6.0替换为/>用正则的方式匹配指定格式的字符串并替换为特殊字符，如将abc@126.com替换为/>手机号替换为/>利用分词工具对文本数据进行词性标注，识别企业名称并替换为特殊字符等等。

可见，本发明实施例中的文本识别方法还可以对待识别的文本数据进行正规化处理，保证文本数据中内容都是神经概率语言模型能够识别出来的内容，更有利于提高神经概率语言模型的识别结果和计算结果，进而提高垃圾文本识别的准确度。

由以上技术方案可知，本发明提供的文本识别方法，首先将待识别的文本数据生成若干个文本段，然后分别计算每一个文本段的困惑度，当所有文本段对应的困惑度中最大的困惑度大于预设阈值时，确定该文本数据为垃圾文本。本发明中可以直接将文本数据进行识别，只需要根据计算出的文本段的困惑度就可以识别出文本数据是否为垃圾文本，该方法能够适应大量的文本识别内容，也无需预先收集垃圾文本和设置识别规则，节省大量时间，在提高垃圾文本识别的准确率的同时，也能提高垃圾文本识别的效率。

图5为本发明实施例提供的文本识别装置的结构框图。如图5所示，本发明实施例提供的文本识别装置，包括：文本段生成模块51，用于基于文本数据生成文本段，所述文本数据为待识别文本；困惑度计算模块52，用于利用神经概率语言模型计算每一个文本段的困惑度，所述困惑度用于表示所述文本段在所述文本数据中出现的概率，所述神经概率语言模型是预先利用符合具体业务规范的正常文本训练而来的；困惑度比较模块53，用于将所有文本段对应困惑度中最大的困惑度与预设阈值进行比较；文本识别模块54，用于在所述最大的困惑度大于所述预设阈值时，则生成所述文本数据为垃圾文本的识别结果。

其中，所述文本段生成模块包括：截取长度获取单元，用于获取预设截取长度，所述预设截取长度是指字符长度；截取单元，用于将所述文本数据从其段首开始按照所述预设截取长度分别截取若干个长度相同的文本段，截取的任一文本段的段尾与其后一文本段的段首具有相互重叠的部分，所述相互重叠的部分的长度是指字符长度，以及，如果截取的最后一个文本段的长度无法满足所述预设截取长度，则从文本数据末尾处往前截取所述预设截取长度的文本段作为最后一个文本段。

所述困惑度计算模块包括：概率计算单元，用于利用神经概率语言模型，计算文本段中每一个单词在上下文语义环境下出现的概率，所述单词用于表示在所述具体业务场景中有对应含义的词语或者字符；困惑度计算单元，用于利用文本段中每一个单词在上下文语义环境下出现的概率，计算所述文本段的困惑度。

所述困惑度计算单元根据如下公式利用文本段中每一个单词在上下文语义环境下出现的概率，计算所述文本段的困惑度：

所述装置还包括：数据识别单元，用于识别所述文本数据中的非正规数据，所述非正规数据用于表示在所述具体业务场景中无对应含义的数据；数据替换单元，用于利用特殊字符替换所述非正规数据，获得书写符合所述业务规范的正规文本数据，所述特殊字符用于表示在所述具体业务场景中有对应含义的字符。

图6为本发明实施例提供的电子设备硬件结构示意图。如图6所示，本发明还提供了一种电子设备，包括：存储器61，用于存储程序指令；处理器62，用于调用并执行所述存储器中的程序指令，以实现上述实施例中所述的文本识别方法。具体可以参见前述实施例中的相关描述。

本发明实施例中，处理器62和存储器61可通过总线或其他方式连接。处理器可以是通用处理器，例如中央处理器、数字信号处理器、专用集成电路，或者被配置成实施本发明实施例的一个或多个集成电路。存储器可以包括易失性存储器，例如随机存取存储器；存储器也可以包括非易失性存储器，例如只读存储器、快闪存储器、硬盘或固态硬盘。

本发明实施例还提供了一种存储介质，所述存储介质中存储有计算机程序，当文本识别装置的至少一个处理器执行所述计算机程序时，文本识别装置执行上述实施例中所述的文本识别方法。

所述的存储介质可为磁碟、光盘、只读存储记忆体(英文：read-only memory，简称：ROM)或随机存储记忆体(英文：random access memory，简称：RAM)等。

本领域的技术人员可以清楚地了解到本发明实施例中的技术可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本发明实施例中的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。

本说明书中各个实施例之间相同相似的部分互相参见即可。尤其，对于服务构建装置和服务加载装置实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例中的说明即可。

以上所述的本发明实施方式并不构成对本发明保护范围的限定。

Claims

1.一种文本识别方法，其特征在于，包括：

基于文本数据生成文本段，所述文本数据为待识别的文本；

利用神经概率语言模型计算每一个文本段的困惑度，所述困惑度用于表示所述文本段在所述文本数据中出现的概率，所述神经概率语言模型是预先利用符合具体业务规范的正常文本训练而来的、用于计算一个词语序列的联合概率；

如果所述最大的困惑度大于所述预设阈值，则生成所述文本数据为垃圾文本的识别结果；

基于文本数据生成文本段的步骤，包括：

获取预设截取长度，所述预设截取长度是指字符长度，所述预设截取长度是根据所述神经概率语言模型训练时采用的参数设置的，依此长度截取出的文本段能够符合所述神经概率语言模型预测的长度要求；

2.根据权利要求1任一项所述的方法，其特征在于，利用神经概率语言模型计算每一个文本段的困惑度的步骤，包括：

3.根据权利要求1所述的方法，其特征在于，基于文本数据生成文本段之前，包括：

4.根据权利要求2所述的方法，其特征在于，根据如下公式利用文本段中每一个单词在上下文语义环境下出现的概率，计算所述文本段的困惑度：

5.一种文本识别装置，其特征在于，包括：

困惑度计算模块，用于利用神经概率语言模型计算每一个文本段的困惑度，所述困惑度用于表示所述文本段在所述文本数据中出现的概率，所述神经概率语言模型是预先利用符合具体业务规范的正常文本训练而来的、用于计算一个词语序列的联合概率；

文本识别模块，用于在所述最大的困惑度大于所述预设阈值时，则生成所述文本数据为垃圾文本的识别结果；

所述文本段生成模块包括：

截取长度获取单元，用于获取预设截取长度，所述预设截取长度是指字符长度，所述预设截取长度是根据所述神经概率语言模型训练时采用的参数设置的，依此长度截取出的文本段能够符合所述神经概率语言模型预测的长度要求；

6.根据权利要求5任一项所述的装置，其特征在于，所述困惑度计算模块包括：

7.根据权利要求5所述的装置，其特征在于，所述装置还包括：

8.根据权利要求6所述的装置，其特征在于，所述困惑度计算单元根据如下公式利用文本段中每一个单词在上下文语义环境下出现的概率，计算所述文本段的困惑度：

9.一种电子设备，其特征在于，包括：

存储器，用于存储程序指令；

处理器，用于调用并执行所述存储器中的程序指令，以实现权利要求1-4任一项所述的文本识别方法。

10.一种存储介质，其特征在于，所述存储介质中存储有计算机程序，当文本识别装置的至少一个处理器执行所述计算机程序时，文本识别装置执行权利要求1-4任一项所述的文本识别方法。