CN109460455A

CN109460455A - 一种文本检测方法及装置

Info

Publication number: CN109460455A
Application number: CN201811247369.7A
Authority: CN
Inventors: 杨俊�; 陈立
Original assignee: 4Paradigm Beijing Technology Co Ltd
Current assignee: 4Paradigm Beijing Technology Co Ltd
Priority date: 2018-10-25
Filing date: 2018-10-25
Publication date: 2019-03-12
Anticipated expiration: 2038-10-25
Also published as: CN109460455B

Abstract

本发明公开了一种文本检测方法及装置，涉及文本检测技术领域，主要目的在于提高文本检测的准确性。本发明主要的技术方案为：获取待检测文本；确定所述待检测文本中的待检测句子集合；利用语义相似性模型逐条检测所述待检测句子集合中的句子与目标句子的语义相似性；根据检测结果判断所述待检测文本中是否存在与所述目标句子的语义相似的句子；根据判断结果和所述目标句子对应的检测规则确定所述待检测文本是否符合要求。本发明用于对文本的规范性检测。

Description

一种文本检测方法及装置

技术领域

本发明涉及文本检测技术领域，尤其涉及一种文本检测方法及装置。

背景技术

随着互联网的出现和发展，文本文献在互联网上的数量发展更加迅猛，文本检测技术已广泛地应用于文件检索、舆情管理等领域，通过检测文本中是否含有用户设置的短语或句子等信息来确定该文本内容中是否含有用户所需的数据内容。

目前，针对短语常用的文本检测多是基于用户设置的关键词进行匹配，或者是利用自然语言处理技术计算出多个该关键词的近义词，并利用这些词进行文本检测。而针对句子常用的文本检测则是先将句子解析为多个短语，再利用检测短语的方式对文本进行检测。然而，在很多情况下，分解成多个短语的检测忽略了短语之间的位置关系和多个短语组成句子的深度语义，此外同一种语义有多种表达方式，人工的分解短语并不能穷举所有的可能表达。因此，通过现有检测方式得到的检测结果依然存在准确性低、适用范围窄的问题。

发明内容

鉴于上述问题，本发明提出了一种文本检测方法及装置，主要目的在于提高文本检测的准确性。

为达到上述目的，本发明主要提供如下技术方案：

一方面，本发明提供一种文本检测方法，具体包括：

获取待检测文本；

确定所述待检测文本中的待检测句子集合；

利用语义相似性模型逐条检测所述待检测句子集合中的句子与目标句子的语义相似性；

根据检测结果判断所述待检测文本中是否存在与所述目标句子的语义相似的句子；

根据判断结果和所述目标句子对应的检测规则确定所述待检测文本是否符合要求。

优选的，所述方法还包括：

获取大量的有标注的句子对；其中，所述标注为语义相似或语义不相似；

基于所述大量的有标注的句子对，训练所述语义相似性模型。

优选的，确定所述待检测文本中的待检测句子集合包括：

逐字遍历所述待检测文本，截取长度与所述目标句子的长度一致的段落放入待检测句子集合中。

优选的，确定所述待检测文本中的待检测句子集合包括：

对所述目标句子进行分词，去除停用词后得到一个或多个目标词，由所述一个或多个目标词组成定位词集合；

对于定位词集合中的每个定位词，从待检测文本中查找该定位词，如果查找到，则从待检测文本中截取包含该定位词且长度与所述目标句子的长度一致的段落作为一个待检测句子。

优选的，所述方法还包括：

确定所述一个或多个目标词中的至少部分目标词的同义词；

由所述一个或多个目标词以及所述同义词组成定位词集合。

优选的，所述从待检测文本中截取包含该定位词且长度与所述目标句子的长度一致的段落还包括：

令该定位词在所截取的段落中的位置，与该定位词或该定位词的同义词在目标句子中的位置一致。

优选的，确定所述一个或多个目标词中的至少部分目标词的同义词包括：

利用词向量模型获取所述至少部分目标分词的同义词，所述词向量模型是基于神经网络训练得到的用于识别同义词的机器学习模型。

优选的，所述获取待检测文本包括：

将待质检语音转换为文本，得到待检测文本。

另一方面，本发明提供一种文本检测装置，具体包括：

文本获取单元，用于获取待检测文本；

句子确定单元，用于确定所述文本获取单元得到的待检测文本中的待检测句子集合；

相似性检测单元，用于利用语义相似性模型逐条检测所述待检测句子集合中的句子与目标句子的语义相似性；

句子检测单元，用于根据所述相似性检测单元得到的检测结果判断所述待检测文本中是否存在与所述目标句子的语义相似的句子；

文本检测单元，用于根据所述句子检测单元得到的判断结果和所述目标句子对应的检测规则确定所述待检测文本是否符合要求。

优选的，所述装置还包括：

样本获取单元，用于获取大量的有标注的句子对；其中，所述标注为语义相似或语义不相似；

模型训练单元，用于基于所述样本获取单元获取的大量有标注的句子对，训练所述语义相似性模型。

优选的，所述句子确定单元包括：

第一确定模块，用于逐字遍历所述待检测文本，截取长度与所述目标句子的长度一致的段落放入待检测句子集合中。

优选的，所述句子确定单元还包括：

定位词获取模块，用于对所述目标句子进行分词，去除停用词后得到一个或多个目标词，由所述一个或多个目标词组成定位词集合；

第二确定模块，用于对于定位词集合中的每个定位词，从待检测文本中查找该定位词，如果查找到，则从待检测文本中截取包含该定位词且长度与所述目标句子的长度一致的段落作为一个待检测句子。

优选的，所述定位词获取模块还用于，确定所述一个或多个目标词中的至少部分目标词的同义词；由所述一个或多个目标词以及所述同义词组成定位词集合。

优选的，所述第二确定模块在执行从待检测文本中截取包含该定位词且长度与所述目标句子的长度一致的段落的操作具体包括：

优选的，所述定位词获取模块在执行确定所述一个或多个目标词中的至少部分目标词的同义词的操作具体包括：

优选的，所述文本获取单元具体用于，将待质检语音转换为文本，得到待检测文本。

另一方面，本发明提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，其中，所述计算机程序被一个或多个计算装置执行时实现上述的文本检测方法。

另一方面，本发明提供一种包括一个或多个计算装置和一个或多个存储装置的系统，所述一个或多个存储装置上记录有计算机程序，所述计算机程序在被所述一个或多个计算装置执行时使得所述一个或多个计算装置实现上述的文本检测方法。

借由上述技术方案，本发明提供的一种文本检测方法及装置，能够针对用户提供的目标句子检测待检测文本中存在语义相似的句子，进而判断该待检测文本是否符合要求。本发明通过在待检测文本中选出部分待检测句子与目标句子进行匹配，可以减少对文本进行通篇匹配计算的数据量，提高检测效率，同时，在检测过程中通过使用语义相似性模型对待检测文本中的待检测句子与目标句子进行语义相似性的检测，以此判断检测文本中是否具有目标句子所表达意思的语句内容，而不是简单的将目标句子拆分为多个词语的组合进行查找匹配，实现了智能化的文本检测，提高了文本检测的准确性。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了本发明实施例提出的一种文本检测方法的流程图；

图2示出了本发明实施例提出的一种文本检测装置的组成框图；

图3示出了本发明实施例提出的另一种文本检测装置的组成框图。

具体实施方式

下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例，然而应当理解，可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本发明，并且能够将本发明的范围完整的传达给本领域的技术人员。

本发明实施例提供了一种文本检测方法，用于检测文本中是否含有与目标句子相匹配的语句，并以匹配结果确定文本是否符合要求。本方法具体步骤如图1所示，包括：

101、获取待检测文本。

102、确定待检测文本中的待检测句子集合。

其中，待检测句子集合中的句子是基于用户设置的目标句子所确定的，具体的确定方式可以是基于目标句子的长度，在待检测文本中进行筛选，查找出句子长度相匹配的句子添加到待检测句子集合中；也可以是利用目标句子中的标志性词语进行筛选，将含有这些词语的句子确定为待检测句子并加入待检测句子集合中。

本步骤的主要目的是减少后续进行句子匹配时所需的计算量，过滤掉待检测文本中与目标句子的语义明显不同的语句，从而提高检测效率。特别是对于一些篇幅较长的待检测文本，如果要逐句地与目标句子进行匹配识别，将会消耗大量的计算资源，导致匹配时间过长，影响用户体验。

103、利用语义相似性模型逐条检测待检测句子集合中的句子与目标句子的语义相似性。

其中，语义相似性模型是利用神经网路对大量有标注的语义对进行训练后得到的数据模型，通过该语义相似性模型可以识别两个句子之间的语义相似性。而有标注的语义对是指通过人工或智能化处理后得到的一组语句，对该组语句的标注在本实施例中可以为：“语义相似”或“语义不相似”，也可以是标注两个语句的语义相似度值。本步骤中对基于神经网络算法训练语义相似性模型的具体方式不做限定。

通过将待检测句子与目标句子输入语义相似性模型，该语义相似性模型将对应输出一个检测结果，该检测结果可以是“句子近似”或“句子不近似”判断结果，也可以是得出两个句的相似度值的计算结果。

104、根据检测结果判断待检测文本中是否存在与目标句子的语义相似的句子。

具体的，对于一篇待检测文本，当所有的待检测句子都经过步骤103的检测后，如果其中存在与目标句子的语义相近似的句子则可以确定该检测文本中含有目标句子，而其中不存在与目标句子的语义相近似的句子确定该检测文本中不含有目标句子。当然，在实际应用中，本步骤的具体判断也可以设定具体的判断规则，如设置句子数量的阈值，当语义相似的句子数量达到该阈值时，则确定该待检测文本中存在目标句子。

105、根据判断结果和目标句子对应的检测规则确定所述待检测文本是否符合要求。

在确定待检测文本中是否含有与目标句子的语义相似的句子后，基于目标句子的检测规则，如含有目标句子的待检测文本符合要求，或者是含有目标句子的待检测文本不符合要求等，对待检测文本进行分类。

在实际应用中，本步骤则具体用于对大量的待检测文本进行分类，即将符合要求或不符合要求的文本提取出来。而在确定一个待检测文本是否符合要求时，针对一个目标句子进行判断时，其检测规则也可以具体分为当判断结果为句子语义相似时，该待检测文本为符合要求，或者是，当匹配结果为不匹配时，该待检测文本为符合要求。而在一般情况下，用户会设置有多个目标句子对待检测文本进行检测，此时，也需要根据预置的判断规则来确定待检测文本是否符合要求，比如，当待检测文本与任意一个目标句子匹配成功时，就确定该文本符合要求；或者是，当待检测文本与所有目标句子都匹配成功时，才确定该文本符合要求。

通过上述图1所示的实施例可以看出，本发明实施例在进行文本检测时，主要是将文本中的句子筛选出待检测句子，之后利用语义相似性模型逐条对待检测句子的语义与目标句子的语义进行检测，确定待检测文本中是否含有与目标句子语义相似的句子，进而在根据目标句子的检测规则来判断该待检测文本是否符合要求，实现对文本分类检测。在该检测过程中，由于语义相似性模型是基于神经网络训练得到的，能够从语义的维度对文本进行检测，其相对现有基于目标句子中的分词进行识别检测的方式，更加符合人类思维的判断，使得本发明实施例的文本检测方法的准确性更高。

此外，在本发明的另一实施例中，还可以进一步将该文本检测方法应用于对语音质检的领域中，而其中的待检测文本则是将待质检语音转换为文本后，得到的待质检文本，该领域对应的行业主要是以语音服务为主的行业，如在电话、网络电商中的人工客服，在这些行业中，每天都会产生大量的语音数据，而为了对人工客服的服务水平进行客观评价，就需要对这些语音数据进行检测，判断其中是否具有可用于评价的标志性语句，即目标句子。再基于目标句子对客服人员的服务过程进行评价。而上述图1所示的文本检测过程就能够实现对客服人员的语音按照评价标准，即目标句子，进行评价的目的。在该应用场景下，需要将语音转换为文本，而本实施例中不限定语音转文本的具体方式可以使用现有的任意一种语音识别程序将语音数据转换为文本，生成待检测文本。

进一步的，通过对上述图1所示实施例的说明可以看出，如何从待检测文本中确定待检测句子，得到待检测句子集合将直接影响到对该待检测文本的最终检测结果，因此，以下将具体说明图1中的步骤102“确定待检测文本中的待检测句子集合”的实现方案：

第一种方案，逐字遍历待检测文本，截取长度与目标句子的长度一致的段落放入待检测句子集合中。

该方式在实现上较为简单，仅根据目标句子的长度对待检测文本进行截取，然而，得到的待检测句子可能并不是文本中的完整句子，其句子含义也可能存在歧义，因此，使用此方式确定的待检测句子会存在语义上的歧义，导致检测结果存在一定的偏差。并且，通过此方式得到的句子的数量也会比较多，并不利于提高文本检测的整体效率。但是，通过该方式得到的句子由于其数量庞大，相对待检测文本而言就具有较全面的覆盖性，在一定程度上也是可以提升文本检测准确性的。

第二种方案，对目标句子进行分词，去除停用词后得到一个或多个目标词，由一个或多个目标词组成定位词集合，对于定位词集合中的每个定位词，从待检测文本中查找该定位词，如果查找到，则从待检测文本中截取包含该定位词且长度与目标句子的长度一致的段落作为一个待检测句子。

该方式为本发明实施例中的优化处理方式。

在该方式中，去除停用词的目的是为了得到更准确的定位词，在目标句子中可能存在有一些定位功能不明确的词语，如“你”，“我”等，将这些词去除后，将减少定位词集合中的词语数量，如此，在使用定位词在待检测文本中查找时，也可以节省大量的计算资源，提升检测效率。

该方式在确定定位词时，还可以进一步地获取部分目标词的同义词(或称为近义词)，加入同义词的目的是为了扩展目标句子中目标词的语义，从而扩大待检测句子的筛选范围，防止遗漏掉语义相似的句子。该同义词可以利用词向量模型获取，该词向量模型是基于神经网络训练得到的用于识别同义词的机器学习模型。该词向量模型通过计算输入分词的词向量，来识别不同词之间的语义是否相似，进而可以计算得到目标词的同义词，并将这些同义词一同加入定位词集合。本实施例中，可以对该定位词集合中的定位词数量进行限定，设置一个数量区间，当定位词低于该区间的最小值时，就利用词向量模型获取同义词，以补充定位词的数量，而当定位词的数量高于该区间的最大值时，则可以对应去除其中的部分目标词的同义词，如此设置，可以确保定位词集合中具有一定数量的定位词，提高从待检测文本中匹配出有效待检测句子的概率，不会出现由于定位词数量过少而匹配不到待检测句子，导致需要对待检测文本的全文检测，或者是由于定位词数量过多而匹配出过多待检测句子，导致计算量增加而降低检测效率，可见，通过设置该数量区间可以有效提高匹配出的待检测句子的精度，同时保证了检测过程的高效性。

此外，在该方式中，根据定位词确定待检测句子的另一个条件是从待检测文本中截取的段落长度要与目标句子的长度相一致，这是因为大多数情况下两个句子要表达相同的语义，往往在其使用的词语是相近似的，而从数量上看，也是大致相同的，因此，语义相同的句子，其语句长度上大致是相同的，基于该逻辑，本发明实施例中在确定待检测句子时，除了判断句子中含有定位词，还需要判断含有定位词句子的长度与目标句子的长度应是大致相同的。进一步的，在所截取的句子中，定位词在句子中的位置应与其在目标句子中的位置相同。

举例来说，假设目标句子ABC，其中，以定位词C在待检测文本中查找时，找到了一段语句ADBCE，那么，在进行检测时并不能将该段语句与目标句子进行匹配，而是需要将其进行截取，根据上述的截取规则，最终截取出的待检测句子为DBC。而当以定位词F查找时，F为C的同义词，找到的一段语句RABFD，最终截取出的待检测句子为ABF。

以上具体说明了如何确定待检测文本中的待检测句子，生成待检测句子集合，结合图1所示的文件检测方式，详细说明了本发明实施例在执行文本检测时，通过选择部分待检测句子与目标句子进行语义相似性的检测，根据检测结果以及目标句子的检测规则最终确定待检测文本是否符合要求。

进一步的，作为对上述文本检测方法的实现，本发明实施例提供了一种文本检测装置，该装置主要用于检测文本中是否含有与目标句子相匹配的内容，并以判断结果对文本进行分类。为便于阅读，本装置实施例不再对前述方法实施例中的细节内容进行逐一赘述，但应当明确，本实施例中的装置能够对应实现前述方法实施例中的全部内容。该装置如图2所示，具体包括：

文本获取单元21，用于获取待检测文本；

句子确定单元22，用于确定所述文本获取单元21得到的待检测文本中的待检测句子集合；

相似性检测单元23，用于利用语义相似性模型逐条检测所述句子确定单元22确定的待检测句子集合中的句子与目标句子的语义相似性；

句子检测单元24，用于根据所述相似性检测单元23得到的检测结果判断所述待检测文本中是否存在与所述目标句子的语义相似的句子；

文本检测单元25，用于根据所述句子检测单元24得到的判断结果和所述目标句子对应的检测规则确定所述待检测文本是否符合要求。

进一步的，如图3所示，所述装置还包括：

样本获取单元26，用于获取大量的有标注的句子对；其中，所述标注为语义相似或语义不相似；

模型训练单元27，用于基于所述样本获取单元26获取的大量有标注的句子对，训练所述语义相似性模型，以便相似性检测单元23应用训练好的语音相似性模型检测待检测句子集合中的句子与目标句子的语义相似性。

进一步的，如图3所示，所述句子确定单元22包括：

第一确定模块221，用于逐字遍历所述待检测文本，截取长度与所述目标句子的长度一致的段落放入待检测句子集合中。

进一步的，如图3所示，所述句子确定单元22还包括：

定位词获取模块222，用于对所述目标句子进行分词，去除停用词后得到一个或多个目标词，由所述一个或多个目标词组成定位词集合；

第二确定模块223，用于对定位词获取模块222获取的定位词集合中的每个定位词，从待检测文本中查找该定位词，如果查找到，则从待检测文本中截取包含该定位词且长度与所述目标句子的长度一致的段落作为一个待检测句子。

进一步的，所述定位词获取模块222还用于，确定所述一个或多个目标词中的至少部分目标词的同义词；由所述一个或多个目标词以及所述同义词组成定位词集合。

进一步的，所述第二确定模块223在执行从待检测文本中截取包含该定位词且长度与所述目标句子的长度一致的段落的操作具体包括：

进一步的，所述定位词获取模块222在执行确定所述一个或多个目标词中的至少部分目标词的同义词的操作具体包括：

进一步的，所述文本获取单元21具体用于，将待质检语音转换为文本，得到待检测文本。

基于上述针对目标句子进行检测的文本检测方法及装置，本发明实施例还可以进一步包括：检测文本中是否含有与目标短语相匹配的内容，并以判断结果确定文本是否符合要求，即对目标短语进行检测，其中，句子一般是由多个短语所构成，而对目标短语进行检测则是粒度更细的检测方法。该方法具体步骤包括：

第一、获取待检测文本。

第二、确定目标短语的共现词。

其中，共现词是指经常与目标短语搭配使用，或者是在文本中与目标短语共同出现的一些词语或短语。本发明实施例中不限定所确定共现词的数量，其具体确定过程可以是由用户手动录入的共现词，即用户指定目标短语的共现词；也可以是通过数据分析与统计得到与目标短语相对应的共现词，从而直接获取共现词，一般地，由数据分析与统计得到的共现词是通过对大量文本进行分词统计得到的，比如，统计于目标短语相邻或邻近范围内出现的词语，将出现次数超过预设值的词语确定为该目标短语的共现词。

第三、利用共现词在待检测文本中确定待检测段落。

其中，待检测段落在本发明实施例中不具体限定是待检测文本中的语句段、句子或者多个词的短语等。

本步骤的目的是在待检测文本中标记或筛选出含有共现词的段落，需要说明的是，由于共现词可以是多个，因此，在某一个待检测段落中也可能存在多个共现词。

第四、利用机器学习模型检测待检测段落中是否含有与目标短语相匹配的内容。

本发明实施例中，该机器学习模型是指利用神经网络训练得到的，可以识别与目标短语的语义相匹配的短语或词汇的模型。在实际应用中，该机器学习模型的输入为待检测段落与目标短语，输出为匹配结果，即待检测段落与目标短语匹配或不匹配，匹配说明待检测段落中存在与目标短语的语义相同或近似的词语，不匹配则说明待检测文本中所有的待检测段落均不存在与目标短语的语义相同或近似的词语。

第五、根据匹配结果和目标短语对应的检测规则确定待检测文本是否符合要求。

具体的，本步骤用于对大量的待检测文本进行分类，即将符合要求的文本提取出来。而在实际应用中，在确定一个待检测文本是否符合要求时，针对一个目标短语进行判断时，其检测规则也可以具体分为当匹配结果为匹配时，该待检测文本为符合要求，或者是，当匹配结果为不匹配时，该待检测文本为符合要求。而在一般情况下，会设置多个目标短语对待检测文本进行检测，此时，也需要根据预置的判断规则来确定待检测文本是否符合要求，比如，当待检测文本与任意一个目标短语匹配成功时，就确定该文本符合要求；或者是，当待检测文本与所有目标短语都匹配成功时，才确定该文本符合要求。

通过上述针对目标短语检测的实施例可以看出，本发明实施例在检测文本时，主要是利用目标短语所对应的共现词对文本先进行检测位置的定位，之后，再利用机器学习模型对定位后的待检测段落进行语义匹配，以判断其中是否存在与目标短语相匹配的词语，最后，根据目标短语的检测规则来确定该文本是否符合要求。由于该方案中所使用的共现词与机器学习模型利用了大数据统计以及神经网络等智能化算法，使得在对文本进行检测时，能够更为精确地判断出文本的语义是否与目标短语的语义相同，进而提高文本检测的准确性。

进一步地，在本发明的另一实施例中，将该文本检测方法应用于对语音检测的领域中时，其中的待检测文本为将待质检语音转换为文本后，得到的待质检文本，该领域主要是以语音服务为主的行业，如在电话、网络电商中的人工客服，每天都会产生大量的语音数据，而为了对人工客服的服务水平进行客观评价，就需要对这些语音数据进行检测，判断其中是否具有可用于评价的标志性言语，即目标短语。再基于目标短语对客服人员的服务过程进行评价。基于前述的应用场景，针对目标短语的文本检测方法的具体流程包括：

步骤1、待质检语音转换为文本，得到待检测文本。

其中，语音转文本的具体方式不做限定，可以使用现有的任意一种语音识别程序将语音数据转换为文本，生成待检测文本。

步骤2、根据目标短语从预置共现词表中获取对应的共现词。

具体的，目标短语是由用户所设置的，一般为判断文本是否符合要求的具体条件，比如，可以通过目标短语来判断客服或咨询人员的用语是否专业、标准等。一般地，目标短语的设置数量可以是一个或多个，而当有多个目标短语时，将逐一为每个目标短语获取对应的共现词，组成共现词集合。

本实施例中的预置共现词表是基于与待检测文本相同技术领域的文本集合统计得到的。而相同技术领域的文本集合则可以是将公开数据集中的文本按照预设的技术领域进行分类，由用户选择待检测文本所属的技术领域，从而确定相同技术领域的文本集合，利用该文本集合中的文本进行分词统计，创建该技术领域对应的预置共现词表，在该预置共现词表中记录有该文本集合中存在共现词的分词，该共现词与分词的共现次数或频率应大于预设值。

需要说明的是，该预置共现词表是随着文本集合中的文本内容的变化而变化的，因为，随着新文本的加入，内容的更新，预置共现词表中的各分词的共现词也会随之发生变化。因此，本步骤中的预置共现词表是具有动态更新能力的数据表，当获取到目标短语进行文本检测时，实时从预置共现词表中查找该目标短语，若存在，则获取对应的共现词，若不存在，则提示该目标短语无共现词。

步骤3、利用共现词在待检测文本中确定待检测段落。

具体的，由于目标短语在预置共现词表中可能存在共现词，也可能不存在共现词，因此，本步骤将针对这两种情况来分别确定待检测段落。

首先，对于存在目标短语对应的共现词时，将使用这些共现词逐一地在待检测文本进行查找，每查找到一个共现词，就根据该共现词在待检测文本中的位置以及预设段落长度确定一个待检测段落。其中，预设段落长度一般是以字符数量进行计量，并且认为在该预设段落长度内所含有的词语或短语可能含有目标短语或与目标短语有近似语义的短语。

在本发明实施例中，根据预设段落长度确定一个待检测段落的可行方式包括：

第一，在待检测文本中，在查找到的该共现词前后各取预设长度的文字，得到一个待检测段落。

第二，在待检测文本中，取长度等于预设长度且包含查找到的该共现词的段落作为待检测段落。

上述的两种方式区别在于共现词在待检测段落中的位置，第一种的位置是相对固定的，而第二种则是不固定的，即提取符合长度与预设长度相同，且含有该共现词的段落条件的所有可能的段落截取方式。例如，共现词为A，预设长度为3个字母，而待检测文本中含有A的一个段落为BCADF，那么，如果第一种前后各取预设长度都为1个字母，那么第一种方式得到的待检测段落为CAD，而第二种方式得到的待检测段落为BCA、CAD、ADF三段。

其次，对于不存在目标短语对应的共现词的情况。此时，则是将整个待检测文本确定为待检测段落。

此外，对于存在目标短语对应的共现词，但是在待检测文本中未查找到该共现词的情况，此时，也是将整个待检测文本确定为待检测段落。

步骤4、利用机器学习模型检测待检测段落中是否含有与目标短语相匹配的内容。

具体到本实施例中，该机器学习模型采用词向量模型，该词向量模型是基于神经网络训练得到的用于识别同义词的模型。在训练该词向量模型时，需要利用大量的语料数据进行分词，并构建神经网络模型，训练得到词向量，在实际使用时，将待检测段落中的分词或短语与目标短语输入该词向量模型，词向量模型输出各分词的词向量，并与目标短语的词向量进行比较，即计算词向量之间的相似度是否达到预设相似值，若达到，则确定在待检测文本中含有与目标短语相匹配的内容，此时词向量模型输出匹配结果为匹配成功；而如果待检测文本中所有的待检测段落均与该目标短语匹配失败时，则输出匹配结果为待检测文本不含有目标短语。

在本发明的一个实施例中，与质检条目中的短语相匹配的内容是指同义短语(也称为近义短语)。例如，质检条目中的短语是“感谢”，质检规则是要求该短语必须出现，则在待检测段落中查找“感谢”及其同义短语，如“谢谢”。

步骤5、根据匹配结果和目标短语对应的检测规则确定待检测文本是否符合要求。

步骤6、利用命名实体识别模型对待检测文本进行命名实体检测。

其中，命名实体检测是针对目标短语所对应的具体内容进行的进一步检测，比如，当目标短语为“身份证号”时，其对应的命名实体为具体的18位数字或字母；当目标短语为“收件地址”时，其对应的命名实体为具体的地址信息，包括地区、街道、门牌号等信息。

这是因为，在保险电话营销等场景中，需要电话营销人员在跟客户确认投保人、受益人和地址等时，必须要让客户说出实际的人名和地址。以电话车险营销为例，车险销售成功后，业务人员需和投保人确认姓名地址等信息时，如果只是简单的以“地址”去判断是否有确认这些信息，在实际中用可能会出现业务人员只是和投保人确认说“地址没有变更吧？”，并没有实际地去确认地址，而这些开放式的信息无法用一个句子去匹配，因此可行的方法是去识别短语后是否包含有效的地址，这就需要使用命名实体识别模型进行判断。

具体的，在执行本步骤时，需要在检测前在设置检测配置文件中设置具体需要进行命名实体检测的目标短语，以及对应的命名实体信息的识别格式等内容。在实际执行时，将调用命名实体识别模型判断待检测文本中是否存在与该目标短语对应的命名实体名称，如人名、地名、机构名等，若存在，则确定该待检测文本符合要求；反之，则确定待检测文本不符合要求。

需要说明的是，命名实体识别模型与上述的词向量模型类似，都是利用神经网络训练得到的用于识别文本中的内容是否包含合法的相应命名实体的模型。其训练方式是采用现有的神经网络模型使用有标注的样本进行训练，具体方式本实施例不做限定。

进一步的，本步骤在本发明的一个可行实施例中，还可用于对步骤5中确定符合要求的待检测文本进行进一步的命名实体检测，当待检测文本中具有目标短语对应的命名实体名称时，确定该待检测文本符合要求，否则确定其不符合要求。

以上，详细说明了本发明实施例提供的文本检测装置在应用于语音数据的检测时同样可以起到提高对语音数据质量检测的准确性，对于用户设置的质检条目(目标短语)，通过共现词与词向量模型的配合检测可以准确地识别出语音数据中是否含有目标短语或与该目标短语语义近似的内容，并且，本发明还进一步利用命名实体识别模型对待检测文本中的内容进行检测，以实现所检测目标短语后的某一固定范围内是否存在相应的合法命名实体，对于语音数据而言，就可以判断语音数据中是否存在必要的命名实体数据，从而检测客服人员或咨询人员的话术规范性。

进一步的，作为对上述针对目标短语的文本检测方法的实现，本发明实施例提供了一种文本检测装置，该装置主要用于检测文本中是否含有与目标短语相匹配的内容，并以判断结果对文本进行分类。为便于阅读，本装置实施例不再对前述方法实施例中的细节内容进行逐一赘述，但应当明确，本实施例中的装置能够对应实现前述方法实施例中的全部内容。该装置具体包括：

文本获取单元，用于获取待检测文本；

共现词确定单元，用于确定目标短语的共现词；

段落确定单元，用于利用所述共现词确定单元得到的共现词在所述文本获取单元得到的待检测文本中确定待检测段落；

内容匹配单元，用于利用机器学习模型检测所述段落确定单元确定的待检测段落中是否含有与所述目标短语相匹配的内容；

文本检测单元，用于根据所述内容匹配单元得到的匹配结果和所述目标短语对应的检测规则确定所述待检测文本是否符合要求。

进一步地，所述段落确定单元包括：

查找模块，用于对于所述目标短语的每个共现词，在所述待检测文本中查找该共现词；

段落确定第一模块，用于所述查找模块每查找到该共现词时，根据该共现词在待检测文本中的位置以及预设段落长度确定一个待检测段落；

段落确定第二模块，用于若所述目标短语无共现词，或者，所述目标短语有共现词但所述查找模块在待检测文本中未查找到所述共现词时，将整个待检测文本确定为待检测段落。

进一步地，所述段落确定第一模块包括：

第一确定子模块，用于在待检测文本中，在查找到的该共现词前后各取预设长度的文字，得到一个待检测段落；

第二确定子模块，用于在待检测文本中，取长度等于预设长度且包含查找到的该共现词的段落作为待检测段落。

进一步地，所述内容匹配单元包括：

词向量检测模块，用于利用词向量模型检测所述待检测段落中短语的词向量与所述目标短语的词向量的相似度是否达到预设相似值；其中，所述词向量模型是基于神经网络训练得到的用于识别同义词的模型；

确定模块，用于当所述词向量检测模块确定相似值达到预设相似值时，确定所述待检测文本中含有与所述目标短语相匹配的内容。

进一步地，所述共现词确定单元具体用于，根据目标短语从预置共现词表中获取对应的共现词，所述预置共现词表是基于与待检测文本相同技术领域的文本集合统计得到的。

进一步地，所述装置还包括：

命名实体检测单元，用于在需要识别所述目标短语对应的命名实体时，调用命名实体识别模型判断所述待检测文本中是否存在与所述目标短语对应的命名实体名称；如果存在，则所述文本检测单元确定待检测文本符合要求；如果不存在，则所述文本检测单元确定待检测文本不符合要求。

进一步地，所述文本获取单元具体用于，将待质检语音转换为文本，得到待检测文本。

进一步的，本发明实施例还提供了一种存储介质，所述计算机可读存储介质上存储有计算机程序，其中，所述计算机程序被一个或多个计算装置执行时实现上述的文本检测方法。

另外，本发明实施例还提供了一种包括一个或多个计算装置和一个或多个存储装置的系统，所述一个或多个存储装置上记录有计算机程序，所述计算机程序在被所述一个或多个计算装置执行时使得所述一个或多个计算装置实现上述的文本检测方法。

综上所述，本发明实施例提出的一种文本检测方法及装置，实现对用户所设置的目标语句从语义的维度进行检测，判断待检测文本中是否含有与目标语句的语义相近似的句子，同时，在该检测过程中，本发明实施例还通过对待检测文本中的语句进行筛选，得到待检测的句子，减少了对整篇文本的内容进行检测的数据量，缩减了检测时间，提高了文本检测的效率。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

可以理解的是，上述方法及装置中的相关特征可以相互参考。另外，上述实施例中的“第一”、“第二”等是用于区分各实施例，而并不代表各实施例的优劣。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述，构造这类系统所要求的结构是显而易见的。此外，本发明也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

此外，存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)，存储器包括至少一个存储芯片。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flashRAM)。存储器是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

以上仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种文本检测方法，其中，所述方法包括：

获取待检测文本；

确定所述待检测文本中的待检测句子集合；

2.根据权利要求1所述的方法，其中，所述方法还包括：

3.根据权利要求1所述的方法，其中，确定所述待检测文本中的待检测句子集合包括：

4.根据权利要求1所述的方法，其中，确定所述待检测文本中的待检测句子集合包括：

5.根据权利要求4所述的方法，其中，所述方法还包括：

确定所述一个或多个目标词中的至少部分目标词的同义词；

由所述一个或多个目标词以及所述同义词组成定位词集合。

6.根据权利要求5所述的方法，其中，所述从待检测文本中截取包含该定位词且长度与所述目标句子的长度一致的段落还包括：

7.根据权利要求5所述的方法，其中，确定所述一个或多个目标词中的至少部分目标词的同义词包括：

8.一种文本检测装置，其中，所述装置包括：

文本获取单元，用于获取待检测文本；

9.一种计算机可读存储介质，其中，所述计算机可读存储介质上存储有计算机程序，其中，所述计算机程序被一个或多个计算装置执行时实现权利要求1-7中任意一项所述的方法。

10.一种包括一个或多个计算装置和一个或多个存储装置的系统，所述一个或多个存储装置上记录有计算机程序，所述计算机程序在被所述一个或多个计算装置执行时使得所述一个或多个计算装置实现如权利要求1-7中任一项所述的方法。