CN105956179B

CN105956179B - 数据过滤方法及装置

Info

Publication number: CN105956179B
Application number: CN201610367670.6A
Authority: CN
Inventors: 张昊; 朱频频
Original assignee: Shanghai Xiaoi Robot Technology Co Ltd
Current assignee: Shanghai Xiaoi Robot Technology Co Ltd
Priority date: 2016-05-30
Filing date: 2016-05-30
Publication date: 2020-05-26
Anticipated expiration: 2036-05-30
Also published as: CN105956179A

Abstract

本发明公开了一种数据过滤方法及装置。该方法包括：获取初始语料数据以及初始语料数据的人工分类结果；根据初始语料数据及人工分类结果建立分类模型；采用分类模型对新的语料数据进行自动分类处理；当自动分类处理的准确率小于预设值时，对分类模型进行调整处理；不断重复自动分类处理以及调整处理，直至采用调整后的分类模型对新的语料数据进行分类处理的准确率大于或等于预设值时，采用此时的分类模型对待处理语料数据进行分类处理。借助于本发明的技术方案，能够有效提高知识点分类的准确率，降低人工成本，避免了人力资源的浪费。

Description

数据过滤方法及装置

技术领域

本发明涉及信息处理技术领域，特别是涉及一种数据过滤方法及装置。

背景技术

在现有技术中，智能问答知识库中包括了多个知识点，在建立知识库或者向知识库中添加新的知识点的过程中需要对知识点进行过滤，将正确的知识点放入知识库中，过滤掉不需要的知识点。目前，上述处理一般都是进行人工审核，过滤掉错误的知识点，保留正确的知识点，但是，需要耗费大量的人力物力财力，并且效率低下。

发明内容

鉴于上述问题，提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的数据过滤方法及装置。

本发明提供一种数据过滤方法，包括：

获取初始语料数据以及初始语料数据的人工分类结果；

根据初始语料数据及人工分类结果建立分类模型；

采用分类模型对新的语料数据进行自动分类处理；

当自动分类处理的准确率小于预设值时，对分类模型进行调整处理；

不断重复自动分类处理以及调整处理，直至采用调整后的分类模型对新的语料数据进行分类处理的准确率大于或等于预设值时，采用此时的分类模型对待处理语料数据进行分类处理。

本发明还提供了一种数据过滤装置，包括：

获取模块，用于获取初始语料数据以及初始语料数据的人工分类结果；

分类模型建立模块，用于根据初始语料数据及人工分类结果建立分类模型；

自动分类模块，用于采用分类模型对新的语料数据进行自动分类处理；

调整模块，用于当自动分类处理的准确率小于预设值时，对分类模型进行调整处理；

优化模块，用于不断重复调用自动分类模块进行自动分类处理以及调用调整模块进行调整处理，直至确定采用调整后的分类模型对新的语料数据进行分类处理的准确率大于或等于预设值时，调用自动分类模块采用此时的分类模型对待处理语料数据进行分类处理。

本发明有益效果如下：

通过采用训练好的分类模型自动对语料数据进行分类处理，解决了现有技术中在过滤知识点时需要耗费大量的人力物力财力，并且效率低下的问题，能够有效提高知识点分类的准确率，降低人工成本，避免了人力资源的浪费。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1是本发明实施例的数据过滤方法的流程图；

图2是本发明实施例的数据过滤方法的详细处理的流程图；

图3是本发明实施例的数据过滤装置的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

为了解决现有技术中在过滤知识点时需要耗费大量的人力物力财力，并且效率低下的问题，本发明提供了一种数据过滤方法及装置，以下结合附图以及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不限定本发明。

方法实施例

根据本发明的实施例，提供了一种数据过滤方法，图1是本发明实施例的数据过滤方法的流程图，如图1所示，根据本发明实施例的数据过滤方法包括如下处理：

步骤101，获取初始语料数据以及初始语料数据的人工分类结果。

优选地，在本发明实施例中，语料数据可以为智能问答日志和/或从互联网爬取的问答数据。其中，智能问答日志是指：用户在使用智能问答系统过程中产生的交互日志，每条日志至少包括：用户的问句信息以及系统反馈的答案信息。此外，在从互联网爬取问答数据时，可以从论坛、网络百科、网络知道上爬取问答数据。

优选地，在本发明实施例中，为了方便后续处理，可以首先对语料数据进行预处理，并提取其中的问句信息。预处理具体包括如下处理：去除语料数据中的无效格式，并将其余语料数据的格式统一为文本格式，过滤脏词、敏感词和停用词中的一种或多种，并将过滤后的文本数据按照标点划分为多行，得到问答形式的文本数据。在实际应用中，上述标点可以是问号、叹号、分号或句号，也就是说，可以将过滤后的文本数据按照问号、叹号、分号或句号划分为多行。

随后，还可以对提取的问句信息进行分词处理，并通过新词发现方法获取新词，并根据新词重新进行分词处理，或者，首先通过新词发现方法获取新词，更新分词词典，直接使用更新后的分词词典进行分词处理。在本发明实施例中，分词处理可以采用字典双向最大匹配法、viterbi方法、HMM方法和CRF方法中的一种或多种进行。

此外，在步骤101中，人工分类结果可以为：有效领域词(即“是”)和无效领域词(即“否”)两类，这种分类以便后续将错误(无效领域词)的知识点过滤掉。该有效领域词和无效领域词可以通过对初始语料数据标注的方式表示。当然，在实际应用中，分类的方式可以由多种多样，并不限于有效领域词和无效领域词这两种分类方式，还可以为三种及三种以上的分类方式。

步骤102，根据初始语料数据及人工分类结果建立分类模型。

在本发明实施例中，可以采用SVM和朴素贝叶斯中的一种或两种建立分类模型。

具体地，步骤102的处理就是根据初始语料数据及人工分类结果对分类模型进行训练的过程。在分类模型训练完成后，执行下面的步骤。

步骤103，采用分类模型对新的语料数据进行自动分类处理。

也就是说，向分类模型中输入新的语料数据，分类模型根据步骤102的训练结果，会对输入的新的语料数据进行自动分类处理，输出该新的语料数据是有效还是无效。

步骤104，当自动分类处理的准确率小于预设值时，对分类模型进行调整处理。

需要说明的是，当输入100条新的语料数据，且前10条自动分类结果与人工分类结果相同，而后90条自动分类结果与人工分类结果都不同，从而前10条自动分类的准确率为100％，而整个100条自动分类的准确率为10％，因此自动分类的准确率应该与输入新的语料数据的数目有关系。

为了能客观反映自动分类处理的准确率，新的语料数据的数目不能太少；为了提高分类效率，新的语料数据的数目也不能太多，因此，新的语料数据的范围可以为：200条-500条。

其中，在步骤104中预设值的取值范围可以包括：0.5-0.99。

具体地，在步骤104中自动分类处理的准确率通过以下方式获取：

步骤1，获取新的语料数据的人工分类结果；也就是说，需要获取人工对新的语料数据的分类结果是无效还是有效。

步骤2，比较自动分类处理的结果与人工分类结果，以获得自动分类处理的准确率。

也就是说，需要将分类模型的自动分类结果与人工分类结果进行对比，从而计算分类模型自动分类结果的准确率。

在步骤104中，如果自动分类处理的准确率小于预设值，则表示该自动分类模型还不稳定，需要继续进行训练以完成调整处理。

在步骤104中，调整处理是指：根据所有的人工分类结果及其对应的语料数据重新建立分类模型。也就是说，利用人工分类结果和历史语料数据对分类模型进行重新训练。

步骤105，不断重复自动分类处理以及调整处理，直至采用调整后的分类模型对新的语料数据进行分类处理的准确率大于或等于预设值时，采用此时的分类模型对待处理语料数据进行分类处理。

在步骤105中，上述自动分类处理是指：步骤103，采用分类模型对新的语料数据进行自动分类处理，从而达到对分类模型进行再训练的目的。

在分类模型的准确率大于或等于预设值后，表明该分类模型已经稳定，可以采用该分类模型正式对待处理语料数据进行分类处理。

在本发明实施例中，由于分类结果为有效和无效两类，则采用稳定的分类模型对待处理语料数据进行分类处理后，会得到两类语料数据，有效语料数据和无效语料数据。从而可以直接过滤掉无效的语料数据，保留的语料数据可以认定为有效的知识点，保存在知识库中，可以用作推荐、用户行为分析、热点问题统计、语义聚类等操作。

以下结合附图，对本发明实施例的上述技术方案进行详细说明

图2是本发明实施例的数据过滤方法的详细处理的流程图，如图2所示，具体包括如下处理：

步骤201，获取智能问答日志以及从互联网爬取的问答数据，形成语料数据；

步骤202，对语料数据进行预处理：去除语料数据中的无效格式，并将其余语料数据的格式统一为文本格式，过滤脏词、敏感词和停用词中的一种或多种，并将过滤后的文本数据按照标点(？！。)划分为多行，得到问答形式的文本数据；

步骤203，通过新词发现方法获取新词；

步骤204，判断获取的新词是否为需要的领域内的词，如果判断为是，执行步骤205，否则，抛弃新词；

步骤205，根据新词对分词词典进行更新；

步骤206，根据更新后的分词词典对语料数据(问句信息)进行分词处理；

步骤207，根据初始语料数据及人工分类结果训练分类模型；

步骤208，采用分类模型对第一新的语料数据进行自动分类处理；

步骤209，判断分类模型自动分类处理的准确率是否等于或大于预设值，如果判断为是，执行步骤213；否则，执行步骤210；

步骤210，利用人工审核结果和历史语料数据对分类模型进行调整处理以实现优化，得到新的分类模型；

步骤211，采用新的分类模型对第二新的语料数据进行自动分类处理；

步骤212，判断分类模型自动分类处理的准确率是否等于或大于预设值，如果判断为否，返回步骤S210；否则，执行步骤213；

步骤213，分类模型稳定，可以对待处理语料数据进行分类处理。

综上所述，借助于本发明实施例的技术方案，通过采用训练好的分类模型自动对语料数据进行分类处理，解决了现有技术中在过滤知识点时需要耗费大量的人力物力财力，并且效率低下的问题，能够有效提高知识点分类的准确率，降低人工成本，避免了人力资源的浪费。

装置实施例

根据本发明的实施例，提供了一种数据过滤装置，图3是本发明实施例的数据过滤装置的结构示意图，如图3所示，根据本发明实施例的数据过滤装置包括：获取模块30、分类模型建立模块32、自动分类模块34、调整模块36、以及优化模块38，以下对本发明实施例的各个模块进行详细的说明。

获取模块30，用于获取初始语料数据以及所述初始语料数据的人工分类结果；优选地，在本发明实施例中，语料数据可以为智能问答日志和/或从互联网爬取的问答数据。其中，智能问答日志是指：用户在使用智能问答系统过程中产生的交互日志，每条日志至少包括：用户的问句信息以及系统反馈的答案信息。此外，在从互联网爬取问答数据时，可以从论坛、网络百科、网络知道上爬取问答数据。

优选地，在本发明实施例中，为了方便后续处理，获取模块30可以首先对语料数据进行预处理，并提取其中的问句信息。预处理具体包括如下处理：去除语料数据中的无效格式，并将其余语料数据的格式统一为文本格式，过滤脏词、敏感词和停用词中的一种或多种，并将过滤后的文本数据按照标点划分为多行，得到问答形式的文本数据。在实际应用中，上述标点可以是问号、叹号、分号或句号，也就是说，可以将过滤后的文本数据按照问号、叹号、分号或句号划分为多行。

随后，获取模块30还可以对提取的问句信息进行分词处理，并通过新词发现方法获取新词，并根据新词重新进行分词处理，或者，首先通过新词发现方法获取新词，更新分词词典，直接使用更新后的分词词典进行分词处理。在本发明实施例中，分词处理可以采用字典双向最大匹配法、viterbi方法、HMM方法和CRF方法中的一种或多种进行。

此外，获取模块30获取的人工分类结果可以为：有效领域词和无效领域词两类，这种分类以便后续将错误(无效)的知识点过滤掉。该有效领域词和无效领域词可以通过对初始语料数据标注的方式表示。当然，在实际应用中，分类的方式可以由多种多样，并不限于有效领域词和无效领域词这种分类方式。

分类模型建立模块32，用于根据所述初始语料数据及人工分类结果建立分类模型；在本发明实施例中，分类模型建立模块32可以采用SVM和朴素贝叶斯中的一种或两种建立分类模型。

自动分类模块34，用于采用所述分类模型对新的语料数据进行自动分类处理；

也就是说，自动分类模块34向分类模型中输入新的语料数据，分类模型根据分类模型建立模块32的训练结果，会对输入的新的语料数据进行自动分类处理，输出该新的语料数据是有效还是无效。

调整模块36，用于当所述自动分类处理的准确率小于预设值时，对所述分类模型进行调整处理；

为了能客观反映自动分类处理的准确率，新的语料数据的数目不能太少；为了提高分类效率，新的语料数据的数目也不能太多，因此，新的语料数据的范围可以为：200条-500条。其中，预设值的取值范围包括：0.5-0.99。

具体地，调整模块36通过以下方式获取自动分类的准确率：

获取新的语料数据的人工分类结果；也就是说，需要获取人工对新的语料数据的分类结果是无效还是有效。

比较自动分类处理的结果与人工分类结果，以获得自动分类的准确率。

也就是说，调整模块36需要将分类模型的自动分类结果与人工分类结果进行对比，从而计算分类模型自动分类结果的准确率。

如果自动分类的准确率小于预设值，则表示该自动分类模型还不稳定，需要继续进行训练。调整模块36的调整处理是指：根据所有的人工分类结果及其对应的语料数据重新建立分类模型。也就是说，利用人工审核结果和历时语料数据对分类模型进行重新训练。

优化模块38，用于不断重复调用所述自动分类模块34进行所述自动分类处理以及调用所述调整模块36进行所述调整处理，直至确定采用调整后的分类模型对新的语料数据进行分类处理的准确率大于或等于所述预设值时，调用所述自动分类模块34采用此时的分类模型对待处理语料数据进行分类处理。

在重新训练后的分类模型的准确率达到要求后，表明该分类模型已经稳定，可以对待处理语料数据进行分类处理。

在本发明实施例中，由于分类方式为有效和无效两类，则采用稳定的分类模型对待处理语料数据进行分类处理后，会得到两类语料数据，有效语料数据和无效语料数据。从而可以直接过滤掉无效的语料数据，保留的语料数据可以认定为有效的知识点，保存在知识库中，可以用作推荐、用户行为分析、热点问题统计、语义聚类等操作。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述，构造这类系统所要求的结构是显而易见的。此外，本发明也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的客户端中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个客户端中。可以把实施例中的模块组合成一个模块，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者客户端的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的加载有排序网址的客户端中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims

1.一种数据过滤方法，用于过滤知识点，其特征在于，包括：

获取初始语料数据以及所述初始语料数据的人工分类结果，所述初始语料数据为智能问答日志和/或从互联网爬取的问答数据；

根据所述初始语料数据及人工分类结果建立分类模型；

采用所述分类模型对新的语料数据进行自动分类处理，所述新的语料数据的范围为200条到500条；

所述语料数据在建立分类模型或进行自动分类处理前还需要进行预处理操作，所述预处理操作包括：去除所述语料数据中的无效格式，并将剩余的语料数据的格式统一为文本格式，过滤所述剩余的语料数据中的脏词，和/或敏感词，和/或停用词，并将过滤后的语料数据按照标点划分为多行，形成问答形式的文本数据，提取所述问答形式的文本数据的问句信息，通过新词发现方法获取新词，判断所述获取的新词是否为需要的领域内的词，如果是，根据所述新词对分词词典进行更新，并根据所述更新后的分词词典对所述问句信息进行分词处理，否则，抛弃所述新词；

当所述自动分类处理的准确率小于预设值时，对所述分类模型进行调整处理；

不断重复所述自动分类处理以及所述调整处理，直至采用调整后的分类模型对新的语料数据进行分类处理的准确率大于或等于所述预设值时，采用此时的分类模型对待处理语料数据进行分类处理；

所述人工分类以及所述自动分类处理的结果为有效领域词或无效领域词。

2.如权利要求1所述的数据过滤方法，其特征在于，采用SVM和朴素贝叶斯中的一种或两种建立所述分类模型。

3.如权利要求1所述的数据过滤方法，其特征在于，所述预设值的取值范围包括：0.5-0.99。

4.如权利要求1所述的数据过滤方法，其特征在于，所述自动分类处理的准确率通过以下方式获取：

获取所述新的语料数据的人工分类结果；

比较所述自动分类处理的结果与所述人工分类结果，以获得所述自动分类处理的准确率。

5.如权利要求1所述的数据过滤方法，其特征在于，所述调整处理包括：

根据所有的人工分类结果及其对应的语料数据重新建立分类模型。

6.一种数据过滤装置，用于过滤知识点，其特征在于，包括：

获取模块，用于获取初始语料数据以及所述初始语料数据的人工分类结果，所述初始语料数据为智能问答日志和/或从互联网爬取的问答数据；

分类模型建立模块，用于根据所述初始语料数据及人工分类结果建立分类模型；

自动分类模块，用于采用所述分类模型对新的语料数据进行自动分类处理，所述新的语料数据的范围为200条到500条；

预处理模块：用于对所述语料数据在建立分类模型或进行自动分类处理前进行预处理操作，所述预处理操作包括：去除所述语料数据中的无效格式，并将剩余的语料数据的格式统一为文本格式，过滤所述剩余的语料数据中的脏词，和/或敏感词，和/或停用词，并将过滤后的语料数据按照标点划分为多行，形成问答形式的文本数据，提取所述问答形式的文本数据的问句信息，通过新词发现方法获取新词，判断所述获取的新词是否为需要的领域内的词，如果是，根据所述新词对分词词典进行更新，并根据所述更新后的分词词典对所述问句信息进行分词处理，否则，抛弃所述新词；

调整模块，用于当所述自动分类处理的准确率小于预设值时，对所述分类模型进行调整处理；

优化模块，用于不断重复调用所述自动分类模块进行所述自动分类处理以及调用所述调整模块进行所述调整处理，直至确定采用调整后的分类模型对新的语料数据进行分类处理的准确率大于或等于所述预设值时，调用所述自动分类模块采用此时的分类模型对待处理语料数据进行分类处理；

7.如权利要求6所述的数据过滤装置，其特征在于，所述分类模型建立模块具体用于：采用SVM和朴素贝叶斯中的一种或两种建立所述分类模型。

8.如权利要求6所述的数据过滤装置，其特征在于，所述预设值的取值范围包括：0.5-0.99。

9.如权利要求6所述的数据过滤装置，其特征在于，所述调整模块具体用于：通过以下方式获取所述自动分类处理的准确率：

获取所述新的语料数据的人工分类结果；

10.如权利要求6所述的数据过滤装置，其特征在于，所述调整模块具体用于：