CN110362659A

CN110362659A - 机器人开放语料库的异常语句过滤方法和系统

Info

Publication number: CN110362659A
Application number: CN201910642303.6A
Authority: CN
Inventors: 吴新开; 李永伟; 霍向
Original assignee: Beijing Lobby Technology Co Ltd
Current assignee: Beijing Lobby Technology Co Ltd
Priority date: 2019-07-16
Filing date: 2019-07-16
Publication date: 2019-10-22

Abstract

本发明提供一种机器人开放语料库的异常语句过滤方法和系统。方法包括：基于群智方式生成机器人对话语料；对生成的机器人对话语料进行预处理；对经过预处理的机器人对话语料进行过滤处理；将经过过滤处理的机器人对话语料存入纯净开发语料库。其中，在过滤处理阶段，先基于预先构建的异常词库查找出经过预处理的机器人对话语料中的异常单元词，再基于预先构建的辅助词库判断异常单元词所在语句中与异常单元词相邻的单元词是否为辅助词，若为否，则判断机器人对话语料为异常语料，将异常语料删除。该技术方案过滤效果好，可有效删除机器人互动对话语料中的敏感语句、广告语句、重复语句以及无意义语句等异常语句，从而建立实用、丰富的开放语料库。

Description

机器人开放语料库的异常语句过滤方法和系统

技术领域

本发明涉及机器人对话语料处理技术领域，特别涉及一种机器人开放语料库的异常语句过滤方法和系统。

背景技术

随着人工智能技术的不断发展，智能机器人产品如雨后春笋般出现在市场，并逐渐进入千家万户。语音交互作为智能机器人的重要功能之一，其对话语料库的语料数量和质量直接决定了语音交互的质量和用户体验。

当前，机器人对话语料库的语料添加主要有以下三种方法：一是由机器人后台工程师人工编写对话语料，该方法生成的语料质量好，但该方法需要消耗大量的人力物力，效率较低；二是通过网络爬虫或人工智能技术自动获取或算法生成对话语料，该方法语料生成速度较快，效率较高，但语料的交互性和实用性较差，容易产生无意义语料；三是通过用户上传广泛收集对话语料，该方法可借助海量用户快速收集语料，但用户可能受利益驱使上传一些广告语句、敏感语句等质量差的语料，影响用户体验，甚至出现违反国家法律法规的内容。综上所述，通过以上三种方式建立机器人开放语料库，能够快速收集大量语料，但存在的主要问题是：如何对敏感语句、广告语句、重复语句以及无意义语句等异常语句进行过滤。因此，提供一种有效的异常语料过滤方法对机器人开放语料库的构建具有重要意义。

现有的异常语料过滤方法过滤方式单一，往往只关注对涉及政治、色情、暴力等敏感词，且处理的对象主要是文章、段落以及网络评论，处理方式主要是对敏感词进行屏蔽，且没有专门针对机器人开放语料库进行系统过滤的方法。

发明内容

针对现有技术的上述缺陷，本发明的实施例提供一种机器人开放语料库的异常语句过滤方法和系统。

第一方面，本发明实施例提供一种机器人开放语料库的异常语句过滤方法，包括：

S1、基于群智方式生成机器人对话语料；

S2、对生成的机器人对话语料进行预处理；

S3、对经过预处理的机器人对话语料进行过滤处理；

S4、将经过过滤处理的机器人对话语料存入纯净开发语料库；

在S3中所述对经过预处理的机器人对话语料进行过滤处理，包括：

基于预先构建的异常词库查找出所述经过预处理的机器人对话语料中的异常单元词；基于预先构建的辅助词库判断所述异常单元词所在语句中与所述异常单元词相邻的单元词是否为辅助词，若为否，则判断所述机器人对话语料为异常语料，将所述异常语料删除。

如上所述的方法，其中，在S1中所述基于群智方式生成机器人对话语料，具体包括：

通过机器人语言工程师编写机器人对话语料；

利用网络爬虫或其它智能算法自动生成机器人对话语料；

通过用户上传收集机器人对话语料。

如上所述的方法，其中，在S2中所述对生成的机器人对话语料进行预处理，具体包括：

对机器人对话语料语句进行分词处理，并统计语句包含的词数量；

对机器人对话语料进行词向量化处理，生成表征词向量的词向量组，所述词向量组表示语料内容和语料库字典；

对机器人对话语料的每一个单元词进行分类处理，每一个单元词通过其字典锁定。

如上所述的方法，其中，在S3中所述对经过预处理的机器人对话语料进行过滤处理，还包括：

通过将经过预处理的机器人对话语料与已存语料进行比较，判断出重复语料，并对所述重复语料进行删除处理。所述通过将经过预处理的机器人对话语料与已存语料进行比较，判断出重复语料，具体为：

将经过预处理的每一句语料的每个词向量组与已存语料进行逐条语句词向量组的相似度对比，获得该句语料的重复值，当判断该句语料的重复值超过预先设置的重复度阈值时，则判断该句语料为重复语料。

第二方面，本发明实施例提供一种机器人开放语料库的异常语句过滤系统，包括：

语料生成单元，用于基于群智方式生成机器人对话语料；

语料预处理单元，用于对生成的机器人对话语料进行预处理；

语料过滤单元，用于对经过预处理的机器人对话语料进行过滤处理；

语料收集单元，用于将经过过滤处理的机器人对话语料存入纯净开发语料库；

所述语料过滤单元具体用于：

如上所述的系统，其中，所述语料生成单元包括：

人工编写子单元，用于通过机器人语言工程师编写机器人对话语料；

算法生成子单元，用于利用网络爬虫或其它智能算法自动生成机器人对话语料；

用户上传子单元，用于通过用户上传收集机器人对话语料。

如上所述的系统，其中，所述语料预处理单元包括：

分词处理子单元，用于对机器人对话语料语句进行分词处理，并统计语句包含的词数量；

词向量生成子单元，用于对机器人对话语料进行词向量化处理，生成表征词向量的词向量组，所述词向量组表示语料内容和语料库字典；

词性分类子单元，用于对机器人对话语料的每一个单元词进行分类处理，每一个单元词通过其字典锁定。

如上所述的系统，其中，所述语料过滤单元还用于通过将经过预处理的机器人对话语料与已存语料进行比较，判断出重复语料，并对所述重复语料进行删除处理。语料过滤单元通过将经过预处理的机器人对话语料与已存语料进行比较，判断出重复语料，具体为：

本发明提供的技术方案，首选基于群智方式生成机器人对话语料，并对生成的机器人对话语料进行预处理，再对经过预处理的机器人对话语料进行过滤处理，然后再将经过过滤处理的机器人对话语料存入纯净开发语料库。其中，在过滤处理阶段，先基于预先构建的异常词库查找出经过预处理的机器人对话语料中的异常单元词，再基于预先构建的辅助词库判断异常单元词所在语句中与异常单元词相邻的单元词是否为辅助词，若为否，则判断机器人对话语料为异常语料，将异常语料删除。该技术方案充分结合机器人语料库的特点，对单一语料可以从敏感语句、广告语句、重复语句以及无意义语句等多角度进行过滤，过滤效果好，可有效删除机器人互动对话语料中的异常语句，从而建立实用、丰富的开放语料库。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明提供的机器人开放语料库的异常语句过滤方法的流程图；

图2为本发明提供的机器人开放语料库的异常语句过滤系统的应用实施例的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明提供的机器人开放语料库的异常语句过滤方法的流程图，该方法可以由机器人开放语料库的异常语句过滤系统来执行，该规划系统可以通过软件方式实现，配置于机器人开放语料库服务器设备中。如图1所示，本实施例的方法可以包括以下内容。

S1、基于群智方式生成机器人对话语料。

机器人对话语料的生成通常包括三种方式：通过机器人语言工程师编写机器人对话语料；利用网络爬虫或其它智能算法自动生成机器人对话语料；通过用户上传收集机器人对话语料。

S2、对生成的机器人对话语料进行预处理。

在应用过程中，对生成的机器人对话语料进行预处理，通常包括：对机器人对话语料语句进行分词处理，并统计语句包含的词数量；对机器人对话语料进行词向量化处理，生成表征词向量的词向量组，词向量组表示语料内容和语料库字典；对机器人对话语料的每一个单元词进行分类处理，每一个单元词通过其字典锁定。

S3、对经过预处理的机器人对话语料进行过滤处理。

具体的，先基于预先构建的异常词库查找出经过预处理的机器人对话语料中的异常单元词，然后基于预先构建的辅助词库判断所述异常单元词所在语句中与所述异常单元词相邻的单元词是否为辅助词，若为否，则判断所述机器人对话语料为异常语料，将所述异常语料删除。

所述对经过预处理的机器人对话语料进行过滤处理，还包括：通过将经过预处理的机器人对话语料与已存语料进行比较，判断出重复语料，并对所述重复语料进行删除处理。所述通过将经过预处理的机器人对话语料与已存语料进行比较，判断出重复语料，具体可以为：

将经过预处理的每一句语料的每个词向量组与已存语料进行逐条语句词向量组的相似度对比，获得该句语料的重复值，当判断该句语料的重复值超过预先设置的重复度阈值时，则判断该句语料为重复语料。已存语料为系统已经构建的纯净词语料库，重复度阈值可以根据具体应用设定合理的重复度阈值。

S4、将经过过滤处理的机器人对话语料存入纯净开发语料库。

本实施例中，首选基于群智方式生成机器人对话语料，并对生成的机器人对话语料进行预处理，再对经过预处理的机器人对话语料进行过滤处理，然后再将经过过滤处理的机器人对话语料存入纯净开发语料库。其中，在过滤处理阶段，先基于预先构建的异常词库查找出经过预处理的机器人对话语料中的异常单元词，再基于预先构建的辅助词库判断异常单元词所在语句中与异常单元词相邻的单元词是否为辅助词，若为否，则判断机器人对话语料为异常语料，将异常语料删除。该技术方案充分结合机器人语料库的特点，对单一语料可以从敏感语句、广告语句、重复语句以及无意义语句等多角度进行过滤，过滤效果好，可有效删除机器人互动对话语料中的异常语句，从而建立实用、丰富的开放语料库。

本发明还提供一种机器人开放语料库的异常语句过滤系统，包括：语料生成单元、语料预处理单元、语料过滤单元和语料收集单元。其中，语料生成单元用于基于群智方式生成机器人对话语料；语料预处理单元用于对生成的机器人对话语料进行预处理；语料过滤单元用于对经过预处理的机器人对话语料进行过滤处理；语料收集单元用于将经过过滤处理的机器人对话语料存入纯净开发语料库。

语料生成单元又包括：人工编写子单元、算法生成子单元和用户上传子单元。人工编写子单元用于通过机器人语言工程师编写机器人对话语料；算法生成子单元用于利用网络爬虫或其它智能算法自动生成机器人对话语料；用户上传子单元用于通过用户上传收集机器人对话语料。

语料预处理单元又包括：分词处理子单元、词向量生成子单元和词性分类子单元。分词处理子单元用于对机器人对话语料语句进行分词处理，并统计语句包含的词数量；词向量生成子单元用于对机器人对话语料进行词向量化处理，生成表征词向量的词向量组，所述词向量组表示语料内容和语料库字典；词性分类子单元用于对机器人对话语料的每一个单元词进行分类处理，每一个单元词通过其字典锁定。

语料过滤单元具体可以用于：基于预先构建的异常词库查找出所述经过预处理的机器人对话语料中的异常单元词；基于预先构建的辅助词库判断所述异常单元词所在语句中与所述异常单元词相邻的单元词是否为辅助词，若为否，则判断所述机器人对话语料为异常语料，将所述异常语料删除。

语料过滤单元还可以用于通过将经过预处理的机器人对话语料与已存语料进行比较，判断出重复语料，并对所述重复语料进行删除处理。

语料过滤单元通过将经过预处理的机器人对话语料与已存语料进行比较，判断出重复语料，具体为：将经过预处理的每一句语料的每个词向量组与已存语料进行逐条语句词向量组的相似度对比，获得该句语料的重复值，当判断该句语料的重复值超过预先设置的重复度阈值时，则判断该句语料为重复语料。

下面给出的是本发明实施例提供的技术方案的一个应用实施例。图2为本发明提供的机器人开放语料库的异常语句过滤系统的应用实施例的结构示意图。参考图2所示，该系统用于智能服务机器人交互功能开放语料库的语句处理，包括：基于群智方式的智能服务机器人交互语料生成单元104、语料输入单元105、语料预处理单元106、语料过滤单元110和用于智能服务机器人交互功能的开发语料库收集单元115。

智能服务机器人交互语料人工编写子单元101：智能服务机器人交互语料人工编写子单元是语料生成单元中的一部分，该单元提供一种语料生成方式，即通过相关专业人员在该单元平台上编写智能服务机器人交互对话语料，该方式生成的语料质量好，但效率较低；

智能服务机器人交互语料自动收集子单元102：智能服务机器人交互语料自动收集子单元也是语料生成单元其中的一部分，该单元提供另一种语料生成方式，即通过网络爬虫或其他算法技术在该单元平台上自动获取对话语料，该方法语料生成速度较快，效率较高，但语料的质量较差；

智能服务机器人交互语料用户上传子单元103：智能服务机器人交互语料用户上传子单元同样也是语料生成单元其中的一部分，该单元提供又一种新的语料生成方式，即通过用户上传模式在该单元平台上收集智能服务机器人交互对话语料，该方式生成速度较快，但同样语料的质量较差；

基于群智方式的智能服务机器人交互语料生成单元104：为从智能服务机器人交互语料生成的速度和质量两个方面考虑，融合上述三个子单元搭建了基于群智方式的智能服务机器人交互语料生成单元。

语料输入单元105：语料输入单元连接智能服务机器人交互语料生成单元和语料预处理单元，该单元提供实时高效的传输方式，为语料生成单元所生成的语料资源后续处理提供输入接口。

语料预处理单元106：S语料预处理单元连接语料输入单元和语料过滤单元，该单元为输入的语料提供前期预处理过程，该单元平台依据后续处理逻辑主要将内容划分为3个主要子单元：分词处理子单元107、词向量生成子单元108和词性分类子单元109。

分词处理子单元107：分词处理子单元是语料预处理单元的一部分，该单元提供相关语句分词处理平台，为语句进行分词处理，并统计语句包含的词数量。

词向量生成子单元108：词向量生成子单元也是语料预处理单元的一部分，该单元提供相关算法工具对语料进行词向量化处理，生成表征词向量词向量组，该词向量组表示的语料内容和语料库字典。

词性分类子单元109：词性分类子单元同样也是语料预处理单元的一部分，该单元提供每一单元词的分类处理，每一个单元词可通过其字典锁定，类别可在实际应用中科学地划分，例如本发明实施例提供的类别，如政治敏感词、淫秽色情词、暴力恐怖词、广告用词、社交账号、网址链接以及一些特殊符号等类型词，在所述异常词库中设置异常词类型，如本发明实施例提供以下异常词类型示例，具体场景中相关词语类型的划分可以根据实际应用进行划分。设置政治敏感词为第1类异常词语类别为A₁；设置淫秽色情词为第二类异常词语，类别为A₂；设置暴力恐怖词为第三类异常词语，类别为A₃；设置广告用词为第四类异常词语，类别为A₄；设置社交账号相关词为第五类异常词语，类别为A₅；设置网络链接相关词为第六类异常词语，类别为A₆；设置特殊符号相关词为第七类异常词语，类别为A₇；设置其他异常词为第八类异常词语，类别为A₈。

语料过滤单元110：语料过滤单元是本系统核心单元，提供为输入的语料进行过滤处理，其中包括两个主要的核心子单元：重复语料删除子单元111和异常语料删除子单元112。

重复语料删除子单元111：重复语料删除子单元是语料过滤单元的一个子单元，提供为输入的经预处理后的语料进行是否与已存语料重复度判断，以及对于重复语料进行删除处理；

将输入的经预处理后的每一句语料的每个词向量组与系统已经构建的纯净词语料库中的逐条语句词向量组进行相似度对比，获得该句语料的重复值β，根据实际应用设定合理的重复度阈值，当判断该句语料的重复值超过设定的重复度阈值，则判断该句语料为重复语料，删除该句语料。

异常语料删除子单元112：异常语料删除子单元是语料过滤单元的另一个子单元，提供为输入的语料进行判断是否是异常语料，以及对于异常语料进行删除处理；例如，对输入的经预处理后的每一句语料的第1至N个词的词向量组与系统已经构建的异常词库进行遍历匹配，若其中第i个词存在于异常词库(i∈{1，…，N})，且处于异常词库中的A_j类，则输出异常词判定指标E_i，j，E_i，j＝1(1≤i≤N，1≤j≤8)；当判断的其中一句语料的第i个词是异常词，即E_i，j＝1，将该词的前、后的词与系统已经构建的辅助词库进行遍历匹配，若判断其前、后的词存在于辅助词库，异常词与其辅助词在系统构建的辅助词库中可重新更正异常词判定指标，判断该句语料不含有异常词，例如“打击色情产业”这一语句中的词语“色情”属于异常词库中色情相关词，即A₂类，而其辅助词语“打击”属于辅助词库中的一词，该词可以辅助异常词“色情”在语句中表现出积极意义，用于判定异常词出现场景是否为正向，判断该句语料不含有异常词。若异常词的辅助词不在系统构建的辅助语料库，则判断该句语料含有异常词，删除该语料。

异常词库113：异常词库是系统之前收集大量的异常语料词语，由专业人员或相关算法工具构建的实用、丰富的异常词库。

辅助词库114：辅助词库是系统之前收集大量的辅助语料词语，由专业人员或相关算法工具构建的实用、丰富的辅助词库。

用于智能服务机器人交互功能的开发语料库收集单元115：用于智能服务机器人交互功能的开发语料库收集单元将连接语料过滤单元，将过滤处理后的语料存入最终的纯净开发语料库。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种机器人开放语料库的异常语句过滤方法，其特征在于，包括：

S1、基于群智方式生成机器人对话语料；

S2、对生成的机器人对话语料进行预处理；

S3、对经过预处理的机器人对话语料进行过滤处理；

2.如权利要求1所述的方法，其特征在于，在S1中所述基于群智方式生成机器人对话语料，具体包括：

通过机器人语言工程师编写机器人对话语料；

利用网络爬虫或其它智能算法自动生成机器人对话语料；

通过用户上传收集机器人对话语料。

3.如权利要求1所述的方法，其特征在于，在S2中所述对生成的机器人对话语料进行预处理，具体包括：

4.如权利要求1-3任一项所述的方法，其特征在于，在S3中所述对经过预处理的机器人对话语料进行过滤处理，还包括：

通过将经过预处理的机器人对话语料与已存语料进行比较，判断出重复语料，并对所述重复语料进行删除处理。

5.如权利要求4所述的方法，其特征在于，所述通过将经过预处理的机器人对话语料与已存语料进行比较，判断出重复语料，具体为：

6.一种机器人开放语料库的异常语句过滤系统，其特征在于，包括：

语料生成单元，用于基于群智方式生成机器人对话语料；

所述语料过滤单元具体用于：

7.如权利要求6所述的系统，其特征在于，所述语料生成单元包括：

用户上传子单元，用于通过用户上传收集机器人对话语料。

8.如权利要求6所述的系统，其特征在于，所述语料预处理单元包括：

9.如权利要求6-8任一项所述的系统，其特征在于，所述语料过滤单元还用于通过将经过预处理的机器人对话语料与已存语料进行比较，判断出重复语料，并对所述重复语料进行删除处理。

10.如权利要求9所述的系统，其特征在于，语料过滤单元通过将经过预处理的机器人对话语料与已存语料进行比较，判断出重复语料，具体为：