CN107273501A

CN107273501A - 语料生成方法及系统、智能设备和计算机装置

Info

Publication number: CN107273501A
Application number: CN201710459426.7A
Authority: CN
Inventors: 沈亮; 闫永刚
Original assignee: Hefei Midea Intelligent Technologies Co Ltd
Current assignee: Hefei Midea Intelligent Technologies Co Ltd
Priority date: 2017-06-16
Filing date: 2017-06-16
Publication date: 2017-10-20
Anticipated expiration: 2037-06-16
Also published as: CN107273501B

Abstract

本发明提出了一种语料生成方法及系统、智能设备、计算机装置和计算机可读存储介质。其中，该语料生成方法包括：获取场景信息，并在场景信息中提取场景关键词；通过执行网络爬虫获取至少一条语句；提取每条语句的特征词；根据场景关键词及每条语句的特征词对每条语句进行分类，得到第一语句分类；计算每条语句与其他语句的相似度；将相似度大于预设相似度阈值的语句划分成为第二语句分类；获取同时存在于第一语句分类及第二语句分类中的语句作为有效语句；将场景关键词及有效语句输出至文本文件。本发明提供的语料生成方法，通过自动对网络爬虫获取到的语句进行场景归类，提高该语料生成方法采集语料的速度、效率和准确率。

Description

语料生成方法及系统、智能设备和计算机装置

技术领域

本发明涉及语料生成技术领域，具体而言，涉及一种语料生成方法、语料生成系统、智能设备、计算机装置和计算机可读存储介质。

背景技术

随着物联网概念的兴起，智能家电产品进入人们的生活。例如，智能冰箱的产生，使得用户快速、便捷地在冰箱上体验商品购买、菜谱查阅、食材配置、营养健康等，并且厨房情景下的语料整理方法，可以快速、高效、准确地采集用户在厨房情景下可能的问答语句，为厨房语音做语料准备。

目前，厨房语料的采集通常采用以下两种方案：方案一，通过人工调查问卷形式采集厨房下的语料，再结合人工校对的方式整理语料；方案二，通过爬虫方式采集厨房下的语料，再结合人工校对的方式整理语料。

然而，方案一有如下几种缺点：

(1)成本较高，需要印制人工调查问卷；

(2)效率较低，很难在短时间内完成采集任务；

(3)采集的厨房语料中的问句存在重复，需要人工二次处理，代价比较高。

方案二有如下几种缺点：

(1)爬虫环节没有清洗、合并等规则，仍需要进行清理工作；

(2)需要采取人工审核的方式，效率较低。

发明内容

本发明旨在至少解决现有技术或相关技术中存在的技术问题之一。

为此，本发明的第一个目的在于，提出一种语料生成方法。

本发明的第二个目的在于，提出一种语料生成系统。

本发明的第三个目的在于，提出一种智能设备。

本发明的第四个目的在于，提出一种计算机设备。

本发明的第五个目的在于，提出一种计算机可读存储介质。

有鉴于此，根据本发明的第一个目的，提供了一种语料生成方法，用于智能设备，该语料生成方法包括：获取场景信息，并在场景信息中提取场景关键词；通过执行网络爬虫获取至少一条语句；提取每条语句的特征词；根据场景关键词及每条语句的特征词对每条语句进行分类，得到第一语句分类；计算每条语句与其他语句的相似度；将相似度大于预设相似度阈值的语句划分成为第二语句分类；获取同时存在于第一语句分类及第二语句分类中的语句作为有效语句；将场景关键词及有效语句输出至文本文件。

本发明提供的语料生成方法，通过获取场景信息和至少一条语句，并根据在场景信息中提取的场景关键词，以及在获取的语句中提取的每条语句的特征词，对每条语句进行分类，使得将收集来的语句归类到场景关键词中，自动进行第一语句分类，分类结果准确。进一步地，通过对计算出的每条语句与其他语句的相似度大于预设相似度阈值的语句进行划分，使得通过相似度计算自动进行第二语句分类，分类结果准确。进一步地，获取同时存在于第一语句分类及第二语句分类中的语句作为有效语句，并将场景关键词及有效语句输出至文本文件，达到了自动对有效语句进行场景归类的目的，提高了该语料生成方法采集语料的速度、效率和准确率，避免了相关技术中采用人工干预进行语料采集，节省了大量的人力资源。

具体实施例中，用户可以自定义网络爬虫的爬虫脚本，通过执行爬虫脚本获取至少一条语句，使得该语料生成方法支持可自定义的爬虫脚本扩展。用户可以自定义场景信息，通过获取用户自定义的场景信息，使得该语料生成方法支持可自定义的场景信息扩展。

另外，根据本发明上述的语料生成方法，还可以具有如下附加的技术特征：

在上述技术方案中，优选地，通过执行网络爬虫获取至少一条语句的步骤，具体包括：判断网络爬虫是否满足预设爬虫执行规则；当网络爬虫满足预设爬虫执行规则时，判断统一资源定位符是否可访问以及网络是否拥堵；当统一资源定位符可访问以及网络未拥堵时，执行网络爬虫，获取至少一条语句。

在该技术方案中，当网络爬虫满足预设爬虫执行规则，并且统一资源定位符可访问以及网络是未拥堵时，执行网络爬虫，使得获取到的语句满足预设爬虫执行规则，保证网络爬虫获取语句的速度、效率和准确率。

在上述任一技术方案中，优选地，预设爬虫执行规则为按照预设数据来源、预设时间点、预设间隔周期、预设重试次数、预设线程数、预设邮件收件人列表、预设邮件正文执行。

在该技术方案中，通过设置预设爬虫执行规则，使得获取到的语句满足预设爬虫执行规则，保证网络爬虫获取语句的速度、效率和准确率。具体地说，预设爬虫执行规则为但不局限于按照预设数据来源、预设时间点、预设间隔周期、预设重试次数、预设线程数、预设邮件收件人列表、预设邮件正文执行。进一步地，用户可以自定义该预设爬虫执行规则，使得网络爬虫获取到的语句满足用户的个性化需求，提升用户的使用体验。

具体实施例中，通过设置预设数据来源和预设线程数，使得该语料生成方法支持多数据源和多线程的可配置的爬虫执行规则，充分利用机器资源，提高了该语料生成方法采集语料的速度和效率。通过设置预设重试次数，使得该语料生成方法支持自动重试的可配置的爬虫执行规则。通过设置预设时间点、预设间隔周期、预设邮件收件人列表、预设邮件正文执行，使得在执行网络爬虫后，通过按照预设邮件收件人列表、预设邮件正文执行网络爬虫，以邮件形式告知在多个预设时间点网络爬虫获取的语句条数、获取的语句数据来源等，使得预设邮件收件人及时获悉语料采集的状态，进而使得该语料生成方法对语料采集进行实时监控，实现实时跟踪语料采集的状态。

在上述任一技术方案中，优选地，在提取每条语句的特征词的步骤之前，还包括：删除每条语句中重复的语句；删除每条语句中字数小于预设值的语句；删除每条语句中不包含疑问词的语句；删除每条语句中不包含烹饪方法词的语句；删除每条语句中的疑问副词。

在该技术方案中，在提取每条语句的特征词的步骤之前，对网络爬虫获取到的至少一条语句进行清洗操作。具体地说，在提取每条语句的特征词的步骤之前，通过删除每条语句中重复的语句，删除每条语句中字数小于预设值的语句，删除每条语句中不包含疑问词的语句，删除每条语句中不包含烹饪方法词的语句，以及删除每条语句中的疑问副词，达到清洗后的语句符合场景信息的要求，进而提高了该语料生成方法采集语料的速度、效率和准确率。

在上述任一技术方案中，优选地，根据场景关键词及每条语句的特征词对每条语句进行分类，得到第一语句分类的步骤，具体包括：根据场景关键词生成场景关键词的向量，根据每条语句的特征词生成每条语句的向量；计算每条语句的向量与场景关键词的向量的差异度；将差异度小于预设差异度阈值的语句划分成为第一语句分类。

在该技术方案中，通过根据场景关键词和每条语句的特征词生成对应的向量，并计算每条语句的向量与场景关键词的向量的差异度，将差异度小于预设差异度阈值的语句划分成为第一语句分类，使得将收集来的语句归类到场景关键词中，自动进行第一语句分类，保证了该第一语句分类结果的准确性。

在上述任一技术方案中，优选地，计算每条语句与其他语句的相似度的步骤，具体包括：对每条语句进行分词划分；将每条语句的分词与其它语句的分词进行比较，得到每条语句与其他语句的相似度。

在该技术方案中，通过对每条语句进行分词划分，并将每条语句的分词与其它语句的分词进行比较，得到每条语句与其他语句的相似度，使得通过相似度计算自动进行第二语句分类，保证了该第二语句分类结果的准确性。

根据本发明的第二个目的，提供了一种语料生成系统，用于智能设备，该语料生成系统包括：关键词提取单元，用于获取场景信息，并在场景信息中提取场景关键词；第一获取单元，用于通过执行网络爬虫获取至少一条语句；特征词提取单元，用于提取每条语句的特征词；第一分类单元，用于根据场景关键词及每条语句的特征词对每条语句进行分类，得到第一语句分类；相似度计算单元，用于计算每条语句与其他语句的相似度；第二分类单元，用于将相似度大于预设相似度阈值的语句划分成为第二语句分类；第二获取单元，用于获取同时存在于第一语句分类及第二语句分类中的语句作为有效语句；输出单元，用于将场景关键词及有效语句输出至文本文件。

本发明提供的语料生成系统，通过关键词提取单元，获取场景信息，并在场景信息中提取场景关键词，通过第一获取单元，执行网络爬虫并获取至少一条语句，通过特征词提取单元，在获取的语句中提取每条语句的特征词，以及通过第一分类单元，根据场景关键词及每条语句的特征词，对每条语句进行分类，使得将收集来的语句归类到场景关键词中，自动进行第一语句分类，分类结果准确。进一步地，通过相似度计算单元，对计算出的每条语句与其他语句的相似度大于预设相似度阈值的语句进行划分，使得通过相似度计算自动进行第二语句分类，分类结果准确。进一步地，通过第二获取单元，获取同时存在于第一语句分类及第二语句分类中的语句作为有效语句，并通过输出单元，将场景关键词及有效语句输出至文本文件，达到了自动对有效语句进行场景归类的目的，提高了该语料生成系统采集语料的速度、效率和准确率，避免了相关技术中采用人工干预进行语料采集，节省了大量的人力资源。

具体实施例中，用户可以自定义网络爬虫的爬虫脚本，通过执行爬虫脚本获取至少一条语句，使得该用于智能设备的语料生成系统支持可自定义的爬虫脚本扩展。用户可以自定义场景信息，通过获取用户自定义的场景信息，使得该用于智能设备的语料生成系统支持可自定义的场景信息扩展。

另外，根据本发明上述的语料生成系统，还可以具有如下附加的技术特征：

在上述技术方案中，优选地，第一获取单元，包括：第一判断单元，用于判断网络爬虫是否满足预设爬虫执行规则；第二判断单元，具体用于当网络爬虫满足预设爬虫执行规则时，判断统一资源定位符是否可访问以及网络是否拥堵；第一获取单元，具体用于当统一资源定位符可访问以及网络未拥堵时，执行网络爬虫，获取至少一条语句。

在该技术方案中，当第一判断单元确定网络爬虫满足预设爬虫执行规则，并且第二判断单元确定统一资源定位符可访问以及网络是未拥堵时，通过第一获取单元，执行网络爬虫，使得获取到的语句满足预设爬虫执行规则，保证网络爬虫获取语句的速度、效率和准确率。

在上述任一技术方案中，优选地，该用于智能设备的语料生成系统，还包括：删除单元，用于在提取每条语句的特征词之前，删除每条语句中重复的语句；删除每条语句中字数小于预设值的语句；删除每条语句中不包含疑问词的语句；删除每条语句中不包含烹饪方法词的语句；删除每条语句中的疑问副词。

在该技术方案中，在提取每条语句的特征词之前，对网络爬虫获取到的至少一条语句进行清洗操作。具体地说，在提取每条语句的特征词之前，通过删除单元，删除每条语句中重复的语句，删除每条语句中字数小于预设值的语句，删除每条语句中不包含疑问词的语句，删除每条语句中不包含烹饪方法词的语句，以及删除每条语句中的疑问副词，达到清洗后的语句符合场景信息的要求，进而提高了该语料生成系统采集语料的速度、效率和准确率。

在上述任一技术方案中，优选地，第一分类单元，包括：生成单元，用于根据场景关键词生成场景关键词的向量，根据每条语句的特征词生成每条语句的向量；差异度计算单元，用于计算每条语句的向量与场景关键词的向量的差异度；第一分类单元，具体用于将差异度小于预设差异度阈值的语句划分成为第一语句分类。

在该技术方案中，通过生成单元，根据场景关键词和每条语句的特征词生成对应的向量，并通过差异度计算单元，计算每条语句的向量与场景关键词的向量的差异度，最后通过第一分类单元，将差异度小于预设差异度阈值的语句划分成为第一语句分类，使得将收集来的语句归类到场景关键词中，自动进行第一语句分类，保证了该第一语句分类结果的准确性。

在上述任一技术方案中，优选地，相似度计算单元，包括：划分单元，用于对每条语句进行分词划分；相似度计算单元，具体用于将每条语句的分词与其它语句的分词进行比较，得到每条语句与其他语句的相似度。

在该技术方案中，通过划分单元，对每条语句进行分词划分，并通过相似度计算单元，将每条语句的分词与其它语句的分词进行比较，得到每条语句与其他语句的相似度，使得通过相似度计算自动进行第二语句分类，保证了该第二语句分类结果的准确性。

根据本发明的第三个目的，提供了一种智能设备，包括上述任一技术方案中的语料生成系统。

本发明提供的智能设备，采用上述任一技术方案中的语料生成系统，因而具备该语料生成系统的全部有益效果，在此不再赘述。

根据本发明的第四个目的，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器用于执行上述任一技术方案中所述语料生成方法的步骤。

本发明提供的计算机设备，是用于支持上述任一技术方案中的语料生成系统运行的服务器，处理器通过执行存储在存储器上的计算机程序，达到了自动对网络爬虫获取到的语句进行场景归类的目的，提高了该语料生成系统采集语料的速度、效率和准确率，避免了相关技术中采用人工干预进行语料采集，节省了大量的人力资源。

根据本发明的第五个目的，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现了上述任一技术方案中所述语料生成方法的步骤。

本发明提供的计算机可读存储介质，安装在支持上述任一技术方案中的语料生成系统运行的服务器中，计算机可读存储介质上存储有计算机程序，通过运行该计算机程序，达到了自动对网络爬虫获取到的语句进行场景归类的目的，提高了该语料生成系统采集语料的速度、效率和准确率，避免了相关技术中采用人工干预进行语料采集，节省了大量的人力资源。

本发明的附加方面和优点将在下面的描述部分中变得明显，或通过本发明的实践了解到。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1示出了根据本发明的第一个实施例的用于智能设备的语料生成方法的示意流程图；

图2示出了根据本发明的第二个实施例的用于智能设备的语料生成方法的示意流程图；

图3示出了根据本发明的第三个实施例的用于智能设备的语料生成方法的示意流程图；

图4示出了根据本发明的第四个实施例的用于智能设备的语料生成方法的示意流程图；

图5示出了根据本发明的第五个实施例的用于智能设备的语料生成方法的示意流程图；

图6示出了根据本发明的第一个实施例的用于智能设备的语料生成系统的示意框图；

图7示出了根据本发明的第二个实施例的用于智能设备的语料生成系统的示意框图；

图8示出了根据本发明的第三个实施例的用于智能设备的语料生成系统的示意框图；

图9示出了根据本发明的第四个实施例的用于智能设备的语料生成系统的示意框图；

图10示出了根据本发明的第一个实施例的智能设备的示意框图；

图11示出了根据本发明的第一个实施例的计算机设备的结构示意图。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是，在不冲突的情况下，本申请的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是，本发明还可以采用其他不同于在此描述的其他方式来实施，因此，本发明的保护范围并不限于下面公开的具体实施例的限制。

图1示出了根据本发明的第一个实施例的用于智能设备的语料生成方法的示意流程图。如图1所示，该语料生成方法包括：

步骤102，获取场景信息，并在场景信息中提取场景关键词；

步骤104，通过执行网络爬虫获取至少一条语句；

步骤106，提取每条语句的特征词；

步骤108，根据场景关键词及每条语句的特征词对每条语句进行分类，得到第一语句分类；

步骤110，计算每条语句与其他语句的相似度；

步骤112，将相似度大于预设相似度阈值的语句划分成为第二语句分类；

步骤114，获取同时存在于第一语句分类及第二语句分类中的语句作为有效语句；

步骤116，将场景关键词及有效语句输出至文本文件。

本发明提供的用于智能设备的语料生成方法，通过获取场景信息和至少一条语句，并根据在场景信息中提取的场景关键词，以及在获取的语句中提取的每条语句的特征词，对每条语句进行分类，使得将收集来的语句归类到场景关键词中，自动进行第一语句分类，分类结果准确。进一步地，通过对计算出的每条语句与其他语句的相似度大于预设相似度阈值的语句进行划分，使得通过相似度计算自动进行第二语句分类，分类结果准确。进一步地，获取同时存在于第一语句分类及第二语句分类中的语句作为有效语句，并将场景关键词及有效语句输出至文本文件，达到了自动对有效语句进行场景归类的目的，提高了该语料生成方法采集语料的速度、效率和准确率，避免了相关技术中采用人工干预进行语料采集，节省了大量的人力资源。

可选地，所述场景信息包括以下至少之一或其组合：季节时令、特殊人群、营养功效、疾病调理、口味风味；所述季节时令的场景关键词包括以下至少之一或其组合：立冬、冬至、腊八、端午节、中秋、元宵节、圣诞节、感恩节、情人节、立秋、母亲节、父亲节、儿童节、七夕、重阳节、元旦、春节、除夕、平安夜、小年、清明节、大暑、大雪、二月二；所述特殊人群的场景关键词包括以下至少之一或其组合：老人、小孩、孕妇；所述营养功效的场景关键词包括以下至少之一或其组合：明目、养胃、利尿、化痰止咳、滋补养生、促进消化、清热解毒；所述疾病调理的场景关键词包括以下至少之一或其组合：降血糖、降血脂、降血压、软化血管；所述口味风味的场景关键词包括以下至少之一或其组合：清淡、咸鲜、甜、辣、酸、苦。

图2示出了根据本发明的第二个实施例的用于智能设备的语料生成方法的示意流程图。如图2所示，该语料生成方法包括：

步骤202，获取场景信息，并在场景信息中提取场景关键词；

步骤204，判断网络爬虫是否满足预设爬虫执行规则；

步骤206，当网络爬虫满足预设爬虫执行规则时，判断统一资源定位符是否可访问以及网络是否拥堵；

步骤208，当统一资源定位符可访问以及网络未拥堵时，执行网络爬虫，获取至少一条语句；

步骤210，提取每条语句的特征词；

步骤212，根据场景关键词及每条语句的特征词对每条语句进行分类，得到第一语句分类；

步骤214，计算每条语句与其他语句的相似度；

步骤216，将相似度大于预设相似度阈值的语句划分成为第二语句分类；

步骤218，获取同时存在于第一语句分类及第二语句分类中的语句作为有效语句；

步骤220，将场景关键词及有效语句输出至文本文件。

在该实施例中，当网络爬虫满足预设爬虫执行规则，并且统一资源定位符可访问以及网络是未拥堵时，执行网络爬虫，使得获取到的语句满足预设爬虫执行规则，保证网络爬虫获取语句的速度、效率和准确率。

在本发明的一个实施例中，优选地，预设爬虫执行规则为按照预设数据来源、预设时间点、预设间隔周期、预设重试次数、预设线程数、预设邮件收件人列表、预设邮件正文执行。

在该实施例中，通过设置预设爬虫执行规则，使得获取到的语句满足预设爬虫执行规则，保证网络爬虫获取语句的速度、效率和准确率。具体地说，预设爬虫执行规则为但不局限于按照预设数据来源、预设时间点、预设间隔周期、预设重试次数、预设线程数、预设邮件收件人列表、预设邮件正文执行。进一步地，用户可以自定义该预设爬虫执行规则，使得网络爬虫获取到的语句满足用户的个性化需求，提升用户的使用体验。

图3示出了根据本发明的第三个实施例的用于智能设备的语料生成方法的示意流程图。如图3所示，该语料生成方法包括：

步骤302，获取场景信息，并在场景信息中提取场景关键词；

步骤304，通过执行网络爬虫获取至少一条语句；

步骤306，删除每条语句中重复的语句，删除每条语句中字数小于预设值的语句，删除每条语句中不包含疑问词的语句，删除每条语句中不包含烹饪方法词的语句，以及删除每条语句中的疑问副词；

步骤308，提取每条语句的特征词；

步骤310，根据场景关键词及每条语句的特征词对每条语句进行分类，得到第一语句分类；

步骤312，计算每条语句与其他语句的相似度；

步骤314，将相似度大于预设相似度阈值的语句划分成为第二语句分类；

步骤316，获取同时存在于第一语句分类及第二语句分类中的语句作为有效语句；

步骤318，将场景关键词及有效语句输出至文本文件。

在该实施例中，在提取每条语句的特征词的步骤之前，对网络爬虫获取到的至少一条语句进行清洗操作。具体地说，在提取每条语句的特征词的步骤之前，通过删除每条语句中重复的语句，删除每条语句中字数小于预设值的语句，删除每条语句中不包含疑问词的语句，删除每条语句中不包含烹饪方法词的语句，以及删除每条语句中的疑问副词，达到清洗后的语句符合场景信息的要求，进而提高了该语料生成方法采集语料的速度、效率和准确率。

具体实施例中，在删除每条语句中字数小于预设值的语句时，可选地，所述预设值为10。

可选地，所述疑问词包括以下至少之一或其组合：怎么、如何、咋、咋样、怎样、什么、哪些、多少、怎么样；所述烹饪方法词包括以下至少之一或其组合：煎、炒、炸、红烧、煮、蒸、烧、烤、焖、炖、拌、烙、腌、焗、卤、榨汁、烤、烩、煲、免烤、干煸、熏、酱、砂锅、干锅、煨、焯、涮；所述疑问副词包括以下至少之一或其组合：吗，嘛，么，吧，呀，嘞，啊。

图4示出了根据本发明的第四个实施例的用于智能设备的语料生成方法的示意流程图。如图4所示，该语料生成方法包括：

步骤402，获取场景信息，并在场景信息中提取场景关键词；

步骤404，通过执行网络爬虫获取至少一条语句；

步骤406，提取每条语句的特征词；

步骤408，根据场景关键词生成场景关键词的向量，根据每条语句的特征词生成每条语句的向量；

步骤410，计算每条语句的向量与场景关键词的向量的差异度；

步骤412，将差异度小于预设差异度阈值的语句划分成为第一语句分类；

步骤414，计算每条语句与其他语句的相似度；

步骤416，将相似度大于预设相似度阈值的语句划分成为第二语句分类；

步骤418，获取同时存在于第一语句分类及第二语句分类中的语句作为有效语句；

步骤420，将场景关键词及有效语句输出至文本文件。

在该实施例中，通过根据场景关键词和每条语句的特征词生成对应的向量，并计算每条语句的向量与场景关键词的向量的差异度，将差异度小于预设差异度阈值的语句划分成为第一语句分类，使得将收集来的语句归类到场景关键词中，自动进行第一语句分类，保证了该第一语句分类结果的准确性。

图5示出了根据本发明的第五个实施例的用于智能设备的语料生成方法的示意流程图。如图5所示，该语料生成方法包括：

步骤502，获取场景信息，并在场景信息中提取场景关键词；

步骤504，通过执行网络爬虫获取至少一条语句；

步骤506，提取每条语句的特征词；

步骤508，根据场景关键词及每条语句的特征词对每条语句进行分类，得到第一语句分类；

步骤510，对每条语句进行分词划分；

步骤512，将每条语句的分词与其它语句的分词进行比较，得到每条语句与其他语句的相似度；

步骤514，将相似度大于预设相似度阈值的语句划分成为第二语句分类；

步骤516，获取同时存在于第一语句分类及第二语句分类中的语句作为有效语句；

步骤518，将场景关键词及有效语句输出至文本文件。

在该实施例中，通过对每条语句进行分词划分，并将每条语句的分词与其它语句的分词进行比较，得到每条语句与其他语句的相似度，使得通过相似度计算自动进行第二语句分类，保证了该第二语句分类结果的准确性。

图6示出了根据本发明的第一个实施例的用于智能设备的语料生成系统的示意框图。其中，该用于智能设备的语料生成系统600，包括：

关键词提取单元602，用于获取场景信息，并在场景信息中提取场景关键词；

第一获取单元604，用于通过执行网络爬虫获取至少一条语句；

特征词提取单元606，用于提取每条语句的特征词；

第一分类单元608，用于根据场景关键词及每条语句的特征词对每条语句进行分类，得到第一语句分类；

相似度计算单元610，用于计算每条语句与其他语句的相似度；

第二分类单元612，用于将相似度大于预设相似度阈值的语句划分成为第二语句分类；

第二获取单元614，用于获取同时存在于第一语句分类及第二语句分类中的语句作为有效语句；

输出单元616，用于将场景关键词及有效语句输出至文本文件。

本发明提供的用于智能设备的语料生成系统600，通过关键词提取单元602，获取场景信息，并在场景信息中提取场景关键词，通过第一获取单元604，执行网络爬虫并获取至少一条语句，通过特征词提取单元606，在获取的语句中提取每条语句的特征词，以及通过第一分类单元608，根据场景关键词及每条语句的特征词，对每条语句进行分类，使得将收集来的语句归类到场景关键词中，自动进行第一语句分类，分类结果准确。进一步地，通过相似度计算单元610，对计算出的每条语句与其他语句的相似度大于预设相似度阈值的语句进行划分，使得通过相似度计算自动进行第二语句分类，分类结果准确。进一步地，通过第二获取单元614，获取同时存在于第一语句分类及第二语句分类中的语句作为有效语句，并通过输出单元616，将场景关键词及有效语句输出至文本文件，达到了自动对有效语句进行场景归类的目的，提高了该语料生成系统采集语料的速度、效率和准确率，避免了相关技术中采用人工干预进行语料采集，节省了大量的人力资源。

具体实施例中，用户可以自定义网络爬虫的爬虫脚本，通过执行爬虫脚本获取至少一条语句，使得该用于智能设备的语料生成系统600支持可自定义的爬虫脚本扩展。用户可以自定义场景信息，通过获取用户自定义的场景信息，使得该用于智能设备的语料生成系统600支持可自定义的场景信息扩展。

图7示出了根据本发明的第二个实施例的用于智能设备的语料生成系统的示意框图。其中，该用于智能设备的语料生成系统700，包括：

关键词提取单元702，用于获取场景信息，并在场景信息中提取场景关键词；

第一获取单元704，用于通过执行网络爬虫获取至少一条语句；

第一获取单元704，包括：

第一判断单元7040，用于判断网络爬虫是否满足预设爬虫执行规则；

第二判断单元7042，具体用于当网络爬虫满足预设爬虫执行规则时，判断统一资源定位符是否可访问以及网络是否拥堵；

第一获取单元704，具体用于当统一资源定位符可访问以及网络未拥堵时，执行网络爬虫，获取至少一条语句；

特征词提取单元706，用于提取每条语句的特征词；

第一分类单元708，用于根据场景关键词及每条语句的特征词对每条语句进行分类，得到第一语句分类；

相似度计算单元710，用于计算每条语句与其他语句的相似度；

第二分类单元712，用于将相似度大于预设相似度阈值的语句划分成为第二语句分类；

第二获取单元714，用于获取同时存在于第一语句分类及第二语句分类中的语句作为有效语句；

输出单元716，用于将场景关键词及有效语句输出至文本文件。

在该实施例中，当第一判断单元7040确定网络爬虫满足预设爬虫执行规则，并且第二判断单元7042确定统一资源定位符可访问以及网络是未拥堵时，通过第一获取单元704，执行网络爬虫，使得获取到的语句满足预设爬虫执行规则，保证网络爬虫获取语句的速度、效率和准确率。

图8示出了根据本发明的第三个实施例的用于智能设备的语料生成系统的示意框图。其中，该用于智能设备的语料生成系统800，包括：

关键词提取单元802，用于获取场景信息，并在场景信息中提取场景关键词；

第一获取单元804，用于通过执行网络爬虫获取至少一条语句；

删除单元806，用于在提取每条所述语句的特征词之前，删除每条语句中重复的语句；删除每条语句中字数小于预设值的语句；删除每条语句中不包含疑问词的语句；删除每条语句中不包含烹饪方法词的语句；删除每条语句中的疑问副词；

特征词提取单元808，用于提取每条语句的特征词；

第一分类单元810，用于根据场景关键词及每条语句的特征词对每条语句进行分类，得到第一语句分类；

相似度计算单元812，用于计算每条语句与其他语句的相似度；

第二分类单元814，用于将相似度大于预设相似度阈值的语句划分成为第二语句分类；

第二获取单元816，用于获取同时存在于第一语句分类及第二语句分类中的语句作为有效语句；

输出单元818，用于将场景关键词及有效语句输出至文本文件。

在该实施例中，在提取每条语句的特征词之前，对网络爬虫获取到的至少一条语句进行清洗操作。具体地说，在提取每条语句的特征词之前，通过删除单元806，删除每条语句中重复的语句，删除每条语句中字数小于预设值的语句，删除每条语句中不包含疑问词的语句，删除每条语句中不包含烹饪方法词的语句，以及删除每条语句中的疑问副词，达到清洗后的语句符合场景信息的要求，进而提高了该语料生成系统采集语料的速度、效率和准确率。

图9示出了根据本发明的第四个实施例的用于智能设备的语料生成系统的示意框图。其中，该用于智能设备的语料生成系统900，包括：

关键词提取单元902，用于获取场景信息，并在场景信息中提取场景关键词；

第一获取单元904，用于通过执行网络爬虫获取至少一条语句；

特征词提取单元906，用于提取每条语句的特征词；

第一分类单元908，用于根据场景关键词及每条语句的特征词对每条语句进行分类，得到第一语句分类；

第一分类单元908，包括：

生成单元9080，用于根据场景关键词生成场景关键词的向量，根据每条语句的特征词生成每条语句的向量；

差异度计算单元9082，用于计算每条语句的向量与场景关键词的向量的差异度；

第一分类单元908，具体用于将差异度小于预设差异度阈值的语句划分成为第一语句分类；

相似度计算单元910，用于计算每条语句与其他语句的相似度；

第二分类单元912，用于将相似度大于预设相似度阈值的语句划分成为第二语句分类；

第二获取单元914，用于获取同时存在于第一语句分类及第二语句分类中的语句作为有效语句；

输出单元916，用于将场景关键词及有效语句输出至文本文件。

在该实施例中，通过生成单元9080，根据场景关键词和每条语句的特征词生成对应的向量，并通过差异度计算单元9082，计算每条语句的向量与场景关键词的向量的差异度，最后通过第一分类单元908，将差异度小于预设差异度阈值的语句划分成为第一语句分类，使得将收集来的语句归类到场景关键词中，自动进行第一语句分类，保证了该第一语句分类结果的准确性。

在本发明的一个实施例中，相似度计算单元910，包括：划分单元，用于对每条语句进行分词划分；相似度计算单元910，具体用于将每条语句的分词与其它语句的分词进行比较，得到每条语句与其他语句的相似度。

在该实施例中，通过相似度计算单元910的划分单元，对每条语句进行分词划分，并通过相似度计算单元910，将每条语句的分词与其它语句的分词进行比较，得到每条语句与其他语句的相似度，使得通过相似度计算自动进行第二语句分类，保证了该第二语句分类结果的准确性。

图10示出了根据本发明的第一个实施例的智能设备的示意框图。其中，该智能设备1000，包括：上述任一技术方案中的用于智能设备的语料生成系统1002。

本发明提供的智能设备1000，采用上述任一技术方案中的用于智能设备的语料生成系统1002，因而具备该用于智能设备的语料生成系统的全部有益效果，在此不再赘述。

本发明的一个实施例提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器用于执行上述任一技术方案中所述方法的步骤。

本发明提供的计算机设备，是用于支持上述任一技术方案中的用于智能设备的语料生成系统运行的服务器，处理器通过执行存储在存储器上的计算机程序，达到了自动对网络爬虫获取到的语句进行场景归类的目的，提高了该语料生成系统采集语料的速度、效率和准确率，避免了相关技术中采用人工干预进行语料采集，节省了大量的人力资源。

如图11所示，根据本发明的第一个实施例的计算机设备的结构示意图。其中，该计算机设备2，包括：存储器22、处理器24及存储在存储器22上并可在处理器24上运行的计算机程序，处理器24执行计算机程序时实现以下步骤：

获取场景信息，并在场景信息中提取场景关键词；

通过执行网络爬虫获取至少一条语句；

提取每条语句的特征词；

根据场景关键词及每条语句的特征词对每条语句进行分类，得到第一语句分类；

计算每条语句与其他语句的相似度；

将相似度大于预设相似度阈值的语句划分成为第二语句分类；

获取同时存在于第一语句分类及第二语句分类中的语句作为有效语句；

将场景关键词及有效语句输出至文本文件。

本发明提供的计算机设备2，是用于支持上述任一技术方案中的用于智能设备的语料生成系统运行的服务器，处理器24通过执行存储在存储器22上的计算机程序，达到了自动对网络爬虫获取到的语句进行场景归类的目的，提高了该语料生成系统采集语料的速度、效率和准确率，避免了相关技术中采用人工干预进行语料采集，节省了大量的人力资源。

本发明的一个实施例提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现了上述任一技术方案中所述方法的步骤。

本发明提供的计算机可读存储介质，安装在支持上述任一技术方案中的用于智能设备的语料生成系统运行的服务器中，计算机可读存储介质上存储有计算机程序，通过运行该计算机程序，达到了自动对网络爬虫获取到的语句进行场景归类的目的，提高了该语料生成系统采集语料的速度、效率和准确率，避免了相关技术中采用人工干预进行语料采集，节省了大量的人力资源。

在本说明书的描述中，术语“一个实施例”、“一些实施例”、“具体实施例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或实例。而且，描述的具体特征、结构、材料或特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种语料生成方法，用于智能设备，其特征在于，所述语料生成方法包括：

获取场景信息，并在所述场景信息中提取场景关键词；

通过执行网络爬虫获取至少一条语句；

提取每条所述语句的特征词；

根据所述场景关键词及每条所述语句的特征词对每条所述语句进行分类，得到第一语句分类；

计算每条所述语句与其他语句的相似度；

将所述相似度大于预设相似度阈值的语句划分成为第二语句分类；

获取同时存在于所述第一语句分类及所述第二语句分类中的语句作为有效语句；

将所述场景关键词及所述有效语句输出至文本文件。

2.根据权利要求1所述的语料生成方法，其特征在于，所述通过执行所述网络爬虫获取至少一条所述语句的步骤，具体包括：

判断所述网络爬虫是否满足预设爬虫执行规则；

当所述网络爬虫满足所述预设爬虫执行规则时，判断统一资源定位符是否可访问以及网络是否拥堵；

当所述统一资源定位符可访问以及所述网络未拥堵时，执行所述网络爬虫，获取至少一条所述语句。

3.根据权利要求2所述的语料生成方法，其特征在于，所述预设爬虫执行规则为按照预设数据来源、预设时间点、预设间隔周期、预设重试次数、预设线程数、预设邮件收件人列表、预设邮件正文执行。

4.根据权利要求1所述的语料生成方法，其特征在于，在所述提取每条所述语句的特征词的步骤之前，还包括：

删除每条所述语句中重复的语句；

删除每条所述语句中字数小于预设值的语句；

删除每条所述语句中不包含疑问词的语句；

删除每条所述语句中不包含烹饪方法词的语句；

删除每条所述语句中的疑问副词。

5.根据权利要求1所述的语料生成方法，其特征在于，所述根据所述场景关键词及每条所述语句的特征词对每条所述语句进行分类，得到所述第一语句分类的步骤，具体包括：

根据所述场景关键词生成所述场景关键词的向量，根据每条所述语句的特征词生成每条所述语句的向量；

计算每条所述语句的向量与所述场景关键词的向量的差异度；

将所述差异度小于预设差异度阈值的语句划分成为所述第一语句分类。

6.根据权利要求1所述的语料生成方法，其特征在于，所述计算每条所述语句与所述其他语句的所述相似度的步骤，具体包括：

对每条所述语句进行分词划分；

将每条所述语句的分词与其它语句的分词进行比较，得到每条所述语句与所述其他语句的所述相似度。

7.一种语料生成系统，用于智能设备，其特征在于，所述语料生成系统包括：

关键词提取单元，用于获取场景信息，并在所述场景信息中提取场景关键词；

第一获取单元，用于通过执行网络爬虫获取至少一条语句；

特征词提取单元，用于提取每条所述语句的特征词；

第一分类单元，用于根据所述场景关键词及每条所述语句的特征词对每条所述语句进行分类，得到第一语句分类；

相似度计算单元，用于计算每条所述语句与其他语句的相似度；

第二分类单元，用于将所述相似度大于预设相似度阈值的语句划分成为第二语句分类；

第二获取单元，用于获取同时存在于所述第一语句分类及所述第二语句分类中的语句作为有效语句；

输出单元，用于将所述场景关键词及所述有效语句输出至文本文件。

8.根据权利要求7所述的语料生成系统，其特征在于，所述第一获取单元，包括：

第一判断单元，用于判断所述网络爬虫是否满足预设爬虫执行规则；

第二判断单元，具体用于当所述网络爬虫满足所述预设爬虫执行规则时，判断统一资源定位符是否可访问以及网络是否拥堵；

所述第一获取单元，具体用于当所述统一资源定位符可访问以及所述网络未拥堵时，执行所述网络爬虫，获取至少一条所述语句。

9.根据权利要求8所述的语料生成系统，其特征在于，所述预设爬虫执行规则为按照预设数据来源、预设时间点、预设间隔周期、预设重试次数、预设线程数、预设邮件收件人列表、预设邮件正文执行。

10.根据权利要求7所述的语料生成系统，其特征在于，还包括：

删除单元，用于在提取每条所述语句的特征词之前，删除每条所述语句中重复的语句；删除每条所述语句中字数小于预设值的语句；删除每条所述语句中不包含疑问词的语句；删除每条所述语句中不包含烹饪方法词的语句；删除每条所述语句中的疑问副词。

11.根据权利要求7所述的语料生成系统，其特征在于，所述第一分类单元，包括：

生成单元，用于根据所述场景关键词生成所述场景关键词的向量，根据每条所述语句的特征词生成每条所述语句的向量；

差异度计算单元，用于计算每条所述语句的向量与所述场景关键词的向量的差异度；

所述第一分类单元，具体用于将所述差异度小于预设差异度阈值的语句划分成为所述第一语句分类。

12.根据权利要求7所述的语料生成系统，其特征在于，所述相似度计算单元，包括：

划分单元，用于对每条所述语句进行分词划分；

所述相似度计算单元，具体用于将每条所述语句的分词与其它语句的分词进行比较，得到每条所述语句与所述其他语句的所述相似度。

13.一种智能设备，其特征在于，包括：

如权利要求7至12中任一项所述的语料生成系统。

14.一种计算机装置，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至6中任一项所述的语料生成方法的步骤。

15.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6中任一项所述的语料生成方法的步骤。