CN111125124A

CN111125124A - 一种基于大数据平台的语料标注的方法及装置

Info

Publication number: CN111125124A
Application number: CN201911130091.XA
Authority: CN
Inventors: 滕义伟
Original assignee: Unisound Intelligent Technology Co Ltd
Current assignee: Sichuan Yunzhisheng Intelligent Technology Co ltd
Priority date: 2019-11-18
Filing date: 2019-11-18
Publication date: 2020-05-08
Anticipated expiration: 2039-11-18
Also published as: CN111125124B

Abstract

本发明公开了一种基于大数据平台的语料标注方法及装置，包括以下步骤：采集人工智能引擎中用户的语音交互日志；分析人工智能引擎中的未知语料并对其进行语料分类，分为已标注语料和未标注语料；将未标注语料推送到业务运营平台以使业务运营平台对未标注语料进行标注；采集标注语料，根据采集结果更新标注语料库中的语料。通过将未知语料进行分类可以使得业务运营平台选择性的对分类的语料进行标注，解决了现有技术中推送语料没有类别优先级，人工依次标注所有推送的语料效率低下的问题，提高了标注的效率，同时系统会针对分类的语料自动进行语料标注。相比于现有技术需要耗费很大的人力成本做标注的情况，节省了人力。

Description

一种基于大数据平台的语料标注的方法及装置

技术领域

本发明涉及语料处理技术领域，尤其涉及一种基于大数据平台的语料标注的方法及装置。

背景技术

随着互联网和移动终端的普及应用，各种形式的语料如洪水般涌来，在自然语言处理、机器翻译、计算机辅助学习等多个领域需要对语料进行标注。

现有技术的语料标注方法通过大数据平台采集人工智能引擎输出的语音交互日志，分析和过滤出未知领域的数据，推送给业务运营平台进行未知语料类别人工标注。但是这种方法存在着以下问题：1、每次推送的未知语料比较多，需要耗费很大的人力成本做标注；2、推送语料没有类别优先级，人工依次标注所有推送的语料效率低下。

对于上述问题，目前急需一种省力且高效的语料标注方法。

发明内容

针对上述所显示出来的问题，本方法基于利用大数据平台将人工智能采集的未知语料进行分类并且根据分类结果推送给业务运营平台来进行系统标注和人工标注两种方式来对未知语料进行标注。

一种基于大数据平台的语料标注方法，包括以下步骤：

采集人工智能引擎中用户的语音交互日志；

分析人工智能引擎中的未知语料并对其进行语料分类，分为已标注语料和未标注语料；

将未标注语料推送到业务运营平台以使业务运营平台对未标注语料进行标注；

采集标注语料，根据采集结果更新标注语料库中的语料。

优选的，分析人工智能引擎中的未知语料并对其进行语料分类，分为已标注语料和未标注语料，包括：

将未知语料在标注语料库中进行检索，检索出未知语料中的已标注语料；

运行数据处理引擎，将未知语料中的未标注语料进行分类，分为自动标注类别语料和人工标注类别语料；

系统自动对自动标注类别语料进行标注。

优选的，将未知语料在标注语料库中进行检索，检索出未知语料中的已标注语料，包括：

接通与标注语料库的数据连接；

找出未知语料中的关键词；

将关键词语料放入标注语料库中进行检索，在标注语料库中已经出现的关键词作为未知语料中的已标注语料。

优选的，将未标注语料推送到业务运营平台以使业务运营平台未标注语料进行标注，包括：

将人工标注类别语料推送到业务运营平台并通过业务运营平台对其进行人工标注；

其中，通过所述业务运营平台将进行了人工标注后的人工标注类别语料展示。

优选的，采集标注的未知语料，根据采集结果更新标注语料库中的语料，包括：

在业务运营平台上埋点，采集标注语料；

将标注语料插入到标注语料库中进行补充。

一种基于大数据平台的语料标注的装置，该装置包括：

采集模块，用于采集人工智能引擎中用户的语音交互日志；

分类模块，用于分析人工智能引擎中的未知语料并对其进行语料分类，分为已标注语料和未标注语料；

推送模块，用于将未标注语料推送到业务运营平台以使业务运营平台对未标注语料进行标注；

更新模块，用于采集标注语料，根据采集结果更新标注语料库中的语料。

优选的，分类模块，包括：

检索子模块，用于将未知语料在标注语料库中进行检索，检索出未知语料中的已标注语料；

分类子模块，用于运行数据处理引擎，将未知语料中的未标注语料进行分类，分为自动标注类别语料和人工标注类别语料；

自动标注模块，用于系统自动对所述自动标注类别语料进行标注。

优选的，检索子模块，包括：

接通单元，用于接通与标注语料库的数据连接；

查找单元，用于找出未知语料中的关键词；

检索单元，用于将关键词放入标注语料库中进行检索，在标注语料库中已经出现的关键词作为未知语料中的已标注语料。

优选的，推送模块，包括：

推送子模块，用于将人工标注类别语料分类推送到业务运营平台并通过业务运营平台对其进行标注；

其中，通过业务运营平台将进行了人工标注后的人工标注类别语料展示。

优选的，更新模块，包括：

采集子模块，用于在业务运营平台上埋点，采集标注语料；

补充子模块，用于将标注语料插入到标注语料库中进行补充。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

图1为本发明所提供的一种基于大数据平台的语料标注方法的工作流程图；

图2为本发明所提供的一种基于大数据平台的语料标注方法的另一工作流程图；

图3为本发明所提供的一种基于大数据平台的语料标注方法的工作流程截图；

图4为本发明所提供的一种基于大数据平台的语料标注装置的结构图；

图5为本发明所提供的一种基于大数据平台的语料标注装置的另一结构图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

现有技术的语料标注方法通过大数据平台采集人工智能引擎输出的语音交互日志，分析和过滤出未知领域的数据，推送给业务运营平台进行未知语料类别人工标注。但是这种方法存在着以下问题：1、每次推送的未知语料比较多，需要耗费很大的人力成本做标注；2、推送语料没有类别优先级，人工依次标注所有推送的语料效率低下；3、推送历史未知语料数据无记忆，在人工智能引擎优化前存在重复推送和标注的问题。为了解决上述问题，本实施例公开了一种基于大数据平台的语料标注方法。

一种基于大数据平台的语料标注方法，如图1所示，包括以下步骤：

步骤S101、采集人工智能引擎中用户的语音交互日志；

步骤S102、分析人工智能引擎中的未知语料并对其进行语料分类，分为已标注语料和未标注语料；

步骤S103、将未标注语料推送到业务运营平台以使业务运营平台对未标注语料进行标注；

步骤S104、采集标注语料，根据采集结果更新标注语料库中的语料。

上述技术方案的工作原理为：通过大数据平台接收人工智能引擎采集到的未知语料，并且将未知语料进行分类，分为已标注语料和未标注语料，将未标注语料推送到业务运营平台，业务运营平台对未标注语料进行系统人工标注，大数据平台采集标注语料来更新标注语料库中的语料。

上述技术方案的有益效果为：通过将未知语料进行分类可以使得业务运营平台选择性的对分类的语料进行标注，解决了现有技术中推送语料没有类别优先级，人工依次标注所有推送的语料效率低下的问题，提高了标注的效率，同时系统会针对分类的语料自动进行语料标注。结合人工标注方式一起对未知语料进行标注，相比于现有技术需要耗费很大的人力成本做标注的情况，节省了人力。

在一个实施例中，分析人工智能引擎中的未知语料并对其进行语料分类，分为已标注语料和未标注语料，包括：

系统自动对自动标注类别语料进行标注。

上述技术方案的有益效果为：通过对标注语料库进行检索来检索出未知语料中的已标注语料，解决了现有技术中推送历史未知语料数据无记忆，在人工智能引擎优化前存在重复推送和标注的问题，同时系统自动会将自动标注类别语料进行标注，进而减少了语料标注人员的工作量。

在一个实施例中，将未知语料在标注语料库中进行检索，检索出未知语料中的已标注语料，包括：

接通与标注语料库的数据连接；

找出未知语料中的关键词；

将关键词放入标注语料库中进行检索，在标注语料库中已经出现的关键词作为未知语料中的已标注语料；

特别的，对于已标注的未知语料，可以省略而不需要进行标注，只需要将未标注的位置语料进行标注即可。

上述技术方案的有益效果为：通过关键词检索避免了将所有未知语料放入标注语料库中进行检索的繁琐，可以提高检索的效率和准确度，同时可以检索出已标注的未知语料进而减少需要标注的语料数量。提高了标注的效率。

在一个实施例中，将未标注语料推送到业务运营平台以使业务运营平台所述未标注语料进行标注，包括：

特别的，自动标注类别语料可以为系统自动运行标记程序进行标记，而人工标注类别语料指系统无法自动运行标记程序所以得人为的进行标注。

上述技术方案的有益效果为：语料标注人员可以只对人工标注类别语料进行标注，并且已标注的语料可以直接忽略，通过系统自动标注和人工标注的方式使得标注过程更加节省了人力。

在一个实施例中，如图2所示，采集标注的未知语料，根据采集结果更新标注语料库中的语料，包括：

步骤S201、在业务运营平台上埋点，采集标注语料；

步骤S202、将标注语料插入到标注语料库中进行补充；

特别的，上述标注语料包括标注后的自动标注类别语料以及人工标注类别语料。

上述技术方案的有益效果为：将标注的语料对标注语料库进行更新方便于下次进行检索时避免重复标注，同时将未出现的标注语料插入到标注语料库中丰富了标注语料库，使得以后采集的未知语料可以更大范围的进行检索。

在一个实施例中，如图3所示，包括：

第1步：采集NLU引擎用户语音交互日志，如图3步骤1；

第2步：unknown语料和历史标注语料库关联，如图3步骤2。

大数据平台分析出NLU引擎中unknown领域的语料，将本次unknown语料和历史标注语料库中的语料进行关联。标注语料库中已经出现的语料作为“已标注”语料类别，库中未出现的语料进入下一个步骤；

第3步：unknown语料误拒挖掘，如图3步骤3。

将未关联的unknown语料送入误拒挖掘引擎，进行unknown语料的类别判定。

根据误拒挖掘引擎的分类结果，将unknown语料分为“建议类别”和“未知类别”两种语料类别；

第4步：unknown语料推送，如图3步骤4。

将上述2，3步产生的3类语料推送到业务运营平台，三种类别的语料在不同的模块展示；

第5步：unknown语料标注，如图3步骤5。

语料标注人员对于3类语料可以有侧重的处理：

“已知类别”语料：基本不用关心，这个类别的语料表示语料已经标注，但是还没有在NLU引擎上生效；

“建议类别”语料：这个类别的语料表示通过机器学习模型已经自动标注的语料，只需人工更新自动标注类别错误部分的语料；

“未知类别”语料：这个类别的语料需要人工标注。

第6步：语料标注类别采集，如图3步骤6。

在业务运营平台埋点，采集标注人员对语料类别的标注操作。

第7步：标注语料库更新，如图3步骤7。

大数据平台分析标注人员的语料标注行为，插入或更新标注语料库中的语料。

上述技术方案的工作原理和有益效果为：本方法通过与历史标注语料库关联，解决了语料的重复标注的问题；通过误拒挖掘引擎对语料预分类标注，减少标注人员部分标注工作量。同时，通过在NLU引擎端和业务端埋点采集用户的语音交互行为数据和标注人员的标注行为，构建了语料标注的数据闭环，进而实现语料标注工作的逐步收敛。

一种基于大数据平台的语料标注的装置，如图4所示，该装置包括：

采集模块401，用于采集人工智能引擎中用户的语音交互日志；

分类模块402，用于分析人工智能引擎中的未知语料并对其进行语料分类，分为已标注语料和未标注语料；

推送模块403，用于将未知语料推送到业务运营平台以使业务运营平台对未标注语料进行标注；

更新模块404，用于采集标注语料，根据采集结果更新标注语料库中的语料。

在一个实施例中，分类模块，包括：

在一个实施例中，检索子模块，包括：

接通单元，用于接通与标注语料库的数据连接；

查找单元，用于找出未知语料中的关键词；

在一个实施例中，推送模块，包括：

推送子模块，用于将人工标注类别语料推送到业务运营平台并通过业务运营平台对其进行标注；

在一个实施例中，如图5所示，更新模块，包括：

采集子模块501，用于在业务运营平台上埋点，采集标注语料；

补充子模块502，用于将标注语料插入到标注语料库中进行补充。

本领域技术用户员在考虑说明书及实践这里公开的公开后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种基于大数据平台的语料标注方法，其特征在于，包括以下步骤：

采集人工智能引擎中用户的语音交互日志；

分析所述人工智能引擎中的未知语料并对其进行语料分类，分为已标注语料和未标注语料；

将所述未标注语料推送到业务运营平台以使所述业务运营平台对所述未标注语料进行标注；

采集标注语料，根据采集结果更新标注语料库中的语料。

2.根据权利要求1所述基于大数据平台的语料标注方法，其特征在于，所述分析人工智能引擎中的未知语料并对其进行语料分类，分为已标注语料和未标注语料，包括：

将所述未知语料在所述标注语料库中进行检索，检索出未知语料中的已标注语料；

系统自动对所述自动标注类别语料进行标注。

3.根据权利要求2所述基于大数据平台的语料标注方法，其特征在于，所述将未知语料在所述标注语料库中进行检索，检索出所述未知语料中的已标注语料，包括：

接通与所述标注语料库的数据连接；

找出所述未知语料中的关键词；

将所述关键词放入所述标注语料库中进行检索，在所述标注语料库中已经出现的关键词语料作为所述未知语料中的已标注语料。

4.根据权利要求2所述基于大数据平台的语料标注方法，其特征在于，所述将未标注语料推送到业务运营平台以使所述业务运营平台所述未标注语料进行标注，包括：

将所述人工标注类别语料推送到所述业务运营平台并通过所述业务运营平台对其进行人工标注；

5.根据权利要求4所述基于大数据平台的语料标注方法，其特征在于,所述采集标注料，根据采集结果更新标注语料库中的语料，包括：

在所述业务运营平台上埋点，采集标注语料；

将所述标注语料插入到所述标注语料库中进行补充。

6.一种基于大数据平台的语料标注的装置，其特征在于，该装置包括：

采集模块，用于采集人工智能引擎中用户的语音交互日志；

分类模块，用于分析所述人工智能引擎中的未知语料并对其进行语料分类，分为已标注语料和未标注语料；

推送模块，用于将所述未标注语料推送到业务运营平台以使所述业务运营平台对所述未标注语料进行标注；

7.根据权利要求6所述基于大数据平台的语料标注装置，其特征在于,所述分类模块，包括：

检索子模块，用于将所述未知语料在所述标注语料库中进行检索，检索出未知语料中的已标注语料；

8.根据权利要求7所述基于大数据平台的语料标注装置，其特征在于,所述检索子模块，包括：

接通单元，用于接通与所述标注语料库的数据连接；

查找单元，用于找出所述未知语料中的关键词；

检索单元，用于将所述关键词语料放入所述标注语料库中进行检索，在所述标注语料库中已经出现的关键词作为所述未知语料中的已标注语料。

9.根据权利要求7所述基于大数据平台的语料标注装置，其特征在于,所述推送模块，包括：

推送子模块，用于将所述人工标注类别语料推送到所述业务运营平台并通过所述业务运营平台对其进行人工标注；

10.根据权利要求9所述基于大数据平台的语料标注装置，其特征在于,所述更新模块，包括：

采集子模块，用于在所述业务运营平台上埋点，采集标注语料；

补充子模块，用于将所述标注语料插入到所述标注语料库中进行补充。