CN108536675B

CN108536675B - 异常分词的处理方法及系统

Info

Publication number: CN108536675B
Application number: CN201810240662.4A
Authority: CN
Inventors: 陈�峰
Original assignee: Unisound Intelligent Technology Co Ltd
Current assignee: Unisound Intelligent Technology Co Ltd
Priority date: 2018-03-22
Filing date: 2018-03-22
Publication date: 2021-09-03
Anticipated expiration: 2038-03-22
Also published as: CN108536675A

Abstract

本发明公开了一种异常分词的处理方法及系统，通过将测试集作为评价指标，并小批量在跨领域数据上进行迭代、消除分词异常，逐渐加入跨领域语料的正确分词，提高了分词模型在跨领域语料上的性能，具有辅助人工快速标注异常分词、提高标注效率的同时提高标注准确率的有益效果。

Description

异常分词的处理方法及系统

技术领域

本发明涉及数据处理技术领域，特别涉及一种异常分词的处理方法及系统。

背景技术

目前，针对专业领域(例如医疗的各个科室)的语料，人工标注效率低且标注成本高，因此，对上述语料进行自动标注的需求越来越强烈。现阶段，在扩充分词训练语料时，通常利用少量的领域分词模型去扩展跨领域的语料，这样的扩展方式所得到的结果误差太大，因此这种处理方式往往不可用；如果直接利用人工来标注跨领域的所有分词语料，提高了标注准确率，但又太费时间，且成本过高。因此，如何提高异常分词标注的效率和准确率，成为目前亟待解决的问题之一。

发明内容

本发明提供一种异常分词的处理方法及系统，用以辅助人工快速标注异常分词，提高标注效率的同时，提高标注准确率。

本发明提供了一种异常分词的处理方法，所述异常分词的处理方法包括：

将人工标注的跨领域分词语料作为测试集t，利用现有领域的分词模型A在所述测试集t上进行标注性能的测试，得到对应的性能参数p0；

从未标注的跨领域语料中选取对应的测试数据，利用分词模型A进行预切分，得到初始分词结果seg1；

利用所述现有领域对应的已知切分语料seg0，找出初始分词结果seg1中的异常分词并标注；

基于所述性能参数p0以及异常分词的人工审核结果，用预设方法对自动标注的异常分词进行处理，得到对应的分词结果。

优选地，所述利用所述现有领域对应的已知切分语料seg0，找出初始分词结果seg1中的异常分词并标注，包括：

利用所述现有领域对应的已知切分语料seg0的统计特征，对初始分词结果seg1中的每个分词进行打分；

选取seg1中分数低于预设阈值的分词作为异常分词，并对所述异常分词进行标注。

优选地，所述基于所述性能参数p0以及异常分词的人工审核结果，对自动标注的异常分词进行处理，得到对应的分词结果，包括：

推送已标注的异常分词，供用户进行人工审核；

接收人工审核后的分词，得到对应的分词集seg1-1；

基于所述已知切分语料seg0，获取分词集seg1-1映射的测试参数p1；

将测试参数p1与所述性能参数p0进行比较，根据比较结果，得到对应的分词结果。

优选地，所述基于所述已知切分语料seg0，获取分词集seg1-1映射的测试参数p1，包括：

将分词结果seg1-1添加至已知切分语料seg0中，利用分词集seg1-1和seg0训练得到新的分词模型B；

利用分词模型B在所述测试集t上进行标注性能的测试，得到测试参数p1。

优选地，所述将测试参数p1与所述性能参数p0进行比较，根据比较结果，得到对应的分词结果，包括：

将测试参数p1与所述性能参数p0进行比较；

若测试参数p1大于性能参数p0，则将分词结果seg1-1添加至seg0中，作为现有领域对应的已知切分语料；

若测试参数p1小于性能参数p0，则调整预设阈值，重新找出异常分词并标注，并基于重新标注的异常分词，计算得到新的测试参数p1；根据新的测试参数p1进行比较处理，得到对应的分词结果；

若测试参数p1等于性能参数p0，则从未标注的跨领域语料中重新选取对应的测试数据，并基于重新选择的测试数据，按照测试参数p1的计算方式，计算得到新的测试参数p1；根据新的测试参数p1进行比较处理，得到对应的分词结果。

对应于上述所提供的一种异常分词的处理方法，本发明还提供了一种异常分词的处理系统，所述异常分词的处理系统包括：

测试模块，用于将人工标注的跨领域分词语料作为测试集t，利用现有领域的分词模型A在所述测试集t上进行标注性能的测试，得到对应的性能参数p0；

预切分模块，用于从未标注的跨领域语料中选取对应的测试数据，利用分词模型A进行预切分，得到初始分词结果seg1；

异常标注模块，用于利用所述现有领域对应的已知切分语料seg0，找出初始分词结果seg1中的异常分词并标注；

分词处理模块，用于基于所述性能参数p0以及异常分词的人工审核结果，对自动标注的异常分词进行处理，得到对应的分词结果。

优选地，所述异常标注模块用于：

优选地，所述分词处理模块用于：

推送已标注的异常分词，供用户进行人工审核；

接收人工审核后的分词，得到对应的分词集seg1-1；

优选地，所述分词处理模块用于：

将测试参数p1与所述性能参数p0进行比较；

本发明一种异常分词的处理方法及系统可以达到如下有益效果：

通过将人工标注的跨领域分词语料作为测试集t，利用现有领域的分词模型A在所述测试集t上进行标注性能的测试，得到对应的性能参数p0；从未标注的跨领域语料中选取对应的测试数据，利用分词模型A进行预切分，得到初始分词结果seg1；利用所述现有领域对应的已知切分语料seg0，找出初始分词结果seg1中的异常分词并标注；基于所述性能参数p0以及异常分词的人工审核结果，对自动标注的异常分词进行处理，得到对应的分词结果；通过将测试集作为评价指标，并小批量在跨领域数据上进行迭代、消除分词异常，逐渐加入跨领域语料的正确分词，提高了分词模型在跨领域语料上的性能，具有辅助人工快速标注异常分词、提高标注效率的同时提高标注准确率的有益效果。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所指出的内容来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步描述。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1是本发明异常分词的处理方法的一种实施方式的流程示意图；

图2是本发明异常分词的处理方法中，图1所述实施例中步骤S30的一种实施方式的流程示意图；

图3是本发明异常分词的处理方法中，图1所述实施例中步骤S40的一种实施方式的流程示意图；

图4是本发明异常分词的处理系统的一种实施方式的功能模块示意图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

本发明提供了一种异常分词的处理方法及系统，用以辅助人工快速标注异常分词，提高标注效率的同时，提高标注准确率。

如图1所示，图1是本发明异常分词的处理方法的一种实施方式的流程示意图；本发明一种异常分词的处理方法可以实施为如下描述的步骤S10-S40：

步骤S10、将人工标注的跨领域分词语料作为测试集t，利用现有领域的分词模型A在所述测试集t上进行标注性能的测试，得到对应的性能参数p0；

本发明实施例中，异常分词的处理系统(以下简称“处理系统”)，获取由人工标注的跨领域的分词语料，将上述少量的人工标注的跨领域分词语料作为测试集t；其中，跨领域分词语料可以理解为不同领域的分词语料，上述领域的划分根据用户对分词语料的不同需求进行具体区别；例如，在针对医疗领域，医疗不同科室的分词语料即可理解为跨领域分词语料。所描述的“少量”，可以根据不同领域对分词语料的具体需求，来设定具体的测试集t的数量，本发明实施例对上述测试集t的具体数量不进行限定。

针对已由人工标注的测试集t，利用现有的已知分词模型A在测试集t上进行标注性能的测试，得到测试结果对应的性能参数p0，将性能参数p0作为参考。本发明实施例中所描述的现有领域的分词模型A可以理解为：不同领域具有不同的分词模型A，或者相同领域根据不同需求采取不同的分词模型A，或者不同领域根据相似需求采取相同的分词模型A；本发明实施例对采用的现有领域的分词模型A的具体指代模型不进行限定。

步骤S20、从未标注的跨领域语料中选取对应的测试数据，利用分词模型A进行预切分，得到初始分词结果seg1；

本发明实施例中，处理系统从未标注的跨领域语料中，选取少量的数据作为测试数据，例如选取500至1000条数据作为测试数据，利用上述现有领域的分词模型A进行预切分，得到一个初始的分词结果seg1。

步骤S30、利用所述现有领域对应的已知切分语料seg0，找出初始分词结果seg1中的异常分词并标注；

利用现有领域中对应的已知切分语料seg0(该已知切分语料seg0所属的现有领域与上述分词模型A所属的现有领域相同)，对得到的上述初试结果seg1进行分析，计算初始分词结果seg1与已知切分语料seg0之间的统计差异，从而找出分词结果seg1中的异常分词，并对找出的seg1中的异常分词进行自动标注。例如，统计初始分词结果seg1与已知切分语料seg0之间的字典差异、词内部的紧密度差异、词边界的稳定度等统计特征，根据上述统计特征，找出初始分词结果seg1中的异常分词并进行自动标注。

步骤S40、基于所述性能参数p0以及异常分词的人工审核结果，用预设方法对自动标注的异常分词进行处理，得到对应的分词结果。

为提高分词标注的准确率，处理系统将自动标注的异常分词推送至用户，由用户对自动标注的异常分词进行人工审核，并接收人工审核后所返回的人工审核结果；根据上述得到的利用测试集t和已知分词模型A所得到的作为参考的性能参数p0，对自动标注的异常分词进行处理，例如对上述异常分词进行识别和判断，得到处理后的准确率相对处理之前较高的分词结果。

基于图1所述实施例的描述，在本发明一优选的实施例中，如图2所示，图2是本发明异常分词的处理方法中，图1所述实施例中步骤S30的一种实施方式的流程示意图；本发明图1所述实施例中的“步骤S30、利用所述现有领域对应的已知切分语料seg0，找出初始分词结果seg1中的异常分词并标注”，可以实施为如下描述的步骤S31-S32：

步骤S31、利用所述现有领域对应的已知切分语料seg0的统计特征，对初始分词结果seg1中的每个分词进行打分；

步骤S32、选取seg1中分数低于预设阈值的分词作为异常分词，并对所述异常分词进行标注。

本发明实施例中，针对已知切分语料seg0的统计特征，例如字典差异、词内部的紧密度差异、词边界的稳定度等，对每个统计特征进行权重值的设定，并根据上述统计特征以及各统计特征所分别对应的权重值，利用预设计算公式，对初始分词结果seg1中的每个分词的进行打分，得到初始分词结果seg1中每个分词所分别对应的分数。

设置一预设阈值，将seg1中的每个分词的分数分别与该预设阈值进行比较，将seg1中分数低于预设阈值的分词作为异常分词，并对找出的上述异常分词进行自动标注。

基于图1和图2所述实施例的描述，在本发明一优选的实施例中，如图3所示，图3是本发明异常分词的处理方法中，图1所述实施例中步骤S40的一种实施方式的流程示意图；本发明异常分词的处理方法中，图1所述实施例中的“步骤S40、基于所述性能参数p0以及异常分词的人工审核结果，对自动标注的异常分词进行处理，得到对应的分词结果”，可以实施为如下描述的步骤S41-S44：

步骤S41、推送已标注的异常分词，供用户进行人工审核；

步骤S42、接收人工审核后的分词，得到对应的分词集seg1-1；

本发明实施例中，处理系统将自动标注的异常分词自动推送至对应的用户，供用户对上述自动标注的异常分词进行人工审核，消除可能的异常分词；例如，删除不正确的分词；或者，修改不正确的分词为正确的分词；或者，对异常分词进行编辑等操作。用户审核终端基于用户触发的操作指令，将用户执行人工审核后的分词发送至处理系统；处理系统接收人工审核后返回的分词，得到对应的分词集seg1-1。

步骤S43、基于所述已知切分语料seg0，获取分词集seg1-1映射的测试参数p1；

根据现有领域对应的已知切分语料seg0，计算并获取分词集seg1-1对应的测试参数p1，该测试参数p1可以理解为对应的性能参数。在计算分词集seg1-1对应的测试参数p1时，可以利用已知切分语料seg0和分词集seg1-1，计算得到对应的分词模型B，利用分词模型B在对应的测试数据上进行标注性能的测试，从而得到分词集seg1-1映射的测试参数p1。

在本发明一优选的实施例中，可以将分词结果seg1-1添加至已知切分语料seg0中，并利用分词集seg1-1和seg0训练得到新的分词模型B，然后利用分词模型B对已知的测试集t进行标注性能的测试，从而得到分词集seg1-1对应的性能参数p1。这种采用与性能参数p0相同的测试集t进行测试、得到分词集seg1-1对应的性能参数p1的计算方式，由于二者测试集t相同，因此，可提高性能参数p1的准确率。

步骤S44、将测试参数p1与所述性能参数p0进行比较，根据比较结果，得到对应的分词结果。

处理系统将测试参数p1与性能参数p0进行数值大小的比较，从而根据二者比较结果，来确定对应的分词结果。

在本发明一实施例中，处理系统将测试参数p1与所述性能参数p0进行大小比较；若测试参数p1大于性能参数p0，则将分词结果seg1-1添加至seg0中，作为现有领域对应的已知切分语料。

若测试参数p1小于性能参数p0，则调整预设阈值，重新找出异常分词并标注，并基于重新标注的异常分词，按照与图1、图2和图3所述实施例所对应描述的处理过程，计算得到新的测试参数p1；再将新的测试参数p1与性能参数p0进行大小比较，从而得到对应的分词结果；

若测试参数p1等于性能参数p0，则从未标注的跨领域语料中重新选取对应的测试数据，按照与图1、图2和图3所述实施例所对应描述的处理过程，基于重新选择的测试数据，根据测试参数p1的计算方式，计算得到新的测试参数p1；再将新的测试参数p1与性能参数p0进行大小比较，从而得到对应的分词结果。

本发明异常分词的处理方法通过将人工标注的跨领域分词语料作为测试集t，利用现有领域的分词模型A在所述测试集t上进行标注性能的测试，得到对应的性能参数p0；从未标注的跨领域语料中选取对应的测试数据，利用分词模型A进行预切分，得到初始分词结果seg1；利用所述现有领域对应的已知切分语料seg0，找出初始分词结果seg1中的异常分词并标注；基于所述性能参数p0以及异常分词的人工审核结果，对自动标注的异常分词进行处理，得到对应的分词结果；通过将测试集作为评价指标，并小批量在跨领域数据上进行迭代、消除分词异常，逐渐加入跨领域语料的正确分词，提高了分词模型在跨领域语料上的性能，具有辅助人工快速标注异常分词、提高标注效率的同时提高标注准确率的有益效果。

基于图1、图2和图3实施例所描述的一种异常分词的处理方法，本发明还提供了一种异常分词的处理系统；该异常分词的处理系统可以实施图1至图3所描述的一种异常分词的处理方法。如图4所示，图4是本发明异常分词的处理系统的一种实施方式的功能模块示意图；本发明异常分词的处理系统包括：测试模块100、预切分模块200、异常标注模块300以及分词处理模块400；其中：

测试模块100，用于将人工标注的跨领域分词语料作为测试集t，利用现有领域的分词模型A在所述测试集t上进行标注性能的测试，得到对应的性能参数p0；

预切分模块200，用于从未标注的跨领域语料中选取对应的测试数据，利用分词模型A进行预切分，得到初始分词结果seg1；

异常标注模块300，用于利用所述现有领域对应的已知切分语料seg0，找出初始分词结果seg1中的异常分词并标注；

分词处理模块400，用于基于所述性能参数p0以及异常分词的人工审核结果，对自动标注的异常分词进行处理，得到对应的分词结果。

在本发明一优选的实施例中，所述异常标注模块300用于：

在本发明一优选的实施例中，所述分词处理模块400用于：

推送已标注的异常分词，供用户进行人工审核；

接收人工审核后的分词，得到对应的分词集seg1-1；

在本发明一优选的实施例中，所述分词处理模块400用于：

将测试参数p1与所述性能参数p0进行比较；

本发明异常分词的处理系统通过将人工标注的跨领域分词语料作为测试集t，利用现有领域的分词模型A在所述测试集t上进行标注性能的测试，得到对应的性能参数p0；从未标注的跨领域语料中选取对应的测试数据，利用分词模型A进行预切分，得到初始分词结果seg1；利用所述现有领域对应的已知切分语料seg0，找出初始分词结果seg1中的异常分词并标注；基于所述性能参数p0以及异常分词的人工审核结果，对自动标注的异常分词进行处理，得到对应的分词结果；通过将测试集作为评价指标，并小批量在跨领域数据上进行迭代、消除分词异常，逐渐加入跨领域语料的正确分词，提高了分词模型在跨领域语料上的性能，具有辅助人工快速标注异常分词、提高标注效率的同时提高标注准确率的有益效果。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种异常分词的处理方法，其特征在于，所述异常分词的处理方法包括：

基于所述性能参数p0以及异常分词的人工审核结果，对自动标注的异常分词进行处理，得到对应的分词结果，包括：

推送已标注的异常分词，供用户进行人工审核；

接收人工审核后的分词，得到对应的分词集seg1-1；

2.如权利要求1所述的异常分词的处理方法，其特征在于，所述利用所述现有领域对应的已知切分语料seg0，找出初始分词结果seg1中的异常分词并标注，包括：

3.如权利要求1所述的异常分词的处理方法，其特征在于，所述基于所述已知切分语料seg0，获取分词集seg1-1映射的测试参数p1，包括：

4.如权利要求1所述的异常分词的处理方法，其特征在于，所述将测试参数p1与所述性能参数p0进行比较，根据比较结果，得到对应的分词结果，包括：

将测试参数p1与所述性能参数p0进行比较；

5.一种异常分词的处理系统，其特征在于，所述异常分词的处理系统包括：

分词处理模块，用于基于所述性能参数p0以及异常分词的人工审核结果，对自动标注的异常分词进行处理，得到对应的分词结果；

其中，所述分词处理模块，还用于推送已标注的异常分词，供用户进行人工审核；

接收人工审核后的分词，得到对应的分词集seg1-1；

6.如权利要求5所述的异常分词的处理系统，其特征在于，所述异常标注模块用于：

7.如权利要求5所述的异常分词的处理系统，其特征在于，所述分词处理模块用于：

8.如权利要求5所述的异常分词的处理系统，其特征在于，所述分词处理模块用于：

将测试参数p1与所述性能参数p0进行比较；