CN109871856B

CN109871856B - 一种优化训练样本的方法和装置

Info

Publication number: CN109871856B
Application number: CN201711261004.5A
Authority: CN
Inventors: 郭玉锐; 周雪梅; 朱月飞; 张达
Original assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Current assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Priority date: 2017-12-04
Filing date: 2017-12-04
Publication date: 2022-03-04
Anticipated expiration: 2037-12-04
Also published as: CN109871856A

Abstract

本发明公开了一种优化训练样本的方法和装置，涉及计算机技术领域。该方法的一个具体实施方式包括：获取同一标注对象的两个以上的标注集；根据预设规则对所述两个以上标注集进行合并和/或相交，得到优选标注集；将所述优选标注集填充至所述标注对象，得到训练样本。该实施方式降低了人工标注易造成经验性错误的概率，能够获得更准确的训练样本，进而达到提高模型验证准确性的技术效果。

Description

一种优化训练样本的方法和装置

技术领域

本发明涉及计算机技术领域，尤其涉及一种优化训练样本的方法、装置、电子设备和计算机可读介质。

背景技术

随着人工智能技术的发展，用于自然语言处理的各种模型应运而生，验证这些模型的正确性需要使用训练样本，所以训练样本的质量直接关系到被验证的模型的质量。现有技术是通过人工根据经验对样本进行标注以得到训练样本。

在实现本发明过程中，发明人发现现有技术中至少存在如下问题：

直接通过人工标注得到的训练样本人为因素无法准确控制，易造成经验性错误，从而影响对模型的验证。

发明内容

有鉴于此，本发明实施例提供一种优化训练样本的方法和装置，能够优化人工标注，减少经验性错误，获得更准确的训练样本，从而提高模型验证的准确性。

为实现上述目的，根据本发明实施例的一个方面，提供了一种优化训练样本的方法，包括：获取同一标注对象的两个以上的标注集；根据预设规则对所述两个以上标注集进行合并和/或相交，得到优选标注集；将所述优选标注集填充至所述标注对象，得到训练样本。

可选地，所述标注集中包括至少一个标注，每个所述标注包括：标注的内容、标注的标签以及标注的索引。

可选地，将所述优选标注集填充至所述标注对象之前，所述方法还包括：按照所述优选标注的索引对所述优选标注集中的每个优选标注进行排序；在执行将所述优选标注集填充至所述标注对象的步骤时，包括：将排序后的所述优选标注集填充至所述标注对象。

可选地，将排序后的所述优选标注集填充至所述标注对象包括：根据所述优选标注的索引，按照从后向前的顺序将每个优选标注填充至所述标注对象；若所述优选标注集中存在嵌套标注，先填充外层标注，再填充内层标注。

为实现上述目的，根据本发明实施例的另一个方面，提供了一种优化训练样本的装置，包括：标注模块，用于获取同一标注对象的两个以上的标注集；优选模块，用于根据预设规则对所述两个以上标注集进行合并和/或相交，得到优选标注集；填充模块，用于将所述优选标注集填充至所述标注对象，得到训练样本。

可选地，所述装置还包括：排序模块，用于按照所述优选标注的索引对所述优选标注集中的每个优选标注进行排序；所述填充模块还用于将排序后的所述优选标注集填充至所述标注对象。

可选地，所述填充模块还用于：根据所述优选标注的索引，按照从后向前的顺序将每个优选标注填充至所述标注对象；若所述优选标注集中存在嵌套标注，先填充外层标注，再填充内层标注。

为实现上述目的，根据本发明实施例的再一个方面，提供了一种优化训练样本的电子设备，包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现一种优化训练样本的方法中任一所述的方法。

为实现上述目的，根据本发明实施例的再一个方面，提供了一种优化训练样本的计算机可读介质，其上存储有计算机程序，所述程序被处理器执行时实现一种优化训练样本的方法中任一所述的方法。

上述发明中的一个实施例具有如下优点或有益效果：因为采用以相交和/或合并对标注集进行优化并填充的技术手段，所以克服了人工标注易造成经验性错误，影响模型验证的技术问题，进而达到提高模型验证准确性的技术效果。

上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。

附图说明

附图用于更好地理解本发明，不构成对本发明的不当限定。其中：

图1是根据本发明实施例的一种优化训练样本的方法的主要步骤的示意图；

图2是根据本发明实施例的一种优化训练样本的装置的主要部分的示意图；

图3是本发明实施例可以应用于其中的示例性系统架构图；

图4是适于用来实现本发明实施例的终端设备或服务器的计算机系统的结构示意图。

具体实施方式

以下结合附图对本发明的示范性实施例做出说明，其中包括本发明实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本发明的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

图1是根据本发明实施例的一种优化训练样本的方法的主要步骤的示意图，如图1所示：

步骤S101表示获取同一标注对象的两个以上的标注集；此步骤的作用是根据采样定理，通过增加处理样本的数量，提高输出结果的可靠性。其中，所述标注集中包括至少一个标注，每个所述标注包括：标注的内容、标注的标签以及标注的索引。

本发明实施例所适用的标注对象可以是文本，也可以是其他可以通过人工感知并标注的其他形式的载体，比如图谱等，以文本类标注对象为例，对文本类标注对象可以是人工通过阅读等形式，根据语义与预设的词典等对其进行标注，其中，可以在文本中通过抽取实体词，嵌套标注的方式，划分类别，标注的结果需要保留原文，即在上下文中保存标注。

以下述文本作为标注对象：

苹果公司将于北京时间9月13日凌晨1点举行新品发布会，这一次的发布会地点是史蒂夫·乔布斯剧院。根据目前的消息，这次发布会上苹果将会发布iPhone 8、iPhone X等产品。届时，中关村在线手机频道将会带来发布会全程现场直播，欢迎关注。

以表1中的类别标签为例进行标注，比如：产品、品牌、人名、地名、组织，分别对应英文标签。其中标注的格式采用XML(可扩展标记语言)格式。

表1

名称	标签
		产品	<PRO></PRO>
品牌	<BRA></BRA>
		人名	<PER></PER>
地名	<LOC></LOC>
		组织	<ORG></ORG>

经过多人标注，获得以下两个标注的结果：

标注结果A：

<ORG><BRA>苹果</BRA>公司</ORG>将于<LOC>北京</LOC>时间9月13日凌晨1点举行新品发布会，这一次的发布会地点是<LOC><PER>史蒂夫·乔布斯</PER>剧院</LOC>。根据目前的消息，这次发布会上<BRA>苹果</BRA>将会发布<PRO><BRA>iPhone</BRA>8</PRO>、<PRO><BRA>iPhone</BRA>X</PRO>等产品。届时，<ORG><LOC>中关村</LOC>在线</ORG>手机频道将会带来发布会全程现场直播，欢迎关注。

标注结果B：

<ORG>苹果公司</ORG>将于<LOC>北京</LOC>时间9月13日凌晨1点举行新品发布会，这一次的发布会地点是<LOC><PER>史蒂夫·乔布斯</PER>剧院</LOC>。根据目前的消息，这次发布会上苹果将会发布<PRO>iPhone 8</PRO>、<PRO>iPhone X</PRO>等产品。届时，<ORG><LOC>中关村</LOC>在线</ORG>手机频道将会带来发布会全程现场直播，欢迎关注。

对于以上标注结果A和标注结果B，可以根据“<”和“>”来查找标注的内容，匹配原则是先外层标签，再内层标签。首先查找“<”第一次出现的位置，此位置为该标注内容在文本中的位置，记录为currentIndex(当前索引)，用于最后的填充，匹配“>”得到左侧标签，如标注结果B中的第一个标签为<ORG>，利用正则平衡组匹配右侧标签</ORG>，获取最近的闭合标签，平衡组可以解决配对出现的嵌套结构匹配，匹配原理采用了堆栈，遇到左侧标签计数+1，遇到右侧标签计数-1，直到计数为0时匹配结束。获取到最外层的标签名以及标签中的标注内容“苹果公司”，加上当前索引，构成第一个标注：

0-苹果公司-ORG

同理，分别得到

标注集A：[0-苹果公司-ORG,0-苹果-BRA,6-北京-LOC,37-史蒂夫·乔布斯剧院-LOC,37-史蒂夫·乔布斯-PER,61-苹果-BRA,67-iPhone8-PRO,67-iPhone-BRA,76-iPhoneX-PRO,76-iPhone-BRA,91-中关村在线-ORG,91-中关村-LOC]

标注集B:[0-苹果公司-ORG,6-北京-LOC,37-史蒂夫·乔布斯剧院-LOC,37-史蒂夫·乔布斯-PER,67-iPhone 8-PRO,76-iPhone X-PRO,91-中关村在线-ORG,91-中关村-LOC]

其中，结构类似“<LOC><PER>史蒂夫·乔布斯</PER>剧院</LOC>”的标注称为嵌套标注，其中包括两个标注“<PER>史蒂夫·乔布斯</PER>”和“<LOC>史蒂夫·乔布斯剧院</LOC>”，这两个标注的索引都是37，但是后者的标注内容比前者的标注内容长，所以后者称为外层标注，具有外层标签“<LOC></LOC>”，前者称为内层标注，具有内层标签“<PER></PER>”。

步骤S102表示根据预设规则对所述两个以上标注集进行合并和/或相交，得到优选标注集；此步骤的作用是对标注集进行优化，得到更准确的标注，提高人工标注的准确性。

预设规则可以是根据标注的需求，对所获取到的若干标注集之间进行多样化地合并和/或相交，取其并集或交集，如有标注集A、B、C，可以以(A∩B)∪C的结果作为优选标注集。

对于S101步骤中的标注集A和标注集B，以A与B的交集作为最后的优选标注集，只保留两个标注集中相同的标注，得到的优选标注集为：

[0-苹果公司-ORG,6-北京-LOC,37-史蒂夫·乔布斯-PER,37-史蒂夫·乔布斯剧院-LOC,67-iPhone 8-PRO,76-iPhone X-PRO,91-中关村-LOC,91-中关村在线-ORG]

步骤S103表示将所述优选标注集填充至所述标注对象，得到训练样本。此步骤的作用是根据优选标注集对标注对象进行标注。

将所述优选标注集填充至所述标注对象之前，所述方法还包括：按照每个所述优选标注的索引即其在所述标注对象中的先后顺序，对所述优选标注集中的每个优选标注进行排序；将排序后的所述优选标注集填充至所述标注对象，提高填充的效率与真确性。

将排序后的所述优选标注集填充至所述标注对象包括：根据每个优选标注的索引，按照从后向前的顺序将每个优选标注填充至所述标注对象；若所述优选标注集中存在嵌套标注，先填充外层标注，再填充内层标注。此步骤的作用是可以在填充时不改变原标注对象的索引，提高填充的效率和准确性。填充时可采用冒泡算法，将标注按照索引从小到大进行排序，对于索引同的情况，采用“索引+标注内容长度”排序，将标注内容长度长的标签排在后面，比如优选标注集中的“37-史蒂夫·乔布斯剧院-LOC”和“37-史蒂夫·乔布斯-PER”，根据标签填充先外后内的原则，采用“索引+标注内容长度”排序。在填充时，可以将标注对象放至StringBuilder(可变字符序列)中，遍历优选标注集，解析每一个标注，获取当前索引位置、标注内容及标签，构建左侧标签、右侧标签，先填充右侧标签(索引+标注内容长度)，再填充左侧标签。对于嵌套标签，需要记录外侧标签的长度。

最终填充后得到的训练样本为：

图2是根据本发明实施例的一种优化训练样本的装置200的主要部分的示意图，如图2所示：

标注模块201用于获取同一标注对象的两个以上的标注集；此模块的作用是根据采样定理，通过增加处理样本的数量，提高输出结果的可靠性。其中，所述标注集中包括至少一个标注，每个所述标注包括：标注的内容、标注的标签以及标注的索引。

以下述文本作为标注对象：

以表2中的类别标签为例进行标注，比如：产品、品牌、人名、地名、组织，分别对应英文标签。其中标注的格式采用XML(可扩展标记语言)格式。

表2

经过多人标注，获得以下两个标注的结果：

标注结果A：

标注结果B：

0-苹果公司-ORG

同理，分别得到

优选模块202用于根据预设规则对所述两个以上标注集进行合并和/或相交，得到优选标注集；此模块的作用是对标注集进行优化，得到更准确的标注，提高人工标注的准确性。

对于上述标注集A和标注集B，以A与B的交集作为最后的优选标注集，只保留两个标注集中相同的标注，得到的优选标注集为：

填充模块203用于将所述优选标注集填充至所述标注对象，得到训练样本。此模块的作用是根据优选标注集对标注对象进行标注。

装置200还可包括：排序模块，用于按照每个所述优选标注的索引即其在所述标注对象中的先后顺序，对所述优选标注集中的每个优选标注进行排序；填充模块203还用于将排序后的所述优选标注集填充至所述标注对象，提高填充的效率与真确性。

填充模块203还用于：根据每个优选标注的索引，按照从后向前的顺序将每个优选标注填充至所述标注对象；若所述优选标注集中存在嵌套标注，先填充外层标注，再填充内层标注。其作用是可以在填充时不改变原标注对象的索引，提高填充的效率和准确性。填充时可采用冒泡算法，将标注按照索引从小到大进行排序，对于索引同的情况，采用“索引+标注内容长度”排序，将标注内容长度长的标签排在后面，比如优选标注集中的“37-史蒂夫·乔布斯剧院-LOC”和“37-史蒂夫·乔布斯-PER”，根据标签填充先外后内的原则，采用“索引+标注内容长度”排序。在填充时，可以将标注对象放至StringBuilder(可变字符序列)中，遍历优选标注集，解析每一个标注，获取当前索引位置、标注内容及标签，构建左侧标签、右侧标签，先填充右侧标签(索引+标注内容长度)，再填充左侧标签。对于嵌套标签，需要记录外侧标签的长度。

最终填充后得到的训练样本为：

图3示出了可以应用本发明实施例的一种优化训练样本的方法或装置的示例性系统架构300。

如图3所示，系统架构300可以包括终端设备301、302、303，网络304和服务器305。网络304用以在终端设备301、302、303和服务器305之间提供通信链路的介质。网络304可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备301、302、303通过网络304与服务器305交互，以接收或发送消息等。终端设备301、302、303上可以安装有各种通讯客户端应用，例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。

终端设备301、302、303可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。

服务器305可以是提供各种服务的服务器，例如对用户利用终端设备301、302、303所浏览的购物类网站提供支持的后台管理服务器。后台管理服务器可以对接收到的产品信息查询请求等数据进行分析等处理，并将处理结果(例如目标推送信息、产品信息)反馈给终端设备。

需要说明的是，本发明实施例所提供的一种优化训练样本的方法一般由服务器305执行，相应地，一种优化训练样本的装置一般设置于服务器305中。

应该理解，图3中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

图4所示为适于用来实现本发明实施例的终端设备的计算机系统400的结构示意图。图4所示的终端设备仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图4所示，计算机系统400包括中央处理单元(CPU)401，其可以根据存储在只读存储器(ROM)402中的程序或者从存储部分408加载到随机访问存储器(RAM)403中的程序而执行各种适当的动作和处理。在RAM 403中，还存储有系统400操作所需的各种程序和数据。CPU 401、ROM 402以及RAM 403通过总线404彼此相连。输入/输出(I/O)接口405也连接至总线404。

以下部件连接至I/O接口405：包括键盘、鼠标等的输入部分406；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分407；包括硬盘等的存储部分408；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分409。通信部分409经由诸如因特网的网络执行通信处理。驱动器410也根据需要连接至I/O接口405。可拆卸介质411，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器410上，以便于从其上读出的计算机程序根据需要被安装入存储部分408。

特别地，根据本发明公开的实施例，上文主要步骤图描述的过程可以被实现为计算机软件程序。例如，本发明公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行主要步骤图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分409从网络上被下载和安装，和/或从可拆卸介质411被安装。在该计算机程序被中央处理单元(CPU)401执行时，执行本发明的系统中限定的上述功能。

需要说明的是，本发明所示的计算机可读介质包括计算机可读信号介质或计算机可读存储介质，或者是上述两者的任意组合。计算机可读存储介质包括但不限于电、磁、光、电磁、红外线、半导体的系统、装置或器件，或者上述内容的任意组合。计算机可读存储介质具体包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述内容的任意组合。在本发明中，计算机可读存储介质包括任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用；计算机可读的信号介质包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码，这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述信号的任意组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF(射频)等，或者上述介质的任意组合。

附图中的主要步骤图或框图，图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作，主要步骤图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以并行地执行，有时也可以按相反的顺序执行，其执行顺序依所涉及的功能而定。也要注意的是，框图或主要步骤图中的每个方框以及其组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本发明实施例中所涉及到的模块可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中，例如，可以描述为：一种处理器包括标注模块、优选模块和填充模块。其中，这些模块的名称在某种情况下并不构成对该模块本身的限定，例如，标注模块还可以被描述为“用于获取同一标注对象的两个以上的标注集的模块”。

另一方面，本发明实施例还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的设备中所包含的；也可以是单独存在，而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该设备执行时，使得该设备包括：获取同一标注对象的两个以上的标注集；根据预设规则对所述两个以上标注集进行合并和/或相交，得到优选标注集；将所述优选标注集填充至所述标注对象，得到训练样本。

根据本发明实施例的技术方案，因为采用以相交和/或合并对标注集进行优化并填充的技术手段，获得更准确地训练样本，所以克服了人工标注易造成经验性错误，影响模型验证的技术问题，进而达到提高模型验证准确性的技术效果。

上述具体实施方式，并不构成对本发明保护范围的限制。本领域技术人员应该明白的是，取决于设计要求和其他因素，可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明保护范围之内。

Claims

1.一种优化训练样本的方法，其特征在于，包括：

获取同一标注对象的两个以上的标注集，所述标注对象为文本；所述标注集中包括至少一个标注，每个所述标注包括标注的索引、标注的内容、标注的标签；

根据预设规则对所述两个以上标注集进行合并和/或相交，得到优选标注集；

按照优选标注的索引对所述优选标注集中的每个优选标注进行排序，索引为数字，对于索引相同的情况，采用索引和标注内容长度排序，将标注内容长度长的标签排在后面，将排序后的所述优选标注集填充至所述标注对象，得到训练样本，其中，将排序后的所述优选标注集填充至所述标注对象包括：根据每个优选标注的索引，按照从后向前的顺序将每个优选标注填充至所述标注对象，若所述优选标注集中存在嵌套标注，先填充外层标注，再填充内层标注，在进行填充时，将所述标注对象放至可变字符序列中，遍历所述优选标注集，解析每一个标注，获取当前索引位置、标注内容及标签，构建左侧标签、右侧标签，先填充右侧标签，再填充左侧标签，右侧标签为索引和标注内容长度。

2.一种优化训练样本的装置，其特征在于，包括：

标注模块，用于获取同一标注对象的两个以上的标注集，所述标注对象为文本；所述标注集中包括至少一个标注，每个所述标注包括标注的索引、标注的内容、标注的标签；

优选模块，用于根据预设规则对所述两个以上标注集进行合并和/或相交，得到优选标注集；

排序模块，用于按照优选标注的索引对所述优选标注集中的每个优选标注进行排序，索引为数字，对于索引相同的情况，采用索引和标注内容长度排序，将标注内容长度长的标签排在后面；

填充模块，用于将排序后的所述优选标注集填充至所述标注对象，得到训练样本，其中，将排序后的所述优选标注集填充至所述标注对象包括：根据每个优选标注的索引，按照从后向前的顺序将每个优选标注填充至所述标注对象，若所述优选标注集中存在嵌套标注，先填充外层标注，再填充内层标注，在进行填充时，将所述标注对象放至可变字符序列中，遍历所述优选标注集，解析每一个标注，获取当前索引位置、标注内容及标签，构建左侧标签、右侧标签，先填充右侧标签，再填充左侧标签，右侧标签为索引和标注内容长度。

3.一种优化训练样本的电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1所述的方法。

4.一种计算机可读介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1所述的方法。