CN111291560B - 样本扩充方法、终端、装置及可读存储介质 - Google Patents

样本扩充方法、终端、装置及可读存储介质 Download PDF

Info

Publication number
CN111291560B
CN111291560B CN202010153415.8A CN202010153415A CN111291560B CN 111291560 B CN111291560 B CN 111291560B CN 202010153415 A CN202010153415 A CN 202010153415A CN 111291560 B CN111291560 B CN 111291560B
Authority
CN
China
Prior art keywords
word
data
expansion
sample
mode
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010153415.8A
Other languages
English (en)
Other versions
CN111291560A (zh
Inventor
周楠楠
杨海军
徐倩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
WeBank Co Ltd
Original Assignee
WeBank Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by WeBank Co Ltd filed Critical WeBank Co Ltd
Priority to CN202010153415.8A priority Critical patent/CN111291560B/zh
Publication of CN111291560A publication Critical patent/CN111291560A/zh
Application granted granted Critical
Publication of CN111291560B publication Critical patent/CN111291560B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/374Thesaurus

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Document Processing Apparatus (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种样本扩充方法、装置、终端及可读存储介质,所述方法包括:在预设的已标注样本数据集中选出样本数据作为种子数据,并基于所述种子数据选取词数据,而后获取所述词数据的词类型,并基于所述词类型确定所述已标注样本数据集的扩充方式,接下来基于所述扩充方式对所述种子数据中所述词数据进行更新,将更新后的种子数据作为扩充样本数据,以对所述已标注样本数据集进行扩充。通过不同的扩充方式对已标注样本数据进行样本数据的扩充,降低了获取标注样本的成本,提升了样本扩充效率,同时生成的扩充样本数据与已标注样本数据服从相同的数据分布,可以保证利用扩充样本进行序列标注模型训练生成的模型,具有很高的鲁棒性和准确性。

Description

样本扩充方法、终端、装置及可读存储介质
技术领域
本发明涉及机器学习技术领域,尤其涉及一种样本扩充方法、终端、装置及可读存储介质。
背景技术
在机器学习领域,数据标注是机器感知现实世界的起点,从某种程度上来说,没有经过标注的数据就是无用数据。尤其是训练序列标注模型需要大量的标注数据,可以购买第三方已标注的样本数据,但是费用非常昂贵,如果采用人工标注的方式对数据进行标注,不但复杂度比较高,而且当词标签比较多时,标注耗时较长,导致生成序列标注模型的训练样本数据的效率不高。
上述内容仅用于辅助理解本发明的技术方案,并不代表承认上述内容是现有技术。
发明内容
本发明的主要目的在于提供一种样本扩充方法、终端、装置及可读存储介质,旨在解决现有获取用于序列标注模型训练的标注样本成本高、耗时长,导致标注样本扩充效率低的技术问题。
为实现上述目的,本发明提供一种样本扩充方法,所述的样本扩充方法包括以下步骤:
在预设的已标注样本数据集中选出样本数据作为种子数据,并基于所述种子数据选取词数据;
获取所述词数据的词类型,并基于所述词类型确定所述已标注样本数据集的扩充方式;
基于所述词类型对应的扩充方式,对所述种子数据中所述词数据进行更新,将更新后的种子数据作为扩充样本数据,以对所述已标注样本数据集进行扩充。
此外,为实现上述目的,本发明还提供一种终端,所述终端包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的样本扩充程序,所述样本扩充程序被所述处理器执行时实现上述任一项所述的样本扩充方法的步骤。
此外,为实现上述目的,本发明还提供一种可读存储介质,所述可读存储介质上存储有样本扩充程序,所述样本扩充程序被处理器执行时实现上述任一项所述的样本扩充方法的步骤。
本发明在预设的已标注样本数据集中选出样本数据作为种子数据,并基于所述种子数据选取词数据,而后获取所述词数据的词类型,并基于所述词类型确定所述已标注样本数据集的扩充方式,接下来基于所述扩充方式对所述种子数据中所述词数据进行更新,将更新后的种子数据作为扩充样本数据,以对所述已标注样本数据集进行扩充。通过不同的扩充方式对已标注样本数据进行样本数据的扩充,降低了获取标注样本的成本,提升了样本扩充效率,同时生成的扩充样本数据与已标注样本数据服从相同的数据分布,可以保证利用扩充样本进行序列标注模型训练生成的模型,具有很高的鲁棒性和准确性。
附图说明
图1是本发明实施例方案涉及的硬件运行环境中终端的结构示意图;
图2为本发明样本扩充方法第一实施例的流程示意图;
图3为本发明样本扩充方法第二实施例的流程示意图;
图4为本发明样本扩充装置实施例的功能模块示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
如图1所示,图1是本发明实施例方案涉及的硬件运行环境中终端的结构示意图。
如图1所示,该终端可以包括:处理器1001,例如CPU,网络接口1004,用户接口1003,存储器1005,通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
本领域技术人员可以理解,图1中示出的目标检测系统结构并不构成对终端的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及样本扩充程序。
在图1所示的终端中,网络接口1004主要用于连接后台服务器,与后台服务器进行数据通信;用户接口1003主要用于连接用户端,与用户端进行数据通信;而处理器1001可以用于调用存储器1005中存储的样本扩充程序。
在本实施例中,终端包括:存储器1005、处理器1001及存储在所述存储器1005上并可在所述处理器1001上运行的样本扩充程序,其中,处理器1001调用存储器1005中存储的样本扩充程序时,执行本申请各个实施例提供的样本扩充方法的步骤。
本发明还提供一种样本扩充方法,参照图2,图2为本发明样本扩充方法第一实施例的流程示意图。
本发明实施例提供了样本扩充方法的实施例,需要说明的是,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
在本实施例中,该样本扩充方法包括:
步骤S10,在预设的已标注样本数据集中选出样本数据作为种子数据,并基于所述种子数据选取词数据;
在本实施例中,文本数据需要进行标注后才可以用于模型训练,但是采用人工标注的方式对文本数据进行标注,不但复杂度比较高,而且当词标签比较多时,标注耗时较长,也可以直接购买第三方已标注的文本数据,但是费用非常昂贵。本发明提供了一种扩充标注文本数据的方法,通过对已标注样本数据进行词数据的替换、删除或增加噪音数据等方式,实现了标注样本数据的扩充,降低了获取标注样本的成本,提升了样本扩充效率,同时生成的扩充样本数据与已标注样本数据服从相同的数据分布,可以保证利用扩充样本进行序列标注模型训练生成的模型,具有很高的鲁棒性和准确性。
选用预设数量的文本数据,组织数据标注人员人工标注这些样本数据作为已标注样本数据集,也可以在第三方直接购买预设数量的标注样本数据作为已标注样本数据集。在已标注样本数据集中选出一条样本数据作为种子数据,采用现有技术中的分词算法,例如结巴分词,对种子数据进行分词,生成分词列表。在分词列表中选出一个数据作为词数据。
具体地,步骤S10包括:
步骤S11,利用服从均匀分布的预设随机函数产生种子编号;
步骤S12,在所述已标注样本数据集中查找与所述种子编号相同的样本编号,将所述样本编号对应的样本数据作为所述种子数据,其中,所述已标注样本数据集中各个样本数据拥有各自的样本编号。
在本实施例中,在已标注样本数据集中选取一条样本数据作为种子数据。当需要生成大量扩充样本数据时,为了保证均匀选取已标注样本数据集中样本数据,可以利用服从均匀分布的预设随机函数配合选出种子数据。为已标注样本数据集中每一条样本数据进行编号,可以从1开始。选取种子样本数据的具体过程为:首先,统计已标注样本数据集中样本个数,然后设置预设随机函数产生1至样本个数之间的随机整数(样本数据编号从1开始),每次利用预设随机函数产生的随机数即为种子编号,然后在已标注样本数据集中将样本编号等于种子编号的样本数据作为种子数据。
进一步地,当需要生成大量扩充样本数据时,为了保证均匀选取已标注样本数据集中样本数据,可以将样本数据进行排序,按顺序每次选择一条样本数据作为种子数据,当全部样本数据都被选中过一次后,再次从第一个样本数据开始循环,依次作为种子数据。
步骤S13,对所述种子数据进行分词,生成分词列表;
在本实施例中,在种子数据进行分词处理后得到分词列表,在分词列表中选出一个数据作为词数据。需要说明的是,每条已标注样本数据中包括带标签文本和无标签文本,故每条已标注样本数据被分词处理得到的分词列表中包括有标签词和无标签词。从分词列表中选出数据作为词数据,用于后续操作。
步骤S14,计算所述分词列表的数据个数;
步骤S15,基于所述数据个数以及服从均匀分布的预设随机函数生成词数据编号,在所述分词列表中查找与所述词数据编号相同的分词编号,将所述分词编号对应的数据作为所述词数据,其中,所述分词列表中各个数据拥有各自的分词编号。
在本实施例中,为了保证均匀选取分词列表中的数据,可以利用服从均匀分布的预设随机函数配合选出词数据。为分词列表中每个分词进行编号,可以从1开始。选取词数据的具体过程为:首先,统计分词列表的数据个数,然后设置预设随机函数产生1至数据个数之间的随机整数(样本数据编号从1开始),每次利用预设随机函数产生的随机数即为分词编号,然后分词列表中查找与词数据编号相同的分词编号,将分词编号对应的数据作为词数据。
进一步地,为了保证均匀选取分词列表中的数据,可以按顺序每次选择一个分词作为词数据,当全部分词都被选中过一次后,再次从第一个分词开始循环,依次作为词数据。
步骤S20,获取所述词数据的词类型,并基于所述词类型确定所述已标注样本数据集的扩充方式;
具体地,步骤S20包括:
步骤S21,若所述词数据的词类型为无标签词,则确定所述已标注样本数据集的扩充方式为删除词方式、第一替换词方式或者插入词方式,所述第一替换词方式包括备选词替换方式和第一掩码替换方式;
步骤S22,若所述词数据的词类型为有标签词,则确定所述已标注样本数据集的扩充方式为第二替换词方式,所述第二替换词方式包括同义词替换方式和第二掩码替换方式
在本实施例中,词数据的词类型包括有标签词和无标签词,词类型不同包括的扩充方式也不同。具体地,当选中的词数据是无标签词,包括扩充方式为:替换词方式、插入词方式、删除词方式。替换词方式是在备选词库中随机选取一个替换词,然后在种子数据中对该词数据替换为替换词;插入词方式是在备选词库中随机选取一个替换词,然后在种子数据中将该替换词插入到词数据的前面;删除词方式是在种子数据中直接将该词数据删除。
同理,当选中的词数据是有标签词时,包括替换词方式,替换词方式是在同义词库中随机选取一个替换词,然后在种子数据中对该词数据替换为替换词。
需要说明的是,备选词库由已标注样本数据集生成,具体地,采用现有技术中的分词算法,例如结巴分词,对已标注样本数据集中的所有样本数据进行分词处理,得到各个样本数据的分词列表,分词列表中包括多个词组,所有样本数据的分词列表组成了混合词库,其中,一条已标注样本数据中包括带标签文本和无标签文本,故每条已标注样本数据被分词处理得到的分词列表中包括有标签词组和无标签词组。混合词库中所有无标签词组组成备选词库
进一步地,步骤S20包括:
步骤S23,当获取的词类型为无标签词时,利用服从均匀分布的预设随机函数产生筛选编号;
步骤S24,在预设扩充方式列表中查找与所述筛选编号相同的编号,将所述编号对应的扩充方式作为所述词数据对应的扩充方式,其中,所述扩充方式列表中各个扩充方式拥有各自的编号。
在本实施例中,当选中的词数据是无标签词,可以设置多种扩充方式,例如设置4种:替换词数据、插入替换词、删除词数据以及保持不变。根据实际情况进一步设置扩充方式被选中的概率,例如,以30%的概率选中替换词数据的扩充方式,以30%的概率选中插入替换词的扩充方式,以30%的概率选中删除词数据的扩充方式,以10%选中保持不变的扩充方式,以上的概率值为经验值,可以根据不同场景进行微调。
在本实施例中,为了保证每种扩充方式的选中概率,可以利用服从均匀分布的预设随机函数产生筛选编号,例如随机函数产生1至10之间的整数,规定产生的随机数时1~3,则为替换词数据的扩充方式;产生的随机数时4~6,则为插入替换词的扩充方式;产生的随机数时7~9,则为删除词数据的扩充方式;产生的随机数时10,则为保持不变的扩充方式。
具体地,预设扩充方式列表中保存了扩充方式以及扩充方式对应的编号,首先,利用服从均匀分布的预设随机函数产生随机数,根据预设规则根据随机数确定筛选编号,而后在预设扩充方式列表中查找与筛选编号相同的编号,将编号对应的扩充方式作为词数据对应的扩充方式。
步骤S30,基于所述词类型对应的扩充方式,对所述种子数据中所述词数据进行更新,将更新后的种子数据作为扩充样本数据,以对所述已标注样本数据集进行扩充。
具体地,步骤S30包括:
步骤S31,在所述扩充方式为备选词替换方式时,在备选词库中选出所述词数据对应的第一备选词,并将所述种子数据中所述词数据替换为所述第一备选词,将替换后的所述种子数据作为所述扩充样本数据,其中,所述备选词库由已标注样本数据集生成;
步骤S32,在所述扩充方式为第一掩码替换方式时,将所述种子数据中所述词数据替换为预设掩码字符,将替换后的所述种子数据作为所述扩充样本数据;
在本实施例中,当扩充方式为替换词方式时,替换词方式包括备选词替换方式和掩码替换方式。根据实际情况进一步设置替换方式被选中的概率,例如,以80%的概率选中备选词替换,以20%的概率选中掩码替换,以上的概率值为经验值,可以根据不同场景进行微调。
在本实施例中,为了保证每种扩充方式的选中概率,可以利用服从均匀分布的预设随机函数产生筛选编号,例如随机函数产生1至10之间的整数,规定产生的随机数时1~8,代表备选词替换;产生的随机数时9~10,代表掩码替换。
具体地,预设替换方式列表中保存了替换方式以及替换方式对应的编号,首先,利用服从均匀分布的预设随机函数产生随机数,根据预设规则根据随机数确定筛选编号,而后在预设替换方式列表中查找与筛选编号相同的编号,将编号对应的替换方式作为词数据对应的替换方式。
当扩充方式为备选词替换方式时,进一步在备选词库中选出该词数据对应的替换词,其中,在备选词库中随机选出一个词作为替换词,可以利用服从均匀分布的预设随机函数辅助选择,具体过程不再赘述,也可以按照顺序依次从备选词库中选出一个词。而后,将种子数据中该词数据更新为替换词,则替换后的种子数据即为扩充样本数据。
当扩充方式为替换词数据且替换方式为掩码替换时,将种子数据中该词数据用预设掩码字符进行替换,则替换后的种子数据即为扩充样本数据。需要说明的是,预设掩码字符为预先选定的,可以是不在备选词库中的任意字符,根据实际情况确定。
进一步地,步骤S30还包括:
步骤S33,在所述扩充方式为插入词方式时,在备选词库中选出所述词数据对应的第二备选词,并在所述种子数据中所述词数据的前方插入所述第二备选词,将更新后的所述种子数据作为所述扩充样本数据,其中,所述备选词库由已标注样本数据集生成;
步骤S34,在所述扩充方式为删除词方式时,在所述种子数据中删除所述词数据,将更新后的所述种子数据作为所述扩充样本数据。
在本实施例中,当扩充方式为插入词方式时,进一步在备选词库中选出该词数据对应的替换词,其中,在备选词库中随机选出一个词作为替换词,可以利用服从均匀分布的预设随机函数辅助选择,具体过程不再赘述,也可以按照顺序依次从备选词库中选出一个词。而后,在种子数据中该词数据的前方插入替换词,则更新后的种子数据即为扩充样本数据。当扩充方式为删除词方式时,将种子数据中该词数据删除,则删除后的种子数据即为扩充样本数据。
本实施例提出的样本扩充方法,在预设的已标注样本数据集中选出样本数据作为种子数据,并基于所述种子数据选取词数据,而后获取所述词数据的词类型,并基于所述词类型确定所述已标注样本数据集的扩充方式,接下来基于所述扩充方式对所述种子数据中所述词数据进行更新,将更新后的种子数据作为扩充样本数据,以对所述已标注样本数据集进行扩充。通过不同的扩充方式对已标注样本数据进行样本数据的扩充,降低了获取标注样本的成本,提升了样本扩充效率,同时生成的扩充样本数据与已标注样本数据服从相同的数据分布,可以保证利用扩充样本进行序列标注模型训练生成的模型,具有很高的鲁棒性和准确性。
基于第一实施例,参照图3,提出本发明样本扩充方法的第二实施例,在本实施例中,步骤S30包括:
步骤S35,在所述扩充方式为同义词替换时,在所述预设的同义词库获取所述词数据对应的同义词列表,在所述同义词列表中选出所述词数据对应的第三备选词,并将所述种子数据中所述词数据替换为所述第三备选词,将替换后的所述种子数据作为所述扩充样本数据;
在本实施例中,当选中的词数据是有标签词,可以设置多种替换方式,例如设置3种:同义词替换、掩码替换以及保持不变。根据实际情况进一步设置替换方式被选中的概率,例如,以80%的概率选中同义词替换,以10%的概率选中掩码替换,以10%选中保持不变的替换方式,以上的概率值为经验值,可以根据不同场景进行微调。
在本实施例中,为了保证每种扩充方式的选中概率,可以利用服从均匀分布的预设随机函数产生筛选编号,例如随机函数产生1至10之间的整数,规定产生的随机数时1~8,代表同义词替换;产生的随机数时9,代表掩码替换;产生的随机数时10,则为保持不变的替换方式。
具体地,预设替换方式列表中保存了替换方式以及替换方式对应的编号,首先,利用服从均匀分布的预设随机函数产生随机数,根据预设规则根据随机数确定筛选编号,而后在预设替换方式列表中查找与筛选编号相同的编号,将编号对应的替换方式作为词数据对应的替换方式。
当扩充方式为同义词替换时,预设同义词库中提供分词与其同义词对应关系,根据分词可以查找到其对应的同义词,例如,“上海”对应同义词为“魔都”、“不清楚”对应同义词为“好像是的”等,一个词的同义词有时候不止一个,如“北京”对应同义词为“首都”、“帝都”。具体地,当选中的词数据是有标签词时,在预设同义词库获取该词数据对应的同义词列表,其中,同义词表中至少包括一个同义词,而后在同义词列表中选出该词数据对应的一个替换词,并将种子数据中该词数据用替换词进行替换,则替换后的种子数据即为扩充样本数据。
步骤S36,在所述扩充方式为第二掩码替换方式时,将所述种子数据中所述词数据替换为预设掩码字符,将更新后的所述种子数据作为所述扩充样本数据;
在本实施例中,当选中的词数据是有标签词,且扩充方式为掩码替换方式时,将种子数据中该词数据用预设掩码字符进行替换,则替换后的种子数据即为扩充样本数据。需要说明的是,预设掩码字符为预先选定的,可以是不在同义词库中的任意字符,根据实际情况确定。
本实施例提出的样本扩充方法,在所述词数据的词类型为有标签词时,确定所述词数据对应的扩充方式,而后基于扩充方式以及同义词库,对种子数据进行更新,将更新后的种子数据作为扩充样本数据,从而实现了样本数据的扩充,提升了标注样本数据的扩充效率。
本发明进一步提供一种样本扩充装置,参照图4,图4为本发明样本扩充装置实施例的功能模块示意图。
筛选模块10,用于在预设的已标注样本数据集中选出样本数据作为种子数据,并基于所述种子数据选取词数据;
确定模块20,用于获取所述词数据的词类型,并基于所述已标注样本数据集确定所述词数据的扩充方式;
扩充模块30,用于基于所述扩充方式对所述种子数据中所述词数据进行更新,将更新后的种子数据作为扩充样本数据,以对所述已标注样本数据集进行扩充。
进一步地,所述确定模块20还用于:
当获取的词类型为无标签词时,利用服从均匀分布的预设随机函数产生筛选编号;
在预设扩充方式列表中查找与所述筛选编号相同的编号,将所述编号对应的扩充方式作为所述词数据对应的扩充方式,其中,所述扩充方式列表中各个扩充方式拥有各自的编号。
进一步地,所述确定模块20还用于:
若所述词数据的词类型为无标签词,则确定所述已标注样本数据集的扩充方式为删除词方式、第一替换词方式或者插入词方式,所述第一替换词方式包括备选词替换方式和第一掩码替换方式;
若所述词数据的词类型为有标签词,则确定所述已标注样本数据集的扩充方式为第二替换词方式,所述第二替换词方式包括同义词替换方式和第二掩码替换方式。
进一步地,所述扩充模块30还用于:
在所述扩充方式为备选词替换方式时,在备选词库中选出所述词数据对应的第一备选词,并将所述种子数据中所述词数据替换为所述第一备选词,将替换后的所述种子数据作为所述扩充样本数据,其中,所述备选词库由已标注样本数据集生成;
在所述扩充方式为第一掩码替换方式时,将所述种子数据中所述词数据替换为预设掩码字符,将替换后的所述种子数据作为所述扩充样本数据。
进一步地,所述扩充模块30还用于:
在所述扩充方式为插入词方式时,在备选词库中选出所述词数据对应的第二备选词,并在所述种子数据中所述词数据的前方插入所述第二备选词,将更新后的所述种子数据作为所述扩充样本数据,其中,所述备选词库由已标注样本数据集生成;
在所述扩充方式为删除词方式时,在所述种子数据中删除所述词数据,将更新后的所述种子数据作为所述扩充样本数据。
进一步地,所述扩充模块30还用于:
在所述扩充方式为同义词替换时,在所述预设的同义词库获取所述词数据对应的同义词列表,在所述同义词列表中选出所述词数据对应的第三备选词,并将所述种子数据中所述词数据替换为所述第三备选词,将替换后的所述种子数据作为所述扩充样本数据;
在所述扩充方式为第二掩码替换方式时,将所述种子数据中所述词数据替换为预设掩码字符,将更新后的所述种子数据作为所述扩充样本数据。
进一步地,所述筛选模块10还用于:
利用服从均匀分布的预设随机函数产生种子编号;
在所述已标注样本数据集中查找与所述种子编号相同的样本编号,将所述样本编号对应的样本数据作为所述种子数据,其中,所述已标注样本数据集中各个样本数据拥有各自的样本编号。
进一步地,所述筛选模块10还用于:
对所述种子数据进行分词,生成分词列表;
计算所述分词列表的数据个数;
基于所述数据个数以及服从均匀分布的预设随机函数生成词数据编号,在所述分词列表中查找与所述词数据编号相同的分词编号,将所述分词编号对应的数据作为所述词数据,其中,所述分词列表中各个数据拥有各自的分词编号。
此外,本发明实施例还提出一种可读存储介质,所述可读存储介质上存储有样本扩充程序,所述样本扩充程序被处理器执行时实现上述各个实施例中样本扩充方法的步骤。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个可读存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台系统设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种样本扩充方法,其特征在于,所述的样本扩充方法包括以下步骤:
在预设的已标注样本数据集中选出样本数据作为种子数据,并基于所述种子数据选取词数据;
获取所述词数据的词类型,并基于所述词类型确定所述已标注样本数据集的扩充方式;
基于所述扩充方式对所述种子数据中所述词数据进行更新,将更新后的种子数据作为扩充样本数据,以对所述已标注样本数据集进行扩充;
其中,所述获取所述词数据的词类型,并基于所述词类型确定所述已标注样本数据集的扩充方式的步骤包括:
当获取的词类型为无标签词时,利用服从均匀分布的预设随机函数产生筛选编号;
在预设扩充方式列表中查找与所述筛选编号相同的编号,将所述编号对应的扩充方式作为所述词数据对应的扩充方式,其中,所述扩充方式列表中各个扩充方式拥有各自的编号。
2.如权利要求1所述的样本扩充方法,其特征在于,所述基于所述词类型确定所述已标注样本数据集的扩充方式的步骤包括:
若所述词数据的词类型为无标签词,则确定所述已标注样本数据集的扩充方式为删除词方式、第一替换词方式或者插入词方式,所述第一替换词方式包括备选词替换方式和第一掩码替换方式;
若所述词数据的词类型为有标签词,则确定所述已标注样本数据集的扩充方式为第二替换词方式,所述第二替换词方式包括同义词替换方式和第二掩码替换方式。
3.如权利要求2所述的样本扩充方法,其特征在于,所述词类型为无标签词,所述扩充方式为第一替换词方式,所述基于所述词类型对应的扩充方式,对所述种子数据中所述词数据进行更新,将更新后的种子数据作为扩充样本数据的步骤包括:
在所述扩充方式为备选词替换方式时,在备选词库中选出所述词数据对应的第一备选词,并将所述种子数据中所述词数据替换为所述第一备选词,将替换后的所述种子数据作为所述扩充样本数据,其中,所述备选词库由已标注样本数据集生成;
在所述扩充方式为第一掩码替换方式时,将所述种子数据中所述词数据替换为预设掩码字符,将替换后的所述种子数据作为所述扩充样本数据。
4.如权利要求2所述的样本扩充方法,其特征在于,所述词类型为无标签词,所述扩充方式为删除词方式或者插入词方式,所述基于所述扩充方式对所述种子数据中所述词数据进行更新,将更新后的种子数据作为扩充样本数据的步骤包括:
在所述扩充方式为插入词方式时,在备选词库中选出所述词数据对应的第二备选词,并在所述种子数据中所述词数据的前方插入所述第二备选词,将更新后的所述种子数据作为所述扩充样本数据,其中,所述备选词库由已标注样本数据集生成;
在所述扩充方式为删除词方式时,在所述种子数据中删除所述词数据,将更新后的所述种子数据作为所述扩充样本数据。
5.如权利要求2所述的样本扩充方法,其特征在于,所述词类型为有标签词,所述基于所述扩充方式对所述种子数据中所述词数据进行更新,将更新后的种子数据作为扩充样本数据的步骤包括:
在所述扩充方式为同义词替换时,在所述预设的同义词库获取所述词数据对应的同义词列表,在所述同义词列表中选出所述词数据对应的第三备选词,并将所述种子数据中所述词数据替换为所述第三备选词,将替换后的所述种子数据作为所述扩充样本数据;
在所述扩充方式为第二掩码替换方式时,将所述种子数据中所述词数据替换为预设掩码字符,将更新后的所述种子数据作为所述扩充样本数据。
6.如权利要求1所述的样本扩充方法,其特征在于,所述在预设的已标注样本数据集中选出样本数据作为种子数据的步骤包括:
利用服从均匀分布的预设随机函数产生种子编号;
在所述已标注样本数据集中查找与所述种子编号相同的样本编号,将所述样本编号对应的样本数据作为所述种子数据,其中,所述已标注样本数据集中各个样本数据拥有各自的样本编号。
7.如权利要求1至6中任一项所述的样本扩充方法,其特征在于,所述基于所述种子数据选取词数据的步骤包括:
对所述种子数据进行分词,生成分词列表;
计算所述分词列表的数据个数;
基于所述数据个数以及服从均匀分布的预设随机函数生成词数据编号,在所述分词列表中查找与所述词数据编号相同的分词编号,将所述分词编号对应的数据作为所述词数据,其中,所述分词列表中各个数据拥有各自的分词编号。
8.一种样本扩充装置,其特征在于,所述样本扩充装置包括:
筛选模块,用于在预设的已标注样本数据集中选出样本数据作为种子数据,并基于所述种子数据选取词数据;
确定模块,用于获取所述词数据的词类型,并基于所述词类型确定所述已标注样本数据集的扩充方式;
扩充模块,用于基于所述扩充方式对所述种子数据中所述词数据进行更新,将更新后的种子数据作为扩充样本数据,以对所述已标注样本数据集进行扩充;
所述确定模块,还用于当获取的词类型为无标签词时,利用服从均匀分布的预设随机函数产生筛选编号;
在预设扩充方式列表中查找与所述筛选编号相同的编号,将所述编号对应的扩充方式作为所述词数据对应的扩充方式,其中,所述扩充方式列表中各个扩充方式拥有各自的编号。
9.一种样本扩充终端,其特征在于,所述样本扩充终端包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的样本扩充程序,所述样本扩充程序被所述处理器执行时实现如权利要求1至7中任一项所述的样本扩充方法的步骤。
10.一种可读存储介质,其特征在于,所述可读存储介质上存储有样本扩充程序,所述样本扩充程序被处理器执行时实现如权利要求1至7中任一项所述的样本扩充方法的步骤。
CN202010153415.8A 2020-03-06 2020-03-06 样本扩充方法、终端、装置及可读存储介质 Active CN111291560B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010153415.8A CN111291560B (zh) 2020-03-06 2020-03-06 样本扩充方法、终端、装置及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010153415.8A CN111291560B (zh) 2020-03-06 2020-03-06 样本扩充方法、终端、装置及可读存储介质

Publications (2)

Publication Number Publication Date
CN111291560A CN111291560A (zh) 2020-06-16
CN111291560B true CN111291560B (zh) 2023-05-23

Family

ID=71020616

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010153415.8A Active CN111291560B (zh) 2020-03-06 2020-03-06 样本扩充方法、终端、装置及可读存储介质

Country Status (1)

Country Link
CN (1) CN111291560B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112884003A (zh) * 2021-01-18 2021-06-01 中国船舶重工集团公司第七二四研究所 一种基于样本扩充器的雷达目标样本扩充生成方法
CN113535549A (zh) * 2021-06-22 2021-10-22 科大讯飞股份有限公司 测试数据的扩充方法、装置、设备及计算机可读存储介质
CN113779959B (zh) * 2021-08-31 2023-06-06 西南电子技术研究所(中国电子科技集团公司第十研究所) 小样本文本数据混合增强方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1940915A (zh) * 2005-09-29 2007-04-04 国际商业机器公司 训练语料扩充系统和方法

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103971677B (zh) * 2013-02-01 2015-08-12 腾讯科技(深圳)有限公司 一种声学语言模型训练方法和装置
CN106372063A (zh) * 2016-11-01 2017-02-01 上海智臻智能网络科技股份有限公司 信息处理方法、装置及终端
US10102196B2 (en) * 2016-11-08 2018-10-16 Motorola Solutions, Inc. Expanding a selected area of text, associating a data label with the expanded area of text, and storing the expanded area of text and data label in a clipboard
CN109977426A (zh) * 2017-12-27 2019-07-05 北京搜狗科技发展有限公司 一种翻译模型的训练方法、装置以及机器可读介质
US10664656B2 (en) * 2018-06-20 2020-05-26 Vade Secure Inc. Methods, devices and systems for data augmentation to improve fraud detection
CN110084239B (zh) * 2019-04-10 2022-09-06 中国科学技术大学 降低离线手写数学公式识别时网络训练过拟合的方法
CN110162627B (zh) * 2019-04-28 2022-04-15 平安科技(深圳)有限公司 数据增量方法、装置、计算机设备及存储介质
CN110580290B (zh) * 2019-09-12 2022-12-13 北京小米智能科技有限公司 用于文本分类的训练集的优化方法及装置
CN110717040A (zh) * 2019-09-18 2020-01-21 平安科技(深圳)有限公司 词典扩充方法及装置、电子设备、存储介质
CN110795938B (zh) * 2019-11-11 2023-11-10 北京小米智能科技有限公司 文本序列分词方法、装置及存储介质

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1940915A (zh) * 2005-09-29 2007-04-04 国际商业机器公司 训练语料扩充系统和方法

Also Published As

Publication number Publication date
CN111291560A (zh) 2020-06-16

Similar Documents

Publication Publication Date Title
CN111291560B (zh) 样本扩充方法、终端、装置及可读存储介质
CN115563287B (zh) 一种获取关联对象的数据处理系统
CN109191158B (zh) 用户画像标签数据的处理方法及处理设备
CN113379398B (zh) 一种项目需求的生成方法、装置、电子设备及存储介质
CN113183759A (zh) 一种仪表盘字符的显示方法及装置
CN110704719B (zh) 企业搜索文本分词方法和装置
CN109033049B (zh) Ppt文档的生成方法及装置、存储介质、终端
CN112691379B (zh) 游戏资源文本审核方法及装置、存储介质、计算机设备
CN113934834A (zh) 一种问句匹配的方法、装置、设备和存储介质
CN112347142B (zh) 数据处理方法及装置
CN111090737A (zh) 词库更新方法、装置、电子设备及可读存储介质
CN115841862A (zh) 病例报告表生成方法、装置、设备及存储介质
CN115422270A (zh) 信息处理方法及装置
CN114676155A (zh) 代码提示信息的确定方法、数据集的确定方法及电子设备
CN110188274B (zh) 搜索纠错方法及装置
CN114860873A (zh) 一种生成文本摘要的方法、装置及存储介质
CN114154480A (zh) 信息提取方法、装置、设备和存储介质
CN113111651A (zh) 一种中文分词方法、装置以及搜索词库读取方法
CN113064982A (zh) 一种问答库生成方法及相关设备
CN110110280B (zh) 对坐标的曲线积分计算方法、装置、设备及存储介质
CN109213490A (zh) 一种程序处理方法、装置以及相关设备
CN117077679B (zh) 命名实体识别方法和装置
CN117093706B (zh) 一种试卷生成方法、系统、介质及电子设备
CN113722432B (zh) 新闻与股票的关联方法及装置
CN114997275A (zh) 基于生成式模型的标签标注方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant