CN109815488A - 自然语言理解训练数据生成方法、装置、设备及存储介质 - Google Patents

自然语言理解训练数据生成方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN109815488A
CN109815488A CN201811600740.3A CN201811600740A CN109815488A CN 109815488 A CN109815488 A CN 109815488A CN 201811600740 A CN201811600740 A CN 201811600740A CN 109815488 A CN109815488 A CN 109815488A
Authority
CN
China
Prior art keywords
generated
training data
data template
data
template
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811600740.3A
Other languages
English (en)
Inventor
张贺
齐乔松
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chumen Wenwen Information Technology Co Ltd
Original Assignee
Chumen Wenwen Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chumen Wenwen Information Technology Co Ltd filed Critical Chumen Wenwen Information Technology Co Ltd
Priority to CN201811600740.3A priority Critical patent/CN109815488A/zh
Publication of CN109815488A publication Critical patent/CN109815488A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)

Abstract

本公开提供了一种自然语言理解训练数据生成方法,包括:确定用于自然语言理解的训练数据的待生成数据模板;确定基于待生成数据模板而生成的训练数据的数量;以及根据待生成数据模板及知识库,填充待生成数据模板以生成所述数量的训练数据。本公开还提供了一种自然语言理解训练数据生成装置、电子设备及可读存储介质。

Description

自然语言理解训练数据生成方法、装置、设备及存储介质
技术领域
本公开涉及一种自然语言理解训练数据生成方法、自然语言理解训练数据生成装置、电子设备及可读存储介质。
背景技术
自然语言理解统计模型需要大量的训练数据才能训练出高质量的模型。在实际应用中,当系统维护人员发现自然语言理解统计模型在某些数据上表现较差时,则需要收集大量的自然语言理解训练数据,一般途径是人工标注,即找领域专家进行数据标注。人工标注自然语言理解数据存在很多不足之处,例如人工成本高,每个领域都需要领域专家参与标注;垂直领域多,领域专家也难以掌握多个垂直领域的专业知识;对于有歧义的数据,不同的领域专家有不同的标注结果,导致数据不一致性,例如,对于数据“播放三只小猪”,可能属于音乐垂直领域,可能属于故事垂直领域,可能属于动漫垂直领域,等等。
发明内容
为了解决上述技术问题中的至少一个,本公开提供了一种自然语言理解训练数据生成方法、自然语言理解训练数据生成装置、电子设备及可读存储介质。
根据本公开的一个方面,一种自然语言理解训练数据生成方法,包括:确定用于自然语言理解的训练数据的待生成数据模板;确定基于待生成数据模板而生成的训练数据的数量;以及根据待生成数据模板及知识库,填充待生成数据模板以生成所述数量的训练数据。
根据本公开的至少一个实施方式,在确定基于待生成数据模板而生成的训练数据的数量时,包括:分析自然语言理解模型中的已有训练数据,得到与待生成数据模板的文本相似度达到预定阈值的已有训练数据模板的数量,以及根据已有训练数据模板的数量来确定训练数据的数量。
根据本公开的至少一个实施方式,分析自然语言理解模型中的已有训练数据,得到与待生成数据模板的文本相似度达到预定阈值的已有训练数据模板的数量时,将自然语言理解模型中的已有训练数据转换成训练数据模板,并且比较待生成数据模板与转换得到的训练数据模板的文本相似度,来得到已有训练数据的数量。
根据本公开的至少一个实施方式,基于Levenshtein距离来比较待生成数据模板与转换的训练数据模板的文本相似度。
根据本公开的至少一个实施方式,,在进行比较时,包括:对待生成数据模板进行分词处理、以及对转换得到的每条训练数据模板进行分词处理;计算分词后的待生成数据模板与分词后的每条训练数据模板之间的词级别的Levenshtein距离;判断分词后的待生成数据模板与分词后的每条训练数据模板之间的词级别的Levenshtein距离是否小于或等于预设值;以及根据Levenshtein距离是否小于或等于预设值的训练数据模板的数量,来确定基于待生成数据模板而生成的训练数据的数量。
根据本公开的至少一个实施方式,在确定用于自然语言理解的训练数据的待生成数据模板时,根据用户反馈的错误和/或自然语言理解模型输出的低置信度的自然语言文本,来确定待生成数据模板。
根据本公开的至少一个实施方式,自然语言理解模型输出的低置信度的自然语言文本是根据所使用的设备的系统日志和/或测试数据集而得到。
根据本公开的另一方面,一种自然语言理解训练数据生成装置,包括:待生成数据模板确定模块,用于确定用于自然语言理解的训练数据的待生成数据模板;训练数据数量确定模块,用于确定基于待生成数据模板而生成的训练数据的数量;以及训练数据生成模块,根据待生成数据模板及知识库,填充待生成数据模板以生成所述数量的训练数据。
根据本公开的又一方面,一种电子设备,包括:存储器,存储器存储计算机执行指令;以及处理器,处理器执行存储器存储的计算机执行指令,使得处理器执行上述的方法。
根据本公开的再一方面,一种可读存储介质,可读存储介质中存储有计算机执行指令,计算机执行指令被处理器执行时用于实现上述的方法。
附图说明
附图示出了本公开的示例性实施方式,并与其说明一起用于解释本公开的原理,其中包括了这些附图以提供对本公开的进一步理解,并且附图包括在本说明书中并构成本说明书的一部分。
图1是根据本公开一个实施方式的自然语言理解训练数据生成方法的示意性流程图。
图2是根据本公开的一个实施方式的自然语言理解训练数据生成方法的示意图。
图3是根据本公开一个实施方式的自然语言理解训练数据生成装置的示意性框图。
图4是根据本公开一个实施方式的电子设备的示意性视图。
具体实施方式
下面结合附图和实施方式对本公开作进一步的详细说明。可以理解的是,此处所描述的具体实施方式仅用于解释相关内容,而非对本公开的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本公开相关的部分。
需要说明的是,在不冲突的情况下,本公开中的实施方式及实施方式中的特征可以相互组合。下面将参考附图并结合实施方式来详细说明本公开。
对话系统,尤其是任务型人机对话系统通常包括语音识别模块、自然语言理解模块、对话管理模块、自然语言生成模块、语音合成模块。
自然语言理解模块用于对语音识别模块输出的自然语言文本进行语义解析,将非结构化的自然语言文本解析为符合自然语言理解协议的结构化知识。
自然语言理解协议通常包括垂直领域、领域意图及语义槽三类信息。
一个任务型人机对话系统可以包含一个或多个垂直领域,垂直领域表示自然语言文本所属领域,例如:自然语言文本“播放ZLL的 QLXX”(ZLL指代歌手姓名,QLXX指代歌曲名称)属于音乐领域;自然语言文本“查看明天北京的天气”属于天气领域;自然语言文本“导航去天安门”则属于导航领域。每个垂直领域都有相应的训练语料用于训练垂直领域分类模型。
一个垂直领域通常包含一个或多个领域意图,领域意图表示在垂直领域内,自然语言文本的具体意图,例如,在天气领域中,自然语言文本“明天北京下雨吗”属于询问是否下雨的意图;自然语言文本“今天空气质量好不好”属于询问空气质量的意图;自然语言文本“北京刮风呢吗”属于询问是否有风的意图。每个领域意图都有相应的训练语料用于训练领域意图分类模型。
一个垂直领域通常包含零个、一个或多个语义槽,语义槽表示在垂直领域内,自然语言文本限定的具体条件,例如,在天气领域中,一般包括“时间”和“地点”两种语义槽。自然语言文本“明天北京下雨吗”限定了“时间”条件为“明天”以及“地点”条件为“北京”;自然语言文本“今天空气质量好不好”限定了“时间”条件为“今天”、自然语言文本“北京刮风呢吗”限定了“地点”条件为“北京”。每个垂直领域都有相应的训练语料用于训练语义槽标注模型。
根据本公开的一个方面,提供了一种自然语言理解训练数据生成方法。如图1所示,自然语言理解训练数据生成方法10包括步骤 S11~S13。
在步骤S11中,确定用于自然语言理解的训练数据的待生成数据模板。这里待生成的数据模板是指将被填充后作为训练数据来训练自然语言理解模型的模板。例如,音乐垂直领域的数据模版“播放<singer> 的<song>”,“来一首<album>里的<song>”等,其中<singer>,<song>,<album>为音乐垂直领域中的语义槽,分别表示歌手,歌曲,专辑。
在一个示例中,在确定用于自然语言理解的训练数据的待生成数据模板时,可以根据用户反馈的错误实例来确定所述待生成数据模板。用户反馈的错误实例例如可以根据用户使用的设备而得到。例如,当用户使用设备时,反馈自然语言理解结果不正确,这时将这种反馈作为用户反馈的错误。例如用户反馈“来首LDD的WQSS”(LDD指代歌手姓名,WQSS指代歌曲名称)的自然语言理解结果不正确,这时可以根据该反馈,得到待生成的数据模板“来首<singer>的<song>”。
在用户反馈的错误中,可以包括以下错误:垂直领域分类错误;领域意图分类错误;或语义槽识别错误。根据不同的错误类型可以得到不同的待生成数据模板。
在另一个示例中,在确定用于自然语言理解的训练数据的待生成数据模板时,根据自然语言理解模型输出的低置信度的自然语言文本来确定所述待生成数据模板。自然语言理解模型输出的低置信度的自然语言文本可以根据所使用的设备的系统日志和/或测试数据集而得到。
其中,系统日志可以是用户使用设备的过程中所说的语音数据。例如,对于市售的语音手表而言,很多用户在使用的过程中会通过语音与手表交流,这时用户的语音就可以作为该系统日志。测试数据集可以是测试过程中使用的数据集合等。
具体地,例如在系统日志中或者测试数据集中使自然语言理解模型输出较低置信度的自然语言文本,置信度表示自然语言理解模型输出正确的可能性,可以设置成介于0~1之间。例如,对于自然语言文本“播放LDD的音乐”,垂直领域分类模型可能输出以下结果:音乐垂直领域的置信度为0.95;问答垂直领域的置信度为0.1;故事垂直领域的置信度为0.3。其中“音乐”垂直领域的置信度最高为0.95,说明模型确信自然语言文本“播放LDD的音乐”属于“音乐”垂直领域。对于自然语言文本“来首LDD的老歌”,垂直领域分类模型可能输出以下结果:音乐垂直领域的置信度为0.5;电影垂直领域的置信度为 0.4;故事垂直领域的置信度为0.2。这时“音乐”置信度最高为0.5,说明模型虽然认为自然语言文本“来首LDD的老歌”属于“音乐”垂直领域,但是置信度不高。
这时基于置信度不高的自然语言文本,可以得到待生成数据模版“来首<singer>的老歌”。
在实际的使用中,可以通过设置置信度阈值来与模型得到的置信度进行比较,从判断是否为置信度不高的自然语言文本。
本领域的技术人员应当理解,除上述示例处的垂直领域之外,领域意图分类模型及语义槽标注模型的置信度类似,在此不一一举例。
另外,本领域的技术人员应当理解,也可以根据其他认为自然语言理解结果不理想的情况来得到待生成数据模版,本公开在此不做限定。
根据用户反馈的错误实例或低置信度的数据,可以通过人工标注的方法来确定待生成的数据模板。
在步骤S12中,确定基于待生成数据模板而生成的训练数据的数量。
可选地,在确定基于待生成数据模板而生成的训练数据的数量时,包括:分析自然语言理解模型中的已有训练数据,得到与待生成数据模板的文本相似度达到预定阈值的已有训练数据模板的数量,以及根据已有训练数据模板的数量来确定训练数据的数量。
可选地,分析自然语言理解模型中的已有训练数据,得到与待生成数据模板的文本相似度达到预定阈值的已有训练数据模板的数量时,将自然语言理解模型中的已有训练数据转换成训练数据模板,并且比较待生成数据模板与转换得到的训练数据模板的文本相似度,来得到已有训练数据的数量。
可选地,基于Levenshtein距离来比较待生成数据模板与转换的训练数据模板的文本相似度。
可选地,在进行比较时,包括:对待生成数据模板进行分词处理、以及对转换得到的每条训练数据模板进行分词处理;计算分词后的待生成数据模板与分词后的每条训练数据模板之间的词级别的 Levenshtein距离;判断分词后的待生成数据模板与分词后的每条训练数据模板之间的词级别的Levenshtein距离是否小于或等于预设值;以及根据Levenshtein距离是否小于或等于预设值的训练数据模板的数量,来确定基于待生成数据模板而生成的训练数据的数量。
Levenshtein距离是一种编辑距离,指两个字串之间,由一个转成另一个所需的最少编辑操作次数,允许的编辑操作包括将一个字符替换成另一个字符、插入一个字符、删除一个字符。词级别的Levenshtein 距离是指将一段文字转换成另外一段文字所需的最少编辑操作次数,允许的编辑操作包括将一个词替换成另一个词、插入一个词及删除一个词。例如以词的替换为例,如果将“来首<singer>的老歌”替换成“播放<singer>的歌曲”,则需要将词“来首”替换成“播放”,将词“老歌”替换成“歌曲”。
下面通过具体示例,来对步骤S12进行说明。
设定默认的需要生成的训练数据的数量n,该默认数量n可以根据实际需求来确定,例如,该默认数量n可以设置为3。
将已有的训练数据转换成训练数据模板,优选地将所有的已有训练数据均转换成训练数据模板。因为已有训练数据均是标注了语义槽信息的数据,因此可以将这些已有训练数据进行自动转换。例如“播放[ZLL singer]的歌曲”,“播放[FQQ singer]的歌曲”(FQQ指代歌手姓名)都会被转换成“播放<singer>的歌曲”。
对得到的每一条训练数据模板进行分词处理,例如将“播放 <singer>的歌曲”分词为“播放”“<singer>”“的”“歌曲”。
对待生成的数据模版进行分词处理,例如“来首<singer>的老歌”分词之后为“来首”“<singer>”“的”“老歌”。
计算待生成的数据模版和每一条训练数据模版的词级别 Levenshtein距离,如果待生成的数据模版和一条训练数据模版的词级别Levenshtein距离小于等于预设距离值m,例如设定m=2,则需要生成训练数据的数量为n+1;如果如果待生成的数据模版和二条训练数据模版的词级别Levenshtein距离小于等于预设距离值m,则需要生成训练数据的数量为n+2;如果如果待生成的数据模版和三条训练数据模版的词级别Levenshtein距离小于等于预设距离值m,则需要生成训练数据的数量为n+3;……。
例如,在计算“来首<singer>的老歌”与“播放<singer>的歌曲”的词级别Levenshtein距离的过程中,需要将“来首”替换成“播放”且将“老歌”替换成“歌曲”,因此两个模板的词级别Levenshtein距离等于2,也就是说等于预设距离值m,因此根据基于待生成数据模板“来首<singer>的老歌”而生成的训练数据的数量为默认数量n加1 (3+1=4)次,假设在训练数据模板中还存在一个模板“来个<singer> 的老歌”,因为“来首<singer>的老歌”与“来个<singer>的老歌”的词级别Levenshtein距离等于1,即小于2,其小于预设距离值m,这时根据基于待生成数据模板“来首<singer>的老歌”而生成的训练数据的数量再加1,为4+1次。如果没有与待生成数据模板之间的词级别 Levenshtein距离小于等于预设距离值的其他训练数据模板,则确定基于待生成数据模板“来首<singer>的老歌”而生成的训练数据的数量为 5。
需要注意的是,各个步骤的处理顺序可以不按上述示例中示出的顺序进行,例如,对得到的每一条训练数据模板进行分词处理与对待生成的数据模版进行分词处理可以互换;设定默认的需要生成的训练数据的数量n可以在适当时机执行等。
另外,在上述示例中,是基于词级别Levenshtein距离来判断待生成数据模板与转换的训练数据模板的文本相似度。但是需要注意的是,对于本公开的技术方案,可以采用其他形式的计算文本相似度的方法,例如通过余弦相似度计算方法等等。并且在使用词级别Levenshtein距离时,对待生成数据模板与转换的训练数据模板进行了分词处理的预处理,但是在采用其他文本相似度计算方法时,可以根据其他文本相似度计算方法的具体要求,来选择相应的预处理。因为可以选择合适的各种其他文本相似度计算方法,因此在此不一一举例来说明其具体的步骤。
在步骤S13中,确定基于待生成数据模板而生成的训练数据的数量。在该步骤中,可以通过已有的知识库,填充待生成数据模板以生成所述数量的训练数据。
例如,待生成的数据模版“来首<singer>的老歌”,需要生成5条训练数据。那么需要从歌手知识库中随机选择五个歌手分别填充到5 个“来首<singer>的老歌”模版中,如“来首LDD的老歌”;“来首ZYY 的老歌”;“来首FQQ的老歌”;“来首WFF的老歌”;“来首LRR的老歌”。(ZYY、WFF、LRR指代歌手姓名)之后采用生成的5个训练数据来对模型进行训练。
根据本公开的一个实施方式,还可以包括准备知识库的步骤,例如准备领域知识库等。该知识库可以通过网上搜索结果而构建,也可以基于已有的知识库而构建,例如可以准备歌手知识库、歌曲知识库、专辑知识库、地点知识库等等。该准备知识库的步骤可以在合适的阶段执行,例如提前执行,也可以在确定好待生成的数据模板后执行等。本公开对此不进行限定。
根据本公开的上述方法,可以解决人工标注自然语言理解数据中的各种不足。其可以根据用户反馈错误实例和模型置信度等选取待生成数据模版,根据词级别Levenshtein距离等文本相似度计算方式来计算待生成数据模版需要生成训练数据的数量,然后根据待生成数据模版和领域知识库自动地生成数据,而且还能根据一个待生成数据模版自动生成多条数据。
为了更好地理解本公开,在图2中示出了根据本公开的一个实施方式的自然语言理解训练数据生成方法的示意图。
根据本公开的方法,可以降低收集数据的人工成本;降低了领域专家的参与程度,领域专家只需要标注一条数据,就可以生成多条数据;以及根据待生成数据模版和知识库自动生成数据,避免人工标注不一致的错误,降低了数据标注不一致性。
根据本公开的又一方面,提供了一种自然语言理解训练数据生成装置。如图3所示,自然语言理解训练数据生成装置300包括待生成数据模板确定模块301、训练数据数量确定模块302、及训练数据生成模块303。待生成数据模板确定模块301,用于确定用于自然语言理解的训练数据的待生成数据模板。训练数据数量确定模块302,用于确定基于待生成数据模板而生成的训练数据的数量。训练数据生成模块303,根据待生成数据模板及知识库,填充待生成数据模板以生成所述数量的训练数据。待生成数据模板确定模块301、训练数据数量确定模块302、及训练数据生成模块303所执行的处理可以分别与方法10 中的步骤S11~S13所执行的处理相同。在此不再赘述。
另外,自然语言理解训练数据生成装置还可以包括知识库准备模块,例如用于准备对待生成数据模板进行填充的相关数据库等。
本公开还提供一种电子设备,如图4所示,该设备包括:通信接口 1000、存储器2000和处理器3000。通信接口1000用于与外界设备进行通信,进行数据交互传输。存储器2000内存储有可在处理器3000上运行的计算机程序。处理器3000执行所述计算机程序时实现上述实施方式中方法。所述存储器2000和处理器3000的数量可以为一个或多个。
存储器2000可以包括高速RAM存储器,也可以还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
如果通信接口1000、存储器2000及处理器3000独立实现,则通信接口1000、存储器2000及处理器3000可以通过总线相互连接并完成相互间的通信。所述总线可以是工业标准体系结构(ISA,Industry Standard Architecture)总线、外部设备互连(PCI,PeripheralComponent)总线或扩展工业标准体系结构(EISA,Extended Industry StandardComponent)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,该图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
可选的,在具体实现上,如果通信接口1000、存储器2000、及处理器3000集成在一块芯片上,则通信接口1000、存储器2000、及处理器 3000可以通过内部接口完成相互间的通信。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本公开的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本公开的实施方式所属技术领域的技术人员所理解。处理器执行上文所描述的各个方法和处理。例如,本公开中的方法实施方式可以被实现为软件程序,其被有形地包含于机器可读介质,例如存储器。在一些实施方式中,软件程序的部分或者全部可以经由存储器和/或通信接口而被载入和/或安装。当软件程序加载到存储器并由处理器执行时,可以执行上文描述的方法中的一个或多个步骤。备选地,在其他实施方式中,处理器可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行上述方法之一。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,可以具体实现在任何可读存储介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。
就本说明书而言,“可读存储介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。可读存储介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式只读存储器(CDROM)。另外,可读存储介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在存储器中。
应当理解,本公开的各部分可以用硬件、软件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施方式方法的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种可读存储介质中,该程序在执行时,包括方法实施方式的步骤之一或其组合。
此外,在本公开各个实施方式中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个可读存储介质中。所述存储介质可以是只读存储器,磁盘或光盘等。
在本说明书的描述中,参考术语“一个实施方式/方式”、“一些实施方式/方式”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施方式/方式或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施方式/方式或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施方式/方式或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施方式/方式或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施方式/方式或示例以及不同实施方式/方式或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
本领域的技术人员应当理解,上述实施方式仅仅是为了清楚地说明本公开,而并非是对本公开的范围进行限定。对于所属领域的技术人员而言,在上述公开的基础上还可以做出其它变化或变型,并且这些变化或变型仍处于本公开的范围内。

Claims (10)

1.一种自然语言理解训练数据生成方法,其特征在于,包括:
确定用于自然语言理解的训练数据的待生成数据模板;
确定基于所述待生成数据模板而生成的训练数据的数量;以及
根据所述待生成数据模板及知识库,填充所述待生成数据模板以生成所述数量的训练数据。
2.如权利要求1所述的方法,其特征在于,在确定基于所述待生成数据模板而生成的训练数据的数量时,包括:
分析自然语言理解模型中的已有训练数据,得到与所述待生成数据模板的文本相似度达到预定阈值的已有训练数据模板的数量,以及
根据所述已有训练数据模板的所述数量来确定所述训练数据的数量。
3.如权利要求2所述的方法,其特征在于,分析自然语言理解模型中的已有训练数据,得到与所述待生成数据模板的文本相似度达到预定阈值的已有训练数据模板的数量时,
将自然语言理解模型中的已有训练数据转换成训练数据模板,并且比较所述待生成数据模板与转换得到的所述训练数据模板的文本相似度,来得到所述已有训练数据的所述数量。
4.如权利要求2或3所述的方法,其特征在于,基于Levenshtein距离来比较所述待生成数据模板与转换的所述训练数据模板的文本相似度。
5.如权利要求4所述的方法,其特征在于,在进行所述比较时,包括:
对所述待生成数据模板进行分词处理、以及对转换得到的每条训练数据模板进行分词处理;
计算分词后的所述待生成数据模板与分词后的每条训练数据模板之间的词级别的Levenshtein距离;
判断分词后的所述待生成数据模板与分词后的每条训练数据模板之间的词级别的Levenshtein距离是否小于或等于预设值;以及
根据Levenshtein距离是否小于或等于预设值的训练数据模板的数量,来确定基于待生成数据模板而生成的训练数据的数量。
6.如权利要求1至5中任一项所述的方法,其特征在于,在确定用于自然语言理解的训练数据的待生成数据模板时,
根据用户反馈的错误和/或自然语言理解模型输出的低置信度的自然语言文本,来确定所述待生成数据模板。
7.如权利要求6所述的方法,其特征在于,所述自然语言理解模型输出的低置信度的自然语言文本是根据所使用的设备的系统日志和/或测试数据集而得到。
8.一种自然语言理解训练数据生成装置,其特征在于,包括:
待生成数据模板确定模块,用于确定用于自然语言理解的训练数据的待生成数据模板;
训练数据数量确定模块,用于确定基于所述待生成数据模板而生成的训练数据的数量;以及
训练数据生成模块,根据所述待生成数据模板及知识库,填充所述待生成数据模板以生成所述数量的训练数据。
9.一种电子设备,其特征在于,包括:
存储器,所述存储器存储执行指令;以及
处理器,所述处理器执行所述存储器存储的执行指令,使得所述处理器执行如权利要求1至7中任一项所述的方法。
10.一种可读存储介质,其特征在于,所述可读存储介质中存储有执行指令,所述执行指令被处理器执行时用于实现如权利要求1至7中任一项所述的方法。
CN201811600740.3A 2018-12-26 2018-12-26 自然语言理解训练数据生成方法、装置、设备及存储介质 Pending CN109815488A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811600740.3A CN109815488A (zh) 2018-12-26 2018-12-26 自然语言理解训练数据生成方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811600740.3A CN109815488A (zh) 2018-12-26 2018-12-26 自然语言理解训练数据生成方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN109815488A true CN109815488A (zh) 2019-05-28

Family

ID=66602590

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811600740.3A Pending CN109815488A (zh) 2018-12-26 2018-12-26 自然语言理解训练数据生成方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN109815488A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110543636A (zh) * 2019-09-06 2019-12-06 出门问问(武汉)信息科技有限公司 一种对话系统的训练数据选择方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080208583A1 (en) * 2006-06-16 2008-08-28 Ea-Ee Jan Method and apparatus for building asset based natural language call routing application with limited resources
CN105488025A (zh) * 2015-11-24 2016-04-13 小米科技有限责任公司 模板构建方法和装置、信息识别方法和装置
CN106844553A (zh) * 2016-12-30 2017-06-13 晶赞广告(上海)有限公司 基于样本数据的数据探测和扩充方法及装置
CN108304442A (zh) * 2017-11-20 2018-07-20 腾讯科技(深圳)有限公司 一种文本信息处理方法、装置及存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080208583A1 (en) * 2006-06-16 2008-08-28 Ea-Ee Jan Method and apparatus for building asset based natural language call routing application with limited resources
CN105488025A (zh) * 2015-11-24 2016-04-13 小米科技有限责任公司 模板构建方法和装置、信息识别方法和装置
CN106844553A (zh) * 2016-12-30 2017-06-13 晶赞广告(上海)有限公司 基于样本数据的数据探测和扩充方法及装置
CN108304442A (zh) * 2017-11-20 2018-07-20 腾讯科技(深圳)有限公司 一种文本信息处理方法、装置及存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110543636A (zh) * 2019-09-06 2019-12-06 出门问问(武汉)信息科技有限公司 一种对话系统的训练数据选择方法

Similar Documents

Publication Publication Date Title
CN108121829B (zh) 面向软件缺陷的领域知识图谱自动化构建方法
CN108460014B (zh) 企业实体的识别方法、装置、计算机设备及存储介质
CN107908635B (zh) 建立文本分类模型以及文本分类的方法、装置
US9218339B2 (en) Computer-implemented systems and methods for content scoring of spoken responses
CN103530282A (zh) 语料标注方法及设备
CN109299865B (zh) 基于语义分析的心理测评系统及方法、信息数据处理终端
CN108304375A (zh) 一种信息识别方法及其设备、存储介质、终端
CN107464555A (zh) 向包含语音的音频数据添加背景声音
CN104252533A (zh) 搜索方法和搜索装置
CN111104526A (zh) 一种基于关键词语义的金融标签提取方法及系统
CN107785018A (zh) 多轮交互语义理解方法和装置
CN107799116A (zh) 多轮交互并行语义理解方法和装置
CN105975558A (zh) 建立语句编辑模型的方法、语句自动编辑方法及对应装置
CN109858038A (zh) 一种文本标点确定方法及装置
CN106570180A (zh) 基于人工智能的语音搜索方法及装置
CN106571139A (zh) 基于人工智能的语音搜索结果处理方法及装置
CN111090771B (zh) 歌曲搜索方法、装置及计算机存储介质
CN111104803B (zh) 语义理解处理方法、装置、设备及可读存储介质
CN108959559A (zh) 问答对生成方法和装置
CN115357719B (zh) 基于改进bert模型的电力审计文本分类方法及装置
CN108664599A (zh) 智能问答方法、装置、智能问答服务器及存储介质
CN110427478A (zh) 一种基于知识图谱的问答搜索方法及系统
WO2024011813A1 (zh) 一种文本扩展方法、装置、设备及介质
US11868714B2 (en) Facilitating generation of fillable document templates
CN111369294A (zh) 软件造价估算方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190528