CN112651238A - 训练语料扩充方法及装置、意图识别模型训练方法及装置 - Google Patents

训练语料扩充方法及装置、意图识别模型训练方法及装置 Download PDF

Info

Publication number
CN112651238A
CN112651238A CN202011584220.5A CN202011584220A CN112651238A CN 112651238 A CN112651238 A CN 112651238A CN 202011584220 A CN202011584220 A CN 202011584220A CN 112651238 A CN112651238 A CN 112651238A
Authority
CN
China
Prior art keywords
training
corpus
preset
keyword
keywords
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011584220.5A
Other languages
English (en)
Inventor
李响
徐国强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
OneConnect Smart Technology Co Ltd
OneConnect Financial Technology Co Ltd Shanghai
Original Assignee
OneConnect Financial Technology Co Ltd Shanghai
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by OneConnect Financial Technology Co Ltd Shanghai filed Critical OneConnect Financial Technology Co Ltd Shanghai
Priority to CN202011584220.5A priority Critical patent/CN112651238A/zh
Publication of CN112651238A publication Critical patent/CN112651238A/zh
Priority to PCT/CN2021/125223 priority patent/WO2022142613A1/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Probability & Statistics with Applications (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及语义解析技术领域,揭露了一种训练语料扩充方法及装置、意图识别模型训练方法及装置。该训练语料扩充方法通过获取样本文本训练集以及预设词向量集;根据预设词频抽取方法,抽取各所述训练语料中的目标关键词;自预设词向量集中,确定与所述目标关键词对应的匹配关键词;获取预设扩充倍数值,自所述匹配关键词中根据所述预设扩充倍数值选取预设数值的匹配关键词,并将选取的匹配关键词记录为替换关键词;获取与预设数值的所述替换关键词一一对应的预设数量的替换训练语料,将所述训练语料以及预设数值的替换训练语料记录为扩充文本训练集。本发明有效地解决了训练语料不足的问题,进而可以为模型提供大量标注数据,提高模型准确率。

Description

训练语料扩充方法及装置、意图识别模型训练方法及装置
技术领域
本发明涉及语义解析技术领域,尤其涉及一种训练语料扩充方法及装置、意图识别模型训练方法及装置。
背景技术
随着科学技术的发展,自然语言处理技术领域也快速发展,例如自然语言处理技术领域可以应用于智能多轮对话系统、文本相似度判定系统等系统中。其中,智能多轮对话系统需要根据客户的对话内容识别其意图,该意图用于后续的流程控制以及对话生成,因此意图识别是智能多轮对话中的关键技术。
现有技术中,意图识别常常会采用意图识别模型进行意图提取,对于意图识别模型的训练需要采用带有标签的数据,而现有的带有标签的数据需要从历史对话信息中筛选得到后,通过人为标注的方法进行标签标注,但是,通过该方式得到的已标注标签的数据量往往不够充足,进而导致意图识别模型无法得到完整充分的训练,从而使得意图识别模型的准确率较低。
发明内容
本发明实施例提供一种训练语料扩充方法及装置、意图识别模型训练方法及装置,以解决由于已标注标签的数据量不充足,导致意图识别模型的准确率较低问题。
一种训练语料扩充方法,包括:
获取样本文本训练集以及预设词向量集;所述样本文本训练集中包含至少一个训练语料;
根据预设词频抽取方法,抽取各所述训练语料中的目标关键词;
自预设词向量集中,确定与所述目标关键词对应的匹配关键词;
获取预设扩充倍数值,自所述匹配关键词中根据所述预设扩充倍数值选取预设数值的匹配关键词,并将选取的匹配关键词记录为替换关键词;
获取与预设数值的所述替换关键词一一对应的预设数量的替换训练语料,将所述训练语料以及预设数值的替换训练语料记录为扩充文本训练集;所述替换训练语料是指用一个替换关键词替换所述训练语料中的目标关键词之后生成的语料。
一种意图识别模型训练方法,包括:
获取预设标注样本训练集;所述预设标注数据训练集中包含至少一个标注样本语料;
检测所述标注样本语料的总数量,并在所述总数量小于预设阈值时,根据上述训练语料扩充方法,生成与所述标注样本语料对应的样本文本训练集;一个所述样本文本训练集关联一个标注样本语料;所述样本文本训练集中包含至少一个替换训练语料;
将所述标注样本语料输入至包含初始参数的预设识别模型中,得到与所述标注样本语料对应的第一损失值;同时,将所述标注样本语料以及所述替换训练语料输入至所述预设识别模型中,得到第二损失值;
将所述第一损失值与所述第二损失值之和记录为所述预设识别模型的识别损失值;
在所述识别损失值未达到预设的收敛条件时,更新迭代所述初始识别模型的初始参数,直至所述识别损失值达到所述预设的收敛条件时,将收敛之后的所述初始识别模型记录为意图识别模型。
一种训练语料扩充装置,包括:
数据获取模块,用于获取样本文本训练集以及预设词向量集;所述样本文本训练集中包含至少一个训练语料;
目标关键词抽取模块,用于根据预设词频抽取方法,抽取各所述训练语料中的目标关键词;
关键词匹配模块,用于自预设词向量集中,确定与所述目标关键词对应的匹配关键词;
替换关键词选取模块,用于获取预设扩充倍数值,自所述匹配关键词中根据所述预设扩充倍数值选取预设数值的匹配关键词,并将选取的匹配关键词记录为替换关键词;
训练集记录模块,用于获取与预设数值的所述替换关键词一一对应的预设数量的替换训练语料,将所述训练语料以及预设数值的替换训练语料记录为扩充文本训练集;所述替换训练语料是指用一个替换关键词替换所述训练语料中的目标关键词之后生成的语料。
一种意图识别模型训练装置,包括:
样本训练集获取模块,用于获取预设标注样本训练集;所述预设标注数据训练集中包含至少一个标注样本语料;
语料扩充模块,用于检测所述标注样本语料的总数量,并在所述总数量小于预设阈值时,根据上述训练语料扩充方法,生成与所述标注样本语料对应的样本文本训练集;一个所述样本文本训练集关联一个标注样本语料;所述样本文本训练集中包含至少一个替换训练语料;
损失值确定模块,用于将所述标注样本语料输入至包含初始参数的预设识别模型中,得到与所述标注样本语料对应的第一损失值;同时,将所述标注样本语料以及所述替换训练语料输入至所述预设识别模型中,得到第二损失值;
识别损失值记录模块,用于将所述第一损失值与所述第二损失值之和记录为所述预设识别模型的识别损失值;
模型训练模块,用于在所述识别损失值未达到预设的收敛条件时,更新迭代所述初始识别模型的初始参数,直至所述识别损失值达到所述预设的收敛条件时,将收敛之后的所述初始识别模型记录为意图识别模型。
一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述训练语料扩充方法,或者所述处理器执行所述计算机程序时实现上述意图识别模型训练方法。
一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述训练语料扩充方法,或者所述计算机程序被处理器执行时实现上述意图识别模型训练方法。
上述训练语料扩充方法及装置、意图识别模型训练方法及装置,训练语料扩充方法通过使用词频信息筛选出可以表征训练语料的目标关键词,用关键词与预设词向量集中的预训练词向量的欧氏距离得到匹配关键词,在采用匹配关键词替换目标关键词后不改变原训练语料的语义,可以沿用原始训练语料的标签,有效地解决了训练语料不足、数据标注和筛选费时费力的问题,进而可以提供大量的标注数据对意图识别的模型进行训练,提高模型准确率。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例中训练语料扩充方法以及意图识别模型训练方法的一应用环境示意图;
图2是本发明一实施例中训练语料扩充方法的一流程图;
图3是本发明一实施例中训练语料扩充方法中步骤S20的一流程图;
图4是本发明一实施例中训练语料扩充方法中步骤S204的一流程图;
图5是本发明一实施例中训练语料扩充方法中步骤S30的一流程图;
图6是本发明一实施例中意图识别模型训练方法的一流程图;
图7是本发明一实施例中训练语料扩充装置的一原理框图;
图8是本发明一实施例中训练语料扩充装置中目标关键词抽取模块的一原理框图;
图9是本发明一实施例中训练语料扩充装置中目标关键词确定单元的一原理框图;
图10是本发明一实施例中训练语料扩充装置中关键词匹配模块的一原理框图;
图11是本发明一实施例中意图识别模型训练装置的一原理框图;
图12是本发明一实施例中计算机设备的一示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供的训练语料扩充方法,该训练语料扩充方法可应用如图1所示的应用环境中。具体地,该训练语料扩充方法应用在训练语料扩充系统中,该训练语料扩充系统包括如图1所示的客户端和服务器,客户端与服务器通过网络进行通信,用于解决由于已标注标签的数据量不充足,导致意图识别模型的准确率较低问题。其中,客户端又称为用户端,是指与服务器相对应,为客户提供本地服务的程序。客户端可安装在但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备上。服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一实施例中,如图2所示,提供一种训练语料扩充方法,以该方法应用在图1中的服务器为例进行说明,包括如下步骤:
S10:获取样本文本训练集以及预设词向量集;所述样本文本训练集中包含至少一个训练语料;
可以理解地,样本文本训练集可以为不同场景下的文本的集合,示例性地,在智能多轮对话场景下,该样本文本训练集可以为用户与机器人之间的对话信息。在智能多轮对话场景下,训练语料可以为用户与机器人之间的一句对话信息,该训练语料已提前通过人工对其进行标注,也即一个训练语料关联一个语料标签。
S20:根据预设词频抽取方法,抽取各所述训练语料中的目标关键词;
可以理解地,目标关键词为训练语料中可以表征训练语料的字词,例如目标关键词可能为在训练语料中出现的次数最多的字词。
在一实施例中,如图3所示,步骤S20中,包括:
S201:对所述训练语料进行分词处理,得到所述训练语料中各训练字词;
S202:确定各所述训练字词在所述训练语料中的第一占有频率;
可以理解地,在对所述训练语料进行分词处理,得到所述训练语料中各训练字词之后,根据各训练词在训练语料中出现的频率,进而确定各所述训练字词在所述训练语料中的第一占有频率。第一占有频率越高,可以初步判断该训练字词对训练语料越重要。
S203:确定各所述训练字词在所述样本文本训练集中的第二占有频率;
可以理解地,在对所述训练语料进行分词处理,得到所述训练语料中各训练字词之后,根据各训练字词在整个样本文本训练集中出现的频率,也即各训练字词在各训练语料中出现的频率,进而确定各所述训练字词在所述样本文本训练集中的第二占有频率。第二占有频率越高,可以初步判断该训练字词对训练语料越不重要,因为其可能是连词、助词,代词,亦或者是整个样本文本训练集中每个训练语料一直在重复的词,这些词均不具有表征训练语料的独有性。
S204:根据所述第一占有频率以及所述第二占有频率,确定各所述训练语料中的目标关键词。
具体地,在确定各所述训练字词在所述训练语料中的第一占有频率,以及确定各所述训练字词在所述样本文本训练集中的第二占有频率之后,根据所述第一占有频率以及所述第二占有频率,确定各所述训练语料中的目标关键词。
在一实施例中,如图4所示,步骤S204中,包括:
S2041:根据所述第一占有频率以及所述第二占有频率,确定各所述训练字词的重要值;
具体地,在在确定各所述训练字词在所述训练语料中的第一占有频率,以及确定各所述训练字词在所述样本文本训练集中的第二占有频率之后,根据同一训练字词的第二占有频率的倒数与第一占有频率之间的乘积记录为该训练字词在对应的训练语料中的所述重要值。
S2042:将所述重要值中最高的训练字词记录为与该训练字词对应的训练语料的目标关键词。
具体地,在根据所述第一占有频率以及所述第二占有频率,确定各所述训练字词的重要值,将重要值最高的训练字词记录为该训练字词对应的训练预料的目标关键词。可以理解地,重要值最高的训练字词对与其对应的训练语料越重要,且其在整个样本文本训练集的所有训练语料中又不是频繁出现的,也即该训练字词可以用于表征该训练语料,进而将其记录为目标关键词。S30:自预设词向量集中,确定与所述目标关键词对应的匹配关键词;
可以理解地,在预设词向量集中存在各个字词对应的训练词向量,该预设词向量集可以预先通过语言模型对每一字词进行词向量转换得到。示例性地,该语言模型可以为bert模型、word2vec模型等。匹配关键词指的是与目标关键词之间语义相近的关键词。
在一实施例中,如图5所示,步骤S30中,包括:
S301:自所述预设词向量集中,将与所述目标关键词对应的训练词向量记录为目标关键向量;
可以理解地,预设词向量集中存在各个字词对应的训练词向量,因此从预设词向量中确定与目标关键词对应的训练词向量,并记录为目标关键向量。
S302:获取所述预设词向量集中的所有训练词向量,并确定所述目标关键向量与各所述训练词向量之间的向量距离;一个所述训练词向量关联一个训练字词;
具体地,在确定与目标关键词对应的目标关键向量之后,获取预设词向量集中的所有训练词向量,并确定目标关键向量与各训练词向量之间的向量距离,该向量距离为欧几里得距离,向量距离越小,表征目标关键向量与训练词向量之间的语义越接近。
S303:将各所述向量距离与预设距离阈值进行比较,并将小于或等于预设距离阈值的向量距离对应的训练词向量关联的训练字词,记录为所述匹配关键词。
S304:将所述匹配关键词按照向量距离从小到大的顺序插入关键词序列中。
其中,预设距离阈值可以根据具体应用场景进行选择,若场景下对意图识别要求较高,该预设距离阈值可以设置为0.05、0.1等。
具体地,在确定目标关键向量与各训练词向量之间的向量距离之后,将各向量距离与预设距离阈值进行比较,并将小于或等于预设距离阈值的向量距离对应的训练词向量关联的训练字词,记录为所述匹配关键词;进一步地,为了便于步骤S40中对匹配关键词进行提取,因此将所述匹配关键词按照向量距离从小到大的顺序插入关键词序列中,进而可以自关键词序列中选取序列在前的匹配关键词进行替换。
S40:获取预设扩充倍数值,自所述匹配关键词中根据所述预设扩充倍数值选取预设数值的匹配关键词,并将选取的匹配关键词记录为替换关键词;
其中,预设扩充倍数值指的是需要扩充训练语料的具体数量。示例性地,假设需要将该训练语料从1个训练语料扩充至10个训练语料,则该预设扩充倍数值即为10倍。预设数值指的是为了达到预设扩充倍数值的要求,除训练语料之外还需要扩充的具体数值。
在一实施例中,步骤S40中,包括:
将所述预设扩充倍数值与1之间的差值记录为所述预设数值;
自所述关键词序列中选取序列在前的预设数值的匹配关键词,并将选取的匹配关键词记录为所述替换关键词。
可以理解地,本实施例中,由于训练语料过少,因此需要对每一个训练语料进行扩充,进而将一个训练语料看做一个待扩充对象,示例性地,需要将该训练语料从1个训练语料扩充至10个训练语料,则该预设扩充倍数值即为10倍,进而除去训练语料本身,还应该扩充9个语料,因此表明预设扩充倍数值与预设数值之间的差值即为1。
进一步地,在确定预设数值之后,自步骤S304中得到的关键词序列中,选取序列在前的预设数值的匹配关键词,并将选取的匹配关键词记录为替换关键词。可以理解地,在步骤S304中指出通过向量距离从小到大的顺序插入关键词序列中,因此序列在前的匹配关键词对应的训练词向量与目标关键向量之间的向量距离较小,进而从序列最小的开始选取,选取预设数值的匹配关键词作为替换关键词。
S50:获取与预设数值的所述替换关键词一一对应的预设数量的替换训练语料,将所述训练语料以及预设数值的替换训练语料记录为扩充文本训练集;所述替换训练语料是指用一个替换关键词替换所述训练语料中的目标关键词之后生成的语料。
具体地,在自所述匹配关键词中根据所述预设扩充倍数值选取预设数值的匹配关键词,并将选取的匹配关键词记录为替换关键词,将每一替换关键词替换训练语料中的目标关键词,可以理解地,该替换关键词与目标关键词对应,而目标关键词是训练语料中的一个字词,进而将替换关键词替换该目标关键词之后,生成新的训练语料,也即替换训练语料,在将所有替换关键词均替换目标关键词之后,生成的替换训练语料的数量即为预设数值的数量,进而将训练语料以及预设数值的替换训练语料记录为扩充文本训练集,同时在步骤S10中提出一个训练语料关联一个语料标签,进而根据训练语料关联的语料标签,对生成的每一替换训练语料均设置与训练语料关联的语料标签。
在本发明中,使用词频信息筛选出可以表征训练语料的目标关键词;用关键词与预训练词向量的欧氏距离得到近义词,替换后不改变原语料的语义,可以沿用相同的标签;有效地解决了训练语料不足、数据标注和筛选费时费力的问题。更准确地识别用户的意图,提高了智能多轮对话系统的可靠性。
在另一具体实施例中,为了保证上述实施例中的扩充文本训练集的私密以及安全性,可以将扩充文本训练集存储在区块链中。其中,区块链(Blockchain),是由区块(Block)形成的加密的、链式的交易的存储结构。
例如,每个区块的头部既可以包括区块中所有交易的哈希值,同时也包含前一个区块中所有交易的哈希值,从而基于哈希值实现区块中交易的防篡改和防伪造;新产生的交易被填充到区块并经过区块链网络中节点的共识后,会被追加到区块链的尾部从而形成链式的增长。
在一实施例中,如图6所示,提供一种意图识别模型训练方法,以该方法应用在图1的服务器为例进行说明,包括如下步骤:
S01:获取预设标注样本训练集;所述预设标注数据训练集中包含至少一个标注样本语料;
可以理解地,预设标注样本训练集根据不同的场景,对应的标注样本语料也不同,标注样本语料指的是预先通过人工标注的语料。
S02:检测所述标注样本语料的总数量,并在所述总数量小于预设阈值时,根据上述训练语料扩充方法,生成与所述标注样本语料对应的样本文本训练集;一个所述样本文本训练集关联一个标注样本语料;所述样本文本训练集中包含至少一个替换训练语料;
其中,预设阈值可以为10000、20000等,该预设阈值可以根据不同场景下对训练数据的数据量的需求进行确定。可以理解地,在样本标注语料的总数量小于预设阈值时,表征当前样本标注语料过少,若仅将总数量的样本标注语料训练预设识别模型,则最终得到的意图识别模型存在识别盲区,进而导致意图识别模型在进行意图识别时准确率较低。因此,采用上述实施例中的基于关键词替换的语料扩充方法,对标注样本语料进行扩充,进而生成与标注样本语料对应的替换训练语料;由标注样本语料以及替换训练语料构成样本文本训练集。
S03:将所述标注样本语料输入至包含初始参数的预设识别模型中,得到与所述标注样本语料对应的第一损失值;同时,将所述标注样本语料以及所述替换训练语料输入至所述预设识别模型中,得到第二损失值;
可以理解地,将标注样本语料输入至预设识别模型中,由于标注样本语料本身是存在人工标注的标签的,因此可以通过如交叉熵损失函数确定与标注样本语料对应的第一损失值。
进一步地,在通过基于关键词替换的语料扩充方法,生成与标注样本语料对应的替换训练语料之后,该替换训练语料可以被设置为与标注样本语料相同的标签,而在训练预设识别模型的过程中,可以暂时不将替换训练语料设置与标注样本语料相同的标签,同时将标注样本语料也取消设置原本具有的人工标注的标签,进而通过将标注训练语料以及替换训练语料输入至预设识别模型中,进而可以根据如KL散度损失函数确定第二损失函数。
进一步地,在通过基于关键词替换的语料扩充方法,生成与标注样本语料对应的替换训练语料之后,该替换训练语料可以被设置为与标注样本语料相同的标签,此时也可以将具有相同标签的标注样本语料以及替换训练语料一并输入至预设识别模型中,通过如交叉熵损失函数确定该第三损失值。可以理解地,可以通过上述两种方式确定标注样本语料与替换训练语料同时输入至预设识别模型中时的损失值,但是第二损失值与第三损失值不相同。
S04:将所述第一损失值与所述第二损失值之和记录为所述预设识别模型的识别损失值;
具体地,在将所述标注样本语料输入至包含初始参数的预设识别模型中,得到与所述标注样本语料对应的第一损失值;同时,将所述标注样本语料以及所述替换训练语料输入至所述预设识别模型中,得到第二损失值之后,将所述第一损失值与所述第二损失值之和记录为所述预设识别模型的识别损失值。
S05:在所述识别损失值未达到预设的收敛条件时,更新迭代所述初始识别模型的初始参数,直至所述识别损失值达到所述预设的收敛条件时,将收敛之后的所述初始识别模型记录为意图识别模型。
可以理解地,该收敛条件可以为识别损失值小于设定阈值的条件,也即在识别损失值小于设定阈值时,停止训练;收敛条件还可以为识别损失值经过了10000次计算后值为很小且不会再下降的条件,也即识别损失值经过10000次计算后值很小且不会下降时,停止训练,并将收敛之后的所述初始识别模型记录为意图识别模型。
进一步地,将所述标注样本语料对应的第一损失值,以及与标注样本语料以及所述替换训练语料对应的第二损失值之和记录为所述预设识别模型的识别损失值之后,在识别损失值未达到预设的收敛条件时,根据该识别损失值调整初始识别模型的初始参数,并将该标注样本语料以及对应的替换训练语料重新输入至调整初始参数后的初始识别模型中,以在该标注样本语料以及对应的替换训练语料对应的识别损失值达到预设的收敛条件时,选取预设标注样本训练集中另一标注样本数据,并执行上述步骤S01至S04,并得到与该标注样本数据对应的识别损失值,并在该识别损失值未达到预设的收敛条件时,根据该预识别损失值再次调整初始识别模型的初始参数,使得该标注样本数据对应的识别损失值达到预设的收敛条件。
如此,在通过预设标注样本训练集中所有标注样本数据对初始识别模型进行训练之后,使得初始识别模型输出的结果可以不断向准确地结果靠拢,让识别准确率越来越高,直至所有标注样本数据对应的识别损失值均达到预设的收敛条件时,将收敛之后的所述初始识别模型记录为意图识别模型。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
在一实施例中,提供一种训练语料扩充装置,该训练语料扩充装置与上述实施例中训练语料扩充方法一一对应。如图7所示,该训练语料扩充装置包括数据获取模块10、目标关键词抽取模块20、关键词匹配模块30、替换关键词选取模块40和训练集记录模块50。各功能模块详细说明如下:
数据获取模块10,用于获取样本文本训练集以及预设词向量集;所述样本文本训练集中包含至少一个训练语料;
目标关键词抽取模块20,用于根据预设词频抽取方法,抽取各所述训练语料中的目标关键词;
关键词匹配模块30,用于自预设词向量集中,确定与所述目标关键词对应的匹配关键词;
替换关键词选取模块40,用于获取预设扩充倍数值,自所述匹配关键词中根据所述预设扩充倍数值选取预设数值的匹配关键词,并将选取的匹配关键词记录为替换关键词;
训练集记录模块50,用于获取与预设数值的所述替换关键词一一对应的预设数量的替换训练语料,将所述训练语料以及预设数值的替换训练语料记录为扩充文本训练集;所述替换训练语料是指用一个替换关键词替换所述训练语料中的目标关键词之后生成的语料。
优选地,如图8所示,目标关键词抽取模块20包括:
语料分词单元201,用于对所述训练语料进行分词处理,得到所述训练语料中各训练字词;
第一占有频率确定单元202,用于确定各所述训练字词在所述训练语料中的第一占有频率;
第二占有频率确定单元203,用于确定各所述训练字词在所述样本文本训练集中的第二占有频率;
目标关键词确定单元204,用于根据所述第一占有频率以及所述第二占有频率,确定各所述训练语料中的目标关键词。
优选地,如图9所示,目标关键词确定单元204包括:
重要值确定子单元2041,用于根据所述第一占有频率以及所述第二占有频率,确定各所述训练字词的重要值;
目标关键词确定子单元2042,用于将所述重要值中最高的训练字词记录为与该训练字词对应的训练语料的目标关键词。
优选地,如图10所示,关键词匹配模块30包括:
目标关键向量确定单元301,用于自所述预设词向量集中,将与所述目标关键词对应的训练词向量记录为目标关键向量;
向量距离确定单元302,用于获取所述预设词向量集中的所有训练词向量,并确定所述目标关键向量与各所述训练词向量之间的向量距离;一个所述训练词向量关联一个训练字词;
匹配关键词确定单元303,用于将各所述向量距离与预设距离阈值进行比较,并将小于或等于预设距离阈值的向量距离对应的训练词向量关联的训练字词,记录为所述匹配关键词。
关键词序列生成单元304,用于将所述匹配关键词按照向量距离从小到大的顺序插入关键词序列中。
优选地,替换关键词选取模块40包括:
预设数值确定单元401,用于将所述预设扩充倍数值与1之间的差值记录为所述预设数值;
替换关键词选取单元402,用于自所述关键词序列中选取序列在前的预设数值的匹配关键词,并将选取的匹配关键词记录为所述替换关键词。
关于训练语料扩充装置的具体限定可以参见上文中对于训练语料扩充方法的限定,在此不再赘述。上述训练语料扩充装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一实施例中,如图11所示,提供一种意图识别模型训练装置,包括:
样本训练集获取模块01,用于获取预设标注样本训练集;所述预设标注数据训练集中包含至少一个标注样本语料;
语料扩充模块02,用于检测所述标注样本语料的总数量,并在所述总数量小于预设阈值时,根据上述训练语料扩充方法,生成与所述标注样本语料对应的样本文本训练集;一个所述样本文本训练集关联一个标注样本语料;所述样本文本训练集中包含至少一个替换训练语料;
损失值确定模块03,用于将所述标注样本语料输入至包含初始参数的预设识别模型中,得到与所述标注样本语料对应的第一损失值;同时,将所述标注样本语料以及所述替换训练语料输入至所述预设识别模型中,得到第二损失值;
识别损失值记录模块04,用于将所述第一损失值与所述第二损失值之和记录为所述预设识别模型的识别损失值;
模型训练模块05,用于在所述识别损失值未达到预设的收敛条件时,更新迭代所述初始识别模型的初始参数,直至所述识别损失值达到所述预设的收敛条件时,将收敛之后的所述初始识别模型记录为意图识别模型。
关于意图识别模型训练装置的具体限定可以参见上文中对于意图识别模型训练方法的限定,在此不再赘述。上述意图识别模型训练装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图12所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储上述实施例中训练语料扩充方法或者意图识别模型训练方法所使用到的数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种训练语料扩充方法,或者该计算机程序被处理器执行时以实现一种意图识别模型训练方法。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述实施例中训练语料扩充方法,或者处理器执行计算机程序时实现上述实施例中意图识别模型训练方法。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述实施例中训练语料扩充方法,或者计算机程序被处理器执行时实现上述实施例中意图识别模型训练方法。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。

Claims (10)

1.一种训练语料扩充方法,其特征在于,包括:
获取样本文本训练集以及预设词向量集;所述样本文本训练集中包含至少一个训练语料;
根据预设词频抽取方法,抽取各所述训练语料中的目标关键词;
自预设词向量集中,确定与所述目标关键词对应的匹配关键词;
获取预设扩充倍数值,自所述匹配关键词中根据所述预设扩充倍数值选取预设数值的匹配关键词,并将选取的匹配关键词记录为替换关键词;
获取与预设数值的所述替换关键词一一对应的预设数量的替换训练语料,将所述训练语料以及预设数值的替换训练语料记录为扩充文本训练集;所述替换训练语料是指用一个替换关键词替换所述训练语料中的目标关键词之后生成的语料。
2.如权利要求1所述的训练语料扩充方法,其特征在于,所述根据预设词频抽取方法,抽取各所述训练语料中的目标关键词,包括:
对所述训练语料进行分词处理,得到所述训练语料中各训练字词;
确定各所述训练字词在所述训练语料中的第一占有频率;
确定各所述训练字词在所述样本文本训练集中的第二占有频率;
根据所述第一占有频率以及所述第二占有频率,确定各所述训练语料中的目标关键词。
3.如权利要求2所述的训练语料扩充方法,其特征在于,所述根据所述第一占有频率以及所述第二占有频率,确定各所述训练语料中的目标关键词,包括:
根据所述第一占有频率以及所述第二占有频率,确定各所述训练字词的重要值;
将所述重要值中最高的训练字词记录为与该训练字词对应的训练语料的目标关键词。
4.如权利要求1所述的训练语料扩充方法,其特征在于,所述自预设词向量集中,确定与所述目标关键词对应的匹配关键词,包括:
自所述预设词向量集中,将与所述目标关键词对应的训练词向量记录为目标关键向量;
获取所述预设词向量集中的所有训练词向量,并确定所述目标关键向量与各所述训练词向量之间的向量距离;一个所述训练词向量关联一个训练字词;
将各所述向量距离与预设距离阈值进行比较,并将小于或等于预设距离阈值的向量距离对应的训练词向量关联的训练字词,记录为所述匹配关键词;
将所述匹配关键词按照向量距离从小到大的顺序插入关键词序列中。
5.如权利要求4所述的训练语料扩充方法,其特征在于,所述获取预设扩充倍数值,自所述匹配关键词中选取预设数值的匹配关键词并将其记录为替换关键词,包括:
将所述预设扩充倍数值与1之间的差值记录为所述预设数值;
自所述关键词序列中选取序列在前的预设数值的匹配关键词,并将选取的匹配关键词记录为所述替换关键词。
6.一种意图识别模型训练方法,其特征在于,包括:
获取预设标注样本训练集;所述预设标注数据训练集中包含至少一个标注样本语料;
检测所述标注样本语料的总数量,并在所述总数量小于预设阈值时,根据如权利要求1至5任一项所述训练语料扩充方法,生成与所述标注样本语料对应的样本文本训练集;一个所述样本文本训练集关联一个标注样本语料;所述样本文本训练集中包含至少一个替换训练语料;
将所述标注样本语料输入至包含初始参数的预设识别模型中,得到与所述标注样本语料对应的第一损失值;同时,将所述标注样本语料以及所述替换训练语料输入至所述预设识别模型中,得到第二损失值;
将所述第一损失值与所述第二损失值之和记录为所述预设识别模型的识别损失值;
在所述识别损失值未达到预设的收敛条件时,更新迭代所述初始识别模型的初始参数,直至所述识别损失值达到所述预设的收敛条件时,将收敛之后的所述初始识别模型记录为意图识别模型。
7.一种训练语料扩充装置,其特征在于,包括:
数据获取模块,用于获取样本文本训练集以及预设词向量集;所述样本文本训练集中包含至少一个训练语料;
目标关键词抽取模块,用于根据预设词频抽取方法,抽取各所述训练语料中的目标关键词;
关键词匹配模块,用于自预设词向量集中,确定与所述目标关键词对应的匹配关键词;
替换关键词选取模块,用于获取预设扩充倍数值,自所述匹配关键词中根据所述预设扩充倍数值选取预设数值的匹配关键词,并将选取的匹配关键词记录为替换关键词;
训练集记录模块,用于获取与预设数值的所述替换关键词一一对应的预设数量的替换训练语料,将所述训练语料以及预设数值的替换训练语料记录为扩充文本训练集;所述替换训练语料是指用一个替换关键词替换所述训练语料中的目标关键词之后生成的语料。
8.一种意图识别模型训练装置,其特征在于,包括:
样本训练集获取模块,用于获取预设标注样本训练集;所述预设标注数据训练集中包含至少一个标注样本语料;
语料扩充模块,用于检测所述标注样本语料的总数量,并在所述总数量小于预设阈值时,根据如权利要求1至5任一项所述训练语料扩充方法,生成与所述标注样本语料对应的样本文本训练集;一个所述样本文本训练集关联一个标注样本语料;所述样本文本训练集中包含至少一个替换训练语料;
损失值确定模块,用于将所述标注样本语料输入至包含初始参数的预设识别模型中,得到与所述标注样本语料对应的第一损失值;同时,将所述标注样本语料以及所述替换训练语料输入至所述预设识别模型中,得到第二损失值;
识别损失值记录模块,用于将所述第一损失值与所述第二损失值之和记录为所述预设识别模型的识别损失值;
模型训练模块,用于在所述识别损失值未达到预设的收敛条件时,更新迭代所述初始识别模型的初始参数,直至所述识别损失值达到所述预设的收敛条件时,将收敛之后的所述初始识别模型记录为意图识别模型。
9.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至5任一项所述训练语料扩充方法,或者所述处理器执行所述计算机程序时实现如权利要求6所述意图识别模型训练方法。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至5任一项所述训练语料扩充方法,或者所述计算机程序被处理器执行时实现如权利要求6所述意图识别模型训练方法。
CN202011584220.5A 2020-12-28 2020-12-28 训练语料扩充方法及装置、意图识别模型训练方法及装置 Pending CN112651238A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202011584220.5A CN112651238A (zh) 2020-12-28 2020-12-28 训练语料扩充方法及装置、意图识别模型训练方法及装置
PCT/CN2021/125223 WO2022142613A1 (zh) 2020-12-28 2021-10-21 训练语料扩充方法及装置、意图识别模型训练方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011584220.5A CN112651238A (zh) 2020-12-28 2020-12-28 训练语料扩充方法及装置、意图识别模型训练方法及装置

Publications (1)

Publication Number Publication Date
CN112651238A true CN112651238A (zh) 2021-04-13

Family

ID=75363858

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011584220.5A Pending CN112651238A (zh) 2020-12-28 2020-12-28 训练语料扩充方法及装置、意图识别模型训练方法及装置

Country Status (2)

Country Link
CN (1) CN112651238A (zh)
WO (1) WO2022142613A1 (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113239205A (zh) * 2021-06-10 2021-08-10 阳光保险集团股份有限公司 数据标注方法、装置、电子设备及计算机可读存储介质
CN113434676A (zh) * 2021-06-25 2021-09-24 平安国际智慧城市科技股份有限公司 文本关系提取模型训练、文本关系提取方法、装置及设备
CN113656534A (zh) * 2021-08-26 2021-11-16 北京百度网讯科技有限公司 语料扩充方法、装置、设备和介质
CN113704431A (zh) * 2021-08-31 2021-11-26 平安普惠企业管理有限公司 意图识别的样本数据增强方法、装置、计算机设备及介质
CN113744737A (zh) * 2021-09-09 2021-12-03 广东电网有限责任公司 语音识别模型的训练、人机交互方法、设备和存储介质
CN114398943A (zh) * 2021-12-09 2022-04-26 北京百度网讯科技有限公司 样本增强方法及其装置
CN114398883A (zh) * 2022-01-19 2022-04-26 平安科技(深圳)有限公司 演示文稿生成方法、装置、计算机可读存储介质及服务器
CN114611625A (zh) * 2022-03-23 2022-06-10 北京百度网讯科技有限公司 语言模型训练、数据处理方法、装置、设备、介质及产品
WO2022142613A1 (zh) * 2020-12-28 2022-07-07 深圳壹账通智能科技有限公司 训练语料扩充方法及装置、意图识别模型训练方法及装置
CN117786427A (zh) * 2024-02-26 2024-03-29 星云海数字科技股份有限公司 一种车型主数据匹配方法及系统
CN114595697B (zh) * 2022-03-14 2024-04-05 京东科技信息技术有限公司 用于生成预标注样本的方法、装置、服务器和介质

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116956897B (zh) * 2023-09-20 2023-12-15 湖南财信数字科技有限公司 隐性广告处理方法、装置、计算机设备及存储介质

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108280206B (zh) * 2018-01-30 2020-05-26 尹忠博 一种基于语义增强的短文本分类方法
US11093707B2 (en) * 2019-01-15 2021-08-17 International Business Machines Corporation Adversarial training data augmentation data for text classifiers
CN111563209B (zh) * 2019-01-29 2023-06-30 株式会社理光 一种意图识别的方法、装置及计算机可读存储介质
CN111611374A (zh) * 2019-02-25 2020-09-01 北京嘀嘀无限科技发展有限公司 语料扩充方法、装置、电子设备及存储介质
CN110532547A (zh) * 2019-07-31 2019-12-03 厦门快商通科技股份有限公司 语料库构建方法、装置、电子设备及介质
CN112651238A (zh) * 2020-12-28 2021-04-13 深圳壹账通智能科技有限公司 训练语料扩充方法及装置、意图识别模型训练方法及装置

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022142613A1 (zh) * 2020-12-28 2022-07-07 深圳壹账通智能科技有限公司 训练语料扩充方法及装置、意图识别模型训练方法及装置
CN113239205A (zh) * 2021-06-10 2021-08-10 阳光保险集团股份有限公司 数据标注方法、装置、电子设备及计算机可读存储介质
CN113239205B (zh) * 2021-06-10 2023-09-01 阳光保险集团股份有限公司 数据标注方法、装置、电子设备及计算机可读存储介质
CN113434676A (zh) * 2021-06-25 2021-09-24 平安国际智慧城市科技股份有限公司 文本关系提取模型训练、文本关系提取方法、装置及设备
CN113434676B (zh) * 2021-06-25 2023-12-22 平安国际智慧城市科技股份有限公司 文本关系提取模型训练、文本关系提取方法、装置及设备
CN113656534A (zh) * 2021-08-26 2021-11-16 北京百度网讯科技有限公司 语料扩充方法、装置、设备和介质
CN113704431A (zh) * 2021-08-31 2021-11-26 平安普惠企业管理有限公司 意图识别的样本数据增强方法、装置、计算机设备及介质
CN113744737A (zh) * 2021-09-09 2021-12-03 广东电网有限责任公司 语音识别模型的训练、人机交互方法、设备和存储介质
CN113744737B (zh) * 2021-09-09 2024-06-11 广东电网有限责任公司 语音识别模型的训练、人机交互方法、设备和存储介质
CN114398943A (zh) * 2021-12-09 2022-04-26 北京百度网讯科技有限公司 样本增强方法及其装置
CN114398883B (zh) * 2022-01-19 2023-07-07 平安科技(深圳)有限公司 演示文稿生成方法、装置、计算机可读存储介质及服务器
CN114398883A (zh) * 2022-01-19 2022-04-26 平安科技(深圳)有限公司 演示文稿生成方法、装置、计算机可读存储介质及服务器
CN114595697B (zh) * 2022-03-14 2024-04-05 京东科技信息技术有限公司 用于生成预标注样本的方法、装置、服务器和介质
CN114611625A (zh) * 2022-03-23 2022-06-10 北京百度网讯科技有限公司 语言模型训练、数据处理方法、装置、设备、介质及产品
CN117786427A (zh) * 2024-02-26 2024-03-29 星云海数字科技股份有限公司 一种车型主数据匹配方法及系统
CN117786427B (zh) * 2024-02-26 2024-05-24 星云海数字科技股份有限公司 一种车型主数据匹配方法及系统

Also Published As

Publication number Publication date
WO2022142613A1 (zh) 2022-07-07

Similar Documents

Publication Publication Date Title
CN112651238A (zh) 训练语料扩充方法及装置、意图识别模型训练方法及装置
CN110765763B (zh) 语音识别文本的纠错方法、装置、计算机设备和存储介质
CN110765265B (zh) 信息分类抽取方法、装置、计算机设备和存储介质
CN111859960B (zh) 基于知识蒸馏的语义匹配方法、装置、计算机设备和介质
CN110413730B (zh) 文本信息匹配度检测方法、装置、计算机设备和存储介质
CN109960725B (zh) 基于情感的文本分类处理方法、装置和计算机设备
CN111444723B (zh) 信息抽取方法、计算机设备和存储介质
KR20190085098A (ko) 키워드 추출 방법, 컴퓨터 장치, 및 저장 매체
CN111666401B (zh) 基于图结构的公文推荐方法、装置、计算机设备及介质
CN112766319B (zh) 对话意图识别模型训练方法、装置、计算机设备及介质
CN109783785B (zh) 生成实验检测报告的方法、装置和计算机设备
CN112380837B (zh) 基于翻译模型的相似句子匹配方法、装置、设备及介质
CN112699923A (zh) 文档分类预测方法、装置、计算机设备及存储介质
CN109508458A (zh) 法律实体的识别方法及装置
CN112446218A (zh) 长短句文本语义匹配方法、装置、计算机设备及存储介质
CN113961768B (zh) 敏感词检测方法、装置、计算机设备和存储介质
CN112733539A (zh) 面试实体识别模型训练、面试信息实体提取方法及装置
CN112652295A (zh) 语言模型训练、视频字幕校验方法、装置、设备及介质
CN113536735A (zh) 一种基于关键词的文本标记方法、系统和存储介质
CN114357174B (zh) 基于ocr和机器学习的代码分类系统及方法
CN110956031A (zh) 文本相似度匹配的方法、装置及系统
CN109344385B (zh) 自然语言处理方法、装置、计算机设备和存储介质
CN113849644A (zh) 文本分类模型的配置方法、装置、计算机设备及存储介质
CN112363929B (zh) 系统上线方法、装置、计算机设备及存储介质
CN111796830B (zh) 一种协议解析处理方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40049343

Country of ref document: HK

SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination