CN117807987A - 样本生成方法、装置、电子设备及存储介质 - Google Patents
样本生成方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN117807987A CN117807987A CN202211178539.7A CN202211178539A CN117807987A CN 117807987 A CN117807987 A CN 117807987A CN 202211178539 A CN202211178539 A CN 202211178539A CN 117807987 A CN117807987 A CN 117807987A
- Authority
- CN
- China
- Prior art keywords
- intention
- data
- low
- text
- frequency
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 126
- 238000012549 training Methods 0.000 claims abstract description 183
- 238000012545 processing Methods 0.000 claims abstract description 61
- 238000012216 screening Methods 0.000 claims abstract description 23
- 230000008569 process Effects 0.000 claims description 15
- 238000013145 classification model Methods 0.000 claims description 13
- 230000002779 inactivation Effects 0.000 claims description 6
- 230000009467 reduction Effects 0.000 claims description 6
- 238000001914 filtration Methods 0.000 claims description 4
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 239000000758 substrate Substances 0.000 claims 1
- 238000010586 diagram Methods 0.000 description 24
- 238000007689 inspection Methods 0.000 description 13
- 230000006870 function Effects 0.000 description 12
- 230000008859 change Effects 0.000 description 11
- 230000000694 effects Effects 0.000 description 10
- 238000004590 computer program Methods 0.000 description 7
- 230000004044 response Effects 0.000 description 6
- 238000009825 accumulation Methods 0.000 description 5
- 239000003795 chemical substances by application Substances 0.000 description 4
- 230000002457 bidirectional effect Effects 0.000 description 3
- 230000009849 deactivation Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 208000036626 Mental retardation Diseases 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000012372 quality testing Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Mathematical Physics (AREA)
- Machine Translation (AREA)
Abstract
本说明书实施例提供了样本生成方法、装置、电子设备及存储介质,样本生成方法包括:获取待处理的日志数据;日志数据包括文本和文本的意图识别结果;根据文本的意图识别结果,对日志数据进行数据筛选处理,得到低频意图数据;将低频意图数据、预设意图类别的标准文本输入文本对比模型进行相似度预测处理,得到低频意图数据对应的文本对比结果;文本对比模型为基于训练样本集对初始文本对比模型进行训练所得到的模型;训练样本集基于所述低频意图数据构建;根据文本对比结果与预设相似度阈值,生成低频意图样本。以此,扩增了低频意图样本的数量。
Description
技术领域
本申请涉及人工智能领域,尤其涉及一种样本生成方法、装置、电子设备及存储介质。
背景技术
随着电子技术的发展,机器人的应用越来越广泛。机器人坐席可以自动应答客户提出的问题,节省了大量人力资源,提高沟通效率。客户提出的问题五花八门,多种多样。一部分问题中包含的用户意图出现频率较高,可以将其称为高频意图;另一部分问题包含的用户意图出现频率较低,可以将其称为低频意图。对于各个高频意图,由于与高频意图相关的问题出现频率较高,用于模型训练的高频意图训练数据易获得,则通过模型训练得到的机器人坐席的意图识别结果准确性较高。然而,对于各个低频意图,由于与低频意图相关的问题出现频率较低,在对机器人坐席进行模型训练时往往缺乏足够多的训练数据,导致机器人坐席的意图识别结果的准确性较低,机器人坐席的答复牛头不对马嘴,给用户带来了不好的体验,且间接提高了人工坐席的工作量。
发明内容
本申请实施例提供了一种样本生成方法、装置、电子设备及存储介质,以扩增低频意图样本的数量,满足模型训练需求,从而提高低频意图的识别准确性。
第一方面,本申请实施例提供了一种样本生成方法,包括:
获取待处理的日志数据;所述日志数据包括文本和所述文本的意图识别结果;
根据所述文本的意图识别结果,对所述日志数据进行数据筛选处理,得到低频意图数据;
将所述低频意图数据、预设意图类别的标准文本输入文本对比模型进行相似度预测处理,得到所述低频意图数据对应的文本对比结果;所述文本对比模型为基于训练样本集对初始文本对比模型进行训练所得到的模型;所述训练样本集基于所述低频意图数据构建;
根据所述文本对比结果与预设相似度阈值,生成低频意图样本。
第二方面,本申请实施例提供了一种意图识别模型的训练方法,包括:
通过如第一方面所述的样本生成方法生成低频意图样本;
将所述低频意图样本输入初始意图识别模型进行迭代训练,得到意图识别模型。
第三方面,本申请实施例提供了一种应用于数字人的意图识别方法,包括:
获取用户输入的待识别文本;
将所述待识别文本输入意图识别模型进行意图识别,得到用户意图;所述意图识别模型是通过将低频意图样本输入初始意图识别模型进行迭代训练所得到的;所述低频意图样本是通过如第一方面所述的样本生成方法所生成的;
根据所述用户意图在所述数字人的系统中获取对应所述用户意图的目标文本,并对所述目标文本进行展示。
第四方面,本申请实施例提供了一种样本生成装置,包括:
第一获取单元,用于获取待处理的日志数据;所述日志数据包括文本和所述文本的意图识别结果;
筛选单元,用于根据所述文本的意图识别结果,对所述日志数据进行数据筛选处理,得到低频意图数据;
预测单元,用于将所述低频意图数据、预设意图类别的标准文本输入文本对比模型进行相似度预测处理,得到所述低频意图数据对应的文本对比结果;所述文本对比模型为基于训练样本集对初始文本对比模型进行训练所得到的模型;所述训练样本集基于所述低频意图数据构建;
第一生成单元,用于根据所述文本对比结果与预设相似度阈值,生成低频意图样本。
第五方面,本申请实施例提供了一种意图识别模型的训练装置,包括:
第二生成单元,用于通过如第一方面所述的样本生成方法生成低频意图样本;
训练单元,用于将所述低频意图样本输入初始意图识别模型进行迭代训练,得到意图识别模型。
第六方面,本申请实施例提供了一种应用于数字人的意图识别装置,包括:
第二获取单元,用于获取用户输入的待识别文本;
识别单元,用于将所述待识别文本输入意图识别模型进行意图识别,得到用户意图;所述意图识别模型是通过将低频意图样本输入初始意图识别模型进行迭代训练所得到的;所述低频意图样本是通过如权利要求1-8任一项所述的样本生成方法所生成的;
展示单元,用于根据所述用户意图在所述数字人的系统中获取对应所述用户意图的目标文本,并对所述目标文本进行展示。
第七方面,本申请实施例提供了一种电子设备,包括:处理器;以及,被配置为存储计算机可执行指令的存储器,所述计算机可执行指令在被执行时使所述处理器执行如第一方面所述的样本生成方法,或者,如第二方面所述的意图识别模型的训练方法,或者,如第三方面所述的应用于数字人的意图识别方法。
第八方面,本申请实施例提供了一种计算机可读存储介质,用于存储计算机可执行指令,所述计算机可执行指令在被处理器执行时实现如第一方面所述的样本生成方法,或者,如第二方面所述的意图识别模型的训练方法,或者,如第三方面所述的应用于数字人的意图识别方法。
可以看出,在本申请实施例中,首先,获取待处理的日志数据;日志数据包括文本和文本的意图识别结果;其次,根据文本的意图识别结果,对日志数据进行数据筛选处理,得到低频意图数据;然后,将低频意图数据、预设意图类别的标准文本输入文本对比模型进行相似度预测处理,得到低频意图数据对应的文本对比结果;文本对比模型为基于训练样本集对初始文本对比模型进行训练所得到的模型;训练样本集基于低频意图数据构建;最后,根据文本对比结果与预设相似度阈值,生成低频意图样本。日志数据是一种随着时间变化不断增长的历史数据。即便低频意图数据在日志数据中的出现频率较低,在日志数据所对应的时间跨度足够长的情况下,可以从日志数据中筛选得到累计的大量低频意图数据,基于该大量低频意图数据可以生成数量足够用于训练初始文本对比模型的训练数据,且训练数据的数量可以随着日志数据的时间跨度增长而不断扩增。因此,在训练数据的数量足够多的情况下,通过训练后得到的文本对比模型进行相似度预测时的预测结果较为准确,进而,通过文本对比模型对低频意图数据和预设意图类别的标准文本进行相似度预测处理,可以确定低频意图数据中与预设意图类别的标准文本相似度较高的低频意图样本,在获取的日志数据随着时间变化不断增加的情况下,可以利用不断增长的日志数据和文本对比模型累计得到大量预设意图类别的低频意图样本,进而满足低频意图样本对应的意图识别模型的训练需求,提高低频意图的识别准确性。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图;
图1为本申请实施例提供的一种样本生成方法的处理流程图;
图2为本申请实施例提供的另一种样本生成方法的处理流程图;
图3为本申请实施例提供的一种文本对比模型的训练方式示意图;
图4为本申请实施例提供的一种样本生成方法的业务流程图;
图5为本申请实施例提供的一种意图识别模型的训练方法的处理流程图;
图6为本申请实施例提供的一种应用于数字人的意图识别方法的处理流程图;
图7为本申请实施例提供的一种样本生成装置示意图;
图8为本申请实施例提供的一种意图识别模型的训练装置示意图;
图9为本申请实施例提供的一种应用于数字人的意图识别装置示意图;
图10为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请实施例中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本说明书的一部分实施例,而不是全部的实施例。基于本申请实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请的保护范围。
实际应用中,用户的意图数量非常多,对于一部分高频意图,往往很容易获得充足的训练数据,可用于训练识别意图的意图识别模型,使得高频意图的识别准确性较高。但对于低频意图,不同的用户可能采用不同的表达方式来表达同一个意图,又低频意图的出现频率较低,故用于训练意图识别模型的训练数据较难获得且数量较少,不利于模型训练效果。在机器人坐席进行意图识别并自动应答的情况下,若忽略低频意图仅识别高频意图,会大大降低部分客户的用户体验,让该部分客户觉得机器人很“智障”,难以沟通。坐席可以是客服,也可以是其他可以对文本或语音做出回复的岗位或人员。
为了克服上述问题,本申请实施例提供了一种样本生成方法。
本申请提出的样本生成方法可由电子设备执行,具体可由电子设备中的处理器执行。此处所提到的电子设备可以是终端设备,比如智能手机、平板电脑、台式电脑、智能语音交互设备、可穿戴设备、机器人以及车载终端等等;或者,电子设备还可以是服务器,比如独立的物理服务器、由多个服务器组成的服务器集群或者能够进行云计算的云服务器。
下面将通过几个实施例具体介绍本申请提出的样本生成方法。
参照图1,为本申请实施例提供的一种样本生成方法的处理流程图。如图1所示,本申请实施例提供的样本生成方法具体可包括如下步骤:
步骤S102,获取待处理的日志数据;日志数据包括文本和文本的意图识别结果。
日志数据可以是在目标业务的运行过程中记录下来的与目标业务相关的历史数据。
文本可以是存在意图识别需求的自然语言文本。文本可以是用户输入的文本,可以是由语音转换得到的文本,还可以是通过其他方式获取的文本,本说明书不对文本的获取方式进行特殊限制。
在机器人自动应答的场景下,文本可以是客户向机器人提出的问题,例如:怎么查询账单?文本的意图识别结果,可以是机器人对文本进行意图识别之后得到的意图识别结果,例如,“如何查询账单?”的意图识别结果为“咨询账单查询方式”。
获取待处理的日志数据,可以是获取待处理的日志数据中的对话数据。对话数据可以包括客户提出的问题文本以及机器人对客户的应答文本。机器人可以预先配置有意图识别结果和应答文本之间的对应关系,则根据意图识别结果和应答文本之间的对应关系以及机器人对客户的应答文本,可以查询得到问题文本的意图识别结果。进而,可以将问题文本确定为日志数据中的文本,将问题文本的意图识别结果确定为日志数据中的该文本的意图识别结果。
示例性地,坐席系统中的日志数据是实际生产场景中产生的客户和坐席机器人交互的日志文本。坐席系统产生的日志数据量通常很大,且来源不一。获取的日志数据可以仅包括客户的聊天数据,排除掉推荐问、FAQ、多轮引擎等数据,剩下的数据则是单轮对话数据,例如:客户问:“如何提前还款”,机器人答“XXX”。因为机器人回答是和所识别的意图绑定的。所以最终拿出来的日志数据形式如表1所示。表1示出了部分日志数据。
表1
客户文本 | 机器人识别意图 |
如何提前还款 | 客户咨询如何提前还款 |
我想提前还款 | 客户咨询如何提前还款 |
另外,日志数据可以包括多条记录。在获得日志数据之后,为减少冗余,提高数据处理效率,可以去除日志数据中的重复数据。重复数据可以是客户文本完全一致的日志数据的多条记录。例如,日志数据包括:
记录1:客户文本“如何提前还款”,机器人识别意图“客户咨询如何提前还款”;
记录2:客户文本“如何提前还款”,机器人识别意图“客户咨询如何提前还款”;
记录3:客户文本“我想提前还款”,机器人识别意图“客户咨询如何提前还款”。
由于记录1与记录2的客户文本完全一致,故记录1与记录2可以确定为重复数据,可以删除掉记录1和记录2中的一者。
步骤S104,根据文本的意图识别结果,对日志数据进行数据筛选处理,得到低频意图数据。
具体实施时,可以根据文本的意图识别结果,确定文本的意图识别结果是否为预设的高频意图,若是,则从日志数据中删除掉该文本以及文本的意图识别结果;若否,则保留该文本以及文本的意图识别结果作为低频意图数据。
在一种实施方式中,根据文本的意图识别结果,对日志数据进行数据筛选处理,得到低频意图数据,包括:将日志数据输入高频意图分类模型,得到第一日志数据和第一日志数据的意图分类结果的置信度;第一日志数据的意图分类结果为预设高频意图;高频意图分类模型用于根据日志数据中文本的意图识别结果对日志数据进行意图分类处理;根据第一日志数据和第一日志数据的意图分类结果的置信度,对日志数据进行数据筛选处理,得到低频意图数据。
高频意图分类模型可以包括依次连接的预训练的语言模型、多层感知机以及归一化指数函数,即Softmax函数。预训练的语言模型的输出为多层感知机的输入;多层感知机的输出为归一化指数函数的输入。
预训练的语言模型包括且不限于:BERT(Bidirectional EncoderRepresentations from Transformers)模型,或者,RoBERTa(a Robustly Optimized BERTPretraining Approach)模型,等等。
其中,BERT模型是一种语言表征模型,用Transformer的双向编码器表示,BERT模型的训练过程可以分为预训练部分和模型微调部分,其中模型微调部分使用预训练好的BERT模型进行模型微调训练,广泛的应用于文本分类,文本匹配等任务。
预训练和模型微调可以通过如下示例来说明:假设已有A训练集,先用A训练集对网络进行预训练,在A任务上学会网络参数,然后保存以备后用,当来一个新的任务B,采取相同的网络结构,网络参数初始化的时候可以加载A学习好的参数,其他的高层参数随机初始化,之后用B任务的训练数据来训练网络,当加载的参数随着B任务的训练进行不断地改变,称为“fine-tuning(微调)”,即更好地把参数调整使得更适合当前的B任务。
RoBERTa模型和BERT模型类似,主要是在BERT基础上做了几点调整:1)训练时间更长,batch size更大,训练数据更多;2)移除了next predict loss;3)训练序列更长;4)动态调整掩码机制。因其在诸多场景下比BERT模型效果更好而广泛应用在NLP(NaturalLanguage Processing,自然语言处理)任务中。
通过设置高频意图分类模型包括依次连接的预训练的语言模型、多层感知机以及Softmax函数,可以实现对预训练的语言模型的模型微调,该训练方式下,当用于训练模型的样本数量较多时,模型的训练效果较好。由于日志数据的数据量极大且易获得,故高频意图分类模型的训练数据易获得,进而高频意图分类模型的训练效果较好,对高频意图的意图识别结果的准确率较高。
通过高频意图分类模型,可以根据日志数据中文本的意图识别结果对日志数据进行意图分类处理,得到意图分类结果为预设高频意图的第一日志数据以及第一日志数据的意图分类结果的置信度。
第一日志数据可以是日志数据中的一条记录,第一日志数据可以包括一个文本以及该文本的意图识别结果。具体地,第一日志数据可以包括一个客户提出的问题文本以及该问题文本的意图识别结果。
意图分类结果的置信度可以用于表征意图分类结果的准确性。置信度越高,说明意图分类结果的准确性越高。
预设高频意图可以包括多种预设的出现频度较高的意图,例如,“客户咨询预设问题1”,“客户咨询预设问题2”,“客户投诉”,等等。则意图分类结果为预设高频意图可以是,意图分类结果为多种预设的出现频度较高的意图中的一者。
在一种实施方式中,根据第一日志数据和第一日志数据的意图分类结果的置信度,对日志数据进行数据筛选处理,得到低频意图数据,包括:根据第一日志数据的意图分类结果的置信度与预设置信度阈值的比较结果,确定高频意图数据;将日志数据中的高频意图数据删除,得到低频意图数据。
若第一日志数据的意图分类结果的置信度大于预设置信度阈值,说明第一日志数据的意图分类结果的准确性较高,可以将第一日志数据确定为高频意图数据。
若第一日志数据的意图分类结果的置信度小于等于预设置信度阈值,说明第一日志数据的意图分类结果的准确性较低,可以将第一日志数据不属于高频意图数据。通过设置置信度阈值,可以从日志数据中较为精确地筛选出高频意图数据。
将日志数据中的高频意图数据删除,得到低频意图数据。需要注意的是,此处的低频意图数据不是出现频度较低的意图数据,而是日志数据中除高频意图数据外的意图数据。
例如,日志数据包括5条记录:记录1、记录2、记录3、记录4以及记录5,其中,记录1、记录3以及记录4为高频意图数据,则将日志数据中的记录1、记录3以及记录4删除,得到记录2和记录5,将记录2和记录5确定为低频意图数据。
步骤S106,将低频意图数据、预设意图类别的标准文本输入文本对比模型进行相似度预测处理,得到低频意图数据对应的文本对比结果;文本对比模型为基于训练样本集对初始文本对比模型进行训练所得到的模型;训练样本集基于低频意图数据构建。
在步骤S106执行之前,可以将低频意图数据输入初始文本对比模型,对初始文本对比模型进行训练,得到文本对比模型。
初始文本对比模型可以的各个待训练参数均取初始值的待训练模型。
文本对比模型可以是对比无监督学习模型。
日志数据中的低频意图数据是无法利用现有模型标签的。此处可以将低频意图数据当无标签数据处理。
自监督学习(Self-supervised Learning)属于无监督学习范式的一种,特点是不需要人工标注的类别标签信息,直接利用数据本身作为监督信息,来学习样本数据的特征表达,并用于下游任务。
对比学习(Contrastive Learning)是自监督学习的一种,是通过将数据分别与正例样本和负例样本在特征空间进行对比,来学习样本的特征表示。其训练的核心是拉近相似样本的距离,拉远不相干样本的距离。
对比学习的主要思想是拉近相似样本,推开非相似样本,即构建相似样本对(xi,xi +)和非相似样本对(xi,xj +)。
具体实施时,可以将低频意图数据确定为无标签样本;将无标签样本输入初始文本对比模型,对初始文本对比模型进行迭代训练,得到文本对比模型。
在一种实施方式中,初始文本对比模型包括依次连接的编码器和相似度预测模块;编码器的输出为相似度预测模块的输入;编码器用于根据低频意图数据进行编码处理,得到低频意图数据对应的相似样本对和非相似样本对;相似度预测模块用于根据低频意图数据对应的相似样本对和非相似样本对进行迭代训练。
在构建正非相似样本对的时候,采用这样一种策略:利用编码器的dropout机制,基于目标记录中的问题文本,生成该问题文本对应的两个文本,该两个文本的语义完全相同,编码形式不同。进而可以将该两个文本确定为目标记录对应的相似文本对。另外,基于低频意图数据中除目标记录外的每条记录中的问题文本,生成该问题文本对应的一个文本。进而可以基于每条记录中的问题文本对应的一个文本与前述的目标记录中的问题文本对应的两个文本中的一者,生成多个非相似文本对。
以低频意图数据所包括的记录数量batchsize=64为例,一个batchsize中有2个相似样本,62个非相似样本,形成1个相似样本对,62个非相似样本对。
进而根据低频意图数据对应的相似样本对和非相似样本,可以对相似度预测模块进行迭代训练。
示例性地,损失函数如下所示:
其中,li用于表示损失函数值。τ用于表示softmax的温度超参,仅用来控制预测的随机性。hi和hi +和hj +分别是相似样本对(xi,xi +)和非相似样本对(xi,xj +)中的xi、xi +以及xj +的编码表示。N可以是预设数值。i和j的取值可以基于相似样本对和非相似样本对的角标确定。
Sim(h1,h2)可以用于表示两个向量h1与h2的相似度。相似度可以采用余弦相似来计算。
在每次迭代训练之后都可以计算得到该次训练对应的损失函数值,若损失函数值小于等于预设阈值,则停止训练,得到训练完成的相似度预测模块,即得到训练完成的文本对比模型。
通过以上的方法,即可得到一个训练完成的文本对比模型,其意义在于可以基于无标签样本进行模型训练,使得训练完成的文本对比模型具有判断两个文本是否是相似的能力,由于日志数据是一种可以随着时间变化而不断扩充的历史数据,在时间跨度足够长的情况下,日志数据的数据量很大且易获得,故用于训练文本对比模型的低频意图数据的数据量很大,采用无监督学习亦可达到相对优良的效果。
在一种实施方式中,低频意图数据包括目标文本和非目标文本;编码器具体用于:根据目标文本进行编码处理,得到目标文本对应的目标编码结果和相似编码结果,以及,根据非目标文本进行编码处理,得到非目标文本对应的编码结果;将目标文本对应的目标编码结果和相似编码结果确定为低频意图数据对应的相似样本对;将目标文本对应的目标编码结果和非目标文本对应的编码结果确定为低频意图数据对应的非相似样本对。
低频意图数据包括目标文本和非目标文本。目标文本的数量可以是一个。非目标文本的数量可以是一个也可以是多个。例如,低频意图数据包括记录1、记录2、记录3、记录4以及记录5。其中,记录1包括目标文本和目标文本的意图识别结果;记录2包括非目标文本1和非目标文本1的意图识别结果;记录3包括非目标文本2和非目标文本2的意图识别结果;记录4包括非目标文本3和非目标文本3的意图识别结果;记录5包括非目标文本4和非目标文本4的意图识别结果。
通过编码器可以对输入的低频意图数据中的记录1所包括的目标文本进行编码处理,得到目标文本对应的目标编码结果和相似编码结果,以及,同一时间,可以通过编码器对输入的低频意图数据中的记录2-5所包括的非目标文本1-4进行编码处理,得到非目标文本1-4对应的编码结果。
接着,可以将记录1对应的目标编码结果和相似编码结果确定为低频意图数据对应的相似样本对,将记录1对应的目标编码结果和记录2对应的编码结果确定为一个非相似样本对,将记录1对应的目标编码结果和记录3对应的编码结果确定为一个非相似样本对,将记录1对应的目标编码结果和记录4对应的编码结果确定为一个非相似样本对,将记录1对应的目标编码结果和记录5对应的编码结果确定为一个非相似样本对。综上共生成了一个相似样本对和4个非相似样本对。
在一种实施方式中,编码器包括依次连接的注意力层和全连接层;注意力层的输出为全连接层的输入;注意力层用于根据预设的第一随机失活概率和低频意图数据进行第一编码处理,得到中间编码数据;全连接层用于根据预设的第二随机失活概率和中间编码数据进行转换处理,得到低频意图数据对应的相似样本对和非相似样本对。
具体实施时,可以预先配置注意力层的第一随机失活概率,以及,可以预先配置全连接层的第二随机失活概率。
第一随机失活概率的作用将在transformer的每一层都产生作用,从而得到同一份文本的两个不同的语义表示,将同一份文本输入两次,则得到两个语义完全相同的相似样本对。
另外,因为相似样本对的长度必定一致,而非相似样本对的长度却不相同,为了消除模型将文本长度作为数据特征从而带来的影响,在训练时采取标点符号填充的方式进行长度扩充,因为逗号的语义特征最小,近乎忽略不计,所以采用将逗号随机插入的方法加入到相对较短的文本中,弥补长度差距带来的影响。
在获得文本对比模型后,先确定需要召回的预设意图类别,该预设意图类别可以是一种或多种低频意图类别。
在一种实施方式中,低频意图数据包括多个低频意图文本;文本对比模型,具体用于:将每个低频意图文本和预设意图类别的标准文本确定为每个低频意图文本对应的相似样本对;对每个低频意图文本对应的相似样本对进行相似度预测处理,得到每个低频意图文本的相似度评分;将每个低频意图文本的相似度评分确定为低频意图数据对应的文本对比结果。
将每个低频意图文本和预设意图类别的标准文本确定为每个低频意图文本对应的相似样本对。对于每个预设意图类别,将其中的一个或多个标准问作为文本对比模型输入的xi文本,遍历低频意图数据作为xi+,以形成(xi,xi+)数据对进行预测。预测结果为一个0-1的相似度打分。
对每个低频意图文本对应的相似样本对进行相似度预测处理,得到每个低频意图文本的相似度评分;将每个低频意图文本的相似度评分确定为低频意图数据对应的文本对比结果。
步骤S110,根据文本对比结果与预设相似度阈值,生成低频意图样本。
预设相似度阈值可以是一个预设数值,预设相似度阈值可以基于预先配置有阈值变化规则进行一次或多次阈值更新。
例如,预设相似度阈值可以是95%,阈值变化规则可以是每次进行阈值更新时,对当前的相似度阈值减去5%,得到更新后的相似度阈值。
根据文本对比结果与预设相似度阈值,生成低频意图样本,可以是将相似度评分小于预设相似度阈值的低频意图文本确定为低频意图样本,也可以是将相似度评分小于预设相似度阈值的低频意图文本确定为相似样本数据,对相似样本数据进行质检,将质检通过的相似样本数据确定为低频意图样本。相似样本数据用于表示需要进行质检以确定其是否为低频意图样本的候选样本数据。质检方式可以是人工质检,也可以是按照预设质检规则进行质检处理。
在一种实施方式中,根据文本对比结果与预设相似度阈值,生成低频意图样本,包括:根据预设相似度阈值与文本对比结果的比较结果,确定预设相似度阈值对应的相似样本数据的数量;若低频意图数据对应的相似样本数据的数量小于预设数量阈值,则重复执行将当前的相似度阈值减去预设降低值以得到更新的相似度阈值,以及,根据更新的相似度阈值与文本对比结果的比较结果,确定更新的相似度阈值对应的相似样本数据的数量的操作,直至更新的相似度阈值满足预设停止条件;预设停止条件为样本数量大于等于预设数量阈值;样本数量为预设相似度阈值对应的相似样本数据的数量与各个更新的相似度阈值对应的相似样本数据的数量之和;将预设相似度阈值对应的相似样本数据和各个更新的相似度阈值对应的相似样本数据中的每个样本数据确定为每个样本数据对应的低频意图样本。
例如,预设数量阈值为100,预设相似度阈值的初始值为99%,根据99%与文本对比结果的比较结果,确定99%对应的相似样本数据的数量为10个,小于预设数量阈值100,则进行一次阈值更新:当前的预设相似度阈值为99%,减去预设降低值5%以得到更新后的相似度阈值94%,以及,根据94%与文本对比结果的比较结果,确定94%对应的相似样本数据的数量为30个,10+30=40,40小于预设数量阈值100,则进行一次阈值更新;当前的相似度阈值为94%,减去预设降低值5%以得到更新后的相似度阈值89%,以及,根据89%与文本对比结果的比较结果,确定89%对应的相似样本数据的数量为70个,10+30+70=110>100,满足预设停止条件,不再进行阈值更新。进而,可以将该110个相似样本数据中的每个样本数据确定为一个低频意图样本。
预设相似度阈值的初始值可以数值较高,例如,95%。初始时将阈值设高,严格的召回候选数据并进行质检,将合格的数据作为此低频意图的标准问对应的相似问数据。当高阈值下的相似问数据被全部打标分析后,逐步降低预设相似度阈值,逐步召回新的候选数据供进行质检,并且排除掉已经质检过的数据;重复以上工作,获取低频意图的相似问数据。
通过重复执行将当前的相似度阈值减去预设降低值以得到更新的相似度阈值,以及,根据更新的相似度阈值与文本对比结果的比较结果,确定更新的相似度阈值对应的相似样本数据的数量的操作,直至更新的相似度阈值满足预设停止条件的操作,直至更新的相似度阈值满足预设停止条件,可以减少质检的工作量,提高质检效率。
由于日志数据可以随着时间变化不断扩增,则低频意图样本的数量也可以随着日志数据的扩增而不断增加。基于海量的日志数据和文本对比模型可以累计得到预设意图类别的大量样本,该预设意图类别可以是一种低频意图的意图类别。在预设意图类别的低频意图样本的数量足够多的情况下,可以基于该预设意图类别的低频意图样本对初始意图识别模型进行训练,得到意图识别模型,且该意图识别模型对于预设意图类别的低频意图的识别准确率较高。
在机器人自动应答的场景中,机器人坐席可以基于训练后的意图识别模型对文本进行意图识别,该意图识别模型可以是利用图1实施例所提供的样本生成方法生成的低频意图样本对初始意图识别模型进行训练之后所得到的意图识别模型,由于低频意图样本的数量足够多,该意图识别模型的训练效果较好,机器人坐席利用该意图识别模型可以准确地识别用户的低频意图,进而可以基于准确识别的低频意图对用户做出恰当的应答,提高了用户的满意度。
在如图1所示的实施例中,首先,获取待处理的日志数据;日志数据包括文本和文本的意图识别结果;其次,根据文本的意图识别结果,对日志数据进行数据筛选处理,得到低频意图数据;然后,将低频意图数据、预设意图类别的标准文本输入文本对比模型进行相似度预测处理,得到低频意图数据对应的文本对比结果;文本对比模型为基于训练样本集对初始文本对比模型进行训练所得到的模型;训练样本集基于低频意图数据构建;最后,根据文本对比结果与预设相似度阈值,生成低频意图样本。日志数据是一种随着时间变化不断增长的历史数据。即便低频意图数据在日志数据中的出现频率较低,在日志数据所对应的时间跨度足够长的情况下,可以从日志数据中筛选得到累计的大量低频意图数据,基于该大量低频意图数据可以生成数量足够用于训练初始文本对比模型的训练数据,且训练数据的数量可以随着日志数据的时间跨度增长而不断扩增。因此,在训练数据的数量足够多的情况下,通过训练后得到的文本对比模型进行相似度预测时的预测结果较为准确,进而,通过文本对比模型对低频意图数据和预设意图类别的标准文本进行相似度预测处理,可以确定低频意图数据中与预设意图类别的标准文本相似度较高的低频意图样本,在获取的日志数据随着时间变化不断增加的情况下,可以利用不断增长的日志数据和文本对比模型累计得到大量预设意图类别的低频意图样本,进而满足低频意图样本对应的意图识别模型的训练需求,提高低频意图的识别准确性。
出于与图1的方法实施例相同的技术构思,本申请实施例还提供另一种样本生成方法。图2为本申请实施例提供的另一种样本生成方法的处理流程图。
如图2所示,获取模型阶段包括步骤S202至步骤S204。
步骤S202,无监督对比学习训练。
步骤S202可以参照图1实施例中的“文本对比模型为基于训练样本集对初始文本对比模型进行训练所得到的模型;训练样本集基于低频意图数据构建”的对应说明部分。
步骤S204,获得对比学习模型。
召回数据阶段包括步骤S206至步骤S210。
步骤S206,调整阈值精召回。
阈值可以是预设相似度阈值。步骤S206中的调整阈值可以是设置预设相似度阈值的初始值。精召回可以是基于文本对比结果与预设相似度阈值的比较结果确定低频意图文本是否为待质检的相似样本数据。
步骤S208,人工质检是否合格。
若合格,则结束人工质检,若不合格,则执行步骤S210。
步骤S210,调整阈值宽召回。
步骤S210中的调整阈值可以是将当前的相似度阈值减去预设降低值以得到更新的相似度阈值。宽召回可以是基于文本对比结果与当前的相似度阈值的比较结果确定低频意图文本是否为待质检的相似样本数据。
步骤S206、步骤S208以及步骤S210可以参照图1实施例中的步骤S108的对应说明部分。
出于与图1的方法实施例相同的技术构思,本申请实施例还提供一种文本对比模型的训练方法。图3为本申请实施例提供的一种文本对比模型的训练方式示意图。
如图3所示,一份Batchsize数据可以包括n个样本数据:样本数据1,即图3中的样本数据301,样本数据2,即图3中的样本数据302……样本数据n。将n个样本数据输入编码器303进行编码处理。编码器303可以基于样本数据301生成x样本304以及相似样本305,该x样本304和相似样本305是同一个样本数据通过不同方式编码后得到两个语义相同格式不同的样本。编码器303可以基于样本数据302生成非相似样本1,即图3中的非相似样本306……编码器303可以基于样本数据n生成非相似样本n。x样本304和相似样本305可以构成一个相似样本对。x样本304和非相似样本306可以构成一个非相似样本对。
基于相似样本对和多个非相似样本对,可以对初始文本对比模型进行迭代训练,得到文本对比模型。
出于与图1的方法实施例相同的技术构思,本申请实施例还提供一种应用于机器人领域的样本生成方法。图4为本申请实施例提供的一种样本生成方法的业务流程图。
步骤S402,机器人上线。
机器人可以是具有自动应答能力的机器人,该机器人可以调用意图识别模型对文本进行意图识别,得到用户意图,进而根据用户意图进行自动应答。
机器人上线可以是机器人进入工作状态,机器人在工作状态下可以针对获取的文本进行自动应答。
步骤S404,日志分析。
日志可以是机器人的工作日志数据。日志包括且不限于:机器人所接收的待应答的文本,机器人对文本进行意图识别的记录数据,以及机器人的应答记录数据,等等。
步骤S406,算法工具召回相似问数据。
步骤S408,人工标注并质检。
步骤S406以及步骤S408可以参照图1实施例的步骤S108的对应说明部分。
步骤S410,新标数据加入模型,迭代训练。
模型可以是意图识别模型,该意图识别模型可以用于识别文本是否包含低频意图。
步骤S412,新机器人上线,继续迭代。
出于与上述各样本生成方法实施例相同的技术构思,本申请实施例还提供了一种意图识别模型的训练方法。图5为本申请实施例提供的一种意图识别模型的训练方法的处理流程图。
步骤S502,通过样本生成方法生成低频意图样本。
具体地,低频意图样本可以是通过本说明中各样本生成方法所提供的样本生成方法所生成的。
步骤S504将低频意图样本输入初始意图识别模型进行迭代训练,得到意图识别模型。
初始意图识别模型可以是各个待训练参数均取初始值的尚未进行模型微调的低频意图分类模型。该低频意图分类模型可以是预训练的语言模型。预训练的语言模型包括且不限于:BERT(Bidirectional Encoder Representations from Transformers)模型,或者,RoBERTa(a Robustly Optimized BERT Pretraining Approach)模型,等等。
在进行迭代训练之后所得到的意图识别模型可以用于识别文本是否包含低频意图。
在如图5所示的意图识别模型的训练方法实施例中,通过上述样本生成方法实施例所提供的样本生成方法生成低频意图样本;将低频意图样本输入初始意图识别模型进行迭代训练,得到意图识别模型。日志数据是一种随着时间变化不断增长的历史数据。即便低频意图数据在日志数据中的出现频率较低,在日志数据所对应的时间跨度足够长的情况下,可以从日志数据中筛选得到累计的大量低频意图数据,基于该大量低频意图数据可以生成数量足够用于训练初始文本对比模型的训练数据,且训练数据的数量可以随着日志数据的时间跨度增长而不断扩增。因此,在训练数据的数量足够多的情况下,通过训练后得到的文本对比模型进行相似度预测时的预测结果较为准确,进而,通过文本对比模型对低频意图数据和预设意图类别的标准文本进行相似度预测处理,可以确定低频意图数据中与预设意图类别的标准文本相似度较高的低频意图样本,在获取的日志数据随着时间变化不断增加的情况下,可以利用不断增长的日志数据和文本对比模型累计得到大量预设意图类别的低频意图样本,进而利用该预设意图类别的低频意图样本对初始意图识别模型进行迭代训练,可以取得较好的训练效果,使得训练之后得到的意图识别模型对低频意图的识别准确性较高。
出于与上述各样本生成方法实施例相同的技术构思,本申请实施例还提供了一种应用于数字人的意图识别方法。图6为本申请实施例提供的一种应用于数字人的意图识别方法的处理流程图。
步骤S602,获取用户输入的待识别文本。
步骤S604,将待识别文本输入意图识别模型进行意图识别,得到用户意图;意图识别模型是通过将低频意图样本输入初始意图识别模型进行迭代训练所得到的;低频意图样本是通过样本生成方法所生成的。
具体地,低频意图样本可以是通过本说明中各样本生成方法所提供的样本生成方法所生成的。初始意图识别模型和意图识别模型可以参照如图5所示的意图识别模型的训练方法实施例的对应说明部分。
步骤S606,根据用户意图在数字人的系统中获取对应用户意图的目标文本,并对目标文本进行展示。
数字人的系统中可以存储有预先配置的预设用户意图与预设文本的对应关系,根据步骤S604中得到的用户意图和预设用户意图与预设文本的对应关系,可以在数字人的系统中查询得到对应用户意图的目标文本并展示。
在数字人场景中,预设用户意图可以是预先配置的低频意图,例如,“提前还款”,预设文本可以是数字人的系统针对该低频意图预先确定的应答文本,例如,“您可以按照xxx向xxx预约该项服务”。
如图6所示的应用于数字人的意图识别方法实施例中,首先,获取用户输入的待识别文本;其次,将待识别文本输入意图识别模型进行意图识别,得到用户意图;意图识别模型是通过将低频意图样本输入初始意图识别模型进行迭代训练所得到的;低频意图样本是通过前述样本生成方法实施例所提供的样本生成方法所生成的;最后,根据用户意图在数字人的系统中获取对应用户意图的目标文本,并对目标文本进行展示。日志数据是一种随着时间变化不断增长的历史数据。即便低频意图数据在日志数据中的出现频率较低,在日志数据所对应的时间跨度足够长的情况下,可以从日志数据中筛选得到累计的大量低频意图数据,基于该大量低频意图数据可以生成数量足够用于训练初始文本对比模型的训练数据,且训练数据的数量可以随着日志数据的时间跨度增长而不断扩增。因此,在训练数据的数量足够多的情况下,通过训练后得到的文本对比模型进行相似度预测时的预测结果较为准确,进而,通过文本对比模型对低频意图数据和预设意图类别的标准文本进行相似度预测处理,可以确定低频意图数据中与预设意图类别的标准文本相似度较高的低频意图样本,在获取的日志数据随着时间变化不断增加的情况下,可以利用不断增长的日志数据和文本对比模型累计得到大量预设意图类别的低频意图样本,进而利用该预设意图类别的低频意图样本对初始意图识别模型进行迭代训练,可以取得较好的训练效果,使得训练之后得到的意图识别模型对低频意图的识别准确性较高,进而利用识别得到的准确的用户意图可以从数字人的系统中获取符合用户意图的目标文本并展示,提高了用户体验。
在上述的实施例中,提供了一种样本生成方法,与之相对应的,还提供了一种样本生成装置,下面结合附图进行说明。
图7为本申请实施例提供的一种样本生成装置示意图。
本实施例提供一种样本生成装置,包括:
第一获取单元701,用于获取待处理的日志数据;日志数据包括文本和文本的意图识别结果;
筛选单元702,用于根据文本的意图识别结果,对日志数据进行数据筛选处理,得到低频意图数据;
预测单元703,用于将低频意图数据、预设意图类别的标准文本输入文本对比模型进行相似度预测处理,得到低频意图数据对应的文本对比结果;文本对比模型为基于训练样本集对初始文本对比模型进行训练所得到的模型;训练样本集基于低频意图数据构建;
第一生成单元704,用于根据文本对比结果与预设相似度阈值,生成低频意图样本。
可选地,筛选单元702,包括:
分类子单元,用于将日志数据输入高频意图分类模型,得到第一日志数据和第一日志数据的意图分类结果的置信度;第一日志数据的意图分类结果为预设高频意图;高频意图分类模型用于根据日志数据中文本的意图识别结果对日志数据进行意图分类处理;
筛选子单元,用于根据第一日志数据和第一日志数据的意图分类结果的置信度,对日志数据进行数据筛选处理,得到低频意图数据。
可选地,筛选子单元,具体用于:
根据第一日志数据的意图分类结果的置信度与预设置信度阈值的比较结果,确定高频意图数据;
将日志数据中的高频意图数据删除,得到低频意图数据。
可选地,初始文本对比模型包括依次连接的编码器和相似度预测模块;编码器的输出为相似度预测模块的输入;
编码器用于根据低频意图数据进行编码处理,得到低频意图数据对应的相似样本对和非相似样本对;
相似度预测模块用于根据低频意图数据对应的相似样本对和非相似样本对进行迭代训练。
可选地,低频意图数据包括目标文本和非目标文本;
编码器具体用于:
根据目标文本进行编码处理,得到目标文本对应的目标编码结果和相似编码结果,以及,根据非目标文本进行编码处理,得到非目标文本对应的编码结果;
将目标文本对应的目标编码结果和相似编码结果确定为低频意图数据对应的相似样本对;将目标文本对应的目标编码结果和非目标文本对应的编码结果确定为低频意图数据对应的非相似样本对。
可选地,编码器包括依次连接的注意力层和全连接层;注意力层的输出为全连接层的输入;
注意力层用于根据预设的第一随机失活概率和低频意图数据进行第一编码处理,得到中间编码数据;
全连接层用于根据预设的第二随机失活概率和中间编码数据进行转换处理,得到低频意图数据对应的相似样本对和非相似样本对。
可选地,低频意图数据包括多个低频意图文本;文本对比模型,具体用于:
将每个低频意图文本和预设意图类别的标准文本确定为每个低频意图文本对应的相似样本对;
对每个低频意图文本对应的相似样本对进行相似度预测处理,得到每个低频意图文本的相似度评分;将每个低频意图文本的相似度评分确定为低频意图数据对应的文本对比结果。
可选地,第一生成单元704,具体用于:
根据预设相似度阈值与文本对比结果的比较结果,确定预设相似度阈值对应的相似样本数据的数量;
若低频意图数据对应的相似样本数据的数量小于预设数量阈值,则重复执行将当前的相似度阈值减去预设降低值以得到更新的相似度阈值,以及,根据更新的相似度阈值与文本对比结果的比较结果,确定更新的相似度阈值对应的相似样本数据的数量的操作,直至更新的相似度阈值满足预设停止条件;预设停止条件为样本数量大于等于预设数量阈值;样本数量为预设相似度阈值对应的相似样本数据的数量与各个更新的相似度阈值对应的相似样本数据的数量之和;
将预设相似度阈值对应的相似样本数据和各个更新的相似度阈值对应的相似样本数据中的每个样本数据确定为每个样本数据对应的低频意图样本。
本申请实施例所提供的样本生成装置包括:第一获取单元、筛选单元、预测单元以及第一生成单元,其中,第一获取单元,用于获取待处理的日志数据;日志数据包括文本和文本的意图识别结果;筛选单元,用于根据文本的意图识别结果,对日志数据进行数据筛选处理,得到低频意图数据;预测单元,用于将低频意图数据、预设意图类别的标准文本输入文本对比模型进行相似度预测处理,得到低频意图数据对应的文本对比结果;文本对比模型为基于训练样本集对初始文本对比模型进行训练所得到的模型;训练样本集基于低频意图数据构建;第一生成单元,用于根据文本对比结果与预设相似度阈值,生成低频意图样本。日志数据是一种随着时间变化不断增长的历史数据。即便低频意图数据在日志数据中的出现频率较低,在日志数据所对应的时间跨度足够长的情况下,可以从日志数据中筛选得到累计的大量低频意图数据,基于该大量低频意图数据可以生成数量足够用于训练初始文本对比模型的训练数据,且训练数据的数量可以随着日志数据的时间跨度增长而不断扩增。因此,在训练数据的数量足够多的情况下,通过训练后得到的文本对比模型进行相似度预测时的预测结果较为准确,进而,通过文本对比模型对低频意图数据和预设意图类别的标准文本进行相似度预测处理,可以确定低频意图数据中与预设意图类别的标准文本相似度较高的低频意图样本,在获取的日志数据随着时间变化不断增加的情况下,可以利用不断增长的日志数据和文本对比模型累计得到大量预设意图类别的低频意图样本,进而满足低频意图样本对应的意图识别模型的训练需求,提高低频意图的识别准确性。
在上述的实施例中,提供了一种意图识别模型的训练方法,与之相对应的,还提供了一种意图识别模型的训练装置,下面结合附图进行说明。
图8为本申请实施例提供的一种意图识别模型的训练装置示意图。
本实施例提供一种意图识别模型的训练装置,包括:
第二生成单元801,用于通过样本生成方法生成低频意图样本;
训练单元802,用于将所述低频意图样本输入初始意图识别模型进行迭代训练,得到意图识别模型。
本申请实施例提供的意图识别模型的训练装置包括第二生成单元和训练单元,其中,第二生成单元用于通过上述样本生成方法实施例所提供的样本生成方法生成低频意图样本;训练单元用于将低频意图样本输入初始意图识别模型进行迭代训练,得到意图识别模型。日志数据是一种随着时间变化不断增长的历史数据。即便低频意图数据在日志数据中的出现频率较低,在日志数据所对应的时间跨度足够长的情况下,可以从日志数据中筛选得到累计的大量低频意图数据,基于该大量低频意图数据可以生成数量足够用于训练初始文本对比模型的训练数据,且训练数据的数量可以随着日志数据的时间跨度增长而不断扩增。因此,在训练数据的数量足够多的情况下,通过训练后得到的文本对比模型进行相似度预测时的预测结果较为准确,进而,通过文本对比模型对低频意图数据和预设意图类别的标准文本进行相似度预测处理,可以确定低频意图数据中与预设意图类别的标准文本相似度较高的低频意图样本,在获取的日志数据随着时间变化不断增加的情况下,可以利用不断增长的日志数据和文本对比模型累计得到大量预设意图类别的低频意图样本,进而利用该预设意图类别的低频意图样本对初始意图识别模型进行迭代训练,可以取得较好的训练效果,使得训练之后得到的意图识别模型对低频意图的识别准确性较高。
在上述的实施例中,提供了一种应用于数字人的意图识别方法,与之相对应的,还提供了一种应用于数字人的意图识别装置,下面结合附图进行说明。
图9为本申请实施例提供的一种应用于数字人的意图识别装置示意图。
本实施例提供一种应用于数字人的意图识别装置,包括:
第二获取单元901,用于获取用户输入的待识别文本;
识别单元902,用于将待识别文本输入意图识别模型进行意图识别,得到用户意图;意图识别模型是通过将低频意图样本输入初始意图识别模型进行迭代训练所得到的;低频意图样本是通过如权利要求1-8任一项的样本生成方法所生成的;
展示单元903,用于根据用户意图在数字人的系统中获取对应用户意图的目标文本,并对目标文本进行展示。
本申请实施例提供的应用于数字人的意图识别装置包括第二获取单元、识别单元以及展示单元,其中,第二获取单元用于获取用户输入的待识别文本;识别单元用于将待识别文本输入意图识别模型进行意图识别,得到用户意图;意图识别模型是通过将低频意图样本输入初始意图识别模型进行迭代训练所得到的;低频意图样本是通过前述样本生成方法实施例所提供的样本生成方法所生成的;展示单元用于根据用户意图在数字人的系统中获取对应用户意图的目标文本,并对目标文本进行展示。日志数据是一种随着时间变化不断增长的历史数据。即便低频意图数据在日志数据中的出现频率较低,在日志数据所对应的时间跨度足够长的情况下,可以从日志数据中筛选得到累计的大量低频意图数据,基于该大量低频意图数据可以生成数量足够用于训练初始文本对比模型的训练数据,且训练数据的数量可以随着日志数据的时间跨度增长而不断扩增。因此,在训练数据的数量足够多的情况下,通过训练后得到的文本对比模型进行相似度预测时的预测结果较为准确,进而,通过文本对比模型对低频意图数据和预设意图类别的标准文本进行相似度预测处理,可以确定低频意图数据中与预设意图类别的标准文本相似度较高的低频意图样本,在获取的日志数据随着时间变化不断增加的情况下,可以利用不断增长的日志数据和文本对比模型累计得到大量预设意图类别的低频意图样本,进而利用该预设意图类别的低频意图样本对初始意图识别模型进行迭代训练,可以取得较好的训练效果,使得训练之后得到的意图识别模型对低频意图的识别准确性较高,进而利用识别得到的准确的用户意图可以从数字人的系统中获取符合用户意图的目标文本并展示,提高了用户体验。
对应上述描述的一种样本生成方法,或者,对应上述描述的一种意图识别模型的训练方法,或者,对应上述描述的一种应用于数字人的意图识别方法,基于相同的技术构思,本申请实施例还提供一种电子设备,该电子设备用于执行上述提供的样本生成方法、意图识别模型的训练方法以及应用于数字人的意图识别方法中的一者或多者,图10为本申请实施例提供的一种电子设备的结构示意图。
如图10所示,电子设备可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上的处理器1001和存储器1002,存储器1002中可以存储有一个或一个以上存储应用程序或数据。其中,存储器1002可以是短暂存储或持久存储。存储在存储器1002的应用程序可以包括一个或一个以上模块(图示未示出),每个模块可以包括电子设备中的一系列计算机可执行指令。更进一步地,处理器1001可以设置为与存储器1002通信,在电子设备上执行存储器1002中的一系列计算机可执行指令。电子设备还可以包括一个或一个以上电源1003,一个或一个以上有线或无线网络接口1004,一个或一个以上输入/输出接口1005,一个或一个以上键盘1006等。
在一个具体的实施例中,电子设备包括有存储器,以及一个或一个以上的程序,其中一个或者一个以上程序存储于存储器中,且一个或者一个以上程序可以包括一个或一个以上模块,且每个模块可以包括对电子设备中的一系列计算机可执行指令,且经配置以由一个或者一个以上处理器执行该一个或者一个以上程序包含用于进行以下计算机可执行指令:
获取待处理的日志数据;日志数据包括文本和文本的意图识别结果;
根据文本的意图识别结果,对日志数据进行数据筛选处理,得到低频意图数据;
将低频意图数据、预设意图类别的标准文本输入文本对比模型进行相似度预测处理,得到低频意图数据对应的文本对比结果;文本对比模型为基于训练样本集对初始文本对比模型进行训练所得到的模型;训练样本集基于低频意图数据构建;
根据文本对比结果与预设相似度阈值,生成低频意图样本。
在另一个具体的实施例中,电子设备包括有存储器,以及一个或一个以上的程序,其中一个或者一个以上程序存储于存储器中,且一个或者一个以上程序可以包括一个或一个以上模块,且每个模块可以包括对电子设备中的一系列计算机可执行指令,且经配置以由一个或者一个以上处理器执行该一个或者一个以上程序包含用于进行以下计算机可执行指令:
通过样本生成方法生成低频意图样本;
将低频意图样本输入初始意图识别模型进行迭代训练,得到意图识别模型。
在又一个具体的实施例中,电子设备包括有存储器,以及一个或一个以上的程序,其中一个或者一个以上程序存储于存储器中,且一个或者一个以上程序可以包括一个或一个以上模块,且每个模块可以包括对电子设备中的一系列计算机可执行指令,且经配置以由一个或者一个以上处理器执行该一个或者一个以上程序包含用于进行以下计算机可执行指令:
获取用户输入的待识别文本;
将待识别文本输入意图识别模型进行意图识别,得到用户意图;意图识别模型是通过将低频意图样本输入初始意图识别模型进行迭代训练所得到的;低频意图样本是通过样本生成方法所生成的;
根据用户意图在数字人的系统中获取对应用户意图的目标文本,并对目标文本进行展示。
对应上述描述的一种样本生成方法,或者,对应上述描述的一种意图识别模型的训练方法,或者,对应上述描述的一种应用于数字人的意图识别方法,基于相同的技术构思,本申请实施例还提供一种计算机可读存储介质。
在一个具体的实施例中,计算机可读存储介质,用于存储计算机可执行指令,计算机可执行指令在被处理器执行时实现以下流程:
获取待处理的日志数据;日志数据包括文本和文本的意图识别结果;
根据文本的意图识别结果,对日志数据进行数据筛选处理,得到低频意图数据;
将低频意图数据、预设意图类别的标准文本输入文本对比模型进行相似度预测处理,得到低频意图数据对应的文本对比结果;文本对比模型为基于训练样本集对初始文本对比模型进行训练所得到的模型;训练样本集基于低频意图数据构建;
根据文本对比结果与预设相似度阈值,生成低频意图样本。
在另一个具体的实施例中,计算机可读存储介质,用于存储计算机可执行指令,计算机可执行指令在被处理器执行时实现以下流程:
通过样本生成方法生成低频意图样本;
将低频意图样本输入初始意图识别模型进行迭代训练,得到意图识别模型。
在又一个具体的实施例中,计算机可读存储介质,用于存储计算机可执行指令,计算机可执行指令在被处理器执行时实现以下流程:
获取用户输入的待识别文本;
将待识别文本输入意图识别模型进行意图识别,得到用户意图;意图识别模型是通过将低频意图样本输入初始意图识别模型进行迭代训练所得到的;低频意图样本是通过样本生成方法所生成的;
根据用户意图在数字人的系统中获取对应用户意图的目标文本,并对目标文本进行展示。
需要说明的是,本说明书中关于计算机可读存储介质的实施例与本说明书中关于样本生成方法的实施例、意图识别模型的训练方法的实施例以及应用于数字人的意图识别方法的实施例中的至少一者基于同一发明构思,因此该实施例的具体实施可以参见前述对应方法的实施,重复之处不再赘述。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
本领域内的技术人员应明白,本申请实施例可提供为方法、系统或计算机程序产品。因此,本申请实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本说明书可采用在一个或多个其中包含有计算机可用程序代码的计算机可读存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本说明书是参照根据本说明书实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程设备的处理器以产生一个机器,使得通过计算机或其他可编程设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本申请实施例可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书的一个或多个实施例,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本文件的实施例而已,并不用于限制本文件。对于本领域技术人员来说,本文件可以有各种更改和变化。凡在本文件的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本文件的权利要求范围之内。
Claims (13)
1.一种样本生成方法,其特征在于,包括:
获取待处理的日志数据;所述日志数据包括文本和所述文本的意图识别结果;
根据所述文本的意图识别结果,对所述日志数据进行数据筛选处理,得到低频意图数据;
将所述低频意图数据、预设意图类别的标准文本输入文本对比模型进行相似度预测处理,得到所述低频意图数据对应的文本对比结果;所述文本对比模型为基于训练样本集对初始文本对比模型进行训练所得到的模型;所述训练样本集基于所述低频意图数据构建;
根据所述文本对比结果与预设相似度阈值,生成低频意图样本。
2.根据权利要求1所述的方法,其特征在于,所述根据所述文本的意图识别结果,对所述日志数据进行数据筛选处理,得到低频意图数据,包括:
将所述日志数据输入高频意图分类模型,得到第一日志数据和所述第一日志数据的意图分类结果的置信度;所述第一日志数据的意图分类结果为预设高频意图;所述高频意图分类模型用于根据所述日志数据中所述文本的意图识别结果对所述日志数据进行意图分类处理;
根据所述第一日志数据和所述第一日志数据的意图分类结果的置信度,对所述日志数据进行数据筛选处理,得到低频意图数据。
3.根据权利要求2所述的方法,其特征在于,所述根据所述第一日志数据和所述第一日志数据的意图分类结果的置信度,对所述日志数据进行数据筛选处理,得到低频意图数据,包括:
根据所述第一日志数据的意图分类结果的置信度与预设置信度阈值的比较结果,确定高频意图数据;
将所述日志数据中的所述高频意图数据删除,得到所述低频意图数据。
4.根据权利要求1所述的方法,其特征在于,
所述初始文本对比模型包括依次连接的编码器和相似度预测模块;所述编码器的输出为所述相似度预测模块的输入;
所述编码器用于根据所述低频意图数据进行编码处理,得到所述低频意图数据对应的相似样本对和非相似样本对;
所述相似度预测模块用于根据所述低频意图数据对应的相似样本对和所述非相似样本对进行迭代训练。
5.根据权利要求4所述的方法,其特征在于,所述低频意图数据包括目标文本和非目标文本;
所述编码器具体用于:
根据所述目标文本进行编码处理,得到所述目标文本对应的目标编码结果和相似编码结果,以及,根据所述非目标文本进行编码处理,得到所述非目标文本对应的编码结果;
将所述目标文本对应的目标编码结果和相似编码结果确定为所述低频意图数据对应的相似样本对;将所述目标文本对应的目标编码结果和所述非目标文本对应的编码结果确定为所述低频意图数据对应的非相似样本对。
6.根据权利要求4所述的方法,其特征在于,所述编码器包括依次连接的注意力层和全连接层;所述注意力层的输出为所述全连接层的输入;
所述注意力层用于根据预设的第一随机失活概率和所述低频意图数据进行第一编码处理,得到中间编码数据;
所述全连接层用于根据预设的第二随机失活概率和所述中间编码数据进行转换处理,得到所述低频意图数据对应的相似样本对和非相似样本对。
7.根据权利要求1所述的方法,其特征在于,所述低频意图数据包括多个低频意图文本;所述文本对比模型,具体用于:
将每个低频意图文本和预设意图类别的标准文本确定为每个低频意图文本对应的相似样本对;
对每个低频意图文本对应的相似样本对进行相似度预测处理,得到每个低频意图文本的相似度评分;将每个低频意图文本的相似度评分确定为所述低频意图数据对应的文本对比结果。
8.根据权利要求1-7任一项所述的方法,其特征在于,所述根据所述文本对比结果与预设相似度阈值,生成低频意图样本,包括:
根据所述预设相似度阈值与所述文本对比结果的比较结果,确定所述预设相似度阈值对应的相似样本数据的数量;
若所述低频意图数据对应的相似样本数据的数量小于预设数量阈值,则重复执行将当前的相似度阈值减去预设降低值以得到更新的相似度阈值,以及,根据所述更新的相似度阈值与所述文本对比结果的比较结果,确定所述更新的相似度阈值对应的相似样本数据的数量的操作,直至所述更新的相似度阈值满足预设停止条件;所述预设停止条件为样本数量大于等于所述预设数量阈值;所述样本数量为所述预设相似度阈值对应的相似样本数据的数量与各个所述更新的相似度阈值对应的相似样本数据的数量之和;
将所述预设相似度阈值对应的相似样本数据和各个所述更新的相似度阈值对应的相似样本数据中的每个样本数据确定为所述每个样本数据对应的低频意图样本。
9.一种意图识别模型的训练方法,其特征在于,包括:
通过如权利要求1-8任一项所述的样本生成方法生成低频意图样本;
将所述低频意图样本输入初始意图识别模型进行迭代训练,得到意图识别模型。
10.一种应用于数字人的意图识别方法,其特征在于,包括:
获取用户输入的待识别文本;
将所述待识别文本输入意图识别模型进行意图识别,得到用户意图;所述意图识别模型是通过将低频意图样本输入初始意图识别模型进行迭代训练所得到的;所述低频意图样本是通过如权利要求1-8任一项所述的样本生成方法所生成的;
根据所述用户意图在所述数字人的系统中获取对应所述用户意图的目标文本,并对所述目标文本进行展示。
11.一种样本生成装置,其特征在于,包括:
第一获取单元,用于获取待处理的日志数据;所述日志数据包括文本和所述文本的意图识别结果;
筛选单元,用于根据所述文本的意图识别结果,对所述日志数据进行数据筛选处理,得到低频意图数据;
预测单元,用于将所述低频意图数据、预设意图类别的标准文本输入文本对比模型进行相似度预测处理,得到所述低频意图数据对应的文本对比结果;所述文本对比模型为基于训练样本集对初始文本对比模型进行训练所得到的模型;所述训练样本集基于所述低频意图数据构建;
第一生成单元,用于根据所述文本对比结果与预设相似度阈值,生成低频意图样本。
12.一种电子设备,其特征在于,包括:
处理器;以及,被配置为存储计算机可执行指令的存储器,所述计算机可执行指令在被执行时使所述处理器执行如权利要求1-8任一项所述的样本生成方法,或者,如权利要求9所述的意图识别模型的训练方法,或者,如权利要求10所述的应用于数字人的意图识别方法。
13.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质用于存储计算机可执行指令,所述计算机可执行指令在被处理器执行时实现如权利要求1-8任一项所述的样本生成方法,或者,如权利要求9所述的意图识别模型的训练方法,或者,如权利要求10所述的应用于数字人的意图识别方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211178539.7A CN117807987A (zh) | 2022-09-26 | 2022-09-26 | 样本生成方法、装置、电子设备及存储介质 |
PCT/CN2023/120564 WO2024067377A1 (zh) | 2022-09-26 | 2023-09-22 | 样本生成方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211178539.7A CN117807987A (zh) | 2022-09-26 | 2022-09-26 | 样本生成方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117807987A true CN117807987A (zh) | 2024-04-02 |
Family
ID=90424072
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211178539.7A Pending CN117807987A (zh) | 2022-09-26 | 2022-09-26 | 样本生成方法、装置、电子设备及存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN117807987A (zh) |
WO (1) | WO2024067377A1 (zh) |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7419508B2 (ja) * | 2019-09-25 | 2024-01-22 | グーグル エルエルシー | 言語タスクのための対照事前トレーニング |
US11562139B2 (en) * | 2020-11-23 | 2023-01-24 | International Business Machines Corporation | Text data protection against automated analysis |
CN114661909A (zh) * | 2022-03-25 | 2022-06-24 | 鼎富智能科技有限公司 | 意图识别模型训练方法、装置、电子设备及存储介质 |
CN114610851A (zh) * | 2022-03-30 | 2022-06-10 | 苏州科达科技股份有限公司 | 意图识别模型的训练方法、意图识别方法、设备及介质 |
-
2022
- 2022-09-26 CN CN202211178539.7A patent/CN117807987A/zh active Pending
-
2023
- 2023-09-22 WO PCT/CN2023/120564 patent/WO2024067377A1/zh unknown
Also Published As
Publication number | Publication date |
---|---|
WO2024067377A1 (zh) | 2024-04-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110555095B (zh) | 人机对话方法和装置 | |
WO2020177282A1 (zh) | 一种机器对话方法、装置、计算机设备及存储介质 | |
CN111046132A (zh) | 一种检索多轮对话的客服问答处理方法及其系统 | |
CN111382264B (zh) | 会话质量评价方法、装置及电子设备 | |
CN111930914B (zh) | 问题生成方法和装置、电子设备以及计算机可读存储介质 | |
CN111182162A (zh) | 基于人工智能的电话质检方法、装置、设备和存储介质 | |
CN113239147A (zh) | 基于图神经网络的智能会话方法、系统及介质 | |
CN111813909A (zh) | 一种智能问答方法和装置 | |
CN116049360A (zh) | 基于客户画像的智能语音对话场景话术干预方法及系统 | |
CN115665325A (zh) | 一种智能外呼的方法、装置、电子设备及存储介质 | |
CN111858854A (zh) | 一种基于历史对话信息的问答匹配方法及相关装置 | |
CN116775807A (zh) | 自然语言处理、模型训练方法、设备及存储介质 | |
CN115643341A (zh) | 人工智能客服应答系统 | |
CN116644170A (zh) | 回复文本生成方法、装置、通信设备及存储介质 | |
CN116431806A (zh) | 自然语言理解方法及冰箱 | |
CN115269836A (zh) | 意图识别方法及装置 | |
CN116631412A (zh) | 一种通过声纹匹配判断语音机器人的方法 | |
CN113569017B (zh) | 一种模型处理方法、装置、电子设备及存储介质 | |
CN113420136A (zh) | 一种对话方法、系统、电子设备、存储介质和程序产品 | |
CN116958738A (zh) | 图片识别模型的训练方法和装置、存储介质及电子设备 | |
CN117807987A (zh) | 样本生成方法、装置、电子设备及存储介质 | |
CN112149426B (zh) | 阅读任务处理方法及相关设备 | |
CN113888216A (zh) | 广告信息推送方法、装置、电子设备及存储介质 | |
CN113326359A (zh) | 一种对话应答及应答策略匹配模型的训练方法和装置 | |
WO2024041350A1 (zh) | 意图识别方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |