CN116303966A - 基于提示学习的对话行为识别系统 - Google Patents

基于提示学习的对话行为识别系统 Download PDF

Info

Publication number
CN116303966A
CN116303966A CN202310304449.6A CN202310304449A CN116303966A CN 116303966 A CN116303966 A CN 116303966A CN 202310304449 A CN202310304449 A CN 202310304449A CN 116303966 A CN116303966 A CN 116303966A
Authority
CN
China
Prior art keywords
token
soft
model
learning
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310304449.6A
Other languages
English (en)
Inventor
杨鹏飞
庄志强
司宇珂
王龙标
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN202310304449.6A priority Critical patent/CN116303966A/zh
Publication of CN116303966A publication Critical patent/CN116303966A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/186Templates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明属于对话行为识别技术领域,具体为一种基于提示学习的对话行为识别,通过设计和优化特定的提示信息,来提高对话行为识别的准确率和泛化能力。引入提示学习,结合手工设计的模板和预训练语言模型,构建一个针对对话行为识别的混合模板,将模板的某些部分视为可调参数(SoftTokens),在训练过程中进行更新和微调,以此提高模型的准确性和鲁棒性。还采用了语言转化器技术,将标签转化为自然语言描述,进一步提高模型的可解释性和泛化能力。

Description

基于提示学习的对话行为识别系统
技术领域
本发明属于对话行为识别技术领域,具体是利用提示学习(Prompt Learning)的方法,通过设计和优化特定的提示信息,来提高对话行为识别的准确率和泛化能力。
背景技术
对话行为识别是自然语言处理领域的一个重要研究方向,其主要目的是自动识别对话文本中的不同行为,如陈述、提问、命令等。在过去的几十年中,人们提出了许多方法和技术来解决这个问题。
早期的对话行为识别方法主要基于人工设计的特征和规则,通过分析文本中的语法和语义信息来识别不同的对话行为。然而,这种方法难以处理复杂的语义信息,且需要大量的人工劳动力和时间。
随着机器学习和深度学习技术的发展,基于机器学习和深度学习的方法逐渐成为了对话行为识别的主流方法。其中,基于支持向量机(SVM)、朴素贝叶斯分类器等传统机器学习方法被广泛应用于对话行为识别任务,通过训练分类器来对文本进行分类。然而,这些方法仍然需要人工设计的特征,难以处理复杂的语义信息。
近年来,随着深度学习技术的发展和预训练语言模型的出现,对话行为识别任务取得了更加显著的进展。例如,BERT、RoBERTa等预训练语言模型在对话行为识别任务中取得了非常显著的效果,并逐渐成为对话行为识别的主流方法。这些模型利用大规模语料库进行预训练,然后在特定的任务上进行微调,可以显著提高对话行为识别的准确率和泛化能力。
除了预训练语言模型,还有一些基于深度学习的方法被应用于对话行为识别任务中,如基于卷积神经网络(CNN)和循环神经网络(RNN)的方法。这些方法利用神经网络自动地提取文本中的特征和信息,从而实现对话行为的识别。
总之,随着深度学习技术的不断发展和应用,对话行为识别任务在自然语言处理领域具有重要的研究意义和应用价值。不断创新和发展新的算法和模型,将有助于提高对话行为识别任务的准确率和泛化能力,为人机交互、情感分析、智能客服等领域的应用提供更加智能化和高效的解决方案。
但是对话行为识别目前仍面临一些困境,例如传统方法往往依赖大量的人工标注数据,而这种数据的获取成本很高。又如在对话数据中,可能存在一些干扰,比如同义词、口语化语言等,这些干扰会对模型的预测结果产生负面影响,导致模型的准确率降低。
发明内容
针对对话行为识别中面临的数据标注成本高,以及在对话数据中存在干扰的问题,本发明将提示学习(Prompt Learning)引入对话行为识别任务,通过构建模板,将领域知识和经验性信息注入到模型中,从而能够提高对话行为识别的准确性和泛化能力。与传统的Fine-tuning相比,Prompt Learning技术可以通过设计合理的模板,减少标注数据的数量和质量要求,并提高模型在新领域中的表现,具有更好的可扩展性和适应性。因此,本发明为对话行为识别任务的研究和应用提供了新思路和解决方案,并提高了基于单句对话文本的对话行为识别的准确率。
本发明的技术方案是引入提示学习(Prompt Learning),结合手工设计的模板和预训练语言模型,构建一个针对对话行为识别的混合模板,将模板的某些部分视为可调参数(Soft Tokens),在训练过程中进行更新和微调,以此提高模型的准确性和鲁棒性。此外,本发明还采用了语言转化器(Verbalizer)技术,将标签转化为自然语言描述,进一步提高了模型的可解释性和泛化能力。具体的步骤包括以下三部分:
(1)设计提示学习模板(Prompt Template)
设计提示学习模板是提示学习(Prompt Learning)方法的核心步骤之一。在这个步骤中,我们需要为特定的下游任务设计一个能够准确指导模型学习的模板。对于对话行为识别(Dialogue Act Classification)任务,我们采用了一种称为混合模板(mixedtemplate)的提示学习模板。Mixed template是一种灵活的提示学习模板,它由多个文本片段(text segment)组成,每个文本片段中包含了一个或多个词元(token)。每个token可以被标记为硬性(hard)或软性(soft)。硬性token在训练和推理时必须被固定,而软性token则可以在训练和推理时被替换成其他词汇。mixed template中的每个文本片段都可以包含一个或多个硬性token和软性token,这使得模板能够适应不同的输入和输出要求。Mixedtemplate的灵活性使得模型可以更加准确地学习任务相关的信息,同时也使得模板更易于设计和调整。在对话行为识别任务中,我们使用mixed template来约束模型的输入和输出格式,并根据任务要求设计合适的硬性token和软性token。
(2)预训练模型BERT
预训练BERT模型是提示学习方法的另一个核心组成部分。在对话行为识别任务中,我们使用预训练BERT模型来提取输入文本的特征表示,并利用这些特征来进行训练和预测。通过利用预训练BERT模型的语言模型能力,我们可以在较小的数据集上进行训练,并获得更好的模型泛化能力。在Prompt Learning中,我们使用预训练的BERT模型作为基础模型,通过在其输入中添加自定义的提示文本,指导模型学习特定任务。在具体实现中,BERT模型可以将输入文本转换为向量表示,为下游任务提供更好的输入表征。
(3)构建语言转化器(Verbalizer)
语言转化器(Verbalizer)是提示学习方法的另一个关键部分。它将模型的输出转化为自然语言描述,使得模型的预测结果更易于理解和解释。在对话行为识别任务中,我们使用Verbalizer将模型的预测类别转化为对话行为的自然语言描述,例如“问候”、“询问”、“结束对话”等。
有益效果
与传统的单句对话行为识别方法相比,本发明利用提示学习更好地利用大量无标注数据来提升模型的泛化能力和性能,同时设计灵活的mixed template和基于soft token的语言转化器,可以更好地利用人类的先验知识和自然语言的语法特征,从而提高对话行为识别的准确性和效率。
本发明采用提示学习利用模板和相应的知识来指导模型学习的方法,模板为模型提供了输入输出格式的规范化,并引导模型学习任务相关的知识和信息,提高模型的可解释性。模板的意义在于,它使得我们可以更加高效地应用模型到不同的应用场景中,并更好地理解模型在某个特定任务上的表现。通过合理设置模板,我们可以让模型更好地适应任务要求,提高模型的效果和性能。
在Prompt Learning中,使用预训练的BERT模型,可以有效地缓解下游任务数据量不足的问题,同时提高模型的泛化能力和性能。因此,预训练BERT在Prompt Learning中的作用在于,提供更好的文本表征,减轻下游任务数据量不足的问题,并使得模型更好地利用语言的通用知识,从而提高自然语言处理任务的效果和性能。
Verbalizer可以为模型的预测结果提供直观的自然语言描述,使得模型的输出结果对人类用户更具可读性和可理解性。Verbalizer是提高模型的可解释性和可操作性的重要工具。在这个过程中,Soft Verbalizer的参数(即Label Words中每个词的embedding)是固定的,因此可以共享给多个不同的输入使用。在计算过程中,分类器的参数并不是直接使用Label Words中每个词的embedding,而是通过计算得到的平均embedding。因此,在训练过程中,分类器的参数是可以被更新的。
本方法将提示学习引入对话行为识别任务,可以有效地提高对话行为识别任务的准确性和泛化能力,同时也能够降低数据标注成本,并减轻在对话数据中存在的干扰问题。
附图说明
为了更清楚的说明本发明实施的技术方案,下面对实施中所需要使用的附图作简单地介绍:
图1引入提示学习的对话行为识别模型框架。
图2混合模板(Mixed Template)的更新流程图。
具体实施方式
以下结合实验过程及实验结果对本发明作进一步详细说明。应当理解,此处所描述的具体实施例仅用于解释本发明,并不用于限定本发明。
在通用的单句对话行为识别模型BERT-Linear的基础上,本发明通过引入提示学习(Prompt Learning)的方法,针对单句对话行为识别任务提出了一种新的解决方案。该方案包括设计灵活的混合模板(Mixed Template),利用预训练的BERT模型进行fine-tune,并且采用了基于soft token的语言转化器(Soft Verbalizer)。
具体实验方案和要点包含以下三个方面:
(1)构建混合模板(Mixed Template)并进行更新
Mixed Template是一种Prompt Learning的模板,用于指导模型学习任务相关的知识和信息,从而提高模型的性能和可解释性。在Mixed Template设计的过程中,首先输入一段由混合标记组成的文本,经过解析后转换成一组包含每个混合标记的字典。混合标记包含一个特殊标记和一些自由文本的字符串,例如:"{"soft":"Given the sentencespoken by speaker"},{"soft":"classify the dialog act"}.{"soft":"The dialogact is"}:{"mask"}"。"soft"键值对表示的是soft token的自由文本,即可被后续用于BERT的fine-tune。与之对应的便是hard token,即模板文本中固定的token。除去模板文本中自带的特殊标记,在后续的处理中还有一些其他的键值对,例如“soft_id”键值对,用以表示当前soft token应该对应哪个hard token。
在混合标记解析完成后,就可以准备生成输入的soft token词嵌入(embedding)了。对于每个soft token,使用BERT预训练模型中的输入embedding来初始化其embedding。这个embedding是可以训练的,因为可以在fine-tune时进行反向传播。在计算过程中,对于当前输入的批次(batch),首先将其输入数据(input_ids)通过BERT的原始embedding层获取其输入embedding。然后,使用另外一个embedding层,即soft_embedding层,生成所有soft token的embedding。这个embedding层的初始化来自BERT预训练模型中的原始embedding层,但会在后面的fine-tune过程中被调整。接着,根据软词元编码(soft_token_ids)中的信息,选择应该使用哪个embedding。如果一个token的soft_token_ids中的值为0,那么就使用原始embedding;否则,使用生成的soft embedding。最终输出的是输入embedding的组合。
若令ei orig表示第i个token的原始embedding,ei soft表示第i个token的softembedding,对于输入batch中的每个token,其最终embedding可以表示为:
Figure BDA0004146232640000051
在计算过程中,soft_token_ids会被不断更新,以便每个soft token都能够正确地与其对应的hard token相匹配。具体而言,根据模板中的soft token信息,为每个softtoken分配唯一的ID,并将其放入身份列表(id_list)中。如果存在多个soft token对应一个hard token的情况,将它们放在同一个id_list中。之后,将id_list放入soft_token_ids中,以便在计算过程中进行选择。对于soft id的更新,使用字典idx_mp记录每个soft id所对应的id_list。如果已经存在这个id_list,直接使用它即可;否则,就重新生成一个id_list并更新字典idx_mp,以保证每个soft token都能正确地匹配到其对应的hard token。在fine-tune过程中,soft_embedding会被调整,使得soft token能够更好地参与模型的训练。
令si为第i个soft token对应的唯一ID,通过字典idx_mp可以找到与之对应的id_list。若id_list已存在,则将si加入id_list;否则,新建一个id_list并加入si,更新soft_token_ids的过程可以表示为:
Figure BDA0004146232640000061
通过这种方式,模型可以在fine-tune过程中不断更新soft token与hard token的对应关系,以提高对话行为识别任务的性能。这种利用Mixed Template进行PromptLearning的方法,有助于模型更好地学习任务相关的知识和信息,并提高模型在对话行为识别中的准确性和可解释性。
(2)构建软性语言转化器(Soft Verbalizer)并进行计算
Soft Verbalizer是一种用于从模型预测中生成标签的方法。它接受模型的隐藏状态作为输入,使用一个前馈网络将隐藏状态映射到一个label logit的向量空间中,输出每个类别的logit。它的实现中,通过对应的标签词(Label Word)来生成参数,并对其进行初始化。在计算过程中,通过将隐藏状态输入到前馈网络中,并将输出的结果作为logit来预测类别,这些logit在后续的fine-tune过程中可以通过反向传播来更新。在这里,我们针对所使用的SWDA数据集的每个对话行为标签,详细设计了每个对话行为对应的标签词(Label Word)
Soft Verbalizer的计算过程可以分为以下几个步骤:
第一步,将Label Words中的每个词的embedding作为分类器的参数。具体而言,对于每个标签,将标签中的所有词通过tokenizer转换成相应的token id,并将这些token id组成一个序列。因为不同标签的token序列长度可能不同,所以需要将长度不足的序列补0,使得它们的长度一致。对于每个标签,将其对应的token序列通过预训练模型的embedding层,得到它们的embedding向量,然后将这些向量进行平均,作为分类器的参数。
第二步,通过预训练模型的输出,提取最后一层的hidden state。具体而言,对于一个输入,将它通过预训练模型的encoder得到其所有hidden state,并选择最后一层的hidden state作为输入的表示。
第三步,将第二步得到的hidden state传入分类器,得到分类器输出的labellogits。具体而言,将第二步得到的hidden state通过分类器的linear层,得到分类器输出的label logits。
第四步,将第三步得到的label logits作为模型预测的结果。在模型训练过程中,可以根据label logits和ground truth计算损失,并进行反向传播更新参数。
在这个过程中,Soft Verbalizer的参数(即Label Words中每个词的embedding)是固定的,因此可以共享给多个不同的输入使用。在计算过程中,分类器的参数并不是直接使用Label Words中每个词的embedding,而是通过计算得到的平均embedding。因此,在训练过程中,分类器的参数是可以被更新的。
(3)实验数据集
本实验使用SWDA(The Switchboard Dialogue Act Corpus)数据集。SWDA是一个面向多方电话会话的语料库,包含2000个英语语音电话的转录文本,这些电话来自美国人口普查中各个地区的英语母语人士。SWDA数据集的标记方式是基于对话行为(DialogueAct)的标记体系,即通过对谈话中的话语进行分类来识别话语的目的。在实验中,本发明把SWDA数据集的216954句对话拆分为训练集、验证集、测试集,具体拆分情况如表1:
训练集/句 验证集/句 测试集/句
SWDA 192225 20218 4514
表1实验数据库划分及其基本情况
本发明中的具体的模型训练参数设置如表2。
本发明中的实验使用1块RTX2080Ti型号的GPU。
Figure BDA0004146232640000071
表2模型训练参数
准确率 (%)
基线实验 73.5
本发明实验 74.8
表3本发明与基线实验结果对比
本发明所采用的基线实验是基于BERT-Linear的模型,本发明以BERT-Linear模型为基础,将提示学习(Prompt Learning)引入其中,经过实验对比发现在SWDA的测试集上本发明提出的模型准确率相较基线模型有所提高,如表3所示,本发明提出的模型相比基线模型的准确率有1.3%的提升。

Claims (5)

1.基于提示学习的对话行为识别系统,其特征在于,包括以下步骤:
(1)设计提示学习模板:对于对话行为识别任务,采用混合模板mixed template的提示学习模板,由多个文本片段组成,每个文本片段中包含一个或多个词元token,每个token被标记为硬性或软性,硬性token在训练和推理时必须被固定,而软性token则在训练和推理时被替换成其他词汇,mixed template中的每个文本片段都可以包含一个或多个硬性token和软性token;
使用混合模板mixed template来约束模型的输入和输出格式,并根据任务要求设计合适的硬性token和软性token;
(2)提示学习利用模板和相应的知识来指导模型学习;
(3)预训练BERT模型:
使用预训练BERT模型来提取输入文本的特征表示,并利用这些特征来进行训练和预测;
使用预训练的BERT模型作为基础模型,通过在其输入中添加自定义的提示文本,指导模型学习特定任务;
(4)构建语言转化器:
在提示学习中,语言转化器Verbalizer指将模型输出映射到自然语言文本的过程。
2.根据权利要求1所述的基于提示学习的对话行为识别系统,其特征在于,预训练BERT模型的训练数据来源于大规模的无标注文本数据,从中学习到的语言模型能力可以被用于下游任务中。
3.根据权利要求1所述的基于提示学习的对话行为识别系统,其特征在于,在混合标记解析完成后,可以准备生成输入的soft token词嵌入embedding,对于每个soft token,使用BERT预训练模型中的输入embedding来初始化其embedding;在计算过程中,对于当前输入的批次batch,首先将其输入数据input_ids通过BERT的原始embedding层获取其输入embedding;然后,使用另外一个embedding层,即soft_embedding层,生成所有soft token的embedding;这个embedding层的初始化来自BERT预训练模型中的原始embedding层,但会在后面的fine-tune过程中被调整;接着,根据软词元编码soft_token_ids中的信息,选择应该使用哪个embedding;
如果一个token的soft_token_ids中的值为0,那么就使用原始embedding;否则,使用生成的soft embedding,最终输出的是输入embedding的组合;
若令ei orig表示第i个token的原始embedding,ei soft表示第i个token的soft embedding,对于输入batch中的每个token,其最终embedding可以表示为:
Figure FDA0004146232620000021
在计算过程中,soft_token_ids会被不断更新,以便每个soft token都能够正确地与其对应的hard token相匹配;
具体而言,根据模板中的soft token信息,为每个soft token分配唯一的ID,并将其放入身份列表id_list中;如果存在多个soft token对应一个hard token的情况,将它们放在同一个id_list中;之后,将id_list放入soft_token_ids中,以便在计算过程中进行选择;对于soft id的更新,使用字典idx_mp记录每个soft id所对应的id_list;如果已经存在这个id_list,直接使用它即可;否则,就重新生成一个id_list并更新字典idx_mp,以保证每个soft token都能正确地匹配到其对应的hard token,在fine-tune过程中,soft_embedding会被调整,使得soft token能够更好地参与模型的训练;
令si为第i个soft token对应的唯一ID,通过字典idx_mp可以找到与之对应的id_list;若id_list已存在,则将si加入id_list;否则,新建一个id_list并加入si,更新soft_token_ids的过程可以表示为:
Figure FDA0004146232620000022
通过这种方式,模型可以在fine-tune过程中不断更新soft token与hard token的对应关系。
4.根据权利要求1所述的基于提示学习的对话行为识别系统,其特征在于,将提示学习的方法引入对话行为识别任务,所述步骤(3)的具体策略是:手工定义对话行为识别中每个对话行为类别所对应的标签词,具体来说,提示学习是将下游任务即这里指的对话行为识别任务,针对上游预训练模型即这里指的BERT的特点进行适配,设计相应的提示并应用到预训练模型中,而在上游预训练模型BERT中,模型需要从一段给定的文本中,预测出一个被掩盖的词语语言转化器通过预先定义的Label Words,以及与他相对应的对话行为标签,将BERT的词表空间映射到Verbalizer所定义的词表空间中;
当模型预测出的被掩盖的词语与Verbalizer中定义的某个词语相对应时,将其替换为这个词语所对应的对话行为标签。
5.根据权利要求1所述的基于提示学习的对话行为识别系统,其特征在于,SoftVerbalizer的计算过程可以分为以下几个步骤:
第一步,将Label Words中的每个词的embedding作为分类器的参数,具体而言,对于每个标签,将标签中的所有词通过tokenizer转换成相应的token id,并将这些token id组成一个序列,对于每个标签,将其对应的token序列通过预训练模型的embedding层,得到它们的embedding向量,然后将这些向量进行平均,作为分类器的参数;
第二步,通过预训练模型的输出,提取最后一层的hidden state,具体而言,对于一个输入,将它通过预训练模型的encoder得到其所有hidden state,并选择最后一层的hiddenstate作为输入的表示;
第三步,将第二步得到的hidden state传入分类器,得到分类器输出的label logits,具体而言,将第二步得到的hidden state通过分类器的linear层,得到分类器输出的labellogits;
第四步,将第三步得到的label logits作为模型预测的结果,在模型训练过程中,可以根据label logits和ground truth计算损失,并进行反向传播更新参数。
CN202310304449.6A 2023-03-27 2023-03-27 基于提示学习的对话行为识别系统 Pending CN116303966A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310304449.6A CN116303966A (zh) 2023-03-27 2023-03-27 基于提示学习的对话行为识别系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310304449.6A CN116303966A (zh) 2023-03-27 2023-03-27 基于提示学习的对话行为识别系统

Publications (1)

Publication Number Publication Date
CN116303966A true CN116303966A (zh) 2023-06-23

Family

ID=86801226

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310304449.6A Pending CN116303966A (zh) 2023-03-27 2023-03-27 基于提示学习的对话行为识别系统

Country Status (1)

Country Link
CN (1) CN116303966A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117131842A (zh) * 2023-10-27 2023-11-28 慧言科技(天津)有限公司 基于wfst的实现多语种混合文本正则化与反正则化的方法
CN117764054A (zh) * 2024-02-06 2024-03-26 佛山科学技术学院 一种基于自动构建提示工程的自然语言理解方法及系统

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117131842A (zh) * 2023-10-27 2023-11-28 慧言科技(天津)有限公司 基于wfst的实现多语种混合文本正则化与反正则化的方法
CN117131842B (zh) * 2023-10-27 2024-01-26 慧言科技(天津)有限公司 基于wfst的实现多语种混合文本正则化与反正则化的方法
CN117764054A (zh) * 2024-02-06 2024-03-26 佛山科学技术学院 一种基于自动构建提示工程的自然语言理解方法及系统
CN117764054B (zh) * 2024-02-06 2024-06-21 佛山科学技术学院 一种基于自动构建提示工程的自然语言理解方法及系统

Similar Documents

Publication Publication Date Title
CN111739508B (zh) 一种基于dnn-hmm双模态对齐网络的端到端语音合成方法及系统
CN109887484B (zh) 一种基于对偶学习的语音识别与语音合成方法及装置
Hazan et al. Direct loss minimization for structured prediction
CN111210807B (zh) 语音识别模型训练方法、系统、移动终端及存储介质
CN111477216A (zh) 一种用于对话机器人的音意理解模型的训练方法及系统
WO2017094911A1 (en) Method for processing utterances
CN108829662A (zh) 一种基于条件随机场结构化注意力网络的对话行为识别方法及系统
CN116303966A (zh) 基于提示学习的对话行为识别系统
CN111145718A (zh) 一种基于自注意力机制的中文普通话字音转换方法
CN112417894A (zh) 一种基于多任务学习的对话意图识别方法及识别系统
CN113987179A (zh) 基于知识增强和回溯损失的对话情绪识别网络模型、构建方法、电子设备及存储介质
CN113239690A (zh) 基于Bert与全连接神经网络融合的中文文本意图识别方法
Liu et al. Mongolian text-to-speech system based on deep neural network
CN114911932A (zh) 基于主题语义增强的异构图结构多会话者情感分析方法
CN112331207B (zh) 服务内容监控方法、装置、电子设备和存储介质
CN112183106A (zh) 一种基于音素联想及深度学习的语义理解方法及装置
Labeau et al. Character and subword-based word representation for neural language modeling prediction
Zhao et al. Knowledge-aware bayesian co-attention for multimodal emotion recognition
CN114743539A (zh) 语音合成方法、装置、设备及存储介质
Agarla et al. Semi-supervised cross-lingual speech emotion recognition
CN114860938A (zh) 一种语句意图识别方法和电子设备
Sakamoto et al. Stargan-vc+ asr: Stargan-based non-parallel voice conversion regularized by automatic speech recognition
Zen Generative model-based text-to-speech synthesis
US20240005905A1 (en) End-to-end natural and controllable emotional speech synthesis methods
CN117524202A (zh) 一种ip电话语音数据检索方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination