CN115269809B - 意图识别模型的训练方法和装置及意图识别方法和装置 - Google Patents

意图识别模型的训练方法和装置及意图识别方法和装置 Download PDF

Info

Publication number
CN115269809B
CN115269809B CN202211135890.8A CN202211135890A CN115269809B CN 115269809 B CN115269809 B CN 115269809B CN 202211135890 A CN202211135890 A CN 202211135890A CN 115269809 B CN115269809 B CN 115269809B
Authority
CN
China
Prior art keywords
intention
training
sample
data
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211135890.8A
Other languages
English (en)
Other versions
CN115269809A (zh
Inventor
王维强
王昊天
吴晓烽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alipay Hangzhou Information Technology Co Ltd
Original Assignee
Alipay Hangzhou Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alipay Hangzhou Information Technology Co Ltd filed Critical Alipay Hangzhou Information Technology Co Ltd
Priority to CN202211135890.8A priority Critical patent/CN115269809B/zh
Publication of CN115269809A publication Critical patent/CN115269809A/zh
Application granted granted Critical
Publication of CN115269809B publication Critical patent/CN115269809B/zh
Priority to US18/467,636 priority patent/US20240095596A1/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F13/00Video games, i.e. games using an electronically generated display having two or more dimensions
    • A63F13/85Providing additional services to players
    • A63F13/87Communicating with other players during game play, e.g. by e-mail or chat

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本说明书实施例描述了意图识别模型的训练方法和装置及意图识别方法和装置。根据实施例的方法,可以在模型训练的前几轮弱化对特定问题的训练,然后利用前几轮训练的意图识别模型可以找出需要进行区分的回答所对应的意图。进一步通过对这些意图的标签进行重置后再训练意图识别模型,能够使得训练得到的意图识别模型对特定问题的回答也具有较好的识别效果,从而达到提高意图识别准确性的目的。

Description

意图识别模型的训练方法和装置及意图识别方法和装置
技术领域
本说明书一个或多个实施例涉及人工智能领域,尤其涉及意图识别模型的训练方法和装置及意图识别方法和装置。
背景技术
在人机交互系统中会存在大量的问答意图识别,比如在风控场景中会询问用户当前的交易目的或者转账对象,识别用户的回答意图判断用户当前的风险状态,以进行相应的管控。
然而,有些情况下的回答是必须结合问题才能判断出用户的意图。比如对于问题“请问你是在玩一般的网络游戏还是赚钱类的游戏”,如果用户回答“一般的”,那么显然不结合问题是无法得出用户“目的-游戏”的这个意图的。如此,如果直接以“一般的”和“目的-游戏”来训练模型,当在一些新的问题下出现此类回答时,模型都会将其识别为“目的-游戏”这个意图,造成识别结果的错误。
因此,需要提供一种意图识别的方案,以提高意图识别的准确性。
发明内容
本说明书一个或多个实施例描述了意图识别模型的训练方法和装置及意图识别方法和装置,能够提高意图识别的准确性。
根据第一方面,提供了意图识别模型的训练方法,包括:
获取用于进行模型训练的样本训练数据;其中,所述样本训练数据包括:作为样本输入数据的问题和回答的集合,以及作为样本输出数据的样本意图;所述问题包括:特定问题;所述特定问题满足:该特定问题下出现的回答所对应的意图与在其他问题下出现该回答时所对应的意图相同;
利用所述样本训练数据进行M轮模型训练时,在前N轮模型训练中弱化所述特定问题的训练,以使前N轮训练得到的意图识别模型识别出所述特定问题下回答所对应的意图的概率小于第一预设阈值;其中,M和N均为正整数,且N<M;
利用前N轮模型训练得到的意图识别模型对所述样本输入数据进行识别,得到至少一个第一意图;
根据所述样本意图的标签对各个所述第一意图的标签进行重置;以及,
利用对所述第一意图的标签进行重置后的样本训练数据继续训练所述意图识别模型。
在一种可能的实现方式中,所述样本训练数据包括:第一样本训练数据,该第一样本训练数据中的问题不包括所述特定问题;
所述在前N轮模型训练中弱化所述特定问题的训练,包括:
在前N轮模型训练中利用所述第一样本训练数据训练所述意图识别模型。
在一种可能的实现方式中,所述利用前N轮模型训练得到的意图识别模型对所述样本输入数据进行识别得到至少一个第一意图,包括:
将所述样本输入数据输入前N轮模型训练得到的意图识别模型中,输出各样本意图的概率值;
从所述样本意图中确定输入所述意图识别模型中的各样本输入数据所对应的目标意图;其中,所述目标意图用于表征所述样本输入数据中的回答所具有的真实意图;
从各样本意图的概率值中确定所述目标意图的概率值;以及,
将所述目标意图中概率值小于第二预设阈值的目标意图确定为所述第一意图。
在一种可能的实现方式中,所述目标意图的标签为第一标签,所述样本意图中不为所述目标意图的意图的标签为第二标签;
所述根据所述样本意图的标签对各个所述第一意图的标签进行重置,包括:
将所述第一意图的标签重置为所述第二标签。
在一种可能的实现方式中,所述目标意图的标签为第一标签,所述样本意图中不为所述目标意图的意图的标签为第二标签;
所述根据所述样本意图的标签对各个所述第一意图的标签进行重置,包括:
将所述样本训练数据中的样本意图进行复制,得到扩展意图;其中,每一个扩展意图唯一对应一个样本意图;
将所述第一意图所对应的样本意图的标签重置为所述第二标签;以及,
将所述第一意图所对应的扩展意图的标签重置为第一标签;
所述利用对所述第一意图的标签进行重置后的样本训练数据继续训练所述意图识别模型,包括:
将对所述第一意图重置标签后的样本意图和扩展意图及其标签作为所述样本输出数据,继续训练所述意图识别模型。
根据第二方面,提供了意图识别方法,包括:
获取待进行意图识别的待识别数据;
利用意图识别模型对所述待识别数据进行识别,得到意图识别结果;其中,所述意图识别模型是利用如第一方面中任一所述的意图识别模型的训练方法训练得到的。
在一种可能的实现方式中,所述待识别数据包括:问题和回答的待识别集合;
所述利用意图识别模型对所述待识别数据进行识别得到意图识别结果,包括:
将所述待识别数据输入所述意图识别模型中,得到所述意图识别模型输出的初级意图识别结果;
当所述初级意图识别结果为扩展意图时,将所述待识别集合中的回答输入预先训练的问题预测模型中,得到预测问题;其中,所述拓展意图用于表征对训练所述意图识别模型的样本意图进行复制得到的意图;所述问题预测模型通过至少一组样本集训练得到,且每一组样本集中包括一个问题和一个回答;
判断所述待识别集合中的问题和所述预测问题是否一致;
若一致,则所述待识别数据的意图识别结果为所述初级意图识别结果;
若不一致,则所述待识别数据的意图识别结果不为所述初级意图识别结果。
根据第三方面,提供了意图识别模型的训练装置,包括:训练数据获取模块、第一训练模块、意图识别模块、标签重置模块和第二训练模块;
所述训练数据获取模块,配置为获取用于进行模型训练的样本训练数据;其中,所述样本训练数据包括:作为样本输入数据的问题和回答的集合,以及作为样本输出数据的样本意图;所述问题包括:特定问题;所述特定问题满足:该特定问题下出现的回答所对应的意图与在其他问题下出现该回答时所对应的意图相同;
所述第一训练模块,配置为利用所述训练数据获取模块获取到的所述样本训练数据进行M轮模型训练时,在前N轮模型训练中弱化所述特定问题的训练,以使前N轮训练得到的意图识别模型识别出所述特定问题下回答所对应的意图的概率小于第一预设阈值;其中,M和N均为正整数,且N<M;
所述意图识别模块,配置为利用所述第一训练模块在前N轮模型训练得到的意图识别模型对所述样本输入数据进行识别,得到至少一个第一意图;
所述标签重置模块,配置为根据所述样本意图的标签对所述意图识别模块得到的各个所述第一意图的标签进行重置;以及,
所述第二训练模块,配置为利用所述标签重置模块对所述第一意图的标签进行重置后的样本训练数据继续训练所述意图识别模型。
根据第四方面,提供了意图识别装置,包括:识别数据获取模块和识别结果确定模块;
所述识别数据获取模块,配置为获取待进行意图识别的待识别数据;
所述识别结果确定模块,配置为利用意图识别模型对所述识别数据获取模块获取到的所述待识别数据进行识别,得到意图识别结果;其中,所述意图识别模型是利用如第三方面所述的意图识别模型的训练装置训练得到的
根据第五方面,提供了一种计算设备,包括:存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现上述第一方面和第二方面中任一项所述的方法。
根据本说明书实施例提供的方法和装置,在训练意图识别模型时,首先在前几轮模型训练中弱化针对特定问题的训练,以保证前几轮训练的模型在对特定问题下的回答进行识别时能够具有较小的概率识别出该回答所对应的意图。进一步,利用前几轮训练得到的模型对样本训练数据中的样本输入数据进行识别后得到第一意图。然后对得到的第一意图的标签进行重置,并利用重置标签后的样本训练数据继续训练意图识别模型。由此可见,本方案通过在前几轮训练中弱化特定问题的训练,能够找出需要进行区分的意图。然后通过对这些意图的标签进行重置再训练意图识别模型,能够使得训练得到的意图识别模型对特定问题的回答也具有较好的识别效果,从而达到提高意图识别准确性的目的。
附图说明
为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本说明书的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本说明书一个实施例提供的一种意图识别模型的训练方法的流程图;
图2是本说明书一个实施例提供的一种第一意图确定方法的流程图;
图3是本说明书一个实施例提供的一种标签重置的方法的流程图;
图4是本说明书一个实施例提供的一种意图识别方法的流程图;
图5是本说明书一个实施例提供的另一种意图识别方法的流程图;
图6是本说明书一个实施例提供的一种意图识别模型的训练装置的示意图;
图7是本说明书一个实施例提供的一种意图识别装置的示意图。
具体实施方式
意图识别算法或模型一般是直接将用户回答输入到模型中进行识别,但是在样本不足时很容易出现模型只关注回答而导致识别出错的问题。
比如,如前所述的问题“请问你是在玩一般的网络游戏还是充值赚钱类的游戏
Figure DEST_PATH_IMAGE001
”,当样本数据较少时,模型训练很可能会将“一般的”这种回答和该问题的意图“目的-游戏”进行绑定,即“一般的”这个回答只在这个问题的回答中出现过。因此,模型在进行识别时,当输入为“一般的”时,模型都会将意图识别为“目的-游戏”。然而,如果出现新的问题“请问您是在买什么商品”,用户回答“就一般的商品”,由于模型训练的样本中只在“请问你是在玩一般的网络游戏还是充值赚钱类的游戏
Figure 103034DEST_PATH_IMAGE001
”这个问题下出现过“一般的”这种回答。因此,此时模型也会将“就一般的商品”的意图识别为“目的-游戏”。显然,此时实际的意图应为“类型-商品”,而非“目的-游戏”,造成了意图识别结果的错误,进而也会导致后续人机交互出现错误。
基于此,本方案考虑通过弱化对特定问题的训练的方式找出需要进行区分的回答样本,然后对这些回答所对应的意图进行标签重置,以使最终训练得到的模型对特定问题的回答也能具有较好的识别准确性。
如图1所示,本说明书实施例提供了一种意图识别模型的训练方法,该方法可以包括如下步骤:
步骤101:获取用于进行模型训练的样本训练数据;其中,样本训练数据包括:作为样本输入数据的问题和回答的集合,以及作为样本输出数据的样本意图;问题包括:特定问题;特定问题满足:该特定问题下出现的回答所对应的意图与在其他问题下出现该回答时所对应的意图相同;
步骤103:利用样本训练数据进行M轮模型训练时,在前N轮模型训练中弱化特定问题的训练,以使前N轮训练得到的意图识别模型识别出特定问题下回答所对应的意图的概率小于第一预设阈值;其中,M和N均为正整数,且N<M;
步骤105:利用前N轮模型训练得到的意图识别模型对样本输入数据进行识别,得到至少一个第一意图;
步骤107:根据样本意图的标签对各个第一意图的标签进行重置;以及,
步骤109:利用对第一意图的标签进行重置后的样本训练数据继续训练意图识别模型。
本实施例中,在训练意图识别模型时,首先在前几轮模型训练中弱化针对特定问题的训练,以保证前几轮训练的模型在对特定问题下的回答进行识别时能够具有较小的概率识别出该回答所对应的意图。进一步,利用前几轮训练得到的模型对样本训练数据中的样本输入数据进行识别后得到第一意图。然后对得到的第一意图的标签进行重置,并利用重置标签后的样本训练数据继续训练意图识别模型。由此可见,本方案通过在前几轮训练中弱化特定问题的训练,能够找出需要进行区分的意图。然后通过对这些意图的标签进行重置再训练意图识别模型,能够使得训练得到的意图识别模型对特定问题的回答也具有较好的识别效果,从而达到提高意图识别准确性的目的。
下面结合具体的实施例对附图1中的各个步骤进行说明。
首先在步骤101中,获取用于进行模型训练的样本训练数据。
本步骤中,样本训练数据可以包括作为样本输入数据的问题和回答的集合,以及作为样本数据数据的样本意图。比如样本输入数据的问题可以为“你通常是采用的A方式还是采用的B方式进行交易
Figure 893135DEST_PATH_IMAGE001
”而其对应的回答可以为“A方式”、“B方式”和“A方式和B方式都用”等,那么一个问题和一个回答即可构成一个样本输入数据。而对于上述任一一组问题和回答所构成的样本输出数据,其样本意图可以为“类型-交易”、“目的-方式”、“对象-交易”等。
而且在有些实际应用场景中,有些特定问题不仅是同时根据问题和回答才能得出意图,而且该特定问题下出现的回答所对应的意图与在其他问题下出现该回答时所对应的意图相同。也就是说,在一特定问题下出现的回答在其他问题下出现时可能会被认为与特定问题具有相同的意图。比如,对于问题:“你玩的是一般的网络游戏还是赚钱类的游戏
Figure 381885DEST_PATH_IMAGE001
”,对于该问题的其中一个回答为“一般的”。那么对于问题“你买的什么东西”,“一般的”这种回答也可能会出现在该问题下。虽然两者回答一样,但在不同的问题下其所具有的实际意图是不同的。而在实际应用中,如果没有考虑问题信息,或问题信息被弱化,很容易将该回答在不同问题下的情况认定为同一意图。因此,在获取进行模型训练的样本训练数据之前,首先可以利用经验定义哪些属于特定问题。然后将该特定问题、所对应的回答以及意图作为构成样本训练数据的一部分。
此外,对于一些问题和回答的情景中,只需要知道问题所对应的回答即可知晓回答所对应的意图。比如:问题为“你吃的什么
Figure 525422DEST_PATH_IMAGE001
”,回答为“零食”,那么此类问题和回答很容易得出意图“食物-零食”。因此,在一种可能的实现方式中,样本训练数据还可以包括作为样本数据数据的回答和作为样本数据数据的样本意图。
然后在步骤103中,利用样本训练数据进行M轮模型训练时,在前N轮模型训练中弱化特定问题的训练,以使前N轮训练得到的意图识别模型识别出特定问题下回答所对应的意图的概率小于第一预设阈值;其中,M和N均为正整数,且N<M。
本步骤中,考虑在进行模型训练时,首先弱化对特定问题的训练,如此在利用弱化特定问题后训练的模型对样本训练数据进行识别时,模型很难识别出特定问题下回答的意图,从而能够找出特定问题下哪些回答需要进行解耦,即需要和其他问题下的该回答进行区分。
当然,在进行模型训练之前,首先需要找出特定问题下哪些回答必须结合问题。比如问题“你是在玩一般的网络游戏还是充值赚钱类的游戏
Figure 845545DEST_PATH_IMAGE001
”下的两种回答A“一般的”和B“网络游戏”具有相同的意图“目的-游戏”,但回答A需要结合问题才能识别出该意图,而B则可以直接识别出该意图。因此考虑首先找出特定问题下的这类回答,然后在进行的M轮模型训练中,先在前几轮弱化对特定问题和该类回答的训练,以使前几轮训练得到的意图识别模型识别出该特定问题下回答所对应的实际意图的概率小于一定的预设阈值。
比如,在一种可能的实现方式中,用于模型训练的样本训练数据满足:包含特定问题的样本数据的数据量远小于不包含特定问题的样本数据的数据量,如两者的数据量之比可以为1:1000、1:10000等。如可以设定第一预设阈值为1%,通过调整包含特定问题的样本数据和不包含特定问题的样本数据的数据量之比,以使得到的模型在对样本训练数据进行识别时,识别出特定问题下回答所对应意图的概率小于1%。
再比如,在另一种可能的实现方式中,还可以考虑不对特定问题的样本数据进行训练。如步骤103在前N轮模型训练中弱化特定问题的训练时,可以在前N轮模型训练中利用第一样本训练数据训练意图识别模型。其中,第一样本训练数据为样本训练数据中不包括特定问题的数据。如此,由于在训练时没有对特定问题及其回答进行训练,因此前N轮得到的模型无法识别出特定问题的回答所对应的意图,从而能够从识别结果中更加准确地找出需要进行区分和解耦的回答。
然后在步骤105中,利用前N轮模型训练得到的意图识别模型对样本输入数据进行识别,得到至少一个第一意图。
本步骤中,进行意图识别的样本输入数据是包括特定问题的样本数据的,由于步骤103中在前N轮模型训练中弱化了对特定问题的训练,因此此时得到的意图识别模型无法识别出特定问题下的回答所对应的意图。如此基于特定问题下的真实意图和意图识别模型的识别结果,即可确定出需要进行区分或解耦回答,进而确定出其所对应的意图。
如图2所示,在一种可能的方式中,步骤105在利用前N轮模型训练得到的意图识别模型对样本输入数据进行识别得到至少一个第一意图时,可以通过如下步骤实现:
步骤201:将样本输入数据输入前N轮模型训练得到的意图识别模型中,输出各样本意图的概率值;
步骤203:从样本意图中确定输入意图识别模型中的各样本输入数据所对应的目标意图;其中,目标意图用于表征样本输入数据中的回答所具有的真实意图;
步骤205:从各样本意图的概率值中确定目标意图的概率值;以及,
步骤207:将目标意图中概率值小于第二预设阈值的目标意图确定为第一意图。
本实施例中,第一意图是特定问题下的回答中需要结合问题才能得出的意图。而在确定第一意图时,首先将样本输入数据输入通过前N轮模型训练得到的意图识别模型中得到各样本意图的概率值。然后从各样本意图中确定输入到各意图识别模型中的各样本输入数据所对应的目标意图,进一步从各样本意图的概率值中确定目标意图的概率值。最后即可将目标意图中概率值小于第二预设阈值的目标意图确定为第一意图。由于前N轮模型训练中弱化了对特定问题的训练,因此利用前N轮模型训练得到的意图识别模型对样本输入数据进行识别时,如果某一个意图是一个回答真实存在的意图,但又没有识别出该意图,或识别出的该意图的概率值非常低,则说明该意图是第一意图,即需要进行解耦的回答所对应的意图。
下面对步骤201进行说明。
样本意图是样本训练数据中各个问题和回答的集合所对应的意图,如“类型-交易”、“目的-方式”、“对象-交易”、“目的-游戏”等。在将样本输入数据输入意图识别模型中后,可以得到对应各个样本意图的概率。比如,对于问题“你买了什么”的回答“买了只小狗”,其所对应的意图为“目的-买宠物”,那么当将上述问题和回答输入意图识别模型中后,识别出的意图为“目的-买宠物”,即“目的-买宠物”的概率值会很高,而其他意图的概率值则很低。
下面对步骤203进行说明。
对于任意一个问题的回答来说,其都具有至少一个目标意图,即该问题和回答所具有的真实意图。比如,对于特定问题“你是在玩一般的网络游戏还是充值赚钱类的游戏
Figure 9810DEST_PATH_IMAGE001
”,其回答为A“一般的”。显然该问题和回答所对应的目标意图为“目的-游戏”,即其存在的真实意图为“目的-游戏”。样本意图中的其他问题针对该问题和回答来说则不是真实意图。
当然,对于一个问题的回答来说,其可能同时具有多个意图。如问题“你向A账户转账是因为什么”的回答为“买了小狗”,那么其对应的真实意图有“目的-买宠物”、“账户-转账对象”。
下面对步骤205进行说明。
本步骤中,当确定出各个样本意图的概率值和目标意图时,可以进一步确定出目标意图所对应的概率值。即从步骤201中确定的各个样本意图中确定出步骤203确定的目标意图的概率值。比如,对于问题“你是在玩一般的网络游戏还是充值赚钱类的游戏
Figure 251435DEST_PATH_IMAGE001
”的回答为“一般的”,确定其目标意图“目的-游戏”的概率值。再比如,对于问题“你向A账户转账是因为什么”的回答为“买了小狗”,确定其目标意图“目的-买宠物”和“账户-转账对象”各自的概率值。
下面对步骤207进行说明。
在本步骤中,由于利用前N轮训练的模型对该问题和回答进行识别时,虽然“目的-游戏”是“一般的”这个回答所对应的真实意图,但由于其弱化了对该特定问题的训练。因此,在得到的识别结果中,“目的-游戏”这个意图的概率值是较小的。基于此,当确定出目标意图的概率值后,可以考虑根据概率值确定该目标意图是否为第一意图。如第二预设阈值为50%,即“目的-游戏”这个意图的概率值是小于50%的。如此,目标意图中概率值小于50%的目标意图即为所要确定的第一意图。
进一步在步骤107中,根据样本意图的标签对各个第一意图的标签进行重置。
本步骤中,当确定出需要解耦或区分的回答所对应的第一意图之后,考虑通过重置标签来区分出该第一意图。如此,在利用最终训练得到的意图识别模型进行意图识别时,可以更加准确地识别出特定问题及其回答所对应的意图。
在一种可能的实现方式中,目标意图的标签为第一标签,样本意图中不为目标意图的意图的标签为第二标签,如第一标签为1,第二标签为0。如此在根据样本意图的标签对各个第一意图的标签进行重置时,考虑将第一意图的标签重置为第二标签。由于第二标签与目标意图的标签不同。通过将第一意图的标签重置为第二标签,即使得意图识别模型识别不出该意图,但可以通过其他回答识别出。例如,通过本实施例可以使得意图识别模型通过“一般的”这个回答识别不出“目的-游戏”这个意图,而通过“网络游戏”这个回答可以识别出“目的-游戏”这个意图,从而提高意图识别的准确性。
在另一种可能的实现方式中,还可以考虑通过扩展意图的方式对第一意图的标签进行重置。比如,如图3所示,当目标意图的标签为第一标签,且样本意图中不为目标意图的标签为第二标签时,步骤107在对第一意图的标签进行重置时可以通过如下步骤实现:
步骤301:将样本训练数据中的样本意图进行复制,得到扩展意图;其中,每一个扩展意图唯一对应一个样本意图;
步骤303:将第一意图所对应的样本意图的标签重置为第二标签;以及,
步骤305:将第一意图所对应的扩展意图的标签重置为第一标签;
本实施例中,在对第一意图的标签进行重置时,首先可以将样本训练数据中的样本意图进行复制得到与样本意图一一对应的扩展意图。然后将第一意图所对应的样本意图的标签重置为第二标签,并将第一意图所对应的扩展标签重置为第一标签。如此在识别第一意图时,可以通过判断其所对应的是样本意图还是扩展意图来进一步确定该意图是否为特定问题的回答所对应的意图,从而提高特定问题下回答的意图识别准确性。
最后在步骤109中,利用对第一意图的标签进行重置后的样本训练数据继续训练意图识别模型。
当对第一意图的标签进行重置之后,即可利用重置标签后的数据继续进行模型训练。比如,当第一意图所对应的样本意图的标签重置为第二标签,且第一意图所对应的扩展意图的标签重置为第一标签之后,步骤109可以将第一意图重置标签后的样本意图和扩展意图及其标签作为样本输出数据继续训练意图识别模型,以实现提高特定问题下回答的意图识别准确性。
如图4所示,本说明书实施例还提供了一种意图识别方法,该方法可以包括如下步骤:
步骤401:获取待进行意图识别的待识别数据;
步骤403:利用意图识别模型对待识别数据进行识别,得到意图识别结果;其中,意图识别模型是利用本说明书任一实施例的意图识别模型的训练方法训练得到的。
由于在前几轮的模型训练中弱化了对特定问题的训练,从而能够找出需要进行区分的意图。进一步,通过对找出的这些意图的标签进行重置再训练意图识别模型,因此该意图识别模型能够对特定问题的回答也具有较好的识别效果,即在进行意图识别时具有较高的准确性。
在一种可能的实现方式中,待识别数据可以包括问题和回答的待识别集合。如此,如图5所示,步骤403在利用意图识别模型对待识别数据进行识别得到意图识别结果时,可以通过如下步骤实现:
步骤501:将待识别数据输入意图识别模型中,得到意图识别模型输出的初级意图识别结果;
步骤503:当初级意图识别结果为扩展意图时,将待识别集合中的回答输入预先训练的问题预测模型中,得到预测问题;其中,拓展意图用于表征对训练意图识别模型的样本意图进行复制得到的意图;问题预测模型通过至少一组样本集训练得到,且每一组样本集中包括一个问题和一个回答;
步骤505:判断待识别集合中的问题和预测问题是否一致;
步骤507:若一致,则待识别数据的意图识别结果为初级意图识别结果;
步骤509:若不一致,则待识别数据的意图识别结果不为初级意图识别结果。
本实施例中,在对待识别数据进行识别得到意图识别结果时,首先可以将待识别数据输入意图识别模型中得到输出的初级意图识别结果。然后在初级意图识别结果为扩展意图时,将待识别集合中的回答输入预先训练的问题预测模型中预测出该回答所对应的预测问题。进一步判断该待识别结果中的实际问题和预测出的问题是否一致,如果一致,则说明待识别数据的意图即为初级意图识别结果;如果不一致,则说明待识别数据的意图不是初级意图识别结果。
由于特定问题不只一个,当预测出拓展意图后,我们需要知道当前待识别数据的问题是不是对应的那一个特定问题,因为当前待识别数据的回答只在其对应的特定问题下出现过,所以根据回答是可以直接预测出该问题的。如果回答预测出的问题和当前的问题不符,则说明当前待识别数据中的问题不是对应的特定问题,因此需要将预测结果删除,即不采纳该意图识别模型识别出的结果。
例如,对于特定问题“你是在玩一般的网络游戏还是充值赚钱类的游戏
Figure 198663DEST_PATH_IMAGE001
”,“一般的”这种回答只在该特定问题下出现过。因此将“一般的”这个回答输入问题预测模型中可以预测出该问题。而如果实际预测出的问题不是该特定问题,则说明该意图识别模型预测的结果是不可信的,从而不采纳该意图识别模型的结果。
需要指出的是,问题预测模型通过包含问题和回答的样本数据训练得到,其可以为独立于意图识别模型之外的一个模型,也可以集成到意图识别模型中,由意图识别模型同时去实现对问题的预测。
如图6所示,本说明书实施例还提供了一种意图识别模型的训练装置,包括:训练数据获取模块601、第一训练模块602、意图识别模块603、标签重置模块604和第二训练模块605;
训练数据获取模块601,配置为获取用于进行模型训练的样本训练数据;其中,样本训练数据包括:作为样本输入数据的问题和回答的集合,以及作为样本输出数据的样本意图;问题包括:特定问题;特定问题满足:该特定问题下出现的回答所对应的意图与在其他问题下出现该回答时所对应的意图相同;
第一训练模块602,配置为利用训练数据获取模块601获取到的样本训练数据进行M轮模型训练时,在前N轮模型训练中弱化特定问题的训练,以使前N轮训练得到的意图识别模型识别出特定问题下回答所对应的意图的概率小于第一预设阈值;其中,M和N均为正整数,且N<M;
意图识别模块603,配置为利用第一训练模块602在前N轮模型训练得到的意图识别模型对样本输入数据进行识别,得到至少一个第一意图;
标签重置模块604,配置为根据样本意图的标签对意图识别模块603得到的各个第一意图的标签进行重置;以及,
第二训练模块605,配置为利用标签重置模块604对第一意图的标签进行重置后的样本训练数据继续训练意图识别模型。
在一种可能的实现方式中,样本训练数据包括:第一样本训练数据,该第一样本训练数据中的问题不包括特定问题;
第一训练模块602在前N轮模型训练中弱化特定问题的训练时,配置成在前N轮模型训练中利用第一样本训练数据训练意图识别模型。
在一种可能的实现方式中,意图识别模块603在利用前N轮模型训练得到的意图识别模型对样本输入数据进行识别得到至少一个第一意图时,配置成执行如下操作:
将样本输入数据输入前N轮模型训练得到的意图识别模型中,输出各样本意图的概率值;
从样本意图中确定输入意图识别模型中的各样本输入数据所对应的目标意图;其中,目标意图用于表征样本输入数据中的回答所具有的真实意图;
从各样本意图的概率值中确定目标意图的概率值;以及,
将目标意图中概率值小于第二预设阈值的目标意图确定为第一意图。
在一种可能的实现方式中,目标意图的标签为第一标签,样本意图中不为目标意图的意图的标签为第二标签;
标签重置模块604在根据样本意图的标签对各个第一意图的标签进行重置时,配置成将第一意图的标签重置为第二标签。
在一种可能的实现方式中,目标意图的标签为第一标签,样本意图中不为目标意图的意图的标签为第二标签;
标签重置模块604在根据样本意图的标签对各个第一意图的标签进行重置时,配置成执行如下操作:
将样本训练数据中的样本意图进行复制,得到扩展意图;其中,每一个扩展意图唯一对应一个样本意图;
将第一意图所对应的样本意图的标签重置为第二标签;以及,
将第一意图所对应的扩展意图的标签重置为第一标签;
在一种可能的实现方式中,第二训练模块605在利用对第一意图的标签进行重置后的样本训练数据继续训练意图识别模型时,配置成将对第一意图重置标签后的样本意图和扩展意图及其标签作为样本输出数据,继续训练意图识别模型。
如图7所示,本说明书实施例还提供了一种意图识别装置,包括:识别数据获取模块701和识别结果确定模块702;
识别数据获取模块701,配置为获取待进行意图识别的待识别数据;
识别结果确定模块702,配置为利用意图识别模型对识别数据获取模块701获取到的待识别数据进行识别,得到意图识别结果;其中,意图识别模型是利用上述任一实施例提供的意图识别模型的训练装置训练得到的。
在一种可能的实现方式中,待识别数据包括:问题和回答的待识别集合;
识别结果确定模块702在利用意图识别模型对待识别数据进行识别得到意图识别结果时,配置成执行如下操作:
将待识别数据输入意图识别模型中,得到意图识别模型输出的初级意图识别结果;
当初级意图识别结果为扩展意图时,将待识别集合中的回答输入预先训练的问题预测模型中,得到预测问题;其中,拓展意图用于表征对训练意图识别模型的样本意图进行复制得到的意图;问题预测模型通过至少一组样本集训练得到,且每一组样本集中包括一个问题和一个回答;
判断待识别集合中的问题和预测问题是否一致;
若一致,则待识别数据的意图识别结果为初级意图识别结果;
若不一致,则待识别数据的意图识别结果不为初级意图识别结果。
本说明书还提供了一种计算机可读存储介质,其上存储有计算机程序,当计算机程序在计算机中执行时,令计算机执行说明书中任一个实施例中的方法。
本说明书还提供了一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现说明书中任一个实施例中的方法。
可以理解的是,本说明书实施例示意的结构并不构成对意图识别模型的训练装置和意图识别装置的具体限定。在说明书的另一些实施例中,意图识别模型的训练装置和意图识别装置可以包括比图示更多或者更少的部件,或者组合某些部件,或者拆分某些部件,或者不同的部件布置。图示的部件可以以硬件、软件或者软件和硬件的组合来实现。
上述装置内的各单元之间的信息交互、执行过程等内容,由于与本说明书方法实施例基于同一构思,具体内容可参见本说明书方法实施例中的叙述,此处不再赘述。
本领域技术人员应该可以意识到,在上述一个或多个示例中,本说明书所描述的功能可以用硬件、软件、挂件或它们的任意组合来实现。当使用软件实现时,可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。
以上所述的具体实施方式,对本说明书描述的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的技术方案的基础之上,所做的任何修改、等同替换、改进等,均应包括在本发明的保护范围之内。

Claims (10)

1.一种意图识别模型的训练方法,包括:
获取用于进行模型训练的样本训练数据;其中,所述样本训练数据包括:作为样本输入数据的问题和回答的集合,以及作为样本输出数据的样本意图;所述问题包括:特定问题;所述特定问题满足:该特定问题下出现的回答所对应的意图与在其他问题下出现该回答时所对应的意图相同,但在不同的问题下其所具有的实际意图是不同的;
利用所述样本训练数据进行M轮模型训练时,在前N轮模型训练中弱化所述特定问题的训练,以使前N轮训练得到的意图识别模型识别出所述特定问题下回答所对应的意图的概率小于第一预设阈值;其中,M和N均为正整数,且N<M;
利用前N轮模型训练得到的意图识别模型对所述样本输入数据进行识别,得到至少一个第一意图;
根据所述样本意图的标签对各个所述第一意图的标签进行重置;以及,
利用对所述第一意图的标签进行重置后的样本训练数据继续训练所述意图识别模型。
2.根据权利要求1所述的方法,所述在前N轮模型训练中弱化所述特定问题的训练,包括:
在前N轮模型训练中利用第一样本训练数据训练所述意图识别模型;其中,所述第一样本训练数据中的问题不包括所述特定问题。
3.根据权利要求1所述的方法,其中,所述利用前N轮模型训练得到的意图识别模型对所述样本输入数据进行识别得到至少一个第一意图,包括:
将所述样本输入数据输入前N轮模型训练得到的意图识别模型中,输出各样本意图的概率值;
从所述样本意图中确定输入所述意图识别模型中的各样本输入数据所对应的目标意图;其中,所述目标意图用于表征所述样本输入数据中的回答所具有的真实意图;
从各样本意图的概率值中确定所述目标意图的概率值;以及,
将所述目标意图中概率值小于第二预设阈值的目标意图确定为所述第一意图。
4.根据权利要求3所述的方法,其中,所述目标意图的标签为第一标签,所述样本意图中不为所述目标意图的意图的标签为第二标签;
所述根据所述样本意图的标签对各个所述第一意图的标签进行重置,包括:
将所述第一意图的标签重置为所述第二标签。
5.根据权利要求3所述的方法,其中,所述目标意图的标签为第一标签,所述样本意图中不为所述目标意图的意图的标签为第二标签;
所述根据所述样本意图的标签对各个所述第一意图的标签进行重置,包括:
将所述样本训练数据中的样本意图进行复制,得到扩展意图;其中,每一个扩展意图唯一对应一个样本意图;
将所述第一意图所对应的样本意图的标签重置为所述第二标签;以及,
将所述第一意图所对应的扩展意图的标签重置为第一标签;
所述利用对所述第一意图的标签进行重置后的样本训练数据继续训练所述意图识别模型,包括:
将对所述第一意图重置标签后的样本意图和扩展意图及其标签作为所述样本输出数据,继续训练所述意图识别模型。
6.一种意图识别方法,包括:
获取待进行意图识别的待识别数据;
利用意图识别模型对所述待识别数据进行识别,得到意图识别结果;其中,所述意图识别模型是利用如权利要求1至5中任一所述的意图识别模型的训练方法训练得到的。
7.根据权利要求6所述的方法,其中,所述待识别数据包括:问题和回答的待识别集合;
所述利用意图识别模型对所述待识别数据进行识别得到意图识别结果,包括:
将所述待识别数据输入所述意图识别模型中,得到所述意图识别模型输出的初级意图识别结果;
当所述初级意图识别结果为扩展意图时,将所述待识别集合中的回答输入预先训练的问题预测模型中,得到预测问题;其中,拓展意图用于表征对训练所述意图识别模型的样本意图进行复制得到的意图;所述问题预测模型通过至少一组样本集训练得到,且每一组样本集中包括一个问题和一个回答;
判断所述待识别集合中的问题和所述预测问题是否一致;
若一致,则所述待识别数据的意图识别结果为所述初级意图识别结果;
若不一致,则所述待识别数据的意图识别结果不为所述初级意图识别结果。
8.一种意图识别模型的训练装置,包括:训练数据获取模块、第一训练模块、意图识别模块、标签重置模块和第二训练模块;
所述训练数据获取模块,配置为获取用于进行模型训练的样本训练数据;其中,所述样本训练数据包括:作为样本输入数据的问题和回答的集合,以及作为样本输出数据的样本意图;所述问题包括:特定问题;所述特定问题满足:该特定问题下出现的回答所对应的意图与在其他问题下出现该回答时所对应的意图相同,但在不同的问题下其所具有的实际意图是不同的;
所述第一训练模块,配置为利用所述训练数据获取模块获取到的所述样本训练数据进行M轮模型训练时,在前N轮模型训练中弱化所述特定问题的训练,以使前N轮训练得到的意图识别模型识别出所述特定问题下回答所对应的意图的概率小于第一预设阈值;其中,M和N均为正整数,且N<M;
所述意图识别模块,配置为利用所述第一训练模块在前N轮模型训练得到的意图识别模型对所述样本输入数据进行识别,得到至少一个第一意图;
所述标签重置模块,配置为根据所述样本意图的标签对所述意图识别模块得到的各个所述第一意图的标签进行重置;以及,
所述第二训练模块,配置为利用所述标签重置模块对所述第一意图的标签进行重置后的样本训练数据继续训练所述意图识别模型。
9.一种意图识别装置,包括:识别数据获取模块和识别结果确定模块;
所述识别数据获取模块,配置为获取待进行意图识别的待识别数据;
所述识别结果确定模块,配置为利用意图识别模型对所述识别数据获取模块获取到的所述待识别数据进行识别,得到意图识别结果;其中,所述意图识别模型是利用如权利要求8所述的意图识别模型的训练装置训练得到的。
10.一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现权利要求1-7中任一项所述的方法。
CN202211135890.8A 2022-09-19 2022-09-19 意图识别模型的训练方法和装置及意图识别方法和装置 Active CN115269809B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202211135890.8A CN115269809B (zh) 2022-09-19 2022-09-19 意图识别模型的训练方法和装置及意图识别方法和装置
US18/467,636 US20240095596A1 (en) 2022-09-19 2023-09-14 Intention identification model training method and apparatus, and intention identification method and apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211135890.8A CN115269809B (zh) 2022-09-19 2022-09-19 意图识别模型的训练方法和装置及意图识别方法和装置

Publications (2)

Publication Number Publication Date
CN115269809A CN115269809A (zh) 2022-11-01
CN115269809B true CN115269809B (zh) 2022-12-30

Family

ID=83757502

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211135890.8A Active CN115269809B (zh) 2022-09-19 2022-09-19 意图识别模型的训练方法和装置及意图识别方法和装置

Country Status (2)

Country Link
US (1) US20240095596A1 (zh)
CN (1) CN115269809B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111401071A (zh) * 2019-01-02 2020-07-10 百度在线网络技术(北京)有限公司 模型的训练方法、装置、计算机设备和可读存储介质
CN112347760A (zh) * 2020-11-16 2021-02-09 北京京东尚科信息技术有限公司 意图识别模型的训练方法及装置、意图识别方法及装置
CN114357973A (zh) * 2021-12-10 2022-04-15 马上消费金融股份有限公司 意图识别方法、装置、电子设备及存储介质

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107862027B (zh) * 2017-10-31 2019-03-12 北京小度信息科技有限公司 检索意图识别方法、装置、电子设备及可读存储介质
CN111563208B (zh) * 2019-01-29 2023-06-30 株式会社理光 一种意图识别的方法、装置及计算机可读存储介质
CN110377911B (zh) * 2019-07-23 2023-07-21 中国工商银行股份有限公司 对话框架下的意图识别方法和装置
CN112148874A (zh) * 2020-07-07 2020-12-29 四川长虹电器股份有限公司 可自动新增用户潜在意图的意图识别方法及系统
US11508360B2 (en) * 2020-09-15 2022-11-22 Microsoft Technology Licensing, Llc Synthetic data generation for training of natural language understanding models
CN112037773B (zh) * 2020-11-05 2021-01-29 北京淇瑀信息科技有限公司 一种n最优口语语义识别方法、装置及电子设备
CN112541079A (zh) * 2020-12-10 2021-03-23 杭州远传新业科技有限公司 多意图识别方法、装置、设备及介质
CN113158029B (zh) * 2021-03-12 2023-10-31 腾讯科技(深圳)有限公司 一种内容展示方法、装置和计算机可读存储介质
CN113704429A (zh) * 2021-08-31 2021-11-26 平安普惠企业管理有限公司 基于半监督学习的意图识别方法、装置、设备及介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111401071A (zh) * 2019-01-02 2020-07-10 百度在线网络技术(北京)有限公司 模型的训练方法、装置、计算机设备和可读存储介质
CN112347760A (zh) * 2020-11-16 2021-02-09 北京京东尚科信息技术有限公司 意图识别模型的训练方法及装置、意图识别方法及装置
CN114357973A (zh) * 2021-12-10 2022-04-15 马上消费金融股份有限公司 意图识别方法、装置、电子设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于用户自然标注的微博文本的消费意图识别;付博等;《中文信息学报》;20170715(第04期);全文 *

Also Published As

Publication number Publication date
US20240095596A1 (en) 2024-03-21
CN115269809A (zh) 2022-11-01

Similar Documents

Publication Publication Date Title
CN109658938B (zh) 语音与文本匹配的方法、装置、设备及计算机可读介质
CN111753076B (zh) 对话方法、装置、电子设备及可读存储介质
CN109376535B (zh) 一种基于智能化符号执行的漏洞分析方法及系统
CN106649739B (zh) 多轮交互信息继承识别方法、装置以及交互系统
CN113139664B (zh) 一种跨模态的迁移学习方法
US11200453B2 (en) Information processing system, an information processing method and a computer readable storage medium
CN109948140B (zh) 一种词向量嵌入方法及装置
CN111428448A (zh) 文本生成方法、装置、计算机设备及可读存储介质
US11449715B2 (en) Sequential learning maintaining a learned concept
CN109615080B (zh) 无监督模型评估方法、装置、服务器及可读存储介质
CN115269809B (zh) 意图识别模型的训练方法和装置及意图识别方法和装置
CN116842384A (zh) 多模态模型训练方法、装置、电子设备及可读存储介质
CN113792132B (zh) 一种目标答案确定方法、装置、设备及介质
CN115544232A (zh) 车载智能问答和信息推荐方法及装置
CN113449775B (zh) 一种基于类激活映射机制的多标签图像分类方法和系统
CN118119935A (zh) 图像文本匹配模型的训练方法、装置、设备及存储介质
CN115221316A (zh) 知识库处理、模型训练方法、计算机设备及存储介质
CN113657446A (zh) 多标签情绪分类模型的处理方法、系统和存储介质
CN116824151B (zh) 图像特征的识别方法、装置、电子设备及介质
CN118132729B (zh) 基于医疗知识图谱的答案生成方法及装置
CN115049899B (zh) 模型训练方法、指代表达式生成方法及相关设备
CN115147668B (zh) 疾病分类模型的训练方法、疾病分类的方法及相关产品
CN116311312A (zh) 视觉问答模型的训练方法和视觉问答方法
JP3577385B2 (ja) 学習装置及び学習方法
CN117312909A (zh) 基于提示词微调的持续学习的任务处理方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant