CN116911314A - 意图识别模型的训练方法、会话意图识别方法及系统 - Google Patents
意图识别模型的训练方法、会话意图识别方法及系统 Download PDFInfo
- Publication number
- CN116911314A CN116911314A CN202311180754.5A CN202311180754A CN116911314A CN 116911314 A CN116911314 A CN 116911314A CN 202311180754 A CN202311180754 A CN 202311180754A CN 116911314 A CN116911314 A CN 116911314A
- Authority
- CN
- China
- Prior art keywords
- intention
- intent
- training
- corpus
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012549 training Methods 0.000 title claims abstract description 120
- 238000000034 method Methods 0.000 title claims abstract description 53
- 239000013598 vector Substances 0.000 claims abstract description 50
- 230000000873 masking effect Effects 0.000 claims abstract description 15
- 238000003058 natural language processing Methods 0.000 claims description 137
- 239000004973 liquid crystal related substance Substances 0.000 claims description 8
- 238000007635 classification algorithm Methods 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 3
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 238000012545 processing Methods 0.000 description 11
- 230000004044 response Effects 0.000 description 10
- 238000004891 communication Methods 0.000 description 6
- 239000000446 fuel Substances 0.000 description 6
- 230000008859 change Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000002372 labelling Methods 0.000 description 4
- 230000006399 behavior Effects 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 3
- 238000013145 classification model Methods 0.000 description 3
- 238000004590 computer program Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 239000003921 oil Substances 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 238000007477 logistic regression Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000008439 repair process Effects 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 238000004378 air conditioning Methods 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000009223 counseling Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 102000042270 mask family Human genes 0.000 description 1
- 108091077616 mask family Proteins 0.000 description 1
- 239000002184 metal Substances 0.000 description 1
- 239000010705 motor oil Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 239000000725 suspension Substances 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/01—Customer relationship services
- G06Q30/015—Providing customer assistance, e.g. assisting a customer within a business location or via helpdesk
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0281—Customer communication at a business location, e.g. providing product or service information, consulting
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Business, Economics & Management (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Development Economics (AREA)
- Strategic Management (AREA)
- Finance (AREA)
- Accounting & Taxation (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Economics (AREA)
- Software Systems (AREA)
- General Business, Economics & Management (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Marketing (AREA)
- Human Computer Interaction (AREA)
- Probability & Statistics with Applications (AREA)
- Entrepreneurship & Innovation (AREA)
- Game Theory and Decision Science (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供一种意图识别模型的训练方法、会话意图识别方法及系统,属于人工智能技术领域。所述方法包括:遮掩提示模板语料,以获得训练文本,所述训练文本包括遮掩的意图标识和未遮掩的文本;基于所述训练文本和未遮掩的提示模板语料,对NLP模型进行训练,以获得优化NLP模型;将遮掩所述意图标识的提示模板语料输入所述优化NLP模型,提取所述优化NLP模型的嵌入向量;以所述嵌入向量为训练样本,以所述意图标识为标签,对意图识别模型进行训练。本发明可用于智能客服系统提供符合客户会话意图的会话消息服务。
Description
技术领域
本发明涉及人工智能技术领域,具体地涉及一种意图识别模型的训练方法、一种会话意图识别方法、一种自然语言处理系统、一种电子设备和一种机器可读存储介质。
背景技术
在日常对话中,意图是实际需求和希望实现行为的计划,例如商品信息及功能需求、购买商品的计划等。在智能客服系统中,使用自然语言理解技术(Natural LanguageUnderstanding,NLU)的语义模型,可尝试识别用户的会话意图,实验性地向客户提供机器客服的应答服务。目前已开展了智能客服系统的测试,发现智能客服系统可识别包含简单高频语句描述的会话意图,例如简单高频语句可以包括广泛使用的商品术语和简短上下文。
然而,智能客服系统面临与普遍的客户对话时,相似的客户对话语句之间存在可改变/相反意图的字词,同时智能客服系统的语义模型采用句子权值确定客户对话语句的具体意图,可改变/相反意图的字词长度相对于语句上下文较短,并不会使得句子权值有明显变化,这将导致智能客服系统的语义模型对相似的客户对话语句的意图识别出现严重的偏差,因而机器客服难以提供与客户会话意图关联的应答,很难将智能客服系统进行线上应用。
发明内容
本发明的目的是提供一种意图识别模型的训练方法、会话意图识别方法及系统,避免面临相似的客户对话语句时出现模型的意图识别偏差,导致的难以实现智能客服系统应用,以实现符合客户会话意图的机器客服服务。
为了实现上述目的,本说明书采用下述方案:
第一方面,本发明实施例提供一种意图识别模型的训练方法,该训练方法包括:
遮掩提示模板语料,以获得训练文本,所述训练文本包括遮掩的意图标识和未遮掩的文本;
基于所述训练文本和未遮掩的提示模板语料,对NLP模型进行训练,以获得优化NLP模型,未遮掩的提示模板语料包括未遮掩的意图标识和未遮掩的文本;
将遮掩所述意图标识的提示模板语料输入所述优化NLP模型,提取所述优化NLP模型的嵌入向量;
以所述嵌入向量为训练样本,以所述意图标识为标签,对意图识别模型进行训练。
第二方面,本发明实施例提供一种会话意图识别方法,该会话意图识别方法包括:
获取输入的文本会话消息;
基于意图识别模型和所述会话消息输入的文本,确定意图标识;其中,
所述意图识别模型是通过前述的意图识别模型的训练方法训练获得的。
第三方面,本发明实施例提供一种自然语言处理系统,该自然语言处理系统包括:
遮掩模块,用于遮掩提示模板语料,以获得训练文本,所述训练文本包括遮掩的意图标识和未遮掩的文本;
NLP模型训练模块,用于基于所述训练文本和未遮掩的提示模板语料,对NLP模型进行训练,以获得优化NLP模型,未遮掩的提示模板语料包括未遮掩的意图标识和未遮掩的文本;
提取模块,用于将遮掩所述意图标识的提示模板语料输入所述优化NLP模型,提取所述优化NLP模型的嵌入向量;
意图识别模型训练模块,用于以所述嵌入向量为训练样本,以所述意图标识为标签,对意图识别模型进行训练。
第四方面,本发明实施例提供一种电子设备,该电子设备包括:
至少一个处理器;
存储器,与所述至少一个处理器连接;
其中,所述存储器存储有能被所述至少一个处理器执行的指令,所述至少一个处理器通过执行所述存储器存储的指令,所述至少一个处理器通过执行所述存储器存储的指令实现前述的方法。
第五方面,本发明实施例提供一种机器可读存储介质,存储有机器指令,当所述机器指令在机器上运行时,使得机器执行前述的方法。
在本发明中,提示模板语料能够用于同时提供意图标识和文本的关联信息,对提示模板语料进行遮掩,使得训练文本提供可被模型学习的关联信息的特点,而不是收集语料形成单独的文本作为样本,也不是形成单独的意图标签。通过训练文本和未遮掩的提示模板语料进行NLP模型训练,能够使得应用于智能客服系统的模型学习到意图标识和文本的关联信息,以及形成与文本映射的意图标识的特征信息,而不是使得模型学习相似文本的权值和文本中上下文相似性找到意图标签。然后,利用训练的NLP模型基于遮掩意图标识的提示模板语料导出嵌入向量,作为训练样本,并使用关联的意图标识为训练时的标签,训练了不同于NLP模型的意图识别模型(而不是单独使用句子训练),能够使得(存在改变/相反意图的字词的)相似客户对话句子意图识别结果分别符合对应的客户对话意图,从而实现上线应用的智能客服系统,提供机器客服与客户进行客户意图关联的会话,例如会话消息中,客户说“这车油耗很高,我考虑下买不买”,机器客服识别为客户会话意图是不希望实现购买的计划,以及客户说“这车油耗很低,我考虑下买不买”,机器客服识别为客户会话意图是希望实现购买的计划。
本发明实施例的其它特征和优点将在随后的具体实施方式部分予以详细说明。
附图说明
附图是用来提供对本发明实施例的进一步理解,并且构成说明书的一部分,与下面的具体实施方式共同用于解释本发明实施例,但并不构成对本发明实施例的限定。在附图中:
图1 为本发明实施例的主要方法步骤示意图;
图2 为本发明实施例的一种示例性的应用于服务器的模型训练场景示意图;
图3 为本发明实施例的一种示例性的应用于服务器的模型使用场景示意图;
图4 为本发明实施例的一种示例性的电子设备模块示意图。
具体实施方式
为使本说明书的目的、技术方案和优点更加清楚,以下结合附图对本发明实施例的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本发明实施例,并不用于限制本发明实施例。
正如前文所述,目前意图识别的研究主要以句子构成样本和形成意图标签,尝试训练机器模型,采用的方法主要是以下方式:其一是,采用分类符[CLS]标记值token的嵌入向量embedding作为句子的嵌入向量embedding;其二是,将句子中所有标记值token的嵌入向量embedding的平均值作为句子的嵌入向量embedding。如此,训练的模型能够使得机器客服开展一些简短、高频的客户会话,但是在面临普遍的客户对话时,包含改变/相反意图字词的相似客户对话句子之间,意图识别效果存在偏差,其原因是在生成句子的嵌入向量时,这种方式生成的嵌入向量embedding并不能表示句子核心语义或意图,对于客户对话是长文本的,或包含改变/相反意图字词的相似客户对话句子来说,一个字词的不同将导致语义改变,会话意图不同,使用前述方式获得句子的嵌入向量embedding,在语义空间上并不会受到一个字词变化而变化,用于意图识别的句子向量的特征(相似客户对话句子)变化并不敏感,这将导致智能客服系统判断相似客户对话句子的客户会话意图错误,机器客服很难提供符合客户会话意图的会话消息服务。
鉴于此,本说明书提供了意图识别模型的训练方案,对提示模板语料进行遮掩,获得训练文本,使得训练文本同时提供遮掩的意图标识和未遮掩的文本的关联信息,能够用于与未遮掩的提示模板语料共同对NLP(自然语言处理,Natural Language Processing)模型进行训练,使得模型学习到意图标识和文本的关联信息,可以提取训练后的优化NLP模型中的嵌入向量,该嵌入向量表示相似客户对话语句描述的特征信息具有关联意图标识的特征信息,可以以嵌入向量为训练样本,以意图标识为标签,训练意图识别模型,从而在智能客服系统面临普遍的客户对话,进行意图识别时,相似客户对话语句描述包含可改变/相反意图的字词或包含低频词的复杂长句子,该嵌入向量能够出现敏感的变化,表示不同的特征信息,意图识别模型能够分别识别关联客户会话意图的意图标识,并将意图标识提供至机器客服,以使得机器客服执行符合客户会话意图的会话消息服务。
应理解,本说明书提供的方法可以由具有计算和指令处理能力的设备执行,例如由服务器或电子设备执行。在本发明实施例中,自然语言处理模型(NLP模型)可以被部署于物理服务器或服务器实例或容器实例中,可称该物理服务器或服务器实例或容器实例为NLP服务器,实例的硬件可以是服务器集群中由处理器资源和存储器资源构成的、具有计算及指令处理功能的资源实例。其中,NLP模型可以是预训练的语言模型,例如BERT(Bidirectional Encoder Representations from Transformers)模型。NLP服务器还可以被部署分类模型,使用NLP模型和分类模型实现意图识别。
在第一方面,请参考图1,本发明实施例提供了一种意图识别模型的训练方法,可以应用于NLP服务器,NLP服务器可以属于智能客服系统,或与智能客服系统通信,以完成模型训练或使用模型进行识别。
在一些可能的实现方式中,NLP服务器可以与智能客服系统进行通信,用于响应于智能客服系统的发送数据,返回处理结果数据。其中,在一些可能的应用中,智能客服系统可以是不同于NLP服务器的服务器实现,智能客服系统可以被配置有接口程序,该接口程序可以接收由网站程序、移动设备应用程序、微服务程序等客服程序发送的客户咨询数据,其中,客服程序可以生成与客户标识对应的会话,用于接收客户输入的文本数据和/或语音数据的功能,该客户咨询数据可以携带客户语句描述(可以是文本数据或由语音数据转换得到)和客户对象标识等信息。智能客服系统可以将客户语句描述发送至NLP服务器,接收由NLP服务器返回的处理结果数据,该处理结果数据可以包括与客户语句描述的意图关联的语句描述、由该语句描述转换的语音数据(text-to-speech,TTS转换服务实现)、由该语句描述转换的图像(text-to-image,TTI转换服务实现)等数据,智能客服系统可以将处理结果数据通过接口程序返回至客服程序,客服程序可以在前述的会话中对处理结果数据进行呈现,例如显示返回的语句描述,播放由此语句描述转换的语音数据,以及显示由此语句描述转换的图像,其中,TTS转换服务和TTI转换服务可以是查表服务、调用封装接口的服务或使用生成式机器模型的服务等。
在另一些可能的应用中,智能客服系统也可以包括用户输入单元、前述NLP服务器和呈现单元,用户输入单元和呈现单元都可以是由部署于服务器或计算机或移动电子设备的应用程序实现的。用户输入单元可包括接口程序和通信程序,该接口程序可以接收由网站程序、移动设备应用程序、微服务程序等客服程序发送的客户咨询数据,客服程序可以从会话中得到客户咨询数据。用户输入单元中的通信程序可以将客户语句描述发送至NLP服务器。呈现单元可包括用户界面程序和通信程序,通信程序可以接收由NLP服务器返回的处理结果数据,呈现单元中用户界面程序可以指示客服程序,用于在会话中对处理结果数据进行呈现。用户输入单元和呈现单元的通信程序可以共用一个通信程序或采用独立的通信程序。
在本发明实施例中,前述的训练方法可以包括:
S1)NLP服务器可以遮掩提示模板语料,以获得训练文本,所述训练文本包括遮掩的意图标识和未遮掩的文本。
在本发明实施例中,所述提示模板语料是基于目标领域的语料数据和原生提示模板生成的;所述意图标识包括意图名称和意图类型标签;未遮掩的文本包括意图定义描述和所述语料数据。
在一些可能的实现方式中,目标领域是智能客服系统的应用领域,例如汽车领域和房地产领域等。目标领域的语料数据可以包括历史会话消息,历史会话消息可以是由目标领域的智能客服系统提供的。历史会话消息可以包括智能客服系统中的机器人客服与由客户使用的终端设备之间的会话消息,历史会话消息还可以包括智能客服系统中的人工客服与由客户使用的终端设备之间的会话消息。其中,会话消息可以包括多条语句描述,语句描述可以包括目标领域的商品术语或零部件术语或产品集成术语的关键词文本以及关键词文本所处上下文,关键词文本例如汽车领域内包含“油耗”、“变速箱”、“SUV”、“内饰”、“机油”、“承载式车身”、“涡轮增压”、“差速器”、“悬架”、“越野车”、“电池续航”等,且会话消息还可以包括目标领域的产品服务的关键词文本,关键词文本例如汽车领域的维修保养服务中,“更换空调滤芯”,“补漆”,“钣金修复”等。在另一些可能的实现方式中,语料数据还可以包括目标领域的网站论坛问答数据和用户评论数据等,网站论坛问答数据和用户评论数据可以包括术语表示或非术语表示的语句描述,这些语句描述可以包括目标领域的商品、零部件等术语以及与术语存在对应关系的通俗语和网红词的关键词文本以及关键词文本所处上下文,关键词文本例如汽车领域的“裸车价格”(只含车辆本身的销售价格)、“顶盖儿”(发动机缸体的缸盖由于损坏导致的破损)、“推背感”(汽车加速性能)等。
在一些可能的应用中,示例地是,语句描述:“这车电池续航多少”(关键词文本即电池续航,“这车多少”即该语句描述的上下文)和“这车油耗多少”等,以及,包含可改变/相反意图的字词的语句描述:客户说“这车油耗很高,我考虑下买不买”(客户会话意图可能是不希望实现购买的计划)和“这车油耗很低,我考虑下买不买”(客户会话意图可能是希望实现购买的计划),类似地,机器客服说“这车油耗很高,您确定要买吗”(机器客服语句描述对应的意图表示是客户实现购买行为之前不推荐性的询问意图)和“这车油耗很低,您确定要买吗”(机器客服语句描述对应的意图表示是客户实现购买行为之前推荐性的询问意图),此时,如果基于语句描述本身的句子权值和上下文关联性,识别客户会话意图是很困难的,本发明实施例将通过原生提示模板生成有语句描述之间不同特点的领域知识模板语料,同时生成有语句描述与关联的意图标识的模板语料,能够使得模型对低频复杂、包含可改变/相反意图的字词的语句描述有敏感的特征表示和识别不同的意图分类。
需要补充说明的是,前述的会话消息可以包括简单、高频的语句描述以及低频的、复杂的语句描述。相对于目标领域,可以通过配置的字词指标与评分的数值表,确定语料数据中涉及的各个字词的评分值,基于此评分值和目标领域内指定的评分阈值,确定是低频词或是高频词;也可以简单地通过语料数据中各字词的出现次数的统计值,以及目标领域内指定的统计阈值,确定是低频词或是高频词。类似地,可以通过配置的语句指标与评分的数值表,确定语料数据中涉及的语句描述是复杂句还是简单句,例如基于语句描述的限定词个数、从句个数、字词个数、领域新词数、存在指定的语法属性等指标,确定语料数据中涉及的语句描述的评分值,基于此评分值和目标领域内指定的语句评分阈值,确定语料数据中涉及的语句描述是复杂句或简单句。
在本发明实施例中,原生提示模板可以是描述语句的文本,原生提示模板可以用于描述替换关系和组合对应关系等,替换关系用于将一条语句描述替换为另一条语句描述或指定的意图标识的关系,组合对应关系用于将机器客服的语句描述和由客户使用终端设备发送的语句描述组合为一条语句描述。原生提示模板可以包括表示替换关系和组合对应关系的模板描述和位置符,位置符用于指示在所述模板描述中填入语句描述的词序和填入意图标识的词序,从而NLP服务器可以执行机器脚本,从数据库服务器获取目标领域的语料数据,批量地、自动化地生成提示模板语料,其中,数据库服务器可以存储有前述的历史会话消息、论坛问答数据和用户评论数据等。
在一些可能的实现方式中,原生提示模板可以包括会话提示模板、标签定义模板和意图模板,会话提示模板可以用于描述语句组合的对应关系,标签定义模板和意图模板可以用于描述替换关系。
在一些可能的应用中,会话提示模板可以是:
机器人:{$B};客户:{$C}。
在该会话提示模板中,模板描述即是,“机器人:;客户:。”。位置符{$B}可以用于指示将机器人(即机器客服)的语句描述[B]作为参数进行传递,NLP服务器可以将语句描述[B]置于“机器人:”之后且置于分号“;”之前。位置符{$C}可以用于指示将客户的语句描述[C]作为参数进行传递,NLP服务器可以将语句描述[C]置于“客户:”之后且置于句号“。”之前。从而通过会话提示模板,NLP服务器可以生成会话提示模板语料:
机器人:语句描述[B];客户:语句描述[C]。
会话提示模板语料可以用于描述会话消息中关联的机器人与客户之间的语句描述的组合对应关系,可以使得NLP模型学习到机器人与客户之间的语句描述的关联信息。此时,未遮掩的会话提示模板语料可以作为标签label数据,前述的步骤S1)可以包括:
S101)NLP服务器可以按照指定的比例值,使用遮掩码([mask])对标签label数据的标记化值token进行随机遮掩(被遮掩的标记化值token占标签label数据的标记化值token比例值即所述比例值),遮掩后返回获得与会话提示模板语料对应的训练文本。
其中,该训练文本可以包括:“机器人:含[mask]的语句描述[B];客户:语句描述[C]。”、“机器人:语句描述[B];[mask]户:语句描述[C]。”、以及“机器人:语句描述[B];客户:含[mask]的语句描述[C]。”等。示例地,在汽车领域中,会话提示模板语料可以是“机器人:您需要推荐越野车还是轿车;客户:我想都看看。”,此时训练文本可以包括:“机器人:您需要推荐[mask]车还是轿车;客户:我想都看看。”、“[mask]:您需要推荐越野车还是轿车;客户:我想都看看。”、或“机器人:您需要推荐越野车还是轿车;客户:我想都[mask]。”等。可以使用未遮掩的会话提示模板语料与训练文本,对NLP模型进行训练,可以使得NLP模型学习到目标领域的领域词汇知识、丰富预测词表的同时,学习到目标领域内的机器人与客户之间语句描述的关联信息。
在一些可能的应用中,标签定义模板可以用于将意图名称替换为意图定义描述。其中,意图定义描述可以是基于在目标领域内语料数据(例如机器人与客户之间的会话消息),标注语料数据的意图定义和定义说明等内容的长文本;意图名称可以是对语料数据的进行标注,得到的名称或简称等短文本。例如在智能客服系统中,会话消息中客户说“这辆车很耗油,我考虑下买不买”,可以将意图定义描述标注为客户不希望实现购买车辆的计划,并可以将意图名称标注为无购买意图;会话消息中客户说“这辆车不耗油,我考虑下买不买”,可以将意图定义描述标注为客户希望实现购买车辆的计划,并可以将意图名称标注为购买意图。在标注的意图定义描述或意图名称时,可以针对会话消息中语句描述之间存在的改变/相反意图,采用文本长度有区别的、语义相反的字词进行标注(例如前述的“不希望”与“希望”,“购买意图”与“无购买意图”),可以使得模型中的标记化值不同、位置编码不同,从而在有相似的客户对话句子(例如长度一致、但意图相反)作为模型输入时,映射出具有不同特征的嵌入向量的模型。标签定义模板可以是:
{$E}意图含义是{$D}。
在该标签定义模板中,模板描述即是,“意图含义是。”。位置符{$E}可以用于指示将意图名称[E]作为参数进行传递,NLP服务器可以将意图名称[E]置于“意图含义是”之前。位置符{$D}可以用于指示将意图定义描述[D]作为参数进行传递,NLP服务器可以将意图定义描述[D]置于“意图含义是”之后且置于句号“。”之前。从而通过标签定义模板,NLP服务器可以生成标签定义模板语料:
意图名称[E]意图含义是意图定义描述[D]。
标签定义模板语料可以用于描述所述意图名称与所述意图定义描述的替换关系,可以使得NLP模型学习到目标领域的意图名称和意图定义描述的关联信息。可以将未遮掩的标签定义模板语料作为标签label数据,前述的步骤S1)还可以包括:
S102)NLP服务器可以将标签定义模板语料中的所述意图名称替换为遮掩码([mask]),将遮掩后的语料作为训练文本。
其中,该训练文本可以包括:“[mask]意图含义是意图定义描述[D]。”。示例地,在汽车领域中,标签定义模板语料可以包括“售前咨询意图意图含义是客户希望实现获取车辆信息的计划”,“无售前咨询意图意图含义是客户不希望实现获取车辆信息的计划”、“购买意图意图含义是客户希望实现车辆交易的计划”等,“无购买意图意图含义是客户不希望实现车辆交易的计划”等,此时训练文本可以包括:“[mask]意图含义是客户希望实现获取车辆信息的计划”、“[mask]意图含义是客户希望实现车辆交易的计划”等,其中,“客户希望实现获取车辆信息的计划”、“客户希望实现车辆交易的计划”可以使用更丰富的语义定义进行定制。可以使用未遮掩的会话提示模板语料与训练文本,对NLP模型进行训练。标签定义模板语料使得模型完成训练之后,NLP模型在被使用时,具有映射核心字词语义与意图定义关联的特征表现能力,该特征表现能力是从机器人与客户之间的会话消息中,映射生成嵌入向量的能力,该特征表现能力还为形成表现不同分类意图类型的特征表现能力提供基础,在包含可改变/相反意图字词的语句描述之间,向量的特征不同且变化敏感。
在一些可能的应用中,意图模板可以用于将客户的语句描述替换为意图类型标签。客户的语句描述可以是在目标领域的语料数据中(例如机器人与客户之间的会话消息)客户的语句描述。意图类型标签可以是针对目标领域的智能客服系统,定义的典型意图类型的标签,例如汽车领域中,典型意图类型可以包括购买意图类、咨询服务意图类、车辆服务意图类、金融服务意图类、出售意图类等。意图类型标签可以是机器可识别标签,可以通过指定的字符串和数值序号构成,以唯一地表示各意图类型,例如意图类型标签为[unused{i}](i = 1,2,3……),意图类型标签[unused{i}]也可以通过各典型意图类型本身文本序列的标记化值(token)实现,例如咨询服务意图类的标记化值token作为[unused{1}]。示例地,客户说“我的车打不着火了”,可以将意图类型标签标注为车辆服务意图类标签[unused{2}],客户说“我想分期买这辆车”,可以将意图类型标签标注为金融服务意图类标签[unused{3}],客户说“这车性价比高,我想入手”,可以将意图类型标签标注为购买意图类[unused{4}]。意图模板可以是:
{$C}的意图:{$unused{i}}。
在该意图模板中,模板描述即是,“的意图:。”。位置符{$C}可以用于指示将客户的语句描述[C]作为参数进行传递,NLP服务器可以将语句描述[C]置于“的意图”之前。位置符{$unused{i}}可以用于指示将意图类型标签[unused{i}]作为参数进行传递,NLP服务器可以将[unused{i}]置于“的意图:”之后且置于句号“。”之前。从而通过意图模板,NLP服务器可以生成意图模板语料:
语句描述[C]的意图:[unused{i}]。
意图模板语料可以用于描述目标领域中语料数据内客户的语句描述[C]与意图类型标签[unused{i}]的替换关系,可以使得NLP模型学习到客户的语句描述[C]语义和意图类型的关联信息。可以将未遮掩的意图模板语料作为标签label数据,前述的步骤S1)还可以包括:
S103)NLP服务器可以将所述意图模板语料中的所述意图类型标签[unused{i}]替换为遮掩码[mask],将遮掩后的语料作为训练文本。
其中,该训练文本可以包括:“语句描述[C]的意图:[mask]”。示例地,在汽车领域中,意图模板语料可以包括“这车性价比高,我想入手的意图是[unused{4}]”、“我想分期买这辆车的意图是[unused{3}]”、“我的车打不着火了的意图是[unused{2}]”等,此时训练文本可以包括“这车性价比高,我想入手的意图是[mask]”、“我想分期买这辆车的意图是[mask]”、“我的车打不着火了的意图是[mask]”等。可以使用未遮掩的意图模板语料与训练文本,对NLP模型进行训练。使得模型完成训练之后,NLP模型在被使用时,具有映射会话消息中客户的语句描述之间与对应的意图类型关联的分类信息的特征表现能力。除了关联信息之外,在通过前述标签定义模板语料和训练文本完成模型训练的基础上,意图模板语料能够训练模型具有关注核心语义的意图的特征表现能力,例如当客户说“我想分期买这辆车”的意图类型分类应被识别表现为金融服务意图类标签[unused{3}],核心语义的意图体现在“分期买”(非“买”),而不是购买意图类[unused{4}],从而符合客户实际意图,避免意图识别出现偏差。在一些可能的应用中,意图模板语料中可使用反向提示标签进行关联标注,例如“我想分期买这辆车的意图是[unused{3}],不是[unused{4}]”,能够匹配同一客户使用智能客服系统中意图表示的时间连贯性,例如当客户说“我想分期买这辆车”的意图类型分类应被识别表现为金融服务意图类标签[unused{3}],而不是购买意图类[unused{4}](在连续的会话消息中,表现购买意图类[unused{4}]的会话被模型识别的时刻,应在表现金融服务意图类标签[unused{3}]的会话被模型识别的时刻之前),从而符合客户实际意图,避免意图识别出现偏差。
在本发明实施例中,可以基于掩码语言模型Mask-LM任务,对预训练语言模型进行训练(微调),前述的训练方法还可以包括:
S2)NLP服务器可以基于所述训练文本和未遮掩的提示模板语料,对NLP模型进行训练,以获得优化NLP模型,未遮掩的提示模板语料包括未遮掩的意图标识和未遮掩的文本。
在一些可能的实现方式中,可以使用前述的三种提示模板语料及对应的训练文本分别进行模型训练。步骤S2)可以包括:
S201)NLP服务器可以基于未遮掩的会话提示模板语料和随机遮掩后得到的训练文本,对NLP模型进行训练;
S202)NLP服务器可以基于未遮掩的标签定义模板语料和遮掩意图名称后得到的训练文本,在步骤S201)完成后对的NLP模型进行训练;
S203)NLP服务器可以基于未遮掩的意图模板语料和遮掩意图类型标签后得到的训练文本,在步骤S202)完成后对的NLP模型进行训练。
其中,在任意一个步骤的训练过程中,确定NLP模型(BERT模型)预测词表中每个标记化值token在[mask]位置出现的概率,利用交叉熵损失函数,优化NLP模型,使得作为标签数据的提示模板语料中,与被遮掩码[mask]替换的词序位置上字词的标记化值token出现概率最大,从而能够在训练完成后,优化NLP模型能够具有会话消息中客户的语句描述意图的特征表现能力,该特征表现能力可以将相似的客户语句(例如长度一致、但个别字词不同导致的意图改变/相反)描述的意图类型表示为不同的特征的向量。
在本发明实施例中,可以从优化NLP模型中提取用于训练意图识别模型的嵌入向量。前述的训练方法还可以包括:
S3)NLP服务器可以将遮掩所述意图标识的提示模板语料输入所述优化NLP模型,提取所述优化NLP模型的嵌入向量。
在一些可能的实现方式中,步骤S3)可以包括:
S301)NLP服务器可以将所述意图模板语料中的所述意图类型标签替换为遮掩码。
遮掩所述意图标识的提示模板语料可以是意图模板语料,遮掩的意图标识可以是意图类型标签,即采用遮掩码[mask]替换意图模板语料中的意图类型标签,例如意图模板语料“这车性价比高,我想入手的意图是[unused{4}]”中的购买意图类意图类型标签“[unused{4}]”被替换为遮掩码[mask],遮掩所述意图标识的提示模板语料此时是“这车性价比高,我想入手的意图是[mask]”,其中,该意图模板语料中语句描述是会话消息中客户的语句描述,该客户的语句描述已经被标注了意图类型。可以基于遮掩码的词序位置提取嵌入向量,前述的步骤S3)还可以包括:
S302)NLP服务器可以将替换所述遮掩码后的意图模板语料输入所述优化NLP模型,确定所述遮掩码的位置编码,其中位置编码可以包括位置id、编号或模型中的位置映射值等;
S303)NLP服务器可以从所述优化NLP模型中,提取与所述位置编码对应的嵌入向量,并将该嵌入向量作为替换所述遮掩码后的意图模板语料中,客户的语句描述的嵌入向量。
在本发明实施例中,意图识别模型可以是逻辑回归(Logistic Regression,LR)多分类模型。前述的训练方法可以包括:
S4)以所述嵌入向量为训练样本,以所述意图标识为标签,NLP服务器可以对意图识别模型进行训练,意图识别模型的输出可以与前述的意图标识中意图类型标签一一对应的分类标识。
其中,可以利用线性分类算法训练意图识别模型,在训练完成后,所述意图识别模型可用于基于输入的嵌入向量,确定意图标识中的意图类型标签[unused{i}],该输入的嵌入向量可以是会话消息中语句描述输入至优化NLP模型中,从优化NLP模型中提取获得的;会话消息可以是智能客服系统中机器人与客户之间的会话消息。
本发明实施例公开了一种示例性的应用于服务器的训练场景,请参考图2,NLP服务器可以被部署了训练程序和模型文件,模型文件可以包括NLP模型和意图识别模型的文件。NLP服务器可以与数据库服务器通信,用于通过训练程序和数据库中的数据对模型进行训练,其中数据库服务器中的数据库可以包括提示模板数据库、会话提示模板语料库、标签定义目标语料库和意图模板语料库。NLP服务器可以调用客户信息数据库中的会话消息以及调用提示模板数据库中的会话提示模板、标签定义模板、意图模板,分别生成会话提示模板语料、标签定义目标语料、意图模板语料并记录至名称对应的语料库,其中,会话消息是客户终端(即终端设备)与机器客服之间的会话消息,机器客服可以将客户标识和会话消息记录至客户信息数据库中。NLP服务器可以响应于模型训练技术人员通过训练终端(也是终端设备)发送的训练模型指令,执行训练程序,用于实现前述的意图识别模型的训练方法,并将训练日志返回至终端设备,从而NLP服务器能够使用训练完成的模型对客户的会话消息进行意图识别,使得智能客服系统向普遍的客户提供符合客户会话意图的会话消息服务。
本发明实施例利用三种提示模板生成的提示模板语料(作为目标领域数据),训练得到优化NLP模型,是优化微调预训练语言模型(例如BERT模型),并通过优化NLP模型,利用遮掩的意图模板语料和优化NLP模型表示会话消息中语句描述的嵌入向量Embedding,然后基于该方式生成的句子Embedding和意图类型标签训练意图识别模型,从而在意图识别模型上线智能客服系统应用时,面临智能客服系统中普遍的客户会话场景,智能客服系统通过意图识别模型对相似的客户对话语句的意图识别将符合客户实际会话意图,机器客服能够提供与客户会话意图关联的应答。
在第二方面,使用而言,本发明实施例还提供了与前述实施例同一发明构思下的会话意图识别方法,可以应用于智能客服系统,该会话意图识别方法可以包括:
B1)获取会话消息;
B2)基于意图识别模型和所述会话消息,确定意图标识;其中,
所述意图识别模型是通过前述的意图识别模型的训练方法训练获得的。
在本发明实施例中,智能客服系统可以包括NLP服务器和机器客服,机器客服可以是被部署于智能客服系统中任意一个服务器或容器中的应用程序,机器客服可以与NLP服务器进行通信,用于通过配置的接口传输会话消息和由NLP服务器返回的消息,其中,NLP服务器可以被配置有前述的优化NLP模型和意图识别模型。在一些可能的实现方式中,机器客服可与终端设备进行通信,用于接收由终端设备发送的会话消息以及返回应答的会话消息至终端设备,其中,终端设备可以是客户的移动电子设备、计算机等,会话消息可以与客户标识有对应关系,客户标识可以由终端设备的标识(网络标识或硬件标识)实现。
在一些可能的汽车领域在线实时智能客服的实现方式中,请参考图3,步骤B1)可以包括:
B101)NLP服务器接收由第1机器客服发送的第一会话消息,其中,所述第一会话消息是由第1客户终端(即终端设备)发送的,第1客户终端是与智能客服系统的第1机器客服通信的,第1客户终端可以是响应于第一客户的设备操作进行发送,设备操作可以是输入第一语句描述,语句描述可以示例地是,“这车性价比高,我考虑下买不买”,在此之前,第1机器客服可以应答“这车价格低,电池续航长”;
B102)NLP服务器接收由第2机器客服发送的第二会话消息,其中,所述第二会话消息是由第2客户终端(即终端设备)发送的,第2客户终端是与智能客服系统的第2机器客服通信的,第2客户终端可以是响应于第二客户的设备操作进行发送,设备操作可以是输入第二语句描述,语句描述可以示例地是,“这车性价比低,我考虑下买不买”,在此之前,第1机器客服可以应答“这车价格低,电池续航长”。
NLP服务器可以同步或异步对第一语句描述和第二语句描述进行处理。为了较高的识别效果,NLP服务器可以分别将第一语句描述和第二语句描述填入意图模板(此时“的意图是”之后已设置有遮掩码),然后NLP服务器可以将填入第一语句描述的意图模板语料和填入第二语句描述的意图模板语料,分别输入至优化NLP模型,提取与各语料中遮掩码的位置编码对应的第一嵌入向量(与第一语句描述对应)、第二嵌入向量(与第二语句描述对应),此时步骤B2)可以包括:
B201)NLP服务器可以将这第一嵌入向量、第二嵌入向量分别输入至意图识别模型;
B202)NLP服务器可以通过意图识别模型输出与第一嵌入向量对应的第一意图类型标签,即购买意图类,并NLP服务器可以通过意图识别模型输出与第二嵌入向量对应的第二意图类型标签,即无购买意图类。
在一些可能的应用中,如图3中各客户终端上呈现的机器客服的图像标识与客户的图像标识之间的会话消息。NLP服务器可以将第一意图类型标签、第二意图类型标签分别返回至第1机器客服、第2机器客服,第1机器客服可以基于第一意图类型标签,确定应答的语句描述,该应答的语句描述可以示例地包括汽车金融方案信息、优惠活动信息、促销礼品信息、预约试驾信息等,例如第1客户终端显示第1机器客服返回的应答消息“近期有优惠,裸车价格优惠2万”,而不是提供变更的推荐车辆信息。类似地,第2机器客服可以基于第二意图类型标签,确定应答的语句描述,该应答的语句描述可以示例地包括变更的推荐车辆信息,例如第2客户终端显示第2机器客服返回的应答消息“电池续航公里数一致的,还有车辆123,价格优惠”,而不是原推荐的车辆的汽车金融方案信息、优惠活动信息、促销礼品信息、预约试驾信息等。其中应答的语句描述可以示例地通过应答模板和车辆信息生成,或通过生成式模型基于应答模板和车辆信息生成。从而智能客服系统可以通过机器客服向普遍的客户应用场景提供符合客户会话意图的会话服务。
在一些可能的汽车领域智能客服系统会话消息数据库的实现方式中,智能客服系统还可以部署有数据库服务器,该数据库服务器可以记录机器客服与客户之间的会话消息。前述的步骤B1)也可以包括:
B101’)NLP服务器可以从数据库服务器获取与客户标识对应的会话消息。
步骤B2)也可以包括:
B201’)NLP服务器可以通过优化NLP模型和意图模板将会话消息处理为嵌入向量;
B202’)利用意图识别模型和嵌入向量,确定该会话消息对应的(也是与客户标识对应的)意图类型标签标识。
NLP服务器可以将该意图类型标签写入至数据库服务器,并形成与客户标识对应的意图类型标签的数据库记录。在智能客服系统面临向客户(例如第j客户和第j机器客服,j为正整数)提供会话服务时,机器客服可以基于数据库记录和该客户的客户标识,确定意图类型标签,并基于该意图类型标签和配置的应答模板,应答客户的语句描述。
在第三方面,本发明实施例还提供了与前述实施例同一发明构思下的自然语言处理系统,该自然语言处理系统可以应用于NLP服务器或智能客服系统(NLP服务器属于智能客服系统),该自然语言处理系统也可以称为智能客服的数据处理系统,该自然语言处理系统可以包括:
遮掩模块,用于遮掩提示模板语料,以获得训练文本,所述训练文本包括遮掩的意图标识和未遮掩的文本;
NLP模型训练模块,用于基于所述训练文本和未遮掩的提示模板语料,对NLP模型进行训练,以获得优化NLP模型,未遮掩的提示模板语料包括未遮掩的意图标识和未遮掩的文本;
提取模块,用于将遮掩所述意图标识的提示模板语料输入所述优化NLP模型,提取所述优化NLP模型的嵌入向量;
意图识别模型训练模块,用于以所述嵌入向量为训练样本,以所述意图标识为标签,对意图识别模型进行训练。
具体的,其中,
所述提示模板语料是基于目标领域的语料数据和原生提示模板生成的;
所述意图标识包括意图名称和意图类型标签;
未遮掩的文本包括意图定义描述和所述语料数据。
具体的,其中,
所述提示模板语料包括标签定义模板语料和意图模板语料;
所述标签定义模板语料用于描述所述意图名称与所述意图定义描述的替换关系;
所述意图模板语料用于描述所述语料数据与所述意图类型标签的替换关系。
具体的,所述遮掩提示模板语料,包括:
将所述标签定义模板语料中的所述意图名称替换为遮掩码;
将所述意图模板语料中的所述意图类型标签替换为遮掩码。
具体的,其中,
所述提示模板语料还包括会话提示模板语料;
所述会话提示模板语料用于描述所述语料数据中机器人语句描述与客户语句描述的对应关系。
具体的,所述将遮掩所述意图标识的提示模板语料输入所述优化NLP模型,提取所述优化NLP模型的嵌入向量,包括:
将所述意图模板语料中的所述意图类型标签替换为遮掩码;
将替换所述遮掩码后的意图模板语料输入所述优化NLP模型,确定所述遮掩码的位置编码;
从所述优化NLP模型中,提取与所述位置编码对应的嵌入向量。
具体的,其中,基于线性分类算法训练意图识别模型。
具体的,在使用方面,该自然语言处理系统可以用于执行:
获取会话消息;
基于意图识别模型和所述会话消息,确定意图标识;其中,
所述意图识别模型是前述的意图识别模型的训练方法训练获得的。
在第四方面,本发明实施例还提供了与前述实施例同一发明构思下的电子设备,该电子设备包括:至少一个处理器;存储器,与所述至少一个处理器连接;其中,所述存储器存储有能被所述至少一个处理器执行的指令,所述至少一个处理器通过执行所述存储器存储的指令实现前述实施例中的方法。请参考图4,提供了一种示例性的电子设备,其内部结构图可以如图4所示,可以是服务器、工控机、终端设备、微控制器等。该电子设备包括通过总线连接的处理器A01、网络接口A02、存储器。其中,该电子设备的处理器A01用于提供计算、指令处理和控制能力。该电子设备的存储器包括内存A03和非易失性的存储介质A04。该非易失性的存储介质A04存储有操作系统B01、计算机程序B02。该内存A03为非易失性存储介质A04中的操作系统B01和计算机程序B02的运行提供环境。该电子设备的网络接口A02用于与网络通信。该计算机程序B02被处理器A01执行时以实现前述实施例中的方法。
在第五方面,本发明实施例还提供了与前述实施例同一发明构思下的机器可读存储介质,存储有机器指令,当所述机器指令在机器上运行时,使得机器执行前述实施例中的方法。
需要说明的是,本说明书所涉及信息采集、分析、使用、传输、存储等方面,应按照法律法规的规定,被用于合法且合理的用途,不在这些合法使用等方面之外共享、泄露或出售,并且依法接受监督管理。
以上结合附图详细描述了本发明实施例的可选实施方式,但是,本发明实施例并不限于上述实施方式中的具体细节,在本发明实施例的技术构思范围内,可以对本发明实施例的技术方案进行多种简单变型,这些简单变型均属于本发明实施例的保护范围。
另外需要说明的是,在上述具体实施方式中所描述的各个具体技术特征,在不矛盾的情况下,可以通过任何合适的方式进行组合。为了避免不必要的重复,本发明实施例对各种可能的组合方式不再另行说明。
本领域技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序存储在一个存储介质中,包括若干指令用以使得单片机、芯片或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质可以是非瞬时的,存储介质可以包括:U盘、硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、闪存(Flash memory)、磁性存储器、光学存储器等各种可以存储程序代码的介质。
此外,本发明实施例的各种不同的实施方式之间也可以进行任意组合,只要其不违背本发明实施例的思想,其同样应当视为本发明实施例所公开的内容。
Claims (11)
1.一种意图识别模型的训练方法,其特征在于,该训练方法包括:
遮掩提示模板语料,以获得训练文本,所述训练文本包括遮掩的意图标识和未遮掩的文本;
基于所述训练文本和未遮掩的提示模板语料,对NLP模型进行训练,以获得优化NLP模型,未遮掩的提示模板语料包括未遮掩的意图标识和未遮掩的文本;
将遮掩所述意图标识的提示模板语料输入所述优化NLP模型,提取所述优化NLP模型的嵌入向量;
以所述嵌入向量为训练样本,以所述意图标识为标签,对意图识别模型进行训练。
2.根据权利要求1所述的意图识别模型的训练方法,其特征在于,其中,
所述提示模板语料是基于目标领域的语料数据和原生提示模板生成的;
所述意图标识包括意图名称和意图类型标签;
未遮掩的文本包括意图定义描述和所述语料数据。
3.根据权利要求2所述的意图识别模型的训练方法,其特征在于,其中,
所述提示模板语料包括标签定义模板语料和意图模板语料;
所述标签定义模板语料用于描述所述意图名称与所述意图定义描述的替换关系;
所述意图模板语料用于描述所述语料数据与所述意图类型标签的替换关系。
4.根据权利要求3所述的意图识别模型的训练方法,其特征在于,所述遮掩提示模板语料,包括:
将所述标签定义模板语料中的所述意图名称替换为遮掩码;
将所述意图模板语料中的所述意图类型标签替换为遮掩码。
5.根据权利要求3所述的意图识别模型的训练方法,其特征在于,其中,
所述提示模板语料还包括会话提示模板语料;
所述会话提示模板语料用于描述所述语料数据中机器人语句描述与客户语句描述的对应关系。
6.根据权利要求3所述的意图识别模型的训练方法,其特征在于,所述将遮掩所述意图标识的提示模板语料输入所述优化NLP模型,提取所述优化NLP模型的嵌入向量,包括:
将所述意图模板语料中的所述意图类型标签替换为遮掩码;
将替换所述遮掩码后的意图模板语料输入所述优化NLP模型,确定所述遮掩码的位置编码;
从所述优化NLP模型中,提取与所述位置编码对应的嵌入向量。
7.根据权利要求1所述的意图识别模型的训练方法,其特征在于,其中,基于线性分类算法训练意图识别模型。
8.一种会话意图识别方法,其特征在于,该会话意图识别方法包括:
获取会话消息;
基于意图识别模型和所述会话消息,确定意图标识;其中,
所述意图识别模型是通过权利要求1至7中任意一项所述的意图识别模型的训练方法训练获得的。
9.一种自然语言处理系统,其特征在于,该自然语言处理系统包括:
遮掩模块,用于遮掩提示模板语料,以获得训练文本,所述训练文本包括遮掩的意图标识和未遮掩的文本;
NLP模型训练模块,用于基于所述训练文本和未遮掩的提示模板语料,对NLP模型进行训练,以获得优化NLP模型,未遮掩的提示模板语料包括未遮掩的意图标识和未遮掩的文本;
提取模块,用于将遮掩所述意图标识的提示模板语料输入所述优化NLP模型,提取所述优化NLP模型的嵌入向量;
意图识别模型训练模块,用于以所述嵌入向量为训练样本,以所述意图标识为标签,对意图识别模型进行训练。
10.一种电子设备,其特征在于,该电子设备包括:
至少一个处理器;
存储器,与所述至少一个处理器连接;
其中,所述存储器存储有能被所述至少一个处理器执行的指令,所述至少一个处理器通过执行所述存储器存储的指令实现权利要求1至8中任意一项权利要求所述的方法。
11.一种机器可读存储介质,存储有机器指令,当所述机器指令在机器上运行时,使得机器执行权利要求1至8中任意一项权利要求所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311180754.5A CN116911314B (zh) | 2023-09-13 | 2023-09-13 | 意图识别模型的训练方法、会话意图识别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311180754.5A CN116911314B (zh) | 2023-09-13 | 2023-09-13 | 意图识别模型的训练方法、会话意图识别方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116911314A true CN116911314A (zh) | 2023-10-20 |
CN116911314B CN116911314B (zh) | 2023-12-19 |
Family
ID=88367292
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311180754.5A Active CN116911314B (zh) | 2023-09-13 | 2023-09-13 | 意图识别模型的训练方法、会话意图识别方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116911314B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101014023A (zh) * | 2007-02-16 | 2007-08-08 | 华为技术有限公司 | 一种会话标识匹配方法及装置以及通讯系统 |
CN110717514A (zh) * | 2019-09-06 | 2020-01-21 | 平安国际智慧城市科技股份有限公司 | 会话意图识别方法、装置、计算机设备和存储介质 |
CN114757176A (zh) * | 2022-05-24 | 2022-07-15 | 上海弘玑信息技术有限公司 | 一种获取目标意图识别模型的方法以及意图识别方法 |
CN115292470A (zh) * | 2022-09-30 | 2022-11-04 | 中邮消费金融有限公司 | 一种用于小额贷款智能客服的语义匹配方法及系统 |
WO2023272616A1 (zh) * | 2021-06-30 | 2023-01-05 | 东莞市小精灵教育软件有限公司 | 一种文本理解方法、系统、终端设备和存储介质 |
US20230080671A1 (en) * | 2020-02-25 | 2023-03-16 | Wiz Holdings Pte. Ltd. | User intention recognition method and apparatus based on statement context relationship prediction |
CN116187320A (zh) * | 2023-02-02 | 2023-05-30 | 深圳数联天下智能科技有限公司 | 意图识别模型的训练方法及相关装置 |
CN116384411A (zh) * | 2023-06-05 | 2023-07-04 | 北京水滴科技集团有限公司 | 基于外呼机器人的用户意图识别模型的训练方法和装置 |
-
2023
- 2023-09-13 CN CN202311180754.5A patent/CN116911314B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101014023A (zh) * | 2007-02-16 | 2007-08-08 | 华为技术有限公司 | 一种会话标识匹配方法及装置以及通讯系统 |
CN110717514A (zh) * | 2019-09-06 | 2020-01-21 | 平安国际智慧城市科技股份有限公司 | 会话意图识别方法、装置、计算机设备和存储介质 |
US20230080671A1 (en) * | 2020-02-25 | 2023-03-16 | Wiz Holdings Pte. Ltd. | User intention recognition method and apparatus based on statement context relationship prediction |
WO2023272616A1 (zh) * | 2021-06-30 | 2023-01-05 | 东莞市小精灵教育软件有限公司 | 一种文本理解方法、系统、终端设备和存储介质 |
CN114757176A (zh) * | 2022-05-24 | 2022-07-15 | 上海弘玑信息技术有限公司 | 一种获取目标意图识别模型的方法以及意图识别方法 |
CN115292470A (zh) * | 2022-09-30 | 2022-11-04 | 中邮消费金融有限公司 | 一种用于小额贷款智能客服的语义匹配方法及系统 |
CN116187320A (zh) * | 2023-02-02 | 2023-05-30 | 深圳数联天下智能科技有限公司 | 意图识别模型的训练方法及相关装置 |
CN116384411A (zh) * | 2023-06-05 | 2023-07-04 | 北京水滴科技集团有限公司 | 基于外呼机器人的用户意图识别模型的训练方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN116911314B (zh) | 2023-12-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109493166B (zh) | 一种针对电子商务导购场景任务型对话系统的构建方法 | |
Li et al. | Api-bank: A benchmark for tool-augmented llms | |
Smyth | Case-based recommendation | |
CN112100383B (zh) | 一种面向多任务语言模型的元-知识微调方法及平台 | |
CN109727041A (zh) | 智能客服多轮问答方法、设备、存储介质及装置 | |
CN111708869B (zh) | 人机对话的处理方法及装置 | |
CN111062220B (zh) | 一种基于记忆遗忘装置的端到端意图识别系统和方法 | |
KR20170001550A (ko) | 인공 지능에 기초한 인간-컴퓨터 지능형 채팅 방법 및 장치 | |
Gümüş et al. | The effect of customers’ attitudes towards chatbots on their experience and behavioural intention in Turkey | |
US20190377824A1 (en) | Schemaless systems and methods for automatically building and utilizing a chatbot knowledge base or the like | |
CN110956479A (zh) | 基于销售线索交互记录的产品推荐方法 | |
CN117290492A (zh) | 知识库问答方法、装置、电子设备及存储介质 | |
CN112507139B (zh) | 基于知识图谱的问答方法、系统、设备及存储介质 | |
CN115374259A (zh) | 一种问答数据挖掘方法、装置及电子设备 | |
CN116662522B (zh) | 问题答案推荐方法、存储介质和电子设备 | |
CN116911314B (zh) | 意图识别模型的训练方法、会话意图识别方法及系统 | |
CN117370512A (zh) | 回复对话的方法、装置、设备及存储介质 | |
CN116959433A (zh) | 文本处理方法、装置、电子设备和存储介质 | |
Devi et al. | ChatGPT: Comprehensive Study On Generative AI Tool | |
CN116186771A (zh) | 应用于人工智能生成内容的文本处理方法、装置及介质 | |
CN111324722B (zh) | 一种训练词语权重模型的方法和系统 | |
CN116911315B (zh) | 自然语言处理模型的优化方法、应答方法及系统 | |
CN111914077A (zh) | 定制化话术推荐方法、装置、计算机设备及存储介质 | |
CN113011175A (zh) | 一种基于双重渠道特征匹配的语义识别方法及系统 | |
CN113609275B (zh) | 信息处理方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |