CN115168553A - 对话语句补全及模型训练方法、装置、设备和存储介质 - Google Patents
对话语句补全及模型训练方法、装置、设备和存储介质 Download PDFInfo
- Publication number
- CN115168553A CN115168553A CN202210727958.5A CN202210727958A CN115168553A CN 115168553 A CN115168553 A CN 115168553A CN 202210727958 A CN202210727958 A CN 202210727958A CN 115168553 A CN115168553 A CN 115168553A
- Authority
- CN
- China
- Prior art keywords
- sentence
- dialogue
- decoder
- statement
- encoder
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 59
- 238000012549 training Methods 0.000 title claims abstract description 37
- 230000006870 function Effects 0.000 claims abstract description 65
- 238000012545 processing Methods 0.000 claims abstract description 32
- 238000004590 computer program Methods 0.000 claims description 11
- 238000013507 mapping Methods 0.000 claims description 10
- 238000013528 artificial neural network Methods 0.000 claims description 9
- 238000010606 normalization Methods 0.000 claims description 7
- 238000010276 construction Methods 0.000 claims description 4
- 238000003058 natural language processing Methods 0.000 abstract description 5
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 16
- PCTMTFRHKVHKIS-BMFZQQSSSA-N (1s,3r,4e,6e,8e,10e,12e,14e,16e,18s,19r,20r,21s,25r,27r,30r,31r,33s,35r,37s,38r)-3-[(2r,3s,4s,5s,6r)-4-amino-3,5-dihydroxy-6-methyloxan-2-yl]oxy-19,25,27,30,31,33,35,37-octahydroxy-18,20,21-trimethyl-23-oxo-22,39-dioxabicyclo[33.3.1]nonatriaconta-4,6,8,10 Chemical compound C1C=C2C[C@@H](OS(O)(=O)=O)CC[C@]2(C)[C@@H]2[C@@H]1[C@@H]1CC[C@H]([C@H](C)CCCC(C)C)[C@@]1(C)CC2.O[C@H]1[C@@H](N)[C@H](O)[C@@H](C)O[C@H]1O[C@H]1/C=C/C=C/C=C/C=C/C=C/C=C/C=C/[C@H](C)[C@@H](O)[C@@H](C)[C@H](C)OC(=O)C[C@H](O)C[C@H](O)CC[C@@H](O)[C@H](O)C[C@H](O)C[C@](O)(C[C@H](O)[C@H]2C(O)=O)O[C@H]2C1 PCTMTFRHKVHKIS-BMFZQQSSSA-N 0.000 description 10
- 238000004891 communication Methods 0.000 description 8
- 230000000694 effects Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000007476 Maximum Likelihood Methods 0.000 description 3
- 238000009825 accumulation Methods 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 210000002569 neuron Anatomy 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000009826 distribution Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3338—Query expansion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3346—Query execution using probabilistic model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Human Computer Interaction (AREA)
- Probability & Statistics with Applications (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Machine Translation (AREA)
Abstract
本公开公开了一种对话语句补全及模型训练方法、装置、设备和存储介质,涉及人工智能技术领域,尤其涉及自然语言处理、人机对话等技术领域。对话语句补全模型的训练方法包括:采用编码器,对多轮对话语句样本进行编码处理,以生成语义特征,其中,所述多轮对话语句样本包括:待补全语句样本;基于所述语义特征,生成预测概率值;采用解码器,对所述语义特征进行解码处理,以生成所述待补全语句样本对应的预测完整语句;基于所述预测概率值,以及所述预测完整语句,构建总损失函数;基于所述总损失函数,调整所述编码器和所述解码器中至少一项的模型参数。本公开可以提高对话语句补全模型的准确度。
Description
技术领域
本公开涉及计算机技术领域,具体涉及自然语言处理、人机对话等技术领域,尤其涉及对话语句补全及模型训练方法、装置、设备和存储介质。
背景技术
为了让机器像人一样自由的对话,对话机器人必然要具备连续对话的能力,即多轮对话。多轮对话中存在对话语句(query)缺失的现象,query缺失可能是由于指代或省略等引起的。
为了更好地理解query,一般会进行query补全。
发明内容
本公开提供了一种对话语句补全及模型训练方法、装置、设备和存储介质。
根据本公开的一方面,提供了一种对话语句补全模型的训练方法,所述对话模型包括:编码器和解码器,所述方法包括:采用所述编码器,对多轮对话语句样本进行编码处理,以生成语义特征,其中,所述多轮对话语句样本包括:待补全语句样本;基于所述语义特征,生成预测概率值;采用所述解码器,对所述语义特征进行解码处理,以生成所述待补全语句样本对应的预测完整语句;基于所述预测概率值,以及所述预测完整语句,构建总损失函数;基于所述总损失函数,调整所述编码器和所述解码器中至少一项的模型参数。
根据本公开的另一方面,提供了一种对话语句补全方法,包括:获取多轮对话语句,所述多轮对话语句包括:待补全语句;采用编码器,提取所述对轮对话语句的语义特征;采用解码器,基于所述语义特征,生成所述待补全语句对应的补全后的对话语句;其中,所述编码器和所述解码器是采用上述任一方面的任一项所述的训练方法训练的。
根据本公开的另一方面,提供了一种对话语句补全模型的训练装置,所述对话语句补全模型包括:编码器和解码器,所述装置包括:编码模块,用于采用所述编码器,对多轮对话语句样本进行编码处理,以生成语义特征,其中,所述多轮对话语句样本包括:待补全语句样本;选择模块,用于基于所述语义特征,生成预测概率值;解码模块,用于采用所述解码器,对所述语义特征进行解码处理,以生成所述待补全语句样本对应的预测完整语句;构建模块,用于基于所述预测概率值,以及所述预测完整语句,构建总损失函数;调整模块,用于基于所述总损失函数,调整所述编码器和所述解码器中至少一项的模型参数。
根据本公开的另一方面,提供了一种对话语句补全装置,包括:获取模块,用于获取多轮对话语句,所述多轮对话语句包括:待补全语句;编码模块,用于采用编码器,提取所述对轮对话语句的语义特征;解码模块,用于采用解码器,基于所述语义特征,生成所述待补全语句对应的补全后的对话语句;其中,所述编码器和所述解码器是采用上述任一方面的任一项所述的训练方法训练的。
根据本公开的另一方面,提供了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如上述任一方面的任一项所述的方法。
根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行如上述任一方面的任一项所述的方法。
根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据上述任一方面的任一项所述的方法。
根据本公开的技术方案,可以提高对话语句补全模型的准确度。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1是根据本公开第一实施例的示意图;
图2是根据本公开第二实施例的示意图;
图3是本公开实施例对应的应用场景的示意图;
图4是根据本公开第三实施例的示意图;
图5是根据本公开第四实施例的示意图;
图6是根据本公开第五实施例的示意图;
图7是根据本公开第六实施例的示意图;
图8是用来实现本公开实施例的对话语句补全模型的训练方法或对话语句补全方法的电子设备的示意图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
相关技术中,存在一些对话语句(query)补全方案,但准确度有待提高。
为了提高query补全的准确度,本公开提供如下实施例。
图1是根据本公开第一实施例的示意图,本实施例提供一种对话语句补全模型的训练方法,对话语句补全模型包括:编码器(Encoder)和解码器(Decoder)。如图1所示,该方法包括:
101、采用所述编码器,对多轮对话语句样本进行编码处理,以生成语义特征,其中,所述多轮对话语句样本包括:待补全语句样本。
102、基于所述语义特征,生成预测概率值。
103、采用所述解码器,对所述语义特征进行解码处理,以生成所述待补全语句样本对应的预测完整语句。
104、基于所述预测概率值,以及所述预测完整语句,构建总损失函数。
105、基于所述总损失函数,调整所述编码器和所述解码器中至少一项的模型参数。
其中,可以从已有的样本集中获取训练所需的语料,例如,获取多轮对话语句样本。
多轮对话语句样本包括:待补全语句样本。待补全语句样本是指内容存在缺失的语句样本,内容存在缺失可以是由指代或省略引起的。
多轮对话语句样本还可以包括:待补全语句样本的上下文语句样本,上下文语句样本包括上文语句样本,和/或,下文语句样本,上文语句样本是指待补全语句样本之前的对话语句样本,下文语句样本是指待补全语句样本之后的对话语句样本。
以上文语句样本为例,多轮对话语句样本例如包括:
你玩ABCD吗?
玩的。
什么时候开始的?
其中,ABCD可以是某个游戏的名称。
上述示例中,“什么时候开始的”是待补全语句样本,上文语句样本是“你玩ABCD吗”以及“玩的”。
获得多轮对话语句样本后,可以将其作为编码器的输入,采用编码器对输入的多轮对话语句样本进行语义特征提取,编码器的输出是输入的对轮对话语句样本对应的语义特征。
编码器可以采用深度神经网络模型,例如,自然语言处理(Natural LanguageProcessing,NLP)领域中的各种预训练模型中的编码器。
获得语义特征后,一方面可以基于语义特征获得预测概率值,另一方面可以基于语义特征获得预测完整语句。
其中,预测概率值用于表明处理单元是缺失单元的概率,一般是[0,1]之间的值,例如,针对某个处理单元,若该概率值=1,表明该处理单元是缺失单元,若该概率值=0,表明该处理单元不是缺失单元。所述处理单元是所述待补全语句样本对应的真实完整语句中的文本单元,所述缺失单元是所述待补全语句样本相对于所述真实完整语句缺失的文本单元。
以中文为例,文本单元(token)可以是指中文中的每个字。
待补全语句样本对应的真实完整语句,可以是采用人工标注的方式,对待补全语句样本进行人工补全后获得的。
例如,待补全语句样本是“什么时候开始的”,通过人工标注,其对应的真实完整语句是“什么时候开始玩ABCD的”。
预测概率值,是相对于真实概率值来讲的,预测概率值是基于语义特征预测出的概率值。
真实概率值是真实值,可以采用人工标注获得。
例如,若某个字是缺失单元,则该字的真实概率值可以标注为1,若某个字不是缺失单元,则该字的真实概率值可以标注为0。
以真实完整语句是“什么时候开始玩ABCD的”为例,由于其中的“玩”和“A”“B”“C”“D”是缺失单元,则其对应的真实概率值被标注为1,其余字的真实概率值被标注为0。
而预测概率值是指基于语义特征预测的“什么时候开始玩ABCD的”中的每个字的概率值。
预测完整语句,是指基于语义特征预测的待补全语句样本对应的完整语句,即预测的待补全语句样本对应的补全后的语句。
语义特征可以作为解码器的输入,解码器对输入的语义特征进行处理后,可以输出预测完整语句。
解码器可以采用深度神经网络模型,例如,NLP领域中的各种预训练模型中的解码器。其中,编码器和解码器可以采用相同或不同的预训练模型的编码器和解码器。
获得预测概率值以及预测完整语句后,可以基于预测信息(预测概率值和预测完整语句)以及对应的真实信息(真实概率值和真实完整语句)构建总损失函数,进而基于总损失函数调整编码器和/或解码器的模型参数。
调整模型参数时,可以采用反向传播(BackPropagation,BP)等算法进行模型参数调整,直至达到预设的迭代次数。将达到预设的迭代次数时的模型参数作为最终的模型参数。
本实施例中,基于语义特征生成预测概率值,基于语义特征生成预测完整语句,基于预测概率值和预测完整语句构建总损失函数,基于总损失函数调整模型参数,可以在对话语句补全模型训练时,标记缺失单元,从而提高对话语句补全模型的准确度。另外,预测概率值和预测完整语句均是基于语义特征获得的,可以认为是隐式建模,相对于分别采用不同的模型显式生成预测概率值和预测完整语句的方式,可以减少模型误差累积,进一步提高对话语句补全模型的准确度。
上述描述了模型训练过程,经过训练可以获得最终生成的对话语句补全模型,之后,可以采用该对话语句补全模型进行对话语句补全。
图2是根据本公开第二实施例的示意图,本实施例提供一种对话语句补全方法,如图2所示,该方法包括:
201、获取多轮对话语句,所述多轮对话语句包括:待补全语句。
其中,多轮对话语句还可以包括:待补全语句的上下文语句,上下文语句可以包括上文对话语句,和/或,下文对话语句。
上文对话语句是指待补全语句之前的对话语句,下文对话语句是指待补全语句之后的对话语句。
一般来讲,可以将待补全语句之前的所有轮的对话语句作为上文对话语句,并将上文对话语句和待补全语句进行拼接后作为多轮对话语句。
另外,多轮对话语句中的各个语句可以采用分隔符进行分隔,且,待补全语句与其上下文语句采用不同的分隔符进行分隔。
以上文对话语句为例,不同句的上文对话语句之间可以用[SEP]进行分隔,待补全语句可以用[X]进行分隔。
202、采用编码器,提取所述对轮对话语句的语义特征。
203、采用解码器,基于所述语义特征,生成所述待补全语句对应的补全后的对话语句。
其中,对话语句补全模型可以包括编码器和解码器,编码器和解码器可以采用上述实施例所示的方法进行训练。
经过训练生成对话语句补全模型后,可以采用编码器对输入的对轮对话语句进行处理,以输出语义特征;采用解码器对输入的语义特征进行处理,以输出补全后的对话语句。
本实施例中,采用上述训练方法获得的对话语句补全模型,进行对话语句补全处理,以获得补全后的对话语句,由于对话语句补全模型的准确度较高,本实施例可以获得准确度较高的补全后的对话语句。
为了更好地理解本公开实施例,对本公开实施例的应用场景进行说明。
人机对话过程一般包括:对话系统获取对话语句(query),对话系统对输入的对话语句进行理解后,可以生成并向用户反馈回复语句(reply)。在多轮对话场景下,对话语句可以包括:用户当前输入的当前语句,以及当前语句的上下文语句。一般来讲,上下文语句可以具体是上文语句,也可以称为对话历史语句。
上文语句可以包括用户输入的对话语句,也可以包括对话系统在之前轮反馈的回复语句。
为了更好地生成回复语句,可以识别对话语句中的当前语句是否需要补全,以及在需要补全时,对当前语句进行补全后再进行对话理解。
如图2所示,对话系统接收到对话语句后,对话语句可以包括当前语句以及当前语句的上文语句,可以先识别该当前语句是否需要补全,若是,采用对话语句补全模型进行补全,以生成补全后的对话语句。之后,可以采用对话理解模型对补全后的对话语句或者不需要补全的对话语句进行理解后,生成回复语句。
本公开实施例主要针对对话语句补全,因此,关于其他内容,例如,是否需要补全的识别以及对话理解过程,可以采用相关技术实现。
针对对话语句补全,本实施例可以采用对话语句补全模型进行,即,对话语句补全模型的输入是多轮对话语句,其中包括待补全语句,输出是待补全语句对应的补全后的对话语句,也可以称为完整对话语句。
对话语句补全模型可以包括编码器和解码器,编码器和解码器可以采用相同或不同的预训练模型中的编码器和解码器。
预训练模型例如是各种基于Transformer模型的预训练模型。
以采用同一个预训练模型的编码器和解码器为例,该同一个预训练模型例如为T5模型。
T5模型是一个文本到文本模型,是基于Transformer模型的编码器和解码器结构。
本实施例中,以编码器和解码器分别是T5模型的编码器(可简称为T5编码器)和T5模型的解码器(可简称为T5解码器)为例。
结合上述的应用场景,本公开还提供一种对话语句补全模型的训练方法。
图4是根据本公开第三实施例的示意图,本实施例提供一种对话语句补全模型的训练方法,对话语句补全模型包括:编码器(Encoder)和解码器(Decoder),如图4所示,并结合图5所示的架构图,该方法包括:
401、采用T5模型的编码器,对多轮对话语句样本进行编码处理,以生成语义特征。
其中,多轮对话语句样本包括:待补全语句样本,以及待补全语句样本的上下文语句样本。
其中,所述上下文语句样本用第一分隔符进行分隔,所述待补全语句样本用第二分隔符进行分隔,且,所述第一分隔符与所述第二分隔符不同。
参见图5,以上文语句样本为例,待补全语句样本可以是“什么时候开始的”,上文语句样本可以包括“你玩ABCD吗”以及“玩的”。
其中,各个上文语句样本之间用第一分隔符[SEP]进行分隔,待补全语句样本用第二分隔符[X]进行分隔。
本实施例中,上下文语句样本和待补全语句样本分别用不同的分隔符进行分隔,可以使得模型能够基于分隔符识别输入的语句样本是上下文语句样本或待补全语句样本,提高模型的准确度。
402、采用前馈神经网络(Feed Forward Network,FFN),对所述语义特征进行前馈处理,以生成映射特征。
其中,前馈神经网络是一种最简单的神经网络,各神经元分层排列,每个神经元只与前一层的神经元相连。接收前一层的输出,并输出给下一层,各层间没有反馈。是应用最广泛、发展最迅速的人工神经网络之一。
FFN的输入是语义特征,输出可以称为映射特征。
本实施例中,采用FFN,可以简化操作,降低训练难度,提高模型训练效率。
403、采用归一化层,对所述映射特征进行归一化处理,以生成所述预测概率值。
其中,如图5所示,归一化层可以用softmax函数进行归一化。
归一化层的输入是FFN输出的映射特征,输出是真实完整语句中各个字的预测概率值。
例如,如图5所示,真实完整语句可以是“什么时候开始玩ABCD的”,归一化层的输出可以是“什么时候开始玩ABCD的”中各个字的预测概率值,预测概率值用于预测对应字是缺失的字的概率。
404、基于所述预测概率值,以及所述处理单元是缺失单元的真实概率值,构建第一损失函数。
其中,如图5所示,真实概率值用标签表示,缺失的字对应的真实概率值可以标注为1,其余字对应的真实概率值可以标注为0。
如图5所示,由于缺失的字是“玩ABCD”,因此,这5个字对应的真实概率值用1表示,其余字的真实概率值用0表示。
第一损失函数可以具体为KL散度(Kullback-Leibler divergence)函数。KL散度也称为相对熵。
KL散度用于评价两个概率分布之间的不相似程度,可以理解的是,第一损失函数也可以采用其他能够评价两个概率分布之间的不相似程度的函数,例如,交叉熵、JS散度(Jensen-Shannon divergence)等。
405、采用所述T5模型的解码器,对所述语义特征进行解码处理,以生成所述待补全语句样本对应的预测完整语句。
其中,如图5所示,解码器的输入是语义特征,输出是预测完整语句。
406、基于所述预测完整语句,以及所述真实完整语句,构建第二损失函数。
其中,402-404,与405-406无时序限制关系。
第二损失函数可以具体为最大似然估计(Maximum Likelihood Estimation,MLE)函数。
可以理解的是,第二损失函数也可以采用其他函数,目的是最小化预测完整语句与真实完整语句之间的距离,例如,也可以采用均方误差、对数似然函数等。
407、基于所述第一损失函数和所述第二损失函数,构建所述总损失函数。
其中,如图5所示,总损失函数的计算公式可以是:
losssum=loss1+loss2
其中,losssum是总损失函数,loss1是第一损失函数,loss2是第二损失函数。
408、基于所述总损失函数,调整所述编码器和所述解码器的模型参数。
例如,可以采用BP算法调整编码器和解码器的模型参数。
本实施例中,如图5所示,FFN和softmax层可以统称为选择器,解码器也可以称为生成器。
选择器采用较为简单的前馈神经网络将5Encoder编码后的语义特征(tokenembedding)投射到标签空间,然后使用softmax预测出每个token的概率值,利用KL散度计算选择器的损失函数loss1。
生成器采用了T5 Decoder进行补全后的句子生成,T5的生成效果很好,经过T5Encoder编码后的语义特征(token embedding)被送入Decoder进行解码生成,使用最大似然计算生成器的损失函数loss2。
选择器和生成器的损失函数进行相加后联合训练。不同于两阶段的显式建模,选择器和生成器的联合建模可以隐式地利用选择器的知识,将这种知识提供到生成器。具体来讲就是,选择器的loss可以提示T5 Encoder对上文中那些省略重要的词汇给予更多的关注,而这种关注在生成时会发挥作用。因为T5 Encoder中更多得关注了省略的词汇,所以在Decoder中进行query生成时也会更多的考虑这些重要词汇参与生成。
本实施例中,采用了选择器和生成器的联合生成架构,实现简单有效流畅。由于使用了隐式建模,相对于显式建模,可以减少误差累积,提高模型精度。由于T5模型具有良好的生成效果,本实施例采用T5模型的编码器和解码器,可以使得补全后的对话语句更加流畅。
图6是根据本公开第五实施例的示意图。如图6所示,本实施例提供一种对话语句补全模型的训练装置。所述对话语句补全模型包括:编码器和解码器,所述装置600包括:编码模块601、选择模块602、解码模块603、构建模块604和调整模块605。
编码模块601用于采用所述编码器,对多轮对话语句样本进行编码处理,以生成语义特征,其中,所述多轮对话语句样本包括:待补全语句样本;选择模块602用于基于所述语义特征,生成预测概率值;解码模块603用于采用所述解码器,对所述语义特征进行解码处理,以生成所述待补全语句样本对应的预测完整语句;构建模块604用于基于所述预测概率值,以及所述预测完整语句,构建总损失函数;调整模块605用于基于所述总损失函数,调整所述编码器和所述解码器中至少一项的模型参数。
本实施例中,基于语义特征生成预测概率值,基于语义特征生成预测完整语句,基于预测概率值和预测完整语句构建总损失函数,基于总损失函数调整模型参数,可以在对话语句补全模型训练时,标记缺失单元,从而提高对话语句补全模型的准确度。另外,预测概率值和预测完整语句均是基于语义特征获得的,可以认为是隐式建模,相对于分别采用不同的模型显式生成预测概率值和预测完整语句的方式,可以减少模型误差累积,进一步提高对话语句补全模型的准确度。
一些实施例中,所述选择模块602进一步用于:采用前馈神经网络,对所述语义特征进行前馈处理,以生成映射特征;采用归一化层,对所述映射特征进行归一化处理,以生成所述预测概率值。
本实施例中,采用FFN,可以简化操作,降低训练难度,提高模型训练效率。
一些实施例中,所述构建模块604进一步用于:基于所述预测概率值,以及所述处理单元是缺失单元的真实概率值,构建第一损失函数;基于所述预测完整语句,以及所述真实完整语句,构建第二损失函数;基于所述第一损失函数和所述第二损失函数,构建所述总损失函数。
本实施例中,如图5所示,FFN和softmax层可以统称为选择器,解码器也可以称为生成器。
选择器采用较为简单的前馈神经网络将5Encoder编码后的语义特征(tokenembedding)投射到标签空间,然后使用softmax预测出每个token的概率值,利用KL散度计算选择器的损失函数loss1。
生成器采用了T5 Decoder进行补全后的句子生成,T5的生成效果很好,经过T5Encoder编码后的语义特征(token embedding)被送入Decoder进行解码生成,使用最大似然计算生成器的损失函数loss2。
选择器和生成器的损失函数进行相加后联合训练。不同于两阶段的显式建模,选择器和生成器的联合建模可以隐式地利用选择器的知识,将这种知识提供到生成器。具体来讲就是,选择器的loss可以提示T5 Encoder对上文中那些省略重要的词汇给予更多的关注,而这种关注在生成时会发挥作用。因为T5 Encoder中更多得关注了省略的词汇,所以在Decoder中进行query生成时也会更多的考虑这些重要词汇参与生成。
一些实施例中,所述多轮对话语句样本还包括:所述待补全语句样本的上下文语句样本;所述上下文语句样本用第一分隔符进行分隔,所述待补全语句样本用第二分隔符进行分隔,且,所述第一分隔符与所述第二分隔符不同。
本实施例中,上下文语句样本和待补全语句样本分别用不同的分隔符进行分隔,可以使得模型能够基于分隔符识别输入的语句样本是上下文语句样本或待补全语句样本,提高模型的准确度。
一些实施例中,所述编码器为T5模型中的编码器,所述解码器为所述T5模型中的解码器。
由于T5模型具有良好的生成效果,本实施例采用T5模型的编码器和解码器,可以使得补全后的对话语句更加流畅。
图7是根据本公开第六实施例的示意图。如图7所示,本实施例提供一种对话语句补全装置。所述对话语句补全装置700包括:获取模块701、编码模块702和解码模块703。
获取模块701用于获取多轮对话语句,所述多轮对话语句包括:待补全语句;编码模块702用于采用编码器,提取所述对轮对话语句的语义特征;解码模块703用于采用解码器,基于所述语义特征,生成所述待补全语句对应的补全后的对话语句。
其中,对话语句补全模型可以包括编码器和解码器,编码器和解码器可以采用上述实施例所示的方法进行训练。
本实施例中,采用上述训练方法获得的对话语句补全模型,进行对话语句补全处理,以获得补全后的对话语句,由于对话语句补全模型的准确度较高,本实施例可以获得准确度较高的补全后的对话语句。
可以理解的是,本公开实施例中,不同实施例中的相同或相似内容可以相互参考。
可以理解的是,本公开实施例中的“第一”、“第二”等只是用于区分,不表示重要程度高低、时序先后等。
本公开的技术方案中,所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理,均符合相关法律法规的规定,且不违背公序良俗。
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
图8示出了可以用来实施本公开的实施例的示例电子设备800的示意性框图。电子设备800旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字助理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图8所示,电子设备800包括计算单元801,其可以根据存储在只读存储器(ROM)802中的计算机程序或者从存储单元808加载到随机访问存储器(RAM)803中的计算机程序,来执行各种适当的动作和处理。在RAM 803中,还可存储电子设备800操作所需的各种程序和数据。计算单元801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。
电子设备800中的多个部件连接至I/O接口805,包括:输入单元806,例如键盘、鼠标等;输出单元807,例如各种类型的显示器、扬声器等;存储单元808,例如磁盘、光盘等;以及通信单元809,例如网卡、调制解调器、无线通信收发机等。通信单元809允许电子设备800通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元801可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元801的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元801执行上文所描述的各个方法和处理,例如对话语句补全模型的训练方法或对话语句补全方法。在一些实施例中,对话模型的训练方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元808。在一些实施例中,计算机程序的部分或者全部可以经由ROM 802和/或通信单元809而被载入和/或安装到电子设备800上。当计算机程序加载到RAM 803并由计算单元801执行时,可以执行上文描述的对话语句补全模型的训练方法或对话语句补全方法的一个或多个步骤。备选地,在其他实施例中,计算单元801可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行对话语句补全模型的训练方法或对话语句补全方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务("Virtual Private Server",或简称"VPS")中,存在的管理难度大,业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器,或者是结合了区块链的服务器。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。
Claims (15)
1.一种对话语句补全模型的训练方法,所述对话补全模型包括:编码器和解码器,所述方法包括:
采用所述编码器,对多轮对话语句样本进行编码处理,以生成语义特征,其中,所述多轮对话语句样本包括:待补全语句样本;
基于所述语义特征,生成预测概率值;
采用所述解码器,对所述语义特征进行解码处理,以生成所述待补全语句样本对应的预测完整语句;
基于所述预测概率值,以及所述预测完整语句,构建总损失函数;
基于所述总损失函数,调整所述编码器和所述解码器中至少一项的模型参数。
2.根据权利要求1所述的方法,其中,所述基于所述语义特征,生成预测概率值,包括:
采用前馈神经网络,对所述语义特征进行前馈处理,以生成映射特征;
采用归一化层,对所述映射特征进行归一化处理,以生成所述预测概率值。
3.根据权利要求1所述的方法,其中,所述基于所述预测概率值,以及所述预测完整语句,构建总损失函数,包括:
基于所述预测概率值,以及所述处理单元是缺失单元的真实概率值,构建第一损失函数;
基于所述预测完整语句,以及所述真实完整语句,构建第二损失函数;
基于所述第一损失函数和所述第二损失函数,构建所述总损失函数。
4.根据权利要求1-3任一项所述的方法,其中,
所述多轮对话语句样本还包括:所述待补全语句样本的上下文语句样本;
所述上下文语句样本用第一分隔符进行分隔,所述待补全语句样本用第二分隔符进行分隔,且,所述第一分隔符与所述第二分隔符不同。
5.根据权利要求1所述的方法,其中,
所述编码器为T5模型中的编码器;
所述解码器为所述T5模型中的解码器。
6.一种对话补全方法,包括:
获取多轮对话语句,所述多轮对话语句包括:待补全语句;
采用编码器,提取所述对轮对话语句的语义特征;
采用解码器,基于所述语义特征,生成所述待补全语句对应的补全后的对话语句;
其中,所述编码器和所述解码器是采用如权利要求1-5任一项所述的方法训练的。
7.一种对话语句补全模型的训练装置,所述对话语句补全模型包括:编码器和解码器,所述装置包括:
编码模块,用于采用所述编码器,对多轮对话语句样本进行编码处理,以生成语义特征,其中,所述多轮对话语句样本包括:待补全语句样本;
选择模块,用于基于所述语义特征,生成预测概率值;
解码模块,用于采用所述解码器,对所述语义特征进行解码处理,以生成所述待补全语句样本对应的预测完整语句;
构建模块,用于基于所述预测概率值,以及所述预测完整语句,构建总损失函数;
调整模块,用于基于所述总损失函数,调整所述编码器和所述解码器中至少一项的模型参数。
8.根据权利要求7所述的装置,其中,所述选择模块进一步用于:
采用前馈神经网络,对所述语义特征进行前馈处理,以生成映射特征;
采用归一化层,对所述映射特征进行归一化处理,以生成所述预测概率值。
9.根据权利要求7所述的装置,其中,所述构建模块进一步用于:
基于所述预测概率值,以及所述处理单元是缺失单元的真实概率值,构建第一损失函数;
基于所述预测完整语句,以及所述真实完整语句,构建第二损失函数;
基于所述第一损失函数和所述第二损失函数,构建所述总损失函数。
10.根据权利要求7-9任一项所述的装置,其中,
所述多轮对话语句样本还包括:所述待补全语句样本的上下文语句样本;
所述上下文语句样本用第一分隔符进行分隔,所述待补全语句样本用第二分隔符进行分隔,且,所述第一分隔符与所述第二分隔符不同。
11.根据权利要求7-9任一项所述的装置,其中,
所述编码器为T5模型中的编码器;
所述解码器为所述T5模型中的解码器。
12.一种对话语句补全装置,包括:
获取模块,用于获取多轮对话语句,所述多轮对话语句包括:待补全语句;
编码模块,用于采用编码器,提取所述对轮对话语句的语义特征;
解码模块,用于采用解码器,基于所述语义特征,生成所述待补全语句对应的补全后的对话语句;
其中,所述编码器和所述解码器是采用如权利要求1-5任一项所述的方法训练的。
13.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-6中任一项所述的方法。
14.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行权利要求1-6中任一项所述的方法。
15.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1-6中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210727958.5A CN115168553A (zh) | 2022-06-23 | 2022-06-23 | 对话语句补全及模型训练方法、装置、设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210727958.5A CN115168553A (zh) | 2022-06-23 | 2022-06-23 | 对话语句补全及模型训练方法、装置、设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115168553A true CN115168553A (zh) | 2022-10-11 |
Family
ID=83487361
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210727958.5A Pending CN115168553A (zh) | 2022-06-23 | 2022-06-23 | 对话语句补全及模型训练方法、装置、设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115168553A (zh) |
-
2022
- 2022-06-23 CN CN202210727958.5A patent/CN115168553A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6916264B2 (ja) | 切断アテンションに基づくリアルタイム音声認識方法、装置、機器及びコンピュータ読み取り可能な記憶媒体 | |
EP4064277B1 (en) | Method and apparatus for training speech recognition model, device and storage medium | |
CN112528655B (zh) | 关键词生成方法、装置、设备及存储介质 | |
CN111931517B (zh) | 文本翻译方法、装置、电子设备以及存储介质 | |
CN113889076B (zh) | 语音识别及编解码方法、装置、电子设备及存储介质 | |
CN114360557B (zh) | 语音音色转换方法、模型训练方法、装置、设备和介质 | |
CN115309877A (zh) | 对话生成方法、对话模型训练方法及装置 | |
CN112786108B (zh) | 分子理解模型的训练方法、装置、设备和介质 | |
CN113239157B (zh) | 对话模型的训练方法、装置、设备和存储介质 | |
CN113053367A (zh) | 语音识别方法、语音识别的模型训练方法以及装置 | |
JP7121791B2 (ja) | 言語生成方法、装置及び電子機器 | |
CN112861548A (zh) | 自然语言生成及模型的训练方法、装置、设备和存储介质 | |
CN113743101A (zh) | 文本纠错方法、装置、电子设备和计算机存储介质 | |
CN115640520A (zh) | 跨语言跨模态模型的预训练方法、设备和存储介质 | |
CN113689868B (zh) | 一种语音转换模型的训练方法、装置、电子设备及介质 | |
CN114861637A (zh) | 拼写纠错模型生成方法和装置、拼写纠错方法和装置 | |
CN115358243A (zh) | 多轮对话识别模型的训练方法、装置、设备及存储介质 | |
CN114912441A (zh) | 文本纠错模型生成方法、纠错方法、系统、设备和介质 | |
CN113129869B (zh) | 语音识别模型的训练与语音识别的方法、装置 | |
US20230410794A1 (en) | Audio recognition method, method of training audio recognition model, and electronic device | |
CN115269768A (zh) | 要素文本处理方法、装置、电子设备和存储介质 | |
CN115860003A (zh) | 一种语义角色分析方法、装置、电子设备及存储介质 | |
CN115270719A (zh) | 基于多模态信息的文本摘要生成方法、训练方法及其装置 | |
CN115357710A (zh) | 表格描述文本生成模型的训练方法、装置及电子设备 | |
CN115168553A (zh) | 对话语句补全及模型训练方法、装置、设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |