CN113128176A - 总结模型的训练方法和工单生成方法及相关设备、装置 - Google Patents
总结模型的训练方法和工单生成方法及相关设备、装置 Download PDFInfo
- Publication number
- CN113128176A CN113128176A CN202110227624.7A CN202110227624A CN113128176A CN 113128176 A CN113128176 A CN 113128176A CN 202110227624 A CN202110227624 A CN 202110227624A CN 113128176 A CN113128176 A CN 113128176A
- Authority
- CN
- China
- Prior art keywords
- text
- representation
- similarity
- value
- supplemented
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 94
- 238000012549 training Methods 0.000 title claims abstract description 42
- 230000002452 interceptive effect Effects 0.000 claims description 62
- 238000000605 extraction Methods 0.000 claims description 27
- 230000001502 supplementing effect Effects 0.000 claims description 11
- 239000012634 fragment Substances 0.000 claims description 8
- 230000015654 memory Effects 0.000 claims description 8
- 230000003993 interaction Effects 0.000 claims 2
- 230000008569 process Effects 0.000 description 29
- 238000005406 washing Methods 0.000 description 17
- 238000010586 diagram Methods 0.000 description 14
- 238000012545 processing Methods 0.000 description 12
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 11
- 238000013024 troubleshooting Methods 0.000 description 9
- 230000009286 beneficial effect Effects 0.000 description 8
- 239000000047 product Substances 0.000 description 8
- 230000004044 response Effects 0.000 description 6
- 238000010606 normalization Methods 0.000 description 4
- 230000006403 short-term memory Effects 0.000 description 4
- 239000013589 supplement Substances 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 230000002457 bidirectional effect Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000008030 elimination Effects 0.000 description 2
- 238000003379 elimination reaction Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000012423 maintenance Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000009835 boiling Methods 0.000 description 1
- 238000001816 cooling Methods 0.000 description 1
- 230000018044 dehydration Effects 0.000 description 1
- 238000006297 dehydration reaction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000005057 refrigeration Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/194—Calculation of difference between files
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Molecular Biology (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种总结模型的训练方法和工单生成方法及相关设备、装置,其中,总结模型的训练方法包括:获取样本文本;其中,样本文本对应有参考总结文本和对照文本;利用总结模型的编码网络对样本文本和对照文本进行编码,得到样本文本的第一表示和对照文本的第二表示;利用总结模型的解码网络对第一表示进行解码,得到样本文本的预测总结文本;基于第一表示和第二表示之间的相似度,得到总结模型的第一损失值,并基于预测总结文本和参考总结文本,得到总结模型的第二损失值;基于第一损失值和第二损失值,调整总结模型的网络参数。上述方案,能够提高文本总结的效率和准确性。
Description
技术领域
本申请涉及人工智能技术领域,特别是涉及一种总结模型的训练方法和工单生成方法及相关设备、装置。
背景技术
随着信息技术的发展,利用计算机来辅助办公等工作已逐渐应用于各行各业中。例如,在客服场景中,通常需要总结、提炼对话文本,以形成工单,从而将工单提交至业务部门处理。目前,一般采用人工总结、提炼对话文本的方式,来形成工单,效率低下且通常存在处理不规范的问题。有鉴于此,如何提高文本总结的效率和准确性成为极具研究价值的课题。
发明内容
本申请主要解决的技术问题文本是提供一种总结模型的训练方法和工单生成方法及相关设备、装置,能够提高文本总结的效率和准确性。
为了解决上述问题文本,本申请第一方面提供了一种总结模型的训练方法,包括:获取样本文本;其中,样本文本对应有参考总结文本和对照文本;利用总结模型的编码网络对样本文本和对照文本进行编码,得到样本文本的第一表示和对照文本的第二表示;利用总结模型的解码网络对第一表示进行解码,得到样本文本的预测总结文本;基于第一表示和第二表示之间的相似度,得到总结模型的第一损失值,并基于预测总结文本和参考总结文本,得到总结模型的第二损失值;基于第一损失值和第二损失值,调整总结模型的网络参数。
为了解决上述问题文本,本申请第二方面提供了一种工单生成方法,包括:获取交互文本和工单模板;其中,交互文本包含至少一个对话文本,工单模板包含与文本总结相关的第一待补充位置;识别交互文本中与文本总结相关的对话文本,作为关键文本;利用总结模型对关键文本进行总结,得到关键文本的总结文本;其中,总结模型是利用上述第一方面中的总结模型的训练方法训练得到的;在第一待补充位置补入总结文本,得到工单文本。
为了解决上述问题文本,本申请第三方面提供了一种电子设备,包括相互耦接的存储器和处理器,存储器中存储有程序指令,处理器用于执行程序指令以实现上述第一方面中的总结模型的训练方法,或实现上述第二方面中的工单生成方法。
为了解决上述问题文本,本申请第四方面提供了一种存储装置,存储有能够被处理器运行的程序指令,程序指令用于实现上述第一方面中的总结模型的训练方法,或实现上述第二方面中的工单生成方法。
上述方案,通过获取样本文本,且样本文本对应有参考总结文本和对照文本,在此基础上,利用总结模型的编码网络对样本文本和对照文本进行编码,得到样本文本的第一表示和对照文本的第二表示,并利用总结模型的解码网络对第一表示进行解码,得到样本文本的预测总结文本,从而基于第一表示和第二表示之间的相似度,得到总结模型的第一损失值,并基于预测总结文本和参考总结文本,得到总结模型的第二损失值,进而基于第一损失值和第二损失值,调整总结模型的网络参数,即无需人工生成总结文本,且在训练总结模型的过程中,一方面考虑了参考总结文本和预测总结文本,有利于使总结模型学习到参考总结文本的文本总结方式,另一方面度量了第一表示和第二表示之间的相似度,由于若对照文本与样本文本之间语义相同,理论上第一表示和第二表示之间越相似,而若对照文本与样本文本之间语义不同,理论上第一表示和第二表示之间越不相似,故能够提高编码网络对于样本文本语义类别的鉴别能力,提高第一表示的准确性,能够有利于降低解码网络生成与总结无关文字的概率。故此,能够提高文本总结的效率和准确性。
附图说明
图1是本申请总结模型的训练方法一实施例的流程示意图;
图2是总结模型一实施例的框架示意图;
图3是本申请工单生成方法一实施例的流程示意图;
图4是关键文本识别一实施例的状态示意图;
图5是分类信息识别一实施例的状态示意图;
图6是关键片段提取一实施例的状态示意图;
图7是本申请电子设备一实施例的框架示意图;
图8是本申请存储装置一实施例的框架示意图。
具体实施方式
下面结合说明书附图,对本申请实施例的方案进行详细说明。
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、接口、技术之类的具体细节,以便透彻理解本申请。
本文中术语“系统”和“网络”在本文中常被可互换使用。本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。此外,本文中的“多”表示两个或者多于两个。
请参阅图1,图1是本申请总结模型的训练方法一实施例的流程示意图。具体而言,可以包括如下步骤:
步骤S11:获取样本文本。
本公开实施例中,样本文本可以对应有参考总结文本和对照文本。需要说明的是,对照文本可以与样本文本语义相同,对照文本也可以与样本文本语义不同,在此不做限定。
在一个实施场景中,样本文本具体可以根据实际应用场景进行采集。以工单生成场景为例,样本文本可以包括但不限于:“洗衣机能洗衣服,但是洗完之后不能脱水了”、“空调吹不出冷风”等等,在此不做限定。其他场景可以以此类推,在此不再一一举例。
在一个实施场景中,参考总结文本可以是对样本文本总结提炼得到的。仍以工单生成场景为例,在样本文本为“洗衣机能洗衣服,但是洗完之后不能脱水了”的情况下,相应的参考总结文本可以为“无法脱水”;在样本文本为“空调吹不出冷风”的情况下,相应的参考总结文本可以为“无法制冷”。其他场景可以以此类推,在此不再一一举例。需要说明的是,上述样本文本的参考总结文本仅仅是实际应用中可能存在的一种情况,并不因此而限定实际对样本文本所标注的参考总结文本。
在一个实施场景中,可以将与样本文本语义相同的对照文本称为正例文本,并将于样本文本语义不同的对照文本称为负例文本。为了便于描述,样本文本可以记为Q,正例文本可以记为Q+,负例文本可以记为Q-。
在一个具体的实施场景中,样本文本Q可以仅对应有正例文本Q+。仍以工单生成场景为例,在样本文本Q“洗衣机能洗衣服,但是洗完之后不能脱水了”的情况下,其可以对应有正例文本Q+“不能脱水了”;或者,在样本文本Q为“空调吹不出冷风”的情况下,其可以对应有正例文本Q+“空调不制冷”。其他场景可以以此类推,在此不再一一举例。
在另一个具体的实施场景中,样本文本Q也可以仅对应有负例文本Q-。仍以工单生成场景为例,在样本文本Q“洗衣机能洗衣服,但是洗完之后不能脱水了”的情况下,其可以对应有负例文本Q-“空调不制冷”;或者,在样本文本Q为“空调吹不出冷风”的情况下,其可以对应有负例文本Q-“不能脱水了”。其他场景可以以此类推,在此不再一一举例。
在又一个具体的实施场景中,样本文本Q还可以既对应有正例文本Q+也对应有负例文本Q-。仍以工单生成场景为例,在样本文本为Q“洗衣机能洗衣服,但是洗完之后不能脱水了”的情况下,其可以对应有正例文本Q+“不能脱水了”和负例文本Q-“空调不制冷”;或者,在样本文本Q为“空调吹不出冷风”的情况下,其可以对应有正例文本Q+“空调不制冷”和负例文本Q-“不能脱水了”。其他场景可以以此类推,在此不再一一举例。
在又一个具体的实施场景中,可以根据实际应用场景预先设置多个文本,并在获取到样本文本之后,在上述多个文本中选取与样本文本语义相同的文本作为样本文本的正例文本,选取与样本文本语义不同的文本作为样本文本的负例文本。仍以工单生成场景为例,可以预先设置多个文本:“空调不制冷”、“不能脱水了”、“水壶烧不开”、“燃气灶大不了火”等等,在此不做限定。在获取到样本文本“洗衣机能洗衣服,但是洗完之后不能脱水了”的情况下,可以选取上述文本“不能脱水了”,作为其正例文本,选取上述文本“空调不制冷”、“水壶烧不开”、“燃气灶大不了火”中至少一者作为其负例文本;或者,在获取到样本文本“空调吹不出冷风”的情况下,可以选取上述文本“空调不制冷”作为其正例文本,选取上述文本“不能脱水了”、“水壶烧不开”、“燃气灶大不了火”中的至少一者作为其负例文本。其他场景可以以此类推,在此不再一一举例。
步骤S12:利用总结模型的编码网络对样本文本和对照文本进行编码,得到样本文本的第一表示和对照文本的第二表示。
在一个实施场景中,在训练过程中,总结模型可以包括与待总结的样本文本对应的编码网络以及与对照文本对应的编码网络,从而可以将样本文本输入对应的编码网络,得到第一表示,并将对照文本输入对应的编码网络,得到第二表示。
需要说明的是,在训练过程中,通过上述方式可以分别训练得到对照文本对应的编码网络和样本文本对应的编码网络,在训练结束之后以及实际应用时,可以仅保留样本文本对应的编码网络,从而在实际应用过程中,可以将待总结文本输入样本文本对应的编码网络,得到待总结文本的编码表示,并利用总结模型的解码网络对待总结文本的编码表示进行解码,得到待总结文本的总结文本。
在一个实施场景中,总结模型的编码网络可以包括但不限于BRET(BidirectionalEncoder Representation from Transformers,即双向transformer的encoder)等等,在此不做限定。
在另一个实施场景中,请结合参阅图2,图2是总结模型一实施例的框架示意图。如图2所示,样本文本对应的编码网络与对照文本对应的编码网络可以具有相同的网络结构,即两者的编码过程相同。为了便于描述,下面以输入文本为例说明图2所示的编码网络具体的编码过程。需要说明的是,在输入文本为对照文本的情况下,下述编码过程即为对照文本的编码过程,而在输入文本为样本文本的情况下,下述编码过程即为样本文本的编码过程,在输入文本为实际应用时的待总结文本的情况下,下述编码过程即为待总结文本的编码过程,以此类推,在此不再一一举例。
在一个具体的实施场景中,输入文本经过词嵌入算法(embedding algrithm)将输入文本中每个单词转换为预设维度d(如,100维)的向量表示,则在输入文本含有N个单词的情况下,可以将输入文本转换为N*d的向量表示。具体地,词嵌入算法可以包括但不限于:word2vec、glove等等,在此不做限定。
在另一个具体的实施场景中,为了掌握单词出现在句子中的位置,提高编码准确性,在得到上述向量表示之后,还可以基于上述向量表示对各个单词进行位置编码(positional encoding),在此基础上,可以融合单词embedding(即上述向量表示)和单词位置embedding(即经位置编码所得到的向量表示),得到各个单词的输入表示。为了便于表述,单词位置embedding记为PE,PE的维度与单词embedding相同(即两者维度均为d),在此基础上,单词的PE可以表示为:
PE(pos,2i)=sin(pos/100002i/d)……(1)
PE(pos,2i+1)=cos(pos/100002i/d)……(2)
上述公式(1)和(2)中,pos表示单词在输入文本中的位置,2i表示PE中偶数维度,2i+1表示PE中奇数维度(即,2i≤d,2i+1≤d)。
在又一个具体的实施场景中,在得到各个单词的输入表示之后,可以利用多头注意力(Multi-head Attention)对输入表示进行处理,得到输入文本的语义表示。具体地,head的数量为超参数,可以根据实际需要调整。此外,对于每个headi,可以对输入表示做三次不同的映射,使得输入表示具有不同的表达,从而可以突出重点(如,词性、句法关系等等),进而最终可以将每个head的处理结果进行拼接,得到输入文本的语义表示。多头注意力的具体处理过程在此不再赘述。需要说明的是,输入文本经多头注意力处理之后,可以未改变输入表示的维度,即最终输出的语义表示仍然为N*d维。
在又一个具体的实施场景中,请继续结合参阅图2,如图2所示,在经多头注意力处理之后,可以得到输入文本的语义表示,并将语义表示与前述输入表示进行残差连接(即Add residua),并对残差连接结果进行归一化处理(即Norm)。为了便于描述,可以将输入文本的输入表示记为X,并将输入文本的语义表示记为MultiHeadAttention(X),则最终归一化处理结果可以表示为Norm(X+MultiHeadAttention(X))。
在又一个具体的实施场景中,请继续结合参阅图2,如图2所示,在得到归一化处理结果之后,可以利用前馈网络(Feed Forward Network,FNN)处理上述归一化处理结果。具体地,前馈网络可以包括多个顺序连接的全连接层,如可以包括两层全连接层,在此不做限定。
在又一个具体的实施场景中,请继续结合参阅图2,如图2所示,上述前馈网络的处理结果与上述归一化结果可以再次进行残差连接(Add residua)以及归一化(Norm),得到输入文本的最终表示。需要说明的是,输入文本的最终表示并未改变输入表示的维度,即输入文本的最终表示仍为N*d。此外,为了便于后续计算相似度,可以将输入文本的最终表示进行池化(pooling)处理,池化处理可以包括对上述N*d的最终表示进行加权平均,以将最终表示降维至d维。
步骤S13:利用总结模型的解码网络对第一表示进行解码,得到样本文本的预测总结文本。
在一个实施场景中,利用总结模型的解码网络可以对第一表示进行若干次解码,且每次解码可以参考前一次解码得到的预测总结文字,最终可以将若干次解码得到的预测总结文字的组合,作为样本文本的预测总结文本。
在一个实施场景中,总结模型的解码网络可以包括但不限于:指针生成网络(Pointer-Generator Networks,PGN)等等,在此不做限定。
在另一个实施场景中,请继续结合参阅图2,如图2所示,第一表示经解码网络解码处理,最终可以得到预测总结文本。为了便于描述,下面以编码表示为例说明图2所示的解码网络具体的解码过程。需要说明的是,在训练过程中,该编码表示即为样本文本的第一表示,而在实际应用过程中,该编码表示即为待总结文本经编码网络编码所得到的向量表示,在此不再分别说明。
在一个具体的实施场景中,如前所述,输入文本的编码表示包括输入文本中各个单词的个体表示,如图2所示,每次解码过程中,可以基于注意力机制对编码表示进行处理,得到输入文本中各个单词的重要度。具体地,为了便于描述,可以将输入文本中第i个单词的个体表示记为hi,则各个单词的重要度可以表示为:
αt=softmax(et)……(4)
上述公式(3)和(4)中,t表示本次解码的时序,如第一次解码时,t可以为0,第二次解码时,t可以为1,以此类推,在此不再一一举例。Wh、Ws、battn和vt均为注意力机制的网络参数,可以在总结模型的训练过程中调整。wt表示与vt具有相同长度的网络参数,具体也可以在训练过程中进行调整。需要说明的是,在训练时,可以将参考总结文本中各个单词依时序分别输入LSTM(Long Short-Term Memory,长短期记忆网络)进行编码,得到LSTM在t时序的隐层状态st,而在实际利用总结模型进行文本总结过程中,可以将上一时序(如t-1时序)得到的预测总结文字输入LSTM进行编码,得到LSTM在当前时序(即t时序)的隐层状态st。此外,即表示在t时序输入文本中第i个单词的注意力分值,该分值经过softmax归一化之后,即可得到各个单词的重要度进一步地,表示覆盖向量(coverage vector),可以利用在当前时序之前历次解码所得到的重要度,得到覆盖向量。覆盖向量具体可以表示为:
在另一个具体的实施场景中,每次解码过程中,在得到输入文本中各个单词的重要度之后,可以利用各个单词的重要度分别对对应单词的个体表示进行加权处理,得到输入文本的上下文表示。以当前时序t为例,为了便于描述,可以将输入文本的上下文表示记为具体可以表示为:
在又一个具体的实施场景中,请继续参阅图2,在得到输入文本的上下文表示记为之后,可以将该上下文表示与当前时序t长短期记忆网络(LSTM)的隐层状态st进行拼接,得到拼接表示,并将拼接表示输入前馈网络(FNN),得到预设维度的第一概率向量Pvocab,且预设维度与预设词典的长度相同。例如,预设词典含有5000个单词,则第一概率向量Pvocab也为5000维的向量,且第一概率向量Pvocab中各个元素分别表示当前时序t的预测总结文字为预设词典中对应单词的概率值。第一概率向量Pvocab具体可以表示为:
上述公式(7)中,[·,·]表示拼接操作,V′、V、b和b′均表示前馈网络的网络参数,具体可以在训练过程中进行调整。此外,如前所述,前馈网络具体可以包括多个全连接层,本公开实施例中,前馈网络可以包括两个全连接层,V′和b′表示其中一个全连接层的网络参数,V和b表示另一个全连接层的网络参数。需要说明的是,第一概率向量Pvocab表示的是基于预设词典生成文字的概率。
在又一个具体的实施场景中,在当前时序t,可以基于输入文本中各个单词的重要度,得到第二概率向量Pcopy,且第二概率向量Pcopy中各个元素分别表示当前时序t的预测总结文字为输入文本中对应单词的概率值。第二概率向量Pcopy具体可以表示为:
在又一个具体的实施场景中,还可以基于上下文表示与当前时序t长短期记忆网络(LSTM)的隐层状态st,得到当前时序t从预设词典生成文字的第一门限p_gen,在此情况下,1-p_gen则可以表示当前时序t从输入文本复制文字的第二门限。具体地,第一门限p_gen可以表示为:
上述公式(9)中,σ表示sigmoid函数,和bptr均表示解码网络的网络参数,具体可以在训练过程进行调整。需要说明的是,如前所述,在训练时,可以将参考总结文本中各个单词依时序分别输入LSTM(Long Short-Term Memory,长短期记忆网络)进行编码,可以得到当前时序所输入单词的向量表示xt,而在实际利用总结模型进行文本总结过程中,可以将上一时序(如t-1时序)得到的预测总结文字输入LSTM进行编码,得到上一时序(如t-1时序)得到的预测总结文字的向量表示xt。
在又一个具体的实施场景中,在当前时序t,可以基于前述第一概率向量、第二概率向量以及第一门限、第二门限,得到预设词典和输入文本中各个单词为当前时序t的预测总结文字的第三概率向量Pw,具体可以表示为:
上述公式(10)中,p_gen*Pvocab(w)表示从预设词典生成文字的概率,而表示在输入文本复制文字的概率,即在当前时序t,预测总结文字可以从预设词典中生成,或者在输入文本中复制。在实际利用总结模型进行文本总结过程中,可以将第三概率向量中最大概率值所对应的文字,作为当前时序t对应的预测总结文字,最终可以将若干次解码所得到的预测总结文字的组合,作为预测总结文本。
步骤S14:基于第一表示和第二表示之间的相似度,得到总结模型的第一损失值,并基于预测总结文本和参考总结文本,得到总结模型的第二损失值。
在另一个实施场景中,为了在每次解码时,避免注意力机制关注相同位置,从而降低解码得到重复文字的概率,在当前时序t,还可以基于前述输入文本中各个单词的重要度(即)和历史重要度(即),得到当前时序t的第二损失值loss2,具体可以表示为:
上述公式(12)中,表示取输入文本中各个单词的重要度(即)和历史重要度(即)两者之间较小值之和,γ表示权重系数,具体可以根据实际情况进行调整。上述方式,通过最小化第二损失值,一方面能够使得注意力机制受其先前决策影响,降低解码得到重复文字的概率,另一方面能够使得参考总结文本中对应位置文字在第三概率向量中的概率值尽可能地大,即能够使得预测总结文本尽可能地接近于参考总结文本,提高总结模型的准确性。
在一个实施场景中,按照相似度是否满足预设收敛条件,可以采用不同的计算方式。需要说明的是,相似度满足预设收敛条件,意味着样本文本的第一表示与对照文本的第二表示之间的相似度应符合样本文本与对照文本之间语义关系(即语义相同或语义不同)。具体地,若样本文本与对照文本之间语义相同,即对于正例文本而言,样本文本的第一表示与正例文本的第二表示之间的相似度应尽可能地大;反之,若样本文本与对照文本之间语义不同,即对于负例文本而言,样本文本的第一表示与负例文本的第二表示之间的相似度应尽可能地小。
在一个具体的实施场景中,在相似度满足预设收敛条件的情况下,可以直接将第一损失值设置为预设数值。具体地,该预设数值可以设置为第一损失值其值域范围的下限值,例如,预设数值可以设置为0。上述方式,在相似度满足预设条件的情况下,将第一损失值设置为预设数值,不仅能够降低第一损失值的计算复杂度,还能够有利于提高编码网络的准确性。
在另一个具体的实施场景中,在相似度不满足预设收敛条件且对照文本与样本文本之间语义相同的情况下,第一损失值与相似度为负相关关系。即对于正例文本而言,若正例文本的第二表示与样本文本的第一表示之间的相似度不满足预设收敛条件,则第一损失值与相似度为负相关关系,也就是说,相似度越大,第一损失值越小,反之相似度越小,第一损失值越大。上述方式,在相似度不满足预设收敛条件且对照文本与样本文本之间语义相同的情况下,将第一损失值设置为与相似度为负相关关系,则通过最小化第一损失值,能够尽可能提高样本文本的第一表示与其正例文本的第二表示之间的相似度,即能够使得语义相同的文本其特征表示也趋于一致,提高编码网络的准确性。
需要说明的是,在对照文本与样本文本之间语义相同的情况下,即对于正例文本,预设收敛条件可以设置为:预设相似门限与相似度之间的差值不大于预设数值。以预设数值等于0为例,预设收敛条件即为预设相似门限与相似度之间的差值不大于0,也就是说,相似度须大于等于预设相似门限,即相似度须尽可能地大。具体地,预设相似门限可以根据实际应用情况进行设置,例如,在编码精度要求较高的情况下,预设相似门限可以设置地稍大一些,而在编码精度要求相对宽松的情况下,预设相似门限可以设置地稍小一些,在此不做限定。
在又一个具体的实施场景中,在相似度不满足预设收敛条件且对照文本与样本文本之间语义不同的情况下,第一损失值与相似度为正相关关系。即对于负例文本而言,若负例文本的第二表示与样本文本的第一表示之间的相似度不满足预设收敛条件,则第一损失值与相似度为正相关关系,也就是说,相似度越大,第一损失值越大,反之相似度越小,第一损失值越小。上述方式,在相似度不满足预设收敛条件且对照文本与样本文本之间语义不同的情况下,将第一损失值设置为与相似度为正相关关系,则通过最小化第一损失值,能够尽可能降低样本文本的第一表示与其负例文本的第二表示之间的相似度,即能够使得语义不同的文本其特征表示也趋于不一致,提高编码网络的准确性。
需要说明的是,在对照文本与样本文本之间语义不同的情况下,即对于负例文本,预设收敛条件可以设置为:预设相似门限与相似度之间的和值不大于预设数值。以预设数值为0为例,预设收敛条件即为预设相似门限与相似度的和值须不大于0,也就是说,相似度须小于等于预设相似门限值的相反数,即相似度须尽可能地小。具体地,预设相似门限可以根据实际应用情况进行设置,具体可以参阅前述相关描述,在此不再赘述。
在一个实施场景中,在对照文本既包括正例文本又包括负例文本的情况下,样本文本的第一表示和正例文本的第二表示之间的相似度与第一损失值为负相关关系,且样本文本的第一表示和负例文本的第二表示之间的相似度与第一损失值为正相关关系。具体地,为了便于描述,可以将第一表示和正例文本的第二表示之间的相似度称为第一相似度,记为sim(Q,Q+),可以将第一表示和负例文本的第二表示之间的相似度称为第二相似度,记为sim(Q,Q-),并进一步获取第一相似度减去第二相似度的第一差值(即sim(Q,Q+)-sim(Q,Q-)),以及获取预设相似门限margin减去第一差值的第二差值(即margin-(sim(Q,Q+)-sim(Q,Q-))),在此基础上,可以基于预设数值(如,0)与第二差值之间的大小关系,得到第一损失值loss1。上述方式,在对照文本包括正例文本和负例文本的情况下,获取第一表示和正例文本的第二表示之间的第一相似度,并获取第一表示和负例文本的第二表示之间的第二相似度,在此基础上,获取第一相似度减去第二相似度的第一差值,并获取预设相似门限减去第一差值的第二差值,从而基于预设数值与第二差值之间的大小关系,得到第一损失值,能够有利于通过正例文本和负例文本进一步提高编码网络对于样本文本语义类别的鉴别能力,进而能够有利于提高编码网络的准确性。
在一个具体的实施场景中,在预设数值大于第二差值的情况下,可以将预设数值作为第一损失值,并在预设数值不大于第二差值的情况下,将第二差值作为第一损失值。上述方式,能够尽可能地使得样本文本的第一表示尽可能与语义相同的正例文本的第二表示一致,并尽可能地使得样本文本的第一表示与语义不同的负例文本的第二表示不一致,提高编码网络的准确性。
在另一个实施场景中,如前所述,为了便于描述,第一相似度可以记为sim(Q,Q+),第二相似度可以记为sim(Q,Q-),预设相似门限可以记为margin,以预设数值是0为例,第一损失值loss1可以表示为:
loss1=max(0,margin-(sim(Q,Q+)-sim(Q,Q-)))……(13)
上述公式(13)中,max表示取预设数值0以及第二差值之间的最大值。
步骤S15:基于第一损失值和第二损失值,调整总结模型的网络参数。
具体地,在得到上述第一损失值和第二损失值之后,可以将第一损失值和第二损失值之和,作为总结模型的总损失值losssummary,具体可以表示为:
在此基础上,可以基于梯度下降法等优化方式,利用总损失值调整总结模型的网络参数,具体优化过程在此不再赘述。
上述方案,通过获取样本文本,且样本文本对应有参考总结文本和对照文本,在此基础上,利用总结模型的编码网络对样本文本和对照文本进行编码,得到样本文本的第一表示和对照文本的第二表示,并利用总结模型的解码网络对第一表示进行解码,得到样本文本的预测总结文本,从而基于第一表示和第二表示之间的相似度,得到总结模型的第一损失值,并基于预测总结文本和参考总结文本,得到总结模型的第二损失值,进而基于第一损失值和第二损失值,调整总结模型的网络参数,即无需人工生成总结文本,且在训练总结模型的过程中,一方面考虑了参考总结文本和预测总结文本,有利于使总结模型学习到参考总结文本的文本总结方式,另一方面度量了第一表示和第二表示之间的相似度,由于若对照文本与样本文本之间语义相同,理论上第一表示和第二表示之间越相似,而若对照文本与样本文本之间语义不同,理论上第一表示和第二表示之间越不相似,故能够提高编码网络对于样本文本语义类别的鉴别能力,提高第一表示的准确性,能够有利于降低解码网络生成与总结无关文字的概率。故此,能够提高文本总结的效率和准确性。
请参阅图3,图3是本申请工单生成方法一实施例的流程示意图。具体而言,可以包括如下步骤:
步骤S31:获取交互文本和工单模板。
本公开实施例中,交互文本包含至少一个对话文本,工单模板包含与文本总结相关的第一待补充位置。
在一个实施场景中,交互文本可以是由客户与客服(如,人工客服,机器客服等)之间的语音通话转写得到的,或者,交互文本也可以包括由客户与客服之间的文字对话,在此不做限定。
在一个实施场景中,如前所述,交互文本包括至少一个对话文本。以客服a和客户b为例,交互文本中可以包括客服a的对话文本,如“您好,一百零二号客服为您服务,请您有什么可以帮助您”等,交互文本中也可以包括顾客b的对话文本,如“我一个洗衣机就是按完电源之后再按开关也不放水”等,交互文本所包含的具体对话文本在此不做限定。
在一个实施场景中,如前所述,工单模板可以包括与文本总结相关的第一待补充位置。具体地,与文本总结相关的第一待补充位置可以包括:用于补充“客户反映问题”的第一待补充位置、用于补充“客户故障排除”的第一待补充位置等等,在此不做限定。例如,工单模板可以设置为:
接客户反馈,产品存在【客户反映问题】问题,且【客户故障排除】
需要说明的是,上述工单模板中,【】符号表示第一待补充位置,【】符号内的文字表示第一待补充位置具体所要补充的内容,如【客户反映问题】表示该第一待补充位置需要补充客户反映的问题(如,一进水就排水等),【客户故障排除】表示该第一待补充位置需要补充客户对故障的排除情况(如,无故障代码等),在此不做限定。
步骤S32:识别交互文本中与文本总结相关的对话文本,作为关键文本。
在一个实施场景中,可以提取交互文本中各个对话文本的语义表示,从而可以利用对话文本的语义表示进行分类预测,得到对话文本所属的总结类型。具体地,总结类型可以包括但不限于诸如前述“客户反映问题”、“客户故障排除”等与文本总结相关,以及“与文本总结无关”等,在此不做限定。
在另一个实施场景中,为了提高分类预测的效率,可以预先训练一个分类预测模型,且该分类预测模型包括语义提取网络,语义提取网络具体可以包括但不限于BERT(Bidirectional Encoder Representation from Transformers,即双向Transformer的Encoder)等,在此不做限定。由于交互文本通常会包含较多文字,例如,一通完整交互平均包含880个文字,而语义提取网络又往往受限于一定句长,如BERT受限于512个文字。在此情况下,为了在提高分类预测效率的基础上,提高分类预测的鲁棒性,可以将交互文本划分为第一数量个分块文本,且分块文本包含第二数量个文字,在此基础上,再利用语义提取网络对分块分文进行语义抽取,得到分块文本的第一语义表示,且语义提取网络所支持处理的最长文本中不少于第二数量个文字,从而可以基于分块文本的第一语义表示,识别至少一个对话文本中与文本总结相关的对话文本。上述方式,通过将交互文本划分为第一数量个分块文本,且分块文本包括第二数量个文字,并利用语义提取网络对分块文本信息语义抽取,得到分块文本的第一语义表示,且语义提取网络所支持处理的最长文本中不少于第二数量个文字,从而能够使得语义提取网络能够不受长文本限制,进而最终基于分块文本的第一语义表示,识别至少一个对话文本中与文本总结相关的对话文本,能够有利于提高分类预测的效率和鲁棒性。
在一个具体的实施场景中,请结合参阅图4,图4是关键文本识别一实施例的状态示意图。如图4所示,交互文本中各个单词经词向量映射之后,可以表示为N*S*H的向量矩阵,其中,N表示批次数,即每次可以对N个交互文本进行语义提取,N可以根据实际应用情况进行设置,如可以设置为32等;此外,S表示交互文本最多字数(如,1024),H表示交互文本中各个单词的词向量维数(如,100维)。在此基础上,将N*S*H的向量矩阵分割为(N*B)*S’*H的向量矩阵,其中,B即为第一数量,具体可以表示通话行数,即交互文本中对话文本的数量,且B也是图4中LSTM的步数长度,通常情况下B的取值在100以内。需要说明的是,为了便于描述,图4中B为2。此外,S’即为B个分块文本中每个分块文本所包含的文字的第二数量,且该第二数量应不多于语义提取网络所支持处理的最长文本所包含的文字数量(如,512个)。需要说明的是,在现实场景中,可以将LSTM的步数长度设置为变量,并随着通话行数(即对话文本的数量)而变化。
在另一个具体的实施场景中,请继续结合参阅图4,在得到每个分块文本的向量表示之后,可以将划分得到的分块文本的向量表示共同送入语义提取网络,如图4所示,经语义提取网络中BERT处理,可以输出得到N*B*H的语义表示,即可以得到每个分块文本的语义表示,在此基础上,由于各个分块文本之间在时序上存在一定联系,故可以将各个分块文本的语义表示输入LSTM处理,得到LSTM的隐层表示,最终可以将隐层表示送入诸如CRF(Condition Random Field,条件随机场)等预测网络,得到每个对话文本的总结类型,即输出N*B*C的分类预测结果,其中,C表示总结类型的种数,具体可以根据实际应用情况进行设置,如可以设置为2、3、4等等。以C设置为3为例,可以用标签0表示总结类型“与文本总结无关”,用标签1表示总结类型“客户反映问题”,用标签2表示总结类型“客户故障排除”。其他场景可以以此类推,在此不再一一举例。
步骤S33:利用总结模型对关键文本进行总结,得到关键文本的总结文本。
本公开实施例中,总结模型是利用上述任一总结模型的训练方法实施例中的步骤训练得到的,具体可以参阅前述公开实施例,在此不再赘述。例如,对于与“客户反映问题”相关的关键文本“按下电源一进水还没开始洗呢就往外排水了”,经总结模型处理之后,可以得到对应的总结文本“一进水就排水”;或者,对于与“客户故障排除”相关的关键文本“你是说显示屏上有没有显示故障代码吗,我没看到啊”,经总结模型处理之后,可以得到对应的总结文本“无故障代码”。其他场景可以以此类推,在此不再一一举例。
步骤S34:在第一待补充位置补入总结文本,得到工单文本。
具体地,可以在第一待补充位置补入相应的总结文本,得到工单文本。仍以前述工单模板为例,可以将总结文本“一进水就排水”补入与“客户反映问题”对应的第一待补充位置,并将总结文本“无故障代码”补入与“客户故障排除”对应的第一待补充位置,从而得到工单文本“经客户反馈,产品存在一进水就排水的问题,且无故障代码”。其他场景可以以此类推,在此不再一一举例。
在一个实施场景中,为了丰富工单信息,工单模板还可以进一步包括与文本分类相关的第二待补充位置,则可以进一步对至少一个对话文本进行识别,得到交互文本的分类信息,且分类信息具体可以包括:是否提示预设信息,在此基础上,可以将总结文本补入第一待补充位置,并将分类信息补入第二待补充位置,得到工单文本。上述方式,将工单模板设置为包括与文本分类相关的第二待补充位置,并对至少一个对话文本进行识别,得到交互文本的分类信息,且分类信息包括:是否提示超保,在此基础上,将总结文本补入第二待补充位置,并将分类信息补入第二待补充位置,得到工单文本,能够有利于提高工单文本的丰富度。
在一个具体的实施场景中,预设信息可以包括但不限于超保(即超出保修期/保质期)等。在预设信息包括超保的情况下,第二待补充位置所补入的分类信息可以是已提示超保或未提示超保。其他情况可以以此类推,在此不再一一举例。
在一个具体的实施场景中,在分类信息包括是否提示超保的情况下,工单模板可以表示为:
接客户反馈,产品存在【客户反映问题】问题,且【客户故障排除】,此外【是否提示超保】
在另一个具体的实施场景中,请结合参阅图5,图5是分类信息识别一实施例的状态示意图。如图5所示,可以将交互文本划分为第一数量个分块文本,且分块文本包含第二数量个文字,并利用语义提取网络对分块文本进行语义抽取,得到分块文本的第一语义表示,且语义提取网络所支持处理的最长文本中不少于第二数量个文字。具体可以参阅前述相关描述,在此不再赘述。
在又一个具体的实施场景中,在得到分块文本的第一语义表示之后,可以利用包含全连接层、softmax层等预测网络对第一语义表示进行处理,得到交互文本的分类信息。请结合参阅图5,该分类信息共包含C种信息。以分类信息包括是否提示超保为例,在此情况下,C为1,且分类信息具体可以包括提示超保的概率值,从而可以在该概率值大于预设阈值的情况下,确定分类信息为“已提示超保”,反之在该概率值不大于预设阈值的情况下,可以确定分类信息为“未提示超保”。其他情况可以以此类推,在此不再一一举例。
在又一个具体的实施场景中,仍以前述工单模板为例,在分类信息包括“已提示超保”,且总结文本包括与总结类型“客户反映问题”对应的“一进水就排水”以及与总结类型“客户故障排除”对应的“无故障代码”的情况下,可以生成工单文本:
接客户反馈,产品存在一进水就排水问题,且无故障代码,此外已提示超保
在另一个实施场景中,为了进一步丰富工单信息,工单模板还包括与至少一种关键片段相关的第三待补充位置。需要说明的是,与前述关键文本不同,关键片段并不构成完整句子,例如,关键片段可以包括人名(如,张先生)、地名(如,XX市XX商场)、机构名(如,XXX电商平台)等实体。在此基础上,可以将至少一个对话文本分别作为当前文本,从而针对每一当前文本,可以将与当前文本相邻的对话文本和当前文本的组合,作为组合文本,并基于组合文本的第二语义表示,预测得到组合文本中各个文字分别属于至少一种关键片段的第一概率值,进而可以基于交互文本中文字历次预测得到的第一概率值,得到至少一种关键片段,从而可以将上述总结文本补入第一待补充位置,并将至少一种关键片段分别补入相关的第三待补充位置。上述方式,通过将至少一个对话文本分别作为当前文本,并针对每一当前文本,将与当前文本相邻的对话文本和当前文本的组合,作为组合文本,并基于组合文本的第二语义表示,预测得到组合文本中各个文字分别属于至少一种关键片段的第一概率值,从而基于交互文本中文字历次预测得到的第一概率值,得到至少一种关键片段,进而可以将交互文本划分为短文本进行关键片段的预测,且短文本内包含时序相邻的多个对话文本,能够有利于提高预测的准确性和鲁棒性。
在一个具体的实施场景中,至少一种关键片段可以包括但不限于:产品名称、客户信息、购买时间、上门时间等等,在此不做限定。在此情况下,工单模板可以表示为:
接【客户信息】反馈其在【购买时间】购买的【产品名称】存在【客户反映问题】问题,且【客户故障排除】,此外【是否提示超保】,约定师傅上门维修时间为【上门时间】
在另一个具体的实施场景中,与当前文本相邻的对话文本可以包括以下至少一者:当前文本之前若干个(如,1个、2个、3个等等)对话文本,当前文本之后若干个(如,1个、2个、3个等等)对话文本,在此不做限定。
在又一个具体的实施场景中,请结合参阅图6,图6是关键片段提取一实施例的状态示意图。如图6所示,交互文本共包含5个对话文本,并以采用不同阴影填充的矩形表示,为了降低关键片段提取的复杂度,可以将当前文本之前一个对话文本以及之后一个对话文本的组合,作为组合文本,并从第2个对话文本开始至倒数第2个对话文本为止,分别作为当前文本,从而得到如图6所示的3个组合文本,分别称为组合文本1、组合文本2和组合文本3,上述3个组合文本分别经BERT等语义提取网络提取,得到对应的第二语义表示,并将第二语义表示输入包含诸如全连接层、softmax层等的预测网络进行处理,得到组合文本中各个文字分别属于至少一种关键片段的第一概率值。
在又一个具体的实施场景中,为了降低提取关键片段的复杂度,可以将交互文本中各个文字历次预测得到的第一概率值的平均值,作为对应文字的第二概率值,并基于第二概率值从交互文本中提取得到至少一种关键片段。请继续结合参阅图6,以采用水平线填充矩形所表示的对话文本(以下称之为目标文本)为例,该对话文本分别包含于组合文本1、组合文本2和组合文本3,故在对上述3个组合文本进行预测之后,均能得到目标文本中各个文字分别属于至少一种关键片段的第一概率值,则可以针对目标文本中每一文字,将这3次预测得到的第一概率值取平均值,作为该文字的第二概率值,在此基础上,可以选择最高第二概率值所对应的那种关键片段,作为该文字所属的关键片段。上述方式,通过将交互文本中各个文字历次预测得到的第一概率值的平均值,作为对应文字的第二概率值,并基于第二概率值从交互文本中提取得到至少一种关键片段,能够降低提取关键片段的复杂度。
在又一个具体的实施场景中,仍以前述工单模板为例,可以提取到与属于产品名称的关键片段“洗衣机”,属于客户信息的关键片段“张先生”,属于购买时间的关键片段“去年”,属于上门时间的关键片段“明天下午一到三点”,在此情况下,可以将上述关键片段补入相关的第三待补充位置,最终可以生成工单文本:
接张先生反馈其在去年购买的洗衣机存在一进水就排水问题,且无故障代码,此外已提示超保,约定师傅上门维修时间为明天下午一到三点。
上述方案,获取交互文本和工单模板,且交互文本包含至少一个对话文本,工单模板包含与文本总结相关的第一待补充位置,在此基础上,识别交互文本中与文本总结相关的对话文本,作为关键文本,从而利用总结模型对关键文本进行总结,得到关键文本的总结文本,且总结模型是利用前述任一总结模型的训练方法实施例中的步骤训练得到的,故能够提高文本总结的效率和准确性,并在此基础上,在第一待补充位置补入总结文本,得到工单文本,能够有利于提高工单生成的效率和准确性。
请参阅图7,图7是本申请电子设备70一实施例的框架示意图。电子设备70包括相互耦接的存储器71和处理器72,存储器71中存储有程序指令,处理器72用于执行程序指令以实现上述任一总结模型的训练方法实施例中的步骤,或实现上述任一工单生成方法实施例中的步骤。具体地,电子设备70可以包括但不限于:服务器、台式计算机、笔记本电脑、平板电脑、手机等等,在此不做限定。
具体而言,处理器72用于控制其自身以及存储器71以实现上述任一总结模型的训练方法实施例中的步骤,或实现上述任一工单生成方法实施例中的步骤。处理器72还可以称为CPU(Central Processing Unit,中央处理单元)。处理器72可能是一种集成电路芯片,具有信号的处理能力。处理器72还可以是通用处理器、数字信号处理器(Digital SignalProcessor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。另外,处理器72可以由集成电路芯片共同实现。
在一些公开实施例中,处理器72用于获取样本文本;其中,样本文本对应有参考总结文本和对照文本;处理器72用于利用总结模型的编码网络对样本文本和对照文本进行编码,得到样本文本的第一表示和对照文本的第二表示;处理器72用于利用总结模型的解码网络对第一表示进行解码,得到样本文本的预测总结文本;处理器72用于基于第一表示和第二表示之间的相似度,得到总结模型的第一损失值,并基于预测总结文本和参考总结文本,得到总结模型的第二损失值;处理器72用于基于第一损失值和第二损失值,调整总结模型的网络参数。
上述方案,通过获取样本文本,且样本文本对应有参考总结文本和对照文本,在此基础上,利用总结模型的编码网络对样本文本和对照文本进行编码,得到样本文本的第一表示和对照文本的第二表示,并利用总结模型的解码网络对第一表示进行解码,得到样本文本的预测总结文本,从而基于第一表示和第二表示之间的相似度,得到总结模型的第一损失值,并基于预测总结文本和参考总结文本,得到总结模型的第二损失值,进而基于第一损失值和第二损失值,调整总结模型的网络参数,即无需人工生成总结文本,且在训练总结模型的过程中,一方面考虑了参考总结文本和预测总结文本,有利于使总结模型学习到参考总结文本的文本总结方式,另一方面度量了第一表示和第二表示之间的相似度,由于若对照文本与样本文本之间语义相同,理论上第一表示和第二表示之间越相似,而若对照文本与样本文本之间语义不同,理论上第一表示和第二表示之间越不相似,故能够提高编码网络对于样本文本语义类别的鉴别能力,提高第一表示的准确性,能够有利于降低解码网络生成与总结无关文字的概率。故此,能够提高文本总结的效率和准确性。
在一些公开实施例中,在相似度不满足预设收敛条件且对照文本与样本文本之间语义相同的情况下,第一损失值与相似度为负相关关系。
区别于前述实施例,在相似度不满足预设收敛条件且对照文本与样本文本之间语义相同的情况下,将第一损失值设置为与相似度为负相关关系,则通过最小化第一损失值,能够尽可能提高样本文本的第一表示与其正例文本的第二表示之间的相似度,即能够使得语义相同的文本其特征表示也趋于一致,提高编码网络的准确性。
在一些公开实施例中,在相似度不满足预设收敛条件且对照文本与样本文本之间语义不同的情况下,第一损失值与相似度为正相关关系。
区别于前述实施例,在相似度不满足预设收敛条件且对照文本与样本文本之间语义不同的情况下,将第一损失值设置为与相似度为正相关关系,则通过最小化第一损失值,能够尽可能降低样本文本的第一表示与其负例文本的第二表示之间的相似度,即能够使得语义不同的文本其特征表示也趋于不一致,提高编码网络的准确性。
在一些公开实施例中,在相似度满足预设收敛条件的情况下,第一损失值为预设数值。
区别于前述实施例,在相似度满足预设条件的情况下,将第一损失值设置为预设数值,不仅能够降低第一损失值的计算复杂度,还能够有利于提高编码网络的准确性。
在一些公开实施例中,对照文本包括正例文本和负例文本,处理器72用于获取第一表示和正例文本的第二表示之间的第一相似度,并获取第一表示和负例文本的第二表示之间的第二相似度;处理器72用于获取第一相似度减去第二相似度的第一差值,并获取预设相似门限减去第一差值的第二差值;处理器72用于基于预设数值与第二差值之间的大小关系,得到第一损失值;其中,正例文本与样本文本之间的语义相同,负例文本与样本文本之间的语义不同。
区别于前述实施例,在对照文本包括正例文本和负例文本的情况下,获取第一表示和正例文本的第二表示之间的第一相似度,并获取第一表示和负例文本的第二表示之间的第二相似度,在此基础上,获取第一相似度减去第二相似度的第一差值,并获取预设相似门限减去第一差值的第二差值,从而基于预设数值与第二差值之间的大小关系,得到第一损失值,能够有利于通过正例文本和负例文本进一步提高编码网络对于样本文本语义类别的鉴别能力,进而能够有利于提高编码网络的准确性。
在一些公开实施例中,处理器72用于在预设数值大于第二差值的情况下,将预设数值作为第一损失值;处理器72用于在预设数值不大于第二差值的情况下,将第二差值作为第一损失值。
区别于前述实施例,能够尽可能地使得样本文本的第一表示尽可能与语义相同的正例文本的第二表示一致,并尽可能地使得样本文本的第一表示与语义不同的负例文本的第二表示不一致,提高编码网络的准确性。
在一些公开实施例中,处理器72用于获取交互文本和工单模板;其中,交互文本包含至少一个对话文本,工单模板包含与文本总结相关的第一待补充位置;处理器72用于识别交互文本中与文本总结相关的对话文本,作为关键文本;处理器72用于利用总结模型对关键文本进行总结,得到关键文本的总结文本;其中,总结模型是利用上述任一的总结模型的训练方法实施例中的步骤训练得到的;处理器72用于在第一待补充位置补入总结文本,得到工单文本。
区别于前述实施例,获取交互文本和工单模板,且交互文本包含至少一个对话文本,工单模板包含与文本总结相关的第一待补充位置,在此基础上,识别交互文本中与文本总结相关的对话文本,作为关键文本,从而利用总结模型对关键文本进行总结,得到关键文本的总结文本,且总结模型是利用前述任一总结模型的训练方法实施例中的步骤训练得到的,故能够提高文本总结的效率和准确性,并在此基础上,在第一待补充位置补入总结文本,得到工单文本,能够有利于提高工单生成的效率和准确性。
在一些公开实施例中,处理器72用于将交互文本划分为第一数量个分块文本;其中,分块文本包含第二数量个文字;处理器72用于利用语义提取网络对分块文本进行语义抽取,得到分块文本的第一语义表示;其中,语义提取网络所支持处理的最长文本中不少于第二数量个文字;处理器72用于基于分块文本的第一语义表示,识别至少一个对话文本中与文本总结相关的对话文本。
区别于前述实施例,通过将交互文本划分为第一数量个分块文本,且分块文本包括第二数量个文字,并利用语义提取网络对分块文本信息语义抽取,得到分块文本的第一语义表示,且语义提取网络所支持处理的最长文本中不少于第二数量个文字,从而能够使得语义提取网络能够不受长文本限制,进而最终基于分块文本的第一语义表示,识别至少一个对话文本中与文本总结相关的对话文本,能够有利于提高分类预测的效率和鲁棒性。
在一些公开实施例中,工单模板还包括与文本分类相关的第二待补充位置,处理器72用于对至少一个对话文本进行识别,得到交互文本的分类信息;其中,分类信息包括:是否提示预设信息,处理器72用于将总结文本补入第一待补充位置,并将分类信息补入第二待补充位置,得到工单文本。
区别于前述实施例,将工单模板设置为包括与文本分类相关的第二待补充位置,并对至少一个对话文本进行识别,得到交互文本的分类信息,且分类信息包括:是否提示预设信息,在此基础上,将总结文本补入第一待补充位置,并将分类信息补入第二待补充位置,得到工单文本,能够有利于提高工单文本的丰富度。
在一些公开实施例中,工单模板还包括与至少一种关键片段相关的第三待补充位置,处理器72用于将至少一个对话文本分别作为当前文本;处理器72用于针对每一当前文本执行:将与当前文本相邻的对话文本和当前文本的组合,作为组合文本,并基于组合文本的第二语义表示,预测得到组合文本中各个文字分别属于至少一种关键片段的第一概率值;处理器72用于基于交互文本中文字历次预测得到的第一概率值,得到至少一种关键片段,处理器72用于将总结文本补入第一待补充位置,并将至少一种关键片段分别补入相关的第三待补充位置。
区别于前述实施例,通过将至少一个对话文本分别作为当前文本,并针对每一当前文本,将与当前文本相邻的对话文本和当前文本的组合,作为组合文本,并基于组合文本的第二语义表示,预测得到组合文本中各个文字分别属于至少一种关键片段的第一概率值,从而基于交互文本中文字历次预测得到的第一概率值,得到至少一种关键片段,并将总结文本补入第一待补充位置,并将至少一种关键片段分别补入相关的第三待补充位置,进而可以将交互文本划分为短文本进行关键片段的预测,且短文本内包含时序相邻的多个对话文本,能够有利于提高预测的准确性和鲁棒性。
在一些公开实施例中,处理器72用于将交互文本中各个文字历次预测得到的第一概率值的平均值,作为对应文字的第二概率值;处理器72用于基于第二概率值,从交互文本中提取得到至少一种关键片段。
区别于前述实施例,通过将交互文本中各个文字历次预测得到的第一概率值的平均值,作为对应文字的第二概率值,并基于第二概率值从交互文本中提取得到至少一种关键片段,能够降低提取关键片段的复杂度。
请参阅图8,图8是本申请存储装置80一实施例的框架示意图。存储装置80存储有能够被处理器运行的程序指令81,程序指令81用于实现上述任一总结模型的训练方法实施例中的步骤,或实现上述任一工单生成方法实施例中的步骤。
上述方案,能够提高文本总结的效率和准确性。
在一些实施例中,本公开实施例提供的装置具有的功能或包含的模块可以用于执行上文方法实施例描述的方法,其具体实现可以参照上文方法实施例的描述,为了简洁,这里不再赘述。
上文对各个实施例的描述倾向于强调各个实施例之间的不同之处,其相同或相似之处可以互相参考,为了简洁,本文不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的方法和装置,可以通过其它的方式实现。例如,以上所描述的装置实施方式仅仅是示意性的,例如,模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性、机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本申请各个实施方式方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
Claims (11)
1.一种总结模型的训练方法,其特征在于,包括:
获取样本文本;其中,所述样本文本对应有参考总结文本和对照文本;
利用所述总结模型的编码网络对所述样本文本和所述对照文本进行编码,得到所述样本文本的第一表示和所述对照文本的第二表示;
利用所述总结模型的解码网络对所述第一表示进行解码,得到所述样本文本的预测总结文本;
基于所述第一表示和所述第二表示之间的相似度,得到所述总结模型的第一损失值,并基于所述预测总结文本和所述参考总结文本,得到所述总结模型的第二损失值;
基于所述第一损失值和所述第二损失值,调整所述总结模型的网络参数。
2.根据权利要求1所述的方法,其特征在于,在所述相似度不满足预设收敛条件且所述对照文本与所述样本文本之间语义相同的情况下,所述第一损失值与所述相似度为负相关关系;
和/或,在所述相似度不满足所述预设收敛条件且所述对照文本与所述样本文本之间语义不同的情况下,所述第一损失值与所述相似度为正相关关系;
和/或,在所述相似度满足所述预设收敛条件的情况下,所述第一损失值为预设数值。
3.根据权利要求1所述的方法,其特征在于,所述对照文本包括正例文本和负例文本;所述基于所述第一表示和所述第二表示之间的相似度,得到所述总结模型的第一损失值,包括:
获取所述第一表示和所述正例文本的第二表示之间的第一相似度,并获取所述第一表示和所述负例文本的第二表示之间的第二相似度;
获取所述第一相似度减去所述第二相似度的第一差值,并获取预设相似门限减去所述第一差值的第二差值;
基于预设数值与所述第二差值之间的大小关系,得到所述第一损失值;
其中,所述正例文本与所述样本文本之间的语义相同,所述负例文本与所述样本文本之间的语义不同。
4.根据权利要求3所述的方法,其特征在于,所述基于预设数值与所述第二差值之间的大小关系,得到所述第一损失值,包括:
在所述预设数值大于所述第二差值的情况下,将所述预设数值作为所述第一损失值;
在所述预设数值不大于所述第二差值的情况下,将所述第二差值作为所述第一损失值。
5.一种工单生成方法,其特征在于,包括:
获取交互文本和工单模板;其中,所述交互文本包含至少一个对话文本,所述工单模板包含与文本总结相关的第一待补充位置;
识别所述交互文本中与文本总结相关的对话文本,作为关键文本;
利用总结模型对所述关键文本进行总结,得到所述关键文本的总结文本;其中,所述总结模型是利用权利要求1至4任一项所述的总结模型的训练方法训练得到的;
在所述第一待补充位置补入所述总结文本,得到工单文本。
6.根据权利要求5所述的方法,其特征在于,所述识别所述交互文本中与文本总结相关的对话文本,包括:
将所述交互文本划分为第一数量个分块文本;其中,所述分块文本包含第二数量个文字;
利用语义提取网络对所述分块文本进行语义抽取,得到所述分块文本的第一语义表示;其中,所述语义提取网络所支持处理的最长文本中不少于所述第二数量个文字;
基于所述分块文本的第一语义表示,识别所述至少一个对话文本中与文本总结相关的对话文本。
7.根据权利要求5所述的方法,其特征在于,所述工单模板还包括与文本分类相关的第二待补充位置;所述在所述第一待补充位置补入所述总结文本,得到工单文本之前,所述方法还包括:
对所述至少一个对话文本进行识别,得到所述交互文本的分类信息;其中,所述分类信息包括:是否提示预设信息;
所述在所述第一待补充位置补入所述总结文本,得到工单文本,包括:
将所述总结文本补入所述第一待补充位置,并将所述分类信息补入所述第二待补充位置,得到所述工单文本。
8.根据权利要求5所述的方法,其特征在于,所述工单模板还包括与至少一种关键片段相关的第三待补充位置;所述在所述第一待补充位置补入所述总结文本,得到工单文本之前,所述方法还包括:
将所述至少一个对话文本分别作为当前文本;
针对每一所述当前文本执行:将与所述当前文本相邻的对话文本和所述当前文本的组合,作为组合文本,并基于所述组合文本的第二语义表示,预测得到所述组合文本中各个文字分别属于所述至少一种关键片段的第一概率值;
基于所述交互文本中所述文字历次预测得到的第一概率值,得到所述至少一种关键片段;
所述在所述第一待补充位置补入所述总结文本,得到工单文本,包括:
将所述总结文本补入所述第一待补充位置,并将所述至少一种关键片段分别补入相关的第三待补充位置。
9.根据权利要求8所述的方法,其特征在于,所述基于所述交互文本中所述文字历次预测得到的第一概率值,得到所述至少一种关键片段,包括:
将所述交互文本中各个所述文字历次预测得到的第一概率值的平均值,作为对应所述文字的第二概率值;
基于所述第二概率值,从所述交互文本中提取得到所述至少一种关键片段。
10.一种电子设备,其特征在于,包括相互耦接的存储器和处理器,所述存储器中存储有程序指令,所述处理器用于执行所述程序指令以实现权利要求1至4所述的总结模型的训练方法,或实现权利要求5至9任一项所述的工单生成方法。
11.一种存储装置,其特征在于,存储有能够被处理器运行的程序指令,所述程序指令用于实现权利要求1至4所述的总结模型的训练方法,或实现权利要求5至9任一项所述的工单生成方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110227624.7A CN113128176A (zh) | 2021-03-01 | 2021-03-01 | 总结模型的训练方法和工单生成方法及相关设备、装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110227624.7A CN113128176A (zh) | 2021-03-01 | 2021-03-01 | 总结模型的训练方法和工单生成方法及相关设备、装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113128176A true CN113128176A (zh) | 2021-07-16 |
Family
ID=76772386
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110227624.7A Pending CN113128176A (zh) | 2021-03-01 | 2021-03-01 | 总结模型的训练方法和工单生成方法及相关设备、装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113128176A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113553858A (zh) * | 2021-07-29 | 2021-10-26 | 北京达佳互联信息技术有限公司 | 文本向量表征模型的训练和文本聚类 |
CN113626603A (zh) * | 2021-08-19 | 2021-11-09 | 支付宝(杭州)信息技术有限公司 | 文本分类的方法和装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111950269A (zh) * | 2020-08-21 | 2020-11-17 | 清华大学 | 文本语句处理方法、装置、计算机设备和存储介质 |
CN111967483A (zh) * | 2019-05-20 | 2020-11-20 | 北京三星通信技术研究有限公司 | 确定分类器、确定生成器、识别命令的方法及设备 |
CN112259100A (zh) * | 2020-09-15 | 2021-01-22 | 科大讯飞华南人工智能研究院(广州)有限公司 | 语音识别方法及相关模型的训练方法和相关设备、装置 |
WO2021012645A1 (zh) * | 2019-07-22 | 2021-01-28 | 创新先进技术有限公司 | 推送信息的生成方法及装置 |
-
2021
- 2021-03-01 CN CN202110227624.7A patent/CN113128176A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111967483A (zh) * | 2019-05-20 | 2020-11-20 | 北京三星通信技术研究有限公司 | 确定分类器、确定生成器、识别命令的方法及设备 |
WO2021012645A1 (zh) * | 2019-07-22 | 2021-01-28 | 创新先进技术有限公司 | 推送信息的生成方法及装置 |
CN111950269A (zh) * | 2020-08-21 | 2020-11-17 | 清华大学 | 文本语句处理方法、装置、计算机设备和存储介质 |
CN112259100A (zh) * | 2020-09-15 | 2021-01-22 | 科大讯飞华南人工智能研究院(广州)有限公司 | 语音识别方法及相关模型的训练方法和相关设备、装置 |
Non-Patent Citations (2)
Title |
---|
张晓辉;于双元;王全新;徐保民;: "基于对抗训练的文本表示和分类算法", 计算机科学, no. 1 * |
邓建国;张素兰;张继福;荀亚玲;刘爱琴;: "监督学习中的损失函数及应用研究", 大数据, no. 01, 15 January 2020 (2020-01-15) * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113553858A (zh) * | 2021-07-29 | 2021-10-26 | 北京达佳互联信息技术有限公司 | 文本向量表征模型的训练和文本聚类 |
CN113553858B (zh) * | 2021-07-29 | 2023-10-10 | 北京达佳互联信息技术有限公司 | 文本向量表征模型的训练和文本聚类 |
CN113626603A (zh) * | 2021-08-19 | 2021-11-09 | 支付宝(杭州)信息技术有限公司 | 文本分类的方法和装置 |
CN113626603B (zh) * | 2021-08-19 | 2024-03-29 | 支付宝(杭州)信息技术有限公司 | 文本分类的方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109101537B (zh) | 基于深度学习的多轮对话数据分类方法、装置和电子设备 | |
CN110444198B (zh) | 检索方法、装置、计算机设备和存储介质 | |
CN111460807B (zh) | 序列标注方法、装置、计算机设备和存储介质 | |
CN109670035B (zh) | 一种文本摘要生成方法 | |
CN108959482B (zh) | 基于深度学习的单轮对话数据分类方法、装置和电子设备 | |
US11720756B2 (en) | Deriving multiple meaning representations for an utterance in a natural language understanding (NLU) framework | |
CN111783471B (zh) | 自然语言的语义识别方法、装置、设备及存储介质 | |
CN110377733B (zh) | 一种基于文本的情绪识别方法、终端设备及介质 | |
CN113128176A (zh) | 总结模型的训练方法和工单生成方法及相关设备、装置 | |
CN110399473B (zh) | 为用户问题确定答案的方法和装置 | |
CN110427453B (zh) | 数据的相似度计算方法、装置、计算机设备及存储介质 | |
JP2024502048A (ja) | 音声認識方法、装置及び記憶媒体 | |
CN113705315A (zh) | 视频处理方法、装置、设备及存储介质 | |
CN113240510A (zh) | 异常用户预测方法、装置、设备及存储介质 | |
CN115495553A (zh) | 查询文本排序方法、装置、计算机设备及存储介质 | |
CN114218945A (zh) | 实体识别方法、装置、服务器及存储介质 | |
CN115203372A (zh) | 文本意图分类方法、装置、计算机设备及存储介质 | |
CN112632248A (zh) | 问答方法、装置、计算机设备和存储介质 | |
CN115146068A (zh) | 关系三元组的抽取方法、装置、设备及存储介质 | |
CN114330366A (zh) | 事件抽取方法及相关装置、电子设备和存储介质 | |
JP2022003544A (ja) | 業界テキスト増分方法、関連装置、およびコンピュータプログラム製品 | |
WO2023087935A1 (zh) | 指代消解方法、指代消解模型的训练方法及装置 | |
CN116414988A (zh) | 基于依赖关系增强的图卷积方面级情感分类方法及系统 | |
CN116013307A (zh) | 一种标点预测方法、装置、设备以及计算机存储介质 | |
CN115906797A (zh) | 文本实体对齐方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |