CN113486167B - 文本补全方法、装置、计算机设备和存储介质 - Google Patents
文本补全方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN113486167B CN113486167B CN202110846851.8A CN202110846851A CN113486167B CN 113486167 B CN113486167 B CN 113486167B CN 202110846851 A CN202110846851 A CN 202110846851A CN 113486167 B CN113486167 B CN 113486167B
- Authority
- CN
- China
- Prior art keywords
- text
- result
- sample
- coding
- knowledge
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 102
- 238000012549 training Methods 0.000 claims abstract description 90
- 230000000295 complement effect Effects 0.000 claims abstract description 81
- 238000013145 classification model Methods 0.000 claims description 50
- 230000014509 gene expression Effects 0.000 claims description 28
- 238000004590 computer program Methods 0.000 claims description 26
- 230000015654 memory Effects 0.000 claims description 18
- 238000005516 engineering process Methods 0.000 abstract description 5
- 230000008569 process Effects 0.000 description 36
- 230000006870 function Effects 0.000 description 12
- 238000010586 diagram Methods 0.000 description 11
- 239000003795 chemical substances by application Substances 0.000 description 10
- 230000000153 supplemental effect Effects 0.000 description 10
- 239000013598 vector Substances 0.000 description 9
- 238000013459 approach Methods 0.000 description 8
- 238000004364 calculation method Methods 0.000 description 8
- 238000010276 construction Methods 0.000 description 8
- 230000000694 effects Effects 0.000 description 8
- 230000007246 mechanism Effects 0.000 description 7
- 238000012545 processing Methods 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 4
- 230000004913 activation Effects 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 238000002372 labelling Methods 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
- G06F40/35—Discourse or dialogue representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Databases & Information Systems (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Human Computer Interaction (AREA)
- Probability & Statistics with Applications (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Machine Translation (AREA)
Abstract
本申请涉及一种文本补全方法、装置、计算机设备和存储介质。方法包括:获取待补全的目标文本;将目标文本输入至预设模型中的编码端,得到从编码端输出的联合编码结果,联合编码结果包括补全内容来源于目标文本相匹配的知识文本时所确定的编码结果,知识文本包括不存在省缺信息的文本;将联合编码结果输入至预设模型中的解码端,得到补全结果。由于知识文本是由领域专家通过人工的方式,针对性地在每一对话意图类型下的训练集中选取的,而相关技术中所使用的知识图谱及领域词库,通常是大量的信息且是盲目性的,从而知识文本作为补全内容的信息来源会更加精准,进而适用范围更广。其次,构建知识文本会相对容易,从而减少整体工作量。
Description
技术领域
本申请涉及文本处理技术领域,特别是涉及一种文本补全方法、装置、计算机设备和存储介质。
背景技术
在智能客服领域,准确理解用户说话内容的意图是提供优质服务的基本前提,准确识别坐席说话的内容则是提高坐席服务质量的主要方式。在用户与坐席进行对话中,表达方式的习惯会导致经常会出现省缺信息的情况,而这样对准确理解用户与坐席之间的说话内容带来了困难。因此,补全对话内容中的省缺信息对准确理解说话人的内容显得尤为重要。
在相关技术中,主要是基于生成的方式。基于生成的方式主要采用seq2seq结构,对待补全的目标文本进行重新生成,在生成过程中,主要是结合知识图谱及领域词库等外部信息来生成。与此同时,还需要计算不同的生成信息分别与目标文本的上下文中的信息之间的相关性,由此将基于相关性大的生成信息对目标文本进行补全。
对于上述基于生成的方式,知识图谱以及领域词库这类数据量较大的外部信息,在重新生成待补全的目标文本的生成模型,其需要学习的信息过多,这对训练样本数量以及构建知识的成本等方面都提出了较高的要求,从而适用范围较窄。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高适用范围的文本补全方法、装置、计算机设备和存储介质。
一种文本补全方法,该方法包括:
获取待补全的目标文本;
将目标文本输入至预设模型中的编码端,得到从编码端输出的联合编码结果,联合编码结果包括补全内容来源于目标文本相匹配的知识文本时所确定的编码结果;
将联合编码结果输入至预设模型中的解码端,得到补全结果,知识文本包括不存在省缺信息的文本。
在其中一个实施例中,预设模型的生成方式,包括:
对初始分类模型进行预训练,得到预训练后的分类模型;
将分类模型作为初始序列生成模型的编码端,并对初始序列生成模型进行多任务端到端序列生成训练,得到预设模型。
在其中一个实施例中,对初始分类模型进行预训练,包括:
获取样本对,样本对包括正样本对及负样本对,正样本对中的两个样本均来源于同一对话意图类型对应的样本集合,负样本对中的两个样本分别来源于不同的对话意图类型对应的样本集合;
将样本对作为初始分类模型的输入,将样本对中两个样本的匹配结果作为初始分类模型的输出,对初始分类模型进行训练。
在其中一个实施例中,对所述初始序列生成模型进行训练,包括:
获取样本对,所述样本对包括待补全样本及匹配样本;其中,所述匹配样本作为所述待补全样本的补全内容来源,所述匹配样本包括知识文本样本;
将所述待补全样本作为所述初始序列生成模型的输入,将所述匹配样本作为所述初始序列生成模型的输出,对所述初始序列生成模型进行训练。
在其中一个实施例中,知识文本还包括满足预设条件的文本,预设条件包括包含省缺信息的同义表述用语和/或包含省缺信息的同类表述用语。
在其中一个实施例中,联合编码结果还包括补全内容来源于目标文本时所确定的编码结果和/或补全内容来源于目标文本的历史上文文本时所确定的编码结果。
在其中一个实施例中,将编码端输出的联合编码结果输入至预设模型中的解码端,得到补全结果,包括:
对于解码端中的每一输出节点,确定每一输出节点输出的解码结果来源于联合编码结果中每一编码结果时所对应的概率;
确定每一输出节点对应的所有概率中的最大值,根据每一输出节点对应的最大值所对应的解码结果,确定每一输出节点的解码结果,并由每一输出节点的解码结果构成补全结果。
在其中一个实施例中,确定每一输出节点输出的解码结果来源于联合编码结果中每一编码结果时所对应的概率,包括:
根据每一输出节点的预设数量个前置输出节点中每一前置输出节点在输出解码结果时所确定的隐藏状态信息,计算每一输出节点输出的解码结果来源于联合编码结果中每一编码结果时所对应的概率。
一种文本补全装置,该装置包括:
获取模块,用于获取待补全的目标文本;
编码模块,用于将目标文本输入至预设模型中的编码端,得到从编码端输出的联合编码结果,联合编码结果包括补全内容来源于目标文本相匹配的知识文本时所确定的编码结果;
解码模块,用于将联合编码结果输入至预设模型中的解码端,得到补全结果,知识文本包括不存在省缺信息的文本。
一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时实现以下步骤:
获取待补全的目标文本;
将目标文本输入至预设模型中的编码端,得到从编码端输出的联合编码结果,联合编码结果包括补全内容来源于目标文本相匹配的知识文本时所确定的编码结果;
将联合编码结果输入至预设模型中的解码端,得到补全结果,知识文本包括不存在省缺信息的文本。
一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
获取待补全的目标文本;
将目标文本输入至预设模型中的编码端,得到从编码端输出的联合编码结果,联合编码结果包括补全内容来源于目标文本相匹配的知识文本时所确定的编码结果;
将联合编码结果输入至预设模型中的解码端,得到补全结果,知识文本包括不存在省缺信息的文本。
上述文本补全方法、装置、计算机设备和存储介质,通过获取待补全的目标文本,将目标文本输入至预设模型中的编码端,得到从编码端输出的联合编码结果,将联合编码结果输入至预设模型中的解码端,得到补全结果。由于知识文本是由领域专家通过人工的方式,针对性地在每一对话意图类型下的训练集中选取的,而相关技术中所使用的知识图谱及领域词库,通常是大量的信息且是盲目性的,从而知识文本作为补全内容的信息来源会更加精准,进而适用范围更广。
其次,相较于知识图谱及领域词库,构建知识文本会相对容易,从而减少整体工作量。
再次,得益于知识文本覆盖于每一对话意图类型,相较于知识图谱及领域词库,知识文本作为信息来源其覆盖度更高。因此,后续基于知识文本进行文本补全,补全结果也会更加精准。
从次,先通过预训练的方式进行句子对匹配训练,再进行至少包括解码生成任务与句子对匹配任务的多任务端到端序列生成训练,通过多任务联合训练的方式,可以提高预设模型的学习能力,对于提高解码序列生成时的精准性有明显效果。
另外,由于可以通过三种不同的方式构建正样本对及负样本对,从而可以保证样本的多样性,进而后续基于样本对训练得到预设模型,可以提高预设模型的学习能力,且对于提高解码序列生成时的精准性有明显效果。
除此之外,由于不仅可以将目标文本与知识文本进行联合编码,将目标文本与历史上文文本进行联合编码,还可以将目标文本与目标文本自身进行联合编码,从而上述多种联合编码,均可以作为省缺信息几种信息来源,进而保证补全内容是根据最有可能的几种信息来源所确定的。因此,可以保证最终解码序列生成时的精准性。
值得一提的是,由于上述多种联合编码,均可以作为省缺信息几种信息来源,从而保证补全内容是根据最有可能的几种信息来源所确定的。相较于单独一种编码的方式,构建方式在效果上更优。除此之外,还可以由概率最大值对应的解码结果构成补全结果。因此,可以保证最终解码序列生成时的精准性。
最后,由于上文信息与当前输出节点之间的关联大于下文信息,而采用了非对称滑窗attention机制进行编码,从而可降低attention部分的计算量,从而可以提高计算效率。另外,特别对于长篇幅对话的组合编码,计算量远远低于全attention编码。
附图说明
图1为一个实施例中文本补全方法的流程示意图;
图2为另一个实施例中文本补全方法的流程示意图;
图3为又一个实施例中文本补全方法的流程示意图;
图4为一个实施例中样本对的构成示意图;
图5为另一个实施例中样本对的构成示意图;
图6为又一个实施例中样本对的构成示意图;
图7为一个实施例中预设模型的框架示意图;
图8为再一个实施例中文本补全方法的流程示意图;
图9为一个实施例中全attention机制的示意图;
图10为一个实施例中部分attention机制的示意图;
图11为一个实施例中文本补全装置的结构框图;
图12为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
可以理解,本申请所使用的术语“第一”、“第二”等可在本文中用于描述各种专业名词,但除非特别说明,这些专业名词不受这些术语限制。这些术语仅用于将一个专业名词与另一个专业名词区分。举例来说,在不脱离本申请的范围的情况下,第三预设阈值与第四预设阈值可以相同可以不同。
在智能客服领域,准确理解用户说话内容的意图是提供优质服务的基本前提,准确识别坐席说话的内容则是提高坐席服务质量的主要方式。在用户与坐席进行对话中,表达方式的习惯会导致经常会出现省缺信息的情况,而这样对准确理解用户与坐席之间的说话内容带来了困难。因此,补全对话内容中的省缺信息对准确理解说话人的内容显得尤为重要。
在相关技术中,主要是基于抽取及基于生成的两种方式。其中,基于抽取的方式主要是通过对目标文本的上下文中实体进行抽取,然后判断该实体信息与待补全的目标文本之间的相关性,以此判断该实体信息是否是目标文本所省缺的信息,如果是则基于该实体信息对目标文本进行补全。
基于生成的方式主要采用seq2seq结构,对待补全的目标文本进行重新生成。在生成过程中,主要是结合知识图谱、领域词库等外部信息来生成。与此同时,还需要计算不同的生成信息分别与目标文本的上下文中的信息之间的相关性,由此将基于相关性大的生成信息对目标文本进行补全。采用生成的方式丰富了省缺信息的来源,并且可以较好地将省缺的信息“嵌入”到目标文本中。
对于上述基于抽取的方式,由于是对目标文本的上下文中实体进行抽取,其抽取的实体信息通常是词语或者短句,这导致抽取到的实体信息一般会比较简短,从而后续基于实体信息对目标文本进行补全时,也只是能够补全比较简短的实体信息,而无法补全较长的非实体信息,且在将实体信息补全至目标文本时,无法很好地将其补全至目标文本的缺失位置,进而很难使得补全后得到的目标文本为表述正常的内容。
对于上述基于生成的方式,结合知识图谱以及领域词库这类数据量较大的外部信息,重新生成待补全的目标文本的生成模型,其需要学习的信息过多,这对训练样本数量以及构建知识的成本等方面都提出了较高的要求,从而适用范围较窄。
针对上述相关技术中存在的问题,本发明实施例提供了一种文本补全方法。该方法可以应用于坐席对话的对话内容补充场景。具体地,可以应用在基于智能客服领域或者其它需要基于文本内容作相应响应处理的领域。例如,用户在与人工智能客服进行沟通时,由于获取到的用户沟通时输入的目标文本通常会存在省缺信息,为了便于后续更精准地对目标文本进行回复,从而可以先对目标文本进行补全。其中,人工智能客服与用户之间的沟通即为坐席对话。需要说明的是,实际实施过程中,目标文本不一定是用户直接输入的,也可以是对用户输入的语音进行转换所得到的,本发明实施例对此不作具体限定。也即,在应用于智能客服领域,不限于是文本沟通及语音沟通的智能客服。
另外,该方法可以应用于终端中,由终端对待补全的目标文本进行补全,后续再基于补全结果作相应的响应处理。其中,终端可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备等。需要说明的是,本申请各实施例中提及的“多个”等的数量均指代“至少两个”的数量,比如,“多个”指“至少两个”。结合上述提及的,该方法可以应用于智能客服领域。由此,该方法也可以应用于服务器中,也即可以由终端向服务器发送待补全的目标文本,服务器在获取到待补全的目标文本后,可以由服务器进行补全,再基于补全结果作相应的响应处理。
结合上述说明,在一个实施例中,参见图1,提供了一种文本补全方法。以该方法应用于服务器,且执行主体为服务器为例进行说明,该方法具体包括如下步骤:
101、获取待补全的目标文本;
102、将目标文本输入至预设模型中的编码端,得到从编码端输出的联合编码结果,联合编码结果包括补全内容来源于目标文本相匹配的知识文本时所确定的编码结果,知识文本包括不存在省缺信息的文本;
103、将联合编码结果输入至预设模型中的解码端,得到补全结果,知识文本包括不存在省缺信息的文本。
在上述步骤101中,待补全的目标文本可以是由用户直接输入的,也可以是由用户输入语音后,对语音进行识别后所得到的,本发明实施例对此不作具体限定。结合坐席对话这个应用场景,待补全的目标文本可以是坐席对话中用户输入的当前对话内容。待补全的文本指的是存在省缺信息的文本,例如,若文本为“您现在还有一套是公积金贷款的,不是全款买的,是吧?”,可以理解的是,上述文本中省缺了“房子”这项信息,也即文本完整的表达应当为“您现在还有一套房子是公积金贷款的,不是全款买的,是吧?”,该完整的表述即可对应步骤103中的补全结果。
在上述步骤102中,预设模型的主体框架可以为seq2seq的主体结构。当然,除了使用seq2seq的主体结构之外,实际实施过程中还可以使用其它NLP(Natural LanguageProcess、自然语言处理)主体结构,如NNLM(Nerual Network Language Model,神经网路语言模型),FastText模型或LSTM(Long Short-Term Memory,长短期记忆网络)模型的主体结构等,本发明实施例对此不作具体限定。为了便于理解,本发明实施例以预设模型采用的是seq2seq的主体结构为例,对后面的实施过程进行解释说明。
编码端的作用是把一个不定长的输入序列变换成一个定长的上下文变量c,并在该背景变量中编码输入序列信息。其中,目标文本即为上述不定长的输入序列,可以通过x1,x2,...,xl进行表示,而上下文变量c则编码了整个输入序列x1,x2,...,xl的信息。其中,编码端的模型可采用BERT网络,也可以采用循环神经网络或者其变体,本发明实施例对此不作具体限定。
解码端得到作用是将上下文变量c中的信息解码生成输出序列,输出序列依次组合后为补全结果,也即为补全后的目标文本。解码端的模型可采用RNN(Recurrent NeuralNetwork,循环神经网络)或者其变体,还可以采用Transformer网络,本发明实施对此不作具体限定。若将补全内容来源于目标文本相匹配的知识文本时所确定的编码结果作为候选补全结果,则“补全内容来源于目标文本相匹配的知识文本时所确定的编码结果”中的补全内容来源于知识文本,指的是候选补全结果相对于目标文本所补全的省缺信息,其内容构成均来源于知识文本。
而知识文本,可以指的是基于不同对话意图类型下由领域专家所总结出的知识,并基于总结出的知识所构建出的文本。实际实施过程中,知识文本主要是包括不存在省缺信息的文本,至于领域专家是如何总结出知识,并基于总结出的知识构建出知识文本的,本发明实施例则对此不作具体限定。为了便于理解,在执行上述步骤102之前,可以构建每一对话意图类型下的知识文本。具体地,可以先获取已标注对话意图类型的训练集,从而再由领域专家,对每一对话意图类型的训练集中的文本进行判断,以判断文本是否存在省缺信息,进而选取每一对话意图类型的训练集中不存在省缺信息的文本,作为每一对话意图类型下的知识文本。
另外,“目标文本相匹配的知识文本”中之所以会存在“相匹配”,是由于目标文本通常是在一些对话场景中出现,从而结合目标文本所出现的对话场景,是可以认为目标文本是存在相应的对话意图类型的。例如,如果用户在购买保险的坐席对话场景中陈述了省缺信息的对话,则该对话对应的文本即为目标文本。结合保险领域的坐席对话场景,可以认为该目标文本相应的对话意图类型即为购买保险,也就是用户在进行对话过程中的对话意图可以是为了沟通如何购买保险或者是保险业务的具体内容。
而在日常工作生活中,对话场景某种程度是可以被列举甚至穷举出来的。由此,在明确所有对话场景的前提下,所有可能存在的对话意图类型也是可以明确的。进一步地,可以总结每一对话意图类型下的知识文本。相应地,对于步骤101中获取的目标文本,在上述各项铺垫的前提下,通过编码端是可以确定目标文本相匹配的知识文本的。此时,目标文本相匹配的知识文本与目标文本本身,即从属于相同的对话意图类型。
还需要说明的是,编码端所作的处理实际上是基于可能的知识来源,为解码端中每一输出节点在输出解码结果时提供依据,而该依据即为联合编码结果中所包括的编码结果。可以理解的是,若存在多种不同的知识来源,联合编码结果中可以包括多种不同的编码结果,而补全内容来源于目标文本相匹配的知识文本时所确定的编码结果,即可以联合编码结果中的某一种编码结果。由此,实际实施过程中,联合编码结果中的编码结果还可以补全内容来自其它来源时所确定的编码结果。例如,其它来源可以为用户其它历史对话或者不同于知识文本的其它语料库。
本发明实施例提供的方法,通过获取待补全的目标文本,将目标文本输入至预设模型中的编码端,得到从编码端输出的联合编码结果,将联合编码结果输入至预设模型中的解码端,得到补全结果。由于知识文本是由领域专家通过人工的方式,针对性地在每一对话意图类型下的训练集中选取的,而相关技术中所使用的知识图谱及领域词库,通常是大量的信息且是盲目性的,从而知识文本作为补全内容的信息来源会更加精准,进而适用范围更广。再者,相较于知识图谱及领域词库,构建知识文本会相对容易,从而减少整体工作量。另外,得益于知识文本覆盖于每一对话意图类型,相较于知识图谱及领域词库,知识文本作为信息来源其覆盖度更高。因此,后续基于知识文本进行文本补全,补全结果也会更加精准。
结合上述实施例的内容,在一个实施例中,参见图2,本发明实施例不对生成预设模型的方式作具体限定,包括但不限于:
201、对初始分类模型进行预训练,得到预训练后的分类模型;
202、将分类模型作为初始序列生成模型的编码端,并对初始序列生成模型进行多任务端到端序列生成训练,得到预设模型。
在上述步骤201中,初始分类模型的架构可以为BERT网络,本发明实施例对此不作具体限定。预训练的主要过程可以是句子对的匹配训练及句子意图分类训练,该训练过程可以采用监督学习的方式,主要目的是为了训练句子对之间的联合编码。预训练完成后,可以得到预训练后的分类模型。该分类模型可作为多任务端到端序列生成训练时的编码端,该编码端可用于在步骤102中输出联合编码结果。
在步骤202中,初始序列生成模型的主体框架可以与预设模型相同,也即为seq2seq的主体结构。而对初始序列生成模型进行多任务端到端序列生成训练中的“多任务”指的是实际实施过程中,训练初始序列生成模型不仅是训练用于文本内容补全的解码端。同时,还可以对用于句子对匹配及对话意图类型分类的编码端进行训练。具体体现在,预训练主要是对初始分类模型中的参数进行调整,得到预训练后的分类模型。而将分类模型作为初始序列生成模型的编码端后,对初始序列生成模型进行多任务端到端序列生成训练,主要是对初始序列生成模型中解码端的参数进行调整。同时,由于是对初始序列生成模型整体进行训练,从而同时还可以对编码端中参数进行微调。在另一个实施例中,也可以固定编码端的参数,也即在多任务端到端序列生成训练中不对编码段的参数进行调整,而只调整初始序列生成模型中解码端的参数。
其中,句子对匹配任务指的是在将目标文本输入至预设模型中的编码端后,编码端会将所有知识文本与目标文本进行匹配,从而确定与目标文本相匹配的知识文本,可以理解为确认目标文本的最佳相似表述。而由上述实施例可知,每一知识文本是对应存在一种对话意图类型的,在确定与目标文本相匹配的知识文本后,对于与目标文本相匹配的知识文本,该知识文本所对应的对话意图类型,即可以认为也是该目标文本所对应的对话意图类型。
而多任务端到端序列生成训练中的“端到端”指的是一种模型构建方式。相对于非端到端模型而言,端到端模型不需要通过任何特征工程的方式去学习及设计一些特征,而是自动地从数据中自动学习一些有意义的表示方法,再把学习到的数据表示放置模型中的分类器中,即可用于后续预测或分类。多任务端到端序列生成训练中的“序列生成”指的是解码逐一输出每一项内容,再由每一项输出的内容按照输出顺序组成序列的过程。
本发明实施例提供的方法,先通过预训练的方式进行句子对匹配训练,再进行至少包括解码生成任务与句子对匹配任务的多任务端到端序列生成训练,通过多任务联合训练的方式,可以提高预设模型的学习能力,对于提高解码序列生成时的精准性有明显效果。
结合上述实施例的内容,在一个实施例中,参见图3,关于对初始分类模型进行预训练的方式,本发明实施例对此不作具体限定,包括但不限于:
301、获取样本对,样本对包括正样本对及负样本对,正样本对中的两个样本均来源于同一对话意图类型对应的样本集合,负样本对中的两个样本分别来源于不同的对话意图类型对应的样本集合;
302、将样本对作为初始分类模型的输入,将样本对中两个样本的匹配结果作为初始分类模型的输出,对初始分类模型进行训练。
在步骤301中,样本对中的两个样本均为文本,正样本对指的是来源于同一对话意图类型的两个文本,负样本对指的是来源于不同对话意图类型的两个文本。基于上述过程中的说明,本发明实施例不对构建样本对的方式作具体限定,包括但不限于如下三种方式:
(1)第一种方式
该方式可以表述为:在同一对话意图类型对应的样本集合中选取两个样本构建正样本对,在不同对话意图类型对应的样本集合中各自选取一个样本构建由两个样本所形成的负样本对。该方式主要是随机采样的方式,具体可参考图4。图4中不同形状代表不同的对话意图类型下的样本,比如圆形可以代表第一种对话意图类型下的样本,三角形代表第二种对话意图类型下的样本,圆角矩形代表第三种对话意图类型下的样本。在获取样本对之前,可以先确定不同的对话意图类型对应的样本集合,每一对话意图类型对应的样本集合可以按照标签的方式,如Label1、Label2、…、LabelN,每一标签用于表示各自对应的对话意图类型。
在不同的对话意图类型对应的样本集合各自选取一个样本,即可以构成负样本对。而在相同的对话意图类型对应的样本集合中选取两个样本,即可以构成正样本对。例如,图4中下方都是“圆形”样本所构成的样本集合,在该样本集合中选取两个“圆形”样本,即可构成图4中的正样本,也即正样本对。在该样本集合中选取一个“圆形”样本,再在其它对话意图类型对应的样本集合中选取一个“三角形”样本,即可构成图4中的负样本,也即负样本对。
需要说明的是,通过第一种方式构建样本对的过程可以是离线完成的。具体地,可以在执行步骤201之前,也即在预训练的过程之前完成构建。而步骤301中获取样本对,仅是获取已经提前离线构建好的样本对,而不是在执行步骤201的过程中构建。
(2)第二种方式
该方式可以表述为:在同一对话意图类型对应的样本集合中选取两个样本构建正样本对,在同一对话意图类型对应的样本集合中选取两个样本构建负样本对;其中,构建负样本对的两个样本中一个样本与另一个样本在分类至对话意图类型时被分类至同一对话意图类型,且该一个样本与另一个样本在人工标注对话意图类型时对应不同的对话意图类型。
该方式主要是按照句子分类的方式,具体可参考图5。图5中不同形状代表不同的对话意图类型下的样本,比如圆形可以代表第一种对话意图类型下的样本,且该种对话意图类型对应的标签为LabelN。三角形代表第二种对话意图类型下的样本,且该种对话意图类型对应的标签为Label1。圆角矩形代表第三种对话意图类型下的样本,且该种对话意图类型对应的标签为Label2。
图5中每一Label左侧的虚线框,即表示每一种对话意图类型对应的样本集合,每一标签均对应一种对话意图类型。而这些样本集合中的样本是通过句子分类器进行分类的,也即是通过对大量的样本进行分类,才得到Label1~LabelN中每一标签对应的样本集合。而进行样本分类过程中,势必存在混淆的样本。其中,混淆的样本指的是被分入至某一对话意图类型下,但实质不属于该对话意图类型下的样本,混淆的样本可以通过人工标注的方式在每一种对话意图类型对应的样本集合中甄别出来。
为了便于理解,以图5中“圆形”样本为例。从“圆形”样本集合中选取两个“圆形”样本即可构成图5中的正样本,也即正样本对。而“圆形”样本集合中可能会存在“圆角矩形”样本,也即混淆的样本,该“圆角矩形”样本与“圆形”样本即可构成图5中的负样本,也即负样本对。
同样地,通过第二种方式构建样本对的过程同样可以是离线完成的。具体地,可以在执行步骤201之前,也即在预训练的过程之前完成构建。而步骤301中获取样本对,仅是获取已经提前离线构建好的样本对,而不是在执行步骤201的过程中构建。
(3)第三种方式
该方式不同于上述第一种与第二种方式,主要区别在于是在线构建的方式,而不是离线构建的方式。其中,在线构建指的是在执行步骤301的过程中构建,也即预训练的过程中构建。该方式可以表述为:获取批量样本,并计算批量样本中
其中,预训练的过程需要使用到样本对,为了给预训练过程提供样本对,可以直接向初始分类模型输入批量的样本。如图6所示,批量的样本即为mini-batch。对于某一批量样本,计算该批量样本中每两个样本之间的相似度得分。将相似度得分大于预设阈值的两个样本视为正样本对,将相似度得分不大于预设阈值的两个样本视为负样本对。图6中的score即表示两个样本之间相似度得分。由此,可以构建得到正样本对及负样本对。
需要说明的是,除了按照上述方式构建正样本对及负样本对之外,还可以构建困难样本对及简单样本对。其中,困难样本对指的是预测时与真值标签误差较大的样本对,简单样本对指的是预测时与真值标签误差较小的样本对。比如,计算得到的正样本对中存在某一样本对计算得到的相似度得分为0.9,而预设阈值为0.5。按照上述过程中的判断逻辑,该样本对确实会被判断为正样本对,但若根据实际人工标注的结果,确定该样本对的两个样本实际不为同一对话意图类型下的样本。而该样本对对应的相似度得分与预设阈值之间的差值却比较大,也即对应预测时与真值标签误差较大。由此,可将该样本对作为困难样本对。其中,上述误差较大可以通过与另一个预设阈值进行比较来判断。
还需要说明的是,基于困难样本对及简单样本对各自的定义,上述提及的困难样本对与简单样本对,不一定是按照上述示例中那样,困难样本对是从正样本对中所确定的,困难样本对也可以从负样本对中所确定的。同理,简单样本对可以从正样本对中所确定,也可以从负样本对中所确定,本发明实施例对此不作具体限定。另外,对于构建得到的困难样本对及简单样本对,实际实施过程中对于两者之间的数量比例,可以由预设设置的比例参数决定。
由上述说明可知,通过第三种方式构建样本对的过程同样可以是在线完成的。具体地,可以在执行步骤201的过程中,也即在预训练的过程中完成构建。而步骤301中获取样本对,可以为构建样本对的另一种表述。对于上述提及的构建正负样本对的三种方式,实际实施过程中,可以采用某一种方式进行构建,也可以采用几种方式共同构建,本发明实施例对此不作具体限定。
在得到上述样本对后,预训练过程其对应的组合训练目标,也即组合损失函数,可参考如下公式(1):
Lmatch=Lsent_pair+Lintent; (1)
在上述公式(1)中,Lsent_pair表示句子对匹配分类训练目标,也即句子对匹配分类训练的损失函数。Lintent表示意图分类训练目标,也即意图分类训练的损失函数。
其中,句子对匹配分类概率及意图分类概率的概率分布可以分别如下公式(2)及公式(3)所示:
在上述公式(2)中,表示hij特征输出在CLS位置的特征向量。i表示第i次输入的目标文本,也即可以表示当前输入的目标文本,j表示与xi进行编码的第j条知识文本vj。表示xi与vj之间的句子对匹配分类概率,表示xi与vj之间的意图分类概率。
基于样本对进行句子对匹配分类训练,训练目标Lsent_pair可参考如下公式(4):
在上述公式(4)中,Lsent_pair表示句子对匹配分类训练目标,也即loss损失函数。n=1...N表示样本数,yn而表示第n个样本对所对应的标签,与相对应。
基于样本对进行意图分类训练,训练目标Lintent可参考如下公式(5):
在上述公式(5)中,Lintent表示意图分类训练目标,也即loss损失函数。n=1...N表示样本数,yn而表示第n个样本对所对应的标签,与相对应。
上述公式(4)及公式(5)即可组成组合训练目标,具体可参考上述公式(1)。基于上述公式(1)的组合训练目标,可完成预训练过程,并可得到预训练后的分类模型。
本发明实施例提供的方法,通过获取样本对,将样本对作为初始分类模型的输入,将样本对中两个样本的匹配结果作为初始分类模型的输出,对初始分类模型进行训练。由于可以通过三种不同的方式构建正样本对及负样本对,从而可以保证样本的多样性,进而后续基于样本对训练得到预设模型,可以提高预设模型的学习能力,且对于提高解码序列生成时的精准性有明显效果。
结合上述实施例的内容,在一个实施例中,关于对所述初始序列生成模型进行训练的方式,本发明实施例对此不作具体限定,包括但不限于:获取样本对,所述样本对包括待补全样本及匹配样本;其中,所述匹配样本作为所述待补全样本的补全内容来源,所述补全内容来源包括知识文本;将所述待补全样本作为所述初始序列生成模型的输入,将所述匹配样本作为所述初始序列生成模型的输出,对所述初始序列生成模型进行训练。
其中,样本对中的两个样本对均为文本。待补全样本指的是存在省缺信息的文本样本,而匹配样本指的是可以作为该待补全样本补全内容来源的文本样本。根据补全内容来源的不同,匹配样本可以为不同种类。在本发明实施例中,若补全内容来源为知识文本,则匹配样本为知识文本样本。若补全内容来源为历史上文文本,则匹配样本为历史上文文本样本。除此之外,若补全内容来源为待补全样本,则匹配样本为待补全文本。
对于某一待补全样本,与该待补全样本组成样本对的匹配样本为知识文本、历史上文文本或待补全样本中的一项。实际实施过程中,可以通过大量样本对,训练初始序列生成模型。这些样本对中,可包括匹配样本为知识文本样本的样本对,可以包括匹配样本为历史上文文本样本的样本对,还可以存在匹配样本为待补全样本的样本对。另外,上述对初始序列生成模型进行训练的过程可以采用监督式训练。
本发明实施例提供的方法,通过获取样本对,将所述待补全样本作为所述初始序列生成模型的输入,将所述匹配样本作为所述初始序列生成模型的输出,对所述初始序列生成模型进行训练。由于样本对中匹配样本作为待补全样本的补全内容来源,补全内容来源可以为知识文本,还可以为历史上文文本及待补全样本,从而可以保证样本的多样性,进而后续基于样本对训练得到预设模型,可以提高预设模型的学习能力,且对于提高解码序列生成时的精准性有明显效果。
结合上述实施例的内容,在一个实施例中,知识文本还包括满足预设条件的文本,预设条件包括包含省缺信息的同义表述用语和/或包含省缺信息的同类表述用语。
其中,同义表述用语指的是含义相同但表达不同的用语。例如,“房子”与“房屋”即为同义表述用语,“软体”与“软件”也为同义表述用语。而同类表述用语指的是含义不一定相同、表达不同但仍归属于同一类的用语。例如,“房子”与“商铺”都属于不动产一类,即为同类表述用语。
本发明实施例提供的方法,由于知识文本可以包括满足预设条件的文本,而预设条件可以包括包含省缺信息的同义表述用语和/或包含省缺信息的同类表述用语,从而补全内容来源于目标文本相匹配的知识文本时所确定的编码结果,可以覆盖同义和/或同类的表述,语义覆盖范围更广,进而可以提高预设模型的学习能力,便于理解目标文本的对话意图类型,且对于提高解码序列生成时的精准性有明显效果。
结合上述实施例的内容,在一个实施例中,联合编码结果还包括补全内容来源于目标文本时所确定的编码结果和/或补全内容来源于目标文本的历史上文文本时所确定的编码结果。
其中,“补全内容来源于目标文本”指的是为对目标文本进行补全时,补全内容是基于目标文本其自身所推定的。比如,补全内容可能直接是目标文本中的某些词语,或者补全内容可能是目标文本中某些词语的同义词或者近义词。而“补全内容来源于目标文本的历史上文文本”指的是对目标文本进行补全时,补全内容是基于历史上文文本所推定的。同样地,补全内容可能直接是历史上文文本中的某些词语,或者可能是历史上文文本中某些词语的同义词或者近义词。
另外,历史上文文本指的是目标文本所处的对话场景下,在目标文本出现之前的历史对话。例如,以坐席对话这个应用场景为例,用户之前与坐席之前对话了不少内容。比如,用户说:“房子商业贷款要多久审批”,坐席说:“需要3个月才能审批”…诸如此类的历史对话。而当前坐席问:“您现在还有一套是公积金贷款的,不是全款买的,是吧?”。这里坐席说的这句话即为待补全的目标文本,其省缺了“房子”这项信息,文本完整的表达应当为“您现在还有一套房子是公积金贷款的,不是全款买的,是吧?”。而在这句话之前的历史对话,均为历史上文文本。
结合上述各项定义,目标文本可以用x1,x2,...,xl进行表示,每一项表示文本中每一分词的特征向量,x1,x2,...,xl表示由每一分词的特征向量所组成的序列,l表示目标文本对应的序列长度。同理,历史上文文本可以用c1,c2,...,ck进行表示,k表示历史上文文本对应的序列长度。知识文本可以用w1,w2,...,wn,n表示知识文本对应的序列长度。
以联合编码结果中包括三种编码结果,且分别为补全内容来源于目标文本相匹配的知识文本时所确定的编码结果、补全内容来源于目标文本时所确定的编码结果以及补全内容来源于目标文本的历史上文文本时所确定的编码结果为例。其中,补全内容来源于目标文本相匹配的知识文本时所确定的编码结果,也即编码端对知识文本与目标文本进行组合编码可参考如下公式表示:
在上述公式(6)中,i表示第i次输入,xi表示当前输入的待补全的目标文本,j表示与xi进行编码的第j条知识文本vj。表示内容拼接,hij表示xi与vj之间的编码结果。CLS放在预设模型中编码端输入的第一个文本的首位,SEP放在预设模型中编码端输入的不同文本之间,用于隔开不同的输入文本,BERT表示编码端采用的是BERT网络。
补全内容来源于目标文本的历史上文文本时所确定的编码结果,也即编码端对历史上文文本与目标文本进行组合编码可参考如下公式表示:
在上述公式(7)中,ck表示当前输入的待补全的目标文本xi的历史上文文本,rik表示ck与xi之间的编码结果,其它释义可参考上述公式里的解释说明。基于上述编码公式,补全内容基于不同来源,预设模型的主体框架为seq2seq的主体结构时,预设模型的框架示意图可参考图7。在图7中,预设模型中解码端输出的序列补全了当前待补全的目标文本中所省缺的主语“房子”,补全结果是以图7中序列的形式逐一生成并输出的,“END”表示解码端生成序列的结束符。
本发明实施例提供的方法,由于不仅可以将目标文本与知识文本进行联合编码,将目标文本与历史上文文本进行联合编码,还可以将目标文本与目标文本自身进行联合编码,从而上述多种联合编码,均可以作为省缺信息几种信息来源,进而保证补全内容是根据最有可能的几种信息来源所确定的。因此,可以保证最终解码序列生成时的精准性。
结合上述实施例的内容,在一个实施例中,本发明实施例不对将编码端输出的联合编码结果输入至预设模型中的解码端,得到补全结果的方式作具体限定,参见图8,包括但不限于:
801、对于解码端中的每一输出节点,确定每一输出节点输出的解码结果来源于联合编码结果中每一编码结果时所对应的概率;
802、确定每一输出节点对应的所有概率中的最大值,根据每一输出节点对应的最大值所对应的解码结果,确定每一输出节点的解码结果,并由每一输出节点的解码结果构成补全结果。
解码端在输出补全结果时,实则是按照时序,由每一输出节点输出解码结果,形成生成序列。而由上述实施例可知,编码端输出的联合编码结果中可以包括3种编码结果,分别为补全内容来源于目标文本相匹配的知识文本时所确定的编码结果、补全内容来源于目标文本时所确定的编码结果及补全内容来源于目标文本的历史上文文本时所确定的编码结果。在上述步骤801中,解码端中的每一输出节点在输出解码结果时,均可以参考上述三种编码结果,并确定当前输出解码结果来源于上述三种编码结果的可能性大小,也即由概率进行表示。
结合上述三种编码结果,对于每一输出节点输出的解码结果来源于每一编码结果时所对应的概率,现对确定每一编码结果所对应的概率的方式进行说明:
(1)第一种情形:编码结果是基于补全内容来源于目标文本所确定的,解码结果来源于该编码结果;相应地,对于某一输出节点,该输出节点输出的解码结果来源于该编码结果时所对应的概率,其具体计算过程可参考如下公式(8)至公式(10);
在上述公式(8)中,中的U表示编码结果是基于补全内容来源于目标文本所确定的,中的t对应的是当前输出节点。解码端每一输出节点是按照时序先后输出解码结果的,也即输出解码结果会存在时间上的先后顺序。由此,t对应的是当前输出节点,也可以理解为当前时刻。表示该输出节点输出的解码结果来源于该编码结果时所对应的概率,softmax表示归一化指数函数,tanh表示激活函数,bU为常数项,WU表示目标文本对应的权重。
在上述公式(9)中,表示当前输出节点所需要输入的编码端的模型状态,如编码端的模型在为RNN时,表示当前输出节点所需要输入的编码端的RNN状态,表示上一输出节点所需要输入的编码端的RNN状态。dec表示解码端,表示上一个输出节点所输出的解码结果。
在上述公式(10)中,rm与rj表示编码端输入的目标文本,m、k和j表示不同的计量参数。表示当前输出节点所需要输入的编码端的RNN状态与目标文本经过attention计算后的内容特征向量。
(2)第二种情形:编码结果是基于补全内容来源于历史上文文本所确定的,解码结果来源于该编码结果;相应地,对于某一输出节点,该输出节点输出的解码结果来源于该编码结果时所对应的概率,其具体计算过程可参考如下公式(11)与公式(12);
在上述公式(11),中的C表示编码结果是基于补全内容来源于历史上文文本所确定的,中的t对应的是当前输出节点。解码端每一输出节点是按照时序先后输出解码结果的,也即输出解码结果会存在时间上的先后顺序。由此,t对应的是当前输出节点,也可以理解为当前时刻。表示该输出节点输出的解码结果来源于该编码结果时所对应的概率,softmax表示归一化指数函数,tanh表示激活函数,bC为常数项,WC表示历史上文文本对应的权重。
在上述公式(12),表示当前输出节点所需要输入的编码端的RNN状态与历史上文文本经过attention计算后的内容特征向量,其它参数的定义可参考上述内容。
(3)第三种情形:编码结果是基于补全内容来源于目标文本相匹配的知识文本所确定的,解码结果来源于该编码结果;相应地,对于某一输出节点,该输出节点输出的解码结果来源于该编码结果时所对应的概率,其具体计算过程可参考如下公式(13)与公式(14);
在上述公式(13),中的O表示编码结果是基于补全内容来源于目标文本相匹配的知识文本所确定的,中的t对应的是当前输出节点。解码端每一输出节点是按照时序先后输出解码结果的,也即输出解码结果会存在时间上的先后顺序。由此,t对应的是当前输出节点,也可以理解为当前时刻。表示该输出节点输出的解码结果来源于该编码结果时所对应的概率,softmax表示归一化指数函数,tanh表示激活函数,bO为常数项,WO表示历史上文文本对应的权重。
在上述公式(14),表示当前输出节点所需要输入的编码端的RNN状态与历史上文文本经过attention计算后的内容特征向量,其它参数的定义可参考上述内容。
在通过上述方式确定每一编码结果所对应的概率之后,可以进一步基于不同编码结果对应的权重,对每一编码结果所对应的概率进行调整。在步骤802中,可以按照如下公式确定每一输出节点对应的所有概率中的最大值,具体可参考如下公式(15):
在上述公式(15)中,t对应的当前输出节点,Pt表示该输出节点对应的的所有概率中的最大值,a与β分别代表不同的权重。
本发明实施例提供的方法,通过预设模型中的编码端,不仅可以将目标文本与知识文本进行联合编码,将目标文本与历史上文文本进行联合编码,还可以将目标文本与目标文本自身进行联合编码。另外,还可以由解码端中每一输出节点,输出每一解码结果来源于联合编码结果中每一编码结果时所对应的概率,由概率最大值对应的解码结果构成补全结果。由于上述多种联合编码,均可以作为省缺信息几种信息来源,从而保证补全内容是根据最有可能的几种信息来源所确定的。相较于单独一种编码的方式,构建方式在效果上更优。除此之外,还可以由概率最大值对应的解码结果构成补全结果。因此,可以保证最终解码序列生成时的精准性。
结合上述实施例的内容,在一个实施例中,本发明实施例不对确定每一输出节点输出的解码结果来源于联合编码结果中每一编码结果时所对应的概率的方式,包括但不限于:根据每一输出节点的预设数量个前置输出节点中每一前置输出节点在输出解码结果时所确定的隐藏状态信息,计算每一输出节点输出的解码结果来源于联合编码结果中每一编码结果时所对应的概率。
相较于目前全attention机制的滑窗,也即对于某一输出节点,其在输出解码结果时,是使用该输出节点每一前置输出节点的隐藏状态。具体可参考图9。而在本发明实施例中,对于当前输出节点所需要输出的解码结果,由于与其内容上相关联的通常为上文信息且范围较大,而与其内容上相关联的下文信息较少且范围较小,从而对上文的attention范围大于对下文的范围,也即实际实施过程中,尽量根据当前输出节点的每一前置输出节点在输出解码结果时所确定的隐藏状态信息,以计算每一输出节点输出的解码结果来源于联合编码结果中每一编码结果时的内容特征向量。也即,使用的是尽量关注上文信息的非对称attention机制的滑窗,该滑窗可以如图10所示,计算内容特征向量的过程具体可参考上述公式(10)、公式(12)及公式(14)。
在图9与图10中,x指代的是所有输出节点中进行全attention编码的输出节点。而c指代的是所有输出节点中进行部分attention编码的输出节点,也即由于上文信息与当前输出节点之间的关联大于下文信息,从而采用非对称结构的滑窗进行attention编码。
在根据每一输出节点输出的解码结果来源于联合编码结果中每一编码结果时的内容特征向量,计算每一输出节点输出的解码结果来源于联合编码结果中每一编码结果时所对应的概率,具体可参考上述公式(8),公式(11)及公式(13)。
本发明实施例提供的方法,由于上文信息与当前输出节点之间的关联大于下文信息,而采用了非对称滑窗attention机制进行编码,从而可降低attention部分的计算量,从而可以提高计算效率。另外,特别对于长篇幅对话的组合编码,计算量远远低于全attention编码。
应该理解的是,虽然图1、图2、图3及图8的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图1、图2、图3及图8中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
需要说明的是,上述阐述的技术方案在实际实施过程中可以作为独立实施例来实施,也可以彼此之间进行组合并作为组合实施例实施。另外,在对上述本发明实施例内容进行阐述时,仅基于方便阐述的思路,按照相应顺序对不同实施例进行阐述,如按照数据流流向的顺序,而并非是对不同实施例之间的执行顺序进行限定。相应地,在实际实施过程中,若需要实施本发明提供的多个实施例,则不一定需要按照本发明阐述实施例时所提供的执行顺序,而是可以根据需求安排不同实施例之间的执行顺序。
结合上述实施例的内容,在一个实施例中,如图11所示,提供了一种文本补全装置,包括:获取模块1101、编码模块1102及解码模块1103,其中:
获取模块1101,用于获取待补全的目标文本;
编码模块1102,用于将目标文本输入至预设模型中的编码端,得到从编码端输出的联合编码结果,联合编码结果包括补全内容来源于目标文本相匹配的知识文本时所确定的编码结果,知识文本包括不存在省缺信息的文本;
解码模块1103,用于将联合编码结果输入至预设模型中的解码端,得到补全结果。
在一个实施例中,还包括:
预训练模块,用于对初始分类模型进行预训练,得到预训练后的分类模型;
训练模块,用于将分类模型作为初始序列生成模型的编码端,并对初始序列生成模型进行多任务端到端序列生成训练,得到预设模型。
在一个实施例中,预训练模块,用于获取样本对,样本对包括正样本对及负样本对,正样本对中的两个样本均来源于同一对话意图类型对应的样本集合,负样本对中的两个样本分别来源于不同的对话意图类型对应的样本集合;将样本对作为初始分类模型的输入,将样本对中两个样本的匹配结果作为初始分类模型的输出,对初始分类模型进行训练。
在一个实施例中,知识文本还包括满足预设条件的文本,预设条件包括包含省缺信息的同义表述用语和/或包含省缺信息的同类表述用语。
在一个实施例中,联合编码结果还包括补全内容来源于目标文本时所确定的编码结果和/或补全内容来源于目标文本的历史上文文本时所确定的编码结果。
在一个实施例中,解码模块1103,包括:
第一确定单元,用于对于解码端中的每一输出节点,确定每一输出节点输出的解码结果来源于联合编码结果中每一编码结果时所对应的概率;
第二确定单元,用于确定每一输出节点对应的所有概率中的最大值,根据每一输出节点对应的最大值所对应的解码结果,确定每一输出节点的解码结果,并由每一输出节点的解码结果构成补全结果。
在一个实施例中,第一确定单元,用于根据每一输出节点的预设数量个前置输出节点中每一前置输出节点在输出解码结果时所确定的隐藏状态信息,计算每一输出节点输出的解码结果来源于联合编码结果中每一编码结果时所对应的概率。
本发明实施例提供的装置,通过获取待补全的目标文本,将目标文本输入至预设模型中的编码端,得到从编码端输出的联合编码结果,将联合编码结果输入至预设模型中的解码端,得到补全结果。由于知识文本是由领域专家通过人工的方式,针对性地在每一对话意图类型下的训练集中选取的,而相关技术中所使用的知识图谱及领域词库,通常是大量的信息且是盲目性的,从而知识文本作为补全内容的信息来源会更加精准,进而适用范围更广。
其次,相较于知识图谱及领域词库,构建知识文本会相对容易,从而减少整体工作量。
再次,得益于知识文本覆盖于每一对话意图类型,相较于知识图谱及领域词库,知识文本作为信息来源其覆盖度更高。因此,后续基于知识文本进行文本补全,补全结果也会更加精准。
从次,先通过预训练的方式进行句子对匹配训练,再进行至少包括解码生成任务与句子对匹配任务的多任务端到端序列生成训练,通过多任务联合训练的方式,可以提高预设模型的学习能力,对于提高解码序列生成时的精准性有明显效果。
另外,由于可以通过三种不同的方式构建正样本对及负样本对,从而可以保证样本的多样性,进而后续基于样本对训练得到预设模型,可以提高预设模型的学习能力,且对于提高解码序列生成时的精准性有明显效果。
除此之外,由于不仅可以将目标文本与知识文本进行联合编码,将目标文本与历史上文文本进行联合编码,还可以将目标文本与目标文本自身进行联合编码,从而上述多种联合编码,均可以作为省缺信息几种信息来源,进而保证补全内容是根据最有可能的几种信息来源所确定的。因此,可以保证最终解码序列生成时的精准性。
值得一提的是,由于上述多种联合编码,均可以作为省缺信息几种信息来源,从而保证补全内容是根据最有可能的几种信息来源所确定的。相较于单独一种编码的方式,构建方式在效果上更优。除此之外,还可以由概率最大值对应的解码结果构成补全结果。因此,可以保证最终解码序列生成时的精准性。
最后,由于上文信息与当前输出节点之间的关联大于下文信息,而采用了非对称滑窗attention机制进行编码,从而可降低attention部分的计算量,从而可以提高计算效率。另外,特别对于长篇幅对话的组合编码,计算量远远低于全attention编码。
关于文本补全装置的具体限定可以参见上文中对于文本补全方法的限定,在此不再赘述。上述文本补全装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图12所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储预设阈值。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种文本补全方法。
本领域技术人员可以理解,图12中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:
获取待补全的目标文本;
将目标文本输入至预设模型中的编码端,得到从编码端输出的联合编码结果,联合编码结果包括补全内容来源于目标文本相匹配的知识文本时所确定的编码结果,知识文本包括不存在省缺信息的文本;
将联合编码结果输入至预设模型中的解码端,得到补全结果。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
对初始分类模型进行预训练,得到预训练后的分类模型;
将分类模型作为初始序列生成模型的编码端,并对初始序列生成模型进行多任务端到端序列生成训练,得到预设模型。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
获取样本对,样本对包括正样本对及负样本对,正样本对中的两个样本均来源于同一对话意图类型对应的样本集合,负样本对中的两个样本分别来源于不同的对话意图类型对应的样本集合;
将样本对作为初始分类模型的输入,将样本对中两个样本的匹配结果作为初始分类模型的输出,对初始分类模型进行训练。
在一个实施例中,处理器在执行计算机程序时,知识文本还包括满足预设条件的文本,预设条件包括包含省缺信息的同义表述用语和/或包含省缺信息的同类表述用语。
在一个实施例中,处理器在执行计算机程序时,联合编码结果还包括补全内容来源于目标文本时所确定的编码结果和/或补全内容来源于目标文本的历史上文文本时所确定的编码结果。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
对于解码端中的每一输出节点,确定每一输出节点输出的解码结果来源于联合编码结果中每一编码结果时所对应的概率;
确定每一输出节点对应的所有概率中的最大值,根据每一输出节点对应的最大值所对应的解码结果,确定每一输出节点的解码结果,并由每一输出节点的解码结果构成补全结果。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
根据每一输出节点的预设数量个前置输出节点中每一前置输出节点在输出解码结果时所确定的隐藏状态信息,计算每一输出节点输出的解码结果来源于联合编码结果中每一编码结果时所对应的概率。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
获取待补全的目标文本;
将目标文本输入至预设模型中的编码端,得到从编码端输出的联合编码结果,联合编码结果包括补全内容来源于目标文本相匹配的知识文本时所确定的编码结果,知识文本包括不存在省缺信息的文本;
将联合编码结果输入至预设模型中的解码端,得到补全结果。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
对初始分类模型进行预训练,得到预训练后的分类模型;
将分类模型作为初始序列生成模型的编码端,并对初始序列生成模型进行多任务端到端序列生成训练,得到预设模型。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
获取样本对,样本对包括正样本对及负样本对,正样本对中的两个样本均来源于同一对话意图类型对应的样本集合,负样本对中的两个样本分别来源于不同的对话意图类型对应的样本集合;
将样本对作为初始分类模型的输入,将样本对中两个样本的匹配结果作为初始分类模型的输出,对初始分类模型进行训练。
在一个实施例中,计算机程序被处理器执行时,知识文本还包括满足预设条件的文本,预设条件包括包含省缺信息的同义表述用语和/或包含省缺信息的同类表述用语。
在一个实施例中,计算机程序被处理器执行时,联合编码结果还包括补全内容来源于目标文本时所确定的编码结果和/或补全内容来源于目标文本的历史上文文本时所确定的编码结果。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
对于解码端中的每一输出节点,确定每一输出节点输出的解码结果来源于联合编码结果中每一编码结果时所对应的概率;
确定每一输出节点对应的所有概率中的最大值,根据每一输出节点对应的最大值所对应的解码结果,确定每一输出节点的解码结果,并由每一输出节点的解码结果构成补全结果。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
根据每一输出节点的预设数量个前置输出节点中每一前置输出节点在输出解码结果时所确定的隐藏状态信息,计算每一输出节点输出的解码结果来源于联合编码结果中每一编码结果时所对应的概率。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory,ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic Random Access Memory,DRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (11)
1.一种文本补全方法,其特征在于,所述方法包括:
获取待补全的目标文本;
将所述目标文本输入至预设模型中的编码端,得到从所述编码端输出的联合编码结果,所述联合编码结果包括基于至少一种知识来源进行编码所获得的编码结果,所述至少一种知识来源包括与目标文本相匹配的知识文本,所述知识文本包括不存在省缺信息的文本;
将所述联合编码结果输入至所述预设模型中的解码端,得到补全结果。
2.根据权利要求1所述的方法,其特征在于,所述预设模型的生成方式,包括:
对初始分类模型进行预训练,得到预训练后的分类模型;
将所述分类模型作为初始序列生成模型的编码端,并对所述初始序列生成模型进行训练,得到所述预设模型。
3.根据权利要求2所述的方法,其特征在于,所述对初始分类模型进行预训练,包括:
获取样本对,所述样本对包括正样本对及负样本对,所述正样本对中的两个样本均来源于同一对话意图类型对应的样本集合,所述负样本对中的两个样本分别来源于不同的对话意图类型对应的样本集合;
将所述样本对作为所述初始分类模型的输入,将所述样本对中两个样本的匹配结果作为所述初始分类模型的输出,对所述初始分类模型进行训练。
4.根据权利要求2所述的方法,其特征在于,所述对所述初始序列生成模型进行训练,包括:
获取样本对,所述样本对包括待补全样本及匹配样本;其中,所述匹配样本作为所述待补全样本的补全内容来源,所述补全内容来源包括知识文本;
将所述待补全样本作为所述初始序列生成模型的输入,将所述匹配样本作为所述初始序列生成模型的输出,对所述初始序列生成模型进行训练。
5.根据权利要求1至4中任一项所述的方法,其特征在于,所述知识文本还包括满足预设条件的文本,所述预设条件包括包含省缺信息的同义表述用语和/或包含省缺信息的同类表述用语。
6.根据权利要求1至4中任一项所述的方法,其特征在于,所述联合编码结果还包括补全内容来源于所述目标文本时所确定的编码结果和/或补全内容来源于所述目标文本的历史上文文本时所确定的编码结果。
7.根据权利要求6所述的方法,其特征在于,所述将所述联合编码结果输入至所述预设模型中的解码端,得到补全结果,包括:
对于所述解码端中的每一输出节点,确定每一输出节点输出的解码结果来源于所述联合编码结果中每一编码结果时所对应的概率;
确定每一输出节点对应的所有概率中的最大值,根据每一输出节点对应的最大值所对应的解码结果,确定每一输出节点的解码结果,并由每一输出节点的解码结果构成所述补全结果。
8.根据权利要求7所述的方法,其特征在于,所述确定每一输出节点输出的解码结果来源于所述联合编码结果中每一编码结果时所对应的概率,包括:
根据每一输出节点的预设数量个前置输出节点中每一前置输出节点在输出解码结果时所确定的隐藏状态信息,计算每一输出节点输出的解码结果来源于所述联合编码结果中每一编码结果时所对应的概率。
9.一种文本补全装置,其特征在于,所述装置包括:
获取模块,用于获取待补全的目标文本;
编码模块,用于将所述目标文本输入至预设模型中的编码端,得到从所述编码端输出的联合编码结果,所述联合编码结果包括基于至少一种知识来源进行编码所获得的编码结果,所述至少一种知识来源包括与目标文本相匹配的知识文本,所述知识文本包括不存在省缺信息的文本;
解码模块,用于将所述联合编码结果输入至所述预设模型中的解码端,得到补全结果。
10.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至8中任一项所述的方法的步骤。
11.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至8中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110846851.8A CN113486167B (zh) | 2021-07-26 | 2021-07-26 | 文本补全方法、装置、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110846851.8A CN113486167B (zh) | 2021-07-26 | 2021-07-26 | 文本补全方法、装置、计算机设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113486167A CN113486167A (zh) | 2021-10-08 |
CN113486167B true CN113486167B (zh) | 2024-04-16 |
Family
ID=77942704
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110846851.8A Active CN113486167B (zh) | 2021-07-26 | 2021-07-26 | 文本补全方法、装置、计算机设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113486167B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117556022B (zh) * | 2023-12-18 | 2024-10-01 | 北京中关村科金技术有限公司 | 一种智能客服意图识别方法、装置及系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111078848A (zh) * | 2019-11-29 | 2020-04-28 | 支付宝(杭州)信息技术有限公司 | 一种用于对话机器人的输入提示方法及装置 |
AU2021100391A4 (en) * | 2021-01-22 | 2021-04-15 | GRG Banking Equipment Co.,Ltd | Natural Scene Text Recognition Method Based on Sequence Transformation Correction and Attention Mechanism |
CN112836064A (zh) * | 2021-02-24 | 2021-05-25 | 吉林大学 | 知识图谱补全方法、装置、存储介质及电子设备 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107783960B (zh) * | 2017-10-23 | 2021-07-23 | 百度在线网络技术(北京)有限公司 | 用于抽取信息的方法、装置和设备 |
-
2021
- 2021-07-26 CN CN202110846851.8A patent/CN113486167B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111078848A (zh) * | 2019-11-29 | 2020-04-28 | 支付宝(杭州)信息技术有限公司 | 一种用于对话机器人的输入提示方法及装置 |
AU2021100391A4 (en) * | 2021-01-22 | 2021-04-15 | GRG Banking Equipment Co.,Ltd | Natural Scene Text Recognition Method Based on Sequence Transformation Correction and Attention Mechanism |
CN112836064A (zh) * | 2021-02-24 | 2021-05-25 | 吉林大学 | 知识图谱补全方法、装置、存储介质及电子设备 |
Non-Patent Citations (2)
Title |
---|
Learning Symmetric Collaborative Dialogue Agents with Dynamic Knowledge Graph Embeddings;He He et al;《Computation and Language》;第1-18页 * |
基于结构与文本联合表示的知识图谱补全方法;鲍开放 等;《计算机工程》;第44卷(第7期);第205-211页 * |
Also Published As
Publication number | Publication date |
---|---|
CN113486167A (zh) | 2021-10-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Hsu et al. | Unsupervised learning of disentangled and interpretable representations from sequential data | |
US11941366B2 (en) | Context-based multi-turn dialogue method and storage medium | |
Norouzi et al. | Reward augmented maximum likelihood for neural structured prediction | |
US11663483B2 (en) | Latent space and text-based generative adversarial networks (LATEXT-GANs) for text generation | |
Ji et al. | A latent variable recurrent neural network for discourse relation language models | |
US9842106B2 (en) | Method and system for role dependent context sensitive spoken and textual language understanding with neural networks | |
CN111966800B (zh) | 情感对话生成方法、装置及情感对话模型训练方法、装置 | |
CN111198937A (zh) | 对话生成及装置、计算机可读存储介质、电子设备 | |
CN109766557B (zh) | 一种情感分析方法、装置、存储介质及终端设备 | |
CN111625634B (zh) | 词槽识别方法及装置、计算机可读存储介质、电子设备 | |
CN108563624A (zh) | 一种基于深度学习的自然语言生成方法 | |
CN112967739B (zh) | 一种基于长短期记忆网络的语音端点检测方法及系统 | |
CN114021524B (zh) | 一种情感识别方法、装置、设备及可读存储介质 | |
CN110599324A (zh) | 一种用于回款率预测的方法和装置 | |
Kim et al. | Exploring convolutional and recurrent neural networks in sequential labelling for dialogue topic tracking | |
CN115497465B (zh) | 语音交互方法、装置、电子设备和存储介质 | |
CN114490991A (zh) | 基于细粒度局部信息增强的对话结构感知对话方法及系统 | |
CN115062606B (zh) | 对话数据分析及其模型训练方法、及电子设备 | |
CN115495566A (zh) | 一种增强文本特征的对话生成方法和系统 | |
CN112347245A (zh) | 面向投融资领域机构的观点挖掘方法、装置和电子设备 | |
CN110717027A (zh) | 多轮智能问答方法、系统以及控制器和介质 | |
CN113486167B (zh) | 文本补全方法、装置、计算机设备和存储介质 | |
CN113177113B (zh) | 任务型对话模型预训练方法、装置、设备及存储介质 | |
CN111046157A (zh) | 一种基于平衡分布的通用英文人机对话生成方法和系统 | |
Morioka et al. | Multiscale recurrent neural network based language model. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |