CN111325000A - 语言生成方法、装置及电子设备 - Google Patents
语言生成方法、装置及电子设备 Download PDFInfo
- Publication number
- CN111325000A CN111325000A CN202010076479.2A CN202010076479A CN111325000A CN 111325000 A CN111325000 A CN 111325000A CN 202010076479 A CN202010076479 A CN 202010076479A CN 111325000 A CN111325000 A CN 111325000A
- Authority
- CN
- China
- Prior art keywords
- target segment
- vector
- target
- segment
- generate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 62
- 239000013598 vector Substances 0.000 claims abstract description 336
- 238000002372 labelling Methods 0.000 claims abstract description 17
- 238000012549 training Methods 0.000 claims description 43
- 230000015654 memory Effects 0.000 claims description 19
- 238000013519 translation Methods 0.000 claims description 4
- 230000000694 effects Effects 0.000 abstract description 9
- 238000003058 natural language processing Methods 0.000 abstract description 2
- 235000019580 granularity Nutrition 0.000 description 38
- 230000008569 process Effects 0.000 description 12
- 230000008451 emotion Effects 0.000 description 10
- 239000012634 fragment Substances 0.000 description 10
- 238000005516 engineering process Methods 0.000 description 7
- 238000012545 processing Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 238000001514 detection method Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 238000004590 computer program Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000003993 interaction Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000001151 other effect Effects 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/55—Rule-based translation
- G06F40/56—Natural language generation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提出一种语言生成方法、装置及电子设备,涉及自然语言处理技术领域。其中,该方法包括:利用预设编码器对输入序列进行编码处理,生成输入序列对应的隐状态向量;若待预测的第二目标片段的力度类别为短语,则利用N个解码器分别对已生成的第一目标片段向量、隐状态向量及第二目标片段对应的位置向量进行解码,生成N个第二目标片段;根据N个第二目标片段分别与第二目标标注片段的差异确定损失值;根据损失值对预设的编码器、预设的分类器及N个解码器进行参数更新,以采用更新后生成的语言生成模型进行语言生成。由此,通过这种语言生成方法,提升了对输入序列整体语义的学习效果,改善了语言生成模型的准确性。
Description
技术领域
本申请涉及计算机技术领域,尤其涉及自然语言处理技术领域,提出一种语言生成方法、装置及电子设备。
背景技术
在自然语言生成技术中,可以利用深度神经网络对大规模无监督数据进行自监督学习,生成预训练模型,进而在具体的语言生成任务中,基于该类任务的有监督训练数据对预训练模型进行参数微调,对预训练模型进行迁移学习,以生成该类任务的语言生成模型。
相关技术中,基于语言生成预训练/微调框架的语言生成技术依赖于语义表示建模,而诸如来自转换器的双向编码表示(Bidirectional Encoder Representation fromTransformers,简称BERT)模型等语义表示模型通常以单个字符为解码单位,由于单个字符包含的语义信息不够丰富,因此使得语义表示模型无法学习到完整文本的整体语义,从而使得语言生成模型的准确性较低。
发明内容
本申请提出的语言生成方法、装置及电子设备,用于解决相关技术中,基于语言生成预训练/微调框架的语言生成技术依赖于语义表示建模,而语义表示模型通常以单个字符为解码单位,由于单个字符包含的语义信息不够丰富,因此使得语义表示模型无法学习到完整文本的整体语义,从而使得语言生成模型的准确性较低的问题。
本申请一方面实施例提出的语言生成方法,包括:利用预设的编码器,对输入序列进行编码处理,生成所述输入序列对应的隐状态向量;利用预设的分类器,对所述隐状态向量及已生成的第一目标片段向量进行分类,以确定待预测的第二目标片段的粒度类别;若所述第二目标片段为短语,则利用N个解码器分别对所述第一目标片段向量、所述隐状态向量及所述第二目标片段对应的位置向量进行解码,生成N个第二目标片段,其中,N为大于1的整数;根据所述N个第二目标片段分别与第二目标标注片段的差异,确定损失值;根据所述损失值,对所述预设的编码器、预设的分类器及N个解码器进行参数更新,以采用更新后生成的语言生成模型进行语言生成。
本申请另一方面实施例提出的语言生成装置,包括:第一生成模块,用于利用预设的编码器,对输入序列进行编码处理,生成所述输入序列对应的隐状态向量;第一确定模块,用于利用预设的分类器,对所述隐状态向量及已生成的第一目标片段向量进行分类,以确定待预测的第二目标片段的粒度类别;第二生成模块,用于若所述第二目标片段为短语,则利用N个解码器分别对所述第一目标片段向量、所述隐状态向量及所述第二目标片段对应的位置向量进行解码,生成N个第二目标片段,其中,N为大于1的整数;第二确定模块,用于根据所述N个第二目标片段分别与第二目标标注片段的差异,确定损失值;语言生成模块,用于根据所述损失值,对所述预设的编码器、预设的分类器及N个解码器进行参数更新,以采用更新后生成的语言生成模型进行语言生成。
本申请再一方面实施例提出的电子设备,其包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如前所述的语言生成方法。
本申请又一方面实施例提出的存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,所述计算机指令用于使所述计算机执行如前所述的语言生成方法。
上述申请中的任一个实施例具有如下优点或有益效果:通过在语言生成模型预训练过程中,基于输入序列的原始基本字符单元灵活的构造出不同粒度的语言片段,并利用多个编码器对短语粒度的目标片段进行预测,从而提升了对输入序列整体语义的学习效果,改善了语言生成模型的准确性。因为采用了利用预设的编码器对输入序列进行编码处理,生成输入序列对应的隐状态向量,并利用预设的分类器对隐状态向量及已生成的第一目标片段向量进行分类,以确定待预测的第二目标片段的粒度类别,若第二目标片段为短语,则利用N个解码器分别对第一目标片段向量、隐状态向量及第二目标片段对应的位置向量进行解码,生成N个第二目标片段,其中,N为大于1的整数,之后根据N个第二目标片段分别与第二目标标注片段的差异,确定损失值,进而根据损失值对所述预设的编码器、预设的分类器及N个解码器进行参数更新,以采用更新后生成的语言生成模型进行语言生成的技术手段,所以克服了语义表示模型通常以单个字符为解码单位,无法学习到完整文本的整体语义,从而使得语言生成模型的准确性较低的问题,进而达到了提升对输入序列整体语义的学习效果,改善语言生成模型的准确性的技术效果。
上述可选方式所具有的其他效果将在下文中结合具体实施例加以说明。
附图说明
附图用于更好地理解本方案,不构成对本申请的限定。其中:
图1为本申请实施例所提供的一种语言生成方法的流程示意图;
图2为与字符对应的解码器对目标片段进行预测的示意图;
图3为本申请实施例所提供的一种引入占位向量对目标片段进行预测的示意图;
图4为本申请实施例所提供的另一种语言生成方法的流程示意图;
图5为本申请实施例提供的一种语言生成装置的结构示意图;
图6为本申请实施例提供的电子设备的结构示意图。
具体实施方式
以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
本申请实施例针对相关技术中,基于语言生成预训练/微调框架的语言生成技术依赖于语义表示建模,而语义表示模型通常以单个字符为解码单位,由于单个字符包含的语义信息不够丰富,因此使得语义表示模型无法学习到完整文本的整体语义,从而使得语言生成模型的准确性较低的问题,提出一种语言生成方法。
下面参考附图对本申请提供的语言生成方法、装置、电子设备及存储介质进行详细描述。
下面结合图1,对本申请实施例提供的语言生成方法进行详细说明。
图1为本申请实施例所提供的一种语言生成方法的流程示意图。
如图1所示,该语言生成方法,包括以下步骤:
步骤101,利用预设的编码器,对输入序列进行编码处理,生成所输入序列对应的隐状态向量。
需要说明的是,本申请实施例的语言生成方法,可以由本申请实施例的语言生成装置执行。本申请实施例的语言生成装置可以配置在任意电子设备中,如手机、电脑、个人数字助理、人机交互语音设备、智能机器人、可穿戴式设备中,本申请实施例对此不做限定。
其中,输入序列,是指用于对语言生成模型进行训练的训练样本,比如,可以为文本信息。
其中,输入序列对应的隐状态向量,是指输入序列的向量表示。
在本申请实施例中,预设的编码器可以是任意能够对自然语音进行向量表示的模型,本申请实施例对此不做限定。在对语言生成模型进行训练的过程中,可以预先构建训练样本集,并将训练样本集中的每个训练样本作为输入序列,分别输入预设的编码器,以利用预设的编码器对输入序列进行编码处理,生成输入序列对应的隐状态向量。
步骤102,利用预设的分类器,对隐状态向量及已生成的第一目标片段向量进行分类,以确定待预测的第二目标片段的粒度类别。
其中,预设的分类器,是指预先训练的、可以确定输入序列中待预测片段的粒度类别的分类模型。
其中,第一目标片段,是指利用本申请实施例的解码器根据输入序列的隐状态向量,已预测出的输入序列中的片段。
第二目标片段,是指当前需要进行预测的、输入序列中的片段。
其中,第二目标片段的粒度类别,可以包括字符、短语等类别。需要说明的是,在第二目标片段的粒度类别不同时,可以采用不同的解码器对第二目标片段进行预测。
在本申请实施例中,预设的分类器可以对输入序列对应的隐状态向量及已生成的第一目标片段向量进行分类处理,确定出待预测的第二目标片段的粒度类别并输出,比如,预设的分类器的输出为“0”时,表示待预测的第二目标片段的粒度类别为字符;预设的分类器的输出为“1”时,表示待预测的第二目标片段的粒度类别为短语,等等。需要说明的是,若当前是对输入序列进行首次预测,即第二目标片段为输入序列中的第一个片段,则已生成的第一目标片段向量可以为空,即预设的分类器可以根据输入序列对应的隐状态向量,确定待预测的第二目标片段的粒度类别。
进一步的,在确定第二目标片段的粒度类别为字符时,可以利用字符对应的解码器,对第二目标片段进行预测。即在本申请实施例一种可能的实现形式中,上述步骤102之后,还可以包括:
若第二目标片段为字符,则利用与字符对应的解码器对第一目标片段向量、隐状态向量及第一目标片段的位置向量进行解码,生成第二目标片段。
其中,第一目标片段的位置向量,是指第一目标片段在输入序列中的位置特征的向量表示。
举例来说,如图2所示,为与字符对应的解码器对目标片段进行预测的示意图。其中,n为输入序列中包含的字符数量,若第二目标片段为t2,则第一目标片段为t1,第一目标片段的位置向量是指t1在输入序列中的位置特征的向量表示;若第二目标片段为t3,则第一目标片段包括t1和t2,第一目标片段的位置向量是指t1和t2在输入序列中的位置特征的向量表示。
在本申请实施例中,可以预先训练与字符对应的解码器,从而在确定出第二目标片段为字符时,可以利用与字符对应的解码器对第一目标片段向量、隐状态向量即第一目标片段的位置向量进行解码,生成第二目标片段。需要说明的是,在第二目标片段为字符时,第二目标片段的生成依赖于输入序列的隐状态向量,以及在其之前已生成的所有第一目标片段向量与第一目标片段的位置向量。
举例来说,如图2所示,在第二目标片段为t1时,与字符对应的解码器可以对隐状态向量进行解码,生成第二目标片段t1;在第二目标片段为t2时,与字符对应的解码器可以对隐状态向量、第一目标片段t1的向量、第一目标片段t1的位置向量进行解码,生成第二目标片段t2;在第二目标片段为t3时,与字符对应的解码器可以对隐状态向量、第一目标片段t1和t2的向量、第一目标片段t1和t2的位置向量进行解码,生成第二目标片段t3;依此类推,依次可以预测出输入序列中的每个字符粒度的片段。
步骤103,若第二目标片段为短语,则利用N个解码器分别对第一目标片段向量、隐状态向量及第二目标片段对应的位置向量进行解码,生成N个第二目标片段,其中,N为大于1的整数。
需要说明的是,在第二目标片段为短语时,也是对第二目标片段中包括的每个字符进行预测,进而利用预测的每个字符生成目标片段。
其中,第二目标片段对应的位置向量,与当前预测的字符在第二目标片段中的位置有关。具体的,若当前预测的字符为第二目标片段中的首个字符,则第二目标片段对应的位置向量为第一目标片段的位置向量;若当前预测的字符不是第二目标片段中的首个字符,则第二目标片段对应的位置向量包括第一目标片段的位置向量及第二目标片段中位于当前预测的字符之前的各字符的位置向量。
在本申请实施例中,为提高短语预测的准确性,可以预先训练多个用于对短语进行预测的解码器,以从不同的粒度对短语进行预测。因此,在确定第二目标片段为短语时,可以利用N各解码器分别对第一目标片段向量、隐状态向量及第二目标片段对应的位置向量进行解码,其中,每个解码器可以均可以生成一个第二目标片段,从而生成N个第二目标片段。
作为一种可能的实现方式,可以采用两个解码器从两个粒度对短语粒度的第二目标片段分别进行预测。以下以第二目标片段中包括两个字符,N个解码器至少包括第一解码器和第二解码器的情形进行详细描述。即在本申请实施例一种可能的实现形式中,上述步骤103,可以包括:
利用第一解码器对第一目标片段向量、隐状态向量及第二目标片段对应的第一位置向量进行解码,生成第一位置的第一候选字符;
利用第一解码器,对第一目标片段向量、第一候选字符对应的向量、隐状态向量及第二目标片段对应的第二位置向量进行解码,生成第二位置的第一候选字符;
根据第一位置的第一候选字符及第二位置的第一候选字符,生成第一个第二目标片段;
利用第二解码器,对第一目标片段向量、隐状态向量及第一位置向量进行解码,生成第一位置的第二候选字符;
利用第二解码器,对第一目标片段向量、隐状态向量及第二位置向量进行解码,生成第二位置的第二候选字符;
根据第一位置的第二候选字符及第二位置的第二候选字符,生成第二个第二目标片段。
其中,第二目标片段对应的第一位置向量为第一目标片段的位置向量,第二目标片段对应的第二位置向量为第一目标片段的位置向量及第二目标片段中第一个字符的位置向量。
其中,第一位置,是指第二目标片段中的第一个字符在第二目标片段中的位置;第二位置,是指第二目标片段中的第二个字符在第二目标片段中的位置。
在本申请实施例中,第一解码器可以从字符粒度对短语粒度的第二目标片段进行预测,利用第一解码器预测第二目标片段中的第一个字符时,第一解码器可以对已生成的第一目标片段向量、隐状态向量及第一目标片段的位置向量进行解码,生成第二目标片段中第二位置的第一候选字符,即第二目标片段中的第一个字符。也就是说,利用第一解码器预测第二目标片段中的第一个字符时,依赖于输入序列的隐状态向量,以及在其之前已生成的所有第一目标片段向量与第一目标片段的位置向量。
相应的,对第二目标片段中的第一个字符预测完成之后,即可以利用第一解码器预测第二目标片段中的第二个字符,即可以利用第一解码器对已生成的第一目标片段向量、第一候选字符对应的向量、隐状态向量及第一目标片段的位置向量与第二目标片段中第一个字符的位置向量进行解码,生成第二目标片段中第二位置的第一候选字符,即第二目标片段中的第二个字符。也就是说,利用第一解码器预测第二目标片段中的第二个字符时,不仅依赖于输入序列的隐状态向量,以及在其之前已生成的所有第一目标片段向量与第一目标片段的位置向量,还依赖与第二目标片段中的第一个字符对应的向量及位置向量。
在利用第一解码器确定出第一位置的第一候选字符及第二位置的第一候选字符之后,即可以利用第一候选字符和第一候选字符,构成第一个第二目标片段。
在本申请实施例中,第二解码器可以从短语粒度对短语粒度的第二目标片段进行预测,利用第二解码器预测第二目标片段中的第一个字符时,第二解码器可以对已生成的第一目标片段向量、隐状态向量及第一目标片段的位置向量进行解码,生成第二目标片段中第二位置的第二候选字符,即第二目标片段中的第一个字符。也就是说,利用第二解码器预测第二目标片段中的第一个字符时,依赖于输入序列的隐状态向量,以及在其之前已生成的所有第一目标片段向量与第一目标片段的位置向量。
相应的,对第二目标片段中的第一个字符预测完成之后,即可以利用第二解码器预测第二目标片段中的第二个字符,即可以利用第二解码器对已生成的第一目标片段向量、隐状态向量及第一目标片段的位置向量与第二目标片段中第一个字符的位置向量进行解码,生成第二目标片段中第二位置的第二候选字符,即第二目标片段中的第二个字符。也就是说,利用第二解码器预测第二目标片段中的第二个字符时,不仅依赖于输入序列的隐状态向量,以及在其之前已生成的所有第一目标片段向量与第一目标片段的位置向量,还依赖与第二目标片段中的第一个字符的位置向量,但不依赖于第一个字符的向量,即不依赖与第一个字符的语义。
在利用第二解码器确定出第一位置的第二候选字符及第二位置的第二候选字符之后,即可以利用第一位置的第二候选字符和第二位置的第二候选字符,构成第二个第二目标片段。
进一步的,在对第二目标片段中的每个字符进行预测时,可以引入当前预测的字符的位置特征,以进一步提高预测的准确性。即在本申请实施例一种可能的实现形式中,上述步骤103之前,还可以包括:
获取预设的占位向量;
相应的,上述步骤103,可以包括:
利用N个解码器分别对预设的占位向量、第一目标片段向量、隐状态向量及第二目标片段对应的位置向量进行解码,生成N个第二目标片段。
需要说明的是,在对第二目标片段中的每个字符进行预测时,需要引入当前预测的字符的位置向量,以进一步提高对第二目标片段进行预测的准确性。但是,由于解码器的特性,在对字符进行预测之前,无法获知该字符的位置向量,从而可以在输入序列中的每个字符后引入预设的占位向量,从而可以根据占位向量及已生成的第一目标片段的位置向量,确定当前预测的字符的位置向量。下面以第二目标片段中包括两个字符,N个解码器包括第一解码器和第二解码器为例,进行具体说明。
在本申请实施例中,第一解码器可以从字符粒度对短语粒度的第二目标片段进行预测,利用第一解码器预测第二目标片段中的第一个字符时,第一解码器可以首先根据第二目标片段对应的预设的占位向量及第二目标片段对应的位置向量(即第一目标片段的位置向量),确定第二目标片段对应的第一位置向量(即第二目标片段中第一个字符的位置向量)与第二位置向量(即第二目标片段中第二个字符的位置向量),从而第一编码器之后可以对第一目标片段向量、隐状态向量及第二目标片段中第一个字符的位置向量进行解码,生成第一位置的第一候选字符;并利用第一解码器对第一目标片段向量、第一候选字符对应的向量、隐状态向量及第二目标片段中第二个字符的位置向量进行解码,生成第二位置的第一候选字符;进而根据第一位置的第一候选字符及第二位置的第一候选字符,生成第一个第二目标候选片段。
相应的,第二解码器可以从短语粒度对短语粒度的第二目标片段进行预测,利用第二解码器预测第二目标片段中的第一个字符时,第二解码器可以首先根据第二目标片段对应的预设的占位向量及第二目标片段对应的位置向量(即第一目标片段的位置向量),确定第二目标片段对应的第一位置向量(即第二目标片段中第一个字符的位置向量)与第二位置向量(即第二目标片段中第二个字符的位置向量),从而第二解码器之后可以对第一目标片段向量、隐状态向量及第二目标片段中第一个字符的位置向量进行解码,生成第一位置的第二候选字符;并利用第二解码器对第一目标片段向量、隐状态向量及第二目标片段中第二个字符的位置向量进行解码,生成第二位置的第二候选字符;进而根据第一位置的第二候选字符及第二位置的第二候选字符,生成第二个第二目标候选片段。
举例来说,如图3所示,其中[A]为预设的占位向量,若第二目标片段为t2和t3组成的短语,则对t2进行预测时,第一解码器可以首先根据第二目标片段对应的预设的占位向量及t1的位置向量,确定t2的位置向量与t3的位置向量,从而第一编码器之后可以对第一目标片段t1的向量、隐状态向量及t2的位置向量进行解码,生成t2位置的第一候选字符;并利用第一解码器对第一目标片段向量、第一候选字符t2的向量、隐状态向量及t3的位置向量进行解码,生成t3位置的第一候选字符;进而根据t2位置的第一候选字符及t3位置的第一候选字符,生成第一个第二目标候选片段。
相应的,第二解码器可以首先根据第二目标片段对应的预设的占位向量及t1的位置向量,确定t2的位置向量与t3的位置向量,从而第二解码器之后可以对第一目标片段向量、隐状态向量及t2的位置向量进行解码,生成t2位置的第二候选字符;并利用第二解码器对第一目标片段向量、隐状态向量及t3的位置向量进行解码,生成t3位置的第二候选字符;进而根据t2位置的第二候选字符及t3位置的第二候选字符,生成第二个第二目标候选片段。
步骤104,根据N个第二目标片段分别与第二目标标注片段的差异,确定损失值。
其中,第二目标标注片段,可以是第二目标片段在输入序列中的相应位置对应的原始语言片段,也可以是第二目标片段在输入序列中的相应位置对应的标注数据。
其中,第二目标片段与第二目标标注片段的差异,可以采用第二目标片段向量与第二目标标注片段向量之间的向量距离进行衡量,本申请实施例对此不做限定。
具体的,第二目标片段向量与第二目标标注片段向量之间的向量距离越大,则该第二目标片段与第二目标标注片段的差异越大,从而该第二目标片段对应的损失值越大;反之,第二目标片段向量与第二目标标注片段向量之间的向量距离越小,则该第二目标片段与第二目标标注片段的差异越小,从而该第二目标片段对应的损失值越小。
在本申请实施例中,由于第二目标标注片段可以用于指示最优的预测结果,因此,预测出的每个第二目标片段与第二目标标注片段的差异,可以用于衡量模型预测的准确度,从而可以利用N个第二目标片段分别与第二目标标注片段的差异,确定损失值。
可选的,可以将N个第二目标片段分别与第二目标标注片段的差异之和,确定为损失值。
步骤105,根据损失值,对预设的编码器、预设的分类器及N个解码器进行参数更新,以采用更新后生成的语言生成模型进行语言生成。
在本申请实施例中,确定出损失值之后,即可以将损失值进行反向传递,通过梯度下降优化算法对预设的编码器、预设的分类器及N个解码器进行参数更新,以提高预设的编码器、预设的分类器及N个解码器的性能,直至利用更新后的预设的编码器、预设的分类器及N各解码器对输入序列进行预测获得的损失值,小于损失值阈值,则可以确定更新后的模型符合性能要求,则可以利用更新后的预设的编码器、预设的分类器及N个解码器,生成语言生成模型,以进行语言生成。
根据本申请实施例的技术方案,通过利用预设的编码器对输入序列进行编码处理,生成输入序列对应的隐状态向量,并利用预设的分类器对隐状态向量及已生成的第一目标片段向量进行分类,以确定待预测的第二目标片段的粒度类别,若第二目标片段为短语,则利用N个解码器分别对第一目标片段向量、隐状态向量及第二目标片段对应的位置向量进行解码,生成N个第二目标片段,其中,N为大于1的整数,之后根据N个第二目标片段分别与第二目标标注片段的差异,确定损失值,进而根据损失值对所述预设的编码器、预设的分类器及N个解码器进行参数更新,以采用更新后生成的语言生成模型进行语言生成。由此,通过在语言生成模型预训练过程中,基于输入序列的原始基本字符单元灵活的构造出不同粒度的语言片段,并利用多个编码器对短语粒度的目标片段进行预测,从而提升了对输入序列整体语义的学习效果,改善了语言生成模型的准确性。
在本申请一种可能的实现形式中,可以利用预设的权值对N个第二目标片段分别与第二目标标注片段的差异进行融合,生成损失值,以进一步提高损失值的可靠性。
下面结合图4,对本申请实施例提供的语言生成方法进行进一步说明。
图4为本申请实施例所提供的另一种语言生成方法的流程示意图。
如图4所示,该语言生成方法,包括以下步骤:
步骤201,利用预设的编码器,对输入序列进行编码处理,生成输入序列对应的隐状态向量。
步骤202,利用预设的分类器,对隐状态向量及已生成的第一目标片段向量进行分类,以确定待预测的第二目标片段的粒度类别。
步骤203,若第二目标片段为短语,则利用N个解码器分别对第一目标片段向量、隐状态向量及第二目标片段对应的位置向量进行解码,生成N个第二目标片段,其中,N为大于1的整数。
上述步骤201-203的具体实现过程及原理,可以参照上述实施例的详细描述,此处不再赘述。
步骤204,根据各第二目标片段与第二目标标注片段的差异,确定各损失参考值。
在本申请实施例中,可以采用第二目标片段向量与第二目标标注片段向量之间的向量距离,衡量第二目标片段与第二目标标注片段的差异,本申请实施例对此不做限定。
具体的,第二目标片段向量与第二目标标注片段向量之间的向量距离越大,则该第二目标片段与第二目标标注片段的差异越大,从而该第二目标片段对应的损失参考值越大;反之,第二目标片段向量与第二目标标注片段向量之间的向量距离越小,则该第二目标片段与第二目标标注片段的差异越小,从而该第二目标片段对应的损失参考值越小。
步骤205,根据各损失参考值及预设的权值,确定损失值。
在本申请实施例中,由于每个解码器在模型训练过程中所起的作用可能不同,因此在对各解码器的预测结果的损失参考值进行融合时,可以对不同的解码器预设不同的权值,从而使得最终获得的损失值不仅融合了各解码器预测结果的损失参考值,而且融合了各解码器在模型训练过程中的重要程度,从而使得最终确定出的损失值的可靠性更高,更新后的模型性能也更好,
作为一种可能的实现方式,确定出每个第二目标片段对应的损失参考值之后,可以根据各损失参考值对应的预设的权值,确定出各损失参考值的加权和,进而将各损失参考值的加权和,确定为损失值。
举例来说,N个解码器包括第一解码器和第二解码器,第一解码器对应的预设权值为λ,第二解码器对应的权值为1-λ,第一解码器预测的第二目标片段对应的损失参考值为Loss1,第二解码器预测的第二目标片段对应的损失参考值为Loss2,则确定的损失值为Losstotal=λLoss1+(1-λ)Loss2。
步骤206,根据损失值,对预设的编码器、预设的分类器及N个解码器进行参数更新,以采用更新后生成的语言生成模型进行语言生成。
在本申请实施例中,确定出损失值之后,即可以将损失值进行反向传递,通过梯度下降优化算法对预设的编码器、预设的分类器及N个解码器进行参数更新,以提高预设的编码器、预设的分类器及N个解码器的性能,直至利用更新后的预设的编码器、预设的分类器及N各解码器对输入序列进行预测获得的损失值,小于损失值阈值,则可以确定更新后的模型符合性能要求,则可以利用更新后的预设的编码器、预设的分类器及N个解码器,生成语言生成模型,以进行语言生成。
进一步的,对于不同的语言生成场景,可以利用不同的有监督样本对语言生成模型的参数进行调整,以生成适合与该语言生成场景的语言生成模块。即在本申请实施例一种可能的实现形式中,上述步骤206,可以包括:
根据设定语言生成场景,获取对应的有监督训练样本;
采用有监督训练样本,对更新后生成的语言生成模型进行参数调整;
根据参数调整后的语言生成模型,在设定语言生成场景下进行语言生成。
其中,设定语言生成场景,可以包括对话生成、机器翻译、问答场景和摘要生成中的一个或多个组合。
在本申请实施例中,由于不同的语言生成场景对语言生成模型的性能需求不同,因此可以对不同的语言生成场景,设置对应的有监督训练样本,以根据有监督训练样本,对更新后的语言生成模型进行微调。因此,在本申请实施例中,对语言生成模型更新之后,可以根据当前的设定语言生成场景,获取对应的有监督训练样本,并将有监督训练样本输入更新后的语言生成模型,若更新后的语言生成模型对有监督训练样本的预测结果,与有监督训练样本的标注数据的差异较大,则可以对更新后生成的语言生成模型进行参数调整,直至进行参数调整后的语言生成模型对有监督训练样本的预测结果符合性能需求,则可以利用参数调整后的语言生成模型进行语言生成。
根据本申请实施例的技术方案,通过利用预设的编码器对输入序列进行编码处理,生成输入序列对应的隐状态向量,并利用预设的分类器对隐状态向量及已生成的第一目标片段向量进行分类,以确定待预测的第二目标片段的粒度类别,若第二目标片段为短语,则利用N个解码器分别对第一目标片段向量、隐状态向量及第二目标片段对应的位置向量进行解码,生成N个第二目标片段,其中,N为大于1的整数,之后根据各第二目标片段与第二目标标注片段的差异,确定各损失参考值,以及根据各损失参考值及预设的权值,确定损失值,进而根据损失值对所述预设的编码器、预设的分类器及N个解码器进行参数更新,以采用更新后生成的语言生成模型进行语言生成。由此,通过在语言生成模型预训练过程中,基于输入序列的原始基本字符单元灵活的构造出不同粒度的语言片段,并利用多个编码器对短语粒度的目标片段进行预测,从而提升了对输入序列整体语义的学习效果,而且进一步提高了语言生成模型的准确性和通用性。
为了实现上述实施例,本申请还提出一种语言生成装置。
图5为本申请实施例提供的一种语言生成装置的结构示意图。
如图5所示,该语言生成装置30,包括:
第一生成模块31,用于利用预设的编码器,对输入序列进行编码处理,生成输入序列对应的隐状态向量;
第一确定模块32,用于利用预设的分类器,对隐状态向量及已生成的第一目标片段向量进行分类,以确定待预测的第二目标片段的粒度类别;
第二生成模块33,用于若第二目标片段为短语,则利用N个解码器分别对第一目标片段向量、隐状态向量及第二目标片段对应的位置向量进行解码,生成N个第二目标片段,其中,N为大于1的整数;
第二确定模块34,用于根据N个第二目标片段分别与第二目标标注片段的差异,确定损失值;
语言生成模块35,用于根据损失值,对预设的编码器、预设的分类器及N个解码器进行参数更新,以采用更新后生成的语言生成模型进行语言生成。
在实际使用时,本申请实施例提供的语言生成装置,可以被配置在任意电子设备中,以执行前述语言生成方法。
根据本申请实施例的技术方案,通过利用预设的编码器对输入序列进行编码处理,生成输入序列对应的隐状态向量,并利用预设的分类器对隐状态向量及已生成的第一目标片段向量进行分类,以确定待预测的第二目标片段的粒度类别,若第二目标片段为短语,则利用N个解码器分别对第一目标片段向量、隐状态向量及第二目标片段对应的位置向量进行解码,生成N个第二目标片段,其中,N为大于1的整数,之后根据N个第二目标片段分别与第二目标标注片段的差异,确定损失值,进而根据损失值对所述预设的编码器、预设的分类器及N个解码器进行参数更新,以采用更新后生成的语言生成模型进行语言生成。由此,通过在语言生成模型预训练过程中,基于输入序列的原始基本字符单元灵活的构造出不同粒度的语言片段,并利用多个编码器对短语粒度的目标片段进行预测,从而提升了对输入序列整体语义的学习效果,改善了语言生成模型的准确性。
在本申请一种可能的实现形式中,上述第二目标片段中包含两个字符,上述N个解码器至少包括第一解码器和第二解码器;
相应的,上述第二生成模块33,具体用于:
利用第一解码器对第一目标片段向量、隐状态向量及第二目标片段对应的第一位置向量进行解码,生成第一位置的第一候选字符;
利用第一解码器,对第一目标片段向量、第一候选字符对应的向量、隐状态向量及第二目标片段对应的第二位置向量进行解码,生成第二位置的第一候选字符;
根据第一位置的第一候选字符及第二位置的第一候选字符,生成第一个第二目标片段;
利用第二解码器,对第一目标片段向量、隐状态向量及第一位置向量进行解码,生成第一位置的第二候选字符;
利用第二解码器,对第一目标片段向量、隐状态向量及第二位置向量进行解码,生成第二位置的第二候选字符;
根据第一位置的第二候选字符及第二位置的第二候选字符,生成第二个第二目标片段。
进一步的,在本申请另一种可能的实现形式中,上述第二目标片段对应的第一位置向量为第一目标片段的位置向量,第二目标片段对应的第二位置向量为第一目标片段的位置向量及第二目标片段中第一个字符的位置向量。
进一步的,在本申请再一种可能的实现形式中,上述第二目标片段对应的第一位置向量为第二目标片段中第一个字符的位置向量,第二目标片段对应的第二位置向量为第二目标片段中第二个字符的位置向量;
相应的,上述语言生成装置30,还包括:
获取模块,用于获取预设的占位向量;
相应的,上述第二生成模块33,还用于:
利用N个解码器分别对预设的占位向量、第一目标片段向量、隐状态向量及第二目标片段对应的位置向量进行解码,生成N个第二目标片段。
进一步的,在本申请又一种可能的实现形式中,上述语言生成装置30,还包括:
第三生成模块,用于若第二目标片段为字符,则利用与字符对应的解码器对第一目标片段向量、隐状态向量及第一目标片段的位置向量进行解码,生成第二目标片段。
在本申请一种可能的实现形式中,上述第二确定模块34,具体用于:
根据各第二目标片段与第二目标标注片段的差异,确定各损失参考值;
根据各损失参考值及预设的权值,确定损失值。
在本申请一种可能的实现形式中,上述语言生成模块35,具体用于:
根据设定语言生成场景,获取对应的有监督训练样本;
采用有监督训练样本,对更新后生成的语言生成模型进行参数调整;
根据参数调整后的语言生成模型,在设定语言生成场景下进行语言生成。
进一步的,在本申请另一种可能的实现形式中,上述设定语言生成场景包括:对话生成、机器翻译、问答场景和摘要生成中的一个或多个组合。
需要说明的是,前述对图1、图4所示的语言生成方法实施例的解释说明也适用于该实施例的语言生成装置30,此处不再赘述。
根据本申请实施例的技术方案,通过利用预设的编码器对输入序列进行编码处理,生成输入序列对应的隐状态向量,并利用预设的分类器对隐状态向量及已生成的第一目标片段向量进行分类,以确定待预测的第二目标片段的粒度类别,若第二目标片段为短语,则利用N个解码器分别对第一目标片段向量、隐状态向量及第二目标片段对应的位置向量进行解码,生成N个第二目标片段,其中,N为大于1的整数,之后根据各第二目标片段与第二目标标注片段的差异,确定各损失参考值,以及根据各损失参考值及预设的权值,确定损失值,进而根据损失值对所述预设的编码器、预设的分类器及N个解码器进行参数更新,以采用更新后生成的语言生成模型进行语言生成。由此,通过在语言生成模型预训练过程中,基于输入序列的原始基本字符单元灵活的构造出不同粒度的语言片段,并利用多个编码器对短语粒度的目标片段进行预测,从而提升了对输入序列整体语义的学习效果,而且进一步提高了语言生成模型的准确性和通用性。
根据本申请的实施例,本申请还提供了一种电子设备和一种可读存储介质。
如图6所示,是根据本申请实施例的语言生成方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本申请的实现。
如图6所示,该电子设备包括:一个或多个处理器401、存储器402,以及用于连接各部件的接口,包括高速接口和低速接口。各个部件利用不同的总线互相连接,并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理,包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如,耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中,若需要,可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样,可以连接多个电子设备,各个电子设备提供部分必要的操作(例如,作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图6中以一个处理器401为例。
存储器402即为本申请所提供的非瞬时计算机可读存储介质。其中,所述存储器存储有可由至少一个处理器执行的指令,以使所述至少一个处理器执行本申请所提供的语言生成方法。本申请的非瞬时计算机可读存储介质存储计算机指令,该计算机指令用于使计算机执行本申请所提供的语言生成方法。
存储器402作为一种非瞬时计算机可读存储介质,可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块,如本申请实施例中的语言生成方法对应的程序指令/模块(例如,附图5所示的第一生成模块31、第一确定模块32、第二生成模块33、第二确定模块34及语言生成模块35)。处理器401通过运行存储在存储器402中的非瞬时软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例中的语言生成方法。
存储器402可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据语言生成方法的电子设备的使用所创建的数据等。此外,存储器602可以包括高速随机存取存储器,还可以包括非瞬时存储器,例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中,存储器402可选包括相对于处理器401远程设置的存储器,这些远程存储器可以通过网络连接至语言生成方法的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
语言生成方法的电子设备还可以包括:输入装置403和输出装置404。处理器401、存储器402、输入装置403和输出装置404可以通过总线或者其他方式连接,图6中以通过总线连接为例。
输入装置403可接收输入的数字或字符信息,以及产生与语言生成方法的电子设备的用户设置以及功能控制有关的键信号输入,例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置404可以包括显示设备、辅助照明装置(例如,LED)和触觉反馈装置(例如,振动电机)等。该显示设备可以包括但不限于,液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中,显示设备可以是触摸屏。
此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令,并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(PLD)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。
根据本申请实施例的技术方案,通过基于给定的种子情感词典,对训练语料集中每个训练语料进行情感知识检测,确定每个训练语料包含的检测情感词及检测词对,并按照预设的掩码处理规则,将每个训练语料中的检测情感词及检测词对进行掩码处理,生成掩码后的语料,之后利用预设的编码器,对掩码后的语料进行编码处理,生成每个训练语料对应的特征向量,进而利用预设的解码器,对特征向量进行解码处理,确定每个训练语料中包含的预测情感词及预测词对,以根据预测情感词与检测情感词的差异、及预测词对与所述检测词对的差异,对预设的编码器及预设的解码器进行更新。由此,通过在模型预训练过程中融入了统计计算的情感知识,从而使得预训练模型可以对情感分析方向的数据进行更好的表示,提高了情感分析的效果。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本申请公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本申请保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等,均应包含在本申请保护范围之内。
Claims (18)
1.一种语言生成方法,其特征在于,包括:
利用预设的编码器,对输入序列进行编码处理,生成所述输入序列对应的隐状态向量;
利用预设的分类器,对所述隐状态向量及已生成的第一目标片段向量进行分类,以确定待预测的第二目标片段的粒度类别;
若所述第二目标片段为短语,则利用N个解码器分别对所述第一目标片段向量、所述隐状态向量及所述第二目标片段对应的位置向量进行解码,生成N个第二目标片段,其中,N为大于1的整数;
根据所述N个第二目标片段分别与第二目标标注片段的差异,确定损失值;
根据所述损失值,对所述预设的编码器、预设的分类器及N个解码器进行参数更新,以采用更新后生成的语言生成模型进行语言生成。
2.如权利要求1所述的方法,其特征在于,所述第二目标片段中包含两个字符,所述N个解码器至少包括第一解码器和第二解码器;
所述利用N个解码器分别对所述第一目标片段向量、所述隐状态向量及所述第二目标片段对应的位置向量进行解码,生成N个第二目标片段,包括:
利用所述第一解码器对所述第一目标片段向量、所述隐状态向量及所述第二目标片段对应的第一位置向量进行解码,生成所述第一位置的第一候选字符;
利用所述第一解码器,对所述第一目标片段向量、所述第一候选字符对应的向量、所述隐状态向量及所述第二目标片段对应的第二位置向量进行解码,生成所述第二位置的第一候选字符;
根据所述第一位置的第一候选字符及所述第二位置的第一候选字符,生成第一个第二目标片段;
利用所述第二解码器,对所述第一目标片段向量、所述隐状态向量及所述第一位置向量进行解码,生成所述第一位置的第二候选字符;
利用所述第二解码器,对所述第一目标片段向量、所述隐状态向量及所述第二位置向量进行解码,生成所述第二位置的第二候选字符;
根据所述第一位置的第二候选字符及所述第二位置的第二候选字符,生成第二个第二目标片段。
3.如权利要求2所述的方法,其特征在于,所述第二目标片段对应的第一位置向量为所述第一目标片段的位置向量,所述第二目标片段对应的第二位置向量为所述第一目标片段的位置向量及所述第二目标片段中第一个字符的位置向量。
4.如权利要求2所述的方法,其特征在于,所述第二目标片段对应的第一位置向量为所述第二目标片段中第一个字符的位置向量,所述第二目标片段对应的第二位置向量为所述第二目标片段中第二个字符的位置向量;
所述生成N个第二目标片段之前,还包括:
获取预设的占位向量;
所述生成N个第二目标片段,包括:
利用N个解码器分别对所述预设的占位向量、所述第一目标片段向量、所述隐状态向量及所述第二目标片段对应的位置向量进行解码,生成N个第二目标片段。
5.如权利要求1-4任一所述的方法,其特征在于,所述确定待预测的第二目标片段的粒度类别之后,还包括:
若所述第二目标片段为字符,则利用与所述字符对应的解码器对所述第一目标片段向量、所述隐状态向量及所述第一目标片段的位置向量进行解码,生成所述第二目标片段。
6.如权利要求1-4任一所述的方法,其特征在于,所述根据所述N个第二目标片段分别与第二目标标注片段的差异,确定损失值,包括:
根据各第二目标片段与所述第二目标标注片段的差异,确定各损失参考值;
根据各损失参考值及预设的权值,确定所述损失值。
7.根据权利要求6所述的方法,其特征在于,所述采用更新后生成的语言生成模型进行语言生成,包括:
根据设定语言生成场景,获取对应的有监督训练样本;
采用所述有监督训练样本,对所述更新后生成的语言生成模型进行参数调整;
根据参数调整后的语言生成模型,在所述设定语言生成场景下进行语言生成。
8.根据权利要求7所述的方法,其特征在于,所述设定语言生成场景包括:对话生成、机器翻译、问答场景和摘要生成中的一个或多个组合。
9.一种语言生成装置,其特征在于,包括:
第一生成模块,用于利用预设的编码器,对输入序列进行编码处理,生成所述输入序列对应的隐状态向量;
第一确定模块,用于利用预设的分类器,对所述隐状态向量及已生成的第一目标片段向量进行分类,以确定待预测的第二目标片段的粒度类别;
第二生成模块,用于若所述第二目标片段为短语,则利用N个解码器分别对所述第一目标片段向量、所述隐状态向量及所述第二目标片段对应的位置向量进行解码,生成N个第二目标片段,其中,N为大于1的整数;
第二确定模块,用于根据所述N个第二目标片段分别与第二目标标注片段的差异,确定损失值;
语言生成模块,用于根据所述损失值,对所述预设的编码器、预设的分类器及N个解码器进行参数更新,以采用更新后生成的语言生成模型进行语言生成。
10.如权利要求9所述的装置,其特征在于,所述第二目标片段中包含两个字符,所述N个解码器至少包括第一解码器和第二解码器;
所述第二生成模块,具体用于:
利用所述第一解码器对所述第一目标片段向量、所述隐状态向量及所述第二目标片段对应的第一位置向量进行解码,生成所述第一位置的第一候选字符;
利用所述第一解码器,对所述第一目标片段向量、所述第一候选字符对应的向量、所述隐状态向量及所述第二目标片段对应的第二位置向量进行解码,生成所述第二位置的第一候选字符;
根据所述第一位置的第一候选字符及所述第二位置的第一候选字符,生成第一个第二目标片段;
利用所述第二解码器,对所述第一目标片段向量、所述隐状态向量及所述第一位置向量进行解码,生成所述第一位置的第二候选字符;
利用所述第二解码器,对所述第一目标片段向量、所述隐状态向量及所述第二位置向量进行解码,生成所述第二位置的第二候选字符;
根据所述第一位置的第二候选字符及所述第二位置的第二候选字符,生成第二个第二目标片段。
11.如权利要求10所述的装置,其特征在于,所述第二目标片段对应的第一位置向量为所述第一目标片段的位置向量,所述第二目标片段对应的第二位置向量为所述第一目标片段的位置向量及所述第二目标片段中第一个字符的位置向量。
12.如权利要求10所述的装置,其特征在于,所述第二目标片段对应的第一位置向量为所述第二目标片段中第一个字符的位置向量,所述第二目标片段对应的第二位置向量为所述第二目标片段中第二个字符的位置向量;
所述装置,还包括:
获取模块,用于获取预设的占位向量;
所述第二生成模块,还用于:
利用N个解码器分别对所述预设的占位向量、所述第一目标片段向量、所述隐状态向量及所述第二目标片段对应的位置向量进行解码,生成N个第二目标片段。
13.如权利要求9-12任一所述的装置,其特征在于,还包括:
第三生成模块,用于若所述第二目标片段为字符,则利用与所述字符对应的解码器对所述第一目标片段向量、所述隐状态向量及所述第一目标片段的位置向量进行解码,生成所述第二目标片段。
14.如权利要求9-12任一所述的装置,其特征在于,所述第二确定模块,具体用于:
根据各第二目标片段与所述第二目标标注片段的差异,确定各损失参考值;
根据各损失参考值及预设的权值,确定所述损失值。
15.根据权利要求14所述的装置,其特征在于,所述语言生成模块,具体用于:
根据设定语言生成场景,获取对应的有监督训练样本;
采用所述有监督训练样本,对所述更新后生成的语言生成模型进行参数调整;
根据参数调整后的语言生成模型,在所述设定语言生成场景下进行语言生成。
16.根据权利要求15所述的装置,其特征在于,所述设定语言生成场景包括:对话生成、机器翻译、问答场景和摘要生成中的一个或多个组合。
17.一种电子设备,其特征在于,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-8中任一项所述的方法。
18.一种存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,所述计算机指令用于使所述计算机执行权利要求1-8中任一项所述的方法。
Priority Applications (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010076479.2A CN111325000B (zh) | 2020-01-23 | 2020-01-23 | 语言生成方法、装置及电子设备 |
US17/031,569 US11562150B2 (en) | 2020-01-23 | 2020-09-24 | Language generation method and apparatus, electronic device and storage medium |
EP20216667.4A EP3855341A1 (en) | 2020-01-23 | 2020-12-22 | Language generation method and apparatus, electronic device and storage medium |
JP2020215548A JP7121791B2 (ja) | 2020-01-23 | 2020-12-24 | 言語生成方法、装置及び電子機器 |
KR1020210009148A KR102517927B1 (ko) | 2020-01-23 | 2021-01-22 | 언어 생성 방법, 장치 및 전자 기기 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010076479.2A CN111325000B (zh) | 2020-01-23 | 2020-01-23 | 语言生成方法、装置及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111325000A true CN111325000A (zh) | 2020-06-23 |
CN111325000B CN111325000B (zh) | 2021-01-26 |
Family
ID=71167031
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010076479.2A Active CN111325000B (zh) | 2020-01-23 | 2020-01-23 | 语言生成方法、装置及电子设备 |
Country Status (5)
Country | Link |
---|---|
US (1) | US11562150B2 (zh) |
EP (1) | EP3855341A1 (zh) |
JP (1) | JP7121791B2 (zh) |
KR (1) | KR102517927B1 (zh) |
CN (1) | CN111325000B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111539226A (zh) * | 2020-06-25 | 2020-08-14 | 北京百度网讯科技有限公司 | 语义理解框架结构的搜索方法和装置 |
CN111539225A (zh) * | 2020-06-25 | 2020-08-14 | 北京百度网讯科技有限公司 | 语义理解框架结构的搜索方法和装置 |
CN114218936A (zh) * | 2021-09-29 | 2022-03-22 | 广东南方新媒体科技有限公司 | 一种媒体领域的优质评论自动生成算法 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2012120888A1 (ja) * | 2011-03-09 | 2012-09-13 | 日本電気株式会社 | 映像符号化装置、映像復号装置、映像符号化方法及び映像復号方法 |
US20160170972A1 (en) * | 2014-12-16 | 2016-06-16 | International Business Machines Corporation | Generating natural language text sentences as test cases for nlp annotators with combinatorial test design |
CN106462579A (zh) * | 2014-10-15 | 2017-02-22 | 微软技术许可有限责任公司 | 为选定上下文构造词典 |
CN107705784A (zh) * | 2017-09-28 | 2018-02-16 | 百度在线网络技术(北京)有限公司 | 文本正则化模型训练方法和装置、文本正则化方法和装置 |
CN107844480A (zh) * | 2017-10-21 | 2018-03-27 | 科大讯飞股份有限公司 | 将书面文本转换为口语文本的方法及系统 |
CN109086408A (zh) * | 2018-08-02 | 2018-12-25 | 腾讯科技(深圳)有限公司 | 文本生成方法、装置、电子设备及计算机可读介质 |
CN109858032A (zh) * | 2019-02-14 | 2019-06-07 | 程淑玉 | 融合Attention机制的多粒度句子交互自然语言推理模型 |
CN110209801A (zh) * | 2019-05-15 | 2019-09-06 | 华南理工大学 | 一种基于自注意力网络的文本摘要自动生成方法 |
CN110619034A (zh) * | 2019-06-27 | 2019-12-27 | 中山大学 | 基于Transformer模型的文本关键词生成方法 |
CN110717431A (zh) * | 2019-09-27 | 2020-01-21 | 华侨大学 | 一种结合多视角注意力机制的细粒度视觉问答方法 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2488963A1 (en) * | 2009-10-15 | 2012-08-22 | Rogers Communications Inc. | System and method for phrase identification |
JP6870076B2 (ja) | 2016-09-26 | 2021-05-12 | グーグル エルエルシーGoogle LLC | ニューラル機械翻訳システム |
US11182566B2 (en) * | 2016-10-03 | 2021-11-23 | Google Llc | Processing text sequences using neural networks |
JP6791780B2 (ja) | 2017-02-16 | 2020-11-25 | 株式会社日立製作所 | 文章作成装置 |
US10380236B1 (en) | 2017-09-22 | 2019-08-13 | Amazon Technologies, Inc. | Machine learning system for annotating unstructured text |
JP6603828B1 (ja) * | 2018-03-02 | 2019-11-06 | 日本電信電話株式会社 | フレーズ生成モデル学習装置、フレーズ生成装置、方法、及びプログラム |
CN110209817B (zh) | 2019-05-31 | 2023-06-09 | 安徽省泰岳祥升软件有限公司 | 文本处理模型的训练方法、装置和文本处理方法 |
US11875116B2 (en) * | 2019-12-20 | 2024-01-16 | Intuit Inc. | Machine learning models with improved semantic awareness |
-
2020
- 2020-01-23 CN CN202010076479.2A patent/CN111325000B/zh active Active
- 2020-09-24 US US17/031,569 patent/US11562150B2/en active Active
- 2020-12-22 EP EP20216667.4A patent/EP3855341A1/en not_active Withdrawn
- 2020-12-24 JP JP2020215548A patent/JP7121791B2/ja active Active
-
2021
- 2021-01-22 KR KR1020210009148A patent/KR102517927B1/ko active IP Right Grant
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2012120888A1 (ja) * | 2011-03-09 | 2012-09-13 | 日本電気株式会社 | 映像符号化装置、映像復号装置、映像符号化方法及び映像復号方法 |
CN106462579A (zh) * | 2014-10-15 | 2017-02-22 | 微软技术许可有限责任公司 | 为选定上下文构造词典 |
US20160170972A1 (en) * | 2014-12-16 | 2016-06-16 | International Business Machines Corporation | Generating natural language text sentences as test cases for nlp annotators with combinatorial test design |
CN107705784A (zh) * | 2017-09-28 | 2018-02-16 | 百度在线网络技术(北京)有限公司 | 文本正则化模型训练方法和装置、文本正则化方法和装置 |
CN107844480A (zh) * | 2017-10-21 | 2018-03-27 | 科大讯飞股份有限公司 | 将书面文本转换为口语文本的方法及系统 |
CN109086408A (zh) * | 2018-08-02 | 2018-12-25 | 腾讯科技(深圳)有限公司 | 文本生成方法、装置、电子设备及计算机可读介质 |
CN109858032A (zh) * | 2019-02-14 | 2019-06-07 | 程淑玉 | 融合Attention机制的多粒度句子交互自然语言推理模型 |
CN110209801A (zh) * | 2019-05-15 | 2019-09-06 | 华南理工大学 | 一种基于自注意力网络的文本摘要自动生成方法 |
CN110619034A (zh) * | 2019-06-27 | 2019-12-27 | 中山大学 | 基于Transformer模型的文本关键词生成方法 |
CN110717431A (zh) * | 2019-09-27 | 2020-01-21 | 华侨大学 | 一种结合多视角注意力机制的细粒度视觉问答方法 |
Non-Patent Citations (6)
Title |
---|
AYNAZ TAHERI1等: "Sequence-to-sequence modeling for graph representation learning", 《APPLIED NETWORK SCIENCE》 * |
JACOB DEVLIN等: "BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding", 《HTTPS://ARXIV.ORG/ABS/1810.04805》 * |
MASSIMO LUSETTI等: "Encoder-Decoder Methods for Text Normalization", 《PROCEEDINGS OF THE FIFTH WORKSHOP ON NLP FOR SIMILAR LANGUAGES》 * |
XINYUN CHEN等: "EXECUTION-GUIDED NEURAL PROGRAM SYNTHESIS", 《ICLR 2019 CONFERENCE》 * |
李湘东等: "一种基于加权LDA模型和多粒度的文本特征选择方法", 《现代图书情报技术》 * |
谢正文等: "基于增强问题重要性表示的答案选择算法研究", 《四川大学学报(自然科学版)》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111539226A (zh) * | 2020-06-25 | 2020-08-14 | 北京百度网讯科技有限公司 | 语义理解框架结构的搜索方法和装置 |
CN111539225A (zh) * | 2020-06-25 | 2020-08-14 | 北京百度网讯科技有限公司 | 语义理解框架结构的搜索方法和装置 |
CN114218936A (zh) * | 2021-09-29 | 2022-03-22 | 广东南方新媒体科技有限公司 | 一种媒体领域的优质评论自动生成算法 |
Also Published As
Publication number | Publication date |
---|---|
EP3855341A1 (en) | 2021-07-28 |
CN111325000B (zh) | 2021-01-26 |
KR20210095811A (ko) | 2021-08-03 |
US11562150B2 (en) | 2023-01-24 |
US20210232775A1 (en) | 2021-07-29 |
JP2021117989A (ja) | 2021-08-10 |
KR102517927B1 (ko) | 2023-04-04 |
JP7121791B2 (ja) | 2022-08-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111143561B (zh) | 意图识别模型训练方法、装置及电子设备 | |
CN111241245B (zh) | 人机交互处理方法、装置及电子设备 | |
CN111079945B (zh) | 端到端模型的训练方法及装置 | |
CN111325000B (zh) | 语言生成方法、装置及电子设备 | |
CN110797005B (zh) | 韵律预测方法、装置、设备和介质 | |
CN110807331B (zh) | 一种多音字读音预测方法、装置和电子设备 | |
CN111259671A (zh) | 文本实体的语义描述处理方法、装置及设备 | |
CN110782871B (zh) | 一种韵律停顿预测方法、装置以及电子设备 | |
CN112489637A (zh) | 语音识别方法和装置 | |
CN111667056A (zh) | 用于搜索模型结构的方法和装置 | |
CN111144507A (zh) | 情感分析模型预训练方法、装置及电子设备 | |
CN111950291A (zh) | 语义表示模型的生成方法、装置、电子设备及存储介质 | |
CN111144108A (zh) | 情感倾向性分析模型的建模方法、装置和电子设备 | |
CN110767212B (zh) | 一种语音处理方法、装置和电子设备 | |
KR102630243B1 (ko) | 구두점 예측 방법 및 장치 | |
CN112270198B (zh) | 角色确定方法、装置、电子设备及存储介质 | |
CN111143564B (zh) | 无监督的多目标篇章级情感分类模型训练方法和装置 | |
CN111310449B (zh) | 基于语义表示的文本生成方法和装置 | |
CN112541342B (zh) | 文本纠错方法、装置、电子设备及存储介质 | |
CN113723278A (zh) | 表格信息提取模型的训练方法及装置 | |
CN111539209A (zh) | 用于实体分类的方法和装置 | |
CN111127191A (zh) | 风险评估方法及装置 | |
CN111539224A (zh) | 语义理解模型的剪枝方法、装置、电子设备和存储介质 | |
CN111611808A (zh) | 用于生成自然语言模型的方法和装置 | |
CN112560499A (zh) | 语义表示模型的预训练方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |