CN112115718A - 内容文本生成方法和装置、音乐评论文本生成方法 - Google Patents
内容文本生成方法和装置、音乐评论文本生成方法 Download PDFInfo
- Publication number
- CN112115718A CN112115718A CN202011049833.9A CN202011049833A CN112115718A CN 112115718 A CN112115718 A CN 112115718A CN 202011049833 A CN202011049833 A CN 202011049833A CN 112115718 A CN112115718 A CN 112115718A
- Authority
- CN
- China
- Prior art keywords
- view
- text
- dimension
- coding
- content
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 108
- 239000013598 vector Substances 0.000 claims abstract description 437
- 238000012545 processing Methods 0.000 claims abstract description 88
- 230000000007 visual effect Effects 0.000 claims description 129
- 238000000605 extraction Methods 0.000 claims description 99
- 238000012549 training Methods 0.000 claims description 78
- 230000006870 function Effects 0.000 claims description 70
- 230000004927 fusion Effects 0.000 claims description 29
- 230000006399 behavior Effects 0.000 claims description 21
- 230000015654 memory Effects 0.000 claims description 21
- 230000008569 process Effects 0.000 claims description 20
- 230000002441 reversible effect Effects 0.000 claims description 19
- 238000004590 computer program Methods 0.000 claims description 18
- 230000033764 rhythmic process Effects 0.000 claims description 16
- 238000012216 screening Methods 0.000 claims description 8
- 238000001914 filtration Methods 0.000 claims 1
- 238000013473 artificial intelligence Methods 0.000 abstract description 11
- 238000013528 artificial neural network Methods 0.000 description 60
- 238000010586 diagram Methods 0.000 description 17
- 238000010801 machine learning Methods 0.000 description 14
- 230000011218 segmentation Effects 0.000 description 12
- 238000005516 engineering process Methods 0.000 description 11
- 230000002457 bidirectional effect Effects 0.000 description 7
- 238000003058 natural language processing Methods 0.000 description 6
- 239000000284 extract Substances 0.000 description 5
- 239000011159 matrix material Substances 0.000 description 5
- 238000003062 neural network model Methods 0.000 description 5
- 230000000306 recurrent effect Effects 0.000 description 5
- 238000011160 research Methods 0.000 description 4
- 241000282414 Homo sapiens Species 0.000 description 3
- 230000001427 coherent effect Effects 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 3
- 238000007499 fusion processing Methods 0.000 description 3
- 238000013519 translation Methods 0.000 description 3
- 238000010276 construction Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000001965 increasing effect Effects 0.000 description 2
- 239000000126 substance Substances 0.000 description 2
- 230000001131 transforming effect Effects 0.000 description 2
- 108091026890 Coding region Proteins 0.000 description 1
- 241000288105 Grus Species 0.000 description 1
- 241000282412 Homo Species 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及人工智能领域,具体涉及一种内容文本生成方法和装置、音乐评论文本生成方法。内容文本生成方法包括:获取与目标任务对应的描述文本;对描述文本进行语义编码处理,得到对应的编码向量序列;根据编码向量序列,确定与多个视角维度分别对应的多个视角特征;基于多个视角特征中的每个视角特征,分别对编码向量序列进行解码处理,输出与目标任务对应、且与每个视角维度分别对应的内容文本。采用本方法能够提升内容文本的多样性。
Description
技术领域
本申请涉及计算机技术领域,特别是涉及一种内容文本生成方法和装置、音乐评论文本生成方法。
背景技术
随着网络科技的发展,用户可以随时随地的接触到各种文本信息,比如博客、音乐歌词、报告、论文等。目前,主要采用人工手动撰写文本的方式,但这种人工手动的方式效率非常低。
现有技术中,可以基于改进的指针生成(pointer-generator)模型生成新的内容文本:即一篇初始文本和其对应的一个参考内容文本,组成一个训练对,使用上述一对一的训练对,训练指针生成模型,从而训练后的指针生成模型可基于初始文本生成新的内容文本。但是,基于指针生成模型所生成的内容文本没有特色,缺乏多样性。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提升所生成的内容文本的多样性的内容文本生成方法、装置、计算机设备和存储介质、以及一种能够提升所生成的音乐评论文本多样性的音乐评论文本生成方法、装置、计算机设备和存储介质。
一种内容文本生成方法,所述方法包括:
获取与目标任务对应的描述文本;
对所述描述文本进行语义编码处理,得到对应的编码向量序列;
根据所述编码向量序列,确定与多个视角维度分别对应的多个视角特征;
基于所述多个视角特征中的每个视角特征,分别对所述编码向量序列进行解码处理,输出与所述目标任务对应、且与所述每个视角维度分别对应的内容文本。
一种内容文本生成装置,所述装置包括:
描述文本获取模块,用于获取与目标任务对应的描述文本;
视角特征获取模块,用于对所述描述文本进行语义编码处理,得到对应的编码向量序列;根据所述编码向量序列,确定与多个视角维度分别对应的多个视角特征;
内容文本确定模块,用于基于所述多个视角特征中的每个视角特征,分别对所述编码向量序列进行解码处理,输出与所述目标任务对应、且与所述每个视角维度分别对应的内容文本。
在一个实施例中,描述文本获取模块还用于确定目标任务,并获取与所述目标任务对应的线索关键词;基于所述线索关键词进行检索,得到与所述目标任务匹配的描述文本。
在一个实施例中,视角特征获取模块还用于确定所述描述文本的词序列;对所述描述文本的词序列进行正向语义编码和反向语义编码,得到对应的正向编码向量序列和反向编码向量序列;对所述正向编码向量序列和所述反向编码向量序列进行序列融合,得到与所述描述文本对应的编码向量序列。
在一个实施例中,视角特征获取模块还用于确定与每个视角维度分别对应的特征提取函数;其中,不同视角维度所对应的特征提取函数具有不同的视角参数;将所述编码向量序列分别输入至每个所述特征提取函数,通过各个特征提取函数所对应的视角参数,对各自输入的编码向量序列进行处理,得到与多个视角维度分别对应的多个视角特征。
在一个实施例中,内容文本包括多于一个的内容子文本,内容文本确定模块还包括第一内容获取模块,用于基于所述多个视角特征中的每个视角特征,分别对所述编码向量序列进行解码处理,得到与各个视角维度分别对应的首轮的内容子文本;从所述首轮之后的第二轮次起的当前轮次中,对于每个视角维度,分别根据相应视角维度的历史轮次的内容子文本和所述描述文本进行语义编码处理,得到当前轮次的编码向量序列;所述历史轮次为在所述当前轮次之前的至少一个轮次;对于每个视角维度,分别通过与相应视角维度对应的视角参数继续对所述当前轮次的编码向量序列进行处理,得到当前轮次的相应视角维度的视角特征;对于每个视角维度,分别基于当前轮次的相应视角维度的视角特征,对所述当前轮次的编码向量序列进行解码处理,得到所述当前轮次的与各个视角维度分别对应的内容子文本;将下一轮次作为当前轮次并返回至所述从所述首轮之后的第二轮次起的当前轮次中,对于每个视角维度,分别根据相应视角维度的历史轮次的内容子文本和所述描述文本进行语义编码处理,得到当前轮次的编码向量序列的步骤并继续执行,直至满足预设停止条件时停止,得到所述多个视角维度各自对应的多于一轮的内容子文本;对于所述多个视角维度中的每个视角维度,将每个视角维度所对应的多于一轮的内容子文本,构成相应视角维度所对应的内容文本。
在一个实施例中,内容文本确定模块还包括第二内容获取模块,用于对于所述多个视角维度中的每个视角维度,分别依次对所述编码向量序列进行解码得到解码隐层向量,且每次解码时根据前次确定的目标词的词向量进行解码,并根据当次的解码隐层向量确定当次的目标词;其中,对于所述多个视角维度中的每个视角维度,分别将相应视角维度所对应的视角特征,作为与相应视角维度对应的解码过程中初次解码时的初始解码隐层向量;对于每个视角维度,分别基于相应依次解码得到的各个目标词,构成相应的视角维度所对应的内容文本。
在一个实施例中,第二内容获取模块还用于依次获取当次的与所述编码向量序列对应的注意力权重向量;根据所述注意力权重向量、以及所述编码向量序列,计算得到当次的内容向量;依次根据当次的内容向量、前次的解码隐层向量、以及前次确定的目标词的词向量,计算得到当次的解码隐层向量,并根据当次的解码隐层向量和当次的内容向量确定当次的目标词。
在一个实施例中,内容文本生成方法通过文本生成模型执行,文本生成模型包括编码结构、视角特征抽取结构和解码结构。内容文本生成装置还用于通过文本生成模型中的编码结构对描述文本进行语义编码处理,得到对应的编码向量序列;通过所述文本生成模型中的视角特征抽取结构,并基于与各个视角维度分别对应的视角参数,对所述编码向量序列分别进行处理,得到与各个视角维度分别对应的视角特征;通过所述文本生成模型中的解码结构,并基于所述多个视角特征中的每个视角特征,分别对所述编码向量序列进行解码处理,输出与所述目标任务对应、且与每个所述视角维度分别对应的内容文本。
在一个实施例中,内容文本生成装置还包括训练模块,用于获取样本描述文本,并获取与所述样本描述文本对应的、且与所述多个视角维度分别对应的视角参考文本;通过所述文本生成模型中的编码结构,对所述样本描述文本进行语义编码处理,得到对应的预测编码向量序列;通过所述文本生成模型中的视角特征抽取结构,并根据所述预测编码向量序列,确定多个视角维度下的多个预测视角特征;从所述多个预测视角特征中,筛选与相应视角参考文本所对应的目标视角维度的目标视角特征,并基于所述目标视角特征对所述编码向量序列进行解码处理,输出与所述目标视角维度对应的预测内容文本;基于多个视角维度各自对应的预测内容文本、以及相应视角维度所对应的视角参考文本,对所述文本生成模型进行训练。
在一个实施例中,训练模块还包括目标视角特征确定模块,用于对于所述多个预测视角特征中的每个预测视角特征,分别确定与相应预测视角特征对应的视角参考文本;确定每个预测视角特征分别与所述样本描述文本相匹配的第一匹配值;确定每个预测视角特征分别与对应的视角参考文本相匹配的第二匹配值;根据所述第一匹配值及所述第二匹配值,从所述多个预测视角特征中筛选出与所述视角参考文本所对应的目标视角维度的目标视角特征。
在一个实施例中,训练模块还包括损失函数确定模块,用于根据多个视角维度各自对应的预测内容文本、以及相应视角维度所对应的视角参考文本的差异,确定对应的内容文本损失;根据所述内容文本损失确定目标损失函数;通过所述目标损失函数对所文本生成模型进行训练,直至达到训练停止条件时停止,得到训练好的文本生成模型。
在一个实施例中,损失函数确定模块还用于根据多个视角维度各自对应的预测内容文本、以及相应视角维度所对应的视角参考文本的差异,确定对应的内容文本损失;对所述多个预测视角特征进行特征融合,得到对应的视角融合特征;确定每个预测视角特征分别与所述视角融合特征间的相似度,并根据所述相似度确定视角差异损失;根据所述内容文本损失以及所述视角差异损失,确定目标损失函数;通过目标损失函数对文本生成模型进行训练,直至达到训练停止条件时停止,得到训练好的文本生成模型。
在一个实施例中,所述编码结构包括第一编码器和第二编码器,所述预测编码向量序列由所述第一编码器输出,所述视角参考文本包括正视角参考文本和负视角参考文本;损失函数确定模块还用于通过所述第二编码器对所述正视角参考文本和所述负视角参考文本分部进行编码,得到相应的正参考向量序列和负参考向量序列;确定所述预测编码向量序列与所述正参考向量序列间的第三匹配值;确定所述预测编码向量序列与所述负参考向量序列间的第四匹配值;根据所述第三匹配值、所述第四匹配值及与所述正视角参考文本对应的第一文本标签、与所述负视角参考文本对应的第二文本标签,构建编码损失;所述根据所述内容文本损失以及所述视角差异损失,确定目标损失函数,包括:根据所述内容文本损失、所述视角差异损失、以及所述编码损失,确定目标损失函数。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取与目标任务对应的描述文本;
对所述描述文本进行语义编码处理,得到对应的编码向量序列;
根据所述编码向量序列,确定与多个视角维度分别对应的多个视角特征;
基于所述多个视角特征中的每个视角特征,分别对所述编码向量序列进行解码处理,输出与所述目标任务对应、且与所述每个视角维度分别对应的内容文本。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取与目标任务对应的描述文本;
对所述描述文本进行语义编码处理,得到对应的编码向量序列;
根据所述编码向量序列,确定与多个视角维度分别对应的多个视角特征;
基于所述多个视角特征中的每个视角特征,分别对所述编码向量序列进行解码处理,输出与所述目标任务对应、且与所述每个视角维度分别对应的内容文本。
上述内容文本生成方法、装置、计算机设备和存储介质,获取与目标任务相对应的描述文本,可对描述文本进行语义编码处理,得到对应的编码向量序列,如此,便能基于编码向量序列确定与多个视角维度分别对应的多个视角特征;通过确定多个视角维度分别对应的多个视角特征,可基于多个视角特征中的每个视角特征,分别对编码向量序列进行解码处理,得到与每个视角维度分别对应的内容文本,这样,大大提升了所生成的内容文本的多样性。
一种音乐评论文本生成方法,所述方法包括:
获取与目标音乐对应的描述文本,所述描述文本包括所述目标音乐的歌词文本、韵律描述文本、以及作者属性文本中的至少一种;
对所述描述文本进行语义编码处理,得到对应的编码向量序列;
根据所述编码向量序列,确定与多个视角维度分别对应的多个视角特征;所述多个视角维度包括歌曲韵律维度、歌词内容维度、听者行为维度、以及作者风格维度中的至少两种;
基于所述多个视角特征中的每个视角特征,分别对所述编码向量序列进行解码处理,输出与所述目标任务对应、且与每个所述视角维度分别对应的音乐评论文本。
在一个实施例中,所述获取与目标音乐对应的描述文本,包括:
获取线索关键词,并确定与所述线索关键词对应的目标音乐标识;
基于所述目标音乐标识进行检索,获得与所述目标音乐标识对应的歌词文本、韵律描述文本、以及作者属性文本;
将所述歌词文本、韵律描述文本、以及所述作者属性文本中的至少一种,作为所述目标音乐标识所指向的目标音乐的描述文本。
一种音乐评论文本生成装置,所述装置包括:
文本获取模块,用于获取与目标音乐对应的描述文本,所述描述文本包括所述目标音乐的歌词文本、韵律描述文本、以及作者属性文本中的至少一种;
特征确定模块,用于对所述描述文本进行语义编码处理,得到对应的编码向量序列;根据所述编码向量序列,确定与多个视角维度分别对应的多个视角特征;所述多个视角维度包括歌曲韵律维度、歌词内容维度、听者行为维度、以及作者风格维度中的至少两种;
评论文本生成模块,用于基于所述多个视角特征中的每个视角特征,分别对所述编码向量序列进行解码处理,输出与所述目标任务对应、且与每个所述视角维度分别对应的音乐评论文本。
在一个实施例中,文本获取模块还用于获取线索关键词,并确定与所述线索关键词对应的目标音乐标识;基于所述目标音乐标识进行检索,获得与所述目标音乐标识对应的歌词文本、韵律描述文本、以及作者属性文本;将所述歌词文本、韵律描述文本、以及所述作者属性文本中的至少一种,作为所述目标音乐标识所指向的目标音乐的描述文本。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取与目标音乐对应的描述文本,所述描述文本包括所述目标音乐的歌词文本、韵律描述文本、以及作者属性文本中的至少一种;
对所述描述文本进行语义编码处理,得到对应的编码向量序列;
根据所述编码向量序列,确定与多个视角维度分别对应的多个视角特征;所述多个视角维度包括歌曲韵律维度、歌词内容维度、听者行为维度、以及作者风格维度中的至少两种;
基于所述多个视角特征中的每个视角特征,分别对所述编码向量序列进行解码处理,输出与所述目标任务对应、且与每个所述视角维度分别对应的音乐评论文本。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取与目标音乐对应的描述文本,所述描述文本包括所述目标音乐的歌词文本、韵律描述文本、以及作者属性文本中的至少一种;
对所述描述文本进行语义编码处理,得到对应的编码向量序列;
根据所述编码向量序列,确定与多个视角维度分别对应的多个视角特征;所述多个视角维度包括歌曲韵律维度、歌词内容维度、听者行为维度、以及作者风格维度中的至少两种;
基于所述多个视角特征中的每个视角特征,分别对所述编码向量序列进行解码处理,输出与所述目标任务对应、且与每个所述视角维度分别对应的音乐评论文本。
上述音乐评论生成方法、装置、计算机设备和存储介质,获取与目标音乐相对应的歌词文本、韵律描述文本、以及作者属性文本中的至少一种,可对获取得到的歌词文本、韵律描述文本、或作者属性文本进行语义编码处理,得到对应的编码向量序列,如此,便能基于编码向量序列确定与歌曲韵律维度、歌词内容维度、听者行为维度、以及作者风格维度中的至少两种分别对应的视角特征;通过确定多个视角维度分别对应的多个视角特征,可基于多个视角特征中的每个视角特征,分别对编码向量序列进行解码处理,得到与歌曲韵律维度、歌词内容维度、听者行为维度、以及作者风格维度中的至少两种分别对应的音乐评论文本,这样,大大提升了所生成的音乐评论文本的多样性。
附图说明
图1为一个实施例中内容文本生成方法的应用环境图;
图2为一个实施例中内容文本生成方法的流程示意图;
图3为一个实施例中描述文本获取的流程示意图;
图4为一个实施例中文本生成模型在使用阶段的模型结构示意图;
图5为一个实施例中文本生成模型的训练方法的流程示意图;
图6为一个实施例中文本生成模型在训练阶段的模型结构示意图;
图7为另一个实施例中音乐评论文本生成方法的流程示意图;
图8为一个具体实施例中内容文本生成方法的流程示意图;
图9为一个具体实施例中文本生成模型训练方法的流程示意图;
图10为一个实施例中内容文本生成装置的结构框图;
图11为另一个实施例中内容文本生成装置的结构框图;
图12为又一个实施例中音乐评论文本生成装置的结构框图;
图13为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
图1为一个实施例中内容文本生成方法的应用环境图。参照图1,该内容文本生成方法应用于内容文本生成系统。该内容文本生成系统包括终端102和服务器104。终端102和服务器104可协同用于执行本申请的内容文本生成方法,也可单独用于执行本申请的内容文本生成方法。比如,终端102可将与目标任务对应的描述文本进行分词后得到的词序列发送至服务器102,服务器102执行内容文本生成方法,得到与每个视角维度分别对应的内容文本,再将内容文本返回至终端102,由终端102对应展示。终端102也可在获取描述文本后执行内容文本生成方法。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
还需要说明的是,本申请涉及人工智能(Artificial Intelligence,AI)技术领域,其中,人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
本申请具体涉及人工智能领域中的自然语言处理(Nature Languageprocessing,NLP)和机器学习技术(Machine Learning,ML)。自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
其中,机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。应该理解的是,本公开中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。除非上下文另外清楚地指出,否则单数形式“一个”、“一”或者“该”等类似词语也不表示数量限制,而是表示存在至少一个。
在一个实施例中,如图2所示,提供了一种内容文本生成方法,本实施例主要以该方法应用于计算机设备来举例说明,该计算机设备可以是上述图1中的终端102或服务器104。参照图2,该内容文本生成方法具体包括如下步骤:
步骤S202,获取与目标任务对应的描述文本。
具体地,当获取得到目标任务时,计算机设备可直接从目标任务中提取对应的描述文本,也可将此目标任务作为索引,从其他计算机设备中拉取对应的描述文本。其中,描述文本是用以生成内容文本的初始文本。描述文本具体可以是句子、音乐歌词或篇章题目等文本,也可以是中文文本或是英文文本等。
在一个实施例中,目标任务具体可以为评论生成任务或短文(诗歌)生成任务。当目标任务为评论生成任务时,描述文本可为待进行评论的文本内容,比如,当目标任务为音乐评论生成任务时,描述文本可为目标音乐的歌词文本、韵律描述文本、以及作者属性文本中的至少一种;当目标任务为短文(诗歌)生成任务时,描述文本可为待生成的短文(诗歌)的标题、或短文要求内容。
在一个实施例中,当获取得到描述文本时,计算机设备可对描述文本进行分词处理,得到由各分词组成的词序列,再将词序列输入预训练的文本生成模型,以进行下一步的处理。其中,对于描述文本为中文文本的分词处理,可采用基于词典或基于统计的分词方式。对于描述文本为英文文本的分词处理,可以根据空格拆分单词等分词方式。
在一个实施例中,获取与目标任务对应的描述文本,包括:确定目标任务,并获取与目标任务对应的线索关键词;基于线索关键词进行检索,得到与目标任务匹配的描述文本。
其中,线索关键词是用于确定与目标任务相匹配的描述文本的关键词,线索关键词具体可以为歌曲名称、歌手名称、或待生成的内容文本的标题等。
具体地,当确定目标任务时,计算机设备可获取与目标任务相对应的线索关键词,并基于所确定的线索关键词进行本地或网络检索,得到与当前目标任务相对应的描述文本。示例性地,参考图3,如图3所示,当目标任务为基于歌曲生成音乐评论,且与目标任务相对应的线索关键词为歌曲名称时,计算机设备基于歌曲名称进行网络检索,确定与此歌曲名称相对应的歌曲标识,并基于歌曲标识,获得与此歌曲名称相对应的完整歌词。进一步地,计算机设备将检索得到的完整歌词作为描述文本输入至预训练的文本生成模型,从而得到文本生成模型输出的与歌词内容相关的音乐评论、与歌词风格相关的音乐评论、或与听者行为相关的音乐评论等,并将所生成的多个视角维度下的音乐评论发送至终端对应展示。图3示出了一个实施例中描述文本获取的流程示意图。
本实施例中,通过对关键检索词进行文本扩充处理,使得描述文本中可以包含有更为丰富的文本信息,从而可以基于更为丰富的文本信息输出更多视角下的内容文本,进而丰富了所输出的内容文本的多样性。
步骤S204,对描述文本进行语义编码处理,得到对应的编码向量序列。
其中,对描述文本进行语义编码处理,是将描述文本转换为向量的过程。编码向量序列,是对描述文本的词序列进行语义编码后得到的向量序列。具体地,计算机设备可分别对描述文本的词序列中的各词进行语义编码,提取各词的语义特征,将各词转换成向量表示,进而可根据各词所对应的向量表示,得到编码向量序列。
在一个实施例中,语义编码处理由文本生成模型执行。文本生成模型是预训练的机器学习模型,其包含有编码结构、视角特征抽取结构以及解码结构。其中,编码结构用于将输入描述文本转化成编码向量序列;视角特征抽取结构用于根据编码向量序列,确定多个视角维度分别对应的多个视角特征;解码结构则用于根据多个视角特征,对编码向量序列进行解码处理,得到每个视角维度分别对应的内容文本。
其中,编码结构、视角特征抽取结构、以及解码结构可以采用相同类型的神经网络模型,也可以是不同类型的神经网络模型。比如,编码结构、视角特征抽取结构、以及解码结构可以均为CNN(Convolutional Neural Networks,卷积神经网络)模型或RNN(RecurrentNeural Networks,循环神经网络)模型等。或者编码结构、视角特征抽取结构、以及解码结构分别采用不同的神经网络模型,比如编码结构采用RNN模型、视角特征抽取结构采用DNN(Deep Neural Networks,深度神经网络)模型、解码结构采用CNN模型等。
具体地,当获取得到描述文本后,可对描述文本进行分词处理,得到对应的词序列,并将词序列输入至文本生成模型,通过文本生成模型中编码结构的多层神经网络,逐层对词序列进行语义编码,得到编码向量序列。其中,编码向量序列融合了各层神经网络所输出的编码隐层向量。
在一个实施例中,文本生成模型中的编码结构的多层神经网络,可分别逐层对词序列进行语义编码,得到各层神经网络所输出的编码隐层向量。具体地,计算机设备可将描述文本的词序列对应的空间表示向量序列输入至编码结构的多层神经网络中的第一层神经网络,通过第一层神经网络对空间表示向量序列进行语义编码处理,输出第一层神经网络对应的编码隐层向量。再将第一层神经网络所输出的编码隐层向量作为第二层神经网络的输入,通过第二层神经网络进行语义编码处理,得到第二层神经网络所输出的编码隐层向量。依次类推,直到得到最后一层神经网络所输出的编码隐层向量。文本生成模型可将各层神经网络所输出的编码隐层向量进行融合,得到编码向量序列。
其中,对词序列进行语义编码,是将词序列转换为向量的过程。编码隐层向量,是指将描述文本的词序列输入到编码结构的多层神经网络中的隐层,通过隐层对词序列进行变换处理后得到的向量。隐层是神经网络模型中的一种术语,是相对于输入层和输出层的中间层,隐层中包括对神经网络模型训练得到的模型参数。这里编码结构的隐层是相对于编码结构的输入层和编码结构的输出层的中间层。编码结构的隐层可包括多个神经网络层。
在一个实施例中,文本生成模型中编码结构的多层神经网络,在逐层对词序列进行语义编码时,可将前序层神经网络所输出的编码隐层向量直接或经过处理后所得的向量作为当前层神经网络的输入,通过当前层神经网络进行语义编码后,得到当前层神经网络所输出的编码隐层向量。其中,前序层是指当前层之前的层。依次类推,直到得到最后一层神经网络所输出的编码隐层向量,将最后一层神经网络所输出的编码隐层向量作为编码向量序列。
在一个实施例中,文本生成模型可采用线性叠加融合处理、或融合网络处理等融合方式对多层神经网络所输出的编码隐层向量进行融合处理。
上述实施例中,通过文本生成模型中编码结构的多层神经网络,逐层对描述文本的词序列进行语义编码,融合各层神经网络所输出的编码隐层向量,得到编码向量序列。这样通过融合各层神经网络所输出的编码隐层向量,可以融合机器翻译模型中各隐层的信息,以学习更好的隐层表示。
步骤S206,根据编码向量序列,确定与多个视角维度分别对应的多个视角特征。
其中,视角维度是叙述语言中对文本内容进行观察和讲述的特定角度,相同内容从不同角度进行观察,可能呈现出不同的面貌。比如,当目标任务为基于歌曲生成音乐评论时,即可从歌词风格、歌曲韵律、歌词内容视角维度等对歌曲进行分析,从而生成与歌词风格相对应的音乐评论、与歌曲韵律相对应的音乐评论以及与歌词内容相对应的音乐评论等;当目标任务为基于标题生成相应诗歌时,即可从抒情视角维度、叙事视角维度、或议论视角维度等对标题进行分析,生成与抒情视角维度相对应的诗歌、与叙事视角维度相对应的诗歌、以及与议论视角维度对应的诗歌等。
视角特征是用于反映视角维度特征的数据,视角特征可以反映出描述文本的文本内容特征、文本风格特征、文本阅读者的行为特征等其中的一种或多种特征信息。在一个实施例中,当目标任务为基于歌曲生成音乐评论时,视角特征可包括歌词含义特征、歌曲韵律特征、歌词风格特征、或听着行为特征等多种特征信息。
具体地,计算机设备可对编码向量序列进行处理,基于编码向量序列,确定与多个视角维度分别对应的多个视角特征。
在一个实施例中,当获取得到编码向量序列时,可将编码向量序列输入至预训练的文本生成模型中的视角特征抽取结构,由视角特征抽取结构基于编码向量序列,得到与多个视角维度分别对应的多个视角特征。其中,视角特征抽取结构包括多个视角特征抽取单元,不同视角特征抽取单元具有不同的视角参数,从而不同视角特征抽取单元生成的视角特征所对应的视角维度也并不相同。
在一个实施例中,预训练的文本生成模型为已经训练完成的通用的具有视角特征提取能力的机器学习模型。在将通用的机器学习模型用于特定场景进行提取时效果不佳,因此需要通过专用于特定场景的样本对通用的机器学习模型进行进一步训练和优化。在本实施例中,计算机设备可获取根据通用的机器学习模型的模型结构和模型参数,并将该模型参数导入文本生成模型结构,得到带有模型参数的文本生成模型。文本生成模型所带的模型参数,作为本实施例中训练文本生成模型的初始参数参与到训练中。
在一个实施例中,根据编码向量序列,确定与多个视角维度分别对应的多个视角特征,包括:确定与每个视角维度分别对应的特征提取函数;其中,不同视角维度所对应的特征提取函数具有不同的视角参数;将编码向量序列分别输入至每个特征提取函数,通过各个特征提取函数所对应的视角参数,对各自输入的编码向量序列进行处理,得到与多个视角维度分别对应的多个视角特征。
具体地,文本生成模型使用多个特征提取函数确定多个视角维度分别对应的多个视角特征,每个特征提取函数可称为一个视角特征抽取单元。对于相同的描述文本,将对应的编码向量序列输入至特征提取函数中所确定的视角特征即为pi=wix+bi(i=1,2,3,...,k)。其中,pi表示第i个视角特征抽取单元抽取出的视角特征;wi表示第i个视角特征抽取单元进行机器学习后得到的视角参数;bi表示第i个视角特征抽取单元中的偏置矩阵,其亦可以通过机器学习得到;k表示视角特征抽取单元的单元总数量;x表示编码向量序列。
上述实施例中,通过具有不同视角参数的不同视角特征抽取单元,分别对编码向量序列进行处理,得到与多个视角维度分别对应的多个视角特征,这样即可基于多个视角特征,得到与每个视角维度分别对应的内容文本,从而大大提升了内容文本的多样性。
步骤S208,基于多个视角特征中的每个视角特征,分别对编码向量序列进行解码处理,输出与目标任务对应、且与每个视角维度分别对应的内容文本。
其中,解码是基于视角特征,将输入解码结构的向量序列转换成内容文本的过程。具体地,计算机设备可基于多个视角特征中的每个视角特征,分别对编码向量序列进行语义解码,确定组成内容文本的各目标词的词向量,从而得到与每个视角维度分别对应的内容文本。
在一个实施例中,解码处理过程由文本生成模型执行。文本生成模型的解码结构可以基于多个视角维度中的每个视角维度,分别依次对编码向量序列进行解码,得到解码结构的各层神经网络输出的解码隐层向量,从而文本生成模型根据各层神经网络输出的解码隐层向量,确定相应视角维度的内容文本。其中,解码隐藏向量,是指将编码向量序列输入到解码结构的多层神经网络中的隐层,通过隐层对词序列进行变换处理后得到的向量。解码结构的隐层可包括多个神经网络层。
例如,当目标任务为基于歌曲生成音乐评论,且描述文本为“微笑的力量-陈谦文。晴时多云偶阵雨,偶尔失去太阳的勇气,就算挫折浸湿了翅膀,梦想也不曾停止远扬,难免会哭泣,像倾盆大雨淋着雨,我陪你前行,仰望着雨后彩虹…”时,文本生成模型所生成的音乐评论可以为与歌曲韵律视角维度相对应的“我觉得很好听啊”;与歌词风格视角维度相对应的“歌词很唯美”;与歌词内容视角维度相对应的“你微笑的力量很棒”等。
在一个实施例中,文本生成模型的解码结构可遍历多个视角维度分别对应的多个视角特征,依次通过当前遍历顺序的视角特征,对编码向量序列进行解码处理,得到与当前遍历顺序的视角特征相对应的内容文本,也就是得到当前遍历顺序的视角特征相对应的当前视角维度下的内容文本。
在一个实施例中,文本生成模型的解码结构可包含有多个解码器,从而多个解码器可基于相应视角维度,对编码向量序列进行并行解码处理,得到每个视角维度分别对应的内容文本。
在一个实施例中,基于多个视角特征中的每个视角特征,分别对编码向量序列进行解码处理,输出与目标任务对应、且与每个视角维度分别对应的内容文本,包括:对于多个视角维度中的每个视角维度,分别依次对编码向量序列进行解码得到解码隐层向量,且每次解码时根据前次确定的目标词的词向量进行解码,并根据当次的解码隐层向量确定当次的目标词;其中,对于多个视角维度中的每个视角维度,分别将相应视角维度所对应的视角特征,作为与相应视角维度对应的解码过程中初次解码时的初始解码隐层向量;对于每个视角维度,分别基于相应依次解码得到的各个目标词,构成相应的视角维度所对应的内容文本。
具体地,当需要生成例如音乐评论的内容文本时,计算机设备可基于多个视角维度中的每个视角维度,分别依次对编码向量进行解码,得到每个视角维度分别对应的内容文本。
为了更好地理解本实施例,下述对生成与当前视角维度对应的内容子文本的生成方式进行进一步阐述。当获取得到当前视角维度的当前视角特征时,计算机设备可将与当前视角维度相对应的当前视角特征以及编码向量序列输入至文本生成模型的解码结构中,由解码结构将当前视角特征作为多层神经网络的第一层神经网络输出的初始解码隐层向量,并基于初始解码隐层向量对编码向量序列进行解码处理,得到第一层神经网络输出的目标词的词向量。计算机设备再将第一层神经网络输出的初始解码隐层向量以及目标词的词向量作为第二层神经网络的输入,触发第二层神经网络,基于第一层神经网络输出的初始解码隐层向量以及目标词的词向量,确定与第二层神经网络相对应的解码隐层向量,并基于与第二层神经网络相对应的解码隐层向量对编码向量序列进行解码处理,得到第二层神经网络输出的目标词的词向量。依次类推,直到得到最后一层神经网络所输出的目标词的词向量,从而计算机设备综合各层神经网络所输出的目标词的词向量,即可得到当前视角维度的内容文本。
在其中一个实施例中,文本生成模型在生成当次的目标词之前,即在当前层级的神经网络输出当前目标词之前,可获取历史输出的目标词。依据历史输出的目标词,生成当次的目标词的词向量。目标词的词向量不仅包含了描述文本的词序列中各词的语义信息,且综合了历史输出目标词的语义信息,使得最终生成的内容文本更为连贯。
在其中一个实施例中,文本生成模型可在要生成当次的目标词时,获取前次所输出目标词。文本生成模型可对前次输出的目标词做词嵌入处理,将目标词转换成用实数表示的词向量。
可以理解,本申请所使用的“当次”用于描述文本生成模型的解码结构进行解码并输出当次的目标词的时刻,“前次”用于描述解码结构进行解码并输出前次的目标词的时刻。比如,前次为第i-1次,文本生成模型所输出的目标词则为yi-1;当次为第i次,文本生成模型所输出的目标词则为yi。并且,当次是一个相对变化的次数,比如,文本生成模型在输出当次i的下次i+1的目标词时,则可将该下次i+1作为新的当次,将当次i作为新的前次。
上述实施例中,通过文本生成模型的解码结构,根据解码结构前次输出的目标词的词向量,对编码向量序列进行解码,得到当次的目标词的词向量,根据目标词的词向量,确定文本生成模型当次所输出的目标词。依据文本生成模型输出的各目标词,生成与相应视角维度对应的内容文本。这样,通过解码框结构对编码向量序列进行解码时,可以融合各隐层的信息,以学习更好的隐层表示,减少了在模型处理中有效信息的丢失,大大提高了内容文本生成的准确率。
上述内容文本生成方法中,获取与目标任务相对应的描述文本,可对描述文本进行语义编码处理,得到对应的编码向量序列,如此,便能基于编码向量序列确定与多个视角维度分别对应的多个视角特征;通过确定多个视角维度分别对应的多个视角特征,可基于多个视角特征中的每个视角特征,分别对编码向量序列进行解码处理,得到与每个视角维度分别对应的内容文本,这样,大大提升了所生成的内容文本的多样性。
在一个实施例中,对描述文本进行语义编码处理,得到对应的编码向量序列,包括:确定描述文本的词序列;对描述文本的词序列进行正向语义编码和反向语义编码,得到对应的正向编码向量序列和反向编码向量序列;对正向编码向量序列和反向编码向量序列进行序列融合,得到与描述文本对应的编码向量序列。
具体地,当获取得到描述文本时,计算机设备可通过预设的分词算法对描述文本进行分词处理,得到对应的词序列。其中,预设的分词算法可根据需求自由设定,比如可以为ICTCLASS算法、jieba算法、或HanNLP算法等。进一步地,文本生成模型中的编码结构对描述文本的词序列进行正向语义编码和反向语义编码,得到对应的正向编码向量序列和反向编码向量序列,并基于预设的序列融合方式对正向编码向量序列和反向编码向量序列进行序列融合,得到与描述文本对应的编码向量序列。比如,可采用线性叠加的融合处理方式,对正向编码向量序列、反向编码向量序列进行序列融合,得到与描述文本对应的编码向量序列。
在其中一个实施例中,文本生成模型可采用双向的门控递归神经网络GRU(GatedRecurrent Unit,门控循环单元网络)对描述文本进行正向语义编码和反向语义编码。下面通过举例说明的方式说明通过双向GRU的多层神经网络,逐层对词序列进行正向语义编码,得到正向编码向量序列的过程:以描述文本的词序列为长度为m的序列为例,将词序列输入到双向GRU的多层神经网络中进行语义编码。首先,计算机设备可对源文本进行分词,得到描述文本的词序列x=(x1,x2,...,xm),并通过词嵌入方式将词序列转换成连续的空间表示向量序列e(x)=(e(x1),e(x2),...,e(xm)),通过双向GRU的多层神经网络,基于前序层输出的编码隐层向量,逐层对词序列进行语义编码,得到对应的编码向量序列其中,GRUforward表示对编码向量序列进行正向编码;表示GRU的第i层神经网络输出的编码隐层向量;e(xi)表示空间表示向量序列中的第i个空间表示向量。同理,计算机设备通过双向的GRU的多层神经网络,逐层对词序列进行反向语义编码,得到反向编码向量序列其中, 表示GRU的第i层神经网络输出的编码隐层向量,GRUbackward表示对编码向量序列进行反向编码,从而对正向编码向量序列以及反向编码向量序列进行序列后得到的编码相连序列为H={h1,h2,…,hm}。
本实施例中,由于双向的门控递归神经网络能同时考虑到过去和未来的语义信息,相比于常用的LSTM(Long Short-Term Memory,长短期记忆网络),单向GRU参数更少,双向的门控递归神经网络收敛速度更快,能够显著提升训练效率。
在一个实施例中,内容文本包括多于一个的内容子文本,基于多个视角特征中的每个视角特征,分别对编码向量序列进行解码处理,输出与目标任务对应、且与每个视角维度分别对应的内容文本,包括:基于多个视角特征中的每个视角特征,分别对编码向量序列进行解码处理,得到与各个视角维度分别对应的首轮的内容子文本;从首轮之后的第二轮次起的当前轮次中,对于每个视角维度,分别根据相应视角维度的历史轮次的内容子文本和描述文本进行语义编码处理,得到当前轮次的编码向量序列;历史轮次为在当前轮次之前的至少一个轮次;对于每个视角维度,分别通过与相应视角维度对应的视角参数继续对当前轮次的编码向量序列进行处理,得到当前轮次的相应视角维度的视角特征;对于每个视角维度,分别基于当前轮次的相应视角维度的视角特征,对当前轮次的编码向量序列进行解码处理,得到当前轮次的与各个视角维度分别对应的内容子文本;将下一轮次作为当前轮次并返回至从首轮之后的第二轮次起的当前轮次中,对于每个视角维度,分别根据相应视角维度的历史轮次的内容子文本和描述文本进行语义编码处理,得到当前轮次的编码向量序列的步骤并继续执行,直至满足预设停止条件时停止,得到多个视角维度各自对应的多于一轮的内容子文本;对于多个视角维度中的每个视角维度,将每个视角维度所对应的多于一轮的内容子文本,构成相应视角维度所对应的内容文本。
在目标任务不相同的情况下,所生成的内容文本的文本长度也不尽相同。例如,当目标任务为基于歌曲生成音乐评论时,文本生成模型所生成的内容文本可为由多个目标词组成的一句话;当目标任务为基于标题生成诗歌时,文本生成模型所生成的内容文本可为由多句诗句组成的诗歌。因此,本申请所使用的“轮次”用于描述文本生成模型的解码结构进行解码并输出一句句子的时刻,相应的,“当前轮次”用于描述文本生成模型的解码结构进行解码并输出当前句子的时刻,“历史轮次”用于描述解码结构进行解码并输出前轮的句子的时刻。
具体地,计算机设备按照上述生成音乐评论的方式,基于多个视角特征中的每个视角特征,分别对编码向量序列进行解码处理,得到与各视角维度分别对应的首轮的内容子文本。比如,得到抒情视角维度下的第一句诗句、叙事视角维度下的第一句诗句以及议论视角维度下的第一句诗句等。进一步地,计算机设备从首轮之后的第二轮次起的当前轮次中,对于每个视角维度,分别将相应视角维度的历史轮次的内容子文本和描述文本输入文本生成模型进行语义编码处理,得到当前轮次的与各个视角维度分别对应的内容子文本。依次迭代,直至满足预设条件停止时停止,比如直至生成预设数量句子的诗歌时停止,从而得到多个视角维度各自对应的多于一轮的内容子文本。计算机设备综合每个视角维度所对应的多于一轮的内容子文本,得到每个视角维度分别对应的内容文本。
为了更好地理解本实施例,下述对生成当前视角维度下的多于一轮的内容子文本的生成方式进行进一步阐述。当获取得到描述文本时,计算机设备将描述文本输入文本生成模型的编码结构,得到编码向量序列,并将编码向量序列输入视角特征抽取结构,基于视角特征抽取结构,确定与当前视角维度相对应的当前视角特征,并将当前视角特征输入文本生成模型的解码结构,得到首轮次的与当前视角维度相对应的内容子文本。比如,得到抒情视角维度下的第一句诗歌。
进一步地,计算机设备获取描述文本以及首轮次的与当前视角维度相对应的内容子文本,将描述文本和首轮次的与当前视角维度相对应的内容子文本输入文本生成模型的编码结构中,由编码结构输出第二轮次的编码向量序列。计算机设备确定抽取出当前视角特征的目标视角特征抽取单元,将第二轮次的编码向量序列输入目标视角特征抽取单元,基于目标视角特征抽取单元输出第二轮次的与当前视角维度相对应的当前视角特征,从而文本生成模型的解码结构可基于第二轮次的当前视角特征输出第二轮次的内容子文本,比如输出抒情视角维度下的第二句诗歌。依次类推,计算机设备再次将基于描述文本、首轮次输出的内容子文本、第二轮次输出的内容子文本所确定的编码向量序列输入目标视角特征抽取单元,得到第三轮次的当前视角特征,从而解码结构基于第三轮次的当前视角特征确定第三轮次的内容子文本,比如得到抒情视角维度下的第三句诗歌,直至满足预设停止条件时停止,最终得到当前视角维度对应的内容文本。
本实施例中,文本生成模型通过综合历史轮次输出的内容子文本得到当前轮次的内容子文本,使得最终生成的内容文本更为连贯,可读性更高。
在一个实施例中,依次对编码向量序列进行解码得到解码隐层向量,且每次解码时根据前次确定的目标词的词向量进行解码,并根据当次的解码隐层向量确定当次的目标词,包括:依次获取当次的与编码向量序列对应的注意力权重向量;根据注意力权重向量、以及编码向量序列,计算得到当次的内容向量;依次根据当次的内容向量、前次的解码隐层向量、以及前次确定的目标词的词向量,计算得到当次的解码隐层向量,并根据当次的解码隐层向量和当次的内容向量确定当次的目标词。
具体地,在文本生成模型每次输出目标词时,文本生成模型可根据各目标词所对应的自注意力权重向量、前一层神经网络所对应的解码隐层向量、以及前一层神经网络所对应的目标词的词向量,分别计算得到当次的、当前层神经网络输出的目标词的词向量。
举例说明,对于第i层神经网络中的第i个目标词的词向量,解码结构可获的i次的与编码向量序列对的自注意力权重向量α={αi,1,αi,2,…,αi,m},并通过公式得到第i次的内容向量Ci。其中,编码结构所输出的编码向量序列可以表示为H={h1,h2,…,hm},描述文本的词序列为长度可以表示为m,自注意力权重向量中的单个元素αi,t可表示为其中,exp(ei,t)=a(si-1,ht),a为常量,si-1为解码结构第i-1层输出的解码隐层向量。
进一步地,当获取得到第i次的内容向量时,计算机设备可采用以下公式si=GRU(si-1,e(yi-1),ci),根据第i次的内容向量ci、第i-1次的解码隐层向量si-1、以及第i-1次确定的目标词的词向量e(yi-1),计算得到第i次的解码隐层向量si,并根据公式P(yi|y0:i-1,X,P)=softmax(si,ci),基于第i次的解码隐层向量si和第i次的内容向量ci,确定具有最大概率的分词,并将概率最大的分词作为第i次的目标词。其中,softmax为逻辑回归函数;X为描述文本;P=|p1,p2,…,pk|,并表示多个视角维度所分别对应的视角特征;k为视角特征抽取单元的单元总数量。
本实施例中,解码结构通过对编码向量序列进行自注意力机制处理得到当次的内容向量,再融合内容向量、前次的解码隐层向量、以及前次确定的目标词的词向量,得到当次的解码隐层向量,这样当次的解码隐层向量既能融合解码结构输出的编码向量序列,又综合了历史输出的目标词的语义信息,使得最终生成的内容文本更为连贯,更贴近相对应的视角维度。
在一个实施例中,内容文本生成方法通过文本生成模型执行,文本生成模型包括编码结构、视角特征抽取结构和解码结构;对描述文本进行语义编码处理,得到对应的编码向量序列,包括:通过文本生成模型中的编码结构对描述文本进行语义编码处理,得到对应的编码向量序列;根据编码向量序列,确定与多个视角维度分别对应的多个视角特征,包括:通过文本生成模型中的视角特征抽取结构,并基于与各个视角维度分别对应的视角参数,对编码向量序列分别进行处理,得到与各个视角维度分别对应的视角特征;基于多个视角特征中的每个视角特征,分别对编码向量序列进行解码处理,输出与目标任务对应、且与每个视角维度分别对应的内容文本,包括:通过文本生成模型中的解码结构,并基于多个视角特征中的每个视角特征,分别对编码向量序列进行解码处理,输出与目标任务对应、且与每个视角维度分别对应的内容文本。
具体地,文本生成模型包括有编码结构、视角特征抽取结构以及解码结构,其中,编码结构用于对描述文本进行语义编码处理,得到对应的编码向量序列;视角特征抽取结构包括多个视角特征抽取单元,不同视角特征抽取单元具有不同的视角参数,从而多个视角特征抽取单元可基于各自对应的视角参数,对编码序列进行处理,得到与每个视角维度分别对应的视角特征;解码结构用于基于视角特征中的每个视角特征,分别对编码向量序列进行解码处理,输出与目标任务对应的、且与每个视角维度分别对应的内容文本。
参考图4,图4示出了一个实施例中,文本生成模型在使用阶段的模型结构示意图。如图4所示,当文本生成模型包括编码结构、视角特征抽取结构以及解码结构时,计算机设备可基于编码结构得到编码向量序列H,基于视角特征抽取结构确定多个视角维度分别对应的视角特征(p1,p2,...,pk),通过解码结构分别基于视角特征对编码向量序列进行解码,得到多个内容文本(γ1,γ2,...,γk)。
本实施例中,由于通过编码-特征提取-解码框架对描述文本进行文本创作时,可以融合多个视角维度的视角特征,从而提升了所生成的内容文本的多样性。
在一个实施例中,如图5所示,内容文本生成方法由文本生成模型执行,文本生成模型的训练步骤具体包括以下步骤:
步骤S502,获取样本描述文本,并获取与样本描述文本对应的、且与多个视角维度分别对应的视角参考文本。
具体地,样本描述文本是用于进行模型训练时需要的训练数据。视角参考文本是用于进行模型训练时所需的标签数据,基于视角参考文本,文本生成模型可以对应调整模型参数。由于针对同一个描述文本,可具有多个视角维度下的多个内容文本,因此可将一个样本描述文本,以及与此样本描述文本对应的、且与多个视角维度分别对应的视角参考文本作为一个训练集;将一个样本描述文本,以及与此描述文本对应的、且与一个视角维度对应的视角参考文本作为训练集中的一个训练对,这样,便能基于多个训练集对文本生成模型进行训练;基于多个训练集中的、且具有相同视角维度的多个训练对,对相应视角特征提取单元进行训练。其中,训练集的描述文本和视角参考文本可以从多个公开数据集中获取。
步骤S504,通过文本生成模型中的编码结构,对样本描述文本进行语义编码处理,得到对应的预测编码向量序列。
具体地,当获取得到当前训练集中的当前样本描述文本时,计算机设备可将当前样本描述文本输入至文本生成模型中的编码结构中,通过编码结构对当前样本描述文本进行语义编码处理,得到对应的预测编码向量序列。
步骤S506,通过文本生成模型中的视角特征抽取结构,并根据预测编码向量序列,确定多个视角维度下的多个预测视角特征。
具体地,计算机设备可将当前样本描述文本的预测编码向量序列,输入至文本生成模型中的视角特征抽取结构中,按照上述视角特征抽取方法,基于预测编码向量序列,确定多个视角维度下的预测视角特征。
步骤S508,从多个预测视角特征中,筛选与相应视角参考文本所对应的目标视角维度的目标视角特征,并基于目标视角特征对编码向量序列进行解码处理,输出与目标视角维度对应的预测内容文本。
具体地,计算机设备确定每个视角参考文本各自对应的预设视角维度,并从多个预测视角特征中,筛选出每个预设视角维度各自对应的目标视角特征,也就是从多个预测视角特征中,筛选出每个视角参考文本各自对应的目标视角特征。进一步地,文本生成模型中的解码结构基于多个目标视角特征中的每个目标视角特征,分别对预测编码向量序列进行解码处理,从而得到与相应目标视角特征对应的目标视角维度下的预测内容文本。示例性地,当视角参考文本“我觉得很好听啊”所对应的预设视角维度为歌曲韵律视角维度,视角参考文本“歌词很唯美”所对应的预设视角维度为歌词风格视角维度时,计算机设备从多个预测视角特征中筛选出与“我觉得很好听啊”相对应的第一目标视角特征,以及从多个预测视角特征中筛选出与“歌词很唯美”相对应的第二目标视角特征,并基于第一目标视角特征对预测编码向量序列进行解码处理,得到与歌曲韵律视角维度相对应的第一预测内容文本,基于第二目标视角特征对预测编码向量序列进行解码处理,得到与歌词风格视角维度相对应的第二预测内容文本。
步骤S510,基于多个视角维度各自对应的预测内容文本、以及相应视角维度所对应的视角参考文本,对文本生成模型进行训练。
具体地,计算机设备可朝着减小相同视角维度下的视角参考文本和预测内容文本之间的差异的方向,调整模型参数。这样,通过不断的输入样本对,得到预测内容文本,根据预测内容文本和视角参考文本之间的差异调整模型参数,以训练文本生成模型。
为了更好地理解本实施例,下面对通过具有相同视角维度的视角参考文本和预测内容文本,对文本生成模型进行训练的步骤进行详细说明。当基于当前视角特征,生成与当前视角维度相对应的目标预测内容文本时,计算机设备获取与当前视角维度相对应的目标视角参考文本,以及确定抽取出当前视角特征的目标视角特征抽取单元,并计算目标视角参考文本与目标预测内容文本之间的差异,朝着减小目标视角参考文本与目标预测内容文本之间的差异的方向,调整目标视角特征抽取单元的视角参数,直至满足训练停止条件时停止。
在一个实施例中,参考图6,图6示出了一个实施例中,文本生成模型在训练阶段的模型结构示意图。如图6所示,在训练阶段,文本生成模型可包括编码结构、视角特征抽取结构、目标特征确定结构、以及解码结构。通过编码结构,可对样本描述文本进行编码,得到对应的预测编码向量序列H;通过视角特征提取结构,可基于预测编码向量序列,确定多个视角维度下的多个预测视角特征(p1,p2,...,pk);通过目标特征确定结构,可确定相应视角参考文本所对应的目标视角维度的目标视角特征p′i(1≤i≤k);通过解码结构可输出与目标视角维度对应的预测内容文本γi(1≤i≤k)。其中,k表示视角特征抽取结构中的视角特征抽取单元的总数量。
上述实施例中,在训练的过程中,由于训练的目标考虑了多个视角维度的多个视角参考文本,输出每个视角维度分别对应的内容文本,使得训练得到的模型可以充分学习到最本质的各视角维度间的差异,从而大大提高了文本生成模型所生成的内容文本的多样性。
在一个实施例中,从多个预测视角特征中,筛选与相应视角参考文本所对应的目标视角维度的目标视角特征,包括:对于多个预测视角特征中的每个预测视角特征,分别确定与相应预测视角特征对应的视角参考文本;确定每个预测视角特征分别与样本描述文本相匹配的第一匹配值;确定每个预测视角特征分别与对应的视角参考文本相匹配的第二匹配值;根据第一匹配值及第二匹配值,从多个预测视角特征中筛选出与视角参考文本所对应的目标视角维度的目标视角特征。
具体地,当获取得到每个预测视角特征各自对应的视角参考文本时,计算机设备通过文本生成模型中的目标特征确定结构,确定每个预测视角特征分别与样本描述文本相匹配的第一匹配值,以及确定每个预测视角特征分别与对应的视角参考文本相匹配的第二匹配值,并基于第一匹配值和第二匹配值,从多个预测视角特征中筛选出各视角维度各自对应的目标视角特征。其中,目标特征确定结构包括先验抽取单元和后验抽取单元。其中,先验抽取单元用于确定每个预测视角特征分别与样本描述文本相匹配的第一匹配值;后验抽取单元用于确定每个预测视角特征分别与对应的视角参考文本相匹配的第二匹配值。
为了更好地理解本实施例,下述对确定当前视角参考文本所对应的目标视角维度的目标视角特征的步骤进行进一步阐述。当需要从多个预测视角特征中筛选出与当前视角参考文本所对应的目标视角维度相对应的目标视角特征时,计算机设备获取当前样本描述文本,并通过如图6所示的先验抽取单元确定每个预测视角特征分别与当前样本描述文本相匹配的第一匹配值,也就是确定样本描述文本为当前样本描述文本的情况下,文本生成模型抽取出各预测视角特征的第一概率值。进一步地,计算机设备通过如图6所示的后验抽取单元,确定具有目标视角维度的目标视角参考文本,以及确定每个预测视角特征分别与目标视角参考文本相匹配的第二匹配值,也即确定视角参考文本为目标视角参考文本的情况下,抽取出各预测视角特征的第二概率值。其中,当前样本描述文本是与目标视角参考文本属于同一训练对的样本描述文本。
进一步地,文本生成模型确定第一匹配值和第二匹配值之和W,根据第一匹配值和第二匹配值之和W,从多个预测视角特征中筛选出目标视角特征,以使筛选出的目标视角特征与当前样本描述文本、以及与目标视角参考文本最为匹配,也就是说,所筛选出目标视角特征能够使得第一概率值和第二概率值之和最大。
在其中一个实施例中,计算机设备可基于以下公式确定每个预测视角特征分别与当前样本描述文本相匹配的第一匹配值:
其中,pα(pi|X)为当样本描述文本为X时,抽取出视角特征pi的概率,pi表示第i个视角特征抽取单元所抽取出的视角特征,代表pi的转置矩阵,X为样本描述文本所对应的词序列,k视角特征抽取单元的总数量,m为样本描述文本所对应的词序列的序列长度,Wz、Wx为可学习的模型参数,具体为参数矩阵,b为偏置矩阵。
在其中一个实施例中,目标视角特征确定结构可基于以下公式确每个预测视角特征分别与目标视角参考文本相匹配的第二匹配值:
其中,D为目标视角参考文本所对应的词序列。通过增加Wz、Wx两个可学习的参数矩阵、以及使用Maxout激活函数,可以减少pα(pi|X)以及pβ(pi|D)间的过拟合概率,从而提升文本生成模型的训练效率。
在其中一个实施例中,当每个预测视角特征分别与当前目标样本描述文本相匹配的第一匹配值为pα(pi|X),每个预测视角特征分别与目标视角参考文本相匹配的第二匹配值为pβ(pi|D)时,计算机设备可以通过公式τi=softmax(Wαpα+Wβpβ+b),μ=argmax(τi)(i=1,2,...,k),确定与当前目标视角维度相对应的具有第一匹配值和第二匹配值之和最大的目标视角特征p′。其中,p′所对应的第一匹配值和第二匹配值进行加权求和后为μ。
上述实施例中,通过分别确定每个预测视角特征分别与所述样本描述文本相匹配的第一匹配值,以及每个预测视角特征分别与对应的视角参考文本相匹配的第二匹配值,使得基于第一匹配值和第二匹配值训练得到的文本生成模型可以包含有更多的视角维度信息,有助于生成多种视角维度的内容文本。
在一个实施例中,基于多个视角维度各自对应的预测内容文本、以及相应视角维度所对应的视角参考文本,对文本生成模型进行训练,包括:根据多个视角维度各自对应的预测内容文本、以及相应视角维度所对应的视角参考文本的差异,确定对应的内容文本损失;根据内容文本损失确定目标损失函数;通过目标函数对文本生成模型进行训练,直至达到训练停止条件时停止,得到训练好的文本生成模型。
其中,内容文本损失用于评估文本生成模型所生成的预测内容文本与相应视角所对应的视角参考文本之间的差异程度。具体地,对于多个视角维度中的每个视角维度,文本生成模型可确定具有相同视角维度的预测内容文本和视角参考文本,根据具有相同视角维度的预测内容文本和视角参考文本之间的差异程度确定相应视角维度的内容文本损失,并将相应视角维度的内容文本损失设置为目标损失函数,对文本生成模型进行训练,直至达到训练停止时停止训练。
在其中一个实施例中,计算机设备可通过以下公式确定内容文本损失:
LG=-logp(Y|S,P)
其中,S为视角参考文本,Y为与S具有相同视角维度的预测内容文本,P=|p1,p2,…,pk|,并表示多个视角维度所分别对应的预测视角特征;k为视角特征抽取单元的单元总单元数。
上述实施例中,通过内容文本确定对应的目标损失函数,使得基于目标损失函数训练得到的文本生成模型所生成的预测内容文本更为准确。
在一个实施例中,基于多个视角维度各自对应的预测内容文本、以及相应视角维度所对应的视角参考文本,对文本生成模型进行训练包括:根据多个视角维度各自对应的预测内容文本、以及相应视角维度所对应的视角参考文本的差异,确定对应的内容文本损失;对多个预测视角特征进行特征融合,得到对应的视角融合特征;确定每个预测视角特征分别与视角融合特征间的相似度,并根据相似度确定视角差异损失;根据内容文本损失以及视角差异损失,确定目标损失函数;通过目标损失函数对文本生成模型进行训练,直至达到训练停止条件时停止,得到训练好的文本生成模型。
其中,视角差异损失用于评估文本生成模型所抽取出的预测视角特征之间的差异程度。具体的,计算机设备根据多个视角维度各自对应的预测内容文本、以及相应视角维度所对应的视角参考文本的差异,确定对应的内容文本损失。与此同时,计算机设备可通过指数求和、加权求和等方式,对多个视角特征进行融合,得到视角融合特征,并分别确定每个预测视角特征与视角融合特征之间的相似度,根据相似度,确定视角差异损失。进一步地,计算机设备根据内容文本损失以及视角差异损失,确定目标损失函数,并通过目标损失函数对文本生成模型进行训练,直至达到训练停止条件时停止。
在其中一个实施例中,可以通过以下公式确定视角融合特征,从而第i个视角特征抽取单元所输出的预测视角特征分别与所述视角融合特征间的相似度为视角差异损失LD=||DDT-I||F,目标损失函数为L=γ1LG+γ2LD。其中,γ1、γ2为权重;pi为第i个预测视角特征;k为视角特征抽取单元的单元总数量;D=|D1,D2,…,Dk|;I为偏置矩阵。
上述实施例中,通过引入视角差异损失对文本生成模型进行训练,可以提高预测视角特征之间的距离,减少在文本翻译过程中生成重复内容文本的概率,从而大大提升所生成的内容文本的多样性。
在一个实施例中,在文本生成模型的训练阶段,编码结构包括第一编码器和第二编码器;预测编码向量序列由第一编码器输出;视角参考文本包括正视角参考文本和负视角参考文本;方法还包括:通过第二编码器对正视角参考文本和负视角参考文本分部进行编码,得到相应的正参考向量序列和负参考向量序列;确定预测编码向量序列与正参考向量序列间的第三匹配值;确定预测编码向量序列与负参考向量序列间的第四匹配值;根据第三匹配值、第四匹配值及与正视角参考文本对应的第一文本标签、与负视角参考文本对应的第二文本标签,构建编码损失;根据内容文本损失以及视角差异损失,确定目标损失函数,包括:根据内容文本损失、视角差异损失、以及编码损失,确定目标损失函数。
其中,编码损失用于评估第一编码器所生成的预测编码向量序列与第二编码器所生成的正参考向量序列和负参考向量序列之间的匹配程度。其中,正参考向量序列是第二编码器对正视角参考文本进行编码后生成的向量序列;负参考向量序列是第二编码器对负视角参考文本进行编码后生成的向量序列。正视角参考文本为与样本描述文本相匹配的视角参考文本;正视角参考文本为不与样本描述文本匹配的视角参考文本,基于正视角参考文本和负视角参考文本,计算机设备可对文本生成模型进行训练,使得训练后的文本生成模型中的编码结构具有更高的可靠性。
具体地,在训练阶段,文本生成模型中的编码结构包括第一编码器和第二编码器,其中,第一编码器用于对样本描述文本进行编码,得到预测编码向量序列;第二编码器用于对正视角参考文本或负视角参考文本进行编码,得到正参考向量序列或负参考向量序列。进一步地,计算机设备确定预测编码向量序列与正参考向量序列间的第三匹配值以及预测编码向量序列与负参考向量序列间的第四匹配值,并根据第三匹配值、第四匹配值、以及与正视角参考文本对应的第一文本标签、与负视角参考文本对应的第二文本标签,构建编码损失。其中,第一文本标签为用于表征当前视角参考文本为正视角参考文本的样本标签,具体地,第一文本标签可以为r=1;第二文本标签为用于表征当前视角参考文本为负视角参考文本的样本标签,具体地,第二文本标签可以为r=0。
进一步地,当获取得到编码损失时,计算机设备根据编码损失、视角差异损失、以及内容文本损失确定目标损失函数,并根据目标损失函数对文本生成模型进行训练直至达到训练停止条件时停止。
在其中一个实施例中,在文本生成模型的训练阶段,编码结构可包括第一编码器和第二编码器,在文本生成模型的使用阶段,编码结构可仅包括第一编码器。
在其中一个实施例中,在文本生成模型的训练阶段,编码结构可包括第一编码器和第二编码器,从而确定每个预测视角特征分别与所述样本描述文本相匹配的第一匹配值、以及确定每个预测视角特征分别与对应的视角参考文本相匹配的第二匹配值,包括:确定每个预测视角特征分别与第一编码器输出的预测编码向量序列相匹配的第一匹配值、以及确定每个预测视角特征分别与第二编码器输出对应的参考向量序列相匹配的第一匹配值。
在其中一个实施例中,计算机设备可通过公式LM=-logP(r=1|X,Y)+logP(r=1|X,Y-)确定编码损失,从而目标损失函数为L=γ1LG+γ2LD+γ3LM。其中,γ1、γ2以及γ3为权重;X为样本描述文本;Y为正视角参考文本;Y-为负视角参考文本。
上述实施例中,在训练模型的过程中,训练的目标不仅仅考虑预测内容文本与参考内容文本之间的差异性、各预测视角特征之间的差异性,还考虑了编码结构的准确性,使得训练得到的文本生成模型可输出更为准确的预测编码向量序列,大大提高了文本生成的准确率,使得内容文本的质量更高。
在一个实施例中,如图7所示,提供了一种音乐评论文本生成方法,本实施例主要以该方法应用于计算机设备来举例说明,该计算机设备可以是上述图1中的终端102或服务器104。参照图7,该音乐评论文本生成方法具体包括如下步骤:
步骤S702,获取与目标音乐对应的描述文本,描述文本包括目标音乐的歌词文本、韵律描述文本、以及作者属性文本中的至少一种。
具体地,当需要生成目标音乐的音乐评论文本时,计算机设备可获取与目标音乐对应的描述文本。其中,描述文本为用以生成音乐评论的初始文本。描述文本具体可以是目标音乐的歌词文本、韵律文本、以及作者属性文本中的至少一种。其中,歌词文本为用以记录音乐歌词的文本,比如,歌词文本可以为“晴时云偶阵雨,偶失去太阳的勇气,就算浸湿了翅膀,梦想也不曾停止远扬…”。韵律文本为用以描述音乐韵律的文本,比如,韵律文本可以为“本歌曲第一小节的节奏为四八拍、第二小节的节奏为五四拍”。作者属性文本为用以记录有与作者相关的信息的文本。其中,作者可以为作词者、作曲者、演唱者等;与作者相关的信息可以为作者姓名、作者爱好、作者风格、以及作者性格等。比如,作者属性文本可以为“作词-小方,爱好-作词,风格-擅长古文风,性格-温柔;作曲-小明,爱好-作曲,风格-擅长创作轻柔类型的曲调,性格-温柔;演唱-小红,爱好-唱歌,风格-擅长说唱,性格-暴躁”。
步骤S704,对描述文本进行语义编码处理,得到对应的编码向量序列。
具体地,当获取得到描述文本时,计算机设备对描述文本进行语义编码处理,得到对应的编码向量序列。其中,计算机设备对描述文本进行语义编码的具体内容可参考前述实施例中的相关描述。
步骤S706,根据编码向量序列,确定与多个视角维度分别对应的多个视角特征;多个视角维度包括歌曲韵律维度、歌词内容维度、听者行为维度、以及作者风格维度中的至少两种。
其中,视角维度是对描述文本进行观察的特定角度。视角维度具体可以为歌曲韵律维度、歌词内容维度、听者行为维度、以及作者风格维度等。容易理解地,歌曲韵律维度所对应的视角特征是计算机设备从歌曲韵律角度对描述文本进行特征抽取而得的视角特征;歌词内容维度所对应的视角特征是计算机设备从歌词内容角度对描述文本进行特征抽取而得的视角特征;同理,听者行为维度所对应的视角特征以及作者风格维度所对应的视角特征,是计算机设备从听者行为角度和作者风格角度对描述文本进行特征抽取而得的视角特征。
具体地,计算机设备确定每个视角维度分别对应的特征提取函数,将编码向量序列分别输入至各特征提取函数,基于特征提取函数,确定与每个视角维度分别对应的视角特征。其中,多个视角维度包括歌曲韵律维度、歌词内容维度、听者行为维度、以及作者风格维度中的至少两种。其中,计算机设备确定与多个视角维度分别对应的多个视角特征的具体内容可参考前述实施例中的相关描述。
步骤S708,基于多个视角特征中的每个视角特征,分别对编码向量序列进行解码处理,输出与目标任务对应、且与每个视角维度分别对应的音乐评论文本。
具体地,计算机设备可基于多个视角特征中的每个视角特征,分别对编码向量序列进行语义解码,确定组成内容文本的各目标词的词向量,从而得到与每个视角维度分别对应的内容文本。比如,在上述举例中,计算机设备可基于歌曲韵律维度下的视角特征,对编码向量序列进行解码,得到与歌曲韵律维度对应的音乐评论文本“四八拍真的很符合大众审美”;基于歌词内容维度下的视角特征,对编码向量进行解码,得到与歌词内容维度对应的音乐评论文本“希望你的梦想从来不曾停止远扬”;基于听着行为维度下的视角特征,对编码向量进行解码,得到与听着行为维度对应的音乐评论文本“当听到梦想也不曾远扬时,我忍不住流下了感动的泪水”;基于作者风格维度下的视角特征,对编码向量进行解码,得到与作者风格维度对应的音乐评论文本“虽然这首歌的演唱者更擅长说唱,但是他唱的这首古风歌曲也很好听”。其中,计算机设备基于视角特征,对描述文本进行语义解码的具体内容可参考前述实施例中的相关描述。
上述音乐评论文本生成方法,获取与目标音乐相对应的歌词文本、韵律描述文本、以及作者属性文本中的至少一种,可对获取得到的歌词文本、韵律描述文本、或作者属性文本进行语义编码处理,得到对应的编码向量序列,如此,便能基于编码向量序列确定与歌曲韵律维度、歌词内容维度、听者行为维度、以及作者风格维度中的至少两种分别对应的视角特征;通过确定多个视角维度分别对应的多个视角特征,可基于多个视角特征中的每个视角特征,分别对编码向量序列进行解码处理,得到与歌曲韵律维度、歌词内容维度、听者行为维度、以及作者风格维度中的至少两种分别对应的音乐评论文本,这样,大大提升了所生成的音乐评论文本的多样性。
在一个实施例中,获取与目标音乐对应的描述文本,包括:获取线索关键词,并确定与线索关键词对应的目标音乐标识;基于目标音乐标识进行检索,获得与目标音乐标识对应的歌词文本、韵律描述文本、以及作者属性文本;将歌词文本、韵律描述文本、以及作者属性文本中的至少一种,作为目标音乐标识所指向的目标音乐的描述文本。
具体地,当需要生成音乐评论文本时,用户可在计算机设备中输入线索关键词,从而计算机设备可根据线索关键词进行歌曲定位,得到对应的目标音乐标识。其中,线索关键词为用以确定与目标音乐标识的关键词,线索关键词具体可以为歌曲名称、作者名称、发行时间、发行商、或部分歌词中的一种或多种。进一步地,计算机设备基于目标音乐标识,进行本地检索或网络检索,获得与目标音乐标识对应的歌词文本、韵律描述文本、以及作者属性文本,并将歌词文本、韵律描述文本、以及作者属性文本中的至少一种,作为目标音乐标识所指向的目标音乐的描述文本。确定目标音乐的描述文本的确定方法可根据需求自由设定,比如,当获取得到歌词文本、韵律描述文本、以及作者属性文本时,计算机设备可对应展示歌词文本、韵律描述文本、以及作者属性文本,从而用户可根据所展示的歌词文本、韵律描述文本、以及作者属性文本,选择目标音乐标识所指向的目标音乐的描述文本;又比如,计算机设备直接将所获得的全部文本作为目标音乐标识所指向的目标音乐的描述文本。本实施例在此不作限定。
本实施例中,通过对关键检索词进行文本扩充处理,使得描述文本中可以包含有更为丰富的文本信息,从而可以基于更为丰富的文本信息输出更多视角下的内容文本,进而丰富了所输出的内容文本的多样性。
在另一个具体实施例中,如图8所示,本申请提供的内容文本生成方法包括以下步骤:
S802,确定目标任务,并获取与目标任务对应的线索关键词;基于线索关键词进行检索,得到与目标任务匹配的描述文本。
S804,确定描述文本的词序列;对描述文本的词序列进行正向语义编码和反向语义编码,得到对应的正向编码向量序列和反向编码向量序列。
S806,对正向编码向量序列和反向编码向量序列进行序列融合,得到与描述文本对应的编码向量序列。
S808,确定与每个视角维度分别对应的特征提取函数;其中,不同视角维度所对应的特征提取函数具有不同的视角参数。
S810,将编码向量序列分别输入至每个特征提取函数,通过各个特征提取函数所对应的视角参数,对各自输入的编码向量序列进行处理,得到与多个视角维度分别对应的多个视角特征。
S812,对于多个视角维度中的每个视角维度,分别依次获取当次的与编码向量序列对应的注意力权重向量;根据注意力权重向量、以及编码向量序列,计算得到当次的内容向量。
S814,依次根据当次的内容向量、前次的解码隐层向量、以及前次确定的目标词的词向量,计算得到当次的解码隐层向量,并根据当次的解码隐层向量和当次的内容向量确定当次的目标词;其中,对于多个视角维度中的每个视角维度,分别将相应视角维度所对应的视角特征,作为与相应视角维度对应的解码过程中初次解码时的初始解码隐层向量。
S816,对于每个视角维度,分别基于相应依次解码得到的各个目标词,构成相应的视角维度所对应的首轮的内容子文本。
S818,从首轮之后的第二轮次起的当前轮次中,对于每个视角维度,分别根据相应视角维度的历史轮次的内容子文本和描述文本进行语义编码处理,得到当前轮次的编码向量序列;历史轮次为在当前轮次之前的至少一个轮次。
S820,对于每个视角维度,分别通过与相应视角维度对应的视角参数继续对当前轮次的编码向量序列进行处理,得到当前轮次的相应视角维度的视角特征。
S822,对于每个视角维度,分别基于当前轮次的相应视角维度的视角特征,对当前轮次的编码向量序列进行解码处理,得到当前轮次的与各个视角维度分别对应的内容子文本。
S824,将下一轮次作为当前轮次并返回至从首轮之后的第二轮次起的当前轮次中,对于每个视角维度,分别根据相应视角维度的历史轮次的内容子文本和描述文本进行语义编码处理,得到当前轮次的编码向量序列的步骤并继续执行,直至满足预设停止条件时停止,得到多个视角维度各自对应的多于一轮的内容子文本。
S826,对于多个视角维度中的每个视角维度,将每个视角维度所对应的多于一轮的内容子文本,构成相应视角维度所对应的内容文本。
上述内容文本生成方法中,获取与目标任务相对应的描述文本,可对描述文本进行语义编码处理,得到对应的编码向量序列,如此,便能基于编码向量序列确定与多个视角维度分别对应的多个视角特征;通过确定多个视角维度分别对应的多个视角特征,可基于多个视角特征中的每个视角特征,分别对编码向量序列进行解码处理,得到与每个视角维度分别对应的内容文本,这样,大大提升了所生成的内容文本的多样性。
在另一个具体实施例中,如图9所示,本申请提供的文本生成模型训练方法包括以下步骤:
S902,获取样本描述文本,并获取与样本描述文本对应的、且与多个视角维度分别对应的视角参考文本。
S904,通过文本生成模型中的编码结构,对样本描述文本进行语义编码处理,得到对应的预测编码向量序列。
S906,通过文本生成模型中的视角特征抽取结构,并根据预测编码向量序列,确定多个视角维度下的多个预测视角特征。
S909,对于多个预测视角特征中的每个预测视角特征,分别确定与相应预测视角特征对应的视角参考文本。
S910,确定每个预测视角特征分别与样本描述文本相匹配的第一匹配值,以及确定每个预测视角特征分别与对应的视角参考文本相匹配的第二匹配值。
S912,根据第一匹配值及第二匹配值,从多个预测视角特征中筛选出与视角参考文本所对应的目标视角维度的目标视角特征。
S914,基于目标视角特征对编码向量序列进行解码处理,输出与目标视角维度对应的预测内容文本。
S916,根据多个视角维度各自对应的预测内容文本、以及相应视角维度所对应的视角参考文本的差异,确定对应的内容文本损失。
S919,对多个预测视角特征进行特征融合,得到对应的视角融合特征,并确定每个预测视角特征分别与视角融合特征间的相似度,并根据相似度确定视角差异损失。
S920,文本生成模型的训练阶段,编码结构包括第一编码器和第二编码器;通过第二编码器对正视角参考文本和负视角参考文本分部进行编码,得到相应的正参考向量序列和负参考向量序列。
S922,确定预测编码向量序列与正参考向量序列间的第三匹配值,以及确定预测编码向量序列与负参考向量序列间的第四匹配值。
S924,根据第三匹配值、第四匹配值及与正视角参考文本对应的第一文本标签、与负视角参考文本对应的第二文本标签,构建编码损失。
S926,根据内容文本损失、视角差异损失、以及编码损失,确定目标损失函数;通过目标损失函数对所文本生成模型进行训练,直至达到训练停止条件时停止,得到训练好的文本生成模型。
上述文本生成模型训练方法中,在训练的过程中,由于训练的目标考虑了多个视角维度的多个视角参考文本,使得训练得到的模型可以充分学习到最本质的各视角维度间的差异,输出每个视角维度分别对应的内容文本,从而大大提高了文本生成模型所生成的内容文本的多样性。
应该理解的是,虽然图2、5、7-9的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2、5、7-9中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
本申请还提供一种应用场景,该应用场景应用上述的内容文本生成方法。具体地,该内容文本生成方法在该应用场景的应用如下:
当目标任务为基于歌曲生成音乐评论,且与目标任务相对应的线索关键词为歌曲名称时,计算机设备基于歌曲名称进行网络检索,得到与此歌曲名称相对应的完整的目标歌词,并将完整的目标歌词作为描述文本输入至预训练的文本生成模型中。文本生成模型接收目标歌词,并通过编码结构对目标歌词进行编码,得到对应的编码向量序列,并将编码向量序列输入至视角特征提取结构中,通过视角特征提取结构输出多个视角维度分别对应的视角特征。进一步地,视角特征提取结构将多个视角维度分别对应的视角特征输入至解码结构,由解码结构基于多个视角特征中的每个视角特征,分别对编码向量序列进行解码处理,输出与生成音乐评论任务对应、且与每个视角维度分别对应的音乐评论。
本申请还另外提供一种应用场景,该应用场景应用上述的内容文本生成方法。具体地,该内容文本生成方法在该应用场景的应用如下:
当目标任务为基于标题生成诗歌时,计算机设备获取待生成诗歌的目标诗歌标题,并将此目标诗歌标题输入至文本生成模型,通过文本生成模型中的编码结构对目标诗歌标题进行编码,得到对应的编码向量序列。计算机设备将编码向量序列输入至视角特征抽取结构,由视角特征抽取结构输出多个视角维度分别对应的视角特征,并由解码结构基于多个视角特征中的每个视角特征,分别对编码向量序列进行解码处理,输出与各视角维度分别对应的第一句诗句,也即得到与各视角维度分别对应的首轮的内容子文本。
进一步地,计算机设备从首轮之后的第二轮次起的当前轮次中,对于每个视角维度,分别将相应视角维度的历史轮次的诗句和目标诗歌标题输入文本生成模型进行语义编码处理,得到当前轮次的与各个视角维度分别对应的内容子文本。依次迭代,直至生成预设数量句子的诗歌时停止,得到多个视角维度各自对应的多于一轮的内容子文本,从而基于多个视角维度各自对应的多于一轮的内容子文本,得到多个视角维度各自对应的诗歌。
在一个实施例中,如图10所示,提供了一种内容文本生成装置1000,该装置可以采用软件模块或硬件模块,或者是二者的结合成为计算机设备的一部分,该装置具体包括:描述文本获取模块1002、视角特征获取模块1004和内容文本确定模块1006,其中:
描述文本获取模块1002,用于获取与目标任务对应的描述文本。
视角特征获取模块1004,用于对描述文本进行语义编码处理,得到对应的编码向量序列;根据编码向量序列,确定与多个视角维度分别对应的多个视角特征。
内容文本确定模块1006,用于基于多个视角特征中的每个视角特征,分别对编码向量序列进行解码处理,输出与目标任务对应、且与每个视角维度分别对应的内容文本。
在一个实施例中,如图11所示,描述文本获取模块1002还用于确定目标任务,并获取与目标任务对应的线索关键词;基于线索关键词进行检索,得到与目标任务匹配的描述文本。
在一个实施例中,视角特征获取模块1004还用于确定描述文本的词序列;对描述文本的词序列进行正向语义编码和反向语义编码,得到对应的正向编码向量序列和反向编码向量序列;对正向编码向量序列和反向编码向量序列进行序列融合,得到与描述文本对应的编码向量序列。
在一个实施例中,视角特征获取模块1004还用于确定与每个视角维度分别对应的特征提取函数;其中,不同视角维度所对应的特征提取函数具有不同的视角参数;将编码向量序列分别输入至每个特征提取函数,通过各个特征提取函数所对应的视角参数,对各自输入的编码向量序列进行处理,得到与多个视角维度分别对应的多个视角特征。
在一个实施例中,内容文本包括多于一个的内容子文本,内容文本确定模块1006还包括第一内容获取模块1061,用于基于多个视角特征中的每个视角特征,分别对编码向量序列进行解码处理,得到与各个视角维度分别对应的首轮的内容子文本;从首轮之后的第二轮次起的当前轮次中,对于每个视角维度,分别根据相应视角维度的历史轮次的内容子文本和描述文本进行语义编码处理,得到当前轮次的编码向量序列;历史轮次为在当前轮次之前的至少一个轮次;对于每个视角维度,分别通过与相应视角维度对应的视角参数继续对当前轮次的编码向量序列进行处理,得到当前轮次的相应视角维度的视角特征;对于每个视角维度,分别基于当前轮次的相应视角维度的视角特征,对当前轮次的编码向量序列进行解码处理,得到当前轮次的与各个视角维度分别对应的内容子文本;将下一轮次作为当前轮次并返回至从首轮之后的第二轮次起的当前轮次中,对于每个视角维度,分别根据相应视角维度的历史轮次的内容子文本和描述文本进行语义编码处理,得到当前轮次的编码向量序列的步骤并继续执行,直至满足预设停止条件时停止,得到多个视角维度各自对应的多于一轮的内容子文本;对于多个视角维度中的每个视角维度,将每个视角维度所对应的多于一轮的内容子文本,构成相应视角维度所对应的内容文本。
在一个实施例中,内容文本确定模块1006还包括第二内容获取模块1062,用于对于多个视角维度中的每个视角维度,分别依次对编码向量序列进行解码得到解码隐层向量,且每次解码时根据前次确定的目标词的词向量进行解码,并根据当次的解码隐层向量确定当次的目标词;其中,对于多个视角维度中的每个视角维度,分别将相应视角维度所对应的视角特征,作为与相应视角维度对应的解码过程中初次解码时的初始解码隐层向量;对于每个视角维度,分别基于相应依次解码得到的各个目标词,构成相应的视角维度所对应的内容文本。
在一个实施例中,第二内容获取模块1062还用于依次获取当次的与编码向量序列对应的注意力权重向量;根据注意力权重向量、以及编码向量序列,计算得到当次的内容向量;依次根据当次的内容向量、前次的解码隐层向量、以及前次确定的目标词的词向量,计算得到当次的解码隐层向量,并根据当次的解码隐层向量和当次的内容向量确定当次的目标词。
在一个实施例中,内容文本生成方法通过文本生成模型执行,文本生成模型包括编码结构、视角特征抽取结构和解码结构。内容文本生成装置1000还用于通过文本生成模型中的编码结构对描述文本进行语义编码处理,得到对应的编码向量序列;通过文本生成模型中的视角特征抽取结构,并基于与各个视角维度分别对应的视角参数,对编码向量序列分别进行处理,得到与各个视角维度分别对应的视角特征;通过文本生成模型中的解码结构,并基于多个视角特征中的每个视角特征,分别对编码向量序列进行解码处理,输出与目标任务对应、且与每个视角维度分别对应的内容文本。
在一个实施例中,内容文本生成装置1000还包括训练模块1008,用于获取样本描述文本,并获取与样本描述文本对应的、且与多个视角维度分别对应的视角参考文本;通过文本生成模型中的编码结构,对样本描述文本进行语义编码处理,得到对应的预测编码向量序列;通过文本生成模型中的视角特征抽取结构,并根据预测编码向量序列,确定多个视角维度下的多个预测视角特征;从多个预测视角特征中,筛选与相应视角参考文本所对应的目标视角维度的目标视角特征,并基于目标视角特征对编码向量序列进行解码处理,输出与目标视角维度对应的预测内容文本;基于多个视角维度各自对应的预测内容文本、以及相应视角维度所对应的视角参考文本,对文本生成模型进行训练。
在一个实施例中,训练模块1008还包括目标特征确定模块1081,用于对于多个预测视角特征中的每个预测视角特征,分别确定与相应预测视角特征对应的视角参考文本;确定每个预测视角特征分别与样本描述文本相匹配的第一匹配值;确定每个预测视角特征分别与对应的视角参考文本相匹配的第二匹配值;根据第一匹配值及第二匹配值,从多个预测视角特征中筛选出与视角参考文本所对应的目标视角维度的目标视角特征。
在一个实施例中,训练模块1008还包括损失函数确定模块1082,用于根据多个视角维度各自对应的预测内容文本、以及相应视角维度所对应的视角参考文本的差异,确定对应的内容文本损失;根据内容文本损失确定目标损失函数;通过目标损失函数对文本生成模型进行训练,直至达到训练停止条件时停止,得到训练好的文本生成模型。
在一个实施例中,损失函数确定模块1082还用于根据多个视角维度各自对应的预测内容文本、以及相应视角维度所对应的视角参考文本的差异,确定对应的内容文本损失;对多个预测视角特征进行特征融合,得到对应的视角融合特征;确定每个预测视角特征分别与视角融合特征间的相似度,并根据相似度确定视角差异损失;根据内容文本损失以及视角差异损失,确定目标损失函数;通过目标损失函数对文本生成模型进行训练,直至达到训练停止条件时停止,得到训练好的文本生成模型。
在一个实施例中,编码结构包括第一编码器和第二编码器,预测编码向量序列由第一编码器输出,视角参考文本包括正视角参考文本和负视角参考文本;损失函数确定模块1082还用于通过第二编码器对正视角参考文本和负视角参考文本分部进行编码,得到相应的正参考向量序列和负参考向量序列;确定预测编码向量序列与正参考向量序列间的第三匹配值;确定预测编码向量序列与负参考向量序列间的第四匹配值;根据第三匹配值、第四匹配值及与正视角参考文本对应的第一文本标签、与负视角参考文本对应的第二文本标签,构建编码损失;根据内容文本损失以及视角差异损失,确定目标损失函数,包括:根据内容文本损失、视角差异损失、以及编码损失,确定目标损失函数。
关于内容文本生成装置的具体限定可以参见上文中对于内容文本生成方法的限定,在此不再赘述。上述内容文本生成装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
如图12所示,提供了一种音乐评论文本生成装置1200,该装置可以采用软件模块或硬件模块,或者是二者的结合成为计算机设备的一部分,该装置具体包括:
文本获取模块1202,用于获取与目标音乐对应的描述文本,描述文本包括所述目标音乐的歌词文本、韵律描述文本、以及作者属性文本中的至少一种。
特征确定模块1204,用于对描述文本进行语义编码处理,得到对应的编码向量序列;根据编码向量序列,确定与多个视角维度分别对应的多个视角特征;多个视角维度包括歌曲韵律维度、歌词内容维度、听者行为维度、以及作者风格维度中的至少两种。
评论文本生成模块1206,用于基于多个视角特征中的每个视角特征,分别对编码向量序列进行解码处理,输出与目标任务对应、且与每个视角维度分别对应的音乐评论文本。
在一个实施例中,文本获取模块1202还用于获取线索关键词,并确定与线索关键词对应的目标音乐标识;基于目标音乐标识进行检索,获得与目标音乐标识对应的歌词文本、韵律描述文本、以及作者属性文本;将歌词文本、韵律描述文本、以及作者属性文本中的至少一种,作为目标音乐标识所指向的目标音乐的描述文本。
关于音乐评论文本生成装置的具体限定可以参见上文中对于音乐评论文本生成方法的限定,在此不再赘述。上述音乐评论文本生成装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图13所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储内容文本生成数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种内容文本生成方法。
本领域技术人员可以理解,图13中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,还提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各方法实施例中的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory,ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic Random Access Memory,DRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (15)
1.一种内容文本生成方法,其特征在于,所述方法包括:
获取与目标任务对应的描述文本;
对所述描述文本进行语义编码处理,得到对应的编码向量序列;
根据所述编码向量序列,确定与多个视角维度分别对应的多个视角特征;
基于所述多个视角特征中的每个视角特征,分别对所述编码向量序列进行解码处理,输出与所述目标任务对应、且与每个所述视角维度分别对应的内容文本。
2.根据权利要求1所述的方法,其特征在于,所述获取与目标任务对应的描述文本,包括:
确定目标任务,并获取与所述目标任务对应的线索关键词;
基于所述线索关键词进行检索,得到与所述目标任务匹配的描述文本。
3.根据权利要求1所述的方法,其特征在于,所述对所述描述文本进行语义编码处理,得到对应的编码向量序列,包括:
确定所述描述文本的词序列;
对所述描述文本的词序列进行正向语义编码和反向语义编码,得到对应的正向编码向量序列和反向编码向量序列;
对所述正向编码向量序列和所述反向编码向量序列进行序列融合,得到与所述描述文本对应的编码向量序列。
4.根据权利要求1所述的方法,其特征在于,所述根据所述编码向量序列,确定与多个视角维度分别对应的多个视角特征,包括:
确定与每个视角维度分别对应的特征提取函数;其中,不同视角维度所对应的特征提取函数具有不同的视角参数;
将所述编码向量序列分别输入至每个所述特征提取函数,通过各个特征提取函数所对应的视角参数,对各自输入的编码向量序列进行处理,得到与多个视角维度分别对应的多个视角特征。
5.根据权利要求1所述的方法,其特征在于,所述内容文本包括多于一个的内容子文本,所述基于所述多个视角特征中的每个视角特征,分别对所述编码向量序列进行解码处理,输出与所述目标任务对应、且与每个所述视角维度分别对应的内容文本,包括:
基于所述多个视角特征中的每个视角特征,分别对所述编码向量序列进行解码处理,得到与各个视角维度分别对应的首轮的内容子文本;
从所述首轮之后的第二轮次起的当前轮次中,对于每个视角维度,分别根据相应视角维度的历史轮次的内容子文本和所述描述文本进行语义编码处理,得到当前轮次的编码向量序列;所述历史轮次为在所述当前轮次之前的至少一个轮次;
对于每个视角维度,分别通过与相应视角维度对应的视角参数继续对所述当前轮次的编码向量序列进行处理,得到当前轮次的相应视角维度的视角特征;
对于每个视角维度,分别基于当前轮次的相应视角维度的视角特征,对所述当前轮次的编码向量序列进行解码处理,得到所述当前轮次的与各个视角维度分别对应的内容子文本;
将下一轮次作为当前轮次并返回至所述从所述首轮之后的第二轮次起的当前轮次中,对于每个视角维度,分别根据相应视角维度的历史轮次的内容子文本和所述描述文本进行语义编码处理,得到当前轮次的编码向量序列的步骤并继续执行,直至满足预设停止条件时停止,得到所述多个视角维度各自对应的多于一轮的内容子文本;
对于所述多个视角维度中的每个视角维度,将每个视角维度所对应的多于一轮的内容子文本,构成相应视角维度所对应的内容文本。
6.根据权利要求1所述的方法,其特征在于,所述基于所述多个视角特征中的每个视角特征,分别对所述编码向量序列进行解码处理,输出与所述目标任务对应、且与每个所述视角维度分别对应的内容文本,包括:
对于所述多个视角维度中的每个视角维度,分别依次对所述编码向量序列进行解码得到解码隐层向量,且每次解码时根据前次确定的目标词的词向量进行解码,并根据当次的解码隐层向量确定当次的目标词;其中,对于所述多个视角维度中的每个视角维度,分别将相应视角维度所对应的视角特征,作为与相应视角维度对应的解码过程中初次解码时的初始解码隐层向量;
对于每个视角维度,分别基于相应依次解码得到的各个目标词,构成相应的视角维度所对应的内容文本。
7.根据权利要求1所述的方法,其特征在于,所述方法通过文本生成模型执行,所述文本生成模型包括编码结构、视角特征抽取结构和解码结构;所述对所述描述文本进行语义编码处理,得到对应的编码向量序列,包括:
通过所述文本生成模型中的编码结构对所述描述文本进行语义编码处理,得到对应的编码向量序列;
所述根据所述编码向量序列,确定与多个视角维度分别对应的多个视角特征,包括:
通过所述文本生成模型中的视角特征抽取结构,并基于与各个视角维度分别对应的视角参数,对所述编码向量序列分别进行处理,得到与各个视角维度分别对应的视角特征;
所述基于所述多个视角特征中的每个视角特征,分别对所述编码向量序列进行解码处理,输出与所述目标任务对应、且与所述每个视角维度分别对应的内容文本,包括:
通过所述文本生成模型中的解码结构,并基于所述多个视角特征中的每个视角特征,分别对所述编码向量序列进行解码处理,输出与所述目标任务对应、且与每个所述视角维度分别对应的内容文本。
8.根据权利要求1至7中任一项所述的方法,其特征在于,所述内容文本生成方法由文本生成模型执行,所述文本生成模型的训练步骤,包括:
获取样本描述文本,并获取与所述样本描述文本对应的、且与所述多个视角维度分别对应的视角参考文本;
通过所述文本生成模型中的编码结构,对所述样本描述文本进行语义编码处理,得到对应的预测编码向量序列;
通过所述文本生成模型中的视角特征抽取结构,并根据所述预测编码向量序列,确定多个视角维度下的多个预测视角特征;
从所述多个预测视角特征中,筛选与相应视角参考文本所对应的目标视角维度的目标视角特征,并基于所述目标视角特征对所述编码向量序列进行解码处理,输出与所述目标视角维度对应的预测内容文本;
基于多个视角维度各自对应的预测内容文本、以及相应视角维度所对应的视角参考文本,对所述文本生成模型进行训练。
9.根据权利要求8所述的方法,其特征在于,所述从所述多个预测视角特征中,筛选与相应视角参考文本所对应的目标视角维度的目标视角特征,包括:
对于所述多个预测视角特征中的每个预测视角特征,分别确定与相应预测视角特征对应的视角参考文本;
确定每个预测视角特征分别与所述样本描述文本相匹配的第一匹配值;
确定每个预测视角特征分别与对应的视角参考文本相匹配的第二匹配值;
根据所述第一匹配值及所述第二匹配值,从所述多个预测视角特征中筛选出与所述视角参考文本所对应的目标视角维度的目标视角特征。
10.根据权利要求8所述的方法,其特征在于,所述基于多个视角维度各自对应的预测内容文本、以及相应视角维度所对应的视角参考文本,对所述文本生成模型进行训练,包括:
根据多个视角维度各自对应的预测内容文本、以及相应视角维度所对应的视角参考文本的差异,确定对应的内容文本损失;
对所述多个预测视角特征进行特征融合,得到对应的视角融合特征;
确定每个预测视角特征分别与所述视角融合特征间的相似度,并根据所述相似度确定视角差异损失;
根据所述内容文本损失以及所述视角差异损失,确定目标损失函数;
通过所述目标损失函数对所述文本生成模型进行训练,直至达到训练停止条件时停止,得到训练好的文本生成模型。
11.根据权利要求10所述的方法,其特征在于,在所述文本生成模型的训练阶段,所述编码结构包括第一编码器和第二编码器,所述预测编码向量序列由所述第一编码器输出,所述视角参考文本包括正视角参考文本和负视角参考文本;所述方法还包括:
通过所述第二编码器对所述正视角参考文本和所述负视角参考文本分部进行编码,得到相应的正参考向量序列和负参考向量序列;
确定所述预测编码向量序列与所述正参考向量序列间的第三匹配值;
确定所述预测编码向量序列与所述负参考向量序列间的第四匹配值;
根据所述第三匹配值、所述第四匹配值及与所述正视角参考文本对应的第一文本标签、与所述负视角参考文本对应的第二文本标签,构建编码损失;
所述根据所述内容文本损失以及所述视角差异损失,确定目标损失函数,包括:
根据所述内容文本损失、所述视角差异损失、以及所述编码损失,确定目标损失函数。
12.一种音乐评论文本生成方法,其特征在于,所述方法包括:
获取与目标音乐对应的描述文本,所述描述文本包括所述目标音乐的歌词文本、韵律描述文本、以及作者属性文本中的至少一种;
对所述描述文本进行语义编码处理,得到对应的编码向量序列;
根据所述编码向量序列,确定与多个视角维度分别对应的多个视角特征;所述多个视角维度包括歌曲韵律维度、歌词内容维度、听者行为维度、以及作者风格维度中的至少两种;
基于所述多个视角特征中的每个视角特征,分别对所述编码向量序列进行解码处理,输出与所述目标任务对应、且与每个所述视角维度分别对应的音乐评论文本。
13.一种内容文本生成装置,其特征在于,所述装置包括:
描述文本获取模块,用于获取与目标任务对应的描述文本;
视角特征获取模块,用于对所述描述文本进行语义编码处理,得到对应的编码向量序列;根据所述编码向量序列,确定与多个视角维度分别对应的多个视角特征;
内容文本确定模块,用于基于所述多个视角特征中的每个视角特征,分别对所述编码向量序列进行解码处理,输出与所述目标任务对应、且与每个所述多个视角维度分别对应的内容文本。
14.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至12中任一项所述的方法的步骤。
15.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至12中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011049833.9A CN112115718A (zh) | 2020-09-29 | 2020-09-29 | 内容文本生成方法和装置、音乐评论文本生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011049833.9A CN112115718A (zh) | 2020-09-29 | 2020-09-29 | 内容文本生成方法和装置、音乐评论文本生成方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112115718A true CN112115718A (zh) | 2020-12-22 |
Family
ID=73798392
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011049833.9A Pending CN112115718A (zh) | 2020-09-29 | 2020-09-29 | 内容文本生成方法和装置、音乐评论文本生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112115718A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112667780A (zh) * | 2020-12-31 | 2021-04-16 | 上海众源网络有限公司 | 一种评论信息的生成方法、装置、电子设备及存储介质 |
CN117371440A (zh) * | 2023-12-05 | 2024-01-09 | 广州阿凡提电子科技有限公司 | 基于aigc的话题文本大数据分析方法及系统 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109086408A (zh) * | 2018-08-02 | 2018-12-25 | 腾讯科技(深圳)有限公司 | 文本生成方法、装置、电子设备及计算机可读介质 |
US20190018838A1 (en) * | 2016-03-22 | 2019-01-17 | Sony Corporation | Electronic device and method for text processing |
CN109582952A (zh) * | 2018-10-31 | 2019-04-05 | 腾讯科技(深圳)有限公司 | 诗歌生成方法、装置、计算机设备和介质 |
CN110008482A (zh) * | 2019-04-17 | 2019-07-12 | 腾讯科技(深圳)有限公司 | 文本处理方法、装置、计算机可读存储介质和计算机设备 |
CN110263340A (zh) * | 2019-06-20 | 2019-09-20 | 北京百度网讯科技有限公司 | 评论生成方法、装置、服务器及存储介质 |
CN110390103A (zh) * | 2019-07-23 | 2019-10-29 | 中国民航大学 | 基于双编码器的短文本自动摘要方法及系统 |
CN110516110A (zh) * | 2019-07-22 | 2019-11-29 | 平安科技(深圳)有限公司 | 歌曲生成方法、装置、计算机设备及存储介质 |
CN110851650A (zh) * | 2019-11-11 | 2020-02-28 | 腾讯科技(深圳)有限公司 | 一种评论输出方法、装置、以及计算机存储介质 |
CN110929021A (zh) * | 2018-08-31 | 2020-03-27 | 阿里巴巴集团控股有限公司 | 文本信息生成方法和文本信息生成装置 |
CN111414513A (zh) * | 2020-03-16 | 2020-07-14 | 腾讯音乐娱乐科技(深圳)有限公司 | 音乐流派的分类方法、装置及存储介质 |
CN111626041A (zh) * | 2020-05-07 | 2020-09-04 | 杭州东信北邮信息技术有限公司 | 一种基于深度学习的音乐评论生成方法 |
-
2020
- 2020-09-29 CN CN202011049833.9A patent/CN112115718A/zh active Pending
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190018838A1 (en) * | 2016-03-22 | 2019-01-17 | Sony Corporation | Electronic device and method for text processing |
CN109086408A (zh) * | 2018-08-02 | 2018-12-25 | 腾讯科技(深圳)有限公司 | 文本生成方法、装置、电子设备及计算机可读介质 |
CN110929021A (zh) * | 2018-08-31 | 2020-03-27 | 阿里巴巴集团控股有限公司 | 文本信息生成方法和文本信息生成装置 |
CN109582952A (zh) * | 2018-10-31 | 2019-04-05 | 腾讯科技(深圳)有限公司 | 诗歌生成方法、装置、计算机设备和介质 |
CN110008482A (zh) * | 2019-04-17 | 2019-07-12 | 腾讯科技(深圳)有限公司 | 文本处理方法、装置、计算机可读存储介质和计算机设备 |
CN110263340A (zh) * | 2019-06-20 | 2019-09-20 | 北京百度网讯科技有限公司 | 评论生成方法、装置、服务器及存储介质 |
CN110516110A (zh) * | 2019-07-22 | 2019-11-29 | 平安科技(深圳)有限公司 | 歌曲生成方法、装置、计算机设备及存储介质 |
CN110390103A (zh) * | 2019-07-23 | 2019-10-29 | 中国民航大学 | 基于双编码器的短文本自动摘要方法及系统 |
CN110851650A (zh) * | 2019-11-11 | 2020-02-28 | 腾讯科技(深圳)有限公司 | 一种评论输出方法、装置、以及计算机存储介质 |
CN111414513A (zh) * | 2020-03-16 | 2020-07-14 | 腾讯音乐娱乐科技(深圳)有限公司 | 音乐流派的分类方法、装置及存储介质 |
CN111626041A (zh) * | 2020-05-07 | 2020-09-04 | 杭州东信北邮信息技术有限公司 | 一种基于深度学习的音乐评论生成方法 |
Non-Patent Citations (2)
Title |
---|
BARTOLI A,: "Automatic Generat ion of Restaurant Reviews with LSTM-RNN", 《INTERNATION AL CONFERENCE ON WEB INTELLIGENCE》, 31 December 2016 (2016-12-31), pages 721 - 724 * |
邰煜: "基于LSTM的社交网络特定领域评论生成技术", 《中国优秀硕士论文全文库信息科技辑》, no. 3, 15 March 2020 (2020-03-15) * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112667780A (zh) * | 2020-12-31 | 2021-04-16 | 上海众源网络有限公司 | 一种评论信息的生成方法、装置、电子设备及存储介质 |
CN117371440A (zh) * | 2023-12-05 | 2024-01-09 | 广州阿凡提电子科技有限公司 | 基于aigc的话题文本大数据分析方法及系统 |
CN117371440B (zh) * | 2023-12-05 | 2024-03-12 | 广州阿凡提电子科技有限公司 | 基于aigc的话题文本大数据分析方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112560503B (zh) | 融合深度特征和时序模型的语义情感分析方法 | |
CN110321417B (zh) | 一种对话生成方法、系统、可读存储介质及计算机设备 | |
CN108763284B (zh) | 一种基于深度学习和主题模型的问答系统实现方法 | |
Zhao et al. | Automatic assessment of depression from speech via a hierarchical attention transfer network and attention autoencoders | |
Yamada et al. | Paired recurrent autoencoders for bidirectional translation between robot actions and linguistic descriptions | |
CN111897933B (zh) | 情感对话生成方法、装置及情感对话模型训练方法、装置 | |
Lee et al. | Sound-guided semantic image manipulation | |
CN110288665A (zh) | 基于卷积神经网络的图像描述方法、计算机可读存储介质、电子设备 | |
CN110796160A (zh) | 一种文本分类方法、装置和存储介质 | |
CN113723166A (zh) | 内容识别方法、装置、计算机设备和存储介质 | |
CN113407663B (zh) | 基于人工智能的图文内容质量识别方法和装置 | |
CN112115718A (zh) | 内容文本生成方法和装置、音乐评论文本生成方法 | |
CN113392265A (zh) | 多媒体处理方法、装置及设备 | |
CN111145914B (zh) | 一种确定肺癌临床病种库文本实体的方法及装置 | |
Khurram et al. | Dense-captionnet: a sentence generation architecture for fine-grained description of image semantics | |
CN113590983A (zh) | 描述文本生成方法和装置、文本处理模型的训练方法 | |
Latif et al. | Can large language models aid in annotating speech emotional data? uncovering new frontiers | |
He et al. | Deep learning in natural language generation from images | |
CN114360492A (zh) | 音频合成方法、装置、计算机设备和存储介质 | |
Maslennikova | ELMo Word Representations For News Protection. | |
CN113505208A (zh) | 一种融合多路注意力机制的智能对话系统 | |
CN117574904A (zh) | 基于对比学习和多模态语义交互的命名实体识别方法 | |
CN116580691A (zh) | 语音合成方法、语音合成装置、电子设备及存储介质 | |
CN115858756A (zh) | 基于感知情绪倾向的共情人机对话系统 | |
CN115169472A (zh) | 针对多媒体数据的音乐匹配方法、装置和计算机设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |