CN116306603A - 标题生成模型的训练方法和标题生成方法、装置和介质 - Google Patents
标题生成模型的训练方法和标题生成方法、装置和介质 Download PDFInfo
- Publication number
- CN116306603A CN116306603A CN202310122280.2A CN202310122280A CN116306603A CN 116306603 A CN116306603 A CN 116306603A CN 202310122280 A CN202310122280 A CN 202310122280A CN 116306603 A CN116306603 A CN 116306603A
- Authority
- CN
- China
- Prior art keywords
- text
- training
- title
- generation model
- sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012549 training Methods 0.000 title claims abstract description 386
- 238000000034 method Methods 0.000 title claims abstract description 130
- 230000007246 mechanism Effects 0.000 claims abstract description 39
- 238000002372 labelling Methods 0.000 claims description 65
- 239000011159 matrix material Substances 0.000 claims description 64
- 230000008569 process Effects 0.000 claims description 48
- 230000006870 function Effects 0.000 claims description 27
- 230000015654 memory Effects 0.000 claims description 15
- 239000012634 fragment Substances 0.000 claims description 11
- 230000000873 masking effect Effects 0.000 claims description 8
- 238000004590 computer program Methods 0.000 claims description 7
- 230000011218 segmentation Effects 0.000 claims description 5
- 239000013598 vector Substances 0.000 description 22
- 238000010606 normalization Methods 0.000 description 19
- 238000012545 processing Methods 0.000 description 15
- 230000004927 fusion Effects 0.000 description 14
- 230000009466 transformation Effects 0.000 description 11
- 238000010586 diagram Methods 0.000 description 10
- 238000013507 mapping Methods 0.000 description 6
- 238000013473 artificial intelligence Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000002779 inactivation Effects 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000011478 gradient descent method Methods 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000033228 biological regulation Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000037361 pathway Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/258—Heading extraction; Automatic titling; Numbering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/194—Calculation of difference between files
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本说明书实施例公开了一种标题生成模型的训练方法、标题生成方法、装置、存储介质及电子设备,方法包括:获取样本视频片段的训练文本,训练文本包括样本视频片段的样本拆条文本和样本拆条文本的前缀文本,前缀文本为被遮罩样本拆条文本中标注关键词的文本;将训练文本输入标题生成模型,通过标题生成模型,基于注意力机制对训练文本进行编码,得到训练文本的语义特征;通过标题生成模型,基于训练文本的语义特征进行预测,输出样本拆条文本中的预测关键词以及样本视频片段的预测标题;基于预测关键词与标注关键词之间的第一差异信息,以及预测标题与样本视频片段的标注标题之间的第二差异信息,对标题生成模型进行训练。
Description
技术领域
本说明书涉及计算机技术领域,尤其涉及一种标题生成模型的训练方法、标题生成方法、装置、存储介质及电子设备。
背景技术
随着计算机技术的发展,越来越多的用户会通过观看直播的方式来进行学习,比如,用户可以通过观看金融服务平台开设的直播来学习金融知识。在用户错过某场直播的情况下,金融服务平台也会提供直播回放服务,用户通过观看直播回放视频也能够学习金融知识。
相关技术中,由于直播回放视频的时间较长且通常会携带一些无效信息,技术人员往往会将直播回放视频切分为多个视频片段,为多个视频片段手动设置标题,通过标题来吸引用户观看对应的视频片段,从而节省用户的时间。
但是,这种手动设置标题的方式效率较低,亟须一种更加智能化的标题生成方法。
发明内容
本说明书提供一种标题生成模型的训练方法、标题生成方法、装置、存储介质及电子设备,能够训练一个标题生成模型来生成视频片段的标题,提高为视频片段设置标题的效率。
一方面,本说明书实施例提供一种标题生成模型的训练方法,包括:
获取样本视频片段的训练文本,所述训练文本包括所述样本视频片段的样本拆条文本和所述样本拆条文本的前缀文本,所述前缀文本为被遮罩所述样本拆条文本中标注关键词的文本;
将所述训练文本输入标题生成模型,通过所述标题生成模型,基于注意力机制对所述训练文本进行编码,得到所述训练文本的语义特征;
通过所述标题生成模型,基于所述训练文本的语义特征进行预测,输出所述样本拆条文本中的预测关键词以及所述样本视频片段的预测标题;
基于所述预测关键词与所述标注关键词之间的第一差异信息,以及所述预测标题与所述样本视频片段的标注标题之间的第二差异信息,对所述标题生成模型进行训练。
在一种可能的实施方式中,所述通过所述标题生成模型,基于注意力机制对所述训练文本进行编码,得到所述训练文本的语义特征包括:
通过所述标题生成模型,将所述前缀文本中的字符配置为全局注意力字符,将所述样本拆条文本中的字符配置为局部注意力字符,所述全局注意力字符表示与所述训练文本中全部字符进行注意力运算的字符,所述局部注意力字符表示与所述训练文本中部分字符进行注意力运算的字符;
通过所述标题生成模型,对所述训练文本中多个字符进行注意力编码,得到所述训练文本中多个字符的注意力特征;将所述多个字符的注意力特征进行融合,得到所述训练文本的语义特征。
在一种可能的实施方式中,所述对所述训练文本中多个字符进行注意力编码,得到所述训练文本中多个字符的注意力特征包括:
对于所述多个字符中的任一字符,在所述字符属于所述前缀文本的情况下,确定所述字符与所述训练文本中其他字符之间的第一注意力权重;基于所述字符以及所述第一注意力权重,确定所述字符的注意力特征;
在所述字符属于所述样本拆条文本的情况下,确定所述字符与所述训练文本中的参考字符之间的第二注意力权重,所述参考字符是所述训练文本中所述字符周围的字符;基于所述字符以及所述第二注意力权重,确定所述字符的注意力特征。
在一种可能的实施方式中,所述在所述字符属于所述样本拆条文本的情况下,确定所述字符与所述训练文本中的参考字符之间的第二注意力权重包括:
在所述字符属于所述样本拆条文本的情况下,确定覆盖所述字符时滑动窗口中的所述参考字符,所述滑动窗口在所述训练文本上进行滑动;
确定所述字符的查询矩阵以及所述参考字符的键矩阵;
基于所述字符的查询矩阵以及所述参考字符的键矩阵,确定所述字符与所述训练文本中的参考字符之间的第二注意力权重。
在一种可能的实施方式中,所述通过所述标题生成模型,基于所述训练文本的语义特征进行预测,输出所述样本拆条文本中的预测关键词以及所述样本视频片段的预测标题包括:
通过所述标题生成模型,对所述训练文本的语义特征进行全连接和归一化,输出所述样本拆条文本中的预测关键词;
通过所述标题生成模型,基于所述训练文本的语义特征进行多轮迭代解码,输出所述样本视频片段的预测标题。
在一种可能的实施方式中,所述通过所述标题生成模型,基于所述训练文本的语义特征进行多轮迭代解码,输出所述样本视频片段的预测标题包括:
在第一轮迭代过程中,通过所述标题生成模型,基于所述训练文本的语义特征和开始字符进行迭代,输出所述样本视频片段的预测标题中的第一个字符;
在其他轮迭代过程中,通过所述标题生成模型,基于所述训练文本的语义特征和上轮迭代输出的字符,输出本轮迭代对应的字符。
在一种可能的实施方式中,所述基于所述预测关键词与所述标注关键词之间的第一差异信息,以及所述预测标题与所述样本视频片段的标注标题之间的第二差异信息,对所述标题生成模型进行训练包括:
基于所述第一差异信息和所述第二差异信息构建联合损失函数;
基于所述联合损失函数对所述标题生成模型进行训练。
在一种可能的实施方式中,所述样本拆条文本的标注关键词的获取方法包括:
对所述样本视频片段的样本拆条文本进行关键词识别,得到所述样本拆条文本的标注关键词。
一方面,本说明书实施例提供一种标题生成方法,包括:
获取目标视频片段的拆条文本,所述目标视频片段是对视频进行拆条后得到的;
将所述拆条文本输入标题生成模型,通过所述标题生成模型,基于注意力机制对所述拆条文本进行编码,得到所述拆条文本的语义特征;
通过所述标题生成模型,基于所述拆条文本的语义特征进行预测,输出所述目标视频片段的标题;
其中,所述标题生成模型是基于样本视频片段的训练文本、所述样本视频片段的标注标题以及所述训练文本中样本拆条文本的标注关键词训练得到的,所述训练文本还包括所述样本拆条文本的前缀文本,所述前缀文本为被遮罩所述样本拆条文本中所述标注关键词的文本。
在一种可能的实施方式中,所述通过所述标题生成模型,基于注意力机制对所述拆条文本进行编码,得到所述拆条文本的语义特征之后,所述方法还包括:
通过所述标题生成模型,基于所述拆条文本的语义特征进行预测,输出所述拆条文本中的关键词。
在一种可能的实施方式中,所述将所述拆条文本输入标题生成模型,通过所述标题生成模型,基于注意力机制对所述拆条文本进行编码,得到所述拆条文本的语义特征之前,所述方法还包括:
获取所述拆条文本中的参考关键词;
所述将所述拆条文本输入标题生成模型,通过所述标题生成模型,基于注意力机制对所述拆条文本进行编码,得到所述拆条文本的语义特征包括:
将所述拆条文本输入所述标题生成模型,通过所述标题生成模型,将所述拆条文本中参考关键词中的字符配置为全局注意力字符,将所述拆条文本中其他字符配置为局部注意力字符,所述全局注意力字符表示与所述拆条文本中全部字符进行注意力运算的字符,所述局部注意力字符表示与所述拆条文本中部分字符进行注意力运算的字符;
通过所述标题生成模型,对所述拆条文本中多个字符进行注意力编码,得到所述拆条文本中多个字符的注意力特征;将所述拆条文本中多个字符的注意力特征进行融合,得到所述拆条文本的语义特征。
在一种可能的实施方式中,所述获取目标视频片段的拆条文本包括下述任一项:
对所述目标视频片段的音频进行语音识别,得到所述目标视频片段的拆条文本;
将所述视频的字幕中所述目标视频片段对应的部分,确定为所述目标视频片段的拆条文本。
一方面,本说明书实施例提供一种标题生成模型的训练装置,包括:
训练文本获取模块,用于获取样本视频片段的训练文本,所述训练文本包括所述样本视频片段的样本拆条文本和所述样本拆条文本的前缀文本,所述前缀文本为被遮罩所述样本拆条文本中标注关键词的文本;
训练文本编码模块,用于将所述训练文本输入标题生成模型,通过所述标题生成模型,基于注意力机制对所述训练文本进行编码,得到所述训练文本的语义特征;
训练文本预测模块,用于通过所述标题生成模型,基于所述训练文本的语义特征进行预测,输出所述样本拆条文本中的预测关键词以及所述样本视频片段的预测标题;
训练模块,用于基于所述预测关键词与所述标注关键词之间的第一差异信息,以及所述预测标题与所述样本视频片段的标注标题之间的第二差异信息,对所述标题生成模型进行训练。
在一种可能的实施方式中,所述训练文本编码模块,用于通过所述标题生成模型,将所述前缀文本中的字符配置为全局注意力字符,将所述样本拆条文本中的字符配置为局部注意力字符,所述全局注意力字符表示与所述训练文本中全部字符进行注意力运算的字符,所述局部注意力字符表示与所述训练文本中部分字符进行注意力运算的字符;通过所述标题生成模型,对所述训练文本中多个字符进行注意力编码,得到所述训练文本中多个字符的注意力特征;将所述多个字符的注意力特征进行融合,得到所述训练文本的语义特征。
在一种可能的实施方式中,所述训练文本编码模块,用于对于所述多个字符中的任一字符,在所述字符属于所述前缀文本的情况下,确定所述字符与所述训练文本中其他字符之间的第一注意力权重;基于所述字符以及所述第一注意力权重,确定所述字符的注意力特征;在所述字符属于所述样本拆条文本的情况下,确定所述字符与所述训练文本中的参考字符之间的第二注意力权重,所述参考字符是所述训练文本中所述字符周围的字符;基于所述字符以及所述第二注意力权重,确定所述字符的注意力特征。
在一种可能的实施方式中,所述训练文本编码模块,用于在所述字符属于所述样本拆条文本的情况下,确定覆盖所述字符时滑动窗口中的所述参考字符,所述滑动窗口在所述训练文本上进行滑动;确定所述字符的查询矩阵以及所述参考字符的键矩阵;基于所述字符的查询矩阵以及所述参考字符的键矩阵,确定所述字符与所述训练文本中的参考字符之间的第二注意力权重。
在一种可能的实施方式中,所述训练文本预测模块,用于通过所述标题生成模型,对所述训练文本的语义特征进行全连接和归一化,输出所述样本拆条文本中的预测关键词;通过所述标题生成模型,基于所述训练文本的语义特征进行多轮迭代解码,输出所述样本视频片段的预测标题。
在一种可能的实施方式中,所述训练文本预测模块,用于在第一轮迭代过程中,通过所述标题生成模型,基于所述训练文本的语义特征和开始字符进行迭代,输出所述样本视频片段的预测标题中的第一个字符;在其他轮迭代过程中,通过所述标题生成模型,基于所述训练文本的语义特征和上轮迭代输出的字符,输出本轮迭代对应的字符。
在一种可能的实施方式中,所述训练模块,用于基于所述第一差异信息和所述第二差异信息构建联合损失函数;基于所述联合损失函数对所述标题生成模型进行训练。
在一种可能的实施方式中,所述样本拆条文本的标注关键词的获取方法包括:
对所述样本视频片段的样本拆条文本进行关键词识别,得到所述样本拆条文本的标注关键词。
一方面,本说明书实施例提供一种标题生成装置,包括:
拆条文本获取模块,用于获取目标视频片段的拆条文本,所述目标视频片段是对视频进行拆条后得到的;
拆条文本编码模块,用于将所述拆条文本输入标题生成模型,通过所述标题生成模型,基于注意力机制对所述拆条文本进行编码,得到所述拆条文本的语义特征;
标题预测模块,用于通过所述标题生成模型,基于所述拆条文本的语义特征进行预测,输出所述目标视频片段的标题;
其中,所述标题生成模型是基于样本视频片段的训练文本、所述样本视频片段的标注标题以及所述训练文本中样本拆条文本的标注关键词训练得到的,所述训练文本还包括所述样本拆条文本的前缀文本,所述前缀文本为被遮罩所述样本拆条文本中所述标注关键词的文本。
在一种可能的实施方式中,所述装置还包括:
关键词预测模块,用于通过所述标题生成模型,基于所述拆条文本的语义特征进行预测,输出所述拆条文本中的关键词。
在一种可能的实施方式中,所述装置还包括:
参考关键词获取模块,用于获取所述拆条文本中的参考关键词;
所述拆条文本编码模块还用于将所述拆条文本输入所述标题生成模型,通过所述标题生成模型,将所述拆条文本中参考关键词中的字符配置为全局注意力字符,将所述拆条文本中其他字符配置为局部注意力字符,所述全局注意力字符表示与所述拆条文本中全部字符进行注意力运算的字符,所述局部注意力字符表示与所述拆条文本中部分字符进行注意力运算的字符;通过所述标题生成模型,对所述拆条文本中多个字符进行注意力编码,得到所述拆条文本中多个字符的注意力特征;将所述拆条文本中多个字符的注意力特征进行融合,得到所述拆条文本的语义特征。
在一种可能的实施方式中,所述拆条文本获取模块,用于执行下述任一项:
对所述目标视频片段的音频进行语音识别,得到所述目标视频片段的拆条文本;
将所述视频的字幕中所述目标视频片段对应的部分,确定为所述目标视频片段的拆条文本。
一方面,本说明书实施例提供一种计算机存储介质,所述计算机存储介质存储有多条指令,所述指令适于由处理器加载并执行上述的方法。
一方面,本说明书实施例提供一种电子设备,包括:处理器和存储器;其中,所述存储器存储有计算机程序,所述计算机程序适于由所述处理器加载并执行上述的方法。
一方面,本说明书实施例提供一种包含指令的计算机程序产品,当所述计算机程序产品在计算机或处理器上运行时,使得所述计算机或处理器执行上述的方法。
通过本说明书实施例提供的技术方案,通过样本视频片段的训练文本来训练标题生成模型,该训练文本包括样本视频片段的样本拆条文本以及该拆条文本的前缀文本,该前缀文本为被遮罩该样本拆条文本中标注关键词的文本,通过这样的方式来设计训练文本,能够同时训练标题生成模型预测关键词和标题的能力。在训练过程中,基于注意力机制对训练文本进行了编码,得到该训练文本的语义特征,利用注意力机制使得该标题生成模型重点关注训练文本中有助于预测标题的部分,提高语义特征的准确性。基于该训练文本的语义特征来预测,得到该样本拆条文本中的预测关键词以及样本视频片段的预测标题,基于预测关键词和标注关键词之间的第一差异信息,以及预测标题与标注标题之间的第二差异信息对该标题生成模型进行训练,能够得到标题生成模型,通过该标题生成模型就能够高效且准确地生成标题。
附图说明
为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本说明书实施例提供的一种标题生成模型的训练方法的实施环境的示意图;
图2为本说明书实施例提供的一种标题生成模型的训练方法的流程图;
图3为本说明书实施例提供的一种标题生成方法的流程图;
图4为本说明书实施例提供的另一种标题生成模型的训练方法的流程图;
图5为本说明书实施例提供的标题生成模型的结构示意图;
图6为本说明书实施例提供的另一种标题生成方法的流程图;
图7为本说明书实施例提供的一种标题生成模型的训练装置的结构示意图;
图8为本说明书实施例提供的一种标题生成装置的结构示意图;
图9为本说明书实施例提供的一种电子设备的结构示意图。
具体实施方式
为使得本说明书的特征和优点能够更加的明显和易懂,下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本说明书一部分实施例,而非全部实施例。基于本说明书中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本说明书保护的范围。
首先,对本说明书一个或多个实施例涉及的名词术语进行解释。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。
视频拆条:视频拆条是因互联网视频和新媒体短视频内容平台的需要,对传统电视媒体节目进行二次加工,将原来完整的一条节目内容,按照某种逻辑思维或特定需要,将其拆分成多条视频。
Transformer:用全Attention(注意力)的结构代替了LSTM((Long short-termmemory,长短时记忆)网络,实现全局上下文建模且可并行化训练的Seq2Seq深度学习模型结构;
Attention(注意力):广义可认为其为重要性权重的向量,用来估计目标元素与其他元素的相关程度有多强,并将其值的总和作为目标的近似值,在深度学习的各种应用领域都有广泛的使用场景。
Bert(基于Transformer的双向编码器表征):一种基于Transformers双向编码器的预训练语言模型。
Longformer:一种采用稀疏自注意力机制可高效处理长文本的升级Transformer。
PALM(Pathways Language Model,大模型的规模探索):一种联合自编码和自回归的语言模型,其将基于自动编码的理解委托给Transformer中的编码器,将自回归生成委托给Transformer的解码器。
Encoder(编码器):一种用于将输入序列映射到一个抽象的连续表示中的网络结构,其需要确保该表示包含该输入的所有学习信息。
Decoder(解码器):一种可以使用encoder提供的连续表示逐步生成单个输出,同时也考虑前一个输出的模型结构。
Token:文本中的基础词形,对于中文一般指字。
归一化:将取值范围不同的数列映射到(0,1)区间上,便于数据的处理。在一些情况下,归一化后的数值可以直接被实现为概率。
随机失活(Dropout):是对具有深度结构的人工神经网络进行优化的方法,在学习过程中通过将隐含层的部分权重或输出随机归零,降低节点间的相互依赖性从而实现神经网络的正则化,降低其结构风险。例如在模型训练过程中,存在一个向量(1,2,3,4),将该向量输入随机失活层后,随机失活层可以随机将向量(1,2,3,4)中的一个数字转化为0,比如将2转化为0,那么向量就变成了(1,0,3,4)。
学习率(Learning Rate):用于控制模型的学习进度,学习率可以指导模型在梯度下降法中,如何使用损失函数的梯度调整网络权重。学习率如果过大,可能会使损失函数直接越过全局最优点,此时表现为损失过大;学习率如果过小,损失函数的变化速度很慢,会大大增加网络的收敛复杂度,并且很容易被困在局部最小值或者鞍点。
嵌入编码(Embedded Coding):嵌入编码在数学上表示一个对应关系,即通过一个函数F将X空间上的数据映射到Y空间上,其中该函数F是单射函数,映射的结果是结构保存,单射函数表示映射后的数据与映射前的数据唯一对应,结构保存表示映射前数据的大小关系后映射后数据的大小关系相同,例如映射前存在数据X1以及X2,映射后得到X1对应的Y1以及X2对应的Y2。若映射前的数据X1>X2,那么相应地,映射后的数据Y1大于Y2。对于词语来说,就是将词语映射到另外一个空间,便于后续的机器学习和处理。
注意力权重:可以表示训练或预测过程中某个数据的重要性,重要性表示输入的数据对输出数据影响的大小。重要性高的数据其对应的注意力权重的值较高,重要性低的数据其对应的注意力权重的值较低。在不同的场景下,数据的重要性并不相同,模型的训练注意力权重的过程也即是确定数据重要性的过程。
需要说明的是,本说明书实施例所涉及的信息(包括但不限于用户设备信息、用户个人信息等)、数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)以及信号,均为经用户授权或者经过各方充分授权的,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
下面,对本说明书实施例提供的技术方案的实施环境进行介绍。
图1是本说明书实施例提供的一种标题生成模型的训练方法的实施环境示意图,参见图1,该实施环境包括终端110以及服务器120。
终端110通过无线网络或有线网络与服务器120相连。可选地,终端110是智能手机、平板电脑、笔记本电脑、台式计算机、智能手表等,但并不局限于此。终端110安装和运行有支持标题生成的应用程序。
服务器120是独立的物理服务器,或者是多个物理服务器构成的服务器集群或者分布式系统,或者是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、分发网络(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。服务器120为终端110上运行的应用程序提供后台服务,比如,服务器120为终端110上运行的应用程序提供对应的服务,在本说明书实施例中,服务器120为终端运行的支持人脸识别的应用程序提供后台服务,比如对标题生成模型进行训练。
本领域技术人员可以知晓,上述终端110和服务器120的数量可以更多或更少。比如上述终端110和服务器120均仅为一个,或者上述终端110和服务器120均为几十个或几百个,或者更多数量,此时上述实施环境中还包括其他终端和服务器,本说明书实施例对终端的数量和设备类型不加以限定。
介绍完本说明书实施例的实施环境之后,下面将结合上述实施环境对本说明书实施例的应用场景进行介绍,在下述说明过程中,终端也即是上述实施环境中的终端110,服务器也即是上述实施环境中的服务器120。本说明书实施例提供的技术方案能够应用在生成各类视频片段的标题的场景下,比如,本说明书实施例提供的技术方案能够应用在生成财经类视频片段的标题的场景下,或者应用在生成体育类视频片段的标题的场景下,或者应用在生成美食类视频片段的标题的场景下。
以本说明书实施例提供的技术方案应用在生成财经类视频片段的标题的场景下为例,终端向服务器上传财经类视频片段的拆条文本,服务器获取该财经类视频片段的拆条文本。服务器将该财经类视频片段的拆条文本输入训练完成的标题生成模型,通过该标题生成模型,基于注意力机制对该拆条文本进行编码,得到该拆条文本的语义特征。服务器通过该标题生成模型,基于该拆条文本的语义特征进行预测,输出该财经类视频片段的标题。其中,该标题生成模型是基于样本视频片段的训练文本、该样本视频片段的标注标题以及该训练文本中样本拆条文本的标注关键词训练得到的,该训练文本还包括该样本拆条文本的前缀文本,该前缀文本为被遮罩该样本拆条文本中该标注关键词的文本。
需要说明的是,上述是以本说明书实施例提供的技术方案应用在生成财经类视频片段的标题的场景下为例进行说明,对于上述其他场景,实现过程与上述描述属于同一发明构思,实现过程不再赘述。另外,本说明书实施例提供的技术方案也可以应用在生成文章标题的场景下,本说明书实施例对此不作限定。
在介绍完本说明书实施例的实施环境和应用场景之后,下面对本说明书实施例提供的标题生成模型的训练方法进行介绍,参见图2,以执行主体为服务器,方法包括下述步骤。
202、服务器获取样本视频片段的训练文本,该训练文本包括该样本视频片段的样本拆条文本和该样本拆条文本的前缀文本,该前缀文本为被遮罩该样本拆条文本中标注关键词的文本。
其中,样本视频片段是训练该标题生成模型时使用的视频片段,该样本视频片段可以是从样本视频中截取的视频片段,也可以是独立的视频片段,本说明书实施例对此不作限定。相应地,训练文本是用于训练该标题生成模型时使用的视频片段,该训练文本包括样本拆条文本和样本拆条文本的前缀文本两个部分。该样本拆条文本与该样本视频片段对应,该样本拆条文本用于描述该样本视频片段的内容,在一些实施例中,该样本拆条文本是对该样本视频片段的音频进行文字识别后得到的。该样本拆条文本的前缀文本是训练该标题生成模型时特别设置的文本,该前缀文本包括该样本拆条文本中的标注关键词,但是该前缀文本中的标注关键词是被遮罩的,遮罩的含义是指标题生成模型无法直接获取该标注关键词,需要该标题生成模型来进行预测,标注关键词是指技术人员在该样本拆条文本中标注的关键词,作为该标题生成模型生成关键词的标准。在一些实施例中,该训练文本也被称为长文本。需要说明的是,在对该标题生成模型进行训练时使用的训练文本就相当于使用该标题生成模型时输入的拆条文本。
204、服务器将该训练文本输入标题生成模型,通过该标题生成模型,基于注意力机制对该训练文本进行编码,得到该训练文本的语义特征。
其中,该标题生成模型用于基于输入的文本来生成文本对应的标题。注意力机制使得该标题生成模型能够重点关注文本中对标题生成有帮助的信息,提高生成的标题与文本的相关性,也即是提高生成标题的准确性。对该训练文本进行编码也即是将该训练文本编码成抽象化的语义特征,以便于该标题生成模型进行处理,该语义特征能够表示该训练文本的语义。
206、服务器通过该标题生成模型,基于该训练文本的语义特征进行预测,输出该样本拆条文本中的预测关键词以及该样本视频片段的预测标题。
其中,该预测关键词是该标题生成模型预测的关键词,由于关键词与标题相互关联,预测该样本拆条文本中的关键词的目的是帮助后续的标题预测过程。
208、服务器基于该预测关键词与该标注关键词之间的第一差异信息,以及该预测标题与该样本视频片段的标注标题之间的第二差异信息,对该标题生成模型进行训练。
其中,基于该第一差异信息和第二差异信息对该标题生成模型进行训练的目的是使得该第一差异信息和该第二差异信息尽可能小,也即是该标题生成模型输出的预测关键词与标注关键词尽可能接近,输出的预测标题与标注标题尽可能接近,使得该标题生成模型能够基于输入的文本生成标题。
通过本说明书实施例提供的技术方案,通过样本视频片段的训练文本来训练标题生成模型,该训练文本包括样本视频片段的样本拆条文本以及该拆条文本的前缀文本,该前缀文本为被遮罩该样本拆条文本中标注关键词的文本,通过这样的方式来设计训练文本,能够同时训练标题生成模型预测关键词和标题的能力。在训练过程中,基于注意力机制对训练文本进行了编码,得到该训练文本的语义特征,利用注意力机制使得该标题生成模型重点关注训练文本中有助于预测标题的部分,提高语义特征的准确性。基于该训练文本的语义特征来预测,得到该样本拆条文本中的预测关键词以及样本视频片段的预测标题,基于预测关键词和标注关键词之间的第一差异信息,以及预测标题与标注标题之间的第二差异信息对该标题生成模型进行训练,能够得到标题生成模型,通过该标题生成模型就能够高效且准确地生成标题。
上述步骤202-208是对该标题生成模型的训练方法进行的介绍,下面对使用该标题生成模型来生成标题的方法进行说明,参见图3,以执行主体为服务器为例,方法包括下述步骤。
302、服务器获取目标视频片段的拆条文本,该目标视频片段是对视频进行拆条后得到的。
其中,对视频进行拆条是指将一个完整的视频拆分为多个视频片段,通过对视频进行拆条,方便对该视频进行二次加工。该目标视频片段为待生成标题的视频片段,该目标视频片段的拆条文本用于表示该目标视频片段的内容。
304、服务器将该拆条文本输入标题生成模型,通过该标题生成模型,基于注意力机制对该拆条文本进行编码,得到该拆条文本的语义特征。
其中,该标题生成模型是基于样本视频片段的训练文本、该样本视频片段的标注标题以及该训练文本中样本拆条文本的标注关键词训练得到的,该训练文本还包括该样本拆条文本的前缀文本,该前缀文本为被遮罩该样本拆条文本中该标注关键词的文本。与上述步骤204属于同一发明构思,通过该标题生成模型来对该拆条文本进行编码,能够实现对该拆条文本进行抽象化表达,得到的语义特征能够反映该拆条文本的语义。
306、服务器通过该标题生成模型,基于该拆条文本的语义特征进行预测,输出该目标视频片段的标题。
其中,该标题生成模型是训练完成的模型,使用该标题生成模型来基于该拆条文本的语义特征进行预测,能够得到较为准确的标题,该标题也就能够表示该目标视频片段的内容。
通过本说明书实施例提供的技术方案,将目标视频片段的拆条文本输入标题生成模型,通过该标题生成模型基于注意力机制对该拆条文本进行编码,得到该拆条文本的语义特征,该语义特征能够较为准确地反映该拆条文本的语义,也就能够较为准确地反映该目标视频片段的语义。通过该标题生成模型来基于该拆条文本的语义特征进行预测,能够得到该目标视频片段的标题。生成标题的过程无需技术人员手动操作,提高了标题生成的效率。
上述步骤202-208是对本说明书实施例提供的标题生成模型的训练方法的简单介绍,为了对本说明书实施例提供的标题生成模型的训练方法进行更加清楚地说明,下面将结合一些例子,对本说明书实施例提供的技术方案进行说明,参见图4,方法包括下述步骤。
402、服务器获取样本视频片段的训练文本,该训练文本包括该样本视频片段的样本拆条文本和该样本拆条文本的前缀文本,该前缀文本为被遮罩该样本拆条文本中标注关键词的文本。
其中,样本视频片段是训练该标题生成模型时使用的视频片段,该样本视频片段可以是从样本视频中截取的视频片段,也可以是独立的视频片段,本说明书实施例对此不作限定。相应地,训练文本是用于训练该标题生成模型时使用的视频片段,该训练文本包括样本拆条文本和样本拆条文本的前缀文本两个部分。该样本拆条文本与该样本视频片段对应,该样本拆条文本用于描述该样本视频片段的内容,在一些实施例中,该样本拆条文本是对该样本视频片段的音频进行文字识别后得到的。该样本拆条文本的前缀文本是训练该标题生成模型时特别设置的文本,该前缀文本包括该样本拆条文本中的标注关键词,但是该前缀文本中的标注关键词是被遮罩的,遮罩的含义是指标题生成模型无法直接获取该标注关键词,需要该标题生成模型来进行预测,标注关键词是指技术人员在该样本拆条文本中标注的关键词,作为该标题生成模型生成关键词的标准。在一些实施例中,该训练文本也被称为长文本。在一些实施例中,该样本拆条文本的前缀文本是技术人员在训练该标题生成模型时填写的,或者是服务器基于该样本拆条文本中的关键词生成的,本说明书实施例对此不作限定。比如,样本视频片段的拆条文本为“今天让我们关注AAA的最新情况”,“AAA”为标注关键词,该样本拆条文本的前缀文本可以为“[Mask][Mask][Mask]是一种YYY”,其中,“[Mask][Mask][Mask]”为遮罩后的标注关键词“AAA”。在该前缀文本中遮罩标注关键词是为了训练标题生成模型的关键词生成能力,引入关键词生成任务是因为通过关键词生成能够强制标题生成模型提取文本的核心信息,从而提高标题生成的准确性。这是由于生成关键词有助于生成标题,那么这种遮罩方式能够提高生成标题的准确性。
在一种可能的实施方式中,服务器从训练文本库中获取该样本视频片段的训练文本,该训练文本库中存储有多个候选视频片段的训练文本,该样本视频片段属于该多个候选视频片段。
在这种实施方式下,服务器能够从对应维护的训练文本库中获取训练文本,后续能够基于该训练文本来训练标题生成模型,获取训练文本的效率较高,从而提高训练标题生成模型的效率。
举例来说,服务器在对应维护的训练文本库中进行查询,得到多个候选视频片段的训练文本。服务器从该多个候选视频片段的训练文本中获取该样本视频片段的训练文本。
在一种可能的实施方式中,服务器获取终端上传的样本视频片段的训练文本。
在这种实施方式下,服务器能够从终端获取训练文本,技术人员通过终端配置的训练文本能够直接上传到服务器供模型训练使用,效率较高。
举例来说,服务器获取终端上传的多个候选视频片段的训练文本。服务器从该多个候选视频片段的训练文本中获取该样本视频片段的训练文本。比如,终端显示训练文本上传界面,该训练文本上传界面用于选择并上传训练文本。在通过该训练文本上传界面选中该多个候选视频片段的训练文本的情况下,响应于在该训练文本上传界面上的操作,终端将该多个候选视频片段的训练文本上传至服务器。服务器获取该多个候选视频片段的训练文本,从该多个候选视频片段的训练文本中获取该样本视频片段的训练文本。
需要说明的是,服务器能够通过上述任一种方式来获取该样本视频片段的训练文本,本说明书实施例对此不作限定。
为了对上述实施方式进行更加清楚地说明,下面对获取该样本拆条文本中的标注关键词的方法进行说明。
在一种可能的实施方式中,服务器对该样本视频片段的样本拆条文本进行关键词识别,得到该样本拆条文本的标注关键词。
在这种实施方式下,服务器通过对样本拆条文本进行关键词识别,能够快速得到该样本拆条文本中的关键词,该关键词也即是标注关键词,能够用于生成该样本拆条文本的前缀文本以及在模型训练过程中作为标注(Ground True)来进行模型训练。
举例来说,服务器将该样本视频片段的样本拆条文本输入关键词识别模型,通过该关键词识别模型对该样本拆条文本进行关键词识别,输出该样本拆条文本中的标注关键词。其中,该关键词识别模型具有关键词识别的能力,能够识别输入文本中的关键词,在本说明书实施例中,也即是识别样本拆条文本中的标注关键词。
比如,服务器将该样本拆条文本输入关键词识别模型,通过该关键词识别模型对该样本拆条文本进行分词,得到该样本拆条文本中的多个候选词。服务器通过该关键词识别模型,确定该多个候选词的词频,候选词的词频用于表示候选词在语料库中的出现频率,候选词的词频越高,表示该候选词在该语料库的重要性越高。服务器通过该关键词识别模型,基于该多个候选词的词频,从该多个候选词中确定该样本拆条文本中的关键词。
在一些实施例中,该样本拆条文本包括多个关键词,服务器能够通过上述方式来确定该样本拆条文本中的多个关键词,该多个关键词均是该样本拆条文本的标注关键词。
需要说明的是,上述是以服务器通过关键词识别模型利用词频来确定该样本拆条文本中的关键词为例进行说明的,在其他可能的实施方式中,服务器也可以采用其他方式来确定该样本拆条文本中的关键词,比如采用其他结构和原理的关键词识别模型来确定该样本拆条文本中的关键词,本说明书实施例对此不作限定。
404、服务器将该训练文本输入标题生成模型。
其中,该标题生成模型用于基于输入的文本来生成文本对应的标题。
在一种可能的实施方式中,服务器对该训练文本进行嵌入编码,得到该训练文本的嵌入特征。服务器将该训练文本的嵌入特征输入该标题生成模型。
在这种实施方式下,在将该训练文本输入标题生成模型之前,服务器先对该训练文本进行嵌入编码,以实现对该训练文本的离散化表达,有助于该标题生成模型的后续处理。
举例来说,服务器对该训练文本中的多个字符进行嵌入编码,得到该训练文本中各个字符的字符嵌入特征。服务器对该训练文本中的多个字符的位置进行嵌入编码,得到该训练文本中各个字符的位置嵌入特征。服务器将该训练文本中各个字符的字符嵌入特征和该训练文本中各个字符的位置嵌入特征进行拼接,得到该训练文本中各个字符的嵌入特征,该多个字符的嵌入特征构成该训练文本的嵌入特征。
在一些实施例中,该标题生成模型包括编码器和解码器,该编码器用于对输入文本进行编码,得到输入文本的语义特征。解码器用于对该输入文本的语义特征进行解码,得到该输入文本对应的标题。相应地,上述步骤404中将该训练文本输入标题生成模型是指将该训练文本输入该标题生成模型的编码器。另外,该标题生成模型的编码器还用于基于该输入文本的语义特征来预测该输入文本中的关键词。图5提供了该标题生成模型的结构示意图,参见图5,该标题生成模型500包括编码器501和解码器502,服务器将文本503输入编码器501,编码器501对该文本503进行编码,得到该文本503的语义特征。编码器501基于该文本503的语义特征进行预测,得到该文本503中的关键词504。编码器501将该文本503的语义特征发送给解码器502,由该解码器502基于该文本503的语义特征进行解码,得到该文本503的标题505。在一些实施例中,该编码器501为Longformer模型的编码器,该解码器502为Bert模型的解码器,当然,随着科学技术的发展,该编码器501和解码器502也可以为其他结构,本说明书实施例对此不作限定。
406、服务器通过该标题生成模型,将该前缀文本中的字符配置为全局注意力字符,将该样本拆条文本中的字符配置为局部注意力字符,该全局注意力字符表示与该训练文本中全部字符进行注意力运算的字符,该局部注意力字符表示与该训练文本中部分字符进行注意力运算的字符。
其中,全局注意力字符也被称为全局Token,布局注意力字符也被称为局部Token。全局注意力字符能够在基于注意力机制进行编码的过程中与训练文本中的全部字符进行注意力运算,局部注意力字符在基于注意力机制进行编码的过程中只能与该训练文本中的部分进行注意力运算,使得服务器通过标题生成模型对训练文本进行编码时,在不丢失上下文信息的基础上,大大减少编码时间。将该前缀文本中的字符配置为全局注意力字符是为了保证训练文本中所有的信息都能服务于关键词生成任务,而关键词生成任务同时会辅助标题生成任务。
在一些实施例中,该训练文本中与局部注意力字符进行注意力运算的部分字符通过滑动窗口确定,该滑动窗口的尺寸和滑动步长由技术人员根据实际情况进行设置本说明书实施例对此不作限定。比如,在进行注意力运算的过程中,在滑动窗口的中心移动至任一局部注意力字符所在位置的情况下,将该滑动窗口中的其他字符确定为该局部注意力字符对应的部分字符。随着该滑动窗口的移动,能够确定不同局部注意力字符对应的部分字符。在一些实施例中,局部注意力字符对应的部分字符也被称为局部注意力字符的参考字符。
408、服务器通过该标题生成模型,对该训练文本中多个字符进行注意力编码,得到该训练文本中多个字符的注意力特征。
其中,注意力机制使得该标题生成模型能够重点关注文本中对标题生成有帮助的信息,提高生成的标题与文本的相关性,也即是提高生成标题的准确性。对该训练文本进行编码也即是将该训练文本编码成抽象化的语义特征,以便于该标题生成模型进行处理,该语义特征能够表示该训练文本的语义。
在一种可能的实施方式中,对于该多个字符中的任一字符,在该字符属于该前缀文本的情况下,服务器通过该标题生成模型,确定该字符与该训练文本中其他字符之间的第一注意力权重。服务器通过该标题生成模型,基于该字符以及该第一注意力权重,确定该字符的注意力特征。在该字符属于该样本拆条文本的情况下,服务器通过该标题生成模型,确定该字符与该训练文本中的参考字符之间的第二注意力权重,该参考字符是该训练文本中该字符周围的字符。服务器通过该标题生成模型,基于该字符以及该第二注意力权重,确定该字符的注意力特征。
其中,在该字符属于该前缀文本的情况下,表示该字符为全局注意力字符;在该字符属于该样本拆条文本的情况下,表示该字符为局部注意力字符。
在这种实施方式下,服务器能够通过该标题生成模型来对该训练文本中不同类型的字符进行注意力编码,得到不同类型的字符的注意力特征,在不丢失上下文信息的基础上,大大减少确定注意力特征的时间。
为了对上述实施方式进行更加清楚的说明,下面将分为几个部分对上述实施方式进行说明。
第一部分、在该字符属于该前缀文本的情况下,服务器通过该标题生成模型,确定该字符与该训练文本中其他字符之间的第一注意力权重。
在一种可能的实施方式中,服务器通过该标题生成模型,对该训练文本中多个字符的嵌入特征进行线性变换,得到该训练文本中各个字符的查询矩阵、键矩阵和值矩阵。在该字符属于该前缀文本的情况下,服务器通过该标题生成模型,将该字符的查询矩阵分别与该训练文本中其他字符的键矩阵相乘,得到该字符与该训练文本中其他字符之间的第一注意力权重。
在这种实施方式下,服务器能够通过该标题生成模型来对全局注意力字符进行注意力运算,得到该全局注意力字符与该训练文本中其他字符之间的第一注意力权重,使得该全局注意力字符能够关注到该训练文本中的全部字符。
举例来说,服务器通过该标题生成模型的编码器,将该训练文本中各个字符的嵌入特征分别与第一线性变换矩阵、第二线性变换矩阵以及第三线性变换矩阵相乘,得到各个字符的查询矩阵、键矩阵以及值矩阵,该第一线性变换矩阵、第二线性变换矩阵以及第三线性变换矩阵相乘是在训练该标题生成模型的过程中得到的。服务器通过该标题生成模型的编码器,将该字符的查询矩阵分别与该训练文本中各个字符的键矩阵相乘,得到该字符与该训练文本中各个字符之间的第一注意力关注值。服务器通过该标题生成模型的编码器,对该字符与该训练文本中各个字符之间的第一注意力关注值进行归一化,得到该字符与该训练文本中各个字符之间的第一注意力权重。
第二部分、服务器通过该标题生成模型,基于该字符以及该第一注意力权重,确定该字符的注意力特征。
在一种可能的实施方式,服务器通过该标题生成模型,将该字符的值矩阵与该字符与该训练文本中各个字符之间的第一注意力权重相乘,得到该字符的多个注意力向量,一个注意力向量对应于该训练文本中的一个字符。服务器通过该标题生成模型,将该字符的多个注意力向量进行融合,得到该字符的注意力特征。
在这种实施方式下,服务器通过该标题生成模型,能够确定该字符的多个注意力向量,将该字符的多个注意力向量进行融合之后得到该字符的注意力特征,该字符的注意力特征也就结合了该训练文本中全部字符的信息,能够较为准确地表示该字符的语义。
举例来说,服务器通过该标题生成模型的编码器,将该字符的值矩阵与该字符与该训练文本中各个字符之间的第一注意力权重相乘,得到该字符的多个注意力向量,一个注意力向量对应于该训练文本中的一个字符。服务器通过该标题生成模型编码器,将该字符的多个注意力向量相加,得到该字符的注意力特征。
第三部分、在该字符属于该样本拆条文本的情况下,服务器通过该标题生成模型,确定该字符与该训练文本中的参考字符之间的第二注意力权重,该参考字符是该训练文本中该字符周围的字符。
在一种可能的实施方式中,在该字符属于该样本拆条文本的情况下,服务器通过该标题生成模型,确定覆盖该字符时滑动窗口中的该参考字符,该滑动窗口在该训练文本上进行滑动。服务器通过该标题生成模型,确定该字符的查询矩阵以及该参考字符的键矩阵。服务器通过该标题生成模型,基于该字符的查询矩阵以及该参考字符的键矩阵,确定该字符与该训练文本中的参考字符之间的第二注意力权重。
在这种实施方式下,在该字符属于局部注意力字符的情况下,服务器能够通过该标题生成模型来基于滑动窗口实现对该字符的局部注意力编码,提高对该字符进行编码的效率。
举例来说,在该字符属于该样本拆条文本的情况下,服务器通过该标题生成模型,确定以该字符为中心时滑动窗口中的该参考字符,该参考字符是该滑动窗口覆盖的其他字符。服务器通过该标题生成模型,确定该字符的查询矩阵以及该参考字符的键矩阵,其中,服务器通过该标题生成模型获取该字符的查询矩阵以及该参考字符的键矩阵的方法与第一部分的描述属于同一发明构思,实现过程不再赘述。服务器通过该标题生成模型,将该字符的查询矩阵与该参考字符的键矩阵相乘,得到该字符与该训练文本中的参考字符之间的第二注意力权重。
比如,在该字符属于该样本拆条文本的情况下,服务器通过该标题生成模型的编码器,确定以该字符为中心时滑动窗口中的该参考字符。服务器通过该标题生成模型的编码器,确定该字符的查询矩阵以及该参考字符的键矩阵。服务器通过该标题生成模型的编码器,将该字符的查询矩阵与该参考字符的键矩阵相乘,得到该字符与该训练文本中的参考字符之间的第二注意力关注值。服务器通过该标题生成模型的编码器,对该字符与该训练文本中的参考字符之间的第二注意力关注值进行归一化,得到该字符与该训练文本中的参考字符之间的第二注意力权重。
第四部分、服务器通过该标题生成模型,基于该字符以及该第二注意力权重,确定该字符的注意力特征。
在一种可能的实施方式,服务器通过该标题生成模型,将该字符的值矩阵与该字符与该训练文本中参考字符之间的第二注意力权重相乘,得到该字符的多个注意力向量,一个注意力向量对应于该训练文本中的一个参考字符。服务器通过该标题生成模型,将该字符的多个注意力向量进行融合,得到该字符的注意力特征。
举例来说,服务器通过该标题生成模型的编码器,将该字符的值矩阵与该字符与该训练文本中参考字符之间的第二注意力权重相乘,得到该字符的多个注意力向量,一个注意力向量对应于该训练文本中的一个参考字符。服务器通过该标题生成模型编码器,将该字符的多个注意力向量相加,得到该字符的注意力特征。
410、服务器通过该标题生成模型,将该多个字符的注意力特征进行融合,得到该训练文本的语义特征。
在一种可能的实施方式中,服务器通过该标题生成模型,将该多个字符的注意力特征进行拼接,得到该训练文本的语义特征。
在这种实施方式下,该训练文本中多个字符的注意力特征能够表示该多个字符的语义,将该多个字符的注意力特征进行拼接,就能够得到该训练文本的语义特征。
412、服务器通过该标题生成模型,基于该训练文本的语义特征进行预测,输出该样本拆条文本中的预测关键词以及该样本视频片段的预测标题。
其中,该预测关键词是该标题生成模型预测的关键词,由于关键词与标题相互关联,预测该样本拆条文本中的关键词的目的是帮助后续的标题预测过程。
在一种可能的实施方式中,服务器通过该标题生成模型,对该训练文本的语义特征进行全连接和归一化,输出该样本拆条文本中的预测关键词。服务器通过该标题生成模型,基于该训练文本的语义特征进行多轮迭代解码,输出该样本视频片段的预测标题。
在这种实施方式下,服务器能够通过该标题生成模型既生成该样本拆条文本中的预测关键词,又生成该样本视频片段的预测标题,由于关键词生成任务能够辅助标题生成任务,后续基于预测关键词和预测标题来对该标题生成模型能够得到较好的效果。
为了对上述实施方式进行说明,下面将分为两个部分对上述实施方式进行说明。
第一部分、服务器通过该标题生成模型,对该训练文本的语义特征进行全连接和归一化,输出该样本拆条文本中的预测关键词。
在一种可能的实施方式中,服务器通过该标题生成模型的编码器,对该训练文本的语义特征进行全连接和归一化,输出该训练文本对应于不同关键词的概率集合,该概率集合包括多个概率,每个概率对应于一个候选关键词。服务器基于该概率集合,从多个候选关键词中确定该样本拆条文本中的预测关键词。比如,服务器将概率集合中最大概率对应的候选关键词确定为该样本拆条文本中的预测关键词,或者,服务器将概率集合中最大的N个概率对应的候选关键词确定为该样本拆条文本中的预测关键词,其中,N为正整数。
第二部分、服务器通过该标题生成模型,基于该训练文本的语义特征进行多轮迭代解码,输出该样本视频片段的预测标题。
在一种可能的实施方式中,在第一轮迭代过程中,服务器通过该标题生成模型,基于该训练文本的语义特征和开始字符进行迭代,输出该样本视频片段的预测标题中的第一个字符。在其他轮迭代过程中,服务器通过该标题生成模型,基于该训练文本的语义特征和上轮迭代输出的字符,输出本轮迭代对应的字符。
其中,开始字符为预设类型的字符,用于指示该标题生成模型开始进行解码,比如,该开始字符为<start>或者<bos>,bos表示(Begining of Sequence,序列开始),本说明书实施例对此不作限定。
举例来说,在第一轮迭代过程中,服务器通过该预测标题生成模型的解码器,将该训练文本的语义特征和开始字符的嵌入特征进行融合,得到第一融合特征。服务器通过该预测标题生成模型的解码器,对该第一融合特征进行全连接和归一化,得到标题第一个字符。也即是,服务器通过该预测标题生成模型的解码器,对该第一融合特征进行全连接和归一化,得到标题的第一个字符所在的位置对应于多个候选字符的概率。服务器基于该多个候选字符的概率,从该多个候选字符中确定该预测标题的第一个字符,比如,服务器将该多个候选字符中概率最高的候选字符确定为该预测标题的第一个字符。
在其他轮迭代过程中,服务器通过该预测标题生成模型的解码器,将训练文本的语义特征和上轮迭代输出的字符的嵌入特征进行融合,得到第二融合特征。服务器通过该预测标题生成模型的解码器,对该第二融合特征进行全连接和归一化,得到标题中的另一个字符。也即是,服务器通过该预测标题生成模型的解码器,对该第二融合特征进行全连接和归一化,得到标题的另一个字符所在的位置对应于多个候选字符的概率。服务器基于该多个候选字符的概率,从该多个候选字符中确定该预测标题的另一个字符,比如,服务器将该多个候选字符中概率最高的候选字符确定为该预测标题的另一个字符。
在该服务器通过该标题生成模型的解码器生成终止字符的情况下,服务器停止迭代过程,该终止字符前的字符构成该样本视频片段的预测标题。其中,该终止字符为预设类型的字符,用于指示该标题生成模型停止解码,比如,该终止字符为<stop>或者<eos>,eos表示(End of Sequence,序列结束)本说明书实施例对此不作限定。
下面通过一个具体的例子对上述实施方式进行说明,以该训练文本为“半导体出现大幅度调整,原因是XXXXXXXXX”为例。
在第一轮迭代过程中,服务器对该开始字符<bos>进行嵌入编码,得到该开始字符<bos>的嵌入特征。服务器将开始字符<bos>的嵌入特征输入该标题生成模型的解码器,由该标题生成模型的解码器将该开始字符<bos>的嵌入特征和训练文本的语义特征进行融合,得到第一融合特征。服务器通过该标题生成模型的解码器,对该第一融合特征进行全连接和归一化,得到预测标题的第一个字符“半”。在第二轮迭代过程中,服务器对该第一个字符“半”进行嵌入编码,得到该第一个字符“半”的嵌入特征。服务器将第一个字符“半”的嵌入特征输入该标题生成模型的解码器,由该标题生成模型的解码器将该第一个字符“半”的嵌入特征和训练文本的语义特征进行融合,得到第二融合特征。服务器通过该标题生成模型的解码器,对该第二融合特征进行全连接和归一化,得到预测标题的第二个字符“导”。在第三轮迭代过程中,服务器对该第二个字符“导”进行嵌入编码,得到该第二个字符“导”的嵌入特征。服务器将第二个字符“导”的嵌入特征输入该标题生成模型的解码器,由该标题生成模型的解码器将该第二个字符“导”的嵌入特征和训练文本的语义特征进行融合,得到第二融合特征。服务器通过该标题生成模型的解码器,对该第二融合特征进行全连接和归一化,得到预测标题的第三个字符“体”。在第四轮迭代过程中,服务器对该第三个字符“体”进行嵌入编码,得到该第三个字符“体”的嵌入特征。服务器将第三个字符“体”的嵌入特征输入该标题生成模型的解码器,由该标题生成模型的解码器将该第三个字符“体”的嵌入特征和训练文本的语义特征进行融合,得到第二融合特征。服务器通过该标题生成模型的解码器,对该第二融合特征进行全连接和归一化,得到预测标题的第四个字符终止字符<eos>,服务器停止迭代,得到预测标题“半导体”。
414、服务器基于该预测关键词与该标注关键词之间的第一差异信息,以及该预测标题与该样本视频片段的标注标题之间的第二差异信息,对该标题生成模型进行训练。
其中,基于该第一差异信息和第二差异信息对该标题生成模型进行训练的目的是使得该第一差异信息和该第二差异信息尽可能小,也即是该标题生成模型输出的预测关键词与标注关键词尽可能接近,输出的预测标题与标注标题尽可能接近,使得该标题生成模型能够基于输入的文本生成标题。在一些实施例中,该标题生成模型也被称为Phrase-Aware Lonformer-Bert Network(PALBN)。
在一种可能的实施方式中,服务器基于该第一差异信息和该第二差异信息构建联合损失函数。服务器基于该联合损失函数对该标题生成模型进行训练。
举例来说,服务器基于该第一差异信息和该第二差异信息构建联合损失函数。服务器基于该联合损失函数,采用梯度下降法对该标题生成模型进行训练。
需要说明是,上述是以服务器对该标题生成模型进行一轮迭代训练为例进行说明的,在其他轮次的迭代训练中,训练方法与上述描述属于同一发明构思,在此不再赘述。
还有,在本说明书实施例中,可以采用预训练和微调的方式来训练该标题生成模型,上述步骤402-414可以视作微调过程,对于预训练过程,服务器可以采用公开的<标题,摘要(文本)>数据集来进行,由于<标题,摘要(文本)>数据集中不存在关键词,那么可以采用关键词识别模型来对<标题,摘要(文本)>数据集中的摘要进行关键词识别,得到<标题,关键词,摘要(文本)>数据集来对该标题生成模型进行预训练,预训练的过程与上述步骤402-414属于同一发明构思,在此不再赘述。
另外,上述是以服务器为执行主体为例进行说明,在其他可能的实施方式中,也可以由终端作为执行主体来执行上述步骤402-414,本说明书实施例对此不作限定。
上述所有可选技术方案,可以采用任意结合形成本说明书的可选实施例,在此不再一一赘述。
通过本说明书实施例提供的技术方案,通过样本视频片段的训练文本来训练标题生成模型,该训练文本包括样本视频片段的样本拆条文本以及该拆条文本的前缀文本,该前缀文本为被遮罩该样本拆条文本中标注关键词的文本,通过这样的方式来设计训练文本,能够同时训练标题生成模型预测关键词和标题的能力。在训练过程中,基于注意力机制对训练文本进行了编码,得到该训练文本的语义特征,利用注意力机制使得该标题生成模型重点关注训练文本中有助于预测标题的部分,提高语义特征的准确性。基于该训练文本的语义特征来预测,得到该样本拆条文本中的预测关键词以及样本视频片段的预测标题,基于预测关键词和标注关键词之间的第一差异信息,以及预测标题与标注标题之间的第二差异信息对该标题生成模型进行训练,能够得到标题生成模型,通过该标题生成模型就能够高效且准确地生成标题。
上述步骤402-414是对本说明书实施例提供的标题生成模型的训练方法进行的介绍,下面对使用该标题生成模型来生成标题的方法进行说明,参见图6,以执行主体为服务器为例,方法包括下述步骤。
602、服务器获取目标视频片段的拆条文本,该目标视频片段是对视频进行拆条后得到的。
其中,对视频进行拆条是指将一个完整的视频拆分为多个视频片段,通过对视频进行拆条,方便对该视频进行二次加工。该目标视频片段为待生成标题的视频片段,该目标视频片段的拆条文本用于表示该目标视频片段的内容。
在一种可能的实施方式中,服务器对该目标视频片段的音频进行语音识别,得到该目标视频片段的拆条文本。
在这种实施方式下,服务器通过对目标视频片段的音频进行语音识别就能够得到该目标视频片段的拆条文本,拆条文本能够准确反映目标视频片段的内容。
举例来说,服务器对视频进行拆条,得到多个视频片段。服务器从该多个视频片段中确定该目标视频片段,比如,该目标视频片段是该多个视频片段中被用户选中的视频片段。服务器将该目标视频片段的音频输入语音识别模型,通过该语音识别模型对该目标视频片段的音频进行语音识别,输出该目标视频片段的拆条文本。其中,该语音识别模型可以为任一结构的语音识别模型,本说明书实施例对此不作限定。
在一种可能的实施方式中,服务器将该视频的字幕中该目标视频片段对应的部分,确定为该目标视频片段的拆条文本。
在这种实施方式中,服务器直接将该目标视频片段对应的字幕确定为该目标视频片段的拆条文本即可,效率较高。
举例来说,服务器对视频进行拆条,得到多个视频片段。服务器从该多个视频片段中确定该目标视频片段,比如,该目标视频片段是该多个视频片段中被用户选中的视频片段。服务器在该视频的字幕中确定目标视频片段对应的字幕,该目标视频片段对应的字幕也即是该目标视频片段的拆条文本。
在一种可能的实施方式中,服务器获取终端上传的目标视频片段的拆条文本。
在这种实施方式下,服务器能够从终端获取拆条文本,技术人员通过终端选择的拆条文本能够直接上传到服务器供模型训练使用,效率较高。
需要说明的是,服务器能够通过上述任一种方式来获取该目标视频片段的拆条文本,本说明书实施例对此不作限定。
604、服务器将该拆条文本输入标题生成模型,通过该标题生成模型,基于注意力机制对该拆条文本进行编码,得到该拆条文本的语义特征。
其中,该标题生成模型是基于样本视频片段的训练文本、该样本视频片段的标注标题以及该训练文本中样本拆条文本的标注关键词训练得到的,该训练文本还包括该样本拆条文本的前缀文本,该前缀文本为被遮罩该样本拆条文本中该标注关键词的文本。与上述步骤204属于同一发明构思,通过该标题生成模型来对该拆条文本进行编码,能够实现对该拆条文本进行抽象化表达,得到的语义特征能够反映该拆条文本的语义。
在一种可能的实施方式中,服务器对该拆条文本的多个字符进行嵌入编码,得到该拆条文本的多个字符的嵌入特征。服务器将该多个字符的嵌入特征输入标题生成模型,通过该标题生成模型,对该多个字符的嵌入特征进行线性变换,得到该拆条文本中各个字符的查询矩阵、键矩阵和值矩阵。服务器通过该标题生成模型,基于该拆条文本中各个字符的查询矩阵、键矩阵和值矩阵进行运算,得到该拆条文本的语义特征。
举例来说,服务器对该拆条文本的多个字符进行嵌入编码,得到该拆条文本的多个字符的嵌入特征。服务器将该多个字符的嵌入特征输入标题生成模型的编码器,通过该编码器,将该拆条文本中各个字符的嵌入特征分别与第一线性变换矩阵、第二线性变换矩阵以及第三线性变换矩阵相乘,得到各个字符的查询矩阵、键矩阵以及值矩阵,该第一线性变换矩阵、第二线性变换矩阵以及第三线性变换矩阵相乘是在训练该标题生成模型的过程中得到的。对于该多个字符中的任一字符,服务器通过该标题生成模型的编码器,将该字符的查询矩阵分别与该拆条文本中各个字符的键矩阵相乘,得到该字符与该拆条文本中各个字符之间的注意力关注值。服务器通过该标题生成模型的编码器,对该字符与该拆条文本中各个字符之间的注意力关注值进行归一化,得到该字符与该拆条文本中各个字符之间的注意力权重。服务器通过该标题生成模型的编码器,将该字符的值矩阵与该字符与该拆条文本中各个字符之间的注意力权重相乘,得到该字符的多个注意力向量,一个注意力向量对应于该拆条文本中的一个字符。服务器通过该标题生成模型编码器,将该字符的多个注意力向量相加,得到该字符的注意力特征。服务器将该拆条文本中多个字符的注意力特征进行融合,得到该拆条文本的语义特征。
在一种可能的实施方式中,服务器获取该拆条文本中的参考关键词,该参考关键词是用户选中的关键词。服务器将该拆条文本输入该标题生成模型,通过该标题生成模型,将该拆条文本中参考关键词中的字符配置为全局注意力字符,将该拆条文本中其他字符配置为局部注意力字符,该全局注意力字符表示与该拆条文本中全部字符进行注意力运算的字符,该局部注意力字符表示与该拆条文本中部分字符进行注意力运算的字符。服务器通过该标题生成模型,对该拆条文本中多个字符进行注意力编码,得到该拆条文本中多个字符的注意力特征。将该拆条文本中多个字符的注意力特征进行融合,得到该拆条文本的语义特征。
其中,该拆条文本中的其他字符是指该拆条文本中除关键词中的字符以外的字符。
在这种实施方式下,用户能够自行选定生成标题时的参考关键词,服务器将拆条文本中参考关键词中的字符配置为全局注意力字符,使得参考关键词能够关注到拆条文本中的全部字符,将该拆条文本中的其他字符配置为局部注意力字符,使得通过标题生成模型在生成标题时能够将注意力集中在参考关键词上,从而生成与该参考关键词相关的标题。
比如,在用户使用该标题生成模型来生成标题时,若对该标题生成模型默认生成的标题不满意,那么用户可以指定参考关键词,该标题生成模型能够生成与该参考关键词相关的标题。
606、服务器通过该标题生成模型,基于该拆条文本的语义特征进行预测,输出该目标视频片段的标题。
其中,该标题生成模型是训练完成的模型,使用该标题生成模型来基于该拆条文本的语义特征进行预测,能够得到较为准确的标题,该标题也就能够表示该目标视频片段的内容。
在一种可能的实施方式中,服务器通过该标题生成模型,基于该拆条文本的语义特征进行多轮迭代解码,输出该目标视频片段的标题。
在一种可能的实施方式中,在第一轮迭代过程中,服务器通过该标题生成模型,基于该拆条文本的语义特征和开始字符进行迭代,输出该目标视频片段的标题中的第一个字符。在其他轮迭代过程中,服务器通过该标题生成模型,基于该拆条文本的语义特征和上轮迭代输出的字符,输出本轮迭代对应的字符。
其中,开始字符为预设类型的字符,用于指示该标题生成模型开始进行解码,比如,该开始字符为<start>或者<bos>,bos表示(Begining of Sequence,序列开始),本说明书实施例对此不作限定。
举例来说,在第一轮迭代过程中,服务器通过该标题生成模型的解码器,将该拆条文本的语义特征和开始字符的嵌入特征进行融合,得到第一融合特征。服务器通过该标题生成模型的解码器,对该第一融合特征进行全连接和归一化,得到标题第一个字符。也即是,服务器通过该标题生成模型的解码器,对该第一融合特征进行全连接和归一化,得到标题的第一个字符所在的位置对应于多个候选字符的概率。服务器基于该多个候选字符的概率,从该多个候选字符中确定该标题的第一个字符,比如,服务器将该多个候选字符中概率最高的候选字符确定为该标题的第一个字符。
在其他轮迭代过程中,服务器通过该标题生成模型的解码器,将拆条文本的语义特征和上轮迭代输出的字符的嵌入特征进行融合,得到第二融合特征。服务器通过该标题生成模型的解码器,对该第二融合特征进行全连接和归一化,得到标题中的另一个字符。也即是,服务器通过该标题生成模型的解码器,对该第二融合特征进行全连接和归一化,得到标题的另一个字符所在的位置对应于多个候选字符的概率。服务器基于该多个候选字符的概率,从该多个候选字符中确定该标题的另一个字符,比如,服务器将该多个候选字符中概率最高的候选字符确定为该标题的另一个字符。
608、服务器通过该标题生成模型,基于该拆条文本的语义特征进行预测,输出该拆条文本中的关键词。
在一种可能的实施方式中,服务器通过该标题生成模型的编码器,对该拆条文本的语义特征进行全连接和归一化,输出该拆条文本对应于不同关键词的概率集合,该概率集合包括多个概率,每个概率对应于一个候选关键词。服务器基于该概率集合,从多个候选关键词中确定该样本拆条文本中的关键词。比如,服务器将概率集合中最大概率对应的候选关键词确定为该样本拆条文本中的关键词,或者,服务器将概率集合中最大的N个概率对应的候选关键词确定为该样本拆条文本中的关键词,其中,N为正整数。
上述所有可选技术方案,可以采用任意结合形成本说明书的可选实施例,在此不再一一赘述。
通过本说明书实施例提供的技术方案,将目标视频片段的拆条文本输入标题生成模型,通过该标题生成模型基于注意力机制对该拆条文本进行编码,得到该拆条文本的语义特征,该语义特征能够较为准确地反映该拆条文本的语义,也就能够较为准确地反映该目标视频片段的语义。通过该标题生成模型来基于该拆条文本的语义特征进行预测,能够得到该目标视频片段的标题。生成标题的过程无需技术人员手动操作,提高了标题生成的效率。
图7是本说明书实施例提供的一种标题生成模型的训练装置的结构示意图,参见图7,装置包括:训练文本获取模块701、训练文本编码模块702、训练文本预测模块703以及训练模块704。
训练文本获取模块701,用于获取样本视频片段的训练文本,该训练文本包括该样本视频片段的样本拆条文本和该样本拆条文本的前缀文本,该前缀文本为被遮罩该样本拆条文本中标注关键词的文本。
训练文本编码模块702,用于将该训练文本输入标题生成模型,通过该标题生成模型,基于注意力机制对该训练文本进行编码,得到该训练文本的语义特征。
训练文本预测模块703,用于通过该标题生成模型,基于该训练文本的语义特征进行预测,输出该样本拆条文本中的预测关键词以及该样本视频片段的预测标题。
训练模块704,用于基于该预测关键词与该标注关键词之间的第一差异信息,以及该预测标题与该样本视频片段的标注标题之间的第二差异信息,对该标题生成模型进行训练。
在一种可能的实施方式中,该训练文本编码模块702,用于通过该标题生成模型,将该前缀文本中的字符配置为全局注意力字符,将该样本拆条文本中的字符配置为局部注意力字符,该全局注意力字符表示与该训练文本中全部字符进行注意力运算的字符,该局部注意力字符表示与该训练文本中部分字符进行注意力运算的字符。通过该标题生成模型,对该训练文本中多个字符进行注意力编码,得到该训练文本中多个字符的注意力特征。将该多个字符的注意力特征进行融合,得到该训练文本的语义特征。
在一种可能的实施方式中,该训练文本编码模块702,用于对于该多个字符中的任一字符,在该字符属于该前缀文本的情况下,确定该字符与该训练文本中其他字符之间的第一注意力权重。基于该字符以及该第一注意力权重,确定该字符的注意力特征。在该字符属于该样本拆条文本的情况下,确定该字符与该训练文本中的参考字符之间的第二注意力权重,该参考字符是该训练文本中该字符周围的字符。基于该字符以及该第二注意力权重,确定该字符的注意力特征。
在一种可能的实施方式中,该训练文本编码模块702,用于在该字符属于该样本拆条文本的情况下,确定覆盖该字符时滑动窗口中的该参考字符,该滑动窗口在该训练文本上进行滑动。确定该字符的查询矩阵以及该参考字符的键矩阵。基于该字符的查询矩阵以及该参考字符的键矩阵,确定该字符与该训练文本中的参考字符之间的第二注意力权重。
在一种可能的实施方式中,该训练文本预测模块703,用于通过该标题生成模型,对该训练文本的语义特征进行全连接和归一化,输出该样本拆条文本中的预测关键词。通过该标题生成模型,基于该训练文本的语义特征进行多轮迭代解码,输出该样本视频片段的预测标题。
在一种可能的实施方式中,该训练文本预测模块703,用于在第一轮迭代过程中,通过该标题生成模型,基于该训练文本的语义特征和开始字符进行迭代,输出该样本视频片段的预测标题中的第一个字符。在其他轮迭代过程中,通过该标题生成模型,基于该训练文本的语义特征和上轮迭代输出的字符,输出本轮迭代对应的字符。
在一种可能的实施方式中,该训练模块704,用于基于该第一差异信息和该第二差异信息构建联合损失函数。基于该联合损失函数对该标题生成模型进行训练。
在一种可能的实施方式中,该样本拆条文本的标注关键词的获取方法包括:
对该样本视频片段的样本拆条文本进行关键词识别,得到该样本拆条文本的标注关键词。
需要说明的是:上述实施例提供的标题生成模型的训练装置在训练标题生成模型时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将计算机设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的标题生成装置与标题生成方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
通过本说明书实施例提供的技术方案,通过样本视频片段的训练文本来训练标题生成模型,该训练文本包括样本视频片段的样本拆条文本以及该拆条文本的前缀文本,该前缀文本为被遮罩该样本拆条文本中标注关键词的文本,通过这样的方式来设计训练文本,能够同时训练标题生成模型预测关键词和标题的能力。在训练过程中,基于注意力机制对训练文本进行了编码,得到该训练文本的语义特征,利用注意力机制使得该标题生成模型重点关注训练文本中有助于预测标题的部分,提高语义特征的准确性。基于该训练文本的语义特征来预测,得到该样本拆条文本中的预测关键词以及样本视频片段的预测标题,基于预测关键词和标注关键词之间的第一差异信息,以及预测标题与标注标题之间的第二差异信息对该标题生成模型进行训练,能够得到标题生成模型,通过该标题生成模型就能够高效且准确地生成标题。
图8是本说明书实施例提供的一种标题生成装置的结构示意图,参见图8,装置包括:拆条文本获取模块801、拆条文本编码模块802以及标题预测模块803。
拆条文本获取模块801,用于获取目标视频片段的拆条文本,该目标视频片段是对视频进行拆条后得到的。
拆条文本编码模块802,用于将该拆条文本输入标题生成模型,通过该标题生成模型,基于注意力机制对该拆条文本进行编码,得到该拆条文本的语义特征。
标题预测模块803,用于通过该标题生成模型,基于该拆条文本的语义特征进行预测,输出该目标视频片段的标题。
其中,该标题生成模型是基于样本视频片段的训练文本、该样本视频片段的标注标题以及该训练文本中样本拆条文本的标注关键词训练得到的,该训练文本还包括该样本拆条文本的前缀文本,该前缀文本为被遮罩该样本拆条文本中该标注关键词的文本。
在一种可能的实施方式中,该装置还包括:
关键词预测模块,用于通过该标题生成模型,基于该拆条文本的语义特征进行预测,输出该拆条文本中的关键词。
在一种可能的实施方式中,该装置还包括:
参考关键词获取模块,用于获取该拆条文本中的参考关键词。
该拆条文本编码模块802还用于将该拆条文本输入该标题生成模型,通过该标题生成模型,将该拆条文本中参考关键词中的字符配置为全局注意力字符,将该拆条文本中其他字符配置为局部注意力字符,该全局注意力字符表示与该拆条文本中全部字符进行注意力运算的字符,该局部注意力字符表示与该拆条文本中部分字符进行注意力运算的字符。通过该标题生成模型,对该拆条文本中多个字符进行注意力编码,得到该拆条文本中多个字符的注意力特征。将该拆条文本中多个字符的注意力特征进行融合,得到该拆条文本的语义特征。
在一种可能的实施方式中,该拆条文本获取模块801,用于执行下述任一项:
对该目标视频片段的音频进行语音识别,得到该目标视频片段的拆条文本。
将该视频的字幕中该目标视频片段对应的部分,确定为该目标视频片段的拆条文本。
需要说明的是:上述实施例提供的标题生成装置在生成标题时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将计算机设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的标题生成装置与标题生成方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
通过本说明书实施例提供的技术方案,将目标视频片段的拆条文本输入标题生成模型,通过该标题生成模型基于注意力机制对该拆条文本进行编码,得到该拆条文本的语义特征,该语义特征能够较为准确地反映该拆条文本的语义,也就能够较为准确地反映该目标视频片段的语义。通过该标题生成模型来基于该拆条文本的语义特征进行预测,能够得到该目标视频片段的标题。生成标题的过程无需技术人员手动操作,提高了标题生成的效率。
本说明书实施例还提供了一种计算机存储介质,该计算机存储介质可以存储有多条程序指令,该程序指令适于由处理器加载并执行如上述方法实施例所描述的方案,在此不进行赘述。
本说明书实施例还提供了一种计算机程序产品,该计算机程序产品存储有至少一条指令,该至少一条指令由处理器加载并执行如上述方法实施例所描述的方案,在此不进行赘述。
请参见图9,其示出了本说明书一个示例性实施例提供的电子设备的结构示意图,该电子设备可以提供为服务器或者终端。本说明书中的电子设备可以包括一个或多个如下部件:处理器99、存储器920、输入装置930、输出装置940和总线960。处理器99、存储器920、输入装置930和输出装置940之间可以通过总线960连接。
处理器99可以包括一个或者多个处理核心。处理器99利用各种接口和线路连接整个电子设备内的各个部分,通过运行或执行存储在存储器920内的指令、程序、代码集或指令集,以及调用存储在存储器920内的数据,执行电子设备900的各种功能和处理数据。可选地,处理器99可以采用数字信号处理(Digital Signal Processing,DSP)、现场可编程门阵列(Field-programmable Gate Array,FPGA)、可编程逻辑阵列(Programmable LogicArray,PLA)中的至少一种硬件形式来实现。处理器99可集成中心处理器(CentralProcessing Unit,CPU)、标题生成器(Graphics Processing Unit,GPU)和调制解调器等中的一种或几种的组合。其中,CPU主要处理操作系统、用户界面和应用程序等;GPU用于负责显示内容的渲染和绘制;调制解调器用于处理无线通信。可以理解的是,上述调制解调器也可以不集成到处理器99中,单独通过一块通信芯片进行实现。
存储器920可以包括随机存储器(random Access Memory,RAM),也可以包括只读存储器(Read-only Memory,ROM)。可选地,该存储器920包括非瞬时性计算机可读介质(Non-transitory Computer-readable Storage Medium)。存储器920可用于存储指令、程序、代码、代码集或指令集。存储器920可包括存储程序区和存储数据区,其中,存储程序区可存储用于实现操作系统的指令、用于实现至少一个功能的指令(例如触控功能、声音播放功能、图像播放功能等)、用于实现下述各个方法实施例的指令等,该操作系统可以是安卓(Android)系统,包括基于Android系统深度开发的系统、苹果公司开发的IOS系统,包括基于IOS系统深度开发的系统或其他系统。
为了使操作系统能够区分第三方应用程序的具体应用场景,需要打通第三方应用程序与操作系统之间的数据通信,使得操作系统能够随时获取第三方应用程序当前的场景信息,进而基于当前场景进行针对性的系统资源适配。
其中,输入装置930用于接收输入的指令或数据,输入装置930包括但不限于键盘、鼠标、摄像头、麦克风或触控设备。输出装置940用于输出指令或数据,输出装置940包括但不限于显示设备和扬声器等。在一个示例中,输入装置930和输出装置940可以合设,输入装置930和输出装置940为触摸显示屏。
除此之外,本领域技术人员可以理解,上述附图所示出的电子设备的结构并不构成对电子设备的限定,电子设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。比如,电子设备中还包括射频电路、输入单元、传感器、音频电路、无线保真(Wireless Fidelity,WiFi)模块、电源、蓝牙模块等部件,在此不再赘述。
在图9所示的电子设备中,处理器99可以用于调用存储器920中存储的标题生成应用程序,用于执行上述方法实施例描述的方法。
上述为本说明书实施例的一种电子设备的示意性方案。需要说明的是,该电子设备的技术方案与上述的标题生成方法和标题生成模型的训练方法的技术方案属于同一构思,电子设备的技术方案未详细描述的细节内容,均可以参见上述标题生成方法的技术方案的描述。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,计算机程序可存储于计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,计算机程序的存储介质可为磁碟、光盘、只读存储记忆体或随机存储记忆体等。
上述仅为本说明书的可选实施例,并不用以限制本说明书,凡在本说明书的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本说明书的保护范围之内。
上述对本说明书特定实施例进行了描述。其他实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
Claims (17)
1.一种标题生成模型的训练方法,包括:
获取样本视频片段的训练文本,所述训练文本包括所述样本视频片段的样本拆条文本和所述样本拆条文本的前缀文本,所述前缀文本为被遮罩所述样本拆条文本中标注关键词的文本;
将所述训练文本输入标题生成模型,通过所述标题生成模型,基于注意力机制对所述训练文本进行编码,得到所述训练文本的语义特征;
通过所述标题生成模型,基于所述训练文本的语义特征进行预测,输出所述样本拆条文本中的预测关键词以及所述样本视频片段的预测标题;
基于所述预测关键词与所述标注关键词之间的第一差异信息,以及所述预测标题与所述样本视频片段的标注标题之间的第二差异信息,对所述标题生成模型进行训练。
2.根据权利要求1所述的方法,所述通过所述标题生成模型,基于注意力机制对所述训练文本进行编码,得到所述训练文本的语义特征包括:
通过所述标题生成模型,将所述前缀文本中的字符配置为全局注意力字符,将所述样本拆条文本中的字符配置为局部注意力字符,所述全局注意力字符表示与所述训练文本中全部字符进行注意力运算的字符,所述局部注意力字符表示与所述训练文本中部分字符进行注意力运算的字符;
通过所述标题生成模型,对所述训练文本中多个字符进行注意力编码,得到所述训练文本中多个字符的注意力特征;将所述多个字符的注意力特征进行融合,得到所述训练文本的语义特征。
3.根据权利要求2所述的方法,所述对所述训练文本中多个字符进行注意力编码,得到所述训练文本中多个字符的注意力特征包括:
对于所述多个字符中的任一字符,在所述字符属于所述前缀文本的情况下,确定所述字符与所述训练文本中其他字符之间的第一注意力权重;基于所述字符以及所述第一注意力权重,确定所述字符的注意力特征;
在所述字符属于所述样本拆条文本的情况下,确定所述字符与所述训练文本中的参考字符之间的第二注意力权重,所述参考字符是所述训练文本中所述字符周围的字符;基于所述字符以及所述第二注意力权重,确定所述字符的注意力特征。
4.根据权利要求3所述的方法,所述在所述字符属于所述样本拆条文本的情况下,确定所述字符与所述训练文本中的参考字符之间的第二注意力权重包括:
在所述字符属于所述样本拆条文本的情况下,确定覆盖所述字符时滑动窗口中的所述参考字符,所述滑动窗口在所述训练文本上进行滑动;
确定所述字符的查询矩阵以及所述参考字符的键矩阵;
基于所述字符的查询矩阵以及所述参考字符的键矩阵,确定所述字符与所述训练文本中的参考字符之间的第二注意力权重。
5.根据权利要求1所述的方法,所述通过所述标题生成模型,基于所述训练文本的语义特征进行预测,输出所述样本拆条文本中的预测关键词以及所述样本视频片段的预测标题包括:
通过所述标题生成模型,对所述训练文本的语义特征进行全连接和归一化,输出所述样本拆条文本中的预测关键词;
通过所述标题生成模型,基于所述训练文本的语义特征进行多轮迭代解码,输出所述样本视频片段的预测标题。
6.根据权利要求5所述的方法,所述通过所述标题生成模型,基于所述训练文本的语义特征进行多轮迭代解码,输出所述样本视频片段的预测标题包括:
在第一轮迭代过程中,通过所述标题生成模型,基于所述训练文本的语义特征和开始字符进行迭代,输出所述样本视频片段的预测标题中的第一个字符;
在其他轮迭代过程中,通过所述标题生成模型,基于所述训练文本的语义特征和上轮迭代输出的字符,输出本轮迭代对应的字符。
7.根据权利要求1所述的方法,所述基于所述预测关键词与所述标注关键词之间的第一差异信息,以及所述预测标题与所述样本视频片段的标注标题之间的第二差异信息,对所述标题生成模型进行训练包括:
基于所述第一差异信息和所述第二差异信息构建联合损失函数;
基于所述联合损失函数对所述标题生成模型进行训练。
8.根据权利要求1所述的方法,所述样本拆条文本的标注关键词的获取方法包括:
对所述样本视频片段的样本拆条文本进行关键词识别,得到所述样本拆条文本的标注关键词。
9.一种标题生成方法,包括:
获取目标视频片段的拆条文本,所述目标视频片段是对视频进行拆条后得到的;
将所述拆条文本输入标题生成模型,通过所述标题生成模型,基于注意力机制对所述拆条文本进行编码,得到所述拆条文本的语义特征;
通过所述标题生成模型,基于所述拆条文本的语义特征进行预测,输出所述目标视频片段的标题;
其中,所述标题生成模型是基于样本视频片段的训练文本、所述样本视频片段的标注标题以及所述训练文本中样本拆条文本的标注关键词训练得到的,所述训练文本还包括所述样本拆条文本的前缀文本,所述前缀文本为被遮罩所述样本拆条文本中所述标注关键词的文本。
10.根据权利要求9所述的方法,所述通过所述标题生成模型,基于注意力机制对所述拆条文本进行编码,得到所述拆条文本的语义特征之后,所述方法还包括:
通过所述标题生成模型,基于所述拆条文本的语义特征进行预测,输出所述拆条文本中的关键词。
11.根据权利要求9所述的方法,所述将所述拆条文本输入标题生成模型,通过所述标题生成模型,基于注意力机制对所述拆条文本进行编码,得到所述拆条文本的语义特征之前,所述方法还包括:
获取所述拆条文本中的参考关键词;
所述将所述拆条文本输入标题生成模型,通过所述标题生成模型,基于注意力机制对所述拆条文本进行编码,得到所述拆条文本的语义特征包括:
将所述拆条文本输入所述标题生成模型,通过所述标题生成模型,将所述拆条文本中参考关键词中的字符配置为全局注意力字符,将所述拆条文本中其他字符配置为局部注意力字符,所述全局注意力字符表示与所述拆条文本中全部字符进行注意力运算的字符,所述局部注意力字符表示与所述拆条文本中部分字符进行注意力运算的字符;
通过所述标题生成模型,对所述拆条文本中多个字符进行注意力编码,得到所述拆条文本中多个字符的注意力特征;将所述拆条文本中多个字符的注意力特征进行融合,得到所述拆条文本的语义特征。
12.根据权利要求9所述的方法,所述获取目标视频片段的拆条文本包括下述任一项:
对所述目标视频片段的音频进行语音识别,得到所述目标视频片段的拆条文本;
将所述视频的字幕中所述目标视频片段对应的部分,确定为所述目标视频片段的拆条文本。
13.一种标题生成模型的训练装置,包括:
训练文本获取模块,用于获取样本视频片段的训练文本,所述训练文本包括所述样本视频片段的样本拆条文本和所述样本拆条文本的前缀文本,所述前缀文本为被遮罩所述样本拆条文本中标注关键词的文本;
训练文本编码模块,用于将所述训练文本输入标题生成模型,通过所述标题生成模型,基于注意力机制对所述训练文本进行编码,得到所述训练文本的语义特征;
训练文本预测模块,用于通过所述标题生成模型,基于所述训练文本的语义特征进行预测,输出所述样本拆条文本中的预测关键词以及所述样本视频片段的预测标题;
训练模块,用于基于所述预测关键词与所述标注关键词之间的第一差异信息,以及所述预测标题与所述样本视频片段的标注标题之间的第二差异信息,对所述标题生成模型进行训练。
14.一种标题生成装置,包括:
拆条文本获取模块,用于获取目标视频片段的拆条文本,所述目标视频片段是对视频进行拆条后得到的;
拆条文本编码模块,用于将所述拆条文本输入标题生成模型,通过所述标题生成模型,基于注意力机制对所述拆条文本进行编码,得到所述拆条文本的语义特征;
标题预测模块,用于通过所述标题生成模型,基于所述拆条文本的语义特征进行预测,输出所述目标视频片段的标题;
其中,所述标题生成模型是基于样本视频片段的训练文本、所述样本视频片段的标注标题以及所述训练文本中样本拆条文本的标注关键词训练得到的,所述训练文本还包括所述样本拆条文本的前缀文本,所述前缀文本为被遮罩所述样本拆条文本中所述标注关键词的文本。
15.一种计算机存储介质,所述计算机存储介质存储有多条指令,所述指令适于由处理器加载并执行如权利要求1~12任一项所述方法。
16.一种电子设备,包括:处理器和存储器;其中,所述存储器存储有计算机程序,所述计算机程序适于由所述处理器加载并执行如权利要求1~12任一项所述方法。
17.一种包含指令的计算机程序产品,当所述计算机程序产品在计算机或处理器上运行时,使得所述计算机或处理器执行如权利要求1~12任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310122280.2A CN116306603A (zh) | 2023-01-19 | 2023-01-19 | 标题生成模型的训练方法和标题生成方法、装置和介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310122280.2A CN116306603A (zh) | 2023-01-19 | 2023-01-19 | 标题生成模型的训练方法和标题生成方法、装置和介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116306603A true CN116306603A (zh) | 2023-06-23 |
Family
ID=86789828
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310122280.2A Pending CN116306603A (zh) | 2023-01-19 | 2023-01-19 | 标题生成模型的训练方法和标题生成方法、装置和介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116306603A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116579308A (zh) * | 2023-07-06 | 2023-08-11 | 之江实验室 | 一种演示文稿生成方法及装置 |
CN117807961A (zh) * | 2024-03-01 | 2024-04-02 | 之江实验室 | 一种文本生成模型的训练方法、装置、介质及电子设备 |
-
2023
- 2023-01-19 CN CN202310122280.2A patent/CN116306603A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116579308A (zh) * | 2023-07-06 | 2023-08-11 | 之江实验室 | 一种演示文稿生成方法及装置 |
CN116579308B (zh) * | 2023-07-06 | 2023-10-10 | 之江实验室 | 一种演示文稿生成方法及装置 |
CN117807961A (zh) * | 2024-03-01 | 2024-04-02 | 之江实验室 | 一种文本生成模型的训练方法、装置、介质及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN116306603A (zh) | 标题生成模型的训练方法和标题生成方法、装置和介质 | |
JP2023545543A (ja) | 情報生成方法、装置、コンピュータ機器、記憶媒体及びコンピュータプログラム | |
CN116720004B (zh) | 推荐理由生成方法、装置、设备及存储介质 | |
CN112528637B (zh) | 文本处理模型训练方法、装置、计算机设备和存储介质 | |
CN109582825B (zh) | 用于生成信息的方法和装置 | |
CN111626049A (zh) | 多媒体信息的标题修正方法、装置、电子设备及存储介质 | |
CN111258995A (zh) | 数据处理方法、装置、存储介质及设备 | |
CN111930914A (zh) | 问题生成方法和装置、电子设备以及计算机可读存储介质 | |
CN116050496A (zh) | 图片描述信息生成模型的确定方法及装置、介质、设备 | |
CN111767394A (zh) | 一种基于人工智能专家系统的摘要提取方法及装置 | |
CN115238045B (zh) | 一种生成式事件论元抽取方法、系统及存储介质 | |
WO2023197749A1 (zh) | 背景音乐的插入时间点确定方法、装置、设备和存储介质 | |
CN112650842A (zh) | 基于人机交互的客服机器人意图识别方法及相关设备 | |
CN112837669A (zh) | 语音合成方法、装置及服务器 | |
CN112463942A (zh) | 文本处理方法、装置、电子设备及计算机可读存储介质 | |
JP2023535108A (ja) | ビデオタグ推薦モデルのトレーニング方法及びビデオタグの決定方法、それらの装置、電子機器、記憶媒体及びコンピュータプログラム | |
CN113591490A (zh) | 信息处理方法、装置和电子设备 | |
CN111783429A (zh) | 信息处理方法、装置、电子设备以及存储介质 | |
CN113409803A (zh) | 语音信号处理方法、装置、存储介质及设备 | |
CN117034951A (zh) | 基于大语言模型的具有特定语言风格的数字人 | |
CN112818688B (zh) | 文本处理方法、装置、设备及存储介质 | |
CN115883878A (zh) | 视频剪辑方法、装置、电子设备及存储介质 | |
CN112651231B (zh) | 口语信息处理方法、装置和电子设备 | |
CN115273828A (zh) | 语音意图识别模型的训练方法、装置及电子设备 | |
CN116913278B (zh) | 语音处理方法、装置、设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |