CN110414001A

CN110414001A - 语句生成方法和装置、存储介质及电子装置

Info

Publication number: CN110414001A
Application number: CN201910651957.5A
Authority: CN
Inventors: 石智灵; 汤鹏程; 郭梓铿
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-07-18
Filing date: 2019-07-18
Publication date: 2019-11-05
Anticipated expiration: 2039-07-18
Also published as: CN110414001B

Abstract

本发明公开了一种语句生成方法和装置、存储介质及电子装置。其中，该方法包括：获取客户端上传的媒体文件；将媒体文件输入到识别模型中或调用所述识别模型对所述媒体文件进行识别处理，得到媒体文件的第一标签，其中，识别模型为使用样本媒体文件对第一原始识别模型进行训练得到的用于输出样本媒体文件的第一标签的模型,第一标签用于表示媒体文件中的对象元素；根据媒体文件的第一标签，生成目标格式的目标语句，其中，目标语句中携带有与对象元素关联的第一关键词。本发明解决了相关技术中生成目标语句的效率低的技术问题。

Description

语句生成方法和装置、存储介质及电子装置

技术领域

本发明涉及计算机领域，具体而言，涉及一种语句生成方法和装置、存储介质及电子装置。

背景技术

相关技术中，在生成诗句的过程中，通常是用户将文字输入到诗词系统中，诗词系统将用户输入的文字直接加入诗词中，形成包含用户输入的文字的对应诗词，并使用诗词来形成诗句。

然而，若是采用上述方法，则每一次生成目标诗句都需要人工确定输入的词汇，从而造成生成目标诗句时，操作复杂，生成目标诗句的效率低。此外，由于每一次生成目标诗句时，都需要人工思考输入什么词汇来创造诗句，在需要创造大量的诗句的情况下，上述人工思考输入词汇的方法无疑对用户带来巨大的负担，造成确定输入的词汇的效率低，进一步造成生成诗句的效率低。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种语句生成方法和装置、存储介质及电子装置，以至少解决相关技术中生成目标语句的效率低的技术问题。

根据本发明实施例的一个方面，提供了一种基于媒体文件的语句生成方法，包括：获取客户端上传的媒体文件；将媒体文件输入到识别模型中或调用所述识别模型对所述媒体文件进行识别处理，得到媒体文件的第一标签，其中，识别模型为使用样本媒体文件对第一原始识别模型进行训练得到的用于输出样本媒体文件的第一标签的模型,第一标签用于表示媒体文件中的对象元素；根据媒体文件的第一标签，生成目标格式的目标语句，其中，目标语句中携带有与对象元素关联的第一关键词。

根据本发明实施例的另一方面，还提供了一种基于媒体文件的语句生成装置，包括：获取单元，用于获取客户端上传的媒体文件；输入单元，用于将上述媒体文件输入到识别模型中或调用所述识别模型对所述媒体文件进行识别处理，得到上述媒体文件的第一标签，其中，上述识别模型为使用样本媒体文件对第一原始识别模型进行训练得到的用于输出上述样本媒体文件的第一标签的模型,上述第一标签用于表示上述媒体文件中的对象元素；确定单元，用于在预定的标签集中确定与所述第一标签匹配的所述第一关键词；生成单元，用于生成包括所述第一关键词的目标语句。

作为一种可选的示例，上述生成单元包括：生成模块，用于将所述第一关键词输入到语句生成系统中或调用所述语句生成系统对所述第一关键词进行生成处理，得到所述目标语句。

作为一种可选的示例，上述生成单元还包括：滤除模块，用于在在标签集中确定与上述第一标签匹配的上述第一关键词之前，在上述第一标签的数量大于或等于第一阈值的情况下，对上述第一标签执行滤除操作；上述确定模块包括：确定子模块，用于确定与滤除后的上述第一标签匹配的上述第一关键词。

作为一种可选的示例，上述滤除模块包括：第一获取子模块，用于通过嵌入层获取滤除前的上述第一标签中每一个标签的标签特征；第二获取子模块，用于通过上述识别模型获取上述媒体文件的媒体文件特征；

计算子模块，用于将上述每一个标签的上述标签特征与上述媒体文件的媒体文件特征进行点积运算，得到上述每一个标签的第一分值；滤除子模块，用于将上述每一个标签中，上述第一分值较小的N个标签滤除，得到滤除后的上述第一标签，其中，上述N为正整数，上述N小于或等于滤除前上述第一标签的数量。

根据本发明实施例的又一方面，还提供了一种存储介质，该存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述基于媒体文件的语句生成方法。

根据本发明实施例的又一方面，还提供了一种电子装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，上述处理器通过计算机程序执行上述的基于媒体文件的语句生成方法。

在本发明实施例中，采用获取客户端上传的媒体文件；将上述媒体文件输入到识别模型中或调用所述识别模型对所述媒体文件进行识别处理，得到上述媒体文件的第一标签；根据上述媒体文件的第一标签，生成目标格式的目标语句的方法。由于在上述方法中，本方案是通过获取媒体文件，并使用识别模型识别媒体文件中的第一标签的方式来获取媒体文件的第一标签，进一步根据第一标签来生成目标格式的语句，从而提高了生成目标格式的语句的效率，进而解决了相关技术中生成目标语句的效率低的技术问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的一种可选的基于媒体文件的语句生成方法的应用环境的示意图；

图2是根据本发明实施例的一种可选的基于媒体文件的语句生成方法的流程示意图；

图3是根据本发明实施例的一种可选的基于媒体文件的语句生成方法的示意图；

图4是根据本发明实施例的另一种可选的基于媒体文件的语句生成方法的示意图；

图5是根据本发明实施例的又一种可选的基于媒体文件的语句生成方法的示意图；

图6是根据本发明实施例的又一种可选的基于媒体文件的语句生成方法的示意图；

图7是根据本发明实施例的又一种可选的基于媒体文件的语句生成方法的示意图；

图8是根据本发明实施例的又一种可选的基于媒体文件的语句生成方法的示意图；

图9是根据本发明实施例的另一种可选的基于媒体文件的语句生成方法的流程示意图；

图10是根据本发明实施例的又一种可选的基于媒体文件的语句生成方法的示意图；

图11是根据本发明实施例的又一种可选的基于媒体文件的语句生成方法的示意图；

图12是根据本发明实施例的一种可选的基于媒体文件的语句生成装置的结构示意图；

图13是根据本发明实施例的一种可选的电子装置的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

根据本发明实施例的一个方面，提供了一种基于媒体文件的语句生成方法，可选地，作为一种可选的实施方式，上述基于媒体文件的语句生成方法可以但不限于应用于如图1所示的环境中。

图1中用户102与用户设备104之间可以进行人机交互。用户设备104中包含有存储器106，用于存储交互数据、处理器108，用于处理交互数据。用户设备104可以通过网络110与服务器112之间进行数据交互。服务器112中包含有数据库114，用于存储交互数据、处理引擎116，用于处理交互数据。上述基于媒体文件的语句生成方法可以由用户设备104执行，也可以由服务器112执行。例如，以用户设备104执行为例，用户设备104获取用户102上传的媒体文件，并使用第一识别模型获取媒体文件的第一标签，以及根据第一标签生成目标格式的目标语句。可选地，用户设备104可以将目标格式的目标语句显示出来。例如，如图1中的用户设备104中，在输入媒体文件104-2后，客户端显示目标格式的语句104-4。

可选地，上述用户设备104可以但不限于为手机、平板电脑、笔记本电脑、PC机等终端，上述网络110可以包括但不限于无线网络或有线网络。其中，该无线网络包括：WIFI及其他实现无线通信的网络。上述有线网络可以包括但不限于：广域网、城域网、局域网。上述服务器112可以包括但不限于任何可以进行计算的硬件设备。

可选地，作为一种可选的实施方式，如图2所示，上述基于媒体文件的语句生成方法包括：

S202，获取客户端上传的媒体文件；

S204，将所述媒体文件输入到识别模型中或调用所述识别模型对所述媒体文件进行识别处理，得到所述媒体文件的第一标签，其中，所述识别模型为使用样本媒体文件对第一原始识别模型进行训练得到的用于输出所述样本媒体文件的第一标签的模型,所述第一标签用于表示所述媒体文件中的对象元素；

S206，在预定的标签集中确定与所述第一标签匹配的所述第一关键词；

S208，生成包括所述第一关键词的目标语句。

可选地，上述基于媒体文件的语句生成方法可以但不限于应用于基于媒体文件的语句生成领域。例如，需要生成特定格式的语句。如诗句、文言文、古词等。

例如，以生成诗句为例，在获取到媒体文件后，将媒体文件输入到第一识别模型中或调用所述识别模型对所述媒体文件进行识别处理，得到媒体文件的第一标签；根据媒体文件的第一标签确定目标诗句。

需要说明的是，相关技术中，在生成诗句的过程中，通常是人工的确定出生成诗句的词语，并将上述词语输入到诗句生成系统中，由诗句生成系统生成诗句。而本方案中，在确定用于生成诗句的词语时，是获取媒体文件，并使用第一识别模型得到用于生成诗句的第一标签，进而根据第一标签生成诗句，实现了提高诗句生成效率的效果。

可选地，本方案中的第一标签可以分为一级标签与二级标签。可以将媒体文件输入到第一识别模型中，得到媒体文件的一级标签，以及将媒体文件与一级标签输入到第二识别模型中，得到媒体文件的二级标签。一个一级标签可以包括一个或多个二级标签。

可选地，本方案中在将媒体文件输入到第一识别模型中之前，需要获取第一识别模型。可选地，第一识别模型可以为对第一原始识别模型训练得到。例如，获取样本媒体文件与样本媒体文件的一级标签，将样本媒体文件与样本媒体文件的一级标签输入到第一原始识别模型中，对第一原始识别模型中的参数进行调整，直到第一原始识别模型的识别准确度大于第二阈值。此时，将识别准确度大于第二阈值的第一原始识别模型确定为第一识别模型。

可选地，本方案中在将媒体文件输入到第二识别模型中之前，需要获取第二识别模型。可选地，第二识别模型可以为对第二原始识别模型训练得到。例如，获取样本媒体文件与样本媒体文件的一级标签、二级标签，将样本媒体文件与样本媒体文件的一级标签、二级标签输入到第二原始识别模型中，对第二原始识别模型中的参数进行调整，直到第二原始识别模型的识别准确度大于第三阈值。此时，将识别准确度大于第三阈值的第二原始识别模型确定为第二识别模型。

可选地，上述一级标签可以为媒体文件的类型标签。如媒体文件可以风景图片、人文图片、地理图片、二次元图片等等。而二级标签为一级标签的子标签。一级标签包括一个或多个二级标签，二级标签的范围小于一级标签。

可选地，在获取到第一标签后，需要根据第一标签确定目标格式的语句。

可选地，预先设置第一标签与第一关键词的对应关系。上述第一关键词为特定格式的词语。如第一关键词为文言文或古文等。

在获取到第一标签之后，根据上述对应关系获取到第一关键词，将第一关键词输入到语句生成系统中，由语句生成系统生成包含上述第一关键词的目标格式的目标语句。

可选地，在获取第一关键词之前，在第一标签的数量大于一个阈值的情况下，需要对第一标签进行滤除操作。如第一标签的数量大于了5个，则对第一标签进行过滤，过滤后的第一标签的数量小于或等于5个。

在过滤的过程中，可以使用嵌入层如Embedding网络获取第一标签中每一个标签的标签特征，然后使用第一识别模型或第二识别模型获取媒体文件的媒体文件特征。计算每一个标签的标签特征与媒体文件的媒体文件特征的点积，得到第一分值，每一个标签对应一个第一分值。将第一分值较小的标签过滤掉，得到过滤后的第一标签。过滤后的第一标签的数量小于一个阈值，例如，小于5。

在过滤第一标签后，使用过滤后的第一标签确定出第一关键词，然后使用第一关键词确定目标格式的目标语句，如诗文。诗文中包括第一关键词。

可选地，本方案中的媒体文件可以为图片、视频片段、动态图等媒体文件。

以下结合一个媒体文件为图片的具体示例解释上述语句获取方法。以中秋节作诗为例，设置氛围引导入口：在闪屏以及其他运营位置，通过带有传统中秋氛围的动画效果图片(传统的古楼+一轮满月驱散云朵，明月当空印故乡)，营造思乡氛围，提供创作灵感，引导用户进入活动页面。如图3所示，图3为一种可选的活动页面，用于可以通过点击按钮302开始作诗。

选择流程页面：用户进入活动后，首先会通过选择页面告知用户，需要做两件事“选择所在故乡”然后是“选择思乡图片”。通过UI给到用户心理预期，告知玩法顺序。用户依次点击“选择所在故乡”然后“选择思乡图片”在有序的交互指引下，进行活动。如图4所示，图4为选择故乡与选择图片的引导页面。按钮402用于选择故乡，可以被触发，按钮404选择图片，还不能被触发，在选择完故乡后，才能触发。如图5所示，图5为一种可选的选择故乡的页面。该页面可以使用H5制作。用户在这里选择自己的家乡，可以通过拼音首字母索引或者搜索栏搜索的方式完成。选择后，通过确认自己的故乡，再返回图4所示的页面。此时，用户可以点击图4中的按钮404，选择图片。或者修改故乡。选择思乡图片：用户再次回到“选择流程页面“引导选择一张思乡图片。可以是故乡的图片，也可以是用户在异地思念家乡的代表图片。以风景、人文类为主。通过调起用户系统相册或者相机进行拍摄。用户选择一张满意的图片并确认后，进入下一个流程”写诗loading页面。如图6所示，图6为一种可选的选择图片的页面。在选择完图片后，可以进入如图7所示的作诗页面。页面上提示有“正在作诗”等字样。作诗过程中，需要对用上传的图片进行一定时间的分析，主要内容和关键词提取，并转化成古诗词意向词语。再组合成两句语意通顺连贯优美的七言绝句。并与用户图片进行融合渲染。作诗过程中会有诗词动画不断闪现，以减少用户等待的焦虑。

写诗结果页面：结合用户思乡图片与诗词形成页面最核心内容，而后包含了用户的家乡地理信息，和第几名游子的情结呼应。根据用户的图片质量和写诗结果，系统将用户“状元“、”榜眼“、”探花“、”进士“以及”落榜“几个分段来对应用户的写诗结果，提升用户不断写诗的攀比心理。和拿到成绩晒出结果的心理。如图8所示，图8为一种可选的结果页面，结果页面中显示有诗句802、家乡第一位置804与该游子的写诗名次806。可选地，显示页面上还可以显示该游子是第多少位作诗的游子。

图片保存引导页：由于诗词+图片非常适合以图片形态承载，这里引导用户长按保存

保存效果页：诗词+图片+游子信息+状元等排名+三个合作方的露出，以及活动的二维码供再次传播识别进入。

作诗过程可以如图9中的步骤S902-S920所示，首先，在客户端902上显示媒体文件的获取页面，例如，可以显示如图6所示的媒体文件获取页面。然后接收用用户上传或者用户选择的媒体文件。获取到媒体文件之后，获取用户的地理位置。如，显示如图5所示的地理位置获取页面获取地理位置。在接收到媒体文件与用户的地理位置后，将媒体文件发送给服务器904，由服务器904将媒体文件输入到识别模型中，由识别模型识别媒体文件的第一标签，第一标签可以有多个。在识别得到第一标签后，从标签集中确定与第一标签匹配的第一关键词，然后将第一关键词输入到语句生成系统中，由语句生成系统生成目标语句。在得到目标诗句后，服务器904将目标诗句返回给客户端902，客户端902将目标诗句与上述获取到的用户的地理位置相结合，得到结合结果，并在显示界面上显示结合结果。

本方案根据实际应用设计了196个标签，结合深度卷积网络进行标签获取，主要技术路线如下：

将196个标签按照6个主题进行标签聚类，确定6个一级标签，190个二级标签；

设计了一个6层卷积神经网络进行一级标签分类；

设计了一个32层二级标签分类网络；

第一标签最后由一级标签和二级标签共同组合而成；

采用级联网络结构方式设计一级分类网络和二级分类网络，网络结构如图10所示；

标签学习算法采用多任务学习算法。

由于用户的图像内容丰富多彩，每张图的标签数量非常多，因此，可以设计了一个标签过滤算法，通过该算法可以对多标签进行过滤，然后输入到九歌诗词创作系统进行创作。如图11所示，每张图首先经过卷积神经网络提取图像特征；每个文本标签经过Embedding网络进行特权提取，获取标签文本特征；将文本特征与图像特征进行点积运算，获得该文本标签与图像诗词创作先验分数；将所有标签分数进行排序，取得分最高的前5个标签进行诗词创作。需要说明的是，在作诗时，可以使用九歌诗词创作系统。该系统的输入是一系列文本标签，输出是一首诗词，包括藏头诗、五言七言绝句、五言七言律诗等常见诗词形式。

通过本实施例，通过上述方法自动获取媒体文件的第一标签，并根据第一标签确定目标格式的目标语句，从而提高了确定目标格式的语句的效率。

作为一种可选的方案，在根据所述媒体文件的第一标签，生成目标格式的目标语句之后，还包括：

S1，将所述目标格式的目标语句与所述媒体文件显示在分享展示页面中，其中，所述分享展示页面用于展示所述目标语句。

可选地，本方案中，在分享展示页面上可以展示媒体文件与目标语句。同时，媒体文件与目标语句可以进行排版显示。除此之外，还可以根据媒体文件的质量对目标语句进行打分，并在分享展示页面上展示打分结果。同时，还可以在分享展示页面上显示当前一次作诗操作是第多少次作诗操作。

通过本实施例，通过上述方法展示分享展示页面，从而可以将确定出的目标语句显示在客户端上，在提高了确定目标语句的效率的同时，提高了目标语句的展示效率。

作为一种可选的方案，

在将所述目标格式的目标语句与所述媒体文件显示在分享展示页面中之前，还包括：S1，显示位置获取页面，其中，所述位置获取页面中显示有一个或多个地理位置；接收位置确定指令，其中，所述位置确定指令中携带有与所述媒体文件关联的位置信息；

在将所述目标格式的目标语句与所述媒体文件显示在分享展示页面中时，还包括：S1，将所述位置信息显示在所述分享展示页面中。

可选地，上述显示位置获取页面可以但不限于为图5所示的页面。用户可以通过上述页面确定自己的位置信息。在用户确定自己的位置信息后，将位置信息显示在分享展示页面上。在分享展示页面上展示位置信息时，还可以展示该用户是第多少个在该位置信息下生成目标语句的用户。

通过本实施例，通过上述方法展示位置信息，从而在提高了确定目标格式的语句的效率的同时，还丰富了在分享展示页面上展示的内容。

作为一种可选的方案，在将所述目标格式的目标语句与所述媒体文件显示在分享展示页面中之后，还包括：

S1，在接收到分享指令的情况下，分享所述分享展示页面。

可选地，本实施例中的上述分享分享展示页面可以通过按钮完成，或者通过指纹完成。例如，当生成分享展示页面之后，可以进行长按保存操作。保存后的分享展示页面可以通过分享按钮分享给用户的好友或其他用户。或者在检测到用户的指纹后，将分享展示页面分享给用户的好友或其他用户。

通过本实施例，通过上述方法分享上述分享展示页面，从而在提高了确定目标格式的语句的效率的同时，提高了分享分享展示页面的灵活性。

作为一种可选的方案，所述生成包括所述第一关键词的目标语句包括：

S1，将所述第一关键词输入到语句生成系统中或调用所述语句生成系统对所述第一关键词进行生成处理，得到所述目标语句。

可选地，本方案中的上述第一关键词可以为古文中的词汇，或者为更具意境的词汇。如第一标签为月亮，第一关键词可以为明月。第一标签为柳树，第一关键词可以为翠柳。第一标签与第一关键词的关联关系可以预先设置。

本方案中在获取到第一关键词之后，可以将第一关键词输入到语句生成系统中，或者调用语句生成系统生成目标格式的目标语句。上述语句生成系统可以为用于作诗的系统，例如清华大学的九歌系统。

通过本实施例，通过上述方法确定出与第一标签匹配的第一关键词，并使用第一关键词生成目标格式的目标语句，实现了在提高了生成目标格式的目标语句的效率的同时，提高了目标格式的目标语句的准确度。

作为一种可选的方案，

在在标签集中确定与所述第一标签匹配的所述第一关键词之前，还包括：S1，在所述第一标签的数量大于或等于第一阈值的情况下，对所述第一标签执行滤除操作；

所述在标签集中确定与所述第一标签匹配的所述第一关键词包括：S1，确定与滤除后的所述第一标签匹配的所述第一关键词。

例如，在滤除操作前，经过识别模型识别得到的第一标签有6个，而第一阈值为5.此时，需要对第一标签执行滤除操作，滤除一个第一标签，得到剩余的5个第一标签。然后使用剩余的5个第一标签获取对应的5个第一关键词。第一标签与第一关键词之间为一一对应关系。

通过本实施例，通过对第一标签进行过滤，从而可以保留准确的第一标签，进一步提高了第一关键词的准确度，在提高生成目标格式的语句的效率的同时，提高了目标语句的准确度。

作为一种可选的方案，所述在所述第一标签的数量大于或等于第一阈值的情况下，对所述第一标签执行滤除操作包括：

S1，通过嵌入层获取滤除前的所述第一标签中每一个标签的标签特征；

S2，通过所述识别模型获取所述媒体文件的媒体文件特征；

S3，将所述每一个标签的所述标签特征与所述媒体文件的媒体文件特征进行点积运算，得到所述每一个标签的第一分值；

S4，将所述每一个标签中，所述第一分值较小的N个标签滤除，得到滤除后的所述第一标签，其中，所述N为正整数，所述N小于或等于滤除前所述第一标签的数量。

通过本实施例，通过上述方法对第一标签进行过滤，从而在提高了生成目标格式的语句的效率的同时，提高了目标格式的语句的准确度。

作为一种可选的方案，所述目标语句为诗句。

通过本实施例，通过上述方法作诗，从而提高了作诗的效率。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

根据本发明实施例的另一个方面，还提供了一种用于实施上述基于媒体文件的语句生成方法的基于媒体文件的语句生成装置。如图12所示，该装置包括：

(1)获取单元1202，用于获取客户端上传的媒体文件；

(2)输入单元1204，用于用于将所述媒体文件输入到识别模型中或调用所述识别模型对所述媒体文件进行识别处理，得到所述媒体文件的第一标签，其中，所述识别模型为使用样本媒体文件对第一原始识别模型进行训练得到的用于输出所述样本媒体文件的第一标签的模型,所述第一标签用于表示所述媒体文件中的对象元素；

(3)确定单元1206，用于在预定的标签集中确定与所述第一标签匹配的所述第一关键词；

(4)生成单元1208，用于生成包括所述第一关键词的目标语句。

可选地，上述基于媒体文件的语句生成装置可以但不限于应用于基于媒体文件的语句生成领域。例如，需要生成特定格式的语句。如诗句、文言文、古词等。

设计了一个6层卷积神经网络进行一级标签分类；

设计了一个32层二级标签分类网络；

第一标签最后由一级标签和二级标签共同组合而成；

标签学习算法采用多任务学习算法。

作为一种可选的实施方案，上述装置还包括：

(1)第一显示单元，用于在根据所述媒体文件的第一标签，生成目标格式的目标语句之后，将所述目标格式的目标语句与所述媒体文件显示在分享展示页面中，其中，所述分享展示页面用于展示所述目标语句。

作为一种可选的实施方案，

上述装置还包括：(1)第二显示单元，用于在将所述目标格式的目标语句与所述媒体文件显示在分享展示页面中之前，显示位置获取页面，其中，所述位置获取页面中显示有一个或多个地理位置；(2)接收单元，用于接收位置确定指令，其中，所述位置确定指令中携带有与所述媒体文件关联的位置信息；

上述第一显示单元还包括：(1)显示模块，用于将所述位置信息显示在所述分享展示页面中。

作为一种可选的实施方案，上述装置还包括：

(1)分享单元，用于在将所述目标格式的目标语句与所述媒体文件显示在分享展示页面中之后，在接收到分享指令的情况下，分享所述分享展示页面。

作为一种可选的实施方案，上述生成单元包括：

(1)生成模块，用于将所述第一关键词输入到语句生成系统中或调用所述语句生成系统对所述第一关键词进行生成处理，得到所述目标语句。

作为一种可选的实施方案，

上述生成单元还包括：(1)滤除模块，用于在在标签集中确定与所述第一标签匹配的所述第一关键词之前，在所述第一标签的数量大于或等于第一阈值的情况下，对所述第一标签执行滤除操作；

上述确定模块包括：(1)确定子模块，用于确定与滤除后的所述第一标签匹配的所述第一关键词。

作为一种可选的实施方案，上述滤除模块包括：

(1)第一获取子模块，用于通过嵌入层获取滤除前的所述第一标签中每一个标签的标签特征；

(2)第二获取子模块，用于通过所述识别模型获取所述媒体文件的媒体文件特征；

(3)计算子模块，用于将所述每一个标签的所述标签特征与所述媒体文件的媒体文件特征进行点积运算，得到所述每一个标签的第一分值；

(4)滤除子模块，用于将所述每一个标签中，所述第一分值较小的N个标签滤除，得到滤除后的所述第一标签，其中，所述N为正整数，所述N小于或等于滤除前所述第一标签的数量。

作为一种可选的实施方案，上述目标语句为诗句。

根据本发明实施例的又一个方面，还提供了一种用于实施上述基于媒体文件的语句生成方法的电子装置，如图13所示，该电子装置包括存储器1302和处理器1304，该存储器1302中存储有计算机程序，该处理器1304被设置为通过计算机程序执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述电子装置可以位于计算机网络的多个网络设备中的至少一个网络设备。

可选地，在本实施例中，上述处理器可以被设置为通过计算机程序执行以下步骤：

S1，获取客户端上传的媒体文件；

S2，将所述媒体文件输入到识别模型中或调用所述识别模型对所述媒体文件进行识别处理，得到所述媒体文件的第一标签，其中，所述识别模型为使用样本媒体文件对第一原始识别模型进行训练得到的用于输出所述样本媒体文件的第一标签的模型,所述第一标签用于表示所述媒体文件中的对象元素；

S3，在预定的标签集中确定与所述第一标签匹配的所述第一关键词；

S4，生成包括所述第一关键词的目标语句。

可选地，本领域普通技术人员可以理解，图13所示的结构仅为示意，电子装置也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(Mobile Internet Devices，MID)、PAD等终端设备。图13其并不对上述电子装置的结构造成限定。例如，电子装置还可包括比图13中所示更多或者更少的组件(如网络接口等)，或者具有与图13所示不同的配置。

其中，存储器1302可用于存储软件程序以及模块，如本发明实施例中的基于媒体文件的语句生成方法和装置对应的程序指令/模块，处理器1304通过运行存储在存储器1302内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的基于媒体文件的语句生成方法。存储器1302可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器1302可进一步包括相对于处理器1304远程设置的存储器，这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。其中，存储器1302具体可以但不限于用于存储地狱图片与第一标签、第二标签等信息。作为一种示例，如图13所示，上述存储器1302中可以但不限于包括上述基于媒体文件的语句生成装置中的第一获取单元1202、第一输入单元1204、第二输入单元1206与第一确定单元1208。此外，还可以包括但不限于上述基于媒体文件的语句生成装置中的其他模块单元，本示例中不再赘述。

可选地，上述的传输装置1306用于经由一个网络接收或者发送数据。上述的网络具体实例可包括有线网络及无线网络。在一个实例中，传输装置1306包括一个网络适配器(Network Interface Controller，NIC)，其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中，传输装置1306为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

此外，上述电子装置还包括：显示器1308，用于显示目标格式的语句；和连接总线1310，用于连接上述电子装置中的各个模块部件。

根据本发明的实施例的又一方面，还提供了一种存储介质，该存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述存储介质可以被设置为存储用于执行以下步骤的计算机程序：

S1，获取客户端上传的媒体文件；

S4，生成包括所述第一关键词的目标语句。

可选地，在本实施例中，本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(Read-Only Memory，ROM)、随机存取器(Random Access Memory，RAM)、磁盘或光盘等。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在上述计算机可读取的存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在存储介质中，包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的客户端，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于媒体文件的语句生成方法，其特征在于，包括：

获取客户端上传的媒体文件；

将所述媒体文件输入到识别模型中或调用所述识别模型对所述媒体文件进行识别处理，得到所述媒体文件的第一标签，其中，所述识别模型为使用样本媒体文件对第一原始识别模型进行训练得到的用于输出所述样本媒体文件的第一标签的模型,所述第一标签用于表示所述媒体文件中的对象元素；

在预定的标签集中确定与所述第一标签匹配的第一关键词；

生成包括所述第一关键词的目标语句。

2.根据权利要求1所述的方法，其特征在于，在根据所述媒体文件的第一标签，生成目标格式的目标语句之后，还包括：

将所述目标格式的目标语句与所述媒体文件显示在分享展示页面中，其中，所述分享展示页面用于展示所述目标语句。

3.根据权利要求2所述的方法，其特征在于，

在将所述目标格式的目标语句与所述媒体文件显示在分享展示页面中之前，还包括：显示位置获取页面，其中，所述位置获取页面中显示有一个或多个地理位置；接收位置确定指令，其中，所述位置确定指令中携带有与所述媒体文件关联的位置信息；

在将所述目标格式的目标语句与所述媒体文件显示在分享展示页面中时，还包括：将所述位置信息显示在所述分享展示页面中。

4.根据权利要求2所述的方法，其特征在于，在将所述目标格式的目标语句与所述媒体文件显示在分享展示页面中之后，还包括：

在接收到分享指令的情况下，分享所述分享展示页面。

5.根据权利要求1所述的方法，其特征在于，所述生成包括所述第一关键词的目标语句包括：

将所述第一关键词输入到语句生成系统中或调用所述语句生成系统对所述第一关键词进行生成处理，得到所述目标语句。

6.根据权利要求1所述的方法，其特征在于，

在在标签集中确定与所述第一标签匹配的所述第一关键词之前，还包括：在所述第一标签的数量大于或等于第一阈值的情况下，对所述第一标签执行滤除操作；

所述在标签集中确定与所述第一标签匹配的所述第一关键词包括：确定与滤除后的所述第一标签匹配的所述第一关键词。

7.根据权利要求6所述的方法，其特征在于，所述在所述第一标签的数量大于或等于第一阈值的情况下，对所述第一标签执行滤除操作包括：

通过嵌入层获取滤除前的所述第一标签中每一个标签的标签特征；

通过所述识别模型获取所述媒体文件的媒体文件特征；

将所述每一个标签的所述标签特征与所述媒体文件的媒体文件特征进行点积运算，得到所述每一个标签的第一分值；

将所述每一个标签中，所述第一分值较小的N个标签滤除，得到滤除后的所述第一标签，其中，所述N为正整数，所述N小于或等于滤除前所述第一标签的数量。

8.根据权利要求1至7中任一项所述的方法，其特征在于，所述目标语句为诗句。

9.一种基于媒体文件的语句生成装置，其特征在于，包括：

获取单元，用于获取客户端上传的媒体文件；

输入单元，用于将所述媒体文件输入到识别模型中或调用所述识别模型对所述媒体文件进行识别处理，得到所述媒体文件的第一标签，其中，所述识别模型为使用样本媒体文件对第一原始识别模型进行训练得到的用于输出所述样本媒体文件的第一标签的模型,所述第一标签用于表示所述媒体文件中的对象元素；

确定单元，用于在预定的标签集中确定与所述第一标签匹配的第一关键词；

生成单元，用于生成包括所述第一关键词的目标语句。

10.根据权利要求9所述的装置，其特征在于，所述装置还包括：

第一显示单元，用于在根据所述媒体文件的第一标签，生成目标格式的目标语句之后，将所述目标格式的目标语句与所述媒体文件显示在分享展示页面中，其中，所述分享展示页面用于展示所述目标语句。

11.根据权利要求10所述的装置，其特征在于，

所述装置还包括：第二显示单元，用于在将所述目标格式的目标语句与所述媒体文件显示在分享展示页面中之前，显示位置获取页面，其中，所述位置获取页面中显示有一个或多个地理位置；接收单元，用于接收位置确定指令，其中，所述位置确定指令中携带有与所述媒体文件关联的位置信息；

所述第一显示单元还包括：显示模块，用于将所述位置信息显示在所述分享展示页面中。

12.根据权利要求10所述的装置，其特征在于，所述装置还包括：

分享单元，用于在将所述目标格式的目标语句与所述媒体文件显示在分享展示页面中之后，在接收到分享指令的情况下，分享所述分享展示页面。

13.根据权利要求9所述的装置，其特征在于，所述目标语句为诗句。

14.一种存储介质，所述存储介质存储有计算机程序，其特征在于，所述计算机程序运行时执行所述权利要求1至8任一项中所述的方法。

15.一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为通过所述计算机程序执行所述权利要求1至8任一项中所述的方法。