CN109815462B

CN109815462B - 一种文本生成方法及终端设备

Info

Publication number: CN109815462B
Application number: CN201811503428.2A
Authority: CN
Inventors: 张阳红; 黄朝露; 胡方涛
Original assignee: Vivo Mobile Communication Co Ltd
Current assignee: Vivo Mobile Communication Co Ltd
Priority date: 2018-12-10
Filing date: 2018-12-10
Publication date: 2023-12-01
Anticipated expiration: 2038-12-10
Also published as: CN109815462A

Abstract

本发明实施例公开了一种文本生成方法及终端设备，涉及通信技术领域，以解决用户为待发布的图像添加一段描述性的文本信息，导致发布消息的过程耗时较长的问题。该方法包括：对目标图像进行识别，得到该目标图像的内容信息；根据用户的用词习惯，生成与该内容信息对应的文本信息。该方法可以应用于终端设备发布社交消息的场景中。

Description

一种文本生成方法及终端设备

技术领域

本发明实施例涉及通信技术领域，尤其涉及一种文本生成方法及终端设备。

背景技术

随着通信技术的发展，很多应用程序都具备社交功能。因此用户可以使用具备社交功能的应用程序发布多种社交消息，例如指示用户状态的状态消息或帖子消息等。

目前，通常可以以照片形式发布各种社交消息。例如，如果用户想要分享旅游时拍摄的照片，那么用户可以从拍摄照片中选择至少一张照片，并通过具备社交功能的应用程序将这些照片发布到社交网络。

但是，在将上述照片发布到社交网络之前，用户通常会为照片添加一段描述性的文本信息，而有时用户可能会花费较长时间构思该文本信息，从而导致发布消息的过程耗时较长。

发明内容

本发明实施例提供一种文本生成方法及终端设备，以解决用户为待发布的图像添加一段描述性的文本信息，导致发布消息的过程耗时较长的问题。

为了解决上述技术问题，本发明实施例是这样实现的：

第一方面，本发明实施例提供了一种文本生成方法，该方法包括：对目标图像进行识别，得到该目标图像的内容信息；根据用户的用词习惯，生成与该内容信息对应的文本信息。

第二方面，本发明实施例提供了一种终端设备，该终端设备包括获取模块和生成模块。获取模块，用于对目标图像进行识别，得到该目标图像的内容信息；生成模块，用于根据用户的用词习惯，生成与该内容信息对应的文本信息。

第三方面，本发明实施例提供了一种终端设备，包括处理器、存储器及存储在该存储器上并可在该处理器上运行的计算机程序，该计算机程序被该处理器执行时实现第一方面提供的文本生成方法的步骤。

第四方面，本发明实施例提供了一种计算机可读存储介质，该计算机可读存储介质上存储计算机程序，该计算机程序被处理器执行时实现第一方面提供的文本生成方法的步骤。

在本发明实施例中，可以对目标图像进行识别，得到该目标图像的内容信息；并根据用户的用词习惯，生成与该内容信息对应的文本信息。通过该方案，由于在用户触发终端设备发布目标图像之前，终端设备可以根据待发布的目标图像的内容信息和用户的用词习惯，生成与该内容信息对应的文本信息，因此可以减少用户构思并编辑文本信息的时间，从而可以减少发布消息的过程耗时。

附图说明

图1为本发明实施例提供的一种安卓操作系统的架构示意图；

图2为本发明实施例提供的一种文本生成方法的示意图之一；

图3为本发明实施例提供的一种文本生成方法的示意图之二；

图4为本发明实施例提供的一种目标图像的示意图；

图5为本发明实施例提供的一种文本生成方法的示意图之三；

图6为本发明实施例提供的一种用户选择目标图像的操作示意图；

图7为本发明实施例提供的一种文本生成方法的示意图之四；

图8为本发明实施例提供的一种发布编辑界面的示意图；

图9为本发明实施例提供的一种文本生成方法的示意图之五；

图10为本发明实施例提供的一种终端设备显示修改后的文本信息的示意图；

图11为本发明实施例提供的终端设备的结构示意图之一；

图12为本发明实施例提供的终端设备的结构示意图之二；

图13为本发明实施例提供的终端设备的结构示意图之三；

图14为本发明实施例提供的终端设备的硬件示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本文中术语“和/或”，是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。本文中符号“/”表示关联对象是或者的关系，例如A/B表示A或者B。

本发明的说明书和权利要求书中的术语“第一”和“第二”等是用于区别不同的对象，而不是用于描述对象的特定顺序。例如，第一输入和第二输入等是用于区别不同的输入，而不是用于描述输入的特定顺序。

在本发明实施例中，“示例性的”或者“例如”等词用于表示作例子、例证或说明。本发明实施例中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言，使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。

在本发明实施例的描述中，除非另有说明，“多个”的含义是指两个或者两个以上，例如，多个元件是指两个或者两个以上的元件等。

本发明实施例提供一种文本生成方法及终端设备，可以对目标图像进行识别，得到该目标图像的内容信息；并根据用户的用词习惯，生成与该内容信息对应的文本信息。通过该方案，由于在用户触发终端设备发布目标图像之前，终端设备可以根据待发布的目标图像的内容信息和用户的用词习惯，生成与该内容信息对应的文本信息，因此可以减少用户构思并编辑文本信息的时间，从而可以减少发布消息的过程耗时。

本发明实施例中的终端设备可以为具有操作系统的终端设备。该操作系统可以为安卓(Android)操作系统，可以为ios操作系统，还可以为其他可能的操作系统，本发明实施例不作具体限定。

下面以安卓操作系统为例，介绍一下本发明实施例提供的文本生成方法所应用的软件环境。

如图1所示，为本发明实施例提供的一种安卓操作系统的架构示意图。在图1中，安卓操作系统的架构包括4层，分别为：应用程序层、应用程序框架层、系统运行库层和内核层(具体可以为Linux内核层)。

其中，应用程序层包括安卓操作系统中的各个应用程序(包括系统应用程序和第三方应用程序)。

应用程序框架层是应用程序的框架，开发人员可以在遵守应用程序的框架的开发原则的情况下，基于应用程序框架层开发一些应用程序。

系统运行库层包括库(也称为系统库)和安卓操作系统运行环境。库主要为安卓操作系统提供其所需的各类资源。安卓操作系统运行环境用于为安卓操作系统提供软件环境。

内核层是安卓操作系统的操作系统层，属于安卓操作系统软件层次的最底层。内核层基于Linux内核为安卓操作系统提供核心系统服务和与硬件相关的驱动程序。

以安卓操作系统为例，本发明实施例中，开发人员可以基于上述如图1所示的安卓操作系统的系统架构，开发实现本发明实施例提供的文本生成方法的软件程序，从而使得该文本生成方法可以基于如图1所示的安卓操作系统运行。即处理器或者终端设备可以通过在安卓操作系统中运行该软件程序实现本发明实施例提供的文本生成方法。

本发明实施例中的终端设备可以为移动终端设备，也可以为非移动终端设备。示例性的，移动终端设备可以为手机、平板电脑、笔记本电脑、掌上电脑、车载终端设备、可穿戴设备、超级移动个人计算机(ultra-mobile personal computer，UMPC)、上网本或者个人数字助理(personal digital assistant，PDA)等，非移动终端设备可以为个人计算机(personal computer，PC)、电视机(television，TV)、柜员机或者自助机等，本发明实施例不作具体限定。

本发明实施例提供的文本生成方法的执行主体可以为上述的终端设备，也可以为该终端设备中能够实现该文本生成方法的功能模块和/或功能实体，具体的可以根据实际使用需求确定，本发明实施例不作限定。下面以终端设备为例，对本发明实施例提供的文本生成方法进行示例性的说明。

如图2所示，本发明实施例提供一种文本生成方法，该方法可以包括下述的步骤101和步骤102。

步骤101、终端设备对目标图像进行识别，得到该目标图像的内容信息。

本发明实施例中，在用户触发终端设备通过目标应用程序(例如社交应用程序)发布消息(例如社交消息)之前，可以触发终端设备显示发布编辑界面。然后，用户可以选择至少一张图片，从而终端设备可以对该至少一张图片(即待发布的目标图像)进行内容识别和内容分析，以获取该目标图像的内容信息。

可选的，本发明实施例中，上述内容信息可以包括目标图像的内容信息、目标图像包括的对象的类别信息、目标图像包括的对象的位置信息等。其中，该内容信息可以用于指示目标图像表示的场景，该类别信息可以用于指示目标图像包括的对象所属的类别，该位置信息可以用于指示目标图像包括的对象所处的位置。当然，该内容信息还可以包括其他可能的信息，具体可以根据实际使用需求确定，本发明实施例不作限定。

可选的，本发明实施例中，上述目标图像的数量可以为一张、两张或者三张等。具体可以根据实际使用需求确定，本发明实施例不作限定。

可选的，本发明实施例中，上述目标图像可以为终端设备中预先存储的图像，也可以为用户触发终端设备拍摄的图像，还可以为用户触发终端设备从网络下载的图像。具体可以根据实际使用需求确定，本发明实施例不作限定。

可选的，本发明实施例中，在内容信息包括目标图像的内容信息的情况下，该内容信息表示的场景可以包括：家庭场景、工作场景、学习场景、运动场景、聚会场景或者出行场景等。当然，目标图像的内容信息还可以表示其他可能的场景等，具体可以根据实际使用需求确定，本发明实施例不作限定。

步骤102、终端设备根据用户的用词习惯，生成与该内容信息对应的文本信息。

可选的，本发明实施例中，在内容信息包括目标图像的内容信息的情况下，该文本信息可以用于描述场景。

可选的，本发明实施例中，上述文本信息可以包括数字、文字和符号等。具体的，该文字可以为中文、英文和法文等，该可以为标点符号和表情符号等。

示例性的，以内容信息包括目标图像的场景信息为例进行示例性说明。假设终端设备获取的场景为家庭场景，那么终端设备可以生成文本信息“在家美美睡一觉”；假设终端设备获取的场景为工作场景，那么终端设备可以生成文本信息“奋斗吧，工作小狂人”；假设终端设备获取的场景为学习场景，那么终端设备可以生成文本信息“读书很快乐”；假设终端设备获取的场景为运动场景，那么终端设备可以生成文本信息“到健身房打卡，一起瘦身吧”；假设终端设备获取的场景为聚会场景，那么终端设备可以生成文本信息“今天大家都来啦”；假设终端设备获取的场景为出行场景，那么终端设备可以生成文本信息“路上不拥堵，很顺畅”。

本发明实施例提供一种文本生成方法，可以对目标图像进行识别，得到该目标图像的内容信息；并根据用户的用词习惯，生成与该内容信息对应的文本信息。通过该方案，由于在用户触发终端设备发布目标图像之前，终端设备可以根据待发布的目标图像的内容信息和用户的用词习惯，生成与该内容信息对应的文本信息，因此可以减少用户构思并编辑文本信息的时间，从而可以减少发布消息的过程耗时。

可选的，结合图2，如图3所示，在上述步骤102之前，本发明实施例提供的文本生成方法还可以包括下述的步骤103。并且，上述步骤102具体可以通过下述的步骤102A实现。

步骤103、终端设备获取用户发布消息的历史行为信息，并根据该历史行为信息，获取用户的用词习惯。

可选的，本发明实施例中，用户的用词习惯可以为用户的语法习惯、词汇的偏好习惯等。

可选的，本发明实施例中，终端设备可以获取预设时间段内(例如一周内、一个月内或者一年内)用户发布消息的历史行为信息。

示例性的，终端设备可以获取到一个月内用户使用具备社交功能的应用程序发布20条帖子消息、30条帖子消息和100条聊天消息，并将这150条消息作为历史行为样本输入到神经网络模型，该神经网络模型通过卷积运算可以输出这150条消息的关键内容，从而终端设备可以将这150条消息的关键内容作为用户的用词习惯。

步骤102A、终端设备根据该用词习惯和内容信息，通过深度学习模型，生成文本信息。

其中，上述深度学习模型可以为根据多个内容样本信息和多个行为样本信息训练得到的。

可选的，本发明实施例中，一种可能的实现方式是，深度学习模型可以为终端设备对终端设备中保存的多个内容样本信息和多个行为样本信息进行训练得到的。

另一种可能的实现方式是，深度学习模型可以为服务器对多个终端设备上报的多个内容样本信息和多个行为样本信息进行训练得到，并发送到终端设备的。具体可以根据实际使用需求确定，本发明实施例不作限定。

可选的，本发明实施例中，终端设备可以将用户的用词习惯和目标图像的内容信息输入深度学习模型，以使得该深度学习模型生成并输出文本信息。例如，终端设备可以将用户的用词习惯和目标图像的内容信息输入深度学习模型，且对用户的用词习惯和目标图像的内容信息进行卷积运算，并获取多个词汇和多个字符等，以及将该多个词汇和多个字符按照一定进行组合，从而可以生成文本信息。

本发明实施例提供的文本生成方法，由于可以同时根据用户的用词习惯和目标图像的内容信息生成文本信息，因此可以使文本信息更贴合用户习惯，从而提高了终端设备生成的文本信息的准确性。

可选的，本发明实施例中，上述步骤101具体可以通过下述的步骤101A-步骤101C实现。

步骤101A、终端设备获取目标图像中M个对象的类别信息和M个对象的位置信息。

其中，M为大于或等于2的整数。

步骤101B、终端设备根据该M个对象的类别信息和该M个对象的位置信息，确定该M个对象之间的类别关系和相对位置关系。

步骤101C、终端设备根据该M个对象之间的类别关系和相对位置关系，获取内容信息。

其中，上述内容信息可以用于指示目标图像表示的场景。

可选的，本发明实施例中，终端设备可以使用目标检测算法获取M个对象的类别信息和该M个对象的位置信息。

可选的，本发明实施例中，上述M个对象的类别关系可以不同、相同或者相近等，上述M个对象的相对位置关系可以为相邻、相对或者包含等。

可选的，本发明实施例中，在终端设备获取M个对象的位置信息之后，终端设备还可以使用边界框对M个对象进行标注。

示例性的，图4为本发明实施例提供的一种目标图像的示意图。如图4所示，终端设备可以获取目标图像中的对象包括左侧发髻41、右侧发髻42、左侧眉毛43、右侧眉毛44、左眼45、右眼46、嘴巴47、头部48和衣服49，且可以用边界框分别标注这些对象，从而终端设备可以这些对象之间的类别关系和相对位置关系，获取目标图像的内容信息。

本发明实施例提供的文本生成方法，通过对目标图像中M个对象的类别信息和M个对象的位置信息进行分析，可以确定该目标图像的内容信息，从而使得终端设备可以根据该内容信息获取与内容信息对应的文本信息。

可选的，结合图2，如图5所示，在上述步骤101之前，本发明实施例提供的文本生成方法还可以包括下述的步骤104。并且，上述步骤101具体可以通过下述的步骤101D实现。

步骤104、终端设备接收用户的第一输入。

其中，上述第一输入可以为对目标图像的选择输入。

步骤101D、终端设备响应于该第一输入，对目标图像进行识别，得到目标图像的内容信息。

可选的，本发明实施例中，上述第一输入可以为触控输入、手势输入或者语音输入等。例如，第一输入可以为用户对终端设备相册中的一幅或多幅图像(即目标图像)的单击输入。

示例性的，图6为本发明实施例提供的一种用户选择目标图像的操作示意图。在用户触发终端设备通过社交应用程序发布一条社交消息之前，用户可以先触发终端设备显示如图6中的(a)所示的发布编辑界面。然后，用户可以从如图6中的(b)所示的终端设备相册中选择一张图片，如此终端设备可以在如图6中的(c)所示的发布编辑界面上显示该图片(即待发布的目标图像)，并对该目标图像进行内容识别和内容分析，以获取该目标图像对应的内容信息。

本发明实施例提供的文本生成方法，用户通过选择目标图像，可以自动触发终端设备对目标图像进行识别并分析，以获取该目标图像对应的内容信息并生成文本信息，从而可以减少用户构思并编辑文本信息的时间，即可以提高用户发布消息的效率。

可选的，结合图2，如图7所示，在上述步骤102之后，本发明实施例提供的文本生成方法还可以包括下述的步骤105。

步骤105、终端设备在目标图像的发布编辑界面上显示文本信息。

需要说明的是，本发明实施例中，上述发布编辑界面为终端设备向服务器发送消息之前显示的编辑界面，且在该编辑界面上可以插入图片和编辑文本等。

示例性的，图8为本发明实施例提供的一种发布编辑界面的示意图。如图8所示，终端设备的发布编辑界面中的第一区域显示有目标图像01，在根据该目标图像01生成文本信息02之后，终端设备可以发布编辑界面中的第二区域显示该文本信息02。

本发明实施例提供的文本生成方法，在根据目标图像的内容信息生成文本信息之后，通过在目标图像的发布编辑界面上显示文本信息，可以方便用户查看和确认文本信息，从而可以提高用户的体验感。

可选的，结合图7，如图9所示，在上述步骤105之后，本发明实施例提供的文本生成方法还可以包括下述的步骤106和步骤107。

步骤106、终端设备接收用户的第二输入。

其中，上述第二输入可以用于触发终端设备修改文本信息。

步骤107、终端设备响应于该第二输入，将发布编辑界面上显示的文本信息更新为通过该第二输入修改后的文本信息。

可选的，本发明实施例中，上述第二输入可以为在发布编辑界面上的触控输入。

可选的，本发明实施例中，上述第二输入可以包括下述操作中的至少一项：将发布编辑界面上显示的文本信息中的部分内容删除，在发布编辑界面上显示的文本信息中增加部分内容，以及将发布编辑界面上显示的文本信息中的部分内容替换为其他内容。

示例性的，仍以终端设备显示的发布编辑界面为如图8所示的界面为例进行示例性说明。如果用户对如图8所示的文本信息“大家评论一下，这个发型适合我吗？”02不满意，那么用户可以在发布编辑界面上对该文本信息进行修改，如此终端设备可以将发布编辑界面上显示的文本信息更新为如图10所示的文本信息“大家评论一下，这个发型适合本仙女吗？”03。而如果用户对如图8所示的文本信息02满意，那么用户可以无需对发布编辑界面上的文本信息进行修改，而直接触发终端设备将这些内容上传到服务器(即发布社交消息)。

本发明实施例提供的文本生成方法，由于用户可以对发布编辑界面上的文本信息进行修改，因此可以使发布的消息中的文本信息更贴合用户想法，即可以提高发布消息的准确性。

如图11所示，本发明实施例提供一种终端设备1100。该终端设备可以包括获取模块1101和生成模块1102。其中，获取模块1101，用于对目标图像进行识别，得到该目标图像的内容信息；生成模块1102，用于根据用户的用词习惯，生成与获取模块1101获取的该内容信息对应的文本信息。

可选的，本发明实施例中，获取模块1101，还可以用于在生成模块1102根据用户的用词习惯，生成文本信息之前，获取用户发布消息的历史行为信息，并根据该历史行为信息，获取用词习惯；生成模块1102，具体可以用于根据获取模块1101获取的该用词习惯和目标图像的内容信息，通过深度学习模型，生成文本信息，该深度学习模型可以为根据多个内容样本信息和多个行为样本信息训练得到的。

可选的，本发明实施例中，获取模块1101，具体可以用于获取目标图像中M个对象的类别信息和M个对象的位置信息，M为大于或等于2的整数；并根据该M个对象的类别信息和该M个对象的位置信息，确定该M个对象之间的类别关系和相对位置关系；以及根据该M个对象之间的类别关系和相对位置关系，获取目标图像的内容信息，该内容信息可以用于指示目标图像表示的场景。

可选的，结合图11，如图12所示，本发明实施例提供的终端设备还可以包括接收模块1103。接收模块1103，可以用于在获取模块1101对目标图像进行识别之前，接收用户的第一输入，该第一输入可以为对目标图像的选择输入；获取模块1101，具体可以用于响应于接收模块1103接收的该第一输入，对目标图像进行识别，得到目标图像的内容信息。

可选的，结合图11，如图13所示，本发明实施例提供的终端设备还可以包括显示模块1104。显示模块1104，可以用于在生成模块1102生成文本信息之后，在目标图像的发布编辑界面上显示该文本信息。

可选的，如图13所示，本发明实施例提供的终端设备还可以包括接收模块1103。接收模块1103，可以用于在显示模块1104显示文本信息之后，接收用户的第二输入，该第二输入可以用于触发终端设备修改文本信息；显示模块1104，还可以用于响应于接收模块1103接收的该第二输入，将发布编辑界面上显示的文本信息更新为通过该第二输入修改后的文本信息。

本发明实施例提供的终端设备能够实现上述方法实施例中终端设备实现的各个过程，为避免重复，这里不再赘述。

本发明实施例提供一种终端设备，可以对目标图像进行识别，得到该目标图像的内容信息；并根据用户的用词习惯，生成与该内容信息对应的文本信息。通过该方案，由于在用户触发终端设备发布目标图像之前，终端设备可以根据待发布的目标图像的内容信息和用户的用词习惯，生成与该内容信息对应的文本信息，因此本发明实施例提供的终端设备可以减少用户构思并编辑文本信息的时间，从而可以减少终端设备发布消息的过程耗时。

图14为实现本发明各个实施例的一种终端设备的硬件结构示意图。如图14所示，该终端设备200包括但不限于：射频单元201、网络模块202、音频输出单元203、输入单元204、传感器205、显示单元206、用户输入单元207、接口单元208、存储器209、处理器210、以及电源211等部件。本领域技术人员可以理解，图14中示出的终端设备结构并不构成对终端设备的限定，终端设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。在本发明实施例中，终端设备包括但不限于手机、平板电脑、笔记本电脑、掌上电脑、车载终端设备、可穿戴设备、以及计步器等。

其中，处理器210，用于对目标图像进行识别，得到该目标图像的内容信息；以及根据用户的用词习惯，生成与该内容信息对应的文本信息。

应理解的是，本发明实施例中，射频单元201可用于收发信息或通话过程中，信号的接收和发送，具体的，将来自基站的下行数据接收后，给处理器210处理；另外，将上行的数据发送给基站。通常，射频单元201包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器、双工器等。此外，射频单元201还可以通过无线通信系统与网络和其他设备通信。

终端设备通过网络模块202为用户提供了无线的宽带互联网访问，如帮助用户收发电子邮件、浏览网页和访问流式媒体等。

音频输出单元203可以将射频单元201或网络模块202接收的或者在存储器209中存储的音频数据转换成音频信号并且输出为声音。而且，音频输出单元203还可以提供与终端设备200执行的特定功能相关的音频输出(例如，呼叫信号接收声音、消息接收声音等等)。音频输出单元203包括扬声器、蜂鸣器以及受话器等。

输入单元204用于接收音频或视频信号。输入单元204可以包括图形处理器(Graphics Processing Unit，GPU)2041和麦克风2042，图形处理器2041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。处理后的图像帧可以显示在显示单元206上。经图形处理器2041处理后的图像帧可以存储在存储器209(或其它存储介质)中或者经由射频单元201或网络模块202进行发送。麦克风2042可以接收声音，并且能够将这样的声音处理为音频数据。处理后的音频数据可以在电话通话模式的情况下转换为可经由射频单元201发送到移动通信基站的格式输出。

终端设备200还包括至少一种传感器205，比如光传感器、运动传感器以及其他传感器。具体地，光传感器包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板2061的亮度，接近传感器可在终端设备200移动到耳边时，关闭显示面板2061和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别终端设备姿态(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；传感器205还可以包括指纹传感器、压力传感器、虹膜传感器、分子传感器、陀螺仪、气压计、湿度计、温度计、红外线传感器等，在此不再赘述。

显示单元206用于显示由用户输入的信息或提供给用户的信息。显示单元206可包括显示面板2061，可以采用液晶显示器(Liquid Crystal Display，LCD)、有机发光二极管(Organic Light-Emitting Diode，OLED)等形式来配置显示面板2061。

用户输入单元207可用于接收输入的数字或字符信息，以及产生与终端设备的用户设置以及功能控制有关的键信号输入。具体地，用户输入单元207包括触控面板2071以及其他输入设备2072。触控面板2071，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板2071上或在触控面板2071附近的操作)。触控面板2071可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器210，接收处理器210发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板2071。除了触控面板2071，用户输入单元207还可以包括其他输入设备2072。具体地，其他输入设备2072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆，在此不再赘述。

进一步的，触控面板2071可覆盖在显示面板2061上，当触控面板2071检测到在其上或附近的触摸操作后，传送给处理器210以确定触摸事件的类型，随后处理器210根据触摸事件的类型在显示面板2061上提供相应的视觉输出。虽然在图14中，触控面板2071与显示面板2061是作为两个独立的部件来实现终端设备的输入和输出功能，但是在某些实施例中，可以将触控面板2071与显示面板2061集成而实现终端设备的输入和输出功能，具体此处不做限定。

接口单元208为外部装置与终端设备200连接的接口。例如，外部装置可以包括有线或无线头戴式耳机端口、外部电源(或电池充电器)端口、有线或无线数据端口、存储卡端口、用于连接具有识别模块的装置的端口、音频输入/输出(I/O)端口、视频I/O端口、耳机端口等等。接口单元208可以用于接收来自外部装置的输入(例如，数据信息、电力等等)并且将接收到的输入传输到终端设备200内的一个或多个元件或者可以用于在终端设备200和外部装置之间传输数据。

存储器209可用于存储软件程序以及各种数据。存储器209可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器209可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

处理器210是终端设备的控制中心，利用各种接口和线路连接整个终端设备的各个部分，通过运行或执行存储在存储器209内的软件程序和/或模块，以及调用存储在存储器209内的数据，执行终端设备的各种功能和处理数据，从而对终端设备进行整体监控。处理器210可包括一个或多个处理单元；可选的，处理器210可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器210中。

终端设备200还可以包括给各个部件供电的电源211(比如电池)，可选的，电源211可以通过电源管理系统与处理器210逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

另外，终端设备200包括一些未示出的功能模块，在此不再赘述。

可选的，本发明实施例还提供一种终端设备，包括如图14所示的处理器210，存储器209，存储在存储器209上并可在处理器210上运行的计算机程序，该计算机程序被处理器210执行时实现上述方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

本发明实施例还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。其中，计算机可读存储介质，如只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例描述的方法。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本发明的保护之内。

Claims

1.一种文本生成方法，应用于终端设备，其特征在于，所述方法包括：

对目标图像进行识别，得到所述目标图像的内容信息；

根据用户的用词习惯，生成与所述内容信息对应的文本信息，所述用词习惯为根据用户发布消息的历史行为信息获取的；

所述对目标图像进行识别，得到所述目标图像的内容信息，包括：

获取所述目标图像中M个对象的类别信息和M个对象的位置信息，M为大于或等于2的整数；

根据所述M个对象的类别信息和所述M个对象的位置信息，确定所述M个对象之间的类别关系和相对位置关系；

根据所述M个对象之间的类别关系和相对位置关系，获取所述内容信息，所述内容信息用于指示所述目标图像表示的场景。

2.根据权利要求1所述的方法，其特征在于，所述根据用户的用词习惯，生成与所述内容信息对应的文本信息之前，所述方法还包括：

获取用户发布消息的历史行为信息，并根据所述历史行为信息，获取所述用词习惯；

所述根据用户的用词习惯，生成与所述内容信息对应的文本信息，包括：

根据所述用词习惯和所述内容信息，通过深度学习模型，生成所述文本信息，所述深度学习模型为根据多个内容样本信息和多个行为样本信息训练得到的。

3.根据权利要求1所述的方法，其特征在于，所述对目标图像进行识别，得到所述目标图像的内容信息之前，还包括：

接收用户的第一输入，所述第一输入为对所述目标图像的选择输入；

响应于所述第一输入，对所述目标图像进行识别，得到所述内容信息。

4.根据权利要求1至3中任一项所述的方法，其特征在于，所述根据用户的用词习惯，生成与所述内容信息对应的文本信息之后，所述方法还包括：

在所述目标图像的发布编辑界面上显示所述文本信息。

5.根据权利要求4所述的方法，其特征在于，所述在所述目标图像的发布编辑界面上显示所述文本信息之后，所述方法还包括：

接收用户的第二输入，所述第二输入用于触发所述终端设备修改所述文本信息；

响应于所述第二输入，将所述发布编辑界面上显示的所述文本信息更新为通过所述第二输入修改后的所述文本信息。

6.一种终端设备，其特征在于，所述终端设备包括获取模块和生成模块；

所述获取模块，用于对目标图像进行识别，得到所述目标图像的内容信息；

所述生成模块，用于根据用户的用词习惯，生成与所述获取模块获取的所述内容信息对应的文本信息，所述用词习惯为根据用户发布消息的历史行为信息获取的；

所述获取模块，具体用于获取所述目标图像中M个对象的类别信息和M个对象的位置信息，M为大于或等于2的整数；并根据所述M个对象的类别信息和所述M个对象的位置信息，确定所述M个对象之间的类别关系和相对位置关系；以及根据所述M个对象之间的类别关系和相对位置关系，获取所述内容信息，所述内容信息用于指示所述目标图像表示的场景。

7.根据权利要求6所述的终端设备，其特征在于，

所述获取模块，还用于在所述生成模块根据所述用词习惯，生成所述文本信息之前，获取用户发布消息的历史行为信息，并根据所述历史行为信息，获取所述用词习惯；

所述生成模块，具体用于根据所述获取模块获取的所述用词习惯和所述内容信息，通过深度学习模型，生成所述文本信息，所述深度学习模型为根据多个内容样本信息和多个行为样本信息训练得到的。

8.根据权利要求6所述的终端设备，其特征在于，所述终端设备还包括接收模块；

所述接收模块，用于在所述获取模块对目标图像进行识别之前，接收用户的第一输入，所述第一输入为对所述目标图像的选择输入；

所述获取模块，具体用于响应于所述接收模块接收的所述第一输入，对所述目标图像进行识别，得到所述内容信息。

9.根据权利要求6至8中任一项所述的终端设备，其特征在于，所述终端设备还包括显示模块；

所述显示模块，用于在所述生成模块生成所述文本信息之后，在所述目标图像的发布编辑界面上显示所述文本信息。

10.根据权利要求9所述的终端设备，其特征在于，所述终端设备还包括接收模块；

所述接收模块，用于在所述显示模块显示所述文本信息之后，接收用户的第二输入，所述第二输入用于触发所述终端设备修改所述文本信息；

所述显示模块，还用于响应于所述接收模块接收的所述第二输入，将所述发布编辑界面上显示的所述文本信息更新为通过所述第二输入修改后的所述文本信息。

11.一种终端设备，其特征在于，包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1至5中任一项所述的文本生成方法的步骤。

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现如权利要求1至5中任一项所述的文本生成方法的步骤。