CN110837307A

CN110837307A - 一种输入法及其系统

Info

Publication number: CN110837307A
Application number: CN201910934771.0A
Authority: CN
Inventors: 施明
Original assignee: Shanghai Mengjia Network Technology Co Ltd
Current assignee: Shanghai Mengjia Network Technology Co Ltd
Priority date: 2019-09-29
Filing date: 2019-09-29
Publication date: 2020-02-25

Abstract

本发明涉及一种输入法及其系统。其中，所述输入法系统包括：聊天图片识别模块，其经配置以识别聊天对话中对话方输入的图片/视频；图库模块，其经配置以至少部分基于用户输入和聊天对话中对话方输入的图片/视频提供一个或多个候选图片/视频；图文合成模块，其经配置以基于所述一个或多个候选图片/视频和基于用户输入的上屏文字生成一个或多个包含上屏文字的图文合成图片/视频；以及输出模块，其经配置以响应于用户操作，输出用户选择的图文合成图片/视频。本发明通过监测聊天对话方的输入内容，可为用户提供具有针对性的图片/视频，表达更加丰富、趣味性也更强。

Description

一种输入法及其系统

技术领域

本发明涉及应用技术领域，特别地涉及一种输入法及其系统。

背景技术

无论是在PC端还是在移动端，输入法都是人们日常生活中高频使用的应用程序。现有输入法的发展具有两个明显的趋势。一个趋势是易用性方向的发展，输入更方便，更准确，更高效。无论是人工智能在输入法匹配中的应用，还是基于语音识别的输入法都是这一方向的代表。另一个趋势是娱乐性方向的发展，输入内容更丰富、更多样、更直观。颜文字、表情、表情包等输入功能的不断加入反映出输入法在这一方向上的发展。然而，随着人们在表达上要求的不断提高，现有的输入功能仍无法满足需求。

发明内容

针对现有技术中存在的技术问题，本发明提出了一种输入法及其系统，可以根据聊天对话方发送的图片/视频提供相应的图片/视频，丰富输入法的输出，增加聊天的趣味性。

根据本发明的一个方面，本发明提供一种输入法系统，其中，包括：聊天图片识别模块，其经配置以识别聊天对话中对话方输入的图片/视频；图库模块，其经配置以至少部分基于用户输入和聊天对话中对话方输入的图片/视频提供一个或多个候选图片/视频；图文合成模块，其经配置以基于所述一个或多个候选图片/视频和基于用户输入的上屏文字生成一个或多个包含上屏文字的图文合成图片/视频；以及输出模块，其经配置以响应于用户操作，输出用户选择的图文合成图片/视频。

优选地，所述聊天图片识别模块包括：图片/视频识别单元，其经配置以从当前聊天对话中识别出对话方输入的图片/视频。

优选地，所述的输入法系统进一步包括通信模块，其经配置以将从当前聊天对话中识别出对话方输入的图片/视频发送到图库模块。

优选地，图库模块进一步包括特征提取单元，经配置以从对聊天对话方输入的图片/视频中提取出一个或多个特征。

优选地，所述聊天图片识别模块进一步包括特征提取单元，经配置以从对聊天对话方输入的图片/视频中提取出一个或多个特征；并将所述一个或多个特征发送给所述图库模块。

优选地，从聊天对话方输入的图片/视频中提取出的特征包括以下特征中的一者或多者：图片的类型；图片中的文字；图片中的台词或潜台词；图片的场景；以及图片的内容、气氛、声音、气味和/或味道。

优选地，所述图库模块包括：查询单元，其经配置以根据用户输入查询图库以获取一个或多个候选图片/视频；以及排序单元，其经配置以至少部分基于从对聊天话方输入的图片/视频中提取出一个或多个特征调整来自查询单元的一个或多个候选图片/视频的排序。

优选地，所述聊天图片识别模块还包括场景识别单元，其经配置以识别当前使用场景是否为聊天场景。

优选地，所述图库位于客户端本地和/或服务端。

优选地，所述图库提供候选图片/视频的缩略图。

优选地，所述的输入法系统进一步包括输入界面，所述输入界面包括候选图片区，经配置用以显示候选图片/视频或其缩略图，或显示图文合成图片/视频或其缩略图。

根据本发明的另一个方面，本发明提供一种输入法，其中，包括：识别聊天对话中对话方输入的图片/视频；至少部分基于用户输入和聊天对话中对话方输入的图片/视频提供一个或多个候选图片/视频；基于所述一个或多个候选图片/视频和基于用户输入的上屏文字生成一个或多个包含上屏文字的图文合成图片/视频；以及响应于用户操作，输出用户选择的图文合成图片/视频。

优选地，所述的输入法进一步包括：根据当前聊天对话中的信息类型识别出对话方输入的图片/视频。

优选地，所述的输入法进一步包括：从对话方输入的图片/视频中提取出一个或多个特征。

优选地，所述的特征包括以下特征中的一者或多者：图片的类型；图片中的文字和/或文字属性；图片中的台词或潜台词；图片的场景；以及图片的内容、气氛、声音、气味和/或味道。

优选地，所述的输入法进一步包括：根据用户输入查询图库以获取一个或多个候选图片/视频；以及至少部分基于从对聊天话方输入的图片/视频中提取出一个或多个特征调整所述一个或多个候选图片/视频的排序。

优选地，所述图库来自于客户端本地和/或服务端。

优选地，所述的输入法进一步包括：识别当前使用场景是否为聊天场景；以及响应于聊天场景，从当前聊天对话中识别出对话方输入的图片/视频。

优选地，所述的输入法进一步包括：响应于聊天场景，在输入界面中增加候选图片区，用于展示图文合成候选图片/视频或其缩略图，或者展示候选图片/视频或其缩略图。

在本发明的一些实施例中，通过监测聊天对话方的输入内容，可为用户提供具有针对性的图片/视频，表达更加丰富、趣味性也更强。

附图说明

下面，将结合附图对本发明的优选实施方式进行进一步详细的说明，其中：

图1是根据本发明一个实施例的输入法系统的原理框图；

图2是根据本发明一个实施例的输入界面的示意图；

图3是根据本发明另一个实施例的聊天图片识别模块的原理框图；

图4是根据本发明一个实施例的图库模块的示意图；

图5是根据本发明一个实施例的输入法流程图；

图6是根据本发明一个实施例的识别当前使用场景是否为聊天场景的方法流程图；

图7是根据本发明一个实施例的识别当前运行的应用是否为聊天应用的方法流程图；以及

图8是根据本发明一个实施例的识别目标应用的屏幕内容的方法流程图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在以下的详细描述中，可以参看作为本申请一部分用来说明本申请的特定实施例的各个说明书附图。在附图中，相似的附图标记在不同图式中描述大体上类似的组件。本申请的各个特定实施例在以下进行了足够详细的描述，使得具备本领域相关知识和技术的普通技术人员能够实施本申请的技术方案。应当理解，还可以利用其它实施例或者对本申请的实施例进行结构、逻辑或者电性的改变。

现有技术中输入法的一些功能，例如表情包功能，使得输入法能够输入图片。然而，在使用表情包时，用户需要预先下载表情包。输入法中能够输入的图片也仅限于表情包中提供的图片。特别是，表情包图片中的文字是无法修改的。这使得用户的使用受到了很大的限制。

本发明的一些实施例中提出了一种更具娱乐性的输入法：基于用户输入的内容与图片或视频结合形成包含用户输入内容的图片或视频。以下通过图片的实施例来详细说明本发明的技术方案。本领域技术人员应当理解，本发明的方案也能够以类似的方式应用于视频，例如时间小于5秒、10秒或15秒的小视频。

图1是根据本发明一个实施例的输入法系统的示意图。图2是根据本发明一个实施例的输入界面的示意图。如图所示，输入法系统100包括：界面模块102、图库模块104、图文合成模块108、聊天图片识别模块106和输出模块110。

界面模块102为可选模块。所述界面模块102可提供用户输入界面。在用户输入界面上，用户可以输入一个字符或者由多个字符组成的字符串。参考图2，用户输入界面包括字符显示区202、候选图片区204和输入区206。其中，字符显示区202用于显示用户输入的字符或字符串，用户输入的方式可以为文字输入、语音输入等。候选图片区204用于显示一个或多个图片/视频。在一个较佳实施例中，候选图片区204展示的是合成后的候选图文合成图片，此后简称候选合成图，或者展示候选合成图的缩略图。在另一个较佳实施例中，候选图片区204展示的是图库模块提供的候选图片/视频，即没有合成上屏文字的图片/视频，或者是其缩略图。此外，候选图片区204还具有显示服务器或本地提供候选图片的操作区，即显示服务器端图库或本地图库的图片/视频，用以提供由用户选择候选图片/视频的机会。举例而言，在候选图片区204中设置云标记按钮(图中未示出)，用户可以点击云标记按钮，则可以在候选图片区204显示服务器端图库索引及图片缩略图，通过点击缩略图，可以查询完整的原图。在候选图片区204中设置“我的”按钮(图中未示出)，用户可以点击“我的”按钮，显示本地用户存储的图片/视频。在候选图片区204，用户可以选择候选合成图或图片。例如，用户可以直接点击候选图片区204中一个候选合成图；或者，用户可以点击空格，而选择候选合成图中的第一个候选合成图。在一些实施例中，候选图片区204能够扩展以显示更多的候选合成图。例如，候选图片区204能够向左右滑动而扩展，或者，候选图片区204能够扩大到输入区206，以呈现更多的其他候选合成图。输入区206可以提供用户使用的键盘或语音输入界面。所述键盘包括但不限于：拼音9键、拼音26键、手写键盘、中文笔画键盘、中文五笔等一种或多种。

聊天图片识别模块106用以识别聊天对话中对话方输入的图片/视频。图3是根据本发明一个实施例的聊天图片识别模块的原理框图。如图3所示，本实施例中的聊天图片识别模块106包括图片/视频识别单元1102和特征提取单元1104，其中，图片/视频识别单元1102从当前聊天对话中获取对话信息，并根据对话信息的类型识别出对话方输入的图片/视频。例如当对话信息类型为.txt时该对话信息为文字；当对话信息为bmp、jpg、png、tif或gif等类型时，该对话信息为图片；当对话信息为rmvb、rm或avi等类型时，该对话信息为视频。在识别出图片/视频后，特征提取单元1104进行图像分析，从中提取出一个或多个特征。其中，所述的特征可以为图片的类型，如动物、人物、风景等。所述的特征可以为图片中的文字，这些文字表达了一定的意义，如：表达“你真是太美了”、“我不扶墙就服你”。所述的特征也可以是根据识别出的图像确定的图片场景、潜台词；例如“忙”、“倒”、“晕”等。所述的特征还可以是通过图像分析得到的图片内容、气氛、声音、气味和/或味道。如“黄河”、“喵”“真香”、“太甜了”等。特征提取单元1104将提取到的一个或多个特征发送给所述图库模块104。

此外，所述聊天图片识别模块106还包括场景识别单元1100，其经配置以识别当前使用场景是否为聊天场景；所述图片/视频识别单元1102响应于聊天场景，从当前聊天对话中识别出对话方输入的图片/视频。在一个实施例中场景识别单元1100首先识别出目标应用，响应于所述目标应用为聊天应用，识别当前显示目标应用的屏幕内容。在当前显示目标应用的屏幕内容为聊天内容，确定当前使用场景为聊天场景。

如图4所示，是根据本发明一个实施例的图库模块的原理框图。在本实施例中，所述图库模块104包括查询单元1042和排序单元1044。所述查询单元1042根据用户输入查询图库以获取一个或多个候选图片/视频。其中，在一个实施例中，用户利用输入区206输入字符时，字符显示区202中显示的是用户确定的字符。当用户按下输出键或确认键时，字符显示区202中的字符或字符串将输出到屏幕上，因而也称为上屏文字。用户可以通过输入区206一个字符一个字符的输入，在输入法系统安装有词库时，词库可根据用户输入的字符提供多个候选词。用户可选择合适的候选词作为上屏词添加到字符显示区202中，因而字符显示区202中的上屏文字为多个上屏词的组合。上如本领域技术人员所了解的，本领域中已有的输入法中用于匹配用户输入的字符或者字符串的方法都可以应用于此，以用于获得与用户输入匹配的一个或多个候选词。查询单元1042首先从用户界面的字符显示区202获取用户输入，即上屏文字。为了提高查询效率及上屏文字与图片的匹配率，提取上屏文字的一个或多个特征参数，例如上屏文字的关键字、属性、用户历史及爱好等。例如，在提取关键字时，首先根据语义对上屏文字进行切分。例如，“今天你的安排是什么？”这段上屏文字可以分成以下7个部分“今天/你/的/安排/是/什么/？”，其中“？”是标点符号。上屏文字包括6个词语。然后，根据词语的性质，将虚词和代词从上屏文字中去掉。例如，去掉虚词后，剩余的词语为“今天、安排”。当有多个关键词语时，可以根据词语的词性，赋予词语不同的权重，从而确定查询的优先顺序。举例而言，表示主语、谓语和宾语的词语的权重大于表示定语的词语的权重；表示定语和补语的词语的权重大于表示状语的词语的权重。在上面的例子中，“安排”的权重大于“今天”的权重。由此，在一些实施例中，上屏文字的语气也作为关键字提取。在一些可选实施例中，上屏文字的属性，例如，褒义、贬义、中性、赞扬、讽刺等也可作为特征参数进行提取。所述用户历史是指用户历史输入及对应的图片/视频。用户爱好是指根据用户行为通过统计、总结，利用机器学习模型获得的用户对图片的偏好。该特征可以是在本次输入之前、之后的任何时候获得的，并且可以根据用户行为的增加而进行不断的更新。如本领域技术人员所了解的，以上的方法仅仅用于示例性的说明本发明的技术方案而非限制其范围。现有技术中自动语义分析的方法、用户历史及其爱好的获取方法都可以应用于此以用于提取上屏文字中的特征参数。获取上屏文字的特征参数能够简化检索过程，提高搜索和匹配的速度和准确度。

所述查询单元1042根据上述的特征参数查询图库。所述图库位于系统客户端本地或服务端的云端。

图库中存储的图片/视频包括文字区域。图片的文字区域经定义而能够容纳一个或多个文字，用于在进行图文合成时添加上屏文字。在一些实施例中，图库中的图片经过调整而留出文字区域的位置，从而使得添加文字后的图片更美观。更进一步地，为了保证美观度，文字区域中容纳的文字大小、字体、排版、颜色中的一者或多者是经过预先定义的。同样地，一般而言文字区域能够容纳的文字数量有限制。如果添加的文字数量超过文字区域所能容纳的文字数量，则文字区域可以仅显示所能容纳的最多数量的文字，其余文字以例如省略号等符号代替。在一些实施例中，以上所提及的文字包括汉字、外文字、数字、标点符号等中的一者或多者。在一些实施例中，图片可以是线条图、灰度图、彩色图、照片等中的一者或多者。图片的背景可以为白色、灰色、浅蓝色、绿色、蓝色、黑色等颜色。在一些实施例中，文字区域中的文字可以是动态的。例如，文字可以变大或变小、旋转、变色、边缘闪光等。在一些实施例中，图片经设置以向用户指示图片的文字区域。指示的方式包括但不限于：以固定方式或者高亮、闪烁、变色等变化方式显示文字区域的轮廓。

在一些实施例中，图片可以是动图。举例而言，图片包括由多个子图片组成的动图。每个子图片包括文各自的文字区域。各个子图片的文字区域可以相同或不相同。在一些实施例中，每个子图片的文字区域中添加的文字是一致的。由此，虽然子图片变换而形成动图，但是整个动图向用户呈现的文字是一致的。在其他一些实施例中，每个子图片的文字区域中添加的文字是不一致的。各个子图片的文字区域组合起来是添加的文字。例如，动图包括3个子图片，需要添加的文字是“我爱你”；那么3个子图片的文字区域分别添加“我”、“爱”和“你”。由此，图片向用户动态呈现添加的文字“我爱你”。在一些实施例中，图片的各个子图片中添加文字的切换可以具有特效。这些特效包括但不限于：淡入淡出、从小到大或从大到小然后消失、从左到右或从右到左然后消失、从上到下或从下到上然后消失等。本领域技术人员应当理解，对于视频也可以采用类似方式处理。在一些例子中，视频能够播放上屏文字。

图库中的图片包括图片描述，根据图片描述可进行分类并建立索引，以便于查询、检索。图片描述可以是一个或多个词语(例如关键字)、一段文字、或者一个或多个词语或文字与语气的组合。在一些实施例中，图片描述包括了图片中的文字。在一些实施例中，图片描述说明了与候选图片匹配的台词或潜台词，例如“你真是太美了”、“我不扶墙就服你”等。在一些实施例中，图片描述说明了候选图片适合描述的场景，例如“忙”、“倒”、“晕”等。在一些实施例中，图片描述说明了候选图片的内容、气氛、声音、气味、味道等，例如，“黄河”、“真香”、“太甜了”等。在一些实施例中，图片的图片描述是以上类型的图片描述中一者或多者。以上仅仅是示例性地说明候选图片的图片描述。图片还可以包括其他类型的图片描述以与用户的需求匹配。

在一些实施例中，图库中的图片包括文字。图片包括的文字可以认为是图片的一部分，是不能更改的。包括文字的图片可以包含文字区域。或者，包括文字的图片可以不包含文字区域。当图片不包括文字区域时，如果用户选择了此种类型的图片，那么一种情况是上屏文字与图片中包括的文字相同，那么无需图文合成即已经得到了用户期望的包含图文的图片，图文合成的步骤可以省去了。另一种情况是上屏文字与图片中包括的文字不相同，那么用户选择与上屏文字不相同的图片说明用户希望更改上屏内容而获得期望的包含图文的图片，可以认为更改上屏内容和图文合成的步骤都省去了。因此，即使不包含文字区域的图片同样可以成为本发明的图片而存储在图库中。

在一些实施例中，图库中的图片具有图片分类，即按类存储。图片的图片分类描述了图片所归属的类别。图片分类有助于根据用户偏好提供候选图片，以更好地满足用户的需求。举例而言，用户的偏好为可爱的小动物。在提供候选图片时，同时满足动物和萌的候选图片在排序时权重就会提高。由此，在提供候选图片时能够更加让用户满意。同样地，在一些实施例中，图片分类也有利于获取用户偏好，单独或结合其他用户信息为用户精准画像。

以下表1是一个图库中图片的示例：

表1：图库表

	图片名称	图片中的文字	图片分类	图片描述
					1	皮卡丘0028	无	通用、儿童	谁？…
2	大章鱼0012	无	搞笑、动物	我是谁？…
					3	小红帽0010	别问我是谁？	萌、儿童	勇敢
4	…	…	…	…

在一些实施例中，根据图片描述、图片中的文字以及图片分类中的一者或多者建立索引，方便查询单元1042查询匹配。本领域技术人员应当理解，现有技术中已有的建立索引的方法都可以应用与此。

在一个实施例中，查询单元1042根据特征参数利用索引查询图库以获取一个或多个候选图片/视频。

根据本发明的一些实施例，由于图库中图片的数量有限或需要满足的查询条件过多，图库模块104在图库中检索匹配的过程可能会出现“不中”的情况，即没有匹配的图片出现。因此，在没有或者匹配的候选图片数量不足时，图库模块104需要提供额外的候选图片。此时图库模块104随机、根据用户历史和偏好、用户属性、当前流行的主题等获取一个图片或多个图片作为补充候选图片。

在一些实施例中，提供补充的候选图片时，图片分类也非常有用。举例而言，如果从各个图片分类中随机提供候选图片，那么呈现给用户的将是风格更为多样的候选图片。用户发现满意的候选图片的可能性也更高。

排序单元1044对查询单元1042查询到的图片进行排序，并利用特征提取单元1104取到的对话方输入的图片的特征调整所述排序。

首先，排序单元1044能够获取输入界面中向用户展示的候选图片的个数，例如5个。排序单元1044对多于输入界面能够向用户展示的候选图片的数量的多个候选图片进行排序，以方便用户希望展示更多候选图片时，能够快速展示更多的候选图片。排序单元1044基于以下因素中的一者或多者对查询得到的多个图片进行排名：(1)文字的匹配度；(2)图片类别的匹配度；(3)图像内容的匹配度；(4)文字属性的匹配度；(5)用户选择候选图片的历史记录的匹配度；(4)用户偏好与候选图片类别的匹配度；(5)用户属性与候选图片类别的匹配度(6)候选图片在其图片分类中的流行程度；(7)候选图片的通用程度；(8)候选图片类别在检索结果中的比例；等等。如本领域技术人员所理解的，以上仅仅是示例性的说明可能应用于候选图片排序的一些因素，并非涵盖可能的所有因素。其他有利于提供用户希望的或者更佳图文效果的因素也可以成为候选图片排序参考的指标。

在一些实施例中，图片的排序因素通过候选图片的排序体现出来。举例而言，匹配度越高，权重也越高。在一些实施例中，查询条件中的文字与图片中文字完全一致的权重高于查询条件中的文字被包含在图片中文字中的权重。但是，不同的因素具有不同的最高权重。例如，查询条件中的上屏文字与候选图片中文字匹配度的最高权重大于查询条件中的上屏文字与候选图片中图片描述中文字匹配度的最高权重。换言之，如果上屏文字与第一候选图片中的文字完全一致；同样地，也与第二候选图片的图片描述完全一致，那么第一候选图片比第二候选图片排序更靠前。如本领域技术人员所理解的，其他排序因素也能够通过权重的调整而在排序中体现。在一些实施例中，图库模块104通过动态地调整候选图片的权重而形成个性化的结果，从而更好地匹配用户的需求。现有技术中其他关于权重调整的方式也可以应用于此，从而更好地提高本发明的技术效果。

然后，排序单元1044参考对话方输入的图片的特征调整所述排序。例如，将与对话方输入的图片特征一致的排在前第N位。或者从当前排序的第N位开始，按对话方输入的图片特征调整剩余候选图片。其中用来调序的图片特征可以为以下特征中的单一特征：图片的类型、图片中的文字、图片中的台词或潜台词、图片的场景以及图片的内容、气氛、声音、气味和/或味道；或者是这些特征的加权组合而得到的组合特征。

排序单元1044将调整好排序的候选图片发送到界面模块的用户界面，通过候选图片区204显示给用户。

在另一个实施例中，当聊天图片识别模块106不包括特征提取单元时，聊天图片识别模块106将识别出的对话方输入的图片通过通信模块发送给图库模块104。图库模块104除了前述的查询单元1042和排序单元1044外，还可以包括特征提取单元1040，用于提取出对话方输入的图片的特征，以便排序单元1044调整候选图片的排序。

当图库中建有缩略图库时，查询单元1042在得到候选图片时，还同时获取对应的缩略图库，在排序单元1044排好序后，将排好序的候选图片的缩略图显示在候选图片区204。

图文合成模块108从界面模块102获取到上屏文字，从图库模块104获取到候选图片后，将上屏文字添加到候选图片中。具体而言，将上屏文字添加到候选图片的文字区域中。在一些实施例中，图文合成模块108获取上屏文字后，将上屏文字添加到来自图库模块104的提供的多个候选图片的缩略图中，从而形成多个包括上屏文字的候选图文合成图片的缩略图。缩略图尺寸较小，更加适于在输入界面进行展示。

输出模块110与界面模块102相连接，响应于用户操作，输出用户选择的图文合成图片/视频。如果用户选择了某个包括上屏文字的图文合成图片的缩略图时，输出模块110输出对应的图文合成图片。图文合成模块108制作原始尺寸大小的候选图文合成图片时，既可以在制作缩略图的同时进行，也可以在此之前或之后进行。

本发明根据用户输入和对话方输入的图片/视频，提供更符合对话情景的图文合成图片，从而满足用户在对话时的表达需求，获得更好的表达效果。

图5是根据本发明一个实施例的输入法流程图。在本实施例中，可以根据对话方输入的图片/视频及用户输入生成匹配的图文合成图片/视频。具体地：

步骤S500，识别聊天对话中对话方输入的图片/视频。首先识别当前输入法的使用场景是否为聊天场景，在一个实施例中，如图6所示：

步骤S600，识别当前运行的应用，其中的一个实施例如图7所示。

步骤S601，判断当前运行的应用是否有聊天应用。如果有，则执行步骤S602，如果没有，则在在步骤S605确定当前使用场景为非聊天场景。

步骤S602，识别目标应用的屏幕内容，其中的一个实施例如图8所示。

步骤S603，判断目标应用的屏幕内容是否为聊天内容，如果是，则在步骤S604确定当前输入法使用场景为聊天场景，如果不是，则在步骤S605确定当前使用场景为非聊天场景。

图7是根据本发明一个实施例的识别当前运行的应用是否为聊天应用的方法流程图。

步骤S700，获取输入法所在终端当前运行的应用列表。

步骤S701，读取应用列表中的每一个应用的应用信息。

步骤S702，对比每一应用的应用信息和预置聊天应用的应用信息。例如，在本输入法的系统中预置有各种聊天应用的应用信息，如“微信”、“WeChat”、“Telegram”、“FaceBook”、“SnapChat”、“QQ”等等。经过查询、比对每一应用的应用信息和预置聊天应用的应用信息，可以定当前运行的应用中是否有聊天应用。

步骤S703，判断当前运行的应用中是否有预置的聊天应用，如果没有预置的聊天应用，则在步骤704确定当前运行的应用没有聊天应用，结束识别流程，如果有聊天应用，则在步骤705确定当前运行的应用有聊天应用，结束识别流程。

也可以直接获取接收用户输入的目标应用的应用信息，通过对比目标应用的应用信息和预置聊天应用的应用信息来确定所述目标应用是否为聊天应用。

步骤S800，获取当前屏幕上目标应用的用户输入内容。所述的用户输入内容包括本终端用户输入的内容，也包括接收到的其他终端用户发送给本终端用户的内容。

步骤S801，根据目标应用的用户输入内容，映射到对应的内存。例如，通过当前用户输入内容，可以查询到该目标应用存储所述内容的地址，根据所述地址，可以得到对应的内存。例如在“微信”中，根据用户的聊天内容的不同，如文字、语音、图片或视频，这些内容分别存储在不同的文件夹中。例如，聊天时所有的微信语音聊天记录、收发的图片和小视频分别保存在“tencent\MicroMsg”中对应的“image2”、“voice2”和“video2”的文件夹中。而文字聊天记录都保存在“data\data\com.tencent.mm”中的“MicroMsg”文件夹中。其他应用也与此类似，对应不同的用户输入内容，可以得到对应的存储地址。

步骤S802，读取内存中的用户输入内容。如前述的“微信”，在得到当前输入内容(如用户输入的语音)的存储内存后，如读取对应内存的内容，如当天的全部语音内容，包括语音发送者和接收者。

步骤S803，分析所述用户输入内容，确定当前屏幕内容是否为聊天内容。例如，当为语音聊天信息时，内存中会存储语音的发送者ID。当内存中，在一个信息片断中，存储了除本终端外的一个或多个发送者ID时，可以确定，此为聊天内容。否则不是聊天内容。如果用户输入为文字内容，识别过程类似，根据一个信息片断中有两个或两个以上的信息发送者ID，可以确定为该信息片断对应的是聊天内容。

在另一个实施例中，通过识别目标应用的用户界面内容来识别目标应用的屏幕内容是否为聊天内容。与前述的用户输入内容类似，在一个应用中，在内存中存储有对应不同的用户界面的界面信息，如某个界面上包括的按钮及其上的文字。在该实施例中，当获得了用户界面内容后，映射到对应的内存；从所述内存中的读取当前用户界面上的按钮以及按钮上的文字；分析所述按钮以及按钮上的文字，确定当前屏幕内容是否为聊天内容。例如，在“微信”中，聊天界面的内容与其他功能如朋友圈、阅读留言区的界面不同，根据界面上的按钮以及按钮上的文字可以确定当前屏幕上展示的用户界面是否为聊天界面，从而可以确定当前屏幕内容是否为聊天内容。

在另一些实施例中，还可以通过对当前屏幕的截屏图像进行分析而确定当前的界面是否为聊天界面，并且还可以得到当前用户的输入内容。因而，在本实施例中，对当前屏幕截屏，获得截屏图片，通过图像分析，可以识别出当前的用户界是否为聊天界面，信息窗中的内容是否为两人或多人对话等。

在确定当前为聊天场景后，根据当前聊天对话中对话双方发送的信息类型，如txt、jpg、avi等确定当前信息中是否有图片/视频。

继续参考图5，步骤S501，提取对话方输入的图片/视频的特征，例如图片类型、图片中的文字、图片场景、图片内容、气氛、声音、气味和/或味道等。

步骤S502，获取用户输入并生成上屏文字。在一些实施例中，用户在用户界面的输入区通过键盘输入字符或者字符串。如本领域技术人员所了解的，本领域中已有的输入法中获取用户输入的字符或者字符串的方法都可以应用于此，以用于获得用户输入。当输入法系统中包括有词库模块时，用户输入的字符或者字符串被发送到词库模块以获得匹配的候选词。在一些实施例中，通过检索本地词库或者从云端服务器接收与用户输入的字符或字符串匹配的一个或多个候选词。如本领域技术人员所了解的，本领域中已有的输入法中用于匹配用户输入的字符或者字符串的方法都可以应用于此，以用于获得与用户输入匹配的一个或多个候选词。基于用户输入的字符或字符串生成上屏文字。将用户输入的字符组合生成上屏文字，或者，将用户多次选择的候选词组成生成上屏文字。在一些实施例中，用户也可以以语音等其他方式输入。在这些方式中，用户输入的语音或其他内容也被转化成上屏文字。因此，这样的输入方式也在本发明的范围之中。如本领域技术人员所了解的，本领域中已有的输入法中用于获得上屏文字的方法都可以应用于此，以获得用户希望上屏的文字。

步骤S503，基于用户输入查询本地和/或云端服务器的图库，以提供一个或多个候选图片/视频。在获得候选图片/视频的同时，获得其对应的缩略图。例如，当图库中包括有缩略图库时，同时提供查询到的图片/视频的缩略图，在生成图文合成图片/视频时，可以以缩略图合成，在用户界面中可以显示更多的候选图片/视频。其中，所述用户输入为上屏文字，为了提高查询、搜索的效率及上屏文字与图片的匹配率，提取上屏文字的一个或多个特征参数，例如上屏文字的关键字、属性、用户历史及爱好等。然后基于所述特征参数利用索引库中的索引搜索图库。

步骤S504，对获取到的一个或多个候选图片/视频进行排序。例如，根据用户界面能展示的图片数量，对至少等行所述数量的候选图片按照图片与上屏文字的匹配度进行排序。

步骤S505，利用从对话方输入的图片/视频提取出的特征调整所述排序。例如，将符合某个单一特征或某些某特的组合的图片排到前第N位。

步骤S506，基于所述候选图片/视频和上屏文字生成包含上屏文字的图文合成图片/视频。在一个实施例中，将合成图片/视频显示在候选图片区204，用户能够在输出、选择前预览所有的图文合成图片/视频，达到所见即所得的效果。在另一个实施例中，将排好序的候选图片显示给用户以供用户选择，即此时候选图片区204中显示的是添加上屏文字前的排好序的候选图片。响应于用户选择，将上屏文字添加到用户所选候选图片的文字区域。在一个实施例中，基于候选图片/视频缩略图和上屏文字生成图文合成图片/视频缩略图，或者在生成图文合成图片/视频后，再生成其对应的缩略图，从而可以在候选图片区显示更多的图片/视频。

步骤S507，响应于用户操作，输出图文合成图片/视频。在一个实施例中，输入界面中候选图片区204中的候选合成图在上屏之前，可以由用户进行修改，例如，允许用户调整文字区域的位置和/或大小以及上屏词的字号、字体、版式、颜色等。响应于用户的确认操作，完成上屏的候选词与选择的候选图片之间的图文合成。在这些实施例中，输入法的表达更加丰富，娱乐性也更强。

本输入法提供的图文合成图片既包括了用户希望的上屏文字，又包括了丰富多彩的图片内容，并且所述图片内容可以与聊天对话方输入图片/视频相匹配，在丰富了输入法的输出形式的同时，增加了输入的娱乐性。

本发明的输入法在用户输入过程中监视聊天对话中对话方的输入内容，并根据对话输入的图片/视频，提供相匹配的图片/视频，从而使用用户的聊天充满趣味性。

上述实施例仅供说明本发明之用，而并非是对本发明的限制，有关技术领域的普通技术人员，在不脱离本发明范围的情况下，还可以做出各种变化和变型，因此，所有等同的技术方案也应属于本发明公开的范畴。

Claims

1.一种输入法系统，其中，包括：

聊天图片识别模块，其经配置以识别聊天对话中对话方输入的图片/视频；

图库模块，其经配置以至少部分基于用户输入和聊天对话中对话方输入的图片/视频提供一个或多个候选图片/视频；

图文合成模块，其经配置以基于所述一个或多个候选图片/视频和基于用户输入的上屏文字生成一个或多个包含上屏文字的图文合成图片/视频；以及

输出模块，其经配置以响应于用户操作，输出用户选择的图文合成图片/视频。

2.根据权利要求1所述的输入法系统，其中，所述聊天图片识别模块包括：

图片/视频识别单元，其经配置以从当前聊天对话中识别出对话方输入的图片/视频。

3.根据权利要求2所述的输入法系统，其中，进一步包括通信模块，其经配置以将从当前聊天对话中识别出对话方输入的图片/视频发送到图库模块。

4.根据权利要求3所述的输入法系统，其中，图库模块进一步包括特征提取单元，经配置以从对聊天对话方输入的图片/视频中提取出一个或多个特征。

5.根据权利要求2所述的输入法系统，其中，所述聊天图片识别模块进一步包括特征提取单元，经配置以从对聊天对话方输入的图片/视频中提取出一个或多个特征；并将所述一个或多个特征发送给所述图库模块。

6.根据权利要求4或5所述的输入法系统，其中，从聊天对话方输入的图片/视频中提取出的特征包括以下特征中的一者或多者：

图片的类型；

图片中的文字；

图片中的台词或潜台词；

图片的场景；以及

图片的内容、气氛、声音、气味和/或味道。

7.根据权利要求4或5所述的输入法系统，其中，所述图库模块包括：

查询单元，其经配置以根据用户输入查询图库以获取一个或多个候选图片/视频；以及

排序单元，其经配置以至少部分基于从对聊天话方输入的图片/视频中提取出一个或多个特征调整来自查询单元的一个或多个候选图片/视频的排序。

8.根据权利要求2所述的输入法系统，其中，所述聊天图片识别模块还包括场景识别单元，其经配置以识别当前使用场景是否为聊天场景。

9.根据权利要求7所述的输入法系统，其中，所述图库位于客户端本地和/或服务端。

10.根据权利要求7所述的输入法系统，其中，所述图库提供候选图片/视频的缩略图。

11.根据权利要求10所述的输入法系统，其中，进一步包括输入界面，所述输入界面包括候选图片区，经配置用以显示候选图片/视频或其缩略图，或显示图文合成图片/视频或其缩略图。

12.一种输入法，其中，包括：

识别聊天对话中对话方输入的图片/视频；

至少部分基于用户输入和聊天对话中对话方输入的图片/视频提供一个或多个候选图片/视频；

基于所述一个或多个候选图片/视频和基于用户输入的上屏文字生成一个或多个包含上屏文字的图文合成图片/视频；以及

响应于用户操作，输出用户选择的图文合成图片/视频。

13.根据权利要求12所述的输入法，其中，进一步包括：根据当前聊天对话中的信息类型识别出对话方输入的图片/视频。

14.根据权利要求12所述的输入法，其中，进一步包括：从对话方输入的图片/视频中提取出一个或多个特征。

15.根据权利要求14所述的输入法，其中，所述的特征包括以下特征中的一者或多者：

图片的类型；

图片中的文字和/或文字属性；

图片中的台词或潜台词；

图片的场景；以及

图片的内容、气氛、声音、气味和/或味道。

16.根据权利要求14所述的输入法，其中，进一步包括：

根据用户输入查询图库以获取一个或多个候选图片/视频；以及

至少部分基于从对聊天话方输入的图片/视频中提取出一个或多个特征调整所述一个或多个候选图片/视频的排序。

17.根据权利要求16所述的输入法，其中，图库来自于客户端本地和/或服务端。

18.根据权利要求12所述的输入法，其中，进一步包括：

识别当前使用场景是否为聊天场景；以及

响应于聊天场景，从当前聊天对话中识别出对话方输入的图片/视频。

19.根据权利要求18所述的输入法，其中，进一步包括：响应于聊天场景，在输入界面中增加候选图片区，用于展示图文合成候选图片/视频或其缩略图，或者展示候选图片/视频或其缩略图。