CN104076944B - 一种聊天表情输入的方法和装置 - Google Patents

一种聊天表情输入的方法和装置 Download PDF

Info

Publication number
CN104076944B
CN104076944B CN201410251401.4A CN201410251401A CN104076944B CN 104076944 B CN104076944 B CN 104076944B CN 201410251401 A CN201410251401 A CN 201410251401A CN 104076944 B CN104076944 B CN 104076944B
Authority
CN
China
Prior art keywords
expression
theme
resource data
input
character string
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410251401.4A
Other languages
English (en)
Other versions
CN104076944A (zh
Inventor
顾思宇
刘华生
张阔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sogou Technology Development Co Ltd
Original Assignee
Beijing Sogou Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sogou Technology Development Co Ltd filed Critical Beijing Sogou Technology Development Co Ltd
Priority to CN201410251401.4A priority Critical patent/CN104076944B/zh
Publication of CN104076944A publication Critical patent/CN104076944A/zh
Application granted granted Critical
Publication of CN104076944B publication Critical patent/CN104076944B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)

Abstract

本发明公开了一种聊天表情输入的方法和装置,涉及输入法技术领域。所述方法包括:预设字符序列和/或字词序列与各表情之间的对应关系;所述对应关系通过收集语聊资源数据和各主题的表情资源数据,利用所述语聊资源数据对所述表情资源数据按表情类别进行构建;接收用户输入的输入序列;根据所述对应关系针对所述输入序列进行分析,将所述输入序列与所述字符序列和/或字词序列进行匹配,以获得所述字符序列和/或字词序列对应的各主题的表情;将各主题的表情进行排序,并作为候选项在客户端进行展示。本发明可以便捷的在用户输入过程中为用户提供各种主题的表情,提高用户的表情输入效率。

Description

一种聊天表情输入的方法和装置
技术领域
本发明涉及输入法技术领域,具体涉及一种聊天表情输入的方法和装置。
背景技术
输入法是为将各种符号输入计算机或其他设备(如手机)而采用的编码方法。常见的输入法包括搜狗输入法,微软输入法等等。
传统的表情输入大致有几种情况:其一是平台本身具有表情输入模块,比如qq等聊天工具嵌入的表情输入模块,其自带默认的输入表情,也可以安装第三方表情包,用户也可以自定义图片资源作为表情,当用户输入表情时,点击表情的输入按钮,选择表情进行输入,但是该种情况与输入法完全脱离,用户在输入过程中需要单独点击表情输入按钮,逐页翻找并点击自己需要和喜欢的表情来完成输入过程;
其二,是输入法自带简单的符号表情,当用户输入到相应字符时,比如(“哈哈”对应的符号表情“O(∩_∩)O~”),符号表情以候选项的形式供用户选择。单这种方法的候选表情简单,无法给用户提供丰富多彩的表情输入。
其三,是输入法提供加载的第三方表情包,提供用户表情输入的入口,当用户有需求输入表情时,需要点击进入该应用程序表情输入的入口,然后在大量的表情资源中,逐页翻找并点击自己需要或喜欢的表情完成输入过程。
以按钮接口的形式嵌入在应用程序中,提供给用户进行表情输入,这种方法存在多种问题:
1.用户的聊天行为属于即时通信,时效性极强。因此,表情输入的时效性非常重要。如果用户喜欢并安装的各种主题表情库有多个(包括阿狸、嘻哈猴、轻松熊、冷兔等等),每个表情库又包含上百种表情符号或图片(如微笑、哈哈大笑、猥琐的笑、抹眼泪、嚎啕大哭等等)。那么,有限的时间内,在众多表情库中逐一翻找到合适的表情所花费的时间成本,会成为用户有效使用各种表情增强沟通效果的瓶颈。
2.因为考虑到用户使用表情的操作成本,表情包制作方也会酌情精简表情内容,这也从某种程度上制约了聊天表情的发展和广泛使用。
3.大多数聊天工具只会提供默认表情。默认表情相对比较单调,更多丰富的多元化的主题聊天表情资源可以有效提高与朋友聊天的好感度,但是为了使用这些表情,用户需要经过很多网上操作步骤,从各种渠道获取表情包信息并将表情包下载到本地,有时还需要进行手工加载才可以正常使用表情包。对于操作生疏或者没有足够耐心的用户,在网络资源中成功获取并安装合适的表情包所花费的时间成本,可能会导致他们选择放弃。
4.对于下载好的表情包,如果用户切换聊天平台等输入场景,表情包需要重新下载或更新,用户的常用表情收藏信息也同样面临移植的问题。
输入的候选表情内容仅限于第三方制作好的表情包。若非特意整理,很多明星人物、政治人物的夸张表情照片、GIF等多媒体资源并不能够及时的作为候选表情,降低了用户的输入效率。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的一种聊天表情输入装置和相应的一种聊天表情输入方法。
依据本发明的一个方面,提供了一种聊天表情输入的方法,包括:
预设字符序列和/或字词序列与各表情之间的对应关系;
接收用户输入的输入序列;
根据所述对应关系针对所述输入序列进行分析,将所述输入序列与所述字符序列和/或字词序列进行匹配,以获得所述字符序列和/或字词序列对应的各主题的表情;
将各主题的表情进行排序,并作为候选项在客户端进行展示。
根据本发明的另一方面,提供了一种聊天表情输入的装置,包括:
表情关系预置模块,适于预设字符序列和/或字词序列与各表情之间的对应关系;
接收模块,适于接收用户输入的输入序列;
表情候选项分析模块,适于根据所述对应关系针对所述输入序列进行分析,将所述输入序列与所述字符序列和/或字词序列进行匹配,以获得所述字符序列和/或字词序列对应的各主题的表情;
展示模块,适于将各主题的表情进行排序,并作为候选项在客户端进行展示。
相对现有技术,本发明具有如下优点:
本发明将各种来源的表情资源数据,利用语聊资源数据,比如聊天日志(如匿名获取qq、微信等聊天工具有表情输入的聊天日志)、社区评论(如京东、大众点评等有表情输入的评论内容)、社交内容(如qq空间、新浪微博、人人网等有表情输入的状态或评论内容),对所有获取的表情资源数据进行分析,按表情类别构建字符序列和/或字词序列与各主题的表情之间的对应关系;然后即可针对用户的某一输入,将对应的各主题的表情作为候选项排序展示给用户。
上述过程中,其一,将表情作为输入法的词库,可直接对用户的输入,根据字符序列和/或字词序列与各主题的表情之间的对应关系检索到各主题的表情作为候选项在输入法中进行展示,直接提供给用户选择;其二,上述过程是通过精确匹配用户表情输入需求,提高表情的输入效率,降低用户在表情输入过程中翻找待输入的表情所花费的时间成本;其三,该种方式不用考虑表情包的制作成本和内容,可以任意发挥制作方的创造力,降低对聊天表情的发展和广泛使用的制约;其四,由于本发明将各主题的表情进行集中分类处理,用户不用到处下载各主题的表情包,降低用户寻找表情包的时间成本;其五,由于本发明的表情是输入法的候选项,用户在切换聊天平台等输入场景时,不需要重新下载或更新表情包,也避免用户的常用表情收藏信息的移植问题;其六,本发明各主题的表情范围广,覆盖面积大,可以给用户提供更多、更丰富的表情。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了根据本发明一个实施例的一种聊天表情输入的方法的流程示意图;
图2示出了根据本发明一个实施例的一种聊天表情输入的方法的流程示意图;
图3示出了根据本发明一个实施例的在云端构建字符序列和/或字词序列与各表情之间的对应关系的逻辑示意图;
图3A示出了根据本发明一个实施例的表情资源示例;
图4示出了根据本发明一个实施例的字符序列和/或字词序列与各表情之间的对应关系的更新示例;
图5示出了根据本发明一个实施例的一种聊天表情输入的方法的流程示意图;
图6示出了根据本发明一个实施例的一种聊天表情输入的方法的流程示意图;
图6A示出了根据本发明一个实施例的表情输入示例;
图7示出了根据本发明一个实施例的一种聊天表情输入的装置的结构示意图;
图8示出了根据本发明一个实施例的一种聊天表情输入的系统的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。
本发明的核心思想之一是:本发明将收集的各种来源的表情资源数据,比如互联网中各主题的表情包资源(如qq的阿狸、嘻哈猴、郭德纲真人夸张表情照片集等的表情包)、第三方合作的表情包资源(输入法直接与卡通表情生产方进行合作并搭建获取流程)、用户产生的自定义的表情内容(输入法直接开放接口是用户可以添加自定义表情并共享)等表情资源数据,利用语聊资源数据,比如聊天日志(如匿名获取qq、微信等聊天工具有表情输入的聊天日志)、社区评论(如京东、大众点评等有表情输入的评论内容)、社交内容(如qq空间、新浪微博、人人网等有表情输入的状态或评论内容),对所有获取的表情资源数据进行分析,按表情类别构建字符序列和/或字词序列与各主题的表情之间的对应关系;然后即可针对用户的某一输入,将对应的各主题的表情作为候选项排序展示给用户。给用户提供更方便、更快捷、更丰富的表情输入。
实施例一
参照图1,其示出了本发明的一种聊天表情输入的方法的流程示意图,具体可以包括:
步骤110,预设字符序列和/或字词序列与各表情之间的对应关系;
在本发明实施例中,可在线或线下构建字符序列和/或字词序列与各主题的表情之间的对应关系。在本发明实施例中优选的,在云端服务器构建字符序列和/或字词序列与各主题的表情之间的对应关系。
优选的,步骤110包括:
步骤S100,通过收集语聊资源数据和各主题的表情资源数据,利用所述语聊资源数据对所述表情资源数据按表情类别构建字符序列和/或字词序列与各表情之间的对应关系。
在本发明中各种来源的表情资源数据包括各种来源下的各种主题的表情资源数据。比如阿狸、嘻哈猴、郭德纲等真人夸张表情照片集等主题表情包。
在本发明实施例中,可以从不同的数据途径获取表情资源,比如网络中的各种主题的表情资源(包括自定义主题的表情资源等)。然后利用语聊资源,也即利用海量用户在实际的评论、聊天过程中输入文本内容时与其输入的表情的对应关系,通过对用户输入的文本内容和与文本内容对应的表情,对表情资源中的各主题的表情进行分类,从而得到关键词与表情资源中的各主题的表情的对应关系,从而即可构建字符序列和/或字词序列与各主题的表情之间的对应关系。
优选的,所述对应关系通过收集语聊资源数据和各主题的表情资源数据,利用所述语聊资源数据对所述表情资源数据按表情类别进行构建包括:
子步骤111,获取语聊资源数据和各主题的表情资源数据;所述语聊资源数据包括第二表情及其对应的文本内容;
本发明实施例可以从多个方面获取语聊资源数据,语聊资源数据是用户在聊天、评论等过程中产生的数据,其可能在输入文字时输入与文字相关的表情,比如:聊天日志(如获取qq、微信等聊天工具有表情输入的聊天日志,当然在获取时可将用户名等私人信息进行匿名加密处理),社区评论(如京东、大众点评等有表情输入的评论内容),社交内容(如qq空间、新浪微博、人人网等有表情输入的状态或评论内容)。那么本发明实施例则可通过获取各种来源的语聊资源数据,以收集里面的文本内容和与该文本内容相关的第二表情,以备后续分析。
本发明也可从多个方面获取表情资源数据,比如:从互联网中获取各主题的表情包资源(如qq的阿狸、嘻哈猴、郭德纲真人夸张表情照片集等主题表情包,用户通过自定义表情接口添加的自定义表情包,该自定义表情包可以理解为自定义主题表情包),与第三方合作,直接获取第三方合作的主题表情包资源(输入法直接与卡通表情生产方进行合作并搭建获取流程)等。
优选的,获得所述源表情资源数据之后还包括:将所述源表情资源数据中的表情转换为统一系统平台下的标准格式的表情。
由于获取的原始聊天表情资源与各个输入环境之间存在兼容性的问题,因此,需要对各种渠道来源的表情制定标准,通过转换和转码,实现规格和编码在同一系统平台的统一(即移动软件平台、PC软件平台均设立不同的标准)。
子步骤112,结合所述语聊资源数据包括的对应第二表情的文本内容,对所述各主题的表情资源数据中的每个第一表情分别进行分类,构建字符序列和/或字词序列与每个主题的各种表情之间的对应关系。
在本发明实施例中,上述第一表情是从各种来源获取的各种主题表情资源中的表情;第二表情是从各种来源获取的语聊资源中的表情。在本发明中,以各主题表包中的表情为例,对各主题表情中的每个第一表情进行分类,将属于同一类别的不同主题的表情放入一个表情类别中,比如微笑。
另外,在本发明中,会预先设置表情类别,比如微笑,大笑,冷笑等表情类别,每个表情类别下会预先设置第二分类对应的关键词。分类时,以表情资源数据库中的第二表情为分类的目标,结合语聊资源数据中对应第二表情的文本内容,和预先标注好的表情类别,对表情资源数据库中的第一表情进行分类。
优选的,结合所述语聊资源数据包括的对应第二表情的文本内容,对所述表情资源数据中的每个第一表情分别进行分类,包括:
子步骤1121,根据所述语聊资源数据包括的第二表情及其文本内容,分别挖掘所述表情资源数据中各个第一表情各自对应的各第一关键词;
在本发明实施例中,语聊资源数据中的第二表情基本上包含于表情资源数据中的第二表情中,那么对于两者,可通过表情匹配获取第一表情的文本内容,从而可从所述文本内容中挖掘第一表情的第一关键词。所述第一关键词为所述表情资源数据中第一表情对应预置的标签文字。
优选的,本子步骤1121包括:
子步骤S11,使用符号匹配规则和图片内容判断规则从所述语聊资源数据中提取所述第二表情和所述第二表情对应的文本内容;
对于收集到的各种来源的语聊资源数据,其中可能存在大量没有与表情相关的文本内容,那么本发明可通过符号匹配规则和图片内容判断规则从所述语聊资源数据中提取第二表情和对应的文本内容。比如对于符号表情“:)”,则可通过符号匹配规则获取其前或者其后出现的文本内容(比如聊天内容,或者评论内容等);对于图片,则可通过图片内容判断规则去判断图片是否为表情图片,如果是,则提取该图片之前和/或者之后的文本内容。其中,图片内容判断规则采用通用的图片内容判断方法即可,本发明不对其加以限制,比如通过预先对各种类别的表情图片,收集大量样本进行像素矩阵训练(训练方法可以采用任意一种,本发明不对其加以限制),获得表情图片识别模型,那么对于语聊资源数据中的图片表情,则可获取其像素矩阵,然后输入表情图片识别模型进行识别。
子步骤S12,在所述各主题的表情资源数据中,分别将所述第一表情与提取的第二表情进行匹配,匹配成功则分别将第一表情与第二表情的文本内容进行关联,并从所述文本内容中挖掘各第一关键词与第一表情进行对应;
具体的,本步骤将所述源表情资源数据中的第一表情与从所述语聊资源数据中提取的第二表情进行匹配。即在本发明实施例中,在提取了第二表情及其对应的文本内容后,那么即可将第二表情和各主题的表情资源数据中的第一表情进行匹配,该匹配可以是一一匹配,也可以是模糊匹配(即对相似度高于阈值的图片也进行匹配)。
然后,对于匹配上的第一表情,则将其与第二表情对应的文本内容进行关联,并从所述文本内容中挖掘各第一关键词。
子步骤1122,根据所述第一关键词和预置的对应每个表情类别的各第二关键词,对所述各第一表情分别进行分类。
在本发明实施例中,会预置各种表情类别,可通过结合人工标注和/或模糊匹配的方法,确定所有的标志性的明确细分的表情类别(包括微笑、哈哈大笑、猥琐的笑等等),在每个表情类别下会设置与该类别强相关的各第二关键词。
然后即可针对第一表情的各关键词和预置的每个表情类别下的各第二关键词,对各个第一表情进行分类。
优选的,所述子步骤1122,包括:
子步骤S21,针对匹配上的各第一表情,基于每个表情类别下的各第二关键词,以该第一表情下的各第一关键词进行情感分类预测,确定所述第一表情的表情类别;
在本发明实施例中,使用通用的情感分析分类的方法,基于第一表情下面的第一关键词进行预测,以对第一表情进行分类,从而确定每个表情的所属类别。情感分析分类方法原理大致为:利用每个类别的标注样本训练分类器,比如利用朴素贝叶斯方法(NaiveBayes,NB)构建分类器,然后针对每个分类对象的分类特征(在本发明实施例中,第一表情为分类对象,相应第一关键词即为分类特征)利用所述分类器进行识别。在本发明实施例中,对各个类别表情类别分别对应一个情感分值,比如大笑为+5,微笑+4,猥琐的笑+3等,分别与分类器的分类结果对应。
子步骤S22,针对未匹配上的各第一表情,基于每个表情类别下的各第二关键词,将所述第一表情标注为具体的表情类别。
而对于表情资源数据中的未匹配上的各第一表情,即没有文本内容以挖掘第一关键词的第一表情,本发明可以通过标注指派到具体的表情分类。
再分类完毕后,根据各表情所属类别的关键词以及挖掘的关键词与表情的对应关系,即可构建字符序列和/或字词序列与各表情类别之间的对应关系。
优选的,所述构建字符序列和/或字词序列与每个主题的各种表情类别之间的对应关系包括:
子步骤S31,针对各第一表情,将其对应的第一关键词和第二关键词合并为该第一表情的标签词汇;
优选的,在合并之前,还包括:根据语聊资源数据中对各第一关键词的使用频率,对各第一关键词进行筛选,将筛选后的第一关键词和第二关键词合并为该第一表情的标签词汇。
即将使用频率大于阈值的第一关键词保留,然后和第二关键词合并为该第一表情的标签词汇。当然,对于不存在第一关键词的第一表情,直接采用第二关键词作为该第一表情的标签词汇。
优选的,在合并之前,可对类别关键词进行优化,即将某一类别下的所有的表情的第一关键词和初始确定的第二关键词进行汇总,将在语聊资源数据中词频大于阈值的各关键词作为最终的第二关键词。
本步骤可优化类别的关键词,使其更精准。
子步骤S32,根据所述第一表情与对应的各标签词汇、所述第一表情所属的表情类别之间的对应关系,基于所述各标签词汇构建字符序列和/或字词序列与每个主题的各表情之间的对应关系;具体包括:
子步骤S321,将各表情标签词汇进行汇总,构建索引;所述索引为各标签词汇到表情的对应关系。
其中,优选的,所述各标签词汇到表情的对应关系包括:
子步骤S322,针对每个标签词汇对应的各个表情,按照对应的表情类别在语料资源数据中的使用次数进行倒排。
即本发明实施例中,对每个表情的描述文字的各第一关键词(如果如前所述,第一关键词存在并可以从语聊资源数据获取)和表情所在表情类别的各第二关键词(如果该表情挖掘不到语聊资源数据,则对其标注类别得到)建立索引,生成标签到表情的倒排信息表。倒排信息表中关键词的顺序是对应的第一表情在所有语聊资源数据中的使用次数。
优选的,所述根据所述第一表情与对应的各标签词汇、所述第一表情所属的表情类别之间的对应关系,基于所述各标签词汇构建字符序列和/或字词序列与每个主题的各表情之间的对应关系包括:
子步骤S323,将每个第一表情的各标签词汇构建为该第一表情的文本特征向量;
子步骤S324,利用所述文本特征向量对每个主题的第一表情进行聚类,获得包含各主题的相关表情的簇并记录簇关系,将所述簇关系作为字符序列和/或字词序列与每个主题的各表情标签之间的对应关系。
即使用第一表情的标签词汇作为文本特征向量,使用余弦相似度作为度量方法,计算两个第一表情之间的相似度,以第一表情之间的相似度作为Canopy聚类方法的距离参数,再使用Canopy的聚类方法对表情集合进行聚类,生成包含相关表情的簇(如,包含阿狸、嘻哈猴、郭德纲三种哈哈大笑的表情均对应标签“大笑”),记录上述簇关系。在本发明中,簇关系一般以字符表情构建作为字符序列和/或字词序列,字符表情又与簇中的其他表情关联,因此即可得到字符序列和/或字词序列与每个主题的各表情标签之间的对应关系。
可以理解,其簇关系中包含各主题的相关表情。
其中,Canopy算法流程大致如下:
(1)、将数据集向量化得到一个list后放入内存,选择两个距离阈值:T1和T2,其中T1>T2,实线圈为T1,虚线圈为T2,T1和T2的值可以用交叉校验来确定;
(2)、从list中任取一点P,用低计算成本方法快速计算点P与所有Canopy之间的距离(如果当前不存在Canopy,则把点P作为一个Canopy),如果点P与某个Canopy距离在T1以内,则将点P加入到这个Canopy;其中,在本发明中点P即代表每个表情,点P与所有Canopy之间的距离为使用Jaccard或余弦相似度作为度量方法,计算的两个第一表情之间的相似度。
(3)、如果点P曾经与某个Canopy的距离在T2以内,则需要把点P从list中删除,这一步是认为点P此时与这个Canopy已经够近了,因此它不可以再做其它Canopy的中心了;
(4)、重复步骤2、3,直到list为空结束。
另外,为了及时更新前述字符序列和/或字词序列与各表情类别之间的对应关系,还包括:
步骤113,定期将新获取的各种来源的表情资源数据和语聊资源数据分别进行合并,再利用所述合并后的语聊资源数据对合并后的表情资源数据按表情类别构建字符序列和/或字词序列与每个主题的各表情之间的对应关系。
即定期将新获取的聊天表情内容和原始表情数据库合并;定期将新获取的用户语聊日志内容与原有原始日志进行合并。然后再执行前述字符序列和/或字词序列与每个主题的各表情之间的对应关系的构建步骤。
如上,在构建了字符序列和/或字词序列与各表情类别之间的对应关系之后,输入法即可实现丰富、便捷、快速的表情输入:
在其他实施例中,所述对应关系可通过所述字符序列和/或字词序列的近义词和所述近义词分别在各主题中的对应表情的进行构建。通过预置的词典查找所述字符序列和/或字词序列的近义词,将各近义词分别在各主题的表情包中进行检索,获取各近义词分别对应的表情,从而得到所述字符序列和/或字词序列与各表情类别之间的对应关系。
对于一个字符序列或者字词序列,其存在一个近义词的字符序列或者字词序列,本发明可通过预置的词典查找这些字符序列和/或字词序列的近义词,然后去个主题的表情资源中提取相应的表情,然后将这些表情与字符序列或者字词序列进行对应,即可得到字符序列和/或字词序列与各表情之间的对应关系。
步骤120,接收用户输入的输入序列;
在本发明具体实现中,所述用户输入可以为用户通过键盘输入的编码字符串。
优选的,在本发明实施例中,在输入法启动之后,接收用户识别之前,还需判断客户端对应的当前的输入环境是否需要表情输入;当客户端当前的环境是需要表情输入端环境,则执行步骤130;当客户端当前的环境是需要表情输入端环境,则执行传统的输入法流程;
即输入法识别用户正在输入的环境。如果是聊天环境、网页输入等较大可能有表情输入需求的环境,则执行步骤130。
步骤130,根据所述对应关系针对所述输入序列进行分析,将所述输入序列与所述字符序列和/或字词序列进行匹配,以获得所述字符序列和/或字词序列对应的各主题的表情;
在本发明具体实现中,根据所述对应关系针对所述用户输入进行分析,也即为根据所述对应关系针对所述编码字符串进行分析。在本发明实施例中,由于对各种主题的表情资源均进行了分类,从而对不同主题的表情资源的同一类别的表情,其可对应于同一字符序列和/或字词序列,那么本发明实施例中,用户输入字符序列进行匹配后,如果匹配成功,则可获得不同主题的表情的候选项。
在本发明具体实现中,对于用户输入的编码字符串存在两种分析过程:
其一,对于可转换为文字的编码字符串,则利用字词库将编码字符串转换为字词,获得字词候选项,然后针对首个字词候选项或者前几个候选项、或者所有候选项,从所述候选项中提取标签词,然后以标签词去前述索引中进行检索,获得与该标签词相关的所有表情。
其二,对于与字符表情一致的编码字符串,比如:),直接以前述簇关系,获得与该字符表情相关的第一表情。
步骤140,将各主题的表情进行排序,并作为候选项在客户端进行展示。
由于本发明对应字符序列或字词序列可能存在多个主题的表情,因此本发明可对各主题的表情进行排序,排序后将各表情作为候选项在输入法界面中展示。
优选的,述将各候选项进行排序包括:针对每个表情类别的各第一表情,根据所述第一表情在语聊资源数据中的出现次数和/或用户的个性化信息对相应候选项进行排序。
在本发明实施例中,可能针对同一个字词、字符表情对应的第一表情的表情候选项有多个,那么本发明可利用各第一表情在语聊资源数据中的使用次数,(通过与第一表情对应的第二表情进行统计)对表情候选项进行排序;或者利用用户的个性化信息(包括性别、爱好等)对表情候选项进行排序,即在本发明中对于第一表情本身可预先设置其排序类别,这些排序类别与用户的偏好进行对应,比如以性别再分类(年轻男士经常使用的,年轻女性经常使用的,中年男性经常使用的,中年女性经常使用的等等排序类别),那么在排序时,获取用户的个性化信息,并与排序类别进行比较分析,将与个性化信息相似度更高的排序类别排前。
然后,将排好序的表情集合展示在输入法表情周围合适的位置,供用户选择或翻页查看更多。
本发明实施例以海量用户产生的语聊资源为分析的数据源头,对各种表情资源数据(包括各种主题的表情资源数据)进行分类,构建字符序列和/或字词序列与每个主题的各表情之间的对应关系,用户在后续使用输入法的过程中,可以获得不同主题的、不同风格的相应表情作为候选项,本发明表情的范围广,覆盖面积大,可以给用户提供更多、更丰富的表情。另外,将表情作为输入法的词库,可直接对用户的输入,根据字符序列和/或字词序列与各表情之间的对应关系检索到表情作为候选项在输入法中进行展示,直接提供给用户选择。上述过程是通过精确匹配用户表情输入需求,提高表情的使用效率,降低用户在表情输入过程中翻找表情所花费的时间成本。该种方式不用考虑表情包的制作成本和内容,可以任意发挥制作方的创造力,降低对聊天表情的发展和广泛使用的制约。由于本发明将各种表情进行集中分类处理,用户不用到处下载各种安装包,降低用户寻找安装包的时间成本。由于本发明的表情是输入法的候选项,用户在切换聊天平台等输入场景时,不需要重新下载或更新表情包,也避免用户的常用表情收藏信息的移植问题。
实施例二
参照图2,其示出了本发明优选的构建字符序列和/或字词序列与各表情之间的对应关系的流程示意图,具体可以包括:
步骤210,获取语聊资源数据和各主题的表情资源数据;所述语聊资源数据包括第二表情及其对应的文本内容;
在本发明实施例中,步骤210-221是字符序列和/或字词序列与各主题的表情之间的对应关系的构建步骤,可在云端服务器执行。为了更方便的说明该过程,在本发明实施例具体的上述对应关系可结合图3进行说明。
如图,步骤301获取表情资源,可从三个方面获取,包括从互联网中获取各主题的表情资源302(如qq的阿狸、嘻哈猴、郭德纲真人夸张表情照片集等主题的表情包)、第三方合作资源303(输入法直接与卡通表情生产方进行合作并搭建获取流程,即直接与第三方合作的各主题表情资源数据)、用户产生表情304(应用程序提供给用户的自定义表情接口里的表情,即自定义主题的表情资源数据)。
步骤305获取语聊资源,可从三个方面获取,包括聊天日志306(如匿名获取qq、微信等聊天工具有表情输入的聊天日志)、社区评论307(如京东、大众点评等有表情输入的评论内容)、社交内容308(如qq空间、新浪微博、人人网等有表情输入的状态或评论内容)。
步骤211,将所述各主题的表情资源数据中的表情转换为统一系统平台下的标准格式的表情;
如图3中步骤309将表情资源统一格式转码,存入原始表情数据库310。
由于获取的原始聊天表情资源(比如各第三方的主题表情包)与各个输入环境之间存在兼容性的问题,因此,需要对各种渠道来源的表情制定标准,通过转换和转码,实现规格和编码在同一系统平台的统一(即移动软件平台、PC软件平台均设立不同的标准)。可将整理完毕的各个主题的表情包与当前用户的输入法账户进行关联。
步骤212,使用符号匹配规则和图片内容判断规则从所述语聊资源数据中提取所述第二表情和所述第二表情对应的文本内容;
如图3中步骤311第二表情和文本内容的解析和提取过程,即为本发明实施例的使用符号匹配规则和图片内容判断规则从所述语聊资源数据中提取第二表情和对应的文本内容的过程,提取第二表情和对应的文本内容存入原始语聊信息库312。
步骤213,将所述源表情资源数据中的第一表情与从所述语聊资源数据中提取的第二表情进行匹配;
如图3中,将原始表情数据库110中的第一表情和原始语聊数据库中的第二表情进行匹配,对于匹配上的第一表情,将第二表情的文本内容和第一表情进行关联,即图3中的步骤313,匹配获取表情和对应文本内容。
步骤214,对于匹配上的第一表情,则将其与第二表情的文本内容进行关联,并从所述文本内容中挖掘各第一关键词。
本步骤在图3中的步骤315对应的第一表情分析和标注步骤中进行,其对匹配上的第一表情,从其对应的文本内容中获取其第一关键词。本发明实施例中抽取对每个表情进行描述的文本内容中的形容词(美丽、漂亮等)和有一定情感意义的动词(比如喜欢、可恶等),然后即可获取对应第一表情的第一关键词。
当然本发明实施例中,对于上述第一关键词,可采用词频的统计方式,即统计各关键词在语聊资源中出现的次数,然后将次数大于阈值的关键词作为最终的第一关键词。其可以从原始的语聊信息库进行统计。
步骤215,针对匹配上的各第一表情,基于每个表情标签下的各第二关键词,以该第一表情下的各第一关键词进行情感分类预测,确定所述第一表情的表情类别;
本步骤在图3中的步骤315对应的第一表情分析步骤中进行,在本发明实施例中,可预先构建多个表情分类,包括微笑、哈哈大笑、猥琐的笑等等,每个表情分类下,可根据统计和经验,预先指定类别的关键词,即上述的第二关键词。
然后本发明即实施例即可用使用情感分析分类的方法,对每个表情下面的第一关键词进行分类,从而确定每个表情的所属类别。
步骤216,针对未匹配上的各第一表情,基于每个表情类别下的各第二关键词,将所述第一表情标注为具体的表情类别。
在图3中对于原始表情数据库310中未匹配上的第一表情,本发明可基于各表情类别下的第二关键词对其进行标注。当然本发明的标注可以采用自动标注,比如对于第三方表情包,以该表情包对各表情自身的标识信息与关键词的对应匹配关系进行自动标注。也可以结合人工对各表情进行标注。
当然,如前所述,本发明对第二关键词会进行优化,即将某一类别下的所有的表情的第一关键词和初始确定的第二关键词进行汇总,将在语聊资源数据中词频大于阈值的各关键词作为最终的第二关键词,其自动标注过程也可随之优化。本发明实施例中优化后的各表情类别及其第二关键词,可存入类别关键词库314。
步骤217,针对每个主题的第一表情,将其对应的第一关键词和第二关键词合并为所述第一表情的标签词汇;
然后,对于各第一表情、其所属表情类别及其第一关键词可存入图3中的表情标签关系库316。
步骤218,将各表情标签词汇进行汇总,构建索引;所述索引为各标签词汇到表情的对应关系。
然后在图3中的318建立表情索引中,基于类别关键词库314、表情标签关系库318构建索引。其原理大致为:对每个表情的描述文字的各第一关键词(如果如前所述,第一关键词存在并可以从语聊资源数据获取)和表情所在表情类别的各第二关键词(如果该表情挖掘不到语聊资源数据,则对其标注类别得到)建立索引,生成标签到表情的倒排信息表。倒排信息表中关键词的顺序是对应的第一表情在所有语聊资源数据中的使用次数。然后即可以该倒排信息表建立图3中的标签索引库317。
步骤219,将每个第一表情的各标签词汇构建该第一表情的文本特征向量;
步骤220,利用所述文本特征向量对每个主题的第一表情进行聚类,获得包含各主题的相关表情的簇并记录簇关系,将所述簇关系作为字符序列和/或字词序列与每个主题的各表情标签之间的对应关系。
即在图3中的步骤319表情聚类中,使用第一表情的标签词汇作为文本特征向量,使用余弦相似度作为度量方法,计算两个第一表情之间的相似度,以第一表情之间的相似度作为Canopy聚类方法的距离参数,再使用Canopy的聚类方法对表情集合进行聚类,生成包含相关表情的簇(如,包含阿狸、嘻哈猴、郭德纲三种哈哈大笑的表情均对应标签“大笑”),记录上述簇关系。然后即将聚类后形成的簇关系存入图3中的相关表情数据库。
如此,初始的字符序列和/或字词序列与各表情之间的对应关系即可建立。在本发明实施例中,包括了字词与表情的对应关系,其以标签索引库为基础。还包括了字符(比如字符表情)与表情的对应关系,其以相关表情数据库为基础。
下面以一个实际例子一说明上述过程:
1,从微博默认表情,我们知道“V5”这个符号是一种表情。于是,将这个表情加入原始表情数据库。
2,从新浪微博获取带有表情图片的微博。例如,网友称赞李娜获得澳网冠军的微博。参照图3A。
3,利用微博数据接口获得诸如此类的微博内容,利用原始表情数据库的内容记录,可以将微博识别成文字部分“李娜实在是太棒了!骄傲!”和表情“V5”以及李冰冰微博的文字部分“你是我们李家的骄傲……”和表情“V5”。于是,这两段文字都可以作为表情“V5”的描述文字。抽取其中的形容词,可以发现“骄傲”出现了2次,“太棒了”出现了1次,提取其中的高频词汇可知,“骄傲”是所有类似微博所表达的核心情感的文字,因此,可以建立文字“骄傲”和表情“V5”之间的关系,并存入表情标签关系库。同理,更多包含表情“V5”的微博内容集中在一起可以获得“V5”表情的描述关键词集合。
采用相同的方法,可以获知表情“大拇指”的描述关键词也包括“骄傲”“太棒了”。以描述关键词集合为索引域,对所有表情建立倒排索引。可以得到倒排信息表,以供检索系统使用。
那么构建的索引如:
骄傲——表情“大拇指”,表情“V5”……
太棒了——表情“大拇指”,表情“V5”……
4,使用表情关键词“骄傲”“太棒了”等关键词作为文本特征,使用Jaccard或余弦相似度作为度量方法,计算表情之间的相似度可知,表情“大拇指”、“V5”非常相似,再使用Canopy的聚类方法对表情集合进行聚类,生成包含相关表情的簇,则这两个表情被放入同一个簇,将簇关系存入相关表情数据库320。
步骤221,定期将新获取的各种来源的表情资源数据和语聊资源数据分别进行合并,转入步骤211。
在本发明实施例中,由于语聊资源数据是在变化的,为了保证本发明字符序列和/或字词序列与各表情之间的对应关系的及时与准确性,本发明会及时更新字符序列和/或字词序列与各表情之间的对应关系。其首先会更新各种来源的表情资源数据和语聊资源数据。结合图4,其为本发明实施例更新字符序列和/或字词序列与各表情之间的对应关系的大致流程。对于定时抽取的新的数据401,包括各种来源的各主题的表情资源数据和语聊资源数据,分别将新获取的聊天表情内容和原始表情数据库合并,即图4中的402;将新获取的用户语聊日志内容与原有原始日志进行合并,即图4中的403。然后即可转入图3中的过程,得到图4中的新标签索引库404和新相关表情数据库405。
本发明实施例,本发明将各种来源的表情资源数据,利用语聊资源数据,比如聊天日志(如匿名获取qq、微信等聊天工具有表情输入的聊天日志)、社区评论(如京东、大众点评等有表情输入的评论内容)、社交内容(如qq空间、新浪微博、人人网等有表情输入的状态或评论内容),对所有获取的表情资源数据进行分析,按表情类别构建字符序列和/或字词序列与各主题的表情之间的对应关系;然后即可针对用户的某一输入,将对应的各主题的表情作为候选项排序展示给用户。
上述过程中,其一,将表情作为输入法的词库,可直接对用户的输入,根据字符序列和/或字词序列与各主题的表情之间的对应关系检索到各主题的表情作为候选项在输入法中进行展示,直接提供给用户选择;其二,上述过程是通过精确匹配用户表情输入需求,提高表情的使用效率,降低用户在表情输入过程中翻找待输入的表情所花费的时间成本;其三,该种方式不用考虑表情包的制作成本和内容,可以任意发挥制作方的创造力,降低对聊天表情的发展和广泛使用的制约;其四,由于本发明将各主题的表情进行集中分类处理,用户不用到处下载各主题的表情包,降低用户寻找表情包的时间成本;其五,由于本发明的表情是输入法的候选项,用户在切换聊天平台等输入场景时,不需要重新下载或更新表情包,也避免用户的常用表情收藏信息的移植问题;其六,本发明各主题的表情范围广,覆盖面积大,可以给用户提供更多、更丰富的表情。
实施例三
参照图5,其示出了本发明基于实施例2的一种聊天表情输入的方法的流程示意图,具体可以包括:
步骤510,客户端启动输入法;
步骤520,客户端接收用户输入;
步骤530,客户端输入法识别输入环境,判断客户端对应的当前的输入环境是否需要表情输入;如果输入环境需要表情输入,则转入步骤550;如果输入环境不需要表情输入,则转入步骤540;
比如判断输入环境是即时聊天环境、微博环境、社区评论环境等则一般有表情输入需求,如果是word等办公输入环境则一般没有表情输入需求。
步骤540,客户端使用传统输入法输入方式;
当然,在本发明的核心思想之内,前述步骤520的顺序可以与步骤530-550任意调换,本发明不对其加以限制。,
步骤550,在云端服务器中,基于所述用户输入从标签索引库和/或相关表情数据库中检索各主题相关的所有表情。
如果对应用户输入的只有字词,则从标签索引库中检索相关的各主题的所有表情;如果对应用户输入的只有字符表情,则从相关表情数据中检索相关的各主题的所有表情;如果两者皆有,那么对字词和字符表情分别从相应数据库检索相关的各主题的所有表情。
当然,本发明实施例中,优选的是以输入法对用户输入进行识别后产生的第一候选项作为检索关键词。
步骤560,在云端服务器中,根据表情的使用次数和/或用户个性化信息对各主题的表情进行排序;
云端将排完序的各表情返回至客户端
步骤570,客户端将各排序后的各主题的表情作为候选项在进行展示。
用户输入“hanxiao”时,在云端服务器中,基于待输入的候选项“憨笑”从标签库和/或相关表情数据库中检索阿狸、嘻哈猴、郭德纲等各主题的表情包的表情,对“憨笑”和其近义词“傻笑”进行匹配,得到主题为阿狸、嘻哈猴的表情包中对应标签为“憨笑”的表情和主题为郭德纲的表情包中标签为“傻笑”的表情,将三个表情排序后均下发至客户端的候选项中,供用户直接进行选择。
实施例四
参照图6,其示出了本发明基于实施例2的优选的一种聊天表情输入的方法的流程示意图,具体可以包括:
步骤610,客户端启动输入法;
步骤620,客户端接收用户输入;
步骤630,客户端根据用户输入识别字词和/或字符表情;
步骤631,判断用户输入是否可以转换为字词,或者是否为字符表情;如果都不是,则转入步骤650;如果是字词,则转入步骤640;如果是字符表情,则转入步骤670。
步骤640,判断客户端对应的当前的输入环境是否需要表情输入;如果输入环境需要表情输入,则转入步骤660;如果输入环境不需要表情输入,则转入步骤650;
步骤650,客户端使用传统输入法输入方式;
本发明实施例中,客户端可将基于用户输入识别的字词和/或字符表情上传至云端服务器。
步骤660,在云端服务器中,以所述字词从标签索引库中检索相关的各主题的所有表情;
步骤670,在云端服务器中,以所述字符表情在相关表情数据库中检索相关的各主题的所有表情;
步骤680,在云端服务器中,根据表情的使用次数和/或用户个性化信息对各主题的表情进行排序;
云端将排完序的各主题的表情返回至客户端。
步骤690,客户端将各排序后的各主题的表情作为候选项在进行展示。
在本实施例中,用对于表情输入环境存在启动判断过程,用户如果输入字符表情时,一般来说其输入环境是有表情输入需求的,因此本发明实施例就直接转入本发明的表情输入流程,不再进行具体的环境判断,降低资源消耗。
下面例举例子二:对于前述例子一的索引,当用户输入“太棒了”,那么会产生如图6A的输入界面,界面中与第一候选项对应的各表情即为本发明生成的表情,用户可以通过快捷键Ctrl+数字选择输入哪一个表情。
实施例五
参照图7,其示出了本发明实的一种聊天表情输入的装置的结构示意图,具体可以包括:
表情关系预置模块710,适于预设字符序列和/或字词序列与各表情之间的对应关系;
优选的,所述表情关系预置模块710包括:
第一预置模块,适于通过收集语聊资源数据和各主题的表情资源数据,利用所述语聊资源数据对所述表情资源数据按表情类别构建字所述字符序列和/或字词序列与各表情之间的对应关系;
或者通过所述字符序列和/或字词序列的近义词和所述近义词分别在各主题中的对应表情的构建所述字符序列和/或字词序列与各表情之间的对应关系。
优选的,所述第一预置模块包括:
资源获取模块,适于获取语聊资源数据和各主题的表情资源数据;所述语聊资源数据包括第二表情及其对应的文本内容;
构建模块,适于结合所述语聊资源数据包括的对应第二表情的文本内容,对所述各主题的表情资源数据中的每个第一表情分别进行分类,构建字符序列和/或字词序列与每个主题的各种表情之间的对应关系。
优选的,资源获取模块之后还包括:
转换模块,适于将所述各主题的表情资源数据中的表情转换为统一系统平台下的标准格式的表情。
优选的,所述构建模块包括:
关键词挖掘模块,适于根据所述语聊资源数据包括的第二表情及其文本内容,分别挖掘所述表情资源数据中各个第一表情对应的各第一关键词;
分类模块,适于根据所述第一关键词和预置的对应每个表情类别的各第二关键词,对所述各第一表情分别进行分类。
优选的,所述关键词挖掘模块包括:
内容提取模块,适于使用符号匹配规则和图片内容判断规则从所述语聊资源数据中提取所述第二表情和所述第二表情对应的文本内容;
匹配模块,适于在所述各主题的表情资源数据中,分别将所述第一表情与提取的第二表情进行匹配,匹配成功则分别将第一表情与第二表情的文本内容进行关联,并从所述文本内容中挖掘各第一关键词与第一表情进行对应。
优选的,所述分类模块包括:
第一分类模块,适于针对匹配上的各第一表情,基于每个表情标签下的各第二关键词,以该第一表情下的各第一关键词进行情感分类预测,确定所述第一表情的表情类别;
第二分类模块,适于针对未匹配上的各第一表情,基于每个表情类别下的各第二关键词,将所述第一表情标注为具体的表情类别。
优选的,所述构建模块包括:
合并模块,适于合并模块,适于针对每个主题的第一表情,将其对应的第一关键词和第二关键词合并为所述第一表情的标签词汇;
第一构建模块,适于根据第一表情与各标签词汇、第一表情所属表情类别之间的对应关系,构建字符序列和/或字词序列与各表情之间的对应关系。
优选的,所述以第一构建模块包括:
索引构建模块,适于将各表情标签词汇进行汇总,构建索引;所述索引为各标签词汇到表情的对应关系。
优选的,所述索引构建模块包括:
针对每个标签词汇对应的各个表情,按照对应的表情类别在语料资源数据中的使用次数进行倒排。
优选的,所述第一构建模块包括:
特征构建模块,适于将每个第一表情的各标签词汇构建为该第一表情的文本特征向量;
簇计算模块,适于利用所述文本特征向量对各第一表情进行聚类,获得包含各相关表情的簇并记录簇关系,将所述簇关系作为字符序列和/或字词序列与各表情标签之间的对应关系。
优选的,还包括:
更新模块,适于定期将新获取的各种来源的表情资源数据和语聊资源数据分别进行合并,再利用表情关系预置模块对所述合并后的语聊资源数据对合并后的表情资源数据按表情类别构建字符序列和/或字词序列与各表情之间的对应关系。
当然,优选的,所述表情关系预置模块在云端服务器中。
接收模块720,适于接收用户输入的输入序列;
优选的,所述接收模块720还包括:
上传模块,适于接收用户输入之后,将所述用户输入上传至云端服务器。
表情候选项分析模块730,适于根据所述对应关系针对所述输入序列进行分析,将所述输入序列与所述字符序列和/或字词序列进行匹配,以获得所述字符序列和/或字词序列对应的各主题的表情;
优选的,所述表情候选项分析模块730在云端服务器中。
展示模块740,适于将各主题的表情进行排序,并作为候选项在客户端进行展示。
优选的,所述展示模块740包括:
排序模块,适于针对每个表情类别下的各第一表情,根据所述第一表情在语聊资源数据中的出现次数和/或用户的个性化信息对相应的各表情进行排序。
实施例五
参照图8,其示出了本发明实的一种聊天表情输入的系统的结构示意图,具体可以包括:
客户端810和云端服务器820;
所述客户端810包括:
接收模块811,适于接收用户输入的输入序列;
展示模块812,适于接收云端服务器返回的各表情,并将各作为候选项在客户端进行展示;
当然客户端还可包括上传模块,用于客户端输入法上传用户输入至云端服务器;
客户端还可包括环境判断模块,用于判断客户端对应的当前的输入环境是否需要表情输入;如果需要表情输入,则进入822;如果不需要,则进入传统输入模块,所述传统输入模块执行传统输入法流程。
所述云端服务器820包括:
表情关系预置模块821,适于预设字符序列和/或字词序列与各表情之间的对应关系;所述对应关系通过收集语聊资源数据和各主题的表情资源数据,利用所述语聊资源数据对所述表情资源数据按表情类别进行构建;
优选的,所述表情关系预置模块710包括:
第一预置模块,适于通过收集语聊资源数据和各主题的表情资源数据,利用所述语聊资源数据对所述表情资源数据按表情类别构建字所述字符序列和/或字词序列与各表情之间的对应关系;
或者通过所述字符序列和/或字词序列的近义词和所述近义词分别在各主题中的对应表情的构建所述字符序列和/或字词序列与各表情之间的对应关系。
优选的,所述第一预置模块包括:
资源获取模块,适于获取语聊资源数据和各主题的表情资源数据;所述语聊资源数据包括第二表情及其对应的文本内容;
构建模块,适于结合所述语聊资源数据包括的对应第二表情的文本内容,对所述各主题的表情资源数据中的每个第一表情分别进行分类,构建字符序列和/或字词序列与每个主题的各种表情之间的对应关系
优选的,资源获取模块之后还包括:
转换模块,适于将所述源表情资源数据中的表情转换为统一系统平台下的标准格式的表情。
优选的,所述构建模块包括:
关键词挖掘模块,适于根据所述语聊资源数据包括的第二表情及其文本内容,分别挖掘所述表情资源数据中各个第一表情对应的各第一关键词;
分类模块,适于根据所述第一关键词和预置的对应每个表情类别的各第二关键词,对所述各第一表情分别进行分类。
优选的,所述关键词挖掘模块包括:
内容提取模块,适于使用符号匹配规则和图片内容判断规则从所述语聊资源数据中提取所述第二表情和所述第二表情对应的文本内容;;
匹配模块,适于在所述表情资源数据中,分别将所述第一表情与提取的第二表情进行匹配,匹配成功则分别将第一表情与第二表情的文本内容进行关联,并从所述文本内容中挖掘各第一关键词与第一表情进行对应。
优选的,所述分类模块包括:
第一分类模块,适于针对匹配上的各第一表情,基于每个表情标签下的各第二关键词,以该第一表情下的各第一关键词进行情感分类预测,确定所述第一表情的表情类别;
第二分类模块,适于针对未匹配上的各第一表情,基于每个表情类别下的各第二关键词,将所述第一表情标注为具体的表情类别。
优选的,所述构建模块包括:
合并模块,适于针对各第一表情,将其对应的第一关键词和第二关键词合并为该第一表情的标签词汇;
第一构建模块,适于根据第一表情与各标签词汇、第一表情所属表情类别之间的对应关系,构建字符序列和/或字词序列与各表情之间的对应关系。
优选的,所述以第一构建模块包括:
索引构建模块,适于将各表情标签词汇进行汇总,构建索引;所述索引为各标签词汇到表情的对应关系。
优选的,所述索引构建模块包括:
针对每个标签词汇对应的各个表情,按照对应的表情类别在语料资源数据中的使用次数进行倒排。
优选的,所述第一构建模块包括:
特征构建模块,适于将每个第一表情的各标签词汇构建为该第一表情的文本特征向量;
簇计算模块,适于利用所述文本特征向量对每个主题的第一表情进行聚类,获得包含各主题的相关表情的簇并记录簇关系,将所述簇关系作为字符序列和/或字词序列与每个主题的各表情标签之间的对应关系。
优选的,还包括:
更新模块,适于定期将新获取的各种来源的表情资源数据和语聊资源数据分别进行合并,再利用表情关系预置模块对所述合并后的语聊资源数据对合并后的表情资源数据按表情类别构建字符序列和/或字词序列与各表情之间的对应关系。
表情候选项分析模块822,适于根据所述对应关系针对所述输入序列进行分析,将所述输入序列与所述字符序列和/或字词序列进行匹配,以获得所述字符序列和/或字词序列对应的各主题的表情;
排序模块823,适于将各主题的表情进行排序,并作为候选项在客户端进行展示。
优选的,所述排序模块还用于针对每个表情类别下的各第一表情,根据所述第一表情在语聊资源数据中的出现次数和/或用户的个性化信息对相应的各表情进行排序。
本发明实施例解决了如下问题:
1.用户的聊天行为属于即时通信,时效性极强。因此,表情输入的时效性非常重要。如果用户喜欢并安装的各种主题的表情库有多个(包括阿狸、嘻哈猴、轻松熊、冷兔等等),每个表情库又包含上百种表情符号或图片(如微笑、哈哈大笑、猥琐的笑、抹眼泪、嚎啕大哭等等)。那么,有限的时间内,在众多表情库中逐一翻找到合适的表情所花费的时间成本,会成为用户有效使用各种表情增强沟通效果的瓶颈。
2.因为考虑到用户使用表情的操作成本,表情包制作方也会酌情精简表情内容,这也从某种程度上制约了聊天表情的发展和广泛使用。
3.大多数聊天工具只会提供默认表情。默认表情相对比较单调,更多丰富的多元化的主题聊天表情资源可以有效提高与朋友聊天的好感度,但是为了使用这些表情,用户需要经过很多网上操作步骤,从各种渠道获取表情包信息并将表情包下载到本地,由于各种商业原因,有时还需要进行手工加载,应用程序才可以正常使用表情包。对于操作生疏或者没有足够耐心的用户,在网络资源中成功获取并安装合适的表情包所花费的时间成本,可能会导致他们选择放弃。
4.对于下载好的表情包,如果用户切换聊天平台等输入场景,表情包需要重新下载或更新,用户的常用表情收藏信息也同样面临移植的问题。
5.输入的候选表情内容仅限于第三方制作好的表情包。若非特意整理,很多明星人物、政治人物的夸张表情照片、GIF等多媒体资源并不能够及时的作为候选表情,方便用户输入。
6.表情包的内容如果长时间不变,用户的新鲜感会逐渐减退。虽然每个主题的表情包(如阿狸表情)一直更新,但用户需要定时定期逐一更新已下载的表情包,才能够获得不断更新的表情内容。因此,更新维护的成本也是阻碍用户持续使用表情包的重要问题之一。
本发明实施例达到了如下效果:
1.通过检索的方法解决用户翻找表情的问题;
2.通过精确匹配用户表情输入需求,提高表情的使用效率;
3.通过云端表情收集和整理,节省用户安装表情包的成本;
4.通过云端自动更新机制,节省用户更新表情包的成本;
5.通过统一定制规格,使用户可以在不同输入环境共享表情;
6.通过统一定制规格,扩展表情使用范围,使之不受限于卡通表情,而形成更多媒体、更多丰富内容表情;
7.通过云端更新机制和相应的多样性排序算法,可以保持用户对不同表情的新鲜感。
以上对本申请所提供的一种聊天表情输入的方法、装置和系统,进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (12)

1.一种聊天表情输入的方法,其特征在于,包括:
预设字符序列和/或字词序列与各表情之间的对应关系,包括:获取语聊资源数据和各主题的表情资源数据;所述语聊资源数据包括第二表情及其对应的文本内容;结合所述语聊资源数据包括的对应第二表情的文本内容,对所述各主题的表情资源数据中的每个第一表情分别进行分类,构建字符序列和/或字词序列与每个主题的各种表情之间的对应关系;
接收用户输入的输入序列;
根据所述对应关系针对所述输入序列进行分析,将所述输入序列与所述字符序列和/或字词序列进行匹配,以获得所述字符序列和/或字词序列对应的各主题的表情;
将各主题的表情进行排序,并作为候选项在客户端进行展示;
其中,所述结合所述语聊资源数据包括的对应第二表情的文本内容,对所述各主题的表情资源数据中的每个第一表情分别进行分类,包括:根据所述语聊资源数据包括的第二表情及其文本内容,分别挖掘所述表情资源数据中每个主题的各个第一表情对应的各第一关键词;根据所述第一关键词和预置的对应每个表情类别的各第二关键词,对所述各第一表情分别进行分类。
2.如权利要求1所述的方法,其特征在于,所述预设字符序列和/或字词序列与各表情之间的对应关系包括:
通过收集语聊资源数据和各主题的表情资源数据,利用所述语聊资源数据对所述表情资源数据按表情类别构建所述字符序列和/或字词序列与各表情之间的对应关系;
或者通过所述字符序列和/或字词序列的近义词和所述近义词分别在各主题对应的表情构建所述字符序列和/或字词序列与各表情之间的对应关系。
3.如权利要求1所述的方法,其特征在于,根据所述语聊资源数据包括的第二表情及其文本内容,分别挖掘所述表情资源数据中每个主题的各个第一表情对应的各第一关键词,包括:
使用符号匹配规则和图片内容判断规则从所述语聊资源数据中提取所述第二表情和所述第二表情对应的文本内容;
在所述各主题的表情资源数据中,分别将所述第一表情与提取的第二表情进行匹配,匹配成功则分别将第一表情与第二表情的文本内容进行关联,并从所述文本内容中挖掘各第一关键词与第一表情进行对应。
4.如权利要求1所述的方法,其特征在于,所述根据所述第一关键词和预置的每个表情类别下的各第二关键词,对所述各第一表情分别进行分类,包括:
针对匹配上的各第一表情,基于每个表情类别下的各第二关键词,以该第一表情下的各第一关键词进行情感分类预测,确定所述第一表情的表情类别;
针对未匹配上的各第一表情,基于每个表情类别下的各第二关键词,将所述第一表情标注为具体的表情类别。
5.如权利要求1所述的方法,其特征在于,所述构建字符序列和/或字词序列与每个主题的各种表情之间的对应关系包括:
针对每个主题的第一表情,将其对应的第一关键词和第二关键词合并为所述第一表情的标签词汇;
根据所述第一表情与对应的各标签词汇、所述第一表情所属的表情类别之间的对应关系,基于所述各标签词汇构建字符序列和/或字词序列与每个主题的各表情之间的对应关系。
6.如权利要求5所述的方法,其特征在于,所述基于所述各标签词汇构建字符序列和/或字词序列与每个主题的各表情之间的对应关系包括:
将每个第一表情的各标签词汇构建为该第一表情的文本特征向量;
利用所述文本特征向量对每个主题的第一表情进行聚类,获得包含各主题的相关表情的簇并记录簇关系,将所述簇关系作为字符序列和/或字词序列与每个主题的各表情标签之间的对应关系。
7.如权利要求1所述的方法,其特征在于,所述将各主题的表情进行排序包括:
针对每个表情类别下的各第一表情,根据所述第一表情在语聊资源数据中的出现次数和/或用户的个性化信息对相应的各主题的表情进行排序。
8.如权利要求1所述的方法,其特征在于,在接收用户输入的输入序列之后还包括:
判断客户端对应的当前的输入环境是否需要表情输入;如果需要表情输入,则根据所述字符序列和/或字词序列与各表情之间的对应关系对所述输入序列进行分析,以获得对应用户输入的各主题的表情。
9.一种聊天表情输入的装置,其特征在于,包括:
表情关系预置模块,适于预设字符序列和/或字词序列与各表情之间的对应关系;
接收模块,适于接收用户输入的输入序列;
表情候选项分析模块,适于根据所述对应关系针对所述输入序列进行分析,将所述输入序列与所述字符序列和/或字词序列进行匹配,以获得所述字符序列和/或字词序列对应的各主题的表情;
展示模块,适于将各主题的表情进行排序,并作为候选项在客户端进行展示;
其中,所述表情关系预置模块包括:资源获取模块,适于获取语聊资源数据和各主题的表情资源数据;所述语聊资源数据包括第二表情及其对应的文本内容;构建模块,适于结合所述语聊资源数据包括的对应第二表情的文本内容,对所述各主题的表情资源数据中的每个第一表情分别进行分类,构建字符序列和/或字词序列与每个主题的各种表情之间的对应关系;
所述构建模块包括:关键词挖掘模块,适于根据所述语聊资源数据包括的第二表情及其文本内容,分别挖掘所述表情资源数据中各个第一表情对应的各第一关键词;分类模块,适于根据所述第一关键词和预置的对应每个表情类别的各第二关键词,对所述各第一表情分别进行分类。
10.如权利要求9所述的装置,其特征在于,所述表情关系预置模块包括:
第一预置模块,适于通过收集语聊资源数据和各主题的表情资源数据,利用所述语聊资源数据对所述表情资源数据按表情类别构建所述字符序列和/或字词序列与各表情之间的对应关系;
或者通过所述字符序列和/或字词序列的近义词和所述近义词分别在各主题对应的表情构建所述字符序列和/或字词序列与各表情之间的对应关系。
11.如权利要求9所述的装置,其特征在于,所述展示模块包括:
排序模块,适于针对每个表情类别下的各第一表情,根据所述第一表情在语聊资源数据中的出现次数和/或用户的个性化信息对相应的各主题的表情进行排序。
12.如权利要求9所述的装置,其特征在于,在接收模块之后还包括:
环境判断模块,适于判断客户端对应的当前的输入环境是否需要表情输入;如果需要表情输入,则根据所述字符序列和/或字词序列与各表情之间的对应关系对所述输入序列进行分析,以获得对应用户输入的各主题的表情。
CN201410251401.4A 2014-06-06 2014-06-06 一种聊天表情输入的方法和装置 Active CN104076944B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410251401.4A CN104076944B (zh) 2014-06-06 2014-06-06 一种聊天表情输入的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410251401.4A CN104076944B (zh) 2014-06-06 2014-06-06 一种聊天表情输入的方法和装置

Publications (2)

Publication Number Publication Date
CN104076944A CN104076944A (zh) 2014-10-01
CN104076944B true CN104076944B (zh) 2017-03-01

Family

ID=51598254

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410251401.4A Active CN104076944B (zh) 2014-06-06 2014-06-06 一种聊天表情输入的方法和装置

Country Status (1)

Country Link
CN (1) CN104076944B (zh)

Families Citing this family (47)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105630846B (zh) * 2014-11-19 2020-09-15 深圳市腾讯计算机系统有限公司 头像更新方法及装置
CN105630849A (zh) * 2014-11-27 2016-06-01 英业达科技有限公司 表情图像推荐系统及其方法
TWI553542B (zh) * 2014-12-08 2016-10-11 英業達股份有限公司 表情圖像推薦系統及其方法
CN105988992B (zh) * 2015-03-02 2020-02-07 腾讯科技(深圳)有限公司 图标推送方法及装置
CN104836726B (zh) * 2015-04-01 2019-03-26 网易(杭州)网络有限公司 一种显示聊天表情的方法及装置
CN104834677A (zh) * 2015-04-13 2015-08-12 苏州天趣信息科技有限公司 一种基于属性类别的表情图片显示方法、装置和终端
CN104881146A (zh) * 2015-04-28 2015-09-02 北京美秒科技有限公司 图片输入方法
CN104852993A (zh) * 2015-06-16 2015-08-19 吴培龙 车载移动多媒体信息交互系统
CN106886396B (zh) * 2015-12-16 2020-07-07 北京奇虎科技有限公司 表情管理方法及装置
CN106897323A (zh) * 2015-12-21 2017-06-27 北京奇虎科技有限公司 消息的处理方法及装置
WO2017120925A1 (zh) * 2016-01-15 2017-07-20 李强生 插入聊天表情的方法和表情插入系统
WO2017120924A1 (zh) * 2016-01-15 2017-07-20 李强生 插入表情时的信息提醒方法和即时通讯工具
WO2017120913A1 (zh) * 2016-01-15 2017-07-20 李强生 插入聊天表情时的数据传输方法和表情插入系统
CN107423277A (zh) * 2016-02-16 2017-12-01 中兴通讯股份有限公司 一种表情输入方法、装置及终端
CN105700703A (zh) * 2016-02-24 2016-06-22 北京小牛互联科技有限公司 一种在键盘的文字输入界面嵌入表情并支持自定义表情的方法和装置
CN105929976A (zh) * 2016-05-25 2016-09-07 广州市久邦数码科技有限公司 一种基于输入法的动态表情输入方法及其系统
CN106028052A (zh) * 2016-05-30 2016-10-12 徐文波 即时视频中连续发送特效的方法和装置
CN106293120B (zh) * 2016-07-29 2020-06-23 维沃移动通信有限公司 表情输入方法及移动终端
CN106327342B (zh) * 2016-08-17 2020-02-11 腾讯科技(深圳)有限公司 一种表情包的处理方法及终端
CN106372059B (zh) * 2016-08-30 2018-09-11 北京百度网讯科技有限公司 信息输入方法和装置
CN106484139B (zh) * 2016-10-19 2019-01-29 北京新美互通科技有限公司 表情符号推荐方法及装置
CN106648137A (zh) * 2016-11-17 2017-05-10 宇龙计算机通信科技(深圳)有限公司 一种表情符号管理和编辑方法、装置及终端
WO2018119815A1 (zh) * 2016-12-29 2018-07-05 深圳前海达闼云端智能科技有限公司 图像显示方法、装置及电子设备
CN107145270A (zh) * 2017-04-25 2017-09-08 北京小米移动软件有限公司 表情图标排序方法及装置
CN107239551B (zh) * 2017-06-07 2020-08-25 梁旺 一种可进行信息再生的群聊天系统
CN109213332B (zh) * 2017-06-29 2022-11-08 北京搜狗科技发展有限公司 一种表情图片的输入方法和装置
CN110019883A (zh) * 2017-07-18 2019-07-16 腾讯科技(深圳)有限公司 获取表情图片的方法及装置
CN110019885B (zh) * 2017-08-01 2021-10-15 北京搜狗科技发展有限公司 一种表情数据推荐方法及装置
CN107578459A (zh) * 2017-08-31 2018-01-12 北京麒麟合盛网络技术有限公司 表情嵌入输入法候选项的方法及装置
CN109361959B (zh) * 2017-10-27 2021-08-27 优酷网络技术(北京)有限公司 弹幕控制方法及装置
CN108092875B (zh) * 2017-11-08 2021-06-01 网易乐得科技有限公司 一种表情提供方法、介质、装置和计算设备
CN109814730B (zh) * 2017-11-20 2023-09-12 北京搜狗科技发展有限公司 输入方法和装置、用于输入的装置
CN108038102B (zh) * 2017-12-08 2021-05-04 北京小米移动软件有限公司 表情图像的推荐方法、装置、终端及存储介质
CN109947264B (zh) * 2017-12-21 2023-03-14 北京搜狗科技发展有限公司 一种信息展现方法、装置及电子设备
CN108227956A (zh) * 2018-01-10 2018-06-29 厦门快商通信息技术有限公司 一种聊天工具表情推荐方法及系统
CN110096163A (zh) * 2018-01-29 2019-08-06 北京搜狗科技发展有限公司 一种表情输入方法及装置
CN108521366A (zh) * 2018-03-27 2018-09-11 联想(北京)有限公司 表情推送方法和电子设备
CN109873756B (zh) 2019-03-08 2020-04-03 百度在线网络技术(北京)有限公司 用于发送信息的方法和装置
CN109977409A (zh) * 2019-03-28 2019-07-05 北京科技大学 一种基于用户聊天习惯的智能表情推荐方法和系统
CN110232116B (zh) * 2019-05-31 2021-07-27 腾讯科技(深圳)有限公司 回复语句中的表情添加的方法及装置
CN112152901A (zh) * 2019-06-26 2020-12-29 腾讯科技(深圳)有限公司 一种虚拟形象控制方法、装置及电子设备
CN110609723B (zh) 2019-08-21 2021-08-24 维沃移动通信有限公司 一种显示控制方法及终端设备
CN110688508B (zh) * 2019-09-03 2022-09-02 北京字节跳动网络技术有限公司 图文数据扩充方法、装置及电子设备
CN112532507B (zh) * 2019-09-17 2023-05-05 上海掌门科技有限公司 用于呈现表情图像、用于发送表情图像的方法和设备
CN111352685B (zh) * 2020-02-28 2024-04-09 北京百度网讯科技有限公司 一种输入法键盘的展示方法、装置、设备及存储介质
CN112035032B (zh) * 2020-06-30 2022-07-12 维沃移动通信有限公司 表情添加方法及装置
CN116796705B (zh) * 2023-08-09 2024-03-12 腾讯科技(深圳)有限公司 表情符检测方法及装置、电子设备、存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1614583A (zh) * 2003-10-30 2005-05-11 日本电气株式会社 数据处理设备,数据处理方法,和电子设备
CN101183294A (zh) * 2007-12-17 2008-05-21 腾讯科技(深圳)有限公司 表情输入方法及装置
CN101281430A (zh) * 2007-04-06 2008-10-08 北京三星通信技术研究有限公司 具有表情符号联想输入功能的装置及其联想输入方法
CN202025295U (zh) * 2011-01-13 2011-11-02 王琦凡 一种快速输入表情符号的装置
CN102591471A (zh) * 2011-01-13 2012-07-18 王琦凡 一种快速输入表情符号的方法和装置
CN103064826A (zh) * 2012-12-31 2013-04-24 百度在线网络技术(北京)有限公司 一种用于表情输入的方法、装置与系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7286115B2 (en) * 2000-05-26 2007-10-23 Tegic Communications, Inc. Directional input system with automatic correction

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1614583A (zh) * 2003-10-30 2005-05-11 日本电气株式会社 数据处理设备,数据处理方法,和电子设备
CN101281430A (zh) * 2007-04-06 2008-10-08 北京三星通信技术研究有限公司 具有表情符号联想输入功能的装置及其联想输入方法
CN101183294A (zh) * 2007-12-17 2008-05-21 腾讯科技(深圳)有限公司 表情输入方法及装置
CN202025295U (zh) * 2011-01-13 2011-11-02 王琦凡 一种快速输入表情符号的装置
CN102591471A (zh) * 2011-01-13 2012-07-18 王琦凡 一种快速输入表情符号的方法和装置
CN103064826A (zh) * 2012-12-31 2013-04-24 百度在线网络技术(北京)有限公司 一种用于表情输入的方法、装置与系统

Also Published As

Publication number Publication date
CN104076944A (zh) 2014-10-01

Similar Documents

Publication Publication Date Title
CN104076944B (zh) 一种聊天表情输入的方法和装置
CN104933113B (zh) 一种基于语义理解的表情输入方法和装置
CN110633409B (zh) 一种融合规则与深度学习的汽车新闻事件抽取方法
CN104063683B (zh) 一种基于人脸识别的表情输入方法和装置
CN109493166A (zh) 一种针对电子商务导购场景任务型对话系统的构建方法
CN103544242B (zh) 面向微博的情感实体搜索系统
CN106294593B (zh) 结合从句级远程监督和半监督集成学习的关系抽取方法
CN112131472B (zh) 信息推荐方法、装置、电子设备和存储介质
CN108595708A (zh) 一种基于知识图谱的异常信息文本分类方法
CN113536793A (zh) 一种实体识别方法、装置、设备以及存储介质
CN106484767A (zh) 一种跨媒体的事件抽取方法
CN106940726B (zh) 一种基于知识网络的创意自动生成方法与终端
CN105512316B (zh) 一种结合移动终端的知识服务系统
CN110457404A (zh) 基于复杂异质网络的社交媒体账户分类方法
CN109902216A (zh) 一种基于社交网络的数据采集与分析方法
CN106934068A (zh) 机器人基于环境上下文的语义理解的方法
CN104866557B (zh) 一种基于建构学习理论的个性化即时学习支持系统与方法
CN101834837A (zh) 基于宽带网络的旅游景区景点在线景观视频主动信息服务系统
CN108804701A (zh) 基于社交网络大数据的人物画像模型构建方法
CN105740342A (zh) 一种基于社会关系主题模型的社交网络朋友推荐方法
CN103793501A (zh) 基于社交网络的主题社团发现方法
CN106874397B (zh) 一种面向物联网设备的自动语义标注方法
Ye et al. A web services classification method based on GCN
CN109271459A (zh) 基于Lucene和文法网络的聊天机器人及其实现方法
CN106126605A (zh) 一种基于用户画像的短文本分类方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant