CN111897990A - 获取表情信息的方法、装置和系统 - Google Patents
获取表情信息的方法、装置和系统 Download PDFInfo
- Publication number
- CN111897990A CN111897990A CN201910371109.9A CN201910371109A CN111897990A CN 111897990 A CN111897990 A CN 111897990A CN 201910371109 A CN201910371109 A CN 201910371109A CN 111897990 A CN111897990 A CN 111897990A
- Authority
- CN
- China
- Prior art keywords
- information
- target information
- expression
- preset database
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000014509 gene expression Effects 0.000 title claims abstract description 295
- 238000000034 method Methods 0.000 title claims abstract description 132
- 238000012545 processing Methods 0.000 claims abstract description 60
- 230000011218 segmentation Effects 0.000 claims description 209
- 238000010801 machine learning Methods 0.000 claims description 61
- 230000008451 emotion Effects 0.000 claims description 51
- 238000012549 training Methods 0.000 claims description 50
- 230000008921 facial expression Effects 0.000 claims description 36
- 230000015654 memory Effects 0.000 claims description 30
- 230000002996 emotional effect Effects 0.000 claims description 17
- 230000002452 interceptive effect Effects 0.000 claims description 8
- 101150054987 ChAT gene Proteins 0.000 abstract description 24
- 101100203187 Mus musculus Sh2d3c gene Proteins 0.000 abstract description 24
- 238000005516 engineering process Methods 0.000 abstract description 8
- 238000012706 support-vector machine Methods 0.000 description 30
- 238000013527 convolutional neural network Methods 0.000 description 18
- 230000006870 function Effects 0.000 description 17
- 238000000605 extraction Methods 0.000 description 16
- 238000010586 diagram Methods 0.000 description 12
- 230000008569 process Effects 0.000 description 11
- 102000008297 Nuclear Matrix-Associated Proteins Human genes 0.000 description 6
- 108010035916 Nuclear Matrix-Associated Proteins Proteins 0.000 description 6
- 238000013507 mapping Methods 0.000 description 6
- 210000000299 nuclear matrix Anatomy 0.000 description 6
- 238000013475 authorization Methods 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000011176 pooling Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000012216 screening Methods 0.000 description 3
- 230000008030 elimination Effects 0.000 description 2
- 238000003379 elimination reaction Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000007667 floating Methods 0.000 description 2
- 238000010295 mobile communication Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000013077 scoring method Methods 0.000 description 2
- 238000007619 statistical method Methods 0.000 description 2
- 238000010025 steaming Methods 0.000 description 2
- 239000010749 BS 2869 Class C1 Substances 0.000 description 1
- 241000282326 Felis catus Species 0.000 description 1
- 206010034960 Photophobia Diseases 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 210000000952 spleen Anatomy 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9536—Search customisation based on social or collaborative filtering
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Library & Information Science (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
本申请公开了一种获取表情信息的方法、装置和系统。其中,该方法包括:获取目标信息;判断目标信息是否包含预设数据库中的任意一个或多个语料,其中,预设数据库中的语料类型包括如下至少之一:语气词、叹词、祝贺词、网络新词、符号和语调;在目标信息包含预设数据库中的任意一个或多个语料的情况下,基于目标信息得到对应的至少一个表情信息。本发明解决了相关技术中的聊天表情生成方法需要采集用户信息,导致用户隐私无法得到保障且图像处理性能损失大的技术问题。
Description
技术领域
本申请涉及互联网信息处理领域,具体而言,涉及一种获取表情信息的方法、装置和系统。
背景技术
随着互联网技术的发展,网络聊天已成为用户日常沟通的主要方式之一。聊天表情用来表达用户的喜怒哀乐,可以形象直观地向对方传达相关讯息,深受用户喜爱。然而,用户在使用聊天表情时,系统所提供聊天表情的种类和数量存在一定的局限性,往往不能满足用户在不同时期内对聊天表情的不同喜好,极大地影响了用户选择所需聊天表情的速度和体验。
相关技术中通常采取以下方案:预先存储词语和自定义表情之间的对应关系,根据用户该方法首先响应于用户在输入框中输入指定词语的操作,提取指定词语,然后从预先存储的词语与自定义表情的对应关系中输入的词语,查找指定词语对应关系中的自定义表情,最后将指定词语对应的自定义表情添加到针对指定词语的候选词列表进行显示。该方案虽然节省了用户发送自定义表情的时间,但是需要预先存储词语和自定义表情之间的对应关系,不仅操作复杂,而且无法自动更新自定义表情。为了克服上述弊端,相关技术中还提供了如下方案:通过移动终端的前置摄像头采集用户的面部表情,进而向用户推荐合适的聊天表情,该方案虽然大大缩短了用户从系统表情库中寻找所需表情的时间,自动更新向用户推送的表情,但是通过前置摄像头采集用户信息的方式,使得用户隐私无法得到保障,而且图片分析性能损失较大,对于移动终端的用户,还会大大降低移动终端的续航时间。
针对相关技术中的聊天表情生成方法需要采集用户信息,导致用户隐私无法得到保障且图像处理性能损失大的技术问题,目前尚未提出有效的解决方案。
申请内容
本申请实施例提供了一种获取表情信息的方法、装置和系统,以至少解决相关技术中的聊天表情生成方法需要采集用户信息,导致用户隐私无法得到保障且图像处理性能损失大的技术问题。
根据本申请实施例的一个方面,提供了一种获取表情信息的方法,包括:获取目标信息;判断目标信息是否包含预设数据库中的任意一个或多个语料,其中,预设数据库中的语料类型包括如下至少之一:语气词、叹词、祝贺词、网络新词、符号和语调;在目标信息包含预设数据库中的任意一个或多个语料的情况下,基于目标信息得到对应的至少一个表情信息。
根据本申请实施例的另一方面,还提供了一种获取表情信息的方法,包括:显示目标信息;展示与目标信息相关联的至少一个表情信息,其中,在目标信息包含预设数据库中的任意一个或多个语料的情况下,基于目标信息得到对应的至少一个表情信息,预设数据库中的语料类型包括如下至少之一:语气词、叹词、祝贺词、网络新词、符号和语调。
根据本申请实施例的另一方面,还提供了一种获取表情信息的方法,包括:在交互界面输入目标信息;在目标信息包含预设数据库中的任意一个或多个语料的情况下,基于目标信息输出至少一个表情信息,其中,预设数据库中的语料类型包括如下至少之一:语气词、叹词、祝贺词、网络新词、符号和语调。
根据本申请实施例的另一方面,还提供了一种获取表情信息的装置,包括:第一获取模块,用于获取目标信息;判断模块,用于判断目标信息是否包含预设数据库中的任意一个或多个语料,其中,预设数据库中的语料类型包括如下至少之一:语气词、叹词、祝贺词、网络新词、符号和语调;处理模块,用于在目标信息包含预设数据库中的任意一个或多个语料的情况下,基于目标信息得到对应的至少一个表情信息。
根据本申请实施例的另一方面,还提供了一种存储介质,存储介质包括存储的程序,其中,在程序运行时控制存储介质所在设备执行上述任意一种获取表情信息的方法。
根据本申请实施例的另一方面,还提供了一种处理器,处理器用于运行程序,其中,程序运行时执行上述任意一种获取表情信息的方法。
根据本申请实施例的另一方面,还提供了一种获取表情信息的系统,包括:处理器;以及存储器,与处理器连接,用于为处理器提供处理以下处理步骤的指令:获取目标信息;判断目标信息是否包含预设数据库中的任意一个或多个语料,其中,预设数据库中的语料类型包括如下至少之一:语气词、叹词、祝贺词、网络新词、符号和语调;在目标信息包含预设数据库中的任意一个或多个语料的情况下,基于目标信息得到对应的至少一个表情信息。
在本申请实施例中,首先获取目标信息;然后判断目标信息是否包含预设数据库中的任意一个或多个语料,其中,预设数据库中的语料类型包括如下至少之一:语气词、叹词、祝贺词、网络新词、符号和语调;最后在目标信息包含预设数据库中的任意一个或多个语料的情况下,基于目标信息得到对应的至少一个表情信息。与现有技术相比,上述方案初步筛选是否需要对目标信息进行添加表情的操作,在判断结果为是的情况下,基于目标信息自动生成用户所需表情,不需要用户建立关键词库与相应的表情之间的对应关系,具有自动更新的功能,且不需要复杂设备,很好地保障了用户隐私,简单而高效,进而解决了相关技术中的聊天表情生成方法需要采集用户信息,导致用户隐私无法得到保障且图像处理性能损失大的技术问题。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请实施例一的一种用于实现获取表情信息的方法的计算机终端(或移动设备)的硬件结构框图;
图2是根据本申请实施例一的一种计算机终端(或移动设备)作为客户终端的示意图;
图3是根据本申请实施例一的一种可选的获取表情信息的方法流程图;
图4是根据本申请实施例一的一种可选的离线训练历史信息的流程图;
图5是根据本申请实施例一的一种可选的在线处理目标信息的流程图;
图6是根据本申请实施例一的一种可选的自动添加表情的方法整体流程图;
图7是根据本申请实施例二的一种可选的获取表情信息的方法流程图;
图8是根据本申请实施例三的一种可选的获取表情信息的方法流程图;
图9是根据本申请实施例四的一种可选的获取表情信息的装置示意图;
图10是根据本申请实施例五的一种可选的获取表情信息的装置示意图;
图11是根据本申请实施例六的一种可选的获取表情信息的装置示意图;以及
图12是根据本申请实施例七的一种可选的计算机终端的结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包括,例如,包括了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
实施例1
根据本申请实施例,提供了一种获取表情信息的方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本申请实施例一所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。图1示出了一种用于实现获取表情信息的方法的计算机终端(或移动设备)的硬件结构框图。如图1所示,计算机终端10(或移动设备10)可以包括一个或多个(图中采用102a、102b,……,102n来示出)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器104、以及用于通信功能的传输装置106。除此以外,还可以包括:显示器、输入/输出接口、通用串行总线(USB)端口(可以作为输入/输出接口的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述电子装置的结构造成限定。例如,计算机终端10还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。
应当注意到的是上述一个或多个处理器102和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外,数据处理电路可为单个独立的处理模块,或全部或部分的结合到计算机终端10(或移动设备)中的其他元件中的任意一个内。如本申请实施例中所涉及到的,该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。
存储器104可用于存储应用软件的软件程序以及模块,如本申请实施例中的获取表情信息的方法对应的程序指令/数据存储装置,处理器102通过运行存储在存储器104内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的应用程序的获取表情信息的方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至计算机终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端10的通信供应商提供的无线网络。在一个实例中,传输装置106包括一个网络适配器(Network Interface Controller,NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输装置106可以为射频(Radio Frequency,RF)模块,其用于通过无线方式与互联网进行通讯。
显示器可以例如触摸屏式的液晶显示器(LCD),该液晶显示器可使得用户能够与计算机终端10(或移动设备)的用户界面进行交互。
图1示出的硬件结构框图,不仅可以作为上述计算机终端10(或移动设备)的示例性框图,还可以作为服务器的示例性框图,一种可选实施例中,图2以框图示出了使用上述图1所示的计算机终端10(或移动设备)作为客户终端的一种实施例。如图2所示,计算机终端10(或移动设备)可以经由数据网络连接或电子连接到一个或多个服务器66。一种可选实施例中,上述计算机终端10(或移动设备)可以是移动计算设备等。数据网络连接可以是局域网连接、广域网连接、因特网连接,或其他类型的数据网络连接。计算机终端10(或移动设备)可以执行以连接到由一个服务器(例如安全服务器)或一组服务器执行的网络服务。网络服务器是基于网络的用户服务,诸如社交网络、云资源、电子邮件、在线支付或其他在线应用。
在上述运行环境下,本申请提供了如图3所示的获取表情信息的方法。需要说明的是,本实施例中的提到的历史信息或目标信息,均是在得到用户授权的前提下获得的。图3是根据本申请实施例1的一种可选的获取表情信息的方法流程图。如图3所示,该方法可以包括如下步骤:
步骤S302,获取目标信息。
一种可选方案中,在基于用户授权的前提下,上述目标信息可以为用户输入的信息,例如文本信息、语音信息、图像信息、表情信息等;上述目标信息可以为用户在各种聊天工具、有表情功能的评论区域等输入的一句完整的信息,也可以是输入了一半的信息,甚至可以是输入法的一部分。
一种可选方案中,上述聊天工具可以为IM(Instant Messenger)即时通信工具,上述有表情功能的评论区域可以为社交网站的留言区、贴吧的回帖区等。
例如,上述目标信息可以为用户在IM即时通信工具上输入的一句语音“我今天很高兴”,也可以是用户在贴吧的回帖区输入的一段文字“这篇文字太精彩了!”。
步骤S304,判断目标信息是否包含预设数据库中的任意一个或多个语料,其中,预设数据库中的语料类型包括如下至少之一:语气词、叹词、祝贺词、网络新词、符号、语调。
一种可选方案中,上述语料的存在形式可以为词语、句子、符号和语调,词语可以为语气词、叹词、祝贺词和网络新词等;上述语气词可以为句尾或句中停顿处表示种种语气的词,如“么”、“呢”、“吧”、“啊”等;上述叹词可以为独立成句的表示惊讶、赞美、埋怨、叹息等感情的词,如“哼”、“喂”、“哎呀”等;上述祝贺词可以是在各种喜庆场合中对事情表示祝贺的言辞,如“生日快乐”、“蒸蒸日上”、“百年好合”等;上述网络新词可以是在网络上流行的非正式词汇,如“硬核”、“锦鲤”、“Skr”等;上述符号可以为标点符合、数字序号、特殊符号等;上述语调可以为目标信息的音调。
一种可选方案中,上述预设数据库可以是基于用户最近一段时间内发送的信息而建立的,也就是说,上述预设数据库中的语料可以表征用户的表情信息使用习惯,有利用迅速向用户推送符合用户偏好的表情信息。因此,上述预设数据库集合了各种能表示目标信息情感的语料,但并不代表上述预设数据库中包括了所有的语气词、叹词、祝贺词和网络新词等。上述预设数据库用于快速判断是否需要对目标信息添加表情信息,以提高对输入目标信息的处理效率。
以IM即时通信工具为例,当前登录用户正在通过IM即时通信工具发送已经输入的目标信息给正在沟通的对方用户,例如领导、客户等,当输入的目标信息为纯文本的技术方案时,通过上述步骤判断目标信息中并不包括预设数据库中的语料,因此可直接输出目标信息,避免后台进行不必要的操作,浪费资源和速度。
容易注意到,当目标信息为语音信息时,上述语料还可以包括语调、语速和重音等,语音信息的语调、语速和重音会辅助判断目标信息的真实情感。例如文本信息“你真厉害呀”表示的情感为赞扬,而重音在“真”字的语音信息“你可真厉害呀”表示的情感既可以为赞扬,也可以为表示贬义类的反语。
步骤S306,在目标信息包含预设数据库中的任意一个或多个语料的情况下,基于目标信息得到对应的至少一个表情信息。
一种可选方案中,上述得到至少一个表情信息的模型可以为机器学习模型,例如卷积神经网络模型、支持向量机等。
卷积神经网络(Convolutional Neural Networks,CNN)和支持向量机(SupportVector Machine,SVM)主要用来做特征提取和识别工作。通过CNN中的多个卷积层和池化层可以提取到整个目标信息甚至局部目标信息的更高级多层次的语义特征,具有不错的分类效果;SVM是在结构风险最小化原则基础上建立的典型核学习模型,其基本思想是通过非线性映射把训练数据映射到一个高维Hilbert特征空间中,本实施例可以在提取表情、文本、语音的基础上,对其模态对应的核矩阵组进行融合,得到融合的多模态情感特征,最后使用多核支持向量机作为分类器进行训练和识别,有效识别出生气、悲伤、惊讶、恐惧等基本情感。
经过步骤S304判断之后,如果目标信息包含预设数据库中的任意一个或多个语料,表明目标信息包含用户的情感,此时有必要对目标信息添加表情信息。在本实施例中,采用机器学习模型处理目标信息,以得到与目标信息对应的至少一个表情信息,供用户选择,以便向目标信息的接收者形象直观地传达用户目前的思想状态。
需要说明的是,上述步骤中,在目标信息包含预设数据库中的任意一个或多个语料的情况下,才处理目标信息;在目标信息不包含预设数据库中的任意一个语料的情况下,不对目标信息做加工处理,直接输出目标信息即可。采用上述方法,可快速判断是否需要对目标信息添加表情信息,以提高对输入目标信息的处理效率,避免后台进行不必要的操作,浪费资源和速度。因为处理目标信息的算法复杂,需要耗费大量的资源,尤其对于移动终端,例如运行内存较小的手机,初步筛选是否需要添加表情的步骤非常有必要。
仍旧以IM即时通信工具为例,系统通过IM即时通信工具的输入框获取到用户输入文字为“小明今天很气愤!”,后台经过初步筛选,会立即判断出“小明今天很气愤!”中包含预设数据库中的标点符号“!”,得出该条信息需要添加表情的结论,便会将该条信息输入至预设模型进行处理,最终得到与“小明今天很气愤!”的信息相对应的表情,例如几个发脾气的卡通形象,由用户决定最终需要添加哪一个。
在本申请实施例中,首先获取目标信息;然后判断目标信息是否包含预设数据库中的任意一个或多个语料,其中,预设数据库中的语料类型包括如下至少之一:语气词、叹词、祝贺词、网络新词、符号和语调;最后在目标信息包含预设数据库中的任意一个或多个语料的情况下,基于目标信息得到对应的至少一个表情信息。与现有技术相比,上述方案初步筛选是否需要对目标信息进行添加表情的操作,在判断结果为是的情况下,基于目标信息自动生成用户所需表情,供用户发送。本方案不需要用户建立关键词库与相应的表情之间的对应关系,具有自动更新的功能,且不需要复杂设备,很好地保障了用户隐私,简单而高效,进而解决了相关技术中的聊天表情生成方法需要采集用户信息,导致用户隐私无法得到保障且图像处理性能损失大的技术问题。
可选地,在执行上述步骤S304判断目标信息是否包含预设数据库中的任意一个或多个语料之前,本申请提供的可选方案还可以包括如下步骤:
步骤S3031,获取用户的历史信息。
一种可选方案中,在基于用户授权的前提下,上述历史信息可以包括用户最近一段时间内记录的信息,例如用户在过去一周内在各种聊天工具、有表情功能的评论区域等输入的带有表情信息的文字内容,也可以包括用户最近一段时间内在智能终端上保存的带有表情信息的文字信息、语音信息等。
步骤S3032,对历史信息进行分词,获得第一分词结果。
分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。
一种可选方案中,上述分词方法可以为机械分词方法、统计分词方法。
分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。
机械分词方法按照一定的分词策略将待分析的汉字串与一个“充分大”的机器词典中的词条进行匹配,若在词典中找到某个字符串,则匹配成功(识别出一个词),具有速度快、实现简单等优点。
统计分词方法是在给定大量已经分词的文本的前提下,利用统计机器学习模型学习词语的切分规律,从而实现对未知文本的切分,主要包括N元文法模型、隐马尔可夫模型、最大熵模型、条件随机场模型等。
在实际的应用中,基于统计的分词系统都需要使用分词词典来进行字符串匹配分词,同时使用统计方法识别一些新词,即将字符串频率统计和字符串匹配结合起来,既发挥匹配分词切分速度快、效率高的特点,又利用了无词典分词结合上下文识别生词、自动消除歧义的优点。
需要说明的是,上述分词方法可以采用任意可实施的算法,本发明实施例对此不做限制。
步骤S3033,从第一分词结果中提取出现频率超过预设值的语料,并将提取到的语料添加至预设数据库中。
上述步骤中,对用户最近一段时间内的历史信息进行分词处理,统计相同分词出现的频率,并将出现频率超过预设值的语料添加至预设数据库中。也就是说,上述预设数据库中的语料可以表征用户的发送习惯,有利于迅速向用户推送符合用户偏好的表情信息。
可选地,上述步骤S3032对历史信息进行分词,获得第一分词结果,具体包括:
步骤S30321,根据属性类别对历史信息进行分类。
一种可选方案中,上述属性类别可以表示用户的各种情感,例如感兴趣、高兴、惊奇、伤心、害怕、害羞、轻蔑、生气等。
步骤S30322,将相同属性类别的历史信息进行分词,获得第一分词结果。
对于相同属性类别的历史信息进行分词,以获得第一分词结果,从而提取第一分词结果中出现频率超过预设值的语料,有利用获得更加精确的预设数据库。
可选地,上述步骤S3033从第一分词结果中提取出现频率超过预设值的语料,并将提取到的语料添加至预设数据库中,具体包括:
步骤S30331,将第一分词结果中的公共词进行删除。
一种可选方案中,上述公共词可以为人称代词、科技术语等不包含用户情感的词,例如,删除的公共词可以为人称代词“你”、“我”、“的”等中性词。
步骤S30332,从删除了公共词的第一分词结果中提取出现频率超过预设值的语料。
步骤S30333,将提取到的语料添加至预设数据库中。
上述步骤中,在删除第一分词结果中的公共词之后,再统计相同分词出现的频率,不仅会使预设数据库中的语料更加精确,而且节省了后台资源。这对于移动终端,尤其是运行内存较小的手机非常有必要。
可选地,在步骤S306基于目标信息得到对应的至少一个表情信息之前,本申请提供的可选方案还可以包括如下步骤:
步骤S3051,获取用户的历史信息。
一种可选方案中,在基于用户授权的前提下,上述历史信息可以包括用户最近一段时间内记录的信息,例如用户在过去一周内在各种聊天工具、有表情功能的评论区域等输入的带有表情信息的文字内容,也可以包括用户最近一段时间内在智能终端上保存的带有表情信息的文字信息、语音信息等。
步骤S3052,基于历史信息进行训练,得到训练好的机器学习模型,其中,机器学习模型用于处理目标信息,得到至少一个表情信息。
一种可选方案中,上述机器学习模型可以为具有学习功能的模型,例如卷积神经网络模型、支持向量机等。
CNN和SVM主要用来做特征提取和识别工作。通过CNN中的多个卷积层和池化层可以提取到整个目标信息甚至局部目标信息的更高级多层次的语义特征,具有不错的分类效果;SVM是在结构风险最小化原则基础上建立的典型核学习模型,其基本思想是通过非线性映射把训练数据映射到一个高维Hi lbert特征空间中,本实施例可以在提取表情、文本、语音的基础上,对其模态对应的核矩阵组进行融合,得到融合的多模态情感特征,最后使用多核支持向量机作为分类器进行训练和识别,有效识别出生气、悲伤、惊讶、恐惧等基本情感。
上述步骤中,利用用户的历史信息对机器学习模型进行训练,得到训练好的机器学习模型。
需要说明的是,上述训练过程仍然位于智能终端,例如用户手机端,其功能主要是根据用户历史信息学习用户的表情信息使用习惯。
可选地,上述步骤S3052基于历史信息进行训练,得到训练好的机器学习模型,具体包括:
步骤S30521,对历史信息进行分词,获得第二分词结果,其中,第二分词结果包括历史信息的特征和表情信息。
一种可选方案中,上述分词方法仍然可以为机械分词方法、统计分词方法,统计分词方法主要包括N元文法模型、隐马尔可夫模型、最大熵模型、条件随机场模型等;上述特征可以表示第二分词结果的语义特征;上述表情信息可以表示对应特征的表情。
上述步骤中,对历史聊天信息进行分词,获得第二分词结果,记为Si={Fi,Ei}。其中,Fi={W1,W2,...,Wn},表示第i条发送内容,n表示n维向量,Ei={e1,e2,...,em},表示含有m个表情。由于每个特征不一定都有对应的表情信息,故n≥m。
步骤S30522,将第二分词结果中的表情信息替换为与表情信息相关联的属性类别。
需要说明的是,表情信息多种多样,为了便于分类推荐,可以将每一个表情信息按照情感对其进行分类,如咧嘴笑代表喜欢,张大嘴巴、感叹号代表惊讶,大哭代表痛苦,瑟瑟发抖代表恐惧,脸红代表害羞,翻白眼代表轻蔑等,并将其表示为g大类C1至Cg。
在步骤S30521得到的第二分词结果Si={Fi,Ei}中,将表情信息Ei替换为其所属的属性类别,得到Si={Fi,Cj},1≤j≤g。
步骤S30523,对替换后的第二分词结果进行训练,得到机器学习模型。
一种可选方案中,上述机器学习模型为训练好的机器学习模型,例如支持向量机。SVM是在结构风险最小化原则基础上建立的典型核学习模型,其基本思想是通过非线性映射把训练数据映射到一个高维Hilbert特征空间中,本实施例可以在提取表情、文本、语音的基础上,对其模态对应的核矩阵组进行融合,得到融合的多模态情感特征,最后使用多核支持向量机作为分类器进行训练和识别,有效识别出生气、悲伤、惊讶、恐惧等基本情感
图4是根据本申请实施例一的一种可选的离线训练历史信息的流程图。如图4所示,在获取用户最近一周的历史信息后,抽取其中的表情和特征,并对每一个表情和特征生成下标。然后将表情替换为相应的属性类别,生成训练样本。利用训练样本来离线训练机器学习模型,得到训练好的机器学习模型。
可选地,当与表情信息相关联的属性类别具有多个时,根据预设策略确定一种属性类别。
一种可选方案中,上述预设策略可以是专家打分法,也可以基于用户的使用习惯来确定。
仍旧以IM即时通信工具为例,如果“流口水的卡通小猫”既可以归为“饿了”的属性类别,也可以归为“喜欢”的属性类别,那么通过统计用户最近一段时间使用“饿了”和“喜欢”两种属性类别的表情信息的次数,来确定最终的属性类别。
可选地,上述步骤S306基于目标信息得到对应的至少一个表情信息,具体包括:
步骤S3061,从目标信息中提取至少一个特征。
一种可选方案中,上述特征可以表示目标信息的语义特征。
步骤S3062,通过机器学习模型对至少一个特征进行处理,得到与目标信息相关联的属性类别。
基于目标信息的特征,根据训练好的机器学习模型对特征进行预测处理,得到与特征相关联的属性类别。
步骤S3063,基于属性类别,得到与属性类别相关联的至少一个表情信息。
根据步骤S3062得到的属性类别,得到该属性类别下面对应的最近一段时间内出现的表情信息,并将其显示出来。
可选地,至少一个表情信息来源于历史信息中的表情信息,至少一个表情信息的个数和位置随机。
一种可选方案中,上述位置随机可以为步骤S3063得到的至少一个表情信息在历史信息中的表情信息的位置随机。
另一种可选方案中,上述个数随机可以为步骤S3063得到的至少一个表情信息的个数随机,例如,当历史信息中的表情信息只有一个咧嘴笑的表情时,向用户推荐的表情信息可以为3个或4个相同的咧嘴笑的表情。
由于步骤S3063得到的表情信息来源于用户历史信息中的表情信息,所以步骤S3063得到的表情信息更加符合用户的使用习惯,可以快速准确的向用户推荐符合用户心意的表情信息。
需要说明的是,当得到属性类别之后,由于向用户显示的表情信息空间位置有限,为了保证结果的均衡性,从与属性类别相关联的至少一个表情信息中,随机位置和个数地向用户推荐信息。
可选地,上述步骤S304判断目标信息是否包含预设数据库中的任意一个或多个语料,具体包括:
步骤S3041,对目标信息进行分词,获得第三分词结果。
一种可选方案中,上述分词方法仍然可以为机械分词方法、统计分词方法,统计分词方法主要包括N元文法模型、隐马尔可夫模型、最大熵模型、条件随机场模型等。
步骤S3042,遍历第三分词结果中的每一个分词,以判断目标信息是否包含预设数据库中的任意一个或多个语料。
上述步骤中,将第三分词结果中的每一个词与预设数据库中的语料进行匹配,如果匹配成功,表示目标信息包含预设数据库中的任意一个或多个语料。
可选地,属性类别基于以下方式获得:
步骤S3011,提取历史信息的表情信息。
一种可选方案中,上述表情信息可以为用户历史信息中的所有表情信息。
步骤S3012,根据情感特征对表情信息进行分类,获得属性类别。
一种可选方案中,上述情感可以为用户的喜怒哀乐等各种思想状态。
可选地,在步骤S306基于目标信息得到对应的至少一个表情信息之后,本申请提供的可选方案还可以包括如下步骤:
步骤S307,将至少一个表情信息添加至目标信息中。
一种可选方案中,上述添加方式可以为系统自动添加,也可以为系统向用户推荐至少一个表情信息后,由用户来决定是否添加以及添加哪一个。
图5是根据本申请实施例一的一种可选的在线处理目标信息的流程图。如图5所示,首先从用户的输入框中获取目标信息,对目标信息进行分词,然后判断目标信息中是否包含预设数据库中的任意一个或多个语料。在判断结果为是的情况下,使用模型进行预测,得到对应的至少一个表情信息,再从该至少一个表情信息中随机位置和个数地选取最终的表情信息,并将其添加到目标信息中,生成添加了表情信息的目标信息,向目标信息接收者发送。而这一过程不仅快速到用户察觉不出来,而且添加的表情信息更加符合用户使用偏好,提高了用户体验。
可选地,上述步骤S307将至少一个表情信息添加至目标信息中,具体包括:
步骤S3071,显示至少一个表情信息。
一种可选方案中,上述显示方式可以为在目标信息的输入区域附近浮动显示。
步骤S3072,如果检测到预定操作时,将经过预定操作的至少一个表情信息添加至目标信息中。
一种可选方案中,上述预定操作可以为按键点击选择,也可以为鼠标点击选择。
可选地,在目标信息不包含预设数据库中的任意一个或多个语料的情况下,直接输出目标信息。
仍以图5为例,在判断结果为否的情况下,不对目标信息做任何处理,直接输出目标信息。
图6是根据本申请实施例一的一种可选的自动添加表情的方法整体流程图。如图6所示,本实施例中的方案主要分为两个部分,离线部分和在线部分。离线部分负责自动的学习用户的表情发送习惯,从用户的历史信息中提取频率超过预设值的语料,建立预设数据库,并定时训练机器学习模型。在线部分负责获取用户当前输入的文字,根据离线训练获得的机器学习模型预测与当前输入的文字相对应的表情,由用户进行选择与发送。其中,离线部分主要在用户终端实现,避免产生用户的隐私安全问题。上述方案旨在利用用户在表情发送中的使用习惯,自动为用户发送的消息添加表情,提高用户聊天体验。
在本申请实施例中,首先获取目标信息;然后判断目标信息是否包含预设数据库中的任意一个或多个语料,其中,预设数据库中的语料类型包括如下至少之一:语气词、叹词、祝贺词、网络新词、符号和语调;最后在目标信息包含预设数据库中的任意一个或多个语料的情况下,基于目标信息得到对应的至少一个表情信息。与现有技术相比,上述方案初步筛选是否需要对目标信息进行添加表情的操作,在判断结果为是的情况下,基于目标信息自动生成用户所需表情,供用户发送;通过对相同属性类别的历史信息进行分词,并从删除公共词的分词结果中提取出现频率超过预设值的语料,使得预设数据库的语料更加精确。容易注意到,上述方案不需要用户建立关键词库与相应的表情信息之间的对应关系,能够自动学习用户的发送内容特点,且不需要复杂设备进行复杂地计算,上述方案在用户端自动集成,很好地保障了用户隐私,简单而高效,进而解决了相关技术中的聊天表情生成方法需要采集用户信息,导致用户隐私无法得到保障且图像处理性能损失大的技术问题。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本申请各个实施例的方法。
实施例2
根据本申请实施例,还提供了一种获取表情信息的方法,需要说明的是,本实施例中提到的历史信息或目标信息,均是在得到用户授权的前提下获得的。如图7所示,该方法可以包括如下步骤:
步骤S702,显示目标信息。
一种可选方案中,上述显示设备可以为智能终端的显示界面;上述目标信息可以为用户输入的信息,例如文本信息、语音信息、图像信息、表情信息等;上述目标信息可以为用户在各种聊天工具、有表情功能的评论区域等输入的一句完整的信息,也可以是输入了一半的信息,甚至可以是输入法的一部分。
一种可选方案中,上述聊天工具可以为腾讯QQ、IM即时通信工具、钉钉等,上述有表情功能的评论区域可以为社交网站的留言区、贴吧的回帖区等。
步骤S704,展示与目标信息相关联的至少一个表情信息,其中,在目标信息包含预设数据库中的任意一个或多个语料的情况下,基于目标信息得到对应的至少一个表情信息,预设数据库中的语料类型包括如下至少之一:语气词、叹词、祝贺词、网络新词、符号和语调。
一种可选方案中,上述展示界面可以为与显示界面相同的界面;上述语料的存在形式可以为词语、句子、符号和语调,词语可以为语气词、叹词、祝贺词和网络新词等;上述语气词可以为句尾或句中停顿处表示种种语气的词,如“么”、“呢”、“吧”、“啊”等;上述叹词可以为独立成句的表示惊讶、赞美、埋怨、叹息等感情的词,如“哼”、“喂”、“哎呀”等;上述祝贺词可以是在各种喜庆场合中对事情表示祝贺的言辞,如“生日快乐”、“蒸蒸日上”、“百年好合”等;上述网络新词可以是在网络上流行的非正式词汇,如“硬核”、“锦鲤”、“Skr”等;上述符号可以为标点符合、数字序号、特殊符号等;上述语调可以为目标信息的音调。
一种可选方案中,上述预设数据库可以是基于用户最近一段时间内发送的信息而建立的,也就是说,上述预设数据库中的语料可以表征用户的表情信息使用习惯,有利用迅速向用户推送符合用户偏好的表情信息。因此,上述预设数据库集合了各种能表示目标信息情感的语料,但并不代表上述预设数据库中包括了所有的语气词、叹词、祝贺词和网络新词等。上述预设数据库用于快速判断是否需要对目标信息添加表情信息,以提高对输入目标信息的处理效率。
容易注意到,当目标信息为语音信息时,上述语料还可以包括语调、语速和重音等,语音信息的语调、语速和重音会辅助判断目标信息的真实情感。例如文本信息“你真厉害呀”表示的情感为赞扬,而重音在“真”字的语音信息“你可真厉害呀”表示的情感既可以为赞扬,也可以为表示贬义类的反语。
一种可选方案中,上述得到至少一个表情信息的模型可以为机器学习模型,例如卷积神经网络模型、支持向量机等。
卷积神经网络(Convolutional Neural Networks,CNN)和支持向量机(SupportVector Machine,SVM)主要用来做特征提取和识别工作。通过CNN中的多个卷积层和池化层可以提取到整个目标信息甚至局部目标信息的更高级多层次的语义特征,具有不错的分类效果;SVM是在结构风险最小化原则基础上建立的典型核学习模型,其基本思想是通过非线性映射把训练数据映射到一个高维Hilbert特征空间中,本实施例可以在提取表情、文本、语音的基础上,对其模态对应的核矩阵组进行融合,得到融合的多模态情感特征,最后使用多核支持向量机作为分类器进行训练和识别,有效识别出生气、悲伤、惊讶、恐惧等基本情感。
如果目标信息包含预设数据库中的任意一个或多个语料,表明目标信息包含用户的情感,此时有必要对目标信息添加表情信息。在本实施例中,采用机器学习模型处理目标信息,以得到与目标信息对应的至少一个表情信息,供用户选择,以便向目标信息的接收者形象直观地传达用户目前的思想状态。
需要说明的是,在目标信息包含预设数据库中的任意一个或多个语料的情况下,才使用预设模型处理目标信息;在目标信息不包含预设数据库中的任意一个语料的情况下,不对目标信息做加工处理,直接输出目标信息即可。采用上述方法,可快速判断是否需要对目标信息添加表情信息,以提高对输入目标信息的处理效率,避免后台进行不必要的操作,浪费资源和速度。因为预设模型复杂,需要耗费大量的资源,尤其对于移动终端,例如运行内存较小的手机,初步筛选是否需要添加表情的步骤非常有必要。
在本申请实施例中,首先显示目标信息;然后展示与目标信息相关联的至少一个表情信息,其中,在目标信息包含预设数据库中的任意一个或多个语料的情况下,基于目标信息得到对应的至少一个表情信息,预设数据库中的语料类型包括如下至少之一:语气词、叹词、祝贺词、网络新词、符号和语调。与现有技术相比,上述方案初步筛选是否需要对目标信息进行添加表情的操作,在判断结果为是的情况下,采用机器学习算法自动显示用户所需表情,供用户发送。本方案不需要用户建立关键词库与相应的表情之间的对应关系,具有自动更新的功能,且不需要复杂设备,很好地保障了用户隐私,简单而高效,进而解决了相关技术中的聊天表情生成方法需要采集用户信息,导致用户隐私无法得到保障且图像处理性能损失大的技术问题。
可选地,在步骤S704基于目标信息得到至少一个表情信息之前,本申请提供的可选方案还可以包括如下步骤:步骤S703,判断目标信息是否包含预设数据库中的任意一个或多个语料。
可选地,在判断目标信息是否包含预设数据库中的任意一个或多个语料之前,本申请提供的可选方案还可以包括如下步骤:
步骤S7031,获取用户的历史信息。
一种可选方案中,上述历史信息可以包括用户最近一段时间内记录的信息,例如用户在过去一周内在各种聊天工具、有表情功能的评论区域等输入的带有表情信息的文字内容,也可以包括用户最近一段时间内在智能终端上保存的带有表情信息的文字信息、语音信息等。
步骤S7032,对历史信息进行分词,获得第一分词结果。
一种可选方案中,上述分词方法可以为机械分词方法、统计分词方法。
分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。
机械分词方法按照一定的分词策略将待分析的汉字串与一个“充分大”的机器词典中的词条进行匹配,若在词典中找到某个字符串,则匹配成功(识别出一个词),具有速度快、实现简单等优点。
统计分词方法是在给定大量已经分词的文本的前提下,利用统计机器学习模型学习词语的切分规律,从而实现对未知文本的切分,主要包括N元文法模型、隐马尔可夫模型、最大熵模型、条件随机场模型等。
在实际的应用中,基于统计的分词系统都需要使用分词词典来进行字符串匹配分词,同时使用统计方法识别一些新词,即将字符串频率统计和字符串匹配结合起来,既发挥匹配分词切分速度快、效率高的特点,又利用了无词典分词结合上下文识别生词、自动消除歧义的优点。
需要说明的是,上述分词方法可以采用任意可实施的算法,本发明实施例对此不做限制。
步骤S7033,从第一分词结果中提取出现频率超过预设值的语料,并将提取到的语料添加至预设数据库中。
上述步骤中,对用户最近一段时间内的历史信息进行分词处理,统计相同分词出现的频率,并将出现频率超过预设值的语料添加至预设数据库中。也就是说,上述预设数据库中的语料可以表征用户的发送习惯,有利于迅速向用户推送符合用户偏好的表情信息。
可选地,步骤S7032对历史信息进行分词,获得第一分词结果,包括:
步骤S70321,根据属性类别对历史信息进行分类。
一种可选方案中,上述属性类别可以表示用户的各种情感,例如感兴趣、高兴、惊奇、伤心、害怕、害羞、轻蔑、生气等。
步骤S70322,将相同属性类别的历史信息进行分词,获得第一分词结果。
对于相同属性类别的历史信息进行分词,以获得第一分词结果,从而提取第一分词结果中出现频率超过预设值的语料,有利用获得更加精确的预设数据库。
可选地,步骤S7033从第一分词结果中提取出现频率超过预设值的语料,并将提取到的语料添加至预设数据库中,包括:
步骤S70331,将第一分词结果中的公共词进行删除。
一种可选方案中,上述公共词可以为人称代词、科技术语等不包含情感的词,例如,删除的公共词可以为人称代词“你”、“我”、“的”等中性词。
步骤S70332,从删除了公共词的第一分词结果中提取出现频率超过预设值的语料。
步骤S70333,将提取到的语料添加至预设数据库中。
上述步骤中,在删除第一分词结果中的公共词之后,再统计相同分词出现的频率,不仅会使预设数据库中的语料更加精确,而且节省了后台资源。这对于移动终端,尤其是运行内存较小的手机非常有必要。
可选地,在基于目标信息得到至少一个表情信息之前,本申请提供的可选方案还可以包括如下步骤:
步骤S7034,获取用户的历史信息。
一种可选方案中,上述历史信息可以包括用户最近一段时间内记录的信息,例如用户在过去一周内在各种聊天工具、有表情功能的评论区域等输入的带有表情信息的文字内容,也可以包括用户最近一段时间内在智能终端上保存的带有表情信息的文字信息、语音信息等。
步骤S7035,基于历史信息进行训练,得到训练好的机器学习模型,其中,机器学习模型用于处理目标信息,得到至少一个表情信息。
一种可选方案中,上述机器学习模型可以为具有学习功能的模型,例如卷积神经网络模型、支持向量机等。
CNN和SVM主要用来做特征提取和识别工作。通过CNN中的多个卷积层和池化层可以提取到整个目标信息甚至局部目标信息的更高级多层次的语义特征,具有不错的分类效果;SVM是在结构风险最小化原则基础上建立的典型核学习模型,其基本思想是通过非线性映射把训练数据映射到一个高维Hi lbert特征空间中,本实施例可以在提取表情、文本、语音的基础上,对其模态对应的核矩阵组进行融合,得到融合的多模态情感特征,最后使用多核支持向量机作为分类器进行训练和识别,有效识别出生气、悲伤、惊讶、恐惧等基本情感。
上述步骤中,利用用户的历史信息对机器学习模型进行训练,得到训练好的机器学习模型。
需要说明的是,上述训练过程仍然位于智能终端,例如用户手机端,其功能主要是根据用户历史信息学习用户的表情信息使用习惯。
可选地,步骤S7035基于历史信息进行训练,得到训练好的机器学习模型,包括:
步骤S70351,对历史信息进行分词,获得第二分词结果,其中,第二分词结果包括历史信息的特征和表情信息。
一种可选方案中,上述分词方法仍然可以为机械分词方法、统计分词方法,统计分词方法主要包括N元文法模型、隐马尔可夫模型、最大熵模型、条件随机场模型等;上述特征可以表示第二分词结果的语义特征;上述表情信息可以表示对应特征的表情。
上述步骤中,对历史聊天信息进行分词,获得第二分词结果,记为Si={Fi,Ei}。其中,Fi={W1,W2,...,Wn},表示第i条发送内容,n表示n维向量,Ei={e1,e2,...,em},表示含有m个表情。由于每个特征不一定都有对应的表情信息,故n≥m。
步骤S70352,将第二分词结果中的表情信息替换为与表情信息相关联的属性类别。
需要说明的是,表情信息多种多样,为了便于分类推荐,可以将每一个表情信息按照情感对其分类,如咧嘴笑代表喜欢,张大嘴巴、感叹号代表惊讶,大哭代表痛苦,瑟瑟发抖代表恐惧,脸红代表害羞,翻白眼代表轻蔑等,并将其表示为g大类C1至Cg。
在步骤S30521得到的第二分词结果Si={Fi,Ei}中,将表情信息Ei替换为其所属的属性类别,得到Si={Fi,Cj},1≤j≤g。
步骤S70353,对替换后的第二分词结果进行训练,得到机器学习模型。
一种可选方案中,上述机器学习模型为训练好的机器学习模型,例如支持向量机。SVM是在结构风险最小化原则基础上建立的典型核学习模型,其基本思想是通过非线性映射把训练数据映射到一个高维Hilbert特征空间中,本实施例可以在提取表情、文本、语音的基础上,对其模态对应的核矩阵组进行融合,得到融合的多模态情感特征,最后使用多核支持向量机作为分类器进行训练和识别,有效识别出生气、悲伤、惊讶、恐惧等基本情感
可选地,当与表情信息相关联的属性类别具有多个时,根据预设策略确定一种属性类别。
一种可选方案中,上述预设策略可以是专家打分法,也可以基于用户的使用习惯来确定。
可选地,步骤S704中基于目标信息得到对应的至少一个表情信息,包括:
步骤S7041,从目标信息中提取至少一个特征。
一种可选方案中,上述特征可以表示目标信息的语义特征。
步骤S7042,通过机器学习模型对至少一个特征进行处理,得到与目标信息相关联的属性类别。
基于目标信息的特征,根据训练好的机器学习模型对特征进行预测处理,得到与特征相关联的属性类别。
步骤S7043,基于属性类别,得到与属性类别相关联的至少一个表情信息。
根据步骤S7043得到的属性类别,得到该属性类别下面对应的最近一段时间内出现的表情信息,并将其显示出来。
可选地,至少一个表情信息来源于历史信息中的表情信息,至少一个表情信息的个数和位置随机。
一种可选方案中,上述位置随机可以为步骤S7043得到的至少一个表情信息在历史信息中的表情信息的位置随机。
另一种可选方案中,上述个数随机可以为步骤S7043得到的至少一个表情信息的个数随机,例如,当历史信息中的表情信息只有一个咧嘴笑的表情时,向用户推荐的表情信息可以为3个或4个相同的咧嘴笑的表情。
由于步骤S7043得到的表情信息来源于用户历史信息中的表情信息,所以步骤步骤S7043得到的表情信息更加符合用户的使用习惯,可以快速准确的向用户推荐符合用户心意的表情信息。
需要说明的是,当得到属性类别之后,由于向用户显示的表情信息空间位置有限,为了保证结果的均衡性,从与属性类别相关联的至少一个表情信息中,随机位置和个数地向用户推荐信息。
可选地,步骤S703判断目标信息是否包含预设数据库中的任意一个或多个语料,包括:
步骤S70301,对目标信息进行分词,获得第三分词结果。
一种可选方案中,上述分词方法仍然可以为机械分词方法、统计分词方法,统计分词方法主要包括N元文法模型、隐马尔可夫模型、最大熵模型、条件随机场模型等。
步骤S70302,遍历第三分词结果中的每一个分词,以判断目标信息是否包含预设数据库中的任意一个或多个语料。
上述步骤中,将第三分词结果中的每一个词与预设数据库中的语料进行匹配,如果匹配成功,表示目标信息包含预设数据库中的任意一个或多个语料。
可选地,属性类别基于以下方式获得:
步骤S70431,提取历史信息的表情信息。
一种可选方案中,上述表情信息可以为用户历史信息中的所有表情信息。
步骤S70432,根据情感特征对表情信息进行分类,获得属性类别。
一种可选方案中,上述情感可以为用户的喜怒哀乐等各种思想状态。
可选地,在步骤S704展示与目标信息相关联的至少一个表情信息之后,本申请提供的可选方案还可以包括如下步骤:步骤S7061,显示添加了至少一个表情信息的目标信息。
一种可选方案中,上述显示方式可以为在目标信息的输入区域附近浮动显示;上述添加方式可以为系统自动添加,也可以为系统向用户推荐至少一个表情信息后,由用户来决定是否添加以及添加哪一个。
可选地,在目标信息不包含预设数据库中的任意一个或多个语料的情况下,上述方法包括:步骤S7062,显示目标信息。
在步骤S703判断结果为否的情况下,不对目标信息做任何处理,直接输出目标信息。
需要说明的是,本实施例的可选或优选实施方式可以参见实施例1中的相关描述,但不仅限于实施例1所公开的内容,在此不再赘述。
实施例3
根据本申请实施例,还提供了一种获取表情信息的方法,如图8所示,该方法可以包括如下步骤:
步骤S802,在交互界面输入目标信息;
步骤S804,基于目标信息输出至少一个表情信息,其中,在目标信息包含预设数据库中的任意一个或多个语料的情况下,基于目标信息得到对应的至少一个表情信息,预设数据库中的语料类型包括如下至少之一:语气词、叹词、祝贺词、网络新词、符号和语调。
可选地,在基于目标信息得到对应的至少一个表情信息之前,上述方法还包括:判断目标信息是否包含预设数据库中的任意一个或多个语料。
可选地,在判断目标信息是否包含预设数据库中的任意一个或多个语料之前,上述方法还包括:获取用户的历史信息;对历史信息进行分词,获得第一分词结果;从第一分词结果中提取出现频率超过预设值的语料,并将提取到的语料添加至预设数据库中。
可选地,对历史信息进行分词,获得第一分词结果,包括:根据属性类别对历史信息进行分类;将相同属性类别的历史信息进行分词,获得第一分词结果。
可选地,从第一分词结果中提取出现频率超过预设值的语料,并将提取到的语料添加至预设数据库中,包括:将第一分词结果中的公共词进行删除;从删除了公共词的第一分词结果中提取出现频率超过预设值的语料;将提取到的语料添加至预设数据库中。
可选地,在基于目标信息得到对应的至少一个表情信息之前,上述方法还包括:获取用户的历史信息;基于历史信息进行训练,得到训练好的机器学习模型,其中,机器学习模型用于处理目标信息,得到至少一个表情信息。
可选地,基于历史信息进行训练,得到训练好的机器学习模型,包括:对历史信息进行分词,获得第二分词结果,其中,第二分词结果包括历史信息的特征和表情信息;将第二分词结果中的表情信息替换为与表情信息相关联的属性类别;对替换后的第二分词结果进行训练,得到机器学习模型。
可选地,当与表情信息相关联的属性类别具有多个时,根据预设策略确定一种属性类别。
可选地,基于目标信息得到对应的至少一个表情信息,包括:从目标信息中提取至少一个特征;通过机器学习模型对至少一个特征进行处理,得到与目标信息相关联的属性类别;基于属性类别,得到与属性类别相关联的至少一个表情信息。
可选地,至少一个表情信息来源于历史信息中的表情信息,至少一个表情信息的个数和位置随机。
可选地,判断目标信息是否包含预设数据库中的任意一个或多个语料,包括:对目标信息进行分词,获得第三分词结果;遍历第三分词结果中的每一个分词,以判断目标信息是否包含预设数据库中的任意一个或多个语料。
可选地,属性类别基于以下方式获得:提取历史信息的表情信息;根据情感特征对表情信息进行分类,获得属性类别。
可选地,在基于目标信息输出至少一个表情信息之后,上述方法还包括:如果检测到交互界面发生了预定操作,生成触发指令,其中,触发指令用于将经过预定操作的至少一个表情信息添加至目标信息中;基于触发指令输出添加了至少一个表情信息的目标信息。
可选地,在目标信息不包含预设数据库中的任意一个或多个语料的情况下,直接输出目标信息。
在本申请实施例中,首先在交互界面输入目标信息;然后基于目标信息输出至少一个表情信息,其中,在目标信息包含预设数据库中的任意一个或多个语料的情况下,基于目标信息得到对应的至少一个表情信息,预设数据库中的语料类型包括如下至少之一:语气词、叹词、祝贺词、网络新词、符号和语调。与现有技术相比,与现有技术相比,上述方案初步筛选是否需要对目标信息进行添加表情的操作,在判断结果为是的情况下,基于目标信息自动生成用户所需表情,供用户发送;通过对相同属性类别的历史信息进行分词,并从删除公共词的分词结果中提取出现频率超过预设值的语料,使得预设数据库的语料更加精确。容易注意到,上述方案不需要用户建立关键词库与相应的表情信息之间的对应关系,能够自动学习用户的发送内容特点,且不需要复杂设备进行复杂地计算,上述方案在用户端自动集成,很好地保障了用户隐私,简单而高效,进而解决了相关技术中的聊天表情生成方法需要采集用户信息,导致用户隐私无法得到保障且图像处理性能损失大的技术问题。
需要说明的是,本实施例的可选或优选实施方式可以参见实施例1中的相关描述,但不仅限于实施例1所公开的内容,在此不再赘述。
实施例4
根据本申请实施例,还提供了一种获取表情信息的装置,如图9所示,该装置900包括:第一获取模块902、判断模块904和处理模块906。
其中,第一获取模块902,用于获取目标信息。
判断模块904,用于判断目标信息是否包含预设数据库中的任意一个或多个语料,其中,预设数据库中的语料类型包括如下至少之一:语气词、叹词、祝贺词、网络新词、符号和语调。
处理模块906,用于在目标信息包含预设数据库中的任意一个或多个语料的情况下,基于目标信息得到对应的至少一个表情信息。
可选地,上述装置还包括:第二获取模块,用于在判断目标信息是否包含预设数据库中的任意一个或多个语料之前,获取用户的历史信息;第一分词模块,用于对历史信息进行分词,获得第一分词结果;第一提取模块,用于从第一分词结果中提取出现频率超过预设值的语料,并将提取到的语料添加至预设数据库中。
可选地,第一分词模块包括:分类模块,用于根据属性类别对历史信息进行分类;第一分词子模块,用于将相同属性类别的历史信息进行分词,获得第一分词结果。
可选地,第一提取模块包括:删除模块,用于将第一分词结果中的公共词进行删除;第一提取子模块,用于从删除了公共词的第一分词结果中提取出现频率超过预设值的语料;第一添加模块,用于将提取到的语料添加至预设数据库中。
可选地,上述装置还包括:第三获取模块,用于在基于目标信息得到对应的至少一个表情信息之前,获取用户的历史信息;训练模块,用于基于历史信息进行训练,得到训练好的机器学习模型,其中,机器学习模型用于处理目标信息,得到至少一个表情信息。
可选地,训练模块包括:第二分词模块,用于对历史信息进行分词,获得第二分词结果,其中,第二分词结果包括历史信息的特征和表情信息;替换模块,用于将第二分词结果中的表情信息替换为与表情信息相关联的属性类别;训练子模块,用于对替换后的第二分词结果进行训练,得到机器学习模型。
可选地,当与表情信息相关联的属性类别具有多个时,根据预设策略确定一种属性类别。
可选地,处理模块包括:第四获取模块,用于从目标信息中提取至少一个特征;处理子模块,用于通过机器学习模型对至少一个特征进行处理,得到与目标信息相关联的属性类别;关联模块,用于基于属性类别,得到与属性类别相关联的至少一个表情信息。
可选地,至少一个表情信息来源于历史信息中的表情信息,至少一个表情信息的个数和位置随机。
可选地,判断模块包括:第三分词模块,用于对目标信息进行分词,获得第三分词结果;遍历模块,用于遍历第三分词结果中的每一个分词,以判断目标信息是否包含预设数据库中的任意一个或多个语料。
可选地,上述装置还包括属性类别获得模块,用于获得属性类别,其中,属性类别获得模块包括:第二提取模块,用于提取历史信息的表情信息;属性类别获得子模块,用于根据情感特征对表情信息进行分类,获得属性类别。
可选地,上述装置还包括:第二添加模块,用于在基于目标信息得到对应的至少一个表情信息之后,将至少一个表情信息添加至目标信息中。
可选地,第二添加模块包括:显示模块,用于显示至少一个表情信息;第二添加子模块,用于如果检测到预定操作时,将经过预定操作的至少一个表情信息添加至目标信息中。
可选地,上述装置还包括输出模块,用于在目标信息不包含预设数据库中的任意一个或多个语料的情况下,直接输出目标信息。
此处需要说明的是,上述第一获取模块902、判断模块904和处理模块906对应于实施例1中的步骤S302至步骤S306,三个模块与对应的步骤所实现的实例和应用场景相同,但不限于上述实施例1所公开的内容。需要说明的是,上述模块作为装置的一部分可以运行在实施例1提供的计算机终端10中。
实施例5
根据本申请实施例,还提供了一种获取表情信息的装置,如图10所示,该装置1000包括:第一显示模块1002和展示模块1004。
其中,第一显示模块1002,用于显示目标信息。
展示模块1004,用于展示与目标信息相关联的至少一个表情信息,其中,在目标信息包含预设数据库中的任意一个或多个语料的情况下,基于目标信息得到对应的至少一个表情信息,预设数据库中的语料类型包括如下至少之一:语气词、叹词、祝贺词、网络新词、符号和语调。
可选地,上述装置还包括:判断模块,用于判断目标信息是否包含预设数据库中的任意一个或多个语料。
可选地,上述装置还包括:第二获取模块,用于在判断目标信息是否包含预设数据库中的任意一个或多个语料之前,获取用户的历史信息;第一分词模块,用于对历史信息进行分词,获得第一分词结果;第一提取模块,用于从第一分词结果中提取出现频率超过预设值的语料,并将提取到的语料添加至预设数据库中。
可选地,第一分词模块包括:分类模块,用于根据属性类别对历史信息进行分类;第一分词子模块,用于将相同属性类别的历史信息进行分词,获得第一分词结果。、
可选地,第一提取模块包括:删除模块,用于将第一分词结果中的公共词进行删除;第一提取子模块,用于从删除了公共词的第一分词结果中提取出现频率超过预设值的语料;第一添加模块,用于将提取到的语料添加至预设数据库中。
可选地,上述装置还包括:第三获取模块,用于在使用机器学习模型处理目标信息之前,获取用户的历史信息;训练模块,用于基于历史信息进行训练,得到训练好的机器学习模型,其中,机器学习模型用于处理目标信息,得到至少一个表情信息。
可选地,训练模块包括:第二分词模块,用于对历史信息进行分词,获得第二分词结果,其中,第二分词结果包括历史信息的特征和表情信息;替换模块,用于将第二分词结果中的表情信息替换为与表情信息相关联的属性类别;训练子模块,用于对替换后的第二分词结果进行训练,得到机器学习模型。
可选地,当与表情信息相关联的属性类别具有多个时,根据预设策略确定一种属性类别。
可选地,上述装置还包括:第四获取模块,用于从目标信息中提取至少一个特征;处理模块,用于通过机器学习模型对至少一个特征进行处理,得到与目标信息相关联的属性类别;关联模块,用于基于属性类别,得到与属性类别相关联的至少一个表情信息。
可选地,至少一个表情信息来源于历史信息中的表情信息,至少一个表情信息的个数和位置随机。
可选地,判断模块包括:
第三分词模块,用于对目标信息进行分词,获得第三分词结果;遍历模块,用于遍历第三分词结果中的每一个分词,以判断目标信息是否包含预设数据库中的任意一个或多个语料。
可选地,上述装置还包括属性类别获得模块,用于获得属性类别,其中,属性类别获得模块包括:第二提取模块,用于提取历史信息的表情信息;属性类别获得子模块,用于根据情感特征对表情信息进行分类,获得属性类别。
可选地,上述装置还包括第二显示模块,用于在展示与目标信息相关联的至少一个表情信息之后,显示添加了至少一个表情信息的目标信息。
可选地,上述装置还包括第二显示模块,用于在目标信息不包含预设数据库中的任意一个或多个语料的情况下,显示目标信息。
此处需要说明的是,上述第一显示模块1002和展示模块1004对应于实施例2中的步骤S202至步骤S204,两个模块与对应的步骤所实现的实例和应用场景相同,但不限于上述实施例2所公开的内容。需要说明的是,上述模块作为装置的一部分可以运行在实施例1提供的计算机终端10中。
实施例6
根据本申请实施例,还提供了一种获取表情信息的装置,如图11所示,该装置1100包括:输入模块1102和输出模块1104。
其中,输入模块1102,用于在交互界面输入目标信息。
输出模块1104,用于在目标信息包含预设数据库中的任意一个或多个语料的情况下,基于目标信息输出至少一个表情信息,其中,预设数据库中的语料类型包括如下至少之一:语气词、叹词、祝贺词、网络新词、符号和语调。
可选地,上述装置还包括:判断模块,用于判断目标信息是否包含预设数据库中的任意一个或多个语料。
可选地,上述装置还包括:第二获取模块,用于在判断目标信息是否包含预设数据库中的任意一个或多个语料之前,获取用户的历史信息;第一分词模块,用于对历史信息进行分词,获得第一分词结果;第一提取模块,用于从第一分词结果中提取出现频率超过预设值的语料,并将提取到的语料添加至预设数据库中。
可选地,第一分词模块包括:分类模块,用于根据属性类别对历史信息进行分类;第一分词子模块,用于将相同属性类别的历史信息进行分词,获得第一分词结果。
可选地,第一提取模块包括:删除模块,用于将第一分词结果中的公共词进行删除;第一提取子模块,用于从删除了公共词的第一分词结果中提取出现频率超过预设值的语料;第一添加模块,用于将提取到的语料添加至预设数据库中。
可选地,上述装置还包括:第三获取模块,用于在基于目标信息得到对应的至少一个表情信息之前,获取用户的历史信息;训练模块,用于基于历史信息进行训练,得到机器学习模型。
可选地,训练模块包括:第二分词模块,用于对历史信息进行分词,获得第二分词结果,其中,第二分词结果包括历史信息的特征和表情信息;替换模块,用于将第二分词结果中的表情信息替换为与表情信息相关联的属性类别;训练子模块,用于对替换后的第二分词结果进行训练,得到训练好的机器学习模型,其中,机器学习模型用于处理目标信息,得到至少一个表情信息。
可选地,当与表情信息相关联的属性类别具有多个时,根据预设策略确定一种属性类别。
可选地,上述装置还包括:第四获取模块,用于从目标信息中提取至少一个特征;处理模块,用于通过机器学习模型对至少一个特征进行处理,得到与目标信息相关联的属性类别;关联模块,用于基于属性类别,得到与属性类别相关联的至少一个表情信息。
可选地,至少一个表情信息来源于历史信息中的表情信息,至少一个表情信息的个数和位置随机。
可选地,判断模块包括:第三分词模块,用于对目标信息进行分词,获得第三分词结果;遍历模块,用于遍历第三分词结果中的每一个分词,以判断目标信息是否包含预设数据库中的任意一个或多个语料。
可选地,上述装置还包括属性类别获得模块,用于获得属性类别,其中,属性类别获得模块包括:第二提取模块,用于提取历史信息的表情信息;属性类别获得子模块,用于根据情感特征对表情信息进行分类,获得属性类别。
可选地,上述装置还包括:检测模块,用于在基于目标信息输出至少一个表情信息之后,检测交互界面上是否发生预定操作;生成模块,用于在发生了预定操作的情况下,生成触发指令,其中,触发指令用于将经过预定操作的至少一个表情信息添加至目标信息中;输出子模块,用于基于触发指令输出添加了至少一个表情信息的目标信息。
可选地,上述装置还包括显示模块,用于在基于目标信息输出至少一个表情信息之后,显示添加了至少一个表情信息的目标信息。
可选地,上述装置还包括显示模块,用于在目标信息不包含预设数据库中的任意一个或多个语料的情况下,显示目标信息。
此处需要说明的是,上述输入模块1102和输出模块1104对应于实施例3中的步骤S302至步骤S304,两个模块与对应的步骤所实现的实例和应用场景相同,但不限于上述实施例2所公开的内容。需要说明的是,上述模块作为装置的一部分可以运行在实施例1提供的计算机终端10中。
实施例7
本申请的实施例可以提供一种计算机终端,该计算机终端可以是计算机终端群中的任意一个计算机终端设备。可选地,在本实施例中,上述计算机终端也可以替换为移动终端等终端设备。
可选地,在本实施例中,上述计算机终端可以位于计算机网络的多个网络设备中的至少一个网络设备。
在本实施例中,上述计算机终端可以执行应用程序的获取表情信息的方法中以下步骤的程序代码:获取目标信息;判断目标信息是否包含预设数据库中的任意一个或多个语料,其中,预设数据库中的语料类型包括如下至少之一:语气词、叹词、祝贺词、网络新词、符号和语调;在目标信息包含预设数据库中的任意一个或多个语料的情况下,基于目标信息得到对应的至少一个表情信息。
可选地,图12是根据本申请实施例的一种计算机终端的结构框图。如图12所示,该计算机终端A可以包括:一个或多个(图中仅示出一个)处理器以及存储器102。
其中,存储器可用于存储软件程序以及模块,如本申请实施例中的获取表情信息的方法和装置对应的程序指令/模块,处理器通过运行存储在存储器内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述获取表情信息的方法。存储器可包括高速随机存储器,还可以包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器可进一步包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至终端A。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
处理器可以通过传输装置调用存储器存储的信息及应用程序,以执行下述步骤:获取目标信息;判断目标信息是否包含预设数据库中的任意一个或多个语料,其中,预设数据库中的语料类型包括如下至少之一:语气词、叹词、祝贺词、网络新词、符号和语调;在目标信息包含预设数据库中的任意一个或多个语料的情况下,基于目标信息得到对应的至少一个表情信息。
可选地,上述处理器还可以执行如下步骤的程序代码:在判断目标信息是否包含预设数据库中的任意一个或多个语料之前,获取用户的历史信息;对历史信息进行分词,获得第一分词结果;从第一分词结果中提取出现频率超过预设值的语料,并将提取到的语料添加至预设数据库中。
可选地,上述处理器还可以执行如下步骤的程序代码:对历史信息进行分词,获得第一分词结果,包括:根据属性类别对历史信息进行分类;将相同属性类别的历史信息进行分词,获得第一分词结果。
可选地,上述处理器还可以执行如下步骤的程序代码:从第一分词结果中提取出现频率超过预设值的语料,并将提取到的语料添加至预设数据库中,包括:将第一分词结果中的公共词进行删除;从删除了公共词的第一分词结果中提取出现频率超过预设值的语料;将提取到的语料添加至预设数据库中。
可选地,上述处理器还可以执行如下步骤的程序代码:在基于目标信息得到对应的至少一个表情信息之前,获取用户的历史信息;基于历史信息进行训练,得到训练好的机器学习模型,其中,机器学习模型用于处理目标信息,得到至少一个表情信息。
可选地,上述处理器还可以执行如下步骤的程序代码:基于历史信息进行训练,得到训练好的机器学习模型,包括:对历史信息进行分词,获得第二分词结果,其中,第二分词结果包括历史信息的特征和表情信息;将第二分词结果中的表情信息替换为与表情信息相关联的属性类别;对替换后的第二分词结果进行训练,得到机器学习模型。
可选地,上述处理器还可以执行如下步骤的程序代码:当与表情信息相关联的属性类别具有多个时,根据预设策略确定一种属性类别。
可选地,上述处理器还可以执行如下步骤的程序代码:基于目标信息得到对应的至少一个表情信息,包括:从目标信息中提取至少一个特征;通过机器学习模型对至少一个特征进行处理,得到与目标信息相关联的属性类别;基于属性类别,得到与属性类别相关联的至少一个表情信息
可选地,上述处理器还可以执行如下步骤的程序代码:至少一个表情信息来源于历史信息中的表情信息,至少一个表情信息的个数和位置随机。
可选地,上述处理器还可以执行如下步骤的程序代码:判断目标信息是否包含预设数据库中的任意一个或多个语料,包括:对目标信息进行分词,获得第三分词结果;遍历第三分词结果中的每一个分词,以判断目标信息是否包含预设数据库中的任意一个或多个语料。
可选地,上述处理器还可以执行如下步骤的程序代码:属性类别基于以下方式获得:提取历史信息的表情信息;根据情感特征对表情信息进行分类,获得属性类别。
可选地,上述处理器还可以执行如下步骤的程序代码:在基于目标信息得到对应的至少一个表情信息之后,将至少一个表情信息添加至目标信息中。
可选地,上述处理器还可以执行如下步骤的程序代码:将至少一个表情信息添加至目标信息中,包括:显示至少一个表情信息;当检测到预定操作时,将经过预定操作的至少一个表情信息添加至目标信息中。
可选地,上述处理器还可以执行如下步骤的程序代码:在目标信息不包含预设数据库中的任意一个或多个语料的情况下,直接输出目标信息。
本领域普通技术人员可以理解,图12所示的结构仅为示意,计算机终端也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌声电脑以及移动互联网设备(MobileInternet Devices,MID)、PAD等终端设备。图12其并不对上述电子装置的结构造成限定。例如,计算机终端10还可包括比图12中所示更多或者更少的组件(如网络接口、显示装置等),或者具有与图12所示不同的配置。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、只读存储器(Read-Only Memory,ROM)、随机存取器(RandomAccess Memory,RAM)、磁盘或光盘等。
实施例8
本申请的实施例还提供了一种存储介质。可选地,在本实施例中,上述存储介质可以用于保存上述实施例一或二或三所提供的获取表情信息的方法所执行的程序代码。
可选地,在本实施例中,上述存储介质可以位于计算机网络中计算机终端群中的任意一个计算机终端中,或者位于移动终端群中的任意一个移动终端中。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:获取目标信息;判断目标信息是否包含预设数据库中的任意一个或多个语料,其中,预设数据库中的语料类型包括如下至少之一:语气词、叹词、祝贺词、网络新词、符号和语调;在目标信息包含预设数据库中的任意一个或多个语料的情况下,基于目标信息得到对应的至少一个表情信息。
在本申请实施例中,通过运行存储介质中保存的程序代码,初步筛选是否需要对目标信息进行添加表情的操作,在判断结果为是的情况下,基于目标信息自动生成用户所需表情,供用户发送;通过对相同属性类别的历史信息进行分词,并从删除公共词的分词结果中提取出现频率超过预设值的语料,使得预设数据库的语料更加精确。容易注意到,上述方案不需要用户建立关键词库与相应的表情信息之间的对应关系,能够自动学习用户的发送内容特点,且不需要复杂设备进行复杂地计算,上述方案在用户端自动集成,很好地保障了用户隐私,简单而高效,进而解决了相关技术中的聊天表情生成方法需要采集用户信息,导致用户隐私无法得到保障且图像处理性能损失大的技术问题。
实施例9
根据本申请实施例,还提供了一种获取表情信息的系统,该系统包括:
处理器;以及
存储器,与处理器连接,用于为处理器提供处理以下处理步骤的指令:获取目标信息;判断目标信息是否包含预设数据库中的任意一个或多个语料,其中,预设数据库中的语料类型包括如下至少之一:语气词、叹词、祝贺词、网络新词、符号和语调;在目标信息包含预设数据库中的任意一个或多个语料的情况下,基于目标信息得到对应的至少一个表情信息。
需要说明的是,本实施例的可选或优选实施方式可以参见实施例1中的相关描述,在此不在赘述。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
在本申请的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本申请的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。
Claims (24)
1.一种获取表情信息的方法,包括:
获取目标信息;
判断所述目标信息是否包含预设数据库中的任意一个或多个语料,其中,所述预设数据库中的语料类型包括如下至少之一:语气词、叹词、祝贺词、网络新词、符号和语调;
在所述目标信息包含预设数据库中的任意一个或多个语料的情况下,基于所述目标信息得到对应的至少一个表情信息。
2.根据权利要求1所述的方法,其中,在判断所述目标信息是否包含预设数据库中的任意一个或多个语料之前,所述方法还包括:
获取用户的历史信息;
对所述历史信息进行分词,获得第一分词结果;
从所述第一分词结果中提取出现频率超过预设值的语料,并将提取到的所述语料添加至所述预设数据库中。
3.根据权利要求2所述的方法,其中,对所述历史信息进行分词,获得第一分词结果,包括:
根据属性类别对所述历史信息进行分类;
将相同属性类别的所述历史信息进行分词,获得所述第一分词结果。
4.根据权利要求2所述的方法,其中,从所述第一分词结果中提取出现频率超过预设值的语料,并将提取到的所述语料添加至所述预设数据库中,包括:
将所述第一分词结果中的公共词进行删除;
从删除了所述公共词的第一分词结果中提取出现频率超过所述预设值的语料;
将提取到的语料添加至所述预设数据库中。
5.根据权利要求1所述的方法,其中,在基于所述目标信息得到对应的至少一个表情信息之前,所述方法还包括:
获取用户的历史信息;
基于所述历史信息进行训练,得到训练好的机器学习模型,其中,所述机器学习模型用于处理所述目标信息,得到所述至少一个表情信息。
6.根据权利要求5所述的方法,其中,基于所述历史信息进行训练,得到训练好的机器学习模型,包括:
对所述历史信息进行分词,获得第二分词结果,其中,所述第二分词结果包括所述历史信息的特征和表情信息;
将所述第二分词结果中的表情信息替换为与所述表情信息相关联的属性类别;
对替换后的所述第二分词结果进行训练,得到所述机器学习模型。
7.根据权利要求6所述的方法,其中,当与所述表情信息相关联的属性类别具有多个时,根据预设策略确定一种属性类别。
8.根据权利要求5所述的方法,其中,基于所述目标信息得到对应的至少一个表情信息,包括:
从所述目标信息中提取至少一个特征;
通过所述机器学习模型对所述至少一个特征进行处理,得到与所述目标信息相关联的属性类别;
基于所述属性类别,得到与所述属性类别相关联的至少一个表情信息。
9.根据权利要求8所述的方法,其中,所述至少一个表情信息来源于所述历史信息中的表情信息,所述至少一个表情信息的个数和位置随机。
10.根据权利要求1所述的方法,其中,判断所述目标信息是否包含预设数据库中的任意一个或多个语料,包括:
对所述目标信息进行分词,获得第三分词结果;
遍历所述第三分词结果中的每一个分词,以判断所述目标信息是否包含预设数据库中的任意一个或多个语料。
11.根据权利要求3或6或8所述的方法,其中,所述属性类别基于以下方式获得:
提取所述历史信息的表情信息;
根据情感特征对所述表情信息进行分类,获得属性类别。
12.根据权利要求1所述的方法,其中,在基于目标信息得到对应的至少一个表情信息之后,所述方法还包括:将所述至少一个表情信息添加至所述目标信息中。
13.根据权利要求12所述的方法,其中,将所述至少一个表情信息添加至所述目标信息中,包括:
显示所述至少一个表情信息;
如果检测到预定操作,将经过预定操作的所述至少一个表情信息添加至所述目标信息中。
14.根据权利要求1所述的方法,其中,在所述目标信息不包含预设数据库中的任意一个或多个语料的情况下,直接输出所述目标信息。
15.一种获取表情信息的方法,包括:
显示目标信息;
展示与所述目标信息相关联的至少一个表情信息,其中,在所述目标信息包含预设数据库中的任意一个或多个语料的情况下,基于所述目标信息得到对应的至少一个表情信息,所述预设数据库中的语料类型包括如下至少之一:语气词、叹词、祝贺词、网络新词、符号和语调。
16.根据权利要求15所述的方法,其中,在基于所述目标信息得到对应的至少一个表情信息之前,所述方法还包括:判断所述目标信息是否包含预设数据库中的任意一个或多个语料。
17.根据权利要求15所述的方法,其中,在所述目标信息不包含预设数据库中的任意一个或多个语料的情况下,显示所述目标信息。
18.根据权利要求15所述的方法,其中,在展示与目标信息相关联的至少一个表情信息之后,所述方法还包括:显示添加了所述至少一个表情信息的所述目标信息。
19.一种获取表情信息的方法,包括:
在交互界面输入目标信息;
在所述目标信息包含预设数据库中的任意一个或多个语料的情况下,基于所述目标信息输出至少一个表情信息,其中,所述预设数据库中的语料类型包括如下至少之一:语气词、叹词、祝贺词、网络新词、符号和语调。
20.根据权利要求19所述的方法,其中,在基于所述目标信息输出至少一个表情信息之后,所述方法还包括:
如果检测到所述交互界面发生了预定操作,生成触发指令,其中,所述触发指令用于将经过预定操作的所述至少一个表情信息添加至所述目标信息中;
基于所述触发指令输出添加了所述至少一个表情信息的所述目标信息。
21.一种获取表情信息的装置,包括:
获取模块,用于获取目标信息;
判断模块,用于判断所述目标信息是否包含预设数据库中的任意一个或多个语料,其中,所述预设数据库中的语料类型包括如下至少之一:语气词、叹词、祝贺词、网络新词、符号和语调;
处理模块,用于在所述目标信息包含预设数据库中的任意一个或多个语料的情况下,基于所述目标信息得到对应的至少一个表情信息。
22.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行权利要求1至14中任意一项所述的获取表情信息的方法。
23.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行权利要求1至14中任意一项所述的获取表情信息的方法。
24.一种获取表情信息的系统,包括:
处理器;以及
存储器,与所述处理器连接,用于为所述处理器提供处理以下处理步骤的指令:
获取目标信息;
判断所述目标信息是否包含预设数据库中的任意一个或多个语料,其中,所述预设数据库中的语料类型包括如下至少之一:语气词、叹词、祝贺词、网络新词、符号和语调;
在所述目标信息包含预设数据库中的任意一个或多个语料的情况下,基于所述目标信息得到对应的至少一个表情信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910371109.9A CN111897990A (zh) | 2019-05-06 | 2019-05-06 | 获取表情信息的方法、装置和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910371109.9A CN111897990A (zh) | 2019-05-06 | 2019-05-06 | 获取表情信息的方法、装置和系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111897990A true CN111897990A (zh) | 2020-11-06 |
Family
ID=73169417
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910371109.9A Pending CN111897990A (zh) | 2019-05-06 | 2019-05-06 | 获取表情信息的方法、装置和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111897990A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112764553A (zh) * | 2021-01-26 | 2021-05-07 | 维沃移动通信有限公司 | 聊天表情的收集方法、装置及电子设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104063427A (zh) * | 2014-06-06 | 2014-09-24 | 北京搜狗科技发展有限公司 | 一种基于语义理解的表情输入方法和装置 |
CN106020504A (zh) * | 2016-05-17 | 2016-10-12 | 百度在线网络技术(北京)有限公司 | 信息输出方法和装置 |
US20170344224A1 (en) * | 2016-05-27 | 2017-11-30 | Nuance Communications, Inc. | Suggesting emojis to users for insertion into text-based messages |
CN107729320A (zh) * | 2017-10-19 | 2018-02-23 | 西北大学 | 一种基于时序分析用户会话情感趋势的表情符号推荐方法 |
-
2019
- 2019-05-06 CN CN201910371109.9A patent/CN111897990A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104063427A (zh) * | 2014-06-06 | 2014-09-24 | 北京搜狗科技发展有限公司 | 一种基于语义理解的表情输入方法和装置 |
CN106020504A (zh) * | 2016-05-17 | 2016-10-12 | 百度在线网络技术(北京)有限公司 | 信息输出方法和装置 |
US20170344224A1 (en) * | 2016-05-27 | 2017-11-30 | Nuance Communications, Inc. | Suggesting emojis to users for insertion into text-based messages |
CN107729320A (zh) * | 2017-10-19 | 2018-02-23 | 西北大学 | 一种基于时序分析用户会话情感趋势的表情符号推荐方法 |
Non-Patent Citations (1)
Title |
---|
王汝娇;姬东鸿;: "基于卷积神经网络与多特征融合的Twitter情感分类方法", 计算机工程, no. 02, 15 February 2018 (2018-02-15) * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112764553A (zh) * | 2021-01-26 | 2021-05-07 | 维沃移动通信有限公司 | 聊天表情的收集方法、装置及电子设备 |
CN112764553B (zh) * | 2021-01-26 | 2024-04-02 | 维沃移动通信有限公司 | 聊天表情的收集方法、装置及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10922483B1 (en) | Artificial intelligence communication assistance for providing communication advice utilizing communication profiles | |
CN106407178B (zh) | 一种会话摘要生成方法、装置、服务器设备以及终端设备 | |
US10685186B2 (en) | Semantic understanding based emoji input method and device | |
AU2021322785B2 (en) | Communication content tailoring | |
CN111241237B (zh) | 一种基于运维业务的智能问答数据处理方法及装置 | |
US11436415B2 (en) | Message sentiment based alert | |
CN107423277A (zh) | 一种表情输入方法、装置及终端 | |
CN104076944A (zh) | 一种聊天表情输入的方法和装置 | |
CN110719525A (zh) | 弹幕表情包的生成方法、电子设备和可读存储介质 | |
CN111666380A (zh) | 一种智能呼叫方法、装置、设备和介质 | |
US10496751B2 (en) | Avoiding sentiment model overfitting in a machine language model | |
CN111310440A (zh) | 文本的纠错方法、装置和系统 | |
CN113392641A (zh) | 文本处理方法、装置、存储介质和设备 | |
CN110880324A (zh) | 语音数据的处理方法、装置、存储介质及电子设备 | |
CN112417127A (zh) | 对话模型的训练、对话生成方法、装置、设备及介质 | |
CN111475632A (zh) | 问句处理方法、装置、电子设备及存储介质 | |
CN108306813B (zh) | 会话消息的处理方法、服务器及客户端 | |
CN111385188A (zh) | 对话元素的推荐方法、装置、电子设备和介质 | |
CN110427620B (zh) | 基于社群系统的服务质量优化管理系统 | |
CN111897990A (zh) | 获取表情信息的方法、装置和系统 | |
CN115378890B (zh) | 信息输入方法、装置、存储介质及计算机设备 | |
CN113505293B (zh) | 信息推送方法、装置、电子设备及存储介质 | |
KR20190134080A (ko) | 채팅 서비스 제공 장치 | |
CN115033675A (zh) | 会话方法、会话装置、电子设备及存储介质 | |
CN113868415A (zh) | 知识库的生成方法、装置、存储介质及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |