CN106484139B

CN106484139B - 表情符号推荐方法及装置

Info

Publication number: CN106484139B
Application number: CN201610910534.7A
Authority: CN
Inventors: 高欣; 周立; 胡新勇
Original assignee: Beijing Xinmeihutong Technology Co
Current assignee: Beijing Xinmeihutong Technology Co
Priority date: 2016-10-19
Filing date: 2016-10-19
Publication date: 2019-01-29
Anticipated expiration: 2036-10-19
Also published as: US11093854B2; US20180107945A1; CN106484139A

Abstract

本申请提供一种表情符号推荐方法及装置，其先对各个表情符号对应的训练语句进行聚类，基于聚类得到的释义类别进行语料训练，可以避免因一个表情符号对应多个语义不相关的训练语句造成的混乱，提高语料训练的准确性；同时，在进行语料训练的过程中，计算得到每个释义类别对应的第一概率，以及每个释义类别中每个单词对应的第三概率，进而根据该第一概率和第三概率，结合贝叶斯公式，对用户实时输入的目标语句进行精确到单词的语义匹配概率分析，既可避免现有推荐方式下推荐触发几率极低的问题，也可保证最终分析所确定的目标释义类别为与目标语句的实际含义最相近的释义类别，提高推荐准确性，提高用户对表情符号的输入效率，提升用户体验。

Description

表情符号推荐方法及装置

技术领域

本申请涉及输入法技术领域，尤其涉及一种表情符号推荐方法及装置。

背景技术

随着社交和网络的不断发展，以及智能移动终端的普及，表情符号由于可以更简洁直观的体现人们的语义、语气、心情等，故在人们日常交流沟通中的使用频率越来越高；相应的，表情符号输入也成为输入法的一个重要组成部分。

现有输入法中的表情符号输入方式主要包括以下两种。第一种方式是在需要输入表情符号时，由用户主动点击预设的表情图标，从而显示具有多个表情符号的列表界面，用户通过翻页操作或滑动操作，在该列表界面中选择并点击需要的表情符号，实现该表情符号的输入。第二种方式是预先为每个表情符号设置一个或多个的标签(tag)，每个标签对应该表情符号的一种含义，在用户输入文本时，实时检测是否存在与当前输入文本相同的标签，如果存在，则将与检测到的标签对应的表情符号推荐给用户，用户点击所推荐的该表情符号，即可实现其输入。

发明人在本申请的研究过程中发现，上述第一种表情符号输入方式，需要用户从大量表情符号中手动选择自己需要的表情符号，输入效率低；上述第二种表情符号输入方式，根据用户当前输入的文本和预设的标签主动为用户推荐表情符号，虽然可以在一定程度上简化表情符号输入过程，提高输入效率，但由于其依赖每个表情符号的标签，只有在用户输入的单个字词或单词与所述标签相同或相匹配时才会为触发表情符号推荐，导致触发表情符号推荐的概率较低，导致用户大多数时候还是要通过第一种方式输入表情符号，很难有效提高表情符号输入效率。

发明内容

本申请提供了一种表情符号推荐方法及装置，以解决现有表情符号输入方法输入效率低的问题。

为了解决上述技术问题，本申请实施例公开了如下技术方案：

本申请实施例的第一方面，提供一种表情符号推荐方法，包括：

获取各个表情符号对应的各个训练语句；其中，每个训练语句包括一个或多个单词；

对所述训练语句进行聚类，得到多个释义类别；

根据每个释义类别中所包含训练语句的总个数，计算每个释义类别对应的第一概率；

根据训练语句与表情符号的对应关系，确定每个释义类别中所包含的表情符号，并计算每个释义类别中每个表情符号对应的第二概率；

根据每个释义类别中每个单词出现的次数，计算每个释义类别中每个单词对应的第三概率；

根据所述第一概率和第三概率，利用贝叶斯公式计算用户输入的目标语句属于任一释义类别的第四概率；其中，所述目标语句包括一个或多个目标单词；

根据所述第四概率确定所述目标语句对应的目标释义类别；

根据所述目标释义类别所包含的各个表情符号对应的第二概率进行表情符号推荐。

可选的，根据每个释义类别中所包含训练语句的总个数，计算每个释义类别对应的第一概率，包括：

分别统计每个释义类别C_i中所包含的训练语句的总个数

根据如下公式计算各个释义类别C_i对应的第一概率其中，i＝1,2,...,m；m为释义类别的总个数。

可选的，计算每个释义类别中每个表情符号对应的第二概率，包括：

统计每个释义类别C_i中每个表情符号e_k出现的次数

根据如下公式计算每个释义类别C_i中每个表情符号e_k对应的第二概率其中，i＝1,2,...,m，m为释义类别的总个数；k＝1,2,...,p，p为表情符号的总个数。

可选的，根据每个释义类别中每个单词出现的次数，计算每个释义类别中每个单词对应的第三概率，包括：

统计每个释义类别C_i中每个单词w_j出现的次数

根据如下公式计算每个释义类别C_i中每个单词w_j对应的第三概率其中，i＝1,2,...,m，m为释义类别的总个数；j＝1,2,...,q，q为单词的总个数。

可选的，根据所述第四概率确定所述目标语句对应的目标释义类别，包括：

判断所述第四概率的最大值是否大于第一阈值；

当所述第四概率的最大值大于第一阈值时，将所述第四概率的最大值对应的释义类别作为目标释义类别。

按照第四概率由大到小的顺序对各个释义类别排序；

根据排序结果计算前S个释义类别的第四概率之和；

判断所述第四概率的最大值与所述第四概率之和的比值是否大于第二阈值；

当所述比值大于第二阈值时，将所述第四概率的最大值对应的释义类别作为目标释义类别。

可选的，在根据所述第一概率和第三概率，利用贝叶斯公式计算用户输入的目标语句属于任一释义类别的第四概率之前，还包括：

判断当前输入场景是否为预设场景；

当所述当前输入场景不是预设场景时，执行所根据所述第一概率和第三概率，利用贝叶斯公式计算用户输入的目标语句属于任一释义类别的第四概率。

可选的，在计算每个单词在相应释义类别中对应的第三概率之前，还包括：

当所述训练语句为第一语言类型时，对所述训练语句进行分词处理；

和/或，对所述训练语句中所包含的单词进行停用词过滤处理。

本申请实施例的第二方面，提供一种表情符号推荐装置，包括：语料训练单元和实时推荐单元；

其中，所述语料训练单元包括：

聚类处理单元，用于获取各个表情符号对应的各个训练语句，并对所述训练语句进行聚类，得到多个释义类别；其中，每个训练语句包括一个或多个单词；

第一计算单元，用于根据每个释义类别中所包含训练语句的总个数，计算每个释义类别对应的第一概率；

第二计算单元，用于根据训练语句与表情符号的对应关系，确定每个释义类别中所包含的表情符号，并计算每个释义类别中每个表情符号对应的第二概率；

第三计算单元，用于根据每个释义类别中每个单词出现的次数，计算每个释义类别中每个单词对应的第三概率；

所述实时推荐单元包括：

第四计算单元，用于根据所述第一概率和第三概率，利用贝叶斯公式计算用户输入的目标语句属于任一释义类别的第四概率；其中，所述目标语句包括一个或多个目标单词；

目标类别确定单元，用于根据所述第四概率确定所述目标语句对应的目标释义类别；

实时推荐执行单元，用于根据所述目标释义类别所包含的各个表情符号对应的第二概率进行表情符号推荐。

可选的，所述目标类别确定单元，包括以下至少一种：

第一确定单元，用于判断所述第四概率的最大值是否大于第一阈值，并在所述第四概率的最大值大于第一阈值时，将所述第四概率的最大值对应的释义类别作为目标释义类别；

第二确定单元，用于按照第四概率由大到小的顺序对各个释义类别排序，根据排序结果计算前S个释义类别的第四概率之和，判断所述第四概率的最大值与所述第四概率之和的比值是否大于第二阈值，并在所述比值大于第二阈值时，将所述第四概率的最大值对应的释义类别作为目标释义类别。

可选的，所述实时推荐单元还包括：

场景判断单元，用于判断当前输入场景是否为预设场景，并在所述当前输入场景不是预设场景时，触发所述第四计算单元。

可选的，所述语料训练单元还包括：

分词处理单元，用于在计算每个单词在相应释义类别中对应的第三概率之前，当所述训练语句为第一语言类型时，对所述训练语句进行分词处理；

和/或，停用词过滤单元，用于在计算每个单词在相应释义类别中对应的第三概率之前，对所述训练语句中所包含的单词进行停用词过滤处理。

由以上技术方案可知，相对于现有技术，本申请实施例先对各个表情符号对应的训练语句进行聚类，基于聚类得到的释义类别进行语料训练，可以避免因一个表情符号对应多个语义不相关的训练语句造成的混乱，提高语料训练的准确性；同时，在进行语料训练的过程中，计算得到每个释义类别对应的第一概率，以及每个释义类别中每个单词对应的第三概率，进而根据该第一概率和第三概率，并结合贝叶斯公式，可以对用户实时输入的目标语句进行精确到单词的语义匹配概率分析，既可以避免现有基于表情标签绝对匹配的推荐方式下推荐触发几率极低的问题，也可以保证最终分析所确定的目标释义类别为与目标语句的实际含义最相近的释义类别，保证推荐出来的表情符号更符合用户当前的需求，进而可以提高推荐准确性，提高用户对表情符号的输入效率，提升用户体验。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。

图1为本申请实施例提供的一种表情符号推荐方法的流程图；

图2为本申请实施例提供的另一种表情符号推荐方法的流程图；

图3为本申请实施例提供的一种表情符号推荐装置的结构示意图。

具体实施方式

为了使本领域的技术人员更好地理解本申请实施例中的技术方案，并使本申请实施例的上述目的、特征和优点能够更加明显易懂，下面结合附图对本申请实施例中技术方案作进一步详细的说明。

本申请实施例提供了一种表情符号推荐方法及装置，以解决现有表情符号输入方法输入效率低的问题。

图1为本申请实施例提供的一种表情符号推荐方法的流程图。本申请实施例提供的表情符号推荐方法可以应用于任一种输入法中，如中文拼音输入法、中文五笔输入法、英文输入法等，用于辅助用户输入表情符号，提高表情符号输入效率。

参照图1所示流程图，该表情符号推荐方法至少包括如下步骤：

S11、获取各个表情符号对应的各个训练语句，并对所述训练语句进行聚类，得到多个释义类别。

上述训练语句，即用于解释相应的表情符号所表示的含义的语句。每个训练语句包括一个或多个单词。可选的，对于不同的语言，所述训练语句具体可以为中文语句、日文语句、英文语句、法文语句等。

实际应用中，一个表情符号可以有多种含义，每种含义可以通过多个训练语句进行描述，即一个表情符号对应大量的训练语句。例如，手掌符号对应的含义可以有3种：举手、停止、击掌；其中，“举手”这一含义对应的训练语句可以有500个，如“A hand heldup showing its palm”；“停止”这一含义对应的训练语句可以有600个，如“stop”；“击掌”这一含义对应的训练语句可以有550个，如“as a high-five”。即，手掌符号对应的训练语句共500+600+550＝1650个，对这1650个训练语句及其他表情符号对应的训练语句进行聚类，得到多个释义类别，每个释义类别中可以包括含义相似的多个不同的表情符号。

本申请实施例提供的表情符号推荐方法基于语料训练得到的推荐模型实现，因此，为保证推荐结果的准确性，首先要保证语料训练过程的准确性。由以上手掌符号的释义举例可知，一个表情符号对应的多各训练语句，从字面意思上看可能是完全不相关的，如果直接以表情符号为类别进行训练，则该表情符号的多个不相关的训练语句也都被放在同一类别中，这会导致混乱、训练模型结果不准确，从而难以保证训练准确率。有鉴于此，本申请实施例，先对所有的训练语句进行聚类，使得具有相似语义的句子聚成一类，即一个释义类别，再基于该释义类别进行训练，即可保证训练的准确性。

具体的，本实施例可以采用现有任一种无监督距离方法，如k-means聚类法等。其中，聚类过程中，两个训练语句之间的相似性可以通过其余弦距离来表示，即其中，d_ij表示两个训练语句之间的余弦距离，n_i、n_j分别表示两个训练语句单词的个数，s_ij表示两个训练语句中相同单词的个数。

可选的，在对各个训练语句聚类后，可以为得到的每个释义类别设置相应的编号，以便于数据处理及调用。例如，可以将释义类别分别记为C_i；其中，i＝1,2,...,m；m为聚类得到的释义类别的总个数。

以下举例说明对训练语句进行聚类操作的效果。假设表情符号e₁共有E11、E12、E13三个训练语句，表情符号e₂共有E21、E22三个训练语句，表情符号e₃只有E31一个训练语句，根据聚类算法得知，E11和E21语义相似，聚为同一类C₁，E12、E13和E31语义相似，聚为同一类C₂，E22自成同一类C₃，在训练模型中记录该聚类结果，如下表所示。

表1聚类前后表情符号及训练语句记录表

S12、根据每个释义类别中所包含训练语句的总个数，计算每个释义类别对应的第一概率。

可选的，本申请实施例中，计算所述第一概率的具体方法为：

S121、分别统计每个释义类别C_i中所包含的训练语句的总个数

S122、根据如下公式计算各个释义类别C_i对应的第一概率P(C_i)：

其中，i＝1,2,...,m；m为释义类别的总个数。

仍以上表1所示假设情况为例(m＝3)，经过步骤S121统计可得，三个释义类别C₁、C₂、C₃中所包含的训练语句总个数分别为：进而经过步骤S122可以计算得到：三个释义类别C₁、C₂、C₃对应的第一概率分别为：

释义类别C₁对应的第一概率为P(C₁)＝2/(2+3+1)＝1/3；

释义类别C₂对应的第一概率为P(C₂)＝3/(2+3+1)＝1/2；

释义类别C₃对应的第一概率为P(C₃)＝1/(2+3+1)＝1/6。

S13、根据训练语句与表情符号的对应关系，确定每个释义类别中所包含的表情符号，并计算每个释义类别中每个表情符号对应的第二概率。

可选的，上述第二概率的具体计算方法可以为：

S131、统计每个释义类别中每个表情符号出现的次数

S132、根据如下公式计算每个释义类别C_i中每个表情符号e_k对应的第二概率：

其中，i＝1,2,...,m，m为释义类别的总个数；k＝1,2,...,p，p为表情符号的总个数。

仍以上表1所示假设情况为例(m＝3，p＝3)，经过步骤S131统计可得：

在释义类别C₁中(即i＝1时)，e₁出现的次数为e₂出现的次数为e₃出现的次数为(即C₁中不存在e₃)；

在释义类别C₂中(即i＝2时)，e₁出现的次数为e₂出现的次数为e₃出现的次数为

在释义类别C₃中(即i＝3时)，e₁出现的次数为e₂出现的次数为e₃出现的次数为

进而经过步骤S132计算可得：

在释义类别C₁中(即i＝1时)，e₁对应的第二概率为e₂对应的第二概率为P(e₂|C₁)＝1/2，e₃对应的第二概率为P(e₃|C₁)＝0(由于C₁中不存在e₃，故实际应用中可以不计算P(e₃|C₁))；

在释义类别C₂中(即i＝2时)，e₁对应的第二概率为P(e₁|C₂)＝2/(2+0+1)＝2/3，e₂对应的第二概率为P(e₂|C₂)＝0，e₃对应的第二概率为P(e₃|C₂)＝1/(2+0+1)＝1/3；

在释义类别C₃中(即i＝3时)，e₁对应的第二概率为P(e₁|C₃)＝0，e₂对应的第二概率为P(e₂|C₃)＝1，e₃对应的第二概率为P(e₃|C₃)＝0。

S14、根据每个释义类别中每个单词出现的次数，计算每个释义类别中每个单词对应的第三概率。

所有训练语句所涉及的单词可以依次编号为w_j，其中，j＝1,2,...,q，q为单词的总个数；对于任一训练语句而言，其可由上述q个单词中的一个或多个组成；对于任一单词而言，其可出现在一个或多个训练语句中，且在同一训练语句中出现的次数也可以为一次或多次。因此，在某一释义类别中，某一单词可以出现一次或多次，步骤S14即统计每个释义类别C_i中每个单词w_j出现的次数(其中，i＝1,2,...,m，m为释义类别的总个数)，根据这些次数，可以计算得到每个释义类别中每个单词对应的第三概率P(w_j|C_i)。

可选的，根据如下公式计算每个释义类别C_i中每个单词w_j对应的第三概率

本申请实施例中，上述步骤S11至S14完成了语料训练过程；可选的，可以将上述步骤得到的释义类别、第一概率、第二概率和第三概率都保存至推荐模型中，在用户输入文字时，调用该推荐模型，来为用户推荐表情符号，具体步骤如下述S15至S17。

S15、根据所述第一概率和第三概率，利用贝叶斯公式计算用户输入的目标语句属于任一释义类别的第四概率。

其中，用户输入的目标语句可以由一个或多个目标单词构成。

假设所述目标语句由n个目标单词构成，分别为w₁,w₂,w₃,...,w_n，则根据贝叶斯(Bayes)公式可以计算该目标语句属于任一释义类别C_i的概率，即上述第四概率，为：

S16、根据所述第四概率确定所述目标语句对应的目标释义类别。

在本申请一个可行的实施例中，可以直接将第四概率最大值对应的释义类别作为所述目标释义类别。其中，由于在w₁,w₂,w₃,...,w_n固定的前提下，上述第四概率的计算公式中的分母部分P(w₁,w₂,w₃,...,w_n)为固定值，故实际应用中，步骤S15中只需计算分子部分(对于任一释义类别，该分子部分表示该释义类别中各个目标单词对应的第三概率与该释义类别对应的第一概率之积的连续乘积)，并通过比较该分子部分的大小来确定哪个释义类别对应的第四概率最大，也即确定哪个释义类别为目标释义类别。

S17、根据所述目标释义类别所包含的各个表情符号对应的第二概率进行表情符号推荐。

本申请实施例中，所述第四概率越高，说明n个单词w₁,w₂,w₃,...,w_n的整体含义与该第四概率对应的释义类别中的各个表情符号更匹配，故将第四概率的最大值对应的释义类别为目标释义类别，推荐该目标释义类别中的表情符号后，被用户使用的概率越高，从而可以更有效地提高用户输入表情符号的速度。

本申请实施例中，可以按照第二概率由高到低的顺序，将所述目标释义类别所包含的一个或多个表情符号作为候选表情符号显示出来(也即推荐目标释义类别中第二概率最大的一个或多个表情符号)，以待用户进行选择；进而在接收到用户的输入确认操作(如直接点击某个候选表情符号、按下与某个候选表情符号对应的显示编号相同的数字键等)后，即可将该输入确认操作对应的候选表情符号输入当前的文字框中。

由以上技术方案可知，本申请实施例首先以各个表情符号对应的训练语句为语料，进行语料训练，包括对所述训练语句进行聚类，得到多个释义类别，以及基于该释义类别分别计算上述第一概率、第二概率和第三概率；然后在用户输入文字时，根据上述第一概率和第三概率对用户输入的目标语句进行实时分析，确定与所述目标语句最匹配的目标释义类别，最后根据所述第二概率将目标释义类别中的一个或多个表情符号推荐给用户，从而用户通过对被推荐的表情符号进行简单的输入确认操作，即可完成对相应表情符号的输入。相对于现有技术，本申请实施例先对各个表情符号对应的训练语句进行聚类，基于聚类得到的释义类别进行语料训练，可以避免因一个表情符号对应多个语义不相关的训练语句造成的混乱，提高语料训练的准确性；同时，在进行语料训练的过程中，计算得到每个释义类别对应的第一概率，以及每个释义类别中每个单词对应的第三概率，进而根据该第一概率和第三概率，并结合贝叶斯公式，可以对用户实时输入的目标语句进行精确到单词的语义匹配概率分析，既可以避免现有基于表情标签绝对匹配的推荐方式下推荐触发几率极低的问题，也可以保证最终分析所确定的目标释义类别为与目标语句的实际含义最相近的释义类别，保证推荐出来的表情符号更符合用户当前的需求，进而可以提高推荐准确性，提高用户对表情符号的输入效率，提升用户体验。

本申请实施例中，为提高表情符号推荐的准确性，上述步骤S16所述的根据所述第四概率确定所述目标语句对应的目标释义类别，具体可以有多种实施方式，以下分别阐述两种常用实施方式。

在一个可行的实施例中，上述步骤S16具体可以包括：

S1611、判断所述第四概率的最大值是否大于第一阈值；

S1612、当所述第四概率的最大值大于第一阈值时，将所述第四概率的最大值对应的释义类别作为目标释义类别。

上述第一阈值为一概率值，其取值区间为开区间(0，1)，即第一阈值大于0且小于1。本申请实施例中，步骤S1611中与第一阈值比较的对象可以为第四概率，也可以为第四概率计算公式中的分子部分。

假设通过比较各个释义类别对应的第四概率P(C_i|w₁,w₂,w₃,...,w_n)得知其最大值为P(C₁|w₁,w₂,w₃,...,w_n)，则再比较P(C₁|w₁,w₂,w₃,...,w_n)是否大于预设的第一阈值，如果是，则将其对应的释义类别C₁作为目标释义类别；或者只比较第四概率计算公式的分子部分得知其最大值为则再比较是否大于预设的第一阈值，如果是，则将其对应的释义类别C₁作为目标释义类别。

反之，当所述第四概率(或其分子部分)的最大值不大于第一阈值时，则不再执行后续步骤，即不进行表情符号推荐。这样可以保证当且仅当存在与目标语句的匹配度(也即第四概率)高于预设程度(即第一阈值对应的匹配度)的释义类别时才执行表情符号推荐，而由于当各个释义类别与目标语句的匹配度都较低时，即使推荐表情符号，用户选择输入被推荐的表情符号的概率也很低，故本申请实施例在此情况下不执行表情符号推荐，可以避免推荐操作对用户的输入操作的影响。

上述第一阈值的具体取值可以根据表情符号推荐的精确度要求来设置，精确度要求越高，所设置的第一阈值越大。另外，针对步骤S1611中比较对象为第四概率，和比较对象为第四概率计算公式中的分子部分两种具体实施方式，所采用的第一阈值也可以不同。

在另一个可行的实施例中，上述步骤S16具体可以包括：

S1621、按照第四概率由大到小的顺序对各个释义类别排序；

S1622、根据排序结果计算前S个释义类别的第四概率之和；

S1623、判断所述第四概率的最大值与所述第四概率之和的比值是否大于第二阈值；

S1624、当所述比值大于第二阈值时，将所述第四概率的最大值对应的释义类别作为目标释义类别。

其中，s为一预设的正整数，步骤S1621至S1624所针对的比较对象可以为第四概率，也可以为第四概率计算公式中的分子部分(即步骤S15中可以只计算该分子部分，不必计算出真正的第四概率的数值)。

例如，假设预设的第二阈值为0.5，按照第四概率或者第四概率计算公式中的分子部分由大到小的顺序队各个释义类别排序，得知：第四概率(或其分子部分)的最大值为0.3，前5个(假设s＝5)释义类别对应的第四概率(或其分子部分)之和为0.5，计算二者比值为0.3/0.5＝0.6，大于预设的第二阈值0.5，则将第四概率(或其分子部分)的最大值对应的释义类别作为目标释义类别，并继续执行后续步骤S17完成表情符号推荐。

反之，当步骤S1623中判断得到所述比值不大于第二阈值，则不再执行后续步骤，即不进行表情符号推荐。例如，第四概率(或其分子部分)的最大值为0.2，前5个(假设s＝5)释义类别对应的第四概率(或其分子部分)之和为0.5，则其比值为0.2/0.5＝0.4，小于预设阈值0.5，则说明不存在与目标语句的匹配度高于预设程度(即第二阈值对应的匹配度)的释义类别，故本实施例在此情况下禁止表情符号推荐，以避免不恰当的表情符号推荐影响用户的正常输入。

以上实施例介绍了两种常用的基于第四概率确定是否存在与目标语句之间匹配度满足要求的训练语句，且仅在存在与目标语句之间匹配度满足要求的训练语句时，才将其作为目标训练语句，并进一步基于目标训练语句中表情符号的第二概率来执行表情符号推荐，可以避免不恰当的表情符号推荐影响用户的正常输入。实际应用中，本领域技术人员还可以想到其他基于第四概率确定目标训练语句的实施方式，均属于本申请的保护范畴。

图2为本申请实施例提供的另一种表情符号推荐方法的流程图。参照图2，该表情推荐方法包括以下步骤：

S21、获取各个表情符号对应的各个训练语句，并对所述训练语句进行聚类，得到多个释义类别。

S22、根据每个释义类别中所包含训练语句的总个数，计算每个释义类别对应的第一概率。

S23、根据训练语句与表情符号的对应关系，确定每个释义类别中所包含的表情符号，并计算每个释义类别中每个表情符号对应的第二概率。

S24、根据每个释义类别中每个单词出现的次数，计算每个释义类别中每个单词对应的第三概率。

上述步骤S21至S24完成了语料训练过程，得到推荐模型，该推荐模型中记录了上述释义类别、第一概率、第二概率和第三概率等训练数据，具体原理可参照前文中步骤S11至S14的相关文字描述，此处不再赘述。

S25、判断当前输入场景是否为预设场景，如果是，则重新执行步骤S25(或结束本次推荐流程)，否则执行步骤S26。

S26、根据所述第一概率和第三概率，利用贝叶斯公式计算用户输入的目标语句属于任一释义类别的第四概率。

S27、根据所述第四概率确定所述目标语句对应的目标释义类别。

S28、根据所述目标释义类别所包含的各个表情符号对应的第二概率进行表情符号推荐。

可选的，上述预设场景可以包括商业信函编辑场景、合同书编辑场景等不宜出现表情符号的正式场景。

本申请实施例通过步骤S25限定表情符号推荐的触发时机，仅在适合出现表情符号的非正式场景下执行步骤S26至S28，辅助用户快速输入表情符号，同时避免在不适宜出现表情符号的场景下频繁推荐表情符号影响正常文字的输入效率。

在本申请一个可行的实施例中，为保证上述计算第三概率的准确性，在计算第三概率之前(即执行步骤S14或S24之前)，还可以执行以下步骤：

当所述训练语句为第一语言类型时，对所述训练语句进行分词处理。

上述第一语言包括中文、日文等不能直观的区分一个语句中包含的各个单词的语言；当训练语句为第一语言时，本申请实施例先通过分词处理，将训练语句中包含的各个单词区分开来。而对于英语、法语等，可以直接通过空格符号区分不同的单词。

在本申请另一个可行的实施例中，为保证上述计算第三概率的准确性，在计算第三概率之前(即执行步骤S14或S24之前)，还可以执行以下步骤：

对所述训练语句中所包含的单词进行停用词过滤处理。

所述停用词，指使用频率很高但又没有实际意义的词，主要包括语气助词、副词、介词、连词等，如英文中的“the”、“a”、“an”、“that”、“is”、“what”等。如果将这些停用词也应用于语料训练，则极有可能影响其他有实际意义的单词的第三概率的准确性，并最终影响对目标语言所述目标释义类别的判断准确性，故本申请实施例在计算第三概率前，先对各个训练语句执行停用词过滤处理。进一步的，对于用户实时输入的目标语句，也可以先执行停用词过滤处理，再根据过滤后的目标语句计算所述第四概率。

同样基于提高推荐准确性的目的，在对训练语句或目标语句执行停用词处理时，还可以去除其中的标点符号。

本领域的技术人员可以清楚地了解到本发明实施例中的技术可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本发明实施例中的技术方案可以以软件产品(包括程序或代码等)的形式体现出来，该计算机软件产品可以存储在图像采集设备的图像处理芯片中，当图像处理芯片执行该计算机软件产品时，可以实现上文实施例所述的任一种表情符号推荐方法。

相应的，本申请实施例还提供一种表情符号推荐装置。参照图3所示结构示意图，该装置包括：语料训练单元100和实时推荐单元200。

其中，所述语料训练单元100包括：

聚类处理单元101，用于获取各个表情符号对应的各个训练语句，并对所述训练语句进行聚类，得到多个释义类别；其中，每个训练语句包括一个或多个单词；

第一计算单元102，用于根据每个释义类别中所包含训练语句的总个数，计算每个释义类别对应的第一概率；

第二计算单元103，用于根据训练语句与表情符号的对应关系，确定每个释义类别中所包含的表情符号，并计算每个释义类别中每个表情符号对应的第二概率；

第三计算单元104，用于根据每个释义类别中每个单词出现的次数，计算每个释义类别中每个单词对应的第三概率；

所述实时推荐单元200包括：

第四计算单元201，用于根据所述第一概率和第三概率，利用贝叶斯公式计算用户输入的目标语句属于任一释义类别的第四概率；其中，所述目标语句包括一个或多个目标单词；

目标类别确定单元202，用于根据所述第四概率确定所述目标语句对应的目标释义类别；

实时推荐执行单元203，用于根据所述目标释义类别所包含的各个表情符号对应的第二概率进行表情符号推荐。

可选的，上述第一计算单元、第二计算单元、第三计算单元、第四计算单元所采用的具体计算原理及计算公式可参照上文方法实施例中步骤S12至S15所述，此处不再赘述。

可选的，所述目标类别确定单元202，具体可以包括下述第一确定单元和第二确定单元中的至少一种：

所述第一确定单元，用于判断所述第四概率的最大值是否大于第一阈值，并在所述第四概率的最大值大于第一阈值时，将所述第四概率的最大值对应的释义类别作为目标释义类别；

所述第二确定单元，用于按照第四概率由大到小的顺序对各个释义类别排序，根据排序结果计算前S个释义类别的第四概率之和，判断所述第四概率的最大值与所述第四概率之和的比值是否大于第二阈值，并在所述比值大于第二阈值时，将所述第四概率的最大值对应的释义类别作为目标释义类别。

所述第一确定单元和第二确定单元所采用的具体计算原理及计算公式可参照上文方法实施例中步骤S1611、S1612，以及S1621至S1624，此处不再赘述。

在本申请一个可行的实施例中，上述实时推荐单元200还可以包括：

可见，本申请实施例通过场景判断单元来限定表情符号推荐的触发时机，仅在适合出现表情符号的非正式场景下执行步骤S26至S28，辅助用户快速输入表情符号，同时避免在不适宜出现表情符号的场景下频繁推荐表情符号影响正常文字的输入效率。

在本申请一个可行的实施例中，上述语料训练单元还包括：

本申请实施例中，对于中文、日文等不能直观的区分一个语句中包含的各个单词的第一语言，通过上述分词处理单元可以将训练语句中包含的各个单词准确区分开来，以提高上述计算第三计算单元的计算准确性，进而提高表情符号推荐准确性。而对于英语、法语等，可以直接通过空格符号区分不同的单词。

本申请实施例中，通过上述停用词过滤单元来讲训练语句中没有实际意义的停用词去除，使得上述第三计算单元仅基于具有实际意义的单词进行第三概率计算，提高计算准确性，进而提高表情符号推荐准确性。

另外，为进一步提高表情符号推荐准确性，在本申请其他实施例中，还可以同时在实时推荐单元中设置另一分词处理单元，用于在计算第四概率之前，当所述目标语句为第一语言类型时，对所述目标语句进行分词处理；同样的，还可以在实时推荐单元中设置另一停用词过滤单元，用于在计算第四概率之前，对所述目标语句中所包含的单词进行停用词过滤处理。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其它实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims

1.一种表情符号推荐方法，其特征在于，包括：

对所述训练语句进行聚类，得到多个释义类别；

根据所述第四概率确定所述目标语句对应的目标释义类别；

根据所述目标释义类别所包含的各个表情符号对应的第二概率进行表情符号推荐；

其中，根据所述第一概率和第三概率，利用贝叶斯公式计算用户输入的目标语句属于任一释义类别的第四概率，包括：

根据以下公式计算所述第四概率：

其中，P(C_i|w₁,w₂,w₃,...,w_n)为第四概率，C_i为释义类别，i＝1,2,...,m，m为释义类别的总个数；w_j为所述目标语句包括的目标单词，j＝1,2,...,n，n为所述目标单词的总个数；P(C_i)为所述第一概率；P(w_j|C_i)为所述第三概率。

2.根据权利要求1所述的方法，其特征在于，根据每个释义类别中所包含训练语句的总个数，计算每个释义类别对应的第一概率，包括：

分别统计每个释义类别C_i中所包含的训练语句的总个数

3.根据权利要求1所述的方法，其特征在于，计算每个释义类别中每个表情符号对应的第二概率，包括：

统计每个释义类别C_i中每个表情符号e_k出现的次数

4.根据权利要求1所述的方法，其特征在于，根据每个释义类别中每个单词出现的次数，计算每个释义类别中每个单词对应的第三概率，包括：

统计每个释义类别C_i中每个单词w_j出现的次数

5.根据权利要求1至4任一项所述的方法，其特征在于，根据所述第四概率确定所述目标语句对应的目标释义类别，包括：

判断所述第四概率的最大值是否大于第一阈值；

6.根据权利要求1至4任一项所述的方法，其特征在于，根据所述第四概率确定所述目标语句对应的目标释义类别，包括：

按照第四概率由大到小的顺序对各个释义类别排序；

根据排序结果计算前S个释义类别的第四概率之和；

7.根据权利要求1至4任一项所述的方法，其特征在于，在根据所述第一概率和第三概率，利用贝叶斯公式计算用户输入的目标语句属于任一释义类别的第四概率之前，还包括：

判断当前输入场景是否为预设场景；

8.根据权利要求1至4任一项所述的方法，其特征在于，在计算每个单词在相应释义类别中对应的第三概率之前，还包括：

9.一种表情符号推荐装置，其特征在于，包括：语料训练单元和实时推荐单元；

其中，所述语料训练单元包括：

所述实时推荐单元包括：

实时推荐执行单元，用于根据所述目标释义类别所包含的各个表情符号对应的第二概率进行表情符号推荐；

其中，所述第四计算单元包括：

第四计算子单元，用于根据以下公式计算所述第四概率：

其中，P(C_i|w₁,w₂,w₃,...,w_n)为第四概率，C_i为释义类别，C_i为释义类别，i＝1,2,...,m，m为释义类别的总个数；w_j为所述目标语句包括的目标单词，j＝1,2,...,n，n为所述目标单词的总个数；P(C_i)为所述第一概率；P(w_j|C_i)为所述第三概率。

10.根据权利要求9所述的装置，其特征在于，所述目标类别确定单元，包括以下至少一种：

11.根据权利要求9所述的装置，其特征在于，所述实时推荐单元还包括：

12.根据权利要求9所述的装置，其特征在于，所述语料训练单元还包括：