CN111193657A

CN111193657A - 聊天表情回复方法、装置及存储介质

Info

Publication number: CN111193657A
Application number: CN201911274356.3A
Authority: CN
Inventors: 章彥博
Original assignee: Guangzhou Laka Network Technology Co Ltd
Current assignee: Guangzhou Laka Network Technology Co Ltd
Priority date: 2019-12-12
Filing date: 2019-12-12
Publication date: 2020-05-22

Abstract

本发明涉及网络应用技术领域，提供一种聊天表情回复方法、装置及存储介质，该方法包括：步骤S10、收到用户发送的聊天消息；所述聊天消息包括文字消息、图片消息和语音消息中的任意一种；步骤S20、对所述聊天消息进行解析，以得到有效信息；步骤S30、对所述有效信息进行判断，根据判断结果匹配表情回复策略，得到表情回复结果；步骤S40、将所述表情回复结果发送给用户。此外，还提供了聊天表情回复装置及存储介质。通过本发明提供的技术方案，通过自动地识别用户发送的聊天消息，智能匹配优选的表情回复，表情回复准确合理，具有多样性和趣味性，表现力丰富。

Description

聊天表情回复方法、装置及存储介质

技术领域

本发明涉及网络应用技术领域，尤其涉及一种聊天表情回复方法、装置及存储介质。

背景技术

聊天是网络应用常用的功能，比如微信、QQ、微博、百度贴吧等社交网络应用，在社交网络应用中，使用网络表情包大大丰富了人们日常情感的表达，比起传统的文字和语音，其表现出了更多的趣味性和友好性，而随着网络媒体各种表情输入法的涌现，也使得表情包的使用更加广泛普遍。特别在泛娱乐社交场景下，表情包的使用无疑拉近了人们的距离，营造出轻松活跃的气氛，在一些二次元网络群体中，甚至可以看到只用表情包进行沟通交流的忠实用户，可见表情交流俨然成为网络社交平台上新的潮流。

随着聊天机器人的出现，社交网络应用里通过加入聊天机器人模仿人类作为聊天对象越来越普遍，但现有技术的聊天机器人还多是文本或语音方式，在网络图片表情包的智能回复方面不太理想，主要表现在：一是回复不够准确合理；二是缺乏表情互动的聊天数据；三是只能使用已有的表情回复，不能自动合成或生成表情；四是表情回复不够多样性和趣味性，表现力不够丰富。

发明内容

本发明主要目的是提供一种聊天表情回复方法、装置及存储介质，通过自动地识别用户发送的聊天消息，智能匹配优选的表情回复，表情回复准确合理，具有多样性和趣味性，表现力丰富。

为实现上述目的，本发明提供了一种聊天表情回复方法，所述聊天表情回复方法包括：

步骤S10：收到用户发送的聊天消息；所述聊天消息包括文字消息、图片消息和语音消息中的任意一种或多种；

步骤S20：对所述聊天消息进行解析，以得到有效信息；

步骤S30：对所述有效信息进行判断，根据判断结果匹配表情回复策略，得到表情回复结果；所述表情回复策略包括图片模仿式表情回复策略、图文对话式表情回复策略、文字模仿式表情回复策略和文字对话式表情回复策略；所述回复结果包括优选的表情回复结果或者默认的表情回复结果；

步骤S40：将所述表情回复结果发送给用户。

进一步地，所述步骤S20包括：

步骤S210：判断所述聊天消息是否为文字消息，如果是，则执行步骤S220；否则，判断所述聊天消息是否为图片消息，如果是，则执行步骤S230；否则判断所述聊天消息是否为语音消息，如果是，则执行步骤S280；

步骤S220：将用户发送的所述文字消息直接输出作为所述文字消息的文字有效信息；

步骤S230：将所述图片消息进行解析处理；

步骤S240：判断是否能够从所述图片消息中解析出有效的文本信息；当能够解析出有效的文本信息时，执行步骤S250；当不能解析出有效的文本信息时，执行步骤S270；

步骤S250：对所述图片消息进行文字信息提取处理，以得到图片消息的文本有效信息；

步骤S260：将所述图片消息的图片及所述图片消息的文本有效信息输出作为所述图片消息的图文有效信息；

步骤S270：将不能够解析出有效的文本信息的图片消息直接输出原始图片消息作为所述图片消息的图片有效信息；

步骤S280：将所述语音消息通过语音识别(Automatic Speech Recognition，ASR)转化为语音的文本信息，将所述语音的文本信息作为所述语音消息的文字有效信息。

进一步地，所述文字信息提取处理，通过光学字符识别(Optical CharacterRecognition，OCR)技术识别图片上的文本有效信息；所述OCR技术由基于端到端神经网络的实时文字目标检测模型(You only look once V3，YOLOV3)和基于卷积循环神经网络(Convolutional Recurrent Neural Network，CRNN)的文字识别模型级联组成，所述YOLOV3和CRNN模型均通过实际应用场景数据的finetune微调训练得到；通过加载所述finetune微调后的模型对所述图片消息做inference推理，即可识别得到所述图片消息的文本有效信息。

进一步地，所述finetune训练模型的训练方法包括：

从网络上爬虫10万以上数量的表情图片并从所述表情图片中筛选出有文字的表情图片；

人工给这些表情图片的显性文字用框选的方式标注好文字位置信息，建立(p，w)的数据对格式，其中，p是指表情图片，w是指文字位置；

将所述文字位置的文字裁剪下来并标注好文字内容，建立(p′，t)的数据对格式，其中，p′是指经文字裁剪后的文字图片，t是指文字内容；

分别将(p，w)作为训练数据输入到所述目标检测模型中进行finetune微调训练，将(p′，t)中的文字图片通过拉伸、放缩和/或旋转数据增强技术进行数据扩充后输入到所述文字识别模型中进行finetune微调训练；

得到训练后的所述图片消息的文本有效信息。

进一步地，所述步骤S30包括：

步骤S310：判断所述有效信息是否为所述图片消息的图片有效信息，如果是，则执行步骤S320；否则判断所述有效信息是否为所述图片消息的图文有效信息，如果是，则执行步骤S330；否则判断所述有效信息是否为所述文字有效信息，如果是，则执行步骤S340；其中所述文字有效信息包括所述文字信息的文字有效信息和所述语音消息的文字有效信息；

步骤S320：将所述图片消息的图片有效信息匹配所述图片模仿式表情回复策略，得到表情回复决定；

步骤S330：将所述图片消息的图文有效信息匹配所述图文对话式表情回复策略，得到表情回复决定；

步骤S340：将所述文字有效信息随机依次匹配所述文字模仿式表情回复策略和文字对话式表情回复策略，得到表情回复决定；

步骤S350：判断所述表情回复决定是否存在优选的表情回复，当存在优选的表情回复时，执行步骤S360；当不存在优选的表情回复时，执行步骤S370；

步骤S360：从优选的表情回复中选择表情回复结果；

步骤S370：从默认表情中选择表情回复结果。

进一步地，所述图片模仿式表情回复策略是将所述图片有效信息通过图片相似度模型匹配无字模板表情图片数据库中的图片，优选出回复决定；其中，所述无字模板表情图片数据库通过对原始表情图片接入到已经训练好的图片文字擦除模型中进行文字擦除预处理，再通过图片修改工具擦除渲染操作进行精细化的擦除文字，将擦除文字后的表情图片与标准无字模板类表情图片通过文本关键词的方式建立倒排索引，以及通过文本词向量的方式建立语义索引。

进一步地，所述图文对话式表情回复策略是将所述图片消息的图文有效信息通过图文闲聊模型匹配图文闲聊数据库，优选出回复决定；所述图文闲聊模型为融合了图片和文字特征的表示型语义匹配模型。

进一步地，所述文字模仿式表情回复策略包括：

将所述文字有效信息对表情数据库基于文本关键词和文本词向量分别进行检索召回的筛选操作，得到筛选的表情图片，

从所述筛选的表情图片中基于文本语义匹配模型进行匹配，

根据所述匹配结果优选出回复决定；

所述文字对话式表情回复策略包括：

将所述文字有效信息通过文字闲聊模型输出对应的文本信息，再

将所述文本信息对表情数据库基于文本关键词和文本词向量分别进行检索召回的筛选操作，得到筛选的表情图片，

从所述筛选的表情图片中基于文本语义匹配模型进行匹配，

根据所述匹配结果优选出回复决定。

为实现上述目的，本发明还提供一种聊天表情回复装置，所述聊天表情回复装置包括存储器和处理器，所述存储器上存储有可在所述处理器上运行的聊天表情回复程序，所述聊天表情回复程序被所述处理器执行时实现上述的聊天表情回复方法的步骤。

此外，本发明提供一种存储介质，所述存储介质为计算机可读存储介质，所述存储介质上存储有聊天表情回复程序，所述聊天表情回复程序可被一个或者多个处理器执行，以实现上述的聊天表情回复方法的步骤。

本发明提供了一种聊天表情回复方法、装置及存储介质，通过自动地识别用户发送的聊天消息，智能匹配优选的表情回复，表情回复准确、合理和有效，并能够融入实际表情互动的聊天图文中，具有多样性和灵活性，同时表现力丰富，更具趣味性。

附图说明

图1为本发明一实施例提供的聊天表情回复方法的流程示意图；

图2为图1中的步骤S20流程示意图；

图3为图1中的步骤S30流程示意图；

图4为本发明一实施例提供的聊天表情回复装置内部结构示意图；

图5为本发明一实施例提供的聊天表情回复装置中的聊天表情回复程序模块示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1，本发明的一实施例提供一种聊天表情回复方法，所述聊天表情回复方法包括：

步骤S10：收到用户发送的聊天消息；所述聊天消息包括文字消息、图片消息和语音消息中的任意一种或多种；其中，所述图片消息包括GIF动画图片。

步骤S20：对所述聊天消息进行解析，以得到有效信息。

步骤S30：对所述有效信息进行判断，根据判断结果匹配表情回复策略，得到表情回复结果；所述表情回复策略包括图片模仿式表情回复策略、图文对话式表情回复策略、文字模仿式表情回复策略和文字对话式表情回复策略；所述回复结果包括优选的表情回复结果或者默认的表情回复结果。

步骤S40：将所述表情回复结果发送给用户。

优选地，针对聊天表情回复预设激活开关，即当聊天表情回复激活开关为开的状态时，对用户发送的聊天消息按照上述方法进行聊天表情回复，当聊天表情回复激活开关为关的状态时，切换至正常人工聊天状态。

请参考图2所示，所述步骤S20包括：

步骤S220：将用户发送的所述文字消息直接输出作为所述文字信息的文字有效信息；

步骤S230：将所述图片消息进行解析处理；

具体地，所述文字信息提取处理，通过光学字符识别(Optical CharacterRecognition，OCR)技术识别图片上的文本有效信息；所述OCR技术由基于端到端神经网络的实时文字目标检测模型(You only look once V3，YOLOV3)和基于卷积循环神经网络(Convolutional Recurrent Neural Network，CRNN)的文字识别模型级联组成，所述YOLOV3和CRNN模型均通过实际应用场景数据的finetune微调训练得到；通过加载所述finetune微调后的模型对所述图片消息做inference推理，即可识别得到所述图片消息的文本有效信息。

所述finetune训练模型的训练方法包括：

得到训练后的所述图片消息的文本有效信息。

步骤S280：将所述语音消息通过语音识别(Automatic Speech Recognition，ASR)转化为语音的文本信息，将所述语音的文本信息作为所述语音消息的文字有效信息。具体在一实施例中，采用讯飞语音识别引擎实现。

请参阅图3，所述步骤S30包括：

步骤S30：将所述有效信息匹配表情回复策略，得到表情回复结果；所述表情回复策略包括图片模仿式表情回复策略、图文对话式表情回复策略、文字模仿式表情回复策略和文字对话式表情回复策略；所述回复结果包括优选的表情回复结果或者默认的表情回复结果。

步骤S320：将所述图片消息的图片有效信息匹配所述图片模仿式表情回复策略，得到表情回复决定；具体地，所述图片模仿式表情回复策略是将所述图片有效信息通过图片相似度模型匹配无字模板表情图片数据库中的图片，优选出回复决定；其中，所述图片相似度模型采用基于卷积神经网络模型(Visual Geometry Group Network 16，VGG16)的预训练模型。

具体地，所述无字模板表情图片数据库按如下方式建立：从网络上爬虫1万以上数量的标准无字模板类表情图片并标注好文本描述信息；其中，所述标准无字模板类表情图片是指网上表情包平台上提供的一些无文字的原始表情图片，这部分的数据规模相对较小，不足以满足所述无字模板表情数据库大规模的建立，因此，另外从网络上爬虫10万以上数量的表情图片并标注好文本描述信息；然后筛选出有文字的原始表情图片，接入到已经训练好的图片文字擦除模型中进行文字擦除预处理，再通过图片修改工具擦除渲染操作进行精细化的擦除文字，将擦除文字后的表情图片与标准无字模板类表情图片通过文本关键词的方式建立倒排索引，以及通过文本词向量的方式建立语义索引。更进一步的，将擦除文字前的表情图片，擦除文字的遮罩mask图层，带遮罩mask图层的表情图片以及擦除文字后的表情图片以文件数据形式对应存储在本地，并编码保存文件路径。

所述给无字模板表情图片添加文字，具体地，首先将无字模板表情图片进行黑白二值化处理，然后采用最大内接矩阵算法将对比度最高的区域框选出来作为待添加文本位置，最后在相应位置上添加适当大小的文字。

所述图片文字擦除模型由图片文字目标检测模型和图片修复模型级联组成，其中，所述图片文字目标检测模型为基于深度学习图像分割神经网络U-net的图片文字目标检测模型，所述图片修复模型为基于图像修复Deepfill v2的图片修复模型组成；并通过将所述无字模板表情数据库对所述图片文字擦除模型进行finetune微调，具体地，通过输入如下数据预先训练得到：将擦除文字前的表情图片数据和擦除文字的遮罩mask图层数据输入到所述图片文字目标检测模型进行finetune微调训练，然后将带遮罩mask图层的表情图片数据和擦除文字后的表情图片数据输入到所述图片修复模型进行finetune微调训练。

步骤S330：将所述图片消息的图文有效信息匹配所述图文对话式表情回复策略，得到表情回复决定；具体地，所述图文对话式表情回复策略是将所述图片消息的图文有效信息通过图文闲聊模型匹配图文闲聊数据库，优选出回复决定；所述图文闲聊模型为融合了图片和文字特征的表示型语义匹配模型。

具体在一实施例中，所述图文闲聊数据库是通过如下方式建立：组织3-5组标注人员，每组2人分别使用表情输入法进行图文表情式对话，具体表现为，假定每组有Q和A两个人，Q和A通过带有表情输入法的聊天工具进行聊天，聊天工具比如微信、QQ等。Q通过表情输入法在文本输入框输入“我好饿”三个字，然后相应会跳出来包含这三个字的表情图片，选择最能表达主题的那一个发送给对方A。A收到Q的消息同样在文本输入框通过表情输入法输入“那就赶紧吃点儿东西吧”，然后相应会跳出来包含回复文字的表情图片，选择最能表达主题的那一个发送给对方Q，与此同时设计了一个后台监控装置，不仅采集每组成员的包含文字的表情图片对，同时对应的输入文本对也一并采集，这样就构造出了[Q(文字，表情图片),A(文字，表情图片),1]的图文对,其中1代表标注数据的正例，表示Q、A是匹配的数据，采集5万以上这样的图文对数据作为所述图文闲聊数据库的正例数据库。针对所述正例数据库中的Q，随机挑选不匹配的A，则可构建出[Q(文字，表情图片),A(文字，表情图片),0]的图文对，其中0代表标注数据的负例，表示Q、A是不匹配的数据，这样就生成了5万以上的图文对数据作为所述图文闲聊数据库的负例数据库。与此同时通过后台监控采集每个人的对话图文对话，其中包括输入的纯文字信息；收集5万以上用于图文闲聊数据库的建立。

所述图文闲聊模型为融合了图片和文字特征的表示型语义匹配模型，具体地，所述模型的构建及训练过程如下：

首先设定所述图文闲聊数据库的输入为Q(w，g)，其中，Q表示所述图文闲聊数据库的输入数据，w表示输入文字，g表示输入表情图片，将Q(w，g)中的输入文字w和输入表情图片g分别提取；

所述输入文字w采用预训练的词向量进行特征表示，具体在一实施例中，所述预训练的词向量为基于BERT的词向量(Bidirectional Encoder Representations fromTransformers，BERT)的特征向量；所述输入表情图片g采用预训练的图片分类模型进行特征表示，具体在一实施例中，使用基于VGG16的特征向量。将两者采用concat拼接之后形成完整的图文特征表示，然后将其与生成矩阵M相乘进而得到新的生成后的图文特征表示；其中，concat拼接为拼接数组函数；生成矩阵M目的是为了挖掘图文对的语义对话关联信息，通过模型训练使得生成矩阵M可以表征语义对话关联特征。

设定所述图文闲聊数据库的输出为A(w′，g′)，其中，A表示所述图文闲聊数据库的输出数据，w′表示输出文字，g′表示输出表情图片，将A(w′，g′)中的输出文字w′和输出表情图片g′分别提取，同样将两者concat拼接之后形成图文特征表示。

最后将输入生成的图文特征表示与输出的图文特征表示进行特征匹配，具体在一实施例中，所述特征匹配选用余弦相似度匹配的方式，其中正例的匹配得分为1，负例的匹配得分为0，然后以此为目标建立LOSS目标损失函数，通过小批量加载所述图文闲聊数据库的图文对数据进行迭代训练以使得所述LOSS目标损失函数值降到最低。

步骤S340：将所述文字有效信息随机依次匹配所述文字模仿式表情回复策略和文字对话式表情回复策略，得到表情回复决定。

具体地，所述文字模仿式表情回复策略包括：将所述文字有效信息对表情数据库基于文本关键词和文本词向量分别进行检索召回的筛选操作，得到筛选的表情图片，从所述筛选的表情图片中基于文本语义匹配模型进行匹配，据所述匹配结果优选出回复决定；当匹配成功时，则从所述表情数据库中匹配一个或者多个优选表情回复；当匹配失败时，则根据文本信息生成优选表情回复，若生成失败则返回此模式无优选的表情回复。具体在一实施例中，所述表情数据库按如下方式建立：从网络上爬虫10万以上数量的表情图片并标注好文本描述信息，通过文本关键词的方式建立倒排索引，通过文本词向量的方式建立语义索引。优选的，文本词向量采用word2vec、语言训练模型ELMo(Embeddings fromLanguage Models，ELMo)或BERT预训练模型通过维基百科数据预训练得到。

所述基于文本语义匹配模型采用了表示型的语义匹配模型，具体在一实施例中，使用了深度结构语义模型(Deep Structured Semantic Model，DSSM)，并采用finetune微调训练数据构建：首先提取表情数据库的文本描述信息，通过词移距离(Word Mover'sDistance，WMD)筛选剔除掉特别相似的文本和特别不相似的文本，仅保留模糊相似的文本对，然后人工标注文本对的相似性，相似为1，不相似为0，建立(Q1,Q2,0-1)文本对，其中，Q1为所述文本描述信息，Q2为所述筛选的文本信息；最后将标注好的文本对输入到所述语义匹配模型中进行finetune微调训练。

所述文字对话式表情回复策略包括：将所述文字有效信息通过文字闲聊模型输出对应的文本信息，再将所述文本信息对表情数据库基于文本关键词和文本词向量分别进行检索召回的筛选操作，得到筛选的表情图片，从所述筛选的表情图片中基于文本语义匹配模型进行匹配，根据所述匹配结果优选出回复决定。具体在一实施例中，根据解析输出的文本信息通过文字闲聊模型输出对应的文本信息，如果不能输出有效的对应文本信息，则直接返回此模式无优选的表情回复；如果输出有效，根据对应的文本信息，先是通过对所述表情图片数据库基于文本关键词和文本词向量分别进行了召回检索的初步筛选操作，从初步筛选的表情图片中基于所述文本语义匹配模型匹配一个或者多个优选表情回复，如果不能匹配成功，则根据文本信息生成优选表情回复，若生成失败则返回此模式无优选的表情回复。

所述文字闲聊模型采用了基于表示型的文本语义匹配模型，具体在一实施例中，所述基于表示型的文本语义匹配模型使用了DSSM模型。所述文字闲聊模型数据的构造具体采用以下过程实现：首先构建闲聊问答对，为了获取高质量的文字闲聊问答对，一方面通过爬虫网络收集20万以上的传统的基于文字的闲聊问答语料并进行人工优质筛选整理成(Q,A,1)的文本对正例，其中Q表示问句，A表示回复，1表示正例。负例则采用随机抽取的方式产生，既用跟正例相同的问句Q通过随机抽取不匹配的A形成(Q,A,0)的负例。另一方面将所述图文闲聊数据库的[Q(文字，表情图片),A(文字，表情图片),1]图文对抽出文字部分同样形成(Q,A,1)问答对正例，同样的方式形成(Q,A,0)问答对负例，将这两方面的数据合并进而组合成文字闲聊问答对。将所述文字闲聊问答对输入到模型中完成训练。

所述根据文本信息生成优选表情回复包括：根据输出的文本信息，先是通过对所述无字模板表情数据库基于文本关键词和文本词向量进行了检索召回的初步筛选操作，更进一步的，从初步筛选的表情图片中基于所述文本语义匹配模型匹配一个或者多个无字模板表情图片，然后给所述无字模板表情图片添加文本信息生成表情图片回复。

步骤S360：从优选的表情回复中选择表情回复结果；

步骤S370：从默认表情中选择表情回复结果。

具体地，默认表情回复在不能正确解析用户聊天消息的情况下使用，选用几张特定的带文字的表情包随机进行回复，表情包一般采用表达歉意的文字描述信息，如：“sorry，我接不上话了”，“很抱歉我还不能理解您的意思”等。默认表情也根据不同的表情回复策略定义不同的默认表情，例如对于所述图片模仿式表情回复策略，预设默认表情图片数据库，并给该默认表情图片数据库中的图片加上默认的文本信息，一般为诙谐幽默的文本，如：“看我像不像”，“就说像不像”等。

具体在一实施例中，根据所述有效信息的不同匹配针对性的回复策略，得到表情回复结果，所述回复结果包括优选的表情回复结果或者默认的表情回复结果。如果所述有效信息既包含图片消息又包含文字信息，即图文信息，则优选的回复方式是图文对话式表情回复策略，若此方式下没有优选的表情回复，则随机依次从文字模仿式表情回复策略和文字对话式表情回复策略中选择，若几种方式下均没有优选的表情回复则选择默认表情回复；如果有效信息仅包含文本信息或者文字信息，则随机依次从文字模仿式表情回复策略和文字对话式表情回复策略中选择，若几种方式下均没有优选的表情回复则选择默认表情回复；如果有效信息仅包含原始图片消息，则选择图片模仿式表情回复。

此外，本发明还提供一种聊天表情回复装置。

请参阅图4，是本发明实施例提供了一种聊天表情回复装置的内部结构示意图，所述聊天表情回复装置至少包括存储器11、处理器12、通信总线13，以及网络接口14。

其中，存储器11至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、磁性存储器、磁盘、光盘等。存储器11在一些实施例中可以是聊天表情回复装置的内部存储单元，例如该聊天表情回复装置的硬盘。存储器11在另一些实施例中也可以是聊天表情回复装置的外部存储设备，例如聊天表情回复装置上配备的插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(SecureDigital，SD)卡，闪存卡(Flash Card)等。进一步地，存储器11还可以既包括聊天表情回复装置的内部存储单元也包括外部存储设备。存储器11不仅可以用于存储安装于聊天表情回复装置的应用软件及各类数据，例如聊天表情回复程序的代码等，还可以用于暂时地存储已经输出或者将要输出的数据。

处理器12在一些实施例中可以是一中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器或其他数据处理芯片，用于运行存储器11中存储的程序代码或处理数据，例如执行聊天表情回复程序等。

通信总线13用于实现这些组件之间的连接通信。

网络接口14可选的可以包括标准的有线接口、无线接口(如WI-FI接口)，通常用于在该聊天表情回复装置与其他电子设备之间建立通信连接。

可选地，该聊天表情回复装置还可以包括用户接口，用户接口可以包括显示器(Display)、输入单元比如键盘(Keyboard)，可选的用户接口还可以包括标准的有线接口、无线接口。可选地，在一些实施例中，显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(OrganicLight-Emitting Diode，有机发光二极管)触摸器等。其中，显示器也可以适当的称为显示屏或显示单元，用于显示在聊天表情回复装置中处理的信息以及用于显示可视化的用户界面。

图4仅示出了具有组件11-14以及聊天表情回复程序的聊天表情回复装置，本领域技术人员可以理解的是，图4示出的结构并不构成对聊天表情回复装置的限定，可以包括比图示更少或者更多的部件，或者组合某些部件，或者不同的部件布置。

在图4所示的聊天表情回复装置实施例中，存储器11中存储有聊天表情回复程序；处理器12执行存储器11中存储的聊天表情回复程序时实现如下步骤：

步骤S20：对所述聊天消息进行解析，以得到有效信息；

步骤S40：将所述表情回复结果发送给用户。

参照图5所示，为本发明聊天表情回复装置一实施例中的聊天表情回复程序的程序模块示意图，该实施例中，聊天表情回复程序可以被分割为接收模块10、解析模块20、策略模块30和回复模块40，示例性地：

接收模块10，用于接收用户发送的聊天消息；

解析模块20，用于对所述聊天消息进行解析，以得到有效信息；

策略模块30，用于对所述有效信息匹配表情回复策略，得到表情回复结果；

回复模块40，用于将所述表情回复结果发送给用户。

上述接收模块10、解析模块20、策略模块30和回复模块40等程序模块被执行时所实现的功能或操作步骤与上述实施例大体相同，在此不再赘述。

此外，本发明实施例还提出一种存储介质，所述存储介质为计算机可读存储介质，所述存储介质上存储有聊天表情回复程序，所述聊天表情回复程序可被一个或多个处理器执行，以实现如下操作：

步骤S20：对所述聊天消息进行解析，以得到有效信息；

步骤S40：将所述表情回复结果发送给用户。

本发明的存储介质具体实施方式与上述聊天表情回复方法和装置各实施例基本相同，在此不作累述。

需要说明的是，上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。并且本文中的术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一……”限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是无人机、手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种聊天表情回复方法，其特征在于，所述聊天表情回复方法包括：

步骤S20：对所述聊天消息进行解析，以得到有效信息；

步骤S30：对所述有效信息进行判断，根据判断结果匹配表情回复策略，得到表情回复结果；所述表情回复策略包括图片模仿式表情回复策略、图文对话式表情回复策略、文字模仿式表情回复策略和文字对话式表情回复策略；所述表情回复结果包括优选的表情回复结果或者默认的表情回复结果；

步骤S40：将所述表情回复结果发送给用户。

2.根据权利要求1所述的聊天表情回复方法，其特征在于，所述步骤S20包括：

步骤S230：将所述图片消息进行解析处理；

3.根据权利要求2所述的聊天表情回复方法，其特征在于，所述文字信息提取处理，通过光学字符识别(Optical Character Recognition，OCR)技术识别图片上的文本有效信息；所述OCR技术由基于端到端神经网络的实时文字目标检测模型(You only look onceV3，YOLOV3)和基于卷积循环神经网络(Convolutional Recurrent Neural Network，CRNN)的文字识别模型级联组成，所述YOLO V3和CRNN模型均通过实际应用场景数据的finetune微调训练得到；通过加载所述finetune微调后的模型对所述图片消息做inference推理，即可识别得到所述图片消息的文本有效信息。

4.根据权利要求3所述的聊天表情回复方法，其特征在于，所述finetune训练模型的训练方法包括：

得到训练后的所述图片消息的文本有效信息。

5.根据权利要求1所述的聊天表情回复方法，其特征在于，所述步骤S30包括：

步骤S310：判断所述有效信息是否为所述图片消息的图片有效信息，如果是，则执行步骤S320；否则判断所述有效信息是否为所述图片消息的图文有效信息，如果是，则执行步骤S330；否则判断所述有效信息是否为所述文字有效信息，如果是，则执行步骤S340；其中所述文字有效信息包括所述文字消息的文字有效信息和所述语音消息的文字有效信息；

步骤S360：从优选的表情回复中选择表情回复结果；

步骤S370：从默认表情中选择表情回复结果。

6.根据权利要求5所述的聊天表情回复方法，其特征在于，所述图片模仿式表情回复策略是将所述图片有效信息通过图片相似度模型匹配无字模板表情图片数据库中的图片，优选出回复决定；其中，所述无字模板表情图片数据库通过对原始表情图片接入到已经训练好的图片文字擦除模型中进行文字擦除预处理，再通过图片修改工具擦除渲染操作进行精细化的擦除文字，将擦除文字后的表情图片与标准无字模板类表情图片通过文本关键词的方式建立倒排索引，以及通过文本词向量的方式建立语义索引。

7.根据权利要求5所述的聊天表情回复方法，其特征在于，所述图文对话式表情回复策略是将所述图片消息的图文有效信息通过图文闲聊模型匹配图文闲聊数据库，优选出回复决定；所述图文闲聊模型为融合了图片和文字特征的表示型语义匹配模型。

8.根据权利要求5所述的聊天表情回复方法，其特征在于，所述文字模仿式表情回复策略包括：

从所述筛选的表情图片中基于文本语义匹配模型进行匹配，

根据所述匹配结果优选出回复决定；

所述文字对话式表情回复策略包括：

从所述筛选的表情图片中基于文本语义匹配模型进行匹配，

根据所述匹配结果优选出回复决定。

9.一种聊天表情回复装置，其特征在于，所述聊天表情回复装置包括存储器和处理器，所述存储器上存储有可在所述处理器上运行的聊天表情回复程序，所述聊天表情回复程序被所述处理器执行时实现如权利要求1至8中任一项所述的聊天表情回复方法的步骤。

10.一种存储介质，其特征在于，所述存储介质为计算机可读存储介质，所述存储介质上存储有聊天表情回复程序，所述聊天表情回复程序可被一个或者多个处理器执行，以实现如权利要求1至8中任一项所述的聊天表情回复方法的步骤。