CN108228571B

CN108228571B - 对联的生成方法、装置、存储介质及终端设备

Info

Publication number: CN108228571B
Application number: CN201810102020.8A
Authority: CN
Inventors: 毕天驰; 徐梓翔; 张传强; 张涛; 熊皓; 胡晓光; 何中军; 李芝; 吴华; 王海峰
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2018-02-01
Filing date: 2018-02-01
Publication date: 2021-10-08
Anticipated expiration: 2038-02-01
Also published as: CN108228571A

Abstract

本发明提出一种的生成对联的方法、装置、存储介质及终端设备，所述方法包括：接收用于生成对联的对联关键词；根据上联生成模型，对所述对联关键词进行逐字计算，获得所述对联的候选上联；根据下联生成模型，对所述候选上联进行逐字计算，获得与所述候选上联对应的候选下联；根据所述候选上联和所述候选上联对应的候选下联，计算获得横批；以及输出所述候选上联、所述候选上联对应的候选下联和所述横批。采用本发明，基于输入关键词即可方便快捷地输出对联。

Description

对联的生成方法、装置、存储介质及终端设备

技术领域

本发明涉及计算机技术领域，尤其涉及一种对联的生成方法、装置、存储介质及终端设备。

背景技术

每逢春节，张贴对联几乎是每个中国人的习俗，人们在挑选对联的时候往往很难将自己想要的词或主题放进对联中，可选择范围十分局限。这种定制化需求很难得到满足，最终只能在仅有的若干对联中挑选。因此解决用户定制化春联需求非常有意义。

现有技术方案的定制化对联的方式有：1、通过提供用户需求，然后找专业人员书写对联，2、通过搜索引擎输入关键词搜索满足该关键词的对联，3、通过论坛发帖寻求满足需求的对联，4、通过一些已有的智能对联解决方案来满足用户需求。

现有技术的方案存在以下缺点：

对于方案1，难以找到合适的专业写对联的人员，即使找到，也有可能因写对联人的自身知识水平的局限无法满足用户需求。

对于方案2，通过百度、谷歌等搜索引擎搜索来搜索对联，确实可以获取到大量的对联，但由于搜索引擎更多的是基于词的匹配，难以在语义层面上的扩展，且需要人为进行筛选相对较合适的对联。

对于方案3，通过论坛发帖的方式，一般会出现网友灌水、盖楼发广告或帖子打赏不够等情况的出现而无法满足用户需求。

对于方案4，对于一些已有的智能对联解决方案，例如微软亚洲研究院提出的基于统计机器翻译的对联生成技术，一般只能在给定上联的基础上才能生成对应的下联，这要求用户事先获知上联，方案不实用。

发明内容

本发明实施例提供一种对联的生成方法、装置、存储介质及终端设备，以解决或缓解现有技术中的以上技术问题。

第一方面，本发明实施例提供了一种即时通讯界面输入切换的方法，包括：

接收用于生成对联的对联关键词；

根据上联生成模型，对所述对联关键词进行逐字计算，获得所述对联的候选上联；

根据下联生成模型，对所述候选上联进行逐字计算，获得与所述候选上联对应的候选下联；

根据所述候选上联和所述候选下联，计算获得横批；以及

输出所述候选上联、所述候选上联对应的候选下联和所述横批。

第二方面，本发明实施例提供了一种对联的生成装置，其特征在于，包括：

关键词接收模块，用于接收用于生成对联的对联关键词；

上联获取模块，用于根据上联生成模型，对所述对联关键词进行逐字计算，获得所述对联的候选上联；

下联获取模块，用于根据下联生成模型，对所述候选上联进行逐字计算，获得与所述候选上联对应的候选下联；

横批获取模块，用于根据所述候选上联和所述候选下联，计算获得横批；以及

对联输出模块，用于输出所述候选上联、所述候选上联对应的候选下联和所述横批。

所述装置的功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的模块。

在一个可能的设计中，对联的生成结构中包括处理器和存储器，所述存储器用于存储对联的生成装置执行上述第一方面中对联的生成方法的程序，所述处理器被配置为用于执行所述存储器中存储的程序。所述对联的生成装置还可以包括通信接口，用于对联的生成装置与其他设备或通信网络通信。

第三方面，本发明实施例提供了一种计算机可读存储介质，用于对联的生成装置所用的计算机软件指令，其包括用于执行上述第一方面中对联的生成方法为对联的生成装置所涉及的程序。

上述技术方案中的任一个技术方案具有如下优点或有益效果：

本发明实施例只需要接收用户输入的对联关键词，即可将对联关键词输入到上联生成模型来生成候选上联，然后再根据生成的候选上联以及下联生成模型，输出候选下联，并根据生成的候选上联和该候选上联的候选下联组成的上下联来生成相应的横批，最后输出候选上联、该候选上联的候选下联以及横批即可，从而基于输入的对联关键词即可方便快捷地输出对联。

上述概述仅仅是为了说明书的目的，并不意图以任何方式进行限制。除上述描述的示意性的方面、实施方式和特征之外，通过参考附图和以下的详细描述，本发明进一步的方面、实施方式和特征将会是容易明白的。

附图说明

在附图中，除非另外规定，否则贯穿多个附图相同的附图标记表示相同或相似的部件或元素。这些附图不一定是按照比例绘制的。应该理解，这些附图仅描绘了根据本发明公开的一些实施方式，而不应将其视为是对本发明范围的限制。

图1是本发明提供的对联的生成方法的一个实施例的流程示意图；

图2是本发明提供的对联显示界面的一个实施例的示意图；

图3是本发明提供的对联生成过程的一个实施例的流程示意图；

图4是本发明提供的上联生成过程的一个实施例的流程示意图；

图5是本发明提供的下联生成过程的一个实施例的流程示意图；

图6是本发明提供的横批生成过程的一个实施例的流程示意图；

图7是本发明提供的上联生成模型的训练更新过程的一个实施例的流程示意图；

图8是本发明提供的下联生成模型的训练更新过程的一个实施例的流程示意图；

图9是本发明提供的常用词与训练语料中输入词关联的过程的一个实施例的流程示意图；

图10是本发明提供的对联的生成装置的一个实施例的结构示意图；

图11本发明提供的终端设备的一个实施例的结构示意图。

具体实施方式

在下文中，仅简单地描述了某些示例性实施例。正如本领域技术人员可认识到的那样，在不脱离本发明的精神或范围的情况下，可通过各种不同方式修改所描述的实施例。因此，附图和描述被认为本质上是示例性的而非限制性的。

本发明实施例旨在提供一种即时通讯界面，该即时通讯界面能够同时实现点赞与评论的功能，以下将分实施例具体描述本发明的技术方案：

实施例一

请参阅图1，本发明实施例提供了一种对联的生成方法，可以由服务器执行，例如，手机、平板、电脑等电子设备待用户终端与服务器建立通信连接，可以通过网页登录服务器，也可以通过APP应用程序提供的客户端登录服务器，方法包括步骤S110至步骤S150，具体如下：

S110，接收用于生成对联的对联关键词。

如图2所示，其为对联显示界面，该对联显示界面显示在用户终端中，提供输入框，例如用户在界面中输入锦绣这一对联关键词，在用户点击确认生成图示按钮后提交该对联关键词给服务器，服务器则根据接收到对联关键词生成对联。

在本实施例中，输入框可以设置输入限制的标准，例如，用户只能输入2-4个中文汉字，若是输入英文或者乱码则输入无效等。实际上服务器接收到的对联关键词为一字符串，服务器会先判别该字符串是否包含姓名，若是，则判定该字符串为人名，需要对该字符串进行截断，将字符串中的姓别去除，保留名作为对联关键词。

在本实施例中，由于上联生成模型和下联生成模型均是由对联组成的训练语料来训练生成的，因而在接收到对联关键词时，可以对该关键词进行语义扩展，即将其与训练语料中的输入词进行匹配，以匹配度最高的输入词替换原始输入的对联关键词，然后再进行后续的对联生成过程。如此样既能满足语义层面最大程度的匹配，又能确保生成的对联符合要求。以及，对于接收到的关键词为人名时，以截断后的名为对联关键词进行匹配，若无匹配结果则将截留的名重复形成叠词再进行匹配。

另一方面，本实施例的计算过程为线上运行的过程，线上系统为了满足大规模服务的要求，我们会离线将用户输入的常用词提前算好对应的候选输入词，直接使用缓存查询的方式最快的完成语义扩展，而对于用户输入的词为非常用词，即低频词，可进行后续的对生成过程，或者对低频词先进行语义扩展，将其与训练语料中的输入词进行匹配，以匹配度最高的输入词替换该低频词，然后再进行后续的对联生成过程。其中，在一个具体示例中，可以在本地存储的语义匹配库中设置一个常用词表，该常用词表包括常用词和与常用词关联的训练语料中的输入词，具体扩展过程如下：

通过本地存储的常用词，判断输入的对联关键词是否为常用词；若是，以本地存储的该对联关键词对应的输入词替换该对联关键词；其中，输入词为训练生成所述上联生成模型的训练语料中的输入词；若否，计算输入的对联关键词与训练语料中的输入词之间的相似度；以及选取相似度最高的输入词替换输入的对联关键词。最后，如图3所示，将替换后的对联关键词输入到对联生成系统中生成对联。对联生成系统包括关键词生成上联、上联生成下联和上下联生成横批等功能，即执行步骤S20至S50。

S120，根据上联生成模型，对对联关键词进行逐字计算，获得对联的候选上联。

示例性地，如图4所示，本步骤S120的执行过程可以如下：

S121，将对联关键词进行逐字切分，组成关键词字序列。

在本实施例中，由于上联生成模型是通过训练语料对序列到序列模型的深度学习调整设置参数后的模型，而序列到序列模型的输入与输入均是按时序一个字一个地输入与输出。因而，本实施例会将对联关键词进行逐字切分，再挨个字地输入到上联生成模型，即步骤S122，并以上联生成模型输出的字序列为上联。

S122，将组成的关键词字序列输入上联生成模型，以生成待处理上联。

但是，如任由模型产出而不加任何限制，则会在字序列中出现大量重复地字。例如，输入“春光”的字序列，则对应输出的字序列有可能为：春光无限春光无，这种重复在7-9字的对联中十分影响整体效果，因而需要对上联的输出过程进行一定的限制，即设置重复字出现的规则，例如，只允许一个字重复且最多重复两次，具体实现如步骤S123至步骤S125：

S123，对于所述待处理上联中的第i个字，判断所述第i个字是否与前i-1个字中的一个字相同；

S124，当所述第i个字与前i-1个字中的一个字相同时，判断第i+1个字是否与前i个字中的一个字相同；以及

S125，当所述第i个字与前i-1个字中的一个字相同，且第i+1个字与前i个字中的一个字相同时，控制所述上联生成模型从所述第i个字开始重新生成待处理上联；i≥2，i的初始值为1；否则将所述待处理上联作为候选上联。

在上述示例中，设置了重复字出现的规则之后，可以实现，输入“春光”的字序列，输出的字序列不存在有：春光无限春光无，但有可能输出为“春光无限江山秀”。在本发明实施例中，模型可以输出多个候选上联，可以从中选取一个最优的上联。

S130，根据下联生成模型，对候选上联进行逐字计算，获得与候选上联对应的候选下联。

在本实施例中，下联生成模型也是通过训练语料对序列到序列模型的深度学习调整设置参数后的模型，只不过训练语料区别于上联生成模型，因而上联生成模型与下联生成模型之间一般为参数设置的不同，结构基本一致。

示例性地，如图5所示，本步骤S130的执行过程可以如下：

S131，对候选上联进行逐字切分，组成上联字序列。

基于下联生成模型的构成，本实施例也会将上联进行逐字切分，再挨个字地输入到下联生成模型，即步骤S132，并以下联生成模型输出的字序列为下联。

S132，将组成的上联字序列按时序输入下联生成模型。

类似于上述仅基于上联生成模型输出上联的过程中会有不确定的因素存在，仅基于下联生成模型输出下联的过程也同样有多种不确定的因素存在，因而为了避免不确定因素的发生，可以通过后续的步骤限制下联生成模型的输出。

S133，控制下联生成模型输出的字序列的序列数为上联字序列的序列数。

在本实施例中，仅靠下联生成模型输出字序列，上下联的字数有可能会不相同，因而需要通过步骤S133控制下联生成模型输出的字序列的序列数与输入的字序列的序列数相同。其中，序列数是指字序列包含的中文字数，如此可以确保在下联生成模型输出的字序列未达到要求时(即同上联字数相同)，下联生成模型的输出不停止。

同样地，在生成下联的过程中也有可以出现重复字的问题，例如：上联为春草满庭吐秀，而下联生成模型输出的下联有可能为：花花遍地迎春。显然，”“花花”的重复是不合理的，因而可以通过步骤S134和S135进行设置，使下联的重复字只能在上联重复字对应的序列位置上重复，其余序列位置上字互不相同，即不重复。

S134，判断输出的字序列中是否存在重复字；

S135，当存在重复字时，判断与存在重复字的序列位置对应的上联字序列的序列位置上的字是否为重复字；若否，则控制下联生成模型对在所述序列位置上的字进行重新输出；以及

S136，以输出完成的字序列为候选下联。

在上述示例中，设置了设置了下联的重复字出现的规则之后，可以实现，例如：上联为春草满庭吐秀，而下联生成模型输出的下联不会存在有：花花遍地迎春，而有可以是神州遍地迎春。在本发明实施例中，下联生成模型可以输出多个候选下联，可以从中选取一个最优的下联。

在另一个示例中，通过设置下联输出模型的解码过程，还可以提高下联输出模型的输出效率，在步骤S132之后，还可以包括：

在将组成的字序列按时序输入下联生成模型之后，对于输入的每一个字，提取该输入的字的候选对仗字；控制下联生成模型预测候选对仗字中的每一个字的输出概率；以及控制下联生成模型输出输出概率最高的候选对仗字作为对应所述输入的字的输出字。

如此，下联生成模型在解码过程中不用计算词表中所有字的输出概率，只需要计算候候选对仗字中的字的输出概率，有效缩短下联生成模型的解码时长，提高本服务器的并发性能。

在本实施例中，可以预先统计出常用字的候选对仗字，缓存在服务器，服务器在输入一个字时，可以直接查询提取该输入的字的候选对仗字，其中，候选对仗字的选取是通过大量的春联或对联语料统计出来了，例如，对于“春”字，通过对联语料中的上下联，定位上联的“春”字所在上联的位置，以及定与该位置对应的下联的位置上的字为“春”可能对仗的字，对于所有“春”可能对仗的字统计每个字出现的频率，以出现的频率满足频率阈值的字作为“春”的候选对仗字。

S140，根据候选上联和候选上联对应的候选下联，计算获得横批。

在本发明实施例中，可以计算候选横批与上下联之间的相似度来选取横批。

示例性地，如图6所示，本步骤S140的实施过程可如下：

S141，对候选上联和候选上联对应的候选下联组成的上下联进行分词，获得上下联分词集。

S142，对于横批数据库中的每一个横批均进行分词，获得所述横批对应的横批分词集；其中，横批数据库可从训练语料中提取对联的横批来组成数据。

S143，对于每一个横批，均计算该横批的横批分词集与上下联分词集的相似度；在本实施例中，可以通过集合与集合之间的差异性计算两个集合的相拟程度，例如余弦距离、欧氏距离或杰卡德距离等，优选地，本实施例选取杰卡德距离计两集合之间的相似度。例如A为上下联分词集，B为一个横批的横批分词集，集合A与集合B的相似度为：J(A,B)＝(|A∩B|)/(|A∪B|)。

S144，选取相似度最高的横批分词集对应的横批作为所述上下联的横批。

但是，正如集合A与集合B的相似度的公式所示，容易出现分子为零的情况，即集合A与集合B之间的交集为空集，集合A与集合B之间的相似度为0，当每一个横批均是这样的情况时，随机选择一个横批，以确保对联的完整性。

S150，输出候选上联、该候选上联对应的候选下联和横批。

由于前述输出的候选上联可能存在多个，从所述对联的候选上联中选取一候选上联；相应地，提取当前选取的候选上联的一个候选下联，以及由当前选取的候选上联和候选下联组成的上下联的横批；以及

将当前选取的候选上联、当前选取的候选上联对应的候选下联以及由当前选取的候选上联和当前选取的候选上联对应的候选下联组成的上下联的横批输出给用户终端，如图2所示，用户终端将接收到的对联以默认对联格式显示于对联显示界面中。

如图2所示，对联显示界面还提供一个刷新春联的图示按钮，当用户点该图示按钮时，发送刷新请求给服务器，则服务器执行以下操作：

接收用户终端发送的刷新请求；

响应该请求，从所述对联的候选上联中选取未被选取过的候选上联；以及

将当前选取的候选上联、当前选取的候选上联对应的候选下联以及由当前选取的候选上联和当前选取的候选上联对应的候选下联组成的上下联的横批输出给用户终端，用户终端将接收到的对联以默认对联格式更新在对联显示界面中。

实施例二

对应于实施一的在线对联生成过程，本发明还可以提供一个在线或离线系统对上联生成模型以及下联生成模型进行训练，其可由实施一提供的在线服务器来执行，也可以另一离线服务器执行，当该离线服务器对模型训练更新完成之后，可以以更新完成的训练模型来替换在线的模型。如图7所示，本实施例以离线系统为例对上联生成模型以及下联生成模型的训练过程进行具体地描述：如图7所示，其为本实施例提供的上联生成模型的训练更新过程，其可以离线服务器执行也可由在线服务器执行，具体如下：

S210，收集对联。

在本实施例中，可以通过对联网站收集对联、人工编辑输入对联于服务器，也可以收集系统中的历年春联。

S220，对收集的对联进行过滤处理，以去除对联字数不满足字数阈值的对联。例如，要求用于训练的对联的上下联长度为7-12个字之间，还可以要求用于训练的横批的字数不超过4个字。

S230，对过滤处理后的对联进行语义筛选，以过滤语义不满足语义标准的对联。由于收集的对联，其语义上有可能包含语言轻浮或消极的含义，例如对语言轻浮对联可以使用黄反策略识别出劣质对联并进行过滤。

S240，对语义筛选后的对联的上联进行分词，并将每一分词均与所述分词所属的上联分别组成训练数据对。

在本实施例中，分词可以要求分词格式为每一分词的长度为2-4个，例如：“百花齐放春光好”的上联，分词后包括：百花、齐放和春光；则组成的训练数据对包括：百花与百花齐放春光好、齐放与百花齐放春光好、以及春光与百花齐放春光好。

S250，以所述训练数据对更新所述上联生成模型的训练数据库。

S260，根据更新后的训练数据库中的训练数据，对所述上联生成模型进行更新训练。

在本实施例中，上联生成模型是由序列到序列模型构成的，因而在训练上联生成模型的过程中，依然会训练数据对中的输入词进行逐个字切字，并逐个字输入上联生成模型中，以“百花与百花齐放春光好”的训练数据对为例，以“百花”为输入词，然后上联生成模型会输出相应的上联，模型根据输出的上联与标准输出“百花齐放春光好”进行比对，动态学习并调整上联生成模型中的参数。另一方面，由于对联的训练语料规模不大，为了防止过拟合，加入dropout，early stop等策略，增加动态学习的验证的频率，来选取最优的模型。

如图8所示，本实施例还提供下联生成模型的训练更新过程，在通过步骤S210至S230对对联语料的收集及预处理过程的基础上，还可以利用这些语料对下联生成模型进行训练更新，包括：

S270，对语义筛选后的对联进行平仄处理以过滤不符合平仄标准的对联。

对联的最重要的特点就是平仄协调，为了能让模型学习到对联的平仄关系，我们从候选语料中只挑选了满足平仄关系的对联作为训练语料。例如，对于任一对对联，通过查拼音表判断上联和下联的最后一个字是否符合平仄标准，即若上联的最后一个字为第三或第四声，以及下联最后一个字为第一或第二声，则认为是符合平仄标准，保留这幅对联于训练语料中，否则从训练语料中删除这条训练数据。其中，对于多音字，我们取其常用发音。

S280，以平仄处理后的对联中的上下联为训练数据对并更新所述下联生成模型的训练数据库；以及

S290，根据更新后的所述下联生成模型的训练数据库中的训练数据，对所述下联生成模型进行更新训练。

在本实施例中，下联生成模型的训练过程与上联生成模型的训练过程相同，在此不再赘述。

实施例三

请参阅图9，本实施例提供一个常用词与输入词关联过程的技术方案，可以由实施例一或实施例二提供的服务器执行，可以将用户输入的常用词与训练语料中的输入词提前计算并关联，使得可以在步骤S110的执行过程，使用本地查询的方式最快地完成语义扩展，具体如下：

S310，收集用户输入的常用词。该常用词是用户常用的常用词汇，可以通过用户的历史输入进行统计收集。

S320，判断所述常用词是否为四字成语。若是，执行步骤S330；若否，执行步骤S340。

S330，根据所述常用词所属的四字成语的格式从所述常用词中提取计算词，并计算所述计算词与所述训练语料中的输入词之间的相似度。

在本实施例中，四字成语具有不同的格式，例如：兴高采烈属于ABCD格式，高高兴兴属于AABB格式，大吉大利属于ABAC格式。

对于ABCD型成语，我们将成语分成AB和CD两个词，分别与训练语料中的输入词计算语义相似度，均选取相似度最高的输入词，然后将结果合并，只保留相似度最高的输入词。

对于AABB型成语，只计算AB与训练语料中的输入词计算语义相似度，并选取相似度最高的输入词。

对于ABAC型成语，只计算BC与训练语料中的输入词计算语义相似度，并选取相似度最高的输入词。

S340，计算所述常用词与所述训练语料中的输入词之间的相似度；

S350，选取相似度最高的输入词与所述常用词关联。

最后将所有关联的常用词和输入词，记录于常用词表中，可以存储或更新在实施例一中的服务器的本地存储中。

实施四

请参阅图10，本发明实施例提供一种对联的生成装置，包括

关键词接收模块10，用于接收用于生成对联的对联关键词；

上联获取模块20，用于根据上联生成模型，对所述对联关键词进行逐字计算，获得所述对联的候选上联；

下联获取模块30，用于根据下联生成模型，对所述候选上联进行逐字计算，获得与所述候选上联对应的候选下联；

横批获取模块40，用于根据所述候选上联和所述候选下联组成，计算获得横批；以及

对联输出模块50，用于输出所述候选上联、所述候选上联对应的候选下联和所述横批。

进一步地，所述上联生成模型为序列到序列模型，以及所述上联获取模块包括：

第一切字单元，用于对所述对联关键词进行逐字切分，组成关键词字序列；

第一序列输入单元，用于将组成的关键词字序列输入所述上联生成模型，以生成待处理上联；

第一判断单元，用于对于所述待处理上联中的第i个字，判断所述第i个字是否与前i-1个字中的一个字相同；

第二判断单元，用于当所述第i个字与前i-1个字中的一个字相同时，判断第i+1个字是否与前i个字中的一个字相同；以及

候选上联确定单元，用于当所述第i个字与前i-1个字中的一个字相同，且第i+1个字与前i个字中的一个字相同时，控制所述上联生成模型从所述第i个字开始重新生成待处理上联；i≥2，i的初始值为1；否则将所述待处理上联作为候选上联。

进一步地，所述上联生成模型为序列到序列模型，所述下联获取模块20包括：

第二切字单元，用于对所述候选上联进行逐字切分，组成上联字序列；

第二序列输入单元，用于将组成的上联字序列按时序输入所述下联生成模型；

序列数控制单元，用于控制所述下联生成模型输出的字序列的序列数为所述上联字序列的序列数；

重复字判断单元，用于判断输出的字序列中是否存在重复字；

第一输出限制单元，用于当存在重复字时，判断与存在重复字的序列位置对应的所述上联字序列的序列位置上的字是否为重复字；若否，则控制所述下联生成模型对在所述序列位置上的字进行重新输出；以及

候选下联单元，用于以输出完成的字序列为候选下联。

进一步地，所述下联获取模块30还包括：

对仗字提取单元，用于在将组成的上联字序列按时序输入所述下联生成模型之后，对于输入的每一个字，提取输入的字的候选对仗字；

输出概率计算单元，用于控制所述下联生成模型预测所述候选对仗字中的每一个字的输出概率；以及

第二输出限制单元，用于控制所述下联生成模型输出所述输出概率最高的候选对仗字作为对应所述输入的字的输出字。

进一步地，所述横批获取模块40包括：

上下联分词单元，用于对所述候选上联和所述候选上联对应的候选下联组成的上下联进行分词，获得上下联分词集；

横批分词单元，用于对于横批数据库中的每一个横批均进行分词，获得所述横批对应的横批分词集；

第一相似度计算单元，用于对于每一个横批，均计算所述横批的横批分词集与所述上下联分词集的相似度；以及

横批选取单元，用于选取相似度最高的横批分词集对应的横批作为所述上下联的横批。

进一步地，所述集合相似度计算单元具体用于根据杰卡德距离计算所述横批的横批分词集与所述上下联分词集的相似度。

进一步地，所述装置还包括：

关键词判断模块，用于在接收到所述对联关键词之后，通过本地存储的常用词，判断所述对联关键词是否为常用词；以及

第一关键词替换模块，用于若是，以所述本地存储的所述对联关键词关联的输入词替换所述对联关键词；其中，所述输入词为训练生成所述上联生成模型的训练语料中的输入词。

进一步地，所述装置还包括：

第二相似度计算模块，用于当所述对联关键词不为常用词时，计算所述对联关键词与所述训练语料中的输入词之间的相似度；以及

第二关键词替换模块，用于选取相似度最高的输入词替换所述对联关键词。

进一步地，所述装置还包括：

常用词收集模块，用于收集用户输入的常用词；

成语判断模块，用于判断所述常用词是否为四字成语；

第三相似度计算模块，用于若是，根据所述常用词所属的四字成语的格式从所述常用词中提取计算词，并计算所述计算词与所述训练语料中的输入词之间的相似度；

第四相似度计算模块，用于若否，计算所述常用词与所述训练语料中的输入词之间的相似度；以及

第三关键词替换模块，用于选取相似度最高的输入词与所述常用词关联。

进一步地，所述装置还包括：

对联收集模块，用于收集对联；

字数过滤处理模块，用于对收集的对联进行过滤处理，以去除对联字数不满足字数阈值的对联；

语义过滤处理模块，用于对过滤处理后的对联进行语义筛选，以过滤语义不满足语义标准的对联；

上联训练数据模块，用于对语义筛选后的对联的上联进行分词，并将每一分词均与所述分词所属的上联分别组成训练数据对；

上联数据库更新模块，用于以所述训练数据对更新所述上联生成模型的训练数据库；以及

上联模型训练模块，用于根据更新后的训练数据库中的训练数据，对所述上联生成模型进行更新训练。

进一步地，所述装置包括：

平仄处理模块，用于对语义筛选后的对联进行平仄处理以过滤不符合平仄标准的对联；

下联数据库更新模块，用于以平仄处理后的对联中的上下联为训练数据对并更新所述下联生成模型的训练数据库；以及

下联模型训练模块，用于根据更新后的所述下联生成模型的训练数据库中的训练数据，对所述下联生成模型进行更新训练。

进一步地，所述输对联输出模块50包括：

第一上联选取单元，用于从所述对联的候选上联中选取一候选上联；以及

第一显示输出单元，用于以默认对联格式将当前选取的候选上联、当前选取的候选上联对应的候选下联以及由当前选取的候选上联和当前选取的候选上联对应的候选下联组成的上下联的横批输出于对联显示界面中。

进一步地，所述装置还包括：

刷新请求接收模块，用于接收所述对联的刷新请求；

第二上联选取模块，用于从所述对联的候选上联中选取未被选取过的候选上联；以及

第二显示输出单元，用于根据当前选取的候选上联、当前选取的候选上联对应的候选下联以及由当前选取的候选上联和当前选取的候选上联对应的候选下联组成的上下联的横批更新对联显示界面中的对联。

实施例五

本发明实施例还提供一种终端设备，如图11所示，该设备包括：存储器21和处理器22，存储器21内存储有可在处理器22上运行的计算机程序。处理器22执行计算机程序时实现上述实施例中的即时通讯界面输入切换的方法。存储器21和处理器22的数量可以为一个或多个。

该设备还包括：

通信接口23，用于处理器22与外部设备之间的通信。

存储器21可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatilememory)，例如至少一个磁盘存储器。

如果存储器21、处理器22和通信接口23独立实现，则存储器21、处理器22和通信接口23可以通过总线相互连接并完成相互间的通信。总线可以是工业标准体系结构(ISA，Industry Standard Architecture)总线、外部设备互连(PCI，Peripheral Component)总线或扩展工业标准体系结构(EISA，Extended Industry Standard Component)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示，图11中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

可选的，在具体实现上，如果存储器21、处理器22及通信接口23集成在一块芯片上，则存储器21、处理器22及通信接口23可以通过内部接口完成相互间的通信。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。

本发明实施例的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质的更具体的示例至少(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式只读存储器(CDROM)。另外，计算机可读存储介质甚至可以是可在其上打印程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得程序，然后将其存储在计算机存储器中。

在本发明实施例中，计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于指令执行系统、输入法或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、射频(Radio Frequency，RF)等等，或者上述的任意合适的组合。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读存储介质中。存储介质可以是只读存储器，磁盘或光盘等。

以上，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到其各种变化或替换，这些都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种对联的生成方法，其特征在于，包括：

接收用于生成对联的对联关键词；

根据上联生成模型，对所述对联关键词进行逐字计算，以生成待处理上联，根据重复字出现的规则由所述待处理上联获得所述对联的候选上联；

根据所述候选上联和所述候选下联，计算获得横批；以及

输出所述候选上联、所述候选上联对应的候选下联和所述横批；

其中，所述根据上联生成模型，对所述对联关键词进行逐字计算，以生成待处理上联，根据重复字出现的规则由所述待处理上联获得所述对联的候选上联，包括：

当所述待处理上联的第i个字与前i-1个字中的一个字相同，且第i+1个字与前i个字中的一个字相同时，控制所述上联生成模型从所述第i个字开始重新生成待处理上联；i≥2，i的初始值为1；否则将所述待处理上联作为候选上联。

2.如权利要求1所述的对联的生成方法，其特征在于，所述上联生成模型为序列到序列模型；所述根据上联生成模型，对所述对联关键词进行逐字计算，以生成待处理上联，根据重复字出现的规则由所述待处理上联获得所述对联的候选上联，还包括：

对所述对联关键词进行逐字切分，组成关键词字序列；

将组成的关键词字序列输入所述上联生成模型，以生成待处理上联；

对于所述待处理上联中的第i个字，判断所述第i个字是否与前i-1个字中的一个字相同；

当所述第i个字与前i-1个字中的一个字相同时，判断第i+1个字是否与前i个字中的一个字相同。

3.如权利要求1所述的对联的生成方法，其特征在于，所述上联生成模型为序列到序列模型，所述根据下联生成模型，对所述候选上联进行逐字计算，获得所述候选上联对应的候选下联，包括：

对所述候选上联进行逐字切分，组成上联字序列；

将组成的上联字序列按时序输入所述下联生成模型；

控制所述下联生成模型输出的字序列的序列数为所述上联字序列的序列数；

判断输出的字序列中是否存在重复字；

当存在重复字时，判断与存在重复字的序列位置对应的所述上联字序列的序列位置上的字是否为重复字；若否，则控制所述下联生成模型对在所述序列位置上的字进行重新输出；以及

以输出完成的字序列为候选下联。

4.如权利要求3所述的对联的生成方法，其特征在于，所述方法还包括：

在将组成的上联字序列按时序输入所述下联生成模型之后，对于输入的每一个字，提取输入的字的候选对仗字；

控制所述下联生成模型预测所述候选对仗字中的每一个字的输出概率；以及

控制所述下联生成模型输出所述输出概率最高的候选对仗字作为对应所述输入的字的输出字。

5.如权利要求1所述的对联的生成方法，其特征在于，所述根据所述候选上联和所述候选下联，计算获得横批，包括：

对所述候选上联和所述候选上联对应的候选下联组成的上下联进行分词，获得上下联分词集；

对于横批数据库中的每一个横批均进行分词，获得所述横批对应的横批分词集；

对于每一个横批，均计算所述横批的横批分词集与所述上下联分词集的相似度；以及

选取相似度最高的横批分词集对应的横批作为所述上下联的横批。

6.如权利要求5所述的对联的生成方法，其特征在于，根据杰卡德距离计算所述横批的横批分词集与所述上下联分词集的相似度。

7.如权利要求1所述的对联的生成方法，其特征在于，在接收到所述对联关键词之后，还包括：

通过本地存储的常用词，判断所述对联关键词是否为常用词；以及

若是，以所述本地存储的与所述对联关键词关联的输入词替换所述对联关键词；其中，所述输入词为训练生成所述上联生成模型的训练语料中的输入词。

8.如权利要求7所述的对联的生成方法，其特征在于，还包括：

当所述对联关键词不为常用词时，计算所述对联关键词与所述训练语料中的输入词之间的相似度；以及

选取相似度最高的输入词替换所述对联关键词。

9.如权利要求7所述的对联的生成方法，其特征在于，还包括：

收集用户输入的常用词；

判断所述常用词是否为四字成语；

若是，根据所述常用词所属的四字成语的格式从所述常用词中提取计算词，并计算所述计算词与所述训练语料中的输入词之间的相似度；

若否，计算所述常用词与所述训练语料中的输入词之间的相似度；以及

选取相似度最高的输入词与所述常用词关联。

10.如权利要求2所述的对联的生成方法，其特征在于，还包括：

收集对联；

对收集的对联进行过滤处理，以去除对联字数不满足字数阈值的对联；

对过滤处理后的对联进行语义筛选，以过滤语义不满足语义标准的对联；

对语义筛选后的对联的上联进行分词，并将每一分词均与所述分词所属的上联分别组成训练数据对；

以所述训练数据对更新所述上联生成模型的训练数据库；以及

根据更新后的训练数据库中的训练数据，对所述上联生成模型进行更新训练。

11.如权利要求10所述的对联的生成方法，其特征在于，还包括：

对语义筛选后的对联进行平仄处理以过滤不符合平仄标准的对联；

以平仄处理后的对联中的上下联为训练数据对并更新所述下联生成模型的训练数据库；以及

根据更新后的所述下联生成模型的训练数据库中的训练数据，对所述下联生成模型进行更新训练。

12.如权利要求1所述的对联的生成方法，其特征在于，所述输出所述候选上联、所述候选上联对应的候选下联和所述横批，包括：

从所述对联的候选上联中选取一候选上联；以及

以默认对联格式将当前选取的候选上联、当前选取的候选上联对应的候选下联以及由当前选取的候选上联和当前选取的候选上联对应的候选下联组成的上下联的横批输出于对联显示界面中。

13.如权利要求1所述的对联的生成方法，其特征在于，所述方法还包括：

接收所述对联的刷新请求；

从所述对联的候选上联中选取未被选取过的候选上联；以及

根据当前选取的候选上联、当前选取的候选上联对应的候选下联以及由当前选取的候选上联和当前选取的候选上联对应的候选下联组成的上下联的横批更新对联显示界面中的对联。

14.一种对联的生成装置，其特征在于，包括：

关键词接收模块，用于接收用于生成对联的对联关键词；

上联获取模块，用于根据上联生成模型，对所述对联关键词进行逐字计算，以生成待处理上联，根据重复字出现的规则由所述待处理上联获得所述对联的候选上联；

对联输出模块，用于输出所述候选上联、所述候选上联对应的候选下联和所述横批；

其中，所述上联获取模块包括：候选上联确定单元，用于当第i个字与前i-1个字中的一个字相同，且第i+1个字与前i个字中的一个字相同时，控制所述上联生成模型从所述第i个字开始重新生成待处理上联；i≥2，i的初始值为1；否则将所述待处理上联作为候选上联。

15.如权利要求14所述的对联的生成装置，其特征在于，所述上联生成模型为序列到序列模型；所述上联获取模块，还包括：

第二判断单元，用于当所述第i个字与前i-1个字中的一个字相同时，判断第i+1个字是否与前i个字中的一个字相同。

16.如权利要求14所述的对联的生成装置，其特征在于，所述上联生成模型为序列到序列模型，所述下联获取模块包括：

候选下联单元，用于以输出完成的字序列为候选下联。

17.如权利要求16所述的对联的生成装置，其特征在于，所述下联获取模块还包括：

18.一种实现对联的生成终端设备，其特征在于，所述终端设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1-13中任一所述的对联的生成方法。

19.一种计算机可读存储介质，其存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-13中任一所述的对联的生成方法。