CN103336803A

CN103336803A - 一种嵌名春联的计算机生成方法

Info

Publication number: CN103336803A
Application number: CN2013102497141A
Authority: CN
Inventors: 潘志庚; 郭晶; 蒋锐滢; 张世程
Original assignee: Hangzhou Normal University
Current assignee: Hangzhou Normal University
Priority date: 2013-06-21
Filing date: 2013-06-21
Publication date: 2013-10-02
Anticipated expiration: 2033-06-21
Also published as: CN103336803B

Abstract

本发明公开了一种嵌名春联的计算机生成方法。本发明包括如下步骤：步骤(1)收集现有的春联，集成一个原始语料库；步骤(2)对所收集的春联进行词切分，建立词库,并构建熟语料库；步骤(3)运用词语扩展技术型分别生成多条字数相同的、具有特殊嵌定字的上联和下联。本发明在对联的计算机研究工作中提出针对特定语境（春联）的研究方法；在特定语境联句的生成中又加入特定关键字（嵌名字）生成个性化嵌名春联；增强了计算机春联生成的趣味性，真正实现了个性化、具体化。

Description

一种嵌名春联的计算机生成方法

技术领域

本发明属于计算机自然语言处理技术领域，尤其涉及一种嵌名春联的计算机生成方法，具体涉及隐马尔科夫模型和具有特殊限定字的二元词图解码方法。

背景技术

传统的计算机对联生成系统,有利用隐马尔科夫模型和概率语言模型的，有应用神经网络的方法，也有应用统计机器翻译模型的，还有基于最大匹配分词与最大熵马尔科夫模型的。过往对对联生成的研究工作，仍旧存在着可提高的地方：

1)过往的对联生成研究则只侧重于下联自动应对，即必须给出了上联，之后用不同方法进行下联的应对，而现实生活中人们会按照某些特殊的需求来定制一副对联。

2)已有工作大多都是针对对联这个大概念展开的，其中的规则和内容的约束没有特别严格，在对联文化中最具有代表性的当属春联，对春联的研究也是普通宽泛的通用春联研究，本发明提出嵌名春联的计算机生成。

3)本发明的难点在于内容具有针对性，即特定春节语境；语义要有正面积极意义，语义评价至关重要；特定字的加入，缩小了数据可选择范围，提高了生成难度。

发明内容

本发明的目的是克服现有技术的不足，提供一种嵌名春联的计算机生成方法。

本发明解决其技术问题所采用的技术方法如下：

步骤(1)收集现有的春联，集成一个原始语料库；

步骤(2)对所收集的春联进行词切分，建立词库,并构建熟语料库。具体如下：

2-1通过应用基于统计的抽词方法与前后向最大匹配方法的结合，对原始语料库进行分词，并应用朴素贝叶斯算法辅助消歧；然后对切分所得的所有数据进行训练标注，简言之，词库的切分遵循七言诗句以2-2-2-1或2-2-1-2的形式，五言诗句多以2-2-1或2-1-2的形式切分，得到词库。计算词库中的每个词

Figure 2013102497141100002DEST_PATH_IMAGE002

和每个词

的词频

，然后计算每个词

出现的概率

Figure 2013102497141100002DEST_PATH_IMAGE006

。

Figure 2013102497141100002DEST_PATH_IMAGE008

其中，c为词库中的总词数。

2-2对词库进行模型训练，统计词库中任意两个词语在同一联句中作为前后搭配共现的概率

，以及在同一春联的上下联相同位置共现的概率

Figure 2013102497141100002DEST_PATH_IMAGE012

，并做归一化处理；

所述的模型训练是指首先用词库中每个的词去原始联句库中搜索同一联句中其后面搭配的词，并统计两词共现的频次，然后计算两个前后搭配共现的概率

：

Figure 2013102497141100002DEST_PATH_IMAGE016

其中，n为共现词的组数，也就是说词库中共有n组前后共现词。

同一幅对联中上下两联相同位置词语共现的概率计算方法同步骤2-2上，此时的n表示词库中经统计有同一幅对联中上下联相同位置的共现词有n组。而

则表示的是同一幅对联中上下联相同位置的一组共现词的词频。

对所求得的概率表进行归一化处理，将概率表中概率小于阈值T的概率，修改为数值

Figure 2013102497141100002DEST_PATH_IMAGE018

。归一化处理是为了防止因概率过小造成的数据稀疏。

2-3对所得春联分词词库进行词性标注；

2-4构造平仄库，也称声韵库，用以在自动生成过程中判断生成内容的平仄对应。以现在的读音标准为依据，声韵库主要是以《诗韵新编》为标准进行整理，如“春天”，其词性为名词N，注音为春天，对应的韵脚为十七庚，属平声。

2-5通过以上步骤建立包括词、词性、音韵的格律诗对联熟语料库。

步骤(3)运用词语扩展技术型分别生成多条字数相同的、具有特殊嵌定字的上联和下联；具体如下：

3-1应用词语扩展技术对嵌定字进行左右扩展；

根据给定的关键字，在词库中搜素包含这个关键字的词语，然后根据步骤2-2中得到的概率表进行词语的左右扩展。

3-2因为春联中的主题元素是生肖年，所以在联句生成的最后三个字在特定的主题元素库中进行匹配，匹配遵循平仄韵律规则、词性对仗规则。

所述的特定的主题元素库指生肖年库。

本发明有益效果：

1）在对联的计算机研究工作中提出针对特定语境（春联）的研究方法；

2）在特定语境联句的生成中又加入特定关键字（嵌名字）生成个性化嵌名春联；

3）增强了计算机春联生成的趣味性，真正实现了个性化、具体化；

附图说明

图1是本发明词语扩展技术举例；

图2是本发明嵌字约束下的下联解码过程；

图3是本发明熟语料库图。

具体实施方式

下面结合附图对本发明做进一步说明。

一种嵌名春联的计算机生成方法，具体包括如下：

步骤(1)收集现有的春联，集成一个原始语料库；

Figure 2013102497141100002DEST_PATH_IMAGE019

和每个词

的词频

，然后计算每个词

出现的概率

Figure 2013102497141100002DEST_PATH_IMAGE020

。

Figure 2013102497141100002DEST_PATH_IMAGE021

其中，c为词库中的总词数。

，以及在同一春联的上下联相同位置共现的概率

，并做归一化处理；

所述的模型训练是指首先用词库中每个的词去原始联句库中搜索同一联句中其后面搭配的词，并统计两词共现的频次

，然后计算两个前后搭配共现的概率

：

。归一化处理是为了防止因概率过小造成的数据稀疏。

2-3对所得春联分词词库进行词性标注；

2-5通过以上步骤建立包括词、词性、音韵的格律诗对联熟语料库，熟语料库参看图3。

3-1应用词语扩展技术对嵌定字进行左右扩展；

所述的特定的主题元素库指生肖年库。

实施例

（1）用户给定要嵌入个性化嵌名春联上下联中的两个字，系统默认上下联中各嵌入一个字；

最初做过把姓氏也嵌入到联句中。实验测试显示，百家姓中有很多姓氏不适合出现在洋溢着喜庆，寄托着祝福的春联中，所以后来做了相关调整，只嵌入名，避免姓氏。

（2）生成有嵌定字的上联，对要嵌入上联中的关键字进行如下操作：

a.先用关键字组词，在词库中搜索含有这个关键字的词，如果有，按照搜索结果在词库中的出现概率降序排列建立词组表；

b.对词组表里面的词语按照二元词图进行左右扩展生成上联联句，字数可调控，图1为词语扩展技术举例；如图1所示：“英姿/丰采/壮志/凌云”一句，以“英姿”节点为起点向“丰采”节点加有向边，其权值为对联的语言模型计算得到的评分，边上的权值用以描述将两个词组成词组的语言流畅度，其中边上权值为负值是由于对语言模型的概率取了自然对数。

c.应用统计语言模型对生成的上联的语义通顺度进行评价，并且检查所生成联句是否符合平仄规则，给出一个权值，按照评价权值排序；

d.对评价权值大于某一阈值的联句进行词性标注检测，写出词性序列；例如：英姿/飒爽/壮志/凌云，其词性标注序列为：n/a/n/v。其中规定n表名词，a表形容词，v表动词等共11种词性。

（3）生成具有嵌定字的下联，在生成下联时，图2是嵌字约束下的下联解码过程，规则如下：

a.因为是关于春联的研究，除了要考虑特殊嵌定字，主要考虑表示某个生肖年的语境；

b.本发明结合经过改进的概率潜在语义分析PLSA的主题词标注模型建立的主题生肖年的词库，该词库是人工收集并进行相关处理，结合词语扩展技术模型对特殊嵌入字进行扩展生成春联特征鲜明的下联。

c.对所生成的下联进行语义相关度评价，将主题词看作一个特殊短文档，通过PLSA模型训练过程中的EM迭代过程将其映射到潜在主题空间中，得到对应的主题分布向量。对新生成联句做同样操作记作，由余弦相似度便可以计算得到主题词与生成语句之间的语义相关度；

d.应用统计语言模型对生成的上联的语义通顺度进行评价，并且检查所生成联句是否符合平仄规则，给出一个权值，按照评价权值排序；

e.对评价权值大于某一阈值的联句进行词性标注检测，写出词性序列。

(4)整幅对联评价，关于嵌名春联的评价规则：

a.对以上符合条件的联句集合，进行组合，生成多副春联；

b.对a中生成的多副春联，应用互信息模型来评价春联上下联对应位置词汇的词性相似度（经对大量现有春联进行词性研究，上下联对应位置的词性可以不同，故此处用相似），给定一个权值；

c. 对a中生成的多副春联，进行平仄规则匹配，给一个权值；

d.结合以上b，c两步骤中得出的权值，对多副对联进行甄选，然后输出多副满足条件的对联。