CN103336803A - 一种嵌名春联的计算机生成方法 - Google Patents

一种嵌名春联的计算机生成方法 Download PDF

Info

Publication number
CN103336803A
CN103336803A CN2013102497141A CN201310249714A CN103336803A CN 103336803 A CN103336803 A CN 103336803A CN 2013102497141 A CN2013102497141 A CN 2013102497141A CN 201310249714 A CN201310249714 A CN 201310249714A CN 103336803 A CN103336803 A CN 103336803A
Authority
CN
China
Prior art keywords
word
dictionary
probability
new year
couplet
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2013102497141A
Other languages
English (en)
Other versions
CN103336803B (zh
Inventor
潘志庚
郭晶
蒋锐滢
张世程
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Normal University
Original Assignee
Hangzhou Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Normal University filed Critical Hangzhou Normal University
Priority to CN201310249714.1A priority Critical patent/CN103336803B/zh
Publication of CN103336803A publication Critical patent/CN103336803A/zh
Application granted granted Critical
Publication of CN103336803B publication Critical patent/CN103336803B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本发明公开了一种嵌名春联的计算机生成方法。本发明包括如下步骤:步骤(1)收集现有的春联,集成一个原始语料库;步骤(2)对所收集的春联进行词切分,建立词库,并构建熟语料库;步骤(3)运用词语扩展技术型分别生成多条字数相同的、具有特殊嵌定字的上联和下联。本发明在对联的计算机研究工作中提出针对特定语境(春联)的研究方法;在特定语境联句的生成中又加入特定关键字(嵌名字)生成个性化嵌名春联;增强了计算机春联生成的趣味性,真正实现了个性化、具体化。

Description

一种嵌名春联的计算机生成方法
技术领域
本发明属于计算机自然语言处理技术领域,尤其涉及一种嵌名春联的计算机生成方法,具体涉及隐马尔科夫模型和具有特殊限定字的二元词图解码方法。
背景技术
传统的计算机对联生成系统,有利用隐马尔科夫模型和概率语言模型的,有应用神经网络的方法,也有应用统计机器翻译模型的,还有基于最大匹配分词与最大熵马尔科夫模型的 。过往对对联生成的研究工作,仍旧存在着可提高的地方:
1)过往的对联生成研究则只侧重于下联自动应对,即必须给出了上联,之后用不同方法进行下联的应对,而现实生活中人们会按照某些特殊的需求来定制一副对联。
2)已有工作大多都是针对对联这个大概念展开的,其中的规则和内容的约束没有特别严格,在对联文化中最具有代表性的当属春联,对春联的研究也是普通宽泛的通用春联研究,本发明提出嵌名春联的计算机生成。
3)本发明的难点在于内容具有针对性,即特定春节语境;语义要有正面积极意义,语义评价至关重要;特定字的加入,缩小了数据可选择范围,提高了生成难度。
发明内容
 本发明的目的是克服现有技术的不足,提供一种嵌名春联的计算机生成方法。
本发明解决其技术问题所采用的技术方法如下:
步骤(1)收集现有的春联,集成一个原始语料库;
步骤(2)对所收集的春联进行词切分,建立词库,并构建熟语料库。具体如下:
2-1通过应用基于统计的抽词方法与前后向最大匹配方法的结合,对原始语料库进行分词,并应用朴素贝叶斯算法辅助消歧;然后对切分所得的所有数据进行训练标注,简言之,词库的切分遵循七言诗句以2-2-2-1或2-2-1-2的形式,五言诗句多以2-2-1或2-1-2的形式切分,得到词库。计算词库中的每个词                                               
Figure 2013102497141100002DEST_PATH_IMAGE002
和每个词
Figure 815838DEST_PATH_IMAGE002
的词频
Figure 2013102497141100002DEST_PATH_IMAGE004
,然后计算每个词
Figure 608345DEST_PATH_IMAGE002
出现的概率
Figure 2013102497141100002DEST_PATH_IMAGE006
Figure 2013102497141100002DEST_PATH_IMAGE008
其中,c为词库中的总词数。
    2-2对词库进行模型训练,统计词库中任意两个词语在同一联句中作为前后搭配共现的概率
Figure 2013102497141100002DEST_PATH_IMAGE010
,以及在同一春联的上下联相同位置共现的概率
Figure 2013102497141100002DEST_PATH_IMAGE012
,并做归一化处理;
所述的模型训练是指首先用词库中每个的词去原始联句库中搜索同一联句中其后面搭配的词,并统计两词共现的频次,然后计算两个前后搭配共现的概率
Figure 2013102497141100002DEST_PATH_IMAGE010A
Figure 2013102497141100002DEST_PATH_IMAGE016
其中,n为共现词的组数,也就是说词库中共有n组前后共现词。
同一幅对联中上下两联相同位置词语共现的概率计算方法同步骤2-2上,此时的n表示词库中经统计有同一幅对联中上下联相同位置的共现词有n组。而
Figure 2013102497141100002DEST_PATH_IMAGE014A
则表示的是同一幅对联中上下联相同位置的一组共现词的词频。
对所求得的概率表进行归一化处理,将概率表中概率小于阈值T的概率,修改为数值
Figure 2013102497141100002DEST_PATH_IMAGE018
。归一化处理是为了防止因概率过小造成的数据稀疏。
2-3对所得春联分词词库进行词性标注;
    2-4构造平仄库,也称声韵库,用以在自动生成过程中判断生成内容的平仄对应。以现在的读音标准为依据,声韵库主要是以《诗韵新编》为标准进行整理,如“春天”,其词性为名词N,注音为春天,对应的韵脚为十七庚,属平声。
2-5通过以上步骤建立包括词、词性、音韵的格律诗对联熟语料库。
步骤(3)运用词语扩展技术型分别生成多条字数相同的、具有特殊嵌定字的上联和下联;具体如下:
3-1应用词语扩展技术对嵌定字进行左右扩展;
根据给定的关键字,在词库中搜素包含这个关键字的词语,然后根据步骤2-2中得到的概率表进行词语的左右扩展。
3-2因为春联中的主题元素是生肖年,所以在联句生成的最后三个字在特定的主题元素库中进行匹配,匹配遵循平仄韵律规则、词性对仗规则。
所述的特定的主题元素库指生肖年库。
本发明有益效果
1)在对联的计算机研究工作中提出针对特定语境(春联)的研究方法;
2)在特定语境联句的生成中又加入特定关键字(嵌名字)生成个性化嵌名春联;
3)增强了计算机春联生成的趣味性,真正实现了个性化、具体化;
附图说明                 
    图1是本发明词语扩展技术举例;
图2是本发明嵌字约束下的下联解码过程;
图3是本发明熟语料库图。
具体实施方式
下面结合附图对本发明做进一步说明。
一种嵌名春联的计算机生成方法,具体包括如下:
步骤(1)收集现有的春联,集成一个原始语料库;
步骤(2)对所收集的春联进行词切分,建立词库,并构建熟语料库。具体如下:
2-1通过应用基于统计的抽词方法与前后向最大匹配方法的结合,对原始语料库进行分词,并应用朴素贝叶斯算法辅助消歧;然后对切分所得的所有数据进行训练标注,简言之,词库的切分遵循七言诗句以2-2-2-1或2-2-1-2的形式,五言诗句多以2-2-1或2-1-2的形式切分,得到词库。计算词库中的每个词
Figure 2013102497141100002DEST_PATH_IMAGE019
和每个词
Figure 786221DEST_PATH_IMAGE019
的词频
Figure 600593DEST_PATH_IMAGE004
,然后计算每个词
Figure 63253DEST_PATH_IMAGE019
出现的概率
Figure 2013102497141100002DEST_PATH_IMAGE020
Figure 2013102497141100002DEST_PATH_IMAGE021
其中,c为词库中的总词数。
    2-2对词库进行模型训练,统计词库中任意两个词语在同一联句中作为前后搭配共现的概率
Figure DEST_PATH_IMAGE010AA
,以及在同一春联的上下联相同位置共现的概率
Figure 81019DEST_PATH_IMAGE012
,并做归一化处理;
所述的模型训练是指首先用词库中每个的词去原始联句库中搜索同一联句中其后面搭配的词,并统计两词共现的频次
Figure DEST_PATH_IMAGE014AA
,然后计算两个前后搭配共现的概率
Figure DEST_PATH_IMAGE010AAA
其中,n为共现词的组数,也就是说词库中共有n组前后共现词。
同一幅对联中上下两联相同位置词语共现的概率计算方法同步骤2-2上,此时的n表示词库中经统计有同一幅对联中上下联相同位置的共现词有n组。而
Figure DEST_PATH_IMAGE014AAA
则表示的是同一幅对联中上下联相同位置的一组共现词的词频。
对所求得的概率表进行归一化处理,将概率表中概率小于阈值T的概率,修改为数值
Figure 627648DEST_PATH_IMAGE018
。归一化处理是为了防止因概率过小造成的数据稀疏。
2-3对所得春联分词词库进行词性标注;
    2-4构造平仄库,也称声韵库,用以在自动生成过程中判断生成内容的平仄对应。以现在的读音标准为依据,声韵库主要是以《诗韵新编》为标准进行整理,如“春天”,其词性为名词N,注音为春天,对应的韵脚为十七庚,属平声。
2-5通过以上步骤建立包括词、词性、音韵的格律诗对联熟语料库,熟语料库参看图3。
步骤(3)运用词语扩展技术型分别生成多条字数相同的、具有特殊嵌定字的上联和下联;具体如下:
3-1应用词语扩展技术对嵌定字进行左右扩展;
根据给定的关键字,在词库中搜素包含这个关键字的词语,然后根据步骤2-2中得到的概率表进行词语的左右扩展。
3-2因为春联中的主题元素是生肖年,所以在联句生成的最后三个字在特定的主题元素库中进行匹配,匹配遵循平仄韵律规则、词性对仗规则。
所述的特定的主题元素库指生肖年库。
实施例
   (1)用户给定要嵌入个性化嵌名春联上下联中的两个字,系统默认上下联中各嵌入一个字;
    最初做过把姓氏也嵌入到联句中。实验测试显示,百家姓中有很多姓氏不适合出现在洋溢着喜庆,寄托着祝福的春联中,所以后来做了相关调整,只嵌入名,避免姓氏。
   (2)生成有嵌定字的上联,对要嵌入上联中的关键字进行如下操作:
    a.先用关键字组词,在词库中搜索含有这个关键字的词,如果有,按照搜索结果在词库中的出现概率降序排列建立词组表;
b.对词组表里面的词语按照二元词图进行左右扩展生成上联联句,字数可调控,图1为词语扩展技术举例;如图1所示:“英姿/丰采/壮志/凌云”一句,以“英姿”节点为起点向“丰采”节点加有向边,其权值为对联的语言模型计算得到的评分,边上的权值用以描述将两个词组成词组的语言流畅度,其中边上权值为负值是由于对语言模型的概率取了自然对数。
    c.应用统计语言模型对生成的上联的语义通顺度进行评价,并且检查所生成联句是否符合平仄规则,给出一个权值,按照评价权值排序;
    d.对评价权值大于某一阈值的联句进行词性标注检测,写出词性序列;例如:英姿/飒爽/壮志/凌云,其词性标注序列为:n/a/n/v。其中规定n表名词,a表形容词,v表动词等共11种词性。
   (3)生成具有嵌定字的下联,在生成下联时,图2是嵌字约束下的下联解码过程,规则如下:
a.因为是关于春联的研究,除了要考虑特殊嵌定字,主要考虑表示某个生肖年的语境;
b.本发明结合经过改进的概率潜在语义分析PLSA的主题词标注模型建立的主题生肖年的词库,该词库是人工收集并进行相关处理,结合词语扩展技术模型对特殊嵌入字进行扩展生成春联特征鲜明的下联。
c.对所生成的下联进行语义相关度评价,将主题词看作一个特殊短文档,通过PLSA模型训练过程中的EM迭代过程将其映射到潜在主题空间中,得到对应的主题分布向量。对新生成联句做同样操作记作,由余弦相似度便可以计算得到主题词与生成语句之间的语义相关度;
    d.应用统计语言模型对生成的上联的语义通顺度进行评价,并且检查所生成联句是否符合平仄规则,给出一个权值,按照评价权值排序;
e.对评价权值大于某一阈值的联句进行词性标注检测,写出词性序列。
(4)整幅对联评价,关于嵌名春联的评价规则:
    a.对以上符合条件的联句集合,进行组合,生成多副春联;
b.对a中生成的多副春联,应用互信息模型来评价春联上下联对应位置词汇的词性相似度(经对大量现有春联进行词性研究,上下联对应位置的词性可以不同,故此处用相似),给定一个权值;
c. 对a中生成的多副春联,进行平仄规则匹配,给一个权值;
    d.结合以上b,c两步骤中得出的权值,对多副对联进行甄选,然后输出多副满足条件的对联。

Claims (4)

1. 一种嵌名春联的计算机生成方法,其特征在于包括如下步骤:
步骤(1)收集现有的春联,集成一个原始语料库;
步骤(2)对所收集的春联进行词切分,建立词库,并构建熟语料库;
步骤(3)运用词语扩展技术型分别生成多条字数相同的、具有特殊嵌定字的上联和下联。
2.如权利要求1所述的一种嵌名春联的计算机生成方法,其特征在于步骤(2)具体过程如下:
2-1通过应用基于统计的抽词方法与前后向最大匹配方法的结合,对原始语料库进行分词,并应用朴素贝叶斯算法辅助消歧;然后对切分所得的所有数据进行训练标注,简言之,词库的切分遵循七言诗句以2-2-2-1或2-2-1-2的形式,五言诗句多以2-2-1或2-1-2的形式切分,得到词库;计算词库中的每个词                                               
Figure 2013102497141100001DEST_PATH_IMAGE002
和每个词
Figure 413654DEST_PATH_IMAGE002
的词频
Figure 2013102497141100001DEST_PATH_IMAGE004
,然后计算每个词
Figure 85419DEST_PATH_IMAGE002
出现的概率
Figure 2013102497141100001DEST_PATH_IMAGE008
其中,c为词库中的总词数;
    2-2对词库进行模型训练,统计词库中任意两个词语在同一联句中作为前后搭配共现的概率
Figure 2013102497141100001DEST_PATH_IMAGE010
,以及在同一春联的上下联相同位置共现的概率
Figure 2013102497141100001DEST_PATH_IMAGE012
,并做归一化处理;
所述的模型训练是指首先用词库中每个的词去原始联句库中搜索同一联句中其后面搭配的词,并统计两词共现的频次
Figure 2013102497141100001DEST_PATH_IMAGE014
,然后计算两个前后搭配共现的概率
Figure DEST_PATH_IMAGE010A
其中,n为共现词的组数,也就是说词库中共有n组前后共现词;
同一幅对联中上下两联相同位置词语共现的概率
Figure 50882DEST_PATH_IMAGE012
计算方法同步骤2-2上,此时的n表示词库中经统计有同一幅对联中上下联相同位置的共现词有n组;而
Figure DEST_PATH_IMAGE014A
则表示的是同一幅对联中上下联相同位置的一组共现词的词频;
对所求得的概率表进行归一化处理,将概率表中概率小于阈值T的概率,修改为数值
Figure 2013102497141100001DEST_PATH_IMAGE018
;归一化处理是为了防止因概率过小造成的数据稀疏;
2-3对所得春联分词词库进行词性标注;
2-4构造平仄库,也称声韵库,用以在自动生成过程中判断生成内容的平仄对应;以现在的读音标准为依据,声韵库主要是以《诗韵新编》为标准进行整理,如“春天”,其词性为名词N,注音为春天,对应的韵脚为十七庚,属平声;
2-5通过以上步骤建立包括词、词性、音韵的格律诗对联熟语料库。
3.如权利要求1所述的一种嵌名春联的计算机生成方法,其特征在于步骤(3)具体过程如下:
3-1应用词语扩展技术对嵌定字进行左右扩展;
根据给定的关键字,在词库中搜素包含这个关键字的词语,然后根据步骤2-2中得到的概率表进行词语的左右扩展;
3-2因为春联中的主题元素是生肖年,所以在联句生成的最后三个字在特定的主题元素库中进行匹配,匹配遵循平仄韵律规则、词性对仗规则。
4.如权利要求3所述的一种嵌名春联的计算机生成方法,其特征在于所述的特定的主题元素库指生肖年库。
CN201310249714.1A 2013-06-21 2013-06-21 一种嵌名春联的计算机生成方法 Active CN103336803B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310249714.1A CN103336803B (zh) 2013-06-21 2013-06-21 一种嵌名春联的计算机生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310249714.1A CN103336803B (zh) 2013-06-21 2013-06-21 一种嵌名春联的计算机生成方法

Publications (2)

Publication Number Publication Date
CN103336803A true CN103336803A (zh) 2013-10-02
CN103336803B CN103336803B (zh) 2016-05-18

Family

ID=49244968

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310249714.1A Active CN103336803B (zh) 2013-06-21 2013-06-21 一种嵌名春联的计算机生成方法

Country Status (1)

Country Link
CN (1) CN103336803B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106528858A (zh) * 2016-11-29 2017-03-22 北京百度网讯科技有限公司 歌词生成方法及装置
CN106569995A (zh) * 2016-09-26 2017-04-19 天津大学 基于语料库和格律规则的汉语古诗词自动生成方法
CN108228571A (zh) * 2018-02-01 2018-06-29 北京百度网讯科技有限公司 对联的生成方法、装置、存储介质及终端设备
CN108874789A (zh) * 2018-06-22 2018-11-23 腾讯科技(深圳)有限公司 语句的生成方法、装置、存储介质和电子装置
CN112287678A (zh) * 2020-11-03 2021-01-29 沈阳雅译网络技术有限公司 一种基于预训练模型的古体诗自动生成方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101253496A (zh) * 2005-07-01 2008-08-27 微软公司 生成汉语对联
CN101568917A (zh) * 2006-12-20 2009-10-28 微软公司 生成汉语横批

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101253496A (zh) * 2005-07-01 2008-08-27 微软公司 生成汉语对联
CN101568917A (zh) * 2006-12-20 2009-10-28 微软公司 生成汉语横批

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106569995A (zh) * 2016-09-26 2017-04-19 天津大学 基于语料库和格律规则的汉语古诗词自动生成方法
CN106569995B (zh) * 2016-09-26 2019-04-02 天津大学 基于语料库和格律规则的汉语古诗词自动生成方法
CN106528858A (zh) * 2016-11-29 2017-03-22 北京百度网讯科技有限公司 歌词生成方法及装置
CN108228571A (zh) * 2018-02-01 2018-06-29 北京百度网讯科技有限公司 对联的生成方法、装置、存储介质及终端设备
CN108228571B (zh) * 2018-02-01 2021-10-08 北京百度网讯科技有限公司 对联的生成方法、装置、存储介质及终端设备
CN108874789A (zh) * 2018-06-22 2018-11-23 腾讯科技(深圳)有限公司 语句的生成方法、装置、存储介质和电子装置
CN111444725A (zh) * 2018-06-22 2020-07-24 腾讯科技(深圳)有限公司 语句的生成方法、装置、存储介质和电子装置
CN108874789B (zh) * 2018-06-22 2022-07-01 腾讯科技(深圳)有限公司 语句的生成方法、装置、存储介质和电子装置
CN111444725B (zh) * 2018-06-22 2022-07-29 腾讯科技(深圳)有限公司 语句的生成方法、装置、存储介质和电子装置
CN112287678A (zh) * 2020-11-03 2021-01-29 沈阳雅译网络技术有限公司 一种基于预训练模型的古体诗自动生成方法

Also Published As

Publication number Publication date
CN103336803B (zh) 2016-05-18

Similar Documents

Publication Publication Date Title
CN108052593B (zh) 一种基于主题词向量和网络结构的主题关键词提取方法
CN109858028B (zh) 一种基于概率模型的短文本相似度计算方法
CN103268339B (zh) 微博消息中命名实体识别方法及系统
CN104636466B (zh) 一种面向开放网页的实体属性抽取方法和系统
CN104484411B (zh) 一种基于词典的语义知识库的构建方法
CN108681574B (zh) 一种基于文本摘要的非事实类问答答案选择方法及系统
CN110378409A (zh) 一种基于要素关联注意力机制的汉越新闻文档摘要生成方法
Yang Research and realization of internet public opinion analysis based on improved TF-IDF algorithm
Chen et al. Spoken Lecture Summarization by Random Walk over a Graph Constructed with Automatically Extracted Key Terms.
CN103336803B (zh) 一种嵌名春联的计算机生成方法
CN112948543A (zh) 基于加权TextRank的多语言多文档摘要抽取方法
CN110347796A (zh) 向量语义张量空间下的短文本相似度计算方法
Tiwari et al. Ensemble approach for twitter sentiment analysis
CN110807326A (zh) 结合gpu-dmm与文本特征的短文本关键词提取方法
Koulali et al. A contribution to Arabic named entity recognition
CN104281565A (zh) 语义词典构建方法和装置
Kessler et al. Extraction of terminology in the field of construction
Thangarasu et al. Design and development of stemmer for Tamil language: cluster analysis
Asadi et al. Real-Time Presentation Tracking Using Semantic Keyword Spotting.
Bungum et al. A survey of domain adaptation in machine translation: Towards a refinement of domain space
CN108959269B (zh) 一种语句自动排序方法及装置
CN107015966A (zh) 基于改进的PageRank算法的文本‑音频自动文摘方法
Li Intertextuality between French Literature Creation and Literature Translation Based on Feature Extraction and Gram Matrix
Kim et al. Multi-document summarization by creating synthetic document vector based on language model
Dinarelli et al. Concept segmentation and labeling for conversational speech

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant