CN114722829A

CN114722829A - 一种基于语言模型的修辞古诗自动生成方法

Info

Publication number: CN114722829A
Application number: CN202210200923.6A
Authority: CN
Inventors: 杜权; 田丰宁
Original assignee: Shenyang Yayi Network Technology Co ltd
Current assignee: Shenyang Yayi Network Technology Co ltd
Priority date: 2022-03-03
Filing date: 2022-03-03
Publication date: 2022-07-08

Abstract

本发明公开一种基于语言模型的修辞古诗自动生成方法，步骤为：网上收集现存古诗数据，数据处理形成以两句为单位的数据集，仅保留五个字或七个字的句对；选取名篇数据进行人工修辞标注，将每一条数据标注为以下四类中的一种：比喻、拟人、夸张、其它；总结出每种修辞手法的词句特征，写成正则表达式，并匹配获得部分标注数据；将所有标注数据训练一个修辞分类器，构建带修辞标签的古诗数据集；将原始数据中的每一首绝句古诗中修辞类型、关键词、体裁类型以及古诗内容序列化后进行训练，得到具有修辞手法创作能力的古诗生成模型。本发明在模型中显式的引入古诗的修辞因素，可以让模型使用特定修辞手法来进行古诗的生成，从而显著的提高古诗质量。

Description

一种基于语言模型的修辞古诗自动生成方法

技术领域

本发明涉及一种自然语言处理技术，具体为一种基于语言模型的修辞古诗自动生成方法。

背景技术

古诗作为一种艺术形式，其语言高度凝练且语义丰富，短小精悍的篇幅中常常使用大量的表现手法，精炼的文字经过文人墨客的巧妙运用，达到了极高的艺术效果。另一方面，古诗创作作为一种艺术活动，不仅要求文字简洁凝练，而且遣词造句需要符合格律，自古以来一直都是文人雅士的专利，普通人难以涉足。

近年来，随着深度学习在自然语言处理(NLP，Nature Language Processing)领域的巨大成功，如注意力机制、Transformer模型、预训练GPT、BERT等相继被提出，机器翻译、文本生成等研究方向取得了显著的进展。人们意识到计算机在帮助人类诗歌创作方面发挥重要作用，因此古诗自动生成的研究得到了人们的广泛关注。让生成的古诗尽可能符合人们的审美一直是古诗生成任务的核心目标，影响诗歌的质量有很多方面，主流的改进工作主要集中于连贯性与一致性、多样性、格律等方面，并且已经取得了显著的效果，然而与人类水平差距仍然较大，诗歌质量还有进一步的提升空间。人类创作古诗创的因素包含许多方面，在表现手法层面，修辞的应用是一个很典型的特征，这种高级写作手法的应用能极大增强诗作的感染力和表现力，从而大大增加作品的艺术性。目前这方面的探索工作还较少，已有相关工作模型方法较为复杂，需要手工进行精细的参数调整，泛化能力较差。

发明内容

针对现有技术中存在的上述不足，本发明要解决的技术问题是提供一种基于语言模型的修辞古诗自动生成方法，将古诗的修辞因素引入模型中，让模型具备能够使用特定修辞手法来进行创作的古诗，以此来提升生成诗歌的多样性、趣味性和新颖性，从而增加读者阅读过程中的审美体验。

为解决上述技术问题，本发明采用的技术方案：

一种基于语言模型的修辞古诗自动生成方法，包括以下步骤：

1)网上收集现存古诗数据，进行数据清洗、分词预处理过程，以字为分词单位将数据处理成以两句为单位的数据集，仅保留五个字或七个字的句对；

2)选取步骤1)中的名篇数据进行人工修辞标注，将每一条数据标注为以下四类中的一种：比喻、拟人、夸张、其它；

3)查阅资料和对标注的数据进行分析，总结出每种修辞手法的词句特征，写成正则表达式，之后利用正则表达式去匹配获得部分标注数据；

4)将步骤2)和步骤3)中获得的所有标注数据训练一个修辞分类器，之后用该分类器对剩余数据进行修辞标注，以此构建一个带修辞标签的古诗数据集；

5)将原始数据中的每一首绝句古诗中修辞类型、关键词、体裁类型、古诗内容按照规定格式序列化形成一个长句子，然后以此去训练语言模型，得到具有修辞手法创作能力的古诗生成模型。

在步骤1)中，对收集到的古诗数据进行清洗和分词，对数据中的标点符号进行统一，只保留逗号、句号、顿号三种标点符号，经过去重之后以字为分词单位，之后将数据处理成以两句为单位的数据集，其中仅保留五个字或七个字的句对。

在步骤2)中人工标注收集到的古诗数据中的名篇，以擅长使用修辞手法的诗人作品作为标注目标，将每一条数据标注为以下四类中的一种：比喻、拟人、夸张、其它。

在步骤3)利用每种修辞手法的词句特征来提取出部分标注数据，具体如下：

301)通过查阅相关资料和对已标注数据的分析，总结出各类修辞手法中常用的模式，并将这些模式写成正则表达式；

302)在步骤1)中处理好的数据中去掉已经人工标注过的句对，之后使用这些正则表达式去分别匹配以自动提取出修辞诗句。

在步骤4)训练一个修辞分类器对剩余数据进行修辞标注，具体为：

401)从步骤2)和步骤3)中得到的标注数据中随机抽取规定阈值数量的数据作为验证集，剩下的作为训练集；

402)使用BERT来作为分类器模型，以BERT-CCPoem来进行模型参数初始化，取其顶层CLS位置的表示送到分类层中进行训练；

403)在验证集上进行参数调优得到一个优化后的修辞分类器，之后使用该分类器对剩余数据进行修辞标注。

在步骤5)中按照规定格式将古诗序列化形成一个长句子，然后以此去训练语言模型得到具有修辞手法创作能力的古诗生成模型，具体为：

501)使用关键词提取工具对每一首绝句进行关键词提取，之后随机从中选取1-2个作为写作意图；

502)把一首古诗中的内容、写作意图、体裁类型和修辞类型四部分信息按照“体裁类型+修辞类型+关键词+分隔符+古诗内容”的格式拼接形成一个长序列，如果有多个关键词，则每个关键词之间以分隔符隔开；

503)将上述处理好的训练数据使用Transformer Decoder模型来进行语言模型任务的训练，待模型收敛后即可得到具有修辞手法创作能力的古诗生成模型；

504)在使用阶段，用户给定想要生成的古诗的体裁、修辞手法、关键词，按照训练时的方式进行预处理后送入古诗生成模型中，古诗生成模型以Top-K算法来进行解码，以保证生成内容的多样性。

本发明具有以下有益效果及优点：

1.本发明提出了基于语言模型的修辞古诗自动生成方法，在模型中显式的引入古诗的修辞因素，可以让模型使用特定修辞手法来进行古诗的生成，从而显著的提高古诗质量。

2.本发明简单有效，容易实现，不需要对模型进行复杂的修改，只需要在训练数据层面进行定制即可。

3.本发明的修辞古诗自动生成系统有着实际的应用价值，不仅可以应用于娱乐生活、辅助创作等场景中，而且对助力于人文研究、诗词教育等也有积极的意义。

附图说明

图1为本发明中基于BERT的修辞分类模型图示；

图2为本发明提出的方法整体框架图示；

图3为本发明中的模型结构图示。

具体实施方式

下面结合说明书附图对本发明作进一步阐述。

本发明提出了一种基于语言模型的修辞古诗自动生成方法，在模型中引入古诗的修辞因素，让模型具备能够使用特定修辞手法来进行创作的古诗，以此来提升生成诗歌的多样性、趣味性和新颖性，从而增加读者阅读过程中的审美体验。

本发明提出了一种基于语言模型的修辞古诗自动生成方法，包括以下步骤：

2)选取步骤1)中的名篇数据进行人工修辞标注，将每一条数据标注为以下四类中的一种：比喻、拟人、夸张、其它。

4)将步骤2)和步骤3)中的获得的所有标注数据训练一个修辞分类器，之后用该分类器对剩余数据进行修辞标注，以此构建一个带修辞标签的古诗数据集；

5)将原始数据中的每一首绝句古诗中修辞类型、关键词、体裁类型、古诗内容按照一定的格式序列化形成一个长句子，然后以此去训练语言模型来得到具有修辞手法创作能力的古诗生成模型。

步骤1)中，收集网上现存古诗数据进行预处理形成训练数据，具体操作步骤为：收集现存古诗数据集，此步骤可以从各大古诗网站进行爬取，或者从开源数据集处获取。然后对古诗数据进行清洗分句，为了避免古诗风格不统一的情况，仅保留从唐代到清代的古诗数据，之后以句号来作为分词形成以两句为单位行的数据，仅保留五个字或七个字的句对；

步骤2)中，人工标注古诗的修辞类别，具体操作步骤如下：

201)考虑到诗歌质量的参差不齐，本发明以《唐诗三百首》中的诗篇以及李白和苏轼等擅长使用修辞手法的诗人作品作为标注目标。

202)将每一条数据标注为以下四类中的一种：比喻、拟人、夸张、其它。

为了保证标注质量，每条数据至少由两名标注人员进行标注，结果不一致的数据统一由负责人来决定。

步骤3)中，利用每种修辞手法的词句特征来提取出部分标注数据，具体操作方法如下：

301)由于每类修辞手法都具有一些比较明显的词句特征，比如比喻的诗句可能会包含如画、似烟、恰似、犹如等一类的关键词，通过查阅相关资料和对已标注数据的分析，总结出各类修辞手法中常用的一些模式，并将这些模式写成正则表达式；

302)将步骤1)中处理好的诗句数据中去掉步骤2)中已经人工标注过的诗句，之后使用这些正则表达式去分别匹配以自动提取出修辞诗句。

步骤4)中，将获得的所有标注数据训练一个修辞分类器对剩余数据进行修辞标注，以此构建一个带修辞标签的古诗数据集，具体为：

401)从步骤1)和步骤2)中获得的标注数据中随机抽取3500条作为验证集，剩下的作为训练集；

402)使用BERT来作为分类器模型，以BERT-CCPoem来进行模型参数初始化，然后取其顶层CLS Token位置的表示送到分类层中进行训练；

403)经过在验证集上的参数调优得到一个性能较优的修辞分类器，之后使用该分类器对剩余数据进行修辞标注，如图1所示。

步骤5)中按照一定的格式将古诗序列化形成一个长句子，然后以此去训练语言模型来得到具有修辞手法创作能力的古诗生成模型，具体为：

本实施例选取步骤1)中收集到的古诗数据中绝句来作为诗歌生成模型所用的数据集，利用TextRank算法对每条古诗数据提取关键词，随机选取其中1-2个关键词，并将其前后顺序随机打乱，各关键词间用分隔符隔开，组成关键词序列。TextRank算法是一种用于文本的基于图的排序算法。其基本思想来源于谷歌的PageRank算法,通过把文本分割成若干组成单元(单词、句子)并建立图模型,利用投票机制对文本中的重要成分进行排序,仅利用单篇文档本身的信息即可实现关键词提取、文摘。此步骤可以采用jieba开源工具进行提取。

502)把一首古诗中的内容、写作意图、体裁类型和修辞类型四部分信息按照“体裁类型+修辞类型+关键词+分隔符+古诗内容”的格式拼接形成一个长序列，如果有多个关键词，则每个关键词之间以分隔符“、”隔开。其中，体裁类型分为<WY>(五言)和<QY>(七言)，修辞类型分为<BY>(比喻)、<NY>(拟人)和<KZ>(夸张)，无修辞则为空。经过预处理，最终每首古诗被格式化成形如“<QY><KZ>瀑布、银河<STR>日照香炉生紫烟，……疑是银河落九天。”的训练数据，方法整体框架如图2所示。

503)将上述处理好的训练数据使用Transformer Decoder模型来进行训练，模型结构如图3所示。模型大小设置为GPT配置，待模型收敛后即可得到具有修辞手法创作能力的古诗生成模型；

504)在使用阶段，用户给定想要生成的古诗的体裁、修辞手法、关键词，模型按照训练时的方式进行预处理后送入模型中，模型以Top-K算法来进行解码，以保证内容的多样性。

下面展现一个具体的示例，以李白的古诗《望庐山瀑布》为例，题材为七言绝句，内容为“日照香炉生紫烟，遥看瀑布挂前川。飞流直下三千尺，疑是银河落九天。”

首先利用TextRank提取出关键词，假设是“瀑布”、“银河”，经过人工标注，诗句“飞流直下三千尺，疑是银河落九天”中使用了夸张的修辞手法，则按照502)中所述进行序列化处理，最终训练数据为：“<QY><KZ>瀑布、银河<STR>日照香炉生紫烟，遥看瀑布挂前川。飞流直下三千尺，疑是银河落九天。”，其中每个字间以空格隔开。将其用于古诗生成模型的训练，收敛后即可得到具有修辞手法创作能力的古诗生成模型。

在使用时，将用户的关键词、体裁信息、指定的修辞手法按照训练的方式进行格式化，假设关键词为“送君”，体裁为五言绝句，想要使用的修辞手法为比喻，则经过预处理后的数据为“<WY><BY>送君<STR>”，将该数据送到模型中，以Top-K方式进行解码，直到预测出终止符[EOS]，解码过程结束。古诗生成模型自动生成出五言绝句“万叶芦花雪，秋江竹浪深。孤篷竹雨中，相对一伤心。”其中第一句“万叶芦花雪”使用了比喻的修辞手法，将白色的芦花漫天飞舞，随风飘扬的场景比喻成像下雪一样，可以发现，使用比喻手法可以使得对于景色的描绘更加形象和有画面感。

本发明与另外两个基础的未使用修辞手法的诗歌生成模型，基于序列到序列的诗歌生成系统以及基于语言模型的诗歌生成系统进行对比，结果如表1所示。可以看到，本发明在人工评价的四个指标，流畅性、意义性、连贯性和艺术性四个方面较另外两个基线模型均有一定提升，这表明使用修辞手法确实能有效提升诗歌质量。

表1本发明与两个基础模型性能对比

本发明方法首先尝试在中国古典诗歌生成任务中引入修辞因素，使模型具有使用修辞手法创作的能力，这对提高诗歌的艺术效果起到了重要的作用。本发明简单有效，容易实现，不需要对模型进行复杂的修改，只需要在训练数据层面进行定制即可。

Claims

1.一种基于语言模型的修辞古诗自动生成方法，其特征在于包括以下步骤：

2.按权利要求1所述的基于语言模型的修辞古诗自动生成方法，其特征在于：在步骤1)中，对收集到的古诗数据进行清洗和分词，对数据中的标点符号进行统一，只保留逗号、句号、顿号三种标点符号，经过去重之后以字为分词单位，之后将数据处理成以两句为单位的数据集，其中仅保留五个字或七个字的句对。

3.按权利要求1所述的基于语言模型的修辞古诗自动生成方法，其特征在于：在步骤2)中人工标注收集到的古诗数据中的名篇，以擅长使用修辞手法的诗人作品作为标注目标，将每一条数据标注为以下四类中的一种：比喻、拟人、夸张、其它。

4.按权利要求1所述的基于语言模型的修辞古诗自动生成方法，其特征在于：在步骤3)利用每种修辞手法的词句特征来提取出部分标注数据，具体如下：

5.按权利要求1所述的基于语言模型的修辞古诗自动生成方法，其特征在于：在步骤4)训练一个修辞分类器对剩余数据进行修辞标注，具体为：

6.按权利要求1所述的基于语言模型的修辞古诗自动生成方法，其特征在于：在步骤5)中按照规定格式将古诗序列化形成一个长句子，然后以此去训练语言模型得到具有修辞手法创作能力的古诗生成模型，具体为：