CN116226332B

CN116226332B - 一种基于概念隐喻理论的隐喻生成方法及系统

Info

Publication number: CN116226332B
Application number: CN202310168330.0A
Authority: CN
Inventors: 马任
Original assignee: Huayuan Computing Technology Shanghai Co ltd
Current assignee: Huayuan Computing Technology Shanghai Co ltd
Priority date: 2023-02-24
Filing date: 2023-02-24
Publication date: 2024-02-06
Anticipated expiration: 2043-02-24
Also published as: CN116226332A

Abstract

本发明提供一种基于概念隐喻理论的隐喻生成方法及系统，涉及自然语言处理技术领域，包括：采集文本构建隐喻生成语料库，包括成对存在的隐喻句和非隐喻句；获取隐喻词和平替词的义原，分别作为源域和目标域；构建源域‑目标域映射表；以各非隐喻句为基础，结合源域‑目标域映射表构造隐喻模型的输入，将对应的隐喻句作为输出，训练并获得隐喻模型；对非隐喻句获取其动词的义原得到目标域；基于源域‑目标域映射表，得到该目标域的所有映射，根据概率标签抽样得到一个目标域‑源域映射关系；基于该非隐喻句及该目标域‑源域映射关系构造隐喻模型的输入，输入隐喻模型，生成动词性隐喻句。本发明填补了中文隐喻生成领域的空白。

Description

一种基于概念隐喻理论的隐喻生成方法及系统

技术领域

本发明涉及自然语言处理技术领域，尤其是涉及一种基于概念隐喻理论的隐喻生成方法及系统。

背景技术

概念是人们进行抽象思维的基本元素，人们的推理、想象等心理活动必须通过借助于对概念的加工而进行。语言作为思维交流的重要工具，对概念进行修辞加工是一种常见的语言现象。其中，概念的隐喻化一直是语言学研究中的重要问题。隐喻是指一个认知域中的概念系统地用于对另外一个认知域中的概念进行表达，这种表达在大多数情况下是自动化的、不被人所意识到的，甚至很多情况下，隐喻化的表达已成为了词的本义，只有通过隐喻，人们才能表达这些概念，如山“脚”(身体范畴表达地理概念)、“重”要(知觉范畴表达价值概念)、贬“低”(空间范畴表达情感概念)。针对隐喻现象的解释，传统语义学把隐喻看作是词义的替代或变换，这种观点局限于仅从语言的角度看待隐喻。

现代认知理论的出现使研究者开始从认知机制对隐喻现象进行分析，概念隐喻理论得以提出。概念隐喻理论认为隐喻是人们借助具体的、有形的、简单的源域概念(如温度、空间、动作等)来表达和理解抽象的、无形的、复杂的目标域概念(如心理感受、社会关系、道德等)，从而实现抽象思维。隐喻反映了人类认知演化发展的过程和思维的基本方式，隐喻为了解人类的认知提供了一个视窗。因此在对话系统中如何理解隐喻和生成隐喻也是自然处理领域一直以来的研究热点。

在概念隐喻理论的指导下，在英文隐喻生成领域已经有一些探索性工作，但是在中文隐喻生成领域仍是一片空白。

发明内容

针对上述问题，本发明提供了一种基于概念隐喻理论的隐喻生成方法及系统，聚焦隐喻动词的生成，以概念隐喻理论为指导理论，以BART模型为基础架构，训练BART模型学习从目标域到源域的映射，通过习得的映射把目标域的非隐喻动词替换成对应源域的隐喻动词，填补在中文隐喻生成领域的空白。

为实现上述目的，本发明提供了一种基于概念隐喻理论的隐喻生成方法，包括：

采集文本，构建隐喻生成语料库，包括：成对存在的隐喻句和非隐喻句；

获取各隐喻句中隐喻词的义原作为源域，获取各非隐喻句中平替词的义原作为目标域；

基于所有所述源域和目标域构建具有概率标签的源域-目标域映射表；

基于成对存在的隐喻句和非隐喻句，以各非隐喻句为基础，结合所述源域-目标域映射表构造隐喻模型的输入，将对应的隐喻句作为对应的输出，训练并获得隐喻模型；

对需生成隐喻的非隐喻句，获取该非隐喻句中动词的义原得到目标域；

基于所述源域-目标域映射表，得到该目标域的所有映射及各映射的概率标签，根据所述概率标签抽样得到一个目标域-源域映射关系；

基于该非隐喻句及该目标域-源域映射关系构造隐喻模型的输入，输入所述隐喻模型，所述隐喻模型自回归生成动词性隐喻句。

作为本发明的进一步改进，所述构建隐喻生成语料库，包括：

采集富含修辞手法的各种文本类型的文本，来源包括：互联网、现有语料库和书籍资料；

对文本依次进行筛选、预处理，得到可利用的文本；

对可利用的文本进行标准化隐喻识别程序处理，使文本中每一个词都标注有隐喻标签，隐喻标签包括0和1，0表示无隐喻，1表示隐喻；

对标注后的文本中每个标签为1的词，寻找对应的无隐喻的平替词；

使用各平替词替换对应隐喻词得到各非隐喻句；

各非隐喻句与未替换隐喻词的各原隐喻句成对保存，得到隐喻生成语料库。

作为本发明的进一步改进，所述基于所有所述源域和目标域构建具有概率标签的源域-目标域映射表；包括：

基于隐喻词和平替词的对应关系，将各隐喻词的义原与对应的各平替词的义原对应起来，得到源域-目标域映射关系；

将所有的源域-目标域映射关系计入同一表中，并根据各源域-目标域映射关系出现的频率得到其概率标签，得到具有概率标签的源域-目标域映射表。

作为本发明的进一步改进，基于成对存在的隐喻句和非隐喻句，以各非隐喻句为基础，结合所述源域-目标域映射表构造隐喻模型的输入，包括：

基于非隐喻句中的平替词的义原，随机获取一个源域-目标域映射关系，基于该源域-目标域映射关系得到隐喻词的义原；

将隐喻词的义原放于非隐喻句的句首，并设置分隔符与该非隐喻句隔开；

将平替词的义原接于非隐喻句中平替词的后面，并设置连接符与平替词连接；

设置标记符，在非隐喻句中的平替词前、平替词义原后分别添加，给隐喻模型标记需要更改的位置，得到隐喻模型的输入。

作为本发明的进一步改进，训练并获得隐喻模型，包括：

将所述隐喻生成语料库分为训练集和验证集；

将训练集中隐喻模型的输入及对应的输出一同输入BART预训练模型，并采用反向传播算法进行训练；

通过验证集对各阶段的BART预训练模型进行正确率验证，当正确率不再提高时终止训练，保存模型参数，得到隐喻模型。

本发明还提供了一种基于概念隐喻理论的隐喻生成系统，包括：数据准备模块、模型训练模块、模型输入构建模块和隐喻生成模块；

所述数据准备模块，用于：

所述模型训练模块，用于：

所述模型输入构建模块，用于：

所述隐喻生成模块，用于：

对文本依次进行筛选、预处理，得到可利用的文本；

使用各平替词替换对应隐喻词得到各非隐喻句；

作为本发明的进一步改进，训练并获得隐喻模型，包括：

将所述隐喻生成语料库分为训练集和验证集；

与现有技术相比，本发明的有益效果为：

本发明首次提出了中文隐喻生成的方法，既有坚实的理论基础，又具有很好的实践效果，有助于提高AI对话系统的拟人度，同时，填补了中文隐喻生成领域的这一空白，对后续相关研究具有一定的指导和启发意义。

附图说明

图1为本发明一种实施例公开的基于概念隐喻理论的隐喻生成方法流程图；

图2为本发明一种实施例公开的基于概念隐喻理论的隐喻生成系统示意图；

图3为本发明一种实施例公开的隐喻模型的输入对应的隐喻输出示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例，实施例中步骤S1、S2……不限定本发明的唯一执行步骤。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合附图对本发明做进一步的详细描述：

隐喻表达中动词通常扮演非常重要的角色，在动词性隐喻中动词通常是连接源域和目标域的关键所在，因此本发明聚焦于隐喻性动词的生成，以概念隐喻理论为指导理论，以BART模型为基础架构，使模型在训练过程中学习到从目标域到源域的映射，而后在生成过程中应用这一习得的映射把对应目标域的平替词替换成对应源域的隐喻性动词，实现隐喻的生成。

如图1所示，本发明提供的一种基于概念隐喻理论的隐喻生成方法，包括：

S1、采集文本，构建隐喻生成语料库，包括：成对存在的隐喻句和非隐喻句；

其中，

采集覆盖小说、散文、杂文、神话、寓言故事、戏剧、网络博客、微博评论、歌词等富含修辞手法的各种文本类型的文本，来源主要包括：互联网、现有语料库和书籍资料；如：采集到3万条文本；

对文本依次进行筛选、预处理，得到可利用的文本6千条；

对可利用的文本进行标准化隐喻识别程序(Metaphor identificationprocedure，MIP)处理，使文本中每一个词都标注有隐喻标签，隐喻标签包括0和1，0表示无隐喻，1表示隐喻；

对标注后的文本中每个标签为1的词，寻找对应的平替词(相同语义但不带有隐喻性)；

使用各平替词替换对应隐喻词得到各非隐喻句；

S2、根据知网，获取隐喻生成语料库中各隐喻句中隐喻词的义原作为源域，获取隐喻生成语料库中各非隐喻句中平替词的义原作为目标域；

S3、基于所有源域和目标域构建具有概率标签的源域-目标域映射表；

其中，

S4、基于成对存在的隐喻句和非隐喻句，以各非隐喻句为基础，结合源域-目标域映射表构造隐喻模型的输入，将对应的隐喻句作为对应的输出，训练并获得隐喻模型；

其中，

(1)基于成对存在的隐喻句和非隐喻句，以各非隐喻句为基础，结合源域-目标域映射表构造隐喻模型的输入，包括：

如图3所示了，将隐喻词的义原放于非隐喻句的句首，并设置分隔符“<BOS>”与该非隐喻句隔开；

将平替词的义原接于非隐喻句中平替词的后面，并设置连接符“：”与平替词连接；

设置标记符“<V>”，在非隐喻句中的平替词前、平替词义原后分别添加，给隐喻模型标记需要更改的位置，得到隐喻模型的输入。

(2)训练并获得隐喻模型，包括：

将隐喻生成语料库按照8:2的比例分为训练集和验证集；

将训练集中隐喻模型的输入及对应的输出一同输入BART预训练模型，训练集中每一个输入文本经过编码器进行编码，然后进入解码器进行解码；

采用反向传播算法进行训练，每次迭代采用最小批的方式计算网络误差和更新权重；

S5、对需生成隐喻的非隐喻句，获取该非隐喻句中动词的义原得到目标域；

其中，

同样的，采用步骤S2中相同的方法，即通过知网获取该非隐喻句中动词的义原。

S6、基于源域-目标域映射表，得到该目标域的所有映射及各映射的概率标签，根据概率标签抽样得到一个目标域-源域映射关系；

其中，

可以采取随机抽样的方式，也可采取最大概率抽样的方式获取目标域-源域映射关系。

S7、基于该非隐喻句及该目标域-源域映射关系构造隐喻模型的输入，输入隐喻模型，隐喻模型自回归生成动词性隐喻句。

如图2所示，本发明还提供了一种基于概念隐喻理论的隐喻生成系统，包括：数据准备模块、模型训练模块、模型输入构建模块和隐喻生成模块；

数据准备模块，用于：

(1)采集文本，构建隐喻生成语料库，包括：成对存在的隐喻句和非隐喻句；

其中，

对文本依次进行筛选、预处理，得到可利用的文本6千条；

使用各平替词替换对应隐喻词得到各非隐喻句；

(2)根据知网，获取各隐喻句中隐喻词的义原作为源域，获取各非隐喻句中平替词的义原作为目标域；

(3)基于所有源域和目标域构建具有概率标签的源域-目标域映射表；

其中，

模型训练模块，用于：

基于成对存在的隐喻句和非隐喻句，以各非隐喻句为基础，结合源域-目标域映射表构造隐喻模型的输入，将对应的隐喻句作为对应的输出，训练并获得隐喻模型；

其中，

1)基于成对存在的隐喻句和非隐喻句，以各非隐喻句为基础，结合源域-目标域映射表构造隐喻模型的输入，包括：

2)训练并获得隐喻模型，包括：

将隐喻生成语料库按照8:2的比例分为训练集和验证集；

模型输入构建模块，用于：

(1)对需生成隐喻的非隐喻句，获取该非隐喻句中动词的义原得到目标域；

其中，

(2)基于源域-目标域映射表，得到该目标域的所有映射及各映射的概率标签，根据概率标签抽样得到一个目标域-源域映射关系；

其中，

隐喻生成模块，用于：

基于该非隐喻句及该目标域-源域映射关系构造隐喻模型的输入，输入隐喻模型，隐喻模型自回归生成动词性隐喻句。

实施例：

如图3所示，对非隐喻句“这辆汽车很耗油”基于隐喻模型生成隐喻，过程包括：

步骤1、对需生成隐喻的非隐喻句，通过知网获取该非隐喻句中动词的义原得到目标域；即，获取动词“耗”的义原为“耗费”

步骤2、基于源域-目标域映射表，得到该目标域的所有映射及各映射的概率标签，如：

步骤3、采取最大概率抽样的方式，根据概率标签抽样得到一个目标域-源域映射关系；即：耗费-吃；

步骤4、基于该非隐喻句及该目标域-源域映射关系构造隐喻模型的输入，具体为：

首先，把句中动词对应的隐喻词的义原“吃”放于句首，作为隐喻映射的源域来指导模型生成的方向，后接“<BOS>”作为分隔符；

然后，把平替词“耗”的义原“耗费”接到平替词后，中间以“：”作为连接符；

最后，在平替词“耗”前、平替词义原“耗费”后分别添加“<V>”作为标记符，用于给模型标记需要更改的位置，得到隐喻模型的输入。

步骤5、将隐喻模型的输入，输入到隐喻模型，隐喻模型自回归生成动词性隐喻句，即：这辆车很吃油。

本发明的优点：

以上仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于概念隐喻理论的隐喻生成方法，其特征在于，包括：

2.根据权利要求1所述的基于概念隐喻理论的隐喻生成方法，其特征在于：所述构建隐喻生成语料库，包括：

对文本依次进行筛选、预处理，得到可利用的文本；

使用各平替词替换对应隐喻词得到各非隐喻句；

3.根据权利要求1所述的基于概念隐喻理论的隐喻生成方法，其特征在于：所述基于所有所述源域和目标域构建具有概率标签的源域-目标域映射表；包括：

4.根据权利要求1所述的基于概念隐喻理论的隐喻生成方法，其特征在于：基于成对存在的隐喻句和非隐喻句，以各非隐喻句为基础，结合所述源域-目标域映射表构造隐喻模型的输入，包括：

5.根据权利要求1所述的基于概念隐喻理论的隐喻生成方法，其特征在于：训练并获得隐喻模型，包括：

将所述隐喻生成语料库分为训练集和验证集；

6.一种基于概念隐喻理论的隐喻生成系统，其特征在于，包括：数据准备模块、模型训练模块、模型输入构建模块和隐喻生成模块；

所述数据准备模块，用于：

所述模型训练模块，用于：

所述模型输入构建模块，用于：

所述隐喻生成模块，用于：

7.根据权利要求6所述的基于概念隐喻理论的隐喻生成系统，其特征在于：所述构建隐喻生成语料库，包括：

对文本依次进行筛选、预处理，得到可利用的文本；

使用各平替词替换对应隐喻词得到各非隐喻句；

8.根据权利要求6所述的基于概念隐喻理论的隐喻生成系统，其特征在于：所述基于所有所述源域和目标域构建具有概率标签的源域-目标域映射表；包括：

9.根据权利要求6所述的基于概念隐喻理论的隐喻生成系统，其特征在于：基于成对存在的隐喻句和非隐喻句，以各非隐喻句为基础，结合所述源域-目标域映射表构造隐喻模型的输入，包括：

10.根据权利要求6所述的基于概念隐喻理论的隐喻生成系统，其特征在于：训练并获得隐喻模型，包括：

将所述隐喻生成语料库分为训练集和验证集；