CN114880994A

CN114880994A - 一种直白文本到反讽文本的文本风格转换方法及装置

Info

Publication number: CN114880994A
Application number: CN202210574606.0A
Authority: CN
Inventors: 陈龙; 黄嘉成
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2022-05-25
Filing date: 2022-05-25
Publication date: 2022-08-09
Anticipated expiration: 2042-05-25
Also published as: CN114880994B

Abstract

本发明属于人工智能自然语言处理领域，具体涉及一种直白文本到反讽文本的文本风格转换方法及装置，包括：首先利用爬虫技术获得若干社交平台的评论数据，从中抽取具有明显情感倾向性的评论样本并打上标签，得到正负情感极性的平衡数据集，构建正负情感二分类的情感倾向性分类模型；基于正负情感二分类的情感倾向性分类模型构建模块构造名词‑形容词正负情感极性搭配表；然后通过转换模块对文本样本执行中心词与评价词的定位，并针对评价词进行正向情感极性替换；最后追加正向情感极性的评价句；本发明提出的方法适用于负面情感极性的文本，针对直白负面情感倾向性的文本进行风格转换，最终在不改变文本原意的前提下生成具有反讽内涵的文本。

Description

一种直白文本到反讽文本的文本风格转换方法及装置

技术领域

本发明属于人工智能自然语言处理领域，具体涉及一种直白文本到反讽文本的文本风格转换方法及装置。

背景技术

随着人工智能技术的不断发展，自然语言处理领域取得了极大的进步，现有的人工智能模型已经能在一些任务中生成流畅的自然语言文本，甚至实现人机对话交流。文本风格转换是当前自然语言处理领域中的一个热门问题，可以促进人工智能的情绪化和拟人化，提升人机交流的质量。

现有技术中的语言风格转换模型取得了一定的效果，但是，目前还没有实现直白文本到反讽文本的文本风格转换。

发明内容

本发明主要解决直白文本到反讽文本的文本风格转换方法的技术问题，提出一种直白文本到反讽文本的文本风格转换方法及装置。

本发明采用的技术方案是：一种直白文本到反讽文本的文本风格转换方法及装置，包括：

一种直白文本到反讽文本的文本风格转换方法，包括以下步骤：

步骤1：利用爬虫技术获得若干社交平台评论数据，从中抽取具有明显情感倾向性的评论样本并打上标签，构建正负情感极性的平衡数据集，根据平衡数据集构建正负情感二分类的情感倾向性分类模型；

步骤2：基于正负情感二分类的情感倾向性分类模型构造名词-形容词正负情感极性搭配表；

步骤3：对输入的文本样本进行预处理；

步骤4：根据名词-形容词正负情感极性搭配表判断文本样本的情感类别，若文本样本的情感类别为负向情感，则对预处理后的文本样本执行中心词与评价词的定位，针对评价词进行正向情感极性替换，替换后计算整句困惑度并将困惑度最低的文本保留；

步骤5：对困惑度最低的文本追加正向情感极性的评价句并输入至正负情感二分类的情感倾向性分类模型，完成直白文本到反讽文本的文本风格转换。

优选的，所述步骤2的具体实现包括以下子步骤：

步骤2.1：利用爬虫技术获得若干社交平台评论数据并进行预处理，去掉无意义的符号和空格后，进行分词；

步骤2.2：利用词嵌入技术将预处理后的数据转换为文本张量；

步骤2.3：将文本张量输入至正负情感二分类的情感倾向性分类模型，得到数据的正负情感极性标签；

步骤2.4：利用词性标注和句法依存分析技术对评论数据进行句式结构识别，提取构成主谓结构或偏正结构的名词与形容词搭配，并根据所述正负情感极性标签统计每对名词与形容词搭配的文本情感极性频次，正向频次记为Freq_pos，负向频次记为Freq_neg；

步骤2.5：计算Freq_pos与Freq_neg的比值，若大于1，则将该名词与形容词搭配标记为正向情感极性的搭配；若小于1，则将该名词与形容词搭配标记为负向情感极性的搭配；若等于1，则由人工确定该搭配的情感极性；

步骤2.6：将每对情感极性搭配以结构化的形式存入名词-形容词正负情感极性搭配表。

优选的，所述步骤3的具体实现包括以下子步骤：

步骤3.1：清理输入的文本样本，删除无意义的符号与空格；

步骤3.2：对经过步骤3.1处理后的文本样本进行分词；

步骤3.3：识别每条分词处理后的文本样本的情感类别，包括正向情感和负向情感，只有负向情感的输入文本才可以执行后续步骤实现反讽风格文本转换。

优选的，所述步骤4的具体实现包括以下子步骤：

步骤4.1：利用词性标注和句法依存分析技术分析预处理后的文本，提取构成主谓关系和偏正关系的名词与形容词搭配，将名词视为中心词，对应的形容词视为评价词；

步骤4.2：利用名词-形容词正负情感极性搭配表中的评论数据搭配的结构化形式判断步骤4.1中定位出的中心词与评价词搭配的情感极性，若为负向情感搭配，则检索能与该中心词搭配的正向情感搭配形容词列表，依次分别替换原始的评价词，并按照语言困惑度公式分别计算替换后的整句困惑度，将困惑度最低的文本保留。

进一步的，语言困惑度评分公式为：

其中，s表示替换后的文本，w_i表示文本的第i个词语，D表示本地的语料库，count(w_i，D)表示词语w_i在语料库D中的出现频数，count(w_i-1w_i，D)表示前一个词是w_i-1的情况下，w_i在语料库D中的出现频数，P(s)表示句子的困惑度，δ表示防止0概率问题的平滑参数，L为文本长度。

优选的，所述步骤5的具体实现包括以下子步骤：

步骤5.1：人工构造若干条可以用于任何对象的通用正向评价句；

步骤5.2：将步骤5.1构造的正向评价句添加至得分最高的文本的末尾，分别得到若干条追加后的文本，并分别输入至正负情感二分类的情感倾向性分类模型，输出对应文本的情感标签以及置信度，并记录该文本的情感标签和置信度；

步骤5.3：将使模型输出情感标签为正向的文本保留，作为最终的反讽风格文本，如果有若干个输出文本的情感标签为正向，则保留对应正向标签的置信度最大的文本；如果所有输出文本的情感标签都为负向，则保留对应负向标签的置信度最小的文本。

进一步的，置信度计算公式为：

其中，y_i代表正负情感二分类的情感倾向性分类模型产生的原始输出，i代表原始输出对应情感标签类别，e代表自然底数，n为标签总数量，C(y_i)代表将y_i映射至[0,1]从而得到置信度。

一种直白文本到反讽文本的文本风格转换装置，包括：接收模块、构建模块、转换模块；

所述接收模块用于接受直白文本到反讽文本的文本风格转换请求；

所述构建模块用于构建正负情感二分类的情感倾向性分类模型以及名词-形容词正负情感极性搭配表；

所述转换模块用于根据所述直白文本到反讽文本的文本风格转换请求，利用所述名词-形容词正负情感极性搭配表与所述正负情感二分类的情感倾向性分类模型将直白文本转换为反讽文本。

优选的，所述构建模块利用词性标注和句法依存分析技术对评论数据进行句式结构识别，提取构成主谓结构或偏正结构的名词与形容词搭配，并根据所述正负情感极性标签统计每对名词与形容词搭配来源文本的情感极性为正向和负向的频次，分别记为Freq_pos和Freq_neg，计算Freq_pos与Freq_neg的比值，若大于1，则将该名词与形容词搭配标记为正向情感极性的搭配；若小于1，则将该名词与形容词搭配标记为负向情感极性的搭配；若等于1，则由人工确定该搭配的情感极性，每对情感极性搭配以结构化的形式构建出名词-形容词正负情感极性搭配表。

优选的，所述转换模块将困惑度得分文本追加正向评价句，输出对应文本的情感标签以及置信度，并记录该文本的情感标签和置信度，将使模型输出情感标签为正向的文本保留，作为最终的反讽风格文本，如果有若干个输出文本的情感标签为正向，则保留置信度最大的文本；如果所有输出文本的情感标签都为负向，则保留置信度最小的文本。

本发明首先通过构建模块构造名词-形容词正负情感极性搭配表；然后通过转换模块对文本样本执行中心词与评价词的定位，并针对评价词进行正向情感极性替换；最后追加正向情感极性的评价句；实现了直白文本到反讽文本的文本风格转换。

附图说明

图1是本发明实施例的流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提供一种直白文本到反讽文本的文本风格转换方法，具体包括以下步骤：

步骤1：利用爬虫技术获得若干社交平台的评论数据，从中抽取具有明显情感倾向性的评论样本并打上标签，构建正负情感极性的平衡数据集，根据平衡数据集构建正负情感二分类的情感倾向性分类模型；

步骤3：对输入的文本样本进行预处理；

在通过基于正负情感二分类的情感倾向性分类模型构造名词-形容词正负情感极性搭配表，具体包括以下步骤：

为了降低原始数据的数据错误率，使得数据满足计算机处理的要求，便于后续的数据处理，本实施例对输入的文本样本进行预处理，具体包括以下步骤：

步骤3.1：清理输入的文本样本，删除无意义的符号与空格；

步骤3.2：对输入的文本样本进行分词；

根据名词-形容词正负情感极性搭配表判断文本样本的情感类别，若文本样本的情感类别为负向情感，则对预处理后的文本样本执行中心词与评价词的定位，针对评价词进行正向情感极性替换，替换后计算整句困惑度并将困惑度最低的文本保留，具体包括以下步骤：

步骤4.1：利用Python第三方库pyltp中的词性标注技术对预处理后的文本中所有词语的词性进行判断，并且利用pyltp中的句法依存分析技术分析文本的语法结构，提取构成主谓关系和偏正关系的名词与形容词搭配，将名词视为中心词，对应的形容词视为评价词；

步骤4.2：利用名词-形容词正负情感极性搭配表中的评论数据搭配的结构化形式判断步骤4.1中定位出的中心词与评价词搭配的情感极性，若为负向情感搭配，则检索能与该中心词搭配的正向情感搭配形容词列表，依次分别替换原始的评价词，并按照以下Ngram语言模型公式分别计算替换后的整句困惑度，计算了每个替换后的文本的分值后，将得分最高的文本保留，困惑度计算公式为：

其中，s表示替换后的文本，w_i表示文本的第i个词语，D表示本地的语料库，count(w_i,D)表示词语w_i在语料库D中的出现频数，count(w_i-1w_i,D)表示前一个词是w_i-1的情况下，w_i在语料库D中的出现频数，P(s)表示句子的困惑度，δ表示防止0概率问题的平滑参数，一般取δ＝1，L为文本长度。

对困惑度最低的文本追加正向情感极性的评价句并输入至正负情感二分类的情感倾向性分类模型，完成直白文本到反讽文本的文本风格转换，具体包括以下步骤：

步骤5.1：人工构造若干条可以用于任何对象的通用正向评价句，如“真是太棒了”，“真不错啊”等；

步骤5.2：将步骤5.1构造的若干正向评价句添加至得分最高文本的末尾，分别得到若干条追加后的文本，并分别输入至正负情感二分类的情感倾向性分类模型，输出对应文本的情感标签以及置信度，并记录该文本的情感标签和置信度；

步骤5.3：将使模型输出情感标签为正向的文本保留，作为最终的反讽风格文本，如果有若干个输出文本的情感标签为正向，则保留对应正向标签的置信度最大的文本；如果所有输出文本的情感标签都为负向，则保留对应负向标签的置信度最小的文本，其中，置信度计算公式为：

本实施例提出一种具体的实施方式，如图1，包括a)～d)这几个步骤，具体地：

a):定位中心词和对应的情感词，若输入样本为s，即“他真是个糟糕的守门员，让对方进了六个球。”，则定位得到的中心词为“守门员”，情感词为“糟糕的”；

b):在构建的搭配表中检索能与中心词搭配的正向情感词，所述搭配表是从语料库中提取的名词-形容词搭配，并根据提取的搭配的源文本进行情感分类，本实施例根据名词“守门员”提取得到n个形容词，表示为{形容词1:优秀的，形容词2：有天赋的，…，形容词n：好}；

c):利用N-gram决定用于替代的评价词，即从步骤b)中获取的n个形容词中选择替换源文本中“糟糕的”这一个词的评价词，本实施例通过计算选择的n个形容的整句困惑度，选择整句困惑度最低的形容，本实施例中选择的形容词为“有天赋的”，因此输入样本s变换为文本s’，即“他真是个有天赋的守门员，让对方进了六个球。”；

d):对完成替换的文本进行正向情感评价句追加，即组合副词，通过正向情感极性形容词和其他语法结构追加正向情感评价句，追加后最终输出的文本为“他真是个有天赋的守门员，让对方进了六个球。真是太出色了！”，本实施例中追加的正向情感极性评价句为“真是太出色了！”，在具体实施过程中，可以构建正向情感极性评价句的语料库，从中随机选择一个句子追加在变换后的文本后面。

进一步的，所述构建模块利用词性标注和句法依存分析技术对评论数据进行句式结构识别，提取构成主谓结构或偏正结构的名词与形容词搭配，并根据所述正负情感极性标签统计每对名词与形容词搭配来源文本的情感极性为正向和负向的频次，分别记为Freq_pos和Freq_neg，计算Freq_pos与Freq_neg的比值，若大于1，则将该名词与形容词搭配标记为正向情感极性的搭配；若小于1，则将该名词与形容词搭配标记为负向情感极性的搭配；若等于1，则由人工确定该搭配的情感极性，每对情感极性搭配以结构化的形式构建出名词-形容词正负情感极性搭配表。

进一步的，所述转换模块将困惑度最低的文本追加正向评价句，输出对应文本的情感标签以及置信度，并记录该文本的情感标签和置信度，将使模型输出情感标签为正向的文本保留，作为最终的反讽风格文本，如果有若干个输出文本的情感标签为正向，则保留置信度最大的文本；如果所有输出文本的情感标签都为负向，则保留置信度最小的文本。

从以上描述可知，本发明采用构造名词-形容词正负情感极性搭配表，预处理输入文本样本，定位中心词与评价词的，评价词替换，追加评价句的方式，实现直白文本到反讽文本的文本风格转换。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种直白文本到反讽文本的文本风格转换方法，其特征在于，包括以下步骤：

步骤3：对输入的文本样本进行预处理；

2.根据权利要求1所述的一种直白文本到反讽文本的文本风格转换方法，其特征在于，所述步骤2的具体实现包括以下子步骤：

3.根据权利要求1所述的一种直白文本到反讽文本的文本风格转换方法，其特征在于，所述步骤3的具体实现包括以下子步骤：

步骤3.1：清理输入的文本样本，删除无意义的符号与空格；

步骤3.2：对经过步骤3.1处理后的文本样本进行分词；

4.根据权利要求1所述的一种直白文本到反讽文本的文本风格转换方法，其特征在于，所述步骤4的具体实现包括以下子步骤：

5.根据权利要求4所述的一种直白文本到反讽文本的文本风格转换方法，其特征在于，语言困惑度评分公式为：

其中，s表示替换后的文本，w_i表示文本的第i个词语，D表示本地的语料库，count(w_i,D)表示词语w_i在语料库D中的出现频数，count(w_i-1w_i,D)表示前一个词是w_i-1的情况下，w_i在语料库D中的出现频数，P(s)表示句子的困惑度，δ表示防止0概率问题的平滑参数，L为文本长度。

6.根据权利要求1所述的一种直白文本到反讽文本的文本风格转换方法，其特征在于，所述步骤5的具体实现包括以下子步骤：

7.根据权利要求6所述的一种直白文本到反讽文本的文本风格转换方法，其特征在于，置信度计算公式为：

8.一种直白文本到反讽文本的文本风格转换装置，用于实现权利要求1-7所述的一种直白文本到反讽文本的文本风格转换方法，包括：接收模块、构建模块、转换模块；

9.根据权利要求8所述的一种直白文本到反讽文本的文本风格转换装置，其特征在于，所述构建模块利用词性标注和句法依存分析技术对评论数据进行句式结构识别，提取构成主谓结构或偏正结构的名词与形容词搭配，并根据所述正负情感极性标签统计每对名词与形容词搭配来源文本的情感极性为正向和负向的频次，分别记为Freq_pos和Freq_neg，计算Freq_pos与Freq_neg的比值，若大于1，则将该名词与形容词搭配标记为正向情感极性的搭配；若小于1，则将该名词与形容词搭配标记为负向情感极性的搭配；若等于1，则由人工确定该搭配的情感极性，每对情感极性搭配以结构化的形式构建出名词-形容词正负情感极性搭配表。

10.根据权利要求8所述的一种直白文本到反讽文本的文本风格转换装置，其特征在于，所述转换模块将困惑度得分文本追加正向评价句，输出对应文本的情感标签以及置信度，并记录该文本的情感标签和置信度，将使模型输出情感标签为正向的文本保留，作为最终的反讽风格文本，如果有若干个输出文本的情感标签为正向，则保留置信度最大的文本；如果所有输出文本的情感标签都为负向，则保留置信度最小的文本。