CN114880994A - 一种直白文本到反讽文本的文本风格转换方法及装置 - Google Patents
一种直白文本到反讽文本的文本风格转换方法及装置 Download PDFInfo
- Publication number
- CN114880994A CN114880994A CN202210574606.0A CN202210574606A CN114880994A CN 114880994 A CN114880994 A CN 114880994A CN 202210574606 A CN202210574606 A CN 202210574606A CN 114880994 A CN114880994 A CN 114880994A
- Authority
- CN
- China
- Prior art keywords
- text
- emotion
- positive
- negative
- polarity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000006243 chemical reaction Methods 0.000 title claims abstract description 41
- 238000000034 method Methods 0.000 title claims abstract description 23
- YUZILKLGVPUFOT-YHPRVSEPSA-L disodium;5-[(6-anilino-4-oxo-1h-1,3,5-triazin-2-yl)amino]-2-[(e)-2-[4-[(6-anilino-4-oxo-1h-1,3,5-triazin-2-yl)amino]-2-sulfonatophenyl]ethenyl]benzenesulfonate Chemical compound [Na+].[Na+].C=1C=C(\C=C\C=2C(=CC(NC=3NC(NC=4C=CC=CC=4)=NC(=O)N=3)=CC=2)S([O-])(=O)=O)C(S(=O)(=O)[O-])=CC=1NC(N1)=NC(=O)N=C1NC1=CC=CC=C1 YUZILKLGVPUFOT-YHPRVSEPSA-L 0.000 title claims abstract description 21
- 230000008451 emotion Effects 0.000 claims abstract description 228
- 238000011156 evaluation Methods 0.000 claims abstract description 47
- 238000013145 classification model Methods 0.000 claims abstract description 28
- 238000005516 engineering process Methods 0.000 claims abstract description 19
- 238000004458 analytical method Methods 0.000 claims description 9
- 230000002996 emotional effect Effects 0.000 claims description 8
- 238000007781 pre-processing Methods 0.000 claims description 8
- 238000010276 construction Methods 0.000 claims description 7
- 230000011218 segmentation Effects 0.000 claims description 6
- 238000009499 grossing Methods 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 239000000284 extract Substances 0.000 claims description 2
- 238000013473 artificial intelligence Methods 0.000 abstract description 5
- 238000003058 natural language processing Methods 0.000 abstract description 4
- 238000002372 labelling Methods 0.000 abstract 1
- 238000004364 calculation method Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/151—Transformation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明属于人工智能自然语言处理领域,具体涉及一种直白文本到反讽文本的文本风格转换方法及装置,包括:首先利用爬虫技术获得若干社交平台的评论数据,从中抽取具有明显情感倾向性的评论样本并打上标签,得到正负情感极性的平衡数据集,构建正负情感二分类的情感倾向性分类模型;基于正负情感二分类的情感倾向性分类模型构建模块构造名词‑形容词正负情感极性搭配表;然后通过转换模块对文本样本执行中心词与评价词的定位,并针对评价词进行正向情感极性替换;最后追加正向情感极性的评价句;本发明提出的方法适用于负面情感极性的文本,针对直白负面情感倾向性的文本进行风格转换,最终在不改变文本原意的前提下生成具有反讽内涵的文本。
Description
技术领域
本发明属于人工智能自然语言处理领域,具体涉及一种直白文本到反讽文本的文本风格转换方法及装置。
背景技术
随着人工智能技术的不断发展,自然语言处理领域取得了极大的进步,现有的人工智能模型已经能在一些任务中生成流畅的自然语言文本,甚至实现人机对话交流。文本风格转换是当前自然语言处理领域中的一个热门问题,可以促进人工智能的情绪化和拟人化,提升人机交流的质量。
现有技术中的语言风格转换模型取得了一定的效果,但是,目前还没有实现直白文本到反讽文本的文本风格转换。
发明内容
本发明主要解决直白文本到反讽文本的文本风格转换方法的技术问题,提出一种直白文本到反讽文本的文本风格转换方法及装置。
本发明采用的技术方案是:一种直白文本到反讽文本的文本风格转换方法及装置,包括:
一种直白文本到反讽文本的文本风格转换方法,包括以下步骤:
步骤1:利用爬虫技术获得若干社交平台评论数据,从中抽取具有明显情感倾向性的评论样本并打上标签,构建正负情感极性的平衡数据集,根据平衡数据集构建正负情感二分类的情感倾向性分类模型;
步骤2:基于正负情感二分类的情感倾向性分类模型构造名词-形容词正负情感极性搭配表;
步骤3:对输入的文本样本进行预处理;
步骤4:根据名词-形容词正负情感极性搭配表判断文本样本的情感类别,若文本样本的情感类别为负向情感,则对预处理后的文本样本执行中心词与评价词的定位,针对评价词进行正向情感极性替换,替换后计算整句困惑度并将困惑度最低的文本保留;
步骤5:对困惑度最低的文本追加正向情感极性的评价句并输入至正负情感二分类的情感倾向性分类模型,完成直白文本到反讽文本的文本风格转换。
优选的,所述步骤2的具体实现包括以下子步骤:
步骤2.1:利用爬虫技术获得若干社交平台评论数据并进行预处理,去掉无意义的符号和空格后,进行分词;
步骤2.2:利用词嵌入技术将预处理后的数据转换为文本张量;
步骤2.3:将文本张量输入至正负情感二分类的情感倾向性分类模型,得到数据的正负情感极性标签;
步骤2.4:利用词性标注和句法依存分析技术对评论数据进行句式结构识别,提取构成主谓结构或偏正结构的名词与形容词搭配,并根据所述正负情感极性标签统计每对名词与形容词搭配的文本情感极性频次,正向频次记为Freqpos,负向频次记为Freqneg;
步骤2.5:计算Freqpos与Freqneg的比值,若大于1,则将该名词与形容词搭配标记为正向情感极性的搭配;若小于1,则将该名词与形容词搭配标记为负向情感极性的搭配;若等于1,则由人工确定该搭配的情感极性;
步骤2.6:将每对情感极性搭配以结构化的形式存入名词-形容词正负情感极性搭配表。
优选的,所述步骤3的具体实现包括以下子步骤:
步骤3.1:清理输入的文本样本,删除无意义的符号与空格;
步骤3.2:对经过步骤3.1处理后的文本样本进行分词;
步骤3.3:识别每条分词处理后的文本样本的情感类别,包括正向情感和负向情感,只有负向情感的输入文本才可以执行后续步骤实现反讽风格文本转换。
优选的,所述步骤4的具体实现包括以下子步骤:
步骤4.1:利用词性标注和句法依存分析技术分析预处理后的文本,提取构成主谓关系和偏正关系的名词与形容词搭配,将名词视为中心词,对应的形容词视为评价词;
步骤4.2:利用名词-形容词正负情感极性搭配表中的评论数据搭配的结构化形式判断步骤4.1中定位出的中心词与评价词搭配的情感极性,若为负向情感搭配,则检索能与该中心词搭配的正向情感搭配形容词列表,依次分别替换原始的评价词,并按照语言困惑度公式分别计算替换后的整句困惑度,将困惑度最低的文本保留。
进一步的,语言困惑度评分公式为:
其中,s表示替换后的文本,wi表示文本的第i个词语,D表示本地的语料库,count(wi,D)表示词语wi在语料库D中的出现频数,count(wi-1wi,D)表示前一个词是wi-1的情况下,wi在语料库D中的出现频数,P(s)表示句子的困惑度,δ表示防止0概率问题的平滑参数,L为文本长度。
优选的,所述步骤5的具体实现包括以下子步骤:
步骤5.1:人工构造若干条可以用于任何对象的通用正向评价句;
步骤5.2:将步骤5.1构造的正向评价句添加至得分最高的文本的末尾,分别得到若干条追加后的文本,并分别输入至正负情感二分类的情感倾向性分类模型,输出对应文本的情感标签以及置信度,并记录该文本的情感标签和置信度;
步骤5.3:将使模型输出情感标签为正向的文本保留,作为最终的反讽风格文本,如果有若干个输出文本的情感标签为正向,则保留对应正向标签的置信度最大的文本;如果所有输出文本的情感标签都为负向,则保留对应负向标签的置信度最小的文本。
进一步的,置信度计算公式为:
其中,yi代表正负情感二分类的情感倾向性分类模型产生的原始输出,i代表原始输出对应情感标签类别,e代表自然底数,n为标签总数量,C(yi)代表将yi映射至[0,1]从而得到置信度。
一种直白文本到反讽文本的文本风格转换装置,包括:接收模块、构建模块、转换模块;
所述接收模块用于接受直白文本到反讽文本的文本风格转换请求;
所述构建模块用于构建正负情感二分类的情感倾向性分类模型以及名词-形容词正负情感极性搭配表;
所述转换模块用于根据所述直白文本到反讽文本的文本风格转换请求,利用所述名词-形容词正负情感极性搭配表与所述正负情感二分类的情感倾向性分类模型将直白文本转换为反讽文本。
优选的,所述构建模块利用词性标注和句法依存分析技术对评论数据进行句式结构识别,提取构成主谓结构或偏正结构的名词与形容词搭配,并根据所述正负情感极性标签统计每对名词与形容词搭配来源文本的情感极性为正向和负向的频次,分别记为Freqpos和Freqneg,计算Freqpos与Freqneg的比值,若大于1,则将该名词与形容词搭配标记为正向情感极性的搭配;若小于1,则将该名词与形容词搭配标记为负向情感极性的搭配;若等于1,则由人工确定该搭配的情感极性,每对情感极性搭配以结构化的形式构建出名词-形容词正负情感极性搭配表。
优选的,所述转换模块将困惑度得分文本追加正向评价句,输出对应文本的情感标签以及置信度,并记录该文本的情感标签和置信度,将使模型输出情感标签为正向的文本保留,作为最终的反讽风格文本,如果有若干个输出文本的情感标签为正向,则保留置信度最大的文本;如果所有输出文本的情感标签都为负向,则保留置信度最小的文本。
本发明首先通过构建模块构造名词-形容词正负情感极性搭配表;然后通过转换模块对文本样本执行中心词与评价词的定位,并针对评价词进行正向情感极性替换;最后追加正向情感极性的评价句;实现了直白文本到反讽文本的文本风格转换。
附图说明
图1是本发明实施例的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提供一种直白文本到反讽文本的文本风格转换方法,具体包括以下步骤:
步骤1:利用爬虫技术获得若干社交平台的评论数据,从中抽取具有明显情感倾向性的评论样本并打上标签,构建正负情感极性的平衡数据集,根据平衡数据集构建正负情感二分类的情感倾向性分类模型;
步骤2:基于正负情感二分类的情感倾向性分类模型构造名词-形容词正负情感极性搭配表;
步骤3:对输入的文本样本进行预处理;
步骤4:根据名词-形容词正负情感极性搭配表判断文本样本的情感类别,若文本样本的情感类别为负向情感,则对预处理后的文本样本执行中心词与评价词的定位,针对评价词进行正向情感极性替换,替换后计算整句困惑度并将困惑度最低的文本保留;
步骤5:对困惑度最低的文本追加正向情感极性的评价句并输入至正负情感二分类的情感倾向性分类模型,完成直白文本到反讽文本的文本风格转换。
在通过基于正负情感二分类的情感倾向性分类模型构造名词-形容词正负情感极性搭配表,具体包括以下步骤:
步骤2.1:利用爬虫技术获得若干社交平台评论数据并进行预处理,去掉无意义的符号和空格后,进行分词;
步骤2.2:利用词嵌入技术将预处理后的数据转换为文本张量;
步骤2.3:将文本张量输入至正负情感二分类的情感倾向性分类模型,得到数据的正负情感极性标签;
步骤2.4:利用词性标注和句法依存分析技术对评论数据进行句式结构识别,提取构成主谓结构或偏正结构的名词与形容词搭配,并根据所述正负情感极性标签统计每对名词与形容词搭配的文本情感极性频次,正向频次记为Freqpos,负向频次记为Freqneg;
步骤2.5:计算Freqpos与Freqneg的比值,若大于1,则将该名词与形容词搭配标记为正向情感极性的搭配;若小于1,则将该名词与形容词搭配标记为负向情感极性的搭配;若等于1,则由人工确定该搭配的情感极性;
步骤2.6:将每对情感极性搭配以结构化的形式存入名词-形容词正负情感极性搭配表。
为了降低原始数据的数据错误率,使得数据满足计算机处理的要求,便于后续的数据处理,本实施例对输入的文本样本进行预处理,具体包括以下步骤:
步骤3.1:清理输入的文本样本,删除无意义的符号与空格;
步骤3.2:对输入的文本样本进行分词;
步骤3.3:识别每条分词处理后的文本样本的情感类别,包括正向情感和负向情感,只有负向情感的输入文本才可以执行后续步骤实现反讽风格文本转换。
根据名词-形容词正负情感极性搭配表判断文本样本的情感类别,若文本样本的情感类别为负向情感,则对预处理后的文本样本执行中心词与评价词的定位,针对评价词进行正向情感极性替换,替换后计算整句困惑度并将困惑度最低的文本保留,具体包括以下步骤:
步骤4.1:利用Python第三方库pyltp中的词性标注技术对预处理后的文本中所有词语的词性进行判断,并且利用pyltp中的句法依存分析技术分析文本的语法结构,提取构成主谓关系和偏正关系的名词与形容词搭配,将名词视为中心词,对应的形容词视为评价词;
步骤4.2:利用名词-形容词正负情感极性搭配表中的评论数据搭配的结构化形式判断步骤4.1中定位出的中心词与评价词搭配的情感极性,若为负向情感搭配,则检索能与该中心词搭配的正向情感搭配形容词列表,依次分别替换原始的评价词,并按照以下Ngram语言模型公式分别计算替换后的整句困惑度,计算了每个替换后的文本的分值后,将得分最高的文本保留,困惑度计算公式为:
其中,s表示替换后的文本,wi表示文本的第i个词语,D表示本地的语料库,count(wi,D)表示词语wi在语料库D中的出现频数,count(wi-1wi,D)表示前一个词是wi-1的情况下,wi在语料库D中的出现频数,P(s)表示句子的困惑度,δ表示防止0概率问题的平滑参数,一般取δ=1,L为文本长度。
对困惑度最低的文本追加正向情感极性的评价句并输入至正负情感二分类的情感倾向性分类模型,完成直白文本到反讽文本的文本风格转换,具体包括以下步骤:
步骤5.1:人工构造若干条可以用于任何对象的通用正向评价句,如“真是太棒了”,“真不错啊”等;
步骤5.2:将步骤5.1构造的若干正向评价句添加至得分最高文本的末尾,分别得到若干条追加后的文本,并分别输入至正负情感二分类的情感倾向性分类模型,输出对应文本的情感标签以及置信度,并记录该文本的情感标签和置信度;
步骤5.3:将使模型输出情感标签为正向的文本保留,作为最终的反讽风格文本,如果有若干个输出文本的情感标签为正向,则保留对应正向标签的置信度最大的文本;如果所有输出文本的情感标签都为负向,则保留对应负向标签的置信度最小的文本,其中,置信度计算公式为:
其中,yi代表正负情感二分类的情感倾向性分类模型产生的原始输出,i代表原始输出对应情感标签类别,e代表自然底数,n为标签总数量,C(yi)代表将yi映射至[0,1]从而得到置信度。
本实施例提出一种具体的实施方式,如图1,包括a)~d)这几个步骤,具体地:
a):定位中心词和对应的情感词,若输入样本为s,即“他真是个糟糕的守门员,让对方进了六个球。”,则定位得到的中心词为“守门员”,情感词为“糟糕的”;
b):在构建的搭配表中检索能与中心词搭配的正向情感词,所述搭配表是从语料库中提取的名词-形容词搭配,并根据提取的搭配的源文本进行情感分类,本实施例根据名词“守门员”提取得到n个形容词,表示为{形容词1:优秀的,形容词2:有天赋的,…,形容词n:好};
c):利用N-gram决定用于替代的评价词,即从步骤b)中获取的n个形容词中选择替换源文本中“糟糕的”这一个词的评价词,本实施例通过计算选择的n个形容的整句困惑度,选择整句困惑度最低的形容,本实施例中选择的形容词为“有天赋的”,因此输入样本s变换为文本s’,即“他真是个有天赋的守门员,让对方进了六个球。”;
d):对完成替换的文本进行正向情感评价句追加,即组合副词,通过正向情感极性形容词和其他语法结构追加正向情感评价句,追加后最终输出的文本为“他真是个有天赋的守门员,让对方进了六个球。真是太出色了!”,本实施例中追加的正向情感极性评价句为“真是太出色了!”,在具体实施过程中,可以构建正向情感极性评价句的语料库,从中随机选择一个句子追加在变换后的文本后面。
一种直白文本到反讽文本的文本风格转换装置,包括:接收模块、构建模块、转换模块;
所述接收模块用于接受直白文本到反讽文本的文本风格转换请求;
所述构建模块用于构建正负情感二分类的情感倾向性分类模型以及名词-形容词正负情感极性搭配表;
所述转换模块用于根据所述直白文本到反讽文本的文本风格转换请求,利用所述名词-形容词正负情感极性搭配表与所述正负情感二分类的情感倾向性分类模型将直白文本转换为反讽文本。
进一步的,所述构建模块利用词性标注和句法依存分析技术对评论数据进行句式结构识别,提取构成主谓结构或偏正结构的名词与形容词搭配,并根据所述正负情感极性标签统计每对名词与形容词搭配来源文本的情感极性为正向和负向的频次,分别记为Freqpos和Freqneg,计算Freqpos与Freqneg的比值,若大于1,则将该名词与形容词搭配标记为正向情感极性的搭配;若小于1,则将该名词与形容词搭配标记为负向情感极性的搭配;若等于1,则由人工确定该搭配的情感极性,每对情感极性搭配以结构化的形式构建出名词-形容词正负情感极性搭配表。
进一步的,所述转换模块将困惑度最低的文本追加正向评价句,输出对应文本的情感标签以及置信度,并记录该文本的情感标签和置信度,将使模型输出情感标签为正向的文本保留,作为最终的反讽风格文本,如果有若干个输出文本的情感标签为正向,则保留置信度最大的文本;如果所有输出文本的情感标签都为负向,则保留置信度最小的文本。
从以上描述可知,本发明采用构造名词-形容词正负情感极性搭配表,预处理输入文本样本,定位中心词与评价词的,评价词替换,追加评价句的方式,实现直白文本到反讽文本的文本风格转换。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
Claims (10)
1.一种直白文本到反讽文本的文本风格转换方法,其特征在于,包括以下步骤:
步骤1:利用爬虫技术获得若干社交平台的评论数据,从中抽取具有明显情感倾向性的评论样本并打上标签,构建正负情感极性的平衡数据集,根据平衡数据集构建正负情感二分类的情感倾向性分类模型;
步骤2:基于正负情感二分类的情感倾向性分类模型构造名词-形容词正负情感极性搭配表;
步骤3:对输入的文本样本进行预处理;
步骤4:根据名词-形容词正负情感极性搭配表判断文本样本的情感类别,若文本样本的情感类别为负向情感,则对预处理后的文本样本执行中心词与评价词的定位,针对评价词进行正向情感极性替换,替换后计算整句困惑度并将困惑度最低的文本保留;
步骤5:对困惑度最低的文本追加正向情感极性的评价句并输入至正负情感二分类的情感倾向性分类模型,完成直白文本到反讽文本的文本风格转换。
2.根据权利要求1所述的一种直白文本到反讽文本的文本风格转换方法,其特征在于,所述步骤2的具体实现包括以下子步骤:
步骤2.1:利用爬虫技术获得若干社交平台评论数据并进行预处理,去掉无意义的符号和空格后,进行分词;
步骤2.2:利用词嵌入技术将预处理后的数据转换为文本张量;
步骤2.3:将文本张量输入至正负情感二分类的情感倾向性分类模型,得到数据的正负情感极性标签;
步骤2.4:利用词性标注和句法依存分析技术对评论数据进行句式结构识别,提取构成主谓结构或偏正结构的名词与形容词搭配,并根据所述正负情感极性标签统计每对名词与形容词搭配的文本情感极性频次,正向频次记为Freqpos,负向频次记为Freqneg;
步骤2.5:计算Freqpos与Freqneg的比值,若大于1,则将该名词与形容词搭配标记为正向情感极性的搭配;若小于1,则将该名词与形容词搭配标记为负向情感极性的搭配;若等于1,则由人工确定该搭配的情感极性;
步骤2.6:将每对情感极性搭配以结构化的形式存入名词-形容词正负情感极性搭配表。
3.根据权利要求1所述的一种直白文本到反讽文本的文本风格转换方法,其特征在于,所述步骤3的具体实现包括以下子步骤:
步骤3.1:清理输入的文本样本,删除无意义的符号与空格;
步骤3.2:对经过步骤3.1处理后的文本样本进行分词;
步骤3.3:识别每条分词处理后的文本样本的情感类别,包括正向情感和负向情感,只有负向情感的输入文本才可以执行后续步骤实现反讽风格文本转换。
4.根据权利要求1所述的一种直白文本到反讽文本的文本风格转换方法,其特征在于,所述步骤4的具体实现包括以下子步骤:
步骤4.1:利用词性标注和句法依存分析技术分析预处理后的文本,提取构成主谓关系和偏正关系的名词与形容词搭配,将名词视为中心词,对应的形容词视为评价词;
步骤4.2:利用名词-形容词正负情感极性搭配表中的评论数据搭配的结构化形式判断步骤4.1中定位出的中心词与评价词搭配的情感极性,若为负向情感搭配,则检索能与该中心词搭配的正向情感搭配形容词列表,依次分别替换原始的评价词,并按照语言困惑度公式分别计算替换后的整句困惑度,将困惑度最低的文本保留。
6.根据权利要求1所述的一种直白文本到反讽文本的文本风格转换方法,其特征在于,所述步骤5的具体实现包括以下子步骤:
步骤5.1:人工构造若干条可以用于任何对象的通用正向评价句;
步骤5.2:将步骤5.1构造的正向评价句添加至得分最高的文本的末尾,分别得到若干条追加后的文本,并分别输入至正负情感二分类的情感倾向性分类模型,输出对应文本的情感标签以及置信度,并记录该文本的情感标签和置信度;
步骤5.3:将使模型输出情感标签为正向的文本保留,作为最终的反讽风格文本,如果有若干个输出文本的情感标签为正向,则保留对应正向标签的置信度最大的文本;如果所有输出文本的情感标签都为负向,则保留对应负向标签的置信度最小的文本。
8.一种直白文本到反讽文本的文本风格转换装置,用于实现权利要求1-7所述的一种直白文本到反讽文本的文本风格转换方法,包括:接收模块、构建模块、转换模块;
所述接收模块用于接受直白文本到反讽文本的文本风格转换请求;
所述构建模块用于构建正负情感二分类的情感倾向性分类模型以及名词-形容词正负情感极性搭配表;
所述转换模块用于根据所述直白文本到反讽文本的文本风格转换请求,利用所述名词-形容词正负情感极性搭配表与所述正负情感二分类的情感倾向性分类模型将直白文本转换为反讽文本。
9.根据权利要求8所述的一种直白文本到反讽文本的文本风格转换装置,其特征在于,所述构建模块利用词性标注和句法依存分析技术对评论数据进行句式结构识别,提取构成主谓结构或偏正结构的名词与形容词搭配,并根据所述正负情感极性标签统计每对名词与形容词搭配来源文本的情感极性为正向和负向的频次,分别记为Freqpos和Freqneg,计算Freqpos与Freqneg的比值,若大于1,则将该名词与形容词搭配标记为正向情感极性的搭配;若小于1,则将该名词与形容词搭配标记为负向情感极性的搭配;若等于1,则由人工确定该搭配的情感极性,每对情感极性搭配以结构化的形式构建出名词-形容词正负情感极性搭配表。
10.根据权利要求8所述的一种直白文本到反讽文本的文本风格转换装置,其特征在于,所述转换模块将困惑度得分文本追加正向评价句,输出对应文本的情感标签以及置信度,并记录该文本的情感标签和置信度,将使模型输出情感标签为正向的文本保留,作为最终的反讽风格文本,如果有若干个输出文本的情感标签为正向,则保留置信度最大的文本;如果所有输出文本的情感标签都为负向,则保留置信度最小的文本。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210574606.0A CN114880994B (zh) | 2022-05-25 | 2022-05-25 | 一种直白文本到反讽文本的文本风格转换方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210574606.0A CN114880994B (zh) | 2022-05-25 | 2022-05-25 | 一种直白文本到反讽文本的文本风格转换方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114880994A true CN114880994A (zh) | 2022-08-09 |
CN114880994B CN114880994B (zh) | 2024-06-11 |
Family
ID=82677601
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210574606.0A Active CN114880994B (zh) | 2022-05-25 | 2022-05-25 | 一种直白文本到反讽文本的文本风格转换方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114880994B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117422071A (zh) * | 2023-12-19 | 2024-01-19 | 中南大学 | 一种文本词项多重分割标注转换方法及装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2006105596A1 (en) * | 2005-04-04 | 2006-10-12 | Mor(F) Dynamics Pty Ltd | Method for transforming language into a visual form |
CN103455562A (zh) * | 2013-08-13 | 2013-12-18 | 西安建筑科技大学 | 一种文本倾向性分析方法及基于该方法的商品评论倾向判别器 |
CN111563381A (zh) * | 2019-02-12 | 2020-08-21 | 阿里巴巴集团控股有限公司 | 文本处理方法和装置 |
CN112818698A (zh) * | 2021-02-03 | 2021-05-18 | 北京航空航天大学 | 一种基于双通道模型的细粒度的用户评论情感分析方法 |
CN113343648A (zh) * | 2021-05-21 | 2021-09-03 | 湖北大学 | 基于潜在空间编辑的文本风格转换方法 |
US20210312124A1 (en) * | 2020-04-03 | 2021-10-07 | Bewgle Technologies Pvt Ltd. | Method and system for determining sentiment of natural language text content |
-
2022
- 2022-05-25 CN CN202210574606.0A patent/CN114880994B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2006105596A1 (en) * | 2005-04-04 | 2006-10-12 | Mor(F) Dynamics Pty Ltd | Method for transforming language into a visual form |
CN103455562A (zh) * | 2013-08-13 | 2013-12-18 | 西安建筑科技大学 | 一种文本倾向性分析方法及基于该方法的商品评论倾向判别器 |
CN111563381A (zh) * | 2019-02-12 | 2020-08-21 | 阿里巴巴集团控股有限公司 | 文本处理方法和装置 |
US20210312124A1 (en) * | 2020-04-03 | 2021-10-07 | Bewgle Technologies Pvt Ltd. | Method and system for determining sentiment of natural language text content |
CN112818698A (zh) * | 2021-02-03 | 2021-05-18 | 北京航空航天大学 | 一种基于双通道模型的细粒度的用户评论情感分析方法 |
CN113343648A (zh) * | 2021-05-21 | 2021-09-03 | 湖北大学 | 基于潜在空间编辑的文本风格转换方法 |
Non-Patent Citations (3)
Title |
---|
HAORAN XU等: "VAE based Text Style Transfer with Pivot Words Enhancement Learning", 《ARXIV:2112.03154》, 6 November 2021 (2021-11-06), pages 1 - 11 * |
郝志荣等: "面向文本分类的类别区分式通用对抗攻击方法", 《计算机科学》, vol. 49, no. 08, 3 August 2022 (2022-08-03), pages 323 - 329 * |
陈渝升: "基于深度学习的文本风格迁移研究", 《中国优秀硕士学位论文全文数据库信息科技辑》, no. 03, 15 March 2022 (2022-03-15), pages 138 - 2738 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117422071A (zh) * | 2023-12-19 | 2024-01-19 | 中南大学 | 一种文本词项多重分割标注转换方法及装置 |
CN117422071B (zh) * | 2023-12-19 | 2024-03-15 | 中南大学 | 一种文本词项多重分割标注转换方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN114880994B (zh) | 2024-06-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111985239B (zh) | 实体识别方法、装置、电子设备及存储介质 | |
CN112101028B (zh) | 一种多特征双向门控领域专家实体抽取方法及系统 | |
CN110489760A (zh) | 基于深度神经网络文本自动校对方法及装置 | |
CN113987104B (zh) | 一种基于本体指导的生成式事件抽取方法 | |
CN111309915A (zh) | 联合学习的自然语言训练方法、系统、设备及存储介质 | |
CN113505200B (zh) | 一种结合文档关键信息的句子级中文事件检测的方法 | |
CN116166782A (zh) | 一种基于深度学习的智能问答方法 | |
CN110119510B (zh) | 一种基于传递依存关系和结构助词的关系抽取方法及装置 | |
CN113033183B (zh) | 一种基于统计量与相似性的网络新词发现方法及系统 | |
CN112541337B (zh) | 一种基于递归神经网络语言模型的文档模板自动生成方法及系统 | |
CN110457690A (zh) | 一种专利创造性的判断方法 | |
CN115357719B (zh) | 基于改进bert模型的电力审计文本分类方法及装置 | |
CN114943230A (zh) | 一种融合常识知识的中文特定领域实体链接方法 | |
CN112926345A (zh) | 基于数据增强训练的多特征融合神经机器翻译检错方法 | |
CN115204143B (zh) | 一种基于prompt的文本相似度计算方法及系统 | |
CN115292461B (zh) | 基于语音识别的人机交互学习方法及系统 | |
CN113268576B (zh) | 一种基于深度学习的部门语义信息抽取的方法及装置 | |
CN112349294B (zh) | 语音处理方法及装置、计算机可读介质、电子设备 | |
CN111489746A (zh) | 一种基于bert的电网调度语音识别语言模型构建方法 | |
CN112183073A (zh) | 一种适用于法律热线语音识别的文本纠错和补全方法 | |
CN111626042A (zh) | 指代消解方法及装置 | |
CN111241397A (zh) | 一种内容推荐方法、装置和计算设备 | |
CN113380223A (zh) | 多音字消歧方法、装置、系统及存储介质 | |
CN114818717A (zh) | 融合词汇和句法信息的中文命名实体识别方法及系统 | |
CN114818665B (zh) | 一种基于bert+bilstm+crf与xgboost模型的多意图识别方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |