CN110046253B - 一种语言冲突的预测方法 - Google Patents
一种语言冲突的预测方法 Download PDFInfo
- Publication number
- CN110046253B CN110046253B CN201910283966.3A CN201910283966A CN110046253B CN 110046253 B CN110046253 B CN 110046253B CN 201910283966 A CN201910283966 A CN 201910283966A CN 110046253 B CN110046253 B CN 110046253B
- Authority
- CN
- China
- Prior art keywords
- corpus
- dialogue
- data
- polite
- convokit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3346—Query execution using probabilistic model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/374—Thesaurus
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明属于自然语言处理技术,为语言冲突的预测方法,包括步骤:用机器学习方法获得候选对话数据集;对数据集进行筛选,筛选出开始为文明对话而随后恶化为有害对话的对话数据;下载所建立的语料库,使用convokit语料库类构建convokit语料库对象;提取语料的提示类型特征;在语料库上训练QuestionTypology对象,将Wiki语料库加载到数据集对象;提取礼貌策略特征;创建成对的数据;根据提示类型特征、礼貌策略特征和成对数据,构造特征矩阵;使用logistic回归模型,比较显示的语用特征,从而对网络对话是否可能恶化进行预测。本发明方法对网络对话是否可能恶化进行有效预测,有利于网络矛盾的防治处理。
Description
技术领域
本发明涉及自然语言处理技术,具体为语言冲突的预测方法。
背景技术
情感分析,又称极性分析,近年来已逐渐发展成为自然语言处理领域中最热门的研究方向之一。研究方法也从一开始的基于词典的规则方法,逐步转变成基于机器学习的方法。
自然语言处理的目标是计算机能学习、理解并能够生成人的语言,实现智能处理的效果。随着机器学习方法突飞猛进的发展,特别是深度学习技术的蓬勃发展和广泛应用,研究者根据现实世界中巨大的任务需求,借助并充分运用了先进的机器学习方法,在机器翻译、语音对话系统、社会媒体挖掘、情感分析等任务中取得了突破性进展。自然语言处理的进展为人类理解语言生成机制和受其启发而开发出更多的社会应用提供了广阔途径,具有重要意义。
此外,在网络对话中,往往会出现人身攻击或言语冲突的情形。然而,目前尚未有对人身攻击或言语冲突进行预测的技术,因而无法把网络矛盾控制在萌芽之中。
发明内容
为解决现有技术所存在的技术问题,本发明提供一种语音冲突的预测方法,对网络对话是否可能恶化进行有效预测,有利于网络矛盾的防治处理。
本发明采用以下技术方案来实现:一种语言冲突的预测方法,包括以下步骤:
S1、用机器学习方法获得候选对话数据集;
S2、对数据集进行筛选,筛选出开始为文明对话而随后恶化为有害对话的对话数据,并在有害对话的上下文中标注其标签;在个人攻击的语境中给反社会评论贴上标签,建立语料库;
S3、下载所建立的语料库,使用convokit语料库类构建convokit语料库对象;
S4、提取语料的提示类型特征;
S5、在下载的语料库上训练一个QuestionTypology对象,将Wiki语料库加载到数据集对象;
S6、提取礼貌策略特征;
S7、创建成对的数据;
S8、根据提示类型特征、礼貌策略特征和成对数据,构造特征矩阵;
S9、使用logistic回归模型,比较显示的语用特征,从而对网络对话是否可能恶化进行预测。
优选地,步骤S4使用convokit语料库的QuestionTypology分类器为每个话语学习提示类型特征,并计算出提示类型。
优选地,步骤S7中,首先建立一个数据框架将注释ID映射到它们的会话;然后使用每个对话的第一个和第二个评论的ID来补充用于恶化对话和良好对话的成对数据框架。
优选地,步骤S8中,在成对数据基础上,为每对对话构造语用特征表,用于预测语言冲突;所述语用特征表将由对每个对话的第一个和第二个评论的提示类型和礼貌策略组成。
本发明与现有技术相比,具有如下优点和有益效果:本发明预测方法对获得的候选对话数据集进行人工筛选,得到开始为文明对话而随后恶化为有害对话的对话数据,采用建立语料库、创建成对数据及logistic回归模型等技术,对网络对话是否可能恶化进行有效预测,有利于网络矛盾的防治处理。
附图说明
图1是本发明的预测流程图;
图2是恶化会话与保持文明的对话中语用特征标记的对数比值比较结果图,其中A为第一个和第二个评论的对数几率比例系数,B为攻击者发起的会话的对数几率比例系数,C为非攻击者发起的会话的对数几率比例系数。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
实施例
如图1所示,本发明语言冲突的预测方法,包括以下步骤:
S1、用机器学习方法获得候选对话数据集,其中包括初始为文明对话而从第n句开始被标记为有害对话(n>2)的对话数据。
S2、人工对数据集进行筛选,筛选出开始为文明对话而随后恶化为有害对话的对话数据,并在有害对话的上下文中标注其标签;在个人攻击的语境中给反社会的评论贴上标签,建立语料库。
S3、下载所建立的语料库,使用convokit语料库类构建convokit语料库对象。语料库类提供用于方便操作语料库的功能。
S4、提取语料的提示类型特征。在这一步中,我们将提取文本中两种语用特征中的第一种:提示类型。使用convokit语料库的QuestionTypology分类器为每个话语学习提示类型特征,并计算出提示类型。
S5、在下载的语料库上训练一个QuestionTypology对象,将Wiki语料库加载到数据集对象。训练了QuestionTypology对象后,就可以使用它来计算对话恶化语料库的提示类型了(注意,这是与QuestionTypology对象所训练的语料库不同的语料库);以提取提示类型的原始特征,这些原始特征是与每个提示类型相对应的K均值聚类中心的距离。
S6、提取礼貌策略特征。将convokit语料库的PolitenessStrategies分类器直接应用到数据集中。
S7、创建成对的数据。
首先,建立一个数据框架将注释ID映射到它们的会话。在数据集中包含了完整的节标题,但是为了预测,我们需要将其忽略,因为它们不是对话内容。我们将使用恶化对话的ID作为参考线索来构建结构。
然后,使用每个对话的第一个和第二个评论的ID来补充用于恶化对话和良好对话的成对数据框架,这将用于构造特征矩阵。
S8、根据提示类型特征、礼貌策略特征和成对数据,构造特征矩阵。在成对数据基础上,可以为每对对话构造语用特征表,用于预测语言冲突。这个语用特征表将由对每个对话的第一个和第二个评论的提示类型和礼貌策略组成。
计算所提取的语用特征在会话初始交换后出现恶化的频率、继续保持文明对话的频率,比较出现恶化的频率和继续保持文明对话的频率,即比较两个频率值。我们将计算每个语用特征的对数优势比,比较恶化的和保持文明的会话;我们还将计算来自二项分布测试的显著性值(衡量影响的大小的值),该二项分布测试将显示特定语用特征的恶化会话的比例与保持文明会话的比例进行比较的结果。由于我们已经预先计算了语用特征,并且编译了成对的数据集,因此仍然需要计算影响大小和统计意义,并绘制这些值;具体地说,为了量化语言标记在恶化的对话开始时出现的相对倾向,我们计算在恶化会话的初始交流(即第一次或第二次评论)中语用特征标记的对数比值,与保持文明对话的初始交流进行比较。
产生的结论如图2所示。在随后恶化对话中的第一个和第二个评论中表现的礼貌策略和提示类型的对数几率比例系数,与那些保持文明的对话相对。图2中标记了在第一个和第二个评论中各特征对数几率的比例系数,其中实心标记表示显著的(p<0.05)对数几率(有着至少0.2的效应量)。
图2的A图中:菱形和正方形分别表示第一个和第二个评论的对数几率;*代表统计上的显著差异,其中概率p<0.05(*),p<0.01(**),p<0.001(***)级别标注第一个评论(使用了双侧二项检验);+代表第二个评论相应的统计显著性。
图2的B图和C图中:三角形和圆形分别表示由攻击者和非攻击者发布的评论句中的对应效应量,分为由攻击者发起(B)和由非攻击者发起(C)的对话。
S9、使用logistic回归模型,比较显示的语用特征(即提示类型与礼貌策略的混合特征),从而对网络对话是否可能恶化进行预测。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
Claims (5)
1.一种语言冲突的预测方法,其特征在于,包括以下步骤:
S1、用机器学习方法获得候选对话数据集;
S2、对数据集进行筛选,筛选出开始为文明对话而随后恶化为有害对话的对话数据,并在有害对话的上下文中标注其标签;在个人攻击的语境中给反社会评论贴上标签,建立语料库;
S3、下载所建立的语料库,使用convokit语料库类构建convokit语料库对象;
S4、提取语料的提示类型特征;
S5、在下载的语料库上训练一个QuestionTypology对象,将Wiki语料库加载到数据集对象;
S6、提取礼貌策略特征;
S7、创建成对的数据;成对的数据为恶化对话和良好对话的成对数据;
S8、根据提示类型特征、礼貌策略特征和成对数据,构造特征矩阵;
S9、使用logistic回归模型,比较显示的语用特征,从而对网络对话是否可能恶化进行预测;语用特征为提示类型与礼貌策略的混合特征。
2.根据权利要求1所述的语言冲突的预测方法,其特征在于,步骤S4使用convokit语料库的QuestionTypology分类器为每个话语学习提示类型特征,并计算出提示类型。
3.根据权利要求1所述的语言冲突的预测方法,其特征在于,步骤S6将convokit语料库的PolitenessStrategies分类器直接应用到数据集中。
4.根据权利要求1所述的语言冲突的预测方法,其特征在于,步骤S7中,首先建立一个数据框架将注释ID映射到它们的会话;然后使用每个对话的第一个和第二个评论的ID来补充用于恶化对话和良好对话的成对数据框架。
5.根据权利要求4所述的语言冲突的预测方法,其特征在于,步骤S8中,在成对数据基础上,为每对对话构造语用特征表,用于预测语言冲突;所述语用特征表将由每个对话的第一个和第二个评论的提示类型和礼貌策略组成。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910283966.3A CN110046253B (zh) | 2019-04-10 | 2019-04-10 | 一种语言冲突的预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910283966.3A CN110046253B (zh) | 2019-04-10 | 2019-04-10 | 一种语言冲突的预测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110046253A CN110046253A (zh) | 2019-07-23 |
CN110046253B true CN110046253B (zh) | 2022-01-04 |
Family
ID=67276470
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910283966.3A Active CN110046253B (zh) | 2019-04-10 | 2019-04-10 | 一种语言冲突的预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110046253B (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104321622A (zh) * | 2012-06-05 | 2015-01-28 | 苹果公司 | 情景感知语音引导 |
US9165097B2 (en) * | 2012-03-08 | 2015-10-20 | Purdue Research Foundation | Programmable microfluidic systems and related methods |
CN105574633A (zh) * | 2014-10-16 | 2016-05-11 | 张凯 | 基于knn的高校师生知识共享平台 |
CN106101130A (zh) * | 2016-07-08 | 2016-11-09 | 北京易华录信息技术股份有限公司 | 一种网络恶意数据检测方法、装置及系统 |
CN106886580A (zh) * | 2017-01-23 | 2017-06-23 | 北京工业大学 | 一种基于深度学习的图片情感极性分析方法 |
CN107169035A (zh) * | 2017-04-19 | 2017-09-15 | 华南理工大学 | 一种混合长短期记忆网络和卷积神经网络的文本分类方法 |
CN107256214A (zh) * | 2017-06-30 | 2017-10-17 | 联想(北京)有限公司 | 一种垃圾信息判断方法和装置以及一种服务器集群 |
CN108345587A (zh) * | 2018-02-14 | 2018-07-31 | 广州大学 | 一种评论的真实性检测方法与系统 |
CN109450842A (zh) * | 2018-09-06 | 2019-03-08 | 南京聚铭网络科技有限公司 | 一种基于神经网络的网络恶意行为识别方法 |
-
2019
- 2019-04-10 CN CN201910283966.3A patent/CN110046253B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9165097B2 (en) * | 2012-03-08 | 2015-10-20 | Purdue Research Foundation | Programmable microfluidic systems and related methods |
CN104321622A (zh) * | 2012-06-05 | 2015-01-28 | 苹果公司 | 情景感知语音引导 |
CN105574633A (zh) * | 2014-10-16 | 2016-05-11 | 张凯 | 基于knn的高校师生知识共享平台 |
CN106101130A (zh) * | 2016-07-08 | 2016-11-09 | 北京易华录信息技术股份有限公司 | 一种网络恶意数据检测方法、装置及系统 |
CN106886580A (zh) * | 2017-01-23 | 2017-06-23 | 北京工业大学 | 一种基于深度学习的图片情感极性分析方法 |
CN107169035A (zh) * | 2017-04-19 | 2017-09-15 | 华南理工大学 | 一种混合长短期记忆网络和卷积神经网络的文本分类方法 |
CN107256214A (zh) * | 2017-06-30 | 2017-10-17 | 联想(北京)有限公司 | 一种垃圾信息判断方法和装置以及一种服务器集群 |
CN108345587A (zh) * | 2018-02-14 | 2018-07-31 | 广州大学 | 一种评论的真实性检测方法与系统 |
CN109450842A (zh) * | 2018-09-06 | 2019-03-08 | 南京聚铭网络科技有限公司 | 一种基于神经网络的网络恶意行为识别方法 |
Non-Patent Citations (4)
Title |
---|
Prediction during language comprehension: Benefits, costs, and ERP components;Cyma Van Petten 等;《International Journal of Psychophysiology》;20120215;第83卷(第2期);176-190 * |
基于深度学习的中文电商评论情感分析;王宏生 等;《信息通信》;20180315;第183卷(第3期);51-53 * |
基于领域冲突的情感隐喻识别;郑朴琪;《中国优秀硕士学位论文全文数据库信息科技辑》;20170315(第03期);I138-6111 * |
新型SMA橡胶隔震支座性能及在网壳结构中应用的研究;谭彦;《中国优秀硕士学位论文全文数据库工程科技Ⅱ辑》;20160615(第06期);C038-355 * |
Also Published As
Publication number | Publication date |
---|---|
CN110046253A (zh) | 2019-07-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108052512B (zh) | 一种基于深度注意力机制的图像描述生成方法 | |
Yin et al. | Multi-granularity chinese word embedding | |
CN104965819B (zh) | 一种基于句法词向量的生物医学事件触发词识别方法 | |
Zhou et al. | Answer sequence learning with neural networks for answer selection in community question answering | |
CN108804611B (zh) | 一种基于自我评论序列学习的对话回复生成方法及系统 | |
US10853421B2 (en) | Segmented sentence recognition method and device for human-machine intelligent question answer system | |
US20220293092A1 (en) | Method and apparatus of training natural language processing model, and method and apparatus of processing natural language | |
CN111177341B (zh) | 一种基于端到端的id+sf模型的用户对话需求提取方法及系统 | |
CN110765788B (zh) | 一种基于隐式翻译模型的知识图谱嵌入方法 | |
CN113204645A (zh) | 一种基于知识引导的方面级情感分析模型训练方法 | |
CN116561592A (zh) | 文本情感识别模型的训练方法和文本情感识别方法及装置 | |
CN115602161A (zh) | 一种中文语音增强识别及文本纠错矫正方法 | |
CN111985218A (zh) | 一种基于生成对抗网络的司法文书自动校对方法 | |
Fu et al. | A CNN-LSTM network with attention approach for learning universal sentence representation in embedded system | |
CN110363283A (zh) | 基于深度学习的用户属性预测方法及相关装置 | |
CN113204978A (zh) | 一种机器翻译增强训练方法及系统 | |
CN110046253B (zh) | 一种语言冲突的预测方法 | |
CN111159405B (zh) | 基于背景知识的讽刺检测方法 | |
Xue et al. | Continuous sign language recognition for hearing-impaired consumer communication via self-guidance network | |
Hung et al. | The evaluation study of the deep learning model transformer in speech translation | |
CN106126606B (zh) | 一种短文本新词发现方法 | |
CN117290515A (zh) | 文本标注模型的训练方法、文生图方法及装置 | |
WO2023192674A1 (en) | Attention neural networks with parallel attention and feed-forward layers | |
US20230289528A1 (en) | Method for constructing sentiment classification model based on metaphor identification | |
Zhou et al. | Cross-lingual sentiment classification based on denoising autoencoder |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |