CN116522895A - 一种基于写作风格的文本内容真实性评估方法及设备 - Google Patents
一种基于写作风格的文本内容真实性评估方法及设备 Download PDFInfo
- Publication number
- CN116522895A CN116522895A CN202310712792.4A CN202310712792A CN116522895A CN 116522895 A CN116522895 A CN 116522895A CN 202310712792 A CN202310712792 A CN 202310712792A CN 116522895 A CN116522895 A CN 116522895A
- Authority
- CN
- China
- Prior art keywords
- text
- evaluated
- network
- emotion
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 66
- 230000008451 emotion Effects 0.000 claims abstract description 59
- 230000011218 segmentation Effects 0.000 claims abstract description 31
- 238000007781 pre-processing Methods 0.000 claims abstract description 24
- 238000000605 extraction Methods 0.000 claims abstract description 20
- 238000004458 analytical method Methods 0.000 claims abstract description 13
- 238000011156 evaluation Methods 0.000 claims abstract description 10
- 238000010276 construction Methods 0.000 claims abstract description 7
- 238000004364 calculation method Methods 0.000 claims abstract description 5
- 238000010586 diagram Methods 0.000 claims description 11
- 238000013507 mapping Methods 0.000 claims description 11
- 230000010354 integration Effects 0.000 claims description 10
- 238000004422 calculation algorithm Methods 0.000 claims description 8
- 230000002452 interceptive effect Effects 0.000 claims description 7
- 230000015654 memory Effects 0.000 claims description 7
- 230000008439 repair process Effects 0.000 claims description 6
- 230000003936 working memory Effects 0.000 claims description 6
- 230000004913 activation Effects 0.000 claims description 5
- 230000006399 behavior Effects 0.000 claims description 4
- 239000012634 fragment Substances 0.000 claims description 4
- 230000002776 aggregation Effects 0.000 claims description 3
- 238000004220 aggregation Methods 0.000 claims description 3
- 238000004891 communication Methods 0.000 claims description 3
- 238000002372 labelling Methods 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 3
- 230000008901 benefit Effects 0.000 description 5
- 238000001514 detection method Methods 0.000 description 5
- 238000003384 imaging method Methods 0.000 description 4
- 238000011176 pooling Methods 0.000 description 3
- 230000011273 social behavior Effects 0.000 description 3
- 238000012512 characterization method Methods 0.000 description 2
- 230000002996 emotional effect Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000001364 causal effect Effects 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000003064 k means clustering Methods 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000004445 quantitative analysis Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/194—Calculation of difference between files
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Document Processing Apparatus (AREA)
Abstract
本发明提供一种基于写作风格的文本内容真实性评估方法及设备,该方法包括:对待评估文本进行预处理,以对待评估文本进行分词、构建句法树、实体词提取、情感分析及事件触发词、主题和相似信息簇获取;基于预处理结果,计算待评估文本的多个维度的写作风格特征;根据待评估文本所属平台特征和语种特征,基于多个维度的待评估文本的写作风格特征,经过加权计算,得到待评估文本内容的真实性评估结果。本发明解决了现有技术中的文本内容真实性评估方法依赖于文本涉及的实体、事件,不适用于跨平台应用的问题。
Description
技术领域
本发明属于自然语言处理技术领域,尤其涉及一种基于写作风格的文本内容真实性评估方法及设备。
背景技术
随着社交网络被大众广泛使用,信息的数字化传播方式潜移默化地改变了公共媒体空间的整体结构。人们可以通过微信、微博、自媒体等各种网络平台便捷地获取大量信息。但在享受这些便利的同时,大众也必须面对一些别有目的的信息传播所带来的一系列问题,如过滤气泡,虚假信息等。在网络与社会现实的不断交互下,“后真相”现象也不断增多,反映着当前网络舆论存在一种不信任、无法形成共识的状态。针对数字化信息的定量分析与自动检测成为一个亟待解决的社会问题。为了实现对虚假信息的高效检测,已有许多研究着眼于开发自动虚假信息检测系统。
按照研究关注点不同,国内外自动检测虚假信息内容的方法大致可分为两种:第一类是基于内容的检测方法,这类方法关注于虚假信息本身是“如何写”的,即不同虚假信息所携带的情感因素、语言运用偏好、心理暗示等;第二类是基于社交行为的方法,这类方法利用用户的社交参与信息,比如用户的发布、转发、评论和点赞数等操作,以及这些操作的时间信息。
这两类方法在不同的视角下都能够对虚假信息的真实性进行检测,但至今为止,仍缺少一种可解释强、适用于跨平台、跨语言的虚假信息评估方法,其中的挑战在于,现有的基于内容和社交行为的检测方法会依赖于消息涉及的实体、事件(包括但不限于人物、专有名词、热点话题等)进行预测,且社交行为在不同的平台上会有明显的平台传播喜好。
发明内容
鉴于上述的分析,本发明旨在提供一种基于写作风格的文本内容真实性评估方法及设备,用于解决现有技术中的文本内容真实性评估方法依赖于文本涉及的实体、事件,不适用于跨平台应用的问题。
本发明的目的主要是通过以下技术方案实现的:
一方面,本发明提供了一种基于写作风格的文本内容真实性评估方法,该方法包括:
对待评估文本进行预处理,以对所述待评估文本进行分词、构建句法树、实体词提取、情感分析及事件触发词、主题和相似信息簇获取;
基于预处理结果,计算所述待评估文本的多个维度的写作风格特征;
根据所述待评估文本所属平台特征和语种特征,基于多个维度的所述待评估文本的写作风格特征,经过加权计算,得到待评估文本内容的真实性评估结果。
进一步的,多个维度的所述写作风格特征包括:专业性、交互性、趣味性、完整性、逻辑性、动人性、可信性和可读性特征。
进一步的,所述专业性特征基于所述待评估文本中的新闻六要素及叙述句法框架,通过下述公式得到:
;
其中,为所述待评估文本的专业性特征,/>为待评估文本的新闻六要素的one-hot编码;/>为基于叙述句法框架构建的向量矩阵,包括待评估文本的主题和事件、事件参与者、事件发生时间和地点的向量表示,其中事件、事件参与者、事件发生时间和地点基于预处理得到的事件触发词,在所述待评估文本中匹配得到。
进一步的,所述交互性特征基于风景模型的复杂度和情感分析结果的均值,通过下述公式得到:
;
其中,为所述待评估文本的交互性特征,/>、/>为权重参数,/>为风景模型,为基于固定节点的动态图,所述节点为基于隐性语义分析LSA模型赋值后的所述待评估文本的经过分词得到的词和句,边为通过群组激活得到的是否可以构成语义网络的表征;为风景模型的复杂度,EMW为文本预处理得到的文本传达的情感,EIW为文本传达的情感强度,所述情感和情感强度通过将文本分词结果与多语言情感词典进行匹配计算得到,/>为情感分析结果的均值;
所述趣味性特征基于概念整合空间的复杂度和词共现网络的密度,通过下述公式得到:
;
其中,为所述待评估文本的趣味性特征,/>、/>为权重参数,/>为概念整合空间网络,为根据待评估文本的内容,动态构建的包含基于类属空间的多个输入空间的整合网络;类属空间为包括待评估文本的主题、事件触发词、事件参与者、发生时间和地点的概念元素,其中事件参与者、发生时间和地点基于预处理得到的事件触发词,在所述待评估文本中匹配得到;输入空间为类属空间的具象化表示,整合网络的节点为不同输入空间的具象化表示,边为不同输入空间的映射,/>概念整合空间网络的复杂度;/>为词共现网络,其节点为分词得到的词,边为词在文本内的共现关系,/>为词共现网络的密度。
进一步的,所述逻辑性特征基于情境模型的一致性和修辞结构理论框架的复杂度,通过下述公式得到:
;
其中,为所述待评估文本的逻辑性特征,/>、/>为权重参数,/>为情境模型图,其节点包括预处理中实体词提取及映射得到的人物、行为、事件、意图,边为不同节点间的关系,基于句法树和事件触发词得到,/>为情境模型的一致性;/>为基于句法树的修辞关系图得到修辞结构理论框架图,节点为对待评估文本进行分词得到的词,边为修辞关系和叙述手段,基于句法树和修辞映射词典得到,/>为修辞结构理论框架图的复杂度;
所述文本完整性特征基于音素网络、句法网络以及随机网络的统计参数,通过下述公式得到:
;
其中,为所述待评估文本的完整性特征,/>、/>为权重参数,/>为音素网络,为常用字典网络,节点为分词后得到的每个词以国际音标为基础的再次划分,边为词间关系;/>为基于句法树的依存关系得到的句法依存网络,/>为随机网络,为以词为节点,边随机连接的无向网络;所述统计参数包括随机网络的平均距离、平均度、连通率、平均聚合系数;D()为两个网络的统计参数的差异度。
进一步的,所述动人性特征基于建构主义理论的复杂度和依存关系的一致性,通过下述公式得到:
;
其中,为所述待评估文本的动人性特征,/>、/>为权重参数,/>为建构主义理论的推理关系图,其节点为待评估文本分词得到的词或短语,边为推理关系,包括指代推理、格结构角色分配、主题推理、前因推理和高级目标推理,/>为建构主义理论的推理关系图的复杂度;/>为待评估文本的依存关系图,基于句法树的依存距离的概率分布与基于依存方向的平均依存距离得到,/>为依存关系图的一致性;
所述可读性特征基于工作记忆容量、深度假说以及文本分词的BLEU-N特征,通过下述公式得到:
;
其中,为所述待评估文本的可读性特征,/>、/>、/>为权重参数,/>为工作记忆容量,为设置的滑窗内包含事件触发词和主题词的平均长度;d为深度假说,为滑窗范围中事件触发词和主题词出现的平均次数;BLEU-N为使用词性标注后的文本分词的n-gram特征。
进一步的,所述可信性特征通过下述方法得到:
利用内容维度特征提取模型提取待评估文本的内容维度特征;
利用情感维度特征提取模型,基于所述待评估文本及待评估文本的相似信息簇,提取得到待评估文本的情感维度特征;
将所述内容维度特征和情感维度特征进行级联操作,并输入多层感知器模型,得到待评估文本的可信性特征。
进一步的,通过下述公式得到所述待评估文本内容真实性评估结果:
;
其中;为待评估文本的真实性评估结果,/>表示第k个维度的写作风格特征,n为写作风格特征维度数量;/>为待评估文本发布平台的平台特征,通过计算所述发布平台的多个文本在第k个维度的平均得分得到;/>为待评估文本第k个维度的语种特征,通过与待评估文本相同语种的文本在该维度的平均得分得到;/>和/>分别为第k个维度下待评估文本与平台特征、语种特征的相关性参数;/>为第k个维度下语种和平台特征的权重参数;/>为第k个维度的权重参数。
进一步的,所述相似信息簇通过下述方法得到:
构建包括多个文本的数据仓库;
提取待评估文本的事件触发词和主题分布;
基于所述待评估文本的事件触发词和主题分布,基于聚类算法,对所述数据仓库中与所述待评估文本相似的片段进行分组,得到相似信息簇。
另一方面,还提供一种电子设备,包括至少一个处理器,以及至少一个与所述处理器通信连接的存储器;
所述存储器存储有可被所述处理器执行的指令,所述指令用于被所述处理器执行以实现前述的基于写作风格的文本内容真实性评估方法。
本技术方案的有益效果:
本发明通过对文本进行预处理,对文本八个维度的写作风格计算,并基于平台特征和语种特征,实现了对信息文本的真实性评估,解决了原有的算法过度依赖事件或报道实体等因素、可解释性差等问题,具有实现成本低、评估效率高等优点。
本发明的其他特征和优点将在随后的说明书中阐述,并且,部分的从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
附图仅用于示出具体实施例的目的,而并不认为是对本发明的限制,在整个附图中,相同的参考符号表示相同的部件;
图1是本发明实施例的基于写作风格的文本内容真实性评估方法流程图;
图2是本发明实施例的内容维度特征提取模块示意图;
图3是本发明实施例的情感维度特征提取模块示意图。
具体实施方式
下面结合附图来具体描述本发明的优选实施例,其中,附图构成本申请一部分,并与本发明的实施案例一起用于阐释本发明的原理,并非用于限定本发明的范围。
本发明的一个实施例,提供了一种基于写作风格的文本内容真实性评估方法,如图1所示,包括以下步骤:
步骤S1:对待评估文本进行预处理,包括:对所述待评估文本进行分词、构建句法树、实体词提取、情感词提取和情感分析及事件触发词、主题触发词和相似信息簇获取;
具体的,对待评估文本进行预处理包括对输入的待评估文本T进行常规预处理和特殊预处理;
常规预处理包括:文本分词、构建句法树、命名实体提取、分类和情感及情感强度识别;其中,
文本分词包括:根据不同的语种L,采用对应的方法对待评估文本进行分词,如基于条件随机场的中文分词方法、基于波特词干提取算法的英文分词方法等,将待评估文本进行分词操作,分词结果包括单独的词、短语或词干,得到的分词结果为本实施例文本内容真实性评估方法可以处理的最小意义单元,表示为:。
构建句法树包括:基于分词结果,/>为分词得到的第i个词,通过带有隐含标记的上下文无关文法,为待评估文本中的句子构建句法树ST,表示为:
;
句法树表示句子的语法结构,根据语言规则显示单词和短语之间的关系,包括修辞关系、依存关系、依存距离、依存方向等,用于句法依存网络、音素网络构建。
命名实体提取分类包括:使用联合关系抽取算法识别待评估文本中的命名实体并对其进行分类,包括但不限于人物、行为、事件、意图等,表示为:;
情感及情感强度识别包括:基于多个多语言情感词典ED,如SentiWordNet、LIWC、
NRC等词典,将待评估文本中的词与词典中的条目进行匹配,从而确定待评估文本中传达的
情感及情感强度,用户后续的情感内容特征提取,表示为:
;
;
其中,为分词后得到的第i个词,/>表示匹配得到的词的情感强度,/>表示第/>个情感,/>表示词/>的第/>类情感的情感值,/>表示第i个词在所有情感中情感值的一致性,包括强度正负是否一致,情感倾向是否一致。
进一步的,特殊预处理包括:提取待评估文本的事件触发词、主题分布和相似信息簇;具体的,
提取事件触发词包括:基于前述的分词结果,检索本地事件实体词词典,匹配得到事件触发词,并进一步匹配获取文本中的事件、事件参与者、时间和地点等信息。根据句法结构和实体识别,可以获取文本中的事件、事件参与者、时间和地点等信息。其中,本地事件实体词词典可以通过下述方法构建得到:在开源新闻数据集中,通过现有的NER模型进行识别,得到人名,地名,专有词等实体词构,建得到本地事件实体词词典。
待评估文本的主题分布通过LDA主题模型聚类得到。
相似信息簇是指预先构建的数据仓库中与待评估文本相似的文本集合,可通过下述方法得到相似信息簇;
首先,构建包括多个文本的数据仓库;多个文本的数据仓库为通过网络爬虫技术获取的大量的公共媒体的文本数据,包括微信、微博、自媒体等各种网络平台的文本数据。
提取待评估文本的事件触发词和主题分布;
基于所述待评估文本的事件触发词和主题分布,基于聚类算法,对所述数据仓库中与所述待评估文本相似的文本进行分组,得到相似信息簇;
比较已有数据仓库中文本片段的标题、内容等信息,并基于k-均值聚类、层次聚类等无监督聚类算法对相似的片段进行分组,得到最终的相似信息簇。
步骤S2:基于预处理结果,计算所述待评估文本的多个维度的写作风格特征;
具体的,多个维度的所述写作风格特征包括:专业性、交互性、趣味性、完整性、逻辑性、动人性、可信性和可读性特征;其中,
所述专业性特征基于所述待评估文本中的新闻六要素及叙述句法框架,通过下述公式得到:
;
其中,为所述待评估文本的专业性特征,/>为新闻六要素的one-hot编码,所述新闻六要素通过预处理阶段实体词提取和数据来源渠道得到;/>为基于叙述句法框架构建的向量矩阵,包括待评估文本的主题和事件、事件参与者、事件发生时间和地点的向量表示,其中主题和事件、事件参与者、事件发生时间和地点基于预处理得到的事件触发词,在所述待评估文本中匹配得到。
即,文本专业性特征主要依赖于文本中的涉及的新闻要素(即5W+1H:Who, What,When, Where, Why, How)的映射以及叙述句法框架。
交互性特征基于风景模型的复杂度和情感分析结果的均值,通过下述公式得到:
;
其中,为所述待评估文本的交互性特征,/>、/>为权重参数,通过统计得到,/>为风景模型,为基于固定节点的动态图,所述节点为基于隐性语义分析LSA模型赋值后的词和句,边为群组激活,所述群组激活为是否可以构成语义网络表征,/>为风景模型的复杂度,EMW为文本预处理得到的文本传达的情感,EIW为文本传达的情感强度,所述情感和情感强度通过将文本分词结果与多语言情感词典进行匹配计算得到,为情感分析结果的均值;
所述趣味性特征基于概念整合空间的复杂度和词共现网络的密度,通过下述公式得到:
;
其中,为所述待评估文本的趣味性特征,/>、/>为权重参数,通过统计得到,/>为概念整合空间,是一种用于描述和解释人类如何通过将来自不同领域的信息结合在一起来创造新意义的理论框架,为根据待评估文本的内容,动态构建的包含基于类属空间的多个输入空间的整合网络,类属空间为包括主题、事件触发词、事件参与者、发生时间和地点的概念元素,是在认知类比的基础上,基于待评估文本中提取得到的主题、事件触发词、事件参与者、发生时间和地点等实体词中的共有信息和相似类链接信息构建得到,用于保障映射的顺利进行,输入空间为类属空间的具象化表示(即属性值),整合网络的节点为不同输入空间的具象化表示,边为不同输入空间的映射;/>概念整合空间网络的复杂度;/>为词共现网络,其节点为词,边为在文本内共现关系,边属性为共现频率,为词共现网络的密度。
所述逻辑性特征基于情境模型和修辞结构理论框架的复杂度,通过下述公式得到:
;
其中,为所述待评估文本的逻辑性特征,/>、/>为权重参数,通过统计得到,/>为情境模型图,是一种用于描述和解释文本如何通过特定的语言和语境来构建一个完整的情境或场景的理论框架,其节点包括人物、行为、事件、意图,边为不同节点间的关系,基于句法树和事件触发词得到,/>为情境模型的一致性,即两个图属性的相似性,/>为修辞结构理论框架,通过现有的图构建技术,基于句法树的修辞关系图得到,节点为词,边为修辞关系和叙述手段,基于句法树和修辞映射词典得到,其中,修辞映射词典为现有词典,基于句法树与修辞映射词典可以得到修辞关系,叙述手段为修辞关系的前向后向的方向描述;/>为修辞结构理论框架的复杂度,通过图的复杂度计算得到;
所述文本完整性特征基于音素网络、句法网络以及随机网络的统计参数,通过下述公式得到:
;
其中,为所述待评估文本的完整性特征,/>、/>为权重参数,通过统计得到,/>为音素网络,为常用字典网络,节点为每个词以国际音标为基础的再次划分,边为词间关系;/>为基于句法树ST的依存关系得到的句法依存网络,/>为随机网络,为以词为节点,边随机连接的无向网络;D()为两个网络的统计参数的差异度;所述统计参数包括平均距离、平均度、连通率、平均聚合系数等,本实施例中D()取两个网络的多个统计参数差异度的均值。
所述动人性特征基于建构主义理论的复杂度和依存关系的一致性,通过下述公式得到:
;
其中,为所述待评估文本的动人性特征,/>、/>为权重参数,通过统计得到,/>为建构主义理论的推理关系图,是一种认为知识是通过学习者在处理信息过程中主动建构出来的理论,其节点为待评估文本分词得到的词或短语,边为推理关系,为建构主义理论的推理关系图的复杂度;/>为依存关系图,基于句法树的依存距离的概率分布与基于依存方向的平均依存距离得到,/>为依存关系图的一致性;具体的,推理关系包括指代推理、格结构角色分配、主题推理、前因推理、高级目标推理等。
所述可读性特征基于工作记忆容量、深度假说以及文本分词的BLEU-N特征,通过下述公式得到:
;
其中,为所述待评估文本的可读性特征,/>、/>、/>为权重参数,通过统计得到,/>为工作记忆容量,为设置的滑窗内包含事件触发词和主题词的平均长度,滑窗长度为12;d为深度假说,为滑窗范围中事件触发词和主题词出现的平均次数;BLEU-N为使用词性标注后的文本分词的n-gram特征。
所述可信性特征通过下述方法得到:
利用内容维度特征提取模型提取待评估文本的内容维度特征;
利用情感维度特征提取模型,基于所述待评估文本及待评估文本的相似信息簇,提取得到待评估文本的情感维度特征;
将所述内容维度特征和情感维度特征进行级联操作,并输入多层感知器模型,得到待评估文本的可信性特征。
特殊的,本实施例考虑到互联网环境下文本信息内容长度不一、包含多个短文本语句等特点,使用融合ERNIE模型和优化后的DPCNN(Deep Pyramid Convolutional NeuralNetworks)模型的内容维度特征提取模块,基于待评估文本的分词结果,得到对应的内容维度特征。
如图2所示,内容维度特征提取模型包括输入层、ERNIE层和DPCNN层;
其中,输入层用于将输入的文本进行词嵌入表示,用于后续特征提取;
ERNIE层用于提取输入文本的知识增强的语义特征表示。ERNIE层利用多层Transfommer编码单元、通过矩阵间的计算来获取需要关注的信息;同时抑制其他无用信息,通过自注意力机制获取每个词的特征表示。ERNIE层由基础文本编码模块和高级知识编码模块堆叠组成。基础文本编码模块由一个多头双向的Transfommer结构构成。用于获取输入语句的基础词汇和基本语义信息。该屋采用了BERT 15%的掩码策略,对获取的语义内容进行初步的掩码。高级知识编码模块则负责将外部的知识信息融入到模型当中,多头注意力层对基础文本编码模块的输出与外部语义信息输入分别进行处理。经信息融合后得到新的语义信息,并输出到DPCNN层。
DPCNN层中针对原始DPCNN模型的优化操作,本实施例在每个卷积层中加入线性修正单元(ReLU)作为激活函数。以增强神经网络模型的非线性,减少参数的相互依赖关系,同时加快网络训练速度,防止梯度消失,缓解模型过拟合的问题;池化层以尺度大小为2进行下采样。达到特征缩放的目的;卷积层与池化层之间采用残差连接,在每个等长卷积操作后增加一个恒等连接构成一个残差块,增加了多尺度信息,并极大地缓解了梯度消失的问题。DPCNN模型通过堆叠卷积层和采样层,形成特征缩放金字塔,达到特征维度缩放的目的并有效获取文本的长距离的依赖关系。最后将DPCNN的特征输出经过最大池化操作得到输入文本的内容维度特征表示。
如图3所示,情感维度特征提取模型考虑待评估文本的内容情感特征同时,融合了相似信息簇内容的相似簇情感特征,以及相似信息簇与待评估文本内容之间的情感一致性特征,融合得到待评估文本的情感维度特征;在应用中,将预处理得到的情感分析结果和相似信息簇输入情感维度特征提取模型,得到待评估文本对应的情感维度特征。
将内容维度特征和情感维度特征进行级联操作后,通过多层感知器(MultilayerPerceptron,MLP)完成最终文本内容可信性特征预测。
步骤S3:根据所述待评估文本所属平台特征和语种特征,基于多个维度的所述待评估文本的写作风格特征,经过加权计算,得到待评估文本内容的真实性评估结果;
具体的,通过如下公式,基于平台特征、语种特征和上述八个维度的写作风格特征得到待评估文本内容真实性评估结果:
;
其中,为待评估文本的真实性评估结果,/>表示第k个维度的写作风格特征,n为写作风格特征维度数量,本实施例中取8个维度;/>为待评估文本发布平台的平台特征,通过计算所述发布平台的多个文本在该维度的平均得分得到;/>为待评估文本的语种特征,通过与待评估文本相同语种的文本在该维度的平均得分得到;/>和/>分别为第k个维度下待评估文本与平台特征、语种特征的相关性参数,根据经验设置;/>为第k个维度下语种和平台特征的权重参数;/>为第k个维度的权重参数,/>与/>通过训练得到。
本发明的另一个实施例,还提供一种电子设备,该设备包括至少一个处理器,以及至少一个与所述处理器通信连接的存储器;
所述存储器存储有可被所述处理器执行的指令,所述指令用于被所述处理器执行以实现前述的基于写作风格的文本内容真实性评估方法。
综上,本发明通过对待评估文本进行预处理,对文本八个维度的写作风格特征进行计算,并基于平台特征和语种特征,实现了对信息文本的真实性评估,解决了原有的算法过度依赖事件或报道实体等因素、可解释性差等问题,通过具有实现成本低、评估效率高等优点。
本领域技术人员可以理解,实现上述实施例方法的全部或部分流程,可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于计算机可读存储介质中。其中,所述计算机可读存储介质为磁盘、光盘、只读存储记忆体或随机存储记忆体等。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。
Claims (10)
1.一种基于写作风格的文本内容真实性评估方法,其特征在于,包括:
对待评估文本进行预处理,以对所述待评估文本进行分词、构建句法树、实体词提取、情感分析及事件触发词、主题和相似信息簇获取;
基于预处理结果,计算所述待评估文本的多个维度的写作风格特征;
根据所述待评估文本所属平台特征和语种特征,基于多个维度的所述待评估文本的写作风格特征,经过加权计算,得到待评估文本内容的真实性评估结果。
2.根据权利要求1所述的基于写作风格的文本内容真实性评估方法,其特征在于,多个维度的所述写作风格特征包括:专业性、交互性、趣味性、完整性、逻辑性、动人性、可信性和可读性特征。
3.根据权利要求2所述的基于写作风格的文本内容真实性评估方法,其特征在于,所述专业性特征基于所述待评估文本中的新闻六要素及叙述句法框架,通过下述公式得到:
;
其中,为所述待评估文本的专业性特征,/>为待评估文本的新闻六要素的one-hot编码;/>为基于叙述句法框架构建的向量矩阵,包括待评估文本的主题和事件、事件参与者、事件发生时间和地点的向量表示,其中事件、事件参与者、事件发生时间和地点基于预处理得到的事件触发词,在所述待评估文本中匹配得到。
4.根据权利要求2所述的基于写作风格的文本内容真实性评估方法,其特征在于,所述交互性特征基于风景模型的复杂度和情感分析结果的均值,通过下述公式得到:
;
其中,为所述待评估文本的交互性特征,/>、/>为权重参数,/>为风景模型,为基于固定节点的动态图,所述节点为基于隐性语义分析LSA模型赋值后的所述待评估文本的经过分词得到的词和句,边为通过群组激活得到的是否可以构成语义网络的表征;为风景模型的复杂度,EMW为文本预处理得到的文本传达的情感,EIW为文本传达的情感强度,所述情感和情感强度通过将文本分词结果与多语言情感词典进行匹配计算得到,/>为情感分析结果的均值;
所述趣味性特征基于概念整合空间的复杂度和词共现网络的密度,通过下述公式得到:
;
其中,为所述待评估文本的趣味性特征,/>、/>为权重参数,/>为概念整合空间网络,为根据待评估文本的内容,动态构建的包含基于类属空间的多个输入空间的整合网络;类属空间为包括待评估文本的主题、事件触发词、事件参与者、发生时间和地点的概念元素,其中事件参与者、发生时间和地点基于预处理得到的事件触发词,在所述待评估文本中匹配得到;输入空间为类属空间的具象化表示,整合网络的节点为不同输入空间的具象化表示,边为不同输入空间的映射,/>概念整合空间网络的复杂度;/>为词共现网络,其节点为分词得到的词,边为词在文本内的共现关系,/>为词共现网络的密度。
5.根据权利要求2所述的基于写作风格的文本内容真实性评估方法,其特征在于,所述逻辑性特征基于情境模型的一致性和修辞结构理论框架的复杂度,通过下述公式得到:
;
其中,为所述待评估文本的逻辑性特征,/>、/>为权重参数,/>为情境模型图,其节点包括预处理中实体词提取及映射得到的人物、行为、事件、意图,边为不同节点间的关系,基于句法树和事件触发词得到,/>为情境模型的一致性;/>为基于句法树的修辞关系图得到修辞结构理论框架图,节点为对待评估文本进行分词得到的词,边为修辞关系和叙述手段,基于句法树和修辞映射词典得到,/>为修辞结构理论框架图的复杂度;
所述文本完整性特征基于音素网络、句法网络以及随机网络的统计参数,通过下述公式得到:
;
其中,为所述待评估文本的完整性特征,/>、/>为权重参数,/>为音素网络,为常用字典网络,节点为分词后得到的每个词以国际音标为基础的再次划分,边为词间关系;/>为基于句法树的依存关系得到的句法依存网络,/>为随机网络,为以词为节点,边随机连接的无向网络;所述统计参数包括随机网络的平均距离、平均度、连通率、平均聚合系数;D()为两个网络的统计参数的差异度。
6.根据权利要求2所述的基于写作风格的文本内容真实性评估方法,其特征在于,所述动人性特征基于建构主义理论的复杂度和依存关系的一致性,通过下述公式得到:
;
其中,为所述待评估文本的动人性特征,/>、/>为权重参数,/>为建构主义理论的推理关系图,其节点为待评估文本分词得到的词或短语,边为推理关系,包括指代推理、格结构角色分配、主题推理、前因推理和高级目标推理,/>为建构主义理论的推理关系图的复杂度;/>为待评估文本的依存关系图,基于句法树的依存距离的概率分布与基于依存方向的平均依存距离得到,/>为依存关系图的一致性;
所述可读性特征基于工作记忆容量、深度假说以及文本分词的BLEU-N特征,通过下述公式得到:
;
其中,为所述待评估文本的可读性特征,/>、/>、/>为权重参数,/>为工作记忆容量,为设置的滑窗内包含事件触发词和主题词的平均长度;d为深度假说,为滑窗范围中事件触发词和主题词出现的平均次数;BLEU-N为使用词性标注后的文本分词的n-gram特征。
7.根据权利要求2所述的基于写作风格的文本内容真实性评估方法,其特征在于,所述可信性特征通过下述方法得到:
利用内容维度特征提取模型提取待评估文本的内容维度特征;
利用情感维度特征提取模型,基于所述待评估文本及待评估文本的相似信息簇,提取得到待评估文本的情感维度特征;
将所述内容维度特征和情感维度特征进行级联操作,并输入多层感知器模型,得到待评估文本的可信性特征。
8.根据权利要求1所述的基于写作风格的文本内容真实性评估方法,其特征在于,通过下述公式得到所述待评估文本内容真实性评估结果:
;
其中;为待评估文本的真实性评估结果,/>表示第k个维度的写作风格特征,n为写作风格特征维度数量;/>为待评估文本发布平台的平台特征,通过计算所述发布平台的多个文本在第k个维度的平均得分得到;/>为待评估文本第k个维度的语种特征,通过与待评估文本相同语种的文本在该维度的平均得分得到;/>和/>分别为第k个维度下待评估文本与平台特征、语种特征的相关性参数;/>为第k个维度下语种和平台特征的权重参数;/>为第k个维度的权重参数。
9.根据权利要求1所述的基于写作风格的文本内容真实性评估方法,其特征在于,所述相似信息簇通过下述方法得到:
构建包括多个文本的数据仓库;
提取待评估文本的事件触发词和主题分布;
基于所述待评估文本的事件触发词和主题分布,基于聚类算法,对所述数据仓库中与所述待评估文本相似的片段进行分组,得到相似信息簇。
10.一种电子设备,其特征在于,包括至少一个处理器,以及至少一个与所述处理器通信连接的存储器;
所述存储器存储有可被所述处理器执行的指令,所述指令用于被所述处理器执行以实现权利要求1-9任一项所述的基于写作风格的文本内容真实性评估方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310712792.4A CN116522895B (zh) | 2023-06-16 | 2023-06-16 | 一种基于写作风格的文本内容真实性评估方法及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310712792.4A CN116522895B (zh) | 2023-06-16 | 2023-06-16 | 一种基于写作风格的文本内容真实性评估方法及设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116522895A true CN116522895A (zh) | 2023-08-01 |
CN116522895B CN116522895B (zh) | 2023-09-12 |
Family
ID=87396099
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310712792.4A Active CN116522895B (zh) | 2023-06-16 | 2023-06-16 | 一种基于写作风格的文本内容真实性评估方法及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116522895B (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030137515A1 (en) * | 2002-01-22 | 2003-07-24 | 3Dme Inc. | Apparatus and method for efficient animation of believable speaking 3D characters in real time |
CN112016850A (zh) * | 2020-09-14 | 2020-12-01 | 支付宝(杭州)信息技术有限公司 | 业务评估方法以及装置 |
CN113271480A (zh) * | 2014-03-26 | 2021-08-17 | 马克·W·帕布利科弗 | 用于提供定制的娱乐内容的计算机处理方法和系统 |
WO2022066666A1 (en) * | 2020-09-22 | 2022-03-31 | Moneythumb Llc | Detection of altered documents |
US20220164643A1 (en) * | 2019-08-26 | 2022-05-26 | Chenope, Inc. | System to detect, assess and counter disinformation |
CN114692593A (zh) * | 2022-03-21 | 2022-07-01 | 中国刑事警察学院 | 一种网络信息安全监测预警方法 |
CN114881041A (zh) * | 2022-05-24 | 2022-08-09 | 张艳 | 微博大数据热点话题多维度智能提取系统 |
CN115062297A (zh) * | 2016-01-24 | 2022-09-16 | 赛义德·卡姆兰·哈桑 | 基于人工智能的计算机安全 |
CN115238101A (zh) * | 2022-09-23 | 2022-10-25 | 中国电子科技集团公司第十研究所 | 一种面向多类型知识库的多引擎智能问答系统 |
-
2023
- 2023-06-16 CN CN202310712792.4A patent/CN116522895B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030137515A1 (en) * | 2002-01-22 | 2003-07-24 | 3Dme Inc. | Apparatus and method for efficient animation of believable speaking 3D characters in real time |
CN113271480A (zh) * | 2014-03-26 | 2021-08-17 | 马克·W·帕布利科弗 | 用于提供定制的娱乐内容的计算机处理方法和系统 |
CN115062297A (zh) * | 2016-01-24 | 2022-09-16 | 赛义德·卡姆兰·哈桑 | 基于人工智能的计算机安全 |
US20220164643A1 (en) * | 2019-08-26 | 2022-05-26 | Chenope, Inc. | System to detect, assess and counter disinformation |
CN112016850A (zh) * | 2020-09-14 | 2020-12-01 | 支付宝(杭州)信息技术有限公司 | 业务评估方法以及装置 |
WO2022066666A1 (en) * | 2020-09-22 | 2022-03-31 | Moneythumb Llc | Detection of altered documents |
CN114692593A (zh) * | 2022-03-21 | 2022-07-01 | 中国刑事警察学院 | 一种网络信息安全监测预警方法 |
CN114881041A (zh) * | 2022-05-24 | 2022-08-09 | 张艳 | 微博大数据热点话题多维度智能提取系统 |
CN115238101A (zh) * | 2022-09-23 | 2022-10-25 | 中国电子科技集团公司第十研究所 | 一种面向多类型知识库的多引擎智能问答系统 |
Non-Patent Citations (3)
Title |
---|
刘奕;: "5G网络技术对提升4G网络性能的研究", 数码世界, no. 04 * |
户文月;: "基于文本分析法的邮轮产品游客感知研究――以皇家加勒比国际邮轮为例", 无锡商业职业技术学院学报, no. 03 * |
王永滨等: "基于文本加权词共现的跨语言文本相似度分析", 软件导刊, vol. 19, no. 2 * |
Also Published As
Publication number | Publication date |
---|---|
CN116522895B (zh) | 2023-09-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Li et al. | Visual to text: Survey of image and video captioning | |
Li et al. | Knowledge-oriented convolutional neural network for causal relation extraction from natural language texts | |
Eke et al. | Context-based feature technique for sarcasm identification in benchmark datasets using deep learning and BERT model | |
CN111079444B (zh) | 一种基于多模态关系的网络谣言检测方法 | |
CN114064918B (zh) | 一种多模态事件知识图谱构建方法 | |
CN110321563B (zh) | 基于混合监督模型的文本情感分析方法 | |
Xiao et al. | Using convolution control block for Chinese sentiment analysis | |
WO2024036840A1 (zh) | 基于主题增强的开放域对话回复方法及系统 | |
CN114428850B (zh) | 一种文本检索匹配方法和系统 | |
CN114265936A (zh) | 一种科技项目文本挖掘的实现方法 | |
CN115510236A (zh) | 基于信息融合和数据增强的篇章级事件检测方法 | |
CN115730232A (zh) | 基于主题相关的异构图神经网络跨语言文本分类方法 | |
Vitman et al. | Sarcasm detection framework using context, emotion and sentiment features | |
Lee et al. | Detecting suicidality with a contextual graph neural network | |
CN113051886B (zh) | 一种试题查重方法、装置、存储介质及设备 | |
Cheikh et al. | Active learning based framework for image captioning corpus creation | |
Wang et al. | CA-CD: context-aware clickbait detection using new Chinese clickbait dataset with transfer learning method | |
CN116522895B (zh) | 一种基于写作风格的文本内容真实性评估方法及设备 | |
Zhang et al. | Dual attention model for citation recommendation with analyses on explainability of attention mechanisms and qualitative experiments | |
Zhang et al. | Construction and Research on Chinese Semantic Mapping Based on Linguistic Features and Sparse Self‐Learning Neural Networks | |
Steuber et al. | Embedding semantic anchors to guide topic models on short text corpora | |
CN112257424A (zh) | 一种关键词提取方法、装置、存储介质及设备 | |
Kadli et al. | Cross Domain Hybrid Feature Fusion based Sarcastic Opinion Recognition Over E-Commerce Reviews Using Adversarial Transfer Learning. | |
Sun et al. | Text sentiment polarity classification method based on word embedding | |
Yan et al. | Causality Extraction Cascade Model Based on Dual Labeling |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |