CN113609292A - 基于图结构的已知虚假新闻智能检测方法 - Google Patents

基于图结构的已知虚假新闻智能检测方法 Download PDF

Info

Publication number
CN113609292A
CN113609292A CN202110906574.5A CN202110906574A CN113609292A CN 113609292 A CN113609292 A CN 113609292A CN 202110906574 A CN202110906574 A CN 202110906574A CN 113609292 A CN113609292 A CN 113609292A
Authority
CN
China
Prior art keywords
text
image
vector
participle
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110906574.5A
Other languages
English (en)
Other versions
CN113609292B (zh
Inventor
郭捷
沈琪
徐扬
邱卫东
黄征
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Jiaotong University
Original Assignee
Shanghai Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jiaotong University filed Critical Shanghai Jiaotong University
Priority to CN202110906574.5A priority Critical patent/CN113609292B/zh
Publication of CN113609292A publication Critical patent/CN113609292A/zh
Application granted granted Critical
Publication of CN113609292B publication Critical patent/CN113609292B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

一种基于图结构的已知虚假新闻智能检测方法,通过获取训练用的新闻图像文本数据集后对文本与相应图片进行图文一对一数据对处理;用自然语言处理工具对每个数据对中的文本数据进行预处理,将文本切割为分词的组合;利用现有的中文新闻语料库计算各个分词的IDF值,再在每个文本内计算各自分词的TF值,从而计算每个分词在各自文本中的TF‑IDF值以表征图像与分词间的关联强度;利用Word2vec模型得到数据对中,文本数据中的每个分词的向量表示,每个分词向量都独立作为分词节点的初始特征向量;利用VGG模型得到数据对中,图像数据中的图片向量表示,作为图像节点的初始特征向量;根据得到的每个分词和图像之间的TF‑IDF值作为边,从而形成图得到图结构数据;利用所得数据对CARMN网络进行训练,并对网络融合图片与文本向量后产生的最终向量进行二分类,达到检测虚假新闻的目的。本发明利用图结构得到更有效的图片与文字向量,提高虚假新闻检测的准确率。

Description

基于图结构的已知虚假新闻智能检测方法
技术领域
本发明涉及的是一种神经网络应用领域的技术,具体是一种基于图结构的已知虚假新闻智能检测方法。
背景技术
现有的神经网络对已知虚假新闻的语义提取方面的特点为:仅使用词向量模型对文本语义进行提取,其缺陷在于已有算法的检测准确率不够高,有较高的误判率,因此提高算法的准确率是一个重大挑战。
发明内容
本发明针对现有技术存在的上述不足,提出一种基于图结构的已知虚假新闻智能检测方法。
本发明是通过以下技术方案实现的:
本发明包括以下步骤:
步骤1)获取训练用的新闻图像文本数据集,其中包含已标注的虚假新闻和非虚假新闻。
步骤2)对文本与相应图片进行图文一对一数据对处理。
步骤3)用自然语言处理工具对每个数据对中的文本数据进行预处理,将文本切割为分词的组合。
步骤4)利用现有的中文新闻语料库计算各个分词的IDF值,再在每个文本内计算各自分词的TF值,从而计算每个分词在各自文本中的TF-IDF值以表征图像与分词间的关联强度。
步骤5)利用Word2vec模型得到数据对中,文本数据中的每个分词的向量表示,每个分词向量都独立作为分词节点的初始特征向量。
步骤6)利用VGG模型得到数据对中,图像数据中的图片向量表示,作为图像节点的初始特征向量。
步骤7)因为数据对中只有单个文本以及对应的单张图像,每个分词在各自文本中的TF-IDF值可以等价于每个分词在各自文本对应的图像中的TF-IDF值。根据得到的每个分词和图像之间的TF-IDF值作为边,从而形成图得到图结构数据。
步骤8)利用所得数据对CARMN网络进行训练,并对网络融合图片与文本向量后产生的最终向量进行二分类,达到检测虚假新闻的目的。
本发明涉及一种实现上述方法的系统,包括:图文预处理单元、文本处理单元、图像处理单元以及CARMN单元,其中:图文预处理单元实现文本与相应图片的一对一处理;文本处理单元依照图文预处理单元的结果,使用自然语言处理工具对文本数据计算分词向量,并与CARMN单元相连并传输文本向量信息,图像处理单元将图片用向量的形式表示,并与CARMN相连并传输图像向量信息;CARMN单元接收文本处理单元和图像处理单元的数据,并送入CARMN网络进行训练,得到二分类结果。
附图说明
图1为本发明的流程图;
图2为本发明中文本和图片一对一处理过程示意图;
图3为本发明中图结构数据示意图。
具体实施方式
如图1所示,为本实施例涉及一种基于图结构的已知虚假新闻智能检测系统,包括预处理单元文本处理单元、图像处理单元与CARMN单元,其中:预处理单元获取训练用的新闻图像文本数据集并对文本与相应图片进行预处理,获得图文一对一的数据对;文本处理单元采用python的jieba库处理工具对每个数据对中的文本数据进行去除非中文字符、去除停用词和分词切割处理,将文本切割为分词的组合并计算每个分词在各自文本中的TF-IDF值以表征图像与分词间的关联强度后利用Word2vec模型得到分词的向量表示,作为分词节点的初始特征向量;图像处理单元利用VGG模型得到一对一图文数据对中每张图片的向量表示,作为图像节点的初始特征向量;CARMN单元根据得到的每个分词和图像之间的TF-IDF值作为边成图得到图结构数据并利用CARMN网络对图结构数据中的图像张量和与其相连的分词张量一同进行训练,并对网络融合图片与文本向量后产生的最终向量进行二分类,达到检测虚假新闻的目的。
所述的新闻图像文本数据集包括:经标签的真、假新闻的文本与对应图片,其中:真、假新闻的数量各占一半;文本对应一张、多张或没有附图。
所述的图文一对一数据对是指:将一张图片与一篇文本的组合认为是一个单位数据,具体为:当文本只有一张附图,则自然为一对一数据对;当文本有多张附图,则重复文本,每张图片与原文本都组成一对图文一对一数据,共生成与图片数目相等的数据对,每个数据对的文本都相同,即原文本;当文本没有附图,则在之后的训练中生成一个特定的张量表示空图片,原文本与空图片构成数据对。
所述的去除非中文字符是指:文本只保留中文,去除标点、数字等其余字符。
所述的去除停用词是指:去除中文文本中常见于每篇文本的无特殊语义词语。
所述的分词切割是指:将中文文本按照语法分割为一系列词语,本实施例所使用的是jieba库cut_for_search函数。
所述的计算每个分词在各自文本中的TF-IDF值以表征图像与分词间的关联强度,具体为:对当前文本中的每一个分词利用TF-IDF算法,从而得到TF-IDF=TF×IDF,其中:词频
Figure BDA0003201887150000031
逆文本频率指数
Figure BDA0003201887150000032
m为当前文本中分词i的出现次数,n为当前文本所有分词的数目。P为语料库中文本总数,q为语料库中包含分词i的文本数量。
所述的语料库为清华NLP组提供的THUCNews新闻文本分类数据集,是根据新浪新闻2005~2011年间的历史数据筛选过滤生成,包含74万篇新闻文档,均为UTF-8纯文本格式。
所述的Word2vec模型能够将分词转换成相应的词向量。本实施例所使用的词向量模型是预训练好的词向量模型。此模型能将分词转换为维度为1*300的词向量。
所述的预训练好的模型使用的是论文Li,S.,et al."Analogical Reasoning onChinese Morphological and Semantic Relations."Meeting ofthe Association forComputational Linguistics 2018中基于微博预训练的模型。
所述的VGG模型是一种用于提取图像特征的卷积网络,本实施例使用的是VGG19网络。
所述的VGG19网络输入224*224大小的RGB图像,通过3*3的卷积核和步骤为2的2*2maxpool对图像进行特征融合,最终通过三个全连接层提取图像的特征得到维度为1*1000的特征向量。
所述的图像节点的初始特征向量就是利用VGG19网络提取到的图像向量。本实施例使用VGG19预训练模型已经训练好的参数进行特征提取。
本实施例基于pytorch,在pytorch中直接调用VGG19模型,包括预训练的和未训练的。使用VGG19预训练模型,只需调用时使用命令:torchvision.models.vgg19(pretrained=True)即可。
本实施例中的VGG网络内嵌在整个网络中,但是参数是被锁死的,对于VGG部分的参数不进行进一步训练。
所述的图包括:图像节点、分词节点和边,其中:图像节点为图像的维度为1*1000的特征向量;分词节点为维度为1*300的词向量;边为求出的分词与对应图像的大于0的关联强度数值。
所述的图像张量,即图像节点本身的特征向量。
所述的文本张量,即图像所连的分词节点构成的张量,具体为:每个相连分词节点使用其初始词向量乘上与图像相连的边所表示的TF-IDF值得到加权分词词向量,再将图像相连的所有分词节点的所有加权分词词向量进行拼接得到最终的文本张量。
所述的拼接为按行拼接,本实施例中设定最多为80个加权分词词向量,具体规则包括:
i)当图像节点所连分词节点数目小于80,则用0向量补充。
ii)当图像节点数目大于80,则选择先在文本中出现的80个分词的加权分词词向量。
iii)最终产生的文本张量的维度为80*300。
所述的CARMN网络是一个多模态网络,输入图像向量与文本向量,通过自注意力残差网络和CARN模块融合图像与文本的特征,再通过特征提取得到最终的向量,并进行二分类,其中:自注意力残差网络通过使用多个矩阵融合图片与文本的信息得到信息之间的相关性;目标模态可以利用CARN模块有选择地从另一个模态中提取信息后,通过剩余连接将信息添加到目标模态。
所述的CARN模块包括:表示文本模态有选择的提取图像模态信息并融合的单元和表示图像模态有选择的提取文本模态信息并融合的单元。
本实施例使用CARMN网络基于Pytorch,选取了Adam优化器,学习率设定为0.0001,训练轮数epoch设定为150,损失函数选取的是交叉熵函数。
所述的Adam优化器为torch.optim.Adam()。
所述的交叉熵函数为torch.nn.CrossEntropyLoss()。
在WeiboA(论文Jin,Z.,Cao,J.,Guo,H.,Zhang,Y.,&Luo,J.Multimodal fusionwith recurrentneural networks forrumor detection on microblogs.Proceedingsofthe 25th acm international conference on multimedia[J]2017:795-816中提出)和WeiboB(论文Cao,J.,Guo,J.,Li,X.,Jin,Z.,Guo,H.,&Li,J.Automatic rumor detectionon microblogs:a survey[J].
2018:125-134中提出)两个公开数据集上进行测试,测试结果如下:
WeiboA数据集测试结果:
Figure BDA0003201887150000041
WeiboB数据集测试结果:
Figure BDA0003201887150000042
因为WeiboA数据集小,训练效果不佳。但在WeiboB数据集上,本发明对准确率有显著的提升效果。
本发明利用图结构得到更有效的图片与文字向量,提高虚假新闻检测的准确率。
上述具体实施可由本领域技术人员在不背离本发明原理和宗旨的前提下以不同的方式对其进行局部调整,本发明的保护范围以权利要求书为准且不由上述具体实施所限,在其范围内的各个实现方案均受本发明之约束。

Claims (10)

1.一种基于图结构的已知虚假新闻智能检测方法,其特征在于,包括以下步骤:
步骤1)获取训练用的新闻图像文本数据集,其中包含已标注的虚假新闻和非虚假新闻;
步骤2)对文本与相应图片进行图文一对一数据对处理;
步骤3)用自然语言处理工具对每个数据对中的文本数据进行预处理,将文本切割为分词的组合;
步骤4)利用现有的中文新闻语料库计算各个分词的IDF值,再在每个文本内计算各自分词的TF值,从而计算每个分词在各自文本中的TF-IDF值以表征图像与分词间的关联强度;
步骤5)利用Word2vec模型得到数据对中,文本数据中的每个分词的向量表示,每个分词向量都独立作为分词节点的初始特征向量;
步骤6)利用VGG模型得到数据对中,图像数据中的图片向量表示,作为图像节点的初始特征向量;
步骤7)因为数据对中只有单个文本以及对应的单张图像,每个分词在各自文本中的TF-IDF值可以等价于每个分词在各自文本对应的图像中的TF-IDF值;根据得到的每个分词和图像之间的TF-IDF值作为边,从而形成图得到图结构数据;
步骤8)利用所得数据对CARMN网络进行训练,并对网络融合图片与文本向量后产生的最终向量进行二分类,达到检测虚假新闻的目的。
2.一种实现权利要求1所述的方法的基于图结构的已知虚假新闻智能检测系统,其特征在于,包括:预处理单元文本处理单元、图像处理单元与CARMN单元,其中:预处理单元获取训练用的新闻图像文本数据集并对文本与相应图片进行预处理,获得图文一对一的数据对;文本处理单元采用python的jieba库处理工具对每个数据对中的文本数据进行去除非中文字符、去除停用词和分词切割处理,将文本切割为分词的组合并计算每个分词在各自文本中的TF-IDF值以表征图像与分词间的关联强度后利用Word2vec模型得到分词的向量表示,作为分词节点的初始特征向量;图像处理单元利用VGG模型得到一对一图文数据对中每张图片的向量表示,作为图像节点的初始特征向量;CARMN单元根据得到的每个分词和图像之间的TF-IDF值作为边成图得到图结构数据并利用CARMN网络对图结构数据中的图像张量和与其相连的分词张量一同进行训练,并对网络融合图片与文本向量后产生的最终向量进行二分类,达到检测虚假新闻的目的;
所述的新闻图像文本数据集包括:经标签的真、假新闻的文本与对应图片,其中:真、假新闻的数量各占一半;文本对应一张、多张或没有附图;
所述的图文一对一数据对是指:将一张图片与一篇文本的组合认为是一个单位数据,具体为:当文本只有一张附图,则自然为一对一数据对;当文本有多张附图,则重复文本,每张图片与原文本都组成一对图文一对一数据,共生成与图片数目相等的数据对,每个数据对的文本都相同,即原文本;当文本没有附图,则在之后的训练中生成一个特定的张量表示空图片,原文本与空图片构成数据对;
所述的去除非中文字符是指:文本只保留中文,去除标点、数字等其余字符;
所述的去除停用词是指:去除中文文本中常见于每篇文本的无特殊语义词语;
所述的分词切割是指:将中文文本按照语法分割为一系列词语,本实施例所使用的是jieba库cut_for_search函数。
3.根据权利要求2所述的基于图结构的已知虚假新闻智能检测系统,其特征是,所述的计算每个分词在各自文本中的TF-IDF值以表征图像与分词间的关联强度,具体为:对当前文本中的每一个分词利用TF-IDF算法,从而得到TF-IDF=TF×IDF,其中:词频
Figure FDA0003201887140000021
逆文本频率指数
Figure FDA0003201887140000022
m为当前文本中分词i的出现次数,n为当前文本所有分词的数目,P为语料库中文本总数,q为语料库中包含分词i的文本数量。
4.根据权利要求2所述的基于图结构的已知虚假新闻智能检测系统,其特征是,所述的VGG19网络输入224*224大小的RGB图像,通过3*3的卷积核和步骤为2的2*2maxpool对图像进行特征融合,最终通过三个全连接层提取图像的特征得到维度为1*1000的特征向量。
5.根据权利要求2所述的基于图结构的已知虚假新闻智能检测系统,其特征是,所述的图像节点的初始特征向量就是利用VGG19网络提取到的图像向量,本实施例使用VGG19预训练模型已经训练好的参数进行特征提取。
6.根据权利要求5所述的基于图结构的已知虚假新闻智能检测系统,其特征是,VGG网络内嵌在整个网络中,但是参数是被锁死的,对于VGG部分的参数不进行进一步训练。
7.根据权利要求2所述的基于图结构的已知虚假新闻智能检测系统,其特征是,所述的图包括:图像节点、分词节点和边,其中:图像节点为图像的维度为1*1000的特征向量;分词节点为维度为1*300的词向量;边为求出的分词与对应图像的大于0的关联强度数值。
8.根据权利要求2所述的基于图结构的已知虚假新闻智能检测系统,其特征是,所述的图像张量,即图像节点本身的特征向量;所述的文本张量,即图像所连的分词节点构成的张量,具体为:每个相连分词节点使用其初始词向量乘上与图像相连的边所表示的TF-IDF值得到加权分词词向量,再将图像相连的所有分词节点的所有加权分词词向量进行拼接得到最终的文本张量。
9.根据权利要求2所述的基于图结构的已知虚假新闻智能检测系统,其特征是,所述的拼接为按行拼接,本实施例中设定最多为80个加权分词词向量,具体规则包括:
i)当图像节点所连分词节点数目小于80,则用0向量补充;
ii)当图像节点数目大于80,则选择先在文本中出现的80个分词的加权分词词向量;
iii)最终产生的文本张量的维度为80*300。
10.根据权利要求2所述的基于图结构的已知虚假新闻智能检测系统,其特征是,所述的CARMN网络是一个多模态网络,输入图像向量与文本向量,通过自注意力残差网络和CARN模块融合图像与文本的特征,再通过特征提取得到最终的向量,并进行二分类,其中:自注意力残差网络通过使用多个矩阵融合图片与文本的信息得到信息之间的相关性;目标模态可以利用CARN模块有选择地从另一个模态中提取信息后,通过剩余连接将信息添加到目标模态;
所述的CARN模块包括:表示文本模态有选择的提取图像模态信息并融合的单元和表示图像模态有选择的提取文本模态信息并融合的单元。
CN202110906574.5A 2021-08-09 2021-08-09 基于图结构的已知虚假新闻智能检测方法 Active CN113609292B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110906574.5A CN113609292B (zh) 2021-08-09 2021-08-09 基于图结构的已知虚假新闻智能检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110906574.5A CN113609292B (zh) 2021-08-09 2021-08-09 基于图结构的已知虚假新闻智能检测方法

Publications (2)

Publication Number Publication Date
CN113609292A true CN113609292A (zh) 2021-11-05
CN113609292B CN113609292B (zh) 2023-10-13

Family

ID=78339910

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110906574.5A Active CN113609292B (zh) 2021-08-09 2021-08-09 基于图结构的已知虚假新闻智能检测方法

Country Status (1)

Country Link
CN (1) CN113609292B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116912845A (zh) * 2023-06-16 2023-10-20 广东电网有限责任公司佛山供电局 一种基于nlp与ai的智能内容识别与分析方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020082560A1 (zh) * 2018-10-25 2020-04-30 平安科技(深圳)有限公司 文本关键词提取方法、装置、设备及计算机可读存储介质
CN111222000A (zh) * 2019-12-31 2020-06-02 中国地质大学(武汉) 一种基于图卷积神经网络的图像分类方法及系统
CN111831790A (zh) * 2020-06-23 2020-10-27 广东工业大学 一种基于低门限集成与文本内容匹配的虚假新闻识别方法
US20200342314A1 (en) * 2019-04-26 2020-10-29 Harbin Institute Of Technology (shenzhen) Method and System for Detecting Fake News Based on Multi-Task Learning Model

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020082560A1 (zh) * 2018-10-25 2020-04-30 平安科技(深圳)有限公司 文本关键词提取方法、装置、设备及计算机可读存储介质
US20200342314A1 (en) * 2019-04-26 2020-10-29 Harbin Institute Of Technology (shenzhen) Method and System for Detecting Fake News Based on Multi-Task Learning Model
CN111222000A (zh) * 2019-12-31 2020-06-02 中国地质大学(武汉) 一种基于图卷积神经网络的图像分类方法及系统
CN111831790A (zh) * 2020-06-23 2020-10-27 广东工业大学 一种基于低门限集成与文本内容匹配的虚假新闻识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
刘春丽;李晓戈;刘睿;范贤;杜丽萍: "基于表示学习的中文分词", 计算机应用, vol. 36, no. 10 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116912845A (zh) * 2023-06-16 2023-10-20 广东电网有限责任公司佛山供电局 一种基于nlp与ai的智能内容识别与分析方法及装置
CN116912845B (zh) * 2023-06-16 2024-03-19 广东电网有限责任公司佛山供电局 一种基于nlp与ai的智能内容识别与分析方法及装置

Also Published As

Publication number Publication date
CN113609292B (zh) 2023-10-13

Similar Documents

Publication Publication Date Title
Yang et al. Exploring deep multimodal fusion of text and photo for hate speech classification
CN110263324B (zh) 文本处理方法、模型训练方法和装置
CN109146610B (zh) 一种智能保险推荐方法、装置及智能保险机器人设备
CN108595708A (zh) 一种基于知识图谱的异常信息文本分类方法
CN108573047A (zh) 一种中文文本分类模型的训练方法及装置
CN111291566B (zh) 一种事件主体识别方法、装置、存储介质
CN110362819B (zh) 基于卷积神经网络的文本情感分析方法
CN111966812B (zh) 一种基于动态词向量的自动问答方法和存储介质
CN109684476B (zh) 一种文本分类方法、文本分类装置及终端设备
CN110555206A (zh) 一种命名实体识别方法、装置、设备及存储介质
CN112818951A (zh) 一种票证识别的方法
CN110956037B (zh) 多媒体内容重复判断方法及装置
CN113408574B (zh) 一种车牌分类方法、车牌分类装置和计算机可读存储介质
CN113051380B (zh) 信息生成方法、装置、电子设备和存储介质
CN112434686B (zh) 针对ocr图片的端到端含错文本分类识别仪
Stewart et al. Seq2kg: an end-to-end neural model for domain agnostic knowledge graph (not text graph) construction from text
CN111967487A (zh) 一种用于视觉问答模型训练的增量型数据增强方法及应用
CN112860896A (zh) 语料泛化方法及用于工业领域的人机对话情感分析方法
CN107357895A (zh) 一种基于词袋模型的文本表示的处理方法
CN115545041A (zh) 一种增强医疗语句语义向量表示的模型构造方法及系统
CN112861864A (zh) 一种题目录入方法、题目录入装置、电子设备及计算机可读存储介质
CN117251551B (zh) 一种基于大语言模型的自然语言处理系统及方法
CN113609292A (zh) 基于图结构的已知虚假新闻智能检测方法
CN110209759A (zh) 自动识别书页的方法及装置
CN116881408A (zh) 基于ocr和nlp的视觉问答防诈骗方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant