CN116263784A - 面向图片文本的粗粒度情感分析方法及装置 - Google Patents
面向图片文本的粗粒度情感分析方法及装置 Download PDFInfo
- Publication number
- CN116263784A CN116263784A CN202211392305.2A CN202211392305A CN116263784A CN 116263784 A CN116263784 A CN 116263784A CN 202211392305 A CN202211392305 A CN 202211392305A CN 116263784 A CN116263784 A CN 116263784A
- Authority
- CN
- China
- Prior art keywords
- text
- information
- preset model
- task
- picture
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000008451 emotion Effects 0.000 title claims abstract description 95
- 238000004458 analytical method Methods 0.000 title claims abstract description 73
- 239000013598 vector Substances 0.000 claims abstract description 119
- 238000000034 method Methods 0.000 claims abstract description 27
- 238000012549 training Methods 0.000 claims abstract description 19
- 230000008909 emotion recognition Effects 0.000 claims abstract description 16
- 230000006870 function Effects 0.000 claims description 32
- 238000004891 communication Methods 0.000 claims description 17
- 230000004927 fusion Effects 0.000 claims description 11
- 238000012545 processing Methods 0.000 claims description 7
- 230000003416 augmentation Effects 0.000 claims 1
- 230000000694 effects Effects 0.000 description 10
- 238000010586 diagram Methods 0.000 description 7
- 238000003780 insertion Methods 0.000 description 6
- 230000037431 insertion Effects 0.000 description 6
- 238000003058 natural language processing Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 4
- 206010027940 Mood altered Diseases 0.000 description 3
- 238000012015 optical character recognition Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 230000007935 neutral effect Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 210000001072 colon Anatomy 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000011022 operating instruction Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 230000000452 restraining effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种面向图片文本的粗粒度情感分析方法及装置,方法包括:识别图片得到图片中的文本信息及文本结构化信息;将预设标签信息与文本信息进行融合,分别输入至主任务预设模型和辅任务预设模型得到对应的主任务文本向量和辅任务文本向量;其中,预设标签信息包括情感分类标签以及情绪识别标签;主任务预设模型用于粗粒度情感分析;辅任务预设模型用于细粒度情感分析;对文本结构化信息进行转换得到图片向量,并将图片向量与主任务文本向量拼接,得到主任务图片文本向量;利用辅任务文本向量以及主任务图片文本向量,训练调整主任务预设模型,得到主任务预设模型的粗粒度情感分析的输出结果。
Description
技术领域
本发明实施例涉及自然语言处理技术领域和图像领域,具体涉及一种面向图片文本的粗粒度情感分析方法及装置。
背景技术
在NLP(Natural Language Processing,自然语言处理)的众多研究方向中,情感分析(Sentiment Analysis)是热门的研究课题,情感分析是对带有情感色彩的主观性文本进行分析处理,自动判断文本的情感倾向。情感分析在很多自然语言处理应用中是不可或缺的步骤,如在评价监控、口碑检测、满意度分析等不同领域均有广泛的应用。情感包括如粗粒度(如正、中、负情感)和细粒度(高兴、伤心、愤怒等)两种,粗粒度的情感分析称为情感分类,细粒度的情感分析称为情绪识别。
现有技术在对图片文本进行情感分析时,与基于文本的情感分析不同之处在于文本不是传统的社交媒体文本,而是从图片中获取文本信息,如基于OCR(Optical CharacterRecognition,光学符号识别)识别提取图片中的文本信息,对识别的文本信息进行情感分析。然而,目前基于文本信息进行情感分析的方法得到的分析结果准确度较低。
发明内容
鉴于上述问题,提出了本发明实施例以便提供一种克服上述问题或者至少部分地解决上述问题的面向图片文本的粗粒度情感分析方法及装置。
根据本发明实施例的一个方面,提供了一种面向图片文本的粗粒度情感分析方法,方法包括:
识别图片得到图片中的文本信息及文本结构化信息;
将预设标签信息与文本信息进行融合,分别输入至主任务预设模型和辅任务预设模型得到对应的主任务文本向量和辅任务文本向量;其中,预设标签信息包括情感分类标签以及情绪识别标签;主任务预设模型用于粗粒度情感分析;辅任务预设模型用于细粒度情感分析;
对文本结构化信息进行转换得到图片向量,并将图片向量与主任务文本向量拼接,得到主任务图片文本向量;
利用辅任务文本向量以及主任务图片文本向量,训练调整主任务预设模型,得到主任务预设模型的粗粒度情感分析的输出结果。
根据本发明实施例的另一方面,提供了一种面向图片文本的粗粒度情感分析装置,其包括:
识别模块,适于识别图片得到图片中的文本信息及文本结构化信息;
融合模块,适于将预设标签信息与文本信息进行融合,分别输入至主任务预设模型和辅任务预设模型得到对应的主任务文本向量和辅任务文本向量;其中,预设标签信息包括情感分类标签以及情绪识别标签;主任务预设模型用于粗粒度情感分析;辅任务预设模型用于细粒度情感分析;
拼接模块,适于对文本结构化信息进行转换得到图片向量,并将图片向量与主任务文本向量拼接,得到主任务图片文本向量;
相似度约束模块,适于利用辅任务文本向量以及主任务图片文本向量,训练调整主任务预设模型,得到主任务预设模型的粗粒度情感分析的输出结果。
根据本发明实施例的又一方面,提供了一种计算设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行上述面向图片文本的粗粒度情感分析方法对应的操作。
根据本发明实施例的再一方面,提供了一种计算机存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令使处理器执行如上述面向图片文本的粗粒度情感分析方法对应的操作。
根据本发明实施例的提供的面向图片文本的粗粒度情感分析方法及装置,充分利用图片中如文本在图片中的文本结构化信息,将其转化为特征向量与基于文本信息的主任务文本向量进行拼接,扩充原始的文本向量,帮助预设模型挖掘其中的内在联系,提升模型训练效果。将标签信息与文本信息进行融合,进一步挖掘文本信息和标签信息之间的内在联系,帮助提升分析效果,利用联合学习利用辅任务预设模型来调整主任务预设模型,从而达到提升情感分析准确度的效果。
上述说明仅是本发明实施例技术方案的概述,为了能够更清楚了解本发明实施例的技术手段,而可依照说明书的内容予以实施,并且为了让本发明实施例的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明实施例的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明实施例的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了根据本发明一个实施例的面向图片文本的粗粒度情感分析方法的流程图;
图2示出了情感分析学习统一框架的示意图;
图3示出了Bert模型的各层示意图;
图4示出了预设标点符号随机插入文本信息示意图;
图5示出了根据本发明一个实施例的面向图片文本的粗粒度情感分析装置的结构示意图;
图6示出了根据本发明一个实施例的一种计算设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例,然而应当理解,可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本发明,并且能够将本发明的范围完整的传达给本领域的技术人员。
图1示出了根据本发明一个实施例的面向图片文本的粗粒度情感分析方法的流程图,如图1所示,该方法包括如下步骤:
步骤S101,识别图片得到图片中的文本信息及文本结构化信息。
现有技术中在使用图片时,大多是将图片直接转化为图片整体向量与文本向量拼接,简单的将图片整体向量与文本向量进行向量融合,或者只使用识别得到的文本信息,使得图片中有效的结构化信息(如文本位置、字体大小、字体颜色等等信息)没有充分利用。
考虑上述问题,本实施例对于图片,可以利用如OCR等识别计算,识别提取得到图片中包含的文本信息。除得到文本信息外,还基于图片获取其中的文本结构化信息。文本结构化信息包括如文本在图片中的位置信息、文本字体大小信息、文本颜色信息等。考虑到图片中不同文本在图片中的不同的位置信息也体现了不同文本的关注程度不同,如图片中间位置和图片侧边位置设置的不同文本的重要程度不同,其代表的情感程度也不同。文本字体的大小和文本颜色也同样承载文字的重要程度,如文字字体越大,其颜色越深,表明越想让用户注意该部分的文字内容,即表明该部分文字内容更加重要,其承载的情感更重。
具体的,在获取文本结构化信息时,对于文本在图片中的位置信息,可以如基于图片领域目标检测框架SSD(Single Shot Multibox Detector)检测图片中的文本的位置,获取文本段落的坐标信息,具体的,获取包括文本段落两个斜对角的坐标信息,如左上角、右下角的坐标信息,将文本段落的坐标信息作为文本在图片中的位置信息,如表示为dIOC={<x1,y1>,<x2,y2>}。dIOC即文本在图片中的位置信息,其中,<x1,y1>,<x2,y2>分别为文本段落两个斜对角的坐标信息。
对于文本字体大小信息,根据文本段落的坐标信息,确定文本段落中每一个文字的坐标信息,若文本字体较大的文字,对应的其坐标的距离较大,反之,坐标的距离较小,根据各个文字的坐标信息得到文本字体大小信息,根据每个文字的坐标信息来表示各个文本的字体大小信息,如表示为wsize={wi=<xi,yi>,i∈n}。其中,wsize即文本的字体大小信息,wi为文本段落中第i个文字的字体大小信息,n代表文本段落中包含n个文字。<xi,yi>为第i个文字的坐标信息。对于每个文字,可以选择文字的任一角位置的坐标值作为文字的坐标信息,此处不做限定,根据各个文字的坐标距离可以计算得到文本字体大小信息。
对于文本颜色信息,可以利用如HSV(Hue、Saturation、Value,色调(H)、饱和度(S)、明度(V))颜色空间,计算得到整体文本段落的色度和饱和度,在根据每个文字,分别计算得到每个文字与整体文本段落的色度和饱和度的方差,方差即文本颜色信息,表示为whsv={vari,i∈n},其中,whsv即文本颜色信息,vari为文本段落中第i个文字的色度和饱和度,以计算每个文字与整体文本段落的色度和饱和度的方差,n代表文本段落中包含n个文字。
步骤S102,将预设标签信息与文本信息进行融合,分别输入至主任务预设模型和辅任务预设模型得到对应的主任务文本向量和辅任务文本向量。
本实施例基于融合标签和向量约束的情感分析学习统一框架(SentimentAnalysis Unified Framework,SAUF)来进行识别,其中,所使用的预设模型以Bert(Bidirectional EncoderRepresentations fromTransformers,双向注意力神经网络模型)模型为例进行说明,完成对图片文本识别,也可以采用其他自然语言处理模型,此处不做限定。
同一条文本信息,其情感可以包括粗粒度,也可以包括细粒度,如粗粒度为正面的情感,细粒度为高兴的情绪等。细粒度的情绪识别也可以进一步帮助确定粗粒度的情感分类。如利用联合学习共享情绪识别模型和情感分类模型的中间层(如隐藏层的输出),对同一文本信息,同时进行情感分类和情绪识别,其中主任务预设模型输出粗粒度情感分析,辅任务预设模型输出细粒度情感分析。通过联合学习的方式来达到辅任务预设模型帮助主任务预设模型学习的效果,学习两个不同任务间的内在联系,帮助提升主任务预设模型的情感分类的效果。在联合学习时,虽然共享中间层在一定程度上能够通过辅任务预设模型帮助提升主任务预设模型的效果,但还需要将粗粒度和细粒度的情感分析间的联系更充分利用,如正面标签(情感分类标签)和高兴标签(情绪识别标签)的联系,在同一条文本信息中,两种不同标签信息间是有内在联系的,在训练过程中可以进一步融合标签信息,来提升SAUF框架整体的训练效果。具体的,对于文本信息,将其与预设标签信息进行融合,预设标签信息包括情感分类标签以及情绪识别标签。如情感分类标签包括三个类别标签:正面、中性、负面。情绪识别标签包括5个标签:高兴、感谢、悲伤、愤怒、抱怨等,以上为举例说明,具体根据实施情况设置标签信息,此处不做限定。以文本信息为“下雨了,今天心情不好,有点低落”为例,无论情感分类或者情绪识别,标签信息对于文本信息都是抽象的,在使用预设模型进行训练时,可以将情感分类标签以及情绪识别标签一并输入,如“正面中性负面高兴感谢悲伤愤怒抱怨+下雨了,今天心情不好,有点低落(文本信息)”,使得模型能学习到“心情不好”、“低落”与“负面”、“悲伤”标签信息间的内在关系,利用加入情感标签信息的文本信息来训练学习与具体标签信息的映射逻辑。此处,标签信息融合输入的是情感分类、情绪识别涉及的所有标签信息,而不仅仅是当前文本信息对应的具体标签,将情感分类标签以及情绪识别标签与文本信息一起输入,也方便对中间向量进行约束。SAUF框架如图2所示,图中①所示的虚线框,其代表标签信息,将标签信息与文本信息进行融合后,分别输入至主任务预设模型和辅任务预设模型,预设模型以Bert模型为例,即图2中将标签信息与文本信息的融合信息输入至主任务的Bert层和辅任务的Bert层,分别得到对应的主任务文本向量和辅任务文本向量。主任务Bert层输出的是②所示虚线框的图片向量之外的箭头所指的主任务文本向量,辅任务Bert层输出的是辅任务文本向量,标记为hmain2或者haux。其中,hmain2=haux=BERT(Tinput),Tinput为标签信息和文本信息的融合信息,经过辅任务Bert层后,对应的输出辅任务文本向量。
主任务的Bert层和辅任务的Bert层可以采用同一Bert模型,Bert模型的输入主要包括如三部分的Embedding嵌入层输入,如Token Embedding(词嵌入层)、SegmentEmbedding(分类嵌入层)和Position Embedding(位置嵌入层)。如图3所示,从InputTokens(输入词)可以看出,输入包括标签信息和文本信息,起始位置设置[CLS]标志,结束位置设置[SEP]标志,标签信息和文本信息间不设置[SEP]标志,以表明标签信息和文本信息不是自然句,与Bert模型的NSP(Next Sentence Prediction,下一句预测)不一致。其中,L1…LC表示文本信息对应的c个标签信息,D1…DK为k个文本信息长度的输入的文本信息,通过Token Embedding(词嵌入层)将标签信息、文本信息转换为固定维度向量,SegmentEmbedding(分类嵌入层)学习分类,如EA,Position Embedding(位置嵌入层)学习顺序位置,如E1,经Self-AttentionEncoder(自注意力机制编码器),输出ClassPrediction(类预测),即标签信息和文本信息组合后的文本向量。以上Token Embedding(词嵌入层)、Segment Embedding(分类嵌入层)、Position Embedding(位置嵌入层),Self-AttentionEncoder(自注意力机制编码器)可以根据实施情况设置,此处不做展开说明。
进一步,对于从图片获取的文本信息较少这一问题,大多基于如EDA(easy dataaugmentatio,数据增强)进行数据扩充,如同义词替换、随机插入、随机交换以及随机删除,或者使用如回译法进行中英文互译等进行数据增强,或者将直接得到的图片整体向量与文本信息拼接,虽然达到一定的数据扩充,但以上数据扩充或多或少已经改变了原来文本的语法语义信息,使得原始的情感语义信息遭到一定程度的破坏,数据扩充后可能会对模型的训练造成误导,影响整体效果。
基于上述问题,本实施例利用标点符号随机插入方式对文本信息进行文本扩充,得到多个扩充文本信息。具体的,可以将预设标点符号随机插入至文本信息中,以便有效扩充可用于情感分析的文本信息数量,同时对于原始序列的文本信息修改不明显。如图4所示,箭头指向文本的方向为随机插入标点符号的位置,标点符号包括如图4所示的[“.”,“;”,“?”,“:”,“!”,“,”],即间隔号、分号、问号、冒号、叹号、逗号等,也可以包括其他标点符号,此处不做限定。标点符号随机插入时,如从数值1到文本信息的某一长度,如三分之一长度值(若不能整除可以进行取整处理)为随机数值范围,随机选择一个数值,作为插入标点符号的个数,标点符号插入位置也可以随机设置,插入的标点符号也随机选择任一标点符号插入。如文本信息为一句话,其长度为12,即1-4为随机数值范围,随机获取一个数值插入标点符号的个数,使得每个文本信息中既有标点符号插入,增加其复杂性,又不会加入过多标点符号,过于干扰句子的语义信息,减少过多噪声导致的负面影响。
在将预设标点符号随机插入文本信息后,可以得到多个包含预设标点符号的扩充文本信息,需要从中选择与文本信息相似度较高的多个扩充文本信息,方便后续利用多个扩充文本信息和原始语义的文本信息一并进行分析。在计算扩充文本信息与文本信息的相似度时,可以利用如下公式:
其中,xi和yi分别表示两条不同文本信息经过线性变换操作如Bert-whitening后得到的向量,其中,向量维度为d维。x和y分别对应扩充文本信息及文本信息。cos(x,y)即扩充文本信息与文本信息的相似度,分别计算各个扩展文本与文本信息的相似度,将相似度按照从高到低排序,从中选取排序在先的,如相似度高的5条扩充文本信息和文本信息合并,得到文本扩充后的多个文本信息,一并作为输入的文本信息。将预设标签信息与文本扩充后的多个文本信息融合,从而解决文本信息较少的问题。
步骤S103,对文本结构化信息进行转换得到图片向量,并将图片向量与主任务文本向量拼接,得到主任务图片文本向量。
对于文本结构化信息,可以使用向量转换模型转换得到图片向量,向量转换模型可以根据实施情况来选择,如卷积神经网络(CNN),transformer网络等,此处不做限定。如以transformer网络为例,hadd=transformer(Tinput1+Tinput2+Tinput3)。其中,Tinput1表示文本在图片中的位置信息(即dIOC),Tinput2表示文本字体大小信息(即wsize),Tinput3表示文本颜色信息(即whsv),经过transformer转换后的得到的输出为图片向量hadd。
将图片向量与主任务文本向量拼接得到主任务图片文本向量,用于主任务的粗粒度情感分析,如图2所示,图中②为图片文本向量hmain1,hmain1=BERT(Tinput)+hadd。其中,Tinput为标签信息和文本信息的融合,经过主任务Bert层后产生主任务文本向量,将主任务文本向量与图片向量hadd拼接,得到主任务图片文本向量hmain1。
步骤S104,利用辅任务文本向量以及主任务图片文本向量,训练调整主任务预设模型,得到主任务预设模型的粗粒度情感分析的输出结果。
将主任务图片文本向量hmain1和辅任务文本向量hmain2进行向量连接处理,再输入至主任务预设模型的隐藏层,得到主任务预设模型的隐藏层输出 其中,densemain为主任务预设模型的隐藏层(全连接层),⊕表示向量连接操作。将辅任务文本向量输入至辅任务预设模型的隐藏层,得到辅任务预设模型的隐藏层输出/> 表示辅任务预设模型的隐藏层(全连接层)输出。利用余弦函数计算得到主任务预设模型的隐藏层输出和辅任务预设模型的隐藏层输出的相似度。如图2的③所示的虚线框,由于主任务和辅任务预设模型在文本信息输入时融合了标签信息,而且通过BERT层共享权重,/>和/>的向量应尽可能一致,为此增加相似度,利用余弦函数计算得到相似度,如/>利用相似度调整主任务预设模型的损失函数,得到其中,/> 为预设交叉熵损失函数,根据实施情况设置,/> 为主任务预设模型的隐藏层输出和辅任务预设模型的隐藏层输出的相似度,用以约束主任务和辅任务预设模型的隐藏层输出尽可能相似。需要注意的是,主任务的计算与辅任务一致。对于SAUF整体框架,将主任务预设模型的损失函数和辅任务预设模型的损失函数进行加权线性融合,得到主任务预设模型和辅任务预设模型的共同损失函数,即SAUF整体框架的损失函数,基于SAUF整体框架的损失函数训练调整主任务预设模型和辅任务预设模型,最后得到主任务预设模型的粗粒度情感分析的输出结果。加权线性融合时,如loss=λlossmain+(1-λ)lossaux,其中,λ为预设权重参数,根据实施情况设置,lossmain为主任务预设模型的损失函数,lossaux为辅任务预设模型的损失函数。
进一步,整体框架中预设模型可以使用如RMSprop(Root Mean Square Rrop)作为优化函数,加快梯度下降。整体框架中涉及的矩阵、向量参数可以基于范围内的参数进行初始化,参数r和c分别代表矩阵的行和列,具体根据实施情况设置,此处不做限定。
根据本发明实施例提供的面向图片文本的粗粒度情感分析方法,充分利用图片中如文本在图片中的位置信息、文本字体大小信息、文本颜色信息等文本结构化信息,将其转化为特征向量与基于文本信息输入的BERT层的输出向量进行拼接,扩充原始的文本向量,帮助预设模型挖掘其中的内在联系,提升模型训练效果。进一步,针对从图片中获取的文本信息不足的问题,基于预设标点符号随机插入的方式得到扩充文本信息,选择与原始文本信息相似度较高的扩充文本信息进行文本扩充,情感语义信息损失较小,且简单快捷。将标签信息与文本信息进行融合,进一步挖掘文本信息和标签信息之间的内在联系,帮助提升分析效果,利用联合学习共享主任务预设模型和辅任务预设模型的隐藏层输出的相似度来约束其向量分布,以使其尽可能分布一致,从而达到提升情感分析准确度的效果。
图5示出了本发明实施例提供的面向图片文本的粗粒度情感分析装置的结构示意图。如图5所示,该装置包括:
识别模块510,适于识别图片得到图片中的文本信息及文本结构化信息;
融合模块520,适于将预设标签信息与文本信息进行融合,分别输入至主任务预设模型和辅任务预设模型得到对应的主任务文本向量和辅任务文本向量;其中,预设标签信息包括情感分类标签以及情绪识别标签;主任务预设模型用于粗粒度情感分析;辅任务预设模型用于细粒度情感分析;
拼接模块530,适于对文本结构化信息进行转换得到图片向量,并将图片向量与主任务文本向量拼接,得到主任务图片文本向量;
相似度约束模块540,适于利用辅任务文本向量以及主任务图片文本向量,训练调整主任务预设模型,得到主任务预设模型的粗粒度情感分析的输出结果。
可选地,文本结构化信息包括文本在图片中的位置信息、文本字体大小信息和/或文本颜色信息中的至少一项;
识别模块510进一步适于:
检测图片中文本的位置,获取文本段落的坐标信息作为文本在图片中的位置信息;
根据文本段落的坐标信息,确定各个文字的坐标信息,并根据各个文字的坐标信息得到文本字体大小信息;
获取文本段落的色度和饱和度,计算每个文字与文本段落的色度和饱和度的方差作为文本颜色信息。
可选地,装置还包括:扩充模块550,适于利用预设标点符号对文本信息进行文本扩充,得到文本扩充后的多个文本信息;将预设标签信息与文本扩充后的多个文本信息进行融合。
可选地,扩充模块550进一步适于:
利用预设标点符号随机插入至文本信息中,得到多个扩充文本信息;
计算多个扩充文本信息与文本信息的相似度;
根据相似度从高到低排序,获取排序在先的预设个数的扩充文本信息与文本信息合并,得到文本扩充后的多个文本信息。
可选地,相似度约束模块540进一步适于:
基于辅任务文本向量以及主任务图片文本向量,确定主任务预设模型的隐藏层输出和辅任务预设模型的隐藏层输出,并计算主任务预设模型的隐藏层输出和辅任务预设模型的隐藏层输出之间的相似度;
利用相似度调整主任务预设模型的损失函数,并基于主任务预设模型的损失函数训练调整主任务预设模型,得到主任务预设模型的粗粒度情感分析的输出结果。
可选地,相似度约束模块540进一步适于:
将主任务图片文本向量和辅任务文本向量进行向量连接处理,输入至主任务预设模型的隐藏层,得到主任务预设模型的隐藏层输出;
将辅任务文本向量输入至辅任务预设模型的隐藏层,得到辅任务预设模型的隐藏层输出;
利用余弦函数计算主任务预设模型的隐藏层输出和辅任务预设模型的隐藏层输出之间的相似度。
可选地,相似度约束模块540进一步适于:
利用相似度与预设交叉熵损失函数得到主任务预设模型的损失函数;
将主任务预设模型的损失函数和辅任务预设模型的损失函数进行加权线性融合,得到主任务预设模型和辅任务预设模型的共同损失函数,基于共同损失函数训练调整主任务预设模型和辅任务预设模型,得到主任务预设模型的粗粒度情感分析的输出结果。
以上各模块的描述参照方法实施例中对应的描述,在此不再赘述。
本发明实施例还提供了一种非易失性计算机存储介质,计算机存储介质存储有至少一可执行指令,可执行指令可执行上述任意方法实施例中的面向图片文本的粗粒度情感分析方法。
图6示出了根据本发明实施例的一种计算设备的结构示意图,本发明实施例的具体实施例并不对计算设备的具体实现做限定。
如图6所示,该计算设备可以包括:处理器(processor)602、通信接口(Communications Interface)604、存储器(memory)606、以及通信总线608。
其特征在于:
处理器602、通信接口604、以及存储器606通过通信总线608完成相互间的通信。
通信接口604,用于与其它设备比如客户端或其它服务器等的网元通信。
处理器602,用于执行程序610,具体可以执行上述面向图片文本的粗粒度情感分析方法实施例中的相关步骤。
具体地,程序610可以包括程序代码,该程序代码包括计算机操作指令。
处理器602可能是中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路。计算设备包括的一个或多个处理器,可以是同一类型的处理器,如一个或多个CPU;也可以是不同类型的处理器,如一个或多个CPU以及一个或多个ASIC。
存储器606,用于存放程序610。存储器606可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
程序610具体可以用于使得处理器602执行上述任意方法实施例中的面向图片文本的粗粒度情感分析方法。程序610中各步骤的具体实现可以参见上述面向图片文本的粗粒度情感分析实施例中的相应步骤和单元中对应的描述,在此不赘述。所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的设备和模块的具体工作过程,可以参考前述方法实施例中的对应过程描述,在此不再赘述。
在此提供的算法或显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明实施例也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明实施例的内容,并且上面对特定语言所做的描述是为了披露本发明实施例的较佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本发明实施例并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明实施例的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明实施例要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其特征在于每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的一些或者全部部件的一些或者全部功能。本发明实施例还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明实施例的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明实施例进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明实施例可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。上述实施例中的步骤,除有特殊说明外,不应理解为对执行顺序的限定。
Claims (10)
1.一种面向图片文本的粗粒度情感分析方法,其特征在于,方法包括:
识别图片得到图片中的文本信息及文本结构化信息;
将预设标签信息与所述文本信息进行融合,分别输入至主任务预设模型和辅任务预设模型得到对应的主任务文本向量和辅任务文本向量;其中,所述预设标签信息包括情感分类标签以及情绪识别标签;所述主任务预设模型用于粗粒度情感分析;所述辅任务预设模型用于细粒度情感分析;
对所述文本结构化信息进行转换得到图片向量,并将所述图片向量与所述主任务文本向量拼接,得到主任务图片文本向量;
利用所述辅任务文本向量以及所述主任务图片文本向量,训练调整所述主任务预设模型,得到所述主任务预设模型的粗粒度情感分析的输出结果。
2.根据权利要求1所述的方法,其特征在于,所述文本结构化信息包括文本在图片中的位置信息、文本字体大小信息以及文本颜色信息中的至少一项;
所述识别图片得到图片中的文本结构化信息进一步包括以下至少一项:
检测图片中文本的位置,获取文本段落的坐标信息作为文本在图片中的位置信息;
根据所述文本段落的坐标信息,确定各个文字的坐标信息,并根据所述各个文字的坐标信息得到文本字体大小信息;
获取文本段落的色度和饱和度,计算每个文字与所述文本段落的色度和饱和度的方差作为文本颜色信息。
3.根据权利要求1所述的方法,其特征在于,所述将预设标签信息与所述文本信息进行融合,包括:
利用预设标点符号对所述文本信息进行文本扩充,得到文本扩充后的多个文本信息;
将所述预设标签信息与所述文本扩充后的多个文本信息进行融合。
4.根据权利要求3所述的方法,其特征在于,所述利用预设标点符号对所述文本信息进行文本扩充,得到文本扩充后的多个文本信息进一步包括:
利用预设标点符号随机插入至所述文本信息中,得到多个扩充文本信息;
计算所述多个扩充文本信息与所述文本信息的相似度;
根据相似度从高到低排序,获取排序在先的预设个数的扩充文本信息与所述文本信息合并,得到文本扩充后的多个文本信息。
5.根据权利要求1所述的方法,其特征在于,所述利用所述辅任务文本向量以及所述主任务图片文本向量,训练调整所述主任务预设模型,得到所述主任务预设模型的粗粒度情感分析的输出结果进一步包括:
基于所述辅任务文本向量以及所述主任务图片文本向量,确定所述主任务预设模型的隐藏层输出和所述辅任务预设模型的隐藏层输出,并计算所述主任务预设模型的隐藏层输出和所述辅任务预设模型的隐藏层输出之间的相似度;
利用所述相似度调整所述主任务预设模型的损失函数,并基于所述主任务预设模型的损失函数训练调整所述主任务预设模型,得到所述主任务预设模型的粗粒度情感分析的输出结果。
6.根据权利要求5所述的方法,其特征在于,所述基于所述辅任务文本向量以及所述主任务图片文本向量,确定所述主任务预设模型的隐藏层输出和所述辅任务预设模型的隐藏层输出,并计算所述主任务预设模型的隐藏层输出和所述辅任务预设模型的隐藏层输出之间的相似度进一步包括:
将所述主任务图片文本向量和所述辅任务文本向量进行向量连接处理,输入至所述主任务预设模型的隐藏层,得到所述主任务预设模型的隐藏层输出;
将所述辅任务文本向量输入至所述辅任务预设模型的隐藏层,得到所述辅任务预设模型的隐藏层输出;
利用余弦函数计算所述主任务预设模型的隐藏层输出和所述辅任务预设模型的隐藏层输出之间的相似度。
7.根据权利要求5所述的方法,其特征在于,所述利用所述相似度调整所述主任务预设模型的损失函数,并基于所述主任务预设模型的损失函数训练调整所述主任务预设模型,得到所述主任务预设模型的粗粒度情感分析的输出结果进一步包括:
利用所述相似度与预设交叉熵损失函数得到所述主任务预设模型的损失函数;
将所述主任务预设模型的损失函数和所述辅任务预设模型的损失函数进行加权线性融合,得到所述主任务预设模型和所述辅任务预设模型的共同损失函数;
基于所述共同损失函数训练调整所述主任务预设模型和所述辅任务预设模型,得到所述主任务预设模型的粗粒度情感分析的输出结果。
8.一种面向图片文本的粗粒度情感分析装置,特征在于,装置包括:
识别模块,适于识别图片得到图片中的文本信息及文本结构化信息;
融合模块,适于将预设标签信息与所述文本信息进行融合,分别输入至主任务预设模型和辅任务预设模型得到对应的主任务文本向量和辅任务文本向量;其中,所述预设标签信息包括情感分类标签以及情绪识别标签;所述主任务预设模型用于粗粒度情感分析;所述辅任务预设模型用于细粒度情感分析;
拼接模块,适于对所述文本结构化信息进行转换得到图片向量,并将所述图片向量与所述主任务文本向量拼接,得到主任务图片文本向量;
相似度约束模块,适于利用所述辅任务文本向量以及所述主任务图片文本向量,训练调整所述主任务预设模型,得到所述主任务预设模型的粗粒度情感分析的输出结果。
9.一种计算设备,其特征在于,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如权利要求1-7中任一项所述的面向图片文本的粗粒度情感分析方法对应的操作。
10.一种计算机存储介质,其特征在于,所述存储介质中存储有至少一可执行指令,所述可执行指令使处理器执行如权利要求1-7中任一项所述的面向图片文本的粗粒度情感分析方法对应的操作。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211392305.2A CN116263784A (zh) | 2022-11-08 | 2022-11-08 | 面向图片文本的粗粒度情感分析方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211392305.2A CN116263784A (zh) | 2022-11-08 | 2022-11-08 | 面向图片文本的粗粒度情感分析方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116263784A true CN116263784A (zh) | 2023-06-16 |
Family
ID=86722802
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211392305.2A Pending CN116263784A (zh) | 2022-11-08 | 2022-11-08 | 面向图片文本的粗粒度情感分析方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116263784A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116579301A (zh) * | 2023-07-14 | 2023-08-11 | 深圳须弥云图空间科技有限公司 | 文本数据增强方法及装置 |
-
2022
- 2022-11-08 CN CN202211392305.2A patent/CN116263784A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116579301A (zh) * | 2023-07-14 | 2023-08-11 | 深圳须弥云图空间科技有限公司 | 文本数据增强方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109086756B (zh) | 一种基于深度神经网络的文本检测分析方法、装置及设备 | |
CN110163478B (zh) | 一种合同条款的风险审查方法及装置 | |
CN111488931A (zh) | 文章质量评估方法、文章推荐方法及其对应的装置 | |
CN112598067A (zh) | 事件的情感分类方法、装置、电子设备及存储介质 | |
CN115917613A (zh) | 文档中文本的语义表示 | |
CN112650867A (zh) | 图片匹配方法、装置、电子设备以及存储介质 | |
CN116263784A (zh) | 面向图片文本的粗粒度情感分析方法及装置 | |
CN110991303A (zh) | 一种图像中文本定位方法、装置及电子设备 | |
CN113254814A (zh) | 网络课程视频打标签方法、装置、电子设备及介质 | |
US20200364034A1 (en) | System and Method for Automated Code Development and Construction | |
CN113342977A (zh) | 发票图像分类方法、装置、设备及存储介质 | |
CN112464927A (zh) | 一种信息提取方法、装置及系统 | |
CN115130437B (zh) | 一种文档智能填写方法、装置及存储介质 | |
CN115546815A (zh) | 一种表格识别方法、装置、设备及存储介质 | |
CN113111869B (zh) | 提取文字图片及其描述的方法和系统 | |
CN114943306A (zh) | 意图分类方法、装置、设备及存储介质 | |
CN110119694B (zh) | 一种图片处理方法、装置及计算机可读存储介质 | |
CN110866394A (zh) | 公司名称识别方法及装置、计算机设备及可读存储介质 | |
Iskandar | Manga Layout Analysis via Deep Learning | |
CN115114408B (zh) | 多模态情感分类方法、装置、设备及存储介质 | |
CN112001662B (zh) | 一种商户图像的风险检验方法、装置及设备 | |
CN111768261B (zh) | 一种展示信息确定方法、装置、设备及介质 | |
Asha et al. | Artificial Neural Networks based DIGI Writing | |
CN115114408A (zh) | 多模态情感分类方法、装置、设备及存储介质 | |
CN113885984A (zh) | 基于图像识别的操作指引生成方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |