CN116522932A - 一种文本分析方法及系统 - Google Patents
一种文本分析方法及系统 Download PDFInfo
- Publication number
- CN116522932A CN116522932A CN202310756292.0A CN202310756292A CN116522932A CN 116522932 A CN116522932 A CN 116522932A CN 202310756292 A CN202310756292 A CN 202310756292A CN 116522932 A CN116522932 A CN 116522932A
- Authority
- CN
- China
- Prior art keywords
- emotion
- text
- polarity
- population
- values
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 41
- 230000008451 emotion Effects 0.000 claims abstract description 289
- 238000000034 method Methods 0.000 claims abstract description 35
- 238000004364 calculation method Methods 0.000 claims abstract description 15
- 238000002372 labelling Methods 0.000 claims abstract description 5
- 230000035772 mutation Effects 0.000 claims description 15
- 238000012216 screening Methods 0.000 claims description 6
- 238000012935 Averaging Methods 0.000 claims description 5
- 210000000349 chromosome Anatomy 0.000 claims description 5
- 230000009193 crawling Effects 0.000 claims description 5
- 108090000623 proteins and genes Proteins 0.000 claims description 5
- 238000013507 mapping Methods 0.000 claims description 4
- 238000010276 construction Methods 0.000 claims description 3
- 238000012937 correction Methods 0.000 claims description 3
- 238000007405 data analysis Methods 0.000 claims description 3
- 238000010801 machine learning Methods 0.000 description 11
- 239000013598 vector Substances 0.000 description 7
- 238000012549 training Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 238000007781 pre-processing Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 239000003086 colorant Substances 0.000 description 2
- 238000007418 data mining Methods 0.000 description 2
- 230000001939 inductive effect Effects 0.000 description 2
- 230000015654 memory Effects 0.000 description 2
- 238000005065 mining Methods 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 230000007935 neutral effect Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000005215 recombination Methods 0.000 description 1
- 230000006798 recombination Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及情感分析技术领域,具体公开了一种文本分析方法,包括:从网络数据中获取若干样本文本,提取所述样本文本中的情感词,随机为每个所述情感词设定初始情感值,并将文本中所有情感词的情感值进行累加以得到该文本的情感极性,形成初始的情感词库;对样本文本进行情感趋向的人工标注,以得到文本的人工标注极性,将情感极性与人工标注极性进行比较,当两者不符时,对情感词库中的情感词对应的情感值进行修正,以得到修正后的情感词库;根据修正后的情感词库对所述网络数据进行情感极性计算。本发明能够得到具有高分类准确率的情感词库,从而得到较为准确的文本情感极性值。
Description
技术领域
本发明具体涉及涉及情感分析技术领域,具体是一种文本分析方法及系统。
背景技术
文本情感分析,又称意见挖掘,是指对带有情感色彩的主观性文本进行采集、处理、分析、归纳和推理的过程,涉及到人工智能、机器学习、数据挖掘等多个领域,是自然语言处理研究领域的一个重点方向。传统的情感分析方法主要是基于机器学习的情感分析方法。
基于机器学习的情感分析方法主要分为基于传统机器学习的情感分析方法和基于深度学习的情感分方法。基于传统机器学习的情感方法一般采用标准分类器以及这些分类器的组合或者改进,最常用的是支持向量机,这类分类器需要通过人工设计的特征进行训练。基于传统机器学习的方法相较于构建情感词典的方法虽然有了一定的进步,但是局限性也比较明显。基于传统机器学习的方法主要是依赖分类器,还是需要人工对文本特征进行标记,而且基于传统机器学习的方法是计算机根据已有程序对文本进行重复机械的操作,效率不高,无法适应大数据时代的要求。基于深度学习的情感分析方法主要是通过使用深度神经网络构建模型,使用大量数据训练模型,最后用训练好的模型对待分析的文本进行情感分析。基于深度学习的情感分析方法主要使用的网络模型有全连接神经网络、卷积神经网络、循环神经网络、长短时记忆网络等。这种方法在进行文本情感分析时不仅能自动提取文本特征,还能在训练和执行过程中自动学习并训练模型,与情感词典和传统机器学习模型相比,它的优越性显而易见。但是使用这些神经网络模型不可避免的使用到词向量嵌入技术,而目前的词向量主要是通过构建语言模型获得的,此类方法主要是基于分布假设进行训练的。分布假设认为上下文相似的词具有相似的语义,这样的假设有利于构建语言模型,但是对于情感分析来说,词向量的区分度不够明显。例如:“好”和“坏”是一对词性相反的词,但是基于分布假设的模型会认为这两个词常常出现在相似的位置,因此这两个词应该具有相似的词向量,这样的词向量对情感极性特征的表示显然是不够的,使用在情感处理任务中缺点明显。同时,CNN、RNN、LSTM等模型的特征抽取能力弱于基于注意力机制的Transformer模型。
卷积神经网络,长短期记忆网络、注意力机制等模型在自然语言领域得到了广泛研究与应用,其中也包含了在文本情感分析领域的应用,这些方法可以自主学习文本信息高维度的、深层次的情感特征信息,可以进一步提高分析的准确度,但是这些方法会存在语义角色重叠、高维度文本词向量训练中难以收敛的问题,并且由于情感词的判断需要代入到具体场景中才能准确识别寓意,传统的模型仅仅关注情感词本身,无法关注到识别的文本,因此导致识别准确率不高。
发明内容
本发明的目的在于提供一种文本分析方法及系统,以解决上述背景技术中提出的存在语义角色重叠、高维度文本词向量训练中难以收敛,准确率不高等问题。
为实现上述目的,本发明提供如下技术方案:
一种文本分析方法,包括以下步骤:
S10、从网络数据中获取若干样本文本,提取所述样本文本中的情感词,随机为每个所述情感词设定初始情感值,并将文本中所有情感词的情感值进行累加以得到该文本的情感极性,形成初始的情感词库;
S20、对样本文本进行情感趋向的人工标注,以得到文本的人工标注极性,将情感极性与人工标注极性进行比较,当两者不符时,对情感词库中的情感词对应的情感值进行修正,以得到修正后的情感词库;
S30、根据修正后的情感词库对所述网络数据进行情感极性计算。
在一个具体实施方式中,所述样本文本为根据待研判的关键词得到的特定领域的文本数据。
在一个具体实施方式中,从网络数据中获取样本文本的方式为通过爬虫软件爬取网络数据中的文本,在爬取网络数据过程中,按照关键词进行筛选,以得到特定领域的文本数据。
在一个具体实施方式中,按照关键词进行筛选的方法,包括以下步骤:
S11、获取用户输入的目标关键词数据;
S12、判断所述目标关键词数据中是否包含预设数量的第一目标地址信息;
S13、确定所述目标关键词数据的着陆页,所述目标关键词数据的着陆页包括与目标关键词数据相匹配的特定领域的文本数据。
在一个具体实施方式中,文本的情感极性的计算公式为:
,
其中:表示文本的情感极性,若/>大于0,则表示/>为正向情感文本,反之则为负向情感文本,/>表示文本中包含的情感词的总数;/>表示文本中第/>个情感词的情感值。
在一个具体实施方式中,步骤S20中,对情感词库进行修正的方法,包括以下步骤:
S21、按照种群编码规则对若干样本文本进行编码得到原始种群,所述编码规则为:按照情感词出现的顺序对每个样本文本对应的情感词库进行编码,将每个编码后的情感词库视为种群中的一个个体,相应的,情感词库中的每个情感词均被映射为个体中的基因;
S22、对所述原始种群中的每个个体进行变异操作,将所述原始种群和变异后的种群进行混合,形成初始种群;
S23、计算所述初始种群中每个个体的适应度值,将适应度较高的预设数量的个体进行保留作为父代种群;
S24、随机从父代种群中选择两个个体进行染色体交叉操作,产生对应的子代个体,并将子代个体进行变异操作后与未变异的子代个体进行混合形成子代种群;
S25、循环执行步骤S23-S24,直到确保预设数量的个体的情感极性均与工标注极性符合时,将该预设数量的个体中具有相同情感词的情感值进行求平均得到修正情感值,以得到修正后的情感词库。
在一个具体实施方式中,所述步骤S24之前还包括,将适应度值最高的个体不进行变异操作。
在一个具体实施方式中,计算个体的适应度值的方法为:
,
其中,表示利用种群中的个体对第/>条文本进行预测时的准确度,/>表示惩罚系数,若文本分类正确,则情感词库对应个体的适应度值加1,否则,适应度值减去一个惩罚值。
在一个具体实施方式中,步骤S30中,根据修正后的情感词库对所述网络数据进行情感极性计算包括以下步骤:
S31、获取网络数据中所有文本的情感极性值;
S32、计算所有文本的情感极性值的平均值;
S33、判断情感极性值的平均值是否大于0,若是,该情感为积极,否则为消极。
本发明同时提供一种文本分析系统,包括:
词库构建模块,用于从网络数据中获取若干样本文本,提取所述样本文本中的情感词,随机为每个所述情感词设定初始情感值,并将文本中所有情感词的情感值进行累加以得到该文本的情感极性,形成初始的情感词库;
修正模块,用于对样本文本进行情感趋向的人工标注,以得到文本的人工标注极性,将情感极性与人工标注极性进行比较,当两者不符时,对情感词库中的情感词对应的情感值进行修正,以得到修正后的情感词库;
数据分析模块,用于根据修正后的情感词库对所述网络数据进行情感极性计算。
与现有技术相比,本发明的有益效果是:本发明通过提取网络数据的文本情感词,利用情感词构建情感词库和计算文本的情感极性,并将计算结果进行修正,以得到具有高分类准确率的情感词库,从而得到较为准确的文本情感极性值。
附图说明
图1为本发明的文本分析方法的流程图。
图2为本发明的文本分析系统的结构框图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
需要说明的是,下文描述在所附权利要求书的范围内的实施例的各种方面。应显而易见,本文中所描述的方面可体现于广泛多种形式中,且本文中所描述的任何特定结构及/或功能仅为说明性的。基于本公开,所属领域的技术人员应了解,本文中所描述的一个方面可与任何其它方面独立地实施,且可以各种方式组合这些方面中的两者或两者以上。举例来说,可使用本文中所阐述的任何数目个方面来实施设备及/或实践方法。另外,可使用除了本文中所阐述的方面中的一或多者之外的其它结构及/或功能性实施此设备及/或实践此方法。
应当理解,尽管在本发明实施例中可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。
文本情感分析,又称意见挖掘,是指对带有情感色彩的主观性文本进行采集、处理、分析、归纳和推理的过程,涉及到人工智能、机器学习、数据挖掘等多个领域,是自然语言处理研究领域的一个重点方向。传统的情感分析方法主要分为基于情感词典的情感分析方法和基于机器学习的情感分析方法。
基于情感词典的情感分析方法基本原理是:①根据经验将广泛使用的情感词进行归纳整理,将这些情感词以及对应的词性(如积极(positive)和消极(negative))或词性打分(如0表示中性,打分负数表示消极,打分正数表示积极,打分越高,词性越强)整合为情感词典;②待处理文本输入后与词典内容进行匹配,寻找文本中与情感词典中重合的情感词,通过极性统计、打分加权等方法判断文本的情感极性。但是情感词典中的情感词覆盖率较低,无法结合语境、语义,也无法识别同义词、近义词等,主要依赖人工统计文本中情感词出现的次数和打分,非常耗时耗力,而且人工打分的个人倾向对情感分析效果的影响很大。
卷积神经网络,长短期记忆网络、注意力机制等模型在自然语言领域得到了广泛研究与应用,其中也包含了在文本情感分析领域的应用,这些方法可以自主学习文本信息高维度的、深层次的情感特征信息,可以进一步提高分析的准确度,但是这些方法会存在语义角色重叠、高维度文本词向量训练中难以收敛,准确率不高等问题。
基于此,请参阅图1,本发明实施例中,一种文本分析方法,包括以下步骤:
S10、从网络数据中获取若干样本文本,提取所述样本文本中的情感词,随机为每个所述情感词设定初始情感值,并将文本中所有情感词的情感值进行累加以得到该文本的情感极性,形成初始的情感词库,其中,采取随机方式生成的初始情感值表示一种情感趋向,本实施例中,初始情感值为-10到10之间的整数,正值表示正向的情感趋向,负值则表示负向的情感趋向,10和-10分别代表了最高的正向和负向情感倾向;
在本发明实施例步骤S10中,所述文本包括内网民发布或主流媒体发布的关于评论的文章、话题、发帖等内容;
进一步的,步骤S10中,还包括有对文本进行预处理步骤,所述预处理步骤为:将所述文本进行数据清洗和数据整理,以对文本进行重新审查和校验,删除文本中的重复信息以及纠正文本中存在的错误,使文本保持一致性;
再进一步的,步骤S10中,从网络数据中获取文本的方式为通过爬虫软件爬取网络数据中的文本,在爬取网络数据过程中,按照关键词进行筛选,以得到特定领域的文本数据,其中,按照关键词进行筛选的方法,包括以下步骤:
S11、获取用户输入的目标关键词数据;
S12、判断所述目标关键词数据中是否包含预设数量的第一目标地址信息;
当所述目标关键词数据中包含所述预设数量的第一目标地址信息时,判断所述预设数量的第一目标地址信息是否对应有目标关联参数;
当所述预设数量的第一目标地址信息对应有所述目标关联参数时,将所述预设数量的第一目标地址信息转换为第二目标地址信息;
S13、将所述第二目标地址信息嵌入到查询URL中,将嵌入所述第二目标地址信息的查询URL所对应的页面确定为所述目标关键词数据的着陆页,所述目标关键词数据的着陆页包括与目标关键词数据相匹配的特定领域的文本数据。
还有,在本发明实施例步骤S10中,提取文本中的情感词的方式为:提取文字数据中出现超过预设频率的词作为情感词;
S20、对样本文本进行情感趋向的人工标注,以得到文本的人工标注极性,将情感极性与人工标注极性进行比较,当两者不符时,对情感词库中的情感词对应的情感值进行修正,以得到修正后的情感词库,文本的情感极性的具体计算公式为:
,
其中:表示文本的情感极性,若/>大于0,则表示/>为正向情感文本,反之则为负向情感文本,/>表示文本中包含的情感词的总数;/>表示文本中第/>个情感词的情感值。
需要说明的是,在本发明实施例步骤S20中,对情感词库进行修正的方法,包括以下步骤:
S21、按照种群编码规则对若干样本文本进行编码得到原始种群,所述编码规则为:按照情感词出现的顺序对每个样本文本对应的情感词库进行编码,将每个编码后的情感词库视为种群中的一个个体,相应的,情感词库中的每个情感词均被映射为个体中的基因;
S22、对所述原始种群中的每个个体进行变异操作,将所述原始种群和变异后的种群进行混合,形成初始种群;需要说明的是,本实施例的变异操作是对映射为基因的每个情感词的情感值进行操作,使其在每个文本中具有不同的情感值。由于同一情感词在不同的语境中可能会被解读为不同的含义,因此其情感可能就是消极的也可能是积极的,并且也会反应不同的程度。本实施例通过变异操作,使得在利用遗传算法进行计算时,能够考虑到每一种情况,从而在最终确定情感值时较为客观。
S23、计算所述初始种群中每个个体的适应度值,将适应度较高的预设数量的个体进行保留作为父代种群;
S24、随机从父代种群中选择两个个体进行染色体交叉操作,产生对应的子代个体,并将子代个体进行变异操作后与未变异的子代个体进行混合形成子代种群;考虑到情感词在同一语境下的唯一性,本实施例在生成子代时,染色体在重组时只进行交叉操作,不进行变异操作,能够有意识的保留可能存在的最优结果。优选的,将适应度值最高的个体不进行变异操作。
而后通过对子代的变异操作使得在不影响最优结果的前提下,进一步进行语境扩充。
S25、循环执行步骤S23-S24,直到确保预设数量的个体的情感极性均与工标注极性符合时,将该预设数量的个体中具有相同情感词的情感值进行求平均得到修正情感值,以得到修正后的情感词库。由于最终得到的个体并不唯一,并且情感值的数值也并不唯一,因此通过求平均的手段能够综合考虑各个语境下的情感值,从而给出中性的结果。
进一步的,计算个体的适应度值的方法为:
,
其中,表示利用种群中的个体对第/>条文本进行预测时的准确度,/>表示惩罚系数,若文本分类正确,则情感词库对应个体的适应度值加1,否则,适应度值减去一个惩罚值。
S30、根据修正后的情感词库对所述网络数据进行情感极性计算。
根据修正后的情感词库对所述网络数据进行情感极性计算包括以下步骤:
S31、获取网络数据中所有文本的情感极性值;
S32、计算所有文本的情感极性值的平均值;
S33、判断情感极性值的平均值是否大于0,若是,该情感为积极,否则为消极。
参见图2,本发明还公开了一种文本分析系统,包括:
词库构建模块100,用于从网络数据中获取若干样本文本,提取所述样本文本中的情感词,随机为每个所述情感词设定初始情感值,并将文本中所有情感词的情感值进行累加以得到该文本的情感极性,形成初始的情感词库;
修正模块200,用于对样本文本进行情感趋向的人工标注,以得到文本的人工标注极性,将情感极性与人工标注极性进行比较,当两者不符时,对情感词库中的情感词对应的情感值进行修正,以得到修正后的情感词库;
数据分析模块300,用于根据修正后的情感词库对所述网络数据进行情感极性计算。
综上所述,本发明通过提取网络数据的文本情感词,利用情感词构建情感词库和计算文本的情感极性,并将计算结果进行修正,以得到具有高分类准确率的情感词库,从而得到较为准确的文本情感极性值。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。
此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。
Claims (7)
1.一种文本分析方法,其特征在于,包括以下步骤:
S10、从网络数据中获取若干样本文本,提取所述样本文本中的情感词,随机为每个所述情感词设定初始情感值,并将文本中所有情感词的情感值进行累加以得到该文本的情感极性,形成初始的情感词库;
S20、对样本文本进行情感趋向的人工标注,以得到文本的人工标注极性,将情感极性与人工标注极性进行比较,当两者不符时,对情感词库中的情感词对应的情感值进行修正,以得到修正后的情感词库;
S30、根据修正后的情感词库对所述网络数据进行情感极性计算;
步骤S20中,对情感词库进行修正的方法,包括以下步骤:
S21、按照种群编码规则对若干样本文本进行编码得到原始种群,所述编码规则为:按照情感词出现的顺序对每个样本文本对应的情感词库进行编码,将每个编码后的情感词库视为种群中的一个个体,相应的,情感词库中的每个情感词均被映射为个体中的基因;
S22、对所述原始种群中的每个个体进行变异操作,将所述原始种群和变异后的种群进行混合,形成初始种群;
S23、计算所述初始种群中每个个体的适应度值,将适应度较高的预设数量的个体进行保留作为父代种群;
S24、随机从父代种群中选择两个个体进行染色体交叉操作,产生对应的子代个体,并将子代个体进行变异操作后与未变异的子代个体进行混合形成子代种群;
S25、循环执行步骤S23-S24,直到确保预设数量的个体的情感极性均与工标注极性符合时,将该预设数量的个体中具有相同情感词的情感值进行求平均得到修正情感值,以得到修正后的情感词库;
步骤S30中,根据修正后的情感词库对所述网络数据进行情感极性计算包括以下步骤:
S31、获取网络数据中所有文本的情感极性值;
S32、计算所有文本的情感极性值的平均值;
S33、判断情感极性值的平均值是否大于0,若是,该情感为积极,否则为消极;
文本的情感极性的计算公式为:
,
其中:表示文本的情感极性,若/>大于0,则表示/>为正向情感文本,反之则为负向情感文本,/>表示文本中包含的情感词的总数;/>表示文本中第/>个情感词的情感值。
2.根据权利要求1所述的文本分析方法,其特征在于,所述样本文本为根据待研判的关键词得到的特定领域的文本数据。
3.根据权利要求2所述的文本分析方法,其特征在于,从网络数据中获取样本文本的方式为通过爬虫软件爬取网络数据中的文本,在爬取网络数据过程中,按照关键词进行筛选,以得到特定领域的文本数据。
4.根据权利要求3所述的文本分析方法,其特征在于,按照关键词进行筛选的方法,包括以下步骤:
S11、获取用户输入的目标关键词数据;
S12、判断所述目标关键词数据中是否包含预设数量的第一目标地址信息;
S13、确定所述目标关键词数据的着陆页,所述目标关键词数据的着陆页包括与目标关键词数据相匹配的特定领域的文本数据。
5.根据权利要求1所述的文本分析方法,其特征在于,所述步骤S24之前还包括,将适应度值最高的个体不进行变异操作。
6.根据权利要求1所述的文本分析方法,其特征在于,计算个体的适应度值的方法为:
,
其中,表示利用种群中的个体对第/>条文本进行预测时的准确度,/>表示惩罚系数,若文本分类正确,则情感词库对应个体的适应度值加1,否则,适应度值减去一个惩罚值/>。
7.一种文本分析系统,其特征在于,包括:
词库构建模块,用于从网络数据中获取若干样本文本,提取所述样本文本中的情感词,随机为每个所述情感词设定初始情感值,并将文本中所有情感词的情感值进行累加以得到该文本的情感极性,形成初始的情感词库;
修正模块,用于对样本文本进行情感趋向的人工标注,以得到文本的人工标注极性,将情感极性与人工标注极性进行比较,当两者不符时,对情感词库中的情感词对应的情感值进行修正,以得到修正后的情感词库;
数据分析模块,用于根据修正后的情感词库对所述网络数据进行情感极性计算;
对情感词库进行修正的方法,包括以下步骤:
S21、按照种群编码规则对若干样本文本进行编码得到原始种群,所述编码规则为:按照情感词出现的顺序对每个样本文本对应的情感词库进行编码,将每个编码后的情感词库视为种群中的一个个体,相应的,情感词库中的每个情感词均被映射为个体中的基因;
S22、对所述原始种群中的每个个体进行变异操作,将所述原始种群和变异后的种群进行混合,形成初始种群;
S23、计算所述初始种群中每个个体的适应度值,将适应度较高的预设数量的个体进行保留作为父代种群;
S24、随机从父代种群中选择两个个体进行染色体交叉操作,产生对应的子代个体,并将子代个体进行变异操作后与未变异的子代个体进行混合形成子代种群;
S25、循环执行步骤S23-S24,直到确保预设数量的个体的情感极性均与工标注极性符合时,将该预设数量的个体中具有相同情感词的情感值进行求平均得到修正情感值,以得到修正后的情感词库;
根据修正后的情感词库对所述网络数据进行情感极性计算包括以下步骤:
S31、获取网络数据中所有文本的情感极性值;
S32、计算所有文本的情感极性值的平均值;
S33、判断情感极性值的平均值是否大于0,若是,该情感为积极,否则为消极;
文本的情感极性的计算公式为:
,
其中:表示文本的情感极性,若/>大于0,则表示/>为正向情感文本,反之则为负向情感文本,/>表示文本中包含的情感词的总数;/>表示文本中第/>个情感词的情感值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310756292.0A CN116522932B (zh) | 2023-06-26 | 2023-06-26 | 一种文本分析方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310756292.0A CN116522932B (zh) | 2023-06-26 | 2023-06-26 | 一种文本分析方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116522932A true CN116522932A (zh) | 2023-08-01 |
CN116522932B CN116522932B (zh) | 2023-09-19 |
Family
ID=87401478
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310756292.0A Active CN116522932B (zh) | 2023-06-26 | 2023-06-26 | 一种文本分析方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116522932B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108460009A (zh) * | 2017-12-14 | 2018-08-28 | 中山大学 | 嵌入情感词典的注意力机制循环神经网络文本情感分析法 |
CN111353313A (zh) * | 2020-02-25 | 2020-06-30 | 四川翼飞视科技有限公司 | 基于进化神经网络架构搜索的情感分析模型构建方法 |
WO2021051598A1 (zh) * | 2019-09-19 | 2021-03-25 | 平安科技(深圳)有限公司 | 文本情感分析模型训练方法、装置、设备及可读存储介质 |
CN113781232A (zh) * | 2021-07-12 | 2021-12-10 | 杭州电子科技大学 | 一种基于遗传算法的智能多因子投资方法 |
-
2023
- 2023-06-26 CN CN202310756292.0A patent/CN116522932B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108460009A (zh) * | 2017-12-14 | 2018-08-28 | 中山大学 | 嵌入情感词典的注意力机制循环神经网络文本情感分析法 |
WO2021051598A1 (zh) * | 2019-09-19 | 2021-03-25 | 平安科技(深圳)有限公司 | 文本情感分析模型训练方法、装置、设备及可读存储介质 |
CN111353313A (zh) * | 2020-02-25 | 2020-06-30 | 四川翼飞视科技有限公司 | 基于进化神经网络架构搜索的情感分析模型构建方法 |
CN113781232A (zh) * | 2021-07-12 | 2021-12-10 | 杭州电子科技大学 | 一种基于遗传算法的智能多因子投资方法 |
Non-Patent Citations (5)
Title |
---|
冀俊忠;张玲玲;吴晨生;吴金源;: "基于知识语义权重特征的朴素贝叶斯情感分类算法", 北京工业大学学报, no. 12 * |
年梅;刘若兰;玛尔哈巴・艾赛提;范祖奎;: "加权维吾尔语句子倾向性分析", 计算机系统应用, no. 07 * |
李长荣;纪雪梅;: "面向突发公共事件网络舆情分析的领域情感词典构建研究", 数字图书馆论坛, no. 09 * |
王立志;慕晓冬;刘宏岚;: "采用改进粒子群优化的SVM方法实现中文文本情感分类", 计算机科学, no. 01 * |
谢松县;赵舒怡;: "一种基于混合特征的中文情感词典扩展方法", 计算机工程与科学, no. 07 * |
Also Published As
Publication number | Publication date |
---|---|
CN116522932B (zh) | 2023-09-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110298037B (zh) | 基于增强注意力机制的卷积神经网络匹配的文本识别方法 | |
CN109635108B (zh) | 一种基于人机交互的远程监督实体关系抽取方法 | |
CN110532379B (zh) | 一种基于lstm的用户评论情感分析的电子资讯推荐方法 | |
CN111198964B (zh) | 图像检索方法及系统 | |
CN103559504A (zh) | 图像目标类别识别方法及装置 | |
CN111931505A (zh) | 一种基于子图嵌入的跨语言实体对齐方法 | |
CN110309300B (zh) | 一种识别理科试题知识点的方法 | |
CN110782892B (zh) | 语音文本纠错方法 | |
CN112507711A (zh) | 文本摘要抽取方法及系统 | |
CN110825850B (zh) | 一种自然语言主题分类方法及装置 | |
CN113505200B (zh) | 一种结合文档关键信息的句子级中文事件检测的方法 | |
CN112395393A (zh) | 一种基于多任务多示例的远程监督关系抽取方法 | |
CN112905736A (zh) | 一种基于量子理论的无监督文本情感分析方法 | |
CN114022687B (zh) | 一种基于增强学习的图像描述对抗生成方法 | |
CN115391570A (zh) | 一种基于方面的情感知识图谱构建方法及装置 | |
CN111274494A (zh) | 结合深度学习和协同过滤技术的复合标签推荐方法 | |
CN110796260A (zh) | 一种基于类扩张学习的神经网络模型优化方法 | |
CN113569118A (zh) | 自媒体推送方法、装置、计算机设备及存储介质 | |
CN116522932B (zh) | 一种文本分析方法及系统 | |
CN111666375A (zh) | 文本相似度的匹配方法、电子设备和计算机可读介质 | |
CN112434512A (zh) | 一种结合上下文语境的新词确定方法及装置 | |
CN113392334B (zh) | 冷启动环境下的虚假评论检测方法 | |
CN112749530B (zh) | 文本编码方法、装置、设备及计算机可读存储介质 | |
CN108304366B (zh) | 一种上位词检测方法及设备 | |
CN113268657B (zh) | 基于评论和物品描述的深度学习推荐方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |