CN114912458A - 一种情感分析方法、装置和计算机可读介质 - Google Patents
一种情感分析方法、装置和计算机可读介质 Download PDFInfo
- Publication number
- CN114912458A CN114912458A CN202110172800.1A CN202110172800A CN114912458A CN 114912458 A CN114912458 A CN 114912458A CN 202110172800 A CN202110172800 A CN 202110172800A CN 114912458 A CN114912458 A CN 114912458A
- Authority
- CN
- China
- Prior art keywords
- text
- emotion
- word vectors
- word
- vectors
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- Animal Behavior & Ethology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例涉及语义分析技术,尤其涉及一种情感分析方法、装置和计算机可读介质。本发明实施例提供的模型生成方法生成的模型可用于一个特定领域的情感分析,其中,生成用于训练的特定领域的各段文本的各组第一词向量,生成特定领域的知识图谱的各组第二词向量,对于每一段文本生成包括在该段文本中的部分知识图谱的各组第三词向量,以一段第一文本的一组第一词向量和一组第三词向量作为输入,以包括该组第二词向量和该组第二词向量对应的各个所述情感因子向量在内的各向量所形成的空间作为输出,以使得所述模型用于表示所述特定领域的文本中包括的各个词向量与该组第二词向量之间的映射关系。
Description
技术领域
本发明实施例涉及语义分析技术领域,尤其涉及一种情感分析方法、装置和计算机可读介质。
背景技术
文本的语义分析通常包括两类:基于词典和规则的语义分析和基于词向量的语义分析。
基于词典和规则的语义分析依赖于词典和设置的规则。通常,用于进行语义分析的词典有三类:肯定的、中性的和否定的。首先,待分析的文本会被分段和清理;然后,得到的多个词语与词典里的词语匹配,通过计算匹配的数量来确定文本的情感极性。整个过程中,可以通过设置规则以提高准确度。
而基于词向量的情感分析将文本转化为向量矩阵,这样,在分析时就可以应用各种机器学习和深度学习的方法。分析过程中也可结合词典。类似地,首先,待分析的文本会被分段和清理;然后,分段和清理后的文本会按照词向量转换的方法转换为矩阵。词向量转换的质量直接影响后续的机器学习分类器的准确性,因此,词向量转换方法的选择就至关重要。通常采用的词向量转换方法包括:词频-反向文档频率(Term Frequency-InverseDocument Frequency,TF-IDF)、词语包(bag-of-word)、词到向量(word2vec)等等。其中,TF-IDF是比较容易实现且应用最广泛的;word2vec算法比较复杂但结果最好。上述无论哪一种方法,都极大地依赖于文本数据库,文本数据库的质量越好,词向量转换的结果就越好。而对于分类器的选择,通常采用机器学习的分类算法,具有训练时间短、准确性高的优点。相比之下,深度学习的算法训练时间较长且算法复杂度高,不如机器学习应用广泛。
无论是基于词典的情感分析还是基于词向量的情感分析,文本数据库的选择都是至关重要的一步。但现有的情感分析算法所使用的文本数据库绝大多数都是通用目的的数据集。比如:一些与漏洞相关的文章中经常出现的词“漏子(loophole)”、“攻击(attacks)”、“严重的(severe)”等很容易被判定为否定的。因此,当在一个特定的场景下使用通用的数据集可能会导致语义分析结果错误。
发明内容
本发明实施例提供一种情感分析方法、装置和计算机可读介质,用于进行某一特定领域(比如:网络安全)的文本的情感分析。其中,将用于表示该特定领域知识的知识图谱引入情感分析过程中,为知识图谱中的每一个节点和边赋予情感因子向量,用于表示该节点或边所对应的词的情感极性。这样可有效地约束情感分析的过程,避免分析结果的错误。
第一方面,提供一种模型生成方法,可生成用于特定领域情感分析的模型。其中,获取一个特定领域的复数段第一文本;生成获取的每一段第一文本的一组第一词向量;获取所述特定领域的知识图谱,其中,所述知识图谱中的每一个节点和每一条边分别具有一个情感因子向量,用于表示该节点或边所代表的词在所述特定领域的情感极性;基于所述知识图谱生成一组第二词向量,其中,所述知识图谱的每一个节点和每一条边分别对应一个第二词向量;对于获取的每一段第一文本基于所述知识图谱中包括在该段文本中的部分知识图谱生成一组第三词向量,其中,所述部分知识图谱中的每一个节点和每一条边对应一个第三词向量;以各组第一训练数据训练模型,其中,一组第一训练数据以一段第一文本的一组第一词向量和一组第三词向量作为输入,以包括所述组第二词向量和所述组第二词向量对应的各个所述情感因子向量在内的各向量所形成的空间作为输出,以使得所述模型用于表示所述特定领域的文本中包括的各个词向量与该组第二词向量之间的映射关系。
第二方面,提供一种模型生成装置,包括用于执行第一方面提供的方法中各步骤的模块。
第三方面,提供一种情感分析方法,用于进行特定领域的情感分析。其中,获取一段第三文本;生成所述第三文本的一组第五词向量;将所述组第五词向量输入一个模型,其中,所述模型用于表示所述特定领域的文本中包括的各个词向量与一组第二词向量之间的映射关系,所述组第二词向量是基于所述特定领域的知识图谱生成的,所述知识图谱的每一个节点和每一条边分别对应一个所述第二词向量,并且分别具有一个情感因子向量,用于表示该节点或边所代表的词在所述特定领域的情感极性;将所述组第五词向量和所述模型的输出作为一个分类器的输入,得到所述第三文本的情感极性,其中,所述分类器用于对一段文本进行情感分析以得到该段文本的情感极性。
第四方面,提供一种情感分析装置,包括用于执行第三方面提供的方法中各步骤的模块。
第五方面,提供一种模型生成装置,包括:至少一个存储器,被配置为存储计算机可读代码;至少一个处理器,被配置为调用所述计算机可读代码,执行第一方面所提供的步骤。、
第六方面,提供一种情感分析装置,包括:至少一个存储器,被配置为存储计算机可读代码;至少一个处理器,被配置为调用所述计算机可读代码,执行第三方面所提供的步骤。
第七方面,一种计算机可读介质,所述计算机可读介质上存储有计算机可读指令,所述计算机可读指令在被处理器执行时,使所述处理器执行第一方面或第三方面所提供的步骤。
采用本发明实施例,将特定领域(比如:网络安全)的知识图谱引入情感分析过程,通过为知识图谱中的节点和边设置情感因子向量来表示节点和边对应的词所具有的情感极性。这样在这些特定领域的文章、文本中,那些在通常情况下会被认定是具有否定的情感极性的而在该特定领域实际为中性的词就能够得到比较准确的情感分析结果。比如:漏洞、攻击、严重等词在网络安全中应当被认定为具有中性的情感极性。通过为知识图谱的边和节点增加情感因子向量,这些节点或边所代表的词的情感特征就能被更好地提炼出来,被分析的文本也能得到更准确的映射,为后续的情感分析中的分类过程创造了方便条件。通过将待分析的文本进行词向量的转换后输入上述模型,可将特定领域的知识加入到模型输出的词向量中,进一步再输入分类器,可得到较准确的分类结果。
对于上述任一方面,可选地,可以各组第二训练数据训练分类器,其中,以各组第二训练数据训练一个分类器,其中,一组第二训练数据以一段第一文本的所述组第一词向量作为输入,以包括所述组第二词向量和所述组第二词向量对应的各个所述情感因子向量在内的向量所形成的空间作为输入,以该段第一文本的情感极性作为输出,其中,所述分类器用于对一段文本进行情感分析以得到该段文本的情感极性。这样,可使得分类器学习到知识图谱中所包含的特定领域的信息并按照情感因子向量确定情感极性,这样进行情感分析的结果更准确。
对于上述任一方面,可选地,可通过如下方式更新知识图谱:获取一段第二文本;获取所述第二文本的三元组信息;生成所述第二文本的一组第四词向量;将所述组第四词向量输入所述模型;将所述组第四词向量和所述模型的输出作为所述分类器的输入,得到所述第二文本的情感极性;将所述第二文本的所述三元组信息加入到所述知识图谱中,其中,以所述第二文本的情感极性所对应的预先配置的系数作为所述三元组信息所对应的知识图谱中的节点或边的情感因子向量,其中,所述分类器的每一个情感极性被预先配置一个系数,其中,系数越大,情感极性越积极,系数越小,情感极性越消极。其中,由文本中识别出三元组信息并将其加入知识图谱中,并识别文本的情感极性,据此来更新知识图谱中的节点和边的情感因子向量。这种多维度的更新可帮助知识图谱在诸多方面得到扩展和补充,比如知识图谱的覆盖范围、元素之间的关系、情感因子向量的特征等等。另一方面,可在知识图谱中加入新的内容。知识图谱中已有元素的情感因子向量也能够得到更新。使得知识图谱可以更好地用于后续的情感分析,分析结果也更准确。
对于上述任一方面,可选地,可通过如下方式确定一段文本(第三文本)的情感极性,其中,获取一段第三文本;生成所述第三文本的一组第五词向量;将所述组第五词向量输入一个模型,其中,所述模型用于表示所述特定领域的文本中包括的各个词向量与一组第二词向量之间的映射关系,所述组第二词向量是基于所述特定领域的知识图谱生成的,所述知识图谱的每一个节点和每一条边分别对应一个所述第二词向量,并且分别具有一个情感因子向量,用于表示该节点或边所代表的词在所述特定领域的情感极性;将所述组第五词向量和所述模型的输出作为一个分类器的输入,得到所述第三文本的情感极性,其中,所述分类器用于对一段文本进行情感分析以得到该段文本的情感极性。
附图说明
图1为本发明实施例提供的模型生成装置的结构示意图。
图2为本发明实施例中特定领域的知识图谱的示意图。
图3为本发明实施例中添加了情感因子向量的知识图谱的示意图。
图4示出了本发明实施例中模型的训练过程。
图5示出了本发明实施例中分类器的训练过程。
图6示出了本发明实施例中知识图谱更新的过程。
图7示出了本发明实施例提供的模型生成方法的流程图。
图8示出了本发明实施例提供的情感分析装置的结构示意图。
图9示出了本发明实施例中对文本进行情感分析的过程。
图10为本发明实施例提供的情感分析方法的流程图。
附图标记列表:
10:模型生成装置 1001:存储器
1002:处理器 1003:通信模块
101:模型生成程序 1011~1018:模型生成程序中的程序模块
1011:文本获取模块 1012:词向量生成模块
1013:知识图谱获取模块 1014:模型训练模块
1015:分类器训练模块 1016:识别模块
1017:执行模块 1018:知识图谱更新模块
20:特定领域的知识图谱 20’:添加了情感因子向量的特定领域的知识图谱
E1~E11:为知识图谱中的元素(包括边和节点)
21:部分知识图谱 31:第一文本 32:第二文本 33:第三文本
41:第一词向量 42:第二词向量 43:第三词向量 44:第四词向量
45:第五词向量 51:模型 52:分类器 60:情感极性 70:三元组信息
23:更新后的知识图谱
700:模型生成方法 S701~S713:方法步骤
80:情感分析装置 8001:存储器
8002:处理器 8003:通信模块
801:情感分析程序 8011~8013:情感分析程序中的程序模块
8011:文本获取模块 8012:词向量生成模块 8013:执行模块
1000:情感分析方法 S1001~S1004:方法步骤
具体实施方式
现在将参考示例实施方式讨论本文描述的主题。应该理解,讨论这些实施方式只是为了使得本领域技术人员能够更好地理解从而实现本文描述的主题,并非是对权利要求书中所阐述的保护范围、适用性或者示例的限制。可以在不脱离本发明实施例内容的保护范围的情况下,对所讨论的元素的功能和排列进行改变。各个示例可以根据需要,省略、替代或者添加各种过程或组件。例如,所描述的方法可以按照与所描述的顺序不同的顺序来执行,以及各个步骤可以被添加、省略或者组合。另外,相对一些示例所描述的特征在其它例子中也可以进行组合。
如本文中使用的,术语“包括”及其变型表示开放的术语,含义是“包括但不限于”。术语“基于”表示“至少部分地基于”。术语“一个实施例”和“一实施例”表示“至少一个实施例”。术语“另一个实施例”表示“至少一个其他实施例”。术语“第一”、“第二”等可以指代不同的或相同的对象。下面可以包括其他的定义,无论是明确的还是隐含的。除非上下文中明确地指明,否则一个术语的定义在整个说明书中是一致的。
下面,结合附图对本发明实施例进行详细说明。需要说明的是,这些实施例仅为示例,不应视为对本发明保护范围的限制。
如前所述,绝大多数的情感分析工具和词典都是通用的,应用于特定领域的情感分析时可能会造成分析结果的错误。比如:在网络安全领域,描述网络漏洞的文本中通常包括许多在常规意义上是否定的词语,如果不经过特殊的处理,很容易导致分析结果错误。本发明实施例中,通过使用特定领域的知识图谱,这些特定领域的文本就可以被较好地分析,结果也更准确。
本发明实施例提供的模型生成装置10可以实现为计算机处理器的网络,以执行本发明实施例中的模型生成方法700的处理,其可实现针对某一特定领域(比如:网络安全)的情感分析。模型生成装置10也可以是如图1所示的单台计算机、单片机或处理芯片,包括至少一个存储器1001,其包括计算机可读介质,例如随机存取存储器(RAM)。模型生成装置10还包括与至少一个存储器1001耦合的至少一个处理器1002。计算机可执行指令存储在至少一个存储器1001中,并且当由至少一个处理器1002执行时,可以使至少一个处理器1002执行本文所述的步骤。
图1中所示的至少一个存储器1001可以包含模型生成程序101,使得至少一个处理器1002执行本发明实施例中所述的模型生成方法700。如图2所示,模型生成程序101可以包括文本获取模块1011、词向量生成模块1012、知识图谱获取模块1013、模型训练模块1014、分类器训练模块1015、识别模块1016、执行模块1017和知识图谱更新模块1018。
下面,参照图4说明各模块进行模型训练的方案。
其中,文本获取模块1011,被配置为获取一个特定领域的复数段第一文本31。
通过给出特定领域的关键词,可在互联网上按照关键词搜索得到相关的网页。进一步地,可使用工具bs4或lxml来分析获得的网页,滤除无关的信息(比如:广告等),以得到清理后的标题和文本主体。进一步地,对清理后的文本进行分段以得到各个词。其中可使用工具jieba来对文本进行分段并滤除间隔的词。这样就获取了第一文本31。后续的第二文本32和第三文本33在进行清理和分段时也可采用上述方法。
可使用工具word2vector来实现第一文本31到一组第一词向量41的转换。其中,文本中的每一个词被转换为一个词向量。后面的第二文本31、第三文本32也可使用该工具进行文本到词向量的转换。
知识图谱获取模块1013,被配置为获取特定领域的知识图谱20’,其中,知识图谱20’中的每一个节点和每一条边分别具有一个情感因子向量,用于表示该节点或边所代表的词在特定领域的情感极性。
如图2所示,知识图谱20为特定领域的知识图谱,其中各元素(包括节点和边分别对应于特定领域的文本中的词)。本发明实施例中,为知识图谱20中的每一个元素赋予一个情感因子向量。如图3所示,知识图谱20’中,每一个元素E1~E11被分别赋予了情感因子向量
其中,情感因子向量中,对应于一个节点和该节点自身以及其他节点之间的元素可设置为非零,对应于该节点和各条边之间的元素可设置为零;对应于一条边和该边自身的元素设置为非零,对应于该边与节点以及该边与其他边之间的元素设置为零。非零元素的取值范围为(0,1),其中,值越大,表示情感极性越积极;值越小,表示情感极性越消极,而0.5表示情感极性为中性。
具体地,对于一个节点,对应于该节点和该节点自身的元素值可表示该节点所对应的词在一个通用的(非特定领域)的文本中的情感极性,比如对于词“漏洞”,可以设置为0.1,表示情感极性为“消极”;对应于该节点和其他节点之间的元素,如果节点之间没有边,则可设置为0,如果节点之间有边,则可设置为按照该特定领域的知识,当文本中同时出现两个节点和边所对应的词时所应该赋予的情感极性的值。
具体地,对于一条边,对应于该边和该边自身的元素值可设置为按照该特定领域的知识,当文本中同时出现该边和该边所连接的两个节点所对应的词时所应该赋予的情感极性的值;对应于该边和其他边之间的元素可设置为0,对应于该边和节点之间的元素可设置为0。
其中,词向量生成模块1012,还被配置为基于知识图谱20’生成一组第二词向量42其中,知识图谱20’的每一个节点和每一条边分别对应一个第二词向量42。这里,也可使用工具word2vector将知识图谱20’中各元素所代表的词转换为词向量。
其中,词向量生成模块1012,还被配置为对于获取的每一段第一文本31基于知识图谱20’中包括在该段第一文本31中的部分知识图谱21生成一组第三词向量43其中部分知识图谱21中的每一个节点和每一条边分别对应一个第三词向量43。
其中,模型训练模块1014,被配置为以各组第一训练数据训练一个模型51。该模型51可为Text-CNN(文本-卷积神经网络)模型。如图4所示,一组第一训练数据可以一段第一文本31的一组第一词向量41和一组第三词向量43作为输入,以包括该组第二词向量42和该组第二词向量42对应的各个情感因子向量在内的各向量所形成的空间作为输出,以使得模型51用于表示特定领域的文本中包括的各个词向量与该组第二词向量42之间的映射关系。
上述各模块之间相互配合,训练了模型51。训练过程中融入特定领域的知识图谱21’的信息(其中,通过节点和边引入特定领域的词,通过情感因子向量引入特定领域中一些词以及多个词同时出现时所代表情感极性),使得训练得到的模型能够体现出特定领域中对文本的情感极性的理解。获得了特定领域的文本与特定领域的知识和情感极性的映射关系。基于该映射关系,当要针对一段新的文本进行情感分析时,首先将该文本输入模型以得到特定领域的情感极性的知识,然后再输入分类器,即可得到准确的情感分析的结果。
进一步地,如图5所示,在获得了特定领域的文本与特定领域的知识和情感极性的映射关系之后,还可以进一步训练分类器52,分类器52用于对一段文本进行情感分析以得到该段文本的情感极性。具体地,模型生成装置10还可包括分类器训练模块1015,被配置为:以各组第二训练数据训练分类器52,其中,一组第二训练数据以一段第一文本31的一组第一词向量41作为输入,以包括前述的一组第二词向量42和该组第二词向量42对应的各个情感因子向量在内的向量所形成的空间作为输入,以该段第一文本31的情感极性作为输出。其中,可拼接起来,形成分类器52的输入而分类器52的输出为第一文本31的情感极性。
进一步地,如图6所示,还可以对知识图谱进行更新,以扩充知识图谱中关于特定领域文本的情感极性的信息。
其中,可对分类器52的每一个情感极性预先配置一个系数a,a∈(0,1)。其中,系数越大,情感极性越积极,系数越小,情感极性越消极。
在更新过程中,首先由文本获取模块1011获取一段第二文本32;模型生成装置10还可包括一个识别模块1016,被配置为获取第二文本32的三元组信息70。其中,三元组信息可以一个二元关系模型来表示事物之间的语义关系,即:使用三元组信息集合的方式来描述事物和关系,表示实体与实体之间的关系或实体的某个属性的属性值。比如:文本“A漏洞的漏洞评级是高危类型”中,三元组信息可包括:A漏洞、漏洞评级、高危。
进一步地,词向量生成模块1012生成第二文本32的一组第四词向量44;执行模块1017将该组第四词向量输入模型51,并将该组第四词向量和模型51的输出作为分类器52的输入,以得到第二文本32的情感极性60。
模型生成装置10还可包括一个知识图谱更新模块1018,被配置为将第二文本32的三元组信息70加入到知识图谱20’中以生成新的知识图谱23,其中,以第二文本32的情感极性60所对应的预先配置的系数为基础生成三元组信息70所对应的知识图谱中的节点或边的情感因子向量。
以“A漏洞的漏洞评级是高危类型”作为第二文本32的例子,识别模块1016识别得到的三元组信息包括:A漏洞、漏洞评级和高危。那么知识图谱更新模块1018可在知识图谱20’中增加头结点:漏洞,尾节点:高危和两个节点之间的连线:漏洞评级。一种可选的方案是,为头结点、尾节点和连线均赋予分类器52输出的相同的情感极性,并据此为三者分别生成情感因子向量(情感因子向量中各元素的取值可参考前面对情感因子向量的描述)。另一种可选的方案是,由特定领域的专家为头结点和尾节点和连线分别赋值,再据此生成情感因子向量。对于头结点和尾节点在知识图谱20’中已经存在的情况,头结点和尾节点的情感因子向量可沿用已有的,而为两个节点之间新的连线赋予均赋予分类器52输出的情感极性,并据此生成情感因子向量。
此外,上述各模块还也可视为由硬件实现的各个功能模块,用于实现模型生成装置10在执行模型生成方法700时涉及的各种功能,比如预先将该方法中涉及的各流程的控制逻辑烧制到诸如现场可编程门阵列(Field-Programmable Gate Array,FPGA)芯片或复杂可编程逻辑器件(Complex Programmable Logic Device,CPLD)中,而由这些芯片或器件执行上述各模块的功能,具体实现方式可依工程实践而定。
此外,模型生成装置10还可包括一个通信模块1003,用于模型生成装置10与其他设备之间的通信,比如用于获取文本、知识图谱等。
应当提及的是,本发明实施例可以包括具有不同于图1所示架构的装置。上述架构仅仅是示例性的,用于解释本发明实施例提供的模型生成方法700。
下面结合图7说明本发明实施例提供的模型生成方法700。如图7所示,方法700可包括如下步骤:
-S701:获取一个特定领域的复数段第一文本31;
-S702:生成获取的每一段第一文本31的一组第一词向量41;
-S703:获取特定领域的知识图谱20’,其中,知识图谱20’中的每一个节点和每一条边分别具有一个情感因子向量,用于表示该节点或边所代表的词在特定领域的情感极性;
-S704:基于知识图谱20’生成一组第二词向量42,其中,知识图谱20’的每一个节点和每一条边分别对应一个第二词向量42;
-S705:对于获取的每一段第一文本31基于知识图谱20’中包括在该段第一文本31中的部分知识图谱21生成一组第三词向量43,其中,部分知识图谱21中的每一个节点和每一条边分别对应一个第三词向量43;
-S706:以各组第一训练数据训练一个模型51,其中,一组第一训练数据以一段第一文本31的组第一词向量41和组第三词向量43作为输入,以包括组第二词向量42和组第二词向量42对应的各个情感因子向量在内的各向量所形成的空间作为输出,以使得模型51用于表示特定领域的文本中包括的各个词向量与组第二词向量42之间的映射关系。
其中,通过步骤S701~S702,训练了模型51,获得了特定领域的文本与特定领域的知识和情感极性的映射关系。
进一步地,方法700还可包括:
-S707:以各组第二训练数据训练一个分类器52,其中,一组第二训练数据以一段第一文本31的组第一词向量41作为输入,以包括组第二词向量42和组第二词向量42对应的各个情感因子向量在内的向量所形成的空间作为输入,以该段第一文本31的情感极性作为输出,其中,分类器52用于对一段文本进行情感分析以得到该段文本的情感极性。
其中,通过步骤S707实现了对分类器52的训练。
进一步地,方法700还可包括:
-S708:获取一段第二文本32;
-S709:获取第二文本32的三元组信息70;
-S710:生成第二文本32的一组第四词向量44;
-S711:将组第四词向量44输入模型51;
-S712:将组第四词向量44和模型的输出作为分类器52的输入,得到第二文本32的情感极性60;
-S713:将第二文本32的三元组信息70加入到知识图谱20’中,其中,以第二文本32的情感极性60所对应的预先配置的系数作为三元组信息70所对应的知识图谱中的节点或边的情感因子向量,其中,分类器52的每一个情感极性被预先配置一个系数,其中,系数越大,情感极性越积极,系数越小,情感极性越消极。
其中,通过步骤S708~S713更新了知识图谱。
本发明实施例提供的情感分析装置80可以实现为计算机处理器的网络,以执行本发明实施例中的情感分析方法1000。情感分析装置80也可以是如图8所示的单台计算机、单片机或处理芯片,包括至少一个存储器8001,其包括计算机可读介质,例如随机存取存储器(RAM)。情感分析装置80还包括与至少一个存储器8001耦合的至少一个处理器8002。计算机可执行指令存储在至少一个存储器8001中,并且当由至少一个处理器8002执行时,可以使至少一个处理器8002执行本文所述的步骤。
图8中所示的至少一个存储器8001可以包含情感分析程序801,使得至少一个处理器8002执行本发明实施例中所述的情感分析方法1000。情感分析程序801可以包括:
-文本获取模块8011,如图9所示,文本获取模块8011被配置为获取一段第三文本33;
-词向量生成模块8012,被配置为生成第三文本33的一组第五词向量45;
-执行模块8013,被配置为将组第五词向量45输入一个模型51,其中,模型51用于表示特定领域的文本中包括的各个词向量与一组第二词向量42之间的映射关系,组第二词向量42是基于特定领域的知识图谱20’生成的,知识图谱20’的每一个节点和每一条边分别对应一个第二词向量42,并且分别具有一个情感因子向量,用于表示该节点或边所代表的词在特定领域的情感极性;以及将组第五词向量45和模型51的输出作为一个分类器52的输入,得到第三文本33的情感极性60,其中,分类器52用于对一段文本进行情感分析以得到该段文本的情感极性。
此外,上述各模块还也可视为由硬件实现的各个功能模块,用于实现情感分析装置80在执行情感分析方法1000时涉及的各种功能,比如预先将该方法中涉及的各流程的控制逻辑烧制到诸如FPGA芯片或CPLD中,而由这些芯片或器件执行上述各模块的功能,具体实现方式可依工程实践而定。
此外,情感分析装置80还可包括一个通信模块8003,用于情感分析装置80与其他设备之间的通信,比如获取第三文本33等。
应当提及的是,本发明实施例可以包括具有不同于图8所示架构的装置。上述架构仅仅是示例性的,用于解释本发明实施例提供的情感分析方法1000。
下面结合图10说明本发明实施例提供的情感分析方法1000。如图10所示,方法1000可包括如下步骤:
-S1001:获取一段第三文本33;
-S1002:生成第三文本33的一组第五词向量45;
-S1003:将组第五词向量45输入一个模型51,其中,模型51用于表示特定领域的文本中包括的各个词向量与一组第二词向量42之间的映射关系,组第二词向量42是基于特定领域的知识图谱20’生成的,知识图谱20’的每一个节点和每一条边分别对应一个第二词向量42,并且分别具有一个情感因子向量,用于表示该节点或边所代表的词在特定领域的情感极性;
-S1004:将组第五词向量45和模型51的输出作为一个分类器52的输入,得到第三文本33的情感极性60,其中,分类器52用于对一段文本进行情感分析以得到该段文本的情感极性。
此外,本发明实施例实施例还提供一种计算机可读介质,该计算机可读介质上存储有计算机可读指令,计算机可读指令在被处理器执行时,使处理器执行前述的情感分析方法或模型生成方法。计算机可读介质的实施例包括软盘、硬盘、磁光盘、光盘(如CD-ROM、CD-R、CD-RW、DVD-ROM、DVD-RAM、DVD-RW、DVD+RW)、磁带、非易失性存储卡和ROM。可选地,可以由通信网络从服务器计算机上或云上下载计算机可读指令。
综上,本发明实施例提供一种模型生成方法和装置、情感分析方法和装置以及计算机可读介质。在对特定领域文本的情感分析中引入特定领域的知识图谱,通过在知识图谱中增加情感因子向量为每个元素赋予情感极性,这样对文本的情感分析结果会更准确。以网络安全领域为例,在有关安全漏洞的文章中一些一般概念,诸如“漏子”、“攻击”、“严重的”等词都会被更精确地分析,降低错误检测的概率。通过为知识图谱中的元素赋予情感因子向量,可以提取中这些元素中的情感特征,进而可映射得到被检测文本的情感倾向性,方便后续的情感极性的分类。
另外,在更新知识图谱的过程中,识别出新的文本中的三元组信息,并将其加入知识图谱中;并且识别出新的文本的情感极性,基于三元组信息和情感极性更新知识图谱中的元素和情感因子向量。多维度的更新可帮助扩展知识图谱,使其在多个方面得到补充。一方面,新的内容可以加入知识图谱中;另一方面,知识图谱中已有元素的情感因子向量也可以得到更新。使得知识图谱能够更好地用于执行后续的情感分析。经过这样的迭代循环,可得到更大、更准确的知识图谱,使得情感分析更准确。
需要说明的是,上述各流程和各系统结构图中不是所有的步骤和模块都是必须的,可以根据实际的需要忽略某些步骤或模块。各步骤的执行顺序不是固定的,可以根据需要进行调整。上述各实施例中描述的系统结构可以是物理结构,也可以是逻辑结构,即,有些模块可能由同一物理实体实现,或者,有些模块可能分由多个物理实体实现,或者,可以由多个独立设备中的某些部件共同实现。
Claims (11)
1.一种模型生成方法(700),包括:
-获取(S701)一个特定领域的复数段第一文本(31);
-生成(S702)获取的每一段第一文本(31)的一组第一词向量(41);
-获取(S703)所述特定领域的知识图谱(20’),其中,所述知识图谱(20’)中的每一个节点和每一条边分别具有一个情感因子向量,用于表示该节点或边所代表的词在所述特定领域的情感极性;
-基于所述知识图谱(20’)生成(S704)一组第二词向量(42),其中,所述知识图谱(20’)的每一个节点和每一条边分别对应一个第二词向量(42);
-对于获取的每一段第一文本(31)基于所述知识图谱(20’)中包括在该段第一文本(31)中的部分知识图谱(21)生成(S705)一组第三词向量(43),其中,所述部分知识图谱(21)中的每一个节点和每一条边分别对应一个第三词向量(43);
-以各组第一训练数据训练(S706)一个模型(51),其中,一组第一训练数据以一段第一文本(31)的所述组第一词向量(41)和所述组第三词向量(43)作为输入,以包括所述组第二词向量(42)和所述组第二词向量(42)对应的各个所述情感因子向量在内的各向量所形成的空间作为输出,以使得所述模型(51)用于表示所述特定领域的文本中包括的各个词向量与所述组第二词向量(42)之间的映射关系。
2.如权利要求1所述的方法,还包括:
-以各组第二训练数据训练(S707)一个分类器(52),其中,一组第二训练数据以一段第一文本(31)的所述组第一词向量(41)作为输入,以包括所述组第二词向量(42)和所述组第二词向量(42)对应的各个所述情感因子向量在内的向量所形成的空间作为输入,以该段第一文本(31)的情感极性作为输出,其中,所述分类器(52)用于对一段文本进行情感分析以得到该段文本的情感极性。
3.如权利要求2所述的方法,还包括:
-获取(S708)一段第二文本(32);
-获取(S709)所述第二文本(32)的三元组信息(70);
-生成(S710)所述第二文本(32)的一组第四词向量(44);
-将所述组第四词向量(44)输入(S711)所述模型(51);
-将(S712)所述组第四词向量(44)和所述模型的输出作为所述分类器(52)的输入,得到所述第二文本(32)的情感极性(60);
-将所述第二文本(32)的所述三元组信息(70)加入(S713)到所述知识图谱(20’)中,其中,以所述第二文本(32)的情感极性(60)所对应的预先配置的系数作为所述三元组信息(70)所对应的知识图谱中的节点或边的情感因子向量,其中,所述分类器(52)的每一个情感极性被预先配置一个系数,其中,系数越大,情感极性越积极,系数越小,情感极性越消极。
4.一种情感分析方法(1000),包括:
-获取(S1001)一段第三文本(33);
-生成(S1002)所述第三文本(33)的一组第五词向量(45);
-将所述组第五词向量(45)输入(S1003)一个模型(51),其中,所述模型(51)用于表示所述特定领域的文本中包括的各个词向量与一组第二词向量(42)之间的映射关系,所述组第二词向量(42)是基于所述特定领域的知识图谱(20’)生成的,所述知识图谱(20’)的每一个节点和每一条边分别对应一个所述第二词向量(42),并且分别具有一个情感因子向量,用于表示该节点或边所代表的词在所述特定领域的情感极性;
-将(S1004)所述组第五词向量(45)和所述模型(51)的输出作为一个分类器(52)的输入,得到所述第三文本(33)的情感极性(60),其中,所述分类器(52)用于对一段文本进行情感分析以得到该段文本的情感极性。
5.一种情感分析装置(10),其特征在于,包括:
-文本获取模块(1011),被配置为获取一个特定领域的复数段第一文本(31);
-词向量生成模块(1012),被配置为生成获取的每一段第一文本(31)的一组第一词向量(41);
-知识图谱获取模块(1013),被配置为获取所述特定领域的知识图谱(20’),其中,所述知识图谱(20’)中的每一个节点和每一条边分别具有一个情感因子向量,用于表示该节点或边所代表的词在所述特定领域的情感极性;
-所述词向量生成模块(1012),还被配置为基于所述知识图谱(20’)生成一组第二词向量(42),其中,所述知识图谱的每一个节点和每一条边分别对应一个第二词向量(42);以及对于获取的每一段第一文本(31)基于所述知识图谱(20’)中包括在该段第一文本(31)中的部分知识图谱(21)生成一组第三词向量(43),其中所述部分知识图谱(21)中的每一个节点和每一条边分别对应一个第三词向量(43);
-模型训练模块(1014),被配置为以各组第一训练数据训练一个模型(51),其中,一组第一训练数据以一段第一文本(31)的所述组第一词向量(41)和所述组第三词向量(43)作为输入,以包括所述组第二词向量(42)和所述组第二词向量(42)对应的各个所述情感因子向量在内的各向量所形成的空间作为输出,以使得所述模型(51)用于表示所述特定领域的文本中包括的各个词向量与所述组第二词向量(42)之间的映射关系。
6.如权利要求5所述的装置,还包括:分类器训练模块(1015),被配置为:
-以各组第二训练数据训练一个分类器(52),其中,一组第二训练数据以一段第一文本(31)的所述组第一词向量(41)作为输入,以包括所述组第二词向量(42)和所述组第二词向量(42)对应的各个所述情感因子向量在内的向量所形成的空间作为输入,以该段第一文本(31)的情感极性作为输出,其中,所述分类器(52)用于对一段文本进行情感分析以得到该段文本的情感极性。
7.如权利要求6所述的装置,其特征在于,
-所述文本获取模块(1011),还被配置为获取一段第二文本(32);
-所述装置还包括一个识别模块(1016),被配置为获取所述第二文本(32)的三元组信息(70);
-所述词向量生成模块(1012),还被配置为生成所述第二文本(32)的一组第四词向量(44);
-执行模块(1017),被配置为将所述组第四词向量输入所述模型(51);并将所述组第四词向量和所述模型(51)的输出作为所述分类器(52)的输入,得到所述第二文本(32)的情感极性;
-所述装置还包括一个知识图谱更新模块(1018),被配置为将所述第二文本(32)的所述三元组信息(70)加入到所述知识图谱(20’)中,其中,以所述第二文本(32)的情感极性(60)所对应的预先配置的系数作为所述三元组信息(70)所对应的知识图谱中的节点或边的情感因子向量,其中,所述分类器(52)的每一个情感极性被预先配置一个系数,其中,系数越大,情感极性越积极,系数越小,情感极性越消极。
8.一种情感分析装置(80),其特征在于,包括:
-文本获取模块(8011),被配置为获取一段第三文本(33);
-词向量生成模块(8012),被配置为生成所述第三文本(33)的一组第五词向量(45);
-执行模块(8013),被配置为将所述组第五词向量(45)输入一个模型(51),其中,所述模型(51)用于表示所述特定领域的文本中包括的各个词向量与一组第二词向量(42)之间的映射关系,所述组第二词向量(42)是基于所述特定领域的知识图谱(20’)生成的,所述知识图谱(20’)的每一个节点和每一条边分别对应一个所述第二词向量(42),并且分别具有一个情感因子向量,用于表示该节点或边所代表的词在所述特定领域的情感极性;以及将所述组第五词向量(45)和所述模型(51)的输出作为一个分类器(52)的输入,得到所述第三文本(33)的情感极性(60),其中,所述分类器(52)用于对一段文本进行情感分析以得到该段文本的情感极性。
9.一种模型生成装置(10),其特征在于,包括:
至少一个存储器(1001),被配置为存储计算机可读代码;
至少一个处理器(1002),被配置为调用所述计算机可读代码,执行如权利要求1~3任一项所述的方法。
10.一种情感分析装置(80),其特征在于,包括:
至少一个存储器(8001),被配置为存储计算机可读代码;
至少一个处理器(8002),被配置为调用所述计算机可读代码,执行如权利要求4所述的方法。
11.一种计算机可读介质,其特征在于,所述计算机可读介质上存储有计算机可读指令,所述计算机可读指令在被处理器执行时,使所述处理器执行如权利要求1~4任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110172800.1A CN114912458A (zh) | 2021-02-08 | 2021-02-08 | 一种情感分析方法、装置和计算机可读介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110172800.1A CN114912458A (zh) | 2021-02-08 | 2021-02-08 | 一种情感分析方法、装置和计算机可读介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114912458A true CN114912458A (zh) | 2022-08-16 |
Family
ID=82761715
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110172800.1A Pending CN114912458A (zh) | 2021-02-08 | 2021-02-08 | 一种情感分析方法、装置和计算机可读介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114912458A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115905518A (zh) * | 2022-10-17 | 2023-04-04 | 华南师范大学 | 基于知识图谱的情感分类方法、装置、设备以及存储介质 |
CN116257623A (zh) * | 2022-09-07 | 2023-06-13 | 中债金科信息技术有限公司 | 文本情感分类模型训练方法、文本情感分类方法及设备 |
-
2021
- 2021-02-08 CN CN202110172800.1A patent/CN114912458A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116257623A (zh) * | 2022-09-07 | 2023-06-13 | 中债金科信息技术有限公司 | 文本情感分类模型训练方法、文本情感分类方法及设备 |
CN116257623B (zh) * | 2022-09-07 | 2023-11-28 | 中债金科信息技术有限公司 | 文本情感分类模型训练方法、文本情感分类方法及设备 |
CN115905518A (zh) * | 2022-10-17 | 2023-04-04 | 华南师范大学 | 基于知识图谱的情感分类方法、装置、设备以及存储介质 |
CN115905518B (zh) * | 2022-10-17 | 2023-10-20 | 华南师范大学 | 基于知识图谱的情感分类方法、装置、设备以及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110008338B (zh) | 一种融合gan和迁移学习的电商评价情感分析方法 | |
KR101999152B1 (ko) | 컨벌루션 신경망 기반 영문 텍스트 정형화 방법 | |
CN108154198B (zh) | 知识库实体归一方法、系统、终端和计算机可读存储介质 | |
CN110717034A (zh) | 一种本体构建方法及装置 | |
CN111444344B (zh) | 实体分类方法、装置、计算机设备和存储介质 | |
CN111444320A (zh) | 文本检索方法、装置、计算机设备和存储介质 | |
CN108038106B (zh) | 一种基于上下文语义的细粒度领域术语自学习方法 | |
JP6291443B2 (ja) | 接続関係推定装置、方法、及びプログラム | |
CN110807102A (zh) | 知识融合方法、装置、计算机设备和存储介质 | |
US11669740B2 (en) | Graph-based labeling rule augmentation for weakly supervised training of machine-learning-based named entity recognition | |
CN114912458A (zh) | 一种情感分析方法、装置和计算机可读介质 | |
CN113010683B (zh) | 基于改进图注意力网络的实体关系识别方法及系统 | |
CN112163097A (zh) | 一种军事知识图谱构建方法及系统 | |
CN114647713A (zh) | 基于虚拟对抗的知识图谱问答方法、设备及存储介质 | |
CN115544303A (zh) | 用于确定视频的标签的方法、装置、设备及介质 | |
CN111061923B (zh) | 一种基于图依赖规则和监督学习的图数据实体识别系统 | |
CN115658846A (zh) | 一种适用于开源软件供应链的智能搜索方法及装置 | |
CN115017335A (zh) | 知识图谱构建方法和系统 | |
Lonij et al. | Open-world visual recognition using knowledge graphs | |
CN117390198A (zh) | 构建电力领域科技知识图谱的方法、装置、设备及介质 | |
CN117010373A (zh) | 一种电力设备资产管理数据所属类别和组的推荐方法 | |
CN110309258B (zh) | 一种输入检查方法、服务器和计算机可读存储介质 | |
CN113553844B (zh) | 一种基于前缀树特征与卷积神经网络的领域识别方法 | |
CN112613318B (zh) | 实体名称归一化系统及其方法、计算机可读介质 | |
CN112651590B (zh) | 一种指令处理流程推荐的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |