CN112131888B - 分析语义情感的方法、装置、设备及存储介质 - Google Patents
分析语义情感的方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN112131888B CN112131888B CN202011009900.4A CN202011009900A CN112131888B CN 112131888 B CN112131888 B CN 112131888B CN 202011009900 A CN202011009900 A CN 202011009900A CN 112131888 B CN112131888 B CN 112131888B
- Authority
- CN
- China
- Prior art keywords
- word
- sentence
- analyzed
- clause
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000008451 emotion Effects 0.000 title claims abstract description 80
- 238000000034 method Methods 0.000 title claims abstract description 59
- 230000014509 gene expression Effects 0.000 claims abstract description 147
- 238000005259 measurement Methods 0.000 claims abstract description 69
- 125000004122 cyclic group Chemical group 0.000 claims abstract description 50
- 238000004458 analytical method Methods 0.000 claims abstract description 40
- 238000003062 neural network model Methods 0.000 claims abstract description 17
- 239000013598 vector Substances 0.000 claims description 174
- 238000004364 calculation method Methods 0.000 claims description 42
- 238000013528 artificial neural network Methods 0.000 claims description 34
- 230000006870 function Effects 0.000 claims description 33
- 230000008569 process Effects 0.000 claims description 21
- 238000012549 training Methods 0.000 claims description 21
- 238000004590 computer program Methods 0.000 claims description 12
- 238000012163 sequencing technique Methods 0.000 claims description 10
- 230000007246 mechanism Effects 0.000 abstract description 9
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 7
- 238000007726 management method Methods 0.000 description 7
- 230000004913 activation Effects 0.000 description 4
- 238000012544 monitoring process Methods 0.000 description 4
- 230000004044 response Effects 0.000 description 4
- 230000006978 adaptation Effects 0.000 description 3
- 238000012550 audit Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000010224 classification analysis Methods 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 238000012423 maintenance Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 238000013475 authorization Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000003862 health status Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000012954 risk control Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
Abstract
本申请涉及人工智能中的智能决策领域,揭示了分析语义情感的方法,包括:获取待分析语句中每个单词分别对应的重要性度量值;根据待分析语句中每个单词分别对应的重要性度量值,通过两个并行运行的循环神经网络模型,得到待分析语句对应的隐式表达式;将待分析语句对应的隐式表达式以及待分析语句对应的句子标签,输入语义情感分析分类器;接收语义情感分析分类器对待分析语句的情感分析分类结果。通过引入自注意力机制,将句中每个单词的重要性通过重要性度量值进行量化,然后根据重要单词所处位置,获取当前单词在整个句子中的含义,从而使得最终输出的整个句子的隐藏状态中,融合了句中每个单词及其相应的重要性度量值。
Description
技术领域
本申请涉及人工智能中的智能决策领域,特别是涉及到分析语义情感的方法、装置、设备及存储介质。
背景技术
最早期采用的构词模型是词袋模型,词袋模型将句子视为单词的简单集合,通过简单的向量运算将其合并为一句完整的话。随着深度学习的发展,神经网络的应用越来越普及,通过循环神经网络RNN作为一种顺序模型将文本视为单词序列,可以有效地捕捉时序变量间的关系,但顺序模型无法区分句子结构中的语法关系,无法判定句子中每个单词的重要性,不利于理解整句话的重点,故不能识别由于单词或短语的语义角色改变而引起的句子含义的差异,导致无法捕获自然语言中常见单词之间的非线性依赖性,得到语句情感特征。
发明内容
本申请的主要目的为提供分析语义情感的,旨在解决无法捕获自然语言中常见单词之间的非线性依赖性,得到语句情感特征的技术问题。
本申请提出一种分析语义情感的方法,包括:
获取待分析语句中每个单词分别对应的重要性度量值;
根据所述待分析语句中每个单词分别对应的重要性度量值,通过两个并行运行的循环神经网络模型,得到所述待分析语句对应的隐式表达式,其中,所述隐式表达式融合了上下文的语义依赖关系;
将所述待分析语句对应的隐式表达式以及所述待分析语句对应的预设句子标签,输入语义情感分析分类器;
接收所述语义情感分析分类器对所述待分析语句的情感分析分类结果。
优选地,所述根据所述待分析语句中每个单词分别对应的重要性度量值,通过两个并行运行的循环神经网络模型,得到所述待分析语句对应的隐式表达式的步骤,包括:
按照所述待分析语句中每个单词分别对应的重要性度量值,将所述待分析语句拆分成树状结构,其中,所述树状结构包括叶子节点、子节点和根节点;
将第一叶子节点包含的分句,按照所述待分析语句的正向排序输入第一循环神经网络,将第二叶子节点包含的分句,按照所述待分析语句的逆向排序输入第二循环神经网络,其中,所述第一叶子节点和所述第二叶子节点为同属于任意一个指定子节点的一对叶子节点;
将所述第一循环神经网络输出的正向隐藏向量,乘以所述第二循环神经网络输出的逆向隐藏向量,得到所述指定子节点的矢量表达;
根据所述指定子节点的矢量表达,按照所述树状结构,依次递归计算至第一单词对应的根节点的矢量表达,其中,所述第一单词为重要性度量值最大时对应的单词;
将所述第一单词对应的根节点的矢量表达,作为所述待分析语句的隐式表达式。
优选地,所述按照所述待分析语句中每个单词分别对应的重要性度量值,将所述待分析语句拆分成树状结构的步骤,包括:
按照所述待分析语句中每个单词分别对应的重要性度量值,确定所述待分析语句中重要性度量值最大的第一单词;
以所述第一单词为分界点,将所述待分析语句拆分成第一子句和第二子句,其中,所述第一单词作为所述树状结构的根节点;
以所述第一子句中重要性度量值最大的第二单词为分界点,将所述第一子句拆分成第三子句和第四子句,以所述第二子句中重要性度量值最大的第三单词为分界点,将所述第二子句拆分成第五子句和第六子句,其中,所述第二单词和所述第三单词均为所述根节点的子节点;
按照所述第一子句和第二子句的拆分过程,拆分所述待分析语句至叶子节点,形成多层节点组成的树状结构,其中,所述叶子节点为不存在子节点的节点。
优选地,获取待分析语句中每个单词分别对应的重要性度量值的步骤,包括:
对待分析语句进行词嵌入以及位置编码,得到所述待分析语句中每个单词分别对应的向量表达;
将所述待分析语句中每个单词分别对应的向量表达,按照在所述待分析语句中的排序,依次输入自注意网络中,得到所述待分析语句中每个单词分别对应的重要性度量值。
优选地,所述对待分析语句进行词嵌入以及位置编码,得到所述待分析语句中每个单词分别对应的向量表达的步骤,包括:
根据第一计算公式计算指定单词经词嵌入后的第一向量,根据第二公式计算所述指定单词对应位置编码的第二向量;
根据所述第一向量和第二向量,通过第三计算公式计算得到所述指定单词对应的向量表达;
根据所述指定单词对应的向量表达的计算过程,计算所述待分析语句中每个单词分别对应的向量表达。
优选地,所述将所述待分析语句中每个单词分别对应的向量表达,按照在所述待分析语句中的排序,依次输入自注意网络中,得到所述待分析语句中每个单词分别对应的重要性度量值的步骤,包括:
将所述待分析语句中每个单词分别对应的向量表达,按照在所述待分析语句中的排序,依次输入自注意网络中;
通过调用所述自注意网络中的第四计算公式,分别计算所述待分析语句中每个单词分别对应的重要性度量值。
优选地,所述获取待分析语句中每个单词分别对应的重要性度量值的步骤之前,包括:
将预设分类函数加载至分类器,并初始化赋值;
将训练语句的矢量表达和句子标签,输入加载了所述预设分类函数的分类器中进行分类训练;
判断损失函数是否收敛,其中,所述损失函数为预测分类结果和真实分类结果的交叉熵;
若是,则判定训练得到了所述语义情感分析分类器。
本申请还提供了一种分析语义情感的装置,包括:
获取模块,用于获取待分析语句中每个单词分别对应的重要性度量值;
得到模块,用于根据所述待分析语句中每个单词分别对应的重要性度量值,通过两个并行运行的循环神经网络模型,得到所述待分析语句对应的隐式表达式,其中,所述隐式表达式融合了上下文的语义依赖关系;
输入模块,用于将所述待分析语句对应的隐式表达式以及所述待分析语句对应的预设句子标签,输入语义情感分析分类器;
接收模块,用于接收所述语义情感分析分类器对所述待分析语句的情感分析分类结果。
本申请还提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述方法的步骤。
本申请还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述的方法的步骤。
本申请通过引入自注意力机制,将句中每个单词的重要性通过重要性度量值进行量化,然后根据重要单词所处位置,通过由树的层次化遍历思想改进的RNN,使不仅能获取当前单词对应的词义,且可根据两个并行运行的循环神经网络模型,得到待分析语句基于当前单词的隐式表达式,融合了上下文的语义依赖关系,得到当前单词在整个句子中的含义,从而使得最终输出的整个句子的隐藏状态中,融合了句中每个单词及其相应的重要性度量,使句意的情感倾向更明显,语句表达更精准。
附图说明
图1本申请一实施例的分析语义情感的方法流程示意图;
图2本申请一实施例的使用两个RNN进行卷积计算的示意图;
图3本申请一实施例的使用两个RNN进行卷积计算的示意图;
图4本申请一实施例的分析语义情感的系统流程示意图;
图5本申请一实施例的计算机设备内部结构示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
参照图1,本申请一实施例的分析语义情感的方法,包括:
S1:获取待分析语句中每个单词分别对应的重要性度量值;
S2:根据所述待分析语句中每个单词分别对应的重要性度量值,通过两个并行运行的循环神经网络模型,得到所述待分析语句对应的隐式表达式,其中,所述隐式表达式融合了上下文的语义依赖关系;
S3:将所述待分析语句对应的隐式表达式以及所述待分析语句对应的预设句子标签,输入语义情感分析分类器;
S4:接收所述语义情感分析分类器对所述待分析语句的情感分析分类结果。
本申请的重要性度量值通过引入自注意力机制计算得到,通过将待分析语句中每个单词的重要性进行量化,并通过两个并行运行的循环神经网络模型迭代计算,从而使得最终输出的待分析语句的隐藏状态,融合了待分析语句中每个单词的语义及其相应的重要性度量值,融合了上下文的语义依赖关系,融合了句中每个单词及其相应的重要性度量,使句意的情感倾向更明显,语句表达更精准,大大提升了表达能力。上述句子标签区别各个语句在文中的位置关系,包括但不限于第几句话,或第几段第几句等等。然后通过将表示整个句子隐藏状态的隐式表达式,输入预训练好参量的语义情感分析分类器,进行情感分类分析。情感分类包括积极情感和消极情感。通过对语句的情感分析,提升对说话人的心态了解,达到更精准地识别说话人个性特征的目的。
进一步地,根据所述待分析语句中每个单词分别对应的重要性度量值,通过两个并行运行的循环神经网络模型,得到所述待分析语句对应的隐式表达式的步骤S2,包括:
S21:按照所述待分析语句中每个单词分别对应的重要性度量值,将所述待分析语句拆分成树状结构,其中,所述树状结构包括叶子节点、子节点和根节点;
S22:将第一叶子节点包含的分句,按照所述待分析语句的正向排序输入第一循环神经网络,将第二叶子节点包含的分句,按照所述待分析语句的逆向排序输入第二循环神经网络,其中,所述第一叶子节点和所述第二叶子节点为同属于任意一个指定子节点的一对叶子节点;
S24:将所述第一循环神经网络输出的正向隐藏向量,乘以所述第二循环神经网络输出的逆向隐藏向量,得到所述指定子节点的矢量表达;
S25:根据所述指定子节点的矢量表达,按照所述树状结构,依次递归计算至第一单词对应的根节点的矢量表达,其中,所述第一单词为重要性度量值最大时对应的单词;
S26:将所述第一单词对应的根节点的矢量表达,作为所述待分析语句的隐式表达式。
本申请通过重要性度量值,实现对待分析语句的断句和拆分,将待分析语句拆分成倒立的树状结构。然后通过两个循环神经网络分别从正向和逆向进行卷积运算,然后再将两个循环神经网络的输出结果进行相乘,则得到指定根节点的矢量表达,然后依次根据倒立的树状结构,递归至树状结构的所有子节点和叶子节点均参与运算,直至得到重要性度量值最大的第一单词的矢量表达,即得到倒立的树状结构的总根节点对应的矢量表达,作为待分析语句的隐式表达式。
倒立的树状结构的根节点也可称为父节点,定义上述父节点为整句话对应的原始向量。父节点往下则是左右两个子节点。设定整句话按照指定单词划分后得到的两个分句,分别看作父节点的左右子树。然后将左右子树视为序列,并使用RNN对该序列进行编码。将左侧子树的子节点与右侧子树的子节点分开,并使用两个RNN进行卷积计算:第一个RNN依据整句话的排序从前向后编码左侧子节点序列,第二个RNN依据整句话的排序从后向前编码右侧子节点序列。每个RNN最后输出的是拆分左右子树的指定单词对应的向量表示,指定单词作为当前子节点,当前子节点的向量表示是由左侧RNN模型的隐藏状态与右侧RNN模型的隐藏状态共同决定。取重要性度量值排名第一的向量vi对应的单词,作为指定单词,对原句[v1,v2,...,vn]进行划分,划分后左侧的句子作为根节点的左子树子节点,右侧的句子作为根节点的右子树子节点。因此左子树子节点包括[v1,v2,...,vi],右子树子节点包括[vi,vi+1,...,vn],示意图如附图2所示。因此,对于非叶子节点,使用以下公式来重新计算子节点的矢量表达v:即先计算fi=RNNF(v1,v2,...,vi);以及bi=RNNB(vi,vi+1,...,vn);然后通过v=fi·bi得到矢量表达v。上述RNNF表示正向传播的RNN,RNNB表示逆向传播的RNN,fi是正向传播的RNN得到的隐藏向量表达,bi是逆向传播的RNN得到的隐藏向量表达,最终将fi和bi进行点乘得到一个融合了上下文的单词表达形式v。再分别将子节点的左右子节点作为下一级子节点,按照上述方式进行递归循环,直至断句和拆分至叶节点处停止。上述递归计算从叶子节点依次递归至第一单词对应的根节点,输出第一单词对应的矢量表达,作为整个语句的隐藏状态的隐式表达式。
进一步地,所述按照所述待分析语句中每个单词分别对应的重要性度量值,将所述待分析语句拆分成树状结构的步骤S21,包括:
S211:按照所述待分析语句中每个单词分别对应的重要性度量值,确定所述待分析语句中重要性度量值最大的第一单词;
S212:以所述第一单词为分界点,将所述待分析语句拆分成第一子句和第二子句,其中,所述第一单词作为所述树状结构的根节点;
S213:以所述第一子句中重要性度量值最大的第二单词为分界点,将所述第一子句拆分成第三子句和第四子句,以所述第二子句中重要性度量值最大的第三单词为分界点,将所述第二子句拆分成第五子句和第六子句,其中,所述第二单词和所述第三单词均为所述根节点的子节点;
S214:按照所述第一子句和第二子句的拆分过程,拆分所述待分析语句至叶子节点,形成多层节点组成的树状结构,其中,所述叶子节点为不存在子节点的节点。
本申请通过重要性度量值的计算方式,一次性得到待分析语句中每个单词分别对应的重要性度量值。然后将重要性度量值最大的第一单词作为树结构的父节点,然后将待分析语句的两个分句中的重要性度量值最大的单词作为父节点的子节点,然后再继续根据重要性度量值,将分句对应的子分句中的重要性度量值最大的单词,作为上述子节点的下一级子节点,直至拆分至叶子节点。
进一步地,获取待分析语句中每个单词分别对应的重要性度量值的步骤S1,包括:
S11:对待分析语句进行词嵌入以及位置编码,得到所述待分析语句中每个单词分别对应的向量表达;
S12:将所述待分析语句中每个单词分别对应的向量表达,按照在所述待分析语句中的排序,依次输入自注意网络中,得到所述待分析语句中每个单词分别对应的重要性度量值。
本申请通过对词嵌入以及位置编码的向量,引入自注意力机制,将句中每个单词的重要性进行量化,从而使得最终输出的隐藏状态融合了句中每个单词及其相应的重要性度量值,大大提升了模型的表达能力,因此后续对候选人回答的情感分类结果也会更加精准。
进一步地,所述对待分析语句进行词嵌入以及位置编码,得到所述待分析语句中每个单词分别对应的向量表达的步骤S11,包括:
S111:根据第一计算公式计算指定单词经词嵌入后的第一向量,根据第二公式计算所述指定单词对应位置编码的第二向量;
S112:根据所述第一向量和第二向量,通过第三计算公式计算得到所述指定单词对应的向量表达;
S113:根据所述指定单词对应的向量表达的计算过程,计算所述待分析语句中每个单词分别对应的向量表达。
本申请的第一计算公式为:wi=Embedding(x),第二计算公式为:
第三计算公式为vi=g(Wv·(wi·pi)+bv)。举例地,待分析语句为一个包含n个单词的句子,表示为X=[x1,x2,...,xn],假设第i个单词的向量记作vi,定义vi是融合了第i个单词的词嵌入的向量,以及位置编码的向量。wi是第i个单词经过词嵌入后的向量表示,词嵌入将语句中的单词进行one hot编码,向量维度可预先设定为512维。pi是第i个单词的位置编码的向量,W是权重矩阵,b是偏置参数,g是激活函数。将向量wi和pi点乘后经过线性变换和非线性激活函数g,并将其还原成512维,得到第i个单词分别对应的向量表达[v1,v2,...,vn]。
进一步地,将所述待分析语句中每个单词分别对应的向量表达,按照在所述待分析语句中的排序,依次输入自注意网络中,得到所述待分析语句中每个单词分别对应的重要性度量值的步骤S12,包括:
S121:将所述待分析语句中每个单词分别对应的向量表达,按照在所述待分析语句中的排序,依次输入自注意网络中;
S122:通过调用所述自注意网络中的第四计算公式,分别计算所述待分析语句中每个单词分别对应的重要性度量值。
本申请的第四计算公式如下:softmax(vT*v/dk)*v,计算得到重要性度量向量,作为重要性度量值,使得句子中的每个单词呈现不同的重要性度量,可进行梯度拆分语句。
进一步地,获取待分析语句中每个单词分别对应的重要性度量值的步骤S1之前,包括:
S101:将预设分类函数加载至分类器,并初始化赋值;
S102:将训练语句的矢量表达和句子标签,输入加载了所述预设分类函数的分类器中进行分类训练;
S103:判断损失函数是否收敛,其中,所述损失函数为预测分类结果和真实分类结果的交叉熵;
S104:若是,则判定训练得到了所述语义情感分析分类器。
本申请通过将获得的v即可作为整个句子的向量表示,将其连同标签yi一起输入分类器中进行预测,分类器的函数如下:
其中,W和b都是分类器的参数。先随机初始化赋值后,根据其预测结果/>和真实标签y的交叉熵作为损失函数对分类器的参数W和b进行不断修正。
训练完成后,对于新输入的无标记候选人回答文本X`,经过之前的处理和计算后可以得到其隐藏状态v′,利用分类器进行预测如下:
本申请分析语义情感的方法的流程示意图,如图3所示。本申请的语义情感分析,可通过说话人的回答迅速说话人的某些性格特征进行判断,并给出必要和合理的追问。通过捕获上下文的表达,提高了对说话人回答的整句话的理解程度,提升了面试官和候选人双方的面试体验。与此同时,硬件的应答速度也得到了提高,所以不仅节省了计算机的存储空间,也提高了软件的运行速度。
参照图4,本申请一实施例的分析语义情感的装置,包括:
获取模块1,用于获取待分析语句中每个单词分别对应的重要性度量值;
得到模块2,用于根据所述待分析语句中每个单词分别对应的重要性度量值,通过两个并行运行的循环神经网络模型,得到所述待分析语句对应的隐式表达式,其中,所述隐式表达式融合了上下文的语义依赖关系;
输入模块3,用于将所述待分析语句对应的隐式表达式以及所述待分析语句对应的预设句子标签,输入语义情感分析分类器;
接收模块4,用于接收所述语义情感分析分类器对所述待分析语句的情感分析分类结果。
本申请的重要性度量值通过引入自注意力机制计算得到,通过将待分析语句中每个单词的重要性进行量化,并通过两个并行运行的循环神经网络模型迭代计算,从而使得最终输出的待分析语句的隐藏状态,融合了待分析语句中每个单词的语义及其相应的重要性度量值,融合了上下文的语义依赖关系,融合了句中每个单词及其相应的重要性度量,使句意的情感倾向更明显,语句表达更精准,大大提升了表达能力。上述句子标签区别各个语句在文中的位置关系,包括但不限于第几句话,或第几段第几句等等。然后通过将表示整个句子隐藏状态的隐式表达式,输入预训练好参量的语义情感分析分类器,进行情感分类分析。情感分类包括积极情感和消极情感。通过对语句的情感分析,提升对说话人的心态了解,达到更精准地识别说话人个性特征的目的。
进一步地,得到模块2,包括:
拆分单元,用于按照所述待分析语句中每个单词分别对应的重要性度量值,将所述待分析语句拆分成树状结构,其中,所述树状结构包括叶子节点、子节点和根节点;
输入单元,用于将第一叶子节点包含的分句,按照所述待分析语句的正向排序输入第一循环神经网络,将第二叶子节点包含的分句,按照所述待分析语句的逆向排序输入第二循环神经网络,其中,所述第一叶子节点和所述第二叶子节点为同属于任意一个指定子节点的一对叶子节点;
第一得到单元,用于将所述第一循环神经网络输出的正向隐藏向量,乘以所述第二循环神经网络输出的逆向隐藏向量,得到所述指定子节点的矢量表达;
计算单元,用于根据所述指定根节点的矢量表达过程,按照所述树状结构,依次递归计算至第一单词对应的根节点的矢量表达,其中,所述第一单词为重要性度量值最大时对应的单词;
作为单元,用于将所述第一单词对应的根节点的矢量表达,作为所述待分析语句的隐式表达式。
本申请通过重要性度量值,实现对待分析语句的断句和拆分,将待分析语句拆分成倒立的树状结构。然后通过两个循环神经网络分别从正向和逆向进行卷积运算,然后再将两个循环神经网络的输出结果进行相乘,则得到指定根节点的矢量表达,然后依次根据倒立的树状结构,递归至树状结构的所有子节点和叶子节点均参与运算,直至得到重要性度量值最大的第一单词的矢量表达,即得到倒立的树状结构的总根节点对应的矢量表达,作为待分析语句的隐式表达式。
倒立的树状结构的根节点也称为父节点,定义上述父节点为整句话对应的原始向量。父节点往下则是左右两个子节点。设定整句话按照指定单词划分后得到的两个分句,分别看作父节点的左右子树。然后将左右子树视为序列,并使用RNN对该序列进行编码。将左侧子树的子节点与右侧子树的子节点分开,并使用两个RNN进行卷积计算:第一个RNN依据整句话的排序从前向后编码左侧子节点序列,第二个RNN依据整句话的排序从后向前编码右侧子节点序列。每个RNN最后输出的是拆分左右子树的指定单词对应的向量表示,指定单词作为当前子节点,当前子节点的向量表示是由左侧RNN模型的隐藏状态与右侧RNN模型的隐藏状态共同决定。取重要性度量值排名第一的向量vi对应的单词,作为指定单词,对原句[vi,vi+1,...,vn]进行划分,划分后左侧的句子作为根节点的左子树子节点,右侧的句子作为根节点的右子树子节点。因此左子树子节点包括[v1,v2,...,vi],右子树子节点包括[vi,vi+1,...,vn],示意图如附图2所示。因此,对于非叶子节点,使用以下公式来重新计算子节点的矢量表达v:即先计算fi=RNNF(v1,v2,...,vi);以及bi=RNNB(vi,vi+1,...,vn);然后通过v=fi·bi得到矢量表达v。上述RNNF表示正向传播的RNN,RNNB表示逆向传播的RNN,fi是正向传播的RNN得到的隐藏向量表达,bi是逆向传播的RNN得到的隐藏向量表达,最终将fi和bi进行点乘得到一个融合了上下文的单词表达形式v。再分别将子节点的左右子节点作为下一级子节点,按照上述方式进行递归循环,直至断句和拆分至叶节点处停止。上述递归计算从叶子节点依次递归至第一单词对应的根节点,输出第一单词对应的矢量表达,作为整个语句的隐藏状态的隐式表达式。
进一步地,拆分单元,包括:
确定子单元,用于按照所述待分析语句中每个单词分别对应的重要性度量值,确定所述待分析语句中重要性度量值最大的第一单词;
第一拆分子单元,用于以所述第一单词为分界点,将所述待分析语句拆分成第一子句和第二子句,其中,所述第一单词作为所述树状结构的根节点;
第二拆分子单元,用于以所述第一子句中重要性度量值最大的第二单词为分界点,将所述第一子句拆分成第三子句和第四子句,以所述第二子句中重要性度量值最大的第三单词为分界点,将所述第二子句拆分成第五子句和第六子句,其中,所述第二单词和所述第三单词均为所述根节点的子节点;
第三拆分子单元,用于按照所述第一子句和第二子句的拆分过程,拆分所述待分析语句至叶子节点,形成多层节点组成的树状结构,其中,所述叶子节点为不存在子节点的节点。
本申请通过重要性度量值的计算方式,一次性得到待分析语句中每个单词分别对应的重要性度量值。然后将重要性度量值最大的第一单词作为树结构的父节点,然后将待分析语句的两个分句中的重要性度量值最大的单词作为父节点的子节点,然后再继续根据重要性度量值,将分句对应的子分句中的重要性度量值最大的单词,作为上述子节点的下一级子节点,直至拆分至叶子节点。
进一步地,获取模块1,包括:
编码单元,用于对待分析语句进行词嵌入以及位置编码,得到所述待分析语句中每个单词分别对应的向量表达;
第二得到单元,用于将所述待分析语句中每个单词分别对应的向量表达,按照在所述待分析语句中的排序,依次输入自注意网络中,得到所述待分析语句中每个单词分别对应的重要性度量值。
本申请通过对词嵌入以及位置编码的向量,引入自注意力机制,将句中每个单词的重要性进行量化,从而使得最终输出的隐藏状态融合了句中每个单词及其相应的重要性度量值,大大提升了模型的表达能力,因此后续对候选人回答的情感分类结果也会更加精准。
进一步地,编码单元,包括:
第一计算子单元,用于根据第一计算公式计算指定单词经词嵌入后的第一向量,根据第二公式计算所述指定单词对应位置编码的第二向量;
第二计算子单元,用于根据所述第一向量和第二向量,通过第三计算公式计算得到所述指定单词对应的向量表达;
第三计算子单元,用于根据所述指定单词对应的向量表达的计算过程,计算所述待分析语句中每个单词分别对应的向量表达。
本申请的第一计算公式为:wi=Embedding(x),第二计算公式为:
第三计算公式为vi=g(Wv·(wi·pi)+bv)。举例地,待分析语句为一个包含n个单词的句子,表示为X=[x1,x2,...,xn],假设第i个单词的向量记作vi,定义vi是融合了第i个单词的词嵌入的向量,以及位置编码的向量。wi是第i个单词经过词嵌入后的向量表示,词嵌入将语句中的单词进行one hot编码,向量维度可预先设定为512维。pi是第i个单词的位置编码的向量,W是权重矩阵,b是偏置参数,g是激活函数。将向量wi和pi点乘后经过线性变换和非线性激活函数g,并将其还原成512维,得到第i个单词分别对应的向量表达[vi,vi+1,...,vn]。
进一步地,第二得到单元,包括:
输入子单元,用于将所述待分析语句中每个单词分别对应的向量表达,按照在所述待分析语句中的排序,依次输入自注意网络中;
第四计算子单元,用于通过调用所述自注意网络中的第四计算公式,分别计算所述待分析语句中每个单词分别对应的重要性度量值。
本申请的第四计算公式如下:softmax(vT*v/dk)*v,计算得到重要性度量值向量,作为重要性度量值,使得句子中的每个单词呈现不同的重要性度量,可进行梯度拆分语句。
进一步地,分析语义情感的装置,包括:
赋值模块,用于将预设分类函数加载至分类器,并初始化赋值;
训练模块,用于将训练语句的矢量表达和句子标签,输入加载了所述预设分类函数的分类器中进行分类训练;
判断模块,用于判断损失函数是否收敛,其中,所述损失函数为预测分类结果和真实分类结果的交叉熵;
判定模块,用于若收敛,则判定训练得到了所述语义情感分析分类器。
本申请通过将获得的v即可作为整个句子的向量表示,将其连同标签yi一起输入分类器中进行预测,分类器的函数如下:
其中,W和b都是分类器的参数。先随机初始化赋值后,根据其预测结果/>和真实标签y的交叉熵作为损失函数对分类器的参数W和b进行不断修正。
训练完成后,对于新输入的无标记候选人回答文本X`,经过之前的处理和计算后可以得到其隐藏状态v′,利用分类器进行预测如下:
本申请分析语义情感的方法的流程示意图,如图3所示。本申请的语义情感分析,可通过说话人的回答迅速说话人的某些性格特征进行判断,并给出必要和合理的追问。通过捕获上下文的表达,提高了对说话人回答的整句话的理解程度,提升了面试官和候选人双方的面试体验。与此同时,硬件的应答速度也得到了提高,所以不仅节省了计算机的存储空间,也提高了软件的运行速度。
本申请的分析语义情感的数据存储于区块链中,基于区块链的优势,实现数据存储和分享。区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层。
区块链底层平台可以包括用户管理、基础服务、智能合约以及运营监控等处理模块。其中,用户管理模块负责所有区块链参与者的身份信息管理,包括维护公私钥生成(账户管理)、密钥管理以及用户真实身份和区块链地址对应关系维护(权限管理)等,并且在授权的情况下,监管和审计某些真实身份的交易情况,提供风险控制的规则配置(风控审计);基础服务模块部署在所有区块链节点设备上,用来验证业务请求的有效性,并对有效请求完成共识后记录到存储上,对于一个新的业务请求,基础服务先对接口适配解析和鉴权处理(接口适配),然后通过共识算法将业务信息加密(共识管理),在加密之后完整一致的传输至共享账本上(网络通信),并进行记录存储;智能合约模块负责合约的注册发行以及合约触发和合约执行,开发人员可以通过某种编程语言定义合约逻辑,发布到区块链上(合约注册),根据合约条款的逻辑,调用密钥或者其它的事件触发执行,完成合约逻辑,同时还提供对合约升级注销的功能;运营监控模块主要负责产品发布过程中的部署、配置的修改、合约设置、云适配以及产品运行中的实时状态的可视化输出,例如:告警、监控网络情况、监控节点设备健康状态等。
参照图5,本申请实施例中还提供一种计算机设备,该计算机设备可以是服务器,其内部结构可以如图5所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储分析语义情感的过程需要的所有数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现分析语义情感的方法。
上述处理器执行上述分析语义情感的方法,包括:获取待分析语句中每个单词分别对应的重要性度量值;根据所述待分析语句中每个单词分别对应的重要性度量值,通过两个并行运行的循环神经网络模型,得到所述待分析语句对应的隐式表达式,其中,所述隐式表达式融合了上下文的语义依赖关系;将所述待分析语句对应的隐式表达式以及所述待分析语句对应的预设句子标签,输入语义情感分析分类器;接收所述语义情感分析分类器对所述待分析语句的情感分析分类结果。
上述计算机设备,通过引入自注意力机制,将句中每个单词的重要性通过重要性度量值进行量化,然后根据重要单词所处位置,通过由树的层次化遍历思想改进的RNN,获取当前单词在整个句子中的含义,从而使得最终输出的整个句子的隐藏状态中,融合了句中每个单词及其相应的重要性度量值。
在一个实施例中,上述处理器根据所述待分析语句中每个单词分别对应的重要性度量值,通过两个并行运行的循环神经网络模型,得到所述待分析语句对应的隐式表达式的步骤,包括:按照所述待分析语句中每个单词分别对应的重要性度量值,将所述待分析语句拆分成树状结构,其中,所述树状结构包括叶子节点、子节点和根节点;将第一叶子节点包含的分句,按照所述待分析语句的正向排序输入第一循环神经网络,将第二叶子节点包含的分句,按照所述待分析语句的逆向排序输入第二循环神经网络,其中,所述第一叶子节点和所述第二叶子节点为同属于任意一个指定子节点的一对叶子节点;将所述第一循环神经网络输出的正向隐藏向量,乘以所述第二循环神经网络输出的逆向隐藏向量,得到所述指定子节点的矢量表达;根据所述指定子节点的矢量表达,按照所述树状结构,依次递归计算至第一单词对应的根节点的矢量表达,其中,所述第一单词为重要性度量值最大时对应的单词;将所述第一单词对应的根节点的矢量表达,作为所述待分析语句的隐式表达式。
在一个实施例中,上述处理器按照所述待分析语句中每个单词分别对应的重要性度量值,将所述待分析语句拆分成树状结构的步骤,包括:按照所述待分析语句中每个单词分别对应的重要性度量值,确定所述待分析语句中重要性度量值最大的第一单词;以所述第一单词为分界点,将所述待分析语句拆分成第一子句和第二子句,其中,所述第一单词作为所述树状结构的根节点;以所述第一子句中重要性度量值最大的第二单词为分界点,将所述第一子句拆分成第三子句和第四子句,以所述第二子句中重要性度量值最大的第三单词为分界点,将所述第二子句拆分成第五子句和第六子句,其中,所述第二单词和所述第三单词均为所述根节点的子节点;按照所述第一子句和第二子句的拆分过程,拆分所述待分析语句至叶子节点,形成多层节点组成的树状结构,其中,所述叶子节点为不存在子节点的节点。
在一个实施例中,上述处理器获取待分析语句中每个单词分别对应的重要性度量值的步骤,包括:对待分析语句进行词嵌入以及位置编码,得到所述待分析语句中每个单词分别对应的向量表达;将所述待分析语句中每个单词分别对应的向量表达,按照在所述待分析语句中的排序,依次输入自注意网络中,得到所述待分析语句中每个单词分别对应的重要性度量值。
在一个实施例中,上述处理器对待分析语句进行词嵌入以及位置编码,得到所述待分析语句中每个单词分别对应的向量表达的步骤,包括:根据第一计算公式计算指定单词经词嵌入后的第一向量,根据第二公式计算所述指定单词对应位置编码的第二向量;根据所述第一向量和第二向量,通过第三计算公式计算得到所述指定单词对应的向量表达;根据所述指定单词对应的向量表达的计算过程,计算所述待分析语句中每个单词分别对应的向量表达。
在一个实施例中,上述处理器将所述待分析语句中每个单词分别对应的向量表达,按照在所述待分析语句中的排序,依次输入自注意网络中,得到所述待分析语句中每个单词分别对应的重要性度量值的步骤,包括:将所述待分析语句中每个单词分别对应的向量表达,按照在所述待分析语句中的排序,依次输入自注意网络中;通过调用所述自注意网络中的第四计算公式,分别计算所述待分析语句中每个单词分别对应的重要性度量值。
在一个实施例中,上述处理器获取待分析语句中每个单词分别对应的重要性度量值的步骤之前,包括:将预设分类函数加载至分类器,并初始化赋值;将训练语句的矢量表达和句子标签,输入加载了所述预设分类函数的分类器中进行分类训练;判断损失函数是否收敛,其中,所述损失函数为预测分类结果和真实分类结果的交叉熵;若是,则判定训练得到了所述语义情感分析分类器。
本领域技术人员可以理解,图5中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定。
本申请一实施例还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现分析语义情感的方法,包括:获取待分析语句中每个单词分别对应的重要性度量值;根据所述待分析语句中每个单词分别对应的重要性度量值,通过两个并行运行的循环神经网络模型,得到所述待分析语句对应的隐式表达式,其中,所述隐式表达式融合了上下文的语义依赖关系;将所述待分析语句对应的隐式表达式以及所述待分析语句对应的句子标签,输入语义情感分析分类器;接收所述语义情感分析分类器对所述待分析语句的情感分析分类结果。
上述计算机可读存储介质,通过引入自注意力机制,将句中每个单词的重要性通过重要性度量值进行量化,然后根据重要单词所处位置,通过由树的层次化遍历思想改进的RNN,获取当前单词在整个句子中的含义,从而使得最终输出的整个句子的隐藏状态中,融合了句中每个单词及其相应的重要性度量值。
在一个实施例中,上述处理器根据所述待分析语句中每个单词分别对应的重要性度量值,通过两个并行运行的循环神经网络模型,得到所述待分析语句对应的隐式表达式的步骤,包括:按照所述待分析语句中每个单词分别对应的重要性度量值,将所述待分析语句拆分成树状结构,其中,所述树状结构包括叶子节点、子节点和根节点;将第一叶子节点包含的分句,按照所述待分析语句的正向排序输入第一循环神经网络,将第二叶子节点包含的分句,按照所述待分析语句的逆向排序输入第二循环神经网络,其中,所述第一叶子节点和所述第二叶子节点为同属于任意一个指定子节点的一对叶子节点;将所述第一循环神经网络输出的正向隐藏向量,乘以所述第二循环神经网络输出的逆向隐藏向量,得到所述指定子节点的矢量表达;根据所述指定子节点的矢量表达,按照所述树状结构,依次递归计算至第一单词对应的根节点的矢量表达,其中,所述第一单词为重要性度量值最大时对应的单词;将所述第一单词对应的根节点的矢量表达,作为所述待分析语句的隐式表达式。
在一个实施例中,上述处理器按照所述待分析语句中每个单词分别对应的重要性度量值,将所述待分析语句拆分成树状结构的步骤,包括:按照所述待分析语句中每个单词分别对应的重要性度量值,确定所述待分析语句中重要性度量值最大的第一单词;以所述第一单词为分界点,将所述待分析语句拆分成第一子句和第二子句,其中,所述第一单词作为所述树状结构的根节点;以所述第一子句中重要性度量值最大的第二单词为分界点,将所述第一子句拆分成第三子句和第四子句,以所述第二子句中重要性度量值最大的第三单词为分界点,将所述第二子句拆分成第五子句和第六子句,其中,所述第二单词和所述第三单词均为所述根节点的子节点;按照所述第一子句和第二子句的拆分过程,拆分所述待分析语句至叶子节点,形成多层节点组成的树状结构,其中,所述叶子节点为不存在子节点的节点。
在一个实施例中,上述处理器获取待分析语句中每个单词分别对应的重要性度量值的步骤,包括:对待分析语句进行词嵌入以及位置编码,得到所述待分析语句中每个单词分别对应的向量表达;将所述待分析语句中每个单词分别对应的向量表达,按照在所述待分析语句中的排序,依次输入自注意网络中,得到所述待分析语句中每个单词分别对应的重要性度量值。
在一个实施例中,上述处理器对待分析语句进行词嵌入以及位置编码,得到所述待分析语句中每个单词分别对应的向量表达的步骤,包括:根据第一计算公式计算指定单词经词嵌入后的第一向量,根据第二公式计算所述指定单词对应位置编码的第二向量;根据所述第一向量和第二向量,通过第三计算公式计算得到所述指定单词对应的向量表达;根据所述指定单词对应的向量表达的计算过程,计算所述待分析语句中每个单词分别对应的向量表达。
在一个实施例中,上述处理器将所述待分析语句中每个单词分别对应的向量表达,按照在所述待分析语句中的排序,依次输入自注意网络中,得到所述待分析语句中每个单词分别对应的重要性度量值的步骤,包括:将所述待分析语句中每个单词分别对应的向量表达,按照在所述待分析语句中的排序,依次输入自注意网络中;通过调用所述自注意网络中的第四计算公式,分别计算所述待分析语句中每个单词分别对应的重要性度量值。
在一个实施例中,上述处理器获取待分析语句中每个单词分别对应的重要性度量值的步骤之前,包括:将预设分类函数加载至分类器,并初始化赋值;将训练语句的矢量表达和句子标签,输入加载了所述预设分类函数的分类器中进行分类训练;判断损失函数是否收敛,其中,所述损失函数为预测分类结果和真实分类结果的交叉熵;若是,则判定训练得到了所述语义情感分析分类器。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,上述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
以上所述仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。
Claims (8)
1.一种分析语义情感的方法,其特征在于,包括:
获取待分析语句中每个单词分别对应的重要性度量值;
根据所述待分析语句中每个单词分别对应的重要性度量值,通过两个并行运行的循环神经网络模型,得到所述待分析语句对应的隐式表达式,其中,所述隐式表达式融合了上下文的语义依赖关系;
将所述待分析语句对应的隐式表达式以及所述待分析语句对应的预设句子标签,输入语义情感分析分类器;
接收所述语义情感分析分类器对所述待分析语句的情感分析分类结果;
所述根据所述待分析语句中每个单词分别对应的重要性度量值,通过两个并行运行的循环神经网络模型,得到所述待分析语句对应的隐式表达式的步骤,包括:
按照所述待分析语句中每个单词分别对应的重要性度量值,将所述待分析语句拆分成树状结构,其中,所述树状结构包括叶子节点、子节点和根节点;
将第一叶子节点包含的分句,按照所述待分析语句的正向排序输入第一循环神经网络,将第二叶子节点包含的分句,按照所述待分析语句的逆向排序输入第二循环神经网络,其中,所述第一叶子节点和所述第二叶子节点为同属于任意一个指定子节点的一对叶子节点;
将所述第一循环神经网络输出的正向隐藏向量,乘以所述第二循环神经网络输出的逆向隐藏向量,得到所述指定子节点的矢量表达;
根据所述指定子节点的矢量表达,按照所述树状结构,依次递归计算至第一单词对应的根节点的矢量表达,其中,所述第一单词为重要性度量值最大时对应的单词;
将所述第一单词对应的根节点的矢量表达,作为所述待分析语句的隐式表达式;
所述按照所述待分析语句中每个单词分别对应的重要性度量值,将所述待分析语句拆分成树状结构的步骤,包括:
按照所述待分析语句中每个单词分别对应的重要性度量值,确定所述待分析语句中重要性度量值最大的第一单词;
以所述第一单词为分界点,将所述待分析语句拆分成第一子句和第二子句,其中,所述第一单词作为所述树状结构的根节点;
以所述第一子句中重要性度量值最大的第二单词为分界点,将所述第一子句拆分成第三子句和第四子句,以所述第二子句中重要性度量值最大的第三单词为分界点,将所述第二子句拆分成第五子句和第六子句,其中,所述第二单词和所述第三单词均为所述根节点的子节点;
按照所述第一子句和第二子句的拆分过程,拆分所述待分析语句至叶子节点,形成多层节点组成的树状结构,其中,所述叶子节点为不存在子节点的节点。
2.根据权利要求1所述的分析语义情感的方法,其特征在于,获取待分析语句中每个单词分别对应的重要性度量值的步骤,包括:
对待分析语句进行词嵌入以及位置编码,得到所述待分析语句中每个单词分别对应的向量表达;
将所述待分析语句中每个单词分别对应的向量表达,按照在所述待分析语句中的排序,依次输入自注意网络中,得到所述待分析语句中每个单词分别对应的重要性度量值。
3.根据权利要求2所述的分析语义情感的方法,其特征在于,所述对待分析语句进行词嵌入以及位置编码,得到所述待分析语句中每个单词分别对应的向量表达的步骤,包括:
根据第一计算公式计算指定单词经词嵌入后的第一向量,根据第二公式计算所述指定单词对应位置编码的第二向量;
根据所述第一向量和第二向量,通过第三计算公式计算得到所述指定单词对应的向量表达;
根据所述指定单词对应的向量表达的计算过程,计算所述待分析语句中每个单词分别对应的向量表达。
4.根据权利要求2所述的分析语义情感的方法,其特征在于,所述将所述待分析语句中每个单词分别对应的向量表达,按照在所述待分析语句中的排序,依次输入自注意网络中,得到所述待分析语句中每个单词分别对应的重要性度量值的步骤,包括:
将所述待分析语句中每个单词分别对应的向量表达,按照在所述待分析语句中的排序,依次输入自注意网络中;
通过调用所述自注意网络中的第四计算公式,分别计算所述待分析语句中每个单词分别对应的重要性度量值。
5.根据权利要求1所述的分析语义情感的方法,其特征在于,所述获取待分析语句中每个单词分别对应的重要性度量值的步骤之前,包括:
将预设分类函数加载至分类器,并初始化赋值;
将训练语句的矢量表达和句子标签,输入加载了所述预设分类函数的分类器中进行分类训练;
判断损失函数是否收敛,其中,所述损失函数为预测分类结果和真实分类结果的交叉熵;
若是,则判定训练得到了所述语义情感分析分类器。
6.一种分析语义情感的装置,其特征在于,包括:
获取模块,用于获取待分析语句中每个单词分别对应的重要性度量值;
得到模块,用于根据所述待分析语句中每个单词分别对应的重要性度量值,通过两个并行运行的循环神经网络模型,得到所述待分析语句对应的隐式表达式,其中,所述隐式表达式融合了上下文的语义依赖关系;
输入模块,用于将所述待分析语句对应的隐式表达式以及所述待分析语句对应的预设句子标签,输入语义情感分析分类器;
接收模块,用于接收所述语义情感分析分类器对所述待分析语句的情感分析分类结果;
所述得到模块包括:
拆分单元,用于按照所述待分析语句中每个单词分别对应的重要性度量值,将所述待分析语句拆分成树状结构,其中,所述树状结构包括叶子节点、子节点和根节点;
输入单元,用于将第一叶子节点包含的分句,按照所述待分析语句的正向排序输入第一循环神经网络,将第二叶子节点包含的分句,按照所述待分析语句的逆向排序输入第二循环神经网络,其中,所述第一叶子节点和所述第二叶子节点为同属于任意一个指定子节点的一对叶子节点;
第一得到单元,用于将所述第一循环神经网络输出的正向隐藏向量,乘以所述第二循环神经网络输出的逆向隐藏向量,得到所述指定子节点的矢量表达;
计算单元,用于根据所述指定根节点的矢量表达过程,按照所述树状结构,依次递归计算至第一单词对应的根节点的矢量表达,其中,所述第一单词为重要性度量值最大时对应的单词;
作为单元,用于将所述第一单词对应的根节点的矢量表达,作为所述待分析语句的隐式表达式;
所述拆分单元,包括:
确定子单元,用于按照所述待分析语句中每个单词分别对应的重要性度量值,确定所述待分析语句中重要性度量值最大的第一单词;
第一拆分子单元,用于以所述第一单词为分界点,将所述待分析语句拆分成第一子句和第二子句,其中,所述第一单词作为所述树状结构的根节点;
第二拆分子单元,用于以所述第一子句中重要性度量值最大的第二单词为分界点,将所述第一子句拆分成第三子句和第四子句,以所述第二子句中重要性度量值最大的第三单词为分界点,将所述第二子句拆分成第五子句和第六子句,其中,所述第二单词和所述第三单词均为所述根节点的子节点;
第三拆分子单元,用于按照所述第一子句和第二子句的拆分过程,拆分所述待分析语句至叶子节点,形成多层节点组成的树状结构,其中,所述叶子节点为不存在子节点的节点。
7.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至5中任一项所述方法的步骤。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至5中任一项所述的方法的步骤。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011009900.4A CN112131888B (zh) | 2020-09-23 | 2020-09-23 | 分析语义情感的方法、装置、设备及存储介质 |
PCT/CN2020/125154 WO2021169364A1 (zh) | 2020-09-23 | 2020-10-30 | 分析语义情感的方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011009900.4A CN112131888B (zh) | 2020-09-23 | 2020-09-23 | 分析语义情感的方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112131888A CN112131888A (zh) | 2020-12-25 |
CN112131888B true CN112131888B (zh) | 2023-11-14 |
Family
ID=73841195
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011009900.4A Active CN112131888B (zh) | 2020-09-23 | 2020-09-23 | 分析语义情感的方法、装置、设备及存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN112131888B (zh) |
WO (1) | WO2021169364A1 (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113468334B (zh) * | 2021-09-06 | 2021-11-23 | 平安科技(深圳)有限公司 | 密文情感分类方法、装置、设备及存储介质 |
CN113919361A (zh) * | 2021-09-13 | 2022-01-11 | 聚好看科技股份有限公司 | 一种文本分类方法和装置 |
CN115204183B (zh) * | 2022-09-19 | 2022-12-27 | 华南师范大学 | 基于知识增强的双通道情感分析方法、装置以及设备 |
CN115659951B (zh) * | 2022-12-26 | 2023-03-21 | 华南师范大学 | 基于标签嵌入的语句情感分析方法、装置以及设备 |
CN116843345A (zh) * | 2023-08-30 | 2023-10-03 | 深圳市艾德网络科技发展有限公司 | 基于人工智能技术对客户交易的智能风控系统及方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108399158A (zh) * | 2018-02-05 | 2018-08-14 | 华南理工大学 | 基于依存树和注意力机制的属性情感分类方法 |
CN108628829A (zh) * | 2018-04-23 | 2018-10-09 | 苏州大学 | 基于树形循环神经网络的自动树库转化方法及系统 |
CN109214003A (zh) * | 2018-08-29 | 2019-01-15 | 陕西师范大学 | 基于多层注意力机制的循环神经网络生成标题的方法 |
CN110347831A (zh) * | 2019-06-28 | 2019-10-18 | 西安理工大学 | 基于自注意力机制的情感分类方法 |
WO2019214145A1 (zh) * | 2018-05-10 | 2019-11-14 | 平安科技(深圳)有限公司 | 文本情绪分析方法、装置及存储介质 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180107940A1 (en) * | 2010-04-27 | 2018-04-19 | Jeremy Lieberman | Artificial intelligence method and apparatus |
US9026425B2 (en) * | 2012-08-28 | 2015-05-05 | Xerox Corporation | Lexical and phrasal feature domain adaptation in statistical machine translation |
CN109472031B (zh) * | 2018-11-09 | 2021-05-04 | 电子科技大学 | 一种基于双记忆注意力的方面级别情感分类模型及方法 |
CN109446331B (zh) * | 2018-12-07 | 2021-03-26 | 华中科技大学 | 一种文本情绪分类模型建立方法及文本情绪分类方法 |
CN109740148B (zh) * | 2018-12-16 | 2023-12-22 | 北京工业大学 | 一种BiLSTM结合Attention机制的文本情感分析方法 |
CN109740167B (zh) * | 2019-02-01 | 2020-03-17 | 北京字节跳动网络技术有限公司 | 用于生成信息的方法和装置 |
CN109902175A (zh) * | 2019-02-20 | 2019-06-18 | 上海方立数码科技有限公司 | 一种基于神经网络结构模型的文本分类方法及分类系统 |
CN111144130A (zh) * | 2019-12-26 | 2020-05-12 | 辽宁工程技术大学 | 一种基于上下文感知的混合神经网络的细粒度情感分类方法 |
-
2020
- 2020-09-23 CN CN202011009900.4A patent/CN112131888B/zh active Active
- 2020-10-30 WO PCT/CN2020/125154 patent/WO2021169364A1/zh active Application Filing
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108399158A (zh) * | 2018-02-05 | 2018-08-14 | 华南理工大学 | 基于依存树和注意力机制的属性情感分类方法 |
CN108628829A (zh) * | 2018-04-23 | 2018-10-09 | 苏州大学 | 基于树形循环神经网络的自动树库转化方法及系统 |
WO2019214145A1 (zh) * | 2018-05-10 | 2019-11-14 | 平安科技(深圳)有限公司 | 文本情绪分析方法、装置及存储介质 |
CN109214003A (zh) * | 2018-08-29 | 2019-01-15 | 陕西师范大学 | 基于多层注意力机制的循环神经网络生成标题的方法 |
CN110347831A (zh) * | 2019-06-28 | 2019-10-18 | 西安理工大学 | 基于自注意力机制的情感分类方法 |
Non-Patent Citations (1)
Title |
---|
Improving Tree-LSTM with Tree Attention;Mahtab Ahmed等;https://arxiv.org/abs/1901.00066;第1-8页 * |
Also Published As
Publication number | Publication date |
---|---|
CN112131888A (zh) | 2020-12-25 |
WO2021169364A1 (zh) | 2021-09-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112131888B (zh) | 分析语义情感的方法、装置、设备及存储介质 | |
CN110597991B (zh) | 文本分类方法、装置、计算机设备及存储介质 | |
CN111506722B (zh) | 基于深度学习技术的知识图谱问答方法、装置及设备 | |
CN111061847A (zh) | 对话生成及语料扩充方法、装置、计算机设备和存储介质 | |
US20220129621A1 (en) | Bert-based machine-learning tool for predicting emotional response to text | |
CN113919344B (zh) | 文本处理方法和装置 | |
CN116415654A (zh) | 一种数据处理方法及相关设备 | |
CN116450796B (zh) | 一种智能问答模型构建方法及设备 | |
CN113569001A (zh) | 文本处理方法、装置、计算机设备及计算机可读存储介质 | |
CN112085091B (zh) | 基于人工智能的短文本匹配方法、装置、设备及存储介质 | |
CN112766319A (zh) | 对话意图识别模型训练方法、装置、计算机设备及介质 | |
CN114822683A (zh) | 药物与靶标的相互作用预测方法、装置、设备及存储介质 | |
CN113723070A (zh) | 文本相似度模型训练方法、文本相似度检测方法及装置 | |
CN114281931A (zh) | 文本匹配方法、装置、设备、介质及计算机程序产品 | |
Gong et al. | Continual pre-training of language models for math problem understanding with syntax-aware memory network | |
CN111191439A (zh) | 自然语句生成的方法、装置、计算机设备和存储介质 | |
CN113342927B (zh) | 敏感词识别方法、装置、设备及存储介质 | |
CN113609866A (zh) | 文本标记方法、装置、设备及存储介质 | |
CN110597977B (zh) | 数据处理方法、装置、计算机设备和存储介质 | |
Chen et al. | CNFRD: A Few‐Shot Rumor Detection Framework via Capsule Network for COVID‐19 | |
CN113849641B (zh) | 一种跨领域层次关系的知识蒸馏方法和系统 | |
CN114386436A (zh) | 文本数据的分析方法、模型训练方法、装置及计算机设备 | |
KR20230022005A (ko) | 화합물 정보 추출을 위한 장치 및 방법 | |
CN113961715A (zh) | 实体链接方法、装置、设备、介质及计算机程序产品 | |
CN113283461A (zh) | 基于区块链的金融大数据处理系统及方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40040482 Country of ref document: HK |
|
GR01 | Patent grant | ||
GR01 | Patent grant |