CN111753088A - 一种自然语言信息的处理方法 - Google Patents

一种自然语言信息的处理方法 Download PDF

Info

Publication number
CN111753088A
CN111753088A CN202010595643.0A CN202010595643A CN111753088A CN 111753088 A CN111753088 A CN 111753088A CN 202010595643 A CN202010595643 A CN 202010595643A CN 111753088 A CN111753088 A CN 111753088A
Authority
CN
China
Prior art keywords
natural language
vector
word
language information
node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202010595643.0A
Other languages
English (en)
Inventor
汪秀英
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN202010595643.0A priority Critical patent/CN111753088A/zh
Publication of CN111753088A publication Critical patent/CN111753088A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种自然语言处理的技术领域,揭露了一种自然语言信息的处理方法,包括:利用Huffman树将自然语言信息进行存储,将所述自然语言信息转换为自然语言向量;利用预训练的LC‑CRF模型对自然语言向量进行分词处理;提取歧义词的词汇单元向量,并构成歧义词特征矩阵;将歧义词特征矩阵输入预构建的词义消歧模型,利用所述词义消歧模型对歧义词的语义进行识别;基于词语综合权重的加权节点初始值及节点概率转移矩阵对每个词语的权重进行迭代更新,选择前N个权重比较大的词语作为关键词;将所述自然语言信息中的关键词向量作为输入向量,利用所述基于分段池化层的神经网络对自然语言信息中的情感进行识别。本发明实现了对自然语言信息的处理。

Description

一种自然语言信息的处理方法
技术领域
本发明涉及自然语言处理的技术领域,尤其涉及一种自然语言信息的处理方法。
背景技术
现阶段,整个世界的信息化程度随着互联网技术的发展已经达到了新的高度,同时为人类社会的信息量带来的难以想象的增长速度。在生活中,海量的自然语言信息为人类带来便利的同时也带来了很大困扰,即如何从大规模的信息高效获取所需内容。
由于自然语言存在较大的复杂性,一方面,自然语言没有固定的模式,因此有着丰富的表达方式,人类表达思想时有着自己的习惯,因此不同的人在描述同一事物时其表述方式往往不同;另一方面,自然语言本身蕴含着丰富的信息,对于相同内容文字,不同的人可能有着不同的理解。因此,对于计算机系统而言,处理这些只有人类才能理解的内容丰富的自然语言组成的文本是十分困难的。
在现有技术中,对自然语言信息进行处理的方式主要为基于jieba进行分词,然后基于语义词典进行词义消歧,并使用关键词抽取算法对自然语言中的关键词进行抽取。由于jieba分词技术是基于Trie树结构实现词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图,采用了动态规划查找最大概率路径,找出基于词频的最大切分组合,并未考虑到词与词之间的相互联系,因此分词结果并未包含词语中的内在信息;基于概率统计学的词义消歧方法,灵活性好,消歧效率高,但是消歧任务为语料库体量和类别所制约,其准确性较低,而基于语义词典的方法准确率较高,但构建词典需耗费大量的工作,效率难以提高,并且消歧方法单一;现有的关键词抽取算法主要为TextRank算法,该算法是基于图的排序算法,利用共现窗口实现部分词语之间的关系构建,对后续关键词进行排序,直接从文本本身中提取关键词,但是该方法没有分析词语重要性的不同是否会影响相邻节点权值转移的问题,并且没有利用文档语料库的整体信息,词语的权重信息并没有实际意义,不能区分连接上的强弱。
鉴于此,在实现基于词语间相互关系的自然语言信息分词,并准确对其中的歧义进行消除的基础上,如何对自然语言信息中的关键词信息进行抽取,并利用所抽取的关键词进行自然语言信息的分类,成为本领域技术人员亟待解决的问题。
发明内容
本发明提供一种自然语言信息的处理方法,在实现基于词语间相互关系的自然语言信息分词,并准确对其中的歧义进行消除的基础上,实现了对自然语言信息中的关键词信息进行抽取,并利用所抽取的关键词进行自然语言信息的分类。
为实现上述目的,本发明提供的一种自然语言信息的处理方法,包括:
利用Huffman树将自然语言信息进行存储,将所述自然语言信息转换为自然语言向量;
利用预训练的LC-CRF模型提取自然语言向量的前后信息以及局部特征信息,并对每个字符向量进行标注,从而依据每个字符的类别进行分词;
提取歧义词的词汇单元向量,并构成歧义词特征矩阵;
将歧义词特征矩阵输入预构建的词义消歧模型,利用所述词义消歧模型对歧义词的语义进行识别;
利用基于平均信息熵的权重计算算法计算自然语言信息中每个词汇向量的权重;
利用基于词语综合权重的加权节点初始值及节点概率转移矩阵进行权重迭代更新,选择前N个权重比较大的词语作为关键词;
将所述自然语言信息中的关键词向量,作为基于分段池化层的神经网络的输入,从而利用所述基于分段池化层的神经网络对自然语言信息中的情感进行识别。
可选地,所述利用Huffman树将自然语言信息进行存储,包括:
取一个适当大小的窗口当做语境,将所述自然语言信息输入到窗口中,并将它们的K维向量加和在一起,形成隐藏层K个节点;
输出层是一个巨大的二叉树,叶节点代表自然语言信息中所有的词,语料含有V个独立的词,则二叉树有|V|个叶节点,而这整颗二叉树构建的算法就是Huffman树;
隐层的每一个节点都会跟二叉树的内节点有连边,于是对于二叉树的每一个内节点都会有K条连边,每条边上也会有权值。
可选地,所述对每个字符向量进行标注,从而依据每个字符的类别进行分词,包括:
将经过卷积运算的向量输入到输出层中,所述输出层对自然语言向量1中每一个句子向量s进行评分,所述评分函数为:
Figure BDA0002557334550000031
其中:
i为句子向量s中的第i个字符;
λ为超参数;
li为给第i个字符注明的词性;
li-1为给第i-1个字符注明的词性;
对所述评分分数进行指数化和标准化处理,即可以得到自然语言向量1中一个句子向量s的词性标注正确概率值,若该概率值大于0.8,则认为该句子向量的词性标注正确,本发明则根据所标注的词性进行分词处理,否则将自然语言向量重新输入LC-CRF模型进行分词处理,所述概率值计算公式为:
Figure BDA0002557334550000032
其中:
1为自然语言向量;
s为自然语言向量中的一个句子向量。
可选地,所述提取歧义词的词汇单元向量,包括:
根据所述自然语言向量,对于自然语言信息中所存在的歧义词汇w,本发明分别提取歧义词汇w左侧第二个词汇单元向量FL2,左侧第一个词汇单元向量FL1,右侧第一个词汇单元向量FR1,右侧第二个词汇单元向量FR2
以词汇单元向量FL2、FL1、FR1和FR2为基础,构造特征矩阵Feature={FL2,FL1,FR1,FR2}。
可选地,所述利用所述词义消歧模型对歧义词的语义进行识别,包括:
所述词义消歧模型接收特征矩阵Feature={FL2,FL1,FR1,FR2},Ft为t时刻输入层所接收的向量,本发明赋值F1=FL2,F2=FL1,F3=FR1,F4=FR2,并依次对Ft进行下述处理:
1)将隐藏层结点状态初始化为0。隐藏层的结点接收特征向量Ft后,更新隐藏层的结点状态At
At=ReLU(UtFt+DAt-1)
其中:
Ut为t时刻输入层与隐藏层之间的连接权值矩阵;
Ft为t时刻的特征向量;
At为t时刻隐藏层的节点动态;
D为t-1时刻的隐藏层与t时刻的隐藏层之间的连接权值矩阵;
ReLU为激活函数,其形式为:
Figure BDA0002557334550000041
ReLU为激活函数,其形式为:
Figure BDA0002557334550000042
2)计算t时刻输出层结点的语义类概率分布向量Ot,在输出向量中,各个分量表示歧义词汇在各个语义类下的概率分布:
Figure BDA0002557334550000043
其中:
k表示第k种语义类;
V表示隐藏层与输出层之间的连接权值矩阵;
3)从t时刻语义类概率分布向量Ot={P(S1),P(S2),...,P(Sn)}中,选取概率值最大的语义类别Si作为t时刻词义消歧模型输出的歧义词汇的语义类别:
Si=max{P(S1),P(S2),...,P(Sn)}
其中:
Si为歧义词的第i种语义。
可选地,所述基于平均信息熵的权重计算公式为:
Figure BDA0002557334550000044
其中:
fwk为词w在自然语言信息k中出现的频次;
nw为词w在所有自然语言信息中出现的频次;
N表示自然语言信息的总数;
当词i在各类别自然语言信息中出现频率相当,则其WEn(i)的值接近于最小值0,表示其并不能很好地表示自然语言信息的主题内容;反之,如果词语i在各类文档中出现频率差别很大,其WEn(i)的值接近于最大值1,表示其对自然语言信息的主题有很好的表现力。
可选地,所述利用基于词语综合权重的加权节点初始值及节点概率转移矩阵进行权重迭代更新,包括:
1)计算词语i的综合权重Wweight(i):
Figure BDA0002557334550000051
其中:
WTF(i)为词语通过TF-IDF计算得到的权重值;
WEn(i)为词语的平均信息熵权值;
2)构建关键词图G(V,E),其中V为节点集合,E为节点之间的边集合;ln(Vi)是节点Vi的入度点的集合,即指向节点Vi的节点集合;Out(Vj)是节点Vi的出度点集合,即节点Vj指向的所有节点的集合;Wji是节点Vj与节点Vi之间边的权重;
3)计算关键词图中各节点的转移概率:
Figure BDA0002557334550000052
4)进行各节点的权重迭代,在各节点完成权重迭代后,选择前N个权重比较大的词语作为关键词向量并输出,所述节点的权重迭代公式为:
Figure BDA0002557334550000053
其中:
W(Vj,Vi)为节点Vj与Vi之间的转移概率;
d为阻尼系数,本发明取为0.85。
可选地,所述利用所述基于分段池化层的神经网络对自然语言信息中的情感进行识别,包括:
1)利用卷积核对输入的关键词向量xi进行卷积操作:
ci=f(ωxi+b)
其中:
ω∈Rh×d为卷积核的权重;
h表示在多少个相邻词上滑动;
b为偏置项;
f为ReLU激活函数;
因此本发明得到如下基于关键词向量的特征图:
c={c1,c2,...,cn-h+1}
其中:
n为关键词向量的长度;
2)将c平均分为若干t段,在每一段取最大ci值,将这些取出的最大值拼接为一个向量
Figure BDA0002557334550000061
为了捕获不同结构的关键特征,本发明采用分段池化,将卷积层输出的卷积向量分成若干个片段,每个片段也是一个小的卷积向量,然后再对每个小卷积向量做最大池化操作,分别提取最大特征,然后将这些最大特征拼接为一个新的特征向量;
3)利用softmax分类器完成对自然语言信息情感极性的分类:
Figure BDA0002557334550000062
其中:
W为权重矩阵;
b为偏置项;
在训练参数时,对神经元设定失活的概率,使每一个神经元有0.1的概率失活。
相对于现有技术,本发明提出一种自然语言信息的处理方法,该技术具有以下优势:
首先,由于jieba分词技术是基于Trie树结构实现词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图,采用了动态规划查找最大概率路径,找出基于词频的最大切分组合,并未考虑到词与词之间的相互联系,因此分词结果并未包含句子中的内在信息;因此本发明在输出层提出一种评分函数,对自然语言向量l中每一个句子向量s进行评分,所述评分函数为:
Figure BDA0002557334550000063
其中,i为句子向量s中的第i个字符,λ为超参数,ti为给第i个字符注明的词性,ti-1为给第i-1个字符注明的词性,当评分函数的分值较高时,则认为该句子向量的词性标注正确,本发明则根据所标注的词性进行分词处理,否则将自然语言向量重新输入LC-CRF模型进行分词处理,相较于现有技术,本发明充分考虑词与词之间的内在联系以进行分词处理,所得分词结果包含了句子中的内在信息,能更有效进行后续自然语言信息挖掘的处理。
其次,现有的关键词抽取算法主要为TextRank算法,该算法是基于图的排序算法,利用共现窗口实现部分词语之间的关系构建,对后续关键词进行排序,直接从文本本身中提取关键词,但是该方法没有分析词语重要性的不同是否会影响相邻节点权值转移的问题,并且没有利用文档语料库的整体信息,词语的权重信息并没有实际意义,不能区分连接上的强弱;因此,本发明在现有TextRank算法的基础上,通过提出平均信息熵的权重计算公式
Figure BDA0002557334550000071
其中fwk为词w在自然语言信息k中出现的频次,nw为词w在所有自然语言信息中出现的频次,N表示自然语言信息的总数,当词i在各类别自然语言信息中出现频率相当,则其WEn(i)的值接近于最小值0,表示其并不能很好地表示自然语言信息的主题内容;反之,如果词语i在各类文档中出现频率差别很大,其WEn(i)的值接近于最大值1,表示其对自然语言信息的主题有很好的表现力,进而选用TF-IDF与平均信息熵综合计算词语对于自然语言信息的重要性,相较于现有技术,本发明所述基于TF-IDF与平均信息熵的词语权重利用了所有自然语言信息的整体信息,同时为词语的权重信息增添了实际意义,使得所提取出的关键词向量能更好地对自然语言信息进行表征。
最后,在自然语言信息的情感分类过程中,传统的神经网络模型在池化层采用最大池化的方法来提取的句子的最大特征,没有考虑到句子的结构特征,然而一个句子中可能包含两个相反极性的情感,在句子情感倾向发生转折时,传统神经网络模型可能会遗漏转折之后情感信息。因此,为了捕获不同结构的关键特征,本发明采用分段池化的方法,通过将卷积层输出的卷积向量分成若干个片段,每个片段也是一个小的卷积向量,其中每一个小的卷积向量表示一部分自然语言向量,然后再对每个小卷积向量做最大池化操作,分别提取最大特征,其中每个小卷积向量中的最大特征均包含了每部分自然语言向量中的最多的特征信息,通过将这些最大特征拼接为一个新的特征向量,并利用新的特征向量进行自然语言信息分类,相较于现有技术,本发明所拼接而成的特征向量由若干个小的卷积向量进行分段池化,并将分段池化后得到的最大特征进行拼接而成的,相当于分别提取了自然语言中各结构的不同特征并进行拼接,保留了更多有价值的信息以及结构信息,避免了遗漏自然语言信息中的转折情感信息。
附图说明
图1为本发明一实施例提供的一种自然语言信息的处理方法的流程示意图;
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
在实现基于词语间相互关系的自然语言信息分词,并准确对其中的歧义进行消除的基础上,实现了对自然语言信息中的关键词信息进行抽取,并利用所抽取的关键词进行自然语言信息的分类。参照图1所示,为本发明一实施例提供的自然语言信息的处理方法示意图。
在本实施例中,自然语言信息的处理方法包括:
S1、利用Huffman树将自然语言信息进行存储,将所述自然语言信息转换为自然语言向量。
首先,本发明取一个适当大小的窗口当做语境,将所述自然语言信息输入到窗口中,并将它们的K维向量加和在一起,形成隐藏层K个节点;
输出层是一个巨大的二叉树,叶节点代表自然语言信息中所有的词,语料含有V个独立的词,则二叉树有|V|个叶节点,而这整颗二叉树构建的算法就是Huffman树,进一步地,隐层的每一个节点都会跟二叉树的内节点有连边,于是对于二叉树的每一个内节点都会有K条连边,每条边上也会有权值。因此对于叶节点的每一个字,就会有一个全局唯一的编码,形如“010011”,不妨记左子树为1,右子树为0,因此本发明利用Huffman树将自然语言信息中的所有字利用二进制编码的形式进行表征,得到自然语言向量。
S2、利用预训练的LC-CRF模型提取自然语言向量的前后信息以及局部特征信息,并对每个字符向量进行标注,从而依据每个字符的类别进行分词。
进一步地,本发明利用预训练的LC-CRF模型对所述自然语言向量的前后信息以及局部特征信息;
所述LC-CRF模型的前两层为双向LSTM,双向LSTM由两层网络组成,一层是从开始到结尾LSTM层,一层是从结尾到开始的LSTM层。本发明将自然语言向量由前向后输入LSTM层,再由后向前输入LSTM层,得到一个与自然语言向量等维度的向量,所述LSTM层的计算公式为:
Figure BDA0002557334550000081
Figure BDA0002557334550000082
Ct=ftCt-1+it tanh(xt+ht-1+bc)
Figure BDA0002557334550000083
ht=ot tanh(ct)
其中:
it,ft,ot分别t时刻为输入门,遗忘门和输出门;
xt为t时刻LSTM层的输入;
ht为隐藏层在t时刻的输出;
Wif,Wfo分别表示连接输入门和遗忘门的权重以及连接遗忘门和输出门的权重;
ct表示t时刻记忆单元的状态;
bi,bf,bc,bo分别表示输入门、遗忘门、记忆单元、输出门的偏置量。
将LSTM层的输出向量进行卷积运算,卷积核的高度由自然语言向量的长度决定,卷积核的长度为每次提取当前词语前后相关词语的个数。将经过LSTM层输出的自然语言向量输入CNN层,得到一个长度为最大词语个数,宽度为卷积核个数的向量。
将经过卷积运算的向量输入到输出层中,所述输出层对自然语言向量1中每一个句子向量s进行评分,所述评分函数为:
Figure BDA0002557334550000091
其中:
i为句子向量s中的第i个字符;
λ为超参数;
li为给第i个字符注明的词性;
li-1为给第i-1个字符注明的词性。
进一步地,本发明对所述评分分数进行指数化和标准化处理,即可以得到自然语言向量1中一个句子向量s的词性标注正确概率值,若该概率值大于0.8,则认为该句子向量的词性标注正确,本发明则根据所标注的词性进行分词处理,否则将自然语言向量重新输入LC-CRF模型进行分词处理,所述概率值计算公式为:
Figure BDA0002557334550000092
其中:
1为自然语言向量;
s为自然语言向量中的一个句子向量;
score(l|s)为对自然语言向量1中句子向量s进行评分的评分值。
S3、提取歧义词的词汇单元向量,并构成歧义词特征矩阵。
进一步地,根据所述自然语言向量,对于自然语言信息中所存在的歧义词汇w,本发明分别提取歧义词汇w左侧第二个词汇单元向量FL2,左侧第一个词汇单元向量FL1,右侧第一个词汇单元向量FR1,右侧第二个词汇单元向量FR2
本发明以词汇单元向量FL2、FL1、FR1和FR2为基础,构造特征矩阵Feature={FL2,FL1,FR1,FR2}。
S4、将歧义词特征矩阵输入预构建的词义消歧模型,利用所述词义消歧模型对歧义词的语义进行识别。
所述词义消歧模型接收特征矩阵Feature={FL2,FL1,FR1,FR2},Ft为t时刻输入层所接收的向量,本发明赋值F1=FL2,F2=FL1,F3=FR1,F4=FR2,并依次对Ft进行下述处理:
1)将隐藏层结点状态初始化为0。隐藏层的结点接收特征向量Ft后,更新隐藏层的结点状态At
At=ReLU(UtFt+DAt-1)
其中:
Ut为t时刻输入层与隐藏层之间的连接权值矩阵;
Ft为t时刻的特征向量;
At为t时刻隐藏层的节点动态;
D为t-1时刻的隐藏层与t时刻的隐藏层之间的连接权值矩阵;
ReLU为激活函数,其形式为:
Figure BDA0002557334550000101
2)计算t时刻输出层结点的语义类概率分布向量Ot,在输出向量中,各个分量表示歧义词汇在各个语义类下的概率分布:
Figure BDA0002557334550000102
其中:
k表示第k种语义类;
V表示隐藏层与输出层之间的连接权值矩阵。
3)从t时刻语义类概率分布向量Ot={P(S1),P(S2),...,P(Sn)}中,选取概率值最大的语义类别Si作为t时刻词义消歧模型输出的歧义词汇的语义类别:
Si=max{P(S1),P(S2),...,P(Sn)}
S5、利用基于平均信息熵的权重计算算法计算自然语言信息中每个词汇向量的权重,并利用基于词语综合权重的加权节点初始值及节点概率转移矩阵进行权重迭代更新,选择前N个权重比较大的词语作为关键词。
进一步地,本发明利用基于平均信息熵的权重计算算法计算自然语言信息中每个词汇向量的权重,所述平均信息熵的基本思想是:根据词频在不同自然语言信息中出现的频数,结合整体语料库计算所有词语对于单个信息和信息集集的重要性,通过平均信息熵可以衡量词语在整个自然语言信息集中分布的均衡度。
因此,根据平均信息熵算法,词语权重WEn(i)的计算公式为:
Figure BDA0002557334550000111
其中:
fwk为词w在自然语言信息k中出现的频次;
nw为词w在所有自然语言信息中出现的频次;
N表示自然语言信息的总数。
如果词i在各类别自然语言信息中出现频率相当,则其WEn(i)的值接近于最小值0,表示其并不能很好地表示自然语言信息的主题内容;反之,如果词语i在各类文档中出现频率差别很大,其WEn(i)的值接近于最大值1,表示其对自然语言信息的主题有很好的表现力。
进一步地,本发明基于词语综合权重的加权节点初始值及节点概率转移矩阵进行词语的权重更新,所述权重的迭代更新过程为:
1)计算词语i的综合权重Wweight(i):
Figure BDA0002557334550000112
其中:
WTF(i)为词语通过TF-IDF计算得到的权重值;
WEn(i)为词语的平均信息熵权值。
2)构建关键词图G(V,E),其中V为节点集合,E为节点之间的边集合;ln(Vi)是节点Vi的入度点的集合,即指向节点Vi的节点集合;Out(Vj)是节点Vj的出度点集合,即节点Vj指向的所有节点的集合;Wji是节点Vj与节点Vi之间边的权重;d是阻尼系数,一般取值为0.85,其作用是表示当前节点向其他任意节点跳转的概率,同时能够保证让权重能够稳定的传递至收敛。
3)计算关键词图中各节点的转移概率:
Figure BDA0002557334550000113
4)进行各节点的权重迭代,在各节点完成权重迭代后,选择前N个权重比较大的词语作为关键词向量并输出,所述节点的权重迭代公式为:
Figure BDA0002557334550000114
其中:
W(Vj,Vi)为节点Vj与Vi之间的转移概率;
d为阻尼系数,本发明取为0.85。
S6、将所述自然语言信息中的关键词向量,作为基于分段池化层的神经网络的输入,从而利用所述基于分段池化层的神经网络对自然语言信息中的情感进行识别。
进一步地,本发明将所述自然语言信息中的关键词向量作为输入向量,利用所述基于分段池化层的神经网络对自然语言信息中的情感进行识别,所述对自然语言信息进行情感识别的过程为:
1)利用卷积核对输入的关键词向量xi进行卷积操作:
ci=f(ωxi+b)
其中:
ω∈Rh×d为卷积核的权重;
h表示在多少个相邻词上滑动;
b为偏置项;
f为ReLU激活函数。
因此本发明得到如下基于关键词向量的特征图:
c={c1,c2,...,cn-h+1}
其中:
n为关键词向量的长度。
2)将c平均分为若干t段,在每一段取最大ci值,将这些取出的最大值拼接为一个向量
Figure BDA0002557334550000122
传统的神经网络模型在池化层采用最大池化的方法来提取的句子的最大特征,没有考虑到句子的结构特征,在句子情感倾向发生转折时,会遗漏转折之后情感倾向。因此,为了捕获不同结构的关键特征,本发明采用分段池化,将卷积层输出的卷积向量分成若干个片段,每个片段也是一个小的卷积向量,然后再对每个小卷积向量做最大池化操作,分别提取最大特征,然后将这些最大特征拼接为一个新的特征向量。
3)利用softmax分类器完成对自然语言信息情感极性的分类:
Figure BDA0002557334550000121
其中:
W为权重矩阵;
b为偏置项。
在训练参数时,为了防止过拟合,使用了Dropout机制,即对神经元设定失活的概率,使每一个神经元有0.1的概率失活。Dropout是对不同神经元进行组合构造不同的网络模型,然后通过获得的不同的数据来训练神经网络模型,提高了神经网络泛化能力。
下面通过一个仿真实验来说明本发明的具体实施方式,并对发明的处理方法进行测试。本发明算法的硬件测试环境为Ubuntu14.04系统,在NVIDIA TITANX GPU服务器上运行,深度学习框架为深度学习框架caffe,CPU为E5-2609 v3@1.90GHz,操作系统为Ubuntu16.04;对比算法为CNN模型、LSTM模型、PCNN模型。
根据实验结果,CNN模型完成一次自然语言信息情感分析的时间为10s,准确率为85.57%,LSTM模型完成一次自然语言信息情感分析的时间为123s,准确率为88.04%,PCNN模型完成一次自然语言信息情感分析的时间为29s,准确率为90.64%,本发明所述处理方法完成一次自然语言信息情感分析的时间为7s,准确率为93.28%,相较于对比算法,本发明所提出的自然语言信息的处理方法能更为准确的对自然语言信息中的情感进行识别,说明本发明所述处理方法能更为准确的提取自然语言中的内在信息,以进行相应的识别分析。
需要说明的是,上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。并且本文中的术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (8)

1.一种自然语言信息的处理方法,其特征在于,所述方法包括:
利用Huffman树将自然语言信息进行存储,将所述自然语言信息转换为自然语言向量;
利用预训练的LC-CRF模型提取自然语言向量的前后信息以及局部特征信息,并对每个字符向量进行标注,从而依据每个字符的类别进行分词;
提取歧义词的词汇单元向量,并构成歧义词特征矩阵;
将歧义词特征矩阵输入预构建的词义消歧模型,利用所述词义消歧模型对歧义词的语义进行识别;
利用基于平均信息熵的权重计算算法计算自然语言信息中每个词汇向量的权重;
利用基于词语综合权重的加权节点初始值及节点概率转移矩阵进行权重迭代更新,选择前N个权重比较大的词语作为关键词;
将所述自然语言信息中的关键词向量,作为基于分段池化层的神经网络的输入,从而利用所述基于分段池化层的神经网络对自然语言信息中的情感进行识别。
2.如权利要求1所述的一种自然语言信息的处理方法,其特征在于,所述利用Huffman树将自然语言信息进行存储,包括:
取一个适当大小的窗口当做语境,将所述自然语言信息输入到窗口中,并将它们的K维向量加和在一起,形成隐藏层K个节点;
输出层是一个巨大的二叉树,叶节点代表自然语言信息中所有的词,语料含有V个独立的词,则二叉树有|V|个叶节点,而这整颗二叉树构建的算法就是Huffman树;
隐层的每一个节点都会跟二叉树的内节点有连边,于是对于二叉树的每一个内节点都会有K条连边,每条边上也会有权值。
3.如权利要求2所述的一种自然语言信息的处理方法,其特征在于,所述利用LC-CRF模型对每个字符向量进行标注,从而依据每个字符的类别进行分词,包括:
LC-CRF模型将经过卷积运算的字符向量输入到输出层中,所述输出层对自然语言向量l中每一个句子向量s进行评分,所述评分函数为:
Figure FDA0002557334540000021
其中:
i为句子向量s中的第i个字符;
λ为超参数;
li为给第i个字符注明的词性;
li-1为给第i-1个字符注明的词性;
对所述评分分数进行指数化和标准化处理,即可以得到自然语言向量l中一个句子向量s的词性标注正确概率值,若该概率值大于0.8,则认为该句子向量的词性标注正确,本发明则根据所标注的词性进行分词处理,否则将自然语言向量重新输入LC-CRF模型进行分词处理,所述概率值计算公式为:
Figure FDA0002557334540000022
其中:
l为自然语言向量;
s为自然语言向量中的一个句子向量。
4.如权利要求3所述的一种自然语言信息的处理方法,其特征在于,所述提取歧义词的词汇单元向量,包括:
根据所述自然语言向量,对于自然语言信息中所存在的歧义词汇w,本发明分别提取歧义词汇w左侧第二个词汇单元向量FL2,左侧第一个词汇单元向量FL1,右侧第一个词汇单元向量FR1,右侧第二个词汇单元向量FR2
以词汇单元向量FL2、FL1、FR1和FR2为基础,构造特征矩阵Feature={FL2,FL1,FR1,FR2}。
5.如权利要求4所述的一种自然语言信息的处理方法,其特征在于,所述利用所述词义消歧模型对歧义词的语义进行识别,包括:
所述词义消歧模型接收特征矩阵Feature={FL2,FL1,FR1,FR2},Ft为t时刻输入层所接收的向量,本发明赋值F1=FL2,F2=FL1,F3=FR1,F4=FR2,并依次对Ft进行下述处理:
1)将隐藏层结点状态初始化为0,隐藏层的结点接收特征向量Ft后,更新隐藏层的结点状态At
At=ReLU(UtFt+DAt-1)
其中:
Ut为t时刻输入层与隐藏层之间的连接权值矩阵;
Ft为t时刻的特征向量;
At为t时刻隐藏层的节点动态;
D为t-1时刻的隐藏层与t时刻的隐藏层之间的连接权值矩阵;
ReLU为激活函数,其形式为:
Figure FDA0002557334540000031
2)计算t时刻输出层结点的语义类概率分布向量Ot,在输出向量中,各个分量表示歧义词汇在各个语义类下的概率分布:
Figure FDA0002557334540000032
其中:
k表示第k种语义类;
V表示隐藏层与输出层之间的连接权值矩阵;
3)从t时刻语义类概率分布向量Ot={P(S1),P(S2),...,P(Sn)}中,计算各语义类别的概率,选取概率值最大的语义类别Si作为t时刻词义消歧模型输出的歧义词汇的语义类别,所述各语义类别概率的计算公式为:
Si=max{P(S1),P(S2),...,P(Sn)}
其中:
Si为歧义词的第i种语义。
6.如权利要求5所述的一种自然语言信息的处理方法,其特征在于,所述基于平均信息熵的权重计算公式为:
Figure FDA0002557334540000033
其中:
fwk为词w在自然语言信息k中出现的频次;
nw为词w在所有自然语言信息中出现的频次;
N表示自然语言信息的总数;
当词i在各类别自然语言信息中出现频率相当,则其WEn(i)的值接近于最小值0,表示其并不能很好地表示自然语言信息的主题内容;反之,如果词语i在各类文档中出现频率差别很大,其WEn(i)的值接近于最大值1,表示其对自然语言信息的主题有很好的表现力。
7.如权利要求6所述自然语言信息的处理方法,其特征在于,所述利用基于词语综合权重的加权节点初始值及节点概率转移矩阵进行权重迭代更新,包括:
1)计算词语i的综合权重Wweight(i):
Figure FDA0002557334540000041
其中:
WTF(i)为词语通过TF-IDF计算得到的权重值;
WEn(i)为词语的平均信息熵权值;
2)构建关键词图G(V,E),其中V为节点集合,E为节点之间的边集合;ln(Vi)是节点Vi的入度点的集合,即指向节点Vi的节点集合;Out(Vj)是节点Vj的出度点集合,即节点Vj指向的所有节点的集合;Wji是节点Vj与节点Vi之间边的权重;
3)计算关键词图中各节点的转移概率:
Figure FDA0002557334540000042
4)进行各节点的权重迭代,在各节点完成权重迭代后,选择前N个权重比较大的词语作为关键词向量并输出,所述节点的权重迭代公式为:
Figure FDA0002557334540000043
其中:
W(Vj,Vi)为节点Vj与Vi之间的转移概率;
d为阻尼系数,本发明取为0.85。
8.如权利要求7所述自然语言信息的处理方法,其特征在于,所述利用所述基于分段池化层的神经网络对自然语言信息中的情感进行识别,包括:
1)利用卷积核对输入的关键词向量xi进行卷积操作:
ci=f(ωxi+b)
其中:
ω∈Rh×d为卷积核的权重;
h表示在多少个相邻词上滑动;
b为偏置项;
f为ReLU激活函数;
因此本发明得到如下基于关键词向量的特征图:
c={c1,c2,...,cn-h+1}
其中:
n为关键词向量的长度;
2)将c平均分为若干t段,在每一段取最大ci值,将这些取出的最大值拼接为一个向量
Figure FDA0002557334540000051
为了捕获不同结构的关键特征,本发明采用分段池化,将卷积层输出的卷积向量分成若干个片段,每个片段也是一个小的卷积向量,然后再对每个小卷积向量做最大池化操作,分别提取最大特征,然后将这些最大特征拼接为一个新的特征向量;
3)利用softmax分类器完成对自然语言信息情感极性的分类:
Figure FDA0002557334540000052
其中:
W为权重矩阵;
b为偏置项;
在训练参数时,对神经元设定失活的概率,使每一个神经元有0.1的概率失活。
CN202010595643.0A 2020-06-28 2020-06-28 一种自然语言信息的处理方法 Withdrawn CN111753088A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010595643.0A CN111753088A (zh) 2020-06-28 2020-06-28 一种自然语言信息的处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010595643.0A CN111753088A (zh) 2020-06-28 2020-06-28 一种自然语言信息的处理方法

Publications (1)

Publication Number Publication Date
CN111753088A true CN111753088A (zh) 2020-10-09

Family

ID=72677449

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010595643.0A Withdrawn CN111753088A (zh) 2020-06-28 2020-06-28 一种自然语言信息的处理方法

Country Status (1)

Country Link
CN (1) CN111753088A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113157864A (zh) * 2021-04-25 2021-07-23 平安科技(深圳)有限公司 关键信息提取方法、装置、电子设备及介质
CN113822072A (zh) * 2021-09-24 2021-12-21 广州博冠信息科技有限公司 关键词抽取方法、装置及电子设备
CN114386425A (zh) * 2022-03-24 2022-04-22 天津思睿信息技术有限公司 用于对自然语言文本内容进行处理的大数据体系建立方法
CN114491034A (zh) * 2022-01-24 2022-05-13 聚好看科技股份有限公司 一种文本分类方法及智能设备
CN117574918A (zh) * 2024-01-15 2024-02-20 青岛冠成软件有限公司 一种基于lstm的智能交互方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113157864A (zh) * 2021-04-25 2021-07-23 平安科技(深圳)有限公司 关键信息提取方法、装置、电子设备及介质
CN113822072A (zh) * 2021-09-24 2021-12-21 广州博冠信息科技有限公司 关键词抽取方法、装置及电子设备
CN114491034A (zh) * 2022-01-24 2022-05-13 聚好看科技股份有限公司 一种文本分类方法及智能设备
CN114491034B (zh) * 2022-01-24 2024-05-28 聚好看科技股份有限公司 一种文本分类方法及智能设备
CN114386425A (zh) * 2022-03-24 2022-04-22 天津思睿信息技术有限公司 用于对自然语言文本内容进行处理的大数据体系建立方法
CN117574918A (zh) * 2024-01-15 2024-02-20 青岛冠成软件有限公司 一种基于lstm的智能交互方法
CN117574918B (zh) * 2024-01-15 2024-05-03 青岛冠成软件有限公司 一种基于lstm的智能交互方法

Similar Documents

Publication Publication Date Title
CN107967257B (zh) 一种级联式作文生成方法
CN110502749B (zh) 一种基于双层注意力机制与双向gru的文本关系抽取方法
CN108984526B (zh) 一种基于深度学习的文档主题向量抽取方法
CN109726389B (zh) 一种基于常识和推理的中文缺失代词补全方法
CN111753088A (zh) 一种自然语言信息的处理方法
CN112733541A (zh) 基于注意力机制的BERT-BiGRU-IDCNN-CRF的命名实体识别方法
CN111401061A (zh) 基于BERT及BiLSTM-Attention的涉案新闻观点句识别方法
CN106569998A (zh) 一种基于Bi‑LSTM、CNN和CRF的文本命名实体识别方法
CN112541356B (zh) 一种生物医学命名实体识别的方法和系统
CN111274790B (zh) 基于句法依存图的篇章级事件嵌入方法及装置
CN111241807B (zh) 一种基于知识引导注意力的机器阅读理解方法
CN112487189B (zh) 一种图卷积网络增强的隐式篇章文本关系分类方法
CN111078833A (zh) 一种基于神经网络的文本分类方法
CN111914556A (zh) 基于情感语义转移图谱的情感引导方法及系统
Ren et al. Detecting the scope of negation and speculation in biomedical texts by using recursive neural network
CN113704416A (zh) 词义消歧方法、装置、电子设备及计算机可读存储介质
CN114417851A (zh) 一种基于关键词加权信息的情感分析方法
Suyanto Synonyms-based augmentation to improve fake news detection using bidirectional LSTM
CN112784602A (zh) 基于远程监督的新闻情感实体抽取方法
Omara et al. Emotion analysis in arabic language applying transfer learning
CN115169349A (zh) 基于albert的中文电子简历命名实体识别方法
CN113191150B (zh) 一种多特征融合的中文医疗文本命名实体识别方法
CN111723572B (zh) 基于CNN卷积层和BiLSTM的中文短文本相关性度量方法
Meng et al. Multi-layer convolutional neural network model based on prior knowledge of knowledge graph for text classification
CN116127954A (zh) 一种基于词典的新工科专业中文知识概念抽取方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20201009

WW01 Invention patent application withdrawn after publication