CN117610579A

CN117610579A - 基于长短时记忆网络的语义分析方法及系统

Info

Publication number: CN117610579A
Application number: CN202410077058.XA
Authority: CN
Inventors: 屠静; 王亚; 赵策; 周勤民; 张玥; 雷媛媛; 孙岩; 潘亮亮; 刘岩
Original assignee: Zhuo Shi Future Tianjin Technology Co ltd
Current assignee: Zhuo Shi Future Tianjin Technology Co ltd
Priority date: 2024-01-19
Filing date: 2024-01-19
Publication date: 2024-02-27
Anticipated expiration: 2044-01-19
Also published as: CN117610579B

Abstract

本发明涉及语义分析技术领域，具体涉及基于长短时记忆网络的语义分析方法及系统，该方法包括：通过收集不同各歧义词不同义项的语料构建各歧义词的语料库；根据各语句各词语在各义项中出现的频率构建词语在义项中的特征词权重；根据各义项各语句中义项词汇出现的次数以及词语在义项中的特征词权重得到语句的歧义性；根据语句中词语与歧义词之间的距离、词语在义项中的特征词权重以及语句的歧义性得到语句的义项特征向量；根据语句的义项特征向量以及语句中各词语的向量得到语句的融合矩阵；根据语句的融合矩阵采用LSTM神经网络输出歧义词的语义分类。本发明准确反映了语句与歧义词之间的关系，同时能够处理长文本内容的语义消歧。

Description

基于长短时记忆网络的语义分析方法及系统

技术领域

本申请涉及语义分析领域，具体涉及基于长短时记忆网络的语义分析方法及系统。

背景技术

长短时记忆网络（LSTM）是一种特殊的循环神经网络（RNN）。相较于简单的循环神经网络，LSTM有效地解决了循环神经网络中的遗忘问题，并能够捕捉长期的依赖关系。在梯度爆炸和梯度消失的问题上，保持了较好的梯度传播性能。在深度学习领域，长短时记忆网络已经取得了广泛的应用。它在语言建模、机器翻译、音乐生成等任务中展现出强大的能力，特别是在需要处理长序列数据的场景下，LSTM表现出色。

语义分析是指利用各种方法来理解一段文本的语义内容、结构和意义。这包括对词汇、句法和语境的深入分析，以便将自然语言文本转换为计算机更容易理解和处理的形式。通过实现对文本语义的更深入理解，计算机能够更准确地把握用户的意图，从而提高对自然语言文本的处理水平。

在语义分析过程中，语义消歧是自然语言处理中的重要任务。在自然语言中，很多词汇在不同语境下有着不同的解释。需要通过上下文来明确歧义词的确切含义，语义消歧的目的是解决词语中的歧义性。

在传统的词义消歧算法中常根据上下文的关系来理解歧义词所表示的具体含义，但当文本信息的内容过长时，以往的算法无法涵盖足够长的语境。从而造成了语义消歧的效果不好。

发明内容

为了解决上述技术问题，本发明提供基于长短时记忆网络的语义分析方法及系统，所采用的技术方案具体如下：

第一方面，本发明实施例提供了基于长短时记忆网络的语义分析方法，该方法包括以下步骤：

通过收集各歧义词不同义项的语料构建各歧义词的语料库，所述语料库包括该歧义词的各义项的语句；

对于各歧义词的语料库，对语料库中的各语句进行分词、去停用词操作得到各词语；对于各义项各词语，根据词语在各义项中出现的频率构建词语在义项中的特征词权重系数；将词语在义项中的特征词权重系数与预设放大系数的乘积作为词语在义项中的特征词权重；根据词语在义项中的特征词权重得到义项的义项词汇；根据各义项各语句中义项词汇出现的次数以及词语在义项中的特征词权重构建语句的义项矩阵；根据语句的义项矩阵中各元素的分布情况得到语句的歧义性；

对于语句中各词语，根据语句中词语与歧义词之间的距离得到语句中词语的距离权重；根据语句中各词语的距离权重、词语在义项中的特征词权重以及语句的歧义性得到语句对于义项的义项特征；将语句在各义项中的义项特征组成语句的义项特征向量；

采用词嵌入技术得到语句中各词语的向量；根据语句的义项特征向量以及语句中各词语的向量得到语句的融合矩阵；根据语句的融合矩阵采用LSTM神经网络输出歧义词的语义分类。

优选的，所述根据词语在各义项中出现的频率构建词语在义项中的特征词权重系数，包括：

获取词语在义项u中出现的次数，获取义项u中的词汇数量；将所述次数与所述词汇数量的比值作为词汇在义项u中出现的频率；

计算词语在除义项u外的其他义项中出现的频率均值，将所述频率与所述频率均值的差值作为词语对于义项u的特征词权重系数。

优选的，所述根据词语在义项中的特征词权重得到义项的义项词汇，包括：

将义项中特征词权重大于0的词语作为义项的义项词汇。

优选的，所述根据各义项各语句中义项词汇出现的次数以及词语在义项中的特征词权重构建语句的义项矩阵，包括：

将各义项的义项词汇按照特征词权重从大到小排序得到前m个义项词汇，其中m为义项数量；

对于各义项各语句的义项矩阵，将义项数量作为义项矩阵的行数，将m作为义项矩阵的列数，将各义项的前m个义项词汇在语句中出现的次数组成义项矩阵的各个行向量。

优选的，所述根据语句的义项矩阵中各元素的分布情况得到语句的歧义性，包括：

对于语句的义项矩阵各行向量，计算行向量中所有元素的和值，将语句的义项矩阵中所有行向量的所述和值的方差作为语句的歧义性。

优选的，所述根据语句中词语与歧义词之间的距离得到语句中词语的距离权重，包括：

获取语句中词语与歧义词之间的距离，将所述距离的倒数作为语句中词语的距离权重。

优选的，所述根据语句中各词语的距离权重、词语在义项中的特征词权重以及语句的歧义性得到语句对于义项的义项特征，包括：

根据语句中的义项词汇的距离权重以及特征词权重得到语句对于义项的重要程度；计算语句的歧义性与重要程度的乘积；

将语句中属于义项的义项词汇组成语句的词汇集合，计算语句的词汇集合中的元素数量与语句的词语数量的比值作为第一比值，计算语句的词汇集合中的元素数量与义项的义项词汇数量的比值作为第二比值，将所述第一比值与所述第二比值的乘积作为以自然常数为底数的指数函数的指数；

将所述指数函数的计算结果与所述乘积的和值作为语句对于义项的义项特征。

优选的，所述根据语句中的义项词汇的距离权重以及特征词权重得到语句对于义项的重要程度，包括：

计算语句中各义项词汇的距离权重与特征词权重的乘积，将语句中所有义项词汇的所述乘积的和值作为语句对于义项的重要程度。

优选的，所述根据语句的义项特征向量以及语句中各词语的向量得到语句的融合矩阵，包括：将语句所有词语的向量组成大小的矩阵，其中r为语句中词语数量，m为义项数量；

将所述矩阵与语句的义项特征向量进行融合得到大小的融合矩阵。

第二方面，本发明实施例还提供了基于长短时记忆网络的语义分析系统，包括存储器、处理器以及存储在所述存储器中并在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述任意一项所述方法的步骤。

本发明至少具有如下有益效果：

本发明根据不同义项下的词语出现的频率构建了词语的特征词权重，初步反映了词汇与歧义词之间的关系；接着根据语句中义项词汇在各义项中的分布情况构建语句的义项矩阵，分析了语句的歧义性，准确反应了语句中的歧义词的义项；

本发明通过语句中的词语与歧义词的距离构建了词语的距离权重，一定程度上影响词语在各义项中的特征词权重，使得各词语不止从词语的在各义项中出现的频率角度分析词语的特征词权重，还从空间角度进一步对词语的词语对于义项的重要程度进行更全面的分析；

综合上述词语的义项特征构建语句的义项特征向量，准确反映了语句与歧义词之间的关系，在模型训练时将义项特征向量融合到语句的词语向量中，缩短了长短时记忆网络模型训练的收敛时间，提高了识别准确率，同时使得模型能够处理长文本内容的语义消歧。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案和优点，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它附图。

图1为本发明提供的基于长短时记忆网络的语义分析方法的流程图；

图2为语料库；

图3为语句的义项矩阵。

具体实施方式

为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效，以下结合附图及较佳实施例，对依据本发明提出的基于长短时记忆网络的语义分析方法及系统，其具体实施方式、结构、特征及其功效，详细说明如下。在下述说明中，不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外，一或多个实施例中的特定特征、结构或特点可由任何合适形式组合。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。

下面结合附图具体的说明本发明所提供的基于长短时记忆网络的语义分析方法及系统的具体方案。

本发明一个实施例提供的基于长短时记忆网络的语义分析方法及系统。

具体的，提供了如下的基于长短时记忆网络的语义分析方法，请参阅图1，该方法包括以下步骤：

步骤S001，获取各歧义词的语料库。

本实施例具体为一种使用长短时记忆网络对语义文本进行消歧的方法，假设存在一个歧义词，有/>个义项。例如：在语境下对于“bank”，存在多个义项。可表示人名、银行或者河岸。在不同的句子中表示的意思并不完全相同，一种意思称为一个义项。

本实施例的具体任务为确定歧义词在具体句子中表示哪种义项。

首先，对于歧义词，收集大量不同义项的语料，保证每个义项均有大量语料，且每种义项下的语料数尽量平衡，不存在数量级的差异，将这些语料称之为歧义词/>的语料库，在语料库中标记每个语句中歧义词/>所表示的具体意义。如用0表示银行，用数字1表示河岸。

步骤S002，根据语料库中各义项中的语句、词语数据构造语句的义项特征向量，放大语句的特征。

对于语料库的每个语句进行预处理，首先使用双向最大匹配算法对语句进行分词，使用该算法进行分词时，需要准备一个常见词汇的词典，双向最大匹配算法依据字典将一个句子分为若干词语。双向匹配算法为该领域内技术人员所周知的技术，本实施例不再赘述。

停用词是指在文本数据中不表示具体含义的词汇，如“的”“啊”“了”等等。将停用词删除并不会影响文本所表示的信息内容，还能进一步增加文本数据的信息密度。

因此去除文本语句中的所有停用词后，将每个句子都被划分成若干词语。语料库如图2所示，其中一个词语用一个矩形表示。

由于在词汇含义固定的情况下，歧义词经常与某些词搭配。如歧义词“bank”，在表示银行时，经常与“money”、“finance”等词语一块出现；但当表示河岸时，常与“river”等词汇搭配；义项：解释为词语的含义。例如单词“bank”既可以翻译成银行，也可以翻译为河岸，因此单词“bank”有两个义项。

本实施例以歧义词的语料库为例，对其进行分析歧义词/>的义项中各语句的义项特征。

统计每个义项下的词语出现的频率，设词语在义项/>出现的次数为/>，义项/>下共有/>个词语，词语/>在义项/>中出现的频率为：/>式中，/>表示词语/>在义项/>中出现的频率，/>表示词语a在义项i中出现的次数，/>表示义项i中的词语数量。

根据词语在各义项中出现的频率，从而定义该词语在各义项中的特征词权重系数:/>式中，/>表示词语/>在义项/>的特征词权重系数，/>表示词语/>在义项/>中出现的频率，/>表示词语/>在义项j中出现的频率，/>表示义项数量，/>表示词语/>在义项k中出现的频率。

需要说明的是，表示除义项/>外，词语/>在其他义项中的平均频率，特征词权重系数/>表征了词语/>对于义项/>的关联程度，如果该词语在其他义项中出现的频率越低，则说明该词语在义项i中的越不可能是表征该义项含义的关键特征词，则该词语对于该义项的权重较小。

其中，词语在义项/>的特征词权重系数具体分为以下三种情况：

1、当词语是义项/>的特征词时，即词语/>经常与歧义词/>组合解释为义项/>。此时词语/>在义项/>中出现的频率要远高于其他义项中词语/>的频率，此时特征词权重系数/>为正数。

2、当词语在各个义项中出现的频率相差不大时，说明词语/>与歧义词/>可能表示任何一个义项，此时/>约等于0。该情况下词语/>更可能是一个表示“我”“你”的一个语义中性词。

3、当词语是其他义项的特征词时，例如词语/>常与歧义词/>组合解释为义项/>，则词语/>在义项/>中的频率/>较高。反映在式中为其他义项的平均频率/>较高，/>则较小。词语/>与歧义词/>经常组合表示为义项/>，因此在义项/>中词语/>出现的频率没有在义项/>中高，所以特征词权重系数/>为一个较小的负数。

但是由于每个义项下都存在大量的词语，每个词语的频率都比较小，因此考虑放大频率的差异，乘上一个较大的数，定义特征词权重：/>式中，/>表示词语/>在义项/>中的特征词权重，/>表示词语/>在义项/>的特征词权重系数，T为放大系数，本实施例设经验值/>，实施者可自行设定。

特征词权重越大，表示在义项/>中词语/>出现的频率越高。即当词语/>出现时歧义词/>表示义项/>的概率越大，词语/>对义项/>越重要。

在所有义项中，选取特征词权重的词汇称为义项的义项词汇，设义项/>中共存在/>个义项词汇。但是如果语句中出现某义项的义项词汇，歧义词也不一定解释为该义项。

每个义项下，根据特征词权重从大到小依次选出/>个义项词汇，其中，对于歧义词w一共有/>个义项数量。因此，对于各义项的各语句，以语句/>为例，构建一个尺寸为/>的义项矩阵，矩阵的第/>行表示义项/>中前/>个义项词汇在语句/>中出现的次数。

若时，语句的义项矩阵如图3所示，义项矩阵的行数代表义项数量，列数代表在各义项中取前m个较大的特征词权重的义项词汇，/>表示在句子/>中出现义项1中特征词权重最大的词语的次数。

根据语句j的义项矩阵中各元素的分布特点，构建语句的歧义性/>：式中，/>表示语句j的歧义性，/>表示计算小括号内i从1到m各义项间的方差，其中，/>，/>表示义项数量，此时表示对于各义项取特征值权重从大到小排序得到的第k个义项词汇，其中，k的取值范围为[1,m]，/>为义项矩阵中每一行的和值。

若语句出现了每个义项的义项词汇即上述义项矩阵中全为1，此时数据的方差为0，即该词语在语句/>中的歧义性很大，不确定该解释为哪个义项；极端情况下若语句/>中仅出现某一义项的词汇，即义项矩阵中第/>行全为1，其余行全为0在该情况下，数据的方差较大歧义词较为确定的解释为义项/>，/>越大，词汇的歧义性越小。

进一步考虑到词语与歧义词之间的距离关系，设存在一个词语，词语/>与歧义词/>距离较近，那么该词语/>可能是用来形容、解释或搭配歧义词/>。若词语/>距离歧义词/>较远，词语/>与歧义词/>的关系并不大。

因此，根据义项i的语句j中的词语k与歧义词w之间的距离定义词语的距离权重：/>式中，/>表示义项i的语句j中的词语k与歧义词w的距离权重，/>为衰减系数，本实施例取经验值/>，/>表示词语距离，一个词语与自身的距离为零，与相邻的词语距离为1，/>表示词语/>与歧义词/>的词汇距离。

当语句j中的词语k与歧义词w的词语距离越小，则词语k的距离权重越大。

对于一个语句来说，设语句/>中共有词语/>个，其中有/>个词语属于义项/>的义项词汇，将义项i的/>个义项词汇组成该语句的词汇集合/>，定义语句/>对于义项i的义项特征/>:

式中，为语句j对于义项i的义项特征，/>为以自然常数e为底数的指数函数，为语句/>中的词语属于义项i的义项词汇的个数，/>为义项/>的义项词汇数量，/>为语句/>中的词语数量，/>表示语句/>的歧义性，/>表示语句j中的义项词汇在义项i中的重要程度，/>为语句j中属于义项i的义项词汇的词汇集合，/>表示词语/>在义项/>中的特征词权重，/>表示义项i的语句j中的词语k与歧义词w的距离权重，其中，/>为语句j对于义项i的第一比值，为语句j对于义项i的第二比值。

语句中出现义项/>的义项词汇/>越多，语句中歧义词解释为该义项/>的可能性越大。式中第一项/>解释为/>，是/>在语句/>中所有词语数量/>的占比与义项/>的义项词汇数量/>中的占比乘积。当/>一定时，/>越小，语句中歧义词解释为义项/>的可能性越大。比如在某个语句中分词后只有五个词语，其中三个词语是义项/>的义项词汇，该语句歧义词解释为义项/>的可能性是要小于只有句子中只有四个词语，三个词语是义项/>的义项词汇的语句。简而言之，词汇集合/>的中元素的数量/>越大，两集合/>和/>越小，/>越大，则说明语句j对于义项i的义项特征越明显。

公式中是词汇集合/>的特征词权重与距离权重之和，表示语句j中的词汇集合对于义项/>的重要程度。该项越大，表示词汇结合/>对义项/>来说越重要，句子/>中的歧义词越有可能解释为义项/>；/>越大，说明语句/>的歧义性较小。综上，/>越大，/>中歧义词w与义项/>的关系越大，歧义词/>越有可能解释为义项/>。

由于义项的义项词汇数量/>和语句/>中词汇的总个数/>远大于/>，导致/>的计算结果很小，难以对比不同的计算结果。因此，本实施例使用指数函数放大/>计算的结果差异。

对义项中的每个语句都可以通过上述方法计算得到义项特征，将每个语句的m个义项特征组成义项特征向量，其中，语句j的义项特征向量为。

使用词嵌入技术，将单个词语映射到向量空间，输出词语在高维空间中的位置即词语的向量。词嵌入技术为该领域内技术人员所周知的技术，本实施例不再赘述。本实施例设置输出词语的向量维度为。

若语句分词后共有/>个词语，则采用词嵌入技术后得到语句/>的维度为/>的矩阵，同时将语句的义项特征向量/>融合进去，则语句/>的矩阵表示如下：/>

式中，是语句/>的融合矩阵，尺寸大小为/>，cat表示向量的拼接符号，BQ表示补齐或者截断操作，/>表示使用词嵌入将词语映射到m维的向量空间，/>表示语句j中的词汇集合，/>表示语句/>的义项特征。

由于各个语句长度不一定，导致语句的分词长度也不确定，为了方便模型的训练，首先设定语句最大词汇长度(设Z=19)，包含词语个数超过Z的对词汇在Z处进行截断，不足的句子在词嵌入后的向量中使用0补齐。使得所有语句在使用词嵌入向量化后的矩阵的尺寸大小为Z×m，且将语句的义项特征向量融合后的语句的融合矩阵的尺寸大小为(Z+1)×m。

步骤S003，使用长短时记忆网络对语义中的歧义词进行分类，完成语义分析。

本实施例设置的网络结构为：输入层为个LSTM神经单元，隐藏层为32个LSTM神经单元，输出层为/>个LSTM神经单元，使用交叉熵损失函数、Adam优化器和tanh激活函数，对LSTM神经网络进行训练。其中，LSTM神经网络为公知技术，本实施例不再赘述。

当有新的含有歧义词的语句输入时，首先按照上述步骤进行处理，依次将语句进行分词和去停用词操作后，根据语句中各词语的分布情况对歧义词进行特征放大，之后使用训练好的LSTM长短时记忆网络进行分类，确定歧义词在语句中的确切义项。

至此，本实施例完成基于长短时记忆网络的语义分析。

基于与上述方法相同的发明构思，本发明实施例还提供了基于长短时记忆网络的语义分析系统，包括存储器、处理器以及存储在所述存储器中并在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述基于长短时记忆网络的语义分析方法中任意一项所述方法的步骤。

本发明实施例根据不同义项下的词语出现的频率构建了词语的特征词权重，初步反映了词汇与歧义词之间的关系；接着根据语句中义项词汇在各义项中的分布情况构建语句的义项矩阵，分析了语句的歧义性，准确反应了语句中的歧义词的义项；

本发明实施例通过语句中的词语与歧义词的距离构建了词语的距离权重，一定程度上影响词语在各义项中的特征词权重，使得各词语不止从词语的在各义项中出现的频率角度分析词语的特征词权重，还从空间角度进一步对词语的词语对于义项的重要程度进行更全面的分析；

需要说明的是：上述本发明实施例先后顺序仅仅为了描述，不代表实施例的优劣。且上述对本说明书特定实施例进行了描述。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同或相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。

以上所述实施例仅用以说明本申请的技术方案，而非对其限制；对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的范围，均应包含在本申请的保护范围之内。

Claims

1.基于长短时记忆网络的语义分析方法，其特征在于，该方法包括以下步骤：

2.如权利要求1所述的基于长短时记忆网络的语义分析方法，其特征在于，所述根据词语在各义项中出现的频率构建词语在义项中的特征词权重系数，包括：

3.如权利要求1所述的基于长短时记忆网络的语义分析方法，其特征在于，所述根据词语在义项中的特征词权重得到义项的义项词汇，包括：

将义项中特征词权重大于0的词语作为义项的义项词汇。

4.如权利要求1所述的基于长短时记忆网络的语义分析方法，其特征在于，所述根据各义项各语句中义项词汇出现的次数以及词语在义项中的特征词权重构建语句的义项矩阵，包括：

5.如权利要求4所述的基于长短时记忆网络的语义分析方法，其特征在于，所述根据语句的义项矩阵中各元素的分布情况得到语句的歧义性，包括：

6.如权利要求1所述的基于长短时记忆网络的语义分析方法，其特征在于，所述根据语句中词语与歧义词之间的距离得到语句中词语的距离权重，包括：

7.如权利要求1所述的基于长短时记忆网络的语义分析方法，其特征在于，所述根据语句中各词语的距离权重、词语在义项中的特征词权重以及语句的歧义性得到语句对于义项的义项特征，包括：

8.如权利要求7所述的基于长短时记忆网络的语义分析方法，其特征在于，所述根据语句中的义项词汇的距离权重以及特征词权重得到语句对于义项的重要程度，包括：

9.如权利要求1所述的基于长短时记忆网络的语义分析方法，其特征在于，所述根据语句的义项特征向量以及语句中各词语的向量得到语句的融合矩阵，包括：

将语句所有词语的向量组成大小的矩阵，其中r为语句中词语数量，m为义项数量；

10.基于长短时记忆网络的语义分析系统，包括存储器、处理器以及存储在所述存储器中并在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1-9任意一项所述方法的步骤。