CN117332788A

CN117332788A - 一种基于英语口语文本的语义分析方法

Info

Publication number: CN117332788A
Application number: CN202311625052.3A
Authority: CN
Inventors: 任晓琳; 宿秀娟
Original assignee: Linyi Vocational College Of Science And Technology; Shandong Tongqi Wanjiang Technology Innovation Co ltd
Current assignee: Linyi Vocational College Of Science And Technology; Shandong Tongqi Wanjiang Technology Innovation Co ltd
Priority date: 2023-11-30
Filing date: 2023-11-30
Publication date: 2024-01-02
Anticipated expiration: 2043-11-30
Also published as: CN117332788B

Abstract

本发明公开了一种基于英语口语文本的语义分析方法，属于语义分析技术领域，本发明中先将英语口语文本进行分词处理，由于各个词在计算机中由编码构成，因此，得到词编码集合，并提取出标点文本编码，该标点文本编码用于表征该英语口语文本中采用的标点符号。本发明中先将词编码集合输入词特征提取模型，得到词特征，然后进行分类处理，分出每个词编码的类型，找到主、谓和宾，根据主、谓和宾对词编码集合进行再次划分，得到主、谓和宾各自的词编码子集，从而再根据主、谓和宾各自的词编码子集，以及标点文本编码，去进行语义分析，提高对英语口语文本的语义分析的精度。

Description

一种基于英语口语文本的语义分析方法

技术领域

本发明涉及语义处理技术领域，具体涉及一种基于英语口语文本的语义分析方法。

背景技术

在英语口语中，同一种英语口语文本通过不同的语气描述，能表达出不同含义，因此同一种英语口语文本存在多种语义。现有语义识别方法通过对文本中的语句进行提取关键词处理，采用深度学习模型从各个关键词中提取出关键词特征，再综合各关键词特征，对该文本进行语义分析，确定出其中包含的含义。但是在口语文本中，词较少，句式简单，通过深度学习模型直接处理口语文本中的关键词，存在关键词特征少，造成语义分析精度低的问题。

发明内容

针对现有技术中的上述不足，本发明提供的一种基于英语口语文本的语义分析方法解决了对英语口语文本存在语义分析精度低的问题。

为了达到上述发明目的，本发明采用的技术方案为：一种基于英语口语文本的语义分析方法，包括以下步骤：

S1、将英语口语文本进行分词处理，构成词编码集合，并提取标点文本编码；

S2、将词编码集合输入词特征提取模型，得到词特征；

S3、采用全连接层对词特征进行分类，得到每个词编码的类型，其中，词编码的类型包括：主语、谓语和宾语；

S4、根据每个词编码的类型，对词编码集合中词编码进行划分，得到词编码子集；

S5、采用语义分析模型处理各词编码子集和标点文本编码，得到语义分析结果。

本发明的有益效果为：本发明中先将英语口语文本进行分词处理，由于各个词在计算机中由编码构成，因此，得到词编码集合，并提取出标点文本编码，该标点文本编码用于表征该英语口语文本中采用的标点符号。本发明中先将词编码集合输入词特征提取模型，得到词特征，然后进行分类处理，分出每个词编码的类型，找到主、谓和宾，根据主、谓和宾对词编码集合进行再次划分，得到主、谓和宾各自的词编码子集，从而再根据主、谓和宾各自的词编码子集，以及标点文本编码，去进行语义分析，提高对英语口语文本的语义分析的精度。

在英语口语文本中，标点文本编码代表英语口语文本所使用的标点符号，标点符号具备能表明该句是疑问句、感叹句、陈述句或者省略句，不同标点符号对英语口语文本含义影响非常大，因此，本发明中加入标点文本编码，进行语义分析，提高语义分析精度。

进一步地，所述S2中词特征提取模型包括：多个长短期记忆网络、多个拼接层、长短期记忆融合特征提取网络和第一卷积层；

每个所述长短期记忆网络的输入端用于输入词编码集合的一个词编码，其输出端与一个拼接层的输入端连接；所述长短期记忆融合特征提取网络的输入端分别与多个拼接层的输出端连接，其输出端与第一卷积层的输入端连接；所述第一卷积层的输出端作为词特征提取模型的输出端。

上述进一步地方案的有益效果为：本发明中一个长短期记忆网络处理词编码集合中的一个词编码，提取词编码的特征，拼接层将一个词编码的特征进行拼接，在每个长短期记忆网络中实现对每个词编码的特征的提取，考虑词编码中各个编码值的关联性，在长短期记忆融合特征提取网络中考虑多个词编码特征之间的关联性，更好捕捉句子中各词之间的依赖性，提高S3中全连接层的分类精度。

进一步地，每个所述长短期记忆网络包括：多个LSTM细胞单元，所述多个LSTM细胞单元依次串联，在长短期记忆网络中每个所述LSTM细胞单元的输入为一个词编码中的一个编码值。

进一步地，每个所述拼接层用于将一个长短期记忆网络中多个LSTM细胞单元的输出拼接成向量X={x₁,…,x_m,…,x_M}，其中，X为拼接层输出的向量，x₁为第1个LSTM细胞单元的输出，x_m为第m个LSTM细胞单元的输出，x_M为第M个LSTM细胞单元的输出，m为一个长短期记忆网络中LSTM细胞单元的编号，M为一个长短期记忆网络中LSTM细胞单元的数量；

所述长短期记忆融合特征提取网络中包括：多个LSTM细胞单元，多个LSTM细胞单元依次串联，在长短期记忆融合特征提取网络中一个LSTM细胞单元的输入为一个拼接层输出的向量。

上述进一步地方案的有益效果为：本发明中长短期记忆网络和长短期记忆融合特征提取网络中的LSTM细胞单元，均包括遗忘门、输入门、输出门和状态门，遗忘门、输入门、输出门和状态门的连接关系与现有技术相同，与现有技术不同点在于，本发明中是采用一个长短期记忆网络处理一个词编码，其中一个LSTM细胞单元处理一个编码值，从而提取该词本身的特征，考虑该词本身各个编码值的依赖性。本发明中采用长短期记忆融合特征提取网络中一个LSTM细胞单元处理一个拼接层的输出，一个拼接层的输出代表一个词编码的特征，因此，长短期记忆融合特征提取网络考虑英语口语文本中各个词之间的依赖性，从而更好的提取特征，实现分类。

进一步地，所述S4中词编码子集的类型包括：主语词编码子集、谓语词编码子集和宾语词编码子集。

进一步地，所述S5中语义分析模型包括：主语特征提取单元、谓语特征提取单元、宾语特征提取单元、Concat层、标点增强单元和BP神经网络；

所述主语特征提取单元的输入端用于输入主语词编码子集；

所述谓语特征提取单元的输入端用于输入谓语词编码子集；

所述宾语特征提取单元的输入端用于输入宾语词编码子集；

所述Concat层的输入端分别与主语特征提取单元的输出端、谓语特征提取单元的输出端和宾语特征提取单元的输出端连接，其输出端与标点增强单元的输入端连接；

所述BP神经网络的输入端与标点增强单元的输出端连接，其输出端作为语义分析模型的输出端；

所述标点增强单元用于根据标点文本编码，对Concat层的输出特征值进行增强。

上述进一步地方案的有益效果为：在进行主、谓和宾划分后，本发明分别对主语、谓语和宾语提取特征，并考虑标点文本编码，更好对不同特征分配权重，提高英语口语文本获取特征的精度，最后采用BP神经网络进行分类，实现高精度的语义分析。

进一步地，所述标点增强单元的表达式为：，其中，g为标点增强单元的输出，sigmoid为激活函数，p_i为标点文本编码中第i个编码值，ω_p,i为p_i的权重，b_p,i为p_i的偏置，H为Concat层的一个输出特征值，L为标点文本编码中编码值的数量，i为编码值的编号。

上述进一步地方案的有益效果为：本发明中根据标点文本编码中的编码值，对Concat层的每一个输出特征值进行同等程度的增强，使得同一英语口语文本的特征值具备相同强度的增强方式，但在不同英语口语文本中，不同的标点符号具备不同强度的增强方式，进一步区分不同句式的语义。

进一步地，所述主语特征提取单元、谓语特征提取单元和宾语特征提取单元均包括：第二卷积层、第一残差块、第二残差块和自增强层；

所述第二卷积层的输入端作为主语特征提取单元、谓语特征提取单元或宾语特征提取单元的输入端，其输出端与第一残差块的输入端连接；

所述第二残差块的输入端与第一残差块的输出端连接，其输出端与自增强层的输入端连接；

所述自增强层的输出端作为主语特征提取单元、谓语特征提取单元或宾语特征提取单元的输出端。

进一步地，所述自增强层的表达式为：，其中，Z_k为自增强层输出的第k个特征值，r_k为第二残差块输出的第k个特征值，K为第二残差块输出的特征值的数量，k为特征值的编号，exp为以自然常数为底的指数函数。

上述进一步地方案的有益效果为：本发明中采用两个残差块进行递进式特征提取，并根据第二残差块输出的特征值自适应的对自身进行增强或者削弱，提高模型提取有效特征的能力。

附图说明

图1为一种基于英语口语文本的语义分析方法的流程图；

图2为词特征提取模型的结构示意图；

图3为语义分析模型的结构示意图；

图4为主语特征提取单元、谓语特征提取单元或宾语特征提取单元的结构示意图。

具体实施方式

下面对本发明的具体实施方式进行描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

如图1所示，一种基于英语口语文本的语义分析方法，包括以下步骤：

S1、分词处理：将英语口语文本进行分词处理，构成词编码集合，并提取标点文本编码；

S2、词特征提取：将词编码集合输入词特征提取模型，得到词特征；

S3、词特征分类：采用全连接层对词特征进行分类，得到每个词编码的类型，其中，词编码的类型包括：主语、谓语和宾语；

S4、词编码划分：根据每个词编码的类型，对词编码集合中词编码进行划分，得到词编码子集；

S5、语义分析：采用语义分析模型处理各词编码子集和标点文本编码，得到语义分析结果。

英语口语文本中每个词由多个编码值构成，一句英语口语文本由多个词编码构成，因此，在本发明中词编码集合表达一句英语口语文本。

如图2所示，所述S2中词特征提取模型包括：多个长短期记忆网络、多个拼接层、长短期记忆融合特征提取网络和第一卷积层；

本发明中一个长短期记忆网络处理词编码集合中的一个词编码，提取词编码的特征，拼接层将一个词编码的特征进行拼接，在每个长短期记忆网络中实现对每个词编码的特征的提取，考虑词编码中各个编码值的关联性，在长短期记忆融合特征提取网络中考虑多个词编码特征之间的关联性，更好捕捉句子中各词之间的依赖性，提高S3中全连接层的分类精度。

每个所述长短期记忆网络包括：多个LSTM细胞单元，所述多个LSTM细胞单元依次串联，在长短期记忆网络中每个所述LSTM细胞单元的输入为一个词编码中的一个编码值。

每个所述拼接层用于将一个长短期记忆网络中多个LSTM细胞单元的输出拼接成向量X={x₁,…,x_m,…,x_M}，其中，X为拼接层输出的向量，x₁为第1个LSTM细胞单元的输出，x_m为第m个LSTM细胞单元的输出，x_M为第M个LSTM细胞单元的输出，m为一个长短期记忆网络中LSTM细胞单元的编号，M为一个长短期记忆网络中LSTM细胞单元的数量；

在本实施例中，多个LSTM细胞单元的串联方式与现有技术相同。

本发明中长短期记忆网络和长短期记忆融合特征提取网络中的LSTM细胞单元，均包括遗忘门、输入门、输出门和状态门，遗忘门、输入门、输出门和状态门的连接关系与现有技术相同，与现有技术不同点在于，本发明中是采用一个长短期记忆网络处理一个词编码，其中一个LSTM细胞单元处理一个编码值，从而提取该词本身的特征，考虑该词本身各个编码值的依赖性。本发明中采用长短期记忆融合特征提取网络中一个LSTM细胞单元处理一个拼接层的输出，一个拼接层的输出代表一个词编码的特征，因此，长短期记忆融合特征提取网络考虑英语口语文本中各个词之间的依赖性，从而更好的提取特征，实现分类。

所述S4中词编码子集的类型包括：主语词编码子集、谓语词编码子集和宾语词编码子集。

在本实施例中，主语词编码子集为主语词的编码构成的集合，谓语词编码子集为谓语词的编码构成的集合，宾语词编码子集为宾语词的编码构成的集合。

如图3所示，所述S5中语义分析模型包括：主语特征提取单元、谓语特征提取单元、宾语特征提取单元、Concat层、标点增强单元和BP神经网络；

所述主语特征提取单元的输入端用于输入主语词编码子集；

所述谓语特征提取单元的输入端用于输入谓语词编码子集；

所述宾语特征提取单元的输入端用于输入宾语词编码子集；

所述Concat层的输入端分别与主语特征提取单元的输出端、谓语特征提取单元的输出端和宾语特征提取单元的输出端连接，其输出端与标点增强单元的输入端连接；所述BP神经网络的输入端与标点增强单元的输出端连接，其输出端作为语义分析模型的输出端；所述标点增强单元用于根据标点文本编码，对Concat层的输出特征值进行增强。

本发明在进行主、谓和宾划分后，本发明分别对主语、谓语和宾语提取特征，并考虑标点文本编码，更好对不同特征分配权重，提高英语口语文本获取特征的精度，最后采用BP神经网络进行分类，实现高精度的语义分析。

在本发明中语义分析的类型包括：语义情感分析和语义含义分析等，例如，采用本发明进行语义情感分析，则BP神经网络分类的类型则可以包括：开心、伤心、难受、疑问和质问等，采用本发明进行语义含义分析，则BP神经网络分类的类型则可以为该句英语语言文本对应的几种语义，本发明中语义分析的具体结果根据训练时设定的标签而定，在设定的训练标签固定后，语义分析的结果即为标签所设定的类型。

所述标点增强单元的表达式为：，其中，g为标点增强单元的输出，sigmoid为激活函数，p_i为标点文本编码中第i个编码值，ω_p,i为p_i的权重，b_p,i为p_i的偏置，H为Concat层的一个输出特征值，L为标点文本编码中编码值的数量，i为编码值的编号。

本发明中根据标点文本编码中的编码值，对Concat层的每一个输出特征值进行同等程度的增强，使得同一英语口语文本的特征值具备相同强度的增强方式，但在不同英语口语文本中，不同的标点符号具备不同强度的增强方式，进一步区分不同句式的语义。

如图4所示，所述主语特征提取单元、谓语特征提取单元和宾语特征提取单元均包括：第二卷积层、第一残差块、第二残差块和自增强层；

所述第二卷积层的输入端作为主语特征提取单元、谓语特征提取单元或宾语特征提取单元的输入端，其输出端与第一残差块的输入端连接；所述第二残差块的输入端与第一残差块的输出端连接，其输出端与自增强层的输入端连接；所述自增强层的输出端作为主语特征提取单元、谓语特征提取单元或宾语特征提取单元的输出端。

所述自增强层的表达式为：，其中，Z_k为自增强层输出的第k个特征值，r_k为第二残差块输出的第k个特征值，K为第二残差块输出的特征值的数量，k为特征值的编号，exp为以自然常数为底的指数函数。

本发明中采用两个残差块进行递进式特征提取，并根据第二残差块输出的特征值自适应的对自身进行增强或者削弱，提高模型提取有效特征的能力。

本发明中先将英语口语文本进行分词处理，由于各个词在计算机中由编码构成，因此，得到词编码集合，并提取出标点文本编码，该标点文本编码用于表征该英语口语文本中采用的标点符号。本发明中先将词编码集合输入词特征提取模型，得到词特征，然后进行分类处理，分出每个词编码的类型，找到主、谓和宾，根据主、谓和宾对词编码集合进行再次划分，得到主、谓和宾各自的词编码子集，从而再根据主、谓和宾各自的词编码子集，以及标点文本编码，去进行语义分析，提高对英语口语文本的语义分析的精度。

以上仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于英语口语文本的语义分析方法，其特征在于，包括以下步骤：

S2、将词编码集合输入词特征提取模型，得到词特征；

2.根据权利要求1所述的基于英语口语文本的语义分析方法，其特征在于，所述S2中词特征提取模型包括：多个长短期记忆网络、多个拼接层、长短期记忆融合特征提取网络和第一卷积层；

3.根据权利要求2所述的基于英语口语文本的语义分析方法，其特征在于，每个所述长短期记忆网络包括：多个LSTM细胞单元，所述多个LSTM细胞单元依次串联，在长短期记忆网络中每个所述LSTM细胞单元的输入为一个词编码中的一个编码值。

4.根据权利要求3所述的基于英语口语文本的语义分析方法，其特征在于，每个所述拼接层用于将一个长短期记忆网络中多个LSTM细胞单元的输出拼接成向量X={x₁,…,x_m,…,x_M}，其中，X为拼接层输出的向量，x₁为第1个LSTM细胞单元的输出，x_m为第m个LSTM细胞单元的输出，x_M为第M个LSTM细胞单元的输出，m为一个长短期记忆网络中LSTM细胞单元的编号，M为一个长短期记忆网络中LSTM细胞单元的数量；

5.根据权利要求1所述的基于英语口语文本的语义分析方法，其特征在于，所述S4中词编码子集的类型包括：主语词编码子集、谓语词编码子集和宾语词编码子集。

6.根据权利要求5所述的基于英语口语文本的语义分析方法，其特征在于，所述S5中语义分析模型包括：主语特征提取单元、谓语特征提取单元、宾语特征提取单元、Concat层、标点增强单元和BP神经网络；

所述主语特征提取单元的输入端用于输入主语词编码子集；

所述谓语特征提取单元的输入端用于输入谓语词编码子集；

所述宾语特征提取单元的输入端用于输入宾语词编码子集；

7.根据权利要求6所述的基于英语口语文本的语义分析方法，其特征在于，所述标点增强单元的表达式为：，其中，g为标点增强单元的输出，sigmoid为激活函数，p_i为标点文本编码中第i个编码值，ω_p,i为p_i的权重，b_p,i为p_i的偏置，H为Concat层的一个输出特征值，L为标点文本编码中编码值的数量，i为编码值的编号。

8.根据权利要求6所述的基于英语口语文本的语义分析方法，其特征在于，所述主语特征提取单元、谓语特征提取单元和宾语特征提取单元均包括：第二卷积层、第一残差块、第二残差块和自增强层；

9.根据权利要求8所述的基于英语口语文本的语义分析方法，其特征在于，所述自增强层的表达式为：，其中，Z_k为自增强层输出的第k个特征值，r_k为第二残差块输出的第k个特征值，K为第二残差块输出的特征值的数量，k为特征值的编号，exp为以自然常数为底的指数函数。