CN117332788A - 一种基于英语口语文本的语义分析方法 - Google Patents
一种基于英语口语文本的语义分析方法 Download PDFInfo
- Publication number
- CN117332788A CN117332788A CN202311625052.3A CN202311625052A CN117332788A CN 117332788 A CN117332788 A CN 117332788A CN 202311625052 A CN202311625052 A CN 202311625052A CN 117332788 A CN117332788 A CN 117332788A
- Authority
- CN
- China
- Prior art keywords
- word
- feature extraction
- output
- layer
- semantic analysis
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 51
- 238000000605 extraction Methods 0.000 claims abstract description 90
- 230000015654 memory Effects 0.000 claims description 40
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 claims description 25
- 230000004927 fusion Effects 0.000 claims description 21
- 238000000034 method Methods 0.000 claims description 13
- 230000007787 long-term memory Effects 0.000 claims description 11
- 238000013528 artificial neural network Methods 0.000 claims description 10
- 230000006403 short-term memory Effects 0.000 claims description 7
- 230000006870 function Effects 0.000 claims description 6
- 230000011218 segmentation Effects 0.000 claims description 6
- 230000004913 activation Effects 0.000 claims description 3
- 230000002708 enhancing effect Effects 0.000 claims description 3
- 230000009286 beneficial effect Effects 0.000 description 6
- 230000008569 process Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000013136 deep learning model Methods 0.000 description 2
- 230000008451 emotion Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000000750 progressive effect Effects 0.000 description 2
- 238000004148 unit process Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
- G06N3/0442—Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0499—Feedforward networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于英语口语文本的语义分析方法,属于语义分析技术领域,本发明中先将英语口语文本进行分词处理,由于各个词在计算机中由编码构成,因此,得到词编码集合,并提取出标点文本编码,该标点文本编码用于表征该英语口语文本中采用的标点符号。本发明中先将词编码集合输入词特征提取模型,得到词特征,然后进行分类处理,分出每个词编码的类型,找到主、谓和宾,根据主、谓和宾对词编码集合进行再次划分,得到主、谓和宾各自的词编码子集,从而再根据主、谓和宾各自的词编码子集,以及标点文本编码,去进行语义分析,提高对英语口语文本的语义分析的精度。
Description
技术领域
本发明涉及语义处理技术领域,具体涉及一种基于英语口语文本的语义分析方法。
背景技术
在英语口语中,同一种英语口语文本通过不同的语气描述,能表达出不同含义,因此同一种英语口语文本存在多种语义。现有语义识别方法通过对文本中的语句进行提取关键词处理,采用深度学习模型从各个关键词中提取出关键词特征,再综合各关键词特征,对该文本进行语义分析,确定出其中包含的含义。但是在口语文本中,词较少,句式简单,通过深度学习模型直接处理口语文本中的关键词,存在关键词特征少,造成语义分析精度低的问题。
发明内容
针对现有技术中的上述不足,本发明提供的一种基于英语口语文本的语义分析方法解决了对英语口语文本存在语义分析精度低的问题。
为了达到上述发明目的,本发明采用的技术方案为:一种基于英语口语文本的语义分析方法,包括以下步骤:
S1、将英语口语文本进行分词处理,构成词编码集合,并提取标点文本编码;
S2、将词编码集合输入词特征提取模型,得到词特征;
S3、采用全连接层对词特征进行分类,得到每个词编码的类型,其中,词编码的类型包括:主语、谓语和宾语;
S4、根据每个词编码的类型,对词编码集合中词编码进行划分,得到词编码子集;
S5、采用语义分析模型处理各词编码子集和标点文本编码,得到语义分析结果。
本发明的有益效果为:本发明中先将英语口语文本进行分词处理,由于各个词在计算机中由编码构成,因此,得到词编码集合,并提取出标点文本编码,该标点文本编码用于表征该英语口语文本中采用的标点符号。本发明中先将词编码集合输入词特征提取模型,得到词特征,然后进行分类处理,分出每个词编码的类型,找到主、谓和宾,根据主、谓和宾对词编码集合进行再次划分,得到主、谓和宾各自的词编码子集,从而再根据主、谓和宾各自的词编码子集,以及标点文本编码,去进行语义分析,提高对英语口语文本的语义分析的精度。
在英语口语文本中,标点文本编码代表英语口语文本所使用的标点符号,标点符号具备能表明该句是疑问句、感叹句、陈述句或者省略句,不同标点符号对英语口语文本含义影响非常大,因此,本发明中加入标点文本编码,进行语义分析,提高语义分析精度。
进一步地,所述S2中词特征提取模型包括:多个长短期记忆网络、多个拼接层、长短期记忆融合特征提取网络和第一卷积层;
每个所述长短期记忆网络的输入端用于输入词编码集合的一个词编码,其输出端与一个拼接层的输入端连接;所述长短期记忆融合特征提取网络的输入端分别与多个拼接层的输出端连接,其输出端与第一卷积层的输入端连接;所述第一卷积层的输出端作为词特征提取模型的输出端。
上述进一步地方案的有益效果为:本发明中一个长短期记忆网络处理词编码集合中的一个词编码,提取词编码的特征,拼接层将一个词编码的特征进行拼接,在每个长短期记忆网络中实现对每个词编码的特征的提取,考虑词编码中各个编码值的关联性,在长短期记忆融合特征提取网络中考虑多个词编码特征之间的关联性,更好捕捉句子中各词之间的依赖性,提高S3中全连接层的分类精度。
进一步地,每个所述长短期记忆网络包括:多个LSTM细胞单元,所述多个LSTM细胞单元依次串联,在长短期记忆网络中每个所述LSTM细胞单元的输入为一个词编码中的一个编码值。
进一步地,每个所述拼接层用于将一个长短期记忆网络中多个LSTM细胞单元的输出拼接成向量X={x1,…,xm,…,xM},其中,X为拼接层输出的向量,x1为第1个LSTM细胞单元的输出,xm为第m个LSTM细胞单元的输出,xM为第M个LSTM细胞单元的输出,m为一个长短期记忆网络中LSTM细胞单元的编号,M为一个长短期记忆网络中LSTM细胞单元的数量;
所述长短期记忆融合特征提取网络中包括:多个LSTM细胞单元,多个LSTM细胞单元依次串联,在长短期记忆融合特征提取网络中一个LSTM细胞单元的输入为一个拼接层输出的向量。
上述进一步地方案的有益效果为:本发明中长短期记忆网络和长短期记忆融合特征提取网络中的LSTM细胞单元,均包括遗忘门、输入门、输出门和状态门,遗忘门、输入门、输出门和状态门的连接关系与现有技术相同,与现有技术不同点在于,本发明中是采用一个长短期记忆网络处理一个词编码,其中一个LSTM细胞单元处理一个编码值,从而提取该词本身的特征,考虑该词本身各个编码值的依赖性。本发明中采用长短期记忆融合特征提取网络中一个LSTM细胞单元处理一个拼接层的输出,一个拼接层的输出代表一个词编码的特征,因此,长短期记忆融合特征提取网络考虑英语口语文本中各个词之间的依赖性,从而更好的提取特征,实现分类。
进一步地,所述S4中词编码子集的类型包括:主语词编码子集、谓语词编码子集和宾语词编码子集。
进一步地,所述S5中语义分析模型包括:主语特征提取单元、谓语特征提取单元、宾语特征提取单元、Concat层、标点增强单元和BP神经网络;
所述主语特征提取单元的输入端用于输入主语词编码子集;
所述谓语特征提取单元的输入端用于输入谓语词编码子集;
所述宾语特征提取单元的输入端用于输入宾语词编码子集;
所述Concat层的输入端分别与主语特征提取单元的输出端、谓语特征提取单元的输出端和宾语特征提取单元的输出端连接,其输出端与标点增强单元的输入端连接;
所述BP神经网络的输入端与标点增强单元的输出端连接,其输出端作为语义分析模型的输出端;
所述标点增强单元用于根据标点文本编码,对Concat层的输出特征值进行增强。
上述进一步地方案的有益效果为:在进行主、谓和宾划分后,本发明分别对主语、谓语和宾语提取特征,并考虑标点文本编码,更好对不同特征分配权重,提高英语口语文本获取特征的精度,最后采用BP神经网络进行分类,实现高精度的语义分析。
进一步地,所述标点增强单元的表达式为:,其中,g为标点增强单元的输出,sigmoid为激活函数,pi为标点文本编码中第i个编码值,ωp,i为pi的权重,bp,i为pi的偏置,H为Concat层的一个输出特征值,L为标点文本编码中编码值的数量,i为编码值的编号。
上述进一步地方案的有益效果为:本发明中根据标点文本编码中的编码值,对Concat层的每一个输出特征值进行同等程度的增强,使得同一英语口语文本的特征值具备相同强度的增强方式,但在不同英语口语文本中,不同的标点符号具备不同强度的增强方式,进一步区分不同句式的语义。
进一步地,所述主语特征提取单元、谓语特征提取单元和宾语特征提取单元均包括:第二卷积层、第一残差块、第二残差块和自增强层;
所述第二卷积层的输入端作为主语特征提取单元、谓语特征提取单元或宾语特征提取单元的输入端,其输出端与第一残差块的输入端连接;
所述第二残差块的输入端与第一残差块的输出端连接,其输出端与自增强层的输入端连接;
所述自增强层的输出端作为主语特征提取单元、谓语特征提取单元或宾语特征提取单元的输出端。
进一步地,所述自增强层的表达式为:,其中,Zk为自增强层输出的第k个特征值,rk为第二残差块输出的第k个特征值,K为第二残差块输出的特征值的数量,k为特征值的编号,exp为以自然常数为底的指数函数。
上述进一步地方案的有益效果为:本发明中采用两个残差块进行递进式特征提取,并根据第二残差块输出的特征值自适应的对自身进行增强或者削弱,提高模型提取有效特征的能力。
附图说明
图1为一种基于英语口语文本的语义分析方法的流程图;
图2为词特征提取模型的结构示意图;
图3为语义分析模型的结构示意图;
图4为主语特征提取单元、谓语特征提取单元或宾语特征提取单元的结构示意图。
具体实施方式
下面对本发明的具体实施方式进行描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
如图1所示,一种基于英语口语文本的语义分析方法,包括以下步骤:
S1、分词处理:将英语口语文本进行分词处理,构成词编码集合,并提取标点文本编码;
S2、词特征提取:将词编码集合输入词特征提取模型,得到词特征;
S3、词特征分类:采用全连接层对词特征进行分类,得到每个词编码的类型,其中,词编码的类型包括:主语、谓语和宾语;
S4、词编码划分:根据每个词编码的类型,对词编码集合中词编码进行划分,得到词编码子集;
S5、语义分析:采用语义分析模型处理各词编码子集和标点文本编码,得到语义分析结果。
英语口语文本中每个词由多个编码值构成,一句英语口语文本由多个词编码构成,因此,在本发明中词编码集合表达一句英语口语文本。
如图2所示,所述S2中词特征提取模型包括:多个长短期记忆网络、多个拼接层、长短期记忆融合特征提取网络和第一卷积层;
每个所述长短期记忆网络的输入端用于输入词编码集合的一个词编码,其输出端与一个拼接层的输入端连接;所述长短期记忆融合特征提取网络的输入端分别与多个拼接层的输出端连接,其输出端与第一卷积层的输入端连接;所述第一卷积层的输出端作为词特征提取模型的输出端。
本发明中一个长短期记忆网络处理词编码集合中的一个词编码,提取词编码的特征,拼接层将一个词编码的特征进行拼接,在每个长短期记忆网络中实现对每个词编码的特征的提取,考虑词编码中各个编码值的关联性,在长短期记忆融合特征提取网络中考虑多个词编码特征之间的关联性,更好捕捉句子中各词之间的依赖性,提高S3中全连接层的分类精度。
每个所述长短期记忆网络包括:多个LSTM细胞单元,所述多个LSTM细胞单元依次串联,在长短期记忆网络中每个所述LSTM细胞单元的输入为一个词编码中的一个编码值。
每个所述拼接层用于将一个长短期记忆网络中多个LSTM细胞单元的输出拼接成向量X={x1,…,xm,…,xM},其中,X为拼接层输出的向量,x1为第1个LSTM细胞单元的输出,xm为第m个LSTM细胞单元的输出,xM为第M个LSTM细胞单元的输出,m为一个长短期记忆网络中LSTM细胞单元的编号,M为一个长短期记忆网络中LSTM细胞单元的数量;
所述长短期记忆融合特征提取网络中包括:多个LSTM细胞单元,多个LSTM细胞单元依次串联,在长短期记忆融合特征提取网络中一个LSTM细胞单元的输入为一个拼接层输出的向量。
在本实施例中,多个LSTM细胞单元的串联方式与现有技术相同。
本发明中长短期记忆网络和长短期记忆融合特征提取网络中的LSTM细胞单元,均包括遗忘门、输入门、输出门和状态门,遗忘门、输入门、输出门和状态门的连接关系与现有技术相同,与现有技术不同点在于,本发明中是采用一个长短期记忆网络处理一个词编码,其中一个LSTM细胞单元处理一个编码值,从而提取该词本身的特征,考虑该词本身各个编码值的依赖性。本发明中采用长短期记忆融合特征提取网络中一个LSTM细胞单元处理一个拼接层的输出,一个拼接层的输出代表一个词编码的特征,因此,长短期记忆融合特征提取网络考虑英语口语文本中各个词之间的依赖性,从而更好的提取特征,实现分类。
所述S4中词编码子集的类型包括:主语词编码子集、谓语词编码子集和宾语词编码子集。
在本实施例中,主语词编码子集为主语词的编码构成的集合,谓语词编码子集为谓语词的编码构成的集合,宾语词编码子集为宾语词的编码构成的集合。
如图3所示,所述S5中语义分析模型包括:主语特征提取单元、谓语特征提取单元、宾语特征提取单元、Concat层、标点增强单元和BP神经网络;
所述主语特征提取单元的输入端用于输入主语词编码子集;
所述谓语特征提取单元的输入端用于输入谓语词编码子集;
所述宾语特征提取单元的输入端用于输入宾语词编码子集;
所述Concat层的输入端分别与主语特征提取单元的输出端、谓语特征提取单元的输出端和宾语特征提取单元的输出端连接,其输出端与标点增强单元的输入端连接;所述BP神经网络的输入端与标点增强单元的输出端连接,其输出端作为语义分析模型的输出端;所述标点增强单元用于根据标点文本编码,对Concat层的输出特征值进行增强。
本发明在进行主、谓和宾划分后,本发明分别对主语、谓语和宾语提取特征,并考虑标点文本编码,更好对不同特征分配权重,提高英语口语文本获取特征的精度,最后采用BP神经网络进行分类,实现高精度的语义分析。
在本发明中语义分析的类型包括:语义情感分析和语义含义分析等,例如,采用本发明进行语义情感分析,则BP神经网络分类的类型则可以包括:开心、伤心、难受、疑问和质问等,采用本发明进行语义含义分析,则BP神经网络分类的类型则可以为该句英语语言文本对应的几种语义,本发明中语义分析的具体结果根据训练时设定的标签而定,在设定的训练标签固定后,语义分析的结果即为标签所设定的类型。
所述标点增强单元的表达式为:,其中,g为标点增强单元的输出,sigmoid为激活函数,pi为标点文本编码中第i个编码值,ωp,i为pi的权重,bp,i为pi的偏置,H为Concat层的一个输出特征值,L为标点文本编码中编码值的数量,i为编码值的编号。
本发明中根据标点文本编码中的编码值,对Concat层的每一个输出特征值进行同等程度的增强,使得同一英语口语文本的特征值具备相同强度的增强方式,但在不同英语口语文本中,不同的标点符号具备不同强度的增强方式,进一步区分不同句式的语义。
如图4所示,所述主语特征提取单元、谓语特征提取单元和宾语特征提取单元均包括:第二卷积层、第一残差块、第二残差块和自增强层;
所述第二卷积层的输入端作为主语特征提取单元、谓语特征提取单元或宾语特征提取单元的输入端,其输出端与第一残差块的输入端连接;所述第二残差块的输入端与第一残差块的输出端连接,其输出端与自增强层的输入端连接;所述自增强层的输出端作为主语特征提取单元、谓语特征提取单元或宾语特征提取单元的输出端。
所述自增强层的表达式为:,其中,Zk为自增强层输出的第k个特征值,rk为第二残差块输出的第k个特征值,K为第二残差块输出的特征值的数量,k为特征值的编号,exp为以自然常数为底的指数函数。
本发明中采用两个残差块进行递进式特征提取,并根据第二残差块输出的特征值自适应的对自身进行增强或者削弱,提高模型提取有效特征的能力。
本发明中先将英语口语文本进行分词处理,由于各个词在计算机中由编码构成,因此,得到词编码集合,并提取出标点文本编码,该标点文本编码用于表征该英语口语文本中采用的标点符号。本发明中先将词编码集合输入词特征提取模型,得到词特征,然后进行分类处理,分出每个词编码的类型,找到主、谓和宾,根据主、谓和宾对词编码集合进行再次划分,得到主、谓和宾各自的词编码子集,从而再根据主、谓和宾各自的词编码子集,以及标点文本编码,去进行语义分析,提高对英语口语文本的语义分析的精度。
在英语口语文本中,标点文本编码代表英语口语文本所使用的标点符号,标点符号具备能表明该句是疑问句、感叹句、陈述句或者省略句,不同标点符号对英语口语文本含义影响非常大,因此,本发明中加入标点文本编码,进行语义分析,提高语义分析精度。
以上仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (9)
1.一种基于英语口语文本的语义分析方法,其特征在于,包括以下步骤:
S1、将英语口语文本进行分词处理,构成词编码集合,并提取标点文本编码;
S2、将词编码集合输入词特征提取模型,得到词特征;
S3、采用全连接层对词特征进行分类,得到每个词编码的类型,其中,词编码的类型包括:主语、谓语和宾语;
S4、根据每个词编码的类型,对词编码集合中词编码进行划分,得到词编码子集;
S5、采用语义分析模型处理各词编码子集和标点文本编码,得到语义分析结果。
2.根据权利要求1所述的基于英语口语文本的语义分析方法,其特征在于,所述S2中词特征提取模型包括:多个长短期记忆网络、多个拼接层、长短期记忆融合特征提取网络和第一卷积层;
每个所述长短期记忆网络的输入端用于输入词编码集合的一个词编码,其输出端与一个拼接层的输入端连接;所述长短期记忆融合特征提取网络的输入端分别与多个拼接层的输出端连接,其输出端与第一卷积层的输入端连接;所述第一卷积层的输出端作为词特征提取模型的输出端。
3.根据权利要求2所述的基于英语口语文本的语义分析方法,其特征在于,每个所述长短期记忆网络包括:多个LSTM细胞单元,所述多个LSTM细胞单元依次串联,在长短期记忆网络中每个所述LSTM细胞单元的输入为一个词编码中的一个编码值。
4.根据权利要求3所述的基于英语口语文本的语义分析方法,其特征在于,每个所述拼接层用于将一个长短期记忆网络中多个LSTM细胞单元的输出拼接成向量X={x1,…,xm,…,xM},其中,X为拼接层输出的向量,x1为第1个LSTM细胞单元的输出,xm为第m个LSTM细胞单元的输出,xM为第M个LSTM细胞单元的输出,m为一个长短期记忆网络中LSTM细胞单元的编号,M为一个长短期记忆网络中LSTM细胞单元的数量;
所述长短期记忆融合特征提取网络中包括:多个LSTM细胞单元,多个LSTM细胞单元依次串联,在长短期记忆融合特征提取网络中一个LSTM细胞单元的输入为一个拼接层输出的向量。
5.根据权利要求1所述的基于英语口语文本的语义分析方法,其特征在于,所述S4中词编码子集的类型包括:主语词编码子集、谓语词编码子集和宾语词编码子集。
6.根据权利要求5所述的基于英语口语文本的语义分析方法,其特征在于,所述S5中语义分析模型包括:主语特征提取单元、谓语特征提取单元、宾语特征提取单元、Concat层、标点增强单元和BP神经网络;
所述主语特征提取单元的输入端用于输入主语词编码子集;
所述谓语特征提取单元的输入端用于输入谓语词编码子集;
所述宾语特征提取单元的输入端用于输入宾语词编码子集;
所述Concat层的输入端分别与主语特征提取单元的输出端、谓语特征提取单元的输出端和宾语特征提取单元的输出端连接,其输出端与标点增强单元的输入端连接;
所述BP神经网络的输入端与标点增强单元的输出端连接,其输出端作为语义分析模型的输出端;
所述标点增强单元用于根据标点文本编码,对Concat层的输出特征值进行增强。
7.根据权利要求6所述的基于英语口语文本的语义分析方法,其特征在于,所述标点增强单元的表达式为:,其中,g为标点增强单元的输出,sigmoid为激活函数,pi为标点文本编码中第i个编码值,ωp,i为pi的权重,bp,i为pi的偏置,H为Concat层的一个输出特征值,L为标点文本编码中编码值的数量,i为编码值的编号。
8.根据权利要求6所述的基于英语口语文本的语义分析方法,其特征在于,所述主语特征提取单元、谓语特征提取单元和宾语特征提取单元均包括:第二卷积层、第一残差块、第二残差块和自增强层;
所述第二卷积层的输入端作为主语特征提取单元、谓语特征提取单元或宾语特征提取单元的输入端,其输出端与第一残差块的输入端连接;
所述第二残差块的输入端与第一残差块的输出端连接,其输出端与自增强层的输入端连接;
所述自增强层的输出端作为主语特征提取单元、谓语特征提取单元或宾语特征提取单元的输出端。
9.根据权利要求8所述的基于英语口语文本的语义分析方法,其特征在于,所述自增强层的表达式为:,其中,Zk为自增强层输出的第k个特征值,rk为第二残差块输出的第k个特征值,K为第二残差块输出的特征值的数量,k为特征值的编号,exp为以自然常数为底的指数函数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311625052.3A CN117332788B (zh) | 2023-11-30 | 2023-11-30 | 一种基于英语口语文本的语义分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311625052.3A CN117332788B (zh) | 2023-11-30 | 2023-11-30 | 一种基于英语口语文本的语义分析方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117332788A true CN117332788A (zh) | 2024-01-02 |
CN117332788B CN117332788B (zh) | 2024-03-01 |
Family
ID=89293779
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311625052.3A Active CN117332788B (zh) | 2023-11-30 | 2023-11-30 | 一种基于英语口语文本的语义分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117332788B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117688137A (zh) * | 2024-01-31 | 2024-03-12 | 成都航空职业技术学院 | 应用于汽车营销管理系统软件的数据分析方法及系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108287858A (zh) * | 2017-03-02 | 2018-07-17 | 腾讯科技(深圳)有限公司 | 自然语言的语义提取方法及装置 |
CN109271626A (zh) * | 2018-08-31 | 2019-01-25 | 北京工业大学 | 文本语义分析方法 |
CN110502753A (zh) * | 2019-08-23 | 2019-11-26 | 昆明理工大学 | 一种基于语义增强的深度学习情感分析模型及其分析方法 |
CN114818722A (zh) * | 2021-01-18 | 2022-07-29 | 陆丽娜 | 一种自然语言处理的语义分析方法、智能终端及存储介质 |
CN114881042A (zh) * | 2022-06-02 | 2022-08-09 | 电子科技大学 | 基于图卷积网络融合句法依存与词性的中文情感分析方法 |
CN115563296A (zh) * | 2022-09-07 | 2023-01-03 | 天津市国瑞数码安全系统股份有限公司 | 基于内容语义的融合检测方法和系统 |
-
2023
- 2023-11-30 CN CN202311625052.3A patent/CN117332788B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108287858A (zh) * | 2017-03-02 | 2018-07-17 | 腾讯科技(深圳)有限公司 | 自然语言的语义提取方法及装置 |
US20190278846A1 (en) * | 2017-03-02 | 2019-09-12 | Tencent Technology (Shenzhen) Company Limited | Semantic extraction method and apparatus for natural language, and computer storage medium |
CN109271626A (zh) * | 2018-08-31 | 2019-01-25 | 北京工业大学 | 文本语义分析方法 |
CN110502753A (zh) * | 2019-08-23 | 2019-11-26 | 昆明理工大学 | 一种基于语义增强的深度学习情感分析模型及其分析方法 |
CN114818722A (zh) * | 2021-01-18 | 2022-07-29 | 陆丽娜 | 一种自然语言处理的语义分析方法、智能终端及存储介质 |
CN114881042A (zh) * | 2022-06-02 | 2022-08-09 | 电子科技大学 | 基于图卷积网络融合句法依存与词性的中文情感分析方法 |
CN115563296A (zh) * | 2022-09-07 | 2023-01-03 | 天津市国瑞数码安全系统股份有限公司 | 基于内容语义的融合检测方法和系统 |
Non-Patent Citations (2)
Title |
---|
DONALD DUNAGAN ET AL: "Neural correlates of semantic number A cross-linguistic investigation", 《BRAIN AND LANGUAGE》, pages 1 - 10 * |
方澄等: "基于语法依存图的中文微博细粒度情感分类", 《计算机应用》, vol. 43, no. 4, pages 1056 - 1061 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117688137A (zh) * | 2024-01-31 | 2024-03-12 | 成都航空职业技术学院 | 应用于汽车营销管理系统软件的数据分析方法及系统 |
CN117688137B (zh) * | 2024-01-31 | 2024-04-12 | 成都航空职业技术学院 | 应用于汽车营销管理系统软件的数据分析方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN117332788B (zh) | 2024-03-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110298037B (zh) | 基于增强注意力机制的卷积神经网络匹配的文本识别方法 | |
CN111708882B (zh) | 基于Transformer的中文文本信息缺失的补全方法 | |
CN117332788B (zh) | 一种基于英语口语文本的语义分析方法 | |
CN111475650B (zh) | 一种俄语语义角色标注方法、系统、装置以及存储介质 | |
CN112100377B (zh) | 文本分类方法、装置、计算机设备和存储介质 | |
CN115759119B (zh) | 一种金融文本情感分析方法、系统、介质和设备 | |
CN108536781B (zh) | 一种社交网络情绪焦点的挖掘方法及系统 | |
CN114372465A (zh) | 基于Mixup和BQRNN的法律命名实体识别方法 | |
CN113449084A (zh) | 基于图卷积的关系抽取方法 | |
CN114691864A (zh) | 文本分类模型训练方法及装置、文本分类方法及装置 | |
CN114662476A (zh) | 一种融合词典与字符特征的字符序列识别方法 | |
CN116127060A (zh) | 一种基于提示词的文本分类方法及系统 | |
CN113886531A (zh) | 智能问答话术确定方法、装置、计算机设备和存储介质 | |
CN114528835A (zh) | 基于区间判别的半监督专业术语抽取方法、介质及设备 | |
CN112052319A (zh) | 一种基于多特征融合的智能客服方法及系统 | |
CN111310411A (zh) | 一种基于多样性模型的文本相关性判定方法、装置和设备 | |
CN115064154A (zh) | 混合语言语音识别模型的生成方法及装置 | |
CN111241843A (zh) | 基于复合神经网络的语义关系推断系统和方法 | |
CN113779992A (zh) | 基于词汇增强和预训练的BcBERT-SW-BiLSTM-CRF模型的实现方法 | |
CN111241848B (zh) | 一种基于机器学习的文章阅读理解答案检索方法及装置 | |
CN111898375A (zh) | 一种基于词向量句子链的文章论点论据自动检测划分方法 | |
CN116522165A (zh) | 一种基于孪生结构的舆情文本匹配系统及方法 | |
Zhang et al. | Japanese sentiment classification with stacked denoising auto-encoder using distributed word representation | |
CN115934948A (zh) | 一种基于知识增强的药物实体关系联合抽取方法及系统 | |
CN113486160B (zh) | 基于跨语言知识的对话方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |