CN112052687B - 基于深度可分离卷积的语义特征处理方法、装置及介质 - Google Patents
基于深度可分离卷积的语义特征处理方法、装置及介质 Download PDFInfo
- Publication number
- CN112052687B CN112052687B CN202010912076.7A CN202010912076A CN112052687B CN 112052687 B CN112052687 B CN 112052687B CN 202010912076 A CN202010912076 A CN 202010912076A CN 112052687 B CN112052687 B CN 112052687B
- Authority
- CN
- China
- Prior art keywords
- word
- dimensional
- chat
- convolution
- chat data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 9
- 239000013598 vector Substances 0.000 claims abstract description 107
- 239000011159 matrix material Substances 0.000 claims abstract description 39
- 238000000034 method Methods 0.000 claims abstract description 39
- 230000011218 segmentation Effects 0.000 claims abstract description 35
- 238000000605 extraction Methods 0.000 claims abstract description 19
- 238000011176 pooling Methods 0.000 claims abstract description 14
- 239000012634 fragment Substances 0.000 claims abstract description 6
- 238000012545 processing Methods 0.000 claims abstract description 6
- 230000008569 process Effects 0.000 claims description 18
- 238000012549 training Methods 0.000 claims description 18
- 238000007781 pre-processing Methods 0.000 claims description 13
- 238000003491 array Methods 0.000 claims description 12
- 238000004364 calculation method Methods 0.000 claims description 11
- 230000004927 fusion Effects 0.000 claims description 6
- 230000004931 aggregating effect Effects 0.000 claims description 3
- 230000002776 aggregation Effects 0.000 claims description 3
- 238000004220 aggregation Methods 0.000 claims description 3
- 238000004590 computer program Methods 0.000 claims description 2
- 230000007547 defect Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 3
- 230000002457 bidirectional effect Effects 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000002354 daily effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Bioinformatics & Computational Biology (AREA)
- Human Computer Interaction (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Machine Translation (AREA)
Abstract
本发明提出了一种基于深度可分离卷积的语义特征处理方法、装置及介质,该方法包括:获取聊天数据使用词向量模型进行分词得到分词集合,将所述分词集合预处理为片段词嵌入矩阵;使用深度可分离卷积的不同高度的卷积核对片段词嵌入矩阵进行特征提取得到二维特征张量后拼接得到三维特征张量;使用一维最大池化操作提取出每个卷积核输出的最大值,将所有最大值拼接得到聊天文本的语义特征向量。本发明首先将聊天文本分割成子片段,片段中的每一句聊天作为词嵌入矩阵的每个通道维度,并设计了多尺度深度可分离一维卷积核获取子片段的语义特征,再提取每个卷积核中的最显著特征拼接成为该子片段的语义特征向量,其提取语义特征连续,更为符合聊天数据的上下文特征。
Description
技术领域
本发明涉及自然语言处理(NLP)技术领域,具体涉及一种基于深度可分离卷积的语义特征处理方法、装置及存储介质。
背景技术
近些年来随着移动互联网的飞速发展,QQ、微信等即时通讯软件已成为人们日常生活、工作中不可或缺的社交工具。这些软件每天都会产生极为庞大的聊天数据,通过对聊天数据的建模来分析聊天内容、聊天者间的关系,逐渐成为电子取证领域的热门研究方向。其中,聊天内容分析的一个重要步骤为文本语义特征的获取。在自然语言处理领域,合适的文本语义特征对下游任务(文本分类、命名实体识别、文本摘要、问答模型等)能起到决定性的作用。
目前常见的聊天文本主题建模方式为:将所有聊天数据或者分段后的聊天段落的每一句聊天拼接成段落作为分析单位。该做法可将聊天文本建模成与新闻、文章类似的结构,再通过双向LSTM、卷积神经网络等单元提取文本语义特征向量进行分析。然而聊天场景与新闻、文章的场景不同,聊天文本采用这种建模方式存在明显的缺陷,例如:聊天文本的每句话在拼接处会造成语义不连续。
现有技术的主要技术缺陷如下:传统的特征抽取过程文本张量矩阵的通道维数为1,没有利用到通道特征,损失部分语义信息;传统的语义特征向量利用双向LSTM单元、1D卷积等模块计算获得,大量的大尺度矩阵乘法运算导致计算量大;基于文本拼接的方式提取到的语义向量不能很好地表示聊天场景下的文本语义特征,存在上下文拼接部分语义不连续的缺陷。
发明内容
本发明针对上述现有技术中一个或多个技术缺陷,提出了如下技术方案。
一种基于深度可分离卷积的语义特征处理方法,该方法包括:
预处理步骤,获取聊天数据,并将所述聊天数据按照发送时间进行排序,将排序后的聊天数据使用训练后的词向量模型进行分词得到分词集合,将所述分词集合预处理为片段词嵌入矩阵;
特征提取步骤,使用深度可分离卷积的不同高度的卷积核对片段词嵌入矩阵进行特征提取得到二维特征张量,将所述二维特征张量进行拼接后得到三维特征张量;
特征融合步骤,使用多个一维可分离卷积核分别提取从三维特征张量中每个通道的句子特征,再通过1*1卷积核对所述句子特征进行聚合,使用一维最大池化操作提取出每个卷积核输出的最大值,将所有最大值拼接得到聊天文本的语义特征向量。
更进一步地,所述词向量模型的训练过程包括:提取移动设备中的所有聊天数据,所述聊天数据包括个人聊天数据和群组聊天数据;将所述聊天数据通过分词工具进行分词为[词1词2词3...];将所有分词后的聊天数据拼接成二维数组[[文本1],[文本2],[文本3],…],数组长度为聊天数据的总数量;使用二维数组[[文本1],[文本2],[文本3],…]训练Word2Vec词向量模型,词向量长度设置为VecLength,训练完成后每个词均对应长度为VecLength的数值稠密向量,实现文本的向量化。
更进一步地,获得片段词嵌入矩阵的过程为:对待提取语义特征向量的所有聊天数据按照设定的通道维度K分为个子片段,L为聊天数据的总长度,每个子片段含K个聊天句,其中/>运算符表示向上取整操作;对每个子片段中的每个聊天句使用分词工具进行分词,得到分词集合Wi={w1,w2,...,wn};
将所述分词集合中的每个词与所述Word2Vec词向量模型进行匹配得到集合Wi的词嵌入矩阵EDocLength×VecLength,矩阵维度为DocLength*VecLength,其中,DocLength为经验设定的句子最大长度,超过该长度的句子截断,不足则补0,VecLength为词向量长度,K个句子词嵌入矩阵按照通道维度拼接后得到一个维度为DocLength*VecLength*K的片段词嵌入矩阵。
更进一步地,所述得到三维特征张量的为:采用K个{n,m,p}*VecLength*1的卷积核对片段词嵌入矩阵的K个维度分别进行卷积,卷积步长为1,则输出维度为(DocLength-{n,m,p})/S+1的列向量,K个维度计算完成后拼接成维度为((DocLength-{n,m,p})/S+1)*1*K的张量;采用256个尺寸为1*1*K的卷积核对((DocLength-{n,m,p})/S+1)*1*K进行一维卷积操作,共得到256个维度为((DocLength-{n,m,p})/S+1)*1的二维张量,将256个二维张量进行拼接得到尺寸为((DocLength-{n,m,p})/S+1)*1*256的三维张量。
更进一步地,所述得到聊天文本的语义特征向量的过程为:通过一维最大池化算子计算所述三维张量((DocLength-{n,m,p})/S+1)*1*256的第一维度上的最大值,将该最大值作为该维度的最显著语义特征输出,通过该操作将n,m,p三个尺度的深度可分离卷积运算结果均压缩至1*256的二维张量,作为三个尺度的输出特征张量;将输出的三个1*256张量沿着第二维度进行拼接得到维度为1*768的张量,作为输出的该子片段的语义特征向量,将子片段的语义特征向量进行拼接后得聊天文本的语义特征向量。
本发明还提出了一种基于深度可分离卷积的语义特征处理装置,该装置包括:
预处理单元,获取聊天数据,并将所述聊天数据按照发送时间进行排序,将排序后的聊天数据使用训练后的词向量模型进行分词得到分词集合,将所述分词集合预处理为片段词嵌入矩阵;
特征提取单元,使用深度可分离卷积的不同高度的卷积核对片段词嵌入矩阵进行特征提取得到二维特征张量,将所述二维特征张量进行拼接后得到三维特征张量;
特征融合单元,使用多个一维可分离卷积核分别提取从三维特征张量中每个通道的句子特征,再通过1*1卷积核对所述句子特征进行聚合,使用一维最大池化操作提取出每个卷积核输出的最大值,将所有最大值拼接得到聊天文本的语义特征向量。
更进一步地,所述词向量模型的训练过程包括:提取移动设备中的所有聊天数据,所述聊天数据包括个人聊天数据和群组聊天数据;将所述聊天数据通过分词工具进行分词为[词1词2词3...];将所有分词后的聊天数据拼接成二维数组[[文本1],[文本2],[文本3],…],数组长度为聊天数据的总数量;使用二维数组[[文本1],[文本2],[文本3],…]训练Word2Vec词向量模型,词向量长度设置为VecLength,训练完成后每个词均对应长度为VecLength的数值稠密向量,实现文本的向量化。
更进一步地,获得片段词嵌入矩阵的过程为:对待提取语义特征向量的所有聊天数据按照设定的通道维度K分为个子片段,L为聊天数据的总长度,每个子片段含K个聊天句,其中/>运算符表示向上取整操作;对每个子片段中的每个聊天句使用分词工具进行分词,得到分词集合Wi={w1,w2,...,wn};
将所述分词集合中的每个词与所述Word2Vec词向量模型进行匹配得到集合Wi的词嵌入矩阵EDocLength×VecLength,矩阵维度为DocLength*VecLength,其中,DocLength为经验设定的句子最大长度,超过该长度的句子截断,不足则补0,VecLength为词向量长度,K个句子词嵌入矩阵按照通道维度拼接后得到一个维度为DocLength*VecLength*K的片段词嵌入矩阵。
更进一步地,所述得到三维特征张量的为:采用K个{n,m,p}*VecLength*1的卷积核对片段词嵌入矩阵的K个维度分别进行卷积,卷积步长为1,则输出维度为(DocLength-{n,m,p})/S+1的列向量,K个维度计算完成后拼接成维度为((DocLength-{n,m,p})/S+1)*1*K的张量;采用256个尺寸为1*1*K的卷积核对((DocLength-{n,m,p})/S+1)*1*K进行一维卷积操作,共得到256个维度为((DocLength-{n,m,p})/S+1)*1的二维张量,将256个二维张量进行拼接得到尺寸为((DocLength-{n,m,p})/S+1)*1*256的三维张量。
更进一步地,所述得到聊天文本的语义特征向量的过程为:通过一维最大池化算子计算所述三维张量((DocLength-{n,m,p})/S+1)*1*256的第一维度上的最大值,将该最大值作为该维度的最显著语义特征输出,通过该操作将n,m,p三个尺度的深度可分离卷积运算结果均压缩至1*256的二维张量,作为三个尺度的输出特征张量;将输出的三个1*256张量沿着第二维度进行拼接得到维度为1*768的张量,作为输出的该子片段的语义特征向量,将子片段的语义特征向量进行拼接后得聊天文本的语义特征向量。
本发明还提出了一种计算机可读存储介质,所述存储介质上存储有计算机程序代码,当所述计算机程序代码被计算机执行时执行上述之任一的方法。
本发明的技术效果在于:本发明提出了一种基于深度可分离卷积的语义特征处理方法,该方法包括:预处理步骤,获取聊天数据,并将所述聊天数据按照发送时间进行排序,将排序后的聊天数据使用训练后的词向量模型进行分词得到分词集合,将所述分词集合预处理为片段词嵌入矩阵;特征提取步骤,使用深度可分离卷积的不同高度的卷积核对片段词嵌入矩阵进行特征提取得到二维特征张量,将所述二维特征张量进行拼接后得到三维特征张量;特征融合步骤,使用多个一维可分离卷积核分别提取从三维特征张量中每个通道的句子特征,再通过1*1卷积核对所述句子特征进行聚合,使用一维最大池化操作提取出每个卷积核输出的最大值,将所有最大值拼接得到聊天文本的语义特征向量。本发明方法首先将聊天文本分割成子片段,片段中的每一句聊天作为词嵌入矩阵的每个通道维度以解决现有技术中拼接处语义不连续的缺陷,并设计了用于文本的多尺度深度可分离一维卷积核获取子片段的语义特征,改善了传统一维卷积运算量大的问题,再通过一维最大池化操作提取每个卷积核中的最显著特征,拼接成为该子片段的语义特征向量用于后续的下游任务,其使用通道维度K进行句子的特征提取,解决了传统的特征抽取过程文本张量矩阵的通道维数为1,没有利用到通道特征,损失部分语义信息,本发明的方法其计算量较少,提取语义特征连续,更为符合聊天数据的上下文特征。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显。
图1是根据本发明的实施例的一种基于深度可分离卷积的语义特征处理方法的流程图。
图2为根据本发明的实施例的可分离卷积的不同高度的卷积核进行操作后的示意图。
图3为根据本发明的实施例的使用11卷积核进行操作后的示意图。
图4为根据本发明的实施例的拼接向量的向量后的示意图。
图5是根据本发明的实施例的一种基于深度可分离卷积的语义特征处理装置的结构图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
图1示出了本发明的一种基于深度可分离卷积的语义特征处理方法,该方法包括:
预处理步骤S101,获取聊天数据,并将所述聊天数据按照发送时间进行排序,将排序后的聊天数据使用训练后的词向量模型进行分词得到分词集合,将所述分词集合预处理为片段词嵌入矩阵;所述聊天数据可以是移动终端上的聊天数据,比如,手机、IPAD、笔记本电脑等等,当然也可以是台式机等电子设备上的聊天记录,将这些聊天记录提取出来作为待提取语义特征向量的所有聊天数据,其一般存储在一个文本文件中,也可以称为聊天文本。
在一个实施例中,所述词向量模型称为Word2Vec词向量模型,其训练过程包括:提取移动设备中的所有聊天数据,即获取样本数据,所述聊天数据包括个人聊天数据和群组聊天数据;将所述聊天数据通过分词工具进行分词为[词1词2词3...];将所有分词后的聊天数据拼接成二维数组[[文本1],[文本2],[文本3],…],数组长度为聊天数据的总数量;使用二维数组[[文本1],[文本2],[文本3],…]训练Word2Vec词向量模型,词向量长度设置为VecLength,训练完成后每个词均对应长度为VecLength的数值稠密向量,实现文本的向量化。Word2Vec词向量模型训练完成后,即可以对待处理的聊天数据进行处理操作,具体参见以下描述。
在一个实施例中,获得片段词嵌入矩阵的过程为:对待提取语义特征向量的所有聊天数据按照设定的通道维度K分为个子片段,L为聊天数据的总长度,每个子片段含K个聊天句,其中/>运算符表示向上取整操作;对每个子片段中的每个聊天句使用分词工具进行分词,得到分词集合Wi={w1,w2,...,wn};其中,K为大于等于2的整数,n为整数,表示分词集合中词的总数,i为小于n的整数;然后,将所述分词集合中的每个词与所述Word2Vec词向量模型进行匹配得到集合Wi的词嵌入矩阵EDocLength×VecLength,矩阵维度为DocLength*VecLength,其中,DocLength为经验设定的句子最大长度,超过该长度的句子截断,不足则补0,VecLength为词向量长度,K个句子词嵌入矩阵按照通道维度拼接后得到一个维度为DocLength*VecLength*K的片段词嵌入矩阵。
本发明的方法中使用通道维度K进行句子的特征提取,解决了传统的特征抽取过程文本张量矩阵的通道维数为1,没有利用到通道特征,损失部分语义信息,使得提取语义特征更符合聊天的上下文习惯,这是本发明的重要发明点之一。
特征提取步骤S102,使用深度可分离卷积的不同高度的卷积核对片段词嵌入矩阵进行特征提取得到二维特征张量,将所述二维特征张量进行拼接后得到三维特征张量。
在一个实施例中,所述得到三维特征张量的为:采用K个{n,m,p}*VecLength*1的卷积核对片段词嵌入矩阵的K个维度分别进行卷积,卷积步长为1,则输出维度为(DocLength-{n,m,p})/S+1的列向量,n、m、p均为整数,其结构如图2所示。当K个维度计算完成后拼接成维度为((DocLength-{n,m,p})/S+1)*1*K的张量;采用256个(当然,也可以采用其他个数个卷积核进行操作,如64、128、512个等等,更可以设为x个,x为整数)尺寸为1*1*K的卷积核对((DocLength-{n,m,p})/S+1)*1*K进行一维卷积操作,共得到256个维度为((DocLength-{n,m,p})/S+1)*1的二维张量,如图3所示。然后,将256个二维张量进行拼接得到尺寸为((DocLength-{n,m,p})/S+1)*1*256的三维张量。
特征融合步骤S103,使用多个一维可分离卷积核分别提取从三维特征张量中每个通道的句子特征,再通过1*1卷积核对所述句子特征进行聚合,使用一维最大池化操作提取出每个卷积核输出的最大值,将所有最大值拼接得到聊天文本的语义特征向量。
在一个实施例中,所述得到聊天文本的语义特征向量的过程为:通过一维最大池化算子计算所述三维张量((DocLength-{n,m,p})/S+1)*1*256的第一维度上的最大值,所述算子为1D_MaxPooling算子,将该最大值作为该维度的最显著语义特征输出,通过该操作将n,m,p三个尺度的深度可分离卷积运算结果均压缩至1*256的二维张量,作为三个尺度的输出特征张量;将输出的三个1*256张量沿着第二维度进行拼接得到维度为1*768的张量,如图4所示,作为输出的该子片段的语义特征向量。然后,将子片段的语义特征向量进行拼接后得聊天文本的语义特征向量。
本发明方法首先将聊天文本分割成子片段,片段中的每一句聊天作为词嵌入矩阵的每个通道维度以解决现有技术中拼接处语义不连续的缺陷,并设计了用于文本的多尺度深度可分离一维卷积核获取子片段的语义特征,改善了传统一维卷积运算量大的问题,再通过一维最大池化操作提取每个卷积核中的最显著特征,拼接成为该子片段的语义特征向量用于后续的下游任务,其计算量较少,提取语义特征连续,更为符合聊天数据的上下文特征,这是本发明的重要发明点之一。
图5示出了本发明的一种基于深度可分离卷积的语义特征处理装置,该装置包括:
预处理单元501,获取聊天数据,并将所述聊天数据按照发送时间进行排序,将排序后的聊天数据使用训练后的词向量模型进行分词得到分词集合,将所述分词集合预处理为片段词嵌入矩阵;所述聊天数据可以是移动终端上的聊天数据,比如,手机、IPAD、笔记本电脑等等,当然也可以是台式机等电子设备上的聊天记录,将这些聊天记录提取出来作为待提取语义特征向量的所有聊天数据,其一般存储在一个文本文件中,也可以称为聊天文本。
在一个实施例中,所述词向量模型称为Word2Vec词向量模型,其训练过程包括:提取移动设备中的所有聊天数据,即获取样本数据,所述聊天数据包括个人聊天数据和群组聊天数据;将所述聊天数据通过分词工具进行分词为[词1词2词3...];将所有分词后的聊天数据拼接成二维数组[[文本1],[文本2],[文本3],…],数组长度为聊天数据的总数量;使用二维数组[[文本1],[文本2],[文本3],…]训练Word2Vec词向量模型,词向量长度设置为VecLength,训练完成后每个词均对应长度为VecLength的数值稠密向量,实现文本的向量化。Word2Vec词向量模型训练完成后,即可以对待处理的聊天数据进行处理操作,具体参见以下描述。
在一个实施例中,获得片段词嵌入矩阵的过程为:对待提取语义特征向量的所有聊天数据按照设定的通道维度K分为个子片段,L为聊天数据的总长度,每个子片段含K个聊天句,其中/>运算符表示向上取整操作;对每个子片段中的每个聊天句使用分词工具进行分词,得到分词集合Wi={w1,w2,...,wn};其中,K为大于等于2的整数,n为整数,表示分词集合中词的总数,i为小于n的整数;然后,将所述分词集合中的每个词与所述Word2Vec词向量模型进行匹配得到集合Wi的词嵌入矩阵EDocLength×VecLength,矩阵维度为DocLength*VecLength,其中,DocLength为经验设定的句子最大长度,超过该长度的句子截断,不足则补0,VecLength为词向量长度,K个句子词嵌入矩阵按照通道维度拼接后得到一个维度为DocLength*VecLength*K的片段词嵌入矩阵。
本发明的装置中使用通道维度K进行句子的特征提取,解决了传统的特征抽取过程文本张量矩阵的通道维数为1,没有利用到通道特征,损失部分语义信息,使得提取语义特征更符合聊天的上下文习惯,这是本发明的重要发明点之一。
特征提取单元502,使用深度可分离卷积的不同高度的卷积核对片段词嵌入矩阵进行特征提取得到二维特征张量,将所述二维特征张量进行拼接后得到三维特征张量。
在一个实施例中,所述得到三维特征张量的为:采用K个{n,m,p}*VecLength*1的卷积核对片段词嵌入矩阵的K个维度分别进行卷积,卷积步长为1,则输出维度为(DocLength-{n,m,p})/S+1的列向量,n、m、p均为整数,其结构如图2所示。当K个维度计算完成后拼接成维度为((DocLength-{n,m,p})/S+1)*1*K的张量;采用256个(当然,也可以采用其他个数个卷积核进行操作,如64、128、512个等等,更可以设为x个,x为整数)尺寸为1*1*K的卷积核对((DocLength-{n,m,p})/S+1)*1*K进行一维卷积操作,共得到256个维度为((DocLength-{n,m,p})/S+1)*1的二维张量,如图3所示。然后,将256个二维张量进行拼接得到尺寸为((DocLength-{n,m,p})/S+1)*1*256的三维张量。
特征融合单元503,使用多个一维可分离卷积核分别提取从三维特征张量中每个通道的句子特征,再通过1*1卷积核对所述句子特征进行聚合,使用一维最大池化操作提取出每个卷积核输出的最大值,将所有最大值拼接得到聊天文本的语义特征向量。
在一个实施例中,所述得到聊天文本的语义特征向量的过程为:通过一维最大池化算子计算所述三维张量((DocLength-{n,m,p})/S+1)*1*256的第一维度上的最大值,所述算子为1D_MaxPooling算子,将该最大值作为该维度的最显著语义特征输出,通过该操作将n,m,p三个尺度的深度可分离卷积运算结果均压缩至1*256的二维张量,作为三个尺度的输出特征张量;将输出的三个1*256张量沿着第二维度进行拼接得到维度为1*768的张量,如图4所示,作为输出的该子片段的语义特征向量。然后,将子片段的语义特征向量进行拼接后得聊天文本的语义特征向量。
本发明装置首先将聊天文本分割成子片段,片段中的每一句聊天作为词嵌入矩阵的每个通道维度以解决现有技术中拼接处语义不连续的缺陷,并设计了用于文本的多尺度深度可分离一维卷积核获取子片段的语义特征,改善了传统一维卷积运算量大的问题,再通过一维最大池化操作提取每个卷积核中的最显著特征,拼接成为该子片段的语义特征向量用于后续的下游任务,其计算量较少,提取语义特征连续,更为符合聊天数据的上下文特征,这是本发明的重要发明点之一。
本发明的为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的装置。
最后所应说明的是:以上实施例仅以说明而非限制本发明的技术方案,尽管参照上述实施例对本发明进行了详细说明,本领域的普通技术人员应当理解:依然可以对本发明进行修改或者等同替换,而不脱离本发明的精神和范围的任何修改或局部替换,其均应涵盖在本发明的权利要求范围当中。
Claims (9)
1.一种基于深度可分离卷积的语义特征处理方法,其特征在于,该方法包括:
预处理步骤,获取聊天数据,并将所述聊天数据按照发送时间进行排序,将排序后的聊天数据使用训练后的词向量模型进行分词得到分词集合,将所述分词集合预处理为片段词嵌入矩阵;
特征提取步骤,使用深度可分离卷积的不同高度的卷积核对片段词嵌入矩阵进行特征提取得到二维特征张量,将所述二维特征张量进行拼接后得到三维特征张量;
所述得到三维特征张量的过程为:采用K个{n,m,p}*VecLength*1的卷积核对片段词嵌入矩阵的K个维度分别进行卷积,卷积步长为1,则输出维度为(DocLength-{n,m,p})/S+1的列向量,K个维度计算完成后拼接成维度为((DocLength-{n,m,p})/S+1)*1*K的张量;采用256个尺寸为1*1*K的卷积核对((DocLength-{n,m,p})/S+1)*1*K进行一维卷积操作,共得到256个维度为((DocLength-{n,m,p})/S+1)*1的二维张量,将256个二维张量进行拼接得到尺寸为((DocLength-{n,m,p})/S+1)*1*256的三维张量;
其中,VecLength为词向量长度,n,m,p均为整数,表示三个不同的深度可分离卷积的尺度,S表示卷积步长,DocLength表示设定的句子最大长度;
特征融合步骤,使用多个一维可分离卷积核分别提取从三维特征张量中每个通道的句子特征,再通过1*1卷积核对所述句子特征进行聚合,使用一维最大池化操作提取出每个卷积核输出的最大值,将所有最大值拼接得到聊天文本的语义特征向量。
2.根据权利要求1所述的方法,其特征在于,所述词向量模型的训练过程包括:提取移动设备中的所有聊天数据,所述聊天数据包括个人聊天数据和群组聊天数据;将所述聊天数据通过分词工具进行分词为[词1词2词3…];将所有分词后的聊天数据拼接成二维数组[[文本1],[文本2],[文本3],…],数组长度为聊天数据的总数量;使用二维数组[[文本1],[文本2],[文本3],…]训练Word2Vec词向量模型,词向量长度设置为VecLength,训练完成后每个词均对应长度为VecLength的数值稠密向量,实现文本的向量化。
3.根据权利要求1所述的方法,其特征在于,获得片段词嵌入矩阵的过程为:对待提取语义特征向量的所有聊天数据按照设定的通道维度K分为个子片段,L为聊天数据的总长度,每个子片段含K个聊天句,其中/>运算符表示向上取整操作;对每个子片段中的每个聊天句使用分词工具进行分词,得到分词集合Wi={w1,w2,...,wn};
将所述分词集合中的每个词与所述词向量模型进行匹配得到集合Wi的词嵌入矩阵EDocLength×VecLength,矩阵维度为DocLength*VecLength,其中,DocLength为经验设定的句子最大长度,超过该长度的句子截断,不足则补0,VecLength为词向量长度,K个句子词嵌入矩阵按照通道维度拼接后得到一个维度为DocLength*VecLength*K的片段词嵌入矩阵。
4.根据权利要求1所述的方法,其特征在于,所述得到聊天文本的语义特征向量的过程为:通过一维最大池化算子计算所述三维张量((DocLength-{n,m,p})/S+1)*1*256的第一维度上的最大值,将该最大值作为该维度的最显著语义特征输出,通过该操作将n,m,p三个尺度的深度可分离卷积运算结果均压缩至1*256的二维张量,作为三个尺度的输出特征张量;将输出的三个1*256张量沿着第二维度进行拼接得到维度为1*768的张量,作为输出的子片段的语义特征向量,将子片段的语义特征向量进行拼接后得聊天文本的语义特征向量;
其中,L为聊天数据的总长度,K表示聊天数据设定的通道维度,每个子片段含K个聊天句,运算符表示向上取整操作。
5.一种基于深度可分离卷积的语义特征处理装置,其特征在于,该装置包括:
预处理单元,获取聊天数据,并将所述聊天数据按照发送时间进行排序,将排序后的聊天数据使用训练后的词向量模型进行分词得到分词集合,将所述分词集合预处理为片段词嵌入矩阵;
特征提取单元,使用深度可分离卷积的不同高度的卷积核对片段词嵌入矩阵进行特征提取得到二维特征张量,将所述二维特征张量进行拼接后得到三维特征张量;
所述得到三维特征张量的过程为:采用K个{n,m,p}*VecLength*1的卷积核对片段词嵌入矩阵的K个维度分别进行卷积,卷积步长为1,则输出维度为(DocLength-{n,m,p})/S+1的列向量,K个维度计算完成后拼接成维度为((DocLength-{n,m,p})/S+1)*1*K的张量;采用256个尺寸为1*1*K的卷积核对((DocLength-{n,m,p})/S+1)*1*K进行一维卷积操作,共得到256个维度为((DocLength-{n,m,p})/S+1)*1的二维张量,将256个二维张量进行拼接得到尺寸为((DocLength-{n,m,p})/S+1)*1*256的三维张量;
其中,VecLength为词向量长度,n,m,p均为整数,表示三个不同的深度可分离卷积的尺度,S表示卷积步长,DocLength表示设定的句子最大长度;
特征融合单元,使用多个一维可分离卷积核分别提取从三维特征张量中每个通道的句子特征,再通过1*1卷积核对所述句子特征进行聚合,使用一维最大池化操作提取出每个卷积核输出的最大值,将所有最大值拼接得到聊天文本的语义特征向量。
6.根据权利要求5所述的装置,其特征在于,所述词向量模型的训练过程包括:提取移动设备中的所有聊天数据,所述聊天数据包括个人聊天数据和群组聊天数据;将所述聊天数据通过分词工具进行分词为[词1词2词3…];将所有分词后的聊天数据拼接成二维数组[[文本1],[文本2],[文本3],…],数组长度为聊天数据的总数量;使用二维数组[[文本1],[文本2],[文本3],…]训练Word2Vec词向量模型,词向量长度设置为VecLength,训练完成后每个词均对应长度为VecLength的数值稠密向量,实现文本的向量化。
7.根据权利要求5所述的装置,其特征在于,获得片段词嵌入矩阵的过程为:对待提取语义特征向量的所有聊天数据按照设定的通道维度K分为个子片段,L为聊天数据的总长度,每个子片段含K个聊天句,其中/>运算符表示向上取整操作;对每个子片段中的每个聊天句使用分词工具进行分词,得到分词集合Wi={w1,w2,...,wn};
将所述分词集合中的每个词与所述词向量模型进行匹配得到集合Wi的词嵌入矩阵EDocLength×VecLength,矩阵维度为DocLength*VecLength,其中,DocLength为经验设定的句子最大长度,超过该长度的句子截断,不足则补0,VecLength为词向量长度,K个句子词嵌入矩阵按照通道维度拼接后得到一个维度为DocLength*VecLength*K的片段词嵌入矩阵。
8.根据权利要求5所述的装置,其特征在于,所述得到聊天文本的语义特征向量的过程为:通过一维最大池化算子计算所述三维张量
((DocLength-{n,m,p})/S+1)*1*256的第一维度上的最大值,将该最大值作为该维度的最显著语义特征输出,通过该操作将n,m,p三个尺度的深度可分离卷积运算结果均压缩至1*256的二维张量,作为三个尺度的输出特征张量;将输出的三个1*256张量沿着第二维度进行拼接得到维度为1*768的张量,作为输出的子片段的语义特征向量,将子片段的语义特征向量进行拼接后得聊天文本的语义特征向量;
其中,L为聊天数据的总长度,K表示聊天数据设定的通道维度,每个子片段含K个聊天句,其中运算符表示向上取整操作。
9.一种计算机可读存储介质,其特征在于,所述存储介质上存储有计算机程序代码,当所述计算机程序代码被计算机执行时执行如权利要求1-4之任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010912076.7A CN112052687B (zh) | 2020-09-02 | 2020-09-02 | 基于深度可分离卷积的语义特征处理方法、装置及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010912076.7A CN112052687B (zh) | 2020-09-02 | 2020-09-02 | 基于深度可分离卷积的语义特征处理方法、装置及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112052687A CN112052687A (zh) | 2020-12-08 |
CN112052687B true CN112052687B (zh) | 2023-11-21 |
Family
ID=73607201
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010912076.7A Active CN112052687B (zh) | 2020-09-02 | 2020-09-02 | 基于深度可分离卷积的语义特征处理方法、装置及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112052687B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113344200B (zh) * | 2021-06-17 | 2024-05-28 | 阿波罗智联(北京)科技有限公司 | 用于训练可分离卷积网络的方法、路侧设备及云控平台 |
CN113360602A (zh) * | 2021-06-22 | 2021-09-07 | 北京百度网讯科技有限公司 | 用于输出信息的方法、装置、设备以及存储介质 |
CN113449105A (zh) * | 2021-06-25 | 2021-09-28 | 上海明略人工智能(集团)有限公司 | 一种工作总结生成方法、系统、电子设备及介质 |
CN117113990B (zh) * | 2023-10-23 | 2024-01-12 | 北京中科闻歌科技股份有限公司 | 面向大语言模型的词向量生成方法、电子设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108154194A (zh) * | 2018-01-18 | 2018-06-12 | 北京工业大学 | 一种用基于张量的卷积网络提取高维特征的方法 |
CN108345633A (zh) * | 2017-12-29 | 2018-07-31 | 天津南大通用数据技术股份有限公司 | 一种自然语言处理方法及装置 |
CN109614487A (zh) * | 2018-10-29 | 2019-04-12 | 山东大学 | 一种基于张量融合方式的情感分类的方法 |
WO2019080864A1 (zh) * | 2017-10-27 | 2019-05-02 | 阿里巴巴集团控股有限公司 | 一种文本语义编码方法及装置 |
CN110795535A (zh) * | 2019-10-28 | 2020-02-14 | 桂林电子科技大学 | 一种深度可分离卷积残差块的阅读理解方法 |
-
2020
- 2020-09-02 CN CN202010912076.7A patent/CN112052687B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019080864A1 (zh) * | 2017-10-27 | 2019-05-02 | 阿里巴巴集团控股有限公司 | 一种文本语义编码方法及装置 |
CN108345633A (zh) * | 2017-12-29 | 2018-07-31 | 天津南大通用数据技术股份有限公司 | 一种自然语言处理方法及装置 |
CN108154194A (zh) * | 2018-01-18 | 2018-06-12 | 北京工业大学 | 一种用基于张量的卷积网络提取高维特征的方法 |
CN109614487A (zh) * | 2018-10-29 | 2019-04-12 | 山东大学 | 一种基于张量融合方式的情感分类的方法 |
CN110795535A (zh) * | 2019-10-28 | 2020-02-14 | 桂林电子科技大学 | 一种深度可分离卷积残差块的阅读理解方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112052687A (zh) | 2020-12-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112052687B (zh) | 基于深度可分离卷积的语义特征处理方法、装置及介质 | |
CN109165294B (zh) | 一种基于贝叶斯分类的短文本分类方法 | |
CN111695352A (zh) | 基于语义分析的评分方法、装置、终端设备及存储介质 | |
CN109271521A (zh) | 一种文本分类方法及装置 | |
CN107145485B (zh) | 用于压缩主题模型的方法和装置 | |
CN111340814A (zh) | 一种基于多模态自适应卷积的rgb-d图像语义分割方法 | |
CN109684476B (zh) | 一种文本分类方法、文本分类装置及终端设备 | |
CN107862058B (zh) | 用于生成信息的方法和装置 | |
CN110502742B (zh) | 一种复杂实体抽取方法、装置、介质及系统 | |
CN110728144B (zh) | 一种基于上下文语义感知的抽取式文档自动摘要方法 | |
CN110826298B (zh) | 一种智能辅助定密系统中使用的语句编码方法 | |
CN113378563B (zh) | 一种基于遗传变异和半监督的案件特征提取方法及装置 | |
CN113722438A (zh) | 基于句向量模型的句向量生成方法、装置及计算机设备 | |
CN112541083A (zh) | 一种基于主动学习混合神经网络的文本分类方法 | |
CN112232070A (zh) | 自然语言处理模型构建方法、系统、电子设备及存储介质 | |
CN111813894A (zh) | 一种基于深度学习的自然语言情感识别方法 | |
CN114707487A (zh) | 文本处理方法、装置、存储介质及电子装置 | |
CN111523301B (zh) | 合同文档合规性检查方法及装置 | |
CN111191413B (zh) | 一种基于图排序模型的事件核心内容自动标记方法、装置及系统 | |
CN113051869B (zh) | 一种结合语义识别实现标识文本差异内容的方法及系统 | |
CN116010545A (zh) | 一种数据处理方法、装置及设备 | |
CN112287640B (zh) | 一种基于中文字符结构的序列标注方法 | |
CN107657060B (zh) | 一种基于半结构化文本分类的特征优化方法 | |
CN114792423B (zh) | 文档图像的处理方法、装置和存储介质 | |
CN115618968B (zh) | 新意图发现方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |