CN110851600A - 基于深度学习的文本数据处理方法及装置 - Google Patents
基于深度学习的文本数据处理方法及装置 Download PDFInfo
- Publication number
- CN110851600A CN110851600A CN201911083732.0A CN201911083732A CN110851600A CN 110851600 A CN110851600 A CN 110851600A CN 201911083732 A CN201911083732 A CN 201911083732A CN 110851600 A CN110851600 A CN 110851600A
- Authority
- CN
- China
- Prior art keywords
- word vector
- text
- deep learning
- word
- data processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
Abstract
本申请实施例提供一种基于深度学习的文本数据处理方法及装置,方法包括:根据预设文本规则库对目标文本进行文本匹配,得到匹配失败文本,对所述匹配失败文本进行深度学习分类,得到与所述匹配失败文本对应的词向量字典;根据所述词向量字典和预设卷积核,确定所述词向量字典中各词向量的词向量特征;将与各所述卷积核对应的所述词向量特征进行特征合并,得到所述深度学习分类中各类别的概率,并将概率值最大的类别确定为类别预测结果;本申请能够准确得到句子与句子的上下文关系,进而明确文本中的深层特征,提升文本识别的效率和准确度。
Description
技术领域
本申请涉及数据处理领域,具体涉及一种基于深度学习的文本数据处理方法及装置。
背景技术
文本分类,顾名思义,是判定一个文本表达的类别或者含义,其中文本可以是文档级,句子级或要素级的。文本分类既可以看作是一个分类问题,也可以看作是一个回归问题。如果是回归问题,只要在计算出文本的所属类别的概率分数后做一次到类别的映射即可。当被视为一个分类问题时,存在大量文本分类的技术可供使用。文本分类有其独有的难题需要特殊处理,也有其独有的特点可供利用。文本分类可以是文档级,句子级或要素级的。
现有技术中的文本分析研究都是基于统计学习方法的,主要通过学习目标样本的特征,根据特征的分布对文本做出类别的判断。大多数都是使用SVM和logistic回归进行全监督学习,根据训练数据不同。使用到的特征也不尽相同。除了一元词特征之外,还基于字典信息使用了词类别、情感词典、感叹词、标点符号、用户信息等一系列特征,但效果并不理想。
在该领域中,传统的会使用规则库进行文本匹配来做分类,对于能够被规则库命中的文本,会有很好的效果。但是由于中文语言的多样性,还有很多情况是规则库覆盖不了的,这就导致效果很难达到工业上可以运用的程度。因此在传统的方案中,会随着项目的迭代,一直更新维护规则库。
并且,该领域过去大多是使用传统的机器学习算法SVM之类的进行文本分类。在文本进行算法之前,做文本表示是第一步,这也是很重要的一步。通俗来说就是把人类的语言符号转化为机器能够进行计算的数字,因为普遍的文本语言机器是看不懂的,必须通过转化来表征对应文本。早期是基于规则的方法进行转化,而现代的方法是基于统计机器学习的方法。过去大多数是使用离散表示,比如one-hot表示,词袋模型,更进一步的IF-IDF模型。但是这些方法都有一些缺点,比如用one-hot表示的话,随着语料库的增加,数据特征的维度会越来越大,产生一个维度很高,又很稀疏的矩阵,而且这种表示方法的分词顺序和在句子中的顺序是无关的,不能保留词与词之间的关系信息。而在词袋模型中,词向量化后,词与词之间是有大小关系的,但不一定是词出现的越多,权重就越大,词与词之间是没有顺序关系的。然后在TF-IDF中,虽然加入了词的重要性,但是这个算法还是没有把词与词之间的关系顺序表达出来。
发明内容
针对现有技术中的问题,本申请提供一种基于深度学习的文本数据处理方法及装置,能够准确得到句子与句子的上下文关系,进而明确文本中的深层特征,提升文本识别的效率和准确度。
为了解决上述问题中的至少一个,本申请提供以下技术方案:
第一方面,本申请提供一种基于深度学习的文本数据处理方法,包括:
根据预设文本规则库对目标文本进行文本匹配,得到匹配失败文本,对所述匹配失败文本进行深度学习分类,得到与所述匹配失败文本对应的词向量字典;
根据所述词向量字典和预设卷积核,确定所述词向量字典中各词向量的词向量特征;
将与各所述卷积核对应的所述词向量特征进行特征合并,得到所述深度学习分类中各类别的概率,并将概率值最大的类别确定为类别预测结果。
进一步地,所述对所述匹配失败文本进行深度学习分类,得到与所述匹配失败文本对应的词向量字典,包括:
采用word2vec工具对所述匹配失败文本中每一个词进行深度学习训练,得到词向量字典。
进一步地,所述根据所述词向量字典和预设卷积核,确定所述词向量字典中各词向量的词向量特征,包括:
根据所述预设卷积核对所述词向量字典进行滑动激活,得到对应的词向量特征值。
进一步地,在所述确定为类别预测结果之后,还包括:
在设定周期内对所述类别预测结果进行准确度验证,并对所述类别预测结果中的各句子进行主动对齐处理。
第二方面,本申请提供一种基于深度学习的文本数据处理装置,包括:
词向量字典确定模块,用于根据预设文本规则库对目标文本进行文本匹配,得到匹配失败文本,对所述匹配失败文本进行深度学习分类,得到与所述匹配失败文本对应的词向量字典;
词向量特征确定模块,用于根据所述词向量字典和预设卷积核,确定所述词向量字典中各词向量的词向量特征;
类别预测结果确定模块,用于将与各所述卷积核对应的所述词向量特征进行特征合并,得到所述深度学习分类中各类别的概率,并将概率值最大的类别确定为类别预测结果。
进一步地,所述词向量字典确定模块包括:
深度学习训练单元,用于采用word2vec工具对所述匹配失败文本中每一个词进行深度学习训练,得到词向量字典。
进一步地,所述词向量特征确定模块包括:
词向量特征值计算单元,用于根据所述预设卷积核对所述词向量字典进行滑动激活,得到对应的词向量特征值。
进一步地,还包括:
重复验证单元,用于在设定周期内对所述类别预测结果进行准确度验证,并对所述类别预测结果中的各句子进行主动对齐处理。
第三方面,本申请提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现所述的基于深度学习的文本数据处理方法的步骤。
第四方面,本申请提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现所述的基于深度学习的文本数据处理方法的步骤。
由上述技术方案可知,本申请提供一种基于深度学习的文本数据处理方法及装置,通过根据预设文本规则库对目标文本进行文本匹配,得到匹配失败文本,对所述匹配失败文本进行深度学习分类,得到与所述匹配失败文本对应的词向量字典;根据所述词向量字典和预设卷积核,确定所述词向量字典中各词向量的词向量特征;将与各所述卷积核对应的所述词向量特征进行特征合并,得到所述深度学习分类中各类别的概率,并将概率值最大的类别确定为类别预测结果,本申请能够准确得到句子与句子的上下文关系,进而明确文本中的深层特征,提升文本识别的效率和准确度。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例中的基于深度学习的文本数据处理方法的流程示意图;
图2为本申请实施例中的基于深度学习的文本数据处理装置的结构图之一;
图3为本申请实施例中的基于深度学习的文本数据处理装置的结构图之二;
图4为本申请实施例中的基于深度学习的文本数据处理装置的结构图之三;
图5为本申请实施例中的电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
考虑到现有技术中文本分析不准确的问题,本申请提供一种基于深度学习的文本数据处理方法及装置,通过根据预设文本规则库对目标文本进行文本匹配,得到匹配失败文本,对所述匹配失败文本进行深度学习分类,得到与所述匹配失败文本对应的词向量字典;根据所述词向量字典和预设卷积核,确定所述词向量字典中各词向量的词向量特征;将与各所述卷积核对应的所述词向量特征进行特征合并,得到所述深度学习分类中各类别的概率,并将概率值最大的类别确定为类别预测结果,本申请能够准确得到句子与句子的上下文关系,进而明确文本中的深层特征,提升文本识别的效率和准确度。
为了能够准确得到句子与句子的上下文关系,进而明确文本中的深层特征,提升文本识别的效率和准确度,本申请提供一种基于深度学习的文本数据处理方法的实施例,参见图1,所述基于深度学习的文本数据处理方法具体包含有如下内容:
步骤S101:根据预设文本规则库对目标文本进行文本匹配,得到匹配失败文本,对所述匹配失败文本进行深度学习分类,得到与所述匹配失败文本对应的词向量字典。
可以理解的是,基于业务知识,构建规则库,使用正则等方式对文本进行匹配。对于匹配不上的文本,进入下一个阶段,即进行融合深度学习算法模型。并且在项目的运行过程中,随时收集业务知识,丰富规则库。接下来训练融合深度学习算法,来对多样化的文本进行分类。
可以理解的是,对文本数据中每一个词进行处理。因此需要对句子进行分词,可以使用jieba工具做分词,方便易用。然后构建自己的行业停用词库,对一些无关紧要的词,出现次数过少的词,进行过滤。并且需要在词库中预留一个<UNK>标识,供新词使用。然后采用word2vec工具对处理后的文本数据中每一个词进行训练,得到词向量字典,其中每一个词都对应着一个词向量;所述word2vec工具为谷歌词向量工具。
步骤S102:根据所述词向量字典和预设卷积核,确定所述词向量字典中各词向量的词向量特征。
可以理解的是,原始输入为词序列(w1,….,ws-1,ws,…,wmax),得到每个句子的矩阵M,M=(x1,…,xs-1,xs,…,xmax)∈Rd×max;LSTM层将矩阵M进行训练转化为固定维度的向量对(embedding)输入层进行改进,生成d维h个具有上下文语义关系的词向量;其中所述w1,….,ws-1,ws,…,wmax为每个句子中每个词所对应的词标号,x1,…,xs-1,xs,…,xmax为与w1,….,ws-1,ws,…,wmax一一对应的词向量,LSTM为长短期记忆模型。
步骤S103:将与各所述卷积核对应的所述词向量特征进行特征合并,得到所述深度学习分类中各类别的概率,并将概率值最大的类别确定为类别预测结果。
可以理解的是,将上述步骤S201中抽取的特征依次连接,通过稀疏性激活函数后作为softmax的输入,输出得到每个类别的概率,所有类别的概率的和为1,概率值最大的类别为所预测的类别,这个类别作为联合深度学习模型的结果。
从上述描述可知,本申请实施例提供的基于深度学习的文本数据处理方法,能够通过根据预设文本规则库对目标文本进行文本匹配,得到匹配失败文本,对所述匹配失败文本进行深度学习分类,得到与所述匹配失败文本对应的词向量字典;根据所述词向量字典和预设卷积核,确定所述词向量字典中各词向量的词向量特征;将与各所述卷积核对应的所述词向量特征进行特征合并,得到所述深度学习分类中各类别的概率,并将概率值最大的类别确定为类别预测结果,本申请能够准确得到句子与句子的上下文关系,进而明确文本中的深层特征,提升文本识别的效率和准确度。
为了能够准确确定词向量字典,在本申请的基于深度学习的文本数据处理方法的一实施例中,还具体包含有如下内容:
采用word2vec工具对所述匹配失败文本中每一个词进行深度学习训练,得到词向量字典。
可以理解的是,对文本数据中每一个词进行处理。因此需要对句子进行分词,可以使用jieba工具做分词,方便易用。然后构建自己的行业停用词库,对一些无关紧要的词,出现次数过少的词,进行过滤。并且需要在词库中预留一个<UNK>标识,供新词使用。然后采用word2vec工具对处理后的文本数据中每一个词进行训练,得到词向量字典,其中每一个词都对应着一个词向量;所述word2vec工具为谷歌词向量工具。
为了能够准确提取词向量特征,在本申请的基于深度学习的文本数据处理方法的一实施例中,还具体包含有如下内容:
根据所述预设卷积核对所述词向量字典进行滑动激活,得到对应的词向量特征值。
可以理解的是,将上述步骤中生成的d维h个具有上下文语义关系的词向量作为TextCNN的输入,其中使用了3组宽度分别为2,3,4的卷积核,每种卷积核使用了256个。每个卷积核在整个句子长度上滑动,得到n个激活值。接着接上一个最大池化层,防止过拟合。每一个卷积核输出的特征值列向量通过在整个句子长度上取最大值得到6个特征值组成的feature map来供后级分类器作为分类的依据。
为了能够提升本申请文本分析的准确度,在本申请的基于深度学习的文本数据处理方法的一实施例中,还具体包含有如下内容:
在设定周期内对所述类别预测结果进行准确度验证,并对所述类别预测结果中的各句子进行主动对齐处理。
可以理解的是,对模型的效果进行评估和调优。争对我们的分类模型,每训练100批次数据,我们在验证集上计算准确率,召回率,F1值,混淆矩阵等评估指标。使用网格搜索主要修改一下参数:词向量的维度,卷积核的个数,卷积核的窗口值,L2的参数,Dropout的参数,学习率等。
可以理解的是,模型训练完成后,达到了上线的要求,为了保证实时调用的性能要求,以及统一研发的编程语言,使用Java调用持久化的模型对象pb文件,保证并发要求。由于训练的时候,会使用Python做一些数据预处理,比如对每个句子进行补齐操作。在上线的时候,也会出现长度不一的句子,因此我们在模型调用前,需要使用java代码来对句子做对齐。这一步处理不好会比较耗时,因此我们使用Java底层API,System.copyof来操作数组,增加效率。相比如用循环来操作数组,效率提升了10倍有余。
为了能够准确得到句子与句子的上下文关系,进而明确文本中的深层特征,提升文本识别的效率和准确度,本申请提供一种用于实现所述基于深度学习的文本数据处理方法的全部或部分内容的基于深度学习的文本数据处理装置的实施例,参见图2,所述基于深度学习的文本数据处理装置具体包含有如下内容:
词向量字典确定模块10,用于根据预设文本规则库对目标文本进行文本匹配,得到匹配失败文本,对所述匹配失败文本进行深度学习分类,得到与所述匹配失败文本对应的词向量字典。
词向量特征确定模块20,用于根据所述词向量字典和预设卷积核,确定所述词向量字典中各词向量的词向量特征。
类别预测结果确定模块30,用于将与各所述卷积核对应的所述词向量特征进行特征合并,得到所述深度学习分类中各类别的概率,并将概率值最大的类别确定为类别预测结果。
从上述描述可知,本申请实施例提供的基于深度学习的文本数据处理装置,能够通过根据预设文本规则库对目标文本进行文本匹配,得到匹配失败文本,对所述匹配失败文本进行深度学习分类,得到与所述匹配失败文本对应的词向量字典;根据所述词向量字典和预设卷积核,确定所述词向量字典中各词向量的词向量特征;将与各所述卷积核对应的所述词向量特征进行特征合并,得到所述深度学习分类中各类别的概率,并将概率值最大的类别确定为类别预测结果,本申请能够准确得到句子与句子的上下文关系,进而明确文本中的深层特征,提升文本识别的效率和准确度。
为了能够准确确定词向量字典,在本申请的基于深度学习的文本数据处理装置的一实施例中,参见图3,所述词向量字典确定模块10包括:
深度学习训练单元11,用于采用word2vec工具对所述匹配失败文本中每一个词进行深度学习训练,得到词向量字典。
为了能够准确提取词向量特征,在本申请的基于深度学习的文本数据处理装置的一实施例中,参见图4,所述词向量特征确定模块20包括:
词向量特征值计算单元21,用于根据所述预设卷积核对所述词向量字典进行滑动激活,得到对应的词向量特征值。
为了能够提升本申请文本分析的准确度,在本申请的基于深度学习的文本数据处理装置的一实施例中,还包括:
重复验证单元,用于在设定周期内对所述类别预测结果进行准确度验证,并对所述类别预测结果中的各句子进行主动对齐处理。
为了更进一步说明本方案,本申请还提供一种应用上述基于深度学习的文本数据处理装置实现基于深度学习的文本数据处理方法的具体应用实例,具体包含有如下内容:
步骤一:基于业务知识,构建规则库,使用正则等方式对文本进行匹配。对于匹配不上的文本,进入下一个阶段,即进行融合深度学习算法模型。并且在项目的运行过程中,随时收集业务知识,丰富规则库。接下来训练融合深度学习算法,来对多样化的文本进行分类。
步骤二:对文本数据中每一个词进行处理。因此需要对句子进行分词,可以使用jieba工具做分词,方便易用。然后构建自己的行业停用词库,对一些无关紧要的词,出现次数过少的词,进行过滤。并且需要在词库中预留一个<UNK>标识,供新词使用。然后采用word2vec工具对处理后的文本数据中每一个词进行训练,得到词向量字典,其中每一个词都对应着一个词向量;所述word2vec工具为谷歌词向量工具;
步骤三:原始输入为词序列(w1,….,ws-1,ws,…,wmax),得到每个句子的矩阵M,M=(x1,…,xs-1,xs,…,xmax)∈Rd×max;LSTM层将矩阵M进行训练转化为固定维度的向量对(embedding)输入层进行改进,生成d维h个具有上下文语义关系的词向量;其中所述w1,….,ws-1,ws,…,wmax为每个句子中每个词所对应的词标号,x1,…,xs-1,xs,…,xmax为与w1,….,ws-1,ws,…,wmax一一对应的词向量,LSTM为长短期记忆模型;
步骤四:将步骤三中生成的d维h个具有上下文语义关系的词向量作为TextCNN的输入,其中使用了3组宽度分别为2,3,4的卷积核,每种卷积核使用了256个。每个卷积核在整个句子长度上滑动,得到n个激活值。接着接上一个最大池化层,防止过拟合。每一个卷积核输出的特征值列向量通过在整个句子长度上取最大值得到6个特征值组成的featuremap来供后级分类器作为分类的依据。
步骤五:将步骤四中抽取的特征依次连接,通过稀疏性激活函数后作为softmax的输入,输出得到每个类别的概率,所有类别的概率的和为1,概率值最大的类别为所预测的类别,这个类别作为联合深度学习模型的结果。
步骤六:对模型的效果进行评估和调优。争对我们的分类模型,每训练100批次数据,我们在验证集上计算准确率,召回率,F1值,混淆矩阵等评估指标。使用网格搜索主要修改一下参数:词向量的维度,卷积核的个数,卷积核的窗口值,L2的参数,Dropout的参数,学习率等。
步骤七:模型训练完成后,达到了上线的要求,为了保证实时调用的性能要求,以及统一研发的编程语言,使用Java调用持久化的模型对象pb文件,保证并发要求。由于训练的时候,会使用Python做一些数据预处理,比如对每个句子进行补齐操作。在上线的时候,也会出现长度不一的句子,因此我们在模型调用前,需要使用java代码来对句子做对齐。这一步处理不好会比较耗时,因此我们使用Java底层API,System.copyof来操作数组,增加效率。相比如用循环来操作数组,效率提升了10倍有余。
由上述描述可知,本申请还可以实现如下技术效果:
结合传统方案和前沿深度学习技术各自的优点,可以训练部署出供商业应用的文本分类解决方案。
传统方案可以覆盖完全匹配的文本,随着规则库的迭代更新,第一步的效果会越来越好。原本而言,传统方案天花板非常低,不仅费时费力,覆盖的范围和准确率都非常有限。我们在原本的基础上,加上融合的深度学习技术,可以解决传统方案的缺点,带来一些很明显的优点。LSTM+TextCNN可以捕捉文本中的深层特征,对于隐含的文本,也可以做出准确的分类。中文含义有时候表达得很隐晦,不直接,对于正则匹配是无法准确匹配的,甚至是无法模糊匹配的。只有学到了文本中的关键特征才可能解决这个问题。虽然单纯使用TextCNN会训练比较快,但是无法学到句子与句子之间的关系。然后单纯使用LSTM虽然会考虑到句子之间的关系,但是却无法捕捉到文本的特征。我们的专利先使用LSTM的记忆功能获取文本与文本之间的前后关系。然后接上TextCNN使用多个不同的卷积核去捕捉深层特征。
并且,一般而言,CNN结构用于图像领域,TextCNN中卷积过后直接就是全局maxpooling,那么它只能是在卷积的过程中计算与某些关键词的相似度,然后通过maxpooling层来得出模型关注哪些关键词是否在整个输入文本中出现,以及最相似的关键词与卷积核的相似度最大有多大。
本申请的实施例还提供能够实现上述实施例中的基于深度学习的文本数据处理方法中全部步骤的一种电子设备的具体实施方式,参见图5,所述电子设备具体包括如下内容:
处理器(processor)601、存储器(memory)602、通信接口(CommunicationsInterface)603和总线604;
其中,所述处理器601、存储器602、通信接口603通过所述总线604完成相互间的通信;所述通信接口603用于实现基于深度学习的文本数据处理装置、在线业务系统、客户端设备以及其他参与机构之间的信息传输;
所述处理器601用于调用所述存储器602中的计算机程序,所述处理器执行所述计算机程序时实现上述实施例中的基于深度学习的文本数据处理方法中的全部步骤,例如,所述处理器执行所述计算机程序时实现下述步骤:
步骤S101:根据预设文本规则库对目标文本进行文本匹配,得到匹配失败文本,对所述匹配失败文本进行深度学习分类,得到与所述匹配失败文本对应的词向量字典。
步骤S102:根据所述词向量字典和预设卷积核,确定所述词向量字典中各词向量的词向量特征。
步骤S103:将与各所述卷积核对应的所述词向量特征进行特征合并,得到所述深度学习分类中各类别的概率,并将概率值最大的类别确定为类别预测结果。
从上述描述可知,本申请实施例提供的电子设备,能够通过根据预设文本规则库对目标文本进行文本匹配,得到匹配失败文本,对所述匹配失败文本进行深度学习分类,得到与所述匹配失败文本对应的词向量字典;根据所述词向量字典和预设卷积核,确定所述词向量字典中各词向量的词向量特征;将与各所述卷积核对应的所述词向量特征进行特征合并,得到所述深度学习分类中各类别的概率,并将概率值最大的类别确定为类别预测结果,本申请能够准确得到句子与句子的上下文关系,进而明确文本中的深层特征,提升文本识别的效率和准确度。
本申请的实施例还提供能够实现上述实施例中的基于深度学习的文本数据处理方法中全部步骤的一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述实施例中的基于深度学习的文本数据处理方法的全部步骤,例如,所述处理器执行所述计算机程序时实现下述步骤:
步骤S101:根据预设文本规则库对目标文本进行文本匹配,得到匹配失败文本,对所述匹配失败文本进行深度学习分类,得到与所述匹配失败文本对应的词向量字典。
步骤S102:根据所述词向量字典和预设卷积核,确定所述词向量字典中各词向量的词向量特征。
步骤S103:将与各所述卷积核对应的所述词向量特征进行特征合并,得到所述深度学习分类中各类别的概率,并将概率值最大的类别确定为类别预测结果。
从上述描述可知,本申请实施例提供的计算机可读存储介质,能够通过根据预设文本规则库对目标文本进行文本匹配,得到匹配失败文本,对所述匹配失败文本进行深度学习分类,得到与所述匹配失败文本对应的词向量字典;根据所述词向量字典和预设卷积核,确定所述词向量字典中各词向量的词向量特征;将与各所述卷积核对应的所述词向量特征进行特征合并,得到所述深度学习分类中各类别的概率,并将概率值最大的类别确定为类别预测结果,本申请能够准确得到句子与句子的上下文关系,进而明确文本中的深层特征,提升文本识别的效率和准确度。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于硬件+程序类实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
虽然本申请提供了如实施例或流程图所述的方法操作步骤,但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式,不代表唯一的执行顺序。在实际中的装置或客户端产品执行时,可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、车载人机交互设备、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
本领域技术人员应明白,本说明书的实施例可提供为方法、系统或计算机程序产品。因此,本说明书实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。
本说明书实施例可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书实施例,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本说明书实施例的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
以上所述仅为本说明书的实施例而已,并不用于限制本说明书实施例。对于本领域技术人员来说,本说明书实施例可以有各种更改和变化。凡在本说明书实施例的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本说明书实施例的权利要求范围之内。
Claims (10)
1.一种基于深度学习的文本数据处理方法,其特征在于,所述方法包括:
根据预设文本规则库对目标文本进行文本匹配,得到匹配失败文本,对所述匹配失败文本进行深度学习分类,得到与所述匹配失败文本对应的词向量字典;
根据所述词向量字典和预设卷积核,确定所述词向量字典中各词向量的词向量特征;
将与各所述卷积核对应的所述词向量特征进行特征合并,得到所述深度学习分类中各类别的概率,并将概率值最大的类别确定为类别预测结果。
2.根据权利要求1所述的基于深度学习的文本数据处理方法,其特征在于,所述对所述匹配失败文本进行深度学习分类,得到与所述匹配失败文本对应的词向量字典,包括:
采用word2vec工具对所述匹配失败文本中每一个词进行深度学习训练,得到词向量字典。
3.根据权利要求1所述的基于深度学习的文本数据处理方法,其特征在于,所述根据所述词向量字典和预设卷积核,确定所述词向量字典中各词向量的词向量特征,包括:
根据所述预设卷积核对所述词向量字典进行滑动激活,得到对应的词向量特征值。
4.根据权利要求1所述的基于深度学习的文本数据处理方法,其特征在于,在所述确定为类别预测结果之后,还包括:
在设定周期内对所述类别预测结果进行准确度验证,并对所述类别预测结果中的各句子进行主动对齐处理。
5.一种基于深度学习的文本数据处理装置,其特征在于,包括:
词向量字典确定模块,用于根据预设文本规则库对目标文本进行文本匹配,得到匹配失败文本,对所述匹配失败文本进行深度学习分类,得到与所述匹配失败文本对应的词向量字典;
词向量特征确定模块,用于根据所述词向量字典和预设卷积核,确定所述词向量字典中各词向量的词向量特征;
类别预测结果确定模块,用于将与各所述卷积核对应的所述词向量特征进行特征合并,得到所述深度学习分类中各类别的概率,并将概率值最大的类别确定为类别预测结果。
6.根据权利要求5所述的基于深度学习的文本数据处理装置,其特征在于,所述词向量字典确定模块包括:
深度学习训练单元,用于采用word2vec工具对所述匹配失败文本中每一个词进行深度学习训练,得到词向量字典。
7.根据权利要求5所述的基于深度学习的文本数据处理装置,其特征在于,所述词向量特征确定模块包括:
词向量特征值计算单元,用于根据所述预设卷积核对所述词向量字典进行滑动激活,得到对应的词向量特征值。
8.根据权利要求5所述的基于深度学习的文本数据处理装置,其特征在于,还包括:
重复验证单元,用于在设定周期内对所述类别预测结果进行准确度验证,并对所述类别预测结果中的各句子进行主动对齐处理。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1至4任一项所述的基于深度学习的文本数据处理方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至4任一项所述的基于深度学习的文本数据处理方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911083732.0A CN110851600A (zh) | 2019-11-07 | 2019-11-07 | 基于深度学习的文本数据处理方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911083732.0A CN110851600A (zh) | 2019-11-07 | 2019-11-07 | 基于深度学习的文本数据处理方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110851600A true CN110851600A (zh) | 2020-02-28 |
Family
ID=69599892
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911083732.0A Pending CN110851600A (zh) | 2019-11-07 | 2019-11-07 | 基于深度学习的文本数据处理方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110851600A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113254596A (zh) * | 2021-06-22 | 2021-08-13 | 湖南大学 | 基于规则匹配和深度学习的用户质检需求分类方法及系统 |
CN113609851A (zh) * | 2021-07-09 | 2021-11-05 | 浙江连信科技有限公司 | 心理学上想法认知偏差的识别方法、装置及电子设备 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106599933A (zh) * | 2016-12-26 | 2017-04-26 | 哈尔滨工业大学 | 一种基于联合深度学习模型的文本情感分类方法 |
WO2017090051A1 (en) * | 2015-11-27 | 2017-06-01 | Giridhari Devanathan | A method for text classification and feature selection using class vectors and the system thereof |
CN107644074A (zh) * | 2017-09-19 | 2018-01-30 | 北京邮电大学 | 一种基于卷积神经网络的中文教材可读性分析的方法 |
CN108009148A (zh) * | 2017-11-16 | 2018-05-08 | 天津大学 | 基于深度学习的文本情感分类表示方法 |
CN109670167A (zh) * | 2018-10-24 | 2019-04-23 | 国网浙江省电力有限公司 | 一种基于Word2Vec的电力客服工单情感量化分析方法 |
CN110019788A (zh) * | 2017-09-30 | 2019-07-16 | 北京国双科技有限公司 | 文本分类方法及装置 |
-
2019
- 2019-11-07 CN CN201911083732.0A patent/CN110851600A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017090051A1 (en) * | 2015-11-27 | 2017-06-01 | Giridhari Devanathan | A method for text classification and feature selection using class vectors and the system thereof |
CN106599933A (zh) * | 2016-12-26 | 2017-04-26 | 哈尔滨工业大学 | 一种基于联合深度学习模型的文本情感分类方法 |
CN107644074A (zh) * | 2017-09-19 | 2018-01-30 | 北京邮电大学 | 一种基于卷积神经网络的中文教材可读性分析的方法 |
CN110019788A (zh) * | 2017-09-30 | 2019-07-16 | 北京国双科技有限公司 | 文本分类方法及装置 |
CN108009148A (zh) * | 2017-11-16 | 2018-05-08 | 天津大学 | 基于深度学习的文本情感分类表示方法 |
CN109670167A (zh) * | 2018-10-24 | 2019-04-23 | 国网浙江省电力有限公司 | 一种基于Word2Vec的电力客服工单情感量化分析方法 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113254596A (zh) * | 2021-06-22 | 2021-08-13 | 湖南大学 | 基于规则匹配和深度学习的用户质检需求分类方法及系统 |
CN113254596B (zh) * | 2021-06-22 | 2021-10-08 | 湖南大学 | 基于规则匹配和深度学习的用户质检需求分类方法及系统 |
CN113609851A (zh) * | 2021-07-09 | 2021-11-05 | 浙江连信科技有限公司 | 心理学上想法认知偏差的识别方法、装置及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Swathi et al. | An optimal deep learning-based LSTM for stock price prediction using twitter sentiment analysis | |
US11030415B2 (en) | Learning document embeddings with convolutional neural network architectures | |
CN108629687B (zh) | 一种反洗钱方法、装置及设备 | |
CN108846077B (zh) | 问答文本的语义匹配方法、装置、介质及电子设备 | |
US20230102337A1 (en) | Method and apparatus for training recommendation model, computer device, and storage medium | |
CN110069709B (zh) | 意图识别方法、装置、计算机可读介质及电子设备 | |
CN111539197B (zh) | 文本匹配方法和装置以及计算机系统和可读存储介质 | |
CN109766557B (zh) | 一种情感分析方法、装置、存储介质及终端设备 | |
CN110619044B (zh) | 一种情感分析方法、系统、存储介质及设备 | |
CN109086265B (zh) | 一种语义训练方法、短文本中多语义词消歧方法 | |
CN111783993A (zh) | 智能标注方法、装置、智能平台及存储介质 | |
US20220172260A1 (en) | Method, apparatus, storage medium, and device for generating user profile | |
CN111259647A (zh) | 基于人工智能的问答文本匹配方法、装置、介质及电子设备 | |
CN112667782A (zh) | 一种文本分类方法、装置、设备及存储介质 | |
CN111753082A (zh) | 基于评论数据的文本分类方法及装置、设备和介质 | |
Parwita et al. | Classification of mobile application reviews using word embedding and convolutional neural network | |
CN113011689B (zh) | 软件开发工作量的评估方法、装置及计算设备 | |
CN110851600A (zh) | 基于深度学习的文本数据处理方法及装置 | |
CN116910357A (zh) | 一种数据处理方法及相关装置 | |
Wakchaure et al. | A scheme of answer selection in community question answering using machine learning techniques | |
US11972625B2 (en) | Character-based representation learning for table data extraction using artificial intelligence techniques | |
Sisodia et al. | Performance evaluation of learners for analyzing the hotel customer sentiments based on text reviews | |
US20230121404A1 (en) | Searching for normalization-activation layer architectures | |
CN112115258B (zh) | 一种用户的信用评价方法、装置、服务器及存储介质 | |
CN114118526A (zh) | 一种企业风险预测方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200228 |