CN115238645A - 资产数据识别方法、装置、电子设备和计算机存储介质 - Google Patents
资产数据识别方法、装置、电子设备和计算机存储介质 Download PDFInfo
- Publication number
- CN115238645A CN115238645A CN202210925659.2A CN202210925659A CN115238645A CN 115238645 A CN115238645 A CN 115238645A CN 202210925659 A CN202210925659 A CN 202210925659A CN 115238645 A CN115238645 A CN 115238645A
- Authority
- CN
- China
- Prior art keywords
- asset data
- data
- preset
- cnn
- type
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本公开涉及互联网技术领域,提供一种资产数据识别方法、装置、电子设备和计算机存储介质,包括:将文本类型的资产数据编码为表示向量;基于训练好的资源识别模型,对表示向量进行资源分类,以得到文本类型的资产数据对应的资源类别;其中,训练好的资源识别模型是预先根据表示向量对预设的基于LSTM‑CNN的深度神经网络模型进行训练得到。本公开提高了资产数据类型识别的准确率、效率和灵活性。
Description
技术领域
本公开涉及互联网技术领域,特别涉及一种资产数据识别方法、装置、电子设备和计算机存储介质。
背景技术
现有技术中,目标资源识别模型常常借助SVM(Support Vector Machine,支持向量机)、朴素贝叶斯分类器、基于N-Gram统计语言模型的文本分类方法等,对文本类型的资产数据进行有效分类,以识别出资产数据的具体类别。然而,上述目标资源识别模型在对文本类型的资产数据进行分类的过程中,会面临对文本类型的资产数据进行数值化表示时数据稀疏以及建模之间语义相似度较大、类型识别准确率低、无法深度理解数据语义等问题,且需要进行分类识别的资产数据通常数量庞大、种类繁杂,使得上述目标资源识别模型识别效率低下且不够灵活。
发明内容
本公开旨在至少解决现有技术中存在的问题之一,提供一种资产数据识别方法、装置、电子设备和计算机存储介质。
本公开的一个方面,提供了一种资产数据识别方法,包括:
将文本类型的资产数据编码为表示向量;
基于训练好的资源识别模型,对表示向量进行资源分类,以得到文本类型的资产数据对应的资源类别;其中,训练好的资源识别模型是预先根据表示向量对预设的基于LSTM-CNN的深度神经网络模型进行训练得到。
可选的,训练好的资源识别模型根据以下步骤训练得到:
为表示向量添加真实标签,并将添加真实标签后的表示向量划分为训练数据和测试数据,其中,真实标签用于指示表示向量对应的资产数据的资源类别;
构建预设的基于LSTM-CNN的深度神经网络模型,确定预设的基于LSTM-CNN的深度神经网络模型所包括的隐含层的层数和默认参数值,其中,隐含层包括嵌入层、LSTM模型、CNN模型;
将训练数据输入预设的基于LSTM-CNN的深度神经网络模型,利用反向传播算法进行有监督训练,以使预设的基于LSTM-CNN的深度神经网络模型的损失函数最小化;
利用测试数据,对损失函数最小化的预设的基于LSTM-CNN的深度神经网络模型进行测试,以得到训练好的资源识别模型。
可选的,CNN模型包括卷积层、最大池化层、Merge层、Dropout层、全连接层、SoftMax层,将训练数据输入预设的基于LSTM-CNN的深度神经网络模型,利用反向传播算法进行有监督训练,以使预设的基于LSTM-CNN的深度神经网络模型的损失函数最小化,包括:
将训练数据输入嵌入层,得到训练数据的嵌入表示;
将训练数据的嵌入表示提供给LSTM模型,以生成LSTM特征向量,并将训练数据的嵌入表示提供给卷积层和最大池化层,以生成CNN特征向量;
利用Merge层将LSTM特征向量和CNN特征向量进行融合,得到融合特征向量;
利用Dropout层将融合特征向量正则化,得到正则化向量;
利用全连接层对正则化向量进行数据降维;
将数据降维后的正则化向量输入SoftMax层,得到训练数据的概率矩阵,并将概率矩阵中概率值最大的位置所对应的真实标签作为训练数据对应的预测标签;
将预测标签与训练数据对应的真实标签进行比对,通过反向传播算法更新预设的基于LSTM-CNN的深度神经网络模型的参数,直至预设的基于LSTM-CNN的深度神经网络模型的损失函数达到最小。
可选的,将文本类型的资产数据编码为表示向量,包括:
对文本类型的资产数据进行预处理;
基于训练好的栈式去噪自编码器,对预处理后的文本类型的资产数据进行降维处理,得到文本类型的资产数据对应的表示向量;其中,训练好的栈式去噪自编码器是预先根据预处理后的文本类型的资产数据对预设栈式去噪自编码器进行训练得到。
可选的,训练好的栈式去噪自编码器通过以下步骤训练得到:
利用预设的去噪自编码器对预处理后的文本类型的资产数据进行降维重构,得到训练数据集;
将去噪自编码器组合堆叠成深度学习层级结构,以构建预设栈式去噪自编码器;
调整预设栈式去噪自编码器的参数,利用训练数据集逐层对预设栈式去噪自编码器进行无监督训练,以使预设栈式去噪自编码器的损失函数最小化;
从训练数据集中选择预设数量的数据组成测试数据集;
利用测试数据集,根据损失函数值对损失函数最小化的预设栈式去噪自编码器的参数进行调整优化,得到预设栈式去噪自编码器的最优参数。
可选的,对文本类型的资产数据进行预处理,包括:
使用正则表达式去除文本类型的资产数据中的特殊字符及标签;
根据去除特殊字符及标签后的文本类型的资产数据中缺失值缺失的情况,采用删除方法、同类均值插补方法、极大似然估计方法中的至少一者对缺失值进行处理;
采用词频逆文档频率、word2vec、独热编码中的至少一者,对缺失值处理后的文本类型的资产数据进行符号特征数值化;
将符号特征数值化的文本类型的资产数据进行标准化和归一化处理,以将符号特征数值化的文本类型的资产数据转换到[0,1]的范围。
本公开的另一个方面,提供了一种资产数据识别装置,包括:
编码模块,用于将文本类型的资产数据编码为表示向量;
分类模块,用于基于训练好的资源识别模型,对表示向量进行资源分类,以得到文本类型的资产数据对应的资源类别;其中,训练好的资源识别模型是预先根据表示向量对预设的基于LSTM-CNN的深度神经网络模型进行训练得到。
本公开的另一个方面,提供了一种电子设备,包括:
至少一个处理器;以及,
与至少一个处理器通信连接的存储器;其中,
存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行前文记载的所述的方法。
本公开的另一个方面,提供了一种计算机可读存储介质,存储有计算机程序,计算机程序被处理器执行时实现前文记载的所述的方法。
本公开的另一个方面,提供了一种计算机程序产品,包括计算机程序,计算机程序被处理器执行时实现前文记载的所述的方法。
本公开相对于现有技术而言,将文本类型的资产数据编码为表示向量,并基于预先根据表示向量对预设的基于LSTM-CNN的深度神经网络进行训练得到的资源识别模型,对表示向量进行资源分类,以得到文本类型的资产数据对应的资源类别,从而提高了资产数据类型识别的准确率、效率和灵活性。
附图说明
一个或多个实施方式通过与之对应的附图中的图片进行示例性说明,这些示例性说明并不构成对实施方式的限定,附图中具有相同参考数字标号的元件表示为类似的元件,除非有特别申明,附图中的图不构成比例限制。
图1为本公开一实施方式提供的一种资产数据识别方法的流程图;
图2为本公开另一实施方式提供的将文本类型的资产数据编码为表示向量的流程图;
图3为本公开另一实施方式提供的对文本类型的资产数据进行预处理的流程图;
图4为本公开另一实施方式提供的对预设栈式去噪自编码器进行训练的流程图;
图5为本公开另一实施方式提供的对预设的基于LSTM-CNN的深度神经网络模型进行训练的流程图;
图6为本公开另一实施方式提供的对预设的基于LSTM-CNN的深度神经网络模型进行训练的流程图;
图7为本公开另一实施方式提供的一种资产数据识别装置的结构示意图;
图8为本公开另一实施方式提供的电子设备的结构示意图。
具体实施方式
为使本公开实施方式的目的、技术方案和优点更加清楚,下面将结合附图对本公开的各实施方式进行详细的阐述。然而,本领域的普通技术人员可以理解,在本公开各实施方式中,为了使读者更好地理解本公开而提出了许多技术细节。但是,即使没有这些技术细节和基于以下各实施方式的种种变化和修改,也可以实现本公开所要求保护的技术方案。以下各个实施方式的划分是为了描述方便,不应对本公开的具体实现方式构成任何限定,各个实施方式在不矛盾的前提下可以相互结合相互引用。
本公开的一个实施方式涉及一种资产数据识别方法,其流程如图1所示,包括:
步骤101,将文本类型的资产数据编码为表示向量。
具体的,由于对文本类型的资产数据的资源类别判定属于自然语言处理中文本分类的任务,因此,为了便于利用资源识别模型对文本类型的资产数据分类,需要将该文本类型的资产数据编码为表示向量。例如,可以采用独热编码将文本类型的资产数据编码为表示向量,也可以采用词频逆文档频率算法将文本类型的资产数据编码为表示向量。
需要说明的是,本实施方式并不对将文本类型的资产数据编码为表示向量的具体方式进行限制,只要能够将文本类型的资产数据编码为表示向量即可。
步骤102,基于训练好的资源识别模型,对表示向量进行资源分类,以得到文本类型的资产数据对应的资源类别;其中,训练好的资源识别模型是预先根据表示向量对预设的基于LSTM-CNN的深度神经网络模型进行训练得到。
具体的,当文本类型的资产数据为带有情感色彩的主观性文本时,其对应的资源类别可以是表示其情感倾向性的类别,例如,可以是喜、怒、哀、乐等,也可以是批评、赞扬等。当文本类型的资产数据为不带有情感色彩的客观性文本时,其对应的资源类别可以是表示其数据特征的类别,例如,可以是用户信息、设备信息等。
需要说明的是,本实施方式并不对文本类型的资产数据的具体内容及其资源类别的具体种类进行限制,本领域技术人员可以根据实际需要进行选择设置。
本公开实施方式相对于现有技术而言,将文本类型的资产数据编码为表示向量,并基于预先根据表示向量对预设的基于LSTM-CNN的深度神经网络进行训练得到的资源识别模型,对表示向量进行资源分类,以得到文本类型的资产数据对应的资源类别,从而提高了资产数据类型识别的准确率、效率和灵活性。
示例性的,如图2所示,步骤101可以包括:
步骤1011,对文本类型的资产数据进行预处理。
具体的,由于文本类型的资产数据可能包括TXT格式、HTML(Hyper Text MarkupLanguage,超文本标记语言)格式、XML(Extensible Markup Language,可扩展标记语言)格式等多种数据格式,且文本类型的资产数据中还可能包括冗余数据、错误数据等,因此,需要对文本类型的资产数据进行预处理,以统一其数据格式并去除其中的冗余数据、错误数据。
步骤1012,基于训练好的栈式去噪自编码器,对预处理后的文本类型的资产数据进行降维处理,得到文本类型的资产数据对应的表示向量;其中,训练好的栈式去噪自编码器是预先根据预处理后的文本类型的资产数据对预设栈式去噪自编码器进行训练得到。
通过对文本类型的资产数据进行预处理,基于预先根据预处理后的文本类型的资产数据对预设栈式去噪自编码器进行训练得到的栈式去噪自编码器,对预处理后的文本类型的资产数据进行降维处理,得到文本类型的资产数据对应的表示向量,解决了现有技术对文本类型的资产数据进行数值化表示时数据稀疏以及建模之间语义相似度较大、无法深度理解数据语义等问题。
示例性的,如图3所示,步骤1011可以包括:
步骤10111,使用正则表达式去除文本类型的资产数据中的特殊字符及标签。
具体的,这里的特殊字符包括但不限于标点符号、运算符号、罗马数字、希腊字母等等。这里的标签是指用于描述文本类型的资产数据特征的信息。例如,在文本类型的资产数据中包括用户的年龄、性别、地区等信息时,其年龄信息对应的标签为“年龄”,性别信息对应的标签为“性别”,地区信息对应的标签为“地区”,等等。
步骤10112,根据去除特殊字符及标签后的文本类型的资产数据中缺失值缺失的情况,采用删除方法、同类均值插补方法、极大似然估计方法中的至少一者对缺失值进行处理。
在去除特殊字符及标签后,文本类型的资产数据中可能会出现缺失值,因此,需要根据缺失值缺失的情况对缺失值进行处理。例如,可以采用删除方法将缺失值遗漏了重要属性信息的文本类型的资产数据删除,也可以采用同类均值插补方法或者极大似然估计方法对文本类型的资产数据中的缺失值进行插补。
步骤10113,采用词频逆文档频率、word2vec、独热编码中的至少一者,对缺失值处理后的文本类型的资产数据进行符号特征数值化。
具体的,词频逆文档频率是一种用于信息检索与数据挖掘的常用加权技术,可用以评估文本类型的资产数据中某一文本的重要程度。word2vec是一种用来产生词向量的模型,可以将文本类型的资产数据中包括的各个词映射为各个向量,从而通过词向量来表示词与词之间关系。独热编码是使用N位状态寄存器来对N个状态进行编码,每个状态都有独立的寄存器位,并且在任意时候,各寄存器位中只有一位有效。
步骤10114,将符号特征数值化的文本类型的资产数据进行标准化和归一化处理,以将符号特征数值化的文本类型的资产数据转换到[0,1]的范围。
具体的,由于文本类型的资产数据可能包含多种数据特征,而这些数据特征常常具有不同的分布形态、区间或者量级,因此,需要对符号特征数值化的文本类型的资产数据进行标准化和归一化处理,将其转换到[0,1]的范围,以避免不同分布形态、区间或者量级的数据特征对后续的资产数据识别产生影响。
通过对文本类型的资产数据进行去除特殊字符及标签、缺失值处理、符号特征数值化处理、标准化和归一化处理,得到[0,1]范围的文本类型的资产数据,实现了对文本类型的资产数据的格式统一,有利于提高后续资产数据类型识别的效率和准确率。
示例性的,如图4所示,训练好的栈式去噪自编码器通过以下步骤训练得到:
步骤401,利用预设的去噪自编码器对预处理后的文本类型的资产数据进行降维重构,得到训练数据集。
自编码器是一种将输入信号从目标表达中重构出来的神经网络,基本的自编码器网络结构包括输入层、隐藏层、输出层,其中,输出层与输入层具有相同的规模,训练目标是输出尽可能复现输入信号。去噪自编码器与自编码器有着相同的网络结构和训练目标,但是,去噪自编码器在训练时会主动为样本数据添加随机噪声,并在训练过程中学习消除噪声干扰以获取更鲁棒性的特征表达,重构未污染的纯净输入信息。
步骤402,将去噪自编码器组合堆叠成深度学习层级结构,以构建预设栈式去噪自编码器。
具体的,在本步骤中,将去噪自编码器组合堆叠成深度学习层级结构,可以获取更抽象细致的特征,从而构成预设的栈式去噪自编码器。
步骤403,调整预设栈式去噪自编码器的参数,利用训练数据集逐层对预设栈式去噪自编码器进行无监督训练,以使预设栈式去噪自编码器的损失函数最小化。
步骤404,从训练数据集中选择预设数量的数据组成测试数据集。
具体的,预设数量可以根据实际需要进行设置。例如,可以从训练数据集中抽取10%、15%或者20%的数据组成测试数据集。当然,本实施方式并不对预设数量的具体数值进行限制,只要能够从训练数据集中选取出组成测试数据集的数据即可。
步骤405,利用测试数据集,根据损失函数值对损失函数最小化的预设栈式去噪自编码器的参数进行调整优化,得到预设栈式去噪自编码器的最优参数。
具体的,当利用损失函数最小化的预设栈式去噪自编码器对测试数据集进行测试时,损失函数值为衡量数据质量的一个标准,根据损失函数值对预设栈式去噪自编码器的参数进行调整优化,即可得到预设栈式去噪自编码器的最优参数。
通过利用上述步骤预先根据预处理后的文本类型的资产数据对预设栈式去噪自编码器进行训练,得到训练好的栈式去噪自编码器,使得在利用该训练好的栈式去噪自编码器得到文本类型的资产数据对应的表示向量时,能够解决数据稀疏以及建模之间语义相似度较大、无法深度理解数据语义等问题。
示例性的,如图5所示,训练好的资源识别模型根据以下步骤训练得到:
步骤501,为表示向量添加真实标签,并将添加真实标签后的表示向量划分为训练数据和测试数据,其中,真实标签用于指示表示向量对应的资产数据的资源类别。
步骤502,构建预设的基于LSTM-CNN的深度神经网络模型,确定预设的基于LSTM-CNN的深度神经网络模型所包括的隐含层的层数和默认参数值,其中,隐含层包括嵌入层、LSTM模型、CNN模型。
LSTM(Long Short Term Memory,长短期记忆网络)是循环神经网络(RNN,Recurrent-Neura1 Network)中一种特殊的神经网络,LSTM通过对RNN的结构进行改进,加入内存单元与三个门控单元,对历史信息进行有效的控制,具有记忆来自输入的先前数据并基于该知识作出决定的功能。LSTM更直接适用于页面响应数据的输入,因为在网页响应内容中的每一个内容都基于周围的单词存在语义。通过在网页响应的内容中捕获不断变化的信息,LSTM能够提取更多有效资源特征,提高了模型识别资源类型的准确率。通过递归地应用LSTM单元对句子中的每个输入单词和上一步,将可变长度的句子转换为固定长度的向量。在每一步中,具有内存维度的LSTM单元在其中定义了向量:输入门、遗忘门、输出门、tanh层、内存单元和隐藏状态。遗忘门决定应该忘记内存单元中的哪些先前信息,而输入门控制应该在内存单元中存储哪些新信息,输出门决定应该公开来自内存单元的哪些信息量,这些门单元帮助LSTM模型在多个时间步骤中记住重要信息。
CNN(卷积神经网络)是一类包含卷积计算且具有深度结构的前馈神经网络(Feedforward Neural-Networks),是深度学习的代表算法之一。卷积神经网络具有表征学习(representation-learning)能力,能够按其阶层结构对输入信息进行平移不变分类。卷积神经网络在图像处理领域取得了很大的成绩,它的卷积和池化结构能很好提取图像的信息,而在自然语言处理领域,循环神经网络则使用的更多,循环神经网络及其各种变种因拥有记忆功能使得它们更擅长处理上下文。在自然语言处理领域,很多任务如语义分析、查询检索、文本分类等使用卷积神经网络均取得了出色的效果。资源识别模型结构中卷积神经网络的作用是用来提取资产数据的特征,根据提取特征进行资源判定。
步骤503,将训练数据输入预设的基于LSTM-CNN的深度神经网络模型,利用反向传播算法进行有监督训练,以使预设的基于LSTM-CNN的深度神经网络模型的损失函数最小化。
步骤504,利用测试数据,对损失函数最小化的预设的基于LSTM-CNN的深度神经网络模型进行测试,以得到训练好的资源识别模型。
通过上述方法训练得到的资源识别模型,能够进一步提高资产数据类型识别的效率和准确率。
示例性的,CNN模型包括卷积层、最大池化层、Merge层、Dropout层、全连接层、SoftMax层,如图6所示,步骤503可以包括:
步骤5031,将训练数据输入嵌入层,得到训练数据的嵌入表示。
步骤5032,将训练数据的嵌入表示提供给LSTM模型,以生成LSTM特征向量,并将训练数据的嵌入表示提供给卷积层和最大池化层,以生成CNN特征向量。
步骤5033,利用Merge层将LSTM特征向量和CNN特征向量进行融合,得到融合特征向量。
步骤5034,利用Dropout层将融合特征向量正则化,得到正则化向量。
步骤5035,利用全连接层对正则化向量进行数据降维。
步骤5036,将数据降维后的正则化向量输入SoftMax层,得到训练数据的概率矩阵,并将概率矩阵中概率值最大的位置所对应的真实标签作为训练数据对应的预测标签。
步骤5037,将预测标签与训练数据对应的真实标签进行比对,通过反向传播算法更新预设的基于LSTM-CNN的深度神经网络模型的参数,直至预设的基于LSTM-CNN的深度神经网络模型的损失函数达到最小。
具体的,在给定输入条件下,每个深度学习模型都有自己的方法将目标信息捕获到特征向量中。CNN模型的卷积层使用卷积滤波器来捕获相邻单词之间的本地依赖关系。然而,由于卷积滤波器长度的限制,CNN模型很难了解整个句子的整体依赖关系,但可以将CNN模型构造的CNN特征向量视为局部关系值。而在LSTM模型中,为了长时间保存信息,引入了内存单元,因此,由LSTM模型构造的LSTM特征向量携带了整个句子的整体依赖关系。由于CNN特征向量承载了局部关系,LSTM特征向量承载了整体关系,因此,CNN特征向量与LSTM特征向量能够很好地相互支持,从而提高了资源识别模型的分类性能。为了提高资源识别模型的范化能力,在CNN模型中加入了Dropout层进行正则化处理,并利用全连接层进行数据降维,然后经过SoftMax层得到概率矩阵,以输出资源识别模型的预测资源类别。
通过在CNN模型中添加卷积层、最大池化层、Merge层、Dropout层、全连接层、SoftMax层,并对基于LSTM-CNN的深度神经网络模型进行训练得到训练好的资源识别模型,进一步提高了资源识别模型对资产数据类型识别的效率和准确率。
本公开的另一个实施方式涉及一种资产数据识别装置,如图7所示,包括:
编码模块701,用于将文本类型的资产数据编码为表示向量;
分类模块702,用于基于训练好的资源识别模型,对表示向量进行资源分类,以得到文本类型的资产数据对应的资源类别;其中,训练好的资源识别模型是预先根据表示向量对预设的基于LSTM-CNN的深度神经网络模型进行训练得到。
本公开实施方式提供的资产数据识别装置的具体实现方法,可以参见本公开实施方式提供的资产数据识别方法所述,此处不再赘述。
本公开实施方式相对于现有技术而言,通过编码模块将文本类型的资产数据编码为表示向量,并通过分类模块基于预先根据表示向量对预设的基于LSTM-CNN的深度神经网络进行训练得到的资源识别模型,对表示向量进行资源分类,以得到文本类型的资产数据对应的资源类别,提高了资产数据类型识别的准确率、效率和灵活性。
本公开的另一个实施方式涉及一种电子设备,如图8所示,包括:
至少一个处理器801;以及,
与所述至少一个处理器801通信连接的存储器802;其中,
所述存储器802存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器801执行,以使所述至少一个处理器801能够执行上述实施方式所述的方法。
其中,存储器和处理器采用总线方式连接,总线可以包括任意数量的互联的总线和桥,总线将一个或多个处理器和存储器的各种电路连接在一起。总线还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路连接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一步描述。总线接口在总线和收发机之间提供接口。收发机可以是一个元件,也可以是多个元件,比如多个接收器和发送器,提供用于在传输介质上与各种其他装置通信的单元。经处理器处理的数据通过天线在无线介质上进行传输,进一步,天线还接收数据并将数据传送给处理器。
处理器负责管理总线和通常的处理,还可以提供各种功能,包括定时,外围接口,电压调节、电源管理以及其他控制功能。而存储器可以被用于存储处理器在执行操作时所使用的数据。
本公开的另一个实施方式涉及一种计算机可读存储介质,存储有计算机程序,计算机程序被处理器执行时实现上述实施方式所述的方法。
即,本领域技术人员可以理解,实现上述实施方式所述方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序存储在一个存储介质中,包括若干指令用以使得一个设备(可以是单片机,芯片等)或处理器(processor)执行本公开各个实施方式所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、ROM(Read-OnlyMemory,只读存储器)、RAM(Random Access Memory,随机存取存储器)、磁碟或者光盘等各种可以存储程序代码的介质。
本公开的另一个实施方式涉及一种计算机程序产品,包括计算机程序,计算机程序被处理器执行时实现上述实施方式所述的方法。
本领域的普通技术人员可以理解,上述各实施方式是实现本公开的具体实施方式,而在实际应用中,可以在形式上和细节上对其作各种改变,而不偏离本公开的精神和范围。
Claims (10)
1.一种资产数据识别方法,其特征在于,所述方法包括:
将文本类型的资产数据编码为表示向量;
基于训练好的资源识别模型,对所述表示向量进行资源分类,以得到所述文本类型的资产数据对应的资源类别;其中,所述训练好的资源识别模型是预先根据所述表示向量对预设的基于LSTM-CNN的深度神经网络模型进行训练得到。
2.根据权利要求1所述的方法,其特征在于,所述训练好的资源识别模型根据以下步骤训练得到:
为所述表示向量添加真实标签,并将添加真实标签后的所述表示向量划分为训练数据和测试数据,其中,所述真实标签用于指示所述表示向量对应的所述资产数据的资源类别;
构建所述预设的基于LSTM-CNN的深度神经网络模型,确定所述预设的基于LSTM-CNN的深度神经网络模型所包括的隐含层的层数和默认参数值,其中,所述隐含层包括嵌入层、LSTM模型、CNN模型;
将所述训练数据输入所述预设的基于LSTM-CNN的深度神经网络模型,利用反向传播算法进行有监督训练,以使所述预设的基于LSTM-CNN的深度神经网络模型的损失函数最小化;
利用所述测试数据,对损失函数最小化的所述预设的基于LSTM-CNN的深度神经网络模型进行测试,以得到所述训练好的资源识别模型。
3.根据权利要求2所述的方法,其特征在于,所述CNN模型包括卷积层、最大池化层、Merge层、Dropout层、全连接层、SoftMax层,所述将所述训练数据输入所述预设的基于LSTM-CNN的深度神经网络模型,利用反向传播算法进行有监督训练,以使所述预设的基于LSTM-CNN的深度神经网络模型的损失函数最小化,包括:
将所述训练数据输入所述嵌入层,得到所述训练数据的嵌入表示;
将所述训练数据的嵌入表示提供给所述LSTM模型,以生成LSTM特征向量,并将所述训练数据的嵌入表示提供给所述卷积层和所述最大池化层,以生成CNN特征向量;
利用所述Merge层将所述LSTM特征向量和所述CNN特征向量进行融合,得到融合特征向量;
利用所述Dropout层将所述融合特征向量正则化,得到正则化向量;
利用所述全连接层对所述正则化向量进行数据降维;
将数据降维后的所述正则化向量输入所述SoftMax层,得到所述训练数据的概率矩阵,并将所述概率矩阵中概率值最大的位置所对应的所述真实标签作为所述训练数据对应的预测标签;
将所述预测标签与所述训练数据对应的所述真实标签进行比对,通过所述反向传播算法更新所述预设的基于LSTM-CNN的深度神经网络模型的参数,直至所述预设的基于LSTM-CNN的深度神经网络模型的所述损失函数达到最小。
4.根据权利要求1所述的方法,其特征在于,所述将文本类型的资产数据编码为表示向量,包括:
对所述文本类型的资产数据进行预处理;
基于训练好的栈式去噪自编码器,对预处理后的所述文本类型的资产数据进行降维处理,得到所述文本类型的资产数据对应的所述表示向量;其中,所述训练好的栈式去噪自编码器是预先根据所述预处理后的所述文本类型的资产数据对预设栈式去噪自编码器进行训练得到。
5.根据权利要求4所述的方法,其特征在于,所述训练好的栈式去噪自编码器通过以下步骤训练得到:
利用预设的去噪自编码器对预处理后的所述文本类型的资产数据进行降维重构,得到训练数据集;
将所述去噪自编码器组合堆叠成深度学习层级结构,以构建所述预设栈式去噪自编码器;
调整所述预设栈式去噪自编码器的参数,利用所述训练数据集逐层对所述预设栈式去噪自编码器进行无监督训练,以使所述预设栈式去噪自编码器的损失函数最小化;
从所述训练数据集中选择预设数量的数据组成测试数据集;
利用所述测试数据集,根据损失函数值对损失函数最小化的所述预设栈式去噪自编码器的参数进行调整优化,得到所述预设栈式去噪自编码器的最优参数。
6.根据权利要求4或5所述的方法,其特征在于,所述对所述文本类型的资产数据进行预处理,包括:
使用正则表达式去除所述文本类型的资产数据中的特殊字符及标签;
根据去除特殊字符及标签后的所述文本类型的资产数据中缺失值缺失的情况,采用删除方法、同类均值插补方法、极大似然估计方法中的至少一者对所述缺失值进行处理;
采用词频逆文档频率、word2vec、独热编码中的至少一者,对缺失值处理后的所述文本类型的资产数据进行符号特征数值化;
将符号特征数值化的所述文本类型的资产数据进行标准化和归一化处理,以将符号特征数值化的所述文本类型的资产数据转换到[0,1]的范围。
7.一种资产数据识别装置,其特征在于,所述装置包括:
编码模块,用于将文本类型的资产数据编码为表示向量;
分类模块,用于基于训练好的资源识别模型,对所述表示向量进行资源分类,以得到所述文本类型的资产数据对应的资源类别;其中,所述训练好的资源识别模型是预先根据所述表示向量对预设的基于LSTM-CNN的深度神经网络模型进行训练得到。
8.一种电子设备,其特征在于,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1至6中任一项所述的方法。
9.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法。
10.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210925659.2A CN115238645A (zh) | 2022-08-03 | 2022-08-03 | 资产数据识别方法、装置、电子设备和计算机存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210925659.2A CN115238645A (zh) | 2022-08-03 | 2022-08-03 | 资产数据识别方法、装置、电子设备和计算机存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115238645A true CN115238645A (zh) | 2022-10-25 |
Family
ID=83676608
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210925659.2A Pending CN115238645A (zh) | 2022-08-03 | 2022-08-03 | 资产数据识别方法、装置、电子设备和计算机存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115238645A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117116476A (zh) * | 2023-07-04 | 2023-11-24 | 中国医学科学院阜外医院 | 下游任务预测方法、装置及计算机可读存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108206046A (zh) * | 2017-12-28 | 2018-06-26 | 新华三大数据技术有限公司 | 一种数据处理方法及装置 |
CN110427628A (zh) * | 2019-08-02 | 2019-11-08 | 杭州安恒信息技术股份有限公司 | 基于神经网络算法的web资产分类检测方法及装置 |
CN110781299A (zh) * | 2019-09-18 | 2020-02-11 | 平安科技(深圳)有限公司 | 资产信息识别方法、装置、计算机设备及存储介质 |
CN111143563A (zh) * | 2019-12-27 | 2020-05-12 | 电子科技大学 | 基于bert与lstm及cnn融合的文本分类方法 |
CN113220876A (zh) * | 2021-04-16 | 2021-08-06 | 山东师范大学 | 一种用于英文文本的多标签分类方法及系统 |
CN113779936A (zh) * | 2021-09-16 | 2021-12-10 | 西华师范大学 | 一种网络资产数据处理方法 |
-
2022
- 2022-08-03 CN CN202210925659.2A patent/CN115238645A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108206046A (zh) * | 2017-12-28 | 2018-06-26 | 新华三大数据技术有限公司 | 一种数据处理方法及装置 |
CN110427628A (zh) * | 2019-08-02 | 2019-11-08 | 杭州安恒信息技术股份有限公司 | 基于神经网络算法的web资产分类检测方法及装置 |
CN110781299A (zh) * | 2019-09-18 | 2020-02-11 | 平安科技(深圳)有限公司 | 资产信息识别方法、装置、计算机设备及存储介质 |
CN111143563A (zh) * | 2019-12-27 | 2020-05-12 | 电子科技大学 | 基于bert与lstm及cnn融合的文本分类方法 |
CN113220876A (zh) * | 2021-04-16 | 2021-08-06 | 山东师范大学 | 一种用于英文文本的多标签分类方法及系统 |
CN113779936A (zh) * | 2021-09-16 | 2021-12-10 | 西华师范大学 | 一种网络资产数据处理方法 |
Non-Patent Citations (2)
Title |
---|
宋永强: "一种基于栈式降噪自编码器降维的物联网分层入侵检测模型", 中国优秀硕士学位论文全文数据库,信息科技辑, no. 2018, pages 18 - 24 * |
宋永强: "一种基于栈式降噪自编码器降维的物联网分层入侵检测模型", 硕士电子期刊, no. 12, pages 18 - 24 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117116476A (zh) * | 2023-07-04 | 2023-11-24 | 中国医学科学院阜外医院 | 下游任务预测方法、装置及计算机可读存储介质 |
CN117116476B (zh) * | 2023-07-04 | 2023-12-19 | 中国医学科学院阜外医院 | 下游任务预测方法、装置及计算机可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110598206B (zh) | 文本语义识别方法、装置、计算机设备和存储介质 | |
CN109657947B (zh) | 一种面向企业行业分类的异常检测方法 | |
CN112711953B (zh) | 一种基于注意力机制和gcn的文本多标签分类方法和系统 | |
CN111950269A (zh) | 文本语句处理方法、装置、计算机设备和存储介质 | |
CN111651601B (zh) | 用于电力信息系统的故障分类模型的训练方法及分类方法 | |
CN112052684A (zh) | 电力计量的命名实体识别方法、装置、设备和存储介质 | |
CN110968725B (zh) | 图像内容描述信息生成方法、电子设备及存储介质 | |
CN111985228A (zh) | 文本关键词提取方法、装置、计算机设备和存储介质 | |
KR20210023385A (ko) | 신경망을 이용한 데이터 처리 방법 | |
JP2024503036A (ja) | 改善された深層学習モデルのための方法およびシステム | |
CN114357170A (zh) | 模型训练方法、分析方法、装置、设备及介质 | |
CN113159013A (zh) | 基于机器学习的段落识别方法、装置、计算机设备和介质 | |
CN111709225A (zh) | 一种事件因果关系判别方法、装置和计算机可读存储介质 | |
CN114691525A (zh) | 测试用例的选择方法及装置 | |
CN114881173A (zh) | 基于自注意力机制的简历分类方法和装置 | |
CN115238645A (zh) | 资产数据识别方法、装置、电子设备和计算机存储介质 | |
CN114676346A (zh) | 新闻事件处理方法、装置、计算机设备和存储介质 | |
CN114428860A (zh) | 院前急救病例文本的识别方法、装置、终端及存储介质 | |
CN114385808A (zh) | 文本分类模型构建方法与文本分类方法 | |
CN116089605A (zh) | 基于迁移学习和改进词袋模型的文本情感分析方法 | |
CN116257601A (zh) | 一种基于深度学习的违法词库构建方法及系统 | |
US20230162518A1 (en) | Systems for Generating Indications of Relationships between Electronic Documents | |
CN114881172A (zh) | 一种基于加权词向量和神经网络的软件漏洞自动分类方法 | |
CN114254622A (zh) | 一种意图识别方法和装置 | |
CN113627514A (zh) | 知识图谱的数据处理方法、装置、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |