CN111782804B - 基于TextCNN同分布文本数据选择方法、系统及存储介质 - Google Patents

基于TextCNN同分布文本数据选择方法、系统及存储介质 Download PDF

Info

Publication number
CN111782804B
CN111782804B CN202010519304.4A CN202010519304A CN111782804B CN 111782804 B CN111782804 B CN 111782804B CN 202010519304 A CN202010519304 A CN 202010519304A CN 111782804 B CN111782804 B CN 111782804B
Authority
CN
China
Prior art keywords
data
training
text
training set
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010519304.4A
Other languages
English (en)
Other versions
CN111782804A (zh
Inventor
秦小林
王立可
崔小莉
杨涌
曹晟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Information Technology Co Ltd of CAS
Original Assignee
Chengdu Information Technology Co Ltd of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Information Technology Co Ltd of CAS filed Critical Chengdu Information Technology Co Ltd of CAS
Priority to CN202010519304.4A priority Critical patent/CN111782804B/zh
Publication of CN111782804A publication Critical patent/CN111782804A/zh
Application granted granted Critical
Publication of CN111782804B publication Critical patent/CN111782804B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于TextCNN同分布文本数据选择方法、系统及存储介质,该方法通过对文本机器学习任务所使用的训练集和测试集的数据添加标签,使该训练集的数据的标签为0,该测试集的数据的标签为1,接着随机交换训练集与测试集的数据,构建出新的训练集与测试集;然后使用构建出的训练集与测试集,训练基于TextCNN网络结构的文本二分类模型而得到预测模型;最后,利用该预测模型对训练集的数据进行预测,得到每条数据对应的概率值pi,并选择若干个概率值pi较大的数据作为该文本机器学习任务的训练数据。因此,本发明通过获得每条训练数据被预测为测试数据的概率,并根据概率大小从训练数据中选择出更好的数据进行模型训练,从而提高机器学习在训练数据上的拟合能力和准确率。

Description

基于TextCNN同分布文本数据选择方法、系统及存储介质
技术领域
本发明涉及机器学习领域中的数据同分布判别技术,尤其涉及基于TextCNN同分布文本数据选择方法、系统及存储介质。
背景技术
在机器学习任务中,经常会遇到在训练集上模型表现得非常好,各项评价指标都非常高,但是模型在测试集上却表现非常差,出现这种情况可能的原因在于:训练集与测试集相差非常大,即训练集和测试集是不同分布的。因此,在机器学习任务中确定训练集与测试集特征是否同分布是很重要的工作,只有满足训练集与测试集同分布这个条件,文本机器学习任务才有意义。
而目前,通常使用KDE核密度、KL散度、MMD距离等方法来判断训练数据集与测试数据集是否为同分布,但是面对文本数据时,上述的这些方法均无法高效可靠地判定数据集是否同分布,因此,有必要提出一种高效可靠地针对文本数据同分布判定方案。
发明内容
鉴于以上所述现有技术的不足,本发明的目的在于:一种高效可靠地针对文本数据同分布判定与数据选择方案,以解决文本机器学习任务中训练数据集与测试数据集分布差距大造成模型拟合能力差的问题,使其在准确率和时间效率上均有提升。
为实现上述发明目的,本发明提供以下技术方案:
一种基于TextCNN同分布文本数据选择方法,其包括以下步骤:
S1:对文本机器学习任务所使用的训练集和测试集进行数据预处理,并选取合适的词向量维度k,对经所述数据预处理后的训练集和测试集进行字词嵌入处理;
S2:对所述训练集与所述测试集的数据添加标签,使所述训练集的数据的标签为0,所述测试集的数据的标签为1,并随机交换所述训练集与所述测试集的数据,以构建出新的训练集与测试集;
S3:利用所述训练集和所述测试集对基于TextCNN网络结构的文本二分类模型进行训练,得到预测模型;
S4:利用所述预测模型分别对所述训练集中的每条数据进行预测,并输出每条数据对应的概率值pi
S5:从所述训练集中选择出若干个概率值pi较大的数据作为所述文本机器学习任务的训练数据。
根据一种具体的实施方式,本发明基于TextCNN同分布文本数据选择方法中,所述文本二分类模型为四层神经网络结构;其中,第一层为n*k的句矩阵,每行为词向量,维度为k;第二层为一维卷积层,其每个卷积核有两个输出通道;第三层为最大池化层,用于将不同长度的句子池化为一定的相同长度;第四层为全连接层+softmax层,用于输出每个类别的概率。
进一步地,本发明基于TextCNN同分布文本数据选择方法中,所述字词嵌入处理具体为:
加载训练集和测试集的数据,将句子分割成词来表示,并去除低频词和停用词;
将词映射成索引来表示,以构建词汇-索引映射表,并保存为json数据格式;
使用word2vec预训练而产生相应的词向量,以完成文字的向量表示。
进一步地,本发明基于TextCNN同分布文本数据选择方法中,步骤S3中,对所述文本二分类模型进行训练的方式为:在所述一维卷积层中利用不同尺寸的卷积核提取特征,再通过所述最大池化层进行池化,最后由全连接层将提取到的特征拼接在一起,并输入至softmax层。
进一步地,本发明基于TextCNN同分布文本数据选择方法中,步骤S5中,设置概率阈值α,从所述训练集中选择出概率值pi大于概率阈值α的数据作为所述文本机器学习任务的训练数据。
本发明在具体实施的一方面,还提供一种基于TextCNN同分布文本数据选择系统,其特包括:
预处理模块,用于对文本机器学习任务所使用的训练集和测试集进行数据预处理;
字词嵌入处理模块,用于选取合适的词向量维度k,对经所述数据预处理后的训练集和测试集进行字词嵌入处理;
标签添加模块,用于对所述训练集与所述测试集的数据添加标签,使所述训练集的数据的标签为0,所述测试集的数据的标签为1,并随机交换所述训练集与所述测试集的数据,以构建出新的训练集与测试集;
模型训练模块,用于利用所述训练集和所述测试集对基于TextCNN网络结构的文本二分类模型进行训练,得到预测模型;
模型运行模块,用于运行所述预测模型,以分别对所述训练集中的每条数据进行预测,并输出每条数据对应的概率值pi
数据选择模块,用于从所述训练集中选择出若干个概率值pi较大的数据作为所述文本机器学习任务的训练数据。
根据一种具体的实施方式,本发明基于TextCNN同分布文本数据选择系统中,所述字词嵌入处理模块包括:
数据分割子模块,用于加载训练集和测试集的数据,将句子分割成词来表示,并去除低频词和停用词;
索引映射子模块,用于将词映射成索引来表示,以构建词汇-索引映射表,并保存为json数据格式;
词向量生成子模块,用于运行word2vec进行预训练而产生相应的词向量,以完成文字的向量表示。
根据一种具体的实施方式,本发明基于TextCNN同分布文本数据选择系统中,所述标签添加模块包括:
标签添加子模块,用于对所述训练集和所述测试集添加标签,使所述训练集的标签为0,所述测试集的标签为1;
数据交换子模块,用于随机交换所述训练集与所述测试集的数据,以构建出新的训练集与测试集。
本发明在具体实施的一方面,还提供一种可读存储介质,其上存储有一个或多个程序,该一个或多个程序被一个或多个处理器执行时实现本发明基于TextCNN同分布文本数据选择方法。
与现有技术相比,本发明的有益效果:
本发明基于TextCNN同分布文本数据选择方法,该方法通过对文本机器学习任务所使用的训练集和测试集的数据添加标签,使该训练集的数据的标签为0,该测试集的数据的标签为1,接着随机交换训练集与测试集的数据,以构建出新的训练集与测试集;然后使用构建出的训练集与测试集,训练基于TextCNN网络结构的文本二分类模型,并得到预测模型;最后,利用该预测模型对训练集的数据进行预测,得到每条数据对应的概率值pi,并从训练集中选择出若干个概率值pi较大的数据作为该文本机器学习任务的训练数据。因此,本发明通过获得每条训练数据被预测为测试数据的概率,并根据概率大小选择训练数据,从而提高文本机器学习在训练数据上的拟合能力和准确率。
附图说明
图1为本发明方法的流程示意图;
图2为本发明基于TextCNN网络结构的文本二分类模型的结构示意图;;
图3为实施例1中tf-idf+LR模型的ROC曲线对比图;
图4为实施例1中word2vec+lstm模型的ROC曲线对比图;
图5为本发明系统的结构示意图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。
如图1所示,本发明基于TextCNN同分布文本数据选择方法,其包括以下步骤:
S1:对文本机器学习任务所使用的训练集和测试集进行数据预处理,并选取合适的词向量维度k,对经所述数据预处理后的训练集和测试集进行字词嵌入处理。其中,数据预处理的方式为进行数据清洗,即删除空值和无效的字符编码。
具体的,所述字词嵌入处理具体为:加载训练集和测试集的数据,将句子分割成词来表示,并去除低频词和停用词;然后,将词映射成索引来表示,以构建出词汇-索引映射表,并保存为json数据格式;然后,使用word2vec预训练模型直接根据词汇-索引映射表产生相应的词向量,以完成文字的向量表示。其中,若有词不在预训练词向量中,这种词直接用UNK表示。
S2:对所述训练集与所述测试集的数据添加标签,使所述训练集的数据的标签为0,所述测试集的数据的标签为1,然后将训练集与测试集的数据合并后重新划分训练集和测试集,划分过程完全随机。
S3:利用所述训练集和所述测试集对基于TextCNN网络结构的文本二分类模型进行训练,得到预测模型。其中,本发明基于TextCNN网络结构的文本二分类模型的结构如图2所示。该文本二分类模型为四层神经网络结构;其中,第一层为n*k的句矩阵,每行为词向量,维度为k,类比为图像中的原始像素点;第二层为kernel_sizes=(x,y,z)的一维卷积层,其每个卷积核有两个输出通道;第三层为最大池化层,用于将不同长度的句子池化为一定的相同长度;第四层为全连接层+softmax层,用于输出每个类别的概率。
而且,文本二分类模型的训练过程具体为:将数据集划分为训练集与测试集,然后将训练集放入一维卷积层中利用不同尺寸的卷积核提取特征,再通过所述最大池化层进行池化,最后由全连接层将提取到的特征拼接在一起,并输入至softmax层。其中,训练过程中动态调整词向量,加速训练速度。
S4:利用所述预测模型分别对所述训练集中的每条数据进行预测,并输出每条数据对应的概率值pi。由于本发明基于TextCNN网络结构的文本二分类模型最后一层为softmax层,那么该文本二分类模型输出结果为概率值。而且,概率值越接近1,则说明其分布越与测试集分布越接近,相应地,也说明该数据越适合被选择来训练模型。
S5:从所述训练集中选择出若干个概率值pi较大的数据作为所述文本机器学习任务的训练数据。具体的,设置概率阈值α,从训练集中选择出概率值pi大于概率阈值α的数据作为所述文本机器学习任务的训练数据。
因此,本发明通过获得每条训练数据被预测为测试数据的概率,并根据概率大小选择训练数据,从而提高文本机器学习在训练数据上的拟合能力和准确率,比如在情感识别、命名实体识别、神经网络翻译、人机对话等机器学习任务中的表现都会有所提升。
实施例
在获得一批新闻数据后,需要完成一个文本情感识别任务,但是由于训练数据集很大,需要选择出与测试数据集同分布的训练数据。
表1本实施例的相关设定参数
Figure BDA0002531349660000051
在本实施例中,采用python编程进行仿真,并分别使用tf-idf+LR模型与word2vec+lstm模型进行情感分析,得到如图2所示的f-idf+LR模型使用原数据集与使用本专利所选择的数据集所得到ROC曲线对比图,以及如图3所示的word2vec+lstm模型使用原数据集与使用本专利所选择的数据集所得到ROC曲线对比图。
表2给出了两种情感分析模型在原数据集和本发明选择的数据集上训练模型得到的结果,可以看出两种方法在本发明选择的数据集上均表现出了可观的提升,其中在tf-idf+LR模型上提升了8.131%,在word2vec+lstm模型上提升了2.891%。这个提升是非常可观的,说明本发明的数据选择方法的有效性和应用价值。
表2本实施例两种模型进行情感分析的实验数据表
Figure BDA0002531349660000061
如图5所示,本发明在具体实施的一方面,,还提供一种基于TextCNN同分布文本数据选择系统,其特包括:
预处理模块,用于对文本机器学习任务所使用的训练集和测试集进行数据预处理;
字词嵌入处理模块,用于选取合适的词向量维度k,对经所述数据预处理后的训练集和测试集进行字词嵌入处理;
标签添加模块,用于对所述训练集与所述测试集的数据添加标签,使所述训练集的数据的标签为0,所述测试集的数据的标签为1,并随机交换所述训练集与所述测试集的数据,以构建出新的训练集与测试集;
模型训练模块,用于利用所述训练集和所述测试集对基于TextCNN网络结构的文本二分类模型进行训练,得到预测模型;
模型运行模块,用于运行所述预测模型,以分别对所述训练集中的每条数据进行预测,并输出每条数据对应的概率值pi
数据选择模块,用于从所述训练集中选择出若干个概率值pi较大的数据作为所述文本机器学习任务的训练数据。
具体的,本发明基于TextCNN同分布文本数据选择系统中,所述字词嵌入处理模块包括:数据分割子模块,用于加载训练集和测试集的数据,将句子分割成词来表示,并去除低频词和停用词;索引映射子模块,用于将词映射成索引来表示,以构建词汇-索引映射表,并保存为json数据格式;词向量生成子模块,用于运行word2vec进行预训练而产生相应的词向量,以完成文字的向量表示。
本发明基于TextCNN同分布文本数据选择系统中,所述标签添加模块包括:
标签添加子模块,用于对所述训练集和所述测试集添加标签,使所述训练集的标签为0,所述测试集的标签为1;
数据交换子模块,用于随机交换所述训练集与所述测试集的数据,以构建出新的训练集与测试集。
本发明在具体实施的一方面,还提供一种可读存储介质,其上存储有一个或多个程序,其特征在于,该一个或多个程序被一个或多个处理器执行时实现本发明基于TextCNN同分布文本数据选择方法。
应该理解到,本发明所揭露的系统,可通过其它的方式实现。例如所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,模块之间的通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性或其它的形式。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个处理单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

Claims (6)

1.一种基于TextCNN同分布文本数据选择方法,其特征在于,包括以下步骤:
S1:对文本机器学习任务所使用的训练集和测试集进行数据预处理,并选取合适的词向量维度k,对经所述数据预处理后的训练集和测试集进行字词嵌入处理;
S2:对所述训练集与所述测试集的数据添加标签,使所述训练集的数据的标签为0,所述测试集的数据的标签为1,并随机交换所述训练集与所述测试集的数据,以构建出新的训练集与测试集;
S3:利用所构建的训练集和测试集对基于TextCNN网络结构的文本二分类模型进行训练,得到预测模型;
S4:利用所述预测模型分别对所述训练集中的每条数据进行预测,并输出每条数据对应的概率值pi
S5:从所述训练集中选择出若干个概率值pi较大的数据作为所述文本机器学习任务的训练数据;
其中,所述文本二分类模型为四层神经网络结构;其中,第一层为n*k的句矩阵,每行为词向量,维度为k;第二层为一维卷积层,其每个卷积核有两个输出通道;第三层为最大池化层,用于将不同长度的句子池化为一定的相同长度;第四层为全连接层+softmax层,用于输出每个类别的概率;
所述字词嵌入处理具体为:
加载训练集和测试集的数据,将句子分割成词来表示,并去除低频词和停用词;
将词映射成索引来表示,以构建词汇-索引映射表,并保存为json数据格式;
使用word2vec预训练而产生相应的词向量,以完成文字的向量表示。
2.如权利要求1所述的基于TextCNN同分布文本数据选择方法,其特征在于,步骤S3中,对所述文本二分类模型进行训练的方式为:在所述一维卷积层中利用不同尺寸的卷积核提取特征,再通过所述最大池化层进行池化,最后由全连接层将提取到的特征拼接在一起,并输入至softmax层。
3.如权利要求2所述的基于TextCNN同分布文本数据选择方法,其特征在于,步骤S5中,设置概率阈值α,从所述训练集中选择出概率值pi大于概率阈值α的数据作为所述文本机器学习任务的训练数据。
4.一种基于TextCNN同分布文本数据选择系统,其特征在于,包括:
预处理模块,用于对文本机器学习任务所使用的训练集和测试集进行数据预处理;
字词嵌入处理模块,用于选取合适的词向量维度k,对经所述数据预处理后的训练集和测试集进行字词嵌入处理;
标签添加模块,用于对所述训练集与所述测试集的数据添加标签,使所述训练集的数据的标签为0,所述测试集的数据的标签为1,并随机交换所述训练集与所述测试集的数据,以构建出新的训练集与测试集;
模型训练模块,用于利用所述训练集和所述测试集对基于TextCNN网络结构的文本二分类模型进行训练,得到预测模型;
模型运行模块,用于运行所述预测模型,以分别对所述训练集中的每条数据进行预测,并输出每条数据对应的概率值pi
数据选择模块,用于从所述训练集中选择出若干个概率值pi较大的数据作为所述文本机器学习任务的训练数据;
其中,所述字词嵌入处理模块包括:
数据分割子模块,用于加载训练集和测试集的数据,将句子分割成词来表示,并去除低频词和停用词;
索引映射子模块,用于将词映射成索引来表示,以构建词汇-索引映射表,并保存为json数据格式;
词向量生成子模块,用于运行word2vec进行预训练而产生相应的词向量,以完成文字的向量表示;
所述文本二分类模型为四层神经网络结构;其中,第一层为n*k的句矩阵,每行为词向量,维度为k;第二层为一维卷积层,其每个卷积核有两个输出通道;第三层为最大池化层,用于将不同长度的句子池化为一定的相同长度;第四层为全连接层+softmax层,用于输出每个类别的概率。
5.如权利要求4所述的基于TextCNN同分布文本数据选择系统,其特征在于,所述标签添加模块包括:
标签添加子模块,用于对所述训练集和所述测试集添加标签,使所述训练集的标签为0,所述测试集的标签为1;
数据交换子模块,用于随机交换所述训练集与所述测试集的数据,以构建出新的训练集与测试集。
6.一种可读存储介质,其上存储有一个或多个程序,其特征在于,该一个或多个程序被一个或多个处理器执行时实现权利要求1~3任一项所述的基于TextCNN同分布文本数据选择方法。
CN202010519304.4A 2020-06-09 2020-06-09 基于TextCNN同分布文本数据选择方法、系统及存储介质 Active CN111782804B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010519304.4A CN111782804B (zh) 2020-06-09 2020-06-09 基于TextCNN同分布文本数据选择方法、系统及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010519304.4A CN111782804B (zh) 2020-06-09 2020-06-09 基于TextCNN同分布文本数据选择方法、系统及存储介质

Publications (2)

Publication Number Publication Date
CN111782804A CN111782804A (zh) 2020-10-16
CN111782804B true CN111782804B (zh) 2023-05-02

Family

ID=72755804

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010519304.4A Active CN111782804B (zh) 2020-06-09 2020-06-09 基于TextCNN同分布文本数据选择方法、系统及存储介质

Country Status (1)

Country Link
CN (1) CN111782804B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112329475B (zh) * 2020-11-03 2022-05-20 海信视像科技股份有限公司 语句处理方法及装置
CN113486174B (zh) * 2021-06-15 2022-11-29 北京三快在线科技有限公司 模型训练、阅读理解方法、装置、电子设备及存储介质
CN115858629B (zh) * 2022-12-28 2023-06-23 黑龙江大学 一种基于学习索引的knn查询方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107038480A (zh) * 2017-05-12 2017-08-11 东华大学 一种基于卷积神经网络的文本情感分类方法
CN108460022A (zh) * 2018-03-20 2018-08-28 福州大学 一种文本Valence-Arousal情感强度预测方法及系统
CN109685127A (zh) * 2018-12-17 2019-04-26 郑州云海信息技术有限公司 一种并行深度学习初至拾取的方法和系统
CN111046175A (zh) * 2019-11-18 2020-04-21 杭州天翼智慧城市科技有限公司 基于自学习的电子案卷分类方法及装置
CN111078876A (zh) * 2019-12-04 2020-04-28 国家计算机网络与信息安全管理中心 一种基于多模型集成的短文本分类方法和系统
CN111209402A (zh) * 2020-01-13 2020-05-29 山东工商学院 一种融合迁移学习与主题模型的文本分类方法及系统
CN111783841A (zh) * 2020-06-09 2020-10-16 中科院成都信息技术股份有限公司 基于迁移学习和模型融合的垃圾分类方法、系统及介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8046317B2 (en) * 2007-12-31 2011-10-25 Yahoo! Inc. System and method of feature selection for text classification using subspace sampling

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107038480A (zh) * 2017-05-12 2017-08-11 东华大学 一种基于卷积神经网络的文本情感分类方法
CN108460022A (zh) * 2018-03-20 2018-08-28 福州大学 一种文本Valence-Arousal情感强度预测方法及系统
CN109685127A (zh) * 2018-12-17 2019-04-26 郑州云海信息技术有限公司 一种并行深度学习初至拾取的方法和系统
CN111046175A (zh) * 2019-11-18 2020-04-21 杭州天翼智慧城市科技有限公司 基于自学习的电子案卷分类方法及装置
CN111078876A (zh) * 2019-12-04 2020-04-28 国家计算机网络与信息安全管理中心 一种基于多模型集成的短文本分类方法和系统
CN111209402A (zh) * 2020-01-13 2020-05-29 山东工商学院 一种融合迁移学习与主题模型的文本分类方法及系统
CN111783841A (zh) * 2020-06-09 2020-10-16 中科院成都信息技术股份有限公司 基于迁移学习和模型融合的垃圾分类方法、系统及介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Jie Fu 等.Learning semantic topics for domain-adapted textual knowledge transfer.《ICIMCS '18: Proceedings of the 10th International Conference on Internet Multimedia Computing and Service》.2018,1-5. *
基于深度学习的商品评论情感分类研究;李文江 等;《知识管理论坛》;353-363 *

Also Published As

Publication number Publication date
CN111782804A (zh) 2020-10-16

Similar Documents

Publication Publication Date Title
CN111782804B (zh) 基于TextCNN同分布文本数据选择方法、系统及存储介质
CN112711953A (zh) 一种基于注意力机制和gcn的文本多标签分类方法和系统
CN107391565B (zh) 一种基于主题模型的跨语言层次分类体系匹配方法
CN111866004B (zh) 安全评估方法、装置、计算机系统和介质
CN111858878B (zh) 从自然语言文本中自动提取答案的方法、系统及存储介质
CN112418320B (zh) 一种企业关联关系识别方法、装置及存储介质
CN111639186A (zh) 动态嵌入投影门控的多类别多标签文本分类模型及装置
CN112101042A (zh) 文本情绪识别方法、装置、终端设备和存储介质
CN112100377A (zh) 文本分类方法、装置、计算机设备和存储介质
CN112818123A (zh) 一种文本的情感分类方法
CN111709225A (zh) 一种事件因果关系判别方法、装置和计算机可读存储介质
CN110909768A (zh) 一种标注数据获取方法及装置
US20230121404A1 (en) Searching for normalization-activation layer architectures
CN117610567A (zh) 一种基于ERNIE3.0_Att_IDCNN_BiGRU_CRF的命名实体识别算法
CN116257601A (zh) 一种基于深度学习的违法词库构建方法及系统
CN112884053B (zh) 基于图文混合特征的网站分类方法、系统、设备及介质
US20220383195A1 (en) Machine learning algorithm search
Sheng et al. Can image captioning help passage retrieval in multimodal question answering?
CN115269833A (zh) 基于深度语义和多任务学习的事件信息抽取方法及系统
WO2021159101A1 (en) Fine-grained stochastic neural architecture search
CN117436457B (zh) 反讽识别方法、装置、计算设备及存储介质
CN116304058B (zh) 企业负面信息的识别方法、装置、电子设备及存储介质
US20240220768A1 (en) Optimizing off-chip memory accesses on a neural network hardware accelerator
US20220092260A1 (en) Information output apparatus, question generation apparatus, and non-transitory computer readable medium
CN116595981A (zh) 实体抽取方法、装置、设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant