CN110609898A - 一种面向不平衡文本数据的自分类方法 - Google Patents
一种面向不平衡文本数据的自分类方法 Download PDFInfo
- Publication number
- CN110609898A CN110609898A CN201910800288.3A CN201910800288A CN110609898A CN 110609898 A CN110609898 A CN 110609898A CN 201910800288 A CN201910800288 A CN 201910800288A CN 110609898 A CN110609898 A CN 110609898A
- Authority
- CN
- China
- Prior art keywords
- word
- text data
- data
- text
- words
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种面向不平衡文本数据的自分类方法。本发明为一种不完备专利自动标引方法,属于大数据的人工智能分类领域。该方法包含以下步骤:S1:选择文本数据源;S2:采用词向量技术进行向量训练,生成词库;S3:对数据进行预处理;S4:结合词库,对实验集的文本特征进行提取,建立带有Focal Loss的Bi‑LTSM的平衡样本数据的特征模型;S5:结合平衡样本数据的特征模型,逐一对测试集的文本进行分类。本发明利用词向量技术建立词库,通过平衡样本数据的特征模型自动提取文本数据特征,能够从上下文理解文本,解决文本不平衡问题,更加准确的完成文本数据的自分类任务,有利于构建大数据的智能分析决策系统,有利于对资源的有效整合、深度分析和挖掘及应用模式创新研究。
Description
技术领域
本发明涉及一种面向不平衡文本数据的自分类方法,属于大数据的人工智能分类领域,尤其适用于大规模的不平衡文本的分类处理。
背景技术
在大数据时代,对文本数据的有效收集、整理、挖掘分析和应用,可以为客户提供第一手的数据分析,为用户推送有效的咨询信息,对企事业研发人员发现新产品、提供决策支持、加速研发进程等方面起到至关重要的作用。因而,在互联网+发展的大趋势下,如何利用文本大数据的价值提升我国的社会服务工作和企业在产品研发方面的科技创新能力及战略决策效率,具有非常重要的社会效益和经济价值。
目前,对于文本数据的分类工作更多的还是依靠人工分类或者强约束策略式分类方法,所谓的策略式分类往往是领域专家依靠自身经验制定的关键词匹配规则,来对文本数据进行简单的分类。虽然这些方法都能够在一定程度上对文本数据达到分类的目的,但是人工分类方法效率低下,人力资源成本过高,而强策略式分类方法受限于领域专家的知识,虽然有一定的准确率保障,但查全率往往表现很不理想。
当前互联网中的各类文本数据在文本数量上参差不齐,差距较大,这样的不平衡会导致小样本数据特征被大样本数据特征淹没,进而被所采用的机器学习模型所忽略,导致分类模型无法对小样本类别进行准确的分类判断。已有的机器学习分类方法,如支持向量机(SVM)、随机森林、长短期记忆网络(LTSM)等分类器,虽然能够实现文本数据的自动分类,但其分类效率低下,还缺乏对不平衡数据的有效处理,因而结果不够准确。目前文本分类中的不平衡问题通常使用过采样和欠采样的方法,但是这两种方法对数据进行直接操作,使用不当会使得结果失去真实性。同时,现有的分类方法多将文本转化为单词组成的一维向量输入,这样的方式最为简便,但难免会丢失一些上下文的语句关系。
发明内容
有鉴于此,本发明提供一种面向不平衡文本数据的自分类方法,通过建立一个全新的二维文本分类模型,不仅能够针对不平衡文本数据自动提取文本数据句子特征,提高分类的准确率和查全率,更加准确的完成不平衡文本数据的自主分类任务。
为达到上述目的,本发明提供如下技术方案:
一种面向不平衡文本数据的自分类方法,包括如下步骤:
S1:选择文本数据源;
S2:采用词向量技术进行向量训练,生成词库;
S3:对数据进行预处理;
S4:结合词库,对实验集的文本特征进行提取,建立平衡样本数据的特征模型;
S5:结合平衡样本数据的特征模型,逐一对测试集的文本进行分类。
进一步,步骤S1根据所选取的数据源,将其分为实验集和测试集两部分,其中,实验集为已分类的文本数据,测试集为未分类文本数据。
进一步,步骤S2具体为:对S1所选的数据源所有的文本,采用Word2ver(word tovector)或GloVe(Global vectors for word representation)等NLP(natural languageprocess,自然语言处理)词向量技术,选择固定的词向量长度n来对每个单词或者单字进行词向量训练,生成词库,其中n为人为选取的正整数。
进一步,步骤S3具体为:首先,将文本数据中的无用字符、停用词和低频词剔除,保留其中能够代表单句结尾的“。”、“!”、“?”等句子符号;其次,采用NLTK(natural languagetool kit,自然语言处理工具包)库中的ISRI词干提取器等词干提取器对文本数据进行词干化,即将词语除去变化或衍生形式,转化为词干或原型形式的词标准化;然后,通过识别句子符号,将每个文本拆分为若干个句子,每个句子按顺序保留其中前n个英文单词或中文单字,对不足n个单词或中文单字的句子的缺失值进行随机补齐;最后,将每个句子的n个英文单词或中文单字对应事先训练好的词库,将文本句子转化为词向量的数值形式。
进一步,步骤S4具体为:根据用户需求,确定文本分类的类别,以词库的词向量作为输入建立平衡样本数据的特征模型;将实验集的文本数据按一定比例分成训练集和验证集,采用训练集对平衡样本数据的特征模型参数进行训练,并用验证集对模型进行评估。
更进一步,所述的平衡样本数据的特征模型以词库的词向量的数值形式作为输入由一个2D卷积神经网络(2D-CNN)串联一个双向的长短时记忆网络(Bi-LSTM)连接一个全连接层构成;所述的全连接层中的每个神经元使用能够平衡文本数据的损失函数;所述的损失函数为中心损失函数(Focal Loss)。
进一步,步骤S5具体为:将测试集文本数据经过S3的预处理后,结合平衡样本数据的特征模型,逐一对测试集的文本数据进行分类。
本发明的有益效果在于:本发明提供了一种面向不平衡文本数据的自分类方法,利用词向量技术建立词库,通过平衡样本数据的特征模型自动提取文本数据特征,能够从上下文理解文本,解决文本不平衡问题,更加准确的完成文本数据的自分类任务,并且在模型中创新的使用了二维卷积神经网络提取文本中的特征,不同于传统的一维单词输入,本发明使用句子结合单词的二维输入,能够从句子到单词理解整个文本,提高准确率。
附图说明
为了使本发明的目的、技术方案,本发明提供如下附图进行说明:
图1为一种面向不平衡文本数据的自分类方法流程图;
图2为本发明实施例1结构图;
图3为本发明实施例1的医药专利英文文本数据柱状图;
图4为本发明实施例1的中心损失函数示意图。
具体实施方式
为使本发明的目的和技术方案更加清晰明白,下面结合附图及实施例对本发明进行详细的描述。
实施例1:为了解决缺乏面向医药专利文本的特定知识发现和挖掘模型及方法等问题,某公司提供423996条已分类的医药专利英文文本,如图3所示,数据分布存在明显的不平衡性,现有的技术在处理该专利分类问题上都没有关注数据不平衡问题,针对不平衡专利文本数据分类问题,本实施例提供“一种面向不平衡医药类英文专利文本数据的自分类方法”,结合图2,该方法包含以下步骤:
步骤一:
将该公司提供423996条已分类的医药专利英文文本数据按照8∶2的比例作为实验集和测试集,其分类结果如图3所示,再按照8∶2的比例将实验集分为训练集和验证集,在这里我们并不对专利本身做太多完备性约束,只要求专利本身具备摘要、权利要求书、说明书三项中的任一项即可作为训练数据。
步骤二:词库生成;
对步骤一所选的数据源所有的文本,采用GloVe(Global vectors for wordrepresentation)这种NLP(natural language process,自然语言处理)的词向量技术,选择词向量长度为15来对每个单词或者单字进行词向量训练,生成N个15维词向量构成的词库,其中N为专利文本数据中不同单词或者单字的数量。
步骤三:对数据进行预处理;
首先,将文本数据中的无用字符、停用词和低频词剔除,保留其中能够代表单句结尾的“。”、“!”、“?”等句子符号;
其次,根据NLP的词干提取技术,采用采用维度为300的ISRI词干提取器对数据进行词干化,得到词标准化后的数据集;
然后,通过识别句子符号,将每个文本拆分为若干个句子,每个句子按顺序保留其中前15个英文单词或中文单字,对不足15个单词的句子的缺失值进行随机补齐;
最后,将每个句子的15个英文单词对应事先训练好的词库,将文本句子转化为词向量的数值形式。
步骤四:对专利特征进行提取;
首先,按照用户需求,确定划分专利类别;如图3所示,已知,使用的医药专利数据集分为以下12类:NME(化合物),NDT(药物衍生物),MIP(医药中间体),NCF(晶型),NFP(制剂),NCP(组合物),NUS(用途),NSP(制备方法),NAM(诊断、分析与测定专利),DDD(给药装置),BTN(生物技术专利),BLA(生物药)。
然后,结合步骤二生成的词向量作为输入建立平衡样本数据的特征模型,所述的平衡样本数据的特征模型为双向的长短时记忆网络(Bi-LSTM)连接一个全连接层构成;结合图3,所述的全连接层中的每个神经元后连接一个损失函数;所述的损失函数为中心损失函数(Focal Loss);其中,本实施例中取中心损失函数的两个自选参数:可调的focusing参数λ=2和权重因子α=0.4。
最后,采用训练集对平衡样本数据的特征模型参数进行训练使得中心损失函数值最小,并用验证集对模型进行评估。
步骤五:将测试集专利经过步骤三的预处理后,结合平衡样本数据的特征模型,逐一对测试集的专利进行分类。
本实施例分别采用传统的支持向量机(SVM)和带传统的交叉熵损失函数的Bi-LSTM分类器对专利文本数据分类做对比实验。实验结果如表1所示,其中,评价该分类结果的标准为查准率(Precision)和查全率(Recall),结合表2,有Precision=TP/(TP+FP),Precision=TP/(TP+FN)。
表1本发明方法对医药专利文本的分类结果
表2分类结果判定说明表
由表1可见,本发明方法在查准率和查全率上在每一个分类上几乎都优于或接近于现有分类方法,平均值分别为98.6%和97.3%,效果较好。
实施例2:目前互联网上充斥着大量的新闻文本消息,但很多新闻没有进行有效的分类管理,浪费了大量读者的时间,而当前网络中的新闻由于关注热点的不一样存在严重的数据不平衡问题,针对用户的兴趣,给用户提供特定分类的新闻信息,本发明提供“一种面向不平衡新闻数据的自分类方法”,结合图1,包含以下步骤:
步骤一:
通过爬虫软件等工具,在互联网中获取已有分类的新闻信息,例如在百度新闻网站获取财经、体育等已分类的新闻文本信息。根据所选取的数据源,将其分为实验集和测试集两部分,其中,实验集为已分类的新闻文本数据,测试集可以为未分类新闻文本数据也可以为已分类的新闻文本数据。
步骤二:
对步骤一所选的数据源所有的新闻文本,分别采用Word2ver(word to vector)和GloVe(Global vectors for word representation)等NLP(natural language process,自然语言处理)的词向量技术,选择固定的词向量长度n来对每个单词或者单字进行词向量训练,生成词库,其中n为人为选取的正整数。
步骤三:
首先,将新闻文本数据中的无用字符、停用词和低频词剔除;然后,采用NLTK(natural language tool kit,自然语言处理工具包)库中的ISRI词干提取器等词干提取器对新闻文本数据进行词干化,即将词语除去变化或衍生形式,转化为词干或原型形式的词标准化;然后,通过识别句子符号,将每个文本拆分为若干个句子,每个句子按顺序保留其中前n个英文单词或中文单字,对不足n个单词或中文单字的句子的缺失值进行随机补齐;最后,将每个句子的n个英文单词或中文单字对应事先训练好的词库,将文本句子转化为词向量的数值形式。
步骤四:
根据用户需求,确定新闻文本分类的类别,分别以步骤二中的词库和步骤三的词向量数值形式作为输入建立由一个2D卷积神经网络(2D-CNN)串联一个双向的长短时记忆网络(Bi-LSTM)连接一个全连接层构成的平衡样本数据的特征模型;将实验集的新闻文本数据按一定比例分成训练集和验证集,采用训练集对平衡样本数据的特征模型参数进行训练,并用验证集对模型进行评估,选择效果较好的词库和平衡样本数据的特征模型。
步骤五:
将测试集专利经过步骤三的预处理后,结合效果最优的词库和平衡样本数据的特征模型,逐一对测试集的专利进行分类,并推送给用户感兴趣类型的新闻。
最后说明的是,以上优选实施例仅用以说明本发明的技术方案而非限制,尽管通过上述优选实施例已经对本发明进行了详细的描述,但本领域技术人员应当理解,可以在形式上和细节上对其做出各种各样的改变,而不偏离本发明权利要求书所限定的范围。
Claims (7)
1.一种面向不平衡文本数据的自分类方法,其特征在于,该方法包含以下步骤:
S1:选择文本数据源;
S2:采用词向量技术进行向量训练,生成词库;
S3:对数据进行预处理;
S4:结合词库,对实验集的文本特征进行提取,建立平衡样本数据的特征模型;
S5:结合平衡样本数据的特征模型,逐一对测试集的文本进行分类。
2.根据权利要求1所述的一种面向不平衡文本数据的自分类方法,其特征在于,所述的步骤S1根据所选取的数据源,将其分为实验集和测试集两部分,其中,实验集为已分类的文本数据,测试集为未分类文本数据。
3.根据权利要求1所述的一种面向不平衡文本数据的自分类方法,其特征在于,所述的步骤S2具体为:对S1所选的数据源所有的文本,采用自然语言处理的词向量技术,选择固定的词向量长度n来对每个英文单词或者中文单字进行词向量训练,生成词库,其中n为人为选取的正整数。
4.根据权利要求1所述的一种面向不平衡文本数据的自分类方法,其特征在于,所述的步骤S3具体为:首先,将文本数据中的无用字符、停用词和低频词剔除,保留其中能够代表单句结尾的“。”、“!”、“?”等句子符号;其次,采用词干提取器对文本数据进行词干化,即将词语除去变化或衍生形式,转化为词干或原型形式的词标准化;然后,通过识别句子符号,将每个文本拆分为若干个句子,每个句子按顺序保留其中前n个英文单词或中文单字,对不足n个单词或中文单字的句子的缺失值进行随机补齐;最后,将每个句子的n个英文单词或中文单字对应事先训练好的词库,将文本句子转化为词向量的数值形式。
5.根据权利要求1所述的一种面向不平衡文本数据的自分类方法,其特征在于,所述步骤S4具体为:根据用户需求,确定文本分类的类别,建立平衡样本数据的特征模型;将实验集的文本数据按一定比例分成训练集和验证集,采用训练集对平衡样本数据的特征模型参数进行训练,并用验证集对模型进行评估。
6.根据权利要求5所述的平衡样本数据的特征模型,其特征在于,所述的平衡样本数据的特征模型以词库的词向量的数值形式作为输入,由一个2D卷积神经网络串联一个双向的长短时记忆网络,最后再串联一个全连接层构成;所述的全连接层中的每个神经元使用能够平衡文本数据的损失函数;所述的损失函数为中心损失函数。
7.根据权利要求1所述的一种面向不平衡文本数据的自分类方法,其特征在于,所述步骤S5具体为:将测试集文本数据经过S3的预处理后,结合平衡样本数据的特征模型,逐一对测试集的文本数据进行分类。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910800288.3A CN110609898B (zh) | 2019-08-19 | 2019-08-19 | 一种面向不平衡文本数据的自分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910800288.3A CN110609898B (zh) | 2019-08-19 | 2019-08-19 | 一种面向不平衡文本数据的自分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110609898A true CN110609898A (zh) | 2019-12-24 |
CN110609898B CN110609898B (zh) | 2023-05-05 |
Family
ID=68890657
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910800288.3A Active CN110609898B (zh) | 2019-08-19 | 2019-08-19 | 一种面向不平衡文本数据的自分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110609898B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111984762A (zh) * | 2020-08-05 | 2020-11-24 | 中国科学院重庆绿色智能技术研究院 | 一种对抗攻击敏感的文本分类方法 |
CN112199503A (zh) * | 2020-10-28 | 2021-01-08 | 南京信息工程大学 | 一种基于特征增强的非平衡Bi-LSTM的中文文本分类方法 |
CN114722189A (zh) * | 2021-12-15 | 2022-07-08 | 南京审计大学 | 一种预算执行审计中多标记不平衡文本分类方法 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107301246A (zh) * | 2017-07-14 | 2017-10-27 | 河北工业大学 | 基于超深卷积神经网络结构模型的中文文本分类方法 |
CN108364028A (zh) * | 2018-03-06 | 2018-08-03 | 中国科学院信息工程研究所 | 一种基于深度学习的互联网网站自动分类方法 |
CN109241530A (zh) * | 2018-08-29 | 2019-01-18 | 昆明理工大学 | 一种基于N-gram向量和卷积神经网络的中文文本多分类方法 |
US20190034823A1 (en) * | 2017-07-27 | 2019-01-31 | Getgo, Inc. | Real time learning of text classification models for fast and efficient labeling of training data and customization |
CN109344256A (zh) * | 2018-10-12 | 2019-02-15 | 中国科学院重庆绿色智能技术研究院 | 一种新闻稿件主题分类及审核方法 |
CN109461161A (zh) * | 2018-10-22 | 2019-03-12 | 北京连心医疗科技有限公司 | 一种基于神经网络对医学影像中人体器官进行分割的方法 |
CN109471945A (zh) * | 2018-11-12 | 2019-03-15 | 中山大学 | 基于深度学习的医疗文本分类方法、装置及存储介质 |
CN109582794A (zh) * | 2018-11-29 | 2019-04-05 | 南京信息工程大学 | 基于深度学习的长文分类方法 |
CN109710761A (zh) * | 2018-12-21 | 2019-05-03 | 中国标准化研究院 | 基于注意力增强的双向lstm模型的情感分析方法 |
CN109726299A (zh) * | 2018-12-19 | 2019-05-07 | 中国科学院重庆绿色智能技术研究院 | 一种不完备专利自动标引方法 |
-
2019
- 2019-08-19 CN CN201910800288.3A patent/CN110609898B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107301246A (zh) * | 2017-07-14 | 2017-10-27 | 河北工业大学 | 基于超深卷积神经网络结构模型的中文文本分类方法 |
US20190034823A1 (en) * | 2017-07-27 | 2019-01-31 | Getgo, Inc. | Real time learning of text classification models for fast and efficient labeling of training data and customization |
CN108364028A (zh) * | 2018-03-06 | 2018-08-03 | 中国科学院信息工程研究所 | 一种基于深度学习的互联网网站自动分类方法 |
CN109241530A (zh) * | 2018-08-29 | 2019-01-18 | 昆明理工大学 | 一种基于N-gram向量和卷积神经网络的中文文本多分类方法 |
CN109344256A (zh) * | 2018-10-12 | 2019-02-15 | 中国科学院重庆绿色智能技术研究院 | 一种新闻稿件主题分类及审核方法 |
CN109461161A (zh) * | 2018-10-22 | 2019-03-12 | 北京连心医疗科技有限公司 | 一种基于神经网络对医学影像中人体器官进行分割的方法 |
CN109471945A (zh) * | 2018-11-12 | 2019-03-15 | 中山大学 | 基于深度学习的医疗文本分类方法、装置及存储介质 |
CN109582794A (zh) * | 2018-11-29 | 2019-04-05 | 南京信息工程大学 | 基于深度学习的长文分类方法 |
CN109726299A (zh) * | 2018-12-19 | 2019-05-07 | 中国科学院重庆绿色智能技术研究院 | 一种不完备专利自动标引方法 |
CN109710761A (zh) * | 2018-12-21 | 2019-05-03 | 中国标准化研究院 | 基于注意力增强的双向lstm模型的情感分析方法 |
Non-Patent Citations (6)
Title |
---|
DWAIPAYAN ROY 等: "Word Vector Compositionality based Relevance Feedback using Kernel Density Estimation", pages 1281 * |
MENGZHEN LUO 等: "A Deep Self-learning Classification Framework for Incomplete Medical Patents with Multi-label", 《ICNC-FSKD 2019: ADVANCES IN NATURAL COMPUTATION, FUZZY SYSTEMS AND KNOWLEDGE DISCOVERY》 * |
MENGZHEN LUO 等: "A Deep Self-learning Classification Framework for Incomplete Medical Patents with Multi-label", 《ICNC-FSKD 2019: ADVANCES IN NATURAL COMPUTATION, FUZZY SYSTEMS AND KNOWLEDGE DISCOVERY》, vol. 1075, 7 November 2019 (2019-11-07), pages 566 * |
罗梦珍: "基于深度学习的医药专利自分类模型研究", 《中国优秀硕士学位论文全文数据库 医药卫生科技辑》 * |
罗梦珍: "基于深度学习的医药专利自分类模型研究", 《中国优秀硕士学位论文全文数据库 医药卫生科技辑》, no. 12, 15 December 2020 (2020-12-15), pages 054 - 24 * |
胡满满 等: "基于动态采样和迁移学习的疾病预测模型", pages 2339 - 2354 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111984762A (zh) * | 2020-08-05 | 2020-11-24 | 中国科学院重庆绿色智能技术研究院 | 一种对抗攻击敏感的文本分类方法 |
CN111984762B (zh) * | 2020-08-05 | 2022-12-13 | 中国科学院重庆绿色智能技术研究院 | 一种对抗攻击敏感的文本分类方法 |
CN112199503A (zh) * | 2020-10-28 | 2021-01-08 | 南京信息工程大学 | 一种基于特征增强的非平衡Bi-LSTM的中文文本分类方法 |
CN112199503B (zh) * | 2020-10-28 | 2023-04-28 | 南京信息工程大学 | 一种基于特征增强的非平衡Bi-LSTM的中文文本分类方法 |
CN114722189A (zh) * | 2021-12-15 | 2022-07-08 | 南京审计大学 | 一种预算执行审计中多标记不平衡文本分类方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110609898B (zh) | 2023-05-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106096727B (zh) | 一种基于机器学习的网络模型构造方法及装置 | |
CN110609898A (zh) | 一种面向不平衡文本数据的自分类方法 | |
CN109726744A (zh) | 一种网络流量分类方法 | |
Yang et al. | Deep learning for web services classification | |
CN109101479A (zh) | 一种用于中文语句的聚类方法及装置 | |
CN110311829A (zh) | 一种基于机器学习加速的网络流量分类方法 | |
CN103336766A (zh) | 短文本垃圾识别以及建模方法和装置 | |
CN105930416A (zh) | 一种用户反馈信息的可视化处理方法及系统 | |
CN110472257A (zh) | 一种基于句对的机器翻译引擎测评优选方法及系统 | |
CN105893606A (zh) | 文本分类方法和装置 | |
CN106055661A (zh) | 基于多Markov链模型的多兴趣资源推荐方法 | |
CN107145573A (zh) | 人工智能客服机器人的问题解答方法及系统 | |
Prata et al. | Social data analysis of Brazilian's mood from Twitter | |
Parashar et al. | An efficient classification approach for data mining | |
CN109871686A (zh) | 基于图标表示和软件行为一致性分析的恶意程序识别方法及装置 | |
CN110910175A (zh) | 一种旅游门票产品画像生成方法 | |
CN109726299B (zh) | 一种不完备专利自动标引方法 | |
Sitorus et al. | Sensing trending topics in twitter for greater Jakarta area | |
Doshi et al. | Zero-shot action recognition with transformer-based video semantic embedding | |
CN107871055A (zh) | 一种数据分析方法和装置 | |
CN109543049B (zh) | 一种针对写作特点自动推送素材的方法及系统 | |
CN104123393A (zh) | 一种短信文本的分类方法和系统 | |
CN104298752B (zh) | 基于web网页资源的程序代码缩略词的自动扩充方法 | |
Sun et al. | Joint topic-opinion model for implicit feature extracting | |
CN110825852A (zh) | 面向长文本的语义匹配方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |