CN115455177A - 基于混合样本空间的不平衡化工文本数据增强方法及装置 - Google Patents
基于混合样本空间的不平衡化工文本数据增强方法及装置 Download PDFInfo
- Publication number
- CN115455177A CN115455177A CN202210920360.8A CN202210920360A CN115455177A CN 115455177 A CN115455177 A CN 115455177A CN 202210920360 A CN202210920360 A CN 202210920360A CN 115455177 A CN115455177 A CN 115455177A
- Authority
- CN
- China
- Prior art keywords
- sample
- text
- samples
- word vector
- sample space
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 239000000126 substance Substances 0.000 title claims abstract description 36
- 238000000034 method Methods 0.000 title claims abstract description 27
- 230000002708 enhancing effect Effects 0.000 title claims abstract description 11
- 239000013598 vector Substances 0.000 claims abstract description 60
- 230000003068 static effect Effects 0.000 claims abstract description 22
- 238000003889 chemical engineering Methods 0.000 claims description 18
- 238000004590 computer program Methods 0.000 claims description 7
- 238000004140 cleaning Methods 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 3
- 239000000203 mixture Substances 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000002679 ablation Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3347—Query execution using vector based model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Machine Translation (AREA)
Abstract
本发明公开一种基于混合样本空间的不平衡化工文本数据增强方法及装置,首先按预设规则从语料集中获得两个一级标签不同的化工文本样本,将两个样本依次输入动态词向量编码器中,获得文本样本对输出动态词向量;将两个样本根据预设静态词向量生成模型依次获得对应的静态词向量,然后对上述词向量分别展开样本自插值混合;然后随机选择与文本样本位于同一大类样本空间下属不同小样本类别空间中的文本样本生成的词向量与自插值得到的词向量展开层次样本空间插值,输出获得数据增强后的词向量,应用于下游分类任务中。本发明利用多标签数据同一层级类别之间样本的依赖关系,降低小样本所属类别分类难度,进而有效提升不平衡样本数据分类精度。
Description
技术领域
本发明属于自然语言文本处理技术领域,具体涉及一种基于混合样本空间的不平衡化工文本数据增强方法及装置。
背景技术
自然语言处理是信息处理和数据研究的重要方向,也是许多关键技术的重要基础。现如今互联网通信已经成为文本产生的主要方式,传统的纸质文档正在快速电子化,各大互联网平台无时无刻都在生成海量的文本,这使得人们可以通过网络爬虫等技术搜集自己所需要的数据建立数据集用于相关自然语言处理任务的研究。
然而,并不是所有领域的数据都能够轻易被搜集,受限于数据本身领域背景特点和个性化特点,很多自然科学领域数据往往难以被搜集,建立数据集是一项非常耗费精力的工作。现如今人工智能领域已经迈入了数据驱动时代,数据很大程度上能够决定训练得到的模型性能好坏,在面对小样本数据集时,对模型的挑战往往更大,海量的数据往往能训练出更优秀的模型,例如BERT、GPT等相关预训练语言模型就是使用海量数据训练得到的。
对于背景特殊的化工领域多标签小样本数据集,通常可以采取数据增强的方法来扩充数据集,从而提升模型性能,现如今主流的数据增强方法通常是同义替换、随机删减、随机插入、随机替换、mixup或者生成对抗等。但是,针对化工领域小样本数据集中的不平衡数据集,还缺乏较为有效的数据增强方法,上述方法应用于多标签不平衡数据集时,无法有效关注到小类别数据一级多标签之间的依赖关系,并且数据增强后会进一步加剧数据长尾分布问题。
发明内容
发明目的:本发明所要解决的技术问题是提供一种基于混合样本空间的不平衡化工文本数据增强方法及装置,有效考虑到多标签数据样本空间中同一层级类别之间样本的依赖关系,降低少样本所属类别分类难度,进而有效提升不平衡样本数据分类精度。
技术方案:本发明提出一种基于混合样本空间的不平衡化工文本数据增强方法,具体包括以下步骤:
(1)输入不平衡化工产品语料集,对语料集中的化工产品文本样本进行数据清洗以及预处理;
(2)统计不平衡化工产品语料集中各类别文本样本的频率,计算实际状态下每类一级标签文本样本在总语料集中的占比;计算数据均匀分布时一级标签下每类文本样本在总语料集中的占比;
(3)从化工产品语料集中获得不同类别样本空间下的化工文本样本对(X1,Y1),(X2,Y2),预设Y1标签所属样本标签大类别为主样本空间m,其余样本所属类别样本空间为副样本空间n;将获得的化工文本样本对分别输入动态词向量编码器中,获得文本样本对输出动态词向量WD1和WD2;将获得的化工文本样本对输入静态词向量生成模型获得对应的静态词向量WS1和WS2;
(4)对化工文本样本对生成的动态词向量WD1和WD2与静态词向量WS1和WS2分别展开self-mixup样本自插值混合,获得插值混合后的词向量W1和W2及其对应的标签Y1和Y2;
(5)随机在主样本空间m中选择与文本样本(X1,Y1)位于同一大类别样本空间下属不同小样本类别空间中的文本样本(X3,Y3),并对X3应用不同于文本样本X1的静态词向量生成算法生成静态词向量W3及其对应的标签Y3,对步骤(3)生成的(W1,Y1),(W2,Y2)以及(W3,Y3)展开层次样本空间插值,输出获得原始化工文本样本数据增强后的词向量及其对应的标签
进一步地,步骤(3)所述动态词向量编码器为ELMo、GPT、BERT模型或者分别基于上述三种模型衍生的动态词向量算法模型。
进一步地,步骤(3)所述静态词向量生成模型为Word2Vec、Glove或FastText模型。
进一步地,所述步骤(4)实现过程如下:
W1=μ1WD1+(1-μ1)WS1
W2=μ2WD2+(1-μ2)WS2
其中,μ1和μ2表示从β分布获得的插值混合超参数。
进一步地,步骤(5)所述层次样本空间插值公式为:
其中,m和n分别表示主样本空间以及副样本空间,i和j表示主样本空间下属不同子样本空间,即一级标签相同,二级标签不相同的文本样本,λ表示从β分布获得的插值混合超参数,QA表示样本均衡时,各个一级标签样本在总样本数中所占比例,Q2表示样本(X2,Y2)所属一级标签在总样本数中的占比,表示不平衡系数。
基于相同的发明构思,本发明还提供一种基于混合样本空间的不平衡化工文本数据增强装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述计算机程序被加载至处理器时实现上述的基于混合样本空间的不平衡化工文本数据增强方法。
有益效果:与现有技术相比,本发明的有益效果:
1、本发明提出了一种self-mixup样本自插值混合方法,通过对同一样本不同词向量即动态词向量和静态词向量进行插值混合,得到更优秀的词向量表示,防止模型在训练时过于自信地预测标签,改善泛化能力差的问题,同时由于混合的词向量之一是动态词向量,可以始终跟随本发明所应用的实际模型训练而更新词向量表征的语义信息,进一步提升模型性能;
2、本发明提出了一种层次样本空间插值,通过self-mixup样本自插值混合方法使得单一样本生成的词向量表示获得更好的泛化性能,通过层次样本空间插值,让样本同时可以混合多标签样本空间下不同一级标签样本空间的样本以及同一大类别样本空间下属不同小样本类别空间中的文本样本,最终获得的数据增强得到的文本表示可以有效利用多标签文本中同级标签下样本之间的依赖关系;
3、本发明考虑到实际场景下化工领域文本数据增强中小样本数据集中样本不平衡问题,在层次样本空间插值中设计不平衡系数对插值权重进行修正,提升本发明在不平衡数据集中的性能。
附图说明
图1是本发明的流程图;
图2是数据增强流程图。
具体实施方式
下面结合附图对本发明作进一步详细说明。
本发明提出一种基于混合样本空间的不平衡化工文本数据增强方法,如图1所示,包括以下步骤:
步骤1:输入不平衡化工产品语料集,对语料集中的化工产品文本样本进行数据清洗以及预处理。
步骤2:统计不平衡化工产品语料集中各类别文本样本的频率,计算实际状态下一级标签下每类文本样本在总语料集中的占比;计算数据均匀分布时一级标签下每类文本样本在总语料集中的占比。
步骤3:从化工产品语料集中获得不同类别样本空间下的化工文本样本对(X1,Y1),(X2,Y2),预设Y1标签所属样本标签大类别为主样本空间m,其余样本所属类别样本空间为副样本空间n。将获得的化工文本样本对分别输入动态词向量编码器中,获得文本样本对输出动态词向量WD1和WD2;将获得的化工文本样本对根据静态词向量生成模型获得对应的静态词向量WS1和WS2。
实际应用当中,生成动态词向量的动态词向量编码器算法模型包括ELMo、GPT、BERT模型或者基于上述三种模型衍生的动态词向量算法模型,静态词向量生成算法包括应用Word2Vec、Glove以及FastText模型。
步骤4:对化工文本样本对生成的动态词向量WD1和WD2与静态词向量WS1和WS2分别展开self-mixup样本自插值混合,获得插值混合后的词向量W1和W2及其对应的标签Y1和Y2。
实际应用当中,针对化工样本对生成的动态词向量WD1和WD2与静态词向量WS1和WS2分别展开self-mixup样本自插值混合,获得插值混合后的词向量W1和W2的公式为:
W1=μ1WD1+(1-μ1)WS1
W2=μ2WD2+(1-μ2)WS
其中,μ1和μ2表示从β分布获得的插值混合超参数。
步骤5:随机在主样本空间m中选择与文本样本(X1,Y1)位于同一大类别样本空间下属不同小样本类别空间中的文本样本(X3,Y3),并对X3应用不同于文本样本X1的静态词向量生成算法生成静态词向量W3及其对应的标签Y3,对步骤3生成的(W1,Y1),(W2,Y2)以及(W3,Y3)展开层次样本空间插值,输出获得原始化工文本样本数据增强后的词向量及其对应的标签如图2所示。
实际应用当中,层次样本空间插值公式为:
其中,m和n分别表示主样本空间以及副样本空间,i和j表示主样本空间下属不同子样本空间,即一级标签相同,二级标签不相同的文本样本,λ表示从β分布获得的插值混合超参数,QA表示样本均衡时,各个一级标签样本在总样本数中所占比例,Q2表示样本(X2,Y2)所属一级标签在总样本数中的占比,表示不平衡系数。
实际应用当中,使用者可以根据实际情况,选择相应任务所需要的特征提取模型并在模型前端词向量生成部分应用本发明设计。
上述技术方案所设计基于混合样本空间的不平衡化工文本数据增强方法,在实际应用当中,执行包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,应用中,计算机程序被加载至处理器时,实现所设计基于混合样本空间的不平衡化工文本数据增强方法,获得原始化工文本样本数据增强后的词向量表示极其对应标签,并进行实际文本分类任务的应用。
实际应用当中,为了更好的说明本方法的可行性与有效性,将本发明所设计一种基于混合样本空间的不平衡化工文本数据增强方法应用于实际当中,对128051条多标签化工文本数据进行均匀采样构造了数据量为12801的不平衡小样本数据集,并对其进行多标签文本分类实验,下游模型分别选取了TextCNN、BiLSTM以及DPCNN模型,消融实验结果表明应用本发明设计方法生成的词向量的特征提取模型性能优于原始模型,F1值提升了0.43%~2.28%。
基于相同的发明构思,本发明还提供一种基于混合样本空间的不平衡化工文本数据增强装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述计算机程序被加载至处理器时实现上述的基于混合样本空间的不平衡化工文本数据增强方法。
上面结合附图对本发明的实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下做出各种变化。
Claims (6)
1.一种基于混合样本空间的不平衡化工文本数据增强方法,其特征在于,包括以下步骤:
(1)输入不平衡化工产品语料集,对语料集中的化工产品文本样本进行数据清洗以及预处理;
(2)统计不平衡化工产品语料集中各类别文本样本的频率,计算实际状态下每类一级标签文本样本在总语料集中的占比;计算数据均匀分布时一级标签下每类文本样本在总语料集中的占比;
(3)从化工产品语料集中获得不同类别样本空间下的化工文本样本对(X1,Y1),(X2,Y2),预设Y1标签所属样本标签大类别为主样本空间m,其余样本所属类别样本空间为副样本空间n;将获得的化工文本样本对分别输入动态词向量编码器中,获得文本样本对输出动态词向量WD1和WD2;将获得的化工文本样本对输入静态词向量生成模型获得对应的静态词向量WS1和WS2;
(4)对化工文本样本对生成的动态词向量WD1和WD2与静态词向量WS1和WS2分别展开self-mixup样本自插值混合,获得插值混合后的词向量W1和W2及其对应的标签Y1和Y2;
2.根据权利要求1所述的基于混合样本空间的不平衡化工文本数据增强方法,其特征在于,步骤(3)所述动态词向量编码器为ELMo、GPT、BERT模型或者分别基于上述三种模型衍生的动态词向量算法模型。
3.根据权利要求1所述的基于混合样本空间的不平衡化工文本数据增强方法,其特征在于,步骤(3)所述静态词向量生成模型为Word2Vec、Glove或FastText模型。
4.根据权利要求1所述的基于混合样本空间的不平衡化工文本数据增强方法,其特征在于,所述步骤(4)实现过程如下:
W1=μ1WD1+(1-μ1)WS1
W2=μ2WD2+(1-μ2)WS2
其中,μ1和μ2表示从β分布获得的插值混合超参数。
6.一种基于混合样本空间的不平衡化工文本数据增强装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述计算机程序被加载至处理器时实现根据权利要求1-5任一项所述的基于混合样本空间的不平衡化工文本数据增强方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210920360.8A CN115455177B (zh) | 2022-08-02 | 2022-08-02 | 基于混合样本空间的不平衡化工文本数据增强方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210920360.8A CN115455177B (zh) | 2022-08-02 | 2022-08-02 | 基于混合样本空间的不平衡化工文本数据增强方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115455177A true CN115455177A (zh) | 2022-12-09 |
CN115455177B CN115455177B (zh) | 2023-07-21 |
Family
ID=84297503
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210920360.8A Active CN115455177B (zh) | 2022-08-02 | 2022-08-02 | 基于混合样本空间的不平衡化工文本数据增强方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115455177B (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108985342A (zh) * | 2018-06-22 | 2018-12-11 | 华南理工大学 | 一种基于深度增强学习的不平衡分类方法 |
WO2019041629A1 (zh) * | 2017-08-30 | 2019-03-07 | 哈尔滨工业大学深圳研究生院 | 基于svm的高维不平衡数据分类方法 |
WO2020220539A1 (zh) * | 2019-04-28 | 2020-11-05 | 平安科技(深圳)有限公司 | 数据增量方法、装置、计算机设备及存储介质 |
US20210141995A1 (en) * | 2019-11-13 | 2021-05-13 | Salesforce.Com, Inc. | Systems and methods of data augmentation for pre-trained embeddings |
CN113076424A (zh) * | 2021-04-23 | 2021-07-06 | 昆明理工大学 | 一种面向不平衡文本分类数据的数据增强方法及系统 |
CN113435519A (zh) * | 2021-06-29 | 2021-09-24 | 平安科技(深圳)有限公司 | 基于对抗插值的样本数据增强方法、装置、设备及介质 |
CN113741964A (zh) * | 2021-08-01 | 2021-12-03 | 北京工业大学 | 一种面向代码可读性评估的数据增强方法 |
CN113780471A (zh) * | 2021-09-28 | 2021-12-10 | 京东城市(北京)数字科技有限公司 | 数据分类模型的更新及应用方法、设备、存储介质及产品 |
CN113901207A (zh) * | 2021-09-15 | 2022-01-07 | 昆明理工大学 | 一种基于数据增强和半监督学习的药物不良反应检测方法 |
-
2022
- 2022-08-02 CN CN202210920360.8A patent/CN115455177B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019041629A1 (zh) * | 2017-08-30 | 2019-03-07 | 哈尔滨工业大学深圳研究生院 | 基于svm的高维不平衡数据分类方法 |
CN108985342A (zh) * | 2018-06-22 | 2018-12-11 | 华南理工大学 | 一种基于深度增强学习的不平衡分类方法 |
WO2020220539A1 (zh) * | 2019-04-28 | 2020-11-05 | 平安科技(深圳)有限公司 | 数据增量方法、装置、计算机设备及存储介质 |
US20210141995A1 (en) * | 2019-11-13 | 2021-05-13 | Salesforce.Com, Inc. | Systems and methods of data augmentation for pre-trained embeddings |
CN113076424A (zh) * | 2021-04-23 | 2021-07-06 | 昆明理工大学 | 一种面向不平衡文本分类数据的数据增强方法及系统 |
CN113435519A (zh) * | 2021-06-29 | 2021-09-24 | 平安科技(深圳)有限公司 | 基于对抗插值的样本数据增强方法、装置、设备及介质 |
CN113741964A (zh) * | 2021-08-01 | 2021-12-03 | 北京工业大学 | 一种面向代码可读性评估的数据增强方法 |
CN113901207A (zh) * | 2021-09-15 | 2022-01-07 | 昆明理工大学 | 一种基于数据增强和半监督学习的药物不良反应检测方法 |
CN113780471A (zh) * | 2021-09-28 | 2021-12-10 | 京东城市(北京)数字科技有限公司 | 数据分类模型的更新及应用方法、设备、存储介质及产品 |
Non-Patent Citations (4)
Title |
---|
DAOJUN LIANG: "Multi-Sample Interpolation Training Method", ACM, pages 1 - 5 * |
董璇;蔡立军;: "基于不平衡类数据集分类的空间插值方法", 计算机仿真, no. 12, pages 175 - 179 * |
陈志;郭武;: "不平衡训练数据下的基于深度学习的文本分类", 小型微型计算机系统, no. 01, pages 1 - 5 * |
陈晨;王亚立;乔宇;: "任务相关的图像小样本深度学习分类方法研究", 集成技术, no. 03, pages 15 - 25 * |
Also Published As
Publication number | Publication date |
---|---|
CN115455177B (zh) | 2023-07-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Argyris et al. | An exploration of dynamical systems and chaos: completely revised and enlarged second edition | |
De Ryck et al. | Generic bounds on the approximation error for physics-informed (and) operator learning | |
Mihram | Simulation statistical foundations and methodology | |
Shapovalov et al. | TODOS as digital science-support environment to provide STEM-education | |
Penny | Mathematical foundations of hybrid data assimilation from a synchronization perspective | |
Sun | Stabilizing switching design for switched linear systems: A state-feedback path-wise switching approach | |
White et al. | Neural networks predict fluid dynamics solutions from tiny datasets | |
Han et al. | Identification of dynamical systems using a broad neural network and particle swarm optimization | |
Li et al. | Extracting stochastic dynamical systems with α-stable Lévy noise from data | |
Liu et al. | Flowgrad: Controlling the output of generative odes with gradients | |
Jin et al. | Order‐dependent LMI‐based stability and stabilization conditions for fractional‐order time‐delay systems using small gain theorem | |
Hastuti et al. | The guidance of technopreneurship using expert system computing approach based on entrepreneurial values and multiple intelligences | |
Tan et al. | Coping with data scarcity in aircraft engine design | |
CN115455177A (zh) | 基于混合样本空间的不平衡化工文本数据增强方法及装置 | |
CN115358477B (zh) | 一种作战想定随机生成系统及其应用 | |
Redman | Renormalization group as a Koopman operator | |
Xing et al. | Stability and dynamic transition of a toxin-producing phytoplankton-zooplankton model with additional food. | |
CN114579605A (zh) | 表格问答数据处理方法、电子设备及计算机存储介质 | |
Li et al. | Extracting stochastic dynamical systems with $\alpha $-stable L\'evy noise from data | |
Cheng et al. | Optimized selection of sigma points in the unscented kalman filter | |
Cerón-Figueroa et al. | Instance-based ontology matching for open and distance learning materials | |
Qi et al. | A Bio-Inspired Algorithm for Maximum Matching in Bipartite Graphs. | |
Bashirov et al. | Invariant Kalman filter for correlated wide band noises | |
CN112800336B (zh) | 一种基于简谐振动理论的在线社交网络用户行为预测方法 | |
Cao et al. | Stochastic differential equation approximations of generative adversarial network training and its long-run behavior |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
EE01 | Entry into force of recordation of patent licensing contract | ||
EE01 | Entry into force of recordation of patent licensing contract |
Application publication date: 20221209 Assignee: Jiangsu Kesheng Xuanyi Technology Co.,Ltd. Assignor: HUAIYIN INSTITUTE OF TECHNOLOGY Contract record no.: X2023980048436 Denomination of invention: An Unbalanced Chemical Text Data Enhancement Method and Device Based on Mixed Sample Space Granted publication date: 20230721 License type: Common License Record date: 20231129 |