CN115408495A - 基于多模态检索和关键词提取的社交文本增强方法与系统 - Google Patents
基于多模态检索和关键词提取的社交文本增强方法与系统 Download PDFInfo
- Publication number
- CN115408495A CN115408495A CN202211023077.1A CN202211023077A CN115408495A CN 115408495 A CN115408495 A CN 115408495A CN 202211023077 A CN202211023077 A CN 202211023077A CN 115408495 A CN115408495 A CN 115408495A
- Authority
- CN
- China
- Prior art keywords
- word
- sentence
- keywords
- model
- keyword
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 50
- 238000000605 extraction Methods 0.000 title claims abstract description 27
- 238000012549 training Methods 0.000 claims abstract description 49
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 38
- 230000007246 mechanism Effects 0.000 claims abstract description 16
- 239000013598 vector Substances 0.000 claims description 131
- 230000011218 segmentation Effects 0.000 claims description 12
- 230000002457 bidirectional effect Effects 0.000 claims description 11
- 238000012216 screening Methods 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 8
- 238000003860 storage Methods 0.000 claims description 6
- 238000005259 measurement Methods 0.000 claims description 4
- 230000009467 reduction Effects 0.000 claims description 4
- 238000004590 computer program Methods 0.000 claims description 3
- 230000000694 effects Effects 0.000 abstract description 6
- 238000010586 diagram Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 7
- 230000008901 benefit Effects 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 4
- 230000002708 enhancing effect Effects 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 238000007711 solidification Methods 0.000 description 4
- 230000008023 solidification Effects 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000013434 data augmentation Methods 0.000 description 3
- 238000010845 search algorithm Methods 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000013480 data collection Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 229910002056 binary alloy Inorganic materials 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000008014 freezing Effects 0.000 description 1
- 238000007710 freezing Methods 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000012466 permeate Substances 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 239000000047 product Substances 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 238000005303 weighing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9536—Search customisation based on social or collaborative filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/247—Thesauruses; Synonyms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computing Systems (AREA)
- Business, Economics & Management (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提出了一种基于多模态检索和关键词提取的社交文本增强方法,包括:S1、利用类别关键词抽取算法提取不同类别样本语句中的关键词;S2、采用RNN模型结合自注意力机制的方式,利用训练样本训练得到句子的生成模型,并根据所述训练样本对应类别的关键词控制所述生成模型的句子生成方向;S3、将原始语句输入到所述生成模型中,生成文本增强的第一生成语句;S4、基于多模态检索算法,判断所述第一生成语句是否存在所述关键词文件中的关键词,若是,则在所述第一生成语句中找出需要替换的关键词,并检索出所述需要替换的关键词的近义词进行替换,从而生成多个数据增强的第二生成语句。本申请具有能够对生成模型的生成方向、生成数量进行控制的效果。
Description
技术领域
本申请涉及文本数据增强的技术领域,具体涉及一种基于多模态检索和关键词提取的社交文本增强方法与系统。
背景技术
随着科技的进步以及人工智能技术的发展,AI模型开始逐渐渗透进人们的生活之中,其中文本多分类任务作为自然语言处理的一个重要分支在生产及生活的各个方面也有着重要应用。从文本多分类模型的训练过程来看,数据收集对最终的模型结果有着重要的导向作用,数据的好坏和丰富性在一定程度上决定了最终模型的效果,但是在收集数据的过程中常常会遇到以下几个问题,一是数据较少的问题,二是数据类别不均衡的问题,前者会导致模型训练陷入过拟合状态,后者则可能导致模型对少样本的数据的分类效果较差。
针对这类问题,研究者利用文本数据增强的方式来解决这一问题。数据增强一般分为三类:(1)EDA(easy data augmentation),简单数据增强,主要是通过词语的替换(同义词替换)和句子的加噪(词语随机插入,词语随机交换,词语随机删除,语法树操作)两种方式进行数据增强。(2)数据生成,如seq-to-seq、Language Models等生成模型。(3)对抗生成,利用GAN等对抗模型进行句子生成。
上述三个数据增强的方式可以简要概括为两个方面,第一种是有监督的数据增强,即EDA数据增强,这类增强方法有着数据生成迅速,生成方向可控的特性,但是由于词语的加噪只是原文基础上词语的修改,所以生成的句子有着内容单调,重复率高等特点。第二种是无监督的数据增强,即上述的对抗生成方法和seq-to-seq方法,这种生成方法的优点是生成句子内容丰富,易于训练,缺点是生成句子的数量为一对一的形式,即一条输入样本生成一条句子,并且句子生成的方向不可控。
因此,针对上述问题,本申请基于多模态检索和主题RNN模型提出了一种新的数据增强方法,解决了句子生成模型的生成方向、生成数量不可控的问题。
发明内容
为了解决上述技术问题,本申请提出了一种基于多模态检索和关键词提取的社交文本增强方法与系统。
根据本申请的第一方面,提出了一种基于多模态检索和关键词提取的社交文本增强方法,包括以下步骤:
S1、利用类别关键词抽取算法提取不同类别样本语句中的关键词,得到包含不同类别关键词集合的关键词文件;
S2、采用RNN模型结合自注意力机制的方式,利用训练样本训练得到句子的生成模型,并根据所述训练样本对应类别的所述关键词集合中的关键词控制所述生成模型的句子生成方向;
S3、将原始语句输入到所述生成模型中,生成文本增强的第一生成语句;以及
S4、基于多模态检索算法,判断所述第一生成语句是否存在所述关键词文件中的关键词,若是,则在所述第一生成语句中找出需要替换的关键词,并检索出所述需要替换的关键词的近义词进行替换,从而生成多个数据增强的第二生成语句。
优选的,所述步骤S1具体包括:
S11、将所述样本语句划分成2字词和3字词,利用凝固度算法计算每个词语的凝固度,并对凝固度低于预设阈值的词语再次进行分词操作,得到最终的词语集合;
S12、采用信息熵算法和TF-IDF算法衡量所述词语集合中每个词语的有效性,根据衡量结果筛选出关键词。
优选的,所述生成模型顺序包括嵌入层、双向LSTM模型、注意力层和单向LSTM模型,所述步骤S2具体包括:
S21、在所述嵌入层对所述训练样本分词后转化为第一词向量,在所述训练样本对应类别的所述关键词集合中随机选择关键词并转化为第二词向量;
S22、利用所述双向LSTM模型对所述第一词向量和所述第二词向量进行双向串联输出;
S23、所述注意力层对输出后的所述第一词向量和所述第二词向量进行注意力机制的降维并分别输出第一输出向量和第二输出向量;
S24、对所述第一输出向量和所述第二输出向量进行向量拼接得到编码向量,所述单向LSTM模型对所述编码向量进行解码生成句子。
优选的,在所述步骤S22中,所述第一词向量的最后一个编码输出和所述第二词向量进行自注意力机制联合编码。
优选的,所述步骤S4具体包括:
S41、利用收集的训练语料进行分词并转化为第三词向量,采用Skip-Gram模型对所述第三词向量进行训练得到词向量模型;
S42、将所述第一生成语句输入所述词向量模型,判断并找出所述需要替换的关键词,根据所述需要替换的关键词在所述词向量模型中找到对应的具体词向量;
S43、通过余弦相似度计算所述具体词向量与其它所述第三词向量的相似度,根据计算结果找出所述近义词。
优选的,所述步骤S43具体包括:根据所述关键词文件将所述词向量模型中的所述第三词向量划分成不同类别,利用哈希函数将不同类别的所述第三词向量保存到不同位置的哈希地址中,通过余弦相似度计算所述具体词向量与对应哈希地址内的所述第三词向量的相似度,根据计算结果找出所述近义词。
优选的,所述步骤S12中所述根据衡量结果筛选出关键词具体包括:对所述词语集合中的词语的信息熵值和TF-IDF值进行加权求和,求得所述词语集合中的词语的特征分数,根据所述特征分数筛选出关键词。
优选的,在所述步骤S4中,根据第一预设数量,在所述第一生成语句包含的所有关键词中,随机采样出所述第一预设数量的所述需要替换的关键词,根据第二预设数量,生成所述第二预设数量的所述第二生成语句。
根据本申请的第二方面,提出了一种基于多模态检索和关键词提取的社交文本增强系统,包括:
关键词文件获取模块,配置用于利用类别关键词抽取算法提取不同类别样本语句中的关键词,得到包含不同类别关键词集合的关键词文件;
生成模型构建模块,配置用于采用RNN模型结合自注意力机制的方式,利用训练样本训练得到句子的生成模型,并根据所述训练样本对应类别的所述关键词集合中的关键词控制所述生成模型的句子生成方向;
文本增强模块,配置用于将原始语句到输入所述生成模型中,生成文本增强的第一生成语句;
数据增强模块,配置用于基于多模态检索算法,判断所述第一生成语句是否存在所述关键词文件中的关键词,若是,则在所述第一生成语句中找出需要替换的关键词,并检索出所述需要替换的关键词的近义词进行替换,从而生成多个数据增强的第二生成语句。
根据本申请的第三方面,提出了一种计算机可读储存介质,其储存有计算机程序,所述计算机程序在被处理器执行时实施如本申请第一方面所述的基于多模态检索和关键词提取的社交文本增强方法。
本申请提出了一种基于多模态检索和关键词提取的社交文本增强方法与系统,利用RNN模型结合自注意力机制的方式构建了句子的生成模型,并且在生成模型中加入了关键词作为生成的辅助判断,控制的生成模型的句子生成方向,同时利用多模态检索算法进行了同义词替换的文本生成方式进行数据增强的补充手段,在一定程度上解决了生成模型生成数量不足的问题。
附图说明
包括附图以提供对实施例的进一步理解并且附图被并入本说明书中并且构成本说明书的一部分。附图图示了实施例并且与描述一起用于解释本申请的原理。将容易认识到其它实施例和实施例的很多预期优点,因为通过引用以下详细描述,它们变得被更好地理解。附图的元件不一定是相互按照比例的。同样的附图标记指代对应的类似部件。
图1是根据本申请实施例的基于多模态检索和关键词提取的社交文本增强方法流程图;
图2是根据本申请具体实施例的编码器的结构示意图;
图3是根据本申请具体实施例的译码器的结构示意图;
图4是根据本申请实施例的基于多模态检索和关键词提取的社交文本增强系统框图。
附图标记说明:1、关键词文件获取模块;2、生成模型构建模块;3、文本增强模块;4、数据增强模块。
具体实施方式
下面将详细描述本申请的各个方面的特征和示例性实施例,为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细描述。应理解,此处所描述的具体实施例仅被配置为解释本申请,并不被配置为限定本申请。对于本领域技术人员来说,本申请可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本申请的示例来提供对本申请更好的理解。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括......”限定的要素,并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。
根据本申请的第一方面,提出了一种基于多模态检索和关键词提取的社交文本增强方法。图1示出了根据本申请实施例的基于多模态检索和关键词提取的社交文本增强方法流程图,如图1所示,该方法包括以下步骤:
S1、利用类别关键词抽取算法提取不同类别样本语句中的关键词,得到包含不同类别关键词集合的关键词文件。
具体的,步骤S1包括:
S11、将样本语句划分成2字词和3字词,利用凝固度算法计算每个词语的凝固度,并对凝固度低于预设阈值的词语再次进行分词操作,得到最终的词语集合;
S12、采用信息熵算法和TF-IDF算法衡量词语集合中每个词语的有效性,根据衡量结果筛选出关键词。
在具体的实施例中,类别关键词抽取算法的原理部分如下:
为了后续生成模型的可控方向性和生成质量,首先提取各个类别样本语句的关键词。本申请采用凝固度算法、信息熵算法和TF-IDF算法提取关键词。本申请选用词语凝固度加信息熵的方式组织成词,这样做的好处是不依赖于现有词典,挖掘出的词语更具有代表性。假设w为备选词,w中字的合集wc={w1,w2,…wn},则词语w的凝固度计算公式为:
采用子集划分的方式将样本语句划分成2字词和3字词,利用凝固度算法计算每个词语的凝固度,并对凝固度低于预设阈值的词语再次进行分词操作。凝固度算法切分后为了进一步筛选词语的重要性,本申请采用信息熵算法和TF-IDF算法进行词语有效性的衡量。其中,信息熵的计算公式为:
E=min(EL,ER)
信息熵算法代表词语和周围字符的粘度,信息熵越小词语跟周围字符的粘度越高,代表词语成词的可能性越大。其中,wl代表词语的左邻词,wr代表代表词语的右邻词,EL代表词语与左邻字的信息熵,ER代表词语与右邻字的信息熵。TF-IDF算法也是衡量词语重要性程度的算法之一,TF-IDF算法的值越大代表词语越独特。TF-IDF算法的计算公式为:
其中,nk代表第k个词在文章中出现的次数,n代表所有词语的出现的次数和,N代表所有的文章数,Nk代表包含第k个词语的文章数。
将计算完成的词语信息熵的值和TF-IDF值进行加权求和,加权值均为0.5,求得词语的特征分数,将特征分数按照从大到小的顺序对词语倒排,人工筛选出各个类别中的前150个词语作为关键词,从而构建包含包含不同类别关键词集合的关键词文件。如下表1是部分类别关键词展示:
表1
继续参照图1,在步骤S1之后,
S2、采用RNN模型结合自注意力机制的方式,利用训练样本训练得到句子的生成模型,并根据训练样本对应类别的关键词集合中的关键词控制生成模型的句子生成方向。
具体的,生成模型顺序包括嵌入层、双向LSTM模型、注意力层和单向LSTM模型,步骤S2具体包括:
S21、在嵌入层对训练样本分词后转化为第一词向量,在训练样本对应类别的关键词集合中随机选择关键词并转化为第二词向量;
S22、利用双向LSTM模型对第一词向量和第二词向量进行双向串联输出;
S23、注意力层对输出后的第一词向量和第二词向量进行注意力机制的降维并分别输出第一输出向量和第二输出向量;
S24、对第一输出向量和第二输出向量进行向量拼接得到编码向量,单向LSTM模型对编码向量进行解码生成句子。
在具体的实施例中,生成模型的原理部分如下:
RNN模型作为常见的seq-to-seq模型之一,有着良好的数据生成效果,然而这种生成方式的缺点在于句子生成方向的不可控性,为了弥补这一缺点,本申请通过在生成模型中加入关键词来控制生成模型的句子生成方向。第一步,收集相似句语料作为生成模型的训练样本,本申请通过对目标数据集(分类的数据)采用回译的方式(中文-英文-中文)调用google翻译生成了1000w相似句对作为训练样本。第二步,构建生成模型,生成模型主要分为编码器贺译码器两个部分,其中,编码器主要包括嵌入层(embadding)、双向LSTM模型(Bi-LSTM)和注意力层(Attention),译码器主要包括单向LSTM模型(LSTM)。
图2示出了根据本申请具体实施例的编码器的结构示意图,如图2所示,编码器首先采用嵌入层(embadding)对训练样本分词后(w1,w2…wn)转化为第一词向量(h1,h2…hn),同时在训练样本对应类别的关键词集合中随机选择m个关键词并转化为第二词向量(k1,k2…km)。然后利用双向LSTM模型(Bi-LSTM)对第一词向量和第二词向量进行双向串联输出,其中,第一词向量的最后一个编码输出和第二词向量进行自注意力机制(self-attention)联合编码,有效连接原始文本和特征词的联系。注意力层对输出后的第一词向量和第二词向量进行注意力机制的降维并分别输出第一输出向量c1和第二输出向量c2,对第一输出向量和第二输出向量进行向量拼接得到编码向量s1。这样做的有利之处在于模型训练时与训练样本相关的关键词的权重会通过训练的迭代而增加,而与训练样本无关的关键词在模型迭代中自注意力所得的权重会逐渐减小,这样在一定程度上保证了最后生成的句子即和当前输入句子有关也和句子相关的关键词有关。
图3示出了根据本申请具体实施例的译码器的结构示意图,如图3所示,译码器对句子解码采用的是单向LSTM模型,<eos>为生成模型停止的标识符,一般情况下为了防止生成模型的迭代无法停止的情况,在训练时会将<eos>标识符放入Tag词语向量的空间内,并且将词语生成的长度控制在32以内,即模型停止的条件为①模型生成的长度大于32;②模型softmax的结果中出现<eos>标识符。
继续参照图1,在步骤S2之后,
S3、将原始语句输入到生成模型中,生成文本增强的第一生成语句。
在具体的实施例中,将原始语句输入到生成模型后生成第一生成语句,效果如下表2所示:
表2
继续参照图1,在步骤S3之后,
S4、基于多模态检索算法,判断第一生成语句是否存在关键词文件中的关键词,若是,则在第一生成语句中找出需要替换的关键词,并检索出需要替换的关键词的近义词进行替换,从而生成多个数据增强的第二生成语句。
具体的,步骤S4包括:
S41、利用收集的训练语料进行分词并转化为第三词向量,采用Skip-Gram模型对第三词向量进行训练得到词向量模型;
S42、将第一生成语句输入词向量模型,判断并找出需要替换的关键词,根据需要替换的关键词在词向量模型中找到对应的具体词向量;
S43、通过余弦相似度计算具体词向量与其它第三词向量的相似度,根据计算结果找出近义词。
在具体的实施例中,多模态检索算法的原理部分如下:
多模态检索算法是一种不同类别之间的关联检索方式,整个过程分为以下三个步骤:
步骤1:词向量模型训练。在收集的训练语料上进行分词并转化为第三词向量,利用Skip-Gram模型进行第三词向量的训练,从而得到最终词向量模型。Skip-gram模型是根据当前词与预测上下文的词语,通过预测词语的损失函数进行迭代训练当前词词向量的过程。本申请通过收集的训练语料通过分词,Skip-gram词向量训练等方式,构建了词向量模型。将第一生成语句输入到词向量模型中后,词向量模型可以找到第二生成语句中需要替换的关键词对应的具体词向量,同时词向量模型相当于一个近义词词典,后续可在近义词词典中找到具体词向量的近义词。
步骤2:多模态检索构建。根据关键词文件将词向量模型中的第三词向量划分成不同类别,利用哈希函数将不同类别的第三词向量保存到不同位置的哈希地址中。例如,将同类别的第三词向量转为4位二进制编码,再把二进制编码转为10进制将词向量存至15个地址中,加快词向量的检索速度。哈希转化函数为一个转换矩阵,目的是将词向量降维并将词向量的每个值变为01向量。具体的哈希公式如下:
其中,wN为输入词向量,W4×N T为哈希转移矩阵,词向量被转为01编码后,会根据二进制继续转为10进制进行分箱处理,例如词向量w1被哈希函数转为0011,那么就会被分到3这个地址中。
对不同类别的第三词向量进行分开存储,在于加快词语的检索效率,例如,原本词语需要在近义词词典的10000个第三词向量中搜索近义词,而通过哈希函数构建位置索引,词语只需在对应哈希地址的同类别的几个或数十个第三词向量中搜索近义词,从而大大的加快了检索效率。
在确定了需要替换的关键词对应的具体词向量和同类别的第三词向量后,利用余弦相似度计算具体词向量和同类别的第三词向量之间的相似度分数,按照从大到小的顺序排列,选取相似度大于0.8的词语作为相似词集合。设w1为词向量1,w2为词向量2,则两者的余弦相似度计算公式如下:
步骤3:根据预设的关键词替换数量(第一预设数量)和生成文本的数量(第二预设数量)利用多模态检索进行数据增强。首先输入第一预设数量和第二预设数量,根据步骤1的词向量模型对输入的第一生成语句进行分词操作,并对照关键词文件统计第一生成语句包含的关键词个数,按照第一预设数量对第一生成语句包含的所有关键词进行随机采样,得到需要替换的关键词以及其对应的具体词向量,对采样得到的具体词向量按照步骤2的方法进行句子的同义词替换操作,从而生成第二预设数量第二生成语句。需要说明的是,当某个具体词向量对应的近义词数量少于第二预设数量时,近义词会随机重复,从而满足能够生成第二预设数量的第二生成语句。
利用多模态检索技术和近义词词典(词向量模型)进行词语的替换,当词语在近义词词典检索不到时利用多模态技术进行近义词的补充,多模态检索在千万数据集的情况下检索性能达到秒级,能够很好的契合同义词替换的效率要求。句子生成的效果如表3所示:
表3
综上所述,通过多模态检索算法进行句子生成,作为生成模型的补充手段,这种生成方式有以下几个特点:一、由于多模态检索的词向量是跟据自有数据训练的,所以替换的近义词也更加适用于当前任务;二、近义词词典和多模态检索可以实现词语的准确替换生成,生成的句子也有更多的可解释性;三、基于多模态检索的数据生成能够有效控制句子的变种比例和数量,能够做到可控性数据增强。
根据本申请的第二方面,提出了一种基于多模态检索和关键词提取的社交文本增强系统,该系统是基于上述的方法搭建的。图4示出了根据本申请实施例的基于多模态检索和关键词提取的社交文本增强系统框图,如图4所示,该系统包括:
关键词文件获取模块1,配置用于利用类别关键词抽取算法提取不同类别样本语句中的关键词,得到包含不同类别关键词集合的关键词文件;
生成模型构建模块2,配置用于采用RNN模型结合自注意力机制的方式,利用训练样本训练得到句子的生成模型,并根据训练样本对应类别的关键词集合中的关键词控制生成模型的句子生成方向;
文本增强模块3,配置用于将原始语句输入到生成模型中,生成文本增强的第一生成语句;
数据增强模块4,配置用于基于多模态检索算法,判断第一生成语句是否存在关键词文件中的关键词,若是,则在第一生成语句中找出需要替换的关键词,并检索出需要替换的关键词的近义词进行替换,从而生成多个数据增强的第二生成语句。
根据本申请的第三方面,提出了一种计算机可读储存介质,其储存有计算机程序,该计算机程序在被处理器执行时实施如本申请第一方面的基于多模态检索和关键词提取的社交文本增强方法。
本申请提出了一种基于多模态检索和关键词提取的社交文本增强方法与系统,利用RNN模型结合自注意力机制的方式构建了句子的生成模型,并且在生成模型中加入了关键词作为生成的辅助判断,控制的生成模型的句子生成方向,同时利用多模态检索算法进行了同义词替换的文本生成方式进行数据增强的补充手段,在一定程度上解决了生成模型生成数量不足的问题。本申请适用于文本分类的预处理任务,尤其是针对类别分布不均衡的样本,这种数据增强方式能有效减小样本数量不均对模型的整体影响。
在本申请实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置/系统/方法实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
显然,本领域技术人员在不偏离本申请的精神和范围的情况下可以作出对本申请的实施例的各种修改和改变。以该方式,如果这些修改和改变处于本申请的权利要求及其等同形式的范围内,则本申请还旨在涵盖这些修改和改变。词语“包括”不排除未在权利要求中列出的其它元件或步骤的存在。某些措施记载在相互不同的从属权利要求中的简单事实不表明这些措施的组合不能被用于获利。权利要求中的任何附图标记不应当被认为限制范围。
Claims (10)
1.一种基于多模态检索和关键词提取的社交文本增强方法,其特征在于,包括以下步骤:
S1、利用类别关键词抽取算法提取不同类别样本语句中的关键词,得到包含不同类别关键词集合的关键词文件;
S2、采用RNN模型结合自注意力机制的方式,利用训练样本训练得到句子的生成模型,并根据所述训练样本对应类别的所述关键词集合中的关键词控制所述生成模型的句子生成方向;
S3、将原始语句输入到所述生成模型中,生成文本增强的第一生成语句;以及
S4、基于多模态检索算法,判断所述第一生成语句是否存在所述关键词文件中的关键词,若是,则在所述第一生成语句中找出需要替换的关键词,并检索出所述需要替换的关键词的近义词进行替换,从而生成多个数据增强的第二生成语句。
2.根据权利要求1所述的方法,其特征在于,所述步骤S1具体包括:
S11、将所述样本语句划分成2字词和3字词,利用凝固度算法计算每个词语的凝固度,并对凝固度低于预设阈值的词语再次进行分词操作,得到最终的词语集合;
S12、采用信息熵算法和TF-IDF算法衡量所述词语集合中每个词语的有效性,根据衡量结果筛选出关键词。
3.根据权利要求1所述的方法,其特征在于,所述生成模型顺序包括嵌入层、双向LSTM模型、注意力层和单向LSTM模型,所述步骤S2具体包括:
S21、在所述嵌入层对所述训练样本分词后转化为第一词向量,在所述训练样本对应类别的所述关键词集合中随机选择关键词并转化为第二词向量;
S22、利用所述双向LSTM模型对所述第一词向量和所述第二词向量进行双向串联输出;
S23、所述注意力层对输出后的所述第一词向量和所述第二词向量进行注意力机制的降维并分别输出第一输出向量和第二输出向量;
S24、对所述第一输出向量和所述第二输出向量进行向量拼接得到编码向量,所述单向LSTM模型对所述编码向量进行解码生成句子。
4.根据权利要求3所述的方法,其特征在于,在所述步骤S22中,所述第一词向量的最后一个编码输出和所述第二词向量进行自注意力机制联合编码。
5.根据权利要求1所述的方法,其特征在于,所述步骤S4具体包括:
S41、利用收集的训练语料进行分词并转化为第三词向量,采用Skip-Gram模型对所述第三词向量进行训练得到词向量模型;
S42、将所述第一生成语句输入所述词向量模型,判断并找出所述需要替换的关键词,根据所述需要替换的关键词在所述词向量模型中找到对应的具体词向量;
S43、通过余弦相似度计算所述具体词向量与其它所述第三词向量的相似度,根据计算结果找出所述近义词。
6.根据权利要求5所述的方法,其特征在于,所述步骤S43具体包括:根据所述关键词文件将所述词向量模型中的所述第三词向量划分成不同类别,利用哈希函数将不同类别的所述第三词向量保存到不同位置的哈希地址中,通过余弦相似度计算所述具体词向量与对应哈希地址内的所述第三词向量的相似度,根据计算结果找出所述近义词。
7.根据权利要求2所述的方法,其特征在于,所述步骤S12中所述根据衡量结果筛选出关键词具体包括:对所述词语集合中的词语的信息熵值和TF-IDF值进行加权求和,求得所述词语集合中的词语的特征分数,根据所述特征分数筛选出关键词。
8.根据权利要求1所述的方法,其特征在于,在所述步骤S4中,根据第一预设数量,在所述第一生成语句包含的所有关键词中,随机采样出所述第一预设数量的所述需要替换的关键词,根据第二预设数量,生成所述第二预设数量的所述第二生成语句。
9.一种基于多模态检索和关键词提取的社交文本增强系统,其特征在于,包括:
关键词文件获取模块,配置用于利用类别关键词抽取算法提取不同类别样本语句中的关键词,得到包含不同类别关键词集合的关键词文件;
生成模型构建模块,配置用于采用RNN模型结合自注意力机制的方式,利用训练样本训练得到句子的生成模型,并根据所述训练样本对应类别的所述关键词集合中的关键词控制所述生成模型的句子生成方向;
文本增强模块,配置用于将原始语句输入到所述生成模型中,生成文本增强的第一生成语句;
数据增强模块,配置用于基于多模态检索算法,判断所述第一生成语句是否存在所述关键词文件中的关键词,若是,则在所述第一生成语句中找出需要替换的关键词,并检索出所述需要替换的关键词的近义词进行替换,从而生成多个数据增强的第二生成语句。
10.一种计算机可读储存介质,其储存有计算机程序,所述计算机程序在被处理器执行时实施如权利要求1-8中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211023077.1A CN115408495A (zh) | 2022-08-25 | 2022-08-25 | 基于多模态检索和关键词提取的社交文本增强方法与系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211023077.1A CN115408495A (zh) | 2022-08-25 | 2022-08-25 | 基于多模态检索和关键词提取的社交文本增强方法与系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115408495A true CN115408495A (zh) | 2022-11-29 |
Family
ID=84160830
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211023077.1A Pending CN115408495A (zh) | 2022-08-25 | 2022-08-25 | 基于多模态检索和关键词提取的社交文本增强方法与系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115408495A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116150704A (zh) * | 2023-04-21 | 2023-05-23 | 广东工业大学 | 基于语义相似度匹配的多模态融合表征方法及系统 |
CN116610804A (zh) * | 2023-07-19 | 2023-08-18 | 深圳须弥云图空间科技有限公司 | 一种提升小样本类别识别的文本召回方法和系统 |
CN116992830A (zh) * | 2022-06-17 | 2023-11-03 | 北京聆心智能科技有限公司 | 文本数据处理方法、相关装置及计算设备 |
-
2022
- 2022-08-25 CN CN202211023077.1A patent/CN115408495A/zh active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116992830A (zh) * | 2022-06-17 | 2023-11-03 | 北京聆心智能科技有限公司 | 文本数据处理方法、相关装置及计算设备 |
CN116150704A (zh) * | 2023-04-21 | 2023-05-23 | 广东工业大学 | 基于语义相似度匹配的多模态融合表征方法及系统 |
CN116150704B (zh) * | 2023-04-21 | 2023-07-14 | 广东工业大学 | 基于语义相似度匹配的多模态融合表征方法及系统 |
CN116610804A (zh) * | 2023-07-19 | 2023-08-18 | 深圳须弥云图空间科技有限公司 | 一种提升小样本类别识别的文本召回方法和系统 |
CN116610804B (zh) * | 2023-07-19 | 2024-01-05 | 深圳须弥云图空间科技有限公司 | 一种提升小样本类别识别的文本召回方法和系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109697232B (zh) | 一种基于深度学习的中文文本情感分析方法 | |
CN110275936B (zh) | 一种基于自编码神经网络的相似法律案例检索方法 | |
CN115408495A (zh) | 基于多模态检索和关键词提取的社交文本增强方法与系统 | |
Wu et al. | Aspect-based opinion summarization with convolutional neural networks | |
CN109871538A (zh) | 一种中文电子病历命名实体识别方法 | |
CN110688854B (zh) | 命名实体识别方法、装置及计算机可读存储介质 | |
CN111291188B (zh) | 一种智能信息抽取方法及系统 | |
CN111985228B (zh) | 文本关键词提取方法、装置、计算机设备和存储介质 | |
CN110879834B (zh) | 一种基于循环卷积网络的观点检索系统及其观点检索方法 | |
CN110263325A (zh) | 中文分词系统 | |
CN109918477B (zh) | 一种基于变分自编码器的分布式检索资源库选择方法 | |
CN111666764B (zh) | 一种基于XLNet的自动摘要方法与装置 | |
CN112347223B (zh) | 文档检索方法、设备及计算机可读存储介质 | |
CN113836896A (zh) | 一种基于深度学习的专利文本摘要生成方法和装置 | |
CN113065349A (zh) | 基于条件随机场的命名实体识别方法 | |
CN112732872A (zh) | 面向生物医学文本的基于主题注意机制的多标签分类方法 | |
CN115982403A (zh) | 一种多模态哈希检索方法及装置 | |
CN111444720A (zh) | 一种英文文本的命名实体识别方法 | |
CN111145914A (zh) | 一种确定肺癌临床病种库文本实体的方法及装置 | |
CN110955745A (zh) | 一种基于深度学习的文本哈希检索方法 | |
CN113987175A (zh) | 一种基于医学主题词表增强表征的文本多标签分类方法 | |
Chen et al. | Multi-label text classification with deep neural networks | |
CN112115256A (zh) | 一种融入中文笔画信息的新闻文本摘要生成的方法及装置 | |
CN111666375A (zh) | 文本相似度的匹配方法、电子设备和计算机可读介质 | |
CN110888944A (zh) | 基于多卷积窗尺寸注意力卷积神经网络实体关系抽取方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |