CN113239192A - 一种基于滑动窗口和随机离散采样的文本结构化技术 - Google Patents

一种基于滑动窗口和随机离散采样的文本结构化技术 Download PDF

Info

Publication number
CN113239192A
CN113239192A CN202110471898.0A CN202110471898A CN113239192A CN 113239192 A CN113239192 A CN 113239192A CN 202110471898 A CN202110471898 A CN 202110471898A CN 113239192 A CN113239192 A CN 113239192A
Authority
CN
China
Prior art keywords
text
word
sliding window
semantics
subsequences
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110471898.0A
Other languages
English (en)
Other versions
CN113239192B (zh
Inventor
刘新
马中昊
李广
黄浩钰
张远明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiangtan University
Original Assignee
Xiangtan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiangtan University filed Critical Xiangtan University
Priority to CN202110471898.0A priority Critical patent/CN113239192B/zh
Publication of CN113239192A publication Critical patent/CN113239192A/zh
Application granted granted Critical
Publication of CN113239192B publication Critical patent/CN113239192B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请适应于短文本分类领域,针对文本太短而导致语义表征不明显的问题,提出了一种基于滑动窗口和随机离散采样的处理技术。具体方案为:包括以下步骤:S1:输入文本,对本文进行分词并训练得到若干词向量;S2:得到由词向量组成的文本矩阵之后,采用滑动窗口方法得到多个上下文靠近的子序列,构成的新的文本矩阵;S3:采用随机离散采样得到多个上下文距离较远但能增强语义的子序列,构成新的文本矩阵;S4:将S2和S3得到的矩阵分别输入到属于同一层但是不同的Transformer的Encoder层,每一层交互影响增强语义;S5:重复S4直到训练出两个具有强特征和强语义的矩阵,然后分别输入到CNN得到两个一维向量进行拼接,再将其输入全连接神经网络进行分类。

Description

一种基于滑动窗口和随机离散采样的文本结构化技术
技术领域
本发明涉及自然语言处理及深度学习,属于计算机应用技术领域,更更具体来说,它涉及了一种基于滑动窗口和随机离散采样的文本结构化技术。
背景技术
Google在2013年开源了word2vec,它是一个用来获取word vector的工具包,它简单、高效。word2vec用到了两个重要模型—CBOW模型(Continuous Bag-of-Words Model)和Skip-gram模型(Continuous Skip-gram Model),两个模型都包含了三层:输出层、投影层、输入层。其中CBOW模型训练是输入一个特征词的上下文相关词对应的词向量,输出这个特征词所对应的词向量,简而言之就是利用上下文得出特征词向量,而Skip-gram模型的思想与CBOW模型思想恰恰相反,是输入特定的一个词的词向量,输出特定词对应的上下文词向量,简而言之也就是根据当前词来预测上下文,其中在小型语料库中CBOW模型更加合适,大型语料库中Skip-gram模型效果比较好。
Transformer由论文《Attention is All You Need》提出,现在是谷歌云TPU推荐的参考模型。主要用于自然语言处理(NLP)领域,Transformer的结构是由Encoder和Decoder组成,和大多数的Seq2Seq模型一样。Encoder由6个相同的layer组成,每个layer由两个sub-layer组成,分别是多头自注意力机制(multi-head self-attention mechanism)和全连接前馈神经网络(fully connected feed-forward network)。Decoder和Encoder的结构差不多,多了一个attention的sub-layer。像循环神经网络(RNN)一样,Transformer旨在处理顺序数据(例如自然语言),以执行翻译和文本摘要之类的任务。和RNN相比,因为attention的加入,Transformer允许更多的并行化,大大的减少了训练时间,从而可以对更大的训练集进行训练,而RNN最大的优点是在时间序列上对数据的抽象,但是Transformer的两种Positional Encoding的方法可以给每个词加上一个位置序列,从而弥补了Transformer这个缺点。自Transformer问世以来,已成为解决NLP领域诸多问题的首选,取代了旧的RNN,效果也比以前有了大大的提升。
发明内容
本发明提供一种基于滑动窗口和随机离散采样的文本结构化技术同时也对Transformer的Encoder层进行了创新,在原有的基础上加入了语义交互层,让由滑动窗口方法和随机离散采样方法提取出来的特征矩阵,能够相互影响,进而更近一步的增强其语义。解决文本太短而导致语义表征不明显的问题,使用基于python语言由Facebook开源的神经网络框架Pytorch完成代码的编写,先将训练集中的每一个文本分为两个语义较强的子序列矩阵,然后将其反复迭代互相增加语义,最后根据特征矩阵进行多分类,选出结果中权重最大的类别得出最终分类结果。
本发明的上述技术目的是通过以下技术方案得以实现的:
一种基于滑动窗口和随机离散采样的文本结构化技术,包括以下步骤:
S1:输入需要进行分类的文本,先对文本进行分词处理然后通过Word2Vec对词语进行词向量训练,然后加入单词位置信息得到新的词向量;
S2:得到由词向量组成的文本矩阵之后,采用滑动窗口方法得到多个上下文靠近的子序列,构成的新的文本矩阵;
S3:采用随机离散采样得到多个上下文距离较远但能增强语义的子序列,构成新的文本矩阵;
S4:将S2和S3得到的矩阵分别输入到属于同一层但是不同的Transformer的Encoder层,每一层互相交互影响增强语义;
S5:重复S4直到训练出两个具有强特征和强语义的矩阵,然后分别输入到CNN得到两个一维向量进行拼接,再将其输入全连接神经网络进行分类。
步骤S1输入文本,通过Word2Vec预训练可以得到由多个词向量组合表达的嵌入矩阵,再由positional encoding的方法给每个词向量加入唯一的位置信息,得到新的词向量。
步骤S2采用滑动窗口方法得到多个上下文靠近的子序列,构成的新的文本矩阵,对于由n个词向量组成的词序列T(1:n),用大小为k的滑动窗口从首部滑动到尾部,将所有滑动出来的子句组合成新的特征矩阵用做Transformer的输入,序列T中的第i个词生成的子序列表示为(Ti-2,Ti-1,Ti,Ti+1,Ti+2),其中Ti=T[(n+i)%n],生成的子序列数量m=n-k+1,因为滑动窗口方法所得出的子序列数量要尽量靠近随机离散采样方法所得出的子序列数量,所以k的取值一般为n的一半或者三分之一,这样可以更好的保留短文本的语义,从而可以使其进行分类时更加准确。
步骤S3采用随机离散采样得到多个上下文距离较远但能增强语义的子序列,根据前面滑动窗口的大小将文本分成几等分,这里以3为例,将一个文本分为以下等分:“贝克汉姆/喜欢/踢/足球”;“乔丹/热爱/打/篮球”;“张怡宁/爱/打/乒乓球”,随机抽取其中一个子句,从这个子句中的第一个词向量开始匹配其他子句中余弦相似度最近的词向量组合成一个新的子序列,可能组成的新序列为:“贝克汉姆/乔丹/张怡宁”;“喜欢/热爱/爱”;“踢/打/打”;“足球/篮球/乒乓球”,这时滑动窗口的大小为9,这样也可以得到四个子序列,如上步骤就可以得到两个具有较强语义由多个子序列组成的特征矩阵。
步骤S4将S2和S3得到的矩阵分别输入到属于同一层但是不同的Transformer的Encoder层,每一层交互影响增强语义,Transformer的Encoder层由两个sub-layer组成,分别是multi-head self-attention mechanism和fully connected feed-forwardnetwork。两个特征矩阵在语义交互层进行交互影响从而增强表征语义,其中交互公式为:
Figure BDA0003045691120000021
Figure BDA0003045691120000022
其中Y表示由滑动窗口方法提取出的特征矩阵,X表示由离散随机采样方法提取出的特征矩阵。
步骤S5重复S4直到训练出两个具有强特征和强语义的矩阵,然后分别作为CNN的输入,经过不断的卷积和池化之后,得到两个语义表征很强的一维向量,进行拼接作为全连接神经网络然后进行分类。
综上所述,本发明具有以下有益效果:
本发明提供一种基于滑动窗口和随机离散采样的文本结构化技术,将原本语义表征弱的短文本,经过滑动窗口方法和随机离散采样方法,得到了两个特征矩阵,将其语义进行了放大,然后在Transformer的Encoder层进行了设计,增加了语义交互层,使其语义表征反复提高,克服了短文本分类问题中因为文本太短而导致语义表征不明显的问题。此发明能够提高文本的语义表征,提高分类正确率。
附图说明
图1是本发明实现过程图;
图2是基于Word2Vec进行词训练之后,加入词的位置信息的示意图
图3是本发明基于滑动窗口和随机离散采样的文本结构化技术结合Transformer模型的示意图。
具体实施方式
本发明的实际应用环境是针对于短文本分类,以下结合附图对本发明作进一步详细说明。
本发明在具体实施时,如图1所示包括以下步骤:
S1:输入需要进行分类的文本,先对文本进行分词处理然后通过Word2Vec对词语进行词向量训练,然后加入单词位置信息得到新的词向量;
S2:得到由词向量组成的文本矩阵之后,采用滑动窗口方法得到多个上下文靠近的子序列,构成的新的文本矩阵;
S3:采用随机离散采样得到多个上下文距离较远但能增强语义的子序列,构成新的文本矩阵;
S4:将S2和S3得到的矩阵分别输入到属于同一层但是不同的Transformer的Encoder层,每一层互相影响增强语义;
S5:重复S4直到训练出两个具有强特征和强语义的矩阵,然后分别输入到CNN得到两个一维向量进行拼接,再将其输入全连接神经网络进行分类。
如图2所示,步骤S1输入文本,通过Word2Vec预训练可以得到由多个词向量组合表达的嵌入矩阵,再由positional encoding的方法给每个词向量加入唯一的位置信息,得到新的词向量。
如图3所示,步骤S2采用滑动窗口方法得到多个上下文靠近的子序列,构成的新的文本矩阵,对于由n个词向量组成的词序列T(1:n),用大小为k的滑动窗口从首滑动到尾部,将所有滑动出来的子句组合成新的特征矩阵用做Transformer的输入,序列T中的第i个词生成的子序列表示为(Ti-2,Ti-1,Ti,Ti+1,Ti+2),其中Ti=T[(n+i)%n],生成的子序列数量m=n-k+1,因为滑动窗口方法所得出的子序列数量要尽量靠近随机离散采样方法所得出的子序列数量,所以k的取值一般为n的一半或者三分之一,这样可以更好的保留短文本的语义,从而可以使其进行分类时更加准确。
步骤S3采用随机离散采样得到多个上下文距离较远但能增强语义的子序列,根据前面滑动窗口的大小将文本分成几等分,这里以3为例,将一个文本分为以下等分:“贝克汉姆/喜欢/踢/足球”;“乔丹/热爱/打/篮球”;“张怡宁/爱/打/乒乓球”,随机抽取其中一个子句,从这个子句中的第一个词向量开始匹配其他子句中余弦相似度最近的词向量组合成一个新的子序列,可能组成的新序列为:“贝克汉姆/乔丹/张怡宁”;“喜欢/热爱/爱”;“踢/打/打”;“足球/篮球/乒乓球”,这时滑动窗口的大小为9,这样也可以得到四个子序列,如上步骤就可以得到两个具有较强语义由多个子序列组成的特征矩阵。
步骤S4将S2和S3得到的矩阵分别输入到属于同一层但是不同的Transformer的Encoder层,每一层互相交互影响增强语义,Transformer的Encoder层由两个sub-layer组成,分别是multi-head self-attention mechanism和fully connected feed-forwardnetwork。两个特征矩阵在语义交互层进行交互影响增强语义,其中交互公式为:
Figure BDA0003045691120000031
Figure BDA0003045691120000032
其中Y表示由滑动窗口方法提取出的特征矩阵,X表示由离散随机采样方法提取出的特征矩阵。
步骤S5重复S4直到训练出两个具有强特征和强语义的矩阵,然后分别作为CNN的输入,经过不断的卷积和池化之后,得到两个语义表征很强的一维向量,进行拼接作为全连接神经网络然后进行分类。
本具体实施例仅仅是对本发明的解释,其并不是对本发明的限制,本领域技术人员在阅读完本说明书后可以根据需要对本实施例做出没有创造性贡献的修改,但只要在本发明的权利要求范围内都受到专利法的保护。

Claims (4)

1.一种基于滑动窗口和随机离散采样的文本结构化技术,其特征在于,所述方法包括:
用Word2Vec训练完词向量后,用滑动窗口的方法得到一个新文本,用随机离散采样的方法得到一个新文本;
将之前两个文本分别放到N层的Encode层,每层进行交互,增强语义;
最后用CNN提取局部特征和全连接神经网络进行准确分类。
2.如权利要求1所述的滑动窗口和随机离散采样方法提取文本特征,其特征在于,包括:
分三个步骤,第一个步骤将文本进行分词,并用Word2Vec训练词向量;第二个步骤,为了捕捉每一个词的顺序特征,给每个词向量加上一个唯一的positional encoding;第三个步骤,将由Word2Vec训练出来的词向量构成的文本矩阵进行滑动窗口方法以此提取n个子序列,作为Transformer的输入,一个有n个词的词序列T(1:n),用大小为m的窗口从第一个词滑到最后一个词,假设m为5,序列中第i个词的子序列表示为(Ti-2,Ti-1,Ti,Ti+1,Ti+2),其中Ti=T[(n+i)%n],其中m的取值,要根据文本长度和随机离散采样的分组来决定,因为滑动窗口提取出来的特征矩阵需要和随机离散采样提取出来的特征矩阵维度一致;第四个步骤,将由Word2Vec训练出来的词向量构成的文本矩阵使用随机离散采样方法以此提取n个子序列,作为另一个Transformer的输入,因为滑动窗口的方法只加强了文本局部信息的提取,但是对于短文本来说,不同子句中也同样包含信息,所以将文本分成n个子句,每个子句长度相同,随机抽取n个子句中的一个子句,从其中第一个词开始,找到其他子句中与这个词余弦相似度最近的词向量组成一个新的子序列,并将其拼成特征矩阵输入Transformer。
3.如权利要求1所述的N层的Encode交互增强语义,其特征在于,包括:
将文本分为两个由多个子序列构成的拥有强语义的AB子文本后,分别输入第一层的两个Transformer编码器,每一层在经过多头注意力机制、前馈神经网络和残差归一化后,再将其输入到语义交互层进行交互,让A文本影响B文本,B文本影响A文本,从而进一步加强语义,然后循环N次。
4.如权利要求1所述的分类策略,其特征在于,包括:
A文本和B文本由N层Transformer编码器提取特征完后,会生成两个特征矩阵,然后将其分别用CNN进一步提取局部特征得到两个一维向量,A向量B向量拼接完成之后输入到全连接层,然后使用softmax函数生成文本属于某个类别的分布概率,取其最大值。
CN202110471898.0A 2021-04-29 2021-04-29 一种基于滑动窗口和随机离散采样的文本结构化技术 Active CN113239192B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110471898.0A CN113239192B (zh) 2021-04-29 2021-04-29 一种基于滑动窗口和随机离散采样的文本结构化技术

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110471898.0A CN113239192B (zh) 2021-04-29 2021-04-29 一种基于滑动窗口和随机离散采样的文本结构化技术

Publications (2)

Publication Number Publication Date
CN113239192A true CN113239192A (zh) 2021-08-10
CN113239192B CN113239192B (zh) 2024-04-16

Family

ID=77131416

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110471898.0A Active CN113239192B (zh) 2021-04-29 2021-04-29 一种基于滑动窗口和随机离散采样的文本结构化技术

Country Status (1)

Country Link
CN (1) CN113239192B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107656990A (zh) * 2017-09-14 2018-02-02 中山大学 一种基于字和词两个层面特征信息的文本分类方法
US20190220749A1 (en) * 2018-01-17 2019-07-18 Beijing Baidu Netcom Science And Technology Co., Ltd. Text processing method and device based on ambiguous entity words
CN110569511A (zh) * 2019-09-22 2019-12-13 河南工业大学 基于混合神经网络的电子病历特征提取方法
US20200184016A1 (en) * 2018-12-10 2020-06-11 Government Of The United States As Represetned By The Secretary Of The Air Force Segment vectors
CN111985247A (zh) * 2020-08-31 2020-11-24 华侨大学 一种基于多粒度文本特征表示的微博用户兴趣识别方法和系统
WO2020244066A1 (zh) * 2019-06-04 2020-12-10 平安科技(深圳)有限公司 一种文本分类方法、装置、设备及存储介质
WO2021051503A1 (zh) * 2019-09-19 2021-03-25 平安科技(深圳)有限公司 基于语义表征模型的文本分类方法、装置和计算机设备

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107656990A (zh) * 2017-09-14 2018-02-02 中山大学 一种基于字和词两个层面特征信息的文本分类方法
US20190220749A1 (en) * 2018-01-17 2019-07-18 Beijing Baidu Netcom Science And Technology Co., Ltd. Text processing method and device based on ambiguous entity words
US20200184016A1 (en) * 2018-12-10 2020-06-11 Government Of The United States As Represetned By The Secretary Of The Air Force Segment vectors
WO2020244066A1 (zh) * 2019-06-04 2020-12-10 平安科技(深圳)有限公司 一种文本分类方法、装置、设备及存储介质
WO2021051503A1 (zh) * 2019-09-19 2021-03-25 平安科技(深圳)有限公司 基于语义表征模型的文本分类方法、装置和计算机设备
CN110569511A (zh) * 2019-09-22 2019-12-13 河南工业大学 基于混合神经网络的电子病历特征提取方法
CN111985247A (zh) * 2020-08-31 2020-11-24 华侨大学 一种基于多粒度文本特征表示的微博用户兴趣识别方法和系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
张小川;余林峰;桑瑞婷;张宜浩;: "融合CNN和LDA的短文本分类研究", 软件工程, no. 06 *
王耀华;李舟军;何跃鹰;巢文涵;周建设;: "基于文本语义离散度的自动作文评分关键技术研究", 中文信息学报, no. 06 *

Also Published As

Publication number Publication date
CN113239192B (zh) 2024-04-16

Similar Documents

Publication Publication Date Title
CN106650813B (zh) 一种基于深度残差网络和lstm的图像理解方法
CN108804530B (zh) 对图像的区域加字幕
CN106980683B (zh) 基于深度学习的博客文本摘要生成方法
Conneau et al. Very deep convolutional networks for natural language processing
CN111738003B (zh) 命名实体识别模型训练方法、命名实体识别方法和介质
CN113239700A (zh) 改进bert的文本语义匹配设备、系统、方法及存储介质
CN108830287A (zh) 基于残差连接的Inception网络结合多层GRU的中文图像语义描述方法
CN106897371B (zh) 中文文本分类系统及方法
CN111143563A (zh) 基于bert与lstm及cnn融合的文本分类方法
CN112163429B (zh) 结合循环网络及bert的句子相关度获取方法、系统及介质
CN106033426A (zh) 一种基于潜在语义最小哈希的图像检索方法
CN113220890A (zh) 一种基于预训练的结合新闻标题和新闻长文本内容的深度学习方法
CN117236338B (zh) 一种稠密实体文本的命名实体识别模型及其训练方法
CN116226357B (zh) 一种输入中包含错误信息场景下的文档检索方法
CN114386417A (zh) 一种融入词边界信息的中文嵌套命名实体识别方法
CN111680529A (zh) 一种基于层聚合的机器翻译算法及装置
CN110852089A (zh) 基于智能分词与深度学习的运维项目管理方法
CN114330328B (zh) 基于Transformer-CRF的藏文分词方法
Mishra et al. Multimodal machine learning for extraction of theorems and proofs in the scientific literature
CN111199152A (zh) 一种基于标签注意力机制的命名实体识别方法
CN113239192B (zh) 一种基于滑动窗口和随机离散采样的文本结构化技术
Cai et al. HCADecoder: a hybrid CTC-attention decoder for chinese text recognition
Xu et al. Residual spatial graph convolution and temporal sequence attention network for sign language translation
Postalcioglu et al. Comparison of Neural Network Models for Nostalgic Sentiment Analysis of YouTube Comments
Li Application of CLIP on Advanced GAN of Zero-Shot Learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant