CN110263174A - —基于焦点关注的主题类别分析方法 - Google Patents

—基于焦点关注的主题类别分析方法 Download PDF

Info

Publication number
CN110263174A
CN110263174A CN201910567508.2A CN201910567508A CN110263174A CN 110263174 A CN110263174 A CN 110263174A CN 201910567508 A CN201910567508 A CN 201910567508A CN 110263174 A CN110263174 A CN 110263174A
Authority
CN
China
Prior art keywords
text
words
vector
feature
subject categories
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910567508.2A
Other languages
English (en)
Other versions
CN110263174B (zh
Inventor
顾凌云
王洪阳
严涵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Bingjian Information Technology Co Ltd
Original Assignee
Chengdu Bingjian Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Bingjian Information Technology Co Ltd filed Critical Chengdu Bingjian Information Technology Co Ltd
Priority to CN201910567508.2A priority Critical patent/CN110263174B/zh
Publication of CN110263174A publication Critical patent/CN110263174A/zh
Application granted granted Critical
Publication of CN110263174B publication Critical patent/CN110263174B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/374Thesaurus
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了—基于焦点关注的主题类别分析方法,属于大数据技术领域,包括建立客户端服务器和中心服务器,客户端服务器用于获取原始文本,客户端服务器通过互联网与中心服务器通信;在中心服务器中建立数据预处理模块、向量学习模块、特征提取模块、注意力计算模块和池化模块;解决对主题特征差异不明显的情况下进行二次主题划分的技术问题,本发明提出的局部循环卷积网络既可以学习文本序列之间的字词关系,还可以提取文本中的关键字词和相应的位置信息,本发明采用基于焦点关注的主题类别分析方法,当主题特征差异不明显的时候依然能得到良好的分类效果。

Description

—基于焦点关注的主题类别分析方法
技术领域
本发明属于大数据技术领域,尤其涉及—基于焦点关注的主题类别分析方法。
背景技术
随着互联网上的新闻数据不断增加,如何将新闻数据按照其主题进行正确地归类以方便人们浏览和查找显的尤为重要。目前,主题分类技术广泛应用在商业领域中,人们在浏览新闻时,首先按照类别筛选后,再进行相关阅读,常见的新闻分类类别有:体育、军事、科技、娱乐、教育、国际、财经等。互联网上关于各公司的新闻同样在日益增长,而与企业相关的新闻类别有:公司信息、公告报告、产品信息、成果奖项、投资融资等。为了分析公司的相关类别信息,通过新闻数据判别该公司的发展情况,对关于公司的新闻数据进行主题分类十分重要。
主题分类是自然语言处理领域中一个非常经典的问题,传统的方法通过利用知识工程监理专家系统,然后通过专家规则进行分类,该方法不仅耗费精力,其覆盖的范围和准确率都十分有限,后来,普遍使用机器学习方法解决主题分类问题,通过人工特征工程和一个浅层分类器完成该任务,该方法的缺点和前期的知识工程一样,耗费人工精力。接着,目广泛使用深度学习进行文本的主题分类,该方法最大的优点是省去了大量的人工特征提取步骤,通过神经网络自动提取主题特征,其准确率要高于机器学习方法。通过观察发现,在主题的特征差异比较大的情况下,现有的主题分类技术能表现不错的效果,但是在主题特征之间差异不大的情况下,如对科技这一主题进一步划分为:数码、手机、平板、电脑等类别时,现有模型在其数据上表现效果往往不是很好,误分类的情况很多。
目前在主题分类的问题中,现阶段所使用的方法主要是根据提取的上下文特征外接一个分类器进行主题的分类,这样做的主要缺点是针对某一主题类别进行二次划分的时候,分类的效果不是很好,尤其是当主题特征差异不明显的时候。
发明内容
本发明的目的是提供—基于焦点关注的主题类别分析方法,解决对主题特征差异不明显的情况下进行二次主题划分的技术问题。
为实现上述目的,本发明采用如下技术方案:
—基于焦点关注的主题类别分析方法,包括如下步骤:
步骤1:建立客户端服务器和中心服务器,客户端服务器用于获取原始文本,客户端服务器通过互联网与中心服务器通信;
在中心服务器中建立数据预处理模块、向量学习模块、特征提取模块、注意力计算模块、池化模块、
步骤2:中心服务器获取客户端服务器中的原始文本,并通过数据预处理模块进行清洗和筛选,生成预处理文本,其具体步骤如下:
步骤A1:获取原始文本的文本主题数据作为原始数据,对原始数据进行ETL处理,即抽取、转换和加载操作;
步骤A2:对原始数据进行文本数据和主题类别的提取;将文本数据和主题类别分别转换为文本列表和标签列表,每一条主题类别在标签列表中分别对应一条主题标签,文本列表中的每一条文本数据分别对应标签列表中的一条主题标签,对所有的文本数据进行分词操作,统计文本数据中所有的字词,形成字典表,将文本数据中的字词转化为字典表中的索引号,完成对文本数据的序列化操作,将序列化后的文本数据和对应的主体标签作为预处理文本;
步骤A3:创建一个数据生成器,每批次产生指定数量的预处理文本;
步骤3:向量学习模块对预处理文本进行向量学习,用向量表示预处理文本,具体步骤包括:使用CBOW训练预处理文本中的字词,得到关于预处理文本中所有字词的向量表示,即字向量,字向量代表每个字词的特征;加载训练得到的所有字向量,通过查找得到预处理文本中的每个字向量特征表示,完成对预处理文本的字向量表示;
步骤4:特征提取模块使用卷积神经网络对预处理文本进行特征提取,对预处理文本的字向量进行类卷积操作,指定卷积核的大小,规定在每个卷积窗口内执行相应的操作,通过局部循环神经网络学习预处理文本的字词含义,同时捕捉上下文之间的重要信息;
类卷积操作为局部循环神经网络GRU,通过局部循环神经网络GRU学习指定窗口大小内的上下文字词向量表示,包括如下步骤:
步骤S1:设置一个局部循环卷积的内核大小为kernel_size,指定循环网络只在kernel_size区域内进行执行运算;
步骤S2:对预处理文本进行补全操作,在预处理文本中的所有文本数据前面添加kernel_size-1个空缺字段在字典中对应的索引,设置起始位置为0,终止位置为kernel_size-1;
步骤S3:使用循环神经网络GRU对起始位置和终止位置之间的上下文进行编码,学习字词向量的表示方法,取最后一个字词的最终状态作为kernel_size区域内循环卷积的结果;
步骤S4:对每次局部循环卷积的结果进行拼接,逐步得到上下文特征向量;
步骤S5:起始位置和终止位置均向预处理文本方向移动一个位置,判断终止位置是否小于预处理文本的序列长度,若满足条件,则跳转至步骤S3继续进行计算,否则退出循环,结束计算;
步骤5:特征提取模块使用多层感知机对局部循环卷积神经网络提取得到的上下文字词特征连接一层全连接神经网络,进一步提取高度抽象的上下文的文本特征,得到的上下文信息的高层次特征;
步骤6:注意力计算模块对高层次特征进行一次注意力计算,将焦点聚集在能体现文本主题类别的关键字词上,其具体步骤如下:
步骤C1:对上下文字词特征向量进行线性变换,将其特征降低到一维,得到一个长度为文本序列大小的向量;
步骤C2:对步骤C1得到的向量进行归一化操作,得到上下文中每个字词的权重向量;
步骤C3:将权重向量与高层次特征相结合,得到新的上下文特征向量,该特征向量将焦点关注在对主题类别有贡献的关键字词上,设定该特征向量为主题特征向量;
步骤:7:池化模块对主题特征向量进行最大池化操作,形成最终的文本特征向量表示,具体步骤如下:
步骤D1:对主题特征向量执行卷积中的最大池化操作;
步骤D2:将二维的上下文特征压缩成一维,进一步提取关字词以及其位置信息,得到最终的文本特征表示;
步骤8:在中心服务器中建立Softmax分类器,使用Softmax分类器对得到的文本特征向量进行一层全连接神经网络的计算,该层神经元个数为标签字典中主题的数量,得到文本数据属于各主题类别的得分,通过Softmax归一化计算得到文本数据属于各主题的概率,取概率最大的主题作为文本数据最终的主题类别,得到文本数据属于各主题类别的概率。
优选的,在执行步骤3时,CBOW即为Continuous Bag of Words,是一个使用上下文与层当面字词的语言模型,在此,加载预训练好的CBOW模型,将每个字词转换为字向量,因此经过转换后的一文本表示为其中,n为一文本的长度,de为字向量的维度。
优选的,在执行步骤S2时,补全操作为在每个文本第一个字符前面补充kernel_size-1个0向量,即,设定两个变量pstart,pend分别表示初始位置和终止位置,其中,设定pstart=0,那么pend=pstart+kernel_size-1。
优选的,在执行步骤6时,使用一层注意力计算权重向量,得到文本中各字词的权重,具体的计算过程如下:
其中,s为权重向量,
进行归一化操作,得到每个字词相应的权重,表示为atti,其具体公式如下:
设定所述新的上下文特征向量为H′,根据以下公式计算H′的值:
hi′=hi′*atti
优选的,在执行步骤D1时,所述最大池化操作为将所有字词每一维度的特征向量进行卷积中的max-pooling操作,再次保留关键字词及其位置信息。
本发明所述的—基于焦点关注的主题类别分析方法,解决对主题特征差异不明显的情况下进行二次主题划分的技术问题,本发明提出的局部循环卷积网络既可以学习文本序列之间的字词关系,还可以提取文本中的关键字词和相应的位置信息,本发明采用基于焦点关注的主题类别分析方法,当主题特征差异不明显的时候依然能得到良好的分类效果。
附图说明
图1是本发明的流程图;
图2是本发明的局部循环卷积神经网络的算法流程图。
具体实施方式
通过观察发现当主题边界模糊的时候,文本中的关键词对主题类别的判断起到了决定作用,因此,本发明提出了一种基于焦点关注的主题类别分析方法。
如图1-图2所示的一基于焦点关注的主题类别分析方法,包括如下步骤:
步骤1:建立客户端服务器和中心服务器,客户端服务器用于获取原始文本,客户端服务器通过互联网与中心服务器通信;
在中心服务器中建立数据预处理模块、向量学习模块、特征提取模块、注意力计算模块、池化模块、
步骤2:中心服务器获取客户端服务器中的原始文本,并通过数据预处理模块进行清洗和筛选,生成预处理文本,其具体步骤如下:
步骤A1:获取原始文本的文本主题数据作为原始数据,对原始数据进行ETL处理,即抽取、转换和加载操作;
步骤A2:对原始数据进行文本数据和主题类别的提取;将文本数据和主题类别分别转换为文本列表和标签列表,每一条主题类别在标签列表中分别对应一条主题标签,文本列表中的每一条文本数据分别对应标签列表中的一条主题标签,对所有的文本数据进行分词操作,统计文本数据中所有的字词,形成字典表,将文本数据中的字词转化为字典表中的索引号,完成对文本数据的序列化操作,将序列化后的文本数据和对应的主体标签作为预处理文本;
步骤A3:创建一个数据生成器,每批次产生指定数量的预处理文本;
本实施例先对原始文本进行筛选,删除带有缺失值的文本数据,并将其分为两部分:文本数据对应的文本列表列表Documents和主题类别对应的标签列表Labels,对Documents进行分词操作,按照字进行切分,统计文本中所有的字词,同时建立一个字典,里面存储所有每个字词及其对应的索引号,方便查找,将中文字典表示为Dictword,在Dictword中额外加入两个字符:<PAD>和<UNK>,其索引号分别对应为0和1;对Labels里面的所有主题标签进行统计,同时建立一个标签字典,里面存储每个标签及其对应的索引号,表示为Dictlabel
接下来对文本列表Documents进行分词操作,并将各字词替换为其在Dictword中对应的索引号,完成文本的序列化操作。
同理,将标签列表Labels中的各标签替换为其在Dictlabel中对应的索引号,完成标签的序列化操作。接着,进行文本的补全操作,计算序列化后的Documents中最大的文本长度,将所有文本长度与其进行比较,若长度不足,则以0进行补充,直到所有的文本长度均相同。
最后,使用生成器完成数据的加载,每次生成指定大小的序列化文本及其对应的序列化主题标签。
步骤3:向量学习模块对预处理文本进行向量学习,用向量表示预处理文本,具体步骤包括:使用CBOW训练预处理文本中的字词,得到关于预处理文本中所有字词的向量表示,即字向量,字向量代表每个字词的特征;加载训练得到的所有字向量,通过查找得到预处理文本中的每个字向量特征表示,完成对预处理文本的字向量表示;
步骤4:特征提取模块使用卷积神经网络对预处理文本进行特征提取,对预处理文本的字向量进行类卷积操作,指定卷积核的大小,规定在每个卷积窗口内执行相应的操作,通过局部循环神经网络学习预处理文本的字词含义,同时捕捉上下文之间的重要信息;
类卷积操作为局部循环神经网络GRU,通过局部循环神经网络GRU学习指定窗口大小内的上下文字词向量表示,包括如下步骤:
步骤S1:设置一个局部循环卷积的内核大小为kernel_size,指定循环网络只在kernel_size区域内进行执行运算;
步骤S2:对预处理文本进行补全操作,在预处理文本中的所有文本数据前面添加kernel_size-1个空缺字段在字典中对应的索引,设置起始位置为0,终止位置为kernel_size-1;
补全操作为在每个文本第一个字符前面补充kernel_size-1个0向量,即,设定两个变量pstart,pend分别表示初始位置和终止位置,其中,设定pstart=0,那么pend=pstart+kernel_size-1,在区域[pstart,pend]之间使用循环神经网络学习字词间的序列关系。
步骤S3:使用循环神经网络GRU对起始位置和终止位置之间的上下文进行编码,学习字词向量的表示方法,取最后一个字词的最终状态作为kernel_size区域内循环卷积的结果;
使用GRU循环神经网络对区间[pstart,pend]内的字词进行编码,GRU(GatedRecurrent Unit)是循环神经网络RNN的一种变体,它可以通过内置的门单元学习序列之间的长依赖,门单元可以控制信息的流动并且减轻反向传播中梯度消失的现象,GRU有两种门单元:重置门rt和更新门zt,其中间的隐藏状态ht计算过程如下所示:
其中,ht-1是上一个序列的状态,是候选状态,由当前的输入信息序列计算得到,是元素对应相乘操作,更新门zt计算过程如下:
zt=σ(Wtxt+Utht-1);
其中,xt是输入的第t个字符序列,Wt和Ut是线性变换中需要学习的参数。候选状态的计算过程如下:
其中,W和U是线性变换中需要学习的参数,tanh是双曲正切函数,具体公式如下:
其中,rt是重置门,它决定前一个状态流入到当前状态的信息,和更新门很相似,重置门的计算过程如下:
rt=σ(Wrxt+Urht-1);
在此,本实施例使用卷积中的窗口来控制着GRU当前的状态只能由指定的前kernel_size-1个隐藏状态决定,可以表示为:
ht=GRU(xt,xt-1...,xt-kernel_size+1);
其中,xt经过COW处理后的t时刻的字符向量。
步骤S4:对每次局部循环卷积的结果进行拼接,逐步得到上下文特征向量;
步骤S5:起始位置和终止位置均向预处理文本方向移动一个位置,判断终止位置是否小于预处理文本的序列长度,若满足条件,则跳转至步骤S3继续进行计算,否则退出循环,结束计算;
将初始位置和终止位置均沿着文本的方向移动过一个字符位置,进行下一次局部循环卷积计算,直到文本中所有的字符序列均计算过为止。
步骤5:特征提取模块使用多层感知机对局部循环卷积神经网络提取得到的上下文字词特征连接一层全连接神经网络,进一步提取高度抽象的上下文的文本特征,得到的上下文信息的高层次特征;
步骤4得到的结果表示为
其中,h代表步骤S3中得到的隐藏层状态结果,H则是整个集合,公式本身已表明该含义,R是实数集合,上标表示维度,是通用数学符号,dh是隐藏层的神经元个数,接下来,使用一层全连接神经网络对其进一步进行特征提取,抽取高度抽象的文本字词特征,过程如下:
H′=σ(WlH+bl);
其中,Wl和bl是需要训练的网络参数,dl是多层感知机隐藏层的神经元数量,得到的H′表示高度抽象的上下文字词特征表示。
步骤6:注意力计算模块对高层次特征进行一次注意力计算,将焦点聚集在能体现文本主题类别的关键字词上,其具体步骤如下:
步骤C1:对上下文字词特征向量进行线性变换,将其特征降低到一维,得到一个长度为文本序列大小的向量;
步骤C2:对步骤C1得到的向量进行归一化操作,得到上下文中每个字词的权重向量;
步骤C3:将权重向量与高层次特征相结合,得到新的上下文特征向量,该特征向量将焦点关注在对主题类别有贡献的关键字词上,设定该特征向量为主题特征向量;
使用一层注意力计算权重向量,得到文本中各字词的权重,具体的计算过程如下:
其中,s为权重向量,WT表示W的转置,
进行归一化操作,得到每个字词相应的权重,表示为atti,其具体公式如下:
其中,n表示文本字符的数量,k是一个求和变量,其取值为从1到n;
设定所述新的上下文特征向量为H′,根据以下公式计算H′的值:hi′=hi′*atti
步骤:7:池化模块对主题特征向量进行最大池化操作,形成最终的文本特征向量表示,具体步骤如下:
步骤D1:对主题特征向量执行卷积中的最大池化操作;
步骤D2:将二维的上下文特征压缩成一维,进一步提取关字词以及其位置信息,得到最终的文本特征表示;
所述最大池化操作为将所有字词每一维度的特征向量进行卷积中的max-pooling操作,再次保留关键字词及其位置信息,进行该操作后,得到最终的文本特征向量,表示为Hcontext
步骤8:在中心服务器中建立Softmax分类器,使用Softmax分类器对得到的文本特征向量进行一层全连接神经网络的计算,该层神经元个数为标签字典中主题的数量,得到文本数据属于各主题类别的得分,通过Softmax归一化计算得到文本数据属于各主题的概率,取概率最大的主题作为文本数据最终的主题类别,得到文本数据属于各主题类别的概率。
使用一层全连接神经网络将文本特征向量转换为该文本属于各主题类别的得分,过程如下所示:
其中,slogits表示文本属于各主题类别的分数,接着需要对其进行归一化操作:
其中,|Dictlabel|是主题类别的数量。catsi表示文本属于主题标签i的概率,k是一个求和变量。
优选的,在执行步骤3时,CBOW即为Continuous Bag of Words,是一个使用上下文与层当面字词的语言模型,在此,加载预训练好的CBOW模型,将每个字词转换为字向量,因此经过转换后的一文本表示为其中,xi表示第i个字符的字向量表示,n为一文本的长度,de为字向量的维度。
本发明所述的—基于焦点关注的主题类别分析方法,解决对主题特征差异不明显的情况下进行二次主题划分的技术问题,本发明提出的局部循环卷积网络既可以学习文本序列之间的字词关系,还可以提取文本中的关键字词和相应的位置信息,本发明采用基于焦点关注的主题类别分析方法,当主题特征差异不明显的时候依然能得到良好的分类效果。

Claims (5)

1.—基于焦点关注的主题类别分析方法,其特征在于:包括如下步骤:
步骤1:建立客户端服务器和中心服务器,客户端服务器用于获取原始文本,客户端服务器通过互联网与中心服务器通信;
在中心服务器中建立数据预处理模块、向量学习模块、特征提取模块、注意力计算模块和池化模块;
步骤2:中心服务器获取客户端服务器中的原始文本,并通过数据预处理模块进行清洗和筛选,生成预处理文本,其具体步骤如下:
步骤A1:获取原始文本的文本主题数据作为原始数据,对原始数据进行ETL处理,即抽取、转换和加载操作;
步骤A2:对原始数据进行文本数据和主题类别的提取;将文本数据和主题类别分别转换为文本列表和标签列表,每一条主题类别在标签列表中分别对应一条主题标签,文本列表中的每一条文本数据分别对应标签列表中的一条主题标签,对所有的文本数据进行分词操作,统计文本数据中所有的字词,形成字典表,将文本数据中的字词转化为字典表中的索引号,完成对文本数据的序列化操作,将序列化后的文本数据和对应的主体标签作为预处理文本;
步骤A3:创建一个数据生成器,每批次产生指定数量的预处理文本;
步骤3:向量学习模块对预处理文本进行向量学习,用向量表示预处理文本,具体步骤包括:使用CBOW训练预处理文本中的字词,得到关于预处理文本中所有字词的向量表示,即字向量,字向量代表每个字词的特征;加载训练得到的所有字向量,通过查找得到预处理文本中的每个字向量特征表示,完成对预处理文本的字向量表示;
步骤4:特征提取模块使用卷积神经网络对预处理文本进行特征提取,对预处理文本的字向量进行类卷积操作,指定卷积核的大小,规定在每个卷积窗口内执行相应的操作,通过局部循环神经网络学习预处理文本的字词含义,同时捕捉上下文之间的重要信息;
类卷积操作为局部循环神经网络GRU,通过局部循环神经网络GRU学习指定窗口大小内的上下文字词向量表示,包括如下步骤:
步骤S1:设置一个局部循环卷积的内核大小为kernel_size,指定循环网络只在kernel_size区域内进行执行运算;
步骤S2:对预处理文本进行补全操作,在预处理文本中的所有文本数据前面添加kernel_size-1个空缺字段在字典中对应的索引,设置起始位置为0,终止位置为kernel_size-1;
步骤S3:使用循环神经网络GRU对起始位置和终止位置之间的上下文进行编码,学习字词向量的表示方法,取最后一个字词的最终状态作为kernel_size区域内循环卷积的结果;
步骤S4:对每次局部循环卷积的结果进行拼接,逐步得到上下文特征向量;
步骤S5:起始位置和终止位置均向预处理文本方向移动一个位置,判断终止位置是否小于预处理文本的序列长度,若满足条件,则跳转至步骤S3继续进行计算,否则退出循环,结束计算;
步骤5:特征提取模块使用多层感知机对局部循环卷积神经网络提取得到的上下文字词特征连接一层全连接神经网络,进一步提取高度抽象的上下文的文本特征,得到的上下文信息的高层次特征;
步骤6:注意力计算模块对高层次特征进行一次注意力计算,将焦点聚集在能体现文本主题类别的关键字词上,其具体步骤如下:
步骤C1:对上下文字词特征向量进行线性变换,将其特征降低到一维,得到一个长度为文本序列大小的向量;
步骤C2:对步骤C1得到的向量进行归一化操作,得到上下文中每个字词的权重向量;
步骤C3:将权重向量与高层次特征相结合,得到新的上下文特征向量,该特征向量将焦点关注在对主题类别有贡献的关键字词上,设定该特征向量为主题特征向量;
步骤:7:池化模块对主题特征向量进行最大池化操作,形成最终的文本特征向量表示,具体步骤如下:
步骤D1:对主题特征向量执行卷积中的最大池化操作;
步骤D2:将二维的上下文特征压缩成一维,进一步提取关字词以及其位置信息,得到最终的文本特征表示;
步骤8:在中心服务器中建立Softmax分类器,使用Softmax分类器对得到的文本特征向量进行一层全连接神经网络的计算,该层神经元个数为标签字典中主题的数量,得到文本数据属于各主题类别的得分,通过Softmax归一化计算得到文本数据属于各主题的概率,取概率最大的主题作为文本数据最终的主题类别,得到文本数据属于各主题类别的概率。
2.如权利要求1所述的—基于焦点关注的主题类别分析方法,其特征在于:在执行步骤3时,CBOW即为Continuous Bag of Words,是一个使用上下文与层当面字词的语言模型,在此,加载预训练好的CBOW模型,将每个字词转换为字向量,因此经过转换后的一文本表示为X={x1,x2...,xn},其中,n为一文本的长度,de为字向量的维度。
3.如权利要求1所述的—基于焦点关注的主题类别分析方法,其特征在于:在执行步骤S2时,补全操作为在每个文本第一个字符前面补充kernel_size-1个0向量,即,设定两个变量pstart,pend分别表示初始位置和终止位置,其中,设定pstart=0,那么pend=pstart+kernel_size-1。
4.如权利要求1所述的—基于焦点关注的主题类别分析方法,其特征在于:在执行步骤6时,使用一层注意力计算权重向量,得到文本中各字词的权重,具体的计算过程如下:
s=σ(Ws TH′),
其中,s为权重向量,
进行归一化操作,得到每个字词相应的权重,表示为atti,其具体公式如下:
设定所述新的上下文特征向量为H′,根据以下公式计算H′的值:
hi′=hi′*atti
5.如权利要求1所述的—基于焦点关注的主题类别分析方法,其特征在于:在执行步骤D1时,所述最大池化操作为将所有字词每一维度的特征向量进行卷积中的max-pooling操作,再次保留关键字词及其位置信息。
CN201910567508.2A 2019-06-27 2019-06-27 —基于焦点关注的主题类别分析方法 Active CN110263174B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910567508.2A CN110263174B (zh) 2019-06-27 2019-06-27 —基于焦点关注的主题类别分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910567508.2A CN110263174B (zh) 2019-06-27 2019-06-27 —基于焦点关注的主题类别分析方法

Publications (2)

Publication Number Publication Date
CN110263174A true CN110263174A (zh) 2019-09-20
CN110263174B CN110263174B (zh) 2020-10-23

Family

ID=67922326

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910567508.2A Active CN110263174B (zh) 2019-06-27 2019-06-27 —基于焦点关注的主题类别分析方法

Country Status (1)

Country Link
CN (1) CN110263174B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111078895A (zh) * 2019-12-18 2020-04-28 江南大学 基于去噪卷积神经网络的远程监督实体关系抽取方法
CN111241294A (zh) * 2019-12-31 2020-06-05 中国地质大学(武汉) 基于依赖解析和关键词的图卷积网络的关系抽取方法
CN111274815A (zh) * 2020-01-15 2020-06-12 北京百度网讯科技有限公司 用于挖掘文本中的实体关注点的方法和装置
CN112580352A (zh) * 2021-03-01 2021-03-30 腾讯科技(深圳)有限公司 关键词提取方法、装置和设备及计算机存储介质
WO2022057786A1 (zh) * 2020-09-15 2022-03-24 智慧芽(中国)科技有限公司 基于多类型文本的自动分类方法、装置、设备和存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150331936A1 (en) * 2014-05-14 2015-11-19 Faris ALQADAH Method and system for extracting a product and classifying text-based electronic documents
CN108960314A (zh) * 2018-06-26 2018-12-07 北京旷视科技有限公司 基于难样本的训练方法、装置及电子设备
CN109376242A (zh) * 2018-10-18 2019-02-22 西安工程大学 基于循环神经网络变体和卷积神经网络的文本分类算法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150331936A1 (en) * 2014-05-14 2015-11-19 Faris ALQADAH Method and system for extracting a product and classifying text-based electronic documents
CN108960314A (zh) * 2018-06-26 2018-12-07 北京旷视科技有限公司 基于难样本的训练方法、装置及电子设备
CN109376242A (zh) * 2018-10-18 2019-02-22 西安工程大学 基于循环神经网络变体和卷积神经网络的文本分类算法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
刘婧等: "基于机器学习的文本分类技术研究进展", 《电脑迷》 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111078895A (zh) * 2019-12-18 2020-04-28 江南大学 基于去噪卷积神经网络的远程监督实体关系抽取方法
CN111078895B (zh) * 2019-12-18 2023-04-18 江南大学 基于去噪卷积神经网络的远程监督实体关系抽取方法
CN111241294A (zh) * 2019-12-31 2020-06-05 中国地质大学(武汉) 基于依赖解析和关键词的图卷积网络的关系抽取方法
CN111241294B (zh) * 2019-12-31 2023-05-26 中国地质大学(武汉) 基于依赖解析和关键词的图卷积网络的关系抽取方法
CN111274815A (zh) * 2020-01-15 2020-06-12 北京百度网讯科技有限公司 用于挖掘文本中的实体关注点的方法和装置
US11775761B2 (en) 2020-01-15 2023-10-03 Beijing Baidu Netcom Science And Technology Co., Ltd. Method and apparatus for mining entity focus in text
CN111274815B (zh) * 2020-01-15 2024-04-12 北京百度网讯科技有限公司 用于挖掘文本中的实体关注点的方法和装置
WO2022057786A1 (zh) * 2020-09-15 2022-03-24 智慧芽(中国)科技有限公司 基于多类型文本的自动分类方法、装置、设备和存储介质
CN112580352A (zh) * 2021-03-01 2021-03-30 腾讯科技(深圳)有限公司 关键词提取方法、装置和设备及计算机存储介质
CN112580352B (zh) * 2021-03-01 2021-06-04 腾讯科技(深圳)有限公司 关键词提取方法、装置和设备及计算机存储介质

Also Published As

Publication number Publication date
CN110263174B (zh) 2020-10-23

Similar Documents

Publication Publication Date Title
CN111897908B (zh) 融合依存信息和预训练语言模型的事件抽取方法及系统
CN109189925B (zh) 基于点互信息的词向量模型和基于cnn的文本分类方法
CN110263174A (zh) —基于焦点关注的主题类别分析方法
CN107943784B (zh) 基于生成对抗网络的关系抽取方法
CN111144448A (zh) 基于多尺度注意力卷积编码网络的视频弹幕情感分析方法
CN110020682A (zh) 一种基于小样本学习的注意力机制关系对比网络模型方法
CN109918671A (zh) 基于卷积循环神经网络的电子病历实体关系抽取方法
CN109271522A (zh) 基于深度混合模型迁移学习的评论情感分类方法及系统
CN108595602A (zh) 基于浅层模型与深度模型结合的问句文本分类方法
CN107025284A (zh) 网络评论文本情感倾向的识别方法及卷积神经网络模型
CN106980608A (zh) 一种中文电子病历分词和命名实体识别方法及系统
CN108830287A (zh) 基于残差连接的Inception网络结合多层GRU的中文图像语义描述方法
CN110502753A (zh) 一种基于语义增强的深度学习情感分析模型及其分析方法
CN109635150A (zh) 文本生成方法、装置以及存储介质
CN106919951A (zh) 一种基于点击与视觉融合的弱监督双线性深度学习方法
CN110188195B (zh) 一种基于深度学习的文本意图识别方法、装置及设备
CN108563624A (zh) 一种基于深度学习的自然语言生成方法
CN106991386A (zh) 一种基于深度残差网络的手势识别方法
CN110287323A (zh) 一种面向目标的情感分类方法
CN106845528A (zh) 一种基于K‑means与深度学习的图像分类算法
CN110825850B (zh) 一种自然语言主题分类方法及装置
CN113806494B (zh) 一种基于预训练语言模型的命名实体识别方法
CN111292195A (zh) 风险账户的识别方法及装置
CN107818080A (zh) 术语识别方法及装置
CN108171318A (zh) 一种基于模拟退火—高斯函数的卷积神经网络集成方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant