CN111930892A - 一种基于改进互信息函数的科技文本分类方法 - Google Patents

一种基于改进互信息函数的科技文本分类方法 Download PDF

Info

Publication number
CN111930892A
CN111930892A CN202010786910.2A CN202010786910A CN111930892A CN 111930892 A CN111930892 A CN 111930892A CN 202010786910 A CN202010786910 A CN 202010786910A CN 111930892 A CN111930892 A CN 111930892A
Authority
CN
China
Prior art keywords
text
word
data
scientific
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010786910.2A
Other languages
English (en)
Other versions
CN111930892B (zh
Inventor
徐光侠
胡新庭
覃思诗
产拙
袁野
张家俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Post and Telecommunications
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN202010786910.2A priority Critical patent/CN111930892B/zh
Publication of CN111930892A publication Critical patent/CN111930892A/zh
Application granted granted Critical
Publication of CN111930892B publication Critical patent/CN111930892B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3335Syntactic pre-processing, e.g. stopword elimination, stemming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及计算机领域,尤其涉及一种基于改进互信息函数的科技文本分类方法,包括构建科技文本数据库,对数据库中的科技文本进行数据融合,通过对目标文本进行分词,通过word2vec模型得出词向量;构建文本特征提取模型,并为每个词向量根据TF‑ATF模型计算权值,根据权值更新词向量的表示;构建改进互信息函数计算词向量的互信函数值,根据该函数更新词向量的表示;构建合并同义词或近义词的语义距离模型,剔除其中权值较小的词,将合并后的词向量进行正则化,得到最终的文本特征向量;利用LSTM模型对文本特征向量进行训练,利用训练好的模型对科技文本进行分类;本发明可以通过科技文本分类对主题进行分类,优化资讯浏览体验。

Description

一种基于改进互信息函数的科技文本分类方法
技术领域
本发明涉及计算机领域,尤其涉及一种基于改进互信息函数的科技文本分类方法。
背景技术
目前,我国互联网、移动互联网用户规模居全球第一,拥有丰富的数据资源和应用市场优势,大数据部分关键技术研发取得突破。而由于当前科技信息管理混乱,数据模型未统一,同一信息可能因为不同业务格式存在文本上的差异,没有统一的标准,这会严重影响科技系统的各项业务效率和成本。因此,对科技系统中的海量电子文本进行检索和信息提取,再进一步进行分类,就显得十分有意义。
文本分类(Text Classification)是自然语言处理(NLP)的主要研究问题之一,指的是在一个被事先定义好的固定类别中根据文本的特征将给定的文本对象进行分类的技术。典型的应用有判定垃圾邮件、网页自动分类、情感分类和新闻个性化推荐等。
20世纪50年代,单纯依靠文档中出现与类名相同的词来进行文档分类的词匹配法出现,之后又出现了向量空间模型和知识工程,但这些算法十分依赖于人力,且方法十分简单,分类结果并不能满足要求。之后,随着机器学习算法的发展,SVM模型、贝叶斯网络、决策树等算法开始应用于文本分类。现如今,人工智能(AI)技术的快速发展使文本分类得到了新的发展,其成为了AI子领域自然语言处理(NLP)的一个重要分支,神经网络,如卷积神经网络(CNN)与深度神经网络(DNN)也越来越多的应用到文本分类中来。但这些传统的网络存在梯度消失问题,无法处理长时间序列数据。
发明内容
为了能够通过科技文本数据特征快速的对科技文本进行分类,本文提出一种基于改进互信息函数的科技文本分类方法,所述方法包括以下步骤:
S1、构建科技文本数据库,进行数据预处理,包括对数据库中的科技文本进行数据融合,通过对目标文本进行分词,通过word2vec模型得出词向量;
S2、构建改进互信息函数,通过添加词频信息降低低频词的扰乱,并将低频词进行剔除,计算文本中所有词向量的互信息函数值;
S3、构建文本特征提取模型,并为每个词向量根据TF-ATF模型计算权值,统计特征词出现次数不少于min次的文本数据,并更新词向量的表示;
S4、构建语义距离模型,将符合要求的同义词或近义词进行合并,并剔除其中权值较小的词,将合并后的词向量进行正则化,得到最终的文本特征向量;
S5、利用LSTM模型对文本特征向量进行训练,利用训练好的模型对科技文本进行分类。
进一步的,目标文本为科技文本信息,科技文本信息包括科技项目数据、科技企业数据、科技金融服务数据、科技人才数据,针对来源不同、数据结构不同的数据进行多源异构数据的融合。
进一步的,针对来源不同、数据结构不同的数据进行多源异构数据的融合过程包括:
将数据所属数据表名作为本体名,将文本类型数据表直接构建为一个本体对象,若不是文本类型数据则读取该数据的表头作为本体类,同时循环的读取该表每一行的数据创建本体对象;
读取完所有数据表之后进行本体的融合,寻找不同本体类之间相同的属性作为结合点,创建一个空的本体,本体类为待融合的本体类的并集,复制待融合本体对象到该本体中,同时删除多余的结合点数据,完成本体的融合;
对于非文本类型的本体对象,通过本体类名加上本体对象值的形式转化为文本类型的本体对象,并通过文本拼接的方式,将相同本体类的文本数据组合为一个本体对象。
进一步的,对目标文本进行分词包括:
利用字符串处理划分出目标文本的句子,并对句子进行清洗,如果含有特殊字符,则将其分离;
根据词典建立的Trie字典树、根据清洗后的句子建立DAG词图,计算全局概率Route得到基于前缀词典的词频最大切分组合;
将词典中出现的词直接输出,未出现的词利用Token识别将中文英文数字分开进行处理;
对于除中文以外的字符直接输出,中文字符里面HMM概率图模型并利用Viterbi动态规划取得分词和标注并输出。
进一步的,词向量转换模型word2vec包括:
将文本数据进行One-Hot编码处理转换为词汇表向量;
将词汇表向量输入到Skip-gram模型根据每个词汇相邻关系进行向量转换,缩减词汇表维度;
输出词向量并添加值为零的权值参数,输出为
Figure BDA0002622332910000031
其中,X为添加权值参数之后的词向量表示,xi为词向量,ωi为权值参数。
进一步的,根据TF-ATF模型计算权值包括:
Figure BDA0002622332910000032
其中,TF(t)代表特征词t的词频;ATF(t)为特征词t的平均词频类间集中度;DF(t,Ci)代表特征词t在Ci类中所出现的文档频率;DF(t)代表特征词t在训练样本中出现的文档频度;
Figure BDA0002622332910000033
代表特征词在文档频类间集中度。
进一步的,计算文本中所有词向量的互信函数值,并更新词向量的表示时,利用互信息函数值作为特征的权值来更新词向量表示,改进互信息函数表示为:
Figure BDA0002622332910000034
其中,αi代表词频类间集中度,表示为
Figure BDA0002622332910000041
tfi(t)表示特征词t在该类文本中出现的次数,m是总文本类别数;βi代表文档频数内的分散度和集中度,表示为
Figure BDA0002622332910000042
dfi(t)表示文本类别特征数量,|ci|表示该类文本的数量,P(ti,cj)代表文本中某一个特征ti在文本的某个类别ci中出现的概率,P(ti)代表特征ti出现的概率,P(cj)代表类别ci出现的概率。
进一步的,构建语义距离模型包括:
将特征向量表示为
Figure BDA0002622332910000043
其中xi代表特征词的词向量表示,ωi表示该词的文本特征模型,n表示特征词的数量;
计算两个特征词的相似度Sim(wi,wj),相似度大于设定阈值的两个特征词属于近义词或同义词;
计算两个特征词的相关度Rels(wi,wj),如果两个特征词之间相关度大于设定阈值的两个特征词属于近义词或同义词;
根据通过
Figure BDA0002622332910000044
判断是否对同义词、近义词进行合并,若SR的值大于设定阈值则将两个特征词向量的权值进行相加,即ω=ωij,同时删除词频较小的特征词,以词频较大的特征词作为合并后的代表词向量,该合并之后的特征向量表示为X=(x,ω),x为词频较大的特征词的词向量;
其中,
Figure BDA0002622332910000047
为特征词相似度系数,取值为(0,1)。
进一步的,对词向量进行正则化,表示为:
Figure BDA0002622332910000045
其中,L代表正则项;Ein是未包含正则化项的训练样本误差,λ是正则化参数,
Figure BDA0002622332910000046
为词向量参数的平方和。
进一步的,步骤S5具体包括:
对LSTM模型中的神经单元进行改进,将神经单元转化为输入门、遗忘门和输出门,使得遗忘门中长期状态更新表示为:
Figure BDA0002622332910000051
计算获取到长期状态Ct之后,计算该时刻的输出分类结果ht,表示为:
Figure BDA0002622332910000052
其中,ft为遗忘门函数;σ1为遗忘系数;Wf为遗忘门权值;ht-1为上一个神经元计算结果;bf为遗忘门偏置;it为输入门函数;bi为输入门偏置;
Figure BDA0002622332910000053
为短期状态;Wc为短期状态参数;bc为短期状态偏置;Ct为长期状态;ot为输出函数,σ2为输出函数系数,Wf为输出函数的参数,xt为t时刻的词向量,bo为输出函数的偏置。
本发明有以下有益效果:
1)、利用TFATF模型提取文本关键特征,并计算特征之间的语义距离用于合并同义词,减少了对同义词的处理,降低了算法时间复杂度;
2)、多源科技文本融合技术是基于本体模型构建、融合进行实现,改进互信息函数通过计算词频将低频词的权重降低,即令分类更加精确。
附图说明
图1是本发明一种基于改进互信息函数的科技文本分类方法流程图;
图2是本发明的LSTM网络中的一个神经元中内部结构。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提出一种基于改进互信息函数的科技文本分类方法,其特征在于,所述方法包括以下步骤:
S1、构建科技文本数据库,进行数据预处理,包括对数据库中的科技文本进行数据融合,通过对目标文本进行分词,通过word2vec模型得出词向量;
S2、构建文本特征提取模型,并为每个词向量根据TF-ATF模型计算权值,统计特征词出现次数不少于min次的文本数据,并根据权值更新词向量的表示;
S3、构建改进互信息函数,计算文本中所有词向量的互信函数值,并根据互信函数值更新词向量的表示;
S4、构建语义距离模型,将符合要求的同义词或近义词进行合并,并剔除其中权值较小的词,将合并后的词向量进行正则化,得到最终的文本特征向量;
S5、利用LSTM模型对文本特征向量进行训练,利用训练好的模型对科技文本进行分类。
进一步的,目标文本为科技文本信息,科技文本信息包括科技项目数据、科技企业数据、科技金融服务数据、科技人才数据,针对来源不同、数据结构不同的数据进行多源异构数据的融合。
如图1,本发明将多远科技文本数据输入之后,对历史数据或者待分类的数据进行预处理和特征提取,将从历史数据提取得到的特征输入到LSTM模型进行训练、将待分类的数据输入训练好的LSTM模型进行分类,即可获取待分类数据的分类结果。
实施例1
本实施例给出一种针对来源不同、数据结构不同的数据进行多源异构数据的融合过程的具体实施方式,即基于本体的多元数据融合的具体实施方式。
针对来源不同、数据结构不同的数据进行多源异构数据的融合过程包括:将数据所属数据表名作为本体名,将文本类型数据表直接构建为一个本体对象,若不是文本类型数据则读取该数据的表头作为本体类,同时循环的读取该表每一行的数据创建本体对象;
读取完所有数据表之后进行本体的融合,寻找不同本体类之间相同的属性作为结合点,创建一个空的本体,本体类为待融合的本体类的并集,复制待融合本体对象到该本体中,同时删除多余的结合点数据,完成本体的融合;
对于非文本类型的本体对象,通过本体类名加上本体对象值的形式转化为文本类型的本体对象,并通过文本拼接的方式,将相同本体类的文本数据组合为一个本体对象。
本实施例基于本体模型的信息融合,本体是概念化的明确的规范说明,包括四个关键点:概念化、明确、形式化和共享;
本体由类、属性、关系、实例、函式术语、约束、规则和公理;
本体常见的语言包括RDF、RDF-S、OIL、DAML、OWL、KIF、SHOE、XOL、OCML、Ontolingua、CycL。
文本融合又建立在本体构建的基础之上,采用半自动化的方法在两个独立本体的类之间添加关系,建立两个本体的关联;关联的类型可以为等价、包含或者用户自定义的其他关联类型,融合的过程体现为本体间的彼此信息补充与扩展;根据前述融合方法,本体融合的方法可以概括地分为三步,包括:
1)进行本体的构建、把数据表转化为本体,本体之间是独立的;
2)确定融合点,即判断本体中的类是否存在异构,找到可以相关联的结合点;
3)在确定融合点之后,删除本体内旧关系,创建本体之间的关系。
具体来说,通过将不同来源的科技文本数据根据所属的数据库创建本体名,获取数据库并循环的根据数据项名称创建类的属性,读取数据表中每行数据,循环判断实例是否存在,若不存在则创建,否则放置在添加的所属实例之后;直到读取完成,保存本体作为一个来源的实例,以此完成本体的构建;构建完成之后,确定其中的融合点,即判断本体中的类是否存在异构,找到可以相关的结合点,在确定融合点后,删除本体内部的旧关系,创建本体之间的新关系。
由于存在大量的数据,为了保证计算的效率选择通过MapReduce框架进行本机的构建与融合,MapReduce采用“分而治之”的思想,用Map和Reduce简化了分布式计算内部的操作,通过将多源的科技文本数据存储在HDFS之中,遍历HDFS文件系统并对其中的文本数据进行切片转化为小的文件(InputSplit)发送给各个节点,每个Map节点在接收到InputSplit之后根据元数据获取本体模型和指定的类,并利用该类获取到所有的数据类型,利用value存储元数据的文件,并循环的将value添加到对应的数据类中,并存入生成实例中,最后将实例写入context中,传递给Reduce;
Reduce过程先合并零散的本体实例,并存入HDFS中,之后遍历所有文件,并构造本体,依次将同一类型的本体进行合并;
循环结束后将汇总的问题写入规定的数据之中生成总的本体,新建一个新本体用于MapReduce本体融合,复制待融合的本体模型中的所有类和属性关系到新本体;
之后,根据用户定义的两个待融合本体间的对象关系属性,在新本体中添加关系,并把原有的数据类型属性删除,完成了新本体模型的创建,把新本体模型保存至待融合本体的实例可保存在数据库中。
根据新本体模型,依次读取主类中的实例数据,获取指定的关键字并根据关键字依次在数据中查询对应类的同名实例,将主类实例和同名实例分别作为key和value并将<key,value>传递到Reduce中;利用Reduce进行循环判断如果key对应的value数量>1那么将key、value的每一个对应组写入最终融合的本体之中,将结果保存在HDFS之中。
实施例2
本实施例提供一种获取文本特征向量的具体实施方式。
在完成融合之后,利用Jieba进行分词便于为之后的词频统计做准备,Jieba分词可以直接在Hadoop环境下进行处理,通过引入jieba-analysis的jar包进行分词;
科技文本数据先利用根据句号、分号等字符进行字符串处理划分出完整句子,将句子进行清洗,如果含有特殊字符,则将其分离;
根据词典建立的Trie字典树,并为句子建立DAG词图,计算全局概率Route得到基于前缀词典的词频最大切分组合,将词典中出现的词进行输出,未出现的词利用Token识别将中文英文数字分开进行处理,对于除中文以外的字符直接数据,中文字符里面HMM概率图模型并利用Viterbi动态规划取得分词和标注并输出。
在获取分词之后,将每个词进行词向量的转换,通过word2vec算法将所有的词转化为词向量,具体包括:
通过One-Hot的编码方式将词逐一编号并转化为向量形式,导入到Skip-gram模型根据每个词汇的相邻关系将原始的向量转化为维度更小的向量;
将维度更小的向量转化为
Figure BDA0002622332910000091
其中xi第i个词的词向量表示,ωi初始为第i个词的权值,初始值为零;
在获取到词向量之后,进行特征词向量的选取,选取标准为TF-ATF的值,其公式表示为:
Figure BDA0002622332910000092
其中,TF(t)代表特征词t的词频;ATF(t)为特征词t的平均词频类间集中度;DF(t,Ci)代表特征词t在Ci类中所出现的文档频率,DF(t)代表特征词t在训练样本中出现的文档频度,
Figure BDA0002622332910000093
代表特征词在文档频类间集中度;根据TF-ATF(t)的值选取大于设定的阈值的特征词,即更能体现文本特征的词作为文本特征,将选出的特征词记为
Figure BDA0002622332910000094
在完成特征词向量的选取之后,依次对每个词进行改进互信息函数的计算,改进互信息函数的公式为:
Figure BDA0002622332910000095
其中,αi代表词频类间集中度,表示为
Figure BDA0002622332910000096
tfi(t)表示特征词t在该类文本中出现的次数,m是总文本类别数;βi代表文档频数内的分散度和集中度,表示为
Figure BDA0002622332910000101
dfi(t)表示文本类别特征数量,|ci|表示该类文本的数量,P(ti,cj)代表文本中某一个特征ti在文本的某个类别ci中出现的概率,P(ti)代表特征ti出现的概率,P(cj)代表类别ci出现的概率。
为了节省计算开销,将词向量进一步减少,通过计算语义距离模型:
计算两个特征词的相似度Sim(wi,wj),相似度大于设定阈值的两个特征词属于同类词,相似度计算公式为:
Figure BDA0002622332910000102
其中,vec(wi)和vec(wj)分别代表wi和wj的词向量,即词wi和wj的X″值;
计算两个特征词的相关度Rels(wi,wj),如果两个特征词之间相关度大于设定的阈值则可以判断两个特征词为同类词,相关度表示为:
Rels(wi,wj)=logp(wi|wj)-logcount(wj);
其中,p(wi|wj)是特征词wj出现的情况下,特征词wi的出现概率;count(wj)是特征词wj的总数量,对这两个值求对数是为了保证结果在0-1之间。
计算语义距离之后,可以根据通过
Figure BDA0002622332910000103
其中
Figure BDA0002622332910000104
代表系数,SR的值用于判断是否对同义词、近义词进行合并。若SR的值大于设定阈值则将同义特征词向量的权值进行相加,即ω=ωij,同时删除词频较小的特征词,以词频较大的特征词作为合并后的代表词向量X=(x,ω)。
实施例3
本实施例给出一种改进的LSTM模型,利用该模型对根据实施例1~2得到的文本特征向量进行训练,并利用训练好的模型对位置类别的科技文本进行分类。
为减少训练过程中产生的误差,对词向量进行正则化,表示为:
Figure BDA0002622332910000105
其中,L代表正则项;Ein是未包含正则化项的训练样本误差,λ是正则化参数,
Figure BDA0002622332910000111
为词向量参数的平方和,可利用利用更宽松的限定条件避免模型过于复杂,即
Figure BDA0002622332910000112
其中C表示限定阈值。
在本实施例中,对LSTM模型中的神经单元进行改进,将神经单元转化为输入门、遗忘门和输出门,使得序列的长期状态可以保存下来,并传递到下一层,遗忘门中长期状态更新表示为:
Figure BDA0002622332910000113
其中,ft为遗忘门函数;σ1为遗忘系数;Wf为遗忘门权值;ht-1为上一个神经元计算结果;xt为t时刻的词向量;bf为遗忘门偏置;it为输入门函数;σ2为输入函数系数;bi为输入门偏置;
Figure BDA0002622332910000114
为短期状态;Wc为短期状态参数;bc为短期状态偏置;Ct为长期状态。
通过遗忘门计算出长期状态Ct之后,计算该时刻的输出,即分类结果ht,表示为:
Figure BDA0002622332910000115
其中,ot为输出函数,σ3为输出函数系数,Wf为输出函数的参数bo为输出函数的偏置;输出函数结果与更新的长期状态Ct进行计算得到ht的值,即分类的结果。
改进的LSTM模型如图2所示,通过输入当前文本Xi与上一次输出的分类结果ht-1、以及上一次长期状态Ct-1,获取当前文本Xi的分类结果ht以及当前长期状态Ct,将分类结果ht输出给用户,并保存分类结果ht、长期状态Ct作为计算下一文本分类结果的参数。
整个方法的伪代码如下:定义融合之后输入的文本Y,其某个文本X经过预处理以及特征提取得到特征向量
Figure BDA0002622332910000116
作为LSTM神经网络的输入节点,输出为分类模型对所有文本集合Y做出的分类预测类别集合CY
输入:多源科技文本;输出:分类预测类别CY
步骤1:利用本体模型进行多源数据融合;
步骤2:分词并用word2vec生成词向量
Figure BDA0002622332910000121
步骤3:利用TFATF进行特征提取,选出的词向量
Figure BDA0002622332910000122
步骤4:计算改进互信息值
Figure BDA0002622332910000123
得出权值ω;
步骤5:根据控制阈值b获得模型输入特征集合X";
步骤6:CY=LSTM(X")。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (10)

1.一种基于改进互信息函数的科技文本分类方法,其特征在于,所述方法包括以下步骤:
S1、构建科技文本数据库,进行数据预处理,包括对数据库中的科技文本进行数据融合,通过对目标文本进行分词,通过word2vec模型得出词向量;
S2、构建文本特征提取模型,并为每个词向量根据TF-ATF模型计算权值,统计特征词出现次数不少于min次的文本数据,并根据权值更新词向量的表示;
S3、构建改进互信息函数,计算文本中所有词向量的互信函数值,并根据互信息函数值更新词向量的表示;
S4、构建语义距离模型,将符合要求的同义词或近义词进行合并,并剔除其中权值较小的词,将合并后的词向量进行正则化,得到最终的文本特征向量;
S5、利用LSTM模型对文本特征向量进行训练,利用训练好的模型对科技文本进行分类。
2.根据权利要求1所述的一种基于改进互信息函数的科技文本分类方法,其特征在于,目标文本为科技文本信息,科技文本信息包括科技项目数据、科技企业数据、科技金融服务数据、科技人才数据,针对来源不同、数据结构不同的数据进行多源异构数据的融合。
3.根据权利要求2所述的一种基于改进互信息函数的科技文本分类方法,其特征在于,针对来源不同、数据结构不同的数据进行多源异构数据的融合过程包括:
将数据所属数据表名作为本体名,将文本类型数据表直接构建为一个本体对象,若不是文本类型数据则读取该数据的表头作为本体类,同时循环的读取该表每一行的数据创建本体对象;
读取完所有数据表之后进行本体的融合,寻找不同本体类之间相同的属性作为结合点,创建一个空的本体,本体类为待融合的本体类的并集,复制待融合本体对象到该本体中,同时删除多余的结合点数据,完成本体的融合;
对于非文本类型的本体对象,通过本体类名加上本体对象值的形式转化为文本类型的本体对象,并通过文本拼接的方式,将相同本体类的文本数据组合为一个本体对象。
4.根据权利要求1所述的一种基于改进互信息函数的科技文本分类方法,其特征在于,对目标文本进行分词包括:
利用字符串处理划分出目标文本的句子,并对句子进行清洗,如果含有特殊字符,则将其分离;
根据词典建立的Trie字典树、根据清洗后的句子建立DAG词图,计算全局概率Route得到基于前缀词典的词频最大切分组合;
将词典中出现的词直接输出,未出现的词利用Token识别将中文英文数字分开进行处理;
对于除中文以外的字符直接输出,中文字符里面HMM概率图模型并利用Viterbi动态规划取得分词和标注并输出。
5.根据权利要求1所述的一种基于改进互信息函数的科技文本分类方法,其特征在于,词向量转换模型word2vec包括:
将文本数据进行One-Hot编码处理转换为词汇表向量;
将词汇表向量输入到Skip-gram模型根据每个词汇相邻关系进行向量转换,缩减词汇表维度;
输出词向量并添加值为零的权值参数,输出为
Figure FDA0002622332900000021
其中,X为添加权值参数之后的词向量表示,xi为词向量,ωi为权值参数。
6.根据权利要求1所述的一种基于改进互信息函数的科技文本分类方法,其特征在于,根据TF-ATF模型计算权值包括:
Figure FDA0002622332900000022
其中,TF(t)代表特征词t的词频;ATF(t)为特征词t的平均词频类间集中度;DF(t,Ci)代表特征词t在Ci类中所出现的文档频率;DF(t)代表特征词t在训练样本中出现的文档频度;
Figure FDA0002622332900000031
代表特征词在文档频类间集中度。
7.根据权利要求1所述的一种基于改进互信息函数的科技文本分类方法,其特征在于,计算文本中所有词向量的互信函数值,并更新词向量的表示时,利用互信息函数值作为特征的权值来更新词向量表示,改进互信息函数表示为:
Figure FDA0002622332900000032
其中,αi代表词频类间集中度,表示为
Figure FDA0002622332900000033
tfi(t)表示特征词t在该类文本中出现的次数,m是总文本类别数;βi代表文档频数内的分散度和集中度,表示为
Figure FDA0002622332900000034
dfi(t)表示文本类别特征数量,|ci|表示该类文本的数量,P(ti,cj)代表文本中某一个特征ti在文本的某个类别ci中出现的概率,P(ti)代表特征ti出现的概率,P(cj)代表类别ci出现的概率。
8.根据权利要求1所述的一种基于改进互信息函数的科技文本分类方法,其特征在于,构建语义距离模型包括:
将特征向量表示为
Figure FDA0002622332900000035
其中xi代表特征词的词向量表示,ωi表示该词的文本特征模型,n表示特征词的数量;
计算两个特征词的相似度Sim(wi,wj),相似度大于设定阈值的两个特征词属于近义词或同义词;
计算两个特征词的相关度Rels(wi,wj),如果两个特征词之间相关度大于设定阈值的两个特征词属于近义词或同义词;
根据通过
Figure FDA0002622332900000036
判断是否对同义词、近义词进行合并,若SR的值大于设定阈值则将两个特征词向量的权值进行相加,即ω=ωij,同时删除词频较小的特征词,以词频较大的特征词作为合并后的代表词向量X=(x,ω);
其中,
Figure FDA0002622332900000037
为特征词相似度系数,取值为(0,1)。
9.根据权利要求1所述的一种基于改进互信息函数的科技文本分类方法,其特征在于,对词向量进行正则化,表示为:
Figure FDA0002622332900000041
其中,L代表正则项;Ein是未包含正则化项的训练样本误差,λ是正则化参数,
Figure FDA0002622332900000042
为词向量参数的平方和。
10.根据权利要求1所述的一种基于改进互信息函数的科技文本分类方法,其特征在于,步骤S5具体包括:
对LSTM模型中的神经单元进行改进,将神经单元转化为输入门、遗忘门和输出门,使得遗忘门中长期状态更新表示为:
Figure FDA0002622332900000043
计算获取到长期状态Ct之后,计算该时刻的输出分类结果ht,表示为:
Figure FDA0002622332900000044
其中,ft为遗忘门函数;σ1为遗忘系数;Wf为遗忘门权值;ht-1为上一个神经元计算结果;bf为遗忘门偏置;it为输入门函数;σ2为输入门函数系数;bi为输入门偏置;
Figure FDA0002622332900000045
为短期状态;Wc为短期状态参数;bc为短期状态偏置;Ct为长期状态;ot为输出函数,σ3为输出函数系数,Wf为输出函数的参数,xt为t时刻的词向量,bo为输出函数的偏置。
CN202010786910.2A 2020-08-07 2020-08-07 一种基于改进互信息函数的科技文本分类方法 Active CN111930892B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010786910.2A CN111930892B (zh) 2020-08-07 2020-08-07 一种基于改进互信息函数的科技文本分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010786910.2A CN111930892B (zh) 2020-08-07 2020-08-07 一种基于改进互信息函数的科技文本分类方法

Publications (2)

Publication Number Publication Date
CN111930892A true CN111930892A (zh) 2020-11-13
CN111930892B CN111930892B (zh) 2023-09-29

Family

ID=73306917

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010786910.2A Active CN111930892B (zh) 2020-08-07 2020-08-07 一种基于改进互信息函数的科技文本分类方法

Country Status (1)

Country Link
CN (1) CN111930892B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113779196A (zh) * 2021-09-07 2021-12-10 大连大学 一种融合多层次信息的海关同义词识别方法
CN114822527A (zh) * 2021-10-11 2022-07-29 北京中电慧声科技有限公司 一种语音转文本的纠错方法、装置及电子设备和存储介质
CN116664319A (zh) * 2023-08-01 2023-08-29 北京力码科技有限公司 一种基于大数据的金融保单分类系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7376635B1 (en) * 2000-07-21 2008-05-20 Ford Global Technologies, Llc Theme-based system and method for classifying documents
CN107526805A (zh) * 2017-08-22 2017-12-29 杭州电子科技大学 一种基于权重的ML‑kNN多标签中文文本分类方法
CN109189925A (zh) * 2018-08-16 2019-01-11 华南师范大学 基于点互信息的词向量模型和基于cnn的文本分类方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7376635B1 (en) * 2000-07-21 2008-05-20 Ford Global Technologies, Llc Theme-based system and method for classifying documents
CN107526805A (zh) * 2017-08-22 2017-12-29 杭州电子科技大学 一种基于权重的ML‑kNN多标签中文文本分类方法
CN109189925A (zh) * 2018-08-16 2019-01-11 华南师范大学 基于点互信息的词向量模型和基于cnn的文本分类方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
XIAOMING DING: "Improved mutual information method for text feature selection", 《2013 8TH INTERNATIONAL CONFERENCE ON COMPUTER SCIENCE&EDUCATION》 *
XU GUANGXIA: "A Survey for Mobility Big Data Analytics for Geolocation Prediction", 《 IEEE WIRELESS COMMUNICATIONS》 *
王燕霞: "基于相关主题模型的文本分类方法研究", 《硕士电子期刊》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113779196A (zh) * 2021-09-07 2021-12-10 大连大学 一种融合多层次信息的海关同义词识别方法
CN113779196B (zh) * 2021-09-07 2024-02-13 大连大学 一种融合多层次信息的海关同义词识别方法
CN114822527A (zh) * 2021-10-11 2022-07-29 北京中电慧声科技有限公司 一种语音转文本的纠错方法、装置及电子设备和存储介质
CN116664319A (zh) * 2023-08-01 2023-08-29 北京力码科技有限公司 一种基于大数据的金融保单分类系统

Also Published As

Publication number Publication date
CN111930892B (zh) 2023-09-29

Similar Documents

Publication Publication Date Title
RU2628436C1 (ru) Классификация текстов на естественном языке на основе семантических признаков
RU2628431C1 (ru) Подбор параметров текстового классификатора на основе семантических признаков
US10007658B2 (en) Multi-stage recognition of named entities in natural language text based on morphological and semantic features
RU2679988C1 (ru) Извлечение информационных объектов с помощью комбинации классификаторов
US20190384816A1 (en) Information extraction from natural language texts
US20190392035A1 (en) Information object extraction using combination of classifiers analyzing local and non-local features
CN111930892B (zh) 一种基于改进互信息函数的科技文本分类方法
CN116127090B (zh) 基于融合和半监督信息抽取的航空系统知识图谱构建方法
CN112487190B (zh) 基于自监督和聚类技术从文本中抽取实体间关系的方法
CN116521882A (zh) 基于知识图谱的领域长文本分类方法及系统
CN114239828A (zh) 一种基于因果关系的供应链事理图谱构建方法
Kalo et al. Knowlybert-hybrid query answering over language models and knowledge graphs
Monika et al. Machine learning approaches for sentiment analysis: A survey
Alves et al. UNER: Universal Named-Entity RecognitionFramework
Devarajan et al. Analyzing semantic similarity amongst textual documents to suggest near duplicates
Bao et al. HTRM: a hybrid neural network algorithm based on tag-aware
CN116628329A (zh) 融合多通道语义信息与标签协作的Web服务类别标签推荐方法
Jardaeh et al. ArEmotive Bridging the Gap: Automatic Ontology Augmentation using Zero-shot Classification for Fine-grained Sentiment Analysis of Arabic Text
Shahade et al. Deep learning approach-based hybrid fine-tuned Smith algorithm with Adam optimiser for multilingual opinion mining
Burgdorf et al. DocSemMap 2.0: Semantic Labeling Based on Textual Data Documentations Using Seq2Seq Context Learner
CN113111288A (zh) 一种融合非结构化和结构化信息的Web服务分类方法
Fan et al. Topic modeling methods for short texts: A survey
Wu et al. A Text Emotion Analysis Method Using the Dual‐Channel Convolution Neural Network in Social Networks
Zhang et al. Case Element Joint Extraction Based on Case Field Correlation and Dependency Graph Convolutional Network
Wang et al. A text classification model for hypergraph convolutional neural networks with multi-feature fusion

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant