CN111930892A - 一种基于改进互信息函数的科技文本分类方法 - Google Patents
一种基于改进互信息函数的科技文本分类方法 Download PDFInfo
- Publication number
- CN111930892A CN111930892A CN202010786910.2A CN202010786910A CN111930892A CN 111930892 A CN111930892 A CN 111930892A CN 202010786910 A CN202010786910 A CN 202010786910A CN 111930892 A CN111930892 A CN 111930892A
- Authority
- CN
- China
- Prior art keywords
- text
- word
- data
- scientific
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 35
- 239000013598 vector Substances 0.000 claims abstract description 90
- 230000004927 fusion Effects 0.000 claims abstract description 25
- 238000012549 training Methods 0.000 claims abstract description 11
- 238000000605 extraction Methods 0.000 claims abstract description 5
- 230000006870 function Effects 0.000 claims description 46
- 230000007774 longterm Effects 0.000 claims description 10
- 230000011218 segmentation Effects 0.000 claims description 10
- 230000008569 process Effects 0.000 claims description 8
- 238000005516 engineering process Methods 0.000 claims description 7
- 238000012545 processing Methods 0.000 claims description 7
- 230000001537 neural effect Effects 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 5
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 210000002569 neuron Anatomy 0.000 claims description 4
- 238000007781 pre-processing Methods 0.000 claims description 4
- 238000004140 cleaning Methods 0.000 claims description 3
- 239000006185 dispersion Substances 0.000 claims description 3
- 238000010276 construction Methods 0.000 description 4
- 238000003058 natural language processing Methods 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000007499 fusion processing Methods 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000013499 data model Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000012905 input function Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000007500 overflow downdraw method Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3335—Syntactic pre-processing, e.g. stopword elimination, stemming
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/247—Thesauruses; Synonyms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及计算机领域,尤其涉及一种基于改进互信息函数的科技文本分类方法,包括构建科技文本数据库,对数据库中的科技文本进行数据融合,通过对目标文本进行分词,通过word2vec模型得出词向量;构建文本特征提取模型,并为每个词向量根据TF‑ATF模型计算权值,根据权值更新词向量的表示;构建改进互信息函数计算词向量的互信函数值,根据该函数更新词向量的表示;构建合并同义词或近义词的语义距离模型,剔除其中权值较小的词,将合并后的词向量进行正则化,得到最终的文本特征向量;利用LSTM模型对文本特征向量进行训练,利用训练好的模型对科技文本进行分类;本发明可以通过科技文本分类对主题进行分类,优化资讯浏览体验。
Description
技术领域
本发明涉及计算机领域,尤其涉及一种基于改进互信息函数的科技文本分类方法。
背景技术
目前,我国互联网、移动互联网用户规模居全球第一,拥有丰富的数据资源和应用市场优势,大数据部分关键技术研发取得突破。而由于当前科技信息管理混乱,数据模型未统一,同一信息可能因为不同业务格式存在文本上的差异,没有统一的标准,这会严重影响科技系统的各项业务效率和成本。因此,对科技系统中的海量电子文本进行检索和信息提取,再进一步进行分类,就显得十分有意义。
文本分类(Text Classification)是自然语言处理(NLP)的主要研究问题之一,指的是在一个被事先定义好的固定类别中根据文本的特征将给定的文本对象进行分类的技术。典型的应用有判定垃圾邮件、网页自动分类、情感分类和新闻个性化推荐等。
20世纪50年代,单纯依靠文档中出现与类名相同的词来进行文档分类的词匹配法出现,之后又出现了向量空间模型和知识工程,但这些算法十分依赖于人力,且方法十分简单,分类结果并不能满足要求。之后,随着机器学习算法的发展,SVM模型、贝叶斯网络、决策树等算法开始应用于文本分类。现如今,人工智能(AI)技术的快速发展使文本分类得到了新的发展,其成为了AI子领域自然语言处理(NLP)的一个重要分支,神经网络,如卷积神经网络(CNN)与深度神经网络(DNN)也越来越多的应用到文本分类中来。但这些传统的网络存在梯度消失问题,无法处理长时间序列数据。
发明内容
为了能够通过科技文本数据特征快速的对科技文本进行分类,本文提出一种基于改进互信息函数的科技文本分类方法,所述方法包括以下步骤:
S1、构建科技文本数据库,进行数据预处理,包括对数据库中的科技文本进行数据融合,通过对目标文本进行分词,通过word2vec模型得出词向量;
S2、构建改进互信息函数,通过添加词频信息降低低频词的扰乱,并将低频词进行剔除,计算文本中所有词向量的互信息函数值;
S3、构建文本特征提取模型,并为每个词向量根据TF-ATF模型计算权值,统计特征词出现次数不少于min次的文本数据,并更新词向量的表示;
S4、构建语义距离模型,将符合要求的同义词或近义词进行合并,并剔除其中权值较小的词,将合并后的词向量进行正则化,得到最终的文本特征向量;
S5、利用LSTM模型对文本特征向量进行训练,利用训练好的模型对科技文本进行分类。
进一步的,目标文本为科技文本信息,科技文本信息包括科技项目数据、科技企业数据、科技金融服务数据、科技人才数据,针对来源不同、数据结构不同的数据进行多源异构数据的融合。
进一步的,针对来源不同、数据结构不同的数据进行多源异构数据的融合过程包括:
将数据所属数据表名作为本体名,将文本类型数据表直接构建为一个本体对象,若不是文本类型数据则读取该数据的表头作为本体类,同时循环的读取该表每一行的数据创建本体对象;
读取完所有数据表之后进行本体的融合,寻找不同本体类之间相同的属性作为结合点,创建一个空的本体,本体类为待融合的本体类的并集,复制待融合本体对象到该本体中,同时删除多余的结合点数据,完成本体的融合;
对于非文本类型的本体对象,通过本体类名加上本体对象值的形式转化为文本类型的本体对象,并通过文本拼接的方式,将相同本体类的文本数据组合为一个本体对象。
进一步的,对目标文本进行分词包括:
利用字符串处理划分出目标文本的句子,并对句子进行清洗,如果含有特殊字符,则将其分离;
根据词典建立的Trie字典树、根据清洗后的句子建立DAG词图,计算全局概率Route得到基于前缀词典的词频最大切分组合;
将词典中出现的词直接输出,未出现的词利用Token识别将中文英文数字分开进行处理;
对于除中文以外的字符直接输出,中文字符里面HMM概率图模型并利用Viterbi动态规划取得分词和标注并输出。
进一步的,词向量转换模型word2vec包括:
将文本数据进行One-Hot编码处理转换为词汇表向量;
将词汇表向量输入到Skip-gram模型根据每个词汇相邻关系进行向量转换,缩减词汇表维度;
进一步的,根据TF-ATF模型计算权值包括:
其中,TF(t)代表特征词t的词频;ATF(t)为特征词t的平均词频类间集中度;DF(t,Ci)代表特征词t在Ci类中所出现的文档频率;DF(t)代表特征词t在训练样本中出现的文档频度;代表特征词在文档频类间集中度。
进一步的,计算文本中所有词向量的互信函数值,并更新词向量的表示时,利用互信息函数值作为特征的权值来更新词向量表示,改进互信息函数表示为:
其中,αi代表词频类间集中度,表示为tfi(t)表示特征词t在该类文本中出现的次数,m是总文本类别数;βi代表文档频数内的分散度和集中度,表示为dfi(t)表示文本类别特征数量,|ci|表示该类文本的数量,P(ti,cj)代表文本中某一个特征ti在文本的某个类别ci中出现的概率,P(ti)代表特征ti出现的概率,P(cj)代表类别ci出现的概率。
进一步的,构建语义距离模型包括:
计算两个特征词的相似度Sim(wi,wj),相似度大于设定阈值的两个特征词属于近义词或同义词;
计算两个特征词的相关度Rels(wi,wj),如果两个特征词之间相关度大于设定阈值的两个特征词属于近义词或同义词;
根据通过判断是否对同义词、近义词进行合并,若SR的值大于设定阈值则将两个特征词向量的权值进行相加,即ω=ωi+ωj,同时删除词频较小的特征词,以词频较大的特征词作为合并后的代表词向量,该合并之后的特征向量表示为X=(x,ω),x为词频较大的特征词的词向量;
进一步的,对词向量进行正则化,表示为:
进一步的,步骤S5具体包括:
对LSTM模型中的神经单元进行改进,将神经单元转化为输入门、遗忘门和输出门,使得遗忘门中长期状态更新表示为:
计算获取到长期状态Ct之后,计算该时刻的输出分类结果ht,表示为:
其中,ft为遗忘门函数;σ1为遗忘系数;Wf为遗忘门权值;ht-1为上一个神经元计算结果;bf为遗忘门偏置;it为输入门函数;bi为输入门偏置;为短期状态;Wc为短期状态参数;bc为短期状态偏置;Ct为长期状态;ot为输出函数,σ2为输出函数系数,Wf为输出函数的参数,xt为t时刻的词向量,bo为输出函数的偏置。
本发明有以下有益效果:
1)、利用TFATF模型提取文本关键特征,并计算特征之间的语义距离用于合并同义词,减少了对同义词的处理,降低了算法时间复杂度;
2)、多源科技文本融合技术是基于本体模型构建、融合进行实现,改进互信息函数通过计算词频将低频词的权重降低,即令分类更加精确。
附图说明
图1是本发明一种基于改进互信息函数的科技文本分类方法流程图;
图2是本发明的LSTM网络中的一个神经元中内部结构。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提出一种基于改进互信息函数的科技文本分类方法,其特征在于,所述方法包括以下步骤:
S1、构建科技文本数据库,进行数据预处理,包括对数据库中的科技文本进行数据融合,通过对目标文本进行分词,通过word2vec模型得出词向量;
S2、构建文本特征提取模型,并为每个词向量根据TF-ATF模型计算权值,统计特征词出现次数不少于min次的文本数据,并根据权值更新词向量的表示;
S3、构建改进互信息函数,计算文本中所有词向量的互信函数值,并根据互信函数值更新词向量的表示;
S4、构建语义距离模型,将符合要求的同义词或近义词进行合并,并剔除其中权值较小的词,将合并后的词向量进行正则化,得到最终的文本特征向量;
S5、利用LSTM模型对文本特征向量进行训练,利用训练好的模型对科技文本进行分类。
进一步的,目标文本为科技文本信息,科技文本信息包括科技项目数据、科技企业数据、科技金融服务数据、科技人才数据,针对来源不同、数据结构不同的数据进行多源异构数据的融合。
如图1,本发明将多远科技文本数据输入之后,对历史数据或者待分类的数据进行预处理和特征提取,将从历史数据提取得到的特征输入到LSTM模型进行训练、将待分类的数据输入训练好的LSTM模型进行分类,即可获取待分类数据的分类结果。
实施例1
本实施例给出一种针对来源不同、数据结构不同的数据进行多源异构数据的融合过程的具体实施方式,即基于本体的多元数据融合的具体实施方式。
针对来源不同、数据结构不同的数据进行多源异构数据的融合过程包括:将数据所属数据表名作为本体名,将文本类型数据表直接构建为一个本体对象,若不是文本类型数据则读取该数据的表头作为本体类,同时循环的读取该表每一行的数据创建本体对象;
读取完所有数据表之后进行本体的融合,寻找不同本体类之间相同的属性作为结合点,创建一个空的本体,本体类为待融合的本体类的并集,复制待融合本体对象到该本体中,同时删除多余的结合点数据,完成本体的融合;
对于非文本类型的本体对象,通过本体类名加上本体对象值的形式转化为文本类型的本体对象,并通过文本拼接的方式,将相同本体类的文本数据组合为一个本体对象。
本实施例基于本体模型的信息融合,本体是概念化的明确的规范说明,包括四个关键点:概念化、明确、形式化和共享;
本体由类、属性、关系、实例、函式术语、约束、规则和公理;
本体常见的语言包括RDF、RDF-S、OIL、DAML、OWL、KIF、SHOE、XOL、OCML、Ontolingua、CycL。
文本融合又建立在本体构建的基础之上,采用半自动化的方法在两个独立本体的类之间添加关系,建立两个本体的关联;关联的类型可以为等价、包含或者用户自定义的其他关联类型,融合的过程体现为本体间的彼此信息补充与扩展;根据前述融合方法,本体融合的方法可以概括地分为三步,包括:
1)进行本体的构建、把数据表转化为本体,本体之间是独立的;
2)确定融合点,即判断本体中的类是否存在异构,找到可以相关联的结合点;
3)在确定融合点之后,删除本体内旧关系,创建本体之间的关系。
具体来说,通过将不同来源的科技文本数据根据所属的数据库创建本体名,获取数据库并循环的根据数据项名称创建类的属性,读取数据表中每行数据,循环判断实例是否存在,若不存在则创建,否则放置在添加的所属实例之后;直到读取完成,保存本体作为一个来源的实例,以此完成本体的构建;构建完成之后,确定其中的融合点,即判断本体中的类是否存在异构,找到可以相关的结合点,在确定融合点后,删除本体内部的旧关系,创建本体之间的新关系。
由于存在大量的数据,为了保证计算的效率选择通过MapReduce框架进行本机的构建与融合,MapReduce采用“分而治之”的思想,用Map和Reduce简化了分布式计算内部的操作,通过将多源的科技文本数据存储在HDFS之中,遍历HDFS文件系统并对其中的文本数据进行切片转化为小的文件(InputSplit)发送给各个节点,每个Map节点在接收到InputSplit之后根据元数据获取本体模型和指定的类,并利用该类获取到所有的数据类型,利用value存储元数据的文件,并循环的将value添加到对应的数据类中,并存入生成实例中,最后将实例写入context中,传递给Reduce;
Reduce过程先合并零散的本体实例,并存入HDFS中,之后遍历所有文件,并构造本体,依次将同一类型的本体进行合并;
循环结束后将汇总的问题写入规定的数据之中生成总的本体,新建一个新本体用于MapReduce本体融合,复制待融合的本体模型中的所有类和属性关系到新本体;
之后,根据用户定义的两个待融合本体间的对象关系属性,在新本体中添加关系,并把原有的数据类型属性删除,完成了新本体模型的创建,把新本体模型保存至待融合本体的实例可保存在数据库中。
根据新本体模型,依次读取主类中的实例数据,获取指定的关键字并根据关键字依次在数据中查询对应类的同名实例,将主类实例和同名实例分别作为key和value并将<key,value>传递到Reduce中;利用Reduce进行循环判断如果key对应的value数量>1那么将key、value的每一个对应组写入最终融合的本体之中,将结果保存在HDFS之中。
实施例2
本实施例提供一种获取文本特征向量的具体实施方式。
在完成融合之后,利用Jieba进行分词便于为之后的词频统计做准备,Jieba分词可以直接在Hadoop环境下进行处理,通过引入jieba-analysis的jar包进行分词;
科技文本数据先利用根据句号、分号等字符进行字符串处理划分出完整句子,将句子进行清洗,如果含有特殊字符,则将其分离;
根据词典建立的Trie字典树,并为句子建立DAG词图,计算全局概率Route得到基于前缀词典的词频最大切分组合,将词典中出现的词进行输出,未出现的词利用Token识别将中文英文数字分开进行处理,对于除中文以外的字符直接数据,中文字符里面HMM概率图模型并利用Viterbi动态规划取得分词和标注并输出。
在获取分词之后,将每个词进行词向量的转换,通过word2vec算法将所有的词转化为词向量,具体包括:
通过One-Hot的编码方式将词逐一编号并转化为向量形式,导入到Skip-gram模型根据每个词汇的相邻关系将原始的向量转化为维度更小的向量;
在获取到词向量之后,进行特征词向量的选取,选取标准为TF-ATF的值,其公式表示为:
其中,TF(t)代表特征词t的词频;ATF(t)为特征词t的平均词频类间集中度;DF(t,Ci)代表特征词t在Ci类中所出现的文档频率,DF(t)代表特征词t在训练样本中出现的文档频度,代表特征词在文档频类间集中度;根据TF-ATF(t)的值选取大于设定的阈值的特征词,即更能体现文本特征的词作为文本特征,将选出的特征词记为
在完成特征词向量的选取之后,依次对每个词进行改进互信息函数的计算,改进互信息函数的公式为:
其中,αi代表词频类间集中度,表示为tfi(t)表示特征词t在该类文本中出现的次数,m是总文本类别数;βi代表文档频数内的分散度和集中度,表示为dfi(t)表示文本类别特征数量,|ci|表示该类文本的数量,P(ti,cj)代表文本中某一个特征ti在文本的某个类别ci中出现的概率,P(ti)代表特征ti出现的概率,P(cj)代表类别ci出现的概率。
为了节省计算开销,将词向量进一步减少,通过计算语义距离模型:
计算两个特征词的相似度Sim(wi,wj),相似度大于设定阈值的两个特征词属于同类词,相似度计算公式为:
其中,vec(wi)和vec(wj)分别代表wi和wj的词向量,即词wi和wj的X″值;
计算两个特征词的相关度Rels(wi,wj),如果两个特征词之间相关度大于设定的阈值则可以判断两个特征词为同类词,相关度表示为:
Rels(wi,wj)=logp(wi|wj)-logcount(wj);
其中,p(wi|wj)是特征词wj出现的情况下,特征词wi的出现概率;count(wj)是特征词wj的总数量,对这两个值求对数是为了保证结果在0-1之间。
计算语义距离之后,可以根据通过其中代表系数,SR的值用于判断是否对同义词、近义词进行合并。若SR的值大于设定阈值则将同义特征词向量的权值进行相加,即ω=ωi+ωj,同时删除词频较小的特征词,以词频较大的特征词作为合并后的代表词向量X=(x,ω)。
实施例3
本实施例给出一种改进的LSTM模型,利用该模型对根据实施例1~2得到的文本特征向量进行训练,并利用训练好的模型对位置类别的科技文本进行分类。
为减少训练过程中产生的误差,对词向量进行正则化,表示为:
在本实施例中,对LSTM模型中的神经单元进行改进,将神经单元转化为输入门、遗忘门和输出门,使得序列的长期状态可以保存下来,并传递到下一层,遗忘门中长期状态更新表示为:
其中,ft为遗忘门函数;σ1为遗忘系数;Wf为遗忘门权值;ht-1为上一个神经元计算结果;xt为t时刻的词向量;bf为遗忘门偏置;it为输入门函数;σ2为输入函数系数;bi为输入门偏置;为短期状态;Wc为短期状态参数;bc为短期状态偏置;Ct为长期状态。
通过遗忘门计算出长期状态Ct之后,计算该时刻的输出,即分类结果ht,表示为:
其中,ot为输出函数,σ3为输出函数系数,Wf为输出函数的参数bo为输出函数的偏置;输出函数结果与更新的长期状态Ct进行计算得到ht的值,即分类的结果。
改进的LSTM模型如图2所示,通过输入当前文本Xi与上一次输出的分类结果ht-1、以及上一次长期状态Ct-1,获取当前文本Xi的分类结果ht以及当前长期状态Ct,将分类结果ht输出给用户,并保存分类结果ht、长期状态Ct作为计算下一文本分类结果的参数。
输入:多源科技文本;输出:分类预测类别CY;
步骤1:利用本体模型进行多源数据融合;
步骤5:根据控制阈值b获得模型输入特征集合X";
步骤6:CY=LSTM(X")。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
Claims (10)
1.一种基于改进互信息函数的科技文本分类方法,其特征在于,所述方法包括以下步骤:
S1、构建科技文本数据库,进行数据预处理,包括对数据库中的科技文本进行数据融合,通过对目标文本进行分词,通过word2vec模型得出词向量;
S2、构建文本特征提取模型,并为每个词向量根据TF-ATF模型计算权值,统计特征词出现次数不少于min次的文本数据,并根据权值更新词向量的表示;
S3、构建改进互信息函数,计算文本中所有词向量的互信函数值,并根据互信息函数值更新词向量的表示;
S4、构建语义距离模型,将符合要求的同义词或近义词进行合并,并剔除其中权值较小的词,将合并后的词向量进行正则化,得到最终的文本特征向量;
S5、利用LSTM模型对文本特征向量进行训练,利用训练好的模型对科技文本进行分类。
2.根据权利要求1所述的一种基于改进互信息函数的科技文本分类方法,其特征在于,目标文本为科技文本信息,科技文本信息包括科技项目数据、科技企业数据、科技金融服务数据、科技人才数据,针对来源不同、数据结构不同的数据进行多源异构数据的融合。
3.根据权利要求2所述的一种基于改进互信息函数的科技文本分类方法,其特征在于,针对来源不同、数据结构不同的数据进行多源异构数据的融合过程包括:
将数据所属数据表名作为本体名,将文本类型数据表直接构建为一个本体对象,若不是文本类型数据则读取该数据的表头作为本体类,同时循环的读取该表每一行的数据创建本体对象;
读取完所有数据表之后进行本体的融合,寻找不同本体类之间相同的属性作为结合点,创建一个空的本体,本体类为待融合的本体类的并集,复制待融合本体对象到该本体中,同时删除多余的结合点数据,完成本体的融合;
对于非文本类型的本体对象,通过本体类名加上本体对象值的形式转化为文本类型的本体对象,并通过文本拼接的方式,将相同本体类的文本数据组合为一个本体对象。
4.根据权利要求1所述的一种基于改进互信息函数的科技文本分类方法,其特征在于,对目标文本进行分词包括:
利用字符串处理划分出目标文本的句子,并对句子进行清洗,如果含有特殊字符,则将其分离;
根据词典建立的Trie字典树、根据清洗后的句子建立DAG词图,计算全局概率Route得到基于前缀词典的词频最大切分组合;
将词典中出现的词直接输出,未出现的词利用Token识别将中文英文数字分开进行处理;
对于除中文以外的字符直接输出,中文字符里面HMM概率图模型并利用Viterbi动态规划取得分词和标注并输出。
8.根据权利要求1所述的一种基于改进互信息函数的科技文本分类方法,其特征在于,构建语义距离模型包括:
计算两个特征词的相似度Sim(wi,wj),相似度大于设定阈值的两个特征词属于近义词或同义词;
计算两个特征词的相关度Rels(wi,wj),如果两个特征词之间相关度大于设定阈值的两个特征词属于近义词或同义词;
10.根据权利要求1所述的一种基于改进互信息函数的科技文本分类方法,其特征在于,步骤S5具体包括:
对LSTM模型中的神经单元进行改进,将神经单元转化为输入门、遗忘门和输出门,使得遗忘门中长期状态更新表示为:
计算获取到长期状态Ct之后,计算该时刻的输出分类结果ht,表示为:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010786910.2A CN111930892B (zh) | 2020-08-07 | 2020-08-07 | 一种基于改进互信息函数的科技文本分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010786910.2A CN111930892B (zh) | 2020-08-07 | 2020-08-07 | 一种基于改进互信息函数的科技文本分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111930892A true CN111930892A (zh) | 2020-11-13 |
CN111930892B CN111930892B (zh) | 2023-09-29 |
Family
ID=73306917
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010786910.2A Active CN111930892B (zh) | 2020-08-07 | 2020-08-07 | 一种基于改进互信息函数的科技文本分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111930892B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113779196A (zh) * | 2021-09-07 | 2021-12-10 | 大连大学 | 一种融合多层次信息的海关同义词识别方法 |
CN114822527A (zh) * | 2021-10-11 | 2022-07-29 | 北京中电慧声科技有限公司 | 一种语音转文本的纠错方法、装置及电子设备和存储介质 |
CN116664319A (zh) * | 2023-08-01 | 2023-08-29 | 北京力码科技有限公司 | 一种基于大数据的金融保单分类系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7376635B1 (en) * | 2000-07-21 | 2008-05-20 | Ford Global Technologies, Llc | Theme-based system and method for classifying documents |
CN107526805A (zh) * | 2017-08-22 | 2017-12-29 | 杭州电子科技大学 | 一种基于权重的ML‑kNN多标签中文文本分类方法 |
CN109189925A (zh) * | 2018-08-16 | 2019-01-11 | 华南师范大学 | 基于点互信息的词向量模型和基于cnn的文本分类方法 |
-
2020
- 2020-08-07 CN CN202010786910.2A patent/CN111930892B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7376635B1 (en) * | 2000-07-21 | 2008-05-20 | Ford Global Technologies, Llc | Theme-based system and method for classifying documents |
CN107526805A (zh) * | 2017-08-22 | 2017-12-29 | 杭州电子科技大学 | 一种基于权重的ML‑kNN多标签中文文本分类方法 |
CN109189925A (zh) * | 2018-08-16 | 2019-01-11 | 华南师范大学 | 基于点互信息的词向量模型和基于cnn的文本分类方法 |
Non-Patent Citations (3)
Title |
---|
XIAOMING DING: "Improved mutual information method for text feature selection", 《2013 8TH INTERNATIONAL CONFERENCE ON COMPUTER SCIENCE&EDUCATION》 * |
XU GUANGXIA: "A Survey for Mobility Big Data Analytics for Geolocation Prediction", 《 IEEE WIRELESS COMMUNICATIONS》 * |
王燕霞: "基于相关主题模型的文本分类方法研究", 《硕士电子期刊》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113779196A (zh) * | 2021-09-07 | 2021-12-10 | 大连大学 | 一种融合多层次信息的海关同义词识别方法 |
CN113779196B (zh) * | 2021-09-07 | 2024-02-13 | 大连大学 | 一种融合多层次信息的海关同义词识别方法 |
CN114822527A (zh) * | 2021-10-11 | 2022-07-29 | 北京中电慧声科技有限公司 | 一种语音转文本的纠错方法、装置及电子设备和存储介质 |
CN116664319A (zh) * | 2023-08-01 | 2023-08-29 | 北京力码科技有限公司 | 一种基于大数据的金融保单分类系统 |
Also Published As
Publication number | Publication date |
---|---|
CN111930892B (zh) | 2023-09-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
RU2628436C1 (ru) | Классификация текстов на естественном языке на основе семантических признаков | |
RU2628431C1 (ru) | Подбор параметров текстового классификатора на основе семантических признаков | |
US10007658B2 (en) | Multi-stage recognition of named entities in natural language text based on morphological and semantic features | |
RU2679988C1 (ru) | Извлечение информационных объектов с помощью комбинации классификаторов | |
US20190384816A1 (en) | Information extraction from natural language texts | |
US20190392035A1 (en) | Information object extraction using combination of classifiers analyzing local and non-local features | |
CN111930892B (zh) | 一种基于改进互信息函数的科技文本分类方法 | |
CN116127090B (zh) | 基于融合和半监督信息抽取的航空系统知识图谱构建方法 | |
CN112487190B (zh) | 基于自监督和聚类技术从文本中抽取实体间关系的方法 | |
CN116521882A (zh) | 基于知识图谱的领域长文本分类方法及系统 | |
CN114239828A (zh) | 一种基于因果关系的供应链事理图谱构建方法 | |
Kalo et al. | Knowlybert-hybrid query answering over language models and knowledge graphs | |
Monika et al. | Machine learning approaches for sentiment analysis: A survey | |
Alves et al. | UNER: Universal Named-Entity RecognitionFramework | |
Devarajan et al. | Analyzing semantic similarity amongst textual documents to suggest near duplicates | |
Bao et al. | HTRM: a hybrid neural network algorithm based on tag-aware | |
CN116628329A (zh) | 融合多通道语义信息与标签协作的Web服务类别标签推荐方法 | |
Jardaeh et al. | ArEmotive Bridging the Gap: Automatic Ontology Augmentation using Zero-shot Classification for Fine-grained Sentiment Analysis of Arabic Text | |
Shahade et al. | Deep learning approach-based hybrid fine-tuned Smith algorithm with Adam optimiser for multilingual opinion mining | |
Burgdorf et al. | DocSemMap 2.0: Semantic Labeling Based on Textual Data Documentations Using Seq2Seq Context Learner | |
CN113111288A (zh) | 一种融合非结构化和结构化信息的Web服务分类方法 | |
Fan et al. | Topic modeling methods for short texts: A survey | |
Wu et al. | A Text Emotion Analysis Method Using the Dual‐Channel Convolution Neural Network in Social Networks | |
Zhang et al. | Case Element Joint Extraction Based on Case Field Correlation and Dependency Graph Convolutional Network | |
Wang et al. | A text classification model for hypergraph convolutional neural networks with multi-feature fusion |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |