CN102081655B - 基于贝叶斯分类算法的信息检索方法 - Google Patents

基于贝叶斯分类算法的信息检索方法 Download PDF

Info

Publication number
CN102081655B
CN102081655B CN 201110005077 CN201110005077A CN102081655B CN 102081655 B CN102081655 B CN 102081655B CN 201110005077 CN201110005077 CN 201110005077 CN 201110005077 A CN201110005077 A CN 201110005077A CN 102081655 B CN102081655 B CN 102081655B
Authority
CN
China
Prior art keywords
sample
classification
information retrieval
data
probability
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN 201110005077
Other languages
English (en)
Other versions
CN102081655A (zh
Inventor
刘琳
李国栋
问梁军
李国粹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Corp of China SGCC
North China Electric Power University
Information and Telecommunication Branch of State Grid Xinjiang Electric Power Co Ltd
Original Assignee
North China Electric Power University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by North China Electric Power University filed Critical North China Electric Power University
Priority to CN 201110005077 priority Critical patent/CN102081655B/zh
Publication of CN102081655A publication Critical patent/CN102081655A/zh
Application granted granted Critical
Publication of CN102081655B publication Critical patent/CN102081655B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了信息处理技术领域中的一种基于贝叶斯分类算法的信息检索方法。包括从关系数据库中选取数据表,建立信息检索模型;从所述信息检索模型中导出样本集,并将样本集划分为训练数据集和测试数据集;从信息检索模型中选择相关字段作为样本集的分类属性,确定所述分类属性的类别,并根据分类属性计算类别的先验概率;计算样本的后验概率;根据贝叶斯公式计算样本的类别概率;根据样本的类别概率对样本进行分类,并生成数据分类集;用户在数据分类集中做信息检索操作。本发明将贝叶斯分类算法应用于实际的信息检索,有效地提高了信息检索的精确度。

Description

基于贝叶斯分类算法的信息检索方法
技术领域
本发明属于信息处理技术领域,尤其涉及一种基于贝叶斯分类算法的信息检索方法。
背景技术
信息检索是互联网应用的重要组成部分,随着互联网信息的飞速增长,错综复杂的分类体系使得对有价值的信息进行检索越来越困难。
贝叶斯分类是文本挖掘中的基础算法,该方法通过运用概率论知识对文本信息进行快速、准确地分类;而分类后的信息可以作为其他应用的基础。
信息种类多样化、信息关系复杂化的现状导致用户按照需求,查询相关信息时,可能由任何一个信息主题延伸到其他信息主题,从而在系统中构成若干信息环。此类特征往往使得系统进行信息推荐时,可能会提供一些字面相似、实则意义相差甚远的信息,造成用户在进行信息检索时可能会遇到不可预料的麻烦。
针对上述问题,本发明将贝叶斯分类算法应用于信息检索中,通过对信息资源进行分类,缩小检索范围,从而实现在某一类别内进行检索时,能够提高信息检索的准确率。
发明内容
本发明的目的在于,提供一种基于贝叶斯分类算法的信息检索方法,通过贝叶斯分类算法对原始信息进行分类,以缩小信息检索的范围,然后在某一特定类别下进行信息检索,从而提高信息检索的准确率。
技术方案是,一种基于贝叶斯分类算法的信息检索方法,其特征是所述方法包括下列步骤:
步骤1:从关系数据库中选取数据表,建立信息检索模型;所述建立信息检索模型具体是:先定义所述数据表的主键和外键,然后按照数据表之间存在的主键和外键关系,构建环状结构信息检索模型;
步骤2:从所述信息检索模型中导出样本集,并将样本集划分为训练数据集和测试数据集;
步骤3:从信息检索模型中选择相关字段作为样本集的分类属性,确定所述分类属性的类别,并根据分类属性计算类别的先验概率P(Ci);所述先验概率P(Ci)是指训练数据集中每个类别的样本所占的比例,先验概率P(Ci)利用公式P(Ci)=si/s计算,其中si是类别Ci在训练数据集的样本数,而s是训练数据集的样本总数;
步骤4:计算样本的后验概率P(X|Ci);所述后验概率P(X|Ci)是指测试数据集中每个类别的样本所占比例,利用公式
Figure GDA00002637781100021
计算,其中,概率P(Xk|Ci)=sik/si,1≤k≤n,sik是类别Ci在测试数据集的样本数,而si是训练数据集的样本总数,X为数据样本特征向量且X={X1,X2,...,Xn},n为数据样本特征向量的维数;
步骤5:根据贝叶斯公式
Figure GDA00002637781100022
计算样本的类别概率P(Ci|X);其中,Xj为数据样本,Ci为样本的类别且样本类别向量C={C1,C2,...,Cm},m为类别属性的个数,X为n维数据样本组成的特征向量X={X1,X2,...,Xn},P(Ci)为先验概率,P(X)为全样本概率;
步骤6:根据样本的类别概率对样本进行分类,并生成数据分类集;所述根据样本的类别概率对样本进行分类具体是:比较测试数据集中的样本在每个类别下的概率大小,选取概率值最大的类别对样本进行分类;其中,最大概率值利用公式X∈Ci|P(Ci|X)=Max{P(Ci|X)}计算
步骤7:用户在数据分类集中做信息检索操作。
本发明的效果在于,将贝叶斯分类算法应用于实际的信息检索,有效地提高了信息检索的精确度。
附图说明
图1是基于贝叶斯分类算法的信息检索方法流程图;
图2是信息检索模型建立示意图;
图3是基于贝叶斯分类算法的信息检索图形化实例过程图。
具体实施方式
下面结合附图,对优选实施例作详细说明。应该强调的是,下述说明仅仅是示例性的,而不是为了限制本发明的范围及其应用。
图1是基于贝叶斯分类算法的信息检索方法流程图。图1中,基于贝叶斯分类算法的信息检索方法包括下列步骤:
步骤1:从关系数据库中选取数据表,建立信息检索模型。图2是信息检索模型建立示意图。图2中,以在数据库中选取的科研成果表、人员信息表和部门信息表为例,依据三个表之间的关联关系,建立信息检索模型具体是:先定义三个数据表的主键和外键,然后按照三个数据表之间存在的主键和外键关系,构建环状结构信息检索模型。
步骤2:从信息检索模型中导出样本集,并将样本集划分为训练数据集和测试数据集。
从信息检索模型中导出样本集具体是从所构建信息检索模型中随机导出用于构建数据分类集的数据记录,并将其划分为训练数据集和测试数据集,训练数据集和测试数据集的数据记录一般以2:1的比例随机划分。其中,训练数据集是指已经标定的,用来训练分类器的数据集合。测试数据集是指没有标定的,需要用分类器进行识别的数据集合。
图3是基于贝叶斯分类算法的信息检索图形化实例过程图。图3中,从所构建信息检索模型中随机选择1000条数据作为样本集。其中,666条作为训练数据集,334条作为测试数据集。
步骤3:从信息检索模型中选择相关字段作为样本集的分类属性,确定所述分类属性的类别,并根据分类属性计算类别的先验概率P(Ci)。
根据实际需求,本例选取样本的四个字段作为分类属性,分别是功能定位属性、学科属性、体现形式属性和国民经济行业属性。其中,功能定位属性包含有12个类别,学科属性包含有58个类别,体现形式属性包含有16个类别,国民经济行业属性包含有98个类别。
为了简化计算,本例选取功能定位属性作为分类属性进行计算,学科属性、体现形式属性和国民经济行业属性的计算方法与功能定位属性的计算方法相似,这里不再赘述。
根据功能定位属性包含的12个类别,计算其先验概率P(Ci)。先验概率P(Ci)是指训练数据集中每个类别的样本所占的比例,先验概率P(Ci)利用公式P(Ci)=si/s计算,其中si是类别Ci在训练数据集的样本数,而s是训练数据集的样本总数。本例中,功能定位属性的12个类别的先验概率分别为11.4%、9.0%、0.6%、11.7%、28.5%、12.7%、6.6%、7.8%、3.5%、0.4%、18.8%和0。
步骤4:计算样本的后验概率P(X|Ci)。
样本是指样本集中的一条数据记录。后验概率P(X|Ci)是指测试数据集中每个类别的样本所占比例,利用公式
Figure GDA00002637781100051
计算,其中,概率P(Xk|Ci)=sik/si,1≤k≤n,sik是类别Ci在测试数据集的样本数,而si是训练数据集的样本总数,n为类别数。在本例中,选样本为一维,故其后验概率设置为1。
步骤5:根据贝叶斯公式
Figure GDA00002637781100052
计算样本的类别概率P(Ci|X)。
贝叶斯公式
Figure GDA00002637781100053
是假定每个样本的类别属性之间都是相互独立的,并且每个属性对给定类别产生的影响是一样的。公式中每个数据样本用一个n维特征向量X={X1,X2,...,Xn}表示,样本的类别属性用向量C={C1,C2,...,Cm}表示,P(Ci)为先验概率,P(Xj|Ci)为后验概率,P(X)是样本的全概率,对每个样本类别而言,P(X)为常量。
根据功能定位属性包含的12个类别,计算样本的类别概率值分别为11.4%、9.0%、0.6%、11.7%、28.5%、12.7%、6.6%、7.8%、3.5%、0.4%、18.8%和0。其中,最大值为28.5%,故样本类别概率为28.5%。
步骤6:根据样本的类别概率对样本进行分类,并生成数据分类集。
根据样本的类别概率对样本进行分类是指比较测试数据集中的样本在每个类别属性下的概率大小,选取概率值最大的类别对样本进行分类。其最大概率值由公式X∈Ci|P(Ci|X)=Max{P(Ci|X)}计算。因步骤5中计算出的样本的类别概率值最大值为28.5%,故在其对应的类别中对样本进行分类。
步骤7:用户在数据分类集中做信息检索操作。
用户输入查询关键词,在已完成的数据分类集中按关键词进行检索。
例如,用户输入关键词为“大型火电机组”,用户在已完成的数据分类集中进行检索,并获得以“大型火电机组”为关键词的期望信息,示例部分内容如下:
“我国大型火电机组空冷设计运行关键技术研究与应用”、“基于节能理论分析的大型火电机组综合节能研究及应用”、“先进控制策略在大型火电机组中的应用及控制软件包的开发”。
如果用户要进行下一次检索,则重新输入关键词进行检索;否则结束检索。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。

Claims (1)

1.一种基于贝叶斯分类算法的信息检索方法,其特征是所述方法包括下列步骤:
步骤1:从关系数据库中选取数据表,建立信息检索模型;所述建立信息检索模型具体是:先定义所述数据表的主键和外键,然后按照数据表之间存在的主键和外键关系,构建环状结构信息检索模型;
步骤2:从所述信息检索模型中导出样本集,并将样本集划分为训练数据集和测试数据集;
步骤3:从信息检索模型中选择相关字段作为样本集的分类属性,确定所述分类属性的类别,并根据分类属性计算类别的先验概率P(Ci);所述先验概率P(Ci)是指训练数据集中每个类别的样本所占的比例,先验概率P(Ci)利用公式P(Ci)=si/s计算,其中si是类别Ci在训练数据集的样本数,而s是训练数据集的样本总数;
步骤4:计算样本的后验概率P(X|Ci);所述后验概率P(X|Ci)是指测试数据集中每个类别的样本所占比例,利用公式
Figure FDA00002637781000011
计算,其中,概率P(Xk|Ci)=sik/si,1≤k≤n,sik是类别Ci在测试数据集的样本数,而si是类别Ci在训练数据集的样本数,X为数据样本特征向量且X={X1,X2,...,Xn},n为数据样本特征向量的维数;
步骤5:根据贝叶斯公式
Figure FDA00002637781000012
计算样本的类别概率P(Ci|X);其中,Xj为数据样本,Ci为样本的类别且样本类别向量C={C1,C2,...,Cm},m为类别属性的个数,X为n维数据样本组成的特征向量X={X1,X2,...,Xn},P(Ci)为先验概率,P(X)为全样本概率;
步骤6:根据样本的类别概率对样本进行分类,并生成数据分类集;所述根据样本的类别概率对样本进行分类具体是:比较测试数据集中的样本在每个类别下的概率大小,选取概率值最大的类别对样本进行分类;其中,最大概率值利用公式X∈Ci|P(Ci|X)=Max{P(Ci|X)}计算;
步骤7:用户在数据分类集中做信息检索操作。
CN 201110005077 2011-01-11 2011-01-11 基于贝叶斯分类算法的信息检索方法 Active CN102081655B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 201110005077 CN102081655B (zh) 2011-01-11 2011-01-11 基于贝叶斯分类算法的信息检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 201110005077 CN102081655B (zh) 2011-01-11 2011-01-11 基于贝叶斯分类算法的信息检索方法

Publications (2)

Publication Number Publication Date
CN102081655A CN102081655A (zh) 2011-06-01
CN102081655B true CN102081655B (zh) 2013-06-05

Family

ID=44087618

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 201110005077 Active CN102081655B (zh) 2011-01-11 2011-01-11 基于贝叶斯分类算法的信息检索方法

Country Status (1)

Country Link
CN (1) CN102081655B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104699772A (zh) * 2015-03-05 2015-06-10 孟海东 一种基于云计算的大数据文本分类方法
CN108334590A (zh) * 2018-01-30 2018-07-27 吴雨潞 一种信息检索系统

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102722537A (zh) * 2012-05-22 2012-10-10 苏州阔地网络科技有限公司 一种数据库测试数据的生成方法及系统
CN102956023B (zh) * 2012-08-30 2016-02-03 南京信息工程大学 一种基于贝叶斯分类的传统气象数据与感知数据融合的方法
CN103064939B (zh) * 2012-12-25 2015-09-30 深圳先进技术研究院 数据重排序方法和系统
CN103345676B (zh) * 2013-06-20 2016-06-15 南京邮电大学 一种面向物资管理系统基于贝叶斯分类的缺失信息估计方法
CN103294828B (zh) * 2013-06-25 2016-04-27 厦门市美亚柏科信息股份有限公司 数据挖掘模型维度的验证方法和验证装置
CN104268260A (zh) * 2014-10-10 2015-01-07 中国科学院重庆绿色智能技术研究院 一种流数据的分类方法及其装置和系统
CN106204083B (zh) * 2015-04-30 2020-02-18 中国移动通信集团山东有限公司 一种目标用户分类方法、装置及系统
US10692015B2 (en) * 2016-07-15 2020-06-23 Io-Tahoe Llc Primary key-foreign key relationship determination through machine learning
CN106372670A (zh) * 2016-09-06 2017-02-01 南京理工大学 基于改进最近邻算法的忠诚度预测方法
CN110580483A (zh) * 2018-05-21 2019-12-17 上海大唐移动通信设备有限公司 一种室内外用户区分方法及装置
CN109495558A (zh) * 2018-11-06 2019-03-19 中国铁道科学研究院集团有限公司通信信号研究所 应用于城市轨道交通系统的车地多网融合无线通信方法
CN109784047B (zh) * 2018-12-07 2021-03-30 中国人民解放军战略支援部队航天工程大学 基于多特征的程序检测方法
CN110737700A (zh) * 2019-10-16 2020-01-31 百卓网络科技有限公司 一种基于贝叶斯算法的进销存用户分类方法及系统
CN115358309A (zh) * 2022-08-15 2022-11-18 江苏苏宁银行股份有限公司 一种基于贝叶斯分类的行业编码选定方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1211769A (zh) * 1997-06-26 1999-03-24 香港中文大学 基于贝叶斯网络的用于文件检索的方法和设备
CN1535431A (zh) * 2000-07-28 2004-10-06 �ʼҷ����ֵ������޹�˾ 多媒体分段和索引的基于上下文与内容的信息处理

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1211769A (zh) * 1997-06-26 1999-03-24 香港中文大学 基于贝叶斯网络的用于文件检索的方法和设备
CN1535431A (zh) * 2000-07-28 2004-10-06 �ʼҷ����ֵ������޹�˾ 多媒体分段和索引的基于上下文与内容的信息处理

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104699772A (zh) * 2015-03-05 2015-06-10 孟海东 一种基于云计算的大数据文本分类方法
CN108334590A (zh) * 2018-01-30 2018-07-27 吴雨潞 一种信息检索系统

Also Published As

Publication number Publication date
CN102081655A (zh) 2011-06-01

Similar Documents

Publication Publication Date Title
CN102081655B (zh) 基于贝叶斯分类算法的信息检索方法
CN103617157B (zh) 基于语义的文本相似度计算方法
Kahng et al. Visual exploration of machine learning results using data cube analysis
CN105205096B (zh) 一种跨文本模态和图像模态的数据检索方法
CN101944099B (zh) 一种使用本体进行文本文档自动分类的方法
Zhao et al. Few-shot object detection of remote sensing images via two-stage fine-tuning
Xu et al. Activity auto-completion: Predicting human activities from partial videos
CN103279478B (zh) 一种基于分布式互信息文档特征提取方法
US20180341686A1 (en) System and method for data search based on top-to-bottom similarity analysis
CN102999615B (zh) 基于径向基函数神经网络的多样化图像标注和检索方法
CN106372122B (zh) 一种基于维基语义匹配的文档分类方法及系统
CN101916376A (zh) 基于局部样条嵌入的正交半监督子空间图像分类方法
CN105975596A (zh) 一种搜索引擎查询扩展的方法及系统
CN104216993A (zh) 一种标签共现的标签聚类方法
Li et al. An improved KNN algorithm for text classification
Agrawal et al. A novel algorithm for automatic document clustering
CN103984700B (zh) 一种用于科技信息垂直搜索的异构数据分析方法
Xiao et al. Patent text classification based on naive Bayesian method
CN102929977B (zh) 一种面向新闻网站的事件跟踪方法
Qian et al. Weakly supervised part-based method for combined object detection in remote sensing imagery
CN103207893B (zh) 基于向量组映射的两类文本的分类方法
Ma et al. Microblog hot topic detection based on topic model using term correlation matrix
Zhu et al. Chinese texts classification system
Feng et al. Chinese short text classification based on domain knowledge
CN103729466B (zh) 基于WEB及GBBoosting算法的人名国别识别方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: STATE GRID CORPORATION OF CHINA INFORMATION COMMUN

Effective date: 20140925

C41 Transfer of patent application or patent right or utility model
C53 Correction of patent for invention or patent application
CB03 Change of inventor or designer information

Inventor after: Liu Lin

Inventor after: Li Guodong

Inventor after: Wen Liangjun

Inventor after: Li Guocui

Inventor after: Yin Jun

Inventor after: Zhou Wenting

Inventor after: Nijiati.Najimi

Inventor after: Ma Tianfu

Inventor after: Li Kai

Inventor before: Liu Lin

Inventor before: Li Guodong

Inventor before: Wen Liangjun

Inventor before: Li Guocui

COR Change of bibliographic data

Free format text: CORRECT: INVENTOR; FROM: LIU LIN LI GUODONG WEN LIANGJUN LI GUOCUI TO: LIU LIN LI GUODONG WEN LIANGJUN LI GUOCUI YIN JUN ZHOU WENTING NIJIATI NAJIMI MA TIANFU LI KAI

TR01 Transfer of patent right

Effective date of registration: 20140925

Address after: 102206 Changping District North Road, No. 2, Beijing

Patentee after: North China Electric Power University

Patentee after: State Grid Corporation of China

Patentee after: INFORMATION & TELECOMMUNICATION COMPANY OF STATE GRID XINJIANG ELECTRIC POWER COMPANY

Address before: 102206, Beijing, Changping District, Beijing Desheng outside the door, Zhu Xin, North China Electric Power University

Patentee before: North China Electric Power University