CN108334590A - 一种信息检索系统 - Google Patents

一种信息检索系统 Download PDF

Info

Publication number
CN108334590A
CN108334590A CN201810087830.0A CN201810087830A CN108334590A CN 108334590 A CN108334590 A CN 108334590A CN 201810087830 A CN201810087830 A CN 201810087830A CN 108334590 A CN108334590 A CN 108334590A
Authority
CN
China
Prior art keywords
matching characteristic
target information
information
retrieval system
collection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810087830.0A
Other languages
English (en)
Other versions
CN108334590B (zh
Inventor
吴雨潞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou longyushangbin Information Technology Co.,Ltd.
Original Assignee
吴雨潞
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 吴雨潞 filed Critical 吴雨潞
Priority to CN201810087830.0A priority Critical patent/CN108334590B/zh
Publication of CN108334590A publication Critical patent/CN108334590A/zh
Application granted granted Critical
Publication of CN108334590B publication Critical patent/CN108334590B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种信息检索系统,其特征在于:由匹配特征、目标信息集和信息选择项集组成,所述匹配特征主要由引录、摘要、关键词组成;所述目标信息集主要由互联网汇集的文库、公开刊物组成;其用户通过公式得到检索结果。本系统通过匹配特征,由公式计算得出目标信息,或再经计算结果对比得出更加贴近更加贴合实际的目标信息,使得目标信息得出更加客观,更加准确,系统运行结果更迅速。

Description

一种信息检索系统
技术领域
本发明涉及一种信息检索系统。
背景技术
随着信息技术的发展,互联网信息每天都在呈比例增长,如何在庞大的信息海洋中寻找到自己想要得到的信息,是目前信息技术都在发展的方向。
目前很多信息在百度查询之后,可以得到很多的结果,但在众多的结果里面,我们还需要对其进行人工的分辨,如果是在一个具有一定规则的系统里面,数据库的增加有序,对于检索的结果的准确率会有很大的提高,但是还不够精准。很多时候,数据的处理大都是加权算法,加权算法能提升数据选择的准确性。
但是很多时候通过两种不两只的加权方法得到的数据结果会有不同,针对信息结果的本体而言,实质的内容有些偏差过大,如增加选择时的匹配特征,对信息分类越清楚,而检索结构越严谨,导致检索结果大起大落,加一个特征或减一个特征,两者检索结果都会让用户很失落。
发明内容
本发明的目的就是了为解决现有信息系统的不足而提供了一种更加高效的信息检索系统。
本发明所要解决问题的技术方案如下:
一种信息检索系统,其特征在于:由匹配特征、目标信息集和信息选择项集组成,所述匹配特征主要由引录、摘要、关键词组成;所述目标信息集主要由互联网汇集的文库、公开刊物组成;其用户检索结果的公式为:
所述匹配特征由用户通过用户交互界面进行选择,再通过反馈程序从匹配特征数据库内提取。
目标信息集内设有过滤特征,在匹配特征时可直接将关联的目标信息剔除。
根据用户选择匹配特征得出形式相同内容不同时,继续按匹配特征分情况计算,取结果最大值对应的目标信息。
根据用户选择匹配特征得出形式相同内容相近时,继续按匹配特征分情况计算,取结果最大值对应的目标信息。
本发明的有益效果如下:
本系统通过匹配特征,由公式计算得出目标信息,或再经计算结果对比得出更加贴近更加贴合实际的目标信息,使得目标信息得出更加客观,更加准确,系统运行结果更迅速。
具体实施方式:
一种信息检索系统,其特征在于:由匹配特征、目标信息集和信息选择项集组成,所述匹配特征主要由引录、摘要、关键词组成;所述目标信息集主要由互联网汇集的文库、公开刊物组成;其用户检索结果的公式为:
所述匹配特征由用户通过用户交互界面进行选择,再通过反馈程序从匹配特征数据库内提取。
目标信息集内设有过滤特征,在匹配特征时可直接将关联的目标信息剔除。
根据用户选择匹配特征得出形式相同内容不同时,继续按匹配特征分情况计算,取结果最大值对应的目标信息。
根据用户选择匹配特征得出形式相同内容相近时,继续按匹配特征分情况计算,取结果最大值对应的目标信息。
本发明的实现原理如下:
信息选择项集:A=[a,b,c,d,e,f,g,h,j],f,g为引录、h,j为关键词。
目标信息集:B=[a:1,b:1,c:0,d:0]——a为过滤特征;
C=[m:1,a:1,d:1,e:1]——m为过滤特征;
D=[非e:1,c:0.5,d:.5]——非e为过滤特征;
E=[a:1,b:1,c:1,非k:1]——非k为过滤特征;
F=[a:1,b:1,c:0]或[a:1,c:1,f:0.5,g:0.5,h:0.5,x:1,y:0]——形式相同内容不同;
G=[G1,G2],G1=[a:1,b:1,f:0.5,h:0.5],G2=[a:1,d:1,e:1,f:0.5]——形式相同内容相近;
在本发明的系统中,过滤特征的定义为一种辅助验证,如年份是否符合。可以使系统在公式中选择时更加具有客观性。
通过系统公式计算如下:
目标信息B:匹配特征有(a,b,c,d),则匹配特征个数=4,匹配特征总权重=1+1+0+0=2,信息选择项集数=1+1+1+1+1+2/2+2/2=7,目标信息集总权重=1+1+0+0=2。则目标信息B的概率=2/2*4/7=0.57。
目标信息C:m为过滤特征,信息选择项集中没有m,故目标信息C不参与计算。
目标信息D:信息选择项集中有e,而信息选择项集中为非e,故目标信息D不参与计算。
目标信息E:目标信息集中有非k,信息选择项集中没有k,则默认信息选择项集中有非k,此时信息选择项集为[a,b,c,d,e,f,g,h,j,非k],则匹配特征为(a,b,c,非k),匹配特征个数=4,匹配特征总权重=1+1+1+1=4,信息选择项集个数=1+1+1+1+1+2/2+2/2+1=8,目标信息集总权重=1+1+1+1=4,则目标信息E的概率=4/4*4/8=0.5。
目标信息F:形式相同内容不同,此处举例的情况两种匹配特征都包含或部分包含在信息选择项集中,但也有一个包含一或多个不包含的情况。此时目标信息F要分两种情况计算。
情况一,匹配特征有(a,b,c),匹配特征个数=3,匹配特征总权重=1+1+0=2,信息选择项集个数=1+1+1+1+1+2/2+2/2=7,目标信息集总权重=1+1+0=2,则目标信息F的概率=2/2*3/7=0.43。
情况二,没有过滤特征,所以此方参与计算,比如包括引录、关键词,故强调引录、关键词相同个数计算规则:信息选择项集只要有相同引录特征,只要引录特征个数≥1,那么引录特征个数=1个,只要关键词相同个数≥1个,则关键词相同个数=1个,匹配引录、关键词的个数根据信息选择项集确定,若匹配特征只有1个引录,信息选择项集有两个,则匹配症引录个数=1/2=0.5个,摘要、关键词同理。此时,匹配特征有(a,c,f,g,h),匹配特征个数=1+1+(1+1)/(1+1)+1/(1+1)=3.5,匹配特征总权重=1+1+0.5+0.5+0.5=3.5,信息选择项集个数=1+1+1+1+1+2/2+2/2=7,目标信息集总权重=1+1+0.5+0.5+0.5+1+0=4.5,则目标信息F的概率=3.5/4.5*3.5/7=0.39。
最后比较情况一与情况二的大小,并取最大值,0.43>0.39,目标信息F的概率为0.43。在信息系统中,提取F为检索结果。
目标信息G:形式相同内容相近,将目标信息当做两个及以上的独立的目标信息计算概率,取最大值,最终指向概率最大的子项,这也是与形式相同内容不同的不同点。
G1的匹配特征有(a,b,f,h),匹配特征个数=1+1+1/2+1/2=3,匹配特征总权重=1+1+0.5+0.5=3,信息选择项集个数=1+1+1+1+1+2/2+2/2=7,目标信息集总权重=1+1+0.5+0.5=3,概率=3/3*3/7=0.43。
G2的匹配特征有(a,b,e,f),匹配特征个数=1+1+1+1/2=3.5,匹配特征总权重=1+1+1+0.5=3.5,信息选择项集个数=1+1+1+1+1+2/2+2/2=7,目标信息集总权重=1+1+1+0.5=3.5,概率=3.5/3.5*3.5/7=0.5。
比较G1与G2的概率,取最大值,0.5>0.43,故处方G的概率为0.5。在信息系统中,提取G2为检索结果。

Claims (5)

1.一种信息检索系统,其特征在于:由匹配特征、目标信息集和信息选择项集组成,
所述匹配特征主要由引录、摘要、关键词组成;所述目标信息集主要由互联网汇集的文库、公开刊物组成;其用户检索结果的公式为:
2.根据权利要求1所述的一种信息检索系统,其特征在于:所述匹配特征由用户通过用户交互界面进行选择,再通过反馈程序从匹配特征数据库内提取。
3.根据权利要求1所述的一种信息检索系统,其特征在于:目标信息集内设有过滤特征,在匹配特征时可直接将关联的目标信息剔除。
4.根据权利要求1所述的一种信息检索系统,其特征在于:根据用户选择匹配特征得出形式相同内容不同时,继续按匹配特征分情况计算,取结果最大值对应的目标信息。
5.根据权利要求1所述的一种信息检索系统,其特征在于:根据用户选择匹配特征得出形式相同内容相近时,继续按匹配特征分情况计算,取结果最大值对应的目标信息。
CN201810087830.0A 2018-01-30 2018-01-30 一种信息检索系统 Active CN108334590B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810087830.0A CN108334590B (zh) 2018-01-30 2018-01-30 一种信息检索系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810087830.0A CN108334590B (zh) 2018-01-30 2018-01-30 一种信息检索系统

Publications (2)

Publication Number Publication Date
CN108334590A true CN108334590A (zh) 2018-07-27
CN108334590B CN108334590B (zh) 2021-06-29

Family

ID=62926403

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810087830.0A Active CN108334590B (zh) 2018-01-30 2018-01-30 一种信息检索系统

Country Status (1)

Country Link
CN (1) CN108334590B (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102081655B (zh) * 2011-01-11 2013-06-05 华北电力大学 基于贝叶斯分类算法的信息检索方法
US20130282528A1 (en) * 2005-12-22 2013-10-24 Ebay Inc. Suggested item category systems and methods
CN103886063A (zh) * 2014-03-18 2014-06-25 国家电网公司 一种文本检索方法和装置
CN104376120A (zh) * 2014-12-04 2015-02-25 浙江大学 一种信息检索方法及系统
CN104484671A (zh) * 2014-11-06 2015-04-01 吉林大学 应用于移动平台的目标检索系统
US9501759B2 (en) * 2011-10-25 2016-11-22 Microsoft Technology Licensing, Llc Search query and document-related data translation
CN106708935A (zh) * 2016-11-16 2017-05-24 四川省亚丁胡杨人力资源集团有限公司 一种基于智能社区的服务信息管理系统
CN107085583A (zh) * 2016-10-27 2017-08-22 中国长城科技集团股份有限公司 一种基于内容的电子文档管理方法及装置
CN107247743A (zh) * 2017-05-17 2017-10-13 安徽富驰信息技术有限公司 一种司法类案检索方法及系统

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130282528A1 (en) * 2005-12-22 2013-10-24 Ebay Inc. Suggested item category systems and methods
CN102081655B (zh) * 2011-01-11 2013-06-05 华北电力大学 基于贝叶斯分类算法的信息检索方法
US9501759B2 (en) * 2011-10-25 2016-11-22 Microsoft Technology Licensing, Llc Search query and document-related data translation
CN103886063A (zh) * 2014-03-18 2014-06-25 国家电网公司 一种文本检索方法和装置
CN104484671A (zh) * 2014-11-06 2015-04-01 吉林大学 应用于移动平台的目标检索系统
CN104376120A (zh) * 2014-12-04 2015-02-25 浙江大学 一种信息检索方法及系统
CN107085583A (zh) * 2016-10-27 2017-08-22 中国长城科技集团股份有限公司 一种基于内容的电子文档管理方法及装置
CN106708935A (zh) * 2016-11-16 2017-05-24 四川省亚丁胡杨人力资源集团有限公司 一种基于智能社区的服务信息管理系统
CN107247743A (zh) * 2017-05-17 2017-10-13 安徽富驰信息技术有限公司 一种司法类案检索方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
SHIKHA GUPTA 等: "Combined approach for page ranking in information retrieval system using context and TF-IDF weight", 《INTERNATIONAL JOURNAL OF COMPUTER SCIENCES AND ENGINEERING》 *
郭亚维 等: "文本分类中信息增益特征选择方法的研究", 《计算机工程与应用》 *

Also Published As

Publication number Publication date
CN108334590B (zh) 2021-06-29

Similar Documents

Publication Publication Date Title
Lei Ba et al. Predicting deep zero-shot convolutional neural networks using textual descriptions
CN105469096B (zh) 一种基于哈希二值编码的特征袋图像检索方法
CN107122352A (zh) 一种基于k‑means、word2vec的抽取关键词的方法
CN103824051B (zh) 一种基于局部区域匹配的人脸搜索方法
CN103778227A (zh) 从检索图像中筛选有用图像的方法
CN109960763A (zh) 一种基于用户细粒度摄影偏好的摄影社区个性化好友推荐方法
US20150199567A1 (en) Document classification assisting apparatus, method and program
CN105205163B (zh) 一种科技新闻的增量学习多层次二分类方法
CN106372122B (zh) 一种基于维基语义匹配的文档分类方法及系统
WO2018176913A1 (zh) 搜索方法、装置及非临时性计算机可读存储介质
Vo et al. Vietnamese herbal plant recognition using deep convolutional features
JP4937395B2 (ja) 特徴ベクトル生成装置、特徴ベクトル生成方法及びプログラム
CN103778206A (zh) 一种网络服务资源的提供方法
CN108304851A (zh) 一种高维数据流异常点识别方法
CN102902826A (zh) 一种基于基准图像索引的图像快速检索方法
CN105512333A (zh) 基于情感倾向的产品评论主题搜索方法
CN107291895A (zh) 一种快速的层次化文档查询方法
CN104216993A (zh) 一种标签共现的标签聚类方法
CN103761286B (zh) 一种基于用户兴趣的服务资源检索方法
CN109299263A (zh) 文本分类方法、电子设备及计算机程序产品
CN103744918A (zh) 基于垂直领域的微博搜索排序方法及系统
Han et al. Bin similarity‐based domain adaptation for fine‐grained image classification
CN108491719A (zh) 一种改进朴素贝叶斯算法的安卓恶意程序检测方法
CN110399493A (zh) 一种基于增量学习的作者消歧方法
CN106776910A (zh) 一种搜索结果的显示方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20210617

Address after: Room 1001-1002, building 5, No. 55, Yushan Road, high tech Zone, Suzhou City, Jiangsu Province 215000

Applicant after: Suzhou longyushangbin Information Technology Co.,Ltd.

Address before: 318050 16 households in group 4, qianqifen village, Luqiao District, Taizhou City, Zhejiang Province

Applicant before: Wu Yulu