CN108334590B - 一种信息检索系统 - Google Patents

一种信息检索系统 Download PDF

Info

Publication number
CN108334590B
CN108334590B CN201810087830.0A CN201810087830A CN108334590B CN 108334590 B CN108334590 B CN 108334590B CN 201810087830 A CN201810087830 A CN 201810087830A CN 108334590 B CN108334590 B CN 108334590B
Authority
CN
China
Prior art keywords
information
features
target information
matching
items
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810087830.0A
Other languages
English (en)
Other versions
CN108334590A (zh
Inventor
吴雨潞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou longyushangbin Information Technology Co.,Ltd.
Original Assignee
Suzhou Longyushangbin Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Longyushangbin Information Technology Co ltd filed Critical Suzhou Longyushangbin Information Technology Co ltd
Priority to CN201810087830.0A priority Critical patent/CN108334590B/zh
Publication of CN108334590A publication Critical patent/CN108334590A/zh
Application granted granted Critical
Publication of CN108334590B publication Critical patent/CN108334590B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种信息检索系统,其特征在于:由匹配特征、目标信息集和信息选择项集组成,所述匹配特征主要由引录、摘要、关键词组成;所述目标信息集主要由互联网汇集的文库、公开刊物组成;其用户通过公式得到检索结果。本系统通过匹配特征,由公式计算得出目标信息,或再经计算结果对比得出更加贴近更加贴合实际的目标信息,使得目标信息得出更加客观,更加准确,系统运行结果更迅速。

Description

一种信息检索系统
技术领域
本发明涉及一种信息检索系统。
背景技术
随着信息技术的发展,互联网信息每天都在呈比例增长,如何在庞大的信息海洋中寻找到自己想要得到的信息,是目前信息技术都在发展的方向。
目前很多信息在百度查询之后,可以得到很多的结果,但在众多的结果里面,我们还需要对其进行人工的分辨,如果是在一个具有一定规则的系统里面,数据库的增加有序,对于检索的结果的准确率会有很大的提高,但是还不够精准。很多时候,数据的处理大都是加权算法,加权算法能提升数据选择的准确性。
但是很多时候通过两种不两只的加权方法得到的数据结果会有不同,针对信息结果的本体而言,实质的内容有些偏差过大,如增加选择时的匹配特征,对信息分类越清楚,而检索结构越严谨,导致检索结果大起大落,加一个特征或减一个特征,两者检索结果都会让用户很失落。
发明内容
本发明的目的就是了为解决现有信息系统的不足而提供了一种更加高效的信息检索系统。
本发明所要解决问题的技术方案如下:
一种信息检索系统,其特征在于:由匹配特征、目标信息集和信息选择项集组成,所述匹配特征包括引录、摘要、关键词;所述目标信息集由互联网汇集的文库、公开刊物组成;其用户检索结果的公式为:
Figure GDA0003000769600000011
所述匹配特征由用户通过用户交互界面进行选择,再通过反馈程序从匹配特征数据库内提取。
目标信息集内设有过滤特征,在匹配特征时可直接将关联的目标信息剔除。
根据用户选择匹配特征得出形式相同内容不同时,继续按匹配特征分情况计算,取结果最大值对应的目标信息。
根据用户选择匹配特征得出形式相同内容相近时,继续按匹配特征分情况计算,取结果最大值对应的目标信息。
本发明的有益效果如下:
本系统通过匹配特征,由公式计算得出目标信息,或再经计算结果对比得出更加贴近更加贴合实际的目标信息,使得目标信息得出更加客观,更加准确,系统运行结果更迅速。
具体实施方式:
一种信息检索系统,其特征在于:由匹配特征、目标信息集和信息选择项集组成,所述匹配特征主要由引录、摘要、关键词组成;所述目标信息集主要由互联网汇集的文库、公开刊物组成;其用户检索结果的公式为:
Figure GDA0003000769600000021
所述匹配特征由用户通过用户交互界面进行选择,再通过反馈程序从匹配特征数据库内提取。
目标信息集内设有过滤特征,在匹配特征时可直接将关联的目标信息剔除。
根据用户选择匹配特征得出形式相同内容不同时,继续按匹配特征分情况计算,取结果最大值对应的目标信息。
根据用户选择匹配特征得出形式相同内容相近时,继续按匹配特征分情况计算,取结果最大值对应的目标信息。
本发明的实现原理如下:
信息选择项集:A=[a,b,c,d,e,f,g,h,j],f,g为引录、h,j为关键词。
目标信息集:B=[a:1,b:1,c:0,d:0]——a为过滤特征;
C=[m:1,a:1,d:1,e:1]——m为过滤特征;
D=[非e:1,c:0.5,d:.5]——非e为过滤特征;
E=[a:1,b:1,c:1,非k:1]——非k为过滤特征;
F=[a:1,b:1,c:0]或[a:1,c:1,f:0.5,g:0.5,h:0.5,x:1,y:0]——形式相同内容不同;
G=[G1,G2],G1=[a:1,b:1,f:0.5,h:0.5],G2=[a:1,d:1,e:1,f:0.5]——形式相同内容相近;
在本发明的系统中,过滤特征的定义为一种辅助验证,如年份是否符合。可以使系统在公式中选择时更加具有客观性。
通过系统公式计算如下:
目标信息B:匹配特征有(a,b,c,d),则匹配特征个数=4,匹配特征总权重=1+1+0+0=2,信息选择项集数=1+1+1+1+1+2/2+2/2=7,目标信息集总权重=1+1+0+0=2。则目标信息B的概率=2/2*4/7=0.57。
目标信息C:m为过滤特征,信息选择项集中没有m,故目标信息C不参与计算。
目标信息D:信息选择项集中有e,而信息选择项集中为非e,故目标信息D不参与计算。
目标信息E:目标信息集中有非k,信息选择项集中没有k,则默认信息选择项集中有非k,此时信息选择项集为[a,b,c,d,e,f,g,h,j,非k],则匹配特征为(a,b,c,非k),匹配特征个数=4,匹配特征总权重=1+1+1+1=4,信息选择项集个数=1+1+1+1+1+2/2+2/2+1=8,目标信息集总权重=1+1+1+1=4,则目标信息E的概率=4/4*4/8=0.5。
目标信息F:形式相同内容不同,此处举例的情况两种匹配特征都包含或部分包含在信息选择项集中,但也有一个包含一或多个不包含的情况。此时目标信息F要分两种情况计算。
情况一,匹配特征有(a,b,c),匹配特征个数=3,匹配特征总权重=1+1+0=2,信息选择项集个数=1+1+1+1+1+2/2+2/2=7,目标信息集总权重=1+1+0=2,则目标信息F的概率=2/2*3/7=0.43。
情况二,有过滤特征,所以此方参与计算,比如包括引录、关键词,故强调引录、关键词相同个数计算规则:信息选择项集只要有相同引录特征,只要引录特征个数≥1,那么引录特征个数=1个,只要关键词相同个数≥1个,则关键词相同个数=1个,匹配引录、关键词的个数根据信息选择项集确定,若匹配特征只有1个引录,信息选择项集有两个,则匹配引录个数=1/2=0.5个,摘要、关键词同理。此时,匹配特征有(a,c,f,g,h),匹配特征个数=1+1+(1+1)/(1+1)+1/(1+1)=3.5,匹配特征总权重=1+1+0.5+0.5+0.5=3.5,信息选择项集个数=1+1+1+1+1+2/2+2/2=7,目标信息集总权重=1+1+0.5+0.5+0.5+1+0=4.5,则目标信息F的概率=3.5/4.5*3.5/7=0.39。
最后比较情况一与情况二的大小,并取最大值,0.43>0.39,目标信息F的概率为0.43。在信息系统中,提取F为检索结果。
目标信息G:形式相同内容相近,将目标信息当做两个及以上的独立的目标信息计算概率,取最大值,最终指向概率最大的子项,这也是与形式相同内容不同的不同点。
G1的匹配特征有(a,b,f,h),匹配特征个数=1+1+1/2+1/2=3,匹配特征总权重=1+1+0.5+0.5=3,信息选择项集个数=1+1+1+1+1+2/2+2/2=7,目标信息集总权重=1+1+0.5+0.5=3,概率=3/3*3/7=0.43。
G2的匹配特征有(a,b,e,f),匹配特征个数=1+1+1+1/2=3.5,匹配特征总权重=1+1+1+0.5=3.5,信息选择项集个数=1+1+1+1+1+2/2+2/2=7,目标信息集总权重=1+1+1+0.5=3.5,概率=3.5/3.5*3.5/7=0.5。
比较G1与G2的概率,取最大值,0.5>0.43,故处方G的概率为0.5。在信息系统中,提取G2为检索结果。

Claims (3)

1.一种信息检索系统,其特征在于:由匹配特征、目标信息集和信息选择项集组成,所述匹配特征包括引录、摘要、关键词;所述目标信息集由互联网汇集的文库、公开刊物组成;目标信息集内设有过滤特征,在匹配特征时可直接将关联的目标信息剔除;所述匹配特征由用户通过用户交互界面进行选择,再通过反馈程序从匹配特征数据库内提取;其用户检索结果的公式为:
Figure FDA0003000769590000011
上述公式中,信息选择项集数:为信息选择项的信息项数和,且当其中有多个项涉及同类匹配特征时,则涉及同类的匹配特征项其信息项数按1项计入信息选择项的信息项数和;
匹配特征个数:为目标信息集内过滤特征与信息选择项集过滤特征匹配后,该目标信息集参与计算匹配对应到信息选择项集内信息项的项数和,且当该目标信息集中匹配特征与信息选择项集中同类匹配特征的个数不同时,则取该类匹配特征在各集个数和的比值计入项数和;
匹配特征总权重:为目标信息集内过滤特征与信息选择项集过滤特征匹配后参与计算,该目标信息集中的各信息项对应信息选择项集中对应信息项所占权重的权重和,且当该目标信息集中存在对应信息选择项集中的没有的过滤特征,则该过滤特征权重按1计入权重和;
目标信息集总权重:为目标信息集内过滤特征与信息选择项集过滤特征匹配后参与计算,在信息选择项集内所对应信息选择项集中对应信息项所占权重的权重和,当参与计算的目标信息集中存在信息选择项集中没有的项时,该项由默认权重值计入权重和。
2.根据权利要求1所述的一种信息检索系统,其特征在于:根据用户选择匹配特征得出形式相同内容不同时,继续按匹配特征分情况计算,取结果最大值对应的目标信息。
3.根据权利要求1所述的一种信息检索系统,其特征在于:根据用户选择匹配特征得出形式相同内容相近时,继续按匹配特征分情况计算,取结果最大值对应的目标信息。
CN201810087830.0A 2018-01-30 2018-01-30 一种信息检索系统 Active CN108334590B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810087830.0A CN108334590B (zh) 2018-01-30 2018-01-30 一种信息检索系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810087830.0A CN108334590B (zh) 2018-01-30 2018-01-30 一种信息检索系统

Publications (2)

Publication Number Publication Date
CN108334590A CN108334590A (zh) 2018-07-27
CN108334590B true CN108334590B (zh) 2021-06-29

Family

ID=62926403

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810087830.0A Active CN108334590B (zh) 2018-01-30 2018-01-30 一种信息检索系统

Country Status (1)

Country Link
CN (1) CN108334590B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103886063A (zh) * 2014-03-18 2014-06-25 国家电网公司 一种文本检索方法和装置
CN104484671A (zh) * 2014-11-06 2015-04-01 吉林大学 应用于移动平台的目标检索系统
US9501759B2 (en) * 2011-10-25 2016-11-22 Microsoft Technology Licensing, Llc Search query and document-related data translation
CN106708935A (zh) * 2016-11-16 2017-05-24 四川省亚丁胡杨人力资源集团有限公司 一种基于智能社区的服务信息管理系统

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7870031B2 (en) * 2005-12-22 2011-01-11 Ebay Inc. Suggested item category systems and methods
CN102081655B (zh) * 2011-01-11 2013-06-05 华北电力大学 基于贝叶斯分类算法的信息检索方法
CN104376120B (zh) * 2014-12-04 2018-01-23 浙江大学 一种信息检索方法及系统
CN107085583B (zh) * 2016-10-27 2021-05-28 中国长城科技集团股份有限公司 一种基于内容的电子文档管理方法及装置
CN107247743A (zh) * 2017-05-17 2017-10-13 安徽富驰信息技术有限公司 一种司法类案检索方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9501759B2 (en) * 2011-10-25 2016-11-22 Microsoft Technology Licensing, Llc Search query and document-related data translation
CN103886063A (zh) * 2014-03-18 2014-06-25 国家电网公司 一种文本检索方法和装置
CN104484671A (zh) * 2014-11-06 2015-04-01 吉林大学 应用于移动平台的目标检索系统
CN106708935A (zh) * 2016-11-16 2017-05-24 四川省亚丁胡杨人力资源集团有限公司 一种基于智能社区的服务信息管理系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Combined approach for page ranking in information retrieval system using context and TF-IDF weight;Shikha Gupta 等;《International Journal of Computer Sciences and Engineering》;20141231;第2卷(第6期);39-42 *
文本分类中信息增益特征选择方法的研究;郭亚维 等;《计算机工程与应用》;20121231(第27期);119-122 *

Also Published As

Publication number Publication date
CN108334590A (zh) 2018-07-27

Similar Documents

Publication Publication Date Title
CN103729351B (zh) 查询词推荐方法及装置
Jeffery et al. Pay-as-you-go user feedback for dataspace systems
US20170161375A1 (en) Clustering documents based on textual content
CN106339383B (zh) 一种搜索排序方法及系统
Jurczyk et al. FRIL: a tool for comparative record linkage
CN104598647B (zh) 一种树图搜索和匹配物品的方法
US20080005106A1 (en) System and method for automatic weight generation for probabilistic matching
US20150242407A1 (en) Discovery of Data Relationships Between Disparate Data Sets
CN107180093A (zh) 信息搜索方法及装置和时效性查询词识别方法及装置
CN103440313A (zh) 基于音频指纹特征的音乐检索系统
Kahraman et al. A novel spherical fuzzy CRITIC method and its application to prioritization of supplier selection criteria
WO2011130526A1 (en) Ascribing actionable attributes to data that describes a personal identity
CN107291895A (zh) 一种快速的层次化文档查询方法
Chen et al. Learning optimal warping window size of DTW for time series classification
CN110569273A (zh) 一种基于相关性排序的专利检索系统及方法
CN106934410A (zh) 数据的分类方法及系统
CN103336771A (zh) 基于滑动窗口的数据相似检测方法
CN103761286B (zh) 一种基于用户兴趣的服务资源检索方法
US20220222233A1 (en) Clustering of structured and semi-structured data
CN108334590B (zh) 一种信息检索系统
Mishra et al. Entity matching technique for bibliographic database
CN107918607B (zh) 一种基于语义信息的数字档案查询与排序方法
JPH02235176A (ja) 概念検索装置
CN116090659A (zh) 一种相似应急方案的智能化筛选方法及系统
Ranbaduge et al. Scalable block scheduling for efficient multi-database record linkage

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20210617

Address after: Room 1001-1002, building 5, No. 55, Yushan Road, high tech Zone, Suzhou City, Jiangsu Province 215000

Applicant after: Suzhou longyushangbin Information Technology Co.,Ltd.

Address before: 318050 16 households in group 4, qianqifen village, Luqiao District, Taizhou City, Zhejiang Province

Applicant before: Wu Yulu