CN108334590A - 一种信息检索系统 - Google Patents
一种信息检索系统 Download PDFInfo
- Publication number
- CN108334590A CN108334590A CN201810087830.0A CN201810087830A CN108334590A CN 108334590 A CN108334590 A CN 108334590A CN 201810087830 A CN201810087830 A CN 201810087830A CN 108334590 A CN108334590 A CN 108334590A
- Authority
- CN
- China
- Prior art keywords
- matching characteristic
- target information
- information
- retrieval system
- collection
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001914 filtration Methods 0.000 claims description 10
- 238000000034 method Methods 0.000 claims description 4
- 239000000203 mixture Substances 0.000 claims description 3
- 230000002452 interceptive effect Effects 0.000 claims 1
- 230000000052 comparative effect Effects 0.000 abstract description 2
- 239000012141 concentrate Substances 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种信息检索系统,其特征在于:由匹配特征、目标信息集和信息选择项集组成,所述匹配特征主要由引录、摘要、关键词组成;所述目标信息集主要由互联网汇集的文库、公开刊物组成;其用户通过公式得到检索结果。本系统通过匹配特征,由公式计算得出目标信息,或再经计算结果对比得出更加贴近更加贴合实际的目标信息,使得目标信息得出更加客观,更加准确,系统运行结果更迅速。
Description
技术领域
本发明涉及一种信息检索系统。
背景技术
随着信息技术的发展,互联网信息每天都在呈比例增长,如何在庞大的信息海洋中寻找到自己想要得到的信息,是目前信息技术都在发展的方向。
目前很多信息在百度查询之后,可以得到很多的结果,但在众多的结果里面,我们还需要对其进行人工的分辨,如果是在一个具有一定规则的系统里面,数据库的增加有序,对于检索的结果的准确率会有很大的提高,但是还不够精准。很多时候,数据的处理大都是加权算法,加权算法能提升数据选择的准确性。
但是很多时候通过两种不两只的加权方法得到的数据结果会有不同,针对信息结果的本体而言,实质的内容有些偏差过大,如增加选择时的匹配特征,对信息分类越清楚,而检索结构越严谨,导致检索结果大起大落,加一个特征或减一个特征,两者检索结果都会让用户很失落。
发明内容
本发明的目的就是了为解决现有信息系统的不足而提供了一种更加高效的信息检索系统。
本发明所要解决问题的技术方案如下:
一种信息检索系统,其特征在于:由匹配特征、目标信息集和信息选择项集组成,所述匹配特征主要由引录、摘要、关键词组成;所述目标信息集主要由互联网汇集的文库、公开刊物组成;其用户检索结果的公式为:
所述匹配特征由用户通过用户交互界面进行选择,再通过反馈程序从匹配特征数据库内提取。
目标信息集内设有过滤特征,在匹配特征时可直接将关联的目标信息剔除。
根据用户选择匹配特征得出形式相同内容不同时,继续按匹配特征分情况计算,取结果最大值对应的目标信息。
根据用户选择匹配特征得出形式相同内容相近时,继续按匹配特征分情况计算,取结果最大值对应的目标信息。
本发明的有益效果如下:
本系统通过匹配特征,由公式计算得出目标信息,或再经计算结果对比得出更加贴近更加贴合实际的目标信息,使得目标信息得出更加客观,更加准确,系统运行结果更迅速。
具体实施方式:
一种信息检索系统,其特征在于:由匹配特征、目标信息集和信息选择项集组成,所述匹配特征主要由引录、摘要、关键词组成;所述目标信息集主要由互联网汇集的文库、公开刊物组成;其用户检索结果的公式为:
所述匹配特征由用户通过用户交互界面进行选择,再通过反馈程序从匹配特征数据库内提取。
目标信息集内设有过滤特征,在匹配特征时可直接将关联的目标信息剔除。
根据用户选择匹配特征得出形式相同内容不同时,继续按匹配特征分情况计算,取结果最大值对应的目标信息。
根据用户选择匹配特征得出形式相同内容相近时,继续按匹配特征分情况计算,取结果最大值对应的目标信息。
本发明的实现原理如下:
信息选择项集:A=[a,b,c,d,e,f,g,h,j],f,g为引录、h,j为关键词。
目标信息集:B=[a:1,b:1,c:0,d:0]——a为过滤特征;
C=[m:1,a:1,d:1,e:1]——m为过滤特征;
D=[非e:1,c:0.5,d:.5]——非e为过滤特征;
E=[a:1,b:1,c:1,非k:1]——非k为过滤特征;
F=[a:1,b:1,c:0]或[a:1,c:1,f:0.5,g:0.5,h:0.5,x:1,y:0]——形式相同内容不同;
G=[G1,G2],G1=[a:1,b:1,f:0.5,h:0.5],G2=[a:1,d:1,e:1,f:0.5]——形式相同内容相近;
在本发明的系统中,过滤特征的定义为一种辅助验证,如年份是否符合。可以使系统在公式中选择时更加具有客观性。
通过系统公式计算如下:
目标信息B:匹配特征有(a,b,c,d),则匹配特征个数=4,匹配特征总权重=1+1+0+0=2,信息选择项集数=1+1+1+1+1+2/2+2/2=7,目标信息集总权重=1+1+0+0=2。则目标信息B的概率=2/2*4/7=0.57。
目标信息C:m为过滤特征,信息选择项集中没有m,故目标信息C不参与计算。
目标信息D:信息选择项集中有e,而信息选择项集中为非e,故目标信息D不参与计算。
目标信息E:目标信息集中有非k,信息选择项集中没有k,则默认信息选择项集中有非k,此时信息选择项集为[a,b,c,d,e,f,g,h,j,非k],则匹配特征为(a,b,c,非k),匹配特征个数=4,匹配特征总权重=1+1+1+1=4,信息选择项集个数=1+1+1+1+1+2/2+2/2+1=8,目标信息集总权重=1+1+1+1=4,则目标信息E的概率=4/4*4/8=0.5。
目标信息F:形式相同内容不同,此处举例的情况两种匹配特征都包含或部分包含在信息选择项集中,但也有一个包含一或多个不包含的情况。此时目标信息F要分两种情况计算。
情况一,匹配特征有(a,b,c),匹配特征个数=3,匹配特征总权重=1+1+0=2,信息选择项集个数=1+1+1+1+1+2/2+2/2=7,目标信息集总权重=1+1+0=2,则目标信息F的概率=2/2*3/7=0.43。
情况二,没有过滤特征,所以此方参与计算,比如包括引录、关键词,故强调引录、关键词相同个数计算规则:信息选择项集只要有相同引录特征,只要引录特征个数≥1,那么引录特征个数=1个,只要关键词相同个数≥1个,则关键词相同个数=1个,匹配引录、关键词的个数根据信息选择项集确定,若匹配特征只有1个引录,信息选择项集有两个,则匹配症引录个数=1/2=0.5个,摘要、关键词同理。此时,匹配特征有(a,c,f,g,h),匹配特征个数=1+1+(1+1)/(1+1)+1/(1+1)=3.5,匹配特征总权重=1+1+0.5+0.5+0.5=3.5,信息选择项集个数=1+1+1+1+1+2/2+2/2=7,目标信息集总权重=1+1+0.5+0.5+0.5+1+0=4.5,则目标信息F的概率=3.5/4.5*3.5/7=0.39。
最后比较情况一与情况二的大小,并取最大值,0.43>0.39,目标信息F的概率为0.43。在信息系统中,提取F为检索结果。
目标信息G:形式相同内容相近,将目标信息当做两个及以上的独立的目标信息计算概率,取最大值,最终指向概率最大的子项,这也是与形式相同内容不同的不同点。
G1的匹配特征有(a,b,f,h),匹配特征个数=1+1+1/2+1/2=3,匹配特征总权重=1+1+0.5+0.5=3,信息选择项集个数=1+1+1+1+1+2/2+2/2=7,目标信息集总权重=1+1+0.5+0.5=3,概率=3/3*3/7=0.43。
G2的匹配特征有(a,b,e,f),匹配特征个数=1+1+1+1/2=3.5,匹配特征总权重=1+1+1+0.5=3.5,信息选择项集个数=1+1+1+1+1+2/2+2/2=7,目标信息集总权重=1+1+1+0.5=3.5,概率=3.5/3.5*3.5/7=0.5。
比较G1与G2的概率,取最大值,0.5>0.43,故处方G的概率为0.5。在信息系统中,提取G2为检索结果。
Claims (5)
1.一种信息检索系统,其特征在于:由匹配特征、目标信息集和信息选择项集组成,
所述匹配特征主要由引录、摘要、关键词组成;所述目标信息集主要由互联网汇集的文库、公开刊物组成;其用户检索结果的公式为:
2.根据权利要求1所述的一种信息检索系统,其特征在于:所述匹配特征由用户通过用户交互界面进行选择,再通过反馈程序从匹配特征数据库内提取。
3.根据权利要求1所述的一种信息检索系统,其特征在于:目标信息集内设有过滤特征,在匹配特征时可直接将关联的目标信息剔除。
4.根据权利要求1所述的一种信息检索系统,其特征在于:根据用户选择匹配特征得出形式相同内容不同时,继续按匹配特征分情况计算,取结果最大值对应的目标信息。
5.根据权利要求1所述的一种信息检索系统,其特征在于:根据用户选择匹配特征得出形式相同内容相近时,继续按匹配特征分情况计算,取结果最大值对应的目标信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810087830.0A CN108334590B (zh) | 2018-01-30 | 2018-01-30 | 一种信息检索系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810087830.0A CN108334590B (zh) | 2018-01-30 | 2018-01-30 | 一种信息检索系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108334590A true CN108334590A (zh) | 2018-07-27 |
CN108334590B CN108334590B (zh) | 2021-06-29 |
Family
ID=62926403
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810087830.0A Active CN108334590B (zh) | 2018-01-30 | 2018-01-30 | 一种信息检索系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108334590B (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102081655B (zh) * | 2011-01-11 | 2013-06-05 | 华北电力大学 | 基于贝叶斯分类算法的信息检索方法 |
US20130282528A1 (en) * | 2005-12-22 | 2013-10-24 | Ebay Inc. | Suggested item category systems and methods |
CN103886063A (zh) * | 2014-03-18 | 2014-06-25 | 国家电网公司 | 一种文本检索方法和装置 |
CN104376120A (zh) * | 2014-12-04 | 2015-02-25 | 浙江大学 | 一种信息检索方法及系统 |
CN104484671A (zh) * | 2014-11-06 | 2015-04-01 | 吉林大学 | 应用于移动平台的目标检索系统 |
US9501759B2 (en) * | 2011-10-25 | 2016-11-22 | Microsoft Technology Licensing, Llc | Search query and document-related data translation |
CN106708935A (zh) * | 2016-11-16 | 2017-05-24 | 四川省亚丁胡杨人力资源集团有限公司 | 一种基于智能社区的服务信息管理系统 |
CN107085583A (zh) * | 2016-10-27 | 2017-08-22 | 中国长城科技集团股份有限公司 | 一种基于内容的电子文档管理方法及装置 |
CN107247743A (zh) * | 2017-05-17 | 2017-10-13 | 安徽富驰信息技术有限公司 | 一种司法类案检索方法及系统 |
-
2018
- 2018-01-30 CN CN201810087830.0A patent/CN108334590B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130282528A1 (en) * | 2005-12-22 | 2013-10-24 | Ebay Inc. | Suggested item category systems and methods |
CN102081655B (zh) * | 2011-01-11 | 2013-06-05 | 华北电力大学 | 基于贝叶斯分类算法的信息检索方法 |
US9501759B2 (en) * | 2011-10-25 | 2016-11-22 | Microsoft Technology Licensing, Llc | Search query and document-related data translation |
CN103886063A (zh) * | 2014-03-18 | 2014-06-25 | 国家电网公司 | 一种文本检索方法和装置 |
CN104484671A (zh) * | 2014-11-06 | 2015-04-01 | 吉林大学 | 应用于移动平台的目标检索系统 |
CN104376120A (zh) * | 2014-12-04 | 2015-02-25 | 浙江大学 | 一种信息检索方法及系统 |
CN107085583A (zh) * | 2016-10-27 | 2017-08-22 | 中国长城科技集团股份有限公司 | 一种基于内容的电子文档管理方法及装置 |
CN106708935A (zh) * | 2016-11-16 | 2017-05-24 | 四川省亚丁胡杨人力资源集团有限公司 | 一种基于智能社区的服务信息管理系统 |
CN107247743A (zh) * | 2017-05-17 | 2017-10-13 | 安徽富驰信息技术有限公司 | 一种司法类案检索方法及系统 |
Non-Patent Citations (2)
Title |
---|
SHIKHA GUPTA 等: "Combined approach for page ranking in information retrieval system using context and TF-IDF weight", 《INTERNATIONAL JOURNAL OF COMPUTER SCIENCES AND ENGINEERING》 * |
郭亚维 等: "文本分类中信息增益特征选择方法的研究", 《计算机工程与应用》 * |
Also Published As
Publication number | Publication date |
---|---|
CN108334590B (zh) | 2021-06-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Lei Ba et al. | Predicting deep zero-shot convolutional neural networks using textual descriptions | |
CN105469096B (zh) | 一种基于哈希二值编码的特征袋图像检索方法 | |
CN107122352A (zh) | 一种基于k‑means、word2vec的抽取关键词的方法 | |
CN104424296B (zh) | 查询词分类方法和装置 | |
CN107291895B (zh) | 一种快速的层次化文档查询方法 | |
WO2018176913A1 (zh) | 搜索方法、装置及非临时性计算机可读存储介质 | |
CN109960763A (zh) | 一种基于用户细粒度摄影偏好的摄影社区个性化好友推荐方法 | |
US20150199567A1 (en) | Document classification assisting apparatus, method and program | |
Vo et al. | Vietnamese herbal plant recognition using deep convolutional features | |
JP4937395B2 (ja) | 特徴ベクトル生成装置、特徴ベクトル生成方法及びプログラム | |
CN103778206A (zh) | 一种网络服务资源的提供方法 | |
CN108304851A (zh) | 一种高维数据流异常点识别方法 | |
CN105512333A (zh) | 基于情感倾向的产品评论主题搜索方法 | |
CN104216993A (zh) | 一种标签共现的标签聚类方法 | |
CN107577758A (zh) | 一种基于多区域交叉权值的图像卷积特征的生成方法 | |
CN103761286B (zh) | 一种基于用户兴趣的服务资源检索方法 | |
Han et al. | Bin similarity‐based domain adaptation for fine‐grained image classification | |
CN107704872A (zh) | 一种基于相对最离散维分割的K‑means聚类初始中心选取方法 | |
CN110399493A (zh) | 一种基于增量学习的作者消歧方法 | |
Zhu et al. | EADD-YOLO: An efficient and accurate disease detector for apple leaf using improved lightweight YOLOv5 | |
CN107895053A (zh) | 基于话题簇动量模型的新兴热点话题检测系统及方法 | |
CN108681581A (zh) | 一种就业数据的协同过滤方法及系统 | |
CN108334590A (zh) | 一种信息检索系统 | |
JP5734118B2 (ja) | ソーシャルネットワークから小集団を抽出し、名前付け、並びに可視化する方法およびプログラム | |
Guang et al. | ECAENet: EfficientNet with efficient channel attention for plant species recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TA01 | Transfer of patent application right | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20210617 Address after: Room 1001-1002, building 5, No. 55, Yushan Road, high tech Zone, Suzhou City, Jiangsu Province 215000 Applicant after: Suzhou longyushangbin Information Technology Co.,Ltd. Address before: 318050 16 households in group 4, qianqifen village, Luqiao District, Taizhou City, Zhejiang Province Applicant before: Wu Yulu |