CN111159333A - 藏文期刊论文检索系统 - Google Patents

藏文期刊论文检索系统 Download PDF

Info

Publication number
CN111159333A
CN111159333A CN201911252316.9A CN201911252316A CN111159333A CN 111159333 A CN111159333 A CN 111159333A CN 201911252316 A CN201911252316 A CN 201911252316A CN 111159333 A CN111159333 A CN 111159333A
Authority
CN
China
Prior art keywords
retrieval
document
similarity
documents
query
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201911252316.9A
Other languages
English (en)
Inventor
陈晓红
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhu Leha Information Technology Co Ltd
Original Assignee
Wuhu Leha Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhu Leha Information Technology Co Ltd filed Critical Wuhu Leha Information Technology Co Ltd
Priority to CN201911252316.9A priority Critical patent/CN111159333A/zh
Publication of CN111159333A publication Critical patent/CN111159333A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/338Presentation of query results

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了藏文期刊论文检索系统,涉及藏文检索技术领域。本发明包括查询功能模块、文档存储库以及显示模块;查询功能模块包括检索单元以及相似度对比单元;检索单元用户接收检索关键词;检索单元根据改进向量空间模型算法检索文档存储库获取若干检索文档;相似度对比单元根据检索文档的相似度从高到低对若干检索文档排序;显示模块将排序好的检索文档按相似度从高到低显示。本发明通过检索单元根据改进向量空间模型算法检索文档存储库获取若干检索文档;所述相似度对比单元根据检索文档的相似度从高到低对若干检索文档排序,提高查全率和查准率,同时对查询效率。

Description

藏文期刊论文检索系统
技术领域
本发明属于藏文检索技术领域,特别是涉及一种藏文期刊论文检索系统。
背景技术
向量空间模型根据特征频率进行检索的典型算法,此模型主要通过将定的文本看过相互独立的特征项(t1,t2,t3,…tn)构成,将特征项看成一个n维坐标系中的坐标轴,对于每一个特征项ti都根据其在文档中的重要程度赋予一定的权值wi(w1,w2,w3…wn)对应为n维坐标系中的坐标值,特征权值的计算框架一般被称为Tf*IDF框架,可以用如下(1)词频因子的变体计算公式来计算:
Figure BDA0002309375410000011
这种方法被称为增强型规范化Tf,公式的a是调节因子,Tf是这个单词的实际词频数目,Max(Tf)是文档中所有单词中出现次数最多的那个单词对应的词频数目。这样处理的目的主要是对长文档的一种抑制。而IDF主要考虑的是特征单词之间的相对重要性,是文档集合中范围的一种全局因子,并非文档本身的特征,其计算公式如下(2)所示:
Figure BDA0002309375410000012
其中的N代表文档集合中文档总数,而nk代表特证词k的文档频率,IDF反映的是某个特证词在整个文档集合中的分布情况。Tf*IDF框架就是结合了上述的词频因子和逆文档频率因子的计算框架,一般是将两者相乘作为特征权值,特征权值越大,则越可能是好的指示词,其计算公式如下(3)所示:
Weightword=Tf×IDF (3)
向量空间算法虽简单有效,并被各种领域广泛采用,但是没有考虑各个特征项在文档中出现的位置。
本发明提供一种藏文期刊论文检索系统,通过检索单元根据改进向量空间模型算法检索文档存储库获取若干检索文档;所述相似度对比单元根据检索文档的相似度从高到低对若干检索文档排序,提高查全率和查准率,同时对查询效率。
发明内容
本发明的目的在于提供藏文期刊论文检索系统,通过检索单元根据改进向量空间模型算法检索文档存储库获取若干检索文档;所述相似度对比单元根据检索文档的相似度从高到低对若干检索文档排序,提高查全率和查准率,同时对查询效率。
为解决上述技术问题,本发明是通过以下技术方案实现的:
本发明为藏文期刊论文检索系统,包括:查询功能模块、文档存储库以及显示模块;所述查询功能模块包括检索单元以及相似度对比单元;
所述检索单元用户接收检索关键词;所述检索单元根据改进向量空间模型算法检索文档存储库获取若干检索文档;所述相似度对比单元根据检索文档的相似度从高到低对若干检索文档排序;所述显示模块将排序好的检索文档按相似度从高到低显示;
所述改进向量空间模型算法具体包括如下:
A00:将文档Di按位置分为若干文本段Sit
A01:根据位置词频权重计算方法计算文本段Sit的词项权重;
A02:计算索引项Tk在查询时Q中的权重;
A03:计算文本段Sit与查询式Q、查询式Q与文档Di的相似度:
Figure BDA0002309375410000031
Figure BDA0002309375410000032
其中,ηt为可调参数,表示文本段Sit对于论文文档Di主题的贡献率。
优选地,A01中文本段Sit的词项权重计算公式具体如下:
Figure BDA0002309375410000033
其中,i=1,2,…,m代表文档存储库内存储的第i个文档,t=1,2,…,N代表文档划分的第t个文本段,k=1,2,…,n代表文档存储库内的第k个索引项;tfitk为索引项Tk出现在文档Di中的文本段Sit中的频率,Sit的大小为lit。
优选地,A02中索引项Tk在查询时Q中的权重计算公式如下:
Figure BDA0002309375410000034
其中,用户查询式向量为:
Figure BDA0002309375410000035
优选地,A03中相似度计算公式如下相似度:
Figure BDA0002309375410000041
Figure BDA0002309375410000042
其中,ηt为可调参数,表示文本段Sit对于论文文档Di主题的贡献率。
本发明的一个方面具有以下有益效果:
本发明通过检索单元根据改进向量空间模型算法检索文档存储库获取若干检索文档;所述相似度对比单元根据检索文档的相似度从高到低对若干检索文档排序,提高查全率和查准率,同时对查询效率。
当然,实施本发明的任一产品并不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明中改进向量空间模型算法的流程图;
图2为本发明中改进向量空间模型与传统向量空间模型查全率对比图;
图3为本发明中改进向量空间模型与传统向量空间模型查准率对比图;
图4为本发明中改进向量空间模型与传统向量空间模型综合评估率F对比图对比图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
在本发明的描述中,需要理解的是,术语“开孔”、“上”、“中”、“长度”、“内”等指示方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的组件或元件必须具有特定的方位,以特定的方位构造和操作,因此不能理解为对本发明的限制。
本发明为藏文期刊论文检索系统,包括:查询功能模块、文档存储库以及显示模块;查询功能模块包括检索单元以及相似度对比单元;
检索单元用户接收检索关键词;检索单元根据改进向量空间模型算法检索文档存储库获取若干检索文档;相似度对比单元根据检索文档的相似度从高到低对若干检索文档排序;显示模块将排序好的检索文档按相似度从高到低显示;
请参阅图1所示,改进向量空间模型算法具体包括如下:
A00:将文档Di按位置分为若干文本段Sit
A01:根据位置词频权重计算方法计算文本段Sit的词项权重;
A02:计算索引项Tk在查询时Q中的权重;
A03:计算文本段Sit与查询式Q、查询式Q与文档Di的相似度:
Figure BDA0002309375410000061
Figure BDA0002309375410000062
其中,ηt为可调参数,表示文本段Sit对于论文文档Di主题的贡献率。
其中,A01中文本段Sit的词项权重计算公式具体如下:
Figure BDA0002309375410000063
其中,i=1,2,…,m代表文档存储库内存储的第i个文档,t=1,2,…,N代表文档划分的第t个文本段,k=1,2,…,n代表文档存储库内的第k个索引项;tfitk为索引项Tk出现在文档Di中的文本段Sit中的频率,Sit的大小为lit。
其中,A02中索引项Tk在查询时Q中的权重计算公式如下:
Figure BDA0002309375410000064
其中,用户查询式向量为:
Figure BDA0002309375410000065
其中,A03中相似度计算公式如下相似度:
Figure BDA0002309375410000066
Figure BDA0002309375410000067
其中,ηt为可调参数,表示文本段Sit对于论文文档Di主题的贡献率;
实际上,改进向量空间模型算法将藏文期刊论文从组织结构上划分为n个文本段,形成了多层向量空间模型,对每个文本段建立相对应的文本特征向量和文本权值向量。一篇论文的不同逻辑划分可使特征项在论文中的作用是不一样的,因为在检索匹配过程中不但要考虑特征项出现的次数,而且还要考虑不同特征项在文本段中出现的位置,这样就可以提高匹配结果的准确程度。改进的向量空间模型主要研究的是根据索引项出现的位置给索引项赋予词频权值;多层向量空间模型中将文档Di按期位置分为不同的文本段Sit,如标题、摘要、正文等。
通过该系统采用的改进向量空间模型算法,在实验数据中,对大量暂稳期刊进行建立了索引库,将论文分成标题、摘要、正文三部分,从而得出了三层向量空间模型,设定可调参数ηt,在标题中出现ηt=0.9,在摘要中出现ηt=0.8,正文中出现ηt=0.7,并取不同的相关门槛值对文档进行不同对实验,得到不同的相关门槛值下传统模型与改进模型的查准率、查全率、综合评估率F和消耗时间的结果如下表(向量空间模型改进前后的论文检索性能比较):
Figure BDA0002309375410000071
并根据上表绘制折线图,能够更加直观地看到改进后的向量空间模型的性能与传统向量空间模型的差距;
请参阅图2所示的两种算法的查全率对比图;其中,位于下方的为采用传统的向量空间模型的折线图,位于上方的为采用改进向量空间模型的折线图;
请参阅图3所示的算法的查准率对比图,其中,位于下方的为采用传统的向量空间模型的折线图,位于上方的为采用改进向量空间模型的折线图;
请参阅图4所示的综合评估率F对比图,其中,位于下方的为采用传统的向量空间模型的折线图,位于上方的为采用改进向量空间模型的折线图;
综合比较后的具体数据为,改进过的多层向量空间模型比传统向量空间模型查全率平均提高了8.21%,查准率提高了22.2%,综合评估率F提高37.8%,都得到了一定的改善,而且相应的查询效率也提高了0.7秒。
在本说明书的描述中,参考术语“一个实施例”、“示例”、“具体示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本说明书的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本发明的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。

Claims (4)

1.藏文期刊论文检索系统,其特征在于,包括:查询功能模块、文档存储库以及显示模块;所述查询功能模块包括检索单元以及相似度对比单元;
所述检索单元用户接收检索关键词;所述检索单元根据改进向量空间模型算法检索文档存储库获取若干检索文档;所述相似度对比单元根据检索文档的相似度从高到低对若干检索文档排序;所述显示模块将排序好的检索文档按相似度从高到低显示;
所述改进向量空间模型算法具体包括如下:
A00:将文档Di按位置分为若干文本段Sit
A01:根据位置词频权重计算方法计算文本段Sit的词项权重;
A02:计算索引项Tk在查询时Q中的权重;
A03:计算文本段Sit与查询式Q、查询式Q与文档Di的相似度:
Figure FDA0002309375400000011
Figure FDA0002309375400000012
其中,ηt为可调参数,表示文本段Sit对于论文文档Di主题的贡献率。
2.根据权利要求1所述的藏文期刊论文检索系统,其特征在于,A01中文本段Sit的词项权重计算公式具体如下:
Figure FDA0002309375400000013
其中,i=1,2,…,m代表文档存储库内存储的第i个文档,t=1,2,…,N代表文档划分的第t个文本段,k=1,2,…,n代表文档存储库内的第k个索引项;tfitk为索引项Tk出现在文档Di中的文本段Sit中的频率,Sit的大小为lit。
3.根据权利要求1所述的藏文期刊论文检索系统,其特征在于,A02中索引项Tk在查询时Q中的权重计算公式如下:
Figure FDA0002309375400000021
其中,用户查询式向量为:
Figure FDA0002309375400000022
4.根据权利要求1所述的藏文期刊论文检索系统,其特征在于,A03中相似度计算公式如下相似度:
Figure FDA0002309375400000023
Figure FDA0002309375400000024
其中,ηt为可调参数,表示文本段Sit对于论文文档Di主题的贡献率。
CN201911252316.9A 2019-12-09 2019-12-09 藏文期刊论文检索系统 Withdrawn CN111159333A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911252316.9A CN111159333A (zh) 2019-12-09 2019-12-09 藏文期刊论文检索系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911252316.9A CN111159333A (zh) 2019-12-09 2019-12-09 藏文期刊论文检索系统

Publications (1)

Publication Number Publication Date
CN111159333A true CN111159333A (zh) 2020-05-15

Family

ID=70556606

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911252316.9A Withdrawn CN111159333A (zh) 2019-12-09 2019-12-09 藏文期刊论文检索系统

Country Status (1)

Country Link
CN (1) CN111159333A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111723179A (zh) * 2020-05-26 2020-09-29 湖北师范大学 基于概念图谱的反馈模型信息检索方法、系统及介质
CN116484830A (zh) * 2023-06-26 2023-07-25 山东省标准化研究院(Wto/Tbt山东咨询工作站) 基于大数据的互联网广告智能监测系统

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111723179A (zh) * 2020-05-26 2020-09-29 湖北师范大学 基于概念图谱的反馈模型信息检索方法、系统及介质
CN116484830A (zh) * 2023-06-26 2023-07-25 山东省标准化研究院(Wto/Tbt山东咨询工作站) 基于大数据的互联网广告智能监测系统
CN116484830B (zh) * 2023-06-26 2023-12-26 山东省标准化研究院(Wto/Tbt山东咨询工作站) 基于大数据的互联网广告智能监测系统

Similar Documents

Publication Publication Date Title
Drosou et al. Search result diversification
Korenius et al. On principal component analysis, cosine and Euclidean measures in information retrieval
EP1801714B1 (en) Generation of descriptions for classes and clusters of documents
Kou et al. Multiple factor hierarchical clustering algorithm for large scale web page and search engine clickstream data
US20120209847A1 (en) Methods and systems for automatically generating semantic/concept searches
Hawashin et al. An efficient feature selection method for arabic text classification
CN109885813A (zh) 一种基于词语覆盖度的文本相似度的运算方法、系统、服务器及存储介质
Zaman et al. Evaluation of stop word lists in text retrieval using Latent Semantic Indexing
Wang et al. Indexing by L atent D irichlet A llocation and an E nsemble M odel
CN111159333A (zh) 藏文期刊论文检索系统
Qiu et al. Incorporate the syntactic knowledge in opinion mining in user-generated content
Aggarwal Mining text streams
Soo Kim Text recommender system using user's usage patterns
Udupa et al. An exploratory analysis of GSDMM and BERTopic on short text topic modelling
Aliguliyev Automatic document summarization by sentence extraction
de Buenaga Rodriguez et al. Using WordNet to complement training information in text categorization
Bouhini et al. Personalized information retrieval models integrating the user's profile
CN110955827B (zh) 采用AI3解决SKQwhy-not问题的方法及系统
Rapečka et al. A new recommendation model for the user clustering-based recommendation system
Dumitrescu et al. Improving novelty in streaming recommendation using a context model
Rodrigues et al. Concept based search using LSI and automatic keyphrase extraction
Friedrich et al. Utilizing query facets for search result navigation
Badarinza et al. Custom IDF weights for boosting the relevancy of retrieved documents in textual retrieval
Pisal et al. AskUs: An opinion search engine
Hung et al. Reorganization of search results based on semantic clustering

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20200515

WW01 Invention patent application withdrawn after publication