CN107918607A - 一种基于语义信息的数字档案查询与排序方法 - Google Patents

一种基于语义信息的数字档案查询与排序方法 Download PDF

Info

Publication number
CN107918607A
CN107918607A CN201711253621.0A CN201711253621A CN107918607A CN 107918607 A CN107918607 A CN 107918607A CN 201711253621 A CN201711253621 A CN 201711253621A CN 107918607 A CN107918607 A CN 107918607A
Authority
CN
China
Prior art keywords
title
term
keyword
archives
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201711253621.0A
Other languages
English (en)
Other versions
CN107918607B (zh
Inventor
才智
崔雪蕊
张勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Technology
Original Assignee
Beijing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Technology filed Critical Beijing University of Technology
Priority to CN201711253621.0A priority Critical patent/CN107918607B/zh
Publication of CN107918607A publication Critical patent/CN107918607A/zh
Application granted granted Critical
Publication of CN107918607B publication Critical patent/CN107918607B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • G06F16/319Inverted lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于语义信息的数字档案查询与排序方法,对用户所输入的关键词和检索层级(用l表示),然后根据关键词返回的标题信息,对标题信息中出现概率较高的词进一步运用算法进行削弱,返回给用户k条最全面的基于关键词的标题信息的集合。步骤一:利用倒排索引,首先建立语义单词与语义标题之间的对应关系;步骤2:输入关键词生成k条备选的档案标题,当l>1时,确保新生成的档案标题中不含有已经得到的标题;步骤3:根据得到的标题用算法生成最终含有l层档案标题的队列Hk

Description

一种基于语义信息的数字档案查询与排序方法
技术领域
本发明属于数据挖掘领域,涉及一种基于语义信息的数字档案的查询与排序方法。
背景技术
随着计算机技术的广泛普及和网络技术的迅速发展,我国档案和档案工作产生了巨大的变化,电子档案的数量与日俱增。面对大量的档案信息,如何能够对档案进行高效检索是建立数字档案过程中的关键步骤。档案检索的自动化程度的提高,充分满足数字化背景下档案信息利用者对档案信息检索的全面,及时有效的需求是提高档案信息化服务水平的重要指标。而传统的搜索引擎并不能完全适用于档案这一特殊领域,通用的档案检索过程都是在用户输入关键词后对关键词进行匹配,直接返回给用户从数据库中最先匹配到的k条数据,并且检索过程中也会造成关键词匹配不准确等问题,如用户输入关键词“四合院”,通用检索程序往往会返回“四合”(非“四合院”)这样的档案标题,大大降低了检索的准确度。为解决这一问题,本发明提出了一种针对数字档案的查询和排序方法,该方法能够按照用户给出的关键词和检索层级来返回与关键词相关的重要信息。
倒排索引是一种用来存储在全文搜索下某个单词在一个文档或者一组文档中的存储位置的映射。受倒排索引启发,本发明中需要建立数字档案标题的单词与档案标题之间的映射。即首先需要将全部标题进行分词,在分词过程中过滤掉停用词,然后对分词后的单词(term)通过使用链表的方式,将每一个出现term 的档案标题的位置加入到term链表中,依次构成一个通过输入关键词即能够快速得到档案标题的索引列表,大大提高了检索的速度;然后对用户输入的关键词所返回的档案标题,经过分词,去重,统计档案标题中出现的term及每一个term 出现的次数和term出现的总次数,计算关键词与term之间的关联系数R,该关联系数能够反映term在档案标题中的重要程度,当term所占比例越高时,该term 越重要,即关键词与term的关系越紧密;选取R中排名在Top2的term,将其加入候选关键词队列,由于此时选出的候选关键词在重要性上已经得到降低,因此给出一种关键词削弱量的计算方法,即将候选关键词加入关键词队列后,再在数据库中对关键词进行匹配时,产生的档案标题中各标题得分需要削弱,并将其加入到候选档案标题中,综合计算所有档案标题得分,选出得分排名在Top k的档案标题返回给用户。该方法在一定程度上优化了基于关键词的数字档案的搜索。,其中Top k指前k名,k为自然数。
发明内容
本发明的目的在于提供了一种基于语义信息的面向数字档案的查询和排序方法,对用户所输入的关键词和检索层级(用l表示),然后根据关键词返回的标题信息,对标题信息中出现概率较高的词进一步运用算法进行削弱,返回给用户k条最全面的基于关键词的标题信息的集合。
一种基于语义信息的数字档案查询与排序方法,该方法的实现步骤如下:
步骤1:利用倒排索引,首先建立语义单词与语义标题之间的对应关系。
步骤1.1:收集并整理数据集,构建数据关系。数据集中含有档案标题,依次对档案标题进行编号1...i...n,其中编号从1开始,编号i代表数据集中的第i 条标题,n为标题总数。
步骤1.2:对数据集中的全部档案标题进行分词,分词后的单词用term标记,在分词过程中过滤停用词(Stop Words)。其中,停用词包括term长度小于2的单词,语气助词、副词、介词、连接词等无意义的词,在档案标题中频繁出现的词,如北京市、档案馆等。
步骤1.3:使用hash去重单词term,建立term与标题编号之间的链表,使生成term的所有标题编号加入到该term链表中,从而当查询关键词为term时,能够得到所有含有该term的标题。
步骤2:输入关键词生成k条备选的档案标题,k为返回给用户的档案标题数;当l>1时,确保新生成的档案标题中不含有已经得到的标题。
步骤3:根据得到的标题用算法生成最终含有l层档案标题的队列Hk
步骤3.1:对新生成的备选标题进行分词,在分词过程中过滤停用词(详见步骤1.2,1.3),鉴于每一条备选标题中都含有关键词,在过滤停用词时一并过滤掉关键词;
步骤3.2:对分词结果进行统计,统计每个term出现的次数记为Z(term),统计出现的所有term的总和记为Sum。
其中i表示为第i条标题,j表示为分词后的第j个单词,其中每行标题分词后都有一个最大分词个数记为max(i)。设在10条备选标题中经过分词后出现单词“计量器”的次数为5,则Z(计量器)=5。
步骤3.3:计算关键词与term的关联系数R;
为了能够表示每一个term在Sum中出现的频率大小,将term做归一化处理,其公式如下:
该公式也表示关键词与term之间的关联程度即关联系数,其中R(kw,term) 的值域为(0,1),关键词key words记为kw。
步骤3.4:由用户输入的关键词,所产生的备选标题层级记为1,当用户输入的l>1时,其关键词由前一次生成的备选标题经过分词后得到的关联系数的 Top2产生,由于新产生的关键词其重要程度已经得到减弱,所以给出如下kw与 term之间关联程度削弱量的计算方法:
Rl为削弱后关键词与term的关联系数;
步骤3.5:通过以下公式计算每一个title得分r。
计算出每一次产生的关键词,即第一次关键词由用户输入,第l层关键词及第l层term都需要按公式(2)进行重要性削弱,并且检索次数≤检索层级,并为每次产生的新的标题计算综合得分,再从中选出k条分数最高的title。
综上,通过l次递归迭代,对新产生的档案标题中各标题计算得分加入候选标题队列,从候选队列中选出k条得分最高的标题加入队列Hk,所以选出k条档案标题的过程为:
1)初始化队列Hk为空,构建数据关系,n=1;
2)当n≤l时,转3),否则转10);
3)将候选关键词加入关键词队列,当l=1时,用户输入的关键词也称为候选关键词;
4)输入关键词,将新生成的档案标题加入到备选的档案标题,当l>1时,新生成的档案标题中不含有已经生成的标题;
5)对新生成的档案标题中个标题进行分词,在分词过程中去除停用词;
6)统计每一个term出现的次数,统计term总数;
7)计算关键词与term的关联系数R;
8)计算削弱后关键词与term的关联系数Rl;
9)在R中找到排名为Top2的term,记为候选关键词,n++,转2;
10)计算候选队列中每一个title得分,并将候选队列中title按照分数从高到底排序,依次将前k条title加入队列Hk中,返回队列Hk
此时返回的队列Hk即所需的将要检索到的k条信息。
与现有技术相比较,本发明具有如下有益效果:
1)根据用户输入的关键词检索层级返回按照语义重要性排序的档案标题;
2)检索的关键词在档案标题匹配程度上更精确。
附图说明
图1为本发明的实施流程图。
具体实施方式
下面结合相关附图对本发明进行解释和阐述:
本发明采用的数据集是北京市档案馆数据库,在北京市档案馆数字档案馆查阅系统中输入关键词“计量器”,假设k=10,用户需要的检索层数l=1,自然数m为检索到的信息总条数,m=10,如果只依据步骤2得到档案标题,则前10条标题如表1所示:
表1 10条关键词为“计量器”所对应的序号,标题
步骤3.1,3.2,对得到的标题进行分词(去除停用词),并对各个term进行词频统计,其中各个term出现次数如表2所示。
表2对title分词并去除停用词,统计各词词频结果示意图
其中term的总和Sum=95;
步骤3.3:计算关键词与term的关联系数R
其余关键词与term的关联系数为
步骤3.4:计算削弱后关键词与term的关联系数Rl;
由于本次由关键词产生的档案标题中l=1,所以对每一个Rl(kw,term)= R(kw,term);
步骤3.5:计算每一个title得分r,其中结果如表3所示:
表3标题中每一个title得分
以上为l=1时产生的候选档案标题及每条标题得分,对产生的候选标题得分进行从高到低排序,得到最终的档案标题排名如表4所示:
表4档案标题得分排名输出结果如下:

Claims (1)

1.一种基于语义信息的数字档案查询与排序方法,其特征在于:该方法的实现步骤如下:
步骤1:利用倒排索引,首先建立语义单词与语义标题之间的对应关系;
步骤1.1:收集并整理数据集,构建数据关系;数据集中含有档案标题,依次对档案标题进行编号1...i...n,其中编号从1开始,编号i代表数据集中的第i条标题,n为标题总数;
步骤1.2:对数据集中的全部档案标题进行分词,分词后的单词用term标记,在分词过程中过滤停用词;其中,停用词包括term长度小于2的单词,语气助词、副词、介词、连接词等无意义的词,在档案标题中频繁出现的词,如北京市、档案馆等;
步骤1.3:使用hash去重单词term,建立term与标题编号之间的链表,使生成term的所有标题编号加入到该term链表中,从而当查询关键词为term时,能够得到所有含有该term的标题;
步骤2:输入关键词生成k条备选的档案标题,k为返回给用户的档案标题数;当l>1时,确保新生成的档案标题中不含有已经得到的标题;
步骤3:根据得到的标题用算法生成最终含有l层档案标题的队列Hk
步骤3.1:对新生成的备选标题进行分词,在分词过程中过滤停用词,鉴于每一条备选标题中都含有关键词,在过滤停用词时一并过滤掉关键词;
步骤3.2:对分词结果进行统计,统计每个term出现的次数记为Z(term),统计出现的所有term的总和记为Sum;
其中i表示为第i条标题,j表示为分词后的第j个单词,其中每行标题分词后都有一个最大分词个数记为max(i);设在10条备选标题中经过分词后出现单词“计量器”的次数为5,则Z(计量器)=5;
步骤3.3:计算关键词与term的关联系数R;
为了能够表示每一个term在Sum中出现的频率大小,将term做归一化处理,其公式如下:
该公式也表示关键词与term之间的关联程度即关联系数,其中R(kw,term)的值域为(0,1),关键词key words记为kw;
步骤3.4:由用户输入的关键词,所产生的备选标题层级记为1,当用户输入的l>1时,其关键词由前一次生成的备选标题经过分词后得到的关联系数的Top2产生,由于新产生的关键词其重要程度已经得到减弱,所以给出如下kw与term之间关联程度削弱量的计算方法:
Rl为削弱后关键词与term的关联系数;
步骤3.5:通过以下公式计算每一个title得分r;
计算出每一次产生的关键词,即第一次关键词由用户输入,第l层关键词及第l层term都需要按公式(2)进行重要性削弱,并且检索次数≤检索层级,并为每次产生的新的标题计算综合得分,再从中选出k条分数最高的title;
综上,通过l次递归迭代,对新产生的档案标题中各标题计算得分加入候选标题队列,从候选队列中选出k条得分最高的标题加入队列Hk,所以选出k条档案标题的过程为:
1)初始化队列Hk为空,构建数据关系,n=1;
2)当n≤1时,转3),否则转10);
3)将候选关键词加入关键词队列,当l=1时,用户输入的关键词也称为候选关键词;
4)输入关键词,将新生成的档案标题加入到备选的档案标题,当l>1时,新生成的档案标题中不含有已经生成的标题;
5)对新生成的档案标题中个标题进行分词,在分词过程中去除停用词;
6)统计每一个term出现的次数,统计term总数;
7)计算关键词与term的关联系数R;
8)计算削弱后关键词与term的关联系数Rl;
9)在R中找到排名为Top2的term,记为候选关键词,n++,转2;
10)计算候选队列中每一个title得分,并将候选队列中title按照分数从高到底排序,依次将前k条title加入队列Hk中,返回队列Hk
此时返回的队列Hk即所需的将要检索到的k条信息。
CN201711253621.0A 2017-12-02 2017-12-02 一种基于语义信息的数字档案查询与排序方法 Active CN107918607B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711253621.0A CN107918607B (zh) 2017-12-02 2017-12-02 一种基于语义信息的数字档案查询与排序方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711253621.0A CN107918607B (zh) 2017-12-02 2017-12-02 一种基于语义信息的数字档案查询与排序方法

Publications (2)

Publication Number Publication Date
CN107918607A true CN107918607A (zh) 2018-04-17
CN107918607B CN107918607B (zh) 2020-05-08

Family

ID=61898217

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711253621.0A Active CN107918607B (zh) 2017-12-02 2017-12-02 一种基于语义信息的数字档案查询与排序方法

Country Status (1)

Country Link
CN (1) CN107918607B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112580317A (zh) * 2020-12-29 2021-03-30 江苏金财信息技术有限公司 一种快速生成带层级汇总的动态交叉二维表的方法
CN116450769A (zh) * 2023-06-09 2023-07-18 北京量子伟业信息技术股份有限公司 智慧档案的管理方法、装置、设备及介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102760140A (zh) * 2011-04-29 2012-10-31 淮海工学院 一种基于事件本体的查询扩展方法
CN103646112A (zh) * 2013-12-26 2014-03-19 中国科学院自动化研究所 利用了网络搜索的依存句法的领域自适应方法
US20140333630A1 (en) * 2004-02-13 2014-11-13 Fti Technology Llc System And Method For Placing Spine Groups Within A Display
CN104239513A (zh) * 2014-09-16 2014-12-24 西安电子科技大学 一种面向领域数据的语义检索方法
CN105117386A (zh) * 2015-09-19 2015-12-02 杭州电子科技大学 一种基于图书内容结构的语义关联方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140333630A1 (en) * 2004-02-13 2014-11-13 Fti Technology Llc System And Method For Placing Spine Groups Within A Display
CN102760140A (zh) * 2011-04-29 2012-10-31 淮海工学院 一种基于事件本体的查询扩展方法
CN103646112A (zh) * 2013-12-26 2014-03-19 中国科学院自动化研究所 利用了网络搜索的依存句法的领域自适应方法
CN104239513A (zh) * 2014-09-16 2014-12-24 西安电子科技大学 一种面向领域数据的语义检索方法
CN105117386A (zh) * 2015-09-19 2015-12-02 杭州电子科技大学 一种基于图书内容结构的语义关联方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
曹树金 等: "面向网络信息资源聚合搜索的细粒度聚合单元元数据研究", 《中国图书馆学报》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112580317A (zh) * 2020-12-29 2021-03-30 江苏金财信息技术有限公司 一种快速生成带层级汇总的动态交叉二维表的方法
CN116450769A (zh) * 2023-06-09 2023-07-18 北京量子伟业信息技术股份有限公司 智慧档案的管理方法、装置、设备及介质

Also Published As

Publication number Publication date
CN107918607B (zh) 2020-05-08

Similar Documents

Publication Publication Date Title
US7409404B2 (en) Creating taxonomies and training data for document categorization
CN101430695B (zh) 用于计算单词之间的差相关度的系统和方法
US8352474B2 (en) System and method for retrieving information using a query based index
US20150100568A1 (en) Automatic definition of entity collections
CN108829658A (zh) 新词发现的方法及装置
CN103440313A (zh) 基于音频指纹特征的音乐检索系统
CN107590128B (zh) 一种基于高置信度特征属性分层聚类方法的论文同名作者消歧方法
EP2774061A1 (en) Method and apparatus of ranking search results, and search method and apparatus
CN102012915A (zh) 一种文档共享平台的关键词推荐方法及系统
WO2015051481A1 (en) Determining collection membership in a data graph
CN109408578A (zh) 一种针对异构环境监测数据融合方法
CN107145519B (zh) 一种基于超图的图像检索与标注方法
CN104778201A (zh) 一种基于多查询结果合并的在先技术检索方法
CN103064846B (zh) 检索装置和检索方法
CN109165331A (zh) 一种英文地名的索引建立方法及其查询方法和装置
CN107918607A (zh) 一种基于语义信息的数字档案查询与排序方法
Yin et al. Sentence-BERT and k-means based clustering technology for scientific and technical literature
CN104063382B (zh) 面向油气管道领域的多策略融合的标准术语处理方法
CN111125297A (zh) 一种基于搜索引擎的海量离线文本实时推荐方法
CN105930358B (zh) 基于关联度的案例检索方法及其系统
Zhao et al. Retracted: Chinese Document Keyword Extraction Algorithm Based on FP-growth
CN112765960B (zh) 一种文本匹配方法、装置及计算机设备
CN111259145B (zh) 基于情报数据的文本检索分类方法、系统及存储介质
CN111209378B (zh) 一种基于业务字典权重的有序分级排序方法
KR102306822B1 (ko) 머신러닝을 이용한 특허문서 자동분류 장치 및 방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant