CN107918607A

CN107918607A - 一种基于语义信息的数字档案查询与排序方法

Info

Publication number: CN107918607A
Application number: CN201711253621.0A
Authority: CN
Inventors: 才智; 崔雪蕊; 张勇
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2017-12-02
Filing date: 2017-12-02
Publication date: 2018-04-17
Anticipated expiration: 2037-12-02
Also published as: CN107918607B

Abstract

本发明涉及一种基于语义信息的数字档案查询与排序方法，对用户所输入的关键词和检索层级(用l表示)，然后根据关键词返回的标题信息，对标题信息中出现概率较高的词进一步运用算法进行削弱，返回给用户k条最全面的基于关键词的标题信息的集合。步骤一：利用倒排索引，首先建立语义单词与语义标题之间的对应关系；步骤2：输入关键词生成k条备选的档案标题，当l>1时，确保新生成的档案标题中不含有已经得到的标题；步骤3：根据得到的标题用算法生成最终含有l层档案标题的队列H_k。

Description

一种基于语义信息的数字档案查询与排序方法

技术领域

本发明属于数据挖掘领域，涉及一种基于语义信息的数字档案的查询与排序方法。

背景技术

随着计算机技术的广泛普及和网络技术的迅速发展，我国档案和档案工作产生了巨大的变化，电子档案的数量与日俱增。面对大量的档案信息，如何能够对档案进行高效检索是建立数字档案过程中的关键步骤。档案检索的自动化程度的提高，充分满足数字化背景下档案信息利用者对档案信息检索的全面，及时有效的需求是提高档案信息化服务水平的重要指标。而传统的搜索引擎并不能完全适用于档案这一特殊领域，通用的档案检索过程都是在用户输入关键词后对关键词进行匹配，直接返回给用户从数据库中最先匹配到的k条数据，并且检索过程中也会造成关键词匹配不准确等问题，如用户输入关键词“四合院”，通用检索程序往往会返回“四合”(非“四合院”)这样的档案标题，大大降低了检索的准确度。为解决这一问题，本发明提出了一种针对数字档案的查询和排序方法，该方法能够按照用户给出的关键词和检索层级来返回与关键词相关的重要信息。

倒排索引是一种用来存储在全文搜索下某个单词在一个文档或者一组文档中的存储位置的映射。受倒排索引启发，本发明中需要建立数字档案标题的单词与档案标题之间的映射。即首先需要将全部标题进行分词，在分词过程中过滤掉停用词，然后对分词后的单词(term)通过使用链表的方式，将每一个出现term 的档案标题的位置加入到term链表中，依次构成一个通过输入关键词即能够快速得到档案标题的索引列表，大大提高了检索的速度；然后对用户输入的关键词所返回的档案标题，经过分词，去重，统计档案标题中出现的term及每一个term 出现的次数和term出现的总次数，计算关键词与term之间的关联系数R，该关联系数能够反映term在档案标题中的重要程度，当term所占比例越高时，该term 越重要，即关键词与term的关系越紧密；选取R中排名在Top2的term，将其加入候选关键词队列，由于此时选出的候选关键词在重要性上已经得到降低，因此给出一种关键词削弱量的计算方法，即将候选关键词加入关键词队列后，再在数据库中对关键词进行匹配时，产生的档案标题中各标题得分需要削弱，并将其加入到候选档案标题中，综合计算所有档案标题得分，选出得分排名在Top k的档案标题返回给用户。该方法在一定程度上优化了基于关键词的数字档案的搜索。，其中Top k指前k名，k为自然数。

发明内容

本发明的目的在于提供了一种基于语义信息的面向数字档案的查询和排序方法，对用户所输入的关键词和检索层级(用l表示)，然后根据关键词返回的标题信息，对标题信息中出现概率较高的词进一步运用算法进行削弱，返回给用户k条最全面的基于关键词的标题信息的集合。

一种基于语义信息的数字档案查询与排序方法，该方法的实现步骤如下：

步骤1：利用倒排索引，首先建立语义单词与语义标题之间的对应关系。

步骤1.1：收集并整理数据集，构建数据关系。数据集中含有档案标题，依次对档案标题进行编号1...i...n，其中编号从1开始，编号i代表数据集中的第i 条标题，n为标题总数。

步骤1.2：对数据集中的全部档案标题进行分词，分词后的单词用term标记，在分词过程中过滤停用词(Stop Words)。其中，停用词包括term长度小于2的单词，语气助词、副词、介词、连接词等无意义的词，在档案标题中频繁出现的词，如北京市、档案馆等。

步骤1.3：使用hash去重单词term，建立term与标题编号之间的链表，使生成term的所有标题编号加入到该term链表中，从而当查询关键词为term时，能够得到所有含有该term的标题。

步骤2：输入关键词生成k条备选的档案标题，k为返回给用户的档案标题数；当l>1时，确保新生成的档案标题中不含有已经得到的标题。

步骤3：根据得到的标题用算法生成最终含有l层档案标题的队列H_k。

步骤3.1：对新生成的备选标题进行分词，在分词过程中过滤停用词(详见步骤1.2，1.3)，鉴于每一条备选标题中都含有关键词，在过滤停用词时一并过滤掉关键词；

步骤3.2：对分词结果进行统计，统计每个term出现的次数记为Z(term)，统计出现的所有term的总和记为Sum。

其中i表示为第i条标题，j表示为分词后的第j个单词，其中每行标题分词后都有一个最大分词个数记为max(i)。设在10条备选标题中经过分词后出现单词“计量器”的次数为5，则Z(计量器)＝5。

步骤3.3：计算关键词与term的关联系数R；

为了能够表示每一个term在Sum中出现的频率大小，将term做归一化处理，其公式如下：

该公式也表示关键词与term之间的关联程度即关联系数，其中R(kw，term) 的值域为(0，1)，关键词key words记为kw。

步骤3.4：由用户输入的关键词，所产生的备选标题层级记为1，当用户输入的l>1时，其关键词由前一次生成的备选标题经过分词后得到的关联系数的 Top2产生，由于新产生的关键词其重要程度已经得到减弱，所以给出如下kw与 term之间关联程度削弱量的计算方法：

Rl为削弱后关键词与term的关联系数；

步骤3.5：通过以下公式计算每一个title得分r。

计算出每一次产生的关键词，即第一次关键词由用户输入，第l层关键词及第l层term都需要按公式(2)进行重要性削弱，并且检索次数≤检索层级，并为每次产生的新的标题计算综合得分，再从中选出k条分数最高的title。

综上，通过l次递归迭代，对新产生的档案标题中各标题计算得分加入候选标题队列，从候选队列中选出k条得分最高的标题加入队列H_k，所以选出k条档案标题的过程为：

1)初始化队列H_k为空，构建数据关系，n＝1；

2)当n≤l时，转3)，否则转10)；

3)将候选关键词加入关键词队列，当l＝1时，用户输入的关键词也称为候选关键词；

4)输入关键词，将新生成的档案标题加入到备选的档案标题，当l>1时，新生成的档案标题中不含有已经生成的标题；

5)对新生成的档案标题中个标题进行分词，在分词过程中去除停用词；

6)统计每一个term出现的次数，统计term总数；

7)计算关键词与term的关联系数R；

8)计算削弱后关键词与term的关联系数Rl；

9)在R中找到排名为Top2的term，记为候选关键词，n++，转2；

10)计算候选队列中每一个title得分，并将候选队列中title按照分数从高到底排序，依次将前k条title加入队列H_k中，返回队列H_k。

此时返回的队列H_k即所需的将要检索到的k条信息。

与现有技术相比较，本发明具有如下有益效果：

1)根据用户输入的关键词检索层级返回按照语义重要性排序的档案标题；

2)检索的关键词在档案标题匹配程度上更精确。

附图说明

图1为本发明的实施流程图。

具体实施方式

下面结合相关附图对本发明进行解释和阐述：

本发明采用的数据集是北京市档案馆数据库，在北京市档案馆数字档案馆查阅系统中输入关键词“计量器”，假设k＝10，用户需要的检索层数l＝1，自然数m为检索到的信息总条数，m＝10，如果只依据步骤2得到档案标题，则前10条标题如表1所示：

表1 10条关键词为“计量器”所对应的序号，标题

步骤3.1，3.2，对得到的标题进行分词(去除停用词)，并对各个term进行词频统计，其中各个term出现次数如表2所示。

表2对title分词并去除停用词，统计各词词频结果示意图

其中term的总和Sum＝95；

步骤3.3：计算关键词与term的关联系数R

其余关键词与term的关联系数为

步骤3.4：计算削弱后关键词与term的关联系数Rl；

由于本次由关键词产生的档案标题中l＝1，所以对每一个Rl(kw，term)＝ R(kw，term)；

步骤3.5：计算每一个title得分r，其中结果如表3所示：

表3标题中每一个title得分

以上为l＝1时产生的候选档案标题及每条标题得分，对产生的候选标题得分进行从高到低排序，得到最终的档案标题排名如表4所示：

表4档案标题得分排名输出结果如下：

Claims

1.一种基于语义信息的数字档案查询与排序方法，其特征在于：该方法的实现步骤如下：

步骤1：利用倒排索引，首先建立语义单词与语义标题之间的对应关系；

步骤1.1：收集并整理数据集，构建数据关系；数据集中含有档案标题，依次对档案标题进行编号1...i...n，其中编号从1开始，编号i代表数据集中的第i条标题，n为标题总数；

步骤1.2：对数据集中的全部档案标题进行分词，分词后的单词用term标记，在分词过程中过滤停用词；其中，停用词包括term长度小于2的单词，语气助词、副词、介词、连接词等无意义的词，在档案标题中频繁出现的词，如北京市、档案馆等；

步骤1.3：使用hash去重单词term，建立term与标题编号之间的链表，使生成term的所有标题编号加入到该term链表中，从而当查询关键词为term时，能够得到所有含有该term的标题；

步骤2：输入关键词生成k条备选的档案标题，k为返回给用户的档案标题数；当l＞1时，确保新生成的档案标题中不含有已经得到的标题；

步骤3：根据得到的标题用算法生成最终含有l层档案标题的队列H_k；

步骤3.1：对新生成的备选标题进行分词，在分词过程中过滤停用词，鉴于每一条备选标题中都含有关键词，在过滤停用词时一并过滤掉关键词；

步骤3.2：对分词结果进行统计，统计每个term出现的次数记为Z(term)，统计出现的所有term的总和记为Sum；

其中i表示为第i条标题，j表示为分词后的第j个单词，其中每行标题分词后都有一个最大分词个数记为max(i)；设在10条备选标题中经过分词后出现单词“计量器”的次数为5，则Z(计量器)＝5；

步骤3.3：计算关键词与term的关联系数R；

该公式也表示关键词与term之间的关联程度即关联系数，其中R(kw，term)的值域为(0，1)，关键词key words记为kw；

步骤3.4：由用户输入的关键词，所产生的备选标题层级记为1，当用户输入的l＞1时，其关键词由前一次生成的备选标题经过分词后得到的关联系数的Top2产生，由于新产生的关键词其重要程度已经得到减弱，所以给出如下kw与term之间关联程度削弱量的计算方法：

Rl为削弱后关键词与term的关联系数；

步骤3.5：通过以下公式计算每一个title得分r；

计算出每一次产生的关键词，即第一次关键词由用户输入，第l层关键词及第l层term都需要按公式(2)进行重要性削弱，并且检索次数≤检索层级，并为每次产生的新的标题计算综合得分，再从中选出k条分数最高的title；

1)初始化队列H_k为空，构建数据关系，n＝1；

2)当n≤1时，转3)，否则转10)；

4)输入关键词，将新生成的档案标题加入到备选的档案标题，当l＞1时，新生成的档案标题中不含有已经生成的标题；

6)统计每一个term出现的次数，统计term总数；

7)计算关键词与term的关联系数R；

8)计算削弱后关键词与term的关联系数Rl；

9)在R中找到排名为Top2的term，记为候选关键词，n++，转2；

10)计算候选队列中每一个title得分，并将候选队列中title按照分数从高到底排序，依次将前k条title加入队列H_k中，返回队列H_k；

此时返回的队列H_k即所需的将要检索到的k条信息。