CN107609006A

CN107609006A - 一种基于地方志研究的搜索优化方法

Info

Publication number: CN107609006A
Application number: CN201710608338.9A
Authority: CN
Inventors: 黄涛; 张�浩; 杨华利; 张晨晨; 张慧芳; 熊慧敏
Original assignee: Huazhong Normal University
Current assignee: Huazhong Normal University
Priority date: 2017-07-24
Filing date: 2017-07-24
Publication date: 2018-01-19
Anticipated expiration: 2037-07-24
Also published as: CN107609006B

Abstract

本发明属于信息搜索技术领域，提供一种基于地方志研究的搜索优化方法，包括(1)调用地方志分词算法，用于统计生成地方志的补充词汇，将默认词库中没有的词汇补充在自定义词库中，提高分词的准确性；(2)调用融合词语序列特征的搜索优化算法，通过比对词语序列特征，修正默认搜索算法的评分值。对词序相似度进行量化计算分值，然后修正BM25算法或VSM算法的分值，计算出最终得分值，词频和词序相似度都高的文章得分值高；将得分最高、最接近的文章排序在列表最顶端，返回更加符合用户的语义的搜索结果，进而提高搜索的精确度。本发明方法优化了搜索算法匹配度的计算公式，使得搜索结果更加精确。

Description

一种基于地方志研究的搜索优化方法

技术领域

本发明属于信息搜索技术领域，具体地说涉及一种基于地方志研究的搜索优化方法。

背景技术

目前，常用搜索算法有基于VSM(支持向量机)和BM25的搜索算法,上述两种算法都没有考虑语句中词语的序列特征。论文《句子相似模型和最相似句子查找算法》——吕学强，引入了词语序列的概念。但是通过公式推导和数据验证对比，发现《句子相似模型和最相似句子查找算法》文中算法仍存在以下不足。

首先，只标注语句A和语句B中都出现且只出现一次的词语，这样势必丢失了很多词语，甚至有可能丢失一些重要词语，导致搜索精准度下降。例如q＝“我喜欢读书。”，d＝“我喜欢在教室练字也喜欢在教室读书，更喜欢在图书馆读书。”，使用《句子相似模型和最相似句子查找算法》进行词语标注时，d中只能标注“我”一个不重复词语，丢失了搜索语句很重要的信息。

其次，没有考虑语句中其他间隔词语。例如q＝“中国人民关注，美国产业工会联合会政治行动委员会主席希尔曼、全国争取和平委员会主席卡尔逊…”；d＝“解放时期，中国人民为争取和平民主与独立自由而努力”。可见这两句话有明显的差异，而《句子相似模型和最相似句子查找算法》文中算法完全无法区分这两句话的不同。

发明内容

本发明的目的在于克服上述现有技术中的不足，提供一种基于地方志研究的搜索优化方法，该方法优化了搜索算法匹配度的计算公式，使得搜索结果更加精确。

本发明目的是通过如下技术方案实现的。

一种基于地方志研究的搜索优化方法，包括以下步骤：

(1)调用地方志分词算法，用于统计生成地方志的补充词汇，将默认词库中没有的词汇补充在自定义词库中，提高分词的准确性；

(2)调用融合词语序列特征的搜索优化算法，通过比对词语序列特征，修正默认搜索算法的评分值。对词序相似度进行量化计算分值，然后修正BM25算法或VSM算法的分值，计算出最终得分值，词频和词序相似度都高的文章得分值高；将得分最高、最接近的文章排序在列表最顶端，返回更加符合用户的语义的搜索结果，进而提高搜索的精确度。

在上述技术方案中，步骤(1)为可选项。

在上述技术方案中，所述地方志分词算法，是结合词频统计和聚类算法，筛选出搜索文件集合中出现的高频词汇，然后经过过滤，将默认词库中没有的词汇补充在自定义词库中，其中，自定义词库包括扩展词汇和禁用词汇，用来调整当前搜索的需求。

在上述技术方案中，所述融合词语序列特征的搜索优化算法，是用于优化搜索评分规则，通过对词序相似度的量化计算公式，有效反映出句子之间的词序关系，进行评分，修正BM25算法或VSM算法，最终计算出修正后的分值。本算法能较好地比对并量化出两个句子的词序关系，本算法的词序相似度计算函数公式如下：

其中1≤OrderSeq(q,d)≤Set(q,d)

其中SeqScore(q,d)表示用户输入的查询语句q与文档d中相似语句的词序相似度得分；

Set(q,d)表示在q、d中都出现的词语的数量；

P_q(q,d)表示Set(q,d)中的词语在q中的位置序号构成的向量，从1开始标注；按照q中对应词语的序号对d中相似语句进行标注，如果遇到新词则标注为M；P_d(q,d)表示P_q(q,d)中的分量按对应词语在d中的次序排列生成的向量，如果某个词语在d中出现多次，则从中选取一个最优位置进行标注，舍弃其它重复词语，使得总逆序数最小并且间隔词语最少。对P_d(q,d)对应的序列进行补充，在序列两端添加数字0和N(N为整数且N→+∞)，生成序列 sequence(q,d)。P_seat(q,d)表示该序列sequence(q,d)的各相邻数值关系构成的向量，逆序的位置用1表示，顺序用0表示。 P_NumSeat(q,d)表示序列sequence_(q,d)的各相邻数值对应的词语间，间隔的词语数量构成的向量。OrderSeq(q,d)表示P_seat (q,d)各维度对应的权值之和。

OrderSeq(q,d)＝w_1+w_2+…+w_n，其中w_i的计算方法为：

Ratio的计算公式如下：

上式中，分母包含标注为M的词语，Ratio反映出文本序列间隔词语(标为M的词语)的个数多少，用来修正权值，取对数对于数值小的部分差异的敏感程度比数值大的部分的差异敏感程度更高。

本算法得到的新计分公式为：

NewScore(q,d)＝cof1*Score+cof2*SeqScore(q,d)

其中，Score为使用BM25或VSM原始相似度评分算法得到的相似度得分，cof1和cof2是经验系数，且cof1+cof2＝1。

在上述技术方案中，进行精确搜索时，选择OrderSeq(q,d)乘以系数k，k表示目标文档d包含的对应于q中的词语数除以q中词语数的比值。

在上述技术方案中，可以设定一个阈值，当搜索文档d的 Score小于该阈值时，说明该文档与用户搜索的关联度极低，可以不去计算词语词序相似度SeqScore(q,d)，将SeqScore(q,d)置为 0。

本发明所构思的以上技术方案与现有技术相比，具有以下优点：

1.本发明在进行搜索前对默认词库进行了针对性的词汇补充，提高了词法分析的准确度；

2.本发明优化了搜索算法匹配度的计算公式，使得搜索结果更加精确，将最接近的文章排序在列表最顶端，这正是用户希望搜索到的结果；

3.本发明提取搜索语句q对应文本d中所有相同的词语，量化计算序列特征，并对中间间隔的词语进行了标注，极大限度的保护了用户输入的语义特征，搜索结果可靠。

附图说明

图1为本发明实施例的方法流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以组合调整。

如图1所示，本发明实施例提供一种基于地方志研究的搜索优化方法，包括以下步骤：

(1)调用地方志分词算法，用于统计生成地方志的补充词汇，将默认词库中没有的词语补充在自定义词库中，提高分词的准确性；

(2)调用融合词语序列特征的搜索优化算法，通过比对词语序列特征，修正默认搜索算法的评分值。对词序相似度进行量化计算分值，然后修正BM25算法或VSM算法的分值，计算出最终得分值，词频和词序相似度都高的文章得分值高；返回更加符合用户的语义的搜索结果，进而提高搜索的精确度。

在上述实施例中，地方志分词算法即修正分词部分，主要是通过词频统计和聚类算法，筛选出搜索文件集合中出现的高频词汇，然后过滤，将默认词库中没有的词语补充在自定义词库中。

在上述实施例中，融合词语序列特征的搜索优化算法部分，能较好地比对并量化出两个句子的词序关系，算法的词序相似度计算过程如下例所示：

例1：q＝“在校园里面，我喜欢绘画。”

d＝“我喜欢在校园里面学习，也喜欢运动。”

经过分词后得到：

q:在/校园/里面/我/喜欢/绘画

d:我/喜欢/在/校园/里面/学习/也/喜欢/运动

Set(q,d)表示在q、d中都出现的词语的数量，Set(q,d)＝5，包括“在”、“校园”、“里面”、“我”、“喜欢”。P_q(q,d)表示Set(q,d)中的词语在q中的位置序号构成的向量，由q中的词语与序号的对应关系为：

在校园里面我喜欢绘画

1 2 3 4 5 6

得到P_q(q,d)＝(1,2,3,4,5,6)。P_d(q,d)表示P_q(q,d)中的分量按对应词语在d中的次序排列生成的向量，由q中的分量按对应词语在d中的次序排列为：

我喜欢在校园里面学习也喜欢运动

4 5 1 2 3 M M 5

可见词语“喜欢”重复出现，选择总逆序数最小并且间隔词语最少的，记录向量时舍弃第一个“喜欢”，得到 P_d(q,d)＝(4,1,2,3,5)。对P_d(q,d)的分量对应的序列进行补充，在序列两端添加数字0和N(N为整数且N→+∞)，得到 0,4,1,2,3,5,N。P_seat(q,d)表示该序列的各相邻数值关系构成的向量(逆序的位置用1表示，顺序的位置用0表示)。例1中，由 0<4，4>1，1<2，2<3，3<5，5<N，得到相邻分量的逆序位置为 0,1,0,0,0,0，得到P_seat(q,d)＝(0,1,0,0,0,0)。d中序列 0,4,1,2,3,M,M,5，词语“里面”和“喜欢”之间有两个新词，其它间隔没有新词，所以P_NumSeat(q,d)＝(0,0,0,0,2,0,)

Ratio＝ln6/ln8≈0.8616541668

OrderSeq(q,d)＝0.5+0.5+1+1+1

SeqScore(q,d)表示用户输入的查询字符串q与文档d的词序相似度得分：

SeqScore(q,d)＝0.8616541668×(0.5+0.5+1+1+1)/5

＝3.4466166672/5＝0.6893233334

然后再代入算法最终的计分公式 NewScore(q,d)＝cof1*Score+cof2*SeqScore(q,d)。其中，Score 为使用原始相似度评分算法得到的相似度得分，Score的值为0.31013256。cof1和cof2是经验系数，且cof1+cof2＝1。通过实验调整经验系数，当cof1取值0.9，cof2取值0.1时，可以在保护 Score分值的重要性的前提下，对得分值进行修正。最终分值为 0.34805163734。

进行精确搜索时，可选择OrderSeq(q,d)乘以系数k，k表示目标文档d包含的对应于q中的词语数除以q中词语数的比值，如例 1中为5/6。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的算法思想之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

与现有技术对比，本发明搜索方法的差别和改进效果如下：

首先，本发明搜索方法，提取搜索语句q对应文本d中所有相同的词语，并对中间间隔的词语进行了标注，极大限度的保护了用户输入的语义特征。同样的例子，例如q＝“我喜欢读书。”， d＝“我喜欢在教室练字也喜欢在教室读书，更喜欢在图书馆读书。”，运用本专利算法，可以对d中词语“我”、“喜欢”、“读书”进行数字标注，并对“在”、“教室”、“练字”、“也”、“在”、“教室”进行M标注，进行运算时没有丢失词语信息。

其次，对于关键词语间夹杂很多其他词语的情况，本发明搜索方法可以通过Ratio的值体现出间隔词语数量所占比例。

再次，测试时，本发明搜索方法算出的得分值更加精确。比如两个语句词语序列(1,2,3,4,5)和(5,4,1,2,3)，《句子相似模型和最相似句子查找算法》一文中的公式计算出结果为1/2，本方法计算出为3/5。对比发现序列123与搜索语句序列12345相似度，有三个词语序列相同。

综上，可以说明本发明搜索方法在精准程度上更高，而且考虑了最大限度保护用户输入语义信息，在该领域是有意义的创新。

本说明书中未作详细描述的内容，属于本专业技术人员公知的现有技术。

Claims

1.一种基于地方志研究的搜索优化方法，其特征在于该方法包括以下步骤：

(2)调用融合词语序列特征的搜索优化算法，通过比对词语序列特征，修正默认搜索算法的评分值，返回更加符合用户的语义的搜索结果，进而提高搜索的精确度。

2.根据权利要求1所述的基于地方志研究的搜索优化方法，其特征在于：所述地方志分词算法，是结合词频统计和聚类算法，筛选出搜索文件集合中出现的高频词汇，然后经过过滤，将默认词库中没有的词汇补充在自定义词库中；其中，自定义词库包括扩展词汇和禁用词汇，用来调整当前搜索的需求。

3.根据权利要求1所述的基于地方志研究的搜索优化方法，其特征在于：所述融合词语序列特征的搜索优化算法，是用于优化搜索评分规则，通过对词序相似度的量化计算公式，有效反映出句子之间的词序关系，进行评分，修正BM25算法或VSM算法，最终计算出修正后的分值；本算法的词序相似度计算函数公式如下：

其中1≤OrderSeq(q,d)≤Set(q,d)

Set(q,d)表示在q、d中都出现的词语的数量；

P_q(q,d)表示Set(q,d)中的词语在q中的位置序号构成的向量，从1开始标注；按照q中对应词语的序号对d中相似语句进行标注，如果遇到新词则标注为M；P_d(q,d)表示P_q(q,d)中的分量按对应词语在d中的次序排列生成的向量，如果某个词语在d中出现多次，则从中选取一个最优位置进行标注，舍弃其它重复词语，使得总逆序数最小并且间隔词语最少；对P_d(q,d)对应的序列进行补充，在序列两端添加数字0和N，N为整数且N→+∞，生成序列sequence(q,d)；P_seat(q,d)表示该序列sequence(q,d)的各相邻数值关系构成的向量，逆序的位置用1表示，顺序用0表示；P_NumSeat(q,d)表示序列sequence_(q,d)的各相邻数值对应的词语间，间隔的词语数量构成的向量；OrderSeq(q,d)表示P_seat(q,d)各维度对应的权值之和；

OrderSeq(q,d)＝w_1+w_2+…+w_n，其中w_i的计算方法为：

Ratio的计算公式如下：

上式中，分母包含标注为M的词语，Ratio反映出文本序列间隔词语的个数多少，用来修正权值，取对数对于数值小的部分差异的敏感程度比数值大的部分的差异敏感程度更高；

本算法得到的新计分公式为：

NewScore(q,d)＝cof1*Score+cof2*SeqScore(q,d)

4.根据权利要求3所述的基于地方志研究的搜索优化方法，其特征在于：进行精确搜索时，选择OrderSeq(q,d)乘以系数k，k表示目标文档d包含的对应于q中的词语数除以q中词语数的比值。

5.根据权利要求3所述的基于地方志研究的搜索优化方法，其特征在于：设定一个阈值，当搜索文档d的Score小于该阈值时，说明该文档与用户搜索的关联度极低，不去计算词语词序相似度SeqScore(q,d)，将SeqScore(q,d)置为0。