CN107609006A - 一种基于地方志研究的搜索优化方法 - Google Patents

一种基于地方志研究的搜索优化方法 Download PDF

Info

Publication number
CN107609006A
CN107609006A CN201710608338.9A CN201710608338A CN107609006A CN 107609006 A CN107609006 A CN 107609006A CN 201710608338 A CN201710608338 A CN 201710608338A CN 107609006 A CN107609006 A CN 107609006A
Authority
CN
China
Prior art keywords
word
sequence
algorithm
search
score
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710608338.9A
Other languages
English (en)
Other versions
CN107609006B (zh
Inventor
黄涛
张�浩
杨华利
张晨晨
张慧芳
熊慧敏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huazhong Normal University
Original Assignee
Huazhong Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huazhong Normal University filed Critical Huazhong Normal University
Priority to CN201710608338.9A priority Critical patent/CN107609006B/zh
Publication of CN107609006A publication Critical patent/CN107609006A/zh
Application granted granted Critical
Publication of CN107609006B publication Critical patent/CN107609006B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明属于信息搜索技术领域,提供一种基于地方志研究的搜索优化方法,包括(1)调用地方志分词算法,用于统计生成地方志的补充词汇,将默认词库中没有的词汇补充在自定义词库中,提高分词的准确性;(2)调用融合词语序列特征的搜索优化算法,通过比对词语序列特征,修正默认搜索算法的评分值。对词序相似度进行量化计算分值,然后修正BM25算法或VSM算法的分值,计算出最终得分值,词频和词序相似度都高的文章得分值高;将得分最高、最接近的文章排序在列表最顶端,返回更加符合用户的语义的搜索结果,进而提高搜索的精确度。本发明方法优化了搜索算法匹配度的计算公式,使得搜索结果更加精确。

Description

一种基于地方志研究的搜索优化方法
技术领域
本发明属于信息搜索技术领域,具体地说涉及一种基于地方志研究的搜索优化方法。
背景技术
目前,常用搜索算法有基于VSM(支持向量机)和BM25的搜索算法,上述两种算法都没有考虑语句中词语的序列特征。论文《句子相似模型和最相似句子查找算法》——吕学强,引入了词语序列的概念。但是通过公式推导和数据验证对比,发现《句子相似模型和最相似句子查找算法》文中算法仍存在以下不足。
首先,只标注语句A和语句B中都出现且只出现一次的词语,这样势必丢失了很多词语,甚至有可能丢失一些重要词语,导致搜索精准度下降。例如q=“我喜欢读书。”,d=“我喜欢在教室练字也喜欢在教室读书,更喜欢在图书馆读书。”,使用《句子相似模型和最相似句子查找算法》进行词语标注时,d中只能标注“我”一个不重复词语,丢失了搜索语句很重要的信息。
其次,没有考虑语句中其他间隔词语。例如q=“中国人民关注,美国产业工会联合会政治行动委员会主席希尔曼、全国争取和平委员会主席卡尔逊…”;d=“解放时期,中国人民为争取和平民主与独立自由而努力”。可见这两句话有明显的差异,而《句子相似模型和最相似句子查找算法》文中算法完全无法区分这两句话的不同。
发明内容
本发明的目的在于克服上述现有技术中的不足,提供一种基于地方志研究的搜索优化方法,该方法优化了搜索算法匹配度的计算公式,使得搜索结果更加精确。
本发明目的是通过如下技术方案实现的。
一种基于地方志研究的搜索优化方法,包括以下步骤:
(1)调用地方志分词算法,用于统计生成地方志的补充词汇,将默认词库中没有的词汇补充在自定义词库中,提高分词的准确性;
(2)调用融合词语序列特征的搜索优化算法,通过比对词语序列特征,修正默认搜索算法的评分值。对词序相似度进行量化计算分值,然后修正BM25算法或VSM算法的分值,计算出最终得分值,词频和词序相似度都高的文章得分值高;将得分最高、最接近的文章排序在列表最顶端,返回更加符合用户的语义的搜索结果,进而提高搜索的精确度。
在上述技术方案中,步骤(1)为可选项。
在上述技术方案中,所述地方志分词算法,是结合词频统计和聚类算法,筛选出搜索文件集合中出现的高频词汇,然后经过过滤,将默认词库中没有的词汇补充在自定义词库中,其中,自定义词库包括扩展词汇和禁用词汇,用来调整当前搜索的需求。
在上述技术方案中,所述融合词语序列特征的搜索优化算法,是用于优化搜索评分规则,通过对词序相似度的量化计算公式,有效反映出句子之间的词序关系,进行评分,修正BM25算法或VSM算法,最终计算出修正后的分值。本算法能较好地比对并量化出两个句子的词序关系,本算法的词序相似度计算函数公式如下:
其中1≤OrderSeq(q,d)≤Set(q,d)
其中SeqScore(q,d)表示用户输入的查询语句q与文档d中相似语句的词序相似度得分;
Set(q,d)表示在q、d中都出现的词语的数量;
P_q(q,d)表示Set(q,d)中的词语在q中的位置序号构成的向量,从1开始标注;按照q中对应词语的序号对d中相似语句进行标注,如果遇到新词则标注为M;P_d(q,d)表示P_q(q,d)中的分量按对应词语在d中的次序排列生成的向量,如果某个词语在d中出现多次,则从中选取一个最优位置进行标注,舍弃其它重复词语,使得总逆序数最小并且间隔词语最少。对P_d(q,d)对应的序列进行补充,在序列两端添加数字0和N(N为整数且N→+∞),生成序列 sequence(q,d)。P_seat(q,d)表示该序列sequence(q,d)的各相邻数值关系构成的向量,逆序的位置用1表示,顺序用0表示。 P_NumSeat(q,d)表示序列sequence_(q,d)的各相邻数值对应的词语间,间隔的词语数量构成的向量。OrderSeq(q,d)表示P_seat (q,d)各维度对应的权值之和。
OrderSeq(q,d)=w_1+w_2+…+w_n,其中w_i的计算方法为:
Ratio的计算公式如下:
上式中,分母包含标注为M的词语,Ratio反映出文本序列间隔词语(标为M的词语)的个数多少,用来修正权值,取对数对于数值小的部分差异的敏感程度比数值大的部分的差异敏感程度更高。
本算法得到的新计分公式为:
NewScore(q,d)=cof1*Score+cof2*SeqScore(q,d)
其中,Score为使用BM25或VSM原始相似度评分算法得到的相似度得分,cof1和cof2是经验系数,且cof1+cof2=1。
在上述技术方案中,进行精确搜索时,选择OrderSeq(q,d)乘以系数k,k表示目标文档d包含的对应于q中的词语数除以q中词语数的比值。
在上述技术方案中,可以设定一个阈值,当搜索文档d的 Score小于该阈值时,说明该文档与用户搜索的关联度极低,可以不去计算词语词序相似度SeqScore(q,d),将SeqScore(q,d)置为 0。
本发明所构思的以上技术方案与现有技术相比,具有以下优点:
1.本发明在进行搜索前对默认词库进行了针对性的词汇补充,提高了词法分析的准确度;
2.本发明优化了搜索算法匹配度的计算公式,使得搜索结果更加精确,将最接近的文章排序在列表最顶端,这正是用户希望搜索到的结果;
3.本发明提取搜索语句q对应文本d中所有相同的词语,量化计算序列特征,并对中间间隔的词语进行了标注,极大限度的保护了用户输入的语义特征,搜索结果可靠。
附图说明
图1为本发明实施例的方法流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以组合调整。
如图1所示,本发明实施例提供一种基于地方志研究的搜索优化方法,包括以下步骤:
(1)调用地方志分词算法,用于统计生成地方志的补充词汇,将默认词库中没有的词语补充在自定义词库中,提高分词的准确性;
(2)调用融合词语序列特征的搜索优化算法,通过比对词语序列特征,修正默认搜索算法的评分值。对词序相似度进行量化计算分值,然后修正BM25算法或VSM算法的分值,计算出最终得分值,词频和词序相似度都高的文章得分值高;返回更加符合用户的语义的搜索结果,进而提高搜索的精确度。
在上述实施例中,地方志分词算法即修正分词部分,主要是通过词频统计和聚类算法,筛选出搜索文件集合中出现的高频词汇,然后过滤,将默认词库中没有的词语补充在自定义词库中。
在上述实施例中,融合词语序列特征的搜索优化算法部分,能较好地比对并量化出两个句子的词序关系,算法的词序相似度计算过程如下例所示:
例1:q=“在校园里面,我喜欢绘画。”
d=“我喜欢在校园里面学习,也喜欢运动。”
经过分词后得到:
q:在/校园/里面/我/喜欢/绘画
d:我/喜欢/在/校园/里面/学习/也/喜欢/运动
Set(q,d)表示在q、d中都出现的词语的数量,Set(q,d)=5,包括“在”、“校园”、“里面”、“我”、“喜欢”。P_q(q,d)表示Set(q,d)中的词语在q中的位置序号构成的向量,由q中的词语与序号的对应关系为:
在校园里面我喜欢绘画
1 2 3 4 5 6
得到P_q(q,d)=(1,2,3,4,5,6)。P_d(q,d)表示P_q(q,d)中的分量按对应词语在d中的次序排列生成的向量,由q中的分量按对应词语在d中的次序排列为:
我喜欢在校园里面学习也喜欢运动
4 5 1 2 3 M M 5
可见词语“喜欢”重复出现,选择总逆序数最小并且间隔词语最少的,记录向量时舍弃第一个“喜欢”,得到 P_d(q,d)=(4,1,2,3,5)。对P_d(q,d)的分量对应的序列进行补充,在序列两端添加数字0和N(N为整数且N→+∞),得到 0,4,1,2,3,5,N。P_seat(q,d)表示该序列的各相邻数值关系构成的向量(逆序的位置用1表示,顺序的位置用0表示)。例1中,由 0<4,4>1,1<2,2<3,3<5,5<N,得到相邻分量的逆序位置为 0,1,0,0,0,0,得到P_seat(q,d)=(0,1,0,0,0,0)。d中序列 0,4,1,2,3,M,M,5,词语“里面”和“喜欢”之间有两个新词,其它间隔没有新词,所以P_NumSeat(q,d)=(0,0,0,0,2,0,)
Ratio=ln6/ln8≈0.8616541668
OrderSeq(q,d)=0.5+0.5+1+1+1
SeqScore(q,d)表示用户输入的查询字符串q与文档d的词序相似度得分:
SeqScore(q,d)=0.8616541668×(0.5+0.5+1+1+1)/5
=3.4466166672/5=0.6893233334
然后再代入算法最终的计分公式 NewScore(q,d)=cof1*Score+cof2*SeqScore(q,d)。其中,Score 为使用原始相似度评分算法得到的相似度得分,Score的值为0.31013256。cof1和cof2是经验系数,且cof1+cof2=1。通过实验调整经验系数,当cof1取值0.9,cof2取值0.1时,可以在保护 Score分值的重要性的前提下,对得分值进行修正。最终分值为 0.34805163734。
进行精确搜索时,可选择OrderSeq(q,d)乘以系数k,k表示目标文档d包含的对应于q中的词语数除以q中词语数的比值,如例 1中为5/6。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的算法思想之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
与现有技术对比,本发明搜索方法的差别和改进效果如下:
首先,本发明搜索方法,提取搜索语句q对应文本d中所有相同的词语,并对中间间隔的词语进行了标注,极大限度的保护了用户输入的语义特征。同样的例子,例如q=“我喜欢读书。”, d=“我喜欢在教室练字也喜欢在教室读书,更喜欢在图书馆读书。”,运用本专利算法,可以对d中词语“我”、“喜欢”、“读书”进行数字标注,并对“在”、“教室”、“练字”、“也”、“在”、“教室”进行M标注,进行运算时没有丢失词语信息。
其次,对于关键词语间夹杂很多其他词语的情况,本发明搜索方法可以通过Ratio的值体现出间隔词语数量所占比例。
再次,测试时,本发明搜索方法算出的得分值更加精确。比如两个语句词语序列(1,2,3,4,5)和(5,4,1,2,3),《句子相似模型和最相似句子查找算法》一文中的公式计算出结果为1/2,本方法计算出为3/5。对比发现序列123与搜索语句序列12345相似度,有三个词语序列相同。
综上,可以说明本发明搜索方法在精准程度上更高,而且考虑了最大限度保护用户输入语义信息,在该领域是有意义的创新。
本说明书中未作详细描述的内容,属于本专业技术人员公知的现有技术。

Claims (5)

1.一种基于地方志研究的搜索优化方法,其特征在于该方法包括以下步骤:
(1)调用地方志分词算法,用于统计生成地方志的补充词汇,将默认词库中没有的词汇补充在自定义词库中,提高分词的准确性;
(2)调用融合词语序列特征的搜索优化算法,通过比对词语序列特征,修正默认搜索算法的评分值,返回更加符合用户的语义的搜索结果,进而提高搜索的精确度。
2.根据权利要求1所述的基于地方志研究的搜索优化方法,其特征在于:所述地方志分词算法,是结合词频统计和聚类算法,筛选出搜索文件集合中出现的高频词汇,然后经过过滤,将默认词库中没有的词汇补充在自定义词库中;其中,自定义词库包括扩展词汇和禁用词汇,用来调整当前搜索的需求。
3.根据权利要求1所述的基于地方志研究的搜索优化方法,其特征在于:所述融合词语序列特征的搜索优化算法,是用于优化搜索评分规则,通过对词序相似度的量化计算公式,有效反映出句子之间的词序关系,进行评分,修正BM25算法或VSM算法,最终计算出修正后的分值;本算法的词序相似度计算函数公式如下:
其中1≤OrderSeq(q,d)≤Set(q,d)
其中SeqScore(q,d)表示用户输入的查询语句q与文档d中相似语句的词序相似度得分;
Set(q,d)表示在q、d中都出现的词语的数量;
P_q(q,d)表示Set(q,d)中的词语在q中的位置序号构成的向量,从1开始标注;按照q中对应词语的序号对d中相似语句进行标注,如果遇到新词则标注为M;P_d(q,d)表示P_q(q,d)中的分量按对应词语在d中的次序排列生成的向量,如果某个词语在d中出现多次,则从中选取一个最优位置进行标注,舍弃其它重复词语,使得总逆序数最小并且间隔词语最少;对P_d(q,d)对应的序列进行补充,在序列两端添加数字0和N,N为整数且N→+∞,生成序列sequence(q,d);P_seat(q,d)表示该序列sequence(q,d)的各相邻数值关系构成的向量,逆序的位置用1表示,顺序用0表示;P_NumSeat(q,d)表示序列sequence_(q,d)的各相邻数值对应的词语间,间隔的词语数量构成的向量;OrderSeq(q,d)表示P_seat(q,d)各维度对应的权值之和;
OrderSeq(q,d)=w_1+w_2+…+w_n,其中w_i的计算方法为:
Ratio的计算公式如下:
上式中,分母包含标注为M的词语,Ratio反映出文本序列间隔词语的个数多少,用来修正权值,取对数对于数值小的部分差异的敏感程度比数值大的部分的差异敏感程度更高;
本算法得到的新计分公式为:
NewScore(q,d)=cof1*Score+cof2*SeqScore(q,d)
其中,Score为使用BM25或VSM原始相似度评分算法得到的相似度得分,cof1和cof2是经验系数,且cof1+cof2=1。
4.根据权利要求3所述的基于地方志研究的搜索优化方法,其特征在于:进行精确搜索时,选择OrderSeq(q,d)乘以系数k,k表示目标文档d包含的对应于q中的词语数除以q中词语数的比值。
5.根据权利要求3所述的基于地方志研究的搜索优化方法,其特征在于:设定一个阈值,当搜索文档d的Score小于该阈值时,说明该文档与用户搜索的关联度极低,不去计算词语词序相似度SeqScore(q,d),将SeqScore(q,d)置为0。
CN201710608338.9A 2017-07-24 2017-07-24 一种基于地方志研究的搜索优化方法 Active CN107609006B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710608338.9A CN107609006B (zh) 2017-07-24 2017-07-24 一种基于地方志研究的搜索优化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710608338.9A CN107609006B (zh) 2017-07-24 2017-07-24 一种基于地方志研究的搜索优化方法

Publications (2)

Publication Number Publication Date
CN107609006A true CN107609006A (zh) 2018-01-19
CN107609006B CN107609006B (zh) 2021-01-29

Family

ID=61059491

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710608338.9A Active CN107609006B (zh) 2017-07-24 2017-07-24 一种基于地方志研究的搜索优化方法

Country Status (1)

Country Link
CN (1) CN107609006B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110119453A (zh) * 2019-03-12 2019-08-13 重庆三峡学院 一种基于WebGIS的地方志文献可视化方法及系统
CN111930928A (zh) * 2020-10-16 2020-11-13 北京智源人工智能研究院 一种文本检索结果评分方法、检索方法和装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140058723A1 (en) * 2012-08-21 2014-02-27 Industrial Technology Research Institute Method and system for discovering suspicious account groups
CN103631859A (zh) * 2013-10-24 2014-03-12 杭州电子科技大学 一种面向科技项目的评审专家智能推荐方法
CN103699556A (zh) * 2013-07-30 2014-04-02 汪国斌 一种用于地方志编纂和地情资料的数字方志信息系统
CN103914445A (zh) * 2014-03-05 2014-07-09 中国人民解放军装甲兵工程学院 数据语义处理方法
CN104615698A (zh) * 2015-01-27 2015-05-13 武汉聚脉网络科技有限公司 一种人脉网络系统及其数据整合方法
CN106354708A (zh) * 2015-07-13 2017-01-25 中国电力科学研究院 一种基于用电信息采集系统的客户互动信息搜索引擎系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140058723A1 (en) * 2012-08-21 2014-02-27 Industrial Technology Research Institute Method and system for discovering suspicious account groups
CN103699556A (zh) * 2013-07-30 2014-04-02 汪国斌 一种用于地方志编纂和地情资料的数字方志信息系统
CN103631859A (zh) * 2013-10-24 2014-03-12 杭州电子科技大学 一种面向科技项目的评审专家智能推荐方法
CN103914445A (zh) * 2014-03-05 2014-07-09 中国人民解放军装甲兵工程学院 数据语义处理方法
CN104615698A (zh) * 2015-01-27 2015-05-13 武汉聚脉网络科技有限公司 一种人脉网络系统及其数据整合方法
CN106354708A (zh) * 2015-07-13 2017-01-25 中国电力科学研究院 一种基于用电信息采集系统的客户互动信息搜索引擎系统

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110119453A (zh) * 2019-03-12 2019-08-13 重庆三峡学院 一种基于WebGIS的地方志文献可视化方法及系统
CN111930928A (zh) * 2020-10-16 2020-11-13 北京智源人工智能研究院 一种文本检索结果评分方法、检索方法和装置
CN111930928B (zh) * 2020-10-16 2021-08-27 北京智源人工智能研究院 一种文本检索结果评分方法、检索方法和装置

Also Published As

Publication number Publication date
CN107609006B (zh) 2021-01-29

Similar Documents

Publication Publication Date Title
CN110457688B (zh) 纠错处理方法及装置、存储介质和处理器
CN108492200B (zh) 一种基于卷积神经网络的用户属性推断方法和装置
CN106484664B (zh) 一种短文本间相似度计算方法
CN106649597B (zh) 一种基于图书内容的图书书后索引自动构建方法
CN111178074B (zh) 一种基于深度学习的中文命名实体识别方法
CN104008091B (zh) 一种基于情感值的网络文本情感分析方法
CN106202153A (zh) 一种es搜索引擎的拼写纠错方法及系统
US20120066213A1 (en) Information processing apparatus, information processing method, and computer program product
US20150199567A1 (en) Document classification assisting apparatus, method and program
CN107480143A (zh) 基于上下文相关性的对话话题分割方法和系统
US20100080462A1 (en) Letter Model and Character Bigram based Language Model for Handwriting Recognition
CN109145287B (zh) 印尼语单词检错纠错方法及系统
CN101770453A (zh) 基于领域本体结合机器学习模型的汉语文本共指消解方法
CN107992542A (zh) 一种基于主题模型的相似文章推荐方法
CN109685056A (zh) 获取文档信息的方法及装置
CN107704500B (zh) 一种基于语义分析与多重余弦定理的新闻分类方法
CN100412869C (zh) 一种改进的基于文档结构的文档相似性度量方法
CN109684928A (zh) 基于互联网检索的中文文档识别方法
CN109033066A (zh) 一种摘要形成方法及装置
CN105786971B (zh) 一种面向国际汉语教学的语法点识别方法
CN114997288A (zh) 一种设计资源关联方法
CN107609006A (zh) 一种基于地方志研究的搜索优化方法
JP5097802B2 (ja) ローマ字変換を用いる日本語自動推薦システムおよび方法
CN116561594A (zh) 一种基于Word2vec的法律文件相似度分析方法
CN115831117A (zh) 实体识别方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant