CN109885653B - 文本检索方法 - Google Patents

文本检索方法 Download PDF

Info

Publication number
CN109885653B
CN109885653B CN201910094487.7A CN201910094487A CN109885653B CN 109885653 B CN109885653 B CN 109885653B CN 201910094487 A CN201910094487 A CN 201910094487A CN 109885653 B CN109885653 B CN 109885653B
Authority
CN
China
Prior art keywords
text
similarity
layer
direct
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910094487.7A
Other languages
English (en)
Other versions
CN109885653A (zh
Inventor
荆晓远
谢潇雨
黄鹤
孙莹
姚永芳
董西伟
吴飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Posts and Telecommunications filed Critical Nanjing University of Posts and Telecommunications
Priority to CN201910094487.7A priority Critical patent/CN109885653B/zh
Publication of CN109885653A publication Critical patent/CN109885653A/zh
Application granted granted Critical
Publication of CN109885653B publication Critical patent/CN109885653B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种文本检索方法,方法包括:初始化文本数据库集合和模糊语义关联矩阵;当确定第一层相似度数值大于预设的阈值时,将文本集合中的对应文本删除并插入第一文本集合,并将第一层相似度数值作为对应文本的相似度数值插入第一相似度集合;当确定第二层相似度数值大于阈值时,将相应文本删插入第二文本集合,并将第二层相似度数值插入第二相似度集合;当确定第三层相似度数值大于阈值时,将该文本删除并插入第三文本集合,并将第三层相似度数值作为该文本的相似度数值插入第三相似度集合;将第零、第一、第二和第三文本集合中文本作为检索结果集合进行输出。上述的方案,可以在文本检索时降低计算复杂度,节约计算资源。

Description

文本检索方法
技术领域
本发明属于数据检索技术领域,特别是涉及一种文本检索方法。
背景技术
在过去的十年中,许多基于内容的文本检索系统提出了基于文本固有内容的高效文本检索系统。总的来说,文本检索系统的研究工作在三个主要方向上取得了进展:基于全局特征、基于对象(区域)特征和相关反馈。然而,由于低级特征与高级人类感知之间的语义鸿沟,基于低级特征的各种相似度测度几乎不可能正确区分现实世界中的文本。
为了减小差距,在文本检索系统中引入了交互关联反馈(interactive relevancefeedback,RF)。其基本思想是将人的感知主观性融入到查询过程中,为用户提供评价检索结果的机会。
但是,现有的文本检索方法仍然存在着计算复杂度高的问题,造成了计算资源的浪费。
发明内容
本发明解决的技术问题是如何在文本检索时降低计算复杂度,节约计算资源。
为了达到上述目的,本发明提供一种文本检索方法,所述方法包括:
初始化文本数据库集合和模糊语义关联矩阵,得到对应的文本集合、第零、第一、第二和第三文本集合与第零、第一、第二和第三相似度集合;所述文本集合中包括所述文本数据库中的文本的信息;第零、第一、第二和第三文本集合与第零、第一、第二和第三相似度集合均为空;
当确定检索文本未存在于所述文本数据库中时,将N插入所述第一文本集合,并将1.0设置为所述检索文本的直接相似度数值插入所述第零相似度集合;N表示所述文本集合中的文本数量;
基于所述模糊语义关联矩阵中对应的直接相似度数值,计算所述第零文本集合中的文本与所述文本集合中的文本之间的第一层相似度数值,并当确定所述第零文本集合中的文本与所述文本集合中的文本之间的第一层相似度数值大于预设的阈值时,将所述文本集合中的对应文本删除并插入所述第一文本集合,并将所述第一层相似度数值作为所述对应文本的相似度数值插入所述第一相似度集合;
基于所述模糊语义关联矩阵中对应的直接相似度数值,计算所述第一文本集合中的文本与所述文本集合中的文本之间的第二层相似度数值,并当确定第一文本集合中的文本与所述文本集合中的文本之间的第二层相似度数值大于所述阈值时,将所述文本集合中的相应文本删除并插入所述第二文本集合,并将所述第二层相似度数值作为所述相应文本的相似度数值插入所述第二相似度集合;
基于所述模糊语义关联矩阵中对应的直接相似度数值,计算所述第二文本集合中的文本与所述文本集合中的文本之间的第三层相似度数值,并当确定第二文本集合中的文本与所述文本集合中的文本之间的第三层相似度数值大于所述阈值时,将所述文本集合中的该文本删除并插入所述第三文本集合,并将所述第三层相似度数值作为所述该文本的相似度数值插入所述第三相似度集合;其中,分别采用如下的公式计算所述第一层、第二层和第三层相似度数值:R1(A0[i],A[j])=S0[i]·R(A0[i],A[j]);R2(A1[i],A[j])=S1[i]·R(A1[i],A[j]);R3(A2[i],A[j])=S2[i]·R(A2[i],A[j]);其中,R1(A0[i],A[j])表示所述第零文本集合中的文本A0[i]与所述文本集合中的文本A[j]之间的第一层相似度数值,R2(A1[i],A[j])表示所述第一文本集合中的文本A1[i]与所述文本集合中的文本A[j]之间的第二层相似度数值,R3(A2[i],A[j])表示所述第二文本集合中的文本A2[i]与所述文本集合中的文本A[j]之间的第三层相似度数值,S0[i]表示所述第零相似度集合中的第i个直接相似度,S1[i]表示所述第一相似度集合中的第i个直接相似度,S2[i]表示所述第二相似度集合中的第i个直接相似度,R(A0[i],A[j])表示所述第零文本集合中的文本A0[i]与所述文本集合中的文本A[j]之间的直接似度数值,R(A1[i],A[j])表示所述第一文本集合中的文本A1[i]与所述文本集合中的文本A[j]之间的第二层相似度数值,R(A3[i],A[j])表示所述第三文本集合中的文本A3[i]与所述文本集合中的文本A[j]之间的直接相似度数值;
将所述第零、第一、第二和第三文本集合中文本作为检索结果集合进行输出。
可选地,所述方法还包括:
对所述检索结果集合进行一次以上的短时关联反馈,以对所述检索结果集合进行更新。
可选地,所述对所述检索结果集合进行一次短时关联反馈,包括:
获取用户对所述检索结果中的文本进行标记所得到的正文本、负文本和未知文本;
将所述正文本添加至对应的关联反馈集合中,并将负文本放入回收站;
计算所述检索文本分别与所述关联反馈集合中的正文本和所述回收站中的负文本之间的直接相似度;
当确定检索文本与所述关联反馈集合中的正文本之间的直接相似度大于预设的检索阈值,且所述检索文本与所述回收站中的负文本之间的直接相似度小于或等于所述检索阈值时,将所述回收站中对应的负文本添加至所述关联反馈集合中,并将所述检索文本与对应的正文本和负文本之间的直接相似度分别作为对应的正文本和负文本的相似度;
将所述关联反馈集合中的文本按照相似度进行降序排列,并将所述关联反馈集合中的文本中的正文本标记为正文本,将负文本标记为未知文本。
可选地,采用如下的公式计算所述检索文本分别与所述关联反馈集合中的正文本和所述回收站中的负文本之间的直接相似度:
Figure GDA0003760848930000041
Figure GDA0003760848930000042
其中,rfp(i)表示所述检索文本i与所述关联反馈集合中的正文本之间的直接相似度,
Figure GDA0003760848930000043
表示所述关联反馈集合中的第t个正文本
Figure GDA0003760848930000044
与所述检索文本i之间的直接相似度,k表示所述关联反馈集合中的正文本的数量,rfn(i)表示所述检索文本i与所述回收站中的负文本之间的直接相似度,rfn(i)表示,l表示所述回收站中的负文本的数量,
Figure GDA0003760848930000045
表示所述关联反馈集合中的第t个负文本
Figure GDA0003760848930000046
与所述检索文本i之间的直接相似度。
可选地,对所述检索结果集合进行一次短时关联反馈结束时,所述方法还包括:
对所述模糊语义关联矩阵进行更新。
可选地,采用如下的公式对所述模糊语义关联矩阵进行更新:
Figure GDA0003760848930000051
Figure GDA0003760848930000052
其中,
Figure GDA0003760848930000053
表示对应次的短时关联反馈结束时关联反馈集合中的正文本集合中的第j个文本
Figure GDA0003760848930000054
和第i个文本
Figure GDA0003760848930000055
之间的直接相似度,
Figure GDA0003760848930000056
表示对应次的短时关联反馈结束时关联反馈集合中的正文本集合中的第i个文本
Figure GDA0003760848930000057
和第j个文本
Figure GDA0003760848930000058
之间的直接相似度,
Figure GDA0003760848930000059
表示对应次的短时关联反馈结束时关联反馈集合中的第j个文本
Figure GDA00037608489300000510
和正文本集合中的第i个文本
Figure GDA00037608489300000511
之间的直接相似度,
Figure GDA00037608489300000512
表示对应次的短时关联反馈结束时关联反馈集合中的正文本集合中第i个文本
Figure GDA00037608489300000513
和负文本集合中的第j个文本
Figure GDA00037608489300000514
之间的直接相似度,α表示预设的正反馈系数,β表示预设的负反馈系数。
本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机指令,所述计算机指令运行时执行上述任一项所述的文本检索方法的步骤。
本发明实施例还提供了一种终端,包括存储器和处理器,所述存储器上储存有能够在所述处理器上运行的计算机指令,所述处理器运行所述计算机指令时执行上述任一项所述的文本检索方法的步骤。
与现有技术相比,本发明的有益效果为:
上述的方案,通过初始化文本数据库集合和模糊语义关联矩阵,得到对应的文本集合、第零、第一、第二和第三文本集合和第零、第一、第二和第三相似度集合;所述文本集合中包括所述文本数据库中的文本的信息;所述第零、第一、第二和第三文本集合和第零、第一、第二和第三相似度集合均为空;当确定所述检索文本未存在于所述文本数据库中时,将N插入所述第一文本集合,并将1.0设置为所述检索文本的直接相似度数值插入所述第零相似度集合;N表示所述文本集合中的文本数量;基于所述模糊语义关联矩阵中对应的直接相似度数值,计算所述第零文本集合中的文本与所述文本集合中的文本之间的第一层相似度数值,并当确定所述第零文本集合中的文本与所述文本集合中的文本之间的第一层相似度数值大于预设的阈值时,将所述文本集合中的对应文本删除并插入所述第一文本集合,并将所述第一层相似度数值作为所述对应文本的相似度数值插入所述第一相似度集合;基于所述模糊语义关联矩阵中对应的直接相似度数值,计算所述第一文本集合中的文本与所述文本集合中的文本之间的第二层相似度数值,并当确定第一文本集合中的文本与所述文本集合中的文本之间的第二层相似度数值大于所述阈值时,将所述文本集合中的相应文本删除并插入所述第二文本集合,并将所述第二层相似度数值作为所述相应文本的相似度数值插入所述第二相似度集合;基于所述模糊语义关联矩阵中对应的直接相似度数值,计算所述第二文本集合中的文本与所述文本集合中的文本之间的第三层相似度数值,并当确定第二文本集合中的文本与所述文本集合中的文本之间的第三层相似度数值大于所述阈值时,将所述文本集合中的该文本删除并插入所述第三文本集合,并将所述第三层相似度数值作为所述该文本的相似度数值插入所述第三相似度集合;将所述第零、第一、第二和第三文本集合中文本作为检索结果集合进行输出;可以在进行文本检索时,降低计算复杂度,节约计算资源。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例中的一种文本检索方法的流程示意图;
图2至图4为本发明实施例中的文本检索方法在不同长期记忆学习次数后的检索性能曲线;
图5为本发明实施例中的文本检索方法在不同检索阈值下的精度性能;
图6本发明实施例中的文本检索方法在不同检索阈值下的召回性能;
图7为本发明实施例中的文本检索方法在不同层数的相似度数值下的精确度-召回率曲线。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。本发明实施例中有关方向性指示(诸如上、下、左、右、前、后等)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等,如果该特定姿态发生改变时,则该方向性指示也相应地随之改变。
如背景技术所述,现有技术检索算法只需要在FSRM上找到相似的文本。一般而言,考虑公式(1),间接相似度ri,j(T)的取值如下(文本i为检索文本):
如果R0(i,j)≥T且ri,j(T)=R0(i,j),将文本j插入到检索结果中。
如果R1(i,j)≥T且ri,j(T)=R1(i,j),将文本j插入到检索结果中。
如果R2(i,j)≥T且ri,j(T)=R2(i,j),将文本j插入到检索结果中。
如果ri,j(T)=R0(i,j),则不将文本j插入到检索结果中。
然而,上述文本检索方法存在着计算复杂度高的问题,浪费计算资源。
本发明的技术方案通过。
为使本发明的上述目的、特征和有益效果能够更为明显易懂,下面结合附图对本发明的具体实施例做详细的说明。
图1是本发明实施例的一种文本检索方法的流程示意图。参见图1,一种文本检索方法,具体可以包括如下的步骤:
步骤S101:初始化文本数据库集合和模糊语义关联矩阵。
在具体实施中,通过初始化文本数据库集合和模糊语义关联矩阵,为所述文本数据库集合中的所有文本分别设置对应的编号,作为每个文本的标识。例如,当所述文本数据库集合中具有N个文本时,按照顺序所述文本数据库集合中具有N个文本设置0,1,2……N-1的编号,作为每个文本的标识,并将每个文本的标识放入一个集合中,得到所述文本数据库对应的文本集合A={0,1,…,N-1}。
同时,为了后续的文本检索操作,创建第零文本集合A0、第一文本集合A1、第二文本集合A2和第三文本集合A3与第零相似度集合S0、第一相似度集合S1、第二相似度集合S2和第三相似度集合S3,并、第一文本集合A1、第二文本集合A2和第三文本集合A3与第零相似度集合S0、第一相似度集合S1、第二相似度集合S2和第三相似度集合S3设置为空集合,即令A0=A1=A2=A3=Φ,S0=S1=S2=S3=Φ。
步骤S102:当确定所述检索文本未存在于所述文本数据库中时,将N插入所述第一文本集合,并将1.0设置为所述检索文本的直接相似度数值插入所述第零相似度集合;N表示所述文本集合中的文本数量。
在具体实施中,当所述检索文本不在数据库中,则设置一个新的ID,令n0=N,则此时,文本集合A={0,1,…,N-1}修改为A={0,1,…,N})。同时,将n0插入所述第零文本集合A0,将1.0作为所述检索文本的直接相似度插入所述第零相似度集合S0,即A0={n0},S0={1.0}。
在具体实施中,通过注释关键字或语义标签来描述文本的语义信息总是不准确、不完整和费力的,本发明实施例中使用一个模糊语义关联矩阵(FSRM)将低级特征与语义概念联系起来。其中,FSRM的维数是N×N,N是文本数据库中文本的数量,FSRM中的每个元素R(i,j),用于表示文本i和文本j之间的“直接相似”,R(i,j)中的每个元素均与文本i和文本j之间的语义相似度有关。
“直接相似性”是在检索会话中更新的,但是它缺乏根据获得的语义预测隐藏语义的能力。比如,通过长期记忆学习,“直接相似性”R(i,j)已经更新从初始值0.4至0.9,R(j,k)从0.6到0.92,而长期记忆的学习次数不够,R(i,k)仍为初始值0.5。因此,“直接相似性”R(i,k)不能反映文本i和文本k间隐藏的语义相似性。相反“间接相似性”R(i,j)R(j,k)=0.828,比“直接相似性”更能预测相似度。因此,在我们的文本检索系统中,由式(1)定义的文本i和文本j、ri,j的最终相似度测度不仅依赖于“直接相似度”R(i,j),还依赖于考虑FSRM中其他元素的“间接相似度”。文本间的间接相似度ri,j(T)定义如下:
Figure GDA0003760848930000091
且:
R0(i,j)=R(i,j)
(2)
R1(i,j)=max{R(i,k)·R(k,j)}(0≤k<N,k≠i,j)
(3)
R2(i,j)=max{R(i,k1)·R(k1,k2)·R(k2,j)}(0≤k1,k2<
N,k1≠k2,k1,k2≠i,j) (4)
其中,T为检索阈值,N为文本数据库中文本的个数。在这里,我们只考虑三层,如:R0(i,j),R1(i,j)和R2(i,j),因为层次越多,相似度越不精确,检索过程越复杂。
在执行FSRM的初始化时,假定X={x0,x1,…,xN-1}是一个向量集合,其中xi={xi2,xi1,…,xis}描述了文本i的低层特征,N为数据库中文本的数量,s为向量的维数,文本i和j以及R(i,j)要求满足:
0≤R(i,j)≤1(i,j=0,1,…,N-1)
(5)
R(i,j)=1(i=0,1,…,N-1)
(6)
R(i,j)=R(j,i)(i,j=0,1,…,N-1)
(7)
在本发明一实施例中,FSRM初始化时中的直接相似度采用如下的公式计算:
Figure GDA0003760848930000101
其中i,j=0,1,…,N-1 (8)
步骤S103:基于所述模糊语义关联矩阵中对应的直接相似度数值,计算所述第零文本集合中的文本与所述文本集合中的文本之间的第一层相似度数值,并当确定所述第零文本集合中的文本与所述文本集合中的文本之间的第一层相似度数值大于预设的阈值时,将所述文本集合中的对应文本删除并插入所述第一文本集合,并将所述第一层相似度数值作为所述对应文本的相似度数值插入所述第一相似度集合。
在本发明一实施例中,所述第零文本集合中的文本与所述文本集合中的文本之间的第一层相似度数值采用如下的公式计算:
R1(A0[i],A[j])=S0[i]·R(A0[i],A[j])
(9)
其中,R1(A0[i],A[j])表示所述第零文本集合中的文本A0[i]与所述文本集合中的文本A[j]之间的第一层相似度数值,S0[i]表示所述第零相似度集合中的第i个直接相似度,R(A0[i],A[j])表示所述第零文本集合中的文本A0[i]与所述文本集合中的文本A[j]之间的直接似度数值。
当使用公式(1)可以计算得到第零文本集合中的每个文本分别与所述文本集合中的每个文本之间的第一层相似度数值时,可以分别判断计算的得到第一层相似度数值是否满足:
R1(A0[i],A[j])=S0[i]·R(A0[i],A[j])≥Threshold
(10)
其中,Threshold表示预设的阈值,可以根据实际的检索需要进行设置,在此不做限制。
当计算得到的所述第零文本集合中的文本与所述文本集合中的文本之间的第一层相似度数值满足公式(2)时,将所述文本集合A中的文本A[j]从文本集合A中删除并将A[j]插入所述第一文本集合A1,并将所述第一层相似度数值作为所述文本A[j]的相似度和数值插入所述第一相似度集合S1中,从而第一文本集合对A1和第一相似度集合S1进行更新。
步骤S104:基于所述模糊语义关联矩阵中对应的直接相似度数值,计算所述第一文本集合中的文本与所述文本集合中的文本之间的第二层相似度数值,并当确定第一文本集合中的文本与所述文本集合中的文本之间的第二层相似度数值大于所述阈值时,将所述文本集合中的相应文本删除并插入所述第二文本集合,并将所述第二层相似度数值作为所述相应文本的相似度数值插入所述第二相似度集合。
在具体实施中,当通过步骤S103得到更新后的第一文本集合对A1和第一相似度集合S1时,可以接着计算所述第一文本集合中的文本与所述文本集合中的文本之间的第二层相似度数值。在本发明一实施例中,所述第一文本集合中的文本与所述文本集合中的文本之间的第二层相似度数值采用如下的公式计算得到:
R2(A1[i],A[j])=S1[i]·R(A1[i],A[j])
(11)
其中,R2(A1[i],A[j])表示所述第一文本集合中的文本A1[i]与所述文本集合中的文本A[j]之间的第二层相似度数值,S1[i]表示所述第一相似度集合中的第i个直接相似度,R(A1[i],A[j])表示所述第一文本集合中的文本A1[i]与所述文本集合中的文本A[j]之间的第二层相似度数值。
当使用公式(3)可以计算得到第一文本集合A1中的每个文本A1[i]分别与所述文本集合A中的每个文本A[j]之间的第一层相似度数值时,可以分别判断计算的得到第一层相似度数值是否满足:
R2(A1[i],A[j])=S1[i]·R(A1[i],A[j])≥Threshold
(12)
当计算得到的所述第一文本集合A1中的每个文本A1[i]分别与所述文本集合A中的每个文本A[j]之间的第一层相似度数值满足公式(4)时,将所述文本集合A中的相应文本A[j]从文本集合A中删除并将A[j]插入所述第二文本集合A2,并将所述第二层相似度数值R2(A1[i],A[j])作为所述文本A[j]的相似度和数值插入所述第一相似度集合S2中,从而第一文本集合对A2和第一相似度集合S2进行更新。
步骤S105:基于所述模糊语义关联矩阵中对应的直接相似度数值,计算所述第二文本集合中的文本与所述文本集合中的文本之间的第三层相似度数值,并当确定第二文本集合中的文本与所述文本集合中的文本之间的第三层相似度数值大于所述阈值时,将所述文本集合中的该文本删除并插入所述第三文本集合,并将所述第三层相似度数值作为所述该文本的相似度数值插入所述第三相似度集合。
R3(A2[i],A[j])=S2[i]·R(A2[i],A[j])
(13)
其中,R3(A2[i],A[j])表示所述第二文本集合中的文本A2[i]与所述文本集合中的文本A[j]之间的第三层相似度数值,S2[i]表示所述第二相似度集合中的第i个直接相似度,R(A3[i],A[j])表示所述第三文本集合中的文本A3[i]与所述文本集合中的文本A[j]之间的直接相似度数值。
当使用公式(5)可以计算得到第二文本集合A2中的每个文本A2[i]分别与所述文本集合A中的每个文本A[j]之间的第三层相似度数值时,可以分别判断计算得到的第三层相似度数值是否满足:
R3(A2[i],A[j])=S2[i]·R(A2[i],A[j])≥Threshold3
(14)
当计算得到的所述第二文本集合A2中的每个文本A2[i]分别与所述文本集合A中的每个文本A[j]之间的第一层相似度数值满足公式(6)时,将所述文本集合A中的相应文本A[j]从文本集合A中删除并将A[j]插入所述第三文本集合A3,并将所述第二层相似度数值R3(A1[i],A[j])作为所述文本A[j]的相似度和数值插入所述第一相似度集合S3中,从而第一文本集合对A3和第一相似度集合S3进行更新。
步骤S106:将所述第零、第一、第二和第三文本集合中文本作为检索结果集合进行输出。
在具体实施中,所述第零文本集合A0、第一文本集合A1、第二文本集合A2和第三文本集合A3中的所有元素都是检索结果,且第零相似度集合S0、第一相似度集合S1、第二相似度集合S2中的和第三相似度集合S3中值正是检索结果中每个文本对应的相似度值。
在本发明一实施例中,为了进一步提高检索结果的准确性,所述方法还可以包括:
步骤S107:对所述检索结果集合进行一次以上的短时关联反馈,以对所述检索结果集合进行更新。
在本发明一实施例中,在所述对所述检索结果集合进行一次短时关联反馈,包括:
假设A{a1,a2,…,am}是检索结果的集合,包括m个文本。其中,检索结果中的每个文本除了相同的文本被赋值为“正”,其他检索结果的初始反馈符号被赋值为“未知”。
然后,接收用户对检索结果的标记,即用户对将检索结果中的文本的标记信息,包括“正”、“负”或“未知”的语义信息。假设
Figure GDA0003760848930000141
是“正”文本的集合,
Figure GDA0003760848930000142
是“负”文本的集合,显然
Figure GDA0003760848930000143
Figure GDA0003760848930000144
执行一次关联反馈(relevance feedback,RF)如下:
接着,在RF结果中加入检索结果中的“正”文本,并将“负”文本放入“回收站”中。
之后,计算所述检索文本分别与所述关联反馈集合中的正文本和所述回收站中的负文本之间的直接相似度,并判断检索文本与所述关联反馈集合中的正文本之间的直接相似度大于预设的检索阈值,且所述检索文本与所述回收站中的负文本之间的直接相似度小于或等于所述检索阈值时,即文本i满足:
Figure GDA0003760848930000151
且:
Figure GDA0003760848930000152
其中,rfp(i)表示所述检索文本i与所述关联反馈集合中的正文本之间的直接相似度,
Figure GDA0003760848930000153
表示所述关联反馈集合中的第t个正文本
Figure GDA0003760848930000154
与所述检索文本i之间的直接相似度,k表示所述关联反馈集合中的正文本的数量,rfn(i)表示所述检索文本i与所述回收站中的负文本之间的直接相似度,rfn(i)表示,l表示表示所述回收站中的负文本的数量。
当RF结果中的正文本满足公式(15)且回收站中存在对应的负文本满足公式(16)时,则所述回收站中对应的负文本添加至RF集合中,并且在排序过程中选择rfp(i)作为对应的正文本的直接相似度,选择rfn(i)作为对应的负文本的相似度;反之,则在关联反馈中不进行添加。
最后,按降序排列RF结果中的所有文本,然后显示它们,并对所述RF集合中的文本中设置“正”文本的初始反馈信号为“正”,设置负文本的初始反馈信号为“未知”。至此,一次关联反馈操作结束。
在本发明一实施例中,为了进一步提高检索结果的准确性,在每次关联反馈操作结束时,采用如下的公式对所述模糊语义关联矩阵进行更新:
Figure GDA0003760848930000161
Figure GDA0003760848930000162
其中,
Figure GDA0003760848930000163
表示对应次的短时关联反馈结束时关联反馈集合中的正文本集合中的第j个文本
Figure GDA0003760848930000164
和第i个文本
Figure GDA0003760848930000165
之间的直接相似度,
Figure GDA0003760848930000166
表示对应次的短时关联反馈结束时关联反馈集合中的正文本集合中的第i个文本
Figure GDA0003760848930000167
和第j个文本
Figure GDA0003760848930000168
之间的直接相似度,
Figure GDA0003760848930000169
表示对应次的短时关联反馈结束时关联反馈集合中的第j个文本
Figure GDA00037608489300001610
和正文本集合中的第i个文本
Figure GDA00037608489300001611
之间的直接相似度,
Figure GDA00037608489300001612
表示对应次的短时关联反馈结束时关联反馈集合中的正文本集合中第i个文本
Figure GDA00037608489300001613
和负文本集合中的第j个文本
Figure GDA00037608489300001614
之间的直接相似度,α表示预设的正反馈系数,β表示预设的负反馈系数。
通过公式(17)和(18)根据正反馈系数和负反馈系数更新FRSM矩阵,不断地修正检索结果集,逐步得出符合要求的结果集,可以使得检索结果更加准确。
在每次关联反馈结束且根据正反馈系数和负反馈系数更新FRSM矩阵时,用户检查关联反馈结果,并再次将其标记为“正”和“负”,便可以根据实际的需要,再执行一次或多次关联反馈操作。
我们对本发明实施例中的文本检索方法的性能进行了实验。在实验中,使用了wiki数据集中的文本部分,有1386篇文档。采用公式(6)实现了模糊语义关联矩阵的初始化,实验中使用的长期学习参数分别为0.3和0.06。图2至图4为本发明实施例中的文本检索方法在不同长期记忆学习次数后的检索性能曲线。在不同情况下的整体学习时间,即:没有学习,学习131次,学习168次,学习219次。其中,图2显示了公式(1)中不同阈值下的召回性能(本文使用的30个阈值分别为0.40、0.42、…、0.96、0.98),图3给出了不同阈值下的精度性能,图4给出了准确度—召回率曲线。这里有200个测试检索文本,它们的ID号分别是4,9,14,19,…,994和999。同时,让15个真实世界的用户使用本文的系统检索文本。每一个都需要执行10到15个查询会话。每个查询会话由他们喜欢的1到4次反馈组成。在每次迭代中,用户根据自己的喜好在结果文本上标注“正”、“负”或“未知”,而不需要标注所有的结果文本。我们告诉他们,可以检索他们喜欢的东西,也可以犯错误。然后将每个阈值点的召回率和精度值平均超过200张测试检索文本,如图2至图4所示(每条曲线取30点)。为了证明本发明实施例中的文本检索方法的性能,采用了精确度precision和召回率recall两个评价指标,对应的计算公式如下:
Figure GDA0003760848930000171
Figure GDA0003760848930000172
从图2和图3可以得出看出:相同数量的学习时期,阈值越大,越不召回,精度越大;相同的阈值,学习次数越大,召回和精度越大。幸运的是,从图4可以看出,精确度-召回率曲线随着学习时间的增加而优化。
在此系统中,检索算法考虑如式(1)所示的3层,为了证明其有效性,图3给出了考虑不同层数的5条检索性能曲线,即、1、2、3、4、5层相似度。其中,图5为公式(1)中不同阈值下的精度性能,图6为不同阈值下的召回性能,图7为精确度-召回率曲线。从图5和图6,可以得出:
(1)相同数量的层,阈值越大,越不召回,精度越大;
(2)相同的阈值,层数越大,召回和精度越大。
从图7中可以看出,随着层数的增加,精确度-召回率曲线得到了优化,可以明显看出,当考虑三层以上的相似度数值时,曲线基本保持不变。换句话说,只考虑公式(1)中的三层相似度数值是有效和充分的。
本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机指令,所述计算机指令运行时执行所述的文本检索方法的步骤。其中,所述文本检索方法请参见前述部分的详细介绍不再赘述。
本发明实施例还提供了一种终端,包括存储器和处理器,所述存储器上储存有能够在所述处理器上运行的计算机指令,所述处理器运行所述计算机指令时执行所述的文本检索方法的步骤。其中,所述文本检索方法请参见前述部分的详细介绍不再赘述。
采用本发明实施例中的上述方案,通过初始化文本数据库集合和模糊语义关联矩阵,得到对应的文本集合、第零、第一、第二和第三文本集合和第零、第一、第二和第三相似度集合;所述文本集合中包括所述文本数据库中的文本的信息;所述第零、第一、第二和第三文本集合和第零、第一、第二和第三相似度集合均为空;当确定所述检索文本未存在于所述文本数据库中时,将N插入所述第一文本集合,并将1.0设置为所述检索文本的直接相似度数值插入所述第零相似度集合;N表示所述文本集合中的文本数量;基于所述模糊语义关联矩阵中对应的直接相似度数值,计算所述第零文本集合中的文本与所述文本集合中的文本之间的第一层相似度数值,并当确定所述第零文本集合中的文本与所述文本集合中的文本之间的第一层相似度数值大于预设的阈值时,将所述文本集合中的对应文本删除并插入所述第一文本集合,并将所述第一层相似度数值作为所述对应文本的相似度数值插入所述第一相似度集合;基于所述模糊语义关联矩阵中对应的直接相似度数值,计算所述第一文本集合中的文本与所述文本集合中的文本之间的第二层相似度数值,并当确定第一文本集合中的文本与所述文本集合中的文本之间的第二层相似度数值大于所述阈值时,将所述文本集合中的相应文本删除并插入所述第二文本集合,并将所述第二层相似度数值作为所述相应文本的相似度数值插入所述第二相似度集合;基于所述模糊语义关联矩阵中对应的直接相似度数值,计算所述第二文本集合中的文本与所述文本集合中的文本之间的第三层相似度数值,并当确定第二文本集合中的文本与所述文本集合中的文本之间的第三层相似度数值大于所述阈值时,将所述文本集合中的该文本删除并插入所述第三文本集合,并将所述第三层相似度数值作为所述该文本的相似度数值插入所述第三相似度集合;将所述第零、第一、第二和第三文本集合中文本作为检索结果集合进行输出;可以在进行文本检索时,降低计算复杂度,节约计算资源。
以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,本发明要求保护范围由所附的权利要求书、说明书及其等效物界定。

Claims (6)

1.一种文本检索方法,其特征在于,包括:
初始化文本数据库集合和模糊语义关联矩阵,得到对应的文本集合、第零、第一、第二和第三文本集合和第零、第一、第二和第三相似度集合;所述文本集合中包括所述文本数据库中的文本的信息;所述第零、第一、第二和第三文本集合和第零、第一、第二和第三相似度集合均为空;
当确定检索文本未存在于所述文本数据库中时,将N插入所述第一文本集合,并将1.0设置为所述检索文本的直接相似度数值插入所述第零相似度集合;N表示所述文本集合中的文本数量;
基于所述模糊语义关联矩阵中对应的直接相似度数值,计算所述第零文本集合中的文本与所述文本集合中的文本之间的第一层相似度数值,并当确定所述第零文本集合中的文本与所述文本集合中的文本之间的第一层相似度数值大于预设的阈值时,将所述文本集合中的对应文本删除并插入所述第一文本集合,并将所述第一层相似度数值作为所述对应文本的相似度数值插入所述第一相似度集合;
基于所述模糊语义关联矩阵中对应的直接相似度数值,计算所述第一文本集合中的文本与所述文本集合中的文本之间的第二层相似度数值,并当确定第一文本集合中的文本与所述文本集合中的文本之间的第二层相似度数值大于所述阈值时,将所述文本集合中的相应文本删除并插入所述第二文本集合,并将所述第二层相似度数值作为所述相应文本的相似度数值插入所述第二相似度集合;
基于所述模糊语义关联矩阵中对应的直接相似度数值,计算所述第二文本集合中的文本与所述文本集合中的文本之间的第三层相似度数值,并当确定第二文本集合中的文本与所述文本集合中的文本之间的第三层相似度数值大于所述阈值时,将所述文本集合中的该文本删除并插入所述第三文本集合,并将所述第三层相似度数值作为所述该文本的相似度数值插入所述第三相似度集合;其中,分别采用如下的公式计算所述第一层、第二层和第三层相似度数值:R1(A0[i],A[j])=S0[i]·R(A0[i],A[j]);R2(A1[i],A[j])=S1[i]·R(A1[i],A[j]);R3(A2[i],A[j])=S2[i]·R(A2[i],A[j]);其中,R1(A0[i],A[j])表示所述第零文本集合中的文本A0[i]与所述文本集合中的文本A[j]之间的第一层相似度数值,R2(A1[i],A[j])表示所述第一文本集合中的文本A1[i]与所述文本集合中的文本A[j]之间的第二层相似度数值,R3(A2[i],A[j])表示所述第二文本集合中的文本A2[i]与所述文本集合中的文本A[j]之间的第三层相似度数值,S0[i]表示所述第零相似度集合中的第i个直接相似度,S1[i]表示所述第一相似度集合中的第i个直接相似度,S2[i]表示所述第二相似度集合中的第i个直接相似度,R(A0[i],A[j])表示所述第零文本集合中的文本A0[i]与所述文本集合中的文本A[j]之间的直接似度数值,R(A1[i],A[j])表示所述第一文本集合中的文本A1[i]与所述文本集合中的文本A[j]之间的第二层相似度数值,R(A3[i],A[j])表示所述第三文本集合中的文本A3[i]与所述文本集合中的文本A[j]之间的直接相似度数值;
将所述第零、第一、第二和第三文本集合中文本作为检索结果集合进行输出。
2.根据权利要求1所述的文本检索方法,其特征在于,还包括:
对所述检索结果集合进行一次以上的短时关联反馈,以对所述检索结果集合进行更新。
3.根据权利要求2所述的文本检索方法,其特征在于,所述对所述检索结果集合进行一次短时关联反馈,包括:
获取用户对所述检索结果中的文本进行标记所得到的正文本、负文本和未知文本;
将所述正文本添加至对应的关联反馈集合中,并将负文本放入回收站;
计算所述检索文本分别与所述关联反馈集合中的正文本和所述回收站中的负文本之间的直接相似度;
当确定检索文本与所述关联反馈集合中的正文本之间的直接相似度大于预设的检索阈值,且所述检索文本与所述回收站中的负文本之间的直接相似度小于或等于所述检索阈值时,将所述回收站中对应的负文本添加至所述关联反馈集合中,并将所述检索文本与对应的正文本和负文本之间的直接相似度分别作为对应的正文本和负文本的相似度;
将所述关联反馈集合中的文本按照相似度进行降序排列,并将所述关联反馈集合中的文本中的正文本标记为正文本,将负文本标记为未知文本。
4.根据权利要求3所述的文本检索方法,其特征在于,采用如下的公式计算所述检索文本分别与所述关联反馈集合中的正文本和所述回收站中的负文本之间的直接相似度:
Figure FDA0003760848920000031
Figure FDA0003760848920000032
其中,rfp(i)表示所述检索文本i与所述关联反馈集合中的正文本之间的直接相似度,
Figure FDA0003760848920000033
表示所述关联反馈集合中的第t个正文本
Figure FDA0003760848920000034
与所述检索文本i之间的直接相似度,k表示所述关联反馈集合中的正文本的数量,rfn(i)表示所述检索文本i与所述回收站中的负文本之间的直接相似度,rfn(i)表示,l表示所述回收站中的负文本的数量,
Figure FDA0003760848920000035
表示所述关联反馈集合中的第t个负文本
Figure FDA0003760848920000036
与所述检索文本i之间的直接相似度。
5.根据权利要求3或4所述的文本检索方法,其特征在于,对所述检索结果集合进行一次短时关联反馈结束时,还包括:
对所述模糊语义关联矩阵进行更新。
6.根据权利要求5所述的文本检索方法,其特征在于,采用如下的公式对所述模糊语义关联矩阵进行更新:
Figure FDA0003760848920000037
Figure FDA0003760848920000038
其中,
Figure FDA0003760848920000041
表示对应次的短时关联反馈结束时关联反馈集合中的正文本集合中的第j个文本
Figure FDA0003760848920000042
和第i个文本
Figure FDA0003760848920000043
之间的直接相似度,
Figure FDA0003760848920000044
表示对应次的短时关联反馈结束时关联反馈集合中的正文本集合中的第i个文本
Figure FDA0003760848920000045
和第j个文本
Figure FDA0003760848920000046
之间的直接相似度,
Figure FDA0003760848920000047
表示对应次的短时关联反馈结束时关联反馈集合中的第j个文本
Figure FDA0003760848920000048
和正文本集合中的第i个文本
Figure FDA0003760848920000049
之间的直接相似度,
Figure FDA00037608489200000410
表示对应次的短时关联反馈结束时关联反馈集合中的正文本集合中第i个文本
Figure FDA00037608489200000411
和负文本集合中的第j个文本
Figure FDA00037608489200000412
之间的直接相似度,α表示预设的正反馈系数,β表示预设的负反馈系数。
CN201910094487.7A 2019-01-30 2019-01-30 文本检索方法 Active CN109885653B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910094487.7A CN109885653B (zh) 2019-01-30 2019-01-30 文本检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910094487.7A CN109885653B (zh) 2019-01-30 2019-01-30 文本检索方法

Publications (2)

Publication Number Publication Date
CN109885653A CN109885653A (zh) 2019-06-14
CN109885653B true CN109885653B (zh) 2022-10-04

Family

ID=66927447

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910094487.7A Active CN109885653B (zh) 2019-01-30 2019-01-30 文本检索方法

Country Status (1)

Country Link
CN (1) CN109885653B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150120720A1 (en) * 2012-06-22 2015-04-30 Krishna Kishore Dhara Method and system of identifying relevant content snippets that include additional information
CN105335510A (zh) * 2015-10-30 2016-02-17 成都博睿德科技有限公司 文本数据高效搜索方法
CN108595706A (zh) * 2018-05-10 2018-09-28 中国科学院信息工程研究所 一种基于主题词类相似性的文档语义表示方法、文本分类方法和装置
CN108595636A (zh) * 2018-04-25 2018-09-28 复旦大学 基于深度跨模态相关性学习的手绘草图的图像检索方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150120720A1 (en) * 2012-06-22 2015-04-30 Krishna Kishore Dhara Method and system of identifying relevant content snippets that include additional information
CN105335510A (zh) * 2015-10-30 2016-02-17 成都博睿德科技有限公司 文本数据高效搜索方法
CN108595636A (zh) * 2018-04-25 2018-09-28 复旦大学 基于深度跨模态相关性学习的手绘草图的图像检索方法
CN108595706A (zh) * 2018-05-10 2018-09-28 中国科学院信息工程研究所 一种基于主题词类相似性的文档语义表示方法、文本分类方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于联合表示值的特征选择方法;张志武;《南京邮电大学学报( 自然科学版)》;20170228;全文 *

Also Published As

Publication number Publication date
CN109885653A (zh) 2019-06-14

Similar Documents

Publication Publication Date Title
US11030415B2 (en) Learning document embeddings with convolutional neural network architectures
JP5424001B2 (ja) 学習データ生成装置、固有表現抽出システム、学習データ生成方法、及びプログラム
CN104252456B (zh) 一种权重估计方法、装置及系统
CN108509474A (zh) 搜索信息的同义词扩展方法及装置
CN105653562B (zh) 一种文本内容与查询请求之间相关性的计算方法及装置
CN109299383B (zh) 生成推荐词的方法、装置、电子设备及存储介质
CN111460148A (zh) 文本分类方法、装置、终端设备及存储介质
CA2882280A1 (en) System and method for matching data using probabilistic modeling techniques
CN103646099B (zh) 一种基于多层图的论文推荐方法
JP2003186907A (ja) プロファイル情報の情報検索方法、プログラム、記録媒体及び装置
CN107844533A (zh) 一种智能问答系统及分析方法
CN113011689B (zh) 软件开发工作量的评估方法、装置及计算设备
CN108875065B (zh) 一种基于内容的印尼新闻网页推荐方法
CN110298024A (zh) 涉密文档的检测方法、装置及存储介质
CN114818986B (zh) 一种文本相似度计算去重方法、系统、介质及设备
CN111325033B (zh) 实体识别方法、装置、电子设备及计算机可读存储介质
CN113988057A (zh) 基于概念抽取的标题生成方法、装置、设备及介质
CN114330335A (zh) 关键词抽取方法、装置、设备及存储介质
CN106776782B (zh) 基于人工智能的语义相似度获取方法及装置
CN117648916A (zh) 文本相似度识别模型训练方法和文本相关信息获取方法
CN110674388A (zh) 推送项目的配图方法、装置、存储介质和终端设备
CN109885653B (zh) 文本检索方法
CN111191011A (zh) 一种文本标签的搜索匹配方法、装置、设备及存储介质
CN111191049B (zh) 信息推送方法、装置、计算机设备和存储介质
CN111159331B (zh) 文本的查询方法、文本查询装置以及计算机存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant