CN116186203A - 文本检索方法、装置、计算设备及计算机存储介质 - Google Patents
文本检索方法、装置、计算设备及计算机存储介质 Download PDFInfo
- Publication number
- CN116186203A CN116186203A CN202310225088.6A CN202310225088A CN116186203A CN 116186203 A CN116186203 A CN 116186203A CN 202310225088 A CN202310225088 A CN 202310225088A CN 116186203 A CN116186203 A CN 116186203A
- Authority
- CN
- China
- Prior art keywords
- word
- text
- distance
- current
- score
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种文本检索方法、装置、计算设备及计算机存储介质,其中方法包括:对用户输入的检索语句进行分词以获得多个词语;计算检索语句与文本库中的各个文本的相似度得分,对各个文本进行第一次排序,根据第一次排序结果获得多个目标文本;针对任一目标文本中的任一当前词语,查找该目标文本中当前词语的下一词语,根据当前词语与下一词语的距离分别计算当前词语和下一词语的距离累计得分;以及,根据目标文本中各个词语的距离累计得分计算该目标文本相对于检索语句的邻近度得分;对多个目标文本进行第二次排序,将第二次排序后的多个目标文本返回给用户。本方法能够使检索结果尽可能覆盖所有的查询片段,并且实现与检索语句的语义一致性。
Description
技术领域
本发明涉及一种文本检索方法,具体涉及一种文本检索方法、装置、计算设备及计算机存储介质。
背景技术
信息检索是用户进行信息查询和获取的重要形式,在互联网、通信、多媒体等领域有着重要的应用。现有的信息检索在文本检索上有着很多成熟的应用,常用的软件包括Elasticsearch、Solr、Lucene等。这些软件依托文本相似度算法进行文本的召回与排序,能够在文档集(doc)中找到与检索语句(query)相近的结果,但一般采用词袋模型,对命中query的范围没有约束。
在长句查询或多片段查询场景下,现有的检索方法易出现查询主题偏移、语义缺失等问题导致检索结果不理想。例如多片段查询,其搜索结果往往会倾向于将权重因子大的查询词语命中查询前置,导致检索结果不够全面,由于没有上下文约束,无法保证检索结果与查询片段的语义一致性。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的文本检索方法、装置、计算设备及计算机存储介质。
根据本发明的一个方面,提供了一种文本检索方法,包括:
对用户输入的检索语句进行分词,以获得多个词语;
利用文本相似度算法,计算检索语句与文本库中的各个文本的相似度得分,根据相似度得分对各个文本进行第一次排序,根据第一次排序结果获得多个目标文本;
针对任一目标文本中的任一当前词语,查找该目标文本中当前词语的下一词语,根据当前词语与下一词语的距离,分别计算当前词语和下一词语的距离累计得分,其中当前词语和下一词语都属于多个词语;以及,根据目标文本中各个词语的距离累计得分计算该目标文本相对于检索语句的邻近度得分;
基于相似度得分和邻近度得分,对多个目标文本进行第二次排序;以及
将第二次排序后的多个目标文本返回给用户。
可选地,针对任一目标文本中的任一当前词语,查找该目标文本中当前词语的下一词语,根据当前词语与下一词语的距离,分别计算当前词语和下一词语的距离累计得分进一步包括:
获取多个词语在一个目标文本中的位置;
根据当前词语的位置,查找该目标文本中当前词语的下一词语;
获取当前词语和下一词语的距离;
将经过倒数运算的距离与下一词语的自身权重相乘,以获得当前词语与下一词语的距离得分,以及,将经过倒数运算的距离与当前词语的自身权重相乘,以获得下一词语与当前词语的距离得分;
累计所有位置的当前词语的距离得分,以获得当前词语的距离累计得分。
可选地,根据目标文本中各个词语的距离累计得分计算该目标文本相对于检索语句的邻近度得分进一步包括:
使用目标文本中各个词语的距离累计得分以及与各个词语相关的提升系数进行邻近度计算,从而获取该目标文本相对于检索语句的邻近度得分,其中对于在各个位置的当前词语,如果下述情况出现的次数越多:当前词语和下一词语在一个目标文本中的距离小于当前词语和下一词语在检索语句中的距离,则与当前词语和下一词语相关的各个提升系数都越大。
可选地,对于第一次排序后的多个目标文本中的每一目标文本,累计多个词语中的每个词语在排序更靠前的目标文本中的出现次数,累计出现次数越多,则该词语的自身权重越低。
可选地,在针对任一目标文本中的任一当前词语,查找该目标文本中当前词语的下一词语之前,该方法还包括:选择第一次排序后排序靠前的特定数量的目标文本作为多个目标文本。
可选地,检索语句与文本库中的各个文本的相似度得分是通过BM25算法获取的。
可选地,邻近度计算采用以下公式:
根据本发明的另一方面,提供一种文本检索装置,该装置包括:
分词模块,适于对用户输入的检索语句进行分词,以获得多个词语;
第一排序模块,适于利用文本相似度算法,计算检索语句与文本库中的各个文本的相似度得分,根据相似度得分对各个文本进行第一次排序,根据第一次排序结果获得多个目标文本;
计算模块,适于针对任一目标文本中的任一当前词语,查找该目标文本中当前词语的下一词语,根据当前词语与下一词语的距离,分别计算当前词语和下一词语的距离累计得分,其中当前词语和下一词语都属于多个词语;以及,根据目标文本中各个词语的距离累计得分计算该目标文本相对于检索语句的邻近度得分;
第二排序模块,适于基于相似度得分和邻近度得分,对多个目标文本进行第二次排序;以及
返回模块,适于将第二次排序后的多个目标文本返回给用户。
可选地,计算模块进一步适于:
获取多个词语在一个目标文本中的位置;
根据当前词语的位置,查找该目标文本中当前词语的下一词语;
获取当前词语和下一词语的距离;
将经过倒数运算的距离与下一词语的自身权重相乘,以获得当前词语与下一词语的距离得分,以及,将经过倒数运算的距离与当前词语的自身权重相乘,以获得下一词语与当前词语的距离得分;
累计所有位置的当前词语的距离得分,以获得当前词语的距离累计得分。
可选地,计算模块进一步适于:
使用目标文本中各个词语的距离累计得分以及与各个词语相关的提升系数进行邻近度计算,从而获取该目标文本相对于检索语句的邻近度得分,其中对于在各个位置的当前词语,如果下述情况出现的次数越多:当前词语和下一词语在一个目标文本中的距离小于当前词语和下一词语在检索语句中的距离,则与当前词语和下一词语相关的各个提升系数都越大。
可选地,对于第一次排序后的多个目标文本中的每一目标文本,累计多个词语中的每个词语在排序更靠前的目标文本中的出现次数,累计出现次数越多,则该词语的自身权重越低。
可选地,在针对任一目标文本中的任一当前词语,查找该目标文本中当前词语的下一词语之前,计算模块适于:选择第一次排序后排序靠前的特定数量的目标文本作为多个目标文本。
可选地,检索语句与文本库中的各个文本的相似度得分是通过BM25算法获取的。
可选地,邻近度计算采用以下公式:
根据本发明的又一方面,提供了一种计算设备,包括:处理器、存储器、通信接口和通信总线,处理器、存储器和通信接口通过通信总线完成相互间的通信;
存储器用于存放至少一可执行指令,可执行指令使处理器执行上述文本检索方法对应的操作。
根据本发明的再一方面,提供了一种计算机存储介质,存储介质中存储有至少一可执行指令,可执行指令使处理器执行如上述文本检索方法对应的操作。
根据本发明的文本检索方法、装置、计算设备及计算机存储介质,对用户输入的检索语句进行分词,以获得多个词语;利用文本相似度算法,计算检索语句与文本库中的各个文本的相似度得分,根据相似度得分对各个文本进行第一次排序,根据第一次排序结果获得多个目标文本;针对任一目标文本中的任一当前词语,查找该目标文本中当前词语的下一词语,根据当前词语与下一词语的距离,分别计算当前词语和下一词语的距离累计得分,其中当前词语和下一词语都属于多个词语;以及,根据目标文本中各个词语的距离累计得分计算该目标文本相对于检索语句的邻近度得分;基于相似度得分和邻近度得分,对多个目标文本进行第二次排序;以及将第二次排序后的多个目标文本返回给用户。基于本发明的文本检索方法,通过计算检索语句中各个词语之间的邻近度,提高了词语邻近性的权重,使得检索结果中的相似文本变少,有效地提高了检索效果。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了根据本发明一个实施例的文本检索方法的流程示意图;
图2示出了根据本发明实施例的文本检索方法的一个示例的流程图;
图3示出了根据本发明一个实施例的文本检索装置的结构示意图;以及
图4示出了根据本发明一个实施例的一种计算设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例,然而应当理解,可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本发明,并且能够将本发明的范围完整的传达给本领域的技术人员。
图1示出了根据本发明一个实施例的文本检索方法的流程示意图,如图1所示,该方法包括以下步骤:
步骤S101,对用户输入的检索语句进行分词,以获得多个词语。
具体地,对用户输入的检索语句进行分词,将检索语句划分为一个个独立的词语,以获取多个词语,例如检索语句为“地球围绕太阳转”,则可将检索语句分为独立的四个词语“地球”、“围绕”、“太阳”和“转”,词语的具体划分形式不做限制,可根据检索语句的长短灵活设置。
步骤S102,利用文本相似度算法,计算检索语句与文本库中的各个文本的相似度得分,根据相似度得分对各个文本进行第一次排序,根据第一次排序结果获得多个目标文本。
本实施例采用文本相似度算法可以为TF-IDF算法(Term Frequency-InverseDocument Frequency,词频-逆文本频率)、BM25算法(Best Match 25),也可以使用现有技术中的其他文本相似度算法,在此不做限制。
具体地,以计算检索语句“地球围绕太阳转”相对于文本1的相似度得分为例。首先获取步骤S101中获得的多个词语的自身权重,如将检索语句“地球围绕太阳转”划分为词语“地球”、“围绕”、“太阳”和“转”后,先分别获取词语“地球”、“围绕”、“太阳”和“转”的自身权重,然后分别计算词语“地球”、“围绕”、“太阳”和“转”相对于文本1的相关性(本实施例中采用的是逆文本频率法,也可采用其他算法,在此不做限制),并将词语“地球”的权重、词语“地球”相对于文本1的相关性相乘以获取词语“地球”与文本1的第一相似度得分,然后依次获取词语“围绕”与文本1的第一相似度得分、词语“太阳”与文本1的第一相似度得分和词语“转”与文本1的第一相似度得分,将上述四个词语与文本1的第一相似度得分加和,获取检索语句“地球围绕太阳转”与文本1的第一相似度得分;按照上述方法依次获取检索语句“地球围绕太阳转”与文本2、文本3、文本4……的第一相似度得分,并根据各个文本的第一相似度得分的分值,对各个文本进行排序,第一相似度得分越高的文本,排序越靠前。
步骤S103,针对任一目标文本中的任一当前词语,查找该目标文本中当前词语的下一词语,根据当前词语与下一词语的距离,分别计算当前词语和下一词语的距离累计得分,其中当前词语和下一词语都属于多个词语;以及,根据目标文本中各个词语的距离累计得分计算该目标文本相对于检索语句的邻近度得分。
例如,确定文本1为目标文本,基于检索语句“地球围绕太阳转”文本1中检索到的语句为“地球属于太阳系”。由步骤S101可知,检索语句可划分为“地球、围绕、太阳、转”等多个词语,文本1中检索到的语句可划分为“地球、属于、太阳、系”,两者中顿号表示分词的间隔。将文本1中的“地球”确定为当前词语,由于“地球”的下一词语“属于”不是检索语句中划分的多个词语中的一个,因此跳过,继续扫描,“太阳”是检索语句中划分的多个词语中的一个,因此计算文本1中的“地球”“太阳”的距离累积得分;继续扫描寻找当前词语,词语“属于”不是检索语句中划分的多个词语中的一个,因此跳过,继续扫描,词语“太阳”是检索语句中划分的多个词语中的一个,将文本1中的“太阳”确定为当前词语,“太阳”的下一词语“系”不是检索语句中划分的多个词语中的一个,因此跳过,距离累计得分计算结束。根据在文本1中各个词语的距离累计得分之和(在本实施例中只有词语“地球”“太阳”的距离累计得分)获取文本1相对于检索语句的邻近度得分。通过计算邻近度得分,考虑了检索语句中的词语位置、顺序对检索结果的影响,可有效避免词袋模型的缺点,提高检索文本与检索语句语义的一致性,可谓用户提供相似度更高、更多样化的检索结果。
步骤S104,基于相似度得分和邻近度得分,对多个目标文本进行第二次排序。
根据步骤S102获取的各个文本相对于检索语句的相似度得分、步骤S103获取的各个文本相对于检索语句的邻近度得分,获取各个文本相对于检索语句的最终相似度得分,根据最终相似度得分对目标文本进行重新排序。
步骤S105,将第二次排序后的多个目标文本返回给用户。
在一种可选的实施方式中,针对任一目标文本中的任一当前词语,查找该目标文本中当前词语的下一词语,根据当前词语与下一词语的距离,分别计算当前词语和下一词语的距离累计得分可包括:获取多个词语在一个目标文本中的位置;根据当前词语的位置,查找该目标文本中当前词语的下一词语;获取当前词语和所述下一词语的距离;将经过倒数运算的距离与下一词语的自身权重相乘,以获得当前词语与下一词语的距离得分,以及,将经过倒数运算的距离与当前词语的自身权重相乘,以获得下一词语与所述当前词语的距离得分;累计所有位置的所述当前词语的距离得分,以获得当前词语的距离累计得分。
在一种可选的实施方式中,根据目标文本中各个词语的距离累计得分计算该目标文本相对于检索语句的邻近度得分可包括:使用目标文本中各个词语的距离累计得分以及与各个词语相关的提升系数进行邻近度计算,从而获取该目标文本相对于检索语句的邻近度得分,其中对于在各个位置的当前词语,如果下述情况出现的次数越多:当前词语和下一词语在一个目标文本中的距离小于当前词语和下一词语在检索语句中的距离,则与当前词语和下一词语相关的各个提升系数都越大。在本实施例中的词语的提升系数可直观地体现检索文本中的各个词语的距离与检索语句中各个词语的距离之间的量化关系,基于提升系数计算词语之间的邻近度,可显著提高查询结果的语义相似性,有效地提高了检索效率。
在一种可选的实施方式中,基于第一相似度得分对文本进行排序时,选择排序后排序靠前的特定数量的目标文本作为下次排序的多个目标文本。下次排序的多个目标文本的数量可根据获取的第一相似度得分的目标文本的数量、用户检索需求灵活设置。通过选择排序后排序靠前的特定数量的目标文本作为下次排序的多个目标文本,减少后续需计算、排序的文本数量,有效地提升了检索效率。
在一种可选的实施方式中,邻近度计算采用以下公式:
其中,acc(Ti)表示下一词语Ti_next相对于当前词语Ti的距离引起的当前词语Ti的距离累积得分,k1和K均为调节系数,是当前词语Ti的自身权重,boost(Ti)为提升系数,也可称为邻近度提升系数。
下面将以具体示例对本实施的文本检索方法进行详细说明。
图2示出了根据本发明一个实施例的文本检索方法的一个示例的流程图在本示例中,以检索语句为“火力发电利用热源很好”来进行说明。
首先对检索语句“火力发电利用热源很好”进行,得到多个独立的词语“火力”“发电”“利用”“热源”“很好”。其次获取上述词语本身的权重(wT),在本实施例中,“火力”“发电”“利用”“热源”“很好”的自身权重分别设置为0.5、0.7、0.2、0.4、0.1,采用逆文本频率分别计算词语“火力”“发电”“利用”“热源”“很好”与文本1(目标文本)的相关性(RT,d),词语“火力”“发电”“利用”“热源”“很好”本身的权重分别乘以其对应的与目标文本的相关性并进行加和获取文本1相对于检索语句的相似度得分,即依照上述方法依次获取文本2、文本3、文本4.....相对于检索语句的相似度得分,根据各个文本的相似度得分的分值,对各个文本进行排序,得分越高的文本排序越靠前。RT,d的计算方式不同形成不同的算法,在Elasticsearch、Lucene等软件中已经实现了BM25算法,其具有计算速度快,存储容量小等优点,在文本集非常大时,该算法依然有很大优势。
从上述排序后的文本中筛选出前N个,对N个筛选出的文本进行词语邻近度得分计算,N的数值可根据用户需求、文本数量灵活设置。在考虑BM25计算的文本的相似度得分的基础上,同时计算词语邻近性和顺序的作用,累加到文本的相似度得分中,总的计算公式为
ScoreBM25TP(D)=ScoreBM25(D)+Scoren(Ti)
其中,ScoreBM25(D)表示文本相对于检索语句的相似度得分,表示下一词语i_next相对于当前词语i的距离给i带来的累积得分,/>是当前词语i的自身权重,/>是下一词语i_next的自身权重,k1和K是调节系数,boost(Ti)是提升系数。同样的,也要把这个距离得分累加到下一词语i_next上,即/>/>
具体地,获取检索语句中每个词语在目标文本中的位置信息,即对目标文本中包含的检索语句中的词语进行标记。假设在目标文本中的语句为“火力、发电、对、低品位、热源、的、利用、已经、足够、好了、要、充分、研究、火力、发电”,其中的顿号表示分词间隔。目标文本里词语位置和命中情况可用表1表示,其中Y表示目标文本中的词语与检索语句中的词语一致,即命中,N表示目标文本中的词语与检索语句中的词语不一致,即未命中。
表1
由表1可知,在目标文本中,位置1、2、5、7、14、15的词语与检索语句中的词语一致,被命中。在本实施例中,检索语句中的各个词语的acc(Ti)的初始值为0,boost(Ti)的初始值为1,如表2所示。
表2
词语 | acc(Ti) | boost(Ti) |
火力 | 0 | 1 |
发电 | 0 | 1 |
利用 | 0 | 1 |
热源 | 0 | 1 |
很好 | 0 | 1 |
然后,对目标文本中的出现的各个词语依次进行扫描,累加计算表2中的检索语句的各个词语的acc(Ti)和boost(Ti)。例如,由表1可知,在目标文本中命中第一个词语为位置1的“火力”(即当前词语),命中的下一个词语为位置2的“发电”(即下一词语),位置1的“火力”与位置2的“发电”的距离为1,因此acc(火力)=acc(火力)+w(发电)*(1-2),acc(发电)=acc(发电)+w(火力)*(1-2)。在检索语句中,词语“火力”与词语“发电”的距离(如果检索语句中存在多个词语“火力”或多个词语“发电”,取两个词语之间的最大距离)也为1,即两词语在目标文本中的距离等于其在检索语句中的距离,则boost(火力)和boost(发电)都增加1,则表2更新为表3。
表3
词语 | acc | boost | 注释 |
火力 | 0.7 | 2 | acc+0.7(1-2),boost+1 |
发电 | 0.5 | 2 | acc+0.5(1-2),boost+1 |
利用 | 0 | 1 | |
热源 | 0 | 1 | |
很好 | 0 | 1 |
继续扫描,当前计算到目标文本里位置2,词语为“发电”,下一个命中的词语为位置5的“热源”,acc(发电)=acc(发电)+w(热源)*(3-2),acc(热源)=acc(热源)+w(发电)*(3-2),在目标文本中词语“发电”与词语“热源”的距离为3,大于检索语句中词语“发电”与词语“热源”的距离1,因此词语“发电”与词语“热源”的boost值保持不变。表3更新为表4。
表4
词语 | acc | boost | 注释 |
火力 | 0.7 | 2 | |
发电 | 0.5444 | 2 | acc+0.4(3-2) |
利用 | 0 | 1 | |
热源 | 0.0777 | 1 | acc+0.7(3-2) |
很好 | 0 | 1 |
当计算到目标文本中位置3的“对”时,在检索语句中不存在对应词语,未命中,跳过。
当计算到目标文本中位置4的“低品质”时,在检索语句中不存在对应词语,未命中,跳过。
当计算到目标文本中位置5的“热源”时,下一个被命中的词语是位置7的“利用”,词语“热源”与词语“利用”在目标文本中的距离为2,大于检索语句中词语“热源”与词语“利用”的距离1,因此词语“热源”与词语“利用”的boost值保持不变。表4更新为表5。
表5
词语 | acc | boost | 注释 |
火力 | 0.7 | 2 | |
发电 | 0.5444 | 2 | |
利用 | 0.1 | 1 | acc+0.4(2-2) |
热源 | 0.1277 | 1 | acc+0.2(2-2) |
很好 | 0 | 1 |
当计算到目标文本中位置7的“利用”时,下一个被命中的词语是位置14的“火力”,词语“利用”与词语“火力”在目标文本中的距离为7,大于检索语句中词语“利用”与词语“火力”的距离2,因此词语“利用”与词语“火力”的boost值保持不变。表5更新为表6。
表6
词语 | acc | boost | 注释 |
火力 | 0.708 | 2 | acc+0.4(7-2) |
发电 | 0.5444 | 2 | |
利用 | 0.110 | 1 | acc+0.5(7-2) |
热源 | 0.1302 | 1 | |
很好 | 0 | 1 |
当计算到目标文本中位置14的“火力”时,下一个被命中的词语是位置15的“发电”,词语“火力”与词语“发电”在目标文本中的距离为1,等于检索语句中词语“火力”与词语“发电”的距离1,因此词语“火力”与词语“发电”的boost值都加1。表6更新为表7。
表7
词语 | acc | boost | 注释 |
火力 | 1.408 | 3 | acc+0.7(1-2),boost+1 |
发电 | 1.0444 | 3 | acc+0.5(1-2),boost+1 |
利用 | 0.110 | 1 | |
热源 | 0.1302 | 1 | |
很好 | 0 | 1 |
目标文本里位置1-位置15的15个词语全部扫描完毕,计算结束。将表7中各个词语的acc和boost进行累加,获得目标文本相对于检索语句的第二相似度得分。
在此算法中,目标文本中的词语之间的距离与检索语句中的词语之间的距离越靠近,词语邻近度得分越高,以此可以提升一些目标文本的分值,能有效避免词袋模型的缺点。基于相同的方法,获取剩余的N-1个目标文本的第二相似度得分,并根据第二相似度得分的分值对N个目标文本进行重新排序。
在上述公式计算中,由于检索语句中各个词语的权重一直保持不变,这会致使一些占据高权重的词语占据主导地位,使得包含这些词语的文本排序均靠前。对此,在本实施例中,按照重新排序的N个文本的顺序,对N个文本再次进行ScoreBM25TP(D)。在该计算中,将词语Ti的自身权重替换为/>其中,count(Ti)是词语Ti在文本中出现的次数,k2为调节系数。这使得词语Ti出现次数越多,其自身权重衰减越强烈,使得文本的最终相似度得分会变低,使另外一些包含其他词语的文本提升到前面。可有效降低检索结果的重复度,提升用户体验。
例如检索语句为“火力、发电、利用、热源、很好”,经过上述计算检索到的前三个文本分别为文本1、文本2和文本3,检索的文本1的与检索语句的相关词语为“火力、发电、很好”,检索的文本2与检索语句的相关词语为“火力、很好”,检索的文本3与检索语句的相关词语为“热源、利用”,在计算文本2的第二相似度得分时,“火力、很好”在文本1中已经出现过,因此可对词语“火力”“很好”自身权重进行衰减,使检索到的文本2的第二相似度得分相比之前有所降低,检索到的文本3的相关词语在文本1和文本2均没有出现过,则文本3的相关词语无需进行自身权重衰减,即文本3的第二相似度得分不变。因此,依赖于调节系数,新的排序结果可能为文本1、文本3、文本2,能有效避免相似的检索结果都聚集在一起的现象,为用户提供相似度更高、更多样化的检索结果。
基于本实施例的文本检索方法,引入了检索语句的词语之间的邻近度计算,可有效提高检索语句中词语的邻近性权重,有效地降低了检索结果中的相似文本,且可根据实际需要灵活确定需要二次排序、三次排序的文本数量,可显著提高查询结果的语义相似性,有效地提高了检索效率。
图3示出了根据本发明一个实施例的一种文本检索装置的功能结构示意图。如图3所示,该预测装置包括:分词模块310、第一排序模块320、计算模块330、第二排序模块340以及返回模块350。
分词模块310,适于对用户输入的检索语句进行分词,以获得多个词语;
第一排序模块320,适于利用文本相似度算法,计算检索语句与文本库中的各个文本的相似度得分,根据相似度得分对各个文本进行第一次排序,根据第一次排序结果获得多个目标文本;
计算模块330,适于针对任一目标文本中的任一当前词语,查找该目标文本中当前词语的下一词语,根据当前词语与下一词语的距离,分别计算当前词语和下一词语的距离累计得分,其中当前词语和下一词语都属于多个词语;以及,根据目标文本中各个词语的距离累计得分计算该目标文本相对于检索语句的邻近度得分;
第二排序模块340,适于基于相似度得分和邻近度得分,对多个目标文本进行第二次排序;以及
返回模块350,适于将第二次排序后的多个目标文本返回给用户。
在一种可选的实施方式中,计算模块330进一步适于:
获取多个词语在一个目标文本中的位置;
根据当前词语的位置,查找该目标文本中当前词语的下一词语;
获取当前词语和下一词语的距离;
将经过倒数运算的距离与下一词语的自身权重相乘,以获得当前词语与下一词语的距离得分,以及,将经过倒数运算的距离与当前词语的自身权重相乘,以获得下一词语与当前词语的距离得分;
累计所有位置的当前词语的距离得分,以获得当前词语的距离累计得分。
在一种可选的实施方式中,计算模块330进一步适于:
使用目标文本中各个词语的距离累计得分以及与各个词语相关的提升系数进行邻近度计算,从而获取该目标文本相对于检索语句的邻近度得分,其中对于在各个位置的当前词语,如果下述情况出现的次数越多:当前词语和下一词语在一个目标文本中的距离小于当前词语和下一词语在检索语句中的距离,则与当前词语和下一词语相关的各个提升系数都越大。
在一种可选的实施方式中,对于第一次排序后的多个目标文本中的每一目标文本,累计多个词语中的每个词语在排序更靠前的目标文本中的出现次数,累计出现次数越多,则该词语的自身权重越低。
在一种可选的实施方式中,在针对任一目标文本中的任一当前词语,查找该目标文本中当前词语的下一词语之前,计算模块330适于:选择第一次排序后排序靠前的特定数量的目标文本作为多个目标文本。
在一种可选的实施方式中,检索语句与文本库中的各个文本的相似度得分是通过BM25算法获取的。
在一种可选的实施方式中,邻近度计算采用以下公式:
由此可见,根据本实施例的文本检索装置,引入了检索语句的词语之间的邻近度计算,可有效提高检索语句中词语的邻近性权重,有效地降低了检索结果中的相似文本,且可根据实际需要灵活确定需要二次排序、三次排序的文本数量,可显著提高查询结果的语义相似性,有效地提高了检索效率。
本发明实施例提供了一种非易失性计算机存储介质,计算机存储介质存储有至少一可执行指令,该计算机可执行指令可执行上述任意方法实施例中的文本检索方法。
图4示出了根据本发明实施例的一种计算设备的结构示意图,本发明具体实施例并不对计算设备的具体实现做限定。
如图4所示,该计算设备可以包括:处理器(processor)402、通信接口(Communications Interface)404、存储器(memory)406、以及通信总线408。
其中:处理器402、通信接口404、以及存储器406通过通信总线408完成相互间的通信。通信接口404,用于与其它设备比如客户端或其它服务器等的网元通信。处理器402,用于执行程序410,具体可以执行上述方法实施例中的相关步骤。
具体地,程序410可以包括程序代码,该程序代码包括计算机操作指令。
处理器402可能是中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路。计算设备包括的一个或多个处理器,可以是同一类型的处理器,如一个或多个CPU;也可以是不同类型的处理器,如一个或多个CPU以及一个或多个ASIC。
存储器406,用于存放程序410。存储器406可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
程序410具体可以用于使得处理器402执行上述任意方法实施例中的文本检索方法。程序410中各步骤的具体实现可以参见上述文本检索方法实施例中的相应步骤和单元中对应的描述,在此不赘述。所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的设备和模块的具体工作过程,可以参考前述方法实施例中的对应过程描述,在此不再赘述。
在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本申请实施例也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本申请实施例的内容,并且上面对特定语言所做的描述是为了披露本申请实施例的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本申请实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本申请实施例的示例性实施例的描述中,本申请实施例的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本申请实施例要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本申请实施例的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本申请实施例的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本申请实施例的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本申请实施例中的一些或者全部部件的一些或者全部功能。本申请实施例还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本申请实施例的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本申请实施例进行说明而不是对本申请实施例进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本申请实施例可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
Claims (10)
1.一种文本检索方法,其特征在于,包括:
对用户输入的检索语句进行分词,以获得多个词语;
利用文本相似度算法,计算所述检索语句与文本库中的各个文本的相似度得分,根据所述相似度得分对各个文本进行第一次排序,根据第一次排序结果获得多个目标文本;
针对任一目标文本中的任一当前词语,查找该目标文本中当前词语的下一词语,根据当前词语与下一词语的距离,分别计算当前词语和下一词语的距离累计得分,其中所述当前词语和所述下一词语都属于所述多个词语;以及,根据目标文本中各个词语的距离累计得分计算该目标文本相对于所述检索语句的邻近度得分;
基于所述相似度得分和所述邻近度得分,对所述多个目标文本进行第二次排序;以及
将第二次排序后的多个目标文本返回给用户。
2.根据权利要求1所述的方法,其特征在于,针对任一目标文本中的任一当前词语,查找该目标文本中当前词语的下一词语,根据当前词语与下一词语的距离,分别计算当前词语和下一词语的距离累计得分进一步包括:
获取所述多个词语在一个目标文本中的位置;
根据所述当前词语的位置,查找该目标文本中当前词语的下一词语;
获取所述当前词语和所述下一词语的距离;
将经过倒数运算的所述距离与所述下一词语的自身权重相乘,以获得所述当前词语与所述下一词语的距离得分,以及,将经过倒数运算的所述距离与所述当前词语的自身权重相乘,以获得所述下一词语与所述当前词语的距离得分;
累计所有位置的所述当前词语的距离得分,以获得所述当前词语的距离累计得分。
3.根据权利要求2所述的方法,其特征在于,根据目标文本中各个词语的距离累计得分计算该目标文本相对于所述检索语句的邻近度得分进一步包括:
使用目标文本中各个词语的距离累计得分以及与各个词语相关的提升系数进行邻近度计算,从而获取该目标文本相对于所述检索语句的邻近度得分,其中对于在各个位置的所述当前词语,如果下述情况出现的次数越多:所述当前词语和所述下一词语在一个目标文本中的距离小于所述当前词语和所述下一词语在检索语句中的距离,则与所述当前词语和所述下一词语相关的各个提升系数都越大。
4.根据权利要求2或3所述的方法,其特征在于,所述方法还包括:
对于第一次排序后的所述多个目标文本中的每一目标文本,累计所述多个词语中的每个词语在排序更靠前的目标文本中的出现次数,累计出现次数越多,则该词语的自身权重越低。
5.根据权利要求1-3中任意所述的方法,其特征在于,在针对任一目标文本中的任一当前词语,查找该目标文本中当前词语的下一词语之前,所述方法还包括:
选择第一次排序后排序靠前的特定数量的目标文本作为所述多个目标文本。
6.根据权利要求1-3所述的方法,其特征在于,所述检索语句与文本库中的各个文本的相似度得分是通过BM25算法获取的。
8.一种文本检索装置,其特征在于,所述装置包括:
分词模块,适于对用户输入的检索语句进行分词,以获得多个词语;
第一排序模块,适于利用文本相似度算法,计算所述检索语句与文本库中的各个文本的相似度得分,根据所述相似度得分对各个文本进行第一次排序,根据第一次排序结果获得多个目标文本;
计算模块,适于针对任一目标文本中的任一当前词语,查找该目标文本中当前词语的下一词语,根据当前词语与下一词语的距离,分别计算当前词语和下一词语的距离累计得分,其中所述当前词语和所述下一词语都属于所述多个词语;以及,根据目标文本中各个词语的距离累计得分计算该目标文本相对于所述检索语句的邻近度得分;
第二排序模块,适于基于所述相似度得分和所述邻近度得分,对所述多个目标文本进行第二次排序;以及
返回模块,适于将第二次排序后的多个目标文本返回给用户。
9.一种计算设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如权利要求1-7中任一项所述的文本检索方法对应的操作。
10.一种计算机存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令使处理器执行如权利要求1-7中任一项所述的文本检索方法对应的操作。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310225088.6A CN116186203B (zh) | 2023-03-01 | 2023-03-01 | 文本检索方法、装置、计算设备及计算机存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310225088.6A CN116186203B (zh) | 2023-03-01 | 2023-03-01 | 文本检索方法、装置、计算设备及计算机存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116186203A true CN116186203A (zh) | 2023-05-30 |
CN116186203B CN116186203B (zh) | 2023-10-10 |
Family
ID=86438393
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310225088.6A Active CN116186203B (zh) | 2023-03-01 | 2023-03-01 | 文本检索方法、装置、计算设备及计算机存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116186203B (zh) |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060235843A1 (en) * | 2005-01-31 | 2006-10-19 | Textdigger, Inc. | Method and system for semantic search and retrieval of electronic documents |
US20110016117A1 (en) * | 2009-07-20 | 2011-01-20 | LexisNexis. | Fuzzy proximity boosting and influence kernels |
US20130080174A1 (en) * | 2011-09-22 | 2013-03-28 | Kabushiki Kaisha Toshiba | Retrieving device, retrieving method, and computer program product |
US8782041B1 (en) * | 2008-08-04 | 2014-07-15 | The Weather Channel, Llc | Text search for weather data |
CN110019668A (zh) * | 2017-10-31 | 2019-07-16 | 北京国双科技有限公司 | 一种文本检索方法及装置 |
CN110442777A (zh) * | 2019-06-24 | 2019-11-12 | 华中师范大学 | 基于bert的伪相关反馈模型信息检索方法及系统 |
CN114610796A (zh) * | 2022-03-23 | 2022-06-10 | 北京明略昭辉科技有限公司 | 文本相似度确定方法、装置、存储介质以及电子设备 |
CN114741489A (zh) * | 2022-03-23 | 2022-07-12 | 北京明略昭辉科技有限公司 | 文档检索方法、装置、存储介质以及电子设备 |
WO2022168247A1 (ja) * | 2021-02-05 | 2022-08-11 | 三菱電機株式会社 | 文書検索装置、文書検索方法、及び、文書検索プログラム |
US20220414131A1 (en) * | 2019-11-21 | 2022-12-29 | Chun Wai Michael KWONG | Text search method, device, server, and storage medium |
-
2023
- 2023-03-01 CN CN202310225088.6A patent/CN116186203B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060235843A1 (en) * | 2005-01-31 | 2006-10-19 | Textdigger, Inc. | Method and system for semantic search and retrieval of electronic documents |
US8782041B1 (en) * | 2008-08-04 | 2014-07-15 | The Weather Channel, Llc | Text search for weather data |
US20110016117A1 (en) * | 2009-07-20 | 2011-01-20 | LexisNexis. | Fuzzy proximity boosting and influence kernels |
US20130080174A1 (en) * | 2011-09-22 | 2013-03-28 | Kabushiki Kaisha Toshiba | Retrieving device, retrieving method, and computer program product |
CN110019668A (zh) * | 2017-10-31 | 2019-07-16 | 北京国双科技有限公司 | 一种文本检索方法及装置 |
CN110442777A (zh) * | 2019-06-24 | 2019-11-12 | 华中师范大学 | 基于bert的伪相关反馈模型信息检索方法及系统 |
US20220414131A1 (en) * | 2019-11-21 | 2022-12-29 | Chun Wai Michael KWONG | Text search method, device, server, and storage medium |
WO2022168247A1 (ja) * | 2021-02-05 | 2022-08-11 | 三菱電機株式会社 | 文書検索装置、文書検索方法、及び、文書検索プログラム |
CN114610796A (zh) * | 2022-03-23 | 2022-06-10 | 北京明略昭辉科技有限公司 | 文本相似度确定方法、装置、存储介质以及电子设备 |
CN114741489A (zh) * | 2022-03-23 | 2022-07-12 | 北京明略昭辉科技有限公司 | 文档检索方法、装置、存储介质以及电子设备 |
Non-Patent Citations (3)
Title |
---|
KATHRYN PATTERSON ET AL.: "Document Retrieval using Proximity-based Phrase Searching", PROCEEDINGS OF THE 41ST HAWAII INTERNATIONAL CONFERENCE ON SYSTEM SCIENCES, pages 1 - 8 * |
李宇;刘波;: "文档检索中文本片段化机制的研究", 计算机科学与探索, no. 04, pages 578 - 589 * |
龚小龙等: "结合邻近度的语义位置语言检索模型", 中文信息学报, pages 183 - 191 * |
Also Published As
Publication number | Publication date |
---|---|
CN116186203B (zh) | 2023-10-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8775410B2 (en) | Method for using dual indices to support query expansion, relevance/non-relevance models, blind/relevance feedback and an intelligent search interface | |
JP6266080B2 (ja) | 類似性スコアに基づきコンテンツアイテムと画像とのマッチングを評価する方法、およびシステム | |
JP4845420B2 (ja) | 情報の多様性および豊富さを向上させるよう検索結果のドキュメントを順位付ける方法およびシステム | |
JP5555327B2 (ja) | 検索結果生成方法および情報検索システム | |
US6112203A (en) | Method for ranking documents in a hyperlinked environment using connectivity and selective content analysis | |
US20080082486A1 (en) | Platform for user discovery experience | |
US20140172847A1 (en) | Systems and methods for providing culturally-relevant search results to users | |
EP2631815A1 (en) | Method and device for ordering search results, method and device for providing information | |
JP2009525520A (ja) | 検索結果リストにおける電子文書を関連性に基づきランク付けおよびソートする評価方法、およびデータベース検索エンジン | |
CN112000783B (zh) | 基于文本相似性分析的专利推荐方法、装置、设备及存储介质 | |
CN107844493B (zh) | 一种文件关联方法及系统 | |
JP2002215659A (ja) | 情報検索支援方法および情報検索支援システム | |
WO2015035401A1 (en) | Automated discovery using textual analysis | |
CN112740202A (zh) | 使用内容标签执行图像搜索 | |
Huang et al. | Improving the relevancy of document search using the multi-term adjacency keyword-order model | |
CN116186203B (zh) | 文本检索方法、装置、计算设备及计算机存储介质 | |
CN108509449B (zh) | 一种信息处理的方法及服务器 | |
JP2012104051A (ja) | 文書インデックス作成装置 | |
CN110147424B (zh) | 一种Top-k组合空间关键字查询方法和系统 | |
JP5411802B2 (ja) | 代表語抽出装置、代表語抽出方法および代表語抽出プログラム | |
CN112199461A (zh) | 基于块索引结构的文档检索方法、装置、介质和设备 | |
CN106372089B (zh) | 确定词语位置的方法及装置 | |
Ramya et al. | Automatic extraction of facets for user queries [AEFUQ] | |
JP2013156876A (ja) | 推薦クエリ抽出装置及び方法及びプログラム | |
Kathuria et al. | Context indexing in search engine using binary search tree |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |