CN114780491A

CN114780491A - 文件检索方法及装置

Info

Publication number: CN114780491A
Application number: CN202210527492.4A
Authority: CN
Inventors: 郝磊
Original assignee: Bank of China Ltd
Current assignee: Bank of China Ltd
Priority date: 2022-05-16
Filing date: 2022-05-16
Publication date: 2022-07-22

Abstract

本发明公开了一种文件检索方法及装置，涉及大数据技术领域，其中该方法包括：对用户输入的检索语句进行语法分割，得到多个检索词汇；针对每一检索词汇，从文件库中检索包含该检索词汇的文件；根据每一检索词汇的待选文件的数量，计算每一检索词汇的文件数量权重；根据每一检索词汇的词性和预先设置多个词性对应的权重，确定每一检索词汇的语法权重；计算检索词汇在待选文件中的词汇权重和文本版块权重；将词汇权重、文本版块权重、文件数量权重和语法权重相乘，得到待选文件的权重值；对待选文件进行降序排列；将排序靠前的预设数目的待选文件作为检索结果。本发明可以在降低文件检索成本的同时，提高检索结果的准确性和检索效率。

Description

文件检索方法及装置

技术领域

本发明涉及大数据技术领域，尤其涉及一种文件检索方法及装置。

背景技术

本部分旨在为权利要求书中陈述的本发明实施例提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。

随着电子化数据的爆炸式增长，应用程序或者网页服务需要检索的文件数量也呈现几何式增长，而文件检索的效率受制于算法模型和硬件处理速度两个维度。当硬件相对固定时，计算模型就能体现出效率优化的巨大优势。

现有的文件检索方法，一般检索结果的准确性较低，检索效率较低；为了提高文件检索效率以及检索结果的准确性，可以使用机器学习模型或大规模的统计学模型，但是，该方法需要大量的用户行为数据进行模型训练，其成本较高，普适性较差。

发明内容

本发明实施例提供一种文件检索方法，用以在降低文件检索成本的同时，提高检索结果的准确性和检索效率，该方法包括：

对用户输入的检索语句进行语法分割，得到多个检索词汇；

针对每一检索词汇，从文件库中检索包含该检索词汇的文件，作为每一检索词汇的待选文件，所述文件库中包括多个文件；

根据每一检索词汇的待选文件的数量，计算每一检索词汇的文件数量权重；

根据每一检索词汇的词性和预先设置多个词性对应的权重，确定每一检索词汇的语法权重，所述语法权重用于指示检索词汇的词性在检索语句中所占的比重；

针对每一检索词汇的每一待选文件，执行如下操作：计算检索词汇在待选文件中的词汇权重和文本版块权重；将词汇权重、文本版块权重、检索词汇的文件数量权重和检索词汇的语法权重相乘，得到待选文件的权重值；所述词汇权重用于指示检索词汇在待选文件的词汇总数量中所占的比重；所述文本版块权重用于指示检索词汇出现在待选文件的不同位置所占的比重；

根据待选文件的权重值，对待选文件进行降序排列；

将排序靠前的预设数目的待选文件作为检索结果。

本发明实施例还提供一种文件检索装置，用以在降低文件检索成本的同时，提高检索结果的准确性和检索效率，该装置包括：

语法分割模块，用于对用户输入的检索语句进行语法分割，得到多个检索词汇；

文件确定模块，用于针对每一检索词汇，从文件库中检索包含该检索词汇的文件，作为每一检索词汇的待选文件，所述文件库中包括多个文件；

文件数量权重计算模块，用于根据每一检索词汇的待选文件的数量，计算每一检索词汇的文件数量权重；

语法权重确定模块，用于根据每一检索词汇的词性和预先设置多个词性对应的权重，确定每一检索词汇的语法权重，所述语法权重用于指示检索词汇的词性在检索语句中所占的比重；

文件权重计算模块，用于针对每一检索词汇的每一待选文件，执行如下操作：计算检索词汇在待选文件中的词汇权重和文本版块权重；将词汇权重、文本版块权重、检索词汇的文件数量权重和检索词汇的语法权重相乘，得到待选文件的权重值；所述词汇权重用于指示检索词汇在待选文件的词汇总数量中所占的比重；所述文本版块权重用于指示检索词汇出现在待选文件的不同位置所占的比重；

排序模块，用于根据待选文件的权重值，对待选文件进行降序排列；

结果确定模块，用于将排序靠前的预设数目的待选文件作为检索结果。

本发明实施例还提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述文件检索方法。

本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述文件检索方法。

本发明实施例还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，所述计算机程序被处理器执行时实现上述文件检索方法。

本发明实施例中，对用户输入的检索语句进行语法分割，得到多个检索词汇；针对每一检索词汇，从文件库中检索包含该检索词汇的文件，作为每一检索词汇的待选文件，所述文件库中包括多个文件；根据每一检索词汇的待选文件的数量，计算每一检索词汇的文件数量权重；根据每一检索词汇的词性和预先设置多个词性对应的权重，确定每一检索词汇的语法权重，所述语法权重用于指示检索词汇的词性在检索语句中所占的比重；针对每一检索词汇的每一待选文件，执行如下操作：计算检索词汇在待选文件中的词汇权重和文本版块权重；将词汇权重、文本版块权重、检索词汇的文件数量权重和检索词汇的语法权重相乘，得到待选文件的权重值；所述词汇权重用于指示检索词汇在待选文件的词汇总数量中所占的比重；所述文本版块权重用于指示检索词汇出现在待选文件的不同位置所占的比重；根据待选文件的权重值，对待选文件进行降序排列；将排序靠前的预设数目的待选文件作为检索结果。与现有的依赖于机器学习模型或大规模的统计学模型进行文件检索的技术方案相比，通过对检索语句分割后的词汇的词汇权重、文本版块权重、文件数量权重和语法权重进行计算，不依赖于机器学习和统计模型，即可以多方位呈现出科学合理的检索结果，在降低文件检索成本的同时，提高检索结果的准确性和检索效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1为本发明实施例中提供的一种文件检索方法的流程图；

图2为本发明实施例中提供的一种文件检索方法的原理图；

图3为本发明实施例中提供的一种语法权重计算方法的流程图；

图4为本发明实施例中提供的一种文件检索装置的示意图；

图5为本发明实施例中计算机设备的示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚明白，下面结合附图对本发明实施例做进一步详细说明。在此，本发明的示意性实施例及其说明用于解释本发明，但并不作为对本发明的限定。

在本说明书的描述中，所使用的“包含”、“包括”、“具有”、“含有”等，均为开放性的用语，即意指包含但不限于。参考术语“一个实施例”、“一个具体实施例”、“一些实施例”、“例如”等的描述意指结合该实施例或示例描述的具体特征、结构或者特点包含于本申请的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。各实施例中涉及的步骤顺序用于示意性说明本申请的实施，其中的步骤顺序不作限定，可根据需要作适当调整。

经研究发现，现有的文件检索方案，检索的维度相对狭窄，对检索语句与文件库文件的关联性，以及检索的侧重点缺乏有效的认定，导致检索效率和检索结果的准确性降低；而使用机器学习模型或大规模的统计学模型，又存在训练成本高，普适性较差等问题。

因此，本发明实施例提供了一种文件检索方案，可以在降低成本的同时，提高检索效率以及检索结果的准确性。

如图1所示，为本发明实施例提供的一种文本检索方法的流程图，该方法包括以下步骤：

步骤101，对用户输入的检索语句进行语法分割，得到多个检索词汇；

步骤102，针对每一检索词汇，从文件库中检索包含该检索词汇的文件，作为每一检索词汇的待选文件，所述文件库中包括多个文件；

步骤103，根据每一检索词汇的待选文件的数量，计算每一检索词汇的文件数量权重；

步骤104，根据每一检索词汇的词性和预先设置多个词性对应的权重，确定每一检索词汇的语法权重，所述语法权重用于指示检索词汇的词性在检索语句中所占的比重；

步骤105，针对每一检索词汇的每一待选文件，执行如下操作：计算检索词汇在待选文件中的词汇权重和文本版块权重；将词汇权重、文本版块权重、检索词汇的文件数量权重和检索词汇的语法权重相乘，得到待选文件的权重值；所述词汇权重用于指示检索词汇在待选文件的词汇总数量中所占的比重；所述文本版块权重用于指示检索词汇出现在待选文件的不同位置所占的比重；

步骤106，根据每一待选文件的权重值，对待选文件进行降序排列；

步骤107，将排序靠前的预设数目的待选文件作为检索结果。

图2为本发明实施例提供的一种文件检索方法的原理图。下面结合图2对图1所示的文件检索方法进行详细介绍。

在上述步骤101中，图2中的检索模型在接收到用户输入的检索语句时，可以根据语法对检索语句进行分割，得到多个检索词汇。

在上述步骤102中，可以针对每一检索词汇，从文件库中检索包含该检索词汇的文件，作为每一检索词汇的待选文件。

例如，检索语句为“好玩的景区”，经语法分割后，可以得到“好玩的”、“景区”两个检索词汇。可以分别从文件库中检索包含“好玩的”的文件，以及包含“景区”的文件。

在上述步骤103中，针对上述检索出的每一检索词汇的待选文件数量，计算每一检索词汇的文件数量权重。

其中，上述文件数量权重为每一检索词汇的待选文件的数量与文件库中的总文件数量的比值。

例如，文件库的文件总数量为m，检索后得到包含检索词汇a的文件数量为k，则检索词汇a的文件数量权重为k/m。

在上述步骤104中，检索词汇的词性对检索结果的准确性也存在一定程度的影响，因此，可以由开发人员或者使用者为不同的词性设置不同的权重。

例如，设置形容词、名词和动词的权重比例为4:4:2。将每一个检索词汇的词性和预先设置多个词性对应的权重进行匹配，进而可以得到每一个检索词汇的语法权重，例如，检索词汇为形容词，对应的语法权重为4；检索词汇为名词，对应的语法权重为4；检索词汇为动词，对应的语法权重为2。

本发明实施例中，若开发人员或者使用者没有预先设置多个词性对应的权重，可以通过以下方法确定每一检索词汇的语法权重：根据每一类词性的检索词汇的数量，确定每一检索词汇的语法权重。

具体的，可以根据语句分割的词汇的数量确定检索词汇的语法权重。例如，多个检索词汇中包括2个名词和1个动词，那么名词和动词的权重比值可以为2:1，即检索词汇为名词，语法权重为2；检索词汇为动词，语法权重为1。

另外，在文件检索时，同一词汇在不同的检索语句中的语义也可能不同，因此，根据检索语句的语义，动词，名词或形容词的侧重将会不同。

本发明实施例中，可以先对检索语句的检索倾向性进行分析，再结合预先设置的多个词性的权重，确定每一检索词汇的语法权重，如图3所示，具体可以包括以下步骤：

步骤301，基于预设的语句侧重性分析算法，确定每一检索词汇的第一词性权重；所述语句侧重性分析算法用于指示对检索语句的检索倾向性进行分析；

步骤302，根据预先设置多个词性对应的权重，确定每一检索词汇的第二词性权重；

步骤303，将每一检索词汇的第一词性权重和第二词性权重相乘，得到每一检索词汇的语法权重。

其中，语句侧重性分析算法是用于辅助计算检索词汇的语法权重的。

例如，检索语句“好玩的景区”，根据语句侧重性分析算法分析得出“好玩的”权重与“景区”权重比值为3：1，即可以理解为检索词汇“好玩的”的第一词性权重为3，“景区”的第一词性权重为1；根据预先设置多个词性对应的权重(如形容词与名词的权重比值为1:2)或根据每一类词性的检索词汇的数量(如形容词与名词的数量比值为1:2)，即可以理解为检索词汇“好玩的”的第二词性权重为1，“景区”的第二词性权重为2；那么，将每一检索词汇的第一词性权重和第二词性权重相乘，得到“好玩的”的语法权重为3，“景区”的语法权重为2。

这样，通过语句侧重性分析算法对检索语句的检索倾向性进行分析，再结合预先设置的多个词性的权重或者是每一类检索词汇的数量，确定每一检索词汇的语法权重，可以更加准确地确定用户的意图，进而更准确地检索出符合用户预期的文件，提高检索结果的准确性。

在上述步骤105中，可以针对每一检索词汇的每一待选文件，计算出每一个待选文件的权重值。

具体的，依次对每一待选文件进行如下操作：

计算检索词汇在待选文件中的词汇权重和文本版块权重；

将词汇权重、文本版块权重、检索词汇的文件数量权重和检索词汇的语法权重相乘，得到待选文件的权重值。

其中，上述词汇权重用于指示检索词汇在待选文件的词汇总数量中所占的比重，可以是每一检索词汇在每一待选文件中出现的次数与待选文件中的词汇总数量的比值。

例如，检索词汇a在待选文件A中共出现了i次，待选文件A的总词汇量为j，那么，检索词汇a在待选文件A中的词汇权重为i/j。

其中，上述文本版块权重用于指示检索词汇出现在待选文件的不同位置所占的比重。具体的，在一个待选文件中，不同的位置(或者不同的版块)的重要性不同，那么，检索词汇出现在待选文件的不同的位置的比重也不相同。如，文件的标题、简述和正文的比重可以是6：3：1。

本发明实施例中，上述计算检索词汇在待选文件中的文本版块权重，具体可以包括以下步骤：

分别统计检索词汇在待选文件的多个指定位置出现的次数；

根据预先设置的文件的多个指定位置的权重，对检索词汇在待选文件的多个指定位置出现的次数进行加权平均计算，得到检索词汇在待选文件中的文本版块权重。

例如，上述多个指定位置可以为文件的标题、简述和正文等等，预先设置文件A的标题、简述和正文的权重为6：3：1(即文件的多个指定位置的权重)；统计检索词汇a在文件A中标题、简述和正文出现次数分别为3次，4次，4次，那么，文本版块权重可以为(6×3+3×4+1×4)/10＝3.4。

这样，通过计算文本版块权重，可以更加合理地对检索词汇和待选文件的关联程度进行详细的分析，避免了检索词汇出现在待选文件无关紧要的版块，而对检索结果造成影响。

最后，将词汇权重、文本版块权重、检索词汇的文件数量权重和检索词汇的语法权重相乘，得到待选文件的权重值。

例如，检索词汇a在待选文件A中，词汇权重为i/j，文本版块权重为b；检索词汇a的文件数量权重为k/m，语法权重为c；那么，待选文件A的权重值可以为(b×c×i×k)/(j/m)。

在上述步骤106中，根据待选文件的权重值，对所有的待选文件进行降序排列。

在上述步骤107中，将排序靠前的预设数目的待选文件作为检索结果。如，选择排序靠前的10个待选文件作为本次文件检索的检索结果。

综上，本发明实施例中，从文件数量权重、语法权重、词汇权重和文本版块权重这4个维度进行文件检索，从分割到整体，结合客观数据和主管侧重两个部分对检索语句进行分析，使得最终得到的检索结果的准确性更高。同时，本发明实施例不依赖机器学习模型或统计学模型，也节省了检索的成本，给用户带来了较好的体验。

本发明实施例中还提供了一种文件检索装置，如下面的实施例所述。由于该装置解决问题的原理与文件检索方法相似，因此该装置的实施可以参见文件检索方法的实施，重复之处不再赘述。

如图4所示，为本发明实施例提供的一种文件检索装置的示意图，所述装置可以包括：

语法分割模块401，用于对用户输入的检索语句进行语法分割，得到多个检索词汇；

文件确定模块402，用于针对每一检索词汇，从文件库中检索包含该检索词汇的文件，作为每一检索词汇的待选文件，所述文件库中包括多个文件；

文件数量权重计算模块403，用于根据每一检索词汇的待选文件的数量，计算每一检索词汇的文件数量权重；

语法权重确定模块404，用于根据每一检索词汇的词性和预先设置多个词性对应的权重，确定每一检索词汇的语法权重，所述语法权重用于指示检索词汇的词性在检索语句中所占的比重；

文件权重计算模块405，用于针对每一检索词汇的每一待选文件，执行如下操作：计算检索词汇在待选文件中的词汇权重和文本版块权重；将词汇权重、文本版块权重、检索词汇的文件数量权重和检索词汇的语法权重相乘，得到待选文件的权重值；所述词汇权重用于指示检索词汇在待选文件的词汇总数量中所占的比重；所述文本版块权重用于指示检索词汇出现在待选文件的不同位置所占的比重；

排序模块406，用于根据每一待选文件的权重值，对待选文件进行降序排列；

结果确定模块407，用于将排序靠前的预设数目的待选文件作为检索结果。

本发明实施例中，所述文件数量权重为每一检索词汇的待选文件的数量与文件库中的总文件数量的比值。

本发明实施例中，所述词汇权重为每一检索词汇在每一待选文件中出现的次数与待选文件中的词汇总数量的比值。

本发明实施例中，文件权重计算模块，还可以用于：

分别统计检索词汇在待选文件的多个指定位置出现的次数；

本发明实施例中，语法权重确定模块，还可以用于：

基于预设的语句侧重性分析算法，确定每一检索词汇的第一词性权重；所述语句侧重性分析算法用于指示对检索语句的检索倾向性进行分析；

根据预先设置多个词性对应的权重，确定每一检索词汇的第二词性权重；

将每一检索词汇的第一词性权重和第二词性权重相乘，得到每一检索词汇的语法权重。

本发明实施例还提供一种计算机设备，如图5所示，为本发明实施例中计算机设备的示意图，所述计算机设备500包括存储器510、处理器520及存储在存储器510上并可在处理器520上运行的计算机程序530，所述处理520执行所述计算机程序530时实现上述文件检索方法。

另外，本发明实施例中，根据文件数量权重、语法权重、词汇权重和文本版块权重这4个维度进行文件检索，从分割到整体，结合客观数据和主管侧重两个部分对检索语句进行分析，使得最终得到的检索结果的准确性更高，给用户带来了较好的体验。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种文件检索方法，其特征在于，包括：

对用户输入的检索语句进行语法分割，得到多个检索词汇；

根据每一待选文件的权重值，对待选文件进行降序排列；

将排序靠前的预设数目的待选文件作为检索结果。

2.如权利要求1所述的方法，其特征在于，所述文件数量权重为每一检索词汇的待选文件的数量与文件库中的总文件数量的比值。

3.如权利要求1所述的方法，其特征在于，所述词汇权重为每一检索词汇在每一待选文件中出现的次数与待选文件中的词汇总数量的比值。

4.如权利要求1所述的方法，其特征在于，计算检索词汇在待选文件中的文本版块权重，包括：

分别统计检索词汇在待选文件的多个指定位置出现的次数；

5.如权利要求1所述的方法，其特征在于，根据每一检索词汇的词性和预先设置多个词性对应的权重，确定每一检索词汇的语法权重，还包括：

6.一种文件检索装置，其特征在于，包括：

排序模块，用于根据每一待选文件的权重值，对待选文件进行降序排列；

7.如权利要求6所述的装置，其特征在于，所述文件数量权重为每一检索词汇的待选文件的数量与文件库中的总文件数量的比值。

8.如权利要求6所述的装置，其特征在于，所述词汇权重为每一检索词汇在每一待选文件中出现的次数与待选文件中的词汇总数量的比值。

9.如权利要求6所述的装置，其特征在于，文件权重计算模块，还用于：

分别统计检索词汇在待选文件的多个指定位置出现的次数；

10.如权利要求7所述的装置，其特征在于，语法权重确定模块，还用于：

11.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至5任一所述方法。

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1至5任一所述方法。

13.一种计算机程序产品，其特征在于，所述计算机程序产品包括计算机程序，所述计算机程序被处理器执行时实现权利要求1至5任一所述方法。