CN109359178A

CN109359178A - 一种检索方法、装置、存储介质及设备

Info

Publication number: CN109359178A
Application number: CN201811071465.0A
Authority: CN
Inventors: 蒋运承; 郑航; 詹捷宇; 刘宇东; 马文俊; 毛舜; 李超; 黄光健; 韦丽娜
Original assignee: South China Normal University
Current assignee: South China Normal University
Priority date: 2018-09-14
Filing date: 2018-09-14
Publication date: 2019-02-19

Abstract

本发明涉及一种检索方法、装置、存储介质及设备，包括：获取检索语句，并从检索语句中确定检索实体；获取知识图谱的各实体之间的语义相似度关系，并在知识图谱中获取与检索实体的语义相似度大于第一设定阈值的实体，获得扩充的检索实体集合；将扩充的检索实体集中的各实体向量化，并输入到分类器中，确定与扩充的检索实体集中的各词相似度大于第二设定阈值的资源文件集合；按照相似度从大到小的顺序显示确定的资源文件集合。通过对检索实体进行语义扩展，进而不但显示包含检索实体的检索结果，还显示包括检索实体相近或相似的实体的检索结果，从而提高了检索的准确度。

Description

一种检索方法、装置、存储介质及设备

技术领域

本发明涉及检索领域，特别是涉及一种检索方法、装置、存储介质及设备。

背景技术

随着互联网的发展，人们可以方便地从互联网上获得需要的信息，搜索引擎也慢慢地成为人们从互联上搜索信息的一种常用手段。其中的搜索引擎通常提供一个页面，用户在页面输入搜索语句，提交给搜索引擎后，搜索引擎就返回给用户输入的内容相关的数据信息。

但是，发明人在使用搜索引擎的过程中，发现由于搜索引擎是基于关键词的搜索和匹配，因此，当输入的搜索语句中的关键词不够或者不准确的时候，容易出现搜索的内容和想要的完全不一样的问题。

发明内容

基于此，本发明的目的在于，提供一种检索方法，其具有提高检索准确度的优点。

一种检索方法，包括如下步骤：

获取检索语句，并从检索语句中确定检索实体；

获取知识图谱的各实体之间的语义相似度关系，并在知识图谱中获取与检索实体的语义相似度大于第一设定阈值的实体，获得扩充的检索实体集合；

将扩充的检索实体集中的各实体向量化，并输入到分类器中，确定与扩充的检索实体集中的各词相似度大于第二设定阈值的资源文件集合；

按照相似度从大到小的顺序显示确定的资源文件集合。

通过对检索实体进行语义扩展，进而不但显示包含检索实体的检索结果，还显示包括检索实体相近或相似的实体的检索结果，从而提高了检索的准确度。

进一步地，所述按照相似度从大到小的顺序显示确定的资源文件集合之后，还包括步骤：

获取用户点击资源文件的操作，并对点击的资源文件赋予相应的奖赏值；

在下次显示确定的资源文件集合时，将资源文件集合中被点击的资源文件的相似度加上对应的奖赏值后作为新的相似度，再按照从大到小的顺序显示确定的资源文件集合。

通过获取用户对点击资源文件的操作反馈，从而对资源文件的显示进行自动调节，实现了自动鼓励调整机制，提高了在一定时间内对于模糊检索的准确性和具有推理能力的检索结果，从而有效防止了在一定时间内用户一直在搜索同一种或相关的资源文件时，即使输入的检索语句存在一定可能性的错误或者为复杂难以识别的检索语句，仍然可以根据资源文件的点击操作进行调整，最终获得正确的检索结果。

进一步地，所述获取用户点击资源文件的操作，并对点击的资源文件中赋予相应的奖赏值的步骤，包括：

若用户点击资源文件后，在设定时间之后关闭了浏览器，则对该被点击的资源文件赋予第一奖赏值；

若用户点击资源文件后，在设定时间之后点击了另一资源文件，则对该被点击的资源文件赋予第二奖赏值；

若用户点击资源文件后，在设定时间之前点击了另一资源文件，则对该被点击的资源文件赋予第三奖赏值；

若用户点击的资源文件为最后的点击操作，则对该被点击的资源文件赋予第四奖赏值。

进一步地，所述获取检索语句，并从检索语句中确定检索主体的步骤，包括：

对检索语句进行分词处理，获得表征检索语句的分词集合；

去除分词集合中的停用词，获得处理后的分词集合；

对处理后的分词集合中的各词进行词性标注，并将标注为名词的词确定为检索实体。

通过去除停用词和词性标注，从而减少后续工作的工作量，获得可表征检索语句的检索实体。

进一步地，所述将与检索实体的语义相似度大于第一设定阈值的实体添加到检索实体中之前，还包括：

获取检索类别信息；

根据检索类别信息，仅获得检索类别所在的知识图谱分类中的所有实体与检索实体的语义相似度。

通过根据检索类别信息，仅获得在检索类别所在的知识图谱分类中的所有实体与检索实体语义相似度，进而提高了计算的复杂度，提高检索效率。

本发明还提供一种检索装置，包括：

检索实体获取模块，用于获取检索语句，并从检索语句中确定检索实体；

检索实体扩充模块，用于获取知识图谱的各实体之间的语义相似度关系，并在知识图谱中获取与检索实体的语义相似度大于第一设定阈值的实体，获得扩充的检索实体集合；

资源文件集合获取模块，用于将扩充的检索实体集中的各实体向量化，并输入到分类器中，确定与扩充的检索实体集中的各词相似度大于第二设定阈值的资源文件集合；

显示模块，用于按照相似度从大到小的顺序显示确定的资源文件集合。

进一步地，还包括：

奖赏值获取模块，用于获取用户点击资源文件的操作，并对点击的资源文件赋予相应的奖赏值；其中，若用户点击资源文件后，在设定时间之后关闭了浏览器，则对该被点击的资源文件赋予第一奖赏值；若用户点击资源文件后，在设定时间之后点击了另一资源文件，则对该被点击的资源文件赋予第二奖赏值；若用户点击资源文件后，在设定时间之前点击了另一资源文件，则对该被点击的资源文件赋予第三奖赏值；若用户点击的资源文件为最后的点击操作，则对该被点击的资源文件赋予第四奖赏值；

相似度确定模块，用于在下次显示确定的资源文件集合时，将资源文件集合中被点击的资源文件的相似度加上对应的奖赏值后作为新的相似度，再按照从大到小的顺序显示确定的资源文件集合。

本发明还提供一种计算机可读存储介质，其上储存有计算机程序，该计算机程序被处理器执行时实现如上述任一所述的检索方法的步骤。

本发明还提供一种计算机设备，包括储存器、处理器以及储存在所述储存器中并可被所述处理器执行的计算机程序，所述处理器执行所述计算机程序时实现如如上述任一所述的检索方法的步骤。

为了更好地理解和实施，下面结合附图详细说明本发明。

附图说明

图1为本发明实施例中检索方法的流程图；

图2为本发明实施例中建立的知识图谱的各实体之间的语义相似度关系图。

具体实施方式

请参阅图1，其为本发明实施例中检索方法的流程图，所述检索方法，包括如下步骤：

步骤S1：获取检索语句，并从检索语句中确定检索实体。

其中，所述检索语句可以是一个字、一个词或一句话。所述检索实体为作为检索的关键字或关键词。

步骤S2：获取知识图谱的各实体之间的语义相似度关系，并在知识图谱中获取与检索实体的语义相似度大于第一设定阈值的实体，获得扩充的检索实体集合。

请参阅图2，其为本发明实施例中建立的知识图谱的各实体之间的语义相似度关系图。其中，所述知识图谱采用维基百科提供的开放知识图谱DBpedia。DBpedia的数据存储采用的是RDF的格式，即为<subject，property，object>，或者为<实体，关系，属性>，可预先对DBpedia数据的关系属性设置相关的权重关系，即获取知识图谱的各实体之间的语义相似度关系。

在一个实施例中，所述第一设定阈值可为0.9，即将与检索实体的语义相似度大于0.9的实体添加到检索实体中。如当检索实体为“感冒”时，经过语义相似度的计算，获得与“感冒”的语义相似度大于第一设定阈值的实体包括“着凉”和“流感”，进而扩充的检索实体集合则为“感冒”、“着凉”和“流感”。

步骤S3：将扩充的检索实体集中的各实体向量化，并输入到分类器中，确定与扩充的检索实体集中的各词相似度大于第二设定阈值的资源文件集合。

在一个实施例中，所述词嵌入(word embedding)的方法将扩充的检索实体集中的各实体表示到空间向量中即向量化。

在一个实施例中，所述第二设定阈值为0.6，即将与扩充的检索实体集中的各词相似度大于0.6的所有资源文件作为确定的资源文件集合。

步骤S4：按照相似度从大到小的顺序显示确定的资源文件集合。

在一个实施例中，在步骤S1中，所述获取检索语句，并从检索语句中确定检索主体的步骤，包括：

步骤S11：对检索语句进行分词处理，获得表征检索语句的分词集合。

在一个实施例中，采用结巴分词对检索语句进行分词处理。

步骤S12：去除分词集合中的停用词，获得处理后的分词集合。

在一个实施例中，通过使用哈工大停用词词库表去除停用词，以把分词集合出现次数多但是没有实际意义的词，如“啊”、“吧”等词去除掉，减少后续工作的工作量。

步骤S13：对处理后的分词集合中的各词进行词性标注，并将标注为名词的词确定为检索实体。

在一个实施例中，在步骤S2中，所述将与检索实体的语义相似度大于第一设定阈值的实体添加到检索实体中之前，还包括：

步骤S21：获取检索类别信息。

在一个实施例中，可在使用本发明的检索方法前，要求用户注册填写其关注领域信息，或者其专业信息，其中的关注领域信息或者专业信息即为类别信息，如计算机，医学类别等。

在另一个实施例中，用户在输入检索语句后，可选择填写检索类别信息，如计算机，医学类别等。

步骤S22：根据检索类别信息，仅获得检索类别所在的知识图谱分类中的所有实体与检索实体的语义相似度。

在一个实施例中，知识图谱如DBpedia提供了将各个实体分成多个种类后的实体数据集，根据检索类别信息，仅获得在检索类别所在的知识图谱分类中的所有实体与检索实体语义相似度，进而提高了计算的复杂度，提高了检索效率。例如当检索实体为“感冒”时，根据检索类别信息判断其为属于医学方面的分类，此时，则仅仅获得知识图谱分类中的医学类别中的所有实体与检索实体的语义相似度

在一个实施例中，在步骤S4中，所述按照相似度从大到小的顺序显示确定的资源文件集合之后，还包括步骤：

步骤S41：获取用户点击资源文件的操作，并对点击的资源文件赋予相应的奖赏值。

步骤S42：在下次显示确定的资源文件集合时，将资源文件集合中被点击的资源文件的相似度加上对应的奖赏值后作为新的相似度，再按照从大到小的顺序显示确定的资源文件集合。

在一个实施例中，所述获取用户点击资源文件的操作，并对点击的资源文件赋予相应的奖赏值的步骤，包括：

若用户点击资源文件后，在设定时间之后关闭了浏览器，则对该被点击的资源文件赋予第一奖赏值；若用户点击资源文件后，在设定时间之后点击了另一资源文件，则对该被点击的资源文件赋予第二奖赏值；若用户点击资源文件后，在设定时间之前点击了另一资源文件，则对该被点击的资源文件赋予第三奖赏值；若用户点击的资源文件为最后的点击操作，则对该被点击的资源文件赋予第四奖赏值。

其中，所述设定时间为0.2s。所述第一奖赏值、第二奖赏值和第四奖赏值均大于0，所述第三奖赏值小于0，且所述第一奖赏值>第四奖赏值>第二奖赏值，所述第一奖赏值、第二奖赏值、第三奖赏值和第四奖赏值依序为：0.3、0.1、-0.1和0.2。具体的，若用户点击了资源文件，在0.2秒之后关闭了浏览器，则证明用户对该资源文件结果非常满意，因此，在下次显示确定的资源文件集合时，将该被点击的资源文件的相似度加上0.3的奖赏值后作为该资源文件的新的相似度。若用户点击了资源文件，在0.2s之后点击了另一资源文件，则证明这个资源文件对用户来说是有用的，但是并未完成最终的检索结果，因此，在下次显示确定的资源文件集合时，将该被点击的资源文件的相似度加上0.1的奖赏值后作为该资源文件的新的相似度。若用户点击了资源文件，在0.2s之前点击了另一资源文件，则证明这个资源文件对用户来说是没有帮助的，则在下次显示确定的资源文件集合时，将该被点击的资源文件的相似度加上-0.1的奖赏值后作为该资源文件的新的相似度。若用户点击的资源文件为最后的点击操作，则说明这个检索文件解决了用户所要检索的问题，因此，在下次显示确定的资源文件集合时，将该被点击的资源文件的相似度加上0.2的奖赏值后作为该资源文件的新的相似度。

在一个实施例中，所述分类器采用基于卷积神经网络的文本分类器(Text-Convolutional Neural Networks，简称“Text-CNN”分类器)，通过将资源文件和分类词分别进行标记，并采用词嵌入的方式分别进行向量化，然后使用Text-CNN的模型进行训练，从而获得所述分类器，进而使得资源文件与分类词之间能有良好的分类效果，以使资源文件与检索主体之间也有很好的分类效果。

本发明的检索方法可以运用在以教育资源中的课件资源或作业资源等的检索，如当教师在教育资源所在的网站上布置了作业或者发布了相关的课件时，学生可以通过本发明的上述检索方法对这些资源文件进行搜索。

通过对检索实体进行语义扩展，进而不但显示包含检索实体的检索结果，还显示包括检索实体相近或相似的实体的检索结果，从而提高了检索的准确度。进一步地，通过获取用户对点击资源文件的操作反馈，从而对资源文件的显示进行自动调节，实现了自动鼓励调整机制，提高了在一定时间内对于模糊检索的准确性和具有推理能力的检索结果，从而有效防止了在一定时间内用户一直在搜索同一种或相关的资源文件时，即使输入的检索语句存在一定可能性的错误或者为复杂难以识别的检索语句，仍然可以根据资源文件的点击操作进行调整，最终获得正确的检索结果。

本发明还提供一种检索装置，包括：

显示模块，用于按照相似度从大到小的顺序显示确定的资源文件集合

在一个实施例中，所述检索装置还包括：

本发明可采用在一个或多个其中包含有程序代码的存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。计算机可读存储介质包括永久性和非永久性、可移动和非可移动媒体，可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括但不限于：相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。

本发明还提供一种计算机设备，包括储存器、处理器以及储存在所述储存器中并可被所述处理器执行的计算机程序，所述处理器执行所述计算机程序时实现如上述任一所述的检索方法的步骤

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。

Claims

1.一种检索方法，其特征在于，包括如下步骤：

获取检索语句，并从检索语句中确定检索实体；

按照相似度从大到小的顺序显示确定的资源文件集合。

2.根据权利要求1所述的检索方法，其特征在于，所述按照相似度从大到小的顺序显示确定的资源文件集合之后，还包括步骤：

3.根据权利要求2所述的检索方法，其特征在于，所述获取用户点击资源文件的操作，并对点击的资源文件中赋予相应的奖赏值的步骤，包括：

4.根据权利要求1所述的检索方法，其特征在于，所述获取检索语句，并从检索语句中确定检索主体的步骤，包括：

对检索语句进行分词处理，获得表征检索语句的分词集合；

去除分词集合中的停用词，获得处理后的分词集合；

5.根据权利要求1所述的检索方法，其特征在于，所述将与检索实体的语义相似度大于第一设定阈值的实体添加到检索实体中之前，还包括：

获取检索类别信息；

6.根据权利要求1所述的检索方法，其特征在于，所述分类器采用Text-CNN分类器。

7.一种检索装置，其特征在于，包括：

8.根据权利要求7所述的检索装置，其特征在于，还包括：

9.一种计算机可读存储介质，其上储存有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1至6中任意一项所述的检索方法的步骤。

10.一种计算机设备，其特征在于，包括储存器、处理器以及储存在所述储存器中并可被所述处理器执行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至6中任意一项所述的检索方法的步骤。