CN110928992B

CN110928992B - 文本搜索方法、装置、服务器及存储介质

Info

Publication number: CN110928992B
Application number: CN201911148419.0A
Authority: CN
Inventors: 冯威棠; 邝俊伟
Original assignee: Individual
Current assignee: Individual
Priority date: 2019-11-21
Filing date: 2019-11-21
Publication date: 2022-06-10
Anticipated expiration: 2039-11-21
Also published as: EP4064071A1; CN110928992A; WO2021098794A1; US20220414131A1

Abstract

本申请提出一种文本搜索方法、装置、服务器及存储介质，涉及信息处理技术领域，通过预先设置包括多个文字向量、多个待匹配文本以及与每一待匹配文本对应的主题图谱的目标数据库，从而根据目标数据库获得由输入文本对应的文字向量组成的目标文本矩阵；然后利用该目标文本矩阵构建输入文本对应的目标主题图谱，进而在目标数据库获得与输入文本对应的多个初始匹配文本以及每一初始匹配文本对应的主题图谱后，根据目标主题图谱以及每一初始匹配文本对应的主题图谱，生成输入文本对应的搜索结果，相比于现有技术，能够在进行文本搜索时，将与输入文本具有相近含义的待匹配文本也被纳入搜索范围，从而提升文本的搜索准确度。

Description

文本搜索方法、装置、服务器及存储介质

技术领域

本申请涉及信息处理技术领域，具体而言，涉及一种文本搜索方法、装置、服务器及存储介质。

背景技术

文本搜索技术能够根据用户输入的文本内容，比如关键字、语意等进行信息搜索，从而将匹配到的文本反馈给用户。

目前的文本搜索方案，一般是对用户输入的关键字进行分析，根据数据库中每一文本中出现用户输入的关键字的频率计算对应文本的评分，然后再按照评分的高低将数据库中与用户输入的关键字相匹配的文本按序排列；或者是基于向量空间模型，将用户输入的文本转换为向量，并与数据库中保存的所有文本各自对应的向量进行计算评分，从而按照每篇文本各自对应的评分按序排列。

然而，在例如上述的文本搜索方案中，均为用户输入的关键字或者是文本中的字词与数据库中存储的文本的字词之间的比较，一些具有相似意义但字面不同的字词而未被纳入搜索的范围，导致文本搜索的准确度较低。

发明内容

本申请的目的在于提供一种文本搜索方法、装置、服务器及存储介质，能够提升文本的搜索准确度。

为了实现上述目的，本申请实施例采用的技术方案如下：

第一方面，本申请实施例提供一种文本搜索方法，所述方法包括：

在目标数据库中获得输入文本对应的目标文本矩阵；其中，所述目标数据库中包含多个文字对应的文字向量，所述目标文本矩阵为目标文字向量组成的矩阵，所述目标文字向量为所述目标数据库中与所述输入文本对应的文字向量；

根据所述目标文本矩阵构建所述输入文本对应的目标主题图谱；

在所述目标数据库确定出与所述输入文本对应的多个初始匹配文本以及每一所述初始匹配文本对应的主题图谱；其中，所述目标数据库记录有多个待匹配文本以及每一所述待匹配文本对应的主题图谱，每一所述初始匹配文本均为所述多个待匹配文本中的之一；

根据所述目标主题图谱以及每一所述初始匹配文本对应的主题图谱，生成所述输入文本对应的搜索结果。

第二方面，本申请实施例提供一种文本搜索装置，所述装置包括：

处理模块，用于在目标数据库中获得输入文本对应的目标文本矩阵；其中，所述目标数据库中包含多个文字对应的文字向量，所述目标文本矩阵为目标文字向量组成的矩阵，所述目标文字向量为所述目标数据库中与所述输入文本对应的文字向量；

所述处理模块还用于，根据所述目标文本矩阵构建所述输入文本对应的目标主题图谱；

所述处理模块还用于，在所述目标数据库确定出与所述输入文本对应的多个初始匹配文本以及每一所述初始匹配文本对应的主题图谱；其中，所述目标数据库记录有多个待匹配文本以及每一所述待匹配文本对应的主题图谱，每一所述初始匹配文本均为所述多个待匹配文本中的之一；

结果生成模块，用于根据所述目标主题图谱以及每一所述初始匹配文本对应的主题图谱，生成所述输入文本对应的搜索结果。

第三方面，本申请实施例提供一种服务器，所述服务器包括存储器，用于存储一个或多个程序；处理器。当所述一个或多个程序被所述处理器执行时，实现上述的文本搜索方法。

第四方面，本申请实施例提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述的文本搜索方法。

本申请实施例提供的一种文本搜索方法、装置、服务器及存储介质，通过预先设置包括多个文字向量、多个待匹配文本以及与每一待匹配文本对应的主题图谱的目标数据库，从而根据目标数据库获得由输入文本对应的文字向量组成的目标文本矩阵；然后利用该目标文本矩阵构建输入文本对应的目标主题图谱，进而在目标数据库获得与输入文本对应的多个初始匹配文本以及每一初始匹配文本对应的主题图谱后，根据目标主题图谱以及每一初始匹配文本对应的主题图谱，生成输入文本对应的搜索结果，相比于现有技术，能够在进行文本搜索时，利用输入文本对应的目标主题图谱，将与输入文本具有相近含义的待匹配文本也被纳入搜索范围，从而提升文本的搜索准确度。

为使本申请的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它相关的附图。

图1示出本申请实施例提供的文本搜索方法的一种示意性应用场景图；

图2示出本申请实施例提供的服务器的一种示意性结构框图；

图3示出本申请实施例提供的文本搜索方法的一种示意性流程图；

图4示出图3中步骤211的子步骤的一种示意性流程图；

图5示出图3中步骤215的子步骤的一种示意性流程图；

图6A示出坐标图谱的一种示意图；

图6B示出主题图谱的一种示意图；

图7示出图5中步骤215-1的子步骤的一种示意性流程图；

图8A示出隐含狄利克雷分布降维处理的一种示意图；

图8B示出t-SNE变换的一种示意图；

图9示出本申请实施例提供的文本搜索方法的另一种示意性流程图；

图10示出本申请实施例提供的文本搜索方法的再一种示意性流程图；

图11示出图10中步骤237的子步骤的一种示意性流程图；

图12示出图10中步骤235的子步骤的一种示意性流程图；

图13示出本申请实施例提供的文本搜索装置的一种示意性结构框图。

图中：100-服务器；101-存储器；102-处理器；103-通信接口；300-文本搜索装置；301-处理模块；302-结果生成模块。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。同时，在本申请的描述中，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

在例如上述计算评分的文本搜索方案中，当用户输入一个例如文章或者文本等搜索目标时，目前的方案一般为根据输入的搜索目标中各个文字的出现频率，以词频逆向文件频率(term frequency–inverse document frequency，TF-IDF)的方式计算各个文字的权重，从而生成该搜索目标的向量，并把该搜索目标对应的向量与数据库中的其他文本各自对应的向量进行比较，将区别最小的向量对应的文本作为该搜索目标对应的目标文本；比如可以对该搜索目标对应的向量与数据库中的每一文本对应的向量计算点积的方式获得数据库中每一文章对应的区别评分，从而将对应区别评分最小的文本作为目标文本。

然而，前述搜索方案利用的是用户输入的关键字或者是文本中的字词与数据库中存储的文本的字词之间的比较，一些具有相似意义但字面不同的字词而未被纳入搜索的范围。比如，如果用户搜索的是“图像处理(Image Processing)”，上述搜索方案关注的是文本中是否具有“图像处理”这几个字，但其他类似的字词比如“电脑视觉(Computer Vision)”，虽然意义相似但因字面不同而没有被纳入搜索范围内，导致搜索准确度较低。

为此，基于上述缺陷，本申请实施例提供的一种可能的实现方式为：通过预先设置包括多个文字向量、多个待匹配文本以及与每一待匹配文本对应的主题图谱的目标数据库，从而根据目标数据库获得由输入文本对应的文字向量组成的目标文本矩阵；然后利用该目标文本矩阵构建输入文本对应的目标主题图谱，进而在目标数据库获得与输入文本对应的多个初始匹配文本以及每一初始匹配文本对应的主题图谱后，根据目标主题图谱以及每一初始匹配文本对应的主题图谱，生成输入文本对应的搜索结果，从而将与输入文本具有相近含义的待匹配文本也被纳入搜索范围，以提升文本的搜索准确度。

下面结合附图，对本申请的一些实施方式作详细说明。在不冲突的情况下，下述的实施例及实施例中的特征可以相互组合。

请参阅图1，图1示出本申请实施例提供的文本搜索方法的一种示意性应用场景图，在本申请实施例中，服务器与用户端位于无线网络或有线网络中，通过该无线网络或有线网络，服务器与用户端进行数据交互。

在本申请实施例中，用户端可采用移动终端设备，例如可以包括智能手机、个人电脑(personal computer，PC)、平板电脑、穿戴式移动终端等等。

本申请实施例所提供的一种文本搜索方法，应用于如图1所示的服务器，该服务器中安装有应用程序，与用户端相对应，用于为用户提供服务，本申请实施例提供文本搜索方法可以通过该服务器中安装的应用程序实现。

请参阅图2，图2示出本申请实施例提供的服务器100的一种示意性结构框图。服务器100包括存储器101、处理器102和通信接口103，该存储器101、处理器102和通信接口103相互之间直接或间接地电性连接，以实现数据的传输或交互。例如，这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。

存储器101可用于存储软件程序及模块，如本申请实施例提供的文本搜索装置300对应的程序指令/模块，处理器102通过执行存储在存储器101内的软件程序及模块，从而执行各种功能应用以及数据处理，以实现本申请实施例提供的文本搜索方法。该通信接口103可用于与其他节点设备进行信令或数据的通信。

其中，存储器101可以是但不限于，随机存取存储器(Random Access Memory，RAM)，只读存储器(Read Only Memory，ROM)，可编程只读存储器(Programmable Read-OnlyMemory，PROM)，可擦除只读存储器(Erasable Programmable Read-Only Memory，EPROM)，电可擦除可编程只读存储器(Electric Erasable Programmable Read-Only Memory，EEPROM)等。

处理器102可以是一种集成电路芯片，具有信号处理能力。该处理器102可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(NetworkProcessor，NP)等；还可以是数字信号处理器(Digital Signal Processing，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

可以理解，图2所示的结构仅为示意，服务器100还可以包括比图2中所示更多或者更少的组件，或者具有与图2所示不同的配置。图2中所示的各组件可以采用硬件、软件或其组合实现。

下面以图2所示的服务器100作为示意性执行主体，对本申请实施例提供的文本搜索方法进行示例性说明。

其中，需要说明的是，本申请实施例提供的文本搜索方法包括两个阶段的内容，其中之一为构建文本搜索所需的目标数据库，而另一阶段则为在生成的目标数据库中搜索与用户的输入文本对应的搜索结果。

首先，在构建目标数据库的阶段，请参阅图3，图3示出本申请实施例提供的文本搜索方法的一种示意性流程图，可以包括以下步骤：

步骤211，获得所有待匹配文本中的所有关键字；

步骤213，根据每一关键字分别在每一待匹配文本中的词频逆向文件频率，获得每一关键字各自对应的文字向量；

步骤215，根据每一待匹配文本中包含的所有关键字各自对应的文字向量，构建每一待匹配文本对应的主题图谱，以使所有关键字对应的文字向量和所有待匹配文本对应的主题图谱共同构成目标数据库。

在本申请实施例中，服务器在构建目标数据库时，可以通过例如网络搜寻的方式，在数据库中预先存储多个待匹配文本。

然后，服务器可以采用例如分词或者是分字等方式，提取得到所有待匹配文本中的所有关键字。

接下来，服务器可以基于每一关键字分别在每一待匹配文本中的词频逆向文件频率，获得每一关键字各自对应的文字向量并将其存储至目标数据库中。

比如，假定某一关键字在每一待匹配文本中的词频逆向文件频率分别为n₁、n₂、···、n_i，则该关键字对应的文字向量可以表示为(n₁,n₂,…,n_i)。

其中，可以理解的是，对于任意一个关键字，并非所有的待匹配文本中均包含有该关键字，因此，当其中一个待匹配文本中不存在该关键字时，该关键字在该待匹配文本中的词频逆向文件频率取值可以为0。

并且，在获得所有关键字各自对应的文字向量后，可以根据每一关键字各自对应的文字向量以及每一待匹配文本各自所包含的所有关键字，采用例如建立坐标轴，并在该坐标轴上标识每一关键字的方式，构建每一待匹配文本对应的主题图谱，从而将每一待匹配文本进行视觉化。

由此，可以将获得的每一关键字各自对应的文字向量，以及每一待匹配文本各自对应的主题图谱，共同构成该目标数据库。

其中，需要说明的是，在获得所有待匹配文本中的所有关键字时，可以采用例如上述的分字的结果，将每一待匹配文本中包含的所有文字均作为关键字。

当然，可以理解的是，每一文字对待匹配文本的重要程度是不尽相同的，因此，作为一种可能的实现方式，本申请实施例还可以基于每一文字在待匹配文本中的重要程度提取每一待匹配文本中的关键字。

示例性地，在图3的基础上，请参阅图4，图4示出图3中步骤211的子步骤的一种示意性流程图，可以包括以下子步骤：

步骤211-1，获得每一待匹配文本中每一文字各自对应的词频逆向文件频率；

步骤211-3，根据每一文字在每一待匹配文本中的词频逆向文件频率，计算每一文字各自对应的重要性评分；

步骤211-5，将对应的重要性评分达到设定评分阈值的所有文字确定为关键字。

在本申请实施例中，在评价每一文字对待匹配文本的重要程度时，可以先计算获得每一待匹配文本中的每一文字各自对应的词频逆向文件频率。

需要说明的是，步骤211-1所述的计算获得每一文字各自对应的词频逆向文件频率，是指获得每一文字各自在所有待匹配文本中的词频逆向文件频率，如果某一文字在其中一个待匹配文本中不存在，则在该待匹配文本中的词频逆向文件频率可以默认确定为0。

另外，本申请实施例中计算词频逆向文件频率的算法与现有技术相同，在此不再进行赘述。

然后，可以根据每一文字在每一待匹配文本中的词频逆向文件频率，对每一文字各自的重要程度进行评分，从而得到每一文字各自对应的重要性评分。

最后，可以按照设定评分阈值作为重要程度的评价标准，将对应的重要性评分达到设定阈值的所有文字确定为关键字，从而将文本中重要程度较低的文字过滤，避免数据量的冗余导致的处理性能降低。

需要说明的是，在一些可能的应用场景中，同一文字出现在文本中的不同位置，对文本的重要程度可能存在不同。

比如，一篇美国专利文献一般由四个部分组成：标题(Title)、摘要(Abstract)、声明(Claims)和内容(Description)，出现在标题、摘要、声明、内容中的文字对一篇美国专利文献的重要程度一般依次减小。

因此，在执行步骤211-3时，示例性地，重要性评分的计算公式可以满足如下：

p表示文字w在文本d中的位置，TF_w,p,d表示文字w在文本d中的词频，IDF_w,p表示文字w的逆向文件频率，E_w,p表示中间参数；W_p表示位置p中的文字对应的影响系数，E_W表示重要性评分。

需要说明的是，上述仅为示例，列举出一种可以用于计算每一文字的重要性评分的公式，在本申请实施例其他一些可能的实现方式中，还可以采用其他的一些公式计算获得每一文字的重要性评分，本申请实施例对计算获得每一文字的重要性评分的公式不进行限制。

另外，在执行步骤215构建每一待匹配文本时，作为一种可能的实现方式，在图3的基础上，请参阅图5，图5示出图3中步骤215的子步骤的一种示意性流程图，以多个待匹配文本中的任意之一作为第一待匹文本为例，步骤215可以包括以下子步骤：

步骤215-1，根据第一待匹配文本中包含的所有关键字各自对应的文字向量，构建第一待匹配文本对应的第一文本矩阵；

步骤215-3，根据第一文本矩阵，构建第一待匹配文本对应的主题图谱。

在本申请实施例中，可以先根据第一待匹配文本中包含的所有关键字对应的文字向量，构建第一待匹配文本对应的第一文本矩阵。

比如，假定第一待匹配文本中包括M个关键字，每一关键字对应有N维的文字向量，则可以设置维度为M行N列的第一文本矩阵，将M个关键字各自对应的向量依次作为第一文本矩阵的行元素，从而得到该M行N列的第一文本矩阵。

然后，可以根据第一文本矩阵中包含的数据，构建该第一待匹配文本对应的主题图谱。

比如，以二维空间的主题图谱为例，可以将第一文本矩阵中第一列数据和第二列数据作为坐标数据，构建如图6A所示的坐标图谱，从而在坐标轴中表示出第一待匹配文本中的各个关键字；然后可以将第一文本矩阵中的第三列数据、第四列数据以及第五列数据作为图像数据，从而在该坐标轴上标注出各个关键字的坐标点的图像数据，进而构建出如图6B所示的第一文本矩阵对应的主题图谱。

其中，需要说明的是，如图6B中的主题图谱示意，在本申请实施例的一些可能的实现方式中，还可以结合高斯滤波器对主题图谱进一步进行处理，从而放大主题图谱中的图像数据。

另外，上述仅为示例，以第一文本矩阵中第一列数据和第二列数据作为坐标数据，以第三列数据、第四列数据、第五列数据作为图像数据；在本申请实施例其他一些可能的实现方式，还可以选择其他列的数据构建第一文本矩阵对应的主题图谱；比如还可以将第一文本矩阵中第四列数据和第五列数据作为坐标数据，以第一列数据、第二列数据、第三列数据作为图像数据，构建主题图谱；本申请实施例对于构建主题图谱的数据的选择方式不进行限定，比如还可以按照设定的规则选择第一文本矩阵中的其中两列数据作为坐标数据、选择另外三列数据作为图像数据，以构建主题图谱。

并且，如上述示例，由于每一关键字对应的文字向量，是由其在每一待匹配文本中的词频逆向文件频率组成，比如上述示例中，某一关键字在每一待匹配文本中的词频逆向文件频率分别为n₁、n₂、···、n_i，则该关键字对应的文字向量可以表示为(n₁,n₂,…,n_i)。

一般来说，服务器在构建目标数据库时，会预先存储大量的文本，比如1000个文本，那么也就是说，每一关键字对应的文字向量可能会包含1000个元素，那么构建得到的第一文本矩阵的维度同样会比较大；比如若第一待匹配文本包括100个关键字，则构建得到的第一文本矩阵的维度则为100行1000列，导致服务器计算的数据量较大，且包含的噪声信息较多，数据也较为稀疏，导致在构建主题图谱时，可能无法反映出关键字的所有信息。

为此，作为一种可能的实现方式，请参阅图7，图7示出图5中步骤215-1的子步骤的一种示意性流程图，可以包括以下子步骤：

步骤215-1a，将第一待匹配文本中包含的所有关键字各自对应的文本向量分别作为行元素，构建第一待匹配文本对应的第一初始文本矩阵；

步骤215-1b，利用隐含狄利克雷分布算法对第一初始文本矩阵进行处理，得到设定维度的第一中间文本矩阵；

步骤215-1c，利用t-分布领域嵌入算法对第一中间文本矩阵进行处理，得到第一文本矩阵。

在构建第一文本矩阵时，首先可以按照上述示例，将第一待匹配文本中包含的所有关键字各自对应的文本向量依次作为行元素，从而构建得到第一待匹配文本对应的第一初始文本矩阵；比如按照上述示例，第一待匹配文本包括100个关键字，每一关键字均为1000维度的文字向量，则构建得到的第一初始文本矩阵的维度为100行1000列；其中，该第一初始文本矩阵中的每一个元素，代表的是对应文字在对应文本中的词频逆向文件频率，比如c_ij即表示第i个关键字在第j个文本中的词频逆向文件频率。

然后，可以采用例如图8A所示的变换方式，利用隐含狄利克雷分布(LatentDirichlet Allocation，LDA)算法对第一初始文本矩阵进行降维处理，从而将第一初始文本矩阵降维至设定的维度以得到第一中间文本矩阵，比如将上述的100行1000列的第一初始文本矩阵，降维后得到100行10列的第一中间文本矩阵，以提升处理速度。

最后，可以采用例如图8B所示的变换方式，利用t-分布领域嵌入(t-distributedStochastic Neighbor Embedding，t-SNE)算法对第一中间文本矩阵进行处理，从而减少第一中间文本矩阵中包含的噪声信息，并进一步对第一中间文本矩阵进行降维处理，得到第一文本矩阵，比如将上述的100行10列的第一中间文本矩阵降维得到100行5列的第一文本矩阵。

需要说明的是，上述仅为示意，举例说明在利用LDA算法进行降维处理时，可以将第一初始文本降维至10列的第一中间文本矩阵，以及可以将第一中间文本矩阵降维至5列的第一文本矩阵，在本申请实施例其他一些可能的实现方式中，还可以结合具体的场景或者是用户设置将第一中间文本矩阵降维至设定的维度，以及将第一文本矩阵变换至设定的维度，本申请实施例对第一中间文本矩阵以及第一文本矩阵的具体维度不进行限制。

并且，在一些可能的应用场景中，一些字对文本的含义贡献较低，比如标点符号、数字或者是一些常用的字词(是、的、在)等等。

为此，在图3的基础上，请参阅图9，图9示出本申请实施例提供的文本搜索方法的另一种示意性流程图，作为一种可能的实现方式，在执行步骤211之前，该文本搜索方法还可以包括以下步骤：

步骤210，对每一待匹配文本进行预处理，以剔除每一待匹配文本中设定的字符。

在本申请实施例中，可以针对具体的应用场景，设定一些过滤字符，比如上述的标点符号、数字或者是一些特定的字词，从而在执行步骤211之前，首先对每一待匹配文本进行预处理，从而剔除每一待匹配文本中例如前述的特定的字符，以使在执行步骤211时，获得每一预处理后的待匹配文本中的所有关键字，进而过滤掉低含义字符带来的重尾分布的影响，凸显出真正存在含义相近的关键字。

在利用上述方案构建得到目标数据库后，服务器即可利用该目标数据库，为用户提供文本搜索服务。

因此，基于上述构建完成的目标数据库，下面对利用该目标数据库进行文本搜索的阶段进行示例说明。

在图3的基础上，请参阅图10，图10示出本申请实施例提供的文本搜索方法的再一种示意性流程图，可以包括以下步骤：

步骤231，在目标数据库中获得输入文本对应的目标文本矩阵；

步骤233，根据目标文本矩阵构建输入文本对应的目标主题图谱；

步骤235，在目标数据库确定出与输入文本对应的多个初始匹配文本以及每一初始匹配文本对应的主题图谱；

步骤237，根据目标主题图谱以及每一初始匹配文本对应的主题图谱，生成输入文本对应的搜索结果。

在利用本申请实施例提供的上述方案构建得到的目标数据库中，包含有多个文字对应的文字向量(即上述的每一关键字对应的文字向量)、并且记录有多个待匹配文本以及与每一待匹配文本对应的主题图谱。

为此，在进行文本搜索时，首先可以基于该目标数据库，在目标数据库中搜索与输入文本对应的文字向量，从而得到目标文字向量，即将输入文本中包含在目标数据库中记录的所有关键字各自对应的文本向量确定为目标文字向量，从而利用目标文字向量组成目标文本矩阵。

示例性地，假定输入文本为“牛顿三大定律包括哪些”，“牛”“顿”“三”“大”“定”“律”在目标数据库中均各自对应有文字向量，则可以将“牛”“顿”“三”“大”“定”“律”各自对应的文字向量作为列元素，构建一个包含6行元素的目标文本矩阵。

然后，基于所得到的目标文本矩阵，可以采用例如上述步骤215-3的方式，构建该输入文本对应的目标主题图谱。

接下来，基于目标数据库中记录的多个待匹配文本以及每一待匹配文本对应的主题图谱，可以根据输入文本中包括的所有存在于目标数据库中的关键字，确定出与输入文本对应的多个初始匹配文本以及每一初始匹配文本对应的主题图谱；其中，每一初始匹配文本均为目标数据库中记录的多个待匹配文本中的之一。

比如，以上述的输入文本为“牛顿三大定律包括哪些”为例，按照上述示例，该输入文本中包括有“牛”“顿”“三”“大”“定”“律”共计6个存在于目标数据库中的文字，可以将目标数据库中包含的所有待匹配文本一一与输入文本进行比对，确定出每一待匹配文本各自包括“牛”“顿”“三”“大”“定”“律”这6个关键字的数量；并按照每一待匹配文本各自包括的关键字的数量进行排序，从而将排序在前的K个待匹配文本作为初始匹配文本，或者是将至少包括设定数量关键字(比如至少包括2个关键字)的所有待匹配文本作为初始匹配文本。

需要说明的是，上述仅为示意，给出了一些可能的获得初始匹配文本的实现方式，在本申请实施例其他一些可能的实现方式中，还可以采用其他的一些方式获得初始匹配文本，比如通过计算向量的点乘等方式确定出初始匹配文本，本申请实施例对获得初始匹配文本的方式不进行限定。

最后，结合输入文本对应的目标主题图谱，以及每一初始匹配文本对应的主题图谱，通过图像匹配的方式，生成该输入文本对应的搜索结果，从而在进行文本搜索时，可以利用输入文本对应的目标主题图谱，将与输入文本具有相近含义的待匹配文本也被纳入搜索范围，提升文本的搜索准确度。

其中，作为一种可能的实现方式，为实现步骤237，请参阅图11，图11示出图10中步骤237的子步骤的一种示意性流程图，步骤237可以包括以下子步骤：

步骤237-1，根据计算的每一初始匹配文本对应的主题图谱与目标主题图谱的相似度，获得每一初始匹配文本对应的图像差异评分；

步骤237-3，根据每一初始匹配文本对应的图像差异评分，生成输入文本对应的搜索结果。

在本申请实施例中，在生成输入文本对应的搜索结果时，可以利用例如广域度量、欧氏距离、余弦距离、推土机距离等方式，计算每一初始匹配文本对应的主题图谱与目标主题图谱的相似度，从而获得每一初始匹配文本对应的图像差异评分；比如可以将每一初始匹配文本对应的主题图谱各自与目标主题图谱的相似度，按照一定参数进行缩放后，得到每一初始匹配文本对应的图像差异评分。

然后，根据每一初始匹配文本对应的图像差异评分，可以采用例如按照图像差异评分进行排序，或者是将图像差异评分表征的差异最小的初始匹配文本作为最终匹配文本等方式，生成该输入文本对应的搜索结果。

当然，可以理解的是，上述仅为示意，举例说明部分生成搜索结果的方式，在本申请实施例其他一些可能的实现方式中，还可以采用其他的一些方式生成搜索结果，比如还可以按照图像差异评分，设定比例数量的待匹配文本作为搜索结果，本申请实施例对于搜索结果的生成方式不进行限定。

另外，为具体说明步骤235，请参阅图12，图12示出图10中步骤235的子步骤的一种示意性流程图，作为一种可能的实现方式，步骤235可以包括以下子步骤：

步骤235-1，根据目标文本矩阵中的第一类数据构建坐标图谱；

步骤235-3，将目标文本矩阵中的第二类数据作为图像数据填充至坐标图谱中对应的坐标点，得到主题图谱。

在本申请实施例中，可以参数上述步骤215-3的方式，以上述示例的5列的文本矩阵为例，可以将目标文本矩阵中第一列数据和第二列数据作为第一类数据，构建如图6A所示的坐标图谱；然后，可以将目标文本矩阵中的第三列数据、第四列数据以及第五列数据作为第二数据，从而将第二类数据作为图像数据填充至坐标图谱中对应的坐标点，得到如图6B所示的主题图谱；比如可以将第二类数据作为RGB数据、或者是YUV数据填充至坐标图谱中对应的坐标点，从而得到如图6B所示的主题图谱。

需要说明的是，如图10所示，本申请实施例提供的文本搜索方案包括构建目标数据库以及进行文本搜索两个阶段，在本申请实施例一些可能的实现方式中，构建目标数据库以及进行文本搜索的步骤可以在同一物理设备中实现，比如两个阶段均在如图1中的服务器中实现；而在本申请实施例其他一些可能的实现方式中，构建目标数据库和进行文本搜索的步骤还可以在不同的物理设备中实现，比如可以由终端设备与服务器构成服务系统，终端设备生成并更新目标数据库，然后将生成的目标数据库传输给服务器，再由服务器根据该目标数据库，接收用户的输入文本，从而为用户提供文本搜索服务。

基于与上述文本搜索方法相同的发明构思，请参阅图13，图13示出本申请实施例提供的文本搜索装置300的一种示意性结构框图，该文本搜索装置300包括处理模块301及结果生成模块302。其中：

处理模块301用于，在目标数据库中获得输入文本对应的目标文本矩阵；其中，目标数据库中包含多个文字对应的文字向量，目标文本矩阵为目标文字向量组成的矩阵，目标文字向量为目标数据库中与输入文本对应的文字向量；

处理模块301还用于，根据目标文本矩阵构建输入文本对应的目标主题图谱；

处理模块301还用于，在目标数据库确定出与输入文本对应的多个初始匹配文本以及每一初始匹配文本对应的主题图谱；其中，目标数据库记录有多个待匹配文本以及每一待匹配文本对应的主题图谱，每一初始匹配文本均为多个待匹配文本中的之一；

结果生成模块302用于，根据目标主题图谱以及每一初始匹配文本对应的主题图谱，生成输入文本对应的搜索结果。

可选地，作为一种可能的实现方式，结果生成模块302在根据目标主题图谱以及每一初始匹配文本对应的主题图谱，生成输入文本对应的搜索结果时，具体用于：

根据计算的每一初始匹配文本对应的主题图谱与目标主题图谱的相似度，获得每一初始匹配文本对应的图像差异评分；

根据每一初始匹配文本对应的图像差异评分，生成输入文本对应的搜索结果。

可选地，作为一种可能的实现方式，处理模块301在根据目标文本矩阵构建输入文本对应的目标主题图谱时，具体用于：

根据目标文本矩阵中的第一类数据构建坐标图谱；

将目标文本矩阵中的第二类数据作为图像数据填充至坐标图谱中对应的坐标点，得到主题图谱。

可选地，作为一种可能的实现方式，处理模块301在目标数据库中获得输入文本对应的目标文本矩阵之前，还用于：

获得所有待匹配文本中的所有关键字；

根据每一关键字分别在每一待匹配文本中的词频逆向文件频率，获得每一关键字各自对应的文字向量；

根据每一待匹配文本中包含的所有关键字各自对应的文字向量，构建每一待匹配文本对应的主题图谱，以使所有关键字对应的文字向量和所有待匹配文本对应的主题图谱共同构成目标数据库。

可选地，作为一种可能的实现方式，处理模块301在获得所有待匹配文本中的所有关键字时，具体用于：

获得每一待匹配文本中每一文字各自对应的词频逆向文件频率；

根据每一文字在每一待匹配文本中的词频逆向文件频率，计算每一文字各自对应的重要性评分；

将对应的重要性评分达到设定评分阈值的所有文字确定为关键字。

可选地，作为一种可能的实现方式，重要性评分的计算公式满足如下：

可选地，作为一种可能的实现方式，处理模块301在根据每一待匹配文本中包含的所有关键字各自对应的文字向量，构建每一待匹配文本对应的主题图谱时，具体用于：

根据第一待匹配文本中包含的所有关键字各自对应的文字向量，构建第一待匹配文本对应的第一文本矩阵；其中，第一待匹配文本为多个待匹配文本中的任意之一；

根据第一文本矩阵，构建第一待匹配文本对应的主题图谱。

可选地，作为一种可能的实现方式，处理模块301在根据第一待匹配文本中包含的所有关键字各自对应的文字向量，构建第一待匹配文本对应的第一文本矩阵时，具体用于：

将第一待匹配文本中包含的所有关键字各自对应的文本向量分别作为行元素，构建第一待匹配文本对应的第一初始文本矩阵；

利用隐含狄利克雷分布算法对第一初始文本矩阵进行处理，得到设定维度的第一中间文本矩阵；

利用t-分布领域嵌入算法对第一中间文本矩阵进行处理，得到第一文本矩阵。

可选地，作为一种可能的实现方式，处理模块301在获得所有待匹配文本中的所有关键字之前，还用于：

对每一待匹配文本进行预处理，以剔除每一待匹配文本中设定的字符；

处理模块301在获得所有待匹配文本中的所有关键字时，具体用于：

获得每一预处理后的待匹配文本中的所有关键字。

在本申请所提供的实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本申请实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。

也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。

也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本申请实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器、随机存取存储器、磁碟或者光盘等各种可以存储程序代码的介质。

综上所述，本申请实施例提供的一种文本搜索方法、装置、服务器及存储介质，通过预先设置包括多个文字向量、多个待匹配文本以及与每一待匹配文本对应的主题图谱的目标数据库，从而根据目标数据库获得由输入文本对应的文字向量组成的目标文本矩阵；然后利用该目标文本矩阵构建输入文本对应的目标主题图谱，进而在目标数据库获得与输入文本对应的多个初始匹配文本以及每一初始匹配文本对应的主题图谱后，根据目标主题图谱以及每一初始匹配文本对应的主题图谱，生成输入文本对应的搜索结果，相比于现有技术，能够在进行文本搜索时，利用输入文本对应的目标主题图谱，将与输入文本具有相近含义的待匹配文本也被纳入搜索范围，从而提升文本的搜索准确度。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

对于本领域技术人员而言，显然本申请不限于上述示范性实施例的细节，而且在不背离本申请的精神或基本特征的情况下，能够以其它的具体形式实现本申请。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本申请的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本申请内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

Claims

1.一种文本搜索方法，其特征在于，所述方法包括：

根据所述目标文本矩阵构建所述输入文本对应的目标主题图谱的步骤，包括：

根据所述目标文本矩阵中的第一类数据构建坐标图谱；将所述目标文本矩阵中的第二类数据作为图像数据填充至所述坐标图谱中对应的坐标点，得到所述主题图谱；

根据所述目标主题图谱以及每一所述初始匹配文本对应的主题图谱，生成所述输入文本对应的搜索结果；

根据所述目标主题图谱以及每一所述初始匹配文本对应的主题图谱，生成所述输入文本对应的搜索结果的步骤，包括：

根据计算的每一所述初始匹配文本对应的主题图谱与所述目标主题图谱的相似度，获得每一所述初始匹配文本对应的图像差异评分；根据每一所述初始匹配文本对应的图像差异评分，生成所述输入文本对应的所述搜索结果。

2.如权利要求1所述的方法，其特征在于，在目标数据库中获得输入文本对应的目标文本矩阵的步骤之前，所述方法还包括：

获得所有所述待匹配文本中的所有关键字；

根据每一所述关键字分别在每一所述待匹配文本中的词频逆向文件频率，获得每一所述关键字各自对应的文字向量；

根据每一所述待匹配文本中包含的所有关键字各自对应的文字向量，构建每一所述待匹配文本对应的主题图谱，以使所有所述关键字对应的文字向量和所有所述待匹配文本对应的主题图谱共同构成所述目标数据库。

3.如权利要求2所述的方法，其特征在于，获得所有所述待匹配文本中的所有关键字的步骤，包括：

获得每一所述待匹配文本中每一文字各自对应的词频逆向文件频率；

根据每一所述文字在每一所述待匹配文本中的词频逆向文件频率，计算每一所述文字各自对应的重要性评分；

将对应的重要性评分达到设定评分阈值的所有所述文字确定为所述关键字。

4.如权利要求3所述的方法，其特征在于，所述重要性评分的计算公式满足如下：

p表示文字w在文本d中的位置，

表示文字w在文本d中的词频，

表示文字w的逆向文件频率，

表示中间参数；

表示位置p中的文字对应的影响系数，

表示重要性评分。

5.如权利要求2所述的方法，其特征在于，根据每一所述待匹配文本中包含的所有关键字各自对应的文字向量，构建每一所述待匹配文本对应的主题图谱的步骤，包括：

根据第一待匹配文本中包含的所有关键字各自对应的文字向量，构建所述第一待匹配文本对应的第一文本矩阵；其中，所述第一待匹配文本为所述多个待匹配文本中的任意之一；

根据所述第一文本矩阵，构建所述第一待匹配文本对应的主题图谱。

6.如权利要求5所述的方法，其特征在于，根据第一待匹配文本中包含的所有关键字各自对应的文字向量，构建所述第一待匹配文本对应的第一文本矩阵的步骤，包括：

将所述第一待匹配文本中包含的所有关键字各自对应的文本向量分别作为行元素，构建所述第一待匹配文本对应的第一初始文本矩阵；

利用隐含狄利克雷分布算法对所述第一初始文本矩阵进行处理，得到设定维度的第一中间文本矩阵；

利用t-分布领域嵌入t-SNE算法对所述第一中间文本矩阵进行处理，得到所述第一文本矩阵。

7.如权利要求2所述的方法，其特征在于，在获得所有所述待匹配文本中的所有关键字的步骤之前，所述方法还包括：

对每一所述待匹配文本进行预处理，以剔除每一所述待匹配文本中设定的字符；

获得所有所述待匹配文本中的所有关键字的步骤，包括：

获得每一预处理后的待匹配文本中的所有关键字。

8.一种文本搜索装置，其特征在于，所述装置包括：

所述处理模块还用于，根据所述目标文本矩阵构建所述输入文本对应的目标主题图谱；所述根据所述目标文本矩阵构建所述输入文本对应的目标主题图谱，包括：根据所述目标文本矩阵中的第一类数据构建坐标图谱；将所述目标文本矩阵中的第二类数据作为图像数据填充至所述坐标图谱中对应的坐标点，得到所述主题图谱；所述处理模块还用于，在所述目标数据库确定出与所述输入文本对应的多个初始匹配文本以及每一所述初始匹配文本对应的主题图谱；其中，所述目标数据库记录有多个待匹配文本以及每一所述待匹配文本对应的主题图谱，每一所述初始匹配文本均为所述多个待匹配文本中的之一；

结果生成模块，用于根据所述目标主题图谱以及每一所述初始匹配文本对应的主题图谱，生成所述输入文本对应的搜索结果；所述根据所述目标主题图谱以及每一所述初始匹配文本对应的主题图谱，生成所述输入文本对应的搜索结果，包括：根据计算的每一所述初始匹配文本对应的主题图谱与所述目标主题图谱的相似度，获得每一所述初始匹配文本对应的图像差异评分；根据每一所述初始匹配文本对应的图像差异评分，生成所述输入文本对应的所述搜索结果。

9.一种服务器，其特征在于，包括：

存储器，用于存储一个或多个程序；

处理器；

当所述一个或多个程序被所述处理器执行时，实现如权利要求1-7中任一项所述的方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1-7中任一项所述的方法。