CN111859079B

CN111859079B - 信息搜索方法、装置、计算机设备及存储介质

Info

Publication number: CN111859079B
Application number: CN201910363713.7A
Authority: CN
Inventors: 陈敬; 杨希; 梁俊
Original assignee: China Mobile Communications Group Co Ltd; China Mobile Suzhou Software Technology Co Ltd
Current assignee: China Mobile Communications Group Co Ltd; China Mobile Suzhou Software Technology Co Ltd
Priority date: 2019-04-30
Filing date: 2019-04-30
Publication date: 2023-08-15
Anticipated expiration: 2039-04-30
Also published as: CN111859079A

Abstract

本发明实施例公开了一种信息搜索方法、装置、计算机设备及存储介质，应用于计算机技术领域，所述信息搜索方法包括：获取第一关键词；查询信息库获得与所述第一关键词满足相似度条件的第一信息；提取所述第一信息中的关键字段；将所述关键字段与所述第一关键词进行语义匹配，得到匹配结果；基于所述匹配结果，返回搜索结果。所述信息搜索方法能够在查询到与所述第一关键词满足相似度条件的第一信息的基础上，还会将所述第一关键词与第一信息中的关键字段进行语义匹配，得到最终的匹配结果，使得搜索得到的信息更加准确。

Description

信息搜索方法、装置、计算机设备及存储介质

技术领域

本发明涉及计算机技术领域，尤其涉及一种信息搜索方法、装置、计算机设备及存储介质。

背景技术

目前的搜索技术中，针对信息的搜索，往往只是通过搜索关键词在网络上进行搜索，找到包含有该关键词的相关信息，然而，在搜索到的相关信息中存在大量与搜索关键词不相关的信息，导致利用传统的信息搜索方法得到的搜索的结果往往不尽人意。因此通过搜索关键词能够获得更为准确的搜索结果成为亟需解决的问题。

发明内容

本发明实施例提供了一种信息搜索方法、装置、计算机设备及存储介质。

本发明实施例的技术方案是这样实现的：

本发明实施例提供了一种信息搜索方法，所述方法包括：

获取第一关键词；

查询信息库获得与所述第一关键词满足相似度条件的第一信息；

提取所述第一信息中的关键字段；

将所述关键字段与所述第一关键词进行语义匹配，得到匹配结果；

基于所述匹配结果，返回搜索结果。

上述方案中，所述查询信息库获得与所述第一关键词满足相似条件的第一信息，包括：

将第一关键词与信息库的第二信息进行语义聚类，得到聚类结果；

基于所述聚类结果，从所述第二信息中选择出与所述第一关键词的语义满足相似度条件的第一信息。

上述方案中，所述将所述第一关键词与所述信息库的第二信息进行语义聚类，得到聚类结果，包括：

将所述第一关键词转换成第一语义向量；

将所述第一语义向量与所述第二信息的第二语义向量进行语义聚类，获得聚类结果；

所述基于所述聚类结果，从所述第二信息中选择出与所述第一关键词的语义满足相似度条件的第一信息，包括：

根据所述聚类结果，从所述第二语义向量中选择出与所述第一语义向量满足所述相似度条件的第三语义向量；

根据所述第三语义向量所对应的信息，确定与所述第一关键词满足相似度条件的第一信息。

上述方案中，所述提取所述第一信息中的关键字段，包括：

将所述第一信息拆分成多个字段；

获取任意两个字段之间的语义相似度；

基于任意两个字段之间的语义相似度，确定所述语义相似度大于阈值的字段集；

根据所述字段集的字段数量，对所述字段集进行排序，得到第一排序结果；

根据所述第一排序结果，选出排在前预定位数上对应的字段集；

将选出的所述字段集对应的字段作为所述第一信息中的关键字段。

上述方案中，所述将所述第一关键词与信息库的第二信息进行语义聚类，得到聚类结果，包括：

对所述第一关键词进行扩充处理，得到第二关键词；其中，所述对所述第一关键词进行扩充处理，包括以下至少之一：对所述第一关键词进行同义词扩充；对所述第一关键词进行近义词扩充；对所述第一关键词进行反义词扩充；

将所述第二关键词与信息库的第二信息进行语义聚类，得到聚类结果。

对所述第一关键词进行分词处理，得到第三关键词；

将所述第三关键词与信息库的第二信息进行语义聚类，得到聚类结果。

上述方案中，所述将所述第一语义向量与所述第二信息的第二语义向量进行语义聚类，获得聚类结果，包括：

将所述第二信息的第二语义向量进行降维处理，得到降维的第二语义向量；

将所述第一语义向量与所述降维的第二语义向量进行聚类，获得聚类结果。

上述方案中，所述基于所述匹配结果，返回搜索结果，包括：

根据所述匹配结果，对所述第一信息按照匹配的相似度进行排序，得到第二排序结果；

根据所述第二排序结果，确定所述第一信息在客户端界面的显示顺序；

将所述显示顺序发送至客户端，所述显示顺序用于供所述客户端按照所述显示顺序显示所述第一信息。

本发明实施例还提供一种信息搜索装置，所述装置包括：

获取模块，用于获取第一关键词；

查询模块，用于根据查询信息库获得与所述第一关键词满足相似条件的第一信息；

提取模块，用于提取所述第一信息中的关键字段；

匹配模块，用于将所述关键字段与所述第一关键词进行语义匹配，得到匹配结果；

返回模块，用于基于所述匹配结果，返回搜索结果。

本发明实施例还提供一种计算机设备，包括：处理器和用于存储能够在处理器上运行的计算机程序的存储器，其中所述处理器用于运行所述计算机程序时，实现如上述所述的信息搜索方法。

本发明实施例还提供一种计算机存储介质，存储有可执行程序，所述可执行程序被处理器执行时，实现如上述所述的信息搜索方法。

上述实施例所提供的信息搜索方法、装置、计算机设备及存储介质，通过获取第一关键词；查询信息库获得与所述第一关键词满足相似度条件的第一信息；提取所述第一信息中的关键字段；将所述关键字段与所述第一关键词进行语义匹配，得到匹配结果；基于所述匹配结果，返回搜索结果。也就是说，上述实施例能够基于所述第一关键词对信息库中的信息内容进行两次匹配，第一次是利用所述第一关键词查找信息库中与所述第一关键词满足相似条件的第一信息；第二次是将查找出来的第一信息的关键字段与所述第一关键词进行匹配，得到的匹配结果，如此一来，首先通过第一次搜索得到与所述第一关键词匹配并满足相似度条件的第一信息，然后再根据提取的所述第一信息的关键字段，将所述关键字段与所述第一关键词匹配，得到匹配结果，来获得与第一关键词更为匹配的第一信息，从而使得搜索结果更为准确，提升了用户体验。

附图说明

图1为本发明实施例所提供的信息搜索方法的流程示意图；

图2为本发明具体实施例所提供的信息搜索方法的流程示意图；

图3为本发明具体实施例所提供的信息搜索方法中主题向量表达模型的图形表示示意图；

图4为本发明具体实施例所提供的信息搜索方法的另一流程示意图；

图5为本发明实施例所提供的信息搜索装置的功能结构示意图；

图6为本发明实施例所提供的计算机设备的硬件结构示意图。

具体实施方式

以下结合附图及实施例，对本发明实施例进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本发明。本文所使用的术语“和/或”包括一个或多个相关的所列项目的任意的和所有的组合。

本发明实施例提供的信息搜索方法，应用于计算机设备中，其中，所述计算机设备可以是客户端、服务器，其中，客户端可以包括手机、平板电脑、可穿戴式设备；服务器可以包括：网络服务器、代理服务器、应用程序服务器等。实际上，所述信息搜索方法主要应用于信息搜索的相关应用软件所承载的客户端或相关应用软件的服务商所提供的服务器中。例如与文本信息搜索的相关应用软件包括新闻类应用软件，可在该新闻类应用软件的应用界面搜索新闻文本信息。可以理解的是，用户在使用某一款信息搜索软件进行信息搜索时，计算机设备往往会基于搜索指令中携带的搜索关键词匹配出与所述搜索关键词相关的信息。在本发明实施例中，计算机设备在进行搜索时不仅能够基于搜索关键词匹配出的相关信息，还会再一次将相关信息中的关键字段与搜索关键词进行再次匹配以确保搜索得到的信息的准确性，提升用户体验度。

以下以计算机设备为应用软件的服务商所提供的服务器为例。

本发明实施例提供一种信息搜索方法，图1为本发明实施例所提供的信息搜索方法的流程示意图，如图1所示，所述方法包括以下步骤：

步骤101：获取第一关键词。

这里，所述步骤101可以是由服务器接收客户端发来的第一关键词。需要说明的是，客户端能够获取到用户在搜索框中输入的搜索条件，所述搜索条件可以是文本信息、也可以是图像信息，甚至还可以是语音信息，进一步地，所述客户端能够将搜索条件转换成第一关键词发送至服务器。例如，用户在搜索框中输入的搜索条件是一条语音信息“我是歌手”，则客户端能将该语音信息转换成文字信息“我是歌手”并作为第一关键词上报给服务器。

在另一些实施例中，客户端能够获取到用户在搜索框中输入的搜索条件，将所述搜索条件直接上报给服务器，服务器获取到所述搜索条件，并将所述搜索条件转换成对应的第一关键词。

步骤102：查询信息库获得与所述第一关键词满足相似条件的第一信息。

在一实施方式中，所述查询信息库获得与所述第一关键词满足相似条件的第一信息，具体包括：以第一关键词作为网络爬虫的关键词在网络中爬取与所述第一关键词相关的所有信息。实际上，所述信息库中包含的信息可以理解为整个网络中的所有信息，信息库可以理解为整个网络提供的信息资源。而所述与第一关键词满足相似条件的第一信息，则可以包括所述与第一关键词匹配并且相似度满足设置值的第一信息。

在另一实施方式中，为了减少信息处理量，提高搜索效率，所述查询信息库获得与所述第一关键词满足相似条件的第一信息，具体还包括：以第一关键词作为网络爬虫的关键词在目标查询范围内爬取的与所述第一关键词相关的信息。这里，目标查询范围可以理解为，对网络爬虫设置网址爬取范围，例如，在新闻搜索应用中，可以设置网络爬虫仅在新闻网站上对信息进行搜索；在对微博搜索应用中，可以设置网络爬虫仅在新浪微博网站对信息进行搜索。如此，利用设置目标查询范围，能对所要搜索的信息进行部分限制，过滤掉无关网页的信息搜索，以减少信息处理量，提高信息搜索效率，同时也能保证搜索出的信息的准确性。

在另一实施方式中，所述信息库可以是预先建立好的，具体地，所述信息库中包含有索引关键字及与所述索引关键字匹配的信息。这里，所述步骤102可以包括根据所述第一关键词查询预先建立的所述信息库，确定所述第一关键词对应的索引关键字；基于所述索引关键字，确定所述索引关键字对应的信息；其中，所述索引关键字对应的信息即为与所述第一关键词满足相似条件的第一信息。

在另一实施方式中，所述步骤102，可以包括：将所述第一关键词与信息库中的第二信息进行语义聚类，得到聚类结果；基于所述聚类结果，从所述第二信息中选择出与所述第一关键词的语义满足相似条件的第一信息。

可以理解的是，若所述信息库中包含的信息为整个网络中的所有信息，那么这里的第二信息则可以为整个网络中的所有信息；若所述信息库中包含的信息为目标范围内的网络信息，那么这里的第二信息则可以为目标范围内的网络信息资源。当然，若所述信息库为预先建立好的，则这里的第二信息则为预先建立好的信息库中所保存的信息；在另一些实施方式中，所述第二信息还可以是信息库中与所述第一关键词对应的索引关键字所对应的信息。

这里，服务器会将所述第一关键词与信息库中的第二信息进行语义聚类，得到聚类结果，根据所述聚类结果，从所述第二信息中选择出与所述第一关键词的语义满足相似条件的第一信息。

具体地，服务器将第一关键词与信息库中的第二信息进行语义聚类，得到k个簇，或者是k个类，然后在k个类中选择与所述第一关键词的语义最为接近的预定数量的类；这里，所述聚类结果中对应的语义与所述第一关键词的语义相似度越高，则表明聚类结果中对应的这一类与所述第一关键词的语义最为接近；确定所选择的与所述第一关键词的语义最为接近的预定数量的类对应的信息；将所述选择的与所述第一关键词的语义最为接近的预定数据的类对应的信息作为满足相似度条件的第一信息。

例如，第一关键词为“苹果、诉讼”，根据该第一关键词的语义，找到第二信息中与“苹果、诉讼”语义聚类结果，例如，得到聚类结果中有三个类，一个类是“苹果、产品、官司”，一个类是“苹果、专利、诉讼”，还有一个类是“苹果、爆炸、案件”，在这一聚类结果中，找到与第一关键词语义更为接近预定数量的类，例如，找到与第一关键词语义更为接近的一个类，即找到与第一关键词语义更为接近的“苹果、专利、诉讼”这一类，以使所述第一关键词的语义满足相似条件，从而以选出的这一类对应的信息，作为满足相似条件的第一信息。这里，以“苹果、专利、诉讼”对应的信息为满足相似条件的第一信息。如此，经过对第一关键词与信息库中的第二信息进行语义聚类处理，并根据聚类结果来选择出与所述第一关键词的语义满足相似度条件的第一信息，能够基于聚类结果的选择，将无关的类对应的信息进行剔除，为后续信息处理减少信息处理的数据量，提高了信息搜索效率。

进一步地，在一实施方式中，所述将所述第一关键词与所述信息库的第二信息进行语义聚类，得到聚类结果，包括：对所述第一关键词进行扩充处理，得到第二关键词；其中，所述对所述第一关键词进行扩充处理，包括以下至少之一：对所述第一关键词进行同义词扩充；对所述第一关键词进行近义词扩充；对所述第一关键词进行反义词扩充；将所述第二关键词与所述信息库中的第二信息进行语义聚类，得到聚类结果。

例如，扩充处理可以是在词库中找到第一关键词的同义词、近义词以及反义词进行扩充，例如，“非常好”可以扩充为“非常棒”、“非常厉害”、“极差”等。将扩充处理的“非常棒”、“非常厉害”、“极差”以及第一关键词一起作为第二关键词，如此一来，基于对第一关键词进行了扩充处理，得到第二关键词，再基于第二关键词与所述信息库的第二信息进行语义聚类，能够得到更为全面的搜索结果。

在另一实施方式中，所述将所述第一关键词与所述信息库的第二信息进行语义聚类，得到聚类结果，包括：对所述第一关键词进行分词处理，得到第三关键词；将所述第三关键词与所述信息库的第二信息进行语义聚类，得到聚类结果。

例如，分词处理可以是对第一关键词进行划分，划分成多个词，例如关键词的内容，将关键词划分为多个词，具体地，可以根据上下文的语义进行词的划分，以使得关键词的分词更加准确。例如，对微信朋友圈中发表的“今天天气很好”进行分词处理，得到“今天”“天气”“很好”三个词。将分词处理的“今天”“天气”“很好”以及第一关键词一起作为第三关键词。如此一来，基于对第一关键词进行了分词处理，得到第三关键词，再基于第三关键词与所述信息库的第二信息进行语义聚类，能够得到更为全面的搜索结果，避免搜索信息过程出现信息大量遗漏的现象。

在其他一些实施方式中，服务器对所述第一关键词进行处理的方式还可以包括先对第一关键词进行扩充处理，得到第二关键词；然后基于所述第二关键词，对所述第二关键词进行分词处理，得到第三关键词。当然，服务器对所述第一关键词进行处理的方式还可以包括先对第一关键词进行分词处理，得到第三关键词，然后基于所述第三关键词，对所述第三关键词进行扩充处理，得到第二关键词。总之，无论是先对第一关键词进行分词处理再对分词后的关键词进行扩充处理，还是先对第一关键词进行扩充处理再对扩充处理后的关键词进行分词处理，都能够增加与第一关键词关联的关键词，以增加搜索的关键词，进而得到更为全面的搜索结果，避免搜索信息过程出现信息大量遗漏的现象。

这里，所述将所述第一关键词与所述信息库的第二信息进行语义聚类，得到聚类结果，包括：将所述第一关键词转换第一语义向量；将所述第一语义向量与所述第二信息的第二语义向量进行语义聚类，获取聚类结果；所述基于所述聚类结果，从所述第二信息中选择出与所述第一关键词的语义满足相似度条件的第一信息，包括：根据所述聚类结果，从所述第二语义向量中选择出与所述第一语义向量满足所述相似度条件的第三语义向量；根据所述第三语义向量所对应的信息，确定与所述第一关键词满足所述相似度条件的所述第一信息。如此，通过将第一关键词与所述信息库中的第二信息分别进行语义向量表达，正是由于将信息转换成了语义向量，可以减轻在后续的信息匹配过程中信息处理负担，对语义向量进行聚类能提高信息处理速度，进而节省用户的搜索时间，提高用户体验。

可以理解的是，向量表达实质上是将第一信息以向量的形式表示出来。举个例子，如果第一信息是文本信息，例如可以是以下两个文档，文档一“张三喜欢玩篮球，李四也喜欢”；文档二“张三也喜欢玩足球”，那么在这两个文档中包含了7个不同的关键词，分别是1、“张三”，2、“喜欢”，3、“玩”，4、“篮球”，5、“李四”，6、“也”，7、“足球”，可以将上面的两个文档的每一个用7维向量表示。文档一可以表示为[1，2，1，1，1，1，2]；文档二可以表示为[1，1，1，1，1，0，0]。需要说明的是，向量中每个元素表示词典中相关元素在文档中出现的次数。如此，可以将文档一、文档二分别进行向量表达，得到对应的语义向量。

在一实施方式中，所述将第一语义向量与所述第二信息的第二语义向量进行语义聚类，获得聚类结果，包括：将所述第二信息的第二语义向量进行降维处理，得到降维的第二语义向量；将所述第一语义向量与所述降维的第二语义向量进行聚类，获得聚类结果。具体地，仍以上述的文档一“张三喜欢玩篮球，李四也喜欢”，文档二“张三也喜欢玩足球”为例，文档一、文档二进行向量表达后可以分别得到一个7维向量，但是在文档一、文档二中实际上存在一些无用的信息，例如“也”“玩”等这些信息，在本实施例中，可以在将文档一和文档二进行向量处理时对无用信息进行删除，从而实现对文档一和文档二向量处理时的降维处理，进而得到降维后的语义向量。这里，如果将“也”“玩”删除，那么文档一降维处理后得到的是语义向量是[1，2，1，1，2]；文档二降维处理后得到的是语义向量是[1，1，1，0，0]。这样一来，可以减少后续基于语义向量进行聚类时的信息的计算量，提高搜索处理效率。

当然，在一些实施方式中，将所述第一关键词与信息库的第二信息进行语义聚类之前，服务器会先对所述第二信息进行预处理，所述对所述第二信息进行预处理，可以包括对所述第二信息进行降噪处理。具体地，以所述第二信息为文本信息为例，所述对第二信息进行预处理包括以下至少之一：对第二信息进行特殊标点、特殊词删除处理，得到纯文本信息。如此，可以减少在第二信息进行语义聚类或者对第二信息转换成第二语义向量的过程中，减少信息处理的工作量，提高搜索处理效率。

步骤103：提取所述第一信息中的关键字段。

在一些实施方式中，所述提取所述第一信息中的关键字段，包括：将所述第一信息拆分成多个字段；获取任意两个字段之间的语义相似度；基于任意两个字段之间的语义相似度，确定所述语义相似度大于阈值的字段集；根据所述字段集的字段数量，对所述字段集进行排序，得到第一排序结果；根据所述第一排序结果，选出排在前预定位数上对应的字段集；将选出的所述字段集对应的字段作为所述第一信息中的关键字段。例如，第一信息为一篇“分布式算法”的博文，所述将所述第一信息拆分成多个字段，可以包括将该篇博文拆分成多个句子，这里的字段可以是以句子为单位的字段；所述获取任意两个字段之间的语义相似度，可以包括比较任意两个句子之间的语义相似度，通过比较发现，相似度较高的句子为包含有“分布式”这一语义的句子，以及包含有“算法”这一语义的句子；所述确定所述语义相似度大于阈值的字段集，可以理解为，比如，包含“分布式”语义的句子作为一个字段集，包含“算法”语义的句子作为一个字段集；所述根据所述字段集的字段数量，对所述字段集进行排序，得到第一排序结果，可以理解为，例如，所述“分布式”语义的句子所在的字段集中包含有“分布式”语义的句子有10个；所述“算法”语义的句子所在的字段集中包含有“算法”语义的句子有8个；其他语义的句子均少于8个，那么显然这一排序结果中，所述“分布式”语义的句子所在的字段集排在最先，而后是所述“算法”语义的句子所在的字段集。所述根据第一排序结果，选出排在前预定位数上对应的字段集，可以理解为，假设预定位数为2，这里，选出包含有“分布式”语义的句子以及包含有“算法”语义的句子即可；所述将选出的所述字段集对应的字段作为所述第一信息中的关键字段，可以理解为，选出包含有“分布式”语义的句子以及包含有“算法”语义的句子作为关键语句，从而可以确定出关键字段。通过这种方式，可以自动识别出第一信息的关键内容，或者说是主旨内容，从而能够自动提取出第一信息的关键字段，为后续基于第一信息的关键词进行再一次的匹配提供准确的数据来源，提高了信息搜索的准确性。

在另一实施方式中，所述第一信息为文本信息时，可以基于文本信息中的段落标记，提取文本信息的标题或摘要，然后基于上述方法提取文本信息中标题或摘要的关键字段。如此，可以减少第一信息在提取关键信息时的信息处理量，提高信息处理速度，进而提高搜索效率，提升用户体验。

可以理解的是，在提取所述第一信息的关键字段之前，也包括对第一信息进行预处理，相应地，所述对所述第一信息进行预处理也可以包括对所述第一信息进行降噪处理。具体地，以所述第一信息为文本信息为例，所述对第一信息进行预处理包括以下至少之一：对第一信息进行特殊标点、特殊词删除处理，得到纯文本信息。如此，可以减少在第一信息进行关键字段的提取过程中，减少信息处理的工作量，提高搜索处理效率。

步骤104：将所述关键字段与所述第一关键词进行语义匹配，得到匹配结果。

在步骤104中，服务器会再一次将第一关键词与从步骤103中获得的所述第一信息的关键字段进行匹配，得到匹配结果。例如，以第一信息为文本信息为例，若第一关键词为“苹果、诉讼”，第一信息包括3个文本信息，第一个文本信息的关键字段“苹果、专利、诉讼”；第二个文本信息的关键字段是“华为、专利、诉讼”；第三个文本信息的关键字段“苹果、小贩、诉讼”。根据第一关键词与第一信息中关键字段，得到“苹果、诉讼”分别与“苹果、专利、诉讼”、“华为、专利、诉讼”以及“苹果、小贩、诉讼”的匹配结果。显然，从匹配结果来看，第一个文本信息是与第一关键词最为匹配的文本信息。例如，以图像信息为例，若第一关键词所表征的图像信息为“桂林山水图”，第一信息包括3个图像信息，分别为“桂林市区街景图”、“云南山水图”以及“漓江山水图”，这里，需要说明的是漓江是属于桂林的，根据第一关键词与第一信息中关键字段，得到“桂林山水图”分别与“桂林市区街景图”、“云南山水图”以及“漓江山水图”的匹配结果，显然，“漓江山水图”对应的图像信息是与第一关键词最为匹配的图像信息。

步骤105：基于所述匹配结果，返回搜索结果。

这里，所述基于所述匹配结果，返回搜索结果，包括：根据所述匹配结果，对所述第一信息按照匹配的相似度进行排序，得到第二排序结果；根据所述第二排序结果，确定所述第一信息在客户端界面的显示顺序；将所述显示顺序发送至客户端，所述显示顺序用于供所述客户端按照显示顺序显示所述第一信息。

具体地，以第一信息为文本信息为例，若第一关键词为“苹果、诉讼”，第一信息包括3个文本信息，第一个文本信息的关键字段“苹果、专利、诉讼”；第二个文本信息的关键字段是“华为、专利、诉讼”；第三个文本信息的关键字段“苹果、小贩、诉讼”，将“苹果、诉讼”分别与“苹果、专利、诉讼”、“华为、专利、诉讼”以及“苹果、小贩、诉讼”匹配的相似度进行排序，得到第二排序结果，这里若按照相似度从大到小排序，得到“苹果、专利、诉讼”、“苹果、小贩、诉讼”、“华为、专利、诉讼”分别对应的第一信息的排序；并将这一排序结果确定为显示在客户端界面的显示顺序。也就是说，在本实施例中“苹果、专利、诉讼”对应的第一信息显示在最前面。如此，通过将第一信息按照匹配的相似度排序的方式，可以将与所述第一关键词相似度越大的推送至前排，在保证了搜索的信息的准确性的同时还让用户可以一目了然地找到与第一关键词最相关的第一信息，提升了用户体验。

在另一实施方式中，所述基于所述匹配结果，返回搜索结果，还可以包括，将所述匹配结果转换成相似度值，将第一信息以及第一信息的关键字段与所述第一关键词的相似度值一起作为搜索结果，返回给客户端，从而可以通过客户端的界面显示出第一信息以及第一信息的关键字段与所述第一关键词的相似度值，让用户了解到搜索出的第一信息与第一关键词的匹配情况，有利于用户体验。

上述实施例所提供的信息搜索方法，通过获取第一关键词；查询信息库获得与所述第一关键词满足相似度条件的第一信息；提取所述第一信息中的关键字段；将所述关键字段与所述第一关键词进行语义匹配，得到匹配结果；基于所述匹配结果，返回搜索结果。也就是说，上述实施例能够基于所述第一关键词对信息库中的信息内容进行两次匹配，第一次是利用所述第一关键词查找信息库中的与所述第一关键词满足相似条件的第一信息；第二次是将查找出来的第一信息的关键字段与所述第一关键词进行匹配，得到匹配结果，如此一来，首先通过第一次搜索得到与所述第一关键词匹配并满足相似度条件的第一信息，然后再根据提取的所述第一信息的关键字段，将所述关键字段与所述第一关键词匹配，得到匹配结果，来获得与第一关键词更为匹配的第一信息，从而使得搜索结果更为准确，提升了用户体验。

为了能够便于对本申请实施例所提供的信息搜索方法的进一步理解，提供了一具体实施方式，以所述第一信息为文本信息为例，特别地，所述文本信息又以新闻舆情信息为例。

在自媒体时代，网络新闻已经成为了公众获取新闻的重要途径之一。网络舆情是公众舆情的重要组成部分，对社会舆情的影响力也与日俱增，当今时代网络中的新闻舆情对社会舆情的影响力也不容小觑，因此，国内外的众多研究学者也不断地投入精力在网络舆情信息挖掘分析的研究中。

本实施例中，相对于微博舆情分析而言，新闻舆情具有文本信息较长，且长度不固定的特点，因此，在对其进行搜索匹配时难度较大，且目前的现有技术的算法中不能直接对长文本信息和关键词进行匹配计算，因此，利用关键词对长文本信息进行搜索时，会匹配出较多与所述关键词不相关联的长文本信息，造成搜索结果不准确，导致新闻舆情分析的信息来源不准确等现象，因此，针对此问题本实施例提供一套完整的信息搜索方法，应用于新闻应用服务商提供的服务器中，以解决新闻舆情分析过程中，信息来源不准确的问题。

具体地，请参阅图2，图2为本发明具体实施例所提供的信息搜索方法的流程示意图；如图2所述，所述方法包括：

步骤201：获取用户输入的关键词；这里，所述用户输入的关键词应当理解为上述实施例所述的第一关键词。

步骤202：查找新闻文本数据；这里，根据所述用户输入的关键词查找新闻文本数据。可以理解的是，在该步骤中查找到的新闻文本输数据，可以理解为上述实施例所述的信息库中与所述第一关键词对应的索引关键字对应的信息的第二信息。

具体地，可以根据用户输入的关键词，直接在网页上爬取新闻文本数据，由于爬取得到的新闻文本数据中存在大量的无关信息，因此，步骤203之前，还包括对新闻文本数据进行降噪预处理，具体地，将新闻文本数据中的无关信息，例如特殊标点、停用词等噪声进行删除，只保留能够准确表达该新闻的文本信息。在预处理过程中，主要采用的是正则表达式以及停用词列表的方式对新闻文本数据进行预处理，过滤掉特殊标点和停用词。

步骤203：新闻文本数据主题向量表达；这里，步骤203是对搜索出的新闻文本数据进行向量运算，可以理解为上述实施例所述的将第二信息转换成第二语义向量。

步骤204：关键词主题向量表达；这里，实际上是对用户输入的关键词进行主题向量表达，可以理解为上述实施例所述的将所述第一关键词转换成第一语义向量。

在本实施例中，输入的是经过预处理之后的新闻文本数据和用户输入的关键词，输出的是对上述数据的向量表达。

具体地向量表达的过程为：

对于每个新闻主题t，从D(β)中抽取得到多项式分布φt，即为主题-单词多项式分布M(φt)。

对于新闻文本集的每个文本d，从D(α)中抽取得到多项式分布θd，即为文本-主题多项式分布M(θd)。

对于文本d的每个句子，依照如下步骤依次完成，直到处理完文本集的所有文本。

从已得的多项式分布M(θd)中抽取主题Tds；

根据抽取的主题，由已得的多项式分布M(φt)生成该主题下的单词Wds。

利用采样算法对θ和φ求得近似解。算法的过程为：

选择新闻文本中一个句子的序号作为初始化，统计主题被选择的总次数、每个文本含有的句子数和单词数、句子被分配给主题的次数、单词被分配给主题的次数以及文本中包含的主题数。

设置序号对应的主题为t，将统计次数减1，根据新的统计次数计算、更新序号的主题分布。

根据得到的主题分布，采用随机选择方法选择其中一个主题，将该主题所对应的统计次数加1.

循环步骤1)、2)、3)，直到遍历所有新闻文本中的句子和单词，也就是上述实施例遍历所述的第一信息，更新其主题，即完成一次循环迭代过程。

重复上述步骤，根据设置的迭代次数，直到参数收敛。

第i个句子的主题分布z_i的条件概率计算方法，参见公式(1)；

在文章d中的主题k的近似概率计算方法，参见公式(2)；

在词w中的主题k的概率计算方法，参见公式(3)；

在上述公式中的各个变量所代表的含义如表1所示。

表1

/>

具体地，可参阅图3，图3为本发明具体实施例所提供的信息搜索方法中主题向量表达模型的图形表示示意图。如图3示出的是将新闻文本数据主题向量表达后的图形表示，其中，从a到D表示对文本数据的向量化处理；具体地，利用向量空间模型将文本数据转化为空间向量；从β到N表示对单词的向量化处理；从θ到M表示对句子的向量化处理；从z到N表示对单词的向量化处理；从φ到N则表示直接对单词的向量化处理。也就是说，在本实施例中，主题向量化表达的过程，是按照从文本数据到句子再到单词进行层次化设计，最终处理得到的文本数据的主题向量表达。

步骤205：聚类算法；具体地，步骤205是将新闻文本主题向量表达后得到的第二语义向量与关键词主题向量表达后得到的第一语义向量进行语义聚类，得到聚类结果。

具体地，将主题向量的集合X，通过使用聚类方法，对输入的向量进行聚类，输出为聚类完成的k个簇。其聚类过程为：

(1)选择k个初始中心点，例如c[0]＝X[0],…,c[k-1]＝X[k-1]；

(2)对于X[0]…X[n]，分别与c[0]…c[k-1]比较，假定与c[i]差值最少，就标记为i；

(3)对于所有标记为i点，重新计算c[i]＝{所有标记为i的样本的每个特征的均值}；

(4)重复(2)(3)，直到所有c[i]值的变化小于给定阈值或者达到最大迭代次数。

步骤206：关键语句抽取；可以理解的是，所述关键语句抽取相当于上述实施例所述的提取所述第一信息中的关键字段，这里，所述关键语句的抽取是对新闻文本数据进行关键语句的抽取。

具体地，输入的是用户查询词，也就是用户输入的关键词所在的同一个簇中的新闻文本原文，使用图的排序算法TextRank，输出为每个原文中抽取的k个关键语句。其具体流程为：

(1)首先，将原文本拆分为句子。

(2)每句话作为网页排名算法PageRank中的一个节点。设窗口大小为k，假设一篇文章所组成的句子可以表示为s₁,s₂,s₃,…,s_n。则[s₁,s₂,…,s_k]、[s₂,s₃,…,s_k+1]、[s₃,s₄,…,s_k+2]等都是一个窗口，在一个窗口内任意两个句子之间存在一条无向无权的边。

(3)基于上面的节点和边构成图，可以据此计算出每个节点的重要性。最重要的若干句子可以作为区分文本类别和主题的关键句。

使用如下公式(4)计算两个句子S_i和S_j的相似度：

其中分子是两个句子中都出现的单词数量，S_i是句子i中的单词数。

并对PageRank的公式修改为公式(5)；

其中，d：阻尼系数；WS(V_i)：句子i的权重；WS(V_j)：句子j的权重；w_ji：句子j到句子i之间的边；w_jk：句子j到句子k之间的边。计算出每一个句子的权重，从而确定关键语句。

步骤207：语义匹配算法；实际上，步骤207可以理解为上述实施例所述的将所述关键字段与所述第一关键词进行语义匹配，得到匹配结果。这里，步骤207是将新闻文本数据中抽取的关键语句与用户输入的关键词进行语义匹配。

具体地，请参阅图4，图4为本发明具体实施例所提供的信息搜索方法的另一流程示意图；如图4所示，所述语义匹配的方法流程为：

步骤401：查询词；

这里，所述查询词即为上述所述的用户输入的关键词。以下均以查询词表示。

步骤401实际上是，输入用户的查询词。

步骤402：分词；

这里，实际上是对用户输入的查询词进行分词处理，具体地，所述对用户输入的查询词进行分词处理可以理解为上述实施例所述的对第一关键词进行分词处理，得到第三关键词。

步骤4021：查询词扩充；

这里，实际上是对用户输入的查询词进行扩充处理，在本实施例中，对分词之后的查询词利用神经网络中的词和主题嵌入算法(TWE，Topical Word Embeddings)生成的词向量进行查询词扩充。具体地，所述查询词扩充可以包括对查询词进行同义词扩充、近义词扩充、反义词扩充的至少其中一种。

步骤403：新闻文本关键句；

这里，步骤403实际上是对新闻文本进行关键句的提取，可以理解为上述实施例所述的提取所述第一信息中的关键字段。

步骤404：相似度计算；

这里，所述步骤404可以包括：利用TWE算法计算查询词与新闻文本关键句之间的相似度；对查询词与新闻文本关键句的相似度取平均值，即为新闻文本数据与查询词之间的相似度。

具体地，计算查询词与新闻文本关键句之间的相似度的计算，参见公式(6)；

其中，c表示新闻文本关键句的内容，w表示每个单词，表示单词w的向量表达，/>表示主题z的向量表达。

步骤405：输出。

这里，步骤405实际上是输出上述实施例所述的匹配结果，这里，输出的是第一信息，也就是新闻文本以及第一关键词，也就是查询词与所述第一信息中关键字段，也就是新闻文本的关键句的相似度的平均值。

步骤208：输出与用户输入关键词相关的新闻。

这里，步骤208可以理解为上述实施例所述的基于所述匹配结果，返回搜索结果。这里，输出与用户输入关键词相关的新闻可以理解为上述的搜索结果。

上述实施中，通过对新闻文本数据进行预处理、向量表达、主题聚类、语义匹配等流程，实现了将文本向语义信息的转换，很好地完成了对新闻文本数据的舆情信息匹配工作，相比较传统的方法提高了新闻舆情信息的搜索准确率，使得搜索结果更加准确。

进一步地，由于之前的舆情分析方法多是使用在微博等短文本中，因此并不适用于本实施例所述的新闻文本，长文本的应用场景，单纯将现有的技术应用在本实施例中并不能取得良好的效果，准确性较低。而本实施例提出的信息搜索方法，使准确性相比于原有搜索方法有较大提升。本实施例首先对海量的新闻舆情数据进行向量表达和聚类，并且可以将这一聚类结果存储在信息库中，以便后续的搜索可以离线进行，具体地，在新闻文本数据采集完成后就可以对其进行向量表达和聚类，并进行存储，因此在新闻文本数据的匹配过程中，可以减少大量的工作量，提高了系统的处理速度，节省用户查询时间。另外，本实施例的分析过程是自动化的，无需人工干预和人工编码，大大提升了系统的自动化程序。

进一步地，本发明实施例还提供一种信息搜索装置，图5为本发明实施例所提供的信息搜索装置的功能结构示意图，如图5所示，所述信息搜索装置，包括：获取模块51、查询模块52、提取获取53、匹配模块54及返回模块55；其中，

所述获取模块51，用于获取第一关键词；

所述查询模块52，用于根据查询信息库获得与所述第一关键词满足相似度条件的第一信息；

所述提取模块53，用于提取所述第一信息中的关键字段；

所述匹配模块54，用于将所述关键字段与所述第一关键词进行语义匹配，得到匹配结果；

所述返回模块55，用于基于所述匹配结果，返回搜索结果。

可选地，所述查询模块52，还用于将所述第一关键词与信息库的第二信息进行语义聚类，得到聚类结果；基于所述聚类结果，从所述第二信息中选择出与所述第一关键词的语义满足相似度条件的第一信息。

可选地，查询模块52，具体用于将所述第一关键词转换第一语义向量；将所述第一语义向量与所述第二信息的第二语义向量进行语义聚类，获得聚类结果；根据所述聚类结果，从所述第二语义向量中选择出与所述第一语义向量满足所述相似度条件的第三语义向量；根据所述第三语义向量所对应的信息，确定与所述第一关键词满足相似度条件的第一信息。

可选地，所述提取模块53，具体用于将所述第一信息拆分成多个字段；

获取任意两个字段之间的语义相似度；基于任意两个字段之间的语义相似度，确定所述语义相似度大于阈值的字段集；根据所述字段集的字段数量，对所述字段集进行排序，得到第一排序结果；根据所述第一排序结果，选出排在前预定位数上对应的字段集；将选出的所述字段集对应的字段作为所述第一信息中的关键字段。

可选地，所述查询模块52，具体用于对所述第一关键词进行扩充处理，得到第二关键词；其中，所述对所述第一关键词进行扩充处理，包括以下至少之一：对所述第一关键词进行同义词扩充；对所述第一关键词进行近义词扩充；对所述第一关键词进行反义词扩充；将所述第二关键词与所述信息库的第二信息进行语义聚类，得到聚类结果。

可选地，所述查询模块，具体还用于对所述第一关键词进行分词处理，得到第三关键词；将所述第三关键词与所述信息库的第二信息进行语义聚类，得到聚类结果。

可选地，所述查询模块具体还用于：将所述第二信息的第二语义向量进行降维处理，得到降维的第二语义向量；将所述第一语义向量与所述降维的第二语义向量进行聚类，获得聚类结果。

可选地，所述匹配模块54，还用于根据所述匹配结果，对所述第一信息按照匹配的相似度进行排序，得到第二排序结果；根据所述第二排序结果，确定所述第一信息在客户端界面的显示顺序；将所述显示顺序发送至客户端，所述显示顺序用于供所述客户端按照所述显示顺序显示所述第一信息。

上述实施例提供的信息搜索装置在进行信息搜索时，仅以上述各程序模块的划分进行举例说明，实际应用中，可以根据需要而将上述处理分配由不同的程序模块完成，即将装置的内容结构划分成不同的程序模块，以完成以上描述的全部或者部分处理。另外，上述实施例提供的信息搜索装置与信息搜索方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

如图6所示，本发明实施例还提供了一种计算机设备，所述计算机设备包括存储器62、处理器61及存储在存储器62上并可在处理器61上运行的计算机指令；所述处理器61执行所述指令时实现应用于所述服务器或者客户端中的信息搜索方法的步骤。

在一些实施例中，本发明实施例中的存储器62可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(Read-Only Memory，ROM)、可编程只读存储器(Programmable ROM，PROM)、可擦除可编程只读存储器(Erasable PROM，EPROM)、电可擦除可编程只读存储器(Electrically EPROM，EEPROM)或闪存。易失性存储器可以是随机存取存储器(Random Access Memory，RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(Static RAM，SRAM)、动态随机存取存储器(Dynamic RAM，DRAM)、同步动态随机存取存储器(Synchronous DRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(Double DataRate SDRAM，DDRSDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM，ESDRAM)、同步连接动态随机存取存储器(Synchlink DRAM，SLDRAM)和直接内存总线随机存取存储器(Direct Rambus RAM，DRRAM)。本文描述的系统和方法的存储器62旨在包括但不限于这些和任意其它适合类型的存储器。

而处理器61可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器61中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器61可以是通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(FieldProgrammable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器62，处理器61读取存储器62中的信息，结合其硬件完成上述方法的步骤。

在一些实施例中，本文描述的这些实施例可以用硬件、软件、固件、中间件、微码或其组合来实现。对于硬件实现，处理单元可以实现在一个或多个专用集成电路(Application Specific Integrated Circuits，ASIC)、数字信号处理器(Digital SignalProcessing，DSP)、数字信号处理设备(DSP Device，DSPD)、可编程逻辑设备(ProgrammableLogic Device，PLD)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)、通用处理器、控制器、微控制器、微处理器、用于执行本申请所述功能的其它电子单元或其组合中。

对于软件实现，可通过执行本文所述功能的模块(例如过程、函数等)来实现本文所述的技术。软件代码可存储在存储器中并通过处理器执行。存储器可以在处理器中或在处理器外部实现。

本发明又一实施例提供了一种计算机存储介质，该计算机可读存储介质存储有可执行程序，所述可执行程序被处理器61执行时，可实现应用于所述6服务器或客户端中的程序处理方法的步骤。例如，如图1或图2或图3或图4所示的方法中的一个或多个。

在一些实施例中，所述计算机存储介质可以包括：U盘、移动硬盘、只读存储器(ROM，Read Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

需要说明的是：本发明实施例所记载的技术方案之间，在不冲突的情况下，可以任意组合。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。本发明的保护范围应以所述权利要求的保护范围以准。

Claims

1.一种信息搜索方法，其特征在于，所述方法包括：

获取第一关键词；

提取所述第一信息中的关键字段；

基于所述匹配结果，返回搜索结果；

其中，所述查询信息库获得与所述第一关键词满足相似度条件的第一信息，包括：

将所述第一关键词与信息库中的第二信息进行语义聚类，得到聚类结果；所述信息库中的第二信息为所述信息库中与所述第一关键词对应的索引关键字对应的信息；

基于所述聚类结果，从所述第二信息中选择出与所述第一关键词的语义满足相似度条件的第一信息；

所述将所述第一关键词与信息库的第二信息进行语义聚类，得到聚类结果，包括：

将所述第一关键词转换成第一语义向量；所述第一语义向量为通过主题向量表达模型对输入的所述第一关键词进行向量运算得到的关键词的主题向量表达；

将所述第二信息转换成第二语义向量；所述第一信息为新闻文本数据时，所述第二语义向量为通过所述主题向量表达模型对输入的所述新闻文本数据进行向量运算得到的新闻文本数据的主题向量表达；

将所述第一语义向量与所述第二语义向量进行语义聚类，获得聚类结果；

其中，所述新闻文本数据的主题向量表达通过以下方式生成：

对于所述新闻文本数据中的每个文本d，通过所述主题向量表达模型对每个文本进行向量化处理，以从D(α)中抽取得到文本-主题多项式分布M(θd)；其中，D(α)表示生成每篇新闻文本数据中主题的多项式分布的Dirichlet分布的参数；

对于所述新闻文本数据中的每个新闻主题t，从D(β)中抽取得到主题-单词多项式分布M(φt)；其中，D(β)表示生成新闻文本数据中某个单词的多项式分布的Dirichlet分布的参数；

对于文本d的每个句子，依照如下步骤依次完成，直到处理完所述新闻文本数据中的所有文本：

从所述多项式分布M(θd)中抽取主题Tds；

根据抽取的主题，由所述多项式分布M(φt)生成该主题下的单词Wds。

2.根据权利要求1所述的方法，其特征在于，

3.根据权利要求1所述的方法，其特征在于，所述提取所述第一信息中的关键字段，包括：

将所述第一信息拆分成多个字段；

获取任意两个字段之间的语义相似度；

4.根据权利要求1所述的方法，其特征在于，所述将所述第一关键词与信息库的第二信息进行语义聚类，得到聚类结果，包括：

5.根据权利要求1所述的方法，其特征在于，所述将所述第一关键词与信息库的第二信息进行语义聚类，得到聚类结果，包括：

对所述第一关键词进行分词处理，得到第三关键词；

6.根据权利要求2所述的方法，其特征在于，所述将所述第一语义向量与所述第二语义向量进行语义聚类，获得聚类结果，包括：

7.根据权利要求1所述的方法，其特征在于，所述基于所述匹配结果，返回搜索结果，包括：

8.一种信息搜索装置，其特征在于，所述装置包括：

获取模块，用于获取第一关键词；

查询模块，用于根据查询信息库获得与所述第一关键词满足相似度条件的第一信息；

提取模块，用于提取所述第一信息中的关键字段；

返回模块，用于基于所述匹配结果，返回搜索结果；

其中，所述查询模块，还用于：

所述查询模块，具体用于：

从所述多项式分布M(θd)中抽取主题Tds；

9.一种计算机设备，其特征在于，包括：处理器和用于存储能够在处理器上运行计算机程序的存储器，其中所述处理器用于运行所述计算机程序时，实现权利要求1至7任一项所述的信息搜索方法。

10.一种计算机存储介质，其特征在于，存储有可执行程序，所述可执行程序被处理器执行时，实现如权利要求1至7中任一项所述的信息搜索方法。