CN110516062A

CN110516062A - 一种文档的搜索处理方法及装置

Info

Publication number: CN110516062A
Application number: CN201910792813.1A
Authority: CN
Inventors: 康战辉
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-08-26
Filing date: 2019-08-26
Publication date: 2019-11-29
Anticipated expiration: 2039-08-26
Also published as: CN110516062B

Abstract

本发明提供了一种文档的搜索处理方法、装置、电子设备及存储介质；方法包括：响应于针对文档的搜索请求，确定搜索信息；根据搜索信息，确定对应的至少一个搜索结果；根据搜索结果以及搜索信息，确定搜索结果中相对于搜索信息的实体词；根据搜索结果中相对于搜索信息的实体词以及搜索结果，确定搜索结果的惩罚值；根据搜索结果的惩罚值，确定搜索结果与搜索信息的文本相关度；基于搜索结果与搜索信息的文本相关度，对至少一个搜索结果进行排序，得到用于响应搜索请求的搜索文档。通过本发明，能够根据搜索请求，获得准确的搜索文档。

Description

一种文档的搜索处理方法及装置

技术领域

本发明涉及人工智能的自然语言处理技术，尤其涉及一种文档的搜索处理方法、装置、电子设备及存储介质。

背景技术

自然语言处理(Nature Language Processing，NLP)是计算机科学领域与人工智能领域中的一个重要方向，能实现人与计算机之间用自然语言进行有效通信。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，该领域将涉及自然语言，即人们日常使用的语言，所以它与语言学有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

随着互联网技术的发展，网络信息资源已经成为了隐含巨大价值的网络大数据。由于网络资源信息过大，当用户需要查看某一文档时，无法做到对网络资源信息进行一一查看，来获得用户所需的文档。因此，现有技术提出采用自然语言处理技术的搜索系统，通过搜索系统针对网络资源信息进行搜索，得到用户所需的文档。

虽然，现有的搜索系统在一定程度上缓解了人们在互联网搜索信息的问题。但是，现有的搜索系统往往是基于关键词进行机械式的匹配，不可避免地存在搜索得到文档不准确的问题，例如，用户需要搜索“A公司的财务”，而通过现有的搜索系统得到的搜索文档是“B公司的财务”。

发明内容

本发明实施例提供一种文档的搜索处理方法、装置、电子设备及存储介质，能够根据搜索请求，获得准确的搜索文档。

本发明实施例的技术方案是这样实现的：

响应于针对文档的搜索请求，确定搜索信息；

根据所述搜索信息，确定对应的至少一个搜索结果；

根据所述搜索结果以及所述搜索信息，确定所述搜索结果中相对于所述搜索信息的实体词；

根据所述搜索结果中相对于所述搜索信息的实体词以及所述搜索结果，确定所述搜索结果的惩罚值；

根据所述搜索结果的惩罚值，确定所述搜索结果与所述搜索信息的文本相关度；

基于所述搜索结果与所述搜索信息的文本相关度，对所述至少一个搜索结果进行排序，得到用于响应所述搜索请求的搜索文档。

本发明实施例提供一种文档的搜索处理装置，包括：

响应模块，用于响应于针对文档的搜索请求，确定搜索信息；

第一处理模块，用于根据所述搜索信息，确定对应的至少一个搜索结果；

第二处理模块，用于根据所述搜索结果以及所述搜索信息，确定所述搜索结果中相对于所述搜索信息的实体词；

第三处理模块，用于根据所述搜索结果中相对于所述搜索信息的实体词以及所述搜索结果，确定所述搜索结果的惩罚值；

第四处理模块，用于根据所述搜索结果的惩罚值，确定所述搜索结果与所述搜索信息的文本相关度；

排序模块，用于基于所述搜索结果与所述搜索信息的文本相关度，对所述至少一个搜索结果进行排序，得到用于响应所述搜索请求的搜索文档。

在上述技术方案中，所述第一处理模块还用于对所述搜索信息进行分词处理，得到所述搜索信息中的关键词；

根据所述搜索信息中的关键词进行文档搜索，确定对应的至少一个搜索结果。

在上述技术方案中，所述第二处理模块还用于根据所述搜索信息中的至少一个关键词，确定所述搜索结果中所述关键词的位置；

根据搜索结果中所述关键词的位置，确定所述搜索结果中存在实体词的部分文本；

对所述存在实体词的部分文本进行分词处理，得到所述搜索结果中相对于所述搜索信息的实体词。

在上述技术方案中，所述装置还包括：

第一确定模块，用于根据所述搜索结果以及所述搜索信息，确定所述搜索结果与所述搜索信息的相关度；

所述第四处理模块还用于根据所述搜索结果与所述搜索信息的相关度以及所述搜索结果的惩罚值，得到所述搜索结果与所述搜索信息的文本相关度。

在上述技术方案中，所述第一确定模块还用于确定所述搜索信息中的关键词的权重；

根据所述搜索信息中的关键词以及所述搜索结果，确定所述关键词与所述搜索结果的相关度；

对所述关键词的权重、以及所述关键词与所述搜索结果的相关度进行加权求和，得到所述搜索结果与所述搜索信息的相关度。

在上述技术方案中，所述第一确定模块还用于根据所述搜索信息中的关键词，确定文档库中包含所述关键词的文档数量；

根据文档库中的文档数量、以及文档库中包含所述关键词的文档数量，得到所述关键词的权重。

在上述技术方案中，所述第一确定模块还用于根据所述搜索信息中的关键词，确定所述关键词在所述搜索结果中出现的频率；

确定所述搜索结果的长度与文档库中文档的平均长度的第一比值，得到所述搜索结果的相对长度；

获得所述关键词在所述搜索结果中出现的频率与所述搜索结果的相对长度的第二比值；

根据所述第二比值与相关度的映射关系、以及所述第二比值，生成所述关键词与所述搜索结果的相关度。

在上述技术方案中，所述第三处理模块还用于根据所述实体词以及所述搜索结果，确定所述实体词在所述搜索结果中出现的频率；

根据所述实体词在所述搜索结果中出现的频率，确定所述搜索结果的惩罚值。

在上述技术方案中，所述装置还包括：

第二确定模块，用于根据所述搜索信息中的至少一个关键词，确定所述搜索结果中所述关键词的位置；

根据所述搜索结果中所述实体词的位置、以及所述搜索结果中所述关键词的位置，确定所述搜索结果中所述实体词相对于所述关键词的距离；

所述第三处理模块还用于根据所述搜索结果中所述实体词相对于所述关键词的距离、以及所述实体词在所述搜索结果中出现的频率，确定所述搜索结果的惩罚值。

本发明实施例提供一种文档的搜索处理设备，包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现本发明实施例提供的文档的搜索处理方法。

本发明实施例提供一种存储介质，存储有可执行指令，用于引起处理器执行时，实现本发明实施例提供的文档的搜索处理方法。

本发明实施例具有以下有益效果：

1)通过识别搜索结果中相对于搜索信息的实体词，并根据该实体词所确定出的惩罚值来确定搜索结果与搜索信息的文本相关度，从而获得准确的搜索文档，提高用户的体验感；

2)基于搜索结果与搜索信息的文本相关度，对搜索结果进行排序，得到用户所需的至少一个搜索文档，满足用户搜索文档的需求。

附图说明

图1是本发明实施例提供的文档的搜索处理方法的一个可选的应用场景10示意图；

图2是本发明实施例提供的文档的搜索处理设备500的结构示意图；

图3-6是本发明实施例提供的文档的搜索处理方法的流程示意图；

图7是本发明实施例提供的一种文档结果示意图；

图8是本发明实施例提供的另一种文档结果示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，所描述的实施例不应视为对本发明的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解，“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

在以下的描述中，所涉及的术语“第一\第二\第三\第四\第五”仅仅是是区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一\第二\第三\第四\第五”在允许的情况下可以互换特定的顺序或先后次序，以使这里描述的本发明实施例能够以除了在这里图示或描述的以外的顺序实施。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本发明实施例的目的，不是旨在限制本发明。

对本发明实施例进行进一步详细说明之前，对本发明实施例中涉及的名词和术语进行说明，本发明实施例中涉及的名词和术语适用于如下的解释。

1)语义漂移：语言的含义发生改变，即通过搜索系统得到的搜索文档的含义、与用户所需的文档的含义不同。例如，用户需要的文档是“A公司的财务”，而通过搜索系统得到的搜索文档是“B公司的财务”，则“A公司的财务”与“B公司的财务”的含义完全不同，发生了语义漂移。

2)分词：将连续的字序列按照一定的规范重新组合成词序列的过程。通过让计算机模拟人对句子的理解，达到识别词的效果。

3)实体词：实体是指能够独立存在的、作为一切属性的基础和万物本原的东西，即实体词是指能够表示实体的词语。名词与代词为实体词，例如“A公司”、“B公司”为实体词。

4)召回(Recall)：从文档库中检索出相关文档。

下面分析相关技术提供的关于文档的搜索处理的方案。

在相关技术中，可以根据搜索信息和搜索文档中命中词的词权重或者位置等信息，计算搜索信息和搜索文档之间的文本相关度，从而根据搜索信息和搜索文档之间的文本相关度得到用户所需的搜索文档。例如，搜索信息为“A公司财报”，搜索系统召回4个文档，其中，文档1为“……A公司今天发布了最新财报……”，文档2为“A公司发布一款新游戏……”，文档3为“财报季到了……，A公司新闻报道”，文档4为“……A公司大跌，B公司财报今日发布”，通过计算搜索信息和搜索文档之间的文本相关度，得到该4个文档的文本相关度的排序，即文档2<文档3<文档1～文档4。

通过人为判断4个文档的文本相关度可知，文档1和文档3都是关于A公司的财报信息，即文档1和文档3的文本相关度基本相同。并且，文档4是关于B公司的财务，并不是A公司的财报，即文档4的文本相关度应该小于文档1的文本相关度。但是，通过上述搜索系统得到的4个文档的文本相关度的排序，文档4的文本相关度和文档1的文本相关度相同。因此，搜索信息发生了明显的语义漂移，得到的搜索文档的准确性比较差，没有根据实际情况向用户推荐合适的文档。

基于此，本发明实施例的文档的搜索处理通过识别搜索结果中相对于搜索信息的实体词、即搜索结果与搜索信息的命中词的上下文信息(存在语义漂移)，并根据该实体词所确定出的惩罚值来确定搜索结果与搜索信息的文本相关度，即去除语义漂移的影响，从而获得准确的搜索文档，提高用户的体验感。

鉴于此，本发明实施例提供了一种文档的搜索处理方法、装置、电子设备及存储介质，能够根据搜索请求，获得准确的搜索文档。下面说明本发明实施例提供的文档的搜索处理设备的示例性应用，本发明实施例提供的文档的搜索处理设备可以是服务器，例如部署在云端的服务器，根据用户提供的搜索信息，向用户提供搜索信息对应的搜索文档；也可是笔记本电脑，平板电脑，台式计算机，移动设备(例如，移动电话，个人数字助理)等各种类型的用户终端，例如手持终端，根据用户在手持终端上输入的搜索信息，获得相应的搜索文档，并显示在手持终端的显示界面上，以实现手持终端与用户的交互过程。

参见图1，图1是本发明实施例提供的文档的搜索处理方法的一个可选的应用场景10示意图，终端200通过网络300连接服务器100，网络300可以是广域网或者局域网，又或者是二者的组合。

终端200可以被用来获取搜索请求，例如，当用户通过输入界面输入搜索信息，输入完成后，终端自动获取搜索请求。

在一些实施例中，终端200本地执行本发明实施例提供的文档的搜索处理方法来完成根据当前用户输入的搜索信息，得到准确的搜索文档，例如，在终端200上安装应用(Application，APP)，如百度APP，用户在百度APP中输入搜索信息，终端200根据搜索信息进行一系列的搜索处理，获得准确的搜索文档，并将该搜索文档显示在终端200的显示界面210上。

终端200也可以通过网络300向服务器100发送用户在终端200上输入的搜索信息，并调用服务器100提供的文档的搜索处理功能，服务器100通过本发明实施例提供的文档的搜索处理方法获得准确的搜索文档，例如，在终端200上安装百度APP，用户在百度APP中输入搜索信息，终端200通过网络300向服务器100发送与搜索信息对应的搜索请求，服务器100根据搜索请求进行一系列的搜索处理，获得准确的搜索文档，并返回该搜索文档至百度APP，将搜索文档显示在终端200的显示界面上。

继续说明本发明实施例提供的文档的搜索处理设备的结构，文档的搜索处理设备可以是各种终端，例如手机、电脑等，也可以是如图1示出的服务器100。

参见图2，图2是本发明实施例提供的文档的搜索处理设备500的结构示意图，图2所示的文档的搜索处理设备500包括：至少一个处理器510、存储器550、至少一个网络接口520和用户接口530。文档的搜索处理设备500中的各个组件通过总线系统540耦合在一起。可理解，总线系统540用于实现这些组件之间的连接通信。总线系统540除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图2中将各种总线都标为总线系统540。

处理器510可以是一种集成电路芯片，具有信号的处理能力，例如通用处理器、数字信号处理器(DSP，Digital Signal Processor)，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其中，通用处理器可以是微处理器或者任何常规的处理器等。

用户接口530包括使得能够呈现媒体内容的一个或多个输出装置531，包括一个或多个扬声器和/或一个或多个视觉显示屏。用户接口530还包括一个或多个输入装置532，包括有助于用户输入的用户接口部件，比如键盘、鼠标、麦克风、触屏显示屏、摄像头、其他输入按钮和控件。

存储器550包括易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(ROM，Read Only Memory)，易失性存储器可以是随机存取存储器(RAM，Random Access Memory)。本发明实施例描述的存储器550旨在包括任意适合类型的存储器。存储器550可选地包括在物理位置上远离处理器510的一个或多个存储设备。

在一些实施例中，存储器550能够存储数据以支持各种操作，这些数据的示例包括程序、模块和数据结构或者其子集或超集，下面示例性说明。

操作系统551，包括用于处理各种基本系统服务和执行硬件相关任务的系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务；

网络通信模块552，用于经由一个或多个(有线或无线)网络接口520到达其他计算设备，示例性的网络接口520包括：蓝牙、无线相容性认证(WiFi)、和通用串行总线(USB，Universal Serial Bus)等；

显示模块553，用于经由一个或多个与用户接口530相关联的输出装置531(例如，显示屏、扬声器等)使得能够呈现信息(例如，用于操作外围设备和显示内容和信息的用户接口)；

输入处理模块554，用于对一个或多个来自一个或多个输入装置532之一的一个或多个用户输入或互动进行检测以及翻译所检测的输入或互动。

在一些实施例中，本发明实施例提供的文档的搜索处理装置可以采用软硬件结合的方式实现，作为示例，本发明实施例提供的文档的搜索处理装置可以是采用硬件译码处理器形式的处理器，其被编程以执行本发明实施例提供的文档的搜索处理方法，例如，硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC，ApplicationSpecific Integrated Circuit)、DSP、可编程逻辑器件(PLD，Programmable LogicDevice)、复杂可编程逻辑器件(CPLD，Complex Programmable Logic Device)、现场可编程门阵列(FPGA，Field-Programmable Gate Array)或其他电子元件。

在另一些实施例中，本发明实施例提供的文档的搜索处理装置可以采用软件方式实现，图2示出了存储在存储器550中的文档的搜索处理装置555，其可以是程序和插件等形式的软件，并包括一系列的模块，包括响应模块5551、第一处理模块5552、第二处理模块5553、第三处理模块5554、第四处理模块5555以及排序模块5556；其中，响应模块5551、第一处理模块5552、第二处理模块5553、第三处理模块5554、第四处理模块5555以及排序模块5556用于实现本发明实施例提供的文档的搜索处理方法。

结合本发明实施例提供的终端的示例性应用和实施，说明本发明实施例提供的文档的搜索处理方法，根据上文可以理解，本发明实施例提供的文档的搜索处理方法可以由各种类型的文档的搜索处理设备实施，例如智能终端和服务器等。

下面结合本发明实施例提供的服务器的示例性应用和实施，说明本发明实施例提供的文档的搜索处理方法。参见图3，图3是本发明实施例提供的文档的搜索处理方法的流程示意图，结合图3示出的步骤进行说明。

在步骤101中，响应于针对文档的搜索请求，确定搜索信息。

用户可以通过终端的输入界面输入针对文档的搜索信息，输入完成后，终端自动获取搜索请求，并向服务器发送该搜索请求。服务器接收到该搜索请求后，响应于针对文档的搜索请求，确定搜索请求中的搜索信息。例如，用户在终端的输入界面上完成“A公司财报”的输入，终端即可向服务器发送针对“A公司财报”的搜索请求，服务器接收到“A公司财报”的搜索请求后，确定“A公司财报”的搜索信息。

在步骤102中，根据搜索信息，确定对应的至少一个搜索结果。

当服务器确定出搜索信息后，可以根据搜索信息，在文档库中大致确定出对应搜索信息的至少一个搜索结果，该文档库可以是用户预先在服务器中设备的针对文档搜索的数据库；也可以是用户在其他设备上设置的针对文档搜索的数据库，当服务器需要进行文档搜索时，服务器可以与其他设备进行交互以进行文档搜索，得到对应的搜索结果。

在一些实施例中，根据搜索信息，确定对应的至少一个搜索结果，包括：对搜索信息进行分词处理，得到搜索信息中的关键词；根据搜索信息中的关键词进行文档搜索，确定对应的至少一个搜索结果。

在服务器确定出搜索信息后，可以对搜索信息进行分词处理，即将搜索信息中连续的字序列按照一定的规范进行分割，重新组合成词序列，并对词序列进行筛选，得到搜索信息中的关键词，并根据搜索信息中的关键词在文档库中进行文档搜索，确定对应的至少一个搜索结果。

举例来说，服务器确定出“A公司的财报”的搜索信息后，对“A公司财报”进行分词处理，得到“A公司”、“的”以及“财报”的词序列，对词序列进行筛选，得到搜索信息中的关键词“A公司”和“财报”，根据“A公司”、“的”和“财报”在文档库中进行文档搜索，确定出4个文档、即4个搜索结果。

在步骤103中，根据搜索结果以及搜索信息，确定搜索结果中相对于搜索信息的实体词。

服务器确定出至少一个搜索结果后，可以根据搜索结果以及搜索信息中的关键词，确定出搜索结果中相对于搜索信息的实体词、即搜索结果中相对于关键词的实体词，该实体词与搜索信息中的关键词或实体词并不相同。

参见图4，图4是本发明实施例提供的一个可选的流程示意图，在一些实施例中，图3示出步骤103可以通过图4示出的步骤1031至步骤1033实现。

在步骤1031中，根据搜索信息中的至少一个关键词，确定搜索结果中关键词的位置。

在服务器获取了搜索信息后，可以对该搜索信息进行分词，获得搜索信息中的至少一个关键词，并根据该至少一个关键词，确定搜索结果中的该关键词的位置。

举例来说，服务器确定出搜索信息中的关键词“A公司”和“财报”，以及搜索结果为“A公司大跌，B公司财报今日发布”，则根据关键词“A公司”和“财报”、以及搜索结果“A公司大跌，B公司财报今日发布”，确定出关键词“A公司”在搜索结果的位置1，关键词“财报”在搜索结果的位置4，其中“大跌”在搜索结果的位置2，“B公司”在搜索结果的位置3。

在步骤1032中，根据搜索结果中关键词的位置，确定搜索结果中存在实体词的部分文本。

当确定出搜索结果中关键词的位置后，可以确定出搜索结果中处于关键词位置之间的部分文本、即搜索结果中存在实体词的部分文本。

举例来说，当搜索结果为“A公司大跌，B公司财报今日发布”时，服务器确定出搜索信息中的关键词“A公司”在搜索结果的位置1，关键词“财报”在搜索结果的位置4，则可以确定出搜索结果中存在实体词的部分文本“大跌，B公司”。

在步骤1033中，对存在实体词的部分文本进行分词处理，得到搜索结果中相对于搜索信息的实体词。

在服务器根据搜索结果中关键词的位置，获得存在实体词的部分文本后，可以对存在实体词的部分文本进行分词处理，得到搜索结果中相对于搜索信息的实体词。

举例来说，对存在实体词的部分文本“大跌，B公司”进行分词，得到“大跌”以及“B公司”的词序列，对“大跌”以及“B公司”进行筛选，得到搜索结果中相对于搜索信息的实体词、即“B公司”，该“B公司”不同于“A公司”。

在步骤104中，根据搜索结果中相对于搜索信息的实体词以及搜索结果，确定搜索结果的惩罚值。

当服务器确定出搜索结果中相对于搜索信息的实体词后，可以根据该实体词以及搜索结果，确定出搜索结果的惩罚值，该惩罚值用于降低搜索结果与搜索信息的文本相关度，从而去除搜索结果中实体词对搜索文档的影响，即去除语义漂移的影响。

在一些实施例中，根据搜索结果中相对于搜索信息的实体词以及搜索结果，确定搜索结果的惩罚值，包括：根据实体词以及搜索结果，确定实体词在搜索结果中出现的频率；根据实体词在搜索结果中出现的频率，确定搜索结果的惩罚值。

当服务器确定出搜索结果中相对于搜索信息的实体词后，可以统计该实体词在搜索结果中出现的频率，并根据该实体词在搜索结果中出现的频率，确定搜索结果的惩罚值，即实体词在搜索结果中出现的频率与搜索结果的惩罚值成正比，当实体词在搜索结果中出现的频率越高，说明该实体词在搜索结果中比较重要，可能是搜索结果中的主体，因此，搜索结果的惩罚值越高，以降低搜索结果与搜索信息的文本相关度。

在一些实施例中，可以根据搜索信息中的至少一个关键词，确定搜索结果中关键词的位置；根据搜索结果中实体词的位置、以及搜索结果中关键词的位置，确定搜索结果中实体词相对于关键词的距离。

当服务器对搜索信息进行分词后，得到搜索信息中的至少一个关键词，并根据该关键词，获得搜索结果中该关键词的位置。服务器还可以获得搜索结果中实体词的位置，根据搜索结果中关键词的位置以及搜索结果中实体词的位置，可以得到搜索结果中实体词相对于关键词的距离。其中，搜索结果中实体词相对于关键词的距离、与搜索结果的惩罚值成反比，即搜索结果中实体词相对于关键词的距离越近，搜索结果的惩罚值越大。

服务器可以根据搜索结果中实体词相对于关键词的距离、以及实体词在搜索结果中出现的频率，确定搜索结果的惩罚值。即搜索结果的惩罚值与搜索结果中实体词相对于关键词的距离、以及实体词在搜索结果中出现的频率有关。

在一些实施例中，根据搜索结果中相对于搜索信息的实体词以及搜索结果，确定搜索结果的惩罚值，包括：根据实体词以及搜索结果，确定实体词在搜索结果中出现的频率；根据实体词在搜索结果中出现的频率以及搜索结果中的词数量，确定实体词的权重；根据实体词的权重，确定搜索结果的惩罚值。

该实体词的权重与搜索结果的惩罚值成正比，当该实体词的权重越大，说明该实体词在搜索结果中比较重要，可能是搜索结果中的主体，因此，搜索结果的惩罚值越高，以降低搜索结果与搜索信息的文本相关度。

在一些实施例中，根据搜索结果中相对于搜索信息的实体词以及搜索结果，确定搜索结果的惩罚值，包括：根据实体词，确定文档库中包含实体词的文档数量；根据文档库中的文档数量、以及文档库中包含实体词的文档数量，得到实体词的逆向文件频率；根据实体词的逆向文件频，确定搜索结果的惩罚值。

当服务器确定出搜索结果中相对于搜索信息的实体词后，可以统计文档库中包含实体词的文档数量，并根据文档库中的文档数量、以及文档库中包含实体词的文档数量，得到实体词的逆向文件频率，根据实体词的逆向文件频率，确定搜索结果的惩罚值，即实体词的逆向文件频率与搜索结果的惩罚值成正比，当实体词在文档库的文档中出现频率越高，说明该实体词在文档库中比较重要，因此，搜索结果的惩罚值越高，以降低搜索结果与搜索信息的文本相关度。

在一些实施例中，可以根据用户的需求，对搜索结果的惩罚值进行设置，可以根据实体词在搜索结果中出现的频率、和/或搜索结果中实体词相对于关键词的距离、和/或实体词的权重、和/或实体词的逆向文件频，确定搜索结果的惩罚值。

在步骤105中，根据搜索结果的惩罚值，确定搜索结果与搜索信息的文本相关度。

该搜索结果的惩罚值用于降低搜索结果与搜索信息的文本相关度，即搜索结果的惩罚值与搜索结果与搜索信息的文本相关度成反比，当搜索结果的惩罚值越高，搜索结果与搜索信息的文本相关度越低；当搜索结果的惩罚值越低，搜索结果与搜索信息的文本相关度越高。

在步骤106中，基于搜索结果与搜索信息的文本相关度，对至少一个搜索结果进行排序，得到用于响应搜索请求的搜索文档。

当服务器确定出搜索结果与搜索信息的文本相关度后，可以基于搜索结果与搜索信息的文本相关度，对至少一个搜索结果进行排序，得到用于响应搜索请求的搜索文档。其中搜索文档可以是文本相关度最高的文档，也可以是对至少一个搜索结果进行降序排序后，得到的排序后的搜索结果。

举例来说，对至少一个搜索结果进行降序排序后，得到的排序后的搜索结果。当搜索信息为“A公司的财报”，搜索系统召回4个文档、即4个搜索结果，其中，文档1为“……A公司今天发布了最新财报……”，文档2为“A公司发布一款新游戏……”，文档3为“财报季到了……，A公司新闻报道”，文档4为“……A公司大跌，B公司财报今日发布”。如图7所示，搜索信息701为“A公司的财报”，当未使用本发明实施例中的文档的搜索处理方法，得到的排序后的搜索结果702，即4个文档的文本相关度的大小为文档2<文档3<文档1<文档4。实际上，文档4发生了语义漂移，即文档4的文本相关度应该小于文档1的相关度。如图8所示，搜索信息701为“A公司的财报”，当使用本发明实施例中的文档的搜索处理方法，得到的排序后的搜索结果703，即4个文档的文本相关度的大小为文档2<文档4<文档3<文档1。

在一些实施例中，参见图5，图5是本发明实施例提供的文档的搜索处理方法的一个可选的流程示意图，基于图3，在根据搜索信息，确定对应的至少一个搜索结果之后，在步骤107中，根据搜索结果以及搜索信息，确定搜索结果与搜索信息的相关度。对应的，在步骤105中，根据搜索结果与搜索信息的相关度以及搜索结果的惩罚值，得到搜索结果与搜索信息的文本相关度。

当服务器根据搜索信息，获得对应的至少一个搜索结果之后，还可以根据搜索结果以及搜索信息，得到搜索结果与搜索信息的相关度，并根据搜索结果与搜索信息的相关度、与搜索结果的惩罚值，确定搜索结果与搜索信息的文本相关度。其中，搜索结果与搜索信息的相关度、与搜索结果与搜索信息的文本相关度有关联，即搜索结果与搜索信息的相关度对搜索结果与搜索信息的文本相关度有影响，一般情况下，搜索结果与搜索信息的相关度越高，搜索结果与搜索信息的文本相关度越高。但是，当搜索结果存在语义漂移时，搜索结果与搜索信息的相关度越高，搜索结果与搜索信息的文本相关度可能还会越低。因此，根据搜索结果与搜索信息的相关度、与搜索结果的惩罚值，可以确定出准确的搜索结果与搜索信息的文本相关度。

参见图6，图6是本发明实施例提供的文档的搜索处理方法的一个可选的流程示意图，基于图5，图6示出步骤107可以通过图6示出的步骤1071至步骤1033实现。

在步骤1071中，确定搜索信息中的关键词的权重。

为了根据搜索结果以及搜索信息，确定出搜索结果与搜索信息的相关度，可以先对搜索信息进行分词，得到搜索信息中的关键词以及对应的权重。

在一些实施例中，确定搜索信息中的关键词的权重，包括：根据搜索信息中的关键词，确定文档库中包含关键词的文档数量；根据文档库中的文档数量、以及文档库中包含关键词的文档数量，得到关键词的权重。

在服务器获得搜索信息的关键词后，可以根据搜索信息的关键词对文档库进行搜索，统计出文档库中包含关键词的文档数量，并计算文档库中的文档数量与文档库中包含关键词的文档数量的比值，得到关键词的权重。当搜索信息的关键词在文档库中出现的频率越高，说明该搜索信息的关键词越的区分度越低，即该搜索信息的关键词的权重越小。

在步骤1072中，根据搜索信息中的关键词以及搜索结果，确定关键词与搜索结果的相关度。

为了根据搜索结果以及搜索信息，确定出搜索结果与搜索信息的相关度，可以先根据搜索信息中的关键词以及搜索结果，确定关键词与搜索结果的相关度，以便后续根据关键词与搜索结果的相关度确定出搜索结果与搜索信息的相关度。

在一些实施例中，根据搜索信息中的关键词以及搜索结果，确定关键词与搜索结果的相关度，包括：根据搜索信息中的关键词，确定关键词在搜索结果中出现的频率；计算搜索结果的长度与文档库中文档的平均长度的第一比值，得到搜索结果的相对长度；获得关键词在搜索结果中出现的频率与搜索结果的相对长度的第二比值；根据第二比值与相关度的映射关系、以及第二比值，生成关键词与搜索结果的相关度。

服务器可以对搜索信息进行分词处理，得到搜索信息中的关键词，并根据该关键词，统计出该关键词在搜索结果中出现的频率，以便后续根据该关键词在搜索结果中出现的频率确定关键词与搜索结果的相关度。

服务器还可以根据搜索结果，获得搜索结果的长度、即搜索结果的字数。服务器还可以获得文档库中文档的平均长度、即文档库中文档的平均字数。计算搜索结果的长度与文档库中文档的平均长度的第一比值，得到搜索结果的相对长度。当搜索结果的相对长度越大，说明搜索结果包含关键词的概率也就越大，实际上，关键词与搜索结果的相关度也就越低。

在服务器获得了关键词在搜索结果中出现的频率与搜索结果的相对长度后，计算关键词在搜索结果中出现的频率与搜索结果的相对长度的第二比值，该第二比值、与关键词与搜索结果的相关度成正比，即第二比值越大，该关键词与搜索结果的相关度越高。

服务器还可以通过其他的调节因子，调节关键词与搜索结果的相关度。因此，根据第二比值与相关度的映射关系(调节因子)、以及第二比值，生成关键词与搜索结果的相关度，该关键词与搜索结果的相关度用于表示关键词与搜索结果的关联程度。

在步骤1073中，对关键词的权重、以及关键词与搜索结果的相关度进行加权求和，得到搜索结果与搜索信息的相关度。

关键词的权重、与搜索结果与搜索信息的相关度成正比关系，即关键词的权重越大，搜索结果与搜索信息的相关度越高。关键词与搜索结果的相关度、与搜索结果与搜索信息的相关度成正比关系，即关键词与搜索结果的相关度越大，搜索结果与搜索信息的相关度越高。将关键词的权重、以及关键词与搜索结果的相关度进行加权求和，可以得到搜索结果与搜索信息的相关度。

至此已经结合本发明实施例提供的服务器的示例性应用和实施，说明本发明实施例提供的文档的搜索处理方法，下面继续说明本发明实施例提供的文档的搜索处理装置555中各个模块配合实现文档的搜索处理的方案。

响应模块5551，用于响应于针对文档的搜索请求，确定搜索信息；第一处理模块5552，用于根据所述搜索信息，确定对应的至少一个搜索结果；第二处理模块5553，用于根据所述搜索结果以及所述搜索信息，确定所述搜索结果中相对于所述搜索信息的实体词；第三处理模块5554，用于根据所述搜索结果中相对于所述搜索信息的实体词以及所述搜索结果，确定所述搜索结果的惩罚值；第四处理模块5555，用于根据所述搜索结果的惩罚值，确定所述搜索结果与所述搜索信息的文本相关度；排序模块5556，用于基于所述搜索结果与所述搜索信息的文本相关度，对所述至少一个搜索结果进行排序，得到用于响应所述搜索请求的搜索文档。

在一些实施例中，所述第一处理模块5552还用于对所述搜索信息进行分词处理，得到所述搜索信息中的关键词；根据所述搜索信息中的关键词进行文档搜索，确定对应的至少一个搜索结果。

在一些实施例中，所述第二处理模5553块还用于根据所述搜索信息中的至少一个关键词，确定所述搜索结果中所述关键词的位置；根据搜索结果中所述关键词的位置，确定所述搜索结果中存在实体词的部分文本；对所述存在实体词的部分文本进行分词处理，得到所述搜索结果中相对于所述搜索信息的实体词。

在一些实施例中，所述装置555还包括：第一确定模块5557，用于根据所述搜索结果以及所述搜索信息，确定所述搜索结果与所述搜索信息的相关度；所述第四处理模块5555还用于根据所述搜索结果与所述搜索信息的相关度以及所述搜索结果的惩罚值，得到所述搜索结果与所述搜索信息的文本相关度。

在一些实施例中，所述第一确定模块5557还用于确定所述搜索信息中的关键词的权重；根据所述搜索信息中的关键词以及所述搜索结果，确定所述关键词与所述搜索结果的相关度；对所述关键词的权重、以及所述关键词与所述搜索结果的相关度进行加权求和，得到所述搜索结果与所述搜索信息的相关度。

在一些实施例中，所述第一确定模块5557还用于根据所述搜索信息中的关键词，确定文档库中包含所述关键词的文档数量；根据文档库中的文档数量、以及文档库中包含所述关键词的文档数量，得到所述关键词的权重。

在一些实施例中，所述第一确定模块5557还用于根据所述搜索信息中的关键词，确定所述关键词在所述搜索结果中出现的频率；确定所述搜索结果的长度与文档库中文档的平均长度的第一比值，得到所述搜索结果的相对长度；获得所述关键词在所述搜索结果中出现的频率与所述搜索结果的相对长度的第二比值；根据所述第二比值与相关度的映射关系、以及所述第二比值，生成所述关键词与所述搜索结果的相关度。

在一些实施例中，所述第三处理模块5554还用于根据所述实体词以及所述搜索结果，确定所述实体词在所述搜索结果中出现的频率；根据所述实体词在所述搜索结果中出现的频率，确定所述搜索结果的惩罚值。

在一些实施例中，所述装置555还包括：第二确定模块5558，用于根据所述搜索信息中的至少一个关键词，确定所述搜索结果中所述关键词的位置；根据所述搜索结果中所述实体词的位置、以及所述搜索结果中所述关键词的位置，确定所述搜索结果中所述实体词相对于所述关键词的距离；所述第三处理模块5554还用于根据所述搜索结果中所述实体词相对于所述关键词的距离、以及所述实体词在所述搜索结果中出现的频率，确定所述搜索结果的惩罚值。

本发明实施例还提供一种存储有可执行指令的存储介质，其中存储有可执行指令，当可执行指令被处理器执行时，将引起处理器执行本发明实施例提供的文档的搜索处理方法，例如，如图3至图6示出的文档的搜索处理方法。

在一些实施例中，存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器；也可以是包括上述存储器之一或任意组合的各种设备。

在一些实施例中，可执行指令可以采用程序、软件、软件模块、脚本或代码的形式，按任意形式的编程语言(包括编译或解释语言，或者声明性或过程性语言)来编写，并且其可按任意形式部署，包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。

作为示例，可执行指令可以但不一定对应于文件系统中的文件，可以可被存储在保存其它程序或数据的文件的一部分，例如，存储在超文本标记语言(HTML，Hyper TextMarkup Language)文档中的一个或多个脚本中，存储在专用于所讨论的程序的单个文件中，或者，存储在多个协同文件(例如，存储一个或多个模块、子程序或代码部分的文件)中。

作为示例，可执行指令可被部署为在一个计算设备上执行，或者在位于一个地点的多个计算设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算设备上执行。

下面，将说明本发明实施例在一个实际的应用场景中的示例性应用。

在相关技术中，当搜索信息为“腾讯财报”，而搜索系统召回的搜索文档“……腾讯大跌，阿里财报今日发布”中的“腾讯”与“财报”之间存在的实体词造成了语义漂移，使得搜索系统召回的搜索文档并不符合用户需求。

为了解决上述问题，本发明实施例提出的文档的搜索处理方法，可以在文本相关度计算中引入实体词的惩罚值，即通过识别命中词的(搜索信息中的关键词)上下文是否存在语义漂移的实体词。除了搜索信息为“腾讯财报”会造成搜索文档的语义漂移外，类似的还有搜索信息为“微信支付”，搜索系统召回的搜索文档为“微信……，支付宝……”等语义漂移的情况。

本发明实施例提出的文档的搜索处理方法主要有两个步骤，包括：1)采用BM25算法计算相关度，其中，BM25算法是一种用来评价搜索词和文档之间相关度的算法，它是一种基于概率检索模型提出的算法；2)基于命中词上下文，引入实体词的惩罚算法对第一步中的BM25算法进行降权计算。本发明实施例提出的文档的搜索处理方法具体如下所示：

1)根据BM25算法计算相关度

BM25算法用来计算相关度的过程为，对搜索信息进行语素解析，生成语素q_i，即对搜索信息进行分词，生成搜索信息的关键词；然后，对于每个搜索结果，计算每个语素q_i与搜索结果的相关度(关键词与搜索结果的相关度)；最后，将语素q_i与搜索结果的相关性得分进行加权求和，从而得到搜索信息与搜索结果的相关度。采用BM25算法计算搜索结果与搜索信息的相关度的过程，如公式(1)所示：

其中，Q表示搜索信息，q_i表示搜索信息解析之后的一个词；n表示搜索信息中语素的个数；d表示一个搜索结果文档；W_i表示语素q_i的权重；R(q_i,d)表示语素q_i与搜索结果d的相关度，Score(Q,d)表示搜索结果d与搜索信息Q的相关度。

计算语素q_i的权重W_i有多种方法，这里以逆文本频率指数(Inverse DocumentFrequency，IDF)为例，如公式(2)所示：

其中，N表示文档库中的全部的文档数量；n(q_i)表示包含q_i的文档数量；IDF(q_i)表示语素q_i的逆文本频率指数。根据公式(2)可以看出，对于文档库中给定的文档集合，当包含语素q_i的文档数量越多，语素q_i的权重越低。说明当很多文档都包含语素q_i时，语素q_i的区分度就不高，因此，语素q_i的权重就小。

计算语素q_i与文档d的相关度R(q_i,d)，如公式(3)、(4)所示：

其中，k₁、k₂、b为调节因子，根据经验设置，可以设置k₁＝2、b＝0.75；f_i为q_i在搜索结果d中出现的频率，qf_i为q_i在搜索信息中出现的频率。dl为搜索结果d的长度，avgdl为文档库中所有文档的平均长度。由于一般情况下，q_i在搜索信息中只出现一次，为了节约计算量，可以令qf_i＝1，因此公式(3)可以简化为公式(5)，如下所示：

从公式(4)可以看到，参数b的作用是调整文档长度对语素与搜索结果的相关度的影响，当参数b越大，文档长度对语素与搜索结果的相关度的影响越大。另外，搜索结果的相对长度(搜索结果的长度与文档库中文档的平均长度的比值)越长，K值将越大，则语素与搜索结果的相关度会越小。由于当搜索结果较长时，其包含q_i的机会越大，因此，在同等f_i的情况下，长搜索结果与q_i的相关性比短搜索结果与q_i的相关度小。

因此，搜索结果的相对长度与语素与搜索结果的相关度成反比关系，语素在搜索结果中出现的频率与搜索结果的相关度成正比关系。另外，还可以通过k₁、k₂、b调节因子，调节关键词与搜索结果的相关度。即根据搜索结果的相对长度以及语素在搜索结果中出现的频率、与相关度的映射关系(调节因子)，得到关键词与搜索结果的相关度。

综上，通过BM25算法计算得到的搜索结果与搜索信息的相关度的过程，如公式(6)所示：

从公式(6)可知，可以通过使用语素分析方法(计算语素的方法)、语素权重判定方法(计算语素的权重的方法)，以及语素与文档的相关性判定方法(计算语素与搜索结果的相关度)，衍生出不同的搜索结果与搜索信息的相关度的计算方法，使得搜索结果与搜索信息的相关度的计算更灵活性。

2)实体词的惩罚算法

在相关技术中，搜索信息为“腾讯财报”，而搜索系统召回的搜索文档“……腾讯大跌，阿里财报今日发布”。对搜索信息进行分词，得到“腾讯”与“财报”关键词，且“腾讯”与“财报”经常作为搜索信息出现，有比较高的紧密度。在搜索文档“……腾讯大跌，阿里财报今日发布”中“腾讯”与“财报”之间有“大跌”与“阿里”两个词，其中“阿里”为公司实体词，则此时该搜索结果有一定的语义漂移风险，需要在BM25算法上增加一个惩罚因子(惩罚值)，其中，惩罚因子与该实体词的逆文本频率指数以及实体词与搜索结果中命中关键词的距离(搜索结果中实体词相对于关键词的距离)有关，当实体词的逆文本频率指数越大，则惩罚值越大；实体词与搜索结果中命中关键词的距离越近，则惩罚值越大，其中，惩罚值的计算公式如公式(7)：

punishment(d)＝alpha* idf*(min-dist) (7)

其中，alpha是自由参数，用于调节惩罚值的影响；idf表示实体词的逆文本频率指数；min-dist表示实体词与搜索结果中命中关键词的距离；punishment(d)表示搜索结果的惩罚值。

通过在搜索结果与搜索信息的相关度中引入实体词的惩罚值，得到搜索结果与搜索信息的文本相关度，可以在搜索结果中去除语义漂移的影响，计算搜索结果与搜索信息的文本相关度的过程，如公式(8)所示：

其中，Score′(Q,d)表示搜索结果与搜索信息的相关度，Score(Q,d)表示搜索结果与搜索信息的相关度。当Score(Q,d)越大，punishment(d)越小时，Score′(Q,d)越大，即搜索结果与搜索信息的相关度、与搜索结果与搜索信息的相关度成正比，搜索结果的惩罚值、与搜索结果与搜索信息的相关度成反比。

综上所述，本发明实施例通过在搜索结果与搜索信息的相关度中引入实体词的惩罚值，具有以下有益效果：

1、获取搜索结果中相对于搜索信息的实体词，并根据实体词以及搜索结果，获得搜索结果的惩罚值，在搜索结果与搜索信息的相关度中引入惩罚值，即考虑到语义漂移的情况。

2、通过惩罚值降低搜索结果与搜索信息的相关度，可以得到准确的搜索结果与搜索信息的文本相关度，提高用户的体验感。

3、基于准确的搜索结果与搜索信息的文本相关度，对搜索结果进行排序，得到用户所需的至少一个搜索文档，满足用户搜索文档的需求。

以上所述，仅为本发明的实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和范围之内所作的任何修改、等同替换和改进等，均包含在本发明的保护范围之内。

Claims

1.一种文档的搜索处理方法，其特征在于，包括：

响应于针对文档的搜索请求，确定搜索信息；

根据所述搜索信息，确定对应的至少一个搜索结果；

2.根据权利要求1所述的方法，其特征在于，所述根据所述搜索信息，确定对应的至少一个搜索结果，包括：

对所述搜索信息进行分词处理，得到所述搜索信息中的关键词；

3.根据权利要求1所述的方法，其特征在于，所述根据所述搜索结果以及所述搜索信息，确定所述搜索结果中相对于所述搜索信息的实体词，包括：

根据所述搜索信息中的至少一个关键词，确定所述搜索结果中所述关键词的位置；

4.根据权利要求1所述的方法，其特征在于，所述根据所述搜索信息，确定对应的至少一个搜索结果之后，所述方法还包括：

根据所述搜索结果以及所述搜索信息，确定所述搜索结果与所述搜索信息的相关度；

所述根据所述搜索结果的惩罚值，确定所述搜索结果与所述搜索信息的文本相关度，包括：

根据所述搜索结果与所述搜索信息的相关度以及所述搜索结果的惩罚值，得到所述搜索结果与所述搜索信息的文本相关度。

5.根据权利要求4所述的方法，其特征在于，所述根据所述搜索结果以及所述搜索信息，确定所述搜索结果与所述搜索信息的相关度，包括：

确定所述搜索信息中的关键词的权重；

6.根据权利要求5所述的方法，其特征在于，所述确定所述搜索信息中的关键词的权重，包括：

根据所述搜索信息中的关键词，确定文档库中包含所述关键词的文档数量；

7.根据权利要求5所述的方法，其特征在于，所述根据所述搜索信息中的关键词以及所述搜索结果，确定所述关键词与所述搜索结果的相关度，包括：

根据所述搜索信息中的关键词，确定所述关键词在所述搜索结果中出现的频率；

8.根据权利要求1所述的方法，其特征在于，所述根据所述搜索结果中相对于所述搜索信息的实体词以及所述搜索结果，确定所述搜索结果的惩罚值，包括：

根据所述实体词以及所述搜索结果，确定所述实体词在所述搜索结果中出现的频率；

9.根据权利要求8所述的方法，其特征在于，所述根据所述实体词在所述搜索结果中出现的频率，确定所述搜索结果的惩罚值之前，所述方法还包括：

所述根据所述实体词在所述搜索结果中出现的频率，确定所述搜索结果的惩罚值，包括：

根据所述搜索结果中所述实体词相对于所述关键词的距离、以及所述实体词在所述搜索结果中出现的频率，确定所述搜索结果的惩罚值。

10.一种文档的搜索处理装置，其特征在于，所述装置包括：