CN111814471A

CN111814471A - 一种信息处理方法、装置、电子设备及存储介质

Info

Publication number: CN111814471A
Application number: CN202010704980.9A
Authority: CN
Inventors: 王文娟; 何文; 梁华盛; 史嘉帅; 颜强
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-07-21
Filing date: 2020-07-21
Publication date: 2020-10-23

Abstract

本发明提供了一种信息处理方法，装置，电子设备及存储介质，方法包括：获取搜索引擎的日志信息，并基于搜索引擎的日志信息确定搜索词与对应的搜索结果所构成的点击序列；根据不同点击序列中的不同搜索结果，确定相对应的搜索词集合；将搜索词集合中的不同搜索词映射至相匹配的语义空间，形成相应的搜索词向量；基于搜索词向量，确定搜索词集合中偏离语义中心的搜索词；根据偏离语义中心的搜索词，确定对应的搜索词与搜索结果所构成的集合作为搜索引擎的坏例。由此，能够对搜索引擎的坏例进行充分挖掘，获得更加准确并且全面的坏例，有效提升搜索结果的质量，提高用户的使用体验。

Description

一种信息处理方法、装置、电子设备及存储介质

技术领域

本发明涉及信息处理技术，尤其涉及信息处理方法、装置、电子设备及存储介质。

背景技术

相关技术中，搜索引擎内部是由诸多复杂耦合的相关性策略组合而成的，其数量和复杂程度以及相互制约关系较为复杂，用户可以通过搜索引擎获取相关的搜索结果进行浏览，搜索引擎可以通过学习并克服坏例badcase，不断提升自身搜索结果的准确性，不准确的坏例可能导致搜索结果质量下降，影响用户使用。

发明内容

有鉴于此，本发明实施例提供一种信息处理方法、装置、电子设备及存储介质，能够对搜索引擎的坏例进行充分挖掘，获得更加准确并且全面的坏例，有效提升搜索结果的质量，提高用户的使用体验。

本发明实施例的技术方案是这样实现的：

本发明实施例提供了一种信息处理方法，包括：

获取搜索引擎的日志信息，并基于所述搜索引擎的日志信息确定搜索词与对应的搜索结果所构成的点击序列；

根据不同点击序列中的不同搜索结果，确定相对应的搜索词集合；

将所述搜索词集合中的不同搜索词映射至相匹配的语义空间，并对所述搜索词集合中的不同搜索词进行编码处理，形成相应的搜索词向量；

基于所述搜索词向量，确定所述搜索词集合中偏离语义中心的搜索词；

根据所述偏离语义中心的搜索词，确定对应的搜索词与搜索结果所构成的集合作为所述搜索引擎的坏例。

本发明实施例还提供了一种信息处理装置，包括：

信息传输模块，用于获取搜索引擎的日志信息，并基于所述搜索引擎的日志信息确定搜索词与对应的搜索结果所构成的点击序列；

信息处理模块，用于根据不同点击序列中的不同搜索结果，确定相对应的搜索词集合；

所述信息处理模块，用于将所述搜索词集合中的不同搜索词映射至相匹配的语义空间，并对所述搜索词集合中的不同搜索词进行编码处理，形成相应的搜索词向量；

所述信息处理模块，用于基于所述搜索词向量，确定所述搜索词集合中偏离语义中心的搜索词；

所述信息处理模块，用于根据所述偏离语义中心的搜索词，确定对应的搜索词与搜索结果所构成的集合作为所述搜索引擎的坏例。

上述方案中，

所述信息处理模块，用于根据所述搜索引擎的日志信息所携带的搜索词参数信息，触发相应的分词库；

所述信息处理模块，用于通过所触发的所述分词库单词词典对所述搜索引擎的日志信息进行分词处理，形成不同的词语级搜索词和语句级搜索词；

所述信息处理模块，用于确定与所述不同的词语级搜索词和语句级搜索词所分别对应的搜索结果；

所述信息处理模块，用于对所述不同的词语级搜索词和语句级搜索词进行除噪处理，形成与所述搜索引擎的日志信息相对应的点击序列，其中，所述点击序列包括词语级搜索词与对应的搜索结果，或者，语句级搜索词与对应的搜索结果。

上述方案中，

所述信息处理模块，用于确定对所述搜索词文本进行分词处理时所使用的分词库的名称；

所述信息处理模块，用于根据与所述分词库的名称，确定与所述搜索词文本相对应的词语级特征向量相匹配的分词库的参数，其中，所述分词库的参数包括：

所述分词库的种类、所述分词库的名称和所述分词库的版本。

上述方案中，

所述信息处理模块，用于基于以点击序列的排序，确定所述点击序列中的搜索结果；

所述信息处理模块，用于根据所述搜索结果，遍历所述搜索引擎的日志信息，基于不同目标用户的行为记录，确定与所述搜索结果相匹配的搜索词；

所述信息处理模块，用于将同一搜索结果所分别对应的搜索词进行组合，确定相对应的搜索词集合。

上述方案中，

所述信息处理模块，用于通过所述搜索词集合中的任一搜索词，确定与所述搜索词相匹配的语义空间；

所述信息处理模块，用于通过信息处理模型的编码器，确定与目标搜索词所对应的至少一个词语级的向量；

所述信息处理模块，用于将所述目标搜索词所对应的至少一个词语级的向量映射至所述语义空间，并对所述搜索词集合进行迭代处理，直至所述搜索词集合中的所有搜索词全部映射至相匹配的语义空间，形成与所述搜索词集合相匹配的搜索词向量。

上述方案中，

所述信息处理模块，用于获取第一训练样本集合，其中所述第一训练样本集合包括至少一组带有噪声的语句样本；

所述信息处理模块，用于对所述第一训练样本集合进行去噪处理，以形成相应的第二训练样本集合；

所述信息处理模块，用于通过信息处理模型对所述第一训练样本集合进行处理，以确定所述信息处理模型的初始参数；

所述信息处理模块，用于响应于所述信息处理模型的初始参数，通过所述信息处理模型对所述第二训练样本集合进行处理，确定所述信息处理模型的更新参数；

所述信息处理模块，用于根据所述信息处理模型的更新参数，通过所述第一训练样本集合和所述第二训练样本集合对所述信息处理模型的编码器参数和解码器参数进行迭代更新，以实现所述信息处理模型能够对相应的搜索词进行编码。

上述方案中，

所述信息处理模块，用于确定与所述信息处理模型的使用环境相匹配的动态噪声阈值；

所述信息处理模块，用于根据所述动态噪声阈值对所述第一训练样本集合进行去噪处理，以形成与所述动态噪声阈值相匹配的第二训练样本集合；

所述信息处理模块，用于确定与所述信息处理模型相对应的固定噪声阈值，并根据所述固定噪声阈值对所述第一训练样本集合进行去噪处理，以形成与所述固定噪声阈值相匹配的第二训练样本集合。

上述方案中，

所述信息处理模块，用于对所述第一训练样本集合进行负例处理，以形成与所述第一训练样本集合相对应的负例样本集合，其中，所述负例样本集合包括用户行为数据中的坏例样本数据，用于调整所述信息处理模型的编码器参数和解码器参数调整。

上述方案中，

所述信息处理模块，用于将所述第二训练样本集合中不同语句样本，代入由所述信息处理模型的编码器和解码器构成的自编码网络对应的损失函数；

所述信息处理模块，用于确定所述损失函数满足收敛条件时对应所述信息处理模型中编码器的参数和相应的解码器参数作为所述信息处理模型的更新参数。

上述方案中，

所述信息处理模块，用于基于所述搜索词向量，确定所述搜索词集合所对应的语义中心；

所述信息处理模块，用于确定所述搜索词集合中的每一个搜索词到所述语义中心的距离；

所述信息处理模块，用于当所述搜索词到所述语义中心的距离大于对应的距离阈值时，确定当前搜索词偏离语义中心；

所述信息处理模块，用于对所述搜索词集合中的不同搜索词进行迭代处理，直至确定所述搜索词集合中所有偏离语义中心的搜索词。

上述方案中，

所述信息处理模块，用于当所述搜索词集合中的不同搜索词均未超出距离阈值时，确定所述搜索引擎的坏例集合为空集合。

上述方案中，所述装置还包括：

显示模块，用于显示用户界面，所述用户界面中包括以第一人称视角对相应软件进程中的搜索引擎进行使用的视角画面，所述用户界面中还包括显示控制组件；

所述显示模块，用于通过所述显示控制组件，控制展示与所述用户所输入的搜索词相匹配的搜索结果。

本发明实施例还提供了一种电子设备，所述电子设备包括：

存储器，用于存储可执行指令；

处理器，用于运行所述存储器存储的可执行指令时，实现前述的信息处理方法。

本发明实施例还提供了一种计算机可读存储介质，存储有可执行指令，所述可执行指令被处理器执行时实现前述的信息处理方法。

本发明实施例具有以下有益效果：

本发明通过获取搜索引擎的日志信息，并基于所述搜索引擎的日志信息确定搜索词与对应的搜索结果所构成的点击序列；根据不同点击序列中的不同搜索结果，确定相对应的搜索词集合；将所述搜索词集合中的不同搜索词映射至相匹配的语义空间，并对所述搜索词集合中的不同搜索词进行编码处理，形成相应的搜索词向量；基于所述搜索词向量，确定所述搜索词集合中偏离语义中心的搜索词；根据所述偏离语义中心的搜索词，确定对应的搜索词与搜索结果所构成的集合作为所述搜索引擎的坏例，本申请能够对搜索引擎的坏例进行充分挖掘，获得更加准确并且全面的坏例，有效提升搜索结果的质量，提高用户的使用体验。

附图说明

图1为本发明实施例提供的信息处理方法的使用场景示意图；

图2为本发明实施例提供的服务器的组成结构示意图；

图3为本发明实施例中相关技术的坏例挖掘示意图；

图4为本发明实施例中坏例影响搜索结果的示意图；

图5为本发明实施例提供的信息处理方法一个可选的流程示意图；

图6A为本发明实施例中搜索词与对应的搜索结果所构成的点击序列示意图；

图6B为本发明实施例中点击序列构成示意图；

图7为本发明实施例提供的信息处理方法一个可选的流程示意图；

图8为本发明实施例中信息处理模型一个可选的信息处理过程示意图；

图9为本发明实施例中信息处理模型中编码器一个可选的结构示意图；

图10为本发明实施例中信息处理模型中编码器的向量拼接示意图；

图11为本发明实施例中信息处理模型中编码器的编码过程示意图；

图12为本发明实施例中信息处理效果示意图；

图13为本发明实施例提供的信息处理方法一个可选的流程示意图；

图14为本发明实施例中信息处理效果示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，所描述的实施例不应视为对本发明的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解，“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

对本发明实施例进行进一步详细说明之前，对本发明实施例中涉及的名词和术语进行说明，本发明实施例中涉及的名词和术语适用于如下的解释。

1)响应于，用于表示所执行的操作所依赖的条件或者状态，当满足所依赖的条件或状态时，所执行的一个或多个操作可以是实时的，也可以具有设定的延迟；在没有特别说明的情况下，所执行的多个操作不存在执行先后顺序的限制。

2)分词：又称切词，起作用为把一个完整的句子的文本信息切分成多个词，例如：刘德华是个中国歌手。分词后的结果为：刘德华、中国、歌手。

3)分词库：又称切词库，指一种特定的分词方法，不同的分词库各自对应的单词字典，并可以根据各自对应的单词字典对相应的文本信息进行分词处理。

4)文章：互联网资源中的不同文档，如word，html网页等所包括的文本信息，也可是图片中的文本信息。

5)单词：是将文章或者用户所输入的搜索词的内容进行拆分，所确定的逻辑上构成一个完整表述的字符串。

6)单词字典：存储所有单词，每一条记录由单词和指向倒排列表的指针构成。

7)神经网络(Neural Network，NN)：人工神经网络(Artificial Neural Network，ANN)，简称神经网络或类神经网络，在机器学习和认知科学领域，是一种模仿生物神经网络(动物的中枢神经系统，特别是大脑)的结构和功能的数学模型或计算模型，用于对函数进行估计或近似。

8)BERT：全称为Bidirectional Encoder Representations from Transformers，一种利用海量文本的语言模型训练方法。该方法被广泛用于多种自然语言处理任务，如文本分类、文本匹配、机器阅读理解等。

9)人工神经网络：简称神经网络(Neural Network，NN)，在机器学习和认知科学领域，是一种模仿生物神经网络结构和功能的数学模型或计算模型，用于对函数进行估计或近似。

10)模型参数：是使用通用变量来建立函数和变量之间关系的一个数量。在人工神经网络中，模型参数通常是实数矩阵。

11)模型训练，对图像数据集进行多分类学习。该模型可采用Tensor Flow、torch等深度学习框架进行构建，使用CNN等神经网络层的多层结合组成多分类模型。模型的输入为图像经过openCV等工具读取形成的三通道或原通道矩阵，模型输出为多分类概率，通过softmax等算法最终输出网页类别。在训练时，模型通过交叉熵等目标函数向正确趋势逼近。

12)双向注意力神经网络模(BERT Bidirectional Encoder Representationsfrom Transformers)谷歌提出的双向注意力神经网络模型。Transformers：一种新的网络结构，采用注意力机制，代替传统的编码器-解码器必须依赖其它神经网络的模式。

图1为本发明实施例提供的信息处理方法的使用场景示意图，参见图1，终端(包括终端10-1和终端10-2)上设置有能够执行不同功能相应客户端其中，所属客户端为终端(包括终端10-1和终端10-2)通过网络300从相应的服务器200中获取不同的文章进行浏览或者获得服务器中所保存的小程序或者公众号，当终端运行微信进程时，可以通过所提供的搜索功能根据关键词搜索朋友圈、小程序、文章、公众号、小说、音乐、表情等不同内容。终端通过网络300连接服务器200，网络300可以是广域网或者局域网，又或者是二者的组合，使用无线链路实现数据传输，其中，终端(包括终端10-1和终端10-2)通过网络300从相应的服务器200中所获取的文章类型并不相同，例如：终端(包括终端10-1和终端10-2)既可以通过网络300从相应的服务器200中获取与检索指令A相匹配的小程序或公众号，也可以通过网络300从相应的服务器200中获取仅与检索指令A相匹配的文章进行浏览。

在本发明的一些实施例中，服务器200中所保存的不同类型的小程序可以是在不同编程语言的软件代码环境中所编写的，代码对象可以是不同类型的代码实体。例如，在C语言的软件代码中，一个代码对象可以是一个函数。在JAVA语言的软件代码中，一个代码对象可以是一个类，IOS端OC语言中可以是一段目标代码。在C++语言的软件代码中，一个代码对象可以是一个类或一个函数以执行来自于不同终端的搜索词。其中本申请中不再对检索指令的来源进行区分。其中，微信进程中小程序可以触发搜索引擎，小程序(MiniProgram)，是一种基于面向前端的语言(例如JavaScript)开发的、在超文本标记语言(HTML，Hyper Text Markup Language)页面中实现服务的程序，由客户端(例如浏览器或内嵌浏览器核心的任意客户端)经由网络(如互联网)下载、并在客户端的浏览器环境中解释和执行的软件，节省在客户端中安装的步骤。例如，通过语音指令唤醒终端中的小程序实现在社交网络客户端中可以下载、运行用于实现机票购买、任务处理与制作、数据展示等各种服务的小程序。

服务器200根据终端输入的搜索词通过网络300向终端(终端10-1和/或终端10-2)发送相应的搜索结果，因此。作为一个事例，服务器200用于获取搜索引擎的日志信息，并基于所述搜索引擎的日志信息确定搜索词与对应的搜索结果所构成的点击序列；根据不同点击序列中的不同搜索结果，确定相对应的搜索词集合；将所述搜索词集合中的不同搜索词映射至相匹配的语义空间，并对所述搜索词集合中的不同搜索词进行编码处理，形成相应的搜索词向量；基于所述搜索词向量，确定所述搜索词集合中偏离语义中心的搜索词；根据所述偏离语义中心的搜索词，确定对应的搜索词与搜索结果所构成的集合作为所述搜索引擎的坏例。

下面对本发明实施例的服务器的结构做详细说明，服务器可以各种形式来实施，如带有信息处理功能的专用终端，也可以为带有信息处理功能的服务器，例如前述图1中的服务器200。图2为本发明实施例提供的服务器的组成结构示意图，可以理解，图2仅仅示出了服务器的示例性结构而非全部结构，根据需要可以实施图2示出的部分结构或全部结构。

本发明实施例提供的服务器包括：至少一个处理器201、存储器202、用户接口203和至少一个网络接口204。服务器20中的各个组件通过总线系统205耦合在一起。可以理解，总线系统205用于实现这些组件之间的连接通信。总线系统205除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图2中将各种总线都标为总线系统205。

其中，用户接口203可以包括显示器、键盘、鼠标、轨迹球、点击轮、按键、按钮、触感板或者触摸屏等。

可以理解，存储器202可以是易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。本发明实施例中的存储器202能够存储数据以支持终端(如10-1)的操作。这些数据的示例包括：用于在终端(如10-1)上操作的任何计算机程序，如操作系统和应用程序。其中，操作系统包含各种系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务。应用程序可以包含各种应用程序。

在一些实施例中，本发明实施例提供的信息处理装置可以采用软硬件结合的方式实现，作为示例，本发明实施例提供的信息处理装置可以是采用硬件译码处理器形式的处理器，其被编程以执行本发明实施例提供的信息处理方法。例如，硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC，Application Specific IntegratedCircuit)、DSP、可编程逻辑器件(PLD，Programmable Logic Device)、复杂可编程逻辑器件(CPLD，Complex Programmable Logic Device)、现场可编程门阵列(FPGA，Field-Programmable Gate Array)或其他电子元件。

作为本发明实施例提供的信息处理装置采用软硬件结合实施的示例，本发明实施例所提供的信息处理装置可以直接体现为由处理器201执行的软件模块组合，软件模块可以位于存储介质中，存储介质位于存储器202，处理器201读取存储器202中软件模块包括的可执行指令，结合必要的硬件(例如，包括处理器201以及连接到总线205的其他组件)完成本发明实施例提供的信息处理方法。

作为示例，处理器201可以是一种集成电路芯片，具有信号的处理能力，例如通用处理器、数字信号处理器(DSP，Digital Signal Processor)，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其中，通用处理器可以是微处理器或者任何常规的处理器等。

作为本发明实施例提供的信息处理装置采用硬件实施的示例，本发明实施例所提供的装置可以直接采用硬件译码处理器形式的处理器201来执行完成，例如，被一个或多个应用专用集成电路(ASIC，Application Specific Integrated Circuit)、DSP、可编程逻辑器件(PLD，Programmable Logic Device)、复杂可编程逻辑器件(CPLD，ComplexProgrammable Logic Device)、现场可编程门阵列(FPGA，Field-Programmable GateArray)或其他电子元件执行实现本发明实施例提供的信息处理方法。

本发明实施例中的存储器202用于存储各种类型的数据以支持服务器20的操作。这些数据的示例包括：用于在服务器20上操作的任何可执行指令，如可执行指令，实现本发明实施例的从信息处理方法的程序可以包含在可执行指令中。

在另一些实施例中，本发明实施例提供的信息处理装置可以采用软件方式实现，图2示出了存储在存储器202中的信息处理装置2020，其可以是程序和插件等形式的软件，并包括一系列的模块，作为存储器202中存储的程序的示例，可以包括信息处理装置2020，信息处理装置2020中包括以下的软件模块：信息传输模块2081，信息处理模块2082。当信息处理装置2020中的软件模块被处理器201读取到RAM中并执行时，将实现本发明实施例提供的信息处理方法，下面对信息处理装置2020中各个软件模块的功能进行介绍：

信息传输模块2081，用于获取搜索引擎的日志信息，并基于所述搜索引擎的日志信息确定搜索词与对应的搜索结果所构成的点击序列；

信息处理模块2082，用于根据不同点击序列中的不同搜索结果，确定相对应的搜索词集合；

所述信息处理模块2082，用于将所述搜索词集合中的不同搜索词映射至相匹配的语义空间，并对所述搜索词集合中的不同搜索词进行编码处理，形成相应的搜索词向量；

所述信息处理模块2082，用于基于所述搜索词向量，确定所述搜索词集合中偏离语义中心的搜索词；

所述信息处理模块2082，用于根据所述偏离语义中心的搜索词，确定对应的搜索词与搜索结果所构成的集合作为所述搜索引擎的坏例。

继续结合图2示出的服务器20说明本发明实施例提供的信息处理方法，在执行搜索词的过程中，现有技术通常使用badcase挖掘技术，实现数据纠错，即挖掘搜索中用户输入query返回的doc与query意图不匹配的case，具体来说，query包括搜索系统中，用户输入的搜索词，通常为比较短的文本，而doc是指搜索系统中返回的结果，可以是一个账号，如公众号与小程序，或文章信息。现有技术中，参考3和图4，图3为本发明实施例中相关技术的坏例挖掘示意图，图4为本发明实施例中坏例影响搜索结果的示意图，其中，当前主流挖掘搜索badcase的方法是分析用户检索日志信息，构建用户行为序列，计算点击率、平均点击率、翻页率、停留时长、切换query等特征，结合统计模型来挖掘badcase。其中，但是这一过程中，其缺陷在于当用户搜索某个query时，首位出现了目标doc，但是因为好奇，又多看了其他的doc，但这并非用户的真实观看意图，因此，赋予用户点击过高的置信度，未考虑用户点击并非和query意图匹配的情况。第二、用户某些点击可能是因为账号引流导致的，当两个doc的title相似度很高时，排在首位的doc可能因为引流的原因带来很多的点击，并非用户的真是选择体验；第三，挖掘过程中仅进行了统计信息，没有考虑语义空间的相似度，影响了搜索系统的推荐准确性。参考图3，在搜索首页里，如果展示的结果不能符合用户的预期，会极大降低用户体验，甚至失去用户。例如：微信的用户搜索query为“白岩松”，所出结果的首位doc是正反读书，用户没有在最关键的位置获得匹配度高的doc，降低了用户的体验，甚至会产生对相应搜索引擎的负面印象，认为该搜索引擎技术不佳，影响用户的使用体验。

为了克服上述缺陷，参见图5，图5为本发明实施例提供的信息处理方法一个可选的流程示意图，可以理解地，图5所示的步骤可以由运行信息处理装置的各种服务器执行，例如可以是如带有检索指令处理功能的专用终端、服务器或者服务器集群。下面针对图5示出的步骤进行说明。

步骤501：获取搜索引擎的日志信息，并基于所述搜索引擎的日志信息确定搜索词与对应的搜索结果所构成的点击序列。

在本发明的一些实施例中，获取搜索引擎的日志信息，并基于所述搜索引擎的日志信息确定搜索词与对应的搜索结果所构成的点击序列，可以通过以下方式实现：

根据所述搜索引擎的日志信息所携带的搜索词参数信息，触发相应的分词库；通过所触发的所述分词库单词词典对所述搜索引擎的日志信息进行分词处理，形成不同的词语级搜索词和语句级搜索词；确定与所述不同的词语级搜索词和语句级搜索词所分别对应的搜索结果；对所述不同的词语级搜索词和语句级搜索词进行除噪处理，形成与所述搜索引擎的日志信息相对应的点击序列，其中，所述点击序列包括词语级搜索词与对应的搜索结果，或者，语句级搜索词与对应的搜索结果。其中，结合前序实施例的描述，不同的终端设备(例如前序图1所示的终端10-1和/或终端10-2)可以在各自对应搜索界面上(例如网页、信息搜索APP和微信的搜索小程序)提供用于输入待搜索的关键词的搜索栏，以及用于对该待搜索的关键词进行数据搜索的搜索按键，用户在搜索栏中输入关键词，当该终端设备检测到对该搜索按键的点击操作时，触发该服务器启动相应的分词指令，该分词指令携带该搜索栏中的关键词，该服务器接收该分词指令。或者，该终端设备在搜索界面上显示热门搜索关键词，当检测到对热门搜索关键词的点击操作时，该终端设备向该服务器发送该分词指令，该分词指令携带该热门搜索关键词，该服务器接收该分词指令。需要说明的是本发明实施例对该分词指令的触发方式不做限定。其中，参考图6A，图6A为本发明实施例中搜索词与对应的搜索结果所构成的点击序列示意图，其中，获取用户的行为数据，构建query-doc点击序列可以通过服务器所保存的用户日志，通过获取用户点击行为关联query-docpair。如图6A所示，相同doc可能被用户用不同的搜索query点击过，以此关联query和doc，其中，query是指搜索系统中，用户输入的搜索词，通常为比较短的文本；doc是指搜索系统中返回的结果，可以是一个账号，如公众号与小程序，或一篇文章。

在本发明的一些实施例中，所述搜索词中所对应的搜索词文本，可以是采用自然语言进行描述，其表达与搜索系统查询需要之间存在差距。搜索系统对文本内容进行检索的依据是通过倒排表获得包括关键词的文档，而自然语言描述的查询要求并不能直接确定关键词。尤其是对于汉语而言，以汉字为基础表意单位，而真正具有含义的最小语义单位则是词；由于词与词之间并没有像英语单词之间的空格作为分割，因此，一句文本中，哪些字组成词并不确定，因此，对汉语文本进行分词就是一个重要的工作。并且，对于搜索词文本，其中包含一些仅仅对自然语言理解有价值的东西，而对搜索系统而言，要查询到相关内容，必须确定哪些是真正有价值的检索依据，因此，通过前序实施例中的对不同的词语级特征向量进行除噪处理，能够形成与搜索词文本相对应的词语级特征向量集合，避免词语级特征向量集合出现无意义的词语级特征向量，例如“的”、“地”和“得”。

在本发明的一些实施例中，还可以确定对所述搜索词文本进行分词处理时所使用的分词库的名称；根据与所述分词库的名称，确定与所述搜索词文本相对应的词语级特征向量相匹配的分词库的参数，其中，所述分词库的参数包括：所述分词库的种类、所述分词库的名称和所述分词库的版本。其中，所述分词库的参数包括：所述分词库的种类、所述分词库的名称和所述分词库的版本。其中，由于使用不同的分词库对同一文本信息处理时，所形成的词语级特征向量并不完全相同，因此据与所述分词库的名称，确定与所述搜索指令文本相对应的词语级特征向量相匹配的分词库的参数，实现确定对搜索指令文本进行分词所使用的分词库的参数，例如：搜索指令文本为“光阴的故事罗大佑的mp3”使用分词库A进行处理后，形成与所述搜索指令文本相对应的词语级特征向量集合A(光阴的故事；罗大佑的mp3)；使用分词库B进行处理后，形成与所述搜索指令文本相对应的词语级特征向量集合B(光阴的故事；罗大佑；mp3)；使用分词库A1进行处理后，形成与所述搜索指令文本相对应的词语级特征向量集合A1(光阴；故事；罗大佑；mp3)。

步骤502：根据不同点击序列中的不同搜索结果，确定相对应的搜索词集合。

在本发明的一些实施例中，根据不同点击序列中的不同搜索结果，确定相对应的搜索词集合，可以通过以下方式实现：

基于以点击序列的排序，确定所述点击序列中的搜索结果；根据所述搜索结果，遍历所述搜索引擎的日志信息，基于不同目标用户的行为记录，确定与所述搜索结果相匹配的搜索词；将同一搜索结果所分别对应的搜索词进行组合，确定相对应的搜索词集合。参考图6B，图6B为本发明实施例中点击序列构成示意图，对于doc1，曾经被query1，query2…等点击过，则将query1，query2…等query构造成一个query list。由此，可以保证同一搜索结果所分别对应的搜索词的全面性，避免挖掘错误的坏例，影响搜索引擎的准确性。

步骤503：将所述搜索词集合中的不同搜索词映射至相匹配的语义空间，并对所述搜索词集合中的不同搜索词进行编码处理，形成相应的搜索词向量。

继续参考图7，图7为本发明实施例提供的信息处理方法一个可选的流程示意图，可以理解地，图7所示的步骤可以由运行信息处理装置的各种服务器执行，例如可以是如带有检索指令处理功能的专用终端、服务器或者服务器集群。下面针对图7示出的步骤进行说明。

步骤701：通过所述搜索词集合中的任一搜索词，确定与所述搜索词相匹配的语义空间。

步骤702：通过信息处理模型的编码器，确定与目标搜索词所对应的至少一个词语级的向量。

步骤703：将所述目标搜索词所对应的至少一个词语级的向量映射至所述语义空间，并对所述搜索词集合进行迭代处理，直至所述搜索词集合中的所有搜索词全部映射至相匹配的语义空间，形成与所述搜索词集合相匹配的搜索词向量。

其中，信息处理模型可以为双向注意力神经网络模(BERT BidirectionalEncoder Representations from Transformers)，在对其使用之前还需要进行相应的训练，具体来说，训练过程包括：

获取第一训练样本集合，其中所述第一训练样本集合包括至少一组带有噪声的语句样本；对所述第一训练样本集合进行去噪处理，以形成相应的第二训练样本集合；通过信息处理模型对所述第一训练样本集合进行处理，以确定所述信息处理模型的初始参数；响应于所述信息处理模型的初始参数，通过所述信息处理模型对所述第二训练样本集合进行处理，确定所述信息处理模型的更新参数；根据所述信息处理模型的更新参数，通过所述第一训练样本集合和所述第二训练样本集合对所述信息处理模型的编码器参数和解码器参数进行迭代更新，以实现所述信息处理模型能够对相应的搜索词进行编码。其中，信息处理模型为双向注意力神经网络时，参考图8，继续参考图8，图8为本发明实施例中信息处理模型一个可选的信息处理过程示意图，其中，其中，encoder和decoder部分都包含了6个encoder和decoder。进入到第一个encoder的inputs结合embedding和positionalembedding。通过了6个encoder之后，输出到了decoder部分的每一个decoder中；当训练完成的信息处理模型部署时仅需要使用编码器网络，实现通过信息处理模型的编码器，确定与目标搜索词所对应的至少一个词语级的向量。

继续参考图9，图9为本发明实施例中信息处理模型中编码器一个可选的结构示意图，其中，其输入由维度为d的查询(Q)和键(K)以及维度为d的值(V)组成，所有键计算查询的点积，并应用softmax函数获得值的权重。

继续参考图9，图9为本发明实施例中信息处理模型中编码器的向量示意图，其中Q，K和V的是通过输入encoder的向量x与W^Q，W^K，W^V相乘得到Q，K和V。W^Q，W^K，W^V在文章的维度是(512，64)，然后假设我们inputs的维度是(m，512)，其中m代表了字的个数。所以输入向量与W^Q，W^K，W^V相乘之后得到的Q、K和V的维度就是(m，64)。

继续参考图10，图10为本发明实施例中信息处理模型中编码器的向量拼接示意图，其中，Z₀到Z₇就是对应的8个并行的head(维度是(m，64))，然后concat这个8个head之后就得到了(m，512)维度。最后与W^O相乘之后就到了维度为(m，512)的输出的矩阵，那么这个矩阵的维度就和进入下一个encoder的维度保持一致。

继续参考图11，图11为本发明实施例中信息处理模型中编码器的编码过程示意图，其中，x₁经过self-attention到了z₁的状态，通过了self-attetion的张量还需要进过残差网络和Later Norm的处理，然后进入到全连接的前馈网络中，前馈网络需要进行同样的操作，进行的残差处理和正规化。最后输出的张量才可以的进入到了下一个encoder之中，然后这样的操作，迭代经过了6次，迭代处理的结果进入到decoder中。

在本发明的一些实施例中，对所述第一训练样本集合进行去噪处理，以形成相应的第二训练样本集合，可以通过以下方式实现：

确定与所述信息处理模型的使用环境相匹配的动态噪声阈值；根据所述动态噪声阈值对所述第一训练样本集合进行去噪处理，以形成与所述动态噪声阈值相匹配的第二训练样本集合。其中由于信息处理模型的使用环境不同，与所述信息处理模型的使用环境相匹配的动态噪声阈值也不相同，例如，通过微信小程序触发搜索引擎的使用环境中，与所述信息处理模型的使用环境相匹配的动态噪声阈值需要小于短视频客户端中搜索引擎的动态噪声阈值。

在本发明的一些实施例中，还以确定与所述信息处理模型相对应的固定噪声阈值，并根据所述固定噪声阈值对所述第一训练样本集合进行去噪处理，以形成与所述固定噪声阈值相匹配的第二训练样本集合。其中，当信息处理模型固化于相应的硬件机构(例如微信支付终端)中，使用环境为微信小程序触发搜索引擎实现公众号搜索时，通过固定信息处理模型相对应的固定噪声阈值，能够有效提神信息处理模型的训练速度，减少用户的等待时间。

在本发明的一些实施例中，还可以对第一训练样本集合进行负例处理，以形成与所述第一训练样本集合相对应的负例样本集合，其中，所述负例样本集合包括用户行为数据中的坏例样本数据，用于调整所述信息处理模型的编码器参数和解码器参数调整。其中，负例处理可以将搜索词与搜索结果的对应顺序进行重新组合调整，通过负例样本集合可以有效提高信息处理模型的鲁棒性。

在本发明的一些实施例中，响应于所述信息处理模型的初始参数，通过所述信息处理模型对所述第二训练样本集合进行处理，确定所述信息处理模型的更新参数，包括：

将所述第二训练样本集合中不同语句样本，代入由所述信息处理模型的编码器和解码器构成的自编码网络对应的损失函数；确定所述损失函数满足收敛条件时对应所述信息处理模型中编码器的参数和相应的解码器参数作为所述信息处理模型的更新参数。由此，当信息处理模型训练完成后，可以部署在对应的搜索引擎服务器中，实现对搜索引擎使用环境中的坏例的挖掘。

步骤504：基于所述搜索词向量，确定所述搜索词集合中偏离语义中心的搜索词。

在本发明的一些实施例中，基于所述搜索词向量，确定所述搜索词集合中偏离语义中心的搜索词，可以通过以下方式实现：

基于所述搜索词向量，确定所述搜索词集合所对应的语义中心；确定所述搜索词集合中的每一个搜索词到所述语义中心的距离；当所述搜索词到所述语义中心的距离大于对应的距离阈值时，确定当前搜索词偏离语义中心；对所述搜索词集合中的不同搜索词进行迭代处理，直至确定所述搜索词集合中所有偏离语义中心的搜索词。取得的queryembedding特征，可以计算query list的语义中心，再分别计算query list里各个query到语义中心的距离，设定阈值，对于超过阈值的query，取query-doc作为badcase。具体来说，余弦距离作为距离度量方式，计算公式：

由此，本申请所提供的信息处理方法从doc侧倒推聚类，从query-doc倒排中，确定同一个doc下偏离query语义空间中心的query。通过分析用户的点击行为数据，确定点击了相同doc的用户所用的query有强相关性，

步骤505：根据所述偏离语义中心的搜索词，确定对应的搜索词与搜索结果所构成的集合作为所述搜索引擎的坏例。

在本发明的一些实施例中，当所述搜索词集合中的不同搜索词均未超出距离阈值时，确定所述搜索引擎的坏例集合为空集合。

由此，可以通过挖掘点击了同一个doc的query list中偏离query语义空间中心的badcase。克服了现有技术中用户的点击与用户输入的query意图不匹配的问题，充分挖掘搜索引擎badcase，同时，将query映射到语义空间，充分的应用了query的语义信息，保证用户对搜索系统的使用体验，提升用户黏性。

参考图12，图12为本发明实施例中信息处理效果示意图，其中，显示用户界面，所述用户界面中包括以第一人称视角对相应软件进程中的搜索引擎进行使用的视角画面，所述用户界面中还包括显示控制组件；通过所述显示控制组件，控制展示与所述用户所输入的搜索词相匹配的搜索结果。例如：用户在微信进程中通过输入检索词“白岩松”所提供的搜索结果为“白岩松”相关的匹配度高的搜索结果doc，其他作为坏例的搜索结果则没有出现在搜索结果的首位。

继续参考图13，图13为本发明实施例提供的信息处理方法一个可选的流程示意图，其中，图13所示的步骤可以由运行信息处理装置的视频服务器或者服务器集群执行。下面针对图13示出的步骤进行说明。

步骤1301：获取用户的行为数据，构建query-doc点击序列。

其中，参考图14，其中，图14为本发明实施例中信息处理效果示意图，如图14所示，短视频播放界面可以是相应的短视频APP中所展现的，也可以是通过微信小程序所触发的(信息处理模型可以经过训练后封装于相应的APP或以插件形式保存于微信小程序中)，随着短视频应用产品不断发展增多，视频信息的承载量远远大于文字信息，短视频可以通过相应的应用程序响应于用户所输入的搜索词地向用户进行推荐，有效的后续相关视频的推荐可以有效地提升用户的使用体验。

步骤1302：基于相同的doc为一类，构建相匹配的query集合。

步骤1303：通过信息处理网络模型，将query映射到语义空间。

步骤1304：计算同一类里偏离语义中心的query。

由此，可以实现通过以query-doc关联聚类，确定相应的badcase。其中，当用户在短视频进程中通过输入检索词“罗大佑”所提供的搜索结果为“罗大佑”相关的匹配度高的搜索结果视频“鹿港小镇—罗大佑”。其他作为坏例的搜索结果则没有出现在搜索结果的显示界面中，便于用户选择于检索词“罗大佑”相关的视频进行观看。

本发明具有以下有益技术效果：

以上所述，仅为本发明的实施例而已，并非用于限定本发明的保护范围，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种信息处理方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述获取搜索引擎的日志信息，并基于所述搜索引擎的日志信息确定搜索词与对应的搜索结果所构成的点击序列，包括：

根据所述搜索引擎的日志信息所携带的搜索词参数信息，触发相应的分词库；

通过所触发的所述分词库单词词典对所述搜索引擎的日志信息进行分词处理，形成不同的词语级搜索词和语句级搜索词；

确定与所述不同的词语级搜索词和语句级搜索词所分别对应的搜索结果；

对所述不同的词语级搜索词和语句级搜索词进行除噪处理，形成与所述搜索引擎的日志信息相对应的点击序列，其中，所述点击序列包括词语级搜索词与对应的搜索结果，或者，语句级搜索词与对应的搜索结果。

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：

确定对所述搜索词文本进行分词处理时所使用的分词库的名称；

根据与所述分词库的名称，确定与所述搜索词文本相对应的词语级特征向量相匹配的分词库的参数，其中，所述分词库的参数包括：

4.根据权利要求1所述的方法，其特征在于，所述根据不同点击序列中的不同搜索结果，确定相对应的搜索词集合，包括：

基于以点击序列的排序，确定所述点击序列中的搜索结果；

根据所述搜索结果，遍历所述搜索引擎的日志信息，基于不同目标用户的行为记录，确定与所述搜索结果相匹配的搜索词；

将同一搜索结果所分别对应的搜索词进行组合，确定相对应的搜索词集合。

5.根据权利要求1所述的方法，其特征在于，所述将所述搜索词集合中的不同搜索词映射至相匹配的语义空间，包括：

通过所述搜索词集合中的任一搜索词，确定与所述搜索词相匹配的语义空间；

通过信息处理模型的编码器，确定与目标搜索词所对应的至少一个词语级的向量；

将所述目标搜索词所对应的至少一个词语级的向量映射至所述语义空间，并对所述搜索词集合进行迭代处理，直至所述搜索词集合中的所有搜索词全部映射至相匹配的语义空间，形成与所述搜索词集合相匹配的搜索词向量。

6.根据权利要求5所述的方法，其特征在于，所述方法还包括：

获取第一训练样本集合，其中所述第一训练样本集合包括至少一组带有噪声的语句样本；

对所述第一训练样本集合进行去噪处理，以形成相应的第二训练样本集合；

通过信息处理模型对所述第一训练样本集合进行处理，以确定所述信息处理模型的初始参数；

响应于所述信息处理模型的初始参数，通过所述信息处理模型对所述第二训练样本集合进行处理，确定所述信息处理模型的更新参数；

根据所述信息处理模型的更新参数，通过所述第一训练样本集合和所述第二训练样本集合对所述信息处理模型的编码器参数和解码器参数进行迭代更新，以实现所述信息处理模型能够对相应的搜索词进行编码。

7.根据权利要求6所述的方法，其特征在于，所述对所述第一训练样本集合进行去噪处理，以形成相应的第二训练样本集合，包括：

确定与所述信息处理模型的使用环境相匹配的动态噪声阈值；

根据所述动态噪声阈值对所述第一训练样本集合进行去噪处理，以形成与所述动态噪声阈值相匹配的第二训练样本集合；或者，

确定与所述信息处理模型相对应的固定噪声阈值，并根据所述固定噪声阈值对所述第一训练样本集合进行去噪处理，以形成与所述固定噪声阈值相匹配的第二训练样本集合。

8.根据权利要求6所述的方法，其特征在于，所述方法还包括：

对所述第一训练样本集合进行负例处理，以形成与所述第一训练样本集合相对应的负例样本集合，其中，所述负例样本集合包括用户行为数据中的坏例样本数据，用于调整所述信息处理模型的编码器参数和解码器参数调整。

9.根据权利要求6所述的方法，其特征在于，所述响应于所述信息处理模型的初始参数，通过所述信息处理模型对所述第二训练样本集合进行处理，确定所述信息处理模型的更新参数，包括：

将所述第二训练样本集合中不同语句样本，代入由所述信息处理模型的编码器和解码器构成的自编码网络对应的损失函数；

确定所述损失函数满足收敛条件时对应所述信息处理模型中编码器的参数和相应的解码器参数作为所述信息处理模型的更新参数。

10.根据权利要求1所述的方法，其特征在于，所述基于所述搜索词向量，确定所述搜索词集合中偏离语义中心的搜索词，包括：

基于所述搜索词向量，确定所述搜索词集合所对应的语义中心；

确定所述搜索词集合中的每一个搜索词到所述语义中心的距离；

当所述搜索词到所述语义中心的距离大于对应的距离阈值时，确定当前搜索词偏离语义中心；

对所述搜索词集合中的不同搜索词进行迭代处理，直至确定所述搜索词集合中所有偏离语义中心的搜索词。

11.根据权利要求1所述的方法，其特征在于，所述方法还包括：

当所述搜索词集合中的不同搜索词均未超出距离阈值时，确定所述搜索引擎的坏例集合为空集合。

12.一种信息处理装置，其特征在于，所述装置包括：

所述信息处理模块，用于将所述搜索词集合中的不同搜索词映射至相匹配的语义空间，对所述搜索词集合中的不同搜索词进行编码处理，形成相应的搜索词向量；

13.根据权利要求12所述的装置，其特征在于，

14.一种电子设备，其特征在于，所述电子设备包括：

存储器，用于存储可执行指令；

处理器，用于运行所述存储器存储的可执行指令时，实现权利要求1至11任一项所述的信息处理方法。

15.一种计算机可读存储介质，存储有可执行指令，其特征在于，所述可执行指令被处理器执行时实现权利要求1至11任一项所述的信息处理方法。