CN111078858B

CN111078858B - 文章搜索方法、装置及电子设备

Info

Publication number: CN111078858B
Application number: CN201811223825.4A
Authority: CN
Inventors: 潘岸腾
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2018-10-19
Filing date: 2018-10-19
Publication date: 2023-06-09
Anticipated expiration: 2038-10-19
Also published as: CN111078858A

Abstract

本发明公开了一种文章搜索方法、装置及电子设备。该方法包括：获取用户输入的目标搜索词的词特征向量；获取文章数据库中包括的每篇文章的文章特征向量；根据预先训练的文章搜索模型，对词特征向量和文章特征向量进行处理，获取文章数据库的每篇文章的搜索预测值，以选取搜索预测值符合搜索条件的目标文章作为搜索结果提供给用户。根据本发明，可以在用户搜索文章时，向用户提供符合用户的行为特性并且与搜索词的实际内容相关性较高的文章，更精准满足用户的文章搜索需求。

Description

文章搜索方法、装置及电子设备

技术领域

本发明涉及搜索技术领域，更具体地，涉及一种文章搜索方法、装置及电子设备。

背景技术

文章搜索功能是计算机软件程序、移动终端应用(APP)中可支持的最基本的应用功能。

目前文章搜索功能的实现，通常是根据用户输入的搜索词进行搜索，搜索到包括与该搜索词匹配的关键词的文章时，将该文章作为搜索结果提供给用户。

但是，这种文章搜索方法并不能搜索到包括与搜索词存在相关性的相关词的文章，例如，用户输入搜索词“听歌”，可以搜索出包括“听歌”这一关键词的文章，但是，却无法搜索出不包括“听歌”但是包括与“听歌”存在相关性的相关词“音乐”或者“配乐”等的文章。

发明内容

本发明的一个目的是提供一种用于文章搜索的新技术方案。

根据本发明的第一方面，提供了一种文章搜索方法，其中，包括：

获取用户输入的目标搜索词的词特征向量；

获取文章数据库中包括的每篇文章的文章特征向量；

根据预先训练的文章搜索模型，对所述词特征向量和所述文章特征向量进行处理，获取所述文章数据库的每篇文章的搜索预测值，以选取所述搜索预测值符合搜索条件的目标文章作为搜索结果提供给用户。

可选地，所述获取用户输入的目标搜索词的词特征向量的步骤包括：

获取所述目标搜索词的搜索分词集合；

从已获取的分词特征向量集合中，获取所述搜索分词集合中包括每个搜索分词的词特征向量；

将所述搜索分词集合中包括所有搜索分词的词特征向量得到的平均向量，作为所述目标搜索词的词特征向量。

可选地，所述方法还获取搜索分词特征向量集合的步骤，包括：

对文章数据库中每篇文章进行分词处理，得到该篇文章的文章分词序列；

其中，所述文章分词序列中包括根据在对应的文章中出现次序进行排序的、所述文章的所有分词；

根据所获取的全部所述文章分词序列，获取所述文章数据库中每篇文章的每个所述分词的词特征向量，以构成所述分词特征向量集合；

其中，所述每个分词的词特征向量具有预设数目的向量维度。

可选地，所述获取文章数据库中包括的每篇文章的文章特征向量的步骤包括：

根据所获取的统计时段内所有用户的历史点击文章行为记录，获取每个用户的文章点击序列；

其中，每个用户的所述历史点击文章行为记录包括所述用户在所述统计时段内每次点击文章的文章标识以及点击时间；每个用户的文章点击序列中包括根据所述用户的点击先后次序进行排序的、在所述统计时段被所述用户点击的所有文章的文章标识；

根据所获取的全部所述文章点击序列，获取所述文章数据库中每篇文章的文章特征向量。

可选地，所述文章搜索模型提供模型系数集合，所述模型系数集合包括第一系数矩阵、第二系数矩阵、第三系数矩阵以及常数系数；

所述获取每篇文章的搜索预测值的步骤包括：

根据所述词特征向量以及该篇文章的文章特征向量，构建基础预测矩阵；

对根据所述模型系数集合中包括的所述第一系数矩阵、第三系数矩阵以及所述基础预测矩阵得到的中间矩阵通过线性整流函数进行处理，得到第一预测矩阵；

对根据所述模型系数集合中包括的所述第二系数矩阵、常数系数以及所述第一预测矩阵得到的中间变量进行变量映射处理，得到该篇文章的所述搜索预测值。

可选地，所述搜索条件是，所述文章的搜索预测值的降序排序次序在预设的排序范围内。

可选地，所述方法还包括训练所述文章搜索模型的步骤，包括：

在训练统计时段内收集多个训练样本；

其中，每个所述训练样本包括针对一个搜索词搜索得到的一篇文章提供给用户后被用户点击的实际点击值、所述搜索词的词特征向量以及所述文章的文章特征向量；

对每个训练样本，根据所述训练样本中的所述词特征向量以及所述文章特征向量，以模型系数集合作为变量，确定对应的训练样本的搜索预测值表达式；

其中，所述模型系数集合中包括第一系数矩阵、第二系数矩阵、第三系数矩阵以及常数系数；

根据所述多个训练样本以及对应的所述搜索预测值表达式，构建损失函数；

求解所述损失函数，确定所述模型系数集合中包括的第一系数矩阵、第二系数矩阵、第三系数矩阵以及常数系数的取值，完成本次对所述文章搜索模型的训练。

可选地，所述构建损失函数的步骤包括：

对每个训练样本，根据所述训练样本的所述实际点击值以及所述搜索预测值表达式，确定对应的损失表达式；

将每个所述训练样本的损失表达式求和，得到所述损失函数。

可选地，所述求解所述损失函数的步骤包括：

设置所述模型系数集合中包括的第一系数矩阵、第二系数矩阵、第三系数矩阵等三个矩阵的矩阵元素初始值以及常数系数的初始值为预设数值范围内的随机数；

将设置初始值后的所述模型系数集合代入所述损失函数中，进行迭代处理；

当所述迭代处理得到的所述模型系数集合符合收敛条件时，终止所述迭代处理，确定所述模型系数集合中包括的所述第一系数矩阵、第二系数矩阵、第三系数矩阵以及常数系数的取值，否则，继续所述迭代处理。

可选地，

所述收敛条件是，所述迭代处理的次数不小于预设的次数阈值；

和/或，

所述收敛条件是，所述迭代处理得到的所述模型系数集合的迭代结果值小于结果阈值；

其中，所述迭代结果值是根据所述迭代处理得到的所述模型系数集合代入的损失函数与对应的模型系数集合求偏导的结果确定。

根据本发明的第二方面，提供一种文章搜索装置，其中，包括：

词特征获取单元，用于获取用户输入的目标搜索词的词特征向量；

文章特征获取单元，用于获取文章数据库中包括的每篇文章的文章特征向量；

搜索处理单元，用于根据预先训练的文章搜索模型，对所述词特征向量和所述文章特征向量进行处理，获取所述文章数据库的每篇文章的搜索预测值，以选取所述搜索预测值符合搜索条件的目标文章作为搜索结果提供给用户。

根据本发明的第三方面，提供一种电子设备，其中，包括：

存储器，用于存储可执行的指令；

处理器，用于根据所述可执行的指令的控制，运行所述电子设备执行本发明第一方面提供的文章搜索方法。

根据本公开的一个实施例，通过获取搜索词的词特征向量以及文章数据库中可被搜索文章的文章特征向量，针对每篇文章根据训练得到的文章搜索模型，对体现搜索词的实际内容特征的词特征向量以及体现用户对可被搜索文章的行为特性的文章特征向量进行处理，得到综合表征用户的行为特性以及与搜索词的实际内容的相关性的搜索预测值，将搜索预测值符合搜索条件的文章作为搜索结果提供给用户，实现在用户搜索文章时，向用户提供符合用户的行为特性并且与搜索词的实际内容相关性较高的文章，更精准地满足用户的搜索需求。

通过以下参照附图对本发明的示例性实施例的详细描述，本发明的其它特征及其优点将会变得清楚。

附图说明

被结合在说明书中并构成说明书的一部分的附图示出了本发明的实施例，并且连同其说明一起用于解释本发明的原理。

图1是显示可用于实现本发明的实施例的电子设备的硬件配置的例子的框图。

图2示出了本发明的实施例的文章搜索方法的流程图。

图3示出了本发明的实施例的训练文章搜索模型步骤的流程图。

图4示出了本发明的实施例的文章搜索装置的框图。

图5示出了本发明的实施例的电子设备的框图。

具体实施方式

现在将参照附图来详细描述本发明的各种示例性实施例。应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本发明及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

在这里示出和讨论的所有例子中，任何具体值应被解释为仅仅是示例性的，而不是作为限制。因此，示例性实施例的其它例子可以具有不同的值。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

<硬件配置>

图1是示出可以实现本发明的实施例的电子设备1000的硬件配置的框图。

电子设备1000可以是便携式电脑、台式计算机、手机、平板电脑等。如图1所示，电子设备1000可以包括处理器1100、存储器1200、接口装置1300、通信装置1400、显示装置1500、输入装置1600、扬声器1700、麦克风1800等等。其中，处理器1100可以是中央处理器CPU、微处理器MCU等。存储器1200例如包括ROM(只读存储器)、RAM(随机存取存储器)、诸如硬盘的非易失性存储器等。接口装置1300例如包括USB接口、耳机接口等。通信装置1400例如能够进行有线或无线通信，具体地可以包括Wifi通信、蓝牙通信、2G/3G/4G/5G通信等。显示装置1500例如是液晶显示屏、触摸显示屏等。输入装置1600例如可以包括触摸屏、键盘、体感输入等。用户可以通过扬声器1700和麦克风1800输入/输出语音信息。

图1所示的电子设备仅仅是说明性的并且决不意味着对本发明、其应用或使用的任何限制。应用于本发明的实施例中，电子设备1000的所述存储器1200用于存储指令，所述指令用于控制所述处理器1100进行操作以执行本发明实施例提供的任意一项文章搜索方法。本领域技术人员应当理解，尽管在图1中对电子设备1000示出了多个装置，但是，本发明可以仅涉及其中的部分装置，例如，电子设备1000只涉及处理器1100和存储装置1200。技术人员可以根据本发明所公开方案设计指令。指令如何控制处理器进行操作，这是本领域公知，故在此不再详细描述。

<实施例>

本实施例的总体构思，是提供一种新的文章搜索方案，通过获取搜索词的词特征向量以及文章数据库中可被搜索文章的文章特征向量，针对每篇文章根据训练得到的文章搜索模型，对体现搜索词的实际内容特征的词特征向量以及体现用户对可被搜索文章的行为特性的文章特征向量进行处理，得到综合表征用户的行为特性以及与搜索词的实际内容的相关性的搜索预测值，将搜索预测值符合搜索条件的文章作为搜索结果提供给用户，实现在用户搜索文章时，向用户提供符合用户的行为特性并且与搜索词的实际内容相关性较高的文章，更精准地满足用户的搜索需求。

<方法>

在本实施例中，提供一种文章搜索方法。应当理解的是，作为搜索对象的文章，是任意可以被搜索后提供给用户浏览或者阅读内容，例如，可以是网页新闻、线上小说、各种媒体应用或者社交应用发布的文章等。

该文章搜索方法，如图2所示，包括：步骤S2100-S2300。

步骤S2100，获取用户输入的目标搜索词的词特征向量。

在本实施例中，用户可以通过实施搜索操作，输入对应的目标搜索词。搜索操作可以是在提供搜索功能的应用界面上实施的输入操作、点击操作或者勾选操作等。例如，用户可以通过语音或者文本输入目标搜索词以后，点击搜索相关的功能按钮实现搜索操作，或者用户可以在提供的候选搜索词中通过勾选操作选择目标搜索词后，点击搜索相关的功能按钮实现搜索操作等等。

搜索词的词特征向量是用于表征该搜索词的实际内容特征的向量。

在本实施例中，通过获取用户输入的目标搜索词的词特征向量，可以结合后续步骤，针对每篇文章根据训练得到的文章搜索模型，对体现搜索词的实际内容特征的词特征向量以及体现用户对可被搜索文章的行为特性的文章特征向量进行处理，得到综合表征用户的行为特性以及与搜索词的实际内容的相关性的搜索预测值，将搜索预测值符合搜索条件的文章作为搜索结果提供给用户，实现在用户搜索文章时，向用户提供符合用户的行为特性并且与搜索词的实际内容相关性较高的文章，更精准地满足用户的搜索需求。

在一个例子中，获取用户输入的目标搜索词的词特征向量的步骤S2100，可以包括：步骤S2110-S2130。

步骤S2110，获取目标搜索词的搜索分词集合。

在本例中，对目标搜索词进行分词处理，是将目标搜索词作为“文章”进行单词切分，得到对应的多个搜索分词，以构成包括目标搜索词的搜索分词集合。

例如，目标搜索词是“理财攻略”，对目标搜索词进行分词处理，可以得到“理财”、“攻略”两个搜索分词构成的搜索分词集合：{“理财”，“攻略”}。

在本例中，对目标搜索词的分词处理，可以使用基于字符串匹配的分词算法、基于理解的分词算法以及基于统计的分词算法，在此不做限制。

步骤S2120，从已获取的分词特征向量集合中，获取搜索分词集合中包括每个搜索分词的词特征向量。

在本例中，分词特征向量集合中包括多个分词的词特征向量。每个分词的词特征向量是表征该分词的词汇实际内容特征的向量。

对于搜索分词集合中的每个搜索分词，可以从分词特征向量集合中获取与该搜索分词相同的分词的词特征向量，作为该搜索分词的词特征向量。

分词特征向量集合可以在实施步骤S2120之前预先获取存储在可读取的本地或者远端存储设备中，在实施步骤S2120时直接读取，以降低处理耗时，或者，分词特征向量集合也可以在实施步骤S2120中实施获取，在本例中不做限制。

在本例中，获取搜索分词特征向量集合的步骤可以包括：步骤S2010-S2020。

步骤S2010，对文章数据库中每篇文章进行分词处理，得到该篇文章的文章分词序列。

该文章数据库是提供可被搜索的候选文章的数据库，包括多篇候选文章。文章数据库可以存储在实施本实施例的电子设备本地，也可以存储于与实施本实施例的电子设备建立通信连接的远端设备中。

对每篇文章采用例如基于字符串匹配的分词算法、基于理解的分词算法以及基于统计的分词算法进行分词处理，可以得到每篇文章包括的所有分词，进而得到文章分词序列。

文章分词序列中包括根据在对应的文章中出现次序进行排序的、所述文章的所有分词。例如，一篇文章的文章内容是“文章的内容：测试，验证”，对应得到的文章分词序列，其中包括“文章；内容；测试；验证”四个按在文章中出现次序排序的分词。为了区分不同的文章分词序列，每个文章分词序列具有唯一的序列标识，例如，该序列标识可以是预先设置的唯一编号，也可以是对应的文章标识。

步骤S2020，根据所获取的全部文章分词序列，获取文章数据库中每篇文章的每个分词的词特征向量，以构成分词特征向量集合。

每个分词的词特征向量是表征该分词的词汇实际内容特征的向量，在本例中具有预设数目的向量维度。该预设数目可以根据具体的应用需求或者应用场景设置，例如，设置为50。

在本例中，根据所获取的全部文章分词序列，获取文章数据库中每篇文章的每个分词的词特征向量的步骤，可以包括：

对每个文章分词序列，通过基于Word2Vec的深度学习模型进行处理，获取该文章分词序列中不同分词的词特征向量。

基于Word2vec的深度学习模型，是用来产生词向量的相关模型，可以根据给定的语料库，通过优化后的训练模型快速有效地将一个词语表达成向量形式。例如，基于Word2vec的深度学习模型可以是CBOW模型(连续词袋模型)。CBOW模型的训练输入是某一个特征词的上下文相关的词对应数目的词向量(例如输入特征词的前后相邻各2个的相邻词)，而输出就是这特定的一个词的词向量。

在本例中，可以以每个文章分词序列以及标识该文章分词序列的序列标识(可以是对应的文章标识)作为输入，利用可以利用CBOW模型进行处理，对输入的分词进行映射得到不同的分词的词特征向量，类似地，可以得到文章数据库中所有文章中包括的分词的词特征向量，构成分词特征向量集合。

在获取搜索分词集合中包括每个搜索分词的词特征向量后，进入：

步骤S2130，将搜索分词集合中包括所有搜索分词的词特征向量得到的平均向量，作为目标搜索词的词特征向量。

例如，假设目标搜索分词为s，搜索分词集合为S，S中包括多个搜索分词w，每个搜索分词w的词特征向量为wordvec_w，对应的目标搜索词的词特征向量

其中|S|是搜索分词集合S中包括的搜索分词w的数目。

步骤S2200，获取文章数据库中包括的每篇文章的文章特征向量。

文章数据库是提供可被搜索的候选文章的数据库，包括多篇候选文章。文章数据库可以存储在实施本实施例的电子设备本地，也可以存储于与实施本实施例的电子设备建立通信连接的远端设备中。

在本实施例中，文章特征向量是表征文章的与用户行为相关的特征的向量。通过文章特征向量，可以体现用户对该文章的行为特性。获取文章数据库中包括的每篇文章的文章特征向量，可以结合后续步骤，针对每篇文章根据训练得到的文章搜索模型，对体现搜索词的实际内容特征的词特征向量以及体现用户对可被搜索文章的行为特性的文章特征向量进行处理，得到综合表征用户的行为特性以及与搜索词的实际内容的相关性的搜索预测值，将搜索预测值符合搜索条件的文章作为搜索结果提供给用户，实现在用户搜索文章时，向用户提供符合用户的行为特性并且与搜索词的实际内容相关性较高的文章，更精准地满足用户的搜索需求。

在一个例子中，获取文章数据库中包括的每篇文章的文章特征向量的步骤可以包括：步骤S2210-S2220。

步骤S2210，根据所获取的统计时段内所有用户的历史点击文章行为记录，获取每个用户的文章点击序列。

统计时段可以根据具体的应用场景或者应用需求进行设置，例如，最近一个月、最近半年等。

每个用户的历史点击文章行为记录是该用户在统计时段内对文章产生点击行为的历史记录，包括用户在统计时段内每次点击文章的文章标识以及点击时间。

每个用户的文章点击序列中包括根据用户的点击先后次序进行排序的、在统计时段被用户点击的所有文章的文章标识。为了区分不同的文章点击序列，每个文章点击序列具有唯一的序列标识，例如，该序列标识可以是预先设置的唯一编号，也可以是对应的用户标识。

例如，对于某个用户，历史点击文章行为记录如下：

“文章1：点击时间20180620 12:00:00；

文章2：点击时间20180620 11:00:00；

文章3：点击时间20180620 13:00:00；”

可以从中获取该用户的文章点击序列为“文章2；文章1；文章3”。

步骤S2220，根据所获取的全部文章点击序列，获取文章数据库中每篇文章的文章特征向量。

每篇文章的文章特征向量是表征文章的与用户行为相关的特征的向量。通过文章特征向量，可以体现用户对该文章的行为特性。文章特征向量的向量维度数目可以根据具体的应用需求或者应用场景设置，例如，设置为50。

在本例中，根据所获取的全部文章点击序列，获取文章数据库中每篇文章的文章特征向量的步骤，可以包括：

对每个文章点击序列，通过基于Word2Vec的深度学习模型进行处理，获取该文章分词序列中不同文章的文章特征向量。

在本例中，基于Word2Vec的深度学习模型可以是上文描述的CBOW模型，以每个文章点击序列以及标识该文章点击序列的序列标识(可以是对应的用户标识)作为输入，利用可以利用CBOW模型进行处理，得到不同文章的文章特征向量，以此类推，可以得到文章数据库中每篇文章的文章特征向量。

上述已经结合附图和例子说明如图3所示的步骤S2100、步骤S2200，应当理解的是，在实际实施时，步骤S2100、步骤S2200的实施先后顺序可以根据具体的应用场景或应用需求调整，步骤S2100、步骤S2200也可以并行实施，本实施例中的步骤编号并不是限制实施先后顺序。

在获取目标搜索词的词特征向量以及文章数据库中包括的每篇文章的文章特征向量之后，进入：

步骤S2300，根据预先训练的文章搜索模型，对词特征向量和文章特征向量进行处理，获取文章数据库的每篇文章的搜索预测值，以选取搜索预测值符合搜索条件的目标文章作为搜索结果提供给用户。

搜索条件是用于根据文章的搜索预测值判断该文章是否满足用户的搜索需求的条件，可以根据具体的应用场景或者需求设置。

在一个例子中，搜索条件可以是该文章的搜索预测值的降序排序次序在预设的排序范围内。排序范围可以根据具体的应用场景或者需求设置，例如设置为1-100，使得文章数据库中搜索预测值排序在前100的文章能作为搜索结果提供给用户。

在本实施例中，目标搜索词的词特征向量体现搜索词的实际内容特征，每篇文章的文章特征向量体现用户对该文章的行为特性，针对每篇文章，根据文章搜索模型，对目标搜索词的词特征向量以及每篇文章的文章特征向量进行处理，得到每篇文章的综合表征用户的行为特性以及与搜索词的实际内容的相关性的搜索预测值，将搜索预测值符合搜索条件的文章作为搜索结果提供给用户，可以实现在用户搜索文章时，向用户提供符合用户的行为特性并且与搜索词的实际内容相关性较高的文章，这些文章不仅包括文章内容中包含目标搜索词的文章，还能包括其他文章内容不包含目标搜索词但与目标搜索词具有强相关性的文章，同时符合用户的行为特性，使得搜索结果更充实，能更精准地满足用户的搜索需求。

在一个例子中，文章搜索模型提供模型系数集合。该模型系数集合包括第一系数矩阵、第二系数矩阵、第三系数矩阵以及常数系数。对应的，所述获取每篇文章的搜索预测值的步骤包括：步骤S2310-S2330。

步骤S2310，根据词特征向量以及该篇文章的文章特征向量，构建基础预测矩阵。

假设目标搜索词的词特征向量是Y，该篇文章的文章特征向量是Z，基础预测矩阵

例如，词特征向量Y是向量维度50的向量：

文章特征向量Z是向量维度50的向量：/>

基础预测矩阵/>

步骤S2320，对根据模型系数集合中包括的第一系数矩阵、第三系数矩阵以及基础预测矩阵得到的中间矩阵通过线性整流函数进行处理，得到第一预测矩阵。

线性整流函数(Rectified Linear Unit),又称修正线性单元,是一种人工神经网络中常用的激活函数，通常指代以斜坡函数及其变种为代表的非线性函数。在本例中，线性整流函数relu(X)的定义如下：

假设第一系数矩阵是W₀，第三系数矩阵是B₀，则中间矩阵为W₀L₀+B₀，得到第一预测矩阵L₁＝relu(W₀L₀+B₀)。

在本例中，第一系数矩阵是W₀、第三系数矩阵是B₀的矩阵维度根据词特征向量Y以及文章特征向量Z的向量维度确定，例如，词特征向量Y是向量维度50的向量、文章特征向量Z是向量维度50的向量，第一系数矩阵是W₀是100*100的矩阵，第三系数矩阵是B₀是100*1的矩阵。

步骤S2330，对根据模型系数集合中包括的第二系数矩阵、常数系数以及第一预测矩阵得到的中间变量进行变量映射处理，得到该篇文章的所述搜索预测值。

在本例中，进行变量映射处理可以通过sigmod(x)函数实现。sigmod(x)函数常被用作神经网络的阈值函数，将变量映射到0-1之间。在本例中，sigmod(x)函数的定义如下：

假设第二系数矩阵是W₁、常数系数是b、第一预测矩阵是L₁，则中间向量为W₁L₁+b，得到搜索预测值C＝sigmod(W₁L₁+b)。

在本例中，第二系数矩阵是W₁的矩阵维度根据词特征向量Y以及文章特征向量Z的向量维度确定，例如，词特征向量Y是向量维度50的向量、文章特征向量Z是向量维度50的向量，第二系数矩阵是W₁是1*100的矩阵。

在一个例子中，本实施例中提供的文章搜索方法，还可以包括训练文章搜索模型的步骤，如图3所示，包括：步骤S3100-S3400。

步骤S3100，在训练统计时段内收集多个训练样本。

在本例中，训练统计时段可以根据应用场景或者应用需求设置，例如，可以设置为最近1天。

每个训练样本包括针对一个搜索词搜索得到的一篇文章提供给用户后被用户点击的实际点击值、搜索词的词特征向量以及文章的文章特征向量。当该用户点击该文章时，实际点击值设置为1，否则，实际点击值设置为-1；搜索词的词特征向量、文章的文章特征向量的获取在上文中已经详细描述，在此不再赘述。

假设一个训练样本(Y_s,Z_d,c_s,d)，c_s,d表示用户输入搜索词s后将文章d作为搜索结果提供给用户得到的用户的实际点击值，Y_s是搜索词s的词特征向量，Z_d是文章d的文章特征向量。

步骤S3200，对每个训练样本，根据训练样本中的词特征向量以及文章特征向量，以模型系数集合作为变量，确定对应的训练样本的搜索预测值表达式。

在本例中，模型系数集合中包括第一系数矩阵、第二系数矩阵、第三系数矩阵以及常数系数。

假设一个训练样本(Y_s,Z_d,c_s,d)，Y_s是搜索词s的词特征向量，Z_d是文章d的文章特征向量，模型系数集合中包括第一系数矩阵W₀，第二系数矩阵W₁、第三系数矩阵B₀以及常数系数b，对应的训练样本的搜索预测值表达式为：

其中，函数sigmod()、relu()在上文中已经说明，在此不再赘述。

根据上述方法，可以确定每个训练样本对应的搜索预测值表达式。

步骤S3300，根据多个训练样本以及对应的搜索预测值表达式，构建损失函数。

例如，构建损失函数的步骤S3300可以包括：步骤S3310-S3320。

步骤S3310，对每个训练样本，根据该训练样本的实际点击值以及搜索预测值表达式，确定对应的损失表达式。

假设收集到的训练样本数为nums，对于第i个样本，对应的实际点击值是c_i，搜索预测值表达式为C_i，对应的损失表达是为(c_i-C_i)²(i＝1,...,nums)。

步骤S3320，将每个训练样本的损失表达式求和，得到损失函数。

在本例中，损失函数为：

其中，W₀是模型系数集合中包括的第一系数矩阵，W₁是模型系数集合中包括的第二系数矩阵，B₀是模型系数集合中包括的第三系数矩阵以及b是模型系数集合中包括的常数系数。

在构建损失函数之后，进入：

步骤S3400，求解损失函数，确定模型系数集合中包括的第一系数矩阵、第二系数矩阵、第三系数矩阵以及常数系数的取值，完成本次对文章搜索模型的训练。

在本例中，步骤S3400可以包括：步骤S3410-S3430。

步骤S3410，设置模型系数集合中包括的第一系数矩阵、第二系数矩阵、第三系数矩阵等三个矩阵的矩阵元素初始值以及常数系数的初始值为预设数值范围内的随机数。

该预设数值范围可以根据应用场景或者应用需求设置，例如，设置预设数值范围为0-1，使得的第一系数矩阵、第二系数矩阵、第三系数矩阵等三个矩阵的矩阵元素初始值以及常数系数的初始值都是0-1之间的随机数。

步骤S3420，将设置初始值后的模型系数集合代入损失函数中，进行迭代处理。

在本例汇总，步骤S3420可以包括：步骤S3421-S3422。

步骤S3421，对模型系数集合中包括的任意一个系数矩阵或常数系数，根据本次迭代前的取值、收敛参数以及代入本次迭代前的模型系数集合的损失函数，获取对应的迭代后该系数矩阵或常数系数的取值。

其中，收敛参数是控制迭代处理收敛速度的相关参数，可以根据应用场景或者应用需求设置，例如，设置为0.01。

假设本次迭代是第k+1次迭代(k的初始值为0，随着每次迭代加1)，对第一系数矩阵W₀，本次迭代前的第一系数矩阵的取值为W₀ ^(k)，收敛参数为ρ，代入本次迭代前的模型系数集合的损失函数为

对应的迭代后的第一系数矩阵W₀的取值W₀ ^(k+1)为：

类似地，可以采用类似的方法，得到迭代后的第二系数矩阵W₁的取值W₁ ^(k+1)、迭代后的第三系数矩阵B₀的取值B₀ ^(k+1)、迭代后的常数系数b的取值b^(k+1)。

步骤S3422，根据本次迭代后的第一系数矩阵、第二系数矩阵、第三系数矩阵以及常数系数的取值，得到本次迭代后的模型系数集合。

假设，本次迭代后的第一系数矩阵的取值是W₀ ^(k+1)、第二系数矩阵的取值是W₁ ^(k+1)、第三系数矩阵的取值是B₀ ^(k+1)常数系数b的取值是b^(k+1)，得到迭代后的模型系数集合：

{W₀,W₁,B₀,b}^(k+1)＝{W₀ ^(k+1),W₁ ^(k+1),B₀ ^(k+1),b^(k+1)}。

步骤S3430，当迭代处理得到的模型系数集合符合收敛条件时，终止迭代处理，确定模型系数集合中包括的第一系数矩阵、第二系数矩阵、第三系数矩阵以及常数系数的取值，否则，继续所述迭代处理。

在本实施例中，收敛条件可以根据具体的应用场景或者应用需求设置。

例如，收敛条件是迭代处理的次数大于预设的次数阈值。该预设的次数阈值可以根据工程经验或者实验仿真结果设置，例如，可以设置为300。对应地，假设迭代处理的次数为k+1，次数阈值是itemNums，对应的收敛条件为：k≥itemNums。

又例如，收敛条件是迭代处理得到的模型系数集合的迭代结果值小于结果阈值。该迭代结果值是根据迭代处理得到的模型系数集合代入的损失函数与对应的每个模型系数集合求偏导的结果确定。

在本例中，模型系数集合为{W₀,W₁,B₀,b}中包括第一系数矩阵W₀、第二系数矩阵W₁、第三系数矩阵B₀以及常数系数b共四类模型参数，对于第k+1次迭代的迭代结果值为：

其中，{W₀,W₁,B₀,b}＝{W₀,W₁,B₀,b}^(k+1)；

预设结果阈值可以根据模型系数集合中包括的系数数目Num设置，例如设置为Num×α，其中α可以根据工程经验或者实验仿真结果设置，例如设置为α＝0.01×ρ，ρ为上述的收敛参数；对应地，收敛条件为：

其中，{W₀,W₁,B₀,b}＝{W₀,W₁,B₀,b}^(k+1)；

在一个例子中，收敛条件是满足上述两个例子中任意一个收敛条件，具体收敛条件在上述两个例子中已经描述，在此不再赘述。

假设第k+1次迭代处理得到的模型系数集合{W₀,W₁,B₀,b}符合收敛条件时，终止迭代处理，得到第一系数矩阵W₀、第二系数矩阵W₁、第三系数矩阵B₀以及常数系数b的取值，否则，继续迭代处理，直到模型系数集合符合收敛条件。

在实际应用中，文章数据库中的文章会因为数量增长、内容更新等原因一直发生变化以及与文章相关的用户行为也会随时间变化，对应地，这些变化都将会影响对文章搜索的实际效果，因此，在本实施例中，还可以对文章搜索模型，根据预设的训练周期，执行上述如图3所示的训练文章搜索模型的步骤，使得文章搜索模型自适应根据文章数据库的变化以及用户行为的变化，更精准地实现针对用户的个性化文章搜索。该训练周期可以根据具体应用场景或者应用需求设置，例如，设置为1天。

<文章搜索装置>

在本实施例中，还提供一种文章搜索装置3000，如图4所示，包括：词特征获取单元3100、文章特征获取单元3200、搜索处理单元3300，用于实施本实施例中提供的任意一项文章搜索方法，在此不再赘述。

文章搜索装置3000包括：

词特征获取单元3100，用于获取用户输入的目标搜索词的词特征向量。

在一个例子中，词特征获取单元3100包括：

用于获取所述目标搜索词的搜索分词集合的装置；

用于从已获取的分词特征向量集合中，获取所述搜索分词集合中包括每个搜索分词的词特征向量的装置；

用于将所述搜索分词集合中包括所有搜索分词的词特征向量得到的平均向量，作为所述目标搜索词的词特征向量的装置。

在本例中，文章搜索装置3000还可以包括：用于获取搜索分词特征向量集合的装置，用于：

文章特征获取单元3200，用于获取文章数据库中包括的每篇文章的文章特征向量。

在一个例子中，文章特征获取单元3200包括：

用于根据所获取的统计时段内所有用户的历史点击文章行为记录，获取每个用户的文章点击序列的装置；

用于根据所获取的全部所述文章点击序列，获取所述文章数据库中每篇文章的文章特征向量的装置。

搜索处理单元3300，用于根据预先训练的文章搜索模型，对所述词特征向量和所述文章特征向量进行处理，获取所述文章数据库的每篇文章的搜索预测值，以选取所述搜索预测值符合搜索条件的目标文章作为搜索结果提供给用户。

在一个例子中，所述文章搜索模型提供模型系数集合，所述模型系数集合包括第一系数矩阵、第二系数矩阵、第三系数矩阵以及常数系数；搜索处理单元3300包括：

用于根据所述词特征向量以及该篇文章的文章特征向量，构建基础预测矩阵的装置；

用于对根据所述模型系数集合中包括的所述第一系数矩阵、第三系数矩阵以及所述基础预测矩阵得到的中间矩阵通过线性整流函数进行处理，得到第一预测矩阵的装置；

用于对根据所述模型系数集合中包括的所述第二系数矩阵、常数系数以及所述第一预测矩阵得到的中间变量进行变量映射处理，得到该篇文章的所述搜索预测值的装置。

可选地，文章搜索装置3000还包括训练所述文章搜索模型的装置，包括：

用于在训练统计时段内收集多个训练样本的装置；

用于对每个训练样本，根据所述训练样本中的所述词特征向量以及所述文章特征向量，以模型系数集合作为变量，确定对应的训练样本的搜索预测值表达式的装置；

用于根据所述多个训练样本以及对应的所述搜索预测值表达式，构建损失函数的装置；

用于求解所述损失函数，确定所述模型系数集合中包括的第一系数矩阵、第二系数矩阵、第三系数矩阵以及常数系数的取值，完成本次对所述文章搜索模型的训练的装置。

可选地，用于根据所述多个训练样本以及对应的所述搜索预测值表达式，构建损失函数的装置用于：

可选地，用于求解所述损失函数的装置用于：

可选地，

和/或，

本领域技术人员应当明白，可以通过各种方式来实现文章搜索装置3000。例如，可以通过指令配置处理器来实现文章搜索装置3000。例如，可以将指令存储在ROM中，并且当启动设备时，将指令从ROM读取到可编程器件中来实现文章搜索装置3000。例如，可以将文章搜索装置3000固化到专用器件(例如ASIC)中。可以将文章搜索装置3000分成相互独立的单元，或者可以将它们合并在一起实现。文章搜索装置3000可以通过上述各种实现方式中的一种来实现，或者可以通过上述各种实现方式中的两种或更多种方式的组合来实现。

在本实施例中，文章搜索装置3000可以具体各种实施形式，例如，文章搜索装置3000可以是任意提供搜索功能的软件产品，比如浏览器或者类似浏览器的应用程序，或者，文章搜索装置3000可以设置与能实现搜索功能的任意电子设备中，比如设置在客户端或者是服务器中，或者是部分功能单元设置在客户端、部分功能单元设置在服务器等等。

<电子设备>

在本实施例中，还提供一种电子设备4000，如图5所示，包括：

存储器4100，用于存储可执行的指令；

处理器4200，用于根据所述可执行的指令的控制，运行所述电子设备执行如本实施例中提供的任意一项文章搜索方法。

在本实施例中，电子设备4000是任意可以实现搜索功能的电子设备，例如手机、平板电脑、掌上电脑、笔记本电脑或者台式计算机等，电子设备4000还可以包括其他硬件装置，例如，如图1所示的电子设备1000。

以上已经结合附图和例子描述了本发明的实施例，根据本实施例，提供一种文章搜索方法、装置及电子设备，通过获取搜索词的词特征向量以及文章数据库中可被搜索文章的文章特征向量，针对每篇文章根据训练得到的文章搜索模型，对体现搜索词的实际内容特征的词特征向量以及体现用户对可被搜索文章的行为特性的文章特征向量进行处理，得到综合表征用户的行为特性以及与搜索词的实际内容的相关性的搜索预测值，将搜索预测值符合搜索条件的文章作为搜索结果提供给用户，实现在用户搜索文章时，向用户提供符合用户的行为特性并且与搜索词的实际内容相关性较高的文章，更精准地满足用户的搜索需求。

本发明可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。

计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的序列)包括：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身，诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如，通过光纤电缆的光脉冲)、或者通过电线传输的电信号。

这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本发明操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码，所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等，以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)，该电子电路可以执行计算机可读程序指令，从而实现本发明的各个方面。

这里参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本发明的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器，从而生产出一种机器，使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。对于本领域技术人员来说公知的是，通过硬件方式实现、通过软件方式实现以及通过软件和硬件结合的方式实现都是等价的。

以上已经描述了本发明的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。本发明的范围由所附权利要求来限定。

Claims

1.一种文章搜索方法，其中，包括：

获取用户输入的目标搜索词的词特征向量；

获取文章数据库中包括的每篇文章的文章特征向量，其中，所述文章特征向量是表征每篇所述文章与用户点击行为相关的特征的向量；

根据预先训练的文章搜索模型，对所述词特征向量和所述文章特征向量进行处理，其中，所述文章搜索模型提供模型系数集合，所述模型系数集合包括第一系数矩阵、第二系数矩阵、第三系数矩阵以及常数系数；

根据所述词特征向量以及所述文章特征向量，构建基础预测矩阵；

根据所述模型系数集合中包括的第一系数矩阵、第三系数矩阵以及所述基础预测矩阵得到的中间矩阵通过线性整流函数进行处理，得到第一预测矩阵；

对根据所述模型系数集合中包括的所述第二系数矩阵、常数系数以及所述第一预测矩阵得到的中间变量进行变量映射处理，得到该篇文章的所述搜索预测值，以选取所述搜索预测值符合搜索条件的目标文章作为搜索结果提供给用户。

2.根据权利要求1所述的方法，其中，所述获取用户输入的目标搜索词的词特征向量的步骤包括：

获取所述目标搜索词的搜索分词集合；

3.根据权利要求2所述的方法，其中，还包括获取搜索分词特征向量集合的步骤，包括：

4.根据权利要求1所述的方法，其中，所述获取文章数据库中包括的每篇文章的文章特征向量的步骤包括：

5.根据权利要求1所述的方法，其中，

所述搜索条件是，所述文章的搜索预测值的降序排序次序在预设的排序范围内。

6.根据权利要求1所述的方法，其中，还包括训练所述文章搜索模型的步骤，包括：

在训练统计时段内收集多个训练样本；

7.根据权利要求6所述的方法，其中，所述构建损失函数的步骤包括：

8.根据权利要求6所述的方法，其中，所述求解所述损失函数的步骤包括：

设置所述模型系数集合中包括的第一系数矩阵、第二系数矩阵、第三系数矩阵三个矩阵的矩阵元素初始值以及常数系数的初始值为预设数值范围内的随机数；

9.根据权利要求8所述的方法，其中，

和/或，

10.一种文章搜索装置，其中，包括：

文章特征获取单元，用于获取文章数据库中包括的每篇文章的文章特征向量，其中，所述文章特征向量是表征每篇所述文章与用户点击行为相关的特征的向量；

搜索处理单元，用于根据预先训练的文章搜索模型，对所述词特征向量和所述文章特征向量进行处理，其中，所述文章搜索模型提供模型系数集合，所述模型系数集合包括第一系数矩阵、第二系数矩阵、第三系数矩阵以及常数系数；

搜索处理单元，还用于根据所述词特征向量以及该篇文章的文章特征向量，构建基础预测矩阵；用于根据所述模型系数集合中包括的第一系数矩阵、第三系数矩阵以及所述基础预测矩阵得到的中间矩阵通过线性整流函数进行处理，得到第一预测矩阵；用于对根据所述模型系数集合中包括的所述第二系数矩阵、常数系数以及所述第一预测矩阵得到的中间变量进行变量映射处理，得到该篇文章的所述搜索预测值，以选取所述搜索预测值符合搜索条件的目标文章作为搜索结果提供给用户。

11.一种电子设备，其中，包括：

存储器，用于存储可执行的指令；

处理器，用于根据所述可执行的指令的控制，运行所述电子设备执行如权利要求1-9所述的任意一项文章搜索方法。