CN114168708A

CN114168708A - 一种基于多域特征的个性化生物通路检索方法

Info

Publication number: CN114168708A
Application number: CN202111351440.8A
Authority: CN
Inventors: 李�杰; 李建勋; 金佳欢; 周理; 谢康; 熊伟; 王亚东
Original assignee: Harbin Institute of Technology
Current assignee: Harbin Institute of Technology
Priority date: 2021-11-15
Filing date: 2021-11-15
Publication date: 2022-03-11
Anticipated expiration: 2041-11-15
Also published as: CN114168708B

Abstract

本发明提供一种基于多域特征的个性化生物通路检索方法。属于生物通路检索技术领域。为了提供一种快速、准确和个性化的检索生物通路的方法。该方法会依据用户的在线操作不断优化检索系统内置的排序器，向用户提供快速、准确和个性化的生物通路检索服务。该方法的关键操作是构建通路查询请求与相关通路文档构成的二元组的生物通路检索特征。生物通路检索特征主要包括面向生物通路的自然语言特征、生物通路拓扑特征和用户历史行为相似度特征。

Description

一种基于多域特征的个性化生物通路检索方法

技术领域

本发明属于生物通路检索技术领域，具体涉及一种基于多域特征的个性化生物通路检索方法。

背景技术

生物通路可为复杂疾病、生物医药和临床治疗等领域的研究提供知识支撑。快速、准确和个性化的生物通路检索不仅可以节省科研工作者的时间和精力，而且有助于提高科学研究的质量和价值。目前，在生物通路知识库领域，通路检索系统仍然缺少内置的高性能的检索方法。已有的通路检索系统仅通过简单的词汇匹配实现通路的检索，无法为科研工作者提供快速、准确和个性化的查询服务，因此我们设计基于多域特征的个性化生物通路检索方法。使用新设计的检索方法的通路检索系统可以提供快速、准确和个性化的检索结果。

发明内容

本发明的目的是为了提供一种快速、准确和个性化的检索生物通路的方法。

本发明提供了一种基于多域特征的生物通路检索方法，所述检索方法步骤如下：

步骤1，先获取用户IP信息，再通过在用户日志中检索用户IP信息来确定该用户是否为历史用户；若是历史用户，使用日志中保存的排序器参数a_IP来初始化检索系统内置的排序器f_θ(·)的参数a；否则，使用零向量0来初始化系统内置的排序器f_θ(·)的参数a；

步骤2，接收用户查询生物通路的请求q，获取与查询q相关的通路文档集合Doc，Doc＝{doc₁，doc₂，...，doc_i，...，doc_m}，其中，i是通路文档集合Doc中第i个通路文档，m是通路文档集合Doc中文档的总个数；

将查询请求q与Doc中每个通路文档doc_i构成(q,doc_i)二元组，计算各个(q,doc_i)二元组的生物通路检索特征xⁱ，i＝1,2,…,m；xⁱ＝(x₁，...，x₃₂，x₃₃，...，x₄₆，x₄₇，...，x₄₉)；

在xⁱ中，x₁，...，x₂₃为通路自然语言特征，x₃₃，...，x₄₆为生物通路拓扑特征和(x₄₇，...，x₄₉)为用户历史行为相似度特征；

步骤3，使用排序器处理生物通路检索特征数据{xⁱ|i＝1,2,…,m}来获得通路文档排序列表R，将通路文档排序列表R呈现给用户；

步骤4，根据用户在通路文档排序列表R上的点击操作，即选中感兴趣的通路文档，来优化排序器f_θ(·)的参数a；

步骤5，倘若用户继续执行查询操作，则转向步骤2；否则，在用户日志中，记录用户IP信息、查询查询请求q、最终选定的生物通路及排序器参数a_IP，a_IP＝，结束查询操作。

进一步地限定，所述通路自然语言特征可分为6个部分：通路覆盖搜索词特征x₁，...，x₆、通路词频特征x₇，...，x₁₄、通路逆文档频率特征x₁₅,x₁₆、通路词频-逆文档频率特征x₁₇，...，x₂₄、通路BM25分数特征x₂₅,x₂₆和通路语言模型分数特征x₂₇，...，x₃₂。

进一步地限定，步骤2获取通路自然语言特征的方法如下：

对搜索语句q进行分词、去重处理，分别构建通路名称覆盖搜索词的数量及比率、描述信息覆盖搜索词的数量及比率和疾病信息覆盖搜索词的数量及比率，得到通路覆盖搜索词特征x₁，...，x₆；

对搜索语句q进行分词、去重处理，计算每个词在通路名称和描述信息中的词频，然后计算搜索语句q中词在通路名称中的词频的最大值、最小值、平均值、相加和，再计算搜索语句q中词在通路描述信息中的词频的最大值、最小值、平均值、相加和，得到通路词频特征x₇，...，x₁₄；

求搜索语句q中每个关键词在通路名称和通路描述信息上的逆文档频率，再计算搜索语句q中每个关键词的逆文档频率的和来获得整个搜索语句的逆文档频率和，得到两个特征值为搜索语句在通路名称上的逆文档频率和搜索语句在描述信息上的逆文档频率，得到通路逆文档频率特征x₁₅,x₁₆；

对搜索语句q进行分词处理，计算每个词在通路名称和通路描述信息中的通路词频-逆文档频率，然后计算搜索语句中词在通路名称上的通路词频-逆文档的最大值、最小值、平均值、相加和，再计算搜索语句q中词在通路描述信息中通路词频-逆文档的最大值、最小值、平均值、相加和，得到通路词频-逆文档频率特征x₁₇，...，x₂₄；

对搜索语句q进行分词处理来得到各个搜索关键词，获取与搜索语句q有关的所有通路名称或通路描述信息集合，分别计算搜索语句q通路名称和通路描述信息上的BM25分数，得到通路BM25分数特征x₂₅,x₂₆；

对搜索语句q进行分词、去重处理，获得通路名称或通路描述信息中词的参数化概率，对词的参数化概率进行平滑处理，分别计算搜索语句q在通路描述信息和通路名称上的Jelinek-Mercer分数、Dirichlet分数、Absolute Discounting分数，得到通路语言模型特征x₂₇，...，x₃₂。

进一步地限定，步骤2所述生物通路拓扑特征可分为3部分：通路结构特征x₃₂，...，x₃₇，覆盖节点特征x₃₈，...，x₄₅，和节点频率-逆通路频率特征x₄₆。

进一步地限定，步骤2获取生物通路拓扑特征的方法如下：

计算生物通路拓扑结构图中通路节点总数、通路边的总数、基因节点数、蛋白质节点数和RNA节点数，得到通路结构特征x₃₃，...，x₃₇；

对搜索语句q进行分词、去重处理，计算被覆盖的节点总数及比率、被覆盖的基因节点数量及比率、被覆盖的蛋白质节点数量及比率、被覆盖的RNA节点数量及比率，可得覆盖节点特征x₃₈，...，x₄₅；

对搜索语句q进行分词处理，计算每个词在当前通路中的节点频率-逆通路频率，计算搜索语句中每个词的节点频率-逆通路频率的和，得到搜索语句的节点频率-逆通路频率特征x₄₆。

进一步地限定，步骤2获取用户历史行为相似度特征的方法如下：

获取所有与当前搜索语句q相关的通路构成的集合p以及当前用户的所有历史搜索记录集合H；

对于集合p中的每一个通路，在集合H中找到用户曾经搜索该通路时使用的搜索语句所构成的集合Q；

利用相似性公式计算集合Q中每一条历史搜索语句与当前搜索语句q的相似度，再根据计算出的相似度值计算平均相似度、最大相似度以及最小相似度，可得历史行为相似度特征x₄₇，...，x₄₉。

进一步地限定，步骤3获取生物通路序列表R的方法如下：将各个生物通路检索特征xⁱ,i＝1,2,…,m，依次输入检索系统内置的线性排序器，计算查询请求q与每个通路文档doc_i的相关性得分f_θ(xⁱ),i＝1,2,…,m；依据对应的相关性得分f_θ(xⁱ)的大小对通路文档进行降序排列，将排序结果列表R呈现给用。

进一步地限定，步骤4所述优化排序器的方法是基于成对微分梯度下降的在线学习排序方法。

本发明提供了一种非临时性计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上述的基于多域特征的个性化生物通路检索方法。

有益效果：本发明提供一种基于多域特征的个性化生物通路检索方法。该方法的关键是构建生物通路检索特征。与通用领域面向所有研究对象的自然语言特征不同，生物通路检索特征是专业化的、面向生物通路的特征。该生物通路检索特征主要包括面向生物通路的自然语言特征、生物通路拓扑特征和用户历史行为相似度特征。由于该生物通路检索特征不仅包含面向生物通路的自然语言特征，而且包含生物通路中细胞分子间相互作用的拓扑结构特征，使得通路检索系统内优化后的线性排序器更加专业化。此外，由于该生物通路检索特征包含用户历史行为相似度的特征，使得通路检索系统内优化后的线性排序器更加的个性化。使用基于多域特征的个性化生物通路检索方法的通路检索系统能根据用户的搜索行为对搜索结果进行自适应的更新，提供的搜索结果更加符合用户的需求。

附图说明

图1为基于多域特征的个性化生物通路检索方法的流程图；

图2为用户行为仿真流程；

图3为不同用户模型下各检索方法的NDCG@5曲线；a)子图一为标准型用户的NDCG@5曲线；b)子图二为导航型用户的NDCG@5曲线；c)子图三为信息型用户的NDCG@5曲线

图4为不同用户模型下各检索方法的累计Online_NDCG@5曲线；a)子图一为标准型用户的累计Online_NDCG@5曲线；b)子图二为导航型用户的累计Online_NDCG@5曲线；c)子图三为信息型用户的累计Online_NDCG@5曲线。

具体实施例

实施例1.

基于多域特征的个性化生物通路检索方法的流程图如图1所示：

步骤1：初始化阶段：当用户打开网页后，先获取用户IP信息，再通过在用户日志中检索用户IP信息来确定该用户是否为历史用户。若是历史用户，使用日志中保存的排序器参数a_IP来初始化检索系统内置的排序器f_θ(g)的参数a；否则，使用零向量0来初始化系统内置的排序器f_θ(g)的参数a；

步骤2：通路检索系统接收用户查询生物通路的请求q，获取与查询q相关的通路文档集合Doc，Doc＝{doc₁,doc₂,...,doc_i,...,doc_m}，将查询请求q与Doc中每个通路文档doc_i构成(q,doc_i)二元组，构建各个(q,doc_i)二元组的生物通路检索特征xⁱ，xⁱ＝(x₁,...,x₃₂,x₃₃,...,x₄₆,x₄₇,...,x₄₉)。

在xⁱ中，(x₁,...,x₃₂)为通路自然语言特征，(x₃₃,...,x₄₆)为生物通路拓扑特征和(x₄₇,...,x₄₉)为用户历史行为相似度特征。通路文档doc_i包含3个信息源(即通路名称、通路描述信息和疾病信息)和通路拓扑结构信息。通路检索系统使用通路文档doc_i的3个信息源构建自然语言特征，使用通路拓扑结构信息构建生物通路拓扑特征。

通路检索系统构建查询请求q与通路文档doc_i构成的(q,doc_i)二元组生物通路检索特征xⁱ的具体过程为；

步骤2.1：通路检索系统先构建查询请求q与通路文档doc_i构成的(q,doc_i)二元组的通路自然语言特征(x₁,...,x₃₂)；

通路自然语言特征可分为6个部分，即通路覆盖搜索词特征(x₁,...,x₆)、通路词频特征(x₇,...,x₁₄)、通路逆文档频率特征(x₁₅,x₁₆)、通路词频-逆文档频率特征(x₁₇,...,x₂₄)、通路BM25分数特征(x₂₆,x₂₆)和通路语言模型分数特征(x₂₇,...,x₃₂)。

(1)通路检索系统构建通路覆盖搜索词特征(x₁,...,x₆)。通路覆盖搜索词特征又可分为两类，即通路覆盖搜索词的数量特征和通路覆盖搜索词的比率特征。通路覆盖搜索词的数量特征主要为通路名称覆盖搜索词的数量、描述信息覆盖搜索词的数量和疾病信息覆盖搜索词的数量；通路覆盖搜索词的比率特征主要为通路名称覆盖搜索词的比率、描述信息覆盖搜索词的比率、疾病信息覆盖搜索词的比率。通路文档的信息域为通路名称、通路描述信息和疾病信息。

通路检索系统对收到的搜索语句q进行分词、去重处理，利用公式(1)、(2)和(3)，分别构建通路名称覆盖搜索词的数量及比率、描述信息覆盖搜索词的数量及比率和疾病信息覆盖搜索词的数量及比率，得到通路覆盖搜索词特征(x₁,...,x₆)。

式中，q为用户某次查询通路时提交的搜索语句，w表示搜索语句q中某个单词。

式中，d可为通路的任意信息域(通路名称、通路描述信息或疾病信息)，N(q,d)为通路信息域d覆盖搜索语句q的数量。在将通路的各个信息域带入公式(3)前，需对信息域进行去重操作。

式中，ql表示当前搜索语句q的总词数，R(q,d)为通路信息域d覆盖搜索语句q的比率。

(2)通路检索系统构建通路词频特征(x₇,...,x₁₄)。通路词频特征主要为搜索语句中词在通路名称中的词频的最大值、最小值、平均值、相加和，搜索语句中词在通路描述信息中的词频的最大值、最小值、平均值、相加和。

通路检索系统对搜索语句q进行分词处理，利用公式(4)分别计算每个词在通路名称和描述信息中的词频，然后计算搜索语句中词在通路名称中的词频的最大值、最小值、平均值、相加和，再计算搜索语句中词在通路描述信息中的词频的最大值、最小值、平均值、相加和，得到通路词频特征(x₇,...,x₁₄)。

式中，N为通路名称或通路描述信息中的总词数，n_i表示搜索语句中第i个词在通路名称或通路描述信息中出现的次数，TF_i表示搜索语句中第i个词在通路名称或通路描述信息中的词频。

(3)通路检索系统构建通路逆文档频率特征(x₁₅,x₁₆)。通路逆文档频率特征主要为搜索语句在通路名称上的逆文档频率和搜索语句在通路描述信息上的逆文档频率。

通路检索系统利用公式(5)求搜索语句q中每个关键词在通路名称和通路描述信息上的逆文档频率，再计算搜索语句q中每个关键词的逆文档频率的和来获得整个搜索语句的逆文档频率和，得到两个特征值，即搜索语句在通路名称上的逆文档频率和搜索语句在描述信息上的逆文档频率，最终可得通路逆文档频率特征(x₁₅,x₁₆)。

式中，w_i是搜索语句中第i个词，D是由若干个通路名称或通路描述信息构成的文本集合，d_k是集合D中第k个文本，|D|表示集合D中文本的数量,|{d_k:w_i∈d_k}|为出现w_i的文本数量。为了防止出现分母为0的异常情况，即某个搜索关键词在所有文本中都没有出现，对分母做平滑处理，即在分母中增加基数1。

(4)通路检索系统构建通路词频-逆文档频率特征(x₁₇,...,x₂₄)。通路词频-逆文档频率特征主要为通路名称上的词频-逆文档频率的最大值、最小值、平均值、相加和，通路描述信息上的词频-逆文档频率的最大值、最小值、平均值、相加和。

通路检索系统对搜索语句q进行分词处理，利用公式(6)分别计算每个词在通路名称和通路描述信息中的词频-逆文档频率，然后计算搜索语句中词在通路名称上的词频-逆文档频率的最大值、最小值、平均值、相加和，在描述信息上的词频-逆文档频率的最大值、最小值、平均值、相加和，得到通路词频-逆文档频率特征(x₁₇,...,x₂₄)。

式中，TFIDF_ij表示搜索语句q中第i个关键词在第j个通路名称或通路描述信息下的词频-逆文档频率，N_j表示第j个通路名称或通路描述信息的总词数。

(5)通路检索系统构建通路BM25分数特征(x₂₅,x₂₆)。通路BM25分数特征主要为搜索语句在通路名称上的BM25分数和搜索语句在通路描述信息上的BM25分数。

通路检索系统对搜索语句q进行分词操作来得到各个搜索关键词，获取与搜索语句q有关的所有通路名称或通路描述信息集合，利用公式(7)、(8)、(9)和(10)计算搜索语句q在每个通路名称或通路描述信息上的BM25分数，得到通路BM25分数特征(x₂₅,x₂₆)。在公式(9)和(10)中，k₁＝1.5,k₂＝0.25,b＝0.75。

式中，d为去重后的通路名称或通路描述信息，q_i表示搜索语句中第i个关键词，R(q_i,d)表示搜索语句中关键词q_i与d的相关性得分,W_i表示搜索语句中第i个关键词的权重，B(q,d)表示搜索语句q与d的BM25分数。此外，W_i和R(q_i,d)满足：

W_i＝IDF_i (8)

其中，f_i为搜索关键词q_i在d中出现的频率,qf_i为关键词q_i在搜索语句q中出现的频率,dl为d的长度，avgdl为相关文本集合中所有文本的平均文本长度,k₁,k₂和b均为经验参数。

(6)通路检索系统构建通路语言模型特征(x₂₇,...,x₃₂)。通路语言模型特征主要为描述信息的Absolute Discounting分数、描述信息的Dirichlet分数、描述信息的Jelinek-Mercer分数、通路名称的Absolute Discounting分数、通路名称的Dirichlet分数和通路名称的Jelinek-Mercer分数。

通路检索系统对搜索语句q进行分词、去重处理，利用公式(11)和(12)获得通路名称或通路描述信息中词的参数化概率，利用公式(14)和(15)对词的参数化概率进行平滑处理，再利用公式(13)求搜索语句在通路描述信息和通路名称上的Jelinek-Mercer分数；利用公式(16)和(15)对词的参数化概率进行平滑处理，再利用公式(13)求搜索语句在通路描述信息和通路名称上的Dirichlet分数；利用公式(17)和(15)对词的参数化概率进行平滑处理，再利用公式(13)求搜索语句在通路描述信息和通路名称上的Absolute Discounting分数，最终得通路语言模型特征(x₂₇,...,x₃₂)。

令

θ_d,i＝P(w_i)＝P(w_i|d)

(11)

式中，d为由N个词组成的通路名称或通路描述信息，其一元模型的向量表示为θ_d＝(θ_d,1,θ_d,2,L,θ_d,i,L,θ_d,N),θ_d,i为d中第i个词w_i对应的参数

式中，c(w_i,d)为词w_i在d中出现的频数。

式中，P(q|d)为包含n个词的搜索语句q在d上的生成概率

Jelinek-Mercer平滑法:

P(w_i|d)＝λP_ML(w_i|d)+(1-λ)P(q|D) (14)

其中,λ是折扣因子，范围在[0,1]之间。P(q|D)满足：

Dirichlet平滑法:

其中,μ是大于0的参数。

Absolute Discounting平滑法:

其中，δ是范围在[0,1]的可调节常量参数,|d|_μ表示文档进行去重复操作之后的词的数量。

步骤2.2：通路检索系统构建查询请求q与通路文档doc_i构成的(q,doc_i)二元组的生物通路拓扑特征(x₃₃,...,x₄₆)；

生物通路拓扑特征(x₃₃,...,x₄₆)可分为3部分，即通路结构特征(x₃₃,...,x₃₇)，覆盖节点特征(x₃₈,...,x₄₅)，和节点频率-逆通路频率特征(x₄₆)。通路文档doc_i中通路拓扑结构信息包含节点信息(基因节点、蛋白质节点、RNA节点等)，和节点之间边的信息。

(1)通路检索系统构建通路结构特征(x₃₃,...,x₃₇)。通路检索系统计算通路节点总数、通路边的总数、基因节点数、蛋白质节点数和RNA节点数，得到通路结构特征(x₃₃,...,x₃₇)。

(2)通路检索系统构建覆盖节点特征(x₃₈,...,x₄₅)。通路检索系统对收到的搜索语句q进行分词、去重处理，利用公式(2)和(3)计算被覆盖的节点总数及比率、被覆盖的基因节点数量及比率、被覆盖的蛋白质节点数量及比率、被覆盖的RNA节点数量及比率，可得覆盖节点特征(x₃₈,...,x₄₅)。

(3)通路检索系统构建节点频率-逆通路频率特征(x₄₆)。节点频率-逆通路频率特征主要是指搜索语句的节点频率-逆通路频率特征。

通路检索系统对搜索语句进行分词处理，利用公式(18)计算每个词在当前通路中的节点频率-逆通路频率，计算搜索语句中每个词的节点频率-逆通路频率的和，得到搜索语句的节点频率-逆通路频率特征(x₄₆)。

式中，

表示搜索语句q中词在当前通路中的节点频率-逆通路频率，p_k表示单个通路，P表示所有相关的通路构成的集合，N'_j表示当前通路的总节点数，n'_i表示搜索语句覆盖的当前通路节点数。

步骤2.3：通路检索系统构建(q,doc_i)二元组的历史行为相似度特征(x₄₇,...,x₄₉)；

历史行为相似度特征主要为：与历史搜索的最大相似度、与历史搜索的最小相似度和与历史搜索的平均相似度。

通路检索系统构建历史行为相似度特征的具体过程为：

(1)通路检索系统获取到所有与当前搜索语句q相关的通路构成的集合P以及当前用户的所有历史搜索记录集合H；

(2)对于集合P中的每一个通路，通路检索系统在集合H中找到用户曾经搜索该通路时使用的搜索语句所构成的集合Q；

(3)通路检索系统利用公式(19)求集合Q中每一条历史搜索语句与当前搜索语句q的相似度，根据计算的相似度值求平均相似度、最大相似度以及最小相似度，可得历史行为相似度特征(x₄₇,...,x₄₉)。

式中，q^a和q^b是搜索语句q的向量表示形式，

和

是向量q^a和q^b的各分量。

步骤3：通路检索系统内置的排序器利用系统计算得到的(q,doc₁),(q,doc₂),…,(q,doc_i),…,(q,doc_m)二元组的特征对通路集合中的通路进行排序，将排序列表R呈现给用户；

(1)当得到各个(q,doc_i)二元组的特征xⁱ后，通路检索系统内置的排序器利用公式(20)计算查询语句q与其对应通路文档doc_i的相关性分数f_θ(x^j)；基于已知的通路文档的相关性分数f_θ(x^j)，利用公式(20)计算每个通路文档doc_i被采样的概率P(x^j|Doc)。

式中，f_θ(g)为通路检索系统内置的线性排序器，a是线性排序器的参数向量，x是查询语句q与通路文档doc_i构成的二元组的特征，a_i和x_i分别是向量a和x的分量。

式中，Doc代表相关通路文档构成的集合。

(2)当得到每个相关通路文档被采样的概率P(x^j|Doc)后，通路检索系统内置的排序器依照此概率来对所有相关通路文档进行重复采样，直到所有相关文档被采到。每一次采样之后，都要将已经被采样到的通路文档从待采样列表中删去，利用公式(21)计算剩下各个通路文档被采样的概率。通过这样的一个概率化采样过程，通路检索系统得到一个最终的通路排序列表R，R＝{R₁,...,R_k-1,R_k,R_k+1...,R_m}。利用公式(22)计算获得通路排序列表R的条件概率P(R|doc)。

式中，R_i表示在列表R中处在位置i的文档。

(3)通路检索系统将排好序的通路结果列表R返回给用户。

步骤4：通路检索系统根据用户点击感兴趣的生物通路，使用基于成对微分梯度下降的在线学习排序方法对线性排序器f_θ(g)进行优化；

(1)用户浏览通路排序列表R，点击感兴趣的生物通路R_k；

(2)排在生物通路R_k前的通路文档{R₁,R₂,...,R_k-1}和其后的通路文档{R_k+1}分别与感兴趣的生物通路R_k形成偏好对{R_k f R₁,R_k f R₂,...,R_k f R_k-1,R_k f R_k+1}。通路检索系统利用公式(23)、(24)和(25)处理每个偏好对{R_k f R_l}来更新内置线性排序器的参数向量a。公式(25)中，η为0.01。

式中，R是通路检索系统内置排序器给出的原始排序，R^*(doc_k,doc_l,R)是R中通路文档doc_k和doc_l调换位置后的文档排序。

式中,η为学习率。

步骤5：倘若用户继续执行查询操作，则转向步骤1；否则，在用户日志中，记录用户IP信息、查询查询请求q、最终选定的生物通路及排序器参数a_IP，a_IP＝a，结束查询任务.

1.数据集仿真:

目前，在生物通路搜索这个细分的垂直领域，没有记录用户通路搜索行为的开源数据集。为了验证基于多域特征的个性化生物通路检索方法的准确性，需要对用户的搜索行为进行仿真，然后提取仿真数据的相关特征来构造通路搜索的数据集。仿真的流程如图2所示。

首先，构造搜索语句。随机选择一个通路作为基准通路，依据基准通路的信息域构造搜索语句。搜索语句的生成步骤为：

(1)选定一个生物通路作为本次仿真的基准通路；

(2)获取基准通路的信息域，即通路名称、描述信息和疾病信息，对每个信息域进行包括分词和词性变换在内的数据预处理操作，使用通路名称的全部词、疾病信息的全部词和描述信息中频率最高的10个词构造一个基准词库；

(3)获取通路结构中出现频率最高的5个节点，将节点的名称补充到上一步构造出的基准词库中；

(4)在[1,9]的范围内随机生成一个整数N，作为当前搜索语句的长度；

(5)在基准词库中等概率随机采样出N个词，拼接得到的字符串就是最终产生的搜索语句。

其次，生成基于搜索语句的相关标签。我们将搜索语句和通路的相关性程度分为三档:不相关、比较相关和非常相关，分别用数字0、1和2来表示。为使仿真数据能够尽可能的符合真实用户的搜索行为，我们参照LETOR 4.0数据集中各类标签的占比规定进行标签的生成。标签生成的原则为：

(1)如果当前通路是基准通路，那么搜索语句与当前通路的相关性标签为2，该通路的相关性标签为非常相关；

(2)如果当前通路不是基准通路，但其BM25分数大于当次仿真得到的通路集合的平均BM25分数，那么搜索语句与当前通路的相关性标签有18％的概率为1，有82％的概率为0；

(3)如果当前通路不是基准通路，且其BM25分数小于当次仿真得到的通路集合的平均BM25分数，那么搜索语句与当前通路的相关性标签有2％的概率为1，有98％的概率为0。基于以上三条规则，为所有的特征数据构造了相关性标签。标签分布与LETOR 4.0数据集相近，符合真实用户的搜索习惯。

最后，模拟用户最终的选择，生成仿真日志。生成仿真日志的规则为：

(1)如果搜索语句与当前通路的相关性标签是2，那么仿真程序有95％的概率将当前通路作为最终的目标通路并停止浏览后续通路，同时生成搜索日志；

(2)如果搜索语句与当前通路的相关性标签是1，那么仿真程序有10％的概率将当前通路作为最终的目标通路并停止浏览后续通路，同时生成搜索日志。

2.级联点击模型

由于级联点击模型是对用户真实点击行为的建模和仿真，可以代替真实用户参与模型的训练和验证，故引入级联点击模型来完成对基于多域特征的个性化生物通路检索方法的验证。

使用Chuklin等人改进的级联点击模型。在改进的级联点击模型中，用户可以在一次搜索过程中执行多次的点击操作。另外，考虑到不同的用户会有不同的搜索习惯，即使是同一个用户在搜索不同目标时也会有不同的交互表现，Chuklin将用户分为三类：

(1)标准型用户(Perfect User)：用户依次考虑结果列表中的每个文档，只点击相关的文档，不处理无关的文档；

(2)导航型用户(Navigational User)：用户更倾向点击相关度高的文档，点击的文档的相关程度越高，停止搜索的概率越高；

(3)信息型用户(Informational User)：用户点击目标不明确，会以更高的概率点击相关性不太高的文档。

按照相关程度由低到高的顺序，将相关性标签设为0、1、2。三类用户在不同的相关性标签上执行点击和停止操作的概率分布如表1所示。在表1中，R为训练数据对应的相关性标签，P(click＝1|R)表示用户在该文档上进行一次点击操作的概率，P(stop＝1|click＝1,R)表示用户获得满足并选择结束当次搜索的概率。

表1级联点击模型的概率分布

3.对比方法与参数设置

为了验证基于多域特征的个性化生物通路检索方法(PDGD)的有效性和优越性，选用通用搜索领域中常用的学习排序方法与之进行对比。

基于强盗决斗梯度下降(DBGD)的方法是非常经典的一种在线学习排序方法。该方法使用随机的参数向量来初始化线性排序器；每一次查询时，会在随机方向上对线性排序器的参数向量进行调整，得到新的参数向量；将新参数向量与原参数向量的排序质量进行比较，并将更优的参数向量作为本次查询之后排序器或模型的参数向量。在该方法中，参数设置为：η＝0.01，δ＝1，θ＝0。

基于概率多重交织梯度下降(Probabilistic Multileave Gradient Descent,PMGD)的方法是对基于强盗决斗梯度下降的在线学习排序方法的升级和优化。该方法通过引入概率多重交织这一在线评估方法，使得模型在使用多个候选排序器来探索优化方向的同时，保持了较好的学习速度和收敛速度。在该方法中，参数设置为：候选排序器的数量为49，η＝0.01，δ＝1，θ＝0。

Pairwise学习排序方法是一种非常经典的传统学习排序方法，使用了与PDGD方法类似的基于成对偏好来对模型进行更新的策略。在该方法中，参数设置为：η＝0.01，ε＝0.8。

另外，参考Harrie的工作，PDGD方法的参数设置为：η＝0.01，θ＝0。

4.评价指标

参考Harrie等人的工作，选用归一化累计折扣增益(Normalized DiscountedCumulative Gain，NDCG)来对各检索方法的效果进行评价。NDCG是搜索任务中常用的评价指标。

NDCG最初的原型是累计增益(Cumulative Gain，CG)。CG指标只简单考虑了结果列表中每个文档的相关程度，而没有对其所处在的位置进行考虑，其公式如下：

式中,rel_i表示结果列表中处在位置i的文档的相关性标签。根据公式(26)可以发现，CG只是对相关性标签做了简单的累加操作，并没有考虑文档所处的位置对结果列表的影响，为此，后续提出了累计折扣增益(Discounted Cumulative Gain，DCG)，其公式如下:

与CG相比，DCG引入了位置索引，使得位置越靠前、相关程度越高的文档能够给最终的分数带来越多的增益。NDCG是对DCG的归一化。为了实现归一化，首先需要定义归一化因子(Ideal Discounted Cumulative Gain，IDCG)。IDCG是指在理想状态下，当前结果集合的最高DCG分数。

式中，REL表示完美排序后的列表。在此基础上，NDCG的计算公式为：

NDCG给出的结果范围区间为(0,1]，得分与1越接近，表示当前结果集合的排序方式与理想的排序方式越相近。

在实际使用NDCG时，检索方法返回的结果列表可能具有较长的长度，尤其是在通用搜索引擎中，系统可能返回用户数十个甚至上百个文档。而在实际生活中，我们期望只需要对前几个文档进行浏览就可找到自己需要的目标。如果不能在前几个文档中找到需要的文件，我们就认为系统使用的搜索方法并不理想。在这种情况下，人们通常使用NDCG@k来对结果列表进行评价，其含义为结果列表中前k个文档的NDCG得分。k的取值大小与结果列表的长度成正相关关系，结果列表越长，k值一般越大，但是通常来说k的取值不会超过10。通过对仿真数据集进行分析，我们发现结果列表的平均长度大致为LETOR 4.0数据集的1/2，故使用NDCG@5来对各检索方法进行评价。

5.实验过程与分析

参考级联点击模型对用户的分类和设定，分别计算标准型、导航型、和信息型用户参与下的实验结果。虽然参与实验的用户类型不同，但实验操作相同。具体的实验操作为：重复进行125轮相同的实验；在每轮实验中，从仿真数据集中随机选取10000组查询数据来模拟用户的10000次搜索请求；对于每一次搜索请求，各个方法为用户返回长度为5的结果列表，并计算NDCG@5值。最终，我们通过计算125轮实验中次号相同的搜索结果的平均NDCG@5值，来得到各个检索方法在10000次搜索中的平均表现(例如，将125轮中所有第一次查询的平均NDCG@5值，作为第一次用户搜索的评价)。从离线和在线两方面对检索方法进行测试。

6.方法的离线性能

使用收敛之后的平均NDCG@5值来量化检索方法的离线性能。

图3为不同用户模型下各检索方法在10000次搜索中次号相同的搜索结果的平均NDCG@5值的收敛曲线。由图3可知，与DBGB、PMGD、和Pairwise方法相比，在同等查询次数下，PDGD方法的平均累计折扣NDCG@5值最大；在10次查询操作后，PDGD方法的累计折扣NDCG@5值就接近0.9。表明：与DBGB、PMGD、和Pairwise方法相比，PDGD方法具有较快的收敛速度和最优的排序质量。

表2为不同用户模型下各个检索方法收敛后的NDCG@5值的统计结果。由表2可知，在任意用户模型下，与DBGB、PMGD、和Pairwise方法相比，PDGD方法在收敛之后具有最优的平均NDCG@5值和最小的标准差。例如，在标准用户模型下，PDGD方法具有最大的平均累计折扣NDCG@5值(0.903)和最小的标准差(0.005)。它们分别优于DBGD方法的0.897和0.006、PMGD方法的0.898和0.006、Pairwise方法的0.815和0.0006。表明：与DBGB、PMGD、和Pairwise方法相比，PDGD方法具有最优的离线性能和最好的稳定性。

综合表2和图3，我们可以发现：与其他方法相比，基于多域特征的个性化生物通路检索方法(PDGD)具有显著的离线性能和较快的收敛速度。

表2不同用户模型下各检索方法收敛后NDCG@5值的统计结果

7.方法的在线性能

使用未收敛时的用户体验来量化检索方法的在线性能。参考Harrie等人的工作，使用模型在线训练过程中的累计折扣Online_NDCG@5来衡量用户的体验。其公式如下：

式中，T为总的查询次数，R^t为第t次查询的排序列表，γ为折扣系数。参考Harrie之前的工作，令γ＝0.9995。

表3为不同用户模型下各个检索方法的累计Online_NDCG@5值的统计结果。由表3可知，在任意用户模型下，与DBGB、PMGD和Pairwise方法相比，PDGD方法具有最佳的平均累计折扣Online_NDCG@5值和很小的标准差。例如，在标准用户模型下，PDGD方法具有最大的平均累计折扣Online_NDCG@5值(1629.7)。它分别优于DBGD方法的1044.6、PMGD方法的1410.6、Pairwise方法的757.2。图4为不同用户模型下各个检索方法在10000次搜索中次号相同的搜索结果的平均Online_NDCG@5值的累计收敛曲线。由图4可知，与DBGB、PMGD和Pairwise方法相比，在同等查询次数下，PDGD方法的平均累计折扣Online_NDCG@5的累计值最大。综合图4和表3，可知：与DBGB、PMGD和Pairwise方法相比，PDGD方法具有最好的在线性能。

图3为不同用户模型下各个检索方法在10000次搜索中次号相同的搜索结果的平均Online_NDCG@5值的累计收敛曲线。由图3可知，与DBGB、PMGD和Pairwise方法相比，PDGD方法收敛速度最快，且平均Online_NDCG@5值的累计值最优。

表3不同用户模型下各检索方法累计Online_NDCG@5值的统计结果

综合以上分析，在构造的通路搜索数据集上，基于多域特征的个性化生物通路检索方法(PDGD)不仅收敛速度快，在线表现和离线性能显著优于其他检索方法，同时它还具有最好的稳定性。

Claims

1.一种基于多域特征的个性化生物通路检索方法，其特征在于，所述检索方法步骤如下：

将查询请求q与Doc中每个通路文档doc_i构成(q，doc_i)二元组，计算各个(q，doc_i)二元组的生物通路检索特征xⁱ，i＝1，2，...，m；xⁱ＝(x₁，...，x₃₂，x₃₃，...，x₄₆，x₄₇，...，x₄₉)；

步骤3，使用排序器处理生物通路检索特征数据{xⁱ|i＝1，2，...，m}来获得通路文档排序列表R，将通路文档排序列表R呈现给用户；

步骤5，倘若用户继续执行查询操作，则转向步骤2；否则，在用户日志中，记录用户IP信息、查询查询请求q、最终选定的生物通路及排序器参数a_IP，a_IP＝a，结束查询操作。

2.根据权利要求1所述的检索方法，其特征在于，所述通路自然语言特征可分为6个部分：通路覆盖搜索词特征x₁，...，x₆、通路词频特征x₇，...，x₁₄、通路逆文档频率特征x₁₅，x₁₆、通路词频-逆文档频率特征x₁₇，...，x₂₄、通路BM25分数特征x₂₅，x₂₆和通路语言模型分数特征x₂₇，...，x₃₂。

3.根据权利要求1所述的检索方法，其特征在于，步骤2获取通路自然语言特征的方法如下：

求搜索语句q中每个关键词在通路名称和通路描述信息上的逆文档频率，再计算搜索语句q中每个关键词的逆文档频率的和来获得整个搜索语句的逆文档频率和，得到两个特征值为搜索语句在通路名称上的逆文档频率和搜索语句在描述信息上的逆文档频率，得到通路逆文档频率特征x₁₅，x₁₆：

对搜索语句q进行分词处理来得到各个搜索关键词，获取与搜索语句q有关的所有通路名称或通路描述信息集合，分别计算搜索语句q通路名称和通路描述信息上的BM25分数，得到通路BM25分数特征x₂₅，x₂₆；

4.根据权利要求1所述的检索方法，其特征在于，步骤2所述生物通路拓扑特征可分为3部分：通路结构特征x₃₃，...，x₃₇，覆盖节点特征x₃₈，...，x₄₅，和节点频率-逆通路频率特征x₄₆。

5.根据权利要求1所述的检索方法，其特征在于，步骤2获取生物通路拓扑特征的方法如下：

6.根据权利要求1所述的检索方法，其特征在于，步骤2获取用户历史行为相似度特征的方法如下：

7.根据权利要求1所述的检索方法，其特征在于，步骤3获取生物通路序列表R的方法如下：将各个生物通路检索特征xⁱ，i＝1，2，...，m，依次输入检索系统内置的线性排序器，计算查询请求q与每个通路文档doc_i的相关性得分f_θ(xⁱ)，i＝1，2，...，m；依据对应的相关性得分f_θ(xⁱ)的大小对通路文档进行降序排列，将排序结果列表R呈现给用户。

8.根据权利要求1所述的检索方法，其特征在于，步骤4所述优化排序器的方法为基于成对微分梯度下降的在线学习排序方法。

9.一种非临时性计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-8中任一所述的基于多域特征的个性化生物通路检索方法。