CN106897736A - 一种多领域非协作分布式检索结果融合系统及其融合方法 - Google Patents

一种多领域非协作分布式检索结果融合系统及其融合方法 Download PDF

Info

Publication number
CN106897736A
CN106897736A CN201710041178.4A CN201710041178A CN106897736A CN 106897736 A CN106897736 A CN 106897736A CN 201710041178 A CN201710041178 A CN 201710041178A CN 106897736 A CN106897736 A CN 106897736A
Authority
CN
China
Prior art keywords
result
model
module
training
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710041178.4A
Other languages
English (en)
Other versions
CN106897736B (zh
Inventor
董守斌
陈建豪
袁华
谢帆
谢一帆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN201710041178.4A priority Critical patent/CN106897736B/zh
Publication of CN106897736A publication Critical patent/CN106897736A/zh
Application granted granted Critical
Publication of CN106897736B publication Critical patent/CN106897736B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/251Fusion techniques of input or preprocessed data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2471Distributed queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种多领域非协作分布式检索结果融合系统及其融合方法,该系统包括:数据处理模块,用于存储系统所需的语料数据和缓存数据,对外提供接口与其他模块交互;特征提取模块,用于从训练语料或者检索结果中提取多领域特征;模型训练模块,用于训练模型,包括模型初始化和模型学习;中央处理模块,负责分布式检索结果融合的流程处理,与其他模块进行交互,是系统核心逻辑的执行部分;相关性评分模块,用于对查询结果进行全局的相关性评分。本发明能解决非协作环境下不同检索结果因检索模型差异而无法直接比较的问题及启发式方法调参麻烦的问题。

Description

一种多领域非协作分布式检索结果融合系统及其融合方法
技术领域
本发明涉及分布式检索的技术领域,尤其是指一种多领域非协作分布式检索结果融合系统及其融合方法。
背景技术
在分布式检索中,呈现给用户的检索结果好坏与融合来源不同资源库的查询结果的方法息息相关,尤其当结果来源于非协作的搜索引擎。所谓非协作的搜索引擎,即搜索引擎之间采用不同的检索模型。在此情况下,不同来源的检索结果无法根据排名或得分进行直接的比较。
目前的非协作环境下的分布式检索结果融合系统,较多使用简单的线性融合方式,模型参数采用启发式方法确定。这类方法虽然计算速度较快,有利于系统在线运行,但准确度较低,启发式方法调参麻烦。
发明内容
本发明的目的在于克服现有技术的缺点与不足,提出了一种多领域非协作分布式检索结果融合系统及其融合方法,该系统基于机器学习方法,通过离线计算得到的模型,对不同来源的检索结果进行评分,最终得到统一的检索结果列表,能解决非协作环境下不同检索结果因检索模型差异而无法直接比较的问题;该方法基于softmax回归模型,通过提取检索结果中多领域特征进行训练,在保留了线性融合方式计算速度快的优点外,提高了准确度,解决了启发式方法调参麻烦的问题。
为实现上述目的,本发明所提供的技术方案如下:
一种多领域非协作分布式检索结果融合系统,包括:
数据处理模块,用于存储系统所需的语料数据和缓存数据,对外提供接口与其他模块交互;
特征提取模块,用于从训练语料或者检索结果中提取多领域特征;
模型训练模块,用于训练模型,包括模型初始化和模型学习;
中央处理模块,负责分布式检索结果融合的流程处理,与其他模块进行交互,是系统核心逻辑的执行部分;
相关性评分模块,用于对查询结果进行全局的相关性评分。
所述数据处理模块包括:
数据存储子模块,用于存放数据;
数据预处理子模块,用于对训练数据进行预处理。
所述特征提取模块包括:
文档特征提取子模块,用于针对每个查询结果提取对应的文档特征;
资源库特征提取子模块,用于针对每个资源库提取对应的资源库特征;
主题特征提取子模块,用于针对每个主题提取查询结果对应的主题特征。
所述模型训练模块包括:
模型初始化子模块,用于模型准备,初始化模型所需要的参数;
模型学习子模块,用于管理模型的训练学习过程。
上述多领域非协作分布式检索结果融合系统的融合方法,分有训练环节和相关度评分环节,具体包括以下步骤:
S1、训练环节
步骤S1.1、从数据处理模块获取训练语料,语料中包含多条单个查询词在多个非协作搜索引擎中查询获得的结果列表,结果中包含排名、URL、摘要以及人工标注的相关度信息;
步骤S1.2、预处理模块对要进行特征提取的训练语料进行规范化处理,处理后的训练语料发送到特征提取模块;
步骤S1.3、特征提取模块对处理后的语料提取文档、资源库以及主题这三方面的特征,提取后的特征发送到模型训练模块;
步骤S1.4、模型训练模块将提取得到的特征和对应的相关性评分输入到逻辑回归模型,训练得到的模型持久化存储到本地;
S2、相关度评分环节
步骤S2.1、获取查询返回的待融合的结果列表;
步骤S2.2、特征提取模块提取多层次特征,对结果列表中每一条结果提取文档、资源库和主题三方面的特征,提取得到的特征以向量形式发送到相关性评分模块;
步骤S2.3、相关性评分模块利用训练得到的模型对每条结果进行评分,该模块将提取得到的特征输入到模型,模型输出对应结果的相关度评分;
步骤S2.4、系统输出结果:根据步骤S2.3中获得的相关度评分,系统将结果根据相关度大小降序排列,融合成最终的结果列表以输出。
所述步骤S1.3包括以下步骤:
S1.3.1、特征提取模块接收到语料,语料中数据的基本关系为:给定查询词q,分发到n个资源库Ei,i∈{1,2,…,n},每个资源库返回m个结果Dij,j∈{1,2,…,m},同时每个资源库对应一个主题Vk,k∈{1,2,…,l},l代表主题总数;
S1.3.2、对每一个查询结果Dij,利用相同URL统计其在各个资源库Ei中出现的次数,记作f1
S1.3.3、对每一个查询结果Dij,利用其排名信息rankij,构造排名特征f2,其中:
S1.3.4、对每一个资源库Ei,计算其包含的所有结果Dij对应的f1之和,记作f3,其中:
式中,m代表资源库的结果数,fj1(j∈{1,2,…,m})代表某一资源库第j个结果的f1特征;
S1.3.5、对每一个资源库Ei,计算其包含的所有Dij中,f1>1的结果数目,记作f4
S1.3.6、对每一个主题Vk,计算其包含的所有Ei中f3之和,记作f5
S1.3.7、对每一个主题Vk,计算其包含的所有Ei中f4之和,记作f6
S1.3.8、经过上述步骤的计算,对于每个Dij,都有对应的fx,x∈{1,2,3,4,5,6},将其组合成向量的形式(f1,f2,f3,f4,f5,f6)发送到模型训练模块;
所述步骤S1.4包括以下步骤:
S1.4.1、确定评分公式中特征的融合形式为线性融合,由步骤S1.3获得的fx,x∈{1,2,3,4,5,6}通过线性加权融合的方式计算结果评分,对于一个结果D,其评分设为S,其中:
式中,wx,x∈{1,2,3,4,5,6}代表对应特征的权重;
S1.4.2、将公式S对查询结果与不同相关度等级的相似性评分利用softmax回归模型映射到[0,1],softmax回归模型是逻辑回归模型在多分类问题上的推广,针对每个查询结果,会计算出其取得某个相关度的评分,输入特征fx,x∈{1,2,3,4,5,6}和标注的相关度评价到模型M;
S1.4.3、训练得到的模型M持久化到本地,供模型相关性评分模块使用;
所述步骤S2.3包括以下步骤:
S2.3.1、若相关性评分模块未进行初始化,则读取步骤S1.4中生成的模型M,再进入步骤S2.3.2;若已经初始化,直接进入步骤S2.3.2;
S2.3.2、由步骤S2.2提取得到的每一结果D的特征,输入到模型M;
S2.3.3、模型M输出每一个结果D的相关度评分,同一查询的所有结果的相关度评分将送入步骤S2.4。
本发明与现有技术相比,具有如下优点与有益效果:
1、提升了融合准确率。有选择地提取的多领域特征能有效反映检索结果的相关度,最终体现在了准确率的提升上。
2、简化了线性融合的调参流程。利用softmax回归模型训练得到相关度评分,参数由模型训练确定,省略了复杂的调参评分调参过程。
3、实时响应速度快。softmax回归模型运算代价较小,且模型能预先离线训练,符合在线检索实时性的要求。
附图说明
图1为本发明系统模块结构图。
图2为数据处理模块结构图。
图3为特征提取模块结构图。
图4为模型处理结构图。
图5为模型训练流程图。
图6为相关度评分流程图。
具体实施方式
下面结合具体实施例对本发明作进一步说明。
如图1所示,本实施例所述的多领域非协作分布式检索结果融合系统,包括:
数据处理模块,用于存储系统所需的语料数据和缓存数据,对外提供接口与其他模块交互;
特征提取模块,用于从训练语料或者检索结果中提取多领域特征;
模型训练模块,用于训练模型,包括模型初始化和模型学习等;
中央处理模块,用于负责分布式检索结果融合的流程处理,与其他模块进行交互,是系统核心逻辑的执行部分;
相关性评分模块,用于对查询结果进行全局的相关性评分。
如图2所示,数据处理模块包括:
数据存储子模块,用于存放训练数据、模型数据以及缓存数据;
数据预处理子模块,用于对训练数据进行预处理。
如图3所示,特征提取模块包括:
文档特征提取子模块,该子模块的特征提取对象是每一个查询结果Dij,i∈{1,2,…,n},j∈{1,2,…,m},每个结果都有独立的特征对应;
资源库特征提取子模块,该子模块的特征提取对象是每一个资源库Ei,i∈{1,2,…,n},归属于某一个资源的查询结果D都有其对应的资源库特征;
主题特征提取子模块,该子模块的特征提取对象是每一个主题Vk,k∈{1,2,…,l},每个资源库归属于某个主题,因此归属于某个资源库的每个文档都有其对应的主题特征;
如图4所示,模型训练模块包括:
模型初始化子模块;该子模块用于执行模型参数的初始化;
模型学习子模块;该子模块用于进行模型的训练学习。
如图1所示,中央处理模块从数据存储模块获取处理后的语料数据,利用特征处理模块从得到的数据中提取出多领域特征,得到的特征将加入到模型训练模块的模型学习中。
下面为本实施例上述多领域非协作分布式检索结果融合系统的融合方法,分有训练环节和相关度评分环节:
如图5所示,训练环节具体包括以下步骤:
步骤S1.1、从数据处理模块获取训练语料,语料中包含多条单个查询词在多个非协作搜索引擎中查询获得的结果列表,该结果中包含了排名、URL、摘要以及人工标注的相关度信息。人工标注的相关度一般可分为5级,分别是0代表不相关(Non),1代表弱相关(Rel),2代表相关(Hrel),3代表强相关(Key),4代表导航页面(Nav)。此外数据库中还有资源库对应的主题信息,资源库的主题多样,如军事、科技、艺术、社会和教育等。
步骤S1.2、预处理模块对要进行特征提取的训练语料进行规范化处理,初始的语料有可能无法直接用于后续的特征提取,因此需要对语料进行规范化处理,如将语料分解为以{查询,主题,资源库}为索引的层次化结构,处理后的训练语料发送到特征提取模块。
步骤S1.3、特征提取模块对处理后的语料提取文档、资源库以及主题这三方面的特征,提取后的特征发送到模型训练模块,提取特征步骤具体如下:
S1.3.1、特征提取模块接收到语料。语料中数据的基本关系如下:给定查询词q,分发到n个资源库Ei,i∈{1,2,…,n},每个资源库返回m个结果Dij,j∈{1,2,…,m},同时每个资源库对应一个主题Vk,k∈{1,2,…,l},l代表主题个总数;
S1.3.2、对每一个查询结果Dij,利用相同URL统计其在各个资源库Ei中出现的次数,记作f1;
S1.3.3、对每一个查询结果Dij,利用其排名信息rankij,构造排名特征f2,其中:
S1.3.4、对每一个资源库Ei,计算其包含的所有结果Dij对应的f1之和,记作f3,其中:
式中,fj1(j∈{1,2,…,m})代表某一资源库第j个结果的f1特征;
S1.3.5、对每一个资源库Ei,计算其包含的所有Dij中,f1>1的结果数目,记作f4;
S1.3.6、对每一个主题Vk,计算其包含的所有Ei中f3之和,记作f5;
S1.3.7、对每一个主题Vk,计算其包含的所有Ei中f4之和,记作f6;
S1.3.8、经过上述步骤的计算,对于每个Dij,都有对应的fx,x∈{1,2,3,4,5,6},将其组合成向量的形式(f1,f2,f3,f4,f5,f6)发送到模型训练模块;
步骤S1.4、模型训练模块将提取得到的特征和对应的相关性评分输入到逻辑回归模型,训练得到的模型持久化存储到本地,其具体步骤如下:
S1.4.1、确定评分公式中特征的融合形式为线性融合,由步骤S1.3获得的fx,x∈{1,2,3,4,5,6}通过线性加权融合的方式计算结果评分,对于一个结果D,其评分设为S,其中:
式中,fx,x∈{1,2,3,4,5,6}代表不同的特征,wx,x∈{1,2,3,4,5,6}代表对应特征的权重;
S1.4.2、将公式S对查询结果与不同相关度等级的相似性评分利用softmax回归模型映射到[0,1],softmax回归模型是逻辑回归模型在多分类问题上的推广,针对每个查询结果,会计算出其取得某个相关度的评分,输入特征fx,x∈{1,2,3,4,5,6}和标注的相关度评价到模型M;
S1.4.3、训练得到的模型M持久化到本地,供模型相关性评分模块使用。
如图6所示,相关度评分环节具体包括以下步骤:
步骤S2.1、获取查询返回的待融合的结果列表。结果列表来源于多个资源库,每个结果列表包含结果的排名、URL和摘要,获取到结果列表后进入步骤S2.2。
步骤S2.2、特征提取模块提取多层次特征,对结果列表中每一条结果提取文档、资源库和主题三方面的特征。提取得到的特征以向量形式发送到相关性评分模块。提取特征的详细步骤与训练环节的提取步骤相同。
步骤S2.3、相关性评分模块利用训练得到的模型对每条结果进行评分,包括以下步骤:
S2.3.1、若相关性评分模块未进行初始化,则读取步骤S1.4中生成的模型M,再进入步骤S2.3.2;若已经初始化,直接进入步骤S2.3.2;
S2.3.2、由步骤S2.2提取得到的每一结果D的特征,输入到模型M;
S2.3.3、模型M输出每一个结果D的相关度评分,同一查询的所有结果的相关度评分将送入步骤S2.4;
该相关性评分模块将提取得到的特征输入到模型,模型输出对应结果的相关度评分。利用softmax回归模型,可以计算得到每个结果对应每个相关度的评分,评分最高的相关度则取为对应结果的相关度。由下式可以计算每个结果对应每个相关度的评分。
式中,hw(f(i))即为softmax回归模型的假设函数,wjT,j∈{1,2,3,4,5}为训练得到的模型权重,分别对应5类相关度的计算,f(i)为提取得到的特征,计算后进入步骤S2.4。
步骤S2.4、系统输出结果。根据步骤S2.3中获得的相关度评分,系统将结果根据相关度大小降序排列,融合成最终的结果列表以输出。
以上所述实施例只为本发明之较佳实施例,并非以此限制本发明的实施范围,故凡依本发明之形状、原理所作的变化,均应涵盖在本发明的保护范围内。

Claims (6)

1.一种多领域非协作分布式检索结果融合系统,其特征在于,包括:
数据处理模块,用于存储系统所需的语料数据和缓存数据,对外提供接口与其他模块交互;
特征提取模块,用于从训练语料或者检索结果中提取多领域特征;
模型训练模块,用于训练模型,包括模型初始化和模型学习;
中央处理模块,负责分布式检索结果融合的流程处理,与其他模块进行交互,是系统核心逻辑的执行部分;
相关性评分模块,用于对查询结果进行全局的相关性评分。
2.根据权利要求1所述的一种多领域非协作分布式检索结果融合系统,其特征在于,所述数据处理模块包括:
数据存储子模块,用于存放数据;
数据预处理子模块,用于对训练数据进行预处理。
3.根据权利要求1所述的一种多领域非协作分布式检索结果融合系统,其特征在于,所述特征提取模块包括:
文档特征提取子模块,用于针对每个查询结果提取对应的文档特征;
资源库特征提取子模块,用于针对每个资源库提取对应的资源库特征;
主题特征提取子模块,用于针对每个主题提取查询结果对应的主题特征。
4.根据权利要求1所述的一种多领域非协作分布式检索结果融合系统,其特征在于,所述模型训练模块包括:
模型初始化子模块,用于模型准备,初始化模型所需要的参数;
模型学习子模块,用于管理模型的训练学习过程。
5.一种权利要求1所述多领域非协作分布式检索结果融合系统的融合方法,其特征在于,分有训练环节和相关度评分环节,具体包括以下步骤:
S1、训练环节
步骤S1.1、从数据处理模块获取训练语料,语料中包含多条单个查询词在多个非协作搜索引擎中查询获得的结果列表,结果中包含排名、URL、摘要以及人工标注的相关度信息;
步骤S1.2、预处理模块对要进行特征提取的训练语料进行规范化处理,处理后的训练语料发送到特征提取模块;
步骤S1.3、特征提取模块对处理后的语料提取文档、资源库以及主题这三方面的特征,提取后的特征发送到模型训练模块;
步骤S1.4、模型训练模块将提取得到的特征和对应的相关性评分输入到逻辑回归模型,训练得到的模型持久化存储到本地;
S2、相关度评分环节
步骤S2.1、获取查询返回的待融合的结果列表;
步骤S2.2、特征提取模块提取多层次特征,对结果列表中每一条结果提取文档、资源库和主题三方面的特征,提取得到的特征以向量形式发送到相关性评分模块;
步骤S2.3、相关性评分模块利用训练得到的模型对每条结果进行评分,该模块将提取得到的特征输入到模型,模型输出对应结果的相关度评分;
步骤S2.4、系统输出结果:根据步骤S2.3中获得的相关度评分,系统将结果根据相关度大小降序排列,融合成最终的结果列表以输出。
6.根据权利要求5所述的一种多领域非协作分布式检索结果融合系统的融合方法,其特征在于,所述步骤S1.3包括以下步骤:
S1.3.1、特征提取模块接收到语料,语料中数据的基本关系为:给定查询词q,分发到n个资源库Ei,i∈{1,2,…,n},每个资源库返回m个结果Dij,j∈{1,2,…,m},同时每个资源库对应一个主题Vk,k∈{1,2,…,l},l代表主题总数;
S1.3.2、对每一个查询结果Dij,利用相同URL统计其在各个资源库Ei中出现的次数,记作f1
S1.3.3、对每一个查询结果Dij,利用其排名信息rankij,构造排名特征f2,其中:
f 2 = 1 rank i j
S1.3.4、对每一个资源库Ei,计算其包含的所有结果Dij对应的f1之和,记作f3,其中:
f 3 = Σ j = 1 m f j 1
式中,m代表资源库的结果数,fj1(j∈{1,2,…,m})代表某一资源库第j个结果的f1特征;
S1.3.5、对每一个资源库Ei,计算其包含的所有Dij中,f1>1的结果数目,记作f4
S1.3.6、对每一个主题Vk,计算其包含的所有Ei中f3之和,记作f5
S1.3.7、对每一个主题Vk,计算其包含的所有Ei中f4之和,记作f6
S1.3.8、经过上述步骤的计算,对于每个Dij,都有对应的fx,x∈{1,2,3,4,5,6},将其组合成向量的形式(f1,f2,f3,f4,f5,f6)发送到模型训练模块;
所述步骤S1.4包括以下步骤:
S1.4.1、确定评分公式中特征的融合形式为线性融合,由步骤S1.3获得的fx,x∈{1,2,3,4,5,6}通过线性加权融合的方式计算结果评分,对于一个结果D,其评分设为S,其中:
S = Σ x = 1 6 w x × f x
式中,wx,x∈{1,2,3,4,5,6}代表对应特征的权重;
S1.4.2、将公式S对查询结果与不同相关度等级的相似性评分利用softmax回归模型映射到[0,1],softmax回归模型是逻辑回归模型在多分类问题上的推广,针对每个查询结果,会计算出其取得某个相关度的评分,输入特征fx,x∈{1,2,3,4,5,6}和标注的相关度评价到模型M;
S1.4.3、训练得到的模型M持久化到本地,供模型相关性评分模块使用;
所述步骤S2.3包括以下步骤:
S2.3.1、若相关性评分模块未进行初始化,则读取步骤S1.4中生成的模型M,再进入步骤S2.3.2;若已经初始化,直接进入步骤S2.3.2;
S2.3.2、由步骤S2.2提取得到的每一结果D的特征,输入到模型M;
S2.3.3、模型M输出每一个结果D的相关度评分,同一查询的所有结果的相关度评分将送入步骤S2.4。
CN201710041178.4A 2017-01-17 2017-01-17 一种多领域非协作分布式检索结果融合系统及其融合方法 Active CN106897736B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710041178.4A CN106897736B (zh) 2017-01-17 2017-01-17 一种多领域非协作分布式检索结果融合系统及其融合方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710041178.4A CN106897736B (zh) 2017-01-17 2017-01-17 一种多领域非协作分布式检索结果融合系统及其融合方法

Publications (2)

Publication Number Publication Date
CN106897736A true CN106897736A (zh) 2017-06-27
CN106897736B CN106897736B (zh) 2020-05-22

Family

ID=59198146

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710041178.4A Active CN106897736B (zh) 2017-01-17 2017-01-17 一种多领域非协作分布式检索结果融合系统及其融合方法

Country Status (1)

Country Link
CN (1) CN106897736B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107908783A (zh) * 2017-12-07 2018-04-13 百度在线网络技术(北京)有限公司 检索文本相关性的评估方法、装置、服务器和存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101950300A (zh) * 2010-09-20 2011-01-19 华南理工大学 一种分层结构、分布式搜索引擎系统及其实现方法
CN103984745A (zh) * 2014-05-23 2014-08-13 何震宇 分布式视频垂直搜索方法及系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101950300A (zh) * 2010-09-20 2011-01-19 华南理工大学 一种分层结构、分布式搜索引擎系统及其实现方法
CN103984745A (zh) * 2014-05-23 2014-08-13 何震宇 分布式视频垂直搜索方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
RAY R. LARSON: "A Logistic Regression Approach to Distributed IR", 《 SIGIR’02》 *
陈志敏: "联邦检索系统的关键技术研究与实现", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107908783A (zh) * 2017-12-07 2018-04-13 百度在线网络技术(北京)有限公司 检索文本相关性的评估方法、装置、服务器和存储介质

Also Published As

Publication number Publication date
CN106897736B (zh) 2020-05-22

Similar Documents

Publication Publication Date Title
Swathi et al. An optimal deep learning-based LSTM for stock price prediction using twitter sentiment analysis
CN104111933B (zh) 获取业务对象标签、建立训练模型的方法及装置
Karpathy et al. Deep visual-semantic alignments for generating image descriptions
CN109918560A (zh) 一种基于搜索引擎的问答方法和装置
CN107590133A (zh) 基于语义的招聘职位与求职简历匹配的方法及系统
CN104408148A (zh) 一种基于通用百科网站的领域百科构建系统
CN105843897A (zh) 一种面向垂直领域的智能问答系统
CN113515632B (zh) 基于图路径知识萃取的文本分类方法
CN106844632A (zh) 基于改进支持向量机的产品评论情感分类方法及装置
CN104809142A (zh) 商标查询系统和方法
CN107656920B (zh) 一种基于专利的科技人才推荐方法
CN106294786A (zh) 一种代码搜索方法和系统
CN109447273A (zh) 模型训练方法、广告推荐方法、相关装置、设备及介质
CN108021715A (zh) 基于语义结构特征分析的异构标签融合系统
CN102567392A (zh) 一种基于时间窗口兴趣主题挖掘的控制方法
CN112989811B (zh) 一种基于BiLSTM-CRF的历史典籍阅读辅助系统及其控制方法
CN106909626A (zh) 改进的决策树分类算法实现搜索引擎优化技术
CN113722443A (zh) 一种融合文本相似度和协同过滤的标签推荐方法和系统
Imad et al. Automated Arabic News Classification using the Convolutional Neural Network.
Hamza et al. Domain identification of urdu news text
CN108763520A (zh) 一种面向技术领域的专业人才搜索方法
CN106897736A (zh) 一种多领域非协作分布式检索结果融合系统及其融合方法
CN107908749A (zh) 一种基于搜索引擎的人物检索系统及方法
CN102193928A (zh) 基于多层文本分类器的轻量级本体匹配方法
CN116484079A (zh) 属性词挖掘方法及相关产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant