CN111506596B - 信息检索方法、装置、计算机设备和存储介质 - Google Patents

信息检索方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN111506596B
CN111506596B CN202010318819.8A CN202010318819A CN111506596B CN 111506596 B CN111506596 B CN 111506596B CN 202010318819 A CN202010318819 A CN 202010318819A CN 111506596 B CN111506596 B CN 111506596B
Authority
CN
China
Prior art keywords
search
candidate
search result
question
candidate search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010318819.8A
Other languages
English (en)
Other versions
CN111506596A (zh
Inventor
何文
颜强
梁华盛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202010318819.8A priority Critical patent/CN111506596B/zh
Publication of CN111506596A publication Critical patent/CN111506596A/zh
Application granted granted Critical
Publication of CN111506596B publication Critical patent/CN111506596B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/242Query formulation
    • G06F16/243Natural language query formulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及一种信息检索方法、装置、计算机设备和存储介质。所述方法包括:获取输入的检索词;按照所述检索词查找至少两个候选检索结果;获取配置的所述检索词与所述候选检索结果之间的语义相关信息;从所述候选检索结果中,根据所述语义相关信息确定与所述检索词匹配的目标检索结果;输出所述目标检索结果,以在社交应用的检索页面展示所述目标检索结果。采用本方法能够低信息检索过程中的计算复杂度。

Description

信息检索方法、装置、计算机设备和存储介质
技术领域
本申请涉及人工智能技术领域,特别是涉及一种信息检索方法、装置、计算机设备和存储介质。
背景技术
对于信息检索,通常是使用检索词先进行粗检索,找到与该检索词存在一定关联的所有内容作为候选检索结果,然后计算检索词与各候选检索结果之间的相似度,根据相似度对各候选检索结果进行排序,然后进行输出。然而,上述信息检索方案中,需要计算检索词与每一个候选检索结果之间的相似度,若候选检索结果的数量众多(若数量为n)时,对应的计算复杂度为O(n)。因此,采用上述信息检索方案时,从众多的候选检索结果中选择出用户真正所需的检索结果,计算复杂度很大。
发明内容
基于此,有必要针对上述技术问题,提供一种能够降低信息检索过程中的计算复杂度的信息检索方法、装置、计算机设备和存储介质。
一种信息检索方法,所述方法包括:
获取输入的检索词;
按照所述检索词查找至少两个候选检索结果;
获取配置的所述检索词与所述候选检索结果之间的语义相关信息;
从所述候选检索结果中,根据所述语义相关信息确定与所述检索词匹配的目标检索结果;
输出所述目标检索结果,以在社交应用的检索页面展示所述目标检索结果。
一种信息检索装置,所述装置包括:
第一获取模块,用于获取输入的检索词;
查找模块,用于按照所述检索词查找至少两个候选检索结果;
第二获取模块,用于获取配置的所述检索词与所述候选检索结果之间的语义相关信息;
确定模块,用于从所述候选检索结果中,根据所述语义相关信息确定与所述检索词匹配的目标检索结果;
展示模块,用于输出所述目标检索结果,以在社交应用的检索页面展示所述目标检索结果。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取输入的检索词;
按照所述检索词查找至少两个候选检索结果;
获取配置的所述检索词与所述候选检索结果之间的语义相关信息;
从所述候选检索结果中,根据所述语义相关信息确定与所述检索词匹配的目标检索结果;
输出所述目标检索结果,以在社交应用的检索页面展示所述目标检索结果。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取输入的检索词;
按照所述检索词查找至少两个候选检索结果;
获取配置的所述检索词与所述候选检索结果之间的语义相关信息;
从所述候选检索结果中,根据所述语义相关信息确定与所述检索词匹配的目标检索结果;
输出所述目标检索结果,以在社交应用的检索页面展示所述目标检索结果。
上述信息检索方法、装置、计算机设备和存储介质,通过预先配置各检索词与对应检索结果之间的语义相关信息,当按照检索词查找到多个候选检索结果时,直接通过该检索词和该候选检索结果之间的语义相关信息便可从候选检索结果中确定出与该检索词匹配的目标检索结果,无需计算检索词与每一个候选检索结果之间的语义相似度,大大的降低了信息检索过程中的计算复杂度,也有效地提高了信息检索速率,从而可以快速检索到用户所需的内容。
附图说明
图1为一个实施例中信息检索方法的应用环境图;
图2为一个实施例中信息检索方法的流程示意图;
图3为一个实施例中在社交应用的检索页面展示目标检索结果的界面示意图;
图4为另一个实施例中在社交应用的检索页面展示目标检索结果的界面示意图;
图5为一个实施例中问答模型训练步骤的流程示意图;
图6为另一个实施例中信息检索方法的流程示意图;
图7为一个实施例中信息检索装置的结构框图;
图8为一个实施例中信息检索装置的结构框图;
图9为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
其中,自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
本申请实施例提供的方案涉及人工智能的自然语言处理等技术,具体通过如下实施例进行说明:
本申请提供的信息检索方法,可以应用于如图1所示的应用环境中。其中,终端102与用于检索的服务器104和用于提供服务的服务器106之间通过网络进行通信。该信息检索方法可应用于终端102,终端102获取输入的检索词,按照检索词从服务器106中查找至少两个候选检索结果;获取配置的检索词与候选检索结果之间的语义相关信息;从候选检索结果中,根据语义相关信息确定与检索词匹配的目标检索结果;输出目标检索结果,以在社交应用的检索页面展示目标检索结果。
该信息检索方法也可应用于服务器104,服务器104获取输入的检索词,按照检索词从服务器106中查找至少两个候选检索结果;获取配置的检索词与候选检索结果之间的语义相关信息;从候选检索结果中,根据语义相关信息确定与检索词匹配的目标检索结果;输出目标检索结果至终端102,以在社交应用的检索页面展示目标检索结果。
其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器104和服务器106可以是由独立的服务器或者是多个服务器组成的服务器集群来实现。
在一个实施例中,如图2所示,提供了一种信息检索方法,以该方法应用于图1中的终端102为例进行说明,包括以下步骤:
S202,获取输入的检索词。
其中,上述检索词是指用于检索(也即搜索)对应内容所使用的关键词。例如,若要搜索开心消消乐小程序,可以将消消乐或开心消消乐作为检索词进行搜索。
在一个实施例中,终端接收用户在社交应用的检索页面输入的检索词。例如,若用户要搜索开心消消乐小程序,则可以打开社交应用,在社交应用的检索页面输入检索词“开心消消乐”,从而终端可以获得用户输入的检索词,如图3所示。
S204,按照检索词查找至少两个候选检索结果。
其中,候选检索结果是指:根据检索词粗略查找到相应的内容,该查找到的内容即为候选检索结果。该候选检索结果可以是小程序、公众号和阅读文本,此外,该候选检索结果也可以是音乐、视频、图像和表情等。该阅读文本可以是用于阅读的一篇或一段文章内容,该文章内容可以是各种领域的文章,如科技、体育、休闲娱乐、美食和文学等领域的文章。此外,该阅读文本也可以是具有实时性的资讯类文章,也可以是非实时性的文章。
公众号是开发者或商家在社交应用平台上申请的应用账号,该帐号与用户的社交账号互通,通过公众号,商家可在社交应用台上实现和特定群体用户之间的文字、图片、语音和视频的全方位沟通与互动。
小程序(Mini Program)是一种不需要下载安装即可使用的应用程序,该小程序通常是在母程序提供的运行环境下运行。该母程序可以是社交应用。
在一个实施例中,终端根据检索词确定搜索类型,根据该搜索类型调用对应的搜索引擎。例如,用户输入的检索词为“开心消消乐”,那么可以判断出用户想要搜索开心消消乐小程序,那么可以调用搜索小程序的专业搜索引擎进行搜索。
在一个实施例中,终端根据输入的搜索类型确认指令,根据该搜索类型确认指令确定对应的搜索类型,然后按照该搜索类型调用对应的搜索引擎。例如,用户在输入检索词“开心消消乐”之后,在如图3中选择小程序(即搜索类型为小程序),则调用搜索小程序的专业搜索引擎进行搜索。
在一个实施例中,终端按照搜索类型确定所要查找的服务器,调用搜索类型对应的搜索引擎,通过该搜索引擎采用粗匹配方式从该服务器查找与该搜索类型匹配、且与检索词相似的内容,然后将查找的内容作为候选检索结果。例如,搜索类型为小程序,则调用搜索小程序的专业搜索引擎,使用该专业搜索引擎从小程序对应的服务器中查找与检索词相似的小程序。又例如,搜索类型为公众号,则调用搜索公众号的专业搜索引擎,使用该专业搜索引擎从公众号对应的服务器中查找与检索词相似的公众号。
S206,获取配置的检索词与候选检索结果之间的语义相关信息。
在一个实施例中,终端将检索词和查找的各候选检索结果输入至基于机器学习的问答模型;其中,问答模型中配置了各检索词与对应检索结果之间的语义相关信息。
其中,基于机器学习的问答模型可以是基于BERT(Encoder Representation fromTransformers,双向Transformer编码器)的QA(Question Answering,问答)模型,或基于CNN(Convolutional Neural Networks,卷积神经网络)的QA模型,又或者是基于其它神经网络的QA模型。
将检索词作为问题,以及将候选检索结果(或检索结果对应的文字描述信息)作为阅读文章,那么基于机器学习的问答模型能以准确、简洁的自然语言从阅读文章中找到对应的答案,从而利用该答复回答用户用自然语言提出的问题。
在一个实施例中,上述将检索词和查找的各候选检索结果输入问答模型的步骤,具体可以包括:终端获取候选检索结果对应的质量特征;根据候选检索结果和质量特征生成信息列表;将检索词和信息列表输入基于机器学习的问答模型。
其中,上述的质量特征可以是候选检索结果的内容质量特征,包括但不限于候选检索结果的内容是否为官方出品、是否具有可用性以及单位时间内的活跃用户量等。例如,对于公众号,其质量特征可以是是否为官方公众号、该候选公众号的可用性(即该公众号是否可用或是否在使用)和活跃用户量(如日、周或月活跃量)。
在一个实施例中,上述根据候选检索结果和质量特征生成信息列表的步骤,具体可以包括:终端按照质量特征对候选检索结果进行排序;生成包含有排序后的候选检索结果和质量特征的信息列表。
例如,对于公众号,终端按照是否为官方公众号、可用性和活跃用户量等综合因素对候选公众号进行排序,然后将排序的候选公众号和对应的质量特征一起生成信息列表,该列表中包含有该质量特征和排序后的候选公众号。其中,在对候选公众号进行排序时,按照是否为官方公众号、可用性和活跃用户量分别分配对应的加权值,然后得到每个候选公众号的加权得分,加权得分越高,排序时越靠前。
在另一个实施例中,上述将检索词和查找的各候选检索结果输入问答模型的步骤,具体可以包括:终端根据候选检索结果与对应的用户行为生成信息列表;将检索词和信息列表输入基于机器学习的问答模型。
在另一个实施例中,上述将检索词和查找的各候选检索结果输入问答模型的步骤,具体可以包括:终端获取候选检索结果对应的质量特征和用户行为;根据候选检索结果、用户行为和质量特征生成信息列表;将检索词和信息列表输入基于机器学习的问答模型。
其中,上述的用户行为可以是用户在搜索到该候选检索结果时的点击量、点击率以及点击该候选检索结果后进入对应页面的停留时间等。例如,用户在搜索开心消消乐小程序时,对应的用户行为可以是点击该开心消消乐小程序的点击量、点击率以及使用在进入开心消消乐小程序游戏页面的停留时间。
在一个实施例中,上述根据候选检索结果和质量特征生成信息列表的步骤,具体可以包括:终端按照质量特征和用户行为对候选检索结果进行排序;生成包含有排序后的候选检索结果、用户行为和质量特征的信息列表。
例如,对于公众号,终端按照是否为官方公众号、可用性和活跃用户量等质量特征,以及搜索到该候选公众号时的点击量、点击率以及点击该候选公众号后进入对应页面的停留时间等用户行为对候选公众号进行综合排序,然后将用户行为、质量特征和排序的候选公众号一起生成信息列表,该列表中包含有该用户行为、质量特征和和排序后的候选公众号。其中,在对候选公众号进行排序时,按照是否为官方公众号、可用性和活跃用户量分别分配对应的加权值,然后得到每个候选公众号的加权得分,加权得分越高,排序时越靠前。
在一个实施例中,终端通过对应搜索引擎,利用粗匹配方式搜索到候选检索结果时,并获取到对应的匹配度,按照该匹配度对搜索的各候选检索结果进行排序,然后生成包含有检索词和排序后候选检索结果的信息列表。
在一个实施例中,终端获取各可能的检索词和对应的检索结果,计算该可能的检索词和对应的检索结果之间的语义相似度,然后根据该可能的检索词、对应的检索结果和语义相似度生成语义相关信息,该语义相关信息可以作为问答模型的配置文件,当问答模型需要用到该配置文件时进行调用。
其中,上述语义相似度可以通过基于语义网络算法或基于字符串相关度算法进行计算。
在一个实施例中,终端计算检索词的词向量,以及对应的各检索结果的词向量,然后计算检索词的词向量和各检索结果的词向量之间的余弦相似度,然后将该相似度作为该可能的检索词和对应的检索结果之间的语义相似度。
其中,词向量可以是单词、词组或短语被映射到实数的向量。对于两个向量之间的余弦相似度,可以将两个向量视为空间中的两条线段,都是从原点出发指向不同的方向,两条线段之间形成一个夹角。夹角大小不同,对应的两个向量所代表的文本之间相似度存在差异,具体如下:
1)若夹角为0度,表示方向相同,对应的两个向量所代表的检索词和对应检索结果完全相等。当处于夹角0~90度时,对应的两个向量所代表的检索词和对应检索结果相似,且角度越大,相似度越小。
2)若夹角为90度,意味着形成直角,表示方向完全不相似,对应的两个向量所代表的检索词和对应检索结果完全不相等。
3)若夹角为180度,意味着方向正好相反。
因此,终端可以通过夹角的大小,来判断向量的相似程度,夹角越小表示越相似。其中,余弦相似度的表达式可以是:
其中,xi为检索词的词向量中的元素,yi为对应检索结果的词向量中的元素。分别将检索词的词向量中的元素和对应检索结果的词向量中的元素代入上式,即可得到检索词的词向量与检索结果的词向量之间的余弦相似度。
在一个实施例中,终端可以通过词向量生成模型检索词和对应检索结果中的分词进行向量化处理,分别得到检索词的词向量,以及对应检索结果中的各分词的词向量。
实际应用中,词向量生成模型可以是通过多次训练得到的word2vec模型(即用来产生词向量的网络模型)。如此,word2vec模型可以将检索词和对应检索结果中的各分词转化为对应的词向量,而且所得的词向量保留原始的检索词和对应检索结果的含义。
S208,从候选检索结果中,根据语义相关信息确定与检索词匹配的目标检索结果。
在一个实施例中,终端将检索词和查找的各候选检索结果输入问答模型之后,由机器学习模型从候选检索结果中,根据语义相关信息确定与检索词匹配的目标检索结果。
在一个实施例中,当检索词和候选检索结果输入至问答模型时,终端调用配置文件,利用配置文件中关于检索词和候选检索结果之间的语义相关信息从候选检索结果中确定与检索词匹配的目标检索结果。
在一个实施例中,终端还可以获取各候选检索结果对应的用户行为,当根据通过问答模型中关于检索词和候选检索结果之间的语义相关信息从候选检索结果中确定与检索词匹配的至少一个目标检索结果时,还会根据用户行为判断所确定出来的目标检索结果是否为用户感兴趣的检索结果。
在一个实施例中,当候选检索结果为候选公众号时,对应的质量特征包括是否为官方公众号、候选公众号的可用性和活跃用户量。上述由机器学习模型从候选检索结果中,根据语义相关信息确定与检索词匹配的目标检索结果的步骤,具体可以包括:终端通过问答模型中关于检索词和候选公众号的主题名之间的语义相关信息,从候选公众号中选取公众号;当所选取的公众号的质量特征满足预设条件时,将所选取的公众号确定为与检索词匹配的公众号。
例如,当问答模型根据语义相似度从候选公众号中选取出公众号之后,还会判断选出的公众号的质量是否达到要求,若该公众号为未被使用的公众号、或者该公众号的使用率低等,则该公众号的质量无法达到要求;若该公众号为被用户经常使用的公众号,则该公众号的质量达到要求,可以作为用户感兴趣的公众号进行显示。
在一个实施例中,候选检索结果包括候选小程序;质量特征包括是否为官方小程序、候选小程序的可用性和活跃用户量。上述由机器学习模型从候选检索结果中,根据语义相关信息确定与检索词匹配的目标检索结果的步骤,具体可以包括:通过问答模型中关于检索词和候选小程序的主题名之间的语义相关信息,从候选小程序中选取小程序;当所选取的小程序的质量特征满足预设条件时,将所选取的小程序确定为与检索词匹配的小程序。
例如,当问答模型根据语义相似度从候选小程序中选取出小程序之后,还会判断选出的小程序的质量是否达到要求,若该小程序为未被使用的小程序、或者该小程序的使用率低等,则该小程序的质量无法达到要求;若该小程序为被用户经常使用的小程序,则该小程序的质量达到要求,可以作为用户感兴趣的小程序进行显示。
S210,输出目标检索结果,以在社交应用的检索页面展示目标检索结果。
其中,社交应用可以指能够通过网络来实现社交目的的应用程序。在社交应用中内置了搜索引擎,可以在社交应用的检索页面搜索对应的内容,如搜索公众号、小程序、阅读文本和其它的内容。
在一个实施例中,S210具体可以包括:终端可以将该目标检索结果传输到对应的显示屏,以便将该目标检索结果展示于社交应用的检索页面。其中,该检索页面是显示于显示屏的用于输入检索词和显示检索结果的页面。
在一个实施例中,终端可以只将问答模型输出的目标检索结果展示于社交应用的检索页面。例如,如图3所示,当用户想要搜索开心消消乐这个小程序时,终端可以只将问答模型输出的开心消消乐小程序显示于社交应用的检索页面。
在另一个实施例中,终端除了可以将目标检索结果展示于社交应用的检索页面,还可以将除目标检索结果之外的其它候选检索结果也展示于检索页面。
具体地,当在社交应用的检索页面按照排序的序号展示候选检索结果时,终端将目标检索结果作为检索词的答案在检索页面置顶显示。
例如,如图4所示,当用户想要搜索开心消消乐这个小程序时,终端将所有搜索到的与检索词开心消消乐具有一定相似度的小程序都显示于社交应用的检索页面,并且将问答模型输出的开心消消乐小程序置顶显示,如开心消消乐小程序置顶显示,而开心连线消消乐小程序、开心宠物消消乐、开心拼图消消乐和开心点点消消乐依次在后面进行显示。
在一个实施例中,当信息检索方法应用于服务器时,服务器将目标检索结果输出至终端,以便终端将目标检索结果展示于社交应用的检索页面。此外,服务器除了将目标检索结果输出至终端之外,还可以将其它检索候选检索结果也输出到终端,以便终端在置顶显示目标检索结果时,也可以按照排序的序号展示其它的候选检索结果。
上述实施例中,通过预先配置各检索词与对应检索结果之间的语义相关信息,当按照检索词查找到多个候选检索结果时,直接通过该检索词和该候选检索结果之间的语义相关信息便可从候选检索结果中确定出与该检索词匹配的目标检索结果,无需计算检索词与每一个候选检索结果之间的语义相似度,大大的降低了信息检索过程中的计算复杂度,也有效地提高了信息检索速率,从而可以快速检索到用户所需的内容。
在一个实施例中,如图5所示,该方法还可以包括:
S502,获取至少两个检索词样本和对应的候选检索结果样本集。
其中,上述检索词样本用于对问答模型进行训练时所采用的检索词。候选检索结果样本是指根据检索词样本粗匹配方式查找到的所有候选检索结果。候选检索结果样本集由多个候选检索结果样本所构成的集合。
在候选检索结果样本集中可以包含有对应检索词样本匹配的候选检索结果样本,也可以不包含有对应检索词样本匹配的候选检索结果样本。例如,用户搜索“开心消消玩”的小程序,若搜索出来的小程序均为开心消消乐系列的小程序,那么对应的候选检索结果样本集将不包含与检索词匹配的候选检索结果样本。
在一个实施例中,上述至少两个检索词样本中存在至少一个检索词样本不具有匹配的候选检索结果样本。
S504,按照与各检索词样本之间的匹配性,对相应候选检索结果样本集中的候选检索结果样本进行标记。
在一个实施例中,S504具体可以包括:终端获取与候选检索结果样本集中的候选检索结果样本对应的用户行为;根据用户行为计算检索词样本和候选检索结果样本之间的匹配分值;按照匹配分值对相应的候选检索结果样本进行标记。
其中,上述的用户行为可以是用户在搜索到该候选检索结果时的点击量、点击率以及点击该候选检索结果后进入对应页面的停留时间等。
在一个实施例中,终端获取日志表,从该日志表中提取出检索词样本、对应的候选检索结果样本集,以及该候选检索结果样本集中各候选检索结果样本对应的用户行为。
在一个实施例中,上述按照匹配分值对相应的候选检索结果样本进行标记的步骤,具体可以包括:当匹配分值属于第一置信区间时,终端将相应的候选检索结果样本标记为匹配标签;当匹配分值属于第二置信区间时,终端将相应的候选检索结果样本标记为未匹配标签;第一置信区间中的置信值大于第二置信区间中的置信值。
其中,当用户在使用检索词样本进行搜索时,第一置信区间用于衡量对应候选检索结果样本是否为用户真正感兴趣的检索结果,例如候选检索结果样本的匹配分值属于第一置信区间,那么该候选检索结果样本是用户真正感兴趣的检索结果。而第二置信区间用于衡量对应候选检索结果样本是否为用户不感兴趣(或兴趣值小)的检索结果,例如候选检索结果样本的匹配分值属于第二置信区间,那么该候选检索结果样本是用户不感兴趣(或不怎么感兴趣)的检索结果。
在一个实施例中,当匹配分值属于非置信区间时,接收标注指令;非置信区间中的置信值小于第一置信区间的最小置信值、但大于第二置信区间的最大置信值;按照标注指令对属于非置信区间的候选检索结果样本进行标记。
其中,对于匹配分值介于第一置信区间和第二置信区间之间的非置信区间时,则表示对应的候选检索结果样本并不确定是用户真正感兴趣还是不感兴趣的检索结果,此时可以采用人工标记的方式。
S506,将检索词样本和对应的候选检索结果样本集输入至问答模型中训练。
其中,该问答模型中配置了各检索词样本与对应候选检索结果样本之间的语义相关信息。
在一个实施例中,S506具体可以包括:终端获取各候选检索结果样本对应的训练质量特征,然后按照该训练质量特征对候选检索结果样本集中的各候选检索结果样本进行排序;将检索词样本、训练质量特征和排序后的候选检索结果样本集输入基于机器学习的问答模型。
其中,上述的训练质量特征可以在训练过程中关于候选检索结果样本的内容质量特征,包括但不限于候选检索结果样本的内容是否为官方出品、是否具有可用性以及单位时间内的活跃用户量等。例如,对于小程序,其训练质量特征可以是是否为官方小程序、该候选小程序的可用性和活跃用户量(如日、周或月活跃量)。
例如,对于公众号,终端按照是否为官方公众号、可用性和活跃用户量等综合因素对集合中的候选公众号进行排序,然后将排序的候选公众号样本集合和对应的质量特征一起输入至问答模型。
在一个实施例中,S506具体可以包括:终端获取各候选检索结果样本对应的训练质量特征和训练用户行为,然后按照该训练质量特征和训练用户行为对候选检索结果样本集中的各候选检索结果样本进行排序;将检索词样本、训练质量特征、训练用户行为和排序后的候选检索结果样本集输入基于机器学习的问答模型。
S508,通过问答模型中关于检索词样本和候选检索结果样本之间的语义相关信息,从候选检索结果样本集中确定与检索词样本匹配的训练检索结果。
在一个实施例中,当检索词样本和候选检索结果样本集输入至问答模型时,终端调用配置文件,利用配置文件中关于检索词样本和各候选检索结果样本之间的语义相关信息从候选检索结果样本集中确定与检索词样本匹配的训练检索结果。
在一个实施例中,终端还可以获取各候选检索结果样本集对应的训练用户行为,当根据通过问答模型中关于检索词样本和候选检索结果样本集之间的语义相关信息从候选检索结果样本集中确定与检索词样本匹配的至少一个训练检索结果时,还会根据训练用户行为判断所确定出来的训练检索结果是否为用户感兴趣的。
在一个实施例中,当候选检索结果样本集为候选公众号样本集时,对应的训练质量特征包括是否为官方公众号、候选公众号样本的可用性和活跃用户量,S508具体可以包括:终端通过问答模型中关于检索词样本和候选公众号样本的主题名之间的语义相关信息,从候选公众号样本集中选取训练公众号样本;当所选取的候选公众号样本的训练质量特征满足预设条件时,将所选取的训练公众号样本确定为与检索词样本匹配的、且为用户感兴趣的公众号。
例如,当问答模型根据语义相似度从候选公众号样本集中选取出训练公众号样本之后,还会判断选出的训练公众号样本的质量是否达到要求,若该训练公众号样本为未被使用的公众号、或者该训练公众号样本使用率很低等,则该训练公众号样本的质量无法达到要求;若该训练公众号样本为被用户经常使用的公众号,则该训练公众号样本的质量达到要求,可以作为用户感兴趣的公众号进行显示。
在一个实施例中,候选检索结果样本集包括候选小程序样本集;训练质量特征包括是否为官方小程序、候选小程序样本集的可用性和活跃用户量。S508具体可以包括:通过问答模型中关于检索词样本和训练小程序样本的主题名之间的语义相关信息,从候选小程序样本集中选取训练小程序样本;当所选取的训练小程序样本的训练质量特征满足预设条件时,将所选取的训练小程序样本确定为与检索词样本匹配、且用户感兴趣的小程序。
例如,当问答模型根据语义相似度从候选小程序样本集中选取出训练小程序样本之后,还会判断选出的训练小程序样本的质量是否达到要求,若该训练小程序样本为未被使用的小程序、或者该训练小程序样本的使用率低等,则该训练小程序样本的质量无法达到要求;若该训练小程序样本为被用户经常使用的小程序,则该训练小程序样本的质量达到要求,可以作为用户感兴趣的小程序进行显示。
S510,计算训练检索结果与被标记为匹配的候选检索结果样本之间的差异。
在一个实施例中,终端根据损失函数训练检索结果与被标记为匹配的候选检索结果样本之间的差异。其中,该差异可以是指训练检索结果与被标记为匹配的候选检索结果样本之间的损失值。损失函数可以是以下任一种:均方误差(Mean Squared Error)、交叉熵损失函数、L2Loss函数和Focal Loss函数。
S512,根据差异调整问答模型直至模型收敛。
在一个实施例中,终端将损失值反向传播到问答模型的各层,获得对于各层参数的梯度;根据梯度调整问答模型中各层的参数。
上述实施例中,按照与各检索词样本之间的匹配性对相应候选检索结果样本集中的候选检索结果样本进行标记;其中,至少两个检索词样本中存在至少一个检索词样本不具有匹配的候选检索结果样本;将检索词样本和对应的候选检索结果样本集输入至问答模型中训练,输出与检索词样本匹配的训练检索结果;计算训练检索结果与被标记为匹配的候选检索结果样本之间的差异;根据差异调整问答模型直至模型收敛,从而是问答模型既考虑了全局候选检索结果,还兼顾了文本之间的语义,从而利用该问答模型可以快速检索出用户所需的内容,可以有利于提高信息检索速率。
作为一个示例,以BERT QA模型为例对本实施例进行阐述:BERT QA模型以检索词(也即搜索词query)和由召回的doc(该doc可以包括账号和文章)所构成的账号列表(即上述的信息列表)为输入,直接输出这个query的寻址结果(该寻址结果即为用户感兴趣的公众号或小程序),目的是能让BERT QA模型能够获得该query召回的doc,对账号列表中的各doc进行对比后判断是否有寻址结果,若有,则确定该寻址结果是哪个,对应的计算复杂度为O(1)。上述的doc可以是利用query召回的小程序或公众号。在后续实施例中,以doc为账号为例进行阐述。
此外,本实施例中在账号列表中加入了账号的质量特征,以账号的质量对账号列表中的账号进行排序,然后再将query和账号列表输入到BERT QA模型,让BERT QA模型在综合对比账号的同时,还考虑到了账号的质量,有效地防止低质账号作弊而被误判为寻址结果。
其中,召回是指找到与query相关的账号这个过程。寻址是指搜索系统中,对于用户输入的query非常明确为了找某一个账号。
在识别出query的寻址结果是某个公众号或小程序时,把这个公众号或小程序直接置顶到社交应用的检索页面第一位显示,给用户最明显最直接的体验,缩短用户的搜索路径,具有良好的用户体验。
举例来说,如图4所示,query=“开心消消乐”,识别的寻址结果为doc=“开心消消乐”,直接把这个寻址结果doc置顶显示。在召回的账号中,还有一个doc=“开心消消乐2”,这个“开心消消乐2”并不是寻址结果,所以其显示位置保持不变。
如图6所示,本发明实施例中的流程可分为以下四个阶段:
1)挖掘query-doc的寻址pair
通过线上系统的日志获取用户在检索时所使用的query、召回的账号以及用户的后验行为(也即用户行为),通过用户的后验行为挖掘出query-doc的寻址pair(即query与寻址结果对)。
用户的后验行为可以是在小程序或公众号中停留时间、点击量(如点击人数)和点击熵(如点击率)等,获得寻址pair。其中部分不置信或有争议的情况,可以通过人工方式对query和对应账号进行标注,以确定是否为寻址pair。
2)构造query-doc集合的训练数据
利用1)中得到的寻址pair,从日志中找到包括有该寻址pair的所有query到doc集合的训练样本,然后对训练样本中的query和对应的doc进行标记,即该query对应的寻址结果具体是哪个doc。此外,这里需要构造一部分寻址结果不在doc集合中的样本,也相应的进行标记。
3)训练BERT QA模型
把2)中准备好的训练样本输入到BERT QA模型进行训练。
4)利用训练好的BERT QA模型上线。
将3)中获得的BERT QA模型进行上线,对于用户输入的query与召回的doc集合作为BERT QA模型的输入。若BERT QA模型找到其中的一个doc作为寻址结果(即用户感兴趣的公众号或小程序),那么把这个doc在社交应用的检索页面中置顶显示。
通过上述实施例,可以具有以下技术效果:
1)可以调用BERT QA模型一次即可解决query对doc集合的寻址结果判定问题,节省了大量的时间与计算资源;
2)无需使用判断的阈值,减少了人工判断的参与,节省了实验试探阈值的时间;
3)把账号寻址建模成QA问题,与传统技术相比,本实施例既考虑了全局的召回信息,又兼顾到了文本语义;
4)本实施例中的BERT QA模型对于其它的账号寻址问题也具有很好的普适性。
应该理解的是,虽然图2、5的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2、5中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图7所示,提供了一种信息检索装置,该装置可以采用软件模块或硬件模块,或者是二者的结合成为计算机设备的一部分,该装置具体包括:第一获取模块702、查找模块704、第二获取模块706、确定模块708和展示模块710,其中:
第一获取模块702,用于获取输入的检索词;
查找模块704,用于按照检索词查找至少两个候选检索结果;
第二获取模块706,用于获取配置的检索词与候选检索结果之间的语义相关信息;
确定模块708,用于从候选检索结果中,根据语义相关信息确定与检索词匹配的目标检索结果;
展示模块710,用于输出目标检索结果,以在社交应用的检索页面展示目标检索结果。
在一个实施例中,语义相关信息配置于基于机器学习的问答模型中。第二获取模块706,还用于将检索词和查找的各候选检索结果输入问答模型;通过问答模型获得配置的检索词与候选检索结果之间的语义相关信息;
确定模块708,还用于由机器学习模型从候选检索结果中,根据语义相关信息确定与检索词匹配的目标检索结果。
在一个实施例中,第二获取模块706,还用于获取候选检索结果对应的质量特征;根据候选检索结果和质量特征生成信息列表;将检索词和信息列表输入基于机器学习的问答模型;
确定模块708,还用于由问答模型依据语义相关信息以及质量特征,从候选检索结果中确定与检索词匹配的目标检索结果。
在一个实施例中,第二获取模块706,还用于按照质量特征对候选检索结果进行排序;生成包含有排序后的候选检索结果和质量特征的信息列表。
在一个实施例中,展示模块710,还用于输出目标检索结果;当在社交应用的检索页面按照排序的序号展示候选检索结果时,将目标检索结果作为检索词的答案在检索页面置顶显示。
在一个实施例中,候选检索结果包括候选公众号;质量特征包括是否为官方公众号、候选公众号的可用性和活跃用户量;确定模块708,还用于通过问答模型中关于检索词和候选公众号的主题名之间的语义相关信息,从候选公众号中选取公众号;当所选取的公众号的质量特征满足预设条件时,将所选取的公众号确定为与检索词匹配的公众号。
在一个实施例中,候选检索结果包括候选小程序;质量特征包括是否为官方小程序、候选小程序的可用性和活跃用户量;确定模块708,还用于通过问答模型中关于检索词和候选小程序的主题名之间的语义相关信息,从候选小程序中选取小程序;当所选取的小程序的质量特征满足预设条件时,将所选取的小程序确定为与检索词匹配的小程序。
上述实施例中,通过预先配置各检索词与对应检索结果之间的语义相关信息,当按照检索词查找到多个候选检索结果时,直接通过该检索词和该候选检索结果之间的语义相关信息便可从候选检索结果中确定出与该检索词匹配的目标检索结果,无需计算检索词与每一个候选检索结果之间的语义相似度,大大的降低了信息检索过程中的计算复杂度,也有效地提高了信息检索速率,从而可以快速检索到用户所需的内容。
在一个实施例中,如图8所示,该装置还包括:标记模块712、计算模块714和调整模块716;其中:
第一获取模块702,还用于获取至少两个检索词样本和对应的候选检索结果样本集;
标记模块712,用于按照与各检索词样本之间的匹配性,对相应候选检索结果样本集中的候选检索结果样本进行标记;
第二获取模块706,还用于将检索词样本和对应的候选检索结果样本集输入至问答模型中训练;
确定模块708,还用于通过问答模型中关于检索词样本和候选检索结果样本之间的语义相关信息,从候选检索结果样本集中确定与检索词样本匹配的训练检索结果;
计算模块714,用于计算训练检索结果与被标记为匹配的候选检索结果样本之间的差异;
调整模块716,用于根据差异调整问答模型直至模型收敛。
在一个实施例中,标记模块712,还用于获取与候选检索结果样本集中的候选检索结果样本对应的用户行为;根据用户行为计算检索词样本和候选检索结果样本之间的匹配分值;按照匹配分值对相应的候选检索结果样本进行标记。
在一个实施例中,标记模块712,还用于当匹配分值属于第一置信区间时,将相应的候选检索结果样本标记为匹配标签;当匹配分值属于第二置信区间时,将相应的候选检索结果样本标记为未匹配标签;第一置信区间中的置信值大于第二置信区间中的置信值。
在一个实施例中,标记模块712,还用于当匹配分值属于非置信区间时,接收标注指令;非置信区间中的置信值小于第一置信区间的最小置信值、但大于第二置信区间的最大置信值;按照标注指令对属于非置信区间的候选检索结果样本进行标记。
在一个实施例中,至少两个检索词样本中存在至少一个检索词样本不具有匹配的候选检索结果样本。
上述实施例中,按照与各检索词样本之间的匹配性对相应候选检索结果样本集中的候选检索结果样本进行标记;其中,至少两个检索词样本中存在至少一个检索词样本不具有匹配的候选检索结果样本;将检索词样本和对应的候选检索结果样本集输入至问答模型中训练,输出与检索词样本匹配的训练检索结果;计算训练检索结果与被标记为匹配的候选检索结果样本之间的差异;根据差异调整问答模型直至模型收敛,从而是问答模型既考虑了全局候选检索结果,还兼顾了文本之间的语义,从而利用该问答模型可以快速检索出用户所需的内容,可以有利于提高信息检索速率。
关于信息检索装置的具体限定可以参见上文中对于信息检索方法的限定,在此不再赘述。上述信息检索装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端或服务器,以该计算机设备为终端为例进行阐述,其内部结构图可以如图9所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、运营商网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种信息检索方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图9中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,还提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory,ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic Random Access Memory,DRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (26)

1.一种信息检索方法,其特征在于,所述方法包括:
获取输入的检索词;
按照所述检索词查找至少两个候选检索结果;
获取配置的所述检索词与所述候选检索结果之间的语义相关信息;所述语义相关信息配置于基于机器学习的问答模型中;
从所述候选检索结果中,根据所述语义相关信息确定与所述检索词匹配的目标检索结果;
输出所述目标检索结果,以在社交应用的检索页面展示所述目标检索结果;
其中,所述问答模型的训练过程为:获取至少两个检索词样本和对应的候选检索结果样本集;获取与所述候选检索结果样本集中的候选检索结果样本对应的用户点击信息;根据所述用户点击信息计算所述检索词样本和所述候选检索结果样本之间的匹配分值;按照所述匹配分值对相应的候选检索结果样本进行标记;将所述检索词样本和对应的所述候选检索结果样本集输入至问答模型中训练;通过所述问答模型中关于所述检索词样本和所述候选检索结果样本之间的语义相关信息,从所述候选检索结果样本集中确定与所述检索词样本匹配的训练检索结果;计算所述训练检索结果与被标记为匹配的候选检索结果样本之间的差异;根据所述差异调整所述问答模型直至模型收敛。
2.根据权利要求1所述的方法,其特征在于,所述语义相关信息配置于基于机器学习的问答模型中;所述获取配置的所述检索词与所述候选检索结果之间的语义相关信息包括:
将所述检索词和查找的各候选检索结果输入所述问答模型;
通过所述问答模型获得配置的所述检索词与所述候选检索结果之间的语义相关信息;
所述从所述候选检索结果中,根据所述语义相关信息确定与所述检索词匹配的目标检索结果包括:
由机器学习模型从所述候选检索结果中,根据所述语义相关信息确定与所述检索词匹配的目标检索结果。
3.根据权利要求2所述的方法,其特征在于,所述将所述检索词和查找的各候选检索结果输入所述问答模型包括:
获取所述候选检索结果对应的质量特征;
根据所述候选检索结果和所述质量特征生成信息列表;
将所述检索词和所述信息列表输入所述问答模型;
所述由机器学习模型从所述候选检索结果中,根据所述语义相关信息确定与所述检索词匹配的目标检索结果包括:
由所述问答模型依据所述语义相关信息以及所述质量特征,从所述候选检索结果中确定与所述检索词匹配的目标检索结果。
4.根据权利要求3所述的方法,其特征在于,所述根据所述候选检索结果和所述质量特征生成信息列表包括:
按照所述质量特征对所述候选检索结果进行排序;
生成包含有排序后的所述候选检索结果和所述质量特征的信息列表。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
根据所述检索词确定搜索类型;或者,
根据输入的搜索类型确认指令,根据所述搜索类型确认指令确定搜索类型;
所述按照所述检索词查找至少两个候选检索结果包括:
根据所述搜索类型调用对应的搜索引擎,以使所述搜索引擎按照所述检索词查找至少两个候选检索结果。
6.根据权利要求3所述的方法,其特征在于,所述候选检索结果为候选公众号;所述质量特征包括是否为官方公众号、所述候选公众号的可用性和活跃用户量;
所述由所述问答模型依据所述语义相关信息以及所述质量特征,从所述候选检索结果中确定与所述检索词匹配的目标检索结果包括:
通过所述问答模型中关于所述检索词和所述候选公众号的主题名之间的所述语义相关信息,从所述候选公众号中选取公众号;
当所选取的公众号的质量特征满足预设条件时,将所选取的公众号确定为与所述检索词匹配的公众号。
7.根据权利要求3所述的方法,其特征在于,所述候选检索结果为候选小程序;所述质量特征包括是否为官方小程序、所述候选小程序的可用性和活跃用户量;
所述由所述问答模型依据所述语义相关信息以及所述质量特征,从所述候选检索结果中确定与所述检索词匹配的目标检索结果包括:
通过所述问答模型中关于所述检索词和所述候选小程序的主题名之间的所述语义相关信息,从所述候选小程序中选取小程序;
当所选取的小程序的质量特征满足预设条件时,将所选取的小程序确定为与所述检索词匹配的小程序。
8.根据权利要求1至7任一项所述的方法,其特征在于,所述以在社交应用的检索页面展示所述目标检索结果包括:
当在所述社交应用的检索页面按照顺序展示所述候选检索结果时,将所述目标检索结果作为所述检索词的答案在所述检索页面置顶显示。
9.根据权利要求3所述的方法,其特征在于,所述根据所述候选检索结果和所述质量特征生成信息列表包括:
获取所述候选检索结果对应的用户点击信息;
根据所述候选检索结果、所述候选检索结果对应的用户点击信息和所述质量特征生成信息列表。
10.根据权利要求1所述的方法,其特征在于,所述按照所述匹配分值对相应的候选检索结果样本进行标记包括:
当所述匹配分值属于第一置信区间时,将相应的候选检索结果样本标记为匹配标签;
当所述匹配分值属于第二置信区间时,将相应的候选检索结果样本标记为未匹配标签;所述第一置信区间中的置信值大于所述第二置信区间中的置信值。
11.根据权利要求10所述的方法,其特征在于,所述方法还包括:
当所述匹配分值属于非置信区间时,接收标注指令;所述非置信区间中的置信值小于所述第一置信区间的最小置信值、但大于所述第二置信区间的最大置信值;
按照所述标注指令对属于所述非置信区间的候选检索结果样本进行标记。
12.根据权利要求8所述的方法,其特征在于,所述至少两个检索词样本中存在至少一个检索词样本不具有匹配的候选检索结果样本。
13.一种信息检索装置,其特征在于,所述装置包括:
第一获取模块,用于获取输入的检索词;
查找模块,用于按照所述检索词查找至少两个候选检索结果;
第二获取模块,用于获取配置的所述检索词与所述候选检索结果之间的语义相关信息;所述语义相关信息配置于基于机器学习的问答模型中;
确定模块,用于从所述候选检索结果中,根据所述语义相关信息确定与所述检索词匹配的目标检索结果;
展示模块,用于输出所述目标检索结果,以在社交应用的检索页面展示所述目标检索结果;
其中,所述问答模型的训练过程为:获取至少两个检索词样本和对应的候选检索结果样本集;获取与所述候选检索结果样本集中的候选检索结果样本对应的用户点击信息;根据所述用户点击信息计算所述检索词样本和所述候选检索结果样本之间的匹配分值;按照所述匹配分值对相应的候选检索结果样本进行标记;将所述检索词样本和对应的所述候选检索结果样本集输入至问答模型中训练;通过所述问答模型中关于所述检索词样本和所述候选检索结果样本之间的语义相关信息,从所述候选检索结果样本集中确定与所述检索词样本匹配的训练检索结果;计算所述训练检索结果与被标记为匹配的候选检索结果样本之间的差异;根据所述差异调整所述问答模型直至模型收敛。
14.根据权利要求13所述的装置,其特征在于,所述语义相关信息配置于基于机器学习的问答模型中;
所述第二获取模块,还用于将所述检索词和查找的各候选检索结果输入所述问答模型;通过所述问答模型获得配置的所述检索词与所述候选检索结果之间的语义相关信息;
所述确定模块,还用于由机器学习模型从所述候选检索结果中,根据所述语义相关信息确定与所述检索词匹配的目标检索结果。
15.根据权利要求14所述的装置,其特征在于,所述第二获取模块,还用于获取所述候选检索结果对应的质量特征;根据所述候选检索结果和所述质量特征生成信息列表;将所述检索词和所述信息列表输入所述问答模型;
所述确定模块,还用于由所述问答模型依据所述语义相关信息以及所述质量特征,从所述候选检索结果中确定与所述检索词匹配的目标检索结果。
16.根据权利要求15所述的装置,其特征在于,所述第二获取模块,还用于按照所述质量特征对所述候选检索结果进行排序;生成包含有排序后的所述候选检索结果和所述质量特征的信息列表。
17.根据权利要求13所述的装置,其特征在于,所述确定模块,还用于根据所述检索词确定搜索类型;或者,根据输入的搜索类型确认指令,根据所述搜索类型确认指令确定搜索类型;
所述查找模块,还用于根据所述搜索类型调用对应的搜索引擎,以使所述搜索引擎按照所述检索词查找至少两个候选检索结果。
18.根据权利要求15所述的装置,其特征在于,所述候选检索结果为候选公众号;所述质量特征包括是否为官方公众号、所述候选公众号的可用性和活跃用户量;
所述确定模块,还用于通过所述问答模型中关于所述检索词和所述候选公众号的主题名之间的所述语义相关信息,从所述候选公众号中选取公众号;当所选取的公众号的质量特征满足预设条件时,将所选取的公众号确定为与所述检索词匹配的公众号。
19.根据权利要求15所述的装置,其特征在于,所述候选检索结果为候选小程序;所述质量特征包括是否为官方小程序、所述候选小程序的可用性和活跃用户量;
所述确定模块,还用于通过所述问答模型中关于所述检索词和所述候选小程序的主题名之间的所述语义相关信息,从所述候选小程序中选取小程序;当所选取的小程序的质量特征满足预设条件时,将所选取的小程序确定为与所述检索词匹配的小程序。
20.根据权利要求13至19任一项所述的装置,其特征在于,所述展示模块,还用于当在所述社交应用的检索页面按照顺序展示所述候选检索结果时,将所述目标检索结果作为所述检索词的答案在所述检索页面置顶显示。
21.根据权利要求15所述的装置,其特征在于,所述第二获取模块,还用于获取所述候选检索结果对应的用户点击信息;根据所述候选检索结果、所述候选检索结果对应的用户点击信息和所述质量特征生成信息列表。
22.根据权利要求13所述的装置,其特征在于,标记模块,还用于当所述匹配分值属于第一置信区间时,将相应的候选检索结果样本标记为匹配标签;当所述匹配分值属于第二置信区间时,将相应的候选检索结果样本标记为未匹配标签;所述第一置信区间中的置信值大于所述第二置信区间中的置信值。
23.根据权利要求22所述的装置,其特征在于,所述标记模块,还用于当所述匹配分值属于非置信区间时,接收标注指令;所述非置信区间中的置信值小于所述第一置信区间的最小置信值、但大于所述第二置信区间的最大置信值;
按照所述标注指令对属于所述非置信区间的候选检索结果样本进行标记。
24.根据权利要求20所述的装置,其特征在于,所述至少两个检索词样本中存在至少一个检索词样本不具有匹配的候选检索结果样本。
25.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至12中任一项所述的方法的步骤。
26.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至12中任一项所述的方法的步骤。
CN202010318819.8A 2020-04-21 2020-04-21 信息检索方法、装置、计算机设备和存储介质 Active CN111506596B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010318819.8A CN111506596B (zh) 2020-04-21 2020-04-21 信息检索方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010318819.8A CN111506596B (zh) 2020-04-21 2020-04-21 信息检索方法、装置、计算机设备和存储介质

Publications (2)

Publication Number Publication Date
CN111506596A CN111506596A (zh) 2020-08-07
CN111506596B true CN111506596B (zh) 2023-11-24

Family

ID=71874429

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010318819.8A Active CN111506596B (zh) 2020-04-21 2020-04-21 信息检索方法、装置、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN111506596B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111897943A (zh) * 2020-08-17 2020-11-06 腾讯科技(深圳)有限公司 会话记录搜索方法、装置、电子设备及存储介质
CN112579750A (zh) * 2020-11-30 2021-03-30 百度健康(北京)科技有限公司 相似病案的检索方法、装置、设备及存储介质
CN114417084A (zh) * 2021-05-21 2022-04-29 深圳市智尊宝数据开发有限公司 信息检索方法及相关装置和介质和程序产品

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080040114A1 (en) * 2006-08-11 2008-02-14 Microsoft Corporation Reranking QA answers using language modeling
CN107491518A (zh) * 2017-08-15 2017-12-19 北京百度网讯科技有限公司 一种搜索召回方法和装置、服务器、存储介质
CN107545035A (zh) * 2017-07-25 2018-01-05 无锡天脉聚源传媒科技有限公司 一种信息搜索方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080040114A1 (en) * 2006-08-11 2008-02-14 Microsoft Corporation Reranking QA answers using language modeling
CN107545035A (zh) * 2017-07-25 2018-01-05 无锡天脉聚源传媒科技有限公司 一种信息搜索方法及装置
CN107491518A (zh) * 2017-08-15 2017-12-19 北京百度网讯科技有限公司 一种搜索召回方法和装置、服务器、存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"A novel hybrid system for feature selection based on an improved gravitational search algorithm and k-NN method";Jie Xiang 等;《Appl. Soft Comput.》;全文 *
"一种面向语义的信息检索方法";张明宝 等;《情报学报》;全文 *

Also Published As

Publication number Publication date
CN111506596A (zh) 2020-08-07

Similar Documents

Publication Publication Date Title
US10642887B2 (en) Multi-modal image ranking using neural networks
US20220222920A1 (en) Content processing method and apparatus, computer device, and storage medium
CN111538908B (zh) 搜索排序方法、装置、计算机设备和存储介质
CN108846126B (zh) 关联问题聚合模型的生成、问答式聚合方法、装置及设备
US9965717B2 (en) Learning image representation by distilling from multi-task networks
Kavasidis et al. An innovative web-based collaborative platform for video annotation
CN111506596B (zh) 信息检索方法、装置、计算机设备和存储介质
US20200250538A1 (en) Training image and text embedding models
US20110191336A1 (en) Contextual image search
CN109918487A (zh) 基于网络百科全书的智能问答方法和系统
US11586927B2 (en) Training image and text embedding models
CN101305368A (zh) 语义可视搜索引擎
US9507805B1 (en) Drawing based search queries
WO2023134082A1 (zh) 图像描述语句生成模块的训练方法及装置、电子设备
CN111563158B (zh) 文本排序方法、排序装置、服务器和计算机可读存储介质
US11314800B2 (en) Method, apparatus, electronic device, and storage medium for image-based data processing
Yin et al. Memory augmented deep recurrent neural network for video question answering
CN113011172B (zh) 文本处理方法、装置、计算机设备和存储介质
Liu et al. Learningassistant: A novel learning resource recommendation system
CN112632258A (zh) 文本数据处理方法、装置、计算机设备和存储介质
Wang et al. Adversarial distillation for learning with privileged provisions
CN111444313A (zh) 基于知识图谱的问答方法、装置、计算机设备和存储介质
CN117194616A (zh) 一种垂域知识图谱的知识查询方法、装置、计算机设备和存储介质
CN112784156A (zh) 基于意图识别的搜索反馈方法、系统、设备及存储介质
CN111223014B (zh) 一种从大量细分教学内容在线生成细分场景教学课程的方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40028393

Country of ref document: HK

SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant