CN111949890A - 基于医学领域的数据推荐方法、设备、服务器及存储介质 - Google Patents

基于医学领域的数据推荐方法、设备、服务器及存储介质 Download PDF

Info

Publication number
CN111949890A
CN111949890A CN202011033995.3A CN202011033995A CN111949890A CN 111949890 A CN111949890 A CN 111949890A CN 202011033995 A CN202011033995 A CN 202011033995A CN 111949890 A CN111949890 A CN 111949890A
Authority
CN
China
Prior art keywords
content
user
information
data
sample data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011033995.3A
Other languages
English (en)
Other versions
CN111949890B (zh
Inventor
张倩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN202011033995.3A priority Critical patent/CN111949890B/zh
Priority to PCT/CN2020/124606 priority patent/WO2021159738A1/zh
Publication of CN111949890A publication Critical patent/CN111949890A/zh
Application granted granted Critical
Publication of CN111949890B publication Critical patent/CN111949890B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/38Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/38Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/387Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using geographical or spatial information, e.g. location
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H70/00ICT specially adapted for the handling or processing of medical references
    • G16H70/20ICT specially adapted for the handling or processing of medical references relating to practices or guidelines
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H70/00ICT specially adapted for the handling or processing of medical references
    • G16H70/40ICT specially adapted for the handling or processing of medical references relating to drugs, e.g. their side effects or intended usage

Abstract

本发明实施例涉及数字医疗领域,公开了一种基于医学领域的数据推荐方法、设备、服务器及存储介质,该方法包括:将构建的训练样本集中的第一用户特征和第一内容特征输入双塔模型进行训练得到召回模型;将对指定业务场景有过行为的目标用户的第二用户画像信息和指定业务场景的第二内容信息输入召回模型,得到用户特征向量和内容特征向量;根据用户特征向量与内容特征向量的距离确定N个推荐内容,并将N个推荐内容的索引标识存储于redis缓存中;当获取到用户终端发送的推荐请求时,将与推荐请求中携带的目标索引标识对应的目标推荐内容发送给用户终端,从而提高数据推荐的效率和准确率。本发明涉及区块链技术,上述数据可存储于区块链中。

Description

基于医学领域的数据推荐方法、设备、服务器及存储介质
技术领域
本发明涉及数字医疗领域,尤其涉及一种基于医学领域的数据推荐方法、设备、服务器及存储介质。
背景技术
目前,主流的推荐系统通常包括索引阶段、召回阶段和排序阶段,其中,召回阶段主要是通过在有限的响应时间内直接从索引阶段得到的内容候选集中选择内容,并将选择的内容发送至排序阶段。这种方式受到巨大候选集和实时性的要求,复杂性受限,不适用于复杂的模型和网络。
发明内容
本发明实施例提供了一种基于医学领域的数据推荐方法、设备、服务器及存储介质,有助于提高医疗领域的数据推荐的效率和准确率。
第一方面,本发明实施例提供了一种基于医学领域的数据推荐方法,包括:
构建训练样本集,所述训练样本集包括多个用户的第一用户画像信息和第一内容信息,其中,所述第一用户画像信息包括用户的属性信息、行为数据信息、偏好信息中的一种或多种,所述第一内容信息为医学相关数据,包括一个正样本数据和多个负样本数据,每个负样本数据包括第一负样本数据和第二负样本数据;
根据所述第一用户画像信息确定与所述第一用户画像信息对应的第一用户特征,并根据所述第一内容信息确定与所述第一内容信息对应的第一内容特征;
将所述第一用户特征和所述第一内容特征输入双塔模型进行训练,得到召回模型;
将对指定业务场景有过行为的目标用户的第二用户画像信息和所述指定业务场景的内容候选池中的第二内容信息输入所述召回模型,得到所述目标用户的用户特征向量和内容特征向量;
计算所述用户特征向量与所述内容特征向量的距离,并根据所述距离确定N个推荐内容,以及将所述N个推荐内容的索引标识存储于redis缓存中,其中,所述N个推荐内容为多个推荐内容中按照所述距离从小到大的排序中的前N个推荐内容,N为大于或等于1的正整数;
当获取到用户终端发送的推荐请求时,根据所述推荐请求中携带的目标索引标识,从所述redis缓存中获取与所述目标索引标识对应的目标推荐内容,并将所述目标推荐内容发送给所述用户终端。
进一步地,所述构建训练样本集,包括:
获取所述指定业务场景的日志数据,并从所述日志数据中获取被曝光点击的行为数据;
根据所述被曝光点击的行为数据,确定与所述被曝光点击的行为数据对应的医学相关数据为所述正样本数据;
从样本候选集中随机抽样得到所述第一负样本数据,并根据所述正样本数据的主题信息从除所述正样本数据以外的其他样本数据中确定与所述主题信息相同的所述第二负样本数据。
进一步地,所述根据所述第一内容信息确定与所述第一内容信息对应的第一内容特征,包括:
获取所述正样本数据和所述负样本数据所挂载的相关属性,其中,所述相关属性包括相关科室、相关药物、相关主题、相关疾病中的一种或多种;
根据所述正样本数据和所述负样本数据所挂载的相关属性确定所述第一内容信息对应的第一内容特征。
进一步地,所述将所述第一用户特征和所述第一内容特征输入双塔模型进行训练,得到召回模型,包括:
将所述第一用户特征和所述第一内容特征输入双塔模型中,得到损失函数值;
将所述损失函数值与目标损失函数值进行对比,并根据对比结果调整所述双塔模型的模型参数;
将所述第一用户特征和所述第一内容特征输入调整所述模型参数后的双塔模型中,当得到的损失函数值与目标损失函数值的对比结果满足预设条件时,确定得到所述召回模型。
进一步地,所述将对指定业务场景有过行为的目标用户的第二用户画像信息和所述指定业务场景的内容候选池中的第二内容信息输入所述召回模型,得到所述目标用户的用户特征向量和内容特征向量,包括:
获取在指定时刻之前的历史时间范围内对所述指定业务场景有过行为的目标用户的第二用户画像信息,并确定与所述第二用户画像信息对应的第二用户特征;
获取在所述指定业务场景的内容候选池中的第二内容信息,并确定与所述第二内容信息对应的第二内容特征;
将所述第二用户特征和所述第二内容特征输入所述召回模型中,得到所述目标用户的用户特征向量和内容特征向量。
进一步地,所述计算所述用户特征向量与所述内容特征向量的距离,包括:
利用余弦相似度算法计算所述用户特征向量与所述内容特征向量之间的相似度;
根据所述相似度确定所述用户特征向量与所述内容特征向量的距离。
进一步地,所述将所述N个推荐内容的索引标识存储于redis缓存中,包括:
获取所述N个推荐内容的用户标识和/或内容标识;
根据所述N个推荐内容的用户标识和/或内容标识,确定所述N个推荐内容的索引标识,并将所述N个推荐内容的索引标识存储于所述redis缓存中。
第二方面,本发明实施例提供了一种基于医学领域的数据推荐设备,包括:
构建单元,用于构建训练样本集,所述训练样本集包括多个用户的第一用户画像信息和第一内容信息,其中,所述第一用户画像信息包括用户的属性信息、行为数据信息、偏好信息中的一种或多种,所述第一内容信息为医学相关数据,包括一个正样本数据和多个负样本数据,每个负样本数据包括第一负样本数据和第二负样本数据;
确定单元,用于根据所述第一用户画像信息确定与所述第一用户画像信息对应的第一用户特征,并根据所述第一内容信息确定与所述第一内容信息对应的第一内容特征;
训练单元,用于将所述第一用户特征和所述第一内容特征输入双塔模型进行训练,得到召回模型;
处理单元,用于将对指定业务场景有过行为的目标用户的第二用户画像信息和所述指定业务场景的内容候选池中的第二内容信息输入所述召回模型,得到所述目标用户的用户特征向量和内容特征向量;
计算单元,用于计算所述用户特征向量与所述内容特征向量的距离,并根据所述距离确定N个推荐内容,以及将所述N个推荐内容的索引标识存储于redis缓存中,其中,所述N个推荐内容为多个推荐内容中按照所述距离从小到大的排序中的前N个推荐内容,N为大于或等于1的正整数;
推荐单元,用于当获取到用户终端发送的推荐请求时,根据所述推荐请求中携带的目标索引标识,从所述redis缓存中获取与所述目标索引标识对应的目标推荐内容,并将所述目标推荐内容发送给所述用户终端。
第三方面,本发明实施例提供了一种服务器,包括处理器、输入设备、输出设备和存储器,所述处理器、输入设备、输出设备和存储器相互连接,其中,所述存储器用于存储支持基于医学领域的数据推荐设备执行上述方法的计算机程序,所述计算机程序包括程序,所述处理器被配置用于调用所述程序,执行上述第一方面的方法。
第四方面,本发明实施例提供了一种计算机可读存储介质,所述计算机存储介质存储有计算机程序,所述计算机程序被处理器执行以实现上述第一方面的方法。
本发明实施例可以构建训练样本集,所述训练样本集包括多个用户的第一用户画像信息和第一内容信息,所述第一内容信息包括一个正样本数据和多个负样本数据,每个负样本数据包括第一负样本数据和第二负样本数据;将与所述第一用户画像信息对应的第一用户特征以及与所述第一内容信息对应的第一内容特征输入双塔模型进行训练,得到召回模型;将对指定业务场景有过行为的目标用户的第二用户画像信息和所述指定业务场景的内容候选池中的第二内容信息输入所述召回模型,得到所述目标用户的用户特征向量和内容特征向量;计算所述用户特征向量与所述内容特征向量的距离,并根据所述距离确定N个推荐内容,以及将所述N个推荐内容的索引标识存储于redis缓存中;当获取到用户终端发送的推荐请求时,根据所述推荐请求中携带的目标索引标识,从所述redis缓存中获取与所述目标索引标识对应的目标推荐内容,并将所述目标推荐内容发送给所述用户终端。通过这种方式可以提高医疗领域的数据推荐的效率和准确率。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种基于医学领域的数据推荐系统的结构示意图;
图2是本发明实施例提供的一种基于医学领域的数据推荐系统的流程示意图;
图3是本发明实施例提供的一种基于医学领域的数据推荐方法的示意流程图;
图4是本发明实施例提供的一种基于医学领域的数据推荐设备的示意框图;
图5是本发明实施例提供的一种服务器的示意框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供的基于医学领域的数据推荐方法可以应用于一种基于医学领域的数据推荐系统,在某些实施例中,所述基于医学领域的数据推荐系统包括服务器和用户终端。在某些实施例中,所述服务器中包括基于医学领域的数据推荐设备。在某些实施例中,所述用户终端可以与服务器建立通信连接。在某些实施例中,所述通信连接的方式可以包括但不限于Wi-Fi、蓝牙、近场通信(Near Field Communication,NFC)等。在某些实施例中,所述用户终端包括但不限于智能手机、平板电脑、笔记本电脑、台式电脑等智能终端设备。
下面结合附图1和图2对本发明实施例提供的基于医学领域的数据推荐系统进行示意性说明。
请参见图1,图1是本发明实施例提供的一种基于医学领域的数据推荐系统的结构示意图。所述基于医学领域的数据推荐系统包括:服务器11和用户终端12。在某些实施例中,所述用户终端12可以与服务器11建立通信连接。在某些实施例中,所述用户终端12可以包括但不限于智能手机、平板电脑、笔记本电脑、台式电脑等智能终端设备。
本发明实施例中,服务器11可以构建训练样本集,所述训练样本集包括多个用户的第一用户画像信息和第一内容信息,所述第一内容信息包括一个正样本数据和多个负样本数据,每个负样本数据包括第一负样本数据和第二负样本数据;将与所述第一用户画像信息对应的第一用户特征以及与所述第一内容信息对应的第一内容特征输入双塔模型进行训练,得到召回模型;将对指定业务场景有过行为的目标用户的第二用户画像信息和所述指定业务场景的内容候选池中的第二内容信息输入所述召回模型,得到所述目标用户的用户特征向量和内容特征向量;计算所述用户特征向量与所述内容特征向量的距离,并根据所述距离确定N个推荐内容,以及将所述N个推荐内容的索引标识存储于redis缓存中;当服务器11获取到用户终端12发送的推荐请求时,可以根据所述推荐请求中携带的目标索引标识,从所述redis缓存中获取与所述目标索引标识对应的目标推荐内容,并将所述目标推荐内容发送给所述用户终端12。通过这种方式可以提高医疗领域的数据推荐的效率和准确率。
请参见图2,图2是本发明实施例提供的一种基于医学领域的数据推荐系统的流程示意图,如图2所示,所述基于医学领域的数据推荐系统主要分为线下处理21和线上处理22两部分,其中,线下处理21用于构建训练样本集以及模型训练,线上处理22用于在获取到用户终端发送的推荐请求时,向用户终端发送目标推荐内容。
在线下处理21的具体实施过程中,可以从日志数据211中获取正样本数据和负样本数据,其中,在从日志数据211中获取正样本数据时,可以确定日志数据211中被曝光点击的数据为正样本数据;在从日志数据211中获取负样本数据时,可以按从日志数据211中的曝光数随机抽取得到第一负样本数据,以及,可以从日志数据中获取与正样本数据的主题信息相同的其他数据为第二负样本数据,从而确定第一负样本数据和第二负样本数据为负样本数据。在构建好正样本数据和负样本数据之后可以将正样本数据和负样本数据输入双塔模型通过损失函数进行训练,得到召回模型。
在线上处理22的具体实施过程中,可以将目标用户221的第二用户画像信息和指定业务场景的内容候选池中的第二内容信息输入召回模型,得到目标用户221的用户特征向量和内容特征向量,并计算所述用户特征向量与所述内容特征向量的距离,根据所述距离确定N个推荐内容。从而可以将所述N个推荐内容的索引标识存储于redis缓存中。
本发明实施例,结合业务场景和内容数据特征构建了一个高效、高性能的数据推荐系统,通过将第一用户画像信息和包括一个正样本数据和多个负样本数据的第一内容信息作为训练样本集训练得到召回模型;并利用该召回模型为目标用户确定目标推荐内容,以及将目标推荐内容的索引标识存储于redis缓存中,以便可以在获取到目标用户的推荐请求时,可以直接从redis缓存中获取目标推荐数据,以提高推荐效率和准确度。
下面结合附图3对本发明实施例提供的基于医学领域的数据推荐方法进行示意性说明。
请参见图3,图3是本发明实施例提供的一种基于医学领域的数据推荐方法的示意流程图,如图3所示,该方法可以由基于医学领域的数据推荐设备执行,所述基于医学领域的数据推荐设备设置于服务器中,所述服务器的具体解释如前所述,此处不再赘述。具体地,本发明实施例的所述方法包括如下步骤。
S301:构建训练样本集,所述训练样本集包括多个用户的第一用户画像信息和第一内容信息。
本发明实施例中,基于医学领域的数据推荐设备可以构建训练样本集,所述训练样本集包括多个用户的第一用户画像信息和第一内容信息,其中,所述第一用户画像信息包括用户的属性信息、行为数据信息、偏好信息中的一种或多种,所述第一内容信息为医学相关数据,包括一个正样本数据和多个负样本数据,每个负样本数据包括第一负样本数据和第二负样本数据。
在一个实施例中,基于医学领域的数据推荐设备在构建训练样本集时,可以获取所述指定业务场景的日志数据,并从所述日志数据中获取被曝光点击的行为数据;以及根据所述被曝光点击的行为数据,确定与所述被曝光点击的行为数据对应的医学相关数据为所述正样本数据;以及从样本候选集中随机抽样得到所述第一负样本数据,并根据所述正样本数据的主题信息从除所述正样本数据以外的其他样本数据中确定与所述主题信息相同的所述第二负样本数据。在某些实施例中,所述主题信息包括但不限于疾病预测、疾病检测、疾病诊断等主题。
例如,假设所述指定业务场景为医学论文平台,则基于医学领域的数据推荐设备可以获取所述医学论文平台的日志数据,并从所述日志数据中获取被曝光点击的行为数据;以及根据所述被曝光点击的行为数据,确定与所述被曝光点击的行为数据对应的医学论文数据为所述正样本数据。如果所述正样本数据的主题是疾病预测,则基于医学领域的数据推荐设备可以根据所述正样本数据的主题信息疾病预测从除所述正样本数据以外的其他样本数据中确定与疾病预测这个主题信息相同的第二负样本数据。
通过这种方式,可以增加模型训练的难度,有助于帮助模型学习到细粒度的知识和差异。
在一个实施例中,考虑到数据推荐系统中少数的主题信息占据了绝大多数的曝光和点击,在从样本候选集中随机抽样得到所述第一负样本数据时,可以获取各个热门主题信息的曝光数,并对各个热门主题信息按照曝光数进行过采样,得到所述第一负样本数据。通过这种方式有助于抵消热门主题信息对正样本数据的影响。
在一个实施例中,正样本数据和负样本数据的比例可以为1:20,其中,20个负样本数据中粗粒度的第一负样本数据和细粒度的第二负样本数据的比例可以为19:1。
在某些实施例中,所述医学相关数据可以为与医学相关的一些疾病、药物、病例等相关的文章、论文等。在某些实施例中,所述指定业务场景可以包括但不限于与医学数据相关的平台。
S302:根据所述第一用户画像信息确定与所述第一用户画像信息对应的第一用户特征,并根据所述第一内容信息确定与所述第一内容信息对应的第一内容特征。
本发明实施例中,基于医学领域的数据推荐设备可以根据所述第一用户画像信息确定与所述第一用户画像信息对应的第一用户特征,并根据所述第一内容信息确定与所述第一内容信息对应的第一内容特征。
在一个实施例中,基于医学领域的数据推荐设备在根据所述第一内容信息确定与所述第一内容信息对应的第一内容特征时,可以获取所述正样本数据和所述负样本数据所挂载的相关属性,其中,所述相关属性包括相关科室、相关药物、相关主题、相关疾病中的一种或多种;并根据所述正样本数据和所述负样本数据所挂载的相关属性确定所述第一内容信息对应的第一内容特征。
在一个实施例中,所述第一用户画像信息包括用户的属性信息、用户的行为数据信息、用户的偏好信息中的一种或多种,其中,所述用户的属性信息包括但不限于如用户ID、年龄、性别、地理位置(省份和城市)、具体职业(比如医生/护士/乡村医生/医学生等等);所述用户的行为数据信息包括但不限于有过行为(点击/点赞/转发/收藏等)的论文序列,有过行为的疾病序列,有过行为的科室序列,有过行为的药物序列等;所述用户的偏好信息包括但不限于用户偏好的疾病,偏好的药物,偏好的科室等。
在一个实施例中,所述第一用户特征是根据用户的属性信息、行为数据信息、偏好信息中的一种或多种确定的。
S303:将所述第一用户特征和所述第一内容特征输入双塔模型进行训练,得到召回模型。
本发明实施例中,基于医学领域的数据推荐设备可以将所述第一用户特征和所述第一内容特征输入双塔模型进行训练,得到召回模型。具体地,基于医学领域的数据推荐设备在生成所述第一用户特征和所述第一内容特征之后,可以将所述第一用户特征和所述第一内容特征输入双塔模型进行训练。
在一个实施例中,基于医学领域的数据推荐设备在将所述第一用户特征和所述第一内容特征输入双塔模型进行训练,得到召回模型时,可以将所述第一用户特征和所述第一内容特征输入双塔模型中,得到损失函数值;将所述损失函数值与目标损失函数值进行对比,并根据对比结果调整所述双塔模型的模型参数;以及将所述第一用户特征和所述第一内容特征输入调整所述模型参数后的双塔模型中;当得到的损失函数值与目标损失函数值的对比结果满足预设条件时,确定得到所述召回模型。
在一个实施例中,所述损失函数值可以是根据贝叶斯个性化排序损失函数(Bayesian Personalized Ranking Loss Operator,BPR )确定的,所述BPR的公式如下公式(1)所示:
Figure 676643DEST_PATH_IMAGE001
(1)
其中,所述u为用户画像信息,d+为正样本数据,d-为负样本数据,<u, d+>表示用户画像信息和正样本数据,<u, d->表示用户画像信息和负样本数据,<u, d+>-<u, d->表示用户画像信息和正样本数据与用户画像信息和负样本数据之间的距离信息。
在一个实施例中,可以根据正样本数据被正确预测的最高分的概率来评价所述召回模型。
通过这种利用用户特征和内容特征训练模型的方式,有助于探索用户和内容两种不同的实体在同一个隐含空间内的相似性,从而进行推荐。
S304:将对指定业务场景有过行为的目标用户的第二用户画像信息和所述指定业务场景的内容候选池中的第二内容信息输入所述召回模型,得到所述目标用户的用户特征向量和内容特征向量。
本发明实施例中,基于医学领域的数据推荐设备可以将对指定业务场景有过行为的目标用户的第二用户画像信息和所述指定业务场景的内容候选池中的第二内容信息输入所述召回模型,得到所述目标用户的用户特征向量和内容特征向量。
在一个实施例中,基于医学领域的数据推荐设备在将对指定业务场景有过行为的目标用户的第二用户画像信息和所述指定业务场景的内容候选池中的第二内容信息输入所述召回模型,得到所述目标用户的用户特征向量和内容特征向量时,可以获取在指定时刻之前的历史时间范围内对所述指定业务场景有过行为的目标用户的第二用户画像信息,并确定与所述第二用户画像信息对应的第二用户特征;获取在所述指定业务场景的内容候选池中的第二内容信息,并确定与所述第二内容信息对应的第二内容特征;将所述第二用户特征和所述第二内容特征输入所述召回模型中,得到所述目标用户的用户特征向量和内容特征向量。
在一个实施例中,所述指定业务场景的内容候选池中的第二内容信息包括所述指定业务场景中所有用户的内容信息。
在一个实施例中,基于医学领域的数据推荐设备在将对指定业务场景有过行为的目标用户的第二用户画像信息和所述指定业务场景的内容候选池中的第二内容信息输入所述召回模型,得到所述目标用户的用户特征向量和内容特征向量时,可以获取在指定时刻之前的历史时间范围内对所述指定业务场景有过行为的每个用户的第二用户画像信息,并确定与所述每个用户的第二用户画像信息对应的第二用户特征;获取在所述指定业务场景的内容候选池中的第二内容信息,并确定与所述第二内容信息对应的第二内容特征;将所述每个用户的第二用户特征和所述第二内容特征输入所述召回模型中,得到所述每个用户的用户特征向量和内容特征向量。
例如,基于医学领域的数据推荐设备可以获取在t时刻之前的24小时内对医学论文平台有过行为的目标用户张三的第二用户画像信息,并确定与所述第二用户画像信息对应的第二用户特征;以及获取在所述医学论文平台中所有对所述医学论文平台有过行为数据的用户对应的内容候选池中的第二内容信息,并确定与所述第二内容信息对应的第二内容特征;从而将所述第二用户特征和所述第二内容特征输入所述召回模型中,得到张三的用户特征向量和内容特征向量。
S305:计算所述用户特征向量与所述内容特征向量的距离,并根据所述距离确定N个推荐内容,以及将所述N个推荐内容的索引标识存储于redis缓存中,其中,所述N个推荐内容为多个推荐内容中按照所述距离从小到大的排序中的前N个推荐内容,N为大于或等于1的正整数。
本发明实施例中,基于医学领域的数据推荐设备可以计算所述用户特征向量与所述内容特征向量的距离,并根据所述距离确定N个推荐内容,以及将所述N个推荐内容的索引标识存储于redis缓存中,其中,所述N个推荐内容为多个推荐内容中按照所述距离从小到大的排序中的前N个推荐内容,N为大于或等于1的正整数。
在一个实施例中,基于医学领域的数据推荐设备在计算所述用户特征向量与所述内容特征向量的距离时,可以利用余弦相似度算法计算所述用户特征向量与所述内容特征向量之间的相似度,并根据所述相似度确定所述用户特征向量与所述内容特征向量的距离。
在一个实施例中,基于医学领域的数据推荐设备在将所述N个推荐内容的索引标识存储于redis缓存中时,可以获取所述N个推荐内容的用户标识和/或内容标识,并根据所述N个推荐内容的用户标识和/或内容标识,确定所述N个推荐内容的索引标识,并将所述N个推荐内容的索引标识存储于所述redis缓存中。
通过将所述推荐内容存储于redis这种速度快、支持数据持久化以及支持丰富数据类型的key-value类型数据的内存库中,有助于提高推荐的效率。
S306:当获取到用户终端发送的推荐请求时,根据所述推荐请求中携带的目标索引标识,从所述redis缓存中获取与所述目标索引标识对应的目标推荐内容,并将所述目标推荐内容发送给所述用户终端。
本发明实施例中,基于医学领域的数据推荐设备当获取到用户终端发送的推荐请求时,可以根据所述推荐请求中携带的目标索引标识,从所述redis缓存中获取与所述目标索引标识对应的目标推荐内容,并将所述目标推荐内容发送给所述用户终端。在某些实施例中,所述目标索引标识可以为用户标识或内容标识。
在一个实施例中,所述推荐请求中可以携带用户标识和/或内容标识,基于医学领域的数据推荐设备当获取到用户终端发送的推荐请求时,可以根据所述推荐请求中携带的用户标识和/或内容标识确定对应的目标索引标识,并从所述redis缓存中获取与所述目标索引标识对应的目标推荐内容,并将所述目标推荐内容发送给所述用户终端。在某些实施例中,所述目标索引标识可以为用户标识或内容标识。
本发明实施例中,基于医学领域的数据推荐设备可以构建训练样本集,所述训练样本集包括多个用户的第一用户画像信息和第一内容信息,所述第一内容信息包括一个正样本数据和多个负样本数据,每个负样本数据包括第一负样本数据和第二负样本数据;将与所述第一用户画像信息对应的第一用户特征以及与所述第一内容信息对应的第一内容特征输入双塔模型进行训练,得到召回模型;将对指定业务场景有过行为的目标用户的第二用户画像信息和所述指定业务场景的内容候选池中的第二内容信息输入所述召回模型,得到所述目标用户的用户特征向量和内容特征向量;计算所述用户特征向量与所述内容特征向量的距离,并根据所述距离确定N个推荐内容,以及将所述N个推荐内容的索引标识存储于redis缓存中;当获取到用户终端发送的推荐请求时,根据所述推荐请求中携带的目标索引标识,从所述redis缓存中获取与所述目标索引标识对应的目标推荐内容,并将所述目标推荐内容发送给所述用户终端。通过这种方式可以提高医疗领域的数据推荐的效率和准确率。
本发明实施例还提供了一种基于医学领域的数据推荐设备,该基于医学领域的数据推荐设备用于执行前述任一项所述的方法的单元。具体地,参见图4,图4是本发明实施例提供的一种基于医学领域的数据推荐设备的示意框图。本实施例的基于医学领域的数据推荐设备包括:构建单元401、确定单元402、训练单元403、处理单元404、计算单元405以及推荐单元406。
构建单元401,用于构建训练样本集,所述训练样本集包括多个用户的第一用户画像信息和第一内容信息,其中,所述第一用户画像信息包括用户的属性信息、行为数据信息、偏好信息中的一种或多种,所述第一内容信息为医学相关数据,包括一个正样本数据和多个负样本数据,每个负样本数据包括第一负样本数据和第二负样本数据;
确定单元402,用于根据所述第一用户画像信息确定与所述第一用户画像信息对应的第一用户特征,并根据所述第一内容信息确定与所述第一内容信息对应的第一内容特征;
训练单元403,用于将所述第一用户特征和所述第一内容特征输入双塔模型进行训练,得到召回模型;
处理单元404,用于将对指定业务场景有过行为的目标用户的第二用户画像信息和所述指定业务场景的内容候选池中的第二内容信息输入所述召回模型,得到所述目标用户的用户特征向量和内容特征向量;
计算单元405,用于计算所述用户特征向量与所述内容特征向量的距离,并根据所述距离确定N个推荐内容,以及将所述N个推荐内容的索引标识存储于redis缓存中,其中,所述N个推荐内容为多个推荐内容中按照所述距离从小到大的排序中的前N个推荐内容,N为大于或等于1的正整数;
推荐单元406,用于当获取到用户终端发送的推荐请求时,根据所述推荐请求中携带的目标索引标识,从所述redis缓存中获取与所述目标索引标识对应的目标推荐内容,并将所述目标推荐内容发送给所述用户终端。
进一步地,所述构建401构建训练样本集时,具体用于:
获取所述指定业务场景的日志数据,并从所述日志数据中获取被曝光点击的行为数据;
根据所述被曝光点击的行为数据,确定与所述被曝光点击的行为数据对应的医学相关数据为所述正样本数据;
从样本候选集中随机抽样得到所述第一负样本数据,并根据所述正样本数据的主题信息从除所述正样本数据以外的其他样本数据中确定与所述主题信息相同的所述第二负样本数据。
进一步地,所述确定单元402根据所述第一内容信息确定与所述第一内容信息对应的第一内容特征时,具体用于:
获取所述正样本数据和所述负样本数据所挂载的相关属性,其中,所述相关属性包括相关科室、相关药物、相关主题、相关疾病中的一种或多种;
根据所述正样本数据和所述负样本数据所挂载的相关属性确定所述第一内容信息对应的第一内容特征。
进一步地,所述训练单元403将所述第一用户特征和所述第一内容特征输入双塔模型进行训练,得到召回模型时,具体用于:
将所述第一用户特征和所述第一内容特征输入双塔模型中,得到损失函数值;
将所述损失函数值与目标损失函数值进行对比,并根据对比结果调整所述双塔模型的模型参数;
将所述第一用户特征和所述第一内容特征输入调整所述模型参数后的双塔模型中,当得到的损失函数值与目标损失函数值的对比结果满足预设条件时,确定得到所述召回模型。
进一步地,所述处理单元404将对指定业务场景有过行为的目标用户的第二用户画像信息和所述指定业务场景的内容候选池中的第二内容信息输入所述召回模型,得到所述目标用户的用户特征向量和内容特征向量时,具体用于:
获取在指定时刻之前的历史时间范围内对所述指定业务场景有过行为的目标用户的第二用户画像信息,并确定与所述第二用户画像信息对应的第二用户特征;
获取在所述指定业务场景的内容候选池中的第二内容信息,并确定与所述第二内容信息对应的第二内容特征;
将所述第二用户特征和所述第二内容特征输入所述召回模型中,得到所述目标用户的用户特征向量和内容特征向量。
进一步地,所述计算单元405计算所述用户特征向量与所述内容特征向量的距离时,具体用于:
利用余弦相似度算法计算所述用户特征向量与所述内容特征向量之间的相似度;
根据所述相似度确定所述用户特征向量与所述内容特征向量的距离。
进一步地,所述计算单元405将所述N个推荐内容的索引标识存储于redis缓存中时,具体用于:
获取所述N个推荐内容的用户标识和/或内容标识;
根据所述N个推荐内容的用户标识和/或内容标识,确定所述N个推荐内容的索引标识,并将所述N个推荐内容的索引标识存储于所述redis缓存中。
本发明实施例中,基于医学领域的数据推荐设备可以构建训练样本集,所述训练样本集包括多个用户的第一用户画像信息和第一内容信息,所述第一内容信息包括一个正样本数据和多个负样本数据,每个负样本数据包括第一负样本数据和第二负样本数据;将与所述第一用户画像信息对应的第一用户特征以及与所述第一内容信息对应的第一内容特征输入双塔模型进行训练,得到召回模型;将对指定业务场景有过行为的目标用户的第二用户画像信息和所述指定业务场景的内容候选池中的第二内容信息输入所述召回模型,得到所述目标用户的用户特征向量和内容特征向量;计算所述用户特征向量与所述内容特征向量的距离,并根据所述距离确定N个推荐内容,以及将所述N个推荐内容的索引标识存储于redis缓存中;当获取到用户终端发送的推荐请求时,根据所述推荐请求中携带的目标索引标识,从所述redis缓存中获取与所述目标索引标识对应的目标推荐内容,并将所述目标推荐内容发送给所述用户终端。通过这种方式可以提高医疗领域的数据推荐的效率和准确率。
参见图5,图5是本发明实施例提供的一种服务器的示意框图。如图所示的本实施例中的服务器可以包括:一个或多个处理器501;一个或多个输入设备502,一个或多个输出设备503和存储器504。上述处理器501、输入设备502、输出设备503和存储器504通过总线505连接。存储器504用于存储计算机程序,所述计算机程序包括程序,处理器501 用于执行存储器504存储的程序。其中,处理器501被配置用于调用所述程序执行:
构建训练样本集,所述训练样本集包括多个用户的第一用户画像信息和第一内容信息,其中,所述第一用户画像信息包括用户的属性信息、行为数据信息、偏好信息中的一种或多种,所述第一内容信息为医学相关数据,包括一个正样本数据和多个负样本数据,每个负样本数据包括第一负样本数据和第二负样本数据;
根据所述第一用户画像信息确定与所述第一用户画像信息对应的第一用户特征,并根据所述第一内容信息确定与所述第一内容信息对应的第一内容特征;
将所述第一用户特征和所述第一内容特征输入双塔模型进行训练,得到召回模型;
将对指定业务场景有过行为的目标用户的第二用户画像信息和所述指定业务场景的内容候选池中的第二内容信息输入所述召回模型,得到所述目标用户的用户特征向量和内容特征向量;
计算所述用户特征向量与所述内容特征向量的距离,并根据所述距离确定N个推荐内容,以及将所述N个推荐内容的索引标识存储于redis缓存中,其中,所述N个推荐内容为多个推荐内容中按照所述距离从小到大的排序中的前N个推荐内容,N为大于或等于1的正整数;
当获取到用户终端发送的推荐请求时,根据所述推荐请求中携带的目标索引标识,从所述redis缓存中获取与所述目标索引标识对应的目标推荐内容,并将所述目标推荐内容发送给所述用户终端。
进一步地,所述处理器501构建训练样本集时,具体用于:
获取所述指定业务场景的日志数据,并从所述日志数据中获取被曝光点击的行为数据;
根据所述被曝光点击的行为数据,确定与所述被曝光点击的行为数据对应的医学相关数据为所述正样本数据;
从样本候选集中随机抽样得到所述第一负样本数据,并根据所述正样本数据的主题信息从除所述正样本数据以外的其他样本数据中确定与所述主题信息相同的所述第二负样本数据。
进一步地,所述处理器501根据所述第一内容信息确定与所述第一内容信息对应的第一内容特征时,具体用于:
获取所述正样本数据和所述负样本数据所挂载的相关属性,其中,所述相关属性包括相关科室、相关药物、相关主题、相关疾病中的一种或多种;
根据所述正样本数据和所述负样本数据所挂载的相关属性确定所述第一内容信息对应的第一内容特征。
进一步地,所述处理器501将所述第一用户特征和所述第一内容特征输入双塔模型进行训练,得到召回模型时,具体用于:
将所述第一用户特征和所述第一内容特征输入双塔模型中,得到损失函数值;
将所述损失函数值与目标损失函数值进行对比,并根据对比结果调整所述双塔模型的模型参数;
将所述第一用户特征和所述第一内容特征输入调整所述模型参数后的双塔模型中,当得到的损失函数值与目标损失函数值的对比结果满足预设条件时,确定得到所述召回模型。
进一步地,所述处理器501将对指定业务场景有过行为的目标用户的第二用户画像信息和所述指定业务场景的内容候选池中的第二内容信息输入所述召回模型,得到所述目标用户的用户特征向量和内容特征向量时,具体用于:
获取在指定时刻之前的历史时间范围内对所述指定业务场景有过行为的目标用户的第二用户画像信息,并确定与所述第二用户画像信息对应的第二用户特征;
获取在所述指定业务场景的内容候选池中的第二内容信息,并确定与所述第二内容信息对应的第二内容特征;
将所述第二用户特征和所述第二内容特征输入所述召回模型中,得到所述目标用户的用户特征向量和内容特征向量。
进一步地,所述处理器501计算所述用户特征向量与所述内容特征向量的距离时,具体用于:
利用余弦相似度算法计算所述用户特征向量与所述内容特征向量之间的相似度;
根据所述相似度确定所述用户特征向量与所述内容特征向量的距离。
进一步地,所述处理器501将所述N个推荐内容的索引标识存储于redis缓存中时,具体用于:
获取所述N个推荐内容的用户标识和/或内容标识;
根据所述N个推荐内容的用户标识和/或内容标识,确定所述N个推荐内容的索引标识,并将所述N个推荐内容的索引标识存储于所述redis缓存中。
本发明实施例中,服务器可以构建训练样本集,所述训练样本集包括多个用户的第一用户画像信息和第一内容信息,所述第一内容信息包括一个正样本数据和多个负样本数据,每个负样本数据包括第一负样本数据和第二负样本数据;将与所述第一用户画像信息对应的第一用户特征以及与所述第一内容信息对应的第一内容特征输入双塔模型进行训练,得到召回模型;将对指定业务场景有过行为的目标用户的第二用户画像信息和所述指定业务场景的内容候选池中的第二内容信息输入所述召回模型,得到所述目标用户的用户特征向量和内容特征向量;计算所述用户特征向量与所述内容特征向量的距离,并根据所述距离确定N个推荐内容,以及将所述N个推荐内容的索引标识存储于redis缓存中;当获取到用户终端发送的推荐请求时,根据所述推荐请求中携带的目标索引标识,从所述redis缓存中获取与所述目标索引标识对应的目标推荐内容,并将所述目标推荐内容发送给所述用户终端。通过这种方式可以提高医疗领域的数据推荐的效率和准确率。
应当理解,在本发明实施例中,所称处理器501可以是中央处理单元 (CenSralProcessing UniS,CPU),该处理器还可以是其他通用处理器、数字信号处理器 (DigiSalSignal Processor,DSP)、专用集成电路 (ApplicaSion Specific InSegraSed CircuiS,ASIC)、现成可编程门阵列 (Field-Programmable GaSe Array,FPGA) 或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
输入设备502可以包括触控板、麦克风等,输出设备503可以包括显示器(LCD等)、扬声器等。
该存储器504可以包括只读存储器和随机存取存储器,并向处理器501 提供指令和数据。存储器504的一部分还可以包括非易失性随机存取存储器。例如,存储器504还可以存储设备类型的信息。
具体实现中,本发明实施例中所描述的处理器501、输入设备502、输出设备503可执行本发明实施例提供的图3所述的方法实施例中所描述的实现方式,也可执行本发明实施例图4所描述的基于医学领域的数据推荐设备的实现方式,在此不再赘述。
本发明实施例中还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现图3所对应实施例中描述的基于医学领域的数据推荐方法,也可实现本发明图4所对应实施例的基于医学领域的数据推荐设备,在此不再赘述。
所述计算机可读存储介质可以是前述任一实施例所述的基于医学领域的数据推荐设备的内部存储单元,例如基于医学领域的数据推荐设备的硬盘或内存。所述计算机可读存储介质也可以是所述基于医学领域的数据推荐设备的外部存储设备,例如所述基于医学领域的数据推荐设备上配备的插接式硬盘,智能存储卡(SmarS Media Card, SMC),安全数字(Secure DigiSal, SD)卡,闪存卡(Flash Card)等。进一步地,所述计算机可读存储介质还可以既包括所述基于医学领域的数据推荐设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述基于医学领域的数据推荐设备所需的其他程序和数据。所述计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个计算机可读存储介质中,包括若干指令用以使得一台计算机设备 ( 可以是个人计算机,服务器,或者网络设备等 ) 执行本发明各个实施例所述方法的全部或部分步骤。而前述的计算机可读存储介质包括:U 盘、移动硬盘、只读存储器 (ROM,Read-Only Memory)、随机存取存储器 (RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。所述的计算机可读存储介质可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据区块链节点的使用所创建的数据等。
需要强调的是,为进一步保证上述数据的私密和安全性,上述诊断结果还可以存储于一区块链的节点中。其中,本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
以上所述,仅为本发明的部分实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。

Claims (10)

1.一种基于医学领域的数据推荐方法,其特征在于,包括:
构建训练样本集,所述训练样本集包括多个用户的第一用户画像信息和第一内容信息,其中,所述第一用户画像信息包括用户的属性信息、行为数据信息、偏好信息中的一种或多种,所述第一内容信息为医学相关数据,包括一个正样本数据和多个负样本数据,每个负样本数据包括第一负样本数据和第二负样本数据;
根据所述第一用户画像信息确定与所述第一用户画像信息对应的第一用户特征,并根据所述第一内容信息确定与所述第一内容信息对应的第一内容特征;
将所述第一用户特征和所述第一内容特征输入双塔模型进行训练,得到召回模型;
将对指定业务场景有过行为的目标用户的第二用户画像信息和所述指定业务场景的内容候选池中的第二内容信息输入所述召回模型,得到所述目标用户的用户特征向量和内容特征向量;
计算所述用户特征向量与所述内容特征向量的距离,并根据所述距离确定N个推荐内容,以及将所述N个推荐内容的索引标识存储于redis缓存中,其中,所述N个推荐内容为多个推荐内容中按照所述距离从小到大的排序中的前N个推荐内容,N为大于或等于1的正整数;
当获取到用户终端发送的推荐请求时,根据所述推荐请求中携带的目标索引标识,从所述redis缓存中获取与所述目标索引标识对应的目标推荐内容,并将所述目标推荐内容发送给所述用户终端。
2.根据权利要求1所述的方法,其特征在于,所述构建训练样本集,包括:
获取所述指定业务场景的日志数据,并从所述日志数据中获取被曝光点击的行为数据;
根据所述被曝光点击的行为数据,确定与所述被曝光点击的行为数据对应的医学相关数据为所述正样本数据;
从样本候选集中随机抽样得到所述第一负样本数据,并根据所述正样本数据的主题信息从除所述正样本数据以外的其他样本数据中确定与所述主题信息相同的所述第二负样本数据。
3.根据权利要求1所述的方法,其特征在于,所述根据所述第一内容信息确定与所述第一内容信息对应的第一内容特征,包括:
获取所述正样本数据和所述负样本数据所挂载的相关属性,其中,所述相关属性包括相关科室、相关药物、相关主题、相关疾病中的一种或多种;
根据所述正样本数据和所述负样本数据所挂载的相关属性确定所述第一内容信息对应的第一内容特征。
4.根据权利要求1所述的方法,其特征在于,所述将所述第一用户特征和所述第一内容特征输入双塔模型进行训练,得到召回模型,包括:
将所述第一用户特征和所述第一内容特征输入双塔模型中,得到损失函数值;
将所述损失函数值与目标损失函数值进行对比,并根据对比结果调整所述双塔模型的模型参数;
将所述第一用户特征和所述第一内容特征输入调整所述模型参数后的双塔模型中,当得到的损失函数值与目标损失函数值的对比结果满足预设条件时,确定得到所述召回模型。
5.根据权利要求4所述的方法,其特征在于,所述将对指定业务场景有过行为的目标用户的第二用户画像信息和所述指定业务场景的内容候选池中的第二内容信息输入所述召回模型,得到所述目标用户的用户特征向量和内容特征向量,包括:
获取在指定时刻之前的历史时间范围内对所述指定业务场景有过行为的目标用户的第二用户画像信息,并确定与所述第二用户画像信息对应的第二用户特征;
获取在所述指定业务场景的内容候选池中的第二内容信息,并确定与所述第二内容信息对应的第二内容特征;
将所述第二用户特征和所述第二内容特征输入所述召回模型中,得到所述目标用户的用户特征向量和内容特征向量。
6.根据权利要求5所述的方法,其特征在于,所述计算所述用户特征向量与所述内容特征向量的距离,包括:
利用余弦相似度算法计算所述用户特征向量与所述内容特征向量之间的相似度;
根据所述相似度确定所述用户特征向量与所述内容特征向量的距离。
7.根据权利要求1所述的方法,其特征在于,所述将所述N个推荐内容的索引标识存储于redis缓存中,包括:
获取所述N个推荐内容的用户标识和/或内容标识;
根据所述N个推荐内容的用户标识和/或内容标识,确定所述N个推荐内容的索引标识,并将所述N个推荐内容的索引标识存储于所述redis缓存中。
8.一种基于医学领域的数据推荐设备,其特征在于,包括:
构建单元,用于构建训练样本集,所述训练样本集包括多个用户的第一用户画像信息和第一内容信息,其中,所述第一用户画像信息包括用户的属性信息、行为数据信息、偏好信息中的一种或多种,所述第一内容信息为医学相关数据,包括一个正样本数据和多个负样本数据,每个负样本数据包括第一负样本数据和第二负样本数据;
确定单元,用于根据所述第一用户画像信息确定与所述第一用户画像信息对应的第一用户特征,并根据所述第一内容信息确定与所述第一内容信息对应的第一内容特征;
训练单元,用于将所述第一用户特征和所述第一内容特征输入双塔模型进行训练,得到召回模型;
处理单元,用于将对指定业务场景有过行为的目标用户的第二用户画像信息和所述指定业务场景的内容候选池中的第二内容信息输入所述召回模型,得到所述目标用户的用户特征向量和内容特征向量;
计算单元,用于计算所述用户特征向量与所述内容特征向量的距离,并根据所述距离确定N个推荐内容,以及将所述N个推荐内容的索引标识存储于redis缓存中,其中,所述N个推荐内容为多个推荐内容中按照所述距离从小到大的排序中的前N个推荐内容,N为大于或等于1的正整数;
推荐单元,用于当获取到用户终端发送的推荐请求时,根据所述推荐请求中携带的目标索引标识,从所述redis缓存中获取与所述目标索引标识对应的目标推荐内容,并将所述目标推荐内容发送给所述用户终端。
9.一种服务器,其特征在于,包括处理器、输入设备、输出设备和存储器,所述处理器、输入设备、输出设备和存储器相互连接,其中,所述存储器用于存储计算机程序,所述计算机程序包括程序,所述处理器被配置用于调用所述程序,执行如权利要求1-7任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行以实现权利要求1-7任一项所述的方法。
CN202011033995.3A 2020-09-27 2020-09-27 基于医学领域的数据推荐方法、设备、服务器及存储介质 Active CN111949890B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202011033995.3A CN111949890B (zh) 2020-09-27 2020-09-27 基于医学领域的数据推荐方法、设备、服务器及存储介质
PCT/CN2020/124606 WO2021159738A1 (zh) 2020-09-27 2020-10-29 基于医学领域的数据推荐方法、设备、服务器及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011033995.3A CN111949890B (zh) 2020-09-27 2020-09-27 基于医学领域的数据推荐方法、设备、服务器及存储介质

Publications (2)

Publication Number Publication Date
CN111949890A true CN111949890A (zh) 2020-11-17
CN111949890B CN111949890B (zh) 2021-02-05

Family

ID=73357058

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011033995.3A Active CN111949890B (zh) 2020-09-27 2020-09-27 基于医学领域的数据推荐方法、设备、服务器及存储介质

Country Status (2)

Country Link
CN (1) CN111949890B (zh)
WO (1) WO2021159738A1 (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112612962A (zh) * 2020-12-28 2021-04-06 厦门市最有料信息科技有限公司 一种个性化推荐内容存取排重管理方法
CN113076339A (zh) * 2021-03-18 2021-07-06 北京沃东天骏信息技术有限公司 一种数据缓存方法、装置、设备及存储介质
CN113177174A (zh) * 2021-05-21 2021-07-27 脸萌有限公司 特征构建方法、内容显示方法及相关装置
CN113362139A (zh) * 2021-06-17 2021-09-07 震坤行工业超市(上海)有限公司 基于双塔结构模型的数据处理方法和装置
CN113705792A (zh) * 2021-08-31 2021-11-26 平安银行股份有限公司 基于深度学习模型的个性化推荐方法、装置、设备及介质
CN113704623A (zh) * 2021-08-31 2021-11-26 平安银行股份有限公司 一种数据推荐方法、装置、设备及存储介质
CN114780843A (zh) * 2022-04-20 2022-07-22 北京字节跳动网络技术有限公司 模型训练方法、媒资推荐方法、装置、介质及设备
CN114969486A (zh) * 2022-08-02 2022-08-30 平安科技(深圳)有限公司 语料推荐方法、装置、设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190258963A1 (en) * 2018-02-19 2019-08-22 Microsoft Technology Licensing, Llc Joint representation learning of standardized entities and queries
US10546340B1 (en) * 2015-10-06 2020-01-28 Massachusetts Mutual Life Insurance Company Systems and methods for assessing needs
CN110880141A (zh) * 2019-12-04 2020-03-13 中国太平洋保险(集团)股份有限公司 一种深度双塔模型智能匹配算法及装置
CN111061946A (zh) * 2019-11-15 2020-04-24 汉海信息技术(上海)有限公司 场景化内容推荐方法、装置、电子设备及存储介质
CN111710429A (zh) * 2020-05-29 2020-09-25 平安医疗健康管理股份有限公司 信息的推送方法及装置、计算机设备、存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111339240B (zh) * 2020-02-10 2024-04-26 北京达佳互联信息技术有限公司 对象的推荐方法、装置、计算设备和存储介质
CN111563198B (zh) * 2020-04-16 2023-07-25 百度在线网络技术(北京)有限公司 一种物料召回方法、装置、设备及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10546340B1 (en) * 2015-10-06 2020-01-28 Massachusetts Mutual Life Insurance Company Systems and methods for assessing needs
US20190258963A1 (en) * 2018-02-19 2019-08-22 Microsoft Technology Licensing, Llc Joint representation learning of standardized entities and queries
CN111061946A (zh) * 2019-11-15 2020-04-24 汉海信息技术(上海)有限公司 场景化内容推荐方法、装置、电子设备及存储介质
CN110880141A (zh) * 2019-12-04 2020-03-13 中国太平洋保险(集团)股份有限公司 一种深度双塔模型智能匹配算法及装置
CN111710429A (zh) * 2020-05-29 2020-09-25 平安医疗健康管理股份有限公司 信息的推送方法及装置、计算机设备、存储介质

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112612962A (zh) * 2020-12-28 2021-04-06 厦门市最有料信息科技有限公司 一种个性化推荐内容存取排重管理方法
CN113076339A (zh) * 2021-03-18 2021-07-06 北京沃东天骏信息技术有限公司 一种数据缓存方法、装置、设备及存储介质
CN113177174A (zh) * 2021-05-21 2021-07-27 脸萌有限公司 特征构建方法、内容显示方法及相关装置
CN113177174B (zh) * 2021-05-21 2024-02-06 脸萌有限公司 特征构建方法、内容显示方法及相关装置
CN113362139A (zh) * 2021-06-17 2021-09-07 震坤行工业超市(上海)有限公司 基于双塔结构模型的数据处理方法和装置
CN113705792A (zh) * 2021-08-31 2021-11-26 平安银行股份有限公司 基于深度学习模型的个性化推荐方法、装置、设备及介质
CN113704623A (zh) * 2021-08-31 2021-11-26 平安银行股份有限公司 一种数据推荐方法、装置、设备及存储介质
CN113704623B (zh) * 2021-08-31 2024-04-16 平安银行股份有限公司 一种数据推荐方法、装置、设备及存储介质
CN114780843A (zh) * 2022-04-20 2022-07-22 北京字节跳动网络技术有限公司 模型训练方法、媒资推荐方法、装置、介质及设备
CN114969486A (zh) * 2022-08-02 2022-08-30 平安科技(深圳)有限公司 语料推荐方法、装置、设备及存储介质
CN114969486B (zh) * 2022-08-02 2022-11-04 平安科技(深圳)有限公司 语料推荐方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN111949890B (zh) 2021-02-05
WO2021159738A1 (zh) 2021-08-19

Similar Documents

Publication Publication Date Title
CN111949890B (zh) 基于医学领域的数据推荐方法、设备、服务器及存储介质
CN111602147B (zh) 基于非局部神经网络的机器学习模型
Rolling et al. Model selection for estimating treatment effects
US9152969B2 (en) Recommendation ranking system with distrust
CN109147198B (zh) 自助售药方法和系统
CN112513838A (zh) 为用户生成个性化内容汇总
JP2008539528A (ja) ソーシャルネットワークにおける利用者の相性の得点化
US20190237192A1 (en) Personal health operating system
CN113722371B (zh) 一种基于决策树的药品推荐方法、装置、设备及存储介质
CN111899883B (zh) 少样本或零样本的疾病预测设备、方法、装置及存储介质
Weber Federated queries of clinical data repositories: the sum of the parts does not equal the whole
CN114005509A (zh) 一种治疗方案推荐系统、方法、装置和存储介质
Rempala et al. On permutation procedures for strong control in multiple testing with gene expression data
CN111552865A (zh) 用户兴趣画像方法及相关设备
WO2021174923A1 (zh) 概念词序列生成方法、装置、计算机设备及存储介质
CN114360732B (zh) 医疗数据分析方法、装置、电子设备及存储介质
CN113448876B (zh) 一种业务测试方法、装置、计算机设备及存储介质
CN110990714A (zh) 一种用户行为意图预测方法和装置
CN113891323B (zh) 一种基于WiFi的用户标签获取系统
CN113098974B (zh) 一种确定人口数量的方法、服务器及存储介质
WO2019187107A1 (ja) 情報処理装置、制御方法、及びプログラム
CN113408817B (zh) 流量分发方法、装置、设备及存储介质
WO2021174881A1 (zh) 多维度信息的组合预测方法、装置、计算机设备及介质
Seo et al. Implementation of personal health device communication protocol applying ISO/IEEE 11073-20601
CN108512731B (zh) 一种设备参数的配置方法、移动终端及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant