CN115472257A - 一种招募用户的方法、装置、电子设备及存储介质 - Google Patents
一种招募用户的方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN115472257A CN115472257A CN202211139774.3A CN202211139774A CN115472257A CN 115472257 A CN115472257 A CN 115472257A CN 202211139774 A CN202211139774 A CN 202211139774A CN 115472257 A CN115472257 A CN 115472257A
- Authority
- CN
- China
- Prior art keywords
- diagnosis
- target
- user
- users
- recruiting
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H20/00—ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/20—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for electronic clinical trials or questionnaires
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Epidemiology (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Primary Health Care (AREA)
- Public Health (AREA)
- Theoretical Computer Science (AREA)
- Animal Behavior & Ethology (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种招募用户的方法、装置、电子设备及存储介质。获取至少一个目标招募用户的历史诊疗数据;基于各历史诊疗数据以及预先训练得到的目标双塔模型中的诊疗数据处理模型,确定历史诊疗数据的目标待应用特征向量;基于目标待应用特征向量和预先创建的用户索引库,确定与至少一个目标招募用户的相似招募用户;其中,用户索引库中包括至少一个待选择招募用户,待选择招募用户是基于诊疗数据处理模型确定的;基于相似招募用户,更新临床诊疗项目相的目标招募用户,解决了因数据完整度不足,导致招募用户无法满足临床实验要求的技术问题,实现了基于已知目标招募用户扩大更多相似招募用户的效果,提升了确定目标招募用户的效率,提高了确定目标招募用户的便捷性。
Description
技术领域
本发明涉及数据处理技术领域,尤其涉及一种招募用户的方法、装置、电子设备及存储介质。
背景技术
随着临床试验项目的增多,对目标招募用户招募数量的需求不断扩大。
目前,可以采用两种方式确定目标招募用户,第一种方式是基于人工筛选,即项目用户根据报名用户的病症信息,结合多种筛选条件确定疾病类型。另外一种方式可以采用机器学习的算法实现招募用户,机器学习的方法需要将标准化处理后的数据进行训练和分类,最终得到目标招募用户。
但是,第一种方式存在的问题是招募进展慢、受试者来源局限、招募过程难以规范、招募人数少于需要入组率等问题;第二种方式存在的问题是受数据完整度不足的制约,完全满足研究纳排条件的目标招募用户,可能仍然无法满足临床实验的要求,导致招募用户的数量无法满足要求。
发明内容
本发明提供了一种招募用户的方法、装置、电子设备及存储介质,实现了根据已确认的目标招募用户群中寻找更多相似的目标用户,提高了招募用户的效率,扩大了招募用户的候选范围。
第一方面,本发明提供了一种招募用户的方法,该方法包括:
获取至少一个目标招募用户所对应的历史诊疗数据;
基于各历史诊疗数据以及预先训练得到的目标双塔模型中的诊疗数据处理模型,确定与历史诊疗数据相对应的目标待应用特征向量;
基于目标待应用特征向量和预先创建的用户索引库,确定与至少一个目标招募用户所对应的相似招募用户;其中,用户索引库中包括至少一个待选择招募用户,待选择招募用户是基于诊疗数据处理模型确定的;
基于相似招募用户,更新与临床诊疗项目相对应的目标招募用户。
第二方面,本发明提供了一种招募用户的装置,该装置包括:
历史数据获取模块,用于获取至少一个目标招募用户所对应的历史诊疗数据;
特征向量确定模块,用于基于各历史诊疗数据以及预先训练得到的目标双塔模型中的诊疗数据处理模型,确定与历史诊疗数据相对应的目标待应用特征向量;
相似用户确定模块,用于基于目标待应用特征向量和预先创建的用户索引库,确定与至少一个目标招募用户所对应的相似招募用户;其中,用户索引库中包括至少一个待选择招募用户,待选择招募用户是基于诊疗数据处理模型确定的;
招募用户更新模块,用于基于相似招募用户,更新与临床诊疗项目相对应的目标招募用户。
第三方面,本发明提供了一种招募用户的电子设备,包括:
至少一个处理器;以及
与至少一个处理器通信连接的存储器;其中,
存储器存储有可被至少一个处理器执行的计算机程序,计算机程序被至少一个处理器执行,以使至少一个处理器能够执行本发明任一实施例的招募用户的方法。
第四方面,本发明提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机指令,计算机指令用于使处理器执行时实现本发明任一实施例的招募用户的方法。
第五方面,本发明提供了一种计算机程序产品,计算机程序产品包括计算机程序,计算机程序在被处理器执行时实现本发明任一实施例的招募用户的方法。
本发明实施例提供了一种招募用户的方法,通过获取与临床诊疗项目相关联且已知其可以参与项目的目标招募用户所属的历史诊疗数据;并根据各历史诊疗数据以及预先训练得到的目标双塔模型中的诊疗数据处理模型,确定历史诊疗数据的目标待应用特征向量;进而基于目标待应用特征向量和用户索引库中的存储的多个待选择招募用户所对应的特征向量,筛选出与目标招募用户相关联的相似招募用户;将相似招募用户作为临床诊疗项目相对应的目标招募用户,此时确定的相似招募用户与目标招募用户的症状信息是相关联的;最后将相似招募用户更新为临床诊疗项目相的目标招募用户。采用此种方法解决了因数据完整度不足,导致招募用户无法满足临床实验要求的技术问题,实现了基于已知目标招募用户扩大更多相似招募用户的效果,提升了确定目标招募用户的效率,提高了确定目标招募用户的便捷性。
本发明提供的技术方案,解决了因数据完整度不足,导致招募用户无法满足临床实验要求的技术问题,实现了根据已确认的招募用户群寻找更多相似用户,提高了招募用户的效率,扩大了招募用户的候选范围。
应当理解,本部分所描述的内容并非旨在标识本发明的实施例的关键或重要特征,也不用于限制本发明的范围。本发明的其它特征将通过以下的说明书而变得容易理解。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例一提供的一种招募用户方法的流程图;
图2为本发明实施例二提供的一种招募用户方法的流程图;
图3为本发明实施例三提供的双塔模型的结构示意图;
图4为本发明实施例三提供的用户索引库的构建流程图;
图5为本发明实施例三提供的招募用户模型的应用的示意图;
图6为本发明实施例四提供的一种招募用户装置的结构示意图;
图7为本发明实施例五提供的一种电子设备的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一预设条件”、“第二预设条件”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
实施例一
图1为本发明实施例一提供的一种招募用户的方法流程图;本实施例可适用于基于已知目标招募用户数据招募更多与其相似的目标招募用户的情形。该方法可以由招募用户的装置来执行,该招募用户的装置可以采用硬件和/或软件的形式实现,该招募用户的装置可以配置在计算机设备上,该计算机设备可以是笔记本、台式计算机以及智能平板等。如图1所示,该方法包括:
S110、获取至少一个目标招募用户所对应的历史诊疗数据。
其中,目标招募用户是多个临床诊疗项目中已经确定其与某个诊疗项目相匹配的用户。目标招募用户还需要具备在各就诊时刻所对应的历史诊疗数据,历史诊疗数据中可以包括多组就诊数据,每一组就诊数据是与每一个就诊时刻相互对匹配的。历史诊疗数据可以包括招募用户一段预设时间内的就诊信息,以及就诊信息所对应的诊断信息。目标招募用户的数量可以是一个或者多个,为了提高确定相似招募用户的准确性和效率,目标招募用户的数量可以是多个,以基于多个目标招募用户的历史诊疗数据,确定相应的相似招募用户。
在具体应用过程中,可以获取到大量用户的历史诊疗数据,根据临床诊疗项目的数据需求,从大量用户的历史诊疗数据中确定目标招募用户,此时目标招募用户与临床诊疗项目是高度匹配的。还需要说明的是,此时可以采用人工筛选的方式从大量用户中确定目标招募用户,也可以采用机器学习的方式实现目标招募用户的筛选,但是上述两种筛选方式确定的数量是有限的,效率是相对较高的。
示例性的,目标招募用户A在一年的时间内,10次的就诊记录,每一次就诊都会基于目标招募用户的病症信息,产生检查项目及结果,诊断结果,用药情况等信息的就诊记录。将目标招募用户一年时间内的10就诊记录打包作为一个整体用于后续的数据处理。
S120、基于各历史诊疗数据以及预先训练得到的目标双塔模型中的诊疗数据处理模型,确定与历史诊疗数据相对应的目标待应用特征向量。
其中,目标双塔模型是可以预先训练获得的,双塔模型的结构并不是一个固定不变的网络,而是一种模型构造思路:即把模型分成左侧模型和右侧模型两部分,然后用互操作层把这两部分联合起来,产生最后的预测得分。双塔模型由左侧塔和右侧塔构成,左侧塔和右侧塔是独立的两个子网络,这两个塔的参数并不会共享,他们分别输出两个独立的向量,然后将两个独立的向量作为互操作层的输入,计算两个向量的相似度。诊疗数据处理模型可以是双塔模型中的左侧模型或者右侧模型。目标待应用特征向量为将历史诊疗数据输入至诊疗数据处理模型中所产生的向量。
具体的,目标双塔模型包括诊疗数据处理模型和诊断数据处理模型,诊疗数据处理模型主要是用于处理历史诊疗数据,从而得到诊疗特征向量;诊断数据处理模型主要是用于处理诊断结果数据,得到诊断特征向量;但是在具体应用时,更多的情况是基于诊疗数据处理模型处理历史诊疗数据,后续根据诊疗数据处理模型输出的目标待应用特征向量,确定与目标招募用户相似的招募用户。
示例性的,可以将目标招募用户A的10次历史诊疗数据作为目标双塔模型中的诊疗数据处理模型的输入量,目标双塔模型中的诊疗数据处理模型可以输出一个可以表征目标招募用户A的10次历史诊疗数据的向量,这个向量可以用于后续相似度的计算,从而确定与目标招募用户相似的招募用户。
可选的,双塔模型训练过程包括:确定多个第一训练样本;其中,第一训练样本中包括样本历史诊疗数据、样本历史诊断数据以及样本标签;对于各第一训练样本,将当前训练样本中的样本历史诊疗数据输入至诊疗数据处理模型中,得到实际诊疗向量;以及,将当前训练样本中的样本历史诊断数据输入至诊断数据处理模型中,得到实际诊断向量;基于实际诊疗向量和实际诊断向量,确定向量相似度;基于向量相似度以及与当前训练样本所对应的样本标签,确定损失值,并基于损失值修正诊疗数据处理模型以及诊断数据处理模型中的模型参数;将损失函数收敛作为训练目标,得到诊疗数据处理模型以及诊断数据处理模型;基于诊疗数据处理模型和诊断数据处理模型,确定双塔模型。
在本实施例中,双塔模型可以预先训练获得。第一训练样本是根据多个待选择用户数据确定的。其中,样本历史诊疗数据可以包括分类数据特征工程、数值数据聚合、时序数据特征工程;样本历史诊断数据可以包括语言模型特征及知识图谱节点特征;样本标签为“1”或者“0”。在样本的构造过程中,利用同一位待选择用户的训练样本构造正样本,利用不同待选择用户的训练样本构造负样本。样本标签中的“1”代表正样本、样本标签中的“0”代表负样本。对于每一个第一训练样本,将当前训练样本中的样本历史诊疗数据输入至诊疗数据处理模型中,得到实际诊疗向量;并将当前训练样本中的样本历史诊断数据输入至诊断数据处理模型中,得到实际诊断向量,所得的实际诊疗向量与实际诊断向量是两个相同长度的一维向量。随后计算两个长度相同的一维向量的相似值,计算相似值的方式也有多种方式,例如,点积操作、余弦相似度、或者MLP结构。在此可以选择计算两个向量之间的余弦相似度,则向量相似度的输出值为介于0到1的数值。
需要说明的是,对于预先训练好的诊疗数据处理模型以及诊断数据处理模型,诊疗数据处理模型以及诊断数据处理模型训练完成后,模型中的一些参数值是根据人工经验设定的,或者是基于少量训练样本数据确定。在后续模型训练过程中可能会发现模型的某些参数值是不合理的,需要优化参数值,对模型的初始参数值进行修正。
由于训练样本中的样本标签为“1”或者“0”,而向量相似度的输出值为介于0到1的数值,如果当前训练样本的向量相似度输出值为0.3,而当前训练样本所对应的样本标签为“1”,表明向量相似度值与样本标签相差相对较大,需要对模型的参数进行修正,以使模型的输出向量相似度值更大,与样本标签相适应,从而达到修正诊疗数据处理模型以及诊断数据处理模型中的模型参数的目的。基于向量相似度以及与当前训练样本所对应的样本标签,可以确定损失值,基于损失值可以使用交叉验证对模型进行评分,然后从中选择最佳的参数,也可以使用扩展库sklearn提供的网格搜索GridSearchCV选择最佳的参数,对诊疗数据处理模型以及诊断数据处理模型参数进行修正,得到诊疗数据处理模型以及诊断数据处理模型,并基于诊疗数据处理模型和诊断数据处理模型,确定双塔模型。
进一步,招募用户的方法还包括:对于各第二样本,将当前样本的历史诊疗数据输入至训练好的诊疗数据处理模型中,得到与所述当前样本相对应的历史特征向量;基于所述历史特征向量,建立所述用户索引库。
其中,第二样本中包括样本历史诊疗数据。
在本实施例中,将用户数据库中已有的目标招募用户的第二样本中的历史诊疗数据输入至预先训练好的诊疗数据处理模型中,转化为当前样本相对应的历史特征向量,随后将当前样本相对应的历史特征向量存入用户索引库。用户索引库可以用于基于目标招募用户,确定更多的相似用户。
S130、基于目标待应用特征向量和预先创建的用户索引库,确定与至少一个目标招募用户所对应的相似招募用户。
其中,用户索引库中包括至少一个待选择招募用户,待选择招募用户是基于诊疗数据处理模型确定的。
其中,用户索引库是可以预先确定的,用户索引库类似于查字典时的检索表,将通过诊疗数据处理模型确定的待选择招募用户会直接存放到用户索引库中。当用户搜索时,只需从用户索引库中检索待选择招募用户的特征信息即可找到对应的待选择招募用户。相似招募用户是根据已经确定的临床诊疗项目招募用户,基于预先设置的规则而确定与目标招募用户相似的招募用户。
在实际应用过程中,根据上一步骤确定的目标待应用特征向量,在预先创建的用户索引库中,基于预先设置的规则确定与目标招募用户相似的招募用户。可选的,根据目标待应用特征向量在用户索引库中的位置点,以及预先设置的圈选范围,从用户索引库中存储的各待选择招募用户中,确定至少一个相似招募用户。
其中,圈选范围可以输预先设定的,可以根据位置点之间的距离,设定一个位置点距离阈值,从而确定圈选范围。
具体的,预先创建的用户索引库中存放着多个待选择招募用户以及目标招募用户,在用户索引库中,将每个用户所对应的目标待应用特征向量处理成一个点位信息,则在用户索引库中存在大量的点位信息。其中,一些点位代表的是已经确定的目标招募用户,可以称之为目标招募用户点位;而目标索引库中除目标招募用户点位之外的点位称之为待选择招募用户点位。进而计算每一个目标招募用户点位与待选择招募用户点位之间的距离,根据预先设定的阈值,当任意一个目标招募用户点位与待选择招募用户点位之间的距离小于预设阈值时,可以将这一待选择招募用户点位代表的待选择招募用户确定为相似招募用户。
示例性的,预先创建的用户索引库中存放着10个待选择招募用户以及3目标招募用户,在用户索引库中,将每个用户所对应的目标待应用特征向量处理成一个点位信息,则在用户索引库中存储13个的点位信息。其中,3个点位代表目标招募用户;10个点位代表待选择招募用户。进而计算分别3目标招募用户点位与10个待选择招募用户位之间的距离。假设预先设定的阈值为0.5,计算得知存在5个点位与3个目标招募用户点位中任意一个点位之间的距离小于0.5,可以将这5个点位所对应的非目标招募用户点位代表的待选择招募用户确定为相似招募用户。
S140、基于相似招募用户,更新于临床诊疗项目相对应的目标招募用户。
在本实施例中,临床诊疗项目需要招募的大量的用户,以保证项目进展的可靠性。将上述步骤所确定的相似招募用户,扩充到临床诊疗项目相对应的目标招募用户中,增加目标招募用户的数量。
可选的,招募用户的方法还包括:将至少一个目标招募用户所对应的目标待应用特征向量更新至目标索引库中。
在本实施例中,由于要根据目标招募用户确定更多相似招募用户,因此可以将目标招募用户的目标待应用特征向量添加到目标索引库中,以更新目标索引库中待选择招募用户的数量。
上述技术方案,通过获取至少一个目标招募用户的历史诊疗数据;基于各历史诊疗数据以及预先训练得到的目标双塔模型中的诊疗数据处理模型,确定历史诊疗数据的目标待应用特征向量;进而基于目标待应用特征向量和用户索引库中的存储的多个待选择招募用户所对应的特征向量,筛选出与目标招募用户相关联的相似招募用户;将相似招募用户,更新临床诊疗项目相的目标招募用户。本发明实施例提供的技术方案,通过利用深度双塔模型学习目标招募用户在高维空间的向量表示,以此来根据已确认的目标招募用户群来寻找其他相似目标招募用户,以便招募用户从中筛选出符合要求的目标招募用户,实现了基于已知目标招募用户扩大更多相似招募用户的效果,提升了确定目标招募用户的效率,提高了确定目标招募用户的便捷性。
实施例二
图2为本发明实施例二提供的一种招募用户方法的流程图,本发明实施例在上述实施例的基础上对前述实施例S110-S120对应的内容进行进一步细化,本发明实施例可以与上述一个或者多个实施例中各个可选方案结合。如图2所示,该方法包括:
S210、基于预先设置的筛选条件,确定与目标诊疗项目所对应的至少一个目标招募用户。
其中,筛选条件是可以人为预先设置的,可以根据目标诊疗项目的特征确定筛选条件,例如筛选条件可以包括:年龄、性别、是否曾诊断为X疾病、是否曾服用Z药物等。至少一个是指包含一个和一个以上的目标招募用户。
具体的,根据预先设置的筛选条件,对于所有待选择招募用户,确定每一位待选择招募用户所提供的信息是否满足年龄、性别、是否曾诊断为X疾病、是否曾服用Z药物等。如果待选择用户所提供的信息均满足预先设置的条件,则可以确定其为与目标诊疗项目所对应的目标招募用户。在具体应用过程中,确定的目标招募用户数量可以尽量多一些,以保证目标诊疗项目的可靠性。
S220、调取各目标招募用户所对应的历史诊疗数据。
在本实施例中,对每一位S210确定的目标招募用户,调取目标招募用户所对应的历史诊疗数据,历史诊疗数据可以包括目标招募用户一段预设时间内就诊过程中所涉及到的检查项目及结果、诊断结果、用药情况等的记录信息,将这些数据打包作为一个整体用于后续的数据处理。
S230、对于各历史诊疗数据,基于预先设置的数据处理规则确定与当前历史诊疗数据所对应的待应用诊疗数据。
其中,数据处理规则可以是对各历史诊疗数据进行标准化处理,将格式存在差异的数据进行归一化。
在本实施例中,由于调取的各历史诊疗数据中为原始数据,可能存在目标招募用户的历史诊疗数据中包含同一种检查项目,由于出自不同的医疗机构或者不同的接诊用户,所使用的名称并不统一;另外,各历史诊疗数据可能涉及到数据单位不统一的情形等。针对上述问题,需要对各历史诊疗数据进行归一化处理,获得具有统一标准的待应用诊疗数据。
S240、将待应用诊疗数据输入至诊疗数据处理模型,得到目标待应用特征向量。
在本实施例中,可以将待应用诊疗数据作为目标双塔模型中的诊疗数据处理模型的输入量,目标双塔模型中的诊疗数据处理模型可以输出待应用诊疗数据所对应的目标待应用特征向量。
S250、基于目标待应用特征向量和预先创建的用户索引库,确定与至少一个目标招募用户所对应的相似招募用户。
S260、将相似招募用户,更新与临床诊疗项目相对应的目标招募用户。
上述技术方案,通过基于预先设置的筛选条件,确定与目标诊疗项目所对应的至少一个目标招募用户,随后调取各目标招募用户所对应的历史诊疗数据;对于各历史诊疗数据,基于预先设置的数据处理规则确定与当前历史诊疗数据所对应的待应用诊疗数据;将待应用诊疗数据输入至诊疗数据处理模型,得到目标待应用特征向量;基于目标待应用特征向量和预先创建的用户索引库,确定与至少一个目标招募用户所对应的相似招募用户;最后,将相似招募用户,更新临床诊疗项目相的目标招募用户。本发明实施例提供的技术方案,解决了因数据完整度不足,导致招募用户无法满足临床实验要求的技术问题,采用此种方法通过利用深度双塔模型学习目标招募用户在高维空间的向量表示,以此来根据已确认的目标招募用户群来寻找其他相似目标招募用户,以便招募用户从中筛选出符合要求的目标招募用户,实现了基于已知目标招募用户扩大更多相似招募用户的效果,提升了确定目标招募用户的效率,提高了确定目标招募用户的便捷性。
实施例三
在本发明实施例中,以一个具体的实施方式介绍招募用户的方法,本实施例主要包括模型训练阶段、患者索引阶段和模型应用步骤,该方法包括以下步骤:
一、用于训练双塔模型样本的构造
1、目标招募用户历史数据获取:采集目标招募用户历史诊疗数据及诊断数据;对目标招募用户历史数据及诊断数据进行归一化处理。
2、目标招募用户数据特征工程:目标招募用户历史数据特征工程,包括分类数据特征工程、数值数据聚合、时序数据特征工程;目标招募用户诊断数据特征工程,包括语言模型特征及知识图谱节点特征。
3、训练样本构造:利用同一目标招募用户的历史数据特征和诊断数据特征构造正样本;利用不同诊断目标招募用户的历史数据特征和诊断数据特征构造负样本;将上述正样本及负样本构造的数据合并形成训练样本。
二、双塔模型训练
本发明实施例提供的双塔模型结构示意图,参见图3。如图3所示,双塔模型中包括诊疗数据处理模型和诊断数据处理模型,历史诊疗数据首先通过用户特征工程处理,随后将历史诊疗数据特征输入至诊疗数据处理模型,诊疗数据处理模型可以输出诊疗向量;而诊断数据首先通过疾病特征工程处理,随后将诊断数据特征输入至诊断数据处理模型,诊断数据处理模型可以输出诊断向量;最后,双塔模型基于诊疗向量和诊断向量,确定向量相似度,并输出相似分数。利用训练样本进行诊疗数据处理模型和诊断数据处理模型深度网络的模型训练,使双塔模型输出相似分数所得分数与训练样本的样本签拟合,利用反向传播算法更新两个深度网络的参数,
二、创建用户索引库
本发明实施例提供的创建用户索引库方法的流程,参见图4。首先将将招募用户数据库中已有的目标招募用户数据经过预处理和特征工程,转化为目标招募用户历史数据特征。随后,将目标招募用户历史数据特征输入至诊疗数据处理模型,获取诊疗向量;最后,将诊疗数据处理模型输出的特征向量存入用户索引库,此时用户索引库便创建完成。
三、在已有用户索引库的基础上,确定相似招募用户
本发明实施例提供的在已有用户索引库的基础上,确定相似招募用户的示意图,参见图5。如图5所示,利用已确定的入组目标招募用户,通过用户索引库,推荐和已入组目标招募用户相似的招募用户。进而,由运维人员确定推荐的目标招募用户是否可以纳入临床研究。其中,在图5中黑色实线矩形框内的点位表征的是在用户索引库中已经入组的目标招募用户,黑色虚线矩形框内的点位表征的是在用户索引库中根据目标招募用户,推荐的相似招募用户。
上述技术方案,利用深度双塔模型学习目标招募用户在高维空间的向量表示,以此来根据已确认的目标招募用户群来寻找其他相似目标招募用户,以便招募人员从中筛选出符合要求的目标招募用户。本实施例,经过双塔模型训练、目标招募用户索引、模型应用三个步骤,完成相似目标招募用户招募方法相关任务,解决了因数据完整度不足,导致招募用户无法满足临床实验要求的技术问题。实现了基于已知目标招募用户扩大更多相似招募用户的效果,提升了确定目标招募用户的效率,提高了确定目标招募用户的便捷性。。
实施例四
图6为本发明实施例四提供的一种招募用户的装置结构示意图,该装置可以执行本发明实施例所提供的一种招募用户的方法。该装置包括:历史数据获取模块410、特征向量确定模块420、相似用户确定模块430和招募用户更新模块440。
历史数据获取模块410,用于获取至少一个目标招募用户所对应的历史诊疗数据;
特征向量确定模块420,用于基于各历史诊疗数据以及预先训练得到的目标双塔模型中的诊疗数据处理模型,确定与历史诊疗数据相对应的目标待应用特征向量;
相似用户确定模块430,用于基于目标待应用特征向量和预先创建的用户索引库,确定与至少一个目标招募用户所对应的相似招募用户;其中,用户索引库中包括至少一个待选择招募用户,待选择招募用户是基于诊疗数据处理模型确定的;
招募用户更新模块440,用于基于相似招募用户,更新与临床诊疗项目相对应的目标招募用户。
在上述各技术方案的基础上,历史数据获取模块410包括:招募用户确定单元和诊疗数据调取单元。
招募用户确定单元,用于基于预先设置的筛选条件,确定与目标诊疗项目所对应的至少一个目标招募用户;
诊疗数据调取单元,调取各目标招募用户所对应的历史诊疗数据。
在上述各技术方案的基础上,特征向量确定模块420包括:诊疗数据确定单元和特征向量确定单元。
诊疗数据确定单元,用于对于各历史诊疗数据,基于预先设置的数据处理规则确定与当前历史诊疗数据所对应的待应用诊疗数据;
特征向量确定单元,用于将待应用诊疗数据输入至诊疗数据处理模型,得到目标待应用特征向量。
在上述各技术方案的基础上,相似用户确定模块430包括招募用户确定单元,具体用于根据目标待应用特征向量在用户索引库中的位置点,以及预先设置的圈选范围,从用户索引库中存储的各待选择招募用户中,确定至少一个相似招募用户。
在上述各技术方案的基础上,该装置还包括:训练样本确定模块、诊断向量确定模块、相似度确定模块、模型参数修正模块、模型获取模块和双塔模型确定模块。
训练样本确定模块,用于确定多个第一训练样本;
诊断向量确定模块,用于对于各第一训练样本,将当前训练样本中的样本历史诊疗数据输入至诊疗数据处理模型中,得到实际诊疗向量;以及,将当前训练样本中的样本历史诊断数据输入至诊断数据处理模型中,得到实际诊断向量;
相似度确定模块,用于基于实际诊疗向量和实际诊断向量,确定向量相似度;
模型参数修正模块,用于基于向量相似度以及与当前训练样本所对应的样本标签,确定损失值,并基于损失值修正诊疗数据处理模型以及诊断数据处理模型中的模型参数;
模型获取模块,用于将损失函数收敛作为训练目标,得到诊疗数据处理模型以及诊断数据处理模型;
双塔模型确定模块,用于基于诊疗数据处理模型和诊断数据处理模型,确定双塔模型。
在上述各技术方案的基础上,该装置还用于对于各第二样本,将当前样本的历史诊疗数据输入至训练好的诊疗数据处理模型中,得到与当前样本相对应的历史特征向量;基于历史特征向量,建立用户索引库。
在上述各技术方案的基础上,该装置还用于将至少一个目标招募用户所对应的目标待应用特征向量更新至目标索引库中。
上述技术方案,通过获取至少一个目标招募用户的历史诊疗数据;基于各历史诊疗数据以及预先训练得到的目标双塔模型中的诊疗数据处理模型,确定历史诊疗数据的目标待应用特征向量;进而基于目标待应用特征向量和用户索引库中的存储的多个待选择招募用户所对应的特征向量,筛选出与目标招募用户相关联的相似招募用户;将相似招募用户,更新临床诊疗项目相的目标招募用户。本发明实施例提供的技术方案,通过利用深度双塔模型学习目标招募用户在高维空间的向量表示,以此来根据已确认的目标招募用户群来寻找其他相似目标招募用户,以便招募用户从中筛选出符合要求的目标招募用户,实现了基于已知目标招募用户扩大更多相似招募用户的效果,提升了确定目标招募用户的效率,提高了确定目标招募用户的便捷性。
本公开实施例所提供的数据处理装置可执行本公开任意实施例所提供的视频确定方法,具备执行方法相应的功能模块和有益效果。
值得注意的是,上述装置所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本公开实施例的保护范围。
实施例五
图7为本发明实施例五提供的一种电子设备的结构示意图。电子设备10旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备(如头盔、眼镜、手表等)和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本发明的实现。
如图7所示,电子设备10包括至少一个处理器11,以及与至少一个处理器11通信连接的存储器,如只读存储器(ROM)12、随机访问存储器(RAM)13等,其中,存储器存储有可被至少一个处理器执行的计算机程序,处理器11可以根据存储在只读存储器(ROM)12中的计算机程序或者从存储单元18加载到随机访问存储器(RAM)13中的计算机程序,来执行各种适当的动作和处理。在RAM 13中,还可存储电子设备10操作所需的各种程序和数据。处理器11、ROM 12以及RAM 13通过总线14彼此相连。输入/输出(I/O)接口15也连接至总线14。
电子设备10中的多个部件连接至I/O接口15,包括:输入单元16,例如键盘、鼠标等;输出单元17,例如各种类型的显示器、扬声器等;存储单元18,例如磁盘、光盘等;以及通信单元19,例如网卡、调制解调器、无线通信收发机等。通信单元19允许电子设备10通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
处理器11可以是各种具有处理和计算能力的通用和/或专用处理组件。处理器11的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的处理器、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。处理器11执行上文所描述的各个方法和处理,例如路面识别方法。
在一些实施例中,路面识别方法可被实现为计算机程序,其被有形地包含于计算机可读存储介质,例如存储单元18。在一些实施例中,计算机程序的部分或者全部可以经由ROM 12和/或通信单元19而被载入和/或安装到电子设备10上。当计算机程序加载到RAM 13并由处理器11执行时,可以执行上文描述的路面识别方法的一个或多个步骤。备选地,在其他实施例中,处理器11可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行路面识别方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本发明的方法的计算机程序可以采用一个或多个编程语言的任何组合来编写。这些计算机程序可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器,使得计算机程序当由处理器执行时使流程图和/或框图中所规定的功能/操作被实施。计算机程序可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本发明的上下文中,计算机可读存储介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的计算机程序。计算机可读存储介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。备选地,计算机可读存储介质可以是机器可读信号介质。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在电子设备上实施此处描述的系统和技术,该电子设备具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给电子设备。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)、区块链网络和互联网。
计算系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务中,存在的管理难度大,业务扩展性弱的缺陷。应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发明中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本发明的技术方案所期望的结果,本文在此不进行限制。上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。
Claims (10)
1.一种招募用户的方法,其特征在于,包括:
获取至少一个目标招募用户所对应的历史诊疗数据;
基于各历史诊疗数据以及预先训练得到的目标双塔模型中的诊疗数据处理模型,确定与所述历史诊疗数据相对应的目标待应用特征向量;
基于所述目标待应用特征向量和预先创建的用户索引库,确定与所述至少一个目标招募用户所对应的相似招募用户;其中,所述用户索引库中包括至少一个待选择招募用户,所述待选择招募用户是基于所述诊疗数据处理模型确定的;
基于所述相似招募用户,更新与临床诊疗项目相对应的目标招募用户。
2.根据权利要求1所述的方法,其特征在于,所述获取至少一个目标招募用户所对应的历史诊疗数据,包括:
基于预先设置的筛选条件,确定与所述目标诊疗项目所对应的至少一个目标招募用户;
调取各目标招募用户所对应的历史诊疗数据。
3.根据权利要求1所述的方法,其特征在于,所述基于各历史诊疗数据以及预先训练得到的目标双塔模型中的诊疗数据处理模型,确定与所述历史诊疗数据相对应的目标待应用特征向量,包括:
对于各历史诊疗数据,基于预先设置的数据处理规则确定与当前历史诊疗数据所对应的待应用诊疗数据;
将所述待应用诊疗数据输入至所述诊疗数据处理模型,得到所述目标待应用特征向量。
4.根据权利要求1所述的方法,其特征在于,所述基于所述目标待应用特征向量和预先创建的用户索引库,确定与所述至少一个目标招募用户所对应的相似招募用户,包括:
根据所述目标待应用特征向量在所述用户索引库中的位置点,以及预先设置的圈选范围,从所述用户索引库中存储的各待选择招募用户中,确定至少一个相似招募用户。
5.根据权利要求1所述的方法,其特征在于,还包括:
确定多个第一训练样本;其中,所述第一训练样本中包括样本历史诊疗数据、样本历史诊断数据以及样本标签;
对于各第一训练样本,将当前训练样本中的样本历史诊疗数据输入至诊疗数据处理模型中,得到实际诊疗向量;以及,将所述当前训练样本中的样本历史诊断数据输入至诊断数据处理模型中,得到实际诊断向量;
基于所述实际诊疗向量和所述实际诊断向量,确定向量相似度;
基于所述向量相似度以及与所述当前训练样本所对应的样本标签,确定损失值,并基于所述损失值修正所述诊疗数据处理模型以及所述诊断数据处理模型中的模型参数;
将所述损失函数收敛作为训练目标,得到诊疗数据处理模型以及诊断数据处理模型;
基于所述诊疗数据处理模型和所述诊断数据处理模型,确定双塔模型。
6.根据权利要求5所述的方法,其特征在于,还包括:
对于各第二样本,将当前样本的历史诊疗数据输入至训练好的诊疗数据处理模型中,得到与所述当前样本相对应的历史特征向量;
基于所述历史特征向量,建立所述用户索引库。
7.根据权利要求1所述的方法,其特征在于,还包括:
将所述至少一个目标招募用户所对应的目标待应用特征向量更新至所述目标索引库中。
8.一种招募用户的装置,该装置包括:
历史数据获取模块,用于获取至少一个目标招募用户所对应的历史诊疗数据;
特征向量确定模块,用于基于各历史诊疗数据以及预先训练得到的目标双塔模型中的诊疗数据处理模型,确定与所述历史诊疗数据相对应的目标待应用特征向量;
相似用户确定模块,用于基于所述目标待应用特征向量和预先创建的用户索引库,确定与所述至少一个目标招募用户所对应的相似招募用户;其中,所述用户索引库中包括至少一个待选择招募用户,所述待选择招募用户是基于所述诊疗数据处理模型确定的;
招募用户更新模块,用于将所述相似招募用户,更新与临床诊疗项目相对应的目标招募用户。
9.一种电子设备,其特征在于,所述电子设备包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-7中任一项所述的招募用户的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行时实现权利要求1-7中任一项所述的招募用户的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211139774.3A CN115472257A (zh) | 2022-09-19 | 2022-09-19 | 一种招募用户的方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211139774.3A CN115472257A (zh) | 2022-09-19 | 2022-09-19 | 一种招募用户的方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115472257A true CN115472257A (zh) | 2022-12-13 |
Family
ID=84333237
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211139774.3A Pending CN115472257A (zh) | 2022-09-19 | 2022-09-19 | 一种招募用户的方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115472257A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117153417A (zh) * | 2023-10-30 | 2023-12-01 | 成都安哲斯生物医药科技有限公司 | 医疗数据库数据筛选系统及方法 |
-
2022
- 2022-09-19 CN CN202211139774.3A patent/CN115472257A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117153417A (zh) * | 2023-10-30 | 2023-12-01 | 成都安哲斯生物医药科技有限公司 | 医疗数据库数据筛选系统及方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Bacchi et al. | Machine learning in the prediction of medical inpatient length of stay | |
US11232365B2 (en) | Digital assistant platform | |
Yildirim | Filter based feature selection methods for prediction of risks in hepatitis disease | |
Bashir et al. | BagMOOV: A novel ensemble for heart disease prediction bootstrap aggregation with multi-objective optimized voting | |
US10019442B2 (en) | Method and system for peer detection | |
WO2018213530A2 (en) | Neural network based translation of natural language queries to database queries | |
CN109326353B (zh) | 预测疾病终点事件的方法、装置及电子设备 | |
CN107430613A (zh) | 知识密集型数据处理系统 | |
CN111986792B (zh) | 医疗机构评分方法、装置、设备及存储介质 | |
CN112528660A (zh) | 处理文本的方法、装置、设备、存储介质和程序产品 | |
CN112530576A (zh) | 一种线上医患匹配方法、装置、电子设备及存储介质 | |
WO2021114635A1 (zh) | 患者分群模型构建方法、患者分群方法及相关设备 | |
CN113345577A (zh) | 诊疗辅助信息的生成方法、模型训练方法、装置、设备以及存储介质 | |
CN112925857A (zh) | 基于谓语类型预测关联的数字信息驱动的系统和方法 | |
Maram et al. | A framework for performance analysis on machine learning algorithms using covid-19 dataset | |
CN114090601B (zh) | 一种数据筛选方法、装置、设备以及存储介质 | |
CN115472257A (zh) | 一种招募用户的方法、装置、电子设备及存储介质 | |
WO2022227171A1 (zh) | 关键信息提取方法、装置、电子设备及介质 | |
Saravanan et al. | Prediction of Insufficient Accuracy for Human Activity Recognition using Convolutional Neural Network in Compared with Support Vector Machine | |
CN112560480A (zh) | 任务社区发现方法、装置、设备和存储介质 | |
CN115862840A (zh) | 关节疼痛疾病的智能辅助诊断方法和装置 | |
CN114997419A (zh) | 评分卡模型的更新方法、装置、电子设备及存储介质 | |
CN114639044A (zh) | 标签确定方法、装置、电子设备及存储介质 | |
Dave et al. | Applications of data mining techniques: empowering quality healthcare services | |
D'Souza et al. | Diabetes Detection Using Machine Learning Algorithms |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |