CN110491488B - 一种确定医学数据标注终端的控制方法及系统 - Google Patents
一种确定医学数据标注终端的控制方法及系统 Download PDFInfo
- Publication number
- CN110491488B CN110491488B CN201910574737.7A CN201910574737A CN110491488B CN 110491488 B CN110491488 B CN 110491488B CN 201910574737 A CN201910574737 A CN 201910574737A CN 110491488 B CN110491488 B CN 110491488B
- Authority
- CN
- China
- Prior art keywords
- terminal
- labeling
- identity
- behavior
- determining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H40/00—ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices
- G16H40/20—ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices for the management or administration of healthcare resources or facilities, e.g. managing hospital staff or surgery rooms
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H70/00—ICT specially adapted for the handling or processing of medical references
Landscapes
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- General Business, Economics & Management (AREA)
- Epidemiology (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Primary Health Care (AREA)
- Public Health (AREA)
- Biomedical Technology (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本发明提供一种确定医学数据标注终端的控制方法,包括如下步骤:a.获取多个终端的多个身份时间戳以及标注行为的发起时间戳;b.计算多个所述身份时间戳与所述发起时间戳的多个差值;c.判断所述差值是否小于后台系统设定的时间阈值,若所述差值小于所述时间阈值,则所述差值对应的所述终端确定为标注终端。本发明通过采集终端的身份时间戳和标注行为的时间戳,快速定位一线临床医生所持有的终端,并将其确定为标注终端。本发明还提供一种确定医学数据标注终端的控制系统,包括时间戳采集模块、运算模块、差值判断模块和标注终端确定模块。
Description
技术领域
本发明涉及数据处理领域,尤其是针对医学数据处理终端的问题,具体地涉及一种确定医学数据标注终端的控制方法及系统。
背景技术
随着大数据时代的到来,各种不同类型的数据被搜集和处理,医学数据作为最为特殊的一种数据,其所包含的变量众多,包括患者数据、医生数据、疾病数据、症状数据、检验数据、诊断数据、治疗数据、药物数据等等。从医学活动本身出发,其最大的区别点在于,医学行为之间存在着清晰的逻辑关系,因此医学数据之间也就存在着清晰的语义关系,同时,医学数据通常是由医生或者患者输入或者生成的,这些数据间的语义关系能够反应医生的决策和对应的治疗方法与疾病发展情况之间的相互关系。
医学数据交互的过程,其显著的特点在于参与交互的终端角色往往是多个,且每个终端均有自己独立的诉求,基于传统的数据交互理论,如何从多个终端中遴选出一个核心终端,并以此为基础展开数据交互,是实现医学数据交互强逻辑性的基本要求。经过对大量的医学数据交互流程的总结,我们发现,交互流程的发起往往是起源于百姓也就是患者,而整个数据交互的实质则是围绕第一次加入交互流程的医生,即,首次处理百姓上传数据的医生,该名医生针对百姓上传数据所提出的疑点问题,决定了整个数据交互流程的进程和结果。
现有的医学数据处理流程中,鲜有涉及筛选处理终端的算法,而医学数据的处理不同于传统的数据处理领域,其需要专业人员和专业的处理流程,方可保证处理结果的稳定性和专业性。目前行业内对医学数据的标注,大都是选择医学专业的学生或者聘用医生专职处理,但医学知识的半衰期较短,医生脱离临床工作一段时间后,其对数据处理的专业化就会不断下降,因此,如果通过大范围的筛选出一线的临床专业医生进行数据标注,是医学数据处理的基础。
发明内容
本发明技术方案所解决的技术问题为,通过终端筛查算法,定位一线临床医生的终端,继而将其确定为标注终端,达到准确标注医学数据的目的。
为了解决上述技术问题,本发明技术方案一种确定医学数据标注终端的控制方法,包括如下步骤:
a.获取多个终端的多个身份时间戳以及标注行为的发起时间戳;
b.计算多个所述身份时间戳与所述发起时间戳的多个差值;
c.判断所述差值是否小于后台系统设定的时间阈值,若所述差值小于所述时间阈值,则所述差值对应的所述终端确定为标注终端。
优选地,所述身份时间戳通过如下步骤生成:
a11.所述终端发起所述标注行为之后,向后台系统发送所述身份确认请求,所述身份确认请求对应至少一个所述终端;
a12.获取所述身份确认请求的时间戳,若所述第三方系统向所述后台系统发出确认反馈,则将发送所述身份确认请求的时间戳作为所述身份时间戳;若所述第三方系统未向所述后台系统发送确认反馈,则将所述终端的注册时间戳作为所述身份时间戳,其中,所述注册时间戳是指所述终端在第三方系统完成注册的时间戳。
优选地,所述步骤c中,多个所述差值小于所述时间阈值,则确定所述标注终端的步骤如下:
c1.将小于所述时间阈值的多个所述差值从小到大依次排序,选定排序在前的N个所述差值对应的N个所述终端作为标注终端,其中,N≥1且N的数值由后台系统生成。
优选地,所述步骤c1中,确定所述标注终端的步骤如下:
c11.调取小于所述时间阈值的差值对应的一个所述终端在后台系统中的多个历史行为,将多个所述历史行为进行向量化处理生成多个历史行为向量;
c12.将所述标注行为进行向量化处理生成标注行为向量,其中对所述历史行为和所述标注行为进行向量化处理的方法相同;
c13.分别计算多个所述历史行为向量与所述标注行为向量的多个相似度,若至少一个所述相似度在标准范围内,则确定步骤C11中的所述终端为所述标注终端,所述标准范围由后台系统设定。
优选地,所述步骤c13之后,执行如下步骤:
c14.重复步骤c11至步骤c13,直至小于所述时间阈值的差值对应的全部所述终端逐一筛选完毕。
优选地,所述步骤c之后,执行如下步骤:
d.判断所述标注行为向量是否属于数据向量集合,所述数据向量集合是指对所述标注行为的目标数据进行向量化处理后生成的数据集合;
e.若所述标注行为向量属于所述数据向量集合,则对所述标注行为对应的所述标注终端执行+1操作。
优选地,所述步骤e之后执行如下步骤:
f.重新开始执行步骤a;
g.将所述步骤e中已经执行+1操作的所述标注终端确定为所述步骤a中的所述终端。
本发明还提供一种确定医学数据标注终端的控制系统,包括:
时间戳采集模块,其用于获取多个终端的多个身份时间戳以及标注行为的发起时间戳;
运算模块,其用于计算多个所述身份时间戳与所述发起时间戳的多个差值;
差值判断模块,其用于判断所述差值是否小于后台系统设定的时间阈值;
标注终端确定模块,其用于将所述差值小于所述时间阈值所对应的所述终端确定为标注终端。
优选地,还包括:
身份确认模块,其用于所述终端发起所述标注行为之后,向后台系统发送所述身份确认请求;
身份时间戳确定模块,其用于获取所述身份确认请求的时间戳,并基于所述第三方系统是否向所述后台系统发送确认反馈确定所述身份时间戳。
优选地,所述标注终端确定模块包括:
历史行为调取模块,其用于调取小于所述时间阈值的差值对应的一个所述终端在后台系统中的多个历史行为;
向量生成模块,其用于将多个所述历史行为进行向量化处理生成多个历史行为向量,以及将所述标注行为进行向量化处理生成标注行为向量,其中对所述历史行为和所述标注行为进行向量化处理的方法相同;
相似度计算模块,其用于分别计算多个所述历史行为向量与所述标注行为向量的多个相似度;
确定模块,其用于将在标准范围内的所述相似度对应的所述终端确定为所述标注终端,所述标准范围由后台系统设定。
本发明通过采集终端的身份时间戳和标注行为的时间戳,快速定位一线临床医生所持有的终端,并将其确定为标注终端。
本发明技术方案还通过调取终端的历史行为记录,并根据医学数据的内容选择更为合适的终端完成数据标注。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其他特征、目的和优点将会变得更明显:
图1为本发明的具体实施方式的,一种确定医学数据标注终端的控制方法的流程图;
图2为本发明的第一实施例的,一种身份时间戳的生成方式的流程图;
图3为本发明的第二实施例的,另一种确定医学数据标注终端的控制方法;
图4为本发明的第三实施例的,另一种确定医学数据标注终端的控制方法;
图5为本发明的第四实施例的,一种确定医学数据标注终端的控制系统;
图6为本发明的另一个具体实施方式的,一种确定医学数据标注终端的控制系统;
图7为本发明的第五实施例的,另一种确定医学数据标注终端的控制系统;以及
图8为本发明的第六实施例的,另一种确定医学数据标注终端的控制系统。
具体实施方式
为了更好的使本发明的技术方案清晰的表示出来,下面结合附图对本发明作进一步说明。
本领域技术人员理解,医学数据通常来自于用户终端,所述用户终端可以理解为一种终端设备,其可以通过人工输入或者与不同的检测设备连接采集数据。例如,可以是手机或者平板电脑,通过人工输入或者拍照自动识别的方式录入数据,又例如,可以是与体征传感器或者医疗检测装置共同数据的计算机,通过开放端口实时采集数据。更为具体地,医学数据是与个体相关联的数据,可以从多个维度进行理解:从医学数据的产生渠道来看,所述基础医学数据主要可分为医生端数据和患者端数据,医生端数据包括门急诊记录、住院记录、影像记录、实验室记录、用药记录、手术记录、随访记录等,患者端数据包括个人生活习惯、生活环境、家庭遗传、家庭环境等。从医学数据的组成结构来看,基础医学数据可分为:(1)检查手段产生的测量数值,如体温、血压、血氧饱和度、化验值等;(2)仪器记录的信号,如心电图、脑电图等;(3)医学影像设备生成的图像,如X线图像、CT图像和MRI图像等;(4)文本形式呈现的报告结果,例如医生结合自身医学知识给出的针对测量数值、信号、图像的解释和医生做出的病理诊断等;(5)叙述性的数据,如医生记录的主诉(患者口述的病情)、病人的病历;(6)元数据文本,例如关于器官、药物、疾病以及治疗方法的知识、医疗设备的参数等;(7)社会特征,例如医院的机构信息、医生和患者的个人信息等。这些不同种类的医学数据虽然结构和包含的语义各不相同,但它们能够相互印证相互补充,都从特定的角度表达了医学信息的内容和特点,构成了多样且互补的数据集合。
图1示出了本发明的具体实施方式的,一种确定医学数据标注终端的控制方法,包括如下步骤:
首先执行步骤S101,获取多个终端的多个身份时间戳以及标注行为的发起时间戳。具体地,所述身份时间戳并非通常意义上的终端在后台的注册时间,而是与所述终端相匹配的一个时间标志,所述时间标志可以是终端自主登记的,也可以是后台系统根据所述终端的行为主动标记的,还可以是从第三方系统导入。优选地,所述身份时间戳和所述发起时间戳是由用户自行输入的,作为一种变化,也可以是使用数据库内建的时间戳类型,作为另一种变化,还可以使用PHP时间戳。
所述身份时间戳有多种方式生成。例如,所述终端在注册时,后台系统要求其录入一个时间点,格式可以是年/月或者年/月/日,甚至是精确至小时、分钟、秒钟,但该时间点是所述终端自主登记,后台系统并不进行验证或者认证,其原因在于,若将该时间点作为身份时间戳,其目的并非进行加密运算等涉及系统安全的运算,因此无需耗费系统资源进行验证,这有别于通常的时间戳登记。又例如,后台系统根据终端的IP地址识别所述终端所在的地区,后台系统对该地区匿名登录的终端进行预授权,使其可以在系统中进行部分操作行为,后台系统自动获取所述终端的操作行为的执行时间点,并将执行时间点作为所述身份时间戳。又例如,后台系统将已经在系统注册的全部终端设备码发送至第三方系统,直接从全部终端首次登陆所述第三方系统的时间点作为所述身份时间戳。又例如,后台系统对所述终端进行实名制认证,并将全部终端对应的全部实名制用户发送至第三方系统,所述第三方系统根据实名制用户将对应的所述终端在所述第三方系统的认证时间点作为所述身份时间戳。
更为具体地,所述发起时间戳是与所述标注行为相关联的,即,后台系统识别所述终端完成执行所述标注行为之前的前置行为时,确定所述终端发起所述标注行为,所述终端执行所述前置行为的时间点被确定为所述发起时间戳。本领域技术人员理解,所述终端在发起所述标注行为前,会在系统中留下前置行为记录,例如点击进入能够完成标注行为的界面,又例如,点击相应的功能入口,所述终端执行上述行为时均被系统确认为发起所述标注行为的标志,相应的时间点均可作为所述发起时间戳。
进一步地,执行步骤S102,计算多个所述身份时间戳与所述发起时间戳的多个差值。具体地,结合步骤S101所记载,如果所述身份时间戳并非来自于第三方系统,而是与所述发起时间戳来自于同一后台系统的数据库,则此时不存在格式转化问题,直接计算差值即可。例如,数据库类型为MySQL,可以应用PHP语言的MySQLi函数计算;又例如,数据库类型为Oracle,则其本身就支持时间戳的计算,但需要选择合适的时间度量单位,对数据格式进行隐藏。更为具体地,时间戳差值结果计算出来后,还可以使用转换函数进行转换,以利于更为精确、通用和兼容的统计,例如使用ROUND函数。在一个变化例中,以Java语言为例,传统的SimpleDateFormat和Java 7中的Calendar在使用的时候支持自行编辑计算时间差的逻辑,方便根据实际需求来定制,这样可以省略转换步骤,比如,定义两个日期的天数差15天就算满一个月,不满15天不算一个月,对于本发明而言,也同样可以实现技术目的。
在另一个变化例中,所述身份时间戳和所述发起时间戳来自于不同的数据库,一种原因是两个时间戳分别存储在同一后台系统的不同数据库,还有一种原因是所述身份时间戳来自于第三方系统,而第三方系统的数据库类型与后台系统的数据库类型并不相同。本领域技术人员理解,本实施例中,首先需要对身份时间戳和发起时间戳进行格式转换为同一格式,优选的方式是,在SQL查询时,首先把时间戳自动转换为时间输出,然后执行计算步骤,如此还省略的字符转换步骤,但最终所述身份时间戳和所述发起时间戳的差值需要人工参与判断。
进一步地,执行步骤S103,判断所述差值是否小于后台系统设定的时间阈值。具体地,判断的方法可以是系统自动判断,也可以是人工判断。若采用系统自动判断的方法,如前述步骤S101和S102的相关描述,同样涉及时间阈值格式的统一问题,即,时间阈值格式应当与身份时间戳和发起时间戳的差值格式相同,相应地,出现类似情况时,也需要辅助以格式转换步骤。若采用人工判断的方法,则不需要考虑统一数据库之间的格式兼容问题,可以通过固定的字符转换函数,将差值以及时间阈值统一转换为字符,最后通过人工的方式完成,此种方式虽然增加了人为因素,但可以降低运算复核,在实际的应用过程中,更为可取。更为具体地,本步骤的目的在于,通过判断,可以发现所述终端是否符合执行所述标注行为的基本条件,即,本发明的目的在于定位一线临床医生,通过他们完成数据的标注,所述身份时间戳可以理解为最近一次确认其医生身份的时间点,而发起时间戳就是启动执行标注行为的时间点,若两个时间点差值过大,则表明医生脱离临床工作时间较长,不适宜作为标注终端,但差值是否过大不能依赖于主观的判断,而是需要客观的标准,为此引入时间阈值,通过系统设定时间阈值而达到发明目的。例如,时间阈值可以设定为24小时,即,医生最近一次临床行为与标注行为的时间间隔在24小时之内,系统即认定医生符合基本条件,该医生可以使用其专属终端启动后续的标注行为,即,医生对应的终端被确定为标注终端。
进一步地,若所述差值小于所述时间阈值,则执行步骤S104,所述差值对应的所述终端确定为标注终端。
图2是示出了步骤S101中,一种身份时间戳的生成方式的流程图,包括如下步骤:
执行步骤S1011,所述终端发起所述标注行为之后,向后台系统发送所述身份确认请求,所述身份确认请求对应至少一个所述终端。具体地,所述身份确认请求中所包含的终端信息可以采用多种形式,例如,可以是终端的设备码,又例如,可以是终端在后台系统的串码,但此种情形下,需要后台系统与第三方系统具有同样的编码规则。更为具体地,所述身份确认请求可以用于确认一个终端,也可以用于确定多个终端,。
进一步地,执行步骤S1012,获取所述身份确认请求的时间戳。本领域技术人员理解,所述身份确认请求的码文是用于定位所述终端,当所述第三方系统定位所述终端后,则需要进一步确定所述身份确认请求的发出时间,也就是本步骤中的所述身份确认请求的时间戳。具体地,本步骤所确定的时间戳能够体现出所述终端最近一次更新身份的时间。更为具体地,如果将所述终端理解为医生,本步骤的目的在于确定与该名医生相关的身份信息的最近一次的更新时间,且身份信息的更新与标注行为是相关的,相应地,步骤S1011中,所述终端发起所述标注行为之后,后台系统才发送所述身份确认请求。例如,即使在后台系统中记录的该名医生的身份信息符合执行标注行为的条件,但如果其身份信息的最近一次更新时间是1年前或者数年前,则该名医生对应的终端仍然不宜作为标注终端。
进一步地,执行步骤S1013,判断所述第三方系统是否向所述后台系统发出确认反馈,具体地,所述第三方系统可以理解为政府管理部门或者行业主管机构,所述第三方系统发出确认反馈表示对所述终端资质的认可,此种情形下,即可将身份确认请求的时间戳作为所述身份时间戳,即,所述身份确认请求发出的时间戳能够代表所述终端最新的执业状态。
进一步地,若所述第三方系统向所述后台系统发出确认反馈,则执行步骤S1014,将发送所述身份确认请求的时间戳作为所述身份时间戳。
作为另一种情形,若所述第三方系统未向所述后台系统发送确认反馈,则执行步骤S1015,将所述终端的注册时间戳作为所述身份时间戳,其中,所述注册时间戳是指所述终端在第三方系统完成注册的时间戳。具体地,所述第三方系统可以理解为政府管理部门或者行业主管机构,所述第三方系统未发出确认反馈表示不对所述终端资质的认可,在实际应用中,也就是说所述终端所绑定的医生在发出身份确认请求的时间点已经脱离临床工作,此时,将所述终端的注册时间戳作为所述身份时间戳,所述注册时间戳是指所述终端在后台系统完成注册的时间点,也就是将所述终端注册的时间作为其对应的医生最近的临床执业时间点。更为具体地,若所述注册时间戳与所述身份确认请求发出的时间间隔不大,则实际上并不影响所述终端被却确认标注终端,但是,如果间隔时间过长,则会显著影响所述身份时间戳和所述发起时间戳的差值,因为此时所述身份时间戳相当于所述终端的注册时间戳,也就是说,所述终端在后台系统注册的越早,则所述差值就越大,因此所述差值大于所述时间阈值的可能性就越大,所述终端很可能就不会被确认为标注终端。
图3示出了本发明的第二实施例,另一种确定医学数据标注终端的控制方法,包括如下步骤:
首先执行步骤S201,获取多个终端的多个身份时间戳以及标注行为的发起时间戳。具体地,可以结合步骤S101予以理解,在此不予赘述。
进一步地,执行步骤S202,计算多个所述身份时间戳与所述发起时间戳的多个差值。具体地,结合步骤S102予以理解,在此不予赘述。
进一步地,执行步骤S203,判断是否存在多个所述差值是否小于后台系统设定的时间阈值,具体地,判断所述差值是否小于所述时间阈值的方法可以结合步骤S103予以理解,在此不予赘述。
进一步地,若多个所述差值小于所述时间阈值,执行步骤S204,将小于所述时间阈值的多个所述差值从小到大依次排序,选定排序在前的N个所述差值对应的N个所述终端作为标注终端,其中,N≥1且N的数值由后台系统生成。更为具体地,本步骤不同于所述步骤S103之处在于,本步骤中,有多个所述终端符合作为标注终端的基本条件,此种情况通常出现在所述时间阈值设定较大的情形,此时,需要进一步缩小标注终端的范围,提高标注的质量。相应地,本步骤通过限定所述标注终端的数量实现技术目的,具体数量由后台系统完成,优选地,所述后台系统根据数据处理量实时调整N的数值,智能分配所述标注终端的数量。
图4示出了本发明的第三实施例,另一种确定医学数据标注终端的控制方法,包括如下步骤:
首先执行步骤S301,获取多个终端的多个身份时间戳以及标注行为的发起时间戳。具体地,可以结合步骤S101予以理解,在此不予赘述。
进一步地,执行步骤S302,计算多个所述身份时间戳与所述发起时间戳的多个差值。具体地,结合步骤S102予以理解,在此不予赘述。
进一步地,执行步骤S303,判断是否存在多个所述差值是否小于后台系统设定的时间阈值,具体地,判断所述差值是否小于所述时间阈值的方法可以结合步骤S103予以理解,在此不予赘述。
进一步地,若多个所述差值小于后台系统设定的时间阈值,则执行步骤S304,调取小于所述时间阈值的差值对应的一个所述终端在后台系统中的多个历史行为,将多个所述历史行为进行向量化处理生成多个历史行为向量。本领域技术人员理解,本实施例的目的在于,在多个终端均符合作为所述标注终端的条件的前提下,进一步找到最适合标注医学数据的标注终端,这需要以单个终端为单位逐一判断,相应地,结合终端的历史行为,从历史行为中发现所述终端对应的医生所擅长的专业领域。更为具体地,所述向量化处理,就是将历史行为符号数学化,即常用的NLP(Neuro-Linguistic Programming),目前最常用的词表示方法是独热表示,这种方法把每个词表示为一个很长的向量。这个向量的维度是词表大小,其中绝大多数元素为0,只有一个维度的值为1,这个维度就代表了当前的词。例如,“腹痛”表示为[0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0…],“发热”表示为[0 0 0 0 0 0 0 01 0 0 0 0 0 0 0…],每个词都是茫茫0海中的一个1,这种独热表示如果采用稀疏方式存储,也就是给每个词分配一个数字ID。相应地,本步骤中的多个所述历史行为向量对应了多个数字ID。在一个优选的实施方式中,后台系统在存储历史行为记录时,按照历史行为关键词进行存储,这样在执行向量化处理时可以减少分词的步骤。
进一步地,执行步骤S305,将所述标注行为进行向量化处理生成标注行为向量,其中对所述历史行为和所述标注行为进行向量化处理的方法相同。具体地,向量化处理的方法如前述步骤S204所述,在此不予赘述。本领域技术人员理解,所述标注行为就是医学关键词的标注,相应地,对所述标注行为进行向量化处理的过程就是对医学关键词的处理,因此不需要进行分词处理。更为具体地,所述历史行为和所述标注行为进行向量化处理的规则是相同的,以便进一步判断历史行为和标注行为的相似性。
进一步地,执行步骤S306,分别计算多个所述历史行为向量与所述标注行为向量的多个相似度。具体地,计算所述相似度的算法有多种,例如欧几里得距离法,其通过判断历史行为向量和标注行为向量的自然长度得到所述相似度,又例如,皮尔逊系数法,其通过协方差除以历史行为向量和标注行为向量的标注差得到所述相似度,又例如余弦距离法,其通过计算历史行为向量和标注行为向量夹角的余弦值得到所述相似度。
优选地,采用余弦距离法判断所述历史行为向量和标注行为向量的相似度,其原理在于,本实施例在于从客观的角度判断所述终端是否适合执行所述标注行为,而所述历史行为和所述标注行为均为医学领域的专业词汇,余弦距离法对数值本身不敏感,其更加聚焦于两个向量在方向上的一致性或者差异性,即,判断历史行为和标注行为的相似性,更多的是在相同领域进行判断,其更适合用于判断医学领域行为的相似性。具体地,所述标注行为是标注消化道领域的症状,相应地,即需要判断所述终端的历史行为中是否与消化道领域相近的症状词汇,由于历史行为向量和标注行为向量采用相同的规则,则“腹痛”、“腹疼”、“肚痛”等词汇的向量的相似度可能较高。例如,“腹痛”、“发热”、“腹疼”三个词汇向量后的结果如下:腹痛=(1,0,0)、发热=(0,1,0)、腹疼=(10,0,0),如果仅从数值上看,腹通和发热应该相似,阐述的是一个维度上的含义,如果用欧式距离或者皮尔逊系数法计算相似度,腹痛和发热的相似度就比腹痛和腹疼的相似度高,而如果用余弦距离法计算,则腹痛和腹疼则更为相似。更为具体地,所述标准范围由后台系统进行设定,所述标注范围越窄,则对行为的相似度要求就越高。
进一步地,执行步骤S307,判断所述相似度是否在标准范围内。
进一步地,若至少一个所述相似度在标准范围内,则执行步骤S308,确定步骤S304中的所述终端为所述标注终端,所述标准范围由后台系统设定。
进一步地,如图4所示的,循环执行步骤S301至S308,直至小于所述时间阈值的差值对应的全部所述终端逐一筛选完毕,最终选出更为合适的执行标注行为的终端。本领域技术人员理解,本实施例是对图1具体实施方式的进一步优化,即,首先判断身份时间戳和发起时间戳的差值是否在时间阈值的范围内,对所述终端进行第一次筛选,在此基础上,在调取符合条件的所述终端的历史行为,将历史行为和标注行为进一步做相似度判断,选出更为合适的标注终端。本发明不同于现有级数之处在于,现有技术中更多的着眼于数据本身的算反,本发明首先筛选合适的终端,在此基础上开展数据标注工作,这是现有技术所未曾关注的角度。
图5示出了发明的第四实施例,另一种确定医学数据标注终端的控制方法,包括如下步骤:
首先执行步骤S401,获取多个终端的多个身份时间戳以及标注行为的发起时间戳。具体地,可以结合步骤S101予以理解,在此不予赘述。
进一步地,执行步骤S402,计算多个所述身份时间戳与所述发起时间戳的多个差值。具体地,结合步骤S102予以理解,在此不予赘述。
进一步地,执行步骤S403,判断是否存在多个所述差值是否小于后台系统设定的时间阈值,具体地,判断所述差值是否小于所述时间阈值的方法可以结合步骤S103予以理解,在此不予赘述。
进一步地,若多个所述差值小于后台系统设定的时间阈值,则执行步骤S404,调取小于所述时间阈值的差值对应的一个所述终端在后台系统中的多个历史行为,将多个所述历史行为进行向量化处理生成多个历史行为向量。具体地,本步骤可以结合步骤S304予以理解,在此不予赘述。
进一步地,执行步骤S405,将所述标注行为进行向量化处理生成标注行为向量,其中对所述历史行为和所述标注行为进行向量化处理的方法相同。具体地,本步骤可以结合步骤S305予以理解,在此不予赘述。
进一步地,执行步骤S406,分别计算多个所述历史行为向量与所述标注行为向量的多个相似度,具体地,本步骤可以结合步骤S306予以理解,在此不予赘述。
进一步地,执行步骤S407,判断所述相似度是否在标准范围内。
进一步地,执行步骤S408,若至少一个所述相似度在标准范围内,则确定步骤S404中的所述终端为所述标注终端,所述标准范围由后台系统设定。
进一步地,执行步骤S409,判断所述标注行为向量是否属于数据向量集合,所述数据向量集合是指对所述标注行为的目标数据进行向量化处理后生成的数据集合。具体地,本步骤的目的在于判断所述终端被确定为标注终端后,其执行的标注行为与所述目标数据的契合度。更为具体地,本步骤使用的是集合判断法,即直接判断所述标注行为向量是否属于数据向量集合,本领域技术人员理解,本步骤涉及对目标数据的向量化,也就是需要的目标数据进行分词处理,其中,分词处理所依据的医学词库是由所述终端定义完成,其原理在于,医学数据的分词不同于传统的自然语言分词,其专业化要求更高,为降低本步骤执行的准确性,引入所述终端定义的医学词库用于对目标数据进行向量化,可以判断所述标注行为向量是否属于数据向量集合的准确度。
进一步地,执行步骤S410,若所述标注行为向量属于所述数据向量集合,则对所述标注行为对应的所述标注终端执行+1操作。具体地,所述+1操作是对执行所述标注行为的所述标注终端的一次标记行为,表示所述标注终端正确完成标注行为的一次认可,在实际应用中,所述标记终端被执行+1操作的次数越多,表明其标注准确度越高。优选地,步骤S401至步骤S410描述了从标注终端选择到标注行为完成后的评价行为,是与标注终端相关的一个完整的标注流程,相应地,在启动下一个新的标注流程时,也就是重新开始执行步骤S401时,可以对上一个标注流程完毕后已经执行+1操作的所述标注终端(指上一个标注流程被确定为标注终端)确定为下一个标注流程的待选终端,即,对完成上一个标注流程作出贡献的终端有权优先进入下一个标注流程。
图6示出了本发明的另一具体实施方式,一种确定医学数据标注终端的控制系统,由多个模块组成,具体地,多个模块可以是硬件、由处理器执行的软件或者二者的组合。具体地,如果通过软件模块实现,可将预先的程序烧录到所述处理器中,或者将软件安装到预置的系统中;如果通过硬件实现,则可利用现场可编程门阵列(FPGA)将对应的功能固定化实现。
进一步地,所述软件模块可以存储于RAM存储器、闪存、ROM存储器、EPROM存储器、硬盘、或本领域已知的任何其他形式的存储介质。通过将所述存储介质耦接至处理器,从而使所述处理器能够从所述存储介质中读取信息,并且可以向所述存储介质写入信息。作为一种变化,所述存储介质可以是处理器的组成部分,或者所述处理器和所述存储介质均位于专用集成电路(ASIC)上。
进一步地,所述硬件可以是能够实现具体功能的通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其他可编程逻辑器件、分立门或晶体管逻辑器件、分立硬件组件或以上这些硬件的组合。作为一种变化,还可以通过计算设备的组合实现,例如,DSP和微处理器的组合、多个微处理器的组合、与DSP通信结合的一个或者多个微处理器的组合等。
结合图6的示意图,其中的时间戳采集模块,其用于获取多个终端的多个身份时间戳以及标注行为的发起时间戳;所述时间戳采集模块将身份时间戳和发起时间戳发送至运算模块,其用于计算多个所述身份时间戳与所述发起时间戳的多个差值;所述运算模块将多个所述差值发送至差值判断模块,其用于判断所述差值是否小于后台系统设定的时间阈值;所述差值判断模块将判断结果发送至标注终端确定模块,其用于将所述差值小于所述时间阈值所对应的所述终端确定为标注终端。
图7示出了本发明的第五实施例,另一种确定医学数据标注终端的控制系统,其不同于图6的控制系统之处在于,所述时间戳采集模块包括身份确认模块和身份时间戳确定模块,其中的身份确认模块,其用于所述终端发起所述标注行为之后,向后台系统发送所述身份确认请求。具体地,所述后台系统与所述控制系统是相互独立的系统。所述身份确认模块发送身份确认请求,身份时间戳确定模块启动工作,其用于获取所述身份确认请求的时间戳,并基于所述第三方系统是否向所述后台系统发送确认反馈确定所述身份时间戳。更为具体地,所述身份时间戳确定后,进一步与运算模块、差值判断模块和标注终端确定模块交互后,完成确定标注终端的流程。
图8示出了本发明的第六实施例,另一种确定医学数据标注终端的控制系统,其不同于图7的控制系统之处在于,所述标注终端确定模块包括历史行为调取模块、向量生成模块、相似度计算模块和确定模块。具体地,时间戳采集模块、运算模块和差值判断模块交互后完成差值判断后,所述标注终端确定模块启动工作,其中,历史行为调取模块,其用于调取小于所述时间阈值的差值对应的一个所述终端在后台系统中的多个历史行为;历史行为调取模块将多个历史行为发送至向量生成模块,其用于将多个所述历史行为进行向量化处理生成多个历史行为向量,以及将所述标注行为进行向量化处理生成标注行为向量,其中对所述历史行为和所述标注行为进行向量化处理的方法相同;向量生成模块将历史行为向量和标注行为向量发送至相似度计算模块,其用于分别计算多个所述历史行为向量与所述标注行为向量的多个相似度;相似度计算模块将多个相似度发送至确定模块,其用于将在标准范围内的所述相似度对应的所述终端确定为所述标注终端,所述标准范围由后台系统设定。
本领域技术人员理解,图6至图8中各模块的运算流程可以结合图1至图5的控制方法的记载,在此不予赘述。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变形或修改,这并不影响本发明的实质内容。
Claims (8)
1.一种确定医学数据标注终端的控制方法,其特征在于,包括如下步骤:
a.获取多个终端的多个身份时间戳以及标注行为的发起时间戳;其中,所述身份时间戳为最近一次确认其医生身份的时间点;获取某个所述发起时间戳包括:某个所述终端完成执行所述标注行为的前置行为时,确定该所述终端发起所述标注行为,该所述终端执行所述前置行为的时间点即为所述发起时间戳;
b.计算多个所述身份时间戳与所述发起时间戳的多个差值;
c.判断所述差值是否小于后台系统设定的时间阈值,若所述差值小于所述时间阈值,则所述差值对应的所述终端确定为标注终端;
其中,所述身份时间戳通过如下步骤生成:
a11.所述终端发起所述标注行为之后,向后台系统发送所述身份确认请求,所述身份确认请求对应至少一个所述终端;
a12.获取所述身份确认请求的时间戳,若第三方系统向所述后台系统发出确认反馈,则将发送所述身份确认请求的时间戳作为所述身份时间戳;若所述第三方系统未向所述后台系统发送确认反馈,则将所述终端的注册时间戳作为所述身份时间戳,其中,所述注册时间戳是指所述终端在第三方系统完成注册的时间戳。
2.根据权利要求1所述的控制方法,其特征在于,所述步骤c中,多个所述差值小于所述时间阈值,则确定所述标注终端的步骤如下:
c1.将小于所述时间阈值的多个所述差值从小到大依次排序,选定排序在前的N个所述差值对应的N个所述终端作为标注终端,其中,N≥1且N的数值由后台系统生成。
3.根据权利要求2所述的控制方法,其特征在于,所述步骤c1中,确定所述标注终端的步骤如下:
c11.调取小于所述时间阈值的差值对应的一个所述终端在后台系统中的多个历史行为,将多个所述历史行为进行向量化处理生成多个历史行为向量;
c12.将所述标注行为进行向量化处理生成标注行为向量,其中对所述历史行为和所述标注行为进行向量化处理的方法相同;
c13.分别计算多个所述历史行为向量与所述标注行为向量的多个相似度,若至少一个所述相似度在标准范围内,则确定步骤C11中的所述终端为所述标注终端,所述标准范围由后台系统设定。
4.根据权利要求3所述的控制方法,其特征在于,所述步骤c13之后,执行如下步骤:
c14.重复步骤c11至步骤c13,直至小于所述时间阈值的差值对应的全部所述终端逐一筛选完毕。
5.根据权利要求4所述的控制方法,其特征在于,所述步骤c之后,执行如下步骤:
d.判断所述标注行为向量是否属于数据向量集合,所述数据向量集合是指对所述标注行为的目标数据进行向量化处理后生成的数据集合;
e.若所述标注行为向量属于所述数据向量集合,则对所述标注行为对应的所述标注终端执行+1操作。
6.根据权利要求5所述的控制方法,其特征在于,所述步骤e之后执行如下步骤:
f.重新开始执行步骤a;
g.将所述步骤e中已经执行+1操作的所述标注终端确定为所述步骤a中的所述终端。
7.一种确定医学数据标注终端的控制系统,其特征在于,包括:
时间戳采集模块,其用于获取多个终端的多个身份时间戳以及标注行为的发起时间戳;其中,所述身份时间戳为最近一次确认其医生身份的时间点;获取某个所述发起时间戳包括:某个所述终端完成执行所述标注行为的前置行为时,确定该所述终端发起该所述标注行为,该所述终端执行所述前置行为的时间点即为所述发起时间戳;运算模块,其用于计算多个所述身份时间戳与所述发起时间戳的多个差值;
差值判断模块,其用于判断所述差值是否小于后台系统设定的时间阈值;
标注终端确定模块,其用于将所述差值小于所述时间阈值所对应的所述终端确定为标注终端;
身份确认模块,其用于所述终端发起所述标注行为之后,向后台系统发送所述身份确认请求;
身份时间戳确定模块,其用于获取所述身份确认请求的时间戳,并基于第三方系统是否向所述后台系统发送确认反馈确定所述身份时间戳。
8.根据权利要求7所述的控制系统,其特征在于,所述标注终端确定模块包括:
历史行为调取模块,其用于调取小于所述时间阈值的差值对应的一个所述终端在后台系统中的多个历史行为;
向量生成模块,其用于将多个所述历史行为进行向量化处理生成多个历史行为向量,以及将所述标注行为进行向量化处理生成标注行为向量,其中对所述历史行为和所述标注行为进行向量化处理的方法相同;
相似度计算模块,其用于分别计算多个所述历史行为向量与所述标注行为向量的多个相似度;
确定模块,其用于将在标准范围内的所述相似度对应的所述终端确定为所述标注终端,所述标准范围由后台系统设定。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910574737.7A CN110491488B (zh) | 2019-06-28 | 2019-06-28 | 一种确定医学数据标注终端的控制方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910574737.7A CN110491488B (zh) | 2019-06-28 | 2019-06-28 | 一种确定医学数据标注终端的控制方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110491488A CN110491488A (zh) | 2019-11-22 |
CN110491488B true CN110491488B (zh) | 2023-10-27 |
Family
ID=68546455
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910574737.7A Active CN110491488B (zh) | 2019-06-28 | 2019-06-28 | 一种确定医学数据标注终端的控制方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110491488B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103150374A (zh) * | 2013-03-11 | 2013-06-12 | 中国科学院信息工程研究所 | 一种识别微博异常用户的方法和系统 |
CN105260414A (zh) * | 2015-09-24 | 2016-01-20 | 精硕世纪科技(北京)有限公司 | 用户行为相似性计算方法及装置 |
CN106411812A (zh) * | 2015-07-27 | 2017-02-15 | 阿里巴巴集团控股有限公司 | 用户身份的验证方法、系统和验证服务器 |
CN109657755A (zh) * | 2018-12-21 | 2019-04-19 | 雨燕物联科技(深圳)有限公司 | 物体定位系统 |
-
2019
- 2019-06-28 CN CN201910574737.7A patent/CN110491488B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103150374A (zh) * | 2013-03-11 | 2013-06-12 | 中国科学院信息工程研究所 | 一种识别微博异常用户的方法和系统 |
CN106411812A (zh) * | 2015-07-27 | 2017-02-15 | 阿里巴巴集团控股有限公司 | 用户身份的验证方法、系统和验证服务器 |
CN105260414A (zh) * | 2015-09-24 | 2016-01-20 | 精硕世纪科技(北京)有限公司 | 用户行为相似性计算方法及装置 |
CN109657755A (zh) * | 2018-12-21 | 2019-04-19 | 雨燕物联科技(深圳)有限公司 | 物体定位系统 |
Also Published As
Publication number | Publication date |
---|---|
CN110491488A (zh) | 2019-11-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2022267678A1 (zh) | 视频问诊方法、装置、设备及存储介质 | |
CN110675951A (zh) | 智能化的疾病诊断方法及装置、计算机设备与可读介质 | |
KR102237449B1 (ko) | 환자 진단 학습 방법, 서버 및 프로그램 | |
CN110826908A (zh) | 人工智能预测的评估方法、装置、存储介质及电子设备 | |
CN109887596A (zh) | 基于知识图谱的慢阻肺疾病诊断方法、装置和计算机设备 | |
CN113724848A (zh) | 基于人工智能的医疗资源推荐方法、装置、服务器及介质 | |
CN110827941A (zh) | 电子病历信息校正方法及系统 | |
CN110619959A (zh) | 一种智能分诊的方法及系统 | |
WO2021032055A1 (zh) | 临床试验报告自动录入方法及装置、电子设备、存储介质 | |
CN111627512A (zh) | 一种相似病历的推荐方法、装置,电子设备及存储介质 | |
CN111933291A (zh) | 医疗信息推荐装置、方法、系统、设备及可读存储介质 | |
CN112331298A (zh) | 开具药方的方法、装置、电子设备及存储介质 | |
CN111383754B (zh) | 医疗决策方法、医疗决策装置、电子设备及存储介质 | |
CN111627516A (zh) | 一种慢性阻塞性肺病患者药物治疗管理系统及方法 | |
CN112447270A (zh) | 一种用药推荐方法、装置、设备及存储介质 | |
CN105956412A (zh) | 基于智能图文识别实现冠心病临床数据收集的系统及方法 | |
CN114121266A (zh) | 一种智能化的辅助诊断方法和系统 | |
CN114141377A (zh) | 一种建立诊断规则库的方法、诊断信息审核的方法及设备 | |
CN110223783B (zh) | 一种用于在多个终端交互医学数据的控制方法 | |
CN112071431B (zh) | 基于深度学习和知识图谱的临床路径自动生成方法及系统 | |
CN117216322A (zh) | 一种电子病历的生成方法、装置、设备及存储介质 | |
CN110491488B (zh) | 一种确定医学数据标注终端的控制方法及系统 | |
US20230148945A1 (en) | Dynamic neuropsychological assessment tool | |
JP7315165B2 (ja) | 診断支援システム | |
CN115831298A (zh) | 基于医院管理信息系统的临床试验患者招募方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |