CN111081370A - 一种用户分类方法及装置 - Google Patents
一种用户分类方法及装置 Download PDFInfo
- Publication number
- CN111081370A CN111081370A CN201911025480.6A CN201911025480A CN111081370A CN 111081370 A CN111081370 A CN 111081370A CN 201911025480 A CN201911025480 A CN 201911025480A CN 111081370 A CN111081370 A CN 111081370A
- Authority
- CN
- China
- Prior art keywords
- classification
- classification type
- user
- physical condition
- physical
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 78
- 238000012163 sequencing technique Methods 0.000 claims abstract description 16
- 238000004891 communication Methods 0.000 claims description 19
- 238000004364 calculation method Methods 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 10
- 238000012216 screening Methods 0.000 claims description 5
- 238000012545 processing Methods 0.000 abstract description 28
- 238000005516 engineering process Methods 0.000 abstract description 3
- 201000010099 disease Diseases 0.000 description 19
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 19
- 206010037660 Pyrexia Diseases 0.000 description 11
- 230000008569 process Effects 0.000 description 9
- 206010011224 Cough Diseases 0.000 description 8
- 208000004998 Abdominal Pain Diseases 0.000 description 4
- 208000002193 Pain Diseases 0.000 description 3
- 230000009471 action Effects 0.000 description 3
- 208000036071 Rhinorrhea Diseases 0.000 description 2
- 206010039101 Rhinorrhoea Diseases 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000007689 inspection Methods 0.000 description 2
- 208000024891 symptom Diseases 0.000 description 2
- 206010019233 Headaches Diseases 0.000 description 1
- 238000000342 Monte Carlo simulation Methods 0.000 description 1
- 206010028748 Nasal obstruction Diseases 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 231100000869 headache Toxicity 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/20—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/30—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
Landscapes
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Medical Informatics (AREA)
- Public Health (AREA)
- Biomedical Technology (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Pathology (AREA)
- Epidemiology (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供了一种用户分类方法及装置,属于数据处理技术领域。本申请通过获取用户的身体状况信息,身体状况信息包括用户具有的身体状况和/或不具有的身体状况;针对数据集中的每个第一分类类型,基于该第一分类类型包含各身体状况的概率、以及身体状况信息,计算用户属于该第一分类类型的预测概率;按照各第一分类类型的预测概率对各第一分类类型进行排序,得到分类类型序列,计算分类类型序列的置信度;如果置信度大于第一置信度阈值,在各第一分类类型包含的典型身体状况中,确定用户具有的目标典型身体状况;将目标典型身体状况所属的第一分类类型,作为用户的分类结果,以解决相关技术中用户分类结果准确率低的问题。
Description
技术领域
本申请涉及数据处理技术领域,尤其涉及一种用户分类方法及装置。
背景技术
随着智能医疗的发展,电子设备可以获取用户的身体状况,基于用户的身体状况对用户进行分类,得到分类结果,然后,电子设备可以根据分类结果,为用户提供挂号指引、预约挂号等医疗服务。
下面以网上问询为例,对相关技术中电子设备对用户进行分类的具体处理过程进行说明:电子设备可以根据预先存储的问询路径询问用户,得到用户反馈的身体状况信息,身体状况信息可以是具有某一身体状况、不具有某一身体状况。在获得用户反馈的全部身体状况信息后,电子设备根据全部身体状况信息、预设的概率计算公式,计算用户属于某一分类类型的预测概率值。然后,电子设备可以将预测概率值最大的分类类型,作为用户最可能属于的分类类型,得到分类结果。
然而,由于问询路径中各问题的设置依赖于最初设置问题时的人工经验,基于已经固化的问询路径询问用户,得到的身体状况信息不全面,因此,基于不全面的身体状况信息确定出的分类结果准确率低。
发明内容
本申请实施例的目的在于提供一种用户分类方法及装置,以解决相关技术中用户分类结果准确率低的问题。具体技术方案如下:
第一方面,提供了一种用户分类的方法,所述方法包括:
获取用户的身体状况信息,所述身体状况信息包括所述用户具有的身体状况和/或不具有的身体状况;
针对数据集中的每个第一分类类型,基于该第一分类类型包含各身体状况的概率、以及所述身体状况信息,计算所述用户属于该第一分类类型的预测概率;
按照各第一分类类型的预测概率对各第一分类类型进行排序,得到分类类型序列,计算所述分类类型序列的置信度;
如果所述置信度大于第一置信度阈值,在各所述第一分类类型包含的典型身体状况中,确定所述用户具有的目标典型身体状况;
将所述目标典型身体状况所属的第一分类类型,作为所述用户的分类结果。
可选的,所述方法还包括:
如果所述置信度小于所述第一置信度阈值,基于各所述第一分类类型包含的身体状况确定高频身体状况;
确定所述用户是否患有所述高频身体状况,得到更新后的所述用户的身体状况信息;
执行所述针对数据集中的每个第一分类类型,基于该第一分类类型包含各身体状况的概率、以及所述身体状况信息,计算所述用户属于该第一分类类型的预测概率步骤。
可选的,所述计算所述分类类型序列的置信度,包括:
基于所述第一分类类型包含的身体状况,确定待询问高频身体状况;
针对每个第一分类类型,基于该第一分类类型包含各身体状况的概率、以及所述用户不具有所述待询问高频身体状况时的身体状况信息,计算所述用户属于该第一分类类型的预测概率;
按照各第一分类类型的预测概率对各第一分类类型进行排序,得到预测分类类型序列;
计算所述分类类型序列与所述预测分类类型序列的相似度,得到所述分类类型序列的置信度。
可选的,所述高频身体状况的确定方式,包括:
在各所述第一分类类型中,确定第二分类类型;
根据同一身体状况在所述第二分类类型包含的身体状况中的出现频率,确定高频身体状况。
可选的,所述在各所述第一分类类型中,确定第二分类类型,包括:
如果所述置信度小于第二置信度阈值,将所述第一分类类型确定为所述第二分类类型,所述第二置信度阈值小于所述第一置信度阈值;
如果所述置信度大于所述第二置信度阈值,将所述分类类型序列中满足预设排列条件的第一分类类型确定为第二分类类型。
可选的,所述根据同一身体状况在所述第二分类类型包含的身体状况中的出现频率,确定高频身体状况,包括:
针对所述第二分类类型包含的各身体状况,确定包含该身体状况的概率大于预设概率阈值的第二分类类型的个数,得到同一身体状况在第二分类类型包含的身体状况中的出现频率;
将出现频率最高的身体状况确定为高频身体状况。
可选的,所述方法还包括:
将预测概率小于预测概率阈值的分类类型,确定为第三分类类型;
删除所述数据集中的所述第三分类类型、所述第三分类类型具有的身体状况、所述第三分类类型具有相应身体状况的概率,得到更新后的数据集;
所述基于各所述第一分类类型包含的身体状况确定高频身体状况包括:
基于所述身体状况信息对更新后的数据集中的分类类型进行筛选,确定更新后的第一分类类型;
基于所述更新后的第一分类类型包含的身体状况确定高频身体状况。
可选的,所述获取用户的身体状况信息之前,所述方法还包括:
获取用户的生理特征信息,所述生理特征信息包括年龄、性别中的至少一种;
获取与所述生理特征信息相匹配的分类类型、所述分类类型具有的身体状况、所述分类类型具有相应身体状况的概率,得到数据集。
第二方面,提供了一种用户分类的装置,所述装置包括:
第一获取模块,用于获取用户的身体状况信息,所述身体状况信息包括所述用户具有的身体状况和/或不具有的身体状况;
第一计算模块,用于针对数据集中的每个第一分类类型,基于该第一分类类型包含各身体状况的概率、以及所述身体状况信息,计算所述用户属于该第一分类类型的预测概率;
第二计算模块,用于按照各第一分类类型的预测概率对各第一分类类型进行排序,得到分类类型序列,计算所述分类类型序列的置信度;
第一确定模块,用于当所述置信度大于第一置信度阈值时,在各所述第一分类类型包含的典型身体状况中,确定所述用户具有的目标典型身体状况;
第二确定模块,用于将所述目标典型身体状况所属的第一分类类型,作为所述用户的分类结果。
可选的,所述方法还包括:
第三确定模块,用于当所述置信度小于所述第一置信度阈值时,基于各所述第一分类类型包含的身体状况确定高频身体状况;
更新模块,用于确定所述用户是否患有所述高频身体状况,得到更新后的所述用户的身体状况信息;
所述第一计算模块,还用于针对数据集中的每个第一分类类型,基于该第一分类类型包含各身体状况的概率、以及所述更新后的身体状况信息,计算所述用户属于该第一分类类型的预测概率。
可选的,所述第二计算模块包括:
第一确定子模块,用于基于所述第一分类类型包含的身体状况,确定待询问高频身体状况;
第一计算子模块,用于针对每个第一分类类型,基于该第一分类类型包含各身体状况的概率、以及所述用户不具有所述待询问高频身体状况时的身体状况信息,计算所述用户属于该第一分类类型的预测概率;
排序子模块,用于按照各第一分类类型的预测概率对各第一分类类型进行排序,得到预测分类类型序列;
第二计算子模块,用于计算所述分类类型序列与所述预测分类类型序列的相似度,得到所述分类类型序列的置信度。
可选的,所述第二确定模块,包括:
第二确定子模块,用于在各所述第一分类类型中,确定第二分类类型;
第三确定子模块,用于根据同一身体状况在所述第二分类类型包含的身体状况中的出现频率,确定高频身体状况。
可选的,所述第二确定子模块具体用于当所述置信度小于第二置信度阈值时,将所述第一分类类型确定为所述第二分类类型,所述第二置信度阈值小于所述第一置信度阈值;当所述置信度大于所述第二置信度阈值时,将所述分类类型序列中满足预设排列条件的第一分类类型确定为第二分类类型。
可选的,所述第三确定子模块具体用于针对所述第二分类类型包含的各身体状况,确定包含该身体状况的概率大于预设概率阈值的第二分类类型的个数,得到同一身体状况在第二分类类型包含的身体状况中的出现频率;将出现频率最高的身体状况确定为高频身体状况。
可选的,所述装置还包括:
第四确定模块,用于将预测概率小于预测概率阈值的分类类型,确定为第三分类类型;
第五确定模块,用于删除所述数据集中的所述第三分类类型、所述第三分类类型具有的身体状况、所述第三分类类型具有相应身体状况的概率,得到更新后的数据集;
所述第三确定模块包括:
第四确定子模块,用于基于所述身体状况信息对更新后的数据集中的分类类型进行筛选,确定更新后的第一分类类型;
第五确定子模块,用于基于所述更新后的第一分类类型包含的身体状况确定高频身体状况。
可选的,所述装置还包括:
第二获取模块,用于获取用户的生理特征信息,所述生理特征信息包括年龄、性别中的至少一种;
第三获取模块,用于获取与所述生理特征信息相匹配的分类类型、所述分类类型具有的身体状况、所述分类类型具有相应身体状况的概率,得到数据集。
第三方面,提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现第一方面所述的方法步骤。
第四方面,提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现第一方面所述的方法步骤。
第五方面,提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述任一所述的用户分类方法。
本申请实施例有益效果:
本申请实施例提供了一种用户分类方法及装置,本申请在获取用户具有的身体状况和/或不具有的身体状况后,针对数据集中的每个第一分类类型,基于该第一分类类型包含各身体状况的概率、以及身体状况信息,计算用户属于该第一分类类型的预测概率。然后,按照各第一分类类型的预测概率对各第一分类类型进行排序,得到分类类型序列,计算分类类型序列的置信度。之后,在置信度大于第一置信度阈值的情况下,在各第一分类类型包含的典型身体状况中,确定用户具有的目标典型身体状况,将目标典型身体状况所属的第一分类类型,作为用户的分类结果。
由于基于用户的身体状况信息,依次计算用户属于第一分类类型的预测概率、分类类型序列的置信度,动态改变问询路径,在置信度大于第一置信度阈值的情况下,确定用户具有的目标典型身体状况,将目标典型身体状况所属的第一分类类型,作为用户的分类结果,因此,能够保障分类结果的准确性。
当然,实施本申请的任一产品或方法并不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种用户分类方法的流程图;
图2为本申请实施例提供的另一种用户分类方法的流程图;
图3为本申请实施例提供的另一种用户分类方法的流程图;
图4为本申请实施例提供的另一种用户分类方法的流程图;
图5为本申请实施例提供的一种用户分类装置的结构示意图;
图6为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例提供了一种用户分类方法,可以应用于电子设备,电子设备可以具有数据处理功能,例如,电子设备可以是手机、平板电脑、个人电脑等设备。
电子设备可以基于数据集对用户进行分类,得到用户的分类类型,其中,数据集包括分类类型、分类类型包含的身体状况、分类类型包含相应身体状况的概率。数据集可以预先存储于电子设备中,由此,电子设备可以在检测到用户分类操作后,获取本地存储的数据集;或者,数据集可以存储于网络中,电子设备可以在检测到用户分类操作后,通过访问网络的方式获取数据集。
本申请实施例提供了一种电子设备生成数据集的实现方式:电子设备可以从互联网中爬取分类类型的相关信息,然后,根据爬取到的分类类型的相关信息生成数据集。其中,分类类型的相关信息包括多种分类类型、每种分类类型包含的身体状况、每种分类类型包含相应身体状况的概率。以分类类型为疾病为例,分类类型的相关信息包括多种疾病、每种疾病包含的身体状况、每种疾病包含相应身体状况的概率。疾病的相关信息还可以包括疾病的发病率、疾病的属性数据、身体状况的属性数据,疾病的属性数据可以为患者的性别、疾病的发病季节和诱因等;身体状况的属性数据可以为性别、年龄、症状属性、患病时间等,例如,身体状况为腹痛时,症状属性可以为“钝痛”、“刺痛”、“胀痛”。
在生成数据集后,电子设备可以采用本申请实施例提供的用户分类方法,基于用户反馈的身体状况信息对数据集中的分类类型进行筛选,从而确定分类结果。采用本申请实施例提供的用户分类方法,可以解决相关技术中分类结果准确率低的问题。
下面将结合具体实施方式,对本申请实施例提供的一种用户分类方法进行详细的说明,如图1所示,具体步骤如下:
步骤101,获取用户的身体状况信息。
其中,身体状况信息包括用户具有的身体状况和/或不具有的身体状况。
在实施中,在用户分类过程中,用户可以通过输入身体状况的方式,向电子设备反馈身体状况信息,电子设备可以将用户输入的具有的身体状况和/或不具有的身体状况,作为用户反馈的身体状况信息。
用户输入身体状况的方式可以是多种多样的,在一种可行的实现方式中,用户可以在电子设备预设显示界面内的输入框中输入具有的身体状况和/或不具有的身体状况。在另一种可行的实现方式中,用户可以在电子设备预设显示界面内用于表示是否具有某一身体状况的选项中,选择“是”选项或“否”选项。
例如,用户可以在手机预设显示界面内的输入框中输入具有的身体状况是“发烧”,不具有的身体状况是“咳嗽”。然后,电子设备可以获取到身体状况信息:具有“发烧”、不具有“咳嗽”。
步骤102,针对数据集中的每个第一分类类型,基于该第一分类类型包含各身体状况信息的概率、以及身体状况信息,计算用户属于该第一分类类型的预测概率。
在实施中,电子设备可以在数据集包含的多个分类类型中确定用户可能属于的第一分类类型。然后,电子设备可以针对每个第一分类类型,根据该第一分类类型包含各身体状况的概率、查询该第一分类类型包含已获取身体状况的概率,已获取身体状况为身体状况信息包含的用户具有的身体状况和/或不具有的身体状况。之后,电子设备可以根据第一分类类型包含已获取身体状况的概率,计算用户属于该第一分类类型的预测概率,得到用户属于各第一分类类型的预测概率。
本申请实施例中,可以用SQk表示身体状况,用Ak表示用户是否具有身体状况SQk,Ak=1表示用户具有身体状况SQk,Ak=0表示用户不具有身体状况SQk,在用户的身体状况信息包括身体状况SQk的情况下,用户属于分类类型Di的预测概率P(Ak|Di)的计算方式为:
针对用户先主动输入自身具有的身体状况和/或不具有的身体状况,再根据电子设备提示反馈是否具有某一身体状况,输入自身具有的身体状况和/或不具有的身体状况的情况,在用户主动输入自身具有的身体状况时,电子设备可以采用公式(2)计算用户属于第一分类类型Di的预测概率:
其中,Sinput1……Sinputm表示用户输入的身体状况,Sinputj是用户具有的身体状况和/或不具有的身体状况。P(Sinput.j|Di)是用户的身体状况信息为Sinputj时,用户属于第一分类类型Di的预测概率,P(Sinput1,Sinput2......|Di)是用户的身体状况信息包含身体状况Sinput1、Sinput2……Sinputm时,用户属于第一分类类型Di的预测概率。
在电子设备提示用户反馈是否具有某一身体状况之后,电子设备可以采用公式(3)计算用户属于第一分类类型Di的预测概率:
其中,k表示电子设备提示用户反馈是否具有的身体状况的个数,Az=1时表示用户具有身体状况SQz,Az=0表示用户不具有身体状况SQz。
例如,身体状况信息包含的身体状况为具有“发烧”、不具有“咳嗽”,电子设备可以针对数据集中的第一分类类型“感冒”,根据第一分类类型“感冒”具有各身体状况的概率,查询该第一分类类型“感冒”具有“发烧”的概率为0.5,不具有“咳嗽”的概率为0.1。然后,电子设备可以根据具有“发烧”的概率为0.5,不具有“咳嗽”的概率为0.1,计算用户属于该第一分类类型“感冒”的预测概率,得到0.06。
本申请实施例中,电子设备可以将数据集中的每个分类类型作为第一分类类型。电子设备也可以将数据集中满足预设筛选条件的分类类型作为第一分类类型,其中,预设筛选条件可以是具有的生物特征信息与用户的生物特征信息相匹配、也可以是预测概率大于预测概率阈值。
步骤103,按照各第一分类类型的预测概率对各第一分类类型进行排序,得到分类类型序列,计算分类类型序列的置信度。
在实施中,电子设备可以按照各第一分类类型的预测概率对各第一分类类型进行排序,得到分类类型序列。然后,电子设备可以计算分类类型序列的置信度。电子设备计算分类类型序列的置信度的具体处理过程后续会进行详细说明。
电子设备中可以预先存储有第一置信度阈值,在计算得到分类类型序列的置信度后,电子设备可以判断该置信度是否大于第一置信度阈值。如果该置信度大于第一置信度阈值,电子设备可以执行步骤104。如果置信度不大于第一置信度阈值,电子设备可以继续获取用户的身体状况信息,以基于更新后的身体状况信息重新计算分类类型序列,提高分类类型序列的置信度,具体处理过程后续会进行详细说明。
例如,第一置信度阈值为60%,电子设备计算得到的分类类型序列的置信度为82%,则电子设备可以判定置信度大于第一置信度阈值,然后,电子设备可以执行步骤104。
步骤104,如果置信度大于第一置信度阈值,在各第一分类类型包含的典型身体状况中,确定用户具有的目标典型身体状况。
在实施中,如果置信度大于第一置信度阈值,电子设备可以针对每个第一分类类型,在第一分类类型包含的身体状况中,确定典型身体状况,得到各第一分类类型的典型身体状况。
电子设备确定典型身体状况的方式可以是多种多样的,在一种可行的实现方式中,电子设备可以将第一分类类型具有的身体状况中概率最大的身体状况确定为典型身体状况。在另一种可行的实现方式中,数据集中可以存储有每个分类类型的典型身体状况,电子设备可以从数据集中获取第一分类类型的典型身体状况。
然后,电子设备可以显示各第一分类类型包含的典型身体状况,之后,电子设备可以获取用户的选择指令对应的典型身体状况,作为用户具有的目标典型身体状况。
例如,第一分类类型为“感冒”、“伤风”,第一分类类型“感冒”的典型身体状况为“发烧”,第一分类类型“伤风”的典型身体状况为“流鼻涕”,电子设备可以显示“发烧”和“流鼻涕”。然后,电子设备可以获取用户的选择指令对应的典型身体状况“发烧”,作为用户具有的目标典型身体状况。
步骤105,将目标典型身体状况所属的第一分类类型,作为用户的分类结果。
在实施中,电子设备可以将目标典型身体状况所属的第一分类类型作为用户的分类结果。
本申请实施例中,电子设备还可以获取目标典型身体状况所属的第一分类类型的相关信息,生成包含相关信息的用户分类结果。相关信息例如分类类型基本情况介绍、所需要的检查项目、检查指标等信息。
以分类类型为疾病为例,用户分类结果可以包括疾病基本情况介绍、所需要的检查项目和检查指标、常规治疗方法,用药信息中的一种或多种。进一步的,电子设备还可以根据用户分类结果,为用户推荐挂号科室、提供网上预约挂号服务。从而便于用户迅速就医,提高用户体验。
本申请实施例提供了一种用户分类方法,在获取用户具有的身体状况和/或不具有的身体状况后,针对数据集中的每个第一分类类型,基于该第一分类类型包含各身体状况的概率以及身体状况信息,计算用户属于该第一分类类型的预测概率。然后,按照各第一分类类型的预测概率对各第一分类类型进行排序,得到分类类型序列,计算分类类型序列的置信度。之后,在置信度大于第一置信度阈值的情况下,在各第一分类类型包含的典型身体状况中,确定用户具有的目标典型身体状况,将目标典型身体状况所属的第一分类类型,作为用户的分类结果。
由于基于用户的身体状况信息,依次计算用户属于各第一分类类型的预测概率、分类类型序列的置信度,动态改变问询路径,在置信度大于第一置信度阈值的情况下,确定用户具有的目标典型身体状况,将目标典型身体状况所属的第一分类类型,作为用户的分类结果,因此,能够保障分类结果的准确性。
可选的,本申请实施例提供了一种在置信度小于第一置信度阈值的情况下电子设备的具体处理过程,如图2所示,包括:
步骤201、获取用户的身体状况信息。
在实施中,此步骤的处理过程可以参照步骤101中的相关处理过程,此处不再赘述。
步骤202、针对数据集中的每个第一分类类型,基于该第一分类类型包含各身体状况的概率、以及用户的身体状况信息,计算用户属于该第一分类类型的预测概率。
在实施中,此步骤的处理过程可以参照步骤102中的相关处理过程,此处不再赘述。
步骤203、按照各第一分类类型的预测概率对各第一分类类型进行排序,得到分类类型序列,计算分类类型序列的置信度。
在实施中,此步骤的处理过程可以参照步骤103中的相关处理过程,此处不再赘述。
步骤204、如果置信度小于第一置信度阈值,基于各第一分类类型包含的身体状况确定高频身体状况。
在实施中,如果置信度小于第一置信度阈值,电子设备可以在各第一分类类型具有的身体状况中确定高频身体状况。
本申请实施例中,高频身体状况可以是工作人员根据经验预先设置的多数用户均患有的身体状况,例如,高频身体状况可以是鼻塞、发烧、头痛、咳嗽。高频身体状况可以是按照预设的分类曲线筛选各分类类型包含的身体状况时,处于分类曲线以内的身体状况,分类曲线例如蒙特卡洛模拟曲线。高频身体状况也可以是电子设备根据各第一分类类型包含的身体状况确定出的,具体处理过程后续会进行详细说明。
步骤205,确定用户是否患有高频身体状况,得到更新后的用户的身体状况信息。
在实施中,电子设备可以采用相关技术中任一种提示方式,提示用户输入是否具有高频身体状况,具体处理过程此处不再赘述。在获取用户输入的具有高频身体状况或不具有高频身体状况的反馈信息后,电子设备可以在用户的身体状况信息中添加具有高频身体状况或不具有高频身体状况,从而对用户的身体状况信息进行更新。
然后,电子设备可以执行步骤202,针对数据集中的每个第一分类类型,基于该第一分类类型包含各身体状况的概率、以及更新后的用户的身体状况信息,计算用户属于该第一分类类型的预测概率。
步骤206,如果置信度大于第一置信度阈值,在各第一分类类型包含的典型身体状况中,确定用户具有的目标典型身体状况。
在实施中,此步骤的处理过程可以参照步骤104中的相关具体处理过程,此处不再赘述。
步骤207,将目标典型身体状况所属的第一分类类型,作为用户的分类结果。
在实施中,此步骤的处理过程可以参照步骤105中的相关具体处理过程,此处不再赘述。
本申请实施例中,电子设备可以在置信度小于第一置信度阈值的情况下,基于各第一分类类型包含的身体状况确定高频身体状况,确定用户是否患有高频身体状况,得到更新后的用户的身体状况信息。然后,再基于更新后的用户的身体状况信息和数据集,确定用户的分类结果。由于在置信度小于第一置信度阈值的情况下,基于确定用户是否患有高频身体状况,获取用户更多的身体状况信息,使得电子设备能够基于更新后的身体状况信息确定出置信度更高的分类类型序列,从而可以能够快速确定用户分类结果。
另一方面,电子设备根据分类类型序列的置信度与第一置信度阈值的比较结果,确定用户是否具有高频身体状况从而更新分类类型序列,或者,确定用户具有的目标典型身体状况从而确定分类结果,实现了用户分类路径的动态调整,在保障用户分类结果的准确性的同时,能够快速确定用户分类结果。
可选的,电子设备根据第一分类类型包含的身体状况,确定高频身体状况的具体处理过程包括:
步骤1、在各第一分类类型中,确定第二分类类型。
在实施中,电子设备可以将第一分类类型作为第二分类类型。为了尽快提高分类类型序列的置信度,电子设备可以从各第一分类类型中,选取满足预设排列条件的第一分类类型,作为第二分类类型。预设排列条件可以是分类类型序列中排列在前的、预设数目个第一分类类型,预设排列条件也可以是预测概率大于预设概率阈值的第一分类类型。
本申请实施例中,当身体状况信息所包含的用户具有的身体状况和/或不具有的身体状况越多时,分类类型序列中,正确分类类型的预测概率排序会更高,因此每次确定高频身体状况时,可以忽略分类类型序列中排序很低的分类类型,只从排序较高的分类类型包含的身体状况中挑选高频身体状况。
可选的,电子设备中还可以预先设置有第二置信度阈值,第二置信度阈值例如0.2,在置信度小于第一置信度阈值的情况下,电子设备可以基于分类类型序列的置信度与第二置信度阈值的比较结果,在第一分类类型中确定第二分类类型,具体处理过程包括:判断置信度是否小于第二置信度阈值,如果置信度小于第二置信度阈值,则电子设备可以将第一分类类型确定为第二分类类型。如果置信度不小于第二置信度阈值,则电子设备可以将分类类型序列中满足预设排列条件的第一分类类型确定为第二分类类型。
当分类类型的置信度小于第二置信度阈值时,表明分类类型序列的置信度较低。因此,电子设备可以将各第一分类类型均作为第二分类类型,从第二分类类型包含的身体状况中确定高频身体状况,从而获取用户更全面的身体状况信息。当分类类型的置信度大于第二置信度阈值时,表明分类类型序列的置信度相对较高,预测的分类结果已经排列在分类类型序列的前部。因此,电子设备可以选取分类类型序列中满足预设排列条件的第一分类类型,作为第二分类类型,从第二分类类型包含的身体状况中确定高频身体状况,从而快速定位用户所属的分类类型。
本申请实施例中,第一置信度阈值和第二置信度阈值可以由工作人员根据经验预先设置,也可以由电子设备通过随机模拟的方式确定。
本申请实施例中,电子设备可以挑选数据集中,满足的数据作为第二分类类型,其中,M1表示第一分类类型,αk%用于表示从分类类型序列中选取排列在前的αk%个第一分类类型作为第二分类类型,rank表示分类类型序列,rank(P(Sinput 1,Sinput 2,...;A1,A2,...Ak|Di)为第一分类类型在分类类型序列中的排列序号,[1:int(M1×αk%)]表示集合{1,2,3……int(M1×αk%)}。
步骤2、根据同一身体状况在所述第二分类类型包含的身体状况中的出现频率,确定高频身体状况。
在实施中,电子设备根据同一身体状况在所述第二分类类型包含的身体状况中的出现频率,确定高频身体状况的方式可以是多种多样的,本申请实施例提供了两种实现方式,具体如下:
方式一、电子设备可以确定各第二分类类型包含的多个身体状况,统计同一身体状况在各第二分类类型包含的身体状况中的出现频率,得到各身体状况的出现频率。然后,电子设备可以将出现频率最高的身体状况确定为高频身体状况。
例如,第二分类类型为分类类型D1、分类类型D2、分类类型D3、分类类型D4和分类类型D5,各第二分类类型包含的多个身体状况为身体状况S1、身体状况S2、身体状况S3和身体状况S4。第二分类类型包含相应身体状况的概率如表1所示。
电子设备可以针对身体状况S1,统计身体状况S1在各第二分类类型包含的身体状况中的出现频率,得到4。类似的,电子设备可以统计得到身体状况S2在第二分类类型包含的身体状况中的出现频率为4,身体状况S3在第二分类类型包含的身体状况中的出现频率为5,身体状况S4在第二分类类型包含的身体状况中的出现频率为5。然后,电子设备可以将出现频率最高的身体状况S3或S4作为高频身体状况。
表1
身体状况S1 | 身体状况S2 | 身体状况S3 | 身体状况S4 | |
分类类型D1 | 0.9 | 0 | 0.2 | 0.3 |
分类类型D2 | 0 | 0.3 | 0.3 | 0.3 |
分类类型D3 | 0.7 | 0.6 | 0.1 | 0.25 |
分类类型D4 | 0.1 | 0.45 | 0.4 | 0.4 |
分类类型D5 | 0.8 | 0.5 | 0.7 | 0.3 |
本申请实施例中,基于同一身体状况在第二分类类型包含的身体状况中的出现频率,电子设备可以在各第二分类类型包含的身体状况中,确定出现频率高的高频身体状况。
方式二、电子设备可以基于预设概率阈值和出现频率,确定高频身体状况,具体处理过程包括以下步骤:针对第二分类类型包含的各身体状况,确定包含该身体状况的概率大于预设概率阈值的第二分类类型的个数,得到同一身体状况在第二分类类型包含的身体状况中的出现频率。将出现频率最高的身体状况确定为高频身体状况。
在实施中,电子设备可以针对第二分类类型包含的每个身体状况,确定各第二分类类型包含该身体状况的概率,然后,电子设备可以将各第二分类类型包含该身体状况的概率与预设概率阈值进行比较,得到对应的概率大于预设概率阈值的第二分类类型的个数,即,同一身体状况在第二分类类型包含的身体状况中的出现频率。之后,电子设备可以将出现频率最高的身体状况确定为高频身体状况。
例如,预设概率阈值为0.6,第二分类类型为分类类型序列中排列在前的4个第一分类类型,即,第二分类类型为分类类型D1、分类类型D2、分类类型D3和分类类型D4。针对如表1所示的情况,电子设备可以针对身体状况S1,确定各第二分类类型包含该身体状况的概率为0.9、0、0.7、0.1,然后,电子设备可以将各第二分类类型包含该身体状况的概率0.9、0、0.7、0.1与预设概率阈值0.6进行比较,得到对应的概率大于预设概率阈值的第二分类类型的个数为2,即,身体状况S1在第二分类类型包含的身体状况中的出现频率为2。
类似的,电子设备可以得到身体状况S2在第二分类类型包含的身体状况中的出现频率为1,身体状况S3在第二分类类型包含的身体状况中的出现频率为0,身体状况S4在第二分类类型包含的身体状况中的出现频率为0。之后,电子设备可以将出现频率最高的身体状况S1作为高频身体状况。
本申请实施例中,电子设备可以通过公式(4)、(5)实现基于预设概率阈值和出现频率,确定高频身体状况:
M2:=dim(D) (4)
其中,符号“:=”表示更新,dim(D)表示数据集D包含的分类类型的个数,M2表示预测概率不为0的分类类型的数量。分类类型Di包含身体状况Sj的概率大于或等于β时,的值为1,分类类型Di包含身体状况Sj的概率小于β时,的值为0。本申请实施例中,β的取值范围可以为[0,0.1)。Oj表示身体状况Sj在各分类类型包含的身体状况中的出现频率,dim(S)表示各分类类型包含的未知身体状况的个数,未知身体状况为各分类类型包含的身体状况中除已获取身体状况之外的身体状况,已获取身体状况为身体状况信息包含的用户具有的身体状况和/或不具有的身体状况。
本申请实施例中,基于预设概率阈值和同一身体状况在第二分类类型包含的身体状况中的出现频率,电子设备可以在第二分类类型具有的身体状况中,确定概率不低,且出现频率高的高频身体状况。
可以理解的是,采用两种方式确定出的高频身体状况可以是相同的,也可以是不同的。在采用方式二确定高频身体状况时,工作人员可以根据不同的需要设置不同的预设概率阈值,如果想要尽快对第二分类类型进行初步筛选,可以将预设概率阈值设置为较低的值,例如,可以将预设概率阈值设置为0.1。如果想要尽可能确保挑选出的高频身体状况属于正确的分类类型,可以将预设概率阈值设置为较高的值,例如,可以将预设概率阈值设置为0.6。
在实际处理过程中,电子设备可以采用上述两种方式中的任一种,或者结合两种方式确定高频身体状况,例如,当分类类型序列的置信度小于第二置信度阈值时,采用方式一确定高频身体状况;当分类类型序列的置信度大于第二置信度阈值时,采用方式二确定高频身体状况,本申请实施例对电子设备确定高频身体状况的具体方式不作具体限定。
本申请实施例中,电子设备可以在各第一分类类型中,确定第二分类类型;根据同一身体状况在所述第二分类类型包含的身体状况中的出现频率,确定高频身体状况。由此,便于后续基于用户是否具有高频身体状况更新用户的身体状况信息,以及基于身体状况信息计算确定分类结果,快速定位用户所属的分类类型。
可选的,本申请实施例提供了一种电子设备计算分类类型序列的置信度的实现方式,如图3所示,包括以下步骤:
步骤301、基于第一分类类型包含的身体状况,确定待询问高频身体状况。
在实施中,电子设备可以采用方式一或方式二,在第一分类类型包含的身体状况中确定高频身体状况,得到待询问高频身体状况。
步骤302、针对每个第一分类类型,基于该第一分类类型包含各身体状况的概率、以及用户不具有待询问高频身体状况时的身体状况信息,计算用户属于该第一分类类型的预测概率。
在实施中,电子设备可以假设用户不具有待询问高频身体状况,然后,将用户不具有待询问高频身体状况加入到用户的身体状况信息中,得到用户不具有待询问高频身体状况时的身体状况信息。
例如,用户的身体状况信息为具有“发烧”、不具有“咳嗽”,待询问高频身体状况为“腹痛”,电子设备可以假设用户不具有待询问高频身体状况“腹痛”,得到用户不具有待询问高频身体状况时的身体状况信息为具有“发烧”,不具有“咳嗽”、“腹痛”。
之后,电子设备可以针对每个第一分类类型,基于该第一分类类型包含各身体状况的概率、以及用户不具有待询问高频身体状况时的身体状况信息,计算用户属于该第一分类类型的预测概率。电子设备的具体计算过程可以参照步骤102,此处不再赘述。
本申请实施例中,用户不具有待询问高频身体状况时的身体状况信息可以表示为Bk'={Bk-1}∪{Ak=0},,其中,Ak表示用户是否具有身体状况SQk,Ak=1表示用户具有身体状况SQk,Ak=0表示用户不具有身体状况SQk。Bk-1表示当前用户的身体状况信息,Bk'表示假设用户不具有待询问高频身体状况时的身体状况信息,计算出的用户属于该第一分类类型的预测概率可以表示为P(Bk'|Di),i=1,2,...。
步骤303、按照各第一分类类型的预测概率对各第一分类类型进行排序,得到预测分类类型序列。
在实施中,电子设备可以按照各第一分类类型的预测概率对各第一分类类型进行排序,得到预测分类类型序列。
例如,分类类型序列如表2左侧序列,预测分类类型序列如表2右侧序列,其中,1……M为第一分类类型在分类类型序列中的排序序号,D1……DM为分类类型。排序第1表明用户在当前身体状况信息的状态下,属于该第一分类类型的可能性最高。
表2
步骤304、计算分类类型序列与预测分类类型序列的相似度,得到分类类型序列的置信度。
在实施中,电子设备可以采用相关技术中任一种序列相似度计算方式,计算分类类型序列和预测分类类型序列的相似度,具体处理过程此处不再赘述。序列相似度计算方式例如RBO(Rank Based Overlap,距离度量方法)准则、Kendall Tau distance(肯德尔陶距离)。
本申请实施例中,如果置信度小于第一置信度阈值,电子设备可以直接确定用户是否具有待询问高频身体状况。
可选的,为了提高分类结果的准确度,电子设备可以多轮次的确定待询问高频身体状况。例如,电子设备可以进行两轮次待询问高频身体状况的确定,在第一轮次中,电子设备可以基于第一分类类型包含的身体状况,确定一个待询问高频身体状况,计算得到分类类型序列的置信度。如果该置信度大于第一置信度阈值,电子设备可以再基于第一分类类型包含的身体状况,确定另一个待询问高频身体状况,计算得到分类类型序列的置信度,如果该置信度大于第一置信度阈值,表明分类类型序列的置信度相对较高,电子设备可以在各第一分类类型包含的典型身体状况中,确定用户具有的目标典型身体状况。如果该置信度不大于第一置信度阈值,电子设备可以直接确定用户是否具有该待询问高频身体状况。本申请实施例中,轮次的数量可以由工作人员设置,可以为1轮或2轮。
例如,电子设备可以通过提问的方式确定用户是否具有某一身体状况,在显示k-1个用户是否具有高频身体状况的问题后,电子设备可以在第一分类类型包含的身体状况中确定待询问高频身体状况SQk1。如果用户不具有待询问高频身体状况SQk1时,分类类型序列的置信度小于第一置信度阈值,则电子设备可以通过获取用户对于第k个问题的回复确定用户是否具有身体状况SQk1,基于用户反馈的信息更新身体状况信息,并再次计算分类类型序列、分类类型序列的置信度。如果用户不具有待询问高频身体状况SQk1时,分类类型序列的置信度大于第一置信度阈值,则执行在第一分类类型的典型身体状况中确定目标典型身体状况步骤。
本申请实施例中,电子设备可以基于第一分类类型包含的身体状况,确定待询问高频身体状况,针对每个第一分类类型,基于该第一分类类型包含各身体状况的概率、以及用户不具有待询问高频身体状况时的身体状况信息,计算用户属于该第一分类类型的预测概率。然后,按照各第一分类类型的预测概率对各第一分类类型进行排序,得到预测分类类型序列,再计算分类类型序列与预测分类类型序列的相似度,得到分类类型序列的置信度。
可选的,在用户分类过程中,电子设备还可以根据用户的身体状况信息对数据集进行更新,从而减少基于数据集中的第一分类类型,进行缩小下一次计算分类类型序列时所需要处理的数据量。
可选的,电子设备可以将数据集作为总数据集,在获取用户反馈的身体状况信息之前,电子设备可以根据用户的生理特征信息对总数据集进行筛选,生成与该用户相关的数据集,包括以下步骤:
步骤1、接收用户输入的生理特征信息。
其中,生理特征信息包括年龄、性别中的至少一种。
在实施中,电子设备在获取用户反馈的身体状况信息之前,提示用户输入生理特征信息,由此,电子设备可以到接收用户输入的生理特征信息。
步骤2、获取与生理特征信息相匹配的分类类型、分类类型具有的身体状况、分类类型具有相应身体状况的概率,得到数据集。
在实施中,电子设备可以从总数据集中,确定与用户的生理特征信息相匹配的分类类型,然后,从总数据集中提取匹配到的分类类型具有的身体状况、匹配到的分类类型具有相应身体状况的概率,得到数据集。
例如,用户输入的生理特征信息为20岁、女性,电子设备可以将总数据集中患病年龄包含20岁,身体状况的属性数据为女性的分类类型作为与用户的生理特征信息相匹配的分类类型,然后,从总数据集中提取匹配到的分类类型具有的身体状况、匹配到的分类类型具有相应身体状况的概率,得到数据集。
本申请实施例中,电子设备可以接收用户输入的生理特征信息,获取与生理特征信息相匹配的分类类型、分类类型具有的身体状况、分类类型具有相应身体状况的概率,得到数据集。由于根据用户输入的生理特征信息,对全部分类类型进行筛选,然后基于筛选后得到的分类类型生成与该用户相关的数据集,因此,能够减小数据集所包含分类类型的数量。进一步的,可以减少电子设备基于数据集计算分类类型的预测概率以及分类类型序列的置信度时的数据处理量,便于快速确定用户分类结果。
可选的,电子设备中可以存储有预测概率阈值,预测概率阈值例如0.1,如果某一分类类型的预测概率小于该预测概率阈值,则表明用户属于该分类类型的概率很低。因此,在针对同一用户的用户分类过程中,为了减少下一轮次中确定出的第一分类类型的数量,减轻计算第一分类类型的预测概率的数据处理压力,在每一轮次计算各第一分类类型的预测概率之后,电子设备可以基于预测概率阈值更新数据集,如图4所示,具体处理过程包括:
步骤401、将预测概率小于预测概率阈值的第一分类类型,确定为第三分类类型。
在实施中,电子设备可以针对数据集包含的各第一分类类型,比较该第一分类类型的预测概率和预测概率阈值,如果该第一分类类型的预测概率小于预测概率阈值,则电子设备可以将该第一分类类型确定为第三分类类型。如果该第一分类类型的预测概率不小于预测概率阈值,则电子设备可以不作后续处理。
例如,预测概率阈值为0,预测概率等于预测概率阈值的分类类型可以表示为:
其中,Di表示分类类型,P(Sinput.j|Di)表示分类类型Di包含身体状况Sinput.j的概率,m为用户的身体状况信息中包含的身体状况的个数。
然后,电子设备可以按照公式(7)更新数据集:
D:={Di:P(Sinput 1,Sinput 2,...;A1,A2,...Ak-1|Di)≠0,i=1,2...m} (7)
更新数据集之后,得到的数据集可以表示为:
其中,Bt1=Sinput1,Sinput2,……;A1,A2,……Ak-1,Bt1表示用户主动输入的自身具有的身体状况和/或不具有的身体状况、用户根据电子设备提示反馈的是否具有t1个高频身体状况,Lt2表示在提问用户是否具有t1个高频身体状况后,从分类类型序列中选取排列在前的Lt2个数据,电子设备可以通过参数学习确定Lt2。
步骤402、删除数据集中的第三分类类型、第三分类类型具有的身体状况、第三分类类型具有相应身体状况的概率,得到更新后的数据集。
在一种可行的实现方式中,电子设备也可以将预测概率大于预测概率阈值的第一分类类型,确定为第四分类类型。从数据集中提取第四分类类型、第四分类类型具有的身体状况、第四分类类型具有相应身体状况的概率,得到更新后的数据集。
由此,电子设备在确定第一分类类型时,可以基于身体状况信息对更新后的数据集中的分类类型进行筛选,确定用户可能患有的第一分类类型。
在更新数据集之后,电子设备可以通过公式(9)在第一分类类型包含的身体状况中确定典型身体状况,并更新各分类类型包含的未知身体状况的集合:
其中,DTi表示更新后的数据集DT中的分类类型,PDTi,Sj为分类类型DTi包含身体状况Sj的概率,DTi表示分类的预测结果,μ的取值范围可以为[0.6,1)。符号:=表示更新,S表示各分类类型包含的未知身体状况的集合,未知身体状况为各分类类型包含的身体状况中除已获取身体状况之外的身体状况,已获取身体状况为身体状况信息包含的用户具有的身体状况和/或不具有的身体状况。典型身体状况可以表示为
本申请实施例中,电子设备可以针对各第一分类类型,将预测概率小于预测概率阈值的第一分类类型,确定为第三分类类型。然后,删除数据集中的第三分类类型、第三分类类型具有的身体状况、第三分类类型具有相应身体状况的概率,得到更新后的数据集。由于基于预测概率阈值对各第一分类类型进行筛选,因此,能够减少下一轮次中确定出的第一分类类型的数量,减轻计算第一分类类型的预测概率的数据处理压力,从而能够快速确定用户分类结果,提高用户体验。
可选的,为进一步提高分类结果的准确性,电子设备可以基于分类类型的相关信息计算分类准确度。以分类类型为疾病为例,电子设备还可以基于疾病的季节、诱因计算用户属于某一疾病的准确度。
例如,电子设备确定目标典型身体状况所属的疾病表示为:
其中,k表示电子设备提示用户反馈是否具有的身体状况的个数,t1表示电子设备提示用户反馈是否具有典型身体状况的次数。
电子设备基于疾病的属性数据和发病率、计算得到用户属于各第一疾病的准确度为P(Ball;E;F|Dj),电子设备确定出的目标典型身体状况所属的疾病可以表示为:
其中,Ball表示用户的身体状况信息,可以包含用户主动输入的自身具有的身体状况和/或不具有的身体状况、用户根据电子设备提示反馈的是否具有高频身体状况、以及是否具有典型身体状况。Lall表示从分类类型序列中选取的排列在前的分类类型的数目,Lall例如5,E表示疾病的属性数据,F表示疾病的发病率,dim(D)表示数据集D包含的分类类型的个数。
本申请实施例中,在分类类型序列的置信度大于第一置信度阈值之后,电子设备可以针对分类类型序列包含的各第一分类类型,根据该第一分类类型的相关信息计算分类准确度,得到各第一分类类型的分类准确度,将分类准确度最高的第一分类类型作为分类结果。由于基于各第一分类类型的分类准确度确定分类结果,便于衡量分类结果的准确性,以及后续进一步提高分类结果的准确性。
基于相同的技术构思,本申请实施例还提供了一种用户分类装置,如图5所示,该装置包括:
第一获取模块510,用于获取用户的身体状况信息,所述身体状况信息包括所述用户具有的身体状况和/或不具有的身体状况;
第一计算模块520,用于针对数据集中的每个第一分类类型,基于该第一分类类型包含各身体状况的概率、以及所述身体状况信息,计算所述用户属于该第一分类类型的预测概率;
第二计算模块530,用于按照各第一分类类型的预测概率对各第一分类类型进行排序,得到分类类型序列,计算所述分类类型序列的置信度;
第一确定模块540,用于当所述置信度大于第一置信度阈值时,在各所述第一分类类型包含的典型身体状况中,确定所述用户具有的目标典型身体状况;
第二确定模块550,用于将所述目标典型身体状况所属的第一分类类型,作为所述用户的分类结果。
本申请实施例提供了一种用户分类装置,本申请在获取用户具有的身体状况和/或不具有的身体状况后,针对数据集中的每个第一分类类型,基于该第一分类类型包含各身体状况的概率、以及身体状况信息,计算用户属于该第一分类类型的预测概率。然后,按照各第一分类类型的预测概率对各第一分类类型进行排序,得到分类类型序列,计算分类类型序列的置信度。之后,在置信度大于第一置信度阈值的情况下,在各第一分类类型包含的典型身体状况中,确定用户具有的目标典型身体状况,将目标典型身体状况所属的第一分类类型,作为用户的分类结果。
由于基于用户的身体状况信息,依次计算用户属于第一分类类型的预测概率、分类类型序列的置信度,动态改变问询路径,在置信度大于第一置信度阈值的情况下,确定用户具有的目标典型身体状况,将目标典型身体状况所属的第一分类类型,作为用户的分类结果,因此,能够保障分类结果的准确性。
基于相同的技术构思,本申请实施例还提供了一种电子设备,如图6所示,包括处理器601、通信接口602、存储器603和通信总线604,其中,处理器601,通信接口602,存储器603通过通信总线604完成相互间的通信,
存储器603,用于存放计算机程序;
处理器601,用于执行存储器603上所存放的程序时,实现上述一种用户分类方法步骤。
上述电子设备提到的通信总线可以是外设部件互连标准(PeripheralComponentInterconnect,PCI)总线或扩展工业标准结构(Extended IndustryStandardArchitecture,EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述电子设备与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,RAM),也可以包括非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital SignalProcessing,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
在本申请提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述任一用户分类方法的步骤。
在本申请提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中任一用户分类方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅是本申请的具体实施方式,使本领域技术人员能够理解或实现本申请。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。
Claims (10)
1.一种用户分类的方法,其特征在于,所述方法包括:
获取用户的身体状况信息,所述身体状况信息包括所述用户具有的身体状况和/或不具有的身体状况;
针对数据集中的每个第一分类类型,基于该第一分类类型包含各身体状况的概率、以及所述身体状况信息,计算所述用户属于该第一分类类型的预测概率;
按照各第一分类类型的预测概率对各第一分类类型进行排序,得到分类类型序列,计算所述分类类型序列的置信度;
如果所述置信度大于第一置信度阈值,在各所述第一分类类型包含的典型身体状况中,确定所述用户具有的目标典型身体状况;
将所述目标典型身体状况所属的第一分类类型,作为所述用户的分类结果。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
如果所述置信度小于所述第一置信度阈值,基于各所述第一分类类型包含的身体状况确定高频身体状况;
确定所述用户是否患有所述高频身体状况,得到更新后的所述用户的身体状况信息;
执行所述针对数据集中的每个第一分类类型,基于该第一分类类型包含各身体状况的概率、以及所述身体状况信息,计算所述用户属于该第一分类类型的预测概率步骤。
3.根据权利要求1或2所述的方法,其特征在于,所述计算所述分类类型序列的置信度,包括:
基于所述第一分类类型包含的身体状况,确定待询问高频身体状况;
针对每个第一分类类型,基于该第一分类类型包含各身体状况的概率、以及所述用户不具有所述待询问高频身体状况时的身体状况信息,计算所述用户属于该第一分类类型的预测概率;
按照各第一分类类型的预测概率对各第一分类类型进行排序,得到预测分类类型序列;
计算所述分类类型序列与所述预测分类类型序列的相似度,得到所述分类类型序列的置信度。
4.根据权利要求2所述的方法,其特征在于,所述高频身体状况的确定方式,包括:
在各所述第一分类类型中,确定第二分类类型;
根据同一身体状况在所述第二分类类型包含的身体状况中的出现频率,确定高频身体状况。
5.根据权利要求4所述的方法,其特征在于,所述在各所述第一分类类型中,确定第二分类类型,包括:
如果所述置信度小于第二置信度阈值,将所述第一分类类型确定为所述第二分类类型,所述第二置信度阈值小于所述第一置信度阈值;
如果所述置信度大于所述第二置信度阈值,将所述分类类型序列中满足预设排列条件的第一分类类型确定为第二分类类型。
6.根据权利要求4所述的方法,其特征在于,所述根据同一身体状况在所述第二分类类型包含的身体状况中的出现频率,确定高频身体状况,包括:
针对所述第二分类类型包含的各身体状况,确定包含该身体状况的概率大于预设概率阈值的第二分类类型的个数,得到同一身体状况在第二分类类型包含的身体状况中的出现频率;
将出现频率最高的身体状况确定为高频身体状况。
7.根据权利要求2所述的方法,其特征在于,所述方法还包括:
将预测概率小于预测概率阈值的分类类型,确定为第三分类类型;
删除所述数据集中的所述第三分类类型、所述第三分类类型具有的身体状况、所述第三分类类型具有相应身体状况的概率,得到更新后的数据集;
所述基于各所述第一分类类型包含的身体状况确定高频身体状况包括:
基于所述身体状况信息对更新后的数据集中的分类类型进行筛选,确定更新后的第一分类类型;
基于所述更新后的第一分类类型包含的身体状况确定高频身体状况。
8.根据权利要求1-7任一项所述的方法,其特征在于,所述获取用户的身体状况信息之前,所述方法还包括:
获取用户的生理特征信息,所述生理特征信息包括年龄、性别中的至少一种;
获取与所述生理特征信息相匹配的分类类型、所述分类类型具有的身体状况、所述分类类型具有相应身体状况的概率,得到数据集。
9.一种用户分类的装置,其特征在于,所述装置包括:
第一获取模块,用于获取用户的身体状况信息,所述身体状况信息包括所述用户具有的身体状况和/或不具有的身体状况;
第一计算模块,用于针对数据集中的每个第一分类类型,基于该第一分类类型包含各身体状况的概率、以及所述身体状况信息,计算所述用户属于该第一分类类型的预测概率;
第二计算模块,用于按照各第一分类类型的预测概率对各第一分类类型进行排序,得到分类类型序列,计算所述分类类型序列的置信度;
第一确定模块,用于当所述置信度大于第一置信度阈值时,在各所述第一分类类型包含的典型身体状况中,确定所述用户具有的目标典型身体状况;
第二确定模块,用于将所述目标典型身体状况所属的第一分类类型,作为所述用户的分类结果。
10.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1-8任一所述的方法步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911025480.6A CN111081370B (zh) | 2019-10-25 | 2019-10-25 | 一种用户分类方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911025480.6A CN111081370B (zh) | 2019-10-25 | 2019-10-25 | 一种用户分类方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111081370A true CN111081370A (zh) | 2020-04-28 |
CN111081370B CN111081370B (zh) | 2023-11-03 |
Family
ID=70310514
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911025480.6A Active CN111081370B (zh) | 2019-10-25 | 2019-10-25 | 一种用户分类方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111081370B (zh) |
Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004240734A (ja) * | 2003-02-06 | 2004-08-26 | Miyata Tadanori | 病態推測システム |
CN104021302A (zh) * | 2014-06-18 | 2014-09-03 | 北京邮电大学 | 一种基于贝叶斯文本分类模型的辅助挂号方法 |
US20150142701A1 (en) * | 2013-11-20 | 2015-05-21 | International Business Machines Corporation | Evidence based medical record |
CN108806767A (zh) * | 2018-06-15 | 2018-11-13 | 中南大学 | 基于电子病历的疾病症状关联分析方法 |
CN109271957A (zh) * | 2018-09-30 | 2019-01-25 | 厦门市巨龙信息科技有限公司 | 人脸性别识别方法以及装置 |
CN109582797A (zh) * | 2018-12-13 | 2019-04-05 | 泰康保险集团股份有限公司 | 获取疾病分类推荐的方法、装置、介质及电子设备 |
CN109785961A (zh) * | 2018-12-29 | 2019-05-21 | 上海依智医疗技术有限公司 | 一种判别哮喘的设备 |
CN110021439A (zh) * | 2019-03-07 | 2019-07-16 | 平安科技(深圳)有限公司 | 基于机器学习的医疗数据分类方法、装置和计算机设备 |
CN110033863A (zh) * | 2019-04-23 | 2019-07-19 | 科大讯飞股份有限公司 | 应用于临床决策支持系统的不合理疾病诊断检测方法、装置 |
CN110391026A (zh) * | 2019-07-25 | 2019-10-29 | 北京百度网讯科技有限公司 | 基于医疗概率图的信息分类方法、装置及设备 |
CN110427486A (zh) * | 2019-07-25 | 2019-11-08 | 北京百度网讯科技有限公司 | 身体病况文本的分类方法、装置及设备 |
CN111768213A (zh) * | 2020-09-03 | 2020-10-13 | 耀方信息技术(上海)有限公司 | 一种用户标签权重评估方法 |
WO2020232109A1 (en) * | 2019-05-13 | 2020-11-19 | Grail, Inc. | Model-based featurization and classification |
US20230207065A1 (en) * | 2021-12-23 | 2023-06-29 | National Yang Ming Chiao Tung University | Automated pathogenic mutation classifier and classification method thereof |
-
2019
- 2019-10-25 CN CN201911025480.6A patent/CN111081370B/zh active Active
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004240734A (ja) * | 2003-02-06 | 2004-08-26 | Miyata Tadanori | 病態推測システム |
US20150142701A1 (en) * | 2013-11-20 | 2015-05-21 | International Business Machines Corporation | Evidence based medical record |
CN104021302A (zh) * | 2014-06-18 | 2014-09-03 | 北京邮电大学 | 一种基于贝叶斯文本分类模型的辅助挂号方法 |
CN108806767A (zh) * | 2018-06-15 | 2018-11-13 | 中南大学 | 基于电子病历的疾病症状关联分析方法 |
CN109271957A (zh) * | 2018-09-30 | 2019-01-25 | 厦门市巨龙信息科技有限公司 | 人脸性别识别方法以及装置 |
CN109582797A (zh) * | 2018-12-13 | 2019-04-05 | 泰康保险集团股份有限公司 | 获取疾病分类推荐的方法、装置、介质及电子设备 |
CN109785961A (zh) * | 2018-12-29 | 2019-05-21 | 上海依智医疗技术有限公司 | 一种判别哮喘的设备 |
CN110021439A (zh) * | 2019-03-07 | 2019-07-16 | 平安科技(深圳)有限公司 | 基于机器学习的医疗数据分类方法、装置和计算机设备 |
CN110033863A (zh) * | 2019-04-23 | 2019-07-19 | 科大讯飞股份有限公司 | 应用于临床决策支持系统的不合理疾病诊断检测方法、装置 |
WO2020232109A1 (en) * | 2019-05-13 | 2020-11-19 | Grail, Inc. | Model-based featurization and classification |
CN110391026A (zh) * | 2019-07-25 | 2019-10-29 | 北京百度网讯科技有限公司 | 基于医疗概率图的信息分类方法、装置及设备 |
CN110427486A (zh) * | 2019-07-25 | 2019-11-08 | 北京百度网讯科技有限公司 | 身体病况文本的分类方法、装置及设备 |
CN111768213A (zh) * | 2020-09-03 | 2020-10-13 | 耀方信息技术(上海)有限公司 | 一种用户标签权重评估方法 |
US20230207065A1 (en) * | 2021-12-23 | 2023-06-29 | National Yang Ming Chiao Tung University | Automated pathogenic mutation classifier and classification method thereof |
Non-Patent Citations (1)
Title |
---|
徐奕枫;刘利军;黄青松;傅铁威;: "智能导医系统中TF-IDF权重改进算法研究", 计算机工程与应用, no. 04 * |
Also Published As
Publication number | Publication date |
---|---|
CN111081370B (zh) | 2023-11-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11989195B2 (en) | Systems and methods for displaying estimated relevance indicators for result sets of documents and for displaying query visualizations | |
CN107563120B (zh) | 针对患者的医生推荐方法及装置 | |
CN108122611B (zh) | 一种信息推荐方法、装置及存储介质、程序产品 | |
WO2020181805A1 (zh) | 糖尿病的预测方法及装置、存储介质、计算机设备 | |
CN107705842B (zh) | 智能分诊系统及其工作方法 | |
CN111949898A (zh) | 搜索结果排序方法、装置、设备及计算机可读存储介质 | |
CN109189990B (zh) | 一种搜索词的生成方法、装置及电子设备 | |
WO2020181807A1 (zh) | 健康提醒方法、装置、计算机设备及存储介质 | |
CN110299209B (zh) | 相似病历查找方法、装置、设备及可读存储介质 | |
CN110569349B (zh) | 基于大数据的患教文章推送方法、系统、设备及存储介质 | |
CN111010592B (zh) | 一种视频推荐方法、装置、电子设备及存储介质 | |
CN110838359B (zh) | 基于对话机器人的分诊方法、装置、存储介质及机器人 | |
CN109218769B (zh) | 一种直播间的推荐方法以及相关设备 | |
US20200058408A1 (en) | Systems, methods, and apparatus for linking family electronic medical records and prediction of medical conditions and health management | |
CN110489757A (zh) | 一种关键词提取方法及装置 | |
WO2020073526A1 (zh) | 基于信任网络的推送方法、装置、计算机设备及存储介质 | |
CN112863694A (zh) | 一种信息推荐方法和装置 | |
CN113130052A (zh) | 医生推荐方法、医生推荐装置、终端设备及存储介质 | |
CN113409911A (zh) | 一种基于病例临床表型关联度的中药组方推荐方法及系统 | |
CN111081370B (zh) | 一种用户分类方法及装置 | |
CN109559788A (zh) | 一种病史采集方法及装置 | |
CN109462635B (zh) | 一种信息推送方法、计算机可读存储介质及服务器 | |
CN115719640A (zh) | 中医主次症状识别系统、装置、电子设备及其存储介质 | |
CN115101193A (zh) | 一种症状推荐方法、设备及计算机可读存储介质 | |
CN109473154B (zh) | 基于知识关系分析的诊后提醒方法及终端设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |