CN106227880B - 医生搜索推荐的实现方法 - Google Patents
医生搜索推荐的实现方法 Download PDFInfo
- Publication number
- CN106227880B CN106227880B CN201610632675.7A CN201610632675A CN106227880B CN 106227880 B CN106227880 B CN 106227880B CN 201610632675 A CN201610632675 A CN 201610632675A CN 106227880 B CN106227880 B CN 106227880B
- Authority
- CN
- China
- Prior art keywords
- disease
- doctor
- data
- department
- doctors
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/90335—Query processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/9038—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G06F19/324—
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H40/00—ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices
- G16H40/20—ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices for the management or administration of healthcare resources or facilities, e.g. managing hospital staff or surgery rooms
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Computational Linguistics (AREA)
- General Business, Economics & Management (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Epidemiology (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Primary Health Care (AREA)
- Public Health (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明是一种医生搜索,特别涉及一种医生搜索推荐的实现方法。按以下步骤进行:获取原始数据→抽取疾病标签→根据用户的查询关键词。医生搜索推荐的实现方法搜索速度快,准确度高,自动化程度高。
Description
技术领域
本发明是一种医生搜索,特别涉及一种医生搜索推荐的实现方法。
背景技术
垂直搜索引擎是相对于通用搜索引擎来定义的,与通用搜索引擎是针对全网的内容进行搜索不同的是,垂直搜索引擎是针对某一个垂直领域的专业搜索引擎,其通过针对某一特定领域、某一特定人群或某一特定需求而提供检索服务。
医疗领域的特殊性在于搜索结果的精准性、专业性非常重要,否则可能导致用户获取到无效的甚至错误的信息而延误病情的治疗,严重情况下可能危及生命。
由于医疗领域的特殊性,通用搜索引擎难以满足用户对于搜索结果精准性、专业性的要求,所以实现医疗领域的垂直搜索引擎,为用户推荐到合适的医生有很大的意义。
中国专利201210210028.9,公开一种搜索方法及搜索系统。该搜索系统包括用户接口模块、目标数据库以及对应于多个不同技术领域的多个专业词库,该搜索系统进一步包括反馈模块、分词模块、查询模块、索引模块以及排序模块。虽然同样用于搜索,但是适配性相对不足,无法满足医生搜索的需求。
发明内容
本发明主要是解决现有技术中存在的不足,疾病标签的来源丰富,保证了疾病标签的完整性和准确性的医生搜索推荐的实现方法。
本发明的上述技术问题主要是通过下述技术方案得以解决的:
一种医生搜索推荐的实现方法,按以下步骤进行:
第一步,获取原始数据;
原始数据包括医生的疾病标签、医生所在科室以及医生的多个维度的基础数据;
还包括医生的擅长、患者就诊后对医生的评论的需要进行进一步处理的数据;
第二步,抽取疾病标签:
通过疾病抽取的程序从医生的擅长中抽取出医生擅长的疾病标签,与医院推送的疾病标签、医生自定义的疾病标签一起作为医生的主要疾病标签;
进一步地,从患者就诊后对医生的评论中抽取出对应的疾病标签,并根据疾病标签做聚合获取每个疾病标签的评论数量,并以此数量作为患者对医生在此疾病方面的认可程度;
第三步,根据用户的查询关键词,搜索推荐程序根据用户的查询内容检索索引库中对应的内容,并根据搜索结果与关键词的相关性和用户的个性化信息进行排序,将排序后的结果展现给用户。
作为优选,在第一步中:各种原始数据的获取方式:
医生的疾病标签信息来源有多种渠道:医生本人填写的擅长及简介描述、互联网上爬取的医生信息以及人工标注的医生信息;
医生本人填写的擅长以及简介通常具有较高的可靠性,但是需要避免出现医生恶意填写的行为,比如:填写大量疾病的行为,需要在医生自己填写的疾病总量上做控制;
互联网上爬取的医生信息方面,可根据网页之间的超链接关系、网站的各网页层级关系的连续地抓取网页内容;
医疗领域的网站数量有限,各个网站页面结构相对固定,可以构建爬虫对数据进行有效的爬取;爬取的数据虽然可靠性相对较低,但是具有很高的覆盖面,能够在数据相对不丰富的前期作为基础数据,但是权重不宜过高;
人工标注的信息则是最理想的原始数据,不仅可信度高,而且结构化好,后期加权处理应该有较高的优先级;
医疗行业其特殊的人员组织结构决定了医生所在的科室信息与医生具有很强的相关性,所以科室信息不仅能很好的反应其下医生的特点,而且具有数据规范性较强、数量相对有限,有利于人工标注、覆盖面广的特点,是非常重要的数据;
其获取方式同样有多种来源:医院推送、互联网爬去科室信息以及人工标注科室信息;这些数据的可信度同样可参考医生信息的说明;除此之外,为了更好的描述特定医院的特定科室,对科室进行了2个维度的分类:标准科室和医院科室;
标准科室是根据医学知识划分具有较大通用性的科室名称;例如:内科、消化内科、骨科、儿科;以上科室能够涵盖大部分的医院中实际挂牌的科室,但是数量有限,可以很精细化的人工标注;同时进一步的,在标准科室中可以进一步的划分层级,例如:内科、外科、骨科、儿科的可作为一级科室,而消化内科、呼吸内科、肝胆外科的可作为二级科室并挂载在相应的一级科室之下,可以进一步的丰富标准科室的信息;
医院科室是医院实际划分的科室,通常都能对应到标准科室上,从而自动获取标准科室中已标注的科室信息,另外不同的医院,同一名称的科室的侧重点会有些不同,而这部分信息则可标注在此医院科室上,使得不同医院的科室具备各自的特色;这部分信息同样可以延伸到其下的医生上,使得不同医院的医生具备各自相应的特点;
以上直接与疾病相关的医生及科室数据,可以一定程度上解决医生与患者的对症问题;但是同时也需要考虑医生在该疾病上的专业水平;在衡量医生水平的数据上,可以从多个维度来进行考量,如下:医生职称、医院等级、医院性质、医院排名、科室排名;这些数据的获取可通过医生及医院的推送、人工的标注以及互联网数据的爬取;
以上的数据主要以静态数据为主,并不能反应时间的延续带来的变化,不能反应医生素质的成长带来的变化,而且对应某个特定医生来说,其数据都来自少数人的理解,从统计上看样本较小,会产生较大的波动;为了弥补数据的这些缺失,我们同样收集了大样本的、动态的医生数据;比如:收集患者就诊后对医生的评价数据;患者评价能够直接反应医生的治疗效果,是非常理想的数据;为了更好的与疾病标签关联,我们采取了用户评价是推荐用户填写诊断疾病的方式,来尽可能的收集带疾病标签的用户评价;
在第二步中,具体的疾病标签抽取,包括以下步骤:
第2a步,构建疾病库:
医学疾病由于其行业特殊性,并没有很好的、实用的疾病词管理方案,需要进行专业的词条管理,以及关系的梳理;
目前有国际疾病分类(ICD),依据疾病的某些特征,按照规则将疾病分门别类,并用编码的方法来表示的系统,但是在实际使用的过程中很多疾病名词过于专业,并不是大家的通常用语,很难与采集过来的包含疾病信息的数据进行关联,所以需要在此基础之上构建更加广泛、更加通用的疾病库;同时,ICD系统并没有包含很多实用的疾病名称之间的关系,比如:父子关系、别名关系,这就限制了疾病标签更好的发挥作用;为此,我们在ICD系统的基础上,进一步增加了分类维度,增加了父子、别名、通用名的关系,扩充了疾病的名称,形成更广泛、更实用的疾病库;
第2b步,生成疾病词典:
采用词典匹配的方式是关键词抽取的常用方式,但是在此系统中,需要考虑别名、通用名的关系,所以需要对疾病进行合理的编码;为此,生成的疾病词典是带有疾病编码的,基本编码规则是同一疾病的别名、通用名采用一致的疾病编码;
第2c步,疾病标签抽取:
疾病标签的抽取采用基于词典的最大正向匹配法(MM法);主要抽取对象是医生擅长、简介以及爬取的医生相关信息,医院推送的科室、医院信息,爬取的医院、科室信息;其它人工标注的疾病信息可以直接采用疾病库中对应的疾病词,可以直接建立关联,不必进行抽取;评价的抽取上,首先抽取患者填写的诊断疾病字段,如果该字段未能抽取出有效疾病则从患者的就诊原因字段抽取;以上疾病信息的抽取结果需要参考医生所在标准科室对应的疾病关系,以过滤掉一些恶意的疾病描述以及一些错误的疾病抽取,以提高所抽取疾病与该医生的相关性;
第2d步,疾病标签聚合、统计并赋予权重:
疾病标签的使用应该根据不同的来源给予不同优先级,互联网爬取内容不确定性较高,相应的优先级应该最低,同时医生的相关信息优先级高于科室及医院的信息;医生、医院的推送数据优先级高于爬取的数据,但是低于人工标记的数据;同时具体医生的数据优先级都高于医院、科室的整体数据;以上数据根据优先级的不同,可分为与医生相关的多个疾病字段,在匹配阶段可以给予相应的权重;
患者评价的疾病标签则需考虑患者的评价结果,只有患者认为有良好治疗效果的正面评价才能计入有效的疾病标签的统计;基于这些有效的疾病标签,每个医生可以得到各个疾病维度的患者认可度;该认可度可用于搜索推荐的排序指标;
除了以上疾病标签的匹配,还需考虑医生的专业水平,进行相应的排序;如何使用和分配这些权重值:这些指标会综合生成一个静态评分,用于最后搜索匹配的基础评分;
基础评分采用各个子项相加的形式,下面说明下各个子项的计算方法:
医院全国排名项:(51-rank/2)/2,rank为排名值,结果范围在0到25.5;
科室全国排名项:23-rank,rank为排名值,结果范围为:0到22;
科室省排名项:(11-rank)*2,rank为排名值,结果范围为:0到20;
医院级别项:从三级甲等到一级丙等,分别由15递减到1;
医生职称:从主任医师到住院医师,分别从7递减到1;
以上静态评分可对搜索结果在匹配疾病标签的基础上提供合适的排序规则,更好的为患者搜索推荐相应的医生;
在第三步中,根据用户的查询关键词:
搜索推荐程序根据用户的查询内容检索索引库中对应的内容,并根据搜索结果与关键词的相关性和用户的个性化信息进行排序,将排序后的结果展现给用户;
主要关键词分析模块对用户输入的关键词进行词性分析,如是疾病词:
第3a步,识别用户输入的关键词类型,是否为疾病词:
关键词分析模块是对关键词词性进行识别的模块,根据医疗领域的特点,关键词主要包括以下几种类型:疾病、症状、医生、医院、科室、地区;
具体识别流程为:首先将对用户输入的关键词会将用户输入的关键词与对于实体库进行比较,如果实体库中存在此关键词,则此关键词对应的类型即为此实体的类型,并将疾病对应的科室列表取出;例如如果疾病库中存在此关键词,则说明此关键词为疾病词;另外,如果多个实体库里存在相同的关键词,则根据疾病、症状、地区、科室、医生、医院的优先级顺序取优先级较高的实体类型作为此关键词的主类型,另外的实体类型作为辅类型;
对于实体库中没有的关键词,则使用已经根据实体库训练好的朴素贝叶斯分类算法分类器对关键词进行分类,获取关键词的类型;
对于实体库中没有的关键词,则使用已经根据实体库训练好的朴素贝叶斯分类算法分类器对关键词进行分类,获取关键词的类型;
第3b步,根据3a步识别的结果,若关键词为疾病词,则将此疾病与医生的疾病标签相关字段、擅长字段、进行匹配,得到初步的医生搜索结果;
第3c步,根据3a步识别出的疾病词对应的科室列表,过滤掉3b步匹配出的不符合疾病对应科室的医生;
第3d步,根据多个指标对医生结果集进行排序;主要包括以下三个维度的评分指标:微医相似度评分算法,医生针对此疾病的擅长程度和用户的个性化信息;
下面分别对这三个维度的指标进行介绍:微医相似度评分算法是基于Lucene的矢量空间模型(Vector Space Model)针对医疗领域的特点进行改造的一种计算医生与指定关键词之间相似度的算法;
Lucene的矢量空间模型是Lucene计算一次查询过程中匹配到的所有文档的相关性的模型,相关性最终以数字形式的评分表示,在一次查询时每个文档的相关性评分的计算方法如下:
∑t in q(tf(t in d)×idf(t)2×boost(t.field in d)×lengthNorm(t.fieldin d)×coord(q,d)×queryNorm(q));
其中t代表term,d代表document,q代表query,tf表示一个term在当前文档出现的次数,idf表示在整个倒排索引中此term的普遍性程度,lengthNorm表示根据字段的长度来给字段加权的因子,coord是协调因子,queryNorm是一个查询的分值的归一化指标;
微医相似度评分算法基于Lucene的矢量空间模型实现,由于医疗领域的搜索关键词更多的是确定的类型,例如疾病、科室、症状,而这些词在文档里出现的频率对文档与搜搜关键词的相关性影响不大,所以微医的相似度评分算法弱化tf和idf对评分的影响;若一个文档匹配到搜索的关键词,则将tf和idf置为1,所以公式为:
Score=∑t in q(boost(t.field in d)×lengthNorm(t.field in d)×coord(q,d)×queryNorm(q));
微医的相似度评分算法首先会算出每个文档与当前搜索疾病的相关度Score,然后根据医生对应搜索的疾病的好评数量进行加权,dc代表搜索的疾病对于某个医生的好评数量,所以Score=Score+(ln(sum(dc+1))×30);
进一步地,考虑用户的历史就诊记录、已报到的医生、咨询医生记录给对应的医生加权,dr代表用户与医生的相关性关系权重,则Score=Score+(dr×2)。
最后,根据最终的Score对医生进行排序,按照排序的结果将医生展示给用户。
医生的疾病标签包括基础疾病标签和加工后的疾病标签:基础疾病标签的来源主要包括医院的推送、医生的自定义、人工运营的维护三个方面,加工后的疾病标签包括根据医生擅长抽取的疾病标签和根据患者就诊后对医生的评论抽取的疾病标签。
根据大量用户就诊后对本次就诊疾病的疗效来衡量医生对某个疾病的擅长程度。
根据用户的历史就诊记录、报到过的医生、咨询医生记录和用户的年龄性别等信息在排序时给相应的与用户有关系的医生增加权重,使每个用户的搜索结果都有个性化的信息,更快更方便地找到适合自己的医生。
因此,本发明提供的医生搜索推荐的实现方法,搜索速度快,准确度高,自动化程度高。
附图说明
图1是本发明的总流程流程示意图;
图2是本发明疾病标签抽取流程示意图;
图3是本发明医生搜索推荐流程示意图。
具体实施方式
下面通过实施例,并结合附图,对本发明的技术方案作进一步具体的说明。
实施例:如图1、图2和图3所示,一种医生搜索推荐的实现方法,按以下步骤进行:
第一步,获取原始数据;
原始数据包括医生的疾病标签、医生所在科室以及医生的多个维度的基础数据;
还包括医生的擅长、患者就诊后对医生的评论的需要进行进一步处理的数据;
第二步,抽取疾病标签:
通过疾病抽取的程序从医生的擅长中抽取出医生擅长的疾病标签,与医院推送的疾病标签、医生自定义的疾病标签一起作为医生的主要疾病标签;
进一步地,从患者就诊后对医生的评论中抽取出对应的疾病标签,并根据疾病标签做聚合获取每个疾病标签的评论数量,并以此数量作为患者对医生在此疾病方面的认可程度;
第三步,根据用户的查询关键词,搜索推荐程序根据用户的查询内容检索索引库中对应的内容,并根据搜索结果与关键词的相关性和用户的个性化信息进行排序,将排序后的结果展现给用户。
在第一步中:各种原始数据的获取方式:
医生的疾病标签信息来源有多种渠道:医生本人填写的擅长及简介描述、互联网上爬取的医生信息以及人工标注的医生信息;
医生本人填写的擅长以及简介通常具有较高的可靠性,但是需要避免出现医生恶意填写的行为,比如:填写大量疾病的行为,需要在医生自己填写的疾病总量上做控制;
互联网上爬取的医生信息方面,可根据网页之间的超链接关系、网站的各网页层级关系的连续地抓取网页内容;
医疗领域的网站数量有限,各个网站页面结构相对固定,可以构建爬虫对数据进行有效的爬取;爬取的数据虽然可靠性相对较低,但是具有很高的覆盖面,能够在数据相对不丰富的前期作为基础数据,但是权重不宜过高;
人工标注的信息则是最理想的原始数据,不仅可信度高,而且结构化好,后期加权处理应该有较高的优先级;
医疗行业其特殊的人员组织结构决定了医生所在的科室信息与医生具有很强的相关性,所以科室信息不仅能很好的反应其下医生的特点,而且具有数据规范性较强、数量相对有限,有利于人工标注、覆盖面广的特点,是非常重要的数据;
其获取方式同样有多种来源:医院推送、互联网爬去科室信息以及人工标注科室信息;这些数据的可信度同样可参考医生信息的说明;除此之外,为了更好的描述特定医院的特定科室,对科室进行了2个维度的分类:标准科室和医院科室;
标准科室是根据医学知识划分具有较大通用性的科室名称;例如:内科、消化内科、骨科、儿科;以上科室能够涵盖大部分的医院中实际挂牌的科室,但是数量有限,可以很精细化的人工标注;同时进一步的,在标准科室中可以进一步的划分层级,例如:内科、外科、骨科、儿科的可作为一级科室,而消化内科、呼吸内科、肝胆外科的可作为二级科室并挂载在相应的一级科室之下,可以进一步的丰富标准科室的信息;
医院科室是医院实际划分的科室,通常都能对应到标准科室上,从而自动获取标准科室中已标注的科室信息,另外不同的医院,同一名称的科室的侧重点会有些不同,而这部分信息则可标注在此医院科室上,使得不同医院的科室具备各自的特色;这部分信息同样可以延伸到其下的医生上,使得不同医院的医生具备各自相应的特点;
以上直接与疾病相关的医生及科室数据,可以一定程度上解决医生与患者的对症问题;但是同时也需要考虑医生在该疾病上的专业水平;在衡量医生水平的数据上,可以从多个维度来进行考量,如下:医生职称、医院等级、医院性质、医院排名、科室排名;这些数据的获取可通过医生及医院的推送、人工的标注以及互联网数据的爬取;
以上的数据主要以静态数据为主,并不能反应时间的延续带来的变化,不能反应医生素质的成长带来的变化,而且对应某个特定医生来说,其数据都来自少数人的理解,从统计上看样本较小,会产生较大的波动;为了弥补数据的这些缺失,我们同样收集了大样本的、动态的医生数据;比如:收集患者就诊后对医生的评价数据;患者评价能够直接反应医生的治疗效果,是非常理想的数据;为了更好的与疾病标签关联,我们采取了用户评价是推荐用户填写诊断疾病的方式,来尽可能的收集带疾病标签的用户评价;
在第二步中,具体的疾病标签抽取,包括以下步骤:
第2a步,构建疾病库:
医学疾病由于其行业特殊性,并没有很好的、实用的疾病词管理方案,需要进行专业的词条管理,以及关系的梳理;
目前有国际疾病分类(ICD),依据疾病的某些特征,按照规则将疾病分门别类,并用编码的方法来表示的系统,但是在实际使用的过程中很多疾病名词过于专业,并不是大家的通常用语,很难与采集过来的包含疾病信息的数据进行关联,所以需要在此基础之上构建更加广泛、更加通用的疾病库;同时,ICD系统并没有包含很多实用的疾病名称之间的关系,比如:父子关系、别名关系,这就限制了疾病标签更好的发挥作用;为此,我们在ICD系统的基础上,进一步增加了分类维度,增加了父子、别名、通用名的关系,扩充了疾病的名称,形成更广泛、更实用的疾病库;
第2b步,生成疾病词典:
采用词典匹配的方式是关键词抽取的常用方式,但是在此系统中,需要考虑别名、通用名的关系,所以需要对疾病进行合理的编码;为此,生成的疾病词典是带有疾病编码的,基本编码规则是同一疾病的别名、通用名采用一致的疾病编码;
第2c步,疾病标签抽取:
疾病标签的抽取采用基于词典的最大正向匹配法(MM法);主要抽取对象是医生擅长、简介以及爬取的医生相关信息,医院推送的科室、医院信息,爬取的医院、科室信息;其它人工标注的疾病信息可以直接采用疾病库中对应的疾病词,可以直接建立关联,不必进行抽取;评价的抽取上,首先抽取患者填写的诊断疾病字段,如果该字段未能抽取出有效疾病则从患者的就诊原因字段抽取;以上疾病信息的抽取结果需要参考医生所在标准科室对应的疾病关系,以过滤掉一些恶意的疾病描述以及一些错误的疾病抽取,以提高所抽取疾病与该医生的相关性;
第2d步,疾病标签聚合、统计并赋予权重:
疾病标签的使用应该根据不同的来源给予不同优先级,互联网爬取内容不确定性较高,相应的优先级应该最低,同时医生的相关信息优先级高于科室及医院的信息;医生、医院的推送数据优先级高于爬取的数据,但是低于人工标记的数据;同时具体医生的数据优先级都高于医院、科室的整体数据;以上数据根据优先级的不同,可分为与医生相关的多个疾病字段,在匹配阶段可以给予相应的权重;
患者评价的疾病标签则需考虑患者的评价结果,只有患者认为有良好治疗效果的正面评价才能计入有效的疾病标签的统计;基于这些有效的疾病标签,每个医生可以得到各个疾病维度的患者认可度;该认可度可用于搜索推荐的排序指标;
除了以上疾病标签的匹配,还需考虑医生的专业水平,进行相应的排序;如何使用和分配这些权重值:这些指标会综合生成一个静态评分,用于最后搜索匹配的基础评分;
基础评分采用各个子项相加的形式,下面说明下各个子项的计算方法:
医院全国排名项:(51-rank/2)/2,rank为排名值,结果范围在0到25.5;
科室全国排名项:23-rank,rank为排名值,结果范围为:0到22;
科室省排名项:(11-rank)*2,rank为排名值,结果范围为:0到20;
医院级别项:从三级甲等到一级丙等,分别由15递减到1;
医生职称:从主任医师到住院医师,分别从7递减到1;
以上静态评分可对搜索结果在匹配疾病标签的基础上提供合适的排序规则,更好的为患者搜索推荐相应的医生;
在第三步中,根据用户的查询关键词:
搜索推荐程序根据用户的查询内容检索索引库中对应的内容,并根据搜索结果与关键词的相关性和用户的个性化信息进行排序,将排序后的结果展现给用户;
主要关键词分析模块对用户输入的关键词进行词性分析,如是疾病词:
第3a步,识别用户输入的关键词类型,是否为疾病词:
关键词分析模块是对关键词词性进行识别的模块,根据医疗领域的特点,关键词主要包括以下几种类型:疾病、症状、医生、医院、科室、地区;
具体识别流程为:首先将对用户输入的关键词会将用户输入的关键词与对于实体库进行比较,如果实体库中存在此关键词,则此关键词对应的类型即为此实体的类型,并将疾病对应的科室列表取出;例如如果疾病库中存在此关键词,则说明此关键词为疾病词;另外,如果多个实体库里存在相同的关键词,则根据疾病、症状、地区、科室、医生、医院的优先级顺序取优先级较高的实体类型作为此关键词的主类型,另外的实体类型作为辅类型;
对于实体库中没有的关键词,则使用已经根据实体库训练好的朴素贝叶斯分类算法分类器对关键词进行分类,获取关键词的类型;
对于实体库中没有的关键词,则使用已经根据实体库训练好的朴素贝叶斯分类算法分类器对关键词进行分类,获取关键词的类型;
第3b步,根据3a步识别的结果,若关键词为疾病词,则将此疾病与医生的疾病标签相关字段、擅长字段、进行匹配,得到初步的医生搜索结果;
第3c步,根据3a步识别出的疾病词对应的科室列表,过滤掉3b步匹配出的不符合疾病对应科室的医生;
第3d步,根据多个指标对医生结果集进行排序;主要包括以下三个维度的评分指标:微医相似度评分算法,医生针对此疾病的擅长程度和用户的个性化信息;
下面分别对这三个维度的指标进行介绍:微医相似度评分算法是基于Lucene的矢量空间模型(Vector Space Model)针对医疗领域的特点进行改造的一种计算医生与指定关键词之间相似度的算法;
Lucene的矢量空间模型是Lucene计算一次查询过程中匹配到的所有文档的相关性的模型,相关性最终以数字形式的评分表示,在一次查询时每个文档的相关性评分的计算方法如下:
∑t inq(tf(t in d)×idf(t)2×boost(t.field in d)×lengthNorm(t.field ind)×coord(q,d)×queryNorm(q)):
其中t代表term,d代表document,q代表query,tf表示一个term在当前文档出现的次数,idf表示在整个倒排索引中此term的普遍性程度,lengthNorm表示根据字段的长度来给字段加权的因子,coord是协调因子,queryNorm是一个查询的分值的归一化指标;
微医相似度评分算法基于Lucene的矢量空间模型实现,由于医疗领域的搜索关键词更多的是确定的类型,例如疾病、科室、症状,而这些词在文档里出现的频率对文档与搜搜关键词的相关性影响不大,所以微医的相似度评分算法弱化tf和idf对评分的影响;若一个文档匹配到搜索的关键词,则将tf和idf置为1,所以公式为:
Score=∑t in q(boost(t.field in d)×lengthNorm(t.field in d)×coord(q,d)×queryNorm(q));
微医的相似度评分算法首先会算出每个文档与当前搜索疾病的相关度Score,然后根据医生对应搜索的疾病的好评数量进行加权,dc代表搜索的疾病对于某个医生的好评数量,所以Score=Score+(ln(sum(dc+1))×30);
进一步地,考虑用户的历史就诊记录、已报到的医生、咨询医生记录给对应的医生加权,dr代表用户与医生的相关性关系权重,则Score=Score+(dr×2)。
最后,根据最终的Score对医生进行排序,按照排序的结果将医生展示给用户。
Claims (1)
1.一种医生搜索推荐的实现方法,
第一步,获取原始数据;
原始数据包括医生的疾病标签、医生所在科室以及医生的多个维度的基础数据;
还包括医生的擅长、患者就诊后对医生的评论的需要进行进一步处理的数据;
第二步,抽取疾病标签:
通过疾病抽取的程序从医生的擅长中抽取出医生擅长的疾病标签,与医院推送的疾病标签、医生自定义的疾病标签一起作为医生的主要疾病标签;
进一步地,从患者就诊后对医生的评论中抽取出对应的疾病标签,并根据疾病标签做聚合获取每个疾病标签的评论数量,并以此数量作为患者对医生在此疾病方面的认可程度;
第三步,根据用户的查询关键词,搜索推荐程序根据用户的查询内容检索索引库中对应的内容,并根据搜索结果与关键词的相关性和用户的个性化信息进行排序,将排序后的结果展现给用户;
其特征在于按以下步骤进行:
在第一步中:各种原始数据的获取方式:
医生的疾病标签信息来源有多种渠道:医生本人填写的擅长及简介描述、互联网上爬取的医生信息以及人工标注的医生信息;
医生本人填写的擅长以及简介通常具有较高的可靠性,但是需要避免出现医生恶意填写的行为:填写大量疾病的行为,需要在医生自己填写的疾病总量上做控制;
互联网上爬取的医生信息方面,可根据网页之间的超链接关系、网站的各网页层级关系的连续地抓取网页内容;
医疗领域的网站数量有限,各个网站页面结构相对固定,可以构建爬虫对数据进行有效的爬取;爬取的数据虽然可靠性相对较低,但是具有很高的覆盖面,能够在数据相对不丰富的前期作为基础数据,但是权重不宜过高;
人工标注的信息则是最理想的原始数据,不仅可信度高,而且结构化好,后期加权处理应该有较高的优先级;
医疗行业其特殊的人员组织结构决定了医生所在的科室信息与医生具有很强的相关性,所以科室信息不仅能很好的反应其下医生的特点,而且具有数据规范性较强、数量相对有限,有利于人工标注、覆盖面广的特点,是非常重要的数据;
其获取方式同样有多种来源:医院推送、互联网爬去科室信息以及人工标注科室信息;这些数据的可信度同样可参考医生信息的说明;除此之外,为了更好的描述特定医院的特定科室,对科室进行了2个维度的分类:标准科室和医院科室;
标准科室是根据医学知识划分具有较大通用性的科室名称;内科、消化内科、骨科、儿科;以上科室能够涵盖大部分的医院中实际挂牌的科室,但是数量有限,可以很精细化的人工标注;同时进一步的,在标准科室中可以进一步的划分层级,内科、外科、骨科、儿科的可作为一级科室,而消化内科、呼吸内科、肝胆外科的可作为二级科室并挂载在相应的一级科室之下,可以进一步的丰富标准科室的信息;
医院科室是医院实际划分的科室,通常都能对应到标准科室上,从而自动获取标准科室中已标注的科室信息,另外不同的医院,同一名称的科室的侧重点会有些不同,而这部分信息则可标注在此医院科室上,使得不同医院的科室具备各自的特色;这部分信息同样可以延伸到其下的医生上,使得不同医院的医生具备各自相应的特点;
直接与疾病相关的医生及科室数据对接,可以一定程度上解决医生与患者的对症问题;但是同时也需要考虑医生在该疾病上的专业水平;在衡量医生水平的数据上,可以从多个维度来进行考量,如下:医生职称、医院等级、医院性质、医院排名、科室排名;这些数据的获取可通过医生及医院的推送、人工的标注以及互联网数据的爬取;
以上的数据主要以静态数据为主,并不能反应时间的延续带来的变化,不能反应医生素质的成长带来的变化,而且对应某个特定医生来说,其数据都来自少数人的理解,从统计上看样本较小,会产生较大的波动;为了弥补数据的这些缺失,我们同样收集了大样本的、动态的医生数据:收集患者就诊后对医生的评价数据;患者评价能够直接反应医生的治疗效果,是非常理想的数据;为了更好的与疾病标签关联,我们采取了用户评价是推荐用户填写诊断疾病的方式,来尽可能的收集带疾病标签的用户评价;
在第二步中,具体的疾病标签抽取,包括以下步骤:
第2a步,构建疾病库:
医学疾病由于其行业特殊性,并没有很好的、实用的疾病词管理方案,需要进行专业的词条管理,以及关系的梳理;
目前有国际疾病分类,国际疾病分类简称ICD,依据疾病的某些特征,按照规则将疾病分门别类,并用编码的方法来表示的系统,但是在实际使用的过程中很多疾病名词过于专业,并不是大家的通常用语,很难与采集过来的包含疾病信息的数据进行关联,所以需要在此基础之上构建更加广泛、更加通用的疾病库;同时,ICD系统并没有包含很多实用的疾病名称之间的关系:父子关系、别名关系,这就限制了疾病标签更好的发挥作用;为此,我们在ICD系统的基础上,进一步增加了分类维度,增加了父子、别名、通用名的关系,扩充了疾病的名称,形成更广泛、更实用的疾病库;
第2b步,生成疾病词典:
采用词典匹配的方式是关键词抽取的常用方式,但是在此系统中,需要考虑别名、通用名的关系,所以需要对疾病进行合理的编码;为此,生成的疾病词典是带有疾病编码的,基本编码规则是同一疾病的别名、通用名采用一致的疾病编码;
第2c步,疾病标签抽取:
疾病标签的抽取采用基于词典的最大正向匹配法,最大正向匹配法是指MM法;主要抽取对象是医生擅长、简介以及爬取的医生相关信息,医院推送的科室、医院信息,爬取的医院、科室信息;其它人工标注的疾病信息可以直接采用疾病库中对应的疾病词,可以直接建立关联,不必进行抽取;评价的抽取上,首先抽取患者填写的诊断疾病字段,如果该字段未能抽取出有效疾病则从患者的就诊原因字段抽取;以上疾病信息的抽取结果需要参考医生所在标准科室对应的疾病关系,以过滤掉一些恶意的疾病描述以及一些错误的疾病抽取,以提高所抽取疾病与该医生的相关性;
第2d步,疾病标签聚合、统计并赋予权重:
疾病标签的使用应该根据不同的来源给予不同优先级,互联网爬取内容不确定性较高,相应的优先级应该最低,同时医生的相关信息优先级高于科室及医院的信息;医生、医院的推送数据优先级高于爬取的数据,但是低于人工标记的数据;同时具体医生的数据优先级都高于医院、科室的整体数据;以上数据根据优先级的不同,可分为与医生相关的多个疾病字段,在匹配阶段可以给予相应的权重;
患者评价的疾病标签则需考虑患者的评价结果,只有患者认为有良好治疗效果的正面评价才能计入有效的疾病标签的统计;基于这些有效的疾病标签,每个医生可以得到各个疾病维度的患者认可度;该认可度可用于搜索推荐的排序指标;
除了以上疾病标签的匹配,还需考虑医生的专业水平,进行相应的排序;如何使用和分配这些权重值:这些指标会综合生成一个静态评分,用于最后搜索匹配的基础评分;
基础评分采用各个子项相加的形式,下面说明下各个子项的计算方法:
医院全国排名项:(51-rank/2)/2,rank为排名值,结果范围在0到25.5;
科室全国排名项:23-rank,rank为排名值,结果范围为:0到22;
科室省排名项:(11-rank)*2,rank为排名值,结果范围为:0到20;
医院级别项:从三级甲等到一级丙等,分别由15递减到1;
医生职称:从主任医师到住院医师,分别从7递减到1;
以上静态评分可对搜索结果在匹配疾病标签的基础上提供合适的排序规则,更好的为患者搜索推荐相应的医生;
在第三步中,根据用户的查询关键词:
搜索推荐程序根据用户的查询内容检索索引库中对应的内容,并根据搜索结果与关键词的相关性和用户的个性化信息进行排序,将排序后的结果展现给用户;
主要关键词分析模块对用户输入的关键词进行词性分析,如是疾病词:
第3a步,识别用户输入的关键词类型,是否为疾病词:
关键词分析模块是对关键词词性进行识别的模块,根据医疗领域的特点,关键词主要包括以下几种类型:疾病、症状、医生、医院、科室、地区;
具体识别流程为:首先将对用户输入的关键词会将用户输入的关键词与对于实体库进行比较,如果实体库中存在此关键词,则此关键词对应的类型即为此实体的类型,并将疾病对应的科室列表取出;如果疾病库中存在此关键词,则说明此关键词为疾病词;另外,如果多个实体库里存在相同的关键词,则根据疾病、症状、地区、科室、医生、医院的优先级顺序取优先级较高的实体类型作为此关键词的主类型,另外的实体类型作为辅类型;
对于实体库中没有的关键词,则使用已经根据实体库训练好的朴素贝叶斯分类算法分类器对关键词进行分类,获取关键词的类型;
对于实体库中没有的关键词,则使用已经根据实体库训练好的朴素贝叶斯分类算法分类器对关键词进行分类,获取关键词的类型;
第3b步,根据3a步识别的结果,若关键词为疾病词,则将此疾病与医生的疾病标签相关字段、擅长字段、进行匹配,得到初步的医生搜索结果;
第3c步,根据3a步识别出的疾病词对应的科室列表,过滤掉3b步匹配出的不符合疾病对应科室的医生;
第3d步,根据多个指标对医生结果集进行排序;主要包括以下三个维度的评分指标:微医相似度评分算法,医生针对此疾病的擅长程度和用户的个性化信息;
下面分别对这三个维度的指标进行介绍:微医相似度评分算法是基于Lucene的矢量空间模型(Vector Space Model)针对医疗领域的特点进行改造的一种计算医生与指定关键词之间相似度的算法;
Lucene的矢量空间模型是Lucene计算一次查询过程中匹配到的所有文档的相关性的模型,相关性最终以数字形式的评分表示,在一次查询时每个文档的相关性评分的计算方法如下:
∑tinq(tf(tind)×idf(t)2×boost(t.field in d)×lengthNorm(t.field in d)×coord(q,d)×queryNorm(q));
其中t代表term,d代表document,q代表query,tf表示一个term在当前文档出现的次数,idf表示在整个倒排索引中此term的普遍性程度,lengthNorm表示根据字段的长度来给字段加权的因子,coord是协调因子,queryNorm是一个查询的分值的归一化指标;
微医相似度评分算法基于Lucene的矢量空间模型实现,由于医疗领域的搜索关键词更多的是确定的类型,疾病、科室、症状,而这些词在文档里出现的频率对文档与搜搜关键词的相关性影响不大,所以微医的相似度评分算法弱化tf和idf对评分的影响;若一个文档匹配到搜索的关键词,则将tf和idf置为1,所以公式为:
Score=
∑tinq(boost(t.field in d)×lengthNorm(t.field in d)×coord(q,d)×queryNorm(q));
微医的相似度评分算法首先会算出每个文档与当前搜索疾病的相关度Score,然后根据医生对应搜索的疾病的好评数量进行加权,dc代表搜索的疾病对于某个医生的好评数量,所以Score=Score+(ln(sum(dc+1))×30);
进一步地,考虑用户的历史就诊记录、已报到的医生、咨询医生记录给对应的医生加权,dr代表用户与医生的相关性关系权重,则Score=Score+(dr×2);
最后,根据最终的Score对医生进行排序,按照排序的结果将医生展示给用户。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610632675.7A CN106227880B (zh) | 2016-08-01 | 2016-08-01 | 医生搜索推荐的实现方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610632675.7A CN106227880B (zh) | 2016-08-01 | 2016-08-01 | 医生搜索推荐的实现方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106227880A CN106227880A (zh) | 2016-12-14 |
CN106227880B true CN106227880B (zh) | 2020-01-21 |
Family
ID=57547582
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610632675.7A Active CN106227880B (zh) | 2016-08-01 | 2016-08-01 | 医生搜索推荐的实现方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106227880B (zh) |
Families Citing this family (45)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108511044B (zh) * | 2017-02-23 | 2021-12-17 | 珠海健康云科技有限公司 | 一种互联网咨询分诊方法及系统 |
CN106780234A (zh) * | 2017-02-25 | 2017-05-31 | 深圳市前海安测信息技术有限公司 | 基于数据关联的医生评级推荐系统及方法 |
CN106952020A (zh) * | 2017-02-25 | 2017-07-14 | 深圳市前海安测信息技术有限公司 | 医疗信息化基于网页的医生评级推荐系统及方法 |
CN108538373B (zh) * | 2017-03-02 | 2023-12-19 | 深圳大森智能科技有限公司 | 医生信息的排序方法及装置 |
CN106980767A (zh) * | 2017-03-31 | 2017-07-25 | 上海森亿医疗科技有限公司 | 一种基于结构化医学数据库的数据搜索方法及系统 |
CN107193864A (zh) * | 2017-04-01 | 2017-09-22 | 徐立水 | 一种基于大数据的医学网站管理方法 |
CN108875291B (zh) * | 2017-05-11 | 2022-11-29 | 腾讯科技(深圳)有限公司 | 一种信息处理方法及服务器、计算机存储介质 |
CN109002449B (zh) * | 2017-06-06 | 2023-04-07 | 株式会社日立制作所 | 一种基于疾病相关属性检索诊断病例的装置及方法 |
CN107241429A (zh) * | 2017-06-30 | 2017-10-10 | 江西博瑞彤芸科技有限公司 | 信息交互处理方法和系统 |
CN107391644A (zh) * | 2017-07-12 | 2017-11-24 | 王冠 | 对婴幼儿紧急情况处理进行咨询的方法、装置及系统 |
CN107580038B (zh) * | 2017-08-28 | 2021-08-13 | 北京博瑞彤芸科技股份有限公司 | 一种专家推荐方法及系统 |
CN107705842B (zh) * | 2017-10-13 | 2019-09-03 | 合肥工业大学 | 智能分诊系统及其工作方法 |
CN107945839A (zh) * | 2017-10-30 | 2018-04-20 | 无锡中盛医疗设备有限公司 | 一种智能医疗系统 |
CN107977769A (zh) * | 2017-11-02 | 2018-05-01 | 天津大学 | 基于送花的营养医师推广方法 |
CN108039198A (zh) * | 2017-12-11 | 2018-05-15 | 重庆邮电大学 | 一种面向移动医疗的医生推荐方法及系统 |
CN108039200A (zh) * | 2017-12-22 | 2018-05-15 | 东软集团股份有限公司 | 一种信息推荐方法、装置及存储介质、程序产品 |
CN108305675B (zh) * | 2018-01-26 | 2020-10-23 | 合肥工业大学 | 多样性增强的智能导诊方法及系统 |
CN108877946A (zh) * | 2018-05-04 | 2018-11-23 | 浙江工业大学 | 一种基于网络特征的医生专家推荐方法 |
CN108874773B (zh) * | 2018-05-31 | 2023-04-18 | 平安医疗科技有限公司 | 关键词新增方法、装置、计算机设备和存储介质 |
CN108984656A (zh) * | 2018-06-28 | 2018-12-11 | 北京春雨天下软件有限公司 | 医学标签推荐方法及装置 |
CN110688846B (zh) * | 2018-07-06 | 2023-11-07 | 北京京东尚科信息技术有限公司 | 周期词挖掘方法、系统、电子设备及可读存储介质 |
CN109545390B (zh) * | 2018-10-23 | 2023-11-14 | 深圳平安医疗健康科技服务有限公司 | 一种信息处理方法、装置、服务器及计算机可读存储介质 |
CN109522422A (zh) * | 2018-11-12 | 2019-03-26 | 北京懿医云科技有限公司 | 医疗文献推送方法、系统、设备及存储介质 |
CN109376890B (zh) * | 2018-11-19 | 2022-03-15 | 安徽师范大学 | 具有科室匹配功能的预约挂号方法 |
CN109492010B (zh) * | 2018-11-28 | 2022-04-29 | 中国海洋石油集团有限公司 | 工作记录的统计方法、装置、设备和存储介质 |
CN109887586A (zh) * | 2018-12-29 | 2019-06-14 | 杭州好育信息科技有限公司 | 一种订单匹配方法、电子设备及计算机可读存储介质 |
CN109726275B (zh) * | 2018-12-29 | 2023-06-20 | 重庆工商大学融智学院 | 应用于法律咨询服务的法律知识智能查询方法 |
CN109508336A (zh) * | 2019-01-24 | 2019-03-22 | 易保互联医疗信息科技(北京)有限公司 | 基于医疗资源事实库的检索方法、存储介质及计算机设备 |
CN109902233A (zh) * | 2019-02-28 | 2019-06-18 | 百度在线网络技术(北京)有限公司 | 智能对象推荐方法、装置、设备和存储介质 |
CN110232971B (zh) * | 2019-05-24 | 2022-04-12 | 深圳市翩翩科技有限公司 | 一种医生推荐方法及装置 |
CN110347920A (zh) * | 2019-07-02 | 2019-10-18 | 北京纵横无双科技有限公司 | 一种健康信息的检索匹配方法及装置 |
CN110489638A (zh) * | 2019-07-08 | 2019-11-22 | 广州视源电子科技股份有限公司 | 一种搜索方法、装置、服务器、系统及存储介质 |
CN110442732A (zh) * | 2019-07-24 | 2019-11-12 | 万达信息股份有限公司 | 一种智能导医方法、系统及存储介质 |
CN110516260A (zh) * | 2019-08-30 | 2019-11-29 | 腾讯科技(深圳)有限公司 | 实体推荐方法、装置、存储介质及设备 |
CN112568911B (zh) * | 2019-09-30 | 2024-09-13 | 深圳市理邦精密仪器股份有限公司 | 心电数据的分类方法、设备及具有存储功能的装置 |
CN111009316B (zh) * | 2019-12-25 | 2022-06-21 | 福州大学 | 基于贝叶斯网络的医患匹配方法 |
CN111552780B (zh) * | 2020-04-29 | 2023-09-29 | 微医云(杭州)控股有限公司 | 医用场景的搜索处理方法、装置、存储介质及电子设备 |
CN112035511A (zh) * | 2020-08-31 | 2020-12-04 | 康键信息技术(深圳)有限公司 | 基于医学知识图谱的目标数据搜索方法及相关设备 |
CN112101015B (zh) * | 2020-09-08 | 2024-01-26 | 腾讯科技(深圳)有限公司 | 一种识别多标签对象的方法及装置 |
CN112069413B (zh) * | 2020-09-11 | 2024-03-12 | 腾讯科技(深圳)有限公司 | 医生推荐方法、装置、服务器和存储介质 |
CN112597206A (zh) * | 2020-12-26 | 2021-04-02 | 中国农业银行股份有限公司 | 一种搜索方法及装置 |
CN113314207A (zh) * | 2021-06-28 | 2021-08-27 | 挂号网(杭州)科技有限公司 | 一种对象推荐方法、装置、存储介质及电子设备 |
CN113707335A (zh) * | 2021-09-06 | 2021-11-26 | 挂号网(杭州)科技有限公司 | 确定目标接诊用户的方法、装置、电子设备和存储介质 |
CN116364233A (zh) * | 2023-03-06 | 2023-06-30 | 广东名阳信息科技有限公司 | 一种诊断后的提醒方法以及装置 |
CN116501969B (zh) * | 2023-04-28 | 2024-01-30 | 北京泰茂科技股份有限公司 | 一种基于个性化推荐算法的医药数据搜索系统 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104462325A (zh) * | 2014-12-02 | 2015-03-25 | 百度在线网络技术(北京)有限公司 | 搜索推荐方法及装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150019247A1 (en) * | 2013-07-15 | 2015-01-15 | Navigo Health Inc. | Doctor-Selection-Facilitating Method |
-
2016
- 2016-08-01 CN CN201610632675.7A patent/CN106227880B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104462325A (zh) * | 2014-12-02 | 2015-03-25 | 百度在线网络技术(北京)有限公司 | 搜索推荐方法及装置 |
Non-Patent Citations (1)
Title |
---|
基于多标签分类和协同过滤的医生推荐系统的研究与实现;孙崇林;《中国优秀硕士学位论文全文数据库信息科技辑》;20160315(第3期);第22-52页,图2.2至图4.1 * |
Also Published As
Publication number | Publication date |
---|---|
CN106227880A (zh) | 2016-12-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106227880B (zh) | 医生搜索推荐的实现方法 | |
CN111414393B (zh) | 一种基于医学知识图谱的语义相似病例检索方法及设备 | |
CN109299239B (zh) | 一种基于es的电子病历检索方法 | |
CN113707297B (zh) | 医疗数据的处理方法、装置、设备及存储介质 | |
CN106682411B (zh) | 一种将体检诊断数据转化为疾病标签的方法 | |
US20200303072A1 (en) | Method and system for supporting medical decision making | |
Ahmed | Implementing relevance feedback for content-based medical image retrieval | |
CN107193919A (zh) | 一种电子病历的检索方法及系统 | |
CN111465990B (zh) | 用于医疗保健临床试验的方法和系统 | |
US20110093293A1 (en) | Method and system for performing clinical data mining | |
WO2016120955A1 (ja) | 行動予測装置、行動予測装置の制御方法、および行動予測装置の制御プログラム | |
CN112614565A (zh) | 一种基于知识图谱技术的中药经典名方智能推荐方法 | |
CN112052308A (zh) | 一种摘要文本提取方法、装置、存储介质和电子设备 | |
CN112149409B (zh) | 医疗词云生成方法、装置、计算机设备及存储介质 | |
Asghar et al. | Health miner: opinion extraction from user generated health reviews | |
Wang et al. | Automatic diagnosis with efficient medical case searching based on evolving graphs | |
CN115238168A (zh) | 一种自适化远程医疗专家推荐方法 | |
CN113868387A (zh) | 一种基于改进tf-idf加权的word2vec医疗相似问题检索方法 | |
Prasad et al. | Hybrid topic cluster models for social healthcare data | |
CN116884612A (zh) | 疾病风险等级的智能分析方法、装置、设备及存储介质 | |
Yu et al. | Clinical coverage of an archetype repository over SNOMED-CT | |
CN115831380A (zh) | 一种基于医疗知识图谱的智能医疗数据管理系统及方法 | |
Nashipudimath et al. | An efficient integration and indexing method based on feature patterns and semantic analysis for big data | |
Loh et al. | Knowledge discovery in texts for constructing decision support systems | |
US20200176128A1 (en) | Identifying Drug Side Effects |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB03 | Change of inventor or designer information |
Inventor after: Liu Lei Inventor before: Shen Weirui |
|
CB03 | Change of inventor or designer information | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CP02 | Change in the address of a patent holder |
Address after: Room 2303, 23 / F, building 3, No. 371, Mingxing Road, Xiaoshan Economic and Technological Development Zone, Xiaoshan District, Hangzhou City, Zhejiang Province, 311200 Patentee after: GUAHAOWANG (HANGZHOU) TECHNOLOGY CO.,LTD. Address before: 12 / F, building B, Hangzhou Bay Information Port, 198 Qidi Road, Hangzhou Economic Development Zone, Zhejiang 311200 Patentee before: GUAHAOWANG (HANGZHOU) TECHNOLOGY CO.,LTD. |
|
CP02 | Change in the address of a patent holder |