CN106227880A

CN106227880A - 医生搜索推荐的实现方法

Info

Publication number: CN106227880A
Application number: CN201610632675.7A
Authority: CN
Inventors: 沈伟锐
Original assignee: Guahao Net Hangzhou Technology Co Ltd
Current assignee: Guahao Net Hangzhou Technology Co Ltd
Priority date: 2016-08-01
Filing date: 2016-08-01
Publication date: 2016-12-14
Anticipated expiration: 2036-08-01
Also published as: CN106227880B

Abstract

本发明是一种液压换向阀，特别涉及一种医生搜索推荐的实现方法。按以下步骤进行：获取原始数据→抽取疾病标签→根据用户的查询关键词。医生搜索推荐的实现方法搜索速度快，准确度高，自动化程度高。

Description

医生搜索推荐的实现方法

技术领域

本发明是一种液压换向阀，特别涉及一种医生搜索推荐的实现方法。

背景技术

垂直搜索引擎是相对于通用搜索引擎来定义的，与通用搜索引擎是针对全网的内容进行搜索不同的是，垂直搜索引擎是针对某一个垂直领域的专业搜索引擎，其通过针对某一特定领域、某一特定人群或某一特定需求而提供检索服务。

医疗领域的特殊性在于搜索结果的精准性、专业性非常重要，否则可能导致用户获取到无效的甚至错误的信息而延误病情的治疗，严重情况下可能危及生命。

由于医疗领域的特殊性，通用搜索引擎难以满足用户对于搜索结果精准性、专业性的要求，所以实现医疗领域的垂直搜索引擎，为用户推荐到合适的医生有很大的意义。

中国专利201210210028.9，公开一种搜索方法及搜索系统。该搜索系统包括用户接口模块、目标数据库以及对应于多个不同技术领域的多个专业词库，该搜索系统进一步包括反馈模块、分词模块、查询模块、索引模块以及排序模块。虽然同样用于搜索，但是适配性相对不足，无法满足医生搜索的需求。

发明内容

本发明主要是解决现有技术中存在的不足，疾病标签的来源丰富，保证了疾病标签的完整性和准确性的医生搜索推荐的实现方法。

本发明的上述技术问题主要是通过下述技术方案得以解决的：

一种医生搜索推荐的实现方法，按以下步骤进行：

第一步，获取原始数据；

原始数据包括医生的疾病标签、医生所在科室以及医生的多个维度的基础数据；

还包括医生的擅长、患者就诊后对医生的评论的需要进行进一步处理的数据；

第二步，抽取疾病标签：

通过疾病抽取的程序从医生的擅长中抽取出医生擅长的疾病标签，与医院推送的疾病标签、医生自定义的疾病标签一起作为医生的主要疾病标签；

进一步地，从患者就诊后对医生的评论中抽取出对应的疾病标签，并根据疾病标签做聚合获取每个疾病标签的评论数量，并以此数量作为患者对医生在此疾病方面的认可程度；

第三步，根据用户的查询关键词，搜索推荐程序根据用户的查询内容检索索引库中对应的内容，并根据搜索结果与关键词的相关性和用户的个性化信息进行排序，将排序后的结果展现给用户。

作为优选，在第一步中：各种原始数据的获取方式：

医生的疾病标签信息来源有多种渠道：医生本人填写的擅长及简介描述、互联网上爬取的医生信息以及人工标注的医生信息；

医生本人填写的擅长以及简介通常具有较高的可靠性，但是需要避免出现医生恶意填写的行为，比如：填写大量疾病的行为，需要在医生自己填写的疾病总量上做控制；

互联网上爬取的医生信息方面，可根据网页之间的超链接关系、网站的各网页层级关系的连续地抓取网页内容；

医疗领域的网站数量有限，各个网站页面结构相对固定，可以构建爬虫对数据进行有效的爬取；爬取的数据虽然可靠性相对较低，但是具有很高的覆盖面，能够在数据相对不丰富的前期作为基础数据，但是权重不宜过高；

人工标注的信息则是最理想的原始数据，不仅可信度高，而且结构化好，后期加权处理应该有较高的优先级；

医疗行业其特殊的人员组织结构决定了医生所在的科室信息与医生具有很强的相关性，所以科室信息不仅能很好的反应其下医生的特点，而且具有数据规范性较强、数量相对有限，有利于人工标注、覆盖面广的特点，是非常重要的数据；

其获取方式同样有多种来源：医院推送、互联网爬去科室信息以及人工标注科室信息；这些数据的可信度同样可参考医生信息的说明；除此之外，为了更好的描述特定医院的特定科室，对科室进行了2个维度的分类：标准科室和医院科室；

标准科室是根据医学知识划分具有较大通用性的科室名称；例如：内科、消化内科、骨科、儿科；以上科室能够涵盖大部分的医院中实际挂牌的科室，但是数量有限，可以很精细化的人工标注；同时进一步的，在标准科室中可以进一步的划分层级，例如：内科、外科、骨科、儿科的可作为一级科室，而消化内科、呼吸内科、肝胆外科的可作为二级科室并挂载在相应的一级科室之下，可以进一步的丰富标准科室的信息；

医院科室是医院实际划分的科室，通常都能对应到标准科室上，从而自动获取标准科室中已标注的科室信息，另外不同的医院，同一名称的科室的侧重点会有些不同，而这部分信息则可标注在此医院科室上，使得不同医院的科室具备各自的特色；这部分信息同样可以延伸到其下的医生上，使得不同医院的医生具备各自相应的特点；

以上直接与疾病相关的医生及科室数据，可以一定程度上解决医生与患者的对症问题；但是同时也需要考虑医生在该疾病上的专业水平；在衡量医生水平的数据上，可以从多个维度来进行考量，如下：医生职称、医院等级、医院性质、医院排名、科室排名；这些数据的获取可通过医生及医院的推送、人工的标注以及互联网数据的爬取；

以上的数据主要以静态数据为主，并不能反应时间的延续带来的变化，不能反应医生素质的成长带来的变化，而且对应某个特定医生来说，其数据都来自少数人的理解，从统计上看样本较小，会产生较大的波动；为了弥补数据的这些缺失，我们同样收集了大样本的、动态的医生数据；比如：收集患者就诊后对医生的评价数据；患者评价能够直接反应医生的治疗效果，是非常理想的数据；为了更好的与疾病标签关联，我们采取了用户评价是推荐用户填写诊断疾病的方式，来尽可能的收集带疾病标签的用户评价；

在第二步中，具体的疾病标签抽取，包括以下步骤：

第2a步，构建疾病库：

医学疾病由于其行业特殊性，并没有很好的、实用的疾病词管理方案，需要进行专业的词条管理，以及关系的梳理；

目前有国际疾病分类(ICD)，依据疾病的某些特征，按照规则将疾病分门别类，并用编码的方法来表示的系统，但是在实际使用的过程中很多疾病名词过于专业，并不是大家的通常用语，很难与采集过来的包含疾病信息的数据进行关联，所以需要在此基础之上构建更加广泛、更加通用的疾病库；同时，ICD系统并没有包含很多实用的疾病名称之间的关系，比如：父子关系、别名关系，这就限制了疾病标签更好的发挥作用；为此，我们在ICD系统的基础上，进一步增加了分类维度，增加了父子、别名、通用名的关系，扩充了疾病的名称，形成更广泛、更实用的疾病库；

第2b步，生成疾病词典：

采用词典匹配的方式是关键词抽取的常用方式，但是在此系统中，需要考虑别名、通用名的关系，所以需要对疾病进行合理的编码；为此，生成的疾病词典是带有疾病编码的，基本编码规则是同一疾病的别名、通用名采用一致的疾病编码；

第2c步，疾病标签抽取：

疾病标签的抽取采用基于词典的最大正向匹配法(MM法)；主要抽取对象是医生擅长、简介以及爬取的医生相关信息，医院推送的科室、医院信息，爬取的医院、科室信息；其它人工标注的疾病信息可以直接采用疾病库中对应的疾病词，可以直接建立关联，不必进行抽取；评价的抽取上，首先抽取患者填写的诊断疾病字段，如果该字段未能抽取出有效疾病则从患者的就诊原因字段抽取；以上疾病信息的抽取结果需要参考医生所在标准科室对应的疾病关系，以过滤掉一些恶意的疾病描述以及一些错误的疾病抽取，以提高所抽取疾病与该医生的相关性；

第2d步，疾病标签聚合、统计并赋予权重：

疾病标签的使用应该根据不同的来源给予不同优先级，互联网爬取内容不确定性较高，相应的优先级应该最低，同时医生的相关信息优先级高于科室及医院的信息；医生、医院的推送数据优先级高于爬取的数据，但是低于人工标记的数据；同时具体医生的数据优先级都高于医院、科室的整体数据；以上数据根据优先级的不同，可分为与医生相关的多个疾病字段，在匹配阶段可以给予相应的权重；

患者评价的疾病标签则需考虑患者的评价结果，只有患者认为有良好治疗效果的正面评价才能计入有效的疾病标签的统计；基于这些有效的疾病标签，每个医生可以得到各个疾病维度的患者认可度；该认可度可用于搜索推荐的排序指标；

除了以上疾病标签的匹配，还需考虑医生的专业水平，进行相应的排序；如何使用和分配这些权重值：这些指标会综合生成一个静态评分，用于最后搜索匹配的基础评分；

基础评分采用各个子项相加的形式，下面说明下各个子项的计算方法：

医院全国排名项：(51-rank/2)/2，rank为排名值，结果范围在0到25.5；

科室全国排名项：23-rank，rank为排名值，结果范围为：0到22；

科室省排名项：(11-rank)*2，rank为排名值，结果范围为：0到20；

医院级别项：从三级甲等到一级丙等，分别由15递减到1；

医生职称：从主任医师到住院医师，分别从7递减到1；

以上静态评分可对搜索结果在匹配疾病标签的基础上提供合适的排序规则，更好的为患者搜索推荐相应的医生；

在第三步中，根据用户的查询关键词：

搜索推荐程序根据用户的查询内容检索索引库中对应的内容，并根据搜索结果与关键词的相关性和用户的个性化信息进行排序，将排序后的结果展现给用户；

主要关键词分析模块对用户输入的关键词进行词性分析，如是疾病词：

第3a步，识别用户输入的关键词类型，是否为疾病词：

关键词分析模块是对关键词词性进行识别的模块，根据医疗领域的特点，关键词主要包括以下几种类型：疾病、症状、医生、医院、科室、地区；

具体识别流程为：首先将对用户输入的关键词会将用户输入的关键词与对于实体库进行比较，如果实体库中存在此关键词，则此关键词对应的类型即为此实体的类型，并将疾病对应的科室列表取出；例如如果疾病库中存在此关键词，则说明此关键词为疾病词；另外，如果多个实体库里存在相同的关键词，则根据疾病、症状、地区、科室、医生、医院的优先级顺序取优先级较高的实体类型作为此关键词的主类型，另外的实体类型作为辅类型；

对于实体库中没有的关键词，则使用已经根据实体库训练好的朴素贝叶斯分类算法分类器对关键词进行分类，获取关键词的类型；

第3b步，根据3a步识别的结果，若关键词为疾病词，则将此疾病与医生的疾病标签相关字段、擅长字段、进行匹配，得到初步的医生搜索结果；

第3c步，根据3a步识别出的疾病词对应的科室列表，过滤掉3b步匹配出的不符合疾病对应科室的医生；

第3d步，根据多个指标对医生结果集进行排序；主要包括以下三个维度的评分指标：微医相似度评分算法，医生针对此疾病的擅长程度和用户的个性化信息；

下面分别对这三个维度的指标进行介绍：微医相似度评分算法是基于Lucene的矢量空间模型(Vector Space Model)针对医疗领域的特点进行改造的一种计算医生与指定关键词之间相似度的算法；

Lucene的矢量空间模型是Lucene计算一次查询过程中匹配到的所有文档的相关性的模型，相关性最终以数字形式的评分表示，在一次查询时每个文档的相关性评分的计算方法如下：

∑_tinq(tf(t in d)×idf(t)²×boost(t.field in d)×leng th Norm(t.fieldin d)×coord(q，d)×

queryNorm(q))；

其中t代表term，d代表document，q代表query，tf表示一个term在当前文档出现的次数，idf表示在整个倒排索引中此term的普遍性程度，lengthNorm表示根据字段的长度来给字段加权的因子，coord是协调因子，queryNorm是一个查询的分值的归一化指标；

微医相似度评分算法基于Lucene的矢量空间模型实现，由于医疗领域的搜索关键词更多的是确定的类型，例如疾病、科室、症状，而这些词在文档里出现的频率对文档与搜搜关键词的相关性影响不大，所以微医的相似度评分算法弱化tf和idf对评分的影响；若一个文档匹配到搜索的关键词，则将tf和idf置为1，所以公式为：

Score＝

Σ_tinq(boost(t.field in d)×lengthNorm(t.field in d)×coord(q，d)×queryNorm(q))；

微医的相似度评分算法首先会算出每个文档与当前搜索疾病的相关度Score，然后根据医生对应搜索的疾病的好评数量进行加权，dc代表搜索的疾病对于某个医生的好评数量，所以Score＝Score+(ln(sum(dc+1))×30)；

进一步地，考虑用户的历史就诊记录、已报到的医生、咨询医生记录给对应的医生加权，dr代表用户与医生的相关性关系权重，则Score＝Score+(dr×2)。

最后，根据最终的Score对医生进行排序，按照排序的结果将医生展示给用户。

医生的疾病标签包括基础疾病标签和加工后的疾病标签：基础疾病标签的来源主要包括医院的推送、医生的自定义、人工运营的维护三个方面，加工后的疾病标签包括根据医生擅长抽取的疾病标签和根据患者就诊后对医生的评论抽取的疾病标签。

根据大量用户就诊后对本次就诊疾病的疗效来衡量医生对某个疾病的擅长程度。

根据用户的历史就诊记录、报到过的医生、咨询医生记录和用户的年龄性别等信息在排序时给相应的与用户有关系的医生增加权重，使每个用户的搜索结果都有个性化的信息，更快更方便地找到适合自己的医生。

因此，本发明提供的医生搜索推荐的实现方法，搜索速度快，准确度高，自动化程度高。

附图说明

图1是本发明的总流程流程示意图；

图2是本发明疾病标签抽取流程示意图；

图3是本发明医生搜索推荐流程示意图。

具体实施方式

下面通过实施例，并结合附图，对本发明的技术方案作进一步具体的说明。

实施例：如图1、图2和图3所示，一种医生搜索推荐的实现方法，按以下步骤进行：

第一步，获取原始数据；

第二步，抽取疾病标签：

在第一步中：各种原始数据的获取方式：

在第二步中，具体的疾病标签抽取，包括以下步骤：

第2a步，构建疾病库：

第2b步，生成疾病词典：

第2c步，疾病标签抽取：

第2d步，疾病标签聚合、统计并赋予权重：

医院级别项：从三级甲等到一级丙等，分别由15递减到1；

医生职称：从主任医师到住院医师，分别从7递减到1；

在第三步中，根据用户的查询关键词：

第3a步，识别用户输入的关键词类型，是否为疾病词：

第3d步,根据多个指标对医生结果集进行排序；主要包括以下三个维度的评分指标：微医相似度评分算法，医生针对此疾病的擅长程度和用户的个性化信息；

∑_tinq(tf(tind)×idf(t)²×boost(t.field in d)×lengthNorm(t.field in d)×coord(q，d)×

queryNorm(q))；

Score＝

Claims

1.一种医生搜索推荐的实现方法，其特征在于按以下步骤进行：

第一步，获取原始数据；

第二步，抽取疾病标签：

2.根据权利要求1所述的医生搜索推荐的实现方法，其特征在于：

在第一步中：各种原始数据的获取方式：

在第二步中，具体的疾病标签抽取，包括以下步骤：

第2a步，构建疾病库：

第2b步，生成疾病词典：

第2c步，疾病标签抽取：

第2d步，疾病标签聚合、统计并赋予权重：

医院级别项：从三级甲等到一级丙等，分别由15递减到1；

医生职称：从主任医师到住院医师，分别从7递减到1；

在第三步中，根据用户的查询关键词：

第3a步，识别用户输入的关键词类型，是否为疾病词：

∑_{tin q}(tf(t in d)×idf(t)²×boost(t．field in d)×lengthNorm(t.field in d)×coord(q，d)×queryNorm(q))；

Score＝

∑_{tin q}(boost(t.field in d)×lengthNorm(t.field in d)×coord(q，d)×queryNorm(q))；