CN108984656A

CN108984656A - 医学标签推荐方法及装置

Info

Publication number: CN108984656A
Application number: CN201810685806.7A
Authority: CN
Inventors: 杨寻; 何楠; 曾柏毅
Original assignee: Beijing Chun Yu World Software Co Ltd
Current assignee: Beijing Chun Yu World Software Co Ltd
Priority date: 2018-06-28
Filing date: 2018-06-28
Publication date: 2018-12-11

Abstract

本发明提供了一种医学标签推荐方法及装置，医学标签推荐方法包括：对目标用户的历史查询信息进行分词处理，得到至少一个医学类原词；获取所述医学类原词对应的多个相似词，并在多个所述相似词中选取医学类相似词，组成医学类相似词集；以及，根据预设规则在所述医学类相似词集中选取第一预设数量的医学类相似词，并将该第一预设数量的医学类相似词作为各个医学标签进行输出。本发明能够准确地向用户推荐医学标签，医学标签推荐过程快速且可靠，且有效降低医学标签推荐过程中的处理数据量。

Description

医学标签推荐方法及装置

技术领域

本发明涉及信息搜索技术领域，具体涉及一种医学标签推荐方法及装置。

背景技术

为了提高用户体验，在搜索引擎所在页面的关键词推荐功能已成为各类具有搜索功能的网站页面和终端应用APP等的重要功能。其中，由于医学类词汇存在专业化程度高及难以记忆等特性，因此，在医学类网站页面和终端应用中为用户推荐医学类关键词，就显得尤为重要。

现有技术中，为用户推荐关键词的方式一般为过滤式的查询query推荐方式或基于CTR预估的query推荐方式，其中，过滤式的关键词推荐方式主要通过从querylog中挖掘出大量的候选query，之后下拉推荐要求保持前缀相同，且相关推荐要求候选query和输入query具备某种相关性。基于CTR(Click-Through-Rate)预估的query推荐方式可以为利用Logistic回归模型来预估query的CTR，在模型中用到的特征至少包括搜索词与推荐query相关的特征、搜索词与推荐query的类目相关特征、候选query静态分相关特征、推荐query的词性特征和推荐query对应的结果页面特征。

然而，现有技术中的关键词推荐方法均存在需要训练的数据量过大而造成的关键词推荐耗时长和处理功能要求高的问题，以及，产品初期数据为空或者数据量太少而导致所需的数据量达不到要求的冷启动问题。

发明内容

针对现有技术中的问题，本发明提供一种医学标签推荐方法及装置，能够准确地向用户推荐医学标签，医学标签推荐过程快速且可靠，且有效降低医学标签推荐过程中的处理数据量。

为解决上述技术问题，本发明提供以下技术方案：

第一方面，本发明提供一种医学标签推荐方法，所述医学标签推荐方法包括：

对目标用户的历史查询信息进行分词处理，得到至少一个医学类原词；

获取所述医学类原词对应的多个相似词，并在多个所述相似词中选取医学类相似词，组成医学类相似词集；

以及，根据预设规则在所述医学类相似词集中选取第一预设数量的医学类相似词，并将该第一预设数量的医学类相似词作为各个医学标签进行输出。

一实施例中，所述医学标签推荐方法还包括：

接收触发指令，其中，所述触发指令中包含有对应用户的唯一标识；

以及，根据所述唯一标识在历史用户数据库中提取对应用户的历史查询信息，其中，所述历史用户数据库中存储有各个用户的唯一标识与历史查询信息之间的对应关系。

一实施例中，所述对目标用户的历史查询信息进行分词处理，得到至少一个医学类原词，包括：

对目标用户的历史查询信息进行分词处理，得到组成该历史查询信息的全部词汇；

应用医学词数据库对所述组成该历史查询信息的全部词汇进行筛选，在该历史查询信息的全部词汇中提取得到至少一个医学类原词；

以及，确定提取的各个所述医学类原词各自对应的医学词类型。

一实施例中，所述获取所述医学类原词对应的多个相似词，并在多个所述相似词中选取医学类相似词，组成医学类相似词集，包括：

确定所述历史查询信息中的各个医学类原词各自对应的多个相似词，得到所述历史查询信息对应的相似词集；

应用医学词数据库在所述相似词集中提取全部的医学类相似词，并将所述相似词集中的全部的医学类相似词组成医学类相似词集；

以及，确定所述医学类相似词集中的各个医学类相似词各自对应的医学词类型。

一实施例中，所述根据预设规则在所述医学类相似词集中选取第一预设数量的医学类相似词，包括：

将所述医学类相似词集中的各个医学类相似词按照各自对应的医学词类型进行分组；

以及，在每组中分别选取第二预设数量的医学类相似词；

其中，所述第二预设数量与分组数量的乘积等于所述第一预设数量。

一实施例中，所述在每组中分别选取第二预设数量的医学类相似词，包括：

确定各组中的各个医学类相似词与对应的所述医学类原词的余弦相似度；

将每组中的各个医学类相似词分别按照余弦相似度由大至小的顺序进行排序；

以及，分别在每组排序后的医学类相似词中，以从上至下的顺序选取第二预设数量的医学类相似词。

一实施例中，所述医学词类型包括：疾病类、症状类、检查类、药品类和手术类。

第二方面，本发明提供一种医学标签推荐系统，所述医学标签推荐方法包括：

分词处理模块，用于对目标用户的历史查询信息进行分词处理，得到至少一个医学类原词；

医学类相似词选取模块，用于获取所述医学类原词对应的多个相似词，并在多个所述相似词中选取医学类相似词，组成医学类相似词集；

医学标签输出模块，用于根据预设规则在所述医学类相似词集中选取第一预设数量的医学类相似词，并将该第一预设数量的医学类相似词作为各个医学标签进行输出。

第三方面，本发明提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现所述医学标签推荐方法的步骤。

第四方面，本发明提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现所述医学标签推荐方法的步骤。

由上述技术方案可知，本发明提供一种医学标签推荐方法，通过对目标用户的历史查询信息进行分词处理，得到至少一个医学类原词；获取所述医学类原词对应的多个相似词，并在多个所述相似词中选取医学类相似词，组成医学类相似词集；以及，根据预设规则在所述医学类相似词集中选取第一预设数量的医学类相似词，并将该第一预设数量的医学类相似词作为各个医学标签进行输出，能够准确地向用户推荐医学标签，通过对目标用户的历史查询信息进行分词处理来有效提高医学标签的推荐效率，使得医学标签推荐过程快速且可靠，且有效降低医学标签推荐过程中的处理数据量，并通过相似词的获取来避免由于产品初期数据为空或者数据量太少而导致所需的数据量达不到要求而产生的冷启动问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的实施例三中的医学标签推荐方法的流程示意图。

图2为本发明的医学类原词的分类示意图。

图3为本发明的包含有步骤001和002的医学标签推荐方法的流程示意图。

图4为本发明的医学标签推荐方法中的用户界面的显示举例示意图。

图5为本发明的医学标签推荐方法中步骤100的流程示意图。

图6为本发明的医学标签推荐方法中步骤200的流程示意图。

图7为本发明的医学标签推荐方法中步骤300的流程示意图。

图8为本发明的应用实例中的医学标签推荐方法的流程示意图。

图9为本发明的应用实例中的医学标签推荐方法的程序语言流程示意图。

图10为本发明的实施例二中的医学标签推荐系统的结构示意图。

图11为本发明的实施例三中的电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整的描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的实施例一提供一种医学标签推荐方法的具体实施方式，参见图1，所述医学标签推荐方法具体包括如下内容：

步骤100：对目标用户的历史查询信息进行分词处理，得到至少一个医学类原词。

在步骤100中，医学标签推荐系统对目标用户的历史查询信息进行分词处理，得到至少一个医学类原词。可以理解的是，所述医学标签推荐系统可以体现为一种服务器，所述智能追问系统的硬件组成中也可以包括终端设备，所述终端设备可以具有显示功能。具体地，所述终端设备可以包括智能手机、平板电子设备、网络机顶盒、便携式计算机、台式电脑、个人数字助理(PDA)、车载设备、智能穿戴设备等。其中，所述智能穿戴设备可以包括智能眼镜、智能手表、智能手环等。且所述第一终端和第二终端均为前述的终端类型中的一种。

所述服务器可以与所述终端设备进行通信。所述服务器与所述终端设备之间可以使用任何合适的网络协议进行通信，包括在本申请提交日尚未开发出的网络协议。所述网络协议例如可以包括TCP/IP协议、UDP/IP协议、HTTP协议、HTTPS协议等。当然，所述网络协议例如还可以包括在上述协议之上使用的RPC协议(Remote Procedure Call Protocol，远程过程调用协议)、REST协议(Representational State Transfer，表述性状态转移协议)等。

可以理解的是，所述目标用户为登录至当前医学类相关网站并打开该网站的搜索引擎所在页面的用户，或者，所述目标用户为登录至安装在当前手机内的医学类相关应用APP并打开该APP的搜索引擎所在界面的用户，相对应的，所述目标用户的历史查询信息为用户在当前医学类相关网站中的历史搜索信息，或者为用户在当前医学类相关应用APP中的历史搜索信息。其中，所述医学类原词为目标用户的历史查询信息中的医学类相关词汇。

另外，若对目标用户的当前历史查询信息进行分词处理后，在得到的分词中并未识别得到任何医学类词汇，则更换该目标用户的历史查询信息，并对新的历史查询信息进行分词处理，直到在得到的分词中识别得到至少一个医学类原词。

在一种举例中，参见图2，所述医学词类型至少可以包含有五大类，具体包含有：疾病类、症状类、检查类、药品类和手术类，且根据医学类相关网站或医学类相关应用APP的专业性偏好设置，还可以将医学词类型划分为其他分类或作进一步细分。

步骤200：获取所述医学类原词对应的多个相似词，并在多个所述相似词中选取医学类相似词，组成医学类相似词集。

在步骤200中，所述医学标签推荐系统对在步骤100中得到的所述医学类原词进行进一步处理，若所述医学类原词有1个，则得到该医学类原词对应的多个相似词，若所述医学类原词有多个，则得到各个医学类原词分别对应的多个相似词，并在多个所述相似词中选取医学类相似词，组成医学类相似词集。

举例来说，若对目标用户的历史查询信息进行分词处理后，得到三个医学类原词，分别表示为医学类原词A、医学类原词B和医学类原词C，且每个医学类原词分别对应如表1所示的多个相似词，并在该多个相似词中选取属于医学类词汇的相似词(即医学类相似词)A1、A2、B1、B3、B4、C2，并组成与该目标用户对应的医学类相似词集{A1，A2，B1，B3，B4，C2}。

表1

可以理解的是，为进一步提高医学标签推荐的准确性，在步骤100的对目标用户的历史查询信息中得到的分词中识别得到至少一个医学类原词的基础步骤100还可以保留目标用户的历史查询信息中的非医学类词汇，并在步骤200中同样分别获取这些非医学词汇的相似词，并在医学类词汇的相似词和非医学词汇的相似词中选取医学类相似词，以提高医学类相似词的全面性和准确性，其中，尽管根据非医学类词汇获取的相似词中涉及医学类词汇的几率较小，但非医学类词汇获取的相似词中仍然有存在医学类词汇的可能性，比如为一个“摔倒”非医学类词汇，而“摔倒”的相似词中可以包含有“跌倒”、“摔伤”等，而相似词“摔伤”即为一个具体类型为症状类的医学类词汇，因此，该种方式能够更为全面的获取医学类相似词。

举例来说，若对目标用户的历史查询信息进行分词处理后，得到三个医学类原词和两个非医学类词汇，分别表示为医学类原词A、非医学类词汇B、医学类原词C、非医学类词汇D和医学类原词E，且分别对应如表2所示的多个相似词，并在该多个相似词中选取属于医学类词汇的相似词(即医学类相似词)A1、A2、B4、C1、C2、D2、E1和E3，并组成与该目标用户对应的医学类相似词集{A1，A2，B4，C1，C2，D2，E1，E3}。

表2

步骤300：根据预设规则在所述医学类相似词集中选取第一预设数量的医学类相似词，并将该第一预设数量的医学类相似词作为各个医学标签进行输出。

在步骤300中，所述医学标签推荐系统在所述医学类相似词集中选取第一预设数量的医学类相似词，且选取遵循预设规则，并将该第一预设数量的医学类相似词作为各个医学标签进行输出。可以理解的是，所述预设规则可以根据实际应用情形或医用场景的专业性偏好进行预先设置。另外，所述第一预设数量也可以根据实际应用情形或医用场景的专业性偏好进行预先设置，具体可以为50个以内，在本实施例中，以5至20个之间为最佳。

从上述描述可知，本发明的实施例提供的医学标签推荐方法，能够准确地向用户推荐医学标签，通过对目标用户的历史查询信息进行分词处理来有效提高医学标签的推荐效率，使得医学标签推荐过程快速且可靠，且有效降低医学标签推荐过程中的处理数据量，并通过相似词的获取来避免由于产品初期数据为空或者数据量太少而导致所需的数据量达不到要求而产生的冷启动问题。

在一种具体实施方式，本发明还提供所述医学标签推荐方法中在步骤100之前执行的步骤001和步骤002的具体实施方式，参见图3，所述医学标签推荐方法具体包括如下内容：

步骤001：接收触发指令，其中，所述触发指令中包含有对应用户的唯一标识。

在步骤001中，所述医学标签推荐系统从用户界面接收触发指令。可以理解的是，所述用户界面为医学类相关网站的搜索引擎所在页面或者手机内的医学类相关应用APP的搜索引擎所在界面，其中，参见图4，当用户登录到用户界面中、或者当用户登录到用户界面中并点击搜索框时，相当于发出触发指令，所述医学标签推荐系统接收该触发指令，并读取该触发指令中的对应用户的唯一标识，例如用户IP地址信息或用户唯一ID编号等。

步骤002：根据所述唯一标识在历史用户数据库中提取对应用户的历史查询信息，其中，所述历史用户数据库中存储有各个用户的唯一标识与历史查询信息之间的对应关系。

在一种具体举例中，所述历史用户数据库可以为能够实时更新的分布式数据库，具体可以为HBase，其中，HBase是一个分布式的、面向列的开源数据库，及属于结构化数据的分布式存储系统。另外，Hbase中除了存储有各个用户的唯一标识与历史查询信息之间的对应关系之外，还存储有用户行为类型、用户行为时间戳和用户的个人信息等，其中，所述用户的个人信息具体可以包含有用户的性别、年龄、病史等内容。

在步骤002中，所述医学标签推荐系统在接收到触发指令，并读取该触发指令中的对应用户的唯一标识后，根据该唯一标识在历史用户数据库中查找得到与该唯一标识唯一对应的用户的历史查询信息。可以理解的是，所述历史查询信息具体可以为距离当前时间节点最近的一次用户查询query，即该用户的全部历史查询信息中的最后记录的一个用户查询query。

从上述描述可知，本发明的实施例提供的医学标签推荐方法，能够及时且可靠地获取用户的历史查询信息，为后续的医学标签推荐提供了可靠的数据基础。

在一种具体实施方式，本发明还提供所述医学标签推荐方法中步骤100的具体实施方式，参见图5，所述步骤100具体包括如下内容：

步骤101：对目标用户的历史查询信息进行分词处理，得到组成该历史查询信息的全部词汇。

在步骤101中，所述医学标签推荐系统可以应用分词工具对目标用户的历史查询信息进行分词处理，得到组成该历史查询信息的全部词汇。可以理解的是，所述分词工具可以为预设的实体医学词词表，也可以为Jieba中文分词工具，其中，Jieba是由fxsjy大神开源的一款中文分词工具，一款属于工业界的分词工具——模型易用简单、代码清晰可读，推荐有志学习NLP或Python的读一下源码。与采用分词模型Bigram+HMM的ICTCLAS相类似，Jieba采用的是Unigram+HMM。Unigram假设每个词相互独立，则分词组合的联合概率：

在Unigram分词后用HMM做未登录词识别，以修正分词结果。

步骤102：应用医学词数据库对所述组成该历史查询信息的全部词汇进行筛选，在该历史查询信息的全部词汇中提取得到至少一个医学类原词。

在步骤102中，所述医学标签推荐系统将步骤101中得到的组成该历史查询信息的各个词汇依次在医学词数据库中进行对照查找，若在医学词数据库中查找到组成该历史查询信息的某一词汇，则将该词汇标记为医学类原词。

步骤103：确定提取的各个所述医学类原词各自对应的医学词类型。

在步骤103中，所述医学标签推荐系统根据预设的医学词类型，对提取的各个所述医学类原词各自对应的医学词类型进行标记。

从上述描述可知，本发明的实施例提供的医学标签推荐方法，通过医学词数据库的设置，能够有效保证用户对医学类词汇的专业程度的要求，解决无法满足用户对医学类词汇的专业程度的要求的问题。

在一种具体实施方式，本发明还提供所述医学标签推荐方法中步骤200的具体实施方式，参见图6，所述步骤200具体包括如下内容：

步骤201：确定所述历史查询信息中的各个医学类原词各自对应的多个相似词，得到所述历史查询信息对应的相似词集。

在步骤201中，所述医学标签推荐系统应用word2vec服务相似词接口确定所述历史查询信息中的各个医学类原词各自对应的多个相似词，并将该多个相似词组成所述历史查询信息对应的相似词集。可以理解的是，应用word2vec服务相似词接口确定所述历史查询信息中的各个医学类原词各自对应的多个相似词的一种具体实施方式为：首先应用gensim和大量首问语料训练的词向量，然后应用词向量的余弦相似度作为词向量或词的相似度，而后对每个词向量记录与它相似度最高的若干词向量，作为它的相似词，并通过远程过程调用rpc接口提供查询服务。其中，gensim是一个通过衡量词组(或更高级结构，如整句或文档)模式来挖掘文档语义结构的工具。

步骤202：应用医学词数据库在所述相似词集中提取全部的医学类相似词，并将所述相似词集中的全部的医学类相似词组成医学类相似词集，且得分为相似词与原词的余弦相似度。

在步骤202中，所述医学标签推荐系统应用医学词数据库在所述相似词集中提取全部的医学类相似词，并删除非医学类相似词，而后将相似词集中的全部的医学类相似词组成医学类相似词集。

步骤203：确定所述医学类相似词集中的各个医学类相似词各自对应的医学词类型。

从上述描述可知，本发明的实施例提供的医学标签推荐方法，能够有效且准确地获取所述医学类原词对应的多个相似词，并在多个所述相似词中准确选取医学类相似词。

在一种具体实施方式，本发明还提供所述医学标签推荐方法中步骤300的具体实施方式，参见图7，所述步骤300具体包括如下内容：

步骤301：将所述医学类相似词集中的各个医学类相似词按照各自对应的医学词类型进行分组。

在步骤301中，所述医学标签推荐系统将所述医学类相似词集中的各个医学类相似词按照各自对应的医学词类型进行分组。

步骤302：在每组中分别选取第二预设数量的医学类相似词，其中，所述第二预设数量与分组数量的乘积等于所述第一预设数量。

在步骤302中，所述医学标签推荐系统在分组得到的各个医学词类型组中分别选取第二预设数量的医学类相似词。可以理解的是，若所述医学类相似词中包含有N种医学词类型，则有N组医学词类型组，并在每组中按与医学类原词的余弦相似程度进行排序，并在排序后以相似度值自高而低的顺序选取M个医学类相似词，作为医学标签进行输出，即输出的医学标签的总数为M*N。

在一种举例中，参见表3，所述医学类相似词中包含有3种医学词类型，则在每组中在按各个医学类相似词按与医学类原词的余弦相似程度进行排序，而后选取排序中的前2个医学类相似词，即分别为A1、A2、B1、B2、C1和C2，将A1、A2、B1、B2、C1和C2作为医学标签输出。

表3

即，所述步骤302具体包含有如下步骤：

步骤302a：确定各组中的各个医学类相似词与对应的所述医学类原词的余弦相似度；

步骤302b：将每组中的各个医学类相似词分别按照余弦相似度由大至小的顺序进行排序；

步骤302c：分别在每组排序后的医学类相似词中，以从上至下的顺序选取第二预设数量的医学类相似词。

为进一步的说明本方案，本发明还提供一种医学标签推荐方法的具体应用实例，具体为一种个性化推荐标签tag的方法的应用实例为：

S1.用户点击搜索框。

S2.去HBASE查找用户上次的query(感冒)。

S3.对“感冒”进行分词，得到“感冒”-一个词。

用“感冒”在相似词接口查询它的相似词及相似度得到((“流感”，0.8),(“发烧”,0.77),(“热伤风”,0.75),(“流鼻鼻涕”,0.5),…)。

S4.识别相似词的医学类别->((“流感”，0.8,疾病词),(“发烧”,0.77，症状词),(“热伤风”,0.75，疾病词),(“流鼻鼻涕”,0.5，症状词),…)。

S5.各类别按照相似度排序并推荐给用用户。

即参见图8和图9:

首先输入用户ID，表示为input：user＿id；

从hbase查找用户最后一个查询query；

对最后一个查询query进行分词，记为o＿tags，并对每个o＿tag标记处是否为医学词，以及是哪类医学词；

通过word2vec服务相似词接口将每个o＿tag都扩充其相似词，且所有相似词组成的相似词集记为s＿tags；

对每个s＿tag进行医学属性标注，丢弃非医学词；

以及，取排序中前两个(即图8和9中top2)疾病词、前两个(即图8和9中top2)症状词作为个性化推荐标签(tag)。

其中，图9中的o＿word1、o＿word2和o＿wordn分别表示为用户query的分词，s＿tag1表示为o＿word1的相似词集，s＿tag2表示为o＿word2的相似词集，s＿tagm表示为o＿wordn的相似词集，score1表示为o＿word1的相似词，score2表示为o＿word2的相似词，scorem表示为o＿wordn的相似词，s＿tagi、s＿tagj、s＿tagp和s＿tagq为最终选取的推荐医学标签。

从上述描述可知，本发明的应用实例提供的医学标签推荐方法，能解决现有技术方案中对大量训练数据的依赖，并且从语义相近的角度对医学实体词进行相似度计算，非常适合互联网医疗的应用场景。

本发明的实施例二提供一种医学标签推荐方法的医学标签推荐系统的具体实施方式，参见图10，所述医学标签推荐系统具体包括如下内容：

分词处理模块10，用于对目标用户的历史查询信息进行分词处理，得到至少一个医学类原词；

医学类相似词选取模块20，用于获取所述医学类原词对应的多个相似词，并在多个所述相似词中选取医学类相似词，组成医学类相似词集；

医学标签输出模块30，用于根据预设规则在所述医学类相似词集中选取第一预设数量的医学类相似词，并将该第一预设数量的医学类相似词作为各个医学标签进行输出。

在一种具体实施方式中，所述医学标签推荐系统还包含有：

触发指令接收单元01，用于接收触发指令，其中，所述触发指令中包含有对应用户的唯一标识；

历史查询信息提取单元02，用于根据所述唯一标识在历史用户数据库中提取对应用户的历史查询信息，其中，所述历史用户数据库中存储有各个用户的唯一标识与历史查询信息之间的对应关系。

所述分词处理模块10具体包含有：

分词处理单元11，用于对目标用户的历史查询信息进行分词处理，得到组成该历史查询信息的全部词汇；

医学类原词提取单元12，用于应用医学词数据库对所述组成该历史查询信息的全部词汇进行筛选，在该历史查询信息的全部词汇中提取得到至少一个医学类原词；

医学词类型确定单元13，用于确定提取的各个所述医学类原词各自对应的医学词类型。

所述医学类相似词选取模块20具体包含有：

相似词集获取单元21，用于确定所述历史查询信息中的各个医学类原词各自对应的多个相似词，得到所述历史查询信息对应的相似词集；

医学类相似词集获取单元22，用于应用医学词数据库在所述相似词集中提取全部的医学类相似词，并将所述相似词集中的全部的医学类相似词组成医学类相似词集；

医学词类型确定单元23，用于确定所述医学类相似词集中的各个医学类相似词各自对应的医学词类型。

所述医学标签输出模块30具体包含有：

分组单元31，用于将所述医学类相似词集中的各个医学类相似词按照各自对应的医学词类型进行分组；

医学标签输出单元32，用于在每组中分别选取第二预设数量的医学类相似词；其中，所述第二预设数量与分组数量的乘积等于所述第一预设数量。

所述医学标签输出单元32具体包含有：

余弦相似度确定子单元32a，用于确定各组中的各个医学类相似词与对应的所述医学类原词的余弦相似度；

排序子单元32b，用于将每组中的各个医学类相似词分别按照余弦相似度由大至小的顺序进行排序；

医学标签选取子单元32ca，用于分别在每组排序后的医学类相似词中，以从上至下的顺序选取第二预设数量的医学类相似词。

其中，所述医学词类型包括：疾病类、症状类、检查类、药品类和手术类。

从上述描述可知，本发明的实施例提供的医学标签推荐系统，能够准确地向用户推荐医学标签，通过对目标用户的历史查询信息进行分词处理来有效提高医学标签的推荐效率，使得医学标签推荐过程快速且可靠，且有效降低医学标签推荐过程中的处理数据量，并通过相似词的获取来避免由于产品初期数据为空或者数据量太少而导致所需的数据量达不到要求而产生的冷启动问题。

本申请的实施例三提供能够实现上述实施例一中的医学标签推荐方法中全部步骤的一种电子设备的具体实施方式，参见图11，所述电子设备具体包括如下内容：

处理器(processor)601、存储器(memory)602、通信接口(CommunicationsInterface)603和总线604；

其中，所述处理器601、存储器602、通信接口603通过所述总线1204完成相互间的通信；所述通信接口603用于实现医学标签推荐系统以及用户终端等相关设备之间的信息传输；

所述处理器601用于调用所述存储器602中的计算机程序，所述处理器执行所述计算机程序时实现上述实施例一中的全部步骤，例如，所述处理器执行所述计算机程序时实现下述步骤：

从上述描述可知，本发明的实施例提供的电子设备，能够准确地向用户推荐医学标签，通过对目标用户的历史查询信息进行分词处理来有效提高医学标签的推荐效率，使得医学标签推荐过程快速且可靠，且有效降低医学标签推荐过程中的处理数据量，并通过相似词的获取来避免由于产品初期数据为空或者数据量太少而导致所需的数据量达不到要求而产生的冷启动问题。

本申请的实施例四提供能够实现上述实施例一中的医学标签推荐方法中全部步骤的一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述实施例一的全部步骤，例如，所述处理器执行所述计算机程序时实现下述步骤：

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于硬件+程序类实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

虽然本申请提供了如实施例或流程图所述的方法操作步骤，但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式，不代表唯一的执行顺序。在实际中的装置或客户端产品执行时，可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。

在20世纪90年代，对于一个技术的改进可以很明显地区分是硬件上的改进(例如，对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而，随着技术的发展，当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此，不能说一个方法流程的改进就不能用硬件实体模块来实现。例如，可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable GateArray，FPGA))就是这样一种集成电路，其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上，而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且，如今，取代手工地制作集成电路芯片，这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现，它与程序开发撰写时所用的软件编译器相类似，而要编译之前的原始代码也得用特定的编程语言来撰写，此称之为硬件描述语言(Hardware Description Language，HDL)，而HDL也并非仅有一种，而是有许多种，如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等，目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚，只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中，就可以很容易得到实现该逻辑方法流程的硬件电路。

控制器可以按任何适当的方式实现，例如，控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit，ASIC)、可编程逻辑控制器和嵌入微控制器的形式，控制器的例子包括但不限于以下微控制器：ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320，存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道，除了以纯计算机可读程序代码方式实现控制器以外，完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至，可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、车载人机交互设备、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

虽然本说明书实施例提供了如实施例或流程图所述的方法操作步骤，但基于常规或者无创造性的手段可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式，不代表唯一的执行顺序。在实际中的装置或终端产品执行时，可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境，甚至为分布式数据处理环境)。术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、产品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、产品或者设备所固有的要素。在没有更多限制的情况下，并不排除在包括所述要素的过程、方法、产品或者设备中还存在另外的相同或等同要素。

为了描述的方便，描述以上装置时以功能分为各种模块分别描述。当然，在实施本说明书实施例时可以把各模块的功能在同一个或多个软件和/或硬件中实现，也可以将实现同一功能的模块由多个子模块或子单元的组合实现等。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

本领域技术人员也知道，除了以纯计算机可读程序代码方式实现控制器以外，完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件，而对其内部包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至，可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

本领域技术人员应明白，本说明书的实施例可提供为方法、系统或计算机程序产品。因此，本说明书实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本说明书实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本说明书实施例可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书实施例，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本说明书实施例的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

以上所述仅为本说明书实施例的实施例而已，并不用于限制本说明书实施例。对于本领域技术人员来说，本说明书实施例可以有各种更改和变化。凡在本说明书实施例的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本说明书实施例的权利要求范围之内。

Claims

1.一种医学标签推荐方法，其特征在于，所述医学标签推荐方法包括：

2.根据权利要求1所述的医学标签推荐方法，其特征在于，所述医学标签推荐方法还包括：

3.根据权利要求1所述的医学标签推荐方法，其特征在于，所述对目标用户的历史查询信息进行分词处理，得到至少一个医学类原词，包括：

4.根据权利要求1所述的医学标签推荐方法，其特征在于，所述获取所述医学类原词对应的多个相似词，并在多个所述相似词中选取医学类相似词，组成医学类相似词集，包括：

5.根据权利要求1所述的医学标签推荐方法，其特征在于，所述根据预设规则在所述医学类相似词集中选取第一预设数量的医学类相似词，包括：

以及，在每组中分别选取第二预设数量的医学类相似词；

6.根据权利要求5所述的医学标签推荐方法，其特征在于，所述在每组中分别选取第二预设数量的医学类相似词，包括：

7.根据权利要求3至5任一项所述的医学标签推荐方法，其特征在于，所述医学词类型包括：疾病类、症状类、检查类、药品类和手术类。

8.一种医学标签推荐系统，其特征在于，所述医学标签推荐方法包括：

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1至7任一项所述医学标签推荐方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1至7任一项所述医学标签推荐方法的步骤。