CN112071385A

CN112071385A - 基于人工智能的罕见病辅助分析方法、装置及存储介质

Info

Publication number: CN112071385A
Application number: CN202011009909.5A
Authority: CN
Inventors: 练镜锋; 宋德寿
Original assignee: Guangzhou Hantele Communication Co ltd
Current assignee: Guangzhou Hantele Communication Co ltd
Priority date: 2020-09-23
Filing date: 2020-09-23
Publication date: 2020-12-11

Abstract

本发明公开了基于人工智能的罕见病辅助分析方法，包括以下步骤：获取日志源中的罕见病人行为日志；提取罕见病人行为日志中的罕见病人的相关特征；将罕见病人的相关特征与罕见病人特征库中的罕见病人特征向量进行相似度比较，选择相似度最高的罕见病人特征向量作为罕见病人的特征向量；根据罕见病人的特征向量推送对应的治疗方案至所述罕见病人；对罕见病人的特征向量进行聚类分析，根据所述聚类分析的结果将所述罕见病人的特征向量加入群体特征库的对应位置。本发明能够对群体特征库进行完善，并建立罕见病知识数据库，能够对用户的行为进行分析并根据分析结果为用户推送相应的治疗方案，解决了罕见病患者多元异构数据存储及自动分析的问题。

Description

基于人工智能的罕见病辅助分析方法、装置及存储介质

技术领域

本公开涉及计算机视觉技术领域，具体涉及基于人工智能的罕见病辅助分析方法、装置及存储介质。

背景技术

(1)罕见病患者基因测序诊断的研究进展

从2000年6月26日，人类第一个基因组测序完成，到第一次以基因测序为基础查找病因实施治疗，并治愈出院花了10年的时间。基因测序技术的发展使之具备了罕见疾病诊断的能力。2010年12月，住在威斯康星州密尔沃基市的五岁男孩尼古拉斯.沃尔克已经承受了百余次手术，但是病情未见好转反而有恶化的趋势。医生认为用常规的手段已经无法确认这一罕见疾病的病因，提出要用基因测序的方法来进行疾病诊断。当他的DNA测序完成后，医生发现了基因突变的病因，并用这一发现实施正确的治疗，现在尼古拉斯已经康复。这是医学领域中关于人类基因组拯救生命的第一个案例。这也是用基因测序确定病因治疗罕见病患者的第一个案例。现在威斯康星医院就如常规检查一样每天都为几十个孩子进行基因组检测。

其他对罕见病的基因检测诊断的病例包括：2011年，对患有罕见病的运动障碍的十余岁异卵双生的患者进行全基因组测序发现这对夫妇健康的孪生患者的致病突变是“复合杂合子”，突变位于相同基因座上有两个等位突变的基因，分别来自其父母，结合在一起导致运动障碍。这可以解释为什么在前几代没有出现过的疾病，在接下来的测序中确肯定能共同发现。在犹他州的奥格登，有个家庭的两代人中有五个孩子，死于莫名其妙的加速衰老的疾病。通过对这个家庭进行基因组测序，准确地描述出基因突变位于X染色体76。对于这个家庭，借助体外受精选择不携带突变基因的胚胎可以有效预防现在称为奥格登综合症的罕见病。基因测序成为了罕见病确诊的必要手段。

(2)大数据平台在疾病研究中的应用

现阶段生物医学大数据的快速产生主要基于高通量技术和医院信息化的迅速发展。以高通量测序技术为例，2001年第一个人类基因组图谱花费近30亿美元，而如今用二代测序技术完成一个人基因组测序费用约1000美元。呈几何指数增长的生物医学大数据正引领生命科学从某种程度上成为信息科学。对这些数据创新性的管理和应用将为生命科学带来一次新的革命。

互联网公司早面临海量数据的存储分析问题。在2003年谷歌公司发布了GoogleFile System用来存储大文件，使得存储服务器搭建的分布式存储成为现在互联网公司最流行的底层硬件架构。随后的2004年该公司发布了MapReduce的计算框架，并于2006年发布了Bigtable这一NoSQL数据库。在大数据基本框架发表3年后的2009年有研究报道用大数据技术存储及分析组学数据。有个别研究尝试用大数据技术处理医学数据。归纳起来大数据技术在疾病研究中的应用主要体现在以下几个方面：1、开展组学及不同组学之间的关联研究；2、实时开展健康管理；3、快速识别生物标志物和研发药物；4、了解人类疾病谱的变化；5、实时开展卫生监测和公共卫生监测。

(3)罕见病大数据平台发展现状

目前罕见病数据平台大致分为5类，包括数据库检索平台、医患协作平台、社交网络平台、基因检测平台和咨询问诊平台。他们建设的目的相同都是希望能够利用互联网加速罕见病的科研临床进展。例如由法国INSERN和欧盟建立的全球最大的罕见病数据库Orphanet，提供包括症状搜索、疾病描述、诊断、罕见病药物、专家信息、临床研究等信息。罕见病搜索引擎FindZebra，其创建初衷就是为罕见病领域的临床医生及研究者提供诸如症状搜索及筛选、查看基因等功能。医患协作工具CrowdMed，该平台算法会对群体预测加以整合，把最有可能的诊断结果告知病人。患者由此能够尽快获得正确的诊断，避免了辗转就医的困扰。23andMe提供个人基因组检测服务。PatientsLikeMe是一个罕见病患者社交网络，患者在填写病史等资料后，平台会根据病情做出详细的数据分析图，在数据库之外，患者还可以找到与自己病情类似的成员，进行点对点的交流。

这些平台为罕见病的科研临床提供了非常重要的资源。在功能方面上，目前为止还没有平台有效结合线上线下资源为罕见病人提供查询、筛查、诊断及治疗的一站式医学服务(one stop solution)。从平台搭建技术方面，这些平台还是基于传统的RDBMS存储数据。而不是大数据技术计算框架MapReduce，对今后越来越多的基因组数据的融合与分析的扩展性会相对局限。

综上目前的罕见病相关系统具备如下问题：

(1)罕见疾病的研究需要临床、遗传、基础研究人员及测序平台与信息分析平台的密切结合，我国尚未有类似美国霍普金斯-贝勒罕见病中心等整合多方资源的一站式医疗中心；(2)各个医院的样本库及医院信息系统缺乏共享机制，存在多个“资源与信息孤岛”，数据应用规模较小导致数据价值挖掘不足；(3)由于没有统一的样本资源和信息平台，导致与国际的合作和数据共享的资源贫乏，没有足够样本和信息进行有效研究；(4)样本收集标准、基因测序标准及数据分析标准规范化尚未完善，并不能够以直接合并资源方式来达到整合应用；(5)缺乏一个网络平台整合国家医疗和信息资源，虽然国内已有部分科研机构和公司在一定范围内开展遗传信息分析服务，由于商业公司分析存在知识产权流失的问题，无法满足科研单位的巨大的分析需求。这些因素均限制了我国罕见病的医学实践以及相关科学研究的开展。

发明内容

本公开旨在至少解决上述问题之一，提供基于人工智能的罕见病辅助分析方法、装置及存储介质。

为了实现上述目的，根据本公开的一方面，提供基于人工智能的罕见病辅助分析方法，所述方法包括以下步骤：

获取日志源中的罕见病人行为日志；

提取所述罕见病人行为日志中的罕见病人的相关特征；

将罕见病人的所述相关特征与罕见病人特征库中的罕见病人特征向量进行相似度比较，选择相似度最高的罕见病人特征向量作为所述罕见病人的特征向量；

根据所述罕见病人的特征向量推送对应的治疗方案至所述罕见病人；

对所述罕见病人的特征向量进行聚类分析，根据所述聚类分析的结果将所述罕见病人的特征向量加入群体特征库的对应位置。

进一步，上述获取日志源中的罕见病人行为日志具体包括以下，

建立日志格式规范；

获取罕见病人的访问记录，记录罕见病人的所有操作，并通过Flume将所述访问记录按照所述日志格式规范保存至日志中进而形成日志源数据库；

根据罕见病人的身份信息获取所述日志源中的罕见病人行为日志。

进一步，上述提取所述罕见病人行为日志中的罕见病人的相关特征包括以下，

通过Map Reduce的编程模型实现，具体的，

提取罕见病人对所述罕见病人行为日志中的各个内容的操作进行加权；

构建疾病特征词库，根据加权结果计算罕见病人与所述疾病特征词库对应的所有特征词，并选取最为接近的前N个特征词作为所述罕见病人的特征词，即罕见病人的相关特征。

进一步，所述Map Reduce的编程模型计算罕见病人的疾病特征具体包括以下，

计算疾病特征之间的相似度，具体的，

建立罕见病人-疾病特征倒排表，所述罕见病人-疾病特征倒排表为对每个罕见病人建立一个包括他喜欢检索的疾病特征的列表，并通过余弦相似度来计算所述列表中的两两疾病特征之间的相似度，其计算公式如下：

其中，w_ij表示相似度矩阵，N(i)是喜欢检索疾病特征i的罕见病人集合，N(j)是喜欢检索疾病特征j的罕见病人集合，r_ui是罕见病人u对疾病特征i的评分，r_uj是罕见病人u对疾病特征j的评分，N(u)是罕见病人u喜欢检索的疾病特征集合，r_uv是罕见病人u对疾病特征v的评分；

对上述w_ij按最大值归一化，得到如下优化后的相似度矩阵w′_ij，

根据疾病特征的相似度和罕见病人的历史行为给罕见病人生成疾病特征列表，具体的，

在得到疾病特征之间的相似度矩阵w_ij后，通过如下公式计算罕见病人u对一个疾病特征j的兴趣，

其中N(u)是罕见罕见病人u喜欢检索的疾病特征集合，S(j，k)是和疾病特征j最相似的k疾病特征的集合，w_ij是疾病特征j和i的相似度，r_ui是罕见罕见病人u对疾病特征i的评分。

找寻与罕见病人相似的罕见病人集合，具体的，

建立疾病特征-罕见病人的倒排表，所述倒排表为对每个疾病特征都保存对该疾病特征产生过行为的罕见病人列表，根据每个疾病特征，在所述倒排表中的罕见病人两两之间的在共现矩阵中计算相似度，其计算公式如下：

其中，w_uv表示罕见病人两两之间的相似度矩阵，N(u)是罕见罕见病人u喜欢检索的疾病特征集合，N(v)是罕见罕见病人_v喜欢检索的疾病特征集合，r_ui是罕见罕见病人u对疾病特征i的评分，r_vi代表罕见罕见病人v对疾病特征i的兴趣，N(i)是喜欢检索疾病特征i的罕见罕见病人集合。

进一步，所述方法还包括建立罕见病知识数据库，所述罕见病知识数据库基于罕见病人行为日志和疾病特征词库实现罕见病人细分及罕见疾病诊断罕见病患者行为数据库，具体包括以下部分，

构建得到的系统描述表system_info，构建得到的罕见病人信息表user_info，构建得到的访问权限信息表user_access，构建得到的访问地址表url_info，构建得到的罕见病人行为表access_log，构建得到的罕见病人访问分析表visit_log，构建得到的罕见疾病特征信息表url_log，构建得到归档日志信息存储表archive_2015_07。

进一步，上述对所述罕见病人的特征向量进行聚类分析具体通过基于K-Means的余弦相似度聚类算法实现。

本发明还提出基于人工智能的罕见病辅助分析装置，所述装置应用了所述基于人工智能的罕见病辅助分析方法，包括：

信息获取模块，用于获取日志源中的罕见病人行为日志；

特征提取模块，用于提取所述罕见病人行为日志中的罕见病人的相关特征；

特征向量计算模块，用于将罕见病人的所述相关特征与罕见病人特征库中的罕见病人特征向量进行相似度比较，选择相似度最高的罕见病人特征向量作为所述罕见病人的特征向量；

推送模块，用于根据所述罕见病人的特征向量推送对应的治疗方案至所述罕见病人；

群体特征库优化模块，用于对所述罕见病人的特征向量进行聚类分析，根据所述聚类分析的结果将所述罕见病人的特征向量加入群体特征库的对应位置。

本发明还提出基于人工智能的罕见病辅助分析设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如权利要求1至7中任一项所述的基于知识图谱的广告落地页防篡改方法的步骤。

本发明还提出一种计算机可读存储的介质，所述计算机可读存储的介质存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1-7中任一项所述的基于人工智能的罕见病辅助分析方法的步骤。

本公开的有益效果为：本发明提出了基于人工智能的罕见病辅助分析方法，能够通过日志源中的罕见病人行为日志中提取所述罕见病人行为日志中的罕见病人的相关特征；将罕见病人的所述相关特征与罕见病人特征库中的罕见病人特征向量进行相似度比较，选择相似度最高的罕见病人特征向量作为所述罕见病人的特征向量；根据所述罕见病人的特征向量推送对应的治疗方案至所述罕见病人；对所述罕见病人的特征向量进行聚类分析，根据所述聚类分析的结果将所述罕见病人的特征向量加入群体特征库的对应位置，进而对群体特征库进行完善，并建立罕见病知识数据库，能够对用户的行为进行分析并根据分析结果为用户推送相应的治疗方案，解决了罕见病患者多元异构数据存储及自动分析的问题。

附图说明

通过对结合附图所示出的实施方式进行详细说明，本公开的上述以及其他特征将更加明显，本公开附图中相同的参考标号表示相同或相似的元素，显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图，在附图中：

图1所示为本发明的基于人工智能的罕见病辅助分析方法的流程图；

图2所示为本发明的基于人工智能的罕见病辅助分析装置结构图；

图3所示为本发明的基于人工智能的罕见病辅助分析方法的技术路线导图；

图4所示为本发明的在数据处理过程中所用到的数据工具以及对技术工具的使用处理路线图；

图5所示为本发明通过Map Reduce实现并人特征提取的原理图；

图6所示为本发明的基于人工智能的罕见病辅助分析设备结构图。

具体实施方式

以下将结合实施例和附图对本公开的构思、具体结构及产生的技术效果进行清楚、完整的描述，以充分地理解本公开的目的、方案和效果。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

参照图1以及图3所示为根据本公开的基于人工智能的罕见病辅助分析方法的流程图，下面结合图1来阐述根据本公开的实施方式的基于人工智能的罕见病辅助分析方法。

实施例1，本公开提出提供基于人工智能的罕见病辅助分析方法，所述方法包括以下步骤：

步骤110、获取日志源中的罕见病人行为日志；

步骤120、提取所述罕见病人行为日志中的罕见病人的相关特征；

步骤130、将罕见病人的所述相关特征与罕见病人特征库中的罕见病人特征向量进行相似度比较，选择相似度最高的罕见病人特征向量作为所述罕见病人的特征向量；

步骤140、根据所述罕见病人的特征向量推送对应的治疗方案至所述罕见病人；

步骤150、对所述罕见病人的特征向量进行聚类分析，根据所述聚类分析的结果将所述罕见病人的特征向量加入群体特征库的对应位置。

实施例1能够对群体特征库进行完善，并建立罕见病知识数据库，能够对用户的行为进行分析并根据分析结果为用户推送相应的治疗方案，解决了罕见病患者多元异构数据存储及自动分析的问题。

结合图3进行分析，在获得病人特征向量后，还能够根据病人的特征向量从症状向表型进行分析，进而根据病人的相关表型分析用户的病变基因，并将用户的病变基因归入罕见病知识库中，以供医学专家等相关人员进行分析使用。

作为本发明的优选实施方式，上述获取日志源中的罕见病人行为日志具体包括以下，建立日志格式规范；

具体的，第一步：建立日志格式规范

对于服务器日志，日志有标准格式，通过配置标准格式串，预处理模块即可通过标准解析方式获取有效信息；但是对于罕见病人行为日志，当收集不同应用系统日志时，如果日志定义和格式都不相同，那么上层数据分析系统将无法提取数据有效信息进行数据挖掘，因此本项目对罕见病人行为日志格式进行统一设计，如表1、表2所示。

表1、罕见病人行为日志主要是操作信息，操作列表

动作类型	动作编号	备注信息说明
			症状检索	1	检索关键字
医学文献阅读	2	阅读时长
			填写症状调查框	3	调查框明细
点击疾病	4
			点击主题	5
收藏	6
			注册	7	注册明细
服务评分	8	评分值

表2、日志采集字段说明

第二步：日志数据采集及存储

罕见病人在不断的平台访问过程中，计算机会记录罕见病人在平台的所有操作，并将其保存在日志中。通过Flume，大数据系统不断的采集日志数据，以供后续的病人细分及罕见病诊断。

Flume采用了分层架构：分别为agent，collector和storage。其中，agent和collector均由两部分组成：source和sink，source是数据来源，sink是数据去向。

Flume使用两个组件：Master和Node，Node根据在Master shell或web中动态配置，决定其是作为Agent还是Collector。

1.对于Agent

Agent的作用是将数据源的数据发送给collector。Flume自带了很多直接可用的数据源(source)，如：

text(“filename”)：将文件filename作为数据源，按行发送

tail(“filename”)：探测filename新产生的数据，按行发送出去

fsyslogTcp(5140)：监听TCP的5140端口，并且接收到的数据发送出去

tailDir("dirname"[,fileregex＝".*"[,startFromEnd＝false[,recurseDepth＝0]]])：监听目录中的文件末尾，使用正则去选定需要监听的文件(不包含目录)，recurseDepth为递归监听其下子目录的深度

2.对于Collector

Collector的作用是将多个agent的数据汇总后，加载到storage中。它的source和sink与agent类似。

数据源(source)，如：

collectorSource[(port)]：Collector source，监听端口汇聚数据

autoCollectorSource：通过master协调物理节点自动汇聚数据

logicalSource：逻辑source，由master分配端口并监听rpcSink

sink，如：

collectorSink("fsdir","fsfileprefix",rollmillis)：collectorSink，数据通过collector汇聚之后发送到hdfs,fsdir是hdfs目录，fsfileprefix为文件前缀码

customdfs("hdfspath"[,"format"])：自定义格式dfs

3.对于Storage

Storage是存储系统，可以是一个普通file，也可以是HDFS、HIVE、HBase、分布式存储等。

Master

Master是管理协调agent和collector的配置等信息，是flume集群的控制器。

最终多种来源的数据通过数据导入工具、数据存储层和数据处理层完成从疾病数据到罕见病知识库的转换过程，罕见病患者对平台的访问也通过数据处理层转化为知识存储到罕见病知识库中其技术路线如图4所示。

组学数据和医学文献数据的存储：

使用HDFS来存储组学数据和医学文件数据。医学文献数据存储在SSD硬盘上以降低小文件读写的开销。

HDFS采用Master/Slave架构。NameNode是中心服务器，负责管理文件系统的名字空间(namespace)以及客户端的访问。DataNode负责管理它所在节点上的存储。罕见病人能够通过HDFS文件系统的名字空间以文件的形式在上面存储数据。对于内部存储，罕见病患者的组学数据被切分为一个或多个块，存储在一组DataNode上。NameNode执行文件系统的名字空间操作，比如打开、关闭、重命名文件或目录。它也负责确定数据块到具体DataNode节点的映射。存储在HDFS中的组学文件被分成块，然后将这些块复制到多个计算机中(DataNode)。块的大小(通常为64MB)和复制的块数量在创建文件时由客户机决定。NameNode可以控制所有文件操作。HDFS内部的所有通信都基于标准的TCP/IP协议。

医学文献数据通常是几百KB到几MB的PDF文件，或者以XML文件形式存在的几百兆到几个GB的大文件。以XML形式存在的医学文献数据使用HDFS将大文件分块后以双副本的形式保存在不同的节点。以PDF形式存在的医学文献保存在SSD硬盘中以降低磁头寻道和扇区读写的时间开销。

病人医疗数据的存储：

病人的医疗数据通过Sqoop直接存储到HBase中。

具体的病人特征提取方式如下：

罕见病人行为日志文件以定期文件交换的方式，增量导入到系统HDFS中。分析过程采用MapReduce实现，日志文件提取形式。

表11、日志文件提取信息表

参照图5，作为本发明的优选实施方式，上述提取所述罕见病人行为日志中的罕见病人的相关特征包括以下，

通过Map Reduce的编程模型实现，具体的，

具体的，从罕见病人行为日志中提取Patient_ID、Doc_ID以及Operation作为Mapper，并输出Patient_ID，Map(Doc_ID，Operation)，按照病人ID，根据不同的Operation的不同值和每个Doc不同权值的关键词加权计算得到Reducer，并选取每个Reducer的权值最大的前N个关键词作为罕见病人的特征关键词，以Patient_ID，Map(Keyword,value)的形式进行输出。

具体的，见如下表3至表10，

表3、系统描述表：(system_info)

列名	类型	描述
			S_ID	Varchar	系统ID
S_NAME	Varchar	系统名称
			S_URL	Varchar	系统url地址
S_CREATED	Date	系统注册时间
			S_SEARCH_KEYWORD	Varchar	系统检索关键词
S_EXCLUDED_IPS	Varchar	系统过滤IP
			S_EXCLUDED_PARAMETERS	Varchar	系统过滤参数
S_EXCLUDED_URL	Varchar	系统过滤url

表4、罕见病人信息表：(user_info)

列名	类型	描述
			SU_ID	Varchar	系统ID
SU_NAME	Varchar	罕见病人名称
			SU_PASSWD	Varchar	罕见病人密码
SU_DATE	Date	罕见病人注册日期

表5、访问权限信息表：(user_access)

表6、访问地址表：(url_info)

列名	类型	描述
			URL_ID	Varchar	用户ID
S_ID	Varchar	系统ID
			URL	Varchar	url地址
Hash	Varchar	Urlhash值

表7、罕见病人行为表：(access_log)

表8、访问分析表：(visit_log)

列名	类型	描述
			V_ID	Varchar	访问ID
URL_ID	Varchar	用户ID
			S_ID	Varchar	系统ID
V_COUNT	Number	用户访问次数
			V_DAYS_SINCE_LAST	Number	距离本次访问最近访问天数
V_DAYS_SINCE_FIRST	Number	距离本次访问首次访问天数
			V_FIRST_ACTION_TIME	Date	本次访问首次操作时间
V_LAST_ACTION_TIME	Date	本次访问最后操作时间
			V_ENTRY_URL_ID	Varchar	本次访问首次操作地址
V_EXIT_URL_ID	Varchar	本次访问最后操作地址
			V_TOTAL_ACTIONS	Number	本次访问操作次数
V_TOTAL_SEARCHES	Number	本次访问检索次数
			V_TOTAL_TIME	Number	本次访问总时间，单位秒
V_IP	Varchar	本次访问IP
			V_COUNTRY	Varchar	本次访问国家
V_CITY	Varchar	本次访问城市
			V_REGION	Varchar	本次访问地区

表9、罕见疾病特征信息表：(url_log)

按月存储，每月的归档信息存在单独一个表中，归档以天为单位

表10、归档日志信息存储表：(archive_2015_07)

作为本发明的优选实施方式，所述计算罕见病人的疾病特征具体包括以下，

计算疾病特征之间的相似度，具体的，

建立罕见病人-疾病特征倒排表，所述罕见病人-疾病特征倒排表为对每个罕见病人建立一个包括他喜欢检索的疾病特征的列表，并通过余弦相似度来计算所述列表中的两两疾病特征之间的相似度，每个罕见病人的兴趣列表都对疾病特征的相似度产生贡献。越活跃的罕见病人，他的兴趣列表对推荐的意义越小，因此活跃罕见病人对疾病特征相似度的贡献应该小于不活跃的罕见病人，应该增加罕见病人活跃度对数的倒数的参数来修正疾病特征的相似度计算公式，其计算公式如下：

将基于疾病特征的协同过滤中的相似度矩阵按最大值归一化，可以提高疾病诊断的准确率，对上述w_ij按最大值归一化，得到如下优化后的相似度矩阵w′_ij，

其中N(u)是罕见罕见病人u喜欢检索的疾病特征集合，S(j，k)是和疾病特征j最相似的k疾病特征的集合，w_ij是疾病特征j和i的相似度，r_ui是罕见罕见病人u对疾病特征i的评分。该公式的含义是，和罕见病人历史上感兴趣的疾病特征越相似的疾病特征，越有可能在罕见病人的疾病特征列表中获得比较高的排名。

基于疾病特征的协同过滤诊断算法并不利用疾病特征的内容属性计算疾病特征之间的相似度，它主要通过分析罕见病人的行为记录计算疾病特征之间的相似度。该算法认为，疾病特征A和疾病特征B具有很大的相似度是因为喜欢检索疾病特征A的罕见病人大都也喜欢检索疾病特征B。

找寻与罕见病人相似的罕见病人集合，具体的，

其中，w_uv表示罕见病人两两之间的相似度矩阵，N(u)是罕见罕见病人u喜欢检索的疾病特征集合，N(v)是罕见罕见病人_v喜欢检索的疾病特征集合，r_ui是罕见罕见病人u对疾病特征i的评分，r_vi代表罕见罕见病人v对疾病特征i的兴趣，N(i)是喜欢检索疾病特征i的罕见罕见病人集合。评估完后，将兴趣度最高的疾病特征添加到候选推荐列表中，这样可以获取基于罕见病人协同过滤的候选推荐列表。

基于罕见病人的协同过滤算法通过分析罕见病人的行为记录计算罕见病人之间的相似度。该算法认为，罕见病人A和罕见病人B具有很大的相似度是因为罕见病人A喜欢检索的疾病特征大都也是罕见病人B喜欢检索的疾病特征。

作为本发明的优选实施方式，所述方法还包括建立罕见病知识数据库，所述罕见病知识数据库基于罕见病人行为日志和疾病特征词库实现罕见病人细分及罕见疾病诊断罕见病患者行为数据库，具体包括以下部分，

作为本发明的优选实施方式，上述对所述罕见病人的特征向量进行聚类分析具体通过基于K-Means的余弦相似度聚类算法实现。

参照图2，实施例2，本发明还提出基于人工智能的罕见病辅助分析装置，所述装置应用了所述基于人工智能的罕见病辅助分析方法，包括：

信息获取模块，用于获取日志源中的罕见病人行为日志；

实施例2，能够对群体特征库进行完善，并建立罕见病知识数据库，能够对用户的行为进行分析并根据分析结果为用户推送相应的治疗方案，解决了罕见病患者多元异构数据存储及自动分析的问题。

参照图6，实施例3，本发明还提出基于人工智能的罕见病辅助分析设备，包括：

存储器500，用于存储计算机程序；

处理器400，用于执行所述计算机程序时实现如权利要求1至7中任一项所述的基于知识图谱的广告落地页防篡改方法的步骤。

在应用了上述方法后，实施例3能够对群体特征库进行完善，并建立罕见病知识数据库，能够对用户的行为进行分析并根据分析结果为用户推送相应的治疗方案，解决了罕见病患者多元异构数据存储及自动分析的问题。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。

所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储的介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，RandomAccess Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括是电载波信号和电信信号。

尽管本发明的描述已经相当详尽且特别对几个所述实施例进行了描述，但其并非旨在局限于任何这些细节或实施例或任何特殊实施例，而是应当将其视作是通过参考所附权利要求考虑到现有技术为这些权利要求提供广义的可能性解释，从而有效地涵盖本发明的预定范围。此外，上文以发明人可预见的实施例对本发明进行描述，其目的是为了提供有用的描述，而那些目前尚未预见的对本发明的非实质性改动仍可代表本发明的等效改动。

以上所述，只是本发明的较佳实施例而已，本发明并不局限于上述实施方式，只要其以相同的手段达到本发明的技术效果，都应属于本发明的保护范围。在本发明的保护范围内其技术方案和/或实施方式可以有各种不同的修改和变化。

Claims

1.基于人工智能的罕见病辅助分析方法，其特征在于，所述方法包括以下步骤：

获取日志源中的罕见病人行为日志；

提取所述罕见病人行为日志中的罕见病人的相关特征；

2.根据权利要求1所述的基于人工智能的罕见病辅助分析方法，其特征在于，上述获取日志源中的罕见病人行为日志具体包括以下，

建立日志格式规范；

3.根据权利要求1所述的基于人工智能的罕见病辅助分析方法，其特征在于，上述提取所述罕见病人行为日志中的罕见病人的相关特征包括以下，

通过Map Reduce的编程模型实现，具体的，

4.根据权利要求3所述的基于人工智能的罕见病辅助分析方法，其特征在于，所述计算罕见病人的疾病特征具体包括以下，

计算疾病特征之间的相似度，具体的，

5.根据权利要求3所述的基于人工智能的罕见病辅助分析方法，其特征在于，所述计算罕见病人的疾病特征具体包括以下，

找寻与罕见病人相似的罕见病人集合，具体的，

其中，w_uv表示罕见病人两两之间的相似度矩阵，N(u)是罕见罕见病人u喜欢检索的疾病特征集合，N(v)是罕见罕见病人v喜欢检索的疾病特征集合，r_ui是罕见罕见病人u对疾病特征i的评分，r_vi代表罕见罕见病人v对疾病特征i的兴趣，N(i)是喜欢检索疾病特征i的罕见罕见病人集合。

6.根据权利要求1所述的基于人工智能的罕见病辅助分析方法，其特征在于，所述方法还包括建立罕见病知识数据库，所述罕见病知识数据库基于罕见病人行为日志和疾病特征词库实现罕见病人细分及罕见疾病诊断罕见病患者行为数据库，具体包括以下部分，

7.根据权利要求1所述的基于人工智能的罕见病辅助分析方法，其特征在于，上述对所述罕见病人的特征向量进行聚类分析具体通过基于K-Means的余弦相似度聚类算法实现。

8.基于人工智能的罕见病辅助分析装置，其特征在于，所述装置应用了所述基于人工智能的罕见病辅助分析方法，包括：

信息获取模块，用于获取日志源中的罕见病人行为日志；

9.基于人工智能的罕见病辅助分析设备，其特征在于，包括：

存储器，用于存储计算机程序；

10.一种计算机可读存储的介质，其特征在于，所述计算机可读存储的介质存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1-7中任一项所述的基于人工智能的罕见病辅助分析方法的步骤。