CN114969497A - 医疗健康数据处理系统 - Google Patents

医疗健康数据处理系统 Download PDF

Info

Publication number
CN114969497A
CN114969497A CN202110207593.9A CN202110207593A CN114969497A CN 114969497 A CN114969497 A CN 114969497A CN 202110207593 A CN202110207593 A CN 202110207593A CN 114969497 A CN114969497 A CN 114969497A
Authority
CN
China
Prior art keywords
subsystem
data
user
service module
log data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110207593.9A
Other languages
English (en)
Inventor
国兴旺
袁乾烽
欧锦华
王志广
叶永钦
王火生
袁锐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
GUANGZHOU QISHENG INFORMATION TECHNOLOGY CO LTD
Original Assignee
GUANGZHOU QISHENG INFORMATION TECHNOLOGY CO LTD
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by GUANGZHOU QISHENG INFORMATION TECHNOLOGY CO LTD filed Critical GUANGZHOU QISHENG INFORMATION TECHNOLOGY CO LTD
Priority to CN202110207593.9A priority Critical patent/CN114969497A/zh
Publication of CN114969497A publication Critical patent/CN114969497A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Public Health (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Biomedical Technology (AREA)
  • Pathology (AREA)
  • Epidemiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种医疗健康数据处理系统。该系统包括:行为埋点子系统、标签子系统及搜索推荐子系统;其中,行为埋点子系统,用于采集用户行为日志数据,并将该用户行为日志数据流式结构化处理之后进行存储;标签子系统,用于根据领域定制标签库和来自于行为埋点子系统的用户行为日志数据获取用户画像的用户注意力标签,对该用户行为日志数据进行处理形成描述用户画像的基本属性和动态属性,并结合媒体内容基础数据和领域定制标签库获取内容模型;搜索推荐子系统,通过用户画像的数据和内容模型的计算处理来实现内容的分发。本系统更好地应对了医疗健康数据的处理和应用,更好地解决用户与内容的匹配,对于内容而言实现了千人千面的精准分发。

Description

医疗健康数据处理系统
技术领域
本发明涉及通信领域,具体而言,涉及一种医疗健康数据处理系统。
背景技术
互联网技术的发展带给人们生活极大的改变,从传统的App到微信小程序,快应用,5G消息Chatbot,随着互联网业务规模和数据量的增长,使用原有方法构建的系统架构已经无法满足产品线多样性的需求,近些年来在原有前台和后台的基础上,又提出了中台的概念,本质上是为了解决在同一企业中产品多样性带来的架构与业务发展问题。
数据中台是一种基于数据驱动的构建理念,旨在通过业务发展而产生的数据能力,通过数据积累加上最近发展起来的大数据,人工智能技术来提高企业团队的产品力和业务分析能力。
医疗健康垂直领域的互联网产品,现有数据包括:用户行为日志数据以及大量的知识内容数据,对于提供线上医疗服务的产品还集成了很多医院/医生等数据,互联网医疗产品解决的问题依然是用户与医疗信息服务/医疗服务分发的问题,那么分发效率就必然成为业务发展的一个必须要妥善解决的问题。
相关技术中,医疗健康内容分发模式基于互联网传统的节目单模式,各种实体数据基于所有访问者都相同的编辑驱动列表方式,这种分发用户的点击率/转化率不高,效率低下,用户很难直接获取到对自己真正有价值的信息,即使通过传统搜索也无法做到千人千面。
随着近几年来,大数据与人工智能技术的发展,对于海量的数据处理更加具有可操作性,而且数据的价值重新被评估与提出,而提供医疗健康信息服务与医疗服务的互联网行业积累了大量的内容数据,服务数据以及用户数据,如何用好这些数据更好的提升业务能力与产品力成为了一个新的解决思路。医疗健康领域有其特殊性,在一些产品应用时通过更加精细化的数据分析与计算,更好地连接用户与内容是数据驱动的一种新方式。
因此,在医疗健康领域中,如何搭建一套数据中台系统架构,以更好地应对医疗健康数据的处理和应用,更好地解决用户与内容的匹配,提高内容分发效率,是目前亟待解决的问题。
发明内容
本发明的主要目的在于公开了一种医疗健康数据处理系统,以至少解决相关技术中医疗健康内容和服务分发模式基于互联网传统的节目单模式,这种分发方式,用户点击率和转化率不高,效率低下,用户很难直接获取到对自己真正有价值的信息,即使通过传统搜索也无法做到千人千面的问题。
根据本发明,提供了一种医疗健康数据处理系统。
根据本发明的医疗健康数据处理系统包括:行为埋点子系统、标签子系统以及搜索推荐子系统;其中,所述行为埋点子系统,用于采集用户行为日志数据,并将该用户行为日志数据流式结构化处理之后进行存储;所述标签子系统,与所述行为埋点子系统相连接,用于根据领域定制标签库和来自于所述行为埋点子系统的用户行为日志数据获取用户画像的用户注意力标签,对该用户行为日志数据进行处理形成描述所述用户画像的基本属性和动态属性,并结合媒体内容基础数据和所述领域定制标签库获取内容模型;搜索推荐子系统,分别与所述行为埋点子系统和所述标签子系统相连接,通过所述用户画像的数据和所述内容模型的计算处理来实现内容的分发。
本发明提供了一种医疗健康数据处理系统,该系统中,行为埋点子系统采集大量的用户行为日志数据,标签子系统通过对用户行为日志数据的分析与处理实现用户的画像特征化与数字化,对内容数据进行标签化形成针对内容的模型,推荐搜索子系统通过所述用户画像的数据和所述内容模型的匹配处理,更好地应对了医疗健康数据的处理和应用,更好地解决用户与内容的匹配,对于内容而言实现了千人千面的精准分发。
附图说明
图1是根据本发明实施例的医疗健康数据处理系统的结构框图;
图2是根据本发明优选实施例的医疗健康数据处理系统的结构框图;
图3是根据本发明优选实施例的医疗健康数据处理系统的结构示意图;
图4是根据本发明优选实施例的医疗健康数据处理系统的数据处理关系示意图。
具体实施方式
下面结合说明书附图对本发明的具体实现方式做一详细描述。
图1是根据本发明实施例的医疗健康数据处理系统的结构框图。如图1所示,该医疗健康数据处理系统包括:行为埋点子系统10、标签子系统12以及搜索推荐子系统14;其中,上述行为埋点子系统10,用于采集用户行为日志数据,并将该用户行为日志数据流式结构化处理之后进行存储;上述标签子系统12,与上述行为埋点子系统10相连接,用于根据领域定制标签库和来自于上述行为埋点子系统的用户行为日志数据获取用户画像的用户注意力标签,对该用户行为日志数据进行处理形成描述上述用户画像的基本属性和动态属性,并结合媒体内容基础数据和上述领域定制标签库获取内容模型;搜索推荐子系统14,分别与上述行为埋点子系统10和上述标签子系统12相连接,通过上述用户画像的数据和上述内容模型的匹配处理来实现内容的分发。
通过图1所示的系统,行为埋点子系统采集大量的用户行为日志数据,标签子系统通过对用户行为日志数据的分析与处理实现用户的画像特征化与数字化,对内容数据进行标签化形成针对内容的模型,推荐搜索子系统通过上述用户画像的数据和上述内容模型的匹配处理,更好地应对了医疗健康数据的处理和应用,更好地解决用户与内容的匹配,对于内容而言实现了千人千面的精准分发。
其中,上述用户行为日志数据主要描述某个用户在某个时间做了某件事,行为埋点子系统中,可以通过终端应用上的JS埋点框架搜集用户在终端上的行为日志数据,此外,也可以通过适配服务器进行埋点搜集和上报用户行为日志数据。行为埋点子系统将该用户行为日志数据流式结构化处理之后,由相应的处理软件进行初步的数据清洗过滤,并且以日志的形式实时导入消息队列进行存储,形成用户行为日志数据。因此,行为埋点子系统从架构上可以设置在客户端上,也可以设置在服务端上,或者同时设置于客户端和服务端上。
优选地,如图2所示,该行为埋点子系统10可以进一步包括:收集模块100,设置于终端设备和/或适配服务器中,用于收集用户行为日志数据;Nginx网关服务模块102,用于在用户访问时记录上述用户行为日志数据;Flume服务模块104,用于对记录的上述用户行为日志数据进行数据流式结构化处理;Kafka服务模块106,用于将上述Flume服务模块处理后的上述用户行为日志数据导入消息队列并进行存储。
在优选实施过程中,如图3所示,用户通过手机客户端,H5或者5G消息适配服务访问,设置于终端设备和/或适配服务器中的收集模块,收集用户行为日志数据;用户访问时Nginx网关服务模块会记录访问日志,Flume服务模块通过对Nginx用户访问日志进行数据流式结构化处理后发送给Kafka服务模块的Kafka消息存储队列集群服务进行持久化保存,这些数据可以为后续的数据分析工作提供数据源。
其中,上述领域定制标签库是指通过医疗健康领域的数据积累形成的一套产品运营标签库,上述领域定制标签库包括:通用标签和主题标签,其中,通用标签指健康领域细化的大众化词汇,扩展性较强,无法一次性获得,主要包括:疾病症状词,以及一些健康养生类的词语,例如,孕妇、美食等。主题标签主要是医疗健康领域内容分类或主题/栏目,例如“中医”就是一个主题标签。标签子系统根据上述领域定制标签库和行为埋点子系统处理后的用户行为日志数据进行匹配,获取用户画像的用户注意力标签,其中,用户注意力标签用来描述一个用户的关注点,例如,“高血压”、“糖尿病”等。
标签子系统还用于对于用户行为日志数据进行处理形成用于描述用户画像的基本属性和动态属性,其中,基本属性包括但不限于:性别和年龄等,可以通过对用户注意力标签的机器学习模型进行预测实现。动态属性包括但不限于:终端类型和位置等,可以由终端直接携带更新。
标签子系统还用于结合上述获取到的用户画像的基本属性和动态属性,及媒体内容基础数据和上述领域定制标签库获取内容模型。上述媒体内容基础数据包括:健康媒体内容知识数据与医疗健康基础数据,其中,健康媒体内容知识数据指企业经过多年积累已经形成多种内容形式和海量的内容数据,包括但不限于:图文,问答,视频/音频,疾病词条,自测题目库,短文本聚合话题等。如果需要更多类型,此数据系统可以定义媒体类型引入新的内容形式数据,例如,直播。医疗健康基础数据主要包括结构化的疾病库/医院库/药品库数据,其中,疾病库中包括:疾病,症状,检查,手术等分类,医院库包括:医院,科室,医生等数据,药品库也包括收录的药品名,图片,治疗疾病,说明书等。内容模型是指对内容(比如文章、视频/音频等)进行数字化处理构建的数据库。
优选地,如图2所示,上述标签子系统12可以进一步包括:Spark服务模块120,用于读取上述消息队列中的上述用户行为日志数据,根据领域定制标签库和该用户行为日志数据获取上述用户画像的用户注意力标签,对该用户行为日志数据进行处理形成描述上述用户画像的基本属性和动态属性;索引数据集群模块122,用于接收来自于上述Spark服务模块的上述用户注意力标签并保存;上述Hadoop集群模块124,用于结合媒体内容基础数据和上述领域定制标签库运算获取上述内容模型并保存;守护服务模块126,用于向Hadoop集群模块提交任务,完成任务和控制和管理,并将上述Hadoop集群模块中保存的数据导入上述推荐搜索子系统。
优选地,如图2所示,上述索引数据集群模块122可以进一步包括:MySQL特征数据库1220和ElasticSearch索引库1222,其中,上述MySQL特征数据库1220与上述ElasticSearch索引库1222,用于接收来自于上述标签子系统中Spark服务模块的用户注意力标签并存储,并且上述MySQL特征数据库1220在上述推荐搜索子系统需要查询数据时提供查询结果。
优选地,如图2所示,上述Hadoop集群模块124可以进一步包括:MapReduce子模块1240,用于执行上述守护服务模块提交的MapReduce任务;HDFS文件子模块1242,用于存储MapReduce子模块的运算结果,其中,上述HDFS文件子模块与上述守护服务模块相连接;SparkML模型训练子模块1244,用于离线训练多种推送模型。
在优选实施过程中,如图3所示,Spark服务模块通过流式方式读取Kafka消息队列,获取用户注意力标签后,存储在MySQL特征数据库和ElasticSearch索引库中。业务管理系统的管理后台通过向守护服务模块发送任务指令来启动任务,守护服务模块主要完成任务控制和管理,通过守护服务模块可以提交对于Hadoop集群的MapReduce任务,通过Hadoop集群完成更大规模的数据运算,数据运算的结果存储在HDFS文件系统中,例如,上述内容模型运算等都是通过Hadoop集群完成。守护服务模块通常执行单主机单进程服务,也可本机完成一些简单的数据处理,例如由于Lucene索引文件只支持本机文件系统,所以可通过守护服务模块将Hadoop处理后的HDFS中的数据导入Lucene索引。
优选地,如图2所示,上述Spark服务模块120,还用于过滤出符合用户点击特征的用户行为日志数据,并将用户点击推荐的信息(可称为正反例反馈,通常是拉取一屏以后,点击位置的为正例,点击位置之前的没有点击的可以采样为反例,之后点击位置之下的第一条可以采样为反例)反馈给上述推荐搜索系统,为训练点击通过率CTR模型提供训练数据,其中,上述CTR模型用于实现点击率排序的预测。
在优选实施过程中,如图3所示,Spark服务模块通过流式过滤出符合用户点击特征的行为日志进行正反例反馈,正反例反馈主要是为在线CTR训练提供了数据。
优选地,如图2所示,推荐搜索子系统14可以进一步包括:微服务网关模块140,用于连接上述行为埋点子系统;CTR模型训练服务模块142,用于训练CTR模型;Zookeeper模型同步服务模块144,用于实现上述CTR模型的同步;Lucene召回数据库服务模块146,用于使用Lucene本机文件进行内容的召回。其中,召回是指推荐系统的技术术语,主要指根据用户和内容的部分特征,从海量的内容库里,快速确定一部分用户潜在感兴趣的内容,然后交给排序环节。
推荐搜索子系统主要解决用户对内容的召回问题,实现高效的内容分发算法,实现了对于用户千人千面的内容分发,主要包括:基于相关性的标签召回,基于流行度的推荐以及基于协同过滤的推荐(音视频内容),同时也包括了智能搜索,在搜索时针对用户自身提供了更精准的个性化推荐搜索词和相关搜索词等,同时在推荐搜索子系统中实现了自有的CTR计算排序。
需要说明的是,推荐搜索子系统不仅可以应用于内容分发,也可以应用到包括医院,医生等服务实体数据上,相对于传统节目单方式提供了更好的基于数据的服务分发。
在优选实施过程中,如图3所示,推荐搜索接口通过微服务网关模块实现,推荐搜索子系统中有进行点击通过率(Click-Through-Rate,简称为CTR)模型同步的Zookeeper模型同步服务模块,CTR模型采用了相关技术中的FTRL(Follow the Regularized Leader)+LR(Logistic regression,逻辑回归)方案训练实现。为了实现提高读取性能,微服务网关模块使用Lucene本机文件进行内容的召回,对于用户标签数据,通过查询MySQL特征数据库完成。
优选地,如图2和图3所示,上述推荐搜索子系统还包括:流量分配服务模块148,上述流量分配服务器连接于上述推荐搜索子系统14与上述Nginx网关服务模块之间,用于通过A/B测试分流给不同用户进行灰度测试,以评估推荐搜索结果。
通过网关接口的流量分配策略后访问推荐搜索接口,流量分配架构解决了系统中涉及到的机器学习模型的效果反馈问题,例如机器学习中需要对推荐搜索结果的好坏进行评估,那么可以通过流量分配服务模块148的A/B测试分流给不同的用户进行灰度测试。
优选地,如图2和图3所示,上述医疗健康数据处理系统还可以包括:统计子系统16;上述统计子系统16可以进一步包括:进行数据分析的可视化分析服务模块160、以及进行数据统计的后台管理服务模块162,其中,上述可视化分析服务模块160,分别与上述标签子系统中的索引数据集群模块122和上述行为埋点子系统10中的Kafka服务模块106相连接,上述后台管理服务模块162,分别与上述标签子系统10中的守护服务模块126和上述索引数据集群模块122中的ElasticSearch索引库1222相连接。
统计子系统16基于行为日志数据以及如上已有类型数据进行一些运算,统计和基本的分析,旨在直接为产品运营人员提供数据指标,通过数据驱动影响运营方向与产品决策。统计子系统执行如下业务处理:统计指标,日任务执行,统计数据推送与展示。具体地,统计子系统通过用户行为日志数据进行按天批量处理形成用户报告,统计子系统通过对推送子系统运行日志的处理形成推送子系统的统计数据。统计子系统根据各种统计需求对用户画像数据与内容模型数据进行处理。统计子系统通过产品运营管理后台或其他数据分析工具进行数据的展示和查看,为整个业务产品的发展提供了方向与思路指引。
优选地,如图2所示,上述医疗健康数据处理系统还可以包括:推送子系统18,其中,上述推送子系统18可以进一步包括:推送任务策略服务器180,分别与上述推荐搜索子系统14和上述标签子系统12中的SparkML模型训练子模块1244相连接,用于通过上述SparkML模型训练模块离线训练出的多种推送模型来产生推送策略,并且在上述推荐搜索子系统的Lucene召回数据库服务模块进行内容的召回后,调用上述推送适配服务模块推送消息;上述推送适配服务模块182,分别与上述推送任务策略服务器和上述行为埋点子系统中的Flume服务模块相连接,用于推送消息并将推送日志传回上述Flume服务模块入库,还用于适配至少一种第三方云服务器。
在优选实施过程中,如图3所示,推送任务策略服务会定时启动,通过SparkML模型训练子模块1244每周离线训练出多种模型来产生分时分媒体类型的推送策略,之后结合每个用户的个性化标签通过推荐搜索子系统的Lucene召回数据库服务模块进行内容的召回后,调用推送适配服务推送消息,推送适配服务每天产生的推送日志传回Flume入库,同时推送适配服务会适配多种第三方推送云端,例如苹果APNs,华为手机Push或者普通短信,甚至是5G消息等。
推送子系统完成了更好的用户激活方式,主要是基于用户点击日志,推送系统运行日志训练多种目标模型,学习到不同用户群体应该何时推送,推送什么样的内容,推送什么样类型的内容,以及使用何种引导文案能够最优化的提高点击率,从而激活应用端的用户。推送子系统在手机端集成不同厂商的Push能力适配,同时也包括了5G消息(RCS)/短信等的推送策略。实现形式包括:机器自动计算推送与运营人员手动活动推送。
以下结合图4所示的医疗健康数据处理系统的数据处理关系进一步描述上述优选实施方式。
图4是根据本发明优选实施例的医疗健康数据处理系统的数据处理关系示意图。如图4所示,通过三层关系来描述,底层为基础数据层,中间层为本申请医疗健康数据处理系统的五个子系统,顶层为模型层。
其中,行为埋点子系统10通过埋点技术将搜集到的用户行为数据以日志的形式实时导入消息队列进行存储,形成用户行为日志数据,如图中①所示。行为埋点子系统通过消费者端(消费者端指Kafka后端的处理程序)对该用户行为日志数据进行处理形成描述上述用户画像的基本属性和动态属性,如图②所示,其中,基本属性包括但不限于:性别、年龄等,可以通过对注意力标签的机器学习模型进行预测实现。动态属性包括但不限于:终端类型和位置等,由终端直接携带更新。
标签子系统读取用户行为日志数据,如图中③所示,读取可枚举的领域定制标签库,如图中⑤所示,根据用户行为日志数据和计算出用户画像数据模型中的用户注意力标签,如图中④所示,通过对用户行为需求序列的预估处理形成用户意图识别。标签子系统通过对媒体内容基础数据,通过可枚举的领域定制标签库计算出内容模型,如图中⑥所示。同时,标签子系统中的过滤模块对用户日志的实时流式处理,训练了CTR模型与推送模型的点击反馈数据的处理。
统计子系统通过用户行为日志数据进行按天批量处理形成用户报告,如图中
Figure BDA0002951388230000141
所示。统计子系统通过对推送子系统运行日志的处理形成推送子系统的统计数据。统计子系统根据各种统计需求对用户画像模型数据与内容模型数据进行处理。
推荐搜索子系统依赖于形成用户画像数据与内容模型数据进行相应处理,如图中⑧和⑨所示,具体包括但不限于:相关性推荐匹配,流行度计算,协同过滤计算,最后通过Lucene等实现数据的索引,进行千人千面的内容分发。推荐搜索子系统依赖于CTR模型实现了内容的精确排序,如图中⑩所示。推荐搜索子系统不仅可以应用于内容分发与排序,也可以应用到包括医院,医生等服务实体数据上,相对于传统节目单方式提供了更好的基于数据的服务分发与排序。
推送子系统依赖于推送系统运行日志进行多个目标函数的学习训练,如图中
Figure BDA0002951388230000142
所示,包括:选择时段,选择媒体类型,动态文案生成推送模型,也会基于这些模型进行确定推送策略,如图中
Figure BDA0002951388230000143
所示,同时也基于用户画像模型数据与内容模型数据进行相关匹配分发,如图中
Figure BDA0002951388230000144
Figure BDA0002951388230000145
所示。
综上所述,借助本发明提供的上述实施例,本发明提供的医疗健康数据处理系统,可应用到数据中台中,该系统包括:用来在多样化终端的目标产品中采集用户行为日志的行为埋点子系统;为用户数据和内容数据提供特征数字化的标签子系统;为产品运营提供统计分析数据支撑的统计子系统;为医疗健康内容提供精准分发能力的推送搜索子系统;为产品运营提高用户留存唤醒的精准推送子系统。上述系统通过对用户行为日志的分析与处理实现用户的画像特征化和数字化,通过标签库提醒对内容数据进行标签化形成针对内容的模型,通过推荐搜索子系统实现千人千面的精准分发,通过推送子系统实现了智能个性化的留存唤醒,通过统计子系统对运营人员提供精准的数据表达,更好的运营产品和服务。本申请提供的内容(也同样适应于服务)的分发方案,对应可以应用到多个终端应用中,包括但不限于:传统的Web/H5,快应用,小程序,5G消息,App等,例如,包括医院/医生等在线排序,个性化数据,相关性聚合页面,引导搜索等。采用本申请提供的医疗健康数据处理系统,更好地应对了医疗健康数据的处理和应用,更好地解决用户与内容的匹配,实现了千人千面的精准分发,在提高用户体验的同时,也极大地提高了分发效率,并且用户对于推送的点击率也有很大提高。
以上公开的仅为本发明的几个具体实施例,但是,本发明并非局限于此,任何本领域的技术人员能思之的变化都应落入本发明的保护范围。

Claims (10)

1.一种医疗健康数据处理系统,其特征在于,包括:行为埋点子系统、标签子系统以及搜索推荐子系统;其中,
所述行为埋点子系统,用于采集用户行为日志数据,并将该用户行为日志数据流式结构化处理之后进行存储;
所述标签子系统,与所述行为埋点子系统相连接,用于根据领域定制标签库和来自于所述行为埋点子系统的用户行为日志数据获取用户画像的用户注意力标签,对该用户行为日志数据进行处理形成描述所述用户画像的基本属性和动态属性,并结合媒体内容基础数据和所述领域定制标签库获取内容模型;
搜索推荐子系统,分别与所述行为埋点子系统和所述标签子系统相连接,通过所述用户画像的数据和所述内容模型的匹配处理来实现内容的分发。
2.根据权利要求1所述的系统,其特征在于,所述行为埋点子系统包括:
收集模块,设置于终端设备和/或适配服务器中,用于收集用户行为日志数据;
Nginx网关服务模块,用于在用户访问时记录所述用户行为日志数据;
Flume服务模块,用于对记录的所述用户行为日志数据进行数据流式结构化处理;
Kafka服务模块,用于将所述Flume服务模块处理后的所述用户行为日志数据导入消息队列并进行存储。
3.根据权利要求1所述的系统,其特征在于,所述标签子系统包括:
Spark服务模块,用于读取所述消息队列中的所述用户行为日志数据,根据领域定制标签库和该用户行为日志数据获取所述用户画像的用户注意力标签,对该用户行为日志数据进行处理形成描述所述用户画像的基本属性和动态属性;
索引数据集群模块,用于接收来自于所述Spark服务模块的所述用户注意力标签并保存;
所述Hadoop集群模块,用于结合媒体内容基础数据和所述领域定制标签库运算获取所述内容模型并保存;
守护服务模块,用于向Hadoop集群模块提交任务,完成任务和控制和管理,并将所述Hadoop集群模块中保存的数据导入所述推荐搜索子系统。
4.根据权利要求3所述的系统,其特征在于,所述Spark服务模块,还用于过滤出符合用户点击特征的用户行为日志数据,并将用户点击推荐的信息反馈给所述推荐搜索系统,为训练点击通过率CTR模型提供训练数据,其中,所述CTR模型用于实现点击率排序的预测。
5.根据权利要求3所述的系统,其特征在于,所述索引数据集群模块包括:MySQL特征数据库和ElasticSearch索引库,其中,所述MySQL特征数据库与所述ElasticSearch索引库,用于接收来自于所述标签子系统中Spark服务模块的用户注意力标签并存储,并且所述MySQL特征数据库在所述推荐搜索子系统需要查询数据时提供查询结果。
6.根据权利要求3所述的系统,其特征在于,所述Hadoop集群模块包括:
MapReduce子模块,用于执行所述守护服务模块提交的MapReduce任务;
HDFS文件子模块,用于存储MapReduce子模块的运算结果,其中,所述HDFS文件子模块与所述守护服务模块相连接;
SparkML模型训练子模块,用于离线训练多种推送模型。
7.根据权利要求1所述的系统,其特征在于,所述推荐搜索子系统包括:
微服务网关模块,用于连接所述行为埋点子系统;
CTR模型训练服务模块,用于训练CTR模型;
Zookeeper模型同步服务模块,用于实现所述CTR模型的同步;
Lucene召回数据库服务模块,用于使用Lucene本机文件进行内容的召回。
8.根据权利要求7所述的系统,其特征在于,所述推荐搜索子系统还包括:流量分配服务模块,所述流量分配服务器连接于所述推荐搜索子系统与所述Nginx网关服务模块之间,用于通过A/B测试分流给不同用户进行灰度测试,以评估推荐搜索结果。
9.根据权利要求1至8中任一项所述的系统,其特征在于,所述医疗健康数据处理系统还包括:统计子系统;
所述统计子系统包括:进行数据分析的可视化分析服务模块、以及进行数据统计的后台管理服务模块,其中,所述可视化分析服务模块,分别与所述标签子系统中的索引数据集群模块和所述行为埋点子系统中的Kafka服务模块相连接,所述后台管理服务模块,分别与所述标签子系统中的守护服务模块和所述索引数据集群模块中的ElasticSearch索引库相连接。
10.根据权利要求1至8中任一项所述的系统,其特征在于,所述医疗健康数据处理系统还包括:推送子系统,其中,所述推送子系统包括:
推送任务策略服务器,分别与所述推荐搜索子系统和所述标签子系统中的SparkML模型训练子模块相连接,用于通过所述SparkML模型训练模块离线训练出的多种推送模型来产生推送策略,并且在所述推荐搜索子系统的Lucene召回数据库服务模块进行内容的召回后,调用所述推送适配服务模块推送消息;
所述推送适配服务模块,分别与所述推送任务策略服务器和所述行为埋点子系统中的Flume服务模块相连接,用于推送消息并将推送日志传回所述Flume服务模块入库,还用于适配至少一种第三方云服务器。
CN202110207593.9A 2021-02-25 2021-02-25 医疗健康数据处理系统 Pending CN114969497A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110207593.9A CN114969497A (zh) 2021-02-25 2021-02-25 医疗健康数据处理系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110207593.9A CN114969497A (zh) 2021-02-25 2021-02-25 医疗健康数据处理系统

Publications (1)

Publication Number Publication Date
CN114969497A true CN114969497A (zh) 2022-08-30

Family

ID=82973378

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110207593.9A Pending CN114969497A (zh) 2021-02-25 2021-02-25 医疗健康数据处理系统

Country Status (1)

Country Link
CN (1) CN114969497A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117235586A (zh) * 2023-11-16 2023-12-15 青岛小帅智能科技股份有限公司 酒店客户画像构建方法、系统、电子设备及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117235586A (zh) * 2023-11-16 2023-12-15 青岛小帅智能科技股份有限公司 酒店客户画像构建方法、系统、电子设备及存储介质
CN117235586B (zh) * 2023-11-16 2024-02-09 青岛小帅智能科技股份有限公司 酒店客户画像构建方法、系统、电子设备及存储介质

Similar Documents

Publication Publication Date Title
Fernández-García et al. A recommender system for component-based applications using machine learning techniques
US8825701B2 (en) Method and system of management of queries for crowd searching
Panda et al. Big data in health care: A mobile based solution
CN102362275A (zh) 内容推荐方法、推荐信息生成方法、内容推荐程序、内容推荐服务器以及内容提供系统
US20140344709A1 (en) Rule-based messaging and dialog engine
KR20190128116A (ko) 공통 스토리와 관련된 미디어-컨텐츠 아이템을 식별, 선택 및 제시하기 위한 방법 및 시스템
WO2011159819A2 (en) Method and apparatus for soliciting an expert opinion from a care provider and managing health management protocols
US20220122731A1 (en) Systems and methods for generating and delivering personalized healthcare insights
WO2015113306A1 (en) Entity page generation and entity related searching
CN113724815B (zh) 基于决策分群模型的信息推送方法及装置
US20190213611A1 (en) System for online polling
CN110413888A (zh) 一种书籍推荐方法及装置
CN113392308A (zh) 内容搜索方法、装置、设备及介质
CN114969497A (zh) 医疗健康数据处理系统
JP4308683B2 (ja) ユーザ活動履歴可視化・分析方法、ユーザ活動履歴可視化・分析装置、および、プログラム
CN109599176B (zh) 问诊技巧推荐方法及装置、在线辅诊系统
US20180150543A1 (en) Unified multiversioned processing of derived data
CN116340374A (zh) 一种个性化任务推荐方法及系统
CN113946753B (zh) 基于位置围栏的服务推荐方法、装置、设备及存储介质
CN116230220A (zh) 健康评估方法、装置、计算机设备及存储介质
CN115985448A (zh) 一种确定用药数据及配送方法、装置及设备
US20160125061A1 (en) System and method for content selection
US11120065B2 (en) System and method for a semantically-driven smart data cache
CN114564590A (zh) 应用于大数据和人工智能的智慧医疗信息处理方法及系统
CN106503085A (zh) 基于域的可定制搜索系统、方法及技术

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination