CN111681776B - 基于医药大数据的医药对象关系分析的方法及系统 - Google Patents
基于医药大数据的医药对象关系分析的方法及系统 Download PDFInfo
- Publication number
- CN111681776B CN111681776B CN202010495127.0A CN202010495127A CN111681776B CN 111681776 B CN111681776 B CN 111681776B CN 202010495127 A CN202010495127 A CN 202010495127A CN 111681776 B CN111681776 B CN 111681776B
- Authority
- CN
- China
- Prior art keywords
- data
- relation
- target medical
- medical
- type
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H70/00—ICT specially adapted for the handling or processing of medical references
- G16H70/40—ICT specially adapted for the handling or processing of medical references relating to drugs, e.g. their side effects or intended usage
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Public Health (AREA)
- Data Mining & Analysis (AREA)
- Epidemiology (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Pharmacology & Pharmacy (AREA)
- Toxicology (AREA)
- Medicinal Chemistry (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Chemical & Material Sciences (AREA)
- Biomedical Technology (AREA)
- Databases & Information Systems (AREA)
- Pathology (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本发明涉及大数据处理技术领域,具体提供了一种基于医药大数据的医药对象关系分析的方法及系统,旨在解决如何基于海量医药大数据更准确地进行对象关系分析的问题。本发明首先对采集到的药品相关的内部数据和外部数据进行处理形成标签化数据,该标签化数据包括每个标签类型各自对应的对象以及每个对象的对象标签和相关联的属性数据;然后通过大数据分析获取每个属性数据的类别标签以及不同对象之间的对象关系类型;最后根据大数据分析结果从医药对象学术关系分析和药品价值分析等多维度对不同对象之间的对象关系类型和关联程度等进行全面分析,克服了现有技术中无法同时准确分析出不同对象之间的关联关系、关联程度以及关联类型的问题。
Description
技术领域
本发明涉及大数据处理技术领域,具体涉及一种基于医药大数据的医药对象关系分析的方法及系统。
背景技术
对象关系分析指的是分析不同对象之间的关联关系,以便能够根据这些关联关系进行深入的对象分析处理。例如:挖掘不同对象之间的关联关系,根据关联关系进行对象分类,进而根据分类结果向不同类型的对象推荐不同的信息。但是,目前传统的医药大数据的数据对象的关系分析处理方法仅能对不同对象之间是否具备关联关系进行分析,而无法同时准确得出具体的关联程度以及关系类型。
相应地,本领域需要一种新的对象关系分析方案来解决上述问题。
发明内容
为了克服上述缺陷,提出了本发明,以提供解决或至少部分地解决如何基于海量医药大数据更准确地进行对象关系分析处理的技术问题的基于医药大数据的医药对象关系分析的方法及系统。
第一方面,提供一种基于医药大数据的医药对象关系分析的方法,该方法包括:采集内部数据以及外部数据并分别进行采集数据的处理形成不同类型的标签化数据;基于一个或多个不同类型的所述标签化数据以及各自对应的一个或多个医药对象的各个属性数据,根据关键词模型算法对所述一个或多个医药对象的各个属性数据进行分类以确定各个属性数据的类别标签,根据分类模型算法对多个医药对象的各个属性数据进行对象关系类型识别并输出识别结果;根据确定的类别标签以及对象关系类型通过业务规则计算后进行数据合并处理,并将数据抽取到对应的对象关系分析端,以响应用户请求输出对应的分析结果。
在上述方法的技术方案中,“分别进行采集数据的处理形成不同类型的标签化数据”的步骤具体包括:根据预设的标签类型获取所述采集数据中每个标签类型各自对应的对象并且为每个对象分别设置相应的对象标签;获取所述采集数据中与每个对象关联的属性数据;根据每个对象各自对应的对象标签分别对每个对象各自关联的属性数据进行标签设置,根据每个标签类型各自对应的对象以及每个对象的对象标签和相关联的属性数据,获取每个标签类型各自对应的标签化数据。
在上述方法的技术方案中,“根据关键词模型算法对所述一个或多个医药对象的各个属性数据进行分类以确定各个属性数据的类别标签”的步骤具体包括:利用基于TextRank算法的关键词提取模型提取每个属性数据中的医药相关关键词;基于预设的类别标签与医药相关关键词的映射关系,根据每个属性数据各自对应的药品相关关键词获取每个属性数据各自对应的类别标签;其中,所述类别标签包括药品名称和适应症;
并且/或者,“根据分类模型算法对多个医药对象的各个属性数据进行对象关系类型识别并输出识别结果”的步骤具体包括:获取预设训练集中的数据样本,所述数据样本包括对象关系类型以及每个对象关系类型对应的对象关联特征;基于所述数据样本并利用XGBoost模型算法对预先构建的编码器模型进行模型训练;根据不同医药对象的属性数据获取所述不同医药对象之间的对象关联特征;利用模型训练后的编码器模型并根据所述不同医药对象的对象关联特征进行对象关系类型识别,得到所述不同医药对象之间的对象关系类型。
在上述方法的技术方案中,当用户请求是医药对象学术关系分析时,“根据确定的类别标签以及对象关系类型通过业务规则计算后进行数据合并处理,并将数据抽取到对应的对象关系分析端,以响应用户请求输出对应的分析结果”的步骤具体包括:根据预设的筛选条件对医药对象进行筛选,得到第一目标医药对象;根据医药对象的对象关系类型的识别结果,获取每个第一目标医药对象各自对应的对象关系类型以及在所述第一目标医药对象中与所述对象关系类型存在关联关系的第二目标医药对象;基于预设的对象关系类型与第一权重之间的对应关系,获取每个第一目标医药对象各自对应的每类对象关系类型的第一权重,根据每类对象关系类型的数量以及第一权重进行加权求和计算并且根据计算结果输出每个第一目标医药对象各自对应的关系影响总值;获取当前第一目标医药对象以及与其相关的当前第二目标医药对象之间的所有对象关系类型,根据所述预设的对象关系类型与第一权重之间的对应关系获取所述所有对象关系类型中每类对象关系类型的第一权重,根据所述每类对象关系类型的第一权重进行加权求和计算并且根据计算结果输出所述当前第一目标医药对象以及与其相关的当前第二目标医药对象之间的关联度得分;根据所述关联度得分设置相应的第一目标医药对象与第二目标医药对象之间的图像显示距离,根据所述关系影响总值设置相应的第一目标医药对象的显示图标的尺寸,根据每个第一目标医药对象各自对应的对象类型设置每个第一目标医药对象的显示图标的形状和颜色;根据所述第一目标医药对象的显示图标的尺寸、形状和颜色,以及所述第一目标医药对象与第二目标医药对象之间的图像显示距离构建并输出目标医药对象的关系网络图谱;获取当前第一目标医药对象以及与其相关的当前第二目标医药对象之间的关联度得分,根据所述关联度得分对所述第二目标医药对象进行排序显示;获取每个第一目标医药对象的关系影响总值或与每个第一目标医药对象相关的第二目标医药对象的数量,根据所述关系影响总值或数量对所述第一目标医药对象进行排序显示;
和/或,根据预设的筛选条件对医药对象进行筛选,得到第一目标医药对象;根据医药对象的对象关系类型的识别结果,获取每个第一目标医药对象各自对应的对象关系类型以及在所述第一目标医药对象中与所述对象关系类型存在关联关系的第二目标医药对象;根据预设的第一级数据类型对当前第一目标医药对象的属性数据进行分类,得到一类或多类第一级属性数据;根据预设的第一级数据类型对应的第二级数据类型,对所述第一级属性数据进行再次分类,得到一类或多类第二级属性数据;基于预设的第二级数据类型与第二权重的对应关系,获取当前第一目标医药对象的每类第二级属性数据各自对应的第二权重;基于预设的第二级数据类型与第一分值的对应关系,获取当前第一目标医药对象的每类第二级属性数据各自对应的第一分值;根据所述第二权重与第一分值,对属于当前第一级属性数据的所有第二级属性数据进行加权求和计算并根据计算结果输出当前第一级属性数据的影响力得分;根据当前第一目标医药对象的关系影响总值以及与其相关的每个第二目标医药对象的关系影响总值,获取并输出当前第一目标医药对象的综合影响力得分;
并且/或者,当用户请求是药品价值分析时,“根据确定的类别标签以及对象关系类型通过业务规则计算后进行数据合并处理,并将数据抽取到对应的对象关系分析端,以响应用户请求输出对应的分析结果”的步骤具体包括:根据用户请求中的目标药品名称以及每个属性数据各自对应的类别标签中的药品名称,获取所述目标药品名称对应的属性数据并将所述属性数据作为待分析属性数据;根据每个待分析属性数据各自对应的对象标签,获取具有相同对象标签的待分析属性数据以形成每种对象标签各自对应的分析数据集;获取当前对象标签的分析数据集中每个待分析属性数据的数据类型,获取具有相同数据类型的待分析属性数据的数量;获取所述待分析属性数据的数据类型中与药品学术价值分析相关的第一数据类型,根据预设的药品学术价值分析对应的数据类型与第三权重之间的对应关系,获取每个第一数据类型各自对应的第三权重,根据每个第一数据类型各自对应的待分析属性数据的数量以及第三权重进行加权和计算并且根据计算结果获取当前对象标签对应的药品学术价值;获取所述待分析属性数据的数据类型中与药品影响力价值分析相关的第二数据类型,根据预设的药品影响力价值分析对应的数据类型与第四权重之间的对应关系,获取每个第二数据类型各自对应的第四权重,根据每个第二数据类型各自对应的待分析属性数据的数量以及第四权重进行加权和计算并且根据计算结果获取当前对象标签对应的药品影响力价值;根据每个对象标签各自对应的药品学术价值分别设置每个对象标签的显示图标与目标药品名称的显示图标之间的图像显示距离,根据每个对象标签各自对应的药品影响力价值分别设置每个对象标签的显示图标的尺寸,根据每个医药对象各自对应的对象类型设置每个相应对象标签的显示图标的形状和颜色;以所述目标药品名称的显示图标为中心,根据每个对象标签各自对应的图像显示距离,以及显示图标的尺寸、形状和颜色对所有对象标签进行图像显示。
在上述方法的技术方案中,“根据当前第一目标医药对象的关系影响总值以及与其相关的每个第二目标医药对象的关系影响总值,获取并输出当前第一目标医药对象的综合影响力得分”的步骤具体包括:基于预设的关系影响总值与第二分值的对应关系,根据所述第一目标医药对象的关系影响总值获取所述第一目标医药对象的第二分值;获取所述相关第二目标医药对象中关系影响总值大于预设阈值的第二目标医药对象的数量;根据所述第二分值、数量并按照下式所示的公式计算所述第一目标医药对象的综合影响力得分:Sa_i=Ni×k1+Sb_i×k2其中,Sa_i是第i个第一目标医药对象的综合影响力得分,Sb_i是第i个第一目标医药对象的第二分值,所述Ni是与第i个第一目标医药对象相关的第二目标医药对象中关系影响总值大于预设阈值的第二目标医药对象的数量,k1和k2分别是预设的权重。
第二方面,提供一种基于医药大数据的医药对象关系分析的系统,所述系统包括:第一数据处理装置,其被配置成采集内部数据以及外部数据并分别进行采集数据的处理形成不同类型的标签化数据;第二数据处理装置,其被配置成基于一个或多个不同类型的所述标签化数据以及各自对应的一个或多个医药对象的各个属性数据,根据关键词模型算法对所述一个或多个医药对象的各个属性数据进行分类以确定各个属性数据的类别标签,根据分类模型算法对多个医药对象的各个属性数据进行对象关系类型识别并输出识别结果;数据分析装置,其被配置成根据确定的类别标签以及对象关系类型通过业务规则计算后进行数据合并处理,并将数据抽取到对应的对象关系分析端,以响应用户请求输出对应的分析结果。
在上述系统的技术方案中,还包括:所述第一数据处理装置被配置成执行以下操作:根据预设的标签类型获取所述采集数据中每个标签类型各自对应的对象并且为每个对象分别设置相应的对象标签;获取所述采集数据中与每个对象关联的属性数据;根据每个对象各自对应的对象标签分别对每个对象各自关联的属性数据进行标签设置,根据每个标签类型各自对应的对象以及每个对象的对象标签和相关联的属性数据,获取每个标签类型各自对应的标签化数据。
在上述系统的技术方案中,所述第二数据处理装置包括第一数据处理模块和第二数据处理模块;所述第一数据处理模块被配置成执行以下操作:利用基于TextRank算法的关键词提取模型提取每个属性数据中的医药相关关键词;基于预设的类别标签与医药相关关键词的映射关系,根据每个属性数据各自对应的药品相关关键词获取每个属性数据各自对应的类别标签;其中,所述类别标签包括药品名称和适应症;
所述第二数据处理模块被配置成执行以下操作:获取预设训练集中的数据样本,所述数据样本包括对象关系类型以及每个对象关系类型对应的对象关联特征;基于所述数据样本并利用XGBoost模型算法对预先构建的编码器模型进行模型训练;根据不同医药对象的属性数据获取所述不同医药对象之间的对象关联特征;利用模型训练后的编码器模型并根据所述不同医药对象的对象关联特征进行对象关系类型识别,得到所述不同医药对象之间的对象关系类型。
在上述系统的技术方案中,所述数据分析装置包括第一数据分析模块和第二数据分析模块;所述第一数据分析模块被配置成当用户请求是医药对象学术关系分析时执行以下操作:根据预设的筛选条件对医药对象进行筛选,得到第一目标医药对象;根据医药对象的对象关系类型的识别结果,获取每个第一目标医药对象各自对应的对象关系类型以及在所述第一目标医药对象中与所述对象关系类型存在关联关系的第二目标医药对象;基于预设的对象关系类型与第一权重之间的对应关系,获取每个第一目标医药对象各自对应的每类对象关系类型的第一权重,根据每类对象关系类型的数量以及第一权重进行加权求和计算并且根据计算结果输出每个第一目标医药对象各自对应的关系影响总值;获取当前第一目标医药对象以及与其相关的当前第二目标医药对象之间的所有对象关系类型,根据所述预设的对象关系类型与第一权重之间的对应关系获取所述所有对象关系类型中每类对象关系类型的第一权重,根据所述每类对象关系类型的第一权重进行加权求和计算并且根据计算结果输出所述当前第一目标医药对象以及与其相关的当前第二目标医药对象之间的关联度得分;根据所述关联度得分设置相应的第一目标医药对象与第二目标医药对象之间的图像显示距离,根据所述关系影响总值设置相应的第一目标医药对象的显示图标的尺寸,根据每个第一目标医药对象各自对应的对象类型设置每个第一目标医药对象的显示图标的形状和颜色;根据所述第一目标医药对象的显示图标的尺寸、形状和颜色,以及所述第一目标医药对象与第二目标医药对象之间的图像显示距离构建并输出目标医药对象的关系网络图谱;获取当前第一目标医药对象以及与其相关的当前第二目标医药对象之间的关联度得分,根据所述关联度得分对所述第二目标医药对象进行排序显示;获取每个第一目标医药对象的关系影响总值或与每个第一目标医药对象相关的第二目标医药对象的数量,根据所述关系影响总值或数量对所述第一目标医药对象进行排序显示;
和/或,根据预设的筛选条件对医药对象进行筛选,得到第一目标医药对象;根据医药对象的对象关系类型的识别结果,获取每个第一目标医药对象各自对应的对象关系类型以及在所述第一目标医药对象中与所述对象关系类型存在关联关系的第二目标医药对象;根据预设的第一级数据类型对当前第一目标医药对象的属性数据进行分类,得到一类或多类第一级属性数据;根据预设的第一级数据类型对应的第二级数据类型,对所述第一级属性数据进行再次分类,得到一类或多类第二级属性数据;基于预设的第二级数据类型与第二权重的对应关系,获取当前第一目标医药对象的每类第二级属性数据各自对应的第二权重;基于预设的第二级数据类型与第一分值的对应关系,获取当前第一目标医药对象的每类第二级属性数据各自对应的第一分值;根据所述第二权重与第一分值,对属于当前第一级属性数据的所有第二级属性数据进行加权求和计算并根据计算结果输出当前第一级属性数据的影响力得分;根据当前第一目标医药对象的关系影响总值以及与其相关的每个第二目标医药对象的关系影响总值,获取并输出当前第一目标医药对象的综合影响力得分;
所述第二数据分析模块被配置成当用户请求是药品价值分析时执行以下操作:根据用户请求中的目标药品名称以及每个属性数据各自对应的类别标签中的药品名称,获取所述目标药品名称对应的属性数据并将所述属性数据作为待分析属性数据;根据每个待分析属性数据各自对应的对象标签,获取具有相同对象标签的待分析属性数据以形成每种对象标签各自对应的分析数据集;获取当前对象标签的分析数据集中每个待分析属性数据的数据类型,获取具有相同数据类型的待分析属性数据的数量;获取所述待分析属性数据的数据类型中与药品学术价值分析相关的第一数据类型,根据预设的药品学术价值分析对应的数据类型与第三权重之间的对应关系,获取每个第一数据类型各自对应的第三权重,根据每个第一数据类型各自对应的待分析属性数据的数量以及第三权重进行加权和计算并且根据计算结果获取当前对象标签对应的药品学术价值;获取所述待分析属性数据的数据类型中与药品影响力价值分析相关的第二数据类型,根据预设的药品影响力价值分析对应的数据类型与第四权重之间的对应关系,获取每个第二数据类型各自对应的第四权重,根据每个第二数据类型各自对应的待分析属性数据的数量以及第四权重进行加权和计算并且根据计算结果获取当前对象标签对应的药品影响力价值;根据每个对象标签各自对应的药品学术价值分别设置每个对象标签的显示图标与目标药品名称的显示图标之间的图像显示距离,根据每个对象标签各自对应的药品影响力价值分别设置每个对象标签的显示图标的尺寸,根据每个医药对象各自对应的对象类型设置每个相应对象标签的显示图标的形状和颜色;以所述目标药品名称的显示图标为中心,根据每个对象标签各自对应的图像显示距离,以及显示图标的尺寸、形状和颜色对所有对象标签进行图像显示。
在上述系统的技术方案中,还包括:所述第一数据分析模块被配置成执行以下操作:基于预设的关系影响总值与第二分值的对应关系,根据所述第一目标医药对象的关系影响总值获取所述第一目标医药对象的第二分值;获取所述相关第二目标医药对象中关系影响总值大于预设阈值的第二目标医药对象的数量;根据所述第二分值、数量并按照下式所示的公式计算所述第一目标医药对象的综合影响力得分:Sa_i=Ni×k1+Sb_i×k2其中,Sa_i是第i个第一目标医药对象的综合影响力得分,Sb_i是第i个第一目标医药对象的第二分值,所述Ni是与第i个第一目标医药对象相关的第二目标医药对象中关系影响总值大于预设阈值的第二目标医药对象的数量,k1和k2分别是预设的权重。
本发明上述一个或多个技术方案,至少具有如下一种或多种有益效果:
在实施本发明的技术方案中,可以基于海量的对象数据信息如医药对象数据信息更全面精准地进行医药对象的关联关系的分析。具体而言,首先对采集到的医药对象相关的内部数据和外部数据进行处理形成标签化数据,该标签化数据包括每个标签类型各自对应的医药对象以及每个医药对象的对象标签和相关联的属性数据。然后,根据关键词模型算法对上述标签化数据进行分类分析以确定每个属性数据的类别标签,该类别标签包括药品名称以及相应的一个或多个适应症;根据分类模型算法对多个医药对象的各个属性数据进行对象关系类型识别并输出识别结果(如师生关系、同事关系等)。最后,根据用户请求(如医药对象学术关系分析请求和药品价值分析请求)将上述标签化数据的分析/处理结果抽取到对应的对象关系分析端进行分析。其中,通过医药对象学术关系分析可以得到不同医药对象之间的对象关系类型、关联度得分,以及每个医药对象的关系影响总值。对象关系类型能够表示不同医药对象之间的具体关系类型;关联度得分能够表示不同医药对象之间的亲密程度,关联度得分越大则表明医药对象之间的亲密程度越大,反之亲密程度越小;医药对象的关系影响总值是根据当前医药对象在一个医药对象群体中与其他医药对象之间的对象关系类型以及相应的权重确定出来的,该关系影响总值的大小能够表示当前医药对象在这个医药对象群体中的影响力大小,根据关系影响总值就能够判断出当前医药对象是否为这个医药对象群体内的核心对象。通过药品价值分析可以得到不同医药对象对同一个药品的关联程度的分析结果。通过上述步骤,本发明能够从医药对象学术关系分析以及药品价值分析等多个维度对医药对象的关联关系进行全面分析,确定出不同医药对象之间的对象关系类型、关联度得分,以及每个医药对象的关系影响总值,克服了现有技术中无法同时准确分析出不同对象之间的关联关系、关联程度以及关联类型的缺陷。
附图说明
下面参照附图来描述本发明的具体实施方式,附图中:
图1是根据本发明的一个实施例的基于医药大数据的医药对象关系分析的方法的主要步骤流程示意图;
图2是根据本发明的一个实施例的目标医药对象的关系网络图谱的显示图像示意图;
图3是根据本发明的一个实施例的医药对象的医药网络图谱的显示图像示意图;
图4是根据本发明的一个实施例的基于医药大数据的医药对象关系分析的系统的主要结构框图;
附图标记列表:
11:第一数据处理装置;12:第二数据处理装置;13:数据分析装置。
具体实施方式
下面参照附图来描述本发明的一些实施方式。本领域技术人员应当理解的是,这些实施方式仅仅用于解释本发明的技术原理,并非旨在限制本发明的保护范围。
在本发明的描述中,“模块”、“处理器”可以包括硬件、软件或者两者的组合。一个模块可以包括硬件电路,各种合适的感应器,通信端口,存储器,也可以包括软件部分,比如程序代码,也可以是软件和硬件的组合。处理器可以是中央处理器、微处理器、图像处理器、数字信号处理器或者其他任何合适的处理器。处理器具有数据和/或信号处理功能。处理器可以以软件方式实现、硬件方式实现或者二者结合方式实现。非暂时性的计算机可读存储介质包括任何合适的可存储程序代码的介质,比如磁碟、硬盘、光碟、闪存、只读存储器、随机存取存储器等等。术语“A和/或B”表示所有可能的A与B的组合,比如只是A、只是B或者A和B。术语“至少一个A或B”或者“A和B中的至少一个”含义与“A和/或B”类似,可以包括只是A、只是B或者A和B。单数形式的术语“一个”、“这个”也可以包含复数形式。
现有技术中传统的对象关系分析方法主要包括基于同行参数设置的人物关系分析方法(方法一)、基于关联规则和关联系数获取人物关系的分析方法(方法二)以及基于自然语言处理的线上人物关系分析方法(方法三),但是这些分析方法仅能对不同对象之间是否具备关联关系进行分析,而无法同时准确得出具体的关联程度以及关系类型。
具体而言,在上述方法一中,该方法主要包括:首先,获取目标用户与同行的相关用户的多张图像,然后根据获取的图像进行统计目标用户与同行用户的同行次数和同行距离(同行次数指目标对象与相关对象出现在同一画面的次数;同行距离指目标对象与相关对象在同一画面内相距的距离)。然后,根据至少一个同行用户的上述同行参数,建立目标用户与同行用户之间的目标关系图谱。该目标关系图谱能够反映出同行用户与目标用户之间的亲密程度,如果同行用户与目标用户之间的目标距离值越小,则亲密度越高;如果同行用户与目标用户之间的目标距离值越大,则亲密度越低。依据上述内容可知,这种基于同行参数设置的人物关系分析方法只能判断目标用户与相关用户的亲密程度,无法确定具体的关系类型(如师生关系、同事关系等)。
在上述方法二中,该方法主要包括:首先,确定至少一种关联关系的评价规则,并根据每一种关联关系所分别对应的评价规则,对目标人物的行为数据进行分析处理以形成人员关系网络结构图。然后,确定每种关联关系分别对应的权重系数,根据关联关系的权重系数,计算目标人物之间所对应的关联系数,将目标人物的人员关系网络结构图及关联系数输出形成关系网络。依据上述内容可知,这种基于关联规则和关联系数获取人物关系的分析方法虽然能够确定的目标人物之间的关联程度,但是这种方法在对海量数据关联分析时,效率较低。同时也无法实现对目标人物与具体某个产品的相关性强弱的分析。
在上述方法三中,该方法主要包括:通过采集目标人物的社交平台信息;根据平台信息,查找与目标人物相关的相关人物,并获取目标人物与相关人物的亲密关系;从多个网站中采集目标人物与相关人物的关系;对人物关系进行分析整合,形成目标人物与相关人物之间的线下关系;根据目标人物与相关人物的亲密关系、线下关系,生成目标人物的人际网络图。依据上述内容可知,这种基于自然语言处理的线上人物关系分析方法是基于自然语言分析,高效获取目标人物关系,由于社交平台的数据质量参差不齐,导致目标人物之间关系复杂多样,无法精准判断目标人物群体之间的核心关系及其亲密程度。
在本发明实施例中可以基于海量的对象数据信息如医药对象数据信息更全面精准地进行医药对象的关联关系的分析。具体而言,根据本发明一个实施例的基于医药大数据的医药对象关系分析的方法,首先可以对采集到的医药对象相关的内部数据和外部数据进行处理形成标签化数据,该标签化数据包括每个标签类型各自对应的医药对象以及每个医药对象的对象标签和相关联的属性数据。然后,根据关键词模型算法对上述标签化数据进行分类分析以确定每个属性数据的类别标签,该类别标签包括药品名称以及相应的一个或多个适应症;根据分类模型算法对多个医药对象的各个属性数据进行对象关系类型识别并输出识别结果(一个例子:对象关系类型识别结果包括师生关系、同事关系等)。最后,根据用户请求(例如:医药对象学术关系分析请求和药品价值分析请求)将上述标签化数据的分析/处理结果抽取到对应的对象关系分析端进行分析。其中,通过医药对象学术关系分析可以得到不同医药对象之间的对象关系类型、关联度得分,以及每个医药对象的关系影响总值。对象关系类型能够表示不同医药对象之间的具体关系类型(如师生关系、同事关系等);关联度得分能够表示不同医药对象之间的亲密程度,关联度得分越大则表明医药对象之间的亲密程度越大,反之亲密程度越小;医药对象的关系影响总值是根据当前医药对象在一个医药对象群体中与其他医药对象之间的对象关系类型以及相应的权重确定出来的,该关系影响总值的大小能够表示当前医药对象在这个医药对象群体中的影响力大小,根据关系影响总值就能够判断出当前医药对象是否为这个医药对象群体内的核心对象。通过药品价值分析可以得到不同医药对象对同一个药品的关联程度的分析结果。通过上述步骤,本发明能够从医药对象学术关系分析以及药品价值分析等多个维度对医药对象的关联关系进行全面分析,确定出不同医药对象之间的对象关系类型、关联度得分,以及每个医药对象的关系影响总值,克服了现有技术中无法同时准确分析出不同对象之间的关联关系、关联程度以及关联类型的缺陷。
在一个应用场景的例子中,终端上登录安装了根据本发明的方案构建的APP,用户通过终端登录该APP,开启医药大数据分析处理的页面。用户可以根据自身对搜索医药大数据尤其是医药数据关联对象的需求,选择对应的菜单/按钮等控件或者输入需要搜索的关键词等,进入对应的被选择的菜单/按钮等控件的页面或者进一步搜索的页面。针对该页面上提示的各种医药对象或者录入需要分析的医药对象,根据用户交互选择或输入的信息,通过本发明的方案所提供的医药大数据的分析处理,对目标医药对象相关的医药大数据进行分析处理,包括医药数据采集、医药大数据处理标签化、搜索/智能引擎、医药大数据计算处理(分类、建立关联关系)等等,以获得目标医药对象之间的类型、关联关系等,并以关联或对应的方式输出显示在APP的输出结果页面上,作为搜索分析的结果提供给用户。
参阅附图1,图1是根据本发明的一个实施例的基于医药大数据的医药对象关系分析的方法的主要步骤流程示意图。如图1所示,本发明实施例中基于医药大数据的医药对象关系分析的方法可以包括以下步骤:
步骤S101:采集内部数据以及外部数据并分别进行采集数据的处理形成不同类型的标签化数据。
在本实施例中内部数据以及外部数据中的数据均指的是对象相关数据,而内部数据指的是预先获取到并存储好的对象相关数据。一个例子:内部数据可以是预先在数据库或计算机可读存储介质中存储好的数据。外部数据指的是没有预先获取到以及存储好的对象相关数据,需要通过数据爬取等数据采集方法从存储有对象相关数据的数据平台进行获取。在一个实施方式中,对象可以是医药对象如医生,内部数据可以是预先获取到并存储好的医生相关数据,外部数据可以是没有预先获取到以及存储好的医生相关数据,需要从存储有医生相关数据的数据平台进行获取。一个例子:对象是医药对象,对象相关数据包括但不限于:医生信息、医院信息、医生发表的文献信息和医生的诊疗信息等医药数据。
在本实施例中标签化数据指的是对内部数据和外部数据进行标签设定,形成的包含有标签信息的数据。在一个实施方式中,可以按照以下步骤对采集到的内部数据和外部数据进行处理形成不同类型的标签化数据:
步骤S1011:根据预设的标签类型获取采集数据中每个标签类型各自对应的对象并且为每个对象分别设置相应的对象标签。
在本实施方式中采集数据指的是上述采集到的内部数据和外部数据,这些数据中通常会包含多个数据对象,每个数据对象所属的类型可能相同,也可能不同。通过对数据进行标签设置,可以清楚地表示出数据包含哪些类型的数据对象,而预设的标签类型指的是就是预先设置好的数据对象所属的类型。一个实施方式中,内部数据与外部数据均是医药数据,预设的标签类型包括但不限于:医生类、医院类和药品类等。其中,医生类指的是数据中包含的医生名称所属的标签类型,医院类指的是数据中包含的医院名称所属的标签类型,药品类指的是数据中包含的药品名称所属的标签类型,医生名称、医院名称和药品名称均是上述的数据对象。一个例子:预设的标签类型包括医生类和药品类,内部数据包括医生A发表的关于药品a的一篇文献L1,以及医生B发表的关于药品b的一篇文献L2,则根据预设的标签类型可以得到医生类标签对应的对象包括医生A和医生B,药品类标签对应的对象包括药品a和药品b,进而可以为医生A设置对象标签为“医生A”,为医生B设置对象标签为“医生B”,为药品a设置对象标签为“药品a”,为药品b设置对象标签为“药品b”。
步骤S1012:获取采集数据中与每个对象关联的属性数据。
在本实施方式中与对象关联的属性数据指的是,在采集数据中与对象存在关联关系的数据。一个例子:如果采集数据包括医生A的简历信息、医生A工作的医院信息,以及医生A发表的关于药品a的一篇文献L1,则与医生A存在关联关系的数据包括上述简历信息、医院信息和文献L1,这些数据就是与医生A关联的属性数据。
步骤S1013:根据每个对象各自对应的对象标签分别对每个对象各自关联的属性数据进行标签设置,根据每个标签类型(如医生类、药品类等)各自对应的对象以及每个对象的对象标签和相关联的属性数据,获取每个标签类型各自对应的标签化数据。
一个例子:如果医生A的对象标签为“医生A”,则可以为相应的属性数据如简历信息、医院信息和文献L1的标签也设置为“医生A”。
步骤S102:获取属性数据的类别标签以及医药对象之间的对象关系类型。
由前述步骤S101可知,内部数据以及外部数据中的数据均指的是医药相关数据,而属性数据的类别标签则指的是属性数据对应的这些医药相关数据中包含的药品的类别信息。一个实施方式中,属性数据的类别标签可以包括药品名称以及相应的一个或多个适应症。一个例子:药品名称是通心络,相应的适应症包括冠心病、心绞痛、心肌缺血、心肌梗死等。
医药对象之间的对象关系类型指的是,医药对象如医生之间的对象关系的类型,例如师生类对象关系、同事类对象关系等。
下面分别对属性数据的类别标签以及医药对象之间的对象关系类型的获取方法作具体说明。
1、属性数据的类别标签
在本实施例中可以按照以下步骤获取属性数据的类别标签:
步骤11:利用基于TextRank算法的关键词提取模型提取每个属性数据中的医药相关关键词。
基于TextRank算法的关键词提取模型指的是,基于TextRank算法构建的用于提取文本关键词的网络模型,而TextRank算法是自然语言处理技术领域中的一种常规的能够用于文本关键词提取以及文本摘要生成的算法,该算法的基本思想来源于谷歌的PageRank算法,通过把文本分割成若干组成单元(如单词、句子)并建立图模型,利用投票机制对文本中的重要成分进行排序,仅利用单篇文档本身的信息即可实现关键词提取以及文摘生成。为了描述简洁,在此不再对TextRank算法实现关键词提取以及文摘生成的具体过程作详细描述。
在一个实施方式中,如果某个医药对象如医生的属性数据包括医生的个人简介信息、发表的学术论文、参加的会议信息等,那么在对这些属性数据进行关键词提取之前,需要对这些属性数据进行预处理,以便关键词提取模型能够更准确地提取每个属性数据中的医药相关关键词。具体而言,若属性数据是个人简介信息,则获取个人简介信息中关于医生擅长治疗哪些病症的介绍信息,利用关键词提取模型提取这个介绍信息中的关键词并将提取到的关键词作为当前个人简介信息的医药相关关键词。若属性数据是医生发表的学术论文,则先获取学术论文的论文标题、摘要、主题词和论文内容等信息,然后对这些信息进行合并处理形成一个文本信息,最后利用关键词提取模型提取这个文本信息中的关键词并将提取到的关键词作为当前学术论文的医药相关关键词。
步骤12:基于预设的类别标签与医药相关关键词的映射关系,根据每个属性数据各自对应的药品相关关键词获取每个属性数据各自对应的类别标签。
在本实施例中类别标签可以包括药品名称和适应症,相应的预设的类别标签与医药相关关键词的映射关系也就可以包括“预设的药品名称与医药相关关键词的映射关系”以及“预设的适应症与医药相关关键词的映射关系”。
一个例子:“预设的药品名称与医药相关关键词的映射关系”,以及“预设的适应症与医药相关关键词的映射关系”可以分别如下表1-2所示。
表1
表2
如果通过步骤11得到某个医生发表的学术论文的医药相关关键词是“通心络胶囊”和“冠状动脉起源异常”,则根据表1和表2可以得到这个学术论文的类别标签包括“通心络”和“冠心病”。
2、医药对象之间的对象关系类型
在本实施例中可以按照以下步骤获取医药对象之间的对象关系类型:
步骤21:获取预设训练集中的数据样本。
在本实施例中数据样本可以包括对象关系类型以及每个对象关系类型对应的对象关联特征。某个对象关系类型对应的对象关联特征指的是当两个医药对象具备这个对象关系类型时,这两个医药对象之间的关联特征,而关联特征的具体内容可以根据具体的对象关系类型设定。
在一个实施方式中,对象关系类型可以包括师生关系、同事关系、论文合作关系等,这些对象关系类型对应的对象关联特征可以如下表3所示。
表3
步骤22:基于数据样本并利用XGBoost模型算法对预先构建的编码器模型进行模型训练。
XGBoost模型算法指的是机器学习技术领域中的极端梯度提升算法(eXtremeGradient Boosting,XGBoost),为了描述简洁,在此不再对XGBoost模型算法的具体工作原理作详细描述。
步骤23:根据不同医药对象的属性数据获取不同医药对象之间的对象关联特征。
一个例子:根据医药对象A和医药对象B的个人简介信息,获取医药对象A和B的对象关联特征包括:医药对象A和B所属的医院和科室信息。
步骤24:利用模型训练后的编码器模型并根据不同医药对象的对象关联特征进行对象关系类型识别,得到不同医药对象之间的对象关系类型。
在一个实施方式中,可以获取编码器模型输出的对象关系类型识别结果,并将该对象关系类型识别以及相应的对象关联特征作为新的数据样本对预设训练集进行数据更新,以此提高编码器模型的模型训练效果,提高编码器模型的对象关系类型识别准确性。
步骤S103:根据确定的类别标签以及对象关系类型通过业务规则计算后进行数据合并处理,并将数据抽取到对应的对象关系分析端,以响应用户请求输出对应的分析结果。
在本实施例中用户请求包括医药对象学术关系分析和药品价值分析。下面分别对这两种用户请求的数据处理进行具体说明。
1、医药对象学术关系分析
在本实施例中可以按照以下步骤进行数据处理,以响应医药对象学术关系分析请求输出对应的分析结果:
步骤31:根据预设的筛选条件对医药对象进行筛选,得到第一目标医药对象。在本实施例中预设的筛选条件包括但不限于:属性数据所属的对象、对象所在的区域、属性数据的类别标签以及对象关系类型等等。一个实施方式中,如果内部数据与外部数据均是医药相关数据,属性数据是医药相关数据中医生发表的文献,属性数据的类别标签包括药品名称以及相应的一个或多个适应症,那么预设的筛选条件包括但不限于:医生名称、医生所在的省/城市、药品名称、适应症名称、师生关系等等。
步骤32:根据医药对象的对象关系类型的识别结果,获取每个第一目标医药对象各自对应的对象关系类型以及在第一目标医药对象中与上述对象关系类型存在关联关系的第二目标医药对象。
具体而言,经过步骤31会筛选出多个第一目标医药对象,这些第一目标医药对象构成了一个医药对象群体。而在该医药对象群体内如果某个第一目标医药对象与其他第一目标医药对象之间具备某种对象关系类型时,那么这两个第一目标医药对象就互相为对方的第二目标医药对象。
一个例子:经过步骤31筛选出的第一目标医药对象包括医生A、医生B、医生C、医生D和医生E。经过上述步骤S101-S102可以得出医生A与医生B是师生关系、医生A与医生D是师生关系,医生A与医生C是同事关系,那么“医生B、医生D”就是与“医生A的师生类关系”存在关联关系的第二目标医药对象,“医生C”就是与“医生A的同事类关系”存在关联关系的第二目标医药对象。
步骤33:基于预设的对象关系类型与第一权重之间的对应关系,获取每个第一目标医药对象各自对应的每类对象关系类型的第一权重,根据每类对象关系类型的数量以及第一权重进行加权求和计算并且根据计算结果输出每个第一目标医药对象各自对应的关系影响总值。由于第一目标医药对象的关系影响总值是根据其在所属医药对象群体内涉及到的所有对象关系类型计算得出的,因此该关系影响总值的大小能够直观地体现出当前第一目标医药对象在其所属医药对象群体内的关系影响力。
在本实施实施例中可以按照下述公式(1)所示的方法计算关系影响总值:
V1=Wl×Nl+,…,+wk×Nk+,…,+wn×Nn (1)
公式(1)中各参数含义:
V1是关系影响总值,wk是第k类对象关系类型对应的第一权重,Nk是第k类对象关系类型的数量,n是对象关系类型的类型总数,k=1,...,n。
一个例子:经过步骤31筛选出的第一目标医药对象包括医生A、医生B、医生C、医生D和医生E。经过上述步骤S101-S102可以得出医生A与医生B是师生关系、医生A与医生D是师生关系,医生A与医生C是同事关系,即“医生A的师生类关系”的数量是2,“医生A的同事类关系”的数量是1。如果师生类关系对应的第一权重是40,同事类关系对应的第一权重是30,那么通过上述公式(1)可以计算出在“医生A、医生B、医生C、医生D和医生E”构成的这个医生群体中,医生A的关系影响总值V1=40×2+30×1=110。
步骤34:获取当前第一目标医药对象以及与其相关的当前第二目标医药对象之间的所有对象关系类型,根据上述预设的对象关系类型与第一权重之间的对应关系获取上述所有对象关系类型中每类对象关系类型的第一权重,根据每类对象关系类型的第一权重进行加权求和计算并且根据计算结果输出当前第一目标医药对象以及与其相关的当前第二目标医药对象之间的关联度得分。如果关联度得分越大则表明这两个目标医药对象之间关联程度(亲密程度)越大;反之,则表明这两个目标医药对象之间的关联程度(亲密程度)越小。
在本实施实施例中可以按照下述公式(2)所示的方法计算关联度得分:
V2=Wl+,…,+Wl+,…,+Wm (2)
公式(2)中各参数含义是:
V2是关联度得分,wl是当前第一目标医药对象以及与其相关的当前第二目标医药对象之间的第l类对象关系类型对应的第一权重,m是当前第一目标医药对象以及与其相关的当前第二目标医药对象之间对象关系类型的类型总数,l=1,...,m。
一个例子:经过步骤31筛选出的第一目标医药对象包括医生A、医生B、医生C、医生D和医生E。经过上述步骤S101-S102可以得出医生A与医生B之间的对象关系类型包括师生关系和论文合作关系。如果师生类关系对应的第一权重是40,论文合作关系对应的第一权重是15,那么通过上述公式(2)可以计算出在“医生A、医生B、医生C、医生D和医生E”构成的这个医生群体中,医生A与医生B之间的关联度得分V2=40+15=55。
步骤35:根据关联度得分设置相应的第一目标医药对象与第二目标医药对象之间的图像显示距离,根据关系影响总值设置相应的第一目标医药对象的显示图标的尺寸。
一个例子:如果关联度得分越大,则设置相关医药对象之间的图像显示距离越小;反之,则设置相关医药对象之间的图像显示距离越大。如果关系影响总值越大,则设置相应医药对象的显示图标的尺寸越大;反之,则设置相应医药对象的显示图标的尺寸越小。
在一个实施方式中,可以根据每个第一目标医药对象各自对应的对象类型设置每个第一目标医药对象的显示图标的形状和颜色。
对象类型指的是对每个医药对象预先设置好的类型信息,该类型信息能够表示当前医药对象具体属于哪一类对象,而每个类型信息表示的具体类型可以根据实际的分类需求预先设定的。一个例子:实际的分类需求为当前医药对象是否为可以进行信息推荐的对象,如果是则设置当前医药对象的对象类型为目标对象。
步骤36:根据第一目标医药对象的显示图标的尺寸、形状和颜色,以及第一目标医药对象与第二目标医药对象之间的图像显示距离构建并输出目标医药对象的关系网络图谱。
参阅附图2,图2示例性示出了根据本发明一个实施例的目标医药对象的关系网络图谱的显示图像。图2中的每个圆点代表一个医药对象,两个圆点之间的线条用于示意两个医药对象之间的图像显示距离。黑色圆点表示当前医药对象的对象类型是目标对象(可以进行信息推荐的对象)。进一步,一个实施方式中,目标医药对象的关系网络图谱中两个圆点之间的线条可以预先关联有这两个圆点代表的医药对象之间的对象关系类型。当接收到用户输入的触发信号(例如:关系网络图谱中线条的鼠标点击信号)时即可显示出相应的对象关系类型的信息。例如:用户使用鼠标点击关系网络图谱中的某个线条时,该线条的附近区域就会显示与这个线条关联的对象关系类型的提示信息。
根据目标医药对象的关系网络图谱,用户能够更加直观地了解每个医药对象在其所属医药对象群体中的影响力大小,任意两个医药对象之间的对象关系类型以及关联程度。此外,还可以根据医药对象的显示图标的形状和颜色快速分辨出医药对象的具体类型(例如:潜在的可以推荐信息的医药对象等)。
进一步,依据前述步骤33可知,关系影响总值能够直观地体现出当前第一目标医药对象在其所属医药对象群体内的关系影响力,因此可以根据关系影响总值对医药对象群体内的所有第一目标医药对象进行排序,以便用户能够更加直观且快速地确认在当前医药对象群体影响力最大的医药对象。进一步,也可以根据与第一目标医药对象相关的第二目标医药对象的数量对医药对象群体内的所有第一目标医药对象进行排序,以此使用户能够更加直观且快速地确认在当前医药对象群体影响力最大的对象。一个实施方式中,可以在执行步骤33之后通过执行以下步骤对目标医药对象进行排序显示:
获取每个第一目标医药对象的关系影响总值,根据关系影响总值对第一目标医药对象进行排序显示;或者,获取与每个第一目标医药对象相关的第二目标医药对象的数量,根据该数量对第一目标医药对象进行排序显示。
一个例子:如果在某个医生群体中,医生A、医生B、医生C的关系影响总值依次是16721、14711、13161,与医生A相关的第二目标医药对象的数量是1343,与医生B相关的第二目标医药对象的数量是422,与医生C相关的第二目标医药对象的数量是928。那么根据关系影响总值由大至小的顺序对医生A、医生B、医生C进行排序,排序结果是医生A、医生B、医生C;根据第二目标医药对象的数量由大至小的顺序对医生A、医生B、医生C进行排序,排序结果是医生A、医生C、医生B。
进一步,依据前述步骤34可知,两个目标医药对象之间的关联度得分能够表示这两个目标医药对象之间的亲密程度,因而可以根据关联度得分对目标医药对象进行排序,以便用户能够更加直观且快速地确认与当前目标医药对象最亲密的对象。一个实施方式中,可以在执行步骤34之后通过执行以下步骤对目标医药对象进行排序显示:
获取当前第一目标医药对象以及与其相关的当前第二目标医药对象之间的关联度得分,根据关联度得分对第二目标医药对象进行排序显示。
一个例子:如果当前第一目标医药对象是医生A,与医生A相关的第二目标医药对象包括医生B、医生C和医生D,医生B、医生C和医生D的关联度得分依次是100、43和110,那么可以根据关系影响总值由大至小的顺序对医生B、医生C和医生D进行排序,排序结果是医生D、医生B和医生C。
进一步,依据前述步骤31-步骤33可知,在某个医药对象群体内如果某个第一目标医药对象与其他第一目标医药对象之间具备某种对象关系类型时,那么这两个第一目标医药对象就互相为对方的第二目标医药对象。并且,某个医药对象的关系影响总值能体现出其在所属医药对象群体内的关系影响力。因此,在一个医药对象群体内当前第一目标医药对象的关系影响总值能够直接体现出其在所属医药对象群体内的关系影响力,而与当前第一目标医药对象相关的第二目标医药对象的关系影响总值则能够间接地体现出当前第一目标医药对象在所属医药对象群体内的关系影响力。因此可以根据当前第一目标医药对象的关系影响总值以及与其相关的每个第二目标医药对象的关系影响总值,分析当前第一目标医药对象在所属医药对象群体内的综合影响力。一个实施方式中,可以按照以下步骤分析当前第一目标医药对象在所属医药对象群体内的综合影响力:
步骤41:基于预设的关系影响总值与第二分值的对应关系,根据第一目标医药对象的关系影响总值获取第一目标医药对象的第二分值。
步骤42:获取与当前第一目标医药对象相关第二目标医药对象中关系影响总值大于预设阈值的第二目标医药对象的数量。
步骤43:根据第二分值、数量并按照下述公式(3)所示的方法计算第一目标医药对象的综合影响力得分:
Sa_i=Ni×k1+Sb_i×k2 (3)
公式(3)中各参数含义是:
Sa_i是第i个第一目标医药对象的综合影响力得分,Sb_i是第i个第一目标医药对象的第二分值,Ni是与第i个第一目标医药对象相关的第二目标医药对象中关系影响总值大于预设阈值的第二目标医药对象的数量,k1和k2分别是预设的权重。一个例子:k1=0.5,k2=0.5。
进一步,在一个实施方式中,可以根据学术能力类数据和诊疗影响类数据对医药对象的属性数据进行划分,然后根据学术能力类数据计算得出医药对象在学术能力类维度下的影响力得分,根据诊疗影响类数据计算得出医药对象在诊疗影响类维度下的影响力得分,以此使用户能够更加全面分析出当前医药对象在其所属的医药对象群体中的影响力程度。具体而言,在本实施方式中,可以按照以下步骤获取当前医药对象在不同维度下的影响力得分:
步骤51:根据预设的筛选条件对医药对象进行筛选,得到第一目标医药对象。在本实施例中预设的筛选条件包括但不限于:属性数据所属的对象、对象所在的区域、属性数据的类别标签以及对象关系类型等等。一个实施方式中,如果内部数据与外部数据均是医药相关数据,属性数据是医药相关数据中医生发表的文献,属性数据的类别标签包括药品名称以及相应的一个或多个适应症,那么预设的筛选条件包括但不限于:医生名称、医生所在的省/城市、药品名称、适应症名称、师生关系等等。
步骤52:根据医药对象的对象关系类型的识别结果,获取每个第一目标医药对象各自对应的对象关系类型以及在第一目标医药对象中与对象关系类型存在关联关系的第二目标医药对象。
一个例子:经过步骤31筛选出的第一目标医药对象包括医生A、医生B、医生C、医生D和医生E。经过上述步骤S101-S102可以得出医生A与医生B是师生关系、医生A与医生D是师生关系,医生A与医生C是同事关系,那么“医生B、医生D”就是与“医生A的师生类关系”存在关联关系的第二目标医药对象,“医生C”就是与“医生A的同事类关系”存在关联关系的第二目标医药对象。
步骤53:根据预设的第一级数据类型对当前第一目标医药对象的属性数据进行分类,得到一类或多类第一级属性数据。
预设的第一级数据类型可以包括学术能力类数据和诊疗影响类数据。学术能力类数据指的是能够体现当前医药对象如医生进行医药研究的能力的数据,比如医生发表的论文数量/类型、期刊任职的职位信息等。诊疗影响类数据指的是能够体现当前医药对象如医生进行病症诊治能力的数据,比如医生所属医院的等级、医生的问诊量等。
步骤54:根据预设的第一级数据类型对应的第二级数据类型,对第一级属性数据进行再次分类,得到一类或多类第二级属性数据。
一个例子:学术能力类数据对应的第二级数据类型包括医生发表的论文、医生在期刊任职的简介信息等。诊疗影响类数据对应的第二级数据类型包括医生所属医院的等级信息、医生的问诊信息等。
步骤55:基于预设的第二级数据类型与第二权重的对应关系,获取当前第一目标医药对象的每类第二级属性数据各自对应的第二权重;基于预设的第二级数据类型与第一分值的对应关系,获取当前第一目标医药对象的每类第二级属性数据各自对应的第一分值。
步骤56:根据第二权重与第一分值,对属于当前第一级属性数据的所有第二级属性数据进行加权求和计算并根据计算结果输出当前第一级属性数据的影响力得分。
在本实施实施例中可以按照下述公式(4)所示的方法计算当前第一级属性数据的影响力得分:
V3=W1×S1+,…,+Ws×Ss+,…,+wp×Sp (4)
公式(4)中各参数含义是:
V3是当前第一级属性数据的影响力得分,ws是属于当前第一级属性数据的第s类第二级属性数据的第二权重,Ss是属于当前第一级属性数据的第s类第二级属性数据的第一分值,p是属于当前第一级属性数据的第二级属性数据的类型总数。
在一个实施方式中,可以根据上述步骤41-步骤43计算得出的第一目标医药对象的综合影响力得分,以及根据上述步骤51-56计算得出的每类第一级属性数据的影响力得分进行分值显示,以便用户能够更加直观地了解到当前第一目标医药对象在不同维度下的影响力。
2、药品价值分析
在本实施例中可以按照以下步骤进行数据处理,以响应药品价值分析请求输出对应的分析结果:
步骤61:根据用户请求中的目标药品名称以及每个属性数据各自对应的类别标签中的药品名称,获取目标药品名称对应的属性数据并将属性数据作为待分析属性数据。也就是说,根据目标药品名称对属性数据进行筛选,将类别标签中药品名称是目标药品名称的属性数据筛选出来作为待分析属性数据。
步骤62:根据每个待分析属性数据各自对应的对象标签,获取具有相同对象标签的待分析属性数据以形成每种对象标签各自对应的分析数据集。也就是说,根据对象标签对属性数据进行分类汇总,形成不同对象标签对应的不同的分析数据集。
步骤63:获取当前对象标签的分析数据集中每个待分析属性数据的数据类型,获取具有相同数据类型的待分析属性数据的数量。
步骤64:获取待分析属性数据的数据类型中与药品学术价值分析相关的第一数据类型,根据预设的药品学术价值分析对应的数据类型与第三权重之间的对应关系,获取每个第一数据类型各自对应的第三权重,根据每个第一数据类型各自对应的待分析属性数据的数量以及第三权重进行加权和计算并且根据计算结果获取当前对象标签对应的药品学术价值。
在本实施实施例中可以按照下述公式(5)所示的方法计算当前对象标签对应的药品学术价值:
V4=w1×N1+,...,+wa×Na+,...,+wq×Nq (5)
公式(5)中各参数含义是:
V4是药品学术价值,wa是当前对象标签的第a个第一数据类型对应的第三权重,Na是当前对象标签的第a个第一数据类型对应的待分析属性数据的数量,q是当前对象标签的第一数据类型的类型总数,a=1,...,k。
在本实施例中,如果属性数据是医生发表的文献、会议发言和医学研究成果(例如:临床指南)等,那么“与药品学术价值分析相关的第一数据类型”可以包括但不限于:作为第一作者发表的文献、作为非第一作者发表的文献、会议发言、医学研究成果。根据药品学术价值能够得出不同医生对对用户请求中目标药品名称指代的药品的研究程度。如果药品学术价值越大,则表明当前医药对象对相关药品的研究程度越大;反之,则表明当前医药对象对相关药品的研究程度越小。不同的医生对应的药品价值也能够体现出不同医生的药品研究方向和重点。
步骤65:获取待分析属性数据的数据类型中与药品影响力价值分析相关的第二数据类型,根据预设的药品影响力价值分析对应的数据类型与第四权重之间的对应关系,获取每个第二数据类型各自对应的第四权重,根据每个第二数据类型各自对应的待分析属性数据的数量以及第四权重进行加权和计算并且根据计算结果获取当前对象标签对应的药品影响力价值。
在本实施实施例中可以按照下述公式(6)所示的方法计算当前对象标签对应的药品影响力价值:
V5=W1×N1+,...,+Wb×Nb+,...,+Wr×Nr (6)
公式(6)中各参数含义是:
V5是药品影响力价值,wb是当前对象标签的第b个第二数据类型对应的第四权重,Nb是当前对象标签的第b个第二数据类型对应的待分析属性数据的数量,r是当前对象标签的第二数据类型的类型总数,b=1,...,r。
在本实施例中,如果属性数据是医生发表的文献、会议发言和医学研究成果(例如:临床指南)等,那么“与药品影响力价值分析相关的第二数据类型”可以包括但不限于:作为第一作者发表的且被引用过的文献、作为非第一作者发表的且被引用过的文献、会议发言、医学研究成果。根据药品影响力价值能够得出不同医生对用户请求中目标药品名称指代的药品的学术研究,对其他医药对象产生的影响力程度。如果药品影响力价值越大,则表明当前医药对象对相关药品的学术研究,对其他医药对象产生的影响力越大;反之,则表明当前医药对象对相关药品的学术研究,对其他医药对象产生的影响力越小。
步骤66:根据每个对象标签各自对应的药品学术价值分别设置每个对象标签的显示图标与目标药品名称的显示图标之间的图像显示距离,根据每个对象标签各自对应的药品影响力价值分别设置每个对象标签的显示图标的尺寸。
一个例子:如果药品学术价值越大,则设置相关显示图标之间的图像显示距离越小;反之,则设置相关显示图标之间的图像显示距离越大。如果药品影响力价值越大,则设置相应显示图标的尺寸越大;反之,则设置相应显示图标的尺寸越小。
在一个实施方式中,可以根据每个医药对象各自对应的对象类型设置每个相应对象标签的显示图标的形状和颜色。
对象类型指的是对每个医药对象预先设置好的类型信息,该类型信息能够表示当前医药对象具体属于哪一类对象,而每个类型信息表示的具体类型可以根据实际的分类需求预先设定的。一个例子:实际的分类需求为当前医药对象是否为可以进行信息推荐的对象,如果是则设置当前医药对象的对象类型为目标对象。
步骤67:以目标药品名称的显示图标为中心,根据每个对象标签各自对应的图像显示距离,以及显示图标的尺寸、形状和颜色对所有对象标签进行图像显示。
参阅附图3,图3示例性示出了本实施例中的医药对象的医药网络图谱的显示图像。图3中的每个圆点代表一个医药对象,且圆点上标注有医药对象的对象标签(例如:朱明军、朱翠玲等),两个圆点之间的线条用于示意两个医药对象之间的图像显示距离。黑色圆点表示当前医药对象的对象类型是目标对象。
需要指出的是,尽管上述实施例中将各个步骤按照特定的先后顺序进行了描述,但是本领域技术人员可以理解,为了实现本发明的效果,不同的步骤之间并非必须按照这样的顺序执行,其可以同时(并行)执行或以其他顺序执行,这些变化都在本发明的保护范围之内。
参阅附图4,图4是根据本发明的一个实施例的基于医药大数据的医药对象关系分析的系统的主要结构框图。如图4所示,本发明实施例中基于医药大数据的医药对象关系分析的系统主要包括第一数据处理装置11、第二数据处理装置12和数据分析装置13。在一些实施例中,第一数据处理装置11、第二数据处理装置12和数据分析装置13中的一个或多个可以合并在一起成为一个模块。在一些实施例中,第一数据处理装置11可以被配置成成采集内部数据以及外部数据并分别进行采集数据的处理形成不同类型的标签化数据。第二数据处理装置12可以被配置成基于一个或多个不同类型的标签化数据以及各自对应的一个或多个医药对象的各个属性数据,根据关键词模型算法对一个或多个医药对象的各个属性数据进行分类以确定各个属性数据的类别标签,根据分类模型算法对多个医药对象的各个属性数据进行对象关系类型识别并输出识别结果。数据分析装置13可以被配置成根据确定的类别标签以及对象关系类型通过业务规则计算后进行数据合并处理,并将数据抽取到对应的对象关系分析端,以响应用户请求输出对应的分析结果。在一个实施方式中,具体实现功能的描述可以参见步骤S101-步骤S103所述。
在一个实施方式中,第一数据处理装置11可以被配置成执行以下操作:根据预设的标签类型获取采集数据中每个标签类型各自对应的对象并且为每个对象分别设置相应的对象标签;获取采集数据中与每个对象关联的属性数据;根据每个对象各自对应的对象标签分别对每个对象各自关联的属性数据进行标签设置,根据每个标签类型各自对应的对象以及每个对象的对象标签和相关联的属性数据,获取每个标签类型各自对应的标签化数据。在一个实施方式中,具体实现功能的描述可以参见步骤S101所述。
在一个实施方式中,第二数据处理装置12可以包括第一数据处理模块和第二数据处理模块。
具体而言,第一数据处理模块可以被配置成执行以下操作:
利用基于TextRank算法的关键词提取模型提取每个属性数据中的医药相关关键词;基于预设的类别标签与医药相关关键词的映射关系,根据每个属性数据各自对应的药品相关关键词获取每个属性数据各自对应的类别标签;其中,类别标签包括药品名称和适应症。
第二数据处理模块可以被配置成执行以下操作:
获取预设训练集中的数据样本,数据样本包括对象关系类型以及每个对象关系类型对应的对象关联特征;基于数据样本并利用XGBoost模型算法对预先构建的编码器模型进行模型训练;根据不同医药对象的属性数据获取不同医药对象之间的对象关联特征;利用模型训练后的编码器模型并根据不同医药对象的对象关联特征进行对象关系类型识别,得到不同医药对象之间的对象关系类型。在一个实施方式中,具体实现功能的描述可以参见步骤S102所述。
在一个实施方式中,数据分析装置13可以包括第一数据分析模块和第二数据分析模块。
具体而言,第一数据分析模块可以被配置成当用户请求是医药对象学术关系分析时执行以下操作:
根据预设的筛选条件对医药对象进行筛选,得到第一目标医药对象;根据医药对象的对象关系类型的识别结果,获取每个第一目标医药对象各自对应的对象关系类型以及在第一目标医药对象中与对象关系类型存在关联关系的第二目标医药对象;基于预设的对象关系类型与第一权重之间的对应关系,获取每个第一目标医药对象各自对应的每类对象关系类型的第一权重,根据每类对象关系类型的数量以及第一权重进行加权求和计算并且根据计算结果输出每个第一目标医药对象各自对应的关系影响总值;获取当前第一目标医药对象以及与其相关的当前第二目标医药对象之间的所有对象关系类型,根据预设的对象关系类型与第一权重之间的对应关系获取所有对象关系类型中每类对象关系类型的第一权重,根据每类对象关系类型的第一权重进行加权求和计算并且根据计算结果输出当前第一目标医药对象以及与其相关的当前第二目标医药对象之间的关联度得分;根据关联度得分设置相应的第一目标医药对象与第二目标医药对象之间的图像显示距离,根据关系影响总值设置相应的第一目标医药对象的显示图标的尺寸,根据每个第一目标医药对象各自对应的对象类型设置每个第一目标医药对象的显示图标的形状和颜色;根据第一目标医药对象的显示图标的尺寸、形状和颜色,以及第一目标医药对象与第二目标医药对象之间的图像显示距离构建并输出目标医药对象的关系网络图谱;获取当前第一目标医药对象以及与其相关的当前第二目标医药对象之间的关联度得分,根据关联度得分对第二目标医药对象进行排序显示;获取每个第一目标医药对象的关系影响总值或与每个第一目标医药对象相关的第二目标医药对象的数量,根据关系影响总值或数量对第一目标医药对象进行排序显示。在一个实施方式中,具体实现功能的描述可以参见步骤S103所述。
和/或,根据预设的筛选条件对医药对象进行筛选,得到第一目标医药对象;根据医药对象的对象关系类型的识别结果,获取每个第一目标医药对象各自对应的对象关系类型以及在第一目标医药对象中与对象关系类型存在关联关系的第二目标医药对象;根据预设的第一级数据类型对当前第一目标医药对象的属性数据进行分类,得到一类或多类第一级属性数据;根据预设的第一级数据类型对应的第二级数据类型,对第一级属性数据进行再次分类,得到一类或多类第二级属性数据;基于预设的第二级数据类型与第二权重的对应关系,获取当前第一目标医药对象的每类第二级属性数据各自对应的第二权重;基于预设的第二级数据类型与第一分值的对应关系,获取当前第一目标医药对象的每类第二级属性数据各自对应的第一分值;根据第二权重与第一分值,对属于当前第一级属性数据的所有第二级属性数据进行加权求和计算并根据计算结果输出当前第一级属性数据的影响力得分;根据当前第一目标医药对象的关系影响总值以及与其相关的每个第二目标医药对象的关系影响总值,获取并输出当前第一目标医药对象的综合影响力得分。在一个实施方式中,具体实现功能的描述可以参见步骤S103所述。
第二数据分析模块可以被配置成当用户请求是药品价值分析时执行以下操作:
根据用户请求中的目标药品名称以及每个属性数据各自对应的类别标签中的药品名称,获取目标药品名称对应的属性数据并将属性数据作为待分析属性数据;根据每个待分析属性数据各自对应的对象标签,获取具有相同对象标签的待分析属性数据以形成每种对象标签各自对应的分析数据集;获取当前对象标签的分析数据集中每个待分析属性数据的数据类型,获取具有相同数据类型的待分析属性数据的数量;获取待分析属性数据的数据类型中与药品学术价值分析相关的第一数据类型,根据预设的药品学术价值分析对应的数据类型与第三权重之间的对应关系,获取每个第一数据类型各自对应的第三权重,根据每个第一数据类型各自对应的待分析属性数据的数量以及第三权重进行加权和计算并且根据计算结果获取当前对象标签对应的药品学术价值;获取待分析属性数据的数据类型中与药品影响力价值分析相关的第二数据类型,根据预设的药品影响力价值分析对应的数据类型与第四权重之间的对应关系,获取每个第二数据类型各自对应的第四权重,根据每个第二数据类型各自对应的待分析属性数据的数量以及第四权重进行加权和计算并且根据计算结果获取当前对象标签对应的药品影响力价值;根据每个对象标签各自对应的药品学术价值分别设置每个对象标签的显示图标与目标药品名称的显示图标之间的图像显示距离,根据每个对象标签各自对应的药品影响力价值分别设置每个对象标签的显示图标的尺寸,根据每个医药对象各自对应的对象类型设置每个相应对象标签的显示图标的形状和颜色;以目标药品名称的显示图标为中心,根据每个对象标签各自对应的图像显示距离,以及显示图标的尺寸、形状和颜色对所有对象标签进行图像显示。在一个实施方式中,具体实现功能的描述可以参见步骤S103所述。
在一个实施方式中,第一数据分析模块可以被配置成执行以下操作:基于预设的关系影响总值与第二分值的对应关系,根据第一目标医药对象的关系影响总值获取第一目标医药对象的第二分值;获取相关第二目标医药对象中关系影响总值大于预设阈值的第二目标医药对象的数量;根据第二分值、数量并按照公式(3)计算第一目标医药对象的综合影响力得分。在一个实施方式中,具体实现功能的描述可以参见步骤S103所述。
上述基于医药大数据的医药对象关系分析的系统以用于执行图1所示的基于医药大数据的医药对象关系分析的方法实施例,两者的技术原理、所解决的技术问题及产生的技术效果相似,本技术领域技术人员可以清楚地了解到,为了描述的方便和简洁,基于医药大数据的医药对象关系分析的系统的具体工作过程及有关说明,可以参考基于医药大数据的医药对象关系分析的方法的实施例所描述的内容,此处不再赘述。
进一步,本发明还提供了一种存储装置。在该存储装置实施例中存储装置可以被配置成存储执行上述方法实施例的基于医药大数据的医药对象关系分析的系统的程序,该程序可以由处理器加载并运行以实现上述基于医药大数据的医药对象关系分析的系统的方法。为了便于说明,仅示出了与本发明实施例相关的部分,具体技术细节未揭示的,请参照本发明实施例方法部分。该存储装置可以是包括各种电子设备形成的存储装置设备,可选的,本发明实施例中存储是非暂时性的计算机可读存储介质。
进一步,本发明还提供了一种控制装置。在该控制装置实施例中,控制装置包括处理器和存储装置,存储装置可以被配置成存储执行上述方法实施例的基于医药大数据的医药对象关系分析的系统的程序,处理器可以被配置成用于执行存储装置中的程序,该程序包括但不限于执行上述方法实施例的基于医药大数据的医药对象关系分析的系统程序。为了便于说明,仅示出了与本发明实施例相关的部分,具体技术细节未揭示的,请参照本发明实施例方法部分。该控制装置可以是包括各种电子设备形成的控制装置设备,可选的,本发明实施例中控制装置是服务器。
本领域技术人员能够理解的是,本发明实现上述一实施例的方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器、随机存取存储器、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
进一步,应该理解的是,由于各个模块的设定仅仅是为了说明本发明的系统的功能单元,这些模块对应的物理器件可以是处理器本身,或者处理器中软件的一部分,硬件的一部分,或者软件和硬件结合的一部分。因此,图中的各个模块的数量仅仅是示意性的。
本领域技术人员能够理解的是,可以对系统中的各个模块进行适应性地拆分或合并。对具体模块的这种拆分或合并并不会导致技术方案偏离本发明的原理,因此,拆分或合并之后的技术方案都将落入本发明的保护范围内。
至此,已经结合附图所示的一个实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征作出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。
Claims (10)
1.一种基于医药大数据的医药对象关系分析的方法,其特征在于,所述方法包括:
采集内部数据以及外部数据并分别进行采集数据的处理形成不同类型的标签化数据;
基于一个或多个不同类型的所述标签化数据以及各自对应的一个或多个医药对象的各个属性数据,根据关键词模型算法对所述一个或多个医药对象的各个属性数据进行分类以确定各个属性数据的类别标签,根据分类模型算法对多个医药对象的各个属性数据进行对象关系类型识别并输出识别结果;
根据确定的类别标签以及对象关系类型通过业务规则计算后进行数据合并处理,并将数据抽取到对应的对象关系分析端,以响应用户请求输出对应的分析结果;
其中,“根据关键词模型算法对所述一个或多个医药对象的各个属性数据进行分类以确定各个属性数据的类别标签”的步骤具体包括:利用基于TextRank算法的关键词提取模型提取每个属性数据中的医药相关关键词;基于预设的类别标签与医药相关关键词的映射关系,根据每个属性数据各自对应的药品相关关键词获取每个属性数据各自对应的类别标签;其中,所述类别标签包括药品名称和适应症。
2.根据权利要求1所述的基于医药大数据的医药对象关系分析的方法,其特征在于,“分别进行采集数据的处理形成不同类型的标签化数据”的步骤具体包括:
根据预设的标签类型获取所述采集数据中每个标签类型各自对应的对象并且为每个对象分别设置相应的对象标签;
获取所述采集数据中与每个对象关联的属性数据;
根据每个对象各自对应的对象标签分别对每个对象各自关联的属性数据进行标签设置,根据每个标签类型各自对应的对象以及每个对象的对象标签和相关联的属性数据,获取每个标签类型各自对应的标签化数据。
3.根据权利要求2所述的基于医药大数据的医药对象关系分析的方法,其特征在于,“根据分类模型算法对多个医药对象的各个属性数据进行对象关系类型识别并输出识别结果”的步骤具体包括:
获取预设训练集中的数据样本,所述数据样本包括对象关系类型以及每个对象关系类型对应的对象关联特征;
基于所述数据样本并利用XGBoost模型算法对预先构建的编码器模型进行模型训练;
根据不同医药对象的属性数据获取所述不同医药对象之间的对象关联特征;
利用模型训练后的编码器模型并根据所述不同医药对象的对象关联特征进行对象关系类型识别,得到所述不同医药对象之间的对象关系类型。
4.根据权利要求3所述的基于医药大数据的医药对象关系分析的方法,其特征在于,
当用户请求是医药对象学术关系分析时,“根据确定的类别标签以及对象关系类型通过业务规则计算后进行数据合并处理,并将数据抽取到对应的对象关系分析端,以响应用户请求输出对应的分析结果”的步骤具体包括:
根据预设的筛选条件对医药对象进行筛选,得到第一目标医药对象;
根据医药对象的对象关系类型的识别结果,获取每个第一目标医药对象各自对应的对象关系类型以及在所述第一目标医药对象中与所述对象关系类型存在关联关系的第二目标医药对象;
基于预设的对象关系类型与第一权重之间的对应关系,获取每个第一目标医药对象各自对应的每类对象关系类型的第一权重,根据每类对象关系类型的数量以及第一权重进行加权求和计算并且根据计算结果输出每个第一目标医药对象各自对应的关系影响总值;
获取当前第一目标医药对象以及与其相关的当前第二目标医药对象之间的所有对象关系类型,根据所述预设的对象关系类型与第一权重之间的对应关系获取所述所有对象关系类型中每类对象关系类型的第一权重,根据所述每类对象关系类型的第一权重进行加权求和计算并且根据计算结果输出所述当前第一目标医药对象以及与其相关的当前第二目标医药对象之间的关联度得分;
根据所述关联度得分设置相应的第一目标医药对象与第二目标医药对象之间的图像显示距离,根据所述关系影响总值设置相应的第一目标医药对象的显示图标的尺寸,根据每个第一目标医药对象各自对应的对象类型设置每个第一目标医药对象的显示图标的形状和颜色;
根据所述第一目标医药对象的显示图标的尺寸、形状和颜色,以及所述第一目标医药对象与第二目标医药对象之间的图像显示距离构建并输出目标医药对象的关系网络图谱;
获取当前第一目标医药对象以及与其相关的当前第二目标医药对象之间的关联度得分,根据所述关联度得分对所述第二目标医药对象进行排序显示;
获取每个第一目标医药对象的关系影响总值或与每个第一目标医药对象相关的第二目标医药对象的数量,根据所述关系影响总值或数量对所述第一目标医药对象进行排序显示;
和/或,
根据预设的筛选条件对医药对象进行筛选,得到第一目标医药对象;
根据医药对象的对象关系类型的识别结果,获取每个第一目标医药对象各自对应的对象关系类型以及在所述第一目标医药对象中与所述对象关系类型存在关联关系的第二目标医药对象;
根据预设的第一级数据类型对当前第一目标医药对象的属性数据进行分类,得到一类或多类第一级属性数据;
根据预设的第一级数据类型对应的第二级数据类型,对所述第一级属性数据进行再次分类,得到一类或多类第二级属性数据;
基于预设的第二级数据类型与第二权重的对应关系,获取当前第一目标医药对象的每类第二级属性数据各自对应的第二权重;基于预设的第二级数据类型与第一分值的对应关系,获取当前第一目标医药对象的每类第二级属性数据各自对应的第一分值;
根据所述第二权重与第一分值,对属于当前第一级属性数据的所有第二级属性数据进行加权求和计算并根据计算结果输出当前第一级属性数据的影响力得分;
根据当前第一目标医药对象的关系影响总值以及与其相关的每个第二目标医药对象的关系影响总值,获取并输出当前第一目标医药对象的综合影响力得分;
并且/或者,
当用户请求是药品价值分析时,“根据确定的类别标签以及对象关系类型通过业务规则计算后进行数据合并处理,并将数据抽取到对应的对象关系分析端,以响应用户请求输出对应的分析结果”的步骤具体包括:
根据用户请求中的目标药品名称以及每个属性数据各自对应的类别标签中的药品名称,获取所述目标药品名称对应的属性数据并将所述属性数据作为待分析属性数据;
根据每个待分析属性数据各自对应的对象标签,获取具有相同对象标签的待分析属性数据以形成每种对象标签各自对应的分析数据集;
获取当前对象标签的分析数据集中每个待分析属性数据的数据类型,获取具有相同数据类型的待分析属性数据的数量;
获取所述待分析属性数据的数据类型中与药品学术价值分析相关的第一数据类型,根据预设的药品学术价值分析对应的数据类型与第三权重之间的对应关系,获取每个第一数据类型各自对应的第三权重,根据每个第一数据类型各自对应的待分析属性数据的数量以及第三权重进行加权和计算并且根据计算结果获取当前对象标签对应的药品学术价值;
获取所述待分析属性数据的数据类型中与药品影响力价值分析相关的第二数据类型,根据预设的药品影响力价值分析对应的数据类型与第四权重之间的对应关系,获取每个第二数据类型各自对应的第四权重,根据每个第二数据类型各自对应的待分析属性数据的数量以及第四权重进行加权和计算并且根据计算结果获取当前对象标签对应的药品影响力价值;
根据每个对象标签各自对应的药品学术价值分别设置每个对象标签的显示图标与目标药品名称的显示图标之间的图像显示距离,根据每个对象标签各自对应的药品影响力价值分别设置每个对象标签的显示图标的尺寸,根据每个医药对象各自对应的对象类型设置每个相应对象标签的显示图标的形状和颜色;
以所述目标药品名称的显示图标为中心,根据每个对象标签各自对应的图像显示距离,以及显示图标的尺寸、形状和颜色对所有对象标签进行图像显示。
5.根据权利要求4所述的基于医药大数据的医药对象关系分析的方法,其特征在于,“根据当前第一目标医药对象的关系影响总值以及与其相关的每个第二目标医药对象的关系影响总值,获取并输出当前第一目标医药对象的综合影响力得分”的步骤具体包括:
基于预设的关系影响总值与第二分值的对应关系,根据所述第一目标医药对象的关系影响总值获取所述第一目标医药对象的第二分值;
获取所述相关第二目标医药对象中关系影响总值大于预设阈值的第二目标医药对象的数量;
根据所述第二分值、数量并按照下式所示的公式计算所述第一目标医药对象的综合影响力得分:
Sa_i=Ni×k1+Sb_i×k2
其中,Sa_i是第i个第一目标医药对象的综合影响力得分,Sb_i是第i个第一目标医药对象的第二分值,所述Ni是与第i个第一目标医药对象相关的第二目标医药对象中关系影响总值大于预设阈值的第二目标医药对象的数量,k1和k2分别是预设的权重。
6.一种基于医药大数据的医药对象关系分析的系统,其特征在于,所述系统包括:
第一数据处理装置,其被配置成采集内部数据以及外部数据并分别进行采集数据的处理形成不同类型的标签化数据;
第二数据处理装置,其被配置成基于一个或多个不同类型的所述标签化数据以及各自对应的一个或多个医药对象的各个属性数据,根据关键词模型算法对所述一个或多个医药对象的各个属性数据进行分类以确定各个属性数据的类别标签,根据分类模型算法对多个医药对象的各个属性数据进行对象关系类型识别并输出识别结果;
数据分析装置,其被配置成根据确定的类别标签以及对象关系类型通过业务规则计算后进行数据合并处理,并将数据抽取到对应的对象关系分析端,以响应用户请求输出对应的分析结果;
其中,所述第二数据处理装置包括第一数据处理模块;
所述第一数据处理模块被配置成执行以下操作:利用基于TextRank算法的关键词提取模型提取每个属性数据中的医药相关关键词;基于预设的类别标签与医药相关关键词的映射关系,根据每个属性数据各自对应的药品相关关键词获取每个属性数据各自对应的类别标签;其中,所述类别标签包括药品名称和适应症。
7.根据权利要求6所述的基于医药大数据的医药对象关系分析的系统,其特征在于,还包括:
所述第一数据处理装置被配置成执行以下操作:
根据预设的标签类型获取所述采集数据中每个标签类型各自对应的对象并且为每个对象分别设置相应的对象标签;
获取所述采集数据中与每个对象关联的属性数据;
根据每个对象各自对应的对象标签分别对每个对象各自关联的属性数据进行标签设置,根据每个标签类型各自对应的对象以及每个对象的对象标签和相关联的属性数据,获取每个标签类型各自对应的标签化数据。
8.根据权利要求7所述的基于医药大数据的医药对象关系分析的系统,其特征在于,所述第二数据处理装置还包括第二数据处理模块;
所述第二数据处理模块被配置成执行以下操作:
获取预设训练集中的数据样本,所述数据样本包括对象关系类型以及每个对象关系类型对应的对象关联特征;
基于所述数据样本并利用XGBoost模型算法对预先构建的编码器模型进行模型训练;
根据不同医药对象的属性数据获取所述不同医药对象之间的对象关联特征;
利用模型训练后的编码器模型并根据所述不同医药对象的对象关联特征进行对象关系类型识别,得到所述不同医药对象之间的对象关系类型。
9.根据权利要求8所述的基于医药大数据的医药对象关系分析的系统,其特征在于,所述数据分析装置包括第一数据分析模块和第二数据分析模块;
所述第一数据分析模块被配置成当用户请求是医药对象学术关系分析时执行以下操作:
根据预设的筛选条件对医药对象进行筛选,得到第一目标医药对象;
根据医药对象的对象关系类型的识别结果,获取每个第一目标医药对象各自对应的对象关系类型以及在所述第一目标医药对象中与所述对象关系类型存在关联关系的第二目标医药对象;
基于预设的对象关系类型与第一权重之间的对应关系,获取每个第一目标医药对象各自对应的每类对象关系类型的第一权重,根据每类对象关系类型的数量以及第一权重进行加权求和计算并且根据计算结果输出每个第一目标医药对象各自对应的关系影响总值;
获取当前第一目标医药对象以及与其相关的当前第二目标医药对象之间的所有对象关系类型,根据所述预设的对象关系类型与第一权重之间的对应关系获取所述所有对象关系类型中每类对象关系类型的第一权重,根据所述每类对象关系类型的第一权重进行加权求和计算并且根据计算结果输出所述当前第一目标医药对象以及与其相关的当前第二目标医药对象之间的关联度得分;
根据所述关联度得分设置相应的第一目标医药对象与第二目标医药对象之间的图像显示距离,根据所述关系影响总值设置相应的第一目标医药对象的显示图标的尺寸,根据每个第一目标医药对象各自对应的对象类型设置每个第一目标医药对象的显示图标的形状和颜色;
根据所述第一目标医药对象的显示图标的尺寸、形状和颜色,以及所述第一目标医药对象与第二目标医药对象之间的图像显示距离构建并输出目标医药对象的关系网络图谱;
获取当前第一目标医药对象以及与其相关的当前第二目标医药对象之间的关联度得分,根据所述关联度得分对所述第二目标医药对象进行排序显示;
获取每个第一目标医药对象的关系影响总值或与每个第一目标医药对象相关的第二目标医药对象的数量,根据所述关系影响总值或数量对所述第一目标医药对象进行排序显示;
和/或,
根据预设的筛选条件对医药对象进行筛选,得到第一目标医药对象;
根据医药对象的对象关系类型的识别结果,获取每个第一目标医药对象各自对应的对象关系类型以及在所述第一目标医药对象中与所述对象关系类型存在关联关系的第二目标医药对象;
根据预设的第一级数据类型对当前第一目标医药对象的属性数据进行分类,得到一类或多类第一级属性数据;
根据预设的第一级数据类型对应的第二级数据类型,对所述第一级属性数据进行再次分类,得到一类或多类第二级属性数据;
基于预设的第二级数据类型与第二权重的对应关系,获取当前第一目标医药对象的每类第二级属性数据各自对应的第二权重;基于预设的第二级数据类型与第一分值的对应关系,获取当前第一目标医药对象的每类第二级属性数据各自对应的第一分值;
根据所述第二权重与第一分值,对属于当前第一级属性数据的所有第二级属性数据进行加权求和计算并根据计算结果输出当前第一级属性数据的影响力得分;
根据当前第一目标医药对象的关系影响总值以及与其相关的每个第二目标医药对象的关系影响总值,获取并输出当前第一目标医药对象的综合影响力得分;
所述第二数据分析模块被配置成当用户请求是药品价值分析时执行以下操作:
根据用户请求中的目标药品名称以及每个属性数据各自对应的类别标签中的药品名称,获取所述目标药品名称对应的属性数据并将所述属性数据作为待分析属性数据;
根据每个待分析属性数据各自对应的对象标签,获取具有相同对象标签的待分析属性数据以形成每种对象标签各自对应的分析数据集;
获取当前对象标签的分析数据集中每个待分析属性数据的数据类型,获取具有相同数据类型的待分析属性数据的数量;
获取所述待分析属性数据的数据类型中与药品学术价值分析相关的第一数据类型,根据预设的药品学术价值分析对应的数据类型与第三权重之间的对应关系,获取每个第一数据类型各自对应的第三权重,根据每个第一数据类型各自对应的待分析属性数据的数量以及第三权重进行加权和计算并且根据计算结果获取当前对象标签对应的药品学术价值;
获取所述待分析属性数据的数据类型中与药品影响力价值分析相关的第二数据类型,根据预设的药品影响力价值分析对应的数据类型与第四权重之间的对应关系,获取每个第二数据类型各自对应的第四权重,根据每个第二数据类型各自对应的待分析属性数据的数量以及第四权重进行加权和计算并且根据计算结果获取当前对象标签对应的药品影响力价值;
根据每个对象标签各自对应的药品学术价值分别设置每个对象标签的显示图标与目标药品名称的显示图标之间的图像显示距离,根据每个对象标签各自对应的药品影响力价值分别设置每个对象标签的显示图标的尺寸,根据每个医药对象各自对应的对象类型设置每个相应对象标签的显示图标的形状和颜色;
以所述目标药品名称的显示图标为中心,根据每个对象标签各自对应的图像显示距离,以及显示图标的尺寸、形状和颜色对所有对象标签进行图像显示。
10.根据权利要求9所述的基于医药大数据的医药对象关系分析的系统,其特征在于,还包括:
所述第一数据分析模块被配置成执行以下操作:
基于预设的关系影响总值与第二分值的对应关系,根据所述第一目标医药对象的关系影响总值获取所述第一目标医药对象的第二分值;
获取所述相关第二目标医药对象中关系影响总值大于预设阈值的第二目标医药对象的数量;
根据所述第二分值、数量并按照下式所示的公式计算所述第一目标医药对象的综合影响力得分:
Sa_i=Ni×k1+Sb_i×k2
其中,Sa_i是第i个第一目标医药对象的综合影响力得分,Sb_i是第i个第一目标医药对象的第二分值,所述Ni是与第i个第一目标医药对象相关的第二目标医药对象中关系影响总值大于预设阈值的第二目标医药对象的数量,k1和k2分别是预设的权重。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010495127.0A CN111681776B (zh) | 2020-06-03 | 2020-06-03 | 基于医药大数据的医药对象关系分析的方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010495127.0A CN111681776B (zh) | 2020-06-03 | 2020-06-03 | 基于医药大数据的医药对象关系分析的方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111681776A CN111681776A (zh) | 2020-09-18 |
CN111681776B true CN111681776B (zh) | 2023-09-29 |
Family
ID=72453507
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010495127.0A Active CN111681776B (zh) | 2020-06-03 | 2020-06-03 | 基于医药大数据的医药对象关系分析的方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111681776B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116226460A (zh) * | 2022-12-09 | 2023-06-06 | 中科世通亨奇(北京)科技有限公司 | 基于人物图谱的最具价值路径提取方法及设备 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107357933A (zh) * | 2017-08-04 | 2017-11-17 | 刘应波 | 一种用于多源异构科技信息资源的标签描述方法和装置 |
CN108021700A (zh) * | 2017-12-25 | 2018-05-11 | 暴风集团股份有限公司 | 一种用户标签生成方法、装置及服务器 |
CN110119775A (zh) * | 2019-05-08 | 2019-08-13 | 腾讯科技(深圳)有限公司 | 医疗数据处理方法、装置、系统、设备和存储介质 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8359191B2 (en) * | 2008-08-01 | 2013-01-22 | International Business Machines Corporation | Deriving ontology based on linguistics and community tag clouds |
US11361004B2 (en) * | 2018-06-25 | 2022-06-14 | Sap Se | Efficient data relationship mining using machine learning |
-
2020
- 2020-06-03 CN CN202010495127.0A patent/CN111681776B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107357933A (zh) * | 2017-08-04 | 2017-11-17 | 刘应波 | 一种用于多源异构科技信息资源的标签描述方法和装置 |
CN108021700A (zh) * | 2017-12-25 | 2018-05-11 | 暴风集团股份有限公司 | 一种用户标签生成方法、装置及服务器 |
CN110119775A (zh) * | 2019-05-08 | 2019-08-13 | 腾讯科技(深圳)有限公司 | 医疗数据处理方法、装置、系统、设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111681776A (zh) | 2020-09-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101981075B1 (ko) | 데이터 분석 시스템, 데이터 분석 방법, 데이터 분석 프로그램, 및 기록매체 | |
Cappallo et al. | New modality: Emoji challenges in prediction, anticipation, and retrieval | |
US12062018B2 (en) | Methods and apparatus for assessing candidates for visual roles | |
US11042594B2 (en) | Artificial intelligence for product data extraction | |
JP6144427B2 (ja) | データ分析システムおよびデータ分析方法並びにデータ分析プログラム | |
Alhalafawy et al. | The relationship between types of image retrieval and cognitive style in developing visual thinking skills | |
JP2013502653A (ja) | セマンティック・トレーディング・フロア | |
US11023503B2 (en) | Suggesting text in an electronic document | |
KR20150142070A (ko) | 문서 분류 시스템, 문서 분류 방법 및 문서 분류 프로그램 | |
US11182540B2 (en) | Passively suggesting text in an electronic document | |
TW201421414A (zh) | 文件管理系統及文件管理方法以及文件管理程式 | |
Chou et al. | Integrating XBRL data with textual information in Chinese: A semantic web approach | |
CN112035757A (zh) | 医疗瀑布流推送方法、装置、设备及存储介质 | |
Yoon et al. | Research topics and collaboration in human resource development review 2012–2021: A bibliometrics approach | |
Péladeau | Mixing beyond mixed methods: QDA Miner, SimStat, and WordStat | |
KR102185733B1 (ko) | 프로필 자동생성서버 및 방법 | |
CN111681776B (zh) | 基于医药大数据的医药对象关系分析的方法及系统 | |
Noor et al. | Depression Detection In Social Media Using Bagging Classifier | |
Kaur et al. | Sashakt: a job portal for women using text extraction and text summarization | |
CN117454217A (zh) | 一种基于深度集成学习的抑郁情绪识别方法、装置及系统 | |
Agrawal et al. | Analysis and recommendation system-based on PRISMA checklist to write systematic review | |
Purificato et al. | A multimodal approach for cultural heritage information retrieval | |
JP2022072383A (ja) | 侵害情報抽出システム、方法及びプログラム | |
Chung et al. | Cricto: Supporting sensemaking through crowdsourced information schematization | |
CN111681775B (zh) | 基于医药大数据的药品应用分析的方法、系统及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |