CN111190902A - 一种医疗数据的结构化方法、装置、设备及存储介质 - Google Patents

一种医疗数据的结构化方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN111190902A
CN111190902A CN201911358649.XA CN201911358649A CN111190902A CN 111190902 A CN111190902 A CN 111190902A CN 201911358649 A CN201911358649 A CN 201911358649A CN 111190902 A CN111190902 A CN 111190902A
Authority
CN
China
Prior art keywords
medical data
entity
key
structured
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911358649.XA
Other languages
English (en)
Inventor
侯婧
刘水清
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yidu Cloud Beijing Technology Co Ltd
Original Assignee
Nanjing Yiyi Yunda Data Technology Co Ltd
Nanjing Yirui Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Yiyi Yunda Data Technology Co Ltd, Nanjing Yirui Technology Co Ltd filed Critical Nanjing Yiyi Yunda Data Technology Co Ltd
Priority to CN201911358649.XA priority Critical patent/CN111190902A/zh
Publication of CN111190902A publication Critical patent/CN111190902A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本申请提供了一种医疗数据的结构化方法、装置、设备及存储介质,所述方法包括:获取待结构化的医疗数据;根据所述待结构化的医疗数据、预设的关键实体和关键实体关系,生成以所述关键实体的个数为维度数的实体向量,以对所述待结构化的医疗数据进行结构化;其中,所述实体向量的每个维度分别与不同的关键实体具有对应关系。本申请基于预设的关键实体和关键实体关系在待结构化的医疗数据中的出现情况,生成待结构化的医疗数据对应的实体向量,实现医疗数据的结构化,能够满足各个行业对医疗数据的应用需求。

Description

一种医疗数据的结构化方法、装置、设备及存储介质
技术领域
本发明属于数据处理技术领域,尤其涉及一种医疗数据的结构化方法、装置、设备及存储介质。
背景技术
随着互联网技术的不断发展以及医疗行业信息化水平的不断提高,医疗大数据的价值体现越来越明显,医疗大数据能够为医疗、制药、保险和研究等提供大量有用信息。然而大量的传统医疗信息都是以病历文本形式存在的,想要有效的利用这些以病历文本形式存在的医疗数据,就需要根据具体需求对病历文本形式的医疗数据进行结构化处理。
目前,如何更好的实现医疗数据的结构化是医疗领域不断探索的问题。
发明内容
有鉴于此,本发明实施例提供了一种医疗数据的结构化方法、装置、设备及存储介质,能够实现医疗数据的结构化,更好的满足各个行业对医疗数据的应用需求。
第一方面,本申请提供了一种医疗数据的结构化方法,所述方法包括:
获取待结构化的医疗数据;
根据所述待结构化的医疗数据、预设的关键实体和关键实体关系,生成以所述关键实体的个数为维度数的实体向量,以对所述待结构化的医疗数据进行结构化;其中,所述实体向量的每个维度分别与不同的关键实体具有对应关系。
第二方面,本申请提供了一种医疗数据的结构化装置,该装置包括:
获取模块,用于获取待结构化的医疗数据;
生成模块,用于根据所述待结构化的医疗数据、预设的关键实体和关键实体关系,生成以所述关键实体的个数为维度数的实体向量,以对所述待结构化的医疗数据进行结构化;其中,所述实体向量的每个维度分别与不同的关键实体具有对应关系。
第三方面,本申请还提供了一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现上述任一项所述的方法。
第四方面,本申请还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现上述任一项所述的方法。
本发明实施例与现有技术相比存在的有益效果至少在于:
本申请提供的医疗数据的结构化方法中,基于预设的关键实体和关键实体关系在待结构化的医疗数据中的出现情况,生成待结构化的医疗数据对应的实体向量,实现医疗数据的结构化,能够满足各个行业对医疗数据的应用需求。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为本申请实施例提供的一种医疗数据的结构化方法的流程图;
图2为本申请实施例提供的一种样本数据的获取方法的流程图;
图3为本申请实施例提供的一种医疗数据的结构化装置的结构示意图;
图4是本申请实施例提供的一种医疗数据的结构化设备的示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本发明实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本发明的描述。
为了实现医疗数据的结构化,本申请提供了一种医疗数据的结构化方法,具体的,首先,获取待结构化的医疗数据;然后,根据待结构化的医疗数据、预设的关键实体和关键实体关系,生成以关键实体的个数为维度数的实体向量,以对待结构化的医疗数据进行结构化;其中,实体向量的每个维度分别与不同的关键实体具有对应关系。通过上述结构化处理,使得医疗数据能够被应用于各个行业。
以下为本申请实施例提供的一种医疗数据的结构化方法,其中,本申请实施例提供的医疗数据的结构化方法可以应用于各种终端,如台式电脑、手机、笔记本电脑、其他智能终端等。
参考图1,为本申请实施例提供的一种医疗数据的结构化方法的流程图。
该方法具体包括:
S101:获取待结构化的医疗数据。
本申请实施例中,待结构化的医疗数据可以为以病历文本形式存在的医疗数据。
以如下的以病历文本形式存在的医疗数据1作为待结构化的医疗数据为例,包括:
入室,全麻后,取仰卧位,常规消毒,铺单。经口置支撑喉镜,沿舌背正中送入,越过舌根,挑起会厌,连接支架,暴露会厌,查见会厌舌面有乳头状新生物,大小约1.0*0.6*0.6cm,表浅,广基,分次钳除尽新生物,棉球压迫止血,查无病变残留,无活动性出血。退出喉镜。术毕。标本留送病检。手术顺利,麻醉满意,术中出血少,病人**后安返病房。
S102:根据所述待结构化的医疗数据、预设的关键实体和关键实体关系,生成以所述关键实体的个数为维度数的实体向量,以对所述待结构化的医疗数据进行结构化;其中,所述实体向量的每个维度分别与不同的关键实体具有对应关系。
本申请实施例中,可以根据对医疗数据的应用需求,预先设置关键实体。其中,关键实体是指与应用需求强相关的名词。例如,假设对医疗数据的应用需求为向癌症研究提供病历文本的样本,则可以将关键实体设置为癌症、化疗、手术等与应用需求强相关的名词。另外,也可以通过遍历医疗数据的方式设置满足应用需求的关键实体。具体的,本申请实施例对于设置关键实体的方法不做限定。
以上述医疗数据1为例,假设对医疗数据1的应用需求为某种疾病方向的医学研究,则可以为上述医疗数据1设置关键实体为:“支撑喉镜”、“会厌”、“新生物”、“钳除”和“病检”等与医学研究方向相关的医学名词。
另外,本申请实施例在设置关键实体之后,基于关键实体预先设置关键实体关系。其中,关键实体关系用于表示任意两个或多个关键实体具有特定关系。实际应用中,可以将医疗数据中属于同一个句子的关键实体确定为关键实体关系,或者可以将医疗数据中属于同一个段落的关键实体确定为关键实体关系。具体的,本申请实施例对于设置关键实体关系的方法不做限制。
以上述医疗数据1为例,可以将上述医疗数据1中的“支撑喉镜”和“新生物”两个关键实体确定为一个关键实体关系。
本申请实施例中,在确定关键实体之后,为了实现对医疗数据的结构化,可以基于关键实体,生成以关键实体的个数为维度数的实体向量,用于表示对应的医疗数据,实现对该医疗数据的结构化。具体的,生成的实体向量的每个维度分别与不同的关键实体具有对应关系。
以上述医疗数据1为例,由于预设的关键实体包括:“支撑喉镜”、“会厌”、“新生物”、“钳除”和“病检”,共5个医学名词,因此,可以为上述医疗数据1建立一个5维向量,初始值为[0,0,0,0,0]。其中,5维向量的每个维度分别与“支撑喉镜”、“会厌”、“新生物”、“钳除”和“病检”具有对应关系。
实际应用中,实体向量中每个维度的数值是根据待结构化的医疗数据中关键实体和关键实体关系的出现情况生成。
一种可选的实施方式中,首先,识别待结构化的医疗数据中的关键实体,并统计各个关键实体在待结构化的医疗数据中的出现次数。然后,识别待结构化的医疗数据中是否存在关键实体关系,并得到各个关键实体关系的识别结果。最终,基于各个关键实体在待结构化的医疗数据中的出现次数,以及各个关键实体关系的识别结果,生成待结构化的医疗数据对应的实体向量中各个维度的数值。
具体的,利用各个关键实体在待结构化的医疗数据中的出现次数,生成待结构化的医疗数据对应的实体向量中对应维度的数值。将识别结果为存在于待结构化的医疗数据中的关键实体关系包括的关键实体,在该实体向量中对应维度的数值乘以预设倍数,以更新该实体向量中对应维度的数值。
以上述医疗数据1为例,通过遍历上述医疗数据1的方式,可以确定关键实体“会厌”出现的次数为3次,“新生物”出现的次数为2次,“支撑喉镜”、“钳除”和“病检”各出现的次数为1次,则可以基于各个关键实体的出现次数,对上述医疗数据1对应的向量[0,0,0,0,0]中对应维度的数值进行更新,得到实体向量[3,2,1,1,1],其中,该实体向量的各个维度依次与关键实体“会厌”、“新生物”、“支撑喉镜”、“钳除”和“病检”具有一对一的对应关系,并且对应维度的数值分别为对应的关键实体在上述医疗数据1中出现的次数。
另外,对于关键实体关系“支撑喉镜”和“新生物”,由于该关键实体关系的识别结果为存在于上述医疗数据1中,因此,将该关键实体关系中包括的关键实体“支撑喉镜”和“新生物”分别在实体向量中的对应维度的数值乘以预设倍数,如预设倍数为2,则得到实体向量[3,4,2,1,1]。
由于不同的关键实体对于不同的应用需求的重要性可能不同,因此,本申请实施例可以基于应用需求为各个关键实体设置优先级关系,然后为属于不同优先等级的关键实体分别设置权值。其中,优先级较高的关键实体的权值高于优先级较低的关键实体,从而增加优先级较高的关键实体在多维向量中的特征体现。
一种可选的实施方式中,利用各个关键实体在待结构化的医疗数据中的出现次数与所属优先等级对应的权值之间的乘积,生成待结构化的医疗数据的实体向量中对应维度的数值。
以上述医疗数据1为例,假设各个关键实体的优先级关系为“支撑喉镜”>“会厌”>“新生物”>“钳除”>“病检”,则为关键实体“会厌”、“新生物”、“支撑喉镜”、“钳除”和“病检”分别设置的权值为“0.5”、“0.4”、“0.3”、“0.2”和“0.1”。假设关键实体“会厌”出现的次数为3次,“新生物”出现的次数为2次,“支撑喉镜”、“钳除”和“病检”各出现的次数为1次,则将各个关键实体的出现次数与对应的权值之间的乘积,生成待结构化的医疗数据的实体向量中对应维度的数值,即得到实体向量[3*0.5,2*0.4,1*0.3,1*0.2,1*0.1]。
一种可选的实施方式中,本申请实施例可以统计各个关键实体关系在待结构化的医疗数据中的出现次数,在待结构化的医疗数据中出现的次数越多的关键实体关系的重要程度越高。因此,本申请实施例还可以基于各个关键实体关系在待结构化的医疗数据中出现的次数,对待结构化的医疗数据中对应的实体向量中的数值进行更新。以关键实体1与关键实体2构成具有预设关系的关键实体关系1,以及关键实体3与关键实体4构成具有预设关系的关键实体关系2为例,假设关键实体关系1出现的次数10大于关键实体关系2出现的次数3,则可以为实体向量中关键实体关系1包括的关键实体1和2分别对应的维度的数值乘以10,而为关键实体关系2包括的关键实体3和4分别对应的维度的数值乘以3。
本申请实施例提供的医疗数据的结构化方法中,基于预设的关键实体和关键实体关系在待结构化的医疗数据中的出现情况,生成待结构化的医疗数据对应的实体向量,实现医疗数据的结构化,能够满足各个行业对医疗数据的应用需求。
实际应用中,对医疗数据的应用通常是基于医疗样本数据实现的,因此,在应用医疗数据之前,需要从海量的医疗数据中获取样本数据。通常,在病历库的个体特征分布比较均匀时,随机抽样一般能够获得良好代表性的研究样本。但是,在实际应用中,往往某一重要研究因素在病历库中分布相当不均匀,随机抽样很容易导致选择偏倚,遗漏一些比较重要但是占比又比较少的个体,并且有效代表性样本偏少,最终影响样本抽取结果的准确性。
为此,本申请可以基于医疗数据的应用需求,利用上述医疗数据的结构化方法对医疗数据进行结构化,得到医疗数据的实体向量。由于实体向量能够对医疗数据的特征进行表示,因此,本申请实施例可以基于医疗数据的实体向量进行样本数据的获取,使得获取到的样本数据能够满足医疗数据的应用需求。
为此,本申请实施例在上述医疗数据的结构化方法的基础上,提供了一种样本数据的获取方法,参考图2,为本申请实施例提供的一种样本数据的获取方法流程图,该方法包括:
S201:获取待结构化的医疗数据。
其中,待结构化的医疗数据可以为从病历库中抽取的多个样本;如,可以为不同种类的病中抽取的多个病历本,将多个不同种类病种的多个病历作为都待结构化的医疗数据,从而根据本发明提供的方法将从中抽取高质量有代表性的样本。
S202:根据所述待结构化的医疗数据、预设的关键实体和关键实体关系,生成以所述关键实体的个数为维度数的实体向量,以对所述待结构化的医疗数据进行结构化;其中,所述实体向量的每个维度分别与不同的关键实体具有对应关系。
其中,预设的关键实体和关键实体关系可以为根据研究方向,研究员预先定义的关键实体和关键实体关系。
对于S201和S202可参考上述实施例中的S101和S102进行理解,相同之处在此不再赘述。
S203:对结构化的医疗数据进行聚类处理,得到划分为多个类别的聚类结果。
本申请实施例中,在对各个医疗数据进行结构化之后,得到各个医疗数据的实体向量,为了实现样本数据的获取,首先,对各个医疗数据的实体向量进行聚类处理,以便将各个医疗数据的实体向量划分为多个类别,其中,属于同一个类别的实体向量对应的医疗数据之间具有较高的相似度,相反的,属于不同类别的实体向量对应的医疗数据之间具有较大的差异性。
具体的,目前的聚类方法较多,如层次聚类法、DBSCAN密度法等,本申请对具体的聚类方式不做限定。
一种可选的实施方式中,由于K-Means划分法可以通过定义其中的参数K的方式,指定将医疗数据划分成的类别个数。例如定义参数K为30,则说明指定医疗数据划分成30个类别。因此,本申请实施例可以利用K-Means划分法,对医疗数据的实体向量进行聚类处理,得到划分为K个类别的实体向量。
S204:将每个聚类结果中质心对应的医疗数据,作为样本数据。
由于属于同一个类别的实体向量对应的医疗数据之间具有较高的相似度,而属于不同类别的实体向量对应的医疗数据之间具有较大的差异性。为了保证样本数据获取的多样性,本申请实施例可以从不同的类别中分别抽取到对应的样本数据。
一种可选的实施方式中,利用K-Means划分法得到划分为K个类别的实体向量之后,由于每个类别的质心对应的实体向量为对应类别中最能够代表该类别的实体向量,因此,本申请实施例可以确定划分为K个类别的实体向量中每个类别的质心对应的实体向量,并将该实体向量确定为对应类型的样本数据,能够让每个类别的样本都出现,避免出现由于样本分布不均而遗漏有效样本的情况,同时避免了大量无效样本的出现,以提高后续对获取的样本数据应用的准确性,提高基于提取的样本进行疾病研究的效率。
本申请实施例提供的样本数据获取方法中,基于对医疗数据进行结构化得到的实体向量,对医疗数据进行聚类处理,然后从聚类处理后得到的各个类别中分别确定样本数据,完成样本数据的获取。本申请实施例能够保证的样本数据获取的多样性,避免遗漏一些比较重要但占比又较少的个体。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
基于上述方法实施例,本申请还提供了一种医疗数据的结构化装置,参考图3,为本申请实施例提供的一种医疗数据的结构化装置的结构示意图,所述装置包括:
获取模块301,用于获取待结构化的医疗数据;
生成模块302,用于根据所述待结构化的医疗数据、预设的关键实体和关键实体关系,生成以所述关键实体的个数为维度数的实体向量,以对所述待结构化的医疗数据进行结构化;其中,所述实体向量的每个维度分别与不同的关键实体具有对应关系。
一种可选的实施方式中,所述生成模块,包括:
第一识别子模块,用于识别所述待结构化的医疗数据中的所述关键实体,并统计各个关键实体在所述待结构化的医疗数据中的出现次数;
第二识别子模块,用于识别所述待结构化的医疗数据中是否存在预设至少两个关键实体的关键实体关系,并得到各个关键实体关系的识别结果;
第一生成子模块,用于基于各个关键实体在所述待结构化的医疗数据中的出现次数,以及各个关键实体关系的识别结果,生成所述实体向量中各个维度的数值。
另一种可选的实施方式中,所述第一生成子模块,包括:
第二生成子模块,用于利用各个关键实体在所述待结构化的医疗数据中的出现次数,生成所述实体向量中对应维度的数值;
更新子模块,用于将识别结果为存在于所述待结构化的医疗数据中的关键实体关系包括的关键实体,在所述实体向量中对应维度的数值乘以预设倍数,以更新所述实体向量中对应维度的数值。
本申请实施例提供的医疗数据的结构化装置,基于预设的关键实体和关键实体关系在待结构化的医疗数据中的出现情况,生成待结构化的医疗数据对应的实体向量,实现医疗数据的结构化,能够满足各个行业对医疗数据的应用需求。
基于上述实施例,本申请还提供了一种医疗数据的结构化设备,参考图4,为本申请实施例提供的一种医疗数据的结构化终端设备的示意图。如图4所示,该实施例的终端设备4包括:处理器40、存储器41以及存储在存储器41中并可在处理器40上运行的计算机程序42。处理器40执行计算机程序42时实现上述各个医疗数据的结构化方法实施例中的步骤,例如图1所示的步骤S101至步骤S102。
示例性的,计算机程序42可以被分割成一个或多个模块/单元,一个或者多个模块/单元被存储在存储器41中,并由处理器40执行,以完成本发明。一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述计算机程序42在终端设备4中的执行过程。
终端设备4可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。终端设备4可包括,但不仅限于,处理器40、存储器41。本领域技术人员可以理解,图4仅仅是终端设备4的示例,并不构成对终端设备4的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如终端设备4还可以包括输入输出设备、网络接入设备、总线等。
处理器40可以是中央处理单元(Central Processing Unit,CPU),还可以是其它通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器41可以是终端设备4的内部存储单元,例如终端设备4的硬盘或内存。存储器41也可以是终端设备4的外部存储设备,例如终端设备4上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,存储器41还可以既包括终端设备4的内部存储单元也包括外部存储设备。存储器41用于存储计算机程序以及终端设备4所需的其它程序和数据。存储器41还可以用于暂时地存储已经输出或者将要输出的数据。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的实施例中,应该理解到,所揭露的装置/终端设备和方法,可以通过其它的方式实现。例如,以上所描述的装置/终端设备实施例仅仅是示意性的,例如,模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,计算机程序包括计算机程序代码,计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括:能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。

Claims (10)

1.一种医疗数据的结构化方法,其特征在于,该方法包括:
获取待结构化的医疗数据;
根据所述待结构化的医疗数据、预设的关键实体和关键实体关系,生成以所述关键实体的个数为维度数的实体向量,以对所述待结构化的医疗数据进行结构化;其中,所述实体向量的每个维度分别与不同的关键实体具有对应关系。
2.根据权利要求1所述的方法,其特征在于,所述根据所述待结构化的医疗数据、预设的关键实体和关键实体关系,生成以所述关键实体的个数为维度数的实体向量,包括:
识别所述待结构化的医疗数据中的所述关键实体,并统计各个关键实体在所述待结构化的医疗数据中的出现次数;
识别所述待结构化的医疗数据中是否存在预设至少两个关键实体的关键实体关系,并得到各个关键实体关系的识别结果;
基于各个关键实体在所述待结构化的医疗数据中的出现次数,以及各个关键实体关系的识别结果,生成所述待结构化的医疗数据对应的实体向量中各个维度的数值。
3.根据权利要求2所述的方法,其特征在于,所述基于各个关键实体在所述待结构化的医疗数据中的出现次数,以及各个关键实体关系的识别结果,生成所述实体向量中各个维度的数值,包括:
利用各个关键实体在所述待结构化的医疗数据中的出现次数,生成所述实体向量中对应维度的数值;
将识别结果为存在于所述待结构化的医疗数据中的关键实体关系包括的关键实体,在所述实体向量中对应维度的数值乘以预设倍数,以更新所述实体向量中对应维度的数值。
4.根据权利要求3所述的方法,其特征在于,所述利用各个关键实体在所述待结构化的医疗数据中的出现次数,生成所述实体向量中对应维度的数值,包括:
利用各个关键实体在所述待结构化的医疗数据中的出现次数与所属优先等级对应的权值之间的乘积,更新所述实体向量中对应维度的数值。
5.根据权利要求1所述的方法,其特征在于,所述对所述待结构化的医疗数据进行结构化之后,该方法还包括:
对结构化的医疗数据进行聚类处理,得到划分为多个类别的聚类结果;
将每个聚类结果中质心对应的医疗数据,作为样本数据。
6.一种医疗数据的结构化装置,其特征在于,该装置包括:
获取模块,用于获取待结构化的医疗数据;
生成模块,用于根据所述待结构化的医疗数据、预设的关键实体和关键实体关系,生成以所述关键实体的个数为维度数的实体向量,以对所述待结构化的医疗数据进行结构化;其中,所述实体向量的每个维度分别与不同的关键实体具有对应关系。
7.根据权利要求6所述的装置,其特征在于,所述生成模块,包括:
第一识别子模块,用于识别所述待结构化的医疗数据中的所述关键实体,并统计各个关键实体在所述待结构化的医疗数据中的出现次数;
第二识别子模块,用于识别所述待结构化的医疗数据中是否存在预设至少两个关键实体的关键实体关系,并得到各个关键实体关系的识别结果;
第一生成子模块,用于基于各个关键实体在所述待结构化的医疗数据中的出现次数,以及各个关键实体关系的识别结果,生成所述实体向量中各个维度的数值。
8.根据权利要求7所述的装置,其特征在于,所述第一生成子模块,包括:
第二生成子模块,用于利用各个关键实体在所述待结构化的医疗数据中的出现次数,生成所述实体向量中对应维度的数值;
更新子模块,用于将识别结果为存在于所述待结构化的医疗数据中的关键实体关系包括的关键实体,在所述实体向量中对应维度的数值乘以预设倍数,以更新所述实体向量中对应维度的数值。
9.一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至5任一项所述的方法。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至5任一项所述的方法。
CN201911358649.XA 2019-12-25 2019-12-25 一种医疗数据的结构化方法、装置、设备及存储介质 Pending CN111190902A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911358649.XA CN111190902A (zh) 2019-12-25 2019-12-25 一种医疗数据的结构化方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911358649.XA CN111190902A (zh) 2019-12-25 2019-12-25 一种医疗数据的结构化方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN111190902A true CN111190902A (zh) 2020-05-22

Family

ID=70707565

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911358649.XA Pending CN111190902A (zh) 2019-12-25 2019-12-25 一种医疗数据的结构化方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN111190902A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113378554A (zh) * 2021-06-08 2021-09-10 湖南创星科技股份有限公司 一种医疗信息智能交互的方法及系统
CN115757430A (zh) * 2022-12-01 2023-03-07 武汉博科国泰信息技术有限公司 一种医疗数据的数据结构化处理方法和系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106407443A (zh) * 2016-09-28 2017-02-15 医渡云(北京)技术有限公司 一种结构化医疗数据生成方法及装置
US20170193197A1 (en) * 2015-12-30 2017-07-06 Dhristi Inc. System and method for automatic unstructured data analysis from medical records
CN108717407A (zh) * 2018-05-11 2018-10-30 北京三快在线科技有限公司 实体向量确定方法及装置,信息检索方法及装置
CN110019491A (zh) * 2017-07-27 2019-07-16 北大医疗信息技术有限公司 可视化方法、可视化装置、计算机设备和存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170193197A1 (en) * 2015-12-30 2017-07-06 Dhristi Inc. System and method for automatic unstructured data analysis from medical records
CN106407443A (zh) * 2016-09-28 2017-02-15 医渡云(北京)技术有限公司 一种结构化医疗数据生成方法及装置
CN110019491A (zh) * 2017-07-27 2019-07-16 北大医疗信息技术有限公司 可视化方法、可视化装置、计算机设备和存储介质
CN108717407A (zh) * 2018-05-11 2018-10-30 北京三快在线科技有限公司 实体向量确定方法及装置,信息检索方法及装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113378554A (zh) * 2021-06-08 2021-09-10 湖南创星科技股份有限公司 一种医疗信息智能交互的方法及系统
CN113378554B (zh) * 2021-06-08 2023-12-15 湖南创星科技股份有限公司 一种医疗信息智能交互的方法及系统
CN115757430A (zh) * 2022-12-01 2023-03-07 武汉博科国泰信息技术有限公司 一种医疗数据的数据结构化处理方法和系统

Similar Documents

Publication Publication Date Title
CN109300107B (zh) 磁共振血管壁成像的斑块处理方法、装置和计算设备
CN110991170B (zh) 基于电子病历信息的中文疾病名称智能标准化方法与系统
CN116386801B (zh) 基于聚类算法构建患者身份标识的方法、装置及电子设备
WO2019052162A1 (zh) 提高数据清洗效率的方法、装置、设备及可读存储介质
CN111785383B (zh) 数据处理方法及相关设备
CN111190902A (zh) 一种医疗数据的结构化方法、装置、设备及存储介质
CN111104540A (zh) 图像搜索方法、装置、设备及计算机可读存储介质
WO2021223449A1 (zh) 一种菌群标记物的获取方法、装置、终端及存储介质
CN111145846A (zh) 临床试验患者招募方法及装置、电子设备和存储介质
CN110889009A (zh) 一种声纹聚类方法、装置、处理设备以及计算机存储介质
CN111523309B (zh) 药品信息归一化的方法、装置、存储介质及电子设备
CN111640517B (zh) 病历编码方法、装置、存储介质及电子设备
CN108763260A (zh) 一种试题搜索方法、系统及终端设备
CN115620886B (zh) 一种数据审核方法和装置
CN113053479A (zh) 医学数据处理方法、装置、介质及电子设备
CN113591458B (zh) 基于神经网络的医学术语处理方法、装置、设备及存储介质
CN115544214A (zh) 一种事件处理方法、设备及计算机可读存储介质
CN112837324A (zh) 基于改进的水平集的自动肿瘤影像区域分割系统及方法
CN111309285A (zh) 多媒体数据排序方法、装置、终端设备及存储介质
CN111291153A (zh) 一种信息搜索的方法和装置
CN113268988B (zh) 文本实体分析方法、装置、终端设备及存储介质
CN112053779B (zh) 疾病检测模型的构建方法、构建装置及终端设备
CN114328929A (zh) 用于构建图谱的医学知识分类方法、装置、设备和介质
CN115438967A (zh) 一种基于超图的密集子图检测方法、装置及终端设备
CN112699108A (zh) 婚姻登记系统数据重构方法、装置及终端设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20230329

Address after: 100089 801, 8th floor, building 9, No.35 Huayuan North Road, Haidian District, Beijing

Applicant after: YIDU CLOUD Ltd.

Address before: Room 1502, 15th floor, No.211, pubin Road, Jiangbei new district, Nanjing, Jiangsu 210000

Applicant before: Nanjing Yirui Technology Co.,Ltd.

Applicant before: Nanjing Yiyi Yunda Data Technology Co.,Ltd.