CN114840560B - 非结构化数据转化及存储方法和装置 - Google Patents
非结构化数据转化及存储方法和装置 Download PDFInfo
- Publication number
- CN114840560B CN114840560B CN202210401038.4A CN202210401038A CN114840560B CN 114840560 B CN114840560 B CN 114840560B CN 202210401038 A CN202210401038 A CN 202210401038A CN 114840560 B CN114840560 B CN 114840560B
- Authority
- CN
- China
- Prior art keywords
- speech
- data
- entity
- hypergraph
- relationship
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2455—Query execution
- G06F16/24564—Applying rules; Deductive queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/901—Indexing; Data structures therefor; Storage structures
- G06F16/9024—Graphs; Linked lists
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/901—Indexing; Data structures therefor; Storage structures
- G06F16/9027—Trees
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/906—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Evolutionary Computation (AREA)
- Animal Behavior & Ethology (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Fuzzy Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及人工智能技术领域,揭露了一种非结构化数据转化及存储方法和装置,包括:获取医疗数据集合,对所述医疗数据集合中的数据进行超图聚类,得到多个超图子集,构建实体及关系识别模型,其中所述实体及关系识别模型包括多层双向LSTM网络、词性特征识别模块及CRF模型,基于所述词性特征识别模块、所述多层双向LSTM网络对所述多个超图子集中的数据进行实体识别及词性拼接,并通过所述CRF模型对拼接后的实体进行关系识别,得到识别到的实体结果及关系结果,基于所述实体结果及所述关系结果构建医疗知识图谱,将所述医疗知识图谱转化为结构化数据并存储至预构建的数据库中。本发明可解决医疗数据不易查询且难以存储的问题。
Description
技术领域
本发明涉及人工智能技术领域,尤其涉及一种非结构化数据转化及存储方法和装置。
背景技术
随着科技的发展,数据的查询及存储变的至关重要。现有的结构化数据存储方案已经较为成熟,然后生产生活中,非结构化数据的查询及存储仍然存在较大问题。例如,医疗数据是以非结构化的形式存储的,包含大量文本、图片等信息,因此无法直接通过计算机直接处理和分析,不仅查询效率低下且不易存储。
现有医疗数据主要是医生通过信息系统手动录入的,而其中的内容则大多是以医生的口头语言进行描述的非结构化数据,现有技术会使用自然语言技术来对医疗数据进行信息抽取,例如使用LSTM-CRF模型进行实体识别,然而口语化的描述包含大量主观性,实体识别效果不佳,在查询时往往难以查询出出有效信息,数据查询效率较低。
发明内容
本发明提供一种非结构化数据转化及存储方法、装置、电子设备及计算机可读存储介质,其主要目的在于解决医疗数据不易查询且难以存储的问题。
为实现上述目的,本发明提供的一种非结构化数据转化及存储方法,包括:
获取医疗数据集合,对所述医疗数据集合中的数据进行超图聚类,得到多个超图子集;
构建实体及关系识别模型,其中所述实体及关系识别模型包括多层双向LSTM网络、词性特征识别模块及CRF模型;
基于所述词性特征识别模块、所述多层双向LSTM网络对所述多个超图子集中的数据进行实体识别及词性拼接,并通过所述CRF模型对拼接后的实体进行关系识别,得到识别到的实体结果及关系结果;
基于所述实体结果及所述关系结果构建医疗知识图谱,将所述医疗知识图谱转化为结构化数据并存储至预构建的数据库中。
可选地,所述对所述医疗数据集合中的数据进行超图聚类,得到多个超图子集,包括:
根据所述医疗数据集合构建属性三元组集合,并基于所述属性三元组集合中的属性值构建索引集合;
基于FP-growth关联规则挖掘算法从所述索引集合中挖掘出频繁项集合;
根据所述频繁项集合的平均置信度构建多个超图;
计算所述多个超图的重合程度,将所述重合程度小于预设程度阈值的超图进行超图分割,并将所述重合程度大于等于所述预设程度阈值的超图进行超图融合,汇总超图融合及超图分割后的超图得到所述多个超图子集。
可选地,所述基于FP-growth关联规则挖掘算法从所述索引集合中挖掘出频繁项集合,包括:
计算所述索引集合中每个属性值的支持度,根据所述支持度对所述属性三元组集合中的三元组进行排序,得到初始频繁项顺序集合;
按照所述初始频繁项顺序集合中的顺序遍历所述医疗数据集合,并根据遍历路径构建FP树;
对所述FP树中的相同节点进行累加,得到包含多个频繁项子集的频繁项集合。
可选地,所述构建实体及关系识别模型,其中所述实体及关系识别模型包括多层双向LSTM网络、词性特征识别模块及CRF模型,包括:
获取预设的包括第一前向LSTM网络及第一反向LSTM网络的双向LSTM网络,在所述第一前向LSTM后拼接一层第二反向LSTM网络;
获取预设的双向RNN网络,在所述双向RNN网络后拼接注意力机制单元,得到词性特征识别模块;
将所述词性特征识别模块串联至所述第二反向LSTM网络之后,并在所述词性特征识别模块之后添加CRF模型,得到所述实体及关系识别模型。
可选地,所述基于所述词性特征识别模块、所述多层双向LSTM网络对所述多个超图子集中的数据进行实体识别及词性拼接,并通过所述CRF模型对拼接后的实体进行关系识别,得到识别到的实体结果及关系结果,包括:
对所述超图子集中超图顶点对应的医疗数据文本进行词性标注,得到词性集合;
利用所述词性特征识别模块及所述词性集合对所述医疗数据文本中的词语进行词性融合及标签预测,得到标准词性融合向量及所述标准词性融合向量对应的预测标签;
利用所述第一反向LSTM网络输出所述标准词性融合向量的预测标签的发射分数;
利用所述CRF模型输出所述标准词性融合向量的预测标签的转移分数,利用所述发射分数及所述转移分数计算损失值,并将所述损失值小于预设损失阈值时的标准词性融合向量作为所述实体结果,将所述标准词性融合向量对应的预测标签作为所述关系结果。
可选地,所述利用所述词性特征识别模块及所述词性集合对所述医疗数据文本中的词语进行词性融合及标签预测,得到标准词性融合向量及所述标准词性融合向量对应的预测标签,包括:
利用所述第一前向LSTM网络对所述医疗数据文本中的词语进行识别,得到隐藏向量集合;
利用所述双向RNN网络输出所述词性集合对应的词性特征集合,并利用所述注意力机制单元对所述隐藏向量集合及所述词性特征集合进行词性融合,得到原始词性融合向量;
利用所述第二反向LSTM网络学习所述原始词性融合向量在所述医疗数据文本中上下文的语义信息,并输出标准词性融合向量及所述标准词性融合向量的预测标签。
可选地,所述基于所述实体结果及所述关系结果构建医疗知识图谱,将所述医疗知识图谱转化为结构化数据并存储至预构建的数据库中,包括:
获取预构建的医疗数据画像,基于所述医疗数据画像的画像结构将所述实体结果及所述关系结果填充至所述医疗数据画像中,得到所述医疗知识图谱;
将所述医疗数据画像中的信息标签作为属性字段,根据所述关系结果匹配所述属性字段,并将匹配成功的关系结果对应的实体结果填充至所述属性字段中;
将所述画像结构作为属性字段的层级关系,基于填充后的属性字段及所述层级关系构建数据存储表并存储至所述数据库中。
可选地,所述利用所述发射分数及所述转移分数计算损失值,包括:
利用下述公式计算所述损失值loss:
可选地,利用下述公式计算所述标准词性融合向量,包括:
其中,qi为标准词性融合向量,si为隐藏向量集合中的向量,k为隐藏向量集合中向量个数,Score为原始词性融合向量对应的权重矩阵,P为所述词性特征集合。
为了解决上述问题,本发明还提供一种非结构化数据转化及存储装置,所述装置包括:
超图聚类模块,用于获取医疗数据集合,对所述医疗数据集合中的数据进行超图聚类,得到多个超图子集;
模型构建模块,用于构建实体及关系识别模型,其中所述实体及关系识别模型包括多层双向LSTM网络、词性特征识别模块及CRF模型;
实体识别模块,用于基于所述词性特征识别模块、所述多层双向LSTM网络对所述多个超图子集中的数据进行实体识别及词性拼接,并通过所述CRF模型对拼接后的实体进行关系识别,得到识别到的实体结果及关系结果;
知识图谱构建模块,用于基于所述实体结果及所述关系结果构建医疗知识图谱,将所述医疗知识图谱转化为结构化数据并存储至预构建的数据库中。
为了解决上述问题,本发明还提供一种电子设备,所述电子设备包括:
存储器,存储至少一个指令;及
处理器,执行所述存储器中存储的指令以实现上述所述的非结构化数据转化及存储方法。
为了解决上述问题,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一个指令,所述至少一个指令被电子设备中的处理器执行以实现上述所述的非结构化数据转化及存储方法。
相比于背景技术所述:医疗数据包含大量非结构化数据,不仅查询效率低下且不易存储。本发明实施例为提高实体及关系抽取的准确性,先对医疗数据集合中的数据进行超图聚类,得到多个超图子集,由于超图可表示不同数据的关联关系,因此基于超图聚类可提高医疗数据聚类的准确性。其次,利用多层双向LSTM网络来替换LSTM网络,并添加词性特征识别模块,通过词性拼接,提高了实体识别的准确性。同时,基于所述实体结果及所述关系结果构建医疗知识图谱,将所述医疗知识图谱转化为结构化数据并存储,可以将非结构化的医疗数据转化为结构化数据,便于存储,同时知识图谱展示了不同数据间的关系,进一步提高了数据查询的效率。因此本发明提出的非结构化数据转化及存储方法、装置、电子设备及计算机可读存储介质,可以解决医疗数据不易查询且难以存储的问题。
附图说明
图1为本发明一实施例提供的非结构化数据转化及存储方法的流程示意图;
图2为图1实施例其中一个步骤的流程示意图;
图3为图1实施例另一个步骤的流程示意图;
图4为本发明一实施例提供的非结构化数据转化及存储装置的功能模块图;
图5为本发明一实施例提供的实现所述非结构化数据转化及存储方法的电子设备的结构示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本申请实施例提供一种非结构化数据转化及存储方法。所述非结构化数据转化及存储方法的执行主体包括但不限于服务端、终端等能够被配置为执行本申请实施例提供的该方法的电子设备中的至少一种。换言之,所述非结构化数据转化及存储方法可以由安装在终端设备或服务端设备的软件或硬件来执行,所述软件可以是区块链平台。所述服务端包括但不限于:单台服务器、服务器集群、云端服务器或云端服务器集群等。
实施例1:
参照图1所示,为本发明一实施例提供的非结构化数据转化及存储方法的流程示意图。在本实施例中,所述非结构化数据转化及存储方法包括:
S1、获取医疗数据集合,对所述医疗数据集合中的数据进行超图聚类,得到多个超图子集。
本发明实施例中,所述医疗数据集合可以为病人的医疗记录数据,如电子病历等。由于病人的医疗记录是医生通过信息系统手动录入的,而其中的内容则大多是非结构化数据,包括文本、影像等数据。
本发明一可选实施例中,普通图可以描述出数据对象之间的关系,但在现实世界中,对象之间的关系不单单是普通的二元关系,因此难以通过普通的无向图或者有向图来对复杂的数据对象关系进行描述。普通图的一条边只能连接一个顶点,但超图的一条边是一个闭合的曲线,因此可以包含两个甚至两个以上的顶点。因此使用超图建模可以更好的保留数据对象之间的关系,从而更准确的聚类出相关的数据。
详细地,参照图2所示,所述对所述医疗数据集合中的数据进行超图聚类,得到多个超图子集,包括:
S10、根据所述医疗数据集合构建属性三元组集合,并基于所述属性三元组集合中的属性值构建索引集合;
S11、基于FP-growth关联规则挖掘算法从所述索引集合中挖掘出频繁项集合;
S12、根据所述频繁项集合的平均置信度构建多个超图;
S13、计算所述多个超图的重合程度,将所述重合程度小于预设程度阈值的超图进行超图分割,并将所述重合程度大于等于所述预设程度阈值的超图进行超图融合,汇总超图融合及超图分割后的超图得到所述多个超图子集。
本发明实施例中,所述属性三元组集合中包括对象、属性及属性值,例如,“张三,年龄,25”,所述属性三元组集合可以表示为Ri={Si,AI,Vi},其中,Ri表示对象,AI表示属性,Vi表示属性值。由于每个属性会对应不同的对象实体,因此通过将属性作为索引进行倒排序,可以方便进行数据处理,例如,索引集合为SVI={,VI,Si},SVi为第i个索引数据。
具体地,所述基于FP-growth关联规则挖掘算法从所述索引集合中挖掘出频繁项集合,包括:
计算所述索引集合中每个属性值的支持度,根据所述支持度对所述属性三元组集合中的三元组进行排序,得到初始频繁项顺序集合;
按照所述初始频繁项顺序集合中的顺序遍历所述医疗数据集合,并根据遍历路径构建FP树;
对所述FP树中的相同节点进行累加,得到包含多个频繁项子集的频繁项集合。
本发明实施例中,例如,属性值25的支持度大于属性值24,则属性值25对应的属性三元组“张三,年龄,25”排在前面,并且将包含同一属性值25的对象作为一个初始频繁项。同时,FP-growth关联规则挖掘算法中,以null作为根节点构建FP树,按照初始频繁项的顺序遍历医疗数据集合,将相同节点中的对象累加作为一个频繁项子集。
可选的,所述根据所述频繁项集合的平均置信度构建多个超图,包括:将所述频繁项集合中每一个频繁项子集中的对象作为超图顶点,将所述频繁项子集的平均置信度作为超边权重,从而根据每一个频繁项子集构建一个对应的超图。
本发明一可选实施例中,所述支持度、平均置信度的计算为现有公知技术,在此不再赘述。超图G对应全部频繁项集合,频繁项集中的每一个子集就是一个超图,每一个子集中的对象就是一个顶点,每条超边有超边权重ω,权重ω代表超边内顶点间的关联程度,用平均置信度表示,即一个超图G=<V,E,ω>,其中,V为顶点集合,E为超边,ω为超边权重。
本发明一可选实施例中,所述计算所述多个超图的重合程度,包括:
利用下述公式计算所述重合程度:
其中,C为所述重合程度,V(ei)为第i个超图,V(ej)为第j个超图。
本发明实施例中,例如,预设程度阈值为0.9,若重合程度大于等于0.9,则将两条超边融合为一条新的超边,新的超边的权重为将两条超边融合为一条新的超边若重合程度小于0.9,则切断权重较小的超边,并将剩余部分组成新的超边。
S2、构建实体及关系识别模型,其中所述实体及关系识别模型包括多层双向LSTM网络、词性特征识别模块及CRF模型。
本发明实施例中,所述实体及关系识别模型用来识别所述多个超图子集中的实体及实体间的关系。
详细地,参照图3所示,所述构建实体及关系识别模型,其中所述实体及关系识别模型包括多层双向LSTM网络、词性特征识别模块及CRF模型,包括:
S20、获取预设的包括第一前向LSTM网络及第一反向LSTM网络的双向LSTM网络,在所述第一前向LSTM后拼接一层第二反向LSTM网络;
S21、获取预设的双向RNN网络,在所述双向RNN网络后拼接注意力机制单元,得到词性特征识别模块;
S22、将所述词性特征识别模块串联至所述第二反向LSTM网络之后,并在所述词性特征识别模块之后添加CRF模型,得到所述实体及关系识别模型。
本发明一可选实施例中,传统LSTM-CRF模型忽略了词性特征,词性特征表达了单词在句中使用时的场景以及传递信息所属的分类以及性质,单词在不同的语境中的使用反映着单词的词性,同样词性也在一定程度上表达了单词在语句中的上下文信息。因此,通过双向RNN网络及注意力机制构建的词性特征识别模块可以提高对词性特征的学习,可以辅助理解实体在句中的确切信息,更好的表达实体信息。
S3、基于所述词性特征识别模块、所述多层双向LSTM网络对所述多个超图子集中的数据进行实体识别及词性拼接,并通过所述CRF模型对拼接后的实体进行关系识别,得到识别到的实体结果及关系结果。
详细地,所述基于所述词性特征识别模块、所述多层双向LSTM网络对所述多个超图子集中的数据进行实体识别及词性拼接,并通过所述CRF模型对拼接后的实体进行关系识别,得到识别到的实体结果及关系结果,包括:
对所述超图子集中超图顶点对应的医疗数据文本进行词性标注,得到词性集合;
利用所述词性特征识别模块及所述词性集合对所述医疗数据文本中的词语进行词性融合及标签预测,得到标准词性融合向量及所述标准词性融合向量对应的预测标签;
利用所述第一反向LSTM网络输出所述标准词性融合向量的预测标签的发射分数;
利用所述CRF模型输出所述标准词性融合向量的预测标签的转移分数,利用所述发射分数及所述转移分数计算损失值,并将所述损失值小于预设损失阈值时的标准词性融合向量作为所述实体结果,将所述标准词性融合向量对应的预测标签作为所述关系结果。
本发明一可选实施例中,正向LSTM网络、反向LSTM网络CRF模型为现有公知技术,对模型结构不再赘述。在LSTM-CRF模型的计算过程中,实体及关系的识别时通过最佳路径实现的,最佳路径的得分由两部分组成:一个是LSTM输出层对应各个预测标签的概率分布,称为发射分数;另一个是CRF计算转移概率时获取的分数,称为转移分数,当预测标签的真实路径和预测路径一致时,确定预测路径为最佳路径。
本发明一可选实施例中,所述利用所述发射分数及所述转移分数计算损失值,包括:
利用下述公式计算所述损失值loss:
进一步地,所述利用所述词性特征识别模块及所述词性集合对所述医疗数据文本中的词语进行词性融合及标签预测,得到标准词性融合向量及所述标准词性融合向量对应的预测标签,包括:
利用所述第一前向LSTM网络对所述医疗数据文本中的词语进行识别,得到隐藏向量集合;
利用所述双向RNN网络输出所述词性集合对应的词性特征集合,并利用所述注意力机制单元对所述隐藏向量集合及所述词性特征集合进行词性融合,得到原始词性融合向量;
利用所述第二反向LSTM网络学习所述原始词性融合向量在所述医疗数据文本中上下文的语义信息,并输出标准词性融合向量及所述标准词性融合向量的预测标签。
本发明实施例中,词性特征的融合是要将词性特征与隐藏向量集合中的向量si进行融合,需要利用注意力机制中获得的权重矩阵Score(即原始词性融合向量对应的权重矩阵)与词性特征集合P集合内的向量相乘,将相乘后的向量相加,再与向量si进行拼接得到标准词性融合向量。将所述词性集合依次输入双向RNN网络,其各个神经元的隐藏层包含了该词性在句中的上下文信息。在设置RNN隐藏层维度大小时,需考虑与用于语义提取的LSTM的维度匹配,因此RNN隐藏层的维度设置为第一前向LSTM隐藏层维度大小的一半。利用注意力机制计算隐藏向量集合与RNN获取的词性特征集合P的关系权重,得到权重矩阵Score。
本发明一可选实施例中,利用下述公式计算所述标准词性融合向量,包括:
其中,qi为标准词性融合向量,si为隐藏向量集合中的向量,k为隐藏向量集合中向量个数,Score为原始词性融合向量对应的权重矩阵,P为所述词性特征集合。
本发明实施例中,通过双向RNN网络及注意力机制单元将词性特征融合至LSTM-CRF模型,在实体及关系识别中加入了词性识别,提高了实体及关系识别的准确率。例如,实体结果为:张三、李四,关系结果为主治医师。
S4、基于所述实体结果及所述关系结果构建医疗知识图谱,将所述医疗知识图谱转化为结构化数据并存储至预构建的数据库中。
本发明实施例中,由于医疗数据集合大多为非结构化数据,数据查询及存储更加困难,通过实体识别及关系识别,可以构建医疗知识图谱,便于数据查询,同时以知识图谱为媒介,可以将知识图谱存储至数据库中,即将非结构化数据转化为结构化数据。
详细地,所述基于所述实体结果及所述关系结果构建医疗知识图谱,将所述医疗知识图谱转化为结构化数据并存储至预构建的数据库中,包括:
获取预构建的医疗数据画像,基于所述医疗数据画像的画像结构将所述实体结果及所述关系结果填充至所述医疗数据画像中,得到所述医疗知识图谱;
将所述医疗数据画像中的信息标签作为属性字段,根据所述关系结果匹配所述属性字段,并将匹配成功的关系结果对应的实体结果填充至所述属性字段中;
将所述画像结构作为属性字段的层级关系,基于填充后的属性字段及所述层级关系构建数据存储表并存储至所述数据库中。
本发明一可选实施例中,医疗数据画像根据实体结果进行构建,包括年龄、姓名、主治医师、病史等信息标签,通过匹配实体结果与信息标签(可通过自然语言中的相似度进行匹配),将匹配成功的关系结果对应的实体结果填充至所述医疗数据画像中。类似的,数据存储表格的构建及匹配也是根据识别出的关系结果进行构建,在此不再赘述。所述预构建的数据库可以为关系型数据库等。
本发明实施例中,通过实体结果及关系结果构建医疗知识图谱,并将所述医疗知识图谱转化为数据存储表(即结构化数据),可以将非结构化的医疗数据转化为结构化数据,同时知识图谱展示了不同数据间的关系,进一步提高了数据查询的效率。
相比于背景技术所述:医疗数据包含大量非结构化数据,不仅查询效率低下且不易存储。本发明实施例为提高实体及关系抽取的准确性,先对医疗数据集合中的数据进行超图聚类,得到多个超图子集,由于超图可表示不同数据的关联关系,因此基于超图聚类可提高医疗数据聚类的准确性。其次,利用多层双向LSTM网络来替换LSTM网络,并添加词性特征识别模块,通过词性拼接,提高了实体识别的准确性。同时,基于所述实体结果及所述关系结果构建医疗知识图谱,将所述医疗知识图谱转化为结构化数据并存储,可以将非结构化的医疗数据转化为结构化数据,便于存储,同时知识图谱展示了不同数据间的关系,进一步提高了数据查询的效率。因此本发明提出的非结构化数据转化及存储方法,可以解决医疗数据不易查询且难以存储的问题。
实施例2:
如图4所示,是本发明一实施例提供的非结构化数据转化及存储装置的功能模块图,其可以实现实施例1中的监测方法。
本发明所述非结构化数据转化及存储装置100可以安装于电子设备中。根据实现的功能,所述非结构化数据转化及存储装置100可以包括超图聚类模块101、模型构建模块102、实体识别模块103及知识图谱构建模块104。本发明所述模块也可以称之为单元,是指一种能够被电子设备处理器所执行,并且能够完成固定功能的一系列计算机程序段,其存储在电子设备的存储器中。
所述超图聚类模块101,用于获取医疗数据集合,对所述医疗数据集合中的数据进行超图聚类,得到多个超图子集;
所述模型构建模块102,用于构建实体及关系识别模型,其中所述实体及关系识别模型包括多层双向LSTM网络、词性特征识别模块及CRF模型;
所述实体识别模块103,用于基于所述词性特征识别模块、所述多层双向LSTM网络对所述多个超图子集中的数据进行实体识别及词性拼接,并通过所述CRF模型对拼接后的实体进行关系识别,得到识别到的实体结果及关系结果;
所述知识图谱构建模块104,用于基于所述实体结果及所述关系结果构建医疗知识图谱,将所述医疗知识图谱转化为结构化数据并存储至预构建的数据库中。
详细地,本发明实施例中所述非结构化数据转化及存储装置100中的所述各模块在使用时采用与上述的图1中所述的非结构化数据转化及存储方法一样的技术手段,并能够产生相同的技术效果,这里不再赘述。
实施例3:
如图5所示,是本发明一实施例提供的实现非结构化数据转化及存储方法的电子设备的结构示意图。
所述电子设备1可以包括处理器10、存储器11和总线,还可以包括存储在所述存储器11中并可在所述处理器10上运行的计算机程序,如非结构化数据转化及存储方法程序12。
其中,所述存储器11至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、移动硬盘、多媒体卡、卡型存储器(例如:SD或DX存储器等)、磁性存储器、磁盘、光盘等。所述存储器11在一些实施例中可以是电子设备1的内部存储单元,例如该电子设备1的移动硬盘。所述存储器11在另一些实施例中也可以是电子设备1的外部存储设备,例如电子设备1上配备的插接式移动硬盘、智能存储卡(Smart Media Card,SMC)、安全数字(SecureDigital,SD)卡、闪存卡(Flash Card)等。进一步地,所述存储器11还可以既包括电子设备1的内部存储单元也包括外部存储设备。所述存储器11不仅可以用于存储安装于电子设备1的应用软件及各类数据,例如非结构化数据转化及存储方法程序12的代码等,还可以用于暂时地存储已经输出或者将要输出的数据。
所述处理器10在一些实施例中可以由集成电路组成,例如可以由单个封装的集成电路所组成,也可以是由多个相同功能或不同功能封装的集成电路所组成,包括一个或者多个中央处理器(Central Processing unit,CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述处理器10是所述电子设备的控制核心(Control Unit),利用各种接口和线路连接整个电子设备的各个部件,通过运行或执行存储在所述存储器11内的程序或者模块(例如非结构化数据转化及存储方法程序等),以及调用存储在所述存储器11内的数据,以执行电子设备1的各种功能和处理数据。
所述总线可以是外设部件互连标准(peripheral component interconnect,简称PCI)总线或扩展工业标准结构(extended industry standard architecture,简称EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。所述总线被设置为实现所述存储器11以及至少一个处理器10等之间的连接通信。
图5仅示出了具有部件的电子设备,本领域技术人员可以理解的是,图5示出的结构并不构成对所述电子设备1的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
例如,尽管未示出,所述电子设备1还可以包括给各个部件供电的电源(比如电池),优选地,电源可以通过电源管理装置与所述至少一个处理器10逻辑相连,从而通过电源管理装置实现充电管理、放电管理、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述电子设备1还可以包括多种传感器、蓝牙模块、Wi-Fi模块等,在此不再赘述。
进一步地,所述电子设备1还可以包括网络接口,可选地,所述网络接口可以包括有线接口和/或无线接口(如WI-FI接口、蓝牙接口等),通常用于在该电子设备1与其他电子设备之间建立通信连接。
可选地,该电子设备1还可以包括用户接口,用户接口可以是显示器(Display)、输入单元(比如键盘(Keyboard)),可选地,用户接口还可以是标准的有线接口、无线接口。可选地,在一些实施例中,显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在电子设备1中处理的信息以及用于显示可视化的用户界面。
应该了解,所述实施例仅为说明之用,在专利申请范围上并不受此结构的限制。
所述电子设备1中的所述存储器11存储的非结构化数据转化及存储方法程序12是多个指令的组合,在所述处理器10中运行时,可以实现:
获取医疗数据集合,对所述医疗数据集合中的数据进行超图聚类,得到多个超图子集;
构建实体及关系识别模型,其中所述实体及关系识别模型包括多层双向LSTM网络、词性特征识别模块及CRF模型;
基于所述词性特征识别模块、所述多层双向LSTM网络对所述多个超图子集中的数据进行实体识别及词性拼接,并通过所述CRF模型对拼接后的实体进行关系识别,得到识别到的实体结果及关系结果;
基于所述实体结果及所述关系结果构建医疗知识图谱,将所述医疗知识图谱转化为结构化数据并存储至预构建的数据库中。
具体地,所述处理器10对上述指令的具体实现方法可参考图1至图5对应实施例中相关步骤的描述,在此不赘述。
进一步地,所述电子设备1集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。所述计算机可读存储介质可以是易失性的,也可以是非易失性的。例如,所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)。
本发明还提供一种计算机可读存储介质,所述可读存储介质存储有计算机程序,所述计算机程序在被电子设备的处理器所执行时,可以实现:
获取医疗数据集合,对所述医疗数据集合中的数据进行超图聚类,得到多个超图子集;
构建实体及关系识别模型,其中所述实体及关系识别模型包括多层双向LSTM网络、词性特征识别模块及CRF模型;
基于所述词性特征识别模块、所述多层双向LSTM网络对所述多个超图子集中的数据进行实体识别及词性拼接,并通过所述CRF模型对拼接后的实体进行关系识别,得到识别到的实体结果及关系结果;
基于所述实体结果及所述关系结果构建医疗知识图谱,将所述医疗知识图谱转化为结构化数据并存储至预构建的数据库中。
在本发明所提供的几个实施例中,应该理解到,所揭露的设备,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。
最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。
Claims (10)
1.一种非结构化数据转化及存储方法,其特征在于,所述方法包括:
获取医疗数据集合,对所述医疗数据集合中的数据进行超图聚类,得到多个超图子集;
构建实体及关系识别模型,其中所述实体及关系识别模型包括多层双向LSTM网络、词性特征识别模块及CRF模型;
基于所述词性特征识别模块、所述多层双向LSTM网络对所述多个超图子集中的数据进行实体识别及词性拼接,并通过所述CRF模型对拼接后的实体进行关系识别,得到识别到的实体结果及关系结果;
基于所述实体结果及所述关系结果构建医疗知识图谱,将所述医疗知识图谱转化为结构化数据并存储至预构建的数据库中。
2.如权利要求1所述的非结构化数据转化及存储方法,其特征在于,所述对所述医疗数据集合中的数据进行超图聚类,得到多个超图子集,包括:
根据所述医疗数据集合构建属性三元组集合,并基于所述属性三元组集合中的属性值构建索引集合;
基于FP-growth关联规则挖掘算法从所述索引集合中挖掘出频繁项集合;
根据所述频繁项集合的平均置信度构建多个超图;
计算所述多个超图的重合程度,将所述重合程度小于预设程度阈值的超图进行超图分割,并将所述重合程度大于等于所述预设程度阈值的超图进行超图融合,汇总超图融合及超图分割后的超图得到所述多个超图子集。
3.如权利要求2所述的非结构化数据转化及存储方法,其特征在于,所述基于FP-growth关联规则挖掘算法从所述索引集合中挖掘出频繁项集合,包括:
计算所述索引集合中每个属性值的支持度,根据所述支持度对所述属性三元组集合中的三元组进行排序,得到初始频繁项顺序集合;
按照所述初始频繁项顺序集合中的顺序遍历所述医疗数据集合,并根据遍历路径构建FP树;
对所述FP树中的相同节点进行累加,得到包含多个频繁项子集的频繁项集合。
4.如权利要求1所述的非结构化数据转化及存储方法,其特征在于,所述构建实体及关系识别模型,其中所述实体及关系识别模型包括多层双向LSTM网络、词性特征识别模块及CRF模型,包括:
获取预设的包括第一前向LSTM网络及第一反向LSTM网络的双向LSTM网络,在所述第一前向LSTM后拼接一层第二反向LSTM网络;
获取预设的双向RNN网络,在所述双向RNN网络后拼接注意力机制单元,得到词性特征识别模块;
将所述词性特征识别模块串联至所述第二反向LSTM网络之后,并在所述词性特征识别模块之后添加CRF模型,得到所述实体及关系识别模型。
5.如权利要求4所述的非结构化数据转化及存储方法,其特征在于,所述基于所述词性特征识别模块、所述多层双向LSTM网络对所述多个超图子集中的数据进行实体识别及词性拼接,并通过所述CRF模型对拼接后的实体进行关系识别,得到识别到的实体结果及关系结果,包括:
对所述超图子集中超图顶点对应的医疗数据文本进行词性标注,得到词性集合;
利用所述词性特征识别模块及所述词性集合对所述医疗数据文本中的词语进行词性融合及标签预测,得到标准词性融合向量及所述标准词性融合向量对应的预测标签;
利用所述第一反向LSTM网络输出所述标准词性融合向量的预测标签的发射分数;
利用所述CRF模型输出所述标准词性融合向量的预测标签的转移分数,利用所述发射分数及所述转移分数计算损失值,并将所述损失值小于预设损失阈值时的标准词性融合向量作为所述实体结果,将所述标准词性融合向量对应的预测标签作为所述关系结果。
6.如权利要求5所述的非结构化数据转化及存储方法,其特征在于,所述利用所述词性特征识别模块及所述词性集合对所述医疗数据文本中的词语进行词性融合及标签预测,得到标准词性融合向量及所述标准词性融合向量对应的预测标签,包括:
利用所述第一前向LSTM网络对所述医疗数据文本中的词语进行识别,得到隐藏向量集合;
利用所述双向RNN网络输出所述词性集合对应的词性特征集合,并利用所述注意力机制单元对所述隐藏向量集合及所述词性特征集合进行词性融合,得到原始词性融合向量;
利用所述第二反向LSTM网络学习所述原始词性融合向量在所述医疗数据文本中上下文的语义信息,并输出标准词性融合向量及所述标准词性融合向量的预测标签。
7.如权利要求1所述的非结构化数据转化及存储方法,其特征在于,所述基于所述实体结果及所述关系结果构建医疗知识图谱,将所述医疗知识图谱转化为结构化数据并存储至预构建的数据库中,包括:
获取预构建的医疗数据画像,基于所述医疗数据画像的画像结构将所述实体结果及所述关系结果填充至所述医疗数据画像中,得到所述医疗知识图谱;
将所述医疗数据画像中的信息标签作为属性字段,根据所述关系结果匹配所述属性字段,并将匹配成功的关系结果对应的实体结果填充至所述属性字段中;
将所述画像结构作为属性字段的层级关系,基于填充后的属性字段及所述层级关系构建数据存储表并存储至所述数据库中。
10.一种非结构化数据转化及存储装置,其特征在于,所述装置包括:
超图聚类模块,用于获取医疗数据集合,对所述医疗数据集合中的数据进行超图聚类,得到多个超图子集;
模型构建模块,用于构建实体及关系识别模型,其中所述实体及关系识别模型包括多层双向LSTM网络、词性特征识别模块及CRF模型;
实体识别模块,用于基于所述词性特征识别模块、所述多层双向LSTM网络对所述多个超图子集中的数据进行实体识别及词性拼接,并通过所述CRF模型对拼接后的实体进行关系识别,得到识别到的实体结果及关系结果;
知识图谱构建模块,用于基于所述实体结果及所述关系结果构建医疗知识图谱,将所述医疗知识图谱转化为结构化数据并存储至预构建的数据库中。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210401038.4A CN114840560B (zh) | 2022-04-14 | 2022-04-14 | 非结构化数据转化及存储方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210401038.4A CN114840560B (zh) | 2022-04-14 | 2022-04-14 | 非结构化数据转化及存储方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114840560A CN114840560A (zh) | 2022-08-02 |
CN114840560B true CN114840560B (zh) | 2023-02-28 |
Family
ID=82566071
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210401038.4A Active CN114840560B (zh) | 2022-04-14 | 2022-04-14 | 非结构化数据转化及存储方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114840560B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104809242A (zh) * | 2015-05-15 | 2015-07-29 | 成都睿峰科技有限公司 | 一种基于分布式结构的大数据聚类方法和装置 |
CN110019839A (zh) * | 2018-01-03 | 2019-07-16 | 中国科学院计算技术研究所 | 基于神经网络和远程监督的医学知识图谱构建方法和系统 |
CN111639190A (zh) * | 2020-04-30 | 2020-09-08 | 南京理工大学 | 医疗知识图谱构建方法 |
CN113160974A (zh) * | 2021-04-16 | 2021-07-23 | 山西大学 | 一种基于超图聚类的精神疾病生物型发掘方法 |
CN113377953A (zh) * | 2021-05-31 | 2021-09-10 | 电子科技大学 | 一种基于palc-dca模型的实体融合及分类方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11043307B2 (en) * | 2013-03-15 | 2021-06-22 | James Paul Smurro | Cognitive collaboration with neurosynaptic imaging networks, augmented medical intelligence and cybernetic workflow streams |
-
2022
- 2022-04-14 CN CN202210401038.4A patent/CN114840560B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104809242A (zh) * | 2015-05-15 | 2015-07-29 | 成都睿峰科技有限公司 | 一种基于分布式结构的大数据聚类方法和装置 |
CN110019839A (zh) * | 2018-01-03 | 2019-07-16 | 中国科学院计算技术研究所 | 基于神经网络和远程监督的医学知识图谱构建方法和系统 |
CN111639190A (zh) * | 2020-04-30 | 2020-09-08 | 南京理工大学 | 医疗知识图谱构建方法 |
CN113160974A (zh) * | 2021-04-16 | 2021-07-23 | 山西大学 | 一种基于超图聚类的精神疾病生物型发掘方法 |
CN113377953A (zh) * | 2021-05-31 | 2021-09-10 | 电子科技大学 | 一种基于palc-dca模型的实体融合及分类方法 |
Non-Patent Citations (2)
Title |
---|
"Curriculum Data Association Organization and Knowledge Management Method for Unstructured Learning Resources";Na Li;《International Journal of Emerging Technologies in Learning》;20200327;第15卷(第6期);第79-94页 * |
"知识图谱综述——表示、构建、推理与知识超图理论";田玲 等;《计算机应用》;20210810;第41卷(第8期);第2161-2186页 * |
Also Published As
Publication number | Publication date |
---|---|
CN114840560A (zh) | 2022-08-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10963794B2 (en) | Concept analysis operations utilizing accelerators | |
WO2021212682A1 (zh) | 知识抽取方法、装置、电子设备及存储介质 | |
WO2021139191A1 (zh) | 数据标注的方法以及数据标注的装置 | |
CN113157927B (zh) | 文本分类方法、装置、电子设备及可读存储介质 | |
WO2020073952A1 (zh) | 用于图像识别的图像集的建立方法、装置、网络设备和存储介质 | |
CN112541338A (zh) | 相似文本匹配方法、装置、电子设备及计算机存储介质 | |
CN111930962A (zh) | 文献数据价值评估方法、装置、电子设备及存储介质 | |
CN110633366A (zh) | 一种短文本分类方法、装置和存储介质 | |
CN113360654B (zh) | 文本分类方法、装置、电子设备及可读存储介质 | |
CN113157739B (zh) | 跨模态检索方法、装置、电子设备及存储介质 | |
CN115238670B (zh) | 信息文本抽取方法、装置、设备及存储介质 | |
WO2023178979A1 (zh) | 问题标注方法、装置、电子设备及存储介质 | |
CN113158676A (zh) | 专业实体与关系联合抽取方法、系统及电子设备 | |
CN116821373A (zh) | 基于图谱的prompt推荐方法、装置、设备及介质 | |
CN113887941A (zh) | 业务流程生成方法、装置、电子设备及介质 | |
CN114840684A (zh) | 基于医疗实体的图谱构建方法、装置、设备及存储介质 | |
CN116737947A (zh) | 实体关系图构建方法、装置、设备及存储介质 | |
CN116719904A (zh) | 基于图文结合的信息查询方法、装置、设备及存储介质 | |
CN116720525A (zh) | 基于问诊数据的疾病辅助分析方法、装置、设备及介质 | |
CN116705345A (zh) | 医疗实体标注方法、装置、设备及存储介质 | |
CN114840560B (zh) | 非结构化数据转化及存储方法和装置 | |
CN114706927B (zh) | 基于人工智能的数据批量标注方法及相关设备 | |
CN113705692B (zh) | 基于人工智能的情感分类方法、装置、电子设备及介质 | |
CN112528183B (zh) | 基于大数据的网页组件布局方法、装置、电子设备及介质 | |
CN113221578B (zh) | 疾病实体检索方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |