CN111863268B - 一种适用于医学报告内容提取与结构化方法 - Google Patents
一种适用于医学报告内容提取与结构化方法 Download PDFInfo
- Publication number
- CN111863268B CN111863268B CN202010695211.7A CN202010695211A CN111863268B CN 111863268 B CN111863268 B CN 111863268B CN 202010695211 A CN202010695211 A CN 202010695211A CN 111863268 B CN111863268 B CN 111863268B
- Authority
- CN
- China
- Prior art keywords
- text data
- content
- text
- algorithm
- sentence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 42
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 99
- 238000000605 extraction Methods 0.000 claims description 33
- 238000003058 natural language processing Methods 0.000 claims description 27
- 210000000056 organ Anatomy 0.000 claims description 23
- 238000007781 pre-processing Methods 0.000 claims description 18
- 238000004590 computer program Methods 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000004148 unit process Methods 0.000 claims description 2
- 238000004140 cleaning Methods 0.000 abstract description 12
- 210000001685 thyroid gland Anatomy 0.000 description 8
- 238000010586 diagram Methods 0.000 description 5
- 230000001502 supplementing effect Effects 0.000 description 5
- 239000003814 drug Substances 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H15/00—ICT specially adapted for medical reports, e.g. generation or transmission thereof
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Public Health (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Primary Health Care (AREA)
- Epidemiology (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Pathology (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本发明公开了一种适用于医学报告内容提取与结构化方法,包括以下步骤:将经过数据清洗的文本数据通过自然语言算法进行处理,得到结构文本数据,之后根据键值查找算法和知识图谱算法对结构文本数据进行相应的报告内容的提取,得到文本内容。实现报告内容结构化,并且可以对文本内容进行快速的提取。
Description
技术领域
本发明涉及医学领域,尤其涉及一种适用于医学报告内容提取与结构化方法。
背景技术
医学报告是判断患者病情的重要依据,目前主要是以文本形式存在。医学报告转变为文本形式的存在可以更方便医生了解病人病情,及时掌握病人是否存在其他的基础病,方便医生做出正确的诊断,准确用药。但现在文本形式的医学报告内容存在没有统一标准结构化,结构化内容难以自动建立词库的问题。
发明内容
本发明提供的一种适用于医学报告内容提取与结构化方法,旨在解决现有技术中存在报告内容未结构化的问题。
为实现上述目的,本发明采用以下技术方案:
本发明的一种适用于医学报告内容提取与结构化方法,包括以下步骤:
获取数据预处理后的文本数据;
根据自然语言处理算法对所述文本数据进行处理得到结构文本数据;
根据键值查找算法和知识图谱算法对所述结构文本数据进行内容提取输出文本内容。
将经过数据清洗的文本数据通过自然语言算法进行处理,得到结构文本数据,之后根据键值查找算法和知识图谱算法对结构文本数据进行相应的报告内容的提取,得到文本内容。实现报告内容结构化,并且可以对文本内容进行快速的提取。
作为优选,获取数据预处理后的文本数据,包括:
对原始文本数据进行字符串纠正获取纠正文本数据;
根据字符串匹配算法对所述纠正文本数据进行处理获取文本数据。
作为优选,根据自然语言处理算法对所述文本数据进行处理得到结构文本数据,包括:
获取断句数据库和器官数据库;
根据断句数据库对所述结构文本数据进行处理输出断句文本数据;
根据自然语言处理算法对所述断句文本数据进行计算并与器官数据库进行比对输出结构化文本数据。
作为优选,根据键值查找算法和知识图谱算法对所述结构文本数据进行内容提取输出文本内容,包括:
对所述结构化文本数据进行内容提取获取内容数据;
根据键值查找算法对所述内容数据进行处理输出结构化词库;
根据知识图谱算法对所述结构化词库进行处理输出文本内容。
一种适用于医学报告内容提取与结构化装置,包括:
预处理模块,获取数据预处理后的文本数据;
结构文本内容模块,根据自然语言处理算法对所述文本数据进行处理得到结构文本数据;
文本内容模块,根据键值查找算法和知识图谱算法对所述结构文本数据进行内容提取输出文本内容。
作为优选,所述获取模块包括:
字符串纠正单元,对原始文本数据进行字符串纠正获取纠正文本数据;
字符串匹配单元,根据字符串匹配算法对所述纠正文本数据进行处理获取文本数据。
作为优选,所述结构文本内容模块包括:
获取单元,获取断句数据库和器官数据库;
断句文本数据单元,根据断句数据库对所述结构文本数据进行处理输出断句文本数据;
计算单元,根据自然语言处理算法对所述断句文本数据进行计算并与器官数据库进行比对输出结构化文本数据。
作为优选,所述文本内容模块包括:
内容文本单元,对所述结构化文本数据进行内容提取获取内容数据;
键值查找算法单元,根据键值查找算法对所述内容数据进行处理输出结构化词库;
知识图谱算法单元,根据知识图谱算法对所述结构化词库进行处理输出文本内容。
一种电子设备,包括存储器和处理器,所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器执行以实现如上述中任一项所述的一种适用于医学报告内容提取与结构化方法。
一种存储有计算机程序的计算机可读存储介质,所述计算机程序使计算机执行时实现如上述中任一项所述的一种适用于医学报告内容提取与结构化方法。
本发明具有如下有益效果:
将经过数据清洗的文本数据通过自然语言算法进行处理,得到结构文本数据,之后根据键值查找算法和知识图谱算法对结构文本数据进行相应的报告内容的提取,得到文本内容。实现报告内容结构化,并且可以对文本内容进行快速的提取。
附图说明
图1是本发明实施例实现一种适用于医学报告内容提取与结构化方法第一流程图;
图2是本发明实施例实现一种适用于医学报告内容提取与结构化方法第二流程图;
图3是本发明实施例实现一种适用于医学报告内容提取与结构化方法第三流程图;
图4是本发明实施例实现一种适用于医学报告内容提取与结构化方法第四流程图;
图5是本发明实施例实现一种适用于医学报告内容提取与结构化方法的具体实施流程图。
图6是本发明实施例实现一种适用于医学报告内容提取与结构化装置示意图;
图7是本发明实施例实现一种适用于医学报告内容提取与结构化装置的预处理模块示意图;
图8是本发明实施例实现一种适用于医学报告内容提取与结构化装置的结构文本内容模块示意图;
图9是本发明实施例实现一种适用于医学报告内容提取与结构化装置的文本内容模块示意图;
图10是本发明实施例实现一种适用于医学报告内容提取与结构化装置的具体实施流程图;
图11是本发明实施例实现一种适用于医学报告内容提取与结构化方法的一种电子设备示意图。
具体实施方式
下面将结合附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在介绍本发明技术方案之前,示例性的介绍一种本发明技术方案可能适用的场景。
实施例1
如图1所示,一种适用于医学报告内容提取与结构化方法,包括以下步骤:
S110、获取数据预处理后的文本数据;
S120、根据自然语言处理算法对所述文本数据进行处理得到结构文本数据;
S130、根据键值查找算法和知识图谱算法对所述结构文本数据进行内容提取输出文本内容。
根据实施例1可知,将经过数据清洗的文本数据通过自然语言算法进行处理,得到结构文本数据,之后根据键值查找算法和知识图谱算法对结构文本数据进行相应的报告内容的提取,得到文本内容。实现报告内容结构化,并且可以对文本内容进行快速的提取。
实施例2
如图2所示,一种适用于医学报告内容提取与结构化方法,包括:
S210、获取数据预处理后的文本数据;
S220、对原始文本数据进行字符串纠正获取纠正文本数据;
S230、根据字符串匹配算法对所述纠正文本数据进行处理获取文本数据。
实施例2中,建立纠正词库,将一些常见错误添加到纠正词库,将原始文本数据与纠正词库进行字符串纠正比对,获取纠正文本数据。建立开始关键词库,将纠正文本数据进行断句处理,将断句后的纠正文本数据与纠正词库通过字符串匹配算法进行计算,补充缺失的关键字,得到文本数据。例如预先加载纠正词库得到[“中上极”],通过标点断句得到纠正文本数据[“甲状腺左叶上极小结节”,“中上极结节”,“建议随访”],将纠正文本数据与纠正词库通过字符串匹配算法进行计算,最终得到“甲状腺左叶上极小结节,左叶中上极结节,建议随访”。本方法可以将原始文本数据中内容不规范、标点错误、错别字和少字内容进行更正,提高文本数据内容的准确性。
实施例3
如图3所示,一种适用于医学报告内容提取与结构化方法,包括:
S310、获取数据预处理后的文本数据;
S320、根据自然语言处理算法对所述文本数据进行处理得到结构文本数据;
S330、获取断句数据库和器官数据库;
S340、根据断句数据库对所述文本数据进行处理输出断句文本数据;
S350、根据自然语言处理算法对所述断句文本数据进行计算并与器官数据库进行比对输出结构化文本数据。
根据实施例3可知,预先加载断句数据库和器官数据库,将结构文本数据根据断句数据库进行分割,输出断句文本数据,根据自然语言处理算法对断句文本数据进行拆分,并与器官数据库进行比对输出结构化文本数据。本方法将文本数据按照器官进行分类结构化处理,可以实现文本数据的结构化。
实施例4
如图4所示,一种适用于医学报告内容提取与结构化方法,包括:
S410、获取数据预处理后的文本数据;
S420、根据自然语言处理算法对所述文本数据进行处理得到结构文本数据;
S430、根据键值查找算法和知识图谱算法对所述结构文本数据进行内容提取输出文本内容;
S440、对所述结构化文本数据进行内容提取获取内容数据;
S450、根据键值查找算法对所述内容数据进行处理输出结构化词库;
S460、根据知识图谱算法对所述结构化词库进行处理输出文本内容。
实施例4中,建立结构化内容数据库和结构化代码数据库,将一些常用的结构化内容配置成词库,使用Dictionary函数将结构化代码数据库转换成键值对词典存储方式,方便直接用键值查找算法直接取出对应的代码值。对分类后的结构化文本数据进行内容提取得到内容数据,根据键值查找算法对内容数据进行处理得到结构化代码数据库中的代码值,如果没有找到对应的代码值,程序会自动将结构化内容提示给用户,让用户来告诉对应的代码值内容,并将用户给出的代码值放入结构化代码数据库中,输出结构化词库,再根据知识图谱算法对结构化词库进行处理派生出关联性的二级数据文本内容。本方法可以快速的提取文本内容。
实施例5
如图5所示,一种具体的实施方式可为:
S510、使用字符串纠正算法对原始文本数据进行处理;
建立纠正词库,将一些常见错误添加到纠正词库;格式为:“a{|}b{m}”,其中a需要清洗的数据,b为清洗后的数据,“{|}”清洗和清洗后数据分隔符,m为下一组分隔符,之后程序自动读取纠正词库并逐一替换进行清洗。
S520、根据字符串匹配算法对所述纠正文本数据进行处理获取文本数据;
建立开始关键词数据库,格式为“a1{m}a2”,其中a1、a2为关键词,m为下一个关键词分隔符,将纠正文本数据用标点符号进行断句得到断句集合,遍历断句集合并判断断句集合的开始字符串是否和开始关键词数据库一致,根据具体业务逻辑自动补充相关字符。例如使用标点断句得到断句集合为:[“甲状腺左叶上极小结节”,“中上极结节”,“建议随访”],判断断句集合中的数据是否和开始关键词数据库中的关键词[“中上极”]相一致,如果一致则根据不同的业务逻辑自动补充,最终得到“甲状腺左叶上极小结节,左叶中上极结节,建议随访”。
S530、对文本数据的自纠正和标点符号修正;
利用NLP自然语言处理技术,自动学习文本数据的专业词汇和论文建立相应报告类型的知识库,自动纠正明显不符合医学常识的描述,用正则表达式算法一次性替换英文标点符号为中文标点符号。
S540、根据自然语言处理算法对文本数据进行处理得到结构文本数据;
建立断句数据库和器官数据库,预先加载断句数据库和器官数据库,根据断句数据库对所述结构文本数据进行处理输出断句文本数据,再根据根据自然语言处理算法对所述断句文本数据进行计算并与器官数据库进行比对输出结构化文本数据。
S550、对结构文本数据进行计算提取出文本内容。
建立结构化内容数据库和结构化代码数据库,对分类后的结构化文本数据进行内容提取得到内容数据,根据键值查找算法对内容数据进行处理得到结构化代码数据库中的代码值,如果没有找到对应的代码值,程序会自动将结构化内容提示给用户,让用户来告诉对应的代码值内容,并将用户给出的代码值放入结构化代码数据库中,输出结构化词库,再根据知识图谱算法对结构化词库进行处理派生出关联性的二级数据文本内容。
实施例6
如图6所示,一种适用于医学报告内容提取与结构化装置,包括:
预处理模块10,获取数据预处理后的文本数据;
结构文本内容模块20,根据自然语言处理算法对所述文本数据进行处理得到结构文本数据;
文本内容模块30,根据键值查找算法和知识图谱算法对所述结构文本数据进行内容提取输出文本内容。
上述装置的一种实施方式可为:预处理模块10,获取数据预处理后的文本数据,结构文本内容模块20,根据自然语言处理算法对所述文本数据进行处理得到结构文本数据,最后,文本内容模块30,根据键值查找算法和知识图谱算法对所述结构文本数据进行内容提取输出文本内容。
实施例7
如图7所示,一种适用于医学报告内容提取与结构化装置的获取模块10,包括:
字符串纠正单元12,对原始文本数据进行字符串纠正获取纠正文本数据;
字符串匹配单元14,根据字符串匹配算法对所述纠正文本数据进行处理获取文本数据。
上述装置的获取模块10的一种实施方式可为:字符串纠正单元12,对原始文本数据进行字符串纠正获取纠正文本数据,字符串匹配单元14,根据字符串匹配算法对所述纠正文本数据进行处理获取文本数据。
实施例8
如图8所示,一种适用于医学报告内容提取与结构化装置的结构文本内容模块20包括:
获取单元22,获取断句数据库和器官数据库;
断句文本数据单元24,根据断句数据库对所述结构文本数据进行处理输出断句文本数据;
计算单元26,根据自然语言处理算法对所述断句文本数据进行计算并与器官数据库进行比对输出结构化文本数据。
上述装置的结构文本内容模块20的一种实施方式可为:获取单元22,获取断句数据库和器官数据库,然后断句文本数据单元24,根据断句数据库对所述结构文本数据进行处理输出断句文本数据,最后计算单元26,根据自然语言处理算法对所述断句文本数据进行计算并与器官数据库进行比对输出结构化文本数据。
实施例9
如图9所示,一种适用于医学报告内容提取与结构化装置的结构文本内容模块30包括:
内容文本单元32,对所述结构化文本数据进行内容提取获取内容数据;
键值查找算法单元34,根据键值查找算法对所述内容数据进行处理输出结构化词库;
知识图谱算法单元36,根据知识图谱算法对所述结构化词库进行处理输出文本内容。
上述装置的结构文本内容模块30的一种实施方式可为:内容文本单元32,对所述结构化文本数据进行内容提取获取内容数据,然后键值查找算法单元34,根据键值查找算法对所述内容数据进行处理输出结构化词库,最后知识图谱算法单元36,根据知识图谱算法对所述结构化词库进行处理输出文本内容。
实施例10
如图10所示,一种具体的实施方式可为:
S1010、使用字符串纠正算法对原始文本数据进行处理;
建立纠正词库,将一些常见错误添加到纠正词库;格式为:“a{|}b{m}”,其中a需要清洗的数据,b为清洗后的数据,“{|}”清洗和清洗后数据分隔符,m为下一组分隔符,之后程序自动读取纠正词库并逐一替换进行清洗。
S1020、根据字符串匹配算法对所述纠正文本数据进行处理获取文本数据;
建立开始关键词数据库,格式为“a1{m}a2”,其中a1、a2为关键词,m为下一个关键词分隔符,将纠正文本数据用标点符号进行断句得到断句集合,遍历断句集合并判断断句集合的开始字符串是否和开始关键词数据库一致,根据具体业务逻辑自动补充相关字符。例如使用标点断句得到断句集合为:[“甲状腺左叶上极小结节”,“中上极结节”,“建议随访”],判断断句集合中的数据是否和开始关键词数据库中的关键词[“中上极”]相一致,如果一致则根据不同的业务逻辑自动补充,最终得到“甲状腺左叶上极小结节,左叶中上极结节,建议随访”。
S1030、对文本数据的自纠正和标点符号修正;
利用NLP自然语言处理技术,自动学习文本数据的专业词汇和论文建立相应报告类型的知识库,自动纠正明显不符合医学常识的描述,用正则表达式算法一次性替换英文标点符号为中文标点符号。
S1040、根据自然语言处理算法对文本数据进行处理得到结构文本数据;
建立断句数据库和器官数据库,预先加载断句数据库和器官数据库,根据断句数据库对所述结构文本数据进行处理输出断句文本数据,再根据根据自然语言处理算法对所述断句文本数据进行计算并与器官数据库进行比对输出结构化文本数据。
S1050、对结构文本数据进行计算提取出文本内容。
建立结构化内容数据库和结构化代码数据库,对分类后的结构化文本数据进行内容提取得到内容数据,根据键值查找算法对内容数据进行处理得到结构化代码数据库中的代码值,如果没有找到对应的代码值,程序会自动将结构化内容提示给用户,让用户来告诉对应的代码值内容,并将用户给出的代码值放入结构化代码数据库中,输出结构化词库,再根据知识图谱算法对结构化词库进行处理派生出关联性的二级数据文本内容。
实施例11
如图11所示,一种电子设备,包括存储器1101和处理器1102,所述存储器1101用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器1102执行以实现上述的一种适用于医学报告内容提取与结构化方法。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的电子设备的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
一种存储有计算机程序的计算机可读存储介质,所述计算机程序使计算机执行时实现如上述的一种适用于医学报告内容提取与结构化方法。
示例性的,计算机程序可以被分割成一个或多个模块/单元,一个或者多个模块/单元被存储在存储器1101中,并由处理器1102执行,以完成本发明。一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述计算机程序在计算机设备中的执行过程。
计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。计算机设备可包括,但不仅限于,存储器1101、处理器1102。本领域技术人员可以理解,本实施例仅仅是计算机设备的示例,并不构成对计算机设备的限定,可以包括更多或更少的部件,或者组合某些部件,或者不同的部件,例如计算机设备还可以包括输入输出设备、网络接入设备、总线等。
处理器1102可以是中央处理单元(CentralProcessingUnit,CPU),还可以是其他通用处理器1102、数字信号处理器1102(DigitalSignalProcessor,DSP)、专用集成电路(ApplicationSpecificIntegratedCircuit,ASIC)、现成可编程门阵列(Field-ProgRAM503mableGateArray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器1102可以是微处理器1102或者该处理器1102也可以是任何常规的处理器1102等。
存储器1101可以是计算机设备的内部存储单元,例如计算机设备的硬盘或内存。存储器1101也可以是计算机设备的外部存储设备,例如计算机设备上配备的插接式硬盘,智能存储卡(SmartMediaCard,SMC),安全数字(SecureDigital,SD)卡,闪存卡(FlashCard)等。进一步地,存储器1101还可以既包括计算机设备的内部存储单元也包括外部存储设备。存储器1101用于存储计算机程序以及计算机设备所需的其他程序和数据。存储器1101还可以用于暂时地存储已经输出或者将要输出的数据。
以上所述仅为本发明的具体实施例,但本发明的技术特征并不局限于此,任何本领域的技术人员在本发明的领域内,所作的变化或修饰皆涵盖在本发明的专利范围之中。
Claims (4)
1.一种适用于医学报告内容提取与结构化方法,其特征在于,包括:
获取数据预处理后的文本数据;
根据自然语言处理算法对所述文本数据进行处理得到结构文本数据;
根据键值查找算法和知识图谱算法对所述结构文本数据进行内容提取输出文本内容;
获取数据预处理后的文本数据,包括:
对原始文本数据进行字符串纠正获取纠正文本数据;
根据字符串匹配算法对所述纠正文本数据进行处理获取文本数据;
根据自然语言处理算法对所述文本数据进行处理得到结构文本数据,包括:
获取断句数据库和器官数据库;
根据断句数据库对所述结构文本数据进行处理输出断句文本数据;
根据自然语言处理算法对所述断句文本数据进行计算并与器官数据库进行比对输出结构化文本数据;
根据键值查找算法和知识图谱算法对所述结构文本数据进行内容提取输出文本内容,包括:
对所述结构化文本数据进行内容提取获取内容数据;
根据键值查找算法对所述内容数据进行处理输出结构化词库;
根据知识图谱算法对所述结构化词库进行处理输出文本内容。
2.一种适用于医学报告内容提取与结构化装置,其特征在于,包括:
预处理模块,获取数据预处理后的文本数据;
结构文本内容模块,根据自然语言处理算法对所述文本数据进行处理得到结构文本数据;
文本内容模块,根据键值查找算法和知识图谱算法对所述结构文本数据进行内容提取输出文本内容;
所述预处理模块,包括:
字符串纠正单元,对原始文本数据进行字符串纠正获取纠正文本数据;
字符串匹配单元,根据字符串匹配算法对所述纠正文本数据进行处理获取文本数据;
所述结构文本内容模块,包括:
获取单元,获取断句数据库和器官数据库;
断句文本数据单元,根据断句数据库对所述结构文本数据进行处理输出断句文本数据;
计算单元,根据自然语言处理算法对所述断句文本数据进行计算并与器官数据库进行比对输出结构化文本数据;
所述文本内容模块,包括:
内容文本单元,对所述结构化文本数据进行内容提取获取内容数据;
键值查找算法单元,根据键值查找算法对所述内容数据进行处理输出结构化词库;
知识图谱算法单元,根据知识图谱算法对所述结构化词库进行处理输出文本内容。
3.一种电子设备,其特征在于,包括存储器和处理器,所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器执行以实现如权利要求1所述的一种适用于医学报告内容提取与结构化方法。
4.一种存储有计算机程序的计算机可读存储介质,其特征在于,所述计算机程序使计算机执行时实现如权利要求1所述的一种适用于医学报告内容提取与结构化方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010695211.7A CN111863268B (zh) | 2020-07-19 | 2020-07-19 | 一种适用于医学报告内容提取与结构化方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010695211.7A CN111863268B (zh) | 2020-07-19 | 2020-07-19 | 一种适用于医学报告内容提取与结构化方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111863268A CN111863268A (zh) | 2020-10-30 |
CN111863268B true CN111863268B (zh) | 2024-01-30 |
Family
ID=73000689
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010695211.7A Active CN111863268B (zh) | 2020-07-19 | 2020-07-19 | 一种适用于医学报告内容提取与结构化方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111863268B (zh) |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105630916A (zh) * | 2015-12-21 | 2016-06-01 | 浙江工业大学 | 一种大数据环境下非结构化表格文档数据抽取与组织方法 |
CN106845139A (zh) * | 2017-02-28 | 2017-06-13 | 北京赛迈特锐医疗科技有限公司 | 将结构化报告生成自然语言报告的系统及其方法 |
WO2017152802A1 (zh) * | 2016-03-07 | 2017-09-14 | 陈宽 | 将文本类医疗报告转换为结构化数据的智能系统及方法 |
EP3306501A1 (en) * | 2016-10-06 | 2018-04-11 | Fujitsu Limited | A computer apparatus and method to identify healthcare resources used by a patient of a medical institution |
CN108305690A (zh) * | 2018-02-07 | 2018-07-20 | 王博冉 | 神经系统疾病分诊方法及神经系统疾病的分诊系统 |
CN109378053A (zh) * | 2018-11-30 | 2019-02-22 | 安徽影联云享医疗科技有限公司 | 一种用于医学影像的知识图谱构建方法 |
CN110110184A (zh) * | 2017-12-21 | 2019-08-09 | 北京京东尚科信息技术有限公司 | 信息查询方法、系统、计算机系统及存储介质 |
EP3567605A1 (en) * | 2018-05-08 | 2019-11-13 | Siemens Healthcare GmbH | Structured report data from a medical text report |
CN111126065A (zh) * | 2019-12-02 | 2020-05-08 | 南京医渡云医学技术有限公司 | 一种自然语言文本的信息提取方法及装置 |
CN111428048A (zh) * | 2020-03-20 | 2020-07-17 | 厦门渊亭信息科技有限公司 | 一种基于人工智能的跨领域知识图谱构建方法及装置 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030144886A1 (en) * | 2002-01-29 | 2003-07-31 | Taira Rick K. | Method and system for generating textual medical reports |
US20140006926A1 (en) * | 2012-06-29 | 2014-01-02 | Vijaykalyan Yeluri | Systems and methods for natural language processing to provide smart links in radiology reports |
-
2020
- 2020-07-19 CN CN202010695211.7A patent/CN111863268B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105630916A (zh) * | 2015-12-21 | 2016-06-01 | 浙江工业大学 | 一种大数据环境下非结构化表格文档数据抽取与组织方法 |
WO2017152802A1 (zh) * | 2016-03-07 | 2017-09-14 | 陈宽 | 将文本类医疗报告转换为结构化数据的智能系统及方法 |
EP3306501A1 (en) * | 2016-10-06 | 2018-04-11 | Fujitsu Limited | A computer apparatus and method to identify healthcare resources used by a patient of a medical institution |
CN106845139A (zh) * | 2017-02-28 | 2017-06-13 | 北京赛迈特锐医疗科技有限公司 | 将结构化报告生成自然语言报告的系统及其方法 |
CN110110184A (zh) * | 2017-12-21 | 2019-08-09 | 北京京东尚科信息技术有限公司 | 信息查询方法、系统、计算机系统及存储介质 |
CN108305690A (zh) * | 2018-02-07 | 2018-07-20 | 王博冉 | 神经系统疾病分诊方法及神经系统疾病的分诊系统 |
EP3567605A1 (en) * | 2018-05-08 | 2019-11-13 | Siemens Healthcare GmbH | Structured report data from a medical text report |
CN110459287A (zh) * | 2018-05-08 | 2019-11-15 | 西门子医疗有限公司 | 来自医学文本报告的结构化报告数据 |
CN109378053A (zh) * | 2018-11-30 | 2019-02-22 | 安徽影联云享医疗科技有限公司 | 一种用于医学影像的知识图谱构建方法 |
CN111126065A (zh) * | 2019-12-02 | 2020-05-08 | 南京医渡云医学技术有限公司 | 一种自然语言文本的信息提取方法及装置 |
CN111428048A (zh) * | 2020-03-20 | 2020-07-17 | 厦门渊亭信息科技有限公司 | 一种基于人工智能的跨领域知识图谱构建方法及装置 |
Non-Patent Citations (1)
Title |
---|
Knowledge Transfer with Medical Language Embeddings;Stephanie L. Hyland等;https://arxiv.org/pdf/1602.03551.pdf;1-6 * |
Also Published As
Publication number | Publication date |
---|---|
CN111863268A (zh) | 2020-10-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2021135910A1 (zh) | 基于机器阅读理解的信息抽取方法、及其相关设备 | |
US20210150142A1 (en) | Method and apparatus for determining feature words and server | |
JP2021114291A (ja) | 時系列ナレッジグラフ生成方法、装置、デバイス及び媒体 | |
CN110276071B (zh) | 一种文本匹配方法、装置、计算机设备及存储介质 | |
CN112015900B (zh) | 医学属性知识图谱构建方法、装置、设备及介质 | |
US11031009B2 (en) | Method for creating a knowledge base of components and their problems from short text utterances | |
CN110413787B (zh) | 文本聚类方法、装置、终端和存储介质 | |
US11113470B2 (en) | Preserving and processing ambiguity in natural language | |
KR101509727B1 (ko) | 자율학습 정렬 기반의 정렬 코퍼스 생성 장치 및 그 방법과, 정렬 코퍼스를 사용한 파괴 표현 형태소 분석 장치 및 그 형태소 분석 방법 | |
CN112016274B (zh) | 医学文本结构化方法、装置、计算机设备及存储介质 | |
CN108427702B (zh) | 目标文档获取方法及应用服务器 | |
CN111177375B (zh) | 一种电子文档分类方法及装置 | |
CN112115232A (zh) | 一种数据纠错方法、装置及服务器 | |
CN111859093A (zh) | 敏感词处理方法、装置及可读存储介质 | |
CN109522396B (zh) | 一种面向国防科技领域的知识处理方法及系统 | |
CN112559709A (zh) | 基于知识图谱的问答方法、装置、终端以及存储介质 | |
CN110929510A (zh) | 一种基于字典树的中文未登录词识别方法 | |
CN111190873B (zh) | 一种用于云原生系统日志训练的日志模式提取方法及系统 | |
CN114358001A (zh) | 诊断结果的标准化方法及其相关装置、设备和存储介质 | |
Patrick et al. | Automated proof reading of clinical notes | |
Yang et al. | Spell Checking for Chinese. | |
CN112818693A (zh) | 一种电子元器件型号词的自动提取方法及系统 | |
EP3425531A1 (en) | System, method, electronic device, and storage medium for identifying risk event based on social information | |
CN111863268B (zh) | 一种适用于医学报告内容提取与结构化方法 | |
CN114387602B (zh) | 医疗ocr数据优化模型训练方法、优化方法及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |