CN110335654A - 一种电子病历的信息抽取方法、系统及计算机设备 - Google Patents

一种电子病历的信息抽取方法、系统及计算机设备 Download PDF

Info

Publication number
CN110335654A
CN110335654A CN201910593801.6A CN201910593801A CN110335654A CN 110335654 A CN110335654 A CN 110335654A CN 201910593801 A CN201910593801 A CN 201910593801A CN 110335654 A CN110335654 A CN 110335654A
Authority
CN
China
Prior art keywords
character string
information
information extraction
field
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910593801.6A
Other languages
English (en)
Inventor
雷大江
张莉萍
李智星
李子杨
陈浩
张玉枫
吴渝
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Post and Telecommunications
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN201910593801.6A priority Critical patent/CN110335654A/zh
Publication of CN110335654A publication Critical patent/CN110335654A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3346Query execution using probabilistic model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/374Thesaurus
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Public Health (AREA)
  • Primary Health Care (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Epidemiology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明涉及PDF解析、信息提取、自然语言处理领域,尤其涉及一种电子病历的信息抽取方法、系统计算机设备,所述方法包括对电子病例进行解析,并按照从左到右、从上到下的顺序提取出电子病例中的字符串;进行字符串拼接,将提取到的字符串拼接为一个长字符串,并在拼接时去除无用字符;设计抽取信息的字段,并将长字符串进行结构化存储;根据信息抽取规则,从长字符串中抽取信息;本发明可对辅助生殖诊断电子病历进行精准、全面的信息抽取,信息抽取效果较好。

Description

一种电子病历的信息抽取方法、系统及计算机设备
技术领域
本发明涉及PDF解析、信息提取、自然语言处理领域,尤其涉及一种电子病历的信息抽取方法、系统及计算机设备。
背景技术
PDF解析:PDF解析即从PDF文档中提取文本,要具体地分析PDF文件及PDF文件的语法,根据解析原理和过程,得到最后的解析内容。
信息抽取:信息抽取是把文本里包含的信息进行结构化处理,变成表格一样的组织形式。输入信息抽取系统的是原始文本,输出的是固定格式的信息点;信息点从各种各样的文档中被抽取出来,然后以统一的形式集成在一起。信息抽取技术并不试图全面理解整篇文档,只是对文档中包含相关信息的部分进行分析。
自然语言处理:自然语言处理是计算机科学领域与人工智能领域中的一个重要方向;自然语言处理即实现人机间自然语言通信,这一领域的研究将涉及自然语言,即人们日常使用的语言。
辅助生殖技术是人类辅助生殖技术是指采用医疗辅助手段使不育夫妇妊娠的技术,在近些年辅助生殖技术飞速发展。各大医院在辅助生殖的过程中生成的辅助生殖诊断电子病历大多是以表格形式存储;此时的电子病例仅仅存储治疗过程的文字化信息,无法得到进一步使用,但这些电子病历中往往又蕴含大量的信息和知识。所以对辅助生殖诊断电子病历的信息抽取能够从文本中抽取特定信息,并且可以将抽取出来的信息进一步处理,进行统计、分析等,从而挖掘出大量的信息和知识,有助与患者查询信息了解自身情况,有助于医生诊断处理,也有助于辅助生殖技术的进一步发展。但对表格化的信息进行提取本身就有一定难度,且目前对于辅助生殖诊断电子病历的信息抽取的技术较少,且抽取效果一般,导致无法从中获取信息和知识,浪费了信息资源,所以针对辅助生殖诊断电子病历进行信息抽取已成为如今一个非常迫切的任务。
发明内容
为了对辅助生殖诊断电子病历进行精准、全面的信息抽取,本发明提出一种电子病历的信息抽取方法、系统及计算机设备。
一种电子病历的信息抽取方法,包括以下步骤:
S1、对电子病例进行解析,并按照从左到右、从上到下的顺序提取出电子病例中的字符串;
S2、对电子病历解析初步得到的字符串,并将提取得到的字符串表示为向量形式,根据相似度判断字符串之间的关系从而去除冗余信息,将字符串自动拼接为一个长字符串,并在拼接得到长字符串时去除其中的无用字符;
S3、设计抽取信息的字段,并将长字符串进行结构化存储;
S4、根据信息抽取规则,从长字符串中抽取信息。
进一步的,所述电子病例的格式为PDF,对电子病例进行解析的工具为基于python的pdf开源解析库pdfplumber。
进一步的,将提取得到的字符串表示为向量形式,根据相似度判断字符串之间的关系从而去除冗余信息包括:对提取的字符串进行分词,计算分词后得到的每个词的词频-逆文本频率指数(Term Frequency-Inverse DocumentFrequency,TF-IDF)值,将第i个词的TFIDF值乘上第i个词对应的词向量word2vec值作为该词的向量,并将该字符串中的所有词的向量相加作为该字符串的向量化表示;计算字符串向量间的余弦距离作为相似度,若两个字符串相似度为大于0.9则说明这两个字符串所表达内容近似,随机删除其中一个字符串。
进一步的,在拼接时去除无用字符包括‘:’,‘:’,‘\n’,‘’。
进一步的,将长字符串进行结构化存储包括:记录抽取的每个信息的字段的位置以及该字段的长度;抽取信息的字段至少包括“患者姓名”、“患者年龄”、“患者通讯地址”、“患者职业”、“患者病史”、“患者用药史”、“患者身体指标检查结果”。
进一步的,信息抽取规则为str[mi+ni:mi+1],,即提取第i个抽取的字段到第i+1个抽取的字段之间的信息;其中,str表示从pdf病历中解析得到、且经过拼接和去除无用字符后的长字符串,mi表示第i个抽取的字段位置,n表示第i个抽取的字段的长度。
本发明提出一种电子病历的信息抽取系统,所述系统包括数据采集模块、数据清洗模块、向量生成器、去重模块、字符串拼接模块以及信息提取模块;其中:所述数据采集模块用于按照从左到右、从上到下的顺序提取出电子病例中的字符串;
所述数据清洗模块用于去除数据采集模块采集的字符串中的非字符信息;
所述向量生成器用于将清洗后的字符串转换为向量形式;
所述去重模块用于删除向量形式字符串的冗余信息;
所述字符串拼接模块用于将所有向量形式的字符串拼接为一个长字符串;
所述信息提取模块用于从长字符串中提取出需要的信息。
一种电子病历的信息抽取的计算机设备,包括存储器、处理器以及储存在存储器上可以在处理器运行的计算机程序,所述计算机程序实现上述的任一方法。
本发明可对辅助生殖诊断电子病历进行精准、全面的信息抽取,信息抽取效果较好。
附图说明
图1是本发明实施例提供的一种电子病历的信息抽取框架图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本实施例提供了一种电子病历的信息抽取,其信息抽取的流程,如图1所示,其具体实施如下:
S1、对电子病例进行解析,并按照从左到右、从上到下的顺序提取出电子病例中的字符串;
S2、对电子病历解析初步得到的字符串,并将提取得到的字符串表示为向量形式,根据相似度判断字符串之间的关系从而去除冗余信息,将字符串自动拼接为一个长字符串,并在拼接得到长字符串时去除其中的无用字符;
S3、设计抽取信息的字段,并将长字符串进行结构化存储;
S4、根据信息抽取规则,从长字符串中抽取信息。
进一步的,所述电子病例的格式为PDF,对电子病例进行解析的工具为基于python的pdf开源解析库pdfplumber。
将所得字符串去除无用及冗余信息,去除无用字符进行清洗,之后进行字符串拼接;主要包括以下步骤:
在对辅助生殖诊断电子病历解析后,得到若干字符串,但这些字符串可能存在无效、冗余及重复信息,为了保证信息的完整性、准确性,并且为保证后续处理的正确性,需要对无效、冗余及重复信息进行删除。
对重复的信息进行删除的过程中,首先将提取得到的字符串表示为向量形式,根据相似度判断字符串之间的关系从而去除冗余信息包括:对提取的字符串进行分词,计算分词后得到的每个词的TFIDF值,将第i个词的TFIDF值乘上第i个词对应的word2vec值作为该词的向量,并将该字符串中的所有词的向量相加作为该字符串的向量化表示;之后通过计算字符串向量间的余弦距离进行相似度比较,根据相似度判断字符串之间的关系从而去除冗余及无用信息,若两个字符串相似度为1则说明这两个字符串所表达内容完全相同,可判定其中一个字符串为重复信息,若两个字符串相似度大于0.9则说明两个字符串所表达内容几乎一致,可判定其为冗余信息,对字符串中的该类信息进行删除,所以本发明优选的方案是选择将相似度为大于0.9的词删除,避免重复读。
在对辅助生殖诊断电子病历解析,对其中内容提取后会得到若干未进行处理的字符串,如会解析出患者姓名字符串、患者通讯地址字符串,患者病史小结字符串等,但此时提取出的字符串不够规范,难以识别和结构化存储。例如从电子病历中会得到的字符串为:“患者姓名”、“患者年龄”、“患者通讯地址”、“患者职业”、“患者病史”、“患者用药史”、“患者身体指标检查结果”等字符串;这些字符串都未经过处理,不够规范,字符中除了需要提取的信息还很可能含有无用字符,如‘:’,‘:’,‘\n’,‘’;所以此时需要去除无用字符,对字符串进行清洗。
在对字符串进行清洗后,则需要对从辅助生殖诊断电子病历中得到的所有字符串进行拼接;拼接后的长字符串即为一个文本,便于后续的信息抽取工作。如拼接后得到“姓名某某通讯地址重庆市身份证号123456…….”的长字符串。
设计好所要抽取信息的字段,便于标识所要抽取的信息,进行结构化存储,即根据抽取的提取的字符串,将抽取的字段信息的位置以及该字段信息的长度存储下来,为以后抽取信息时使用。
在得到清洗好的字符串和所要抽取信息的字段后,根据设计好的各字段,寻找其在字符串中的位置,例如将每个字段的位置分别记为{m1,m2,……};及根据每个字段的长度记为{n1,n2,......};设计好抽取规则,之后确定要抽取的信息str[mi+ni:mi+1],按位置分割抽取最终得到抽取后的结构化信息。如得到拼接后的长字符串“姓名某某通讯地址重庆市身份证号123456……”,从字符串中根据设计好的字段,如“患者姓名”字段,先找到患者姓名字段的位置m1,再找到通讯地址的位置m2,患者姓名的命名字段“某某”的长度为2,即n1为2,则要抽取的姓名信息为str[m1+2:m2]==‘某某’,即抽取的信息是m1+2到m2之间位置的信息,此时即可抽取出电子病历中所需要的信息。
本发明提出一种电子病历的信息抽取系统,所述系统包括数据采集模块、数据清洗模块、向量生成器、去重模块、字符串拼接模块以及信息提取模块;其中:
所述数据采集模块用于对电子病例进行解析按照从左到右、从上到下的顺序提取出电子病例中的字符串;数据采集模块采用基于python的pdf开源解析库pdfplumber对电子病例进行解析;
所述数据清洗模块用于去除数据采集模块采集的字符串中的非字符信息;
所述向量生成器用于将清洗后的字符串转换为向量形式;
所述去重模块用于删除向量形式字符串的冗余信息;去重模块可以是余弦距离计算器、阈值判断器以及删除器,利用余弦计算器计算两个字符串向量的相似性,并利用阈值判断器判断,若余弦距离大于阈值,则利用删除器删除其中一个字符串向量;
所述字符串拼接模块用于将所有向量形式的字符串拼接为一个长字符串;
所述信息提取模块用于从长字符串中提取出需要的信息。
进一步的,所述向量生成器包括分词单元、词频-逆文本频率指数计算单元、word2vec词向量生成器、乘法器以及加法器,其中:
所述分词单元用于对字符串进行分词;
所述词频-逆文本频率指数计算单元用于计算分词后每个词的词频-逆文本频率指数;
所述word2vec词向量生成器用于计算分词后每个词的word2vec词向量;
所述乘法器用于计算每个词的词频-逆文本频率指数与word2vec词向量的乘积;
所述加法器用于将每个词的词频-逆文本频率指数与word2vec词向量的乘积相加,作为字符串的向量表示。
进一步的,所述信息抽取模块包括字段位置记录模块、字段命名长度记录模块以及信息抽取器;其中:
所述字段位置记录模块用于记录每个字段在长字符串中的位置;
所述字段命名长度记录模块用于记录每个字段的命名长度;
所述信息抽取器用于根据调用的字段位置记录模块以及字段命名长度记录模块中的信息抽取信息。
一种电子病历的信息抽取的计算机设备,包括存储器、处理器以及储存在存储器上可以在处理器运行的计算机程序,所述计算机程序实现上述的任一方法。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (10)

1.一种电子病历的信息抽取方法,其特征在于,包括以下步骤:
S1、对电子病例进行解析,按照从左到右、从上到下的顺序提取出电子病例中的字符串,在解析过程中只保留其中的字符信息,去除其它无用或干扰信息,保证解析过程中无乱码出现;
S2、对电子病历解析初步得到的字符串,并将提取得到的字符串表示为向量形式,根据相似度判断字符串之间的关系从而去除冗余信息,将字符串自动拼接为一个长字符串,并在拼接得到长字符串时去除其中的无用字符;
S3、设计抽取信息的字段,并将长字符串进行结构化存储;
S4、根据信息抽取规则,从长字符串中抽取信息。
2.根据权利要求1所述的一种电子病历的信息抽取方法,其特征在于,所述电子病例的格式为PDF,对电子病例进行解析的工具为基于python的pdf开源解析库pdfplumber。
3.根据权利要求1所述的一种电子病历的信息抽取方法,其特征在于,将提取得到的字符串表示为向量形式,根据相似度判断字符串之间的关系从而去除冗余信息包括:对提取的字符串进行分词,计算分词后得到的每个词的词频-逆文本频率指数TF-IDF值,将第i个词的TF-IDF值乘上第i个词对应的词向量word2vec值作为该词的向量,并将该字符串中的所有词的向量相加作为该字符串的向量化表示;计算字符串向量间的余弦距离作为相似度,若两个字符串相似度为大于0.9则说明这两个字符串所表达内容近似,随机删除其中一个字符串。
4.根据权利要求1所述的一种电子病历的信息抽取方法,其特征在于,在拼接时去除无用字符包括‘:’,‘:’,‘\n’,‘’。
5.根据权利要求1所述的一种电子病历的信息抽取方法,其特征在于,将长字符串进行结构化存储包括:记录抽取的每个信息的字段的位置以及该字段的长度;抽取信息的字段至少包括“患者姓名”、“患者年龄”、“患者通讯地址”、“患者职业”、“患者病史”、“患者用药史”、“患者身体指标检查结果”。
6.根据权利要求1所述的一种电子病历的信息抽取方法,其特征在于,信息抽取规则为str[mi+ni:mi+1],即提取第i个抽取的字段到第i+1个抽取的字段之间的信息;其中,str表示从pdf病历中解析得到、且经过拼接和去除无用字符后的长字符串;mi表示第i个抽取的字段位置;n表示第i个抽取的字段的命名字段的长度,即抽取的信息的长度。
7.一种电子病历的信息抽取系统,其特征在于,所述系统包括数据采集模块、数据清洗模块、向量生成器、去重模块、字符串拼接模块以及信息提取模块;其中:
所述数据采集模块用于按照从左到右、从上到下的顺序提取出电子病例中的字符串;
所述数据清洗模块用于去除数据采集模块采集的字符串中的非字符信息;
所述向量生成器用于将清洗后的字符串转换为向量形式;
所述去重模块用于删除向量形式字符串的冗余信息;
所述字符串拼接模块用于将所有向量形式的字符串拼接为一个长字符串;
所述信息提取模块用于从长字符串中提取出需要的信息。
8.根据权利要求7所述的一种电子病历的信息抽取系统,其特征在于,所述向量生成器包括分词单元、词频-逆文本频率指数计算单元、word2vec词向量生成器、乘法器以及加法器,其中:
所述分词单元用于对字符串进行分词;
所述词频-逆文本频率指数计算单元用于计算分词后每个词的词频-逆文本频率指数;
所述word2vec词向量生成器用于计算分词后每个词的word2vec词向量;
所述乘法器用于计算每个词的词频-逆文本频率指数与word2vec词向量的乘积;
所述加法器用于将每个词的词频-逆文本频率指数与word2vec词向量的乘积相加,作为字符串的向量表示。
9.根据权利要求7所述的一种电子病历的信息抽取系统,其特征在于,所述信息抽取模块包括字段位置记录模块、字段命名长度记录模块以及信息抽取器;其中:
所述字段位置记录模块用于记录每个字段在长字符串中的位置;
所述字段命名长度记录模块用于记录每个字段的命名长度;
所述信息抽取器用于根据调用的字段位置记录模块以及字段命名长度记录模块中的信息抽取信息。
10.一种电子病历的信息抽取的计算机设备,其特征在于,包括存储器、处理器以及储存在存储器上可以在处理器运行的计算机程序,所述计算机程序实现权利要求1~6所述的任一方法。
CN201910593801.6A 2019-07-03 2019-07-03 一种电子病历的信息抽取方法、系统及计算机设备 Pending CN110335654A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910593801.6A CN110335654A (zh) 2019-07-03 2019-07-03 一种电子病历的信息抽取方法、系统及计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910593801.6A CN110335654A (zh) 2019-07-03 2019-07-03 一种电子病历的信息抽取方法、系统及计算机设备

Publications (1)

Publication Number Publication Date
CN110335654A true CN110335654A (zh) 2019-10-15

Family

ID=68144075

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910593801.6A Pending CN110335654A (zh) 2019-07-03 2019-07-03 一种电子病历的信息抽取方法、系统及计算机设备

Country Status (1)

Country Link
CN (1) CN110335654A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111078976A (zh) * 2019-11-08 2020-04-28 昆明理工大学 一种基于医疗系统爬虫提取数据的方法
CN115891739A (zh) * 2022-12-21 2023-04-04 国广顺能(上海)能源科技有限公司 一种电能控制系统
CN117195866A (zh) * 2023-11-03 2023-12-08 中电数据服务有限公司 一种电子病历数据解析方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103646049A (zh) * 2013-11-26 2014-03-19 中国银行股份有限公司 自动生成数据报表的方法及系统
CN104573054A (zh) * 2015-01-21 2015-04-29 杭州朗和科技有限公司 一种信息推送方法和设备
CN106611042A (zh) * 2016-09-29 2017-05-03 四川用联信息技术有限公司 一种新的文本特征词汇提取方法
CN108711443A (zh) * 2018-05-07 2018-10-26 成都智信电子技术有限公司 电子病历的文本数据解析方法和装置
CN109299214A (zh) * 2018-11-09 2019-02-01 医渡云(北京)技术有限公司 文本信息提取方法、装置、介质及电子设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103646049A (zh) * 2013-11-26 2014-03-19 中国银行股份有限公司 自动生成数据报表的方法及系统
CN104573054A (zh) * 2015-01-21 2015-04-29 杭州朗和科技有限公司 一种信息推送方法和设备
CN106611042A (zh) * 2016-09-29 2017-05-03 四川用联信息技术有限公司 一种新的文本特征词汇提取方法
CN108711443A (zh) * 2018-05-07 2018-10-26 成都智信电子技术有限公司 电子病历的文本数据解析方法和装置
CN109299214A (zh) * 2018-11-09 2019-02-01 医渡云(北京)技术有限公司 文本信息提取方法、装置、介质及电子设备

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111078976A (zh) * 2019-11-08 2020-04-28 昆明理工大学 一种基于医疗系统爬虫提取数据的方法
CN115891739A (zh) * 2022-12-21 2023-04-04 国广顺能(上海)能源科技有限公司 一种电能控制系统
CN115891739B (zh) * 2022-12-21 2024-07-05 国广顺能(上海)能源科技有限公司 一种电能控制系统
CN117195866A (zh) * 2023-11-03 2023-12-08 中电数据服务有限公司 一种电子病历数据解析方法及系统
CN117195866B (zh) * 2023-11-03 2024-04-09 中电数据服务有限公司 一种电子病历数据解析方法及系统

Similar Documents

Publication Publication Date Title
CN106570171B (zh) 一种基于语义的科技情报处理方法及系统
US9606990B2 (en) Cognitive system with ingestion of natural language documents with embedded code
CN109213870A (zh) 文档处理
CN112786194A (zh) 基于人工智能的医学影像导诊导检系统、方法及设备
Biemann et al. Scalable construction of high-quality web corpora
CN110347894A (zh) 基于爬虫的知识图谱处理方法、装置、计算机设备及存储介质
KR100918847B1 (ko) 온톨로지 인스턴스 자동 생성 장치 및 방법
KR102491172B1 (ko) 자연어 질의응답 시스템 및 그 학습 방법
CN110335654A (zh) 一种电子病历的信息抽取方法、系统及计算机设备
CN111899829A (zh) 一种基于icd9/10分词词库的全文检索匹配引擎
CN110334343B (zh) 一种合同中个人隐私信息抽取的方法和系统
Harrag et al. Extracting named entities from prophetic narration texts (Hadith)
CN109522396B (zh) 一种面向国防科技领域的知识处理方法及系统
CN114912435A (zh) 基于频繁项集算法的电力文本知识发现方法及设备
CN111538903A (zh) 搜索推荐词确定方法、装置、电子设备及计算机可读介质
KR101515413B1 (ko) 전문분야 검색 지원 방법 및 그 장치
CN118132715A (zh) 知识问答处理方法、装置、电子设备及存储介质
Sharma et al. The semantics of covid-19 web data: ontology learning and population
CN114064923A (zh) 数据处理方法、装置、电子设备和存储介质
CN113722472A (zh) 一种技术文献信息提取方法、系统及存储介质
Patrick et al. Developing SNOMED CT subsets from clinical notes for intensive care service
KR101509036B1 (ko) 의학 지식 추출 장치 및 방법
Gong et al. VB-PTC: Visual Block Multi-Record Text Extraction Based on Sensor Network Page Type Conversion
CN114238616A (zh) 一种专家信息检测方法和存储设备
McKenzie et al. Information extraction from helicopter maintenance records as a springboard for the future of maintenance text analysis

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20191015

RJ01 Rejection of invention patent application after publication