CN111079420B - 文本识别方法、装置、计算机可读介质及电子设备 - Google Patents

文本识别方法、装置、计算机可读介质及电子设备 Download PDF

Info

Publication number
CN111079420B
CN111079420B CN201911318954.6A CN201911318954A CN111079420B CN 111079420 B CN111079420 B CN 111079420B CN 201911318954 A CN201911318954 A CN 201911318954A CN 111079420 B CN111079420 B CN 111079420B
Authority
CN
China
Prior art keywords
text
text segment
medical record
segment
symptom
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911318954.6A
Other languages
English (en)
Other versions
CN111079420A (zh
Inventor
胥世承
王颖
艾杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin Happy Life Technology Co ltd
Tianjin Xinkaixin Life Technology Co ltd
Original Assignee
Tianjin Happy Life Technology Co ltd
Tianjin Xinkaixin Life Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin Happy Life Technology Co ltd, Tianjin Xinkaixin Life Technology Co ltd filed Critical Tianjin Happy Life Technology Co ltd
Priority to CN201911318954.6A priority Critical patent/CN111079420B/zh
Publication of CN111079420A publication Critical patent/CN111079420A/zh
Application granted granted Critical
Publication of CN111079420B publication Critical patent/CN111079420B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H70/00ICT specially adapted for the handling or processing of medical references
    • G16H70/40ICT specially adapted for the handling or processing of medical references relating to drugs, e.g. their side effects or intended usage
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Medicinal Chemistry (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Engineering & Computer Science (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Toxicology (AREA)
  • Epidemiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Primary Health Care (AREA)
  • Public Health (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开提供一种文本识别方法、文本识别装置、计算机可读介质及电子设备;涉及文本处理技术领域。该文本识别方法包括:对病历文本进行实体识别,以确定症状实体对应的症状文本片段;对所述症状文本片段进行识别,获取属于药物反应的候选文本片段;利用已知的第一药物反应对所述候选文本片段进行分类,获取属于待定的第二药物反应的目标文本片段;在所述病历文本中对所述目标文本片段进行标注,以完成所述病历文本的识别。本公开中的文本识别方法能够在一定程度上克服人工收集病历的成本较高的问题,进而提升文本识别的效率。

Description

文本识别方法、装置、计算机可读介质及电子设备
技术领域
本公开涉及文本处理技术领域,具体而言,涉及一种文本识别方法、文本识别装置、计算机可读介质及电子设备。
背景技术
药品带来的不良反应对于疾病治疗具有重大的影响。通过收集不良反应病例报告可以对药品不良反应进行分析、评价、并据此形成对于药品进行控制的建议,便于采用相应的措施保障用药安全有效。
病历中记录的药品的不良反应主要分为两类,一类是药品研发时检验出来的不良反应,一类是在投入市场后发现的新的不良反应。目前,对于包含药品不良反应的病例的识别需要依靠医生、研究人员进行人工识别,然后对病例进行记录申报。然而,人工对不良反应进行完整的记录需要花费许多时间和精力,而且对于药品安全性信息的上报并非强制要求,大多采取自发报告的方式,从而导致药品不良反应的相关病历的采集难度较大。
需要说明的是,在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
本公开的目的在于提供一种文本识别方法、文本识别装置、计算机可读介质及电子设备,能够在一定程度上克服病例采集困难的问题,进而提升文本识别的效率。
本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。
根据本公开的第一方面,提供一种文本识别方法,包括:
对病历文本进行实体识别,以确定症状实体对应的症状文本片段;对所述症状文本片段进行识别,获取属于药物反应的候选文本片段;利用已知的第一药物反应对所述候选文本片段进行分类,获取属于待定的第二药物反应的目标文本片段;在所述病历文本中对所述目标文本片段进行标注,以完成所述病历文本的识别。
在本公开的一种示例性实施例中,所述对所述症状文本片段进行识别,获取属于药物反应的候选文本片段,包括:
确定所述药物反应的语句模板;按照所述语句模板对所述症状文本片段进行匹配,以获取与所述语句模板相匹配的第一文本片段,作为所述候选文本片段。
在本公开的一种示例性实施例中,所述对所述症状文本片段进行识别,获取属于药物反应的候选文本片段,包括:
获取所述药物反应对应的排除词库;按照所述排除词库中包含的多个排除词对所述第一文本片段进行筛选,以获取第二文本片段,作为所述候选文本片段。
在本公开的一种示例性实施例中,所述利用已知的第一药物反应对所述候选文本片段进行分类,包括:
获取所述第一药物反应对应的文本内容;在所述候选文本片段中识别出包含所述文本内容的第三文本片段,以获得所述目标文本片段。
在本公开的一种示例性实施例中,在所述候选文本片段中识别出包含所述文本内容的第三文本片段之后,还包括:
在所述病历文本中,对所述第三文本片段进行标注,以供用户查看所述病历文本中的第一药物反应。
在本公开的一种示例性实施例中,所述在所述病历文本中对所述目标文本片段进行标注,包括:
在所述病历文本中,对所述第一药物反应对应的所述第三文本片段以及所述第二药物反应对应的所述目标文本片段进行区别标注。
在本公开的一种示例性实施例中,所述在所述病历文本中对所述目标文本片段进行标注,以完成所述病历文本的识别,包括:
将标注后的病历文本进行显示,以确定病历文本中的待上报病历;将所述待上报病历发送至药物反应管理端,以通过所述待上报病历对所述第二药物反应进行确定。
根据本公开的第二方面,提供一种文本识别装置,可以包括:实体识别模块、药物反应识别模块、文本分类模块以及文本标注模块,其中:
实体识别模块,用于对病历文本进行症状实体识别,以确定所述症状实体对应的症状文本片段。
药物反应识别模块,用于对所述症状文本片段进行识别,获取属于药物反应的候选文本片段。
文本分类模块,用于利用已知的第一药物反应对所述候选文本片段进行分类,获取属于待定的第二药物反应的目标文本片段。
文本标注模块,用于在所述病历文本中对所述目标文本片段进行标注,以对所述第二药物反应进行确定。
在本公开的一种示例性实施例中,药物反应识别模块可以具体包括模板获取单元以及模板匹配单元,其中:
模板获取单元,用于确定所述药物反应的语句模板。
模板匹配单元,用于按照所述语句模板对所述症状文本片段进行匹配,以获取与所述语句模板相匹配的第一文本片段,作为所述候选文本片段。
在本公开的一种示例性实施例中,药物反应识别模块可以具体包括词库获取单元以及词库筛选单元,其中:
词库获取单元,用于获取所述药物反应对应的排除词库。
词库筛选单元,用于按照所述排除词库中包含的多个排除词对所述第一文本片段进行筛选,以获取第二文本片段,作为所述候选文本片段。
在本公开的一种示例性实施例中,文本分类模块可以具体包括文本内容获取单元以及文本匹配单元,其中:
文本内容获取单元,用于获取所述第一药物反应对应的文本内容。
文本匹配单元,用于在所述候选文本片段中识别出包含所述文本内容的第三文本片段,以获得所述目标文本片段。
在本公开的一种示例性实施例中,该装置还包括第一药物反应标注模块,用于在所述病历文本中,对所述第三文本片段进行标注,以供用户查看所述病历文本中的第一药物反应。
在本公开的一种示例性实施例中,文本标注模块可以具体用于:在所述病历文本中,对所述第一药物反应对应的所述第三文本片段以及所述第二药物反应对应的所述目标文本片段进行区别标注。
在本公开的一种示例性实施例中,文本标注模块可以具体包括文本显示单元以及文本选择单元,其中:
文本显示单元,用于将标注后的病历文本进行显示,以确定病历文本中的待上报病历。
文本选择单元,用于将所述待上报病历发送至药物反应管理端,以通过所述待上报病历对所述第二药物反应进行确定。
根据本公开的第三方面,提供一种电子设备,包括:处理器;以及存储器,用于存储所述处理器的可执行指令;其中,所述处理器配置为经由执行所述可执行指令来执行上述任意一项所述的方法。
根据本公开的第四方面,提供一种计算机可读介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任意一项所述的方法。
本公开示例性实施例可以具有以下部分或全部有益效果:
在本公开的一示例实施方式所提供的文本识别方法中,通过对病历文本进行识别,确定出病历文本中的第一药物反应以及第二药物反应,无需人工对病历进行识别,能够节省人力物力,从而提高病历识别的效率;并且,在识别出第二药物反应对应的目标文本片段之后可以在病历文本中对其进行标注,从而可以通过标注对病例文本进行识别,在需要查看药物反应时能够直接定位到对应的病历文本中,可以提高病历文本的检索效率;此外,能够对药物反应进行识别,并对已知的第一药物反应以及待定的第二药物反应进行区分,有利于收集更加全面的药物反应,可以提高信息收集的效率以及信息的全面性。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示意性示出了根据本公开的一个实施例的文本识别方法的流程图;
图2示意性示出了根据本公开的另一个实施例的文本识别方法的流程图;
图3示意性示出了根据本公开的一个实施例的文本识别方法流程图;
图4示意性示出了根据本公开的另一个实施例的文本识别方法流程图;
图5示意性示出了根据本公开的一个实施例的文本识别方法流程图;
图6示意性示出了根据本公开的一个实施例的文本识别装置的框图;
图7示意性示出了根据本公开的一个实施例的用于实现文本识别方法的系统架构图;
图8示出了适于用来实现本公开实施例的电子设备的计算机系统的结构示意图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本公开将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中,提供许多具体细节从而给出对本公开的实施方式的充分理解。然而,本领域技术人员将意识到,可以实践本公开的技术方案而省略所述特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知技术方案以避免喧宾夺主而使得本公开的各方面变得模糊。
此外,附图仅为本公开的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
以下对本公开实施例的技术方案进行详细阐述:
本示例实施方式首先提供一种文本识别方法。参考图1所示,该文本识别方法可以包括以下步骤:
步骤S110:对病历文本进行实体识别,以确定症状实体对应的症状文本片段。
步骤S120:对所述症状文本片段进行识别,获取属于药物反应的候选文本片段。
步骤S130:利用已知的第一药物反应对所述候选文本片段进行分类,获取属于待定的第二药物反应的目标文本片段。
步骤S140:在所述病历文本中对所述目标文本片段进行标注,以完成所述病历文本的识别。
在本公开的一示例实施方式所提供的文本识别方法中,通过对病历文本进行识别,确定出病历文本中的第一药物反应以及第二药物反应,无需人工对病历进行识别,能够节省人力物力;并且,在识别出第二药物反应对应的目标文本片段之后可以在病历文本中对其进行标注,从而可以通过标注对病例文本进行识别,在需要查看药物反应时能够直接定位到对应的病历文本中,可以提高病历文本的识别效率;此外,能够对药物反应进行识别,并对已知的第一药物反应以及待定的第二药物反应进行区分,有利于收集更加全面的药物反应,可以提高信息收集的效率以及信息的全面性。
下面,对于本示例实施方式的上述步骤进行更加详细的说明。
在步骤S110中,对病历文本进行实体识别,以确定症状实体对应的症状文本片段。
其中,病历文本可以指医院电子病历系统中保存的病历信息,具体可以包括疾病治疗过程中产生的信息,例如疾病信息、手术信息以及服药信息等,也可以包括病人的属性信息,例如,姓名、年纪等,本实施方式对此不做特殊限定。本实施方式中可以采用多种方式对病历文本进行实体识别,举例而言,可以通过一命名实体对应的词库对病历文本进行分词处理,然后对各个分词项与词库中的词汇进行匹配,从而可以确定出病历文本中包含的命名实体;也可以通过深度学习算法进行识别,具体的,可以先获取大量的病历作为训练样本,然后将训练样本转换成向量,利用卷积神经网络通过不同大小的滤波器进行特征提取,最后利用最大池化进行采样,并且可以利用双向神经网络进行迭代,直到在验证集中连续三次验证效果无法提高或者降低,则模型训练结束,从而利用得到的模型进行实体识别;或者通过其他方式进行识别,例如,为了提高识别的准确率可以采用双向神经网络进行实体识别等,本实施方式对此不做特殊限定。
症状文本片段指的是病历文本中包含症状实体的文本片段,例如病历文本中的句子、段落等。并且,对于每一症状文本片段可以生成一标识信息进行标识,例如,将症状文本片段在病历文本中的位置作为症状文本片段的标识、随机生成一由数字组合成的标识码作为标识等。对病例文本进行实体识别之后,可以将病历文本中所有的症状实体识别出来,例如,病历文本中包含的“胸闷气喘、咳嗽、发热”可以被标记为症状实体,得到症状实体后可以选择症状实体的上下文作为症状文本片段,例如选择症状实体所在的句子作为症状文本片段、选择症状实体所在的位置的一定范围的字符作为症状文本片段等,例如,症状实体为“胸闷气喘”则对应的症状文本片段可以为“患者3年前外出旅游时突发胸闷气喘,端坐呼吸,不能平卧”。此外,病历文本的数量通常是非常多的,因此,一个病历文本中可以包含多个症状实体,进而可以得到多个症状实体分别对应的症状文本片段,不同的病历文本中包含的症状文本片段的数量可以不同,或者,也存在病历文本中不包含任何症状实体的情况。
在步骤S120中,对症状文本片段进行识别,获取属于药物反应的候选文本片段。
症状文本片段中的症状可能由于使用药物所致,也可能为正常的疾病症状,或者手术症状,也就是说,症状文本片段可以分为多种类型。如果是由于用药的原因而导致的症状则属于药物反应,例如,药物不良反应、药物副作用等,属于药物反应的症状文本片段则为候选文本片段。本实施方式中,利用分类模型可以对各个症状文本片段进行分类识别,确定症状文本片段是否属于药物反应,例如,通过卷积神经网络模型进行分类识别等。示例性的,如图2所示,可以通过以下步骤S201以及步骤S202获取属于药物反应的候选文本片段,具体的:
在步骤S201中,确定药物反应的语句模板。语句模板中可以包括预定的字符,例如“不良反应”、“与用药相关”等;也可以包括模板的属性信息,例如,模板的标签、类型等;还可以包括其他信息,例如,模板的匹配规则,例如模糊匹配、精确匹配等,本实施方式对此不做特殊限定。医生或者研究人员可以预先定义多个语句模板,一般情况下,医生记录病历时会记录与药物反应相关的症状,因此可以确定语句模板为“药物不良反应”、“药物治疗”,或者可以通过将药品名称以及治疗手段、治疗方案相对应的字符进行拼接而得到语句模板。药物的使用说明中也包括药物反应引起的症状,因此,可以获取药物的使用说明中包含的“不良反应”或者“常见症状”的内容作为语句模板。
在步骤S202中,按照语句模板对症状文本片段进行匹配,以获取与语句模板相匹配的第一文本片段,作为候选文本片段。具体的,针对各个症状文本片段,将每一语句模板可以分别与一症状文本片段进行匹配,如果该症状文本片段与任何一语句模板相匹配,则可以确定该症状文本片段为第一文本片段。同理的,将病历文本中所有的第一文本片段识别出来可以得到候选文本片段。
在示例性实施方式中,获取候选文本片段的方法还可以包括步骤S301以及步骤S302,如图3所示,其中:
在步骤S301中,获取药物反应对应的排除词库。排除词库中可以包括多个词汇,例如,“治疗前”、“治疗后”、“症状缓解”、“症状稳定”等,该词汇可以作为排除词对第一文本片段进行筛选。本实施方式中,根据实际情况可以预先收集多个词汇组成排除词库,并且在处理过程中逐步对该排除词库进行优化,例如,通过多个用户端收集词汇,将出现频率较高的词汇保存在排除词库中。
在步骤S302中,按照排除词库中包含的多个排除词对第一文本片段进行筛选,以获取第二文本片段作为候选文本片段。具体的,可以将每一第一文本片段分别与每个排除词进行匹配,第一文本片段中可以包括多个词,如果该第一文本片段中包含的词与一排除词相匹配,则可以将该第一文本片段进行删除,如果该第一文本片段不包含任何一排除词,则可以确定该第一文本片段为第二文本片段。同理地,对所有的第一文本片段分别进行匹配后,提取出不包含排除词的第二文本片段可以得到候选文本片段。
在本公开的其他实施方式中,可以直接利用排除词库对症状文本片段进行筛选,从而得到不包含排除词的候选文本片段;或者也可以通过其他方式获取候选文本片段,例如,通过机器学习模型对症状文本片段进行分类,可以分为属于手术症状的文本片段、属于正常症状的文本片段以及属于药物反应的文本片段,从而得到候选文本片段等,再例如通过规则模板定义药物反应的规则模式串,如果症状文本片段符合该规则模式串则可以将其确认为候选文本片段等等,这些均属于本公开的保护范围。
在步骤S130中,利用已知的第一药物反应对候选文本片段进行分类,获取属于待定的第二药物反应的目标文本片段。
本实施方式中,第一药物反应为药品在试验阶段已经确认的症状,该症状通常记录在药物的使用说明书中,而待定的第二药物反应可以指个别病例中发现的新的可能由药物引起的症状,由于每个人的病情不同,在药物实际的使用过程中,可能会产生更加丰富的药物反应。首先可以获取各个药物的使用说明书中已经记载的症状作为第一药物反应,然后按照第一反应对候选文本片段进行分类,确定各个候选文本片段的类型。如果候选文本片段中记载的症状与第一药物反应匹配则该候选文本片段的类型为第一药物反应,除此之外的候选文本片段的类型则为第二药物反应。
本实施方式中,通过将病历文本中包含的文本片段可以对病例文本进行分类,确定包含已知的药物反应的病历文本以及待定的药物反应的病历文本,能够提高病历文本的规范性,从而在研究人员需要对药物反应进行病例收集时,能够快速地确定出更加具有针对性的病历文本,有利于提高信息的召准率。
示例性的实施方式中,对候选文本片段进行分类的方法可以包括以下步骤S401以及步骤S402,如图4所示,其中:
在步骤S401中,获取第一药物反应对应的文本内容。示例性的,通过药物管理平台的数据库可以获取所有药品的属性信息,从而可以从该属性信息中提取出第一药物反应对应的文本内容,例如提取出属性信息中的不良反应对应的文本内容等。并且,得到的文本内容可以通过药品的标识码进行标识,以便于对不同药品的第一药物反应进行区分。
在步骤S402中,在候选文本片段中识别出包含第一药物反应对应的文本内容的第三文本片段,以获取目标文本片段。本实施方式中,第一药物反应可以对应多个文本内容,包含第一药物反应对应的任意一文本内容的候选片段为第三文本片段,通过对每一候选文本片段进行对比,确定候选文本片段是否包含第一药物反应,从而得到多个第三文本片段,而不包含第一药物反应对应的文本内容的则为目标文本片段,目标文本片段中可以包括待定的第二药物反应。也就是说,通过候选文本片段中是否包含第一药物反应对应的文本内容,将候选文本片段分为两类,一类为包含第一药物反应对应的文本内容的第三文本片段,一类为不包含该文本内容的目标文本片段。
此外,在本公开的其他实施方式中,还可以通过其他方式对候选文本片段进行分类,例如,按照病历文本中包含的药物的种类对目标文本片段进行分类,从而得到特定药物类型的目标文本片段等,这些均属于本公开的保护范围。
继续参考图1,在步骤S140中,在病历文本中对目标文本片段进行标注,以完成病历文本的识别。
本实施方式中,可以通过多种方式对目标文本片段进行标注,例如,通过符号进行标注、通过数字进行标注等,或者可以通过目标文本片段对应的症状实体进行标注,从而得到带有目标文本片段的标签的病历文本,并且在病历文本显示时可以将目标文本片段标注的标签也进行显示,以便于用户能够快速对目标文本片段进行查看。标注后的病历文本可以在研究人员或者医生需要查看第二药物反应的病例时,根据包含的标注可以快速确定出对应的病历文本,展示出来,从而有利于对药物安全性的研究还可以提高病历文本的利用率。
在示例性实施方式中,可以在病历文本中对第一药物反应对应的第三文本片段也进行标注,以供用户对第一药物反应进行查看。并且,对第三文本片段与目标文本片段可以进行区别标注,例如第三文本片段标注为“A”,目标文本片段标注为“B”,再例如第三文本片段标注为黄色,目标文本片段标注为红色等。或者,还可以在病历文本中对候选文本片段也进行标注,以便于用户对药物反应引起的全部症状进行查看。并且,候选文本片段的标注与目标文本片段也可以进行区别标注,例如,候选文本片段可以标注为绿色,目标文本片段可以标注为蓝色等。可选地,可以在病历文本中,对候选文本片段、目标文本片段以及第三文本片段分别进行不同的标注,例如,候选文本片段标注为“A”、目标文本片段标注为“B”、第三文本片段标注为“C等”。并且,在对标注后的病历文本进行显示时,可以对其中的目标文本片段、候选文本片段以及第三文本片段进行区别显示,例如,目标文本片段进行红色高亮显示、候选文本片段进行黄色高亮显示、第三文本片段进行绿色高亮显示等。
在示例性实施方式中,该方法还可以包括步骤S501以及步骤S502,如图5所示,其中:
在步骤S501中,将标注后的病历文本进行显示,以确定病历文本中的待上报病历。通过图形用户界面可以将标注后的病历文本进行显示,供用户查看,并且根据该图形用户界面上的用户操作可以确定出被用户选中的待上报病历。举例而言,可以将各个病历文本显示为一列表,通过用户点击操作确定出被点击的为待上报病历,或者在各个病历文本的显示界面中添加一控件,例如按钮等,以便于用户在查看病历文本内容的同时可以通过交互操作触发该控件,选中该病历文本,从而得到选中的待上报病历。
在步骤S502中,将待上报病历发送至药物反应管理端,以通过待上报病历确定第二药物反应。药物反应管理端指的是用于对药物反应进行记录、分析和确认的系统或人员,通过特定的接口可以与该药物反应管理端进行连接,从而将待上报病历发送至该药物反应管理端。在药物反应管理端可以对待上报病历进行保存,或者由医学研究人员对该待上报病历进行查看后将其中包含的第二药物反应进行记录等。
在本公开的其他实施方式中,可以通过其他方式上报病历,例如对多个病历文本中的第二药物反应进行统计,从而将出现概率最高的第二药物反应对应的病历文本确认为待上报病历;或者计算各病历文本中第二药物反应的症状严重程度,将程度较高的病历文本确定为待上报病历等;或者确定病历文本中第二药物反应对应的药物,将特定药物对应的病历文本确定为待上报病历等,这些同样属于本公开的保护范围。
进一步的,本示例实施方式中,还提供了一种文本识别装置,用于执行本公开上述的文本识别方法。该装置可以应用于一服务器或终端设备。
参考图6所示,该文本识别装置600可以包括:实体识别模块610、药物反应识别模块620、文本分类模块630以及文本标注模块640,其中:
实体识别模块610,用于对病历文本进行症状实体识别,以确定所述症状实体对应的症状文本片段;
药物反应识别模块620,用于对所述症状文本片段进行识别,获取属于药物反应的候选文本片段;
文本分类模块630,用于利用已知的第一药物反应对所述候选文本片段进行分类,获取属于待定的第二药物反应的目标文本片段;
文本标注模块640,用于在所述病历文本中对所述目标文本片段进行标注,以对所述第二药物反应进行确定。
在本公开的一种示例性实施例中,药物反应识别模块620可以具体包括模板获取单元以及模板匹配单元,其中:
模板获取单元,用于确定所述药物反应的语句模板。
模板匹配单元,用于按照所述语句模板对所述症状文本片段进行匹配,以获取与所述语句模板相匹配的第一文本片段,作为所述候选文本片段。
在本公开的一种示例性实施例中,药物反应识别模块620可以具体包括词库获取单元以及词库筛选单元,其中:
词库获取单元,用于获取所述药物反应对应的排除词库。
词库筛选单元,用于按照所述排除词库中包含的多个排除词对所述第一文本片段进行筛选,以获取第二文本片段,作为所述候选文本片段。
在本公开的一种示例性实施例中,文本分类模块630可以具体包括文本内容获取单元以及文本匹配单元,其中:
文本内容获取单元,用于获取所述第一药物反应对应的文本内容。
文本匹配单元,用于在所述候选文本片段中识别出包含所述文本内容的第三文本片段,以获得所述目标文本片段。
在本公开的一种示例性实施例中,该装置还包括第一药物反应标注模块,用于在所述病历文本中,对所述第三文本片段进行标注,以供用户查看所述病历文本中的第一药物反应。
在本公开的一种示例性实施例中,文本标注模块640可以具体用于:在所述病历文本中,对所述第一药物反应对应的所述第三文本片段以及所述第二药物反应对应的所述目标文本片段进行区别标注。
在本公开的一种示例性实施例中,文本标注模块640可以具体包括文本显示单元以及文本选择单元,其中:
文本显示单元,用于将标注后的病历文本进行显示,以确定病历文本中的待上报病历。
文本选择单元,用于将所述待上报病历发送至药物反应管理端,以通过所述待上报病历对所述第二药物反应进行确定。
由于本公开的示例实施例的文本识别装置的各个功能模块与上述文本识别方法的示例实施例的步骤对应,因此对于本公开装置实施例中未披露的细节,请参照本公开上述的文本识别方法的实施例。
参阅图7,图7示出了可以应用本公开实施例的一种文本识别方法及文本识别装置的示例性应用环境的系统架构的示意图。
如图7所示,系统架构700可以包括终端设备701、702、703中的一个或多个,网络704和服务器705。网络704用以在终端设备701、702、703和服务器705之间提供通信链路的介质。网络704可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
终端设备701、702、703可以是具有显示屏的各种电子设备,包括但不限于台式计算机、便携式计算机、智能手机和平板电脑等等。应该理解,图7中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。比如服务器705可以是多个服务器组成的服务器集群等。
本公开实施例所提供的文本识别方法一般由服务器705执行,相应地,文本识别装置一般设置于服务器705中。但本领域技术人员容易理解的是,本公开实施例所提供的文本识别方法也可以由终端设备701、702、703执行,相应的,文本识别装置也可以设置于终端设备701、702、703中,本示例性实施例中对此不做特殊限定。
图8示出了适于用来实现本公开实施例的电子设备的计算机系统的结构示意图。
需要说明的是,图8示出的电子设备的计算机系统800仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图8所示,计算机系统800包括中央处理单元(CPU)801,其可以根据存储在只读存储器(ROM)802中的程序或者从存储部分808加载到随机访问存储器(RAM)803中的程序而执行各种适当的动作和处理。在RAM 803中,还存储有系统操作所需的各种程序和数据。CPU801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。
以下部件连接至I/O接口805:包括键盘、鼠标等的输入部分806;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分807;包括硬盘等的存储部分808;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分809。通信部分809经由诸如因特网的网络执行通信处理。驱动器88也根据需要连接至I/O接口805。可拆卸介质811,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器810上,以便于从其上读出的计算机程序根据需要被安装入存储部分808。
特别地,根据本公开的实施例,下文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分809从网络上被下载和安装,和/或从可拆卸介质811被安装。在该计算机程序被中央处理单元(CPU)801执行时,执行本申请的方法和装置中限定的各种功能。
需要说明的是,本公开所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本公开实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现,所描述的单元也可以设置在处理器中。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定。
作为另一方面,本申请还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该电子设备执行时,使得该电子设备实现如下述实施例中所述的方法。例如,所述的电子设备可以实现如图1和图2所示的各个步骤等。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本公开的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims (9)

1.一种文本识别方法,其特征在于,包括:
对病历文本进行实体识别,以确定症状实体对应的症状文本片段;
对所述症状文本片段进行识别,获取属于药物反应的候选文本片段;
利用已知的第一药物反应对所述候选文本片段进行分类,获取属于待定的第二药物反应的目标文本片段;
在所述病历文本中对所述目标文本片段进行标注,以完成所述病历文本的识别;
所述利用已知的第一药物反应对所述候选文本片段进行分类,获取属于待定的第二药物反应的目标文本片段,包括:
获取所述第一药物反应对应的文本内容;
在所述候选文本片段中识别出包含所述文本内容的第三文本片段,以获得所述目标文本片段。
2.根据权利要求1所述的方法,其特征在于,所述对所述症状文本片段进行识别,获取属于药物反应的候选文本片段,包括:
确定所述药物反应的语句模板;
按照所述语句模板对所述症状文本片段进行匹配,以获取与所述语句模板相匹配的第一文本片段,作为所述候选文本片段。
3.根据权利要求2所述的方法,其特征在于,所述对所述症状文本片段进行识别,获取属于药物反应的候选文本片段,包括:
获取所述药物反应对应的排除词库;
按照所述排除词库中包含的多个排除词对所述第一文本片段进行筛选,以获取第二文本片段,作为所述候选文本片段;
所述按照所述排除词库中包含的多个排除词对所述第一文本片段进行筛选,以获取第二文本片段,包括:
将每一第一文本片段分别与每个排除词进行匹配,第一文本片段中包括多个词;
如果该第一文本片段中包含的词与一排除词相匹配,则将该第一文本片段进行删除;
如果该第一文本片段不包含任何一排除词,则确定该第一文本片段为第二文本片段。
4.根据权利要求1所述的方法,其特征在于,在所述候选文本片段中识别出包含所述文本内容的第三文本片段之后,还包括:
在所述病历文本中,对所述第三文本片段进行标注,以供用户查看所述病历文本中的第一药物反应。
5.根据权利要求1所述的方法,其特征在于,所述在所述病历文本中对所述目标文本片段进行标注,包括:
在所述病历文本中,对所述第一药物反应对应的所述第三文本片段以及所述第二药物反应对应的所述目标文本片段进行区别标注。
6.根据权利要求1所述的方法,其特征在于,所述在所述病历文本中对所述目标文本片段进行标注,以完成所述病历文本的识别,包括:
将标注后的病历文本进行显示,以确定病历文本中的待上报病历;
将所述待上报病历发送至药物反应管理端,以通过所述待上报病历对所述第二药物反应进行确定。
7.一种文本识别装置,其特征在于,包括:
实体识别模块,用于对病历文本进行症状实体识别,以确定所述症状实体对应的症状文本片段;
药物反应识别模块,用于对所述症状文本片段进行识别,获取属于药物反应的候选文本片段;
文本分类模块,用于利用已知的第一药物反应对所述候选文本片段进行分类,获取属于待定的第二药物反应的目标文本片段;
文本标注模块,用于在所述病历文本中对所述目标文本片段进行标注,以对所述第二药物反应进行确定;
所述文本分类模块,还用于获取所述第一药物反应对应的文本内容;在所述候选文本片段中识别出包含所述文本内容的第三文本片段,以获得所述目标文本片段。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-6任一项所述的方法。
9.一种电子设备,其特征在于,包括:
处理器;以及
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行权利要求1-6任一项所述的方法。
CN201911318954.6A 2019-12-19 2019-12-19 文本识别方法、装置、计算机可读介质及电子设备 Active CN111079420B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911318954.6A CN111079420B (zh) 2019-12-19 2019-12-19 文本识别方法、装置、计算机可读介质及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911318954.6A CN111079420B (zh) 2019-12-19 2019-12-19 文本识别方法、装置、计算机可读介质及电子设备

Publications (2)

Publication Number Publication Date
CN111079420A CN111079420A (zh) 2020-04-28
CN111079420B true CN111079420B (zh) 2023-04-07

Family

ID=70315802

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911318954.6A Active CN111079420B (zh) 2019-12-19 2019-12-19 文本识别方法、装置、计算机可读介质及电子设备

Country Status (1)

Country Link
CN (1) CN111079420B (zh)

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004295485A (ja) * 2003-03-27 2004-10-21 Sanyo Electric Co Ltd 診療支援装置、診療支援方法、診療支援プログラム及び電子カルテ
CA2791144A1 (en) * 2006-07-05 2008-04-17 Catalyst Biosciences, Inc. Protease screening methods and proteases identified thereby
CN104765947A (zh) * 2015-03-02 2015-07-08 大连理工大学 一种面向大数据的潜在药物不良反应数据挖掘方法
CN106682397A (zh) * 2016-12-09 2017-05-17 江西中科九峰智慧医疗科技有限公司 一种基于知识的电子病历质控方法
CN106897559A (zh) * 2017-02-24 2017-06-27 黑龙江特士信息技术有限公司 一种面向多数据源的症状体征类实体识别方法及装置
CN106909783A (zh) * 2017-02-24 2017-06-30 北京交通大学 一种基于时间线的病历文本医学知识发现方法
CN107341338A (zh) * 2017-06-02 2017-11-10 广州市品毅信息科技有限公司 药品不良反应率处理方法、装置、计算机设备和存储介质
CN107392143A (zh) * 2017-07-20 2017-11-24 中国科学院软件研究所 一种基于svm文本分类的简历精确解析方法
CN108628824A (zh) * 2018-04-08 2018-10-09 上海熙业信息科技有限公司 一种基于中文电子病历的实体识别方法
CN109065162A (zh) * 2018-07-16 2018-12-21 劲膳美食品股份有限公司 一种综合性智能化诊断系统
CN109285590A (zh) * 2018-08-07 2019-01-29 广州火龙果信息科技有限公司 一种住院患者药品不良事件主动监测与评估警示系统
CN109524121A (zh) * 2018-11-09 2019-03-26 贵州医渡云技术有限公司 医疗文件处理方法与装置
CN110277149A (zh) * 2019-06-28 2019-09-24 北京百度网讯科技有限公司 电子病历的处理方法、装置及设备

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004295485A (ja) * 2003-03-27 2004-10-21 Sanyo Electric Co Ltd 診療支援装置、診療支援方法、診療支援プログラム及び電子カルテ
CA2791144A1 (en) * 2006-07-05 2008-04-17 Catalyst Biosciences, Inc. Protease screening methods and proteases identified thereby
CN104765947A (zh) * 2015-03-02 2015-07-08 大连理工大学 一种面向大数据的潜在药物不良反应数据挖掘方法
CN106682397A (zh) * 2016-12-09 2017-05-17 江西中科九峰智慧医疗科技有限公司 一种基于知识的电子病历质控方法
CN106897559A (zh) * 2017-02-24 2017-06-27 黑龙江特士信息技术有限公司 一种面向多数据源的症状体征类实体识别方法及装置
CN106909783A (zh) * 2017-02-24 2017-06-30 北京交通大学 一种基于时间线的病历文本医学知识发现方法
CN107341338A (zh) * 2017-06-02 2017-11-10 广州市品毅信息科技有限公司 药品不良反应率处理方法、装置、计算机设备和存储介质
CN107392143A (zh) * 2017-07-20 2017-11-24 中国科学院软件研究所 一种基于svm文本分类的简历精确解析方法
CN108628824A (zh) * 2018-04-08 2018-10-09 上海熙业信息科技有限公司 一种基于中文电子病历的实体识别方法
CN109065162A (zh) * 2018-07-16 2018-12-21 劲膳美食品股份有限公司 一种综合性智能化诊断系统
CN109285590A (zh) * 2018-08-07 2019-01-29 广州火龙果信息科技有限公司 一种住院患者药品不良事件主动监测与评估警示系统
CN109524121A (zh) * 2018-11-09 2019-03-26 贵州医渡云技术有限公司 医疗文件处理方法与装置
CN110277149A (zh) * 2019-06-28 2019-09-24 北京百度网讯科技有限公司 电子病历的处理方法、装置及设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
中药注射剂临床合理使用干预分析;杨禄辉等;《中国药事》;20170120(第01期);全文 *

Also Published As

Publication number Publication date
CN111079420A (zh) 2020-04-28

Similar Documents

Publication Publication Date Title
US10818397B2 (en) Clinical content analytics engine
US20200381087A1 (en) Systems and methods of clinical trial evaluation
CN107610770B (zh) 用于自动化诊断的问题生成系统和方法
CN107799160B (zh) 用药辅助决策方法及装置、存储介质、电子设备
EP3827442A1 (en) Deep learning-based diagnosis and referral of diseases and disorders using natural language processing
CN110910976A (zh) 病历检测方法、装置、设备和存储介质
CN106980767A (zh) 一种基于结构化医学数据库的数据搜索方法及系统
CN114817386A (zh) 一种结构化医疗数据生成方法及装置
CN110991530A (zh) 缺失数据处理方法及装置、电子设备和存储介质
CN112397159B (zh) 临床试验报告自动录入方法及装置、电子设备、存储介质
CN109657056B (zh) 目标样本获取方法、装置、存储介质及电子设备
CN115050442B (zh) 基于挖掘聚类算法的病种数据上报方法、装置及存储介质
CN115579104A (zh) 一种基于人工智能的肝癌全病程数字化管理方法及系统
CN111383726B (zh) 电子病历数据处理方法、装置、电子设备及可读介质
CN113707304A (zh) 分诊数据处理方法、装置、设备及存储介质
CN109036506A (zh) 互联网医疗问诊的监管方法、电子装置及可读存储介质
CN111079420B (zh) 文本识别方法、装置、计算机可读介质及电子设备
Nair et al. Automated clinical concept-value pair extraction from discharge summary of pituitary adenoma patients
CN116913549A (zh) 不良反应事件预警方法、装置、系统和电子设备
Shing et al. Assigning medical codes at the encounter level by paying attention to documents
CN113990514A (zh) 医师诊疗行为的异常检测装置、计算机设备及存储介质
CN114649071A (zh) 一种基于真实世界数据的消化性溃疡治疗方案的预测系统
Baghal et al. Agile natural language processing model for pathology knowledge extraction and integration with clinical enterprise data warehouse
CN110889836A (zh) 一种影像数据分析方法、装置、终端设备及存储介质
US20230395209A1 (en) Development and use of feature maps from clinical data using inference and machine learning approaches

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant