CN107808124A - 电子装置、医疗文本实体命名的识别方法及存储介质 - Google Patents
电子装置、医疗文本实体命名的识别方法及存储介质 Download PDFInfo
- Publication number
- CN107808124A CN107808124A CN201710929637.2A CN201710929637A CN107808124A CN 107808124 A CN107808124 A CN 107808124A CN 201710929637 A CN201710929637 A CN 201710929637A CN 107808124 A CN107808124 A CN 107808124A
- Authority
- CN
- China
- Prior art keywords
- medical
- training
- individual character
- medical text
- identified
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/22—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
- G06V10/225—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition based on a marking or identifier characterising the area
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/414—Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Computer Graphics (AREA)
- Geometry (AREA)
- Artificial Intelligence (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本发明公开了一种电子装置、医疗文本实体命名识别方法及存储介质。首先,利用预先训练的第一CRF模型对待识别医疗文本进行识别,识别出待识别医疗文本中的医学术语,其次,利用预先训练的第二CRF模型对第一CRF模型识别出的医学术语进行识别,识别出各个医学术语对应的标记序列,最后,根据预先确定的实体名称与标记序列的映射关系,确定各个标记序列包含的实体名称。这样,能够解决已有的实体识别方案并不能准确进行医疗文本中相关实体识别的问题。能够解决已有的实体识别方案并不能准确进行医疗文本中相关实体的识别的问题。
Description
技术领域
本发明涉及医疗实体识别技术领域,尤其涉及一种电子装置、医疗文本实体命名的识别方法及存储介质。
背景技术
在近年来,随着网络和医疗信息技术的发展,互联网医疗逐渐兴起,医疗行业大数据也逐渐产生。人们开始探讨和学习如何利用大数据提高医药行业的经营管理及服务,例如,通过疗效对比得到最佳治疗路径,以提高临床医疗服务质量,分析临床试验数据和病人记录,确定药品更多的适应症和发现副作用等,以提高医学科研水平。而医药大数据的利用分析和挖掘的前提和基础之一是医疗文本中命名实体的识别,医疗文本中相关实体的识别是医疗大数据应用的基础工作。
目前,常见的实体识别技术有基于词表的医学实体识别和基于条件随机场的医学实体识别,然而基于词表的医学实体识别仅仅依靠术语库匹配,缺少上下文语境识别,且术语匹配存在较大局限性,比如对于药品来说,药品的厂家数量繁多,术语库可能难以一一涵盖。而已有的基于条件随机场的医学实体识别技术,缺少大数据语料库和语言规则的应用,使得模型不够完善,缺少基于语言学与医疗信息的规则,仅仅依靠模型,对数据的针对性不够强。因此,已有的实体识别方案并不能准确进行医疗文本中相关实体的识别。
发明内容
有鉴于此,本发明提出一种电子装置、医疗文本实体命名的识别方法及存储介质,能够解决已有的实体识别方案并不能准确进行医疗文本中相关实体识别的问题。
首先,为实现上述目的,本发明提出一种电子装置,所述电子装置包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的医疗文本实体命名的识别系统,所述医疗文本实体命名的识别系统被所述处理器执行时实现如下步骤:
A、利用预先确定的切字规则对待识别医疗文本进行单字切分,确定所述待识别医疗文本的单字序列;
B、利用预先训练的第一CRF模型对所述单字序列进行识别,识别出所述单字序列中的医学术语;
C、利用预先训练的第二CRF模型对所述第一CRF模型识别出的各个医学术语进行识别,识别出各个所述医学术语对应的标记序列;
D、根据预先确定的实体名称与标记序列的映射关系,确定各个所述标记序列包含的实体名称。
进一步地,所述预先确定的切字规则包括:
将所述待识别医疗文本中的中文字符进行全角转半角,将所述待识别医疗文本的文档编码转换为UTF-8,对所述待识别医疗文本分别进行汉字、数字、通用单位、及标点符号的标注,根据标注结果将相邻数字的组合视为一个单字,将通用单位视为一个单字,将单个标点符号视为一个单字,以及将单个汉字视为一个单字,其中,所述通用单位包括中文单位、英文单位、化学单位、以及医用单位。
进一步地,所述预先训练的第一CRF模型的训练过程包括如下步骤:
从预先确定的数据库中获取第一预设数量的医疗文本,并利用所述预先确定的切字规则分别对所述第一预设数量的医疗文本进行单字切分,获得各个医疗文本的单字序列;
基于预先确定的医学术语表,对各个所述医疗文本的单字序列进行人工标记,以标记出各个所述医疗文本的单字序列中的医学术语,并将非医学术语删除,以获得由各个所述医疗文本的单字序列中的医学术语构成的第一训练样本集;
根据第一训练样本集训练所述第一CRF模型,以得到预先训练的第一CRF模型。
进一步地,所述预先训练的第二CRF模型的训练过程包括如下步骤:
利用预先设置的语料库及实体标记规则确定所述第一训练样本集中的各个所述医学术语对应的标记序列,以获得由各个所述医学术语对应的标记序列构成的第二训练样本集;
根据所述第二训练样本集训练所述第二CRF模型,以得到预先训练的第二CRF模型。
进一步地,所述预先设置的语料库中记录有医学术语中各语句的上下文特征、各语句的医疗特征、各语句中的实体、以及各语句中的实体在各语句中的位置以及实体类别。
此外,为实现上述目的,本发明还提供一种医疗文本实体命名的识别方法,所述方法包括如下步骤:
S1、利用预先确定的切字规则对待识别医疗文本进行单字切分,确定所述待识别医疗文本的单字序列;
S2、利用预先训练的第一CRF模型对所述单字序列进行识别,识别出所述单字序列中的医学术语;
S3、利用预先训练的第二CRF模型对所述第一CRF模型识别出的各个医学术语进行识别,识别出各个所述医学术语对应的标记序列;
S4、根据预先确定的实体名称与标记序列的映射关系,确定各个所述标记序列包含的实体名称。
进一步地,所述预先确定的切字规则包括:
将所述待识别医疗文本中的中文字符进行全角转半角,将所述待识别医疗文本的文档编码转换为UTF-8,对所述待识别医疗文本分别进行汉字、数字、通用单位、及标点符号的标注,根据标注结果将相邻数字的组合视为一个单字,将通用单位视为一个单字,将单个标点符号视为一个单字,以及将单个汉字视为一个单字,其中,所述通用单位包括中文单位、英文单位、化学单位、以及医用单位。
进一步地,所述预先训练的第一CRF模型的训练过程包括如下步骤:
从预先确定的数据库中获取第一预设数量的医疗文本,并利用所述预先确定的切字规则分别对所述第一预设数量的医疗文本进行单字切分,获得各个医疗文本的单字序列;
基于预先确定的医学术语表,对各个所述医疗文本的单字序列进行人工标记,以标记出各个所述医疗文本的单字序列中的医学术语,并将非医学术语删除,以获得由各个所述医疗文本的单字序列中的医学术语构成的第一训练样本集;
根据第一训练样本集训练所述第一CRF模型,以得到预先训练的第一CRF模型。
进一步地,所述预先训练的第二CRF模型的训练过程包括如下步骤:
利用预先设置的语料库及实体标记规则确定所述第一训练样本集中的各个所述医学术语对应的标记序列,以获得由各个所述医学术语对应的标记序列构成的第二训练样本集;
根据所述第二训练样本集训练所述第二CRF模型,以得到预先训练的第二CRF模型。
进一步地,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质存储有医疗文本实体命名的识别系统,所述医疗文本实体命名的识别系统可被至少一个处理器执行,以使所述至少一个处理器执行如上述的医疗文本实体命名识别方法的步骤。
相较于现有技术,本发明所提出的电子装置、医疗文本实体命名的识别方法及计算机可读存储介质,首先,利用预先训练的第一CRF模型对待识别医疗文本进行识别,识别出待识别医疗文本中的医学术语,其次,利用预先训练的第二CRF模型对第一CRF模型识别出的医学术语进行识别,识别出各个医学术语对应的标记序列,最后,根据预先确定的实体名称与标记序列的映射关系,确定各个标记序列包含的实体名称。这样,能够解决已有的实体识别方案并不能准确进行医疗文本中相关实体识别的问题。
附图说明
图1是本发明的电子装置一可选的硬件架构的示意图;
图2是本发明医疗文本实体命名识别系统一实施例的程序模块图;
图3是本发明医疗文本实体命名识别系统另一实施例的程序模块图;
图4是本发明的医疗文本实体命名识别方法一实施例的实施流程图;
图5是本发明的医疗文本实体命名识别方法另一实施例的实施流程图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,在本发明中涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
参阅图1所示,是本发明的电子装置一可选的硬件架构示意图。
由图1可知,本实施例中,电子装置10可包括,但不仅限于,可通过系统总线相互通信连接存储器11、处理器12、及网络接口13。需要指出的是,图1仅示出了具有组件11-13的电子装置10,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。
其中,存储器11至少包括一种类型的可读存储介质,可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,存储器11可以是电子装置10的内部存储单元,例如电子装置10的硬盘或内存。在另一些实施例中,存储器11也可以是电子装置10的外部存储设备,例如电子装置10上配备的插接式硬盘,智能存储卡(Smart MediaCard,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。当然,存储器11还可以既包括电子装置10的内部存储单元也包括其外部存储设备。本实施例中,存储器11通常用于存储安装于电子装置10的操作系统和各类应用软件,例如医疗文本实体命名识别系统200的程序代码等。此外,存储器11还可以用于暂时地存储已经输出或者将要输出的各类数据。
处理器12在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。处理器12通常用于控制电子装置10的总体操作。本实施例中,处理器12用于运行存储器11中存储的程序代码或者处理数据,例如运行的医疗文本实体命名的识别系统200等。
网络接口13可包括无线网络接口或有线网络接口,网络接口13通常用于在电子装置10与其他电子设备之间建立通信连接。
至此,己经详细介绍了本发明各个实施例的应用环境和相关设备的硬件结构和功能。下面,将基于上述应用环境和相关设备,提出本发明的各个实施例。
首先,本发明提出一种医疗文本实体命名的识别系统200。
参阅图2所示,是本发明医疗文本实体命名的识别系统200一实施例的程序模块图。本实施例中,医疗文本实体命名的识别系统200可以被分割成一个或多个模块,一个或者多个模块被存储于存储器11中,并由一个或多个处理器(本实施例中为处理器12)所执行,以完成本发明。例如,在图2中,医疗文本实体命名的识别系统200可以被分割成切分模块201、医学术语确定模块202、实体标记模块203、以及获取模块204。本发明所称的程序模块是指能够完成特定功能的一系列计算机程序指令段,比程序更适合于描述医疗文本实体命名的识别系统200在电子装置10中的执行过程。以下将就各程序模块201-204的功能进行详细描述。
切分模块201,用于利用预先确定的切字规则对待识别医疗文本进行单字切分,确定待识别医疗文本的单字序列。
其中,预先确定的切字规则包括:将待识别医疗文本中的中文字符进行全角转半角,将待识别医疗文本的文档编码转换为UTF-8,对待识别医疗文本分别进行汉字、数字、通用单位、及标点符号的标注,根据标注结果将相邻数字的组合视为一个单字,将通用单位视为一个单字,将单个标点符号视为一个单字,以及将单个汉字视为一个单字,其中,通用单位包括中文单位、英文单位、化学单位、以及医用单位。
医疗文本包括门诊处方单、体检单、病例本、住院医嘱数据、医药企业药品数据、医药企业销售数据、医疗知识库及文献库数据、药品说明书数据等。
在一实施例中,以门诊处方单为待识别的医疗文本,且该门诊处方单包括注射用盐酸伊立替康(艾力)、口服药阿莫西林胶囊,则利用预先确定的切字规则进行单字切分后,获得如下的单字序列:“注”“射”“用”“盐”“酸”“伊”“立”“(”“艾”“力”“)”“、”“口”“服”“药”“阿”“莫”“西”“林”“胶”“囊”。
第一识别模块202,用于利用预先训练的第一CRF模型对单字序列进行识别,识别出单字序列中的医学术语。
其中,预先训练的第一CRF模型的训练过程包括如下步骤:
从预先确定的数据库中获取第一预设数量的医疗文本,并利用预先确定的切字规则分别对第一预设数量的医疗文本进行单字切分,获得各个医疗文本的单字序列;
基于预先确定的医学术语表,对各个医疗文本的单字序列进行人工标记,以标记出各个医疗文本的单字序列中的医学术语,并将非医学术语删除,以获得由各个医疗文本的单字序列中的医学术语构成的第一训练样本集;
根据第一训练样本集训练第一CRF模型,以得到预先训练的第一CRF模型。
其中,预先确定的数据库包括医院的病例档案数据库、门诊问答数据库、处方单数据库、或体检报告单数据库;医疗文本包括处方单、病例本、或体检单。
第二识别模块203,用于利用预先训练的第二CRF模型对第一CRF模型识别出的各个医学术语进行识别,识别出各个医学术语对应的标记序列。
其中,预先训练的第二CRF模型的训练过程包括如下步骤:
利用预先设置的语料库及预设的实体标记规则确定第一训练样本集中的各个医学术语对应的标记序列,以获得由各个医学术语对应的标记序列构成的第二训练样本集;
根据第二训练样本集训练第二CRF模型,以得到预先训练的第二CRF模型。
其中,预先设置的语料库中记录有医学术语中各语句的上下文特征、各语句的医疗特征、各语句中的实体、以及各语句中的实体在各语句中的位置以及实体类别。
例如,在一实施例中,第一CRF模型识别出的单字序列中的医疗术语包括阿莫西林胶囊,根据预先设置的语料库可知,阿莫西林胶囊中包含实体阿莫西林和实体胶囊,阿莫西林对应的实体类别为药品名称实体、胶囊对应的实体类别为药品形状实体,且胶囊对应在阿莫西林的后面位置。
预先确定的实体标记规则包括,将单字序列中不属于药品名称实体A的单字贴上的标记为WA,将属于药品名称实体A的第一个字,贴上的标记为R-A,将属于药品名称实体A,但不是药品名称实体A的第一个字,贴上的标记为A-I,同理将不属于药品形状实体B的单字贴上的标记为WB,将属于药品形状实体B的第一个字,贴上的标记为R-B,将属于药品名称实体B,但不是药品名称实体B的第一个字,贴上的标记为B-I。
则获得的标记序列为R-A,A-I,A-I,A-I,R-B,B-I。
确定模块204,用于根据预先确定的实体名称与标记序列的映射关系,确定各个所述标记序列包含的实体名称。
可以理解地,实体的类别包括根据预先确定的药品规格数据库、或包装规格数据库、或药品名称数据库、或体检规格数据库、或病例数据库等获取的药品规格实体、包装实体、药品名称实体、身体部位实体、健康状况实体等,预先设置的实体标记规则根据不同的实体类别可以人工进行相应的设置。
根据上述实施例可知,本发明的医疗文本实体命名识别系统,首先,利用预先训练的第一CRF模型对待识别医疗文本进行识别,识别出待识别医疗文本中的医学术语,其次,利用预先训练的第二CRF模型对第一CRF模型识别出的医学术语进行识别,识别出各个医学术语对应的标记序列,最后,根据预先确定的实体名称与标记序列的映射关系,确定各个标记序列包含的实体名称。这样,能够解决已有的实体识别方案并不能准确进行医疗文本中相关实体识别的问题。能够解决已有的实体识别方案并不能准确进行医疗文本中相关实体的识别的问题。
由上述实施例可知,若将医生的处方单作为待识别文本,来识别处方单中的药品名称实体、药品特性实体等,则可以协助医生更好地构建自己大脑中的药品知识体系,为医生提供便捷的相关药品的剂量,禁忌,作用等信息,协助医生更好的作出诊断。也可以帮着患者方便的获取相关药品的功效、禁忌、为患者恢复健康提供与药品相关的建议与提示。还可以通过药品识别进一步帮助只要厂家建立药品知识图谱,帮助制药商认识当前药品市场的基本情形,为厂商进一步研发、提高、推广药品等提供参考。
若以体检报告为待识别实体命名的文本,则可以从体检报告中抽取得到身体部位的实体、检查项实体、检查值实体等,有利于病患和医师快速准确地对体检结果进行理解,同时也有助于问诊系统的研究与发展。
请参阅图3所示,是本发明的医疗文本实体命名识别系统另一实施例的程序模块图。由图3可知,本实施例相较于图2所示的实施例,医疗文本实体命名识别系统200还包括第一训练模块205、和第二训练模块206。
在本实施例中,第一训练模块205,用于根据第一训练样本集训练第一CRF模型,以得到预先训练的第一CRF模型。
具体地,第一CRF模型的训练过程包括:从预先确定的数据库中获取第一预设数量的医疗文本,并利用预先确定的切字规则分别对第一预设数量的医疗文本进行单字切分,获得各个医疗文本的单字序列;
基于预先确定的医学术语表,对各个医疗文本的单字序列进行人工标记,以标记出各个医疗文本的单字序列中的医学术语,并将非医学术语删除,以获得由各个医疗文本的单字序列中的医学术语构成的第一训练样本集;
根据第一训练样本集训练第一CRF模型,以得到预先训练的第一CRF模型。
其中,预先确定的数据库包括医院的病例档案数据库、门诊问答数据库、处方单数据库、或体检报告单数据库;医疗文本包括处方单、病例本、或体检单。
第二训练模块206,用于根据第二训练样本集训练第二CRF模型,以得到预先训练的第二CRF模型。
具体地,第二CRF模型的训练过程包括:利用预先设置的语料库及预设的实体标记规则确定所述第一训练样本集中的各个医学术语对应的标记序列,以获得由各个医学术语对应的标记序列构成的第二训练样本集;
根据第二训练样本集训练第二CRF模型,以得到预先训练的第二CRF模型。
其中,预先设置的语料库中记录有医学术语中各语句的上下文特征、各语句的医疗特征、各语句中的实体、以及各语句中的实体在各语句中的位置以及实体类别。
需要说明的是,本发明中所提出的第一CRF模型及第二CRF模型的训练过程可以是由别的系统预先对第一训练样本集进行训练得到第一CRF模型,以及对第二训练样本集进行训练得到的第二CRF模型,也可以是由医疗文本实体命名识别系统200对第一训练样本集进行训练,得到的第一CRF模型,以及医疗文本实体命名识别系统200对第二训练样本集进行训练,得到的第二CRF模型。
请参阅图4,是本发明的医疗文本实体命名识别方法一实施例的实施流程图。由图4可知,在本实施例中,医疗文本实体命名识别方法包括步骤S301至步骤S304。
步骤S301,利用预先确定的切字规则对待识别医疗文本进行单字切分,确定待识别医疗文本的单字序列。
其中,预先确定的切字规则包括:将待识别医疗文本中的中文字符进行全角转半角,将待识别医疗文本的文档编码转换为UTF-8,对待识别医疗文本分别进行汉字、数字、通用单位、及标点符号的标注,根据标注结果将相邻数字的组合视为一个单字,将通用单位视为一个单字,将单个标点符号视为一个单字,以及将单个汉字视为一个单字,其中,通用单位包括中文单位、英文单位、化学单位、以及医用单位。
医疗文本包括门诊处方单、体检单、病例本、住院医嘱数据、医药企业药品数据、医药企业销售数据、医疗知识库及文献库数据、药品说明书数据等。
在一实施例中,以门诊处方单为待识别的医疗文本,且该门诊处方单包括注射用盐酸伊立替康(艾力)、口服药阿莫西林胶囊,则利用预先确定的切字规则进行单字切分后,获得如下的单字序列:“注”“射”“用”“盐”“酸”“伊”“立”“(”“艾”“力”“)”“、”“口”“服”“药”“阿”“莫”“西”“林”“胶”“囊”。
步骤S302,利用预先训练的第一CRF模型对单字序列进行识别,识别出单字序列中的医学术语。
其中,预先训练的第一CRF模型的训练过程包括如下步骤:
从预先确定的数据库中获取第一预设数量的医疗文本,并利用预先确定的切字规则分别对第一预设数量的医疗文本进行单字切分,获得各个医疗文本的单字序列;
基于预先确定的医学术语表,对各个医疗文本的单字序列进行人工标记,以标记出各个医疗文本的单字序列中的医学术语,并将非医学术语删除,以获得由各个医疗文本的单字序列中的医学术语构成的第一训练样本集;
根据第一训练样本集训练第一CRF模型,以得到预先训练的第一CRF模型。
其中,预先确定的数据库包括医院的病例档案数据库、门诊问答数据库、处方单数据库、或体检报告单数据库;医疗文本包括处方单、病例本、或体检单。
步骤S303,利用预先训练的第二CRF模型对第一CRF模型识别出的各个医学术语进行识别,识别出各个医学术语对应的标记序列。
其中,预先训练的第二CRF模型的训练过程包括如下步骤:
利用预先设置的语料库及预设的实体标记规则确定第一训练样本集中的各个医学术语对应的标记序列,以获得由各个医学术语对应的标记序列构成的第二训练样本集;
根据第二训练样本集训练第二CRF模型,以得到预先训练的第二CRF模型。
其中,预先设置的语料库中记录有医学术语中各语句的上下文特征、各语句的医疗特征、各语句中的实体、以及各语句中的实体在各语句中的位置以及实体类别。
例如,在一实施例中,第一CRF模型识别出的单字序列中的医疗术语包括阿莫西林胶囊,根据预先设置的语料库可知,阿莫西林胶囊中包含实体阿莫西林和实体胶囊,阿莫西林对应的实体类别为药品名称实体、胶囊对应的实体类别为药品形状实体,且胶囊对应在阿莫西林的后面位置。
预先确定的实体标记规则包括,将单字序列中不属于药品名称实体A的单字贴上的标记为WA,将属于药品名称实体A的第一个字,贴上的标记为R-A,将属于药品名称实体A,但不是药品名称实体A的第一个字,贴上的标记为A-I,同理将不属于药品形状实体B的单字贴上的标记为WB,将属于药品形状实体B的第一个字,贴上的标记为R-B,将属于药品名称实体B,但不是药品名称实体B的第一个字,贴上的标记为B-I。
则获得的标记序列为R-A,A-I,A-I,A-I,R-B,B-I。
步骤S304,根据预先确定的实体名称与标记序列的映射关系,确定各个标记序列包含的实体名称。
可以理解地,实体的类别包括根据预先确定的药品规格数据库、或包装规格数据库、或药品名称数据库、或体检规格数据库、或病例数据库等获取的药品规格实体、包装实体、药品名称实体、身体部位实体、健康状况实体等,预先设置的实体标记规则根据不同的实体类别可以人工进行相应的设置。
根据上述实施例可知,本发明的医疗文本实体命名识别方法,首先,利用预先训练的第一CRF模型对待识别医疗文本进行识别,识别出待识别医疗文本中的医学术语,其次,利用预先训练的第二CRF模型对第一CRF模型识别出的医学术语进行识别,识别出各个医学术语对应的标记序列,最后,根据预先确定的实体名称与标记序列的映射关系,确定各个标记序列包含的实体名称。这样,能够解决已有的实体识别方案并不能准确进行医疗文本中相关实体识别的问题。能够解决已有的实体识别方案并不能准确进行医疗文本中相关实体的识别的问题。
请参阅图5所示,是本发明的医疗文本实体命名识别系统另一实施例的程序模块图。由图5可知,本实施例相较于图4所示的实施例,医疗文本实体命名识别方法包括步骤S301至步骤S306。
在本实施例中,步骤S301,用于根据第一训练样本集训练第一CRF模型,以得到预先训练的第一CRF模型。
具体地,第一CRF模型的训练过程包括:从预先确定的数据库中获取第一预设数量的医疗文本,并利用预先确定的切字规则分别对第一预设数量的医疗文本进行单字切分,获得各个医疗文本的单字序列;
基于预先确定的医学术语表,对各个医疗文本的单字序列进行人工标记,以标记出各个医疗文本的单字序列中的医学术语,并将非医学术语删除,以获得由各个医疗文本的单字序列中的医学术语构成的第一训练样本集;
根据第一训练样本集训练所述第一CRF模型,以得到预先训练的第一CRF模型。
其中,预先确定的数据库包括医院的病例档案数据库、门诊问答数据库、处方单数据库、或体检报告单数据库;医疗文本包括处方单、病例本、或体检单。
步骤S302,用于根据第二训练样本集训练第二CRF模型,以得到预先训练的第二CRF模型。
具体地,第二CRF模型的训练过程包括:利用预先设置的语料库及预设的实体标记规则确定第一训练样本集中的各个医学术语对应的标记序列,以获得由各个医学术语对应的标记序列构成的第二训练样本集;
根据第二训练样本集训练所述第二CRF模型,以得到预先训练的第二CRF模型。
其中,预先设置的语料库中记录有医学术语中各语句的上下文特征、各语句的医疗特征、各语句中的实体、以及各语句中的实体在各语句中的位置以及实体类别。
步骤S303,利用预先确定的切字规则对待识别医疗文本进行单字切分,确定待识别医疗文本的单字序列。
其中,预先确定的切字规则包括:将待识别医疗文本中的中文字符进行全角转半角,将待识别医疗文本的文档编码转换为UTF-8,对待识别医疗文本分别进行汉字、数字、通用单位、及标点符号的标注,根据标注结果将相邻数字的组合视为一个单字,将通用单位视为一个单字,将单个标点符号视为一个单字,以及将单个汉字视为一个单字,其中,通用单位包括中文单位、英文单位、化学单位、以及医用单位。
医疗文本包括门诊处方单、体检单、病例本、住院医嘱数据、医药企业药品数据、医药企业销售数据、医疗知识库及文献库数据、药品说明书数据等。
在一实施例中,以门诊处方单为待识别的医疗文本,且该门诊处方单包括注射用盐酸伊立替康(艾力)、口服药阿莫西林胶囊,则利用预先确定的切字规则进行单字切分后,获得如下的单字序列:“注”“射”“用”“盐”“酸”“伊”“立”“(”“艾”“力”“)”“、”“口”“服”“药”“阿”“莫”“西”“林”“胶”“囊”。
步骤S304,利用预先训练的第一CRF模型对单字序列进行识别,识别出单字序列中的医学术语。
步骤S305,利用预先训练的第二CRF模型对所述第一CRF模型识别出的各个医学术语进行识别,识别出各个医学术语对应的标记序列。
步骤S306,根据预先确定的实体名称与标记序列的映射关系,确定各个标记序列包含的实体名称。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种电子装置,其特征在于,所述电子装置包括存储器、处理器,所述存储器上存储有可在所述处理器上运行的医疗文本实体命名识别系统,所述医疗文本实体命名识别系统被所述处理器执行时实现如下步骤:
A、利用预先确定的切字规则对待识别医疗文本进行单字切分,确定所述待识别医疗文本的单字序列;
B、利用预先训练的第一CRF模型对所述单字序列进行识别,识别出所述单字序列中的医学术语;
C、利用预先训练的第二CRF模型对所述第一CRF模型识别出的各个医学术语进行识别,识别出各个所述医学术语对应的标记序列;
D、根据预先确定的实体名称与标记序列的映射关系,确定各个所述标记序列包含的实体名称。
2.如权利要求1所述的电子装置,其特征在于,所述预先确定的切字规则包括:
将所述待识别医疗文本中的中文字符进行全角转半角,将所述待识别医疗文本的文档编码转换为UTF-8,对所述待识别医疗文本分别进行汉字、数字、通用单位、及标点符号的标注,根据标注结果将相邻数字的组合视为一个单字,将通用单位视为一个单字,将单个标点符号视为一个单字,以及将单个汉字视为一个单字,其中,所述通用单位包括中文单位、英文单位、化学单位、以及医用单位。
3.如权利要求2所述的电子装置,其特征在于,所述预先训练的第一CRF模型的训练过程包括如下步骤:
从预先确定的数据库中获取第一预设数量的医疗文本,并利用所述预先确定的切字规则分别对所述第一预设数量的医疗文本进行单字切分,获得各个医疗文本的单字序列;
基于预先确定的医学术语表,对各个所述医疗文本的单字序列进行人工标记,以标记出各个所述医疗文本的单字序列中的医学术语,并将非医学术语删除,以获得由各个所述医疗文本的单字序列中的医学术语构成的第一训练样本集;
根据第一训练样本集训练所述第一CRF模型,以得到预先训练的第一CRF模型。
4.如权利要求3所述的电子装置,其特征在于,所述预先训练的第二CRF模型的训练过程包括如下步骤:
利用预先设置的语料库及预设的实体标记规则确定所述第一训练样本集中的各个所述医学术语对应的标记序列,以获得由各个所述医学术语对应的标记序列构成的第二训练样本集;
根据所述第二训练样本集训练所述第二CRF模型,以得到预先训练的第二CRF模型。
5.如权利要求4所述的电子装置,其特征在于,所述预先设置的语料库中记录有医学术语中各语句的上下文特征、各语句的医疗特征、各语句中的实体、以及各语句中的实体在各语句中的位置以及实体类别。
6.一种医疗文本实体命名识别方法,其特征在于,所述方法包括如下步骤:
S1、利用预先确定的切字规则对待识别医疗文本进行单字切分,确定所述待识别医疗文本的单字序列;
S2、利用预先训练的第一CRF模型对所述单字序列进行识别,识别出所述单字序列中的医学术语;
S3、利用预先训练的第二CRF模型对所述第一CRF模型识别出的各个医学术语进行识别,识别出各个所述医学术语对应的标记序列;
S4、根据预先确定的实体名称与标记序列的映射关系,确定各个所述标记序列包含的实体名称。
7.如权利要求6所述的医疗文本实体命名识别方法,其特征在于,所述预先确定的切字规则包括:
将所述待识别医疗文本中的中文字符进行全角转半角,将所述待识别医疗文本的文档编码转换为UTF-8,对所述待识别医疗文本分别进行汉字、数字、通用单位、及标点符号的标注,根据标注结果将相邻数字的组合视为一个单字,将通用单位视为一个单字,将单个标点符号视为一个单字,以及将单个汉字视为一个单字,其中,所述通用单位包括中文单位、英文单位、化学单位、以及医用单位。
8.如权利要求7所述的医疗文本实体命名识别方法,其特征在于,所述预先训练的第一CRF模型的训练过程包括如下步骤:
从预先确定的数据库中获取第一预设数量的医疗文本,并利用所述预先确定的切字规则分别对所述第一预设数量的医疗文本进行单字切分,获得各个医疗文本的单字序列;
基于预先确定的医学术语表,对各个所述医疗文本的单字序列进行人工标记,以标记出各个所述医疗文本的单字序列中的医学术语,并将非医学术语删除,以获得由各个所述医疗文本的单字序列中的医学术语构成的第一训练样本集;
根据第一训练样本集训练所述第一CRF模型,以得到预先训练的第一CRF模型。
9.如权利要求8所述的医疗文本实体命名识别方法,其特征在于,所述预先训练的第二CRF模型的训练过程包括如下步骤:
利用预先设置的语料库及预设的实体标记规则确定所述第一训练样本集中的各个所述医学术语对应的标记序列,以获得由各个所述医学术语对应的标记序列构成的第二训练样本集;
根据所述第二训练样本集训练所述第二CRF模型,以得到预先训练的第二CRF模型。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有医疗文本实体命名的识别系统,所述医疗文本实体命名的识别系统可被至少一个处理器执行,以使所述至少一个处理器执行如权利要求6-9中任一项所述医疗文本实体命名的识别方法的步骤。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710929637.2A CN107808124B (zh) | 2017-10-09 | 2017-10-09 | 电子装置、医疗文本实体命名的识别方法及存储介质 |
PCT/CN2017/108736 WO2019071661A1 (zh) | 2017-10-09 | 2017-10-31 | 电子装置、医疗文本实体命名的识别方法、系统及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710929637.2A CN107808124B (zh) | 2017-10-09 | 2017-10-09 | 电子装置、医疗文本实体命名的识别方法及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107808124A true CN107808124A (zh) | 2018-03-16 |
CN107808124B CN107808124B (zh) | 2019-03-26 |
Family
ID=61584119
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710929637.2A Active CN107808124B (zh) | 2017-10-09 | 2017-10-09 | 电子装置、医疗文本实体命名的识别方法及存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN107808124B (zh) |
WO (1) | WO2019071661A1 (zh) |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109284491A (zh) * | 2018-10-23 | 2019-01-29 | 北京惠每云科技有限公司 | 医学文本识别方法、语句识别模型训练方法 |
CN109299467A (zh) * | 2018-10-23 | 2019-02-01 | 北京惠每云科技有限公司 | 医学文本识别方法及装置、语句识别模型训练方法及装置 |
CN109817300A (zh) * | 2019-01-18 | 2019-05-28 | 杭州逸曜信息技术有限公司 | 一种基于人工智能的用药规则生成方法 |
CN110162784A (zh) * | 2019-04-19 | 2019-08-23 | 平安科技(深圳)有限公司 | 中文病历的实体识别方法、装置、设备及存储介质 |
CN111090990A (zh) * | 2019-12-10 | 2020-05-01 | 中电健康云科技有限公司 | 一种医疗体检报告单文字识别及纠正方法 |
CN111415748A (zh) * | 2020-02-18 | 2020-07-14 | 云知声智能科技股份有限公司 | 一种实体链接方法及装置 |
CN111462913A (zh) * | 2020-03-11 | 2020-07-28 | 云知声智能科技股份有限公司 | 一种病例文书中疾病诊断的自动切分方法及装置 |
CN111797626A (zh) * | 2019-03-21 | 2020-10-20 | 阿里巴巴集团控股有限公司 | 一种命名实体识别方法及装置 |
CN112257417A (zh) * | 2020-10-29 | 2021-01-22 | 重庆紫光华山智安科技有限公司 | 一种多任务命名实体识别训练方法、介质及终端 |
CN112464667A (zh) * | 2020-11-18 | 2021-03-09 | 北京华彬立成科技有限公司 | 文本的实体识别方法、装置、电子设备和存储介质 |
CN112667787A (zh) * | 2020-11-26 | 2021-04-16 | 平安普惠企业管理有限公司 | 基于话术标签的智能应答方法、系统及存储介质 |
CN112949306A (zh) * | 2019-12-10 | 2021-06-11 | 医渡云(北京)技术有限公司 | 命名实体识别模型创建方法、装置、设备及可读存储介质 |
CN113297852A (zh) * | 2021-07-26 | 2021-08-24 | 北京惠每云科技有限公司 | 一种医学实体词的识别方法和装置 |
WO2022007871A1 (zh) * | 2020-07-09 | 2022-01-13 | 中国科学院上海药物研究所 | 一种用于有机化合物的化学结构和命名双向自动转化的处理方法及装置 |
Families Citing this family (33)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111950277A (zh) * | 2019-04-30 | 2020-11-17 | 中移(苏州)软件技术有限公司 | 商情实体确定方法、装置和存储介质 |
CN110457678B (zh) * | 2019-06-28 | 2022-12-20 | 创业慧康科技股份有限公司 | 一种电子病历修正方法及装置 |
CN110516251B (zh) * | 2019-08-29 | 2023-11-03 | 秒针信息技术有限公司 | 一种电商实体识别模型的构建方法、构建装置、设备和介质 |
CN110826330B (zh) * | 2019-10-12 | 2023-11-07 | 上海数禾信息科技有限公司 | 人名识别方法及装置、计算机设备及可读存储介质 |
CN112836498A (zh) * | 2019-11-22 | 2021-05-25 | 阿里巴巴集团控股有限公司 | 数据处理方法、识别方法、装置及计算设备 |
CN111028952B (zh) * | 2019-11-27 | 2023-08-04 | 云知声智能科技股份有限公司 | 一种中文医学蕴含知识图谱构建方法及装置 |
CN112992301B (zh) * | 2019-12-02 | 2024-03-29 | 金色熊猫有限公司 | 数据处理方法、装置、电子设备及存储介质 |
CN110969021A (zh) * | 2019-12-23 | 2020-04-07 | 竹间智能科技(上海)有限公司 | 单轮对话中的命名实体识别方法、装置、设备及介质 |
CN111160012B (zh) * | 2019-12-26 | 2024-02-06 | 上海金仕达卫宁软件科技有限公司 | 医学术语识别方法、装置和电子设备 |
CN111611806B (zh) * | 2020-05-06 | 2023-08-11 | 北京智通云联科技有限公司 | 一种用于知识图谱问答的语义解析方法、系统及设备 |
CN111611775B (zh) * | 2020-05-14 | 2023-07-18 | 沈阳东软熙康医疗系统有限公司 | 一种实体识别模型生成方法、实体识别方法及装置、设备 |
CN111797629B (zh) * | 2020-06-23 | 2022-07-29 | 平安医疗健康管理股份有限公司 | 医疗文本数据的处理方法、装置、计算机设备和存储介质 |
CN111832294B (zh) * | 2020-06-24 | 2022-08-16 | 平安科技(深圳)有限公司 | 标注数据的选择方法、装置、计算机设备和存储介质 |
CN111949793B (zh) * | 2020-08-13 | 2024-02-27 | 深圳市欢太科技有限公司 | 用户意图识别方法、装置及终端设备 |
CN112101028B (zh) * | 2020-08-17 | 2022-08-26 | 淮阴工学院 | 一种多特征双向门控领域专家实体抽取方法及系统 |
CN112001177B (zh) * | 2020-08-24 | 2024-08-13 | 浪潮云信息技术股份公司 | 融合深度学习与规则的电子病历命名实体识别方法及系统 |
CN112036154B (zh) * | 2020-08-31 | 2023-05-23 | 康键信息技术(深圳)有限公司 | 基于问诊对话的电子病历生成方法、装置和计算机设备 |
CN112015900B (zh) * | 2020-09-07 | 2024-05-03 | 平安科技(深圳)有限公司 | 医学属性知识图谱构建方法、装置、设备及介质 |
CN112185572B (zh) * | 2020-09-25 | 2024-03-01 | 志诺维思(北京)基因科技有限公司 | 一种肿瘤专病数据库构建系统、方法、电子设备和介质 |
CN112270181B (zh) * | 2020-11-03 | 2024-09-06 | 北京明略软件系统有限公司 | 序列标注方法、系统、计算机可读存储介质及计算机设备 |
CN112507701B (zh) * | 2020-11-30 | 2024-03-15 | 北京百度网讯科技有限公司 | 待纠错医疗数据的识别方法、装置、设备和存储介质 |
CN112420205B (zh) * | 2020-12-08 | 2024-09-06 | 医惠科技有限公司 | 实体识别模型生成方法、装置及计算机可读存储介质 |
CN112749562A (zh) * | 2020-12-31 | 2021-05-04 | 合肥工业大学 | 命名实体识别方法、装置、存储介质及电子设备 |
CN112686047B (zh) * | 2021-01-21 | 2024-03-29 | 北京云上曲率科技有限公司 | 一种基于命名实体识别的敏感文本识别方法、装置、系统 |
CN112885478B (zh) * | 2021-01-28 | 2023-07-07 | 平安科技(深圳)有限公司 | 医疗文献的检索方法、装置、电子设备及存储介质 |
CN113488196B (zh) * | 2021-07-26 | 2023-04-07 | 西南交通大学 | 一种药品说明书文本命名实体识别建模方法 |
CN113723103A (zh) * | 2021-08-26 | 2021-11-30 | 北京理工大学 | 融合多源知识的中文医学命名实体和词性联合学习方法 |
CN113657114A (zh) * | 2021-08-31 | 2021-11-16 | 平安医疗健康管理股份有限公司 | 疾病名称对码列表的生成方法、装置、设备及存储介质 |
CN114036950B (zh) * | 2021-11-10 | 2024-05-10 | 山东大学 | 一种医疗文本命名实体识别方法及系统 |
CN114596931B (zh) * | 2022-05-10 | 2022-08-02 | 上海柯林布瑞信息技术有限公司 | 基于病历的医学实体和关系联合提取方法和装置 |
CN115759097B (zh) * | 2022-11-08 | 2023-07-21 | 广东数鼎科技有限公司 | 一种车型名称识别方法 |
CN116628509B (zh) * | 2023-07-21 | 2023-12-01 | 科大讯飞股份有限公司 | 模型训练方法、装置、设备及存储介质 |
CN118135333B (zh) * | 2024-04-29 | 2024-07-26 | 上海商涌科技有限公司 | 医疗图片智能分拣方法、装置、电子设备及可读存储介质 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102314507A (zh) * | 2011-09-08 | 2012-01-11 | 北京航空航天大学 | 一种中文命名实体识别歧义消解方法 |
CN103309926A (zh) * | 2013-03-12 | 2013-09-18 | 中国科学院声学研究所 | 基于条件随机场的中英文混合命名实体识别方法及系统 |
CN105787461A (zh) * | 2016-03-15 | 2016-07-20 | 浙江大学 | 基于文本分类和条件随机场的中药文献不良反应实体识别方法 |
CN105893414A (zh) * | 2015-11-26 | 2016-08-24 | 乐视致新电子科技(天津)有限公司 | 筛选发音词典有效词条的方法及装置 |
CN106202054A (zh) * | 2016-07-25 | 2016-12-07 | 哈尔滨工业大学 | 一种面向医疗领域基于深度学习的命名实体识别方法 |
CN106897559A (zh) * | 2017-02-24 | 2017-06-27 | 黑龙江特士信息技术有限公司 | 一种面向多数据源的症状体征类实体识别方法及装置 |
CN106919794A (zh) * | 2017-02-24 | 2017-07-04 | 黑龙江特士信息技术有限公司 | 面向多数据源的药品类实体识别方法及装置 |
CN106980608A (zh) * | 2017-03-16 | 2017-07-25 | 四川大学 | 一种中文电子病历分词和命名实体识别方法及系统 |
CN107168949A (zh) * | 2017-04-24 | 2017-09-15 | 成都准星云学科技有限公司 | 基于实体组合的数学自然语言处理实现方法、系统 |
CN107168946A (zh) * | 2017-04-14 | 2017-09-15 | 北京化工大学 | 一种医疗文本数据的命名实体识别方法 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9864838B2 (en) * | 2008-02-20 | 2018-01-09 | Medicomp Systems, Inc. | Clinically intelligent parsing |
CN106251865A (zh) * | 2016-08-04 | 2016-12-21 | 华东师范大学 | 一种基于语音识别的医疗健康记录自动填写方法 |
CN114817386A (zh) * | 2016-09-28 | 2022-07-29 | 医渡云(北京)技术有限公司 | 一种结构化医疗数据生成方法及装置 |
CN106934220B (zh) * | 2017-02-24 | 2019-07-19 | 黑龙江特士信息技术有限公司 | 面向多数据源的疾病类实体识别方法及装置 |
CN107122582B (zh) * | 2017-02-24 | 2019-12-06 | 黑龙江特士信息技术有限公司 | 面向多数据源的诊疗类实体识别方法及装置 |
-
2017
- 2017-10-09 CN CN201710929637.2A patent/CN107808124B/zh active Active
- 2017-10-31 WO PCT/CN2017/108736 patent/WO2019071661A1/zh active Application Filing
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102314507A (zh) * | 2011-09-08 | 2012-01-11 | 北京航空航天大学 | 一种中文命名实体识别歧义消解方法 |
CN103309926A (zh) * | 2013-03-12 | 2013-09-18 | 中国科学院声学研究所 | 基于条件随机场的中英文混合命名实体识别方法及系统 |
CN105893414A (zh) * | 2015-11-26 | 2016-08-24 | 乐视致新电子科技(天津)有限公司 | 筛选发音词典有效词条的方法及装置 |
CN105787461A (zh) * | 2016-03-15 | 2016-07-20 | 浙江大学 | 基于文本分类和条件随机场的中药文献不良反应实体识别方法 |
CN106202054A (zh) * | 2016-07-25 | 2016-12-07 | 哈尔滨工业大学 | 一种面向医疗领域基于深度学习的命名实体识别方法 |
CN106897559A (zh) * | 2017-02-24 | 2017-06-27 | 黑龙江特士信息技术有限公司 | 一种面向多数据源的症状体征类实体识别方法及装置 |
CN106919794A (zh) * | 2017-02-24 | 2017-07-04 | 黑龙江特士信息技术有限公司 | 面向多数据源的药品类实体识别方法及装置 |
CN106980608A (zh) * | 2017-03-16 | 2017-07-25 | 四川大学 | 一种中文电子病历分词和命名实体识别方法及系统 |
CN107168946A (zh) * | 2017-04-14 | 2017-09-15 | 北京化工大学 | 一种医疗文本数据的命名实体识别方法 |
CN107168949A (zh) * | 2017-04-24 | 2017-09-15 | 成都准星云学科技有限公司 | 基于实体组合的数学自然语言处理实现方法、系统 |
Cited By (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109299467A (zh) * | 2018-10-23 | 2019-02-01 | 北京惠每云科技有限公司 | 医学文本识别方法及装置、语句识别模型训练方法及装置 |
CN109299467B (zh) * | 2018-10-23 | 2023-08-08 | 北京惠每云科技有限公司 | 医学文本识别方法及装置、语句识别模型训练方法及装置 |
CN109284491A (zh) * | 2018-10-23 | 2019-01-29 | 北京惠每云科技有限公司 | 医学文本识别方法、语句识别模型训练方法 |
CN109284491B (zh) * | 2018-10-23 | 2023-08-22 | 北京惠每云科技有限公司 | 医学文本识别方法、语句识别模型训练方法 |
CN109817300A (zh) * | 2019-01-18 | 2019-05-28 | 杭州逸曜信息技术有限公司 | 一种基于人工智能的用药规则生成方法 |
CN109817300B (zh) * | 2019-01-18 | 2020-10-02 | 杭州逸曜信息技术有限公司 | 一种基于人工智能的用药规则生成方法 |
CN111797626A (zh) * | 2019-03-21 | 2020-10-20 | 阿里巴巴集团控股有限公司 | 一种命名实体识别方法及装置 |
CN110162784B (zh) * | 2019-04-19 | 2023-10-27 | 平安科技(深圳)有限公司 | 中文病历的实体识别方法、装置、设备及存储介质 |
CN110162784A (zh) * | 2019-04-19 | 2019-08-23 | 平安科技(深圳)有限公司 | 中文病历的实体识别方法、装置、设备及存储介质 |
CN111090990A (zh) * | 2019-12-10 | 2020-05-01 | 中电健康云科技有限公司 | 一种医疗体检报告单文字识别及纠正方法 |
CN111090990B (zh) * | 2019-12-10 | 2024-02-02 | 中电健康云科技有限公司 | 一种医疗体检报告单文字识别及纠正方法 |
CN112949306B (zh) * | 2019-12-10 | 2024-04-30 | 医渡云(北京)技术有限公司 | 命名实体识别模型创建方法、装置、设备及可读存储介质 |
CN112949306A (zh) * | 2019-12-10 | 2021-06-11 | 医渡云(北京)技术有限公司 | 命名实体识别模型创建方法、装置、设备及可读存储介质 |
CN111415748A (zh) * | 2020-02-18 | 2020-07-14 | 云知声智能科技股份有限公司 | 一种实体链接方法及装置 |
CN111415748B (zh) * | 2020-02-18 | 2023-08-08 | 云知声智能科技股份有限公司 | 一种实体链接方法及装置 |
CN111462913A (zh) * | 2020-03-11 | 2020-07-28 | 云知声智能科技股份有限公司 | 一种病例文书中疾病诊断的自动切分方法及装置 |
CN111462913B (zh) * | 2020-03-11 | 2023-08-15 | 云知声智能科技股份有限公司 | 一种病例文书中疾病诊断的自动切分方法及装置 |
WO2022007871A1 (zh) * | 2020-07-09 | 2022-01-13 | 中国科学院上海药物研究所 | 一种用于有机化合物的化学结构和命名双向自动转化的处理方法及装置 |
CN112257417A (zh) * | 2020-10-29 | 2021-01-22 | 重庆紫光华山智安科技有限公司 | 一种多任务命名实体识别训练方法、介质及终端 |
CN112464667A (zh) * | 2020-11-18 | 2021-03-09 | 北京华彬立成科技有限公司 | 文本的实体识别方法、装置、电子设备和存储介质 |
CN112667787A (zh) * | 2020-11-26 | 2021-04-16 | 平安普惠企业管理有限公司 | 基于话术标签的智能应答方法、系统及存储介质 |
CN113297852B (zh) * | 2021-07-26 | 2021-11-12 | 北京惠每云科技有限公司 | 一种医学实体词的识别方法和装置 |
CN113297852A (zh) * | 2021-07-26 | 2021-08-24 | 北京惠每云科技有限公司 | 一种医学实体词的识别方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
WO2019071661A1 (zh) | 2019-04-18 |
CN107808124B (zh) | 2019-03-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107808124B (zh) | 电子装置、医疗文本实体命名的识别方法及存储介质 | |
US10861590B2 (en) | Generating spatial visualizations of a patient medical state | |
CN109408631B (zh) | 药品数据处理方法、装置、计算机设备和存储介质 | |
CN107562732B (zh) | 电子病历的处理方法及系统 | |
US20180293354A1 (en) | Clinical content analytics engine | |
CN107833603B (zh) | 电子病历文档分类方法、装置、电子设备及存储介质 | |
CN114026651A (zh) | 结构化患者数据记录的自动生成 | |
CN110390021A (zh) | 药品知识图谱构建方法、装置、计算机设备及存储介质 | |
CN113707303A (zh) | 基于知识图谱的医疗问题解答方法、装置、设备及介质 | |
CN111145910A (zh) | 基于人工智能的异常案例识别方法、装置、计算机设备 | |
CN110598200B (zh) | 语义识别方法及装置 | |
CN106919794A (zh) | 面向多数据源的药品类实体识别方法及装置 | |
CN108573754A (zh) | 信息处理方法、装置、电子设备及存储介质 | |
CN108735198A (zh) | 基于医学疾病数据的语音合成方法、装置及电子设备 | |
CN116631643A (zh) | 医疗知识图谱构建方法、装置、电子设备及存储介质 | |
CN112668280A (zh) | 医学数据的处理方法、装置及存储介质 | |
CN114550870A (zh) | 基于人工智能的处方审核方法、装置、设备及介质 | |
CN113724830A (zh) | 基于人工智能的用药风险检测方法及相关设备 | |
CN112530597A (zh) | 基于Bert字模型的数据表分类方法、装置及介质 | |
CN116578704A (zh) | 文本情感分类方法、装置、设备及计算机可读介质 | |
CN109299467A (zh) | 医学文本识别方法及装置、语句识别模型训练方法及装置 | |
CN115775635A (zh) | 基于深度学习模型的药品风险识别方法、装置及终端设备 | |
Roosan et al. | Artificial intelligent context-aware machine-learning tool to detect adverse drug events from social media platforms | |
CN114840684A (zh) | 基于医疗实体的图谱构建方法、装置、设备及存储介质 | |
Hernandez et al. | Automated mapping of pharmacy orders from two electronic health record systems to RxNorm within the STRIDE clinical data warehouse |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |