CN113469163A - 一种基于智能纸笔的医疗信息记录方法和装置 - Google Patents
一种基于智能纸笔的医疗信息记录方法和装置 Download PDFInfo
- Publication number
- CN113469163A CN113469163A CN202110629823.0A CN202110629823A CN113469163A CN 113469163 A CN113469163 A CN 113469163A CN 202110629823 A CN202110629823 A CN 202110629823A CN 113469163 A CN113469163 A CN 113469163A
- Authority
- CN
- China
- Prior art keywords
- recognition result
- data
- acquiring
- pen
- information recording
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 51
- 238000004458 analytical method Methods 0.000 claims abstract description 28
- 238000003062 neural network model Methods 0.000 claims abstract description 13
- 238000012545 processing Methods 0.000 claims description 27
- 238000012549 training Methods 0.000 claims description 17
- 238000000605 extraction Methods 0.000 claims description 12
- 239000003814 drug Substances 0.000 claims description 10
- 238000013507 mapping Methods 0.000 claims description 9
- 230000008569 process Effects 0.000 claims description 9
- 208000024891 symptom Diseases 0.000 claims description 9
- 238000012790 confirmation Methods 0.000 claims description 8
- 229940079593 drug Drugs 0.000 claims description 7
- 238000005070 sampling Methods 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000013473 artificial intelligence Methods 0.000 description 12
- 238000010586 diagram Methods 0.000 description 10
- 206010011224 Cough Diseases 0.000 description 7
- 238000005457 optimization Methods 0.000 description 6
- 238000004422 calculation algorithm Methods 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 4
- 238000003058 natural language processing Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000013518 transcription Methods 0.000 description 3
- 230000035897 transcription Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 201000010099 disease Diseases 0.000 description 2
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- FAPWRFPIFSIZLT-UHFFFAOYSA-M Sodium chloride Chemical compound [Na+].[Cl-] FAPWRFPIFSIZLT-UHFFFAOYSA-M 0.000 description 1
- 206010043376 Tetanus Diseases 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000002347 injection Methods 0.000 description 1
- 239000007924 injection Substances 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 239000000243 solution Substances 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000012916 structural analysis Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/29—Graphical models, e.g. Bayesian networks
- G06F18/295—Markov models or related models, e.g. semi-Markov models; Markov random fields; Networks embedding Markov models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/60—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Evolutionary Biology (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Software Systems (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Molecular Biology (AREA)
- Public Health (AREA)
- Medical Informatics (AREA)
- Epidemiology (AREA)
- Primary Health Care (AREA)
- Medical Treatment And Welfare Office Work (AREA)
- Character Discrimination (AREA)
Abstract
本公开涉及一种基于智能纸笔的医疗信息记录方法和装置,其中,方法包括:获取智能笔发送的书写轨迹数据;从书写轨迹数据中提取多个轨迹点坐标输入已训练的隐马尔科夫模型HMM进行解码处理,获取第一候选识别结果集合;从书写轨迹数据中提取图像帧序列输入已训练的深度神经网络模型DNN进行解码处理,获取第二候选识别结果集合;根据第一候选识别结果集合和第二候选识别结果集合中每个识别结果和对应的分数值进行计算,确定目标识别结果;对目标识别结果进行语义分析,获取结构化数据,并将结构化数据和书写轨迹数据存储在数据库中。由此,实时采集医生的原始手写记录数据并保存,以及提高医疗信息录入的效率和准确性。
Description
技术领域
本公开涉及医疗数据处理技术领域,尤其涉及一种基于智能纸笔的医疗信息记录方法和装置。
背景技术
随着医疗信息化的普及,大量的医疗数据都是以数字化形式在信息化系统中进行记录、管理、查询、分析等等。但是在一些医疗场景中,比如门诊、住院查房、随访、临床科研等,受限于使用习惯、场景复杂性、以及医疗效率的一些因素,数据记录还是大量采用纸质手写的方式,比如门诊的病历记录、患者随访数据记录等,后续再通过人工的方式,把纸质信息二次录入到系统中,比如图1所示。
然而,二次人工转录的效率不高,浪费了有限的医疗人工资源,以及二次人工转录会带来一定的信息丢失和错误,也可能存在在数据记录后以及转录过程中,数据可能被篡改,无法保证数据的真实性的技术问题。
发明内容
为了解决上述技术问题或者至少部分地解决上述技术问题,本公开提供了一种基于智能纸笔的医疗信息记录方法和装置。
本公开提供了一种基于智能纸笔的医疗信息记录方法,包括:
获取智能笔发送的书写轨迹数据;
从所述书写轨迹数据中提取多个轨迹点坐标输入已训练的隐马尔科夫模型HMM(Hidden Markov Model,隐马尔科夫模型)进行解码处理,获取第一候选识别结果集合;
从所述书写轨迹数据中提取图像帧序列输入已训练的深度神经网络模型DNN(Deep Neural Network深度神经网络)进行解码处理,获取第二候选识别结果集合;
根据所述第一候选识别结果集合和所述第二候选识别结果集合中每个识别结果和对应的分数值进行计算,确定目标识别结果;
对所述目标识别结果进行语义分析,获取结构化数据,并将所述结构化数据和所述书写轨迹数据存储在数据库中。
在本公开的一个可选实施例中,在所述从所述书写轨迹数据中提取多个轨迹点坐标输入已训练的隐马尔科夫模型HMM进行解码处理之前,还包括:
获取多个文字样本,将每个所述文字样本拆分为多个子单元样本;其中,每个所述子单元样本包括点坐标和时序的对应关系;
将每个所述点坐标和时序的对应关系对应一个多状态的HMM,以及针对具有多种笔画顺序的所述子单元样本采用了多路径HMM建模,生成所述已训练的隐马尔科夫模型HMM,其中,HMM状态的数目与所述子单元样本的笔划数成正比。
在本公开的一个可选实施例中,在所述从所述书写轨迹数据中提取图像帧序列输入已训练的深度神经网络模型DNN进行解码处理之前,包括:
获取多个文字样本,并获取每个所述文字样本对应的灰度图片;其中,所述灰度图片的灰度值为手写轨迹的方向;
对所述灰度图片从左往右进行分帧采样获取每个所述文字样本对应的图像帧序列样本;
将所述图像帧序列样本和标签输入DNN进行训练,获取所述已训练的DNN。
在本公开的一个可选实施例中,所述多个文字样本包括药品名称的英文缩写、药品的剂量用法多个医疗术语样本。
在本公开的一个可选实施例中,所述对所述目标识别结果进行语义分析,获取结构化数据,包括:
根据所述目标识别结果和对应的排版信息将所述目标识别结果分割成多个单元;
通过预训练的信息提取模型对每个所述单元进行信息提取,获取多个关键词;
根据预设的词典和映射模型对所述多个关键词进行数据规范化处理,获取目标词语,以及抽取所述多个关键词之间的实体关系;
根据所述目标词语和所述实体关系生成所述结构化数据。
在本公开的一个可选实施例中,所述目标识别结果对应的排版信息包括:所述目标识别结果的文字位置信息和字体信息。
在本公开的一个可选实施例中,根据所述目标识别结果和对应的排版信息将所述目标识别结果分割成多个单元,包括:
根据所述目标识别结果和对应的排版信息确定个人信息、主诉、症状、检查结果、处方和治疗记录;
根据所述个人信息、所述主诉、所述症状、所述检查结果、所述处方和所述治疗记录将所述目标识别结果分割成六个单元。
在本公开的一个可选实施例中,所述的基于智能纸笔的医疗信息记录方法,还包括:
将所述结构化数据发送到终端显示;
接收到对所述结构化数据的确认指令或更新指令,获取所述书写轨迹数据、确认或更新的文本信息训练HMM和DNN。
在本公开的一个可选实施例中,所述的基于智能纸笔的医疗信息记录方法,还包括:
将所述结构化数据发送到终端显示;
接收到对所述结构化数据的确认指令,对所述结构化数据进行标注作为训练样本用于训练语义分析模型;其中,所述语义分析模型包括信息提取模型、词典和映射模型、以及标准实体库。
本公开提供了另一种基于智能纸笔的医疗信息记录装置,包括:
获取模块,用于获取智能笔发送的书写轨迹数据;
第一处理模块,用于从所述书写轨迹数据中提取多个轨迹点坐标输入已训练的隐马尔科夫模型HMM进行解码处理,获取第一候选识别结果集合;
第二处理模块,用于从所述书写轨迹数据中提取图像帧序列输入已训练的深度神经网络模型DNN进行解码处理,获取第二候选识别结果集合;
计算模块,用于根据所述第一候选识别结果集合和所述第二候选识别结果集合中每个识别结果和对应的分数值进行计算,确定目标识别结果;
获取存储模块,用于对所述目标识别结果进行语义分析,获取结构化数据,并将所述结构化数据和所述书写轨迹数据存储在数据库中。
本公开实施例提供的技术方案与现有技术相比具有如下优点:
通过获取智能笔发送的书写轨迹数据,从书写轨迹数据中提取多个轨迹点坐标输入已训练的隐马尔科夫模型HMM进行解码处理,获取第一候选识别结果集合,从书写轨迹数据中提取图像帧序列输入已训练的深度神经网络模型DNN进行解码处理,获取第二候选识别结果集合,根据第一候选识别结果集合和第二候选识别结果集合中每个识别结果和对应的分数值进行计算,确定目标识别结果,对目标识别结果进行语义分析,获取结构化数据,并将结构化数据和书写轨迹数据存储在数据库中。由此,在不改变传统纸笔书写习惯的前提下,实时采集医生的原始手写记录数据并保存,以及提高医疗信息录入的效率和准确性。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本公开实施例所述的现有医疗信息记录方式的示例图;
图2为本公开实施例所述一种基于智能纸笔的医疗信息记录方法的示例图;
图3为本公开实施例所述一种基于智能纸笔的医疗信息记录方法的流程示意图;
图4为本公开实施例所述智能纸笔书写和轨迹数据采集传输流程示意图;
图5为本公开实施例所述多路径HMM的建模示例图;
图6为本公开实施例所述基于HMM和DNN的手写体识别流程示意图;
图7为本公开实施例所述手写识别文字数据的语义分析流程示意图;
图8为本公开实施例所述信息提取模型架构示意图;
图9为本公开实施例所述AI模型优化示例图;
图10为本公开实施例所述的基于智能纸笔的医疗信息记录装置的结构示意图。
具体实施方式
为了能够更清楚地理解本公开的上述目的、特征和优点,下面将对本公开的方案进行进一步描述。需要说明的是,在不冲突的情况下,本公开的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本公开,但本公开还可以采用其他不同于在此描述的方式来实施;显然,说明书中的实施例只是本公开的一部分实施例,而不是全部的实施例。
针对在医疗场景中,医生先用纸笔记录信息然后再转录到系统中的问题,本公开提出一种基于智能纸笔的医疗信息记录方法,如图2所示,用户按照原有的书写习惯使用智能笔在专用纸上书写,智能笔通过红外摄像头精准采集书写轨迹数据并传输到后台,后台人工智能分析算法对轨迹数据进行文字识别和语义理解,形成结构化数据,即时返回给医生进行快速编辑和确认,然后记录到系统数据库中,与此同时,原始的书写轨迹数据也一并保存到数据库中,用于数据的真实性追溯以及持续分析。
由此,实现医生在不改变原有的纸笔记录习惯下,通过智能笔将原始的书写轨迹实时数字化采集,并通过人工智能技术进行文字识别和结构化分析并存储,以及可以即时返回给医生/护士进行快速确认,提高医疗信息录入的效率和准确性。
图3为本公开实施例所述一种基于智能纸笔的医疗信息记录方法的流程示意图。
如图3所示,该基于智能纸笔的医疗信息记录方法包括:
步骤101,获取智能笔发送的书写轨迹数据。
本公开的基于智能纸笔的医疗信息记录方法可以应用于电子设备。其中,电子设备可以为任一具有计算能力的设备,例如可以为PC(Personal Computer,个人电脑)、移动终端等,移动终端例如可以为手机、平板电脑、个人数字助理、穿戴式设备等具有各种操作系统、触摸屏和/或显示屏的硬件设备。
本公开实施例中,电子设备与智能笔可以通过蓝牙/WiFi无线连接方式进行数据通信,具体根据应用场景选择设置,此处不作限制。
在本公开实施例中,智能笔主要包含红外摄像头、点阵码识别芯片、无线传输芯片等核心模块,专用书写纸上印刷了与智能笔配套使用的点阵码,作为一种示例,如图4所示,用户使用智能笔在专用纸上正常书写,智能笔通过笔尖的红外摄像头实时识别书写区域的点阵码,形成一系列的书写轨迹坐标点数据,生成书写轨迹数据,然后通过蓝牙/wifi的无线连接方式将书写轨迹数据传输到电子设备。
在本公开实施例中,书写轨迹数据包括书写过程中的坐标点和对应的时序,以及已经书写完成的文字对应的灰度图片,即手写数据作为灰度图片,对应手写灰度值采用的是轨迹的方向,每张灰度图片可以包括图像帧序列。
步骤102,从书写轨迹数据中提取多个轨迹点坐标输入已训练的隐马尔科夫模型HMM进行解码处理,获取第一候选识别结果集合。
在本公开实施例中,预先针对手写轨迹的采样点进行时序建模(比如HMM模型,作为一种示例,获取多个文字样本,将每个文字样本拆分为多个子单元样本;其中,每个子单元样本包括点坐标和时序的对应关系,将每个点坐标和时序的对应关系对应一个多状态的HMM,以及针对具有多种笔画顺序的所述子单元样本采用了多路径HMM建模,生成已训练的隐马尔科夫模型HMM,其中,HMM状态的数目与子单元样本的笔划数成正比。
以汉字举例而言,中文汉字的基础单元包括笔画、部首和整字,考虑到笔画建模单元太小,整字建模的个数又太多,采用部首作为基本的HMM建模单元,比如一个“树”字分为三个部首单元:“木”“又”“寸”,每个部首对应一个多状态的HMM,其状态数目与笔划数成正比。另外,考虑到汉字书写的笔画顺序有可能有多种,对这些有多种笔画顺序的汉字部首,采用了多路径HMM建模,比如图5所示,从而能够更好的建模以及更高的识别率。
进一步地,从书写轨迹数据中提取多个轨迹点坐标输入已训练的隐马尔科夫模型HMM进行解码处理,获取第一候选识别结果集合,比如“复”进行处理获取的第一候选识别结果集合为[“复”、“夏”和“厦”对应的分数值分别为“10”、“9”和“8”]。
步骤103,从书写轨迹数据中提取图像帧序列输入已训练的深度神经网络模型DNN进行解码处理,获取第二候选识别结果集合。
在本公开实施例中,把手写数据当作灰度图片,对应手写灰度值采用的是轨迹的方向,通过对图片从左到右进行分帧采样和提取特征,采用深度神经网络(DNN)进行建模获取已训练的深度神经网络模型DNN,作为一种示例,获取多个文字样本,并获取每个文字样本对应的灰度图片;其中,灰度图片的灰度值为手写轨迹的方向,对灰度图片从左往右进行分帧采样获取每个文字样本对应的图像帧序列样本,将图像帧序列样本和标签输入DNN进行训练,获取已训练的DNN。
具体地,可以采用最前沿的基于conformer(Convolution-augmentedTransformer for Speech Recognition,卷积增强的端到端模型)的端到端DNN模型,conformer由编码器和解码器两部分组成,每个conformer编码器由一个卷积下采样层和若干个conformer模块组成,每个conformer模块类似transformer模块,但其构成分为四部分:前向模块为FNN(Fully Connected Neural Network,全连接神经网络),自注意力模块为SAN(Self-Attention Network,自主意网络),卷积模块为CNN(Convolutional NeuralNetwork,卷积神经网络)和最后一个FNN,解码器则和transformer保持一致。
进一步地,从书写轨迹数据中提取图像帧序列输入已训练的深度神经网络模型DNN进行解码处理,获取第二候选识别结果集合,比如“复”进行处理获取的第二候选识别结果集合为[“厦”、“复”和“夏”对应的分数值分别为“10”、“9”和“8”]。
步骤104,根据第一候选识别结果集合和第二候选识别结果集合中每个识别结果和对应的分数值进行计算,确定目标识别结果。
在本公开实施例中,在获取第一候选识别结果集合和第二候选识别结果集合后可以知道每个识别结果对应的分数值,进一步根据分数值进行计算排序确定目标识别结果。
以上述“复”进行处理,比如图6所示,获取的第一候选识别结果集合为[“复”、“夏”和“厦”对应的分数值分别为“10”、“9”和“8”],以及第二候选识别结果集合为[“厦”、“复”和“夏”对应的分数值分别为“10”、“9”和“8”]为例进行计算,获取识别结果“复”对应“9.5”、“厦”对应“9”和“夏”对应“8.5”,从而确定目标识别结果为“复”。
也就是说,手写数据在通过HMM解码和DNN解码之后,各自都得到候选的识别文字结果和对应得分,对两者的得分进行加权融合后选取得分最优的结果作为最终的识别文字。
在本公开实施例中,多个文字样本包括药品名称的英文缩写、药品的剂量用法多个医疗术语样本。
具体地,在医疗领域的手写病历数据中,除了正常汉字以外,还有一些特定医疗术语的简写特殊处理,包括药品名称的英文缩写(比如:生理盐水简写NS、破伤风简写TAT)、药品的剂量用法(比如:一日两次简写bid、注射剂简写inj)等等,因此还需要对英文字母和数字进行建模。此外,需要对医疗领域的专用名词和用法定制化对应的词典和语言模型。进一步提高准确性。
步骤105,对目标识别结果进行语义分析,获取结构化数据,并将结构化数据和书写轨迹数据存储在数据库中。
在本公开实施例中,可以针对多个书写轨迹进行识别,获取多个目标识别结果,从而可以获取一段文本信息,可以通过对多个目标识别结果形成的文本信息进行语义分析,获取结构化数据,并将结构化数据和书写轨迹数据存储在数据库中。
作为一种示例,根据目标识别结果和对应的排版信息将目标识别结果分割成多个单元,通过预训练的信息提取模型对每个单元进行信息提取,获取多个关键词,根据预设的词典和映射模型对多个关键词进行数据规范化处理,获取目标词语,以及抽取多个关键词之间的实体关系,根据目标词语和实体关系生成结构化数据。
其中,目标识别结果对应的排版信息包括:目标识别结果的文字位置信息和字体信息。
在本公开实施例中,可以根据目标识别结果和对应的排版信息确定个人信息、主诉、症状、检查结果、处方和治疗记录,根据个人信息、主诉、症状、检查结果、处方和治疗记录将目标识别结果分割成六个单元。
具体地,手写轨迹识别成文字之后,还需进一步针对文本语义信息进行分析处理,包括单元分割、实体抽取、实体映射和关系抽取等,比如图7所示,以形成结构化的医疗病历数据,便于检索和统计分析。
作为一种示例,根据上一步手写轨迹文字识别的结果,结合文字和位置,字体等排版信息,将页面分割成若干单元,每个单元根据标题,内容等信息可匹配病历常见单元,如个人信息、主诉、症状、检查结果、处方、治疗记录等,医疗病历里常见的重要实体类型,有疾病、症状、药物、体征、治疗方法、手术、检查项目和结果等。这是NLP(Natural LanguageProcessing,语义分析)领域里典型的命名实体识别(NER,Name Entity Recognition)问题,本发明中才用有监督训练模型的方法,依据一定量的医书,医案,病历等医疗文本的数据标注,训练生成一个深度迁移学习算法加条件随机场CRF(Conditional Random Field)的模型(模型架构如图8所示)。此模型可以从文本数据中提取出各类医疗实体,包括实体位置信息。
具体地,在医生手写记录过程中,对药名,疾病,症状等可能会有简写,或者个人、不同地区、不同流派的其他写法,需要做一个规范化统一,以便下一步的检索分析。可以通过对大量医疗病历、医案等数据统计学习,采用信息熵和文本聚类算法,挖掘出大量在词典中没有出现的未登录词,比如表示咳嗽的词语(咳嗽,有点咳,咳嗽得厉害,咳得厉害,经常咳,偶尔咳等等),然后使用支持向量机根据词语的上下文统计信息做分类,最终筛选出高质量的口语化词语,形成对应的规范化词典和映射模型。
最后,从文本中提取出各类实体之后,根据实体间位置,类别等信息,结合实体所在句子和段落的句法、语法依存关系,可进一步提取出各实体之间的关系,如“经常”和“咳嗽”之间有个“时间频率描述”的关系。
在本公开的一个可能实现方式中,将结构化数据发送到终端显示,接收到对结构化数据的确认指令或更新指令,获取书写轨迹数据、确认或更新的文本信息训练HMM和DNN。
在本公开的一个可能实现方式中,将结构化数据发送到终端显示;接收到对结构化数据的确认指令,对结构化数据进行标注作为训练样本用于训练语义分析模型;其中,语义分析模型包括信息提取模型、词典和映射模型、以及标准实体库。
具体地,医生手写病历数据经过智能分析和结构化,以及医生进行信息编辑确认之后,这些数据和确认信息可以反馈回系统,对人工智能模型进行重新训练优化,形成AI(Artificial Intelligence,人工智能)模型优化的闭环。
如图9所示,医生进行编辑和确认后的数据反馈回来,可用于手写体识别(HWR,Hand Writing Recognition)和语义分析(NLP,Natural Language Processing)的模型优化。
具体地,针对HWR模型(包括HMM和DNN),手写轨迹数据和编辑确认后的文字信息,一方面可以用于医疗领域共用的HWR模型的重新训练,也可以用于针对这个医生的个性化专用HWR模型的自适应训练。
具体地,针对NLP模型,对已经结构化的病历数据,经过审核确认后,即可生成大量医疗领域文本语料库,可以进一步优化医疗领域的语言模型,标准实体库等,并最终用于优化提高实体抽取和映射模型的准确性。
需要说明的是,医生编辑确认的数据分为两类,一类是无修改直接确认的数据,第二类是经过编辑修改后再确认的数据,由于第一类数据是AI模型分析正确的,而第二类数据是AI模型处理有错误的,因此在模型训练优化中,可以会对第二类数据加更大的权重,从而使得模型训练优化更加有针对性,性能提升更高效。
由此,在不改变传统纸笔书写习惯的前提下,通过智能纸笔方案实时采集医生的原始手写记录数据,并实时上传云端保存,用于后续AI分析和历史追溯,通过定制优化的AI技术对采集的原始手写数据进行分析,包括文字识别和语义分析技术对数据进行分析和结构化,以及手写数据经过AI分析形成结构化数据之后,即时反馈给医生专家进行确认,大幅提高医生信息录入的效率和准确性,最后经过医生专家确认后的数据,反馈回来用于模型训练和优化,从而形成模型优化的闭环。
本公开实施例通过使用智能纸笔,无需改变原有的纸笔书写习惯,信息记录只需一次,无需额外再通过键盘录入信息,信息录入效率大幅提高,其中,通过专用点阵笔和纸张,有效管理数据采集记录,防止数据被篡改,后续如果有人想篡改数据,即便把原始的纸质记录和信息系统记录做相同修改,但是笔迹数据的上传时间也对不上,这样就可以更加有效的保障数据真实性,针对医疗领域对AI算法定制和优化,从而达到对书写轨迹的超高性能识别和语义理解,快速形成结构化数据,提高录入效率和数据质量,使得医疗信息录入的效率更高、数据质量更高、并且保障数据真实可追溯。
与上述图1至图9实施例提供的基于智能纸笔的医疗信息记录方法相对应,本公开还提供一种基于智能纸笔的医疗信息记录装置,由于本公开实施例提供的基于智能纸笔的医疗信息记录装置与上述图1至图9实施例提供的基于智能纸笔的医疗信息记录方法相对应,因此在基于智能纸笔的医疗信息记录方法的实施方式也适用于本公开实施例提供的基于智能纸笔的医疗信息记录装置,在本公开实施例中不再详细描述。
图10为本公开实施例所述的基于智能纸笔的医疗信息记录装置的结构示意图。
如图10所示,该基于智能纸笔的医疗信息记录装置,包括:获取模块1001、第一处理模块1002、第二处理模块1003、计算模块1004和获取存储模块1005。
其中,获取模块1001,用于获取智能笔发送的书写轨迹数据。
第一处理模块1002,用于从所述书写轨迹数据中提取多个轨迹点坐标输入已训练的隐马尔科夫模型HMM进行解码处理,获取第一候选识别结果集合。
第二处理模块1003,用于从所述书写轨迹数据中提取图像帧序列输入已训练的深度神经网络模型DNN进行解码处理,获取第二候选识别结果集合。
计算模块1004,用于根据所述第一候选识别结果集合和所述第二候选识别结果集合中每个识别结果和对应的分数值进行计算,确定目标识别结果。
获取存储模块1005,用于对所述目标识别结果进行语义分析,获取结构化数据,并将所述结构化数据和所述书写轨迹数据存储在数据库中。
本公开实施例的基于智能纸笔的医疗信息记录方法,通过获取智能笔发送的书写轨迹数据,从书写轨迹数据中提取多个轨迹点坐标输入已训练的隐马尔科夫模型HMM进行解码处理,获取第一候选识别结果集合,从书写轨迹数据中提取图像帧序列输入已训练的深度神经网络模型DNN进行解码处理,获取第二候选识别结果集合,根据第一候选识别结果集合和第二候选识别结果集合中每个识别结果和对应的分数值进行计算,确定目标识别结果,对目标识别结果进行语义分析,获取结构化数据,并将结构化数据和书写轨迹数据存储在数据库中。由此,在不改变传统纸笔书写习惯的前提下,实时采集医生的原始手写记录数据并保存,以及提高医疗信息录入的效率和准确性。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅是本公开的具体实施方式,使本领域技术人员能够理解或实现本公开。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本公开的精神或范围的情况下,在其它实施例中实现。因此,本公开将不会被限制于本文所述的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (10)
1.一种基于智能纸笔的医疗信息记录方法,其特征在于,包括:
获取智能笔发送的书写轨迹数据;
从所述书写轨迹数据中提取多个轨迹点坐标输入已训练的隐马尔科夫模型HMM进行解码处理,获取第一候选识别结果集合;
从所述书写轨迹数据中提取图像帧序列输入已训练的深度神经网络模型DNN进行解码处理,获取第二候选识别结果集合;
根据所述第一候选识别结果集合和所述第二候选识别结果集合中每个识别结果和对应的分数值进行计算,确定目标识别结果;
对所述目标识别结果进行语义分析,获取结构化数据,并将所述结构化数据和所述书写轨迹数据存储在数据库中。
2.根据权利要求1所述的基于智能纸笔的医疗信息记录方法,其特征在于,在所述从所述书写轨迹数据中提取多个轨迹点坐标输入已训练的隐马尔科夫模型HMM进行解码处理之前,还包括:
获取多个文字样本,将每个所述文字样本拆分为多个子单元样本;其中,每个所述子单元样本包括点坐标和时序的对应关系;
将每个所述点坐标和时序的对应关系对应一个多状态的HMM,以及针对具有多种笔画顺序的所述子单元样本采用了多路径HMM建模,生成所述已训练的隐马尔科夫模型HMM,其中,HMM状态的数目与所述子单元样本的笔划数成正比。
3.根据权利要求1所述的基于智能纸笔的医疗信息记录方法,其特征在于,在所述从所述书写轨迹数据中提取图像帧序列输入已训练的深度神经网络模型DNN进行解码处理之前,包括:
获取多个文字样本,并获取每个所述文字样本对应的灰度图片;其中,所述灰度图片的灰度值为手写轨迹的方向;
对所述灰度图片从左往右进行分帧采样获取每个所述文字样本对应的图像帧序列样本;
将所述图像帧序列样本和标签输入DNN进行训练,获取所述已训练的DNN。
4.根据权利要求2或3所述的基于智能纸笔的医疗信息记录方法,其特征在于,
所述多个文字样本包括药品名称的英文缩写、药品的剂量用法多个医疗术语样本。
5.根据权利要求1所述的基于智能纸笔的医疗信息记录方法,其特征在于,所述对所述目标识别结果进行语义分析,获取结构化数据,包括:
根据所述目标识别结果和对应的排版信息将所述目标识别结果分割成多个单元;
通过预训练的信息提取模型对每个所述单元进行信息提取,获取多个关键词;
根据预设的词典和映射模型对所述多个关键词进行数据规范化处理,获取目标词语,以及抽取所述多个关键词之间的实体关系;
根据所述目标词语和所述实体关系生成所述结构化数据。
6.根据权利要求4所述的基于智能纸笔的医疗信息记录方法,其特征在于,所述目标识别结果对应的排版信息包括:所述目标识别结果的文字位置信息和字体信息。
7.根据权利要求4所述的基于智能纸笔的医疗信息记录方法,其特征在于,根据所述目标识别结果和对应的排版信息将所述目标识别结果分割成多个单元,包括:
根据所述目标识别结果和对应的排版信息确定个人信息、主诉、症状、检查结果、处方和治疗记录;
根据所述个人信息、所述主诉、所述症状、所述检查结果、所述处方和所述治疗记录将所述目标识别结果分割成六个单元。
8.根据权利要求1所述的基于智能纸笔的医疗信息记录方法,其特征在于,还包括:
将所述结构化数据发送到终端显示;
接收到对所述结构化数据的确认指令或更新指令,获取所述书写轨迹数据、确认或更新的文本信息训练HMM和DNN。
9.根据权利要求1所述的基于智能纸笔的医疗信息记录方法,其特征在于,还包括:
将所述结构化数据发送到终端显示;
接收到对所述结构化数据的确认指令,对所述结构化数据进行标注作为训练样本用于训练语义分析模型;其中,所述语义分析模型包括信息提取模型、词典和映射模型、以及标准实体库。
10.一种基于智能纸笔的医疗信息记录装置,其特征在于,包括:
获取模块,用于获取智能笔发送的书写轨迹数据;
第一处理模块,用于从所述书写轨迹数据中提取多个轨迹点坐标输入已训练的隐马尔科夫模型HMM进行解码处理,获取第一候选识别结果集合;
第二处理模块,用于从所述书写轨迹数据中提取图像帧序列输入已训练的深度神经网络模型DNN进行解码处理,获取第二候选识别结果集合;
计算模块,用于根据所述第一候选识别结果集合和所述第二候选识别结果集合中每个识别结果和对应的分数值进行计算,确定目标识别结果;
获取存储模块,用于对所述目标识别结果进行语义分析,获取结构化数据,并将所述结构化数据和所述书写轨迹数据存储在数据库中。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110629823.0A CN113469163B (zh) | 2021-06-07 | 2021-06-07 | 一种基于智能纸笔的医疗信息记录方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110629823.0A CN113469163B (zh) | 2021-06-07 | 2021-06-07 | 一种基于智能纸笔的医疗信息记录方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113469163A true CN113469163A (zh) | 2021-10-01 |
CN113469163B CN113469163B (zh) | 2024-03-29 |
Family
ID=77872323
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110629823.0A Active CN113469163B (zh) | 2021-06-07 | 2021-06-07 | 一种基于智能纸笔的医疗信息记录方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113469163B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115187130A (zh) * | 2022-07-29 | 2022-10-14 | 青岛美迪康数字工程有限公司 | 基于鼠标运动轨迹判断工作效率的方法和装置 |
CN116823803A (zh) * | 2023-07-21 | 2023-09-29 | 深圳鑫舟生物信息科技有限公司 | 一种生物补偿理疗系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070090177A1 (en) * | 2005-10-24 | 2007-04-26 | Fuji Xerox Co., Ltd. | Electronic document management system, medical information system, method for printing sheet of chart paper, and sheet of chart paper |
CN109872822A (zh) * | 2019-01-18 | 2019-06-11 | 深圳壹账通智能科技有限公司 | 医疗协助方法、装置、设备及介质 |
CN110928507A (zh) * | 2019-10-24 | 2020-03-27 | 佛山市乐商互联网科技有限公司 | 基于智能书写的同步显示及数据电子化系统及实现方法 |
CN112001236A (zh) * | 2020-07-13 | 2020-11-27 | 上海翎腾智能科技有限公司 | 基于人工智能的书写行为的识别方法及装置 |
CN112486338A (zh) * | 2020-11-23 | 2021-03-12 | 深圳市鹰硕教育服务有限公司 | 医疗信息处理方法、装置及电子设备 |
CN112668541A (zh) * | 2021-01-06 | 2021-04-16 | 青岛鱼之乐教育科技有限公司 | 一种基于点阵笔的智能听写系统及其方法 |
-
2021
- 2021-06-07 CN CN202110629823.0A patent/CN113469163B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070090177A1 (en) * | 2005-10-24 | 2007-04-26 | Fuji Xerox Co., Ltd. | Electronic document management system, medical information system, method for printing sheet of chart paper, and sheet of chart paper |
CN109872822A (zh) * | 2019-01-18 | 2019-06-11 | 深圳壹账通智能科技有限公司 | 医疗协助方法、装置、设备及介质 |
CN110928507A (zh) * | 2019-10-24 | 2020-03-27 | 佛山市乐商互联网科技有限公司 | 基于智能书写的同步显示及数据电子化系统及实现方法 |
CN112001236A (zh) * | 2020-07-13 | 2020-11-27 | 上海翎腾智能科技有限公司 | 基于人工智能的书写行为的识别方法及装置 |
CN112486338A (zh) * | 2020-11-23 | 2021-03-12 | 深圳市鹰硕教育服务有限公司 | 医疗信息处理方法、装置及电子设备 |
CN112668541A (zh) * | 2021-01-06 | 2021-04-16 | 青岛鱼之乐教育科技有限公司 | 一种基于点阵笔的智能听写系统及其方法 |
Non-Patent Citations (1)
Title |
---|
赵文等: "门诊病历原迹捕获、识别、检索、重绘信息系统的研究", 医疗设备信息, no. 10, 28 October 2005 (2005-10-28), pages 5 - 6 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115187130A (zh) * | 2022-07-29 | 2022-10-14 | 青岛美迪康数字工程有限公司 | 基于鼠标运动轨迹判断工作效率的方法和装置 |
CN115187130B (zh) * | 2022-07-29 | 2023-11-21 | 青岛美迪康数字工程有限公司 | 基于鼠标运动轨迹判断工作效率的方法和装置 |
CN116823803A (zh) * | 2023-07-21 | 2023-09-29 | 深圳鑫舟生物信息科技有限公司 | 一种生物补偿理疗系统 |
CN116823803B (zh) * | 2023-07-21 | 2024-01-30 | 深圳鑫舟生物信息科技有限公司 | 一种生物补偿理疗系统 |
Also Published As
Publication number | Publication date |
---|---|
CN113469163B (zh) | 2024-03-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110795543B (zh) | 基于深度学习的非结构化数据抽取方法、装置及存储介质 | |
Kang et al. | Convolve, attend and spell: An attention-based sequence-to-sequence model for handwritten word recognition | |
CN109522546B (zh) | 基于上下文相关的医学命名实体识别方法 | |
CN111191078B (zh) | 基于视频信息处理模型的视频信息处理方法及装置 | |
CN110442841B (zh) | 识别简历的方法及装置、计算机设备、存储介质 | |
CN109871538A (zh) | 一种中文电子病历命名实体识别方法 | |
CN110750959A (zh) | 文本信息处理的方法、模型训练的方法以及相关装置 | |
WO2021135469A1 (zh) | 基于机器学习的信息抽取方法、装置、计算机设备及介质 | |
Sun et al. | Deep LSTM networks for online Chinese handwriting recognition | |
CN111046670B (zh) | 基于毒品案件法律文书的实体及关系联合抽取方法 | |
CN113469163B (zh) | 一种基于智能纸笔的医疗信息记录方法和装置 | |
CN111985243B (zh) | 情感模型的训练方法、情感分析方法、装置及存储介质 | |
Dinarelli et al. | Discriminative reranking for spoken language understanding | |
CN112528649A (zh) | 针对多语言混合文本的英文拼音识别方法和系统 | |
CN111144093A (zh) | 一种智能文本处理方法、装置、电子设备及存储介质 | |
CN111145914B (zh) | 一种确定肺癌临床病种库文本实体的方法及装置 | |
Romero et al. | Modern vs diplomatic transcripts for historical handwritten text recognition | |
CN111680264A (zh) | 一种多文档阅读理解方法 | |
CN117152770A (zh) | 一种面向手写输入的书写能力智能评测方法及系统 | |
Pan et al. | A new dataset for mongolian online handwritten recognition | |
CN115906835B (zh) | 一种基于聚类和对比学习的中文问句文本表示学习的方法 | |
CN111523320A (zh) | 一种基于深度学习的中文病案分词方法 | |
Dhiaf et al. | DocNER: A deep learning system for named entity recognition in handwritten document images | |
Cristea et al. | From scan to text. Methodology, solutions and perspectives of deciphering old cyrillic Romanian documents into the Latin script | |
CN115906878A (zh) | 一种基于提示的机器翻译方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |