CN108257650A - 一种应用于医技检查报告的智能纠错方法 - Google Patents

一种应用于医技检查报告的智能纠错方法 Download PDF

Info

Publication number
CN108257650A
CN108257650A CN201711426176.3A CN201711426176A CN108257650A CN 108257650 A CN108257650 A CN 108257650A CN 201711426176 A CN201711426176 A CN 201711426176A CN 108257650 A CN108257650 A CN 108257650A
Authority
CN
China
Prior art keywords
participle
medical technologies
audit report
nin
merl
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201711426176.3A
Other languages
English (en)
Inventor
贾禄帅
王井俊
简刚
唐武斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NINGBO SCIENCE AND TECHNOLOGY PARK TOMORROW MEDICAL NETWORK TECHNOLOGY Co Ltd
Original Assignee
NINGBO SCIENCE AND TECHNOLOGY PARK TOMORROW MEDICAL NETWORK TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NINGBO SCIENCE AND TECHNOLOGY PARK TOMORROW MEDICAL NETWORK TECHNOLOGY Co Ltd filed Critical NINGBO SCIENCE AND TECHNOLOGY PARK TOMORROW MEDICAL NETWORK TECHNOLOGY Co Ltd
Priority to CN201711426176.3A priority Critical patent/CN108257650A/zh
Publication of CN108257650A publication Critical patent/CN108257650A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/232Orthographic correction, e.g. spell checking or vowelisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种应用于医技检查报告的智能纠错方法,包括预处理过程→训练过程→智能纠错过程,通过使用递归神经网络得到的纠错模型,可以在进行纠错时,既考虑到医技检查报告词库对检测的影响,又考虑到上下文的语义关系;同时在应用纠错模型过程中,采取不同的策略,当分词不在医技检查报告词库中时,由拼音和字形给出可替代当前分词的建议值,当分词在词库中时,由纠错模型判断是否进行纠错处理,并根据上下文语义关系给出相应结果。

Description

一种应用于医技检查报告的智能纠错方法
技术领域
本发明涉及一种纠错方法,特别是一种应用于医技检查报告的智能纠错方法。
背景技术
随着医院信息化建设的发展,检查报告书写的方式已逐步由单一的在纸上书写向无纸化过渡,报告的编辑,管理也更加高效;但不同地区、医院,报告系统中结构化模板的质量存在着较大差异,大多数报告医生还需要手动大量输入检查报告内容。因此,如何对手动输入的报告内容进行分析检测,将是进一步提高报告的准确性和严谨性的重要一步。
传统的解决方法是通过使用当前语境下的词典对输入信息进行分词,查看分词是否在词典中出现,如果没有出现,则证明存在错误录入信息,并对错误录入信息进行纠错。该技术主要的缺点是:查找错误分词时没有充分考虑录入文本的上下文语义信息;提供的预测文字只提供与错误分词的读音相同或者对应按键相同的词语,没有充分考虑上下文的信息。
发明内容
本发明的目的是为了解决上述现有技术的不足而提供一种利用递归神经网络算法充分联系上下文语义信息,并结合纠错策略对获得的医技检查报告进行智能纠错的方法。
为了实现上述目的,本发明所设计的一种应用于医技检查报告的智能纠错方法,包括以下步骤:
步骤1、预处理过程:
1.1、将整个医技检查报告语料库作为训练样本,采用基于字符串匹配和隐马尔可夫模型HMM的中文分词模型CSM对训练样本进行分词,并经过去重和编号处理后,生成医技检查报告词库MERL;其中隐马尔可夫模型HMM是一种统计模型,它用来描述一个含有隐含未知参数的马尔可夫过程。中文分词模型CSM是指将使用自然语言描述的语句按照预定义规则切分成多个单独的词语。
步骤2、训练过程:
2.1、采用中文分词模型CSM对训练样本进行分词,并依据医技检查报告词库MERL对训练样本进行数字化编码,若样本分词不在医技检查报告词库MERL中,则编码为0;
2.2、将编码后的训练样本按3:1:1的比例构建训练集、验证集和测试集;
2.3、将构建好的训练集、验证集和测试集送入到递归神经网络RNN-双层长短期记忆网络LSTM中进行训练,获得纠错模型CM;其中递归神经网络RNN是一种节点定向连接成环的人工神经网络,可以利用它内部的记忆来处理任意时序的输入序列。双层长短期记忆网络LSTM是一种层数为2层的时间递归神经网络。
步骤3、智能纠错过程:
3.1、经过训练得到纠错模型CM后,采用中文分词模型CSM对待检测的医技检查报告进行中文分词,获得n个分词,并用thresh来表示纠错阈值,用nIn来记录纠错过程中分词连续出现在医技检查报告词库MERL的数目;
3.2、依次对得到的分词进行分析纠错,若分词中含有标点符号,则不需要进行纠错;
3.3、若当前第i个分词不在医技检查报告词库MERL,则认为该分词是错误的,概率值Pi=0,并根据拼音和字形给出一组可替代错误分词的建议值;
3.4、若当前第i个分词在医技检查报告词库MERL中,则将i-nIn,…,i共计nIn+1个分词送入纠错模型CM得到第i+1个分词的概率值Pi+1;
若Pi+1<thresh,则将第i+1个分词标注为错误,并给出由纠错模型CM得到的一组可替代错误分词的建议值,,接下来去分析第i+2个分词并将nIn=0;
若Pi+1≥thresh,则认为第i+1个分词是正确的,接下来根据i-nIn,…,i,i+1共计nIn+2个词去分析第i+2个分词,并将nIn =nIn+1;
3.5、当所有分词都分析完成后,智能纠错结束。
若在智能纠错过程中的第i个分词在医技检查报告词库MERL中,但概率值Pi不存在,则令Pi=1。
本发明得到的一种应用于医技检查报告的智能纠错方法,通过使用递归神经网络得到的纠错模型,可以在进行纠错时,既考虑到医技检查报告词库对检测的影响,又考虑到上下文的语义关系;同时在应用纠错模型过程中,采取不同的策略,当分词不在医技检查报告词库中时,由拼音和字形给出可替代当前分词的建议值,当分词在词库中时,由纠错模型判断是否进行纠错处理,并根据上下文语义关系给出相应结果。
附图说明
图1是应用于医技检查报告的智能纠错方法的流程图;
图2是应用于医技检查报告的智能纠错方法的训练流程图;
图3是应用于医技检查报告的智能纠错方法的纠错过程流程图。
具体实施方式
下面结合附图和实施例对本发明进一步说明。
实施例1:
如图1-图3所示,本实施例提供的应用于医技检查报告的智能纠错方法,包括以下步骤:
步骤1、预处理过程:
1.1、将整个医技检查报告语料库作为训练样本,采用基于字符串匹配和隐马尔可夫模型HMM的中文分词模型CSM对训练样本进行分词,并经过去重和编号处理后,生成医技检查报告词库MERL;
步骤2、训练过程:
2.1、采用中文分词模型CSM对训练样本进行分词,并依据医技检查报告词库MERL对训练样本进行数字化编码,若样本分词不在医技检查报告词库MERL中,则编码为0;如样本“两肺纹理略增多,肺野内未见明显病变”应用中文分词模型CSM分词后的结果为“两肺 纹理略 增多 , 肺野 内 未见 明显 病变”,则相应数字化编码后的结果为“41 626 46 65 144 11 3 5 104”。
2.2、将编码后的训练样本按3:1:1的比例构建训练集、验证集和测试集;
2.3、将构建好的训练集、验证集和测试集送入到递归神经网络RNN-双层长短期记忆网络LSTM中进行训练,获得纠错模型CM;
步骤3、智能纠错过程:
3.1、经过训练得到纠错模型CM后,采用中文分词模型CSM对待检测的医技检查报告进行中文分词,获得n个分词,并用thresh来表示纠错阈值,用nIn来记录纠错过程中分词连续出现在医技检查报告词库MERL的数目;
3.2、依次对得到的分词进行分析纠错,若分词中含有标点符号,则不需要进行纠错;
3.3、若当前第i个分词不在医技检查报告词库MERL,则认为该分词是错误的,概率值Pi=0,并根据拼音和字形给出一组可替代错误分词的建议值;
3.4、若当前第i个分词在医技检查报告词库MERL中,则将i-nIn,…,i共计nIn+1个分词送入纠错模型CM得到第i+1个分词的概率值Pi+1
若Pi+1<thresh,则将第i+1个分词标注为错误,并给出由纠错模型CM得到的一组可替代错误分词的建议值,并将nIn=0,接下来去分析第i+2个分词;
若Pi+1≥thresh,则认为第i+1个分词是正确的,接下来根据i-nIn,…,i,i+1共计nIn+2个词去分析第i+2个分词,并将nIn =nIn+1;
3.5、当所有分词都分析完成后,智能纠错结束。
若在智能纠错过程中的第i个分词在医技检查报告词库MERL中,但概率值Pi不存在,则令Pi=1。
具体纠错过程为样本“两肺纹理略增多,肺野内未见明显病变”应用中文分词模型CSM分词后的结果为“两肺 纹理 略 增多 , 肺野 内 未见 明显 病变”,则相应数字化编码后的结果为“41 626 46 65 1 44 11 3 5 104”,其中“两肺”为第1个分词,nIn=0,其对应的“41”在医技检查报告词库MERL中,则将第1个分词“41”送入纠错模型CM得到第2个分词“626(纹理)”的概率值P2
如果P2<thresh,则将第2个分词“626(纹理)”标注为错误,并给出由纠错模型CM得到的一组可替代错误分词的建议值,并将nIn=0,接下来去分析第3个分词;
若P2≥thresh,则第2个分词626(纹理)是正确的,接下来根据“41(两肺)”和“626(纹理)”共计2个词去分析第3个分词,并将nIn =nIn+1。
当所有分词都分析完成后,智能纠错结束。

Claims (2)

1.一种应用于医技检查报告的智能纠错方法,其特征在于,包括以下步骤:
步骤1、预处理过程:
1.1、将整个医技检查报告语料库作为训练样本,采用基于字符串匹配和隐马尔可夫模型HMM的中文分词模型CSM对训练样本进行分词,并经过去重和编号处理后,生成医技检查报告词库MERL;
步骤2、训练过程:
2.1、采用中文分词模型CSM对训练样本进行分词,并依据医技检查报告词库MERL对训练样本进行数字化编码,若样本分词不在医技检查报告词库MERL中,则编码为0;
2.2、将编码后的训练样本按3:1:1的比例构建训练集、验证集和测试集;
2.3、将构建好的训练集、验证集和测试集送入到递归神经网络RNN-双层长短期记忆网络LSTM中进行训练,获得纠错模型CM;
步骤3、智能纠错过程:
3.1、经过训练得到纠错模型CM后,采用中文分词模型CSM对待检测的医技检查报告进行中文分词,获得n个分词,并用thresh来表示纠错阈值,用nIn来记录纠错过程中分词连续出现在医技检查报告词库MERL的数目;
3.2、依次对得到的分词进行分析纠错,若分词中含有标点符号,则不需要进行纠错;
3.3、若当前第i个分词不在医技检查报告词库MERL,则认为该分词是错误的,概率值Pi=0,并根据拼音和字形给出一组可替代错误分词的建议值;
3.4、若当前第i个分词在医技检查报告词库MERL中,则将i-nIn,…,i共计nIn+1个分词送入纠错模型CM得到第i+1个分词的概率值Pi+1;
若Pi+1<thresh,则将第i+1个分词标注为错误,并给出由纠错模型CM得到的一组可替代错误分词的建议值,接下来去分析第i+2个分词,并将nIn=0;
若Pi+1≥thresh,则认为第i+1个分词是正确的,接下来根据i-nIn,…,i,i+1共计nIn+2个词去分析第i+2个分词,并将nIn =nIn+1;
3.5、当所有分词都分析完成后,智能纠错结束。
2.根据权利要求1所述的一种应用于医技检查报告的智能纠错方法,其特征在于:若在智能纠错过程中的第i个分词在医技检查报告词库MERL中,但概率值Pi不存在,则令Pi=1。
CN201711426176.3A 2017-12-26 2017-12-26 一种应用于医技检查报告的智能纠错方法 Pending CN108257650A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711426176.3A CN108257650A (zh) 2017-12-26 2017-12-26 一种应用于医技检查报告的智能纠错方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711426176.3A CN108257650A (zh) 2017-12-26 2017-12-26 一种应用于医技检查报告的智能纠错方法

Publications (1)

Publication Number Publication Date
CN108257650A true CN108257650A (zh) 2018-07-06

Family

ID=62724016

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711426176.3A Pending CN108257650A (zh) 2017-12-26 2017-12-26 一种应用于医技检查报告的智能纠错方法

Country Status (1)

Country Link
CN (1) CN108257650A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110362824A (zh) * 2019-06-24 2019-10-22 广州多益网络股份有限公司 一种自动纠错的方法、装置、终端设备及存储介质
CN110556173A (zh) * 2019-08-09 2019-12-10 刘丽丽 一种检查报告单智能分类管理系统及方法
CN110705262A (zh) * 2019-09-06 2020-01-17 宁波市科技园区明天医网科技有限公司 一种改进的应用于医技检查报告的智能纠错方法
CN111710386A (zh) * 2020-04-30 2020-09-25 上海数创医疗科技有限公司 一种心电图诊断报告的质控系统
CN111710387A (zh) * 2020-04-30 2020-09-25 上海数创医疗科技有限公司 一种心电图诊断报告的质控方法
CN112420148A (zh) * 2020-11-24 2021-02-26 北京一脉阳光医学信息技术有限公司 一种基于人工智能的医学影像报告质控系统、方法及介质
CN114707501A (zh) * 2022-04-24 2022-07-05 上海辉明软件有限公司 医学影像报告不合法词概率统计方法、装置及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102156551A (zh) * 2011-03-30 2011-08-17 北京搜狗科技发展有限公司 一种字词输入的纠错方法及系统
US9075796B2 (en) * 2012-05-24 2015-07-07 International Business Machines Corporation Text mining for large medical text datasets and corresponding medical text classification using informative feature selection
CN105550171A (zh) * 2015-12-31 2016-05-04 北京奇艺世纪科技有限公司 一种垂直搜索引擎的查询信息纠错方法和系统
CN106527756A (zh) * 2016-10-26 2017-03-22 长沙军鸽软件有限公司 一种对输入信息进行智能纠错的方法及装置
CN106776501A (zh) * 2016-12-13 2017-05-31 深圳爱拼信息科技有限公司 一种文本错别字自动更正方法和服务器

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102156551A (zh) * 2011-03-30 2011-08-17 北京搜狗科技发展有限公司 一种字词输入的纠错方法及系统
US9075796B2 (en) * 2012-05-24 2015-07-07 International Business Machines Corporation Text mining for large medical text datasets and corresponding medical text classification using informative feature selection
CN105550171A (zh) * 2015-12-31 2016-05-04 北京奇艺世纪科技有限公司 一种垂直搜索引擎的查询信息纠错方法和系统
CN106527756A (zh) * 2016-10-26 2017-03-22 长沙军鸽软件有限公司 一种对输入信息进行智能纠错的方法及装置
CN106776501A (zh) * 2016-12-13 2017-05-31 深圳爱拼信息科技有限公司 一种文本错别字自动更正方法和服务器

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110362824A (zh) * 2019-06-24 2019-10-22 广州多益网络股份有限公司 一种自动纠错的方法、装置、终端设备及存储介质
CN110362824B (zh) * 2019-06-24 2022-12-02 广州多益网络股份有限公司 一种自动纠错的方法、装置、终端设备及存储介质
CN110556173A (zh) * 2019-08-09 2019-12-10 刘丽丽 一种检查报告单智能分类管理系统及方法
CN110705262A (zh) * 2019-09-06 2020-01-17 宁波市科技园区明天医网科技有限公司 一种改进的应用于医技检查报告的智能纠错方法
CN110705262B (zh) * 2019-09-06 2023-08-29 宁波市科技园区明天医网科技有限公司 一种改进的应用于医技检查报告的智能纠错方法
CN111710386A (zh) * 2020-04-30 2020-09-25 上海数创医疗科技有限公司 一种心电图诊断报告的质控系统
CN111710387A (zh) * 2020-04-30 2020-09-25 上海数创医疗科技有限公司 一种心电图诊断报告的质控方法
CN112420148A (zh) * 2020-11-24 2021-02-26 北京一脉阳光医学信息技术有限公司 一种基于人工智能的医学影像报告质控系统、方法及介质
CN114707501A (zh) * 2022-04-24 2022-07-05 上海辉明软件有限公司 医学影像报告不合法词概率统计方法、装置及存储介质

Similar Documents

Publication Publication Date Title
CN108257650A (zh) 一种应用于医技检查报告的智能纠错方法
CN107133220B (zh) 一种地理学科领域命名实体识别方法
CN110032648B (zh) 一种基于医学领域实体的病历结构化解析方法
CN110489760B (zh) 基于深度神经网络文本自动校对方法及装置
CN110019839B (zh) 基于神经网络和远程监督的医学知识图谱构建方法和系统
CN103853710B (zh) 一种基于协同训练的双语命名实体识别方法
CN103154936B (zh) 用于自动化文本校正的方法和系统
CN107678561A (zh) 基于人工智能的语音输入纠错方法及装置
CN106682397A (zh) 一种基于知识的电子病历质控方法
CN110807328A (zh) 面向法律文书多策略融合的命名实体识别方法及系统
US20220164531A1 (en) Quality assessment method for automatic annotation of speech data
CN106844351B (zh) 一种面向多数据源的医疗机构组织类实体识别方法及装置
CN109858042B (zh) 一种翻译质量的确定方法及装置
CN109918670A (zh) 一种文章查重方法及系统
CN109948144B (zh) 一种基于课堂教学情境的教师话语智能处理的方法
CN103186658B (zh) 用于英语口语考试自动评分的参考语法生成方法和设备
Lagakis et al. Automated essay scoring: A review of the field
CN109271642B (zh) 文本要点检测方法、装置、设备、存储介质及评估方法
CN111026884A (zh) 一种提升人机交互对话语料质量与多样性的对话语料库生成方法
CN110705262A (zh) 一种改进的应用于医技检查报告的智能纠错方法
CN106610937A (zh) 一种基于信息论的中文自动分词算法
CN115034218A (zh) 一种基于多阶段训练和编辑级别投票的中文语法错误诊断方法
CN114925170B (zh) 文本校对模型训练方法及装置、计算设备
CN113221542A (zh) 一种基于多粒度融合与Bert筛选的中文文本自动校对方法
CN115658898A (zh) 一种中英文本实体关系抽取方法、系统及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20180706