CN109524121A - 医疗文件处理方法与装置 - Google Patents
医疗文件处理方法与装置 Download PDFInfo
- Publication number
- CN109524121A CN109524121A CN201811331998.8A CN201811331998A CN109524121A CN 109524121 A CN109524121 A CN 109524121A CN 201811331998 A CN201811331998 A CN 201811331998A CN 109524121 A CN109524121 A CN 109524121A
- Authority
- CN
- China
- Prior art keywords
- vocabulary
- symptom
- medical records
- diagnosis
- classification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Public Health (AREA)
- Medical Informatics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Pathology (AREA)
- Artificial Intelligence (AREA)
- Epidemiology (AREA)
- Primary Health Care (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本公开提供一种医疗文件处理方法与装置。医疗文件处理方法包括:按与医疗文件对应的预设文档格式确定多个描述类对应的多个字符串;对所述多个字符串进行分词并根据预设词汇表标注词汇类别,记录症状词汇和诊断词汇;按照所述描述类对应的句型模版对所述描述类对应的字符串进行识别,在未被标注词汇类别的词汇中确认症状词汇;记录各所述描述类的症状词汇与所述诊断词汇的词汇对应关系。本公开提供的医疗文件处理方法可以根据大量病历文件分析症状与诊断之间的关系。
Description
技术领域
本公开涉及数据处理技术领域,具体而言,涉及一种医疗文件处理方法与装置。
背景技术
症状(symptom)是诊断、鉴别诊断的线索和依据,也是反映病情的重要指标之一。疾病的症状很多,同一疾病可有不同的症状(例如,消化性溃疡可有腹痛、反酸、烧心、腹胀等症状),不同的疾病又可有某些相同的症状(例如,消化性溃疡、胆囊炎、宫外孕都可有腹痛症状)。因此,在诊断疾病时需要结合所有临床资料进行综合分析,不能单凭某一个或几个症状而做出诊断。
目前在中文医学领域中,症状术语识别面临两大问题。一是标准术语量少,不能覆盖临床实际使用的术语。目前仅有国际疾病分类(ICD-10)中第18章涉及症状、体征词,以及Medra涉及部分药物不良反应相关的症状词。因为临床数据是非结构化数据,症状的表达方式灵活多变,难以通过标准术语完全涵盖症状。二是现有症状分类词表结构简单,较难支持复杂的临床决策。例如ICD10中,腹痛的分类信息只有“累及消化系统和腹部的症状和体征”和“腹部和盆腔痛”分类,这些信息对有腹痛症状的不同疾病(如消化性溃疡、胆囊炎、宫外孕)并无鉴别价值。目前在国外术语领域中,最权威、广泛认可的医学术语是SNOMED CT,是关系型术语体系,其核心思想是表达临床思维。目前该SNOMED CT中与症状建立关系的属性主要是发现部位、临床发现。总而言之,现有技术存在症状术语量不足、症状描述不精确的问题。
因此,从临床诊断思维出发,分析症状与症状、症状与属性(诱因、性质、程度、部位、发作特点等)、症状与疾病的关系具有重要价值。
需要说明的是,在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
本公开的目的在于提供一种医疗文件处理方法与医疗文件处理装置,用于至少在一定程度上克服由于相关技术的限制和缺陷而导致的标准症状术语少、症状与诊断之间关系记录少的问题。
根据本公开实施例的第一方面,提供一种医疗文件处理方法,包括:按与医疗文件对应的预设文档格式确定多个描述类对应的多个字符串;对所述多个字符串进行分词并根据预设词汇表标注词汇类别,记录症状词汇和诊断词汇;按照所述描述类对应的句型模版对所述描述类对应的字符串进行识别,在未被标注词汇类别的词汇中确认症状词汇;记录各所述描述类的症状词汇与所述诊断词汇的词汇对应关系。
在本公开的一种示例性实施例中,所述按与医疗文件对应的预设文档格式确定多个描述类对应的多个字符串包括:
根据预设病历格式确定病历中的诊断、主诉以及现病史对应的。
在本公开的一种示例性实施例中,所述按照所述描述类对应的句型模版对所述描述类对应的字符串进行识别,在未被标注词汇类别的词汇中确认症状词汇包括:
根据所述字符串的词汇类别标注结果在对应于所述字符串的多个句型模板里确认匹配句型模板;
在所述字符串中存在未被标注词汇类别的未分类词汇时,根据所述匹配句型模板以及所述词汇类别标注结果确定所述未分类词汇的词汇类别;
在所述未分类词汇的词汇类别为症状词汇时,将所述未分类词汇写入所述预设词汇表并对所述医疗文件中的所有所述未分类词汇标注词性。
在本公开的一种示例性实施例中,所述记录各所述描述类的症状词汇与所述诊断词汇的词汇对应关系包括:
确认各描述类对应的症状词汇以及时间词汇;
根据各所述描述类对应的症状词汇是否匹配来确认核心症状、伴随症状,根据各所述描述类同一分句中症状词汇前有无否定词汇来确认阴性症状;
记录所述核心症状、所述伴随症状、所述阴性症状和所述时间词汇与所述诊断词汇的词汇。
在本公开的一种示例性实施例中,所述根据各所述描述类对应的症状词汇是否匹配来确认核心症状、伴随症状,根据各所述描述类同一分句中症状词汇前有无否定词汇来确认阴性症状包括:
确定主诉以及现病史对应的症状词汇;
根据所述现病史同一分句中症状词汇前有无否定词汇,判断所述现病史对应的症状词汇是阳性症状词汇还是阴性症状词汇;
将所述主诉对应的症状词汇记录为核心症状,将所述阳性症状词汇中除所述核心症状之外的症状词汇记录为伴随症状,将所述阴性症状词汇记录为阴性症状。
在本公开的一种示例性实施例中,所述记录所述核心症状、所述伴随症状、所述阴性症状和所述时间词汇与所述诊断词汇的词汇对应关系包括:
根据所述时间词汇确定所述核心症状、所述伴随症状、所述阴性症状的持续时间和发生顺序;
对所述诊断词汇对应记录所述核心症状、所述伴随症状、所述阴性症状的持续时间和发生顺序。
在本公开的一种示例性实施例中,还包括:
根据多个医疗文件的所述词汇对应关系获取诊断词汇与症状词汇的相关关系。
根据本公开实施例的第二方面,提供一种医疗文件处理装置,包括:
段落分类模块,设置为按与医疗文件对应的预设文档格式确定多个描述类对应的多个字符串;
词汇分类模块,设置为对所述多个字符串进行分词并根据预设词汇表标注词汇类别,记录症状词汇和诊断词汇;
词汇扩充模块,设置为按照所述描述类对应的句型模版对所述描述类对应的字符串进行识别,在未被标注词汇类别的词汇中确认症状词汇;
关联匹配模块,设置为记录各所述描述类的症状词汇与所述诊断词汇的词汇对应关系。
根据本公开的第三方面,提供一种医疗文件处理装置,包括:存储器;以及耦合到所属存储器的处理器,所述处理器被配置为基于存储在所述存储器中的指令,执行如上述任意一项所述的方法。
根据本公开的第四方面,提供一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时实现如上述任意一项所述的医疗文件处理方法。
本公开实施例提供的医疗文件处理方法可以通过对大量医疗文件进行描述分类、分词、词性标注、模板匹配等操作建立专业的症状用词词库;通过对症状用词进行分类与分析,可以建立诊断用词与症状用词之间的词汇对应关系,为进一步医学大数据分析提供数据基础。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本公开示例性实施例中医疗文件处理方法的流程图。
图2是本公开示例性实施例中医疗文件处理方法的子流程图。
图3是本公开示例性实施例中医疗文件处理方法的子流程图。
图4是本公开示例性实施例中医疗文件处理方法的子流程图。
图5是本公开示例性实施例中医疗文件处理方法的子流程图。
图6是本公开一个示例性实施例中一种医疗文件处理装置的方框图。
图7是本公开一个示例性实施例中一种电子设备的方框图。
图8是本公开一个示例性实施例中一种计算机可读存储介质的示意图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本公开将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中,提供许多具体细节从而给出对本公开的实施方式的充分理解。然而,本领域技术人员将意识到,可以实践本公开的技术方案而省略所述特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知技术方案以避免喧宾夺主而使得本公开的各方面变得模糊。
此外,附图仅为本公开的示意性图解,图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
下面结合附图对本公开示例实施方式进行详细说明。
图1示意性示出本公开示例性实施例中医疗文件处理方法的流程图。参考图1,医疗文件处理方法100可以包括:
步骤S102,按与医疗文件对应的预设文档格式确定多个描述类对应的多个字符串;
步骤S104,对所述多个字符串进行分词并根据预设词汇表标注词汇类别,记录症状词汇和诊断词汇;
步骤S106,按照所述描述类对应的句型模版对所述描述类对应的字符串进行识别,在未被标注词汇类别的词汇中确认症状词汇;
步骤S108,记录各所述描述类的症状词汇与所述诊断词汇的词汇对应关系。
本公开实施例提供的医疗文件处理方法可以通过对大量医疗文件进行描述分类、分词、词性标注、模板匹配等操作建立专业的症状用词词库;通过对症状用词进行分类与分析,可以建立诊断用词与症状用词之间词汇的对应关系,为进一步医学大数据分析提供数据基础。
下面,对医疗文件处理方法100的各步骤进行详细说明。
在步骤S102,按与医疗文件对应的预设文档格式确定多个描述类对应的多个字符串。
本公开涉及的医疗文件例如可以为病历文件等专业医生出具的医疗文件。在一些实施例中,可以直接使用电子病历进行分析,在另一些实施例中,也可以通过扫描纸质病历文件并对扫描图片进行OCR识别生成电子版的病历信息,进而对这些病历信息进行分析。无论是电子病历还是电子版的病历信息,由于其来源集中,具有较规范的文档格式,可以使用与其对应的文档格式将字符按记录位置进行分类。
在本公开的示例性实施例中,描述类指的是医疗文件中语句描述对象的种类,例如病例文件中的患者姓名、年龄、诊断、主诉以及现病史等等均为描述类。因此,步骤S102可以包括根据预设病历格式确定病历中的诊断、主诉以及现病史对应的字符串。例如,可以通过预设病历格式识别电子病历,准确定位诊断意见、主诉、现病史等位置对应的字符串,进而采取有针对性的分析。对于来源是手写文字的病历信息,可以粗略定位患者基本信息、医生手写信息等基本描述类,再通过分词和模板定位等方式对各描述类进行进一步分析和分类。
在步骤S104,对所述多个字符串进行分词并根据预设词汇表标注词汇类别,记录症状词汇和诊断词汇。
对于每一描述类对应的字符串,例如诊断对应的字符串,可以首先对该字符串进行分词处理。分词的方法例如可以通过预设词汇表在该字符串中查询匹配词汇,并将匹配词汇按照字符串中字符排列顺序排列。
接下来,还可以根据预设词汇表中对各类词汇的分类标注词汇类别,在本公开实施例中,词汇类别例如可以包括症状词汇、时间词汇、诊断词汇等,其中,症状词汇又可以细分为症状方位词汇、症状部位词汇、症状发作特点等。例如,对于主诉描述类对应的字符串“上腹部阵痛一天”的分词结果可以为“上”“腹部”“阵痛”、“一天”,词性标注结果例如可以为“症状方位词汇”“症状部位词汇”“症状发作特点”“时间词汇”等症状词汇与时间词汇的组合。同理,对于诊断描述类对应的字符串,可以根据分词结果和词性标注结果获取诊断词汇,例如“胃炎”。
在步骤S106,按照所述描述类对应的句型模版对所述描述类对应的字符串进行识别,在未被标注词汇类别的词汇中确认症状词汇。
图2是本公开实施例中步骤S106的子流程图。
参考图2,在一个实施例中,步骤S106可以包括:
步骤S1062,根据所述字符串的词汇类别标注结果在对应于所述字符串的多个句型模板里确认匹配句型模板;
步骤S1064,在所述字符串中存在未被标注词汇类别的未分类词汇时,根据所述匹配句型模板以及所述词汇类别标注结果确定所述未分类词汇的词汇类别;
步骤S1066,在所述未分类词汇的词汇类别为症状词汇时,将所述未分类词汇写入所述预设词汇表并对所述医疗文件中的所有所述未分类词汇标注词性。
对于非电子病历等来源较杂的病历而言,字符串中有可能存在无法在预设词汇表中找到匹配词的词汇,因此,需要进一步通过模板匹配来确认未知词汇、扩充预设词汇表。由于医疗文件由专业医生书写,各描述类对应的文字往往具有固定的句型模板,可以根据与描述类对应的模板对描述类中的分词进行匹配。
例如,对于主诉描述类,“左下肢浮肿三天”字符串,如果预设词汇表中不包括“浮肿”一词,且分词和词性标注结果为“症状方位词汇”+“症状部位词汇”+“浮肿”+“时间词汇”,则可以根据主诉描述类对应的多个句型模板确认词性位置最匹配的句型模板:“症状方位+症状部位+症状属性+时间词汇”。接下来,可以根据该句型模板确定“浮肿”的词汇类别为症状属性词汇。
如果识别出了一个新的症状词汇,为提高效率,可以将新的症状词汇写入预设词汇表,并将识别结果应用于当前医疗文件,对当前医疗文件中的该词汇均予以标注。在一些实施例中,还可以在确定未分类词汇的词汇类别的过程中加入人工审核,在人工审核结果确认该新词汇的词汇类别识别结果时记录新词汇的词性。
在步骤S108,记录各所述描述类的症状词汇与所述诊断词汇的词汇对应关系。
图3是本公开实施例中步骤S108的一个子流程图。
参考图3,在一个实施例中,步骤S108可以包括:
步骤S1082,确认各描述类对应的症状词汇以及时间词汇;
步骤S1084,根据各所述描述类对应的症状词汇是否匹配来确认核心症状、伴随症状,根据各所述描述类同一分句中症状词汇前有无否定词汇来确认阴性症状;
步骤S1086,记录所述核心症状、所述伴随症状、所述阴性症状和所述时间词汇与所述诊断词汇的对应关系。
在本公开实施例中,可以通过记录症状与诊断的关系为医疗数据分析提供数据基础。首先,可以确定各症状词汇对应的时间词汇,确定症状与时间的关系。时间词汇例如可以为发病时间、持续时间等时间点或时间段。通过对时间点进行确认,可以理清症状的发生顺序,通过对时间段进行记录,可以确定症状程度和症状持续时间对病情的影响程度。
接下来,可以详细分析各类症状。
图4是本公开实施例中步骤S1084的一个子流程图。
参考图4,在一个实施例中,步骤S1084可以包括:
步骤S10842,确定主诉以及现病史对应的症状词汇;
步骤S10844,根据所述现病史同一分句中症状词汇前有无否定词汇,判断所述现病史对应的症状词汇是阳性症状词汇还是阴性症状词汇;
步骤S10846,将所述主诉对应的症状词汇记录为核心症状,将所述阳性症状词汇中除所述核心症状之外的症状词汇记录为伴随症状,将所述阴性症状词汇记录为阴性症状。
在确定主诉和现病史对应的症状词汇后,可以将主诉对应的症状词汇标记为核心症状,然后将现病史同一分句中词前没有否定性修饰词(不、没有、无)的症状词汇标记为阳性症状,将症状词汇前有否定词的症状词汇标记为阴性症状。例如,文本描述为“患者间断胸痛、出汗,不伴恶心、呕吐、头晕”,则记录症状“胸痛、出汗”为阳性症状,“恶心、呕吐、头晕”为阴性症状。
由于现病史的内容是对主诉内容的详细说明,现病史的症状词汇等于或多于主诉的症状词汇。比如主诉写“腹部疼痛”,现病史写“阵发性腹部疼痛”,多出来的“阵发性”是症状属性“发作特点”。因此,阳性症状可能包括核心症状、伴随症状。可以进一步将阳性症状中除核心症状对应的症状词汇以外的症状词汇记录为伴随症状。
最后,根据以上的综合分析过程,记录时间与症状种类和诊断结果的影响。
图5是本公开实施例中步骤S1086的一个子流程图。
参考图5,在一个实施例中,步骤S1086可以包括:
步骤S10862,根据所述时间词汇确定所述核心症状、所述伴随症状、所述阴性症状的持续时间和发生顺序;
步骤S10864,对所述诊断词汇对应记录所述核心症状、所述伴随症状、所述阴性症状的持续时间和发生顺序。
在本公开实施例中,可以按照症状发生顺序记录与诊断词汇对应的各种类症状的持续时间,以为进一步数据分析提供清晰有条理的数据支持。
在记录了症状与诊断的词汇对应关系后,还可以根据多个医疗文件的这些词汇对应关系获取诊断词汇与症状词汇的相关关系,计算症状与疾病的相关系数,进而通过数据挖掘手段筛选出对与各类疾病相关性最高的几个症状,为智能诊断、疾病分析等提供支持。
对应于上述方法实施例,本公开还提供一种医疗文件处理装置,可以用于执行上述方法实施例。
图6示意性示出本公开一个示例性实施例中一种医疗文件处理装置的方框图。
参考图6,医疗文件处理装置600可以包括:
段落分类模块602,设置为按与医疗文件对应的预设文档格式确定多个描述类对应的多个字符串;
词汇分类模块604,设置为对所述多个字符串进行分词并根据预设词汇表标注词汇类别,记录症状词汇和诊断词汇;
词汇扩充模块606,设置为按照所述描述类对应的句型模版对所述描述类对应的字符串进行识别,在未被标注词汇类别的词汇中确认症状词汇;
关联匹配模块608,设置为记录各所述描述类的症状词汇与所述诊断词汇的词汇对应关系。
在本公开的一种示例性实施例中,段落分类模块602设置为根据预设病历格式确定病历中的诊断、主诉以及现病史对应的字符串。
在本公开的一种示例性实施例中,词汇扩充模块606包括:
模板确定单元6062,设置为根据所述字符串的词汇类别标注结果在对应于所述字符串的多个句型模板里确认匹配句型模板;
模板匹配单元6064,设置为在所述字符串中存在未被标注词汇类别的未分类词汇时,根据所述匹配句型模板以及所述词汇类别标注结果确定所述未分类词汇的词汇类别;
适应修改单元6066,设置为在所述未分类词汇的词汇类别为症状词汇时,将所述未分类词汇写入所述预设词汇表并对所述医疗文件中的所有所述未分类词汇标注词性。
在本公开的一种示例性实施例中,关联匹配模块608包括:
词汇确定单元6082,设置为确认各描述类对应的症状词汇以及时间词汇;
症状确定单元6084,设置为根据各所述描述类对应的症状词汇是否匹配来确认核心症状、伴随症状,根据各所述描述类同一分句中症状词汇前有无否定词汇来确认阴性症状;
对应记录单元6086,设置为记录所述核心症状、所述伴随症状、所述阴性症状和所述时间词汇与所述诊断词汇的词汇对应关系。
在本公开的一种示例性实施例中,症状确定单元6084设置为:
确定主诉以及现病史对应的症状词汇;
根据所述现病史同一分句中症状词汇前有无否定词汇,判断所述现病史对应的症状词汇是阳性症状词汇还是阴性症状词汇;
将所述主诉对应的症状词汇记录为核心症状,将所述阳性症状词汇中除所述核心症状之外的症状词汇记录为伴随症状,将所述阴性症状词汇记录为阴性症状。
在本公开的一种示例性实施例中,对应记录单元6086设置为:
根据所述时间词汇确定所述核心症状、所述伴随症状、所述阴性症状的持续时间和发生顺序;
对所述诊断词汇对应记录所述核心症状、所述伴随症状、所述阴性症状的持续时间和发生顺序。
在本公开的一种示例性实施例中,还包括:
数据分析模块610,设置为根据多个医疗文件的所述对应关系获取诊断词汇与症状词汇的相关关系。
由于装置600的各功能已在其对应的方法实施例中予以详细说明,本公开于此不再赘述。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本公开的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
在本公开的示例性实施例中,还提供了一种能够实现上述方法的电子设备。
所属技术领域的技术人员能够理解,本发明的各个方面可以实现为系统、方法或程序产品。因此,本发明的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。
下面参照图7来描述根据本发明的这种实施方式的电子设备700。图7显示的电子设备700仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图7所示,电子设备700以通用计算设备的形式表现。电子设备700的组件可以包括但不限于:上述至少一个处理单元710、上述至少一个存储单元720、连接不同系统组件(包括存储单元720和处理单元710)的总线730。
其中,所述存储单元存储有程序代码,所述程序代码可以被所述处理单元710执行,使得所述处理单元710执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的步骤。例如,所述处理单元710可以执行如图1中所示的步骤S102:按与医疗文件对应的预设文档格式确定多个描述类对应的多个字符串;步骤S104:对所述多个字符串进行分词并根据预设词汇表标注词汇类别,记录症状词汇和诊断词汇;步骤S106:按照所述描述类对应的句型模版对所述描述类对应的字符串进行识别,在未被标注词汇类别的词汇中确认症状词汇;步骤S108:记录各所述描述类的症状词汇与所述诊断词汇的词汇对应关系。
存储单元720可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(RAM)7201和/或高速缓存存储单元7202,还可以进一步包括只读存储单元(ROM)7203。
存储单元720还可以包括具有一组(至少一个)程序模块7205的程序/实用工具7204,这样的程序模块7205包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
总线730可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
电子设备700也可以与一个或多个外部设备900(例如键盘、指向设备、蓝牙设备等)通信,还可与一个或者多个使得用户能与该电子设备700交互的设备通信,和/或与使得该电子设备700能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口750进行。并且,电子设备700还可以通过网络适配器760与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器760通过总线730与电子设备700的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备700使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本公开实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本公开实施方式的方法。
在本公开的示例性实施例中,还提供了一种计算机可读存储介质,其上存储有能够实现本说明书上述方法的程序产品。在一些可能的实施方式中,本发明的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在终端设备上运行时,所述程序代码用于使所述终端设备执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的步骤。
参考图8所示,描述了根据本发明的实施方式的用于实现上述方法的程序产品800,其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在终端设备,例如个人电脑上运行。然而,本发明的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
此外,上述附图仅是根据本发明示例性实施例的方法所包括的处理的示意性说明,而不是限制目的。易于理解,上述附图所示的处理并不表明或限制这些处理的时间顺序。另外,也易于理解,这些处理可以是例如在多个模块中同步或异步执行的。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和构思由权利要求指出。
Claims (10)
1.一种医疗文件处理方法,其特征在于,包括:
按与医疗文件对应的预设文档格式确定多个描述类对应的多个字符串;
对所述多个字符串进行分词并根据预设词汇表标注词汇类别,记录症状词汇和诊断词汇;
按照所述描述类对应的句型模版对所述描述类对应的字符串进行识别,在未被标注词汇类别的词汇中确认症状词汇;
记录各所述描述类的症状词汇与所述诊断词汇的词汇对应关系。
2.如权利要求1所述的医疗文件处理方法,其特征在于,所述按与医疗文件对应的预设文档格式确定多个描述类对应的多个字符串包括:
根据预设病历格式确定病历中的诊断、主诉以及现病史对应的字符串。
3.如权利要求1所述的医疗文件处理方法,其特征在于,所述按照所述描述类对应的句型模版对所述描述类对应的字符串进行识别,在未被标注词汇类别的词汇中确认症状词汇包括:
根据所述字符串的词汇类别标注结果在对应于所述字符串的多个句型模板里确认匹配句型模板;
在所述字符串中存在未被标注词汇类别的未分类词汇时,根据所述匹配句型模板以及所述词汇类别标注结果确定所述未分类词汇的词汇类别;
在所述未分类词汇的词汇类别为症状词汇时,将所述未分类词汇写入所述预设词汇表并对所述医疗文件中的所有所述未分类词汇标注词性。
4.如权利要求1所述的医疗文件处理方法,其特征在于,所述记录各所述描述类的症状词汇与所述诊断词汇的词汇对应关系包括:
确认各描述类对应的症状词汇以及时间词汇;
根据各所述描述类对应的症状词汇是否匹配来确认核心症状、伴随症状,根据各所述描述类同一分句中症状词汇前有无否定词汇来确认阴性症状;
记录所述核心症状、所述伴随症状、所述阴性症状和所述时间词汇与所述诊断词汇的词汇对应关系。
5.如权利要求4所述的医疗文件处理方法,其特征在于,所述根据各所述描述类对应的症状词汇是否匹配来确认核心症状、伴随症状,根据各所述描述类同一分句中症状词汇前有无否定词汇来确认阴性症状包括:
确定主诉以及现病史对应的症状词汇;
根据所述现病史同一分句中症状词汇前有无否定词汇,判断所述现病史对应的症状词汇是阳性症状词汇还是阴性症状词汇;
将所述主诉对应的症状词汇记录为核心症状,将所述阳性症状词汇中除所述核心症状之外的症状词汇记录为伴随症状,将所述阴性症状词汇记录为阴性症状。
6.如权利要求4所述的医疗文件处理方法,其特征在于,所述记录所述核心症状、所述伴随症状、所述阴性症状和所述时间词汇与所述诊断词汇的词汇对应关系包括:
根据所述时间词汇确定所述核心症状、所述伴随症状、所述阴性症状的持续时间和发生顺序;
对所述诊断词汇对应记录所述核心症状、所述伴随症状、所述阴性症状的持续时间和发生顺序。
7.如权利要求1所述的医疗文件处理方法,其特征在于,还包括:
根据多个医疗文件的所述词汇对应关系获取诊断词汇与症状词汇的相关关系。
8.一种医疗文件处理装置,其特征在于,包括:
段落分类模块,设置为按与医疗文件对应的预设文档格式确定多个描述类对应的多个字符串;
词汇分类模块,设置为对所述多个字符串进行分词并根据预设词汇表标注词汇类别,记录症状词汇和诊断词汇;
词汇扩充模块,设置为按照所述描述类对应的句型模版对所述描述类对应的字符串进行识别,在未被标注词汇类别的词汇中确认症状词汇;
关联匹配模块,设置为记录各所述描述类的症状词汇与所述诊断词汇的词汇对应关系。
9.一种电子设备,其特征在于,包括:
存储器;以及
耦合到所属存储器的处理器,所述处理器被配置为基于存储在所述存储器中的指令,执行如权利要求1-7任一项所述的医疗文件处理方法。
10.一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如权利要求1-7任一项所述的医疗文件处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811331998.8A CN109524121B (zh) | 2018-11-09 | 2018-11-09 | 医疗文件处理方法与装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811331998.8A CN109524121B (zh) | 2018-11-09 | 2018-11-09 | 医疗文件处理方法与装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109524121A true CN109524121A (zh) | 2019-03-26 |
CN109524121B CN109524121B (zh) | 2020-11-10 |
Family
ID=65774025
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811331998.8A Active CN109524121B (zh) | 2018-11-09 | 2018-11-09 | 医疗文件处理方法与装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109524121B (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110263168A (zh) * | 2019-06-20 | 2019-09-20 | 北京百度网讯科技有限公司 | 症状词分类方法、装置以及终端 |
CN111028951A (zh) * | 2019-11-13 | 2020-04-17 | 上海中医药大学 | 一种用于中医诊断检索显示、评估的方法及设备 |
CN111079420A (zh) * | 2019-12-19 | 2020-04-28 | 天津新开心生活科技有限公司 | 文本识别方法、装置、计算机可读介质及电子设备 |
CN111091915A (zh) * | 2019-12-24 | 2020-05-01 | 医渡云(北京)技术有限公司 | 医疗数据处理方法及装置、存储介质、电子设备 |
CN111785386A (zh) * | 2020-06-30 | 2020-10-16 | 安徽科大讯飞医疗信息技术有限公司 | 时间区间段的划分方法、相关设备及可读存储介质 |
CN111966794A (zh) * | 2020-03-31 | 2020-11-20 | 复旦大学附属中山医院 | 一种诊疗数据的识别方法、系统和装置 |
CN112800173A (zh) * | 2021-04-14 | 2021-05-14 | 北京金山云网络技术有限公司 | 标准化数据库和医学文本库的构建方法、装置及电子设备 |
CN113496124A (zh) * | 2021-07-08 | 2021-10-12 | 上海信医科技有限公司 | 医疗文书的语义分析方法、装置、电子设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103678371A (zh) * | 2012-09-14 | 2014-03-26 | 富士通株式会社 | 词库更新装置、数据整合装置和方法以及电子设备 |
CN105302796A (zh) * | 2015-11-23 | 2016-02-03 | 浪潮软件股份有限公司 | 一种基于依存树的语义分析方法 |
CN106897559A (zh) * | 2017-02-24 | 2017-06-27 | 黑龙江特士信息技术有限公司 | 一种面向多数据源的症状体征类实体识别方法及装置 |
CN108320808A (zh) * | 2018-01-24 | 2018-07-24 | 龙马智芯(珠海横琴)科技有限公司 | 病历分析方法和装置、设备、计算机可读存储介质 |
CN108538395A (zh) * | 2018-04-02 | 2018-09-14 | 上海市儿童医院 | 一种通用的医疗专病数据系统的构建方法 |
-
2018
- 2018-11-09 CN CN201811331998.8A patent/CN109524121B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103678371A (zh) * | 2012-09-14 | 2014-03-26 | 富士通株式会社 | 词库更新装置、数据整合装置和方法以及电子设备 |
CN105302796A (zh) * | 2015-11-23 | 2016-02-03 | 浪潮软件股份有限公司 | 一种基于依存树的语义分析方法 |
CN106897559A (zh) * | 2017-02-24 | 2017-06-27 | 黑龙江特士信息技术有限公司 | 一种面向多数据源的症状体征类实体识别方法及装置 |
CN108320808A (zh) * | 2018-01-24 | 2018-07-24 | 龙马智芯(珠海横琴)科技有限公司 | 病历分析方法和装置、设备、计算机可读存储介质 |
CN108538395A (zh) * | 2018-04-02 | 2018-09-14 | 上海市儿童医院 | 一种通用的医疗专病数据系统的构建方法 |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110263168A (zh) * | 2019-06-20 | 2019-09-20 | 北京百度网讯科技有限公司 | 症状词分类方法、装置以及终端 |
CN111028951A (zh) * | 2019-11-13 | 2020-04-17 | 上海中医药大学 | 一种用于中医诊断检索显示、评估的方法及设备 |
CN111079420A (zh) * | 2019-12-19 | 2020-04-28 | 天津新开心生活科技有限公司 | 文本识别方法、装置、计算机可读介质及电子设备 |
CN111079420B (zh) * | 2019-12-19 | 2023-04-07 | 天津新开心生活科技有限公司 | 文本识别方法、装置、计算机可读介质及电子设备 |
CN111091915A (zh) * | 2019-12-24 | 2020-05-01 | 医渡云(北京)技术有限公司 | 医疗数据处理方法及装置、存储介质、电子设备 |
CN111966794A (zh) * | 2020-03-31 | 2020-11-20 | 复旦大学附属中山医院 | 一种诊疗数据的识别方法、系统和装置 |
CN111785386A (zh) * | 2020-06-30 | 2020-10-16 | 安徽科大讯飞医疗信息技术有限公司 | 时间区间段的划分方法、相关设备及可读存储介质 |
CN111785386B (zh) * | 2020-06-30 | 2024-04-05 | 讯飞医疗科技股份有限公司 | 时间区间段的划分方法、相关设备及可读存储介质 |
CN112800173A (zh) * | 2021-04-14 | 2021-05-14 | 北京金山云网络技术有限公司 | 标准化数据库和医学文本库的构建方法、装置及电子设备 |
CN112800173B (zh) * | 2021-04-14 | 2021-07-09 | 北京金山云网络技术有限公司 | 标准化数据库和医学文本库的构建方法、装置及电子设备 |
CN113496124A (zh) * | 2021-07-08 | 2021-10-12 | 上海信医科技有限公司 | 医疗文书的语义分析方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN109524121B (zh) | 2020-11-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109524121A (zh) | 医疗文件处理方法与装置 | |
Wu et al. | Comparison of chest radiograph interpretations by artificial intelligence algorithm vs radiology residents | |
US20220020495A1 (en) | Methods and apparatus for providing guidance to medical professionals | |
US20190139642A1 (en) | System and methods for medical image analysis and reporting | |
US7607079B2 (en) | Multi-input reporting and editing tool | |
CN106326640A (zh) | 一种医疗语音控制系统及其控制方法 | |
US8510340B2 (en) | Categorization of information using natural language processing and predefined templates | |
CN109584975A (zh) | 医疗数据标准化处理方法及装置 | |
US20140365239A1 (en) | Methods and apparatus for facilitating guideline compliance | |
US10984024B2 (en) | Automatic processing of ambiguously labeled data | |
CN111696642A (zh) | 用于生成医学图像中的异常的描述的系统和方法 | |
US20200279147A1 (en) | Method and apparatus for intelligently recommending object | |
CN112712879A (zh) | 医学影像报告的信息提取方法、装置、设备及存储介质 | |
EP4026047A1 (en) | Automated information extraction and enrichment in pathology report using natural language processing | |
EP3557584A1 (en) | Artificial intelligence querying for radiology reports in medical imaging | |
CN112507701A (zh) | 待纠错医疗数据的识别方法、装置、设备和存储介质 | |
CN112800766A (zh) | 基于主动学习的中文医疗实体识别标注方法及系统 | |
CN111383754B (zh) | 医疗决策方法、医疗决策装置、电子设备及存储介质 | |
CN107845408A (zh) | 数据评价方法及装置、存储介质及电子设备 | |
EP3000064A1 (en) | Methods and apparatus for providing guidance to medical professionals | |
US11531807B2 (en) | System and method for customized text macros | |
CN113297852B (zh) | 一种医学实体词的识别方法和装置 | |
Mohan et al. | Artificial intelligence, machine learning, and data science technologies: future impact and well-being for society 5.0 | |
CA3117567C (en) | Applying machine learning to scribe input to improve data accuracy | |
WO2021026533A1 (en) | Method of labeling and automating information associations for clinical applications |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |