CN113988082A - 文本处理方法、装置、电子设备和存储介质 - Google Patents

文本处理方法、装置、电子设备和存储介质 Download PDF

Info

Publication number
CN113988082A
CN113988082A CN202111279472.1A CN202111279472A CN113988082A CN 113988082 A CN113988082 A CN 113988082A CN 202111279472 A CN202111279472 A CN 202111279472A CN 113988082 A CN113988082 A CN 113988082A
Authority
CN
China
Prior art keywords
text
structured
keyword
keywords
preset
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111279472.1A
Other languages
English (en)
Inventor
胡明哲
杨铭
刘设伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Taikang Insurance Group Co Ltd
Taikang Online Property Insurance Co Ltd
Original Assignee
Taikang Insurance Group Co Ltd
Taikang Online Property Insurance Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Taikang Insurance Group Co Ltd, Taikang Online Property Insurance Co Ltd filed Critical Taikang Insurance Group Co Ltd
Priority to CN202111279472.1A priority Critical patent/CN113988082A/zh
Publication of CN113988082A publication Critical patent/CN113988082A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/08Insurance
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Accounting & Taxation (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Finance (AREA)
  • Development Economics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Technology Law (AREA)
  • General Business, Economics & Management (AREA)
  • Epidemiology (AREA)
  • Medical Informatics (AREA)
  • Primary Health Care (AREA)
  • Public Health (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了文本处理方法、装置、电子设备和存储介质,涉及计算机技术领域。该方法的一具体实施方式包括:获取待处理病例的文本信息,识别文本信息中的关键词,以对文本信息切分,得出各关键词对应的文本段;判断预设的关键词库中是否包括关键词,若是,则查询关键词所属的预设结构化字段;若否,则基于关键词对应的文本段,确定关键词所属的预设结构化字段;基于关键词所属的预设结构化字段,确定各文本段与预设结构化字段之间的映射关系,以生成待处理病例的结构化文本。该实施方式能够解决现有技术中将图片格式的病历识别为文本后,通过人工方式进行信息提取得出结构化文本,不仅浪费时间,而且效率较低的问题。

Description

文本处理方法、装置、电子设备和存储介质
技术领域
本发明涉及计算机技术领域,尤其涉及一种文本处理方法、装置、电子设备和存储介质。
背景技术
在医疗保险理赔等场景中,通常需要用户上传病例,而用户上传的病例为图片格式,所以对用户上传的病例,需要先将图片格式的病例转化为文本,再进行结构化,以进行理赔等处理。现有技术中,通常采用OCR技术将图片格式的病历识别为文本,然后通过人工方式对识别的文本进行信息提取,以得出结构化的文本,不仅浪费时间,而且效率较低。
发明内容
有鉴于此,本发明实施例提供一种文本处理方法、装置、电子设备和存储介质,能够解决现有技术中将图片格式的病历识别为文本后,通过人工方式进行信息提取得出结构化文本,不仅浪费时间,而且效率较低的问题。
为实现上述目的,根据本发明实施例的一个方面,提供了一种文本处理方法。
本发明实施例的一种文本处理方法包括:获取待处理病例的文本信息,识别所述文本信息中的关键词,以对所述文本信息切分,得出各所述关键词对应的文本段;判断预设的关键词库中是否包括所述关键词,若是,则查询所述关键词所属的预设结构化字段;若否,则基于所述关键词对应的文本段,确定所述关键词所属的预设结构化字段;基于所述关键词所属的预设结构化字段,确定各所述文本段与所述预设结构化字段之间的映射关系,以生成所述待处理病例的结构化文本。
在一个实施例中,识别所述文本信息中的关键词,以对所述文本信息切分,得出各所述关键词对应的文本段,包括:
将所述文本信息输入至关键词识别模型,以识别所述文本信息中的第一关键词,基于所述第一关键词对所述文本信息切分,得出各所述第一关键词对应的第一文本段;
和/或,
基于所述关键词库识别所述文本信息中的第二关键词,以对所述文本信息切分,得出各所述第二关键词对应的第二文本段。
在又一个实施例中,若所述映射关系包括各所述第一文本段与所述预设结构化字段之间的映射关系和各所述第二文本段与所述预设结构化字段之间的映射关系,则生成所述待处理病例的结构化文本,包括:
基于各所述第一文本段与所述预设结构化字段之间的映射关系生成第一结构化文本,基于各所述第二文本段与所述结构化字段之间的映射关系生成第二结构化文本;
基于所述第一结构化文本和所述第二结构化文本,确定所述待处理病例的结构化文本。
在又一个实施例中,基于所述第一结构化文本和所述第二结构化文本,确定所述待处理病例的结构化文本,包括:
判断所述第一结构化文本和所述第二结构化文本是否一致;
若是,则将所述第一结构化文本或所述第二结构化文本,确定为所述待处理病例的结构化文本;
若否,则查询所述第一结构化文本和所述第一结构化文本分别对应的结构化准确率,将较高的结构化准确率所对应结构化文本,确定为所述待处理病例的结构化文本,所述结构化准确率为预先计算。
在又一个实施例中,基于所述关键词库识别所述文本信息中的第二关键词,以对所述文本信息切分,包括:
将所述关键词库与所述文本信息匹配,以确定所述文本信息中包括的第二关键词;
调用预设的正则表达式,以基于确定的第二关键词切分所述文本信息。
在又一个实施例中,还包括:
将所述待处理病例的结构化文本输入预设的信息录入引擎,以将所述待处理病例录入病例数据库;
和/或,
基于所述待处理病例的结构化文本,查询与所述待处理病例录入病例对应的理赔程序,以执行所述理赔程序。
在又一个实施例中,基于所述关键词对应的文本段,确定所述关键词所属的结构化字段之后,还包括:
将所述关键词更新至所述关键词库中,并存储所述关键词所属的结构化字段。
为实现上述目的,根据本发明实施例的另一方面,提供了一种文本处理装置。
本发明实施例的一种文本处理装置包括:切分单元,用于获取待处理病例的文本信息,识别所述文本信息中的关键词,以对所述文本信息切分,得出各所述关键词对应的文本段;确定单元,用于判断预设的关键词库中是否包括所述关键词,若是,则查询所述关键词所属的预设结构化字段;若否,则基于所述关键词对应的文本段,确定所述关键词所属的预设结构化字段;生成单元,用于基于所述关键词所属的预设结构化字段,确定各所述文本段与所述预设结构化字段之间的映射关系,以生成所述待处理病例的结构化文本。
在一个实施例中,所述切分单元,具体用于:
将所述文本信息输入至关键词识别模型,以识别所述文本信息中的第一关键词,基于所述第一关键词对所述文本信息切分,得出各所述第一关键词对应的第一文本段;
和/或,
基于所述关键词库识别所述文本信息中的第二关键词,以对所述文本信息切分,得出各所述第二关键词对应的第二文本段。
在又一个实施例中,所述生成单元,具体用于:
基于各所述第一文本段与所述预设结构化字段之间的映射关系生成第一结构化文本,基于各所述第二文本段与所述结构化字段之间的映射关系生成第二结构化文本;
基于所述第一结构化文本和所述第二结构化文本,确定所述待处理病例的结构化文本。
在又一个实施例中,所述生成单元,具体用于:
判断所述第一结构化文本和所述第二结构化文本是否一致;
若是,则将所述第一结构化文本或所述第二结构化文本,确定为所述待处理病例的结构化文本;
若否,则查询所述第一结构化文本和所述第一结构化文本分别对应的结构化准确率,将较高的结构化准确率所对应结构化文本,确定为所述待处理病例的结构化文本,所述结构化准确率为预先计算。
在又一个实施例中,所述切分单元,具体用于:
将所述关键词库与所述文本信息匹配,以确定所述文本信息中包括的第二关键词;
调用预设的正则表达式,以基于确定的第二关键词切分所述文本信息。
在又一个实施例中,所述装置还包括:
录入单元,用于将所述待处理病例的结构化文本输入预设的信息录入引擎,以将所述待处理病例录入病例数据库;
和/或,
理赔单元,用于基于所述待处理病例的结构化文本,查询与所述待处理病例录入病例对应的理赔程序,以执行所述理赔程序。
在又一个实施例中,所述装置还包括:
更新单元,用于将所述关键词更新至所述关键词库中,并存储所述关键词所属的结构化字段。
为实现上述目的,根据本发明实施例的再一个方面,提供了一种电子设备。
本发明实施例的一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本发明实施例提供的文本处理方法。
为实现上述目的,根据本发明实施例的又一个方面,提供了一种计算机可读介质。
本发明实施例的一种计算机可读介质,其上存储有计算机程序,所述程序被处理器执行时实现本发明实施例提供的文本处理方法。
上述发明中的一个实施例具有如下优点或有益效果:本发明实施例中,对待处理病例的文本信息,可以识别出文本信息中的关键词,以基于关键词对文本信息进行切分,得出各关键词对应的文本段;本发明实施例中预设的关键词库,并为每个关键词库中每个关键词确定所属的预设结构化字段,所以在识别出关键词后,对于属于关键词库的关键词可以查询出该关键词对应的预设结构化字段,对于不属于关键词库的关键词可以基于该关键词对应的文本段确定出对应的预设结构化字段,从而可以基于关键词所属的预设结构化字段,确定各文本段与预设结构化字段之间的映射关系,以生成待处理病例的结构化文本。本发明实施例中,预设结构化字段并预先确定关键词库中各关键词与预设结构化字段之间的所属关系,如此可以基于识别出的关键词对文本信息切分后,基于关键词与预设结构化字段的所属关系确定出各文本段与预设结构化字段之间的映射关系,来生成结构化文本,提高病例文本结构化的效率和准确率。
上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。
附图说明
附图用于更好地理解本发明,不构成对本发明的不当限定。其中:
图1是图片格式的病例的一种示意图;
图2是根据OCR技术对图1所示病例识别后得出文本信息的一种示意图;
图3是根据本发明实施例的文本处理方法一种系统架构的示意图;
图4是根据本发明实施例的结构化文本的一种示意图;
图5是根据本发明实施例的文本处理方法的一种主要流程的示意图;
图6是根据本发明实施例的文本处理装置的主要单元的示意图;
图7是本发明实施例可以应用于其中的一种示例性系统架构图;
图8是适于用来实现本发明实施例的计算机系统的结构示意图。
具体实施方式
以下结合附图对本发明的示范性实施例做出说明,其中包括本发明实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本发明的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
需要指出的是,在不冲突的情况下,本发明中的实施例以及实施例中的特征可以互相组合。
本发明实施例提供一种文本处理的系统,该系统可以用于对病例的文本信息进行结构化的场景,具体可以用于智能理赔质检中对病例文本信息的结构化。
由于智能理赔质检等均需要对用户的病例进行分析,而在图片格式的病例经OCR识别后得出的文本信息,重要信息冗杂在一起,所以无法有效的从中提取重要信息。如图1所示,为图片格式的病例的一种示意图,经OCR识别后可以得出的结构可以如图2所示。由图2可知,病例中的各字符依次排列,导致无法直接从中提取信息,所以需要将病例的文本信息结构化。
如图1所示,病例中通常格式为相互对应的字段名称和字段值,字段名称和字段值之间通过冒号连接,急诊卡号、流水号、姓名均属于字段名称,各字段名称的冒号之后的内容为对应的字段值,有些字段名称没有对应的字段值。
本发明实施例中,病例的结构化通常是以相对应的字段名称和字段值为整体,结合病例的格式特点,可以以病例中字段名称为对象进行结构化。但是不同医院或者相同医院的不同科室的病例格式并不是统一的,不同病例中所包括字段名称也不一定是相同的,即使相同含义的字段名称,其在不同病例中的名称却并不一定相同,所以为了便于病例中重要信息的提取,本发明实施例预先建立了关键词库。
本发明实施例中,由于病例通常包括的内容固定,所以可以预设结构化字段,以确定为各病例的结构化字段,使各病例的文本信息基于预设结构化字段进行结构化。具体的,预设的结构化字段可以包括姓名、ID、性别、体重、民族、婚配、工作单位、联系人、联系电话、住址、出生日期、年龄、身份证号、费用类型、科室、时间、门诊号、床号、申请医生、主诉、病史、婚育史、月经史、过敏史、体格检查、检验检查、治疗、中医诊断、诊断、营养评估、备注、诊疗记录、患者去向、随治、医生签名、医生工号、患者签名、打印时间。由于不同医院或不同科室的病例,可能对相同的结构化字段存在不同的字段名称或描述,所以本发明实施例中可以预先建立关键词库,关键词库中包括各预设结构化字段所属的关键词,即各病例中对预设结构化字段描述可能使用的字段名称。例如,姓名所属关键词可以包括病人姓名、患者、患者姓名,主诉所属关键词可以包括接诊时情况、病情摘要、主诉及病史、主诉及现病史,病史所属关键词可以包括现病史、简要病史、流行病学史、流行病史、其他病史、简要病史/用药史、病史摘要、病史资料、疾病史及手术史、病史及体征、病史变化。
本发明实施例中,预设了结构化字段和关键词库,以便于可以准确的将病例的文本信息结构化。
本发明实施例提供了一种文本处理方法,该方法可由文本处理系统执行,如图3所示,该方法包括:
S301:获取待处理病例的文本信息,识别文本信息中的关键词,以对文本信息切分,得出各关键词对应的文本段。
其中,待处理病例的文本信息可以为经OCR等技术对图片格式的病例识别后得出的文本信息。获取文本信息后,可以对文本信息中关键词进行识别,由于病例中通常包括多个字段,如图2所示,病例的文本信息中各字符依次排列,为了准确的结构化,基于病例的格式特点,本发明实施例中需要先将文本信息中各字段对应的文本切分,即得出各字段对应的字段值,也就是文本段。
具体的,本发明实施例中对文本信息中字段名称进行识别,即关键词识别,识别出字段名称后即可确定出对应的字段值,进而可以实现准确的文本段切分。
为了准确对文本信息进行切分,需要准确的对关键词进行识别,本发明实施例中,需要识别出文本信息中关键词,也就是病例中字段名称。
具体的,本发明实施例中可以预先训练关键词识别模型,进而通过关键词识别模型识别出病例中的字段名称,即第一关键词,进而基于第一关键词对文本信息进行切分,可以得出第一关键词对应的文本段,即第一文本段。
和/或,本发明实施例中还可以基于历史病例或者各种医疗信息来预先建立关键词库,关键词库中包括各种病例中字段名称的词,即关键词,如此通过关键词库与文本信息进行匹配可识别出文本信息中所包括的关键词,及第二关键词,进而基于识别出的第二关键词对文本信息进行切分,可以得出各第二关键词对应的第二文本段。
需要说明的是,本发明实施例中为了便于关键词识别模型训练,可以先构建关键词库,基于关键词库对用于模型训练的历史病例等信息进行自动标注,进而得出用于模型训练的文本,然后再对关键词识别模型进行训练,从而节省关键词识别模型的训练时间,提高模型训练的效率。
本发明实施例中,在基于关键词库识别文本信息中第二关键词时,如果识别的第二关键词恰为病例中字段名称,则基于第二关键词可以准确的对文本信息进行切分,切分出的文本段为病例中各相对应的字段名称和字段值,如此可以提高文本信息结构化的准确性。但是,有时病例中一些字段值中也会包括关键词库库中的关键词,如此有可能会导致将字段值中关键词识别为第二关键词,从而导致关键词识别不准确,所以为了提高关键词识别的准确性,本发明实施例中,基于关键词库识别文本信息中的第二关键词,以对文本信息切分,还可以执行为:将关键词库与文本信息匹配,以确定文本信息中包括的第二关键词;调用预设的正则表达式,以基于确定的第二关键词切分文本信息。
将关键词库与文本信息匹配,可以确定出文本信息中包括的第二关键词,但是此时第二关键词有可能属于病例中字段值,例如,病例中可以包括“姓名:吴某某;治疗:1、每日口服感冒灵颗粒;备注:若治疗7日后无效果请及时就医”,以治疗为关键词库中的关键词为例,则本步骤会将字段备注的字段值“若治疗7日后无效果请及时就医”中治疗也识别为第二关键词,如此就是导致文本信息切分出现错误,此时为了避免这种错误,本发明实施例中预设了正则表达式。正则表达式具体规则可以基于具体场景设置,例如,如果识别的第二关键词后包括冒号则确认关键词识别正确,如果识别的第二关键词后不包括冒号则确认关键词识别不正确。如此基于预设的正则表达式,可以对识别出的第二关键词进行修正,判断出不准确的第二关键词,如此再进行文本切分时,可以忽略不准确的第二关键词,进而提高了文本切分的准确性。
需要说明的是,OCR等技术识别后的文本信息中可能会包括乱码的无效的字符,本发明实施例中,获取待处理病例的文本信息后,可以先对文本信息进行乱码的剔除、格式整理等等操作,以提高关键词识别的准确性。
S302:判断预设的关键词库中是否包括关键词,若是,则查询关键词所属的预设结构化字段;若否,则基于关键词对应的文本段,确定关键词所属的预设结构化字段。
其中,本发明实施例中,预设的关键词库中各关键词均确定所属的预设结构化字段,所以对于关键词库中包括关键词,可以查询出关键词所属的预设结构化字段,而在关键词识别中,有可能会识别出关键词库中不包括的关键词,此时可以基于关键词对应的文本段,来确定关键词所属的预设结构化字段。
具体的,本发明实施例中可以预先训练分类模型,并基于分类模型确定出关键词所属的类别,即关键词所属的预设结构化字段。
需要说明的是,在判定关键词中不包括关键词后,可以在确定此关键词所属预设结构化字段后,将关键词更新至关键词库中,并存储关键词所属的结构化字段,以便于完善关键词库。
S303:基于关键词所属的预设结构化字段,确定各文本段与预设结构化字段之间的映射关系,以生成待处理病例的结构化文本。
其中,对于识别出的关键词,因已经确定其所属的预设结构化字段,所以可以确定出各关键词对应文本段与预设结构化字段之间的映射关系,进而可以生成待处理病例的结构化文本,如图4所示,为一种结构化文本的示意图。
具体的,本发明实施例中,如果同时采用关键词库和关键词识别模型来识别文本信息中关键词,则可以得出第一关键词对应的第一文本段和第二关键词文本段,进而通过步骤S302和步骤S303可以得出各第一文本段与预设结构化字段之间的映射关系和各第二文本段与预设结构化字段之间的映射关系,此时在生成待处理病例的结构化文本步骤,可以具体执行为:基于各第一文本段与预设结构化字段之间的映射关系生成第一结构化文本,基于各第二文本段与结构化字段之间的映射关系生成第二结构化文本;基于第一结构化文本和第二结构化文本,确定待处理病例的结构化文本。
本步骤中,可以基于各第一文本段与预设结构化字段之间的映射关系生成第一结构化文本,基于各第二文本段与结构化字段之间的映射关系生成第二结构化文本。然后如果两个结构化文本一致,则可以任选其中一个作为待处理病例的结构化文本,如果两个结构化文本不一致,则可以基于两种结构化文本对应的结构化准确率,从中选取结构化准确率较高的一种作为最终的结构化文本,其中结构化准确率为预先计算,具体可以为历史记录中各历史病例的结构化文本的准确性来计算。
需要说明的是,本发明实施例中,在得出病例的结构化文本后,可以将其存储至病例数据库中,以便于后续使用,具体可以将待处理病例的结构化文本输入预设的信息录入引擎,以将待处理病例录入病例数据库。和/或,还可以基于待处理病例的结构化文本执行理赔流程,具体可以为基于结构化文本查询与待处理病例录入病例对应的理赔程序,以执行理赔程序。
本发明实施例中,预设结构化字段并预先确定关键词库中各关键词与预设结构化字段之间的所属关系,如此可以基于识别出的关键词对文本信息切分后,基于关键词与预设结构化字段的所属关系确定出各文本段与预设结构化字段之间的映射关系,来生成结构化文本,提高病例文本结构化的效率和准确率。
结合图3所示实施例,对本发明实施例中文本处理的方法进行具体说明,如图5所示,该方法包括:
S501:获取待处理病例的文本信息。
S502:将文本信息输入至关键词识别模型,以识别文本信息中的第一关键词,基于第一关键词对文本信息切分,得出各第一关键词对应的第一文本段。
本发明实施例中,可以结合自然语言处理中预训练语言模型BERT(BidirectionalEncoder Representations from Transformers),进行命名实体识别的模型训练,得到MR-NER(medical records Named Entity Recognition)模型,即关键词识别模型。
S503:判断预设的关键词库中是否包括第一关键词,若是,则查询第一关键词所属的预设结构化字段;若否,则基于第一关键词对应的文本段,确定第一关键词所属的预设结构化字段。
本发明实施例中,可以结合自然语言处理中预训练语言模型BERT进行文本分类模型训练,得到MR-CLS(medical records classification)模型,以对于第一关键词对应的文本段分类,得出第一关键词所属的预设结构化字段。
S504:基于关键词库识别文本信息中的第二关键词,以调用预设的正则表达式,以基于确定的第二关键词切分文本信息,得出各第二关键词对应的第二文本段。
S505:判断预设的第二关键词库中是否包括关键词,若是,则查询第二关键词所属的预设结构化字段;若否,则基于第二关键词对应的文本段,确定第二关键词所属的预设结构化字段。
需要说明的是,由于第二关键词为基于关键词库识别的,所以通常情况下,第二关键词均属于关键词库,所以本步骤中还可以直接执行步骤查询第二关键词所属的预设结构化字段,而再不执行具体的判断步骤。
S506:确定各第一文本段与预设结构化字段之间的映射关系和各第二文本段与预设结构化字段之间的映射关系。
S507:基于各第一文本段与预设结构化字段之间的映射关系生成第一结构化文本,基于各第二文本段与结构化字段之间的映射关系生成第二结构化文本;基于第一结构化文本和第二结构化文本,确定待处理病例的结构化文本。
例如,病例的文本信息可以为“广东省妇产医院门诊病历\n就诊时间:2020-12-03\n就诊科室:妇科门诊(题秀)\n主诊医生:卢颖”,则通过关键词识别可以识别出就诊时间、就诊科室和送诊医生的关键词,依次所属的预设结构化字段为:时间、科室和申请医生,进而可以切分得出文本段,然后得出结构化文本如下所示:
“开始区域”:广东省妇产医院门诊病历;
“时间”:就诊时间:2020-12-03;
“科室”:就诊科室:妇科门诊(题秀);
“申请医生”:送诊医生:卢颖。
例如,病例的文本信息可以为“挂诊时间:2021.01.02\n主诉:咳嗽3天\n初步诊断:上呼吸道感染\n医嘱:多休息,多饮水,忌烟酒,忌辛辣食物,治疗后如症状无减轻,请及时复诊。\n处理:酚麻美敏片,规格:10粒/盒,总量:1盒,每次用量每次用量:1粒,用法:口服,频次:一天两次”,则通过关键词识别可以识别出挂珍时间、主诉、处理和医嘱的关键词,依次所属的预设结构化字段为:时间、主诉、治疗和备注,进而可以切分得出文本段,然后得出结构化文本如下所示:
“时间”:挂诊时间:2021.01.02;
“主诉”:主诉:咳嗽3天;
“治疗”:处理:酚麻美敏片,规格:10粒/盒,总量:1盒,每次用量每次用量:1粒,用法:口服,频次:一天两次;
“备注”:医嘱:多休息,多饮水,忌烟酒,忌辛辣食物,治疗后如症状无减轻,请及时复诊。
本发明实施例中,预设结构化字段并预先确定关键词库中各关键词与预设结构化字段之间的所属关系,如此可以基于识别出的关键词对文本信息切分后,基于关键词与预设结构化字段的所属关系确定出各文本段与预设结构化字段之间的映射关系,来生成结构化文本,提高病例文本结构化的效率和准确率。
为了解决现有技术存在的问题,本发明实施例提供了一种文本处理装置600,如图6所示,该装置600包括:
切分单元601,用于获取待处理病例的文本信息,识别所述文本信息中的关键词,以对所述文本信息切分,得出各所述关键词对应的文本段;
确定单元602,用于判断预设的关键词库中是否包括所述关键词,若是,则查询所述关键词所属的预设结构化字段;若否,则基于所述关键词对应的文本段,确定所述关键词所属的预设结构化字段;
生成单元603,用于基于所述关键词所属的预设结构化字段,确定各所述文本段与所述预设结构化字段之间的映射关系,以生成所述待处理病例的结构化文本。
应理解的是,实施本发明实施例的方式与实施图3所示实施例的方式相同,在此不再赘述。
本发明实施例的一种实现方式中,所述切分单元601,具体用于:
将所述文本信息输入至关键词识别模型,以识别所述文本信息中的第一关键词,基于所述第一关键词对所述文本信息切分,得出各所述第一关键词对应的第一文本段;
和/或,
基于所述关键词库识别所述文本信息中的第二关键词,以对所述文本信息切分,得出各所述第二关键词对应的第二文本段。
本发明实施例的又一种实现方式中,所述生成单元603,具体用于:
基于各所述第一文本段与所述预设结构化字段之间的映射关系生成第一结构化文本,基于各所述第二文本段与所述结构化字段之间的映射关系生成第二结构化文本;
基于所述第一结构化文本和所述第二结构化文本,确定所述待处理病例的结构化文本。
本发明实施例的又一种实现方式中,所述生成单元603,具体用于:
判断所述第一结构化文本和所述第二结构化文本是否一致;
若是,则将所述第一结构化文本或所述第二结构化文本,确定为所述待处理病例的结构化文本;
若否,则查询所述第一结构化文本和所述第一结构化文本分别对应的结构化准确率,将较高的结构化准确率所对应结构化文本,确定为所述待处理病例的结构化文本,所述结构化准确率为预先计算。
本发明实施例的又一种实现方式中,所述切分单元601,具体用于:
将所述关键词库与所述文本信息匹配,以确定所述文本信息中包括的第二关键词;
调用预设的正则表达式,以基于确定的第二关键词切分所述文本信息。
本发明实施例的又一种实现方式中,所述装置600还包括:
录入单元,用于将所述待处理病例的结构化文本输入预设的信息录入引擎,以将所述待处理病例录入病例数据库;
和/或,
理赔单元,用于基于所述待处理病例的结构化文本,查询与所述待处理病例录入病例对应的理赔程序,以执行所述理赔程序。
本发明实施例的又一种实现方式中,所述装置600还包括:
更新单元,用于将所述关键词更新至所述关键词库中,并存储所述关键词所属的结构化字段。
应理解的是,实施本发明实施例的方式与实施图5所示实施例的方式相同,在此不再赘述。
本发明实施例中,预设结构化字段并预先确定关键词库中各关键词与预设结构化字段之间的所属关系,如此可以基于识别出的关键词对文本信息切分后,基于关键词与预设结构化字段的所属关系确定出各文本段与预设结构化字段之间的映射关系,来生成结构化文本,提高病例文本结构化的效率和准确率。
根据本发明的实施例,本发明实施例还提供了一种电子设备和一种可读存储介质。
本发明实施例的电子设备包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器执行本发明实施例所提供的文本处理方法。
图7示出了可以应用本发明实施例的文本处理方法或文本处理装置的示例性系统架构700。
如图7所示,系统架构700可以包括终端设备701、702、703,网络704和服务器705。网络704用以在终端设备701、702、703和服务器705之间提供通信链路的介质。网络704可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备701、702、703通过网络704与服务器705交互,以接收或发送消息等。终端设备701、702、703上可以安装有各种客户端应用。
终端设备701、702、703可以是但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
服务器705可以是提供各种服务的服务器,服务器可以对接收到的病例的文本信息等数据进行分析等处理,并将处理结果(例如结构化文本--仅为示例)反馈给终端设备。
需要说明的是,本发明实施例所提供的文本处理方法一般由服务器705执行,相应地,文本处理装置一般设置于服务器705中。
应该理解,图7中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
下面参考图8,其示出了适于用来实现本发明实施例的计算机系统800的结构示意图。图8示出的计算机系统仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图8所示,计算机系统800包括中央处理单元(CPU)801,其可以根据存储在只读存储器(ROM)802中的程序或者从存储部分808加载到随机访问存储器(RAM)803中的程序而执行各种适当的动作和处理。在RAM 803中,还存储有系统800操作所需的各种程序和数据。CPU 801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。
以下部件连接至I/O接口805:包括键盘、鼠标等的输入部分806;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分807;包括硬盘等的存储部分808;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分809。通信部分809经由诸如因特网的网络执行通信处理。驱动器810也根据需要连接至I/O接口805。可拆卸介质811,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器810上,以便于从其上读出的计算机程序根据需要被安装入存储部分808。
特别地,根据本发明公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本发明公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分809从网络上被下载和安装,和/或从可拆卸介质811被安装。在该计算机程序被中央处理单元(CPU)801执行时,执行本发明的系统中限定的上述功能。
需要说明的是,本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个单元、程序段、或代码的一部分,上述单元、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本发明实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中,例如,可以描述为:一种处理器包括切分单元、确定单元和生成单元。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定,例如,切分单元还可以被描述为“文本信息的切分功能的单元”。
作为另一方面,本发明还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的设备中所包含的;也可以是单独存在,而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该设备执行时,使得该设备执行本发明所提供的文本处理方法。
上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,取决于设计要求和其他因素,可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。

Claims (10)

1.一种文本处理方法,其特征在于,包括:
获取待处理病例的文本信息,识别所述文本信息中的关键词,以对所述文本信息切分,得出各所述关键词对应的文本段;
判断预设的关键词库中是否包括所述关键词,若是,则查询所述关键词所属的预设结构化字段;若否,则基于所述关键词对应的文本段,确定所述关键词所属的预设结构化字段;
基于所述关键词所属的预设结构化字段,确定各所述文本段与所述预设结构化字段之间的映射关系,以生成所述待处理病例的结构化文本。
2.根据权利要求1所述的方法,其特征在于,识别所述文本信息中的关键词,以对所述文本信息切分,得出各所述关键词对应的文本段,包括:
将所述文本信息输入至关键词识别模型,以识别所述文本信息中的第一关键词,基于所述第一关键词对所述文本信息切分,得出各所述第一关键词对应的第一文本段;
和/或,
基于所述关键词库识别所述文本信息中的第二关键词,以对所述文本信息切分,得出各所述第二关键词对应的第二文本段。
3.根据权利要求2所述的方法,其特征在于,若所述映射关系包括各所述第一文本段与所述预设结构化字段之间的映射关系和各所述第二文本段与所述预设结构化字段之间的映射关系,则生成所述待处理病例的结构化文本,包括:
基于各所述第一文本段与所述预设结构化字段之间的映射关系生成第一结构化文本,基于各所述第二文本段与所述结构化字段之间的映射关系生成第二结构化文本;
基于所述第一结构化文本和所述第二结构化文本,确定所述待处理病例的结构化文本。
4.根据权利要求3所述的方法,其特征在于,基于所述第一结构化文本和所述第二结构化文本,确定所述待处理病例的结构化文本,包括:
判断所述第一结构化文本和所述第二结构化文本是否一致;
若是,则将所述第一结构化文本或所述第二结构化文本,确定为所述待处理病例的结构化文本;
若否,则查询所述第一结构化文本和所述第一结构化文本分别对应的结构化准确率,将较高的结构化准确率所对应结构化文本,确定为所述待处理病例的结构化文本,所述结构化准确率为预先计算。
5.根据权利要求2所述的方法,其特征在于,基于所述关键词库识别所述文本信息中的第二关键词,以对所述文本信息切分,包括:
将所述关键词库与所述文本信息匹配,以确定所述文本信息中包括的第二关键词;
调用预设的正则表达式,以基于确定的第二关键词切分所述文本信息。
6.根据权利要求1所述的方法,其特征在于,还包括:
将所述待处理病例的结构化文本输入预设的信息录入引擎,以将所述待处理病例录入病例数据库;
和/或,
基于所述待处理病例的结构化文本,查询与所述待处理病例录入病例对应的理赔程序,以执行所述理赔程序。
7.根据权利要求1所述的方法,其特征在于,基于所述关键词对应的文本段,确定所述关键词所属的结构化字段之后,还包括:
将所述关键词更新至所述关键词库中,并存储所述关键词所属的结构化字段。
8.一种数据对比的装置,其特征在于,包括:
切分单元,用于获取待处理病例的文本信息,识别所述文本信息中的关键词,以对所述文本信息切分,得出各所述关键词对应的文本段;
确定单元,用于判断预设的关键词库中是否包括所述关键词,若是,则查询所述关键词所属的预设结构化字段;若否,则基于所述关键词对应的文本段,确定所述关键词所属的预设结构化字段;
生成单元,用于基于所述关键词所属的预设结构化字段,确定各所述文本段与所述预设结构化字段之间的映射关系,以生成所述待处理病例的结构化文本。
9.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-7中任一所述的方法。
10.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1-7中任一所述的方法。
CN202111279472.1A 2021-10-28 2021-10-28 文本处理方法、装置、电子设备和存储介质 Pending CN113988082A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111279472.1A CN113988082A (zh) 2021-10-28 2021-10-28 文本处理方法、装置、电子设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111279472.1A CN113988082A (zh) 2021-10-28 2021-10-28 文本处理方法、装置、电子设备和存储介质

Publications (1)

Publication Number Publication Date
CN113988082A true CN113988082A (zh) 2022-01-28

Family

ID=79745053

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111279472.1A Pending CN113988082A (zh) 2021-10-28 2021-10-28 文本处理方法、装置、电子设备和存储介质

Country Status (1)

Country Link
CN (1) CN113988082A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117688927A (zh) * 2024-02-02 2024-03-12 北方健康医疗大数据科技有限公司 病历章节重配置方法、系统、终端及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107908768A (zh) * 2017-09-30 2018-04-13 北京颐圣智能科技有限公司 电子病历处理的方法、装置、计算机设备及存储介质
CN109637605A (zh) * 2018-12-11 2019-04-16 北京大学 电子病历结构化方法及计算机可读存储介质
CN110277149A (zh) * 2019-06-28 2019-09-24 北京百度网讯科技有限公司 电子病历的处理方法、装置及设备
CN112860842A (zh) * 2021-03-05 2021-05-28 联仁健康医疗大数据科技股份有限公司 病历标注方法、装置及存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107908768A (zh) * 2017-09-30 2018-04-13 北京颐圣智能科技有限公司 电子病历处理的方法、装置、计算机设备及存储介质
CN109637605A (zh) * 2018-12-11 2019-04-16 北京大学 电子病历结构化方法及计算机可读存储介质
CN110277149A (zh) * 2019-06-28 2019-09-24 北京百度网讯科技有限公司 电子病历的处理方法、装置及设备
CN112860842A (zh) * 2021-03-05 2021-05-28 联仁健康医疗大数据科技股份有限公司 病历标注方法、装置及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117688927A (zh) * 2024-02-02 2024-03-12 北方健康医疗大数据科技有限公司 病历章节重配置方法、系统、终端及存储介质
CN117688927B (zh) * 2024-02-02 2024-04-30 北方健康医疗大数据科技有限公司 病历章节重配置方法、系统、终端及存储介质

Similar Documents

Publication Publication Date Title
CN108920453B (zh) 数据处理方法、装置、电子设备及计算机可读介质
US10496748B2 (en) Method and apparatus for outputting information
US10818397B2 (en) Clinical content analytics engine
CN109584975B (zh) 医疗数据标准化处理方法及装置
US10679738B2 (en) Identification of codable sections in medical documents
US8898798B2 (en) Systems and methods for medical information analysis with deidentification and reidentification
EP3039639A1 (en) Method of classifying medical documents
US11250035B2 (en) Knowledge graph generating apparatus, method, and non-transitory computer readable storage medium thereof
CN109036508B (zh) 一种中医医疗信息处理方法、装置、计算机设备和存储介质
CN113345545B (zh) 临床数据的稽查方法、装置、电子设备及可读存储介质
US20200293528A1 (en) Systems and methods for automatically generating structured output documents based on structural rules
WO2014063118A1 (en) Systems and methods for medical information analysis with deidentification and reidentification
US11875884B2 (en) Expression of clinical logic with positive and negative explainability
US20190027149A1 (en) Documentation tag processing system
US20180232489A1 (en) Adding annotations to medical records
CN109299214B (zh) 文本信息提取方法、装置、介质及电子设备
CN113988082A (zh) 文本处理方法、装置、电子设备和存储介质
CN111063447B (zh) 查询和文本处理方法及装置、电子设备和存储介质
CN115620886B (zh) 一种数据审核方法和装置
CN116564485A (zh) 医疗数据的处理方法、装置、设备、存储介质和程序产品
CN113515927B (zh) 用于生成结构化文本的方法、计算设备和存储介质
CN113821641A (zh) 基于权重分配的药品分类的方法、装置、设备及存储介质
US20150339441A1 (en) Systems and methods for attaching electronic versions of paper documents to associated patient records in electronic health records
CN112786132B (zh) 病历文本数据分割方法、装置、可读存储介质及电子设备
CN116992839B (zh) 病案首页自动生成方法、装置及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination