CN108334501B - 基于机器学习的电子文档分析系统及方法 - Google Patents

基于机器学习的电子文档分析系统及方法 Download PDF

Info

Publication number
CN108334501B
CN108334501B CN201810236000.XA CN201810236000A CN108334501B CN 108334501 B CN108334501 B CN 108334501B CN 201810236000 A CN201810236000 A CN 201810236000A CN 108334501 B CN108334501 B CN 108334501B
Authority
CN
China
Prior art keywords
electronic document
module
analysis
document
machine learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810236000.XA
Other languages
English (en)
Other versions
CN108334501A (zh
Inventor
王欣
杨煜清
施举红
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Yuanzhi Sanmu Biotechnology Co.,Ltd.
Shi Juhong
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN201810236000.XA priority Critical patent/CN108334501B/zh
Publication of CN108334501A publication Critical patent/CN108334501A/zh
Application granted granted Critical
Publication of CN108334501B publication Critical patent/CN108334501B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Public Health (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Pathology (AREA)
  • Computational Linguistics (AREA)
  • Epidemiology (AREA)
  • Primary Health Care (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开一种基于机器学习的电子文档分析系统及方法,利用文档特征描述模块对所提交的电子文档结构进行描述,若描述大于一个的电子文档结构,机器学习算模块判别最符合于当前电子文档的描述类型,再进行结构解析;机器学习算法模块依据电子文档结构解析结果和目标信息内容特征进行模型训练和信息提取,分析者对内容特征描述或机器学习算法提取的目标信息进行修改,机器学习算法模块将对修改内容特征对应的模型重新进行训练;分析结果审核模块将机器学习算法模块的模型训练和信息提取结果呈现给电子文档分析者。本发明有效解决机器学习算法文档数量有限和特征动态变化情况下的学习问题,能够让算法真正辅助文档分析,提升分析效率。

Description

基于机器学习的电子文档分析系统及方法
技术领域
本发明涉及计算机信息分析技术领域,具体涉及一种基于机器学习的电子文档分析系统及方法。
背景技术
电子文档是由文字或文字和图表组成的信息资料,例如电子病历、影像报告和法律文书等。现有的电子文档分析技术多为文档结构化技术。以医学领域的电子病历结构化技术为例,病历结构化多是利用固定的规则和模板,结合机器学习算法,一次性提取病历中尽可能多的信息;然后进行存储和索引,建立类似搜索引擎的应用,方便医生检索和查询。这种结构化技术在从文档提取信息时,存在准确率低、工作量大、灵活性差和与实际分析流程脱节的问题。由于人类文字表达方式多样化的特点,人工定义的规则和模板很难涵盖一种信息所有的表达方式,利用规则或模板提取的信息难免存在遗漏或错误,若单纯依赖计算机算法进行分析,模型训练和信息提取准确率无法保证。
为了保证数据分析的准确性,需要提供病历结构化服务的一方投入大量人力进行模板规则完善和错误纠正,而且在类似医学研究等对数据质量要求很高的场景,接受服务的一方也无法避免投入人力进行审核和查漏。这样无形中增加了文档模型训练和信息提取的人力成本。对于电子文档信息特点动态变化的分析,用户所需信息会因分析目的不同而千差万别,而且在分析过程中,所需信息也会随着分析的深入发生动态改变;固定的规则和模板是不能将所有信息描述和收集完整的,无法满足用户个性化的需求,缺乏灵活性。单纯依靠文档结构化技术,不结合用户分析文档的整个流程进行优化,是无法真正改善文档分析用户的工作环境和提升文档分析效率的。以病历结构化和医生进行科研为例,现有的病历结构化及搜索引擎服务,多是由独立于医院的公司提供,和医生科研的过程是分离的。为了建立搜索引擎服务,公司投入大量人力去进行信息核对,纠正计算机算法的错误;医生为了提取个性化的文档信息,也需要投入时间和精力进行病历阅读。由于这种模型训练和信息提取服务未和医生科研深度结合,导致其无法及时更新病历中医生所需的动态的文档信息,同时也耗费了多余的人力在信息核对上,未体现出文档结构化技术的优势。
文档结构化技术通常首先定义固定的规则,建立模板或知识库,对文档的段落结构和句子/段落中的语义信息进行固定的描述。这类规则、模板或知识库多是文档结构化技术提供方自行构建,文档分析用户只能看到解析的结果,而无法根据自己的需求自定义规则、模板或知识库。目前尚未有针对用户设计的,供用户使用的文档特征描述语言,来便捷、灵活的进行文档段落结构和语义信息的描述。以病历结构化和医生科研为例,由于不同背景的医生在所需信息的理解和描述上有差别,很多信息描述无法在选定研究题目之前给定;而且对于医生想要的信息还会随着医生对问题的理解加深而发生变化,这些都是固有的规则和知识库无法表达的。
用户提取的文档信息,多是词汇、数字、概念或是对是否满足特定描述的判定。在文档结构化的过程中,为了提取上述信息,通常会用到机器学习算法建立模型进行模型训练和信息提取。目前的技术有传统的贝叶斯模型和深度学习模型两大类。这两类模型在实际文档分析过程中,均易受到文档数量有限和用户所需特征多变的影响,降低准确率和实用性。为了使模型达到较高的准确率,通常需要对固定的特征,标注大量文档进行模型训练;但是实际过程中多数用户的电子文档都是分批次提供,每次数量有限,针对单个用户的数据,很难进行复杂模型的训练。以病历结构化和医生科研为例,每位医生的课题都会针对特定类型的病历,病历数量难以确定;而且医生需要的信息也会随着课题不同或者研究的深入发生变化,单独针对一位医生的课题,难以提前训练模型进行文档模型训练和信息提取。
目前缺乏一个通用的电子文档分析自动化系统供文档分析者使用,覆盖其文档分析的整个过程,并且能够做到多人协作交流和与机器学习算法深度融合。以医生科研为例,目前医生科研多靠医生和其学生进行电子病历手工整理和分析,一旦所需的文档信息发生变化,或者电子病历文档分批获取,在不同人员之间进行协调和修改将变得繁琐。在同一个医院内部,尽管医生研究的问题不同,但是其所需的电子文档中的结构和患者信息有很多是相同或者类似的;在对一个医生的文档进行分析时,如果机器学习算法能够有效利用和当前文档类似的、所需信息相近的其他医生的数据和分析结果,无疑能够提升机器学习算法的准确性。因此亟需一种新的技术方案来解决上述问题。
发明内容
本发明的目的在于提供一种基于机器学习的电子文档分析系统及方法,能够方便文档分析者协作分析和交流;系统内部集成机器学习算法,通过综合利用多个分析者多次分析的文档和结果,有效解决机器学习算法在文档数量有限和特征动态变化情况下的学习问题;能够让算法真正的辅助文档分析,提升分析效率。
为实现上述目的,本发明的技术方案为:基于机器学习的电子文档分析系统,所述分析系统包括:
用户管理模块,用于为使用分析系统的电子文档分析者创建账号信息,通过注册登录服务进入分析系统;
任务管理模块,用于电子文档分析者创建分析任务以及邀请他人参与任务协作进行电子文档分析;
文档提交模块,用于将电子文档分析者搜集的电子文档提交到分析系统;
文档特征描述模块,用于电子文档分析者通过分析系统提供的电子文档特征描述语言对所提交的电子文档结构和待提取的目标信息进行特征描述;
机器学习算法模块,用于根据电子文档分析者描述的电子文档结构特征解析电子文档并依据内容特征进行模型构建,同时根据构建模型进行文字和图像模型训练和信息提取,对于图像信息的处理过程中同时记录文字和图像的位置对应关系;
分析结果审核模块,用于将机器学习算法模块的模型训练和信息提取结果呈现给电子文档分析者,供电子文档分析者查阅目标信息在所分析电子文档中的上下文和预测结果,并对预测结果进行纠正和备注。若经分析者审核对机器学习算法提取结果进行调整修改,机器学习算法模块将重新训练数据迁移模型。
如上所述的基于机器学习的电子文档分析系统,所述分析系统还包括分析结果清洗模块,所述分析结果清洗模块用于在电子文档分析者提取每个电子文档的目标信息之后,对所有信息进行合并、归类及对重复值、缺失值处理并生成处理表格。
如上所述的基于机器学习的电子文档分析系统,所述分析系统还包括分析结果统计模块,所述分析结果统计模块用于对电子文档内容特征的分析结果进行频率计算、交叉表、相关性统计分析和展示,帮助电子文档分析者剖析电子文档分析结果形成结论。
如上所述的基于机器学习的电子文档分析系统,所述文档提交模块提交的电子文档信息格式为.txt、.word或.xlsx,所述分析系统还包括格式转换模块,所述格式转换模块用于将文档提交模块提交的电子文档信息格式进行统一转换。
如上所述的基于机器学习的电子文档分析系统,所述文档特征描述模块包含电子文档结构特征描述子模块和内容特征描述子模块,
所述电子文档结构特征描述子模块用于描述电子文档的段落结构,将电子文档的文字和图片内容划分单元,组成一个树状结构;
所述内容特征描述子模块用于描述电子文档分析者根据所需目标信息在电子文档中的所处单元,以及目标信息在词汇、语句和语法内容上的特点指定目标信息的样式。
本发明还提供一种基于机器学习的电子文档分析方法,所述分析方法采用上述的分析系统实现,所述分析方法包括以下步骤:
步骤一:电子文档分析者通过用户管理模块进入分析系统,并利用文档提交模块提交待分析的电子文档,机器学习算法模块提取电子文档的文字和图像信息进行存储,同时记录文字和图像的位置对应关系;
步骤二:利用文档特征描述模块对所提交的电子文档结构和待提取的目标信息进行特征描述,若用于描述大于一个的电子文档结构,机器学习算模块判别最符合于当前电子文档的描述类型,然后再进行结构解析;
步骤三,机器学习算法模块依据电子文档结构解析结果和目标信息内容特征进行模型训练和信息提取,分析者对文档内容特征描述或机器学习算法提取的信息进行修改,机器学习算法模块对修改的特征对应的模型重新进行训练;
步骤四:分析结果审核模块将机器学习算法模块的模型训练和信息提取结果呈现给电子文档分析者,电子文档分析者查阅目标信息在每个电子文档中的上下文和预测结果,对预测结果进行纠正和备注。
如上所述的基于机器学习的电子文档分析方法,所述步骤一中还包括,电子文档分析者通过任务管理模块邀请他人参与任务协作进行电子文档分析。
如上所述的基于机器学习的电子文档分析方法,所述步骤三中模型训练和信息提取包括以下步骤:
1)比较目标信息的文档内容特征和分析系统中存储的所有文档内容特征之间的相似性,并记录相似性大于某一阈值的文档内容特征;
2)对目标信息对应的内容特征模型训练,由相似的内容特征对应的模型组成加权集成模型,或综合当前任务的训练数据和其他任务内容特征的训练数据,构建数据迁移模型;
3)利用训练完毕的内容特征模型预测电子文档中目标信息;
所述步骤三对提取的信息进行修改过程中:
若分析者修改内容特征描述,则机器学习算法模块对修改对应的特征的加权集成模型和数据迁移模型重新进行训练;
若分析者通过分析结果审核模块修改机器学习算法模块提取的目标信息,则机器学习算法模块对修改对应的特征的数据迁移模型重新进行训练。
进一步,所述步骤2)中,构建数据迁移模型包括:
201)基于内容特征的“前缀”,定位内容特征对应的目标信息所处“单元”;
202)基于内容特征“主体”的“词语集”中的词语,在“单元”中定位目标信息可能的上下文,该上下文是句子的集合;
203)基于内容特征“主体”的“句法集”,在“单元”中定位目标信息可能的上下文;
204)综合202)和203)得到的上下文集合,得到目标特征的训练上下文集;
205)根据内容特征的“类型”,结合模型的预测或用户的审核,赋予每个上下文“标记”;
206)通过迁移学习方法对构建的目标特征和内容特征数据集进行数据迁移模型训练。
如上所述的基于机器学习的电子文档分析方法,所述分析方法还包括通过分析结果清洗模块对电子文档分析者提取每个电子文档的目标信息进行合并、归类及对重复值、缺失值处理并生成处理表格,然后通过分析结果统计模块对分析结果进行频率计算、交叉表、相关性统计分析和展示,剖析电子文档分析结果形成结论。
本发明具有如下优点:使文档分析人员对文档及其分析结果的管理更加规范,灵活和便捷,借助文档特征描述语言,文档分析人员可以灵活的定义文档特征信息,整合机器学习算法,利用所有用户、所有文档的数据,解析文档更加准确,能够方便文档分析者协作分析和交流,有效解决机器学习算法在文档有限和特征改变情况下的学习问题,能够让算法真正的辅助文档分析,提升分析效率。
附图说明
图1为基于机器学习的电子文档分析系统示意图;
图2为基于机器学习的电子文档分析方法流程图;
图3为基于机器学习的电子文档分析方法模型训练和信息提取流程图;
图4为基于机器学习的电子文档分析方法构建数据迁移模型流程图;
图5为本发明实施例中文档结构特征描述示意图;
图6为本发明实施例中文档内容特征描述示意图;
图7为本发明实施例中电子文档结构解析过程示意图;
图8为本发明实施例中文档内容特征比较过程示意图;
图9为本发明实施例中加权集成模型训练过程示意图;
图10为本发明实施例中数据迁移模型训练过程示意图;
图11为本发明实施例中数据迁移模型再训练示意图;
图12为本发明实施例中目标信息预测示意图。
具体实施方式
以下实施例用于说明本发明,但不用来限制本发明的范围。
参见图1,基于机器学习的电子文档分析系统,分析系统包括:
用户管理模块1,用于为使用分析系统的电子文档分析者创建账号信息,通过注册登录服务进入分析系统;
任务管理模块2,用于电子文档分析者创建分析任务以及邀请他人参与任务协作进行电子文档分析;
文档提交模块3,用于将电子文档分析者搜集的电子文档提交到分析系统;
文档特征描述模块4,用于电子文档分析者通过分析系统提供的电子文档特征描述语言对所提交的电子文档结构和待提取的目标信息进行特征描述;
机器学习算法模块5,用于根据电子文档分析者描述的电子文档结构特征解析电子文档并依据内容特征进行模型构建,同时根据构建模型进行文字和图像模型训练和信息提取,对于图像信息的处理过程中同时记录文字和图像的位置对应关系;
分析结果审核模块6,用于将机器学习算法模块5的模型训练和信息提取结果呈现给电子文档分析者,供电子文档分析者查阅目标信息在所分析电子文档中的上下文和预测结果,并对预测结果进行纠正和备注。
基于机器学习的电子文档分析系统的一个实施例中,分析系统还包括分析结果清洗模块7,分析结果清洗模块7用于在电子文档分析者提取每个电子文档的目标信息之后,对所有信息进行合并、归类及对重复值、缺失值处理并生成处理表格。
基于机器学习的电子文档分析系统的一个实施例中,分析系统还包括分析结果统计模块8,分析结果统计模块8用于对电子文档内容特征的分析结果进行频率计算、交叉表、相关性统计分析和展示帮助电子文档分析者剖析电子文档分析结果形成结论。
基于机器学习的电子文档分析系统的一个实施例中,文档提交模块3提交的电子文档信息格式为.txt、.word或.xlsx,分析系统还包括格式转换模块,格式转换模块用于将文档提交模块3提交的电子文档信息格式进行统一转换。
基于机器学习的电子文档分析系统的一个实施例中,文档特征描述模块4包含电子文档结构特征描述子模块401和内容特征描述子模块402。
电子文档结构特征描述子模块401用于描述电子文档的段落结构,将电子文档的文字和图片内容划分单元,组成一个树状结构。
参见图5,每个单元可以对应一部分文字和图片,也可以包含子单元进行嵌套;每个单元由用户定义单元名称,并描述该单元在文档中的起止位置;若只描述该单元开始位置,则该单元结束位置被视为同级的下一单元的开始位置之前。对于单元开始位置的描述可以是该单元的开始标题、词组、语句或某种特定的格式,结束位置也是同理。以电子病历举例,入院记录文档以“入院记录”为标题,结构分为“患者信息”,“主诉”,“现病史”,“既往史”等文档单元,这些单元的起止位置均由一些固定的标题(如“一、个人信息”,“二、主诉”和“三、现病史”等)开始;这里“患者信息”和“主诉”即单元名称,“一、患者信息”和“二、主诉”即起止位置描述。病程记录文档分为多个“病程记录”单元,每个单元开始位置可以是“YYYY-MM-DD hh:mm:ss病程记录”这样的描述,其中“YYYY-MM-DD hh:mm:ss”表示的是日期的格式“年-月-日时:分:秒”。注意这个里起止位置的描述不限于固定的格式,当该单元没有统一的格式时,用户可以直接输入该单元常出现的文本语句和段落内容。若入院记录文档中“主诉”单元无“二、主诉”这样的标题格式时,用户可以直接输入一个或多个患者的入院记录中主诉的内容,如“患者3年前行走不稳,双下肢不自主颤栗......”这样的语句。
参见图7,当用户输入文档的结构特征描述之后,系统的机器学习算法会首先对当前任务的所有电子文档进行结构解析,将文档按单元对文字和图像进行存储。如果用户描述了多个文档结构,则机器学习算首先判别当前文档最符合的结构描述,然后再进行结构解析。若文档结构单元有固定的格式,机器学习算法会直接根据格式进行匹配;若该单元无固定的格式,则根据用户提供的文本内容和文档中的所有内容进行相似性判断,找到最符合的段落。之后对于目标信息的提取将在该步得到的文档单元中进行。
用户可以通过文档结构特征描述,定义包含目标信息的单元即可,无需对整个文档进行描述,这样在进行文档分析时,能够更有针对性,跳过不包含信息的文档段落,加快分析速度。例如用户只需要出院记录文档中“出院诊断”的信息时,可以只定义“出院记录”和“出院诊断”两个单元即可,无需描述文档中的其他内容;当只需要病程记录中“输血记录”的信息时,无需定义文档中的“阶段小结”,“首次病程记录”或“抢救记录”等单元。
内容特征描述子模块402用于描述电子文档分析者根据所需目标信息在电子文档中的所处单元,以及目标信息在词汇、语句和语法内容上的特点指定目标信息的样式。
参见图6描述了目标信息内容特征的结构,对内容特征的描述需要首先指定目标信息的“类型”。目标信息的“类型”是指用户希望系统提取的目标信息最后的呈现结果。例如类型为“数字型”,则需要系统提取数字;若为“文本型”,则需要系统记录语句;如果是“0/1”,则需要系统预测目标信息是否存在,相当于一个二分类问题。对目标信息的描述语法包含“前缀”和“主体”两部分,分别对应目标信息所在单元的描述和目标信息内容的描述。
再次参见图6,“前缀”部分需列举目标信息所有可能出现的单元位置,通过单元名称的链接和嵌套组成“路径”来表述。例如“单元A”-“单元B”-“单元C;单元D”这样的“路径”,定义了目标信息在“单元C”和“单元D”中,前面的“单元A”-“单元B”表示这两个单元在整个文档结构描述中的上层节点,即“单元A”是整个文档描述的根节点,“单元B”是“单元A”的子节点,也是“单元C”和“单元D”的父节点。这样可以让机器学习算法通过“路径”方便定位到目标信息所在单元。“路径”除了用于定位目标信息,还可以表示定位排除,用户可在“路径”前加上“-”标记来表明目标信息不在当前“路径”上。注意这里允许用户描述目标信息的多条“路径”,表示多种文档结构中均有单元包含目标信息。
对于目标信息的单条或多条“路径”,用户可以进一步描述其“主体”部分。“主体”部分需列举目标信息在词汇、句法的特点,通过构建“词语集”,“句法集”来进行描述。“词语集”是和目标信息常一起出现的词语的汇总,可以是完整的词语,或者词语的一部分。以电子病历文档为例,对于冠心病这一信息的“词语集”可表述为“冠心病”、“冠状动脉粥样硬化性心脏病”和“冠状动脉”的组合。“句法集”是表示目标信息常见的语句或句式的汇总。“句法集”由“语句”构成,每条“语句”除了记录对目标信息语句的表达外,还需附加一个“标记”,该“标记”和用户指定的目标信息特征的类型相关。例如用户定义目标信息类型为“0/1型”,则“句法集”可以表述为“语句A(0)”、“语句B(0)”和“语句C(1)”等,表示“语句A”和“语句B”不包含目标信息,“语句C”包含目标信息。当目标信息类型为“数字型”,则“句法集”可以表述为“语句A(数字A)”、“语句B(数字B)”和“语句C(数字C)”等,表示“语句A”、“语句B”和“语句C”包含的数字分别是“数字A”,“数字B”和“数字C”。
参见图2,本发明还提供一种基于机器学习的电子文档分析方法,分析方法采用上述的分析系统实现,分析方法包括以下步骤:
T1:电子文档分析者通过用户管理模块1进入分析系统,并利用文档提交模块3提交待分析的电子文档,机器学习算法模块5提取电子文档的文字和图像信息进行存储,同时记录文字和图像的位置对应关系;
T2:利用文档特征描述模块4对所提交的电子文档结构和待提取的目标信息进行特征描述,若用于描述大于一个的电子文档结构,机器学习算模块判别最符合于当前电子文档的描述类型,然后再进行结构解析;
T3,机器学习算法模块5依据电子文档结构解析结果和目标信息内容特征进行模型训练和信息提取,分析者对文档内容特征描述或机器学习算法提取的信息进行修改,机器学习算法模块5对修改的特征对应的模型重新进行训练;
T4:分析结果审核模块6将机器学习算法模块5的模型训练和信息提取结果呈现给电子文档分析者,电子文档分析者查阅目标信息在每个电子文档中的上下文和预测结果,对预测结果进行纠正和备注。
基于机器学习的电子文档分析方法的一个实施例中,T1中还包括,电子文档分析者通过任务管理模块2邀请他人参与任务协作进行电子文档分析。
步骤T3对提取的信息进行修改过程中:
若分析者修改内容特征描述,则机器学习算法模块对修改对应的特征的加权集成模型和数据迁移模型重新进行训练;
若分析者通过分析结果审核模块修改机器学习算法模块提取的目标信息,则机器学习算法模块对修改对应的特征的数据迁移模型重新进行训练。
参见图3,基于机器学习的电子文档分析方法的一个实施例中,T3中模型训练和信息提取包括以下步骤:
S1:比较目标信息的文档内容特征和分析系统中存储的所有文档内容特征之间的相似性,并记录相似性大于某一阈值的文档内容特征;
S2:对目标信息对应的内容特征模型训练,由相似的内容特征对应的模型组成加权集成模型,或综合当前任务的训练数据和其他任务内容特征的训练数据,构建数据迁移模型;
S3:利用训练完毕的内容特征模型预测电子文档中目标信息。参见图12,在步骤S3中,通过分析结果清洗模块7对电子文档分析者提取每个电子文档的目标信息进行合并、归类及对重复值、缺失值处理并生成处理表格,然后通过分析结果统计模块8对分析结果进行频率计算、交叉表、相关性统计分析和展示,剖析电子文档分析结果形成结论。
参见图8,步骤S1中,文档内容特征比较是指比较目标信息的文档内容特征和系统中存储的所有文档内容特征之间的相似,并记录相似性大于某一阈值的文档内容特征。这里的相似性是指两个文档内容特征在“主体”部分的相似性,通过计算二者在“词语集”和“句法集”上的距离来进行比较。这里的“词语集”和“句法集”上的相似性可以直接利用Jaccard距离进行计算,或者利用深度学习的方式,学习“词语集”和“句法集”的分布式表示,然后直接计算分布式表示向量之间的距离即可。对于“句法集”中句子的处理可以通过先进行分词,然后利用句子的词汇对句子做表示。这里需要注意的是,对于“0/1”型的内容特征,除了比较内容上的相似性,还需要注意“句法集”中附加的“标记”是否一致;若“0”“1”的标记在两个内容特征上是相反的,则要对距离加正负号以示区别:标记一致时记为“+”,标记不一致时,记为“-”。
参见图4,步骤S2中,构建数据迁移模型包括:
S201:基于内容特征的“前缀”,定位内容特征对应的目标信息所处“单元”;
S202:基于内容特征“主体”的“词语集”中的词语,在“单元”中定位目标信息可能的上下文,该上下文是句子的集合;
S203:基于内容特征“主体”的“句法集”,在“单元”中定位目标信息可能的上下文;
S204:综合S202和S203得到的上下文集合,得到目标特征的训练上下文集;
S205:根据内容特征的“类型”,结合模型的预测或用户的审核,赋予每个上下文“标记”;
206)通过迁移学习方法对构建的目标特征和内容特征数据集进行数据迁移模型训练。
考虑到内容特征相似的信息所处的语句或上下文,以及训练得到的机器学习模型具有相似性,为目标信息对应的内容特征训练机器学习模型时,除了要利用当前任务的电子文档数据,也要综合相似内容特征的训练数据和模型。为内容特征训练的模型由两部分组成:第一部分是由相似的其他内容特征对应的模型组成的加权集成模型;第二部分是综合当前任务的训练数据和其他内容特征的训练数据,重新训练的数据迁移模型。第一部分的加权集成模型是利用了机器学习领域模型集成(ensemble)的概念,直接利用相似的内容特征已经训练好的模型做组合,同时根据这些特征和目标内容特征的相似性赋予不同模型可靠性的权重,从而组合成一个新的模型(图9)。这里需要注意“0/1”型的内容特征若相似性为“-”,则表示该特征与目标内容特征的预测结果是相反的,需要将结果在加权集成模型中取反之后才是对目标内容特征预测的结果。
例如,如果内容特征是“0/1型”,则为每个上下文赋予"0"或“1”的标记;如果内容特征是“数字型”,则标记为每个上下文中的目标数字;“标记”对于模型训练是必需的。这里“词语集”中的定位,可以是简单的词语的位置检索;“句法集”中的定位,可以是将“单元”划分句子之后,根据句子的相似性来定位。通过上述的构造训练数据的方式,可以得到目标内容特征的训练数据集。
相似内容特征的训练数据因为在之前的文档分析任务中已经利用上述过程构建并存储,故直接从系统中读取记录即可;对于当前目标内容特征,可以用上述过程在当前任务的电子文档中,采集到所有上下文的语句,但是因为还未对这些上下文做预测,故缺乏这些上下文的标记。此时,系统先利用第一部分的加权集成模型对这些上下文做预测,将预测出的结果作为这些上下文的标记,从而构造出目标内容特征在当前任务中的训练数据。在构建好目标内容特征和相似内容特征的训练数据之后,系统综合所有训练数据,训练一个数据迁移模型;这里用到机器学习领域迁移学习的方法,并且在训练的过程中,相似内容特征的训练数据会根据与目标内容特征的相似性具有不同的数据权重(图10)。
一旦用户对某个内容特征的分析结果进行了修改和备注,机器学习算法模块5将对该内容特征对应的数据迁移模型重新进行训练(图11)。对分析结果进行备注,指的是指用户填写对分析结果进行判断的依据,可以是文档中语句的摘录,也可以是用户自定义的说明。以目标信息的类型为“0/1型”为例,当用户将目标信息在某一单元中的上下文语句,由存在改为不存在时,系统会将该上下文语句的标记改为“0”,更新机器学习模型的训练数据集,对该目标信息的内容特征重新训练数据迁移模型,反之亦然。需要注意,当用户对目标信息的上下文做审核之后,该上下文的“标记”以用户审核结果为准,不再需要加权集成模型的预测。
虽然,上文中已经用一般性说明及具体实施例对本发明作了详尽的描述,但在本发明基础上,可以对之作一些修改或改进,这对本领域技术人员而言是显而易见的。因此,在不偏离本发明精神的基础上所做的这些修改或改进,均属于本发明要求保护的范围。

Claims (8)

1.基于机器学习的电子文档分析方法,其特征在于,所述分析方法包括以下步骤:
步骤一:电子文档分析者通过用户管理模块进入分析系统,并利用文档提交模块提交待分析的电子文档,机器学习算法模块提取电子文档的文字和图像信息进行存储,同时记录文字和图像的位置对应关系;
步骤二:利用文档特征描述模块对所提交的电子文档结构和待提取的目标信息进行特征描述,若用于描述大于一个的电子文档结构,机器学习算模块判别最符合于当前电子文档的描述类型,然后再进行结构解析;
步骤三,机器学习算法模块依据电子文档结构解析结果和目标信息内容特征进行模型训练和信息提取,分析者对文档内容特征描述或机器学习算法提取的信息进行修改,机器学习算法模块对修改的特征对应的模型重新进行训练;
步骤四:分析结果审核模块将机器学习算法模块的模型训练和信息提取结果呈现给电子文档分析者,电子文档分析者查阅目标信息在每个电子文档中的上下文和预测结果,对预测结果进行纠正和备注;
所述步骤三中模型训练和信息提取包括以下步骤:
1)比较目标信息的文档内容特征和分析系统中存储的所有文档内容特征之间的相似性,并记录相似性大于某一阈值的文档内容特征;
2)对目标信息对应的内容特征模型训练,由相似的内容特征对应的模型组成加权集成模型,或综合当前任务的训练数据和其他任务内容特征的训练数据,构建数据迁移模型;
3)利用训练完毕的内容特征模型预测电子文档中目标信息;
所述步骤三中对提取的信息进行修改中:
若分析者修改内容特征描述,则机器学习算法模块对修改对应的特征的加权集成模型和数据迁移模型重新进行训练;
若分析者通过分析结果审核模块修改机器学习算法模块提取的目标信息,则机器学习算法模块对修改对应的特征的数据迁移模型重新进行训练;
所述步骤2)中,构建数据迁移模型包括:
201)基于内容特征的“前缀”,定位内容特征对应的目标信息所处“单元”;
202)基于内容特征“主体”的“词语集”中的词语,在“单元”中定位目标信息可能的上下文,该上下文是句子的集合;
203)基于内容特征“主体”的“句法集”,在“单元”中定位目标信息可能的上下文;
204)综合202)和203)得到的上下文集合,得到目标特征的训练上下文集;
205)根据内容特征的“类型”,结合模型的预测或用户的审核,赋予每个上下文“标记”;
206)通过迁移学习方法对构建的目标特征和内容特征数据集进行数据迁移模型训练。
2.根据权利要求1所述的基于机器学习的电子文档分析方法,其特征在于,所述步骤一中还包括,电子文档分析者通过任务管理模块邀请他人参与任务协作进行电子文档分析。
3.根据权利要求1所述的基于机器学习的电子文档分析方法,其特征在于,所述分析方法还包括通过分析结果清洗模块对电子文档分析者提取每个电子文档的目标信息进行合并、归类及对重复值、缺失值处理并生成处理表格,然后通过分析结果统计模块对分析结果进行频率计算、交叉表、相关性统计分析和展示,剖析电子文档分析结果形成结论。
4.基于机器学习的电子文档分析系统,基于权利要求1至3任一项的分析方法,其特征在于,所述分析系统包括:
用户管理模块,用于为使用分析系统的电子文档分析者创建账号信息,通过注册登录服务进入分析系统;
任务管理模块,用于电子文档分析者创建分析任务以及邀请他人参与任务协作进行电子文档分析;
文档提交模块,用于将电子文档分析者搜集的电子文档提交到分析系统;
文档特征描述模块,用于电子文档分析者通过分析系统提供的电子文档特征描述语言对所提交的电子文档结构和待提取的目标信息进行特征描述;
机器学习算法模块,用于根据电子文档分析者描述的电子文档结构特征解析电子文档并依据内容特征进行模型构建,同时根据构建模型进行文字和图像模型训练和信息提取,对于图像信息的处理过程中同时记录文字和图像的位置对应关系;
分析结果审核模块,用于将机器学习算法模块的模型训练和信息提取结果呈现给电子文档分析者,供电子文档分析者查阅目标信息在所分析电子文档中的上下文和预测结果,并对预测结果进行纠正和备注。
5.根据权利要求4所述的基于机器学习的电子文档分析系统,其特征在于,所述分析系统还包括分析结果清洗模块,所述分析结果清洗模块用于在电子文档分析者提取每个电子文档的目标信息之后,对所有信息进行合并、归类及对重复值、缺失值处理并生成处理表格。
6.根据权利要求4所述的基于机器学习的电子文档分析系统,其特征在于,所述分析系统还包括分析结果统计模块,所述分析结果统计模块用于对电子文档内容特征的分析结果进行频率计算、交叉表、相关性统计分析和展示,帮助电子文档分析者剖析电子文档分析结果形成结论。
7.根据权利要求4所述的基于机器学习的电子文档分析系统,其特征在于,所述文档提交模块提交的电子文档信息格式为.txt.word或.xlsx,所述分析系统还包括格式转换模块,所述格式转换模块用于将文档提交模块提交的电子文档信息格式进行统一转换。
8.根据权利要求4所述的基于机器学习的电子文档分析系统,其特征在于,所述文档特征描述模块包含电子文档结构特征描述子模块和内容特征描述子模块,
所述电子文档结构特征描述子模块用于描述电子文档的段落结构,将电子文档的文字和图片内容划分单元,组成一个树状结构;
所述内容特征描述子模块用于描述电子文档分析者根据所需目标信息在电子文档中的所处单元,以及目标信息在词汇、语句和语法内容上的特点指定目标信息的样式。
CN201810236000.XA 2018-03-21 2018-03-21 基于机器学习的电子文档分析系统及方法 Active CN108334501B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810236000.XA CN108334501B (zh) 2018-03-21 2018-03-21 基于机器学习的电子文档分析系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810236000.XA CN108334501B (zh) 2018-03-21 2018-03-21 基于机器学习的电子文档分析系统及方法

Publications (2)

Publication Number Publication Date
CN108334501A CN108334501A (zh) 2018-07-27
CN108334501B true CN108334501B (zh) 2021-07-20

Family

ID=62932333

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810236000.XA Active CN108334501B (zh) 2018-03-21 2018-03-21 基于机器学习的电子文档分析系统及方法

Country Status (1)

Country Link
CN (1) CN108334501B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109784676B (zh) * 2018-12-25 2023-08-29 杨鑫 数据分析的学习和使用方法、装置及计算机可读存储介质
CN110472209B (zh) * 2019-07-04 2024-02-06 深圳同奈信息科技有限公司 基于深度学习的表格生成方法、装置和计算机设备
CN110543475A (zh) * 2019-08-29 2019-12-06 深圳市原点参数科技有限公司 一种基于机器学习的财务报表数据自动识别和分析方法
CN110674263B (zh) * 2019-12-04 2022-02-08 广联达科技股份有限公司 一种模型构件文件自动分类的方法和装置

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6697998B1 (en) * 2000-06-12 2004-02-24 International Business Machines Corporation Automatic labeling of unlabeled text data
JP2007219947A (ja) * 2006-02-17 2007-08-30 Nippon Hoso Kyokai <Nhk> 因果関係知識抽出装置及びプログラム
CN103871011A (zh) * 2012-12-12 2014-06-18 天津市天堰医教科技开发有限公司 医学病历模型构建系统
CN103399857B (zh) * 2013-07-01 2017-02-08 北京航空航天大学 一种通用文档结构信息抽取方法
CN106484674A (zh) * 2016-09-20 2017-03-08 北京工业大学 一种基于深度学习的中文电子病历概念抽取方法
CN107103050A (zh) * 2017-03-31 2017-08-29 海通安恒(大连)大数据科技有限公司 一种大数据建模平台及方法
CN107562732A (zh) * 2017-10-26 2018-01-09 北京康夫子科技有限公司 电子病历的处理方法及系统
CN107644212A (zh) * 2017-10-19 2018-01-30 中国地质大学(武汉) 一种高光谱遥感图像分类方法、设备及存储设备
CN107680676A (zh) * 2017-09-26 2018-02-09 电子科技大学 一种基于电子病历数据驱动的妊娠期糖尿病预测方法
CN107818816A (zh) * 2017-12-12 2018-03-20 刘忠于 基于人工智能学习的医生电子病历自动生成系统

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6697998B1 (en) * 2000-06-12 2004-02-24 International Business Machines Corporation Automatic labeling of unlabeled text data
JP2007219947A (ja) * 2006-02-17 2007-08-30 Nippon Hoso Kyokai <Nhk> 因果関係知識抽出装置及びプログラム
CN103871011A (zh) * 2012-12-12 2014-06-18 天津市天堰医教科技开发有限公司 医学病历模型构建系统
CN103399857B (zh) * 2013-07-01 2017-02-08 北京航空航天大学 一种通用文档结构信息抽取方法
CN106484674A (zh) * 2016-09-20 2017-03-08 北京工业大学 一种基于深度学习的中文电子病历概念抽取方法
CN107103050A (zh) * 2017-03-31 2017-08-29 海通安恒(大连)大数据科技有限公司 一种大数据建模平台及方法
CN107680676A (zh) * 2017-09-26 2018-02-09 电子科技大学 一种基于电子病历数据驱动的妊娠期糖尿病预测方法
CN107644212A (zh) * 2017-10-19 2018-01-30 中国地质大学(武汉) 一种高光谱遥感图像分类方法、设备及存储设备
CN107562732A (zh) * 2017-10-26 2018-01-09 北京康夫子科技有限公司 电子病历的处理方法及系统
CN107818816A (zh) * 2017-12-12 2018-03-20 刘忠于 基于人工智能学习的医生电子病历自动生成系统

Also Published As

Publication number Publication date
CN108334501A (zh) 2018-07-27

Similar Documents

Publication Publication Date Title
CN108334501B (zh) 基于机器学习的电子文档分析系统及方法
WO2017217507A1 (ja) コミュニケーションを支援する人工知能システム
WO2019100319A1 (en) Providing a response in a session
CN110750959A (zh) 文本信息处理的方法、模型训练的方法以及相关装置
CN111078875B (zh) 一种基于机器学习的从半结构化文档中提取问答对的方法
US20050086222A1 (en) Semi-automatic construction method for knowledge base of encyclopedia question answering system
Ferrara The grammar of depiction: Exploring gesture and language in Australian Sign Language (Auslan)
CN110609983B (zh) 一种政策文件结构化分解方法
US10565291B2 (en) Automatic generation of personalized visually isolated text
Mittal et al. Versatile question answering systems: seeing in synthesis
CN116775911B (zh) 基于问卷和大模型的医学队列随访对话辅助方法及系统
CN113689951A (zh) 一种智能导诊方法、系统和计算机可读存储介质
TW202121230A (zh) 自然語言處理方法與其計算裝置
CN109388694A (zh) 一种用于对话系统的富文本存储及展示方法
Satti et al. A semantic sequence similarity based approach for extracting medical entities from clinical conversations
CN116226320A (zh) 一种预测下文信息的方法、装置、电子设备及存储介质
Zafari et al. Chatsum: an intelligent medical chat summarization tool
CN111180076B (zh) 一种基于多层语义分析的医疗信息提取方法
Peters et al. Introduction to the reproducible open coding kit (ROCK)
CN111524515A (zh) 语音交互方法、装置、电子设备及可读存储介质
Zubke et al. Using openEHR archetypes for automated extraction of numerical information from clinical narratives
Graf et al. Where Was COVID-19 First Discovered? Designing a Question-Answering System for Pandemic Situations
Château et al. Managing the domain knowledge: application to cultural patrimony
Barker et al. Speakers prioritise affordance-based object semantics in scene descriptions
Dash et al. Corpus and Dialect Study

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20230704

Address after: 1-2, 2nd Floor, No. 89 West Third Ring North Road, Haidian District, Beijing, 100048

Patentee after: Beijing Yuanzhi Sanmu Biotechnology Co.,Ltd.

Patentee after: Shi Juhong

Address before: 100005 808, Xiehe tomorrow building, 69 Dongdan North Street, Dongcheng District, Beijing

Patentee before: Wang Xin

Patentee before: Yang Yuqing

Patentee before: Shi Juhong