CN111859857A - 基于标注文本的训练数据集生成方法、系统、设备和介质 - Google Patents

基于标注文本的训练数据集生成方法、系统、设备和介质 Download PDF

Info

Publication number
CN111859857A
CN111859857A CN202010622293.2A CN202010622293A CN111859857A CN 111859857 A CN111859857 A CN 111859857A CN 202010622293 A CN202010622293 A CN 202010622293A CN 111859857 A CN111859857 A CN 111859857A
Authority
CN
China
Prior art keywords
text
sentence
database
texts
sentence splitting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010622293.2A
Other languages
English (en)
Other versions
CN111859857B (zh
Inventor
张少典
顾根
刘霄晨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Synyi Medical Technology Co ltd
Original Assignee
Shanghai Synyi Medical Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Synyi Medical Technology Co ltd filed Critical Shanghai Synyi Medical Technology Co ltd
Priority to CN202010622293.2A priority Critical patent/CN111859857B/zh
Publication of CN111859857A publication Critical patent/CN111859857A/zh
Application granted granted Critical
Publication of CN111859857B publication Critical patent/CN111859857B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/117Tagging; Marking up; Designating a block; Setting of attributes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/232Orthographic correction, e.g. spell checking or vowelisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供了一种基于标注文本的训练数据集生成方法、系统、设备和介质,通过获取多个待标注文本,将各原始长文本拆解为多个拆句短文本并进行去重与清洗处理;处理后存入数据库以分别分配到唯一的数据库id;采用正向最大匹配分句算法在数据库中获取对应的匹配信息;对拆句短文本进行实体/关联标注以分别生成唯一的标注id,并依据各拆句短文本获取其对应的数据库id与标注id的映射关系;根据匹配信息、及映射信息,将拆句短文本拼接为包含实体/关联标注的标注长文本,以供作为训练集数据。本申请能大幅降低企业人工标注的成本,确保重复文本标注一致性,同时能够降低模型算法训练时语料不一致造成的干扰,提升了模型学习的准确率。

Description

基于标注文本的训练数据集生成方法、系统、设备和介质
技术领域
本申请涉及训练集数据生成技术领域,特别是涉及一种基于标注文本的训练数据集生成 方法、系统、设备和介质。
背景技术
训练数据的匮乏是自然语言处理NLP领域里一个永恒的问题,缺乏标注数据、样本存在 大量噪声、数据存在偏差都是很普遍的现象,在自然语言处理领域,特别是垂直领域(比如 医学),这种现象更明显,当前业界标注主要存在如下问题:
1)对于企业来说大规模的人工数据标注成本极高;2)对于标注人员来说医学数据要求 标注人员具有专业的医学知识和基本的语言学常识;3)人工标注工作量大、枯燥、且标注过 程中存在大量重复文本,标注人员无法记忆每种重复文本的准确标注方法,导致前后标注不 统一;4)大批量多人协同标注过程中由于不同标注人员对相同的句子理解不同会导致大量标 注偏差,无法保证标注的一致性、会严重影响后续模型算法的训练效果。
发明内容
鉴于以上所述现有技术的缺点,本申请的目的在于提供一种基于标注文本的训练数据集 生成方法、系统、设备和介质,以解决现有技术中存在的至少一个问题。
为实现上述目的及其他相关目的,本申请提供一种基于标注文本的训练数据集生成方法, 所述方法包括:获取多个待标注文本,将所述待标注文本中各原始长文本拆解为多个拆句短 文本并进行去重与清洗处理;将处理后的所述原始长文本和所述拆句短文本存入数据库以分 别分配到唯一的数据库id;采用正向最大匹配分句算法在所述数据库中获取所述原始长文本 与所述拆句短文本对应的匹配信息;对所述拆句短文本进行实体/关联标注以分别生成唯一的 标注id,并依据各所述拆句短文本获取其对应的数据库id与标注id的映射关系;根据匹配信 息、及数据库id与标注id的映射信息,将所述拆句短文本拼接为包含实体/关联标注的标注 长文本,以供作为训练集数据。
于本申请的一实施例中,所述将所述待标注文本中各原始长文本拆解为多个拆句短文本 并进行去重与清洗处理,包括:对各所述拆句短文本进行去重处理;对所有所述原始长文本 与去重后的所述拆句短文本进行文本清洗;所述本文清洗包括:全角半角转换、符号中英文 转换、罗马字符转换、剔除错误编码字符、删除文本前后的空格、删除文本前后的\n中任意 一种或多种组合。
于本申请的一实施例中,所述采用正向最大匹配分句算法包括:确定一所述原始长文本 所对应的全部所述拆句短文本中的最长字符数;按照所述最长字符数在所述原始长文本中从 头至尾正向进行试配;判断在所述最长字符数范围内对应的文本是否能够在数据库中匹配到 相同的所述拆句短文本;若不能,则将所述最长字符数减1,并重新在所述原始长文本或去 除了已匹配的拆句短文本的原始长文本中从头至尾正向进行试配,直至递减的字符数范围内 对应的文本能够在数据库中匹配到相同的所述拆句短文本;若能,则将该拆句短文本与该原 始长文本建立匹配关系以得到匹配信息,并重新按所述最长字符数在去除了已匹配的拆句短 文本的原始长文本中从头至尾正向进行试配;当所述原始长文本所对应的全部所述拆句短文 本均建立匹配关系并得到匹配信息后结束。
于本申请的一实施例中,所述匹配信息包括:文本匹配信息与位置匹配信息;所述文本 匹配信息包含每个所述原始长文本的数据库id所对应的全部所述拆句短文本的数据库id;所 述位置匹配信息包含每各所述拆句短文本位于所对应的所述原始长文本中的位置信息。
于本申请的一实施例中,所获得数据库id与标注id的映射关系包括:1)数据库id与标 注id的映射信息;2)标注id与实体/关联标注的JSON映射信息;3)当前的拆句短文本的 标注id在整体的拆句短文本的标注id中的位置信息。
于本申请的一实施例中,在采用正向最大匹配分句算法在所述数据库中获取所述原始长 文本与所述拆句短文本对应的匹配信息之后,所述方法还包括:依据所获得的所述原始长文 本与所述拆句短文本对应的匹配信息,对所述原始长文本与所述拆句短文本进行匹配;若出 现错误情况,则自动标记错误的拆句短文本,并提醒重新验证拆句是否正确或匹配信息是否 完整。
于本申请的一实施例中,所述拆句短文本满足最小医学事件表达。
为实现上述目的及其他相关目的,本申请提供一种基于标注文本的训练数据集生成系统, 所述系统包括:语料获取与清洗模块,获取多个待标注文本,将所述待标注文本中各原始长 文本拆解为多个拆句短文本并进行去重与清洗处理;存储模块;将处理后的所述原始长文本 和所述拆句短文本存入数据库以分别分配到唯一的数据库id;匹配模块;采用正向最大匹配 分句算法在所述数据库中获取所述原始长文本与所述拆句短文本对应的匹配信息;映射模块; 对所述拆句短文本进行实体/关联标注以分别生成唯一的标注id,并依据各所述拆句短文本获 取其对应的数据库id与标注id的映射关系;拼接模块;根据匹配信息、及数据库id与标注 id的映射信息,将所述拆句短文本拼接为包含实体/关联标注的标注长文本,以供作为训练集 数据。
为实现上述目的及其他相关目的,本申请提供一种计算机设备,所述设备包括:存储器、 及处理器;所述存储器用于存储计算机指令;所述处理器运行计算机指令实现如上所述的方 法。
为实现上述目的及其他相关目的,本申请提供一种计算机可读存储介质,存储有计算机 指令,所述计算机指令被运行时执行如上所述的方法。
综上所述,本申请提供的一种基于标注文本的训练数据集生成方法、系统、设备和介质, 通过获取多个待标注文本,将所述待标注文本中各原始长文本拆解为多个拆句短文本并进行 去重与清洗处理;将处理后的所述原始长文本和所述拆句短文本存入数据库以分别分配到唯 一的数据库id;采用正向最大匹配分句算法在所述数据库中获取所述原始长文本与所述拆句 短文本对应的匹配信息;对所述拆句短文本进行实体/关联标注以分别生成唯一的标注id,并 依据各所述拆句短文本获取其对应的数据库id与标注id的映射关系;根据匹配信息、及数据 库id与标注id的映射信息,将所述拆句短文本拼接为包含实体/关联标注的标注长文本,以 供作为训练集数据。
具有以下有益效果:
本申请能大幅降低企业人工标注的成本,确保重复文本标注一致性,同时能够降低模型 算法训练时语料不一致造成的干扰,提升了模型学习的准确率。
附图说明
图1显示为本申请于一实施例中基于标注文本的训练数据集生成方法的流程示意图。
图2显示为本申请于一实施例中正向最大匹配分句算法的流程示意图。
图3显示为本申请于一实施例中基于标注文本的训练数据集生成系统的模块示意图。
图4显示为本申请于一实施例中计算机设备的结构示意图。
具体实施方式
以下通过特定的具体实例说明本申请的实施方式,本领域技术人员可由本说明书所揭露 的内容轻易地了解本申请的其他优点与功效。本申请还可以通过另外不同的具体实施方式加 以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本申请的精 神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征 可以相互组合。
需要说明的是,以下实施例中所提供的图示仅以示意方式说明本申请的基本构想,虽然 图式中仅显示与本申请中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,但 其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更 为复杂。
在本文中所使用的,单数形式“一”、“一个”和“该”旨在也包括复数形式,除非上下文中有相反的指示。应当进一步理解,术语“包含”、“包括”表明存在所述的特征、步骤、 操作、元件、组件、项目、种类、和/或组,但不排除一个或多个其他特征、步骤、操作、元 件、组件、项目、种类、和/或组的存在、出现或添加。此处使用的术语“或”和“和/或”被 解释为包括性的,或意味着任一个或任何组合。因此,“A、B或C”或者“A、B和/或C” 意味着“以下任一个:A;B;C;A和B;A和C;B和C;A、B和C”。仅当元件、功能、 步骤或操作的组合在某些方式下内在地互相排斥时,才会出现该定义的例外。
鉴于目前在自然语言算法训练过程中遇到的,训练数据不足、标注数据成本高、数据一 致性差影响算法模型训练等问题,本申请提供的基于少量拆句短文本标注自动生成海量训练 数据方法、系统、设备及介质,可以用于解决目前遇到的实际问题。申请能大幅降低了企业 人工标注的成本,确保了重复文本标注一致性,同时能够降低模型算法训练时语料不一致造 成的干扰,提升了模型学习的准确率。在本申请中标注人员只需要标注一小部分由原始长文 本拆句后获得且去重的短文本,便可自动批量生成完整的原始长文本标注文件,提供给模型 进行训练。
如图1所示,展示为本申请于一实施例中的基于标注文本的训练数据集生成方法的流程 示意图。如图所示,所述方法包括:
步骤S101:获取多个待标注文本,将所述待标注文本中各原始长文本拆解为多个拆句短 文本并进行去重与清洗处理。
于本实施例中,标注人员首先接收大批量待标注文本,假设待标注文本有5000份,每份 文本约为2000字;然后进行医学拆句处理,需说明的是,拆句处理原则是把每份医学文本按 包含能满足最小医学事件表达进行拆解,且相对于分词更能准确保留医学含义,以实现将原 始长文本拆解为多个拆句短文本,拆解顺序为正向拆解,拆解完成后将所有的拆句短文本做 去重、及清洗处理。
于本申请一实施例中,所述将所述待标注文本中各原始长文本拆解为多个拆句短文本并 进行去重与清洗处理,包括:
A、对各所述拆句短文本进行去重处理。
举例来说,假设在251篇现病史长文本中,共包含19万字需要标注,经过本申请的拆句 及去重处理后,仅获得4800条左右不重复的拆句短文本,其中共包含7万字需要标注,实际 标注工作量量只占原来的1/3。
需要特别说明的是,现有人工标注训练数据的步骤中减少进行去重处理,原因在于:1) 在对本文进行去重后,不仅需要将去重的文本精准的匹配至原文本位置,该匹配过程随着文 本量越多越复杂,准确性不稳定;2)并且人工标注的标注信息并非能够正确表达每一处原文 本所对应的实际含义,易出现标注信息不匹配的问题。
而本申请中能够很好的解决上述两方面问题,因此能够选择去重处理。具体解决手段包 括:
针对问题1),本申请后续步骤S103的正向最大匹配分句算法来获取所述原始长文本与 所述拆句短文本对应的文本匹配信息和位置匹配信息。其中,现有的匹配分局算法多采用如 字典等公开的标准库,因此大多只能基于字数较少的短语进行匹配,而本申请的正向最大匹 配分句算法相比于现有的匹配分局算法来说,采用字数更多的长句字进行匹配,其匹配效果 更好。另外,本申请还在后续提供了检验过程,能够大大提高匹配的准确性。
针对问题2),本申请所述的训练集主要聚焦于在医学领域,更具体地集中在病历,由于 病历具有独特点的信息特点,如言简意赅、特有专用名字多特点,因此,相同短文本的标注 信息出现含义不同的概率小;另外,本申请是的拆句处理是遵循每份医学文本按包含能满足 最小医学事件表达的原则将原始长文本拆解为多个拆句短文本的,且相对于分词更能准确保 留医学含义,从而可以进一步降低所拆解的短文本的标注信息出现异意的概率。
B、对所有所述原始长文本与去重后的所述拆句短文本进行文本清洗;所述本文清洗包 括:全角半角转换、罗马字符转换、剔除错误编码字符、删除文本前后的空格、删除文本前 后的\n中任意一种或多种组合。
举例来说,由于一开始接收的大批量待标注文本(如现病史长文本)可能由于输入法的 不同、输入习惯不同而造成本文格式也不尽相同。
例如,全角半角、符号中英文、罗马字符、错误编码字符、文本前后出现空格或\n等情 况。另外,本申请后续的原始长文本与拆句短文本之间的匹配精确到字符单位,因此,为保 证文本统一,以及后续标注与匹配的准确性,本申请对所有所述原始长文本与去重后的所述 拆句短文本进行文本清。所述本文清洗包括但不限于:全角半角转换、符号中英文转换、罗 马字符转换、剔除错误编码字符、删除文本前后的空格、删除文本前后的\n中任意一种或多 种组合。
步骤S102:将处理后的所述原始长文本和所述拆句短文本存入数据库以分别分配到唯一 的数据库id。
于本实施例中,对处理后的所述原始长文本和所述拆句短文本存入数据库,并分别自动 分配到唯一的数据库id。
需说明的是,这里的数据库为独立的存储数据库,在存入原始长文本与拆句短文本数据 后,该数据库可用于导入其他专门的标注数据库或标注系统进行标注处理,由于标注数据库 或标注系统可能具有多种环境,与本存储数据库不统一,因此还需要将存储数据库与标注数 据库建立映射关系,建立映射关系之后该数据库便可作为训练数据集。
举例来说,如下表1所示,展示为一实施例中原始长文本的数据库id分配情况。
表1原始长文本的数据库id
Figure BDA0002563433870000061
由上述表1所示,其包含了两个原始长文本,各自所分配的唯一数据库id分别为0和1。 另外,不难看出,原始长文本0和原始长文本1按最小医学事件表达所拆解的拆句短文本存 在相同内容,因此,在对拆句短文本去重后可得到如表2所示的拆句短文本的数据库id。
表2拆句短文本的数据库id
Figure BDA0002563433870000071
由表2可知,拆句短文本的数据库id分别为2,3,4,5,6。
步骤S103:采用正向最大匹配分句算法在所述数据库中获取所述原始长文本与所述拆句 短文本对应的匹配信息。
于本申请一实施例中,如图2展示为正向最大匹配分句算法的流程示意图,所述算法具 体包括:
步骤S201:确定一所述原始长文本所对应的全部所述拆句短文本中的最长字符数。
举例来说,由表1中原始长文本0的各拆句短文本中可以看出,对应表2中的拆句短文 本3的文本内容“心:听诊:心率130次/分,心律齐,心音有力,可及杂音。”的字符数最长,共为26个,因此,最长字符数为26。
步骤S202:按照所述最长字符数在所述原始长文本中从头至尾正向进行试配。
于本实施例中,按26个字符的长度对应到原始长文本中。例如,26个字符在所述原始 长文本中从头至尾正向适配,对应到第2行的“齐”,即在所述最长字符数范围内对应的文本 为“体格检查:一般情况可。心:听诊:心率130次/分,心律齐”。
步骤S203:判断在所述最长字符数范围内对应的文本是否能够在数据库中匹配到相同的 所述拆句短文本。
步骤S204:若不能,则将所述最长字符数减1,并重新在所述原始长文本或去除了已匹 配的拆句短文本的原始长文本中从头至尾正向进行试配,直至递减的字符数范围内对应的文 本能够在数据库中匹配到相同的所述拆句短文本。
承上举例来说,所提取到的本文“体格检查:一般情况可。心:听诊:心率130次/分,心律齐” 在数据库中并未能匹配到相同的所述拆句短文本。因此,将最长字符减数1降为25个字符的 长度范围,再重新再所述原始长文本进行试配,直至递减的字符数范围内对应的文本能够在 数据库中匹配到相同的所述拆句短文本。由表2中的拆句短文本2的文本内容“体格检查:一 般情况可。”对应的字符数为11,因此,当最长字符数降至11时,在所述原始长文本中对应 的文本内容正好为拆句短文本2的文本内容,由此,在数据库中,数据库id为0的原始长文 本中从头至尾正向的第一个拆句短文本为数据库id为2的拆句短文本。
步骤S205:若能,则将该拆句短文本与该原始长文本建立匹配关系以得到匹配信息,并 重新按所述最长字符数在去除了已匹配的拆句短文本的原始长文本中从头至尾正向进行试配。
再举例来说,当匹配到一个拆句短文本后,将该短文本内容去除,并重新按最长字符数 进行如步骤S203的试配,以此类推。例如,当去除了数据库id为0的原始长文本中数据库 id为2的拆句短文本后,其当前最开头的拆句短文本(数据库为3的拆句短文本)的字符数 恰好是最长字符数,因此,可以正好匹配成功。
步骤S206:当所述原始长文本所对应的全部所述拆句短文本均建立匹配关系并得到匹配 信息后结束。
需要特别说明的是,现有的匹配分局算法多采用如字典等公开的标准库,因此大多只能 基于字数较少的短语进行匹配,如一个字或两个字的词;而本申请的正向最大匹配分句算法 相比于现有的匹配分局算法来说,采用字数更多的长句字进行匹配,其匹配效果更好。如所 举例中最大字符数为26的长句去进行匹配。
于本申请一实施例中,所述匹配信息包括:文本匹配信息与位置匹配信息。
其中,所述文本匹配信息包含每个所述原始长文本的数据库id所对应的全部所述拆句短 文本的数据库id;所述位置匹配信息包含每各所述拆句短文本位于所对应的所述原始长文本 中的位置信息。
举例来说,结合表1和表2,可获得所述原始长文本与所述拆句短文本对应的文本匹配 信息和位置匹配信息如下:
{'0':{'2':[(0,11)],'3':[(12,38)],'4':[(39,55)],'5':[(56,72)],'6':[(73,83)]}};
{'1':{'2':[(0,11)],'3':[(12,38)],'4':[(39,55)],'6':[(56,66)]}}。
上述信息,可以看出,所述原始长文本0分别包含了拆句短文本2,3,4,5,6,这对应为文本匹配信息;由各拆句短文本中字符数可知,拆句短文本2位于原始长文本0的第0个字符到11字符的位置,句短文本3位于原始长文本0的第12个字符到38字符的位置,依 次类推,通过字符数可以确定位置匹配信息。需注意的是,由于原始长文本1中没有拆句短 文本5,故原始长文本1中的拆句短文本6的位置信息与原始长文本0中的拆句短文本6的 位置信息不同。
于本实施例中,由于重复文本的出现,且经过去重处理,标注人员的标注工作量不仅下 降,而且避免了重复标注,不存在标注不一致性的情况,该匹配信息为后续长文本完整标注 信息拼接提供了映射关系。
于本申请一实施例中,在采用正向最大匹配分句算法在所述数据库中获取所述原始长文 本与所述拆句短文本对应的匹配信息之后,所述方法还包括:
A、依据所获得的所述原始长文本与所述拆句短文本对应的匹配信息,对所述原始长文 本与所述拆句短文本进行匹配;
B、若出现错误情况,则自动标记错误的拆句短文本,并提醒重新验证拆句是否正确或 匹配信息是否完整。
于本实施例中,在得到匹配信息本申请通过对所述原始长文本与所述拆句短文本进行匹 配进行校验,一方面,可用于校验人工拆句是否正确,另一方面也可检查文本匹配信息&位 置信息是否完整。
例如,匹配信息校验结果为:['-体','-格','-检','-查','-:','-一','-般','-情','- 况','-可','-。','心',':','听','诊',':','心','率','1','3','0','次','/','分', ',','心','律','齐',',','心','音','有','力',',','可','及','杂','音','。','肺',':','听','诊',':','双','侧','呼','吸','音','清',',','无','罗','音','。','腹','部',':','望','诊',':',’平','坦',',','未','见',’明','显','肠 ','型','。','腹','部','、','神','经','系','统','阴','性','。']。
举例来说,假设原始长文本id=0中,缺失了拆句短文本id=2“体格检查:一般情况可。”, 本申请会自动标记缺失拆句短文本,并提醒标注人员重新校验拆句的正确性。具体方式如下, 例如,若字缺失,则前面加上”-”号,若字增多,则前面加上”+”号,若不发生变化,则 不变等等。
步骤S104:对所述拆句短文本进行实体/关联标注以分别生成唯一的标注id,并依据各所 述拆句短文本获取其对应的数据库id与标注id的映射关系。
于本实施例中,在匹配与纠错处理结束后,标注人员上传所有拆句短文本至标注数据库 或标注系统,以进行线上语料标注,主要进行实体标注与关联标注,语料标注完成后由标注 系统生成标注系统唯一标注id,以供下载标注信息。其中,采用JSON格式存储每一条拆句 短文本的标注信息。
所述JSON(JavaScript Object Notation,JS对象简谱)是一种轻量级的数据交换格式。它基 于ECMAScript(欧洲计算机协会制定的js规范)的一个子集,采用完全独立于编程语言的文 本格式来存储和表示数据。简洁和清晰的层次结构使得JSON成为理想的数据交换语言。易 于人阅读和编写,同时也易于机器解析和生成,并有效地提升网络传输效率
举例来说,对所述拆句短文本进行实体/关联标注后,可对应表2获得如1002,1003,1004, 1005,五份拆句短文本的标注信息文件。
如,对应拆句短文本id=2的标注id为1002,对应文本内容“体格检查:一般情况可。” 为:
{1002:{实体信息{实体1:[2000,2001]},{实体2:[2005,2008]};关联信息1:{实体2 →实体1}}}。
其中,实体1对应“体格”,实体2对应“一般情况”,关联信息则为:“一般情况”关联于“体格”。
于本实施例中,由于标注系统可能属于外部系统,其生成的拆句短文本标注id与数据库 中的数据库id会存在不统一的情况,因此,本申请需要根据两者唯一相同的文本作为key获 得映射关系。
具体来说,所获得数据库id与标注id的映射关系包括:
1)数据库id与标注id的映射信息;
2)标注id与实体/关联标注的JSON映射信息;
3)当前的拆句短文本的标注id在整体的拆句短文本的标注id中的位置信息。
举例来说,
1)数据库id与标注id的映射信息:
如{“2”:1002,“3”:1003,“4”:1004,“5”:1005,“6”:1006},其中,2表示数据库 id,1002表示标注id,且二者均表示如表2中所述的文本内容“体格检查:一般情况可。”, 即可以得到数据库id与标注id的映射信息:数据库id=2等于标注id=1002,其余依次类推。
2)标注id与实体/关联标注的JSON映射信息:
如{1002:{实体信息{实体1:[2000,2001]},{实体2:[2005,2008]};关联信息1:{实体 2→实体1}},1003:{实体信息,关联信息},等等},其中,这里着重体现针对拆句短文本的 标注id中与实体标注或关联标注的JSON格式的映射信息。
3)当前的拆句短文本的标注id在整体的拆句短文本的标注id中的位置信息:
如{1002:[2000,2011],1003:[2012,2040],1004:[2041,2057],1005:[2058,2074],1006:[2075, 2085]}。
注意这里的位置信息是指当前的整体拆句短文本中该条拆句短文本位于整体拆句短文本 中的位置信息。
举例来说,一共上传并标注了3000条拆句短文本,对应标注id=1002的文本内容为“体 格检查:一般情况可。”,共11个字符,现在标注id=1002在这3000条中的位置是[2000,2011], 该位置信息并不等于这条拆句短文本在实际原始长文本中的位置信息,而是对应至标注系统 中整体拆句短文本中的位置。并且考虑到该拆句短文本可能已被匹配并映射于其它原始长文 本中,而这里的位置信息更主要的是指在当前的拆句短文本在整体拆句短文本(还原到未去 重情形下)中的位置信息。
例如:实际原始长文本id=0,'0':{'2':[(0,11)]...}因为id=1002等于id=2,实际位置信 息为[0,11],后续这部分需要自动转换。
步骤S105:根据匹配信息、及数据库id与标注id的映射信息,将所述拆句短文本拼接 为包含实体/关联标注的标注长文本,以供作为训练集数据。
于本实施例中,根据之前原始长文本与拆句短文本获得的文本匹配信息和位置匹配信息, 结合步骤S104中所获得数据库id与标注id的3个映射信息,可将所述拆句短文本拼接为包 含实体/关联标注的标注长文本,具体地,本申请自动更新拆句短文本携带的位置信息,更新 上述3)中当前的拆句短文本的标注id在整体的拆句短文本的标注id中的位置信息。
举例来说,1002:[2000,2011]-->1002:[0,11],再进一步更新1002中的实体标注的位置信 息,实体1:[1002,1004]-->实体1:[2,4]。
最终实现原始长文本中所有拆句短文本标注正确拼接,且正确更新了实体,关联位置信 息,生成了完整的训练集数据。
本申请形成的一种通用的自然语言处理模型训练数据的自动生成方法与其他模型训练生 成的方式相比,优点在于:
1)标注人员无需对所有需要标注的文本进行全部标注;
2)标注人员只需通过标注小批量去重后的短文本,能自动拼接为完整可用的模型训练集, 整体标注时间减少,同样的时间可以生产更多模型训练数据;
3)解决了同样标注人员对大量重复文本标注数据不一致性,解决了不同标注人员对相同 句子存在不同标注方法的问题。
如图3所示,展示为本申请于一实施例中的基于标注文本的训练数据集生成系统的模块 示意图。如图所示,所述系统300包括:
语料获取与清洗模块301,获取多个待标注文本,将所述待标注文本中各原始长文本拆 解为多个拆句短文本并进行去重与清洗处理;
存储模块302;将处理后的所述原始长文本和所述拆句短文本存入数据库以分别分配到 唯一的数据库id;
匹配模块303;采用正向最大匹配分句算法在所述数据库中获取所述原始长文本与所述 拆句短文本对应的匹配信息;
映射模块304;对所述拆句短文本进行实体/关联标注以分别生成唯一的标注id,并依据 各所述拆句短文本获取其对应的数据库id与标注id的映射关系;
拼接模块305;根据匹配信息、及数据库id与标注id的映射信息,将所述拆句短文本拼 接为包含实体/关联标注的标注长文本,以供作为训练集数据。
于本申请一实施例中,所述系统还包括:
纠错模块306;依据所获得的所述原始长文本与所述拆句短文本对应的匹配信息,对所 述原始长文本与所述拆句短文本进行匹配;若出现错误情况,则自动标记错误的拆句短文本, 并提醒重新验证拆句是否正确或匹配信息是否完整。
需要说明的是,上述系统各模块/单元之间的信息交互、执行过程等内容,由于与本申请 所述方法实施例基于同一构思,其带来的技术效果与本申请方法实施例相同,具体内容可参 见本申请前述所示的方法实施例中的叙述,此处不再赘述。
还需要说明的是,应理解以上系统的各个模块的划分仅仅是一种逻辑功能的划分,实际 实现时可以全部或部分集成到一个物理实体上,也可以物理上分开。且这些单元可以全部以 软件通过处理元件调用的形式实现;也可以全部以硬件的形式实现;还可以部分模块通过处 理元件调用软件的形式实现,部分模块通过硬件的形式实现。例如,匹配模块303可以为单 独设立的处理元件,也可以集成在上述系统的某一个芯片中实现,此外,也可以以程序代码 的形式存储于上述系统的存储器中,由上述系统的某一个处理元件调用并执行以上匹配模块 303的功能。其它模块的实现与之类似。此外这些模块全部或部分可以集成在一起,也可以 独立实现。这里所述的处理元件可以是一种集成电路,具有信号的处理能力。在实现过程中, 上述方法的各步骤或以上各个模块可以通过处理器元件中的硬件的集成逻辑电路或者软件形 式的指令完成。
例如,以上这些模块可以是被配置成实施以上方法的一个或多个集成电路,例如:一个 或多个特定集成电路(Application Specific Integrated Circuit,简称ASIC),或,一个或多个微 处理器(digital signal processor,简称DSP),或,一个或者多个现场可编程门阵列(Field Programmable Gate Array,简称FPGA)等。再如,当以上某个模块通过处理元件调度程序代 码的形式实现时,该处理元件可以是通用处理器,例如中央处理器(Central Processing Unit, 简称CPU)或其它可以调用程序代码的处理器。再如,这些模块可以集成在一起,以片上系统(system-on-a-chip,简称SOC)的形式实现。
如图4所示,展示为本申请于一实施例中的计算机设备的结构示意图。如图所示,所述 计算机设备400包括:存储器401、及处理器402;所述存储器401用于存储计算机指令;所 述处理器402运行计算机指令实现如图1所述的方法。
在一些实施例中,所述计算机设备400中的所述存储器401的数量均可以是一或多个, 所述处理器402的数量均可以是一或多个,而图4中均以一个为例。
于本申请一实施例中,所述计算机设备400中的处理器402会按照如图1所述的步骤, 将一个或多个以应用程序的进程对应的指令加载到存储器401中,并由处理器402来运行存 储在存储器401中的应用程序,从而实现如图1所述的方法。
所述存储器401可以包括随机存取存储器(Random Access Memory,简称RAM),也可以 包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。所述存储器401存储 有操作系统和操作指令、可执行模块或者数据结构,或者它们的子集,或者它们的扩展集, 其中,操作指令可包括各种操作指令,用于实现各种操作。操作系统可包括各种系统程序, 用于实现各种基础业务以及处理基于硬件的任务。
所述处理器402可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、 网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital Signal Processing,简称DSP)、专用集成电路(Application SpecificIntegrated Circuit,简称ASIC)、现 场可编程门阵列(Field-Programmable GateArray,简称FPGA)或者其他可编程逻辑器件、分 立门或者晶体管逻辑器件、分立硬件组件。
在一些具体的应用中,所述计算机设备400的各个组件通过总线系统耦合在一起,其中 总线系统除包括数据总线之外,还可以包括电源总线、控制总线和状态信号总线等。但是为 了清除说明起见,在图4中将各种总线都成为总线系统。
于本申请的一实施例中,本申请提供一种计算机可读存储介质,其上存储有计算机程序, 该程序被处理器执行时实现如图1所述的方法。
所述计算机可读存储介质,本领域普通技术人员可以理解:实现上述系统及各单元功能 的实施例可以通过计算机程序相关的硬件来完成。前述的计算机程序可以存储于一计算机可 读存储介质中。该程序在执行时,执行包括上述系统及各单元功能的实施例;而前述的存储 介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
综上所述,本申请提供的一种基于标注文本的训练数据集生成方法、系统、设备和介质, 通过获取多个待标注文本,将所述待标注文本中各原始长文本拆解为多个拆句短文本并进行 去重与清洗处理;将处理后的所述原始长文本和所述拆句短文本存入数据库以分别分配到唯 一的数据库id;采用正向最大匹配分句算法在所述数据库中获取所述原始长文本与所述拆句 短文本对应的匹配信息;对所述拆句短文本进行实体/关联标注以分别生成唯一的标注id,并 依据各所述拆句短文本获取其对应的数据库id与标注id的映射关系;根据匹配信息、及数据 库id与标注id的映射信息,将所述拆句短文本拼接为包含实体/关联标注的标注长文本,以 供作为训练集数据。
本申请有效克服了现有技术中的种种缺点而具高度产业利用价值。
上述实施例仅例示性说明本申请的原理及其功效,而非用于限制本发明。任何熟悉此技 术的人士皆可在不违背本申请的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡 所属技术领域中包含通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等 效修饰或改变,仍应由本申请的权利要求所涵盖。

Claims (10)

1.一种基于标注文本的训练数据集生成方法,其特征在于,所述方法包括:
获取多个待标注文本,将所述待标注文本中各原始长文本拆解为多个拆句短文本并进行去重与清洗处理;
将处理后的所述原始长文本和所述拆句短文本存入数据库以分别分配到唯一的数据库id;
采用正向最大匹配分句算法在所述数据库中获取所述原始长文本与所述拆句短文本对应的匹配信息;
对所述拆句短文本进行实体/关联标注以分别生成唯一的标注id,并依据各所述拆句短文本获取其对应的数据库id与标注id的映射关系;
根据匹配信息、及数据库id与标注id的映射信息,将所述拆句短文本拼接为包含实体/关联标注的标注长文本,以供作为训练集数据。
2.根据权利要求1所述的方法,其特征在于,所述将所述待标注文本中各原始长文本拆解为多个拆句短文本并进行去重与清洗处理,包括:
对各所述拆句短文本进行去重处理;
对所有所述原始长文本与去重后的所述拆句短文本进行文本清洗;所述本文清洗包括:全角半角转换、符号中英文转换、罗马字符转换、剔除错误编码字符、删除文本前后的空格、删除文本前后的\n中任意一种或多种组合。
3.根据权利要求1所述的方法,其特征在于,所述采用正向最大匹配分句算法包括:
确定一所述原始长文本所对应的全部所述拆句短文本中的最长字符数;
按照所述最长字符数在所述原始长文本中从头至尾正向进行试配;
判断在所述最长字符数范围内对应的文本是否能够在数据库中匹配到相同的所述拆句短文本;
若不能,则将所述最长字符数减1,并重新在所述原始长文本或去除了已匹配的拆句短文本的原始长文本中从头至尾正向进行试配,直至递减的字符数范围内对应的文本能够在数据库中匹配到相同的所述拆句短文本;
若能,则将该拆句短文本与该原始长文本建立匹配关系以得到匹配信息,并重新按所述最长字符数在去除了已匹配的拆句短文本的原始长文本中从头至尾正向进行试配;
当所述原始长文本所对应的全部所述拆句短文本均建立匹配关系并得到匹配信息后结束。
4.根据权利要求3所述的方法,其特征在于,所述匹配信息包括:文本匹配信息与位置匹配信息;
所述文本匹配信息包含每个所述原始长文本的数据库id所对应的全部所述拆句短文本的数据库id;所述位置匹配信息包含每各所述拆句短文本位于所对应的所述原始长文本中的位置信息。
5.根据权利要求1所述的方法,其特征在于,所获得数据库id与标注id的映射关系包括:
1)数据库id与标注id的映射信息;
2)标注id与实体/关联标注的JSON映射信息;
3)当前的拆句短文本的标注id在整体的拆句短文本的标注id中的位置信息。
6.根据权利要求1-5中任意一项所述的方法,其特征在于,在采用正向最大匹配分句算法在所述数据库中获取所述原始长文本与所述拆句短文本对应的匹配信息之后,所述方法还包括:
依据所获得的所述原始长文本与所述拆句短文本对应的匹配信息,对所述原始长文本与所述拆句短文本进行匹配;
若出现错误情况,则自动标记错误的拆句短文本,并提醒重新验证拆句是否正确或匹配信息是否完整。
7.根据权利要求1-5中任意一项所述的方法,其特征在于,所述拆句短文本满足最小医学事件表达。
8.一种基于标注文本的训练数据集生成系统,其特征在于,所述系统包括:
语料获取与清洗模块,获取多个待标注文本,将所述待标注文本中各原始长文本拆解为多个拆句短文本并进行去重与清洗处理;
存储模块;将处理后的所述原始长文本和所述拆句短文本存入数据库以分别分配到唯一的数据库id;
匹配模块;采用正向最大匹配分句算法在所述数据库中获取所述原始长文本与所述拆句短文本对应的匹配信息;
映射模块;对所述拆句短文本进行实体/关联标注以分别生成唯一的标注id,并依据各所述拆句短文本获取其对应的数据库id与标注id的映射关系;
拼接模块;根据匹配信息、及数据库id与标注id的映射信息,将所述拆句短文本拼接为包含实体/关联标注的标注长文本,以供作为训练集数据。
9.一种计算机设备,其特征在于,所述设备包括:存储器、及处理器;所述存储器用于存储计算机指令;所述处理器运行计算机指令实现如权利要求1至7中任意一项所述的方法。
10.一种计算机可读存储介质,其特征在于,存储有计算机指令,所述计算机指令被运行时执行如权利要求1至7中任一项所述的方法。
CN202010622293.2A 2020-06-30 2020-06-30 基于标注文本的训练数据集生成方法、系统、设备和介质 Active CN111859857B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010622293.2A CN111859857B (zh) 2020-06-30 2020-06-30 基于标注文本的训练数据集生成方法、系统、设备和介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010622293.2A CN111859857B (zh) 2020-06-30 2020-06-30 基于标注文本的训练数据集生成方法、系统、设备和介质

Publications (2)

Publication Number Publication Date
CN111859857A true CN111859857A (zh) 2020-10-30
CN111859857B CN111859857B (zh) 2021-08-27

Family

ID=72989446

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010622293.2A Active CN111859857B (zh) 2020-06-30 2020-06-30 基于标注文本的训练数据集生成方法、系统、设备和介质

Country Status (1)

Country Link
CN (1) CN111859857B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112508000A (zh) * 2020-11-26 2021-03-16 上海展湾信息科技有限公司 一种用于ocr图像识别模型训练数据生成的方法及设备
CN112560408A (zh) * 2020-12-18 2021-03-26 广东轩辕网络科技股份有限公司 一种文本标注方法、装置、终端及存储介质
CN112614562A (zh) * 2020-12-23 2021-04-06 联仁健康医疗大数据科技股份有限公司 基于电子病历的模型训练方法、装置、设备及存储介质
CN113779959A (zh) * 2021-08-31 2021-12-10 西南电子技术研究所(中国电子科技集团公司第十研究所) 小样本文本数据混合增强方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110543637A (zh) * 2019-09-06 2019-12-06 知者信息技术服务成都有限公司 一种中文分词方法及装置
CN110674250A (zh) * 2019-08-15 2020-01-10 中国平安财产保险股份有限公司 一种文本匹配方法、装置、计算机系统及可读存储介质
CN110807096A (zh) * 2018-08-02 2020-02-18 鼎复数据科技(北京)有限公司 一种小样本集上的信息对匹配方法及系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110807096A (zh) * 2018-08-02 2020-02-18 鼎复数据科技(北京)有限公司 一种小样本集上的信息对匹配方法及系统
CN110674250A (zh) * 2019-08-15 2020-01-10 中国平安财产保险股份有限公司 一种文本匹配方法、装置、计算机系统及可读存储介质
CN110543637A (zh) * 2019-09-06 2019-12-06 知者信息技术服务成都有限公司 一种中文分词方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
GUANGYUAN HUANG ET AL.: "Measuring Similarity between Sentence Fragments", 《2012 4TH INTERNATIONAL CONFERENCE ON INTELLIGENT HUMAN-MACHINE SYSTEMS AND CYBERNETICS》 *
丁祥武 等: "医疗领域文本结构化", 《计算机工程与设计》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112508000A (zh) * 2020-11-26 2021-03-16 上海展湾信息科技有限公司 一种用于ocr图像识别模型训练数据生成的方法及设备
CN112508000B (zh) * 2020-11-26 2023-04-07 上海展湾信息科技有限公司 一种用于ocr图像识别模型训练数据生成的方法及设备
CN112560408A (zh) * 2020-12-18 2021-03-26 广东轩辕网络科技股份有限公司 一种文本标注方法、装置、终端及存储介质
CN112614562A (zh) * 2020-12-23 2021-04-06 联仁健康医疗大数据科技股份有限公司 基于电子病历的模型训练方法、装置、设备及存储介质
CN112614562B (zh) * 2020-12-23 2024-05-31 联仁健康医疗大数据科技股份有限公司 基于电子病历的模型训练方法、装置、设备及存储介质
CN113779959A (zh) * 2021-08-31 2021-12-10 西南电子技术研究所(中国电子科技集团公司第十研究所) 小样本文本数据混合增强方法

Also Published As

Publication number Publication date
CN111859857B (zh) 2021-08-27

Similar Documents

Publication Publication Date Title
CN111859857B (zh) 基于标注文本的训练数据集生成方法、系统、设备和介质
CN110489760B (zh) 基于深度神经网络文本自动校对方法及装置
US9342499B2 (en) Round-trip translation for automated grammatical error correction
CN111708874A (zh) 基于复杂意图智能识别的人机交互问答方法与系统
US8046211B2 (en) Technologies for statistical machine translation based on generated reordering knowledge
CN106844351B (zh) 一种面向多数据源的医疗机构组织类实体识别方法及装置
US20160132648A1 (en) Data Processing System and Method for Computer-Assisted Coding of Natural Language Medical Text
CN110795938B (zh) 文本序列分词方法、装置及存储介质
JPS62163173A (ja) 機械翻訳方法
CN110162784B (zh) 中文病历的实体识别方法、装置、设备及存储介质
WO2021179708A1 (zh) 命名实体识别方法、装置、计算机设备及可读存储介质
CN111292814A (zh) 一种医疗数据标准化的方法及装置
CN116721778B (zh) 一种医学术语标准化方法、系统、设备及介质
Adduru et al. Towards Dataset Creation And Establishing Baselines for Sentence-level Neural Clinical Paraphrase Generation and Simplification.
CN111291554A (zh) 标注方法、关系抽取方法、存储介质和运算装置
Madi et al. Grammatical error checking systems: A review of approaches and emerging directions
CN108920661A (zh) 国际疾病分类标记方法、装置、计算机设备及存储介质
Cui et al. CharaParser+ EQ: performance evaluation without gold standard
CN113658720A (zh) 匹配诊断名称和icd编码的方法、装置、电子设备和存储介质
Yang et al. Spell Checking for Chinese.
CN112668281A (zh) 基于模板的语料自动化扩充方法、装置、设备及介质
Medved et al. SQAD: Simple Question Answering Database.
Masciolini et al. Towards automatically extracting morphosyntactical error patterns from L1-L2 parallel dependency treebanks
CN112955961B (zh) 医学文本中对基因名称的标准化的方法和系统
CN113408296A (zh) 一种文本信息提取方法、装置及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant