CN113919287B - 结合rpa及ai的实体关系标注方法、装置及电子设备 - Google Patents

结合rpa及ai的实体关系标注方法、装置及电子设备 Download PDF

Info

Publication number
CN113919287B
CN113919287B CN202111477498.7A CN202111477498A CN113919287B CN 113919287 B CN113919287 B CN 113919287B CN 202111477498 A CN202111477498 A CN 202111477498A CN 113919287 B CN113919287 B CN 113919287B
Authority
CN
China
Prior art keywords
text
labeling
processed
entity
line
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111477498.7A
Other languages
English (en)
Other versions
CN113919287A (zh
Inventor
贾思齐
汪冠春
胡一川
褚瑞
李玮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Laiye Network Technology Co Ltd
Laiye Technology Beijing Co Ltd
Original Assignee
Beijing Laiye Network Technology Co Ltd
Laiye Technology Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Laiye Network Technology Co Ltd, Laiye Technology Beijing Co Ltd filed Critical Beijing Laiye Network Technology Co Ltd
Priority to CN202111477498.7A priority Critical patent/CN113919287B/zh
Publication of CN113919287A publication Critical patent/CN113919287A/zh
Application granted granted Critical
Publication of CN113919287B publication Critical patent/CN113919287B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/117Tagging; Marking up; Designating a block; Setting of attributes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本公开提出一种结合RPA及AI的实体关系标注方法、装置及电子设备。该方案包括:根据目标宽度对待处理文本进行分行处理,将待处理文本以分行形式展示在展示容器中;基于RPA系统对展示容器中待处理文本的刷选标注事件,获取标注文本和标注文本的标注元素;响应于检测到待处理文本中存在同一片段标注文本对应多个不同标注元素,在展示容器中将多个不同标注元素依次排列展示在同一片段标注文本的邻近位置。该方案可以满足将同一片段标注文本标为多种实体的需求,不仅可以提高该标注方法在实际应用场景的适用性,也可以提高实体关系标注的准确率。

Description

结合RPA及AI的实体关系标注方法、装置及电子设备
技术领域
本公开涉及机器人流程自动化(Robotic Process Automation,RPA)、人工智能(Artificial Intelligence,AI)技术领域,尤其涉及一种结合RPA和AI的实体关系标注方法、装置及电子设备。
背景技术
机器人流程自动化(Robotic Process Automation)简称RPA,是通过特定的“机器人软件”,模拟人在计算机上的操作,按规则自动执行流程任务。
人工智能(Artificial Intelligence,AI)是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门技术科学。
相关技术的实体关系标注中,同一段文本不能被标为多种实体,而实际业务场景中存在将同段文本拆成多个实体的需求,造成实体关系标注的准确率有待提高。
发明内容
本公开实施例提供一种结合RPA和AI的实体关系标注方法、装置及电子设备,以解决相关技术存在的问题,技术方案如下:
第一方面,本公开实施例提供了一种结合RPA及AI的实体关系标注方法,包括:
根据目标宽度对待处理文本进行分行处理,将待处理文本以分行形式展示在展示容器中;
基于RPA系统对展示容器中待处理文本的刷选标注事件,获取标注文本和标注文本的标注元素;
响应于检测到待处理文本中存在同一片段标注文本对应多个不同标注元素,在展示容器中将多个不同标注元素依次排列展示在同一片段标注文本的邻近位置。
在本公开的一些实施例中,检测到待处理文本中存在同一片段标注文本对应多个不同标注元素,包括:
确定针对待处理文本的当前所有标注文本各自在待处理文本中的绝对位置信息;
根据当前所有标注文本各自的绝对位置信息和各行的绝对位置信息,确定当前所有标注文本各自对应的标注元素在对应行中的左偏移量和宽度;
根据左偏移量和宽度,确定是否存在同一行内的标注元素有重叠现象;
响应于同一行内的标注元素有重叠现象,检测到待处理文本中存在同一片段标注文本对应多个不同标注元素。
在本公开的一些实施例中,同一片段标注文本包含多个标注文本,多个标注文本至少部分字符相同;在展示容器中将多个不同标注元素依次排列展示在同一片段标注文本的邻近位置,包括:
确定多个不同标注元素各自的垂直偏移量;
根据多个不同标注元素各自在对应行中的左偏移量和宽度、以及多个不同标注元素各自的垂直偏移量,在展示容器中将多个不同标注元素依次排列展示在各自对应的标注文本的垂直方向位置上。
可选地,在本公开的一些实施例中,方法还包括:
响应于待处理文本之中存在跨行标注文本,确定跨行标注文本对应的跨行标注元素在不同行中的左偏移量和宽度;
根据跨行标注元素在不同行中的左偏移量和宽度,在展示容器中将跨行标注元素展示在与跨行标注文本对应的每行文本的垂直方向位置上。
作为一种实现方式,本公开实施例的方法还包括:
在展示容器所在页面中提供配置入口;
响应于对配置入口的触发操作,显示配置界面;配置界面中至少包含实体类型配置控件和实体关系配置控件;
响应于对配置界面中的内容操作,获取并保存在配置界面内的配置信息;配置信息至少包括实体类型和实体关系类型。
在本公开的一些实施例中,方法还包括:
响应于对展示容器中待处理文本的刷选操作,显示预先保存的实体类型和实体关系类型;
响应于从显示的实体类型和实体关系类型中选取出刷选文本的标注元素,触发对展示容器中待处理文本的刷选标注事件。
在本公开的一些实施例中,标注元素包括实体关系;方法还包括:
将实体关系展示在展示容器所在页面中;
响应于在页面上对实体关系的触发操作,确定实体关系对应的实体标注文本;
在展示容器中将实体标注文本进行高亮展示。
可选地,在本公开的一些实施例中,方法还包括:
将经实体关系标注后的待处理文本作为训练样本;
根据训练样本,训练人工智能AI实体关系抽取模型;
基于经过训练的AI实体关系抽取模型,对文本进行实体关系标注。
此外,在本公开的一些实施例中,方法还包括:
获取待识别的电子文档;
对电子文档进行光学字符识别OCR处理,并将经过处理得到的文本作为待处理文本。
第二方面,本公开实施例提供了一种结合RPA及AI的实体关系标注装置,装置包括:
分行模块,用于根据目标宽度对待处理文本进行分行处理,将待处理文本以分行形式展示在展示容器中;
获取模块,用于基于RPA系统对展示容器中待处理文本的刷选标注事件,获取标注文本和标注文本的标注元素;
第一展示模块,用于响应于检测到待处理文本中存在同一片段标注文本对应多个不同标注元素,在展示容器中将多个不同标注元素依次排列展示在同一片段标注文本的邻近位置。
在本公开的一些实施例中,装置还包括:
检测模块,用于检测待处理文本中是否存在同一片段标注文本对应多个不同标注元素;
其中,检测模块具体用于:
确定针对待处理文本的当前所有标注文本各自在待处理文本中的绝对位置信息;
根据当前所有标注文本各自的绝对位置信息和各行的绝对位置信息,确定当前所有标注文本各自对应的标注元素在对应行中的左偏移量和宽度;
根据左偏移量和宽度,确定是否存在同一行内的标注元素有重叠现象;
响应于同一行内的标注元素有重叠现象,检测到待处理文本中存在同一片段标注文本对应多个不同标注元素。
在本公开的一些实施例中,同一片段标注文本包含多个标注文本,多个标注文本至少部分字符相同;第一展示模块具体用于:
确定多个不同标注元素各自的垂直偏移量;
根据多个不同标注元素各自在对应行中的左偏移量和宽度、以及多个不同标注元素各自的垂直偏移量,在展示容器中将多个不同标注元素依次排列展示在各自对应的标注文本的垂直方向位置上。
可选地,在本公开的一些实施例中,装置还包括:
确定模块,响应于待处理文本之中存在跨行标注文本,确定跨行标注文本对应的跨行标注元素在不同行中的左偏移量和宽度;
第二展示模块,用于根据跨行标注元素在不同行中的左偏移量和宽度,在展示容器中将跨行标注元素展示在与跨行标注文本对应的每行文本的垂直方向位置上。
在本公开的一些实施例中,装置还包括配置模块;配置模块用于:
在展示容器所在页面中提供配置入口;
响应于对配置入口的触发操作,显示配置界面;配置界面中至少包含实体类型配置控件和实体关系配置控件;
响应于对配置界面中的内容操作,获取并保存在配置界面内的配置信息;配置信息至少包括实体类型和实体关系类型。
可选地,在本公开的一些实施例中,装置还包括:
第三展示模块,用于响应于对展示容器中待处理文本的刷选操作,显示预先保存的实体类型和实体关系类型;
触发模块,用于响应于从显示的实体类型和实体关系类型中选取出刷选文本的标注元素,触发对展示容器中待处理文本的刷选标注事件。
在本公开的一些实施例中,标注元素包括实体关系;装置还包括第四展示模块,第四展示模块用于:
将实体关系展示在展示容器所在页面中;
响应于在页面上对实体关系的触发操作,确定实体关系对应的实体标注文本;
在展示容器中将实体标注文本进行高亮展示。
在本公开的一些实施例中,装置还包括训练模块,训练模块用于:
将经实体关系标注后的待处理文本作为训练样本;
根据训练样本,训练人工智能AI实体关系抽取模型;
基于经过训练的AI实体关系抽取模型,对文本进行实体关系标注。
此外,在本公开的一些实施例中,装置还包括识别模块,识别模块用于:
获取待识别的电子文档;
对电子文档进行光学字符识别OCR处理,并将经过处理得到的文本作为待处理文本。
第三方面,本公开实施例提供了一种电子设备,包括:存储器和处理器。其中,该存储器和该处理器通过内部连接通路互相通信,该存储器用于存储指令,该处理器用于执行该存储器存储的指令,并且当该处理器执行该存储器存储的指令时,使得该处理器执行上述第一方面的方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,计算机可读存储介质存储计算机程序,当计算机程序在计算机上运行时,上述第一方面的方法被执行。
上述技术方案中的优点或有益效果至少包括:通过结合RPA和AI技术实现了对待处理文本的自动实体关系标注,又通过对待处理文本中是否存在同一片段标注文本对应多个不同标注元素进行检测,在检测到待处理文本中存在同一片段标注文本对应多个不同标注元素时,将多个不同标注元素依次排列展示在同一片段标注文本的邻近位置,从而可以满足将同一片段标注文本标为多种实体的需求,不仅可以提高该标注方法在实际应用场景的适用性,也可以提高实体关系标注的准确率。
上述概述仅仅是为了说明书的目的,并不意图以任何方式进行限制。除上述描述的示意性的方面、实施方式和特征之外,通过参考附图和以下的详细描述,本申请进一步的方面、实施方式和特征将会是容易明白的。
附图说明
在附图中,除非另外规定,否则贯穿多个附图相同的附图标记表示相同或相似的部件或元素。这些附图不一定是按照比例绘制的。应该理解,这些附图仅描绘了根据本申请公开的一些实施方式,而不应将其视为是对本申请范围的限制。其中:
图1为本公开实施例提供的一种结合RPA和AI的实体关系标注方法的流程图;
图2为本公开实施例中针对同一片段标注文本对应多个不同标注元素的展示方式示例图;
图3为本公开实施例中的一种检测到待处理文本中存在同一片段标注文本对应多个不同标注元素的流程图;
图4为本公开实施例提供的另一种结合RPA及AI的实体关系标注方法的流程图;
图5为本公开实施例中将多个不同标注元素展示在各自对应标注文本的垂直方向位置上的示例图;
图6为本公开实施例中确定每行包含的标注文本及确定各标注元素在对应行中的左偏移量和宽度的示例图;
图7为本公开实施例中跨行标注元素的展示示例图;
图8为本公开实施例中结合RPA及AI的实体关系标注方法的交互过程的流程图;
图9为本公开实施例中实体关系类型配置控件的示例图;
图10为本公开实施例中实体关系展示的示例图;
图11为本公开实施例提供的一种结合RPA及AI的实体关系标注装置的结构框图;
图12为本公开实施例提供的另一种结合RPA及AI的实体关系标注装置的结构框图;
图13为本公开实施例提供的一种电子设备的结构框图。
具体实施方式
下面详细描述本申请/公开的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请/公开,而不能理解为对本申请/公开的限制。
在本公开的描述中,术语“RPA系统”是指机器人流程自动化(Robotic ProcessAutomation,RPA)系统,是通过特定的“机器人软件”,模拟人在计算机上的操作,按规则自动执行流程任务。
在本公开的描述中,术语“AI“是指人工智能(Artificial Intelligence,AI)是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门技术科学。
在本公开的描述中,术语“实体类型”是指用实体名及实体所有属性的集合表示一种实体的类型,通常一个实体类型表示一类实体,可以通过实体类型可以区分不问类型的事物。
在本公开的描述中,术语“实体关系类型”是指可以相互关联的实体间的关系类型。
在本公开的描述中,术语“实体关系标注”是指将文本中的实体提取出来,为其创建实体类别,并建立两个实体间的实体关系。
在本公开的描述中,术语“展示容器”是指用于展示对应文本及标注信息的容器。
在本公开的描述中,术语“标注文本”是指待处理文本中已被实体标注的文本。
在本公开的描述中,术语“标注元素“是指标注文本的实体类型、标注样式等标注信息。
在本公开的描述中,术语“刷选标注事件”是指对待处理文本进行刷选操作,并为已刷选的文本选择对应的实体类型的操作。
在本公开的描述中,术语“绝对位置信息”是指对于待处理文本的位置信息,比如在待处理文本中对应文字的起始位置和结束位置。若某标注文本对应待处理文本中的第12-15字,则该标注文本的绝对位置信息为待处理文本中的第12-15字。
在本公开的描述中,术语“刷选操作”是指通过输入工具选中待处理文本中文字的操作。
在本公开的描述中,术语“AI实体关系抽取模型”是指可以自动对待处理文本进行实体识别及实体关系抽取的AI模型。
在本公开的描述中,术语“OCR”是指光学字符识别(Optical CharacterRecognition),具体是指电子设备检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程;即,针对印刷体字符,采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件,并通过识别软件将图像中的文字转换成文本格式,供文字处理软件进一步编辑加工的技术。
参照下面的描述和附图,将清楚本申请/公开的实施例的这些和其他方面。在这些描述和附图中,具体公开了本申请/公开的实施例中的一些特定实施方式,来表示实施本申请/公开的实施例的原理的一些方式,但是应当理解,本申请/公开的实施例的范围不受此限制。相反,本申请/公开的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。
需要说明的是,通常实体关系标注主要是用于标注实体、维护实体类型和实体关系类型、创建实体关系等,相关标注人员将文本中的实体提取出来,为其创建实体类型,并建立不同实体间的实体关系。实体关系标注后的数据可以作为人工智能机器模型的训练数据。
但是,相关技术的实体关系标注中,同一段文本不能被标为多种实体,而实际业务场景中存在将同段文本拆成多个实体的需求,造成实体关系标注的准确率有待提高。
为了解决上述问题,本公开提供了一种结合RPA和AI的实体关系标注方法、装置及电子设备。
图1为本公开实施例提供的一种结合RPA和AI的实体关系标注方法的流程图。需要说明的是,本公开实施例中的结合RPA和AI的实体关系标注方法可应用于本公开实施例中的结合RPA和AI的实体关系标注装置,且该装置可配置于电子设备中。如图1所示,该方法可以包括以下步骤:
步骤101,根据目标宽度对待处理文本进行分行处理,将待处理文本以分行形式展示在展示容器中。
在本公开实施例中,该方法可用于实体关系标注工具中,且该关系标注工具配置于终端设备中。其中,终端设备可以为台式计算机、膝上计算机、平板电脑、智能手机等电子设备。待处理的文档的获取方式可以为:获取用户通过终端设备的交互界面在本地选择文档,也可以获取用户通过交互界面上传文档。此外,用户在本地选择或者上传的文档可能为待识别的电子文档,针对这种情况,获取待处理文本的方式可以包括:获取待识别的电子文档;对待识别的电子文档进行光学字符识别OCR处理,并将经过处理得到的文本作为待处理文本。
其中,目标宽度可以是用户根据自身需要预设的待处理文本的展示宽度,若用户并未设置展示宽度,目标宽度也可以是展示容器默认的宽度。在本公开实施例中,为了便于实体关系的标注,将待处理文本根据目标宽度进行分行处理,并将待处理文本以分行的形式展示在展示容器中。
作为一种示例,根据目标宽度对待处理文本进行分行处理的实现方式可以为:获取目标宽度,并在展示容器中插入一个不可见的并继承文字样式的span内联元素;将待处理文本逐字放入span内联元素中并获取其宽度;将获得的宽度与目标宽度进行比对;若获取的宽度超过目标宽度,则检测span内联元素中末尾字符是否为可分割字符(非连续的数字和非连续的英文);若末尾字符为可分割字符,则直接在该末尾字符后进行截取分行,记录当前行的位置信息并另起一行继续添加字符执行上述比对操作;若末尾字符非可分割字符,则向前寻找第一个可分割字符进行截取分行,记录当前行的位置信息并另起一行继续添加字符执行上述比对操作;若获取的宽度未超过目标宽度,则查看新放入的字符是否为换行符;若新放入的字符为换行符,则直接执行截取分行,记录当前行的位置信息并另起一行继续添加字符执行上述比对操作;若放入的字符非换行符,则继续添加字符执行上述比对操作,直至待处理文本中所有字符均已添加至span内联元素中,从而将待处理文本以分行的形式展示在展示容器中。
作为另一种示例,为了降低算法的复杂度,减少由于获取span内联元素的宽度对浏览器API接口的调用,提高计算效率,可以使用以下方式来实现分行处理:通过二分法来获取第一行文本的字数;记录第一行文本的文字数为期望分行文本字数,并按照该期望分行文本字数来添加第二行文本;截取分行,获取第二行文本的宽度,并将该宽度与目标宽度进行比对,若该宽度小于目标宽度,则继续向第二行添加字符并检测宽度,直至宽度达到目标宽度后,再向第三行中放入文字;若该宽度大于目标宽度,则将第二行末尾的字符取出至第三行,并检测宽度,直至宽度达到目标宽度后,完成第二行的文本的分行;依此类推,每行均以期望分行文本字数作为截取分行的依据,再进行多退少补。其中,利用二分法获取第一行文本的字数的实现方式包括:比如若待处理文本的字数为100,则可以先获取这100个字的宽度,以确定是否超过目标宽度;若超过目标宽度,则截取前50个字并再次判断宽度;若仍然超过目标宽度,则继续截取前一半字数即前25个字,继续判断宽度;若宽度小于目标宽度,则截取前(50+100)/2=75个字,继续判断宽度,依此类推,直至得到第一行文本的字数。
步骤102,基于RPA系统对展示容器中待处理文本的刷选标注事件,获取标注文本和标注文本的标注元素。
在本公开实施例中,刷选标注事件可以指对待处理文本进行刷选操作,并为已刷选的文本选择对应的实体类型的操作。其中刷选操作的执行主体可以为RPA系统。作为一种示例,RPA系统可以配置于终端设备中,基于交互界面展示的分行形式的待处理文本,可以提取出到其中的实体文本,并对其进行刷选,同时为其选择对应的实体类型。
在本公开的另一些实施例中, RPA系统未被触发,用户也可以直接对待处理文本进行刷选标注操作,所以该步骤也可以是基于用户对展示容器中待处理文本的刷选标注事件,获取标注文本和标注文本的标注元素。
在本公开的一些实施例中,标注文本为刷选标注事件中被刷选的文本,也就是说被实体标注的文本,而标注文本的标注元素为该标注文本被标注的实体类型。其中,标注元素中还可以包括标注的样式信息等。为了便于后续定位展示,可以基于对展示容器中待处理文本的刷选标注事件,通过API接口获取该事件对应的标注文本的位置信息,并将该位置信息转化为相对于待处理文本的绝对位置信息,比如待处理文本中的第12-15字。
作为一种示例,基于RPA系统对所述展示容器中所述待处理文本的刷选标注事件,获取标注文本和所述标注文本的标注元素的实现过程包括:响应于RPA系统对展示容器中待处理文本的刷选操作,通过调用对应接口,获取刷选文本的起始位置和结束位置,并对起始位置和结束位置进行比较;若起始位置和结束位置不一致,则显示实体类型选择框;RPA系统选择了对应的实体类型后,相当于触发了对待处理文本的刷选标注事件,来获取该事件对应的标注文本和标注文本的标注元素;若起始位置和结束位置一致,可以理解为RPA系统的操作并非对展示容器中的待处理文本进行实体关系标注,则不显示实体类型选择框。
作为另一种示例,假如用户通过终端设备的交互界面来对展示容器中的待处理文本进行实体关系标注,且该终端设备为台式电脑,基于RPA系统对所述展示容器中所述待处理文本的刷选标注事件,获取标注文本和所述标注文本的标注元素的实现过程包括:响应于用户触发mouseup(松开鼠标)操作,通过调用对应接口,获取刷选文本的起始位置和结束位置,并对起始位置和结束位置进行比较;若起始位置和结束位置不一致,则显示实体类型选择框;若获取到了用户选择的实体类型,则可以通过调用接口(比如浏览器的getSelection接口)来获取对应的标注文本和标注文本的标注元素;若起始位置和结束位置一致,可以理解为用户的操作并非对展示容器中的待处理文本进行实体关系标注,则不显示实体类型选择框。
需要说明的是,RPA系统对展示容器进行刷选标注时,无需每次都对待处理文本进行分行处理,可以只有第一次进入待处理文本时对其进行分行处理。
步骤103,响应于检测到待处理文本中存在同一片段标注文本对应多个不同标注元素,在展示容器中将多个不同标注元素依次排列展示在同一片段标注文本的邻近位置。
在相关技术中,相同的文本不可以标注为多个实体类型,但是实际场景中相同的文本往往对应多种实体类型,所以本公开实施例的实体关系标注方法对相同文本的标注不进行限定,允许将相同文本标注为不同的实体类型,并在展示容器中对相同文本对应的不同实体类型进行展示。
在本公开实施例中,同一片段标注文本对应不同标注元素可以指同一个标注文本对应不同的标注元素,即同一个标注文本对应不同的实体类型,还可以指同一片段标注文本中包括多个标注文本,且每个标注文本至少部分相同,每个标注文本对应着自身的标注元素。
可以理解,在获取刷选标注事件对应的标注文本和标注文本的标注元素后,需要将该标注文本的标注元素在展示容器中进行展示,由于每次刷选标注事件添加的标注元素可能会影响待处理文本中其他已存在的标注文本的标注元素的位置,所以对于每次刷选标注事件后,可以重新计算待处理文本中所有标注元素的位置信息并进行展示。此外,为了使同一片段标注文本对应多个不同标注元素的情况,可以将对应的多个不同标注元素均在展示容器的对应位置展示,在重新计算待处理文本中所有标注元素的位置信息时,需要检测待处理文本中是否存在同一片段标注文本对应多个不同标注元素的情况。
作为一种示例,检测待处理文本中是否存在同一片段标注文本对应多个不同标注元素的实现方式可以为:根据待处理文本中所有标注文本的绝对位置信息及每行文本的绝对位置信息,确定每行文本中包含的标注文本;将所在位置为同一行的标注文本的绝对位置信息进行比对,确定是否存在重叠的情况;若存在重叠,则说明检测到待处理文本中存在同一片段标注文本对应多个不同标注元素。
在本公开的一些实施例中,在展示容器中将同一片段标注文本对应多个不同标注元素,依次排列展示在所述同一片段标注文本的邻近位置的实现方式可以为:分别计算这些不同标注元素的相对于同一片标注文本的相对位置,并在展示容器中基于各标注元素的相对位置依次排列,以将其展示在同一片段文本的临近位置。其中,临近位置可以是各标注元素对应的标注文本的上方、下方等位置,以使各标注元素均可展示便于查看的位置,可以根据实际应用场景来预设确定临近位置的逻辑,本公开对此不作限定。
作为一种示例,图2为同一片段标注文本对应多个不同标注元素的不同展示方式的示例。如图2所示,“乡村教师很辛苦”中对应多个不同的标注元素,标注元素中包含对应标注文本的实体类型和标注样式。其中,展示方式1中标注元素中的标注样式为下划线,并将重叠的标注元素排列后在对应的垂直方向上进行展示;展示方式2中,标注元素中的标注样式包括上划线和下划线两种,将不同的标注元素分别置于同一片段标注文本的上下方;展示方式3中,标注元素中的标注样式为矩形框的形式,同一片段标注文本的不同标注元素对应不同颜色的矩形框,每个矩形框为其对应的标注文本的外接矩形。
在本公开的一些实施例中,响应于未检测到所述待处理文本中存在同一片段标注文本对应多个不同标注元素,可以根据当前已存在的所有标注文本的绝对位置信息及各行文本的绝对位置信息,确定每个标注文本的所在行及每个标注文本对于其所在行的相对位置,并将标注元素展示在其各自对应的标注文本的下方。
在本公开的一些实施例中,该方法还可以包括:将经实体关系标注后的待处理文本作为训练样本;根据训练样本,训练AI实体关系抽取模型;基于经过训练的AI实体关系抽取模型,对文本进行实体关系标注。
根据本公开实施例的结合RPA及AI的实体关系标注方法,通过对待处理文本中是否存在同一片段标注文本对应多个不同标注元素进行检测,在检测到待处理文本中存在同一片段标注文本对应多个不同标注元素时,将多个不同标注元素依次排列展示在同一片段标注文本的邻近位置,从而可以实现将同一片段标注文本标为多种实体的需求,不仅可以提高该标注方法在实际应用场景的适用性,也可以提高实体关系标注的准确率。
为了对上述实施例中检测到待处理文本中存在同一片段标注文本对应多个不同标注元素的实现方式进行介绍,本公开提出了另一个实施例。
图3为本公开实施例中的一种检测到待处理文本中存在同一片段标注文本对应多个不同标注元素的流程图。如图3所示,在上述实施例的基础上,其实现方式可以包括以下步骤:
步骤301,确定针对待处理文本的当前所有标注文本各自在待处理文本中的绝对位置信息。
在本公开的一些实施中,可以将每行待处理文本作为一个容器组件,且该容器组件中包含行文本元素和标注容器,行文本元素为每行的文本,标注容器内为标注元素,每个标注元素以相对定位的方式展示在标注容器中。可以理解,针对同一片段标注文本对应多个不同标注元素的情况,若依然按照相关技术中,将各标注元素展示在其对应的标注文本下方,则会出现标注元素重叠的问题,造成相关工作人员在对其进行审阅时,无法准确定位标注元素与标注文本的对应关系。所以在本公开实施例中,需要对标注文本对应的标注元素进行定位检测,来判断是否会出现标注元素重叠的情况,以使用对应的展示方式,避免标注元素重叠的情况的发生。
在本公开实施例中,所有标注文本各自在待处理文本中的绝对位置信息是指,每个标注文本相对于待处理文本的位置信息,比如每个标注文本在待处理文本中是从第几个字符开始至第几个字符结束。各标注文本的绝对位置信息可以是执行图1中步骤102时存储的。
作为一种示例,获取标注文本的绝对位置信息的过程可以包括:基于RPA系统或用户对展示容器中待处理文本的刷选标注事件,请求浏览器接口,获取该其刷选信息,包括刷选起始位置和结束位置的所在行的标识信息及刷选起始位置和结束位置在所在行的相对位置;根据所在行标识信息,确定刷选标注事件的所在行,并根据已存储的该行首尾字符在待处理文本中的位置,确定刷选标注事件对应的标注文本的绝对的位置信息;并将该标注文本对应的绝对位置信息进行存储。举例而言,若某刷选标注事件中刷选了第二行的第一个字符至第一行的第五个字符,其中第二行的首字符是待处理文本中的第10个字符,则该刷选标注事件对应的标注文本的绝对位置信息为待处理文本中的第10个字符至第15个字符。
步骤302,根据当前所有标注文本各自的绝对位置信息和各行的绝对位置信息,确定当前所有标注文本各自对应的标注元素在对应行中的左偏移量和宽度。
也就是说,根据当前所有标注文本各自的绝对位置信息和各行的绝对位置信息,对所有标注文本各自对应的标注元素进行定位,确定其在展示容器中展示位置。
在本公开实施例中,确定当前所有标注文本各自对应的标注元素在对应行中的左偏移量和宽度的实现方式可以包括:根据当前所有标注文本各自的绝对位置信息和各行的绝对位置信息,确定每行中包含的标注文本;根据每个标注文本的绝对位置信息和其所在行的绝对位置信息,确定每个标注文本对应的标注元素的左偏移量和宽度。
作为一种示例,确定每行中包含的标注文本的实现方式也可以为:获取当前所有标注文本的绝对位置信息中的起始位置,并将所有标注按照起始位置从小到大排列为数组stArr,并将指针指向数组中的第一个元素;创建缓存数组cache;遍历各行的绝对位置信息,判断指针所指的标注文本的起始位置是否小于或者等于当前遍历行的结束位置,若指针所指的标注文本的起始位置小于或者等于当前遍历行的结束位置,则该标注文本在当前行,将该标注文本放入cache中,并将指针指向stArr中的下一个元素;若指针所指的标注文本的起始位置大于当前行的结束位置,则说明已得到了当前行中的标注文本,可以将cache清空继续遍历下一行的绝对位置信息,以确定下一行中的标注文本。
在本公开的一些实施例中,确定每个标注文本对应的标注元素的左偏移量和宽度的实现方式可以包括:针对每个标注文本,将该标注文本所在行的绝对位置信息中的起始位置和该标注文本绝对位置信息中的起始位置之间的宽度作为标注元素在该行的左偏移量;将该标注文本绝对位置信息中的起始位置和该标注文本绝对位置信息中的结束位置之间的宽度作为该标注元素在该行的宽度。
步骤303,根据左偏移量和宽度,确定是否存在同一行内的标注元素有重叠现象。
也就是说,针对同一行内的标注元素,可以将每个标注元素的左偏移量和宽度进行比对,来确定是否存在同一行内的标注元素有重叠现象。
步骤304,响应于同一行内的标注元素有重叠现象,检测到待处理文本中存在同一片段标注文本对应多个不同标注元素。
可以理解,若同一行内的标注元素有重叠现象,则说明同一行内的标注文本有重叠的现象,也就说明检测到待处理文本中存在同一片段标注文本对应多个不同标注元素。
根据本公开实施例的结合RPA及AI的实体关系标注方法,通过根据当前所有标注文本各自的绝对位置信息和各行的绝对位置信息,来确定各标注文本在对应行中的左偏移量和宽度,从而可以根据左偏移量和宽度,来确定同一行内的标注元素是否存在重叠现象,以实现对待处理文本中存在同一片段标注文本对应多个不同标注元素现象的检测,进而可以将同一片段标注文本对应的不同标注元素进行展示。
为了详细介绍同一片段标注文本对应的多个不同标注元素的展示方式,本公开提供了又一个实施例。
图4为本公开实施例提供的另一种结合RPA及AI的实体关系标注方法的流程图。如图4所示,在上述实施例的基础上,该方法可以包括:
步骤401,根据目标宽度对待处理文本进行分行处理,将待处理文本以分行形式展示在展示容器中。
步骤402,基于RPA系统对展示容器中所述待处理文本的刷选标注事件,获取标注文本和标注文本的标注元素。
步骤403,响应于检测到待处理文本中存在同一片段标注文本对应多个不同标注元素,确定多个不同标注元素各自的垂直偏移量。
在本公开实施例中,同一片段标注文本包含多个标注文本,多个标注文本至少部分字符相同。为了使不同标注元素的展示位置不重叠,引入了垂直偏移量,即相对于标注元素所在的行的垂直偏移量。作为一种示例,确定多个不同标注元素各自的垂直偏移量的实现方式可以为:基于同一片段标注文本,确定其对应的多个不同标注元素中相互不重叠的第一标注元素,如图5中的标注元素1和标注元素2;将相互不重叠的第一标注元素的垂直偏移量置为0;可以按照被标注的时间顺序,依次将与第一标注元素重叠的标注元素的垂直偏移量增大,如图5中的标注元素3的垂直偏移量为标注元素高度H,标注元素4的垂直偏移量为标注元素3的垂直偏移量+标注元素高度=2H。
步骤404,根据多个不同标注元素各自在对应行中的左偏移量和宽度、以及多个不同标注元素各自的垂直偏移量,在展示容器中将多个不同标注元素依次排列展示在各自对应的标注文本的垂直方向位置上。
如图5所示,由于多个不同标注元素各自在对应行中的左偏移量、宽度和垂直偏移量均是相对标注元素的对应行的位置信息,所以可以根据多个不同标注元素各自的位置信息,在展示容器中对应行的容器组件内,将多个不同标注元素展示在各自对应的标注文本的垂直方向位置上。
根据本公开实施例的结合RPA及AI的实体关系标注方法,在检测到待处理文本中存在同一片段标注文本对应多个不同标注元素时,通过确定不同标注元素各自的垂直偏移量,根据多个不同标注元素各自在对应行中的左偏移量、宽度及垂直偏移量,在展示容器中将多个不同标注元素依次排列展示在各自对应的标注文本的垂直方向位置上,也就是说可以通过对标注元素进行精确定位,来避免由于同一片段标注文本被标注为多个实体类型时,造成标注元素的重叠的问题的发生,从而可以提高展示容器中标注信息的可读性,便于相关工作人员的对标注结果的审核,不仅可以提高实体关系标注的准确率,也可以提高实体关系标注的效率。
接下来将针对确定每行待处理文本中包含的标注文本及对标注文本进行定位的实现方式进行介绍。
图6为本公开实施例中确定每行待处理文本中包含的标注文本及对标注文本进行定位的流程图。如图6所示,对应的实现方式包括以下步骤:
步骤601,获取当前所有标注文本的绝对位置信息中的起始位置和结束位置。
步骤602,将所有标注按照起始位置从小到大排列为数组stArr,并将st指针指向stArr数组中的第一个元素。
步骤603,将所有标注按照结束位置从小到大排列为数组endArr,并将end指针指向endArr数组中的第一个元素。
步骤604,创建缓存数组cache。
步骤605,遍历各行的绝对位置信息,判断st指针所指标注文本是否在当前遍历行内。
在本公开实施例中,判断st指针所指的标注文本是否在当前遍历行的方式可以为:判断st指针所指的标注文本的起始位置是否小于或者等于当前遍历行的结束位置,若st指针所指的标注文本的起始位置小于或者等于当前遍历行的结束位置,则说明st指针所指的标注文本在当前遍历行内,执行步骤606,否则说明st指针所指的标注文本未在当前遍历行内,即当前遍历行中的标注文本已都在cache缓存数组中,执行步骤607。
步骤606,将标注文本放入cache中,并将st指针指向stArr中的下一个元素。
步骤607,根据cache中每个标注文本的绝对位置和当前遍历行的绝对位置信息,确定每个标注文本对应的标注元素在当前遍历行的左偏移量和宽度。
也就是说,得到当前遍历行中包含的标注文本后,可以对该行中的标注文本对应的标注元素进行定位,以将对应的标注元素展示在对应的标注文本的垂直方向上。
作为一种示例,针对cache中每个标注文本,将标注文本的绝对位置信息中的起始位置和当前遍历行的绝对位置信息中的起始位置中的较大值,作为该标注文本对应的标注元素的起始位置;截取当前遍历行的起始位置到该标注元素对应的起始位置之间的宽度,将其作为该标注文本对应的标注元素在当前遍历行的左偏移量;将该标注文本的绝对位置信息中的结束位置与当前遍历行的结束位置中的较小值,将其作为该标注文本对应的标注元素的结束位置,截取该标注元素的起始位置与结束位置之间的宽度作为该标注元素在当前遍历行的宽度。
步骤608,判断end指针所指的标注文本是否在当前遍历行结束。
可以理解,待处理文本中可能存在跨行标注文本,比如,某标注文本从待处理文本的第二行第10个字开始,至第三行的第3个字结束,则该标注文本为跨行标注文本。由于跨行标注文本可以对应多个不同行,所以为了准确地确认每个遍历行中包含的标注文本,需要将cache中结束位置未在当前遍历行的标注文本携带至下一个遍历行,其中结束位置未在当前遍历行的标注文本即为跨行标注文本。
在本公开的一些实施例中,判断end指针所指的标注文本是否在当前遍历行结束的方式可以为:判断end指针所指的标注文本的结束位置是否小于等于当前遍历行的结束位置,若end指针所指的标注文本的结束位置小于等于当前遍历行的结束位置,则说明end指针所指的标注文本在当前遍历行结束,执行步骤609;否则说明end指针所指的标注文本未在当前遍历行结束,即该标注文本为跨行标注文本,所以不将其在cache中除去,直接执行步骤610。
步骤609,将end指针所指的标注文本在cache中除去,并将end指针指向endArr中的下一个元素。
步骤610,继续行遍历。
如图7所示,基于本公开实施例中的方法,针对待处理文本之中存在跨行标注文本的情况的实现方式包括:响应于待处理文本之中存在跨行标注文本,确定跨行标注文本对应的跨行标注元素在不同行中的左偏移量和宽度;根据跨行标注元素在不同行中的左偏移量和宽度,在展示容器中将跨行标注元素展示在与跨行标注文本对应的每行文本的垂直方向位置上。
需要说明的是,在本公开实施例中,在检测待处理文本中是否存在同一片段标注文本对应多个不同标注元素时,跨行标注元素也一并进行检测,也就是说,对于跨行标注元素与其他标注元素重叠时,也可以通过引入垂直偏移量的方式来实现跨行标注元素的展示。
根据本公开实施例的结合RPA及AI的实体关系标注方法,通过根据待处理文本中所有标注文本确定两个数组,并不断进行行遍历以确定每行中包含的标注文本,并确定其对应的标注元素的左偏移量和宽度,以使各标注元素展示在对应位置。同时针对待处理文本中包含跨行标注文本的情况,可以将跨行标注文本对应的跨行标注元素展示在与跨行标注文本对应的每行文本的垂直方向位置上,从而可以避免对于跨行文本的标注显示异常情况的发生,这样,可以进一步提高展示容器中标注信息的可读性,也可以提高相关工作人员对实体关系标注审核的效率。
图8为本公开实施例的结合RPA及AI的实体关系标注方法交互过程的流程图。在本公开实施例中,为了便于标注操作,可以在展示容器所在页面中提供配置入口,该配置入口可以包括实体类型配置入口和实体关系类型配置入口。如图8所示,在上述实施例的基础上,该实体关系标注方法中的关于实体关系类型及实体类型的配置过程可以包括:
步骤801,响应于对配置入口的触发操作,显示配置界面;配置界面中至少包含实体类型配置控件和实体关系配置控件。
在本公开实施例中,对配置入口的触发操作可以是用户执行的触发操作,也可以为RPA系统执行的触发操作,本公开对此均支持。图9为实体关系类型配置控件的示例图。
步骤802,响应于对配置界面中的内容操作,获取并保存在配置界面内的配置信息;配置信息至少包括实体类型和实体关系类型。
也就是说,该配置界面中包括相关的内容操作功能,比如新增实体关系类型、新增实体类型、修改实体关系类型、修改实体关系等。
可以理解,已保存的实体关系类型和实体类型用于实体关系标注过程中,所以在本公开的一些实施例中,关于实体关系标注过程中可以包括以下交互过程:
步骤803,响应于对展示容器中待处理文本的刷选操作,显示预先保存的实体类型和实体关系类型。
也就是说,若RPA系统或者用户等对展示容器中待处理文本进行刷选操作,则可以基于其刷选操作事件对应的信息,显示预先保存的实体类型和实体关系,以使其对刷选的文本进行标注。
作为一种示例,响应于RPA系统对展示容器中待处理文本的刷选操作,通过调用对应接口,获取刷选文本的起始位置和结束位置,并对起始位置和结束位置进行比较;若起始位置和结束位置不一致,则显示包含预先保存的实体类型的选择框。
作为一种示例,响应于RPA系统在展示容器中选中两个已实体标注的标注文本,则可以根据已选中的标注文本对应的实体类型,为其显示与该实体类型相关的实体关系类型。
步骤804,响应于从显示的实体类型和实体关系类型中选取出刷选文本的标注元素,触发对展示容器中待处理文本的刷选标注事件。
此外,为了便于相关工作人员对待处理文本中已标注的实体关系的查看,在本公开的一些实施例中,标注元素中可以包括实体关系。该实体关系标注方法中可以包括:
步骤805,将实体关系展示在展示容器所在页面中。
如图10所示,可以将待处理文本中已标注的实体关系,以关系列表的形式展示在展示容器所在页面中,便于相关工作人员对已标记的实体关系的查看。
步骤806,响应于在页面上对实体关系的触发操作,确定实体关系对应的实体标注文本。
作为一种示例,比如鼠标悬停在已存在实体关系的标注文本上时,可以根据该标注文本已标注的实体关系,确定与该实体关系对应的实体标注文本。
步骤807,在展示容器中将实体标注文本进行高亮展示。
如图10所示,可以将该实体关系对应的实体标注文本进行高亮展示。
根据本公开实施例的结合RPA及AI的实体关系标注方法,通过在展示容器所在页面中提供配置入口,基于配置入口的触发操作,显示配置页面,可以实现对实体关系类型和实体类型的配置,从而可以降低配置实体关系类型和实体类型的耗时,提高实体关系标注的效率。此外,为了便于相关工作人员对实体关系的查看,将实体关系展示在展示容器的所在页面中,并可以基于对实体关系的触发操作,对展示容器中对应的实体标注文本进行高亮展示,从而可以提高相关工作人员对实体关系标注的审查效率。
为了实现上述实施例,本公开提供了一种结合RPA及AI的实体关系标注装置。
图11为本公开实施例提供的一种结合RPA及AI的实体关系标注装置的结构框图。如图11所示,该装置包括:
分行模块1101,用于根据目标宽度对待处理文本进行分行处理,将待处理文本以分行形式展示在展示容器中;
获取模块1102,用于基于RPA系统对展示容器中待处理文本的刷选标注事件,获取标注文本和标注文本的标注元素;
第一展示模块1103,用于响应于检测到待处理文本中存在同一片段标注文本对应多个不同标注元素,在展示容器中将多个不同标注元素依次排列展示在同一片段标注文本的邻近位置。
在本公开的一些实施例中,装置还包括:
检测模块1104,用于检测待处理文本中是否存在同一片段标注文本对应多个不同标注元素;
其中,检测模块1104具体用于:
确定针对待处理文本的当前所有标注文本各自在待处理文本中的绝对位置信息;
根据当前所有标注文本各自的绝对位置信息和各行的绝对位置信息,确定当前所有标注文本各自对应的标注元素在对应行中的左偏移量和宽度;
根据左偏移量和宽度,确定是否存在同一行内的标注元素有重叠现象;
响应于同一行内的标注元素有重叠现象,检测到待处理文本中存在同一片段标注文本对应多个不同标注元素。
在本公开的一些实施例中,同一片段标注文本包含多个标注文本,多个标注文本至少部分字符相同;第一展示模块1103具体用于:
确定多个不同标注元素各自的垂直偏移量;
根据多个不同标注元素各自在对应行中的左偏移量和宽度、以及多个不同标注元素各自的垂直偏移量,在展示容器中将多个不同标注元素依次排列展示在各自对应的标注文本的垂直方向位置上。
根据本公开实施例提供的结合RPA及AI的实体关系标注装置,通过对待处理文本中是否存在同一片段标注文本对应多个不同标注元素进行检测,在检测到待处理文本中存在同一片段标注文本对应多个不同标注元素时,将多个不同标注元素依次排列展示在同一片段标注文本的邻近位置,从而可以实现将同一片段标注文本标为多种实体的需求,不仅可以提高该标注方法在实际应用场景的适用性,也可以提高实体关系标注的准确率。
图12为本公开实施例提供的另一种结合RPA及AI的实体关系标注装置的结构框图。如图12所示,在上述实施例的基础上,该装置还可以包括:
确定模块1205,响应于待处理文本之中存在跨行标注文本,确定跨行标注文本对应的跨行标注元素在不同行中的左偏移量和宽度;
第二展示模块1206,用于根据跨行标注元素在不同行中的左偏移量和宽度,在展示容器中将跨行标注元素展示在与跨行标注文本对应的每行文本的垂直方向位置上。
在本公开的一些实施例中,装置还包括配置模块1207;配置模块1207用于:
在展示容器所在页面中提供配置入口;
响应于对配置入口的触发操作,显示配置界面;配置界面中至少包含实体类型配置控件和实体关系配置控件;
响应于对配置界面中的内容操作,获取并保存在配置界面内的配置信息;配置信息至少包括实体类型和实体关系类型。
可选地,在本公开的一些实施例中,装置还包括:
第三展示模块1208,用于响应于对展示容器中待处理文本的刷选操作,显示预先保存的实体类型和实体关系类型;
触发模块1209,用于响应于从显示的实体类型和实体关系类型中选取出刷选文本的标注元素,触发对展示容器中待处理文本的刷选标注事件。
在本公开的一些实施例中,标注元素包括实体关系;装置还包括第四展示模块1210,第四展示模块1210用于:
将实体关系展示在展示容器所在页面中;
响应于在页面上对实体关系的触发操作,确定实体关系对应的实体标注文本;
在展示容器中将实体标注文本进行高亮展示。
在本公开的一些实施例中,装置还包括训练模块1211,训练模块1211用于:
将经实体关系标注后的待处理文本作为训练样本;
根据训练样本,训练人工智能AI实体关系抽取模型;
基于经过训练的AI实体关系抽取模型,对文本进行实体关系标注。
此外,在本公开的一些实施例中,装置还包括识别模块1212,识别模块1212用于:
获取待识别的电子文档;
对电子文档进行光学字符识别OCR处理,并将经过处理得到的文本作为待处理文本。
需要说明的是,图12中的模块1201至1204与图11中的模块1101至1104具有相同的功能结构,此处不再赘述。
根据本公开实施例的结合RPA及AI的实体关系标注装置,针对在跨行标注文本对应的不同行,均将跨行标注文本对应的跨行标注元素展示在与跨行标注文本对应的每行文本的垂直方向位置上,从而可以避免对于跨行文本的标注显示异常情况的发生。另外,通过在展示容器所在页面中提供配置入口,基于配置入口的触发操作,显示配置页面,可以实现对实体关系类型和实体类型的配置,从而可以降低配置实体关系类型和实体类型的耗时,提高实体关系标注的效率。此外,为了便于相关工作人员对实体关系的查看,将实体关系展示在展示容器的所在页面中,并可以基于对实体关系的触发操作,对展示容器中对应的实体标注文本进行高亮展示,从而可以提高相关工作人员对实体关系标注的审查效率。
本公开实施例各装置中的各模块的功能可以参见上述方法中的对应描述,在此不再赘述。
图13示出根据本公开实施例的用于实现结合RPA及AI的实体关系标注方法的电子设备的结构框图。如图13所示,该电子设备包括:存储器1310和处理器1320,存储器1310内存储有可在处理器1320上运行的计算机程序。处理器1320执行该计算机程序时实现上述实施例中的结合RPA及AI的实体关系标注方法。存储器1310和处理器1320的数量可以为一个或多个。
该电子设备还包括:
通信接口1330,用于与外界设备进行通信,进行数据交互传输。
如果存储器1310、处理器1320和通信接口1330独立实现,则存储器1310、处理器1320和通信接口1330可以通过总线相互连接并完成相互间的通信。该总线可以是工业标准体系结构(Industry Standard Architecture,ISA)总线、外部设备互连(PeripheralComponentInterconnect,PCI)总线或扩展工业标准体系结构(Extended IndustryStandard Architecture,EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。为便于表示,图13中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
可选的,在具体实现上,如果存储器1310、处理器1320及通信接口1330集成在一块芯片上,则存储器1310、处理器1320及通信接口1330可以通过内部接口完成相互间的通信。
本申请/公开实施例提供了一种计算机可读存储介质,其存储有计算机程序,该程序被处理器执行时实现本申请实施例中提供的方法。
应理解的是,上述处理器可以是中央处理器(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(digital signal processing,DSP)、专用集成电路(application specific integrated circuit,ASIC)、现场可编程门阵列(fieldprogrammablegate array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者是任何常规的处理器等。值得说明的是,处理器可以是支持进阶精简指令集机器(advanced RISC machines,ARM)架构的处理器。
进一步地,可选的,上述存储器可以包括只读存储器和随机存取存储器,还可以包括非易失性随机存取存储器。该存储器可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。其中,非易失性存储器可以包括只读存储器(read-onlymemory,ROM)、可编程只读存储器(programmable ROM,PROM)、可擦除可编程只读存储器(erasable PROM,EPROM)、电可擦除可编程只读存储器(electrically EPROM,EEPROM)或闪存。易失性存储器可以包括随机存取存储器(random access memory,RAM),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用。例如,静态随机存取存储器(static RAM,SRAM)、动态随机存取存储器(dynamic random access memory ,DRAM) 、同步动态随机存取存储器(synchronous DRAM,SDRAM)、双倍数据速率同步动态随机存取存储器(double data date SDRAM,DDR SDRAM)、增强型同步动态随机存取存储器(enhancedSDRAM,ESDRAM)、同步连接动态随机存取存储器(synchlink DRAM,SLDRAM)和直接内存总线随机存取存储器(direct rambus RAM,DR RAM)。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机程序指令时,全部或部分地产生按照本申请的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包括于本申请的至少一个实施例或示例中。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本申请的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分。并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。
应理解的是,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。上述实施例方法的全部或部分步骤是可以通过程序来指令相关的硬件完成,该程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本申请各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。上述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读存储介质中。该存储介质可以是只读存储器,磁盘或光盘等。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到其各种变化或替换,这些都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。

Claims (20)

1.一种结合RPA及AI的实体关系标注方法,其特征在于,所述方法包括:
根据目标宽度对待处理文本进行分行处理,将所述待处理文本以分行形式展示在展示容器中;
基于机器人流程自动化RPA系统对所述展示容器中所述待处理文本的刷选标注事件,获取标注文本和所述标注文本的标注元素,所述标注文本为所述待处理文本中己被实体标注的文本;
响应于检测到所述待处理文本中存在同一片段标注文本对应多个不同标注元素,在所述展示容器中将所述多个不同标注元素依次排列展示在所述同一片段标注文本的邻近位置。
2.根据权利要求1所述的方法,其特征在于,所述检测到所述待处理文本中存在同一片段标注文本对应多个不同标注元素,包括:
确定针对所述待处理文本的当前所有标注文本各自在所述待处理文本中的绝对位置信息;
根据所述当前所有标注文本各自的绝对位置信息和各行的绝对位置信息,确定所述当前所有标注文本各自对应的标注元素在对应行中的左偏移量和宽度;
根据所述左偏移量和宽度,确定是否存在同一行内的标注元素有重叠现象;
响应于同一行内的标注元素有重叠现象,检测到所述待处理文本中存在同一片段标注文本对应多个不同标注元素。
3.根据权利要求1所述的方法,其特征在于,所述同一片段标注文本包含多个标注文本,所述多个标注文本至少部分字符相同;所述在所述展示容器中将所述多个不同标注元素依次排列展示在所述同一片段标注文本的邻近位置,包括:
确定所述多个不同标注元素各自的垂直偏移量;
根据所述多个不同标注元素各自在对应行中的左偏移量和宽度、以及所述多个不同标注元素各自的垂直偏移量,在所述展示容器中将所述多个不同标注元素依次排列展示在各自对应的标注文本的垂直方向位置上。
4.根据权利要求1所述的方法,其特征在于,还包括:
响应于所述待处理文本之中存在跨行标注文本,确定所述跨行标注文本对应的跨行标注元素在不同行中的左偏移量和宽度;
根据所述跨行标注元素在所述不同行中的左偏移量和宽度,在所述展示容器中将所述跨行标注元素展示在与所述跨行标注文本对应的每行文本的垂直方向位置上。
5.根据权利要求1所述的方法,其特征在于,还包括:
在所述展示容器所在页面中提供配置入口;
响应于对所述配置入口的触发操作,显示配置界面;所述配置界面中至少包含实体类型配置控件和实体关系配置控件;
响应于对所述配置界面中的内容操作,获取并保存在所述配置界面内的配置信息;所述配置信息至少包括实体类型和实体关系类型。
6.根据权利要求5所述的方法,其特征在于,还包括:
响应于对所述展示容器中所述待处理文本的刷选操作,显示预先保存的所述实体类型和实体关系类型;
响应于从显示的实体类型和实体关系类型中选取出刷选文本的标注元素,触发对所述展示容器中所述待处理文本的刷选标注事件。
7.根据权利要求1所述的方法,其特征在于,所述标注元素包括实体关系;所述方法还包括:
将所述实体关系展示在所述展示容器所在页面中;
响应于在所述页面上对所述实体关系的触发操作,确定所述实体关系对应的实体标注文本;
在所述展示容器中将所述实体标注文本进行高亮展示。
8.根据权利要求1所述的方法,其特征在于,还包括:
将经实体关系标注后的待处理文本作为训练样本;
根据所述训练样本,训练人工智能AI实体关系抽取模型;
基于经过训练的所述AI实体关系抽取模型,对文本进行实体关系标注。
9.根据权利要求1所述的方法,其特征在于,还包括:
获取待识别的电子文档;
对所述电子文档进行光学字符识别OCR处理,并将经过所述处理得到的文本作为待处理文本。
10.一种结合RPA及AI的实体关系标注装置,其特征在于,所述装置包括:
分行模块,用于根据目标宽度对待处理文本进行分行处理,将所述待处理文本以分行形式展示在展示容器中;
获取模块,用于基于RPA系统对所述展示容器中所述待处理文本的刷选标注事件,获取标注文本和所述标注文本的标注元素,所述标注文本为所述待处理文本中己被实体标注的文本;
第一展示模块,用于响应于检测到所述待处理文本中存在同一片段标注文本对应多个不同标注元素,在所述展示容器中将所述多个不同标注元素依次排列展示在所述同一片段标注文本的邻近位置。
11.根据权利要求10所述的装置,其特征在于,还包括:
检测模块,用于检测所述待处理文本中是否存在同一片段标注文本对应多个不同标注元素;
其中,所述检测模块具体用于:
确定针对所述待处理文本的当前所有标注文本各自在所述待处理文本中的绝对位置信息;
根据所述当前所有标注文本各自的绝对位置信息和各行的绝对位置信息,确定所述当前所有标注文本各自对应的标注元素在对应行中的左偏移量和宽度;
根据所述左偏移量和宽度,确定是否存在同一行内的标注元素有重叠现象;
响应于同一行内的标注元素有重叠现象,检测到所述待处理文本中存在同一片段标注文本对应多个不同标注元素。
12.根据权利要求10所述的装置,其特征在于,所述同一片段标注文本包含多个标注文本,所述多个标注文本至少部分字符相同;所述第一展示模块具体用于:
确定所述多个不同标注元素各自的垂直偏移量;
根据所述多个不同标注元素各自在对应行中的左偏移量和宽度、以及所述多个不同标注元素各自的垂直偏移量,在所述展示容器中将所述多个不同标注元素依次排列展示在各自对应的标注文本的垂直方向位置上。
13.根据权利要求10所述的装置,其特征在于,还包括:
确定模块,用于响应于所述待处理文本之中存在跨行标注文本,确定所述跨行标注文本对应的跨行标注元素在不同行中的左偏移量和宽度;
第二展示模块,用于根据所述跨行标注元素在所述不同行中的左偏移量和宽度,在所述展示容器中将所述跨行标注元素展示在与所述跨行标注文本对应的每行文本的垂直方向位置上。
14.根据权利要求10所述的装置,其特征在于,还包括配置模块;所述配置模块用于:
在所述展示容器所在页面中提供配置入口;
响应于对所述配置入口的触发操作,显示配置界面;所述配置界面中至少包含实体类型配置控件和实体关系配置控件;
响应于对所述配置界面中的内容操作,获取并保存在所述配置界面内的配置信息;所述配置信息至少包括实体类型和实体关系类型。
15.根据权利要求14所述的装置,其特征在于,还包括:
第三展示模块,用于响应于对所述展示容器中所述待处理文本的刷选操作,显示预先保存的所述实体类型和实体关系类型;
触发模块,用于响应于从显示的实体类型和实体关系类型中选取出刷选文本的标注元素,触发对所述展示容器中所述待处理文本的刷选标注事件。
16.根据权利要求10所述的装置,其特征在于,所述标注元素包括实体关系;所述装置还包括第四展示模块,所述第四展示模块用于:
将所述实体关系展示在所述展示容器所在页面中;
响应于在所述页面上对所述实体关系的触发操作,确定所述实体关系对应的实体标注文本;
在所述展示容器中将所述实体标注文本进行高亮展示。
17.根据权利要求10所述的装置,其特征在于,还包括训练模块,所述训练模块用于:
将经实体关系标注后的待处理文本作为训练样本;
根据所述训练样本,训练人工智能AI实体关系抽取模型;
基于经过训练的所述AI实体关系抽取模型,对文本进行实体关系标注。
18.根据权利要求10所述的装置,其特征在于,还包括识别模块,所述识别模块用于:
获取待识别的电子文档;
对所述电子文档进行光学字符识别OCR处理,并将经过所述处理得到的文本作为待处理文本。
19.一种电子设备,其特征在于,包括:处理器和存储器,所述存储器中存储指令,所述指令由处理器加载并执行,以实现如权利要求1至9任一项所述的方法。
20.一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至9中任一项所述的方法。
CN202111477498.7A 2021-12-06 2021-12-06 结合rpa及ai的实体关系标注方法、装置及电子设备 Active CN113919287B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111477498.7A CN113919287B (zh) 2021-12-06 2021-12-06 结合rpa及ai的实体关系标注方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111477498.7A CN113919287B (zh) 2021-12-06 2021-12-06 结合rpa及ai的实体关系标注方法、装置及电子设备

Publications (2)

Publication Number Publication Date
CN113919287A CN113919287A (zh) 2022-01-11
CN113919287B true CN113919287B (zh) 2022-02-25

Family

ID=79248690

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111477498.7A Active CN113919287B (zh) 2021-12-06 2021-12-06 结合rpa及ai的实体关系标注方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN113919287B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116860979B (zh) * 2023-09-04 2023-12-08 上海柯林布瑞信息技术有限公司 基于标签知识库的医疗文本标注方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109902299A (zh) * 2019-02-18 2019-06-18 北京明略软件系统有限公司 一种文本处理方法及装置
CN112784588A (zh) * 2021-01-21 2021-05-11 北京百度网讯科技有限公司 用于标注文本的方法、装置、设备以及存储介质
CN113408271A (zh) * 2021-06-16 2021-09-17 北京来也网络科技有限公司 基于rpa及ai的信息抽取方法、装置、设备及介质
CN113655933A (zh) * 2021-08-17 2021-11-16 Oppo广东移动通信有限公司 文本标注方法及装置、存储介质及电子设备
CN113723270A (zh) * 2021-08-25 2021-11-30 北京来也网络科技有限公司 基于rpa及ai的文件处理方法及装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11475209B2 (en) * 2017-10-17 2022-10-18 Handycontract Llc Device, system, and method for extracting named entities from sectioned documents
US11790262B2 (en) * 2019-01-22 2023-10-17 Accenture Global Solutions Limited Data transformations for robotic process automation
CN112307717A (zh) * 2019-10-16 2021-02-02 北京字节跳动网络技术有限公司 文本标注信息展示方法、装置、电子设备和介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109902299A (zh) * 2019-02-18 2019-06-18 北京明略软件系统有限公司 一种文本处理方法及装置
CN112784588A (zh) * 2021-01-21 2021-05-11 北京百度网讯科技有限公司 用于标注文本的方法、装置、设备以及存储介质
CN113408271A (zh) * 2021-06-16 2021-09-17 北京来也网络科技有限公司 基于rpa及ai的信息抽取方法、装置、设备及介质
CN113655933A (zh) * 2021-08-17 2021-11-16 Oppo广东移动通信有限公司 文本标注方法及装置、存储介质及电子设备
CN113723270A (zh) * 2021-08-25 2021-11-30 北京来也网络科技有限公司 基于rpa及ai的文件处理方法及装置

Also Published As

Publication number Publication date
CN113919287A (zh) 2022-01-11

Similar Documents

Publication Publication Date Title
US20180075298A1 (en) Method and system for webpage regression testing
US20190243848A1 (en) Generating a structured document guiding view
CN107908641B (zh) 一种获取图片标注数据的方法和系统
JP4829920B2 (ja) フォーム自動埋込方法及び装置、グラフィカルユーザインターフェース装置
CN111898411B (zh) 文本图像标注系统、方法、计算机设备和存储介质
CN107729445B (zh) 一种基于html5的大文本阅读定位及显示方法
US10089523B2 (en) Automating creation of accurate OCR training data using specialized UI application
US20060217956A1 (en) Translation processing method, document translation device, and programs
CN110674814A (zh) 一种图片识别翻译方法、终端及介质
US20130104016A1 (en) Digital comic editor, method and non-transitory computer-readable medium
CN110990010A (zh) 一种软件界面代码的生成方法及装置
CN113919287B (zh) 结合rpa及ai的实体关系标注方法、装置及电子设备
CN112380824B (zh) 自动识别分栏的pdf文档处理方法、装置、设备及存储介质
CN110765015A (zh) 一种对被测应用进行测试的方法和电子设备
CN113807066A (zh) 一种图表生成方法、装置及电子设备
CN111783393B (zh) 双语对照阅读时的手写笔记同步方法、设备及存储介质
CN111798542B (zh) 模型训练方法、数据处理方法及装置、设备、存储介质
TWI726268B (zh) 圖像資訊處理裝置、圖像資訊處理方法、及記錄圖像資訊處理程式的記錄媒體
CN113177392B (zh) 校对界面中行段信息同步方法、计算设备及存储介质
CN113672143B (zh) 图像标注方法、系统、设备和存储介质
CN113657325B (zh) 用于确定标注样式信息的方法、装置、介质及程序产品
CN113642642A (zh) 控件识别方法及装置
CN110245308B (zh) 图像提取方法、装置及终端设备
CN112364640A (zh) 实体名词链接方法、装置、计算机设备和存储介质
CN112749294B (zh) 页面隐藏文案识别方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40060890

Country of ref document: HK