CN113297826A - 在自然语言文本上进行标记的方法 - Google Patents

在自然语言文本上进行标记的方法 Download PDF

Info

Publication number
CN113297826A
CN113297826A CN202010595674.6A CN202010595674A CN113297826A CN 113297826 A CN113297826 A CN 113297826A CN 202010595674 A CN202010595674 A CN 202010595674A CN 113297826 A CN113297826 A CN 113297826A
Authority
CN
China
Prior art keywords
event
marking
text
entity
element structure
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010595674.6A
Other languages
English (en)
Other versions
CN113297826B (zh
Inventor
马振文
王若愚
谭淳
沙群皓
李国强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Jiaotong University
Original Assignee
Shanghai Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jiaotong University filed Critical Shanghai Jiaotong University
Priority to CN202010595674.6A priority Critical patent/CN113297826B/zh
Publication of CN113297826A publication Critical patent/CN113297826A/zh
Application granted granted Critical
Publication of CN113297826B publication Critical patent/CN113297826B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/117Tagging; Marking up; Designating a block; Setting of attributes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/189Automatic justification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Document Processing Apparatus (AREA)

Abstract

一种在自然语言文本上进行标记的方法,通过人机交互设备在文本中触发标记工具可识别事件,通过标记工具判断该事件所属的标记元素结构并对其进行对应的排版,保证在标记过程中进行各种操作时,界面始终保持一致性,同时展示的文本当中句子,段落以及标题等都可以通过该排版方式展现出层次分明的结构。本发明通过对标记元素的结构设计,标记人员可以方便地区分不同的类型的元素,并且这种设计能在很好的融合在之前的排版方式中的同时,展示各个元素的类型,尤其是对嵌套实体,嵌套关系的结构设计,不仅能显示嵌套在外面的元素的类型,还能显示嵌套在其中的元素的类型。

Description

在自然语言文本上进行标记的方法
技术领域
本发明涉及的是一种信息处理领域的技术,具体是一种在自然语言文本上进行结构化展示和标记操作的方法。
背景技术
现有的文本标记工具为基于SVG技术的Web应用,以句子为单位进行文本的展示,并提供基于鼠标和键盘的交互操作进行文本要素的标记。其组成包括:词语、句子、实体和关系。这种方式的主要问题在于:长文本的篇章结构丢失。以句子为单位不能体现出原文本基于篇章和段落结构蕴含的信息,长文本的展示会显得混乱,不利于理解,给标记造成额外困难。可以标记的文本要素固定且有限。上述标记平台只支持简单实体标记和简单关系标记,不支持如分词、嵌套实体和嵌套关系等其他文本要素的标记。
现有的文本标记平台主要有Brat标注工具(brat.nlplab.org/),Anafora标注平台(github.com/weitechen/anafora)等。但这些技术仅支持英语且标记操作方式单一,不支持快捷键操作。
发明内容
本发明针对现有技术存在的上述不足,提出一种在自然语言文本上进行标记的方法,通过对标记元素的结构设计,标记人员可以方便地区分不同的类型的元素,并且这种设计能在很好的融合在之前的排版方式中的同时,展示各个元素的类型,尤其是对嵌套实体,嵌套关系的结构设计,不仅能显示嵌套在外面的元素的类型,还能显示嵌套在其中的元素的类型。
本发明是通过以下技术方案实现的:
本发明通过人机交互设备在文本中触发标记工具可识别事件,通过标记工具判断该事件所属的标记元素结构并将带标记的文本内容整体划分成若干文本块,依照文本顺序依次排布并根据显示要素区分为标题或段落,将文本对应的排版成特定的文档结构,经解析并绘制实现自动适应各种元素的间距,保证排版的统一。
所述的文本块包括分词、文本补全、实体、关系元素。
所述的标记工具包括:用于构建、嵌套和绘制词元素的词模块、用于构建、嵌套和绘制文本补全元素的文本补全模块、用于构建、嵌套和绘制实体元素的实体模块、用于构建、嵌套和绘制关系元素的关系模块、用于排版绘制词元素、实体元素和/或关系元素的行模块、用于排版绘制行模块的段模块以及用于排版绘制段模块并进行段落布局的布局排版模块。
所述的标记元素结构包括:分词元素结构、文本补全结构、实体元素结构、关系元素结构。
所述的对应的排版包括:分词标记、合词标记、补全文本标记、补全文本删除、补全文本修改、实体标记、实体删除、实体修改、关系标记、关系删除、关系修改。
技术效果
本发明整体解决现有技术和工具进行文本标记时,无法对带有篇章结构信息的长文本进行排版展示其中的篇章结构信息;无法对文本中的嵌套实体和嵌套关系进行可视化标记操作。
与现有技术相比,本发明可以更好地展示文本排版结构的信息,包括标题、篇、章、节、段落;可以展示多种不同的文本要素,包括分词、实体、关系、嵌套实体、嵌套关系和补全文本,方便用户预览与标记;可以标记多种不同的文本要素,包括分词、实体、关系、嵌套实体、嵌套关系和补全文本。文本要素的标记操作包括:增加标记、修改标记和删除标记。
附图说明
图1为排版方式示意图;
图2为分词元素结构示意图;
图3为文本补全结构示意图;
图4为实体元素结构示意图;
图5为关系元素结构示意图;
图6为分词标记方法流程示意图;
图7为合词标记方法流程示意图;
图8为补全文本标记方法流程示意图;
图9为补全文本删除方法流程示意图;
图10为补全文本修改方法流程示意图;
图11为实体标记方法流程示意图;
图12为实体删除方法流程示意图;
图13为实体修改方法流程示意图;
图14为关系标记方法流程示意图;
图15为关系删除方法流程示意图;
图16为关系修改方法流程示意图;
图17为自然语言文本标记方法流程示意图;
图18为实体包括嵌套实体,关系包括嵌套关系的效果示意图。
具体实施方式
如图1所示,为本实施例涉及一种在自然语言文本上进行标记的方法,将带标记的文本内容整体划分成若干文本块101,每个文本块101包括分词、文本补全、实体、关系元素,依照文本顺序依次排布,并根据字体等显示要素区分为标题或段落,其中实体、嵌套实体的大小可能随嵌套层数不一,大小也有所改变,关系、嵌套关系可能会跨越多行文本,将文本处理成特定的文档结构,经解析并绘制实现自动适应各种元素的间距,包括但不限于行间距、段间距、元素间距等,保证排版的统一。
如图17所示,所述的解析并绘制,具体步骤包括:
步骤1,格式转化:获取用户需要标记的纯文本文件转化为计算机可读形式文档结构;
所述的计算机可读形式文档结构,优选采用json格式的文档,该json文档具体的格式包括段落和段落中包含的关系;其中,段落里面又可以包含文本片段和嵌套实体的json结构。
步骤2:解析显示:对文档结构的解析与显示方式;输入一个计算机可读形式文档结构,例如json文档并对其进行解析得到具有可交互的图像对象,如SVG对象的前端页面。
所述的前端页面采用但不限于绘图工具操作库如SVG.js,将其抽象成词、实体、关系、行、段落等SVG对象类;具体的显示方式采用但不限于SVG.js先生成一块画布,然后再将根据json文档实例化后的SVG对象绘制到画布上。
所述的json文档中的段落可以生成段落类,段落里的文本片段和具有json结构的文本片段可以依次生成对应的词和实体对象,词和实体对象在一定宽度内可以生成一个行对象,即一个段落对象有多个行对象,一个行对象有多个词、文本补全和实体对象。由于关系对象可能跨行,跨段落分布,所以最后再生成关系对象,并将关系对象依拓扑序生成,为的是避免嵌套会引起显示错误。其中词对象,文本补全对象,实体对象,关系对象之间的结构关系如图2-图5元素结构示意图所示。
所述的拓扑序是指对所有有嵌套结构,即有依赖的关系形成一个有向无环图(Directed Acyclic Graph,DAG)G进行拓扑排序生成的序列,即将G中所有顶点排成一个线性序列,使得图中任意一对顶点u和v,当边<u,v>∈E(G),则u在线性序列中出现在v之前。这样的线性序列称为满足拓扑次序(Topological Order)的序列,即拓扑序列。
如图2所示,本实施例涉及的分词元素结构200,包括:分词范围标识符201和词汇文本202,其中:分词范围标识符201表示分词元素的范围,包括但不限于边框等图形显示方式。词汇文本202为一段不可修改的文本。
所述的分词元素结构包括上述子结构及其所有可能的排布相对位置,以及因显示需要对其进行的变形、强调等变化。
如图3所示,本实施例涉及的补全文本元素结构300,包括:补全文本范围标识符301和可修改文本302,其中:补全文本范围标识符301表示补全文本元素的范围,包括但不限于边框等图形显示方式,可修改文本302为一段可修改的文本。
补全文本元素结构包括上述子结构及其所有可能的排布相对位置,以及因显示需要对其进行的变形、强调等变化。
如图4所示,本实施例涉及的实体元素结构400,包括:实体范围标识符401、内容序列402和实体元素标签403,其中:实体范围标识符401表示实体元素的范围,包括但不限于边框等图形显示方式;内容序列402包括若干个按顺序排列的分词元素结构200、补全文本元素结构300或实体元素结构400。当这个序列中包含至少一个实体元素结构400时,此实体元素可被称作嵌套实体元素;实体元素标签403表示实体的类型、属性等信息,包括但不限于可以表示上述信息的文字、颜色及其他图形显示方式。
实体元素结构包括上述子结构及其所有可能的排布相对位置,以及因显示需要对其进行的变形、强调等变化。
如图5所示,本实施例涉及的关系元素结构500,包括:关系范围标识符501、关系元素标签502、关系连接线503、关系起始元素504、关系结束元素505,其中:关系范围标识符501表示关系元素的范围,包括但不限于边框等图形显示方式;关系元素标签502表示关系的类型、属性等信息,包括但不限于可以表示上述信息的文字、颜色及其他图形显示方式;关系连接线503分别连接关系起始元素504和关系结束元素505相连,包括但不限于线段、折线、曲线等,带有或不带有箭头。关系起始元素504和关系结束元素505分别具体可以为一个实体元素结构400或关系元素结构500,当其中包含至少一个关系元素结构500时,此关系元素可称为嵌套关系元素。
关系元素结构包括上述子结构及其所有可能的排布相对位置,以及因显示需要对其进行的变形、强调等变化。
步骤3:用户进行分词标记、合词标记、补全文本标记、补全文本删除、补全文本修改、实体标记、实体删除、实体修改、关系标记、关系删除和/或关系修改的一种或多种操作。
如图6所示,为本实施例涉及的分词标记的操作流程,在标记分词时,光标移至需要分词的分词元素结构200中的分词范围标识符201范围内;然后用户通过人机交互设备在特定位置触发标记工具可识别事件;标记工具判断该事件是否是分词标记事件以及该分词元素结构200能否被分开,当该事件是分词事件且该200能够被分开,则标记工具将该分词元素结构200拆分成2个新的分词元素结构200并按照一定顺序排列。
所述的可识别事件具体是指:当鼠标左键点击该分词元素结构200的文本部分;
所述的判断的具体过程是:根据所述标记工具判断是否是鼠标左键并鼠标左键是否在该分词元素结构200的文本部分;
所述的拆分是指:将该分词元素结构200的文本部分分开,比如(‘头疼咳嗽’分为‘头疼’,‘咳嗽’);
所述的一定的顺序是指:相对该分词元素结构200的文本部分,从左到右的顺序。
如图7所示,为本实施例涉及的分词元素的合词标记流程700,在合词标记时,光标移至分词元素结构200中的分词范围标识符201范围内,然后用户通过人机交互设备在特定位置触发标记工具可识别事件;标记工具判断该事件是否是合词事件以及光标所在的分词元素结构200相邻区域内是否有可以合并的分词元素结构200,当合词事件且光标所在的分词元素结构200相邻区域内有可以合并的分词元素结构200,则标记工具就将光标所在的分词元素结构200和可以合并的分词元素结构200合成一个新的分词元素结构200。
所述的合词事件是指:当鼠标右键点击该分词元素结构200的文本部分;
所述的判断是指:根据所述标记工具判断是否是鼠标右键并鼠标右键是否点击在该分词元素结构200的文本部分。
如图8所示,为本实施例涉及的补全文本元素的相关标记流程800,在标记补全文本时,用户首先通过人机交互设备将光标移动至需要增加文本补全元素的位置,然后触发标记工具可识别事件;标记工具判断该事件是否是补全文本标记事件,当该事件是补全文本标记事件则标记工具在文本对应的位置创建一个新的补全文本元素结构300。接下来用户编辑该元素的302直到编辑完成。最后标记工具根据编辑好的302更新补全文本元素结构300。
所述的补全文本标记事件是指:当鼠标左键双击点击需要增加补全文本元素结构300的位置;
所述的判断是指:根据所述标记工具判断是否是鼠标左键双击并点击在可以增加300元素的位置;
所述的更新是指:将标记人员修改编辑好的302替换原本302中的内容。
如图9所示,为本实施例涉及的补全文本元素的删除标记流程900,在删除补全文本元素时,用户首先通过人机交互设备选中需要删除的补全文本元素结构300,随后用户通过人机交互设备触发标记工具可识别的事件;标记工具判断是否是删除补全文本事件,当该事件是删除补全文本事件,则标记工具将删除选中的补全文本元素结构300。
所述的删除补全文本事件是指:当鼠标右键点击该补全文本元素结构300;
所述的判断是指:根据所述标记工具判断是否是鼠标右键并点击在该补全文本元素结构300。
如图10所示,为本实施例涉及的补全文本元素的修改标记流程1000,在修改补全文本元素时,用户首先通过人机交互设备选中需要修改的补全文本元素结构300,随后用户通过人机交互设备触发一个标记工具可识别的事件;标记工具判断是否是修改补全文本事件,当该事件是修改补全文本事件,则用户将可以修改选中的补全文本元素结构300中的302。用户编辑完成后,标记工具根据编辑好的302更新该选中的补全文本元素结构300。
所述的修改补全文本事件是指:当鼠标左键点击该补全文本元素结构300;
所述的判断是指:根据所述标记工具判断是否是鼠标左键并点击在该补全文本元素结构300。
如图11所示,为本实施例涉及的实体元素的相关标记流程1100,在标记实体时,用户首先通过人机交互设备设置需要的实体标签,然后选中一个或多个分词元素结构200、补全文本元素结构300或实体元素结构400。接下来用户通过人机交互设备触发标记工具可识别事件;标记工具判断该事件是否是实体标记事件以及选中的元素能否用于新建实体元素,当该事件是实体标记事件且选中的元素能够用于新建实体元素,则标记工具将根据选中的元素创建一个新的实体元素结构400。
所述的实体标记事件是指:当拖拽选中多个分词元素结构200、补全文本元素结构300或实体元素结构400后鼠标拖拽完成的事件;
所述的判断是指:根据所述标记工具判断是否是拖拽完成事件并选中多个分词元素结构200、补全文本元素结构300或实体元素结构400;
所述的创建是指:将选中的分词元素结构200、补全文本元素结构300或实体元素结构400作为一个新的实体元素结构400里的402内容,并赋予该新的实体元素结构400一个用户设置的403标签,组合形成一个完整的实体元素结构400。
如图12所示,为本实施例涉及的实体元素的删除标记流程1200,在删除实体时,用户首先通过人机交互设备选中需要删除的实体元素结构400。接下来用户通过人机交互设备触发标记工具可识别事件;标记工具判断该事件是否是实体删除事件以及选中的实体元素结构400能否被删除,当该事件是实体删除事件且选中的元素能够被删除,则标记工具将删除该选中的实体元素结构400,恢复该实体元素结构400创建之前的状态。
所述的实体删除事件是指:当鼠标右键点击在需要删除的实体元素结构400内;
所述的判断是指:根据所述标记工具判断是否是鼠标右键并点击在一个实体元素结构400内;
所述的恢复是指:一个实体元素结构400的形成是由一次或多次实体元素结构400创建事件触发得到的(多次是因为实体元素结构400里面的402内容可以是实体元素结构400),当删除某次创建的400,就将该次实体元素结构400及其之后的数次创建得到的实体元素结构400实体都删除掉,将400内的402内容释放重新排版。当一个实体元素结构400实体上连接的有关系时,其所连接的关系将一并删除。
如图13所示,为本实施例涉及的实体元素的修改标记流程1300,在修改实体时,用户首先通过人机交互设备选中需要修改的实体元素结构400,然后设置该实体元素结构400中子结构的修改方案。接下来用户通过人机交互设备触发标记工具可识别事件;标记工具判断该事件是否是实体修改事件,当该事件是实体修改事件,则标记工具将根据设置的实体修改方案更新选中的实体元素结构400。
所述的实体修改事件是指:当Ctrl+鼠标左键点击选中的实体元素结构400;
所述的判断是指:根据所述标记工具判断是否是Ctrl+鼠标左键并点击在实体元素结构400内;
所述的修改是指:将实体元素结构400的403标签内容更换成用户配置的标签。
如图14所示,为本实施例涉及的关系元素的相关标记流程1400,在标记关系时,用户首先通过人机交互设备设置需要的关系标签,然后选中两个元素(每个元素都可以是实体元素结构400或关系元素结构500)分别作为504和505。接下来用户通过人机交互设备触发标记工具可识别事件;标记工具判断该事件是否是关系标记事件以及选中的元素能否用于新建关系元素,当该事件是关系标记事件且选中的元素能够用于新建关系元素,则标记工具将根据选中的元素创建一个新的500。
所述的关系标记事件是指:当连续鼠标左键点击两个元素(每个元素都可以是实体元素结构400或关系元素结构500);
所述的判断是指:根据所述标记工具判断是否是连续的鼠标左键点击两个元素(每个都可以是实体元素结构400或关系元素结构500);
所述的创建是指:将鼠标连续点击的两个元素分别作为504和505,并将它们之间连接503线条并赋予502标签,形成一个新的关系元素结构500。
如图15所示,为本实施例涉及的关系元素的删除标记流程1500,在删除关系时,用户首先通过人机交互设备选中需要删除的关系元素结构500。接下来用户通过人机交互设备触发标记工具可识别事件;标记工具判断该事件是否是关系删除事件以及选中的关系元素结构500能否被删除,当该事件是关系删除事件且选中的元素能够被删除,则标记工具将删除该选中的关系元素结构500,恢复该关系元素结构500创建之前的状态。
所述的关系删除事件是指:当鼠标右键点击需要删除的关系元素结构500;
所述的判断是指:根据所述标记工具判断是否是鼠标右键并点击在一个关系元素结构500上;
所述的恢复是指:一个关系元素结构500的形成是由一次或多次关系元素结构500的创建事件触发得到的(多次是因为关系元素结构500里面的504和505都可以是关系元素结构500),当删除某次创建的关系元素结构500,就将该次及其之后的数次创建得到的关系元素结构500都删除掉,将关系元素结构500内的504和505内容释放重新排版。
如图16所示,为本实施例涉及的关系元素的修改标记流程1600,在修改关系时,用户首先通过人机交互设备选中需要修改的关系元素结构500,然后设置该关系元素结构500中子结构的修改方案。接下来用户通过人机交互设备触发标记工具可识别事件;标记工具判断该事件是否是关系修改事件,当该事件是关系修改事件,则标记工具将根据设置的关系修改方案更新选中的关系元素结构500。
所述的关系修改事件是指:当Ctrl+鼠标左键点击需要修改的关系元素结构500,和Shift+鼠标左键点击需要修改的关系元素结构500;
所述的判断是指:根据所述标记工具判断是否是Ctrl+鼠标左键并点击在需要修改的500事件,或判断是否是Shift+鼠标左键并点击在需要修改的关系元素结构500;
所述的更新是指:当Ctrl+鼠标左键点击需要修改的关系元素结构500,就将关系元素结构500的502标签替换为用户配置的标签,当Shift+鼠标左键并点击需要修改的关系元素结构500,就将关系元素结构500的503线条的箭头方向进行调换。
步骤4:将用户标记好的文档以该文档结构输出,供用户使用或选择回到步骤2继续供用户标记,直至用户不再修改。
本方法在windows和Linux等支持游览器的设备上,用游览器打开标记工具,可以供用户游览并标记相关文本文件,并将标记好的具有嵌套知识信息的文本文件进行导出。
由于目前没有可以用来标记嵌套知识结构的工具,当有标记任务需要标记嵌套知识结构等复杂信息时,相比在纯文本上标记或利用一些简单的excel表格标记,利用本发明的标记工具可以使标记人员的标记时间可缩短几十倍甚至上百倍。
上述具体实施可由本领域技术人员在不背离本发明原理和宗旨的前提下以不同的方式对其进行局部调整,本发明的保护范围以权利要求书为准且不由上述具体实施所限,在其范围内的各个实现方案均受本发明之约束。

Claims (5)

1.一种在自然语言文本上进行标记的方法,其特征在于,通过人机交互设备在文本中触发标记工具可识别事件,通过标记工具判断该事件所属的标记元素结构并将带标记的文本内容整体划分成若干文本块,依照文本顺序依次排布并根据显示要素区分为标题或段落,将文本对应的排版成特定的文档结构,经解析并绘制实现自动适应各种元素的间距,保证排版的统一;
所述的文本块包括分词、文本补全、实体、关系元素;
所述的标记工具包括:用于构建、嵌套和绘制词元素的词模块、用于构建、嵌套和绘制文本补全元素的文本补全模块、用于构建、嵌套和绘制实体元素的实体模块、用于构建、嵌套和绘制关系元素的关系模块、用于排版绘制词元素、实体元素和/或关系元素的行模块、用于排版绘制行模块的段模块以及用于排版绘制段模块并进行段落布局的布局排版模块;
所述的标记元素结构包括:分词元素结构、文本补全结构、实体元素结构、关系元素结构;
所述的对应的排版包括:分词标记、合词标记、补全文本标记、补全文本删除、补全文本修改、实体标记、实体删除、实体修改、关系标记、关系删除、关系修改。
2.根据权利要求1所述的在自然语言文本上进行标记的方法,其特征是,所述的解析并绘制,包括:
步骤1,格式转化:获取用户需要标记的纯文本文件,转化为计算机可读形式文档结构;
步骤2:解析显示:对文档结构的解析与显示方式;输入一个计算机可读形式文档结构并对其进行解析得到具有可交互的图像对象的前端页面;
步骤3:用户进行分词标记、合词标记、补全文本标记、补全文本删除、补全文本修改、实体标记、实体删除、实体修改、关系标记、关系删除和/或关系修改的一种或多种操作;
步骤4:将用户标记好的文档以该文档结构输出,供用户使用或选择回到步骤2继续供用户标记,直至用户不再修改。
3.根据权利要求2所述的在自然语言文本上进行标记的方法,其特征是,所述的计算机可读形式文档结构采用json格式的文档;
所述的json文档中的段落生成段落类,段落里的文本片段和具有json结构的文本片段依次生成对应的词和实体对象,词和实体对象在一定宽度内生成一个行对象,即一个段落对象有多个行对象,一个行对象有多个词、文本补全和实体对象,最后再依拓扑序生成关系对象。
4.根据权利要求1所述的在自然语言文本上进行标记的方法,其特征是,所述的分词元素结构包括:分词范围标识符和词汇文本;补全文本元素结构包括:补全文本范围标识符和可修改文本;实体元素结构包括:实体范围标识符、内容序列和实体元素标签;关系元素结构包括:关系范围标识符、关系元素标签、关系连接线、关系起始元素、关系结束元素。
5.根据权利要求2所述的在自然语言文本上进行标记的方法,其特征是,所述的分词标记是指:在标记分词时,光标移至需要分词的分词元素结构中的分词范围标识符范围内;然后用户通过人机交互设备在特定位置触发标记工具可识别事件;标记工具判断该事件是否是分词标记事件以及该分词元素结构能否分开,当该事件是分词事件且该能够分开,则标记工具将该分词元素结构拆分成个新的分词元素结构并按照顺序排列;
所述的合词标记是指:光标移至分词元素结构中的分词范围标识符范围内,然后用户通过人机交互设备在特定位置触发标记工具可识别事件;标记工具判断该事件是否是合词事件以及光标所在的分词元素结构相邻区域内是否有可以合并的分词元素结构,当合词事件且光标所在的分词元素结构相邻区域内有可以合并的分词元素结构,则标记工具就将光标所在的分词元素结构和可以合并的分词元素结构合成一个新的分词元素结构;
所述的相关标记流程是指:用户首先通过人机交互设备将光标移动至需要增加文本补全元素的位置,然后触发标记工具可识别事件;标记工具判断该事件是否是补全文本标记事件,当该事件是补全文本标记事件则标记工具在文本对应的位置创建一个新的补全文本元素结构;接下来用户编辑该元素的直到编辑完成;最后标记工具根据编辑好的更新补全文本元素结构;
所述的删除标记流程是指:在删除补全文本元素时,用户首先通过人机交互设备选中需要删除的补全文本元素结构,随后用户通过人机交互设备触发标记工具可识别的事件;标记工具判断是否是删除补全文本事件,当该事件是删除补全文本事件,则标记工具将删除选中的补全文本元素结构;
所述的修改标记流程是指:在修改补全文本元素时,用户首先通过人机交互设备选中需要修改的补全文本元素结构,随后用户通过人机交互设备触发一个标记工具可识别的事件;标记工具判断是否是修改补全文本事件,当该事件是修改补全文本事件,则用户将可以修改选中的补全文本元素结构中的;用户编辑完成后,标记工具根据编辑好的更新该选中的补全文本元素结构;
所述的相关标记流程是指:在标记实体时,用户首先通过人机交互设备设置需要的实体标签,然后选中一个或多个分词元素结构、补全文本元素结构或实体元素结构;接下来用户通过人机交互设备触发标记工具可识别事件;标记工具判断该事件是否是实体标记事件以及选中的元素能否用于新建实体元素,当该事件是实体标记事件且选中的元素能够用于新建实体元素,则标记工具将根据选中的元素创建一个新的实体元素结构;
所述的删除标记流程是指:在删除实体时,用户首先通过人机交互设备选中需要删除的实体元素结构;接下来用户通过人机交互设备触发标记工具可识别事件;标记工具判断该事件是否是实体删除事件以及选中的实体元素结构能否被删除,当该事件是实体删除事件且选中的元素能够被删除,则标记工具将删除该选中的实体元素结构,恢复该实体元素结构创建之前的状态;
所述的修改标记流程是指:在修改实体时,用户首先通过人机交互设备选中需要修改的实体元素结构,然后设置该实体元素结构中子结构的修改方案;接下来用户通过人机交互设备触发标记工具可识别事件;标记工具判断该事件是否是实体修改事件,当该事件是实体修改事件,则标记工具将根据设置的实体修改方案更新选中的实体元素结构;
所述的相关标记流程是指:在标记关系时,用户首先通过人机交互设备设置需要的关系标签,然后选中两个元素(每个元素都可以是实体元素结构或关系元素结构)分别作为和;接下来用户通过人机交互设备触发标记工具可识别事件;标记工具判断该事件是否是关系标记事件以及选中的元素能否用于新建关系元素,当该事件是关系标记事件且选中的元素能够用于新建关系元素,则标记工具将根据选中的元素创建一个新的;
所述的删除标记流程是指:在删除关系时,用户首先通过人机交互设备选中需要删除的关系元素结构;接下来用户通过人机交互设备触发标记工具可识别事件;标记工具判断该事件是否是关系删除事件以及选中的关系元素结构能否被删除,当该事件是关系删除事件且选中的元素能够被删除,则标记工具将删除该选中的关系元素结构,恢复该关系元素结构创建之前的状态。
CN202010595674.6A 2020-06-28 2020-06-28 在自然语言文本上进行标记的方法 Active CN113297826B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010595674.6A CN113297826B (zh) 2020-06-28 2020-06-28 在自然语言文本上进行标记的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010595674.6A CN113297826B (zh) 2020-06-28 2020-06-28 在自然语言文本上进行标记的方法

Publications (2)

Publication Number Publication Date
CN113297826A true CN113297826A (zh) 2021-08-24
CN113297826B CN113297826B (zh) 2022-06-10

Family

ID=77318087

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010595674.6A Active CN113297826B (zh) 2020-06-28 2020-06-28 在自然语言文本上进行标记的方法

Country Status (1)

Country Link
CN (1) CN113297826B (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2007414A1 (en) * 1989-04-26 1990-10-26 Clayton James Bennett Iii Method for manipulating elements within a structured document using active intent interpretations
CN104035916A (zh) * 2013-03-07 2014-09-10 富士通株式会社 标准化标注工具的方法和设备
CN104951508A (zh) * 2015-05-21 2015-09-30 腾讯科技(深圳)有限公司 时间信息识别方法和装置
CN108763171A (zh) * 2018-04-20 2018-11-06 中国船舶重工集团公司第七〇九研究所 一种基于格式模板的文档自动化生成方法
CN110188347A (zh) * 2019-04-29 2019-08-30 西安交通大学 一种面向文本的知识主题间认知关系抽取方法
CN110309393A (zh) * 2019-03-28 2019-10-08 平安科技(深圳)有限公司 数据处理方法、装置、设备及可读存储介质
CN110334300A (zh) * 2019-07-10 2019-10-15 哈尔滨工业大学 面向舆情分析的文本辅助阅读方法
CN111104557A (zh) * 2019-11-22 2020-05-05 黄琴 基于标准文档标记语言规范的异构文档处理系统及方法
CN111191413A (zh) * 2019-12-30 2020-05-22 北京航空航天大学 一种基于图排序模型的事件核心内容自动标记方法、装置及系统

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2007414A1 (en) * 1989-04-26 1990-10-26 Clayton James Bennett Iii Method for manipulating elements within a structured document using active intent interpretations
CN104035916A (zh) * 2013-03-07 2014-09-10 富士通株式会社 标准化标注工具的方法和设备
CN104951508A (zh) * 2015-05-21 2015-09-30 腾讯科技(深圳)有限公司 时间信息识别方法和装置
CN108763171A (zh) * 2018-04-20 2018-11-06 中国船舶重工集团公司第七〇九研究所 一种基于格式模板的文档自动化生成方法
CN110309393A (zh) * 2019-03-28 2019-10-08 平安科技(深圳)有限公司 数据处理方法、装置、设备及可读存储介质
CN110188347A (zh) * 2019-04-29 2019-08-30 西安交通大学 一种面向文本的知识主题间认知关系抽取方法
CN110334300A (zh) * 2019-07-10 2019-10-15 哈尔滨工业大学 面向舆情分析的文本辅助阅读方法
CN111104557A (zh) * 2019-11-22 2020-05-05 黄琴 基于标准文档标记语言规范的异构文档处理系统及方法
CN111191413A (zh) * 2019-12-30 2020-05-22 北京航空航天大学 一种基于图排序模型的事件核心内容自动标记方法、装置及系统

Also Published As

Publication number Publication date
CN113297826B (zh) 2022-06-10

Similar Documents

Publication Publication Date Title
Heer et al. Graphical histories for visualization: Supporting analysis, communication, and evaluation
US9152730B2 (en) Extracting principal content from web pages
US7313754B2 (en) Method and expert system for deducing document structure in document conversion
Edhlund Nvivo 9 essentials
JP3425408B2 (ja) 文書読取装置
US6952803B1 (en) Method and system for transcribing and editing using a structured freeform editor
DE69916225T2 (de) Verfahren und System zur Wartung von Freiformtinteannotationen auf ändernden Ansichten
Eklundh et al. A computer tool and framework for analyzing online revisions
US9529438B2 (en) Printing structured documents
CN1783085A (zh) 网页编辑设备、网页编辑方法及程序
US20130262968A1 (en) Apparatus and method for efficiently reviewing patent documents
CN103853735A (zh) Html模板可视化制作、编辑方法及系统
JP6866551B2 (ja) 数式処理方法、装置、デバイス及びプログラム
CN110728124A (zh) 用于可视化电子表格的方法、装置、设备及存储介质
JP5446877B2 (ja) 目次構造特定装置
JP5511253B2 (ja) 文章解析装置、文章表示装置、文章解析方法、文章表示方法、文章解析プログラムおよび文章表示プログラム
KR20080081525A (ko) 공간연계db를 이용한 cad뷰어 검색방법.
CN113297826B (zh) 在自然语言文本上进行标记的方法
EP1837776A1 (en) Document processing device and document processing method
JP2004178010A (ja) 文書処理装置並びにその方法及びプログラム
US20090287994A1 (en) Document processing device and document processing method
US20100138735A1 (en) Document processing device
Javed et al. Palmyra: A platform independent dependency annotation tool for morphologically rich languages
JP2004318809A (ja) 情報抽出規則生成装置および方法
US7613709B2 (en) System and method for editing operations of a text object model

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant