CN112464627A - 一种面向共指关系的手动文本标注工具及方法 - Google Patents

一种面向共指关系的手动文本标注工具及方法 Download PDF

Info

Publication number
CN112464627A
CN112464627A CN202011225399.5A CN202011225399A CN112464627A CN 112464627 A CN112464627 A CN 112464627A CN 202011225399 A CN202011225399 A CN 202011225399A CN 112464627 A CN112464627 A CN 112464627A
Authority
CN
China
Prior art keywords
instance
current
node
operation unit
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011225399.5A
Other languages
English (en)
Other versions
CN112464627B (zh
Inventor
宁焕生
徐阳
万月亮
魏大为
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology Beijing USTB
Original Assignee
University of Science and Technology Beijing USTB
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology Beijing USTB filed Critical University of Science and Technology Beijing USTB
Priority to CN202011225399.5A priority Critical patent/CN112464627B/zh
Publication of CN112464627A publication Critical patent/CN112464627A/zh
Application granted granted Critical
Publication of CN112464627B publication Critical patent/CN112464627B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/169Annotation, e.g. comment data or footnotes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本发明公开了一种面向共指关系的手动文本标注工具及方法,该工具包括存储模块和标注模块,存储模块用于存储语料文本、节点和实例;其中,每一节点存储一个指称和用于标注当前节点指向哪个实例的节点标注信息,每一实例存储一个实例信息和用于标注当前实例被哪些节点所指向的实例标注信息;标注模块用于以可视化图形界面的方式为用户提供操作界面,并根据用户操作指令在操作界面上展示当前待标注的语料文本和当前指称,为当前指称确定对应的当前节点,并为当前节点确定对应的实例。本发明可一次性实现跨文档的共指标注,无需先标注文档内共指信息,再聚合文档间共指信息,提高了效率。

Description

一种面向共指关系的手动文本标注工具及方法
技术领域
本发明涉及文本标注技术领域,特别涉及一种面向共指关系的手动文本标注工具及方法。
背景技术
“共指消解”任务,就是输入文本,输出文本中哪些“指称”是共指的。如果输入单个文本,就是文档内共指消解,如果输入多个文档,就是文档间(跨文档)共指消解。后者显然更难。“消解”一词本意指把同一个“实例”的不同“指称”统一起来,消融歧义。例如有两句话,“时任美国总统将于下周访华”,“当地媒体参加发布会并采访了甲总统”。如果根据上下文知道“时任美国总统”就是“甲总统”,说的是同一个人,那么说“时任美国总统”和“甲总统”这两个短语是“共指”的,这两个短语被称为“指称”,它们都“指向”真实的甲这个人,这个人是指称指向的“实例”。由于上例中的总统是一个实体,所以称为“实体共指”。类似的还有“事件共指”。
共指消解技术兴起较早,但是跨文档的同时消解实体共指和事件共指的技术是近年才发展起来的,特别是针对中文的此种技术。制约此种技术发展的一个重要因素就是缺少标注语料。基于深度学习的共指消解模型必须有足够的标注语料来用于训练,但是目前并没有合适的语料。因此就需要“共指语料标注工具”来辅助标注新的语料。
共指语料标注工具,即标注语料文本中共指关系的标注工具。目前使用比较广泛的是CAT+CROMER,该工具其实是两个工具的组合,标注者需要先用 CAT标注每一篇文档(CAT是文档内共指标注工具),然后用CROMER把不同文档内的共指标注合并起来,实现文档间共指的标注。CAT+CROMER的大致流程为:文档1,2是讲苹果种植的,用户利用CAT把里面许多“苹果”的指称都标注指向苹果这个实例。文档3是讲乔布斯的,用户利用CAT把里面许多“苹果”的指称都标注指向苹果这个实例。但这是3个不同的苹果实例。所以用户需要利用CROMER识别文档间实例的这种差异和联系,把水果苹果和苹果公司区分开,把真正的水果苹果合并。但这种先文档内后文档间的标注方式显然降低了标注效率。
发明内容
本发明提供了一种面向共指关系的手动文本标注工具及方法,以解决现有的标注工具先文档内后文档间的标注方式降低了标注效率的技术问题。
为解决上述技术问题,本发明提供了如下技术方案:
一方面,本发明提供一种面向共指关系的手动文本标注工具,该工具包括:
存储模块,所述存储模块用于存储语料文本、节点和实例;其中,每一节点存储一个指称和用于标注当前节点指向哪个实例的节点标注信息,每一实例存储一个实例信息和用于标注当前实例被哪些节点所指向的实例标注信息;
标注模块,所述标注模块用于以可视化图形界面的方式为用户提供操作界面,并根据用户的操作指令在所述操作界面上展示当前待标注的语料文本和当前指称,为当前指称确定对应的当前节点,并为当前节点确定对应的实例。
进一步地,所述标注模块包括第一操作单元、第二操作单元、第三操作单元、第四操作单元以及第五操作单元;其中,
所述第一操作单元用于显示所述存储模块所存储的语料文本的目录结构;
所述第二操作单元用于当用户在所述第一操作单元所显示的目录结构中选择一个待标注的语料文本后,显示用户当前选择的语料文本的文本内容;
所述第三操作单元用于当用户在所述第二操作单元显示的文本内容中选择一个指称后,为用户选择的当前指称确定对应的当前节点并显示节点标注信息;
所述第五操作单元用于展示所有实例;当用户选择一个实例后,被选择的实例被认定为当前实例;
所述第四操作单元用于显示当前实例对应的实例标注信息。
进一步地,所述第二操作单元还用于:
当用户在文本内容中选择一个指称后,将用户选择的当前指称高亮显示。
进一步地,所述第三操作单元为当前指称确定对应的当前节点,包括:
若所述存储模块中存储有当前指称对应的节点,则所述第三操作单元将所述存储模块中存储的相应节点作为与当前指称对应的当前节点;
若所述存储模块中未存储当前指称对应的节点,则所述第三操作单元根据用户的新建节点指令为当前指称创建对应的节点作为当前节点。
进一步地,所述第三操作单元还用于:
接收用户输入的编辑节点指令,并根据所述编辑节点指令修改当前节点的节点标注信息,变更当前节点所指向的实例。
进一步地,所述第五操作单元还用于:
接收用户的新建实例指令,并根据所述新建实例指令新建一个实例。
进一步地,所述第四操作单元还用于:
接收用户输入的编辑实例指令,并根据所述编辑实例指令修改当前实例的实例标注信息,变更指向当前实例的节点。
另一方面,本发明还提供一种基于上述的面向共指关系的手动文本标注工具实现的面向共指关系的手动文本标注方法,该方法包括:
通过存储模块存储语料文本、节点和实例;其中,每一节点存储一个指称和用于标注当前节点指向哪个实例的节点标注信息,每一实例存储一个实例信息和用于标注当前实例被哪些节点所指向的实例标注信息;
通过标注模块以可视化图形界面的方式为用户提供操作界面,并根据用户的操作指令在所述操作界面上展示当前待标注的语料文本和当前指称,为当前指称确定对应的当前节点,并为当前节点确定对应的实例,以实现文本标注。
本发明提供的技术方案带来的有益效果至少包括:
本发明提供了一种高效的,图像化的,跨文档的实体和事件共指工具,以图形化的方式实现标注,对标注者隐藏数据存储和建模细节;以直观的形式展示和编辑指称间的共指关系;实例在不同文档间共享,支持不同文档间指称的共指标注,标注者无需先进行文档内共指标注,再进行文档间共指信息的汇聚。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的面向共指关系的手动文本标注工具的系统框图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
本实施例提供了一种面向共指关系的手动文本标注工具,如图1所示,该面向共指关系的手动文本标注工具包括:
存储模块,所述存储模块用于存储语料文本、节点和实例;其中,每一节点存储一个指称和用于标注当前节点指向哪个实例的节点标注信息,每一实例存储一个实例信息和用于标注当前实例被哪些节点所指向的实例标注信息;
标注模块,所述标注模块用于以可视化图形界面的方式为用户提供操作界面,并根据用户的操作指令在所述操作界面上展示当前待标注的语料文本和当前指称,为当前指称确定对应的当前节点,并为当前节点确定对应的实例。
进一步地,所述标注模块包括第一操作单元、第二操作单元、第三操作单元、第四操作单元以及第五操作单元;其中,
所述第一操作单元用于显示所述存储模块所存储的语料文本的目录结构,目录结构由文件夹和文件组成;当用于点击文件夹后向用户显示当前文件夹中包含的所有文件,当用户点击其中某一文件后,则在第二操作单元显示其内容;
所述第二操作单元用于当用户在所述第一操作单元所显示的目录结构中选择一个待标注的语料文本后,显示用户当前选择的语料文本的文本内容;并且,当用户在当前显示的文本内容中选择一段文字后,将用户所选择的文字内容进行突出(高亮)显示,并认定用户当前所选择的文字为“当前指称”;
所述第三操作单元用于当用户在所述第二操作单元显示的文本内容中选择一个指称后,为用户选择的当前指称确定对应的当前节点并显示节点标注信息;
具体地,所述第三操作单元为当前指称确定对应的当前节点,包括:
若所述存储模块中存储有当前指称对应的节点,则所述第三操作单元将所述存储模块中存储的相应节点作为与当前指称对应的当前节点;
若所述存储模块中未存储当前指称对应的节点,则所述第三操作单元显示“新建节点”按钮,当用户点击“新建节点”按钮后,根据用户的新建节点指令为当前指称创建一个对应的新节点作为当前节点。
所述第五操作单元用于展示所有的实例;和“新建实例”按钮;用户左键单击一个实例,则此实例被认定为当前实例;当用户点击“新建实例”按钮后,新建一个实例。
所述第四操作单元用于显示当前实例对应的实例标注信息。
所述第三操作单元还包括“编辑指向的实例”按钮,当用户点击“编辑指向的实例”按钮后,再在第五操作单元所显示的实例中选择一个实例即可将当前节点指向所选择的实例;从而实现当前节点所指向实例的变更。
所述第四操作单元还包括“编辑相关节点”按钮,当用户点击“编辑相关节点”按钮后,再在第二操作单元显示的文本内容中选择一段文字,即可将选择的文字作为一个节点指向当前实例,从而实现指向当前实例的节点的变更。
综上,本实施例提供了一种高效的,图像化的,跨文档的实体和事件共指工具,以图形化的方式实现标注,对标注者隐藏数据存储和建模细节;以直观的形式展示和编辑指称间的共指关系;实例在不同文档间共享,支持不同文档间指称的共指标注,标注者无需先进行文档内共指标注,再进行文档间共指信息的汇聚。可以一次性实现跨文档的共指标注,从而有效提高了文本标注效率。
此外,需要说明的是,本发明可提供为方法、装置或计算机程序产品。因此,本发明实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质上实施的计算机程序产品的形式。
本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
最后需要说明的是,以上所述是本发明优选实施方式,应当指出,尽管已描述了本发明优选实施例,但对于本技术领域的技术人员来说,一旦得知了本发明的基本创造性概念,在不脱离本发明所述原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

Claims (8)

1.一种面向共指关系的手动文本标注工具,其特征在于,所述工具包括:
存储模块,所述存储模块用于存储语料文本、节点和实例;其中,每一节点存储一个指称和用于标注当前节点指向哪个实例的节点标注信息,每一实例存储一个实例信息和用于标注当前实例被哪些节点所指向的实例标注信息;
标注模块,所述标注模块用于以可视化图形界面的方式为用户提供操作界面,并根据用户的操作指令在所述操作界面上展示当前待标注的语料文本和当前指称,为当前指称确定对应的当前节点,并为当前节点确定对应的实例。
2.如权利要求1所述的面向共指关系的手动文本标注工具,其特征在于,所述标注模块包括第一操作单元、第二操作单元、第三操作单元、第四操作单元以及第五操作单元;其中,
所述第一操作单元用于显示所述存储模块所存储的语料文本的目录结构;
所述第二操作单元用于当用户在所述第一操作单元所显示的目录结构中选择一个待标注的语料文本后,显示用户当前选择的语料文本的文本内容;
所述第三操作单元用于当用户在所述第二操作单元显示的文本内容中选择一个指称后,为用户选择的当前指称确定对应的当前节点并显示节点标注信息;
所述第五操作单元用于展示所有实例;当用户选择一个实例后,被选择的实例被认定为当前实例;
所述第四操作单元用于显示当前实例对应的实例标注信息。
3.如权利要求2所述的面向共指关系的手动文本标注工具,其特征在于,所述第二操作单元还用于:
当用户在文本内容中选择一个指称后,将用户选择的当前指称高亮显示。
4.如权利要求2所述的面向共指关系的手动文本标注工具,其特征在于,所述第三操作单元为当前指称确定对应的当前节点,包括:
若所述存储模块中存储有当前指称对应的节点,则所述第三操作单元将所述存储模块中存储的相应节点作为与当前指称对应的当前节点;
若所述存储模块中未存储当前指称对应的节点,则所述第三操作单元根据用户的新建节点指令为当前指称创建对应的节点作为当前节点。
5.如权利要求4所述的面向共指关系的手动文本标注工具,其特征在于,所述第三操作单元还用于:
接收用户输入的编辑节点指令,并根据所述编辑节点指令修改当前节点的节点标注信息,变更当前节点所指向的实例。
6.如权利要求2所述的面向共指关系的手动文本标注工具,其特征在于,所述第五操作单元还用于:
接收用户的新建实例指令,并根据所述新建实例指令新建一个实例。
7.如权利要求6所述的面向共指关系的手动文本标注工具,其特征在于,所述第四操作单元还用于:
接收用户输入的编辑实例指令,并根据所述编辑实例指令修改当前实例的实例标注信息,变更指向当前实例的节点。
8.一种利用如权利要求1-7任一项所述的面向共指关系的手动文本标注工具实现的面向共指关系的手动文本标注方法,其特征在于,所述方法包括:
通过存储模块存储语料文本、节点和实例;其中,每一节点存储一个指称和用于标注当前节点指向哪个实例的节点标注信息,每一实例存储一个实例信息和用于标注当前实例被哪些节点所指向的实例标注信息;
通过标注模块以可视化图形界面的方式为用户提供操作界面,并根据用户的操作指令在所述操作界面上展示当前待标注的语料文本和当前指称,为当前指称确定对应的当前节点,并为当前节点确定对应的实例,以实现文本标注。
CN202011225399.5A 2020-11-05 2020-11-05 一种面向共指关系的手动文本标注工具及方法 Active CN112464627B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011225399.5A CN112464627B (zh) 2020-11-05 2020-11-05 一种面向共指关系的手动文本标注工具及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011225399.5A CN112464627B (zh) 2020-11-05 2020-11-05 一种面向共指关系的手动文本标注工具及方法

Publications (2)

Publication Number Publication Date
CN112464627A true CN112464627A (zh) 2021-03-09
CN112464627B CN112464627B (zh) 2021-12-03

Family

ID=74825123

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011225399.5A Active CN112464627B (zh) 2020-11-05 2020-11-05 一种面向共指关系的手动文本标注工具及方法

Country Status (1)

Country Link
CN (1) CN112464627B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9122674B1 (en) * 2006-12-15 2015-09-01 Language Weaver, Inc. Use of annotations in statistical machine translation
CN109165297A (zh) * 2018-08-10 2019-01-08 新华智云科技有限公司 一种通用实体链接装置及方法
CN110770694A (zh) * 2017-07-03 2020-02-07 谷歌有限责任公司 获得来自多个语料库的响应信息
CN110928995A (zh) * 2019-11-28 2020-03-27 中国建设银行股份有限公司 一种交互信息处理方法、装置、设备及存储介质
CN111159431A (zh) * 2019-12-30 2020-05-15 深圳Tcl新技术有限公司 基于知识图谱的信息可视化方法、装置、设备及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9122674B1 (en) * 2006-12-15 2015-09-01 Language Weaver, Inc. Use of annotations in statistical machine translation
CN110770694A (zh) * 2017-07-03 2020-02-07 谷歌有限责任公司 获得来自多个语料库的响应信息
CN109165297A (zh) * 2018-08-10 2019-01-08 新华智云科技有限公司 一种通用实体链接装置及方法
CN110928995A (zh) * 2019-11-28 2020-03-27 中国建设银行股份有限公司 一种交互信息处理方法、装置、设备及存储介质
CN111159431A (zh) * 2019-12-30 2020-05-15 深圳Tcl新技术有限公司 基于知识图谱的信息可视化方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN112464627B (zh) 2021-12-03

Similar Documents

Publication Publication Date Title
Soratto et al. Thematic content analysis using ATLAS. ti software: Potentialities for researchs in health
CN106874248B (zh) 基于人工智能的文章生成方法和装置
Kaefer et al. A software-assisted qualitative content analysis of news articles: Examples and reflections
US7636886B2 (en) System and method for grouping and organizing pages of an electronic document into pre-defined categories
AU2013201249B2 (en) Document processing and notating method and system
US20140310305A1 (en) Systems and methods for collaboratively annotating electronic documents
CN108710695B (zh) 基于电子书的思维导图生成方法及电子设备
US20170060826A1 (en) Automatic Sentence And Clause Level Topic Extraction And Text Summarization
WO2014169334A1 (en) Methods and systems for improved document comparison
AU2005225130A1 (en) Management and use of data in a computer-generated document
JPH07325827A (ja) ハイパーテキスト自動生成装置
CN109508448A (zh) 基于长篇文章生成短资讯方法、介质、装置和计算设备
US20110300520A1 (en) Systems and methods for assisting a user in organizing and writing a research paper
CN103530386A (zh) 浏览器网页的编辑方法及浏览器
CN112464627B (zh) 一种面向共指关系的手动文本标注工具及方法
US20090064027A1 (en) Execution and visualization method for a computer program of a virtual book
WO2021089129A1 (en) Analysis and comparison of character-coded digital data, in particular for job matching
US10452412B2 (en) Graphical user interface for non-hierarchical file system
CN110532391B (zh) 一种文本词性标注的方法及装置
CN109542299A (zh) 用于电子书的金句展示方法、电子设备及计算机存储介质
CN114328895A (zh) 新闻摘要的生成方法、装置以及计算机设备
Reidsma et al. Designing focused and efficient annotation tools
US20240111944A1 (en) System and Method for Annotation-Based Document Management
CN107632969B (zh) 用于管理信息系统的文档生成方法及装置
Amitay What lays in the layout

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant