CN114282495A

CN114282495A - 一种文本标注方法和装置

Info

Publication number: CN114282495A
Application number: CN202011039938.6A
Authority: CN
Inventors: 郝悦; 文茉莉; 王建军; 杨杨; 刘甲文; 董豪豪; 李艳学; 熊晨序; 贾俊蕊; 张佳佳; 刘香君; 李江宁
Original assignee: Jingdong Technology Information Technology Co Ltd
Current assignee: Jingdong Technology Information Technology Co Ltd
Priority date: 2020-09-28
Filing date: 2020-09-28
Publication date: 2022-04-05

Abstract

本发明公开了一种文本标注方法和装置，涉及计算机技术领域。该方法的一具体实施方式包括：响应于对目标文本中文本内容的选区操作，获取选区的焦点、锚点、焦点相对位置和锚点相对位置；分别处理焦点相对位置和锚点相对位置，根据得到的焦点绝对位置和锚点绝对位置，确定选区的绝对位置；将文本内容存储到页面标签内、以及将绝对位置添加至页面标签的属性中，将页面标签写入文本树结构中与选区对应的位置，以对文本内容进行打标展示。该实施方式提供一种可应用于带空格和回车换行的跨行/跨段落的文本标注工具，确定选区对于整个文本的绝对位置，便于后续NLP准确查找指定文本内容，提高训练准确性。

Description

一种文本标注方法和装置

技术领域

本发明涉及计算机技术领域，尤其涉及一种文本标注方法和装置。

背景技术

自然语言处理(Natural Language Processing，NLP)属于人工智能的一个子领域，指用计算机对自然语言的形、音、义等信息进行处理，即对字、词、句、篇、章的输入、输出、识别、分析、理解、生成等的操作和加工，对计算机和人类的交互方式有许多重要的影响。

因训练自然语言处理的模型需要大量的样本数据集，所以前期依赖人工标注产生高质量的训练数据集。随着人工智能自然语言处理的技术发展，对文本内容进行人工标注的需求日益增多。目前市面上分有两种标注模式：

1、文本标注客户端：客户端软件由C++或Python编译打包而来，大多需付费购买license(版权许可证)才可使用。付费版功能较为全面，支持文本嵌套标注、关系标注等，导出结果集的格式也较为全面，如json、xml、csv等。而免费版功能单一，仅支持文本单层标注等部分功能，且导出结果集的格式也较为单一，使用受限。

2、线上文本标注工具：大多数为JavaScript构建，无需本地安装，使用浏览器即可进行标注，与文本标注客户端相比，更为灵活。

在实现本发明的过程中，发明人发现现有技术至少存在如下问题：

1、因标签和标注文本的对应关系逻辑存在局限性，无法跨行或跨段落进行标注，导致结果不准确，增大了标注前后期的数据校正工作；

2、仅提取了标注的文字，而未提取文字相对于文章的位置，需在标注完成后再用程序将标注文字和原文本进行对比，得出相对位置；对于重复出现多次的标注文字，由于语境的不同将造成严重的错误，后期修复成本极高；

3、对文本中存在连续多个空格的识别率有误，无法正确识别文本长度和位置，导致训练时不能准确读取标注的文字，为解决该问题，需在标注前去空格和标注后空格填充校正位置，工作机械重复。不计算空格位置，导致整篇文本中标注的文本位置错误；

4、只能进行单层或两层标注，无法多层嵌套标注；且两层标注的样式也极易混乱，无法准确区分文本实体的层级关系。

发明内容

有鉴于此，本发明实施例提供一种文本标注方法和装置，至少能够解决现有技术中不易确定选区相对于文本绝对位置的现象。

为实现上述目的，根据本发明实施例的一个方面，提供了一种文本标注方法，包括：

响应于对目标文本中文本内容的选区操作，获取所述选区的焦点、锚点、焦点相对位置和锚点相对位置；

分别处理焦点相对位置和锚点相对位置，根据得到的焦点绝对位置和锚点绝对位置，确定所述选区的绝对位置；其中，绝对位置为相对于文本树结构中根节点的位置，文本树结构基于所述目标文本构建；

将所述文本内容存储到页面标签内、以及将绝对位置添加至所述页面标签的属性中，将所述页面标签写入所述文本树结构中与所述选区对应的位置，以对所述文本内容进行打标展示。

可选的，在所述响应于对目标文本中文本内容的选区操作之前，还包括：

响应于在浏览器中对所述目标文本的选择上传操作，在浏览器中显示所述目标文本中的文本内容；

通过正则匹配方式，将所述目标文本中的空格替换为第一字符、将回车换行替换为第二字符、将小于数学符号替换为第三字符以及将大于数学符号替换为第四字符。

可选的，所述获取所述选区的焦点、锚点、焦点相对位置和锚点相对位置，包括：

判断焦点父节点下是否存在位于所述选区之前的兄弟选区，若存在，则将焦点相对于兄弟选区的位置作为焦点相对位置，否则将焦点相对于焦点父节点的位置作为焦点相对位置；以及

判断锚点父节点下是否存在位于所述选区之前的兄弟选区，若存在，则将锚点相对于兄弟选区的位置作为锚点相对位置，否则将锚点相对于锚点父节点的位置作为锚点相对位置。

可选的，所述分别处理焦点相对位置和锚点相对位置，包括：

若焦点相对位置为焦点相对于兄弟选区的位置，则累加焦点相对位置与兄弟选区的绝对位置，得到焦点绝对位置；或

若焦点相对位置为焦点相对于焦点父节点的位置，则累加焦点相对位置与焦点父节点的绝对位置，得到焦点绝对位置；以及

若锚点相对位置为锚点相对于兄弟选区的位置，则累加锚点相对位置与兄弟选区的绝对位置，得到锚点绝对位置；或

若锚点相对位置为锚点相对于锚点父节点的位置，则累加锚点相对位置与锚点父节点的绝对位置，得到锚点绝对位置。

可选的，在所述分别处理焦点相对位置和锚点相对位置之前，还包括：

比对焦点父节点和锚点父节点是否相同，若相同，则确定所述选区中的文本内容处于同一父节点下；

遍历与父节点对应的对象数组，获取与焦点对应的焦点索引值和与锚点对应的锚点索引值；

若焦点索引值大于锚点索引值，则确定对所述选区的操作顺序为逆向，对调焦点和锚点的值以及焦点相对位置和锚点相对位置的值。

可选的，在所述分别处理焦点相对位置和锚点相对位置之前，还包括：比对焦点父节点和锚点父节点是否相同，若不同，则确定所述选区中的文本内容不处于同一父节点下；

在所述根据得到的焦点绝对位置和锚点绝对位置，确定所述选区的绝对位置之前，还包括：若焦点绝对位置小于锚点绝对位置，则对调焦点和锚点的值以及焦点绝对位置和锚点绝对位置的值。

可选的，所述对所述文本内容进行打标展示，还包括：

通过选择对象的内容克隆方法，生成与所述选区中文本内容对应的页面内容，判断所述文本内容是否与所述页面内容相同；

若不相同，则确定所述文本内容中部分已标记，确定已标注的文本内容所处的第一选区，判断所述选区和所述第一选区的重叠情况；

若所述选区包括所述第一选区，则将所述第一选区中的文本内容缩小至预定尺寸；或

若所述第一选区包括所述选区，则将所述选区中的文本内容缩小至预定尺寸；或

若所述第一选区和所述选区为部分重叠，则将所述选区中重叠的文本内容缩小至预定尺寸。

为实现上述目的，根据本发明实施例的另一方面，提供了一种文本标注装置，包括：

选区模块，用于响应于对目标文本中文本内容的选区操作，获取所述选区的焦点、锚点、焦点相对位置和锚点相对位置；

处理模块，用于分别处理焦点相对位置和锚点相对位置，根据得到的焦点绝对位置和锚点绝对位置，确定所述选区的绝对位置；其中，绝对位置为相对于文本树结构中根节点的位置，文本树结构基于所述目标文本构建；

标注模块，用于将所述文本内容存储到页面标签内、以及将绝对位置添加至所述页面标签的属性中，将所述页面标签写入所述文本树结构中与所述选区对应的位置，以对所述文本内容进行打标展示。

可选的，还包括预处理模块，用于：

可选的，所述选区模块，用于：

可选的，所述处理模块，用于：

可选的，还包括第一对调模块，用于：

可选的，还包括第二对调模块，用于：

比对焦点父节点和锚点父节点是否相同，若不同，则确定所述选区中的文本内容不处于同一父节点下；以及

若焦点绝对位置小于锚点绝对位置，则对调焦点和锚点的值以及焦点绝对位置和锚点绝对位置的值。

可选的，所述标注模块，还用于：

通过选择对象的内容克隆装置，生成与所述选区中文本内容对应的页面内容，判断所述文本内容是否与所述页面内容相同；

为实现上述目的，根据本发明实施例的再一方面，提供了一种文本标注电子设备。

本发明实施例的电子设备包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现上述任一所述的文本标注方法。

为实现上述目的，根据本发明实施例的再一方面，提供了一种计算机可读介质，其上存储有计算机程序，所述程序被处理器执行时实现上述任一所述的文本标注方法。

根据本发明所述提供的方案，上述发明中的一个实施例具有如下优点或有益效果：提供一种文本标注工具，通过换符号预处理，可应用于带空格和回车换行的跨行/跨段落文本标注；确定选区相对于整个文本的绝对位置，便于后续NLP快速并准确查找指定文本内容，避免歧义，以此提高NLP训练的准确性。

上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。

附图说明

附图用于更好地理解本发明，不构成对本发明的不当限定。其中：

图1是根据本发明实施例的一种文本标注方法的主要流程示意图；

图2(a)为确定焦点相对位置的流程示意图；

图2(b)为确定锚点相对位置的流程示意图；

图3为计算选区的焦点绝对位置和锚点绝对位置的示意图；

图4是根据本发明实施例的一种可选的文本标注方法的流程示意图；

图5是根据本发明实施例的另一种可选的文本标注方法的流程示意图；

图6是根据本发明实施例的又一种可选的文本标注方法的流程示意图；

图7示出了一种选区包括第一选区的示意图；

图8示出了一种第一选区包括选区的示意图；

图9是根据本发明实施例的一种文本标注装置的主要模块示意图；

图10是本发明实施例可以应用于其中的示例性系统架构图；

图11是适于用来实现本发明实施例的移动设备或服务器的计算机系统的结构示意图。

具体实施方式

以下结合附图对本发明的示范性实施例做出说明，其中包括本发明实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本发明的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

本方案适用于各类语言的文本标注。以中文文本为例，从形式上看是由汉字(包括标点符号等)组成的一个字符串，由字组成词，由词构成词组，由词组生成句子，进而由句子组成段、节、章、篇。无论在上述各种层次字(符)、词、词组、句子、段等，还是在下一层次向上一层次的转变中都存在着歧义和多义现象，即形式一样的一段字符串在不同的场景或不同的语境下，可以理解为不同的词串、词组串，存有不同的意义。

一般情况下，大多数字符串都可以根据相应的语境和场景的规定而得到解决的，因而用户平时感觉不到自然语言歧义，能用自然语言进行正确交流。但是一方面，为了消解歧义，是需要大量的知识进行推理的。如何将这些知识较完整地加以收集和整理出来，又如何找到合适的形式将其存入计算机系统中去，以及如何有效利用知识消除歧义，都是工作量极大且十分困难的工作，这不是少数人短时期内可以完成的。

需要说明的是，本方案虽应用于文本标注场景，但主要目的是确定选区相对于目标文本根节点的绝对位置，以通过该绝对位置为后续NLP训练提供位置参数，便于直接根据该位置拾取相应文本内容。且考虑同一文本内容在不同语句中的不同含义，通过绝对位置的确定，还可以消除歧义。

对于本方案涉及的名次，做解释如下：

Window对象：浏览器JavaScript根对象。

anchorNode(aNode)对象：返回选区开始位置所属的节点。

focusNode(fNode)对象：返回选区结束位置所属的节点。

anchorOffset(aOffset)属性：返回选区焦点偏移量的数字。

focusOffset(fOffset)属性：返回选区锚点偏移量的数字。

document.designMode：控制整个文档是否可编辑，值为“on”和“off”。

document.execCommand：在文档处于可编辑模式时，允许运行命令来操纵可编辑内容区域的元素。

参见图1，示出的是本发明实施例提供的一种文本标注方法的主要流程图，包括如下步骤：

S101：响应于对目标文本中文本内容的选区操作，获取所述选区的焦点、锚点、焦点相对位置和锚点相对位置；

S102：分别处理焦点相对位置和锚点相对位置，根据得到的焦点绝对位置和锚点绝对位置，确定所述选区的绝对位置；其中，绝对位置为相对于文本树结构中根节点的位置，文本树结构基于所述目标文本构建；

S103：将所述文本内容存储到页面标签内、以及将绝对位置添加至所述页面标签的属性中，将所述页面标签写入所述文本树结构中与所述选区对应的位置，以对所述文本内容进行打标展示。

上述实施方式中，对于步骤S101，本方案整体实施流程基于浏览器运行。业务人员设置用于文本标注的用户图形界面，界面中包含上传文本的按钮/选项，点击该按钮/选项，即可将选择的目标文本上传至浏览器中，最终在浏览器打开并显示该目标文本中的文本内容。

目标文本可能包含影响后续识别文本长度和位置的空格、回车换行等因素。摒弃现有标注前去空格和标注后空格填充校正位置的思路，本方案通过正则匹配方式对空格、回车换行进行字符替换。替换完成后，仍可正常获取空格回车换行等符号，并且占位长度为1，不会对原文本的长度造成影响，也能够正常识别多个空格：

1)将空格替换为html第一字符“&#160；”；

2)将回车换行替换为第二字符“&#10；&#13；”，可应用于跨段落文本标注，该字符还保证了文本展示时的回车分段效果。

另外，操作过程中发现“<”、“>”数学符号会与后续标注结果冲突，如后续示例2中的“>实际</span>不符”，此处的>及<仅表示一种结果集，因此，本方案同样对数学符号“<”、“>”进行替换处理：

1)将“<”替换为第三字符“&#60；”；

2)将“>”替换为第四字符“&#62；”。

选区由用户拖拽鼠标经过文字而产生，一个文本同一时间只能有一个选区。通过浏览器的window.getSelection()方法，获取选区中的Selection对象：

Selection对象主要包括以下四个：

1)焦点Selection.anchorNode：当用户使用鼠标框选一个区域时，焦点即为鼠标按下瞬间所记录的起点，后续拖动鼠标时，焦点不变。

2)锚点Selection.focusNode：当用户使用鼠标框选一个区域时，锚点即为鼠标松开瞬间所记录的终点，且随着用户拖动鼠标，锚点的位置随之改变。

3)焦点相对位置Selection.anchorOffset，为焦点相对父节点或同级靠前兄弟选区的位置，参见图2(a)所示；

4)锚点相对位置Selection.focusOffset，为锚点相对父节点或同级靠前兄弟选区的位置，参见图2(b)所示。

对于步骤S102，最终记录的是选区相对于文本树结构中根节点的绝对位置，包括焦点绝对位置和锚点绝对位置，而上述计算得到的是焦点相对位置和锚点相对位置，因此还需进一步处理。参见图3所示：

1)对于焦点绝对位置

判断焦点绝对位置anchorOffset是否为相对于焦点父节点的位置：

①若否，则表示存在同级靠前元素anchorNode.previousSibling，获取anchorNode.previousSibling属性中的绝对定位结束位置(即相对根节点的绝对位置)，与anchorOffset相加得到用户选区的绝对起始位置；

②若是，获取anchorNode父节点属性中的绝对定位起始位置，与anchorOffset相加得到用户选区的绝对起始位置。

需要说明的是，每个选区在标注时均会得到其相对于根节点的绝对位置，且兄弟选区为已标注的选区，因此兄弟选区的绝对位置此处可以直接获得。

2)对于锚点绝对位置

判断锚点绝对位置focusOffset是否为相对于锚点父节点的位置：

①若否，则表示存在同级靠前元素focusNode.previousSibling，获取focusNode.previousSibling属性中的绝对定位结束位置(即相对根节点的绝对位置)，与focusOffset相加得到用户选区的绝对起始位置；

②若是，获取focusNode父节点的属性中的绝对定位起始位置，与focusOffset相加得到用户选区的绝对结束位置。

3)基于焦点绝对位置和锚点绝对位置，得到选区相对于根节点的绝对位置。

对于步骤S103，通过上述步骤获取到选区的绝对位置后，将选区中的文本内容拼接到span标签(html语言的一种标签元素)内，并将绝对位置写入span标签的属性里。

启用浏览器的编辑模式document.designMode＝“on”，将该span标签通过浏览器的插入方式document.execCommand写入文本树结构中与该选区对应的位置，并删除该位置处的原文本内容，之后关闭编辑模式document.designMode＝“off”。使用document.execCommand方法，可以有效避免跨行标注时，产生的错位问题，性能较好。

对选区内的文本内容进行打标采用的是本领域技术人员惯用的技术手段，如标注颜色、标注释义等，在此不再赘述。

上述实施例所提供的方法，提供一种文本标注工具，通过换符号预处理，可应用于带空格和回车换行的跨行/跨段落文本标注；确定选区相对于整个文本的绝对位置，便于后续NLP快速并准确查找指定文本内容，避免歧义，以此提高NLP训练的准确性。

参见图4，示出了根据本发明实施例的一种可选的文本标注方法流程示意图，包括如下步骤：

S401：响应于对目标文本中文本内容的选区操作，获取所述选区的焦点、锚点、焦点相对位置和锚点相对位置；

S402：比对焦点父节点和锚点父节点是否相同，若相同，则确定所述选区中的文本内容处于同一父节点下；

S403：遍历与父节点对应的对象数组，获取与焦点对应的焦点索引值和与锚点对应的锚点索引值；

S404：若焦点索引值大于锚点索引值，则确定对所述选区的操作顺序为逆向，对调焦点和锚点的值以及焦点相对位置和锚点相对位置的值；

S405：分别处理焦点相对位置和锚点相对位置，根据得到的焦点绝对位置和锚点绝对位置，确定所述选区的绝对位置；其中，绝对位置为相对于文本树结构中根节点的位置，文本树结构基于所述目标文本构建；

S406：将所述文本内容存储到页面标签内、以及将绝对位置添加至所述页面标签的属性中，将所述页面标签写入所述文本树结构中与所述选区对应的位置，以对所述文本内容进行打标展示。

上述实施方式中，对于步骤S401、S405和S406可参见图1所示步骤S101～S103的描述，在此不再赘述。

对于步骤S402～S404，在获取Selection对象后，可以确定焦点父节点anchorNode.parentElement和锚点父节点focusNode.parentElement。通过比对两者是否相同，以判断用户选择的文本内容是否处于同一个父节点下，此处讨论处于同一父节点下的情况。

父节点设有一个存放子节点的对象数组parentElement.childNodes。通过遍历该parentElement.childNodes，获取对应于焦点anchorNode的索引值anchorIndex和对应于锚点focusNode的索引值focusIndex。实际操作中，可以是对应于焦点文本节点anchorNode.textContent的索引值anchorIndex、和对应于锚点文本节点focusNode.textContent的索引值focusIndex。

比对两个索引值anchorIndex和focusIndex的大小，即可决定选择顺序。若anchorIndex小于focusIndex，则为从左向右选取(正向操作)，不作处理；但若anchorIndex大于focusIndex，则为从右向左选取(逆向操作)，需将anchorNode和focusNode的值、anchorOffset和focusOffset的值进行对调，统一为从左向右。

上述实施例所提供的方法，对于同一父节点的选区情况，会在得到焦点相对位置和锚点相对位置之后、计算焦点绝对位置和锚点绝对位置之前，事先判断焦点和锚点位置是否需要对调，以此保证选区绝对位置的正向。

参见图5，示出了根据本发明实施例的另一种可选的文本标注方法流程示意图，包括如下步骤：

S501：响应于对目标文本中文本内容的选区操作，获取所述选区的焦点、锚点、焦点相对位置和锚点相对位置；

S502：比对焦点父节点和锚点父节点是否相同，若不同，则确定所述选区中的文本内容不处于同一父节点下；

S503：分别处理焦点相对位置和锚点相对位置，得到焦点绝对位置和锚点绝对位置；其中，绝对位置为相对于文本树结构中根节点的位置，文本树结构基于所述目标文本构建；

S504：若焦点绝对位置小于锚点绝对位置，则对调焦点和锚点的值以及焦点绝对位置和锚点绝对位置的值，得到所述选区的绝对位置；

S505：将所述文本内容存储到页面标签内、以及将绝对位置添加至所述页面标签的属性中，将所述页面标签写入所述文本树结构中与所述选区对应的位置，以对所述文本内容进行打标展示。

上述实施方式中，对于步骤S501和S505可参见图1所示步骤S101和S103的描述，在此不再赘述。

对于步骤S502～S504，在获取Selection对象后，可以确定焦点父节点anchorNode.parentElement和锚点父节点focusNode.parentElement。通过比对两者是否相同，以判断用户选择的文本内容是否处于同一个父节点下，此处讨论不处于同一父节点下的情况。

1)若anchorNode存在同级靠前元素anchorNode.previousSibling，则以anchorNode.previousSibling属性中的绝对定位结束位置作为参考点；如不存在，则以anchorNode父节点属性中的绝对定位起始位置作为参考点。将参考点与anchorOffset相加得到用户选区的焦点绝对位置。

2)若focusNode存在同级靠前元素focusNode.previousSibling，则以focusNode.previousSibling属性中的绝对定位结束位置作为参考点；如不存在，则以focusNode父节点属性中的绝对定位起始位置作为参考点。将参考点与focusOffset相加得到用户选区的锚点绝对位置。

3)如焦点绝对位置大于锚点绝对位置，则将anchorNode和focusNode、焦点绝对位置和锚点绝对位置的值对调。

上述实施例所提供的方法，文章在一定区域内展示时，因展示宽度受限，会自然分行，每一行作为一个自然行。对于跨行/跨段落选区情况，会在得到焦点绝对位置和锚点绝对位置之后，再判断焦点和锚点位置是否需要对调，以此保证选区绝对位置的正向。

参见图6，示出了根据本发明实施例的又一种可选的文本标注方法流程示意图，包括如下步骤：

S601：响应于对目标文本中文本内容的选区操作，获取所述选区的焦点、锚点、焦点相对位置和锚点相对位置；

S602：分别处理焦点相对位置和锚点相对位置，根据得到的焦点绝对位置和锚点绝对位置，确定所述选区的绝对位置；其中，绝对位置为相对于文本树结构中根节点的位置，文本树结构基于所述目标文本构建；

S603：将所述文本内容存储到页面标签内、以及将绝对位置添加至所述页面标签的属性中，将所述页面标签写入所述文本树结构中与所述选区对应的位置；

S604：通过选择对象的内容克隆方法，生成与所述选区中文本内容对应的页面内容，判断所述文本内容是否与所述页面内容相同；

S605：若不相同，则确定所述文本内容中部分已标记，确定已标注的文本内容所处的第一选区，判断所述选区和所述第一选区的重叠情况；

S606：若所述选区包括所述第一选区，则将所述第一选区中的文本内容缩小至预定尺寸；

S607：若所述第一选区包括所述选区，则将所述选区中的文本内容缩小至预定尺寸；

S608：若所述第一选区和所述选区为部分重叠，则将所述选区中重叠的文本内容缩小至预定尺寸。

上述实施方式中，对于步骤S601～S603可参见图1所示步骤S101～S103的描述，在此不再赘述。

对于步骤S604～S605，特殊情况：如用户选取内容中包含之前已经标注过的内容，则为嵌套标注，需要进行特殊处理。

网页的构成是一个属性结构，从根节点开始，向下递归生成子节点，所以选区的位置是依据其兄弟节点或父节点来定位的。由于兄弟节点的位置相对父节点位置更为贴近，所以针对选区首先需判断是否存有已标注的兄弟选区；

1)通过Selection对象的内容克隆方法(Selection.cloneContents)，生成与选区中文本内容对应的html内容；

2)如文本内容和html内容相同，则确定选区中的文本内容为纯文本内容(如示例1)，其所包含的文本内容并未标注过，为非嵌套选择，执行正常标注逻辑；

示例1：

text:三级子公司

html:三级子公司

3)如文本内容和html内容不同，则确定用户选择的文本内容中包含带有已标记内容(如示例2)，为特殊情况嵌套选择；

示例2：

text:与现场实际不符

html:与现场<span id＝"a-4"class*_"tag tagl"data-name＝"{客体}"data-position＝"194-196"data-lvl＝"l"style＝"background-color:rgb(255,0,0)；">实际</span>不符

对于步骤S606～S608，解析html内容，获取html内容中的子节点对象数组html.children，将html.children中的对象标记为新标注节点的子节点，并将其对应的span标签进行样式的调整。

具体地：

1)若本地选区包含了已标注的上一选区(即第一选区)，则表示第一选区为本次选区的子节点，为展示层级嵌套效果，将第一选区内的文本内容缩小至一定尺寸，参见图7所示。

2)若第一选区包含了本次选区内的文本内容，则表示本次选区为第一选区的子节点，将本次选区中的文本内容缩小至一定尺寸，参见图8所示。

3)若两个选区中仅有部分内容重叠，则仅可以将这部分文本内容进行缩小显示。但实际操作中，该种情况虽可以通过代码实现，但最终展示效果不理想(如混乱情况)，所以主要考虑前两种情况。

上述实施例所提供的方法，通过对重叠文本内容进行缩小处理，实现准确区分文本选区的层级关系，解决现有无法进行多层嵌套标注的问题，实现工具的灵活操作，为数据标注提供了更多的选择。

本方案所提供的文本标注工具，相比现有技术，至少存有如下有益效果：

1)将空格、回车换行进行字符转换，实现跨行、跨段落文本标注，，不局限于文本的自然段落；将可能影响后续标注结果的数学符号同样进行字符转换，提高了标注结果的准确性，降低了后续校准工作量；

2)能够准确的识别空格以及连续空格的数量，保证文本位置的准确性；计算选区的绝对位置，消除了一词多义问题，降低修复成本；为NLP模型训练提供了位置参数，便于后续训练过程中的准确查找；

3)针对选区中的文本内容是否处于同一父节点下，采用不同方式判断是否对调焦点位置信息和锚点位置信息，提供实施多样性。

参见图9，示出了本发明实施例提供的一种文本标注装置900的主要模块示意图，包括：

选区模块901，用于响应于对目标文本中文本内容的选区操作，获取所述选区的焦点、锚点、焦点相对位置和锚点相对位置；

处理模块902，用于分别处理焦点相对位置和锚点相对位置，根据得到的焦点绝对位置和锚点绝对位置，确定所述选区的绝对位置；其中，绝对位置为相对于文本树结构中根节点的位置，文本树结构基于所述目标文本构建；

标注模块903，用于将所述文本内容存储到页面标签内、以及将绝对位置添加至所述页面标签的属性中，将所述页面标签写入所述文本树结构中与所述选区对应的位置，以对所述文本内容进行打标展示。

本发明实施装置还包括预处理模块904(图中未标出)，用于：

本发明实施装置中，所述选区模块901，用于：

本发明实施装置中，所述处理模块902，用于：

本发明实施装置还包括第一对调模块905(图中未标出)，用于：

本发明实施装置还包括第二对调模块906(图中未标出)，用于：

本发明实施装置中，所述标注模块903，还用于：

另外，在本发明实施例中所述装置的具体实施内容，在上面所述方法中已经详细说明了，故在此重复内容不再说明。

图10示出了可以应用本发明实施例的示例性系统架构1000。

如图10所示，系统架构1000可以包括终端设备1001、1002、1003，网络1004和服务器1005(仅仅是示例)。网络1004用以在终端设备1001、1002、1003和服务器1005之间提供通信链路的介质。网络1004可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备1001、1002、1003通过网络1004与服务器1005交互，以接收或发送消息等。终端设备1001、1002、1003上可以安装有各种通讯客户端应用。

终端设备1001、1002、1003可以是具有显示屏并且支持网页浏览的各种电子设备，服务器1005可以是提供各种服务的服务器。

需要说明的是，本发明实施例所提供的方法一般由服务器1005执行，相应地，装置一般设置于服务器1005中。

应该理解，图10中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

下面参考图11，其示出了适于用来实现本发明实施例的终端设备的计算机系统1100的结构示意图。图11示出的终端设备仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图11所示，计算机系统1100包括中央处理单元(CPU)1101，其可以根据存储在只读存储器(ROM)1102中的程序或者从存储部分1108加载到随机访问存储器(RAM)1103中的程序而执行各种适当的动作和处理。在RAM 1103中，还存储有系统1100操作所需的各种程序和数据。CPU 1101、ROM 1102以及RAM 1103通过总线1104彼此相连。输入/输出(I/O)接口1105也连接至总线1104。

以下部件连接至I/O接口1105：包括键盘、鼠标等的输入部分1106；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分1107；包括硬盘等的存储部分1108；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分1109。通信部分1109经由诸如因特网的网络执行通信处理。驱动器1110也根据需要连接至I/O接口1105。可拆卸介质1111，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器1110上，以便于从其上读出的计算机程序根据需要被安装入存储部分1108。

特别地，根据本发明公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本发明公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分1109从网络上被下载和安装，和/或从可拆卸介质1111被安装。在该计算机程序被中央处理单元(CPU)1101执行时，执行本发明的系统中限定的上述功能。

需要说明的是，本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本发明实施例中所涉及到的模块可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中，例如，可以描述为：一种处理器包括选区模块、处理模块、标注模块。其中，这些模块的名称在某种情况下并不构成对该模块本身的限定，例如，选区模块还可以被描述为“文本选区模块”。

作为另一方面，本发明还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的设备中所包含的；也可以是单独存在，而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该设备执行时，使得该设备包括：

上述具体实施方式，并不构成对本发明保护范围的限制。本领域技术人员应该明白的是，取决于设计要求和其他因素，可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明保护范围之内。

Claims

1.一种文本标注方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，在所述响应于对目标文本中文本内容的选区操作之前，还包括：

3.根据权利要求1所述的方法，其特征在于，所述获取所述选区的焦点、锚点、焦点相对位置和锚点相对位置，包括：

4.根据权利要求3所述的方法，其特征在于，所述分别处理焦点相对位置和锚点相对位置，包括：

5.根据权利要求4所述的方法，其特征在于，在所述分别处理焦点相对位置和锚点相对位置之前，还包括：

6.根据权利要求4所述的方法，其特征在于，在所述分别处理焦点相对位置和锚点相对位置之前，还包括：比对焦点父节点和锚点父节点是否相同，若不同，则确定所述选区中的文本内容不处于同一父节点下；

7.根据权利要求1所述的方法，其特征在于，所述对所述文本内容进行打标展示，还包括：

8.一种文本标注装置，其特征在于，包括：

9.一种电子设备，其特征在于，包括：

一个或多个处理器；存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-7中任一所述的方法。

10.一种计算机可读介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1-7中任一所述的方法。