CN117454046A

CN117454046A - 基于机器学习平台的文本标注方法及相关设备

Info

Publication number: CN117454046A
Application number: CN202311465027.3A
Authority: CN
Inventors: 丁银超; 李明
Original assignee: Beijing Zetyun Tech Co ltd
Current assignee: Beijing Zetyun Tech Co ltd
Priority date: 2023-11-06
Filing date: 2023-11-06
Publication date: 2024-01-26

Abstract

本申请提供了一种基于机器学习平台的文本标注方法及相关设备，该方法包括：获取网页web端基于目标查询词进行检索得到的M个目标文本，目标文本为文档对象模型dom文本，dom文本为树形结构数据组成，N为大于0的整数，所述M为大于0的整数；根据M个目标文本生成参数信息，参数信息包括用于构建canvas画布的多个参数；根据参数信息生成N个canvas画布；根据所述N个canvas画布，对所述目标查询词所对应的M个目标文本进行覆盖标注。本申请根据在web端对目标查询词进行检索获得的M个目标文本，生成用于构建canvas画布的参数信息，从而生成N个canvas画布，并使用N个canvas画布覆盖目标查询词，实现了用了canvas画布替代原有的操作dom的方法，提高了检索结果的标注效率。

Description

基于机器学习平台的文本标注方法及相关设备

技术领域

本申请涉及计算机技术领域，尤其涉及一种基于机器学习平台的文本标注方法及相关设备。

背景技术

随着机器学习为主的人工智能技术的发展迅速，文本标注也在人工智能领域越来越重要。文本标注是对文本进行特征标记的一个过程，为文本打上具体的语义、构成、目的、语境和情感等原数据标签，通过标注好的训练数据，从而可以教会机器如何来识别文本中所包含的意图或者情感，可以使机器能够更好的理解自然语言。目前，现有对于检索结果的文本标注技术都是在原有的文本dom中进行操作，在需要修改时需要遍历计算所有dom，从而出现了对于检索结果标注效率较低的问题。

发明内容

本申请实施例提供了一种基于机器学习平台的文本标注方法及相关设备，解决了现有技术中对于检索结果标注效率较低的问题。

为解决上述问题，本申请是这样实现的：

第一方面，本申请实施例提供了一种基于机器学习平台的文本标注方法，所述方法包括：

获取网页web端基于目标查询词进行检索得到的M个目标文本，所述目标文本为文档对象模型dom文本，所述dom文本为树形结构数据组成，所述N为大于0的整数，所述M为大于0的整数；

根据所述M个目标文本生成参数信息，所述参数信息包括用于构建canvas画布的多个参数；

根据所述参数信息生成N个canvas画布；

根据所述N个canvas画布，对所述目标查询词所对应的所述M个目标文本进行覆盖标注。

可选的，所述根据所述参数信息生成N个canvas画布，包括：

基于所述M个目标文本确定N个填充色彩参数，所述M个目标文本中不同目标文本所对应的填充色彩参数不同；

根据所述参数信息和所述N个填充色彩参数，生成所述N个canvas画布。

可选的，所述根据所述参数信息和所述N个填充色彩参数，生成所述N个canvas画布，包括：

根据所述参数信息和所述N个填充色彩参数分别确定N个canvas画布中每个canvas画布的位置信息和形态信息；

基于每个所述canvas画布的所述位置信息和所述形态信息生成所述N个canvas画布。

可选的，所述基于每个所述canvas画布的所述位置信息和所述形态信息生成所述N个canvas画布，包括：

根据所述每个所述canvas画布所对应的所述位置信息，确定每个所述canvas画布在所述web端的坐标信息；

根据所述每个所述canvas画布所对应的所述形态信息，确定每个所述canvas画布的宽度和高度；

基于每个所述canvas画布的所述坐标信息、所述宽度和所述高度生成所述N个canvas画布。

可选的，所述基于每个所述canvas画布的所述坐标信息、所述宽度和所述高度生成所述N个canvas画布之前，所述方法还包括：

根据所述每个所述canvas画布所对应的所述形态信息，确定每个所述canvas画布的占用行数信息，所述占用行数信息用于表示每个所述canvas画布在所述web端中所占用的行数；

所述基于每个所述canvas画布的所述坐标信息、所述宽度和所述高度生成所述N个canvas画布，包括：

基于每个所述canvas画布的所述坐标信息、所述宽度、所述高度和所述占用行数信息生成所述N个canvas画布。

可选的，所述获取web端基于目标查询词进行检索得到的M个目标文本，包括：

获取web端输入的目标查询词；

基于所述目标查询词在所述web端进行遍历查找，得到所述M个目标文本。

可选的，所述N个canvas画布均为半透明画布。

第二方面，本申请实施例还提供了一种基于机器学习平台的文本标注装置，所述装置包括：

获取模块，用于获取网页web端基于目标查询词进行检索得到的M个目标文本，所述目标文本为文档对象模型dom文本，所述dom文本为树形结构数据组成，所述N为大于0的整数，所述M为大于0的整数；

第一生成模块，用于根据所述M个目标文本生成参数信息，所述参数信息包括用于构建canvas画布的多个参数；

第二生成模块，用于根据所述参数信息生成N个canvas画布；

标注模块，用于根据所述N个canvas画布，对所述目标查询词所对应的所述M个目标文本进行覆盖标注。

第三方面，本申请实施例还提供一种电子设备，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的程序；所述处理器，用于读取存储器中的程序实现如前述第一方面所述方法中的步骤。

第四方面，本申请实施例还提供一种可读存储介质，用于存储程序，所述程序被处理器执行时实现如前述第一方面所述方法中的步骤。

本申请提供了一种基于机器学习平台的文本标注方法及相关设备，该方法包括：获取网页web端基于目标查询词进行检索得到的M个目标文本，所述目标文本为文档对象模型dom文本，所述dom文本为树形结构数据组成，所述N为大于0的整数，所述M为大于0的整数；根据所述M个目标文本生成参数信息，所述参数信息包括用于构建canvas画布的多个参数；根据所述参数信息生成N个canvas画布；根据所述N个canvas画布，对所述目标查询词所对应的所述M个目标文本进行覆盖标注。本申请根据在web端对目标查询词进行检索获得的M个目标文本，生成用于构建canvas画布的参数信息，从而生成N个canvas画布，并使用N个canvas画布覆盖目标查询词，实现了用了canvas画布替代原有的操作dom的方法，提高了检索结果的标注效率。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的基于机器学习平台的文本标注方法的流程示意图；

图2是本申请实施例中canvas画布的覆盖示意图；

图3是本申请实施例提供的基于机器学习平台的文本标注装置的结构示意图；

图4是本申请实施例提供的电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。此外，本申请中使用“和/或”表示所连接对象的至少其中之一，例如A和/或B和/或C，表示包含单独A，单独B，单独C，以及A和B都存在，B和C都存在，A和C都存在，以及A、B和C都存在的7种情况。

参见图1，图1是本申请实施例提供的基于机器学习平台的文本标注方法的流程示意图。

步骤101、获取网页web端基于目标查询词进行检索得到的M个目标文本，所述目标文本为文档对象模型dom文本，所述dom文本为树形结构数据组成，所述N为大于0的整数，所述M为大于0的整数。

在本申请实施例中，本申请所提供的方法应用于机器学习平台；或者本申请进行覆盖标注后的M个目标文本可应用于机器学习平台，用于对机器学习模型、深度学习模型进行训练等，本申请实施例对此不做限定。本申请的方法一般在网页web端进行执行，在本申请中均以web端为进行说明。其中，目标文本为dom文本，dom文本是一种描述性的标记语言，用于在web浏览器中表示超文本标记语言(Hyper Text Markup Language，HTML)文档或可扩展标记语言(Extensible Markup Language,XML)文档的内容和结构。它允许开发人员定义web内容的结构和外观，并将其与其他文档内容组合起来。由此，如果在web端对dom文件直接进行修改的话，需要遍历web端去操作dom，从而增加了计算机内存消耗。

在一种实施方式中，所述获取web端基于目标查询词进行检索得到的M个目标文本，包括：

获取web端输入的目标查询词；

需要进行说明的是，目标查询词为用户需要进行检索的词，而目标文本为包含目标查询词的相关文本，即检索结果。示例性的，例如用户在某个网站中输入的目标查询词为“计算机”，目标文本为“计算机是20世纪最先进的科学技术发明之一，对人类的生产活动和社会活动产生了极其重要的影响，并以强大的生命力飞速发展”和“计算机发明者约翰·冯·诺依曼”。其中，目标为本的数量为大于0的整数，最小为1，其具体数值在本实施例中不做具体限定。通过获取web端输入的目标查询词，在web端中实行遍历查找，从而得到多个M个目标文本。

步骤102、根据所述M个目标文本生成参数信息，所述参数信息包括用于构建canvas画布的多个参数。

在本实施例中，根据获得的M个目标文本生成构建canvas画布的参数信息，其中，Canvas画布是一个HTML5技术，它可以在Web浏览器中渲染2D图形。它使用JavaScript来进行绘制，可以灵活地创建复杂的图像，如照片，游戏等。具体地，构建Canvas画布时需要确定多个参数来形成一定形态、颜色的Canvas画布。

步骤103、根据所述参数信息生成N个canvas画布。

在本实施例中，通过Canvas画布来对M个目标文本中的目标查询词进行覆盖，具体地，生成与M个目标文本数量相同或者不同的N个canvas画布，示例性的，例如当目标文本数量为5个的情况时，canvas画布的数量可以为1个也可以为5个，或者其他数量，在本实施例中不做具体限定。另外需要进行说明的是，每个canvas画布可以相同也可以不相同，示例性的，每个N个canvas画布的填充颜色也可以不相同，从而可以更好地区分M个目标文本。在一些实施例中，M的数值大于或等于N，N取值例如为1。

步骤104、根据所述N个canvas画布，对所述目标查询词所对应的所述M个目标文本进行覆盖标注。

在本实施例中，可参见图2，图2为本申请中canvas画布的覆盖示意图，具体地，所述N个canvas画布均为半透明画布。其中，“林在培”为目标查询词，而“《娘家的故事第二部》是张玲指导，林在培、何赛飞等主演的电视剧”为目标文本，通过canvas画布对“林在培”进行覆盖，且canvas画布为半透明画布，可通过该画布观看画布后面的dom文本“林在培”。本申请通过半透明的canvas画布覆盖dom文本，而并非对dom文本“林在培”进行标注修改，大大的降低的了内存消耗，更高效的完成了检索结果的渲染。在需要进行修改或者进行重新检索的情况下，只需要对canvas画布进行维护，更加节省操作流程。

另外需要进行说明的是，本申请的方法可以通过编程进行实现，具体地，通过预设设置编程代码，将需要生成的canvas画布所对应的参数信息输入到编程代码中，即可自动输出生成canvas画布，从而完成为目标搜索词的覆盖。

本申请提供了一种基于机器学习平台的文本标注方法，该方法包括：获取网页web端基于目标查询词进行检索得到的M个目标文本，所述目标文本为文档对象模型dom文本，所述dom文本为树形结构数据组成，所述N为大于0的整数，所述M为大于0的整数；根据所述M个目标文本生成参数信息，所述参数信息包括用于构建canvas画布的多个参数；根据所述参数信息生成N个canvas画布；根据所述N个canvas画布，对所述目标查询词所对应的所述M个目标文本进行覆盖标注。本申请根据在web端对目标查询词进行检索获得的M个目标文本，生成用于构建canvas画布的参数信息，从而生成N个canvas画布，并使用N个canvas画布覆盖目标查询词，实现了用了canvas画布替代原有的操作dom的方法，提高了检索结果的标注效率。

在一些可行的实施方式中，可选的，所述根据所述参数信息生成N个canvas画布，包括：

在本实施例中，填充色彩参数为canvas画布的填充颜色，需要进行说明的是，该填充颜色并不会对dom文本进行遮挡，为半透明状态。在本实施例中，每个目标文本所对应的填充色彩参数可以不同，例如，检索结果为三个的情况下，通过三种不同的颜色对三个目标文本进行区分，如红色、黄色、蓝色，具体每个颜色分配到哪个目标文本可以根据实际情况进行适应性调整，在本实施例中不作具体限定。通过不同填充颜色的canvas画布可以更好地便于用户获取检索结果在web端中的位置和相关信息，从而快速区别每个检索结果所在的位置和相关的文本内容。

需要进行说明的是，在其他可行的实施例中，M个目标文本对应的填充色彩参数也可以为同一个，这样的好处是可以减少计算进程，可以更快的获得渲染后的检索结果。

在本实施例中，位置信息和形态信息对于canvas画布而言为必要特征，一般地，canvas画布为等宽等高的画布，由此，可以通过形态信息对canvas画布的宽和高进行限定。而位置信息决定了canvas画布的覆盖位置，具体地，每个目标文本中的目标查询词均需要被canvas画布进行覆盖，因此，每个目标文本中的目标查询词的位置信息即为canvas画布的位置信息。

通过确定每个canvas画布的位置信息和形态信息，可以准确地生成每个canvas画布，每个canvas画布的位置信息不同，而每个canvas画布的形态信息可以相同也可以不相同，具体地可以根据实际情况进行设置，在本实施例中不做具体的限定。

在本实施例中，位置信息包括每个canvas画布在web端中的坐标信息，其中，坐标信息决定了canvas画布的覆盖的起始位置和结束位置，例如“start:1,end:3”，表示canvas画布的起始位置在第1个字符，结束在第3个字符，从而该canvas画布的覆盖坐标跨越了3个坐标。

另外，每个canvas画布所对应的所述形态信息包括了每个所述canvas画布的宽度和高度，其中宽度为在web端水平方向上的覆盖距离，高度为在web端垂直方向上的覆盖距离。例如“width:100,height:20”，表示canvas画布的宽度为100个字符，高度为20个字符。

通过每个canvas画布的坐标信息、宽度和高度综合构建生成N个canvas画布。

在本实施例中，形态信息中还包括了每个所述canvas画布的占用行数信息，具体地，即该canvas画布是否在web端中实现了跨行。示例性的，占用行数信息为“lines:1”，则表明了该canvas画布没有跨行，所占用的行距为一行。而在占用行数信息为“lines:3”的情况下，表明该canvas画布需要覆盖到三行，此时需要根据坐标信息配合确定canvas画布的覆盖范围。

本申请根据在web端对目标查询词进行检索获得的M个目标文本，生成用于构建canvas画布的参数信息，从而生成N个canvas画布，并使用N个canvas画布覆盖目标查询词，实现了用了canvas画布替代原有的操作dom的方法，提高了检索结果的标注效率。

参见图3，图3是本申请实施例提供的基于机器学习平台的文本标注装置的结构图。如图3所示，基于机器学习平台的文本标注装置300包括：

获取模块310，用于获取网页web端基于目标查询词进行检索得到的M个目标文本，所述目标文本为文档对象模型dom文本，所述dom文本为树形结构数据组成，所述N为大于0的整数，所述M为大于0的整数；

第一生成模块320，用于根据所述M个目标文本生成参数信息，所述参数信息包括用于构建canvas画布的多个参数；

第二生成模块330，用于根据所述参数信息生成N个canvas画布；

标注模块340，用于根据所述N个canvas画布，对所述目标查询词所对应的所述M个目标文本进行覆盖标注。

可选的，第一生成模块320，包括：

确定子模块，用于基于所述M个目标文本确定N个填充色彩参数，所述M个目标文本中不同目标文本所对应的填充色彩参数不同；

生成子模块，用于根据所述参数信息和所述N个填充色彩参数，生成所述N个canvas画布。

可选的，生成子模块，包括：

确定单元，用于根据所述参数信息和所述N个填充色彩参数分别确定N个canvas画布中每个canvas画布的位置信息和形态信息；

生成单元，用于基于每个所述canvas画布的所述位置信息和所述形态信息生成所述N个canvas画布。

可选的，生成单元，包括：

第一确定子单元，用于根据所述每个所述canvas画布所对应的所述位置信息，确定每个所述canvas画布在所述web端的坐标信息；

第二确定子单元，用于根据所述每个所述canvas画布所对应的所述形态信息，确定每个所述canvas画布的宽度和高度；

第一生成子单元，用于基于每个所述canvas画布的所述坐标信息、所述宽度和所述高度生成所述N个canvas画布。

可选的，还包括：

第三确定子单元，用于根据所述每个所述canvas画布所对应的所述形态信息，确定每个所述canvas画布的占用行数信息，所述占用行数信息用于表示每个所述canvas画布在所述web端中所占用的行数；

第一生成子单元还用于基于每个所述canvas画布的所述坐标信息、所述宽度、所述高度和所述占用行数信息生成所述N个canvas画布。

可选的，获取模块310，包括：

获取子模块，用于获取web端输入的目标查询词；

查询子模块，用于基于所述目标查询词在所述web端进行遍历查找，得到所述M个目标文本。

可选的，所述N个canvas画布均为半透明画布。

本申请实施例还提供一种电子设备。请参见图4，电子设备可以包括处理器401、存储器402及存储在存储器402上并可在处理器401上运行的程序4021。

程序4021被处理器401执行时可实现图1对应的方法实施例中的任意步骤：

根据所述参数信息生成N个canvas画布；

可选的，所述根据所述参数信息生成N个canvas画布，包括：

获取web端输入的目标查询词；

可选的，所述N个canvas画布均为半透明画布。

本申请实施例还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述基于机器学习平台的文本标注方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。其中，所述的计算机可读存储介质，如只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(RandomAccess Memory，简称RAM)、磁碟或者光盘等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本申请各个实施例所述的方法。

上面结合附图对本申请的实施例进行了描述，但是本申请并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本申请的启示下，在不脱离本申请宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本申请的保护之内。

Claims

1.一种基于机器学习平台的文本标注方法，其特征在于，所述方法包括：

根据所述参数信息生成N个canvas画布；

2.根据权利要求1中所述的方法，其特征在于，所述根据所述参数信息生成N个canvas画布，包括：

3.根据权利要求2中所述的方法，其特征在于，所述根据所述参数信息和所述N个填充色彩参数，生成所述N个canvas画布，包括：

4.根据权利要求3中所述的方法，其特征在于，所述基于每个所述canvas画布的所述位置信息和所述形态信息生成所述N个canvas画布，包括：

5.根据权利要求4中所述的方法，其特征在于，所述基于每个所述canvas画布的所述坐标信息、所述宽度和所述高度生成所述N个canvas画布之前，所述方法还包括：

6.根据权利要求1-5任一项中所述的方法，其特征在于，所述获取web端基于目标查询词进行检索得到的M个目标文本，包括：

获取web端输入的目标查询词；

7.根据权利要求1-5任一项中所述的方法，其特征在于，所述N个canvas画布均为半透明画布。

8.一种基于机器学习平台的文本标注装置，其特征在于，所述装置包括：

第二生成模块，用于根据所述参数信息生成N个canvas画布；

9.一种电子设备，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的程序；其特征在于，所述处理器，用于读取存储器中的程序实现如权利要求1至7中任一项所述的基于机器学习平台的文本标注方法中的步骤。

10.一种可读存储介质，用于存储程序，其特征在于，所述程序被处理器执行时实现如权利要求1至7中任一项所述的基于机器学习平台的文本标注方法中的步骤。