CN111242109B

CN111242109B - 一种手动取词的方法及装置

Info

Publication number: CN111242109B
Application number: CN202010338641.3A
Authority: CN
Inventors: 王洪伟; 李长亮
Original assignee: Beijing Kingsoft Software Co Ltd
Current assignee: Beijing Kingsoft Software Co Ltd
Priority date: 2020-04-26
Filing date: 2020-04-26
Publication date: 2021-02-02
Anticipated expiration: 2040-04-26
Also published as: CN111242109A

Abstract

本申请提供一种手动取词的方法及装置，用于取词模型，所述方法包括：获取目标图像，并对所述目标图像进行手部图像检测；在检测到所述目标图像包含手部图像的情况下，对所述手部图像进行指尖识别，确定指尖位置；确定所述指尖位置对应的候选区域，对所述指尖位置对应的候选区域进行处理，以生成目标词单元，从而实现根据手部的指尖精确定位至对应的词单元。

Description

一种手动取词的方法及装置

技术领域

本申请涉及人工智能技术领域，特别涉及一种手动取词的方法及装置、计算设备和计算机可读存储介质。

背景技术

随着词典的电子化普及，用户在日常工作或学习中对于电子词典的使用也越来越频繁。根据具体使用场景的不同，可以分为在电脑端和移动端的应用。

在电脑端，电子词典的使用一般采用鼠标取词的方式，即通过鼠标移动光标选中目标词单元，然后再复制到电子词典中进行查询。

在移动端，由于触摸屏的存在，可以在电子词典的应用任务中对屏幕进行取词，要比电脑端的取词操作简便得多。具体地，一般采用摄像头移动到指定位置，然后进行拍照—截图—识别—取词等操作，得到最终的词单元。此种方法只适用于识别摄像头的摄像范围内的词单元，无法准确地定位到单个词单元。

发明内容

有鉴于此，本申请实施例提供了一种手动取词的方法及装置、计算设备和计算机可读存储介质，以解决现有技术中存在的技术缺陷。

本申请实施例提供了一种手动取词的方法，用于取词模型，所述方法包括：

获取目标图像，并对所述目标图像进行手部图像检测；

在检测到所述目标图像包含手部图像的情况下，对所述手部图像进行指尖识别，确定指尖位置；

确定所述指尖位置对应的候选区域，对所述指尖位置对应的候选区域进行处理，以生成目标词单元。

可选地，所述取词模型包括：图像识别模型和指尖识别模型；

对所述目标图像进行手部图像检测，包括：

将所述目标图像输入至所述图像识别模型进行手部图像检测；

在检测到所述目标图像包含手部图像的情况下，对所述手部图像进行指尖识别，确定指尖位置，包括：

在所述图像识别模型检测到所述目标图像包含手部图像的情况下，通过所述指尖识别模型对所述手部图像进行指尖识别，确定指尖位置。

可选地，在所述图像识别模型检测到所述目标图像包含手部图像的情况下，通过所述指尖识别模型对所述手部图像进行指尖识别，确定指尖位置，包括：

在所述图像识别模型检测到所述目标图像包含手部图像的情况下，确定所述手部图像对应的区域边框，其中，所述区域边框包围的区域图像包含所述手部图像；

通过所述指尖识别模型对所述区域边框包围的区域图像进行指尖识别，确定至少一个指尖位置。

可选地，确定所述指尖位置对应的候选区域，对所述指尖位置对应的候选区域进行处理，以生成目标词单元，包括：

确定所述指尖位置对应的候选区域，对所述指尖位置对应的候选区域进行文本检测，生成文本序列；

将所述文本序列进行词单元识别，并基于识别的词单元确定目标词单元。

可选地，所述取词模型还包括：文本检测模型；

确定所述指尖位置对应的候选区域，对所述指尖位置对应的候选区域进行文本检测，生成文本序列，包括：

将与所述指尖位置的距离位于第一阈值范围内的图像区域确定为候选区域；

将所述候选区域输入至所述文本检测模型，对所述候选区域进行文本提取，得到对应的文本序列。

可选地，在所述指尖位置包括多个的情况下；

将与所述指尖位置的距离位于第一阈值范围内的图像区域确定为候选区域，包括：

将与每个所述指尖位置的距离位于第一阈值范围内的图像区域确定为该指尖位置对应的候选区域。

可选地，在所述指尖位置包括多个的情况下；

在多个指尖位置中选择任一个作为目标指尖位置；

将与所述目标指尖位置的距离位于第一阈值范围内的图像区域确定为候选区域。

可选地，所述取词模型包括：词单元识别模型；

将所述文本序列进行词单元识别，包括：将所述文本序列输入至所述词单元识别模型，生成所述文本序列对应的至少一个词单元。

可选地，基于识别的词单元确定目标词单元，包括：

确定每个词单元在所述候选区域中的位置；

基于每个词单元在所述候选区域中的位置，分别确定每个所述词单元与指尖位置的距离，并将与所述指尖位置距离最近的所述词单元作为目标词单元。

可选地，在与指尖位置距离最近的所述词单元为至少两个的情况下；

将与所述指尖位置距离最近的所述词单元作为所述目标词单元，包括：

将与所述指尖位置距离最近的至少两个所述词单元中的任一个作为所述目标词单元；或

统计与指尖位置距离最近的至少两个所述词单元在所述候选区域中的出现频率，将出现频率最低的一个词单元作为目标词单元。

可选地，本申请的手动取词方法还包括：将所述目标词单元进行查词翻译，并返回得到的翻译结果。

本申请实施例提供了一种手动取词的装置，用于取词模型，所述装置包括：

目标图像处理模块，被配置为获取目标图像，并对所述目标图像进行手部图像检测；

指尖位置确定模块，被配置为在检测到所述目标图像包含手部图像的情况下，对所述手部图像进行指尖识别，确定指尖位置；

目标词单元确定模块，被配置为确定所述指尖位置对应的候选区域，对所述指尖位置对应的候选区域进行处理，以生成目标词单元。

本申请实施例提供了一种计算设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令，所述处理器执行所述指令时实现如上所述的手动取词的方法的步骤。

本申请实施例提供了一种计算机可读存储介质，其存储有计算机指令，该指令被处理器执行时实现如上所述的手动取词的方法的步骤。

本申请提供的手动取词的方法及装置，通过对获取的目标图像进行手部图像检测，然后对检测到的手部图像进行指尖识别，确定指尖位置；基于指尖位置确定候选区域，进而在候选区域中进行处理以生成目标词单元，从而实现根据手部的指尖精确定位至对应的词单元。

具体地，在候选区域中确定每个词单元的位置，并与指尖位置指尖的距离进行计算，并将与指尖位置距离最近的词单元作为目标词单元，从而实现根据手部的指尖精确定位至对应的词单元。

进一步地，在与指尖位置距离最近的所述词单元为至少两个的情况下，可以任选其一作为目标词单元，也可以根据在候选区域中的出现频率最低的一个词单元作为目标词单元，以保证最终选取到的目标词单元为单个。

并且，在获取到目标词单元后，还可以将目标词单元进行查词翻译，并返回得到的翻译结果，实现查词的操作。

附图说明

图1是本申请一实施例的取词模型的结构示意图；

图2是本申请一实施例的手动取词的方法的流程示意图；

图3是本申请一实施例的手动取词的方法涉及的文本检测模型的模块示意图；

图4是本申请另一实施例的手动取词的方法流程示意图；

图5是本申请另一实施例的目标图像的示意图；

图6是本申请一实施例的手动取词的装置的模块示意图；

图7是本申请一实施例的计算设备的模块结构示意图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本申请内涵的情况下做类似推广，因此本申请不受下面公开的具体实施的限制。

在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本说明书一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本说明书一个或多个实施例中可能采用术语第一、第二等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本说明书一个或多个实施例范围的情况下，第一也可以被称为第二，类似地，第二也可以被称为第一。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

首先，对本发明一个或多个实施例涉及的名词术语进行解释。

光学字符识别（Optical Character Recognition，OCR）模型：用于对文本资料的图像文件进行分析识别处理，获取文字及版面信息的网络模型。OCR模型可以将图像中的文字进行识别，并以文本的形式返回。

连接文本建议网络（Connectionist Text Proposal Network，CTPN）：是一个全卷积网络，以任意尺寸的图像为输入，能够直接在卷积层中定位文本行，适用于图像中的文字检测。

卷积循环神经网络（Convolutional Recurrent Neural Network，CRNN）：由卷积神经网络（Convolutional Neural Network，CNN）和循环神经网络（Recurrent NeuralNetwork，RNN）网络组成，用于文字识别。

卷积神经网络（Convolutional Neural Network，CNN）：一种前馈神经网络，CNN模型一般包括：输入层、卷积层、池化层和全连接层。一方面CNN模型的神经元间的连接是非全连接的，另一方面同一层中某些神经元之间的连接的权重是共享的（即相同的）。它的非全连接和权值共享的网络结构使之更类似于生物神经网络，降低了网络模型的复杂度，减少了权值的数量。

循环神经网络（Recurrent Neural Networks，RNN）模型：又称为递归神经网络，是一种具有反馈结构的神经网络，其输出不但与当前输入和网络的权值有关，而且也与之前网络的输入有关。RNN模型通过添加跨越时间点的自连接隐藏层，对时间进行建模；换句话说，隐藏层的反馈不仅仅进入输出端，而且还进入了下一时间的隐藏层。

深度神经网络（OpenCV Deep Neural Networks，DNN）模型：是一种判别模型，可以使用反向传播算法进行训练。其中更具体地，OpenCV DNN模型可以用于识别手部关键点。

长短期记忆网络（Long Short-Term Memory，LSTM）模型：是一种时间递归神经网络模型，适合于处理和预测时间序列中间隔和延迟相对较长的重要事件。

双向LSTM网络模型（Bi-directional Long Short-Term Memory，BiLSTM）：是由前向LSTM模型与后向LSTM模型组合而成。

目标图像：待取词的图像。例如在移动终端，可以为移动终端的摄像头拍摄的图像。

手部图像：包含人的手部的图像。可以包括整个手部，也可以包括部分手部。在本实施例中，为了实现取词功能，手部图像应当包括至少一个指尖的图像。

区域边框：一个区域的闭合边框。例如一个长方形边框、正方形边框等。

区域图像：区域边框包围的区域中的图像。本实施例中，区域边框包围的区域中的图像包含手部图像。

指尖位置：手部图像中的指尖在整个目标图像中的位置。

候选区域：与指尖位置的距离位于第一阈值范围内的图像区域。

文本序列：对于候选区域内的图像进行文本提取，得到的顺序排列的多个词单元。

词单元：组成文本序列的最小单元。

在本申请中，提供了一种手动取词的方法及装置、计算设备和计算机可读存储介质，在下面的实施例中逐一进行详细说明。

首先，对本实施例的用于手动取词的方法的取词模型的结构进行示意性的说明。

参见图1，取词模型包括：图像识别模型、指尖识别模型、文本检测模型和词单元识别模型。

其中，图像识别模型可以为CNN模型、Faster-RCNN模型等，用于对输入的目标图像进行识别，确定手部图像。

在图像识别模型检测到目标图像包含手部图像的情况下，生成区域边框（bounding box）。该区域边框包围的区域图像包含手部图像。具体地，区域边框可以为长方形边框或者正方形边框，该长方形边框或者正方形边框包围手部图像。

指尖识别模型可以为OpenCV DNN模型，用于识别手部区域的指尖位置，具体地，OpenCV DNN模型根据输入的附带有区域边框的目标图像，对区域边框包围的区域图像进行指尖识别，确定至少一个指尖位置。该指尖位置可以为手部的指尖点。

文本检测模型可以为CTPN模型，用于生成候选区域内的文本序列。具体地，将与指尖位置的距离位于第一阈值范围内的图像区域确定为候选区域；将候选区域输入至文本检测模型，对候选区域进行文本提取，得到对应的文本序列。

词单元识别模型可以为OCR模型、CRNN模型等，用于文本检测模型识别出的文本序列进行词单元的识别。

下面对本实施例的手动取词的方法进行详细的说明。参见图2，所述手动取词的方法包括下述步骤202~206：

202、获取目标图像，并对所述目标图像进行手部图像检测。

本实施例中，获取目标图像的方法有多种，例如通过移动终端的摄像头进行拍照而生成，或者通过网络传输而获取等等。

其中，手部图像可以为手部的全部图像，也可以为手部的部分图像。本实施例中所述的手部图像，需要包括手部的指尖，以供后续步骤中进行目标词单元的定位。

具体地，步骤202中对所述目标图像进行手部图像检测，包括：将目标图像输入至所述图像识别模型进行手部图像检测。

以图像识别模型为Faster-RCNN模型为例，Faster-RCNN模型主要包括两个模块：一部分是候选区域网络（RPN），该网络可以生成少量并且高质量的候选区域；另一部分是对每个候选区域进行检测处理的网络。

在获取到生成的候选区域后，通过区域与特征图之间的映射关系得到每个候选区域卷积后的特征。之后通过池化层将不同大小的区域特征归一化到同一尺度，并经过若干全连接层来获得每个候选区域的最终特征。基于每个候选区域的最终特征，从而得到最终的检测结果，即候选区域内是否有手部图像。

若当前的候选区域内没有手部图像，则该候选区域并非目标候选区域；若当前的候选区域内包含了手部图像，则该候选区域为本实施例中所需的区域，将该区域的边框确定为手部图像对应的区域边框。

204、在检测到所述目标图像包含手部图像的情况下，对所述手部图像进行指尖识别，确定指尖位置。

具体地，基于本实施例的取词模型的结构，步骤204包括：在所述图像识别模型检测到所述目标图像包含手部图像的情况下，通过所述指尖识别模型对所述手部图像进行指尖识别，确定指尖位置。

具体地，步骤204包括下述步骤S2042~S2044：

S2042、在图像识别模型检测到所述目标图像包含手部图像的情况下，确定所述手部图像对应的区域边框，其中，所述区域边框包围的区域图像包含所述手部图像。

其中，区域边框可以为长方形边框，该边框包围的区域图像范围大于手部图像的范围。

本实施例中，在检测到目标图像包含手部图像的情况下，并非直接得到手部图像以进行后续步骤的计算，而是确定包含手部图像的区域图像来进行后续步骤的计算，可以使后续步骤中在进行指尖识别的过程中，待识别的图像范围大于手部图像的范围，避免由于手部图像的识别误差导致指尖位置的缺失。

S2044、通过指尖识别模型对所述区域边框包围的区域图像进行指尖识别，确定至少一个指尖位置。

具体地，指尖识别模型可以对区域图像进行轮廓信息计算，并基于区域图像中的手部图像的轮廓信息计算得到至少一个指尖坐标。

在一种方式下，指尖识别的大体计算过程如下：

1）对区域图像做高斯模糊；

2）进行肤色分割，确定手部图像。在此步骤中，需要区域图像中除去手部图像的其他部分不要有类肤色，如果有，就需要加其他信息来排除干扰；

3）基于确定的手部图像计算找到手部轮廓；

4）基于手部轮廓计算手部轮廓的重心点，即手掌的中心位置；

5）确定手部轮廓的边缘点，遍历计算手部轮廓的边缘点与手部轮廓的重心点之间的距离，那么会出现至少一个峰值，该峰值对应的点为指尖位置对应的指尖点。

通过指尖识别模型，可以准确地识别出手部图像的至少一个指尖坐标，以供后续步骤的使用。

206、确定所述指尖位置对应的候选区域，对所述指尖位置对应的候选区域进行处理，以生成目标词单元。

具体地，步骤206包括：

S262、确定所述指尖位置对应的候选区域，对所述指尖位置对应的候选区域进行文本检测，生成文本序列。

S264、将所述文本序列进行词单元识别，并基于识别的词单元确定目标词单元。

具体地，步骤S262包括步骤S2622~S2624：

S2622、将与所述指尖位置的距离位于第一阈值范围内的图像区域确定为候选区域。

其中，第一阈值可以根据实际需求而选择，例如设置第一阈值为1厘米，则第一阈值范围为以指尖点坐标为圆心，以1厘米为半径的圆形范围。

例如设置第一阈值为2厘米，则第一阈值范围为以指尖点坐标为圆心，以2厘米为半径，且位于指尖点坐标上方的半圆形区域范围。

其中，指尖位置可以为一个，也可以为多个。在指尖位置为一个的情况下，候选区域为与该指尖位置的距离位于第一阈值范围内的图像区域；在指尖位置为多个的情况下，候选区域可以为与每个所述指尖位置的距离位于第一阈值范围内的图像区域；候选区域也可以为在多个指尖位置中选择任一个作为目标指尖位置，则与目标指尖位置的距离位于第一阈值范围内的图像区域确定为候选区域。

本实施例中，并非基于指尖位置直接识别与指尖位置的距离最近的词单元，而是先确定候选区域，在候选区域中进行词单元的识别，然后再根据指尖位置确定距离最近的词单元，以保证识别结果的准确性，避免基于指尖位置直接识别词单元过程中存在的计算误差。

S2624、将所述候选区域输入至所述文本检测模型，对所述候选区域进行文本提取，得到对应的文本序列。

参见图3，以文本检测模型为CTPN模型为例，得到文本序列的步骤如下：

1）CTPN的骨干网络为VGG16，将候选区域输入VGG16，输出为conv5层的输出的特征图，步幅为16，也即，特征图中的每个像素对应原图的16像素，特征图的大小为W*H*C。W和H是每个特征图的宽度值和高度值，C是特征图的个数为512。

其中，VGG16包含五个卷积层和三个全连接层。conv5指的是第5个卷积层。

2）在特征图的每个位置上取3*3*512*512（[filter_height, filter_width, in_channels, out_channels]）的窗口做卷积，得到W*H*512的特征图。将特征图每一行的512维的特征向量输入到BILSTM，输出W*256的结果。

3）将W*256的结果输入到一个512维的FC（全连接层），最终可以得到文本小片的坐标偏移(y, h)。因为这部分在标签构造过程有固定的偏移，因此只需要知道文本小片的坐标偏移（y, h），利用固定的偏移可以构造出完整的文本行。

根据完整的文本行，可以得到候选区域的文本序列。该文本序列包括至少一个文本行。

通过本实施例的文本检测模型，实现对候选区域的文本序列的准确提取，以备后续步骤中基于指尖位置确定对应的目标词单元。

具体地，步骤S264中将所述文本序列进行词单元识别，包括：将所述文本序列输入至所述词单元识别模型，生成所述文本序列对应的至少一个词单元。

具体地，词单元识别模型可以为OCR模型、CRNN模型等。对于文本序列，词单元识别模型可以对文本序列进行字符切分，然后通过识别每个字符，确定文本序列对应的至少一个词单元。

具体地，步骤S264中基于识别的词单元确定目标词单元，包括下述步骤S2642~S2644：

S2642、确定每个词单元在所述候选区域中的位置。

本实施例中，基于前述步骤S2624中对候选区域进行文本提取得到对应的文本序列的过程，可以确定文本序列在候选区域中的位置，进而可以在文本序列中确定每个词单元在候选区域中的位置。

S2644、基于每个词单元在所述候选区域中的位置，分别确定每个所述词单元与指尖位置的距离，并将与所述指尖位置距离最近的所述词单元作为所述目标词单元。

例如，确定文本序列对应的词单元为5个，该5个词单元与指尖位置的距离分别为1厘米、0.2厘米、1.3厘米、1.4厘米和0.5厘米，则确定第2个词单元为目标词单元。

在一种使用场景下，例如文本序列对应的词单元为5个，该5个词单元与指尖位置的距离分别为0.1厘米、0.1厘米、0.3厘米、0.2厘米和0.4厘米，则确定第1个词单元和第2个词单元为目标词单元。在此种情况下，也即，在与指尖位置距离最近的所述词单元为至少两个的情况下，步骤S2084中将与所述指尖位置距离最近的所述词单元作为所述目标词单元有多种方法，例如：

将至少两个与所述指尖位置距离最近的所述词单元中的任一个作为所述目标词单元。对应地，在该使用场景下，可以将第1个或第2个词单元作为目标词单元。

统计与指尖位置距离最近的至少两个所述词单元在所述候选区域中的出现频率，将出现频率最低的一个词单元作为目标词单元。对应地，在该使用场景下，若第1个词单元在候选区域中的出现频率为0.5，第2个词单元在候选区域中的出现频率为0.4，也就意味着第1个词单元更多地出现在候选区域中，那么将第2个词单元作为目标词单元。

本实施例提供的手动取词的方法，通过对获取的目标图像进行手部图像检测，然后对检测到的手部图像进行指尖识别，确定指尖位置；基于指尖位置确定候选区域，进而在候选区域中进行处理以生成目标词单元，从而实现根据手部的指尖精确定位至对应的词单元。

为了便于理解本实施例的手动取词的方法，本实施例还公开了一种手动取词的方法，参见图4和图5，包括下述步骤402~416：

402、获取目标图像，并对所述目标图像输入至图像识别模型进行手部图像检测，以检测所述目标图像是否包含手部图像，若是，执行步骤404，若否，执行步骤416。

具体地，对于图像识别模型的处理过程参见前述实施例的描述，本实施例便不再赘述。

本实施例中，通过移动终端的摄像头来获取目标图像。参见图5，该目标图像中的手部图像包括一根手指的图像，文本图像包括5行文本行。

404、确定手部图像对应的区域边框，其中，所述区域边框包围的区域图像包含所述手部图像。

本实施例中，将目标图像输入至图像识别模型，确定包含手部图像的区域图像，如图中点划线的方形框所示。

对于图像识别模型的具体处理步骤，参见前述实施例的描述，本实施例便不再赘述。

参见图5，该目标图像中，手部区域的手指包括一个。

406、通过指尖识别模型对区域边框包围的区域图像进行指尖识别，确定至少一个指尖位置。

本实施例中，参见图4，利用指尖识别模型对区域图像进行指尖识别，确定手指对应的指尖的位置点坐标为（a，b），将该位置点（a，b）作为指尖位置。

对于指尖识别模型的具体处理步骤，参见前述实施例的描述，本实施例便不再赘述。

408、将与指尖位置的距离位于第一阈值范围内的图像区域确定为候选区域。

参见图5，候选区域为图中标示的虚线圆圈。当然，为本领域技术人员所知晓的是，第一阈值范围可以根据实际需求而设置，也即，图中的虚线圆圈可以更大或者更小，范围可以实际需求设置。

410、将候选区域输入至文本检测模型，对候选区域进行文本提取，得到对应的文本序列。

对该虚线圆圈内的文本进行检测，生成文本序列。本实施例中，文本序列包括6个词单元（token）。

412、将文本序列进行词单元识别，并基于识别的词单元确定目标词单元。

本实施例中，文本序列对应有6个词单元C1、C2、C3、C4、C5、C6，如图5中的虚线圆圈内的6个词单元所示。

更为具体地，确定每个词单元在候选区域中的位置，基于每个词单元在候选区域中的位置分别确定每个词单元与指尖位置的距离，并将与指尖位置距离最近的词单元作为目标词单元。

本实施例中，分别确定6个词单元C1、C2、C3、C4、C5、C6与指尖位置（a，b）的距离为d1、d2、d3、d4、d5、d6。经比较，d4的值最小，则将词单元C4作为目标词单元。

414、将所述目标词单元进行查词翻译，并返回得到的翻译结果。

具体地，可以将词单元C4输入至电子词典进行查词翻译，也可以将词单元C4通过网络翻译工具进行查词翻译，以得到翻译结果。

416、丢弃该目标图像。

具体地，丢弃可以为删除，也可以为将目标图像存储于内存或缓存的指定位置，不再做进一步处理。

本实施例的手动取词的方法，通过对获取的目标图像进行手部图像检测，然后对检测到的手部图像进行指尖识别，确定指尖位置；基于指尖位置确定候选区域，进而在候选区域中进行词单元识别，确定指尖位置对应的目标词单元，从而实现根据手部的指尖精确定位至对应的词单元，进而可以将获取的词单元进行翻译得到对应的翻译结果，完成翻译任务。

本实施例还公开了一种手动取词的装置，用于取词模型，参见图6，所述装置包括：

目标图像处理模块602，被配置为获取目标图像，并对所述目标图像进行手部图像检测；

指尖位置确定模块604，被配置为在检测到所述目标图像包含手部图像的情况下，对所述手部图像进行指尖识别，确定指尖位置；

目标词单元确定模块606，被配置为确定所述指尖位置对应的候选区域，对所述指尖位置对应的候选区域进行处理，以生成目标词单元。

目标图像处理模块602，具体被配置为：将所述目标图像输入至所述图像识别模型进行手部图像检测；

指尖位置确定模块604，具体被配置为：在所述图像识别模型检测到所述目标图像包含手部图像的情况下，通过所述指尖识别模型对所述手部图像进行指尖识别，确定指尖位置。

可选地，指尖位置确定模块604，具体被配置为：在所述图像识别模型检测到所述目标图像包含手部图像的情况下，确定所述手部图像对应的区域边框，其中，所述区域边框包围的区域图像包含所述手部图像；

可选地，目标词单元确定模块606具体被配置为：确定所述指尖位置对应的候选区域，对所述指尖位置对应的候选区域进行文本检测，生成文本序列；

可选地，所述取词模型包括：文本检测模型；

目标词单元确定模块606具体被配置为：将与所述指尖位置的距离位于第一阈值范围内的图像区域确定为候选区域；

可选地，在所述指尖位置包括多个的情况下，目标词单元确定模块606具体被配置为：将与每个所述指尖位置的距离位于第一阈值范围内的图像区域确定为该指尖位置对应的候选区域。

可选地，在所述指尖位置包括多个的情况下，目标词单元确定模块606具体被配置为：在多个指尖位置中选择任一个作为目标指尖位置；将与所述目标指尖位置的距离位于第一阈值范围内的图像区域确定为候选区域。

可选地，所述取词模型包括：词单元识别模型；目标词单元确定模块606具体被配置为：将所述文本序列输入至所述词单元识别模型，生成所述文本序列对应的至少一个词单元。

可选地，目标词单元确定模块606具体被配置为：确定每个词单元在所述候选区域中的位置；基于每个词单元在所述候选区域中的位置，分别确定每个所述词单元与指尖位置的距离，并将与所述指尖位置距离最近的所述词单元作为所述目标词单元。

可选地，在与指尖位置距离最近的所述词单元为至少两个的情况下，目标词单元确定模块606具体被配置为：

将至少两个与所述指尖位置距离最近的所述词单元中的任一个作为所述目标词单元；或

可选地，所述装置还包括：翻译模块，被配置为将所述目标词语进行查词翻译，并返回得到的翻译结果。

本实施例提供的手动取词的装置，通过对获取的目标图像进行手部图像检测，然后对检测到的手部图像进行指尖识别，确定指尖位置；基于指尖位置确定候选区域，进而在候选区域中进行处理以生成目标词单元，从而实现根据手部的指尖精确定位至对应的词单元。

上述为本实施例的一种手动取词的装置的示意性方案。需要说明的是，该手动取词的装置的技术方案与上述的手动取词的方法的技术方案属于同一构思，手动取词的装置的技术方案未详细描述的细节内容，均可以参见上述手动取词的方法的技术方案的描述。

本申请一实施例还提供一种计算设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令，所述处理器执行所述指令时实现如上所述的手动取词的方法的步骤。

图7是示出了根据本说明书一实施例的计算设备700的结构框图。该计算设备700的部件包括但不限于存储器710和处理器720。处理器720与存储器710通过总线730相连接，数据库750用于保存数据。

计算设备700还包括接入设备740，接入设备740使得计算设备700能够经由一个或多个网络760通信。这些网络的示例包括公用交换电话网（PSTN）、局域网（LAN）、广域网（WAN）、个域网（PAN）或诸如因特网的通信网络的组合。接入设备740可以包括有线或无线的任何类型的网络接口（例如，网络接口卡（NIC））中的一个或多个，诸如IEEE802.11无线局域网（WLAN）无线接口、全球微波互联接入（Wi-MAX）接口、以太网接口、通用串行总线（USB）接口、蜂窝网络接口、蓝牙接口、近场通信（NFC）接口，等等。

在本说明书的一个实施例中，计算设备700的上述部件以及图7中未示出的其他部件也可以彼此相连接，例如通过总线。应当理解，图7所示的计算设备结构框图仅仅是出于示例的目的，而不是对本说明书范围的限制。本领域技术人员可以根据需要，增添或替换其他部件。

计算设备700可以是任何类型的静止或移动计算设备，包括移动计算机或移动计算设备（例如，平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等）、移动电话（例如，智能手机）、可佩戴的计算设备（例如，智能手表、智能眼镜等）或其他类型的移动设备，或者诸如台式计算机或PC的静止计算设备。计算设备700还可以是移动式或静止式的服务器。

本申请一实施例还提供一种计算机可读存储介质，其存储有计算机指令，该指令被处理器执行时实现如前所述手动取词的方法的步骤。

上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是，该存储介质的技术方案与上述的手动取词的方法的技术方案属于同一构思，存储介质的技术方案未详细描述的细节内容，均可以参见上述手动取词的方法的技术方案的描述。

所述计算机指令包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

需要说明的是，对于前述的各方法实施例，为了简便描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其它顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定都是本申请所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其它实施例的相关描述。

以上公开的本申请优选实施例只是用于帮助阐述本申请。可选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本说明书的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本申请的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本申请。本申请仅受权利要求书及其全部范围和等效物的限制。

Claims

1.一种手动取词的方法，其特征在于，用于取词模型，所述方法包括：

获取目标图像，并对所述目标图像进行手部图像检测；

在目标图像中确定所述指尖位置对应的候选区域，对所述指尖位置对应的候选区域进行处理，以生成目标词单元；

其中，确定所述指尖位置对应的候选区域，对所述指尖位置对应的候选区域进行处理，以生成目标词单元，包括：确定所述指尖位置对应的候选区域，对所述指尖位置对应的候选区域进行文本检测，生成文本序列，将所述文本序列进行词单元识别，并基于识别的词单元确定目标词单元；

确定所述指尖位置对应的候选区域，包括：

在所述指尖位置包括多个的情况下，将与每个所述指尖位置的距离位于第一阈值范围内的图像区域确定为该指尖位置对应的候选区域；

基于识别的词单元确定目标词单元，包括：

确定每个词单元在所述候选区域中的位置；

基于每个词单元在所述候选区域中的位置，分别确定每个所述词单元与指尖位置的距离，并将与所述指尖位置距离最近的所述词单元作为所述目标词单元，在与指尖位置距离最近的所述词单元为至少两个的情况下，统计与指尖位置距离最近的至少两个所述词单元在所述候选区域中的出现频率，将出现频率最低的词单元作为目标词单元。

2.如权利要求1所述的方法，其特征在于，所述取词模型包括：图像识别模型和指尖识别模型；

对所述目标图像进行手部图像检测，包括：

3.如权利要求2所述的方法，其特征在于，在所述图像识别模型检测到所述目标图像包含手部图像的情况下，通过所述指尖识别模型对所述手部图像进行指尖识别，确定指尖位置，包括：

4.如权利要求1所述的方法，其特征在于，所述取词模型还包括：文本检测模型；

对所述指尖位置对应的候选区域进行文本检测，生成文本序列，包括：

5.如权利要求1所述的方法，其特征在于，所述取词模型还包括：词单元识别模型；

6.如权利要求1所述的方法，其特征在于，还包括：将所述目标词单元进行查词翻译，并返回得到的翻译结果。

7.一种手动取词的装置，其特征在于，用于取词模型，所述装置包括：

目标词单元确定模块，被配置为在目标图像中确定所述指尖位置对应的候选区域，对所述指尖位置对应的候选区域进行处理，以生成目标词单元；

目标词单元确定模块具体被配置为：确定所述指尖位置对应的候选区域，对所述指尖位置对应的候选区域进行文本检测，生成文本序列，将所述文本序列进行词单元识别，并基于识别的词单元确定目标词单元；

在所述指尖位置包括多个的情况下，目标词单元确定模块具体被配置为：将与每个所述指尖位置的距离位于第一阈值范围内的图像区域确定为该指尖位置对应的候选区域；

目标词单元确定模块具体被配置为：确定每个词单元在所述候选区域中的位置，基于每个词单元在所述候选区域中的位置，分别确定每个所述词单元与指尖位置的距离，并将与所述指尖位置距离最近的所述词单元作为所述目标词单元，在与指尖位置距离最近的所述词单元为至少两个的情况下，统计与指尖位置距离最近的至少两个所述词单元在所述候选区域中的出现频率，将出现频率最低的词单元作为目标词单元。

8.一种计算设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令，其特征在于，所述处理器执行所述指令时实现权利要求1-6任意一项所述方法的步骤。

9.一种计算机可读存储介质，其存储有计算机指令，其特征在于，该指令被处理器执行时实现权利要求1-6任意一项所述方法的步骤。