CN112836523B

CN112836523B - 一种单词翻译方法、装置、设备和一种可读存储介质

Info

Publication number: CN112836523B
Application number: CN201911158887.6A
Authority: CN
Inventors: 邢永伟
Original assignee: Shanghai Liulishuo Information Technology Co ltd
Current assignee: Shanghai Liulishuo Information Technology Co ltd
Priority date: 2019-11-22
Filing date: 2019-11-22
Publication date: 2022-12-30
Anticipated expiration: 2039-11-22
Also published as: CN112836523A

Abstract

本申请公开了一种单词翻译方法、装置、设备和介质，该方法包括：获取目标语句并确定目标语句中的待翻译单词；利用特征提取模型提取得到待翻译单词在目标语句中的上下文特征向量；将上下文特征向量输入预先训练得到的分类预测模型中，预测得到待翻译单词对应的翻译结果。本申请在确定目标语句中的待翻译单词之后，将利用特征提取模型对该待翻译单词在目标语句中的上下文特征向量进行提取，并以此进行分类预测得到待翻译单词对应的翻译结果，也即，本申请能够结合待翻译单词及其前后位置的文本，识别出在当前上下文中最恰当的单词释义，较为准确地给出单词在不同上下文中对应的中文释义，显著提高了单词翻译的准确性，为用户提供更精确的翻译服务。

Description

一种单词翻译方法、装置、设备和一种可读存储介质

技术领域

本申请涉及英语学习技术领域，更具体地说，涉及一种单词翻译方法、装置、设备和一种计算机可读存储介质。

背景技术

在传统单词翻译时，一种常见的方案是查询该单词在词典中的释义，并全部展示给用户，这种方案导致向用户返回的释义过于冗余，用户难以直接获知该单词在当前场景下的释义，需要从多种释义中辨别筛选得到该单词在当前场景下的正确释义；另一种方案是根据该单词多个释义的出现频率将其中频率最高的释义进行展示，但是这种方案下，仅仅通过出现频率确定最终的单词释义过于片面，很可能出现翻译并不准确的情况。

发明内容

本申请的目的在于提供一种单词翻译方法、装置及设备和一种计算机可读存储介质，能够较为准确地给出单词在不同上下文中对应的中文释义，显著提高了单词翻译的准确性。

为实现上述目的，本申请提供了一种单词翻译方法，包括：

获取目标语句并确定所述目标语句中的待翻译单词；

利用特征提取模型提取得到所述待翻译单词在所述目标语句中的上下文特征向量；

将所述上下文特征向量输入预先训练得到的分类预测模型中，预测得到所述待翻译单词对应的翻译结果。

可选的，所述利用特征提取模型提取得到所述待翻译单词在所述目标语句中的上下文特征向量，包括：

以所述待翻译单词为中心，从所述目标语句中截取预设大小的文本内容；

将所述文本内容输入所述特征提取模型中，得到所述待翻译单词在所述目标语句中的上下文特征向量。

可选的，所述分类预测模型的训练过程，包括：

获取所有目标单词和对应的例句；

利用所述特征提取模型提取每个目标单词在对应例句中的上下文特征向量，得到训练样本数据；

利用所述训练样本数据训练得到所述分类预测模型。

可选的，所述获取所有目标单词和对应的例句，包括：

确定主要词典，获取所述主要词典中记录的所有目标单词和所述目标单词的所有释义，以及每个单词释义对应的例句；

确定次要词典，并将所述次要词典中每个所述目标单词对应的例句映射到所述主要词典中对应的单词释义下。

可选的，所述利用特征提取模型提取得到所述待翻译单词在所述目标语句中的上下文特征向量之前，还包括：

获取部分目标单词和对应的例句，得到测试样本；

利用所述测试样本对预训练的特征提取模型进行测试和调整，得到调整后特征提取模型；

所述利用特征提取模型提取得到所述待翻译单词在所述目标语句中的上下文特征向量，包括：

利用所述调整后特征提取模型提取所述待翻译单词在所述目标语句中的上下文特征向量。

可选的，所述预训练的特征提取模型为ContextVec模型或Bert模型。

可选的，所述分类预测模型为利用K近邻算法进行分类预测的模型。

为实现上述目的，本申请提供了一种单词翻译装置，包括：

单词确定模块，用于获取目标语句并确定所述目标语句中的待翻译单词；

特征提取模块，用于利用特征提取模型提取得到所述待翻译单词在所述目标语句中的上下文特征向量；

分类预测模块，用于将所述上下文特征向量输入预先训练得到的分类预测模型中，预测得到所述待翻译单词对应的翻译结果。

为实现上述目的，本申请提供了一种单词翻译设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现前述公开的任一种单词翻译方法的步骤。

为实现上述目的，本申请提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现前述公开的任一种单词翻译方法的步骤。

通过以上方案可知，本申请提供的一种单词翻译方法，包括：获取目标语句并确定所述目标语句中的待翻译单词；利用特征提取模型提取得到所述待翻译单词在所述目标语句中的上下文特征向量；将所述上下文特征向量输入预先训练得到的分类预测模型中，预测得到所述待翻译单词对应的翻译结果。由上可知，本申请在确定目标语句中的待翻译单词之后，将利用特征提取模型对该待翻译单词在目标语句中的上下文特征向量进行提取，并以此进行分类预测得到待翻译单词对应的翻译结果，也即，本申请能够结合待翻译单词及其前后位置的文本，得到待翻译单词的上下文特征向量，并利用分类预测模型根据上下文特征向量识别出待翻译单词在当前上下文中最为恰当的单词释义，从而较为准确地给出单词在不同上下文中对应的中文释义，显著提高了单词翻译的准确性，为用户提供更为精确化的翻译服务，提升了用户体验度。

本申请还公开了一种单词翻译装置及设备和一种计算机可读存储介质，同样能实现上述技术效果。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性的，并不能限制本申请。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例公开的一种单词翻译方法的流程图；

图2为本申请实施例公开的分类预测模型的训练过程的流程图；

图3为本申请实施例公开的一种单词翻译装置的结构图；

图4为本申请实施例公开的一种单词翻译设备的结构图；

图5为本申请实施例公开的另一种单词翻译设备的结构图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在现有技术传统的单词翻译过程中，一种常见的方案是查询该单词在词典中的释义并全部展示给用户，导致向用户返回的释义过于冗余，用户难以直接获知该单词在当前场景下的释义，需要从多种释义中辨别筛选得到该单词在当前场景下的正确释义；另一种方案是根据该单词多个释义的出现频率将其中频率最高的释义进行展示，然而仅仅通过出现频率确定最终的单词释义过于片面，很可能出现翻译并不准确的情况。

因此，本申请实施例公开了一种单词翻译方法，能够较为准确地给出单词在不同上下文中对应的中文释义，显著提高了单词翻译的准确性。

下面对本申请实施例的应用场景进行详细阐述，用户可以通过客户端进行英语学习，客户端可以在显示界面上显示用户待学习的内容，并且还可以通过扬声器等音频播放装置向用户输出语音形式的音频内容。在用户进行英语学习时，客户端可以在用户发起查看单词翻译的请求之后执行单词翻译操作，并向用户返回单词翻译结果。可以理解的是，执行单词翻译操作的主体可以为客户端，也可以为服务端，这均不影响本申请的实现。

本申请实施例中，客户端可以包括但不限于：智能手机、平板电脑、MP4、MP3、PC、PDA、可穿戴设备和头戴显示设备等；服务端可以包括但不限于：单个网络服务器、多个网络服务器组成的服务器组或基于云计算由大量计算机或网络服务器构成的云。

结合上述应用场景，本申请实施例提供的一种单词翻译方法的流程图如图1所示，该方法具体包括：

S101：获取目标语句并确定所述目标语句中的待翻译单词；

本申请实施例中，目标语句为用户正在学习的语句，可以包括一个或多个语句，每个语句包括至少两个单词。其中，待翻译单词可以具体为目标语句中存在多个释义的多义单词。

S102：利用特征提取模型提取得到所述待翻译单词在所述目标语句中的上下文特征向量；

本步骤中，将利用特征提取模型提取待翻译单词在目标语句中的上下文特征向量。

在具体实施中，上述利用特征提取模型提取待翻译单词在目标语句中的上下文特征向量的过程可以包括：以待翻译单词为中心，从目标语句中截取预设大小的文本内容；将文本内容输入特征提取模型中，得到待翻译单词在目标语句中的上下文特征向量。上述预设大小可以指窗口的大小，以待翻译单词作为窗口的中心，截取两侧一定长度的文本内容作为特征提取模型的输入，该特征提取模型将输出该段文本内容对应的向量表示，即待翻译单词在目标语句中的上下文特征向量。

需要指出的是，窗口的预设大小不宜选取过大的长度，否则会导致算法速度变慢，且提取得到的特征向量仅适用于长文本而不能适用于短文本；也不宜选取过小的长度，虽然会相应的提升算法的性能，但可能会降低提取到的特征向量的质量，从而影响后续分类预测的效果。也即，上述预设大小需要根据具体的实施场景确定的合适大小。

S103：将所述上下文特征向量输入预先训练得到的分类预测模型中，预测得到所述待翻译单词对应的翻译结果。

在提取得到待翻译单词在目标语句中的上下文特征向量之后，本实施例将上下文特征向量作为输入，将其输入到预先训练的分类预测模型中，分类预测模型将输出待翻译单词对应的翻译结果。

作为一种具体的实施方式，参照图2，本申请实施例中分类预测模型的训练过程可以包括：

S201：获取所有目标单词和对应的例句；

具体地，上述获取所有目标单词和对应的例句的过程可以包括：确定主要词典，获取主要词典中记录的所有目标单词和目标单词的所有释义，以及每个单词释义对应的例句；确定次要词典，并将次要词典中每个目标单词对应的例句映射到主要词典中对应的单词释义下。

需要说明的是，可以根据单词释义颗粒度确定主要词典。由于各种词典对于单词释义的颗粒度不同，例如牛津词典则颗粒度相对较小，其对于单个单词会给出十分详细的释义，对于教学目的的词典查询来说，这么冗余的颗粒度是不必要的。同时，越详细的颗粒度也就意味着词义消歧的难度越大，而剑桥词典提供了适宜教学和算法目的的释义颗粒度。因此，本申请实施例可确定剑桥词典为主要词典，并获取该词典中记载的所有单词和对应的所有释义，以及你每个单词释义对应的例句。

主要词典本身会提供少量的例句，平均每个释义含有的例句数量不到5句，仅仅利用主要词典中稀少的数据难以训练得到可靠的模型。进一步地，本申请实施例可确定一个或多个次要词典，并将次要词典中的单词例句和翻译映射到主要词典中对应的单词释义下，得到最终全部的单词和对应的例句。

S202：利用特征提取模型提取每个目标单词在对应例句中的上下文特征向量，得到训练样本数据；

可以理解的是，本步骤利用特征提取模型提取每个目标单词在对应例句中的上下文特征向量的过程可参考步骤S102利用特征提取模型提取待翻译单词在目标语句中的上下文特征向量的过程，即以目标单词为中心，按照预设窗口大小从对应例句中截取对应的文本内容，并将该文本内容作为特征提取模型的输入，以利用特征提取模型提取每个目标单词在对应例句中的上下文特征向量，得到可用的训练样本数据。

S203：利用所述训练样本数据训练得到分类预测模型。

在上述任一实施例的基础上，作为一种优选实施方式，本申请实施例在利用特征提取模型提取得到所述待翻译单词在所述目标语句中的上下文特征向量之前，还可以进一步包括：获取部分目标单词和对应的例句，得到测试样本；利用测试样本对预训练的特征提取模型进行测试和调整，得到调整后特征提取模型。也即，本申请实施例可以在使用特征提取模型进行模型提取之前先对其进行微调训练，以完善特征提取模型，后续可利用调整后特征提取模型对待翻译单词在目标语句中的上下文特征向量进行提取，以提高特征向量的质量。

需要指出的是，本申请实施例中，上述预训练的特征提取模型可以具体为ContextVec模型或Bert模型。这是由于训练数据相对较少，且分布不均匀，某些单词可能会含有较多例句，而某些单词可能例句较少；另外，对于某一具体的多义词来说，区分其释义的难度可能较小。因此，本申请实施例可选取语言模型ContextVec模型或Bert模型用于提取单词在文中的上下文特征向量，然后利用这些特征向量作为训练样本，训练模型完成分类预测任务。

在本申请实施例中，分类预测模型具体可以为利用K近邻算法进行分类预测的模型。虽然训练样本中数据的总数较大，但是针对单个单词的单个释义来说，可用的训练样本数据太少，导致其不能够支撑复杂的模型训练。若选用神经网络等参数较多的模型，较少的训练样本数据会导致最终得到的模型存在很大的偏差。因此，本实施例具体选择适用于小数据集的K近邻算法，以利用K近邻算法进行分类预测，适用单词的上下文特征向量训练并预测单词在当前上下文中的释义。

下面对本申请实施例提供的一种单词翻译装置进行介绍，下文描述的一种单词翻译装置与上文描述的一种单词翻译方法可以相互参照。

参见图3所示，本申请实施例提供的一种单词翻译装置包括：

单词确定模块301，用于获取目标语句并确定所述目标语句中的待翻译单词；

特征提取模块302，用于利用特征提取模型提取得到所述待翻译单词在所述目标语句中的上下文特征向量；

分类预测模块303，用于将所述上下文特征向量输入预先训练得到的分类预测模型中，预测得到所述待翻译单词对应的翻译结果。

关于上述模块301至303的具体实施过程可参考前述实施例公开的相应内容，在此不再进行赘述。

在上述实施例的基础上，作为一种优选实施方式，所述特征提取模块，包括：

文本截取单元，用于以所述待翻译单词为中心，从所述目标语句中截取预设大小的文本内容；

文本输入单元，用于将所述文本内容输入所述特征提取模型中，得到所述待翻译单词在所述目标语句中的上下文特征向量。

在上述实施例的基础上，作为一种优选实施方式，所述分类预测模型的训练过程，包括：获取所有目标单词和对应的例句；利用所述特征提取模型提取每个目标单词在对应例句中的上下文特征向量，得到训练样本数据；利用所述训练样本数据训练得到所述分类预测模型。

在上述实施例的基础上，作为一种优选实施方式，所述获取所有目标单词和对应的例句，包括：

在上述实施例的基础上，作为一种优选实施方式，所述单词翻译装置还可以进一步包括：

样本获取模块，用于在利用特征提取模型提取得到所述待翻译单词在所述目标语句中的上下文特征向量之前，获取部分目标单词和对应的例句，得到测试样本；

模型调整模块，用于利用所述测试样本对预训练的特征提取模型进行测试和调整，得到调整后特征提取模型；

本申请还提供了一种单词翻译设备，参见图4所示，本申请实施例提供的一种单词翻译设备包括：

存储器100，用于存储计算机程序；

处理器200，用于执行所述计算机程序时可以实现上述实施例所提供的步骤。

具体的，存储器100包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机可读指令，该内存储器为非易失性存储介质中的操作系统和计算机可读指令的运行提供环境。处理器200在一些实施例中可以是一中央处理器(CentralProcessing Unit，CPU)、控制器、微控制器、微处理器或其他数据处理芯片，为单词翻译设备提供计算和控制能力，执行所述存储器100中保存的计算机程序时，可以实现以下步骤：

获取目标语句并确定所述目标语句中的待翻译单词；利用特征提取模型提取得到所述待翻译单词在所述目标语句中的上下文特征向量；将所述上下文特征向量输入预先训练得到的分类预测模型中，预测得到所述待翻译单词对应的翻译结果。

优选的，所述处理器200执行所述存储器100中保存的计算机子程序时，可以实现以下步骤：以所述待翻译单词为中心，从所述目标语句中截取预设大小的文本内容；将所述文本内容输入所述特征提取模型中，得到所述待翻译单词在所述目标语句中的上下文特征向量。

优选的，所述处理器200执行所述存储器100中保存的计算机子程序时，可以实现以下步骤：获取所有目标单词和对应的例句；利用所述特征提取模型提取每个目标单词在对应例句中的上下文特征向量，得到训练样本数据；利用所述训练样本数据训练得到所述分类预测模型。

优选的，所述处理器200执行所述存储器100中保存的计算机子程序时，可以实现以下步骤：确定主要词典，获取所述主要词典中记录的所有目标单词和所述目标单词的所有释义，以及每个单词释义对应的例句；确定次要词典，并将所述次要词典中每个所述目标单词对应的例句映射到所述主要词典中对应的单词释义下。

优选的，所述处理器200执行所述存储器100中保存的计算机子程序时，可以实现以下步骤：获取部分目标单词和对应的例句，得到测试样本；利用所述测试样本对预训练的特征提取模型进行测试和调整，得到调整后特征提取模型；所述利用特征提取模型提取得到所述待翻译单词在所述目标语句中的上下文特征向量，包括：利用所述调整后特征提取模型提取所述待翻译单词在所述目标语句中的上下文特征向量。

在上述实施例的基础上，作为优选实施方式，参见图5所示，所述单词翻译设备还包括：

输入接口300，与处理器200相连，用于获取外部导入的计算机程序、参数和指令，经处理器200控制保存至存储器100中。该输入接口300可以与输入装置相连，接收用户手动输入的参数或指令。该输入装置可以是显示屏上覆盖的触摸层，也可以是终端外壳上设置的按键、轨迹球或触控板，也可以是键盘、触控板或鼠标等。

显示单元400，与处理器200相连，用于显示处理器200处理的数据以及用于显示可视化的用户界面。该显示单元400可以为LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode，有机发光二极管)触摸器等。

网络端口500，与处理器200相连，用于与外部各终端设备进行通信连接。该通信连接所采用的通信技术可以为有线通信技术或无线通信技术，如移动高清链接技术(MHL)、通用串行总线(USB)、高清多媒体接口(HDMI)、无线保真技术(WiFi)、蓝牙通信技术、低功耗蓝牙通信技术、基于IEEE802.11s的通信技术等。

图5仅示出了具有组件100-500的单词翻译设备，本领域技术人员可以理解的是，图5示出的结构并不构成对单词翻译设备的限定，可以包括比图示更少或者更多的部件，或者组合某些部件，或者不同的部件布置。

本申请还提供了一种计算机可读存储介质，该存储介质可以包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。该存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现前述任一种实施例公开的单词翻译方法的步骤。

本申请能够结合待翻译单词及其前后位置的文本，得到待翻译单词的上下文特征向量，并利用分类预测模型根据上下文特征向量识别出待翻译单词在当前上下文中最为恰当的单词释义，从而较为准确地给出单词在不同上下文中对应的中文释义，显著提高了单词翻译的准确性，为用户提供更为精确化的翻译服务，提升了用户体验度。

说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以对本申请进行若干改进和修饰，这些改进和修饰也落入本申请权利要求的保护范围内。

还需要说明的是，在本说明书中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims

1.一种单词翻译方法，其特征在于，包括：

获取目标语句并确定所述目标语句中的待翻译单词；

将所述上下文特征向量输入预先训练得到的分类预测模型中，预测得到所述待翻译单词对应的翻译结果；其中，所述分类预测模型的训练过程，包括：获取所有目标单词和对应的例句；利用所述特征提取模型提取每个目标单词在对应例句中的上下文特征向量，得到训练样本数据；利用所述训练样本数据训练得到所述分类预测模型；其中，所述获取所有目标单词和对应的例句，包括：确定主要词典，获取所述主要词典中记录的所有目标单词和所述目标单词的所有释义，以及每个单词释义对应的例句；确定次要词典，并将所述次要词典中每个所述目标单词对应的例句映射到所述主要词典中对应的单词释义下。

2.根据权利要求1所述的单词翻译方法，其特征在于，所述利用特征提取模型提取得到所述待翻译单词在所述目标语句中的上下文特征向量，包括：

3.根据权利要求1所述的单词翻译方法，其特征在于，所述利用特征提取模型提取得到所述待翻译单词在所述目标语句中的上下文特征向量之前，还包括：

获取部分目标单词和对应的例句，得到测试样本；

4.根据权利要求3所述的单词翻译方法，其特征在于，所述预训练的特征提取模型为ContextVec模型或Bert模型。

5.根据权利要求1至4任一项所述的单词翻译方法，其特征在于，所述分类预测模型为利用K近邻算法进行分类预测的模型。

6.一种单词翻译装置，其特征在于，包括：

分类预测模块，用于将所述上下文特征向量输入预先训练得到的分类预测模型中，预测得到所述待翻译单词对应的翻译结果；其中，所述分类预测模型的训练过程，包括：获取所有目标单词和对应的例句；利用所述特征提取模型提取每个目标单词在对应例句中的上下文特征向量，得到训练样本数据；利用所述训练样本数据训练得到所述分类预测模型；其中，所述获取所有目标单词和对应的例句，包括：确定主要词典，获取所述主要词典中记录的所有目标单词和所述目标单词的所有释义，以及每个单词释义对应的例句；确定次要词典，并将所述次要词典中每个所述目标单词对应的例句映射到所述主要词典中对应的单词释义下。

7.一种单词翻译设备，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如权利要求1至5任一项所述单词翻译方法的步骤。

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至5任一项所述单词翻译方法的步骤。