CN110956034B

CN110956034B - 词语的获取方法及装置、商品搜索方法

Info

Publication number: CN110956034B
Application number: CN201811108886.6A
Authority: CN
Inventors: 周君沛; 李辰; 徐光伟; 李林琳
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2018-09-21
Filing date: 2018-09-21
Publication date: 2023-04-11
Anticipated expiration: 2038-09-21
Also published as: CN110956034A

Abstract

本申请公开了一种词语的获取方法及装置、商品搜索方法。其中，该方法包括：将输入的词语转换为初始笔画序列；为上述初始笔画序列添加端部标记，得到处理后笔画序列；通过对上述处理后笔画序列进行拆分，获取上述词语对应的第一词向量；根据上述第一词向量与第一词语集合中各个词语对应的第二词向量之间的相似度来确定待召回的词语，其中，上述第一词语集合由预设词库构成。本申请解决了现有的词语获取方法采用基于笔画的拆解方法获取待召回的词语，所获取的待召回的词语准确性较低的技术问题。

Description

词语的获取方法及装置、商品搜索方法

技术领域

本申请涉及计算机技术领域，具体而言，涉及一种词语的获取方法及装置、商品搜索方法。

背景技术

随着电子商务的快速发展，用户更多地使用电商平台进行购物，为方便用户购物，电商平台在购物界面上设置搜索框供用户搜索商品，在用户输入商品名称进行搜索时，存在不小心将一些字打错的情况，此时直接检索包含错字的词语是无法搜索到真正的对应商品的，因而需要先召回一些与错字对应的正确词语。

针对上述问题，现有技术采用基于笔画的拆解方法，将汉字分解成笔画后采用N-Gram模型进行进一步拆解，以获取与错字对应的正确词语；但是，由于N一般为固定的取值，因此N-Gram模型也是固定的，因而现有技术中仍存在如下缺点：

首先，N-Gram模型不够灵活，由于汉字里的一些偏旁部首的笔画数目是不一样的，例如，单人旁是两画，三点水是三画，王字旁是四画，如果仅采用固定的3-Gram模型，无法很好的捕捉到两画的偏旁和四画的偏旁的信息。

其次，N-Gram模型没有区分一个笔画的N-Gram在汉字中不同位置的区别，例如，同样是一个“134”的笔画3-Gram，“134”在字“134521”的里面处于前部，则“134”很可能就是一个部首；但是对于汉字“2512134”，“134”处在尾部，则“134”很可能就不是部首。

最后，N-Gram模型没有关注汉字本身的整体信息，仅关注了局部的N-Gram信息，易导致一些词层面的整体意义无法被捕捉。

针对上述现有的词语获取方法采用基于笔画的拆解方法获取待召回的词语，所获取的待召回的词语准确性较低的技术问题，目前尚未提出有效的解决方案。

发明内容

本申请实施例提供了一种词语的获取方法及装置、商品搜索方法，以至少解决现有的词语获取方法采用基于笔画的拆解方法获取待召回的词语，所获取的待召回的词语准确性较低的技术问题。

根据本申请实施例的一个方面，提供了一种词语的获取方法，包括：将输入的词语转换为初始笔画序列；为上述初始笔画序列添加端部标记，得到处理后笔画序列；通过对上述处理后笔画序列进行拆分，获取上述词语对应的第一词向量；根据上述第一词向量与第一词语集合中各个词语对应的第二词向量之间的相似度来确定待召回的词语，其中，上述第一词语集合由预设词库构成。

根据本申请实施例的另一方面，还提供了一种词语的获取装置，包括：转换模块，用于将输入的词语转换为初始笔画序列；标记模块，用于为上述初始笔画序列添加端部标记，得到处理后笔画序列；获取模块，用于通过对上述处理后笔画序列进行拆分，获取上述词语对应的第一词向量；确定模块，用于根据上述第一词向量与第一词语集合中各个词语对应的第二词向量之间的相似度来确定待召回的词语，其中，上述第一词语集合由预设词库构成。

根据本申请实施例的另一方面，还提供了一种商品搜索方法，包括：接收目标对象输入的词语；在上述词语有误的情况下，将上述词语转换为初始笔画序列；为上述初始笔画序列添加端部标记，得到处理后笔画序列；通过对上述处理后笔画序列进行拆分，获取上述词语对应的第一词向量；根据上述第一词向量与第一词语集合中各个词语对应的第二词向量之间的相似度来确定待召回的词语，其中，上述第一词语集合由预设词库构成。

根据本申请实施例的另一方面，还提供了一种存储介质，上述存储介质包括存储的程序，其中，在上述程序运行时控制上述存储介质所在设备执行任意一项上述的词语的获取方法，和/或，上述的商品搜索方法。

根据本申请实施例的另一方面，还提供了一种处理器，上述处理器用于运行程序，其中，上述程序运行时执行任意一项上述的词语的获取方法，和/或，上述的商品搜索方法。

根据本申请实施例的另一方面，还提供了一种计算机系统，包括：处理器；以及存储器，与上述处理器连接，用于为上述处理器提供处理以下处理步骤的指令：将输入的词语转换为初始笔画序列；为上述初始笔画序列添加端部标记，得到处理后笔画序列；通过对上述处理后笔画序列进行拆分，获取上述词语对应的第一词向量；根据上述第一词向量与第一词语集合中各个词语对应的第二词向量之间的相似度来确定待召回的词语，其中，上述第一词语集合由预设词库构成。

在本申请实施例中，通过将输入的词语转换为初始笔画序列；为上述初始笔画序列添加端部标记，得到处理后笔画序列；通过对上述处理后笔画序列进行拆分，获取上述词语对应的第一词向量；根据上述第一词向量与第一词语集合中各个词语对应的第二词向量之间的相似度来确定待召回的词语，其中，上述第一词语集合由预设词库构成。

容易想到的是，本申请实施例通过先为初始笔画序列添加端部标记，得到处理后笔画序列，再对处理后笔画序列进行拆分，可以为避免现有技术不加区分一个笔画序列的在字中的位置，所导致的召回的词语不准确的问题；本申请实施例通过对上述处理后笔画序列进行拆分，获取上述词语对应的第一词向量，进而可以根据上述第一词向量与第一词语集合中各个词语对应的第二词向量之间的相似度来确定待召回的词语，有效提高了所确定的待召回的词语的准确性。

由此，本申请实施例达到了提高待召回的词语的准确性的目的，从而实现了通过提高检索准确性以提升用户体验感的技术效果，进而解决了现有的词语获取方法采用基于笔画的拆解方法获取待召回的词语，所获取的待召回的词语准确性较低的技术问题。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请实施例的一种用于实现词语的获取方法的计算机终端(或移动设备)的硬件结构框图；

图2是根据本申请实施例的一种词语的获取方法的流程图；

图3是根据本申请实施例的一种可选的词语的获取方法的场景示意图；

图4是根据本申请实施例的一种可选的词语的获取方法的流程图；

图5是根据本申请实施例的一种可选的词语的获取方法的流程图；

图6是根据本申请实施例的一种可选的词语的获取方法的流程图；

图7是根据本申请实施例的一种词语的获取装置的示意图；

图8是根据本申请实施例的一种商品搜索方法的流程图；

图9是根据本申请实施例的一种商品搜索装置的示意图；以及

图10是根据本申请实施例的一种计算机终端的结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

首先，在对本申请实施例进行描述的过程中出现的部分名词或术语适用于如下解释：

嵌入(Embedding)，此处特指词语的嵌入，指将单词从原有的空间映射到一个新的多维空间中，也就是将原先词所在空间嵌入到一个新的空间中去。

汉语语言模型(N-Gram)，是指大词汇连续语音识别中常用的一种语言模型，汉语语言模型利用上下文中相邻词间的搭配信息，可以实现到汉字的自动转换，例如，可以通过使用一个大小为n的窗口在序列数据上滑动，并将每次窗口中的数据提取出，例如，12345的3-gram即为123、234、345。

子词(sub-word)，是指比词的粒度更小的单位，可以将一个词语拆解为多个子词。

初始笔画序列(stroke-based)，是指基于笔画的序列，即为把词语转化为笔画后的一个序列。

Skip-Gram，是指一种训练word2vec模型的方法，直观上理解，Skip-Gram是给定输入词语来预测上下文，核心思想即是利用一个窗口里的中间词来预测上下文的词，其中，word2vec模型是从大量文本语料中以无监督的方式学习语义知识的一种模型，它被大量地用在自然语言处理(NLP)中。

实施例1

根据本申请实施例，提供了一种词语的获取方法的实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

本申请实施例1所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。图1示出了一种用于实现词语的获取方法的计算机终端(或移动设备)的硬件结构框图，如图1所示，计算机终端10(或移动设备10)可以包括一个或多个(图中采用102a、102b，……，102n来示出)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器104、以及用于通信功能的传输模块106。除此以外，还可以包括：显示器、输入/输出接口(I/O接口)、通用串行总线(USB)端口(可以作为I/O接口的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述电子装置的结构造成限定。例如，计算机终端10还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。

应当注意到的是上述一个或多个处理器102和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外，数据处理电路可为单个独立的处理模块，或全部或部分的结合到计算机终端10(或移动设备)中的其他元件中的任意一个内。如本申请实施例中所涉及到的，该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。

存储器104可用于存储应用软件的软件程序以及模块，如本申请实施例中的词语的获取方法对应的程序指令/数据存储装置，处理器102通过运行存储在存储器104内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的词语的获取方法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104可进一步包括相对于处理器102远程设置的存储器，这些远程存储器可以通过网络连接至计算机终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端10的通信供应商提供的无线网络。在一个实例中，传输装置106包括一个网络适配器(Network Interface Controller，NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输装置106可以为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

显示器可以例如触摸屏式的液晶显示器(LCD)，该液晶显示器可使得用户能够与计算机终端10(或移动设备)的用户界面进行交互。

在上述运行环境下，本申请提供了如图2所示的一种词语的获取方法。图2是根据本申请实施例的一种词语的获取方法的流程图，如图2所示，上述词语的获取方法可以通过如下方法步骤实现：

步骤S202，将输入的词语转换为初始笔画序列。

需要说明的是，本申请实施例可以但不限于应用于商品搜索时的形近字召回的场景中，例如，在用户使用京东、亚马逊、苏宁易购等电商平台进行购物时，在电商平台的购物界面的搜索框中输入商品名称进行商品搜索时，由于用户输入词语错误导致的需要召回正确的商品名称的应用场景。

并且，本申请实施例还可以应用于文字输入场景，例如，用户在输入文字时，由于用户输入词语错误导致的需要召回正确的词语的应用场景。本申请实施例仍可以应用于搜索引擎的检索场景，例如，用户在搜索引擎的搜索框中输入文字进行检索时，由于用户输入词语错误导致的需要召回正确的词语的应用场景，等等。

在本申请实施例中，可以先将当前接收到的用户输入的每个词转换为笔画，并得到初始笔画序列(例如，stroke-based词)，其中，在上述初始笔画序列中，每个数字代表一个笔画，并且在一个词语中的每个汉字之间，可以采用符号“#”进行分隔，如图3所示，由于对应新华词典中的笔画，“你”对应的笔画序列为：“3235234”，“好”对应的笔画序列为：“531521”，因此，可以将词语“你好”转换为初始笔画序列“3235234#531521”。

步骤S204，为上述初始笔画序列添加端部标记，得到处理后笔画序列。

在本申请实施例中，可以在上述初始笔画序列的端部(首部)添加一个标记，即，为上述初始笔画序列添加端部标记，得到处理后笔画序列，进而，使得在后续进行N-Gram拆分时，同一个N-Gram在初始笔画序列的端部、初始笔画序列的中部，以及初始笔画序列的尾部均可以被区分开。

在一种可选的实施例中，可以为上述初始笔画序列分别添加端部标记和尾部标记，得到上述处理后笔画序列。

例如，在对初始笔画序列“124#312”添加端部标记和尾部标记之后，得到处理后笔画序列“<124#312>”，在后续进行N-Gram拆分时，虽然初始笔画序列中的“<12”和“12>”在本质上都是两个笔画的集合，但是，由于初始笔画序列添加了端部标记和尾部标记，因而，“<12”和“12>”的在字或词语中的位置可以很好的被区分开来。

仍如图3所示，通过为初始笔画序列“3235234#531521”添加端部标记和尾部标记，可以得到处理后笔画序列“<3235234#531521>”，进而可以有效区别笔画在字或词语中的不同位置。

需要说明的是，对于同一个笔画序列而言，其位置处于一个词的端部、中部或尾部对其本身的含义和影响非常大，例如，同一个笔画序列，在词的端部时作为部首的可能性要远大于其在词的中部时，本申请实施例通过为上述初始笔画序列添加端部标记和尾部标记，可以更好的利用此类信息，提高确定待召回的词语的准确性。

步骤S206，通过对上述处理后笔画序列进行拆分，获取上述词语对应的第一词向量。

步骤S208，根据上述第一词向量与第一词语集合中各个词语对应的第二词向量之间的相似度来确定待召回的词语。

在上述步骤S208中，上述第一词语集合由预设词库构成，上述预设词库为预设搜索引擎对应的词库。

通过上述实施例，在对上述处理后笔画序列进行拆分之后，获取上述词语对应的第一词向量，可以实现有效地学习未知词的向量表示，例如，若出现了一个服务器没有见过的新词，但由于该新词所拆分出的处理后笔画序列中，可能存在一部分笔画序列已经算出了词语对应的子词向量，因而，服务器可以很容易计算得到与这个新词对应的向量表示。

作为一种可选的实施例，对于每一个用户输入的词语，均可以通过上述可选的实施例进行拆分，得到子词集合，并根据上述子词集合中子词对应的子词向量的平均值，得到这个词语的第一词向量，进而通过将上述第一词向量与第一词语集合中各个词语对应的第二词向量之间的相似度，来确定与用户输入的词语最相似的词语作为待召回的词语。

在一种可选的实施例中，如图4所示，上述步骤S206，通过对上述处理后笔画序列进行拆分，获取上述第一词向量包括：

步骤S302，从上述处理后笔画序列中拆分出多个分段序列，其中，上述多个分段序列的数量为预设取值范围。

在本申请实施例中，可以通过N-Gram模型，对上述处理后笔画序列进行拆分，从上述处理后笔画序列中拆分出多个分段序列，例如，n个分段序列，其中，上述多个分段序列的数量为预设取值范围，例如，可以但不限于为任意指定的数量。

为避免现有技术中N-Gram模型不够灵活的问题，通过上述可选的实施例，本申请实施例将处理后笔画序列拆分出多个分段序列，并且，预先设置上述多个分段序列的数量为预设取值范围，进而可以捕捉到不同长度的笔画序列的信息，提高N-Gram模型的灵活性。

步骤S304，将上述多个分段序列和上述处理后笔画序列设置为子词集合。

在上述可选的实施例中，在拆分得到多个分段序列之后，本申请实施例将上述多个分段序列和上述处理后笔画序列设置为子词集合，通过上述方法步骤，本申请实施例可以使得多个分段序列的数量在较大范围内变化，可以捕捉更加丰富的信息，例如，单人旁是两画，三点水是三画，王字旁是四画，以上偏旁的信息均可以被捕捉到。此外，本申请实施例还将词语本身的整个笔画序列(即，处理后笔画序列)加入到了最后形成的子词集合中，关注了词语本身的整体信息。

步骤S306，对上述子词集合中每个子词进行训练，得到对应的子词向量；

步骤S308，通过计算每个子词对应的子词向量的平均值，得到上述第一词向量。

在一种可选的实施例中，本申请实施例通过采用word2vec模型中的skip-gram的方法训练上述子词集合中每个子词，即每次均可以采用子词集合中的每个子词(每个元素)，来计算这个子词的子词向量，进而可以但不限于通过逻辑回归的方法优化子词集合中每个子词的向量表示。

可以得知的是，本申请实施例通过训练得到每个子词的子词向量表示，通过计算每个子词对应的子词向量的平均值，所拆分出的子词集合中的所有子词的子词向量的平均值也即上述第一词向量。

仍如图3所示，将上述多个分段序列和上述处理后笔画序列“<3235234#531521>”设置得到的子词集合为“<3，<32，<323，<3235，<32352，……，31512>，1512>，512>，12>，2>，<3235234#531521>”，通过对上述子词集合中每个子词进行训练，得到对应的子词向量为：“向量1，向量2，……向量N”。

通过上述实施例，可以实现有效地学习未知词的向量表示，例如，若出现了一个没有见过的新词，但由于该新词所拆分出的处理后笔画序列中，可能存在一部分笔画序列已经算出了词语对应的子词向量，因而，可以很容易得到这个新词对应的向量表示。

作为一种可选的实施例，如图3所示，对于每一个用户输入的词语，均可以通过上述可选的实施例拆分出子词集合，进而根据上述子词集合中子词对应的子词向量的平均值，得到这个词语的第一词向量，进而通过将上述第一词向量与第一词语集合中各个词语对应的第二词向量之间的相似度，来确定与用户输入的词语最相似的词语作为待召回的词语。

在一种可选的实施例中，如图5所示，上述步骤S302，从上述处理后笔画序列中拆分出上述多个分段序列包括：

步骤S402，设置步骤，按照预设顺序遍历上述预设取值范围中的取值，设置当前与上述处理后笔画序列对应的滑动窗口大小；

步骤S404，拆分步骤，按照上述滑动窗口大小对上述处理后笔画序列进行拆分，得到与上述滑动窗口大小对应的分段序列；

步骤S406，判断步骤，判断上述预设取值范围中的取值是否已经遍历完毕，如果是，则得到上述多个分段序列；如果否，则返回上述设置步骤。

以下通过一个可选的示例对上述步骤S402至步骤S406进行解释说明：

在一种可选的实施例中，若上述多个分段序列的数量n的预设取值范围是2-4，上述预设取值范围中的取值即为2、3、4，当前与上述处理后笔画序列对应的滑动窗口大小对应上述取值，也为2、3、4。

按照上述滑动窗口大小对上述处理后笔画序列进行拆分，则可以将一个处理后笔画序列“<134#12>”，拆分成2-Gram可以得到分段序列：[<1,13,34,4#,#1,12,2>]，拆分成3-Gram可以得到分段序列：[<13,134,34#,4#1,#12,12>]；同理，还可以采用相同的方法将上述处理后笔画序列拆分成分段序列4-Gram，再将上述所有的分段序列2-Gram、3-Gram、4-Gram拼凑起来，与处理后笔画序列一起得到子词集合：“[<1,13,34,4#,#1,12,2>,<13,134,34#,4#1,#12,12>,<134,134#,34#1,4#12,#12>,<134#12>]”。

在一种可选的实施例中，步骤S208，根据上述第一词向量与上述第一词语集合中各个词语对应的第二词向量之间的相似度来确定上述待召回的词语包括：

步骤S502，通过比较上述第一词向量与上述第一词语集合中各个词语对应的第二词向量之间的相似度，将上述第一词语集合中与上述第一词向量相似度最高的第二词向量所对应的词语确定为上述待召回的词语。

需要说明的是，通过词语嵌入(Embedding)的方式进行排序在大多数情况下比较准确，例如：在第一词向量与第一词语集合中各个词语对应的第二词向量之间的相似度为1.0的情况下，可以肯定待召回的词语与用户输入的词语是非常相关的词语。

但是，也存在部分情况采用词语嵌入的方式，所得到的排序结果不理想，例如，词语1的相似度为0.7，词语2的相似度为0.68，但是，存在一种可能性：词语1与用户输入的词语的相关度，实际上比词语2与用户输入的词语的相关度还要更低，在此情况下，词语嵌入的排序方式则无法将词语2召回，因而，本申请实施例还提供以下实施例中所提供的方法步骤，可以但不限于采用另外一个模型进行二次精确排序以得到并召回上述词语2。

在一种可选的实施例中，如图6所示，步骤S502，根据上述第一词向量与上述第一词语集合中各个词语对应的第二词向量之间的相似度来确定上述待召回的词语包括：

步骤S602，通过比较上述第一词向量与上述第一词语集合中各个词语对应的第二词向量之间的相似度，获取第二词语集合；

步骤S604，采用预设排序模型对上述第二词语集合各个词语进行排序，并根据排序结果来确定上述待召回的词语。

在上述可选的实施例中，上述第二词语集合各个词语对应的第二词向量与上述第一词向量之间的相似度大于预设阈值，上述预设排序模型是通过大量与上述词语的相关度样本训练得到。例如，可以为通过一些负样本训练得到的一个重排序模型。

在本申请的另一种实施例中，还可以不直接召回与用户输入的词语最相似的词语，而是先通过比较上述第一词向量与上述第一词语集合中各个词语对应的第二词向量之间的相似度，获取第二词语集合，其中，上述第二词语集合为包括相似度最高的多个词的一个候选集合，然后采样一些负样本来训练得到上述预设排序模型，并采用预设排序模型对召回的第二词语集合进行重新排序，根据排序结果来确定上述待召回的词语，例如，可以将排在排序结果第一位的词语作为最终的待召回的词语。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本申请各个实施例上述的方法。

实施例2

根据本申请实施例，还提供了一种用于实施上述词语的获取方法的装置实施例，

图7是根据本申请实施例的一种词语的获取装置的示意图，如图7所示，该装置700包括：转换模块702、标记模块704、获取模块706和确定模块708，其中：

转换模块702，用于将输入的词语转换为初始笔画序列；标记模块704，用于为上述初始笔画序列添加端部标记，得到处理后笔画序列；获取模块706，用于通过对上述处理后笔画序列进行拆分，获取上述词语对应的第一词向量；确定模块708，用于根据上述第一词向量与第一词语集合中各个词语对应的第二词向量之间的相似度来确定待召回的词语，其中，上述第一词语集合由预设词库构成。

在一种可选的实施例中，上述获取模块706包括：拆分子模块7062，用于从上述处理后笔画序列中拆分出多个分段序列，其中，上述多个分段序列的数量为预设取值范围；设置子模块7064，用于将上述多个分段序列和上述处理后笔画序列设置为子词集合；训练子模块7066，用于对上述子词集合中每个子词进行训练，得到对应的子词向量；计算子模块7068，用于通过计算每个子词对应的子词向量的平均值，得到上述第一词向量。

此处需要说明的是，上述转换模块702、标记模块704、获取模块706和确定模块708对应于实施例1中的步骤S202至步骤S208，四个模块与对应的步骤所实现的实例和应用场景相同，但不限于上述实施例1所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在实施例1提供的计算机终端10中。

需要说明的是，本实施例的可选或优选实施方式可以参见实施例1中的相关描述，此处不再赘述。

实施例3

根据本申请实施例，还提供了一种计算机系统的实施例，包括：处理器；以及存储器，与上述处理器连接，用于为上述处理器提供处理以下处理步骤的指令：将输入的词语转换为初始笔画序列；为上述初始笔画序列添加端部标记，得到处理后笔画序列；通过对上述处理后笔画序列进行拆分，获取上述词语对应的第一词向量；根据上述第一词向量与第一词语集合中各个词语对应的第二词向量之间的相似度来确定待召回的词语，其中，上述第一词语集合由预设词库构成。

实施例4

根据本申请实施例，还提供了一种商品搜索方法的实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

图8是根据本申请实施例的一种商品搜索方法的流程图，如图8所示，该方法可以通过如下方法步骤实现：

步骤S802，接收目标对象输入的词语；

步骤S804，在上述词语有误的情况下，将上述词语转换为初始笔画序列；

步骤S806，为上述初始笔画序列添加端部标记，得到处理后笔画序列；

步骤S808，通过对上述处理后笔画序列进行拆分，获取上述词语对应的第一词向量；

步骤S810，根据上述第一词向量与第一词语集合中各个词语对应的第二词向量之间的相似度来确定待召回的词语，其中，上述第一词语集合由预设词库构成。

需要说明的是，本申请实施例可以但不限于应用于商品搜索时的形近字召回的场景中，例如，在用户使用京东、亚马逊、苏宁易购等电商平台进行购物时，在电商平台的购物界面的搜索框中输入商品名称进行商品搜索时，由于用户输入的词语错误，所导致的需要召回正确的商品名称的应用场景。

可选的，上述目标对象可以为用户，例如，电商平台的用户等；用户可以通过鼠标、键盘等输入设备输入上述词语，但是，在用户输入商品名称搜索对应的商品时，存在不小心将一些字打错的情况，即，存在用户输入的词语有误的情况，此时直接检索包含错字的词语是无法搜索到真正的对应商品的，因而需要依据本申请实施例所提供的商品搜索方法，先召回一些与有误词语对应的正确词语，并依据正确词语搜索到用户所需的商品。

在上述应用场景中，依据本申请实施例确定的待召回的词语，可以确定用户实际所需输入的正确的商品名称，进而可以依据正确的商品名称搜索到用户所需的商品，提高用户在电商平台进行商品搜索的准确性和搜索效率。

并且，本申请实施例还可以应用于文字输入场景，例如，用户在输入文字时，由于用户输入的词语错误导致的需要召回正确的词语的应用场景。本申请实施例仍可以应用于搜索引擎的检索场景，例如，用户在搜索引擎的搜索框中输入文字进行检索时，由于用户输入词语错误导致的需要召回正确的词语的应用场景，等等。

仍需要说明的是，本实施例的可选或优选实施方式可以参见实施例1中的相关描述，此处不再赘述。

实施例5

根据本申请实施例，还提供了一种用于实施上述商品搜索方法的装置实施例，图9是根据本申请实施例的一种商品搜索装置的示意图，如图9所示，该装置900包括：接收单元902、转换单元904、标记单元906、获取单元908和确定单元910，其中：

接收单元902，用于接收目标对象输入的词语；转换单元904，用于在上述词语有误的情况下，将上述词语转换为初始笔画序列；标记单元906，用于为上述初始笔画序列添加端部标记，得到处理后笔画序列；获取单元908，用于通过对上述处理后笔画序列进行拆分，获取上述词语对应的第一词向量；确定单元910，用于根据上述第一词向量与第一词语集合中各个词语对应的第二词向量之间的相似度来确定待召回的词语，其中，上述第一词语集合由预设词库构成。

此处需要说明的是，上述接收单元902、转换单元904、标记单元906、获取单元908和确定单元910对应于实施例4中的步骤S802至步骤S810，五个单元与对应的步骤所实现的实例和应用场景相同，但不限于上述实施例4所公开的内容。需要说明的是，上述单元作为装置的一部分可以运行在实施例1提供的计算机终端10中。

需要说明的是，本实施例的可选或优选实施方式可以参见实施例1至4中的相关描述，此处不再赘述。

实施例6

根据本申请的实施例，还提供一种计算机终端的实施例，该计算机终端可以是计算机终端群中的任意一个计算机终端设备。可选地，在本实施例中，上述计算机终端也可以替换为移动终端等终端设备。

可选地，在本实施例中，上述计算机终端可以位于计算机网络的多个网络设备中的至少一个网络设备。

在本实施例中，上述计算机终端可以执行词语的获取方法中以下步骤的程序代码：将输入的词语转换为初始笔画序列；为上述初始笔画序列添加端部标记，得到处理后笔画序列；通过对上述处理后笔画序列进行拆分，获取上述词语对应的第一词向量；根据上述第一词向量与第一词语集合中各个词语对应的第二词向量之间的相似度来确定待召回的词语，其中，上述第一词语集合由预设词库构成。

可选地，图10是根据本申请实施例的一种计算机终端的结构框图，如图10所示，该计算机终端1000可以包括：一个或多个(图中仅示出一个)处理器1002、存储器1004、以及外设接口1006。

其中，存储器可用于存储软件程序以及模块，如本申请实施例中的词语的获取方法和装置对应的程序指令/模块，处理器通过运行存储在存储器内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的词语的获取方法。存储器可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器可进一步包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至计算机终端1000。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

处理器可以通过传输装置调用存储器存储的信息及应用程序，以执行下述步骤：将输入的词语转换为初始笔画序列；为上述初始笔画序列添加端部标记，得到处理后笔画序列；通过对上述处理后笔画序列进行拆分，获取上述词语对应的第一词向量；根据上述第一词向量与第一词语集合中各个词语对应的第二词向量之间的相似度来确定待召回的词语，其中，上述第一词语集合由预设词库构成。

可选的，上述处理器还可以执行如下步骤的程序代码：从上述处理后笔画序列中拆分出多个分段序列，其中，上述多个分段序列的数量为预设取值范围；将上述多个分段序列和上述处理后笔画序列设置为子词集合；对上述子词集合中每个子词进行训练，得到对应的子词向量；通过计算每个子词对应的子词向量的平均值，得到上述第一词向量。

可选的，上述处理器还可以执行如下步骤的程序代码：设置步骤，按照预设顺序遍历上述预设取值范围中的取值，设置当前与上述处理后笔画序列对应的滑动窗口大小；拆分步骤，按照上述滑动窗口大小对上述处理后笔画序列进行拆分，得到与上述滑动窗口大小对应的分段序列；判断步骤，判断上述预设取值范围中的取值是否已经遍历完毕，如果是，则得到上述多个分段序列；如果否，则返回上述设置步骤。

可选的，上述处理器还可以执行如下步骤的程序代码：通过比较上述第一词向量与上述第一词语集合中各个词语对应的第二词向量之间的相似度，将上述第一词语集合中与上述第一词向量相似度最高的第二词向量所对应的词语确定为上述待召回的词语。

可选的，上述处理器还可以执行如下步骤的程序代码：通过比较上述第一词向量与上述第一词语集合中各个词语对应的第二词向量之间的相似度，获取第二词语集合，其中，上述第二词语集合各个词语对应的第二词向量与上述第一词向量之间的相似度大于预设阈值；采用预设排序模型对上述第二词语集合各个词语进行排序，并根据排序结果来确定上述待召回的词语，其中，上述预设排序模型是通过大量与上述词语的相关度样本训练得到。

采用本申请实施例，提供了一种词语的获取的方案，通过将输入的词语转换为初始笔画序列；为上述初始笔画序列添加端部标记，得到处理后笔画序列；通过对上述处理后笔画序列进行拆分，获取上述词语对应的第一词向量；根据上述第一词向量与第一词语集合中各个词语对应的第二词向量之间的相似度来确定待召回的词语，其中，上述第一词语集合由预设词库构成。

处理器还可以通过传输装置调用存储器存储的信息及应用程序，以执行下述步骤：接收目标对象输入的词语；在上述词语有误的情况下，将上述词语转换为初始笔画序列；为上述初始笔画序列添加端部标记，得到处理后笔画序列；通过对上述处理后笔画序列进行拆分，获取上述词语对应的第一词向量；根据上述第一词向量与第一词语集合中各个词语对应的第二词向量之间的相似度来确定待召回的词语，其中，上述第一词语集合由预设词库构成。

本领域普通技术人员可以理解，图10所示的结构仅为示意，计算机终端也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌声电脑以及移动互联网设备(MobileInternet Devices，MID)、PAD等终端设备。图10其并不对上述电子装置的结构造成限定。例如，计算机终端1000还可包括比图10中所示更多或者更少的组件(如网络接口、显示装置等)，或者具有与图10所示不同的配置。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(Read-Only Memory，ROM)、随机存取器(RandomAccess Memory，RAM)、磁盘或光盘等。

实施例7

根据本申请的实施例，还提供了一种存储介质的实施例。可选地，在本实施例中，上述存储介质可以用于保存上述实施例1所提供的词语的获取方法所执行的程序代码，和/或实施例4所提供的商品搜索方法所执行的程序代码。

可选地，在本实施例中，上述存储介质可以位于计算机网络中计算机终端群中的任意一个计算机终端中，或者位于移动终端群中的任意一个移动终端中。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：将输入的词语转换为初始笔画序列；为上述初始笔画序列添加端部标记，得到处理后笔画序列；通过对上述处理后笔画序列进行拆分，获取上述词语对应的第一词向量；根据上述第一词向量与第一词语集合中各个词语对应的第二词向量之间的相似度来确定待召回的词语，其中，上述第一词语集合由预设词库构成。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：从上述处理后笔画序列中拆分出多个分段序列，其中，上述多个分段序列的数量为预设取值范围；将上述多个分段序列和上述处理后笔画序列设置为子词集合；对上述子词集合中每个子词进行训练，得到对应的子词向量；通过计算每个子词对应的子词向量的平均值，得到上述第一词向量。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：设置步骤，按照预设顺序遍历上述预设取值范围中的取值，设置当前与上述处理后笔画序列对应的滑动窗口大小；拆分步骤，按照上述滑动窗口大小对上述处理后笔画序列进行拆分，得到与上述滑动窗口大小对应的分段序列；判断步骤，判断上述预设取值范围中的取值是否已经遍历完毕，如果是，则得到上述多个分段序列；如果否，则返回上述设置步骤。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：通过比较上述第一词向量与上述第一词语集合中各个词语对应的第二词向量之间的相似度，将上述第一词语集合中与上述第一词向量相似度最高的第二词向量所对应的词语确定为上述待召回的词语。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：通过比较上述第一词向量与上述第一词语集合中各个词语对应的第二词向量之间的相似度，获取第二词语集合，其中，上述第二词语集合各个词语对应的第二词向量与上述第一词向量之间的相似度大于预设阈值；采用预设排序模型对上述第二词语集合各个词语进行排序，并根据排序结果来确定上述待召回的词语，其中，上述预设排序模型是通过大量与上述词语的相关度样本训练得到。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：接收目标对象输入的词语；在上述词语有误的情况下，将上述词语转换为初始笔画序列；为上述初始笔画序列添加端部标记，得到处理后笔画序列；通过对上述处理后笔画序列进行拆分，获取上述词语对应的第一词向量；根据上述第一词向量与第一词语集合中各个词语对应的第二词向量之间的相似度来确定待召回的词语，其中，上述第一词语集合由预设词库构成。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

在本申请的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本申请的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种词语的获取方法，包括：

将输入的词语转换为初始笔画序列；

为所述初始笔画序列添加端部标记，得到处理后笔画序列；

通过对所述处理后笔画序列进行拆分，获取所述词语对应的第一词向量；

根据所述第一词向量与第一词语集合中各个词语对应的第二词向量之间的相似度来确定待召回的词语，其中，所述第一词语集合由预设词库构成；

其中，通过对所述处理后笔画序列进行拆分，获取所述第一词向量包括：从所述处理后笔画序列中拆分出多个分段序列，其中，所述多个分段序列的数量为预设取值范围；将所述多个分段序列和所述处理后笔画序列设置为子词集合；对所述子词集合中每个子词进行训练，得到对应的子词向量；通过计算每个子词对应的子词向量的平均值，得到所述第一词向量。

2.根据权利要求1所述的方法，其中，从所述处理后笔画序列中拆分出所述多个分段序列包括：

设置步骤，按照预设顺序遍历所述预设取值范围中的取值，设置当前与所述处理后笔画序列对应的滑动窗口大小；

拆分步骤，按照所述滑动窗口大小对所述处理后笔画序列进行拆分，得到与所述滑动窗口大小对应的分段序列；

判断步骤，判断所述预设取值范围中的取值是否已经遍历完毕，如果是，则得到所述多个分段序列；如果否，则返回所述设置步骤。

3.根据权利要求1所述的方法，其中，根据所述第一词向量与所述第一词语集合中各个词语对应的第二词向量之间的相似度来确定所述待召回的词语包括：

通过比较所述第一词向量与所述第一词语集合中各个词语对应的第二词向量之间的相似度，将所述第一词语集合中与所述第一词向量相似度最高的第二词向量所对应的词语确定为所述待召回的词语。

4.根据权利要求1所述的方法，其中，根据所述第一词向量与所述第一词语集合中各个词语对应的第二词向量之间的相似度来确定所述待召回的词语包括：

通过比较所述第一词向量与所述第一词语集合中各个词语对应的第二词向量之间的相似度，获取第二词语集合，其中，所述第二词语集合各个词语对应的第二词向量与所述第一词向量之间的相似度大于预设阈值；

采用预设排序模型对所述第二词语集合各个词语进行排序，并根据排序结果来确定所述待召回的词语，其中，所述预设排序模型是通过大量与所述词语的相关度样本训练得到。

5.根据权利要求1所述的方法，其中，为所述初始笔画序列添加端部标记，得到所述处理后笔画序列包括：

为所述初始笔画序列添加所述端部标记和尾部标记，得到所述处理后笔画序列。

6.根据权利要求1所述的方法，其中，所述预设词库为预设搜索引擎对应的词库。

7.一种商品搜索方法，包括：

接收目标对象输入的词语；

在所述词语有误的情况下，将所述词语转换为初始笔画序列；

为所述初始笔画序列添加端部标记，得到处理后笔画序列；

8.一种词语的获取装置，包括：

转换模块，用于将输入的词语转换为初始笔画序列；

标记模块，用于为所述初始笔画序列添加端部标记，得到处理后笔画序列；

获取模块，用于通过对所述处理后笔画序列进行拆分，获取所述词语对应的第一词向量；

确定模块，用于根据所述第一词向量与第一词语集合中各个词语对应的第二词向量之间的相似度来确定待召回的词语，其中，所述第一词语集合由预设词库构成；

其中，所述获取模块还用于通过对所述处理后笔画序列进行拆分，获取所述第一词向量包括：从所述处理后笔画序列中拆分出多个分段序列，其中，所述多个分段序列的数量为预设取值范围；将所述多个分段序列和所述处理后笔画序列设置为子词集合；对所述子词集合中每个子词进行训练，得到对应的子词向量；通过计算每个子词对应的子词向量的平均值，得到所述第一词向量。

9.一种存储介质，所述存储介质包括存储的程序，其中，在所述程序运行时控制所述存储介质所在设备执行权利要求1至6中任意一项所述的词语的获取方法，和/或，权利要求7中所述的商品搜索方法。

10.一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行权利要求1至6中任意一项所述的词语的获取方法，和/或，权利要求7中所述的商品搜索方法。

11.一种计算机系统，包括：

处理器；以及

存储器，与所述处理器连接，用于为所述处理器提供处理以下处理步骤的指令：

将输入的词语转换为初始笔画序列；

为所述初始笔画序列添加端部标记，得到处理后笔画序列；