CN111353016B

CN111353016B - 文本处理方法及装置

Info

Publication number: CN111353016B
Application number: CN201811585330.6A
Authority: CN
Inventors: 徐光伟
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2018-12-24
Filing date: 2018-12-24
Publication date: 2023-04-18
Anticipated expiration: 2038-12-24
Also published as: CN111353016A

Abstract

本申请实施例提供了一种文本处理方法及装置。在本申请中，获取第一文本；如果预设文本集合中不存在第一文本，则将第一文本拆分为至少一个分词；获取每一个分词中的所有的笔画的顺序；使用每一个分词中的所有的笔画的顺序和预设语义模型，在预设文本集合中获取与第一文本之间的语义相似度大于预设阈值的第二文本，相比于在预设文本集合中不存在第一文本时无法向用户反馈信息，本申请可以向用户反馈第二文本或第二文本对应的信息，进而可以提高用户体验。

Description

文本处理方法及装置

技术领域

本申请涉及计算机技术领域，特别是涉及一种文本处理方法及装置。

背景技术

随着技术的飞速发展，市面上出现了很多用于销售商品的电商平台。

例如，某一电商平台销售有多个商品，电商平台会将销售的所有商品的商品名称存储在商品名称集合中，例如马铃薯、胡萝卜以及芹菜等等，假设用户需要在电商平台上购买马铃薯，但是该用户通常使用薯仔来表示马铃薯，因此，用户在电子设备中登录电商平台的页面之后，往往会在搜索框中输入搜索词“薯仔”来搜索关于马铃薯的信息。

然而搜索词“薯仔”并未存储在商品名称集合中，也即，无法搜索到搜索词“薯仔”所对应的商品，无法向用户反馈搜索词“薯仔”所对应的商品，用户也就无法查看到搜索词“薯仔”所对应的商品，从而无法购买搜索词“薯仔”所对应的商品，导致用户体验较低。

发明内容

为解决上述技术问题，本申请实施例示出了一种文本处理方法及装置。

第一方面，本申请实施例示出了一种文本处理方法，所述方法包括：

获取第一文本；

如果预设文本集合中不存在所述第一文本，则将所述第一文本拆分为至少一个分词；

获取每一个分词中的所有的笔画的顺序；

使用每一个分词中的所有的笔画的顺序和预设语义模型，在所述预设文本集合中获取与所述第一文本之间的语义相似度大于预设阈值的第二文本。

在一个可选的实现方式中，所述预设语义模型包括基于神经网络的语义模型。

在一个可选的实现方式中，所述预设语义模型通过如下方式得到：

获取样本文本和与样本文本之间的语义相似度小于预设阈值的相似文本；

获取样本文本中的每一个分词的所有的笔画的顺序；

获取相似文本中的每一个分词的所有的笔画的顺序；

使用所述样本文本中的每一个分词的所有的笔画的顺序和所述相似文本中的每一个分词的所有的笔画的顺序对预设的模型进行训练，直至所述预设的模型中的参数均收敛，从而得到所述预设语义模型。

在一个可选的实现方式中，所述使用每一个分词中的所有的笔画的顺序和预设语义模型，在所述预设文本集合中获取与所述第一文本之间的语义相似度大于预设阈值的第二文本，包括：

对于每一个分词，根据所述分词中的所有的笔画的顺序获取所述分词的分词向量；

使用每一个分词的分词向量和所述预设语义模型，在所述预设文本集合中获取与所述第一文本之间的语义相似度大于预设阈值的第二文本。

在一个可选的实现方式中，所述预设的模型包括级联的卷积CNN、长短期记忆网络LSTM以及归一化指数函数SOFTMAX。

在一个可选的实现方式中，所述使用每一个分词的分词向量和所述预设语义模型，在所述预设文本集合中获取所述第二文本，包括：

通过所述预设语义模型中的CNN对每一个分词的分词向量分别池化处理，得到池化处理后的每一个分词的分词向量；

根据所述预设语义模型中的LSTM和池化处理后的每一个分词的分词向量获取每一个分词之间的关联关系；

根据每一个分词之间的关联关系和所述预设语义模型中的SOFTMAX从所述预设文本集合中获取与所述第一文本之间的语义相似度大于预设阈值的第二文本。

在一个可选的实现方式中，所述根据所述分词中的所有的笔画的顺序获取所述分词的分词向量，包括：

在所述分词中的所有的笔画的顺序中，将每相邻的至少两个笔画的顺序分别组成一个新的笔画的顺序，得到多个新的笔画的顺序；

根据每一个新的笔画的顺序分别确定所述分词的一个分词向量，得到所述分词的多个分词向量。

在一个可选的实现方式中，所述获取每一个分词中的所有的笔画的顺序，包括：

对于每一个分词，获取所述分词中包括的每一个象形文字；

分别获取每一个象形文字的笔画的顺序；

根据每一个象形文字在所述分词中的位置将每一个象形文字的笔画的顺序组成所述分词中的所有的笔画的顺序。

在一个可选的实现方式中，所述分别获取每一个象形文字的笔画的顺序，包括：

在象形文字与笔画的顺序之间的预设对应关系中，分别查找与每一个象形文字相对应的笔画的顺序。

在一个可选的实现方式中，所述象形文字包括：汉语中的文字、韩语中的文字以及日语中的文字。

第二方面，本申请实施例示出了一种搜索方法，所述方法包括：

获取在搜索框中输入的第一搜索关键词；

如果预设搜索关键词集合中不存在所述第一搜索关键词，则将所述第一搜索关键词拆分为至少一个搜索分词；

获取每一个搜索分词中的所有的笔画的顺序；

使用每一个搜索分词中的所有的笔画的顺序和预设语义模型，在所述预设搜索关键词集合中获取与所述第一搜索关键词之间的语义相似度大于预设阈值的第二搜索关键词；

使用所述第二搜索关键词进行搜索。

第三方面，本申请实施例示出了一种文本处理装置，所述装置包括：

第一获取模块，用于获取第一文本；

第一拆分模块，用于如果预设文本集合中不存在所述第一文本，则将所述第一文本拆分为至少一个分词；

第二获取模块，用于获取每一个分词中的所有的笔画的顺序；

第三获取模块，用于使用每一个分词中的所有的笔画的顺序和预设语义模型，在所述预设文本集合中获取与所述第一文本之间的语义相似度大于预设阈值的第二文本。

在一个可选的实现方式中，所述装置还包括：

第四获取模块，用于获取样本文本和与样本文本之间的语义相似度小于预设阈值的相似文本；

第五获取模块，用于获取样本文本中的每一个分词的所有的笔画的顺序；

第六获取模块，用于获取相似文本中的每一个分词的所有的笔画的顺序；

训练模块，用于使用所述样本文本中的每一个分词的所有的笔画的顺序和所述相似文本中的每一个分词的所有的笔画的顺序对预设的模型进行训练，直至所述预设的模型中的参数均收敛，从而得到所述预设语义模型。

在一个可选的实现方式中，所述第三获取模块包括：

第一获取单元，用于对于每一个分词，根据所述分词中的所有的笔画的顺序获取所述分词的分词向量；

第二获取单元，用于使用每一个分词的分词向量和所述预设语义模型，在所述预设文本集合中获取与所述第一文本之间的语义相似度大于预设阈值的第二文本。

在一个可选的实现方式中，所述第二获取单元包括：

处理子单元，用于通过所述预设语义模型中的CNN对每一个分词的分词向量分别池化处理，得到池化处理后的每一个分词的分词向量；

第一获取子单元，用于根据所述预设语义模型中的LSTM和池化处理后的每一个分词的分词向量获取每一个分词之间的关联关系；

第二获取子单元，用于根据每一个分词之间的关联关系和所述预设语义模型中的SOFTMAX从所述预设文本集合中获取与所述第一文本之间的语义相似度大于预设阈值的第二文本。

在一个可选的实现方式中，所述第一获取单元包括：

组合子单元，用于在所述分词中的所有的笔画的顺序中，将每相邻的至少两个笔画的顺序分别组成一个新的笔画的顺序，得到多个新的笔画的顺序；

确定子单元，用于根据每一个新的笔画的顺序分别确定所述分词的一个分词向量，得到所述分词的多个分词向量。

在一个可选的实现方式中，所述第二获取模块包括：

第三获取单元，用于对于每一个分词，获取所述分词中包括的每一个象形文字；

第四获取单元，用于分别获取每一个象形文字的笔画的顺序；

组合单元，用于根据每一个象形文字在所述分词中的位置将每一个象形文字的笔画的顺序组成所述分词中的所有的笔画的顺序。

在一个可选的实现方式中，所述第四获取单元具体用于：在象形文字与笔画的顺序之间的预设对应关系中，分别查找与每一个象形文字相对应的笔画的顺序。

第四方面，本申请实施例示出了一种搜索装置，所述装置包括：

第七获取模块，用于获取在搜索框中输入的第一搜索关键词；

第二拆分模块，用于如果预设搜索关键词集合中不存在所述第一搜索关键词，则将所述第一搜索关键词拆分为至少一个搜索分词；

第八获取模块，用于获取每一个搜索分词中的所有的笔画的顺序；

第九获取模块，用于使用每一个搜索分词中的所有的笔画的顺序和预设语义模型，在所述预设搜索关键词集合中获取与所述第一搜索关键词之间的语义相似度大于预设阈值的第二搜索关键词；

搜索模块，用于使用所述第二搜索关键词进行搜索。

第五方面，本申请实施例示出了一种电子设备，所述电子设备包括：

处理器；和

存储器，其上存储有可执行代码，当所述可执行代码被执行时，使得所述处理器执行如第一方面所述的文本处理方法。

第六方面，本申请实施例示出了一个或多个机器可读介质，其上存储有可执行代码，当所述可执行代码被执行时，使得处理器执行如第一方面所述的文本处理方法。

第七方面，本申请实施例示出了一种电子设备，所述电子设备包括：

处理器；和

存储器，其上存储有可执行代码，当所述可执行代码被执行时，使得所述处理器执行如第二方面所述的搜索方法。

第八方面，本申请实施例示出了一个或多个机器可读介质，其上存储有可执行代码，当所述可执行代码被执行时，使得处理器执行如第二方面所述的搜索方法。

与现有技术相比，本申请实施例包括以下优点：

在本申请中，获取第一文本；如果预设文本集合中不存在第一文本，则将第一文本拆分为至少一个分词；获取每一个分词中的所有的笔画的顺序；使用每一个分词中的所有的笔画的顺序和预设语义模型，在预设文本集合中获取与第一文本之间的语义相似度大于预设阈值的第二文本，相比于在预设文本集合中不存在第一文本时无法向用户反馈信息，本申请可以向用户反馈第二文本或第二文本对应的信息，进而可以提高用户体验。

附图说明

图1是根据一示例性实施例示出的一种文本处理方法的流程图。

图2是根据一示例性实施例示出的一种获取分词向量的方法的流程图。

图3是根据一示例性实施例示出的一种搜索方法的流程图。

图4是根据一示例性实施例示出的一种文本处理装置的框图。

图5是根据一示例性实施例示出的一种搜索装置的框图。

图6是根据一示例性实施例示出的一种文本处理装置的框图。

具体实施方式

为使本申请的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本申请作进一步详细的说明。

图1是根据一示例性实施例示出的一种文本处理方法的流程图，如图1所示，该方法包括以下步骤。

在步骤S101中，获取第一文本；

在本申请中，目标文本包括用户在电子设备中输入的文本，例如，用户在搜索框中输入的搜索词等，或者还包括电子设备从网络上下载的文本等，本申请对此不加以限定。

例如，某一电商平台销售有多个商品，电商平台会将销售的所有商品的商品名称存储在商品名称集合中，例如马铃薯、胡萝卜以及芹菜等等，假设用户需要在电商平台上购买马铃薯，但是该用户通常使用薯仔来表示马铃薯，因此，用户在电子设备中登录电商平台的页面之后，往往会在搜索框中输入搜索词“薯仔”来搜索关于马铃薯的信息，然而搜索词“薯仔”并未存储在商品名称集合中，也即，无法搜索到搜索词“薯仔”所对应的商品，无法向用户反馈搜索词“薯仔”所对应的商品，用户也就无法查看到搜索词“薯仔”所对应的商品，从而无法购买搜索词“薯仔”所对应的商品，导致用户体验较低。

但事实上，搜索词“薯仔”所对应的商品和搜索词“马铃薯”所对应的商品为同一商品，因此，在本申请中，当电子设备接收到用户输入的搜索词“薯仔”时，可以在商品名称集合确定是否存在与搜索词“薯仔”所对应的商品相同或相似的商品的商品信息，如果存在与搜索词“薯仔”所对应的商品相同或相似的商品的商品信息，则向用户反馈与搜索词“薯仔”所对应的商品相同或相似的商品的商品信息，如此使得用户根据该商品信息能够购买与搜索词“薯仔”所对应的商品相同或相似的商品，避免降低用户体验。

具体地，可以通过如下步骤S102～步骤S104的流程来在商品名称集合确定是否存在与搜索词“薯仔”所对应的商品相同或相似的商品的商品信息。

因此，在本步骤中，当获取到第一文本之后，可以在预设文本集合中查找是否存在第一文本，预设文本集合中包括至少一个文本，如果预设文本集合中存在第一文本，则可以根据实际需求直接处理第一文本，例如，获取第一文本所对应的商品的商品信息，并向用户反馈第一文本所对应的商品的商品信息，如果预设文本集合中不存在第一文本，则执行步骤S102。

在步骤S102中，如果预设文本集合中不存在第一文本，则将第一文本拆分为至少一个分词；

在本申请中，可以使用常用的任意一种分词方法来对第一文本分词，本申请对具体的分词方法不做限定。

在步骤S103中，获取每一个分词中的所有的笔画的顺序；

在本申请中，对于任意一个分词，可以通过如下流程来获取该分词中的所有的笔画的顺序，对于其他每一个分词，同样如此。

其中，该流程具体包括：

1031、获取该分词中包括的每一个象形文字；

1032、分别获取每一个象形文字的笔画的顺序；

其中，对于中文中的任意一个象形文字，事先可以确定该象形文字的笔画的顺序，然后该将象形文字与该象形文字的笔画的顺序组成对应表项，并存储在象形文字与笔画的顺序之间的预设对应关系中，对于中文中的其他每一个象形文字，同样执行上述操作。

如此，在本步骤中，可以在象形文字与笔画的顺序之间的对应关系中，分别查找与每一个象形文字相对应的笔画的顺序。

例如，假设分词为“大人”，查找到象形文字“大”的笔画的顺序为“横撇捺”，以及查找到象形文字“人”的笔画的顺序为“撇捺”。

1033、根据每一个象形文字在该分词中的位置将每一个象形文字的笔画的顺序组成该分词中的所有的笔画的顺序。

例如，分词“大人”中的象形文字“大”位于象形文字“人”前，因此，可以将象形文字“大”的笔画的顺序“横撇捺”和象形文字“人”的笔画的顺序“撇捺”组合得到“横撇捺撇捺”，并作为分词“大人”的笔画的顺序。

象形文字包括但不限于：汉语中的文字、韩语中的文字以及日语中的文字等等。

在步骤S104中，使用每一个分词中的所有的笔画的顺序和预设语义模型，在预设文本集合中获取与第一文本之间的语义相似度大于预设阈值的第二文本。

预设语义模型包括基于神经网络的语义模型。

在本申请中，预设语义模型通过如下方式得到：

获取样本文本和与样本文本之间的语义相似度小于预设阈值的相似文本；获取样本文本中的每一个分词的所有的笔画的顺序，以及获取相似文本中的每一个分词的所有的笔画的顺序，然后使用样本文本中的每一个分词的所有的笔画的顺序和相似文本中的每一个分词的所有的笔画的顺序对预设的模型进行训练，并在每一轮训练中可以结合样本文本的上下文的语义环境和相似文本的上下文语义环境，检测预设的模型对预测出的文本与样本文本之间的语义相似度是否大于预设阈值，并将检测结果应用到下一轮的训练中，以不断修改预设的模型中的参数，直至预设的模型中的参数均收敛，从而得到预设语义模型。

其中，由于预设语义模型中的参数均已收敛，因此，如果使用某一文本中的每一个分词的所有的笔画的顺序和预设语义模型来获取某一文本的相似文本，则相似文本与该某一文本之间的语义相似度往往大于预设阈值。

如此，在本步骤中，对于任意一个分词，可以根据该分词中的所有的笔画的顺序获取该分词的分词向量；对于其他每一个分词，同样如此。然后使用每一个分词的分词向量和预设语义模型，在预设文本集合中获取第二文本。例如，将每一个分词的分词向量组合为一个矩阵，并输入至预设语义模型中，得到预设语义模型根据该矩阵从预设文本集合中获取出的、即与第一文本之间的语义相似度大于预设阈值的一个文本或多个文本，并作为第二文本。

进一步，在本申请另一实施例中，预设语义模型包括级联的CNN(ConvolutionalNeural Network，卷积)、LSTM(Long Short-Term Memory，长短期记忆网络)以及SOFTMAX(归一化指数函数)。

如此，在本步骤中，可以通过预设语义模型中的CNN对每一个分词的分词向量分别池化处理，得到池化处理后的每一个分词的分词向量，其中池化处理包括最大池化处理等，然后根据预设语义模型中的LSTM和池化处理后的每一个分词的分词向量获取每一个分词之间的关联关系；根据每一个分词之间的关联关系和预设语义模型中的SOFTMAX从预设文本集合中获取与第一文本之间的语义相似度大于预设阈值的文本。

在本申请一个实施例中，参见图2，在根据该分词中的所有的笔画的顺序获取该分词的分词向量时，可以通过如下流程实现，包括：

在步骤S201中，在该分词中的所有的笔画的顺序中，将每相邻的至少两个笔画的顺序分别组成一个新的笔画的顺序，得到多个新的笔画的顺序；

其中，可以确定该分词中的所有的笔画的顺序中包括的笔画的总数量，然后确定一个大于1且小于总数量的数值，并确定位于该数值与该总数量之间的所有数量。

对于确定出的任意一个数量，在分词中的所有的笔画的顺序中，将每相邻的该数量个笔画的顺序组成的一个新的笔画的顺序，对于确定出的其他每一个数量，同样执行上述操作。

例如，分词“大人”的笔画的顺序包括“横撇捺撇捺”，“横撇捺撇捺”包括的笔画的总数量为5，可以确定一个大于1且小于总数量5的数值3，并确定位于数值3与该总数量5之间的所有数量：3、4以及5。

对于数量3，在分词中的所有的笔画的顺序中，将每相邻的3个笔画的顺序组成的一个新的笔画的顺序，例如，分词“大人”的笔画的顺序包括“横撇捺撇捺”，将“横撇捺”组成一个新的笔画的顺序，将“撇捺撇”组成一个新的笔画的顺序，以及将“捺撇捺”组成一个新的笔画的顺序。

对于数量4，在分词中的所有的笔画的顺序中，将每相邻的4个笔画的顺序组成的一个新的笔画的顺序，例如，分词“大人”的笔画的顺序包括“横撇捺撇捺”，可以将“横撇捺撇”组成一个新的笔画的顺序，以及将“撇捺撇捺”组成一个新的笔画的顺序。

对于数量5，在分词中的所有的笔画的顺序中，将相邻的5个笔画的顺序组成的一个新的笔画的顺序，也即为分词“大人”的笔画的顺序“横撇捺撇捺”。

一共得到新的笔画的顺序包括“横撇捺”、“撇捺撇”、“捺撇捺”、“横撇捺撇”、“撇捺撇捺”以及“横撇捺撇捺”。

在步骤S202中，根据每一个新的笔画的顺序分别确定该分词的一个分词向量，得到该分词的多个分词向量。

在本申请中，一个笔画对应的一个分词向量，本申请中，事先可以统计象形文字中的各个笔画，例如“横”、“竖”、“撇”、“捺”以及“弯钩”等，以及设置每一个笔画对应的笔画向量，对于任意一个笔画，可以将该笔画与该笔画的笔画向量组成对应表项，并存储在笔画与笔画向量之间的对应关系中，对于其他每一个笔画，同样执行上述操作。

如此，在本步骤中，可以在笔画与笔画向量之间的对应关系中，分别查找与每一个新的笔画的顺序中的笔画相对应的笔画向量，并作为分词向量。

图3是根据一示例性实施例示出的一种搜索方法的流程图，如图3所示，该方法包括以下步骤。

在步骤S301中，获取在搜索框中输入的第一搜索关键词；

在本申请中，当用户需要进行搜索时，可以在电子设备的屏幕上显示的搜索框中输入搜索关键词，搜索关键词中包括至少一个搜索分词。

在步骤S302中，如果预设搜索关键词集合中不存在第一搜索关键词，则将第一搜索关键词拆分为至少一个搜索分词；

在本申请中，可以使用常用的任意一种分词方法来对第一搜索关键词分词，本申请对具体的分词方法不做限定。

在步骤S303中，获取每一个搜索分词中的所有的笔画的顺序；

本步骤具体可参见步骤S103中的方法，在此不做详述。

在步骤S304中，使用每一个搜索分词中的所有的笔画的顺序和预设语义模型，在预设搜索关键词集合中获取与第一搜索关键词之间的语义相似度大于预设阈值的第二搜索关键词；

本步骤具体可参见步骤S104中的方法，在此不做详述。

在步骤S305中，使用第二搜索关键词进行搜索。

在本申请中，获取在搜索框中输入的第一搜索关键词；如果预设搜索关键词集合中不存在第一搜索关键词，则将第一搜索关键词拆分为至少一个搜索分词；获取每一个搜索分词中的所有的笔画的顺序；使用每一个搜索分词中的所有的笔画的顺序和预设语义模型，在预设搜索关键词集合中获取与第一搜索关键词之间的语义相似度大于预设阈值的第二搜索关键词；使用第二搜索关键词进行搜索。相比于在预设搜索关键词集合中不存在第一搜索关键词时无法向用户反馈信息，本申请可以向用户反馈第二搜索关键词或第二搜索关键词对应的信息，进而可以提高用户体验。

图4是根据一示例性实施例示出的一种文本处理装置的框图，如图4所示，该装置包括：

第一获取模块11，用于获取第一文本；

第一拆分模块12，用于如果预设文本集合中不存在所述第一文本，则将所述第一文本拆分为至少一个分词；

第二获取模块13，用于获取每一个分词中的所有的笔画的顺序；

第三获取模块14，用于使用每一个分词中的所有的笔画的顺序和预设语义模型，在所述预设文本集合中获取与所述第一文本之间的语义相似度大于预设阈值的第二文本。

在一个可选的实现方式中，所述装置还包括：

在一个可选的实现方式中，所述第三获取模块14包括：

在一个可选的实现方式中，所述第二获取单元包括：

在一个可选的实现方式中，所述第一获取单元包括：

在一个可选的实现方式中，所述第二获取模块包括：

图5是根据一示例性实施例示出的一种文本处理装置的框图，如图5所示，该装置包括：

第七获取模块21，用于获取在搜索框中输入的第一搜索关键词；

第二拆分模块22，用于如果预设搜索关键词集合中不存在所述第一搜索关键词，则将所述第一搜索关键词拆分为至少一个搜索分词；

第八获取模块23，用于获取每一个搜索分词中的所有的笔画的顺序；

第九获取模块24，用于使用每一个搜索分词中的所有的笔画的顺序和预设语义模型，在所述预设搜索关键词集合中获取与所述第一搜索关键词之间的语义相似度大于预设阈值的第二搜索关键词；

搜索模块25，用于使用所述第二搜索关键词进行搜索。

本申请实施例还提供了一种非易失性可读存储介质，该存储介质中存储有一个或多个模块(programs)，该一个或多个模块被应用在设备时，可以使得该设备执行本申请实施例中各方法步骤的指令(instructions)。

本申请实施例提供了一个或多个机器可读介质，其上存储有指令，当由一个或多个处理器执行时，使得电子设备执行如上述实施例中一个或多个所述的文本处理方法。本申请实施例中，所述电子设备包括服务器、网关、子设备等，子设备为物联网设备等设备。

本公开的实施例可被实现为使用任意适当的硬件，固件，软件，或及其任意组合进行想要的配置的装置，该装置可包括服务器(集群)、终端设备如IoT设备等电子设备。

图6示意性地示出了可被用于实现本申请中所述的各个实施例的示例性装置1300。

对于一个实施例，图6示出了示例性装置1300，该装置具有一个或多个处理器1302、被耦合到(一个或多个)处理器1302中的至少一个的控制模块(芯片组)1304、被耦合到控制模块1304的存储器1306、被耦合到控制模块1304的非易失性存储器(NVM)/存储设备1308、被耦合到控制模块1304的一个或多个输入/输出设备1310，以及被耦合到控制模块1306的网络接口1312。

处理器1302可包括一个或多个单核或多核处理器，处理器1302可包括通用处理器或专用处理器(例如图形处理器、应用处理器、基频处理器等)的任意组合。在一些实施例中，装置1300能够作为本申请实施例中所述网关或控制器等服务器设备。

在一些实施例中，装置1300可包括具有指令1314的一个或多个计算机可读介质(例如，存储器1306或NVM/存储设备1308)以及与该一个或多个计算机可读介质相合并被配置为执行指令1314以实现模块从而执行本公开中所述的动作的一个或多个处理器1302。

对于一个实施例，控制模块1304可包括任意适当的接口控制器，以向(一个或多个)处理器1302中的至少一个和/或与控制模块1304通信的任意适当的设备或组件提供任意适当的接口。

控制模块1304可包括存储器控制器模块，以向存储器1306提供接口。存储器控制器模块可以是硬件模块、软件模块和/或固件模块。

存储器1306可被用于例如为装置1300加载和存储数据和/或指令1314。对于一个实施例，存储器1306可包括任意适当的易失性存储器，例如，适当的DRAM。在一些实施例中，存储器1306可包括双倍数据速率类型四同步动态随机存取存储器(DDR4SDRAM)。

对于一个实施例，控制模块1304可包括一个或多个输入/输出控制器，以向NVM/存储设备1308及(一个或多个)输入/输出设备1310提供接口。

例如，NVM/存储设备1308可被用于存储数据和/或指令1314。NVM/存储设备1308可包括任意适当的非易失性存储器(例如，闪存)和/或可包括任意适当的(一个或多个)非易失性存储设备(例如，一个或多个硬盘驱动器(HDD)、一个或多个光盘(CD)驱动器和/或一个或多个数字通用光盘(DVD)驱动器)。

NVM/存储设备1308可包括在物理上作为装置1300被安装在其上的设备的一部分的存储资源，或者其可被该设备访问可不必作为该设备的一部分。例如，NVM/存储设备1308可通过网络经由(一个或多个)输入/输出设备1310进行访问。

(一个或多个)输入/输出设备1310可为装置1300提供接口以与任意其他适当的设备通信，输入/输出设备1310可以包括通信组件、音频组件、传感器组件等。网络接口1312可为装置1300提供接口以通过一个或多个网络通信，装置1300可根据一个或多个无线网络标准和/或协议中的任意标准和/或协议来与无线网络的一个或多个组件进行无线通信，例如接入基于通信标准的无线网络，如WiFi、2G、3G、4G、5G等，或它们的组合进行无线通信。

对于一个实施例，(一个或多个)处理器1302中的至少一个可与控制模块1304的一个或多个控制器(例如，存储器控制器模块)的逻辑封装在一起。对于一个实施例，(一个或多个)处理器1302中的至少一个可与控制模块1304的一个或多个控制器的逻辑封装在一起以形成系统级封装(SiP)。对于一个实施例，(一个或多个)处理器1302中的至少一个可与控制模块1304的一个或多个控制器的逻辑集成在同一模具上。对于一个实施例，(一个或多个)处理器1302中的至少一个可与控制模块1304的一个或多个控制器的逻辑集成在同一模具上以形成片上系统(SoC)。

在各个实施例中，装置1300可以但不限于是：服务器、台式计算设备或移动计算设备(例如，膝上型计算设备、手持计算设备、平板电脑、上网本等)等终端设备。在各个实施例中，装置1300可具有更多或更少的组件和/或不同的架构。例如，在一些实施例中，装置1300包括一个或多个摄像机、键盘、液晶显示器(LCD)屏幕(包括触屏显示器)、非易失性存储器端口、多个天线、图形芯片、专用集成电路(ASIC)和扬声器。

本申请实施例提供了一种电子设备，包括：一个或多个处理器；和，其上存储有指令的一个或多个机器可读介质，当由所述一个或多个处理器执行时，使得所述处理器执行如本申请实施例中一个或多个所述的文本处理方法。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本申请实施例是参照根据本申请实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本申请所提供的一种文本处理方法及装置，进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种文本处理方法，其特征在于，所述方法包括：

获取第一文本；

获取每一个分词中的所有的笔画的顺序；

使用每一个分词中的所有的笔画的顺序和预设语义模型，在所述预设文本集合中获取与所述第一文本之间的语义相似度大于预设阈值的第二文本；

所述预设语义模型通过如下方式得到：

获取样本文本中的每一个分词的所有的笔画的顺序；

获取相似文本中的每一个分词的所有的笔画的顺序；

2.根据权利要求1所述的方法，其特征在于，所述预设语义模型包括基于神经网络的语义模型。

3.根据权利要求1所述的方法，其特征在于，所述使用每一个分词中的所有的笔画的顺序和预设语义模型，在所述预设文本集合中获取与所述第一文本之间的语义相似度大于预设阈值的第二文本，包括：

4.根据权利要求3所述的方法，其特征在于，所述预设的模型包括级联的卷积CNN、长短期记忆网络LSTM以及归一化指数函数SOFTMAX。

5.根据权利要求4所述的方法，其特征在于，所述使用每一个分词的分词向量和所述预设语义模型，在所述预设文本集合中获取所述第二文本，包括：

6.根据权利要求3所述的方法，其特征在于，所述根据所述分词中的所有的笔画的顺序获取所述分词的分词向量，包括：

7.根据权利要求1所述的方法，其特征在于，所述获取每一个分词中的所有的笔画的顺序，包括：

对于每一个分词，获取所述分词中包括的每一个象形文字；

分别获取每一个象形文字的笔画的顺序；

8.根据权利要求7所述的方法，其特征在于，所述分别获取每一个象形文字的笔画的顺序，包括：

9.根据权利要求7或8所述的方法，其特征在于，所述象形文字包括：汉语中的文字、韩语中的文字以及日语中的文字。

10.一种搜索方法，其特征在于，所述方法包括：

获取在搜索框中输入的第一搜索关键词；

获取每一个搜索分词中的所有的笔画的顺序；

使用所述第二搜索关键词进行搜索；

所述预设语义模型通过如下方式得到：

获取样本文本中的每一个分词的所有的笔画的顺序；

获取相似文本中的每一个分词的所有的笔画的顺序；

11.一种文本处理装置，其特征在于，所述装置包括：

第一获取模块，用于获取第一文本；

第三获取模块，用于使用每一个分词中的所有的笔画的顺序和预设语义模型，在所述预设文本集合中获取与所述第一文本之间的语义相似度大于预设阈值的第二文本；

所述装置还包括：

12.根据权利要求11所述的装置，其特征在于，所述预设语义模型包括基于神经网络的语义模型。

13.根据权利要求11所述的装置，其特征在于，所述第三获取模块包括：

14.根据权利要求13所述的装置，其特征在于，所述预设的模型包括级联的卷积CNN、长短期记忆网络LSTM以及归一化指数函数SOFTMAX。

15.根据权利要求14所述的装置，其特征在于，所述第二获取单元包括：

16.根据权利要求13所述的装置，其特征在于，所述第一获取单元包括：

17.根据权利要求11所述的装置，其特征在于，所述第二获取模块包括：

18.根据权利要求17所述的装置，其特征在于，所述第四获取单元具体用于：在象形文字与笔画的顺序之间的预设对应关系中，分别查找与每一个象形文字相对应的笔画的顺序。

19.根据权利要求17或18所述的装置，其特征在于，所述象形文字包括：汉语中的文字、韩语中的文字以及日语中的文字。

20.一种搜索装置，其特征在于，所述装置包括：

搜索模块，用于使用所述第二搜索关键词进行搜索；

所述装置还包括：