CN112463919B

CN112463919B - 文本标签的查询方法、装置、电子设备和存储介质

Info

Publication number: CN112463919B
Application number: CN202011098500.5A
Authority: CN
Inventors: 李若铭
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-10-14
Filing date: 2020-10-14
Publication date: 2021-10-29
Anticipated expiration: 2040-10-14
Also published as: CN112463919A

Abstract

本申请公开了一种文本标签的查询方法、装置、电子设备和存储介质，涉及深度学习和语音处理等人工智能技术领域。该方案为：接收客户端发送的标签查询请求，其中，所述标签查询请求包括查询文本的查询偏移量和所述查询文本所属文章的文章标识信息；根据所述文章标识信息，获取所述所属文章的文本词典，其中，所述文本词典包括所述查询文本所属文章的文本的实际偏移量和每个实际偏移量对应的标签；以及在所述文本词典中进行偏移量查询，以确定所述查询文本对应的目标标签，并向所述客户端返回所述目标标签。本申请能够基于偏移量查询，向客户端反馈目标标签，提高了文本标签查询过程中的准确性和效率、并极大缩短了查询过程的耗时、提升了用户体验。

Description

文本标签的查询方法、装置、电子设备和存储介质

技术领域

本申请的实施例总体上涉及数据处理技术领域，并且更具体地涉及深度学习和语音处理等人工智能技术领域。

背景技术

近年来，随着互联网数据爆炸性的增长，随之而来，各种资源也以指数形式迅速增长，其中，小说文本资源作为重要资源之一，大量涌现在网络中。这样一来，人们对于形式新颖、代入感极强、适用于碎片化时间阅读的多角色小说朗读的形式，已经愈发重视了。

然而，现有技术中的文本标签查询方式通常过程繁琐，具有大量搜索匹配，导致查询效率极低，无法满足实时交互的要求。即言，提高文本标签查询效率的方案尚不完善。因此，如何缩短文本标签查询耗时、提高文本标签查询过程中的效率和准确性，已成为了重要的研究方向之一。

发明内容

本申请提供了一种文本标签的查询方法、装置、电子设备和存储介质。

根据第一方面，提供了一种文本标签的查询方法，包括：

接收客户端发送的标签查询请求，其中，所述标签查询请求包括查询文本的查询偏移量和所述查询文本所属文章的文章标识信息；

根据所述文章标识信息，获取所述所属文章的文本词典，其中，所述文本词典包括所述查询文本所属文章的文本的实际偏移量和每个实际偏移量对应的标签；以及

在所述文本词典中进行偏移量查询，以确定所述查询文本对应的目标标签，并向所述客户端返回所述目标标签。

根据第二方面，提供了一种文本标签的查询装置，包括：

接收模块，用于接收客户端发送的标签查询请求，其中，所述标签查询请求包括查询文本的查询偏移量和所述查询文本所属文章的文章标识信息；

第一获取模块，用于根据所述文章标识信息，获取所述所属文章的文本词典，其中，所述文本词典包括所述查询文本所属文章的文本的实际偏移量和每个实际偏移量对应的标签；以及

确定模块，用于在所述文本词典中进行偏移量查询，以确定所述查询文本对应的目标标签，并向所述客户端返回所述目标标签。

根据第三方面，提供了一种电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本申请第一方面所述的文本标签的查询方法。

根据第四方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行本申请第一方面所述的文本标签的查询方法。本申请提供的实施例，至少具有如下有益技术效果：

根据本申请实施例的文本标签的查询方法，可以通过接收客户端发送的标签查询请求，并根据文章标识信息，获取所属文章的文本词典，然后在文本词典中进行偏移量查询，以确定查询文本对应的目标标签，并向客户端返回目标标签，实现文本标签的查询。由此，本申请能够基于偏移量查询，快速地确定查询文本对应的目标标签，进而向客户端进行反馈，提高了文本标签查询过程中的准确性和效率、并极大缩短了查询过程的耗时、提升了用户体验，同时，能够满足实时交互的要求。

应当理解，本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征，也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本申请的限定。其中：

图1是根据本申请第一实施例的示意图；

图2是一种查询偏移量的示意图；

图3是一种客户端交互界面的示意图；

图4是一种获取文本词典过程的示意图；

图5是根据本申请第二实施例的示意图；

图6是根据本申请第三实施例的示意图；

图7是根据本申请第四实施例的示意图；

图8是一种最小编辑距离方法的示意图；

图9是根据本申请第五实施例的示意图；

图10是根据本申请第六实施例的示意图；

图11是根据本申请第七实施例的示意图；

图12是用来实现本申请实施例的文本标签的查询方法的文本标签的查询的框图；

图13是用来实现本申请实施例的文本标签的查询方法的文本标签的查询的框图；

图14是用来实现本申请实施例的文本标签的查询方法的文本标签的查询的框图；

图15是用来实现本申请实施例的文本标签的查询方法的文本标签的查询的框图；

图16是用来实现本申请实施例的文本标签查询的电子设备的框图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

以下对本申请的方案涉及的技术领域进行简要说明：

人工智能(Artificial Intelligence，简称AI)，是研究使计算机来模拟人生的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科，既有硬件层面的技术，也有软件层面的技术。人工智能硬件技术一般包括计算机视觉技术、语音识别技术、自然语言处理技术以及及其学习/深度学习、大数据处理技术、知识图谱技术等几大方面。

深度学习(Deep Learning，简称DL)，是机器学习(Machine Learning，简称ML)领域中一个新的研究方向，它被引入机器学习使其更接近于最初的目标——人工智能。深度学习是学习样本数据的内在律和表示层次，这些学习过程中获得的信息对诸如文字，图像和声音等数据的解释有很大的帮助。它的最终目标是让机器能够像人一样具有分析学习能力，能够识别文字、图像和声音等数据。深度学习是一个复杂的机器学习算法，在语音和图像识别方面取得的效果，远远超过先前相关技术。

语音处理(Speech Signal Processing)，用以研究语音发声过程、语音信号的统计特性、语音的自动识别、机器合成以及语音感知等各种处理技术的总称。由于现代的进音处理技术都以数字计算为基础，并借助微处理器、信号处理器或通用计算机加以实现，因此也称数字语音信号处理。

下面参考附图描述本申请实施例的文本标签的查询方法、装置、电子设备和存储介质。

图1是根据本申请第一实施例的示意图。其中，需要说明的是，本实施例的文本标签的查询方法的执行主体为服务端。如图1所示，本实施例提出的文本标签的查询方法，包括如下步骤：

S101、接收客户端发送的标签查询请求，其中，标签查询请求包括查询文本的查询偏移量和查询文本所属文章的文章标识信息。

其中，查询偏移量，可以用以表示查询文本在客户端展示的版本的所属文章中所处的位置。举例而言，如图2所示，文本“你好，北京”中，若查询文本为“你”，则查询偏移量为0；若查询文本为“北京”，则查询偏移量为3。

其中，文章标识信息，指的是可以用以表示具体文章的标识信息，例如，文章名称、文章编号等。

在本申请实施例中，用户可以通过于客户端的交互界面上执行多种操作，以实现对应的功能。可选地，客户端的交互界面上设置有发送标签查询请求的控件，用户通过触发该控件，能够实现发送标签查询请求的功能。相应地，服务端可以接收客户端发送的标签查询请求。

针对小说阅读应用场景，文章内所有文本均对应有标签，并且，可以将文章内所有文本均设置为发送标签查询请求控件，这样一来，用户可以通过选取任意文本触发发送标签查询请求控件，以查询所选取的文本对应的标签。

举例而言，如图3所示，用户试图查询的内容为：“北京”对应的标签，则可以通过触发客户端的交互界面3-1上的发送标签查询请求控件3-2，即前述语句，发送标签查询请求。相应地，服务端可以接收客户端发送的标签查询请求，以查询前述语句对应的标签。

S102、根据文章标识信息，获取所属文章的文本词典，其中，文本词典包括查询文本所属文章的文本的实际偏移量和每个实际偏移量对应的标签。

需要说明的是，在实际应用中，服务端存储的文本词典中的文章通常按照预设周期进行更新，即定时更新，而客户端展示的文章通常在监测到作者的更新操作后立即进行更新，即实时更新，因此，服务端存储的文章与客户端展示的文章可能为相同版本，也可能为不同版本。由此，本申请实施例中，将客户端展示的文章对应的偏移量标记为查询偏移量，将服务端存储的文章对应的偏移量标记为实际偏移量。

其中，实际偏移量，可以用以表示查询文本在服务端存储的版本的所属文章中所处的位置。

其中，实际偏移量对应的标签，可以为存储于服务端的、预先设定的任一标签。例如，可以为小明、旁白等角色标签；又例如，可以为英语、韩语等语种标签。

需要说明的是，服务端中存储有多个携带有文章标识信息的文本词典，文本所属文章与文本词典一一对应，即言，文章标识信息与文本词典一一对应。其中，文本词典包括查询文本所属文章的文本的实际偏移量和每个实际偏移量对应的标签。

由此，在本申请实施例中，在接收客户端发送的标签查询请求后，可以从标签查询请求中提取文章标识信息，然后根据文章标识信息，可以获取所属文章的文本词典。

举例而言，服务端中存储有n个携带有文章标识信息的文本词典4-21～4-2n，文章标识信息4-11～4-1n与文本词典一一对应于。如图4(a)所示，在接收客户端发送的标签查询请求后，可以从标签查询请求中提取文章标识信息4-12，然后如图4(b)所示，根据文章标识信息4-12，可以获取所属文章的文本词典4-22。

S103、在文本词典中进行偏移量查询，以确定查询文本对应的目标标签，并向客户端返回目标标签。

在本申请实施例中，在获取所属文章的文本词典后，可以根据查询偏移量，遍历文本词典中的实际偏移量，以进行偏移量查询，进而可以确定查询文本对应的目标标签。进一步地，在确定目标标签后，服务端可以向客户端返回目标标签。

针对小说阅读应用场景，在确定目标标签后，可以利用目标标签对应的声音对文本进行朗读，并形成数据包，然后将数据包反馈给客户端。

需要说明的是，本申请中，在试图在文本词典中进行偏移量查询，以确定查询文本对应的目标标签并进行返回时，可以根据查询偏移量，遍历文本词典中的实际偏移量，并根据遍历结果，确定查询文本对应的目标标签并进行返回。

作为一种可能的实现方式，如图5所示，在上述实施例的基础上，上述步骤S103中在文本词典中进行偏移量查询，以确定查询文本对应的目标标签并进行返回的过程，具体包括以下步骤：

S501、若文本词典中存在与查询偏移量一致的实际偏移量，则根据与查询偏移量一致的实际偏移量，确定查询文本对应的目标标签。

S502、返回目标标签。

可选地，当文本词典中存在与查询偏移量一致的实际偏移量时，说明服务端存储的文章与客户端展示的文章具有相同的版本，查询文本实质上就是文本词典中查询文本所属文章的文本。也就是说，实际偏移量对应的标签即用户试图查询的标签，此种情况下，则可以根据与查询偏移量一致的实际偏移量，确定查询文本对应的目标标签并进行返回。

需要说明的是，服务端接收客户端发送的标签查询请求还包括查询文本，并且，文本词典中包括查询文本所属文章的文本，因此，当文本词典中未存在与查询偏移量一致的实际偏移量时，可以根据查询文本和文本词典中的文本，对查询偏移量进行修正。

作为一种可能的实现方式，如图6所示，在上述实施例的基础上，具体包括以下步骤：

S601、若文本词典中未存在与查询偏移量一致的实际偏移量，则根据查询文本和文本词典中的文本，对查询偏移量进行修正，以获取修正偏移量。

可选地，当文本词典中未存在与查询偏移量一致的实际偏移量时，说明服务端存储的文章与客户端展示的文章具有不同的版本，也就是说，实际偏移量对应的标签并非用户试图查询的标签，此种情况下，则不能直接根据实际偏移量确定查询文本对应的目标标签，而需要对查询偏移量进行修正。

S602、根据修正偏移量，获取查询文本对应的目标标签。

本申请实施例中，在对查询偏移量进行修正后，可以得到修正偏移量，进而可以根据修正偏移量，确定查询文本对应的目标标签。其中，修正偏移量能够反映查询文本在服务端存储的版本的文章中的实际位置，或者与查询文本相似度最高的文本在服务端存储的版本的文章中的实际位置。

举例而言，根据查询文本“你好，北京”的查询偏移量可知，“你好，北京”出现在客户端展示的版本的文章中的第6段第8行，但并未出现在服务端存储的版本的文章中，此时，未能匹配到一致的文本，则可以基于最小编辑距离，从文本串中进行寻找，将出现在第6段第7行的“你好，北京”作为与查询文本相似度最高的文本，并将查询偏移量修正为“你好，上海”对应的实际偏移量。

根据本申请实施例的文本标签的查询方法，可以通过文本词典中是否存在与查询偏移量一直的实际偏移量的识别结果，获取确定查询文本对应目标标签的依据。可选地，若文本词典中存在与查询偏移量一致的实际偏移量，则将与查询偏移量一致的实际偏移量作为依据；可选地，若文本词典中未存在与查询偏移量一致的实际偏移量，则对查询偏移量进行修正，以将修正偏移量作为依据。由此，本申请能够基于查询偏移量与实际偏移量的匹配结果，获取匹配的目标标签确定策略，提高了文本标签查询过程中的准确性和效率。

作为一种可能的实现方式，如图7所示，在上述实施例的基础上，上述步骤S601中根据查询文本和文本词典中的文本，对查询偏移量进行修正，以获取修正偏移量的过程，具体包括以下步骤：

S701、拼接文本词典中所属文章的多个文本，以形成文本串。

需要说明的是，文学作品区别于科普教材等读物，通常会采用更多变的表达方式，这样一来，可以首先对查询文本进行预处理，以使其符合规则化、标准化。其中，在试图对查询文本进行预处理时，可以针对以下至少一项进行预处理：标点符号、语法、文本长度等。

进一步地，服务端可以将对应的文本词典中所属文章中的多个文本进行拼接，以形成文本串。

S702、将查询文本与文本串进行文本匹配，以获取与查询文本一致的文本。

可选地，可以将完成预处理的查询文本送入文本串，进行文本匹配，以获取与查询文本一致的文本。

举例而言，完成预处理的查询文本为：“你好，北京”，此时，可以将“你好，北京”与文本串进行文本匹配，获取到文章的上一段中出现了“你好，北京”，由此可知，“你好，北京”出现在服务器存储的版本的文章的上一段中。

S703、若匹配到一致的文本，将查询偏移量修正为一致的文本的实际偏移量。

可选地，当匹配到一致的文本时，说明该查询文本存在于服务器存储的版本的文章中，但是实际出现位置与客户端展示的版本的文章中的位置不同，此种情况下，可以将查询偏移量修正为一致的文本的实际偏移量。

举例而言，根据查询文本“你好，北京”的查询偏移量可知，“你好，北京”出现在客户端展示的版本的文章中的第6段第8行，以及服务端存储的版本的文章中的第5段第12行，此时，能够匹配到一致的文本，但由于查询偏移量与实际偏移量不一致，则可以将查询偏移量修正为一致的文本的实际偏移量。

进一步地，当未匹配到一致的文本，说明该查询文本未存在于服务器存储的版本的文章中，此种情况下，可以则从文本串中寻找与查询文本相似度最高的文本，并将查询偏移量修正为相似度最高的文本的实际偏移量。

作为一种可能的实现方式，可以基于最小编辑距离，从文本串中寻找相似度最高的文本。

其中，最小编辑距离，指的是用以衡量两个字符串之间的相似度，并执行两个字符串之间的最小操作数的方法。其中，最小操作数，指的是从一个字符转换(包括插入、删除和置换)成另一个字符所需要的最少的操作数。一般情况小，两个字符串之间的编辑距离越小，两者之间的相似度越高。

举例而言，如图8所示，查询文本“你好，北京”，通过删除“你”可以得到“好，北京”，通过插入“高”可以得到“你好高，北京”，通过将“北京”置换为“上海”可以得到“你好，上海”。其中，前述三种基于查询文本进行转换至相似文本的过程称为路径。

需要说明的是，为了减少寻找耗时，可以通过剪枝的方式，将每一层中与查询文本语义相差较大的路径进行剪枝，仅保留每层中语义最相近的最短路径，以快速获取与查询文本相似度最高的文本。

根据本申请实施例的文本标签的查询方法，在试图获取修正偏移量时，可以通过拼接文本词典中所属文章的多个文本，以形成文本串，并将查询文本与文本串进行文本匹配，以获取与查询文本一致的文本。可选地，若匹配到一致的文本，则可以将查询偏移量修正为一致的文本的实际偏移量；可选地，若未匹配到一致的文本，则可以基于最小编辑距离确定相似度最高的文本，进而将查询偏移量修正为相似度最高的文本的实际偏移量。由此，本申请能够在文本词典中未存在与查询偏移量一致的实际偏移量时，通过查询文本与文本串的匹配结果，获取匹配的查询偏移量的修正策略，提高了文本标签查询过程中的准确性和效率。

需要说明的是，由于查询文本可能出现在服务端存储的版本的文章中的不止一处，或者查询文本过长等原因，此种情况下，获取到的实际偏移量是不唯一的。因此，在试图根据获取到的实际偏移量，获取查询文本对应的目标标签时，若实际偏移量不唯一，则可以通过归并处理，以确定目标标签。

作为一种可能的实现方式，如图9所示，在上述实施例的基础上，上述过程具体包括以下步骤：

S901、获取查询文本的长度。

举例而言，查询文本为“你好，北京”，则查询文本的长度为3。

S902、根据长度和实际偏移量，确定偏移量范围。

可选地，可以将查询文本的长度与实际偏移量相加，并将两者之和作为偏移量范围，以合理扩大查询范围。

举例而言，查询文本的长度为3，实际偏移量为4，则可以确定偏移量范围为3～7。

S903、获取处于偏移量范围内的每个实际偏移量对应的标签，形成标签组。

针对小说阅读应用场景，获取到的处于偏移量范围内的每个实际偏移量对应的标签可以为角色标签或者语种标签；标签组中的标签可以为相同的，也可以为不同的。例如，获取到的标签组可以为小明、小明和旁白；又例如，获取到的标签组可以为英语、英语和英语。

S904、根据标签组中所包括的标签，确定查询文本对应的目标标签。

作为一种可能的实现方式，如图10所示，在上述实施例的基础上，上述步骤S904中根据标签组中所包括的标签，确定查询文本对应的目标标签的过程，具体包括以下步骤：

S1001、若标签组中所包括的标签均为同一标签，则将同一标签确定为查询文本对应的目标标签。

针对小说阅读应用场景，查询文本为“你好，北京”，当获取到的标签组中所包括的标签均为小明时，可以将小明确定为“你好，北京”对应的目标标签。进一步地，可以利用小明对应的声音朗读“你好，北京”，并形成数据包，然后将数据包反馈给客户端。

S1002、若标签组内所包括的标签为不同的标签，则将特定标签确定为查询文本对应的目标标签。

其中，本申请中对于特定标签不作限定，可以根据实际情况进行设定。例如，可以设定特定标签为旁白，进而可以利用旁白对应的声音，朗读查询文本，并形成数据包，然后将数据包反馈给客户端；又例如，为了进一步凸显多角色小说阅读效果，可以设定特定标签为“失败”，进而可以利用“失败”对应的声音，例如智能语音助手的声音，朗读“未获得文本标签查询结果”等预设文本，并形成数据包，然后将数据包反馈给客户端。

针对小说阅读应用场景，查询文本为“你好，北京”，当获取到的标签组中所包括的标签为小明、小明和旁白时，可以将“失败”确定为“你好，北京”对应的目标标签。进一步地，可以利用智能语音助手的声音朗读“未获得文本标签查询结果”，并形成数据包，然后将数据包反馈给客户端。

根据本申请实施例的文本标签的查询方法，在获取到的实际偏移量不唯一时，可以通过归并处理，确定目标标签，进而将目标标签返回至客户端，确保了文本标签查询结果的唯一性，进一步提高了文本标签查询过程中的准确性和效率。

图11是根据本申请第七实施例的示意图。如图11所示，在上述实施例的基础上，本实施例提出的文本标签的查询方法，包括如下步骤：

S1101、接收客户端发送的标签查询请求。

其中，标签查询请求，包括：查询文本、查询文本的查询偏移量和查询文本所属文章的文章标识信息。

S1102、根据文章标识信息，获取所属文章的文本词典。

其中，文本词典，包括：查询文本所属文章的文本、查询文本所属文章的文本的实际偏移量和每个实际偏移量对应的标签

S1103、在文本词典中进行偏移量查询，以判断文本词典中是否存在与查询偏移量一致的实际偏移量。

可选地，若文本词典中存在与查询偏移量一致的实际偏移量，则可以执行步骤S1109；若文本词典中未存在与查询偏移量一致的实际偏移量，则可以执行步骤S1104。

S1104、拼接文本词典中所属文章的多个文本，以形成文本串。

S1105、将查询文本与文本串进行文本匹配，以判断是否匹配到与查询文本一致的文本。

可选地，若匹配到与查询文本一致的文本，则可以执行步骤S1106；若未匹配到与查询文本一致的文本，则可以执行步骤S1107。

S1106、将查询偏移量修正为一致的文本的实际偏移量。

S1107、从文本串中寻找与查询文本相似度最高的文本。

S1108、将查询偏移量修正为相似度最高的文本的实际偏移量。

S1109、获取查询文本的长度。

需要说明的是，在完成步骤S1106和S1108之后，可以执行S1109。

S1110、根据长度和实际偏移量，确定偏移量范围。

S1111、获取处于偏移量范围内的每个实际偏移量对应的标签，形成标签组。

S1112、根据标签组中所包括的标签，判断标签组中所包括的标签是否均为同一标签。

可选地，若标签组中所包括的标签均为同一标签，则可以执行步骤S1113；若标签组中所包括的标签为不同标签，则可以执行步骤S1114。

S1113、将同一标签确定为查询文本对应的目标标签。

S1114、将特定标签确定为查询文本对应的目标标签。

S1115、向客户端返回目标标签。

需要说明的是，关于步骤S1101～S1115的介绍可参见上述实施例中的相关记载，此处不再赘述。

需要说明的是，本申请提出的文本标签的查询方法，可以运用于多种场景中。

针对小说阅读应用场景，在用户试图体验多角色小说朗读功能时，可以通过选取任意文本触发发送标签查询请求控件，以查询所选取的文本对应的标签，进而听取与被选取文本的角色对应的朗读声音。

可选地，服务端在接收到标签查询请求后，可以根据文章标识信息，获取所属文章的文本词典，并基于深度学习，在文本词典中进行偏移量查询，以确定查询文本对应的目标标签。进一步地，在确定目标标签后，可以结合语音处理技术，利用目标标签对应的声音对文本进行朗读，并形成数据包，然后将数据包反馈给客户端，以使用户能够听取对应的朗读声音。

举例而言，当查询文本为小明所说的话时，可以将负责小明这个角色配音的工作人员甲朗读的语音形成数据包甲，并返回客户端；当查询文本为旁白时，可以将负责旁白配音的工作人员乙朗读的语音形成数据包乙，并返回客户端。这样一来，用户所选取的文本对应不同的角色时，用户能快速、准确地收听到不同角色的朗读声音，以体验多角色小说朗读的极强代入感。

针对外语读物学习应用场景，在用户试图体验多语种朗读功能时，可以通过选取任意文本触发发送标签查询请求控件，以查询所选取的文本对应的标签，进而听取与被选取文本的语种对应的朗读声音。

可选地，服务端在接收到标签查询请求后，可以根据文章标识信息，获取所属文章的文本词典，并基于深度学习，在文本词典中进行偏移量查询，以确定查询文本对应的目标标签。进一步地，在确定目标标签后，可以结合语音处理技术，利用目标标签对应的语种对文本进行朗读，并形成数据包，然后将数据包反馈给客户端，以使用户能够听取对应的朗读声音。

举例而言，当查询文本为中文时，可以将以汉语朗读的语音形成数据包甲，并返回客户端；当查询文本为韩文时，可以将以韩语朗读的语音形成数据包乙，并返回客户端。这样一来，用户所选取的文本对应不同的语种时，用户能快速、准确地收听到不同语种的朗读声音，以增强学习外语过程中的乐趣。

与上述几种实施例提供的文本标签的查询方法相对应，本申请的一个实施例还提供一种文本标签的查询装置，由于本申请实施例提供的文本标签的查询装置与上述几种实施例提供的文本标签的查询方法相对应，因此在文本标签的查询方法的实施方式也适用于本实施例提供的文本标签的查询装置，在本实施例中不再详细描述。图12～图15是根据本申请一个实施例的文本标签的查询装置的结构示意图。

如图12所示，该文本标签的查询装置1000，包括：接收模块100、第一获取模块200和确定模块300。其中：

接收模块100，用于接收客户端发送的标签查询请求，其中，所述标签查询请求包括查询文本的查询偏移量和所述查询文本所属文章的文章标识信息；

第一获取模块200，用于根据所述文章标识信息，获取所述所属文章的文本词典，其中，所述文本词典包括所述查询文本所属文章的文本的实际偏移量和每个实际偏移量对应的标签；以及

确定模块300，用于在所述文本词典中进行偏移量查询，以确定所述查询文本对应的目标标签，并向所述客户端返回所述目标标签。

在本申请的实施例中，如图14所示，图12中的确定模块300，包括：

确定单元310，用于若所述文本词典中存在与所述查询偏移量一致的实际偏移量，则根据所述与所述查询偏移量一致的实际偏移量，确定所述查询文本对应的目标标签并进行返回。

在本申请的实施例中，如图13所示，文本标签的查询装置1000，还包括：

第一修正模块400，用于若所述文本词典中未存在与所述查询偏移量一致的实际偏移量，则根据所述查询文本和所述文本词典中的文本，对所述查询偏移量进行修正，以获取修正偏移量；以及

第二获取模块500，用于根据所述修正偏移量，获取所述查询文本对应的目标标签。

在本申请的实施例中，如图15所示，图13中的第一修正模块400，包括：

拼接单元410，用于拼接所述文本词典中所述所属文章的多个文本，以形成文本串；

文本匹配单元420，用于将所述查询文本与所述文本串进行文本匹配，以获取与所述查询文本一致的文本；以及

修正单元430，用于若匹配到所述一致的文本，将所述查询偏移量修正为所述一致的文本的实际偏移量。

寻找模块600，用于若未匹配到所述一致的文本，则从所述文本串中寻找与所述查询文本相似度最高的文本；以及

第二修正模块700，用于将所述查询偏移量修正为所述相似度最高的文本的实际偏移量。

在本申请的实施例中，图13中的寻找模块600，还用于：

基于最小编辑距离，从所述文本串中寻找所述相似度最高的文本。

获取单元311，用于获取所述查询文本的长度；

第一确定单元312，用于根据所述长度和所述实际偏移量，确定偏移量范围；

形成标签单元313，用于获取处于所述偏移量范围内的每个所述实际偏移量对应的标签，形成标签组；以及

第二确定单元314，用于根据所述标签组中所包括的标签，确定所述查询文本对应的目标标签。

在本申请的实施例中，图14中的第二确定子单元350，还用于：

若所述标签组中所包括的标签均为同一标签，则将所述同一标签确定为所述查询文本对应的目标标签；以及

若所述标签组内所包括的标签为不同的标签，则将特定标签确定为所述查询文本对应的目标标签。

根据本申请实施例的文本标签的查询装置，可以通过接收客户端发送的标签查询请求，并根据文章标识信息，获取所属文章的文本词典，然后在文本词典中进行偏移量查询，以确定查询文本对应的目标标签，并向客户端返回目标标签，实现文本标签的查询。由此，本申请能够基于偏移量查询，快速地确定查询文本对应的目标标签，进而向客户端进行反馈，提高了文本标签查询过程中的准确性和效率、并极大缩短了查询过程的耗时、提升了用户体验，同时，能够满足实时交互的要求。

根据本申请的实施例，本申请还提供了一种电子设备和一种可读存储介质。

如图16所示，是根据本申请实施例的文本标签查询的电子设备的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图16所示，该电子设备包括：一个或多个处理器1100、存储器1200，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个电子设备，各个设备提供部分必要的操作(例如，作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图16中以一个处理器1100为例。

存储器1200即为本申请所提供的非瞬时计算机可读存储介质。其中，所述存储器存储有可由至少一个处理器执行的指令，以使所述至少一个处理器执行本申请所提供的文本标签的查询方法。本申请的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本申请所提供的文本标签的查询方法。

存储器1200作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本申请实施例中的文本标签的查询方法对应的程序指令/模块(例如，附图12所示的接收模块100、第一获取模块200和确定模块300)。处理器1100通过运行存储在存储器1200中的非瞬时软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例中的文本标签的查询方法。

存储器1200可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据定位电子设备的使用所创建的数据等。此外，存储器1200可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中，存储器1200可选包括相对于处理器1100远程设置的存储器，这些远程存储器可以通过网络连接至定位电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

文本标签查询的电子设备还可以包括：输入装置1300和输出装置1400。处理器1100、存储器1200、输入装置1300和输出装置1400可以通过总线或者其他方式连接，图16中以通过总线连接为例。

输入装置1300可接收输入的数字或字符信息，以及产生与定位电子设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置1400可以包括显示设备、辅助照明装置(例如，LED)和触觉反馈装置(例如，振动电机)等。该显示设备可以包括但不限于，液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中，显示设备可以是触摸屏。

此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令，并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种文本标签的查询方法，包括：

接收客户端发送的标签查询请求，其中，所述标签查询请求包括查询文本的查询偏移量和所述查询文本所属文章的文章标识信息；所述查询偏移量表示所述查询文本在客户端展示的版本的文章中所处的位置；

在所述文本词典中进行偏移量查询，以确定所述查询文本对应的目标标签，并向所述客户端返回所述目标标签；

所述方法还包括：

若所述文本词典中未存在与所述查询偏移量一致的实际偏移量，则根据所述查询文本和所述文本词典中的文本，对所述查询偏移量进行修正，以获取修正偏移量；以及

根据所述修正偏移量，获取所述查询文本对应的目标标签。

2.根据权利要求1所述的文本标签的查询方法，其中，所述在所述文本词典中进行偏移量查询，以确定所述查询文本对应的目标标签并进行返回，包括：

若所述文本词典中存在与所述查询偏移量一致的实际偏移量，则根据所述与所述查询偏移量一致的实际偏移量，确定所述查询文本对应的目标标签并进行返回。

3.根据权利要求1所述的文本标签的查询方法，其中，所述根据所述查询文本和所述文本词典中的文本，对所述查询偏移量进行修正，以获取修正偏移量，包括：

拼接所述文本词典中所述所属文章的多个文本，以形成文本串；

将所述查询文本与所述文本串进行文本匹配，以获取与所述查询文本一致的文本；以及

若匹配到所述一致的文本，将所述查询偏移量修正为所述一致的文本的实际偏移量。

4.根据权利要求3所述的文本标签的查询方法，其中，所述方法还包括：

若未匹配到所述一致的文本，则从所述文本串中寻找与所述查询文本相似度最高的文本；以及

将所述查询偏移量修正为所述相似度最高的文本的实际偏移量。

5.根据权利要求4所述的文本标签的查询方法，其中，所述从所述文本串中寻找与所述查询文本相似度最高的文本，包括：

6.根据权利要求2-5任一项所述的文本标签的查询方法，其中，根据获取到的实际偏移量，获取所述查询文本对应的目标标签，还包括：

获取所述查询文本的长度；

根据所述长度和所述实际偏移量，确定偏移量范围；

获取处于所述偏移量范围内的每个所述实际偏移量对应的标签，形成标签组；以及

根据所述标签组中所包括的标签，确定所述查询文本对应的目标标签。

7.根据权利要求6所述的文本标签的查询方法，其中，所述根据所述标签组中所包括的标签，确定所述查询文本对应的目标标签，包括：

8.一种文本标签的查询装置，其中，包括：

接收模块，用于接收客户端发送的标签查询请求，其中，所述标签查询请求包括查询文本的查询偏移量和所述查询文本所属文章的文章标识信息；所述查询偏移量表示所述查询文本在客户端展示的版本的文章中所处的位置；

确定模块，用于在所述文本词典中进行偏移量查询，以确定所述查询文本对应的目标标签，并向所述客户端返回所述目标标签；

所述装置还包括：

第一修正模块，用于若所述文本词典中未存在与所述查询偏移量一致的实际偏移量，则根据所述查询文本和所述文本词典中的文本，对所述查询偏移量进行修正，以获取修正偏移量；以及

第二获取模块，用于根据所述修正偏移量，获取所述查询文本对应的目标标签。

9.根据权利要求8所述的文本标签的查询装置，其中，所述确定模块，包括：

确定单元，用于若所述文本词典中存在与所述查询偏移量一致的实际偏移量，则根据所述与所述查询偏移量一致的实际偏移量，确定所述查询文本对应的目标标签并进行返回。

10.根据权利要求8所述的文本标签的查询装置，其中，所述第一修正模块，包括：

拼接单元，用于拼接所述文本词典中所述所属文章的多个文本，以形成文本串；

文本匹配单元，用于将所述查询文本与所述文本串进行文本匹配，以获取与所述查询文本一致的文本；以及

修正单元，用于若匹配到所述一致的文本，将所述查询偏移量修正为所述一致的文本的实际偏移量。

11.根据权利要求10所述的文本标签的查询装置，其中，所述装置还包括：

寻找模块，用于若未匹配到所述一致的文本，则从所述文本串中寻找与所述查询文本相似度最高的文本；以及

第二修正模块，用于将所述查询偏移量修正为所述相似度最高的文本的实际偏移量。

12.根据权利要求11所述的文本标签的查询装置，其中，所述寻找模块，还用于：

13.根据权利要求8-12任一项所述的文本标签的查询装置，其中，所述确定单元，还包括：

获取子单元，用于获取所述查询文本的长度；

第一确定子单元，用于根据所述长度和所述实际偏移量，确定偏移量范围；

形成标签子单元，用于获取处于所述偏移量范围内的每个所述实际偏移量对应的标签，形成标签组；以及

第二确定子单元，用于根据所述标签组中所包括的标签，确定所述查询文本对应的目标标签。

14.根据权利要求13所述的文本标签的查询装置，其中，所述第二确定子单元，还用于：

15.一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-7中任一项所述的文本标签的查询方法。

16.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行权利要求1-7中任一项所述的文本标签的查询方法。