CN112651211A

CN112651211A - 标签信息确定方法、装置、服务器及存储介质

Info

Publication number: CN112651211A
Application number: CN202011446137.1A
Authority: CN
Inventors: 马文康; 李理; 包英泽
Original assignee: Beijing Dami Technology Co Ltd
Current assignee: Beijing Dami Technology Co Ltd
Priority date: 2020-12-11
Filing date: 2020-12-11
Publication date: 2021-04-13

Abstract

本申请属于通信技术领域，具体而言，涉及一种标签信息确定方法、装置、服务器及存储介质。其中，一种标签信息确定方法，包括：获取评论文本对应的语句集合；获取所述语句集合中每个语句对应的类别信息，获取目标类别信息对应的至少一个语句的关键词信息；其中，所述目标类型信息为所述每个语句对应的类别信息中的任意一个；基于所述类别信息和所述至少一个语句的关键词信息，确定所述评论文本的标签信息。采用本申请可以在提高标签信息确定准确性的同时减少标签信息的标注成本。

Description

标签信息确定方法、装置、服务器及存储介质

技术领域

本申请属于通信技术领域，具体而言，涉及一种标签信息确定方法、装置、服务器及存储介质。

背景技术

随着信息社会的不断发展，用户会使用标签信息对文本进行标注。标签信息用于表示文本的重点信息。例如用户获取到文本之后，根据文本所表达的意思，用户可以手动设置该文本的标签信息，以方便查看。用户设置文本的标签信息时，用户可以通过设置文本的格式设置文本的标签信息，或者直接将文本的其中一个语句设置为文本的标签信息。

发明内容

本申请实施例提供一种标签信息确定方法、装置、服务器及存储介质，可以在提高标签信息确定准确性的同时减少标签信息的标注成本。本申请实施例的技术方案如下：

第一方面，本申请实施例提供一种标签信息确定方法，所述方法包括：

获取评论文本对应的语句集合；

获取所述语句集合中每个语句对应的类别信息，获取目标类别信息对应的至少一个语句的关键词信息；其中，所述目标类型信息为所述每个语句对应的类别信息中的任意一个；

基于所述类别信息和所述至少一个语句的关键词信息，确定所述评论文本的标签信息。

第二方面，本申请实施例提供一种标签信息确定装置，所述装置包括：

集合获取单元，用于获取评论文本对应的语句集合；

信息获取单元，用于获取所述语句集合中每个语句对应的类别信息，获取目标类别信息对应的至少一个语句的关键词信息；其中，所述目标类型信息为所述每个语句对应的类别信息中的任意一个；

信息确定单元，用于基于所述类别信息和所述至少一个语句的关键词信息，确定所述评论文本的标签信息。

第三方面，一种服务器，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述第一方面任一项所述的方法。

第四方面，本申请实施例提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述任一项所述的方法。

第五方面，本申请实施例提供一种计算机程序产品，其中，上述计算机程序产品包括存储计算机程序的非瞬时性计算机可读存储介质，上述计算机程序可操作来使计算机执行如本申请实施例第一方面中所描述的部分或全部步骤。该计算机程序产品可以为一个软件安装包。

本申请一些实施例提供的技术方案带来的有益效果至少包括：

在本申请一个或多个实施例中，通过获取评论文本对应的语句集合，可以获取语句集合中每个语句对应的类别信息以及目标类别信息对应的至少一个语句的关键词信息，可以基于类别信息和至少一个语句的关键词信息，确定评论文本的标签信息。由于目标类型信息为每个语句对应的类别信息中的任意一个，且关键词信息是基于类别信息获取的，可以提高关键词信息获取的准确性，同时无需对评论文本的逐个文字进行标注，因此，可以在提高标签信息确定准确性的同时减少标签信息的标注成本。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出应用于本申请实施例的一种标签信息确定方法的系统架构图；

图2示出应用于本申请实施例的一种终端界面的举例示意图；

图3示出本申请实施例的一种标签信息确定方法的流程示意图；

图4示出本申请实施例的一种标签信息确定方法的流程示意图；

图5示出本申请实施例的一种标签信息确定方法的流程示意图；

图6示出本申请实施例的一种终端界面的举例示意图；

图7示出本申请实施例的一种标签信息确定装置的结构示意图；

图8示出本申请实施例的一种标签信息确定装置的结构示意图；

图9示出本申请实施例的一种标签信息确定装置的结构示意图；

图10示出本申请实施例的一种标签信息确定装置的结构示意图；

图11示出本申请实施例的一种服务器的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅为本申请实施例的一部分，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在本申请的描述中，需要理解的是，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。在本申请的描述中，需要说明的是，除非另有明确的规定和限定，“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本申请中的具体含义。此外，在本申请的描述中，除非另有说明，“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

网络在线教育，顾名思义是以网络为介质的教学方法。通过网络，学生与教师即使相隔万里也可以开展教学活动。网络在线教育使课堂变成了教师与学生之间和学生与学生之间互动的场所，包括答疑解惑、知识的运用和团队合作等，从而可以达到更好的教育效果。此外，借助网络课件，学生还可以随时随地进行学习，真正打破了时间和空间的限制。对于工作繁忙，学习时间不固定的职场人而言，网络在线教育是最方便的学习方式。

图1示出应用于本申请实施例的一种标签信息确定方法的系统架构图。如图1所示，本申请实施例的执行主体是服务器，服务器可以获取终端发送的评论文本。该终端可以是具有显示屏的电子设备，该终端包括但不限于：可穿戴设备、手持设备、个人电脑、平板电脑、车载设备、智能手机、计算设备或连接到无线调制解调器的其它处理设备等。在不同的网络中终端设备可以叫做不同的名称，例如：用户设备、接入终端、用户单元、用户站、移动站、移动台、远方站、远程终端、移动设备、用户终端、终端、无线通信设备、用户代理或用户装置、蜂窝电话、无绳电话、个人数字处理(personal digital assistant，PDA)、第五代移动通信技术(5th generation mobile networks，5G)网络或未来演进网络中的终端设备等。该终端上可以安装操作系统，该操作系统是指可以运行在终端中的操作系统，是管理和控制终端硬件和终端应用的程序，是终端中不可或缺的系统应用。该操作系统包括但不限于安卓Android系统、IOS系统、Windows phone(WP)系统和Ubuntu移动版操作系统等。

根据一些实施例，终端可以通过网络和服务器连接。网络用以在终端和服务器之间提供通信链路。网络可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。应该理解，图1中的终端、网络和服务器的数目仅仅是示意性的。根据现实需要，可以具有任意数目的终端、网络和服务器。比如服务器可以是多个服务器组成的服务器集群等。用户可以使用终端通过网络与服务器交互，以获取推送消息等。

根据一些实施例，在网络在线教育中，教师可以通过教师终端将已经准备好的课堂内容发送至服务器。当服务器接收到教师终端发送的课堂内容时，服务器可以将该课堂内容发送至学生终端。学生可以通过学生终端接收到的课堂内容学习到教师所传授的课堂内容。当教师的授课结束时，学生可以获取到教师整个课堂的教学内容。在课堂结束后，用户可以对该课堂进行评论，并将该评论文本经学生终端发送至服务器。此时，学生终端界面的举例示意图可以如图2所示。该用户包括但不限于学生本人或学生家长等等。当服务器获取到用户的评论文本之后，服务器采用实体识别关键词的提取方法获取到评论文本的关键词，并该关键词作为评论文本的标签信息。但是在评论文本中关键词词频和非关键词词频相差较小时，服务器无法获取到评论文本的关键词，使得关键词获取不准确，进而使得评论文本的标签信息确定不准确。另外，在服务器获取到关键词时，需要对评论文本的逐个文字进行标注，使得评论文本的标注成本较大。本申请实施例提供一种标签信息确定方法，可以在提高标签信息确定准确性的同时减少标签信息的标注成本。本申请实施例的标签信息确定方法可以用于包括评论文本的场景，包括但不限于上述在线课堂中获取评论文本、对商品的评论文本等场景。

下面结合具体的实施例对本申请进行详细说明。

在一个实施例中，如图3所示，特提出了一种标签信息确定方法，该方法可依赖于计算机程序实现，可运行于服务器上。该计算机程序可集成在服务器中，也可作为独立的工具类应用运行。

具体的，该标签信息确定方法包括：

S101，获取评论文本对应的语句集合；

根据一些实施例，本申请实施例的评论文本为短文本，短文本是指长度较短的文本，短文本一般是指不超过160个字符的文本。该评论文本可以是服务器从服务器中的存储器中获取到的，还可以服务器基于网络从终端中获取到的。该评论文本包括但不限于对在线课堂的课堂内容的评论文本、对在线课堂教师的评论文本、对在线课堂中学生课堂表现的评论文本等等。

可选的，该评论文本并不特指某一固定评论文本，该评论文本可以是服务器基于接收到的文本获取指令获取。文本获取指令例如可以是用户通过终端发送的文本获取指令。当文本获取指令发生变化时，服务器获取到的评论文本也会相应变化。该文本获取指令包括但不限于语音文本获取指令、点击文本获取指令、定时文本获取指令等。当评论文本为在线课堂对应的评论文本时，在线课堂发生变化时，该评论文本也会相应变化。例如，服务器获取到的A在线课堂的评论文本例如可以是a评论文本，服务器获取到的B在线课堂的评论文本例如可以是b评论文本。

易于理解的是，语句集合是指与评论文本对应的语句的集合。该语句集合并不特指某一固定语句集合。当评论文本发生变化时，该语句集合也会相应变化。例如服务器获取到的A在线课堂的评论文本例如可以是a评论文本，服务器获取到的a评论文本对应的语句集合例如可以是a1语句集合。服务器获取到的B在线课堂的评论文本例如可以是b评论文本，服务器获取到的b评论文本对应的语句集合例如可以是b1语句集合。

根据一些实施例，当服务器获取到评论文本时，服务器可以获取评论文本对应的语句集合。例如服务器获取到a评论文本时，服务器可以获取到a评论文本对应的a1语句集合。

S102，获取语句集合中每个语句对应的类别信息，获取目标类别信息对应的至少一个语句的关键词信息；其中，目标类型信息为每个语句对应的类别信息中的任意一个；

根据一些实施例，类别信息是指与语句集合中每个语句对应的类别信息，该类别信息用于表示该语句的所属类别，其中一个语句对应一个类别信息，不同语句的类型信息可以是相同的，也可以是不同的。例如a1语句集合中包括a11语句、a12语句、a13语句、a14语句和a15语句。其中，a11语句对应的类别信息例如可以是a111类型信息、a12语句对应的类别信息例如可以是a121类型信息、a13语句对应的类别信息例如可以是a131类型信息、a14语句对应的类别信息例如可以是a111类型信息和a15语句对应的类别信息例如可以是a111类型信息。

易于理解的是，目标类别信息为每个语句对应的类别信息中的任意一个。该目标类型信息并不特指某一固定类别信息。当语句集合中每个语句对应的类别信息一样时，目标类型信息即为其中任意一个语句对应的类别信息。由于不同语句对应的类别信息可以是相同的，因此目标类别信息对应的语句为至少一个。

可选的，当服务器获取到评论文本对应的语句集合时，服务器可以获取语句集合中每个语句对应的类别信息。当服务器获取到语句集合中每个语句对应的类别信息时，服务器可以获取每个类别信息对应的至少一个语句。当服务器获取到每个类别信息对应的至少一个语句时，服务器可以获取目标类别信息。该目标类别信息是语句集合中每个语句对应的类别信息中任意一个。当服务器获取到目标类别信息时，服务器可以获取该目标类别信息对应的至少一个语句。当服务器获取到目标类别信息对应的至少一个语句时，服务器可以获取至少一个语句的关键词信息。

可选的，a1语句集合中包括a11语句、a12语句、a13语句、a14语句和a15语句。其中，a11语句对应的类别信息例如可以是a111类型信息、a12语句对应的类别信息例如可以是a121类型信息、a13语句对应的类别信息例如可以是a131类型信息、a14语句对应的类别信息例如可以是a111类型信息和a15语句对应的类别信息例如可以是a111类型信息。服务器获取到的目标类别信息例如可以是a111类别信息。当服务器获取到目标类别信息a111类别信息时，服务器可以获取a111类别信息对应的至少一个语句。服务器获取到的至少一个语句例如可以是a11语句、a14语句和a15语句。服务器可以分别获取a11语句、a14语句和a15语句的关键词信息。当服务器获取到的目标类型信息为a121类别信息时，服务器可以获取a12语句的关键词信息。当服务器获取到的目标类型信息为a131类别信息时，服务器可以获取a13语句的关键词信息。

S103，基于类别信息和至少一个语句的关键词信息，确定评论文本的标签信息。

根据一些实施例，当服务器获取到语句集合中每个语句对应的类别信息以及获取到目标类别信息对应的至少一个语句的关键词信息时，服务器可以基于该类别信息和至少一个语句的关键词信息，确定评论文本的标签信息。该标签信息包括但不限于标签语句、标签关键词等。

易于理解的是，当服务器获取到目标类别信息a111类别信息时，服务器可以分别获取a11语句、a14语句和a15语句的关键词信息。当服务器获取到的目标类型信息为a121类别信息时，服务器可以获取a12语句的关键词信息。当服务器获取到的目标类型信息为a131类别信息时，服务器可以获取a13语句的关键词信息。服务器可以基于a111类别信息、a121类别信息、a131类别信息、a11语句的关键词信息、a12语句的关键词信息、a13语句的关键词信息、a14语句的关键词信息和a15语句的关键词信息，确定a评论文本的标签信息。

在本申请一个或多个实施例中，通过获取评论文本对应的语句集合，可以获取语句集合中每个语句对应的类别信息以及目标类别信息对应的至少一个语句的关键词信息，可以基于类别信息和至少一个语句的关键词信息，确定评论文本的标签信息。由于目标类型信息为每个语句对应的类别信息中的任意一个，且关键词信息是基于类别信息获取的，可以减少关键词词频和非关键词词频相差较小时关键词获取不准确的情况，可以提高关键词信息获取的准确性，同时无需对评论文本的逐个文字进行标注，因此，可以在提高标签信息确定准确性的同时减少标签信息的标注成本。

请参见图4，为本申请实施例提供了一种标签信息确定方法的流程示意图。如图4所示，该方法包括以下步骤S201-S209。

S201，获取评论文本对应的语句集合；

具体过程如上所述，此处不再赘述。

根据一些实施例，图5示出本申请实施例提供的一种标签信息确定方法的流程示意图。如图5所示，当评论文本中包括多个段落时，服务器可以对该评论文本进行段落划分，获取到该评论文本对应的多个段落。当服务器获取到多个段落时，服务器可以将目标段落划分为句子粒度，得到评论文本对应的语句集合。其中，目标段落为多个段落中任意一个。

S202，获取训练样本集合和验证样本集合；

根据一些实施例，步骤202-步骤204可以在步骤201之后和步骤205之前执行，还可以在步骤201之前执行。也就是说，步骤202-步骤204在步骤205之前执行，即获取文本分类模型的步骤在获取语句集合中每个语句对应的类别信息，采用文本分类模型获取目标类别信息对应的至少一个语句之前执行即可。

易于理解的是，训练样本集合是指包括训练评论文本样本和该训练评论文本样本对应的标签信息的集合。该训练样本集合并不特指某一固定集合，该训练样本集合例如可以基于用户终端发送的样本确定指令变化，还可以是服务器基于文本模型的训练信息而变化。该训练信息包括但不限于训练时间、训练场景等等。验证样本集合是指包括验证评论文本样本和该验证评论文本样本对应的标签信息的集合。

根据一些实施例，当服务器获取到评论文本对应的语句集合时，服务器可以获取训练样本集合和验证样本集合。该训练样本集合例如可以是c评论文本、c11语句、c12语句、c13语句和c评论文本对应的标签信息c13语句。该训练样本集合例如可以是d评论文本、d11语句、d12语句、d13语句和d评论文本对应的标签信息d11语句。

S203，采用训练样本集合对原始文本分类模型进行训练，得到原始文本分类模型；

根据一些实施例，当服务器获取到训练样本集合和验证样本集合时，服务器可以采用训练样本集合对原始文本分类模型进行训练，得到原始文本分类模型。

易于理解的是，服务器获取到的训练样本集合例如可以是c评论文本、c11语句、c12语句、c13语句和c评论文本对应的标签信息c13语句。服务器采用该训练样本集合对原始文本分类模型进行训练时，可以以c评论文本为原始文本分类模型的输入，以c评论文本对应的标签信息c13语句为原始文本分类模型的输出对原始文本分类模型进行训练，得到原始文本分类模型。

S204，采用验证样本集合对原始文本分类模型进行验证，得到文本分类模型；

根据一些实施例，当服务器获取到训练样本集合和验证样本集合时，服务器可以采用训练样本集合对原始文本分类模型进行训练，得到原始文本分类模型。当服务器获取到原始文本分类模型时，服务器可以采用验证样本集合对原始文本分类模型进行验证，得到文本分类模型，可以提高文本分类模型的准确性，进而可以提高标签信息确定的准确性。

易于理解的是，服务器获取到的训练样本集合例如可以是c评论文本、c11语句、c12语句、c13语句和c评论文本对应的标签信息c13语句。服务器可以采用该训练样本集合对原始文本分类模型进行训练时，可以以c评论文本为原始文本分类模型的输入，以c评论文本对应的标签信息c13语句为原始文本分类模型的输出对原始文本分类模型进行训练，得到原始文本分类模型。当服务器得到原始文本分类模型时，服务器可以采用训练样本集合对原始文本分类模型进行验证，得到文本分类模型。服务器对原始文本分类模型进行验证时，服务器可以以d评论文本为原始文本分类模型的输入、并以d评论文本对应的标签信息d11语句为原始文本分类模型的输出对原始文本分类模型进行验证，得到文本分类模型。

可选的，当服务器对原始文本分类模型进行验证时，服务器可以检测原始文本分类模型输出的标签信息和验证样本集合中的标签信息是否匹配。当服务器检测到原始文本分类模型输出的标签信息和验证样本集合中的标签信息之间的匹配度超过预设匹配度时，服务器可以得到文本分类模型。

S205，获取语句集合中每个语句对应的类别信息，采用文本分类模型获取目标类别信息对应的至少一个语句；

根据一些实施例，当服务器获取到评论文本对应的语句集合和文本分类模型时，服务器可以获取语句集合中每个语句对应的类别信息，并采用文本分类模型获取目标类别信息对应的至少一个语句。其中，目标类别信息为每个语句对应的类别信息中的任意一个。

易于理解的是，服务器获取到的a评论文本对应的语句集合例如可以是a1语句集合，a1语句集合中包括a11语句、a12语句、a13语句、a14语句和a15语句。服务器获取到的目标类别信息例如可以是a111类别信息，该目标类别信息对应的至少一个语句例如可以是a11语句、a14语句和a15语句。服务器可以采用文本分类模型分别获取a11语句、a14语句和a15语句的关键词信息。当服务器获取到的目标类型信息为a121类别信息时，服务器可以采用文本分类模型获取a12语句的关键词信息。当服务器获取到的目标类型信息为a131类别信息时，服务器可以采用文本分类模型获取a13语句的关键词信息。

S206，采用关键词提取算法对至少一个语句进行关键词提取，得到至少一个语句的关键词信息；

根据一些实施例，关键词提取算法是指获取关键词的算法，该算法并不特指某一固定算法。当服务器获取到目标类别信息对应的至少一个语句时，服务器可以采用关键词提取算法对至少一个语句进行关键词提取，得到至少一个语句的关键词信息。

易于理解的是，服务器获取到的目标类别信息例如可以是a111类别信息，该目标类别信息对应的至少一个语句例如可以是a11语句、a14语句和a15语句。a11语句例如可以是“你的阅读能力很好”、a14语句例如可以是“你阅读很棒”和a15语句例如可以是“你的阅读很标准”。服务器获取到的a111类别信息例如可以是阅读能力。服务器采用关键词提取算法获取到a11语句的关键词信息例如可以是“阅读能力、很好”、a14语句的关键词信息例如可以是“阅读、很棒”和a15语句的关键词信息例如可以是“阅读、标准”。

S207，获取至少一个语句的关键词信息对应的向量；

根据一些实施例，当服务器采用关键词提取算法对至少一个语句进行关键词提取，得到至少一个语句的关键词信息时，服务器可以获取至少一个语句的关键词信息对应的向量。

易于理解的是，当服务器获取至少一个语句的关键词信息对应的向量时，服务器可以采用文本嵌入算法，得到至少一个语句的关键词信息对应的向量。

S208，对向量进行聚类处理，获取每个类别信息对应的聚类中心；其中，一个类别信息对应至少一个聚类中心；

根据一些实施例，当服务器获取到至少一个语句的关键词信息对应的向量时，服务器可以对向量进行聚类处理。聚类(Clustering)是按照某个特定标准(如距离)把一个数据集分割成不同的类或簇，使得同一个簇内的数据对象的相似性尽可能大，同时不在同一个簇中的数据对象的差异性也尽可能地大。也即聚类后同一类的数据尽可能聚集到一起，不同类的数据尽量分离。

易于理解的是，当服务器对向量进行聚类处理时，可以获取到每个类别信息对应的聚类中心。其中，一个类别信息对应至少一个聚类中心。例如语句集合例如可以是a评论文本对应的a1语句集合，该a1语句集合还包括a16语句、a17语句和a18语句，即a1语句集合包括a11语句、a12语句、a13语句、a14语句、a15语句、a16语句、a17语句和a18语句。其中，a11语句、a12语句、a13语句、a14语句、a15语句对应的类别信息例如可以是优劣势类别信息，a16语句、a17语句对应的类别信息例如可以是难点类别信息、a18语句对应的类别信息例如可以是改进点类别信息。其中，服务器可以分别获取优劣势类别信息对应的a11语句、a12语句、a13语句、a14语句、a15语句对应的关键词信息和a11语句、a12语句、a13语句、a14语句、a15语句对应的关键词信息分别对应的向量。当服务器对a11语句对应的关键词信息对应的向量、a12语句对应的关键词信息对应的向量、a13语句对应的关键词信息对应的向量、a14语句对应的关键词信息对应的向量、a15语句对应的关键词信息对应的向量进行聚类处理时，服务器可以获取优劣势类别信息对应的聚类中心。例如a11语句、a12语句、a13语句为优势类别信息、a14语句、a15语句为劣势类别信息时，服务器可以获取到两个聚类中心。例如a16语句、a17语句对应的类别信息例如可以是难点类别信息，服务器可以获取到一个聚类中心。例如a18语句对应的类别信息例如可以是改进点类别信息，服务器可以获取到一个聚类中心。服务器可以确定所有类别信息对应的总的聚类中心为4个。

根据一些实施例，服务器对向量进行聚类处理，获取每个类别信息对应的聚类中心时，服务器可以获取每个向量对应的语义信息。当服务器获取到每个向量对应的语义信息时，服务器可以基于语义信息，对向量进行聚类处理，获取每个类别信息对应的聚类中心。

易于理解的是，例如a11语句、a12语句、a13语句为优势类别信息、a14语句、a15语句为劣势类别信息时，服务器可以获取到两个聚类中心。例如服务器获取优势类别信息对应的聚类中心和劣势类别信息对应的聚类中心时，服务器可以获取a11语句对应的向量的语义信息、a12语句对应的向量的语义信息、a13语句对应的向量的语义信息、a14语句对应的向量的语义信息和a15语句对应的向量的语义信息。当服务器确定a11语句对应的向量的语义信息、a12语句对应的向量的语义信息、a13语句对应的向量的语义信息之间的匹配度符合匹配度要求时，服务器可以对a11语句对应的向量、a12语句对应的向量和a13语句对应的向量进行聚类，得到优势类别信息对应的聚类中心。当服务器确定a14语句对应的向量的语义信息和a15语句对应的向量的语义信息之间的匹配度满足匹配度要求时，服务器可以对a14语句对应的向量和a15语句对应的向量进行聚类，得到劣势类别信息对应的聚类中心。

S209，基于至少一个聚类中心，确定评论文本的标签信息。

根据一些实施例，当服务器获取到每个类别信息对应的聚类中心时，服务器可以基于至少一个聚类中心，确定评论文本的标签信息。例如a11语句、a12语句、a13语句为优势类别信息、a14语句、a15语句为劣势类别信息、a16语句和a17语句对应的类别信息例如可以是难点类别信息，以及a18语句对应的类别信息例如可以是改进点类别信息，服务器可以确定所有类别信息对应的总的聚类中心为4个。服务器可以基于4个聚类中心，确定q评论文本的标签信息。

根据一些实施例，服务器基于至少一个聚类中心，确定评论文本的标签信息时，服务器可以获取目标聚类中心对应的关键词信息的词频。其中，目标聚类中心为至少一个聚类中心中任意一个。当服务器获取到目标聚类中心对应的关键词信息的词频时，服务器可以获取目标聚类中心中词频最高的关键词，并将词频最高的关键词对应的语句确定为目标聚类中心的标签语句。当服务器获取到目标聚类中心的标签语句时，服务器可以将目标聚类中心的标签语句确定为评论文本的标签信息。其中，目标聚类中心为至少一个聚类中心中的任意一个，因此服务器对每个聚类中心进行标签语句的获取，可以获取到评论文本对应的所有的标签信息。

易于理解的是，例如服务器获取到优势类别信息对应的聚类中心，该聚类中心例如可以是表示阅读能力强的聚类中心，服务器获取到阅读能力强的聚类中心对应的关键词例如可以是“阅读很棒、阅读很好、阅读很流畅、阅读能力很强”。服务器获取到词频最高的关键词例如可以是“阅读能力很强”。关键词“阅读能力很强”对应的语句例如可以是a11语句。服务器可以将a11语句确定为阅读能力强的聚类中心的标签语句。当服务器获取到所有聚类中心的标签语句时，服务器可以将标签语句确定为评论文本对应的标签信息。

根据一些实施例，服务器基于至少一个聚类中心，确定评论文本的标签信息时，服务器可以获取目标聚类中心对应的聚类类别信息。其中，目标聚类中心为至少一个聚类中心中任意一个。当服务器获取到目标聚类中心对应的聚类类别信息时，服务器可以获取聚类类别信息对应的标签语句。当服务器获取到目标聚类中心的标签语句时，服务器可以将聚类类别信息对应的标签语句确定为评论文本的标签信息。

易于理解的是，例如服务器获取到优势类别信息对应的聚类中心，该聚类中心例如可以是表示阅读能力强的聚类中心时，服务器可以获取表示阅读能力强的聚类中心的聚类类别信息。服务器获取到的表示阅读能力强的聚类中心的聚类类别信息例如可以是阅读能力强。服务器可以直接获取阅读能力强对应的标签语句，并在服务器获取到所有聚类类别信息对应的标签语句时，服务器可以将标签语句确定为评论文本对应的标签信息。其中，聚类类别信息对应的标签语句可以是服务器预先设置的。例如服务器获取到用户经终端发送的语句设置指令设置，服务器可以基于该语句设置指令，将标签语句确定为评论文本对应的标签信息。该语句设置指令包括但不限于语音语句设置指令、点击语句设置指令、和定时语句设置指令等。

易于理解的是，当服务器获取评论文本对应的标签信息时，服务器可以将该标签信息发送至终端。当终端接收到该标签信息时，终端可以在终端显示屏上展示该标签信息。此时，终端界面的举例示意图可以如图6所示。

易于理解的是，当服务器获取评论文本对应的标签信息时，服务器可以关联存储评论文本和标签信息的对应关系至服务器中的存储器，可以减少标签信息的获取次数。

在本申请一个或多个实施例中，通过获取训练样本集合和验证样本集合，可以采用训练样本集合对原始文本分类模型进行训练，得到原始文本分类模型，并采用验证样本集合对原始文本分类模型进行验证，得到文本分类模型，可以提高文本分类模型分类的准确性，可以提高获取目标类别信息对应的至少一个语句的准确性，进而可以提高标签信息确定的准确性。其次，服务器获取语句集合中每个语句的类别信息，无需对评论文本的逐个字符进行标注，可以减少标注成本。另外，采用关键词提取算法对至少一个语句进行关键词提取，得到至少一个语句的关键词信息，由于至少一个语句为目标类别信息对应的关键词，可以减少关键词词频和非关键词词频相差较小时关键词获取不准确的情况，可以提高关键词信息获取的准确性。最后，服务器可以获取至少一个语句的关键词信息对应的向量，对向量进行聚类处理，获取每个类别信息对应的聚类中心，可以基于至少一个聚类中心，确定评论文本的标签信息，由于聚类算法具有简单快速的特点，因此可以减少标签信息的获取时长，提高标签信息的确定效率。

下面将结合附图7-10，对本申请实施例提供的标签信息确定装置进行详细介绍。需要说明的是，附图7-10所示的标签信息确定装置，用于执行本申请图3-图6所示实施例的方法，为了便于说明，仅示出了与本申请实施例相关的部分，具体技术细节未揭示的，请参照本申请图3-图6所示的实施例。

请参见图7，其示出本申请实施例的标签信息确定装置的结构示意图。该标签信息确定装置700可以通过软件、硬件或者两者的结合实现成为用户终端的全部或一部分。

根据一些实施例，该标签信息确定装置700包括集合获取单元701、信息获取单元702和信息确定单元703，具体用于：

集合获取单元701，用于获取评论文本对应的语句集合；

信息获取单元702，用于获取语句集合中每个语句对应的类别信息，获取目标类别信息对应的至少一个语句的关键词信息；其中，目标类型信息为每个语句对应的类别信息中的任意一个；

信息确定单元703，用于基于类别信息和至少一个语句的关键词信息，确定评论文本的标签信息。

根据一些实施例，图8示出本申请实施例的一种标签信息确定装置的结构示意图。如图8所示，信息获取单元702包括语句获取子单元712和信息获取子单元722，信息获取单元702用于获取目标类别信息对应的至少一个语句的关键词信息时：

语句获取子单元712，用于采用文本分类模型获取目标类别信息对应的至少一个语句；

信息获取子单元722，用于采用关键词提取算法对至少一个语句进行关键词提取，得到至少一个语句的关键词信息。

根据一些实施例，图9示出本申请实施例的一种标签信息确定装置的结构示意图。如图9所示，该标签信息确定装置700包括模型训练单元704，用于采用文本分类模型获取每个类别信息对应的至少一个语句之前，获取训练样本集合和验证样本集合；

采用训练样本集合对原始文本分类模型进行训练，得到原始文本分类模型；

采用验证样本集合对原始文本分类模型进行验证，得到文本分类模型。

根据一些实施例，图10示出本申请实施例的一种标签信息确定装置的结构示意图。如图10所示，信息确定单元703包括向量获取子单元713、聚类中心获取子单元723和信息确定子单元733，信息确定单元703用于基于类别信息和至少一个语句的关键词信息，确定评论文本的标签信息时：

向量获取子单元713，用于获取至少一个语句的关键词信息对应的向量；

聚类中心获取子单元723，用于对向量进行聚类处理，获取每个类别信息对应的聚类中心；其中，一个类别信息对应至少一个聚类中心；

信息确定子单元733，用于基于至少一个聚类中心，确定评论文本的标签信息。

根据一些实施例，信息确定子单元733，用于基于至少一个聚类中心，确定评论文本的标签信息时，具体用于：

获取目标聚类中心对应的关键词信息的词频；其中，目标聚类中心为至少一个聚类中心中任意一个；

获取目标聚类中心中词频最高的关键词，并将词频最高的关键词对应的语句确定为目标聚类中心的标签语句；

将目标聚类中心的标签语句确定为评论文本的标签信息。

获取目标聚类中心对应的聚类类别信息；其中，目标聚类中心为至少一个聚类中心中任意一个；

获取聚类类别信息对应的标签语句；

将聚类类别信息对应的标签语句确定为评论文本的标签信息。

根据一些实施例，聚类中心获取子单元723用于对向量进行聚类处理，获取每个类别信息对应的聚类中心时，具体用于：

获取每个向量对应的语义信息；

基于语义信息，对向量进行聚类处理，获取每个类别信息对应的聚类中心。

请参见图11，为本申请实施例提供的一种服务器的结构示意图。该服务器1100可实现前述根据本申请实施例的教学交互方法。

如图11所示，该服务器1100包括处理器1101和存储器1102，其中，服务器1100还可以包括总线1103，处理器1101和存储器1102可以通过总线1103相互连接，总线1103可以是外设部件互连标准(Peripheral Component Interconnect，简称PCI)总线或扩展工业标准结构(Extended Industry Standard Architecture，简称EISA)总线等。总线1103可以分为地址总线、数据总线、控制总线等。为便于表示，图11中仅用一条线表示，但并不表示仅有一根总线或一种类型的总线。存储器1102用于存储包含指令的一个或多个程序；处理器1101用于扫描存储在存储器1102中的指令1111执行上述用于用户界面自动化测试方法的步骤。

根据一些实施例，处理器1101可以用于调用存储器1102中存储的标签信息确定的应用程序，并具体执行以下操作：

获取评论文本对应的语句集合；

获取语句集合中每个语句对应的类别信息，获取目标类别信息对应的至少一个语句的关键词信息；其中，目标类型信息为每个语句对应的类别信息中的任意一个；

基于类别信息和至少一个语句的关键词信息，确定评论文本的标签信息。

根据一些实施例，处理器1101用于执行获取目标类别信息对应的至少一个语句的关键词信息时，具体执行以下操作：

采用文本分类模型获取目标类别信息对应的至少一个语句；

采用关键词提取算法对至少一个语句进行关键词提取，得到至少一个语句的关键词信息。

根据一些实施例，处理器1101用于执行采用文本分类模型获取每个类别信息对应的至少一个语句之前，还具体执行以下操作：

获取训练样本集合和验证样本集合；

根据一些实施例，处理器1101用于执行基于类别信息和至少一个语句的关键词信息，确定评论文本的标签信息时，具体执行以下操作：

获取至少一个语句的关键词信息对应的向量；

对向量进行聚类处理，获取每个类别信息对应的聚类中心；其中，一个类别信息对应至少一个聚类中心；

基于至少一个聚类中心，确定评论文本的标签信息。

根据一些实施例，处理器1101用于执行基于至少一个聚类中心，确定评论文本的标签信息时，具体执行以下操作：

将目标聚类中心的标签语句确定为评论文本的标签信息。

获取聚类类别信息对应的标签语句；

根据一些实施例，处理器1101用于执行对向量进行聚类处理，获取每个类别信息对应的聚类中心时，具体执行以下操作：

获取每个向量对应的语义信息；

本申请还提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述方法的步骤。其中，计算机可读存储介质可以包括但不限于任何类型的盘，包括软盘、光盘、DVD、CD-ROM、微型驱动器以及磁光盘、ROM、RAM、EPROM、EEPROM、DRAM、VRAM、闪速存储器设备、磁卡或光卡、纳米系统(包括分子存储器IC)，或适合于存储指令和/或数据的任何类型的媒介或设备。

本申请实施例还提供一种计算机程序产品，该计算机程序产品包括存储计算机程序的非瞬时性计算机可读存储介质，该计算机程序可操作来使计算机执行如上述方法实施例中记载的任何一种标签信息确定方法的部分或全部步骤。

本领域的技术人员可以清楚地了解到本申请的技术方案可借助软件和/或硬件来实现。本说明书中的“单元”和“模块”是指能够独立完成或与其他部件配合完成特定功能的软件和/或硬件，其中硬件例如可以是现场可编程门阵列(Field－ProgrammaBLE GateArray，FPGA)、集成电路(Integrated Circuit，IC)等。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置，可通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些服务接口，装置或单元的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储器中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储器中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储器包括：U盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通进程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储器中，存储器可以包括：闪存盘、只读存储器(Read-Only Memory，ROM)、随机存取器(Random AccessMemory，RAM)、磁盘或光盘等。

以上所述者，仅为本公开的示例性实施例，不能以此限定本公开的范围。即但凡依本公开教导所作的等效变化与修饰，皆仍属本公开涵盖的范围内。本领域技术人员在考虑说明书及实践这里的公开后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未记载的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的范围和精神由权利要求限定。

Claims

1.一种标签信息确定方法，其特征在于，所述方法包括：

获取评论文本对应的语句集合；

2.根据权利要求1所述的方法，其特征在于，所述获取目标类别信息对应的至少一个语句的关键词信息，包括：

采用文本分类模型获取所述目标类别信息对应的至少一个语句；

采用关键词提取算法对所述至少一个语句进行关键词提取，得到所述至少一个语句的关键词信息。

3.根据权利要求2所述的方法，其特征在于，所述采用文本分类模型获取所述每个类别信息对应的至少一个语句之前，还包括：

获取训练样本集合和验证样本集合；

采用所述训练样本集合对原始文本分类模型进行训练，得到所述原始文本分类模型；

采用所述验证样本集合对所述原始文本分类模型进行验证，得到所述文本分类模型。

4.根据权利要求1所述的方法，其特征在于，所述基于所述类别信息和所述至少一个语句的关键词信息，确定所述评论文本的标签信息，包括：

获取所述至少一个语句的关键词信息对应的向量；

对所述向量进行聚类处理，获取每个类别信息对应的聚类中心；其中，一个类别信息对应至少一个聚类中心；

基于所述至少一个聚类中心，确定所述评论文本的标签信息。

5.根据权利要求4所述的方法，其特征在于，所述基于所述至少一个聚类中心，确定所述评论文本的标签信息，包括：

获取目标聚类中心对应的关键词信息的词频；其中，所述目标聚类中心为所述至少一个聚类中心中任意一个；

获取所述目标聚类中心中词频最高的关键词，并将所述词频最高的关键词对应的语句确定为所述目标聚类中心的标签语句；

将所述目标聚类中心的标签语句确定为所述评论文本的标签信息。

6.根据权利要求4所述的方法，其特征在于，所述基于所述至少一个聚类中心，确定所述评论文本的标签信息，包括：

获取目标聚类中心对应的聚类类别信息；其中，所述目标聚类中心为所述至少一个聚类中心中任意一个；

获取所述聚类类别信息对应的标签语句；

将所述聚类类别信息对应的标签语句确定为所述评论文本的标签信息。

7.根据权利要求4所述的方法，其特征在于，所述对所述向量进行聚类处理，获取每个类别信息对应的聚类中心，包括：

获取每个向量对应的语义信息；

基于所述语义信息，对所述向量进行聚类处理，获取所述每个类别信息对应的聚类中心。

8.一种标签信息确定装置，其特征在于，所述装置包括：

集合获取单元，用于获取评论文本对应的语句集合；

9.一种服务器，包括存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序，其特征在于，处理器执行计算机程序时实现上述权利要求1-7中任一项方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现上述权利要求1-7中任一项方法。