CN105279208A

CN105279208A - 一种数据标示方法和管理系统

Info

Publication number: CN105279208A
Application number: CN201410361588.3A
Authority: CN
Inventors: 汤潮; 汤杨
Original assignee: Beijing Longyuan Innovation Information Technology Co Ltd
Current assignee: Longyuan innovation digital media (Beijing) Limited by Share Ltd
Priority date: 2014-07-25
Filing date: 2014-07-25
Publication date: 2016-01-27
Anticipated expiration: 2034-07-25
Also published as: CN105279208B

Abstract

本发明提供了一种数据标示方法和管理系统，涉及数据加工处理领域。方法包括：S1，服务器提取待标示的数据的标题分词和/或正文的高词频分词和/或关键词汇；S2，服务器将所述标题分词和/或所述正文的高词频分词和/或关键词汇与所述数据的标签库进行对比，获取对比结果中匹配度大于90％的所述标题分词和/或所述正文的高词频分词和/或关键词汇，作为标示所述数据的第一位标签；所述第一位标签写入所述标签库；S3，人工读取所述数据的标题内容，用与所述标题内容匹配度大于90％的第一位标签对所述数据进行标示。采用本发明提供的技术方案，可以降低对技术人员的要求，提高工作效率，从而大大的降低数据加工成本。

Description

一种数据标示方法和管理系统

技术领域

本发明涉及数据加工处理领域，尤其涉及一种数据标示方法和管理系统。

背景技术

如今，人们已经习惯于从互联网上获取信息，而对数据进行标示处理，使人们在标示的指引下，快速的获得有用的信息，受到了广大用户的欢迎，也得到了技术人员的广泛关注和研究。

目前，数据标示处理技术主要是通过人工的方式进行，技术人员通过阅读、理解数据内容后，再根据自身的理解，归纳、整理出能够代表数据内容的标签，完成对数据的标示。

但是，该过程对技术人员的要求高，且由于人工处理效率低，因此需要的技术人员的数量多，从而使得对数据进行标示处理的成本高；尤其当互联网上具有大量的数据时，采用上述技术对其进行标示处理成本就会更高。

发明内容

本发明的目的之一在于提供一种数据标示方法，本发明的目的之二在于提供一种数据表示管理系统，通过利用服务器的初次标示后，再经过人工简单的校正和调整，完成对数据内容的标示，从而解决现有技术中存在的前述问题。

为了实现上述目的，本发明采用的技术方案如下：

一种数据标示方法，包括如下步骤：

S1，服务器提取待标示的数据的标题分词和/或正文的高词频分词和/或关键词汇；

S2，服务器将所述标题分词和/或所述正文的高词频分词和/或关键词汇与所述数据的标签库进行对比，获取对比结果中匹配度大于90％的所述标题分词和/或所述正文的高词频分词和/或关键词汇，作为标示所述数据的第一位标签；所述第一位标签写入所述标签库；

S3，人工读取所述数据的标题内容，用与所述标题内容匹配度大于90％的第一位标签对所述数据进行标示。

进一步地，步骤S2和步骤S3之间，还包括用户自定义标签的步骤，所述用户自定义标签达到或超过规定数量时，在用户视图界面上，将所述用户自定义标签的位置提前，所述用户自定义标签的数量越大，其位置越靠前；所述用户自定义标签达到或超过规定数量时，所述用户自定义标签写入所述标签库。

优选地，所述与所述标题内容匹配度大于90％的第一位标签按照所述匹配度大小进行倒排序显示在用户视图界面上。

优选地，步骤S2中，所述第一位标签的数量达到设定值时，则继续；否则，用第二位标签进行补充，直到达到所述设定值，则继续；在用户视图界面上，所述第二位标签位于所述第一位标签的后面；所述第二位标签为所述标题分词；所述第二位标签写入所述标签库。

具体地，所述设定值为5-20。

具体地，所述用第二位标签进行补充，具体为，所述标题分词按照分值大小倒排序进行补充，所述标题分词的所述分值按照如下方法获得：

为所有所述标题分词设定相同的初始分值；

所述标题分词与所述正文的高词频分词和/或关键词汇相匹配，匹配度达到90％以上时，为所述标题分词的分值加分，匹配度越高，加分值越大；

将所述初始分值与所述加分值求和，得到所述标题分词的分值。

优选地，所述用第二位标签进行补充后，所述第一位标签和所述第二位标签的总量未达到所述设定值时，则用第三位标签进行补充，直到达到所述设定值，则继续；在用户视图界面上，所述第三位标签位于所述第二位标签的后面；所述第三位标签为所述正文的高词频分词和/或关键词汇；所述第三位标签写入所述标签库。

具体地，所述用第三位标签进行补充，具体为，所述正文的高词频分词和/或关键词汇按照分值大小倒排序进行补充，所述正文的高词频分词和/或关键词汇的词频越高，其所述分值越大。

一种数据标示管理系统，包括：

标签树模块：用于以树形结构呈现分类之间的层级和逻辑关系，且在每个层级分类下预置标签；

标签查询模块：用于对某一时间段内的标签进行查询，可以实现自定义(模糊)查询及条件查询；

标签库模块：用于建立标签库；

服务器标示模块：用于提取待标示的数据的标题分词和/或正文的高词频分词和/或关键词汇，并与所述数据的标签库进行对比，获取对比结果中匹配度大于90％的所述标题分词和/或所述正文的高词频分词和/或关键词汇，作为标示所述数据的第一位标签；

人工标示模块：用于与所述标题内容匹配度大于90％的第一位标签对所述数据进行标示。

进一步地，所述数据标示管理系统，还包括：

用户标示模块：用于用户自定义标签。

本发明的有益效果是：

与现有技术中，完全靠人工的方式完成数据标示的技术相比，本发明中，采用服务器标示和人工标示相结合的方式，在保证标示准确性的基础上，提高了工作效率，降低了对人员的要求，从而降低了对数据标示处理的成本，尤其针对大量数据时，标示处理成本得到了极大的降低。

由于现有技术中，需要技术人员阅读、理解数据内容后，再根据自身的理解，归纳、整理出能够代表数据内容的标签，完成对数据的标示。因此，要求技术人员具有较高的阅读、分析和理解能力，一般为具有硕士研究生学历的人员，这样，每个技术人员的成本就比较高。同时，每个人处理一篇文章的时间大概为5-10分钟，因此，每个人每天能够处理的文章大概是200篇，当数据库中有十万甚至百万数量级的数据时，对其进行标示，需要的人员量是很大的，从而数据加工成本会大大的增加。

而本发明中，首先利用服务器的搜索、检索、分词等技术，获取对数据进行标示的标签，之后进行人工修整和调整时，只需要读取所述数据的标题内容即可，而不需要对整篇文章进行阅读和分析、理解，因此，采用本发明提供的技术方案，可以降低对技术人员的要求，从而降低人工成本，同时，由于人工需要完成的工作量小且任务简单，工作效率会得到极大的提升，每个人每天能够处理的文章至少为1200-2000篇，因此，当数据库中有十万甚至百万数量级的数据时，对其进行标示，需要的人员量则不会很大的，从而数据加工成本会大大的降低。

附图说明

图1是本发明实施例提供的数据标示方法的流程示意图；

图2是本发明实施例提供的数据标示管理系统框架示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施方式仅仅用以解释本发明，并不用于限定本发明。

如图1所示，一种数据标示方法，包括如下步骤：

S1，服务器提取待标示的数据的标题分词和/或正文的高词频分词和/或关键词汇。

S2，服务器将所述标题分词和/或所述正文的高词频分词和/或关键词汇与所述数据的标签库进行对比，获取对比结果中匹配度大于90％的所述标题分词和/或所述正文的高词频分词和/或关键词汇，作为标示所述数据的第一位标签；所述第一位标签写入所述标签库。

服务器首先利用搜索、检索、分词等技术提取待标示的数据的标题分词和/或正文的高词频分词和/或关键词汇；工作效率高，处理大量数据需要的时间短。由于待标示的数据文字内容是隶属于各个分类的，因此把分类细化，最好将分类细化至3-4级，同时为每个细化的分类进行标签的预置定义，这样，可以加大标签库中的初始标签的数量，也可以增加利用标签库对数据内容进行标示的精准度。对于移动互联网中的信息而言，标签库中的标签均为当前社会热词和重点词。开始阶段，对数据内容进行的标示，服务器会将所述标题分词和/或所述正文的高词频分词和/或关键词汇与所述数据的标签库中的初始标签进行对比，随着标签库中的标签的添加、删除或修改，标签库不断的更新，则服务器会将所述标题分词和/或所述正文的高词频分词和/或关键词汇与所述数据的标签库中的更新的标签进行对比。

将所述标题分词和/或所述正文的高词频分词和/或关键词汇与所述数据的标签库进行对比后，对比结果中匹配度越大，利用所述标题分词和/或所述正文的高词频分词和/或关键词汇对数据内容进行标示的精准度越高。但是，有时也存在不相符的状况，比如标题虽然大多数时候是对全文的概述及归纳，认为标题的分词更加精确，但是为了标题党却不能表示文章的大意；比如虽然正文的高词频分词和/或关键词汇在正文中出现的频度很高，但是这些词却不能表示数据的大意。因此，为了保证对数据标示的准确性，本发明在利用服务器对内容进行标示之后，进一步进行了人工的校正和调整，但是，本发明中，只需人工读取所述数据的标题内容，而不需要读取整篇文章，也不需要对文章进行理解和归纳整理，只需在服务器标示的基础上，通过将服务器的标示内容与所述标题内容进行匹配，并找到匹配度大于90％的第一位标签即可。因此，采用本发明的技术方案，在保证标示准确性的基础上，提高了工作效率，降低了对人员的要求，从而降低了数据加工成本。

在本发明的一个实施例中，在步骤S2和步骤S3之间，还包括用户自定义标签的步骤，所述用户自定义标签达到或超过规定数量时，在用户视图界面上，将所述用户自定义标签的位置提前，所述用户自定义标签的数量越大，其位置越靠前；所述用户自定义标签达到或超过规定数量时，所述用户自定义标签写入所述标签库。

当用户自定义标签达到或超过规定数量时，更能代表数据内容的大意，更能贴近用户对内容的理解，因此，可以根据其数量的大小，选择其作为标签的位置，数量越大，其位置越靠前，甚至可以位于第一位标签的前面。这样，对数据内容设置的标签会更加符合数据内容的意思，同时也更贴近用户，且符合用户对数据内容的理解。其中，用户自定义标签的数量，本领域技术人员可以根据实际情况进行设定。

服务器对数据内容进行标示属于自动的标签化操作，与用户主观的标示相结合后，可90％定义并标示出文字内容的大意和关键性词汇。再通过专业的数据加工人员补充修订后，则可以完全体现数据内容的含义。

可见，采用本发明实施例提供的技术方案，可以增加移动终端用户与系统的交互性，增加用户使用系统的粘性，提高了移动应用程序的生命力；同时，增加了数字内容的加工精度，为智能系统(智能分析、智能推送)提供了有力的数据支撑。

在本发明的一个实施例中，与所述标题内容匹配度大于90％的第一位标签按照所述匹配度大小进行倒排序显示在用户视图界面上。匹配度越大的，在用户视图界面上显示的位置越靠前，在用户读取数据时，越能最早发现靠前位置的标签，用户越能获取到对其有用的信息。

在本发明的一个实施例中，步骤S2中，所述第一位标签的数量达到设定值时，则继续；否则，用第二位标签进行补充，直到达到所述设定值，则继续；在用户视图界面上，所述第二位标签位于所述第一位标签的后面；所述第二位标签为所述标题分词；所述第二位标签写入所述标签库。

不同的数据内容要表达其大意，可能需要的标签的数量不同，因此，本领域技术人员可以更具不同的数据内容，设定不同数量的标签。而当处于用户视图界面比较靠前位置的第一位标签的数量没有达到设定的标签数量时，可以用第二位标签进行补充，以使用户能够根据足够多的标签快速的把握数据内容的大意，从而快速的找到自己有用的数据信息。但是，由于标题分词对数据内容的代表性不是很大，因此，在用户视图界面上，将其作为第二位标签位于第一位标签之后。将第二位标签写入所述标签库，以充实标签库的内容，使标签库更能体现数据内容的大意，与数据内容更加贴近。

在本发明的一个实施例中，可以选择第一位标签的数量的设定值为5-20。以使用户能够根据足够多的标签快速的把握数据内容的大意，从而快速的找到自己有用的数据信息。

在本发明的一个实施例中，所述用第二位标签进行补充，具体为，所述标题分词按照分值大小倒排序进行补充，所述标题分词的所述分值按照如下方法获得：

为所有所述标题分词设定相同的初始分值；

本发明的一个实施例中，所述用第二位标签进行补充后，所述第一位标签和所述第二位标签的总量未达到所述设定值时，则用第三位标签进行补充，直到达到所述设定值，则继续；在用户视图界面上，所述第三位标签位于所述第二位标签的后面；所述第三位标签为所述正文的高词频分词和/或关键词汇；所述第三位标签写入所述标签库。

当处于用户视图界面比较靠前位置的第一位标签和第二位标签的总量没有达到设定的标签数量时，可以用第三位标签进行补充，以使标签达到足够的数量，进而使用户能够根据足够多的标签快速的把握数据内容的大意，从而快速的找到自己有用的数据信息。但是，由于正文的高词频分词和/或关键词汇对数据内容的代表性较小，因此，在用户视图界面上，将其作为第三位标签位于第二位标签之后。将第三位标签写入所述标签库，以充实标签库的内容，使标签库更能体现数据内容的大意，与数据内容更加贴近。

在本发明的一个实施例中，所述用第三位标签进行补充，具体为，所述正文的高词频分词和/或关键词汇按照分值大小倒排序进行补充，所述正文的高词频分词和/或关键词汇的词频越高，其所述分值越大。如本领域技术人员可以理解的，正文的高词频分词和/或关键词汇的词频越高，其与数据内容的相关联度越高，可能越能反应数据内容的大意，因此，将词频越高的高词频分词和/或关键词汇赋予更高的分值，再按照分值大小将高词频分词和/或关键词汇进行倒排序，并按照该顺序对标签数量进行补充，在视图界面上进行显示。

如图2所示，一种数据标示管理系统，包括：

标签树模块：用于以树形结构呈现分类之间的层级和逻辑关系，且在每个层级分类下预置标签；可统一添加、编辑、删除标签，可作为服务器标示、用户标示和加工标示的参考；

标签查询模块：用于对某一时间段内的标签进行查询，可以实现自定义(模糊)查询及条件查询；除了能对标签名进行查询外，还能对该标签名下的用户数进行统计查询；

标签库模块：用于建立标签库；服务器标示模块和人工标示模块中得到的标签均写入标签库；

在本发明的一个实施例中，数据标示管理系统还包括：用户标示模块，用于用户自定义标签。

通过采用本发明公开的上述技术方案，得到了如下有益的效果：本发明中，采用服务器标示和人工标示相结合的方式，在保证标示准确性的基础上，提高了工作效率，降低了对人员的要求，从而降低了对数据标示处理的成本，尤其针对大量数据时，标示处理成本得到了极大的降低。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视本发明的保护范围。

Claims

1.一种数据标示方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的一种数据标示方法，其特征在于，步骤S2和步骤S3之间，还包括用户自定义标签的步骤，所述用户自定义标签达到或超过规定数量时，在用户视图界面上，将所述用户自定义标签的位置提前，所述用户自定义标签的数量越大，其位置越靠前；所述用户自定义标签达到或超过规定数量时，所述用户自定义标签写入所述标签库。

3.根据权利要求1或2所述的一种数据标示方法，其特征在于，所述与所述标题内容匹配度大于90％的第一位标签按照所述匹配度大小进行倒排序显示在用户视图界面上。

4.根据权利要求1或2所述的一种数据标示方法，其特征在于，步骤S2中，所述第一位标签的数量达到设定值时，则继续；否则，用第二位标签进行补充，直到达到所述设定值，则继续；在用户视图界面上，所述第二位标签位于所述第一位标签的后面；所述第二位标签为所述标题分词；所述第二位标签写入所述标签库。

5.根据权利要求4所述的一种数据标示方法，其特征在于，所述设定值为5-20。

6.根据权利要求4所述的一种数据标示方法，其特征在于，所述用第二位标签进行补充，具体为，所述标题分词按照分值大小倒排序进行补充，所述标题分词的所述分值按照如下方法获得：

为所有所述标题分词设定相同的初始分值；

7.根据权利要求4所述的一种数据标示方法，其特征在于，所述用第二位标签进行补充后，所述第一位标签和所述第二位标签的总量未达到所述设定值时，则用第三位标签进行补充，直到达到所述设定值，则继续；在用户视图界面上，所述第三位标签位于所述第二位标签的后面；所述第三位标签为所述正文的高词频分词和/或关键词汇；所述第三位标签写入所述标签库。

8.根据权利要求7所述的一种数据标示方法，其特征在于，所述用第三位标签进行补充，具体为，所述正文的高词频分词和/或关键词汇按照分值大小倒排序进行补充，所述正文的高词频分词和/或关键词汇的词频越高，其所述分值越大。

9.一种数据标示管理系统，其特征在于，包括：

标签库模块：用于建立标签库；

10.根据权利要求9所述的数据标示管理系统，其特征在于，还包括：

用户标示模块：用于用户自定义标签。