CN107092689A

CN107092689A - 元数据生成方法及系统

Info

Publication number: CN107092689A
Application number: CN201710271357.7A
Authority: CN
Inventors: 徐佳宏; 熊文; 王婷; 陈恋
Original assignee: Shenzhen Ipanel TV Inc
Current assignee: Shenzhen Ipanel TV Inc
Priority date: 2017-04-24
Filing date: 2017-04-24
Publication date: 2017-08-25

Abstract

本发明提供了一种元数据生成方法及系统，该系统获取资源名称后，根据所述资源名称，生成页面链接；利用所述页面链接，访问与所述页面链接相对应的目标页面；提取所述目标页面中的资源描述信息；对所述资源描述信息进行分词处理，得到元数据。本发明的元数据生成方案，实现了元数据的自动生成过程，解决了人工手动编辑方式操作繁琐、效率低、容易出错的问题，也无需配备大量的专业人员来操作，从而极大地提高了元数据的生成效率，同时节省了人工成本。

Description

元数据生成方法及系统

技术领域

本发明涉及信息处理领域，更具体的说，涉及元数据生成方法及系统。

背景技术

元数据是描述信息资源、数据资源等资源对象的数据，常用于识别资源、评价资源以及追踪资源在使用过程中的变化，进而有助于实现各类资源的有效管理。

现有资源管理系统中的元数据，通常是采用人工手动编辑的方式得到的，但是，人工手动编辑的方式操作繁琐、效率低、容易出错，而且还需要配备专业团队来操作，尤其是面对目前日益增长的海量资源，若仍采用人工手动编辑的方式来处理，不仅需要配备大量的专业人员来操作，而且还会使得元数据的生成效率非常低，无法满足人们日益增长的信息需求。

所以，目前迫切需要一种能够有效提高元数据生成效率的技术方案。

发明内容

有鉴于此，本发明提供了一种元数据生成方法及系统，以解决目前元数据生成效率低的技术问题。

为实现上述目的，本发明提供如下技术方案：

一种元数据生成方法，应用于元数据生成系统，所述方法包括：

获取资源名称；

根据所述资源名称，生成页面链接；

利用所述页面链接，访问与所述页面链接相对应的目标页面；

提取所述目标页面中的资源描述信息；

对所述资源描述信息进行分词处理，得到元数据。

优选的，在所述对所述资源描述信息进行分词处理之前，所述方法还包括：

获取用户创建的自定义数据字典；

利用所述自定义数据字典初始化预设分词模块，所述预设分词模块用于对所述资源描述信息进行分词处理。

优选的，在所述获取用户创建的自定义数据字典之后，利用所述数据字典初始化所述预设分词模块之前，所述方法还包括：

更新所述自定义数据字典。

优选的，所述根据资源名称，生成页面链接，具体包括：

将所述资源名称拼接至预设资源路径的尾部，得到所述页面链接。

优选的，所述提取所述目标页面中的资源描述信息，包括：

利用正则表达式，提取所述目标页面中的资源描述信息。

优选的，在所述得到元数据之后，所述方法还包括：

将所述元数据保存到数据库中。

优选的，所述数据字典的内容包括：词、词频与词性。

优选的，所述预设分词模块为jiaba分词模块。

一种元数据生成系统，包括：

资源获取单元，用于获取资源名称；

链接生成单元，用于根据资源名称，生成页面链接；

页面访问单元，用于利用所述页面链接，访问与所述页面链接相对应的目标页面；

信息提取单元，用于提取所述目标页面中的资源描述信息；

数据生成单元，用于对所述资源描述信息进行分词处理，得到元数据。

优选的，所述系统还包括：

字典获取模块，用于获取用户创建的自定义数据字典；

分词初始模块，用于利用所述自定义数据字典初始化预设分词模块；

所述数据生成单元利用所述预设分词模块对所述资源描述信息进行分词处理。

从上述的技术方案可以看出，本发明提供的元数据生成方案，元数据生成系统根据资源名称，利用正则表达式，自动获取到相应的资源描述信息，并对资源描述信息进行分词处理，得到元数据，从而实现元数据的自动生成过程，解决了人工手动编辑的方式操作繁琐、效率低、容易出错的问题，也无需配备大量的专业人员来操作，从而极大地提高了元数据的生成效率，同时节省了人工成本。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请实施例提供的元数据生成方法的一种流程图；

图2为本申请实施例提供的元数据生成方法的另一种流程图；

图3为本申请实施例提供的元数据生成方法的又一种流程图；

图4为本申请实施例提供的元数据生成系统的一种结构示意图；

图5为本申请实施例提供的元数据生成系统的另一种结构示意图。

具体实施方式

为了引用和清楚起见，下文中使用的技术名词的说明、简写或缩写总结如下：

元数据(Metadata)：又称中介数据、中继数据，为描述数据的数据(data aboutdata)，主要是描述数据属性(property)的信息，用来支持如指示存储位置、历史数据、资源查找、文件记录等功能。

Python：一种面向对象的解释性的计算机通用型语言，也是一种功能强大的通用型语言。

正则表达式(Regular Expression)：对字符串操作的一种逻辑公式，用事先定义好的一些特定字符、及这些特定字符的组合，组成一个“规则字符串”，这个“规则字符串”用来表达对字符串的一种过滤逻辑，以匹配符合正则表达式的字符串。

数据字典(data dictionary)：是指对数据的数据项、数据结构、数据流、数据存储、处理逻辑、外部实体等进行定义和描述，其目的是对数据流程图中的各个元素做出详细的说明，也是对于数据模型中的数据对象或者项目的描述的集合。

jieba分词模块：一种由Python脚本语言实现的中文分词模块，基于Trie树结构实现高效的词图扫描，生成句子中汉字所有可能成词情况所构成的有向无环图(DAG，Directed acyclic graph)，采用了动态规划查找最大概率路径，找出基于词频的最大切分组合。

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1，图1为本申请实施例提供的元数据生成方法的一种流程图。

本实施例的元数据生成方法，应用于元数据生成系统，该元数据生成系统用于执行该元数据生成方法。

如图1所示，所述方法包括：

S101：获取资源名称；

资源可以包括电影、电视、综艺节目、歌曲等音视频资源，也可以是景点、城市、路段、店铺、地理位置等常用信息资源，当然，还可以是任何其他类型的资源，在此并不做限定。

S102：根据所述资源名称，生成页面链接；

获取到资源名称后，根据资源名称，生成页面链接。目前许多资源共享平台都能够支持针对资源的搜索功能，用户只需要提供资源名称，就可以访问到资源共享平台中与该资源名称相对应的目标页面，从而获取到与资源名称相关的信息内容。例如，目前的资源共享平台包括百度百科、维基百科等。

在一示例中，根据所述资源名称，生成页面链接，具体包括：将所述资源名称拼接至预设资源路径的尾部，得到所述页面链接。

例如，选择百度百科作为本发明中的资源共享平台，则相应的预设资源路径为“http://baike.baidu.com/item/”，假定资源名称为“速度与激情”，则将资源名称“速度与激情”拼接至“http://baike.baidu.com/item/”的尾部，便能够得到页面链接“http://baike.baidu.com/item/速度与激情”。

当采用其他资源共享平台时，只需要将资源名称拼接至相应的资源共享平台的预设资源路径的尾部即可得到相应的页面链接。

S103：利用所述页面链接，访问与所述页面链接相对应的目标页面；

页面链接，即为目标页面的网络地址，利用页面链接，便可直接访问到与页面链接相对应的目标页面。由于页面链接是根据资源名称生成的，所以访问到的目标页面则是与该资源名称相对应的页面。

在以上示例中，“http://baike.baidu.com/item/速度与激情”是根据“速度与激情”这一资源名称生成的页面链接，利用“http://baike.baidu.com/item/速度与激情”这一页面链接，便可直接访问到与“速度与激情”对应的目标页面。

在另一示例中，利用所述页面链接，访问与所述页面链接相对应的目标页面之前，还可以先判断网络连接是否正常，若正常，则直接访问目标页面，并执行步骤S104；若不正常，则提示网络出错。

S104：提取所述目标页面中的资源描述信息；

在与资源名称对应的目标页面中，包括与资源名称相关的资源描述信息，该资源描述信息包括对资源名称的相关描述，即隐含与资源名称相关的各种元数据信息。因此，从目标页面中提取的资源描述信息，能够作为生成与资源名称相关的元数据的基础。

S105：对所述资源描述信息进行分词处理，得到元数据。

从目标页面中提取的资源描述信息，是关于资源名称的原始描述信息，通过对资源描述信息进行分词处理，能够将该资源描述信息切分成各个描述词，这些描述词即为与资源名称相对应的元数据。

在一示例中，在得到所述元数据之后，所述方法还包括：将所述元数据保存到数据库中，从而为资源推荐、资源排行等服务提供充分的元数据支持。

本实施例提供的元数据生成方法，应用于元数据生成系统，该系统根据资源名称，利用正则表达式，从目标页面中自动获取到相应的资源描述信息，并对该资源描述信息进行分词处理，得到与资源名称相关的元数据，从而实现了元数据的自动生成过程，解决了人工手动编辑方式操作繁琐、效率低、容易出错的问题，也无需配备大量的专业人员来操作，从而极大地提高了元数据的生成效率，同时节省了人工成本。

并且，本发明在面对大数据平台的海量数据背景下，同样能够高效的生成元数据，为资源推荐、资源排行等服务提供准确的元数据基础。

在实际应用中，为了使生成的元数据还能够满足不同的用户需求，本发明还提供了以下实施例。

请参阅图2，图2为本申请实施例提供的元数据生成方法的另一种流程图。

本实施例中，步骤S201-S204与前述实施例中步骤S101-S104相类似，在此不再赘述。

如图2所示，所述方法还包括：

S205：获取用户创建的自定义数据字典；

用户可以根据其具体需求来创建自定义数据字典。

在一示例中，自定义数据字典的内容可以包括词、词频与词性，也可以包括其他用户自定义的内容。

当自定义数据字典的内容包括词、词频与词性时，自定义数据字典中每行可分为三列，同一行的第一列可记录词，第二列可记录该词的词频，第三列可记录该词的词性，每一列之间用空格符隔开。

S206：利用所述自定义数据字典初始化预设分词模块；

分词处理通常都是采用现有的分词模块来进行的，并选择分词模块中已有的数据字典对相关语句进行分词处理，但是，已有的数据字典并不一定能够满足用户的具体需求。

本实施例采用用户创建的自定义数据字典来初始化预设分词模块，能够使得预设分词模块按照用户的分词需求，对资源描述信息进行分词处理，从而使得分词结果符合不同用户的具体需求。

在一示例中，预设分词模块可以是jiaba分词模块。

在具体实现时，可以通过Python的代码“jieba.load_userdict(file_name)#”来实现利用自定义数据字典初始化jiaba分词模块的过程，其中，“file_name”为自定义数据字典的路径。

在另一示例中，在获取用户创建的自定义数据字典之后，利用所述数据字典初始化所述预设分词模块之前，所述方法还包括：更新所述自定义数据字典。

例如，当用户在创建了自定义数据字典之后，又有了新的需求时，元数据生成系统可以根据用户新的需求来对用户创建的自定义数据字典进行更新操作，然后再利用更新后的自定义数据字典初始化预设分词模块，从而保证初始化后的预设分词模块具有更高的分词准确性。

其中，步骤S205-S206并不仅限于在步骤S204之后执行，也可以在步骤S207之前的任意位置执行，例如，在S201之前执行，或，在S201之后执行。

S207：利用所述预设分词模块对所述资源描述信息进行分词处理，得到元数据。

利用自定义数据字典对预设分词模块进行初始化后，预设分词模块会根据自定义数据字典的内容对资源描述信息进行分词处理，从而得到符合自定义数据字典的分词结果，即得到符合用户需求的元数据。

本实施提供的元数据生成方法，利用用户创建的自定义数据字典来初始化预设分词模块，并利用初始化后的预设分词模块来对资源描述信息进行分词处理，从而实现根据用户需求来生成元数据的技术效果，提高了元数据的实用性和准确性，满足不同用户的具体需求。

在实际应用中，为了从目标页面准确获取到资源描述信息，本发明还提供了以下实施例。

请参阅图3，图3为本申请实施例提供的元数据生成方法的又一种流程图。

本实施例中，步骤S301-S303与前述实施例中步骤S101-S103相类似，在此不再赘述。

S304：利用正则表达式，提取所述目标页面中的资源描述信息；

在一示例中，资源描述信息通常会存放在目标页面中的<meta name＝"description"content＝"XXX">这一规则结构下，其中，XXX用于表征目标页面的资源描述信息，而这一规则结构相应的正则表达式为“<meta name＝\"description\"content＝\"(.*？)\">”。

利用上述正则表达式则能够准确匹配出与其规则相对应的资源描述信息XXX。具体地，元数据生成系统可通过Python的代码

“pattern＝re.compile(r"<meta name＝\"description\"content＝\"(.*？)\">")”执行利用所述正则表达式提取目标页面中的资源描述信息XXX的步骤。

本实施中的正则表达式并不仅仅局限于上述这一种，根据资源描述信息在目标页面中的不同规则结构，可以设计出与其相对应的正则表达式。

S305：对所述资源描述信息进行分词处理，得到元数据。

步骤S305与前述实施例中步骤S105相类似，在此不再赘述。

本实施例提供的元数据生成方法，利用正则表达式，提取所述目标页面中的资源描述信息，能够正确匹配出相应的资源描述信息，提高资源描述信息的准确度，进而保证基于所述资源描述信息所得到的元数据的准确性。

对应于元数据生成方法，本发明实施例还提供了相应的元数据生成系统。

请参阅图4，图4为本申请实施例的元数据生成系统的一种结构示意图。

本实施例的元数据生成系统，用于实施前述实施例的元数据生成方法，如图4所示，所述元数据生成系统包括：

资源获取单元U101，用于获取资源名称；

链接生成单元U102，用于根据资源名称，生成页面链接。

资源获取单元U101获取到资源名称后，链接生成单元U102根据资源名称，生成页面链接。目前许多资源共享平台都能够支持针对资源的搜索功能，用户只需要提供资源名称，就可以访问到资源共享平台中与该资源名称相对应的目标页面，从而获取到与资源名称相关的信息内容。例如，目前的资源共享平台包括百度百科、维基百科等。

在一示例中，链接生成单元U102根据所述资源名称，生成页面链接，具体包括：将所述资源名称拼接至预设资源路径的尾部，得到所述页面链接。

页面访问单元U103，用于利用所述页面链接，访问与所述页面链接相对应的目标页面；

在另一示例中，所述系统还包括网络检测单元，在页面访问单元U103利用所述页面链接，访问与所述页面链接相对应的目标页面之前，利用所述网络监测单元先判断网络连接是否正常，若正常，则页面访问单元U103直接访问目标页面；若不正常，所述网络监测单元则提示网络出错。

信息提取单元U104，用于提取所述目标页面中的资源描述信息；

数据生成单元U105，用于对所述资源描述信息进行分词处理，得到元数据。

从目标页面中提取的资源描述信息，是关于资源名称的原始描述信息，数据生成单元U105通过对资源描述信息进行分词处理，能够将该资源描述信息切分成各个描述词，这些描述词即为与资源名称相对应的元数据。

在一示例中，所述系统还包括数据存储单元，用于在数据生成单元U105得到所述元数据之后，将所述元数据保存到数据库中，从而为资源推荐、资源排行等服务提供充分的元数据支持。

本实施例提供的元数据生成系统，根据资源名称，利用正则表达式，从目标页面中自动获取到相应的资源描述信息，并对该资源描述信息进行分词处理，得到与资源名称相关的元数据，从而实现了元数据的自动生成过程，解决了人工手动编辑方式操作繁琐、效率低、容易出错的问题，也无需配备大量的专业人员来操作，从而极大地提高了元数据的生成效率，同时节省了人工成本。

请参阅图5，图5为本申请实施例的元数据生成系统的另一种结构示意图。

本实施例的元数据生成系统，用于实施前述实施例的元数据生成方法，如图5所示，该元数据生成系统除了包括资源获取单元U101、链接生成单元U102、页面访问单元U103、信息提取单元U104和数据生成单元U105之外，还包括：字典获取模块U106和分词初始模块U107。

字典获取模块U106，用于获取用户创建的自定义数据字典；

用户可以根据其具体需求来创建自定义数据字典。

分词初始模块U107，用于利用所述自定义数据字典初始化预设分词模块。

本实施例分词初始模块U107采用用户创建的自定义数据字典来初始化预设分词模块，能够使得预设分词模块按照用户的分词需求，对资源描述信息进行分词处理，从而使得分词结果符合不同用户的具体需求。

所述数据生成单元U105利用所述预设分词模块对所述资源描述信息进行分词处理，得到元数据。所述预设分词模块可以是数据生成单元U105的一部分，也可以是由数据生成单元U105调用的第三方功能模块。

在一示例中，预设分词模块可以是jiaba分词模块。

在另一示例中，所述系统还包括：字典更新模块，用于在字典获取模块U106获取用户创建的自定义数据字典之后，分词初始模块U107利用所述数据字典初始化所述预设分词模块之前，更新所述自定义数据字典。

当用户在创建了自定义数据字典之后，又有了新的需求时，字典更新模块可以根据用户新的需求来对用户创建的自定义数据字典进行更新操作，然后分词初始模块U107利用更新后的自定义数据字典初始化预设分词模块，从而保证初始化后的预设分词模块具有更高的分词准确性。

本实施提供的元数据生成系统，利用用户创建的自定义数据字典来初始化预设分词模块，并利用初始化后的预设分词模块来对资源描述信息进行分词处理，从而实现根据用户需求来生成元数据的技术效果，提高了元数据的实用性和准确性，满足不同用户的具体需求。

本发明提供的元数据生成方法及系统，该系统根据资源名称，利用正则表达式，从目标页面中自动获取到相应的资源描述信息，并对该资源描述信息进行分词处理，得到与资源名称相关的元数据，从而实现了元数据的自动生成过程，解决了人工手动编辑方式操作繁琐、效率低、容易出错的问题，也无需配备大量的专业人员来操作，从而极大地提高了元数据的生成效率，同时节省了人工成本。

而且，本发明还利用用户创建的自定义数据字典来初始化预设分词模块，并利用初始化后的预设分词模块来对资源描述信息进行分词处理，从而实现根据用户需求来生成元数据的技术效果，提高了元数据的实用性和准确性，满足不同用户的具体需求。

最后，还需要说明的是，在本文中，诸如第一和第一等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到本申请可借助软件加必需的硬件平台的方式来实现，当然也可以全部通过硬件来实施，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案对背景技术做出贡献的全部或者部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种元数据生成方法，其特征在于，应用于元数据生成系统，所述方法包括：

获取资源名称；

根据所述资源名称，生成页面链接；

提取所述目标页面中的资源描述信息；

对所述资源描述信息进行分词处理，得到元数据。

2.如权利要求1所述的方法，其特征在于，在所述对所述资源描述信息进行分词处理之前，所述方法还包括：

获取用户创建的自定义数据字典；

3.如权利要求2所述的方法，其特征在于，在所述获取用户创建的自定义数据字典之后，利用所述数据字典初始化所述预设分词模块之前，所述方法还包括：

更新所述自定义数据字典。

4.如权利要求1所述的方法，其特征在于，所述根据资源名称，生成页面链接，具体包括：

5.如权利要求1所述的方法，其特征在于，所述提取所述目标页面中的资源描述信息，包括：

利用正则表达式，提取所述目标页面中的资源描述信息。

6.如权利要求1所述的方法，其特征在于，在所述得到元数据之后，所述方法还包括：

将所述元数据保存到数据库中。

7.如权利要求2所述的方法，其特征在于，所述数据字典的内容包括：词、词频与词性。

8.如权利要求1所述的方法，其特征在于，所述预设分词模块为jiaba分词模块。

9.一种元数据生成系统，其特征在于，包括：

资源获取单元，用于获取资源名称；

链接生成单元，用于根据资源名称，生成页面链接；

信息提取单元，用于提取所述目标页面中的资源描述信息；

10.如权利要求9所述的系统，其特征在于，还包括：

字典获取模块，用于获取用户创建的自定义数据字典；