CN106021234A

CN106021234A - 标签提取方法及系统

Info

Publication number: CN106021234A
Application number: CN201610373301.8A
Authority: CN
Inventors: 徐子涵
Original assignee: Individual
Current assignee: Individual
Priority date: 2016-05-31
Filing date: 2016-05-31
Publication date: 2016-10-12

Abstract

本发明提供了一种标签提取方法及系统，属于语言识别技术领域，能够实现更为准确的标签提取。该标签提取方法包括：从数据库中获取评论；标注所述评论中词语的词性；根据词性标注结果，提取每条评论中的关键词；基于所提取的关键词，生成包含该关键词的短语。本发明实施例可应用于复杂度较高的音乐、商品等事物的标签提取。

Description

标签提取方法及系统

技术领域

本发明涉及语言识别技术领域，具体而言，涉及一种标签提取方法及系统。

背景技术

随着信息技术的不断发展，各个类型的文本信息都开始以计算机可读的形式存在，许多领域的信息都呈现出爆炸式增长，因此如何在海量的信息当中，快速并准确的提取对用户有用的信息是一个重要的问题。标签提取就是一种解决上述问题的有效手段，标签是对文章、音乐、商品等事物信息的精炼，使用户能够方便、快捷的了解事物的重要信息，从而提高信息访问的效率。

目前，关于标签提取的技术主要包括关键词提取技术和情感分析技术。其中，关键词提取技术主要包括机器学习、词频计算、建立词关系树等；情感分析的方法分为基于统计分类和基于规则分类两种。

关键词提取技术主要应用于广告推荐、新闻阅读、论文索引等，适合进行大数据量文本的关键词提取，所提取出的关键词通常都是单独的词语。但很少涉及到提取短语级别的关键词，所以并不能解决复杂度较高的音乐、商品等事物中的标签提取问题。

情感分析依赖于构建情感词典，然而音乐、商品等事物的评论具有多样性，既可能包括情感词，也会包括其他无关情感的词汇。因此，情感分析由于其自身的局限性，也无法确保准提取出的标签的准确性。

发明内容

有鉴于此，本发明的目的在于提供一种标签提取方法及系统，能够实现更为准确的标签提取。

第一方面，本发明实施例提供了一种标签提取方法，包括：

从数据库中获取评论；

标注所述评论中词语的词性；

根据词性标注结果，提取每条评论中的关键词；

基于所提取的关键词，生成包含该关键词的短语。

结合第一方面，本发明实施例提供了第一方面的第一种可能的实施方式，其中，所述提取每条评论中的关键词，具体为：

对于每条评论，提取其中所有的形容词，作为关键词。

结合第一方面，本发明实施例提供了第一方面的第二种可能的实施方式，其中，所述基于所提取的关键词，生成包含该关键词的短语，具体包括：

提取形容词所在的字符串内的名词；

将所提取的名词与对应的形容词进行组合，生成短语。

结合第一方面，本发明实施例提供了第一方面的第三种可能的实施方式，其中，所述基于所提取的关键词，生成包含该关键词的短语，具体包括：

提取形容词所在的字符串内的所有副词；

删除其中的多余副词；

将未删除的副词与对应的形容词进行组合，生成短语。

结合第一方面，本发明实施例提供了第一方面的第四种可能的实施方式，其中，该方法还包括：

将所生成的短语作为标签存入数据库中。

第二方面，本发明实施例还提供一种标签提取系统，包括：

获取模块，用于从数据库中获取评论；

标注模块，用于标注所述评论中词语的词性；

提取模块，用于根据词性标注结果，提取每条评论中的关键词；

生成模块，用于基于所提取的关键词，生成包含该关键词的短语。

结合第二方面，本发明实施例提供了第二方面的第一种可能的实施方式，其中，所述提取模块具体用于：

对于每条评论，根据词性标注结果，提取其中所有的形容词，作为关键词。

结合第二方面，本发明实施例提供了第二方面的第二种可能的实施方式，其中，所述生成模块具体用于：

提取形容词所在的字符串内的名词；

将所提取的名词与对应的形容词进行组合，生成短语。

结合第二方面，本发明实施例提供了第二方面的第三种可能的实施方式，其中，所述生成模块具体用于：

提取形容词所在的字符串内的所有副词；

删除其中的多余副词；

将未删除的副词与对应的形容词进行组合，生成短语。

结合第二方面，本发明实施例提供了第二方面的第四种可能的实施方式，其中，该系统还包括存入模块，用于将所生成的短语作为标签存入数据库中。

本发明带来了以下有益效果：本发明实施例提供的技术方案中，首先从数据库中获取对目标事物的全部评论，然后标注评论中每个词的词性。再根据词性标注的结果，提取每条评论中的关键词，通常是以其中的形容词作为关键词。最后，基于所提取出的形容词，生成包含有该形容词的短语，并以该短语作为目标事物的标签。综上所述，通过采用本发明实施例提供的技术方案，能够提取出短语形式的标签，因此对于复杂度较高的音乐、商品等事物，能够实现更为准确的标签提取。

本发明的其他特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本发明实施例所提供的标签提取方法的流程图；

图2示出了本发明实施例所提供的标签提取系统的示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供的一种标签提取方法及系统，可以应用于复杂度较高的事物的标签提取，以实现更为准确的标签提取。

实施例一：

本发明实施例提供了一种标签提取方法，可应用于复杂度较高的音乐、商品等事物的标签提取。

本实施例中以音乐作为标签提取的目标。目前，基于已知音乐关键词的检索方法已不能满足数字化多媒体信息检索的需要，而基于内容的多媒体检索技术对设备及用户本身的要求又比较高，所以基于音乐情感的检索技术应运而生。论坛中带交互性的音乐评论是典型的音乐情感表达形式。从海量网络信息中得到音乐的情感等属性，并将结果合理地返回给依据情感搜索的用户是一个创新性的解决方案。

当然，在其他实施方式中，也可以将其他事物作为标签提取的目标。

如图1所示，该标签提取方法包括以下步骤：

S1：从数据库中获取评论。

针对标签提取的目标，也就是某一首乐曲，在数据库中获取关于该乐曲的所有评论。

上述的数据库可以仅仅是某一个交互性的评论平台的数据库。例如某一个音乐论坛中对于该乐曲的所有交互性的评论，或者某一个音乐播放器平台中对于该乐曲的所有交互性的评论。

此外，上述的数据库也可以包括多个交互性的评论平台中的数据库的汇总，或者说全网范围内所能访问的所有数据库。

S2：标注评论中词语的词性。

具体的，可以利用复旦自然语言处理模型包，标注所获取的评论中的词语的词性，将各个词语区分为名词、动词、形容词、副词等。

自然语言处理(Natural Language Processing，简称NLP)是计算机科学领域与人工智能领域中的一项重要技术，它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一项融语言学、计算机科学、数学于一体的科学技术。因此，这一技术领域的研究涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系，但又有重要的区别。自然语言处理并不是一般的对自然语言进行处理，而在于研制能有效实现自然语言通信的计算机系统，特别是其中的软件系统。

本实施例中采用的复旦自然语言处理模型包，主要是为中文自然语言处理而开发的工具包，也包含为实现以下功能的机器学习算法和数据集。复旦自然语言处理模型包能够实现的功能主要有：信息检索，包括文本分类、新闻聚类；中文处理，包括中文分词、词性标注、实体名识别、关键词抽取、依存句法分析、时间短语识别；结构化学习，包括在线学习、层次分类、聚类、精确推理，等等。

S3：根据词性标注结果，提取每条评论中的关键词。

具体的，对于每条评论，提取其中所有的形容词，作为关键词。

由于形容词在标签中占主导地位，所以本步骤中提取出形容词作为关键词。提取评论中的所有形容词，能够完整的提取出整条评论中的标签信息。

另外，还可以通过提取形容词来初步划分评论字符串，也就是以形容词作为划分评论字符串的基准，比如一个形容词与前一个形容词之间的文字即作为一个划分区域。

例如，在评论“买下了整张专辑，画质清晰，不过音效不好。”中，就可以提取并划分出“画质清晰”和“音效不好”两个划分区域。

S4：基于所提取的关键词，生成包含该关键词的短语。

具有代表性的短语标签，主要包括以下几种情况：①形容词，如“好听”；②一个或多个副词+形容词，如“不清晰”和“不太清晰”；③名词+形容词，如“旋律柔和”；④名词+一个或多个副词+形容词，如“音质很好”。其中，后三种情况都属于短语标签。

因此，在生成包含形容词的短语过程中，大部分情况是需要提取与形容词相关的名词和副词。

当需要提取名词时，本步骤中的提取方式如下：

首先提取形容词所在的评论字符串(划分区域)内的名词，一般情况下都是提取形容词之前的名词。同时，还要注意就近原则，也就是提取距离形容词最近的名词。然后将所提取的名词与对应的形容词进行组合，生成包含名词和形容词的短语。

例如，在评论“一直觉得他的歌很好听。”中，按照就近原则就可以提取并生成短语“歌很好听”，而避免生成短语“他很好听”的情况。

当需要提取副词时，本步骤中的提取方式如下：

首先提取形容词所在的字符串(划分区域)内的所有副词。对于副词的提取，包含多重副词和多余副词两种情况。对于多重副词的情况，由于词性标注工具的局限性，否定副词无法进行特殊判断，因此形容词前的副词需要重复多次提取出来，以区分“太好听”与“不太好听”这样的评论。

然后，针对多余副词的情况，删除其中的多余副词。多余副词主要是指转折副词、时间副词等，比如在评论“音质比较流畅，不过画面不太清晰。”中，就应通过判断副词“不过”的语义及其与形容词的相对位置，从而将其删除，不应当将其加入短语“画面不太清晰”中。

最后，将未删除的副词与对应的形容词进行组合，即可生成包含形容词和副词的短语。

以上只是描述了常见的提取与形容词相关的名词和副词的情况，但生成短语的过程中并不仅限于提取名词和副词，还有可能需要提取动词、数量词等其他词性的词语，其具体的提取方法与提取名词和副词的方法类似，此处不作赘述。

进一步的是，本发明实施例提供的标签提取方法还包括：

S5：将所生成的短语作为标签存入数据库中。

上述步骤S4中生成的短语即可作为标签存入数据库中，以便于用户根据标签提供的信息搜索音乐。

此外，在将标签存入数据库时，还需要注意重复标签的问题。具体的，可以通过字符串匹配的方式，避免添加重复的标签。

本发明实施例提供的标签提取方法中，首先从数据库中获取对目标乐曲的全部交互性的评论，然后标注评论中每个词的词性。再根据词性标注的结果，提取每条评论中的形容词，作为关键词，并初步划分评论字符串。然后基于所提取出的形容词，提取与该形容词相关的名词、副词等其他词性的词语。最后，将形容词和其他词性的词语进行组合或重组，生成包含有该形容词的短语，并以该短语作为目标乐曲的标签，存入数据库中。

综上所述，通过采用本发明实施例提供的标签提取方法，能够提取出短语形式的标签，因此对于复杂度较高的音乐、商品等事物，能够实现更为准确的标签提取。

实施例二：

本发明实施例还提供一种标签提取系统，可应用于复杂度较高的音乐、商品等事物的标签提取。本实施例中以音乐作为标签提取的目标，在其他实施方式中，也可以将其他事物作为标签提取的目标。

如图2所示，该标签提取系统包括获取模块1、标注模块2、提取模块3和生成模块4。

其中，获取模块1用于从数据库中获取评论。获取模块1针对标签提取的目标，也就是某一首乐曲，在数据库中获取关于该乐曲的所有交互性的评论。

标注模块2用于标注评论中词语的词性。具体的，可以在标注模块2中添加复旦自然语言处理模型包，并利用复旦自然语言处理模型包标注所获取的评论中的词语的词性，将各个词语区分为名词、动词、形容词、副词等。

提取模块3用于根据词性标注结果，提取每条评论中的关键词。具体的，提取模块3对于每条评论，提取其中所有的形容词，作为关键词。

由于形容词在标签中占主导地位，所以提取模块3提取出形容词作为关键词。提取评论中的所有形容词，能够完整的提取出整条评论中的标签信息。

另外，提取模块3还可以通过提取形容词来初步划分评论字符串，也就是以形容词作为划分评论字符串的基准，比如一个形容词与前一个形容词之间的文字即作为一个划分区域。

生成模块4用于基于所提取的关键词，生成包含该关键词的短语。

因此，在生成模块4生成包含形容词的短语过程中，大部分情况是需要提取与形容词相关的名词和副词。

当需要提取名词时，生成模块4的提取方式如下：

生成模块4首先提取形容词所在的评论字符串(划分区域)内的名词，一般情况下都是提取形容词之前的名词。同时，还要注意就近原则，也就是提取距离形容词最近的名词。然后生成模块4将所提取的名词与对应的形容词进行组合，生成包含名词和形容词的短语。

当需要提取副词时，生成模块4的提取方式如下：

生成模块4首先提取形容词所在的字符串(划分区域)内的所有副词。对于副词的提取，包含多重副词和多余副词两种情况。对于多重副词的情况，由于词性标注工具的局限性，否定副词无法进行特殊判断，因此形容词前的副词需要重复多次提取出来，以区分“太好听”与“不太好听”这样的评论。

最后，生成模块4将未删除的副词与对应的形容词进行组合，即可生成包含形容词和副词的短语。

进一步的是，本发明实施例提供的标签提取系统中还包括存入模块5，用于将所生成的短语作为标签存入数据库中。

生成模块4生成的短语即可作为标签，并由存入模块5存入数据库中，以便于用户根据标签提供的信息搜索音乐。

此外，在将标签存入数据库时，还需要注意重复标签的问题。具体的，存入模块5可以通过字符串匹配的方式，避免添加重复的标签。

本发明实施例提供的标签提取系统中，首先由获取模块1从数据库中获取对目标事物的全部交互性的评论，然后由标注模块2标注评论中每个词的词性。再由提取模块3根据词性标注的结果，提取每条评论中的形容词，作为关键词，并初步划分评论字符串。然后由生成模块4基于所提取出的形容词，提取与该形容词相关的名词、副词等其他词性的词语。最后，将形容词和其他词性的词语进行组合或重组，生成包含有该形容词的短语，并以该短语作为目标乐曲的标签，通过存入模块5存入数据库中。

综上所述，采用本发明实施例提供的标签提取系统，能够提取出短语形式的标签，因此对于复杂度较高的音乐、商品等事物，能够实现更为准确的标签提取。

本发明实施例中描述的功能，如果以软件功能单元的形式实现，并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random AccessMemory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种标签提取方法，其特征在于，包括：

从数据库中获取评论；

标注所述评论中词语的词性；

根据词性标注结果，提取每条评论中的关键词；

基于所提取的关键词，生成包含该关键词的短语。

2.根据权利要求1所述的标签提取方法，其特征在于，所述提取每条评论中的关键词，具体为：

对于每条评论，提取其中所有的形容词，作为关键词。

3.根据权利要求2所述的标签提取方法，其特征在于，所述基于所提取的关键词，生成包含该关键词的短语，具体包括：

提取形容词所在的字符串内的名词；

将所提取的名词与对应的形容词进行组合，生成短语。

4.根据权利要求2所述的标签提取方法，其特征在于，所述基于所提取的关键词，生成包含该关键词的短语，具体包括：

提取形容词所在的字符串内的所有副词；

删除其中的多余副词；

将未删除的副词与对应的形容词进行组合，生成短语。

5.根据权利要求1所述的标签提取方法，其特征在于，还包括：

将所生成的短语作为标签存入数据库中。

6.一种标签提取系统，其特征在于，包括：

获取模块，用于从数据库中获取评论；

标注模块，用于标注所述评论中词语的词性；

7.根据权利要求6所述的标签提取系统，其特征在于，所述提取模块具体用于：

8.根据权利要求7所述的标签提取系统，其特征在于，所述生成模块具体用于：

提取形容词所在的字符串内的名词；

将所提取的名词与对应的形容词进行组合，生成短语。

9.根据权利要求7所述的标签提取系统，其特征在于，所述生成模块具体用于：

提取形容词所在的字符串内的所有副词；

删除其中的多余副词；

将未删除的副词与对应的形容词进行组合，生成短语。

10.根据权利要求6所述的标签提取系统，其特征在于，还包括存入模块，用于将所生成的短语作为标签存入数据库中。