CN110321549A

CN110321549A - 基于序列化学习、关系挖掘、时序分析的新概念挖掘方法

Info

Publication number: CN110321549A
Application number: CN201910280639.2A
Authority: CN
Inventors: 牟昊; 何宇轩; 徐亚波; 胡湛湛; 李旭日
Original assignee: Guangzhou Said Number Of Stories Of Mdt Infotech Ltd
Current assignee: Guangzhou Said Number Of Stories Of Mdt Infotech Ltd
Priority date: 2019-04-09
Filing date: 2019-04-09
Publication date: 2019-10-11
Anticipated expiration: 2039-04-09
Also published as: CN110321549B

Abstract

本发明公开了一种基于序列化学习、关系挖掘、时序分析的新概念挖掘方法，可以通过句法依赖分析以及POS标注，将文本中可能出现的“概念”进行语义提取，通过时间序列的分析，判断识别“概念”在时间维度上，是否有从少到多，从无到有的变化过程，通过不同概念之间相互关系构建知识图谱，达到快速联想查询的效果，大幅度降低了传统产品研发需要人工查看原始数据量文本数据的需求；“新概念”的识别能够有效的帮助企业在生产过程中发现新的机会点，从而快速发觉竞争对手的研发动态和产品开发相关热门概念。

Description

基于序列化学习、关系挖掘、时序分析的新概念挖掘方法

技术领域

本发明涉及计算机文本处理技术领域，特别是一种基于文本序列化学习(Part ofSpeech Tagging，下文简称POS)、关系挖掘、时间序列分析的新概念挖掘方法。

背景技术

随着互联网的深入发展，企业能够更加容易接触到用户，聆听用户的心声，了解用户的兴趣点，已经是企业产品开发及创新的重要支撑点。如何从海量的文本中找寻出有意义的用户关注“概念”点，就显得尤为迫切，也是现在的研究重点。

在传统的新概念挖掘的过程中，使用人工抽样查看互联网海量数据，总结关键点的方式，但是由于文本信息数据量巨大，人工逐条耗时耗力，并且容易遗漏重要的“概念”点，而往往只能看到目前最热门的“概念”，而不是最有希望最新的概念。本专利公布的方法中，将 “概念”定义为：原材料、成分、功效、产品、国家、明星等几个型类，覆盖了绝大多数的消费品开发场景。并且对识别出来的概念进行知识图谱化，从而方面终端使用者能够快速找到最有潜力的概念。

发明内容

本发明上述问题，提供一种基于序列化学习、关系挖掘、时序分析的新概念挖掘方法。本发明的技术方案为：

一种基于序列化学习、关系挖掘、时序分析的新概念挖掘方法，包括以下步骤：

步骤1)，获取文本，并将所述文本划分为若干个一定长度的词语串。

步骤2)，对文本进行POS算法的序列化标注，通过既定的序列化标注将所述词语串分为若干个不同性质的实体。

步骤3)，将上述步骤2中的实体向量化，并对所述词语串中成对同时出现的实体进行关系类型判断处理。

步骤4)，将上述步骤3中产生的关系对进行存储。

步骤5)，对上述步骤4中的实体进行第二标注并拟合时间序列，判断是否给该标注赋予一个供用户查看的标签。

作为本发明进一步地说明，所述步骤1中包括对所述文本的消噪处理，去除不需要的超链及广告等信息。

更进一步地，所述序列化标注采用标准IOB结构。

更进一步地，所述序列化标注的类型为两种以上。

更进一步地，所述序列化标注的类型包括原材料、成分、产品、功效、国家/地区、明星。

更进一步地，所述关系类型为<实体1，关系类型，实体2>。

更进一步地，所述关系类型包括<原材料，包含，成分>、<成分，拥有，功效>、<产品，使用，原材料>、<国家/地区，生产，产品>、<明星，推广，产品>、<国家/地区，富含，原材料>。

更进一步地，所述步骤4中关系对存储前通过实体对齐将所述实体以及实体之间的关系知识图谱化，存储至Neo4j图数据库中。

更进一步地，所述第二标注包括第一类标注和第二类标注，所述实体的第二标注为第一类标注时不赋予所述标签；所述实体的第二标注为第二类标注时赋予所述标签。具体地，第二标注为“普通”和“从非热门变为热门”两个类别，通过对历史数据中大量的实体进行的第二标注，将实体在连续时间片段(一般为一个月)上出现的频次作为时间序列模型的输入。

更进一步地，所述步骤5中的实体通过LSTM拟合时间序列。通过LSTM拟合时间序列模型，判断一个概念的序列是否为符合标注“从非热门变为热门”的规律。如果是则可以给该概念标签，供用户查看，省去用户盲目的查询概念的过程，大大提升了效率。

本发明的有益效果：

本发明为一种文本处理方法，可以通过句法依赖分析以及POS标注，将文本中可能出现的“概念”进行语义提取，通过时间序列的分析，判断识别“概念”在时间维度上，是否有从少到多，从无到有的变化过程，通过不同概念之间相互关系构建知识图谱，达到快速联想查询的效果，大幅度降低了传统产品研发需要人工查看原始数据量文本数据的需求；“新概念”的识别能够有效的帮助企业在生产过程中发现新的机会点，从而快速发觉竞争对手的研发动态和产品开发相关热门概念。本发明可行的一个方案中，将“概念”定义为：原材料、成分、功效、产品、国家/地区、明星等几类，覆盖了绝大多数的消费品开发场景；对识别出来的概念进行知识图谱化，从而方面终端使用者能够快速找到最有潜力的概念；能够自动的发现互联网文本中的新概念，让业务人员能够快速的掌握社会热点，以达到快速营销的目的。

附图说明

图1为本发明方法的流程图；

图2为本发明序列化标注示意图；

图3为本发明实体关系对关系类型判断示意图；

图4为本发明基于深度学习的CNN模型训练示意图；

图5为本发明实体第二标注拟合时间序列示意图。

具体实施方式

实施例：

下面结合附图对本发明实施例详细的说明，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。

在本发明的描述中，需要理解的是，术语“上”、“下”、“前”、“后”、“左”、 “右”、“顶”、“底”、“内”、“外”、“第一”、“第二”等指示的方位或位置或顺序关系为基于附图所示的方位或位置或顺序关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

如图1所示的流程图，一种基于文本序列化学习(Part of Speech Tagging，下称POS)、关系挖掘、时间序列分析的新概念挖掘方法，其包括以下步骤：

步骤1)，获取文本信息，消除文本噪声，并划分为若干个一定长度的词语串，本步骤中，获取方式包括微博、电商标题、产品宣传文案，清除的噪声包括去除不需要的超链、广告等信息。

步骤2)，人工采用数据标注软件对文本进行序列化标注，通过既定序列化标注将所述词语串分为若干个不同性质的实体，本步骤中的实体即为本申请所述概念，可以采用现有的数据标注软件(例如DeepDive、brat、lapar等词性标注软件)进行标注。本发明的一个实施例中既定序列化标注定义包括原材料、成分、科学技术、品类、功效，本步骤中，数据标注软件自动识别框选文本词语串中词或词组的词性，通过人工操作的方式对符合上述既定序列化标注定义的实体进行序列化标注。参见附图2，框选文本的框选的词语串为“富含酵母提取物不但可以轻松卸掉彩妆”，通过数据标注软件识别出待标注词性的实体为“酵母提取物”、“卸掉彩妆”，经此，人工操作将“酵母提取物”标注词性为“成分”的实体，将“卸掉彩妆”标注词性为“功效”的实体。

步骤3，将上述步骤2中所得的实体向量化，由预训练的词向量模型转化为向量，然后对词语串中成对同时出现的实体判断是否为语言意义上的关系。本实施例中的实体关系对定义为<实体1，关系类型，实体2>，具体的是为：<原材料，包含，成分>，<成分，拥有，功效>，<产品，使用，原材料>，<国家/地区，生产，产品>，<明星，推广，产品>，<国家/ 地区，富含，原材料>等不同的关系类型。参见附图2，词语串“富含酵母提取物不但可以轻松卸掉彩妆”中实体1为“酵母提取物”，其序列化标注为“成分”，实体2为“卸掉彩妆”，其序列化标注为“功效”，其在判断关系类型时对应于上述的<成分，拥有，功效>类型。其中图3为我们将图2的数据转换为序列化模型的标准“Inside–outside–beginning(IOB)” 标记格式。通过大量图2所示的数据标注，训练实体识别和关系提取的相关模型。其中模型如图4所示，采用基于深度学习的CNN的模型进行训练。模型会自动从文本中学习相关的语义。模型训练完成后，就可以识别出文本出出现的实体和实体间的关系。模型会自动从文本中识别被标注过和没有被标注过的实体。标注过的实体就类似“酵母提取物”和“卸掉彩妆”。没有标注过的实体如：“蓝莓有很多花青素，花青素可以让你更年轻”，模型会识别出，实体1，成分“花青素”，实体2，功效“变得年轻”，关系为<成分，拥有，功效>。

步骤4)，对海量研究数据进行模型预测，识别出大量数据中的实体和关系，<实体1，实体2，关系>的结果。将大规模的实体及关系数据进行知识图谱结构化，存储至Neo4j图数据库中。

步骤5，对上述步骤4中的实体进行第二标注并拟合时间序列，判断是否给该标注赋予一个供用户查看的标签。具体地，本实施例中第二标注为“普通”和“从非热门变为热门” 两个类别，通过对历史数据中大量的实体进行的第二标注，将实体在连续时间片段(一般为一个月)上出现的频次作为时间序列模型的输入。通过LSTM拟合时间序列模型，判断一个概念的序列是否为符合标注“从非热门变为热门”的规律。如果是则可以给该概念标签，供用户查看，省去用户盲目的查询概念的过程，大大提升了效率。

以上仅就本发明较佳的实施例作了说明，但不能理解为是对权利要求的限制。本发明不仅局限于以上实施例，其具体结构允许有变化，总之，凡在本发明独立权利要求的保护范围内所作的各种变化均在本发明的保护范围内。

Claims

1.一种基于序列化学习、关系挖掘、时序分析的新概念挖掘方法，其特征在于，包括以下步骤：

步骤1)，获取文本，并将所述文本划分为若干个一定长度的词语串；

步骤2)，对文本进行POS算法的序列化标注，通过既定的序列化标注将所述词语串分为若干个不同性质的实体；

步骤3)，将上述步骤2中的实体向量化，并对所述词语串中成对同时出现的实体进行关系类型判断处理；

步骤4)，将上述步骤3中产生的关系对进行存储；

2.根据权利要求1所述的新概念挖掘方法，其特征在于：所述步骤1中所述文本的获取方式为网络获取，包括对所述文本的消噪处理，去除不需要的超链及广告等信息。

3.根据权利要求1或2所述的新概念挖掘方法，其特征在于：所述序列化标注采用标准IOB结构。

4.根据权利要求3所述的新概念挖掘方法，其特征在于：所述序列化标注的类型为两种以上。

5.根据权利要求4所述的新概念挖掘方法，其特征在于：所述序列化标注的类型包括原材料、成分、产品、功效、国家/地区、明星。

6.根据权利要求5所述的新概念挖掘方法，其特征在于：所述关系类型为<实体1，关系类型，实体2>。

7.根据权利要求6所述的新概念挖掘方法，其特征在于：所述关系类型包括<原材料，包含，成分>、<成分，拥有，功效>、<产品，使用，原材料>、<国家/地区，生产，产品>、<明星，推广，产品>、<国家/地区，富含，原材料>。

8.根据权利要求3所述的新概念挖掘方法，其特征在于：所述步骤4中关系对存储前通过实体对齐将所述实体以及实体之间的关系知识图谱化，存储至Neo4j图数据库中。

9.根据权利要求3所述的新概念挖掘方法，其特征在于：所述第二标注包括第一类标注和第二类标注，所述实体的第二标注为第一类标注时不赋予所述标签；所述实体的第二标注为第二类标注时赋予所述标签。

10.根据权利要求3所述的新概念挖掘方法，其特征在于：所述步骤5中的实体通过LSTM拟合时间序列。