CN110321549A - 基于序列化学习、关系挖掘、时序分析的新概念挖掘方法 - Google Patents
基于序列化学习、关系挖掘、时序分析的新概念挖掘方法 Download PDFInfo
- Publication number
- CN110321549A CN110321549A CN201910280639.2A CN201910280639A CN110321549A CN 110321549 A CN110321549 A CN 110321549A CN 201910280639 A CN201910280639 A CN 201910280639A CN 110321549 A CN110321549 A CN 110321549A
- Authority
- CN
- China
- Prior art keywords
- entity
- mark
- new concept
- serializing
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 27
- 238000009412 basement excavation Methods 0.000 title claims abstract description 9
- 238000012731 temporal analysis Methods 0.000 title claims abstract description 8
- 238000000700 time series analysis Methods 0.000 title claims abstract description 8
- 230000000694 effects Effects 0.000 claims abstract description 15
- 238000013507 mapping Methods 0.000 claims abstract description 7
- 238000004519 manufacturing process Methods 0.000 claims abstract description 5
- 239000004615 ingredient Substances 0.000 claims description 16
- 239000002994 raw material Substances 0.000 claims description 13
- -1 packet Contain Substances 0.000 claims description 4
- 238000012545 processing Methods 0.000 claims description 3
- 239000000463 material Substances 0.000 claims 1
- 239000000047 product Substances 0.000 claims 1
- 238000004458 analytical method Methods 0.000 abstract description 4
- 238000012827 research and development Methods 0.000 abstract description 4
- 238000012356 Product development Methods 0.000 abstract description 3
- 238000000605 extraction Methods 0.000 abstract description 2
- 229940041514 candida albicans extract Drugs 0.000 description 6
- 239000012138 yeast extract Substances 0.000 description 6
- 238000010586 diagram Methods 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 229930014669 anthocyanidin Natural products 0.000 description 3
- 150000001452 anthocyanidin derivatives Chemical class 0.000 description 3
- 235000008758 anthocyanidins Nutrition 0.000 description 3
- 201000004569 Blindness Diseases 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 240000000851 Vaccinium corymbosum Species 0.000 description 1
- 235000003095 Vaccinium corymbosum Nutrition 0.000 description 1
- 235000017537 Vaccinium myrtillus Nutrition 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 235000021014 blueberries Nutrition 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Animal Behavior & Ethology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于序列化学习、关系挖掘、时序分析的新概念挖掘方法,可以通过句法依赖分析以及POS标注,将文本中可能出现的“概念”进行语义提取,通过时间序列的分析,判断识别“概念”在时间维度上,是否有从少到多,从无到有的变化过程,通过不同概念之间相互关系构建知识图谱,达到快速联想查询的效果,大幅度降低了传统产品研发需要人工查看原始数据量文本数据的需求;“新概念”的识别能够有效的帮助企业在生产过程中发现新的机会点,从而快速发觉竞争对手的研发动态和产品开发相关热门概念。
Description
技术领域
本发明涉及计算机文本处理技术领域,特别是一种基于文本序列化学习(Part ofSpeech Tagging,下文简称POS)、关系挖掘、时间序列分析的新概念挖掘方法。
背景技术
随着互联网的深入发展,企业能够更加容易接触到用户,聆听用户的心声,了解用户的 兴趣点,已经是企业产品开发及创新的重要支撑点。如何从海量的文本中找寻出有意义的用 户关注“概念”点,就显得尤为迫切,也是现在的研究重点。
在传统的新概念挖掘的过程中,使用人工抽样查看互联网海量数据,总结关键点的方式, 但是由于文本信息数据量巨大,人工逐条耗时耗力,并且容易遗漏重要的“概念”点,而往 往只能看到目前最热门的“概念”,而不是最有希望最新的概念。本专利公布的方法中,将 “概念”定义为:原材料、成分、功效、产品、国家、明星等几个型类,覆盖了绝大多数的 消费品开发场景。并且对识别出来的概念进行知识图谱化,从而方面终端使用者能够快速找 到最有潜力的概念。
发明内容
本发明上述问题,提供一种基于序列化学习、关系挖掘、时序分析的新概念挖掘方法。 本发明的技术方案为:
一种基于序列化学习、关系挖掘、时序分析的新概念挖掘方法,包括以下步骤:
步骤1),获取文本,并将所述文本划分为若干个一定长度的词语串。
步骤2),对文本进行POS算法的序列化标注,通过既定的序列化标注将所述词语串分 为若干个不同性质的实体。
步骤3),将上述步骤2中的实体向量化,并对所述词语串中成对同时出现的实体进行 关系类型判断处理。
步骤4),将上述步骤3中产生的关系对进行存储。
步骤5),对上述步骤4中的实体进行第二标注并拟合时间序列,判断是否给该标注赋 予一个供用户查看的标签。
作为本发明进一步地说明,所述步骤1中包括对所述文本的消噪处理,去除不需要的超 链及广告等信息。
更进一步地,所述序列化标注采用标准IOB结构。
更进一步地,所述序列化标注的类型为两种以上。
更进一步地,所述序列化标注的类型包括原材料、成分、产品、功效、国家/地区、明星。
更进一步地,所述关系类型为<实体1,关系类型,实体2>。
更进一步地,所述关系类型包括<原材料,包含,成分>、<成分,拥有,功效>、<产品,使用,原材料>、<国家/地区,生产,产品>、<明星,推广,产品>、<国家/地区,富含,原 材料>。
更进一步地,所述步骤4中关系对存储前通过实体对齐将所述实体以及实体之间的关系 知识图谱化,存储至Neo4j图数据库中。
更进一步地,所述第二标注包括第一类标注和第二类标注,所述实体的第二标注为第一 类标注时不赋予所述标签;所述实体的第二标注为第二类标注时赋予所述标签。具体地,第 二标注为“普通”和“从非热门变为热门”两个类别,通过对历史数据中大量的实体进行的 第二标注,将实体在连续时间片段(一般为一个月)上出现的频次作为时间序列模型的输入。
更进一步地,所述步骤5中的实体通过LSTM拟合时间序列。通过LSTM拟合时间序列模 型,判断一个概念的序列是否为符合标注“从非热门变为热门”的规律。如果是则可以给该 概念标签,供用户查看,省去用户盲目的查询概念的过程,大大提升了效率。
本发明的有益效果:
本发明为一种文本处理方法,可以通过句法依赖分析以及POS标注,将文本中可能出现 的“概念”进行语义提取,通过时间序列的分析,判断识别“概念”在时间维度上,是否有 从少到多,从无到有的变化过程,通过不同概念之间相互关系构建知识图谱,达到快速联想 查询的效果,大幅度降低了传统产品研发需要人工查看原始数据量文本数据的需求;“新概 念”的识别能够有效的帮助企业在生产过程中发现新的机会点,从而快速发觉竞争对手的研 发动态和产品开发相关热门概念。本发明可行的一个方案中,将“概念”定义为:原材料、 成分、功效、产品、国家/地区、明星等几类,覆盖了绝大多数的消费品开发场景;对识别出 来的概念进行知识图谱化,从而方面终端使用者能够快速找到最有潜力的概念;能够自动的 发现互联网文本中的新概念,让业务人员能够快速的掌握社会热点,以达到快速营销的目的。
附图说明
图1为本发明方法的流程图;
图2为本发明序列化标注示意图;
图3为本发明实体关系对关系类型判断示意图;
图4为本发明基于深度学习的CNN模型训练示意图;
图5为本发明实体第二标注拟合时间序列示意图。
具体实施方式
实施例:
下面结合附图对本发明实施例详细的说明,显然,所描述的实施例仅仅是本发明一部分 实施例,而不是全部的实施例。
在本发明的描述中,需要理解的是,术语“上”、“下”、“前”、“后”、“左”、 “右”、“顶”、“底”、“内”、“外”、“第一”、“第二”等指示的方位或位置或 顺序关系为基于附图所示的方位或位置或顺序关系,仅是为了便于描述本发明和简化描述, 而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此 不能理解为对本发明的限制。
如图1所示的流程图,一种基于文本序列化学习(Part of Speech Tagging,下称POS)、 关系挖掘、时间序列分析的新概念挖掘方法,其包括以下步骤:
步骤1),获取文本信息,消除文本噪声,并划分为若干个一定长度的词语串,本步骤 中,获取方式包括微博、电商标题、产品宣传文案,清除的噪声包括去除不需要的超链、广 告等信息。
步骤2),人工采用数据标注软件对文本进行序列化标注,通过既定序列化标注将所述 词语串分为若干个不同性质的实体,本步骤中的实体即为本申请所述概念,可以采用现有的 数据标注软件(例如DeepDive、brat、lapar等词性标注软件)进行标注。本发明的一个实 施例中既定序列化标注定义包括原材料、成分、科学技术、品类、功效,本步骤中,数据标 注软件自动识别框选文本词语串中词或词组的词性,通过人工操作的方式对符合上述既定序 列化标注定义的实体进行序列化标注。参见附图2,框选文本的框选的词语串为“富含酵母 提取物不但可以轻松卸掉彩妆”,通过数据标注软件识别出待标注词性的实体为“酵母提取 物”、“卸掉彩妆”,经此,人工操作将“酵母提取物”标注词性为“成分”的实体,将“卸 掉彩妆”标注词性为“功效”的实体。
步骤3,将上述步骤2中所得的实体向量化,由预训练的词向量模型转化为向量,然后 对词语串中成对同时出现的实体判断是否为语言意义上的关系。本实施例中的实体关系对定 义为<实体1,关系类型,实体2>,具体的是为:<原材料,包含,成分>,<成分,拥有,功效>,<产品,使用,原材料>,<国家/地区,生产,产品>,<明星,推广,产品>,<国家/ 地区,富含,原材料>等不同的关系类型。参见附图2,词语串“富含酵母提取物不但可以轻 松卸掉彩妆”中实体1为“酵母提取物”,其序列化标注为“成分”,实体2为“卸掉彩妆”, 其序列化标注为“功效”,其在判断关系类型时对应于上述的<成分,拥有,功效>类型。其 中图3为我们将图2的数据转换为序列化模型的标准“Inside–outside–beginning(IOB)” 标记格式。通过大量图2所示的数据标注,训练实体识别和关系提取的相关模型。其中模型 如图4所示,采用基于深度学习的CNN的模型进行训练。模型会自动从文本中学习相关的语 义。模型训练完成后,就可以识别出文本出出现的实体和实体间的关系。模型会自动从文本 中识别被标注过和没有被标注过的实体。标注过的实体就类似“酵母提取物”和“卸掉彩 妆”。没有标注过的实体如:“蓝莓有很多花青素,花青素可以让你更年轻”,模型会识别 出,实体1,成分“花青素”,实体2,功效“变得年轻”,关系为<成分,拥有,功效>。
步骤4),对海量研究数据进行模型预测,识别出大量数据中的实体和关系,<实体1, 实体2,关系>的结果。将大规模的实体及关系数据进行知识图谱结构化,存储至Neo4j图数 据库中。
步骤5,对上述步骤4中的实体进行第二标注并拟合时间序列,判断是否给该标注赋予 一个供用户查看的标签。具体地,本实施例中第二标注为“普通”和“从非热门变为热门” 两个类别,通过对历史数据中大量的实体进行的第二标注,将实体在连续时间片段(一般为 一个月)上出现的频次作为时间序列模型的输入。通过LSTM拟合时间序列模型,判断一个概 念的序列是否为符合标注“从非热门变为热门”的规律。如果是则可以给该概念标签,供用 户查看,省去用户盲目的查询概念的过程,大大提升了效率。
以上仅就本发明较佳的实施例作了说明,但不能理解为是对权利要求的限制。本发明不 仅局限于以上实施例,其具体结构允许有变化,总之,凡在本发明独立权利要求的保护范围 内所作的各种变化均在本发明的保护范围内。
Claims (10)
1.一种基于序列化学习、关系挖掘、时序分析的新概念挖掘方法,其特征在于,包括以下步骤:
步骤1),获取文本,并将所述文本划分为若干个一定长度的词语串;
步骤2),对文本进行POS算法的序列化标注,通过既定的序列化标注将所述词语串分为若干个不同性质的实体;
步骤3),将上述步骤2中的实体向量化,并对所述词语串中成对同时出现的实体进行关系类型判断处理;
步骤4),将上述步骤3中产生的关系对进行存储;
步骤5),对上述步骤4中的实体进行第二标注并拟合时间序列,判断是否给该标注赋予一个供用户查看的标签。
2.根据权利要求1所述的新概念挖掘方法,其特征在于:所述步骤1中所述文本的获取方式为网络获取,包括对所述文本的消噪处理,去除不需要的超链及广告等信息。
3.根据权利要求1或2所述的新概念挖掘方法,其特征在于:所述序列化标注采用标准IOB结构。
4.根据权利要求3所述的新概念挖掘方法,其特征在于:所述序列化标注的类型为两种以上。
5.根据权利要求4所述的新概念挖掘方法,其特征在于:所述序列化标注的类型包括原材料、成分、产品、功效、国家/地区、明星。
6.根据权利要求5所述的新概念挖掘方法,其特征在于:所述关系类型为<实体1,关系类型,实体2>。
7.根据权利要求6所述的新概念挖掘方法,其特征在于:所述关系类型包括<原材料,包含,成分>、<成分,拥有,功效>、<产品,使用,原材料>、<国家/地区,生产,产品>、<明星,推广,产品>、<国家/地区,富含,原材料>。
8.根据权利要求3所述的新概念挖掘方法,其特征在于:所述步骤4中关系对存储前通过实体对齐将所述实体以及实体之间的关系知识图谱化,存储至Neo4j图数据库中。
9.根据权利要求3所述的新概念挖掘方法,其特征在于:所述第二标注包括第一类标注和第二类标注,所述实体的第二标注为第一类标注时不赋予所述标签;所述实体的第二标注为第二类标注时赋予所述标签。
10.根据权利要求3所述的新概念挖掘方法,其特征在于:所述步骤5中的实体通过LSTM拟合时间序列。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910280639.2A CN110321549B (zh) | 2019-04-09 | 2019-04-09 | 基于序列化学习、关系挖掘、时序分析的新概念挖掘方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910280639.2A CN110321549B (zh) | 2019-04-09 | 2019-04-09 | 基于序列化学习、关系挖掘、时序分析的新概念挖掘方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110321549A true CN110321549A (zh) | 2019-10-11 |
CN110321549B CN110321549B (zh) | 2023-11-21 |
Family
ID=68112860
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910280639.2A Active CN110321549B (zh) | 2019-04-09 | 2019-04-09 | 基于序列化学习、关系挖掘、时序分析的新概念挖掘方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110321549B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111046135A (zh) * | 2019-11-04 | 2020-04-21 | 智器云南京信息科技有限公司 | 非结构文本处理方法、装置、计算机设备、存储介质 |
CN111061884A (zh) * | 2019-11-14 | 2020-04-24 | 临沂市拓普网络股份有限公司 | 一种基于DeepDive技术构建K12教育知识图谱的方法 |
CN112085251A (zh) * | 2020-08-03 | 2020-12-15 | 广州数说故事信息科技有限公司 | 一种消费品产品研发组合概念推荐方法和系统 |
CN116955613A (zh) * | 2023-06-12 | 2023-10-27 | 广州数说故事信息科技有限公司 | 一种基于研报数据和大语言模型生成产品概念的方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105975457A (zh) * | 2016-05-03 | 2016-09-28 | 成都数联铭品科技有限公司 | 基于全自动学习的信息分类预测系统 |
CN106156035A (zh) * | 2015-02-28 | 2016-11-23 | 南京网感至察信息科技有限公司 | 一种通用文本挖掘方法和系统 |
-
2019
- 2019-04-09 CN CN201910280639.2A patent/CN110321549B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106156035A (zh) * | 2015-02-28 | 2016-11-23 | 南京网感至察信息科技有限公司 | 一种通用文本挖掘方法和系统 |
CN105975457A (zh) * | 2016-05-03 | 2016-09-28 | 成都数联铭品科技有限公司 | 基于全自动学习的信息分类预测系统 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111046135A (zh) * | 2019-11-04 | 2020-04-21 | 智器云南京信息科技有限公司 | 非结构文本处理方法、装置、计算机设备、存储介质 |
CN111061884A (zh) * | 2019-11-14 | 2020-04-24 | 临沂市拓普网络股份有限公司 | 一种基于DeepDive技术构建K12教育知识图谱的方法 |
CN111061884B (zh) * | 2019-11-14 | 2023-11-21 | 临沂市拓普网络股份有限公司 | 一种基于DeepDive技术构建K12教育知识图谱的方法 |
CN112085251A (zh) * | 2020-08-03 | 2020-12-15 | 广州数说故事信息科技有限公司 | 一种消费品产品研发组合概念推荐方法和系统 |
CN116955613A (zh) * | 2023-06-12 | 2023-10-27 | 广州数说故事信息科技有限公司 | 一种基于研报数据和大语言模型生成产品概念的方法 |
CN116955613B (zh) * | 2023-06-12 | 2024-02-27 | 广州数说故事信息科技有限公司 | 一种基于研报数据和大语言模型生成产品概念的方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110321549B (zh) | 2023-11-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107862027B (zh) | 检索意图识别方法、装置、电子设备及可读存储介质 | |
CN110321549A (zh) | 基于序列化学习、关系挖掘、时序分析的新概念挖掘方法 | |
US20150074112A1 (en) | Multimedia Question Answering System and Method | |
CN110502621A (zh) | 问答方法、问答装置、计算机设备及存储介质 | |
CN107729468B (zh) | 基于深度学习的答案抽取方法及系统 | |
CN107705066A (zh) | 一种商品入库时信息录入方法及电子设备 | |
CN110188197B (zh) | 一种用于标注平台的主动学习方法及装置 | |
CN107679110A (zh) | 结合文本分类与图片属性提取完善知识图谱的方法及装置 | |
CN109635118A (zh) | 一种基于大数据的用户搜索匹配方法 | |
CN108537240A (zh) | 基于领域本体的商品图像语义标注方法 | |
CN108664599A (zh) | 智能问答方法、装置、智能问答服务器及存储介质 | |
CN105117387B (zh) | 一种智能机器人交互系统 | |
CN110209828A (zh) | 案件查询方法及案件查询装置、计算机设备和存储介质 | |
CN113821605B (zh) | 一种事件抽取方法 | |
CN108021605A (zh) | 一种关键词分类方法和装置 | |
CN110348017B (zh) | 一种文本实体检测方法、系统及相关组件 | |
CN112989208B (zh) | 一种信息推荐方法、装置、电子设备及存储介质 | |
CN112507139B (zh) | 基于知识图谱的问答方法、系统、设备及存储介质 | |
CN112559734A (zh) | 简报生成方法、装置、电子设备及计算机可读存储介质 | |
CN109615001A (zh) | 一种识别相似文章的方法和装置 | |
de Ves et al. | A novel dynamic multi-model relevance feedback procedure for content-based image retrieval | |
CN106777080A (zh) | 短摘要生成方法、数据库建立方法及人机对话方法 | |
CN114201587A (zh) | 一种基于本体的搜索意图表达方法及系统 | |
CN106021532A (zh) | 关键词的显示方法和装置 | |
CN114491079A (zh) | 知识图谱构建和查询方法、装置、设备和介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |