CN112328811A

CN112328811A - 一种基于同类型词组的词谱聚类智能生成方法

Info

Publication number: CN112328811A
Application number: CN202011264765.8A
Authority: CN
Inventors: 曾勇; 杨琪
Original assignee: Guoheng Smart City Technology Research Institute Beijing Co ltd
Current assignee: Guoheng Smart City Technology Research Institute Beijing Co ltd
Priority date: 2020-11-12
Filing date: 2020-11-12
Publication date: 2021-02-05

Abstract

本发明涉及人机交互领域，特别是涉及一种基于同类型词组的词谱聚类智能生成方法，包括如下步骤：S1、建立同类型词组或知识汇集的词谱数据库、训练同类型词组知识；S2、提取文本分词序列；S3、同类型词汇提取；S4、同类型词组或知识汇集聚合；采用本发明，通过预先数据收集建立同类型词组库，比将词谱数据库建立为同类型的词组训练集，作为训练用目标数据，可以根据不同的领域和知识，预先形成好对应词库；通过对文本抓取，快速分析比对重点分句，进行多维度拆分，实现分词序列的规范化；再通过自已相似度对比，将词组与入库词组集对比，实现了快速的知识点索引，完成词谱聚类的生成，提高词组生成的准确性。

Description

一种基于同类型词组的词谱聚类智能生成方法

技术领域

本发明涉及人机交互领域，特别是涉及一种基于同类型词组的词谱聚类智能生成方法。

背景技术

随着互联网与自然语言处理技术的发展，对话系统作为一种全新的人机交互方式，正逐步走进人们的生活。各大企业瞄准对话系统的巨大商业价值，纷纷围绕其进行平台布局，其中便有阿里巴巴的“阿里小蜜”，苹果的“Siri”以及微软的“小冰”等等。

对话系统依据不同的目标可以大致分为两类——面向任务型对话系统和非面向任务型对话系统。面向任务型对话系统旨在帮助人们完成某项具体的任务(例如订购机票、订餐、购物等)，而非面向任务型对话系统则更关注于与人们进行开放式的对话。

发明内容

针对现有的技术的不足，本发明提供一种基于同类型词组的词谱聚类智能生成方法，主要是对不同类型的问题进行数据准备、训练模型，汇集通过对同类型词组或知识汇集，实现知识点词谱的智能生成。

为实现上述目的，本发明提供如下技术方案：

一种基于同类型词组的词谱聚类智能生成方法，其特征在于包括如下步骤：

S1、建立同类型词组或知识汇集的词谱数据库、训练同类型词组知识；

S2、提取文本分词序列；

S3、同类型词汇提取；

S4、同类型词组或知识汇集聚合。

进一步的，所述S1中，通过收集数据，以建立同类型词组或知识汇集的词谱数据库，所述同类型词组或知识汇集的词谱数据库包括有大量的同类型知识词组，每个同类型词组中存储有相同语义的词语；将所述同类型词组或知识汇集的词谱数据库中的词语建立同类型词组训练集，作为训练目标数据；

进一步的，所述S2中，提取问题分词的方式是通过各种信息抽取技术提取词干预处理，得到文本知识训练集规范化的文本分词序列。

进一步的，所述S3中，同类型词汇提取通过S2中的得到的文本分词序列与S1中目标数据进行训练，提取步骤2文本分词序列的同类型词向量；

进一步的，所述S4中，通过对根据词义相似度计算比对，计算词义词向量与所有已入库的同类型词组中词的相似度距离，并比对上述相似度距离；根据相似度阈值确定词与词的关联关系，利用相似度距离排序规则以完成同类型词组或知识汇集聚合；

与现有技术相比，本发明提供了一种基于同类型词组的词谱聚类智能生成方法，具备以下有益效果：

采用本发明，通过预先数据收集建立同类型词组库，比将词谱数据库建立为同类型的词组训练集，作为训练用目标数据，可以根据不同的领域和知识，预先形成好对应词库；通过对文本抓取，快速分析比对重点分句，进行多维度拆分，实现分词序列的规范化；再通过自已相似度对比，将词组与入库词组集对比，实现了快速的知识点索引，完成词谱聚类的生成，提高词组生成的准确性。

附图说明

图1是本发明的系统流程图；

图2是本发明的S2中数据处理过程图意图；

图3是本发明的句法分析树状图。

具体实施方式

下面将结合本发明的实施例，对本发明实施例中的技术方案进行清楚、完整的描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。

本发明中，S1中同类型词组训练集为大量人工经过长期知识梳理和整合的同类型词组数据；该过程可以通过网络数据获取，通过大量学习与总结，得到对应词组数据；

S2中的2的抓取文本知识指通过爬虫技术抓取数据，数据处理过程如下；

通过对抓取的数据文本进行预分词，再对分句进行处理，进而实现句子的分词，去除正常语序中的停顿标号，对分词序列规范化，在进行分词序列的参数标注，让识别更加精准；

其中运用到了句法分析、词法分析和依存句法分析技术，进行文本分词、词性标注，去停用词，保留名词与动词等。

(1)句法分析提

供分词、词性标注、命名实体识别三大功能。该服务能够识别出文本串中的基本词汇(分词)，对这些词汇进行重组、标注组合后词汇的词性，并进一步识别出命名实体。主要包括：

中文分词：中文分词是将连续的自然语言文本，切分成具有语义合理性和完整性的词汇序列的过程；

词性标注：词性标注(Part-of-Speech tagging或POS tagging)是指为自然语言文本中的每个词汇赋予一个词性的过程；

专有名词：命名实体识别(Named Entity Recognition简称NER)，即"专名识别"，是指识别自然语言文本中具有特定意义的实体，主要包括人名、地名、机构名、时间日期等

(2)词法分析

从句法分析的目的、句法的表示、句法分析器等进行技术说明。

①句法分析的目的

判断句子的合法性(句子识别)

确定句子的结构(句子中单词相互关联的方式)

②句法的表示

基于上下文无关语法(CFG)的表示

■CFG能描述大部分的自然语言结构

■可以构造高效的基于CFG的句法分析器

参考图3，通常采用树形结构来表示句法分析的结果：

通常采用树形结构来表示句法分析的结果

1.S->NP VP

2.VP->V NP

3.NP->NAME

4.NP->ART N

5.NAME->John

6.V->ate

7.ART->the

8.N->cat

9.......

产生式5～9属于词法规则，一般由词典与词性标注算法来描述语法分析要达到的特性目标

通用性：能正确分析句子的范围

选择性：能判断出错误句子的范围

可理解性：自身的简易程度

鲁棒性

对不合法句子的容忍度：He love her.

■通用性与选择性矛盾的处置，如：忽略主谓一致性检查将导致无法区分下面句子的不同含义(歧义)

③句法分析器

自顶向下

■利用产生式，从S开始，尝试将S改写成与输入句子相匹配的终结符号序列。

自底向上

■利用产生式，尝试将输入句子规约到S。

回溯

■从一个错误的尝试(改写或规约)返回，进行下一个尝试。

■保留改写或规约的历史

□回溯需要

□输出正确的分析结果也需要

④数据模型分析

语法

■1.S->NP VP 2.NP->ART N 3.NP->ART ADJ N

4.VP->V 5.VP->V NP

位置计数器

■₁The₂dogs₃cried

状态

■由符号表和当前位置构成，如：((NP VP)1)表示从位置1开始寻找NP，且NP后面是VP

状态转换

■如果符号表的第一个符号是词法符号(词性)，并且句子中当前词属于该词法类，则删除符号表中第一个符号，并更新当前位置(加1)，得到新的状态。

■否则，如果符号表的第一个符号是句法符号，则依据语法获得改写该符号的所有产生式，把它们的右部作为符号表与当前位置构成状态；选择其中一个作为新的状态，其它作为后备状态(在回溯时使用)。

回溯

■从后备状态中取一个作为当前状态，继续分析

算法

1.取((S)1)作为当前状态(初始状态)，后备状态为空。

2.若当前状态为空，则失败，算法结束，

3.否则，若当前状态符号表为空，且当前位置处于句子末尾，则成功，算法结束，

4.否则，进行状态转换，若转换成功，则转2

5.否则，回溯，转2。

⑤分析过程见下表

1.S->NP VP 2.NP->ART N 3.NP->ART ADJ N 4.VP->V 5.VP->V NP

深度优先

■后备状态采用“栈”

■后备状态少，存储效率高

■面临“左递归”问题

广度优先

■后备状态采用“队列”

后备状态多，存储效率不高。

(3)依存句法分析

利用句子中词与词之间的依存关系来表示词语的句法结构信息(如主谓、动宾、定中等结构关系)，并用树状结构来表示整句的的结构(如主谓宾、定状补等)。主要包括以下几个应用功能：

◆语言理解。通过分析用户Query的依存句法结构信息，抽取其中的语义主干及相关语义成分，帮助智能产品实现对用户意图的精准理解；

◆知识发掘。对大规模非结构化文本数据进行句法结构分析，从中抽取实体、概念、语义关系等信息，帮助构建领域知识或世界知识；

◆语言结构匹配。基于语言对(Query-WebTitle)之间的句法结构信息进行语言的匹配计算，帮助提升语义匹配计算的准确率。

步骤3中词向量表示：词向量计算是通过训练的方法，将语言词表中的词映射成一个长度固定的向量。词表中所有的词向量构成一个向量空间，每一个词都是这个词向量空间中的一个点，利用这种方法，实现文本的可计算。

步骤4中词义相似度计算指计算两个给定词语的语义相似度，基于自然语言中的分布假设，即越是经常共同出现的词之间的相似度越高。词义相似度是自然语言处理中的重要基础技术，是专名挖掘、query改写、词性标注等常用技术的基础之一。具备:

◆词表覆盖广。通过大规模数据进行模型训练，样本数据丰富且时效性高，收录词汇覆盖度广，召回率高；

◆深度学习训练。基于DNN深度学习大量样本训练模型，完成词语的向量化，建立高精度的词向量表示体系；

◆描述精度高。基于高精度的词向量表示系统及海量样本训练学习，准确描述词义相似度，能满足高精度要求的业务场景需求。

本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，但并不会偏离本发明的精神所定义的范围。

Claims

1.一种基于同类型词组的词谱聚类智能生成方法，其特征在于，包括如下步骤：

S2、提取文本分词序列；

S3、同类型词汇提取；

S4、同类型词组或知识汇集聚合。

2.根据权利要求1所述的一种基于同类型词组的词谱聚类智能生成方法，其特征在于，所述S1中，通过收集数据，以建立同类型词组或知识汇集的词谱数据库，所述同类型词组或知识汇集的词谱数据库包括有大量的同类型知识词组，每个同类型词组中存储有相同语义的词语；将所述同类型词组或知识汇集的词谱数据库中的词语建立同类型词组训练集，作为训练目标数据。

3.根据权利要求1所述的一种基于同类型词组的词谱聚类智能生成方法，其特征在于，所述S2中，提取问题分词的方式是通过各种信息抽取技术提取词干预处理，得到文本知识训练集规范化的文本分词序列。

4.根据权利要求1所述的一种基于同类型词组的词谱聚类智能生成方法，其特征在于，所述S3中，同类型词汇提取通过S2中的得到的文本分词序列与S1中目标数据进行训练，提取步骤2文本分词序列的同类型词向量。

5.根据权利要求1所述的一种基于同类型词组的词谱聚类智能生成方法，其特征在于，所述S4中，通过对根据词义相似度计算比对，计算词义词向量与所有已入库的同类型词组中词的相似度距离，并比对上述相似度距离；根据相似度阈值确定词与词的关联关系，利用相似度距离排序规则以完成同类型词组或知识汇集聚合。