CN108846000A

CN108846000A - 一种基于超节点的常识语义图谱构建方法和装置以及基于连接预测的常识补全方法

Info

Publication number: CN108846000A
Application number: CN201810320164.0A
Authority: CN
Inventors: 沈琼; 朱嘉奇; 王宏安
Original assignee: Institute of Software of CAS
Current assignee: Institute of Software of CAS
Priority date: 2018-04-11
Filing date: 2018-04-11
Publication date: 2018-11-20

Abstract

本发明公开了一种基于超节点的常识语义图谱构建方法和装置以及基于连接预测的常识补全方法。本发明的常识语义图谱由概念或者实体为超节点，语义关系为边构成的复杂语义网络。每个超节点由一组相同或者相似语义的词语或者短语组成一个集合，表征一个概念或者实体，语义关系根据领域经验，提炼总结出概念或实体之间的关联关系。本发明的优势在于一方面可以扩大概念的外延范围，尽可能地涵盖同一概念的多种体现，另一方面可以减少网络的连接数量，大大降低语义网络的复杂度。基于连接预测的常识补全方法在已有常识基础上自动化地发现新常识，常识的来源不再单纯地靠人工编辑添加，人工只需要起辅助的检验，就可以快速得到大量的常识知识。

Description

一种基于超节点的常识语义图谱构建方法和装置以及基于连接预测的常识补全方法

技术领域

本发明属于人工智能领域，具体涉及一种基于超节点的常识语义图谱构建方法和装置，以及基于连接预测的常识补全方法。

背景技术

随着大数据时代的到来，基于数据驱动的人工智能应用取得了一个个显著的成功，比如机器翻译，图像识别等，但是数据的有偏性，非全量，抽象程度低等数据的固有特点导致训练出来的模型智能不够高，学习的方式低效。现在已经有学者在积极尝试基于知识的学习，比如在聊天机器人方面，微软的千人千面，人见人爱小冰聊天机器人背后就有强大的知识库支持，还有基于知识图谱的推荐系统的研究等也取得了显著成效。常识是一种基本但是特殊的知识，这种知识人人都具有，但是计算机却没有！导致当前大多数辛苦构建的智能系统的智商不如一个五岁的孩子，所以MIT有学者提出了可实用的AI需要常识知识的提议。

常识既然是人产生的通用知识，不同文化对常识的表达和形式有所不同。如何将自然语言表示的非结构化常识表示为计算机能处理和理解的结构化知识，国内外的学者都进行了研究探索。比如国外有基于一阶逻辑表示的CYC英文常识库，采用逻辑推演的方式进行常识推理，但是这种表示比较复杂，需要很多的专家经验，无法扩展到大规模的常识。随后也有 ConceptNet的基于三元组的表示形式，这种表示采用一个term来表示一个概念节点，会导致网络存在很多的冗余，构成的语义网络比较复杂。同时在言语交互中，由于中文的一意多词的普遍存在，文本里出现的概念词不一定就是常识库里已有的概念词，导致常识的召回率不高。

目前的常识库的常识来源一般是基于众包的形式，从大众那里获得常识，但是这种获取方法比较耗时耗力，常识的准确度受常识提供者影响比较大，导致获取的常识多而不精，虽然也有人尝试从文本中自动提取常识，但是由于常识的隐含性和多样性，一般只能在特定领域提取特定的常识知识，提取的准确度也不高。

发明内容

本发明针对上述问题，提出了一种基于超节点的常识语义图谱构建方法和和装置，以及基于连接预测的常识补全方法。其中常识语义图谱构建方法也可称为常识语义图谱表示方法。本语义图谱采用一个同义词集合来表示一个概念或者实体，形成语义图谱的超节点，节点与节点之间通过语义关系来连接。为了自动化地扩充常识库，本语义图谱在基于超节点表示的语义三元组基础上，通过将语义三元组嵌入到向量空间，采用连接预测的方法推理常识来完善常识库。

本发明首先提供一种基于超节点的常识语义图谱构建方法，包括以下步骤：

1)建立超节点，所述超节点代表一个概念或者实体，由一组同义词集合来表示；

2)建立语义关系，所述语义关系表示概念或实体之间的关联关系；

3)设置常识的属性，所述属性包括常识的置信度和常识检索的频率；

4)由所述超节点、所述语义关系和所述属性构成常识语义图谱，所述超节点之间以语义关系为边来连接，所述属性附属在所述边上。

具体来说，基于超节点表示的常识语义图谱由超节点，语义关系，属性(包括置信度，频率项)组成，分别说明如下：

1.超节点代表一个概念或者实体，由一组同义词集合来表示，同义词集合是由一组相同或者相似语义的词语或者短语组成的集合，集合内的同义词可以无序，也可以根据该词在领域背景(某个技术领域)出现的频率等权重来排序。这个词不仅仅是中文的一个词语，也可以是一个中文短语。

2.语义关系一般根据领域背景、领域经验来人工定义，用来表示概念之间的关联关系，如因果关系，位置关系，时间关系，属性关系等。传统的常识库里没有实体，只有概念。但是现实中关于实体的常识知识越来越多，常识图谱中引入实体，拓展实体和概念之间的新关系，对常识库的应用覆盖会更好。

具体的，所述关联关系包括：

a)因果关系，若一个概念导致了另一个概念的产生，则概念与其概念之间为因果关系；

b)隶属关系，若一个概念是另外一个概念涵义的子集，则两者之间的关系即为隶属关系；

c)位置关系，若一个概念和另一个概念是空间的联系，则两者之间的关系即为位置关系；

d)动机关系，若一个概念主动或者被动地和另一个联系，则两者之间的关系即为动机关系；

e)属性关系，若一个概念揭示了另一个概念的性质，则两者之间的关系即为属性关系；

f)词源关系，若一个概念和另一个概念产生词关联，则两者之间的关系即为词源关系；

g)顺序关系，若一个概念和另一个概念的出现有先后，则两者之间的关系即为顺序关系；

h)血缘关系，若一个概念和另一个概念有血亲联系，则两者之间的关系即为血缘关系；

i)时间关系，若一个概念和另一个概念是时间上的联系，则两者之间的关系即为时间关系；

j)实例关系，若一个概念是另一个的实例化表示，则两者之间的关系即为实例关系。

k)使能关系，若两个概念之间有主动或者被动的支配关系，则两者的关系即为使能关系。

3.置信度根据常识的来源不同而不同，越可靠的来源置信度数值越大，常识越准确。频率项根据该常识被检索的频次而动态增加，当达到一定的频率阈值后，设置单独的索引来提高检索速度。

4.一条常识知识由两个概念或实体为节点，语义关系为边来表示，边附加置信度，频率系数属性，其中关系是有方向的，由头节点指向尾节点。也即一条常识知识由(概念(实体)，语义关系，概念(实体))这样的语义三元组来表示。

与上面方法对应的，本发明还提供一种基于超节点的常识语义图谱构建装置，其包括：

超节点建立模块，负责建立超节点，所述超节点代表一个概念或者实体，由一组同义词集合来表示；

语义关系建立模块，负责建立语义关系，所述语义关系表示概念或实体之间的关联关系；

属性设置模块，负责设置常识的属性，所述属性包括常识的置信度和常识检索的频率；

图谱建立模块，负责由所述超节点、所述语义关系和所述属性构成常识语义图谱，所述超节点之间以语义关系为边来连接，所述属性附属在所述边上。

在上述常识语义图谱基础上，本发明还提供一种基于连接预测的常识补全方法，基于连接预测的常识推理采用深度学习方法，以已有的三元组常识知识为训练数据，通过将概念和语义关系进行语义嵌入的表示，映射到向量空间，在向量空间进行向量之间的变换操作。通过这种变换规则的学习，在已知一个概念和一条语义关系时，可以预测出另一个概念，也即常识三元组里的知二求一的常识推理预测。

本发明的一种基于连接预测的常识补全方法，基于知识嵌入的向量空间的关系预测新常识，补全常识库，包括以下步骤：

1.由常识图谱构成常识库，常识库的检索接口增加一个日志功能，记录每次检索未召回的概念。

2.以该概念为头节点(尾节点)，利用推理模型在不同关系中进行预测出尾节点(头结点)，取得分最高的为预测结果。

3.每隔一个固定周期进行批量推理预测，再批量地更新常识，通过这种方法来不断地补充新常识，完善常识库。

其中，推理模型采用语义嵌入模型，比如Hole，TransE等方法，类比word2vec，可以对常识知识进行向量化表示，这种向量化的表示采用低纬稠密向量，在保留语义信息的同时，方便进行语义计算。

以上中文常识表示方法和常识补全方法适合于各个特定领域，具有普适性和通用性。但对于不同领域，其具体的构建方法和技术则有所不同，可能基于领域知识进行人工判断，也可能基于统计学习的方法自动完成，这就需要根据领域知识的积累程度，以及领域相关数据的规模和获取程度，成本时间等因素综合考虑和设计。

与现有技术相比，本发明的有益效果如下：

1.本常识表示方法解决了中文自然语言理解中的一意多词现象，在常识的检索过程中，可以提供常识召回率。本常识表示方法扩大了概念的外延范围，能够尽可能地涵盖同一概念的多种体现，另一方面超节点的网络表示可以减少网络的连接数量，大大降低语义网络的复杂度。

2.置信度的引入，可以区分常识的质量，给上层应用一个判断的依据。

3.频率项可以随着常识规模的扩张和检索的次数增加而动态地创建，提供检索速度，在时间和空间的权衡中得到一个平衡。

4.基于连接预测的常识推理方法在已有常识基础上自动化地发现新常识，可以自动化地更新常识库，逐步地完善常识库，减少了很多人工时间的投入。常识的来源不再单纯地靠人工编辑添加，人工只需要起辅助的检验，就可以快速得到大量的常识知识。

附图说明

图1为本发明方法的中文常识表示示意图；

图2为本发明方法构建的中文金融常识库一角的示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明，以下结合金融常识构建实例和附图进一步详细描述本发明，但不构成对本发明的限制。

图1是采用本方法的一条中文常识表示，节点是概念的集合，边是语义关系和属性的集合，节点和边连接起来构成一个有向图。图中的r_i＝Atlocation,q_i＝3.5,f_i＝100中，r_i表示语义关系，Atlocation表示位置关系，q_i表示是置信度，f_i表示频率。

表1是常见的常识语义关系总结，概念和概念之间通过不同类别的语义关系映射到一起。

表1.中文常识语义关系

图2为采用本方法面向金融领域构建的常识库的一部分截图。具体的构建流程如下：

1.常识获取

常识可以采用人工获取或者自动抽取，本例子采用融合已有非中文简体通用常识库，构建一个中文简体金融常识库，主要经过以下英文和简繁翻译，去重和消歧，基于金融关键词的过滤得到面向金融的常识数据。

2.超节点和语义边构建

超节点主要是同义词集合的拓展，通过对种子概念词，经过整理好的哈工大同义词词林，扩展成一个超节点的概念集合。针对语义边的置信度属性，不同来源的常识设置不同的数值，而频率项则初始化为0。

3.常识存储

通过步骤2可以得到常识的结构化表示，需要存储起来，方便以后的应用检索。有采用关系型数据库存储的，也有采用图数据库存储的。因为常识库本质上是语义网络，采用图数据库存储，可以很方便地利用图数据库的遍历和路径算法来提供额外的功能，所以本例子采用Neo4j来存储常识。

4.常识检索

常识库构建完成后，需要常见的检索接口对外提供服务，一般有基于概念的检索，基于关系的检索，基于概念和关系的共同检索，此外，在每次检索完成后，需要更新常识的频率项，每次增加1。

5.常识索引

当常识的频率项达到阈值200时，需要对该条常识建立索引，可以采用现有方法建立索引。这个索引构建周期性地进行，以天或星期触发一次。

6.常识推理引擎的构建

利用步骤3构建的种子常识数据作为训练数据，采用语义嵌入模型Hole来训练一个离线推理引擎。

7.常识更新

针对步骤4中未召回的概念，记录保存后，批量地利用推理引擎推理出另一个概念，形成批量的新常识。采取保留top3的方法，经过人工检测，筛选过滤无误后入库。

本发明另一实施例提供一种基于超节点的常识语义图谱构建装置，其包括：

背景语义拓展在自然语言理解相关的应用中比较常见，以核心关键词为出发点，拓展更多的概念和知识，提供更加多样性的背景信息。比如在搜索引擎中，通过用户输入的一个实体，检索回和这个实体相关的概念和解释信息，一般也叫信息补全。常识是自然语言语料中往往被省略的通用隐含知识，本次实验利用建立的金融常识库对公司财报数据进行通用常识信息拓展，来说明本发明提出的常识表示方法和常识库构建方法的优越性。

本实验涉及的财报数据是通过建立爬虫系统对大智慧炒股软件的公司公告数据进行爬取，整理后得到，数据规模484M，包含7000多个文档。实验方法是对于每一行文本句子，经过 jieba分词，去停留词后，提取句子关键词，利用得到关键词去常识库中进行检索并统计常识召回率和准确率，实现输入文本的常识信息扩展。

为了验证本文的方法在常识网络复杂度、召回率、错误率和性能方面的影响，实验分为四个部分：

1)多知识源的融合对召回率的影响

构建的金融常识库采用多源融合的方式构建，解决单一知识源常识量的不够导致的召回率低问题。实验从7000个文档随机抽样选择50个文档合并，对得到的语料文件提取了423 个关键词，对比在单源ConceptNet和多源在召回率方面的变化。实验结果见表2。

表2.单源和多源的对比

2)超节点对网络复杂度的影响

基于超节点的概念节点由一组近义的词或者短语构成，在拓展概念的外延同时，对常识进行了合并规约，整个语义网络的节点数减少，网络边也随之减少，网络趋向简洁，存储引擎的压力变小。实验测试在融合后的同样数量的常识数据下，采用多词扩展的单节点表示和超节点表示在节点数目，网络边数目方面的对比，实验结果见表3.

表3.单节点和超节点的网络复杂度

节点类型	节点数目	网络边数	节点平均出度	节点平均入度
					单节点	30231	62167	2.6	3.1
超节点	13596	32345	1.5	1.8

3)基于权重值weight的置信度对常识错误率影响

常识的准确度受不同常识源的采集对象，采集方式和后续处理方式的影响,因而常识的 weight代表了常识可信度。为了消除低可信度的常识的召回对语义背景拓展的影响，对于每个关键词检索出来的常识根据weight值进行排序，只召回top3的常识。针对423个关键词召回的常识，不符合领域背景和有误的常识都算错误召回，人工统计错误率，最终的召回情况见表4。

表4.权重对召回率的影响

召回策略	召回常识总数	错误的常识总数	错误率
				全部召回	358	36	10.06％
召回top3	285	15	5.26％

4)基于频率值freq的索引对常识检索的性能影响

常识语义网络往往比较大，一般需要通过对常识进行索引，来提高检索速度。索引的建立有时需要在时间和空间上进行权衡。所以本文采用的是根据检索的频率项来对常识进行索引建立。构建方法是常识库的每一条常识，如果被检索召回一次，频率项就加1,最终对达到100的阈值的常识建立索引。表5是通过统计100次抽样实验后的平均耗时情况。

表5.索引对检索速度的影响

索引策略	召回常识总数	平均耗时(s)	常识库数据量(M)
				无索引	285	4.23	6.15
频率项索引	285	2.26	6.76

以上实施例仅用以说明本发明的技术方案而非对其进行限制，本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明的精神和范围，本发明的保护范围应以权利要求所述为准。

Claims

1.一种基于超节点的常识语义图谱构建方法，其特征在于，包括以下步骤：

2.如权利要求1所述的方法，其特征在于，所述同义词集合内的同义词无序，或者根据同义词在某个技术领域出现的频率来排序。

3.如权利要求1所述的方法，其特征在于，所述同义词集合内的同义词是中文的一个词语，或者是一个中文短语。

4.如权利要求1所述的方法，其特征在于，所述关联关系包括：

5.如权利要求1所述的方法，其特征在于，所述置信度衡量常识的准确性，所述置信度根据常识的来源确定，越可靠的来源置信度值越大。

6.如权利要求1所述的方法，其特征在于，所述频率是索引构建的依据，频率初始设置为0，根据常识被检索的频次而动态增加，当达到一定的频率阈值后，设置单独的索引来提高检索速度。

7.如权利要求6所述的方法，其特征在于，通过经验设定所述频率阈值。

8.一种基于超节点的常识语义图谱构建装置，其特征在于，包括：

9.一种基于连接预测的常识补全方法，其特征在于，包括以下步骤：

a)由采用权利要求1至7中任一权利要求所述方法建立的常识图谱构成常识库，常识库的检索接口增加日志功能，记录每次检索未召回的概念；

b)以所述未召回的概念为头节点，利用推理模型在不同关系中进行预测，得到尾节点，或者以所述未召回的概念为尾节点，利用推理模型在不同关系中进行预测，得到头结点，取得分最高的为预测结果；

c)每隔一个固定周期进行批量推理预测，再批量地更新常识，从而不断地补充新常识，完善常识库。

10.如权利要求9所述的方法，其特征在于，所述推理模型采用语义嵌入模型，对常识知识进行向量化表示，所述向量化表示采用低纬稠密向量，在保留语义信息的同时方便进行语义计算。