CN106095750A

CN106095750A - 联想记忆的语义系统

Info

Publication number: CN106095750A
Application number: CN201610396754.2A
Authority: CN
Inventors: 张留学; 朱小姣
Original assignee: Shanghai Niwa Communication Technology Co Ltd
Current assignee: Shanghai Niwa Communication Technology Co Ltd
Priority date: 2016-06-07
Filing date: 2016-06-07
Publication date: 2016-11-09

Abstract

本发明主要涉及人工智能领域自然语言处理，公开一种具有联想记忆功能的语义系统，通过语义标识ID的链式存储构建语义上下关联的关系，实现对语句的上下文搜索，从而实现一定程度的语义会话功能。系统主要用于人工智能领域的语义理解，智能机器人的人机对话，自然语言的语句搜索，适合于处理大规模真实的文本信息。本发明以语句为基本单位，实现基于语义的联想记忆。

Description

联想记忆的语义系统

技术领域

本发明主要涉及人工智能领域自然语言处理，提出一种具有联想记忆语义系统，通过构建语义标识ID的链式存储，构建语义上下关联的关系，实现语句的联想搜索功能。主要用于人工智能领域的语义理解，智能机器人的人机对话，自然语言的语句搜索，语料库的建设等等。

背景技术

通常来说人工智能亦称机器智能，是指由人工制造出来的系统所表现出来的智能。通常人工智能是指通过普通电脑实现的智能。该词同时也指研究这样的智能系统是否能够实现，以及如何实现的科学领域。一般教材中的定义领域是“智能主体的研究与设计”，智能主体是指一个可以观察周遭环境并作出行动以达到目标的系统。

人工智能的重要环节是自然语言的理解，自然语言的理解即常规意义的语义理解。当前自然语言处理研究的发展趋势总的来说有如下：

第一，传统的基于句法-语义规则的理性主义方法受到质疑，随着语料库建设和语料库语言学的崛起，大规模真实文本的处理成为自然语言处理的主要战略目标。

第二，统计数学方法越来越受到重视，自然语言处理中越来越多地使用机器自动学习的方法来获取语言知识。

第三，浅层处理与深层处理并重，统计与规则方法并重，形成混合式的系统。

第四，自然语言处理中越来越重视词汇的作用，出现了强烈的“词汇主义”的倾向。词汇知识库的建造成为了普遍关注的问题。

什么是联想记忆法呢？简单地说，联想记忆法就是搭起一座记忆的桥梁，利用我们熟悉的事物连接新的信息，因而它是一种节省时间并强化记忆的方法和系统。

基于现在我们对于记忆形成机制的认识，广为接受的模型将记忆过程分为三个不同阶段：

1.编码：获得资讯并加以处理和组合。

2.储存：将组合整理过的资讯做永久纪录

3.检索：将被储存的资讯取出，回应一些暗示和事件。

联想是于某人或某种事物而想起其他相关的人或事物；由某一概念而引起其他相关的概念。

因一事物而想起与之有关事物的思想活动。联想是暂时神经联系的复活，它是事物之间联系和关系的反应。客观事物是相互联系的，客观事物或现象之间的各种关系和联系反映在人脑中而有各种联想，有反映事物外部联系的简单的、低级的联想，也有反映事物内部联系的复杂的、高级的联想。一般来说，在空间上和时间上同时出现或相继出现，在外部特征和意义上相似或相反的事物，反映在人脑中并建立联系，以后只要其中一个事物出现，就会在头脑中引起与之相联系的另一事物的出现，这便是联想。

本发明公开一种具有联想记忆功能的语义系统，通过语义标识ID的链式存储构建语义上下关联的关系，实现对语句的上下文搜索，从而实现一定程度的语义会话功能。系统主要用于人工智能领域的语义理解，智能机器人的人机对话，自然语言的语句搜索，适合于处理大规模真实的文本信息，以语句为基本单位，实现语句的联想记忆。。

发明内容

本发明通过对自然语言进行上下文关联信息的存储，实现一种联想记忆系统。包括自然语言信息的获取、语句联想的存储，以及语句的上下查询。对自然语言以语句为单位进行编码处理，形成语义标识ID，通过语义标识ID链式存储保存语言的上下文的联系。

语句联想的存储，即语义标识ID链式存储的方式很简单，对自然语句进行哈希编码，形成语义标识ID，以三元组的形式或者二元组形式存储即可。

语义三元组的建立。语义三元组包括：前置语义标识ID，本体语义标识ID，后置语义标识ID。

语义二元组的建立。语义二元组有两种形式：

第一：前置语义标识ID，本体语义标识ID；

第二，本体语义标识ID，后置语义标识ID。

语义本身的存储形式包括：语义标识ID，语义本身，语义调用记载。

语义调用记载简单的可以是该语句导入和查看的频度，复杂一点可以根据调用者的信息进行分类，包括调用者信息、导入和查看频度信息等。

语义学习的过程实际上是自然语言的导入过程。主要包括两个方面：

现有文章的导入，以基本段落为单位实现。

从人的对话中学习，根据话语的顺序，录入语句，并进行相应的处理。

语义标识ID生成有两种形式：

第一，对该语句整个进行哈希编码；

第二，逐文字进行增量哈希编码。通过对文字信息的增量哈希编码，构建语义标识ID。语义标识ID构建形式如下：

语句中的文字排列如下：w₁w₂w₃...w_n；依次表示为文字1到文字n的排列；

w₁的特征序列定义为t₁，t₁＝哈希(w₁)；

w₂的特征序列定义为t₂，t₂＝哈希(t₁+w₂)；

依此类推，w_n的特征序列定义为t_n，t_n＝哈希(t_n-1+w_n)；

t_i其中i＝1，2，...n表示该语句的语义特征序列，其中i＝n时就是该语句的语义标识ID。

本发明的存储内容：语义标识ID的链式存储，主要用于语句的上下文的联系查找；语句的存储，主要包括语句标识ID，语句，关联文档ID；文档全文存储，主要存储文档ID和文档；对话和对话者信息存储。语句调用频度存储，主要存储语句导入次数，调用次数，记忆调用者的相关记载。

系统联想功能的实现，基于语句的链式存储实现。三元组可以直接查找该语句的前置语句标识ID或者后置语句标识ID，然后从语句存储表中查找即可。二元组以前置语义标识ID，本体语义标识ID形式存储的，查找语句的前置语句标识ID，然后从语句存储表中查找即可；查找该语句的后置语句，即可通过查找前置语句标识ID为该语句标识ID的本体语句标识ID，然后从语句存储表中查找即可。二元组以本体语义标识ID，后置语义标识ID形式存储的，查找语句的后置语句标识ID，然后从语句存储表中查找即可；查找该语句的前置语句，即可通过查找后置语句标识ID为该语句标识ID的本体语句标识ID，然后从语句存储表中查找即可。

本发明公开了一种联想记忆的语义系统，具有联想功能是系统的主要特征，可以查找语句的上下文，包括文章中语句的联想查找，和对话中的上下文查找，主要用于人工智能的人机对话环节，语义理解等领域。

附图说明

图1说明语句联想的存储的建立。

具体实施方式

下面结合附图和具体实施方式对本发明进行详细说明。

联想记忆语义系统包括以下部分：

1、基于语句的联想记忆的实现。首先对文档进行段落分段处理，然后对段落中的语句进行编码，形成该语句的语义标识ID，根据语句的顺序依次保存为语义三元组或者语义二元组。如果语句位于段落首部，则前置语义标识ID为空；如果语句位于段落尾部，则后置语义标识ID为空。由此形成语句语义标识ID的链式存储，构建基于语义的联想记忆的功能。

2、基于语义的联想查询。当输入一句语句需要查找该语句的上下文时，就可以结合语句联想的存储序列，依链式结构进行相关的查询。首先对查找的语句进行编码，得到语义标识ID，然后在语义链式存储表中，查找该语句的前置或者后置语句的语义标识ID，根据该ID在语句存储表中查找相关的语句。基于语句的链式存储表。三元组可以直接查找该语句的前置语句标识ID或者后置语句标识ID，然后从语句存储表中查找即可。二元组以前置语义标识ID，本体语义标识ID形式存储的，查找语句的前置语句标识ID，然后从语句存储表中查找即可；查找该语句的后置语句，即可通过查找前置语句标识ID为该语句标识ID的本体语句标识ID，然后从语句存储表中查找即可。二元组以本体语义标识ID形，后置语义标识ID式存储的，查找语句的后置语句标识ID，然后从语句存储表中查找即可；查找该语句的前置语句，即可通过查找后置语句标识ID为该语句标识ID的本体语句标识ID，然后从语句存储表中查找即可。

本发明主要的技术环节包括：

1、段落的分解。根据语句的自然段落的划分，或者结合自定义的分段形式，进行文档段落的分解。段落是构建语句联想的存储的基本单位。当然也可以不进行段落的分解，直接对文档进行语句联想的存储。

2、语句的分解。联想记忆的语义系统基本的单元是语句，按照标点符号进行语句的分解，或者结合自定义语句分解形式进行。

3、生成语义标识ID。对单一的语句进行编码，形成该语句的语义标识ID。

语义标识ID生成有两种形式：

第一，对该语句整个进行哈希编码，形成语义标识ID；

w₁的特征序列定义为t₁，t₁＝哈希(w₁)；

w₂的特征序列定义为t₂，t₂＝哈希(t₁+w₂)；

依此类推，w_n的特征序列定义为t_n，t_n＝哈希(t_n-1+w_n)；

4、语句联想的存储，即语义标识ID链式存储的方式简单。对自然语句进行编码，形成语义标识ID，以三元组的形式或者二元组形式存储即可，参见附图1。

语义二元组的建立。语义二元组有两种形式：

第一：前置语义标识ID，本体语义标识ID；

第二，本体语义标识ID，后置语义标识ID。

5、语句联想的存储。每个语句至少对应一个三元组或者二元组，在数据库中存储语义标识ID，并且为该ID建立索引。

6、语句本身的存储。存储语义标识ID和该语句，并记载该语句的出处，关联的文档信息或者其它的来源。

7、语义调用记载的存储。包括语句的导入频度，查询频度，导入和查询信息等。

8、关联文档或者对话的存储。语句如果关联文档则存储相关文档，如果来自对话则存储对话者的相关信息。

人的对话的导入，按说话的顺序对语句处理，形成语义的联想存储，语句的存储，语句的来源信息存储。

文档导入的处理。首先进行文档分段处理，以段落为单位实现形成语义的联想存储，语句的存储。

基于联想的语义查询的实现。依托语句联想的存储，从语义标识ID链式存储中找寻语句的上下文，实现语义的联想功能。

联想记忆的选择算法。系统优先查找完整匹配的语句，找到该语句关联的上下文；对基于增量哈希编码的语义标识ID，在无法找到完整的语句匹配的情况下，还可以支持最大前缀匹配语句的算法实现关联语句上下文的查找。t_i其中i＝1，2，...n表示该语句的语义特征序列，当i＝n时语义标识ID无法找到的情况下，可以查找i＝n-1的语义标识ID，递归直到找到为止。

提供查询语句及关联上下文语句的使用频度信息，供其他系统选择。

Claims

1.联想记忆的语义系统，主要特征包括：

构建语义标识ID的链式存储；

语句调用记载；

语义的联想。

2.按权利1构建语义标识ID的链式存储，其特征在于：

语句的三元组的存储表或者语句的二元组存储表。

3.按权利2的描述，语句三元组的存储表，其特征在于：

存储单元为前置语义标识ID，本体语义标识ID，后置语义标识ID。

4.按权利2的描述，语句二元组的存储表之一，其特征在于：

存储单元为前置语义标识ID，本体语义标识ID。

5.按权利2的描述，语句二元组的存储表之二，其特征在于：

存储单元为本体语义标识ID，后置语义标识ID。

6.按权利1语句调用记载，其主要特征在于：

主要有语句导入频度记载，语句调用频度记载。

7.按权利1描述的语义的联想，其特征在于：

基于语句的链式存储实现。三元组可以直接查找该语句的前置语句标识ID或者后置语句标识ID，然后从语句存储表中查找即可。二元组以前置语义标识ID，本体语义标识ID形式存储的，查找语句的前置语句标识ID，然后从语句存储表中查找即可；查找该语句的后置语句，即可通过查找前置语句标识ID为该语句标识ID的本体语句标识ID，然后从语句存储表中查找即可。二元组以本体语义标识ID形，后置语义标识ID式存储的，查找语句的后置语句标识ID，然后从语句存储表中查找即可；查找该语句的前置语句，即可通过查找后置语句标识ID为该语句标识ID的本体语句标识ID，然后从语句存储表中查找即可。