CN113392183A

CN113392183A - 一种儿童范畴图谱知识的表征与计算方法

Info

Publication number: CN113392183A
Application number: CN202110600106.5A
Authority: CN
Inventors: 徐朝军; 周姝月; 秦文艳; 杨澜; 宋青; 江宇杰; 方哲; 计延霖; 李艺
Original assignee: Nanjing Normal University
Current assignee: Nanjing Normal University
Priority date: 2021-05-31
Filing date: 2021-05-31
Publication date: 2021-09-14

Abstract

本发明公开了一种儿童范畴图谱模型的知识表征与计算方法，包括如下步骤：按儿童范畴图谱模型要求建立图数据库作为存储工具；通过交互界面向模型输入学习文档，并记录学习日期；对输入的文档进行句法学习，对文档中的自然段进行语句切分和句型语法特征识别处理；对文档中每个句子进行分词、依存关系分析，进行词项概念及依存关系的学习；识别两个概念间的语义关系并分类，在二元概念关系基础上，拓展生成多元复杂概念体系；迭代学习，在每次文档输入学习存储的基础上，计算概念权重及概念语法关系及语义关系权重，迭代生成儿童范畴图谱。本发明将表征与计算分开，厘清了知识表征中概念与概念运用规则的界限，为多领域研究与应用提供新的思路。

Description

一种儿童范畴图谱知识的表征与计算方法

技术领域

本发明涉及人工智能自然语言处理技术领域，尤其是一种儿童范畴图谱知识的表征与计算方法。

背景技术

在人工智能领域，知识表征是研究知识在计算机中是如何存储的，是一个核心的概念，是人工智能的基础。知识表征的最终目的是要实现人的有效交流和人机互动，使得人与计算机的顺畅交流得以实现，最终推动人工智能的发展。人工智能参与的知识生产就是一种基于知识库和规则事实逻辑的“集体知识系统”，是包含搜集、处理、生成、匹配、推荐为一体的某种“实在的对象”的生产系统，这样一种形态的知识生产称为“知识计算”，其生产出的知识是一种“计算知识”。知识表征是人们研究智能体如何存储知识的一门学问。同时，表征也是计算的基础，作为认知心理学、认知哲学、人工智能的一个交叉领域，知识表征在认知哲学、人工智能领域受到各学者的广泛的关注，因此基于现有的知识表征方法，提出一种新的更优的知识表征方法尤为重要。

目前已有的知识表征方法包括一阶谓词逻辑表征、产生式知识表征、框架表征、语义网络表征和面向对象表征等方式。谓词逻辑适合表示事物的状态、属性、概念等事实性的知识，也可以用来表示事物间确定的因果关系，即规则；产生式又称为产生式规则表示法。通常用于表示具有因果关系的知识，其基本形式是“if P then Q”；框架表征是以框架理论为基础的一种结构化知识表示方法，是一种描述所论对象(一个事物、一个事件或一个概念)属性的数据结构；语义网络是通过概念及其语义关系来表达知识的一种网络图，是一种带标示的有向图；面向对象表示是采用面向对象的思想和方法来表示知识，其核心思想包括对象、类、封装和继承。

在人工智能领域，知识的搜集、处理、生成、匹配、推荐等过程，都蕴含着对知识的计算，在自然语言处理中，常有对语义相似度的计算，主要包括基于传统的统计学的方法，比如向量空间模型等和基于神经网络的方法，如DSSM(Deep Structured Semantic Model)模型或者预训练模型BERT(Bidirectional Encoder Representations fromTransformers)模型等。在实际应用中，根据不同的需求选取特定的计算方法或对已有的计算方法进行改进，如利用专利知识图谱来计算专利术语之间的相似度，从而来计算专利文本之间的相似度来判断专利是否侵权。

现有的知识表征方法和技术能够适用于不同的情况，目前最常见的是基于语义网络的表征方法，具体表征技术多用知识图谱的形式，具体细节和规范在各个领域有所不同。虽然这些表征方法各有所长，但都没有对表征和计算进行区分，因而在知识表征中没有离清概念与概念运用规则的界限。

发明内容

本发明所要解决的技术问题在于，提供一种儿童范畴图谱模型的知识表征与计算方法，将表征与计算分开，厘清了知识表征中概念语义内涵与概念运用规则的界限，为自然语言处理、知识计算、人类知识加工研究与应用提供新的思路。

为解决上述技术问题，本发明提供一种儿童范畴图谱知识的表征与计算方法，包括如下步骤：

(1)使用图数据库作为儿童范畴图谱模型的知识存储工具，并按儿童范畴图谱模型要求建立数据库；

(2)通过交互界面向模型输入学习文档，并记录学习日期，精确到分钟；

(3)对输入的文档进行句法学习，对文档中每个自然段中的进行语句切分，识别其句型、语法特征；

(4)词项、概念及关系学习，对文档中每个句子进行分词、依存关系分析学习；

(5)概念语义关系学习，识别两个概念间的语义关系并分类，在二元概念关系基础上，拓展生成多元复杂概念体系。

(6)迭代学习，在每次文档输入学习存储的基础上，计算概念权重及概念语法关系及语义关系权重，根据新的权重，生成儿童范畴图谱。

优选的，步骤(2)中，模型输入为儿童日常交流对话和儿童课外读物。

优选的，步骤(2)中，模型的每一次输入记为模型的一次文档学习，其数据模型记录为：文档＝{文档编号，文档标题，文档内容，学习时间}。

优选的，步骤(3)中，对输入的文档进行学习，对文档中的自然段、语句、词项、概念进行识别处理具体包括如下步骤：

A、根据模型输入文档，采用文档摘要技术对提取文档摘要，再切分为若干个自然段，对于每个自然段采用文档摘要技术提取每个自然段的段落大意，上述学习结果记录为：文档＝{文档编号，文档摘要，所属领域，当前时间}，自然段＝{文档编号，自然段编号，段落大意，段落正文}；

B、每个自然段切分为若干句子，对于每个句子识别其句子类型，采用依存分析算法，提取句子核心概念及谓词，模型上述学习结果记录为：句子＝{自然段编号，句子编号，句子正文，句子类型，核心主语，核心谓语}；

优选的，步骤(4)中，对概念词项与依存关系学习具体包括如下步骤：

A、根据分词及词性标注的结果获取概念词项及词性，并根据词项出现的频次赋予权重，在进行存在性检验后，存入相应的词项数据表中；

B、根据依存句法分析的结果获取概念与概念间的依存关系及频次，进行存在性检验后，存入相应的概念依存关系数据表中。

优选的，步骤(5)中，对儿童范畴图谱模型的概念语义关系学习具体包括如下步骤：

A、结合依存句法分析、关键词共现的结果，识别句子中概念之间的二元语义关系，获取二元概念关系对及其出现频次，存在性检验后，存入概念语义关系表中；

B、在二元概念关系分析的基础上，继续识别与二元概念关系相关的概念，多次迭代生成多元概念关系，多次迭代，形成儿童范畴图谱模型的概念语法体系。

本发明的有益效果为：本发明将表征与计算分开，厘清了知识表征中概念与概念运用规则的界限，为自然语言处理、知识计算、人类知识加工研究与应用提供新的思路。

附图说明

图1为本发明的方法流程示意图。

图2为本发明的儿童范畴图谱模型的数据存储实体关系图。

图3(a)为本发明的概念实列示例示意图。

图3(b)为本发明的范畴表征示意图。

图4为本发明的部分多元概念关系示意图。

图5为本发明的概念体系、语法体系存储模型示意图。

图6为本发明的存储结构示意图。

具体实施方式

如图1所示，一种儿童范畴图谱模型的知识表征与计算方法的具体实施方式及过程如下所示：

(1)根据模型存储要求，选择Neo4J图数据库平台，建立儿童范畴图谱模型数据库。模型的数据存储采用结构化关系模型存储包括三个部分，一是模型输入存储，也就是儿童读物等原始学习材料的存储；二是模型学习计算过程中习得的概念和概念结构关系存储，三是儿童语言学习过程中，习得的短语、句子结构、句型等语法体系存储。这三部分数据的实体关系如图2所示，模型存储关系表达式如下：

文档＝{文档编号，文档标题，文档内容，关键词，文档摘要，所属领域，学习时间}自然段＝{文档编号，自然段编号，段落大意，段落正文}

简单句＝{简单句编号，句子，主语，谓语，句子类型}

复合句＝{复合句编号，句子，分句1，分句2，分句3，分句4，复合句类型}

复合句类型＝{复合句类型编号，复合句类型，复合句特征模式，频度}

词项＝{词项编号，词项，词性cn，词性en，频度}

概念依存关系：概念依存关系＝{概念1，概念2，依存关系类型，频度}

概念语义关系：概念语义关系＝{概念1，概念2，语义关系类型，频度}

(2)根据模型学习需求，设计模型学习输入界面，提供文档类型、文档标题、文档正文内容等模型学习输入接口；以手工输入或批量导入的方式，进行模型输入。记录学习日期，精确到分钟，记录文档编号，文档标题，文档内容等信息，以备存储及分析。

(3)模型的句型语法学习分为以下步骤：

步骤1：模型获取外部输入的文档信息后，抽取文档摘要、关键词、领域等信息，并存储到文档数据表中。

步骤2：对文档进行自然段切分，提取每个自然段的段落大意，按文档、自然段的一对多关系，存储到自然段数据表中。

步骤3：根据标点符号，使用正则表达式，对每个自然段进行句子划分，对每个句子进行简单句、复合句分类。对每个复合句，识别复合句类型、复合句模式特征词及组成复合句的每个分句，存储到复合句数据表中。

步骤4：对于自然段中的每个简单句及复合句中的每个分句，识别其句子类型，对每一个简单句及分句进行分词、词性标注，再根据分词和词性标注的结果对句子进行依存句法分析，别出句子中的主语、谓语等特征，并存储到简单句数据表中。

(4)儿童范畴图谱模型的概念词项与依存关系学习步骤如下：

步骤1：概念词项的获取和存储。根据(3)中步骤4的分词结果获取每一个词项ci，根据概念出现的频次赋予概念权重w，并在基本词项数据表中进行存在性检测，如果不存在，则把ci添加到基本词项数据表中，频度为w，如果存在，则相应的频度+w。

步骤2：根据(3)中步骤4的依存关系分析结果，获得概念ci、cj间的依存关系<ci,cj>对，在概念依存关系数据表中检查关系<ci,cj>的存在性，如果存在，则频度+1，否则把关系对<ci,cj>添加到概念依存关系数据表中，频度为1；图3(a)是概念及其依存关系示例，图3(b)是概念范畴化表征示例。

(5)儿童范畴图谱模型的概念语义关系学习步骤如下：

识别两个概念间的语义关系，并分别标记为分类关系、对立关系、同义关系、反义关系、顺义关系等五种基本关系和循环语义关系、同心语义关系、重合语义关系、叠交语义关系等四种扩展语义关系，在二元概念关系基础上，拓展生成多元复杂概念体系。

具体步骤如下：

步骤1：概念语义关系计算，结合依存句法分析、关键词共现识别句子中概念c_m、c_n二元概念关系<c_m,c_n>，如果概念语义关系数据表中存在关系<c_m,c_n>，则关系频度+1，否则把<c_m,c_n>添加到语义关系数据表中，频度为1，如图4所示；

步骤2：多元概念依存关系学习，从任一概念c_i开始，遍历概念依存关系数据表，采用深度优先按频度从高到底的顺序，依次计算与c_i存在依存关系的概念节点c_i1至c_ij，计算c_i与c_i1至c_ij频度总和，及其中的相同依存关系的频度总和。

步骤3：迭代重复步骤2，计算计算c_i与c_i1至c_ij依存的节点、频度、相同的依存关系，直至所有概念依存关系数据表中所有概念对遍历完成，形成儿童范畴图谱模型的概念语法体系，如图5所示。

(6)每次学习完成后，根据新的学习结果，重新计算词项权重、依存关系权重、语义关系权重，根据克鲁斯卡尔或普利姆算法，从权重关系由大到小，倒序生成儿童范畴图谱，实现儿童范畴图谱模型的迭代学习，调整模型的语义关系和语法关系，图5是以儿童为例的部分多元概念关系，概念体系与语法体系的结构关系如图6所示。

Claims

1.一种儿童范畴图谱模型的知识表征与计算方法，其特征在于，包括如下步骤：

(3)对输入的文档进行句法学习，对文档中的每个自然段进行语句切分，识别其句型、语法特征；

2.如权利要求1所述的儿童范畴图谱知识的表征与计算方法，其特征在于，步骤(2)中，模型输入为儿童日常交流对话和儿童课外读物。

3.如权利要求1所述的儿童范畴图谱知识的表征与计算方法，其特征在于，步骤(2)中，模型的每一次输入记为模型的一次文档学习，其数据模型记录为：文档＝{文档编号，文档标题，文档内容，学习时间}。

4.如权利要求1所述的儿童范畴图谱知识的表征与计算方法，其特征在于，步骤(3)中，对输入的文档进行学习，对文档中的自然段、语句、词项、概念进行识别处理具体包括如下步骤：

(31)根据模型输入文档，采用文档摘要技术对提取文档摘要，再切分为若干个自然段，对于每个自然段采用文档摘要技术提取每个自然段的段落大意，上述学习结果记录为：文档＝{文档编号，文档摘要，所属领域，当前时间}，自然段＝{文档编号，自然段编号，段落大意，段落正文}；

(32)每个自然段切分为若干句子，对于每个句子识别其句子类型，采用依存分析算法，提取句子核心概念及谓词，模型上述学习结果记录为：句子＝{自然段编号，句子编号，句子正文，句子类型，核心主语，核心谓语}。

5.如权利要求1所述的儿童范畴图谱的知识表征与计算方法，其特征在于，步骤(4)中，对概念词项与依存关系学习具体包括如下步骤包括：重复上述步骤(1)和步骤(2)，进行模型迭代学习，每次的学习结果独立存储，并进行词项、依存关系、词组组合权重的叠加具体为：每次的模型文档输入，都是在已有文档、句子、词项、词项依存关系学习结果的基础上，进行词项依存关系频度、词项频度的累计，并在此基础上统计儿童范畴图谱知识表征模型的常用句型、常用词语搭配，建立儿童范畴图谱知识表征模型的语法体系，根据词项的属性特征归纳抽象以词项为中心的概念：

(41)根据分词及词性标注的结果获取概念词项及词性，并根据词项出现的频次赋予权重，在进行存在性检验后，存入相应的词项数据表中；

(42)根据依存句法分析的结果获取概念与概念间的依存关系及频次，进行存在性检验后，存入相应的概念依存关系数据表中。

6.如权利要求1所述的儿童范畴图谱知识的表征与计算方法，其特征在于，步骤(5)中，对儿童范畴图谱模型的概念语义关系学习具体包括如下步骤：

(51)结合依存句法分析、关键词共现的结果，识别句子中概念之间的二元语义关系，获取二元概念关系对及其出现频次，存在性检验后，存入概念语义关系表中；

(52)在二元概念关系分析的基础上，继续识别与二元概念关系相关的概念，多次迭代生成多元概念关系，多次迭代，形成儿童范畴图谱模型的概念语法体系。