CN113392183A - 一种儿童范畴图谱知识的表征与计算方法 - Google Patents

一种儿童范畴图谱知识的表征与计算方法 Download PDF

Info

Publication number
CN113392183A
CN113392183A CN202110600106.5A CN202110600106A CN113392183A CN 113392183 A CN113392183 A CN 113392183A CN 202110600106 A CN202110600106 A CN 202110600106A CN 113392183 A CN113392183 A CN 113392183A
Authority
CN
China
Prior art keywords
concept
document
learning
model
sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110600106.5A
Other languages
English (en)
Inventor
徐朝军
周姝月
秦文艳
杨澜
宋青
江宇杰
方哲
计延霖
李艺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Normal University
Original Assignee
Nanjing Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Normal University filed Critical Nanjing Normal University
Priority to CN202110600106.5A priority Critical patent/CN113392183A/zh
Publication of CN113392183A publication Critical patent/CN113392183A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3335Syntactic pre-processing, e.g. stopword elimination, stemming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种儿童范畴图谱模型的知识表征与计算方法,包括如下步骤:按儿童范畴图谱模型要求建立图数据库作为存储工具;通过交互界面向模型输入学习文档,并记录学习日期;对输入的文档进行句法学习,对文档中的自然段进行语句切分和句型语法特征识别处理;对文档中每个句子进行分词、依存关系分析,进行词项概念及依存关系的学习;识别两个概念间的语义关系并分类,在二元概念关系基础上,拓展生成多元复杂概念体系;迭代学习,在每次文档输入学习存储的基础上,计算概念权重及概念语法关系及语义关系权重,迭代生成儿童范畴图谱。本发明将表征与计算分开,厘清了知识表征中概念与概念运用规则的界限,为多领域研究与应用提供新的思路。

Description

一种儿童范畴图谱知识的表征与计算方法
技术领域
本发明涉及人工智能自然语言处理技术领域,尤其是一种儿童范畴图谱知识的表征与计算方法。
背景技术
在人工智能领域,知识表征是研究知识在计算机中是如何存储的,是一个核心的概念,是人工智能的基础。知识表征的最终目的是要实现人的有效交流和人机互动,使得人与计算机的顺畅交流得以实现,最终推动人工智能的发展。人工智能参与的知识生产就是一种基于知识库和规则事实逻辑的“集体知识系统”,是包含搜集、处理、生成、匹配、推荐为一体的某种“实在的对象”的生产系统,这样一种形态的知识生产称为“知识计算”,其生产出的知识是一种“计算知识”。知识表征是人们研究智能体如何存储知识的一门学问。同时,表征也是计算的基础,作为认知心理学、认知哲学、人工智能的一个交叉领域,知识表征在认知哲学、人工智能领域受到各学者的广泛的关注,因此基于现有的知识表征方法,提出一种新的更优的知识表征方法尤为重要。
目前已有的知识表征方法包括一阶谓词逻辑表征、产生式知识表征、框架表征、语义网络表征和面向对象表征等方式。谓词逻辑适合表示事物的状态、属性、概念等事实性的知识,也可以用来表示事物间确定的因果关系,即规则;产生式又称为产生式规则表示法。通常用于表示具有因果关系的知识,其基本形式是“if P then Q”;框架表征是以框架理论为基础的一种结构化知识表示方法,是一种描述所论对象(一个事物、一个事件或一个概念)属性的数据结构;语义网络是通过概念及其语义关系来表达知识的一种网络图,是一种带标示的有向图;面向对象表示是采用面向对象的思想和方法来表示知识,其核心思想包括对象、类、封装和继承。
在人工智能领域,知识的搜集、处理、生成、匹配、推荐等过程,都蕴含着对知识的计算,在自然语言处理中,常有对语义相似度的计算,主要包括基于传统的统计学的方法,比如向量空间模型等和基于神经网络的方法,如DSSM(Deep Structured Semantic Model)模型或者预训练模型BERT(Bidirectional Encoder Representations fromTransformers)模型等。在实际应用中,根据不同的需求选取特定的计算方法或对已有的计算方法进行改进,如利用专利知识图谱来计算专利术语之间的相似度,从而来计算专利文本之间的相似度来判断专利是否侵权。
现有的知识表征方法和技术能够适用于不同的情况,目前最常见的是基于语义网络的表征方法,具体表征技术多用知识图谱的形式,具体细节和规范在各个领域有所不同。虽然这些表征方法各有所长,但都没有对表征和计算进行区分,因而在知识表征中没有离清概念与概念运用规则的界限。
发明内容
本发明所要解决的技术问题在于,提供一种儿童范畴图谱模型的知识表征与计算方法,将表征与计算分开,厘清了知识表征中概念语义内涵与概念运用规则的界限,为自然语言处理、知识计算、人类知识加工研究与应用提供新的思路。
为解决上述技术问题,本发明提供一种儿童范畴图谱知识的表征与计算方法,包括如下步骤:
(1)使用图数据库作为儿童范畴图谱模型的知识存储工具,并按儿童范畴图谱模型要求建立数据库;
(2)通过交互界面向模型输入学习文档,并记录学习日期,精确到分钟;
(3)对输入的文档进行句法学习,对文档中每个自然段中的进行语句切分,识别其句型、语法特征;
(4)词项、概念及关系学习,对文档中每个句子进行分词、依存关系分析学习;
(5)概念语义关系学习,识别两个概念间的语义关系并分类,在二元概念关系基础上,拓展生成多元复杂概念体系。
(6)迭代学习,在每次文档输入学习存储的基础上,计算概念权重及概念语法关系及语义关系权重,根据新的权重,生成儿童范畴图谱。
优选的,步骤(2)中,模型输入为儿童日常交流对话和儿童课外读物。
优选的,步骤(2)中,模型的每一次输入记为模型的一次文档学习,其数据模型记录为:文档={文档编号,文档标题,文档内容,学习时间}。
优选的,步骤(3)中,对输入的文档进行学习,对文档中的自然段、语句、词项、概念进行识别处理具体包括如下步骤:
A、根据模型输入文档,采用文档摘要技术对提取文档摘要,再切分为若干个自然段,对于每个自然段采用文档摘要技术提取每个自然段的段落大意,上述学习结果记录为:文档={文档编号,文档摘要,所属领域,当前时间},自然段={文档编号,自然段编号,段落大意,段落正文};
B、每个自然段切分为若干句子,对于每个句子识别其句子类型,采用依存分析算法,提取句子核心概念及谓词,模型上述学习结果记录为:句子={自然段编号,句子编号,句子正文,句子类型,核心主语,核心谓语};
优选的,步骤(4)中,对概念词项与依存关系学习具体包括如下步骤:
A、根据分词及词性标注的结果获取概念词项及词性,并根据词项出现的频次赋予权重,在进行存在性检验后,存入相应的词项数据表中;
B、根据依存句法分析的结果获取概念与概念间的依存关系及频次,进行存在性检验后,存入相应的概念依存关系数据表中。
优选的,步骤(5)中,对儿童范畴图谱模型的概念语义关系学习具体包括如下步骤:
A、结合依存句法分析、关键词共现的结果,识别句子中概念之间的二元语义关系,获取二元概念关系对及其出现频次,存在性检验后,存入概念语义关系表中;
B、在二元概念关系分析的基础上,继续识别与二元概念关系相关的概念,多次迭代生成多元概念关系,多次迭代,形成儿童范畴图谱模型的概念语法体系。
本发明的有益效果为:本发明将表征与计算分开,厘清了知识表征中概念与概念运用规则的界限,为自然语言处理、知识计算、人类知识加工研究与应用提供新的思路。
附图说明
图1为本发明的方法流程示意图。
图2为本发明的儿童范畴图谱模型的数据存储实体关系图。
图3(a)为本发明的概念实列示例示意图。
图3(b)为本发明的范畴表征示意图。
图4为本发明的部分多元概念关系示意图。
图5为本发明的概念体系、语法体系存储模型示意图。
图6为本发明的存储结构示意图。
具体实施方式
如图1所示,一种儿童范畴图谱模型的知识表征与计算方法的具体实施方式及过程如下所示:
(1)根据模型存储要求,选择Neo4J图数据库平台,建立儿童范畴图谱模型数据库。模型的数据存储采用结构化关系模型存储包括三个部分,一是模型输入存储,也就是儿童读物等原始学习材料的存储;二是模型学习计算过程中习得的概念和概念结构关系存储,三是儿童语言学习过程中,习得的短语、句子结构、句型等语法体系存储。这三部分数据的实体关系如图2所示,模型存储关系表达式如下:
文档={文档编号,文档标题,文档内容,关键词,文档摘要,所属领域,学习时间}自然段={文档编号,自然段编号,段落大意,段落正文}
简单句={简单句编号,句子,主语,谓语,句子类型}
复合句={复合句编号,句子,分句1,分句2,分句3,分句4,复合句类型}
复合句类型={复合句类型编号,复合句类型,复合句特征模式,频度}
词项={词项编号,词项,词性cn,词性en,频度}
概念依存关系:概念依存关系={概念1,概念2,依存关系类型,频度}
概念语义关系:概念语义关系={概念1,概念2,语义关系类型,频度}
(2)根据模型学习需求,设计模型学习输入界面,提供文档类型、文档标题、文档正文内容等模型学习输入接口;以手工输入或批量导入的方式,进行模型输入。记录学习日期,精确到分钟,记录文档编号,文档标题,文档内容等信息,以备存储及分析。
(3)模型的句型语法学习分为以下步骤:
步骤1:模型获取外部输入的文档信息后,抽取文档摘要、关键词、领域等信息,并存储到文档数据表中。
步骤2:对文档进行自然段切分,提取每个自然段的段落大意,按文档、自然段的一对多关系,存储到自然段数据表中。
步骤3:根据标点符号,使用正则表达式,对每个自然段进行句子划分,对每个句子进行简单句、复合句分类。对每个复合句,识别复合句类型、复合句模式特征词及组成复合句的每个分句,存储到复合句数据表中。
步骤4:对于自然段中的每个简单句及复合句中的每个分句,识别其句子类型,对每一个简单句及分句进行分词、词性标注,再根据分词和词性标注的结果对句子进行依存句法分析,别出句子中的主语、谓语等特征,并存储到简单句数据表中。
(4)儿童范畴图谱模型的概念词项与依存关系学习步骤如下:
步骤1:概念词项的获取和存储。根据(3)中步骤4的分词结果获取每一个词项ci,根据概念出现的频次赋予概念权重w,并在基本词项数据表中进行存在性检测,如果不存在,则把ci添加到基本词项数据表中,频度为w,如果存在,则相应的频度+w。
步骤2:根据(3)中步骤4的依存关系分析结果,获得概念ci、cj间的依存关系<ci,cj>对,在概念依存关系数据表中检查关系<ci,cj>的存在性,如果存在,则频度+1,否则把关系对<ci,cj>添加到概念依存关系数据表中,频度为1;图3(a)是概念及其依存关系示例,图3(b)是概念范畴化表征示例。
(5)儿童范畴图谱模型的概念语义关系学习步骤如下:
识别两个概念间的语义关系,并分别标记为分类关系、对立关系、同义关系、反义关系、顺义关系等五种基本关系和循环语义关系、同心语义关系、重合语义关系、叠交语义关系等四种扩展语义关系,在二元概念关系基础上,拓展生成多元复杂概念体系。
具体步骤如下:
步骤1:概念语义关系计算,结合依存句法分析、关键词共现识别句子中概念cm、cn二元概念关系<cm,cn>,如果概念语义关系数据表中存在关系<cm,cn>,则关系频度+1,否则把<cm,cn>添加到语义关系数据表中,频度为1,如图4所示;
步骤2:多元概念依存关系学习,从任一概念ci开始,遍历概念依存关系数据表,采用深度优先按频度从高到底的顺序,依次计算与ci存在依存关系的概念节点ci1至cij,计算ci与ci1至cij频度总和,及其中的相同依存关系的频度总和。
步骤3:迭代重复步骤2,计算计算ci与ci1至cij依存的节点、频度、相同的依存关系,直至所有概念依存关系数据表中所有概念对遍历完成,形成儿童范畴图谱模型的概念语法体系,如图5所示。
(6)每次学习完成后,根据新的学习结果,重新计算词项权重、依存关系权重、语义关系权重,根据克鲁斯卡尔或普利姆算法,从权重关系由大到小,倒序生成儿童范畴图谱,实现儿童范畴图谱模型的迭代学习,调整模型的语义关系和语法关系,图5是以儿童为例的部分多元概念关系,概念体系与语法体系的结构关系如图6所示。

Claims (6)

1.一种儿童范畴图谱模型的知识表征与计算方法,其特征在于,包括如下步骤:
(1)使用图数据库作为儿童范畴图谱模型的知识存储工具,并按儿童范畴图谱模型要求建立数据库;
(2)通过交互界面向模型输入学习文档,并记录学习日期,精确到分钟;
(3)对输入的文档进行句法学习,对文档中的每个自然段进行语句切分,识别其句型、语法特征;
(4)词项、概念及关系学习,对文档中每个句子进行分词、依存关系分析学习;
(5)概念语义关系学习,识别两个概念间的语义关系并分类,在二元概念关系基础上,拓展生成多元复杂概念体系。
(6)迭代学习,在每次文档输入学习存储的基础上,计算概念权重及概念语法关系及语义关系权重,根据新的权重,生成儿童范畴图谱。
2.如权利要求1所述的儿童范畴图谱知识的表征与计算方法,其特征在于,步骤(2)中,模型输入为儿童日常交流对话和儿童课外读物。
3.如权利要求1所述的儿童范畴图谱知识的表征与计算方法,其特征在于,步骤(2)中,模型的每一次输入记为模型的一次文档学习,其数据模型记录为:文档={文档编号,文档标题,文档内容,学习时间}。
4.如权利要求1所述的儿童范畴图谱知识的表征与计算方法,其特征在于,步骤(3)中,对输入的文档进行学习,对文档中的自然段、语句、词项、概念进行识别处理具体包括如下步骤:
(31)根据模型输入文档,采用文档摘要技术对提取文档摘要,再切分为若干个自然段,对于每个自然段采用文档摘要技术提取每个自然段的段落大意,上述学习结果记录为:文档={文档编号,文档摘要,所属领域,当前时间},自然段={文档编号,自然段编号,段落大意,段落正文};
(32)每个自然段切分为若干句子,对于每个句子识别其句子类型,采用依存分析算法,提取句子核心概念及谓词,模型上述学习结果记录为:句子={自然段编号,句子编号,句子正文,句子类型,核心主语,核心谓语}。
5.如权利要求1所述的儿童范畴图谱的知识表征与计算方法,其特征在于,步骤(4)中,对概念词项与依存关系学习具体包括如下步骤包括:重复上述步骤(1)和步骤(2),进行模型迭代学习,每次的学习结果独立存储,并进行词项、依存关系、词组组合权重的叠加具体为:每次的模型文档输入,都是在已有文档、句子、词项、词项依存关系学习结果的基础上,进行词项依存关系频度、词项频度的累计,并在此基础上统计儿童范畴图谱知识表征模型的常用句型、常用词语搭配,建立儿童范畴图谱知识表征模型的语法体系,根据词项的属性特征归纳抽象以词项为中心的概念:
(41)根据分词及词性标注的结果获取概念词项及词性,并根据词项出现的频次赋予权重,在进行存在性检验后,存入相应的词项数据表中;
(42)根据依存句法分析的结果获取概念与概念间的依存关系及频次,进行存在性检验后,存入相应的概念依存关系数据表中。
6.如权利要求1所述的儿童范畴图谱知识的表征与计算方法,其特征在于,步骤(5)中,对儿童范畴图谱模型的概念语义关系学习具体包括如下步骤:
(51)结合依存句法分析、关键词共现的结果,识别句子中概念之间的二元语义关系,获取二元概念关系对及其出现频次,存在性检验后,存入概念语义关系表中;
(52)在二元概念关系分析的基础上,继续识别与二元概念关系相关的概念,多次迭代生成多元概念关系,多次迭代,形成儿童范畴图谱模型的概念语法体系。
CN202110600106.5A 2021-05-31 2021-05-31 一种儿童范畴图谱知识的表征与计算方法 Pending CN113392183A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110600106.5A CN113392183A (zh) 2021-05-31 2021-05-31 一种儿童范畴图谱知识的表征与计算方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110600106.5A CN113392183A (zh) 2021-05-31 2021-05-31 一种儿童范畴图谱知识的表征与计算方法

Publications (1)

Publication Number Publication Date
CN113392183A true CN113392183A (zh) 2021-09-14

Family

ID=77619717

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110600106.5A Pending CN113392183A (zh) 2021-05-31 2021-05-31 一种儿童范畴图谱知识的表征与计算方法

Country Status (1)

Country Link
CN (1) CN113392183A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114519105A (zh) * 2021-12-24 2022-05-20 北京达佳互联信息技术有限公司 一种概念词语确定方法、装置、电子设备及存储介质
CN117852637A (zh) * 2024-03-07 2024-04-09 南京师范大学 一种基于定义的学科概念知识体系自动构建方法与系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111008530A (zh) * 2019-12-03 2020-04-14 中国石油大学(华东) 一种基于文档分词的复杂语义识别方法
CN111209412A (zh) * 2020-02-10 2020-05-29 同方知网(北京)技术有限公司 一种循环更新迭代的期刊文献知识图谱构建方法
CN111597351A (zh) * 2020-05-14 2020-08-28 上海德拓信息技术股份有限公司 可视化文档图谱构建方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111008530A (zh) * 2019-12-03 2020-04-14 中国石油大学(华东) 一种基于文档分词的复杂语义识别方法
CN111209412A (zh) * 2020-02-10 2020-05-29 同方知网(北京)技术有限公司 一种循环更新迭代的期刊文献知识图谱构建方法
CN111597351A (zh) * 2020-05-14 2020-08-28 上海德拓信息技术股份有限公司 可视化文档图谱构建方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114519105A (zh) * 2021-12-24 2022-05-20 北京达佳互联信息技术有限公司 一种概念词语确定方法、装置、电子设备及存储介质
CN117852637A (zh) * 2024-03-07 2024-04-09 南京师范大学 一种基于定义的学科概念知识体系自动构建方法与系统
CN117852637B (zh) * 2024-03-07 2024-05-24 南京师范大学 一种基于定义的学科概念知识体系自动构建方法与系统

Similar Documents

Publication Publication Date Title
CN110399457B (zh) 一种智能问答方法和系统
CN108121829B (zh) 面向软件缺陷的领域知识图谱自动化构建方法
CN110298033B (zh) 关键词语料标注训练提取系统
CN106649260B (zh) 基于评论文本挖掘的产品特征结构树构建方法
CN111931506B (zh) 一种基于图信息增强的实体关系抽取方法
CN106886580B (zh) 一种基于深度学习的图片情感极性分析方法
Zubrinic et al. The automatic creation of concept maps from documents written using morphologically rich languages
CN111325029B (zh) 一种基于深度学习集成模型的文本相似度计算方法
CN110188147B (zh) 基于知识图谱的文献实体关系发现方法及系统
WO2015043075A1 (zh) 面向微博的情感实体搜索系统
CN110609983B (zh) 一种政策文件结构化分解方法
CN110781315A (zh) 一种食品安全知识图谱及相关智能问答系统的构建方法
CN111061882A (zh) 一种知识图谱构建方法
CN113168499A (zh) 检索专利文档的方法
CN112541337B (zh) 一种基于递归神经网络语言模型的文档模板自动生成方法及系统
CN110750648A (zh) 一种基于深度学习和特征融合的文本情感分类方法
CN113196277A (zh) 用于检索自然语言文档的系统
CN111625622B (zh) 领域本体构建方法、装置、电子设备及存储介质
CN115080694A (zh) 一种基于知识图谱的电力行业信息分析方法及设备
CN113196278A (zh) 训练自然语言检索系统的方法、检索系统以及对应的用途
CN113392183A (zh) 一种儿童范畴图谱知识的表征与计算方法
Al-Rajebah et al. Extracting ontologies from Arabic Wikipedia: A linguistic approach
CN114265935A (zh) 一种基于文本挖掘的科技项目立项管理辅助决策方法及系统
CN113312922A (zh) 一种改进的篇章级三元组信息抽取方法
CN114238653A (zh) 一种编程教育知识图谱构建、补全与智能问答的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination