CN114528846A - 一种用于人工智能的概念网络及其生成方法 - Google Patents
一种用于人工智能的概念网络及其生成方法 Download PDFInfo
- Publication number
- CN114528846A CN114528846A CN202210154638.5A CN202210154638A CN114528846A CN 114528846 A CN114528846 A CN 114528846A CN 202210154638 A CN202210154638 A CN 202210154638A CN 114528846 A CN114528846 A CN 114528846A
- Authority
- CN
- China
- Prior art keywords
- concept
- concepts
- word
- attribute
- field
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3335—Syntactic pre-processing, e.g. stopword elimination, stemming
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/186—Templates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
Abstract
本发明涉及人工智能领域,具体提供了一种用于人工智能的概念网络及其生成方法。一种用于人工智能的概念网络,定义事物概念及概念间语义关系的系统,包括概念和概念连接,一个概念可以跟多个概念形成一种或多种的语义关系,同时概念间的语义关系可以是多层的。本文讲述了概念网络的定义:概念及概念连接,并且从五个方面提出了建设方法。与此同时,为人机自然语言交互、机器协同编程等应用提供了技术基础。
Description
技术领域
本发明涉及人工智能领域,具体提供了一种用于人工智能的概念网络及其生成方法。
背景技术
第三次人工智能AI热潮来袭,AI在语音识别、机器视觉、数据挖掘等多个领域走进了业界的真实应用场景。作为其中重要的发展方向之一,自然语言处理技术也得到迅猛发展和应用。如何让机器理解自然语言是人工智能中最为困难的问题之一。
概念网络的理论基础最早要追溯到1973年美国人工智能专家R.C.尚克提出的概念从属论。概念从属论(简称CD理论)是自然语言自动处理中的一种理论。尚克认为,人脑中存在着某种概念基础,语言理解的过程就是把语句映射到概念基础之中去的过程。
发明内容
为了解决以上问题,本发明提供了一种用于人工智能的概念网络。
一种用于人工智能的概念网络,定义事物概念及概念间语义关系的系统,包括概念和概念连接,一个概念可以跟多个概念形成一种或多种的语义关系,同时概念间的语义关系可以是多层的。
(1)概念网络的定义:概念及概念连接。
概念都有一个唯一的编号ID。概念ID可以是任何一种形式,例如字符串、数字、词向量等。概念分为三类:词概念(WORD),无词概念(NON_WORD),未知概念(UNKNOWN)。
词概念包含一般词概念、带有关系成分的词概念、组合词概念、词集合概念。词概念的特点是存在自然语言词与此概念直接相对应,同时也存在实现该概念定义DEF的转换器。
无词概念包含不带本体概念的无词概念、带有本体概念的无词概念。无词概念的特点是不存在自然语言词与此概念直接相对应,但通常存在概念识别器,使得自然语言词能与概念之间间接相对应。
未知概念包含未知词概念、未知词集合概念。未知概念的特点是无法为该概念生成概念定义DEF,在自然语言处理过程中将被忽略。
概念连接即概念间的语义关系链,用来描述概念间的多层语义关系。其特点是:
a/一个概念可以跟多个概念形成一种或多种的语义关系,同时概念间的语义关系可以是多层的。当然并不是所有的概念相互之间都能形成语义关系。
b/有些概念连接并非固有的、或者在概念网络建设时并没有生成,而是在自然语言的理解过程中逐步形成这些连接。
c/存在特征。这些特征表示概念连接中反映关系的肯定、否定、可能、范围、概率、程度、频率、时间、语气等。
另外,本发明还提供了概念网络的生成方法。
概念网络的生成方法:可通过基础定义、生成、扩展定义以及动态形成等几个方面来实现。
基础定义定义基础的概念及概念连接。在实现的技术手段上主要选用XML、JSO格式的配置文件来定义这些概念及概念连接,然后再通过对这些配置文件解析生成概念及概念连接。
生成方法将数据结构、程序设计语言、语义网络/词典/知识库等转换生成为概念及概念连接。实现该转换生成的主程序,即为概念生成引擎。
数据结构
A.包含行列形式、键值对形式两种。行列形式常使用Excel、关系型数据库等来表示和存储,表现为二维形式的数据,有行有列,有预定义的数据模型。键值对形式常使用非关系型数据库存储数据,它不需要预定义结构。
B.生成方法过程:
①概念生成引擎将每个表分别作为一个概念,该表的表名、或指代该表的词作为该概念的词。同时,基础定义的概念ID=object与由这些表生成的概念构成SPECIES种属关系。
②引擎将表每个字段分别作为一个概念,该字段的字段名、或指代该字段的词作为该概念的词。同时,所属表生成的概念与由这些字段生成的概念构成ATTRIBUTE属性关系。
③引擎可将每个字段类型分别作为一个概念。这些概念通常都是无词概念,通过各自的概念识别器来识别词是否为与之匹配的概念。同时,具有对应字段类型的字段所生成的概念与由这些字段类型生成的概念构成VALUE值关系。
④当然,对于一些字段它们的值带有一定的约束性或特殊性,例如字典数据,可以自定义无词概念。
⑤另外,有些字段与其它表构成的外键关系,那么由这些字段类型生成的概念与其关联的主表所生成的概念构成VALUE值关系。
C.通过对象数据管理技术实现。对象数据管理技术使用XML格式的对象模板文件来定义对象结构,并与数据库表建立映射关系。概念生成引擎可根据对象模板XML生成概念及概念连接。生成方法过程:
①概念生成引擎可将每个对象模板(或称对象)分别作为一个概念,该对象的名称、或指代该对象的词作为该概念的词。同时,基础定义的概念ID=object与由这些对象生成的概念构成SPECIES种属关系。
②引擎可将模板定义的每个属性分别作为一个概念,该属性的字段名、或指代该属性的词作为该概念的词。同时,所属对象生成的概念与由这些属性生成的概念构成ATTRIBUTE属性关系。
③引擎可将每个属性数据类型分别作为一个概念。这些概念通常都是无词概念,通过各自的概念识别器来识别词是否为与之匹配的概念。同时,具有对应数据类型的属性所生成的概念与由这些属性类型生成的概念构成VALUE值关系。当然也可以通过配置对属性值自定义概念。针对对象类型的属性,该属性与类型中指定的对象关联,构成VALUE值关系。针对复合类型的属性,该属性与类型中指定的成员(子属性)构成PART部件关系。针对结构类型的属性,该属性与类型中指定的成员(子属性)构成ATTRIBUTE属性关系。
程序设计语言
A.程序设计语言的实质是语法规则,概念生成引擎的生成方法就在于对语法规则进行分析并转换生成概念及概念连接。
B.格式化脚本语言GScript也是一种程序设计语言。GScript语言也有语法分析器,可以将代码转换成语法树,同时也可以将语法树转成代码。GScript语言还有一个很重要的特点,就是它可以调用不同的指令函数库解析或编译执行代码生成其它程序设计语言。GScript语言现版本已支持生成以下这些程序设计语言:java、javascript、html、css、xml、json、text。概念生成引擎根据GScript语法规则、Java语法规则以及目标程序语言的语法规则来生成概念及概念连接。生成方法过程:
①GScript语言语法由指令函数、操作符与运算函数三部分组成。概念生成引擎优选配置方式为GScript语言语法的指令函数、操作符与运算函数定义一系列概念以及概念连接。配置方法可以使用与基础定义相一致的技术手段。
②Java语言语法包含类、属性、方法、数据类型、枚举、注解等。概念生成引擎优选配置与Java注解来配置与定义概念及概念连接。配置方法可以使用与基础定义相一致的技术手段。而Java注解则是使用了Java的语言特性,使得概念及概念连接的定义在代码开发过程中即可进行。
I概念生成引擎可将每个类分别作为一个概念,该类的类名、或指代该类的词作为该概念的词。允许多个类指向同一个概念,例如接口与它的实现类通常会表示同一个概念。同时,基础定义的概念ID=object与由这些类生成的概念构成SPECIES种属关系。
II Java枚举虽然本身也是类但须不同处理,其须定义两个概念。其中一个概念是带有本体概念的无词概念且是另一个概念的值,而另一个概念却是那个无词概念的本体概念。
III引擎针对类的每个字段(field)的引用情况不同进行分别处理:
i如果字段field被配置或注解定义了概念,则此类的概念与该字段的概念构成ATTRIBUTE属性关系;
ii如果字段field的数据类型指向某个类(或Java枚举),而且该类的组件类型(Component Type)是已经被定义概念的类,则此类的概念与该字段数据类型的概念构成ATTRIBUTE属性关系;
iii否则,引擎则为该字段定义一个概念,该字段的字段名、或指代该字段的词作为该概念的词,然后此类的概念与字段所生成的概念构成ATTRIBUTE属性关系。
IV引擎针对不同数据类型也需要进行分别处理:
①类:基本的数据类型及所对应的一些对象类型。例如图35。
②类:集合类型,主要包括数组、实现java.lang.Collection的类。例如图36。
③类:其它类型,含java.lang.Object、java.lang.Class、枚举等。例如图37。
V引擎定义类字段(field):如果字段没有被配置或注解定义了概念连接,那么:
i如果字段为固定常量时定义一个概念,常量值、或指代该常量值的词作为该概念的词,然后字段的概念与该生成的概念构成VALUE值关系。
ii如果字段的概念ID与它数据类型的概念ID不一致时两者之间构成VALUE值关系。
VI引擎定义类的方法(method):如果方法没有被配置或注解定义了概念及概念连接,那么:
i如果方法名符合JavaBean的规范(即getter和setter方法),那无需定义。因为基础定义中常定义概念ID=get、ID=set与概念ID=object构成SV主谓关系。
ii否则,定义一个概念,该方法名、或指代该方法的词作为该概念的词,然后此类的概念与该生成的概念构成SV主谓关系。
VII引擎定义类的继承(extends):如果父类与子类概念ID不一致时,父类的概念与子类的概念之间构成SPECIES种属关系。
③目标程序语言的概念及概念连接的生成与GScript“指令函数-扩展指令”相对应章节一致。
语义网络/词典/知识库
概念网络也是一种语义网络,因此在技术上是可以实现与现有主流的语义网络/词典/知识库相互转换。
扩展定义进一步扩展定义概念及概念连接。在实现的技术手段上可以选用与基础定义一样的技术手段。
动态形成概念及概念连接。例如在自然语言理解过程中动态为概念之间形成连接,或者人为操作为概念添加词、增加概念连接等。
词向量的使用。与概念直接或间接对应的词可以使用词向量替代。概念ID可以直接使用词向量。
最后,本发明提供了概念网络在人工智能语言理解与生成中的应用。
本文的概念网络在实现原则与范畴定义上与CD理论有着根本不同。本文讲述了概念网络的定义:概念及概念连接,并且从五个方面提出了建设方法。与此同时,为人机自然语言交互、机器协同编程等应用提供了技术基础。
附图说明
图1概念组成部分
图2概念间的语义关系示意图
图3概念网络建设方法
图4概念配置文件concepts/base1.json
图5概念配置文件concepts/action1.json
图6概念连接配置文件connectivities/base1.json
图7概念连接配置文件connectivities/action1.json
图8数据结构转换生成概念及概念连接方法
图9对象模板文件department.xml
图10复合类型COMPLEX示例:属性(字段)价格price定义
图11结构类型STRUCTURE示例:属性(字段)授权功能functions定义
图12概念生成引擎根据对象模板XML生成概念及概念连接
图13复合类型
COMPLEX/结构类型STRUCTURE示例:与类型中指定的成员(子属性)构成PART或ATTRIBUTE属性关系
图14根据对象模板文件department.xml生成的概念及概念连接
图15概念生成引擎对程序设计语言的语法规则分析并转换生成概念及概念连接
图16java、javascript、html、css、xml、json、text程序设计语言配合相应的语法分析器经过GScript语法分析器可以直接转换为GScript语言,同时GScript语言有语法分析器,可以将代码转换成语法树,也可以将语法树转成代码
图17概念生成引擎根据GScript语法规则、Java语法规则以及目标程序语言的语法规则来生成概念及概念连接
图18将GScript指令函数基本指令转换生成的概念及概念连接
图19将GScript指令函数扩展指令TEXT转换生成的概念及概念连接
图20将GScript指令函数扩展指令JSON转换生成的概念及概念连接
图21将GScript指令函数扩展指令XML转换生成的概念及概念连接
图22将GScript指令函数扩展指令HTML转换生成的概念及概念连接
图23将GScript指令函数扩展指令CSS转换生成的概念及概念连接
图24将GScript指令函数扩展指令JS转换生成的概念及概念连接
图25将GScript操作符转换生成的概念及概念连接
图26将GScript运算函数转换生成的概念及概念连接
图27使用包名索引表的概念配置concepts/c.o.g.p.c.i.ActionContext.json
图28使用包名索引表的概念连接配置connectivities/c.o.g.p.c.i.ActionContext.json
图29使用Java注解概念配置com.onegrid.grid.platform.nlp4.impl.conceptnetwork.annotation.ClassConcept
图30使用Java注解概念连接配置
com.onegrid.grid.platform.nlp4.impl.conceptnetwork.annotation.ClassConceptConnectivity
图31Java类的概念ID小技巧:使用包名索引表来缩减概念ID的长度
图32将Java枚举转换生成的概念及概念连接示例
图33将Java类成员对象类型的字段field转换生成的概念连接示例
图34将Java类成员字段转换生成的概念连接示例
图35将Java基本数据类型及所对应的一些对象类型转换生成的概念示例
图36将Java常用集合类型转换生成的概念示例
图37将Java其它类转换生成的概念示例
图38执行GScript Js(Javascript)代码生成Javascript代码示例
图39默认的GScript配置
图40将JavaScript程序设计语言转换生成的概念及概念连接示例
具体实施方式
下面结合附图对本发明的实施例进行进一步详细说明:
概念网络(Concept Network)是定义事物概念及概念间语义关系的系统,其本质上是一种语义网络,它为本文所述的自然语言理解与生成提供语义基础。下述文中的“自然语言词”(或“词”)泛指自然语言的字(符)、词、短语(词组)。
1.1.定义
概念网络包含两个部分,一是概念,二是概念连接。
1.1.1.概念
概念都有一个唯一的编号ID,以标识概念网络中概念的唯一性。概念ID可以是任何一种形式,例如字符串、数字、词向量等。概念分为三类:词概念(WORD),无词概念(NON_WORD),未知概念(UNKNOWN)。概念分类如图1。
1.1.1.1.词概念
表示存在自然语言词与此概念直接相对应,同时也存在实现该概念定义DEF的转换器。此概念也称为直接概念。
概念定义DEF是指概念的具体定义或实现,也可称为概念实例。它不同于知网HowNet所述知识词典中的DEF,两者不应混淆。
一个自然语言词可以与一个或多个概念相对应。有些词存在多个词性,因此也可以设定特定词性的词与一个或多个概念相对应。
√例如概念ID=unit,其可有词“单位”与之对应。语句“数量的单位是?”,“单位”即为该概念。
上述示例中的词概念不带有任何关系成分,称为一般词概念。
词概念还包括:
◆带有关系成分的词概念
这类概念带有关系成分,即词的两侧或一侧作为该概念的关系成分。
√例如概念ID=selt,可有带有成分的词“{0}或者{1}”,语句“苹果或者西瓜”,“或者”的两侧“苹果”、“西瓜”为该概念的关系成分,表示选择;
同时通过关系成分可以间接实现自然语言中所要表达的语义关系。示例如下:
◆组合词概念
这类概念是由多个词联合组成的,至少这些词之间的是该概念的关系成分。
√例如概念ID=eban,可有组合词“宁可{1}也不{2}”,语句“我宁可累死也不劳烦你”,“宁可”的右侧与“也不”的右侧都为该概念的关系成分,表示取舍或选取,先取后舍、先舍后取。
◆词集合概念
这类概念,表示有多个词、或者带有成分的词、或者组合词与该概念相对应。
√例如概念ID=caru,其可有"因为{1}所以{2}"、"之所以{2}是因为{1}"、"既然{1}就{2}"、"因{1}"、"因为{1}"、"由于{1}"、"为{1}"、"为了{1}"、"为着{1}"、"因此{2}"、"以致{2}"、"所以{2}"、"之所以{2}"、"为了{1}起见"、"以便{1}"等词相对应,表示因果,前提出原因、目的,后说明结果;例如概念ID=create,其可有"定义"、"创建"、"新建"、"建立"、"构建"、"搭建"、"构造"、"初始"、"建造"、"建"、"造"等词相对应,表示创建动作。
1.1.1.2.无词概念
表示不存在自然语言词与此概念直接相对应,但通常存在概念识别器,使得自然语言词能与概念之间间接相对应。此概念也称为间接概念。
√例如概念ID=@time,用于指时间、日期,例如词“20150712”、“明天”、“前些天”、“某一天”。需要借助概念识别器来识别词是否为时间概念。
有些无词概念表达了某一类概念,这一类概念就称为本体概念。因此无词概念分为不带本体概念的无词概念与带有本体概念的无词概念。例如:
◆带有本体概念的无词概念
这类概念,通常用于描述一类概念的词,它有具体词概念与之相对应。
√例如概念ID=*action,用于描述概念关系角色——动作,该概念本体概念是词概念ID=&action,词概念ID=&action对应词则可以是“动作”、“行为”、“操作”;例如概念ID=*attribute,用于描述概念关系角色——属性,该概念本体概念是词概念ID=&attribute,词概念ID=&attribute对应词则可以是“属性”;例如概念ID=*part,用于描述概念关系角色——部件,该概念本体概念是词概念ID=&part,词概念ID=&part对应词则可以是“部件”;例如概念ID=*value,用于描述概念关系角色——值,该概念本体概念是词概念ID=&value,词概念ID=&value对应词则可以是“值”;例如概念ID=@string,用于描述字符串一类的词,该概念本体概念是词概念ID=string,词概念ID=string对应词则可以是“字符串”;例如概念ID=@number,用于描述数字一类的词,该概念本体概念是词概念ID=number,词概念ID=number对应词则可以是“数字”;例如概念ID=@time,用于描述时间一类的词,该概念本体概念是词概念ID=time,词概念ID=time对应词则可以是“时间”、“日期”。
1.1.1.3.未知概念UNKNOWN
表示无法为该概念生成概念定义DEF,在自然语言处理过程中将被忽略。
这类未知概念还包括:
◆未知词概念
这类概念有单个自然语言词与之相对应。
◆未知词集合概念
这类概念存在多个自然语言词与之相对应。
1.1.2.概念连接
1.1.2.1.基本
即概念间的语义关系链,用来描述概念间的多层语义关系。例如以下几种语义关系:
■种属(SPECIES)
类属-属种的关系,也包含上下位关系。特定性较强的词叫做概括性较强的词的下位词,概括性较强的词叫做特定性较强的词的上位词。动作之间也存在此关系。
√例如事物thing——事件event|物体object;例如对象object——新闻news|用户user|部门department;例如红色red——猩红色vermilion|胭脂红carmine|绯红色crimson。
■部件(PART)
整体-部件的关系。
√例如数量quantity——数字number|单位unit;例如时间time——年year|月month|日day|时hour|分minute|秒second|毫秒millisecond;例如人human——头head|身体body。
■属性(ATTRIBUTE)
宿主-属性、宿主-领属、宿主-特征、材料-成品等的关系。宿主也包含动作。
√例如变量var——名称name|值value;例如新闻news——标题title|正文content|附件attachments|作者author;例如人品personality——好坏goodbad;例如格式化format——模式pattern。
■值(VALUE)
属性-值、实体-值的关系。
√例如数量quantity——@quantity;例如标题title——@string;例如颜色color——@color。
■主谓(SV)
动作来源-动作的关系。
√例如我me——创建create|修改modify|删除delete|查询query|发布publish;例如@number——加add|减sub。
■谓宾(VO)
动作-动作目标的关系。
√例如创建create——变量var;例如发布publish——新闻news。
■相关(R)
相关关系,其有同义、反义、下义、不相容、有关五类子关系。其中,下义指一个概念的语义在另一个概念的语义之中,不相容为从一个概念的语义中排除另一个概念的语义,有关指两个概念有关联但不清楚两者之间具体的关系。
√例如冷cold——热hot;例如好good——坏bad。
一个概念可以跟多个概念形成固有的一种或多种的语义关系,同时概念间的语义关系可以是多层的,示例如图2。
1.1.2.2.动态形成
一个概念可以跟多个概念在自然语言的理解过程中可以逐步形成新的概念连接。
√例如语句“我有个一个包”表达了我me跟包bag之间形成了ATTRIBUTE(属性宿主与领属)的连接,然而在表述该语句之前我me跟包bag之间可能还没有形成这种连接
1.1.2.3.特征
表示概念连接中反映关系的肯定、否定、可能、范围、概率、程度、频率、时间、语气等。
√例如语句“我没有包”表达了我me跟包bag之间形成了ATTRIBUTE(属性宿主与领属)的连接,但此连接的特征是否定;例如语句“我可能没有包”其表达的连接特征除了否定外还有可能;例如语句“我百分之80可能没有包”其表达的连接特征除了否定、可能外还有概率。
1.2.建设方法
概念网络的建设可通过基础定义、生成、扩展定义以及动态形成等几个方面来实现,如图3。
1.2.1.基础定义
定义基础的概念及概念连接。在实现的技术手段上主要选用XML、JSON格式的配置文件来定义这些概念及概念连接,然后再通过对这些配置文件解析生成概念及概念连接。但也不排除使用其它格式的配置文件来实现。
√例如概念配置文件concepts/base1.json见图4、concepts/action1.json见图5,概念连接配置文件connectivities/base1.json见图6、connectivities/action1.json见图7。
1.2.2.生成
将数据结构、程序设计语言、语义网络/词典/知识库等转换生成为概念及概念连接。实现该转换生成的主程序,即为概念生成引擎。
1.2.2.1.数据结构
■结构化数据
结构化数据,行列形式,是指可以使用Excel、关系型数据库等来表示和存储,表现为二维形式的数据,有行有列,有预定义的数据模型。在结构化数据存储定义过程中,使用表来表示处理数据和建立Excel、关系型数据库及应用程序等的基本单元。表的“列”常称为“字段”。每个字段由若干按照某种界限划分的相同数据类型的数据项组成。就像“通讯录”数据库中,“姓名”、“联系电话”等这些都是表中所有行共有的属性,所以把这些列称为“姓名”字段和“联系电话”字段。而存放在表行列交叉处的数据叫做“值”,它是最基本的存储单元。字段类型定义了可存储值的数据类型。
√例如Excel字段类型(在单元格格式中定义)有:数值、货币、日期、时间、文本等;例如Microsoft Access字段类型有:Text、Byte、Integer、Long、Single、Double、Date/Time等;例如MySQL字段类型有:CHAR、VARCHAR、TINYTEXT、TEXT、MEDIUMTEXT、INT、BIGINT、FLOAT、DOUBLE、DATE、DATETIME等;
在关系型数据库,对于一个表定义了一个主键,则表示可以为通过该键唯一地表示表中每一记录。外键则表示了两个关系之间的联系。以另一个关系的外键作主关键字的表被称为主表,具有此外键的表被称为主表的从表。
●关系模型指的是二维表格模型,而一个关系型数据库就是由二维表及其之间的联系所组成的一个数据组织。关系模型中常用的概念:关系——可理解为一张二维表,每个关系都具有一个关系名,即表名;元组——可理解为二维表中的一行,在数据库中常被称为记录;属性——可理解为二维表中的一列,在数据库中常被称为字段;域——属性的取值范围,即数据库中某一列的取值限制;关键字——一组唯一标识元组的属性,数据库中常称为主键,由一个或多个列组成;关系模式——指对关系的描述,其格式为:关系名(属性1,属性2,......,属性N),在数据库中成为表结构;
■非关系型数据库
非关系型数据库,键值对形式,也是一种数据结构化存储方法的集合。它不需要预定义结构,以键值对形式存储数据,因此很容易适应数据类型和结构的变化。常用的非关系型数据库主要有:
√BigTable——BigTable是一个键值映射,但沿用了很多关系型数据库的术语,像表、行、列等;
√HBase——HBase以表的形式存储数据。表有行和列组成。列划分为若干个列族。列族是列的集合,一个列族中包含多
个列。Row Key是行键,每一行的ID,这个字段是自动创建的。表中每个列都归属于某个列族。列族是表chema的一部分,必须在使用表之前定义。列名都以列族作为前缀。HBase中通过row和columns确定的为一个存贮单元称为cell。每个cell都保存着同一份数据的多个版本。版本通过64位整型的时间戳来索引。cell中的数据是没有类型的,全部是字节码形式存贮。
√MongoDB——文档是MongoDB中数据的基本单元,类似关系型数据库中的行。文档以键值对方式,其值可以是字符串、整数、数组以及文档等类型,文档的键是用双引号标识的字符串,相当于列名。集合在MongoDB中是一组文档,类似关系型数据库中的数据表。集合是由唯一的命名来标识。不同键值对形式的文档可以在同一个集合中存储。MongoDB中多个文档构成集合,多个集合构成数据库。
1.2.2.1.1.生成方法
概念生成引擎将每个表分别作为一个概念,该表的表名、或指代该表的词作为该概念的词。
√例如表user,生成概念ID=user,可有词“user”、“用户”等;例如表news,生成概念ID=news,可有词“news”、“新闻”、“资讯”等。
同时,基础定义的概念ID=object与由这些表生成的概念构成SPECIES种属关系。
√例如概念ID=object与上述例子中的概念ID=user、ID=news构成SPECIES种属关系。
引擎将表每个字段分别作为一个概念,该字段的字段名、或指代该字段的词作为该概念的词。
√例如表user的字段name,生成概念ID=user.name,可有词“name”、“名称”、“名字”、“名”、“姓名”等;表user的字段sex,生成概念ID=user.sex,可有词“sex”、“性别”等;例如表news的字段title,生成概念ID=news.title,可有词“title”、“标题”、“正标题”等;表news的字段creator,生成概念ID=news.creator,可有词“creator”、“创建者”等;
同时,所属表生成的概念与由这些字段生成的概念构成ATTRIBUTE属性关系。
√例如上述例子中的概念ID=user与概念ID=user.name、ID=user.sex构成ATTRIBUTE属性关系;例如上述例子中的概念ID=news与概念ID=news.title构成ATTRIBUTE属性关系;
引擎可将每个字段类型分别作为一个概念。这些概念通常都是无词概念,通过各自的概念识别器来识别词是否为与之匹配的概念。
√例如文本字段类型,生成带有本体概念的无词概念ID=@string,本体概念为ID=string;例如数字字段类型,生成带有本体概念的无词概念ID=@number,本体概念为ID=number;例如时间日期字段类型,生成带有本体概念的无词概念ID=@time,本体概念为ID=time;
同时,具有对应字段类型的字段所生成的概念与由这些字段类型生成的概念构成VALUE值关系。
√例如表user的字段name、表news的字段title类型都为文本字段类型,则概念ID=user.name、ID=news.title与概念ID=@string构成VALUE值关系;
当然,对于一些字段它们的值带有一定的约束性或特殊性,例如字典数据,可以自定义无词概念。
√例如表user的字段sex,其值是字典数据:男、女,自定义无词概念ID=@sex,可以自定义该概念的概念识别器识别“男”、“女”、“男性”、“女性”等词。同时概念ID=user.name与概念ID=@sex构成VALUE值关系;
另外,有些字段与其它表构成的外键关系,那么由这些字段类型生成的概念与其关联的主表所生成的概念构成VALUE值关系。
√例如表news的字段创建者creator,其与表user构成外键关系,那么概念ID=news.creator与概念ID=user构成VALUE值关系;
1.2.2.1.2.对象数据管理技术
现有主流的对象关系映射框架,例如Hibernate,为面向对象的领域模型到传统关系型数据库的映射提供了一个使用方便的框架。这样的框架根据上述的生成方法将非常容易扩展实现概念生成引擎。
本节讲述的对象数据管理技术也是一种Java语言下的对象关系映射框架,它对JDBC进行了非常轻量级的对象封装。它把表看作对象,把表的字段看作对象的属性,通过值类型来表达属性部件、表之间的主外键以及主表-子表等关系。它使用XML格式的对象模板文件来定义对象结构,并与数据库表建立映射关系。
√常用的非关系型数据库如HBase、MongoDB已实现了JDBC驱动,使用JDBC就可访问这些数据库。该技术对这些非关系型数据库访问API进行了对象封装,同时针对MongoDB进行了归一化处理,即集合里的文档、内嵌文档使用一致的键值对形式;
对象模板文件支持中文、英文等多语言。它定义了指代该表的词,定义了属性字段名、指代该属性的词,也定义了属性的数据类型。对象模板文件可以在运行时动态被管理,例如用户可以通过数据管理界面新定义对象模板、创建或修改属性等。
√例如对象模板文件department.xml如图9。
对象数据管理技术中定义的数据类型分为简单类型SIMPLE、复合类型COMPLEX、结构类型STRUCTURE三种。
■简单类型SIMPLE
包含有字符串型string、整型integer、短整型short、双浮点数double、单浮点数float、长整型long、布尔型boolean、文本htext:string、HTML文本htext:html、BBCode文本htext:bbcode、XML文本htext:xml、JSON文本htext:json、日期型htime:date、时间型htime:timestamp、对象模板类型thing:base、整型编号类型hidentity:integer、长整型编号类型hidentity:long、字符串编号类型hidentity:string、对象类型等。其中,对象类型表示被定义的属性(字段)与当前表或其它表形成外键关系。
√例如上述对象模板文件department.xml中属性上级parent为对象类型,指向当前对象表。
■复合类型COMPLEX
该类型表示某个属性是由多个子属性组成,例如价格可由数值和单位组成。也就是说,属性与子属性之间构成了PART部件关系。
√MongoDB可以使用内嵌文档类型实现;
√例如图10中的属性(字段)价格price定义,表示价格由数值和单位组成;
■结构类型STRUCTURE
该类型表示某个属性存在多行记录,即主表-子表的关系。例如一个角色拥有多个授权的功能,那么这个授权功能functions是角色role的一个属性,且为结构类型。这类属性也由多个子属性组成,属性与子属性之间也构成ATTRIBUTE属性关系。
√MongoDB可以使用数组类型以及其元素为内嵌文档类型实现,表现为文档-内嵌文档的关系;
√例如图11中的属性(字段)授权功能functions定义
对象数据管理技术不仅实现了对象/属性定义与数据库表的映射(还包括对象属性数据类型与SQL/NoSQL数据库数据类型的映射),还提供了面向对象的数据查询/管理机制,使得Java程序员可以随心所欲的使用对象编程思维来操纵数据库。
概念生成引擎可根据对象模板XML生成概念及概念连接,如图12。
概念生成引擎可将每个对象模板(或称对象)分别作为一个概念,该对象的名称、或指代该对象的词作为该概念的词。同时,基础定义的概念ID=object与由这些对象生成的概念构成SPECIES种属关系。
引擎可将模板定义的每个属性分别作为一个概念,该属性的字段名、或指代该属性的词作为该概念的词。同时,所属对象生成的概念与由这些属性生成的概念构成ATTRIBUTE属性关系。
引擎可将每个属性数据类型分别作为一个概念。这些概念通常都是无词概念,通过各自的概念识别器来识别词是否为与之匹配的概念。同时,具有对应数据类型的属性所生成的概念与由这些属性类型生成的概念构成VALUE值关系。当然也可以通过配置对属性值自定义概念。针对对象类型的属性,该属性与类型中指定的对象关联,构成VALUE值关系。针对复合类型的属性,该属性与类型中指定的成员(子属性)构成PART部件关系。针对结构类型的属性,该属性与类型中指定的成员(子属性)构成ATTRIBUTE属性关系。
√例如数据类型与概念。
1.2.2.2.程序设计语言
程序设计语言(Programming Language),是一组用来定义计算机程序的语法规则。它是一种被标准化的交流技巧,用来向计算机发出指令。一种计算机语言让程序员能够准确地定义计算机所需要使用的数据,并精确地定义在不同情况下所应当采取的行动。
程序设计语言一般都可以通过语法分析器将代码转成语法树以及将语法树转成代码,如下表:
另外,模板语言也是一种程序设计语言,它们有自己的语法规则以及模板引擎,能让计算机编译执行,甚至还可以生成其它语言。例如FreeMarker、Velocity,它可以从模板生成HTML、SQL、PostScript、XML、RTF、Java源代码等等。
本文将讲述的格式化脚本语言GScript同样也是一种程序设计语言,目前版本使用Java语言编写。它有双引擎,支持解释执行和编译执行。编译执行时可以将代码编译成Java字节码,快速提升代码运行的效率。它也可以作为模板引擎,如同FreeMarker、Velocity基于模板来生成文本输出。GScript语言也有语法分析器,可以将代码转换成语法树,同时也可以将语法树转成代码。GScript语言还有一个很重要的特点,就是它可以调用不同的指令函数库解析或编译执行代码生成其它程序设计语言。
1.2.2.2.1.生成方法
程序设计语言的实质是语法规则,那么概念生成引擎的生成方法就在于对语法规则进行分析并转换生成概念及概念连接,如图15。
本文在下节着重讲述有关GScript语言的生成方法。而其它多数程序设计语言例如JAVA、HTML、JS、CSS、HTML、JSON、XML等其方法与此基本一致,不再一一详述。
1.2.2.2.2.GScript语言
1.2.2.2.2.1.GScript语法规则
GScript语言语法由指令函数、操作符与运算函数三部分组成。
■指令函数
指令函数的形式为:
<函数名>(<函数参数1>,<函数参数2>,……){
<函数体>
};
函数参数:函数名后面的参数是用()包裹起来,多个参数之间用,隔开。并非所有函数都有参数。如无参数则()可省略。函数体:函数体用{}包裹起来。函数体内部则可书写多个指令函数。并非所有函数都有函数体。如无函数体则{}可省略。函数结束符:使用;作为结束符。
指令函数库包括基本指令与扩展指令。基本指令函数包括代码块(script)、变量定义与赋值(var、assign)、条件控制(if、else)、循环(do、while、for)、遍历(loop、list)、循环与过程中断(break、continue、return)、函数定义与调用(function、call)、抛出与捕获异常(throw、try、catch、finally)、外部脚本加载(include)、空执行(void)、打印(print、printf、println)、调试(info、debug、trace、warn、error)、排序(sort)、标记(mark)等。而扩展指令与目标生成的程序语言相关,在使用时可动态扩展。
■操作符
GScript支持以下字符,以及优先级顺序如下表:
操作符按功用划分为算术操作符、关系运算符、逻辑操作符、位运算符、三元表达操作符、类型转换操作符、NULL赋值操作符、取值操作符、转义操作符、注释操作符、字符或字符串操作符、保留操作符。
■运算函数
运算函数主要包括数学、字符串、HTML、日期、数组、对象、取值、JSON、调试等运算函数以及扩展的运算函数。
GScript语言有很多高级特性,例如类型推断、常量优化、函数参数化等等。GScript语言现版本使用Java语言编写,并且和Java的交互性很好,可以说是无缝连接。通过取值操作符和取值运算函数即可访问Java常量、类、属性以及调用方法等。GScript语言现版本已支持以下这些计算机语言,如下表所示:
已支持的计算机语言 | 指令函数库 |
java | 基本 |
javascript | 基本、javascript扩展 |
html | 基本、html扩展 |
css | 基本、css扩展 |
xml | 基本、xml扩展 |
json | 基本、json扩展 |
text | 基本、text扩展 |
当然,上述这些计算机语言配合相应的语法分析器经过GScript语法分析器可以直接转换为GScript语言,从而可以间接通过GScript语言来转换生成概念及概念连接。
GScript语法分析器分析GScript语言成指令函数树。该指令函数树即为GScript的语法树。反之GScript语法分析器可以将指令函数树生成相应的GScript语言。因此使用GScript语言有一个很大优势:能够将不同的计算机语言生成统一的语法树,便于分析处理,如图16。
1.2.2.2.2.2.Java语法规则
Java语言是一种面向对象的程序设计语言。面向对象具有封装,继承和多态等特征。(1)封装:把对象的属性和操作结合在一起,构成一个独立的对象。同过修饰符的使用外部对象不能直接操作对象的属性,只能使用对象提供的服务。(2)继承:即扩展,子类继承父类几乎全部属性和行为,但是继承只能是单继承,一个子类只能有一个直接父类;继承是可以传递的。子类可以当作父类看。(3)多态:通过方法重载和方法重写实现。
类是对象的抽象,而对象是类的实例;对象都有属性和行为两大要素,属性是对对象的静态描述。而行为则体现了对象的功能和行为。一个类的使用是通过对该类实例化来完成的。
属性和行为构成了类的成员。作为类的属性,可以是基本数据类型,也可以是引用类型;方法则体现出了行为;Get和Set方法作为一种约定被用于提供对属性的操作。一个类可以作为另外的类一个属性,即属性可以是引用性数据。
类的继承即扩展,其关键词是extends。继承准则:总是让子类执行超类可执行的所有行为;确保子类包含超类的所有信息;向子类添加成员,从而定义子类的特有行为;将共同特性迁移到超类上;允许同一超类的不能子类执行相同的行为,但实现方式不同——方法重写。
接口是一群抽象行为的集合。通过接口实现了多重继承。应该这样更好的设计类,让类封装所代表对象的属性和行为。对象外部的功能可通过接口来实现。
枚举是限定有限可能值的一种手段,使用枚举可以降低程序出错的几率,并可以提高代码的可读性与可维护性。Java中的枚举并不是简单常量的集合,而是一个对象,其本质依然是类。
1.2.2.2.2.3.概念生成引擎
概念生成引擎根据GScript语法规则、Java语法规则以及目标程序语言的语法规则来生成概念及概念连接,如图17。
1.2.2.2.2.3.1.GScript
概念生成引擎优选配置方式为GScript语言语法的指令函数、操作符与运算函数定义一系列概念以及概念连接。配置方法可以使用与基础定义相一致的技术手段。
■指令函数
◆基本指令
◆扩展指令
●TEXT
●JSON
●XML
●HTML
●CSS
●JS(JAVASCRIPT)
■操作符
■运算函数
1.2.2.2.2.3.2.Java
GScript语言通过取值操作符和取值运算函数无缝与Java的常量、对象等交互。同时使用var、assign指令函数定义的局部变量与全局变量也是以Java对象的形式存储在存储区,通过取值操作符@@、@和取值运算函数@@、@、fromContext取得这些变量。也可以通过插件方法访问引入的第三方Jar包。
优选配置与Java注解来配置与定义概念及概念连接。配置方法可以使用与基础定义相一致的技术手段。而Java注解则是使用了Java的语言特性,使得概念及概念连接的定义在代码开发过程中即可进行。
√Java注解是附加在代码中的一些元信息,用于一些工具在编译、运行时进行解析和使用,起到说明、配置的功能。
√例如使用包名索引表的概念配置concepts/c.o.g.p.c.i.ActionContext.json见图27、connectivities/c.o.g.p.c.i.ActionContext.json见图28,Java注解com.onegrid.grid.platform.nlp4.impl.conceptnetwork.annotation.ClassConcept见图29、com.onegrid.grid.platform.nlp4.impl.conceptnetwork.annotation.ClassConceptConnectivity见图30。
概念生成引擎可将每个类分别作为一个概念,该类的类名、或指代该类的词作为该概念的词。允许多个类指向同一个概念,例如接口与它的实现类通常会表示同一个概念。
√例如图31。类的概念ID常使用一个小技巧:使用包名索引表来缩减概念ID的长度,如图示中的索引c.o.g.p.c.i来表示包名com.onegrid.grid.platform.context4。
同时,基础定义的概念ID=object与由这些类生成的概念构成SPECIES种属关系。
√例如概念ID=object与上述例子中的概念ID=c.o.g.p.c.i.ActionContext、ID=c.o.g.p.c.i.ApplicationContext构成SPECIES种属关系;
Java枚举虽然本身也是类但须不同处理,其须定义两个概念。其中一个概念是带有本体概念的无词概念且是另一个概念的值,而另一个概念却是那个无词概念的本体概念。例如图32。
引擎针对类的每个字段(field)的引用情况不同进行分别处理:
①如果字段field被配置或注解定义了概念,则此类的概念与该字段的概念构成ATTRIBUTE属性关系;
②如果字段field的数据类型指向某个类(或Java枚举),而且该类的组件类型(Component Type)是已经被定义概念的类,则此类的概念与该字段数据类型的概念构成ATTRIBUTE属性关系;
√例如类com.onegrid.grid.platform.context4.impl.ActionContext(概念ID=c.o.g.p.c.i.ActionContext)见图33。
③否则,引擎则为该字段定义一个概念,该字段的字段名、或指代该字段的词作为该概念的词,然后此类的概念与字段所生成的概念构成ATTRIBUTE属性关系。
√例如类com.onegrid.grid.platform.core4.impl.bean.RequestPage(概念ID=c.o.g.p.c.i.b.RequestPage)见图34。引擎针对不同数据类型也需要进行分别处理:
①类:基本的数据类型及所对应的一些对象类型。例如图35。
②类:集合类型,主要包括数组、实现java.lang.Collection的类。例如图36。
③类:其它类型,含java.lang.Object、java.lang.Class、枚举等。例如图37。
引擎定义类字段(field):如果字段没有被配置或注解定义了概念连接,那么:
◆如果字段为固定常量时定义一个概念,常量值、或指代该常量值的词作为该概念的词,然后字段的概念与该生成的概念构成VALUE值关系。
◆如果字段的概念ID与它数据类型的概念ID不一致时两者之间构成VALUE值关系。
√例如上述示例概念ID=c.o.g.p.c.i.b.RequestPage.uri与概念ID=@string构成VALUE值关系;例如上述示例概念ID=c.o.g.p.c.i.b.RequestPage.titles与概念ID=map构成VALUE值关系。
引擎定义类的方法(method):如果方法没有被配置或注解定义了概念及概念连接,那么:
◆如果方法名符合JavaBean的规范(即getter和setter方法),那无需定义。因为基础定义中常定义概念ID=get、ID=set与概念ID=object构成SV主谓关系。
◆否则,定义一个概念,该方法名、或指代该方法的词作为该概念的词,然后此类的概念与该生成的概念构成SV主谓关系。
引擎定义类的继承(extends):如果父类与子类概念ID不一致时,父类的概念与子类的概念之间构成SPECIES种属关系。
1.2.2.2.2.3.3.Html
HTML语法主要有:HTML文档是由HTML元素定义的;HTML元素以开始标签起始,以结束标签终止;元素的内容是开始标签与结束标签之间的内容;某些HTML元素具有空内容(empty content);空元素在开始标签中进行关闭(以开始标签的结束而结束);HTML标签可以拥有属性,属性总是以名称/值对的形式出现;HTML文档存在外部样式,由标签link引入;HTML文档存在内部样式,有标签style定义;HTML元素存在内联样式,主要由属性style定义;HTML元素事件以属性形式存在,即通过事件属性使事件在浏览器中触发动作的能力。概念及概念连接的生成见上一节GScript“指令函数-扩展指令-HTML”。
1.2.2.2.2.3.4.Css
CSS语法主要有:CSS规则由两个主要的部分构成:选择器,以及一条或多条声明;selector{declaration1;declaration2;...declarationN};每条声明由一个属性和一个值组成;selector{property:value};每个属性有一个值,属性和值被冒号分开;可以通过依据元素在其位置的上下文关系来定义样式;id选择器可以为标有特定id的HTML元素指定特定的样式,且以"#"来定义;类选择器以一个点号显示;可以为拥有指定属性的HTML元素设置样式,而不仅限于class和id属性。概念及概念连接的生成见前一节GScript“指令函数-扩展指令-CSS”。
1.2.2.2.2.3.5.Xml
XML指可扩展标记语言,它被设计用来传输和存储数据。XML语法规则很简单且很有逻辑。XML语法主要有:XML文档必须有根元素;XML元素的标签没有被预定义,须自行定义标签;XML元素都必须有关闭标签;XML元素的标签对大小写敏感;与HTML元素类似,XML元素也可拥有属性(名称/值的对);XML元素的属性值须加引号。概念及概念连接的生成见前一节GScript“指令函数-扩展指令-XML”。
1.2.2.2.2.3.6.Json
JSON:JavaScript对象表示法(JavaScript Object Notation)。JSON是存储和交换文本信息的语法。类似XML。JSON比XML更小、更快,更易解析。JSON语法是JavaScript语法的子集。JSON语法主要有:JSON名称/值对:名称/值对包括字段名称(在双引号中),后面写一个冒号,然后是值;JSON值可以是:数字(整数或浮点数)、字符串(在双引号中)、逻辑值(true或false)、数组(在方括号中)、对象(在花括号中)、null;JSON对象在花括号中书写,且包含多个名称/值对;JSON数组在方括号中书写,且可包含多个对象。概念及概念连接的生成见前一节GScript“指令函数-扩展指令-JSON”。
1.2.2.2.2.3.7.Js(Javascript)
GScript语言通过取值操作符和取值运算函数无缝与Javascript的浏览器对象、函数等交互。同时也使用var、assign指令函数与Javascript的变量定义var映射;使用function指令函数与Javascript的函数定义function映射;通过取值操作符@和取值运算函数@、fromContext与Javascript的变量获取映射,等等。
√例如执行GScript Js(Javascript)代码生成Javascript代码见图38。
GScript语言可以通过配置将浏览器、外部脚本例如jQuery框架等内置的对象、函数引入到GScript内,使得在GScript内部可以访问到这些对象、函数。
√例如默认的GScript配置见图39。
JavaScript是一种轻量级的编程语言,可由所有的现代浏览器执行。JavaScript跟Java一样,也有变量、数据类型、对象、函数、运算符、比较和逻辑运算符、if...else条件、switch、for、while、return、break和continue、throw、try、catch等。同时JavaScript对象也拥有属性和方法,属性是与对象相关的值,而方法是能够在对象上执行的动作。例如图40。
部分概念及概念连接的生成见前一节GScript“指令函数-扩展指令-JS(JAVASCRIPT)”、“运算函数-扩展运算函数-JS(JAVASCRIPT)”。
1.2.2.3.语义网络/词典/知识库
现在主流的语义网络/词典/知识库主要有:ConceptNet、FrameNet、WordNet、HowNet等。本文所述的概念网络也是一种语义网络,因此在技术上是可以实现与现有主流的语义网络/词典/知识库相互转换。
1.2.3.扩展定义
通过上述方法生成概念及概念连接可能会存在一定的不足,或者说在一定程度上可能会无法满足语义分析推理的需要,因此可以进行进一步扩展定义。在实现的技术手段上可以选用与基础定义一样的技术手段。
另外借助词典如《同义词反义词词典》、Word2Vec工具等等可以帮助扩充概念词及概念间的相关关系。
√《同义词反义词词典》是华东师范大学出版社出版的图书。共收入同义词、反义词词目1200余组。
√Word2Vec是一个将单词转换成向量形式的工具。可以把对文本内容的处理简化为向量空间中的向量运算,计算出向量空间上的相似度,来表示文本语义上的相似度。
1.2.4.动态形成
例如概念连接的“动态形成”章节所述,在自然语言理解过程中动态为概念之间形成连接即关系。因此可以将这些概念连接动态加入到概念网络中。通常加入到概念网络中的概念连接其特征都只有一个肯定,其目的在于:概念网络中概念连接不仅满足自然语言理解的需要,而且还可以适用于不同语境。
√例如语句“我没有包”表达了我me跟包bag之间形成了ATTRIBUTE(属性宿主与领属)的连接,但此连接在当前语境
下特征为否定。但加入到概念网络中的连接其特征却是肯定。
例如自然语言理解过程中人为的操作,为概念添加词、增加概念连接等。
这取决于实际的应用情况。
1.2.5.词向量
词向量就是用来将语言中的词进行数学化的一种方式,顾名思义,词向量就是把一个词表示成一个向量。主要有两种表示方式:
√One-hot Representation。创建一个词表库并把每个词顺序编号。在实际应用中,一般采用稀疏编码存储,主要采用词的编号。这种表示方法一个最大的问题是无法捕捉词与词之间的相似度,就算是近义词也无法从词向量中看出任何关系。此外这种表示方法还容易发生维数灾难,尤其是在Deep Learning相关的一些应用中。
√Distributed representation。其基本思想是通过训练将每个词映射成K维实数向量(K一般为模型中的超参数),通过词之间的距离(比如cosine相似度、欧氏距离等)来判断它们之间的语义相似度。Word2Vec使用的就是这种词向量表示方式。
传统上自然语言处理(NLP)系统把词编码成字符串。这种方式是随意确定的,且对于获取词之间可能存在的关系并没有提供有用的信息。词向量是NLP领域的一个替代方案。它把词或短语映射成实数向量,把特征从词汇表大小的高维度空间降低到一个相对低的维度空间。目前最流行的词向量模型是由Mikolov等人在2013年提出的Word2Vec。
主要有两种方式可以跟词向量结合在一起。
■与概念直接或间接对应的词使用词向量替代。人为无法为概念对应全部且都准确的词,而通过词向量捕捉词与词的相似度,有助于为概念扩充词,或者为概念间建立相关关系。
■概念ID直接使用词向量。
Claims (13)
1.一种用于人工智能的概念网络,其特征在于:包括概念和概念连接,一个概念跟多个概念形成一种或多种的语义关系,同时概念间的语义关系是一层或多层;
所示概念都有一个唯一的编号ID;
概念连接即概念间的语义关系链,用来描述概念间的多层语义关系。
2.根据权利要求1所述的用于人工智能的概念网络,其特征在于:所述概念ID为字符串、数字、词向量。
3.根据权利要求1所述的用于人工智能的概念网络,其特征在于:所述概念分为三类:词概念,无词概念,未知概念;
词概念包含一般词概念、带有关系成分的词概念、组合词概念、词集合概念;词概念的特点是存在自然语言词与此概念直接相对应,同时也存在实现该概念定义DEF的转换器;
无词概念包含不带本体概念的无词概念、带有本体概念的无词概念;无词概念的特点是不存在自然语言词与此概念直接相对应,但通常存在概念识别器,使得自然语言词能与概念之间间接相对应;未知概念包含未知词概念、未知词集合概念;未知概念的特点是无法为该概念生成概念定义DEF,在自然语言处理过程中将被忽略。
4.根据权利要求1所述的用于人工智能的概念网络,其特征在于:所述概念连接具有如下特征:
a/一个概念跟多个概念形成一种或多种的语义关系,同时这些语义关系是多层的;
b/一个概念跟多个概念在自然语言的理解过程中逐步形成新的概念连接;
c/存在特征:这些特征表示概念连接中反映关系的肯定、否定、可能、范围、概率、程度、频率、时间、语气。
5.要求1或2或3或4所述概念网络的生成方法,其特征在于:所述方法包括基础定义、转换生成、扩展定义或动态形成中的一种或多种方法;
其中,
基础定义为定义基础的概念及概念连接,主要选用XML、JSON格式的配置文件来定义这些概念及概念连接,然后再通过对这些配置文件解析生成概念及概念连接
生成的方法为将数据结构、程序设计语言、语义网络/词典/知识库等转换生成为概念及概念连接;实现该转换生成的主程序,即为概念生成引擎;
扩展定义为采用基础定义的方法进一步扩展定义概念及概念连接;
动态形成为动态的形成概念及概念连接,包括在自然语言理解过程中动态为概念之间形成连接,或者人为操作为概念添加词、增加概念连接。
6.根据权利要求5所述概念网络的生成方法,其特征在于:所述生成的方法中,数据结构包含行列形式、键值对形式两种。
7.根据权利要求5所述概念网络的生成方法,其特征在于:所述生成的方法中,将数据结构转换生成概念及概念连接的方法过程为:
①概念生成引擎将每个表分别作为一个概念,该表的表名、或指代该表的词作为该概念的词;同时,基础定义的概念ID=object与由这些表生成的概念构成SPECIES种属关系;
②引擎将表每个字段分别作为一个概念,该字段的字段名、或指代该字段的词作为该概念的词;同时,所属表生成的概念与由这些字段生成的概念构成ATTRIBUTE属性关系;
③引擎可将每个字段类型分别作为一个概念;这些概念通常都是无词概念,通过各自的概念识别器来识别词是否为与之匹配的概念;同时,具有对应字段类型的字段所生成的概念与由这些字段类型生成的概念构成VALUE值关系;
④当然,对于一些字段它们的值带有一定的约束性或特殊性,例如字典数据,可以自定义无词概念;
⑤另外,有些字段与其它表构成的外键关系,那么由这些字段类型生成的概念与其关联的主表所生成的概念构成VALUE值关系。
8.根据权利要求5所述概念网络的生成方法,其特征在于:所述生成的方法中,将数据结构转换生成概念及概念连接的生成方法过程还可以通过对象数据管理技术实现;对象数据管理技术使用XML格式的对象模板文件来定义对象结构,并与数据库表建立映射关系;概念生成引擎可根据对象模板XML生成概念及概念连接;生成方法过程:
①概念生成引擎可将每个对象模板5分别作为一个概念,该对象的名称、或指代该对象的词作为该概念的词;同时,基础定义的概念ID=object与由这些对象生成的概念构成SPECIES种属关系;
②引擎可将模板定义的每个属性分别作为一个概念,该属性的字段名、或指代该属性的词作为该概念的词;同时,所属对象生成的概念与由这些属性生成的概念构成ATTRIBUTE属性关系;
③引擎可将每个属性数据类型分别作为一个概念;这些概念通常都是无词概念,通过各自的概念识别器来识别词是否为与之匹配的概念;同时,具有对应数据类型的属性所生成的概念与由这些属性类型生成的概念构成VALUE值关系;当然也可以通过配置对属性值自定义概念;针对对象类型的属性,该属性与类型中指定的对象关联,构成VALUE值关系;针对复合类型的属性,该属性与类型中指定的成员构成PART部件关系;针对结构类型的属性,该属性与类型中指定的成员构成ATTRIBUTE属性关系。
9.根据权利要求5所述概念网络的生成方法,其特征在于:所述生成的方法中,将程序设计语言构转换生成概念及概念连接的生成方法是在于对语法规则进行分析并转换生成概念及概念连接。
10.根据权利要求5所述概念网络的生成方法,其特征在于:所述生成的方法中,GScript语言也是一种程序设计语言,使用Java语言编写,也可以作为模板引擎,同时也有语法分析器,可以将代码转换成语法树,也可以将语法树转成代码;GScript语言可以调用不同的指令函数库解析或编译执行代码生成其它程序设计语言。
11.根据权利要求5所述概念网络的生成方法,其特征在于:所述生成的方法中,java、javascript、html、css、xml、json、text程序设计语言配合相应的语法分析器经过GScript语法分析器可以直接转换为GScript语言,从而间接通过GScript语言来转换生成概念及概念连接。
12.根据权利要求5所述概念网络的生成方法,其特征在于:所述生成的方法中,将GScript语言转换生成概念及概念连接的生成方法根据GScript语法规则、Java语法规则以及目标程序语言的语法规则来生成概念及概念连接,
生成方法过程:
①GScript语言语法由指令函数、操作符与运算函数三部分组成;概念生成引擎优选配置方式为GScript语言语法的指令函数、操作符与运算函数定义一系列概念以及概念连接;配置方法可以使用与权利要求4基础定义相一致的技术手段;
②Java语言语法包含类、属性、方法、数据类型、枚举、注解等;概念生成引擎优选配置与Java注解来配置与定义概念及概念连接;配置方法可以使用与基础定义相一致的技术手段;而Java注解则是使用了Java的语言特性,使得概念及概念连接的定义在代码开发过程中即可进行;
I概念生成引擎可将每个类分别作为一个概念,该类的类名、或指代该类的词作为该概念的词。允许多个类指向同一个概念,例如接口与它的实现类通常会表示同一个概念。同时,基础定义的概念ID=object与由这些类生成的概念构成SPECIES种属关系;
II Java枚举虽然本身也是类但须不同处理,其须定义两个概念。其中一个概念是带有本体概念的无词概念且是另一个概念的值,而另一个概念却是那个无词概念的本体概念;
III引擎针对类的每个字段(field)的引用情况不同进行分别处理:
i如果字段field被配置或注解定义了概念,则此类的概念与该字段的概念构成ATTRIBUTE属性关系;
ii如果字段field的数据类型指向某个类(或Java枚举),而且该类的组件类型(Component Type)是已经被定义概念的类,则此类的概念与该字段数据类型的概念构成ATTRIBUTE属性关系;
iii否则,引擎则为该字段定义一个概念,该字段的字段名、或指代该字段的词作为该概念的词,然后此类的概念与字段所生成的概念构成ATTRIBUTE属性关系;;
IV引擎针对不同数据类型也需要进行分别处理:
①类:基本的数据类型及所对应的一些对象类型;;;
②类:集合类型,主要包括数组、实现java.lang.Collection的类;;;
③类:其它类型,含java.lang.Object、java.lang.Class、枚举等;;;
V引擎定义类字段(field):如果字段没有被配置或注解定义了概念连接,那么:
i如果字段为固定常量时定义一个概念,常量值、或指代该常量值的词作为该概念的词,然后字段的概念与该生成的概念构成VALUE值关系;
ii如果字段的概念ID与它数据类型的概念ID不一致时两者之间构成VALUE值关系;
VI引擎定义类的方法(method):如果方法没有被配置或注解定义了概念及概念连接,那么:
i如果方法名符合JavaBean的规范(即getter和setter方法),那无需定义;因为基础定义中常定义概念ID=get、ID=set与概念ID=object构成SV主谓关系;
ii否则,定义一个概念,该方法名、或指代该方法的词作为该概念的词,然后此类的概念与该生成的概念构成SV主谓关系;
VII引擎定义类的继承(extends):如果父类与子类概念ID不一致时,父类的概念与子类的概念之间构成SPECIES种属关系;
③目标程序语言的概念及概念连接的生成与GScript“指令函数-扩展指令”相对应章节一致。
13.权利要求1或2或3或4所述概念网络在人工智能语言理解与生成中的应用。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210154638.5A CN114528846A (zh) | 2022-02-20 | 2022-02-20 | 一种用于人工智能的概念网络及其生成方法 |
PCT/CN2023/077271 WO2023155914A1 (zh) | 2022-02-20 | 2023-02-20 | 一种用于人工智能的概念网络及其自然语言理解与生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210154638.5A CN114528846A (zh) | 2022-02-20 | 2022-02-20 | 一种用于人工智能的概念网络及其生成方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114528846A true CN114528846A (zh) | 2022-05-24 |
Family
ID=81625515
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210154638.5A Pending CN114528846A (zh) | 2022-02-20 | 2022-02-20 | 一种用于人工智能的概念网络及其生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114528846A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115687317A (zh) * | 2022-10-21 | 2023-02-03 | 南京上游软件有限公司 | 一种实现基于Java端多叉树对象增删改查服务的方法 |
WO2023155914A1 (zh) * | 2022-02-20 | 2023-08-24 | 杭州格沃智能科技有限公司 | 一种用于人工智能的概念网络及其自然语言理解与生成方法 |
-
2022
- 2022-02-20 CN CN202210154638.5A patent/CN114528846A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023155914A1 (zh) * | 2022-02-20 | 2023-08-24 | 杭州格沃智能科技有限公司 | 一种用于人工智能的概念网络及其自然语言理解与生成方法 |
CN115687317A (zh) * | 2022-10-21 | 2023-02-03 | 南京上游软件有限公司 | 一种实现基于Java端多叉树对象增删改查服务的方法 |
CN115687317B (zh) * | 2022-10-21 | 2023-10-03 | 南京上游软件有限公司 | 一种实现基于Java端多叉树对象增删改查服务的方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Bajwa et al. | SBVR business rules generation from natural language specification | |
Del Fabro et al. | Semi-automatic model integration using matching transformations and weaving models | |
Syme et al. | Expert F♯ 3.0 | |
KR20090009834A (ko) | 프로그래밍 언어에서 수식 트리의 깊은 임베딩을 위한 범용인터페이스를 제공하는 시스템, 컴퓨터 구현 방법 및 컴퓨터 구현 시스템 | |
CN114528846A (zh) | 一种用于人工智能的概念网络及其生成方法 | |
Scharffe | Correspondence patterns representation | |
CN108766507B (zh) | 一种基于CQL与标准信息模型openEHR的临床质量指标计算方法 | |
Tekli et al. | Minimizing user effort in XML grammar matching | |
US8091069B2 (en) | Module specification language and meta-module | |
Broekstra | Storage, querying and inferencing for semantic web languages | |
Seipel et al. | Domain-specific languages in Prolog for declarative expert knowledge in rules and ontologies | |
Chen et al. | Type-directed synthesis of visualizations from natural language queries | |
Gopinath et al. | Input algebras | |
WO2023155914A1 (zh) | 一种用于人工智能的概念网络及其自然语言理解与生成方法 | |
Hanus et al. | A typeful integration of SQL into Curry | |
CN115345153A (zh) | 一种基于概念网络的自然语言生成方法 | |
Pan et al. | Model-driven ontology engineering | |
Lano et al. | Lightweight Software Language Processing Using Antlr and CGTL. | |
CN115935943A (zh) | 一种支持自然语言结构计算的分析框架 | |
Chalupsky et al. | Powerloom manual | |
Alam et al. | Towards a semantic web stack applicable for both RDF and topic maps: a survey | |
CN115859955A (zh) | 一种基于概念网络的自然语言理解方法 | |
Botoeva et al. | Expressivity and complexity of MongoDB (Extended version) | |
Ornaghi et al. | A constructive object oriented modeling language for information systems | |
Lai | A formal framework for linguistic tree query |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |