CN110489752A - 一种自然语言的语义递归表示系统 - Google Patents
一种自然语言的语义递归表示系统 Download PDFInfo
- Publication number
- CN110489752A CN110489752A CN201910750542.3A CN201910750542A CN110489752A CN 110489752 A CN110489752 A CN 110489752A CN 201910750542 A CN201910750542 A CN 201910750542A CN 110489752 A CN110489752 A CN 110489752A
- Authority
- CN
- China
- Prior art keywords
- semantic
- objects
- module
- basic
- composite
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 150000001875 compounds Chemical class 0.000 claims abstract description 61
- 239000002131 composite material Substances 0.000 claims description 58
- 239000000470 constituent Substances 0.000 claims description 7
- 230000003993 interaction Effects 0.000 claims description 3
- 238000000034 method Methods 0.000 description 68
- 235000011430 Malus pumila Nutrition 0.000 description 19
- 235000015103 Malus silvestris Nutrition 0.000 description 19
- 238000012545 processing Methods 0.000 description 19
- 241000251468 Actinopterygii Species 0.000 description 18
- 241000220225 Malus Species 0.000 description 18
- 238000010586 diagram Methods 0.000 description 18
- 230000009471 action Effects 0.000 description 17
- 230000000694 effects Effects 0.000 description 15
- 238000003672 processing method Methods 0.000 description 14
- 230000000875 corresponding effect Effects 0.000 description 13
- 230000008569 process Effects 0.000 description 13
- 238000004458 analytical method Methods 0.000 description 12
- 238000005516 engineering process Methods 0.000 description 9
- 230000011218 segmentation Effects 0.000 description 9
- 238000010276 construction Methods 0.000 description 8
- 238000011160 research Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 7
- 238000003058 natural language processing Methods 0.000 description 7
- 230000006399 behavior Effects 0.000 description 6
- 239000000203 mixture Substances 0.000 description 6
- 230000018109 developmental process Effects 0.000 description 5
- 238000011161 development Methods 0.000 description 4
- 239000000463 material Substances 0.000 description 4
- 241000282414 Homo sapiens Species 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 3
- 238000000354 decomposition reaction Methods 0.000 description 3
- 235000013399 edible fruits Nutrition 0.000 description 3
- 230000010365 information processing Effects 0.000 description 3
- 230000003340 mental effect Effects 0.000 description 3
- 241000894007 species Species 0.000 description 3
- 229920000742 Cotton Polymers 0.000 description 2
- 244000141359 Malus pumila Species 0.000 description 2
- 210000004712 air sac Anatomy 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 230000000295 complement effect Effects 0.000 description 2
- 235000009508 confectionery Nutrition 0.000 description 2
- 238000010411 cooking Methods 0.000 description 2
- 229910003460 diamond Inorganic materials 0.000 description 2
- 239000010432 diamond Substances 0.000 description 2
- 230000008451 emotion Effects 0.000 description 2
- 235000013305 food Nutrition 0.000 description 2
- 230000000670 limiting effect Effects 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000005192 partition Methods 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 238000000638 solvent extraction Methods 0.000 description 2
- 241000272525 Anas platyrhynchos Species 0.000 description 1
- 241000287828 Gallus gallus Species 0.000 description 1
- 241000238631 Hexapoda Species 0.000 description 1
- 208000025174 PANDAS Diseases 0.000 description 1
- 208000021155 Paediatric autoimmune neuropsychiatric disorders associated with streptococcal infection Diseases 0.000 description 1
- 240000000220 Panda oleosa Species 0.000 description 1
- 235000016496 Panda oleosa Nutrition 0.000 description 1
- 210000004690 animal fin Anatomy 0.000 description 1
- 235000021016 apples Nutrition 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000009835 boiling Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 235000019504 cigarettes Nutrition 0.000 description 1
- 210000000078 claw Anatomy 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000001667 episodic effect Effects 0.000 description 1
- 210000003746 feather Anatomy 0.000 description 1
- 235000021222 fish soup Nutrition 0.000 description 1
- 230000008570 general process Effects 0.000 description 1
- 125000001475 halogen functional group Chemical group 0.000 description 1
- 210000003128 head Anatomy 0.000 description 1
- 238000007373 indentation Methods 0.000 description 1
- 230000008140 language development Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 229930014626 natural product Natural products 0.000 description 1
- 230000007935 neutral effect Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000002688 persistence Effects 0.000 description 1
- VEMKTZHHVJILDY-UHFFFAOYSA-N resmethrin Chemical compound CC1(C)C(C=C(C)C)C1C(=O)OCC1=COC(CC=2C=CC=CC=2)=C1 VEMKTZHHVJILDY-UHFFFAOYSA-N 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000012916 structural analysis Methods 0.000 description 1
- 239000002344 surface layer Substances 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 210000003032 wing Anatomy 0.000 description 1
Landscapes
- Machine Translation (AREA)
Abstract
本公开的实施例公开了自然语言的语义递归表示系统。该语义递归表示系统的一具体实施方式包括:基础语义对象模块、复合语义对象模块,其中,基础语义对象、复合语义对象在语义递归表示系统中是递归定义的,并且是唯一的,其中,自然语言是世界上任何一种具有文字系统的自然语言。该实施方式解决了语义在计算机内部表示问题以及字形的多义性问题,语义对象具有语义的自我表示和自我解释的能力。
Description
技术领域
本公开的实施例涉及自然语言处理技术领域,具体涉及一种自然语言的语义递归表示系统。
背景技术
自然语言处理(NLP,Natural Language Processing)是指利用计算机对自然语言的形、音、义等信息进行处理。由于自然语言语义的多义性、模糊性、上下文相关性、表达环境差异性以及语义知识的宽泛性等原因,语义的表示和处理一直是自然语言处理技术领域的难题。
《中文信息处理发展报告(2016)》(中文信息学会)第四页第30行指出:“语义应该采用什么表示形式一直困扰着研究者们”。
《知识图谱发展报告(2018)》(中文信息学会语言与知识计算专委会)第2页第8行指出,“不论是语义网络,还是框架语言和产生式规则都缺少严格的语义理论模型和形式化的语义定义。”
自然语言的字形是自然语言的词汇书写、印刷在纸张上或者显示在计算机屏幕上图形。字形一般具有多个语义、不同的读音以及不同的词性是自然语言的普遍现象。
自然语言处理的一般流程包括分词、词法分析、句法分析、语义分析等处理过程,每个处理过程都涉及到语义的处理,如果每个过程是以字形的形式进行处理的,就会受到字形的多义性、多词性问题困扰。
因此,无论处理语义系统的模型构造形式如何,如果模型中的处理元素是字形,那么该模型在表达和处理语义时就会受到字形的多义性问题的困扰。
发明内容
本公开的一些实施例提供了一种自然语言的语义递归表示系统,包括:基础语义对象模块、复合语义对象模块,其中,基础语义对象、复合语义对象在语义递归表示系统中是递归定义的,并且是唯一的,其中,自然语言是世界上任何一种具有文字系统的自然语言。
本公开的一些实施例提供的自然语言的语义递归表示系统,通过对基础语义对象、复合语义对象在语义递归表示系统中的递归定义,解决了自然语言的语义在计算机内部表示问题以及字形的多义性问题。由形声义作为统一体递归定义的语义对象具备了语义的自我表示、自我解释的能力。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本公开的其它特征、目的和优点将会变得更明显:
图1示出了根据本公开的一些实施例的自然语言的语义递归表示系统的架构图;
图2是根据本公开的一些实施例的语义对象的结构图形表示;
图3是根据本公开实施例的一个通用的语义系统的类框架图;
图4是根据本公开实施例的一种自然语言的语义递归表示系统的构造方法的流程图;
图5是根据本公开实施例的执行基础语义对象的创建方法的流程图;
图6是执行基础语义对象的对象结构处理方法的流程图;
图7是执行基础语义对象的语义定义处理方法的流程图;
图8是执行基础语义对象的种属对象处理方法的流程图;
图9是执行基础语义对象的附加分类处理方法的流程图;
图10是执行复合语义对象的创建方法的流程图;
图11是复合语义对象的附加分类处理方法的流程图;
图12是根据本公开实施例的一个语义分类框架图。
具体实施方式
下面结合附图和实施例对本公开作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。
下面将参考附图并结合实施例来详细说明本公开。
图1示出了根据本公开的一些实施例的自然语言的语义递归表示系统的架构图。
如图1所示,上述语义递归表示系统100可以包括基础语义对象模块101、复合语义对象模块102。其中,基础语义对象、复合语义对象在语义递归表示系统中是递归定义的,并且是唯一的。其中,自然语言是世界上任何一种具有文字系统的自然语言。
为了解决自然语言处理中字形的多义性问题以及语义表示问题,本公开提出一种以自然语言文字的字形、字音和字义为统一体的语义递归表示系统及构造方法。使用这个方法对文字的每个语义在计算机内的表示结果称为语义对象。该语义对象是可以进行比较判断是否相等的,因此可以保证该语义对象是唯一的。通过构造一种自然语言词汇的一个个唯一的语义对象来完成该自然语言的语义对象系统的建立。
自然语言文字是人类认识世界的自然产物,目前世界上存在多种自然语言文字,如:中文、英文、德文、日文等。现实中的文字在计算机内部是以字符表示。计算机有多种字符集,常用的有ISO国际标准化组织Unicode字符集,该字符集包含多种文字字符及音标字符。字符是计算机处理的最基本的对象。
字形是视觉可见的自然语言文字的图形,计算机可以进行自然语言文字字符的图形表示。字形是字符的外在表示形式,字符是字形的内部表示形式。
字音是使用音标字符的外在表示。计算机可以进行自然语言文字的字音的图形表示。
字词是指自然语言的词汇,包括拼音文字的单词、汉语文字的单字、字组。
拼音文字的单词(Word)在计算机内部可以使用一个字符串来表示,汉语的文字单位有汉语单字和汉语单字组成的字组,汉语单字在计算机内部是一个字符,而汉语字组在计算机内部为一个字符串。因此字形在计算机内部可以使用字符串表示。
自然语言中字词一般是有多义性的,一个字词常常有几个意义,每一个意义就是一个义项。因此字词在字词典中有多个义项,义项是字词的理性意义的分项说明。义项在字词典中的解释和定义仍然是使用字词典中的文字来说明的。
字义是一个字词所有义项的集合。在特定的情形下是指该字词的一个义项。一个义项可以称之为一个语义对象。
语句、文章和书籍可以认为是自然语言字词的字形集合。
语义是所有语义对象及语义对象关系的总和,而语义对象关系是使用语义对象来描述的,因此语义对象关系也是语义对象。
任何自然语言的语义都可以分为两个部分,一是自然语言的基础词汇的语义,称之为基础语义;二是由基础语义组合而成的语义,称之为复合语义。
基础语义是自然语言中最基本、最稳定的常识性语义,基础语义具有一般性。
复合语义是基础语义通过词法、句法组织起来的语义。由于语义之间的限定作用,使得复合语义具有特指性。
基础语义的数量是有限的,基础语义可以认为是字词典中的义项,词典中也会收录一些常见的成语、短句等形式的复合语义。而复合语义的数量是无限的。如日常会话、报刊书籍和网站的文字内容。
基础语义和复合语义的划分不是严格的。
类是对事物在某些特征上进行抽象的结果。对象为类中元素。一个类中的所有对象具有相同的特征。
人类的认知思维来自于分类,思维的表达与记录主要是基于自然语言文字的。
语言中的一个词汇的语义产生就是对现实世界认知的一次分类。一个词汇的语义既是一个语义类,也是另一个更为抽象语义类的语义对象。
根据自然语言文字的语义特征、类和对象的关系以及基础语义和复合语义的划分,给出语义对象形式化的递归定义。
在一些实施例中,可以先给出语义对象的形式化定义所使用的符号说明。
使用一对符号“()”表示该符号内的对象组成一个集合。即对象是无序的;多个对象之间使用空格分隔;(X)代表由X集合中的元素组成的一个集合。
使用一对符号“<>”表示该符号内的对象组成一个有序集合。即对象在该集合中是有序的,多个对象之间使用逗号“,”分隔。
使用一对符号“[]”代表是一个对象。[XXX]表示对象XXX。
使用一对符号“{}”表示一个类,{XXX类}代表某个类。
符号“∈”定义为“属于”,x∈X表示对象x属于集合X。
使用符号“::=”表示“定义为”。
使用符号“|”表示集合的“或运算”。
使用符号“∪”表示集合的“并运算”。
自然语言语义的形式定义:
假设:
J表示所有已经定义的基础语义对象的集合;
D表示所有已经定义的复合语义对象的集合;
Z所有字形的集合,z代表一个的字形;
P所有字音的音标字符串的集合,p代表一个字词的音标字符串。
{语义对象类}::={基础语义对象类}∪{复合语义对象类}
说明:语义对象类是由基础语义对象类和复合语义对象类组成的。
{基础语义对象类}::={([对象结构][语义定义][种属对象](X))}
其中,[对象结构]::=[形音结构]|[<c1,c2,…,cn>]c∈J;
[形音结构]::=[<z,p>]z∈Z,p∈P;
[语义定义]::=[<j1,j2,…,jn>]j1,j2,…,,jn∈J;
[种属对象]::=[a]a∈J;
(X)::=(x1x2…xn)x1,x2…x2∈J。
[对象结构]、[语义定义]、[种属对象]是三个基本属性对象,都不能为空值,(X)是可选的。这四个对象也称之为语义对象的属性。
在基础语义对象类定义的基础上,给出复合语义对象类的形式定义。
{复合语义类}::={([复合对象结构](Y)}
其中,[复合对象结构]::=[<d1,d2,…,dn>]d1,d2,…dn∈J∪D;
(Y)::=(y1 y2…yn)y1,y2…yn∈J∪D;
[复合对象结构]不能为空。(Y)是可选的。
基础语义对象的属性说明:
[对象结构]是由基础语义对象或者[形音结构]组成的有序集合。说明该语义对象的组成结构。
[形音结构]是由字形和该字形的字音的有序对,简称字形字音对;
举例说明:
使用一对单引号‘’表示字形;使用一对方括号‘[]’表示语义对象。
‘sementics’是英文的语义对象[sementics]的字形表示,‘sI′’(其中‘′’为重音符号)是[sementics]的字音的字符表示。
<‘sementics’,‘sI′’>是英文的一个字形字音对。
‘沙发’是中文的语义对象[沙发]的字形表示;‘shāfā’是中文的语义对象[沙发]的字音的字符表示。(注:沙发是连绵字,是一种音译。)
<‘沙发’,‘shāfā’>是中文的一个字形字音对。
‘语义’由两个语义对象[语](语言的语)和[义](意义的义)组成。
[语义]的对象结构为:[<[语],[义]>]。其中,
[语]的对象结构为:<‘语’,‘yǔ’>;
[义]的对象结构为:<‘义’,‘yì’>。
英语、德语中很多单词是由简单的单词组合而成的。
如:bedroom=bed+room
[语义定义]是一个由基础语义对象组成的有序集合,说明该语义对象的定义结构,表示了该语义对象与其他语义对象的定义关系;
举例说明:[语义]的语义定义为:<[语言],[的],[意义]>。
[种属对象]是一个基础语义对象,是该语义对象的直接上位概念。说明该语义对象的意义分类;[种属对象]建立了两个语义对象在概念意义上的上下位关系。说明语义对象之间的意义分类关系,概念的意义分类是语义的固有属性。
举例说明:
[语义]的种属对象是[概念],语义是单义词。但是对于多义词‘苹果’而言,如果‘苹果’的一个字义的定义是‘苹果树的果实’;那么该[苹果]的种属对象是[水果]。例句:‘这个苹果很甜。’
如果‘苹果’的一个字义的定义是‘美国苹果公司’。那么该[苹果]的种属对象是[厂商]。例句:‘三星最近被苹果追讨专利使用费了。’
如果‘苹果’的一个字义的定义是‘美国苹果公司的手机’。那么该[苹果]的种属是[手机]。例句:‘苹果玩游戏久了也会很热的。’
(X)是一个基础语义对象的集合,用于说明该基础语义对象的附加分类。
种属对象是语义对象的固有的分类,语义对象还需要其他的分类。如:词性分类,情感分类、语体分类以及其他目的的语义分类。附加分类是对其他分类的概括。
举例说明:
[安堵]的语义定义是:<[安定],[地],[生活]>,如果附加分类有词性分类、语体分类,那么[安堵]的附加分类(X)=([动词][书面语])。
从{基础语义对象类}的定义可以看出,一个基础词汇有多少个义项,就可以产生多少个基础语义对象,只要语义对象中的[对象结构]和[语义定义]这两个基本属性有一个不同,就是不同的语义对象。语义的分类也是使用语义对象来进行分类的。
复合语义对象的属性说明:
[复合对象结构]是使用已经定义的基础语义对象或者复合语义对象组成的有序集合;
如:‘中国人民解放军’可以定义为一个复合语义对象[中国人民解放军],其复合对象结构是:<[中国],[人民],[解放军]>。
如:[a cup of coffee]是英文的复合语义对象。
(Y)是由基础语义对象或复合语义对象组成的一个集合,用于说明复合语义对象的多种附加分类。
由语义对象的定义可以看出,给定一种自然语言文字,就可以使用该语言文字的字形字符和字音字符构造出该语言的语义对象系统。
基础语义对象的定义在技术效果上首先是具有了判断语义对象是否相同的能力。判断两个语义对象是相同的,当且仅当两个语义对象的[对象结构]是相同的、[语义定义]是相同的。
复合语义对象是由基础语义对象构成,判断两个复合语义对象是相同的,只需要判断[复合对象结构]中的所有语义对象是否都相同。
只有具备判断语义对象是否相同的能力,才可以保证语义对象在计算机内部表示是唯一的,使用语义对象表示语义解决了在计算机内部使用字形表示语义的多义性问题。
语义对象的(X)、(Y)属性是用于对语义的可扩展的、多种附加的语义分类,是构造语义模型重要的技术手段,具有高度的概括性。
可以将语义定义的成分表示成为一种结构的图形,来说明语义对象属性之间的组成结构关系。
请继续参见图2,图2是根据本公开的一些实施例的语义对象结构的图形表示。
根据语义对象形式化的递归定义,将递归成份作为组成模块,说明定义模块的结构关系与模块之间作用关系,给出一个抽象的语义对象的结构装置。
需要说明的是,在本公开的所有的实施例中,各个模块,例如图2中的各个模块,可以实现为芯片的模块。由此,模块之间的交互可以由芯片模块之间的数据通信来进行。
如图所示,A→B表示组成关系,即A是B中的一个元素。
每个方框代表一个结构模块。
1、基础语义对象模块201:由对象结构模块202、语义定义模块203、种属对象模块204、基础语义对象分类(X)模块205组成的语义对象集合。而对象结构模块202、语义定义模块203、种属对象模块204、基础语义对象分类模块205又是由基础语义对象组成。体现了结构递归关系。
2、字形字音对模块206:给定一个字形集,将每个字形与该字形的每种读音组成一个字形字音对。字形字音对模块206是一种自然语言所拥有的字形字音对的集合。这是语义对象定义的起始点。语义对象由字形字音对作为构造的开始。
3、对象结构模块202:说明基础语义对象的组成结构,是一个有序集合。组成元素是基础语义对象或者字形字音对。字形字音对是对象结构的初始结构。
4、语义定义模块203:说明基础语义对象的定义结构,是一个由基础语义对象组成的有序集合。
5、种属对象模块204:说明所定义的基础语义对象的上位概念关系,是一个基础语义对象。
6、基础语义对象分类模块205:是由一组基础语义对象组成的集合,用于对基础语义对象的附加分类。
7、复合语义对象模块207:由复合对象结构模块和复合语义分类模块组成的集合。
8、复合对象结构模块208:是一个由基础语义对象或复合语义对象组成的有序集合,用于说明所定义的复合语义对象的组成结构。
9、复合语义对象分类模块209:是一个由基础语义对象或复合语义对象组成的集合,用于说明所定义的复合语义对象的附加分类。
由语义对象的结构可以看出,语义对象系统由基础语义对象和复合语义对象组成。
基础语义对象以字形字音对作为初始的元素,通过模块之间的相互引用、相互作用,建立了语义对象之间结构关系、定义关系和种属分类关系,构成一个由基础语义对象和复合语义对象组成的语义系统。
接下来,将说明语义对象的层次分类结构。
语义对象的形式化定义和语义对象的结构图表示是构造语义对象系统的概念基础。
语义对象的形式化定义和语义对象的结构图仅说明了单个语义对象的定义以及语义对象之间的关系。
自然语言的语义是普遍知识的体现,语义也具有良好的知识分类特征。语义对象的系统不但要有语义的内部结构的实现,还需要建立语义对象的知识分类层次,以及每个语义对象类的处理功能的实现。
语义对象的分类层次体系是进行语义对象软件系统实现的基础。
一个语义分类体系模型的提出,总是根据对整个语义对象的结构特征或行为特征进行抽象,产生一个新的语义对象分类层次结构,并以这个分类层次结构来研究语义对象之间的作用关系。
面向对象的程序设计语言及环境是支持分类层次结构,支持结构递归和支持行为递归的软件开发环境,为语义对象系统的提供实现环境。
按照面向对象的思想,如果一个能够回答字形、字音、字义的对象就可以认为是一个语义对象。那么首先字形字音对可以回答自己的字形和字音属性,其次通过查询基础语义对象模块,查找出由该字形字音对所对应的所有语义对象,这些语义对象就是字形字音对的语义,因此字形字音对也是一个语义对象。
语义对象系统是一个分类层次的语义类组成的树形结构。一个语义对象类存在各种语义对象之间约束规则,这些约束规则可以通过编写程序代码来实现。
基础语义对象定义中的(X)与复合语义对象定义中的(Y)是将语义对象的各种分类的集中在一个集合中的。
可以从(X)挑选一种分类用以产生基础语义对象类的子类。
可以从(Y)中挑选一种分类用以产生复合语义对象类的子类。
进一步参考图3,图3是根据本公开实施例的一个通用的语义系统的类框架图。
在图3中,菱形的连接线段:表示线段一端的对象是菱形所指类的属性对象。形成环状的图形表示该类的对象属性中引用了该类的其他对象,是一种递归定义的表示。
一端为三角形的连接线段:表示线段一端的类是三角形所指类的子类。
语义对象类是抽象类,抽象类是面向对象的基本术语,仅强调功能实现的类。
字形字音类:是用于保存和操作[<字形,字音>]对象的类。
基础语义对象类:用于刻画描述基础语义对象的超类。
基础语义子类1-n:新的划分所产生一组新的基础语义类子类。
复合语义对象类:用于刻画复合语义对象的超类。
复合语义子类1-n:新的划分所产生一组新的复合语义类子类。
若以可划分的语义对象数量作为判断是否产生新的子类,建议如果可划分的语义对象的数量超过100个,就可以进行划分出一个子类。
接下来,将说明根据本公开的一些实施例的自然语言的语义递归表示系统的构造方法。
一种自然语言的语义递归表示系统是由字形字音对和字符串作为初始元素来构造的,一个语义对象的构造方法包含了两个过程。
对于基础语义对象创建的两个过程是:
第一个过程是创建初始的语义对象的过程,由于初创时语义对象并不存在,因此在初始定义一个新生成的语义对象时,需要使用字符串作为临时表示,来充当在语义对象的对象结构,语义定义、种属对象、语义附加分类中的语义对象。
第二个过程是将语义对象替代初始创建时所使用临时的字符串的过程,替代时可能存在多个语义对象,需要人工来判断,找出合适的语义对象来替代临时的字符串。
通过使用已经产生的语义对象来替代构造过程中所使用的临时字符串,这个过程也是建立将一个语义对象与其他语义对象的组成关系、定义关系、概念上下位关系及其他附加分类关系的过程,逐步地替代临时的字符串,直到最终构造出一个只有语义对象组成的语义系统。
对于复合语义对象语义创建过程是,第一个过程是,创建初始的复合语义对象,由于基础语义对象已经创建完毕,可以直接使用基础语义对象来构造复合对象结构。如果复合语义对象的其他附加分类是复合语义对象,需要使用临时的字符串替代。第二个过程是,等到所有复合语义对象都定义完成后,再使用复合语义对象替换相应临时的字符串。进一步参考图4,图4是根据本公开实施例的一种自然语言的语义递归表示系统的构造方法的流程图。
步骤401,选择预定种类自然语言的字词典作为参考,字词典包括义项,每条义项包括了字形、字音和字义;字词典一般都给出了义项的词性。有的字词典还给出语体分类等。
可选地,所述字词典还包括以下至少一项:义项的词性,义项的语体分类。
步骤402,按照基础语义对象的定义,编写或生成基础义项表。
在本公开的一些实施例中,按照‘义项名对象结构义项定义种属附加分类(X)’的格式,编写或生成基础义项表。
义项名对于英文等拼音文字,是词典中的单词。
义项名对于中文,可以是汉语的单字、联绵字和字组。
根据概念常识给出该义项的直接的上位概念,作为种属对象;如果种属对象所使用的词汇不在义项表中,需要添加到基础义项表中。
给出该义项的附加分类,如果附加分类所使用的词汇不在义项表中,需要添加到基础义项表中。
步骤403,按照复合语义对象的定义,编写或生成复合义项表;
在本公开的一些实施例中,按照‘义项名复合对象结构附加分类(Y)编写或生成复合语义义项表。
义项名是常用的、字词典收录的英文短语、或中文的词组、成语、谚语等。给出义项的附加分类,附加分类所使用的词汇不在义项表中的,需要添加到基础义项表或复合义项表中。
步骤404,根据选定的面向对象的语言、语义对象的形式化定义,以及从义项的附加分类中挑选适合的语义分类体系。
在本公开的一些实施例中,可以根据选定的面向对象的语言和语义对象的形式化定义,从义项的附加分类中,选择适合的语义分类体系,编写一种自然语言的语义递归表示系统语义对象类的软件代码。
在本公开的一些实施例中,分类体系可以是多层的树状结构。按照以上要求编写出基本的类框架代码以及基本的方法实现。
在基础语义对象的超类中,定义[对象结构]、[语义定义]、[种属对象]、[附加分类]属性结构;在复合语义对象的超类中定义[复合对象结构]、[附加分类]属性结构。
方法至少包括:产生新的实例对象的方法;对基础语义对象的基本属性[对象结构]、[语义定义]、[种属对象]、[附加分类]的赋值和读取方法;判断语义对象是否相同的方法。以及递归查询[对象结构]、[语义定义]有序集合的方法。以形成了语义对象自我定义、自我解释的能力。对复合语义对象的基本属性[复合对象结构]、[附加分类]的赋值和读取方法。
步骤405,执行基础语义对象创建方法。
步骤406,执行基础语义对象的对象结构处理方法。
步骤407,执行基础语义对象的语义定义处理方法。
步骤408,执行基础语义对象的种属对象处理方法。
步骤409,执行基础语义对象的附加分类处理方法。
步骤410,执行复合语义对象的创建方法。
步骤411,执行复合语义对象的附加分类处理方法。
至此,完成整个语义对象系统的构造方法。语义对象系统是一个在内存中的、可以运行的对象系统,可以使用对象持久化技术输出到文件或数据库中进行保存。
在一些实施例的一些可选的实现方式中,进一步参考图5,图5是执行基础语义对象的创建方法的流程图。
基础语义对象的创建方法包括:
步骤501,在基础义项表中取一条义项。
步骤502,根据义项的内容,按照基础语义对象类的分类体系,选择适当子类,生成一个该类的实例对象。
步骤503,初始化该实例对象的[对象结构]、[语义定义]、[种属对象]的三个基本属性,以及[附加分类],初次产生语义对象。由于还没有产生过所需要的语义对象,因此仍然需要在[对象结构]、[语义定义]、[种属对象]使用字符串的形式,暂时保存语义对象的属性的信息。
步骤504,初步定义[对象结构]属性。
对于拼音文字直接使用单词的字形字音对即可。如果是两个单词组合成的一个单词,使用两个单词的字符串的有序集合进行临时保存。
[对象结构]对于中文单字、联绵字直接使用字形字音对即可。中文字组使用单字的字符的有序集合进行临时保存。
步骤505,初步生成[语义定义]的有序集合。
该集合的元素为字符串;对于英文、德文等书写格式有空格分割单词的文字,将义项定义的单词字符串保存在有序集合中,作为临时保存。在本步骤中,初步生成语义定义属性,其中,所述语义定义属性是一个字符串的有序集合。
[语义定义]对于中文或日文书写格式没有空格分隔的文字,则需要人工进行分词处理。以单字或字组的字符串保存在有序集合中,作为临时的保存。
步骤506,初步定义[种属对象],以直接上位概念的单词、短语、字组的字符串,进行临时保存。
步骤507,初步生成[附加分类]的集合。
其中,附加分类是以表示分类的单词、短语、字组的字符串的集合进行临时保存。
步骤508,重复步骤501、步骤502、步骤503、步骤504、步骤505、步骤506、步骤507,直到完成基础义项表中所有的义项生成为初始的基础语义对象。
至此,完成了所有基础义项表内初始的语义对象生成,但是基础语义对象中的{对象结构}、[语义定义]、[种属对象]、(X)仍然是字符串形式,需要替换成相应的语义对象。
在一些实施例的一些可选的实现方式中,进一步参考图6,图6是执行基础语义对象的对象结构处理方法的流程图。
基础语义对象的对象结构处理方法包括:
步骤601,在初始的语义对象系统中,查询一个语义对象。
步骤602,取出该语义对象的对象结构。
步骤603,判断该对象结构是否包含临时的字符串。
步骤604,如果对象结构包含临时的字符串,则查询初始的语义对象系统,找到对应的语义对象,对该临时的字符串进行语义对象的替换。
步骤605,重复步骤601、步骤602、步骤603、步骤604,直到完成初始的基础语义对象系统中所有的对象结构中临时的字符串的替换。
至此,初始语义对象系统中的[对象结构]中临时的字符串已经替换为语义对象。
在一些实施例的一些可选的实现方式中,进一步参考图7,图7是执行基础语义对象的语义定义处理方法的流程图。
基础语义对象的语义定义处理方法包括:
步骤701,在初始的基础语义对象系统中,查询一个语义对象。
步骤702,取出该语义对象的语义定义。
步骤703,判断该语义定义是否包含临时的字符串。
步骤704,如果语义定义包含临时的字符串,则查询初始的语义对象系统,找到对应的语义对象,对该临时的字符串进行语义对象的替换。
步骤705,重复步骤701、步骤702、步骤703、步骤704,直到完成初始的基础语义对象系统中所有的语义定义中临时的字符串的替换。
至此,初始语义对象系统中的[对象结构]、[语义定义]中临时的字符串已经替换为语义对象。
在一些实施例的一些可选的实现方式中,进一步参考图8,图8是执行基础语义对象的种属对象处理方法的流程图。
基础语义对象的种属对象处理方法包括:
步骤801,在初始的基础语义对象系统中,查询一个语义对象.
步骤802,取出该语义对象的种属对象。
步骤803,判断该种属对象是否是临时的字符串。
步骤804,如果种属对象是临时的字符串,则查询基础语义对象系统,找到合适的基础语义对象并对该临时的字符串进行替换。
步骤805,重复步骤801、步骤802、步骤803、步骤804,直到完成初始的基础语义对象系统中所有种属对象中的临时的字符串的替换。
在一些实施例的一些可选的实现方式中,进一步参考图9,图9是执行基础语义对象的附加分类处理方法的流程图。
基础语义对象的附加分类处理方法包括:
步骤901,在初始的基础语义对象系统中,查询一个语义对象。
步骤902,取出该语义对象的附加分类。
步骤903,判断该附加分类是否包含临时的字符串。
步骤904,如果附加分类包含临时的字符串,则查询语义对象系统,找到相应的基础语义对象,并对该临时的字符串进行替换。
步骤905,重复步骤901、步骤902、步骤903、步骤904,直到完成初始的基础语义对象系统中所有附加分类中的临时的字符串的替换。
在一些实施例的一些可选的实现方式中,进一步参考图10,图10是执行复合语义对象的创建方法的流程图。
复合语义对象的创建方法包括:
步骤1001,在复合义项表中取一条复合义项。
步骤1002,根据义项的内容,按照复合语义对象的分类体系,选择适当子类,生成一个实例对象。
步骤1003,初始化该实例对象的[复合对象结构]、[附加分类]的属性。
步骤1004,生成[复合对象结构]对象;由于基础语义对象已经定义;只需要选择组成复合语义的基础语义对象,按照顺序保存在[复合对象结构]的有序集合中。
步骤1005,生成[附加分类]的临时的字符串的集合。
步骤1006,重复执行步骤1001、步骤1002、步骤1003、步骤1004、步骤1005;直到完成复合义项表中所有的义项生成为复合语义对象,生成初始的复合语义对象系统。
在一些实施例的一些可选的实现方式中,进一步参考图11,图11是复合语义对象的附加分类处理方法的流程图。
复合语义对象的附加分类处理方法包括:
步骤1101,在初始的复合语义对象系统中,查询一个复合语义对象。
步骤1102,取出该复合语义对象的附加分类。
步骤1103,判断该附加分类是否包含临时的字符串。
步骤1104,如果附加分类包含临时的字符串,则查询语义对象系统,找到相应的基础语义对象或者复合语义对象,并对该临时的字符串进行替换。
步骤1105,重复步骤1101、步骤1102、步骤1103、步骤1104,直到完成所有复合语义对象的[附加分类]中的临时的字符串的替换。
在一些实施例的一些可选的实现方式中,语义递归表示系统的构造方法还包括:存储所构造的语义对象系统;对所构造的语义对象系统中的基础语义对象,复合语义对象,以及各个对象之间的关系进行查询以及图像呈现。对基础语义对象的组成结构关系可以形成多层次的图形化的表示,用以展示语义之间的组成关系;对基础语义对象的语义定义关系可以形成多层次的图形化的表示,用以展示语义之间的定义关系;对于基础语义对象的种属的上下位概念关系可以形成多层次的图形化表示,用以展示语义的上下位概念关系。
根据本公开的一些实施例的语义递归表示系统和语义递归表示系统的构造方法能部分或者全部实现以下效果中的一项或多项。
技术效果一,作为形声义统一体递归定义的语义对象解决了语义在计算机内部表示问题以及字形的多义性问题。
具有判断语义对象是否相同的能力,判断两个语义对象是相同的,当且仅当两个语义对象的[对象结构]是相同的、[语义定义]是相同的。只有具备判断语义对象是否相同的能力,才可以保证语义对象在计算机内部表示是唯一的。
语义对象系统完成后,可以用于将表层的线性字形语句转换成深层次的非线性的语义对象的关系的处理,用于语句语义分析和语义理解,使用语义对象进行语义分析是没有字形的多义性和多词性的问题。
语义的唯一性表示对于进行自然语言理解是非常基础和必要的。
技术效果二,语义对象的形声义作为统一体递归定义还带来了语义的自我表示,自我解释的能力。
对象结构是嵌套定义的,它是由其他更基础语义对象所组成,如,汉语的词汇由汉字的单字组成,对象结构可以不断地查询组成对象结构的成分对象。成分对象还可以继续查询其对象结构、语义定义、种属对象的属性。在对象结构递归查询的终点是字形字音对。
语义定义是递归定义的,语义是借助其他语义对象来定义的,首先保证了语义定义的准确性,其次可以递归查询组成定义的其他对象,其他对象还可以继续查询其对象结构、语义定义、种属对象的属性。递归查询的终点是字形字音对。
种属对象是一个语义对象,是所在语义对象的上位概念,对种属对象向上遍历查询,可以生成一个上下位概念的单链结构,向下遍历查询可以生成一个上下位概念的树形结构。在递归结构上,需要在一个语义对象的种属对象设置为该语义对象来终止递归,以形成树形结构。如,[概念]的[种属对象]是[概念]。
如果利用汉字语义对象系统制作成为一个汉字语义电子词典,由于语义对象的递归定义,那么对于语义的多种查询,与现有字形字符型的电子字典相比,具有更加准确、方便和快捷的特性。利用语义对象技术制作的其他自然语言的语义电子字典具有同样的效果。
技术效果三,词法规律在语义对象上的施用是充分的。
词法是词汇在句法功能上的抽象,词法是忽略了语义的意义差异所总结的规律。由于字形的多义性、多词性,词法规律在字形上的施用是不充分的。由于语义对象的唯一性和确定的词性,词法规律在语义对象上的施用是充分的。
技术效果四,基于语义对象的分词可以控制分词颗粒度的大小。
自然语言处理的一般过程包括了分词、词法分析、句法分析、语义分析等处理过程。
按照GBT 13715-1992《信息处理用现代汉语分词规范》,[中华烟]需要分成[中华][烟];[苹果手机]需要分成[苹果]、[手机],这样分解不利于句法成分分析的,如果使用语义对象技术,[中华烟]、[苹果手机]、[美丽的中国大熊猫]都是一个复合语义对象,复合语义对象直接对应到句法成分类,在进行句法分析时无需再分解为基础语义对象。
《信息处理用现代汉语分词规范》是一种固定的分词,基于语义对象的分词方法具有根据分词目的来调整分词颗粒度大小的能力。
技术效果五,语义对象是在面向对象的开发和运行环境中实现的,利用语音转换文本的技术,将语音转换为文本,利用本发明将文本分析后得到语义对象的关系,将语义对象与可以与无人机、机器人等智能设备的控制系统相结合,将自然语言的语句转化为软件程序上的对象消息发送,可以方便地实现人机对话。
语义对象模型与其他语义模型的比较
当前流行的语义模型常见的有:语义网络、语义框架、产生式规则以及知识图谱等语义模型,语义网络侧重于表示概念与概念之间的关系,知识图谱侧重于表示实体之间以及实体与属性之间的关系。
语义与概念、知识有很大的不同;语义是概念的基础,概念是知识的基础,概念和知识的属于高级的逻辑语义,而语义还包括非逻辑的比喻语义。如:‘人群沸腾起来’,‘男人的一半是女人’。此外还有隐喻、暗喻、双关语等语义,是不能用概念逻辑来表达和处理的。
与其他语义模型的不同是,语义对象技术实现的是语义的底层表示,而不是概念、实体、属性等语义的高层表示。
本公开的一些实施例是以现代汉语《新华字典》或者《现代汉语词典》作为基础语义内容的参考,以现代汉语词法和句法作为语义分类框架,实现一个汉字语义对象系统。
本公开对普通技术人员的能力要求是,熟悉面向对象的设计思想,具有一定的面向对象软件的设计能力,具有基本的汉语知识,掌握一种面向对象的编程语言。常见面向对象的语言开发环境有:Smalltalk、Java、Python、C++等。
具有这样能力的普通软件开发人员,按照语义对象的定义以及语义对象的分类层次结构,根据给出的语义对象构建方法,是可以开发本实施例汉字语义对象系统的。开发人员也可以参照本实施例,提出自己的分类体系,实现属于自己的语义对象系统。
进一步参考图12,图12给出的是根据本公开实施例的一个分类框架,具体实现还可以进一步划分出子类。给出汉字语义对象系统的基础框架类,缩进形式表示父子类的关系。
{汉字语义对象类}“所有汉字语义类的抽象类”
{形音结构类}“表示字形字音对的类,初始的基础语义的对象结构”
{词法类}“词法成分的超类,其子类的对象即为汉字基础语义对象”
{复合语义类}“复合语义对象的超类”
{句子成份类}“句法成分的超类。用于复合语义对象的结构说明”
下面给出各类的基本属性的构成和类的实例方法的说明。
{汉字语义对象类}::=()
{汉字语义对象类}是所有语义对象的超类,是抽象类,没有属性定义,只有抽象方法的实现,为所有的语义对象定义了公共方法,至少包括回答语义的结构、语义定义和词性、种属的方法接口,以及判断两个语义对象是否相等的方法接口。
{形音结构类}::=([<字符,字音>])
字形可以使单字形,也可以是多个字形串,如:‘马克思’
<字符,字音>有序集合有两种表示方式,字形与字音对应的效果是一样的。
[<单字形1,单字音1><单字形2,单字音2>…<单字形n,单字音n>];等同[<单字形1,单字形2…单字形n><单字音1,单字音2…单字音n>];
由于{形音结构类}是{汉字语义类}的子类,需要实现回答语义的基本方法。回答一个单字形的语义,在{词法类}子类中找到该单字形对应的所有语义对象。
回答一个单字形的字音,在{词法类}的子类中找到该单字形对应的所有语音,即该字形的所有读音。回答多字形的语义和语音是类似的查询方法。
{词法类}::=([对象结构][语义定义][种属对象](X))
{词法类}是所有基础语义对象的抽象类,基础语义对象是用于表示汉语语言的基本字词的语义,需要实现其父类{汉字语义对象类}的抽象接口方法,还可以实现该对象可以担当的句子成分;词与词的组合能力、以及语义的约束规律等的实例方法。
{词法类}是对汉语语义的词性划分,可以实现将具有词性的语义对象转换为具有句法成份的语义对象,如名词的语义对象可以充当主语、宾语,动词的语义对象可以充当谓语等。还可以实现词组的搭配、词性变化和语义约束功能。
词法类可以实现以下几种类型的实例对象方法:
第一类是关于语义对象的属性赋值和读取方法;递归查询[对象结构]、[语义定义]有序集合的方法。形成了语义对象自我定义、自我解释的能力。
第二类是关于语义对象的组词能力的方法,实现各种词类的语义对象依据词组组合规则。
第三类是语义对象的句法功能,实现每种词性的语义对象可能充当的句法成分,用于支持句子的结构分析,特别是在语义对象的上下文中的句法分析。
第四类是根据语义对象的语义定义和种属、词性等,总结出词汇语义的组词的规则,这样的规则可以使用实例方法来实现。汉语的语义组合具有一定规律,这些规律反映在词类之间和语义概念之间的约束关系上,这些约束关系也可以使用实例方法来实现。
第五类是根据语义的定义和已有的组词规则,来判断一个未收录词汇的语义的合理性。合理的未收录词汇,可以用于产生新的语义对象。
{词法类}的子类是技术方案的重要部分,由于面向对象的编程是针对类来编写程序代码的,在类的框架上可以进行细分产生新的子类,子类继承超类的所有属性和方法,子类亦可以重新实现与超类的同名方法,子类亦可以定义自己的新方法。
为了深入研究语义,使用语义对象定义中的(X),用于扩展对基础语义对象的分类。
如:(X)可以定义为([语体分类][语义类型][情感分类][辞体分类]),即[语体分类]用于说明语义对象的“口语体、书面语、俚语”分类;[语义类型]用于说明语义对象的“字本义、基础义、引申义、比喻义、假借义”;[情感分类]用于说明语义对象的“高雅、褒义、文雅、中性、贬义、低俗、下流”的分类;[辞体分类]用于说明语义对象的“敬辞、谦辞、婉辞、挽词”的分类,这些都是对语义的细节分类。
汉语的词法是词汇在句法功能上的抽象,词法是忽略了语义的意义差异所总结的规律。由于汉字字形的多义性、多词性,词法规律在字形上的施用是不充分的。由于汉字语义对象的唯一性和确定的词性,汉语词法规律在汉字语义对象上的施用是充分的。
{词法类}子类分类是可以参考国家标准的(《信息处理用现代汉语词类标记规范》GB/T 20532-2006)(也可以使用其他的分类体系)。
{词法类}的主要分层结构为:
{词法类}
{实义类}“可以单独充当句法结构成分的语义对象”
{名词类}“表示人或事物的名称的语义对象。”
{一般名词}“表示人或事物的名称”
{抽象名词}“表示抽象概念意义的名词”
{专有名词}“表示特定的人或事物的名称”
{时间名词}“表示时间和时刻的名词”
{处所名词}“表示处所、地名等的名词”
{方位名词}“表示方向、方位的名词”
{动词类}“表示动作、行为,活动、存现、变化等语义对象。”
{一般动词}“表示动作或行为的动词,具有动词主要语法特征”
{心理动词}“心理动词是表示人物心理活动的动词”
{判断动词}“判断动词只有一个‘是’,表示是非、有无等意义”
{能愿动词}“表示可能、必要、必然、意愿等意义的动词”
{趋向动词}“表示动作行为趋向的动词”
{使令动词}“表示命令或请求的动词”
{形容词}“表示性质、状态等语义对象。”
{形状形容词类}“表示事物形状的形容词”
{性质形容词类}“表示事物性质的形容词”
{区别词}“表示事物的特征和分类、只能修饰名词作定语。”
{状态形容词类}“表示事物状态的形容词”
{数词类}“表示数目和次序的语义对象。”
{基数词}“基数词可以用来表示倍数、分数、小数和概数”
{序数词}“表示顺序先后的数词”
{量词类}“表示人、事物或动作的单位的语义对象。”
{物量词}“表示人或事物计量单位的量词”
{动量词}“常用在动词后面表示动作的次数”
{时量词}“表示时间的量词”
{复合量词}“两个以上的量词组成,表示复合性单位的量词”
{代词类}“起替代和复指作用的语义对象。”
{人称代词}“代替人或事物名称的词”
{疑问代词}“表示询问、设问或反问的代词”
{指示代词}“指称或区别人物和情况的词”
{副词类}“修饰动词和形容词、表示范围、程度等的语义对象。”
{程度副词}“表示程度、等级等意义的副词”
{情状副词}“表示情况意义的副词”
{频率副词}“表示频度的副词”
{时间副词}“表示时间的副词”
{范围副词}“表示范围与限制的副词”
{否定副词}“表示否定意义的副词”
{关联副词}“在短语或句子中起关联作用副词,”
{语气副词}“表示疑问、推测、转折、强调等语气的副词”
{虚义类}
{介词类}
{施受介词类}“引出施事者或受事者”
{方式介词类}“引出动作的方式、方法、工具等”
{时间介词类}“引出动作发生的时间的介词”
{方所介词类}“引出动作的地点、方向、起点或终点的介词”
{对象介词类}“引出动作所关涉的对象或范围的介词”
{原因介词类}“引出动作的起因的介词”
{目的介词类}“引出动作的目的和结果的介词”
{连词类}“用于连接两个语义对象的语义对象”
{助词类}
{结构助词}“表示附加成分和中心语之间的结构关系”
{动态助词}“表示动作进程状态”
{比况助词}“附着在名词性或谓词性词语后面表示比喻”
{复数助词}“表示复数、概数的助词”
{语气类}
{句子成份类}是句子成分的抽象类,说明句子的成份和作用。其中复合语义对象的结构是使用句子成分来说明组合关系的。
{句子成份类}
{主语类}“句子陈述或说明的对象,说明是谁或什么。”
{谓语类}“说明陈述主语。能回答主语‘怎么样’或‘是什么’等问题”
{宾语类}“表示谓语动词的涉及对象的语言单位”
{定语类}“用在主语和宾语前面,起修饰和限制作用的语言单位”
{状语类}“用在动词、形容词谓语前,起限制作用的语言单位”
{补语类}“谓语的附加成分,回答时间、地点、结果等语言单位”
{复合语义对象类}::=([复合对象结构]([附加分类]))
复合语义对象类是词组或短语类的超类,复合语义对象是受句法的规律和语义的约束。
{复合语义对象类}
{词组结构类}“不包含虚词的复合语义对象”
{短语结构类}“由虚词的介词、助词、连词等构成的复合语义对象”
{词组结构类}的子类框架是:
{词组结构类}
{主谓结构类}
{偏正结构类}
{定中结构类}
{状中结构类}
{动宾结构类}
{动补结构类}
{联合结构类}
词组与短语是是由词法、句法、语义和语用等层面上搭配的语言单位。以是否带虚词作为结构特征的区分。
复合语义对象是比基础语义对象更大的语义对象,能够与句法单位的主语、谓语、宾语、状语、补语进行对应,因此常常用于句法分析。
下面以名词类和动词类为例介绍语义之间的约束规则,这些规则是可以通过方法的编程在相应的类层次上加以实现。更多的约束规则,可以查阅语法书籍获得。
{名词类}是表示人、事物或时间、处所等名称的语义对象。一般能受数量词组修饰,能出现在介词后面,一起组成介宾结构。不受副词修饰。在特殊的副词固定格式中,名词前面可以出现副词。
名词主要做主语、宾语和定语,还可以作谓语和状语。这是可以再进行细化子类的依据。
{动词类}表示动作、行为,活动、存现、变化等语义对象;动词的主要语法特征能用[不]修饰,不受程度副词修饰,后面能带动态助词,动词的重叠形式、能用肯定否定方式提问等。
带宾语的动词叫做及物动词,不带宾语的叫做不及物动词,大多数表动作的动词可以重叠。单音节动词的重叠方式为AA,双音节动词的重叠方式为ABAB。
通过一些例子来说明语义对象在汉语语义分析上的作用。
1、针对字典义项的不足,添加新的语义对象
如:现代汉语大词典(第七版)中第1507页,‘研究’的义项有两个,‘研究1—考虑或商讨’,‘研究2—探求事物的真相、性质、规律等’,都是动词。
以语义对象的观点看,‘研究’是具有过程性的活动,研究可以指研究的活动。其上位概念是活动。
词典义项给出:[活动-为某种目的而行动],是动词,而[活动-为达到某种目的而采取的行动]是名词。
由于[研究]的种属对象是[活动],活动具有动词和名词的特征,所以[研究]应该具有的名词特征,也可以是名词。
如,在‘这个研究是很重要的’,‘细致的研究是成功的基础’,从主语的角度看应该是名词。
对于汉字语义对象的方法,‘研究’的语义需要定义四个语义对象,两个是名词,两个是动词性的。或者查询‘研究’的种属对象链,由‘研究’的种属对象的上位种属对象的词性来得到其名词的词性特征。
又如:苹果的词典义项只有果实和树木,’苹果1-苹果树的果实’,‘苹果2-落叶乔木,叶子椭圆形,花白色带有红晕。果实圆形,味甜或略酸’,现实中,苹果可以是苹果公司或者苹果手机,字词典上没有手机和厂家的语义,需要增加。
2、整体和部分的约束关系应用
知识体系是基于分类的,父类与子类之间结构是相同的,体现在整体与部分的约束关系上,并具有可继承性。
花鸟鱼虫作为一类事物都有其自己的组成部分,形成整体和部分的约束关系。
花:花蕾、花瓣;根、茎、叶;
鸟:头、羽毛、翅膀、爪等;
鱼:头、尾、鳃、鳍、鳞、鳔;
可以组成‘鱼头、鱼尾、鱼鳃、鱼鳍、鱼鳞、鱼鳔’;
从烹饪食材的形状处理有:‘块、段、片、丝、丸’来看,鱼是一种食材;因此可以,‘鱼块、鱼段、鱼片、鱼丝、鱼丸’
从烹饪处理方式上有‘煎炒烹炸烧熘炖煮熬与食材形状‘段、片、丝、丸’的结合来看,‘烧鱼块、烧鱼段、溜鱼片、炒鱼丝,煮鱼丸烧个鱼熬鱼汤’等。
同理,鸡、鸭和鳝鱼,也都使用。编写相应的方法来处理类似的规则,在语义对象的系统中是容易实现的。
这种约束关系也是知识的体现,也是组词、分词应用的规则。
3、语义关系的作用
例如:[驾驶]词典的解释“操纵(车、船、飞机、拖拉机等)使行驶”。
[驾驶]的语义定义应为:<[操纵],[交通工具],[行驶]>,交通工具是车、船、飞机等语义对象的上位概念。当有新的交通工具产生后,驾驶的语义作用依然适用。
而词法上要求动词后可以跟宾语,形成动宾结构,并没有概念意义上的约束。
如:驾驶椅子,符合动宾结构的规则,但是[椅子]的上位概念是[家具],[椅子]的上位概念链上也没有[交通工具],因此在逻辑上没有意义的。使用语义对象的约束关系,可以判断出逻辑问题来的。
又如,[希望]作为动词的语义对象,其后面的宾语要求具有动作性的词汇才能让语意表达完整,使得听话的人得到满足。这样的语义对象的种属对象是[愿望要求],针对[愿望要求]的语意要求是可以使用语义对象的方式来完成的,来满足该种属对象的下位概念的所有语义对象都具有这样的语意要求。
通过上面的具体例子可以看出,汉字语义对象的语义处理可以以语义对象的子类来处理,也可以针对某个语义对象直接处理的,具有很大的灵活性。
语义对象是在面向对象的开发环境中实现的,语义对象与软件系统中的其他对象没有区别,如智能设备控制系统、无人机、机器人控制系统的智能设备对象、无人机对象、机器人对象。
在智能设备控制系统的软件代码类中,有设备的标识、控制参数、控制方法的实现。将这些设备对象的名称标识作为语义对象,使得语义对象系统与智能设备控制系统相结合,利用语音转换文本的技术,将操作人员所发出指令语音转换为文本,利用本发明分析这些指令文本中的设备与控制参数的关系,可以得到文本中的语义对象的关系,将语义对象关系转化为设备的控制方法和参数的消息发送,可以方便地实现人机对话。
举例:一个物流无人机控制的面向对象实现类中,该无人机的标识为WW111,有时间、飞行高度、方向、速度、地址坐标参数;有飞行、投递、取件、起飞、降落等控制方法;方法的执行依靠消息的发送,发送消息需要带有相应的参数。
在汉字语义对象系统的名词类中,创建一个的无人机子类,为该无人机起个汉字名称为‘物流一号’,将‘物流一号’与该无人机控制系统的无人机标识为‘WW111’进行关联。
现行的语音转换文本的技术,可以适应普通话和多种方言,通过训练和机器学习等技术,将操作人员的语音转化为汉语的文本。
假定操作人员刚接到一个取件订单,发现‘物流一号’可以去取件,向其发出的语音命令,语音转化为文本后,文本的形式可能有:
‘物流一号送完4号物品后,请地址2号取件后并返回。’或
‘送完4号物品后,立即到地址2号取件,物流一号可以返回。’
同样的内容,语言可以有多种表达方式,但是语义对象的关系是一致的。
基于语义对象的语言理解可以将初步将文本分解为语义对象:
[物流一号]、[送完4号物品后]、[到地址A号取件]、[返回]。
语义对象[送完4号物品后]再分解为:[送]、[4号物品]。语义对象[到地址A号取件]再分解为:[到]、[地址]、[A号]、[取件]。
语义对象系统可以将上述语义对象的语义关系转发成物流无人机的消息序列让无人机执行。
WW111 send:4号物品;“[送]、[4号物品]”
WW111 flightTo:A号;“[到]、[地址]、[A号]”
WW111 getArticle;“[取件]”
WW111 goback.“[返回]”
以上描述仅为本公开的一些较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本公开的实施例中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开的实施例中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
Claims (16)
1.一种自然语言的语义递归表示系统,包括:基础语义对象模块、复合语义对象模块,其中,基础语义对象、复合语义对象在语义递归表示系统中是递归构造的,并且是唯一的,其中,自然语言是世界上任何一种具有文字系统的自然语言。
2.根据权利要求1所述的语义递归表示系统,其中,所述基础语义对象模块被配置成包括:对象结构模块、语义定义模块、种属对象模块、基础语义对象分类模块所组成的集合,其中,对象结构模块、语义定义模块、种属对象模块、基础语义对象分类模块又是由基础语义对象模块组成,从而体现了结构递归关系。
3.根据权利要求1所述的语义递归表示系统,其中,所述语义递归表示系统还包括:字形字音对模块,被配置成字形字音对的集合,其中,一个字形字音对是字形与该字形的一种字音所形成的有序对,所述字形字音对模块是给定的自然语言所有字形字音对的集合。
4.根据权利要求2所述的语义递归表示系统,其中,所述对象结构模块被配置成说明基础语义对象的组成结构,是一个有序集合,所述对象结构模块的组成元素是基础语义对象或者字形字音对,其中,字形字音对是对象结构的初始结构。
5.根据权利要求2所述的语义递归表示系统,其中,所述语义定义模块被配置成说明基础语义对象的定义结构,是一个由基础语义对象组成的有序集合,用于说明所定义的基础语义对象与其他语义对象的定义关系。
6.根据权利要求2所述的语义递归表示系统,其中,所述种属对象模块被配置成一个基础语义对象,用于说明所定义的基础语义对象的上位概念。
7.根据权利要求1所述的语义递归表示系统,其中,所述基础语义对象分类模块被配置成由一个由基础语义对象组成的集合,用于说明对所定义的基础语义对象各种其他附加的分类。
8.根据权利要求1所述的语义递归表示系统,其中,两个基础语义对象在对象结构模块是相同的、语义定义模块是相同的情况下,是相同的,用于保证语义对象的唯一性。
9.根据权利要求1所述的语义递归表示系统,其中,所述复合语义对象模块被配置成包括复合对象结构模块和复合语义对象分类模块的集合。
10.根据权利要求9所述的语义递归表示系统,其中,所述复合对象结构模块被配置成一个由基础语义对象或复合语义对象组成的有序集合,用于说明所定义的复合语义对象的组成结构。
11.根据权利要求9所述的语义递归表示系统,其中,所述复合语义对象分类模块被配置成一个由基础语义对象或复合语义对象组成的集合,用于说明对所定义的复合语义对象各种其他附加的分类。
12.根据权利要求1所述的语义递归表示系统,其中,复合语义对象包括基础语义对象,其中,两个复合语义对象在复合对象结构中的所有语义对象都相同时,是相同的,用于保证语义对象的唯一性。
13.根据权利要求1所述的语义递归表示系统,其中,所述自然语言语义的语义递归表示系统是通过模块之间的相互引用、相互作用,建立了语义对象之间结构关系、定义关系和种属分类关系而构成的,其中,语义对象以字形字音对作为初始的元素,字形字音对是由字形和该字形的字音组成的有序对。
14.根据权利要求1所述的语义递归表示系统,其中,语义对象是回答字形、字音、字义的对象,是语义在计算机内部的表示结构。
15.根据权利要求2所述的自然语言递归语义系统,其中,对象结构模块、语义定义模块、种属对象模块是三个基本属性对象模块,取值为非空值。
16.根据权利要求2所述的自然语言递归语义系统,其中,所述种属对象模块包括基础语义对象,用于建立两个语义对象在概念意义上的上下位关系。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910750542.3A CN110489752B (zh) | 2019-08-14 | 2019-08-14 | 一种自然语言的语义递归表示系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910750542.3A CN110489752B (zh) | 2019-08-14 | 2019-08-14 | 一种自然语言的语义递归表示系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110489752A true CN110489752A (zh) | 2019-11-22 |
CN110489752B CN110489752B (zh) | 2021-06-22 |
Family
ID=68551040
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910750542.3A Active CN110489752B (zh) | 2019-08-14 | 2019-08-14 | 一种自然语言的语义递归表示系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110489752B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20230229847A1 (en) * | 2022-01-19 | 2023-07-20 | Julia M. Rosedale | Methods for Extending Vector-Based Document Embedding Models and Systems Thereof |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101706792A (zh) * | 2009-11-27 | 2010-05-12 | 河南大学 | 一种面向中文查询句的三级查询目标分析方法 |
CN102236645A (zh) * | 2010-05-06 | 2011-11-09 | 上海五和际软件信息有限公司 | 基于语义逻辑的类自然语言人机对话装置 |
CN102799577A (zh) * | 2012-08-17 | 2012-11-28 | 苏州大学 | 一种中文实体间语义关系抽取方法 |
CN104657439A (zh) * | 2015-01-30 | 2015-05-27 | 欧阳江 | 用于自然语言精准检索的结构化查询语句生成系统及方法 |
CN105068995A (zh) * | 2015-08-19 | 2015-11-18 | 刘战雄 | 一种基于疑问语义的自然语言语义计算的方法及装置 |
CN107092594A (zh) * | 2017-04-19 | 2017-08-25 | 厦门大学 | 基于图的双语递归自编码器 |
CN107665188A (zh) * | 2016-07-27 | 2018-02-06 | 科大讯飞股份有限公司 | 一种语义理解方法及装置 |
US20190065991A1 (en) * | 2017-08-31 | 2019-02-28 | Accenture Global Solutions Limited | Machine learning document processing |
CN109710913A (zh) * | 2017-10-26 | 2019-05-03 | 张云翔 | 基于依存分析的语义层次结构生成方法及终端 |
-
2019
- 2019-08-14 CN CN201910750542.3A patent/CN110489752B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101706792A (zh) * | 2009-11-27 | 2010-05-12 | 河南大学 | 一种面向中文查询句的三级查询目标分析方法 |
CN102236645A (zh) * | 2010-05-06 | 2011-11-09 | 上海五和际软件信息有限公司 | 基于语义逻辑的类自然语言人机对话装置 |
CN102799577A (zh) * | 2012-08-17 | 2012-11-28 | 苏州大学 | 一种中文实体间语义关系抽取方法 |
CN104657439A (zh) * | 2015-01-30 | 2015-05-27 | 欧阳江 | 用于自然语言精准检索的结构化查询语句生成系统及方法 |
CN105068995A (zh) * | 2015-08-19 | 2015-11-18 | 刘战雄 | 一种基于疑问语义的自然语言语义计算的方法及装置 |
CN107665188A (zh) * | 2016-07-27 | 2018-02-06 | 科大讯飞股份有限公司 | 一种语义理解方法及装置 |
CN107092594A (zh) * | 2017-04-19 | 2017-08-25 | 厦门大学 | 基于图的双语递归自编码器 |
US20190065991A1 (en) * | 2017-08-31 | 2019-02-28 | Accenture Global Solutions Limited | Machine learning document processing |
CN109710913A (zh) * | 2017-10-26 | 2019-05-03 | 张云翔 | 基于依存分析的语义层次结构生成方法及终端 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20230229847A1 (en) * | 2022-01-19 | 2023-07-20 | Julia M. Rosedale | Methods for Extending Vector-Based Document Embedding Models and Systems Thereof |
Also Published As
Publication number | Publication date |
---|---|
CN110489752B (zh) | 2021-06-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8478581B2 (en) | Interlingua, interlingua engine, and interlingua machine translation system | |
CN101937430B (zh) | 一种汉语句子中事件句式的抽取方法 | |
CN108491385B (zh) | 一种基于依存关系的教学领域本体自动生成方法与装置 | |
JP2000513473A (ja) | シンタックスツリーから意味的論理形式を計算するための方法とシステム | |
KR20110009205A (ko) | 컴퓨터와의 자연어 의사소통 시스템 및 방법 | |
WO2014160379A1 (en) | Dimensional articulation and cognium organization for information retrieval systems | |
JP2006164293A (ja) | 自動自然言語翻訳 | |
CN112035506A (zh) | 一种语义识别方法及其设备 | |
CN105573990B (zh) | 外语句子制作支援装置以及方法 | |
CN112825111A (zh) | 自然语言处理方法与其计算装置 | |
Wierzbicka | The search for universal semantic primitives | |
CN110489752B (zh) | 一种自然语言的语义递归表示系统 | |
Azarowa | RussNet as a computer lexicon for Russian | |
EP2184685A1 (en) | Method for semantic processing of natural language using graphical interlingua | |
CN110457551B (zh) | 自然语言的语义递归表示系统的构造方法 | |
Hicks et al. | Content analysis | |
Pavlic et al. | Adjective representation with the method Nodes of Knowledge | |
CN112115722A (zh) | 一种仿人脑中文解析方法及智能交互系统 | |
Magnini | Use of a lexical knowledge base for information access systems | |
Wang | On the indexical nature of language | |
Batarfi et al. | Building an Arabic semantic lexicon for Hajj | |
Silaban et al. | Simalungun Batak Language Causative Construction | |
Song | Sentence-final particle vs. sentence-final emoji: The syntax-pragmatics interface in the era of CMC | |
CN111858950B (zh) | 一种基于知识图谱扩充正则句式的方法和装置 | |
JP3892227B2 (ja) | 機械翻訳システム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |