CN1417707A - 一种自然语言语义信息统一编码方法 - Google Patents

一种自然语言语义信息统一编码方法 Download PDF

Info

Publication number
CN1417707A
CN1417707A CN 02153705 CN02153705A CN1417707A CN 1417707 A CN1417707 A CN 1417707A CN 02153705 CN02153705 CN 02153705 CN 02153705 A CN02153705 A CN 02153705A CN 1417707 A CN1417707 A CN 1417707A
Authority
CN
China
Prior art keywords
semantic
unified coding
coding
symbol
vocabulary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN 02153705
Other languages
English (en)
Inventor
刘莎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN 02153705 priority Critical patent/CN1417707A/zh
Publication of CN1417707A publication Critical patent/CN1417707A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本发明涉及一种采用自然语言语义约定客观规律实现各种自然语言语义信息统一编码的方法。此方法可使用户通过采用自己熟悉的任意自然语言进行人机交互,实现对任意自然语言文本的语义信息统一编码。其语义信息统一编码结果,可利用计算机技术自动转换为保证语义信息传递质量的各种译文,并且对各种自然语言处理技术,比如知识传播、合同签订、语言教学、文本检索、自动文摘技术的发展可起到十分重要的推动作用。

Description

一种自然语言语义信息统一编码方法 说明书
                          技术领域
本发明涉及一种自然语言语义信息统一编码方法,更确切地说是涉及一种采用自然语言语义约定客观规律实现的适合于计算机自然语言处理的语义统一编码的方法。
                          技术背景
从信息处理基础技术角度讲,图象信息、声音信息数字编码技术已经使人类能够利用计算机技术对图象信息、声音信息进行快捷准确的全球化传递。自然语言的字符集统一编码Unicode已经可以实现对各种自然语言符号的快捷准确的全球化传递。但是,自然语言之所以称为自然语言,是因为它的形成基于每个人均拥有的一种基本权利:自由创造语言符号和自由约定符号语义。因此,对自然语言进行语义信息编码,尤其是不同自然语言的语义信息进行统一编码始终未能实现。
但是,人类进行自然语言符号语义约定具有有以下客观规律:
递归约定规律:各种自然语言任意词汇的语义,包括固定搭配短语和句子的语义,均可用其常用词汇的语义进行语义递归约定。(比如,朗曼英语词典用一千多常用词汇的语义对任意词汇进行语义约定。)并且,一种自然语言的常用词汇语义,可以对任意其他语言的词汇进行语义约定。(比如,用常用词汇撰写各种双语词典。)
循环约定规律:各种自然语言基本词汇的语义约定规律为循环约定。(比如:“好:表示使人满意,坏的反义词”。“父亲:儿子的爸爸。”)并且,基本词汇与非基本词汇之间也可进行语义循环约定。(比如:美:漂亮、美丽、好看、中看)
根据以上自然语言语义约定客观规律,我们可以做出如下推论:
所有自然语言的必要语义信息,是其常用符号语义的递归函数。
对各种自然语言常用符号语义概念的编码结果,可对任意自然语言句子和符号的语义信息进行递推统一编码。
                          发明内容
根据以上原理,实现本发明的技术方案是这样的:一种自然语言语义信息统一编码方法,其特征包括以下步骤:
A、取任意自然语言的语法概念递归集进行语法信息统一编码;
B、对各种自染语言常用词汇符号的语义项用本语言其他常用符号以句子形式进行语义描述,对多义符号的不同义项,分别进行语义循描述,并根据常用词汇符号语义项的描述结果,对不同语言常用符号语义项匹配成功者给出一级语义统一编码;
C、建立扩展统一编码模板,取自然语言其它词汇符号,根据其不同语义项添入扩展统一编码模板的位置获得二级语义统一编码;
D、凡是不能添入一级语义统一编码的语义扩展统一编码模板的其他自然语言词汇符号,或者用已进行一、二级语义统一编码的相关语义项以句子形式进行语义描述得到三级语义编码,或者通过添入语义扩展编码模板得到三级语义编码;
E、对组成固定搭配短语、固定搭配句子的自然语言符号,用已进行一、二级语义统一编码的词汇及相关语义项,加语法概念交集以句子形式进行语义描述,实现四级语义统一编码。
F、用不同自然语言的词汇符号调用该词汇符号的所有语义项及语义统一编码结果,自动生成不同语言的语法统一编码词典、词汇语义统一编码词典、固定搭配短语、固定搭配句子统一编码辞典。
G、任意自然语言新增词汇符号或对已有符号新加义项,由用户调用语法统一编码词典、词汇语义统一编码词典、固定搭配短语、固定搭配句子统一编码辞典的符号及相关语义项进行语义描述,以获得语义统一编码。
所述步骤A的任意自然语言的语法概念递归统一编码方法包括:所述的编码对象至少包括语法词汇、词汇变形、词汇排序;所述的语法概念递归集至少包括句法成分、时态、语态及语体;所述的语法概念句法递归集成分至少包括:主句、子句、主语、主语修饰、主语补充、谓词、谓词修饰、谓词补充、宾语、宾语修饰、宾语补充、插入语;并且所述的子句句法成分、有句法结构的插入语的句法成分与主句句法成分相同。
所述步骤A的取任意自然语言的语法概念进行语义递归统一编码方法还包括:定语和状语递归为修饰或补充成分进行句法成分编码;实际为宾语的形式主语作为宾语进行句法成分编码;需要强调的句子成分均通过在相应成分区加用强调符进行编码。
所述步骤B的不同自然语言词汇的语义项内容包括:  同义词、反义词、语义描述、词性、上位语义、应用举例,或者上述内容的某一部分。比如:汉语表层符号“好”的语义编码对象之一包括“同义词:佳、不错/反义词:坏/语义描述:使人满意的/词性:名词、形容词/上位语义:评价。举例:表现很好”;其中句子连词和可插入其他内容的短语采用专用标识进行语义编码。
所述步骤B的不同自然语言词汇的语义统一编码对象中的上位语义是指语义的种属关系分类。比如:汉语表层符号“好”的语义编码对象之一“同义词:佳、不错/反义词:坏”和汉语表层符号“坏”的语义编码对象之一“反义词:好”的上位语义均为:评价。
所述步骤B的对不同自然语言常用符号语义项匹配成功者给出一级语义统一编码还包括:对不同自然语言常用符号语义项不能对齐者,在缺少对应符号方用常用符号以句子形式进行语义描述,以实现不同语言常用词汇语义的强制性对齐。
所述步骤C的扩展统一编码模板内容至少包括:纵向坐标为近义程度+1、近义程度+2、近义程度-1、近义程度-2,横向坐标为通用语、书面语、口语、俚语、专用语、成语。
所述步骤C的取各自语言其它词汇符号,通过添入语义扩展统一编码模板的位置获得二级语义统一编码还包括:语义相同、词性不同的符号,保留符号原形并给出词性标注,对“特指”、“特用”词汇符号后面所用词语,必须是已获得语义项统一编码的词汇符号;并且对多义词不同义项,分别进行语义二级编码。
所述步骤C的取各自语言其它词汇符号,通过添入扩展统一编码模板的位置获得二级语义统一编码结果是指:在一级编码结果后加上二级编码结果。或者再加上“特指....”的一、二级语义编码结果。
比如,汉语词汇符号“佳”的二级语义编码结果之一为:在一级编码对象(同义词:佳/不错/;反义词:坏;释义:使人满意的)的编码结果基础上,加上语体坐标“书面语”的编码结果。
所述步骤D中取各种自然语言其它非常用词汇符号的三级语义扩展统一编码结果是指,由三级语义统一编码结果加上描述其语义的一、二级统一编码,或者再加上“舅父”的语义扩展统一编码结果,再加上“特指....”的一、二级语义编码结果构成。
                        具体实施方式
下面结合实施例和附图进一步说明本发明的技术方案:
图1是词汇符号一级语义统一编码及扩展统一编码示意图
图2是词汇符号三级语义统一编码及扩展统一编码示意图
图3是句法成分统一编码模板示意图
实施例1
参见图1,
所述步骤B的实施例如图1所示,汉语符号“好”的语义项之一:“使人满意的”和英语符号”good”的语义项之一:Having the right qualities的语义统一编码结果为:A3/a1。
汉语词汇符号“地道”的语义项之一的二级语义统一编码结果由一级统一编码结果与扩展统一编码结果相加,为:A3B1/B3b3.n.adj。
英语符号nice的语义项之一的二级语义统一编码结果由一级统一编码结果与扩展统一编码结果相加,为:A3a1/B1b1.n.adj。
实施例2
所述步骤B、C的实施例:如果汉语符号“座”是常用符号,其语义项之一:“量词,专用于较大的固定物体”在英语中没有语义对应符号,则用英语的常用词汇及先观语义项进行语义描述:“quantifier/of large and solid thing”,以实现不同语言常用符号语义的强制性对齐。
实施例3
参见图2,
所述步骤D的实施例:汉语符号“舅父”的三级语义统一编码结果由“叔叔”的三级语义统一编码结果加上描述其语义的一、二级统一编码,再加上“舅父”的扩展统一编码结果,为:C11c21(描述其语义的一、二级统一编码)B2b1.n,再加上  “特指....”的一级语义编码结果构成。
实施例4
所述步骤E的实施例:汉语固定搭配短语“绿竹依依”的语义描述结果“形容竹子的美态”的语义统一编码,由已进行一二级语义统一编码的词汇加义项以及通用语法进行语义描述。
实施例5
参见图3,
设主句统一编码为#A、子句统一编码为#B、主语统一编码为*1-1、主语修饰统一编码为*1-2、主语补充统一编码为*1-3、谓词统一编码为*2-1、谓词修饰统一编码为*2-2、谓词补充统一编码为*2-3、宾语统一编码为*3-1、宾语修饰统一编码为*3-2、宾语补充统一编码为*3-3。
汉语例句:“我昨天好不容易才弄到了谁也弄不到的那张光盘。”的整句语义统一编码结果为:
#A*1-1(汉字符号“我”的语义项统一编码结果)/#A*2-2(汉字符号“好不容易”、“才”的语义项统一编码结果)/#A*2-1(汉字符号“弄到”的语义项统一编码结果、汉字符号“了”的“过去时态”统一编码结果)/#A*2-3(汉字符号“昨天”的语义项统一编码结果)/#A*3-2#B*1-1(汉字符号“谁”的语义项统一编码结果)/#A*3-2#B*2-2(汉字符号“也”的语义项统一编码结果)/#A*3-2#B*2-1(汉字符号“不能、得到”的语义项统一编码结果)/#A*3-2(汉字符号“那”的语义项统一编码结果)/#A*3-1(汉字符号“光盘”的语义项统一编码结果)。
实施例6
参见图3,
所述步骤A的实施例:如果上述汉语例句改为“谁也弄不到的那张光盘我昨天好不容易弄到了。”则在宾语区加用强调符(!)的统一编码。
实施例7
所述步骤G的实施例:汉语句子“你有吃饭吗?”的实际语义是“你已经吃过饭了吗?”。如果汉语符号“有”的已进行统一编码义项中没有“时态:已经”,则用户则调用已进行语义统一编码的词汇符号“时态:已经”进行语义描述,以获得语义统一编码。
实施例8
所述步骤F中词汇语义统一编码词典的实施例:
汉语表层符号:好(Unicode编码)
义项1:同义词:佳、不错/反义词:坏/语义描述:使人满意的/词性/上位语义(语义统一编码)
义项2:同义词:赞许、同意....../词性/上位语义(语义统一编码)
义项3:同义词:友爱、和睦....../词性/上位语义(语义统一编码)
义项4:同义词:容易......./词性/上位语义(语义统一编码)
义项5:同义词:非常、相当....../词性/上位语义(语义统一编码)
实施例9
所述步骤C的句子之间的连词,如:“既然你不喜欢我,那么我也不喜欢你”中的句子连词“既然......那么”,用专用符号进行语义信息统一编码;如:*{既然}你不喜欢我,*{那么}我也不喜欢你。
实施例10
所述步骤C的可插入其他符号的短语,如:“在我们遇到的所有问题中,”的可插入其他符号的固定搭配短语“在......中”,在获得语义项统一编码后,用专用符号进行语义信息统一编码。如:“*[在→我们遇到的所有问题←中]*”。
                          发明意义
本发明的意义在于:
1、利用自然语言符号语义约定的递归、循环规律,可用两为数以内的不同符号的组合结果,实现对任意自然语言文本的语义信息统一编码。
2、用户可以通过自己熟悉的任意自然语言进行人机交互,利用计算机技术实现对任意自然语言文本的语义信息统一编码。
3、对任意自然语言文本的语义信息统一编码结果,可利用计算机技术自动转换为与原文语义相同的各种其他自然语言文本和译文语义约定结果,从而实现保证语义信息传递质量的多语通用机器翻译。
4、自然语言语义信息统一编码技术对各种基于计算机技术的自然语言信息处理,比如知识传播、合同签订、语言教学、文本检索、文本分类、自动文摘技术的发展,都可起到十分重要的推动作用。

Claims (10)

1、一种自然语言语义信息统一编码方法,其特征在于:
A、取任意自然语言的语法概念递归集进行语法信息统一编码;
B、对各种自然语言常用词汇符号的语义项,用其他常用符号以句子形式进行语义描述,对多义符号的不同义项,分别进行语义描述,并根据常用词汇符号语义项的描述结果,对不同语言语义项匹配成功者给出一级语义统一编码;
C、建立语义扩展统一编码模板,取各种自然语言非常用词汇符号,通过添入扩展统一编码模板的位置获得二级语义统一编码,并且特指对象、特用于某种情况的词汇符号加上特指、特用对象描述。
D、凡是不能添入一级语义编码语义扩展统一编码模板的自然语言其他词汇符号及符号语义项,或用已进行一、二级语义编码的词汇符号及相关语义项以句子形式进行语义描述,或通过添入三级编码语义扩展编码模板,以获得三级语义编码;
E、对固定搭配短语、固定搭配句子,用已进行一、二级语义编码的词汇符号及相关语义项加语法概念交集进行语义描述,实现四级语义统一编码。
F、用不同自然语言的词汇符号调用该词符号的所有已获得语义统一编码的语义项,自动生成不同语言的语法统一编码词典、词汇语义统一编码词典、固定搭配短语、固定搭配句子统一编码辞典。
G、任意自然语言用户自主新增词汇符号或对已有符号新加语义项,均通过调用语法统一编码词典、词汇语义统一编码词典、固定搭配短语、固定搭配句子统一编码辞典的符号及相关语义项进行语义描述,获得语义统一编码。
2、根据权利要求1所述的方法,其特征在于,所述步骤C的语义扩展统一编码模板内容至少包括:纵向坐标为近义程度+1、近义程度+2、近义程度-1、近义程度-2,横向坐标为通用语、书面语、口语、俚语、专用语、成语。
3、根据权利要求1所述的方法,其特征在于,所述步骤A的取任意自然语言的语法概念递归集进行统一编码方法还包括:所述的编码对象包括语法词汇、词汇变形、词汇排序等各种形式表达的语法概念;所述的语法概念递归集至少包括句法成分、时态、语态、语体;所述的语法概念递归集句法成分至少包括:主句、子句、主语、主语修饰、主语补充、谓词、谓词修饰、谓词补充、宾语、宾语修饰、宾语补充、插入语;并且所述的子句句法成分、有句法结构的插入语的句法成分与主句句法成分结构相同。
4、根据权利要求1所述的方法,其特征在于,所述步骤A的取任意自然语言的语法概念递归集进行统一编码方法还包括:定语和状语递归为修饰或补充成分进行句法成分编码;实际为宾语的形式主语作为宾语进行句法成分编码;需要强调的句子成分均通过在相应句子成分成分区加用强调符进行统一编码。
5、根据权利要求1所述的方法,其特征在于,所述步骤B的对不同语言词汇符号语义项匹配成功者给出一级语义统一编码方法还包括:当不同自然语言常用符号的语义项不能对齐时,则在缺少对应符号方用该自然语言常用符号及相关语义项以句子形式进行语义描述,以保证各种自然语言常用词汇符号的语义项对齐,并获得相同的语义统一编码。
6、根据权利要求1所述的方法,其特征在于,所述步骤B的语义项内容包括:同义词、反义词、语义描述、词性、上位语义、应用举例;并且是上述内容的某一部分。
7、根据权利要求1所述的方法,其特征在于,所述步骤C的取各自语言其它词汇符号,通过添入扩展统一编码模板的位置获得二级语义统一编码的方法还包括:语义相同、词性不同的符号,保留符号原形并给出词性标注,对“特指”、“特用”词汇符号后面所用词语必须是已被语义统一编码的词汇符号以及相关语义项。
8、根据权利要求1所述的方法,其特征在于,所述步骤C的取各种自然语言其它词汇符号,通过添入扩展统一编码模板的位置获得二级语义统一编码结果,由一级编码结果、语义扩展编码结果,“特指....”的一、二级语义编码结果构成。
9、根据权利要求1所述的方法,其特征在于,所述步骤D中取各种自然语言其它非常用词汇符号的三级语义扩展统一编码结果,由三级语义统一编码结果、描述其语义的一、二级统一编码结果、语义扩展统一编码结果,特指、专用于....”的一、二级语义编码结果构成。
10、根据权利要求1和2所述的方法,其特征还在于,对句子连词和可插入其他内容的短语采用专用标识进行语义编码。
CN 02153705 2002-12-02 2002-12-02 一种自然语言语义信息统一编码方法 Pending CN1417707A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 02153705 CN1417707A (zh) 2002-12-02 2002-12-02 一种自然语言语义信息统一编码方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 02153705 CN1417707A (zh) 2002-12-02 2002-12-02 一种自然语言语义信息统一编码方法

Publications (1)

Publication Number Publication Date
CN1417707A true CN1417707A (zh) 2003-05-14

Family

ID=4752338

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 02153705 Pending CN1417707A (zh) 2002-12-02 2002-12-02 一种自然语言语义信息统一编码方法

Country Status (1)

Country Link
CN (1) CN1417707A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007121614A1 (fr) * 2006-04-26 2007-11-01 Wenhe Xu Procédé de traduction automatisée pour la traduction d'une langue en plusieurs langues
CN100498932C (zh) * 2003-09-08 2009-06-10 中国科学院声学研究所 通用的汉语两级混合模板口语对话语言生成方法
CN108170679A (zh) * 2017-12-28 2018-06-15 中国联合网络通信集团有限公司 基于计算机可识别自然语言描述的语义匹配方法及系统
CN108898321A (zh) * 2018-07-09 2018-11-27 西北工业大学 一种基于语义模板的制造技术问题标准冲突参数获取方法
CN110457551A (zh) * 2019-08-14 2019-11-15 梁冰 自然语言的语义递归表示系统的构造方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100498932C (zh) * 2003-09-08 2009-06-10 中国科学院声学研究所 通用的汉语两级混合模板口语对话语言生成方法
WO2007121614A1 (fr) * 2006-04-26 2007-11-01 Wenhe Xu Procédé de traduction automatisée pour la traduction d'une langue en plusieurs langues
CN108170679A (zh) * 2017-12-28 2018-06-15 中国联合网络通信集团有限公司 基于计算机可识别自然语言描述的语义匹配方法及系统
CN108898321A (zh) * 2018-07-09 2018-11-27 西北工业大学 一种基于语义模板的制造技术问题标准冲突参数获取方法
CN108898321B (zh) * 2018-07-09 2021-08-24 西北工业大学 一种基于语义模板的制造技术问题标准冲突参数获取方法
CN110457551A (zh) * 2019-08-14 2019-11-15 梁冰 自然语言的语义递归表示系统的构造方法

Similar Documents

Publication Publication Date Title
O'Shannessy The role of multiple sources in the formation of an innovative auxiliary category in Light Warlpiri, a new Australian mixed language
US8612203B2 (en) Statistical machine translation adapted to context
CN101131689B (zh) 汉语外语句型转换双向机器翻译方法
CN100437557C (zh) 基于语言知识库的机器翻译方法与装置
US8515733B2 (en) Method, device, computer program and computer program product for processing linguistic data in accordance with a formalized natural language
CN1290076C (zh) 基于语音的不受语言限制的搜索系统和方法
CN102902660B (zh) 汉语语音码全拼和混拼汉语全息信息处理方法
CN1573740A (zh) 单语翻译机
Fujita et al. Exploiting semantic information for HPSG parse selection
CN109359304A (zh) 限定性神经网络机器翻译方法及存储介质
CN1224954C (zh) 含有固定和可变语法块的语言模型的语音识别装置
Kang Spoken language to sign language translation system based on HamNoSys
CN111680524A (zh) 基于逆向矩阵分析的人机反馈翻译方法与系统
CN1591414A (zh) 一种汉语到盲文的自动翻译转换方法
Rosso et al. On the voice-activated question answering
Barbiers Where is syntactic variation
Kuo et al. A phonetic similarity model for automatic extraction of transliteration pairs
CN1417707A (zh) 一种自然语言语义信息统一编码方法
CN1489086A (zh) 一种语义约定全文翻译系统和方法
CN1111814C (zh) 开放式全息模板式人机对话语言翻译方法及全息语义标注系统
Wang Porting the galaxy system to Mandarin Chinese
Andersson The fast case: Constructionalization of a Swedish concessive
Ernštreits et al. Language resources and tools for Livonian
CN107526727B (zh) 基于统计机器翻译的语言生成方法
CN107368473B (zh) 一种语音交互的实现方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication