CN108874791B - 一种基于最小语义块的语义分析与汉英调序方法及系统 - Google Patents

一种基于最小语义块的语义分析与汉英调序方法及系统 Download PDF

Info

Publication number
CN108874791B
CN108874791B CN201810739808.XA CN201810739808A CN108874791B CN 108874791 B CN108874791 B CN 108874791B CN 201810739808 A CN201810739808 A CN 201810739808A CN 108874791 B CN108874791 B CN 108874791B
Authority
CN
China
Prior art keywords
semantic
block
node
dymk
semantic node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810739808.XA
Other languages
English (en)
Other versions
CN108874791A (zh
Inventor
刘小蝶
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Union University
Original Assignee
Beijing Union University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Union University filed Critical Beijing Union University
Priority to CN201810739808.XA priority Critical patent/CN108874791B/zh
Publication of CN108874791A publication Critical patent/CN108874791A/zh
Application granted granted Critical
Publication of CN108874791B publication Critical patent/CN108874791B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供一种基于最小语义块的语义分析与汉英调序方法及系统,其中系统包括预处理及语义获取单元,还包括以下单元:识别语义节点单元,语义节点层级判断单元,合并语义节点单元,调序单元,逻辑连接词翻译单元和最小语义块翻译单元。本发明在没有大量句法资源的情况下,在最小语义块的基础上仅使用语义信息、词语位置、搭配信息运用规则的方法高效完成了汉语名词性复杂偏正语块的语义的形式化表达,语义块识别效果准确率高,提高了名词性复杂语块内部语义分析的准确度,改善了英文译文的翻译效果,增强了英文译文的可读性。

Description

一种基于最小语义块的语义分析与汉英调序方法及系统
技术领域
本发明涉及自然语言处理的技术领域,特别是一种基于最小语义块的语义分析与汉英调序方法及系统。
背景技术
面向汉英机器翻译的中文信息处理技术包括面向词语或短语的基于规则的方法、基于模板的方法、基于统计的方法。近几年的工作大都是集中于最长名词短语(MNP)的识别。詹卫东(2000)利用朱德熙提出的短语本位的语法体系,对现代汉语的短语进行了结构分析,具体来说,用产生式规则对短语进行穷尽式描述,也完成了对名词短语(最长名词短语)的描述。从已有参考文献中可知对于 MNP 内部的分析并没有展开。李素建(2002)参照英语组块的提取方法,利用宾州大学汉语树库,从树库中进行组块的抽取。其中定义的名词组块大致相当于BaseNP。在组块识别中,虚词往往作为组块之间的切分标记,首先进行组块的识别,然后进行组块的组合,所以在他们定义的名词短语往往不包含“的”字短语作修饰语的名词短语。胡乃全等(2009)提出提出一种混合的汉语基本名词短语(BaseNP)识别模型,包括采用语法规则、统计方法和组合分类器方法。利用BaseNP词的信息、词性信息及上下文句法信息,构建组合分类器,提高判断的准确性。该模型的不足之处是对单词模板的适用性要求较高,有些BaseNP在某些语言环境中不再是BaseNP或只是BaseNP的一个部分,从而降低了精确率,且系统对上下文句法特征不明显的BaseNP识别的精确率较低。基于模板的方法、基于统计的识别方法具有很大的局限性,并不直接适用于汉语名词性复杂偏正语块中过长偏正语块内部的识别,也不能完成汉英专利偏正语块的翻译。
公开号为CN104142917A的发明专利公开了一种用于语言理解的层次语义树构建方法及系统,其中方法主要包括以下步骤:对语句进行分词并加载语义知识库;根据LV规则识别句子层面的所有节点,根据语义知识和词语位置及搭配识别节点的层次;把句末标点生成特殊的节点,作为语义树的根节点;根据上述生成的节点信息对其进行合并,识别语句句子层面的语义边语块,把0级语义边作为子节点挂于根节点;循环遍历其各个子节点直至无低层次语义边,作为叶子节点挂于子节点。该系统处理的是句子层面的语义识别,相对比较笼统,只是识别了名词性复杂偏正语块,但没有深度挖掘名词性复杂偏正语块内部的语义分析和语义层次树,没有细化针对名词性复杂偏正语块的汉英调序的具体方案,也没有针对名词性复杂偏正语块中文翻译成英文的功能。
发明内容
为了解决上述的技术问题,本发明提出的一种基于最小语义块的语义分析与汉英调序方法及系统,本发明在没有大量句法资源的情况下,在最小语义块的基础上仅使用语义信息、词语位置、搭配信息运用规则的方法高效完成了汉语名词性复杂偏正语块的语义的形式化表达,语义块识别效果准确率高,提高了名词性复杂语块内部语义分析的准确度,改善了英文译文的翻译效果,增强了英文译文的可读性。
本发明的第一目的是提供一种基于最小语义块的语义分析与汉英调序方法,包括对待处理中文语句进行分词预处理并加载分词结果的语义知识,还包括以下步骤:
步骤1:利用逻辑概念并结合语料的实际情况,构建逻辑连接词表,构建规则库,识别语义节点;
步骤2:根据逻辑连接词的属性,构建规则库,以确定语义节点的层级;
步骤3:根据语义节点的层级、位置关系,设计合并语义节点算法,识别出所有的最小语义块,完成汉语名词性复杂偏正语块在语义上的形式化,并得到语义层次树;
步骤4:根据汉英语块的调序策略,设计调序算法,将汉语偏正语块内部的语义块的顺序转成英语的顺序;
步骤5:构建逻辑连接词转换规则,将汉语逻辑连接词转成英语的逻辑连接词;
步骤6:加载英语领域词典和通用词典,对得到的英语进行后处理,即可得到汉语名词性复杂偏正语块的英语译文。
优选的是, 所述对待处理中文语句进行分词预处理并加载分词结果的语义知识包括以下子步骤:
步骤01:构建并使用中文停止词表,基于分词词表(包括领域词表、通用词表)对待处理文本按左向最大长度词语分割,得到左向最大长度词语构成的分词单位;
步骤02:加载概念层次网络词语知识库;
步骤03:对所述中文语句中的所述分词单位中的数字和英语字母进行动态加载语义类别。
在上述任一方案中优选的是,所述分词词表包括领域词表和/或通用词表。
在上述任一方案中优选的是,所述概念层次网络词语知识库中词条的语义知识包括:广义概念类别GCC、概念类别CC和激活标记LV中至少一种。
在上述任一方案中优选的是,所述逻辑连接词包括表示逻辑概念、时态说明符、指代逻辑概念和修饰性指代逻辑符中至少一种的词语。
在上述任一方案中优选的是,所述步骤1包括以下子步骤:
步骤11:构建排除规则,对同时兼有广义概念类别L和V的词语进行消岐处理,以保证逻辑连接词的在语义上的单义性;
步骤12:构建语义节点生成规则,将语义知识中有逻辑概念的逻辑连接词生成语义节点L,将作为辅块搭配后标志符的词语生成语义节点L1H。
在上述任一方案中优选的是,所述步骤2为对所有的所述语义节点L利用其概念类别及其与辅块搭配后标记符的组合关系,构建规则库,以判断其层级。
在上述任一方案中优选的是,所述步骤2包括以下子步骤:
步骤21:构建辅块规则集,将逻辑概念生成语义节点;
步骤22:构建排除内聚性逻辑连接词的规则,将该内聚性逻辑连接词的层级设为-1;
步骤23:构建生成外分性逻辑连接词规则,在需要调序的语义块之间增加一个显性逻辑连接词“的”,生成语义节点DYMK并将其的层级设为0。
在上述任一方案中优选的是,所述语义节点的生成规则包括以下至少一种:
1)如果是前逻辑连接词与后逻辑连接词同时出现,将该语义节点L和该语义节点L1H的层级赋值为1;
2)如果是前逻辑连接词、后逻辑连接词单独出现,将该语义节点L和该语义节点L1H的层级设为0。
在上述任一方案中优选的是,所述排除内聚性逻辑连接词的规则包括以下至少一种:
1)如果逻辑连接词“的”的左边紧邻的是属性概念且不是物概念,将这个逻辑连接词“的”的层级降权赋值为-1;
2)如果逻辑连接词“的”的左边紧邻的是数量概念和范围概念,将这个逻辑连接词“的”的层级降权赋值为-1;
3)如果逻辑连接词“的”的左边紧邻的是属性概念的复杂构成,这种修饰语来源于英语的比较级和最高级及其否定形式的中文表达方式,将这个逻辑连接词“的”的层级降权赋值为-1;
4)如果逻辑连接词“的”的左边紧邻的是动态概念及其复杂构成,将这个逻辑连接词“的”的层级降权赋值为-1。
在上述任一方案中优选的是,所述生成外分性逻辑连接词规则包括以下至少一种:
1)将除内聚性连接词“的”外的逻辑连接词“的”生成一个语义节点DYMK,并将该语义节点的层级赋值为0;
2)如果指代概念、l00概念、数量概念、范围概念、属性概念、时态概念以及它们的组合的左紧邻的是物概念,生成一个语义节点DYMK,并将该语义节点的层级赋值为0;
3)在数字概念、人的概念、组织的概念右侧,生成一个语义节点DYMK,并将该语义节点的层级赋值为0。
在上述任一方案中优选的是,所述步骤3包括以下子步骤:
步骤31:构建合并语义节点算法,生成最小语块和辅块;
步骤32:构建生成块饰类语义块规则,对块首的最小语义块进一步判定语义块的类别——修饰类和核心类。
在上述任一方案中优选的是,所述步骤31为对于层级为0的距离最近语义节点L、L1H、DYMK和块首位置B%、块尾位置E%五个语义边界提示符,按其各自的辖域的方向进行扫描,找到最近且不相邻的语义边界提示符,根据各自的属性,生成最小语义块或辅块。
在上述任一方案中优选的是,所述合并语义节点算法包括以下至少一种:
1)所述块首位置B%只能向右扫描,如果找到紧邻的所述语义节点L,所述块首位置B%(位置为空)与所述语义节点L合为一个语义节点L;
2)所述块尾位置E%只能向左扫描,如果找到紧邻的所述语义节点L1H,所述块尾位置E%与所述语义节点L1H合并为一个语义节点L1H;
3)所述语义节点DYMK向左或右扫描,如果找到紧邻的所述语义节点L1或L1H,所述语义节点DYMK与其合为一个语义节点L1或L1H;
4)所述语义节点L1只能向右扫描,如果找到所述语义节点DYMK,所述语义节点DYMK与其合为一个语义节点L1;
5)所述语义节点L1H只能向左扫描,所述语义节点DYMK与其合为一个语义节点L1;
6)所述块首位置B%向右扫描,如果找到所述语义节点DYMK,所述块首位置B%(位置为空)与所述语义节点DYMK(不含此节点)之间的词语则生成一个最小语义块;
7)所述块首位置B%向右扫描,如果找到非紧邻的所述语义节点L,所述块首位置B%(位置为空)与所述语义节点L(不含此节点)之间的词语则生成一个最小语义块;
8)所述块首位置B%向右扫描,如果找到所述语义节点L1H,所述块首位置B%(位置为空)与所述语义节点L1H(含此节点)之间的词语则生成一个封闭性辅块;
9)所述块尾位置E%只能向左扫描,如果找到所述语义节点DYMK,所述块尾位置E%(位置为空)与所述语义节点DYMK(不含此节点)之间的词语则生成一个最小语义块;
10)所述块尾位置E%向左扫描,如果找到所述语义节点L,所述块尾位置E%(位置为空)与所述语义节点L(含此节点)之间的词语则生成一个封闭类辅块;
11)所述块尾位置E%向左扫描,如果找到非紧邻的所述语义节点L1H,所述块尾位置E%(位置为空)与所述语义节点L1H(不含此节点)之间的词语则生成一个最小语义块;
12)所述语义节点L只能向右扫描,如果找到所述语义节点DYMK,所述语义节点L(含此节点)与所述语义节点DYMK(不含此节点)之间的词语则生成一个辅块;
13)所述语义节点L向右扫描,如果找到与其搭配的所述语义节点L1H或所述块尾位置E%,所述语义节点L(含此节点)与所述语义节点L1H(含此节点)或所述块尾位置E%之间的词语则生成一个封闭类辅块;
14)所述语义节点L1H向左扫描,如果找到所述语义节点DYMK,语义节点L1H(含此节点)与所述语义节点DYMK(不含此节点)之间的词语则生成一个辅块;
15)所述语义节点L1H向左扫描,如果找到与其搭配的所述语义节点L4或所述块尾位置B%,所述语义节点L1H(含此节点)与所述语义节点L(含此节点)或所述块尾位置B%之间的词语则生成一个封闭类辅块;
16)所述语义节点DYMK向左扫描,如果找到所述语义节点DYMK或所述块尾位置E%,所述语义节点DYMK(不含此节点)与所述语义节点DYMK(不含此节点)或所述块尾位置E%之间的词语则生成一个最小语义块;
17)所述语义节点DYMK向左扫描,如果找到非紧邻的所述语义节点L4,所述语义节点DYMK(不含此节点)与所述语义节点L4(不含此节点)之间的词语则生成一个最小语义块;
18)所述语义节点DYMK向左扫描,如果找到非紧邻的所述语义节点L1H,所述语义节点DYMK(不含此节点)与所述语义节点L1H(含此节点)之间的词语则生成一个辅块;
19)所述语义节点DYMK向右扫描,如果找到所述语义节点DYMK或所述块首位置B%,所述语义节点DYMK(不含此节点)与所述语义节点DYMK(不含此节点)或所述块首位置B%之间的词语则生成一个最小语义块;
20)所述语义节点DYMK向右扫描,如果找到非紧邻的所述语义节点L4,所述语义节点DYMK(不含此节点)与所述语义节点L4(含此节点)之间的词语则生成一个辅块;
21)所述语义节点DYMK向左扫描,如果找到非紧邻的所述语义节点L1H,所述语义节点DYMK(不含此节点)与所述语义节点L1H(不含此节点)之间的词语则生成一个最小语义块。
在上述任一方案中优选的是,所述生成块饰类语义块规则包括不限于以下规则:
1)由所述块尾位置E%参与生成的最小语义块的概念类别是数概念j3,则为该最小语义块为修饰类最小语义块(即饰块),并将其属性赋值为KU;
2)由所述块尾位置E%参与生成的最小语义块的概念类别是“量与范围”概念j4,则为该最小语义块为修饰类最小语义块,并将其属性赋值为KU;
3)由所述块尾位置E%参与生成的最小语义块的概念类别是名量词概念zz,则为该最小语义块为修饰类最小语义块,并将其属性赋值为KU;
4)由所述块尾位置E%参与生成的最小语义块的概念类别是动量词概念zzv,则为该最小语义块为修饰类最小语义块,并将其属性赋值为KU;
5)由所述块尾位置E%参与生成的最小语义块的概念类别是指代逻辑符l9,则为该最小语义块为修饰类最小语义块,并将其属性赋值为KU;
6)由所述块尾位置E%参与生成的最小语义块的概念类别是属性概念u/ug,则为该最小语义块为修饰类最小语义块,并将其属性赋值为KU。
在上述任一方案中优选的是,所述调序的策略为:
1)调序分层级,先进行第一层级的调序,再进行第二层级的调序,当在进行第一层级的内部语块的调序时,第二层级的语块暂时保持不变,与语义边界符一起作为一个整体参与第一层级的调序;
2)层级内调序步骤:第一步,修饰性语块BK(属性是KU)按原有顺序移至语块开头;第二步,剩下的语块按照原有顺序的逆序排列在修饰性语块BK之后;第三步,然后将所有辅块FK逆序移至块尾。
在上述任一方案中优选的是,所述调序算法包括以下步骤:
步骤A:汉语的饰块KU先进入队列;
步骤B:将除辅块外的语块BK、语节点DYMK逆序进入队列,得到KU BK DYMK 的集合;
步骤C:将所有辅块FK逆序进入队列;
步骤D:如果封闭性FK内部有语义节点,重复步骤A至步骤C。
在上述任一方案中优选的是,所述逻辑连接词转换规则包括以下至少一种:
1)将所述语义节点DYMK统一替换为英文逻辑连接词“of”;
2)对于辅块FK,根据汉英逻辑连接词的对应关系,构建汉英逻辑连接词转换规则,将汉语逻辑连接词替换为对应的英文逻辑连接词。
在上述任一方案中优选的是,所述步骤6包括以下子步骤:
步骤61:根据英文的领域词典和通用词典将汉语的最小语块BK替换为英文;
步骤62:设计增加英语的冠词a、an、the算法;
步骤63:设计不规则和规则动词变形的算法;
步骤64:设计不规则和规则形容词变形的算法。
本发明的第二目的是提供一种基于最小语义块的语义分析与汉英调序系统,包括用于对待处理中文语句进行分词预处理并加载分词结果的语义知识的预处理及语义获取单元,还包括以下单元:
识别语义节点单元:用于利用逻辑概念并结合语料的实际情况,构建逻辑连接词表,构建规则库,识别语义节点;
语义节点层级判断单元:根据逻辑连接词的属性,构建规则库,以确定语义节点的层级;
合并语义节点单元:根据语义节点的层级、位置关系,设计合并语义节点算法,识别出所有的最小语义块,完成汉语名词性复杂偏正语块在语义上的形式化,并得到语义层次树;
调序单元:根据汉英语块的调序策略,设计调序算法,将汉语偏正语块内部的语义块的顺序转成英语的顺序;
逻辑连接词翻译单元:构建逻辑连接词转换规则,将汉语逻辑连接词转成英语的逻辑连接词;
最小语义块翻译单元:加载英语领域词典和通用词典,对得到的英语进行后处理,即可得到汉语名词性复杂偏正语块的英语译文。
优选的是,所述预处理及语义获取单元的工作包括以下子步骤:
步骤01:构建并使用中文停止词表,基于分词词表(包括领域词表、通用词表)对待处理文本按左向最大长度词语分割,得到左向最大长度词语构成的分词单位;
步骤02:加载概念层次网络词语知识库;
步骤03:对所述中文语句中的所述分词单位中的数字和英语字母进行动态加载语义类别。
在上述任一方案中优选的是,所述分词词表包括领域词表和/或通用词表。
在上述任一方案中优选的是,所述概念层次网络词语知识库中词条的语义知识包括:广义概念类别GCC、概念类别CC和激活标记LV中至少一种。
在上述任一方案中优选的是,所述逻辑连接词包括表示逻辑概念、时态说明符、指代逻辑概念和修饰性指代逻辑符中至少一种的词语。
在上述任一方案中优选的是,所述识别语义节点单元的工作包括以下子步骤:
步骤11:构建排除规则,对同时兼有广义概念类别L和V的词语进行消岐处理,以保证逻辑连接词的在语义上的单义性;
步骤12:构建语义节点生成规则,将语义知识中有逻辑概念的逻辑连接词生成语义节点L,将作为辅块搭配后标志符的词语生成语义节点L1H。
在上述任一方案中优选的是,所述语义节点层级判断单元用于对所有的所述语义节点L利用其概念类别及其与辅块搭配后标记符的组合关系,构建规则库,以判断其层级。
在上述任一方案中优选的是,所述语义节点层级判断单元的工作包括以下子步骤:
步骤21:构建辅块规则集,将逻辑概念生成语义节点;
步骤22:构建排除内聚性逻辑连接词的规则,将该内聚性逻辑连接词的层级设为-1;
步骤23:构建生成外分性逻辑连接词规则,在需要调序的语义块之间增加一个显性逻辑连接词“的”,生成语义节点DYMK并将其的层级设为0。
在上述任一方案中优选的是,所述语义节点的生成规则包括以下至少一种:
1)如果是前逻辑连接词与后逻辑连接词同时出现,将该语义节点L和该语义节点L1H的层级赋值为1;
2)如果是前逻辑连接词、后逻辑连接词单独出现,将该语义节点L和该语义节点L1H的层级设为0。
在上述任一方案中优选的是,所述排除内聚性逻辑连接词的规则包括以下至少一种:
1)如果逻辑连接词“的”的左边紧邻的是属性概念且不是物概念,将这个逻辑连接词“的”的层级降权赋值为-1;
2)如果逻辑连接词“的”的左边紧邻的是数量概念和范围概念,将这个逻辑连接词“的”的层级降权赋值为-1;
3)如果逻辑连接词“的”的左边紧邻的是属性概念的复杂构成,这种修饰语来源于英语的比较级和最高级及其否定形式的中文表达方式,将这个逻辑连接词“的”的层级降权赋值为-1;
4)如果逻辑连接词“的”的左边紧邻的是动态概念及其复杂构成,将这个逻辑连接词“的”的层级降权赋值为-1。
在上述任一方案中优选的是,所述生成外分性逻辑连接词规则包括以下至少一种:
1)将除内聚性连接词“的”外的逻辑连接词“的”生成一个语义节点DYMK,并将该语义节点的层级赋值为0;
2)如果指代概念、l00概念、数量概念、范围概念、属性概念、时态概念以及它们的组合的左紧邻的是物概念,生成一个语义节点DYMK,并将该语义节点的层级赋值为0;
3)在数字概念、人的概念、组织的概念右侧,生成一个语义节点DYMK,并将该语义节点的层级赋值为0。
在上述任一方案中优选的是,所述合并语义节点单元的工作包括以下子步骤:
步骤31:构建合并语义节点算法,生成最小语块和辅块;
步骤32:构建生成块饰类语义块规则,对块首的最小语义块进一步判定语义块的类别——修饰类和核心类。
在上述任一方案中优选的是,所述步骤31为对于层级为0的距离最近语义节点L、L1H、DYMK和块首位置B%、块尾位置E%五个语义边界提示符,按其各自的辖域的方向进行扫描,找到最近且不相邻的语义边界提示符,根据各自的属性,生成最小语义块或辅块。
在上述任一方案中优选的是,所述合并语义节点算法包括以下至少一种:
1)所述块首位置B%只能向右扫描,如果找到紧邻的所述语义节点L,所述块首位置B%(位置为空)与所述语义节点L合为一个语义节点L;
2)所述块尾位置E%只能向左扫描,如果找到紧邻的所述语义节点L1H,所述块尾位置E%与所述语义节点L1H合并为一个语义节点L1H;
3)所述语义节点DYMK向左或右扫描,如果找到紧邻的所述语义节点L1或L1H,所述语义节点DYMK与其合为一个语义节点L1或L1H;
4)所述语义节点L1只能向右扫描,如果找到所述语义节点DYMK,所述语义节点DYMK与其合为一个语义节点L1;
5)所述语义节点L1H只能向左扫描,所述语义节点DYMK与其合为一个语义节点L1H;
6)所述块首位置B%向右扫描,如果找到所述语义节点DYMK,所述块首位置B%(位置为空)与所述语义节点DYMK(不含此节点)之间的词语则生成一个最小语义块;
7)所述块首位置B%向右扫描,如果找到非紧邻的所述语义节点L,所述块首位置B%(位置为空)与所述语义节点L(不含此节点)之间的词语则生成一个最小语义块;
8)所述块首位置B%向右扫描,如果找到所述语义节点L1H,所述块首位置B%(位置为空)与所述语义节点L1H(含此节点)之间的词语则生成一个封闭性辅块;
9)所述块尾位置E%只能向左扫描,如果找到所述语义节点DYMK,所述块尾位置E%(位置为空)与所述语义节点DYMK(不含此节点)之间的词语则生成一个最小语义块;
10)所述块尾位置E%向左扫描,如果找到所述语义节点L,所述块尾位置E%(位置为空)与所述语义节点L(含此节点)之间的词语则生成一个封闭类辅块;
11)所述块尾位置E%向左扫描,如果找到非紧邻的所述语义节点L1H,所述块尾位置E%(位置为空)与所述语义节点L1H(不含此节点)之间的词语则生成一个最小语义块;
12)所述语义节点L只能向右扫描,如果找到所述语义节点DYMK,所述语义节点L(含此节点)与所述语义节点DYMK(不含此节点)之间的词语则生成一个辅块;
13)所述语义节点L向右扫描,如果找到与其搭配的所述语义节点L1H或所述块尾位置E%,所述语义节点L(含此节点)与所述语义节点L1H(含此节点)或所述块尾位置E%之间的词语则生成一个封闭类辅块;
14)所述语义节点L1H向左扫描,如果找到所述语义节点DYMK,语义节点L1H(含此节点)与所述语义节点DYMK(不含此节点)之间的词语则生成一个辅块;
15)所述语义节点L1H向左扫描,如果找到与其搭配的所述语义节点L或所述块尾位置B%,所述语义节点L1H(含此节点)与所述语义节点L(含此节点)或所述块尾位置B%之间的词语则生成一个封闭类辅块;
16)所述语义节点DYMK向左扫描,如果找到所述语义节点DYMK或所述块尾位置E%,所述语义节点DYMK(不含此节点)与所述语义节点DYMK(不含此节点)或所述块尾位置E%之间的词语则生成一个最小语义块;
17)所述语义节点DYMK向左扫描,如果找到非紧邻的所述语义节点L4,所述语义节点DYMK(不含此节点)与所述语义节点L4(不含此节点)之间的词语则生成一个最小语义块;
18)所述语义节点DYMK向左扫描,如果找到非紧邻的所述语义节点L1H,所述语义节点DYMK(不含此节点)与所述语义节点L1H(含此节点)之间的词语则生成一个辅块;
19)所述语义节点DYMK向右扫描,如果找到所述语义节点DYMK或所述块首位置B%,所述语义节点DYMK(不含此节点)与所述语义节点DYMK(不含此节点)或所述块首位置B%之间的词语则生成一个最小语义块;
20)所述语义节点DYMK向右扫描,如果找到非紧邻的所述语义节点L4,所述语义节点DYMK(不含此节点)与所述语义节点L4(含此节点)之间的词语则生成一个辅块;
21)所述语义节点DYMK向左扫描,如果找到非紧邻的所述语义节点L1H,所述语义节点DYMK(不含此节点)与所述语义节点L1H(不含此节点)之间的词语则生成一个最小语义块。
在上述任一方案中优选的是,所述生成块饰类语义块规则包括不限于以下规则:
1)由所述块尾位置E%参与生成的最小语义块的概念类别是数概念j3,则为该最小语义块为修饰类最小语义块(即饰块),并将其属性赋值为KU;
2)由所述块尾位置E%参与生成的最小语义块的概念类别是“量与范围”概念j4,则为该最小语义块为修饰类最小语义块,并将其属性赋值为KU;
3)由所述块尾位置E%参与生成的最小语义块的概念类别是名量词概念zz,则为该最小语义块为修饰类最小语义块,并将其属性赋值为KU;
4)由所述块尾位置E%参与生成的最小语义块的概念类别是动量词概念zzv,则为该最小语义块为修饰类最小语义块,并将其属性赋值为KU;
5)由所述块尾位置E%参与生成的最小语义块的概念类别是指代逻辑符l9,则为该最小语义块为修饰类最小语义块,并将其属性赋值为KU;
6)由所述块尾位置E%参与生成的最小语义块的概念类别是属性概念u/ug,则为该最小语义块为修饰类最小语义块,并将其属性赋值为KU。
在上述任一方案中优选的是,所述调序的策略为:
1)调序分层级,先进行第一层级的调序,再进行第二层级的调序,当在进行第一层级的内部语块的调序时,第二层级的语块暂时保持不变,与语义边界符一起作为一个整体参与第一层级的调序;
2)层级内调序步骤:第一步,修饰性语块BK(属性是KU)按原有顺序移至语块开头;第二步,剩下的语块按照原有顺序的逆序排列在修饰性语块BK之后;第三步,然后将所有辅块FK逆序移至块尾。
在上述任一方案中优选的是,所述调序算法包括以下步骤:
步骤A:汉语的饰块KU先进入队列;
步骤B:将除辅块外的语块BK、语节点DYMK逆序进入队列,得到KU BK DYMK 的集合;
步骤C:将所有辅块FK逆序进入队列;
步骤D:如果封闭性FK内部有语义节点,重复步骤A至步骤C。
在上述任一方案中优选的是,所述逻辑连接词转换规则包括以下至少一种:
1)将所述语义节点DYMK统一替换为英文逻辑连接词“of”;
2)对于辅块FK,根据汉英逻辑连接词的对应关系,构建汉英逻辑连接词转换规则,将汉语逻辑连接词替换为对应的英文逻辑连接词。
在上述任一方案中优选的是,所述最小语义块翻译单元的工作包括以下子步骤:
步骤61:根据英文的领域词典和通用词典将汉语的最小语块BK替换为英文;
步骤62:设计增加英语的冠词a、an、the算法;
步骤63:设计不规则和规则动词变形的算法;
步骤64:设计不规则和规则形容词变形的算法。
本发明提出了一种基于最小语义块的语义分析与汉英调序方法及系统,能够对汉语名词性复杂偏正语块中偏正语块内部最小语义块进行识别,并在此基础上实现汉英专利中名词性复杂偏正语块的翻译,解决了现有技术中需要考察一定规模的汉英名词性复杂偏正语块,确定切分最小语义块的依据,对文本的领域依赖性强的问题。
附图说明
图1为按照本发明的基于最小语义块的语义分析与汉英调序方法的一优选实施例的流程图。
图2为按照本发明的基于最小语义块的语义分析与汉英调序系统的一优选实施例的模块图。
图3为按照本发明的基于最小语义块的语义分析与汉英调序方法的另一优选实施例的分析结果的语义树示意图。
图4为按照本发明的基于最小语义块的语义分析与汉英调序方法的如图3所示实施例的翻译结果的语义树示意图。
具体实施方式
下面结合附图和具体的实施例对本发明做进一步的阐述。
实施例一
本实施例中提供一种基于最小语义块的名词性复杂偏正语块的语义分析方法与汉英调序方法及系统。自然语言中重要的意义载体是名词,因此需要对名词进行多角度多层次的修饰,修饰语越多,修饰或限制得越准确严格,表达得越精确严密。从语义类别上来说,修饰语主要对名词的性质、状态、特征、所述、时间、处所、数量、范围、功用、材料等一个或多个方面进行限定。立足于翻译需求,通过对比,发现汉英名词性复杂偏正语块在意义表达上具备大量的意义等价的语言片段即语义块。最小语义块是在对比汉英名词性复杂偏正语块的基础上得出的最小的语义对等的词或若干词语组合,长度上不是固定的,可以是一个词,也可以是若干词语的组合。一个偏正语块可以是一个语义块,也可由逻辑概念与若干语义块构成。
如图1、2所示,执行步骤100,预处理及语义获取单元200对待处理中文语句进行分词预处理,加载分词结果的语义知识。步骤110进一步包括:
1)对待处理中文语句进行分词处理,得到所述中文句子中所有分词单位和特殊字符构成的词语和语言片段序列集合,具体步骤如下:构建并使用中文停止词表;基于分词词表对待处理文本按左向最大长度词语分割,得到由词、单个或连续的阿拉伯数字、单个或连续的中文数字、单个或连续的英文字母、连续的阿拉伯数字与英文字母组合的构成的所述分词单位;
2)加载分词后词语和语言片段序列集合的语义知识,即,从概念层次网络词语知识库中或运用算法动态加载语义知识,生成所述词语和语言片段序列集合所对应的概念类别,得到概念类别序列集合。具体包括以下几个步骤:
① 加载概念层次网络词语知识库中的语义知识,以概念层次网络(HNC)理论为指导的语义知识网络主要包括广义概念GCC及其子类(概念类别)CC。所述词语的广义概念类包括动态概念、静态概念、物概念、人概念、属性概念、逻辑概念。需要说明的是, L(逻辑概念)是表达语义组合手段的概念,如:L41方式、L42工具、L43途径、L44比照、L45、条件、L46、动因、L47目的。表达逻辑概念的词语是逻辑连接词。概念类别的分类及其说明如表1所示。
符号 解释说明和举例
pp 人。包括p, pr, rp, pg, gp, p-, <i>l</i>p;pe等。
jw6 生命体。包括人、动物、植物、微生物等。
ww 无生命物。包括w, pw, jw, rw, rvw等。
pw 人造物。如:计算机 轮船 衣服等
gw 信息物 如:书本 信函 文件
j1 时间。包括j1,wj1,pj1。如:时分秒 年月日 星期
j2 空间。包括j1, j2, j3, j4, g40, g55, g56, j01。如:上面 城市 教室
j3 数。如:一 百 亿
j4 量与范围。如:部分 全部 上限 底线 外围
v 动态。如:安设 传送 公开 明白 揭示
g 静态。如:设备 方法 系统 技术 金属
u 属性。如:正确 长远 简单 深刻 彻底
z 值。如:阈值 剂量 容差 重量比
r 效应。如:想法 标志 财富 策略 缺点
vv 后接动态概念的v。如:努力 尽力 善于 开始 设法 试图
uv 只用于v前的u。如:飞速 成倍 超额 大力 陆续
ug 只用于g前的u。如:黑白 大型 基本 慢性
uu 纯副词。如:非常 稍微 十分 更加 完全(明白,正确) 很 更
zz 名量词。如:条 匹 位 件 小时 人年
zzv 动量词。如:趟 次 下 拳 巴掌
qv 上装之一前缀。如:来 去
hv 下装之一后缀。如:着 了 过 够 掉 住 完 到 成 来 给 起来
hu 形容词后缀。如:不堪 极了 得很
hJ 句子后缀。如:罢了 而已
qh 词缀。如:阿 老 副 前 器 桶 子
l00 特征语块标志符。如:所 而
l01 作用者语块标志符。如:被 由
l02 对象语块标志符。如:对 把
l03 内容语块标志符。如:把 就
<i>L4</i>0 辅块标志符,主辅不分。如:关于 就 针对
<i>L4</i>1 手段辅块标志符。如:以 通过 靠
<i>L4</i>2 工具辅块标志符。如:通过 用
<i>L4</i>3 途径辅块标志符。如:通过
<i>L4</i>4 比照辅块标志符。如:比 根据 像
<i>L4</i>5 条件辅块标志符。如:在 于
<i>L4</i>6 起因辅块标志符。如:因 由于
<i>L4</i>7 目的辅块标志符。如:为了
<i>L1H</i> 辅块搭配后标志符。如:中
<i>l</i>4 语块内部两对象组合逻辑符。如:并 而 又 与 同 的
<i>l</i>5 语块内部集合关系逻辑符。如:间 等 而外
<i>l</i>6 EK说明符(时态),包括原来的l6和l7。如:已经 曾经 正在 将要
<i>l</i>9 指代逻辑符。如:这 任何
lu9 修饰性指代逻辑符。如:本 所述
<i>l</i>a 句内连接说明符。如:又 再 也 就
<i>l</i>b 句间连接说明符。如:不但 既然 并且 于是
j<i>l</i>u 源于j<i>L4</i>的QE。如:不 没 可能 应该 必须 必然
fK 辅块。如:从中 按例 有时
s 综合概念。如:方式 工具 条件
fy 语习概念。如:包括独立语,插入语,称呼,感叹词
x 物性。包括x, px, gx, jx, xg, xr, xz等。
表1:概念类别符号、解释说明及示例
概念层次网络词语知识库体例的基本格式如下:
词形
$ Feature[Value] $
例如:
半导体元件
$ GCC[W] CC[pw] $
$ GCC[L] CC[L4] CC[L43] LV[L4] $
之中
$ GCC[L] CC[L1H] LV[L1H] $
其中,以词条“半导体元件”为例,GCC[W]:GCC取值为W,表示该词条的广义概念是物,CC[pw]:CC取值为pw表示概念类别是人造物PW,可能是语义块的后边界;以词条“从”为例,GCC[L]:GCC取值为L,表示该词条的广义概念是逻辑概念,CC[L4]表示该词条的概念类别是方式,LV [L4]:LV取值为L4,表示该词可以利用边界感知激活,并识别为L4,是语义块的前边界。以词条“之中”为例, CC取值为L1H,是逻辑概念的附属后标记,LV [L1H]:LV取值为L1H,表示该词可以利用边界感知激活,并识别为L1H,是语义块的前边界。
② 对所述中文句子中的所述分词单位中的数字和英语字母动态附上语义类别,具体步骤如下:
合并所述分词单位中的单个或连续的阿拉伯数字生成数词短语,动态加载概念类别NUM;
合并所述分词单位中的单个或连续的中文数字生成数词短语,动态加载概念类别C_NUM;
合并所述分词单位中的单个或连续的阿拉伯数字和英语字母生成英文专名,动态加载概念类别SPN;
合并所述分词单位中的单个或连续英语字母生成英文专名,动态加载概念类别SPN。
执行步骤110,识别语义节点单元220利用逻辑概念并结合语料的实际情况,构建逻辑连接词表,构建规则库,识别语义节点。
逻辑连接词是主要包括表示逻辑概念的词语,但是不限于此。通过对比和考察一定规模的汉英名词性复杂偏正语块中的最小语义块,有些时态说明符、指代逻辑概念也具有典型的语义块切分的功能。在实际语料中,逻辑连接词还兼有广义概念L和V。
1)构建排除规则,对同时兼有广义概念类别L和V的词语进行消岐处理,以保证逻辑连接词的在语义上的单义性;
2)构建逻辑语义节点生成规则,将逻辑连接词生成语义节点L,将作为辅块搭配后标志符的词语生成语义节点L1H;
逻辑连接词的语义特点及示例如表2所示。
Figure DEST_PATH_IMAGE001
表2:逻辑概念连接词语义特征的语义特点及其示例列表
3)构建生成外分性连接词规则,在需要调序的语义块之间增加一个显性逻辑连接词“的”,生成语义节点DYMK;
根据上述3个步骤,目前得到的所有的语义节点是:L、L1H、DYMK。
执行步骤120,语义节点层级判断单元220根据逻辑连接词的属性,构建规则库,以确定语义节点的层级。
逻辑连接词按照其属性即其与最小语义块的组合关系、与英文的对照关系可分为组合型逻辑连接词(包括前逻辑连接词和后逻辑连接词)、外分性逻辑连接词、内聚性逻辑连接词。如表3所示。
Figure DEST_PATH_IMAGE003
表3:逻辑连接词的组合特点和示例
1)对所有语义节点L利用其概念类别及其与辅块搭配后标记符的组合关系,构建规则库,以判断其层级,具体包括:
如果是前逻辑连接词与后逻辑连接词同时出现,将该语义节点L和该语义节点L1H的层级赋值为1;
如果是前逻辑连接词、后逻辑连接词单独出现,将该语义节点L和该语义节点L1H的层级设为0;
2) 构建排除内聚性逻辑连接词的规则,将该内聚性逻辑连接词的层级设为-1;
如果逻辑连接词“的”的左边紧邻的是属性概念且不是物概念,将这个逻辑连接词“的”的层级降权赋值为-1;
如果逻辑连接词“的”的左边紧邻的是数量概念和范围概念,将这个逻辑连接词“的”的层级降权赋值为-1;
如果逻辑连接词“的”的左边紧邻的是指代概念,将这个逻辑连接词“的”的层级降权赋值为-1;
如果逻辑连接词“的”的左边紧邻的是属性概念的复杂构成,这种修饰语来源于英语的比较级和最高级及其否定形式的中文表达方式,将这个逻辑连接词“的”的层级降权赋值为-1;
如果逻辑连接词“的”的左边紧邻的是动态概念及其复杂构成,这种修饰语来源于英语中过去分词(-ed)、过去分词(-ing)及其否定式前缀(-un/-dis)等修饰语,这样产生一批具有翻译风格的“的”和“的”字组合,如“-后的”、“已经-的”,将这个逻辑连接词“的”的层级降权赋值为-1。
3)构建外分性连接词规则,生成一个语义节点DYMK,并将该语义节点的层级赋值为0;
将除内聚性连接词“的”外的逻辑连接词“的”生成一个语义节点DYMK,并将该语义节点的层级赋值为0;
如果指代概念、l00概念、数量概念、范围概念、属性概念、时态概念以及它们的组合的左紧邻的是物概念,生成一个语义节点DYMK,并将该语义节点的层级赋值为0;
在数字概念、人的概念、组织的概念右侧,生成一个语义节点DYMK,并将该语义节点的层级赋值为0。
执行步骤130,合并语义节点单元230根据语义节点的层级、位置关系,设计算法,识别出所有的最小语义块,完成汉语名词性复杂偏正语块在语义上的形式化,并得到语义层次树。
1)构建合并语义节点算法,生成最小语块和辅块。
层级为0的距离最近语义节点L、L1H、DYMK和块首位置B%、块尾位置E%五个语义边界提示符,按其各自的辖域的方向进行扫描,找到最近且不相邻的语义边界提示符,根据各自的属性,生成最小语义块或辅块;
具体说来,包括以下几个步骤:
所述块首位置B%只能向右扫描,如果找到紧邻的所述语义节点L,所述块首位置B%(位置为空)与所述语义节点L合为一个语义节点L;
所述块尾位置E%只能向左扫描,如果找到紧邻的所述语义节点L1H,所述块尾位置E%与所述语义节点L1H合并为一个语义节点L1H;
所述语义节点DYMK向左或右扫描,如果找到紧邻的所述语义节点L1或L1H,所述语义节点DYMK与其合为一个语义节点L1或L1H;
所述语义节点L1只能向右扫描,如果找到所述语义节点DYMK,所述语义节点DYMK与其合为一个语义节点L1;
所述语义节点L1H只能向左扫描,所述语义节点DYMK与其合为一个语义节点L1H;
所述块首位置B%向右扫描,如果找到所述语义节点DYMK,所述块首位置B%(位置为空)与所述语义节点DYMK(不含此节点)之间的词语则生成一个最小语义块;
所述块首位置B%向右扫描,如果找到非紧邻的所述语义节点L,所述块首位置B%(位置为空)与所述语义节点L(不含此节点)之间的词语则生成一个最小语义块;
所述块首位置B%向右扫描,如果找到所述语义节点L1H,所述块首位置B%(位置为空)与所述语义节点L1H(含此节点)之间的词语则生成一个封闭性辅块;
所述块尾位置E%能向左扫描,如果找到所述语义节点DYMK,所述块尾位置E%(位置为空)与所述语义节点DYMK(不含此节点)之间的词语则生成一个最小语义块;
所述块尾位置E%向左扫描,如果找到所述语义节点L,所述块尾位置E%(位置为空)与所述语义节点L(含此节点)之间的词语则生成一个封闭类辅块;
所述块尾位置E%向左扫描,如果找到非紧邻的所述语义节点L1H,所述块尾位置E%(位置为空)与所述语义节点L1H(不含此节点)之间的词语则生成一个最小语义块;
所述语义节点L只能向右扫描,如果找到所述语义节点DYMK,所述语义节点L(含此节点)与所述语义节点DYMK(不含此节点)之间的词语则生成一个辅块;
所述语义节点L向右扫描,如果找到与其搭配的所述语义节点L1H或所述块尾位置E%,所述语义节点L(含此节点)与所述语义节点L1H(含此节点)或所述块尾位置E%之间的词语则生成一个封闭类辅块;
所述语义节点L1H向左扫描,如果找到所述语义节点DYMK,语义节点L1H(含此节点)与所述语义节点DYMK(不含此节点)之间的词语则生成一个辅块;
所述语义节点L1H向左扫描,如果找到与其搭配的所述语义节点L或所述块尾位置B%,所述语义节点L1H(含此节点)与所述语义节点L(含此节点)或所述块尾位置B%之间的词语则生成一个封闭类辅块;
所述语义节点DYMK向左扫描,如果找到所述语义节点DYMK或所述块尾位置E%,所述语义节点DYMK(不含此节点)与所述语义节点DYMK(不含此节点)或所述块尾位置E%之间的词语则生成一个最小语义块;
所述语义节点DYMK向左扫描,如果找到非紧邻的所述语义节点L,所述语义节点DYMK(不含此节点)与所述语义节点L(不含此节点)之间的词语则生成一个最小语义块;
所述语义节点DYMK向左扫描,如果找到非紧邻的所述语义节点L1H,所述语义节点DYMK(不含此节点)与所述语义节点L1H(含此节点)之间的词语则生成一个辅块;
所述语义节点DYMK向右扫描,如果找到所述语义节点DYMK或所述块首位置B%,所述语义节点DYMK(不含此节点)与所述语义节点DYMK(不含此节点)或所述块首位置B%之间的词语则生成一个最小语义块;
所述语义节点DYMK向右扫描,如果找到非紧邻的所述语义节点L,所述语义节点DYMK(不含此节点)与所述语义节点L(含此节点)之间的词语则生成一个辅块;
所述语义节点DYMK向左扫描,如果找到非紧邻的所述语义节点L1H,所述语义节点DYMK(不含此节点)与所述语义节点L1H(不含此节点)之间的词语则生成一个最小语义块。
按照逻辑连接词与语义块的组合特征,按照从左至右的顺序,根据块首位置B%、语义节点L、语义块FK、语义节点L1H、语义节点DYMK、块尾位置E%六种信息,将节点之间的词语生成语义块BK,最后可以得到语义块BK、辅块FK、 语义节点DYMK。
需要特别说明的是,对于语义节点FK,其语义节点L和语义节点L1H内部的词语是一个语块,如果内部有其它层级为0的语义节点,再对这个语块重复上述步骤,如果没有层级为0的语义节点,则是一个语义块。
2)构建生成块饰类语义块规则,对块首的最小语义块进一步判定语义块的类别——修饰类和核心类。
如果该语块是由数概念类别j3、“量与范围”概念类别j4、名量词概念zz、动量词概念zzv、指代逻辑符l9、属性概念u/ug构成的,则生成修饰类语义块,其属性为块饰KU。
执行步骤140,调序单元240根据汉英语块的调序策略,设计调序算法,将汉语偏正语块内部的语义块的顺序转成英语的顺序。
由上述分析可知,一个汉语复杂的偏正语块主要由块饰、最小语义块、辅块三种承载意义的语块构成,且可能出现层级性。通过对比一定规模的汉英复杂名词性偏正语块内部语义块的顺序,得到汉英复杂名词性偏正语块的调序策略:1)调序要分层级,先进行第一层级的调序,再进行第二层级的调序。当在进行第一层级的内部语块的调序时,第二层级的语块暂时保持不变,与语义边界符一起作为一个整体参与第一层级的调序。2)层级内调序步骤:第一步,修饰性语块BK(属性是KU)按原有顺序移至语块开头;第二步,剩下的语块按照原有顺序的逆序排列在修饰性语块BK之后;第三步,然后将所有辅块FK逆序移至块尾。
实施该策略设计的调序算法分为:
汉语的饰块KU先进入队列;
将除辅块外的语块BK、语节点DYMK逆序进入队列,得到KU BK DYMK 的集合;
将所有辅块FK逆序进入队列;
如果封闭性FK内部有语义节点,可以重复上述步骤。
执行步骤150,逻辑连接词翻译单元250构建逻辑连接词转换规则,将汉语逻辑连接词转成英语的逻辑连接词,具体包括:
将语义节点DYMK统一替换为英文逻辑连接词“of”;
对于辅块FK,根据汉英逻辑连接词的对应关系,构建汉英逻辑连接词转换规则,将汉语逻辑连接词替换为对应的英文逻辑连接词。
执行步骤160,最小语义块翻译单元260加载英语领域词典和通用词典,对得到的英语进行后处理,即可得到汉语名词性复杂偏正语块的英语译文。
根据英文的领域词典和通用词典将汉语的最小语块BK替换为英文;
设计增加英语的冠词a、an、the算法;
设计不规则和规则动词变形的算法;
设计不规则和规则形容词变形的算法。
上述完成名词性复杂偏正语块的形式化表达、构建语义树是在概念层次网络理论的指导下,在没有句法资源的情况下,仅使用语义信息和语言规则而得到的。作为一种语义分析技术,本发明使计算机能够进入自然语言的语义深层,可广泛应用在自然语言处理领域,如信息检索、自动文摘、机器翻译、文本分类以及信息过滤等方便。在形式化表达、构建语义树的基础上,完成语义树的汉英转换,最后翻译为英文文本。本实施例中的基于最小语义块的翻译方法,已经应用到专利文献汉英机器翻译上,显著提高了专利文献译文的可读性和准确性。
实施例二
本发明所要解决的技术问题对汉语名词性复杂偏正语块中偏正语块内部最小语义块进行识别,并在此基础上实现汉英专利中名词性复杂偏正语块的翻译,需要考察一定规模的汉英名词性复杂偏正语块,确定切分最小语义块的依据,对文本的领域依赖性强。
本发明以概念类别作为切分信息提取的参照物,并在此基础上进一步使用产生式规则来识别最小语义块的语义节点,根据语义节点的组合性、外分性、内聚性属性通过删去和增加语义节点识别出最小语义块所有的语义节点并判断其层级,设计合并语义节点算法,识别所有的最小语义块,完成汉语复杂名词性偏正语块在语义上的形式化,设计调序和翻译算法,完成汉英名词性复杂偏正语块的调序和翻译。本发明在没有大量句法资源的情况下,在最小语义块的基础上仅使用语义信息、词语位置、搭配信息运用规则的方法高效完成了汉语名词性复杂偏正语块的语义的形式化表达,语义块识别效果准确率高,提高了名词性复杂语块内部语义分析的准确度,改善了英文译文的翻译效果,增强了英文译文的可读性。作为一种语义分析技术,本发明可用于信息检索、自动文摘、机器翻译、文本分类、信息过滤以及人工智能等。
实施例三
本实施例中给出一种基于最小语义块的名词性复杂偏正语块的语义分析方法与汉英调序方法的一个具体的应用实例。
如图3所示,待处理汉语语句“两个在本发明的实施例中的拉伸的剪式齿轮18于开启和关闭状态的上部立视图”。本实例有5个最小的语义块,分别是BK “本发明”、BK“实施例”、BK “ 剪式齿轮18” 、BK “开启和关闭状态” 、BK “上部立视图”,其中KU“两个”根据其概念类别是数量概念和块首位置,可以将此语块判定为修饰类语义块。本实例的语义节点为L4“在”、DYMK“的”、L1H“中”、L4“于”,由这个语义节点生成5个最小的语义块。需要注意的是,“拉伸”后的“的”可根据“拉伸”的概念类别是纯动词且与一个“的”紧密相连,据此可以将“的”判定为为内聚性逻辑连接词,故此“的”未将“拉伸的剪式齿轮18”切割为“拉伸”“剪式齿轮18”两个语义块。语义节点L4 “于”与其后最近的语义节点DYMK“的”可生成一个辅块FK“于开启和关闭状态”。语义节点L4 “在”与L1H“中”生成一个闭合的辅块FK“在本发明的实施例中”,其内部的语块BK“本发明的实施例”可进行递归处理,由DYMK“的”切割出两个最小语义块BK “本发明”和BK“实施例”,最后得出一个内含两个层级的汉语偏正语块语义树。词汉语偏正语块的一次层的语块序列为:KU FK1 BK1 FK2 DYMK1 BK2,第二层级的语块序列为:BK11 BK12。
先进行第一层级的语块调序。KU首先进入队列,得到KU。除辅块外的语块逆序进入队列,得到KU BK DYMK BK的序列。最后将辅块逆序进入队列,得到KU BK2 DYMK1 BK1 FK2FK1的序列。再进行第二层级的语块调序。BK12 DYMK11 BK11。根据转换规则,将DYMK替换为英语逻辑连接词“of”,将汉语逻辑连接词替换为英语连接词“in”。根据英语领域词典和通用词典,将汉语的BK替换为英文单词,通过加载冠词、动词形态、形容词形态进行最后修剪,可以得到汉语偏正语块对应的英语译文,如图4所示。
为了更好地理解本发明,以上结合本发明的具体实施例做了详细描述,但并非是对本发明的限制。凡是依据本发明的技术实质对以上实施例所做的任何简单修改,均仍属于本发明技术方案的范围。本说明书中每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似的部分相互参见即可。对于系统实施例而言,由于其与方法实施例基本对应,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。

Claims (10)

1.一种基于最小语义块的语义分析与汉英调序方法,包括对待处理中文语句进行分词预处理并加载分词结果的语义知识,其特征在于,还包括以下步骤:
步骤1:利用逻辑概念并结合语料的实际情况,构建逻辑连接词表,构建规则库,识别语义节点;
步骤2:根据逻辑连接词的属性,构建规则库,以确定语义节点的层级;
步骤3:根据语义节点的层级、位置关系,设计合并语义节点算法,识别出所有的最小语义块,完成汉语名词性复杂偏正语块在语义上的形式化,并得到语义层次树,包括以下子步骤:
步骤31:构建合并语义节点算法,生成最小语块和辅块;对于层级为0的距离最近语义节点L、L1H、DYMK和块首位置B%、块尾位置E%五个语义边界提示符,按其各自的辖域的方向进行扫描,找到最近且不相邻的语义边界提示符,根据各自的属性,生成最小语义块或辅块;所述合并语义节点算法包括以下至少一种:
1)所述块首位置B%只能向右扫描,如果找到紧邻的所述语义节点L,所述块首位置B%与所述语义节点L合为一个语义节点L,其中,所述块首位置B%的位置为空;
2)所述块尾位置E%只能向左扫描,如果找到紧邻的所述语义节点L1H,所述块尾位置E%与所述语义节点L1H合并为一个语义节点L1H;
3)所述语义节点DYMK向左或右扫描,如果找到紧邻的所述语义节点L1或L1H,所述语义节点DYMK与其合为一个语义节点L1或L1H;
4)所述语义节点L1只能向右扫描,如果找到所述语义节点DYMK,所述语义节点DYMK与其合为一个语义节点L1;
5)所述语义节点L1H只能向左扫描,所述语义节点DYMK与其合为一个语义节点L1;
6)所述块首位置B%向右扫描,如果找到所述语义节点DYMK,所述块首位置B%与所述语义节点DYMK之间的词语则生成一个最小语义块,其中,所述块首位置B%的位置为空,所述最小语义块不包含DYMK节点;
7)所述块首位置B%向右扫描,如果找到非紧邻的所述语义节点L,所述块首位置B%与所述语义节点L之间的词语则生成一个最小语义块,其中,所述块首位置B%的位置为空,所述最小语义块不包含L节点;
8)所述块首位置B%向右扫描,如果找到所述语义节点L1H,所述块首位置B%与所述语义节点L1H之间的词语则生成一个封闭性辅块,其中,所述块首位置B%的位置为空,所述封闭性辅块包含L1H节点;
9)所述块尾位置E%只能向左扫描,如果找到所述语义节点DYMK,所述块尾位置E%与所述语义节点DYMK之间的词语则生成一个最小语义块,其中,所述块尾位置E%的位置为空,所述最小语义块不包含DYMK节点;
10)所述块尾位置E%向左扫描,如果找到所述语义节点L,所述块尾位置E%与所述语义节点L之间的词语则生成一个封闭类辅块,其中,所述块尾位置E%的位置为空,所述封闭性辅块包含L节点;
11)所述块尾位置E%向左扫描,如果找到非紧邻的所述语义节点L1H,所述块尾位置E%与所述语义节点L1H之间的词语则生成一个最小语义块,其中,所述块尾位置E%的位置为空,所述最小语义块不包含L1H节点;
12)所述语义节点L只能向右扫描,如果找到所述语义节点DYMK,所述语义节点L与所述语义节点DYMK之间的词语则生成一个辅块,其中,所述辅块包含L节点,所述辅块不包含DYMK节点;
13)所述语义节点L向右扫描,如果找到与其搭配的所述语义节点L1H或所述块尾位置E%,所述语义节点L与所述语义节点L1H或所述块尾位置E%之间的词语则生成一个封闭类辅块,其中,所述封闭类辅块包含L节点和L1H节点;
14)所述语义节点L1H向左扫描,如果找到所述语义节点DYMK,语义节点L1H与所述语义节点DYMK之间的词语则生成一个辅块,其中,所述辅块包含L1H节点,所述辅块不包含DYMK节点;
15)所述语义节点L1H向左扫描,如果找到与其搭配的所述语义节点L4或所述块首位置B%,所述语义节点L1H与所述语义节点L或所述块首位置B%之间的词语则生成一个封闭类辅块,其中,所述封闭类辅块包含L1H节点和L节点;
16)所述语义节点DYMK向左扫描,如果找到所述语义节点DYMK或所述块尾位置E%,所述语义节点DYMK与所述语义节点DYMK或所述块尾位置E%之间的词语则生成一个最小语义块,其中,所述最小语义块不包含DYMK节点;
17)所述语义节点DYMK向左扫描,如果找到非紧邻的所述语义节点L4,所述语义节点DYMK与所述语义节点L4之间的词语则生成一个最小语义块,其中,所述最小语义块不包含DYMK节点和L4节点;
18)所述语义节点DYMK向左扫描,如果找到非紧邻的所述语义节点L1H,所述语义节点DYMK与所述语义节点L1H之间的词语则生成一个辅块,其中,所述辅块不包含DYMK节点,所述辅块包含L1H节点;
19)所述语义节点DYMK向右扫描,如果找到所述语义节点DYMK或所述块首位置B%,所述语义节点DYMK与所述语义节点DYMK或所述块首位置B%之间的词语则生成一个最小语义块,其中,所述最小语义块不包含DYMK节点和L4节点;
20)所述语义节点DYMK向右扫描,如果找到非紧邻的所述语义节点L4,所述语义节点DYMK与所述语义节点L4之间的词语则生成一个辅块,其中,所述辅块不包含DYMK节点,所述辅块包含L4节点;
21)所述语义节点DYMK向左扫描,如果找到非紧邻的所述语义节点L1H,所述语义节点DYMK与所述语义节点L1H之间的词语则生成一个最小语义块,其中,所述最小语义块不包含DYMK节点和L1H节点;
步骤32:构建生成块饰类语义块规则,对块首的最小语义块进一步判定语义块的类别——修饰类和核心类;
步骤4:根据汉英语块的调序策略,设计调序算法,将汉语偏正语块内部的语义块的顺序转成英语的顺序;
步骤5:构建逻辑连接词转换规则,将汉语逻辑连接词转成英语的逻辑连接词;
步骤6:加载英语领域词典和通用词典,对得到的英语进行后处理,即可得到汉语名词性复杂偏正语块的英语译文。
2.如权利要求1所述的基于最小语义块的语义分析与汉英调序方法,其特征在于:所述对待处理中文语句进行分词预处理并加载分词结果的语义知识包括以下子步骤:
步骤01:构建并使用中文停止词表,基于分词词表对待处理文本按左向最大长度词语分割,得到左向最大长度词语构成的分词单位;
步骤02:加载概念层次网络词语知识库;
步骤03:对所述中文语句中的所述分词单位中的数字和英语字母进行动态加载语义类别。
3.如权利要求2所述的基于最小语义块的语义分析与汉英调序方法,其特征在于:所述分词词表包括领域词表和/或通用词表。
4.如权利要求2所述的基于最小语义块的语义分析与汉英调序方法,其特征在于:所述概念层次网络词语知识库中词条的语义知识包括:广义概念类别GCC、概念类别CC和激活标记LV中至少一种。
5.如权利要求1所述的基于最小语义块的语义分析与汉英调序方法,其特征在于: 所述逻辑连接词包括表示逻辑概念、时态说明符、指代逻辑概念和修饰性指代逻辑符中至少一种的词语。
6.如权利要求5所述的基于最小语义块的语义分析与汉英调序方法,其特征在于:所述步骤1包括以下子步骤:
步骤11:构建排除规则,对同时兼有广义概念类别L和V的词语进行消岐处理,以保证逻辑连接词的在语义上的单义性;
步骤12:构建语义节点生成规则,将语义知识中有逻辑概念的逻辑连接词生成语义节点L,将作为辅块搭配后标志符的词语生成语义节点L1H。
7.如权利要求6所述的基于最小语义块的语义分析与汉英调序方法,其特征在于:所述步骤2为对所有的所述语义节点L利用其概念类别及其与辅块搭配后标记符的组合关系,构建规则库,以判断其层级。
8.如权利要求7所述的基于最小语义块的语义分析与汉英调序方法,其特征在于:所述步骤2包括以下子步骤:
步骤21:构建辅块规则集,将逻辑概念生成语义节点;
步骤22:构建排除内聚性逻辑连接词的规则,将该内聚性逻辑连接词的层级设为-1;
步骤23:构建生成外分性逻辑连接词规则,在需要调序的语义块之间增加一个显性逻辑连接词“的”,生成语义节点DYMK并将其的层级设为0。
9.如权利要求8所述的基于最小语义块的语义分析与汉英调序方法,其特征在于:所述语义节点的生成规则包括以下至少一种:
如果是前逻辑连接词与后逻辑连接词同时出现,将该语义节点L和该语义节点L1H的层级赋值为1;
如果是前逻辑连接词、后逻辑连接词单独出现,将该语义节点L和该语义节点L1H的层级设为0。
10.一种基于最小语义块的语义分析与汉英调序系统,包括用于对待处理中文语句进行分词预处理并加载分词结果的语义知识的预处理及语义获取单元,其特征在于,还包括以下单元:
识别语义节点单元:用于利用逻辑概念并结合语料的实际情况,构建逻辑连接词表,构建规则库,识别语义节点;
语义节点层级判断单元:根据逻辑连接词的属性,构建规则库,以确定语义节点的层级;
合并语义节点单元:根据语义节点的层级、位置关系,设计合并语义节点算法,识别出所有的最小语义块,完成汉语名词性复杂偏正语块在语义上的形式化,并得到语义层次树;所述合并语义节点单元的工作包括以下子步骤:
步骤31:构建合并语义节点算法,生成最小语块和辅块;对于层级为0的距离最近语义节点L、L1H、DYMK和块首位置B%、块尾位置E%五个语义边界提示符,按其各自的辖域的方向进行扫描,找到最近且不相邻的语义边界提示符,根据各自的属性,生成最小语义块或辅块;所述合并语义节点算法包括以下至少一种:
1)所述块首位置B%只能向右扫描,如果找到紧邻的所述语义节点L,所述块首位置B%与所述语义节点L合为一个语义节点L,其中,所述块首位置B%的位置为空;
2)所述块尾位置E%只能向左扫描,如果找到紧邻的所述语义节点L1H,所述块尾位置E%与所述语义节点L1H合并为一个语义节点L1H;
3)所述语义节点DYMK向左或右扫描,如果找到紧邻的所述语义节点L1或L1H,所述语义节点DYMK与其合为一个语义节点L1或L1H;
4)所述语义节点L1只能向右扫描,如果找到所述语义节点DYMK,所述语义节点DYMK与其合为一个语义节点L1;
5)所述语义节点L1H只能向左扫描,所述语义节点DYMK与其合为一个语义节点L1;
6)所述块首位置B%向右扫描,如果找到所述语义节点DYMK,所述块首位置B%与所述语义节点DYMK之间的词语则生成一个最小语义块,其中,所述块首位置B%的位置为空,所述最小语义块不包含DYMK节点;
7)所述块首位置B%向右扫描,如果找到非紧邻的所述语义节点L,所述块首位置B%与所述语义节点L之间的词语则生成一个最小语义块,其中,所述块首位置B%的位置为空,所述最小语义块不包含L节点;
8)所述块首位置B%向右扫描,如果找到所述语义节点L1H,所述块首位置B%与所述语义节点L1H之间的词语则生成一个封闭性辅块,其中,所述块首位置B%的位置为空,所述封闭性辅块包含L1H节点;
9)所述块尾位置E%只能向左扫描,如果找到所述语义节点DYMK,所述块尾位置E%与所述语义节点DYMK之间的词语则生成一个最小语义块,其中,所述块尾位置E%的位置为空,所述最小语义块不包含DYMK节点;
10)所述块尾位置E%向左扫描,如果找到所述语义节点L,所述块尾位置E%与所述语义节点L之间的词语则生成一个封闭类辅块,其中,所述块尾位置E%的位置为空,所述封闭性辅块包含L节点;
11)所述块尾位置E%向左扫描,如果找到非紧邻的所述语义节点L1H,所述块尾位置E%与所述语义节点L1H之间的词语则生成一个最小语义块,其中,所述块尾位置E%的位置为空,所述最小语义块不包含L1H节点;
12)所述语义节点L只能向右扫描,如果找到所述语义节点DYMK,所述语义节点L与所述语义节点DYMK之间的词语则生成一个辅块,其中,所述辅块包含L节点,所述辅块不包含DYMK节点;
13)所述语义节点L向右扫描,如果找到与其搭配的所述语义节点L1H或所述块尾位置E%,所述语义节点L与所述语义节点L1H或所述块尾位置E%之间的词语则生成一个封闭类辅块,其中,所述封闭类辅块包含L节点和L1H节点;
14)所述语义节点L1H向左扫描,如果找到所述语义节点DYMK,语义节点L1H与所述语义节点DYMK之间的词语则生成一个辅块,其中,所述辅块包含L1H节点,所述辅块不包含DYMK节点;
15)所述语义节点L1H向左扫描,如果找到与其搭配的所述语义节点L4或所述块首位置B%,所述语义节点L1H与所述语义节点L或所述块首位置B%之间的词语则生成一个封闭类辅块,其中,所述封闭类辅块包含L1H节点和L节点;
16)所述语义节点DYMK向左扫描,如果找到所述语义节点DYMK或所述块尾位置E%,所述语义节点DYMK与所述语义节点DYMK或所述块尾位置E%之间的词语则生成一个最小语义块,其中,所述最小语义块不包含DYMK节点;
17)所述语义节点DYMK向左扫描,如果找到非紧邻的所述语义节点L4,所述语义节点DYMK与所述语义节点L4之间的词语则生成一个最小语义块,其中,所述最小语义块不包含DYMK节点和L4节点;
18)所述语义节点DYMK向左扫描,如果找到非紧邻的所述语义节点L1H,所述语义节点DYMK与所述语义节点L1H之间的词语则生成一个辅块,其中,所述辅块不包含DYMK节点,所述辅块包含L1H节点;
19)所述语义节点DYMK向右扫描,如果找到所述语义节点DYMK或所述块首位置B%,所述语义节点DYMK与所述语义节点DYMK或所述块首位置B%之间的词语则生成一个最小语义块,其中,所述最小语义块不包含DYMK节点和L4节点;
20)所述语义节点DYMK向右扫描,如果找到非紧邻的所述语义节点L4,所述语义节点DYMK与所述语义节点L4之间的词语则生成一个辅块,其中,所述辅块不包含DYMK节点,所述辅块包含L4节点;
21)所述语义节点DYMK向左扫描,如果找到非紧邻的所述语义节点L1H,所述语义节点DYMK与所述语义节点L1H之间的词语则生成一个最小语义块,其中,所述最小语义块不包含DYMK节点和L1H节点;
步骤32:构建生成块饰类语义块规则,对块首的最小语义块进一步判定语义块的类别——修饰类和核心类;
调序单元:根据汉英语块的调序策略,设计调序算法,将汉语偏正语块内部的语义块的顺序转成英语的顺序;
逻辑连接词翻译单元:构建逻辑连接词转换规则,将汉语逻辑连接词转成英语的逻辑连接词;
最小语义块翻译单元:加载英语领域词典和通用词典,对得到的英语进行后处理,即可得到汉语名词性复杂偏正语块的英语译文。
CN201810739808.XA 2018-07-06 2018-07-06 一种基于最小语义块的语义分析与汉英调序方法及系统 Active CN108874791B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810739808.XA CN108874791B (zh) 2018-07-06 2018-07-06 一种基于最小语义块的语义分析与汉英调序方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810739808.XA CN108874791B (zh) 2018-07-06 2018-07-06 一种基于最小语义块的语义分析与汉英调序方法及系统

Publications (2)

Publication Number Publication Date
CN108874791A CN108874791A (zh) 2018-11-23
CN108874791B true CN108874791B (zh) 2022-05-24

Family

ID=64299947

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810739808.XA Active CN108874791B (zh) 2018-07-06 2018-07-06 一种基于最小语义块的语义分析与汉英调序方法及系统

Country Status (1)

Country Link
CN (1) CN108874791B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109783820B (zh) * 2019-01-18 2022-11-25 广东小天才科技有限公司 一种语义解析方法及系统
CN110598222B (zh) * 2019-09-12 2023-05-30 北京金山数字娱乐科技有限公司 语言处理方法及装置、语言处理系统的训练方法及装置
CN111611811B (zh) * 2020-05-25 2023-01-13 腾讯科技(深圳)有限公司 翻译方法、装置、电子设备及计算机可读存储介质
CN113408307B (zh) * 2021-07-14 2022-06-14 北京理工大学 一种基于翻译模板的神经机器翻译方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62271064A (ja) * 1986-05-20 1987-11-25 Toshiba Corp 機械翻訳システム
CN103440252A (zh) * 2013-07-25 2013-12-11 北京师范大学 一种中文句子中并列信息提取方法及装置
CN104142917A (zh) * 2014-05-21 2014-11-12 北京师范大学 一种用于语言理解的层次语义树构建方法及系统
WO2015012679A2 (en) * 2013-07-24 2015-01-29 Mimos Berhad A system and method for interpreting logical connectives in natural language query

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62271064A (ja) * 1986-05-20 1987-11-25 Toshiba Corp 機械翻訳システム
WO2015012679A2 (en) * 2013-07-24 2015-01-29 Mimos Berhad A system and method for interpreting logical connectives in natural language query
CN103440252A (zh) * 2013-07-25 2013-12-11 北京师范大学 一种中文句子中并列信息提取方法及装置
CN104142917A (zh) * 2014-05-21 2014-11-12 北京师范大学 一种用于语言理解的层次语义树构建方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
中文专利中有标记并列结构的自动识别研究;刘小蝶 等;《计算机工程》;20180630;第44卷(第6期);第162-168、175页 *

Also Published As

Publication number Publication date
CN108874791A (zh) 2018-11-23

Similar Documents

Publication Publication Date Title
CN108874791B (zh) 一种基于最小语义块的语义分析与汉英调序方法及系统
CN107463553B (zh) 针对初等数学题目的文本语义抽取、表示与建模方法和系统
Moravcsik Aristotle: a collection of critical essays
US20180060306A1 (en) Extracting facts from natural language texts
US20180267958A1 (en) Information extraction from logical document parts using ontology-based micro-models
US11379656B2 (en) System and method of automatic template generation
CN106776562A (zh) 一种关键词提取方法和提取系统
US20190392035A1 (en) Information object extraction using combination of classifiers analyzing local and non-local features
CN107908712A (zh) 基于术语提取的跨语言信息匹配方法
US20200342059A1 (en) Document classification by confidentiality levels
JPH02159674A (ja) 意味解析装置と構文解析装置
CN105786991A (zh) 结合用户情感表达方式的中文情感新词识别方法和系统
Yngve et al. Mechanical translation
US20180157642A1 (en) Information extraction using alternative variants of syntactico-semantic parsing
CN103678565B (zh) 一种基于自引导方式的领域自适应句子对齐系统
Megala et al. Enriching text summarization using fuzzy logic
WO2020191993A1 (zh) 一种自然语言句法分析的方法
CN104391837A (zh) 一种基于格语义的智能语法分析方法
CN105320650A (zh) 一种机器翻译方法及其系统
Seljan et al. From digitisation process to terminological digital resources
CN109815503B (zh) 一种人机交互翻译方法
Gupta Automatic stemming of words for Punjabi language
Yona et al. A finite-state morphological grammar of Hebrew
Oliinyk et al. Data augmentation with foreign language content in text classification using machine learning
Douglas et al. Layout and language: Lists and tables in technical documents

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant