CN110020434A - 一种自然语言句法分析的方法 - Google Patents

一种自然语言句法分析的方法 Download PDF

Info

Publication number
CN110020434A
CN110020434A CN201910258045.1A CN201910258045A CN110020434A CN 110020434 A CN110020434 A CN 110020434A CN 201910258045 A CN201910258045 A CN 201910258045A CN 110020434 A CN110020434 A CN 110020434A
Authority
CN
China
Prior art keywords
vector
predicate
unit
verb
infinitive
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910258045.1A
Other languages
English (en)
Other versions
CN110020434B (zh
Inventor
秦一男
朱江
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Language Self-Cheng Technology Co Ltd
Original Assignee
Beijing Language Self-Cheng Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Language Self-Cheng Technology Co Ltd filed Critical Beijing Language Self-Cheng Technology Co Ltd
Publication of CN110020434A publication Critical patent/CN110020434A/zh
Application granted granted Critical
Publication of CN110020434B publication Critical patent/CN110020434B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

公开了一种自然语言句法分析的方法。本发明指出了当今计算机科学界公认的两种国际领先的自然语言句法分析装置——伯克利解析器(Berkeley Parser)和斯坦福解析器(Stanford Parser)存在的一些严重的技术漏洞,并针对这些漏洞,给出了解决问题的技术方案。本发明建立了一套全新的用于刻画语句的数学模型,并在此基础之上提出了一套计算机句法分析的方法。本发明通过技术手段,将计算机自然语言处理中的词法分析、句法分析、语义分析三个方面有机地统一起来,加强了这三个方面之间的互相约束,从而改善了计算机消解结构歧义的效果。本发明技术难度较高,综合性强,适用范围广,计算量非常大,符合数学和计算机科学的自然规律,有助于提高计算机句法分析的准确率。

Description

一种自然语言句法分析的方法
本申请要求了2019年3月22日提交的、申请号为201910224013.X、发明名称为“一种自然语言句法分析的方法”的中国专利申请的优先权,其全部内容通过引用结合在本申请中。
技术领域
本发明涉及计算机数据处理领域,具体涉及一种自然语言句法分析的方法。
背景技术
自然语言处理(NLP),是计算机科学领域和人工智能领域中一个非常重要的方向,研究的是能实现人与计算机之间使用自然语言进行有效通信的各种理论和方法。
句法分析(syntactic parsing),是自然语言处理(NLP)中的关键性工作之一。句法分析的基本任务是确定语句的句法结构或者语句内部各个词语之间的相互依赖关系。在现有的各种句法分析技术中,概率上下文无关方法(Probabilistic Context FreeGrammars,简称PCFG方法)是计算机科学领域广泛采用的一种技术。PCFG方法通过计算句法规则的匹配概率,选取概率最大的句法分析结果作为最终的句法结构。除PCFG方法之外,依存分析方法(Dependency Parsing)也是计算机科学领域经常使用的一种句法分析技术。
伯克利解析器(Berkeley Parser)和斯坦福解析器(Stanford Parser),是当今计算机科学界公认的两种国际领先的自然语言句法分析装置。这两种自然语言句法分析装置都使用了词汇化的PCFG方法(Lexicalized Probabilistic Context-Free Grammars)。在运用词汇化的PCFG方法做出句法分析结果的同时,斯坦福解析器(Stanford Parser)还给出了使用依存分析方法做出的句法分析结果。
但是,伯克利解析器(Berkeley Parser)和斯坦福解析器(Stanford Parser)仍然存在一些严重的技术漏洞。
特别说明:
<1>,下文提到的Stanford Parser给出的错误的句法分析结果,既包括StanfordParser运用词汇化的PCFG方法做出的结果,又包括Stanford Parser运用依存分析方法做出的结果,即Stanford Parser运用词汇化的PCFG方法和运用依存分析方法做出的都是错误结果。
<2>,下文对于现有的计算机句法分析技术的研判与点评,仅涉及PCFG方法,不涉及依存分析方法。
第一类技术漏洞:
本专利申请的发明人从2014年1月起,长期观察伯克利解析器(Berkeley Parser)和斯坦福解析器(Stanford Parser)在线演示的解析效果,发现这两种自然语言句法分析装置对于英文语句“That men who were appointed didn't bother the liberals wasn't remarked upon by the press.”的分析结果从2014年1月至本专利申请提交日——2019年3月22日一直都是错误的!该句是语言学家David R.Dowty在其编写的一本语言学专著中给出的。该句没有语法和逻辑上的错误,完全符合英文书面语的表达习惯。BerkeleyParser和Stanford Parser给出的结果是完全相同的,其结果如下:[参见图1]
①That men didn't bother;
②who were appointed;
③the liberals wasn't remarked upon by the press。
其中,①是主句,也就是全句的核心句;③是①的宾语,即,宾语从句;②是定语从句,修饰men;That是限定词,修饰men。该结果中的That修饰men是错误的,That作为限定词,不能修饰名词的复数;the liberals wasn't remarked是错误的,主语和谓语的单复数搭配不当。
这句话的正确结果应该是:wasn't remarked upon by the press是全句的核心句,也就是全句的核心主谓搭配;That men didn't bother the liberals是核心句中的主语,即,核心句中的主语从句;who were appointed是定语从句,修饰men。本句中的That应该解析为引导主语从句的从属连词。在英语中,除非主语从句由左右引号围住,否则引导主语从句的从属连词that不可以省略,即便在口语中也是如此。
又有:至本专利申请提交日——2019年3月22日,Berkeley Parser和StanfordParser对于英文语句“That something you learned is wrong is known to thepublic.”的在线解析结果也是错误的!该句没有语法和逻辑上的错误,完全符合英文书面语的表达习惯。Berkeley Parser和Stanford Parser给出的结果是完全相同的,其结果如下:[参见图2]
①That something is known to the public;
②you learned is wrong。
其中,①是全句的核心句,也就是全句的核心主谓搭配;②是定语从句,修饰不定代词something;That是限定词,修饰something。该结果中的That修饰something是错误的,something作为不定代词,不能被任何限定词修饰,当然也不能被限定词that修饰。learned和is wrong不能划在同一个动词短语之下,learned和is wrong是分别归属于两个从句的两个不同的谓语。
这句话的正确结果应该是:is known to the public是全句的核心句,也就是全句的核心主谓搭配;That something is wrong是核心句中的主语,即,核心句中的主语从句;That是引导主语从句的从属连词;you learned是定语从句,修饰something。
前述两个句子的共同的句法结构特征在于:句子中都有一个由从属连词that引导的主语从句,而且都有一个定语从句可以看作以整体插空的方式插入前述的主语从句内部。从英语语言学的角度看,凡是具备上述句法结构特征的英文语句,经常会被BerkeleyParser和Stanford Parser解析出严重错误的结果!
在后续的实例操作部分,本专利申请的发明人将给出如下的数学模型,该数学模型记为Q模型。前述的两个句子,都是符合Q模型的句子。Q模型的具体含义,在后续的实例操作中会加以说明。
设S是一个英语句子,且S中至少存在如下3个主谓搭配(分别用6元函数表示):
f(c1,l1,x1,r1,y1,z1);
g(c2,l2,x2,r2,y2,z2);
h(c3,l3,x3,r3,y3,z3)。
注:作为自变量下标的1、2、3只是为了互相区分,不代表实际的顺序含义。
f,g,h满足如下三个条件:
①l2=that;
②f(c1,l1,g(c2,l2,x2,r2,y2,z2),r1,y1,z1);
③g[h(c3,l3,x3,r3,y3,z3)]。
Berkeley Parser和Stanford Parser做出错误句法分析结果的例句有很多,但是限于本专利申请的篇幅,发明人无法一一列举,仅列举其中的一部分如下:
(1),That men who were appointed didn't bother the liberals wasn'tremarked upon by the press.
(2),That something you learned is wrong is known to the public.
(3),That something you learned is now outdated is known to thepublic.
(4),That men didn't bother the liberals wasn't remarked upon by thepress.
(5),That men didn't bother the liberal wasn't remarked upon by thepress.
(6),That men who were appointed bothered the liberals wasn't remarkedupon by the press.
(7),That men who were appointed didn't bother the liberal wasn'tremarked upon by the press.
(8),That men who were appointed didn't bother the liberals wasremarked upon by the press.
(9),That officials who were appointed didn't bother the liberalswasn't remarked upon by the press.
(10),That officials who were appointed didn't bother the liberals wasremarked upon by the press.
(11),That men didn't think the liberals bothered the students wasn'tremarked upon by the press.
(12),That men didn't think the liberal bothered the students wasn'tremarked upon by the press.
(13),That men didn't think the liberals bothered the students wasremarked upon by the press.
(14),That men didn't think the liberals bothered the students whostudied hard wasn't remarked upon by the press.
(15),That men thought the liberals bothered the students wasn'tremarked upon by the press.
(16),That men thought the liberals bothered the students was remarkedupon by the press.
(17),That officials didn't think the liberals bothered the studentswasn't remarked upon by the press.
(18),That officials didn't think the students bothered the liberalswasn't remarked upon by the press.
(19),That officials thought the liberals bothered the students whostudied hard wasn't remarked upon by the press.
(20),That men thought the liberals didn't bother the musicians whoworked hard was remarked upon by the press.
(21),That men thought the liberals didn't bother the diplomats whoworked hard was remarked upon by the press.
(22),That boys thought the liberals didn't bother the musicians whoworked hard was remarked upon by the press.
(23),That girls thought the liberals didn't bother the musicians whoworked hard was remarked upon by the press.
(24),That men didn't bother the boys who studied hard wasn't remarkedupon by the press.
(25),That men didn't bother the boys who studied hard was remarkedupon by the press.
(26),That men didn't bother the students who studied hard wasn'tremarked upon by the press.
(27),That men didn't bother the students who studied hard wasremarked upon by the press.
(28),That men bothered the officials who were appointed wasn'tremarked upon by the press.
(29),That men bothered the officials who were appointed was remarkedupon by the press.
(30),That food which the company provided to the school attracted theattention of the public wasn't remarked upon by the press.
(31),That money which the company provided to the school attractedthe attention of the public wasn't remarked upon by the press.
(32),That Jobs which the company provided to the college attractedthe attention of the public wasn't remarked upon by the press.
(33),That food which the company provided to the school attracted theattention of the public was remarked upon by the press.
(34),That money which the company provided to the school attractedthe attention of the public was remarked upon by the press.
(35),That Jobs which the company provided to the college attractedthe attention of the public was remarked upon by the press.
(36),That something you learned about America's ancient history iswrong is likely.
(37),That something about America's ancient history is wrong islikely.
(38),That something Tom learned about America's ancient history iswrong is known to his classmates.
(39),That nuclear war would be madness does not mean that it will notoccur.
(40),That nearly all behavior is learned behavior is a basicassumption that has been put forward by the social scientists.
(41),I don't know whether that girls are well protected representssomething good.
(42),I don't know whether that girls are well protected representsgood manners.
(43),I can understand what that food should be conserved indicates.
(44),I can understand what that water should be conserved indicates.
(45),That what you learned is wrong is known to the public.
(46),That what you learned is now outdated is known to the public.
(47),What that women are amicably treated indicates is not clear.
(48),That what made the students happy didn't bother the teacherswasn't remarked upon by the press.
(49),That what made the students happy bothered the teachers wasn'tremarked upon by the press.
(50),That what made the students happy bothered the teachers wasremarked upon by the press.
至本专利申请提交日——2019年3月22日,Berkeley Parser和Stanford Parser对上述句子给出的句法分析结果,仍然是错误的!上述句子,都没有语法和逻辑上的错误,完全符合英文书面语的表达习惯。上述每一个句子,都包含了that引导的主语从句,其中的that都是从属连词(词法标签为IN);而Berkeley Parser和Stanford Parser将上述句子中的that全都错解为限定词(词法标签为DT)。从英语语言学的角度审视,从属连词和限定词是句法功能截然不同的两种词性,差异非常大,因此前述的错误是一种比较严重的错误。除前述的错误之外,上述句子还有很多其他错误,不一一列举。在本专利申请的实例操作部分,还会用到上述的一些句子。
此外,再来看两个难度很大的句子,如下所示。这两个句子是语言学家DavidR.Dowty在其编写的一本语言学专著中给出的:
(51),That that men were appointed didn't bother the liberals wasn'tremarked upon by the press.
(52),That that that men were appointed didn't bother the liberalswasn't remarked upon by the press upset many women.
这两个句子没有语法和逻辑上的错误,完全符合英文书面语的表达习惯。这两个句子都包含了that引导的主语从句,其中的that都是从属连词(词法标签为IN);而Berkeley Parser和Stanford Parser对上述两个句子中的that的解析都存在严重错误。在本专利申请的实例操作部分,还会用到上述两个句子。特别指出:上述句子(1)——(52),全都可以使用本专利申请的方案获得正确的句法分析结果。
本专利申请的发明人曾经用一套由中国国内开发的句法解析器与BerkeleyParser和Stanford Parser进行对比。中国国内开发的这一套句法解析器,使用了词汇化的PCFG方法,与Berkeley Parser和Stanford Parser的技术原理相同,解析效果也十分接近。使用中国国内开发的这一套句法解析器,本专利申请的发明人做过如下的句法分析实验:对于例句“That men who were appointed didn't bother the liberals wasn'tremarked upon by the press.”,限定该例句的词法分析结果为That/IN men/NNS who/WPwere/VBD appointed/VBN did/VBD n't/RB bother/VB the/DT liberals/NNS was/VBDn't/RB remarked/VBN upon/RP by/IN the/DT press/NN./.,这是一个在英语语言学上可以认为是正确的词法分析结果,要求提供概率最大的1000个句法分析结果,并将前述的结果按照概率从大到小排列,最后得到最高排名第74位的句法分析结果是英语语言学上可以认为正确的结果,排名第74位之前的结果全都不正确。同样是对于前述的例句,限定该例句的词法分析结果为That/IN men/NNS who/WP were/VBD appointed/VBN did/VBD n't/RBbother/VB the/DT liberals/NNS was/VBD n't/RB remarked/VBN upon/IN by/IN the/DT press/NN./.,这也是一个在英语语言学上可以认为是正确的词法分析结果,要求提供概率最大的1000个句法分析结果,并将结果按照概率由大到小排列,最后得到最高排名第52位的句法分析结果是英语语言学上可以认为正确的结果,排名第52位之前的结果全都不正确。
又如:对于例句“That something you learned is wrong is known to thepublic.”,限定该例句的词法分析结果为That/IN something/NN you/PRP learned/VBDis/VBZ wrong/JJ is/VBZ known/VBN to/TO the/DT public/NN./.,这是一个在英语语言学上可以认为是正确的词法分析结果,要求提供概率最大的1000个句法分析结果,并将结果按照概率从大到小排列。最后得到最高排名第52位的句法分析结果是英语语言学上可以认为正确的结果,排名第52位之前的结果全都不正确。
可见,使用前述的中国国内开发的句法解析器,针对前述的两个例句,限定正确的词法分析结果而获得的正确的句法分析结果的概率排名都非常靠后,都排在50名以后。本专利申请的发明人曾经针对与前述两个例句的句法结构相似的很多句子做过大量实验,所获得的正确的句法分析结果与前述两个例句的情况相似,经常是概率排名非常靠后的结果。
基于前述的对比研究,本专利申请的发明人有理由认为:如果使用BerkeleyParser和Stanford Parser按照前面给出的正确的词法标记分析前述两个例句,其结果将会与使用中国国内开发的句法解析器获得的结果相似,即,正确的句法分析结果的概率排名都比较靠后。如果想在现有的理论和技术框架之内,通过小幅度地调整统计模型和参数,对前述两个例句纠正出正确的句法分析结果,是很难做到的;而一旦大幅度地调整统计模型和参数,又会以丧失当前的很多优良性能作为代价,比如:在大幅度地调整统计模型和参数之后,句法解析器很有可能会把当前能够分析出正确结果的句子做错,或者使当前能够输出结果的句子没有输出。
综上所述,本专利申请的发明人认为:上述的第一类技术漏洞,很有可能是Berkeley Parser和Stanford Parser的技术死角和盲区,也是当前的PCFG方法(包括词汇化的PCFG方法在内)的理论与技术瓶颈所在。对于PCFG方法(包括词汇化的PCFG方法在内)而言,在其现有的理论和技术框架之内,该瓶颈是很难完全突破的。试想一下:如果选取一系列具备前述的that引导主语从句等特点的句子作为语料,构造一个特征化的语料库,然后使用依据PCFG方法(包括词汇化的PCFG方法在内)开发的句法解析器对该语料库中的每一个句子进行分析,比如:使用Berkeley Parser和Stanford Parser进行分析,那么召回率一定会非常低。
第二类技术漏洞:
请看下面的句子:
(1),Jack met the patient the nurse the clinic had hired sent to thedoctor.
(2),This is the malt the rat the cat the dog worried killed ate.
(3),Jack met the boy the nurse the doctor the clinic had hired sentto the ward introduced to the patient.
(4),Jack met the boy the patient introduced to the nurse the doctorthe clinic had hired sent to the ward.
(5),Jack met the boy the patient took to the ward the doctor theclinic had hired sent the nurse to.
(6),Jack ate the food the patient the nurse the clinic had hired sentto the doctor took to the ward.
(7),Jack ate the food the patient took to the nurse the doctor theclinic had hired sent to the ward.
(8),Jack ate the food the patient took to the ward the doctor theclinic had hired sent the nurse to.
(9),That men the nurse the doctor the clinic had hired sent to theward introduced to the cleaners didn't bother the patients wasn't remarkedupon by the press.
(10),That men the cleaner introduced to the nurses the doctor theclinic had hired sent to the ward didn't bother the patients wasn't remarkedupon by the press.
(11),That men the nurse the doctor sent to the ward introduced to thecleaners didn't bother the patients wasn't remarked upon by the press.
(12),That men the cleaner introduced to the nurses the doctor sent tothe ward didn't bother the patients wasn't remarked upon by the press.
上述第1句,是语言学家David R.Dowty在其编写的一本语言学专著中给出的;第2句是语言学家从一篇英文诗歌中提炼出来的。上述12个句子都没有语法和逻辑上的错误。上述12个句子全都包含省略从句引导词的情况;在英语中,从句引导词不是可以随意省略的,从句引导词的省略要符合语法的要求;上述12个句子所包含的省略从句引导词的情况,都符合英语语法的要求。至本专利申请提交日——2019年3月22日,Berkeley Parser和Stanford Parser对上述12个句子给出的句法分析结果,仍然是错误的!
上述12个句子,全都巧妙地展现了语句的深层递归嵌套的特点,并且灵活地融入了英语中的某些省略从句引导词的句法规则;在此基础之上,第9句至第12句还进一步融入了前文提到的that引导主语从句的特征,并且第9句至第12句都符合前文提到的Q模型。诚然,上述句子所包含的句法结构的分析难度非常高,不宜苛求计算机在现阶段就能完美达到人类的智力水平,但是问题却是客观存在的。类似的句子还有很多,不一一列举。特别指出:上述句子(1)——(12),全都可以使用本专利申请的方案获得正确的句法分析结果。
基于大量的对比实验,本专利申请的发明人认为:继所述的第一类技术漏洞之后,所述的第二类技术漏洞很有可能是Berkeley Parser和Stanford Parser的又一个技术死角和盲区,也是当前的PCFG方法(包括词汇化的PCFG方法在内)的又一个理论与技术瓶颈所在。对于PCFG方法(包括词汇化的PCFG方法在内)而言,在其现有的理论和技术框架之内,该瓶颈也是很难完全突破的。限于篇幅,不做过多论述。
第三类技术漏洞:
请看下面的句子:
①Part of the reason why Charles Dickens loved his own novel was thatit was rather closely modeled on his own life.
②Part of the reason Charles Dickens loved his own novel was that itwas rather closely modeled on his own life.
至本专利申请提交日——2019年3月22日,Berkeley Parser和Stanford Parser对上述第1句给出的句法分析结果都是正确的,而对上述第2句给出的句法分析结果都是错误的!
上述两个句子的句法结构的基本框架是等价的,差别仅在于:第1句保留了引导定语从句的关系副词why,而第2句省略了引导定语从句的关系副词why,此处的省略完全符合英语的句法规则。对于这两个句法结构的基本框架等价的句子,Berkeley Parser和Stanford Parser解析出了两种完全不同的结果。由此表明Berkeley Parser和StanfordParser以及前述的两种解析器所依据的PCFG方法(包括词汇化的PCFG方法在内),没有对语句内部的各种语言成分之间的主次关系进行有效的区分,处理很不到位,因此才会出现对于大致等价的句法结构的微小变化解析失误的情况。
在长期的观察中,本专利申请的发明人经常遇到与上述句子类似的解析结果不稳定的情况。甚至有的时候,即使改变原句中的一个在句法结构上无关紧要的简单副词,Berkeley Parser和Stanford Parser解析出来的前后两个结果也会发生很大的改变。类似的句子还有很多,不一一列举。特别指出:上述两个句子,全都可以使用本专利申请的方案获得正确的句法分析结果。
对前述的三类技术漏洞的反思和总结:
本专利申请的发明人认为:前述的三类技术漏洞,是Berkeley Parser和StanfordParser的严重技术隐患,也暴露了PCFG方法(包括词汇化的PCFG方法在内)的严重理论缺陷。造成前述的三类技术漏洞的原因,很有可能是如下这些:
[1]、语料库的随机性与自然语言本身固有的一些基本句法功能和定义发生冲突。
从统计学的角度看,在任何一个英文语料库中,从句充当句子主语的概率,通常远远小于名词充当句子主语的概率;但是从自然语言的角度看,从句可以充当句子主语,与名词可以充当句子主语,都是英语自身定义的一种基本句法功能,都是英语自身定义的一种可能性,因此二者在语言学理论上的概率是对等的。进一步地,从统计学的角度看,在任何一个英文语料库中,that引导的主语从句充当句子主语的概率,通常远远小于名词充当句子主语的概率;但是从自然语言的角度看,that引导的主语从句可以充当句子主语,也是源于英语自身定义的一种基本句法功能,也是英语自身定义的一种可能性,因此that引导的主语从句充当句子主语和名词充当句子主语这两种可能性,在语言学理论上的概率差异,要远比在英文语料库中所反映出来的概率差异小得多。由此,就产生了语料库的随机性与自然语言本身固有的一些基本句法功能和定义之间的冲突。
[2]、对于自然语言内部的一些重要的结构特征,PCFG方法(包括词汇化的PCFG方法在内)的应对措施不充分,处理不到位。
对于语句中的主干成分和修饰成分的区分,对于语句中的主要结构和次要结构的区分,对于离散性较强的远距离相关情况和深层递归嵌套情况的刻画,等等,上述这些问题是关系到自然语言内部的结构特征的重要问题。作为Berkeley Parser和Stanford Parser技术原理的PCFG方法(包括词汇化的PCFG方法在内),针对上述这些问题的应对措施不充分,有兼顾不到之处。
[3]、自然语言的词法分析和句法分析本来应该是互相约束的,但是在实际的自然语言处理(NLP)工程中,词法分析和句法分析被割裂成两个独立的部分。
词法分析、句法分析和语义分析,三者之间是互相参照和互相约束的关系。但是,在实际的自然语言处理工程中,词法分析、句法分析和语义分析通常都是各自独立进行的,词法分析是不依赖于句法分析而单独完成的。这样安排,主要是考虑到自然语言处理工程中的计算复杂度和模型复杂度问题。但是,这样的安排很可能会严重影响句法分析结果的准确性,即,如果计算机在词法分析环节出现误判,那么这一误判在接下来将要进行的句法分析的其他环节中根本无法得到纠正和约束,这就给句法分析结果的准确性带来了负面影响。
发明内容
有鉴于此,本发明的目的在于提供一种自然语言句法分析的方法,包括:
S1、读取待解析的语句数据结构,并针对待解析的语句数据结构进行预处理操作;
S2、针对每一个词语列表(i),读取待解析的经过前述的预处理的语句数据结构:如果在待解析的语句中存在谓语动词单元,那么生成词语列表(ii);如果在待解析的语句中不存在谓语动词单元,那么改为采用概率结合句法规则的方法或依存分析方法对该语句进行分析,取前述分析的结果作为计算机的最终分析结果,进而清除对应的词语列表(i)且不生成词语列表(ii);
S3、针对每一个谓语元素,生成对应的谓语向量;所述谓语向量包括并列引导语元素、从属引导语元素、主语元素、谓语元素、第一位置宾语元素、第二位置宾语元素;
其中,所述谓语元素是对应的谓语动词单元,或对应的相邻并列的谓语动词组合单元;所述谓语元素编号是对应的谓语动词单元编号,或对应的相邻并列的谓语动词组合单元编号;
其中,所述并列引导语元素的可能取值是编号小于对应的谓语元素编号的用于连接句子的并列关联词单元之一,或空单元;不用于连接句子的并列关联词单元,不能作为并列引导语元素的可能取值;
其中,所述从属引导语元素的可能取值是编号小于对应的谓语元素编号的从属关联词单元之一,或编号小于对应的谓语元素编号的相邻并列的从属关联词组合单元之一,或编号小于对应的谓语元素编号的疑问词单元之一,或编号小于对应的谓语元素编号的相邻并列的疑问词组合单元之一,或空单元;
其中,所述主语元素的可能取值是编号小于对应的谓语元素编号的基本名词单元之一,或编号小于对应的谓语元素编号的相邻并列的基本名词组合单元之一,或编号小于对应的谓语元素编号的不定式元素对应的不定式向量之一,或编号小于对应的谓语元素编号的动名词-现在分词元素对应的动名词-现在分词向量之一,或比对应的谓语元素编号小的谓语元素对应的谓语向量之一,或空单元;
其中,所述第一位置宾语元素的可能取值是编号大于对应的谓语元素编号且小于在所述谓语元素之后出现的第一个谓语元素编号的基本名词单元之一,或编号大于对应的谓语元素编号且小于在所述谓语元素之后出现的第一个谓语元素编号的相邻并列的基本名词组合单元之一,或编号大于对应的谓语元素编号且小于在所述谓语元素之后出现的第一个谓语元素编号的不定式元素对应的不定式向量之一,或编号大于对应的谓语元素编号且小于在所述谓语元素之后出现的第一个谓语元素编号的动名词-现在分词元素对应的动名词-现在分词向量之一,或比对应的谓语元素编号大的谓语元素对应的谓语向量之一,或空单元;谓语元素对应的符合前述要求的表语成分,也当作第一位置宾语元素处理;
其中,如果对应的谓语元素是由可接双宾语的动词或可接宾语结合宾语补足语的动词构成的单元,且对应的第一位置宾语元素是一个基本名词单元或一个相邻并列的基本名词组合单元,那么所述第二位置宾语元素的可能取值是编号大于对应的第一位置宾语元素编号且小于在所述谓语元素之后出现的第一个谓语元素编号的基本名词单元之一,或编号大于对应的第一位置宾语元素编号且小于在所述谓语元素之后出现的第一个谓语元素编号的相邻并列的基本名词组合单元之一,或比对应的谓语元素编号大的谓语元素对应的谓语向量之一,或空单元;如果对应的谓语元素是由可接双宾语的动词或可接宾语结合宾语补足语的动词构成的单元,且对应的第一位置宾语元素既不是一个基本名词单元又不是一个相邻并列的基本名词组合单元,那么所述第二位置宾语元素的取值是空单元;如果对应的谓语元素是由既不可接双宾语又不可接宾语结合宾语补足语的动词构成的单元,那么所述第二位置宾语元素的可能取值是空单元;其中,所述的可接双宾语的动词或可接宾语结合宾语补足语的动词以及所述的既不可接双宾语又不可接宾语结合宾语补足语的动词,可以通过查询词典或统计的方式预先归纳并给出;界定所述的可接双宾语的动词或可接宾语结合宾语补足语的动词以及所述的既不可接双宾语又不可接宾语结合宾语补足语的动词,有助于降低计算的复杂度;
S4、针对每一个不定式元素,生成对应的不定式向量;针对每一个动名词-现在分词元素,生成对应的动名词-现在分词向量;针对每一个过去分词元素,生成对应的过去分词向量;针对每一个介词元素,生成对应的介词向量;根据所述不定式元素、不定式第一位置宾语元素、不定式第二位置宾语元素的可能取值,获取每一个不定式元素对应的不定式向量的所有可能取值;根据所述动名词-现在分词元素、动名词-现在分词第一位置宾语元素、动名词-现在分词第二位置宾语元素的可能取值,获取每一个动名词-现在分词元素对应的动名词-现在分词向量的所有可能取值;根据所述过去分词元素、过去分词宾语元素的可能取值,获取每一个过去分词元素对应的过去分词向量的所有可能取值;根据所述介词元素、介词宾语元素的可能取值,获取每一个介词元素对应的介词向量的所有可能取值;
其中,所述不定式向量包括不定式元素、不定式第一位置宾语元素、不定式第二位置宾语元素;
所述不定式元素是对应的不定式动词单元,或对应的相邻并列的不定式动词组合单元;所述不定式元素编号是对应的不定式动词单元编号,或对应的相邻并列的不定式动词组合单元编号;
所述不定式第一位置宾语元素的可能取值是编号大于对应的不定式元素编号且小于在所述不定式元素之后出现的第一个谓语元素编号的基本名词单元之一,或编号大于对应的不定式元素编号且小于在所述不定式元素之后出现的第一个谓语元素编号的相邻并列的基本名词组合单元之一,或编号大于对应的不定式元素编号且小于在所述不定式元素之后出现的第一个谓语元素编号的不定式元素对应的不定式向量之一,或编号大于对应的不定式元素编号且小于在所述不定式元素之后出现的第一个谓语元素编号的动名词-现在分词元素对应的动名词-现在分词向量之一,或比对应的不定式元素编号大的谓语元素对应的谓语向量之一,或空单元;不定式元素对应的符合前述要求的表语成分,也当作不定式第一位置宾语元素处理;
如果对应的不定式元素是由可接双宾语的动词或可接宾语结合宾语补足语的动词构成的单元,且对应的不定式第一位置宾语元素是一个基本名词单元或一个相邻并列的基本名词组合单元,那么所述不定式第二位置宾语元素的可能取值是编号大于对应的不定式第一位置宾语元素编号且小于在所述不定式元素之后出现的第一个谓语元素编号的基本名词单元之一,或编号大于对应的不定式第一位置宾语元素编号且小于在所述不定式元素之后出现的第一个谓语元素编号的相邻并列的基本名词组合单元之一,或比对应的不定式元素编号大的谓语元素对应的谓语向量之一,或空单元;如果对应的不定式元素是由可接双宾语的动词或可接宾语结合宾语补足语的动词构成的单元,且对应的不定式第一位置宾语元素既不是一个基本名词单元又不是一个相邻并列的基本名词组合单元,那么所述不定式第二位置宾语元素的取值是空单元;如果对应的不定式元素是由既不可接双宾语又不可接宾语结合宾语补足语的动词构成的单元,那么所述不定式第二位置宾语元素的取值是空单元;其中,所述的可接双宾语的动词或可接宾语结合宾语补足语的动词以及所述的既不可接双宾语又不可接宾语结合宾语补足语的动词,可以通过查询词典或统计的方式预先归纳并给出;界定所述的可接双宾语的动词或可接宾语结合宾语补足语的动词以及所述的既不可接双宾语又不可接宾语结合宾语补足语的动词,有助于降低计算的复杂度;
其中,所述动名词-现在分词向量包括动名词-现在分词元素、动名词-现在分词第一位置宾语元素、动名词-现在分词第二位置宾语元素;
所述动名词-现在分词元素是对应的动名词-现在分词单元,或对应的相邻并列的动名词-现在分词组合单元;所述动名词-现在分词元素编号是对应的动名词-现在分词单元编号,或对应的相邻并列的动名词-现在分词组合单元编号;
所述动名词-现在分词第一位置宾语元素的可能取值是编号大于对应的动名词-现在分词元素编号且小于在所述动名词-现在分词元素之后出现的第一个谓语元素编号的基本名词单元之一,或编号大于对应的动名词-现在分词元素编号且小于在所述动名词-现在分词元素之后出现的第一个谓语元素编号的相邻并列的基本名词组合单元之一,或编号大于对应的动名词-现在分词元素编号且小于在所述动名词-现在分词元素之后出现的第一个谓语元素编号的不定式元素对应的不定式向量之一,或编号大于对应的动名词-现在分词元素编号且小于在所述动名词-现在分词元素之后出现的第一个谓语元素编号的动名词-现在分词元素对应的动名词-现在分词向量之一,或比对应的动名词-现在分词元素编号大的谓语元素对应的谓语向量之一,或空单元;动名词-现在分词元素对应的符合前述要求的表语成分,也当作动名词-现在分词第一位置宾语元素处理;
如果对应的动名词-现在分词元素是由可接双宾语的动词或可接宾语结合宾语补足语的动词构成的单元,且对应的动名词-现在分词第一位置宾语元素是一个基本名词单元或一个相邻并列的基本名词组合单元,那么所述动名词-现在分词第二位置宾语元素的可能取值是编号大于对应的动名词-现在分词第一位置宾语元素编号且小于在所述动名词-现在分词元素之后出现的第一个谓语元素编号的基本名词单元之一,或编号大于对应的动名词-现在分词第一位置宾语元素编号且小于在所述动名词-现在分词元素之后出现的第一个谓语元素编号的相邻并列的基本名词组合单元之一,或比对应的动名词-现在分词元素编号大的谓语元素对应的谓语向量之一,或空单元;如果对应的动名词-现在分词元素是由可接双宾语的动词或可接宾语结合宾语补足语的动词构成的单元,且对应的动名词-现在分词第一位置宾语元素既不是一个基本名词单元又不是一个相邻并列的基本名词组合单元,那么所述动名词-现在分词第二位置宾语元素的取值是空单元;如果对应的动名词-现在分词元素是由既不可接双宾语又不可接宾语结合宾语补足语的动词构成的单元,那么所述动名词-现在分词第二位置宾语元素的取值是空单元;其中,所述的可接双宾语的动词或可接宾语结合宾语补足语的动词以及所述的既不可接双宾语又不可接宾语结合宾语补足语的动词,可以通过查询词典或统计的方式预先归纳并给出;界定所述的可接双宾语的动词或可接宾语结合宾语补足语的动词以及所述的既不可接双宾语又不可接宾语结合宾语补足语的动词,有助于降低计算的复杂度;
其中,所述过去分词向量包括过去分词元素、过去分词宾语元素;
所述过去分词元素是对应的过去分词单元,或对应的相邻并列的过去分词组合单元;所述过去分词元素编号是对应的过去分词单元编号,或对应的相邻并列的过去分词组合单元编号;
如果对应的过去分词元素是由可接双宾语的动词或可接宾语结合宾语补足语的动词构成的单元,那么所述过去分词宾语元素的可能取值是编号大于对应的过去分词元素编号且小于在所述过去分词元素之后出现的第一个谓语元素编号的基本名词单元之一,或编号大于对应的过去分词元素编号且小于在所述过去分词元素之后出现的第一个谓语元素编号的相邻并列的基本名词组合单元之一,或比对应的过去分词元素编号大的谓语元素对应的谓语向量之一,或空单元;如果对应的过去分词元素是由既不可接双宾语又不可接宾语结合宾语补足语的动词构成的单元,那么所述过去分词宾语元素的取值是空单元;其中,所述的可接双宾语的动词或可接宾语结合宾语补足语的动词以及所述的既不可接双宾语又不可接宾语结合宾语补足语的动词,可以通过查询词典或统计的方式预先归纳并给出;界定所述的可接双宾语的动词或可接宾语结合宾语补足语的动词以及所述的既不可接双宾语又不可接宾语结合宾语补足语的动词,有助于降低计算的复杂度;
其中,所述介词向量包括过介词元素、介词宾语元素;
所述介词元素是对应的介词单元,或对应的相邻并列的介词组合单元;所述介词元素编号是对应的介词单元编号,或对应的相邻并列的介词组合单元编号;
所述介词宾语元素的可能取值是编号大于对应的介词元素编号且在所述介词元素之后出现的第一个基本名词单元,或编号大于对应的介词元素编号且在所述介词元素之后出现的第一个相邻并列的基本名词组合单元,或编号大于对应的介词元素编号且在所述介词元素之后出现的第一个动名词-现在分词向量,或编号大于对应的介词元素编号且在所述介词元素之后出现的第一个不定式向量,或编号大于对应的介词元素编号且与所述介词元素编号的数字顺序相邻的介词元素对应的介词向量,或比对应的介词元素编号大的谓语元素对应的谓语向量之一,或空单元;
S5、将不定式向量、动名词-现在分词向量、过去分词向量和介词向量,统称为辅助向量;针对待解析语句中的每一个辅助向量,分别任取一个该辅助向量对应的可能取值,从而获得一组全体辅助向量对应的可能取值;将前述的一组全体辅助向量对应的可能取值看作一个集合,称为一个辅助系统;
S6、任意给定一个规范主干系统,搭配一个对应的辅助系统;将前述的辅助系统中的每一个辅助向量内部的每一个排除向量之外的元素全都替换为对应的编号;替换编号之后,检查该辅助系统;如果在该辅助系统中出现下述不合理的情况,那么清除该辅助系统;如果在该辅助系统中没有出现下述不合理的情况,那么保留该辅助系统;将保留下来的辅助系统称为规范辅助系统;接下来提到的谓语向量,都是指前述给定的规范主干系统中的谓语向量;
S6.1、如果在两个不同的辅助向量中出现相同的编号或相同的谓语向量或相同的不定式向量或相同的动名词-现在分词向量或相同的介词向量,那么该辅助系统不合理,清除该辅助系统;
S6.2、如果一个辅助向量内部和一个谓语向量内部同时出现相同的编号或相同的谓语向量或相同的不定式向量或相同的动名词-现在分词向量,那么该辅助系统不合理,清除该辅助系统;
S6.3、如果在一个辅助向量内部出现两个顺序逆反的编号,那么该辅助系统不合理,清除该辅助系统;
S6.4、将两两之间存在元素代入关系的任意两个辅助向量,全都进行等量代换;如果出现向量之间的代入交叉矛盾,那么该辅助系统不合理,清除该辅助系统;如果在等量代换之后出现两个顺序逆反的编号,那么该辅助系统不合理,清除该辅助系统;
S6.5、将两两之间存在元素代入关系的任意一个辅助向量和任意一个谓语向量,全都进行等量代换;如果出现向量之间的代入交叉矛盾,那么该辅助系统不合理,清除该辅助系统;如果在等量代换之后出现两个顺序逆反的编号,那么该辅助系统不合理,清除该辅助系统;
S6.6、检查过后,恢复到检查之前的原状,以备后续的各项操作使用;
S7、生成剩余名词系统和A-B-C联合系统;
S7.1、任意给定一个规范主干系统和一个与该规范主干系统对应的规范辅助系统,将没有进入前述的规范主干系统和规范辅助系统的剩余的基本名词单元和相邻并列的基本名词组合单元的全体看作一个集合,将这个集合称为一个剩余名词系统;将剩余名词系统中的每一个元素,称为一个剩余名词元素;一个剩余名词元素的编号,是该剩余名词元素对应的基本名词单元或基本名词组合单元的编号;针对每一个剩余名词元素,生成一个对应的剩余名词向量;所述剩余名词向量,仅包括剩余名词元素,即剩余名词向量与剩余名词元素是一一对应的;
S7.2、按照S7.1所述的方式互相对应的一个规范主干系统、一个规范辅助系统和一个剩余名词系统,就构成一个A-B-C联合系统;
S8、任意给定一个A-B-C联合系统,针对该A-B-C联合系统执行整体插空操作;每一个空位,在一次整体插空操作中至多可以接收一个向量,也可以不接收任何向量,即无插空操作;在整体插空操作之前,清除空单元;在整体插空操作中,将构造空位且接收其他向量进入该空位的向量,记为接收向量;将插入其他向量的空位的向量,记为插入向量;
S8.1、在前述的A-B-C联合系统中,对每一个向量内部的每一个可以用其他向量进行代换的元素,全都使用对应的向量进行等量代换,无论对应的向量是谓语向量还是辅助向量;执行前述的等量代换,直至将每一个向量内部的其他向量全都替换完毕;经过前述的等量代换,如果某一个向量被代入另一个向量内部,那么取消代入另一个向量内部的向量在A-B-C联合系统中的原有位置,从而令经过前述的等量代换操作的两个向量完全融合;通过等量代换,将A-B-C联合系统中原有的向量,全都转化为相互之间不存在元素代入关系的新的向量;以等量代换为界限,将等量代换之前的A-B-C联合系统中的向量称为第I类向量,将等量代换之后的A-B-C联合系统中的向量称为第II类向量;显然,某一个第I类向量和某一个第II类向量,可以是同一个向量,即一个向量在等量代换的之前和之后可以不发生变化;
S8.2、在A-B-C联合系统中进行第一轮整体插空操作:任取一个第II类向量ω,作为第一轮整体插空操作的接收向量;按照预定的方向逐一标注向量ω中的每一个元素的顺序值;按照已经标注的顺序值,任取向量ω中的第i个元素,仅在该元素的第一侧构造唯一的空位;造空之后,任取一个排除前述的向量ω之外的第II类向量μ,作为第一轮整体插空操作的插入向量;以整体插空的方式,将向量μ插入前述第i个元素对应的空位,进而生成一个新的向量,将这个新生成的向量记为[ω]i+<μ;将A-B-C联合系统中经过整体插空操作而获得的向量,统称为第III类向量;每一轮整体插空标注的顺序值,仅限于在这一轮整体插空过程中使用;
S8.3、在A-B-C联合系统中进行第二轮整体插空操作:取第III类向量[ω]i+<μ作为第二轮整体插空操作的接收向量;按照预定的方向,对从向量[ω]i+<μ中的第一侧第一个元素开始直到向量[ω]i+<μ包含的向量μ内部的第二侧第一个元素为止的每一个元素,标注顺序值;向量[ω]i+<μ中的其余元素,全都不标注顺序值;按照已经标注的顺序值,取第j个元素,仅在该元素的第一侧构造唯一的空位;造空之后,任取一个之前任何步骤都没有使用过的第II类向量ξ,作为第二轮整体插空操作的插入向量;以整体插空的方式将向量ξ插入前述第j个元素对应的空位,进而生成一个新的向量,将新生成的向量记为[[ω]i\μ]j+<ξ;或者
取第III类向量[ω]i+<μ作为第二轮整体插空操作的接收向量;按照预定的方向对向量[ω]i+<μ中的每一个元素标注顺序值;按照已经标注的顺序值,任取向量[ω]i+<μ中的第k个元素,仅在该元素的第一侧构造唯一的空位;造空之后,任取一个之前任何步骤都没有使用过的第II类向量ξ,作为第二轮整体插空操作的插入向量;以整体插空的方式将向量ξ插入前述第k个元素对应的空位,进而生成一个新的向量,将新生成的向量记为([ω]i+<μ)k+<ξ;按照该方法进行整体插空操作,如果在执行完S8.4之后出现雷同的结果,那么将雷同的结果合并为一个结果,即将雷同的拼合向量合并为一个拼合向量;
S8.4、在前述的A-B-C联合系统中,按照下述的方式反复执行S8.3给出的整体插空操作:取前一轮整体插空操作获得的新生成的向量,作为新一轮整体插空操作的接收向量,且任取一个之前任何步骤都没有使用过的第II类向量,作为新一轮整体插空操作的插入向量;反复执行整体插空操作,直至将所有的第II类向量全部插入空位完毕,记为穷尽全部插入向量,且在穷尽全部插入向量的同时获得一个第III类向量;将穷尽全部插入向量的同时获得的第III类向量,记为拼合向量;S8.3共包含2种整体插空操作方法,对于S8.3中的整体插空操作方法的选择,前后步骤要保持一致;将每一轮整体插空操作所采用的第II类向量按顺序依次排列,直至穷尽全部插入向量,就构成了A-B-C联合系统对应的一个插空方案;反复执行从S8.2到S8.4的操作,穷尽插空方案所涉及到的每一轮插空操作中的每一个接收向量内部的每一个元素对应的空位,即穷尽插空方案所涉及到的每一个拼合向量;
S8.5、检查S8.4生成的结果:替换成编号;如果在一个拼合向量内部出现两个顺序逆反的编号,那么该拼合向量不合理,清除该拼合向量;如果在一个拼合向量内部没有出现顺序逆反的编号,那么该拼合向量是合理的,保留该拼合向量;
S8.6、在将前述的A-B-C联合系统中的第I类向量全都转化为第II类向量之后,首先将该A-B-C联合系统中的每一个第II类向量全都替换成对应的编号,然后执行前述的整体插空操作;按照任意给定的一个该A-B-C联合系统对应的插空方案,在每一轮整体插空操作中,在接收向量内部的每一个元素的第一侧全都构造一个空位,然后开始筛选合理空位;比较插入向量内部的左侧或右侧第一个编号与待筛选的空位对应的左侧或右侧相邻编号之间的大于或小于关系,且仅选取具有避免出现编号顺序逆反的大于或小于关系的空位作为合理空位,进行插空操作,其余空位都作为不合理空位,无插空操作;如果接收向量内部不存在合理空位,那么说明前述给定的插空方案不合理,结束该插空方案,并更换其他的插空方案;采用该方法进行优化,可以将获得的拼合向量直接记为合理的拼合向量,无需进行编号顺序逆反检查;
S8.7、运用组合数学中的乘法原理,穷尽每一张词语列表(ii)对应的全部A-B-C联合系统;进一步地,通过对每一个A-B-C联合系统中的全体第II类向量进行排列组合,穷尽每一个A-B-C联合系统对应的全部插空方案;再进一步地,对每一个插空方案反复执行从S8.2至S8.6的操作,直至穷尽每一个插空方案对应的全部拼合向量;
S8.8、句法规则检查:使用自然语言的句法规则,采用概率结合句法规则的方法或依存分析方法,对保留下来的每一个合理的拼合向量及其对应的A-B-C联合系统进行检查;前述的使用句法规则进行检查,应当包括运用事件宾语动词和非事件宾语动词的规则进行检查;所述事件宾语动词,是指自然语言中的只能以事件作为宾语而不能以人或事物作为宾语的动词;所述非事件宾语动词,是指自然语言中的只能以人或事物作为宾语而不能以事件作为宾语的动词;事件宾语动词和非事件宾语动词,可以通过查询词典或统计的方式预先归纳并给出;
S8.9、在执行S8.8的同时,进行句法结构修补;所述的句法结构修补,采用概率结合句法规则的方法或依存分析方法,将遗漏的句法信息重新挖掘出来,且据此修补之前得出的句法结构中存在的缺陷;还可以通过句法结构修补这一环节,对前述保留下来的A-B-C联合系统中的每一个向量在句法结构方面的主要地位和次要地位进行区分和调整;
S8.10、剩余名词检查:采用概率结合句法规则的方法或依存分析方法,找出合理的剩余名词和不合理的剩余名词,且将包含不合理的剩余名词的A-B-C联合系统舍弃;
S9、以经过S8保留下来的若干个A-B-C联合系统所刻画的待解析语句的句法结构的基本框架作为标准,在采用概率结合句法规则的方法或依存分析方法对待解析语句进行分析而获得的数量充足的完整句法结构中,找出符合前述标准的且最合适的完整句法结构;
S10、以S9生成的若干个完整句法结构为基础,采用语义处理的方法,找出经过前述的句法结构约束的最合适的语义关系,进而将该语义关系对应的前述的完整句法结构作为最终的句法分析结果。
优选地,步骤S1包括:
S1.1、对于待解析的语句中的每个词的词性,进行计算机自动分析和标注,生成词法分析的结果;
S1.2、对于待解析的语句中的谓语动词、基本名词短语、基本形容词短语、基本副词短语等自然语言的要素,进行计算机自动分析和标注;对于相邻并列的名词短语、相邻并列的形容词短语、相邻并列的副词短语等自然语言要素,进行计算机自动分析和标注;
S1.3、将各种相邻并列的词性单元合并,且将合并之后的相邻并列的词性单元记为一个对应的词性单元;
S1.4、针对S1.2和S1.3所述的待解析的语句中的语言信息,开列出一张词语列表,记为词语列表(i);词语列表(i)包括词语、词语对应的属性、词语在句子中的位置信息、标点符号及其在句子中的位置信息;
S1.5、针对词法分析可能产生的多种不同的结果,运用组合数学的相关方法,生成多张不同的词语列表(i),以便容纳多种结构歧义;针对前述生成的多张不同的词语列表(i),分别采用不同的编号加以区分;在所述的预处理操作中,放宽对词法分析结果的限制,将由结构歧义导致的多种不同的词法分析结果通过多张不同的词语列表(i)保留下来,留给后续的句法分析环节和语义处理环节加以辨别和筛选,即通过后续的句法分析环节和语义处理环节对多种不同的词法分析结果加以约束,从而增大最终选取正确的词法分析结果的可能性;
S1.6、针对每一个词语列表(i),采用概率结合句法规则的方法或依存分析方法,将疑问句、省略句、倒装句等特殊句式检查出来,并对其谓语做相应的形态处理,以便后续步骤的处理;
S1.7、针对每一个词语列表(i),剔除副词单元、形容词单元、相邻并列的副词单元、相邻并列的形容词单元、感叹词单元、非句子形态的简单插入语成分、小品词单元、相邻并列的小品词单元、无结构歧义的相邻并列的限定词单元、混合修饰单元等待解析的语句中的杂质成分;剔除非句子形态的简单插入语单元两侧的逗号等待解析的语句包含的次要的标点符号。
优选地,所述步骤S2包括:
S2.1、针对每一个词语列表(i),读取待解析的经过前述的预处理的语句数据结构,所述经过前述的预处理的语句数据结构包括如下信息:
(1),用于连接句子的并列关联词单元;
(2),不用于连接句子的并列关联词单元;不用于连接句子的并列关联词单元的作用是连接句子内部的各种并列成分;
(3),谓语动词单元、从属关联词单元、基本名词单元、不定式动词单元、动名词-现在分词单元、过去分词单元、介词单元、相邻并列的谓语动词组合单元、相邻并列的从属关联词组合单元、相邻并列的基本名词组合单元、相邻并列的不定式动词组合单元、相邻并列的动名词-现在分词组合单元、相邻并列的过去分词组合单元、相邻并列的介词组合单元;
(4),疑问词单元、相邻并列的疑问词组合单元、有结构歧义的限定词单元;
(5),包含谓语动词单元的插入语成分;
(6),主要的标点符号;
S2.2、针对前述的S2.1中的语句数据结构,生成词语列表(ii);词语列表(ii)包括前述的词语、前述的词语对应的属性、依据自然语言的行文顺序对前述的词语按照从小到大的数字顺序标注的编号、主要的标点符号。
优选地,所述步骤S3包括:
S3.1、根据所述谓语元素、并列引导语元素、从属引导语元素、主语元素、第一位置宾语元素、第二位置宾语元素的可能取值,获取每一个谓语元素对应的谓语向量的所有可能取值;所述谓语向量包括并列引导语元素、从属引导语元素、主语元素、谓语元素、第一位置宾语元素、第二位置宾语元素;
S3.2、针对待解析语句中的每一个谓语向量,分别任取一个该谓语向量对应的可能取值,从而获得一组全体谓语向量对应的可能取值;将前述的一组全体谓语向量对应的可能取值按照固定顺序排列,构成一个n行6列矩阵;将前述的一个n行6列矩阵,称为一个主干系统;
S3.3、将任意给定的一个主干系统中的每一个谓语向量内部的每一个排除向量之外的元素全都替换为对应的编号;替换编号之后,检查该主干系统;如果在该主干系统中出现下述不合理的情况,那么清除该主干系统;如果在该主干系统中没有出现下述不合理的情况,那么保留该主干系统;将保留下来的主干系统称为规范主干系统:
S3.3.1、检查前述的主干系统:对比词语列表(ii),如果存在没有进入该主干系统的用于连接句子的并列关联词单元或从属关联词单元或相邻并列的从属关联词组合单元,那么该主干系统不合理,清除该主干系统;
S3.3.2、检查前述的主干系统:如果在两个不同的谓语向量中出现相同的编号或相同的谓语向量或相同的不定式向量或相同的动名词-现在分词向量,那么该主干系统不合理,清除该主干系统;
S3.3.3、检查前述的主干系统:如果在一个谓语向量内部出现两个顺序逆反的编号,那么该主干系统不合理,清除该主干系统;
S3.3.4、检查前述的主干系统:将两两之间存在元素代入关系的任意两个谓语向量,全都进行等量代换;如果出现向量之间的代入交叉矛盾,那么该主干系统不合理,清除该主干系统;如果在等量代换之后出现两个顺序逆反的编号,那么该主干系统不合理,清除该主干系统;
S3.3.5、检查过后,恢复到检查之前的原状,以备后续的各项操作使用。
优选地,在执行S3.2的过程中,同步执行S3.3的检查程序,阻止不合理的主干系统的生成。
附图说明
通过以下参照附图对本发明实施例的描述,本发明的上述以及其他目的、特征和优点将更为清楚,在附图中:
图1是Berkeley Parser做出的针对例句“That men who were appointed didn'tbother the liberals wasn't remarked upon by the press.”的错误解析结果截图;
图2是Berkeley Parser做出的针对例句“That something you learned iswrong is known to the public.”的错误解析结果截图;
图3是本发明提供的针对例句“That men who were appointed didn't botherthe liberals wasn't remarked upon by the press.”的第1种正确解析结果示意图;
图4是本发明提供的针对例句“That men who were appointed didn't botherthe liberals wasn't remarked upon by the press.”的第2种正确解析结果示意图;
图5是本发明提供的针对例句“That something you learned is wrong isknown to the public.”的正确解析结果示意图;
图6是Berkeley Parser做出的针对例句“That that men were appointed didn't bother the liberals wasn't remarked upon by the press.”的错误解析结果截图;
图7是Berkeley Parser做出的针对例句“That that that men were appointeddidn't bother the liberals wasn't remarked upon by the press upset manywomen.”的错误解析结果截图;
图8是本发明提供的针对例句“That that men were appointed didn't botherthe liberals wasn't remarked upon by the press.”的正确解析结果示意图;
图9是本发明提供的针对例句“That that that men were appointed didn'tbother the liberals wasn't remarked upon by the press upset many women.”的正确解析结果示意图;
图10是本发明提供的针对例句“Behaviorists suggest the child who israised in an environment where there are many stimuli which develop his orher capacity for appropriate responses will experience greater intellectualdevelopment.”的正确解析结果示意图;
图11是本发明提供的针对例句“Believing that what he wants will occur,Tom works hard in the company.”的正确解析结果示意图;
图12是Berkeley Parser做出的针对例句“A study of travelers conducted bythe website TripAdvisor names Yangshuo as one of the top 10destinations inthe world.”的错误解析结果截图;
图13是本发明提供的针对例句“A study of travelers conducted by thewebsite TripAdvisor names Yangshuo as one of the top 10destinations in theworld.”的正确解析结果示意图;
图14是Berkeley Parser做出的针对例句“That nearly all behavior islearned behavior is a basic assumption that has been put forward by thesocial scientists.”的错误解析结果截图;
图15是本发明提供的针对例句“That nearly all behavior is learnedbehavior is a basic assumption that has been put forward by the socialscientists.”的正确解析结果示意图;
图16是Berkeley Parser做出的针对例句“Jack met the patient the nursethe clinic had hired sent to the doctor.”的错误解析结果截图;
图17是本发明提供的针对例句“Jack met the patient the nurse the clinichad hired sent to the doctor.”的正确解析结果示意图;
图18是Berkeley Parser做出的针对例句“Jack met the boy the nurse thedoctor the clinic had hired sent to the ward introduced to the patient.”的错误解析结果截图;
图19是本发明提供的针对例句“Jack met the boy the nurse the doctor theclinic had hired sent to the ward introduced to the patient.”的正确解析结果示意图;
图20是Berkeley Parser做出的针对例句“This is the malt the rat the catthe dog worried killed ate.”的错误解析结果截图;
图21是本发明提供的针对例句“This is the malt the rat the cat the dogworried killed ate.”的正确解析结果示意图;
图22是Berkeley Parser做出的针对例句“Part of the reason CharlesDickens loved his own novel was that it was rather closely modeled on his ownlife.”的错误解析结果截图;
图23是本发明提供的针对例句“Part of the reason Charles Dickens lovedhis own novel was that it was rather closely modeled on his own life.”的正确解析结果示意图;
图24是针对例1的第1种整体插空方法的步骤图(一);
图25是针对例1的第1种整体插空方法的步骤图(二);
图26是针对例1的第1种整体插空方法的步骤图(三);
图27是针对例1的第1种整体插空方法的步骤图(四);
图28是例1的A1-B1-C1联合系统刻画的句法结构的基本框架图;
图29是针对例1的第2种整体插空方法的步骤图(一);
图30是针对例1的第2种整体插空方法的步骤图(二);
图31是针对例1的第1种和第2种整体插空方法的优化方法的步骤图;
图32是例2的A1-B1-C1联合系统刻画的句法结构的基本框架图;
图33是例3的A1-B1-C1联合系统刻画的句法结构的基本框架图;
图34是例4的A1-B1-C1联合系统刻画的句法结构的基本框架图;
图35是例5的五轮整体插空操作图;
图36是例6的A1-B1-C1联合系统刻画的句法结构的基本框架图;
图37是例8的Aa-Ba-Ca联合系统对应的完整句法结构的直观形态图;
图38是例8的Ab-Bb-Cb联合系统对应的完整句法结构的直观形态图;
图39是例8的Aa-Ba-Ca联合系统对应的经过句法结构约束的语义关系图;
图40是例8的Ab-Bb-Cb联合系统对应的经过句法结构约束的语义关系图;
图41是例9的Aa-Ba-Ca联合系统对应的完整句法结构的整体插空过程图;
图42是例10的A1-B1-C1联合系统对应的完整句法结构的整体插空过程图;
图43是例11的A1-B1-C1联合系统对应的完整句法结构的整体插空过程图;
图44是例17的A1-B1-C1联合系统对应的完整句法结构的整体插空过程图;
图45是本发明提供的针对例句“That men the nurse the doctor the clinichad hired sent to the ward introduced to the cleaners didn't bother thepatients wasn't remarked upon by the press.”的正确解析结果示意图;
图46是Berkeley Parser做出的针对例句“That men the nurse the doctor theclinic had hired sent to the ward introduced to the cleaners didn't botherthe patients wasn't remarked upon by the press.”的错误解析结果截图;
图47是例18的A1-B1-C1联合系统对应的完整句法结构的整体插空过程图;
图48是本发明提供的针对例句“That men the cleaner introduced to thenurses the doctor the clinic had hired sent to the ward didn't bother thepatients wasn't remarked upon by the press.”的正确解析结果示意图;
图49是Berkeley Parser做出的针对例句“That men the cleaner introducedto the nurses the doctor the clinic had hired sent to the ward didn't botherthe patients wasn't remarked upon by the press.”的错误解析结果截图;
图50是第2个计算区域(β区域)包含的所有环节和算法示意图。
具体实施方式:
引入一些重要的定义,在下文的讲解中,会用到这些定义:
下文的讲解所针对的自然语言,包括但不限于英语语言。将语句的内部成分划分为4个类别:杂质成分、主干成分、辅助成分、剩余名词成分。
在实施计算机句法分析的过程中,首先,将副词单元、形容词单元、感叹词单元、小品词单元、混合修饰单元、相邻并列的副词单元、相邻并列的形容词单元等待解析语句中的杂质成分去掉。其次,以谓语为单位,将待解析语句中的每一个主谓搭配(简单句)连同其中的主干成分,全都处理成一个谓语向量,进而全体谓语向量形成一个n行6列的矩阵结构,作为主干系统。再次,将每一个不定式结构、过去分词结构、介词结构等辅助成分全都处理成一个辅助向量,进而全体辅助向量形成一个集合,作为辅助系统。最后,在可能产生的主干系统和辅助系统中挑选出合理的搭配,作为规范主干系统和规范辅助系统,进而将每一个不能进入规范主干系统和规范辅助系统的剩余名词成分处理成一个剩余名词向量,进而全体剩余名词向量形成一个集合,作为剩余名词系统。
定义1:定义+<为数学当中的一种有序的加法运算:设S是一个待解析的英文语句,设a和b是待解析的语句S中的两个不同的词语,如果(a,b)满足+<,那么词语a在语句S中的编号小于词语b在语句S中的编号,即,a+<b表示词语a在语句S中的编号小于词语b在语句S中的编号。
定义2:设S是一个待解析的英文语句,设f是英文语句S中的任意一个谓语向量。定义6个与谓语向量f相关的变量c,l,x,r,y,z:将c记为谓语向量f中的并列引导语元素;将l记为谓语向量f中的从属引导语元素,将x记为谓语向量f中的主语元素,将r记为谓语向量f中的谓语元素,将y记为谓语向量f中的第一位置宾语元素,将z记为谓语向量f中的第二位置宾语元素。如果将c,l,x,r,y,z看作6个自变量,那么谓语向量f可以看作是由前述的6个自变量构成的一个6元函数。由此,在剔除谓语向量f中的副词单元、相邻并列的副词单元、混合修饰单元、感叹词单元、小品词单元等杂质成分之后,可以获得一个刻画该谓语向量f主干成分的6元函数表达式:f(c,l,x,r,y,z)=c+<l+<x+<r+<y+<z。还可以采用数学集合论中的表示方法,将前述的谓语向量f记为6元有序组(c,l,x,r,y,z)的形式。
定义3:设前述的待解析的语句S共有n个谓语。依据前述的定义,将n个谓语对应的每一个谓语向量按照6元函数的形态表达出来,可以将待解析的语句S表达为一个n行6列的矩阵结构。如果将该矩阵中的每一个自变量赋予一个具体取值,即将该矩阵中的每一个谓语向量赋予一个具体取值,那么该矩阵也相应地获得了一组具体取值。将前述的该矩阵结构对应的一组具体取值,称为语句S的一个主干系统,也称为一个A系统。如下所示:
定义4:定义语句中的6种辅助向量。设在前述的待解析的语句S中:将不定式向量记为g[To VB](u,v);将动名词-现在分词向量记为g[VBG](u,v);将过去分词向量记为g[VBN](u,v);将介词向量记为g[PREP](u)。对于在同一个语句中出现的多个相同种类的辅助向量,采用数字标记加以区分,如:g[To VB,1](u,v),g[To VB,2](u,v),……,或g[VBG,1](u,v),g[VBG,2](u,v),……,或g[VBN,1](u),g[VBN,2](u),……,或g[PREP,1](u),g[PREP,2](u),……。其中,每一个辅助向量中的自变量u和v,分别代表以该辅助向量的名称命名的第一位置宾语元素或第二位置宾语元素或宾语元素。
特别说明:属于动词不定式范畴的各种形态,都通过g[To VB](u,v)来表达,例如:使用计算语言学符号表达的形态To VB,To VB VBN,To VB VBN VBN,To VB VBG等等;属于动名词-现在分词范畴的各种形态,都通过g[VBG](u,v)来表达,例如:使用计算语言学符号表达的形态VBG,VBG VBN,VBG VBN VBN等等。
定义5:将全体辅助向量记为一个集合,将该集合称为待解析的语句S的辅助系统,也称为B系统。如下所示:
注:定义3、定义4和定义5中的“数字标记”,仅用于在多个同类的向量之间进行区分和标记,与本申请方案中的“编号”不是同一个概念,不要混淆。
定义6:将前述的谓语向量、辅助向量以及本申请方案中提到的剩余名词向量,统称为语言向量。任给两个语言向量α和β,且α和β都不是剩余名词向量,如果语言向量β在语言向量α中充当α的主语元素或第一位置宾语元素或第二位置宾语元素或不定式第一位置宾语元素或不定式第二位置宾语元素或动名词-现在分词第一位置宾语元素或动名词-现在分词第二位置宾语元素或过去分词宾语元素或介词宾语元素,那么就称语言向量α和β具有复合关系,记为向量α复合了向量β,或者向量β被向量α复合。语言向量之间的复合关系,在本申请方案中也称为“元素代入关系”。
两点特别说明:(i)辅助向量带有一定的特殊性。通常是谓语向量复合了辅助向量;但是有的时候会反过来,辅助向量复合了谓语向量。对此,本申请方案做了相应的技术处理。(ii)下文提到的语言向量之间的整体插空的概念,以本申请方案的S8的讲解为准。
下面以英语为例,阐述一条规律。语句的构成,遵循这样一条规律:任何一个复杂语句的句法结构的主要部分,都是以多个语言向量之间的复合与整体插空两种结合方式为基础,经过这两种结合方式的某种搭配而构成的。从概率和统计的数学角度衡量,上述规律是一种确定性事件,可以通过在语料库中进行统计而获得验证,即在任意一个以规范语句为样本的英语句子样本空间中,符合上述规律的复杂语句的概率全都是1。上述规律,是计算机自然语言处理中常见的远距离相关问题和深层递归嵌套问题产生的根源所在,也是本发明解决技术问题的一个重要出发点。
本专利申请,依据数学和计算机科学的相关自然规律,综合运用穷举、排列组合、比较自然数大小、排除自然数逆序、概率计算等数学和计算机科学的方法,建立解决问题所需的数学模型。
实例操作:
例1:That men who were appointed didn't bother the liberals wasn'tremarked upon by the press.
本例句经过预处理,生成词语列表(i-a)和词语列表(i-b)。由于例句中的单词that具有结构歧义(structural ambiguity),that既有可能是从属关联词单元又有可能是限定词单元,所以生成两张词语列表(i),并且对这两张词语列表(i)加以不同的标识。
当句子中存在结构歧义的时候,就需要对句子开列多张词语列表(i);开列词语列表(i)的个数,可以按照结构歧义的个数,运用组合数学中的乘法原理而获得。该例句还包含一个结构歧义:upon既有可能是小品词又有可能是介词,但是限于篇幅就不再专门分析了。
词语列表(i-a):
词语列表(i-b):
对上述的词语列表(i-a)和词语列表(i-b),剔除其中的形容词单元、副词单元、相邻并列的形容词单元、相邻并列的副词单元、非句子形态的简单插入语单元、小品词单元、相邻并列的小品词单元、感叹词单元等作为杂质的自然语言要素,进而读取待解析的经过预处理的语句数据结构,并生成对应的词语列表(ii-a)和词语列表(ii-b),如下所示。
词语列表(ii-a):
词语列表(ii-b):
接下来,本专利申请以词语列表(i-a)和与之相对应的词语列表(ii-a)为例,展开分析和讲解:
本例句共有3个谓语动词单元were appointed,didn’t bother,wasn’tremarked;由此可知,本例句包含3个谓语元素,依次记为r1,r2,r3;进而,针对这3个谓语元素,生成对应的谓语向量f1,f2,f3;谓语向量f1,f2,f3中的每一个元素的取值如下:
①对于f1有:
将r1的所有可能取值的全体记为{r1};依据申请方案S3中的信息,显然:{r1}={were appointed};
将c1的所有可能取值的全体记为{c1};依据申请方案S3中的信息,可得:{c1}={e}。
将l1的所有可能取值的全体记为{l1};依据申请方案S3中的信息,可得:{l1}={That,who,e}。
将x1的所有可能取值的全体记为{x1};依据申请方案S3中的信息,可得:{x1}={men,e}。
将y1所有可能取值的全体记为{y1};依据申请方案S3中的信息可得:{y1}={f2,f3,e}。
将z1所有可能取值的全体记为{z1};虽然当前对应的谓语元素were appointed是由可接宾语结合宾语补足语的动词构成的单元,但是该谓语元素对应的第一位置宾语元素,既不是一个基本名词单元又不是一个相邻并列的基本名词组合单元,那么依据申请方案S3中的信息,可得:{z1}={e}。可接双宾语的动词,例如:give,buy,sell,offer等;可接宾语结合宾语补足语的动词,例如:make,name,call,find等;前述的动词可以通过查询词典或统计的方式预先归纳并给出。
前述的过程,已经生成了谓语向量f1中的每一个元素的所有可能取值。谓语向量f1的所有可能取值,可以通过对f1中的每一个元素的所有可能取值进行组合数学的相关计算而获得。
与前述的生成谓语向量f1中的每一个元素的取值过程相似,有如下生成谓语向量f2和f3中的每一个元素的取值过程:
②对于f2有:{r2}={didn’t bother};{c2}={e},{l2}={That,who,e},{x2}={men,f1,e},{y2}={the liberals,f3,e},{z2}={e}。
③对于f3有:{r3}={wasn’t remarked};{c3}={e},{l3}={That,who,e},{x3}={men,the liberals,f1,f2,e},{y3}={the press,e},{z3}={e}。
在生成了谓语向量f2和f3中的每一个元素的所有可能取值的基础之上,谓语向量f2和f3的所有可能取值,可以通过分别对f2和f3中的每一个元素的所有可能取值进行组合数学的相关计算而获得。
综上可知:本例句共有3个谓语动词单元,包含3个谓语元素,进而针对这3个谓语元素,生成对应的谓语向量f1,f2,f3;谓语向量f1,f2,f3中的每一个元素的取值如下:
①对于f1有:{r1}={were appointed};{c1}={e},{l1}={That,who,e},{x1}={men,e},{y1}={f2,f3,e},{z1}={e}。
②对于f2有:{r2}={didn’t bother};{c2}={e},{l2}={That,who,e},{x2}={men,f1,e},{y2}={the liberals,f3,e},{z2}={e}。
③对于f3有:{r3}={wasn’t remarked};{c3}={e},{l3}={That,who,e},{x3}={men,the liberals,f1,f2,e},{y3}={the press,e},{z3}={e}。
在生成了谓语向量f1,f2,f3中的每一个元素的所有可能取值之后,这3个谓语向量各自的所有可能取值,可以通过分别对f1,f2,f3中的每一个元素的所有可能取值进行组合数学的相关计算而获得。
依据申请方案S3.2中的信息,本例句有三个谓语向量,则本例句的主干系统应该由一个3行6列的矩阵构成,其抽象的形式如下:
一个主干系统也就是一个A系统。将本例句对应的主干系统的全体记为{A};将集合{A}的基数记为∣A∣。将谓语向量f1的所有可能取值的全体记为集合{f1};将集合{f1}的基数记为∣f1∣。对其他各谓语向量和各元素,采取相同的处理。则运用组合数学中的乘法原理:
∣f1∣=∣c1∣×∣l1∣×∣x1∣×∣r1∣×∣y1∣×∣z1∣=1×3×2×1×3×1=18
∣f2∣=∣c2∣×∣l2∣×∣x2∣×∣r2∣×∣y2∣×∣z2∣=1×3×3×1×3×1=27
∣f3∣=∣c3∣×∣l3∣×∣x3∣×∣r3∣×∣y3∣×∣z3∣=1×3×5×1×2×1=30
从而:∣A∣=∣f1∣×∣f2∣×∣f3∣=18×27×30=14580,总计生成14580个主干系统。
上述过程,可以依据申请方案中的权利要求5加以简化,将主干系统的生成和检查同步执行,从而降低计算的复杂度。
在前述生成的主干系统中,也就是在前述生成的14580个3行6列矩阵之中,任取5个矩阵,按照申请方案中的从S3.3.1至S3.3.4的要求对这5个矩阵进行检查。为便于表述,本专利申请的发明人直接将前述任取的5个矩阵替换为编号,编号都与词语列表(ii-a)相对应,在替换编号的时候,空单元e保持不变,如下所示。
第1个矩阵:
第2个矩阵:
第3个矩阵:
第4个矩阵:
第5个矩阵:
依据申请方案S3.3.1中的要求,检查前述的第1个矩阵:该矩阵漏掉了从属关联词单元who,who的编号是3。该矩阵不合理,即该主干系统不合理,清除该主干系统;
依据申请方案S3.3.2中的要求,检查前述的第2个矩阵:在该矩阵中,在f1和f2两个不同的谓语向量中分别出现了相同的编号2,该矩阵不合理,即该主干系统不合理,清除该主干系统;
依据申请方案S3.3.2中的要求,检查前述的第3个矩阵:在该矩阵中,在f2和f3两个不同的谓语向量中分别出现了相同的谓语向量f1,该矩阵不合理,即该主干系统不合理,清除该主干系统;
依据申请方案S3.3.3中的要求,再次检查前述的第2个矩阵:在该矩阵中,谓语向量f1内部出现两个顺序逆反的编号3和2,该矩阵不合理,即该主干系统不合理,清除该主干系统;显然,第2个矩阵两次违反了申请方案中的要求。
依据申请方案S3.3.4中的要求,检查前述的第4个矩阵:在该矩阵中,谓语向量f2内部出现f3,而谓语向量f3内部也出现f2,这样就无法将f2=e+<1+<2+<5+<f3+<e代入f3中,也无法将f3=e+<e+<f2+<7+<e+<e代入f2中,这是代入交叉矛盾。该矩阵不合理,即该主干系统不合理,清除该主干系统。
依据申请方案中的上述要求,检查前述的第5个矩阵:第5个矩阵没有违反申请方案S3.3中的任何一条要求。因此,前述的第5个矩阵,是一个规范主干系统,或者说是一个规范A系统。在前述生成的14580个3行6列矩阵之中,还有其他的规范主干系统,不一一列举。将前述的第5个矩阵,记为规范A1系统。将规范A1系统还原为如下形态:
依据申请方案的S3.3.5,检查过后,恢复到检查之前的原状,以备后用。
依据申请方案S4中的信息,本例句只有一个介词单元by,针对介词单元by,生成一个对应的辅助向量g[PREP](u)。
依据申请方案S4中的信息,显然:
g[PREP](u)=by+<(u):PREP=by,u={the press,e}。
g[PREP](u)=by+<(u)的所有可能取值是:集合{by+<the press,by+<e}。
依据申请方案S5中的信息,可知:由前述的集合{by+<the press,by+<e}可以获得两个辅助系统,也就是获得两个B系统,分别记为记为B1系统和B2系统;不妨设B1={g[PREP](u)=by+<the press},B2={g[PREP](u)=by+<e}。
现在,给定前述的规范A1系统,后续的操作与规范A1系统保持一致。
将前述的B1和B2系统都替换成编号:
B1={g[PREP](u)=8+<9},B2={g[PREP](u)=8+<e}。
经检查,B1系统和B2系统符合申请方案中的从S6.1至S6.5的各项要求。由于B1系统和B2系统的结构都比较简单,因此容易验证,不做过多说明。
由此可知,在给定前述的规范A1系统的前提之下,B1系统和B2系统都是规范辅助系统。可将B1系统和B2系统进一步记为规范B1系统和规范B2系统。
依据申请方案的S6.6,检查过后,恢复到检查之前的原状,以备后用。
生成C系统和A-B-C联合系统:
将前述的规范A1系统和规范B1系统搭配在一起,没有产生对应的剩余名词,则对应的剩余名词系统记为将前述的规范A1系统和规范B2系统搭配在一起,产生一个对应的剩余名词系统,记为C2系统,C2={the press}。
至此,获得两个A-B-C联合系统:A1-B1-C1联合系统和A1-B2-C2联合系统。
接下来,取A1-B1-C1联合系统进行整体插空操作。A1-B1-C1联合系统如下:
B1={g[PREP](u)=by+<the press};
上述A1-B1-C1联合系统中的向量,都是等量代换之前的第I类向量。通过等量代换,将A1-B1-C1联合系统中的第I类向量全都转换成第II类向量,如下所示:
B1={g[PREP](u)=by+<the press};
清除空单元e之后,A1-B1-C1联合系统中的全部第II类向量,如下所示:
B1={g[PREP](u)=by+<the press};
第1种整体插空方法:
下面,开始进行整体插空操作,如图24所示。取图中所示的两个向量,分别作为第一轮整体插空操作的接收向量和插入向量,将接收向量记为ω,将插入向量记为μ。取右侧作为第一侧,从右至左逐一标注向量ω中的每一个元素的顺序值。标注顺序值之后,取向量ω中的第2个元素,仅在该元素的右侧构造唯一的空位。以整体插空的方式,将向量μ插入第2个元素对应的空位,进而生成一个新的向量。
前述的新生成的向量,如下所示。该向量是A1-B1-C1联合系统中经过整体插空操作而获得的一个第III类向量,将这个新生成的向量记为[ω]2+<μ,第一轮整体插空操作完毕。
That men didn’t bother the liberals who were appointed wasn’tremarked
如图25所示,取新生成的向量[ω]2+<μ作为第二轮整体插空操作的接收向量。对从向量[ω]2+<μ中的右侧第一个元素开始直到向量[ω]2+<μ包含的向量μ内部的左侧第一个元素who为止的每一个元素,标注顺序值;向量[ω]2+<μ中的其余元素,全都不标注顺序值。取向量[ω]2+<μ中已经标注顺序值的第3个元素,仅在该元素的右侧构造唯一的空位。造空之后,取介词向量g[PREP](u)=by+<the press作为第二轮整体插空操作的插入向量,将该插入向量记为ξ。以整体插空的方式将向量ξ插入前述的第3个元素对应的空位,进而生成一个新的向量。
前述的新生成的向量,如下所示。该向量是A1-B1-C1联合系统中经过整体插空操作而获得的一个第III类向量,同时也是一个拼合向量。将该向量记为[[ω]2\μ]3+<ξ。
That men didn’t bother the liberals who by the press were appointedwasn’t remarked
将前述的拼合向量替换成编号如下。经检查,该向量内部出现了顺序逆反的编号。显然该拼合向量不合理,清除该拼合向量。
1 2 5 6 3 8 9 4 7
重新进行第一轮整体插空操作,如图26所示。取前文所述的两个向量ω和μ,分别作为第一轮整体插空操作的接收向量和插入向量。取右侧作为第一侧,从右至左逐一标注向量ω中的每一个元素的顺序值。标注顺序值之后,取前述的向量ω中的第4个元素,仅在该元素的右侧构造唯一的空位。以整体插空的方式,将前述的向量μ插入前述第4个元素对应的空位,进而生成一个新的向量,该向量是A1-B1-C1联合系统中经过整体插空操作而获得的一个第III类向量,将这个新生成的向量记为[ω]4+<μ,第一轮整体插空操作完毕。
重新进行第二轮整体插空操作,如图27所示。取新生成的向量[ω]4+<μ作为第二轮整体插空操作的接收向量。对从向量[ω]4+<μ中的右侧第一个元素开始直到向量[ω]4+<μ包含的向量μ内部的左侧第一个元素who为止的每一个元素,标注顺序值;向量[ω]4+<μ中的其余元素,全都不标注顺序值。取向量[ω]4+<μ中已经标注顺序值的第1个元素,仅在该元素的右侧构造唯一的空位。造空之后,取介词向量g[PREP](u)=by+<the press作为第二轮整体插空操作的插入向量,将该插入向量记为ξ。以整体插空的方式将向量ξ插入前述的第1个元素对应的空位,进而生成一个新的向量。
前述的新生成的向量,如下所示。该向量是A1-B1-C1联合系统中经过整体插空操作而获得的一个第III类向量,同时也是一个拼合向量。将该向量记为[[ω]4\μ]1+<ξ。
That men who were appointed didn’t bother the liberals wasn’tremarked by the press
将前述的拼合向量替换成编号如下。经检查,该向量内部没有出现顺序逆反的编号。该拼合向量是合理的,保留该拼合向量,并保留A1-B1-C1联合系统,等待后续的操作。
1 2 3 4 5 6 7 8 9
上述的整体插空操作对应的插空方案是:ω→μ→ξ。
至于后续的穷尽上述的插空方案所涉及到的每一轮插空操作中的每一个接收向量内部的每一个元素对应的空位,即穷尽上述的插空方案所涉及到的每一个拼合向量,可以模仿前述的操作,不一一列举。
综上所述,通过A1-B1-C1联合系统,获得了例句1的大致句法结构,即,A1-B1-C1联合系统刻画了例句1的句法结构的基本框架。如图28所示。
穷尽任意一个A-B-C联合系统对应的全部插空方案:
例如:前述的A1-B1-C1联合系统,包含3个第II类向量ω,μ,ξ;对前述的3个第II类向量,按照组合数学中的排列公式进行计算,获得A1-B1-C1联合系统对应的全部插空方案如下:
ω→μ→ξ(方案1),μ→ω→ξ(方案3),ξ→μ→ω(方案5),
ω→ξ→μ(方案2),μ→ξ→ω(方案4),ξ→ω→μ(方案6)。
后续的各种穷尽:
至于后续的穷尽每一张词语列表(ii)对应的全部A-B-C联合系统、穷尽每一个A-B-C联合系统对应的全部插空方案和全部拼合向量,可以运用组合数学中的乘法原理和排列组合等相关计算方法,按照前述的操作,逐步穷尽,不一一列举。
第2种整体插空方法:
第2种整体插空方法,是在每一轮整体插空操作中,对接收向量内部的每一个元素全都标注顺序值,进而可以任取已经标注顺序值的元素,构造空位且执行插空操作。
在第2种整体插空方法中,每一轮插空标注顺序值和选取空位是不受限制的;在第1种整体插空方法中,从第二轮整体插空开始往后的每一轮整体插空,都限制在不超过接收向量所包含的上一轮插空的插入向量的第二侧第一个元素的位置,标注顺序值和选取空位。当穷尽某一个联合系统对应的全体拼合向量之后,第1种整体插空方法不会产生雷同的拼合向量;第2种整体插空方法可能产生雷同结果,即产生雷同的拼合向量,将雷同结果合并为一个结果。第2种整体插空方法的操作过程,如图29和图30所示。
对第1种整体插空方法和第2种整体插空方法的优化:
上述过程,还可以依据申请方案的S8.6进一步优化。申请方案的S8.6,是对申请方案的从S8.2到S8.5步骤的优化,即对前述的第1种整体插空方法和第2种整体插空方法的优化。
依据申请方案的S8.6,在执行完S8.1的等量代换操作之后,将A1-B1-C1联合系统中的每一个第II类向量全都替换成对应的编号,如下所示:
That men didn’t bother the liberals wasn’t remarked:1 2 5 6 7
who were appointed:3 4 by the press:8 9
下面,仅以第一轮整体插空操作为例,对申请方案S8.6的优化方法加以说明。该优化方法,对前述的第1种和第2种整体插空方法全都适用。
现在,给定一个A1-B1-C1联合系统对应的插空方案,假设在该插空方案对应的第一轮整体插空操作中,向量(1 2 5 6 7)是接收向量,向量(3 4)是插入向量。取右侧作为第一侧,在接收向量内部的每一个元素的右侧全都构造一个空位,如下所示:
1_______ 2_______ 5_______ 6_______ 7_______
开始筛选合理空位:因为7>3,编号有序组(3 4)不能插空在编号7对应的空位,该空位无插空操作;因为6>3,编号有序组(3 4)不能插空在6对应的空位,该空位无插空操作;因为5>3,编号有序组(3 4)不能插空在编号5对应的空位,该空位无插空操作;因为2<3且4<5,编号有序组(3 4)可以插空在编号2对应的空位,对该空位进行插空操作,如图31所示。
整体插空操作和检查拼合向量是否合理之后的步骤:
接下来,对于能够生成合理的拼合向量的规范A系统,也就是能够生成合理的拼合向量的矩阵,采用概率结合句法规则的方法或依存分析方法,进行句法规则检查。不妨构造一个句法规则集合,该集合中包含有限多条句法规则。这个句法规则集合,还可以用于后面提到的句法结构修补程序。
所述的句法规则集合,包括但不限于如下的句法规则:
①在英语中,除非主语从句由左右引号围住,否则引导主语从句的从属连词that不可以省略;进一步地,除非主语从句由左右引号围住,否则任何引出主语从句的引导词,都不可以省略,体现在矩阵结构上:如果矩阵中的某一个xi元素是由某一个谓语向量fj充当的,那么前述的fj中的lj元素不能是空单元,即lj≠e。
②在英语中,在不包含特殊句法现象的前提之下,如果谓语是被动语态,那么该谓语不能有对应的第二位置宾语。体现在矩阵结构上:如果矩阵中的某一个ri元素是被动语态,那么与前述的ri对应的zi必须是空单元,即zi=e。
③在英语中,在不包含特殊句法现象的前提之下,如果谓语是被动语态,且谓语是由既不可接双宾语又不可接宾语结合宾语补足语的动词构成的单元,那么该谓语既不能有对应的第一位置宾语,又不能有对应的第二位置宾语。体现在矩阵结构上:如果矩阵中的某一个ri元素是被动语态,且ri元素是由既不可接双宾语又不可接宾语结合宾语补足语的动词构成的单元,那么与前述的ri对应的yi和zi都必须是空单元,即yi=e且zi=e。
④在英语中,在不包含特殊句法现象的前提之下,主语和谓语在单数和复数概念上要保持一致;虽然英语中有一些单数和复数形态相同的名词,会干扰对前述问题的判断,但是这些名词可以通过查询词典或统计的方式预先归纳并给出。主语和谓语在单复数上要保持一致的规则,在矩阵结构上容易处理。
⑤在英语中,大多数的介词,例如:in,on,at,to,with,for,about等,其后不可以接that引导的或省略that的宾语从句;少数介词,例如:except,besides,but等,其后可以接that引导的或省略that的宾语从句。
⑥运用事件宾语动词和非事件宾语动词的规则进行检查;本专利申请中的事件宾语动词,是指自然语言中的只能以事件作为宾语而不能以人或事物作为宾语的动词;本专利申请中的非事件宾语动词,是指自然语言中的只能以人或事物作为宾语而不能以事件作为宾语的动词,例如:英语中的bother,是一个典型的非事件宾语动词,可接人或事物作为宾语,但不可以接that引导的或省略that的宾语从句;事件宾语动词和非事件宾语动词,可以通过查询词典或统计的方式预先归纳并给出;事件宾语动词和非事件宾语动词的概念,对于计算机的自然语言句法分析有重要作用;本专利申请将事件宾语动词和非事件宾语动词也列为一条句法规则,按照该规则进行检查。
⑦英语中的某些特殊句法现象,倒装句或省略句,等等,不一一列举。
接下来,取另一个生成了合理的拼合向量的A2-B1-C21联合系统,如下所示。在对该联合系统进行句法规则检查时,发现其x=the liberals和r=wasn’t remarked违反了前述的句法规则④的要求。舍去A2-B1-C21联合系统。
B1={g[PREP](u)=by+<the press};
接下来,再取另一个生成了合理的拼合向量的A3-B1-C31联合系统,如下所示。在对该联合系统进行句法规则检查时,发现其x=the liberals和r=wasn’t remarked违反了前述的句法规则④的要求,同时r=didn’t bother和y=f3违反了前述的句法规则⑥的要求。A3-B1-C31联合系统有两处违反了前述的句法规则,舍去A3-B1-C31联合系统。
B1={g[PREP](u)=by+<the press};
特别说明:在前述的词语列表(ii-b)对应的任意一个A-B-C联合系统中,计算机最初会将有结构歧义的限定词单元That和基本名词单元men划在同一个语言片段中,即处理为That修饰men;但是That修饰men是一个明显的句法错误,在后续的句法规则检查环节中很容易被计算机识别并剔除,因为按照英文句法规则,That作为限定词不能修饰可数名词复数形式men。由此,词语列表(ii-b)生成的全部A-B-C联合系统都将被视为不合理的A-B-C联合系统而清除。
前述的A1-B2-C2联合系统,如下所示。前述的A1-B2-C2联合系统也生成了合理的拼合向量。对前述的A1-B2-C2联合系统运行剩余名词检查程序,检查C2系统的剩余名词thepress是不是合理剩余名词。如果剩余名词the press是合理剩余名词,那么保留A1-B2-C2联合系统;如果剩余名词the press是不合理的剩余名词,那么舍弃A1-B2-C2联合系统。
B2={g[PREP](u)=by+<e};C2={the press}
运用概率结合句法规则的方法或依存分析方法,进行剩余名词检查。例如:在英语中,同位语可以采用独立的名词,非谓语动词的独立主格结构可以采用独立的名词,搭配冒号的文章标题经常采用独立的名词,等等。如果运用概率结合句法规则的方法,那么前述的语言现象就是合理剩余名词对应的句法规则。在这些句法规则的基础之上,还可以在语料库内针对前述的句法规则进行专项统计,并计算出相应的概率。
如果采用上文提到的概率结合句法规则的方法,容易检查出:C2系统的剩余名词the press是不合理的剩余名词,因此,舍弃A1-B2-C2联合系统。
经过之前的各种处理,最后只有前述的A1-B1-C1联合系统保留下来,其他的联合系统全都由于其自身存在的不合理因素而被舍弃。
A1-B1-C1联合系统,刻画了例句1的句法结构的基本框架,如图28所示。对照词语列表1,目前还缺少一个杂质成分upon。为了获得例句1的完整的句法分析结果,可以将前述获得的句法结构的基本框架与概率结合句法规则的方法或依存分析方法进行融合。具体地说,如果采用概率结合句法规则的方法,那么依据词语列表(i)给出的例句1的词法标记,按照概率的从大到小排序,获取与前述的句法结构的基本框架无冲突且概率最大的计算机分析结果。所述的概率结合句法规则的方法,包括但不限于:概率上下文无关文法,以及词汇化的概率上下文无关文法。
例如:假设,按照词语列表(i)标定的例句1的词法标记,采用概率结合句法规则的方法,获取了计算机生成的10000个句法分析结果,并且将前述的结果按照概率的从大到小排序。其中,排在第1位至第19位的结果都与前述的A1-B1-C1联合系统刻画的句法结构的基本框架有冲突,排在第20位的结果与前述的句法结构的基本框架无冲突,那么排在第20位的结果就是与前述的句法结构的基本框架无冲突且概率最大的计算机分析结果,将该结果作为最终正确结果。以计算机科学领域通用的字符串形式,将上述的若干个句法分析结果表达如下:
1),(ROOT(S(NP(IN That)(NP(NNS men)(SBAR(WP who)(S(VBD were)(VBNappointed)))))(VP(VBD did)(RB n't)(VP(VB bother)(NP(NP(DT the)(NNS liberals))(VP(VBD was)(RB n't)(VP(VBN remarked)(ADVP(RP upon)(PP(IN by)(NP(DT the)(NNpress)))))))))(..)))
排名第1位的结果的概率为:0.00010738
2),(ROOT(S(IN That)(NP(NNS men)(SBAR(WP who)(S(VBD were)(VBNappointed))))(VP(VBD did)(RB n't)(VP(VB bother)(NP(NP(DT the)(NNS liberals))(VP(VBD was)(RB n't)(VP(VBN remarked)(ADVP(RP upon)(PP(IN by)(NP(DT the)(NNpress)))))))))(..)))
排名第2位的结果的概率为:0.00010621
3),(ROOT(S(NP(IN That)(NP(NNS men)(SBAR(WP who)(S(VBD were)(VBNappointed)))))(VP(VBD did)(RB n't)(VP(VB bother)(NP(NP(DT the)(NNS liberals))(VP(VBD was)(RB n't)(VP(VBN remarked)(PP(RP upon)(PP(IN by)(NP(DT the)(NNpress)))))))))(..)))
排名第3位的结果的概率为:0.00010403
20),(ROOT(S(NP(IN That)(NP(NP(NNS men)(SBAR(WP who)(S(VBD were)(VBNappointed))))(VP(VBD did)(RB n't)(VP(VB bother)(NP(DT the)(NNS liberals))))))(VP(VBD was)(RB n't)(VP(VBN remarked)(ADVP(RP upon)(PP(IN by)(NP(DT the)(NNpress))))))(..)))
排名第20位的结果的概率为:0.00010196
综上,经过前述的一系列处理,得到例句1的句法分析结果。该结果是一个在英语语言学上可以认为正确的结果。以计算机科学领域通用的字符串形式,将该结果表达如下:[参见图3]
注:图3是该字符串形式所对应的示意图,下文同理。
(ROOT(S(NP(IN That)(NP(NP(NNS men)(SBAR(WP who)(S(VBD were)(VBNappointed))))(VP(VBD did)(RB n't)(VP(VB bother)(NP(DT the)(NNS liberals))))))(VP(VBD was)(RB n't)(VP(VBN remarked)(ADVP(RP upon)(PP(IN by)(NP(DT the)(NNpress))))))(..)))
在说明书的前半部分,提到了如下数学模型,将该数学模型记为Q模型。
设S是一个英语句子,且S中至少存在如下3个主谓搭配(分别用6元函数表示):
f(c1,l1,x1,r1,y1,z1);
g(c2,l2,x2,r2,y2,z2);
h(c3,l3,x3,r3,y3,z3)。
注:作为自变量下标的1、2、3只是为了互相区分,不代表实际的顺序含义。
f,g,h满足如下三个条件:
①l2=that;
②f(c1,l1,g(c2,l2,x2,r2,y2,z2),r1,y1,z1);
③g[h(c3,l3,x3,r3,y3,z3)]。
说明:f(c1,l1,g(c2,l2,x2,r2,y2,z2),r1,y1,z1)的含义是,谓语向量g是谓语向量f的主语从句。g[h(c3,l3,x3,r3,y3,z3)]的含义是,谓语向量h以整体插空的方式插入谓语向量g的某一个位置。l2=that的含义是,谓语向量g的引导词是that。相应地,Q模型的含义就是:谓语向量g是谓语向量f的主语从句,且谓语向量g的引导词是that,且谓语向量h以整体插空的方式插入谓语向量g的某一个位置。
例句1符合上述的Q模型,验证如下,辅助成分和空单元e略去:
f(c1,l1,x1,r1,y1,z1)=g(c2,l2,x2,r2,y2,z2)+<wasn’t+<remarked;
g(c2,l2,x2,r2,y2,z2)=That+<men+<didn’t+<bother+<the+<liberals;
f(c1,l1,g(c2,l2,x2,r2,y2,z2),r1,y1,z1)=(That+<men+<didn’t+<bother+<the+<liberals)+<wasn’t+<remarked;
h(c3,l3,x3,r3,y3,z3)=who+<were+<appointed;
g[h(c3,l3,x3,r3,y3,z3)]=That+<men+[who+<were+<appointed]+<didn’t+<bother+<the+<liberals。
需要特别指出的是:从数学角度看,凡是符合上述Q模型的英文语句,至本专利申请提交日——2019年3月22日,经常会被伯克利解析器(Berkeley Parser)和斯坦福解析器(Stanford Parser)解析出严重错误的结果!
例2:That something you learned is wrong is known to the public.
本例句中的That产生结构歧义。但是由于篇幅有限,仅给出将That作为从属关联词单元进行预处理的词语列表(ii),如下所示。
本例句中的形容词wrong充当从句的表语,是句子中的主干成分,但是为了便于计算机处理,按照申请方案的操作,形容词wrong在预处理环节暂时被去掉。可以在后续的句法结构修补环节中将从句的表语wrong修复。
依据本申请的方案,对于例句2,可以生成一个如下的A-B-C联合系统:
B1={to+<the public};
通过上述A1-B1-C1联合系统,获得了例句2的句法结构的基本框架,如图32所示。
例句2的完整的句法分析结果,以字符串的形式表达如下:[参见图5]
(ROOT(S(SBAR(IN That)(S(NP(NN something)(SBAR(PRP you)(VBD learned)))(VP(VBZ is)(JJ wrong))))(VP(VBZ is)(VP(VBN known)(PP(TO to)(NP(DT the)(NNpublic)))))(..)))
特别说明:例句2也符合前文提到过的Q模型。至本专利申请提交日——2019年3月22日,Berkeley Parser和Stanford Parser对于本例句给出的都是错误结果!
例3:That that men were appointed didn't bother the liberals wasn'tremarked upon by the press.
本例句中的2个that都产生结构歧义。但是由于篇幅有限,仅给出将2个that作为从属关联词单元进行预处理的词语列表(ii),如下所示:
依据本申请的方案,对于例句3,可以生成一个如下的A-B-C联合系统:
B1={g[PREP](u)=by+<the press};
通过上述A1-B1-C1联合系统,获得了例句3的句法结构的基本框架,如图33所示。
例句3的完整的句法分析结果,以字符串的形式表达如下:[参见图8]
(ROOT(S(SBAR(IN That)(S(SBAR(IN that)(S(NP(NNS men))(VP(VBD were)(VBNappointed))))(VP(VBD did)(RB n't)(VP(VB bother)(NP(DT the)(NNS liberals))))))(VP(VBD was)(RB n't)(VP(VBN remarked)(ADVP(RP upon)(PP(IN by)(NP(DT the)(NNpress))))))(..)))
特别说明:至本专利申请提交日——2019年3月22日,Berkeley Parser和Stanford Parser对于本例句给出的都是错误结果!
例4:That that that men were appointed didn't bother the liberalswasn't remarked upon by the press upset many women.
本例句中的3个that都产生结构歧义。但是由于篇幅有限,仅给出将3个that作为从属关联词单元进行预处理的词语列表(ii),如下所示:
依据本申请的方案,对于例句4,可以生成一个如下的A-B-C联合系统:
B1={g[PREP](u)=by+<the press};
通过上述A1-B1-C1联合系统,获得了例句4的句法结构的基本框架,如图34所示。
例句4的完整的句法分析结果,以字符串的形式表达如下:[参见图9]
(ROOT(S(SBAR(IN That)(S(SBAR(IN That)(S(SBAR(IN that)(S(NP(NNS men))(VP(VBD were)(VBN appointed))))(VP(VBD did)(RB n't)(VP(VB bother)(NP(DT the)(NNS liberals))))))(VP(VBD was)(RB n't)(VP(VBN remarked)(ADVP(RP upon)(PP(INby)(NP(DT the)(NN press))))))))(VP(VBD upset)(NP(JJ many)(NNS women)))(..)))
特别说明:至本专利申请提交日——2019年3月22日,Berkeley Parser和Stanford Parser对于本例句给出的都是错误结果!
对例3和例4的补充说明:在说明书的前半部分,曾经提到过例3和例4。这两个句子都没有语法和逻辑上的错误,并且都包含了that引导的主语从句的嵌套结构。其中的that都是从属连词(词法标签为IN);而Berkeley Parser和Stanford Parser对于例3和例4给出的都是错误的句法分析结果!尤其对于这两个句子中的总计5个从属连词that,BerkeleyParser和Stanford Parser都没有给出完全正确的结果!另外,对于将that记为有结构歧义的限定词单元的词语列表(ii)及其对应的A-B-C联合系统,计算机最初会将有结构歧义的限定词单元that和基本名词单元men划在同一个语言片段中,但是that修饰men是一个明显的句法错误,这一错误在后续的句法规则检查环节中很容易被计算机识别并剔除。因此,例3和例4所生成的将that记为有结构歧义的限定词单元的词语列表(ii),都会被计算机清除。
例5:Behaviorists suggest the child who is raised in an environmentwhere there are many stimuli which develop his or her capacity forappropriate responses will experience greater intellectual development.
由于篇幅有限,仅给出经过预处理的词语列表(ii),如下所示:
例句共有5个谓语动词单元suggest,is raised,there are,develop,willexperience;因此,本例句包含5个谓语元素,依次记为r1,r2,r3,r4,r5;进而针对这5个谓语元素,生成对应的谓语向量f1,f2,f3,f4,f5;依据申请方案S3的信息,谓语向量f1,f2,f3,f4,f5中的每一个元素的取值如下:
①对于f1有:{r1}={suggest};{c1}={e},{l1}={e},
{x1}={Behaviorists,e},{y1}={the child,f2,f3,f4,f5,e},{z1}={e}。
②对于f2有:{r2}={is raised};{c2}={e},{l2}={who,e},
{x2}={Behaviorists,the child,f1,e},{y2}={an environment,f3,f4,f5,e},
{z2}={e}。
③对于f3有:{r3}={there are};{c3}={e},{l3}={who,where,e},
{x3}={Behaviorists,the child,an environment,f1,f2,e},
{y3}={many stimuli,f4,f5,e},{z3}={e}。
④对于f4有:{r4}={develop};{c4}={e},{l4}={who,where,which,e},
{x4}={Behaviorists,the child,an environment,many stimuli,f1,f2,f3,e},
{y4}={capacity,responses,f5,e},{z4}={e}。
⑤对于f5有:{r5}={will experience};{c5}={e},
{l5}={who,where,which,e},
{x5}={Behaviorists,the child,an environment,many stimuli,capacity,responses,f1,f2,f3,f4,e},{y5}={development,e},{z5}={e}。
特别说明:在英语中,there be句型本质上是一种倒装句型,there be句型的主语是位于be动词之后的语言单元。在本专利申请中,为了计算机处理上的便利,先将位于be动词之后的语言单元全都当作宾语位置上的语言单元加以处理。到了后续的句法结构修补环节,包括there be句型和倒装句型在内的特殊句法现象,都可以得到恰当的处理。
将本例句对应的主干系统的全体记为{A};将集合{A}的基数记为∣A∣。将谓语向量f1的所有可能取值的全体记为{f1};将集合{f1}的基数记为∣f1∣。对其他各谓语向量和各元素,采取相同的处理。则运用组合数学中的乘法原理:
∣f1∣=∣c1∣×∣l1∣×∣x1∣×∣r1∣×∣y1∣×∣z1∣=1×1×2×1×6×1=12
∣f2∣=∣c2∣×∣l2∣×∣x2∣×∣r2∣×∣y2∣×∣z2∣=1×2×4×1×5×1=40
∣f3∣=∣c3∣×∣l3∣×∣x3∣×∣r3∣×∣y3∣×∣z3∣=1×3×6×1×4×1=72
∣f4∣=∣c4∣×∣l4∣×∣x4∣×∣r4∣×∣y4∣×∣z4∣=1×4×8×1×4×1=128
∣f5∣=∣c5∣×∣l5∣×∣x5∣×∣r5∣×∣y5∣×∣z5∣=1×4×11×1×2×1=88
∣A∣=∣f1∣×∣f2∣×∣f3∣×∣f4∣×∣f5∣=389283840,总计生成389283840个主干系统。
上述过程,可以依据申请方案中的权利要求5加以简化,将主干系统的生成和检查同步执行,从而降低计算的复杂度。
依据申请方案S4中的信息,本例句生成2个辅助向量,如下所示:
g[PREP,1](u)=in+<(u):PREP=in,u={an environment,f3,f4,f5,e}。
g[PREP,2](u)=for+<(u):PREP=for,u={responses,f5,e}。
将本例句对应的辅助系统的全体记为{B};将集合{B}的基数记为∣B∣。将辅助向量g[PREP,1](u)的所有可能取值的全体记为{g[PREP,1](u)};将集合{g[PREP,1](u)}的基数记为∣g[PREP,1](u)∣。对辅助向量g[PREP,2](u)采取相同的处理。运用组合数学中的乘法原理:∣B∣=∣g[PREP,1](u)∣×∣g[PREP,2](u)∣=3×5=15,总计生成15个辅助系统。
取一个经过检查的规范主干系统,记为规范A1系统;取一个与规范A1系统搭配的经过检查的规范辅助系统,记为规范B1系统;将与规范A1系统和规范B1系统搭配的剩余名词系统,记为C1系统。由此获得一个A-B-C联合系统,记为A1-B1-C1联合系统。如下所示:
B1={g[PREP,1](u)=in+<an environment,g[PREP,2](u)=for+<responses}
取右侧为第一侧,需要进行五轮整体插空操作。由于篇幅所限,本专利申请的发明人将所述的五轮插空以简易方式集中地展现出来。如图35所示。
经过上述的五轮整体插空操作,获得拼合向量,如下所示:
Behaviorists suggest the child who is raised in an environment wherethere are many stimuli which develop capacity for responses will experiencedevelopment
将上述拼合向量替换成编号,如下所示。经检查该拼合向量内部没有出现顺序逆反的编号。
显然该拼合向量是合理的,保留该拼合向量。
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17
前述的五轮整体插空操作的展现方式,就是通过A1-B1-C1联合系统获得的例句5的大致句法结构,即例句5的句法结构的基本框架。
上述过程,还可以依据申请方案的S8.6进一步优化。将A1-B1-C1联合系统替换为编号,如下所示:
B1={g[PREP,1](u)=6+<7,g[PREP,2](u)=14+<15};
依据申请方案的S8.6,对上述的A1-B1-C1联合系统的编号进行优化操作。经过优化,获得了和前述的整体插空操作相同的结果。
依据A1-B1-C1联合系统提供的句法结构的基本框架,获得例句5的完整的句法分析结果。该结果是一个在英语语言学上可以认为正确的结果,以字符串的形式表达如下:[参见图10](ROOT(S(NP(NNS Behaviorists))(VP(VBP suggest)(SBAR(S(NP(NP(DT the)(NNchild))(SBAR(WHNP(WP who))(S(VP(VBZ is)(VP(VBN raised)(PP(IN in)(NP(NP(DT an)(NN environment))(SBAR(WHADVP(WRB where))(S(NP(EX there))(VP(VBP are)(NP(NP(JJ many)(NNS stimuli))(SBAR(WHNP(WP which))(S(VP(VBP develop)(NP(NP(PRP$his)(CC or)(PRP$her)(NN capacity))(PP(IN for)(NP(JJ appropriate)(NNSresponses))))))))))))))))))(VP(MD will)(VP(VB experience)(NP(JJR greater)(JJintellectual)(NN development)))))))(..)))
例6:Believing that what he wants will occur,Tom works hard in thecompany.
由于篇幅有限,仅给出经过预处理的词语列表(ii),如下所示:
例句共有3个谓语动词单元wants,will occur,works;因此,本例句包含3个谓语元素,依次记为r1,r2,r3;进而针对这3个谓语元素,生成对应的谓语向量f1,f2,f3;本例句包含1个动名词-现在分词元素,设该动名词-现在分词元素对应的动名词-现在分词向量为g[VBG](u,v);依据申请方案S3的信息,谓语向量f1,f2,f3中的每一个元素的取值如下:
①对于f1有:{r1}={wants};{c1}={e},{l1}={that,what,e},{x1}={he,g[VBG](u,v),e},{y1}={f2,f3,e},{z1}={e}。
②对于f2有:{r2}={will occur};{c2}={e},{l2}={that,what,e},{x2}={he,g[VBG](u,v),f1,e},{y2}={Tom,f3,e},{z2}={e}。
③对于f3有:{r3}={works};{c3}={e},{l3}={that,what,e},{x3}={he,Tom,g[VBG](u,v),f1,f2,e},{y3}={the company,e},{z3}={e}。
将本例句对应的主干系统的全体记为{A};将集合{A}的基数记为∣A∣。将谓语向量f1的所有可能取值的全体记为{f1};将集合{f1}的基数记为∣f1∣。对其他各谓语向量和各元素,采取相同的处理。则运用组合数学中的乘法原理:
∣f1∣=∣c1∣×∣l1∣×∣x1∣×∣r1∣×∣y1∣×∣z1∣=1×3×3×1×3×1=27
∣f2∣=∣c2∣×∣l2∣×∣x2∣×∣r2∣×∣y2∣×∣z2∣=1×3×4×1×3×1=36
∣f3∣=∣c3∣×∣l3∣×∣x3∣×∣r3∣×∣y3∣×∣z3∣=1×3×6×1×2×1=36
从而:∣A∣=∣f1∣×∣f2∣×∣f3∣=27×36×36=34992,总计生成34992个主干系统。
依据申请方案S4中的信息,本例句生成2个辅助向量g[VBG](u,v)和g[PREP](u):
g[VBG](u,v)=Believing+<(u)+<e:VBG=Believing,u={he,f1,f2,f3,e}。
g[PREP](u)=in+<(u):PREP=in,u={the company,e}。
将本例句对应的辅助系统的全体记为{B};将集合{B}的基数记为∣B∣。将辅助向量g[VBG](u,v)的所有可能取值的全体记为{g[VBG](u,v)};将集合{g[VBG](u,v)}的基数记为∣g[VBG](u,v)∣。对辅助向量g[PREP](u)采取相同的处理。运用组合数学中的乘法原理:∣B∣=∣g[VBG](u,v)∣×∣g[PREP](u)∣=5×2=10,总计生成10个辅助系统。
取一个经过检查的规范主干系统,记为规范A1系统;取一个与规范A1系统搭配的经过检查的规范辅助系统,记为规范B1系统;将与规范B1系统搭配的剩余名词系统,记为C1系统。由此获得一个A-B-C联合系统,记为A1-B1-C1联合系统。如下所示:
B1={g[VBG](u,v)=Believing+<f2+<e,g[PREP](u)=in+<the company}
取另一个A-B-C联合系统,如下所示,记为A2-B2-C22联合系统。
B2={g[VBG](u,v)=Believing+<he+<e,g[PREP](u)=in+<the company}
取另一个A-B-C联合系统,如下所示,记为A2-B1-C21联合系统。
B1={g[VBG](u,v)=Believing+<f2+<e,g[PREP](u)=in+<the company};
C21={he}
取左侧为第一侧,构造空位,然后进行整体插空操作。经过整体插空操作,A2-B2-C22联合系统没有生成合理的拼合向量,A2-B2-C22联合系统在整体插空环节被清除。接下来,对经过整体插空操作之后保留下来的A1-B1-C1联合系统和A2-B1-C21联合系统,可以采用概率结合句法规则的方法,进行剩余名词检查。经检查发现C21系统的剩余名词he,不是同位语可以采用的独立名词、不是非谓语动词的独立主格结构可以采用的独立名词、不是搭配冒号的文章标题经常采用的独立名词等等。因此,C21系统的剩余名词he是不合理的剩余名词。A2-B1-C21联合系统有错误,舍弃。
经过各种必要的处理,最后只有A1-B1-C1联合系统保留下来,其他的联合系统都由于本身存在的不合理因素而被舍弃。A1-B1-C1联合系统对应的例句6的句法结构的基本框架,如图36所示。
进一步地,依据A1-B1-C1联合系统刻画的句法结构的基本框架,采用概率结合句法规则的方法,按照概率的从大到小排序,获取与前述的句法结构的基本框架无冲突且概率最大的计算机分析结果。经过前述一系列处理,得到例句6的完整的句法分析结果。该结果是一个在英语语言学上可以认为正确的结果,以字符串形式表达如下:[参见图11]
(ROOT(S(S(VP(VBG Believing)(SBAR(IN that)(S(SBAR(WHNP(WP what))(S(NP(PRP he))(VP(VBZ wants))))(VP(MD will)(VP(VB occur)))))))(,,)(NP(NNP Tom))(VP(VBZ works)(ADVP(RB hard))(PP(IN in)(NP(DT the)(NN company))))(..)))
例7:A study of travelers conducted by the website TripAdvisor namesYangshuo as one of the top 10destinations in the world.
本例句中的conducted有结构歧义。由于篇幅有限,仅给出词语列表(ii-a)和(ii-b)。
词语列表(ii-a):
词语列表(ii-b):
依据词语列表(ii-a)生成的Aa-Ba-Ca联合系统,如下所示:
Aa=e e A study names Yangshuo e
注:词语列表(ii-a)只包含一个谓语,因此规范Aa系统的矩阵结构退化为一个谓语向量。
Ba={g[PREP,1](u)=of+<travelers,g[PREP,2](u)=by+<the website,
g[PREP,3](u)=as+<one,g[PREP,4](u)=of+<destinations,
g[PREP,5](u)=in+<the world,g[VBN](u)=conducted+<e}
Ca={TripAdvisor}
依据词语列表(ii-b)生成的Ab-Bb-Cb联合系统,如下所示:
Bb={g[PREP,1](u)=of+<travelers,g[PREP,2](u)=by+<the website,
g[PREP,3](u)=as+<one,g[PREP,4](u)=of+<destinations,
g[PREP,5](u)=in+<the world}
Cb={TripAdvisor}
经过整体插空操作之后,到了句法规则检查环节,发现:Ab-Bb-Cb联合系统中的向量f2中的x2=f1,即向量f1是f2的主语从句,而向量f1中的l1=e,且向量f1没有被左右引号围住,这违反了前文提到过的一条英文句法规则。因此,Ab-Bb-Cb联合系统有错误,舍弃。
经过各个步骤,Aa-Ba-Ca联合系统没有错误,保留。最终获得Aa-Ba-Ca联合系统所对应的例句7的完整句法结构,以字符串的形式表达如下:[参见图13]
(ROOT(S(NP(NP(DT A)(NN study))(ADJP(PP(IN of)(NP(NNS travelers)))(VP(VBN conducted)(PP(IN by)(NP(NP(DT the)(NN website))(NP(NNPTripAdvisor)))))))(VP(VBZ names)(NP(NNP Yangshuo))(PP(IN as)(NP(NP(CD one))(PP(IN of)(NP(NP(DT the)(JJ top)(CD 10)(NNS destinations))(PP(IN in)(NP(DTthe)(NN world))))))))(..)))
至本专利申请提交日——2019年3月22日,Berkeley Parser和Stanford Parser对于本例句给出的都是错误结果!本例句所包含的过去分词与谓语动词的一般过去式之间的结构歧义(本例句中的conducted),是一种常见的结构歧义。
例8:That nearly all behavior is learned behavior is a basicassumption that has been put forward by the social scientists.
本例句中的That和is learned有结构歧义。由于篇幅有限,仅给出词语列表(ii-a)和(ii-b)。词语列表(ii-a):
词语列表(ii-b):
依据词语列表(ii-a)生成的Aa-Ba-Ca联合系统,如下所示:
Ba={g[VBN](u)=learned+<e,g[PREP](u)=by+<scientists};
依据词语列表(ii-b)生成的Ab-Bb-Cb联合系统,如下所示:
Bb={g[PREP](u)=by+<scientists};
由Aa-Ba-Ca联合系统及其对应的合理的拼合向量获得的例句8的完整句法结构:
(ROOT(S(SBAR(IN That)(S(NP(ADJP(RB nearly)(DT all))(NN behavior))(VP(VBZ is)(NP(VBN learned)(NP(NN behavior))))))(VP(VBZ is)(NP(NP(DT a)(JJbasic)(NN assumption))(SBAR(WHNP(WP that))(S(VP(VBZ has)(VP(VBN been)(VP(VBNput)(ADVP(RB forward))(PP(IN by)(NP(DT the)(JJ social)(NNSscientists))))))))))(..)))
可以通过句法结构修补这一环节,对Ab-Bb-Cb联合系统中的每一个向量在句法结构方面的主要地位和次要地位进行区分和调整,从而获得Ab-Bb-Cb联合系统对应的完整句法结构。所述的对Ab-Bb-Cb联合系统中的每一个向量在句法结构方面的主要地位和次要地位进行区分和调整,具体是指:哪一个谓语向量做主句,哪一个谓语向量做从句,以及对于充当主句的谓语向量和充当从句的谓语向量的相应调整,等等。
由Ab-Bb-Cb联合系统及其对应的合理的拼合向量获得的例句8的完整句法结构:
(ROOT(S(SBAR(IN That)(S(NP(ADJP(RB nearly)(DT all))(NN behavior))(VP(VBZ is)(VP(VBN learned)))))(NP(NN behavior))(VP(VBZ is)(NP(NP(DT a)(JJbasic)(NN assumption))(SBAR(WHNP(WP that))(S(VP(VBZ has)(VP(VBN been)(VP(VBNput)(ADVP(RB forward))(PP(IN by)(NP(DT the)(JJ social)(NNSscientists))))))))))(..)))
Aa-Ba-Ca联合系统对应的完整句法结构的直观形态,如图37所示。
Ab-Bb-Cb联合系统对应的完整句法结构的直观形态,如图38所示。
然后,采用语义处理的方法,筛选出最佳的句法分析结果。所述语义处理的方法,包括但不限于基于λ-演算的语义分析方法、基于语义场和语义网络的语义分析方法、基于知识图谱的语义分析方法、基于语义图模型的语义分析方法、对语义关系计算概率并选取其中概率最大结果的语义分析方法,等等方法。所述语义处理的方法,通常需要以句法结构对语义关系的充分约束作为前提。所述以句法结构对语义关系的充分约束作为前提,是指由句法结构来初步决定语句中的每一个词语的含义以及各个词语含义之间的相互搭配关系。比如:依据Aa-Ba-Ca联合系统对应的完整句法结构,本例句中的第1个That是引导主语从句的从属连词,则第1个That对应的语义是“无含义”;依据Ab-Bb-Cb联合系统对应的完整句法结构,本例句中的第1个That是引导位于句首的状语从句的从属连词,则第1个That对应的语义是“因为”;依据Aa-Ba-Ca联合系统对应的完整句法结构,本例句中的learned是过去分词充当定语,则learned对应的语义是“被学会的”;依据Ab-Bb-Cb联合系统对应的完整句法结构,本例句中的is与learned联合充当谓语,则is learned对应的语义是“被学会”;等等。特别指出,为了达到前述效果,可以有针对性地构建一个符合前述要求的句法-语义约束关系数据库。
假设:以句法结构对语义关系的充分约束作为前提,对前述的两个完整句法结构所对应的语义关系计算概率并选取其中概率最大的结果,过程如下:
Aa-Ba-Ca联合系统对应的经过前述的句法结构约束的语义关系,如图39所示。
Ab-Bb-Cb联合系统对应的经过前述的句法结构约束的语义关系,如图40所示。
取语义关系概率最大的Aa-Ba-Ca联合系统对应的前述的完整句法结构,作为本例句的句法分析最终结果。将该结果以字符串形式再次呈现如下:[参见图15]
(ROOT(S(SBAR(IN That)(S(NP(ADJP(RB nearly)(DT all))(NN behavior))(VP(VBZ is)(NP(VBN learned)(NP(NN behavior))))))(VP(VBZ is)(NP(NP(DT a)(JJbasic)(NN assumption))(SBAR(WHNP(WP that))(S(VP(VBZ has)(VP(VBN been)(VP(VBNput)(ADVP(RB forward))(PP(IN by)(NP(DT the)(JJ social)(NNSscientists))))))))))(..)))
特别说明:对于将That标注为有结构歧义的限定词单元的词法分析结果,计算机最初会将有结构歧义的限定词单元That和基本名词单元all behavior划在同一个语言片段中,处理为That修饰all behavior;而That修饰all behavior是一个明显的句法错误,这一错误在后续的句法规则检查环节中很容易被计算机识别并剔除。由此,将That标注为有结构歧义的限定词单元的词语列表(ii),都会被计算机清除。
至本专利申请提交日——2019年3月22日,Berkeley Parser和Stanford Parser对于本例句给出的都是错误结果!
例9:Jack met the patient the nurse the clinic had hired sent to thedoctor.
本例句中的sent有结构歧义。由于篇幅有限,仅给出词语列表(ii-a)和(ii-b)。
词语列表(ii-a):
Jack met the patient the nurse the clinic
基本名词单元 谓语动词单元 基本名词单元 基本名词单元 基本名词单元
1 2 3 4 5
had hired sent to the doctor .
谓语动词单元 谓语动词单元 介词单元 基本名词单元 句号
6 7 8 9 无编号
词语列表(ii-b):
Jack met the patient the nurse the clinic
基本名词单元 谓语动词单元 基本名词单元 基本名词单元 基本名词单元
1 2 3 4 5
had hired sent to the doctor .
谓语动词单元 过去分词单元 介词单元 基本名词单元 句号
6 7 8 9 无编号
依据词语列表(ii-a)生成的Aa-Ba-Ca联合系统,如下所示:
Ba={g[PREP](u)=to+<the doctor};
依据词语列表(ii-b)生成的Ab-Bb-Cb联合系统,如下所示:
Bb={g[VBN](u)=sent+<e,g[PREP](u)=to+<the doctor};Cb={the nurse}
对经过整体插空操作之后保留下来的Ab-Bb-Cb联合系统进行剩余名词检查的时候,可以采用概率结合句法规则的方法。经检查发现,Cb系统的剩余名词the nurse,不是同位语可以采用的独立名词、不是非谓语动词的独立主格结构可以采用的独立名词、不是搭配冒号的文章标题经常采用的独立名词,等等。因此Cb系统的剩余名词the nurse是不合理的剩余名词。Ab-Bb-Cb联合系统有错误,舍弃。
Aa-Ba-Ca联合系统对应的完整句法结构的整体插空过程,如图41所示。
经过各个步骤,Aa-Ba-Ca联合系统没有错误,保留。最终获得Aa-Ba-Ca联合系统所对应的例句9的完整句法结构。以字符串形式,将该结果表达如下:[参见图17]
(ROOT(S(NP(NNP Jack))(VP(VBD met)(NP(NP(DT the)(NN patient))(SBAR(S(NP(NP(DT the)(NN nurse))(SBAR(S(NP(DT the)(NN clinic))(VP(VBD had)(VP(VBNhired))))))(VP(VBD sent)(PP(TO to)(NP(DT the)(NN doctor))))))))(..)))
在说明书的前半部分曾经提到例9。至本专利申请提交日——2019年3月22日,Berkeley Parser和Stanford Parser对于本例句给出的都是错误结果!本例句所包含的过去分词与谓语动词的一般过去式之间的结构歧义(本例句中的sent),是一种常见的结构歧义。
由于篇幅有限,对下列例句仅作简要说明:
例10:Jack met the boy the nurse the doctor the clinic had hired sentto the ward introduced to the patient.
本例句可以通过如下的A1-B1-C1联合系统获得正确的最终句法分析结果。
在说明书的前半部分曾经提到例10。例10与例9的计算机解析过程相似。
B1={g[PREP,1](u)=to+<the ward,g[PREP,2](u)=to+<the patient};
A1-B1-C1联合系统对应的完整句法结构的整体插空过程,如图42所示。
经过各个步骤,A1-B1-C1联合系统没有错误,保留。最终获得A1-B1-C1联合系统所对应的例句10的完整句法结构。以字符串形式,将该结果表达如下:[参见图19]
(ROOT(S(NP(NNP Jack))(VP(VBD met)(NP(NP(DT the)(NN boy))(SBAR(S(NP(NP(DT the)(NN nurse))(SBAR(S(NP(NP(DT the)(NN doctor))(SBAR(S(NP(DT the)(NNclinic))(VP(VBD had)(VP(VBN hired))))))(VP(VBD sent)(PP(TO to)(NP(DT the)(NNward)))))))(VP(VBD introduced)(PP(TO to)(NP(DT the)(NN patient))))))))(..)))
至本专利申请提交日——2019年3月22日,Berkeley Parser和Stanford Parser对于本例句给出的都是错误结果!
例11:This is the malt the rat the cat the dog worried killed ate.
本例句可以通过如下的A1-B1-C1联合系统获得正确的最终句法分析结果。
在说明书的前半部分曾经提到例11。例11与例10的计算机解析过程相似。
A1-B1-C1联合系统对应的完整句法结构的整体插空过程,如图43所示。
经过各个步骤,A1-B1-C1联合系统没有错误,保留。最终获得A1-B1-C1联合系统所对应的例句11的完整句法结构。以字符串形式,将该结果表达如下:[参见图21]
(ROOT(S(NP(PRP This))(VP(VBZ is)(NP(NP(DT the)(NN malt))(SBAR(S(NP(NP(DT the)(NN rat))(SBAR(S(NP(NP(DT the)(NN cat))(SBAR(S(NP(DT the)(NN dog))(VP(VBD worried)))))(VP(VBD killed)))))(VP(VBD ate))))))(..)))
至本专利申请提交日——2019年3月22日,Berkeley Parser和Stanford Parser对于本例句给出的都是错误结果!
例12:Part of the reason Charles Dickens loved his own novel was thatit was rather closely modeled on his own life.
本例句可以通过如下的A1-B1-C1联合系统获得正确的最终句法分析结果。
在说明书的前半部分曾经提到例12。另一个例句“Part of the reason whyCharles Dickens loved his own novel was that it was rather closely modeled onhis own life.”与例12的计算机解析过程和结果相似。
B1={g[PREP](u)=on+<life};
最终获得A1-B1-C1联合系统所对应的例句11的完整句法结构。以字符串形式,将该结果表达如下:[参见图23]
(ROOT(S(NP(NP(NN Part))(PP(IN of)(NP(NP(DT the)(NN reason))(SBAR(S(NP(NNP Charles)(NNP Dickens))(VP(VBD loved)(NP(PRP$his)(JJ own)(NNnovel))))))))(VP(VBD was)(SBAR(IN that)(S(NP(PRP it))(VP(VBD was)(VP(ADVP(RBrather)(RB closely))(VBN modeled)(PP(IN on)(NP(PRP$his)(JJ own)(NNlife))))))))(..)))
至本专利申请提交日——2019年3月22日,Berkeley Parser和Stanford Parser对于本例句给出的都是错误结果!
例13:He said he wanted to improve the vineyard to allow visitors toenjoy local food and that in this way,he could make more money.
本例句可以通过如下的A1-B1-C1联合系统获得正确的最终句法分析结果。本例句包含两个并列的宾语从句。
B1={g[To VB,1](u,v)=to improve+<the vineyard+<e,g[To VB,2](u,v)
=to allow+<visitors+<e,g[To VB,3](u,v)=to enjoy+<local food+<e,
g[PREP](u)=in+<this way};
例14:I will buy the car which my father needs and the bike which mybrother wants.
本例句可以通过如下的A1-B1-C1联合系统获得正确的最终句法分析结果。
句法结构修补,是与本申请方案中的句法规则检查同时进行的另一个环节。句法结构修补采用概率结合句法规则的方法或依存分析方法,将遗漏的复杂倒装句型、遗漏的远距离动宾关系、遗漏的远距离并列成分、遗漏的形容词做表语成分、遗漏的介词短语做表语成分、遗漏的不定式结构做宾语的补足语成分、遗漏的动名词-现在分词结构做宾语的补足语成分、遗漏的过去分词结构做宾语的补足语成分、遗漏的介词短语做宾语的补足语成分等句法信息重新挖掘出来,并且据此修补之前得出的句法结构中存在的缺陷。比如:在本例句中,the car和the bike并列作为will buy的宾语,the car和the bike被定语从句which my father needs隔离。通过句法结构修补这一环节,可以将the car和the bike合并成一个宾语元素。对于分别插空在the car和the bike之后的两个定语从句which myfather needs和which my brother wants,将它们处理为在同一个宾语元素内部对两个基本名词单元的分别插空。另外,本例句中的and,属于“不用于连接句子的并列关联词单元”。
C1={the bike}经过句法结构修补得到:will buy the car and thebike。
例15:Determining where we are in relation to our surroundings remainsan essential skill for our survival.
本例句可以通过如下的A1-B1-C1联合系统获得正确的最终句法分析结果。
本例句中的in relation to带有结构歧义,一方面可以理解为in relation to是一个完整的是复合介词,另一方面可以理解为in relation to是由介词短语in relation和介词to两个部分联合构成的一个整体。在如下的A1-B1-C1联合系统中,是将in relationto作为复合介词来处理的。复合介词短语in relation to our surroundings充当从句的表语,是句子中的主干成分,但是为了便于计算机处理,按照申请方案的操作,复合介词短语in relation to our surroundings不计入矩阵中,可以在后面的句法结构修补环节中将in relation to our surroundings修复为从句的表语。
B1={g[VBG](u,v)=Determining+<f1+<e,g[PREP,1](u)=in relation to+<oursurroundings,g[PREP,2](u)=for+<our survival};
例16:Tom washed and polished his car,after he gave his brother apresent.
本例句可以通过如下的A1-B1-C1联合系统获得正确的最终句法分析结果。
本例句中的washed and polished是一个相邻并列的谓语动词组合单元,washedand polished构成一个谓语元素;gave是可接双宾语的动词,可以通过查询词典或统计的方式预先归纳并给出。
例17:That men the nurse the doctor the clinic had hired sent to theward introduced to the cleaners didn't bother the patients wasn't remarkedupon by the press.
本例句可以通过如下的A1-B1-C1联合系统获得正确的最终句法分析结果。
在说明书的前半部分曾经提到例17。例17符合前文提到的Q模型,验证略。
B1={g[PREP,1](u)=to+<the ward,g[PREP,2](u)=to+<the cleaners,g[PREP,3](u)=by+<the press};
A1-B1-C1联合系统对应的完整句法结构的整体插空过程,如图44所示。
经过各个步骤,A1-B1-C1联合系统没有错误,保留。最终获得A1-B1-C1联合系统所对应的例句17的完整句法结构。以字符串形式,将该结果表达如下:[参见图45]
(ROOT(S(SBAR(IN That)(S(NP(NP(NNS men))(SBAR(S(NP(NP(DT the)(NNnurse))(SBAR(S(NP(NP(DT the)(NN doctor))(SBAR(S(NP(DT the)(NN clinic))(VP(VBDhad)(VP(VBN hired))))))(VP(VBD sent)(PP(TO to)(NP(DT the)(NN ward)))))))(VP(VBD introduced)(PP(TO to)(NP(DT the)(NNS cleaners)))))))(VP(VBD did)(RB n't)(VP(VB bother)(NP(DT the)(NNS patients))))))(VP(VBD was)(RB n't)(VP(VBNremarked)(ADVP(RP upon)(PP(IN by)(NP(DT the)(NN press))))))(..)))
至本专利申请提交日——2019年3月22日,Berkeley Parser和Stanford Parser对于本例句给出的都是错误结果![参见图46]
例18:That men the cleaner introduced to the nurses the doctor theclinic had hired sent to the ward didn't bother the patients wasn't remarkedupon by the press.
本例句可以通过如下的A1-B1-C1联合系统获得正确的最终句法分析结果。
在说明书的前半部分曾经提到例18。例18符合前文提到的Q模型,验证略。
B1={g[PREP,1](u)=to+<the nurses,g[PREP,2](u)=to+<the ward,g[PREP,3](u)=by+<the press};
A1-B1-C1联合系统对应的完整句法结构的整体插空过程,如图47所示。
经过各个步骤,A1-B1-C1联合系统没有错误,保留。最终获得A1-B1-C1联合系统所对应的例句18的完整句法结构。以字符串形式,将该结果表达如下:[参见图48]
(ROOT(S(SBAR(IN That)(S(NP(NP(NNS men))(SBAR(S(NP(DT the)(NNcleaner))(VP(VBD introduced)(PP(TO to)(NP(NP(DT the)(NNS nurses))(SBAR(S(NP(NP(DT the)(NN doctor))(SBAR(S(NP(DT the)(NN clinic))(VP(VBD had)(VP(VBNhired))))))(VP(VBD sent)(PP(TO to)(NP(DT the)(NN ward))))))))))))(VP(VBD did)(RB n't)(VP(VB bother)(NP(DT the)(NNS patients))))))(VP(VBD was)(RB n't)(VP(VBN remarked)(ADVP(RP upon)(PP(IN by)(NP(DT the)(NN press))))))(..)))
至本专利申请提交日——2019年3月22日,Berkeley Parser和Stanford Parser对于本例句给出的都是错误结果![参见图49]
本发明的总结:
本专利申请的方案,以解决计算机自然语言处理中的具体技术难题为目标,将计算机执行的词法分析、句法分析、语义分析三个方面有机地统一起来,使这三个方面之间互相参照、互相约束、互相纠正。在本专利申请的方案中,发明人建立了一套全新的适用于计算机处理的刻画语句的数学模型。所述的刻画语句的数学模型,结构清晰准确,表达能力和实用性很强,模型所包含的每一个公式的长度都是有限的,符合数学和计算机科学的自然规律,有助于提高计算机处理自然语言的准确率。在此基础之上,发明人给出了一套使用计算机分析语句的句法结构的方法。所述的使用计算机分析语句的句法结构的方法,符合自然规律,适用范围广,准确率高,计算量非常大,建议采用分布式计算。特别指出,凡是在本专利申请的说明书中出现的句子,全都可以使用本专利申请的方案获得正确的句法分析结果。本专利申请的方案可以划分为如下4个计算区域:
第1个计算区域:α区域
在α区域中,读取待解析的语句数据结构,并针对待解析的语句数据结构进行预处理操作;读取待解析的经过前述的预处理的语句数据结构;对于不存在谓语动词单元的待解析语句,改为采用概率结合句法规则的方法或依存分析方法对该语句进行分析,且取前述的分析结果作为计算机的最终分析结果;对于存在谓语动词单元的待解析语句,生成相关的词语列表,并生成与前述词语列表对应的谓语向量、辅助向量、剩余名词向量,进而生成与前述词语列表对应的A-B-C联合系统。
需要注意的是:针对每一张词语列表(i),采用概率结合句法规则的方法或依存分析方法,将特殊疑问句、省略句、局部倒装句等检查出来并对其谓语做形态处理,以便后续的操作。
例如:When did you leave the house?
处理为陈述句形态是:When+<you+<(did)leave+<the house+<(.)
第2个计算区域:β区域
在β区域中,对α区域生成的任意一个A-B-C联合系统,进行整体插空操作、句法规则检查和句法结构修补、剩余名词检查。这个计算区域,充分运用自然规律,通过筛选和检查,生成待解析语句的大致句法结构,即生成待解析语句的句法结构的基本框架。
进而运用组合数学中的乘法原理,穷尽前述α区域生成的每一张词语列表对应的全部A-B-C联合系统;进一步地,通过对每一个A-B-C联合系统中的全部的相关向量进行排列组合,穷尽每一个A-B-C联合系统对应的全部插空方案;再进一步地,对每一个插空方案反复执行β区域的计算,直至穷尽每一个插空方案所涉及到的全部空位和全部拼合向量。
β区域的所有环节和算法,参见说明书的附图50。其中,A、B、C三个环节构成A-B-C联合系统;D=Ψ(A,B,C)是整体插空和排除自然数逆序的算法;E={σ(1),σ(2),……,σ(m)}是句法规则检查和句法结构修补所需的各个分项的算法;F=Φ(NP)是剩余名词检查的算法;G=ε(↑↓)是前述各种穷尽和前述反复执行β区域的算法。
判断剩余名词是否合理,是本申请方案中控制计算机句法分析过程的技术平衡点。β区域保留下来的A-B-C联合系统,刻画了待解析语句的大致句法结构,即刻画了待解析语句的句法结构的基本框架。
第3个计算区域:γ区域
在γ区域中,以β区域保留下来的若干个A-B-C联合系统所刻画的待解析语句的句法结构的基本框架作为标准,在采用概率结合句法规则的方法或依存分析方法对待解析语句进行分析而获得的数量充足的完整句法结构中,找出符合前述标准的且最合适的完整句法结构。
第4个计算区域:δ区域
在δ区域中,以γ区域生成的待解析语句的若干个完整句法结构为基础,采用语义处理的方法,找出经过前述的句法结构约束的最合适的语义关系,进而将该语义关系对应的前述的完整句法结构作为最终的句法分析结果,并输出该结果。所述语义处理的方法,通常需要以句法结构对语义关系的充分约束作为前提。所述以句法结构对语义关系的充分约束作为前提,是指由句法结构来初步决定语句中的每一个词语的含义以及各个词语含义之间的相互搭配关系。
说明:上述4个计算区域所涉及到的从α至δ的希腊文小写字母和从A至G的英文大写字母,是顺序标记,代表了各个计算区域、各个环节、各个算法的操作顺序。
以上所述仅为本发明的优选实施例,并不用于限制本发明,对于本领域技术人员而言,本发明可以有各种改动和变化。凡是在本发明的精神和原理之内所做的任何修改、等同替换、改进等,均应包括在本发明的保护范围之内。

Claims (5)

1.一种自然语言句法分析的方法,包括:
S1、读取待解析的语句数据结构,并针对待解析的语句数据结构进行预处理操作;
S2、针对每一个词语列表(i),读取待解析的经过前述的预处理的语句数据结构:如果在待解析的语句中存在谓语动词单元,那么生成词语列表(ii);如果在待解析的语句中不存在谓语动词单元,那么改为采用概率结合句法规则的方法或依存分析方法对该语句进行分析,取前述分析的结果作为计算机的最终分析结果,进而清除对应的词语列表(i)且不生成词语列表(ii);
S3、针对每一个谓语元素,生成对应的谓语向量;所述谓语向量包括并列引导语元素、从属引导语元素、主语元素、谓语元素、第一位置宾语元素、第二位置宾语元素;
其中,所述谓语元素是对应的谓语动词单元,或对应的相邻并列的谓语动词组合单元;所述谓语元素编号是对应的谓语动词单元编号,或对应的相邻并列的谓语动词组合单元编号;
其中,所述并列引导语元素的可能取值是编号小于对应的谓语元素编号的用于连接句子的并列关联词单元之一,或空单元;不用于连接句子的并列关联词单元,不能作为并列引导语元素的可能取值;
其中,所述从属引导语元素的可能取值是编号小于对应的谓语元素编号的从属关联词单元之一,或编号小于对应的谓语元素编号的相邻并列的从属关联词组合单元之一,或编号小于对应的谓语元素编号的疑问词单元之一,或编号小于对应的谓语元素编号的相邻并列的疑问词组合单元之一,或空单元;
其中,所述主语元素的可能取值是编号小于对应的谓语元素编号的基本名词单元之一,或编号小于对应的谓语元素编号的相邻并列的基本名词组合单元之一,或编号小于对应的谓语元素编号的不定式元素对应的不定式向量之一,或编号小于对应的谓语元素编号的动名词-现在分词元素对应的动名词-现在分词向量之一,或比对应的谓语元素编号小的谓语元素对应的谓语向量之一,或空单元;
其中,所述第一位置宾语元素的可能取值是编号大于对应的谓语元素编号且小于在所述谓语元素之后出现的第一个谓语元素编号的基本名词单元之一,或编号大于对应的谓语元素编号且小于在所述谓语元素之后出现的第一个谓语元素编号的相邻并列的基本名词组合单元之一,或编号大于对应的谓语元素编号且小于在所述谓语元素之后出现的第一个谓语元素编号的不定式元素对应的不定式向量之一,或编号大于对应的谓语元素编号且小于在所述谓语元素之后出现的第一个谓语元素编号的动名词-现在分词元素对应的动名词-现在分词向量之一,或比对应的谓语元素编号大的谓语元素对应的谓语向量之一,或空单元;谓语元素对应的符合前述要求的表语成分,也当作第一位置宾语元素处理;
其中,如果对应的谓语元素是由可接双宾语的动词或可接宾语结合宾语补足语的动词构成的单元,且对应的第一位置宾语元素是一个基本名词单元或一个相邻并列的基本名词组合单元,那么所述第二位置宾语元素的可能取值是编号大于对应的第一位置宾语元素编号且小于在所述谓语元素之后出现的第一个谓语元素编号的基本名词单元之一,或编号大于对应的第一位置宾语元素编号且小于在所述谓语元素之后出现的第一个谓语元素编号的相邻并列的基本名词组合单元之一,或比对应的谓语元素编号大的谓语元素对应的谓语向量之一,或空单元;如果对应的谓语元素是由可接双宾语的动词或可接宾语结合宾语补足语的动词构成的单元,且对应的第一位置宾语元素既不是一个基本名词单元又不是一个相邻并列的基本名词组合单元,那么所述第二位置宾语元素的取值是空单元;如果对应的谓语元素是由既不可接双宾语又不可接宾语结合宾语补足语的动词构成的单元,那么所述第二位置宾语元素的可能取值是空单元;其中,所述的可接双宾语的动词或可接宾语结合宾语补足语的动词以及所述的既不可接双宾语又不可接宾语结合宾语补足语的动词,可以通过查询词典或统计的方式预先归纳并给出;界定所述的可接双宾语的动词或可接宾语结合宾语补足语的动词以及所述的既不可接双宾语又不可接宾语结合宾语补足语的动词,有助于降低计算的复杂度;
S4、针对每一个不定式元素,生成对应的不定式向量;针对每一个动名词-现在分词元素,生成对应的动名词-现在分词向量;针对每一个过去分词元素,生成对应的过去分词向量;针对每一个介词元素,生成对应的介词向量;根据所述不定式元素、不定式第一位置宾语元素、不定式第二位置宾语元素的可能取值,获取每一个不定式元素对应的不定式向量的所有可能取值;根据所述动名词-现在分词元素、动名词-现在分词第一位置宾语元素、动名词-现在分词第二位置宾语元素的可能取值,获取每一个动名词-现在分词元素对应的动名词-现在分词向量的所有可能取值;根据所述过去分词元素、过去分词宾语元素的可能取值,获取每一个过去分词元素对应的过去分词向量的所有可能取值;根据所述介词元素、介词宾语元素的可能取值,获取每一个介词元素对应的介词向量的所有可能取值;
其中,所述不定式向量包括不定式元素、不定式第一位置宾语元素、不定式第二位置宾语元素;
所述不定式元素是对应的不定式动词单元,或对应的相邻并列的不定式动词组合单元;所述不定式元素编号是对应的不定式动词单元编号,或对应的相邻并列的不定式动词组合单元编号;
所述不定式第一位置宾语元素的可能取值是编号大于对应的不定式元素编号且小于在所述不定式元素之后出现的第一个谓语元素编号的基本名词单元之一,或编号大于对应的不定式元素编号且小于在所述不定式元素之后出现的第一个谓语元素编号的相邻并列的基本名词组合单元之一,或编号大于对应的不定式元素编号且小于在所述不定式元素之后出现的第一个谓语元素编号的不定式元素对应的不定式向量之一,或编号大于对应的不定式元素编号且小于在所述不定式元素之后出现的第一个谓语元素编号的动名词-现在分词元素对应的动名词-现在分词向量之一,或比对应的不定式元素编号大的谓语元素对应的谓语向量之一,或空单元;不定式元素对应的符合前述要求的表语成分,也当作不定式第一位置宾语元素处理;
如果对应的不定式元素是由可接双宾语的动词或可接宾语结合宾语补足语的动词构成的单元,且对应的不定式第一位置宾语元素是一个基本名词单元或一个相邻并列的基本名词组合单元,那么所述不定式第二位置宾语元素的可能取值是编号大于对应的不定式第一位置宾语元素编号且小于在所述不定式元素之后出现的第一个谓语元素编号的基本名词单元之一,或编号大于对应的不定式第一位置宾语元素编号且小于在所述不定式元素之后出现的第一个谓语元素编号的相邻并列的基本名词组合单元之一,或比对应的不定式元素编号大的谓语元素对应的谓语向量之一,或空单元;如果对应的不定式元素是由可接双宾语的动词或可接宾语结合宾语补足语的动词构成的单元,且对应的不定式第一位置宾语元素既不是一个基本名词单元又不是一个相邻并列的基本名词组合单元,那么所述不定式第二位置宾语元素的取值是空单元;如果对应的不定式元素是由既不可接双宾语又不可接宾语结合宾语补足语的动词构成的单元,那么所述不定式第二位置宾语元素的取值是空单元;其中,所述的可接双宾语的动词或可接宾语结合宾语补足语的动词以及所述的既不可接双宾语又不可接宾语结合宾语补足语的动词,可以通过查询词典或统计的方式预先归纳并给出;界定所述的可接双宾语的动词或可接宾语结合宾语补足语的动词以及所述的既不可接双宾语又不可接宾语结合宾语补足语的动词,有助于降低计算的复杂度;
其中,所述动名词-现在分词向量包括动名词-现在分词元素、动名词-现在分词第一位置宾语元素、动名词-现在分词第二位置宾语元素;
所述动名词-现在分词元素是对应的动名词-现在分词单元,或对应的相邻并列的动名词-现在分词组合单元;所述动名词-现在分词元素编号是对应的动名词-现在分词单元编号,或对应的相邻并列的动名词-现在分词组合单元编号;
所述动名词-现在分词第一位置宾语元素的可能取值是编号大于对应的动名词-现在分词元素编号且小于在所述动名词-现在分词元素之后出现的第一个谓语元素编号的基本名词单元之一,或编号大于对应的动名词-现在分词元素编号且小于在所述动名词-现在分词元素之后出现的第一个谓语元素编号的相邻并列的基本名词组合单元之一,或编号大于对应的动名词-现在分词元素编号且小于在所述动名词-现在分词元素之后出现的第一个谓语元素编号的不定式元素对应的不定式向量之一,或编号大于对应的动名词-现在分词元素编号且小于在所述动名词-现在分词元素之后出现的第一个谓语元素编号的动名词-现在分词元素对应的动名词-现在分词向量之一,或比对应的动名词-现在分词元素编号大的谓语元素对应的谓语向量之一,或空单元;动名词-现在分词元素对应的符合前述要求的表语成分,也当作动名词-现在分词第一位置宾语元素处理;
如果对应的动名词-现在分词元素是由可接双宾语的动词或可接宾语结合宾语补足语的动词构成的单元,且对应的动名词-现在分词第一位置宾语元素是一个基本名词单元或一个相邻并列的基本名词组合单元,那么所述动名词-现在分词第二位置宾语元素的可能取值是编号大于对应的动名词-现在分词第一位置宾语元素编号且小于在所述动名词-现在分词元素之后出现的第一个谓语元素编号的基本名词单元之一,或编号大于对应的动名词-现在分词第一位置宾语元素编号且小于在所述动名词-现在分词元素之后出现的第一个谓语元素编号的相邻并列的基本名词组合单元之一,或比对应的动名词-现在分词元素编号大的谓语元素对应的谓语向量之一,或空单元;如果对应的动名词-现在分词元素是由可接双宾语的动词或可接宾语结合宾语补足语的动词构成的单元,且对应的动名词-现在分词第一位置宾语元素既不是一个基本名词单元又不是一个相邻并列的基本名词组合单元,那么所述动名词-现在分词第二位置宾语元素的取值是空单元;如果对应的动名词-现在分词元素是由既不可接双宾语又不可接宾语结合宾语补足语的动词构成的单元,那么所述动名词-现在分词第二位置宾语元素的取值是空单元;其中,所述的可接双宾语的动词或可接宾语结合宾语补足语的动词以及所述的既不可接双宾语又不可接宾语结合宾语补足语的动词,可以通过查询词典或统计的方式预先归纳并给出;界定所述的可接双宾语的动词或可接宾语结合宾语补足语的动词以及所述的既不可接双宾语又不可接宾语结合宾语补足语的动词,有助于降低计算的复杂度;
其中,所述过去分词向量包括过去分词元素、过去分词宾语元素;
所述过去分词元素是对应的过去分词单元,或对应的相邻并列的过去分词组合单元;所述过去分词元素编号是对应的过去分词单元编号,或对应的相邻并列的过去分词组合单元编号;
如果对应的过去分词元素是由可接双宾语的动词或可接宾语结合宾语补足语的动词构成的单元,那么所述过去分词宾语元素的可能取值是编号大于对应的过去分词元素编号且小于在所述过去分词元素之后出现的第一个谓语元素编号的基本名词单元之一,或编号大于对应的过去分词元素编号且小于在所述过去分词元素之后出现的第一个谓语元素编号的相邻并列的基本名词组合单元之一,或比对应的过去分词元素编号大的谓语元素对应的谓语向量之一,或空单元;如果对应的过去分词元素是由既不可接双宾语又不可接宾语结合宾语补足语的动词构成的单元,那么所述过去分词宾语元素的取值是空单元;其中,所述的可接双宾语的动词或可接宾语结合宾语补足语的动词以及所述的既不可接双宾语又不可接宾语结合宾语补足语的动词,可以通过查询词典或统计的方式预先归纳并给出;界定所述的可接双宾语的动词或可接宾语结合宾语补足语的动词以及所述的既不可接双宾语又不可接宾语结合宾语补足语的动词,有助于降低计算的复杂度;
其中,所述介词向量包括过介词元素、介词宾语元素;
所述介词元素是对应的介词单元,或对应的相邻并列的介词组合单元;所述介词元素编号是对应的介词单元编号,或对应的相邻并列的介词组合单元编号;
所述介词宾语元素的可能取值是编号大于对应的介词元素编号且在所述介词元素之后出现的第一个基本名词单元,或编号大于对应的介词元素编号且在所述介词元素之后出现的第一个相邻并列的基本名词组合单元,或编号大于对应的介词元素编号且在所述介词元素之后出现的第一个动名词-现在分词向量,或编号大于对应的介词元素编号且在所述介词元素之后出现的第一个不定式向量,或编号大于对应的介词元素编号且与所述介词元素编号的数字顺序相邻的介词元素对应的介词向量,或比对应的介词元素编号大的谓语元素对应的谓语向量之一,或空单元;
S5、将不定式向量、动名词-现在分词向量、过去分词向量和介词向量,统称为辅助向量;针对待解析语句中的每一个辅助向量,分别任取一个该辅助向量对应的可能取值,从而获得一组全体辅助向量对应的可能取值;将前述的一组全体辅助向量对应的可能取值看作一个集合,称为一个辅助系统;
S6、任意给定一个规范主干系统,搭配一个对应的辅助系统;将前述的辅助系统中的每一个辅助向量内部的每一个排除向量之外的元素全都替换为对应的编号;替换编号之后,检查该辅助系统;如果在该辅助系统中出现下述不合理的情况,那么清除该辅助系统;如果在该辅助系统中没有出现下述不合理的情况,那么保留该辅助系统;将保留下来的辅助系统称为规范辅助系统;接下来提到的谓语向量,都是指前述给定的规范主干系统中的谓语向量;
S6.1、如果在两个不同的辅助向量中出现相同的编号或相同的谓语向量或相同的不定式向量或相同的动名词-现在分词向量或相同的介词向量,那么该辅助系统不合理,清除该辅助系统;
S6.2、如果一个辅助向量内部和一个谓语向量内部同时出现相同的编号或相同的谓语向量或相同的不定式向量或相同的动名词-现在分词向量,那么该辅助系统不合理,清除该辅助系统;
S6.3、如果在一个辅助向量内部出现两个顺序逆反的编号,那么该辅助系统不合理,清除该辅助系统;
S6.4、将两两之间存在元素代入关系的任意两个辅助向量,全都进行等量代换;如果出现向量之间的代入交叉矛盾,那么该辅助系统不合理,清除该辅助系统;如果在等量代换之后出现两个顺序逆反的编号,那么该辅助系统不合理,清除该辅助系统;
S6.5、将两两之间存在元素代入关系的任意一个辅助向量和任意一个谓语向量,全都进行等量代换;如果出现向量之间的代入交叉矛盾,那么该辅助系统不合理,清除该辅助系统;如果在等量代换之后出现两个顺序逆反的编号,那么该辅助系统不合理,清除该辅助系统;
S6.6、检查过后,恢复到检查之前的原状,以备后续的各项操作使用;
S7、生成剩余名词系统和A-B-C联合系统;
S7.1、任意给定一个规范主干系统和一个与该规范主干系统对应的规范辅助系统,将没有进入前述的规范主干系统和规范辅助系统的剩余的基本名词单元和相邻并列的基本名词组合单元的全体看作一个集合,将这个集合称为一个剩余名词系统;将剩余名词系统中的每一个元素,称为一个剩余名词元素;一个剩余名词元素的编号,是该剩余名词元素对应的基本名词单元或基本名词组合单元的编号;针对每一个剩余名词元素,生成一个对应的剩余名词向量;所述剩余名词向量,仅包括剩余名词元素,即剩余名词向量与剩余名词元素是一一对应的;
S7.2、按照S7.1所述的方式互相对应的一个规范主干系统、一个规范辅助系统和一个剩余名词系统,就构成一个A-B-C联合系统;
S8、任意给定一个A-B-C联合系统,针对该A-B-C联合系统执行整体插空操作;每一个空位,在一次整体插空操作中至多可以接收一个向量,也可以不接收任何向量,即无插空操作;在整体插空操作之前,清除空单元;在整体插空操作中,将构造空位且接收其他向量进入该空位的向量,记为接收向量;将插入其他向量的空位的向量,记为插入向量;
S8.1、在前述的A-B-C联合系统中,对每一个向量内部的每一个可以用其他向量进行代换的元素,全都使用对应的向量进行等量代换,无论对应的向量是谓语向量还是辅助向量;执行前述的等量代换,直至将每一个向量内部的其他向量全都替换完毕;经过前述的等量代换,如果某一个向量被代入另一个向量内部,那么取消代入另一个向量内部的向量在A-B-C联合系统中的原有位置,从而令经过前述的等量代换操作的两个向量完全融合;通过等量代换,将A-B-C联合系统中原有的向量,全都转化为相互之间不存在元素代入关系的新的向量;以等量代换为界限,将等量代换之前的A-B-C联合系统中的向量称为第I类向量,将等量代换之后的A-B-C联合系统中的向量称为第II类向量;显然,某一个第I类向量和某一个第II类向量,可以是同一个向量,即一个向量在等量代换的之前和之后可以不发生变化;
S8.2、在A-B-C联合系统中进行第一轮整体插空操作:任取一个第II类向量ω,作为第一轮整体插空操作的接收向量;按照预定的方向逐一标注向量ω中的每一个元素的顺序值;按照已经标注的顺序值,任取向量ω中的第i个元素,仅在该元素的第一侧构造唯一的空位;造空之后,任取一个排除前述的向量ω之外的第II类向量μ,作为第一轮整体插空操作的插入向量;以整体插空的方式,将向量μ插入前述第i个元素对应的空位,进而生成一个新的向量,将这个新生成的向量记为[ω]i+<μ;将A-B-C联合系统中经过整体插空操作而获得的向量,统称为第III类向量;每一轮整体插空标注的顺序值,仅限于在这一轮整体插空过程中使用;
S8.3、在A-B-C联合系统中进行第二轮整体插空操作:取第III类向量[ω]i+<μ作为第二轮整体插空操作的接收向量;按照预定的方向,对从向量[ω]i+<μ中的第一侧第一个元素开始直到向量[ω]i+<μ包含的向量μ内部的第二侧第一个元素为止的每一个元素,标注顺序值;向量[ω]i+<μ中的其余元素,全都不标注顺序值;按照已经标注的顺序值,取第j个元素,仅在该元素的第一侧构造唯一的空位;造空之后,任取一个之前任何步骤都没有使用过的第II类向量ξ,作为第二轮整体插空操作的插入向量;以整体插空的方式将向量ξ插入前述第j个元素对应的空位,进而生成一个新的向量,将新生成的向量记为[[ω]i\μ]j+<ξ;或者
取第III类向量[ω]i+<μ作为第二轮整体插空操作的接收向量;按照预定的方向对向量[ω]i+<μ中的每一个元素标注顺序值;按照已经标注的顺序值,任取向量[ω]i+<μ中的第k个元素,仅在该元素的第一侧构造唯一的空位;造空之后,任取一个之前任何步骤都没有使用过的第II类向量ξ,作为第二轮整体插空操作的插入向量;以整体插空的方式将向量ξ插入前述第k个元素对应的空位,进而生成一个新的向量,将新生成的向量记为([ω]i+<μ)k+<ξ;按照该方法进行整体插空操作,如果在执行完S8.4之后出现雷同的结果,那么将雷同的结果合并为一个结果,即将雷同的拼合向量合并为一个拼合向量;
S8.4、在前述的A-B-C联合系统中,按照下述的方式反复执行S8.3给出的整体插空操作:取前一轮整体插空操作获得的新生成的向量,作为新一轮整体插空操作的接收向量,且任取一个之前任何步骤都没有使用过的第II类向量,作为新一轮整体插空操作的插入向量;反复执行整体插空操作,直至将所有的第II类向量全部插入空位完毕,记为穷尽全部插入向量,且在穷尽全部插入向量的同时获得一个第III类向量;将穷尽全部插入向量的同时获得的第III类向量,记为拼合向量;S8.3共包含2种整体插空操作方法,对于S8.3中的整体插空操作方法的选择,前后步骤要保持一致;将每一轮整体插空操作所采用的第II类向量按顺序依次排列,直至穷尽全部插入向量,就构成了A-B-C联合系统对应的一个插空方案;反复执行从S8.2到S8.4的操作,穷尽插空方案所涉及到的每一轮插空操作中的每一个接收向量内部的每一个元素对应的空位,即穷尽插空方案所涉及到的每一个拼合向量;
S8.5、检查S8.4生成的结果:替换成编号;如果在一个拼合向量内部出现两个顺序逆反的编号,那么该拼合向量不合理,清除该拼合向量;如果在一个拼合向量内部没有出现顺序逆反的编号,那么该拼合向量是合理的,保留该拼合向量;
S8.6、在将前述的A-B-C联合系统中的第I类向量全都转化为第II类向量之后,首先将该A-B-C联合系统中的每一个第II类向量全都替换成对应的编号,然后执行前述的整体插空操作;按照任意给定的一个该A-B-C联合系统对应的插空方案,在每一轮整体插空操作中,在接收向量内部的每一个元素的第一侧全都构造一个空位,然后开始筛选合理空位;比较插入向量内部的左侧或右侧第一个编号与待筛选的空位对应的左侧或右侧相邻编号之间的大于或小于关系,且仅选取具有避免出现编号顺序逆反的大于或小于关系的空位作为合理空位,进行插空操作,其余空位都作为不合理空位,无插空操作;如果接收向量内部不存在合理空位,那么说明前述给定的插空方案不合理,结束该插空方案,并更换其他的插空方案;采用该方法进行优化,可以将获得的拼合向量直接记为合理的拼合向量,无需进行编号顺序逆反检查;
S8.7、运用组合数学中的乘法原理,穷尽每一张词语列表(ii)对应的全部A-B-C联合系统;进一步地,通过对每一个A-B-C联合系统中的全体第II类向量进行排列组合,穷尽每一个A-B-C联合系统对应的全部插空方案;再进一步地,对每一个插空方案反复执行从S8.2至S8.6的操作,直至穷尽每一个插空方案对应的全部拼合向量;
S8.8、句法规则检查:使用自然语言的句法规则,采用概率结合句法规则的方法或依存分析方法,对保留下来的每一个合理的拼合向量及其对应的A-B-C联合系统进行检查;前述的使用句法规则进行检查,应当包括运用事件宾语动词和非事件宾语动词的规则进行检查;所述事件宾语动词,是指自然语言中的只能以事件作为宾语而不能以人或事物作为宾语的动词;所述非事件宾语动词,是指自然语言中的只能以人或事物作为宾语而不能以事件作为宾语的动词;事件宾语动词和非事件宾语动词,可以通过查询词典或统计的方式预先归纳并给出;
S8.9、在执行S8.8的同时,进行句法结构修补;所述的句法结构修补,采用概率结合句法规则的方法或依存分析方法,将遗漏的句法信息重新挖掘出来,且据此修补之前得出的句法结构中存在的缺陷;还可以通过句法结构修补这一环节,对前述保留下来的A-B-C联合系统中的每一个向量在句法结构方面的主要地位和次要地位进行区分和调整;
S8.10、剩余名词检查:采用概率结合句法规则的方法或依存分析方法,找出合理的剩余名词和不合理的剩余名词,且将包含不合理的剩余名词的A-B-C联合系统舍弃;
S9、以经过S8保留下来的若干个A-B-C联合系统所刻画的待解析语句的句法结构的基本框架作为标准,在采用概率结合句法规则的方法或依存分析方法对待解析语句进行分析而获得的数量充足的完整句法结构中,找出符合前述标准的且最合适的完整句法结构;
S10、以S9生成的若干个完整句法结构为基础,采用语义处理的方法,找出经过前述的句法结构约束的最合适的语义关系,进而将该语义关系对应的前述的完整句法结构作为最终的句法分析结果。
2.根据权利要求1所述的方法,其特征在于,所述的预处理操作,包括:
S1.1、对于待解析的语句中的每个词的词性,进行计算机自动分析和标注,生成词法分析的结果;
S1.2、对于待解析的语句中的谓语动词、基本名词短语、基本形容词短语、基本副词短语等自然语言的要素,进行计算机自动分析和标注;对于相邻并列的名词短语、相邻并列的形容词短语、相邻并列的副词短语等自然语言要素,进行计算机自动分析和标注;
S1.3、将各种相邻并列的词性单元合并,且将合并之后的相邻并列的词性单元记为一个对应的词性单元;
S1.4、针对S1.2和S1.3所述的待解析的语句中的语言信息,开列出一张词语列表,记为词语列表(i);词语列表(i)包括词语、词语对应的属性、词语在句子中的位置信息、标点符号及其在句子中的位置信息;
S1.5、针对词法分析可能产生的多种不同的结果,运用组合数学的相关方法,生成多张不同的词语列表(i),以便容纳多种结构歧义;针对前述生成的多张不同的词语列表(i),分别采用不同的编号加以区分;在所述的预处理操作中,放宽对词法分析结果的限制,将由结构歧义导致的多种不同的词法分析结果通过多张不同的词语列表(i)保留下来,留给后续的句法分析环节和语义处理环节加以辨别和筛选,即通过后续的句法分析环节和语义处理环节对多种不同的词法分析结果加以约束,从而增大最终选取正确的词法分析结果的可能性;
S1.6、针对每一个词语列表(i),采用概率结合句法规则的方法或依存分析方法,将疑问句、省略句、倒装句等特殊句式检查出来,并对其谓语做相应的形态处理,以便后续步骤的处理;
S1.7、针对每一个词语列表(i),剔除副词单元、形容词单元、相邻并列的副词单元、相邻并列的形容词单元、感叹词单元、非句子形态的简单插入语成分、小品词单元、相邻并列的小品词单元、无结构歧义的相邻并列的限定词单元、混合修饰单元等待解析的语句中的杂质成分;剔除非句子形态的简单插入语单元两侧的逗号等待解析的语句包含的次要的标点符号。
3.根据权利要求1所述的方法,其特征在于,所述步骤S2包括:
S2.1、针对每一个词语列表(i),读取待解析的经过前述的预处理的语句数据结构,所述经过前述的预处理的语句数据结构包括如下信息:
(1),用于连接句子的并列关联词单元;
(2),不用于连接句子的并列关联词单元;不用于连接句子的并列关联词单元的作用是连接句子内部的各种并列成分;
(3),谓语动词单元、从属关联词单元、基本名词单元、不定式动词单元、动名词-现在分词单元、过去分词单元、介词单元、相邻并列的谓语动词组合单元、相邻并列的从属关联词组合单元、相邻并列的基本名词组合单元、相邻并列的不定式动词组合单元、相邻并列的动名词-现在分词组合单元、相邻并列的过去分词组合单元、相邻并列的介词组合单元;
(4),疑问词单元、相邻并列的疑问词组合单元、有结构歧义的限定词单元;
(5),包含谓语动词单元的插入语成分;
(6),主要的标点符号;
S2.2、针对前述的S2.1中的语句数据结构,生成词语列表(ii);词语列表(ii)包括前述的词语、前述的词语对应的属性、依据自然语言的行文顺序对前述的词语按照从小到大的数字顺序标注的编号、主要的标点符号。
4.根据权利要求1所述的方法,其特征在于,所述步骤S3包括:
S3.1、根据所述谓语元素、并列引导语元素、从属引导语元素、主语元素、第一位置宾语元素、第二位置宾语元素的可能取值,获取每一个谓语元素对应的谓语向量的所有可能取值;所述谓语向量包括并列引导语元素、从属引导语元素、主语元素、谓语元素、第一位置宾语元素、第二位置宾语元素;
S3.2、针对待解析语句中的每一个谓语向量,分别任取一个该谓语向量对应的可能取值,从而获得一组全体谓语向量对应的可能取值;将前述的一组全体谓语向量对应的可能取值按照固定顺序排列,构成一个n行6列矩阵;将前述的一个n行6列矩阵,称为一个主干系统;
S3.3、将任意给定的一个主干系统中的每一个谓语向量内部的每一个排除向量之外的元素全都替换为对应的编号;替换编号之后,检查该主干系统;如果在该主干系统中出现下述不合理的情况,那么清除该主干系统;如果在该主干系统中没有出现下述不合理的情况,那么保留该主干系统;将保留下来的主干系统称为规范主干系统:
S3.3.1、检查前述的主干系统:对比词语列表(ii),如果存在没有进入该主干系统的用于连接句子的并列关联词单元或从属关联词单元或相邻并列的从属关联词组合单元,那么该主干系统不合理,清除该主干系统;
S3.3.2、检查前述的主干系统:如果在两个不同的谓语向量中出现相同的编号或相同的谓语向量或相同的不定式向量或相同的动名词-现在分词向量,那么该主干系统不合理,清除该主干系统;
S3.3.3、检查前述的主干系统:如果在一个谓语向量内部出现两个顺序逆反的编号,那么该主干系统不合理,清除该主干系统;
S3.3.4、检查前述的主干系统:将两两之间存在元素代入关系的任意两个谓语向量,全都进行等量代换;如果出现向量之间的代入交叉矛盾,那么该主干系统不合理,清除该主干系统;如果在等量代换之后出现两个顺序逆反的编号,那么该主干系统不合理,清除该主干系统;
S3.3.5、检查过后,恢复到检查之前的原状,以备后续的各项操作使用。
5.根据权利要求4所述的方法,其特征在于,在执行S3.2的过程中,同步执行S3.3的检查程序,阻止不合理的主干系统的生成。
CN201910258045.1A 2019-03-22 2019-04-01 一种自然语言句法分析的方法 Active CN110020434B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201910224013 2019-03-22
CN201910224013X 2019-03-22

Publications (2)

Publication Number Publication Date
CN110020434A true CN110020434A (zh) 2019-07-16
CN110020434B CN110020434B (zh) 2021-02-12

Family

ID=67190451

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910258045.1A Active CN110020434B (zh) 2019-03-22 2019-04-01 一种自然语言句法分析的方法

Country Status (2)

Country Link
CN (1) CN110020434B (zh)
WO (1) WO2020191993A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110399936A (zh) * 2019-08-06 2019-11-01 北京先声智能科技有限公司 一种用于训练英语语法改错模型的文本数据生成方法
WO2020191993A1 (zh) * 2019-03-22 2020-10-01 北京语自成科技有限公司 一种自然语言句法分析的方法
CN112686024A (zh) * 2020-12-31 2021-04-20 竹间智能科技(上海)有限公司 句法解析方法及装置、电子设备、存储介质

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114328848B (zh) * 2022-03-16 2022-08-19 北京金山数字娱乐科技有限公司 文本处理方法及装置
CN117609518B (zh) * 2024-01-17 2024-04-26 江西科技师范大学 一种面向定中结构的分层级中文实体关系抽取方法及系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060106596A1 (en) * 2000-07-20 2006-05-18 Microsoft Corporation Ranking Parser for a Natural Language Processing System
CN103927298A (zh) * 2014-04-25 2014-07-16 秦一男 一种基于计算机的自然语言句法结构解析方法和装置
CN104156353A (zh) * 2014-08-22 2014-11-19 秦一男 一种基于计算机的自然语言句法结构解析的方法和装置
CN104360994A (zh) * 2014-12-04 2015-02-18 科大讯飞股份有限公司 自然语言理解方法及系统
CN105074694A (zh) * 2013-03-15 2015-11-18 卡马祖伊发展公司 自然语言处理的系统和方法
CN106030568A (zh) * 2014-04-29 2016-10-12 乐天株式会社 自然语言处理系统、自然语言处理方法、以及自然语言处理程序
US20170017635A1 (en) * 2015-07-17 2017-01-19 Fido Labs Inc. Natural language processing system and method

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7373291B2 (en) * 2002-02-15 2008-05-13 Mathsoft Engineering & Education, Inc. Linguistic support for a recognizer of mathematical expressions
CN102945230B (zh) * 2012-10-17 2015-03-25 刘运通 一种基于语义匹配驱动的自然语言知识获取方法
CN107301172A (zh) * 2017-06-22 2017-10-27 秦男 数据处理方法和存储介质
CN108197107A (zh) * 2017-12-29 2018-06-22 秦男 数据处理方法
CN110020434B (zh) * 2019-03-22 2021-02-12 北京语自成科技有限公司 一种自然语言句法分析的方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060106596A1 (en) * 2000-07-20 2006-05-18 Microsoft Corporation Ranking Parser for a Natural Language Processing System
CN105074694A (zh) * 2013-03-15 2015-11-18 卡马祖伊发展公司 自然语言处理的系统和方法
CN103927298A (zh) * 2014-04-25 2014-07-16 秦一男 一种基于计算机的自然语言句法结构解析方法和装置
CN106030568A (zh) * 2014-04-29 2016-10-12 乐天株式会社 自然语言处理系统、自然语言处理方法、以及自然语言处理程序
CN104156353A (zh) * 2014-08-22 2014-11-19 秦一男 一种基于计算机的自然语言句法结构解析的方法和装置
CN104360994A (zh) * 2014-12-04 2015-02-18 科大讯飞股份有限公司 自然语言理解方法及系统
US20170017635A1 (en) * 2015-07-17 2017-01-19 Fido Labs Inc. Natural language processing system and method

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020191993A1 (zh) * 2019-03-22 2020-10-01 北京语自成科技有限公司 一种自然语言句法分析的方法
CN110399936A (zh) * 2019-08-06 2019-11-01 北京先声智能科技有限公司 一种用于训练英语语法改错模型的文本数据生成方法
CN112686024A (zh) * 2020-12-31 2021-04-20 竹间智能科技(上海)有限公司 句法解析方法及装置、电子设备、存储介质
CN112686024B (zh) * 2020-12-31 2023-12-22 竹间智能科技(上海)有限公司 句法解析方法及装置、电子设备、存储介质

Also Published As

Publication number Publication date
CN110020434B (zh) 2021-02-12
WO2020191993A1 (zh) 2020-10-01

Similar Documents

Publication Publication Date Title
CN110020434A (zh) 一种自然语言句法分析的方法
US8078450B2 (en) Method and system for analyzing various languages and constructing language-independent semantic structures
US9471562B2 (en) Method and system for analyzing and translating various languages with use of semantic hierarchy
US8548795B2 (en) Method for translating documents from one language into another using a database of translations, a terminology dictionary, a translation dictionary, and a machine translation system
US9053090B2 (en) Translating texts between languages
US20150220515A1 (en) Deep model statistics method for machine translation
WO2008045815A2 (en) Method and system for natural-language sentence generation from language-independent semantic structures
Vasyl et al. Application of sentence parsing for determining keywords in Ukrainian texts
Eskander et al. Automatic extraction of morphological lexicons from morphologically annotated corpora
CN105320650B (zh) 一种基于语料匹配和语法分析的机器翻译方法及其系统
Schröder Natural language parsing with graded constraints
Shiwen et al. Rule-based machine translation
CN101923540A (zh) 语言翻译质量审核方法
CN108874791B (zh) 一种基于最小语义块的语义分析与汉英调序方法及系统
Harris et al. Generating formal hardware verification properties from natural language documentation
Haruta et al. Logical inferences with comparatives and generalized quantifiers
Fernández et al. The role of knowledge-based technology in language applications development
Farghaly et al. Inductive coding of the Arabic lexicon
Garje et al. Transmuter: an approach to rule-based English to Marathi machine translation
Ababou et al. Parsing Arabic Nominal sentences using context free grammar and fundamental rules of classical grammar
Muaidi Levenberg-Marquardt learning neural network for part-of-speech tagging of Arabic sentences
Naruedomkul et al. Generate and repair machine translation
EP0409425A2 (en) Method and apparatus for translating language
Chai et al. An interactive English–Chinese translation system based on GLA algorithm
JP3919732B2 (ja) 機械翻訳装置及び機械翻訳プログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant