CN112699664A - 一种中文句法分析方法和系统 - Google Patents
一种中文句法分析方法和系统 Download PDFInfo
- Publication number
- CN112699664A CN112699664A CN202110023058.8A CN202110023058A CN112699664A CN 112699664 A CN112699664 A CN 112699664A CN 202110023058 A CN202110023058 A CN 202110023058A CN 112699664 A CN112699664 A CN 112699664A
- Authority
- CN
- China
- Prior art keywords
- sentence
- verb
- phrase
- phrases
- core
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 54
- 238000000034 method Methods 0.000 claims abstract description 37
- 230000014509 gene expression Effects 0.000 claims abstract description 13
- 238000002372 labelling Methods 0.000 claims description 44
- 150000001875 compounds Chemical class 0.000 claims description 10
- 230000011218 segmentation Effects 0.000 claims description 9
- 230000008569 process Effects 0.000 abstract description 8
- 238000013473 artificial intelligence Methods 0.000 abstract description 3
- 238000004364 calculation method Methods 0.000 abstract description 2
- 238000013461 design Methods 0.000 abstract description 2
- 235000010469 Glycine max Nutrition 0.000 description 6
- 244000068988 Glycine max Species 0.000 description 6
- 238000010801 machine learning Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 238000000746 purification Methods 0.000 description 5
- 238000002485 combustion reaction Methods 0.000 description 4
- 230000009977 dual effect Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 230000035784 germination Effects 0.000 description 4
- 238000007781 pre-processing Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 230000036541 health Effects 0.000 description 3
- 238000004519 manufacturing process Methods 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 3
- 241000607479 Yersinia pestis Species 0.000 description 2
- HVYWMOMLDIMFJA-DPAQBDIFSA-N cholesterol Chemical compound C1C=C2C[C@@H](O)CC[C@]2(C)[C@@H]2[C@@H]1[C@@H]1CC[C@H]([C@H](C)CCCC(C)C)[C@@]1(C)CC2 HVYWMOMLDIMFJA-DPAQBDIFSA-N 0.000 description 2
- 239000011248 coating agent Substances 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- GOMNOOKGLZYEJT-UHFFFAOYSA-N isoflavone Chemical compound C=1OC2=CC=CC=C2C(=O)C=1C1=CC=CC=C1 GOMNOOKGLZYEJT-UHFFFAOYSA-N 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000002791 soaking Methods 0.000 description 2
- 239000002689 soil Substances 0.000 description 2
- 206010003210 Arteriosclerosis Diseases 0.000 description 1
- 241000238631 Hexapoda Species 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 239000000853 adhesive Substances 0.000 description 1
- 230000001070 adhesive effect Effects 0.000 description 1
- 208000011775 arteriosclerosis disease Diseases 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000011230 binding agent Substances 0.000 description 1
- 239000008280 blood Substances 0.000 description 1
- 210000004369 blood Anatomy 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 235000012000 cholesterol Nutrition 0.000 description 1
- 238000000576 coating method Methods 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 239000000446 fuel Substances 0.000 description 1
- CJWQYWQDLBZGPD-UHFFFAOYSA-N isoflavone Natural products C1=C(OC)C(OC)=CC(OC)=C1C1=COC2=C(C=CC(C)(C)O3)C3=C(OC)C=C2C1=O CJWQYWQDLBZGPD-UHFFFAOYSA-N 0.000 description 1
- 235000008696 isoflavones Nutrition 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 239000000661 sodium alginate Substances 0.000 description 1
- 238000009331 sowing Methods 0.000 description 1
- 238000005507 spraying Methods 0.000 description 1
- 238000009423 ventilation Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/253—Grammatical analysis; Style critique
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Machine Translation (AREA)
Abstract
本发明提出一种中文句法分析方法和系统,包括制定规则(词语规则、短语规则、句子规则和句法分析规则)、分词、标注词性、识别词和词组、识别惯用型短语、识别惯用型句式、识别句子核心动词、句法分析并按中文语法标注句子组分的语法成分或关系,以及按需求输出分析结果。本发明从中文语言特征入手,深入挖掘了中文文字与句子结构的特点,充分利用中文语法和表达习惯,通过规则设计,实现中文句子语义的智能解析。句法分析层次和过程简洁、快速和直观,特别对于解析结构较特殊的句子和大量文档提高了准确度和效率。本发明可广泛应用于人工智能领域,像人机问答、文本聚类、文本相似度计算、机器翻译、智能检索、智慧城市和机器人等。
Description
技术领域
本发明涉及自然语言分析技术领域,尤其涉及一种中文句法分析方法和系统。
背景技术
自然语言处理是人工智能和语言学领域的分支学科,是利用计算机工具对人类特有的书面形式和口头形式的自然语言信息进行各种处理和加工的技术。自然语言处理大致分为两个层面,一个是浅层分析,如分词、词性标注。这种技术只需对句子的局部范围进行分析处理。另一个层面是对语言进行深层的处理,需要对句子的句法、语义、语用进行全面分析。
目前,主流的句法分析方法主要通过词语间的依存关系进行句法分析,分析层次和解析过程复杂繁琐,句子组分之间的关系繁冗,解析准确度和速度仍然有待提高。句法分析是自然语言处理的关键技术环节,应用非常广泛,例如,结合句法分析技术,在自动问答装置中,通过计算提问的句子和知识库中对应的句子之间相似度在知识库中查找到对应答案。在信息过滤技术中,通过文本相似度计算自动过滤用户可能并不想看到的信息。但由于现有技术的缺陷,正确率、速度和召回率较低。
发明内容
针对以上问题,本发明提出一种中文句法分析方法和系统,从语言特征入手,充分挖掘了中文文字与结构的特点,利用现有中文语法和习惯,通过规则设计,实现中文的句子级语义的智能解析,从而让机器“看懂”语言。
根据本发明的一个方面,提出一种中文句法分析方法,包括以下步骤:
步骤S1:对输入的文本进行分句、分词,并标注词性;
步骤S2:识别句子中的词组;
步骤S3:识别句子中的短语;
步骤S4:识别句子的构架;
步骤S5:对句子进行句法分析,并按中文语法标注和输出句子组分的语法关系。
进一步的,在所述步骤S2中,所述词组包括惯用型词组和一般词组,所述惯用型词组指词组形式的惯用表达以及包含特定字或名词的词组形式的惯用表达,一般词组指组合式名词。
进一步的,在所述步骤S3中,所述短语包括惯用型短语和一般短语,所述惯用型短语指以短语节点库中的字、词或其搭配词作为节点的短语形式的惯用表达,由节点和组分构成,所述组分包括名词、词组、动词、形容词、副词、短语或子句。
进一步的,所述步骤3包括:
S31、对每个分句从左到右与短语节点库进行对比,识别单节点或双节点;
S32、将句子从左到右距离最近的双节点和所述双节点之间的内容标注为双节点惯用型短语;
S33、识别一般短语,所述一般短语指动词+名词组成的短语和 “的”字形容词短语,其中,“的”字前为名词、代词、形容词或“名词+动词”;
S34、如果识别出前单节点,则将所述前单节点到紧随其后的不在“的”字形容词短语或双节点惯用型短语中的“动词+名词”,或动词,或词组或名词的部分标注为单节点惯用型短语,如果识别出后单节点,则将所述后单节点到紧靠其前的“动词+名词”,或动词,或词组或名词的部分标注为单节点惯用型短语。
进一步的,所述步骤S4包含:
S41、对比惯用型句式库,判断句子是否为复合句;
S42、对比惯用型句式库,识别并标注惯用型句式;
S43、识别并标注句子核心动词;
S44、识别“的”字所属结构;当分句中存在两个以上“的”字,并且所述“的”字的前后均为名词、词组或代词时,按中文语法将“的”字解析为名词、代词之间的所属关系,以最后的“的”字及其前的内容为其后内容的定语;
S45、对于句子中的代词、短语、形容词、副词、介词、连词、助词、数量词、关系词以及标点符号按中文语法解析并标注语法成分或关系;
S46、确定并标注句子的主语、谓语和宾语,对于一般句式,核心动词为句子的谓语,除去虚词(副词、介词、连词、助词、叹词和拟声词)、关系词、作定语或状语的短语以及子句,将核心动词左侧的组分标注为句子的主语,将核心动词右侧的组分标注为句子的宾语;惯用型句式的主语、谓语、宾语的判断根据人工设定。
进一步的,所述步骤S43包括:
1)找到一般句式中不能作为核心动词的动词,判断方法为:主句句首动词不作核心动词,句首动词包括其前带有短语、副词、形容词或数量词的动词;词组中的动词不作核心动词;形容词短语中的动词不作核心动词;节点为非动词的惯用型短语中的动词不作核心动词;“的”字前/后的动词不作核心动词;
2)除所述不作核心动词的动词,将主句或分句自左到右的第一个动词标注为该句的核心动词。
根据本发明的另一方面,提出一种中文句法分析系统,包括词语识别模块、短语识别模块、句子识别模块、句法分析模块和数据库,其中,
数据库包括词语库、惯用型短语节点库和惯用型句式库;
词语识别模块用于识别词语,包括名词和词组;
短语识别模块用于识别短语,包括惯用型短语和一般短语;
句子识别模块用于识别句子主体构架,包括一般句式和惯用型句式;
句法分析模块用于对句子进行句法分析、标注句子组分的语法成分及输出句法分析结果,包括应用的语法规则,所述句子组分包括词和词组、短语、核心动词、形容词、副词、数量词等。
进一步的,所述短语识别模块中,将分句与节点库进行对比,查找单节点或双节点是否存在;将句子从左到右相距最近的双节点及其之间的内容标注为双节点惯用型短语;一个双节点惯用型短语中可包含一个或几个其他双节点惯用型短语,称作嵌套短语并标注;识别一般短语,所述一般短语指动词+名词组成的短语和“的”字形容词短语,其中,“的”字前为名词、代词、形容词或“动词+名词”;如果存在前单节点,则将该节点到紧随其后的不在“的”字形容词短语和惯用型短语中的“动词+名词”,或动词,或词组或名词的部分标注为单节点惯用型短语,如果存在后单节点,则将该节点到紧靠其前的 “动词+名词”,或动词,或词组或名词的部分标注为单节点惯用型短语。
进一步的,所述句子识别模块中,识别和标注的步骤包括:
S41、对比惯用型句式库,判断句子是否为复合句;
S42、根据惯用型句式库识别并标注主句或分句是一般句式还是惯用型句式。判断时,如果句子不是惯用型句式,则为一般句式;
S43、识别并标注句子核心动词;
S44、识别“的”字所属结构;将所属关系名词集中作为一个名词,并区别其他带“的”的作定语的短语。当短语中存在至少两个“的”字,并且至少两个“的”字的前后均为名词、词组或代词时,按中文语法将“的”字解析为名词、词组或代词之间的所属关系,并将最后一个“的”及其前的内容为其后内容的定语并标注,这样整合了具有所述关系的名词、词组或代词,并可区别于其他带“的”的定语短语;
S45、对于句子中代词、短语、形容词、副词、介词、连词、助词、数量词、关系词以及标点符号等按中文语法进行解析和标注;
S46、确定并标注句子的主语、谓语和宾语,具体为:对于一般句式,核心动词为句子的谓语,除去虚词(副词、介词、连词、助词、叹词和拟声词)、关系词、作定语或状语的短语以及子句,将核心动词左侧的组分标注为句子的主语,将核心动词右侧的组分标注为句子的宾语;惯用型句式的主语、谓语、宾语的判断根据人工设定。
进一步的,所述步骤S43中识别并标注句子核心动词的步骤包括:
识别惯用句式及其核心动词;
识别一般句子的核心动词,步骤为:
1)找到句子中不能作为核心动词的动词,判断方法为:主句句首动词不作核心动词,句首动词包括其前带有短语、副词、介词、形容词或数量词的动词;词组中的动词不作核心动词;形容词短语中的动词不作核心动词;节点为非动词的惯用型短语中的动词不作核心动词;“的”字前/后的动词不作核心动词;
2)除所述不能作为核心动词的动词,主句或分句自左到右的第一个动词作为句子的核心动词。
本发明的有益效果为:句法分析层次和过程比现有技术更加简洁、直观和快速,并提高了准确性,特别对于解析结构特殊的句子和大量文档的情况。本发明可以广泛应用于人工智能领域的各种场景。
附图说明
图1为根据本发明一个实施例的中文句法分析方法的流程示意图;
图2为根据现有技术对句子解析的效果示意图;
图3为根据现有技术对句子解析的效果示意图;
图4为根据现有技术对句子解析的效果示意图;
图5为根据本发明一个实施例的中文句法分析系统的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,以下所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
根据本发明的一方面,提出一种中文句法分析方法,如图1所示,包括如下步骤:
步骤S1:对输入的文本进行分句、分词,并标注词性。
步骤S2:识别并标注句子中的词和词组;
步骤S3:识别并标注句子中的惯用型短语;
步骤S4:识别并标注句子的架构;
步骤S5:对句子进行句法分析,并按中文语法标注和输出句子组分的语法关系。
在步骤S1中,可以使用现有的方法和工具分句、分词、标注词性,如使用哈工大LTP。句子从开头到句号结尾为一整句,以逗号分隔的为分句,第一个分句为主句;只有一个分句的句子为单句。
在步骤S2中,对每个分句中的分词与词语库中的词和词组进行匹配,并将词组标注为名词。词组包括惯用型词组和一般词组。惯用型词组指词组形式的惯用表达以及包含特定字或名词的词组形式的惯用表达;一般词组指常见的组合式名词;惯用型词组和一般词组可以通过机器学习方式,或者机器学习和人工相结合的方式预加工获取并存入词语库;机器学习加工方式指利用计算机基于相关语料,将反复在一起的若干字提取出来,组成词组,或将相同的且反复出现于不同词组中的字或词提取出来,作为惯用型词组中的特定字或词;机器学习与人工相结合的方式的预加工指人工设定词组中特定字或名词,再利用计算机基于相关语料将包含所述特定字或名词的反复出现并连续的若干字提取出来,组成词组;惯用型词组还可在句子解析过程中,根据预先设定的“特定字或名词”,加上其前第一个名词、动词或词组动态获得,并存入词语库,由此获得一些新的惯用型词组。
<综上所述>为词组形式的惯用表达;
<换气装置>为包含特定名词“装置”的惯用表达。
例如:内燃发动机。
在步骤S3中,对每个分句进行短语识别,以最大化地将分句整合并标注为几大部分,有利于后续句法的分析判断。
短语分惯用型短语和一般短语。惯用型短语指由特定字或词(或其搭配)及组分构成的短语形式的惯用表达,所述特定字或词(或其搭配)称作短语的“节点”,所述“组分”指名词、词组、动词、形容词、副词、短语或子句,用“——”表示。惯用型短语分单节点短语和双节点短语,其中,单节点短语带有一个节点(左节点或右节点),双节点短语带有两个节点(左节点和右节点);所述节点可人工设定并预加工;判断双节点惯用型短语方法是,从左到右句中距离最近的两个节点以及节点间的内容构成双节点惯用型短语;双节点惯用型短语的节点可人工设定并预加工,还可结合机器学习方法进行预加工获取并存入惯用型短语节点库;结合机器学习预加工方法指利用计算机基于相关语料将反复出现的间隔若干距离(字或词)的一对字或词提取出来作为双节点对,经人工审核及加工后存入惯用型短语节点库,比如下面举例中的“由于”、“的原因”即为双节点;一个双节点惯用型短语中可包含一个或几个其他双节点惯用型短语,称作嵌套短语,嵌套的短语可共用一个节点,嵌套短语以距离最长的双节点及其间的内容作为双节点惯用型短语,具体参见下面的例子。一般短语指非惯用型短语,具体指“动词+名词”组成的短语,和“的”字形容词短语,其中,“的”字前为名词、代词、形容词或“动词+名词”;如果识别出前单节点,则该节点到紧随其后的不在“的”字形容词短语和双节点惯用型短语中的“动词+名词”,或动词,或词组或名词的部分标注为单节点惯用型短语;如果识别出后单节点,则该节点到紧靠其前的“动词+名词”,或动词,或词组或名词的部分标注为单节点惯用型短语。
下面具体举例说明各种短语形式。
(1) 双节点惯用型短语
<由于——的原因>,
大豆种子<由于种植环境的原因>造成萌发率不高;
大豆种子<由于受到虫害的原因>造成萌发率不高;
大豆种子<由于土壤中出现了害虫的原因>造成萌发率不高。
(2)嵌套式短语
<在——之后>,<在——表面>
《<在浸泡结束之后>的种子表面》
其中,<在——之后>包含在《在——表面》中,并且共用一个节点“在”。
(3)一般短语
<动词+名词+的>,
这是一个<远离曲柄轴线的>连杆;
其中,“远离曲柄轴线的”为“的”字形容词短语。
(4)单节点惯用型短语
目前<种植过程中>的大豆种子由于害虫蚕食及种植环境原因造成萌发率不高;
其中,“中”是后单节点, “种植过程”是词组。
<通过设置排气净化装置>,将排气所含的CO净化。
其中,“通过”为前单节点,“排气净化装置”为惯用型词组(词组均为名词),“设置排气净化装置”为“动词+名词”短语,“通过设置排气净化装置”为前单节点惯用型短语。
在本步骤中,(1)将每个分句与节点库进行对比,查找单节点或双节点是否存在。句子从左到右相距最近的双节点及其之间的内容构成双节点惯用型短语;一个双节点惯用型短语中可包含一个或几个其他双节点惯用型短语,称作嵌套短语,嵌套的短语可共用一个节点,嵌套短语以距离最长的双节点及其间的内容作为双节点惯用型短语;(2)识别一般短语,即将分句中除去惯用型双节点短语外的部分,从左到右查找动词,如果动词后跟随名词(此时的名词后不带“的”,名词可能是词,也可能是词组),将其标注成“动词+名词”短语,如果名词、代词、形容词或“动词+名词”后跟随 “的”字,则将其标注为形容词短语;(3)如果存在前单节点,则将该节点到紧随其后的不在“的”字形容词短语和双节点惯用型短语中的“动词+名词”,或动词,或词组或名词的部分标注为单节点惯用型短语,如果存在后单节点,则将该节点到紧靠其前的 “动词+名词”,或动词,或词组或名词的部分标注为单节点惯用型短语,具体来说,对于前单节点,对紧随该节点后且不在“的”字形容词短语和双节点惯用型短语中的组分,依次查看其是否为“动词+名词”,或动词,或词组或名词,则该节点到找到的“动词+名词”,或动词,或词组或名词的部分构成单节点惯用型短语;对于后单节点,对紧靠该节点前的组分,依次查看其是否为 “动词+名词”,或动词,或词组或名词,则该节点到找到的“动词+名词”,或动词,或词组或名词的部分构成单节点惯用型短语。
在步骤S4中,主句和分句都只可能有一个核心动词,主句指若干分句组成的整句中的第一个分句,单句视为主句。具体包括如下步骤:
S41、对比惯用型句式库,判断句子是否为复合句。复合词,比如“如果——,那么——”。如果具有复合词,那么复合词后的内容作为单句待分析。
例如:如果电动机动作以使惰轮轴旋转,则附加旋转将使惰轮齿轮加速。
S42、根据惯用型句式库识别并标注主句或分句是一般句式还是惯用型句式。一般句式指句子成分按一般次序(例如,主语-核心动词-宾语)排列的句式,惯用型句式指惯用的组分排列次序较特殊(例如,特殊疑问句)或带有局部特征(特定字、词或组分)的句式;惯用型句式由特定字、词或组分和其他组分构成,所述“特定组分”指特定词类或短语等;所述“其他组分”指一般名词、动词或短语等,用“——”表示;惯用型句式由人工设定和预加工,预加工的惯用型句式标注有句式的局部语法特征,如核心动词等。
一般句式的例子:本发明涉及农作物种植技术领域。该句具有主谓宾结构。判断时,如果句子不是惯用型句式,则为一般句式。句式库中的惯用型句式举例如下:
阿特金森循环运行的内燃机是众所周知的。
减少动脉硬化的发生有助于改善身体健康;
【名词(词组)+形容词】,其中,“名词(词组)、形容词”为特定组分,“形容词”为核心谓语(系表结构);
大豆生长速度快,植株健壮,抗逆性强;
惯用型句式由人工设定和预加工并存入惯用型句式库。
S43、识别并标注句子核心动词。首先识别惯用型句式及其核心动词,惯用型句式的核心动词或核心谓语在预加工时一并设定;例如,【——有助于——】,其中“有助于”为该惯用型句式的核心谓语;然后识别一般句子的核心动词,方法如下:1)找到句子中不能作为核心动词的动词,判断方法为:主句句首动词不作核心动词,句首动词包括其前带有短语、副词、形容词或数量词等的动词;词组中的动词不作核心动词;形容词短语中的动词不作核心动词;节点为非动词的惯用型短语中的动词不作核心动词;“的”前/后的动词不作核心动词;2)除所述“不作核心动词”的动词,主句或分句自左到右的第一个动词作为该句的核心动词;一个句子(主句或分句)只可能有一个核心动词,其他动词为短语动词或子句的动词;
例如:
a.复合句式
【如果——,则——】,其中,“——”代表并列单句;
如果电动机动作以使惰轮轴旋转,则附加旋转将使惰轮齿轮加速;
其中,“动作”和“加速”分别为前后单句的核心动词;
b.惯用型句式【名词+形容词】,其中,“形容词”为核心谓语(系表结构);
大豆生长速度快,植株健壮,抗逆性强;
c.【——有助于——】,其中,“有助于”为核心谓语(系表结构)
减少动脉硬化的发生有助于改善身体健康;
设置在气缸盖中的进气门打开以允许燃料进入气缸孔。
其中,“设置”是句首动词,不作核心动词,除去“设置”从左至右第一动词“打开”为核心动词。
每天服用30~60mg的大豆异黄酮能明显地降低血液中胆固醇的含量;
其中,“服用”前带有副词“每天”,仍然视作句首动词,不作核心动词,之后的第一动词“降低”为核心动词。
<播种之后>覆盖地膜可以提高土壤温度;
其中,“覆盖”前带有惯用型短语<——之后>,仍然视作“句首”动词;
其中,“生产”是词组“生产成本”中的动词,不作核心动词;
其中,“浸泡”是惯用型短语<——之后>中的动词,不作核心动词;
其中,“种植”是“的”前动词,不作核心动词;
其中,“运动”是“的”后动词,不作核心动词;
S44、识别“的”字所属结构;将所属关系名词集中作为一个名词,并区别其他带“的”的作定语的短语。当短语中存在至少两个“的”字,并且“的”字的前后均为名词、词组或代词时,按中文语法将“的”字解析为名词、词组或代词之间的所属关系,即标注该结构最后一个“的”及其前的内容为其后内容的定语,这样整合了具有所述关系的名词、词组或代词,并可区别于其他带“的”的定语短语。
例如:外皮的厚度是<决定排气净化装置的性能的>重要尺寸。
其中,“装置的性能的”是修饰最后“的”后面的名词“重要尺寸”的定语。
S45、对于句子中的代词、短语、形容词、副词、介词、连词、助词、数量词、关系词以及标点符号按中文语法进行解析和标注;例如,形容词解析为其后名词的定语;副词解析为其后动词的状语,惯用型短语<在——上面>解析为状语等。
例如:种衣剂紧紧粘合<在种子表面>;
粘合——核心动词;种衣剂——名词,主语;仅仅——副词,修饰“粘合”的状语;<在——表面>——惯用型短语,动词“粘合”的状语。
S46、确定并标注句子的主语、谓语和宾语,对于一般句式,核心动词为句子的谓语,除去虚词(副词、介词、连词、助词、叹词和拟声词)、关系词、作定语或状语的短语以及子句,将核心动词左侧的组分标注为句子的主语,将核心动词右侧的组分标注为句子的宾语。
例如:活塞<在上止点和进气冲程的末端之间>行进的距离是进气冲程长度;
根据核心动词识别规则,“行进”位于“的”前不作核心动词,惯用型短语<在——之间>中的动词不作核心动词,从左侧开始第一个动词“是”为该句的核心动词;并且,核心动词左侧的名词“活塞”和 “距离”为该句主语,核心动词右侧的“进气冲程长度”为该句的宾语;“进气冲程”是惯用型词组,长度是通过词性标注的名词,均标注为宾语。
子句或单句的解析同理。
例如:另外的益处是<本装置能够改变内燃机的压缩比>;
其中,核心动词“是”后面,名词“本装置”和动词“改变”构成了句子基本要素,因此判断为子句,“改变”为子句的核心动词。
下面进一步举例进行说明:
涉及——核心动词,
<设于——的>——“的”字形容词短语,为“通路”的定语,
本发明——惯用型词组,为主语,
通路——名词,为宾语,
一种——数量词做定语。
调相装置<由发动机缸体>支撑<在曲轴和控制轴之间>
<由——>——单节点惯用型短语,为方式状语,
<在——之间>——双节点惯用型短语,为位置状语,
“支撑”——核心动词。
调相装置——惯用型词组,为主语。
【——有助于——】为惯用句式,其中设定,“有助于”为核心谓语,“——”为名词或“动词+名词”短语;
有助于——核心谓语;
减少动脉硬化的发生——“动词+名词”短语,作主语;
改善身体健康——“动词+名词”短语,作宾语。
根据步骤S2-4的结果,可以按需求输出句法分析结果;例如:按原句顺序输出整句分析结果;或按原句顺序输出主语部分、核心动词和宾语部分等。
下面对本发明与现有句法分析技术的分析层次和效果进行比较。
(SBV-主谓,VOB-动宾,ADV-状中结构,RAD-右附加关系,ATT-定中关系)
(1)解析句子“知乎的内容质量很好”。
利用现有技术,解析层次和过程繁冗复杂,如图2所示。
利用本发明方法,根据惯用型句式【名词+形容词】,其中,“形容词”为核心谓语(系表结构),很容易解析出:
内容质量——主语,
知乎的——形容词短语,作定语,
很好——核心谓语(系表结构)。
(2)解析句子“如何增加提现额度”。
利用现有技术解析,结果错误。如图3所示,其中,“提现”与“额度”的关系应该是“ATT”,“增加”与“额度”的关系应该是“VOB”。
利用本发明方法:根据惯用型句式【如何+动词——】,其中,“动词”为核心动词,“——”为名词或“动词+名词”短语;很容易解析出:
如何——疑问词;
增加——核心动词;
提现额度—— “动词+名词”短语,作宾语。
(3)解析句子“检查汽车的制动器”。
利用现有技术解析,结果错误;如图4所示,其中,“汽车”应该修饰“制动器”,“检查”与“汽车”的关系应该是VOB。
利用本发明方法:按祈使句(特定语境下,如操作步骤等)或分句进行解析,很容易解析出:
检查——核心动词;
汽车的——“的”字形容词短语(所属关系),作定语;
制动器——宾语。
根据本发明另一方面,提出一种中文句法分析系统,如图5所示,包括:词语识别模块、短语识别模块、句子识别模块、句法分析模块和数据库。
数据库包括词语库(例如,词语、词组库)、短语库(例如,惯用型短语节点库)和句子库(例如,惯用型句式库)。
词语识别模块用于识别并标注词语和词组。
短语识别模块用于识别并标注短语。
句子识别模块用于识别并标注惯用型句式和句子的核心动词。
句法分析模块用于对句子进行句法分析、标注句子组分的语法成分及输出句法分析结果。
在词语识别模块中,对每个分句中的分词与词语库中的词和词组进行匹配,并进行标注。词组包括惯用型词组和一般词组。词组的获取方法如上文所述。
在短语识别模块中,短语分惯用型短语和一般短语,将每个分句与节点库进行对比,查找单节点或双节点是否存在。句子从左到右相距最近的双节点及其之间的内容构成惯用型双节点短语;一个双节点惯用型短语中可包含一个或几个其他双节点惯用型短语,称作嵌套短语,嵌套的短语可共用一个节点,嵌套短语以距离最长的双节点及其间的内容作为双节点惯用型短语;识别一般短语,所述一般短语指动词+名词组成的短语,或 “的”字形容词短语,其中,“的”字前为名词、代词、形容词或“动词+名词”;如果存在前单节点,则将该节点到紧随其后的不在“的”字形容词短语和双节点惯用短语中的“动词+名词”,或动词,或词组或名词的部分标注为单节点惯用型短语,如果存在后单节点,则将该节点到紧靠其前的“动词+名词”,或动词,或词组或名词的部分标注为单节点惯用型短语。
在句子识别模块中,采用如下方法进行识别和标注。
S41、对比惯用型句式库,判断句子是否为复合句。
S42、根据惯用型句式库识别并标注主句或分句是一般句式还是惯用型句式。判断时,如果句子不是惯用型句式,则为一般句式。
S43、识别并标注句子核心动词。首先识别惯用型句式及其核心动词,惯用型句式的核心动词(核心谓语)在预加工时一并设定;然后识别一般句子的核心动词,方法如下:1)找到句子中不能作为核心动词的动词,判断方法为:主句句首动词不作核心动词,句首动词包括其前带有短语、副词、介词、形容词或数量词等的动词;词组中的动词不作核心动词;形容词短语中的动词不作核心动词;节点为非动词的惯用型短语中的动词不作核心动词;“的”前/后的动词不作核心动词;2)除所述“不作核心动词”的动词,主句或分句自左到右的第一个动词作为该句的核心动词;一个句子(主句或分句)只可能有一个核心动词,其他动词为短语动词或子句的动词。
S44、识别“的”字所属结构;将所属关系名词集中作为一个名词,并区别其他带“的”的作定语的短语。当短语中存在两个或多个“的”字,并且两个或多个“的”字的前后均为名词、词组代词时,按中文语法将 “的”字解析为名词、词组或代词之间的所属关系,即标注该结构最后一个“的”及其前的内容为其后内容的定语,这样整合了具有所属关系的名词、词组或代词,并可区别于其他带“的”的定语短语。
S45、对于句子中的代词、短语、形容词、副词、介词、连词、助词、数量词、关系词以及标点符号等按中文语法进行解析和标注。
S46、确定并标注句子的主语、谓语和宾语,具体为:对于一般句式,核心动词为句子的谓语,除去虚词(副词、介词、连词、助词、叹词和拟声词)、关系词、作定语或状语的短语以及子句,将核心动词左侧的组分标注为句子的主语,将核心动词右侧的组分标注为句子的宾语;惯用型句式的主语、谓语、宾语的判断根据人工设定。
解析过程中,当识别有预加工词语库中没有的词语或词组,特别是包含特定字或词的词组,例如,名词+器/装置,系统将这些“新词”存入词语库以备后用。
在一个实施例中,可以省去分词、词性标注步骤(逗号、句号自然分句),直接用预加工的词语/词组、 惯用型短语节点库、惯用型句式库与待解析文档进行比对,识别出词和词组、惯用型短语和惯用型句式,再利用一个动词表(现有技术工具)和本发明的核心动词的识别规则,对句子进行快速解析,特别适于需要对大批量文档进行解析的情况。
尽管上面对本发明说明性的具体实施方式进行了描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
Claims (10)
1.一种中文句法分析方法,其特征在于,包括以下步骤:
步骤S1:对输入的文本进行分句、分词,并标注词性;
步骤S2:识别句子中的词组;
步骤S3:识别句子中的短语;
步骤S4:识别句子的构架;
步骤S5:对句子进行句法分析,并按中文语法标注和输出句子组分的语法关系。
2.根据权利要求1所述的方法,其特征在于,在所述步骤S2中,所述词组包括惯用型词组和一般词组,所述惯用型词组指词组形式的惯用表达以及包含特定字或名词的词组形式的惯用表达,一般词组指组合式名词。
3.根据权利要求1所述的方法,其特征在于,在所述步骤S3中,所述短语包括惯用型短语和一般短语,所述惯用型短语指以短语节点库中的字、词或其搭配词作为节点的短语形式的惯用表达,由节点和组分构成,所述组分包括名词、词组、动词、形容词、副词、短语或子句。
4.根据权利要求3所述的方法,其特征在于,所述步骤3包括:
S31、对每个分句从左到右与短语节点库进行对比,识别单节点或双节点;
S32、将句子从左到右距离最近的双节点和所述双节点之间的内容标注为双节点惯用型短语;
S33、识别一般短语,所述一般短语指动词+名词组成的短语和 “的”字形容词短语,其中,“的”字前为名词、代词、形容词或“名词+动词”;
S34、如果识别出前单节点,则将所述前单节点到紧随其后的不在形容词短语或双节点惯用型短语中的“动词+名词”,或动词,或词组或名词的部分标注为单节点惯用型短语,如果识别出后单节点,则将所述后单节点到紧靠其前的“动词+名词”,或动词,或词组或名词的部分标注为单节点惯用型短语。
5.根据权利要求1所述的方法,其特征在于,所述步骤S4包含:
S41、对比惯用型句式库,判断句子是否为复合句;
S42、对比惯用型句式库,识别并标注惯用型句式;
S43、识别并标注句子核心动词;
S44、识别“的”字所属结构;当分句中存在两个以上“的”字,并且所述“的”字的前后均为名词、词组或代词时,按中文语法将“的”字解析为名词、词组或代词间的所属关系,以最后的“的”字及其前的内容为其后内容的定语;
S45、对于句子中的代词、短语、形容词、副词、介词、连词、助词、数量词、关系词以及标点符号按中文语法解析并标注语法成分或关系;
S46、确定并标注句子的主语、谓语和宾语,对于一般句式,核心动词为句子的谓语,除去虚词(副词、介词、连词、助词、叹词和拟声词)、关系词、作定语或状语的短语以及子句,将核心动词左侧的组分标注为句子的主语,将核心动词右侧的组分标注为句子的宾语;惯用型句式的主语、谓语、宾语的判断根据人工设定。
6.根据权利要求5所述的方法,其特征在于,所述步骤S43包括:
1)找到一般句式中不能作为核心动词的动词,判断方法为:主句句首动词不作核心动词,句首动词包括其前带有短语、副词、介词、形容词或数量词的动词;词组中的动词不作核心动词;形容词短语中的动词不作核心动词;节点为非动词的惯用型短语中的动词不作核心动词;“的”字前/后的动词不作核心动词;
2)除所述不作核心动词的动词,将主句或分句自左到右的第一个动词标注为该句的核心动词。
7.一种中文句法分析系统,其特征在于,所述系统包括词语识别模块、短语识别模块、句子识别模块、句法分析模块和数据库,其中,
数据库包括词语库、惯用型短语节点库和惯用型句式库;
词语识别模块用于识别词语,包括名词和词组;
短语识别模块用于识别短语,包括惯用型短语和一般短语;
句子识别模块用于识别句子主体构架,包括一般句式和惯用型句式;
句法分析模块用于对句子进行句法分析、标注句子组分的语法成分及输出句法分析结果,包括应用的语法规则,所述句子组分包括词和词组、短语、核心动词、形容词、副词、连词、数量词。
8.根据权利要求7所述的系统,其特征在于,所述短语识别模块中,将分句与节点库进行对比,查找单节点或双节点是否存在;将句子从左到右相距最近的双节点及其之间的内容标注为双节点惯用型短语;一个双节点惯用型短语中可包含一个或几个其他双节点惯用型短语,称作嵌套短语并标注;识别一般短语,所述一般短语指动词+名词组成的短语和“的”字形容词短语,其中,“的”字前为名词、代词、形容词或“动词+名词”;如果存在前单节点,则将该节点到紧随其后的不在形容词短语和惯用型短语中的“动词+名词”,或动词,或词组或名词的部分标注为单节点惯用型短语,如果存在后单节点,则将该节点到紧靠其前的 “动词+名词”,或动词,或词组或名词的部分标注为单节点惯用型短语。
9.根据权利要求7所述的系统,其特征在于,所述句子识别模块中,识别和标注的步骤包括:
S41、对比惯用型句式库,判断句子是否为复合句;
S42、根据惯用型句式库识别并标注主句或分句是一般句式还是惯用型句式;
判断时,如果句子不是惯用型句式,则为一般句式;
S43、识别并标注句子核心动词;
S44、识别“的”字所属结构;将所属关系名词集中作为一个名词,并区别其他带“的”的作定语的短语;
当短语中存在至少两个“的”字,并且至少两个“的”字的前后均为名词、词组或代词时,按中文语法将“的”字解析为名词、词组或代词之间的所属关系,并将最后一个“的”及其前的内容为其后内容的定语并标注,这样整合了具有所述关系的名词、词组或代词,并可区别于其他带“的”的定语短语;
S45、对于句子中的代词、短语、形容词、副词、介词、连词、助词、数量词、关系词以及标点符号按中文语法进行解析和标注;
S46、确定并标注句子的主语、谓语和宾语,具体为:对于一般句式,核心动词为句子的谓语,除去虚词(副词、介词、连词、助词、叹词和拟声词)、关系词、作定语或状语的短语以及子句,将核心动词左侧的组分标注为句子的主语,将核心动词右侧的组分标注为句子的宾语;惯用型句式的主语、谓语、宾语的判断根据人工设定。
10.根据权利要求9所述的系统,其特征在于,所述步骤S43中识别并标注句子核心动词的步骤包括:
识别惯用句式及其核心动词;
识别一般句子的核心动词,步骤为:
1)找到句子中不能作为核心动词的动词,判断方法为:主句句首动词不作核心动词,句首动词包括其前带有短语、副词、介词、形容词或数量词的动词;词组中的动词不作核心动词;形容词短语中的动词不作核心动词;节点为非动词的惯用型短语中的动词不作核心动词;“的”字前/后的动词不作核心动词;
2)除所述不能作为核心动词的动词,主句或分句自左到右的第一个动词作为句子的核心动词。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110023058.8A CN112699664A (zh) | 2021-01-08 | 2021-01-08 | 一种中文句法分析方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110023058.8A CN112699664A (zh) | 2021-01-08 | 2021-01-08 | 一种中文句法分析方法和系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112699664A true CN112699664A (zh) | 2021-04-23 |
Family
ID=75513434
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110023058.8A Pending CN112699664A (zh) | 2021-01-08 | 2021-01-08 | 一种中文句法分析方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112699664A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114547281A (zh) * | 2022-02-23 | 2022-05-27 | 北京林业大学 | 一种基于词汇和语法的英文文本筛选方法及系统 |
WO2024055919A1 (zh) * | 2021-12-18 | 2024-03-21 | 北京捷茂迪华能源技术有限公司 | 一种图解西文句子结构的方法及其使用方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101782897A (zh) * | 2010-03-17 | 2010-07-21 | 上海大学 | 基于事件的中文语料标注方法 |
CN103020148A (zh) * | 2012-11-23 | 2013-04-03 | 复旦大学 | 一种将中文短语结构树库转化为依存结构树库的系统和方法 |
CN103268311A (zh) * | 2012-11-07 | 2013-08-28 | 上海大学 | 基于事件结构的中文语句分析方法 |
CN104281645A (zh) * | 2014-08-27 | 2015-01-14 | 北京理工大学 | 一种基于词汇语义和句法依存的情感关键句识别方法 |
CN105320644A (zh) * | 2015-09-23 | 2016-02-10 | 陕西中医药大学 | 一种基于规则的自动汉语句法分析方法 |
CN110909537A (zh) * | 2019-11-19 | 2020-03-24 | 曲英洲 | 现代汉语成分分析的一种人工智能方法 |
CN112183059A (zh) * | 2020-09-24 | 2021-01-05 | 万齐智 | 一种中文结构化事件抽取方法 |
-
2021
- 2021-01-08 CN CN202110023058.8A patent/CN112699664A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101782897A (zh) * | 2010-03-17 | 2010-07-21 | 上海大学 | 基于事件的中文语料标注方法 |
CN103268311A (zh) * | 2012-11-07 | 2013-08-28 | 上海大学 | 基于事件结构的中文语句分析方法 |
CN103020148A (zh) * | 2012-11-23 | 2013-04-03 | 复旦大学 | 一种将中文短语结构树库转化为依存结构树库的系统和方法 |
CN104281645A (zh) * | 2014-08-27 | 2015-01-14 | 北京理工大学 | 一种基于词汇语义和句法依存的情感关键句识别方法 |
CN105320644A (zh) * | 2015-09-23 | 2016-02-10 | 陕西中医药大学 | 一种基于规则的自动汉语句法分析方法 |
CN110909537A (zh) * | 2019-11-19 | 2020-03-24 | 曲英洲 | 现代汉语成分分析的一种人工智能方法 |
CN112183059A (zh) * | 2020-09-24 | 2021-01-05 | 万齐智 | 一种中文结构化事件抽取方法 |
Non-Patent Citations (3)
Title |
---|
程节华,等: "汉语短语识别方法研究", 计算机技术与发展, no. 04, 10 April 2008 (2008-04-10), pages 67 - 69 * |
米海涛,等: "中文词法分析与句法分析融合策略研究", 中文信息学报, no. 02, 15 March 2008 (2008-03-15), pages 11 - 17 * |
郑家恒,等: "基于规则的汉语短语标注探讨", 山西大学学报(自然科学版), no. 04, 20 November 2002 (2002-11-20), pages 301 - 304 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024055919A1 (zh) * | 2021-12-18 | 2024-03-21 | 北京捷茂迪华能源技术有限公司 | 一种图解西文句子结构的方法及其使用方法 |
CN114547281A (zh) * | 2022-02-23 | 2022-05-27 | 北京林业大学 | 一种基于词汇和语法的英文文本筛选方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP0996899B1 (en) | Apparatus and methods for an information retrieval system that employs natural language processing of search results to improve overall precision | |
US8060357B2 (en) | Linguistic user interface | |
Mihalcea et al. | Senselearner: Minimally supervised word sense disambiguation for all words in open text | |
US8386234B2 (en) | Method for generating a text sentence in a target language and text sentence generating apparatus | |
US20040122846A1 (en) | Fact verification system | |
Curto et al. | Question generation based on lexico-syntactic patterns learned from the web | |
JP2012520528A (ja) | 自然言語テキストの自動的意味ラベリングのためのシステム及び方法 | |
US20060224581A1 (en) | Information retrieval system | |
CN112699664A (zh) | 一种中文句法分析方法和系统 | |
Leuski et al. | Cross-lingual c* st* rd: English access to hindi information | |
Byrd et al. | Tools and methods for computational linguistics | |
Dang | Investigations into the role of lexical semantics in word sense disambiguation | |
CN107818078B (zh) | 汉语自然语言对话的语义关联与匹配方法 | |
Zhang et al. | Semi-automatic emotion recognition from textual input based on the constructed emotion thesaurus | |
JP2005284723A (ja) | 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム | |
Gonçalo Oliveira et al. | Relations extracted from a portuguese dictionary: results and first evaluation | |
Smadja | Extracting collocations from text. An application: language generation | |
Gillard et al. | The LIA at QA@ CLEF-2006. | |
Boitet | The French National MT-Project: technical organization and translation results of CALLIOPE-AERO | |
Gîfu et al. | Towards an Automated Semiotic Analysis of the Romanian Political Discourse | |
Lo et al. | Using Semantic Relations with World Knowledge for Question Answering. | |
Mihalcea et al. | Automatic Acquisition of Sense Tagged Corpora. | |
Zhang et al. | Chinese-Mongolian Machine Translation Combining Sentence Structure Information | |
Denis et al. | A deep-parsing approach to natural language understanding in dialogue system: Results of a corpus-based evaluation | |
Narita | Constructing a Tagged EJ Parallel Corpus for Assisting Japanese Software Engineers in Writing English Abstracts. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |