CN112016301B - 一种融合短语先验知识的依存句法分析方法及装置 - Google Patents
一种融合短语先验知识的依存句法分析方法及装置 Download PDFInfo
- Publication number
- CN112016301B CN112016301B CN202011123436.1A CN202011123436A CN112016301B CN 112016301 B CN112016301 B CN 112016301B CN 202011123436 A CN202011123436 A CN 202011123436A CN 112016301 B CN112016301 B CN 112016301B
- Authority
- CN
- China
- Prior art keywords
- phrase
- dependency
- training
- analysis
- dependency syntax
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种融合短语先验知识的依存句法分析方法,先标记不同词性短语的边界,对不同词性短语数据进行依存句法分析,分别训练得到不同词性短语的句法分析模型;将边界标记后的不同词性的短语作为短语识别训练语料,训练得到短语识别模型;对短语识别训练语料进行短语内的依存句法分析,得到短语内依存句法信息,将其作为先验知识训练句法分析模型;测试过程中,将待分析句子输入到短语识别模型中,将句中不同短语部分输入到不同词性短语的句法分析模型中,得到短语内依存句法信息,将其输入到融合短语先验知识的句法分析模型中,输出整句的依存句法分析结果。本发明还提供了基于该方法的依存句法分析装置。本发明能够提高句法分析准确率。
Description
技术领域
本发明属于自然语言处理技术领域,尤其涉及一种融合短语先验知识的依存句法分析方法及装置。
背景技术
句法分析是自然语言处理中的关键底层技术之一,基本任务是确定句子的句法结构或者句子中词汇之间的依存关系。句法分析可以应用于信息检索、机器翻译、情感分析等任务中。目前,常用的句法分析方法有成分句法分析和依存句法分析两种,依存句法具有表现形式简单易懂、易于标注、接近语义关系的优势。
现有的依存句法分析存在语料数据稀疏、长距离依存分析准确率低等问题。
发明内容
发明目的:本发明提出一种高准确率的依存句法分析方法。本发明的另一目的在于提出基于该方法的依存句法分析装置。
技术方案:本发明所采述的融合短语先验知识的依存句法分析方法,该方法包括:
(1)根据依存句法关系对依存句法分析训练数据进行不同词性短语的边界标记,对不同词性短语进行依存句法分析,分别训练得到不同词性短语的句法分析模型;
(2)将边界标记后的不同词性短语作为短语识别训练语料,训练得到短语识别模型;
(3)对所述短语识别训练语料进行短语内的依存句法分析,得到短语内依存句法信息,构建包含短语内依存句法信息的句法分析训练语料,训练得到融合短语先验知识的句法分析模型;
(4)将待分析句子输入所述短语识别模型,识别出所述待分析句子中的不同词性短语,利用所述不同词性短语的句法分析模型识别出不同词性短语内部的依存句法关系,将识别出的不同词性短语内部的依存句法关系输入到所述融合短语先验知识的句法分析模型中,输出待分析句子的依存句法分析结果。
本发明通过所述短语识别模型先将待分析句子的长度进行缩短,以降低后续对待分析句子整句进行依存句法分析的难度。
进一步地,所述词性包括介词、名词。
进一步地,所述依存句法关系主要包括:主谓关系(SBJ)、动宾关系(COMP)、介宾关系(OBJ)、连动关系(AUX)、并列关系(CJTN)、定中关系(AMOD)、复合名词修饰关系(NMOD),状中关系中动词修饰动词(ADV)、介词短语修饰动词(位置LOC、方式MNR、对象DIR)。
进一步地,所述依存句法分析训练数据为对句子进行分词、词性标注后的数据。
进一步地,所述步骤(1)包括:根据依存句法关系得到依存句法树,判断依存于根节点且为状中关系的介词,找到依存于所述介词的最右节点,进行标记。
进一步地,所述步骤(1)包括:根据依存句法关系得到依存句法树,判断依存于根节点且为主谓关系或动宾关系的名词是否存在依存于所述名词且为定中关系或复合名词修饰关系的词,若存在则找到依存于该词的最左及最右节点,进行标记。
本发明所述的融合短语先验知识的依存句法分析装置,包括:
预处理模块,用于根据依存句法关系对依存句法分析训练数据进行不同词性短语的边界标记,构建短语识别训练语料;对所述短语识别训练语料进行短语内的依存句法分析,得到短语内依存句法信息,构建包含短语内依存句法信息的句法分析训练语料;
训练模块,用于对不同词性短语数据进行依存句法分析,分别训练得到对应词性短语的句法分析模型;利用构建的短语识别训练语料训练得到短语识别模型;利用构建的包含短语内依存句法信息的句法分析训练语料训练得到融合短语先验知识的句法分析模型;
分析模块,用于将待分析句子输入所述短语识别模型,识别出所述待分析句子中的不同词性短语,利用所述不同词性短语的句法分析模型识别出不同词性短语内部的依存句法关系,将识别出的不同词性短语内部的依存句法关系输入到所述融合短语先验知识的句法分析模型中,输出待分析句子的依存句法分析结果。
进一步地,所述预处理模块用于根据依存句法关系得到依存句法树,判断依存于根节点且为状中关系的介词,找到依存于所述介词的最右节点,进行介词短语边界标记,抽取介词短语句法分析训练语料;判断依存于根节点且为主谓关系或动宾关系的名词是否存在依存于所述名词且为定中关系或复合名词修饰关系的词,若存在则找到依存于该词的最左及最右节点,进行名词短语边界标记,抽取名词短语句法分析训练语料;根据标记后的边界抽取短语识别训练语料。
有益效果:(1)本发明将短语识别应用于依存句法分析之前,并将单独分析得到的短语内的句法依存关系作为先验知识,丰富了模型的信息,提升长句中短语部分的句法分析准确度,进而提高整体的准确率;
(2)通过已有句法分析训练语料中的依存关系自动构建短语识别训练语料,既可以获取到短语信息,又能获取到短语内的句法关系信息(通用的短语识别训练预料没有句法关系信息,只有短语边界信息);另外,基于相同结构的句法分析模型进行分析,可以使短语内的依存句法分析结果准确率高;
(3)将语词之间的句法关系作为先验知识输入到模型中,而不直接将短语句法分析模型输出的短语内句法关系直接作为分析结果,可以避免短语识别时已经发生错误,导致句法分析结果错误。
附图说明
图1是本发明的方法流程示意图;
图2是本实施例句子语料图;
图3是本实施例短语边界标记后形成的短语识别训练语料图;
图4是本实施例对介词短语的依存句法分析图;
图5是本实施例对名词短语的依存句法分析图;
图6是本实施例融合短语先验知识的句法分析模型构建图。
具体实施方式
下面结合附图和实施例对本发明的技术方案作进一步的说明。
如图1所示,其示出了本发明所述的融合短语先验知识的依存句法分析方法流程示意图,该方法包括:
(1)根据依存句法关系对依存句法分析训练数据进行不同词性短语的边界标记,对不同词性短语进行依存句法分析,分别训练得到不同词性短语的句法分析模型;
(2)将边界标记后的不同词性短语作为短语识别训练语料,训练得到短语识别模型;
(3)对所述短语识别训练语料进行短语内的依存句法分析,得到短语内依存句法信息,构建包含短语内依存句法信息的句法分析训练语料,训练得到融合短语先验知识的句法分析模型;
(4)将待分析句子输入所述短语识别模型,识别出所述待分析句子中的不同词性短语,利用所述不同词性短语的句法分析模型识别出不同词性短语内部的依存句法关系,将识别出的不同词性短语内部的依存句法关系输入到所述融合短语先验知识的句法分析模型中,输出待分析句子的依存句法分析结果。
如图2所示,依存句法分析训练数据中的一条数据为“企业在改革方面要积极推进企业战略性改组”。首先对该句进行分词、词性标注,如图6所示,即原模型训练输入信息,包括分词后的词id、词、词性。
接着进行短语的边界标记,得到如图3所示的短语识别训练语料。其中,-前边的代表边界,B开始位置,I中间位置,E结束位置,-后边的代表短语类型,P代表介词短语,N代表名词短语。再经过短语识别模型后分别得到介词短语“在改革方面”和名词短语“企业战略性改组”。利用介词短语的句法分析模型得到介词短语内部的依存句法关系。利用名词短语的句法分析模型得到名词短语内部的依存句法关系。
其中,句法关系主要包括以下几种:主谓关系(SBJ)、动宾关系(COMP)、介宾关系(OBJ)、连动关系(AUX)、并列关系(CJTN)、定中关系(AMOD)、复合名词修饰关系(NMOD),状中关系中动词修饰动词(ADV)、介词短语修饰动词(位置LOC、方式MNR、对象DIR)。
对短语进行标记的原则是针对介词短语和名词短语:介词短语修饰动词为状中关系,名词短语修饰动词为主谓关系和动宾关系。进行短语标记的步骤如下:
1)从根节点出发,寻找依存于根节点的词;
2)标记名词短语:判断依存于根节点且为主谓关系(SBJ)、动宾关系(COMP)的名词,是否存在于依存于它的词且为定中关系(AMOD)或复合名词修饰关系(NMOD),找到最左及最右依存于此词的节点,进行标记。
3)标记介词短语:判断依存于根节点且为状中关系(LOC、DIR、MNR)的介词,找到依存于此介词的最右节点,进行标记。
根据标记后的边界形成短语识别训练数据,提取介词短语和名词短语句法分析训练数据。
由此得出“在改革方面”的依存句法关系是:“在”为介词短语的根节点(ROOT),“在”与“方面”是介宾关系(OBJ),“改革”与方面是复合名词修饰关系(NMOD),如图4所示。
“企业战略性改组”的依存句法关系是:“改组”为名词短语的根节点(ROOT),“企业”、“战略性”与“改组”均是复合名词修饰关系(NMOD),如图5所示。
介词短语和名词短语的依存句法关系作为先验知识,按照词id,填写每个词对应的短语内的依存词id及其依存关系,从而得到包含短语内依存句法信息的句法分析训练语料,以此作为融合短语先验知识的句法分析模型的输入,如图6所示。其中,-1和O代表“没有依存关系”,指短语外的内容。0和root代表短语内部的根。训练得到的融合短语先验知识的句法分析模型输出标签,包括每个词对应的整句中的依存词id和依存关系,其中,依存关系包含句子主干句法关系和短语内句法关系两部分。句子主干句法关系是在短语识别后,利用词性成分替代相对应的短语部分以缩短待分析句子长度,再对整句进行依存句法分析得到的依存关系。
本发明还提供了一种融合短语先验知识的依存句法分析装置,包括:
预处理模块,用于根据依存句法关系对依存句法分析训练数据进行不同词性短语的边界标记,构建短语识别训练语料;对所述短语识别训练语料进行短语内的依存句法分析,得到短语内依存句法信息,构建包含短语内依存句法信息的句法分析训练语料;
训练模块,用于对不同词性短语数据进行依存句法分析,分别训练得到对应词性短语的句法分析模型;利用构建的短语识别训练语料训练得到短语识别模型;利用构建的包含短语内依存句法信息的句法分析训练语料训练得到融合短语先验知识的句法分析模型;
分析模块,用于将待分析句子输入所述短语识别模型,识别出所述待分析句子中的不同词性短语,利用所述不同词性短语的句法分析模型识别出不同词性短语内部的依存句法关系,将识别出的不同词性短语内部的依存句法关系输入到所述融合短语先验知识的句法分析模型中,输出待分析句子的依存句法分析结果。
所述预处理模块用于根据依存句法关系得到依存句法树,判断依存于根节点且为状中关系的介词,找到依存于所述介词的最右节点,进行介词短语边界标记,抽取介词短语句法分析训练语料;判断依存于根节点且为主谓关系或动宾关系的名词是否存在依存于所述名词且为定中关系或复合名词修饰关系的词,若存在则找到依存于该词的最左及最右节点,进行名词短语边界标记,抽取名词短语句法分析训练语料;根据标记后的边界抽取短语识别训练语料。
Claims (7)
1.一种融合短语先验知识的依存句法分析方法,其特征在于,包括步骤:
(1)根据依存句法关系对依存句法分析训练数据进行不同词性短语的边界标记,对不同词性短语进行依存句法分析,分别训练得到不同词性短语的句法分析模型;
(2)将边界标记后的不同词性短语作为短语识别训练语料,训练得到短语识别模型;
(3)对所述短语识别训练语料进行短语内的依存句法分析,得到短语内依存句法信息,构建包含短语内依存句法信息的句法分析训练语料,训练得到融合短语先验知识的句法分析模型;
(4)将待分析句子输入所述短语识别模型,识别出所述待分析句子中的不同词性短语,利用所述不同词性短语的句法分析模型识别出不同词性短语内部的依存句法关系,将识别出的不同词性短语内部的依存句法关系输入到所述融合短语先验知识的句法分析模型中,输出待分析句子的依存句法分析结果。
2.根据权利要求1所述的融合短语先验知识的依存句法分析方法,其特征在于:所述词性包括介词、名词。
3.根据权利要求1所述的融合短语先验知识的依存句法分析方法,其特征在于,所述依存句法分析训练数据为对句子进行分词、词性标注后的数据。
4.根据权利要求1所述的融合短语先验知识的依存句法分析方法,其特征在于,所述步骤(1)包括:根据依存句法关系得到依存句法树,判断依存于根节点且为状中关系的介词,找到依存于所述介词的最右节点,进行标记。
5.根据权利要求1所述的融合短语先验知识的依存句法分析方法,其特征在于,所述步骤(1)包括:根据依存句法关系得到依存句法树,判断依存于根节点且为主谓关系或动宾关系的名词是否存在依存于所述名词且为定中关系或复合名词修饰关系的词,若存在则找到依存于该词的最左及最右节点,进行标记。
6.一种基于权利要求1所述分析方法的依存句法分析装置,其特征在于,包括:
预处理模块,用于根据依存句法关系对依存句法分析训练数据进行不同词性短语的边界标记,构建短语识别训练语料;对所述短语识别训练语料进行短语内的依存句法分析,得到短语内依存句法信息,构建包含短语内依存句法信息的句法分析训练语料;
训练模块,用于对不同词性短语数据进行依存句法分析,分别训练得到对应词性短语的句法分析模型;利用构建的短语识别训练语料训练得到短语识别模型;利用构建的包含短语内依存句法信息的句法分析训练语料训练得到融合短语先验知识的句法分析模型;
分析模块,用于将待分析句子输入所述短语识别模型,识别出所述待分析句子中的不同词性短语,利用所述不同词性短语的句法分析模型识别出不同词性短语内部的依存句法关系,将识别出的不同词性短语内部的依存句法关系输入到所述融合短语先验知识的句法分析模型中,输出待分析句子的依存句法分析结果。
7.根据权利要求6所述的依存句法分析装置,其特征在于,所述预处理模块用于根据依存句法关系得到依存句法树,判断依存于根节点且为状中关系的介词,找到依存于所述介词的最右节点,进行介词短语边界标记,抽取介词短语句法分析训练语料;判断依存于根节点且为主谓关系或动宾关系的名词是否存在依存于所述名词且为定中关系或复合名词修饰关系的词,若存在则找到依存于该词的最左及最右节点,进行名词短语边界标记,抽取名词短语句法分析训练语料;根据标记后的边界抽取短语识别训练语料。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011123436.1A CN112016301B (zh) | 2020-10-20 | 2020-10-20 | 一种融合短语先验知识的依存句法分析方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011123436.1A CN112016301B (zh) | 2020-10-20 | 2020-10-20 | 一种融合短语先验知识的依存句法分析方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112016301A CN112016301A (zh) | 2020-12-01 |
CN112016301B true CN112016301B (zh) | 2021-02-19 |
Family
ID=73527974
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011123436.1A Active CN112016301B (zh) | 2020-10-20 | 2020-10-20 | 一种融合短语先验知识的依存句法分析方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112016301B (zh) |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104516874A (zh) * | 2014-12-29 | 2015-04-15 | 北京牡丹电子集团有限责任公司数字电视技术中心 | 一种对名词短语进行依存句法分析的方法及系统 |
-
2020
- 2020-10-20 CN CN202011123436.1A patent/CN112016301B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104516874A (zh) * | 2014-12-29 | 2015-04-15 | 北京牡丹电子集团有限责任公司数字电视技术中心 | 一种对名词短语进行依存句法分析的方法及系统 |
Non-Patent Citations (3)
Title |
---|
Dat Quoc Nguyen.An improved neural network model for joint POS tagging and.《https://arXiv:1807.03955v2》.2018,全文. * |
徐靖等.基于短语和依存句法结构的中文语义角色标注.《计算机工程》.2011,全文. * |
郭振.基于字符的中文分词、词性标注和依存句法分析联合模型.《中文信息学报》.2014,全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN112016301A (zh) | 2020-12-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104679850B (zh) | 地址结构化方法及装置 | |
CN100511215C (zh) | 多语种翻译存储器和翻译方法 | |
CN103116578A (zh) | 一种融合句法树和统计机器翻译技术的翻译方法与装置 | |
CN111061882A (zh) | 一种知识图谱构建方法 | |
CN113312922A (zh) | 一种改进的篇章级三元组信息抽取方法 | |
Uchimoto et al. | Morphological analysis of the Corpus of Spontaneous Japanese | |
JP2013054607A (ja) | 並べ替え規則学習装置、方法、及びプログラム、並びに翻訳装置、方法、及びプログラム | |
CN112016301B (zh) | 一种融合短语先验知识的依存句法分析方法及装置 | |
CN115115432A (zh) | 基于人工智能的产品信息推荐方法及装置 | |
Wang et al. | Evaluation of spoken language grammar learning in the ATIS domain | |
CN115034209A (zh) | 文本分析方法、装置、电子设备以及存储介质 | |
Seresangtakul et al. | Thai-Isarn dialect parallel corpus construction for machine translation | |
JP4007413B2 (ja) | 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム | |
JP2005284723A (ja) | 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム | |
CN109960720B (zh) | 针对半结构化文本的信息抽取方法 | |
Mohamed et al. | ADPBC: Arabic dependency parsing based corpora for information extraction | |
Suriyachay et al. | Thai named entity tagged corpus annotation scheme and self verification | |
KR100420474B1 (ko) | 부분문틀을 이용한 장문 번역 장치 및 그 방법 | |
JP4033093B2 (ja) | 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム | |
Sankaravelayuthan et al. | A Comprehensive Study of Shallow Parsing and Machine Translation in Malaylam | |
Phyue | Unknown word detection via syntax analyzer | |
Bernth et al. | Terminology extraction for global content management | |
JP2002334076A (ja) | テキスト処理方法 | |
Khemakhem et al. | The MIRACL Arabic-English statistical machine translation system for IWSLT 2010 | |
KR101638442B1 (ko) | 중국어 구문 분절 방법 및 장치 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |