CN107391488A - 一种最小生成树统计融合的汉语依存句法分析方法 - Google Patents

一种最小生成树统计融合的汉语依存句法分析方法 Download PDF

Info

Publication number
CN107391488A
CN107391488A CN201710631948.0A CN201710631948A CN107391488A CN 107391488 A CN107391488 A CN 107391488A CN 201710631948 A CN201710631948 A CN 201710631948A CN 107391488 A CN107391488 A CN 107391488A
Authority
CN
China
Prior art keywords
new
node
sentence
spanning tree
minimum spanning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710631948.0A
Other languages
English (en)
Inventor
邵玉斌
黄美思
龙华
杜庆治
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kunming University of Science and Technology
Original Assignee
Kunming University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kunming University of Science and Technology filed Critical Kunming University of Science and Technology
Priority to CN201710631948.0A priority Critical patent/CN107391488A/zh
Publication of CN107391488A publication Critical patent/CN107391488A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种最小生成树统计融合的汉语依存句法分析方法,属于自然语言处理技术领域。本发明首先对输入的待测句子进行预处理分析,具体包括:首先建立依存关系频率表;其次,分词、词性标注、依存关系概率统计;然后,把分词后分得的各个词作为节点,并加入一个虚节点,两节点间依存关系概率的负对数作为连接两节点的代价;接着,再利用最小生成树生成方法来生成依存关系树;最后分析出该句子的依存关系树。本发明对句子的分析提供一种精确、高效、便捷的分析方案,不仅节约了分析的时间,且有效提高了句法分析的正确率。本发明的可行性高并适用于一般自然语言的句法分析中。

Description

一种最小生成树统计融合的汉语依存句法分析方法
技术领域
本发明涉及一种最小生成树统计融合的汉语依存句法分析方法,属于自然语言处理技术领域。
背景技术
语言学家乔姆斯基证明了世界上实际只有一种人类语言。而且,多年前就有人提出世界上所有语言必属于三种类型(SVO、SOV以及VSO)之一,例如汉语、英语语种属于SVO类型,日语语种属于SOV类型,但句子成分都离不开主谓宾的主干成分,句法分析在机器翻译、信息抽取中扮演着很重要的角色。句法分析在自然语言处理中有着重要作用。因此如何高效,准确的进行汉语依存句法的分析就很重要了。
发明内容
本发明提供了一种最小生成树统计融合的汉语依存句法分析方法,以用于简化汉语依存句法分析的复杂度;提高汉语依存句法分析的精确度。
本发明的技术方案是:一种最小生成树统计融合的汉语依存句法分析方法,首先对输入的待测句子进行预处理分析,具体包括:首先建立依存关系频率表;其次,分词、词性标注、依存关系概率统计;然后,把分词后分得的各个词作为节点,并加入一个虚节点,两节点间依存关系概率的负对数作为连接两节点的代价;接着,再利用最小生成树生成方法来生成依存关系树;最后分析出该句子的依存关系树。
所述方法的具体步骤如下:
Step1.1、对待测句子进行预处理分析:输入句子,通过分词工具进行分词及词性标注;
Step1.2、Step1.1的句子经过分词后得到词,把分得的词作为节点并加入一个虚节点;
Step2:确定连接两节点的代价:
Step2.1、根据Step1中得到的节点,并从依存网络语料库建立每两个节点间的依存关系概率表;
Step2.2、统计每两个节点间的依存关系概率,并对依存关系概率求负对数,其便为连接两节点的代价;
Step3:最小生成树生成,具体方法步骤如下:
Step3.1、建立节点集合V,建立边集合为E,E包含所有连接节点的边;
Step3.2、初始化:
Vnew={x}
其中x为集合V中的任一节点(起始点);
Enew={}
Enew为空;
Step3.3、选边:
重复下列操作,直到Vnew=V:
在集合E中选取代价w最小的边<ai,aj>,其中ai为集合Vnew中的元素,而aj不在Vnew集合当中,并且aj∈V,如果存在有多条满足前述条件即具有相同权值的边,则任意选取其中之一;将aj加入集合Vnew中,将<ai,aj>边加入集合Enew中;当Vnew=V时,Vnew和Enew便是所求得最小生成树;
Step4、根据Step3的最小生成树得到汉语依存关系树,分析出句子的依存关系树。
进一步的,将句子拆解成单个词语,寻找之间依存关系概率,根据词与词之间的依存关系确定权值。
进一步的,以词为节点,依存关系的概率的负对数作为权值,建立最小生成树。
进一步的,以生成的最小生成树得出句子的依存关系树,分析出句子的依存关系。
本发明的有益效果是:
将句子分析问题转化为最小生成树的建立问题,大大简化了分析的复杂度;通过使用语义依存网络语料库提高了句子依存分析方法的精确度。
本发明基于最小生成树算法与统计相融合的方法,通过最小生成树算法简化了汉语依存语法的分析方法的复杂度,通过词性标注,分词处理,大规模的依存概率统计,提高了汉语依存语法分析的精确性。本发明的可行性高并适用于一般自然语言的汉语依存句法分析。
附图说明
图1为本发明的整体流程图;
图2,3,4,5为本发明的最小生成树算法演示图。
图6为本发明的汉语依存句法分析树。
具体实施方式
实施例1:如图1-6所示,一种最小生成树统计融合的汉语依存句法分析方法,所述方法的具体步骤为:
Step1.1、对待测句子进行预处理分析:输入句子,通过分词工具进行分词及词性标注,假定在待测句子分词后有n个词,为a1,a2,……,an
Step1.2、从Step1.1可得出一句话经过分词后得到n个词,把分得的n个词作为节点再加一个虚节点,那么一句话里就有n+1个节点。
Step1.3、由于依存句法树中有虚根的存在,所以为其加入一个虚节点a0。将w(ai,aj)定义为连接节点ai和节点aj的代价。
Step2:确定w(ai,aj):
Step2.1、根据Step1.1中得到的节点,并从语义依存网络语料库建立每两个节点间的依存关系概率表;
Step2.2、统计每两个节点间的依存关系概率,依存关系包括:连接节点ai和节点aj,节点ai表施事的概率为P1(ai,aj);连接节点ai和节点aj,节点ai表受事的概率为P2(ai,aj);连接节点ai和节点aj,节点ai表核心成分的概率为P3(ai,aj);并对依存关系概率求负对数。则:
连接节点ai和节点aj,ai表施事的代价w1(ai,aj):
连接节点ai和节点aj,ai表受事的代价w2(ai,aj):
连接节点ai和节点aj,ai表核心成分的代价w3(ai,aj):
Step3:最小生成树生成方法:
Step3.1、建立节点集合:
V={a0,a1,a2,...,an}
建立边集合为E,E包含所有连接节点的边;
Step3.2、初始化:
Vnew={x}
其中x为集合V中的任一节点(起始点);
Enew={}
Enew为空;
Step3.3、选边:
重复下列操作,直到Vnew=V:
在集合E中选取代价w最小的边<ai,aj>,其中ai为集合Vnew中的元素,而aj不在Vnew集合当中,并且aj∈V,(如果存在有多条满足前述条件即具有相同权值的边,则可任意选取其中之一);将aj加入集合Vnew中,将<ai,aj>边加入集合Enew中;当Vnew=V时,Vnew和Enew便是我们所求得最小生成树。
Step4、根据Step3的最小生成树得到汉语依存树,分析出句子。
实施例1:如图1-6所示,一种最小生成树统计融合的汉语依存句法分析方法,所述方法的具体步骤为:
Step1、输入一条语句,例如“我吃米饭”,利用分词工具对输入的句子进行分词,分得的词为“我,吃,米饭”记为a,b,c;由于句法分析都存在虚根,加入一个虚节点d,则句子中便有a,b,c,d四个节点。
Step2、寻找词与词之间依存关系频次,得到概率并对其求负对数,如表1所示。把其求得的负对数作为连接两个节点的代价。
表1为词与词之间的依存关系概率的负对数。例如“我(a)到吃(b)”一行在“我(a)”表依存关系为“施事”一列中的概率的负对数为21.06。
表1
Step3、连接所有节点并使生成的树为最小生成树。一个加权连通图,其中顶点集合为V,边集合为E。初始化:Vnew={x},其中x为集合V中的任一节点(起始点),Enew={}为空;重复A,B步骤,直到Vnew=V:
A.在集合E中选取权值最小的边<u,v>,其中u为集合Vnew中的元素,而v不在Vnew集合当中,并且v∈V(如果存在有多条满足前述条件即具有相同权值的边,则可任意选取其中之一);
B.将v加入集合Vnew中,将<u,v>边加入集合Enew中;
输出:使用集合Vnew和Enew来描述所得到的最小生成树。
图2为加权连通图。顶点代表分词后的每个节点,每条边上的数字代表两个词之间的依存关系的概率的负对数(即连接两节点的代价w)。
顶点a为被任意选为起始点。顶点b,c,d都与a相连。从图3中可看出边1是连接a权值最小的边,边1的两边分别是a,b;所以把b加入Vnew,这时Vnew={a,b},Enew={1},此时权值为21.06;
下一个顶点选取离a或者b最近的点,从图4可看出边34是连接a或者b权值最小的边,边34的两端分别连接着b,c;所以把c加入Vnew,这时Vnew={a,b,c},Enew={1,34},此时权值为21.75;
下一个顶点选取离a或者b或者c最近的点,从图5中可看出边21是连接a或者b或者c权值最小的边,边21的两端分别是b,d;所以把d加入Vnew,这时Vnew={a,b,c,d},Enew={1,34,21};这时Vnew=V;所有顶点已包括,故Vnew={a,b,c,d},Enew={1,34,21};是我们所求得的最小生成树,在此例中,最小生成树的权值之和为23.54。
Step7、得到最小生成树后,将所分析的句子,即组成的“我吃米饭”根据最小生成树得到其依存关系树,如图6所示。
上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims (5)

1.一种最小生成树统计融合的汉语依存句法分析方法,其特征在于:首先对输入的待测句子进行预处理分析,具体包括:首先建立依存关系频率表;其次,分词、词性标注、依存关系概率统计;然后,把分词后分得的各个词作为节点,并加入一个虚节点,两节点间依存关系概率的负对数作为连接两节点的代价;接着,再利用最小生成树生成方法来生成依存关系树;最后分析出该句子的依存关系树。
2.根据权利要求1所述的最小生成树统计融合的汉语依存句法分析方法,其特征在于:所述方法的具体步骤如下:
Step1.1、对待测句子进行预处理分析:输入句子,通过分词工具进行分词及词性标注;
Step1.2、Step1.1的句子经过分词后得到词,把分得的词作为节点并加入一个虚节点;
Step2:确定连接两节点的代价:
Step2.1、根据Step1中得到的节点,并从依存网络语料库建立每两个节点间的依存关系概率表;
Step2.2、统计每两个节点间的依存关系概率,并对依存关系概率求负对数,其便为连接两节点的代价;
Step3:最小生成树生成,具体方法步骤如下:
Step3.1、建立节点集合V,建立边集合为E,E包含所有连接节点的边;
Step3.2、初始化:
Vnew={x}
其中x为集合V中的任一节点(起始点);
Enew={}
Enew为空;
Step3.3、选边:
重复下列操作,直到Vnew=V:
在集合E中选取代价w最小的边<ai,aj>,其中ai为集合Vnew中的元素,而aj不在Vnew集合当中,并且aj∈V,如果存在有多条满足前述条件即具有相同权值的边,则任意选取其中之一;将aj加入集合Vnew中,将<ai,aj>边加入集合Enew中;当Vnew=V时,Vnew和Enew便是所求得最小生成树;
Step4、根据Step3的最小生成树得到汉语依存关系树,分析出句子的依存关系树。
3.根据权利要求1所述的最小生成树统计融合的汉语依存句法分析方法,其特征在于:将句子拆解成单个词语,寻找之间依存关系概率,根据词与词之间的依存关系确定权值。
4.根据权利要求1所述的最小生成树统计融合的汉语依存句法分析方法,其特征在于:以词为节点,依存关系的概率的负对数作为权值,建立最小生成树。
5.根据权利要求1所述的最小生成树统计融合的汉语依存句法分析方法,其特征在于:以生成的最小生成树得出句子的依存关系树,分析出句子的依存关系。
CN201710631948.0A 2017-07-28 2017-07-28 一种最小生成树统计融合的汉语依存句法分析方法 Pending CN107391488A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710631948.0A CN107391488A (zh) 2017-07-28 2017-07-28 一种最小生成树统计融合的汉语依存句法分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710631948.0A CN107391488A (zh) 2017-07-28 2017-07-28 一种最小生成树统计融合的汉语依存句法分析方法

Publications (1)

Publication Number Publication Date
CN107391488A true CN107391488A (zh) 2017-11-24

Family

ID=60341482

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710631948.0A Pending CN107391488A (zh) 2017-07-28 2017-07-28 一种最小生成树统计融合的汉语依存句法分析方法

Country Status (1)

Country Link
CN (1) CN107391488A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108446266A (zh) * 2018-02-01 2018-08-24 阿里巴巴集团控股有限公司 一种语句拆分的方法、装置及设备
US11769007B2 (en) 2021-05-27 2023-09-26 International Business Machines Corporation Treebank synthesis for training production parsers

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160275073A1 (en) * 2015-03-20 2016-09-22 Microsoft Technology Licensing, Llc Semantic parsing for complex knowledge extraction
CN106598951A (zh) * 2016-12-23 2017-04-26 北京金山办公软件股份有限公司 一种依存结构树库获取方法及系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160275073A1 (en) * 2015-03-20 2016-09-22 Microsoft Technology Licensing, Llc Semantic parsing for complex knowledge extraction
CN106598951A (zh) * 2016-12-23 2017-04-26 北京金山办公软件股份有限公司 一种依存结构树库获取方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
佚名: "依存句法分析器的简单实现", 《码农场》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108446266A (zh) * 2018-02-01 2018-08-24 阿里巴巴集团控股有限公司 一种语句拆分的方法、装置及设备
CN108446266B (zh) * 2018-02-01 2022-03-22 创新先进技术有限公司 一种语句拆分的方法、装置及设备
US11769007B2 (en) 2021-05-27 2023-09-26 International Business Machines Corporation Treebank synthesis for training production parsers

Similar Documents

Publication Publication Date Title
CN109543183B (zh) 基于深度神经网络和标注策略的多标签实体-关系联合提取方法
US10997370B2 (en) Hybrid classifier for assigning natural language processing (NLP) inputs to domains in real-time
US20230196127A1 (en) Method and device for constructing legal knowledge graph based on joint entity and relation extraction
CN107797991B (zh) 一种基于依存句法树的知识图谱扩充方法及系统
Konstas et al. Unsupervised concept-to-text generation with hypergraphs
CN110502644B (zh) 一种领域层级词典挖掘构建的主动学习方法
CN109408642A (zh) 一种基于距离监督的领域实体属性关系抽取方法
CN103646112B (zh) 利用了网络搜索的依存句法的领域自适应方法
CN109670039A (zh) 基于三部图和聚类分析的半监督电商评论情感分析方法
CN103154936A (zh) 用于自动化文本校正的方法和系统
CN101866337A (zh) 词性标注系统、用于训练词性标注模型的装置及其方法
CN110175585B (zh) 一种简答题自动批改系统及方法
Huang et al. Towards automatically generating block comments for code snippets
CN105843801A (zh) 多译本平行语料库的构建系统
CN109117474A (zh) 语句相似度的计算方法、装置及存储介质
CN106202039B (zh) 基于条件随机场的越南语组合词消歧方法
Whitney Bootstrapping via graph propagation
CN103761225B (zh) 一种数据驱动的中文词语义相似度计算方法
CN106294323B (zh) 对短文本进行常识性因果推理的方法
CN107391488A (zh) 一种最小生成树统计融合的汉语依存句法分析方法
CN112560425B (zh) 模板生成方法、装置、电子设备及存储介质
Lu et al. Feature words selection for knowledge-based word sense disambiguation with syntactic parsing
CN106250367B (zh) 基于改进的Nivre算法构建越南语依存树库的方法
CN117473054A (zh) 基于知识图谱的通用智能问答方法及装置
CN116340507A (zh) 一种基于混合权重和双通道图卷积的方面级情感分析方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20171124