CN107391488A - 一种最小生成树统计融合的汉语依存句法分析方法 - Google Patents
一种最小生成树统计融合的汉语依存句法分析方法 Download PDFInfo
- Publication number
- CN107391488A CN107391488A CN201710631948.0A CN201710631948A CN107391488A CN 107391488 A CN107391488 A CN 107391488A CN 201710631948 A CN201710631948 A CN 201710631948A CN 107391488 A CN107391488 A CN 107391488A
- Authority
- CN
- China
- Prior art keywords
- new
- node
- sentence
- spanning tree
- minimum spanning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 32
- 230000004927 fusion Effects 0.000 title claims abstract description 13
- 238000000034 method Methods 0.000 claims abstract description 12
- 238000007781 pre-processing Methods 0.000 claims abstract description 6
- 238000003058 natural language processing Methods 0.000 abstract description 2
- 241000209094 Oryza Species 0.000 description 3
- 235000007164 Oryza sativa Nutrition 0.000 description 3
- 235000009566 rice Nutrition 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000000151 deposition Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 239000011800 void material Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及一种最小生成树统计融合的汉语依存句法分析方法,属于自然语言处理技术领域。本发明首先对输入的待测句子进行预处理分析,具体包括:首先建立依存关系频率表;其次,分词、词性标注、依存关系概率统计;然后,把分词后分得的各个词作为节点,并加入一个虚节点,两节点间依存关系概率的负对数作为连接两节点的代价;接着,再利用最小生成树生成方法来生成依存关系树;最后分析出该句子的依存关系树。本发明对句子的分析提供一种精确、高效、便捷的分析方案,不仅节约了分析的时间,且有效提高了句法分析的正确率。本发明的可行性高并适用于一般自然语言的句法分析中。
Description
技术领域
本发明涉及一种最小生成树统计融合的汉语依存句法分析方法,属于自然语言处理技术领域。
背景技术
语言学家乔姆斯基证明了世界上实际只有一种人类语言。而且,多年前就有人提出世界上所有语言必属于三种类型(SVO、SOV以及VSO)之一,例如汉语、英语语种属于SVO类型,日语语种属于SOV类型,但句子成分都离不开主谓宾的主干成分,句法分析在机器翻译、信息抽取中扮演着很重要的角色。句法分析在自然语言处理中有着重要作用。因此如何高效,准确的进行汉语依存句法的分析就很重要了。
发明内容
本发明提供了一种最小生成树统计融合的汉语依存句法分析方法,以用于简化汉语依存句法分析的复杂度;提高汉语依存句法分析的精确度。
本发明的技术方案是:一种最小生成树统计融合的汉语依存句法分析方法,首先对输入的待测句子进行预处理分析,具体包括:首先建立依存关系频率表;其次,分词、词性标注、依存关系概率统计;然后,把分词后分得的各个词作为节点,并加入一个虚节点,两节点间依存关系概率的负对数作为连接两节点的代价;接着,再利用最小生成树生成方法来生成依存关系树;最后分析出该句子的依存关系树。
所述方法的具体步骤如下:
Step1.1、对待测句子进行预处理分析:输入句子,通过分词工具进行分词及词性标注;
Step1.2、Step1.1的句子经过分词后得到词,把分得的词作为节点并加入一个虚节点;
Step2:确定连接两节点的代价:
Step2.1、根据Step1中得到的节点,并从依存网络语料库建立每两个节点间的依存关系概率表;
Step2.2、统计每两个节点间的依存关系概率,并对依存关系概率求负对数,其便为连接两节点的代价;
Step3:最小生成树生成,具体方法步骤如下:
Step3.1、建立节点集合V,建立边集合为E,E包含所有连接节点的边;
Step3.2、初始化:
Vnew={x}
其中x为集合V中的任一节点(起始点);
Enew={}
Enew为空;
Step3.3、选边:
重复下列操作,直到Vnew=V:
在集合E中选取代价w最小的边<ai,aj>,其中ai为集合Vnew中的元素,而aj不在Vnew集合当中,并且aj∈V,如果存在有多条满足前述条件即具有相同权值的边,则任意选取其中之一;将aj加入集合Vnew中,将<ai,aj>边加入集合Enew中;当Vnew=V时,Vnew和Enew便是所求得最小生成树;
Step4、根据Step3的最小生成树得到汉语依存关系树,分析出句子的依存关系树。
进一步的,将句子拆解成单个词语,寻找之间依存关系概率,根据词与词之间的依存关系确定权值。
进一步的,以词为节点,依存关系的概率的负对数作为权值,建立最小生成树。
进一步的,以生成的最小生成树得出句子的依存关系树,分析出句子的依存关系。
本发明的有益效果是:
将句子分析问题转化为最小生成树的建立问题,大大简化了分析的复杂度;通过使用语义依存网络语料库提高了句子依存分析方法的精确度。
本发明基于最小生成树算法与统计相融合的方法,通过最小生成树算法简化了汉语依存语法的分析方法的复杂度,通过词性标注,分词处理,大规模的依存概率统计,提高了汉语依存语法分析的精确性。本发明的可行性高并适用于一般自然语言的汉语依存句法分析。
附图说明
图1为本发明的整体流程图;
图2,3,4,5为本发明的最小生成树算法演示图。
图6为本发明的汉语依存句法分析树。
具体实施方式
实施例1:如图1-6所示,一种最小生成树统计融合的汉语依存句法分析方法,所述方法的具体步骤为:
Step1.1、对待测句子进行预处理分析:输入句子,通过分词工具进行分词及词性标注,假定在待测句子分词后有n个词,为a1,a2,……,an。
Step1.2、从Step1.1可得出一句话经过分词后得到n个词,把分得的n个词作为节点再加一个虚节点,那么一句话里就有n+1个节点。
Step1.3、由于依存句法树中有虚根的存在,所以为其加入一个虚节点a0。将w(ai,aj)定义为连接节点ai和节点aj的代价。
Step2:确定w(ai,aj):
Step2.1、根据Step1.1中得到的节点,并从语义依存网络语料库建立每两个节点间的依存关系概率表;
Step2.2、统计每两个节点间的依存关系概率,依存关系包括:连接节点ai和节点aj,节点ai表施事的概率为P1(ai,aj);连接节点ai和节点aj,节点ai表受事的概率为P2(ai,aj);连接节点ai和节点aj,节点ai表核心成分的概率为P3(ai,aj);并对依存关系概率求负对数。则:
连接节点ai和节点aj,ai表施事的代价w1(ai,aj):
连接节点ai和节点aj,ai表受事的代价w2(ai,aj):
连接节点ai和节点aj,ai表核心成分的代价w3(ai,aj):
Step3:最小生成树生成方法:
Step3.1、建立节点集合:
V={a0,a1,a2,...,an}
建立边集合为E,E包含所有连接节点的边;
Step3.2、初始化:
Vnew={x}
其中x为集合V中的任一节点(起始点);
Enew={}
Enew为空;
Step3.3、选边:
重复下列操作,直到Vnew=V:
在集合E中选取代价w最小的边<ai,aj>,其中ai为集合Vnew中的元素,而aj不在Vnew集合当中,并且aj∈V,(如果存在有多条满足前述条件即具有相同权值的边,则可任意选取其中之一);将aj加入集合Vnew中,将<ai,aj>边加入集合Enew中;当Vnew=V时,Vnew和Enew便是我们所求得最小生成树。
Step4、根据Step3的最小生成树得到汉语依存树,分析出句子。
实施例1:如图1-6所示,一种最小生成树统计融合的汉语依存句法分析方法,所述方法的具体步骤为:
Step1、输入一条语句,例如“我吃米饭”,利用分词工具对输入的句子进行分词,分得的词为“我,吃,米饭”记为a,b,c;由于句法分析都存在虚根,加入一个虚节点d,则句子中便有a,b,c,d四个节点。
Step2、寻找词与词之间依存关系频次,得到概率并对其求负对数,如表1所示。把其求得的负对数作为连接两个节点的代价。
表1为词与词之间的依存关系概率的负对数。例如“我(a)到吃(b)”一行在“我(a)”表依存关系为“施事”一列中的概率的负对数为21.06。
表1
Step3、连接所有节点并使生成的树为最小生成树。一个加权连通图,其中顶点集合为V,边集合为E。初始化:Vnew={x},其中x为集合V中的任一节点(起始点),Enew={}为空;重复A,B步骤,直到Vnew=V:
A.在集合E中选取权值最小的边<u,v>,其中u为集合Vnew中的元素,而v不在Vnew集合当中,并且v∈V(如果存在有多条满足前述条件即具有相同权值的边,则可任意选取其中之一);
B.将v加入集合Vnew中,将<u,v>边加入集合Enew中;
输出:使用集合Vnew和Enew来描述所得到的最小生成树。
图2为加权连通图。顶点代表分词后的每个节点,每条边上的数字代表两个词之间的依存关系的概率的负对数(即连接两节点的代价w)。
顶点a为被任意选为起始点。顶点b,c,d都与a相连。从图3中可看出边1是连接a权值最小的边,边1的两边分别是a,b;所以把b加入Vnew,这时Vnew={a,b},Enew={1},此时权值为21.06;
下一个顶点选取离a或者b最近的点,从图4可看出边34是连接a或者b权值最小的边,边34的两端分别连接着b,c;所以把c加入Vnew,这时Vnew={a,b,c},Enew={1,34},此时权值为21.75;
下一个顶点选取离a或者b或者c最近的点,从图5中可看出边21是连接a或者b或者c权值最小的边,边21的两端分别是b,d;所以把d加入Vnew,这时Vnew={a,b,c,d},Enew={1,34,21};这时Vnew=V;所有顶点已包括,故Vnew={a,b,c,d},Enew={1,34,21};是我们所求得的最小生成树,在此例中,最小生成树的权值之和为23.54。
Step7、得到最小生成树后,将所分析的句子,即组成的“我吃米饭”根据最小生成树得到其依存关系树,如图6所示。
上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。
Claims (5)
1.一种最小生成树统计融合的汉语依存句法分析方法,其特征在于:首先对输入的待测句子进行预处理分析,具体包括:首先建立依存关系频率表;其次,分词、词性标注、依存关系概率统计;然后,把分词后分得的各个词作为节点,并加入一个虚节点,两节点间依存关系概率的负对数作为连接两节点的代价;接着,再利用最小生成树生成方法来生成依存关系树;最后分析出该句子的依存关系树。
2.根据权利要求1所述的最小生成树统计融合的汉语依存句法分析方法,其特征在于:所述方法的具体步骤如下:
Step1.1、对待测句子进行预处理分析:输入句子,通过分词工具进行分词及词性标注;
Step1.2、Step1.1的句子经过分词后得到词,把分得的词作为节点并加入一个虚节点;
Step2:确定连接两节点的代价:
Step2.1、根据Step1中得到的节点,并从依存网络语料库建立每两个节点间的依存关系概率表;
Step2.2、统计每两个节点间的依存关系概率,并对依存关系概率求负对数,其便为连接两节点的代价;
Step3:最小生成树生成,具体方法步骤如下:
Step3.1、建立节点集合V,建立边集合为E,E包含所有连接节点的边;
Step3.2、初始化:
Vnew={x}
其中x为集合V中的任一节点(起始点);
Enew={}
Enew为空;
Step3.3、选边:
重复下列操作,直到Vnew=V:
在集合E中选取代价w最小的边<ai,aj>,其中ai为集合Vnew中的元素,而aj不在Vnew集合当中,并且aj∈V,如果存在有多条满足前述条件即具有相同权值的边,则任意选取其中之一;将aj加入集合Vnew中,将<ai,aj>边加入集合Enew中;当Vnew=V时,Vnew和Enew便是所求得最小生成树;
Step4、根据Step3的最小生成树得到汉语依存关系树,分析出句子的依存关系树。
3.根据权利要求1所述的最小生成树统计融合的汉语依存句法分析方法,其特征在于:将句子拆解成单个词语,寻找之间依存关系概率,根据词与词之间的依存关系确定权值。
4.根据权利要求1所述的最小生成树统计融合的汉语依存句法分析方法,其特征在于:以词为节点,依存关系的概率的负对数作为权值,建立最小生成树。
5.根据权利要求1所述的最小生成树统计融合的汉语依存句法分析方法,其特征在于:以生成的最小生成树得出句子的依存关系树,分析出句子的依存关系。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710631948.0A CN107391488A (zh) | 2017-07-28 | 2017-07-28 | 一种最小生成树统计融合的汉语依存句法分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710631948.0A CN107391488A (zh) | 2017-07-28 | 2017-07-28 | 一种最小生成树统计融合的汉语依存句法分析方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107391488A true CN107391488A (zh) | 2017-11-24 |
Family
ID=60341482
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710631948.0A Pending CN107391488A (zh) | 2017-07-28 | 2017-07-28 | 一种最小生成树统计融合的汉语依存句法分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107391488A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108446266A (zh) * | 2018-02-01 | 2018-08-24 | 阿里巴巴集团控股有限公司 | 一种语句拆分的方法、装置及设备 |
US11769007B2 (en) | 2021-05-27 | 2023-09-26 | International Business Machines Corporation | Treebank synthesis for training production parsers |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160275073A1 (en) * | 2015-03-20 | 2016-09-22 | Microsoft Technology Licensing, Llc | Semantic parsing for complex knowledge extraction |
CN106598951A (zh) * | 2016-12-23 | 2017-04-26 | 北京金山办公软件股份有限公司 | 一种依存结构树库获取方法及系统 |
-
2017
- 2017-07-28 CN CN201710631948.0A patent/CN107391488A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160275073A1 (en) * | 2015-03-20 | 2016-09-22 | Microsoft Technology Licensing, Llc | Semantic parsing for complex knowledge extraction |
CN106598951A (zh) * | 2016-12-23 | 2017-04-26 | 北京金山办公软件股份有限公司 | 一种依存结构树库获取方法及系统 |
Non-Patent Citations (1)
Title |
---|
佚名: "依存句法分析器的简单实现", 《码农场》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108446266A (zh) * | 2018-02-01 | 2018-08-24 | 阿里巴巴集团控股有限公司 | 一种语句拆分的方法、装置及设备 |
CN108446266B (zh) * | 2018-02-01 | 2022-03-22 | 创新先进技术有限公司 | 一种语句拆分的方法、装置及设备 |
US11769007B2 (en) | 2021-05-27 | 2023-09-26 | International Business Machines Corporation | Treebank synthesis for training production parsers |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109543183B (zh) | 基于深度神经网络和标注策略的多标签实体-关系联合提取方法 | |
US10997370B2 (en) | Hybrid classifier for assigning natural language processing (NLP) inputs to domains in real-time | |
US20230196127A1 (en) | Method and device for constructing legal knowledge graph based on joint entity and relation extraction | |
CN107797991B (zh) | 一种基于依存句法树的知识图谱扩充方法及系统 | |
Konstas et al. | Unsupervised concept-to-text generation with hypergraphs | |
CN110502644B (zh) | 一种领域层级词典挖掘构建的主动学习方法 | |
CN109408642A (zh) | 一种基于距离监督的领域实体属性关系抽取方法 | |
CN103646112B (zh) | 利用了网络搜索的依存句法的领域自适应方法 | |
CN109670039A (zh) | 基于三部图和聚类分析的半监督电商评论情感分析方法 | |
CN103154936A (zh) | 用于自动化文本校正的方法和系统 | |
CN101866337A (zh) | 词性标注系统、用于训练词性标注模型的装置及其方法 | |
CN110175585B (zh) | 一种简答题自动批改系统及方法 | |
Huang et al. | Towards automatically generating block comments for code snippets | |
CN105843801A (zh) | 多译本平行语料库的构建系统 | |
CN109117474A (zh) | 语句相似度的计算方法、装置及存储介质 | |
CN106202039B (zh) | 基于条件随机场的越南语组合词消歧方法 | |
Whitney | Bootstrapping via graph propagation | |
CN103761225B (zh) | 一种数据驱动的中文词语义相似度计算方法 | |
CN106294323B (zh) | 对短文本进行常识性因果推理的方法 | |
CN107391488A (zh) | 一种最小生成树统计融合的汉语依存句法分析方法 | |
CN112560425B (zh) | 模板生成方法、装置、电子设备及存储介质 | |
Lu et al. | Feature words selection for knowledge-based word sense disambiguation with syntactic parsing | |
CN106250367B (zh) | 基于改进的Nivre算法构建越南语依存树库的方法 | |
CN117473054A (zh) | 基于知识图谱的通用智能问答方法及装置 | |
CN116340507A (zh) | 一种基于混合权重和双通道图卷积的方面级情感分析方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20171124 |