CN106021225B - 一种基于汉语简单名词短语的汉语最长名词短语识别方法 - Google Patents
一种基于汉语简单名词短语的汉语最长名词短语识别方法 Download PDFInfo
- Publication number
- CN106021225B CN106021225B CN201610317795.8A CN201610317795A CN106021225B CN 106021225 B CN106021225 B CN 106021225B CN 201610317795 A CN201610317795 A CN 201610317795A CN 106021225 B CN106021225 B CN 106021225B
- Authority
- CN
- China
- Prior art keywords
- chinese
- word
- mnp
- snp
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Machine Translation (AREA)
Abstract
本发明属于人工智能的自然语言处理子领域,提供了一种基于汉语简单名词短语的汉语最长名词短语识别方法。包括如下步骤:S1数据预处理;S2选用SVM方法,训练汉语SNP识别模型,识别出汉语SNP;S3使用缩略替换方法简化文本,得到新的训练及测试语料;S4在经S3处理得到的新语料中,再次提取样本集,针对简化后的汉语MNP进行模型训练、识别;S5还原语料,还原后的汉语MNP为本方法最终识别结果。本发明的汉语MNP识别方法可以降低汉语MNP在自动识别中因其长度过长、语义及结构复杂等因素带来的不利影响,因此能有效提高汉语MNP的识别效果。
Description
技术领域
本发明涉及自然语言处理、机器学习等领域,是一种适用于汉语最长名词短语识别的方法。
背景技术
随着互联网技术的不断发展,世界各国之间的线上经济贸易活动日益频繁,大量文本信息在互联网上以爆炸式速度传播,自然语言处理及其相关方面的研究迫在眉睫。其中,MNP(maximal noun phrase,最长名词短语)的识别是自然语言处理中的一个基本任务。
自然语言处理包括词法分析、句法分析、语义分析和语用分析几个层次。目前,词法分析技术已较为成熟,分词和词性标注都已达到较高准确率,而句法的分析结果仍然不理想,为了最终可以达到计算机对自然语言的充分理解,句法分析性能的提高尤为关键。目前的句法分析往往是用先局部后整体的分析方法,先对句子进行浅层句法分析,再构建完全句法树。短语识别属浅层句法分析范畴,是句法分析的基础。短语中,名词短语最为广泛存在。特别地,MNP是指不被其他任何名词短语包含的名词短语,常常担任主语、宾语或定语等重要语法角色,其准确识别不仅有利于简化句子结构,辅助提高机器翻译的质量,而且对信息检索、实体识别以及微博情感对象识别、情感倾向分析等热门领域作用显著。
目前,MNP的识别主要包括以下两类:
一类是基于规则的方法,语言学家研究短语内部结构的特征和边界特征,并编写大量语法规则,再根据规则定义模式或正则表达式,识别短语。该方法有较高的准确率,但耗费研究者大量时间和脑力,尤其对汉语显然无法得到完备、有效的规则库,因此召回率难以保证。
另一类是基于机器学习的方法,该方法将MNP的识别问题看作一个标注或多元分类问题,如使用MaxEnt(Maximum Entropy Mdels,最大熵)、CRF(Conditional RandomField,条件随机场)、SVM(Support Vector Machine,支持向量机)等模型将一个词归类到短语的内部或外部,其中基于SVM的方法性能和识别效果更好。总的来说,使用机器学习的方法,识别MNP的整体性能明显优于基于规则的方法,且易于移植及广泛应用,但汉语MNP的内部结构过于复杂,携带语义信息过多,长度过长,复杂修饰时无需结构和词形的变化,将机器学习方法直接使用于汉语MNP的识别任务,识别效果并不理想。
发明内容
本发明要解决的技术问题是,使用机器学习方法识别汉语MNP时,因短语长度及语义、结构复杂性带来的识别率过低问题。
本发明的技术方案:
本发明将汉语MNP的识别分为两阶段,先识别汉语SNP(simple noun phrase,简单名词短语),用其降低汉语MNP的语义和结构复杂度,再构建模型识别MNP。其中,汉语SNP是一种内部不含短句及“的”,由若干词语黏合而成,语义核心为名词性质,并担当独立句法功能的名词短语。
一种基于汉语简单名词短语的汉语最长名词短语识别方法,步骤如下:
步骤1、确定语料并进行预处理
步骤(a):使用中文词法分析工具对训练语料及测试语料进行分词和词性标注;
步骤(b):对步骤(a)得到的每个词分别分配汉语SNP和汉语MNP的分类标签,每个词都有两个分类标签;
步骤2、建立基于SVM的汉语SNP识别模型
步骤a):对步骤(b)得到的语料中的每个词提取样本,对当前词及其左右各3词共7词的词和词性进行数字化,构成特征向量x,当前词的汉语SNP分类标签设为y,则将得到样本集(xi,yi),i=1,2,…n,n为样本数;
步骤b):训练识别模型,使用SVM训练识别模型就是对样本集(xi,yi)求几何间隔最大平面的过程,其中x为特征向量,y为分类标签;
设所求分类超平面表示为:
wTx+b=0
其中,w和b都是向量;
所求超平面应满足以下约束,且最满足大分类间隔为
yi[wTx+b]≥1,i=1,2…n
约束最优化问题由拉格朗日函数的鞍点给出,引入拉格朗日算子ai(ai>0),则构造函数表示为:
且鞍点处满足:
最终,最优分类函数即为所训练的模型,表示为:
其中,xi为支持向量,yi是第i个样本的分类标签,为其对应拉格朗日乘子,b*为常数;
步骤c):用步骤b)中得到的识别模型对测试语料进行分类,识别出汉语SNP;
步骤3:用汉语SNP简化文本:对训练语料及测试语料中识别出的汉语SNP使用缩略替换方法简化,降低文本中汉语MNP的复杂度和长度,构成新的训练语料和测试语料;
所述的缩略替换方法如下:
(1)对于被识别为汉语SNP的词串,将其作一个整体处理:首词对应的汉语MNP的分类作为整体的汉语MNP分类;尾词作为整体的语义核心;尾词词性作为整体的词性;词语个数作为整体的长度信息;
(2)对于步骤(1)以外的词,语义核心为其本身,汉语SNP长度信息记作0,保持其原有的汉语MNP分类标签;
步骤4:针对步骤3得到的语料进行汉语MNP训练和识别
步骤1):针对步骤3得到语料,对每个词提取样本,将当前词及其左右各5词共11词的语义核心、词性、汉语SNP长度信息数字化,构成特征向量x′,当前词的汉语MNP分类标签设为y′,则将得到样本集(x′i,y′i),i=1,2,…n,n为样本数;
步骤2):使用步骤1)中提取得到的样本进行模型训练,具体方法与步骤2中步骤b)相同;
步骤3):使用步骤2)中训练得到的模型在步骤3得到的测试语料上识别汉语MNP。
步骤5:结合步骤1得到的语料,对步骤4的识别结果进行填充、还原,还原后的汉语MNP为本方法最终识别结果。
本发明的有益效果:本发明能有效的降低汉语MNP识别时由于句法结构和语义复杂度过高以及长度过长带来的不利影响,提高汉语MNP的识别效果。
附图说明
图1为本发明一种基于汉语简单名词短语识别汉语最长名词短语方法的流程图。
图2为本发明实验效果图。
具体实施方式
图1基于汉语简单名词短语识别最长名词短语方法的流程图。
以下结合附图和技术方案,以中文宾州树库5.0版本作为数据集,用一个具体实例对本发明加以详细说明。
1、对中文宾州树库5.0版本数据预处理
本发明选择的语料为中文宾州树库5.0版本,将语料按1:4划分为测试语料和训练语料,用中文词法分析工具ctbparser对语料进行分词和词性标注,对语料中的每个词,使用IOB方法分别分配汉语SNP和汉语MNP的分类标签。(以句子“确保了浦东开发的有序进行”为例):
词 | 词性 | SNP的分类标签 | MNP的分类标签 |
确保 | VV | O | O |
了 | AS | O | O |
浦东 | NR | B | B |
开发 | NN | I | I |
的 | DEG | O | I |
有序 | JJ | B | I |
进行 | NN | I | I |
2、识别汉语SNP
使用yamcha工具建立基于SVM的汉语SNP识别模型,并使用训练出的模型对测试语料中的每个词进行分类,识别出数据中的汉语SNP。对每个词来说,对应样本由当前词和其左右各3词的词、词性、对应汉语SNP分类标签共同构成,具体的模板参数为“F:-3..3:0..T:-3..-1”。步骤1中的例句将被识别出汉语SNP“浦东开发”和“有序进行”。
3、利用汉语SNP,使用缩略替换方法简化语料。
所述的缩略替换方法如下:
(1)对于被识别为汉语SNP的词串,将其作一个整体处理:首词对应的汉语MNP的分类作为整体的汉语MNP分类;尾词作为整体的语义核心;尾词词性作为整体的词性;词语个数作为整体的长度信息。
(2)对于(1)以外的词,语义核心为其本身,汉语SNP长度信息记作0,保持其原有的汉语MNP分类标签。
对1中例句进行缩略替换的结果如下:
语义核心 | 词性 | SNP长度信息 | MNP的分类标签 |
确保 | VV | 0 | O |
了 | AS | 0 | O |
开发 | NN | 2 | B |
的 | DEG | 0 | I |
进行 | NN | 2 | I |
4、使用步骤3得到的语料,针对汉语MNP进行模型训练和识别。使用yamcha工具训练模型时,对每个词来说,对应样本由当前词和其左右各5词的语义核心、词性、汉语SNP长度信息、汉语MNP分类标签共同构成,具体的模板参数为“F:-5..5:0..T:-5..-1”。步骤3中的例句将被识别出汉语MNP“开发的进行”。
5、针对步骤4的识别结果,结合步骤1的原语料,对其进行还原,还原后的短语“浦东开发的有序进行”即为例句的汉语MNP识别结果。
Claims (1)
1.一种基于汉语简单名词短语的汉语最长名词短语识别方法,其特征在于,步骤如下:
步骤1、确定语料并进行预处理
步骤(a):使用中文词法分析工具对训练语料及测试语料进行分词和词性标注;
步骤(b):对步骤(a)得到的每个词分别分配汉语SNP和汉语MNP的分类标签,每个词都有两个分类标签;
步骤2、建立基于SVM的汉语SNP识别模型
步骤a):对步骤b)得到的语料中的每个词提取样本,对当前词及其左右各3词共7词的词和词性进行数字化,构成特征向量x,当前词的汉语SNP分类标签设为y,则将得到样本集(xi,yi),i=1,2,…n,n为样本数;
步骤b):训练识别模型,使用SVM训练识别模型就是对样本集(xi,yi)求几何间隔最大平面的过程,其中x为特征向量,y为分类标签;
设所求分类超平面表示为:
wTx+b=0
其中,w和b都是向量;
所求超平面应满足以下约束,且最满足大分类间隔为
yi[wTx+b]≥1,i=1,2…n
约束最优化问题由拉格朗日函数的鞍点给出,引入拉格朗日算子ai,其中,ai>0,则构造函数表示为:
且鞍点处满足:
最终,最优分类函数即为所训练的模型,表示为:
其中,xi为支持向量,yi是第i个样本的分类标签,为其对应拉格朗日乘子,b*为常数;
步骤c):用步骤b)中得到的识别模型对测试语料进行分类,识别出汉语SNP;
步骤3:用汉语SNP简化文本:对训练语料及测试语料中识别出的汉语SNP使用缩略替换方法简化,降低文本中汉语MNP的复杂度和长度,构成新的训练语料和测试语料;
所述的缩略替换方法如下:
(1)对于被识别为汉语SNP的词串,将其作一个整体处理:首词对应的汉语MNP的分类作为整体的汉语MNP分类;尾词作为整体的语义核心;尾词词性作为整体的词性;词语个数作为整体的长度信息;
(2)对于步骤(1)以外的词,语义核心为其本身,汉语SNP长度信息记作0,保持其原有的汉语MNP分类标签;
步骤4:针对步骤3得到的语料进行汉语MNP训练和识别
步骤1):针对步骤3得到语料,对每个词提取样本,将当前词及其左右各5词共11词的语义核心、词性、汉语SNP长度信息数字化,构成特征向量x′,当前词的汉语MNP分类标签设为y′,则将得到样本集(x′i,y′i),i=1,2,…n,n为样本数;
步骤2):使用步骤1)中提取得到的样本进行模型训练,具体方法与步骤2中步骤b)相同;
步骤3):使用步骤2)中训练得到的模型在步骤3得到的测试语料上识别汉语MNP;
步骤5:结合步骤1得到的语料,对步骤4的识别结果进行填充、还原,还原后的汉语MNP为本方法最终识别结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610317795.8A CN106021225B (zh) | 2016-05-12 | 2016-05-12 | 一种基于汉语简单名词短语的汉语最长名词短语识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610317795.8A CN106021225B (zh) | 2016-05-12 | 2016-05-12 | 一种基于汉语简单名词短语的汉语最长名词短语识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106021225A CN106021225A (zh) | 2016-10-12 |
CN106021225B true CN106021225B (zh) | 2018-12-21 |
Family
ID=57100767
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610317795.8A Expired - Fee Related CN106021225B (zh) | 2016-05-12 | 2016-05-12 | 一种基于汉语简单名词短语的汉语最长名词短语识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106021225B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107861952A (zh) * | 2017-09-25 | 2018-03-30 | 沈阳航空航天大学 | 基于最长名词短语分治策略的神经机器翻译方法 |
CN107908623B (zh) * | 2017-12-04 | 2020-12-01 | 浪潮金融信息技术有限公司 | 一种语言处理方法及装置 |
CN110362821A (zh) * | 2019-06-17 | 2019-10-22 | 昆明理工大学 | 一种基于叠层组合分类器的老挝语基本名词短语识别方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101446942A (zh) * | 2008-12-10 | 2009-06-03 | 苏州大学 | 一种自然语言句子的语义角色标注方法 |
CN101751385A (zh) * | 2008-12-19 | 2010-06-23 | 华建机器翻译有限公司 | 一种采用层次管道过滤器体系结构的多语言信息抽取方法 |
CN103500160A (zh) * | 2013-10-18 | 2014-01-08 | 大连理工大学 | 一种基于滑动语义串匹配的句法分析方法 |
CN103514157A (zh) * | 2013-10-21 | 2014-01-15 | 东南大学 | 一种面向室内智能机器人导航的路径自然语言处理方法 |
CN103886034A (zh) * | 2014-03-05 | 2014-06-25 | 北京百度网讯科技有限公司 | 一种建立索引及匹配用户的查询输入信息的方法和设备 |
CN103927298A (zh) * | 2014-04-25 | 2014-07-16 | 秦一男 | 一种基于计算机的自然语言句法结构解析方法和装置 |
CN103942192A (zh) * | 2013-11-21 | 2014-07-23 | 北京理工大学 | 一种双语最大名词组块分离-融合的翻译方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8600736B2 (en) * | 2007-01-04 | 2013-12-03 | Thinking Solutions Pty Ltd | Linguistic analysis |
-
2016
- 2016-05-12 CN CN201610317795.8A patent/CN106021225B/zh not_active Expired - Fee Related
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101446942A (zh) * | 2008-12-10 | 2009-06-03 | 苏州大学 | 一种自然语言句子的语义角色标注方法 |
CN101751385A (zh) * | 2008-12-19 | 2010-06-23 | 华建机器翻译有限公司 | 一种采用层次管道过滤器体系结构的多语言信息抽取方法 |
CN103500160A (zh) * | 2013-10-18 | 2014-01-08 | 大连理工大学 | 一种基于滑动语义串匹配的句法分析方法 |
CN103514157A (zh) * | 2013-10-21 | 2014-01-15 | 东南大学 | 一种面向室内智能机器人导航的路径自然语言处理方法 |
CN103942192A (zh) * | 2013-11-21 | 2014-07-23 | 北京理工大学 | 一种双语最大名词组块分离-融合的翻译方法 |
CN103886034A (zh) * | 2014-03-05 | 2014-06-25 | 北京百度网讯科技有限公司 | 一种建立索引及匹配用户的查询输入信息的方法和设备 |
CN103927298A (zh) * | 2014-04-25 | 2014-07-16 | 秦一男 | 一种基于计算机的自然语言句法结构解析方法和装置 |
Non-Patent Citations (5)
Title |
---|
Efficient Estimation of Word Representations in Vector Space;Tomas Mikolov 等;《arXiv》;20130731;第1-13页 * |
基于双向标注融合的汉语最长短语识别方法;鉴萍,宗成庆;《智能系统学报》;20091031;第4卷(第5期);第406-413页 * |
基于双语协同训练的最大名词短语识别研究;李业刚 等;《软件学报》;20150731;第26卷(第7期);第1615-1625页 * |
基于混合策略的汉语最长名词短语识别;钱小飞,侯敏;《中文信息学报》;20131130;第27卷(第6期);第16-22页 * |
统计和规则相结合的汉语最长名词短语自动识别;代翠 等;《中文信息学报》;20081130;第22卷(第6期);第110-115页 * |
Also Published As
Publication number | Publication date |
---|---|
CN106021225A (zh) | 2016-10-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107193801B (zh) | 一种基于深度信念网络的短文本特征优化及情感分析方法 | |
CN110298033B (zh) | 关键词语料标注训练提取系统 | |
CN107463607B (zh) | 结合词向量和自举学习的领域实体上下位关系获取与组织方法 | |
CN104391942B (zh) | 基于语义图谱的短文本特征扩展方法 | |
CN113011533A (zh) | 文本分类方法、装置、计算机设备和存储介质 | |
CN109508459B (zh) | 一种从新闻中提取主题和关键信息的方法 | |
CN106095753B (zh) | 一种基于信息熵和术语可信度的金融领域术语识别方法 | |
CN112541356B (zh) | 一种生物医学命名实体识别的方法和系统 | |
CN109002473B (zh) | 一种基于词向量与词性的情感分析方法 | |
CN111209412A (zh) | 一种循环更新迭代的期刊文献知识图谱构建方法 | |
CN110287482B (zh) | 半自动化分词语料标注训练装置 | |
CN105701084A (zh) | 一种基于互信息的文本分类的特征提取方法 | |
CN107133212B (zh) | 一种基于集成学习和词句综合信息的文本蕴涵识别方法 | |
CN111460147B (zh) | 一种基于语义增强的标题短文本分类方法 | |
CN112420024A (zh) | 一种全端到端的中英文混合空管语音识别方法及装置 | |
CN110675962A (zh) | 一种基于机器学习和文本规则的中药药理作用识别方法及系统 | |
CN103678565A (zh) | 一种基于自引导方式的领域自适应句子对齐系统 | |
CN106021225B (zh) | 一种基于汉语简单名词短语的汉语最长名词短语识别方法 | |
CN106055633A (zh) | 一种中文微博主客观句分类方法 | |
CN111310467B (zh) | 一种在长文本中结合语义推断的主题提取方法及系统 | |
CN116383352A (zh) | 一种基于知识图谱的零样本构建领域智能问答系统的方法 | |
CN114265935A (zh) | 一种基于文本挖掘的科技项目立项管理辅助决策方法及系统 | |
CN107622047B (zh) | 一种设计决策知识的提取和表达方法 | |
CN110059192A (zh) | 基于五笔码的字符级文本分类方法 | |
CN113988054A (zh) | 一种面向煤矿安全领域的实体识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20181221 Termination date: 20210512 |
|
CF01 | Termination of patent right due to non-payment of annual fee |