CN104199811B - 短句解析模型建立方法及系统 - Google Patents

短句解析模型建立方法及系统 Download PDF

Info

Publication number
CN104199811B
CN104199811B CN201410459446.0A CN201410459446A CN104199811B CN 104199811 B CN104199811 B CN 104199811B CN 201410459446 A CN201410459446 A CN 201410459446A CN 104199811 B CN104199811 B CN 104199811B
Authority
CN
China
Prior art keywords
word
feature
name
speech
predicate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410459446.0A
Other languages
English (en)
Other versions
CN104199811A (zh
Inventor
刘新
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ctrip Travel Network Technology Shanghai Co Ltd
Original Assignee
Shanghai Ctrip Business Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Ctrip Business Co Ltd filed Critical Shanghai Ctrip Business Co Ltd
Priority to CN201410459446.0A priority Critical patent/CN104199811B/zh
Publication of CN104199811A publication Critical patent/CN104199811A/zh
Application granted granted Critical
Publication of CN104199811B publication Critical patent/CN104199811B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)

Abstract

本发明公开了一种短句解析模型建立方法及系统。该短句解析模型建立方法,包括以下步骤:获取原始语句;将原始语句切分为词序列;为词序列中的每个词赋予词性;根据各个词及其词性识别命名实体;根据各个词、词性及命名实体识别各个词在原始语句中的语法成分;分析各个语法成分之间的依存关系;根据各个语法成分之间的依存关系,抽取语法成分作为特征;将抽取的特征构建为特征向量,并两两组合形成二元分类的特征组合;将特征向量及二元分类的特征组合存储至模型中。本发明的短句解析模型建立方法及系统能够根据实际数据进行优化,在一定程度上模拟自然语言中局部的约束关系,从而大大提高了对于自然语言短句的识别解析的准确性。

Description

短句解析模型建立方法及系统
技术领域
本发明涉及一种短句解析模型建立方法及系统。
背景技术
在语音信号处理、语音识别、语音合成及自然语言理解等各项技术得到迅猛发展的今天,语音查询具有很高的研究价值,其应用也必将带来很好的社会、经济效益。在语音查询中,短句的自然语言理解与解析是影响语音查询结果的关键。如何针对自然语言实现提高自然语言理解与解析的准确度进而提升语音查询系统准确率是一个重要的问题。
传统的短句的自然语言解析方法通常是基于规则的方法,其核心思想是用文法来描述语言、分析语言。首先确定句子是否符合预先设定的规范,然后在文法规则各种各样的组合方式之中,找出一种可能是该句子文法树结构的组合方式的搜索过程。基于规则的自然语言解析方法在实际的使用场合其表现往往不如基于统计的经验主义方法那样好。因为基于统计的经验主义方法可以根据实际训练数据的情况不断地优化,而基于规则的理性主义方法很难根据实际的数据进行调整。并且基于规则的方法很难模拟语言中局部的约束关系。
然而由于语音识别的特点,用户查询在语音识别过程中就有可能产生识别结果的错误,再将此查询字符串进行基于规则的自然语言理解和解析会使得准确性进一步下降,如何建立基于查询需求的更好的语言模型,将得到结果应用到提升短句的自然语言解析系统是迫切需要解决的问题。
发明内容
本发明要解决的技术问题是为了克服现有技术中的自然语言解析方法很难根据实际数据进行优化,难以模拟语言中局部的约束关系,从而导致对于短句的识别解析的准确性不够高的缺陷,提出一种短句解析模型建立方法及系统。
本发明是通过下述技术方案来解决上述技术问题的:
本发明提供了一种短句解析模型建立方法,其特点在于,包括以下步骤:
S1、获取原始语句;
S2、将原始语句切分为词序列;
S3、根据预存的词性规则为该词序列中的每个词赋予一词性;
S4、根据各个词及其词性识别命名实体,命名实体包括人名、地名、机构名;
S5、根据各个词、词性及命名实体识别各个词在原始语句中的语法成分;
S6、分析各个语法成分之间的依存关系;
S7、根据各个语法成分之间的依存关系,抽取语法成分作为特征;
S8、将抽取的特征构建为特征向量,并使用二次多项式核对特征向量中的特征进行两两组合形成二元分类的特征组合;
S9、将特征向量及二元分类的特征组合存储至一模型中。
较佳地,该步骤S4包括以下步骤:
S41、采用底层隐马尔可夫模型识别普通无嵌套的命名实体,并获取若干最佳识别结果;
S42、采用高层隐马尔可夫模型、并利用该若干最佳识别结果,识别具有嵌套结构的命名实体。
较佳地,该步骤S41和S42中的底层隐马尔可夫模型和高层隐马尔可夫模型都采用Viterbi算法。Viterbi算法(Viterbi algorithm),亦称维特比算法,属于一种动态规划算法,从普遍意义上来说这一算法可用于寻找最有可能产生观测事件序列的-维特比路径-隐含状态序列。
较佳地,该步骤S5还包括:根据各个词、词性及命名实体识别各个词标识动词性谓词及其语义,并根据预存的一词表从各个词中找出有可能充当动词的名词,并进行标识为谓词。
较佳地,该步骤S8中抽取的特征包括句法成分特征和谓词特征,谓词特征包括谓词原形、谓词语态、子类框架。
本发明的短句解析模型建立方法,其基本原理大体如下:
将人名识别、地名识别以及机构名识别等命名实体识别融合到一个相对统一的模型中。首先在词语粗切分的结果集上,采用底层隐马尔可夫模型识别出普通无嵌套的人名、地名和机构名等,然后依次采取高层隐马尔可夫模型识别出嵌套了人名、地名的复杂地名和机构名。一是每一层隐马尔可夫模型都采用N-Best策略,将产生的最好的若干个结果送到词图中供高层模型使用。二是低层的隐马尔可夫模型通过词语的生成模型为高层隐马尔可夫模型的参数估计提供支持。
基于特征向量的方法具有特征构造灵活,效率和准确率较高的优点。使用基于核的分类器对实例进行二元或者多元的分类,其主要优点是能够将低维线性不可分问题通过对特征进行组合或者分解,映射到高维空间,转化为线性可分问题,同时通过对核函数的计算,隐藏了映射的细节,从而使得时空复杂性降低到可以接受的范围。核方法一般是和支持向量机等线性分类器配合使用的,它将复杂的分类问题分为两个部分,分别是与问题无关的线性分类器,以及与问题相关的核函数。其中核函数的作用是通过对具体分类问题的分析,隐式的将线性不可分问题映射到高维空间,然后使用线性分类器进行分类。
本发明还提供了一种短句解析模型建立系统,其特点在于,包括:
一语句切分模块,用于获取原始语句,并将原始语句切分为词序列;
一词性赋予模块,用于根据预存的词性规则为该词序列中的每个词赋予一词性;
一命名实体识别模块,用于根据各个词及其词性识别命名实体,命名实体包括人名、地名、机构名;
一语法成分识别模块,用于根据各个词、词性及命名实体识别各个词在原始语句中的语法成分;
一依存分析模块,用于分析各个语法成分之间的依存关系,并根据各个语法成分之间的依存关系,抽取语法成分作为特征;
一特征组合模块,用于将该依存分析模块抽取的特征构建为特征向量,并使用二次多项式核对特征向量中的特征进行两两组合形成二元分类的特征组合;
一存储模块,用于将特征向量及二元分类的特征组合存储至一模型中。
较佳地,该命名实体识别模块用于首先采用底层隐马尔可夫模型识别普通无嵌套的命名实体、并获取若干最佳识别结果,然后采用高层隐马尔可夫模型、并利用该若干最佳识别结果识别具有嵌套结构的命名实体。
较佳地,该命名实体识别模块采用的底层隐马尔可夫模型和高层隐马尔可夫模型都采用Viterbi算法。
较佳地,该语法成分识别模块还用于根据各个词、词性及命名实体识别各个词标识动词性谓词及其语义,并根据预存的一词表从各个词中找出有可能充当动词的名词,并进行标识为谓词。
较佳地,该特征组合模块抽取的特征包括句法成分特征和谓词特征,谓词特征包括谓词原形、谓词语态、子类框架。
在符合本领域常识的基础上,上述各优选条件,可任意组合,即得本发明各较佳实例。
本发明的积极进步效果在于:
本发明的短句解析模型建立方法及系统能够根据实际数据进行优化,在一定程度上模拟自然语言中局部的约束关系,从而大大提高了对于自然语言短句的识别解析的准确性。
附图说明
图1为本发明实施例1的短句解析模型建立方法的流程图。
图2为本发明实施例2的短句解析模型建立系统的示意图。
具体实施方式
下面结合附图给出本发明较佳实施例,以详细说明本发明的技术方案,但并不因此将本发明限制在所述的实施例范围之中。
实施例1
如图1所示,本实施例的短句解析模型建立方法包括以下步骤:
S1、获取原始语句;
S2、将原始语句切分为词序列;
S3、根据预存的词性规则为该词序列中的每个词赋予一词性;
S4、根据各个词及其词性识别命名实体,命名实体包括人名、地名、机构名;
S5、根据各个词、词性及命名实体识别各个词在原始语句中的语法成分;
S6、分析各个语法成分之间的依存关系;
S7、根据各个语法成分之间的依存关系,抽取语法成分作为特征;
S8、将抽取的特征构建为特征向量,并使用二次多项式核对特征向量中的特征进行两两组合形成二元分类的特征组合;
S9、将特征向量及二元分类的特征组合存储至一模型中。
其中该步骤S4包括以下步骤:
S41、采用底层隐马尔可夫模型识别普通无嵌套的命名实体,并获取若干最佳识别结果;
S42、采用高层隐马尔可夫模型、并利用该若干最佳识别结果,识别具有嵌套结构的命名实体。
步骤S5还包括:根据各个词、词性及命名实体识别各个词标识动词性谓词及其语义,并根据预存的一词表从各个词中找出有可能充当动词的名词,并进行标识为谓词。
并且,该步骤S41和S42中的底层隐马尔可夫模型和高层隐马尔可夫模型都采用Viterbi算法。该步骤S8中抽取的特征包括句法成分特征和谓词特征,谓词特征包括谓词原形、谓词语态、子类框架。
实施例2
参考图2所示,本实施例的短句解析模型建立系统,包括一语句切分模块1、一词性赋予模块2、一命名实体识别模块3、一语法成分识别模块4、一依存分析模块5、一特征组合模块6和一存储模块7。
该语句切分模块用于获取原始语句、并将原始语句切分为词序列。该词性赋予模块用于根据预存的词性规则为该词序列中的每个词赋予一词性。该命名实体识别模块用于根据各个词及其词性识别命名实体,命名实体包括人名、地名、机构名。该语法成分识别模块用于根据各个词、词性及命名实体识别各个词在原始语句中的语法成分。该依存分析模块,用于分析各个语法成分之间的依存关系,并根据各个语法成分之间的依存关系,抽取语法成分作为特征。该特征组合模块,用于将该依存分析模块抽取的特征构建为特征向量,并使用二次多项式核对特征向量中的特征进行两两组合形成二元分类的特征组合。该存储模块用于将特征向量及二元分类的特征组合存储至一模型中。
其中,该命名实体识别模块用于首先采用底层隐马尔可夫模型识别普通无嵌套的命名实体、并获取若干最佳识别结果,然后采用高层隐马尔可夫模型、并利用该若干最佳识别结果识别具有嵌套结构的命名实体。该命名实体识别模块采用的底层隐马尔可夫模型和高层隐马尔可夫模型都采用Viterbi算法。
并且,该语法成分识别模块还用于根据各个词、词性及命名实体识别各个词标识动词性谓词及其语义,并根据预存的一词表从各个词中找出有可能充当动词的名词,并进行标识为谓词。
该特征组合模块抽取的特征包括句法成分特征和谓词特征,谓词特征包括谓词原形、谓词语态、子类框架。
虽然以上描述了本发明的具体实施方式,但是本领域的技术人员应当理解,这些仅是举例说明,本发明的保护范围是由所附权利要求书限定的。本领域的技术人员在不背离本发明的原理和实质的前提下,可以对这些实施方式做出多种变更或修改,但这些变更和修改均落入本发明的保护范围。

Claims (10)

1.一种短句解析模型建立方法,其特征在于,包括以下步骤:
S1、获取原始语句;
S2、将原始语句切分为词序列;
S3、根据预存的词性规则为该词序列中的每个词赋予一词性;
S4、根据各个词及其词性识别命名实体,命名实体包括人名、地名、机构名;
S5、根据各个词、词性及命名实体识别各个词在原始语句中的语法成分;
S6、分析各个语法成分之间的依存关系;
S7、根据各个语法成分之间的依存关系,抽取语法成分作为特征;
S8、将抽取的特征构建为特征向量,并使用二次多项式核对特征向量中的特征进行两两组合形成二元分类的特征组合;
S9、将特征向量及二元分类的特征组合存储至一模型中。
2.如权利要求1所述的短句解析模型建立方法,其特征在于,该步骤S4包括以下步骤:
S41、采用底层隐马尔可夫模型识别普通无嵌套的命名实体,并获取若干最佳识别结果;
S42、采用高层隐马尔可夫模型、并利用该若干最佳识别结果,识别具有嵌套结构的命名实体。
3.如权利要求2所述的短句解析模型建立方法,其特征在于,该步骤S41和S42中的底层隐马尔可夫模型和高层隐马尔可夫模型都采用Viterbi算法。
4.如权利要求1-3中任意一项所述的短句解析模型建立方法,其特征在于,该步骤S5还包括:根据各个词、词性及命名实体识别各个词并标识动词性谓词及其语义,并根据预存的一词表从各个词中找出有可能充当动词的名词,并进行标识为谓词。
5.如权利要求1所述的短句解析模型建立方法,其特征在于,该步骤S8中抽取的特征包括句法成分特征和谓词特征,谓词特征包括谓词原形、谓词语态、子类框架。
6.一种短句解析模型建立系统,其特征在于,包括:
一语句切分模块,用于获取原始语句,并将原始语句切分为词序列;
一词性赋予模块,用于根据预存的词性规则为该词序列中的每个词赋予一词性;
一命名实体识别模块,用于根据各个词及其词性识别命名实体,命名实体包括人名、地名、机构名;
一语法成分识别模块,用于根据各个词、词性及命名实体识别各个词在原始语句中的语法成分;
一依存分析模块,用于分析各个语法成分之间的依存关系,并根据各个语法成分之间的依存关系,抽取语法成分作为特征;
一特征组合模块,用于将该依存分析模块抽取的特征构建为特征向量,并使用二次多项式核对特征向量中的特征进行两两组合形成二元分类的特征组合;
一存储模块,用于将特征向量及二元分类的特征组合存储至一模型中。
7.如权利要求6所述的短句解析模型建立系统,其特征在于,该命名实体识别模块用于首先采用底层隐马尔可夫模型识别普通无嵌套的命名实体、并获取若干最佳识别结果,然后采用高层隐马尔可夫模型、并利用该若干最佳识别结果识别具有嵌套结构的命名实体。
8.如权利要求7所述的短句解析模型建立系统,其特征在于,该命名实体识别模块采用的底层隐马尔可夫模型和高层隐马尔可夫模型都采用Viterbi算法。
9.如权利要求6-8中任意一项所述的短句解析模型建立系统,其特征在于,该语法成分识别模块还用于根据各个词、词性及命名实体识别各个词并标识动词性谓词及其语义,并根据预存的一词表从各个词中找出有可能充当动词的名词,并进行标识为谓词。
10.如权利要求6所述的短句解析模型建立系统,其特征在于,该特征组合模块抽取的特征包括句法成分特征和谓词特征,谓词特征包括谓词原形、谓词语态、子类框架。
CN201410459446.0A 2014-09-10 2014-09-10 短句解析模型建立方法及系统 Active CN104199811B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410459446.0A CN104199811B (zh) 2014-09-10 2014-09-10 短句解析模型建立方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410459446.0A CN104199811B (zh) 2014-09-10 2014-09-10 短句解析模型建立方法及系统

Publications (2)

Publication Number Publication Date
CN104199811A CN104199811A (zh) 2014-12-10
CN104199811B true CN104199811B (zh) 2017-06-16

Family

ID=52085106

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410459446.0A Active CN104199811B (zh) 2014-09-10 2014-09-10 短句解析模型建立方法及系统

Country Status (1)

Country Link
CN (1) CN104199811B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106156196A (zh) * 2015-04-22 2016-11-23 富士通株式会社 提取文本特征的装置和方法
CN107783957B (zh) * 2016-08-30 2021-05-18 中国电信股份有限公司 本体创建方法和装置
CN108874917B (zh) * 2018-05-30 2021-11-23 北京五八信息技术有限公司 意图识别方法、装置、设备及存储介质
CN112560488A (zh) * 2020-12-07 2021-03-26 北京明略软件系统有限公司 名词短语的提取方法、系统、存储介质及电子设备

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101201819A (zh) * 2007-11-28 2008-06-18 北京金山软件有限公司 一种树库转化方法及树库转化系统
CN101477518A (zh) * 2009-01-09 2009-07-08 昆明理工大学 基于条件随机场的旅游领域命名实体识别方法
CN102135957A (zh) * 2010-01-22 2011-07-27 阿里巴巴集团控股有限公司 一种翻译短句的方法及装置
CN103020148A (zh) * 2012-11-23 2013-04-03 复旦大学 一种将中文短语结构树库转化为依存结构树库的系统和方法
CN103336766A (zh) * 2013-07-04 2013-10-02 微梦创科网络科技(中国)有限公司 短文本垃圾识别以及建模方法和装置
CN103530284A (zh) * 2013-09-22 2014-01-22 中国专利信息中心 短句切分装置、机器翻译系统及对应切分方法和翻译方法
CN103886053A (zh) * 2014-03-13 2014-06-25 电子科技大学 一种基于短文本评论的知识库构建方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101201819A (zh) * 2007-11-28 2008-06-18 北京金山软件有限公司 一种树库转化方法及树库转化系统
CN101477518A (zh) * 2009-01-09 2009-07-08 昆明理工大学 基于条件随机场的旅游领域命名实体识别方法
CN102135957A (zh) * 2010-01-22 2011-07-27 阿里巴巴集团控股有限公司 一种翻译短句的方法及装置
CN103020148A (zh) * 2012-11-23 2013-04-03 复旦大学 一种将中文短语结构树库转化为依存结构树库的系统和方法
CN103336766A (zh) * 2013-07-04 2013-10-02 微梦创科网络科技(中国)有限公司 短文本垃圾识别以及建模方法和装置
CN103530284A (zh) * 2013-09-22 2014-01-22 中国专利信息中心 短句切分装置、机器翻译系统及对应切分方法和翻译方法
CN103886053A (zh) * 2014-03-13 2014-06-25 电子科技大学 一种基于短文本评论的知识库构建方法

Also Published As

Publication number Publication date
CN104199811A (zh) 2014-12-10

Similar Documents

Publication Publication Date Title
CN111241294B (zh) 基于依赖解析和关键词的图卷积网络的关系抽取方法
CN106294593B (zh) 结合从句级远程监督和半监督集成学习的关系抽取方法
US20190073357A1 (en) Hybrid classifier for assigning natural language processing (nlp) inputs to domains in real-time
CN105446966B (zh) 生成关系数据转换为rdf格式数据的映射规则的方法和装置
US9529898B2 (en) Clustering classes in language modeling
CN111145052A (zh) 司法文书的结构化分析方法及系统
KR20210158344A (ko) 디지털 어시스턴트를 위한 머신 러닝 시스템
CN107273913B (zh) 一种基于多特征融合的短文本相似度计算方法
CN110619051B (zh) 问题语句分类方法、装置、电子设备及存储介质
CN111931506A (zh) 一种基于图信息增强的实体关系抽取方法
CN109887484A (zh) 一种基于对偶学习的语音识别与语音合成方法及装置
CN104391942A (zh) 基于语义图谱的短文本特征扩展方法
CN110111780A (zh) 数据处理方法和服务器
JP2005084681A (ja) 意味的言語モデル化および信頼性測定のための方法およびシステム
CN103678684A (zh) 一种基于导航信息检索的中文分词方法
WO2021147041A1 (zh) 语义分析方法、装置、设备及存储介质
JP2005292832A (ja) 意味管理を用いた言語モデル適応
CN103077720B (zh) 一种说话人识别方法及系统
CN109976702A (zh) 一种语音识别方法、装置及终端
CN101178896A (zh) 基于声学统计模型的单元挑选语音合成方法
CN105261358A (zh) 用于语音识别的n元文法模型构造方法及语音识别系统
CN104199811B (zh) 短句解析模型建立方法及系统
CN107491556A (zh) 时空全要素语义查询服务系统及其方法
CN112562640B (zh) 多语言语音识别方法、装置、系统及计算机可读存储介质
CN104572631A (zh) 一种语言模型的训练方法及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C41 Transfer of patent application or patent right or utility model
TA01 Transfer of patent application right

Effective date of registration: 20160203

Address after: 200335 Shanghai city Changning District Admiralty Road No. 968 Building No. 16 10 floor

Applicant after: SHANGHAI XIECHENG BUSINESS CO., LTD.

Address before: 200335 Shanghai City, Changning District Fuquan Road No. 99, Ctrip network technology building

Applicant before: Ctrip computer technology (Shanghai) Co., Ltd.

GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20181119

Address after: No. 99 Fuquan Road, Changning District, Shanghai, 2003

Patentee after: Ctrip Travel Network Technology (Shanghai) Co., Ltd.

Address before: 10th Floor, Building 16, 968 Jinzhong Road, Changning District, Shanghai, 2003

Patentee before: SHANGHAI XIECHENG BUSINESS CO., LTD.