CN104317846A - 一种语义分析与标注方法及系统 - Google Patents
一种语义分析与标注方法及系统 Download PDFInfo
- Publication number
- CN104317846A CN104317846A CN201410537869.XA CN201410537869A CN104317846A CN 104317846 A CN104317846 A CN 104317846A CN 201410537869 A CN201410537869 A CN 201410537869A CN 104317846 A CN104317846 A CN 104317846A
- Authority
- CN
- China
- Prior art keywords
- semantic
- paragraph
- participle
- word
- dimension
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种语义分析与标注方法及系统,该方法包括:进行段落分词;通过本体和语法规则,对分词后的段落内的词或词组进行语义标注,将段落从文本转变为概念组合体;进行段落-维度结构化关联,将段落在语义空间上的点坐标表示出来,并将其按照结构化形式存储到存储系统中。本发明中,所有段落就是格式统一的表达方式,便于检索和计算。
Description
技术领域
本发明涉及数据网络技术领域,尤其涉及一种语义分析与标注方法及系统。
背景技术
目前,随着互联网的发展,个人和企业获得的信息越来越多,但面对如此纷繁复杂的信息,用户往往无法从中提取出真正有效的信息。现有技术在文档自然词汇空间中,只能实现关键词兴致的搜索,无法体现语义信息,更不便于语义上的计算。
发明内容
为了解决背景技术中存在的技术问题,本发明提出了一种语义分析与标注方法及系统,使所有段落的表达格式统一,便于检索和计算。
本发明提出的一种语义分析与标注方法,包括以下步骤:
进行段落分词;
通过本体和语法规则,对分词后的段落内的词或词组进行语义标注,将段落从文本转变为概念组合体,以便进行相应语义计算,抽取语义维度以及维度强度;
进行段落-维度结构化关联,将段落在语义空间上的点坐标表示出来,并将其按照结构化形式存储到存储系统中,实现文档在语义维度下的结构化表示。
优选地,所述段落分词为中文分词,包括基于字符串匹配的分词、基于理解的分词和基于统计的分词。
优选地,所述段落分词使用六字位标注集的基于条件随机场模型的中文分词系统。
优选地,所述基于字符串匹配的分包括正向最大匹配法、反向最大匹配法、双向最大匹配法。
优选地,所述语义维度包括性质维度、力量与权威维度、行到或活动维度。
本发明提出的一种语义分析与标注系统,包括:
分词模块,用于进行段落分词;
标注模块,与所述分词模块连接,用于通过本体和语法规则,对分词后的段落内的词或词组进行语义标注,将段落从文本转变为概念组合体,以便进行相应语义计算,抽取语义维度以及维度强度;
结构化关联模块,与所述标注模块连接,用于进行段落-维度结构化关联,将段落在语义空间上的点坐标表示出来,并将其按照结构化形式存储到存储系统中,实现文档在语义维度下的结构化表示。
优选地,所述分词模块进行中文分词,包括基于字符串匹配的分词、基于理解的分词和基于统计的分词。
优选地,所述段落分词使用六字位标注集的基于条件随机场模型的中文分词系统。
优选地,所述基于字符串匹配的分包括正向最大匹配法、反向最大匹配法、双向最大匹配法。
本发明中,所有段落的表达格式统一,便于检索和计算,能有效提高用户搜索准确率。
附图说明
图1为本发明实施例提出的一种语义分析与标注方法流程图;
图2为本发明实施例提出的一种语义分析与标注系统结构图。
具体实施方式
如图1所示,本发明实施例提出了一种语义分析与标注方法,包括以下步骤:
步骤101,进行段落分词。其中,段落分词包括字符串匹配分词、最短路径分词和词义分词法等。其中,字符串匹配分词方法又分为:(1)正向最大匹配法,就是把一个词从左至右来分词,例如“不知道你在说什么”这句话采用正向最大匹配法分为“不知道,你,在,说什么”。(2)反向最大匹配法,就是从右至左。(3)双向最大匹配法,有一种特殊的情况,就是关键词前后组合内容被认为粘性相差不大,而搜索结果中也同时包含这两组词,则进行正反向同时进行分词匹配。(4)最短路径分词法,一段话里面要求切出的词数是最少的,“不知道你在说什么”最短路径分词法就是指,把上面那句话分成的词要是最少的。“不知道,你在,说什么”,这就是最短路径分词法,分出来就只有3个词了。词义分词法,是一种机器语音判断的分词方法,进行句法、语义分析,利用句法信息和语义信息来处理歧义现象来分词。统计分词法,根据词组的统计,会发现两个相邻的字出现的频率最多,那么这个词就很重要,就可以作为用户提供字符串中的分隔符。比如,“我的,你的,许多的,这里,这一,那里”等,这些词出现的比较多,就从这些词里面分开来。
段落分词作为自然语言处理的基础环节,同时也是关键环节之一,其质量好坏直接影响后续搜索、文本分类、文本聚类、情感分析等子系统的准确率。例如,中文分词包括三种方法:1)基于字符串匹配的分词;2)基于理解的分词;3)基于统计的分词。本发明使用六字位标注集的基于条件随机场模型的中文分词系统,改变了以往分词系统只使用字标注集,过分依赖统计,无法利用先验知识的缺陷;增加纠错词库,对待分词语句先用纠错词库粗切分,在此基础上再利用条件随机场模型切分,中文分词准确率大于99.7%。
步骤102,通过本体和语法规则,对分词后的段落内的词或词组进行语义标注。语义标注是为文本中的词分配词性信息(例如名词、动词等),结合分词后的词性特征,能有效提高理解用户搜索准确率。同时,在情感分析子系统中,如果判别错误词性,就会影响极性词、修饰词的识别,严重影响情感分析准确率。本发明采用基于HMM的3-gram词性标注方法,准确率达到大于98.5。
通过这种词汇向语义概念的转换,将段落从文本转变为概念组合体,以便进行相应语义计算,抽取语义维度以及维度强度。其中,语义维度包括:性质维度,指对某种事物的价值予以评定;力量与权威维度,指将来有机会学习或接受训练时可能达到的程度;行到或活动维度,指个体对于各种活动的参与性。维度强度指每个维度语义表达意思的强弱程度,在确定了评价维度后,在每个语义维度上选择具体的评价指标,该指标是由两个相对的形容词构成,该两个形容词分别放在该指标的两端,其间分为多个等级。比如性质维度上可选好与坏,善与恶等。其中,语法规则包括组合规则和聚合规则,其中,组合规则指语言单位一个接着一个组合起来的规则,是现实的,存在于话语中,包括语素组合成词的规则和词组合成句子的规则,前者叫构词法,与词的变化规则合在一起叫做词法,后者叫做句法。聚合规则,指语法单位的分类和变化规则,是潜在的,储存于人们的脑子中;潜存在脑子中的聚合是从话语中归纳出来的,说话时组合规则提出要求,聚合规则提供可能。从聚合中选出的单位对组合的各个位置上可能出现的词进行替换,就能造出新的句子。其中,语义就是语言的意义,是语言形式所表达的内容;语义的类型包括词语和句子的意义;词语的意义首先可分语言意义和言语意义两种;言语意义一般是语用学研究的对象;语言意义又可分成语汇意义和语法意义两类。语汇意义是词语在语汇系统中的独立的意义,语法意义是词语在语法系统中的关系意义或功能意义。
步骤103,进行段落-维度结构化关联,将段落在语义空间上的点坐标表示出来,并将其按照结构化形式存储到存储系统中,实现文档在语义维度下的结构化表示。结构化的好处是所有段落就是格式统一的表达方式,便于检索和计算。通过段落-维度结构化关联这个过程,将段落根据维度特征库,计算出各种维度(包括内置维度和用户自定义维度)的强度值;段落即可以在语义空间中即可以表示为一个点,然后段落语义信息结构化是进行维度识别的基础,语义词汇与段落之间可实现标准的SQL互查询。
如图2所示,本发明实施例提出的一种语义分析与标注系统,包括:分词模块10,用于进行段落分词;标注模块20,与所述分词模块10连接,用于通过本体和语法规则,对分词后的段落内的词或词组进行语义标注,将段落从文本转变为概念组合体,以便进行相应语义计算,抽取语义维度以及维度强度;结构化关联模块30,与所述标注模块20连接,用于进行段落-维度结构化关联,将段落在语义空间上的点坐标表示出来,并将其按照结构化形式存储到存储系统中,实现文档在语义维度下的结构化表示。
所述分词模块进行中文分词,包括基于字符串匹配的分词、基于理解的分词和基于统计的分词。
所述段落分词使用六字位标注集的基于条件随机场模型的中文分词系统。
所述基于字符串匹配的分包括正向最大匹配法、反向最大匹配法、双向最大匹配法。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。
Claims (9)
1.一种语义分析与标注方法,其特征在于,包括以下步骤:
进行段落分词;
通过本体和语法规则,对分词后的段落内的词或词组进行语义标注,将段落从文本转变为概念组合体,以便进行相应语义计算,抽取语义维度以及维度强度;
进行段落-维度结构化关联,将段落在语义空间上的点坐标表示出来,并将其按照结构化形式存储到存储系统中,实现文档在语义维度下的结构化表示。
2.根据权利要求1所述的语义分析与标注方法,其特征在于,所述段落分词为中文分词,包括基于字符串匹配的分词、基于理解的分词和基于统计的分词。
3.根据权利要求2所述的语义分析与标注方法,其特征在于,所述段落分词使用六字位标注集的基于条件随机场模型的中文分词系统。
4.根据权利要求1所述的语义分析与标注方法,其特征在于,所述基于字符串匹配的分包括正向最大匹配法、反向最大匹配法和双向最大匹配法。
5.根据权利要求1所述的语义分析与标注方法,其特征在于,所述语义维度包括性质维度、力量与权威维度和行到或活动维度。
6.一种语义分析与标注系统,其特征在于,包括:
分词模块,用于进行段落分词;
标注模块,与所述分词模块连接,用于通过本体和语法规则,对分词后的段落内的词或词组进行语义标注,将段落从文本转变为概念组合体,以便进行相应语义计算,抽取语义维度以及维度强度;
结构化关联模块,与所述标注模块连接,用于进行段落-维度结构化关联,将段落在语义空间上的点坐标表示出来,并将其按照结构化形式存储到存储系统中,实现文档在语义维度下的结构化表示。
7.根据权利要求6所述的语义分析与标注系统,其特征在于,所述分词模块进行中文分词,包括基于字符串匹配的分词、基于理解的分词和基于统计的分词。
8.根据权利要求7所述的语义分析与标注系统,其特征在于,所述段落分词使用六字位标注集的基于条件随机场模型的中文分词系统。
9.根据权利要求7所述的语义分析与标注系统,其特征在于,所述基于字符串匹配的分包括正向最大匹配法、反向最大匹配法、双向最大匹配法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410537869.XA CN104317846A (zh) | 2014-10-13 | 2014-10-13 | 一种语义分析与标注方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410537869.XA CN104317846A (zh) | 2014-10-13 | 2014-10-13 | 一种语义分析与标注方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN104317846A true CN104317846A (zh) | 2015-01-28 |
Family
ID=52373078
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410537869.XA Pending CN104317846A (zh) | 2014-10-13 | 2014-10-13 | 一种语义分析与标注方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104317846A (zh) |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105243052A (zh) * | 2015-09-15 | 2016-01-13 | 浪潮软件集团有限公司 | 一种语料标注方法、装置和系统 |
CN106502988A (zh) * | 2016-11-02 | 2017-03-15 | 深圳市空谷幽兰人工智能科技有限公司 | 一种目标属性抽取的方法和设备 |
CN106599041A (zh) * | 2016-11-07 | 2017-04-26 | 中国电子科技集团公司第三十二研究所 | 基于大数据平台的文本处理及检索系统 |
CN107133311A (zh) * | 2017-04-28 | 2017-09-05 | 安徽博约信息科技股份有限公司 | 基于区域编码的网络信息归属地索引标记方法 |
CN107391650A (zh) * | 2017-07-14 | 2017-11-24 | 北京神州泰岳软件股份有限公司 | 一种文档的结构化拆分方法,装置及系统 |
CN107783957A (zh) * | 2016-08-30 | 2018-03-09 | 中国电信股份有限公司 | 本体创建方法和装置 |
CN108319605A (zh) * | 2017-01-16 | 2018-07-24 | 医渡云(北京)技术有限公司 | 医学检查数据的结构化处理方法及系统 |
CN108491472A (zh) * | 2018-03-07 | 2018-09-04 | 新博卓畅技术(北京)有限公司 | 一种基于crf++分词构建医疗特征库的方法和系统 |
CN109086262A (zh) * | 2017-06-14 | 2018-12-25 | 财团法人资讯工业策进会 | 语意分析装置、方法及其电脑存储介质 |
CN109753642A (zh) * | 2017-11-06 | 2019-05-14 | 节金旗 | 中文语法标注 |
CN110134955A (zh) * | 2019-05-14 | 2019-08-16 | 中电协通科技(张家口)有限公司 | 一种语义处理方法 |
WO2020007027A1 (zh) * | 2018-07-04 | 2020-01-09 | 平安科技(深圳)有限公司 | 线上问答方法、装置、计算机设备和存储介质 |
CN110807330A (zh) * | 2019-09-09 | 2020-02-18 | 腾讯科技(深圳)有限公司 | 语义理解模型评估方法、装置及存储介质 |
CN111435405A (zh) * | 2019-01-15 | 2020-07-21 | 北京行数通科技有限公司 | 一种文章关键句自动标注方法及装置 |
CN117953875A (zh) * | 2024-03-27 | 2024-04-30 | 成都启英泰伦科技有限公司 | 一种基于语义理解的离线语音命令词存储方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102682122A (zh) * | 2012-05-15 | 2012-09-19 | 北京科技大学 | 基于本体构建材料科学领域语义数据模型的方法 |
CN102789479A (zh) * | 2012-06-08 | 2012-11-21 | 复旦大学 | 一种基于搜索结果语义分析的词汇相关度计算方法 |
CN103136360A (zh) * | 2013-03-07 | 2013-06-05 | 北京宽连十方数字技术有限公司 | 一种互联网行为标注引擎及对应该引擎的行为标注方法 |
CN103678273A (zh) * | 2012-09-14 | 2014-03-26 | 安徽华贞信息科技有限公司 | 互联网段落级话题识别系统 |
-
2014
- 2014-10-13 CN CN201410537869.XA patent/CN104317846A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102682122A (zh) * | 2012-05-15 | 2012-09-19 | 北京科技大学 | 基于本体构建材料科学领域语义数据模型的方法 |
CN102789479A (zh) * | 2012-06-08 | 2012-11-21 | 复旦大学 | 一种基于搜索结果语义分析的词汇相关度计算方法 |
CN103678273A (zh) * | 2012-09-14 | 2014-03-26 | 安徽华贞信息科技有限公司 | 互联网段落级话题识别系统 |
CN103136360A (zh) * | 2013-03-07 | 2013-06-05 | 北京宽连十方数字技术有限公司 | 一种互联网行为标注引擎及对应该引擎的行为标注方法 |
Cited By (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105243052A (zh) * | 2015-09-15 | 2016-01-13 | 浪潮软件集团有限公司 | 一种语料标注方法、装置和系统 |
CN107783957A (zh) * | 2016-08-30 | 2018-03-09 | 中国电信股份有限公司 | 本体创建方法和装置 |
CN107783957B (zh) * | 2016-08-30 | 2021-05-18 | 中国电信股份有限公司 | 本体创建方法和装置 |
CN106502988B (zh) * | 2016-11-02 | 2019-06-07 | 广东惠禾科技发展有限公司 | 一种目标属性抽取的方法和设备 |
CN106502988A (zh) * | 2016-11-02 | 2017-03-15 | 深圳市空谷幽兰人工智能科技有限公司 | 一种目标属性抽取的方法和设备 |
CN106599041A (zh) * | 2016-11-07 | 2017-04-26 | 中国电子科技集团公司第三十二研究所 | 基于大数据平台的文本处理及检索系统 |
CN108319605A (zh) * | 2017-01-16 | 2018-07-24 | 医渡云(北京)技术有限公司 | 医学检查数据的结构化处理方法及系统 |
CN108319605B (zh) * | 2017-01-16 | 2022-01-28 | 医渡云(北京)技术有限公司 | 医学检查数据的结构化处理方法及系统 |
CN107133311A (zh) * | 2017-04-28 | 2017-09-05 | 安徽博约信息科技股份有限公司 | 基于区域编码的网络信息归属地索引标记方法 |
CN109086262A (zh) * | 2017-06-14 | 2018-12-25 | 财团法人资讯工业策进会 | 语意分析装置、方法及其电脑存储介质 |
CN107391650A (zh) * | 2017-07-14 | 2017-11-24 | 北京神州泰岳软件股份有限公司 | 一种文档的结构化拆分方法,装置及系统 |
CN109753642A (zh) * | 2017-11-06 | 2019-05-14 | 节金旗 | 中文语法标注 |
CN108491472A (zh) * | 2018-03-07 | 2018-09-04 | 新博卓畅技术(北京)有限公司 | 一种基于crf++分词构建医疗特征库的方法和系统 |
WO2020007027A1 (zh) * | 2018-07-04 | 2020-01-09 | 平安科技(深圳)有限公司 | 线上问答方法、装置、计算机设备和存储介质 |
CN111435405A (zh) * | 2019-01-15 | 2020-07-21 | 北京行数通科技有限公司 | 一种文章关键句自动标注方法及装置 |
CN110134955A (zh) * | 2019-05-14 | 2019-08-16 | 中电协通科技(张家口)有限公司 | 一种语义处理方法 |
CN110807330A (zh) * | 2019-09-09 | 2020-02-18 | 腾讯科技(深圳)有限公司 | 语义理解模型评估方法、装置及存储介质 |
CN110807330B (zh) * | 2019-09-09 | 2023-04-07 | 腾讯科技(深圳)有限公司 | 语义理解模型评估方法、装置及存储介质 |
CN117953875A (zh) * | 2024-03-27 | 2024-04-30 | 成都启英泰伦科技有限公司 | 一种基于语义理解的离线语音命令词存储方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104317846A (zh) | 一种语义分析与标注方法及系统 | |
CN103885938B (zh) | 基于用户反馈的行业拼写错误检查方法 | |
US9530405B2 (en) | Intention estimating device and intention estimating method | |
CN106610951A (zh) | 改进的基于语义分析的文本相似度求解算法 | |
CN102214166B (zh) | 基于句法分析和层次模型的机器翻译系统和方法 | |
CN110502642B (zh) | 一种基于依存句法分析与规则的实体关系抽取方法 | |
CN108536677A (zh) | 一种专利文本相似度计算方法 | |
CN105975625A (zh) | 一种面向英文搜索引擎的中式英文查询纠错方法和系统 | |
CN103309926A (zh) | 基于条件随机场的中英文混合命名实体识别方法及系统 | |
CN103116578A (zh) | 一种融合句法树和统计机器翻译技术的翻译方法与装置 | |
CN105320650B (zh) | 一种基于语料匹配和语法分析的机器翻译方法及其系统 | |
CN106611041A (zh) | 一种新的文本相似度求解方法 | |
CN104375988A (zh) | 一种词语对齐方法及装置 | |
CN104133812A (zh) | 一种面向用户查询意图的汉语句子相似度分层计算方法及装置 | |
Arisoy et al. | Discriminative language modeling with linguistic and statistically derived features | |
CN104750676B (zh) | 机器翻译处理方法及装置 | |
Misu et al. | A bootstrapping approach for SLU portability to a new language by inducting unannotated user queries | |
Kapočiūtė-Dzikienė et al. | Character-based machine learning vs. language modeling for diacritics restoration | |
Fenogenova et al. | A general method applicable to the search for anglicisms in russian social network texts | |
Ramesh et al. | Interpretable natural language segmentation based on link grammar | |
Sajjad | Statistical part of speech tagger for Urdu | |
CN105718442A (zh) | 一种基于句法分析的词义消歧方法 | |
Ginestí-Rosell et al. | Development of a free Basque to Spanish machine translation system | |
Paul et al. | Word segmentation for dialect translation | |
JP6058563B2 (ja) | モデル学習装置、フィルタ装置、方法、及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20150128 |