CN104317846A

CN104317846A - 一种语义分析与标注方法及系统

Info

Publication number: CN104317846A
Application number: CN201410537869.XA
Authority: CN
Inventors: 贾岩
Original assignee: ANHUI HUAZHEN INFORMATION SCIENCE & TECHNOLOGY Co Ltd
Current assignee: ANHUI HUAZHEN INFORMATION SCIENCE & TECHNOLOGY Co Ltd
Priority date: 2014-10-13
Filing date: 2014-10-13
Publication date: 2015-01-28

Abstract

本发明公开了一种语义分析与标注方法及系统，该方法包括：进行段落分词；通过本体和语法规则，对分词后的段落内的词或词组进行语义标注，将段落从文本转变为概念组合体；进行段落-维度结构化关联，将段落在语义空间上的点坐标表示出来，并将其按照结构化形式存储到存储系统中。本发明中，所有段落就是格式统一的表达方式，便于检索和计算。

Description

一种语义分析与标注方法及系统

技术领域

本发明涉及数据网络技术领域，尤其涉及一种语义分析与标注方法及系统。

背景技术

目前，随着互联网的发展，个人和企业获得的信息越来越多，但面对如此纷繁复杂的信息，用户往往无法从中提取出真正有效的信息。现有技术在文档自然词汇空间中，只能实现关键词兴致的搜索，无法体现语义信息，更不便于语义上的计算。

发明内容

为了解决背景技术中存在的技术问题，本发明提出了一种语义分析与标注方法及系统，使所有段落的表达格式统一，便于检索和计算。

本发明提出的一种语义分析与标注方法，包括以下步骤：

进行段落分词；

通过本体和语法规则，对分词后的段落内的词或词组进行语义标注，将段落从文本转变为概念组合体，以便进行相应语义计算，抽取语义维度以及维度强度；

进行段落-维度结构化关联，将段落在语义空间上的点坐标表示出来，并将其按照结构化形式存储到存储系统中，实现文档在语义维度下的结构化表示。

优选地，所述段落分词为中文分词，包括基于字符串匹配的分词、基于理解的分词和基于统计的分词。

优选地，所述段落分词使用六字位标注集的基于条件随机场模型的中文分词系统。

优选地，所述基于字符串匹配的分包括正向最大匹配法、反向最大匹配法、双向最大匹配法。

优选地，所述语义维度包括性质维度、力量与权威维度、行到或活动维度。

本发明提出的一种语义分析与标注系统，包括：

分词模块，用于进行段落分词；

标注模块，与所述分词模块连接，用于通过本体和语法规则，对分词后的段落内的词或词组进行语义标注，将段落从文本转变为概念组合体，以便进行相应语义计算，抽取语义维度以及维度强度；

结构化关联模块，与所述标注模块连接，用于进行段落-维度结构化关联，将段落在语义空间上的点坐标表示出来，并将其按照结构化形式存储到存储系统中，实现文档在语义维度下的结构化表示。

优选地，所述分词模块进行中文分词，包括基于字符串匹配的分词、基于理解的分词和基于统计的分词。

本发明中，所有段落的表达格式统一，便于检索和计算，能有效提高用户搜索准确率。

附图说明

图1为本发明实施例提出的一种语义分析与标注方法流程图；

图2为本发明实施例提出的一种语义分析与标注系统结构图。

具体实施方式

如图1所示，本发明实施例提出了一种语义分析与标注方法，包括以下步骤：

步骤101，进行段落分词。其中，段落分词包括字符串匹配分词、最短路径分词和词义分词法等。其中，字符串匹配分词方法又分为：(1)正向最大匹配法，就是把一个词从左至右来分词，例如“不知道你在说什么”这句话采用正向最大匹配法分为“不知道，你，在，说什么”。(2)反向最大匹配法，就是从右至左。(3)双向最大匹配法，有一种特殊的情况，就是关键词前后组合内容被认为粘性相差不大，而搜索结果中也同时包含这两组词，则进行正反向同时进行分词匹配。(4)最短路径分词法，一段话里面要求切出的词数是最少的，“不知道你在说什么”最短路径分词法就是指，把上面那句话分成的词要是最少的。“不知道，你在，说什么”，这就是最短路径分词法，分出来就只有3个词了。词义分词法，是一种机器语音判断的分词方法，进行句法、语义分析，利用句法信息和语义信息来处理歧义现象来分词。统计分词法，根据词组的统计，会发现两个相邻的字出现的频率最多，那么这个词就很重要，就可以作为用户提供字符串中的分隔符。比如，“我的，你的，许多的，这里，这一，那里”等，这些词出现的比较多，就从这些词里面分开来。

段落分词作为自然语言处理的基础环节，同时也是关键环节之一，其质量好坏直接影响后续搜索、文本分类、文本聚类、情感分析等子系统的准确率。例如，中文分词包括三种方法：1)基于字符串匹配的分词；2)基于理解的分词；3)基于统计的分词。本发明使用六字位标注集的基于条件随机场模型的中文分词系统，改变了以往分词系统只使用字标注集，过分依赖统计，无法利用先验知识的缺陷；增加纠错词库，对待分词语句先用纠错词库粗切分，在此基础上再利用条件随机场模型切分，中文分词准确率大于99.7％。

步骤102，通过本体和语法规则，对分词后的段落内的词或词组进行语义标注。语义标注是为文本中的词分配词性信息(例如名词、动词等)，结合分词后的词性特征，能有效提高理解用户搜索准确率。同时，在情感分析子系统中，如果判别错误词性，就会影响极性词、修饰词的识别，严重影响情感分析准确率。本发明采用基于HMM的3-gram词性标注方法，准确率达到大于98.5。

通过这种词汇向语义概念的转换，将段落从文本转变为概念组合体，以便进行相应语义计算，抽取语义维度以及维度强度。其中，语义维度包括：性质维度，指对某种事物的价值予以评定；力量与权威维度，指将来有机会学习或接受训练时可能达到的程度；行到或活动维度，指个体对于各种活动的参与性。维度强度指每个维度语义表达意思的强弱程度，在确定了评价维度后，在每个语义维度上选择具体的评价指标，该指标是由两个相对的形容词构成，该两个形容词分别放在该指标的两端，其间分为多个等级。比如性质维度上可选好与坏，善与恶等。其中，语法规则包括组合规则和聚合规则，其中，组合规则指语言单位一个接着一个组合起来的规则，是现实的，存在于话语中，包括语素组合成词的规则和词组合成句子的规则，前者叫构词法，与词的变化规则合在一起叫做词法，后者叫做句法。聚合规则，指语法单位的分类和变化规则，是潜在的，储存于人们的脑子中；潜存在脑子中的聚合是从话语中归纳出来的，说话时组合规则提出要求，聚合规则提供可能。从聚合中选出的单位对组合的各个位置上可能出现的词进行替换，就能造出新的句子。其中，语义就是语言的意义，是语言形式所表达的内容；语义的类型包括词语和句子的意义；词语的意义首先可分语言意义和言语意义两种；言语意义一般是语用学研究的对象；语言意义又可分成语汇意义和语法意义两类。语汇意义是词语在语汇系统中的独立的意义，语法意义是词语在语法系统中的关系意义或功能意义。

步骤103，进行段落-维度结构化关联，将段落在语义空间上的点坐标表示出来，并将其按照结构化形式存储到存储系统中，实现文档在语义维度下的结构化表示。结构化的好处是所有段落就是格式统一的表达方式，便于检索和计算。通过段落-维度结构化关联这个过程，将段落根据维度特征库，计算出各种维度(包括内置维度和用户自定义维度)的强度值；段落即可以在语义空间中即可以表示为一个点，然后段落语义信息结构化是进行维度识别的基础，语义词汇与段落之间可实现标准的SQL互查询。

如图2所示，本发明实施例提出的一种语义分析与标注系统，包括：分词模块10，用于进行段落分词；标注模块20，与所述分词模块10连接，用于通过本体和语法规则，对分词后的段落内的词或词组进行语义标注，将段落从文本转变为概念组合体，以便进行相应语义计算，抽取语义维度以及维度强度；结构化关联模块30，与所述标注模块20连接，用于进行段落-维度结构化关联，将段落在语义空间上的点坐标表示出来，并将其按照结构化形式存储到存储系统中，实现文档在语义维度下的结构化表示。

所述分词模块进行中文分词，包括基于字符串匹配的分词、基于理解的分词和基于统计的分词。

所述段落分词使用六字位标注集的基于条件随机场模型的中文分词系统。

所述基于字符串匹配的分包括正向最大匹配法、反向最大匹配法、双向最大匹配法。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.一种语义分析与标注方法，其特征在于，包括以下步骤：

进行段落分词；

2.根据权利要求1所述的语义分析与标注方法，其特征在于，所述段落分词为中文分词，包括基于字符串匹配的分词、基于理解的分词和基于统计的分词。

3.根据权利要求2所述的语义分析与标注方法，其特征在于，所述段落分词使用六字位标注集的基于条件随机场模型的中文分词系统。

4.根据权利要求1所述的语义分析与标注方法，其特征在于，所述基于字符串匹配的分包括正向最大匹配法、反向最大匹配法和双向最大匹配法。

5.根据权利要求1所述的语义分析与标注方法，其特征在于，所述语义维度包括性质维度、力量与权威维度和行到或活动维度。

6.一种语义分析与标注系统，其特征在于，包括：

分词模块，用于进行段落分词；

7.根据权利要求6所述的语义分析与标注系统，其特征在于，所述分词模块进行中文分词，包括基于字符串匹配的分词、基于理解的分词和基于统计的分词。

8.根据权利要求7所述的语义分析与标注系统，其特征在于，所述段落分词使用六字位标注集的基于条件随机场模型的中文分词系统。

9.根据权利要求7所述的语义分析与标注系统，其特征在于，所述基于字符串匹配的分包括正向最大匹配法、反向最大匹配法、双向最大匹配法。