CN111291573A

CN111291573A - 有向图意义导向模型驱动的短语语义挖掘方法

Info

Publication number: CN111291573A
Application number: CN202010072516.2A
Authority: CN
Inventors: 高小翎; 王程
Original assignee: Individual
Current assignee: Individual
Priority date: 2020-01-21
Filing date: 2020-01-21
Publication date: 2020-06-16

Abstract

本发明提出的有向图意义导向模型驱动的短语语义挖掘方法，利用Sem‑Graph数据模型实现了典型本体语言Word‑Net的逻辑结构表示，在此基础上实现Word‑Net本体语言的建模工作。对基于Sem‑Graph模型的自然语言文本数据进行语义级的短语结构挖掘，用面向语义的语义模型对自然语言中语句完成建模，实现语句级的语义图数据结构描述，并在此语义图上定义短语语义结构，运用挖掘频繁子图算法实现频繁短语语义的挖掘。能对文档进行恰当的描述和准确的概括，使得每一个最小的处理单元都具备独立且相对完整的语义特征，能从大量文本数据中挖掘出领域相关的高质量短语，充分满足日益增长的短语语义挖掘需求。

Description

有向图意义导向模型驱动的短语语义挖掘方法

技术领域

本发明涉及一种短语语义挖掘方法，特别涉及有向图意义导向模型驱动的短语语义挖掘方法，属于短语语义挖掘技术领域。

背景技术

随着新一代移动互联网技术的快速兴起，越来越多的人喜欢通过社交平台来分享一些有趣和重大的新闻，或者表达自己对一些关注度高和重大社会事件的看法。根据统计，微博每天都会产生数亿条文本，文本数据可以被分解成一系列的相关片段，这些片段不仅形式上简洁，而且还包含了丰富有价值的信息。在数量如此庞大的文本之中，有的文本对事件或观点有着清晰的描述，有的却十分难以理解，为了对这些文本数据进行恰当的描述和准确的概括，以进行大数据分析或者进一步的利用，短语挖掘随之兴起。

短语挖掘从给定的语料库中自动抽取显著短语，它是大量领域文本分析的基础，具有很强的实用性。短语挖掘能够使得对文档的挖掘处理从原先的词汇级变成短语级，使得每一个最小的处理单元都具备独立且相对完整的语义特征。从大量文本数据中挖掘出领域相关的高质量短语现实意义十分重大，它为进一步的文本分析提供了良好基础。

现有技术的短语挖掘的方法包括N-Gram、Chunk、主题模型和频繁项集挖掘等，N-Gram首先对文本数据进行字节流大小为N的滑动窗口操作，每一个长度为N的字符串被看作Gram，然后对所有Gram出现的频率进行分析和统计，根据给定的阈值去除无用的字符串，得到满足要求的短语。Chunk首先利用块识别器找出句子中包含的所有块，然后对每个块内部成分赋予恰当的句法结构，最后通过块连接器将各不同的块合并成完整的句法结构树，形成短语。融合主题模型的方法是先进行LDA主题建模，再依据每一个词的主题信息通过归纳得到短语；频繁项集挖掘方法将文本中的短语看作是项集中某一项，然后在项集上进行频繁项集挖掘。

现有技术的语义模型挖掘工作重点集中在实体和关系对的不同方面。譬如偏向于对实体建模，用属性和实体间有意义函数来表示语义信息；倾向于对关系建模，并且使用类型构造器来表达实体间的n元关系；专注于图数据结构模型，使用节点和边分别表示实体和关系。随着数据挖掘快速发展，验证了其在知识发现方面所具有的巨大潜能，频繁子图模式挖掘更是其重要的子方向，现有技术的挖掘频繁子图工作主要面临的挑战有两方面，一是候选子图如何有效生成，并且还需要尽量保证不受同构子图干扰，二是如何高效地确定子图出现频度，从而进一步生成下阶的频繁子图。

综合来看，现有技术的信息类别划分存在以下缺陷：一是现有技术的文本数据挖掘方法不能对文档进行恰当的描述和准确的概括，不能使得每一个最小的处理单元都具备独立且相对完整的语义特征，不能从大量文本数据中挖掘出领域相关的高质量短语，不能满足日益增长的短语语义挖掘需求；二是现有技术的短语挖掘工作主要集中在对自然语言中具体短语的挖掘，缺少从语义视角认识自然语言中的短语结构，没有引入面向语义的有向图结构数据模型，不能从语义视角来重新认识自然语言中的短语，不能从语义的视角认识自然语言，不能对语句定义其对应的语义图数据结构；三是现有技术不能对自然语言文本数据进行语义级的短语结构挖掘，没有用面向语义的语义模型对自然语言中语句完成建模，不能实现语句级的语义图数据结构描述，不能在语义图上定义短语语义结构，不能运用挖掘频繁子图算法实现频繁短语语义的挖掘；四是由于现有技术没有在不影响语义信息完整情况下，对语句级语义图数据结构的简化，不能够提高挖掘效率，不具有的模块化的特点，不通用普适性，现有技术的方法步骤和计算都较为复杂。

现有技术的短语挖掘工作主要集中在对自然语言中具体短语的挖掘，缺少从语义视角认识自然语言中的短语结构。本发明引入面向语义的有向图结构数据模型Sem-Graph，从语义视角来重新认识自然语言中的短语。

短语语义是与自然语言中具体短语各个词汇对应的语义序列，具体的短语词汇是最底层的粒度最细的短语语义，借助Sem-Graph面向语义的认识视角，自然语言中的具体短语也可以从意义的视角认识，基于具体短语而形成更加抽象的短语语义结构，就是具体短语的一个语义序列。语义信息由词汇的等价和特化关系扩展而来，是一种对原始短语的抽象认识。从语义视角对具体短语的抽象认识，存在着实际的研究和应用意义，从两个视角分析：第一，可归纳总结出自然语言的语言学特性，通过对大量自然语言短语的分析和统计，可得出某类短语在语义视角的结构特征和语义描述特征；第二，可用来建立语义概率模型，统计抽象短语语义出现频率和具体短语之间的概率关系，建立起其对应的语义模型，指导某个具体短语属于某种语义的可能性大小，完成短语语义挖掘工作。

发明内容

针对现有技术的不足，本发明提出的有向图意义导向模型驱动的短语语义挖掘方法，利用Sem-Graph数据模型实现了典型本体语言Word-Net的逻辑结构表示。Word-Net中的动词和名词存在近义关系和上下位关系，与Sem-Graph中的特化关系和等价关系对应。在此基础上，实现Word-Net本体语言的建模工作。对基于Sem-Graph模型的自然语言文本数据进行语义级的短语结构挖掘，用面向语义的语义模型对自然语言中语句完成建模，实现语句级的语义图数据结构描述，并在此语义图上定义短语语义结构，运用挖掘频繁子图算法实现频繁短语语义的挖掘。能对文档进行恰当的描述和准确的概括，使得每一个最小的处理单元都具备独立且相对完整的语义特征，能从大量文本数据中挖掘出领域相关的高质量短语，充分满足日益增长的短语语义挖掘需求。

为达到以上技术效果，本发明所采用的技术方案如下：

有向图意义导向模型驱动的短语语义挖掘方法，采用面向语义的有向图结构数据模型Sem-Graph，从语义视角挖掘自然语言中的短语，基于Sem-Graph模型的等价和特化两大关系，从语义视角对自然语言语句完成建模；并且实现对Word-Net本体语言的描述，构建与自然语言短语对应的基于Sem-Graph的语句级语义图数据结构，最后基于语义图数据结构的短语语义结构，利用挖掘频繁子图法，实现短语语义的挖掘；

有向图意义导向模型驱动的短语语义结构挖掘流程的核心部分，包含三个部分：第一部分，确定词性信息；第二部分，构建语义图；第三部分，挖掘频繁子图；

第一部分，确定词性信息，将要处理的文本内容通过预处理集中到一个文件中，使用自然语言工具包NLTK对预处理后的文本进一步分析处理，得到词汇对应的词性信息；

第二部分，构建语义图，对每个文本内容按句子粒度切分，每个句子形成一个语义子图，一篇文档形成Sem-Graph语义子图集；

第三部分，挖掘频繁子图，通过规范语义子图格式生成，将Sem-Graph语义子图集生成规范语义子图格式生成文件，再通过频繁子图挖掘算法，生成频繁短语语义模式，完成短语语义挖掘。

有向图意义导向模型驱动的短语语义挖掘方法，进一步的，短语语义挖掘在Sem-Graph语义图上挖掘已经用Word-Net标注过的语义节点的图结构模式，基于Sem-Graph的本体语言描述包括基于Sem-Graph的自然语言语句解析和Word-Net本体语言描述，基于Sem-Graph的本体语言描述将面向语义的语义模型Sem-Graph和本体语言Word-Net从语义视角联系起来，为短语语义结构的挖掘奠定基础。

有向图意义导向模型驱动的短语语义挖掘方法，进一步的，基于Sem-Graph的自然语言语句解析中，Sem-Graph采用意义导向方法建立语义数据模型，用有向图结构表现语义信息，Sem-Graph用带标记的节点存储标准语义信息，节点标记表示它的意义类型；

一套语言定义成集L，它的基本元素是由二元关系对(c，p)组成，其中c为有限字母表字符串构成的词形，p表示给定意义集中某一元素，语言中每个带有意义的词形就是一个单词，Sem-Graph面向语义，自然语言中的每个单词看作是根意义#Chord的一个特化。

Sem-Graph将自然语言中的个句子看作根意义#Statement，引入一种新的根意义#Lp，每个词对由两个单词构成，词对的前后关系表示在句子中的顺序关系，词对中的每一个单词又看作是根意义#Chord的一个特化；

自然语言语句被Sem-Graph看作是一个#Statement根意义，它是由#Lp根意义构成的集，记作#Statement＝{#Lp*}，其中符号“*”表示#Lp可出现的任意次数，#Lp表示词对根意义，记作#Lp＝(LD_i，LD_i+1)，其中LD_i和LD_i+1是自然语言语句的具体单词，它们的出现顺序保证自然语言语句的单词出现顺序，词对中出现的单词LD_i可看作是根意义#Chord的一个特化，记作

有向图意义导向模型驱动的短语语义挖掘方法，进一步的，基于Sem-Graph的Word-Net本体语言表示中，Word-Net将传统的词汇信息和计算做了有效的组合，Word-Net是英语词汇数据库，为程序语言控制提供接口，Word-Net对词汇的分类根据词义，每一类词被组织成同义词集，每一个同义词集表示一个词汇词项；

Word-Net根据词汇的矩阵模型组织，语义关系通过同义词集间联系体现，Word-Net中不仅包同义关系，还包含其它多种关系，分别是反义关系、上下位关系、部分整体关系、近义关系。

有向图意义导向模型驱动的短语语义挖掘方法，进一步的，上下位关系是词义之间的语义关系，上位词在其下属关系的上层，这样的层次表述方式看作继承体系，表示下位词将继承得到上位词对应的更一般化词项的所有属性，并且下位词需要至少增加一种属性，以此属性区别它的上位词和它的上位词所包含的其它下位词，Word-Net中名词是根据上下位关系进行组织。

有向图意义导向模型驱动的短语语义挖掘方法，进一步的，部分整体关系是一种非对称关系，存在某种约束，用来建构部分层级关系，如果某一词项不包含上位词项，它就可被记为独立起始词项，Word-Net名词结构中存在25个独立起始词项，利用这25个起始词项和上下位关系可建立25个各异的层级结构，其它名词词项都包含在其中，某个起始词项的属性将被它的所有下位词项继承，并且起始词项被理解成该语义领域内所有词项的原始语义词项；

Word-Net中的同义词集被唯一的编号标识，这种唯一标识的编号被记为词典编撰ID，词项链由词项集中的词项通过词项间的上下位关系链接形成。

Word-Net的同义词集组织模式，加上同义词集间的上下位和近义关系，为语义的扩展提供基础，Sem-Graph面向语义，模型还存在等价和特化关系，Word-Net本体语言可用Sem-Graph模型表示。

有向图意义导向模型驱动的短语语义挖掘方法，进一步的，短语语义是与自然语言中具体短语各个词汇对应的语义序列，具体的短语词汇是最底层的粒度最细的短语语义，从Sem-Graph视角，短语语义结构是一种包含意义信息的抽象短语模式，从扩展的视角看，短语语义是对自然语言中短语结构的一种意义抽象，其中包含原始的短语结构；

短语语义结构从意义的视角看是抽象短语结构模式，其中还包含自然语言语句上的具体短语结构，抽象的层次越高，短语语义意义就越抽象，它虽然能够描述某种语言模式，但扩展的层次太多，彼此的关系表现就会减弱，因此本发明只关注短语词汇以上的两层短语语义结构。

有向图意义导向模型驱动的短语语义挖掘方法，进一步的，第一部分确定词性信息中，需结合词性信息才能访问对应语义信息，进而能够访问对应的上位意义、下位意义、等价意义，使用自然语言工具包NLTK对预处理后的文本进一步分析处理，得到词汇对应的词性信息，处理完成后的文本格式和与预处理的文本格式类似，只是每个词汇表示形式改变，即每一个词汇和其对应的词性绑定在一起，中间用||分割，这个过程就可以看作

其中P_d表示经过预处理得到的文本，R_d表示经过词性确认后得到的文本。

有向图意义导向模型驱动的短语语义挖掘方法，进一步的，第二部分构建语义图中，一个含有词性信息的文档R_d可描述定义为R_d＝{N₁,N₂,…N_n}，其中N₁,N₂,…,N_n看作是文档中的记录，N_i是一个二元组，记作N_i＝<Nid,Ct>，其中Nid表示数据中一篇文本文档id，Ct表示标注有词性信息的文本内容，每一个Ct都包含若干句子，记作Ct＝{P₁,P₂,…,P_n}，其中P_i表示根据句子分隔符分割的子句；

形式化描述这个从句子到子图、从文本到子图集的对应，一套文本对应的子图集NG，记作NG＝{PG₁,PG₂,…,PG_n}，其中PG_i是文本内容中一个句子对应的语义子图，与R_d文档对应的子图集的集合RG，记作RG＝{NG₁,NG₂,…,NG_n}，是由每一套文本中所有子图集的集合构成的；

通过形式化描述，子图建构实现

的过程，同时挖掘频繁子图看作是实现从

的转换后，运用挖掘频繁子图算法找到频繁模式。

有向图意义导向模型驱动的短语语义挖掘方法，进一步的，第三部分挖掘频繁子图中，语义图数据结构的表示以一种规范化的形式，实现方便统一挖掘频繁子图算法的输入，且输出结果也规范形式；采用能对有向图进行处理的频繁子图挖掘算法，支持有向图作为输入的算法，保留语义图中扩展边的有向性，得到扩展的语义方向。

相比于现有技术，本发明的主要优点如下：

1.本发明提出的有向图意义导向模型驱动的短语语义挖掘方法，能对文档进行恰当的描述和准确的概括，使得每一个最小的处理单元都具备独立且相对完整的语义特征，能从大量文本数据中挖掘出领域相关的高质量短语，充分满足日益增长的短语语义挖掘需求。

2.本发明提出的有向图意义导向模型驱动的短语语义挖掘方法，实现了利用图结构语义数据模型表示自然语言语义的基本方法。从语义视角认识自然语言中的短语结构，引入面向语义的有向图结构数据模型Sem-Graph，从语义的视角重新认识自然语言，并对语句定义其对应的语义图数据结构。

3.本发明提出的有向图意义导向模型驱动的短语语义挖掘方法，利用Sem-Graph数据模型实现了典型本体语言Word-Net的逻辑结构表示。Word-Net中的动词和名词存在近义关系和上下位关系，与Sem-Graph中的特化关系和等价关系对应。在此基础上，实现Word-Net本体语言的建模工作。对基于Sem-Graph模型的自然语言文本数据进行语义级的短语结构挖掘，用面向语义的语义模型对自然语言中语句完成建模，实现语句级的语义图数据结构描述，并在此语义图上定义短语语义结构，运用挖掘频繁子图算法实现频繁短语语义的挖掘。

4.本发明提出的有向图意义导向模型驱动的短语语义挖掘方法，实现了频繁短语语义的挖掘，同时在不影响语义信息完整情况下，对语句级语义图数据结构的简化，提高了短语语义挖掘效率，具有的模块化的特点，通用普适性好，相比于现有技术的方法步骤和计算都较为简洁。

附图说明

图1是本发明基于Sem-Graph的自然语言语句解析描述表现示意图。

图2是本发明Word-Net本体语言的形式化描述表现示意图。

图3是本发明的语句级的语义图数据结构模式示意图。

图4是本发明的有向图意义导向模型驱动的短语语义挖掘方法的流程图。

具体实施方式

下面结合附图，对本发明提供的有向图意义导向模型驱动的短语语义挖掘方法的技术方案完成进一步的描述，使本领域的技术人员可以更好的理解本发明并能予以实施。

本发明提供的有向图意义导向模型驱动的短语语义挖掘方法，采用面向语义的有向图结构数据模型Sem-Graph，从语义视角挖掘自然语言中的短语，基于Sem-Graph模型的等价和特化两大关系，从语义视角对自然语言语句完成建模；并且实现对Word-Net本体语言的描述，构建与自然语言短语对应的基于Sem-Graph的语句级语义图数据结构，最后基于语义图数据结构的短语语义结构，利用挖掘频繁子图法，实现短语语义的挖掘。

本发明公开了短语语义挖掘方法，短语语义挖掘在Sem-Graph语义图上挖掘已经用Word-Net标注过的语义节点的图结构模式。

一、基于Sem-Graph的本体语言描述

基于Sem-Graph的自然语言语句解析和Word-Net本体语言描述，在本发明中承上启下，承上是将面向语义的语义模型Sem-Graph和本体语言Word-Net从语义视角联系起来，为短语语义结构的挖掘奠定基础。

(一)基于Sem-Graph的自然语言语句解析

Sem-Graph为采用意义导向方法建立的语义数据模型，用有向图结构表现语义信息。不同于许多的图数据结构模型采用节点和边分别表示实体和关系，Sem-Graph用带标记的节点存储标准语义信息，即意义实例，节点标记表示它的意义类型，也简称为意义，一个节点用形式id:lable表示，其中id表示实例，lable表示意义，Sem-Graph用带标记的边表示元语义关系，在Sem-Graph中关注四种元语义关系：组合、等价、特化、引用。

面向语义的有向图结构数据模型Sem-Graph对自然语言语句的建模是短语语义结构挖掘的前提，Sem-Graph将自然语言中的个句子看作根意义#Statement，为保证单词间的顺序关系，引入一种新的根意义#Lp，每个词对由两个单词构成，词对的前后关系表示在句子中的顺序关系，词对中的每一个单词又看作是根意义#Chord的一个特化，形式化描述如图1所示。

自然语言语句被Sem-Graph看作是一个#Statement根意义，它是由#Lp根意义构成的集，记作#Statement＝{#Lp*}，其中符号“*”表示#Lp可出现的任意次数，#Lp表示词对根意义，记作#Lp＝(LD_i，LD_i+1)，其中LD_i和LD_i+1是自然语言语句的具体单词，它们的出现顺序保证了自然语言语句的单词出现顺序，词对中出现的单词LD_i可看作是根意义#Chord的一个特化，记作

对自然语言语句的解析建立在对其意义的认识上，审视语句的视角完全符合Sem-Graph对事物的认识，不同层次的抽象决定了对事物的不同层次的认识，对一个语句的抽象可分为三个层次，第一层，语句中基本单词抽象成根意义“#Chord”的特化；第二层，相邻两个单词间的关系被抽象成词对根意义#Lp；第三层，整个语句被抽象根意义#Statement。

Sem-Graph面向语义，用意义实例表达对事物的主观认识，一个单词LD_i被看作是一个意义实例，而不区分其词形和词义两方面的信息，从这样的一个认识视角用Sem-Graph解析的意义图简化为图1所示虚线框中的内容。这样的简化工作是意义巨大，它是短语语义挖掘的基础，同时也是Word-Net语义关系扩展的基础，简化了意义扩展的规模。

用三层抽象模式描述语句过于冗余，并且图结构也过于复杂，给后面的短语语义结构挖掘产生障碍，这种平直的简化结构得益于Sem-Graph语义数据模型面向语义的认识事物方法，不仅体现在收缩了语义扩展的规模，也提升了短语语义结构挖掘的性能。

(二)基于Sem-Graph的Word-Net本体语言表示

(1)Word-Net语义关系

有意义的句子由有意义的单词构成，许多的系统希望能像人一样处理自然语言，这就需要知道的不仅是单词，还有对应的意思，这样的信息通过字典提供，而字典是为了方便人的阅读，并不方便机器阅读，Word-Net将传统的词汇信息和计算做了有效的组合。

Word-Net是英语词汇数据库，为程序语言控制提供接口，Word-Net中的词汇虽被分成五类，即名词、形容词、动词、副词、虚词，但本质上只包含名词、形容词、副词、动词四类，虚词仅作为句法成分内容。Word-Net的特色在于对词汇的分类是根据词义，而不是词形，每一类词被组织成同义词集，每一个同义词集表示一个词汇词项。

和其它按主题排列或按字母顺序排列语义词典不同，Word-Net根据词汇的矩阵模型组织，语义关系通过同义词集间联系体现，Word-Net是一个语义词典。

Word-Net中不仅包同义关系，还包含其它多种关系，分别是反义关系、上下位关系、部分整体关系、近义关系。

上下位关系是词义之间的语义关系，与同义词和反义词是词形之间的词汇关系不同，视角不同关系就不同，一个同义词集如果存在与之对应的上位词项和下位词项的同义词集，那么它们就是唯一的，即使存在不唯一情况，下位或上位词项关系的同义词集之间的差异极小。如此形成一种语义上的层次结构，上位词在其下属关系的上层，这样的层次表述方式看作继承体系，表示下位词将继承得到上位词对应的更一般化词项的所有属性，并且下位词需要至少增加一种属性，以此属性区别它的上位词和它的上位词所包含的其它下位词，Word-Net中名词是根据上下位关系进行组织的。

部分整体关系是一种非对称关系，存在着某种约束，用来建构部分层级关系，如果某一词项不包含上位词项，那么它就可被记为独立起始词项，Word-Net名词结构中，存在25个独立起始词项，利用这25个起始词项和上下位关系可建立起25个各异的层级结构，其它名词词项都包含在其中，某个起始词项的属性将被它的所有下位词项继承，并且起始词项被理解成该语义领域内所有词项的原始语义词项。

Word-Net中的同义词集被唯一的编号标识，这种唯一标识的编号被记为词典编撰ID，词项链是由词项集中的词项通过词项间的上下位关系链接形成。

Word-Net的同义词集组织模式，加上同义词集间的上下位和近义关系，为语义的扩展提供了基础，Sem-Graph面向语义，模型还存在等价和特化关系，从语义视角有着良好的契合点，Word-Net本体语言完全可用Sem-Graph模型表示。

(2)Word-Net本体语言表示

Word-Net中的词汇根据词义组织，同类词组织为同义词集，表示一个词汇词项，同义词集间还存在各种关系，包括近义关系、上位关系、下位关系，Sem-Graph模型中的等价关系对应近义关系，特化关系对应上位关系和下位关系，Word-Net本体语言可用Sem-Graph语义模型描述。

名词和动词存在上下位关系，形容词存在近义关系，Word-Net本体语言中同义词集的词项之间关系，被Sem-Graph语义模型描述，Word-Net中若同义词集P_A是同义词集P_B的上位关系，记作P_B@P_A，可以被Sem-Graph表示成

若同义词集P_A是同义词集P_B的下位关系，记作P_A～P_B，将下位关系转换为上位关系，即P_B@P_A，可被Sem-Graph表示成

若同义词集P_A是同义词集P_B的同义关系，记作P_B&P_A，可被Sem-Graph表示成

Word-Net本体语言的形式化描述用图2表示。

一个同义词集P_y，可由多个上义词、多个下义词、多个同义词扩展构成一个语义图，记作PyG＝{Py,PerPy*,PonPy*,NonPy*}，其中Py表示同义词集本身，PerPy表示上位关系词集，PonPy表示下位关系词集，NonPy表示近义关系词集，符号*表示出现次数任意，如图2所示，同义词集PyA由一个上义词集PerPyA，一个近义词集PyB，多个下义词集PonPyA_i扩展构成语义图数据结构，下义词集PonPyA₂包含一个上义词集PerPyA₂，在上下位关系和等价关系支持下，一个同义词集被扩展为一个语义图，Word-Net中的语义层次关系有限，语义关系扩展过程不会无穷无尽，必然在某个独立词项上终结。

Word-Net中最重要的关系包括上位关系、下位关系、近义关系，部分整体关系，Word-Net的本体语言表示只关心上下位关系和近义关系，Word-Net中的上下位关系被转化为Sem-Graph中的特化关系，用符号

表示，近义关系被转化为Sem-Graph中的等价关系，用符号

表示。

语义数据模型Sem-Graph面向语义，对于等价和特化关系，在Word-Net中存在对应的上下位关系和近义关系，从语义视角出发，可找到Sem-Graph和Word-Net本体之间的联系，用Sem-Graph语义模型对自然语言语句建模和用Sem-Graph语义模型表示Word-Net本体语言是短语语义挖掘前提。

二、基于Sem-Graph的短语语义结构挖掘

以上部分详细记载了基于Sem-Graph的自然语言语句解析和Word-Net本体语言表示两个关键要素，它们也是本发明的创新点。另一个创新点是对基于Sem-Graph模型的自然语言文本数据进行语义级的短语结构挖掘，为说明所要挖掘的短语语义结构，需要对前两个要素进行融合，将本体语言的表示和自然语言语句解析结合，形成完整的自然语言语句级的语义图数据结构，基于语句级的语义图数据结构是认识短语语义的基础，也是实现短语语义挖掘的先决条件。

(一)语句级语义图数据结构

在自然语言语句解析法中，用Sem-Graph对语句建模形成意义图结构，意义图中结构中包含三层抽象，分别是：第一层的单词根意义#Chord抽象、第二层的词对根意义#Lp抽象、第三层的句子根意义#Statement抽象，这种描述方式使一个句子的意义图结构过于冗余且复杂。Sem-Graph的优势在于面向语义，将每个单词看作是与这个单词相关的一个意义，而不再仅是单词本身，这样就可将三层抽象描述都简化，实现将整个复杂的意义图结构简化为简单且平直的意义图结构。

简化不消耗损失对整个句子意义的表述，还极大的缩减了意义图结构，当将Word-Net的上下位关系和等价关系融合意义图时，优势更加明显，它去除了多余的描述信息，只关注最核心的语义信息，如图3所示，规范化描述了语句级的语义图数据结构模式。

语义图数据结构模式中的中等粒度虚线框表示简化后的自然语言语句意义图结构，其中带五角星的单箭头表示语句中单词之间的前后顺序关系，简化后的句子意义图结构可看作是一系列意义单词的顺序组合，形式化记作#Statement＝{LA,LB,…,LN}，其中LI是从Sem-Graph语义视角重新认识后的意义词，意义单词出现的顺序被它前后两个单词确定。模式中左侧最细粒度虚线框表示Word-Net中某一同义词集扩展后的结果。LA是一个意义单词，同时也可看作一个同义词集，因为它必然属于某一个同义词集中，即虽然LA∈PyA，但从语义视角可认为LA≡PyA，LA包含两个子意义，分别是LA₁、LA₂，即对应于Word-Net中的下位意义，下位意义LA₁还含有一个上位意义PLA₁，并且上位意义PLA₁还存在上位意义PPLA₁，LA还存在一个等价意义ELA₃，在ELA₃的基础上还可以有上位意义PELA₃。

模式中的粗粒度虚线中两个节点可看做是一个节点，意义是等价的，它们可看作是在一个同义词集中。

综上可为语句级的语义图数据结构模式下一个形式化定义，一个语句级的语义图数据结构模式PG是多个子语义图构成的集，记作PG＝{PyG*}，其中PyG＝{Py,PerPy*,PonPy*,NonPy*}，表示一个单词在在Word-Net语义关系上扩展的语义子图结构，PG中的每一个语义子图连接顺序由每一个基本语义词集Py顺序确定。

(二)短语语义结构

短语语义挖掘的目标是找出语句级语义图数据结构中的频繁短语语义结构。短语语义是与自然语言中具体短语各个词汇对应的语义序列，具体的短语词汇是最底层的粒度最细的短语语义，从Sem-Graph视角，短语语义结构是一种包含意义信息的抽象短语模式，从扩展的视角看，短语语义是对自然语言中短语结构的一种意义抽象，其中必然包含原始的短语结构。

在图3语句级语义图数据结构模式中，贯穿模式图的粗粒度虚线表示一个可能的短语语义结构，短语语义结构记作PP，短语语义结构跨越多个PyG语义子图，它是语句级语义图PG中的一个子图结构，那么PP∈PG，记作PP＝{Py*,PerPy*,PonPy*,NonPy*}，其中的Py、PerPy、PonPy、NonPy来自多个PyG中，从形式化定义中可看出，PP是在LI上的扩展，包含自然语言语句上的短语结构。这里描述的短语语义结构从意义的视角看是抽象短语结构模式，其中还包含自然语言语句上的具体短语结构，不同的解释需从不同的抽象视角看。

抽象的层次越高，短语语义意义就越抽象，它虽然能够描述某种语言模式，但扩展的层次太多，彼此的关系表现就会减弱，因此本发明只关注短语词汇以上的两层短语语义结构。

(三)短语语义结构的挖掘方法

本发明有向图意义导向模型驱动的短语语义结构挖掘流程的核心部分，包含三个部分：第一部分，确定词性信息；第二部分，构建语义图；第三部分，挖掘频繁子图。如图4所示。

(1)确定词性信息

第一部分，确定词性信息，将要处理的文本内容通过预处理集中到一个文件中，使用自然语言工具包NLTK对预处理后的文本进一步分析处理，得到词汇对应的词性信息。

仅过滤掉无用信息，并将要处理的文本内容集中到一个文件中，这样的预处理还不够。还缺少每个句子中每一单词的词性信息，而词性信息恰是在构建语义图时需要的重要信息。在Word-Net中，需结合词性信息才能访问对应语义信息，进而能够访问对应的上位意义、下位意义、等价意义。使用自然语言工具包NLTK对预处理后的文本进一步分析处理，得到词汇对应的词性信息，处理完成后的文本格式和与预处理的文本格式类似，只是每个词汇表示形式改变，即每一个词汇和其对应的词性绑定在一起，中间用||分割，比如“telephone||NN”，这个过程就可以看作

(2)构建语义图

第二部分，构建语义图，对每个文本内容按句子粒度切分，每个句子形成一个语义子图，一篇文档形成Sem-Graph语义子图集。

经过确定词性信息步骤后，得到含有词性的文档信息R_d，此时可对每一个文本内容按句子粒度切分，每一个句子形成一个语义子图，一篇文档就能形成子图集。

一个含有词性信息的文档R_d可描述定义为R_d＝{N₁,N₂,…N_n}，其中N₁,N₂,…,N_n看作是文档中的记录，N_i是一个二元组，记作N_i＝<Nid,Ct>，其中Nid表示数据中一篇文本文档id，Ct表示标注有词性信息的文本内容，每一个Ct都包含若干句子，记作Ct＝{P₁,P₂,…,P_n}，其中Pi表示根据句子分隔符分割的子句。

从构建完成后的整个结果看，可认为某一文本组中的所有文本构建后的结果是图的集。可形式化描述这个从句子到子图、从文本到子图集的对应，一套文本对应的子图集NG，记作NG＝{PG₁,PG₂,…,PG_n}，其中PG_i是文本内容中一个句子对应的语义子图，与Rd文档对应的子图集的集合RG，记作RG＝{NG₁,NG₂,…,NG_n}，是由每一套文本中所有子图集的集合构成的。

通过形式化描述，子图建构实现

的过程，同时挖掘频繁子图看作是实现从

的转换后，运用挖掘频繁子图算法找到频繁模式。

(3)挖掘频繁子图

挖掘频繁子图是实现短语语义挖掘的关键。为了实现方便统一挖掘频繁子图算法的输入，语义图数据结构的表示以一种规范化的形式，且输出结果也规范形式。

为了得到扩展的语义方向，采用能对有向图进行处理的频繁子图挖掘算法，支持有向图作为输入的算法，保留语义图中扩展边的有向性。

为了更加形象的掌握整个挖掘流程，短语语义结构的挖掘流程图如图4所示。

三、实验和结果分析

(一)实验数据集选择

为实现语义图上的短语语义挖掘工作和实验对比，实验数据集的选择至关重要的，短语语义挖掘实验采用“20-newsgroup”数据集，该数据集包含两万多条消息，并且这两万条消息来自于二十个不同的网络新闻的新闻组，两万条消息依据新闻组名分类，被平均分配到二十个不同的组中，数据集大小20Mb，信息量足以满足实验需求。

(二)实验数据集预处理

原始数据集中每个新闻都是一个单独的文件，每个文件的结构包括新闻来源、主题、组织、行数、作者、注释、新闻内容，其中只有新闻内容是受关注的。这样的数据组织方式不适合整个处理过程，因为其中包含太多的无用信息，因此需要对数据进行预处理，将结构重新组织。

在一个文件的新闻信息中，需要将无用的信息过滤掉，只保留其中的新闻主体内容，将所有属于一类的新闻文档集中到一个文档中，新文档的每一行都由两部分构成，其一是文档的编号，其二是新闻的主体内容，文档的编号方便对挖掘的结果进行校对。

(三)语义图数据结构规范化表示格式

为了实现频繁子图的挖掘，需要将频繁子图PGi转换为一种平直结构，方便程序处理，每一个语义子图对应图挖掘算法中的一个图事务，每个RG看作是一个图挖掘算法的输入文件，这个输入文件中包含所有PG。

规范格式中一个有向平直的边用标记“E”标识，等价关系边用“EQ”标识，同时需生成两条对称边，上位关系边用“HYPER”标识，下位关系边“HYPON”标识，为简化程序的处理，将下位关系边转化为上位关系边，这样就可统一处理，语义子图中的每一个节点的序号可随意编号，但其标记却不是随意的，原始节点LI的标记是其本身所包含的文本内容，由Word-Net语义扩展而来的节点标记是LID，也是它在Word-Net中的唯一索引值。规范格式还要求，输入文件中节点和边的表示都是按序号升序排列的，方便程序处理。

(四)短语语义结构规范表示格式。

语义图规范格式文件是挖掘频繁子图算法的输入，输出是频繁子图模式集，因此挖掘频繁子图算法的输入格式和输出格式应保持一致，从而简化程序处理。它们格式上仅有的差异在于，输出文件包含额外信息，其中包括模式ID和其出现的频率。输出格式中将一个新的频繁子图结果记作“t#<pattern_id><count>”，其中<pattern_id>是赋予频繁子图的一个标识，<count>是其对应出现频率。只有出现频率大于预先设定的某一支持度阈值，结果才会被保留。<pattern_id>命名是有规则的，其中pattern部分表示的是这个频繁短语语义所包含的边的个数，id部分是一个标识。

(五)短语语义实验结果

为了说明短语语义挖掘结果的表现形式，用“20-newsgroup”数据集短语语义挖掘结果进行验证。该数据集中包含24021条语句，实验采用FFSM挖掘算法，并将其支持度阈值设置为0.08％，即频繁短语语义至少出现20次。为避免对挖掘算法带来过大的负载，实验只关注原始语义以上的两层语义信息。实验结果显示，扩展出的一层短语语义126098条，二层短语语义95196条。短语语义扩展层次越高所表示短语语义意义越抽象，自然短语语义数量减少，实验结果也说明了这一点。

(六)与传统短语词汇挖掘方法的比较

为说明短语语义和传统短语词汇挖掘结果的比较，使用经简化后的频繁项集挖掘方法作为对比实验。简化主要是考虑到还不能对一个短语语义的质量高低作出评价，因此并不对抽取出来频繁短语词汇做进一步过滤，强调短语语义和短语词汇的区别。根据设置的抽取短语语义层次不同，得到的短语语义也不尽相同，层次越高所包含的语义信息也更加丰富。比较用频繁项集挖掘算法得出的短语词汇和用频繁子图算法得出的短语语义，其中短语语义向上扩展一层。

从对比实验结果可以看出短语语义结构不仅覆盖了最底层的粒度最细的短语词汇，还包含了更加丰富的语义信息，而这些语义信息是短语词汇所不具备的。短语语义不仅可以覆盖单个的短语词汇，还可以来自多个不同短语词汇，从表示同一种意义扩展而来。在此基础上就可以归纳总结语言学的语义特性，并可以实现从概率的视角来认识短语语义和短语词汇之间的关系，能够构建出概率语言模型，高效准确完成短语语义挖掘。

Claims

1.有向图意义导向模型驱动的短语语义挖掘方法，其特征在于：采用面向语义的有向图结构数据模型Sem-Graph，从语义视角挖掘自然语言中的短语，基于Sem-Graph模型的等价和特化两大关系，从语义视角对自然语言语句完成建模；并且实现对Word-Net本体语言的描述，构建与自然语言短语对应的基于Sem-Graph的语句级语义图数据结构，最后基于语义图数据结构的短语语义结构，利用挖掘频繁子图法，实现短语语义的挖掘；

2.根据权利要求1所述的有向图意义导向模型驱动的短语语义挖掘方法，其特征在于，短语语义挖掘在Sem-Graph语义图上挖掘已经用Word-Net标注过的语义节点的图结构模式，基于Sem-Graph的本体语言描述包括基于Sem-Graph的自然语言语句解析和Word-Net本体语言描述，基于Sem-Graph的本体语言描述将面向语义的语义模型Sem-Graph和本体语言Word-Net从语义视角联系起来，为短语语义结构的挖掘奠定基础。

3.根据权利要求1所述的有向图意义导向模型驱动的短语语义挖掘方法，其特征在于，基于Sem-Graph的自然语言语句解析中，Sem-Graph采用意义导向方法建立语义数据模型，用有向图结构表现语义信息，Sem-Graph用带标记的节点存储标准语义信息，节点标记表示它的意义类型；

4.根据权利要求1所述的有向图意义导向模型驱动的短语语义挖掘方法，其特征在于，基于Sem-Graph的Word-Net本体语言表示中，Word-Net将传统的词汇信息和计算做了有效的组合，Word-Net是英语词汇数据库，为程序语言控制提供接口，Word-Net对词汇的分类根据词义，每一类词被组织成同义词集，每一个同义词集表示一个词汇词项；

5.根据权利要求4所述的有向图意义导向模型驱动的短语语义挖掘方法，其特征在于，上下位关系是词义之间的语义关系，上位词在其下属关系的上层，这样的层次表述方式看作继承体系，表示下位词将继承得到上位词对应的更一般化词项的所有属性，并且下位词需要至少增加一种属性，以此属性区别它的上位词和它的上位词所包含的其它下位词，Word-Net中名词是根据上下位关系进行组织。

6.根据权利要求4所述的有向图意义导向模型驱动的短语语义挖掘方法，其特征在于，部分整体关系是一种非对称关系，存在某种约束，用来建构部分层级关系，如果某一词项不包含上位词项，它就可被记为独立起始词项，Word-Net名词结构中存在25个独立起始词项，利用这25个起始词项和上下位关系可建立25个各异的层级结构，其它名词词项都包含在其中，某个起始词项的属性将被它的所有下位词项继承，并且起始词项被理解成该语义领域内所有词项的原始语义词项；

7.根据权利要求1所述的有向图意义导向模型驱动的短语语义挖掘方法，其特征在于，短语语义是与自然语言中具体短语各个词汇对应的语义序列，具体的短语词汇是最底层的粒度最细的短语语义，从Sem-Graph视角，短语语义结构是一种包含意义信息的抽象短语模式，从扩展的视角看，短语语义是对自然语言中短语结构的一种意义抽象，其中包含原始的短语结构；

8.根据权利要求1所述的有向图意义导向模型驱动的短语语义挖掘方法，其特征在于，第一部分确定词性信息中，需结合词性信息才能访问对应语义信息，进而能够访问对应的上位意义、下位意义、等价意义，使用自然语言工具包NLTK对预处理后的文本进一步分析处理，得到词汇对应的词性信息，处理完成后的文本格式和与预处理的文本格式类似，只是每个词汇表示形式改变，即每一个词汇和其对应的词性绑定在一起，中间用||分割，这个过程就可以看作

9.根据权利要求1所述的有向图意义导向模型驱动的短语语义挖掘方法，其特征在于，第二部分构建语义图中，一个含有词性信息的文档R_d可描述定义为R_d＝{N₁,N₂,…N_n}，其中N₁,N₂,…,N_n看作是文档中的记录，N_i是一个二元组，记作N_i＝<Nid,Ct>，其中Nid表示数据中一篇文本文档id，Ct表示标注有词性信息的文本内容，每一个Ct都包含若干句子，记作Ct＝{P₁,P₂,…,P_n}，其中P_i表示根据句子分隔符分割的子句；

通过形式化描述，子图建构实现

的过程，同时挖掘频繁子图看作是实现从

的转换后，运用挖掘频繁子图算法找到频繁模式。

10.根据权利要求1所述的有向图意义导向模型驱动的短语语义挖掘方法，其特征在于，第三部分挖掘频繁子图中，语义图数据结构的表示以一种规范化的形式，实现方便统一挖掘频繁子图算法的输入，且输出结果也规范形式；采用能对有向图进行处理的频繁子图挖掘算法，支持有向图作为输入的算法，保留语义图中扩展边的有向性，得到扩展的语义方向。