CN105808711B

CN105808711B - 一种基于文本语义的概念生成模型的系统和方法

Info

Publication number: CN105808711B
Application number: CN201610126084.2A
Authority: CN
Inventors: 刘磊; 蔡海博; 常晓飞; 李静; 汪海洲
Original assignee: Beijing Flame Technology Co Ltd; Beijing University of Technology
Current assignee: Goonie International Software (Beijing) Co.,Ltd.
Priority date: 2016-03-04
Filing date: 2016-03-04
Publication date: 2019-11-26
Anticipated expiration: 2036-03-04
Also published as: CN105808711A

Abstract

本发明提出了一种基于文本语义的概念生成模型的系统和方法，属于文本知识获取领域，具体涉及概念的特征分析、语境的获取、候选概念的聚类、模式泛化、相似度计算与加权方法及系统。本发明首先提取出中文语料库中的已有概念，然后去除其前部特征和后部特征得到候选概念词构件，并利用基于统计的方法和基于上下文语境的方法对候选概念词构件进行了相似度的计算，然后进行聚类，在已有概念的基础上生成新的概念，扩充构词规则库。并且通过实验，验证了该发明的有效性。

Description

一种基于文本语义的概念生成模型的系统和方法

技术领域

本发明属于文本知识获取领域，具体涉及概念的特征分析、语境的获取、候选概念的聚类、模式泛化、相似度计算与加权方法及系统。

背景技术

文本知识获取是人工智能的重要研究内容，是指用机器学习等人工智能的方法，自动将自然语言描述的文本知识变为计算机可理解的形式。随着计算机的普及以及互联网的迅猛发展，越来越多的知识出现在网页中，而大部分的知识是以文本的形式呈现的，如何快速智能的从网页文本中获取知识，是当今知识获取领域一个亟待解决的问题。

人们正常理解的知识指的是掌握概念的数量多少以及概念之间的关系，同样，对于计算机而言，概念和概念间的关系是知识的基本组成部分。所以概念的数量和准确性将直接影响知识获取的效果。如何得到大量准确的概念，已成为知识工程发展过程中需要解决的首要问题。

维基百科是目前全世界最大的多语种、开放式的在线百科全书。它的大量信息以文本形式呈现，而大部分的概念正是需要从自然语言文本中获取。并且维基百科是一种半结构化的文本，可以方便地获取其文本内容、标题、链接和分类等信息，并且其文本内容覆盖面广、准确度高，可以保证概念的生成和推理的有效性。因此，维基百科常作为验证知识获取方法有效性的知识源。

发明内容

本发明的目的在于提出一种基于文本语义的概念生成模型和方法。本发明综合考虑了概念的上下文语境和语义信息，给出了概念的特征分析、语境的获取、候选概念的聚类、模式泛化、相似度计算与加权方法。在已有概念的基础上生成新的概念，并且通过实验，验证了该发明的有效性。

一种基于文本语义的概念生成模型，该模型包括Web语料、中文语料库、已有概念库、候选概念词构件库；Web语料与中文语料库相连接，中文语料库通过抽取已有概念与已有概念库连接；已有概念库的前部特征库、后部特征库输入至候选概念词构件库；候选概念词构件库的处理方法分为基于统计方法相结合方法、基于上下文语境相结合方法和上述两者的结合，进行输出结果；输出结果分为新概念库和构词规则库。

利用上述一种基于文本语义的概念生成模型进行的方法，其特征包括如下步骤：

步骤1：获取中文语料库。并对文本进行预处理。

步骤2：抽取语料库中已有的概念。

步骤3：利用词法分析和统计方法，提取出已有概念的前部特征和后部特征，组成前部特征库和后部特征库，作为生成新概念词的首部、尾部的构件。

步骤4：将已有概念除去前部特征或后部特征，得到用于生成新概念词的候选概念词构件。

步骤5：分别利用基于统计方法、基于上下文语境方法以及基于上下文语境方法和基于统计方法相结合的方法，计算候选概念词构件的相似度。

步骤6：利用相似度特征对候选概念词构件聚类，并设定阈值，相似度大于阈值的候选概念词构件可以互换其前部特征或后部特征组成新的概念。并对具有同一前部特征或后部特征的已有概念进行聚类，总结某一前部特征或后部特征下的构词规律，扩充构词规则库。

该方法包括如下步骤，

步骤1：获取中文语料库；并对文本进行预处理；

步骤2：抽取语料库中已有的概念；

对所有的已知概念做如下预处理：

(1)去除包含英文、日文、韩文特殊字符的概念；

(2)去重，因本方法的研究对象为不同的概念，所以重复的概念不会影响最终的结果；

(3)去除人名，去除的人名是英文音译为中文的，对总结构词规则没有太大贡献；

经过上述预处理后组成已有的概念库；

步骤3：利用词法分析和统计方法，提取出已有概念的前部特征和后部特征，组成前部特征库和后部特征库，作为生成新概念词的首部、尾部的构件；

(1)分词，利用中国科学院计算技术研究所分词系统ICTCLAS对概念库中的所有已有概念进行分词处理，提取出已有概念的候选前部特征和候选后部特征；

(2)对候选前部特征和后部特征按频数从高到低进行排序，筛选出出现频数100以上的候选前部特征、后部特征并对其再一次进行分词处理，保留多字词和标记为名词成分的单字词，组成可用于和其他字、词结合生成新概念的前部特征库和后部特征库，用作生成新概念词首部或尾部的构件；

步骤4：将已有概念除去前部特征或后部特征，得到用于生成新概念词的候选概念词构件；

针对概念库中的所有概念词，依据前部特征库和后部特征库，分别去除其前部特征或后部特征，得到候选概念词构件库；

步骤5：分别利用基于统计方法、基于上下文语境方法以及基于上下文语境方法和基于统计方法相结合的方法，计算候选概念词构件的相似度；

方法描述如下：

输入：文本预处理后的文档集合D＝{d₁,d₂,d₃,…d_N}，N为文档集合的总数；

其中，D表示维基百科中的所有条目所对应的页面信息的集合，d_t表示维基百科中某一个条目所对应的页面信息；

待计算相似度的所有候选概念词构件W＝{w₁,w₂,w₃,…w_m}，m为候选概念词构件的总数；其中，W表示所有候选概念词构件的集合，w_i表示某一个候选概念词构件；

5.1、基于统计的方法

本质上是基于词频的方法，假设针对同一条目下的两个候选概念词构件，若这两个候选概念词构件和条目相关度相似，则这两个候选概念词构件相似；

该方法用TF-IDF计算某一候选概念词构件与该词所在条目的相关度，用每个候选概念词构件与条目的相关度，计算两两候选概念词构件之间的相似度；考虑到维基百科本身的特殊性，往往每个条目正文的首段要比其他位置的信息更重要，所以本方法将出现在首段的候选概念词构件的权重为其他位置的两倍；

Step1：计算候选概念词构件与条目之间的相关度

表示某候选概念词构件w_i和某条目d_t的关系紧密程度；其中，C₁(d_tf,w_i)表示候选概念词构件w_i在文档d_t的首段中出现的次数，C₂(d_t,w_i)表示候选概念词构件w_i在文档d_t其他位置出现的次数；

表示某候选概念词构件w_i的稀缺程度，即这个某候选概念词构件w_i出现的几率；其中，C₁(d_tf,w_i)表示候选概念词构件w_i在文档d_t的首段中出现的次数，C₂(d_t,w_i)表示表示某候选概念词构件w_i和在条目d_t其他位置出现的次数；

rel(d_t,w_i)＝TF(d_t,w_i)×IDF(d_t,w_i)

表示某候选概念词构件w_i和某条目d_t的相关度；

Step2：计算候选概念词构件之间的相似性

表示在同一条目d_t下，w_i和w_j的相关度；

表示在文档集合D中，w_i和w_j关于共现条目的相似度；若共存条目的个数小于阈值，则去找候选概念词构件所在条目的共同上位，因维基百科分类详细且层数较多，共同上位只限制在所在条目的上三层，然后利用统计方法计算候选概念词构件所在条目之间的相关度，进而得出候选概念词构件之间的相似性；

d_k为d_t和d_n的某个最近共同上位

表示候选概念词构件所在条目d_t和d_n与最近共同上位d_k的相关度；其中，d_t,d_n,d_k∈D

表示在文档集合D中，w_i和w_j关于共同上位的相似度；

5.2、基于上下文语境的方法

Step1：候选概念词构件的语境获取

为减少该方法的时间复杂度，去除文档集合D中无用的XML标签，并将所有文本内容按句号逐句断开；在语料库中遍历所有候选概念词构件，将包含某候选概念词构件的所有语料筛选出来，组成该候选概念词构件的语境；最终得到所有候选概念词构件的语境集合Con＝{Con₁,Con₂,Con₃,…Con_m}；

Step2：候选概念词构件的特征分析选取

(1)分词；利用中国科学院计算技术研究所分词系统ICTCLAS对所有候选概念词构件的语境集合进行分词处理，去除停用词、去除标点符号、去除数字和字母；

(2)选择每个候选概念词构件语境中的名词、动词和形容词作为候选特征词；

(3)采用TF-IDF方法进行特征词的选择；

(4)利用《同义词词林》，找到特征词的同义词，对特征词进行扩充，得到最终候选概念词构件的特征词库；

Step3：构建向量空间模型，进行相似度sim₂的计算

(1)将每一个候选概念词构件表示为，候选概念词构件＝{特征词1，特征词2，特征词3，…,特征词n}的向量形式，在文档集合D中搜索候选特征词，若搜索到某特征词就将该特征词的权值加1；

(2)利用数学中四种经典的比较向量相似度的方法：基于皮尔森相关性的相似度、基于欧几里德距离的相似度、余弦相似度、基于谷本系数的相似性度量，选出最适合的向量相似度的方法，计算候选概念词构件的向量的两两之间的相似度sim₂的值；

(3)根据潜在语义分析，改善个别候选概念词构件的相似度计算，最终得到所有候选概念词构件的相似度sim₂的值；

5.3、基于上下文语境方法和基于统计方法相结合的方法

综合考虑基于上下文语境的方法和基于统计的方法，设定参数α和β分别作为上述两种方法的权重，并且α+β＝1；

步骤6：利用相似度特征对候选概念词构件聚类，并设定阈值，相似度大于阈值的候选概念词构件可以互换其前部特征或后部特征组成新的概念；

实验随机选取了已知概念词，进行分词和去后部特征处理，得到候选概念词构件；

6.1、基于统计的方法

利用上述基于统计的方法，计算出所有候选概念词构件两两之间的相似度，并设定不同的候选概念词构件相关度阈值θ₁和待交换构件与后部特征相关度阈值θ₂以及是否匹配后部特征库等条件，合成的新概念词；

不匹配特征库时，合成的新概念词的个数随着θ₁的不断增加而均匀减少；

由于该方法仅考虑了概念的词频信息，考虑加入一定语义信息结果应该有所提升；

6.2、基于上下文语境的方法

利用上述基于上下文语境的方法，计算出所有候选概念词构件两两之间的相似度，由6.1得出候选概念词构件相关度阈值θ₁越大，最后合成的新概念词的效果相对较好；由于该方法仅考虑了候选概念词构件的上下文语境信息，没有考虑候选概念词构件在整个语料库中的统计信息，考虑将基于统计的方法和基于上下文的方法相结合，结果应该有所提升；

6.3、基于上下文语境方法和基于统计方法相结合的方法

利用上述基于上下文语境方法和基于统计方法相结合的方法，计算出所有选概念词构件两两之间的相似度，为得到最合适的比例，α取值和对应的合成的新概念词的结果；

相同θ₁和θ₂的情况下，合成的新概念词的个数最多，准确率也相对较高；根据上述实验结果，得出上下文语境比词频对候选概念词构件相似度有更大的影响。

附图说明

图1基于文本语义的概念生成方法流程图。

具体实施方式

步骤1：获取中文语料库。并对文本进行预处理。

因维基百科半结构化的特性和其覆盖面广，准确度高的特点，本方法选取维基百科作为实验中所用的中文语料库。下载维基百科的中文语料库zhwiki-20150417-pages-articles.xml.bz2，解压后为4.82G。对该XML文档进行解析、文本抽取和繁简转换后共得到813994个条目。

步骤2：抽取语料库中已有的概念。

因维基百科中每一个条目都对应一篇文本，其锚文本又会链接到其他条目，所以把所有条目的title和每一个条目下的锚文本作为已知的概念。每一个锚文本的两侧都有类似<a href＝"％E6％95％B8％E9％87％8F">和</a>的标签，利用正则表达式从维基百科语料库中抽取出所有条目的title和每个条目下的锚文本，共计17380173个。对所有的已知概念做如下预处理：

(1)去除包含英文、日文、韩文等特殊字符的概念。

(2)去重，因本方法的研究对象为不同的概念，所以重复的概念不会影响最终的结果。

(3)去除人名，去除的人名是英文音译为中文的，对总结构词规则没有太大贡献。

经过上述预处理后共计1770844个已知概念，组成已有的概念库。

(1)分词，利用中国科学院计算技术研究所分词系统ICTCLAS对概念库中的所有已有概念进行分词处理，提取出已有概念的候选前部特征41391个和候选后部特征39997个。

(2)对候选前部特征和后部特征按频数从高到低进行排序，筛选出出现频数100以上的候选前部特征、后部特征并对其再一次进行分词处理，保留多字词和标记为名词成分的单字词，组成可用于和其他字、词结合生成新概念的前部特征库和后部特征库，用作生成新概念词首部或尾部的构件。最后共计前部特征1216个，后部特征1179个。

表1前部特征和后部特征选择方法的处理结果

名称	候选特征总数	频数≥100(个)	多字词(个)	名词成分的单字词(个)	最终特征总数
						前部特征	41391	2442	1016	200	1216
后部特征	39997	2398	912	267	1179

针对概念库中的所有概念词，依据前部特征库和后部特征库，分别去除其前部特征或后部特征，得到候选概念词构件库。

方法描述如下：

其中，D表示维基百科中的所有条目所对应的页面信息的集合，d_t表示维基百科中某一个条目所对应的页面信息。

待计算相似度的所有候选概念词构件W＝{w₁,w₂,w₃,…w_m}，m为候选概念词构件的总数。其中，W表示所有候选概念词构件的集合，w_i表示某一个候选概念词构件。

5.1、基于统计的方法

本质上是基于词频的方法，假设针对同一条目下的两个候选概念词构件，若这两个候选概念词构件和条目相关度相似，则这两个候选概念词构件相似。

该方法用TF-IDF计算某一候选概念词构件与该词所在条目的相关度，用每个候选概念词构件与条目的相关度，计算两两候选概念词构件之间的相似度。考虑到维基百科本身的特殊性，往往每个条目正文的首段要比其他位置的信息更重要，所以本方法将出现在首段的候选概念词构件的权重为其他位置的两倍。

Step1：计算候选概念词构件与条目之间的相关度

表示某候选概念词构件w_i和某条目d_t的关系紧密程度。其中，C₁(d_tf,w_i)表示候选概念词构件w_i在文档d_t的首段中出现的次数，C₂(d_t,w_i)表示候选概念词构件w_i在文档d_t其他位置出现的次数。

表示某候选概念词构件w_i的稀缺程度，即这个某候选概念词构件w_i出现的几率。其中，C₁(d_tf,w_i)表示候选概念词构件w_i在文档d_t的首段中出现的次数，C₂(d_t,w_i)表示表示某候选概念词构件w_i和在条目d_t其他位置出现的次数。

rel(d_t,w_i)＝TF(d_t,w_i)×IDF(d_t,w_i)

表示某候选概念词构件w_i和某条目d_t的相关度。

Step2：计算候选概念词构件之间的相似性

表示在同一条目d_t下，w_i和w_j的相关度。

表示在文档集合D中，w_i和w_j关于共现条目的相似度。若共存条目的个数小于阈值，则去找候选概念词构件所在条目的共同上位，因维基百科分类详细且层数较多，共同上位只限制在所在条目的上三层，然后利用统计方法计算候选概念词构件所在条目之间的相关度，进而得出候选概念词构件之间的相似性。

d_k为d_t和d_n的某个最近共同上位

表示候选概念词构件所在条目d_t和d_n与最近共同上位d_k的相关度。其中，d_t,d_n,d_k∈D

表示在文档集合D中，w_i和w_j关于共同上位的相似度。

5.3、基于上下文语境的方法

Step1：候选概念词构件的语境获取

为减少该方法的时间复杂度，去除文档集合D中无用的XML标签，并将所有文本内容按句号逐句断开。在语料库中遍历所有候选概念词构件，将包含某候选概念词构件的所有语料筛选出来，组成该候选概念词构件的语境。最终得到所有候选概念词构件的语境集合Con＝{Con₁,Con₂,Con₃,…Con_m}。

Step2：候选概念词构件的特征分析选取

(1)分词。利用中国科学院计算技术研究所分词系统ICTCLAS对所有候选概念词构件的语境集合进行分词处理，去除停用词、去除标点符号、去除数字和字母。

(2)选择每个候选概念词构件语境中的名词、动词和形容词作为候选特征词。

(3)采用TF-IDF方法进行特征词的选择。

(4)利用《同义词词林》，找到特征词的同义词，对特征词进行扩充，得到最终候选概念词构件的特征词库。

Step3：构建向量空间模型，进行相似度sim₂的计算

(1)将每一个候选概念词构件表示为，候选概念词构件＝{特征词1，特征词2，特征词3，…,特征词n}的向量形式，在文档集合D中搜索候选特征词，若搜索到某特征词就将该特征词的权值加1。

(2)利用数学中四种经典的比较向量相似度的方法：基于皮尔森相关性的相似度(Pearson correlation-based similarity)、基于欧几里德距离的相似度(EuclideanDistance-based Similarity)、余弦相似度(Cosine Similarity)、基于谷本系数的相似性度量(Tanimoto Coefficient-based Similarity)，选出最适合的向量相似度的方法，计算候选概念词构件的向量的两两之间的相似度sim₂的值。

(3)根据潜在语义分析，改善个别候选概念词构件的相似度计算，最终得到所有候选概念词构件的相似度sim₂的值。

5.4、基于上下文语境方法和基于统计方法相结合的方法

综合考虑基于上下文语境的方法和基于统计的方法，设定参数α和β分别作为上述两种方法的权重，并且α+β＝1。

步骤6：利用相似度特征对候选概念词构件聚类，并设定阈值，相似度大于阈值的候选概念词构件可以互换其前部特征或后部特征组成新的概念。

实验随机选取了维基百科中的500个已知概念词，进行分词和去后部特征处理，得到候选概念词构件。

6.1、基于统计的方法

利用上述基于统计的方法，计算出所有候选概念词构件两两之间的相似度，并设定不同的候选概念词构件相关度阈值θ₁和待交换构件与后部特征相关度阈值θ₂以及是否匹配后部特征库等条件，合成的新概念词的个数结果如表2所示：

表2基于统计的方法生成新概念结果表

由表2看出，不匹配特征库时，合成的新概念词的个数随着θ₁的不断增加而均匀减少，经人工判断，θ₁为0.85时，合成的新概念词的准确率相对最高。当候选概念词构件相关度阈值θ₁为0.85时，θ₂在0.6到0.7之间时合成新概念词的个数差别最大，故将待交换构件与后部特征相关度阈值θ₂的值设为0.65。既可以有效的过滤相似度低的词，也可以保证一定的召回率。

由于该方法仅考虑了概念的词频信息，最终准确率都在30％-40％，考虑加入一定语义信息结果应该有所提升。

6.4、基于上下文语境的方法

利用上述基于上下文语境的方法，计算出所有候选概念词构件两两之间的相似度，由6.1得出候选概念词构件相关度阈值θ₁越大，最后合成的新概念词的效果相对较好。因此本次实验θ₁和θ₂取值如下表：

表3基于上下文的方法生成新概念结果表

当θ₁为0.85时，θ₂的不同取值对合成的新概念词的个数的影响最小。

由于该方法仅考虑了候选概念词构件的上下文语境信息，没有考虑候选概念词构件在整个语料库中的统计信息，最终准确率都在40％-50％左右，考虑将基于统计的方法和基于上下文的方法相结合，结果应该有所提升。

6.5、基于上下文语境方法和基于统计方法相结合的方法

利用上述基于上下文语境方法和基于统计方法相结合的方法，计算出所有选概念词构件两两之间的相似度，为得到最合适的比例，α取值和对应的合成的新概念词的结果如下表：

表4基于统计的方法和基于上下文的方法相结合的方法生成新概念结果表

相同θ₁和θ₂的情况下，α＝0.8时，合成的新概念词的个数最多，准确率也相对较高。根据上述实验结果，得出上下文语境比词频对候选概念词构件相似度有更大的影响。

当α＝0.8，β＝0.2的时候，效果最优。

Claims

1.一种基于文本语义的概念生成方法，其特征在于：该方法包括如下步骤，

步骤1：获取中文语料库；并对文本进行预处理；

步骤2：抽取语料库中已有的概念，并对所有的已有的概念做如下预处理

(1)去除包含英文、日文、韩文特殊字符的概念；

(2)去重；

(3)去除人名，去除的人名是英文音译为中文的人名；

经过上述预处理后组成已有的概念库；

针对已有的概念库中的所有概念词，依据前部特征库和后部特征库，分别去除其前部特征或后部特征，得到候选概念词构件库；

其中，D表示维基百科中的所有条目所对应的页面信息的集合，表示维基百科中某一个条目所对应的页面信息；

待计算相似度的所有候选概念词构件W＝{w₁,w₂,w₃,…w_m}，m为候选概念词构件的总数；其中，W表示所有候选概念词构件的集合，表示某一个候选概念词构件；

5.1、基于统计的方法

该基于词频的方法用TF-IDF计算某一候选概念词构件与候选概念词构件的集合中的另一个候选概念词构件所在条目的相关度，用每个候选概念词构件与条目的相关度，计算两两候选概念词构件之间的相似度；每个条目正文的首段要比正文其他位置的信息更重要，所以将出现在正文首段的候选概念词构件的权重设置为2，出现正文其他位置的候选概念词构件的权重设置为1；

S1：计算候选概念词构件与条目之间的相关度

表示某候选概念词构件w_i的稀缺程度，即这个某候选概念词构件w_i出现的几率；其中，C₁(d_tf,w_i)表示候选概念词构件w_i在文档d_t的首段中出现的次数，C₂(d_t,w_i)表示某候选概念词构件w_i和在条目d_t其他位置出现的次数；

rel(d_t,w_i)＝TF(d_t,w_i)×IDF(d_t,w_i)

表示某候选概念词构件w_i和某条目d_t的相关度；

S2：计算候选概念词构件之间的相似性

表示在同一条目d_t下，w_i和w_j的相关度；

表示在文档集合D中，w_i和w_j关于共现条目的相似度；若共现条目的个数小于阈值，则去找候选概念词构件所在条目的共同上位，共同上位只限制在所在条目的上三层，然后利用统计方法计算候选概念词构件所在条目之间的相关度，进而得出候选概念词构件之间的相似性；

w_i∈d_t，w_j∈d_n，d_t,d_n∈D

d_k为d_t和d_n的某个最近共同上位

表示在文档集合D中，_wi和_wj关于共同上位的相似度；

5.2、基于上下文语境的方法

Step1：候选概念词构件的语境获取

去除文档集合D中无用的XML标签，并将所有文本内容按句号逐句断开；在语料库中遍历所有候选概念词构件，将包含某候选概念词构件的所有语料筛选出来，组成该候选概念词构件的语境；最终得到所有候选概念词构件的语境集合Con＝{Con₁,Con₂,Con₃,…Con_m}；

Step2：候选概念词构件的特征分析选取

(3)采用TF-IDF方法进行特征词的选择；

Step3：构建向量空间模型，进行相似度sim₂的计算

(1)将每一个候选概念词构件表示为：候选概念词构件＝{特征词1，特征词2，特征词3，…,特征词n}的向量形式，在文档集合D中搜索候选特征词，若搜索到某特征词就将该特征词的权值加1；

5.3、基于上下文语境方法和基于统计方法相结合的方法

随机选取已有概念库中的概念词，进行分词和去后部特征处理，得到候选概念词构件；

6.1、基于统计的方法

利用基于统计的方法，计算出所有候选概念词构件两两之间的相似度，并设定不同的候选概念词构件相关度阈值θ₁和待交换构件与后部特征相关度阈值θ₂以及是否匹配后部特征库条件，合成新的概念词；

不匹配后部特征库条件时，合成的新概念词的个数随着θ₁的不断增加而均匀减少；

6.2、基于上下文语境的方法

利用上述基于上下文语境的方法，计算出所有候选概念词构件两两之间的相似度；

6.3、基于上下文语境方法和基于统计方法相结合的方法

利用上述基于上下文语境方法和基于统计方法相结合的方法，计算出所有候选概念词构件两两之间的相似度；

相同θ₁和θ₂的情况下，合成的新概念词的个数最多。