CN105447158A

CN105447158A - 一种基于图的专利搜索日志中同义词集自动挖掘方法

Info

Publication number: CN105447158A
Application number: CN201510863731.3A
Authority: CN
Inventors: 吕学强; 周建设; 董志安
Original assignee: Capital Normal University; Beijing Information Science and Technology University
Current assignee: Capital Normal University; Beijing Information Science and Technology University
Priority date: 2015-12-02
Filing date: 2015-12-02
Publication date: 2016-03-30

Abstract

本发明涉及一种基于图的专利搜索日志中同义词集自动挖掘方法，包括以下步骤：步骤1)基于专利搜索日志进行候选同义词集挖掘，抽取出专利搜索日志中的候选同义词集，并将获得的候选同义词集放在同一行中；步骤2)将所述候选同义词集构成知识图；步骤3)通过分割语料、加重对称共现边、加重三角形、惩罚音节不等四种方法改进知识图边权重计算，调节所述知识图的知识图边权重；步骤4)利用Newman聚类算法对知识图进行聚类，将聚在同一类中的候选同义词对作为同义词集。本发明有效地提高了同义词集自动挖掘的准确率，实现了专利搜索日志中同义词集的自动挖掘工作，可以很好地满足实际应用的需要。

Description

一种基于图的专利搜索日志中同义词集自动挖掘方法

技术领域

本发明属于中文信息处理技术领域，具体涉及一种基于图的专利搜索日志中同义词集自动挖掘方法。

背景技术

同义词集是自然语言处理的一项基础研究，在机器翻译、查询扩展、信息检索等领域都有重要作用。目前存在的同义词资源大多数是通过手工或半手工构建的，这些资源的准确率虽高但是花费了大量的人力物力，而且存在词典的质量容易受到人主观因素的干扰、不能真实反映词汇在大规模语料中的用法、不能及时更新等缺点。因此，基于大规模语料库的同义词自动挖掘工作显得尤为重要。

发明内容

针对上述现有技术中存在的问题，本发明的目的在于提供一种可避免出现上述技术缺陷的基于图的专利搜索日志中同义词集自动挖掘方法。

为了实现上述发明目的，本发明采用的技术方案如下：

一种基于图的专利搜索日志中同义词集自动挖掘方法，包括以下步骤：

步骤1)基于专利搜索日志进行候选同义词集挖掘，抽取出专利搜索日志中的候选同义词集，并将获得的候选同义词集放在同一行中；

步骤2)将所述候选同义词集构成知识图；

步骤3)通过分割语料、加重对称共现边、加重三角形、惩罚音节不等四种方法改进知识图边权重计算，调节所述知识图的知识图边权重；

步骤4)利用Newman聚类算法对知识图进行聚类，将聚在同一类中的候选同义词对作为同义词集。

进一步地，所述知识图由顶点和边构成，每一个词视为一个顶点，两个词之间的联系视为一条边，词对在专利搜索日志中共现的次数作为边的权值；所述知识图是一个有向图，边的方向代表候选同义词词对中的两个词的组合顺序。

进一步地，所述分割语料方法的具体步骤为：

将日志语料分为多个子语料，利用所述步骤1)的基于专利搜索日志的候选同义词挖掘方法，挖掘出每个子语料中的候选同义词。

进一步地，所述加重对称共现边方法具体步骤为：将对称共现边的权值放大，使其在图中的作用加强。所述权值的计算公式如下：

weight＝δ*min(Time(w_i，w_j)，Time(w_j，w_i))，其中，δ为大于1的数。

进一步地，所述加重三角形方法的具体步骤为：

把由三个子图构成的图形看成一个团，通过改变团中边的权重因子对候选同义词进行聚类；

进一步地，所述惩罚音节不等方法的步骤为：减小一个词对中两个词的音节数相差很大的词对的权重因子。

进一步地，所述惩罚音节不等方法的步骤具体为：将音节严重不等的词对的权重因子降低为原来的ε倍，其中ε为小于1的数。。

本发明提供的基于图的专利搜索日志中同义词集自动挖掘方法，根据专利搜索日志中同义词出现的特点挖掘出候选同义词集，并且通过分割语料、加重对称共现边、加重三角形和惩罚音节不等四种方法改进知识图边权重计算，最后结合Newman算法对知识图进行聚类，有效地提高了同义词集自动挖掘的准确率，实现了专利搜索日志中同义词集的自动挖掘工作，可以很好地满足实际应用的需要。

附图说明

图1为本发明的流程图；

图2为已处理的专利搜索日志的示例图；

图3为表1中的候选同义词词对构成的有向知识图；

图4为三角形知识图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，下面结合附图和具体实施例对本发明做进一步说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

如图1所示，基于图的专利搜索日志中同义词集自动挖掘方法包括以下步骤：

步骤2)将所述候选同义词集构成知识图；

具体地：

Newman算法最初被广泛应用在网络社区的结构探测中，本发明首次将Newman算法用于专利搜索日志的同义词自动挖掘工作中。Newman算法是基于模块化思想的方法，该算法的核心是将一个社区划分为若干个小区，每个小区代表一个类别，并且通过一个质量函数(QualityFunction)Q来评测该划分是否为最合理的划分。

{\begin{matrix} a_{i} = Σ_{j} e_{i j} \\ Q = Σ_{i} (e_{i i} - a_{i}^{2}) \end{matrix}, - - - (1)

ΔQ＝e_ij+e_ji-2a_ia_j＝2(e_ij-a_ia_j)，(2)

其中，e_ij代表连接图i和图j中所有顶点之间边的权值之和除以总的边的权值之和。e_ii代表图i内部所有顶点连接的边权值之和除以总的边的权值之和。质量函数Q代表在当前划分下，落在某一子图内部的边的比例和随机划分时各边时这个量之间差的期望值。如果在某一个划分中，图内部边的比例小于随机划分下的期望值，则Q＝0。当Q不为零时，表示特定的划分与随机划分存在偏离。然后通过公式(2)计算两个子图合并的增量ΔQ，将增量值最大的子图进行合并。如果待合并的两个子图之间没有边，那么ΔQ＝0，只需考虑之间有边连接的子图。利用公式(2)表示两个子图合并时Q值的增量。每次迭代的过程就是计算ΔQ的过程，即计算出哪两个类合并最为合理。

对同义词挖掘结果进行评测是一个公认的难题，主要是因为没有标准的参考答案支撑。目前存在的两种主要评测方法：人工评价，即是通过专家打分制定标准答案；基于某个权威词典进行评测，如英文中经常参照WordNet。由于专利领域的同义词词典目前还不存在，所以采用第一种方法对实验结果进行评测。由于语料的规模比较大，所以准确率比召回率更为重要。本发明采用两个指标分别对实验结果和Newman聚类结果进行评测。

第一个评价指标是同义词的正确率，如公式(3)所示：

另外一个是本发明提出的聚类评价指标P，该指标是聚类结果的度量，其计算方法如公式(4)和公式(5)所示。

设候选同义词集为Set，w₁，w₂，w₃...w_n为每个日志中的词汇，flag_pq表示词对w_pw_q是否为同义词，flag_pq的取值范围如下：

{flag}_{p q} = {\begin{matrix} 1 & w_{p} w_{q} &Element; S e t \\ 0 & w_{p} w_{q} &NotElement; S e t \end{matrix}, - - - (4)

其中，flag_pq＝1表示词对w_pw_q为同义词，flag_pq＝0，表示词对w_pw_q不为同义词，这里，1＜p＜n，1＜q＜n，p≠q，n表示候选同义词对数。则P的计算方法如下：

P = \frac{Σ_{i} Σ_{p}^{q} {flag}_{p q}}{T o t a l}, - - - (5)

其中，表示候选同义词对在采用的Newman聚类中被聚在一类的个数，Total代表总的候选同义词对的个数。该指标是指聚在同一类别中的候选同义词词对数与总的候选同义词词对数的比值。这样做的目的是通过Newman聚类过滤掉候选同义词对中非同义词对，而且可以避免以下情况发生，词汇word₁和word₂是同义词，word₂和word₃是同义词，从而得到word₁和word₃也是同义词。虽然同义词具有传递性，但是通过聚类算法将候选同义词对聚在一起，本身带有不确定性，也就是说如果word₁，word₂和word₃经过聚类之后在同一个类别里面，并不是每两个词对之间都是同义词的关系。实验结果将结合质量函数Q和聚类评价指标P对聚类结果进行评价。

本发明的基本思想是根据用户行为特点从专利搜索日志中获取候选同义词集，利用提出的四种方法改进知识图边权重计算，然后利用Newman算法对改进的知识图进行聚类。

专利搜索日志中的大部分查询串包含了一个事物的多种描述方式，这些描述方式之间通过“or”、“and”、“not”等逻辑运算符进行连接，而且这些逻辑运算符连接的部分词汇存在并列关系，如图1所示。根据这一特点，抽取出专利搜索日志中候选同义词集，并将获得的候选同义词集放在同一行中。假设一行中有n个词汇，那么该同义词集可以获取个候选同义词对。

如图2所示为一个已处理的专利搜索日志的示例图，如其中第18行所示，候选同义词集为：甲壳素几丁质壳聚糖，那么候选同义词对就有3对，即：甲壳素几丁质；甲壳素壳聚糖；几丁质壳聚糖。充分利用专利搜索日志中同义词分布的特点，获取的候选同义词集的准确率也比较高，这样保证了Newman算法的输入数据的质量，利于获取更好的聚类结果。

Newman算法是一种基于图的聚类算法，它是将一个网络划分为若干个子图，然后通过计算每个子图与其他若干子图之间的距离，从而达到聚类的目的，因此知识图的构建是进行Newman聚类的基础环节。知识图由顶点和边构成，本发明的知识图来源于专利搜索日志中提取的候选同义词集，将每一个词视为一个顶点，两个词之间的联系视为一条边，词对在专利搜索日志中共现的次数作为边的权值。知识图是一个有向图，边的方向代表候选同义词词对中的两个词的组合顺序。例如，如表1所示为候选同义词词对的信息的一个示例，如下所示：

表1候选同义词对信息

图3所示的是表1中的候选同义词词对构成的一个有向知识图，其中每个词汇代表一个子图，边上的权值代表词对在专利搜索日志中出现的次数，方向代表词对中的两个词在专利搜索日志的某个查询串中出现的次序，例如子图电脑和计算机，用户输入“电脑计算机”进行查询信息的次数为4，用户输入“计算机电脑”进行查询信息的次数为3。

Newman算法是根据知识图中的边权重信息进行迭代运算从而得到最佳的聚类效果。因此，在语料限定的条件下，利用Newman聚类算法提高同义词集自动挖掘效果的主要方式就是运用各种知识调整知识图中边的权重。根据专利搜索日志语料自身的特点，设计了以下四种方法对知识图边权重进行调节。

利用分窗口语料的方法可以提高自动挖掘同义词集的效果，因此为了获取更精确的同义词集采用分割语料的方法，实验中将日志语料分为5个子语料，利用第三章中提到的基于专利搜索日志的候选同义词挖掘方法，挖掘出每个子语料中的候选同义词。方法1是抽取出至少出现在两个专利日志中的词对集，方法2是抽取出至少同时出现在三个专利日志中的词对集，方法3是抽取出至少出现在四个专利日志中的词对集，其中词对的权值因子设为词对在专利搜索日志中共现的最小次数。

\{\begin{matrix} {time}_{k} = 1 & (w_{i}, w_{j}) &Element; \log_{k} (0 < k \leq 5) \\ {time}_{k} = 0 & (w_{i}, w_{j}) &NotElement; \log_{k} (0 < k \leq 5) \end{matrix}, - - - (6)

其中，log_k是指第k个子日志文件。方法1中，规定Time₁＝∑_ktime_k≥2，方法2中规定Time₂＝∑_ktime_k≥3，方法3中规定Time₃＝∑_ktime_k≥4，其中权值因子weight的计算方法如下：

weight＝min(weight_k(w_i，w_j))，time_k＝1，(7)

其中，weight_k(w_i，w_j)表示词对(w_i，w_j)在第k个日志文件中的取值因子。time_k＝1表示词对(w_i，w_j)在第k个日志文件出现的情况。

局部上下文检索方法能严格控制窗口的大小，且两个词必须是相邻的，权值因子取两个词对称共现的最小值，该方法提高了同义词挖掘的效果。基于该思想启发，采用加重对称共现边方法改进知识图边权重因子以达到提高同义词识别的准确率的目的，其中对称共现边指词对(w_i，w_j)和(w_j，w_i)同时出现在语料中，研究表明对称共现词对为同义词的可能性更大。该方法将对称共现边的权值适当放大，使其在图中的作用加强。权值计算公式如下：

weight＝δ*min(Time(w_i，w_j)，Time(w_j，w_i))，(8)

其中，δ为大于1的数。

利用团的思想对相似词进行聚类，相似词之间存在很密切的联系。本发明采用相似的方法对同义词进行聚类，把由三个子图构成的图形看成一个团，通过改变团中边的权重因子对候选同义词进行聚类。三角形是指三个词w_i，w_j，w_k在语料中出现的形式可以构成一个三角形，如图4所示，当词对(w_i，w_j)和(w_j，w_k)出现时，词对(w_k，w_i)或者词对(w_i，w_k)也同时出现，即可以形成一个三角形的图，这种形式出现的词对是同义词的可能性也比较大。

将词对(w_i，w_j)(w_j，w_k)(w_k，w_i)的权重因子均增加为原来的α倍，其中α为大于1的数，然后对其进行Newman聚类。

基于字面相似度识别同义词，即同义词在字面及字数上均有比较相似的地方。基于这一点，为了进一步提高Newman聚类效果，以及同义词的正确率，本发明采用惩罚音节不等的方法改进知识图边权重。该方法的主要思想是如果一个词对中两个词的音节数相差很大，则减小该词对的权重因子，也就是减小其对聚类的影响。具体方法就是将音节严重不等的词对(w_i，w_j)的权重因子降低为原来的ε倍，其中ε为小于1的数。

本发明采用了四种方法改进知识图边权重计算，并利用公式(1)和公式(2)对候选同义词集进行聚类。首先，将分割语料方法中获取的三种候选同义词集，分别进行聚类，通过质量函数Q和本发明提出的聚类评测指标P对聚类结果进行筛选。将Q值接近0.8，P值最大的聚类结果作为最佳结果。然后，利用加重对称共现边方法进一步对其进行聚类，通过实验调节加重因子，直到得到比较好的聚类结果。用类似的方法对加重三角形方法和惩罚音节不等的方法得到候选同义词集进行聚类。最终将聚在同一类中的候选同义词对作为同义词集。

针对本发明提出的基于图的专利搜索日志中同义词集自动挖掘方法进行实验，实验采用的是内容大小为10G的专利搜索日志，该日志是某专利检索系统提供的专利搜索记录。首先利用正则表达式过滤掉专利搜索日志中重复的查询词串，根据前述提到的方法获取候选同义词词集，词对的权重是指两个词在专利搜索日志中同时出现在一个查询词串中的次数。为了获取更好的聚类效果，需要对知识图进一步的处理，本发明主要通过上面提到的四种改进的方法调整图中的边权值和顶点的信息，然后利用公式(1)和公式(2)对候选词集进行聚类，实验过程如下：

根据本发明的分割语料方法获取三种不同的候选同义词词对，然后分别利用Newman聚类算法对三个知识图进行聚类，词对数是指进行Newman聚类的词对数，类别数是指聚出的类个数，同义词对数是指经过Newman聚类获得的同义词词表中的词对数。接下来的改进工作都是基于方法1的12584个词对进行的。

在分割语料的基础上，根据本发明的加重对称共现边方法改进知识图中边的权重，然后利用Newman聚类算法对知识图进行聚类。由实验可以得出，加重对称共现边的方法可以有效的提高同义词的识别效果。当δ＝5时，聚类效果和正确率都有很大提高，说明通过加重对称共现边的方法可以找回对称词对的同义词。

在上述分割语料方法和加重对称共现边方法两种方法的基础上，根据本发明的加重三角形方法改进知识图中边的权重。该方法将词对(w_i，w_j)(w_j，w_k)(w_k，w_i)的权重因子均增加为原来的α倍，其中α为大于1的数。

接下来，根据本发明的惩罚音节不等方法改进知识图中边的权重，然后利用Newman聚类算法对知识图进行聚类。该方法就是将音节严重不等的词对(w_i，w_j)的权重因子降低为原来的ε倍，其中ε为小于1的数。通过实验可以得出，当ε＝0.8时，聚类效果和同义词表的正确率都比较理想。利用该方法，实验的正确率在加重对称共现边的基础上提高了0.6％。

由实验可知，通过分割语料、加重对称共现边、加重三角形和惩罚音节不等四种方法改进知识图中边的权重，然后利用Newman聚类算法对知识图进行聚类，有效地提高了同义词集自动挖掘的准确率。

以上所述实施例仅表达了本发明的实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种基于图的专利搜索日志中同义词集自动挖掘方法，其特征在于，包括以下步骤：

步骤1)基于专利搜索日志进行候选同义词集挖掘，抽取出专利搜索日志中的候选同义词集，并将获得的候选同义词集放在同一行中。

步骤2)将所述候选同义词集构成知识图。

步骤3)通过分割语料、加重对称共现边、加重三角形、惩罚音节不等四种方法改进知识图边权重计算，调节所述知识图的知识图边权重。

2.根据权利要求1所述的基于图的同义词集自动挖掘方法，其特征在于，所述知识图由顶点和边构成，每一个词视为一个顶点，两个词之间的联系视为一条边，词对在专利搜索日志中共现的次数作为边的权值。所述知识图是一个有向图，边的方向代表候选同义词词对中的两个词的组合顺序。

3.根据权利要求1所述的基于图的同义词集自动挖掘方法，其特征在于，所述分割语料方法的具体步骤为：

4.根据权利要求1所述的基于图的同义词集自动挖掘方法，其特征在于，所述加重对称共现边方法具体步骤为：将对称共现边的权值放大，使其在图中的作用加强。所述权值的计算公式如下：

5.根据权利要求1所述的基于图的同义词集自动挖掘方法，其特征在于，所述加重三角形方法的具体步骤为：

把由三个子图构成的图形看成一个团，通过改变团中边的权重因子对候选同义词进行聚类。

6.根据权利要求1所述的基于图的同义词集自动挖掘方法，其特征在于，所述惩罚音节不等方法的步骤为：减小一个词对中两个词的音节数相差很大的词对的权重因子。

7.根据权利要求1-6所述的基于图的同义词集自动挖掘方法，其特征在于，所述惩罚音节不等方法的步骤具体为：将音节严重不等的词对的权重因子降低为原来的ε倍，其中ε为小于1的数。