CN106682128A

CN106682128A - 多领域词典自动构建方法

Info

Publication number: CN106682128A
Application number: CN201611150855.8A
Authority: CN
Inventors: 张晓霞; 刘世林
Original assignee: Chengdu Business Big Data Technology Co Ltd
Current assignee: Chengdu Business Big Data Technology Co Ltd
Priority date: 2016-12-13
Filing date: 2016-12-13
Publication date: 2017-05-17

Abstract

本发明涉及自然语言处理领域，特别涉及多领域词典自动构建方法；在自动获取文本关键词的基础上，对待处理文本进行聚类，形成N个主题文本集；构建M个领域，选取各领域的种子词，依次统计各领域种子词在各主题文本集中出现的频率；将频率最高的主题文本集作为对应领域词典扩展的源文本集；计算各领域种子词与对应源文本集的文本中各候选词的关联度，将关联度到达设置阈值的候选词作为该领域词存入对应的词典中。本发明方法在自动区分文本主题领域的基础上，在较短的时间内可以构建数个词典，为相关的文本分析提供更多可用工具。也可以为某一具体分析提供更多分析维度，使得分析的视角更加全面，分析的结果更加准确。

Description

多领域词典自动构建方法

技术领域

本发明自然语言处理领域，特别涉及多领域词典自动构建方法。

背景技术

随着互联网的快速发展，产生了大量的、公开的网页数据，也因此催发了各种基于大数据技术的新兴产业，比如互联网医疗、互联网教育、企业或者个人征信等。这些互联网产业的兴起与繁荣离不开大量的数据信息分析。大数据分析中自然语言处理占据重要的地位，面对海量的网络文本资源通过运用自然语言处理分析方法自动地、智能抽取出我们所关心的信息，或判断出文本或者文本发布者所蕴含的某种情感倾向，无论是在舆情分析还是商业调查中都有着至关重要的实际应用意义。利用这些分析结果，可以对事情的发展演变进行正确的预判，进而提前采取相应的措施来实现更大的正面效果。

基于词典的分析方法在自然语言分析中具有重要的应用，以词典中的词作为特征，通过词典匹配来抽取对应的特征词汇，在特征词汇抽取的基础上结合设定的模型或者算法来判定该文本对应的倾向或者性质，分析的可靠性大大增加。基于情感词典的情感分析方法是有针对性的分析和挖掘，不同的领域所采取的词典也有很大的不同，目前现有的领域词典，却缺乏对具体问题的适用性，针对性不强。在分析具体领域或者具体话题时，使用现有的大而宽泛的领域词典，并不能够达到较好的分析效果，构建针对性的领域词典十分必要，然而手动构建词典非常的耗时耗力；不能满足海量文本分析的需求。

发明内容

本发明的目的在于克服现有技术中所存在的上述不足，提供多领域词典自动构建方法，在初始文本集中通过textrank方法自动获取文本关键词，对待处理文本进行聚类，形成N个领域或者主题文本集；根据分析需要，在M个领域中选取少量的对应领域种子词；逐个分析各领域种子词与主题文本集的关系远近，保留关系最近的文本集作为各领域词典扩展的源文本集；并结合互信息算法计算种子词与候选词的关联度，将关联度大于阈值的候选词添加到对应的领域词典中。

为了实现上述发明目的，本发明提供了以下技术方案：多领域词典自动构建方法，包含以下实现步骤：

(1)构建初始文本集；

(2)提取出初始文本集中各文本的关键词；

(3)对待处理文本进行聚类，生成N个主题文本集，其中N为整数且N≥2；

(4)构建M个领域，选取各领域的种子词，其中M为≤N的正整数；

(5)依次统计各领域种子词在各主题文本集中出现的频率；将频率最高的主题文本集作为对应领域词典扩展的源文本集；

(6)计算各领域种子词与对应源文本集的文本中各候选词的关联度，将关联度到达设置阈值的候选词作为该领域词存入对应的词典中。

具体的，本发明方法包含分词、去高频词、去停用词的预处理步骤。

进一步的，所述步骤(2)中采用以下算法公式提取文本中关键词。所述算法的计算公式为：

TR(v_i)是文本中词v_i的重要性，d是阻尼系数，一般设置为0.85，N是无向图中所有词的个数，relat{v_i}是与词v_i有共现关系的词集合，v_j是relat{v_i}中的任意一个词，TR(v_j)是v_j的重要性，N(p_j)是与v_j有共现关系的词的个数。

进一步的，所述步骤(3)中对待处理文本聚类包含以下过程：

(3-1)初始时，每个待处理文本各自为一个类；

类间距离定义为两个类中两两文本对间距离的最大值，文本间距离的计算公式如下：

其中C(t1，t2)表示文本1和文本2之间的距离，t1∩t2表示文本1和文本2之间包含相同关键词的个数，mid(t1，t2)表示文本1和文本2中包含关键词的平均个数；类间距离计算公式如下：

Dist(c_a，c_b)＝max{C(t_a，t_b)，t_a∈c_a，t_b∈c_b}

其中，Dist(c_a，c_b)表示任意两个类簇之间的距离，c_a和c_b分别代表两个类，C(t_a，t_b)表示两个文本之间的距离，t_a和t_b分别表示两个文本，并且要求t_a∈c_a、t_b∈c_b。

(3-2)计算所有类两两之间的距离，将距离最小的类进行合并，命名为cnew；

(3-3)在待处理文本集中将已被合并的初始类簇删除，并将新类簇cnew加入到聚类结果中；

(3-4)重复步骤(3-1)至(3-3)，直到待处理文本集中仅包含N个类簇时，停止聚类。此时待处理文本集中包含的是经过聚类后形成的N个主题，其中N的具体个数，根据实际应用所而自行设定。

作为一种优选，所述步骤(4)中，各领域所选取的种子词的个数为50-200个。

进一步的，所述步骤(4)顺序可移到所述步骤(1)、步骤(2)和，或者步骤(3)之前。

作为一种优选，所述步骤(5)中候选词与种子词的阈值设置为MI(word1，word2)＝0.2，当文本集中词汇与种子词的关联度≥0.2时，就将该词作为扩展词汇添加到所要构建的词典中。

作为一种优选：所述步骤(6)中候选词与种子词的关联度计算公式为：

其中p(word1，word2)为词word1和词word2共同出现的概率，p(word1)和p(word2)表示词word1和词word2分别出现的概率。

与现有技术相比，本发明的有益效果：本发明提供多领域词典自动构建方法，在自动获取文本关键词的基础上，对待处理文本进行聚类，形成N个主题文本集；构建M个领域，选取各领域的种子词，次统计各领域种子词在各主题文本集中出现的频率；将频率最高的主题文本集作为对应领域词典扩展的源文本集；计算各领域种子词与对应源文本集的文本中各候选词的关联度，将关联度到达设置阈值的候选词作为该领域词存入对应的词典中。词典构建的准确性更强，构建效率更高。本发明方法种子词的选取可根据分析的具体方向而定，因此更加具有针对性，在种子词选取和领域自动发现的基础上，计算种子词与源文本集的文本中词的关联程度远近，保留关系密切的词作为该领域词典的扩充词；相比于普通的领域词典，本发明方法所构建的领域词典具有更强灵活。词典的实用性更强，更加适应于具体问题或者主题的文本分析。

此外本发明方法在较短的时间内可以构建数个词典，为相关的文本分析提供更多可用工具，也可以为某一具体分析提供更多分析维度，使得分析的视角更加全面，分析的结果更加准确。

附图说明：

图1为本领域词典的构建方法的实现步骤图。

图2为本领域词构建方法步骤(6)的实现过程图。

具体实施方式

下面结合试验例及具体实施方式对本发明作进一步的详细描述。但不应将此理解为本发明上述主题的范围仅限于以下的实施例，凡基于本发明内容所实现的技术均属于本发明的范围。

提供多领域词典自动构建方法，提供多领域词典自动构建方法，在初始文本集中通过textrank方法自动获取文本关键词，对待处理文本进行聚类，形成N个领域或者主题文本集；根据分析需要，在M个领域中选取少量的对应领域种子词；逐个分析各领域种子词与主题文本集的关系远近，保留关系最近的文本集作为各领域词典扩展的源文本集；并结合互信息算法计算种子词与候选词的关联度，将关联度大于阈值的候选词添加到对应的领域词典中。本发明方法在自动区分文本主题领域的基础上通过少量的部分种子词对想要构建的领域词典进行自动扩充；词典的构建效率较高，准确性高，领域的针对性很强；此外本发明方法在较短的时间内可以构建数个词典，为相关的文本分析提供更多可用工具，也可以为某一具体分析提供更多分析维度，使得分析的视角更加全面，分析的结果更加准确。在文本分析和自然语言处理领域有广泛的应用前景。

为了实现上述发明目的，本发明提供了以下技术方案：多领域词典自动构建方法，包含如图1所示的以下实现步骤：

(1)构建初始文本集；

(2)提取出初始文本集中各文本的关键词；

(4)构建M个领域，选取各领域的种子词，其中M为≤N的正整数；对于具体领域或者问题的针对性更强，所构建的词典的适用更加灵活。

(5)依次统计各领域种子词在各主题文本集中出现的频率；将频率最高的主题文本集作为对应领域词典扩展的源文本集；通过聚类对待处理文本集进行分类，形成了不同主题的文本集合，同一主题内的文本之间的关联程度更高，为后续的词典扩展进行了语料的准备和筛选。

通过聚类形成不同主题文本集后，经过计算种子词在主题文本关键词的出现频率，进而分析出不同主题与所构建词典领域之间的关系远近，将关系较远的文本集舍弃，这样在进行词典扩展时，只在领域较近的主题中进行，大大提高了词典扩展来源语料的质量，词典扩展的准确性显著提升，同时由于仅在于所扩展的领域最近的文本集中进行词典扩展，缩小了词典扩展时计算的范围，减少了词典扩展的计算量，提高了词典扩展的效率。

TR(v_i)是文本中词v_i的重要性。d是阻尼系数，一般设置为0.85。N是无向图中(将文本分词后，抽象成一个无向图，其中文本中的每个词是图中的一个节点)所有词的个数。relat{v_i}是与词v_i有共现关系的词集合。v_j是relat{v_i}中的任意一个词，TR(v_j)是v_j的重要性，N(p_j)是与v_j有共现关系的词的个数。

通过本计算公式进行迭代计算，抽取TR(v_i)大于阈值的对应词作为该文本的关键词；通过关键词的自动抽取，为文本聚类进行准备。

进一步的，所述步骤(3)中对待处理文本聚类包含以下过程：

(3-1)初始时，每个待处理文本各自为一个类；

Dist(c_a，c_b)＝max{C(t_a，t_b)，t_a∈c_a，t_b∈c_b}

(3-4)重复步骤(3-1)至(3-3)，直到待处理文本集中仅包含N个类簇时，停止聚类。此时待处理文本集中包含的是经过聚类后形成的N个主题，其中N的具体个数，根据实际应用而自行设定。

作为一种优选，所述步骤(4)中，所抽取的领域种子词的数量为50-200个。选取的种子词过少，将影响领域词典扩展的准确性，过多则将增加选取的人力和时间成本。

作为一种优选；所述步骤(5)中，仅保留种子词出现频率最高的主题文本集作为词典扩充的源文本集；

作为一种优选：所述步骤(6)中词汇与种子词的关联度计算采用互信息的计算思想，所采用的计算公式为：

其中p(word1，word2)为词word1和词word2共同出现的概率，p(word1)和p(word2)表示词word1和词word2分别出现的概率。互信息算法对于分析词汇之间的关联度，算法简洁容易实现，计算效率较高；互信息是计算语言学模型的分析方法，它度量两个对象之间的相互性。在过滤问题中用于度量特征对于主题的区分度。在进行领域词典构建时，在选取种子词的基础上，利用互信息的方法来计算待扩充的词汇和现有种子词的相关性，相关度越高表示该词与种子词的关联性越高。

作为一种优选，所述步骤(6)的阈值设置为MI(word1，word2)＝0.2，当文本集中候选词与种子词的关联度≥0.2时，就将该词作为扩展词汇添加到所要构建的词典中，所述步骤(6)的计算过程如图2所示。

实施例1

根据多要分析的问题，初步选取1000件文本作为初始文本集；对初始文本集中的文本进行分词，去高频词和去停用词的预处理；在此基础上通过textrank算法来提取初始文本集各文本中的关键词；根据各文本关键词对初始文本集中的文本进行聚类，经过迭代聚类后剩下3个主题，假如第一主题集中包含350件文本，第二主题文本集中包含350件文本；第三主题文本集中包含300件文本。根据分析需要，欲设置两个领域词典，通过人工挑选，在第一个领域挑选50个种子词；在第二个领域中挑选出40个种子词。

先计算第一领域与聚类后主题集之间的远近：统计第一领域种子词在第一主题文本集中的出现频率；假设在第一主题文本集所包含的关键字总数为1000个，其中属于第一领域种子词的个数为310个，那么种子词出现的频率为310/1000＝31％；第二主题集包含的关键字总数为1500个，其中属于第一领域种子词的个数为250个，对应的种子词的出现频率为250/1500≈16.67％；第三主题集中所包含的关键字总数为1200个，其中属于第一领域种子词的个数为100个，对应的种子词的出现概率为：100/1200≈8.33％；经过比较认为只有第一主题文本集与第一领域的相关度最高，将第一主题文本集作为第一领域词典扩展的源文本集；计算第一主题文集中各文本中各候选词与第一领域各种子种子词的关联程度，将关联程度大于阈值的候选词添加到第一领域词典中。

计算第二领域与聚类后主题集之间的远近，假设第一主题文本集中关键字属于第二领域的种子词的个数为100个，对应的种子词的出现频率为100/1000＝10％；第二主题文本集中关键字属于第二领域的种子词的个数为600个，对应的种子词的出现频率为600/1500＝40％；第三主题文本集中关键字属于第二领域的种子词的个数为80个，对应的种子词的出现频率为80/1200≈6.67％；经过比较认为只有第二主题文本集与第二领域的相关度最高，将第二主题文本集作为第二领域词典扩展的源文本集；计算第二主题文集中各文本中各候选词与第二领域各种子种子词的关联程度，将关联程度大于阈值的候选词添加到第二领域词典中。

经过上面的分析过程，自动建立了两个领域词典。

在某些分析中，可能需要对同一个事件或者统一类对象去分析和挖掘不同方向的信息，比如对一件事情的正向和反向情绪分析，这样就可能需要不同的词典来抽取对应的特征，通过本发明方法构建可以快速的构建起对应分析方向的词典，为多方位，全面，客观的文本分析提供有力的工具。

Claims

1.多领域词典自动构建方法，其特征在于，包含以下实现步骤：

(1)构建初始文本集；

(2)提取出初始文本集中各文本的关键词；

2.如权利要求1所述的方法，其特征在于，所述步骤(2)之前包含：分词、去高频词、去停用词的预处理步骤。

3.如权利要求1所述的方法，所述步骤(2)中采用以下计算公式来提取关键词，所述公式为：

T R (v_{i}) = \frac{1 - d}{N} + d \underset{v_{j} &Element; r e l a t {v_{i}}}{Σ} \frac{T R (v_{j})}{N (p_{j})}

4.如权利要求3所述的方法，其特征在于：所述步骤(3)中对待处理文本聚类包含以下过程：

(3-1)初始时，每个待处理文本各自为一个类；

C (t 1, t 2) = \frac{t 1 \cap t 2}{m i d (t 1, t 2)}

其中C(t1，t2)表示文本1和文本2之间的距离，t1∩t2表示文本1和文本2之间包含相同关键词的个数，mid(t1，t2)表示文本1和文本2中包含关键词的平均个数；

类间距离计算公式如下：

Dist(c_a，c_b)＝max{C(t_a，t_b)，t_a∈c_a，t_b∈c_b}

其中，Dist(c_a，c_b)表示任意两个类簇之间的距离，c_a和c_b分别代表两个类，C(t_a，t_b)表示两个文本之间的距离，t_a和t_b分别表示两个文本，并且要求t_a∈c_a、t_b∈c_b；

(3-3)在待处理文本集中将已被合并的类簇删除，并将新类簇cnew加入到聚类结果中；

(3-4)重复步骤(3-1)至(3-3)，直到待处理文本集中仅包含N个类簇时，停止聚类。

5.如权利要求4所述的方法，其特征在于：所述步骤(6)中候选词与种子词的关联度计算公式为：

M I (w o r d 1, w o r d 2) = l o g \frac{p (w o r d 1, w o r d 2)}{p (w o r d 1) p (w o r d 2)}

6.如权利要求5所述的方法，其特征在于：所述步骤(4)中，所选取的种子词的个数为50-200个。

7.如权利要求6所述的方法，其特征在于：所述步骤(6)中，待扩展词与种子词的关联度阈值设置为：0.2。