CN110705291A

CN110705291A - 基于无监督学习的思想政治教育领域文献分词方法及系统

Info

Publication number: CN110705291A
Application number: CN201910959276.5A
Authority: CN
Inventors: 杨星海; 臧文经; 宋佳惠; 刘子钊; 张玉璘
Original assignee: Qingdao University of Science and Technology
Current assignee: Qingdao University of Science and Technology
Priority date: 2019-10-10
Filing date: 2019-10-10
Publication date: 2020-01-17

Abstract

本公开公开了基于无监督学习的思想政治教育领域文献分词方法及系统，包括：构建n‑gram语言模型，利用预先构建的训练集对n‑gram语言模型进行训练，生成字级n‑gram语言模型；接收思想政治教育领域文献的待分词文本，利用维特比Viterbi算法和训练好的字级n‑gram语言模型对输入的待分词文本进行分词并输出初始分词结果；基于初始分词结果，计算领域文献构词指标的词频偏差TFD；根据词频偏差TFD，计算排序词频偏差rTFD；利用计算得到的排序词频偏差rTFD，对初始分词结果中的初始分词词组的合并，实现对分词结果的优化并输出最终分词结果。

Description

基于无监督学习的思想政治教育领域文献分词方法及系统

技术领域

本公开涉及分词技术领域，特别是涉及基于无监督学习的思想政治教育领域文献分词方法及系统。

背景技术

本部分的陈述仅仅是提到了与本公开相关的背景技术，并不必然构成现有技术。

在实现本公开的过程中，发明人发现现有技术中存在以下技术问题：

思想政治教育作为中国精神文明建设的主要内容，也是解决社会矛盾与问题的主要途径之一，而随着思想政治教育水平的不断进步，思想政治教育文献数量逐年增加，对诸多思想政治教育文献进行更深度的分析也是思想政治教育的重中之重，而要对海量的思想政治教育文献进行分析，中文分词是进行深度分析的重要基础。但是思想政治教育领域的特殊性决定了新词诞生速度快，覆盖面广，包含了大量包括历史事件、政策要领、法律条目等领域词汇，这对中文分词带来很大阻碍。

传统基于有监督学习的分词方法需要对繁多的思想政治教育领域文献进行标注，从而获得大量的人工标注数据集进行训练，但是仍然对于歧义以及未登录词处理不尽人意，毕竟人工标注无法包含全领域的所有词汇，尤其在特定领域，有监督学习的方法其实并不理想。

随着信息社会的发展，信息传播速度加快，新词汇的诞生与传播普及速度也在加快，这导致未登录词的增多，也大大增加了人工训练领域先验知识的成本以及人工标注的成本，尤其对于特定领域，因为有监督学习的分词方法很难登录全领域词汇，领域内专业词汇太多，导致切分效果并不理想。

发明内容

为了解决现有技术的不足，本公开提供了基于无监督学习的思想政治教育领域文献分词方法及系统；解决目前中文分词方案在针对思想政治教育领域的中文文本时分词质量较差的问题。

第一方面，本公开提供了基于无监督学习的思想政治教育领域文献分词方法；

基于无监督学习的思想政治教育领域文献分词方法，包括：

构建n-gram语言模型，利用预先构建的训练集对n-gram语言模型进行训练，生成字级n-gram语言模型；

接收思想政治教育领域文献的待分词文本，利用维特比Viterbi算法和训练好的字级n-gram语言模型对输入的待分词文本进行分词并输出初始分词结果；

基于初始分词结果，计算领域文献构词指标的词频偏差TFD(Trem FrequencyDeviation,TFD)；

根据词频偏差TFD，计算排序词频偏差rTFD(ranked Trem Frequency Deviation,rTFD)；

利用计算得到的排序词频偏差rTFD，对初始分词结果中的初始分词词组的合并，实现对分词结果的优化并输出最终分词结果。

第二方面，本公开还提供了基于无监督学习的思想政治教育领域文献分词系统；

基于无监督学习的思想政治教育领域文献分词系统，包括：

训练模块，其被配置为：构建n-gram语言模型，利用预先构建的训练集对n-gram语言模型进行训练，生成字级n-gram语言模型；

初始分词模块，其被配置为：接收思想政治教育领域文献的待分词文本，利用维特比Viterbi算法和训练好的字级n-gram语言模型对输入的待分词文本进行分词并输出初始分词结果；

分词优化模块，其被配置为：基于初始分词结果，计算领域文献构词指标的词频偏差TFD(Trem Frequency Deviation,TFD)；

第三方面，本公开还提供了一种电子设备，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成第一方面所述方法的步骤。

第四方面，本公开还提供了一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成第一方面所述方法的步骤。

与现有技术相比，本公开的有益效果是：

1.本公开针对思想政治教育领域分词，基于无监督学习的思想免去了人工标注数据的时间成本以及对先验知识的要求，提高了针对思想政治教育领域的中文文本的分词准确性和分词效率，高效、准确提取思想政治教育领域词汇的特征信息。

2.本公开基于无监督学习的思想，针对思想政治教育领域文献进行分词，能够免去人工标注所需要的先验知识的需要以及人工标注带来的标注成本。

3.本公开改进了传统n-gram基于词的分词，采用字级n-gram语言模型，在保证一定精度和效率的情况下适应了无监督学习的要求。

4.本公开在传统中文分词的基础上增加了针对思想政治教育领域文献分词结果的优化，借助词频偏差与排序词频偏差对文献中历史事件、法案等长词在初始分词结果的基础上进行组词，提高了对思想政治教育领域文献分词的适应性。

5.本公开在分词系统中为提取分词后的文本特征，使用改进的基于词频统计的TF-IDF算法对最终分词结果进行关键词的提取，方便对领域文献进行总结，相较于传统TF-IDF算法，改进后的基于词频统计的TF-IDF算法速度更快，针对短词、介词等非重点词也有较好的过滤效果。

6.借助TF-IDF算法，对分词后的文本进行关键词等信息的提取，便于用户提取研究领域的关注重点以及发展变化等重要信息。

附图说明

构成本申请的一部分的说明书附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。

图1为第一个实施例的方法流程图；

图2为第一个实施例的方法流程图。

具体实施方式

应该指出，以下详细说明都是示例性的，旨在对本申请提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

实施例一，本实施例提供了基于无监督学习的思想政治教育领域文献分词方法；

如图1和图2所示，基于无监督学习的思想政治教育领域文献分词方法，包括：

S1：构建n-gram语言模型，利用预先构建的训练集对n-gram语言模型进行训练，生成字级n-gram语言模型；

S2：接收思想政治教育领域文献的待分词文本，利用维特比Viterbi算法和训练好的字级n-gram语言模型对输入的待分词文本进行分词并输出初始分词结果；

S3：基于初始分词结果，计算领域文献构词指标的词频偏差TFD(Trem FrequencyDeviation,TFD)；

作为一个或多个实施例，所述方法，还包括：

S4：使用改进的基于词频统计的TF-IDF算法对最终分词结果进行关键词的提取，实现对领域文献要点进行总结。

作为一个或多个实施例，所述预先构建的训练集是通过对语料库进行预处理，得到训练集；具体步骤包括：

将所述语料库的文本根据文本中的标点符号处理为字与字之间以空格隔开、句与句之间以换行隔开的格式的纯文本，然后将所有标点符号清除，建立基于字的思想政治教育训练集。

作为一个或多个实施例，所述语料库是通过获取网络上的期刊、会议或新闻文献，对文献中的文本进行去重处理，将去重处理后的结果作为语料库。

作为一个或多个实施例，S1中，所述构建n-gram语言模型，利用预先构建的训练集对n-gram语言模型进行训练，生成字级n-gram语言模型；具体步骤包括：

在所述训练集中标注句子的开头和结尾，从所述训练集中获取单个字在训练集中出现的次数、两个相邻的字在训练集中出现的次数、三个相邻的字在训练集中出现的次数、四个相邻的字在训练集中出现的次数，将获取的次数视为原始计数，根据所述原始计数从大到小对对应的字进行排序；

基于Kneser-Ney平滑算法依次对四个相邻的字在训练集中出现的次数、三个相邻的字在训练集中出现的次数、两个相邻的字在训练集中出现的次数和单个字在训练集中出现的次数进行优化，分别得到对应的四个相邻的字在训练集中出现的次数的修正计数、三个相邻的字在训练集中出现的次数的修正计数、两个相邻的字在训练集中出现的次数的修正计数和单个字在训练集中出现的次数的修正计数；

在完成平滑算法的处理后，计算相邻字的回退权重；

基于单个字在训练集中出现的次数的修正计数、两个相邻的字在训练集中出现的次数的修正计数、三个相邻的字在训练集中出现的次数的修正计数和四个相邻的字在训练集中出现的次数的修正计数，分别计算对应的单个字在训练集中出现的n-gram概率、两个相邻的字在训练集中出现的n-gram概率、三个相邻的字在训练集中出现的n-gram概率、四个相邻的字在训练集中出现的n-gram概率；

最后，将回退权重、字与字之间的组合关系和单个字在训练集中出现的n-gram概率、两个相邻的字在训练集中出现的n-gram概率、三个相邻的字在训练集中出现的n-gram概率、四个相邻的字在训练集中出现的n-gram概率输入到n-gram语言模型中，得到建立4-gram字级语言模型。

进一步的，所述回退权重的计算方式为：

其中，

表示回退权重，D_n为平滑算法计算得到的修正计数、m为在训练集中出现的单个字的个数，

表示某个(n-1)-gram的字组合(例如n＝3时候，则

即为

表示某两个相邻的字的组合)，

表示某个(n-1)-gram的字组合的原始计数，x为在训练集中出现的以为开头的某个字组合(例如有一个语言模型，以“我喜欢吃西瓜”为训练集，1-gram包括“我”、“喜”、“欢”、“吃”、“西”、“瓜”，2-gram包括“我喜”、“喜欢”、“欢吃”、“吃西”、“西瓜”，3-gram包括“我喜欢”、“喜欢吃”、“吃西瓜”，4-gram包括了“我喜欢吃”、“喜欢吃西”、“欢吃西瓜”，则当n＝3时候，即表示“我喜”、“喜欢”、“欢吃”、“吃西”、“西瓜”中的某个词组，

在n＝3并且时，

即表示求得“喜欢吃”的原始计数，因为训练集中以“喜欢”为开头且后面跟一个字的字组合只有“喜欢吃”)。

所述字与字之间的组合关系，是指一个字，两个字之间、三个字之间、四个字之间的字组合，比如‘我喜欢吃西瓜’句子中，以四个字之间的相邻关系为例，则有“我喜欢吃”、“喜欢吃西”、“欢吃西瓜”三种，三个字的相邻关系则有“我喜欢”、“喜欢吃”、“欢吃西”、“吃西瓜”四种。

应理解的，所述回退权重是衡量一个字后跟随另一个字的能力，一个字的回退权重越高，则该字作为词的首个字的概率也就越高。

应理解的，为解决语言模型可能发生的数据稀疏的问题，在建立语言模型的统计原始计数的环节加入Kneser-Ney平滑算法，该平滑算法的输入即为统计得到的字与字之间的原始计数，算法递归进行，由4个字的原始计数开始计算，直到运行至单个字为止，平滑算法输出是对单个字在训练集中出现的次数、两个相邻的字在训练集中出现的次数、三个相邻的字在训练集中出现的次数、四个相邻的字在训练集中出现的次数的修正计数，用于后续的计算。在建立语言模型的过程中加入平滑算法是为了避免在分词过程中遇到训练集中未包含的文本序列导致概率为0的现象。

应理解的，n-gram概率计算公式：

其中，

为平滑算法的输出值，|vocabulary|为字的总个数，p(ω_n)即为最终的n-gram概率。

作为一个或多个实施例，S4中，利用维特比Viterbi算法和训练好的字级n-gram语言模型对输入的待分词文本进行分词并输出初始分词结果；具体步骤包括：

依照4-gram字级语言模型中的字与字的组合，统计待分词文本的所有分段；

通过维特比Viterbi算法，依照得到的待分词文本的所有可能的分段以及n-gram字级语言模型中的n-gram概率计算待分词文本的n-gram概率乘积；

在所有分段中n-gram概率乘积最大的分段，即为待分词文本的最优分词路径，即得到初始分词结果。

应理解的，依照4-gram字级语言模型中的字与字的组合，这里的组合可以看做是n-gram语言模型中单个字、两个相邻的字、三个相邻的字、四个相邻的字的组合。分段的解释：即一个字，两个字之间、三个字之间、四个字之间的切分，比如‘我喜欢吃西瓜’句子中，通过训练以四个字之间的相邻关系为例，则有“我喜欢吃”、“喜欢吃西”、“欢吃西瓜”三种，三个字的相邻关系则有“我喜欢”、“喜欢吃”、“欢吃西”、“吃西瓜”四种，两个字的则有“我喜”、“喜欢”、“欢吃”、“吃西”、“西瓜”五种，当然还包括一个字的。

应理解的，所述计算待分词文本的n-gram概率乘积，即计算n-gram概率的累乘值，最终目的是寻找n-gram概率累乘值的最大值。例如：“出去玩”，则有“出/去玩”，“出去/玩”，“出去玩”这三种情况，则计算P(出)*P(去玩)、P(出去)*P(玩)、P(出去玩)的值，也就是不同切分的n-gram概率的累乘值，其中最终目的是寻找这三个值中的最大值，也就是寻找n-gram概率累乘值的最大值。

应理解的，所述n-gram字级语言模型中的n-gram概率是单个字在训练集中出现的n-gram概率、两个相邻的字在训练集中出现的n-gram概率、三个相邻的字在训练集中出现的n-gram概率、四个相邻的字在训练集中出现的n-gram概率。

应理解的，所述在所有分段中n-gram概率乘积最大的分段，即为待分词文本的最优分词路径，即得到初始分词结果，以“出去玩”为例，假设P(出去)*P(玩)的值大于另外两种，则可以认为合理的分词结果应该是“出去/玩”，最优分词路径就是“出去-玩”，也就是这句话的初始分词结果，这里的初始分词结果指的是从整个方法来看的，因为后续还有词组的重组，这里的结果是整个方法的初步分词结果，后续通过词组的部分重组来进行进一步的优化，来得到对于整个方法而言的最终的分词结果。

作为一个或多个实施例，S3中，所述基于初始分词结果，计算领域文献构词指标的词频偏差TFD；具体步骤包括：

TF(t,d)表示词组t在文档d中的词频，

表示词组t在整个文档集D中的平均词频。

作为一个或多个实施例，S3中，所述根据词频偏差TFD，计算排序词频偏差rTFD；具体步骤包括：

rTFD(t)＝RANK(t)^-α·|t|^β； (5)

其中，针对所有词组的TFD值进行降序排序，RANK(t)表示词组t的排名，|t|表示词组t的长度，α主要作用是对词频差异值之间的差异进行缩放，β主要作用是控制词组长度对分词的影响。

作为一个或多个实施例，S3中，所述利用计算得到的排序词频偏差rTFD，对初始分词结果中的初始分词词组的合并，实现对分词结果的优化并输出最终分词结果；具体步骤包括：

在得到了rTFD后，以rTFD作为分词指标，依照分词指标构建分词词组合并后的候选分词集合；

在获取候选分词集合后，计算每个候选分词结果的得分，作为确定最终分词结果的依据；

将所有初始分词词组的rTFD值，以及候选分词集合，输入到维特比Viterbi算法中，输出候选分词结果中每一个候选分词词组的rTFD值的累乘值，在候选分词集合中累乘值越大代表该候选分词结果越可靠，其中候选分词集合中累乘值最大的候选分词结果将作为最终分词结果输出。

应理解的，例如前文中的“思想政治教育”，初始分词可能为{思想/政治/教育}，则候选分词集合就有{思想/政治/教育，思想政治/教育，思想/政治教育，思想政治教育}，接下来通过维特比Viterbi算法计算候选分词集合中三个候选分词结果的rTFD累乘值，并寻找最大值，即max{rTFD(思想)*rTFD(政治)*rTFD(教育)，rTFD(思想政治)*rTFD(教育),rTFD(思想)rTFD(政治教育),rTFD(思想政治教育)})

在得到了rTFD后，以rTFD作为分词指标，依照分词指标构建分词词组合并后的候选分词集合；具体步骤如下：

t₁+…+t_l＝ω₁+…+ω_k； (6)

t_j＝ω₁+…+ω_i+Δ； (7)

1≤j≤l,l≤i≤k,0≤Δ≤k； (8)

其中，“+”表示词组的合并操作，(ω₁,ω₂…ω_k)为初始分词结果，(t₁,t₂…t_l)为候选分词结果。t_j中的1<j<l,t_j是候选分词结果中的第j个词组，ω_i+Δ表示初始分词结果中的第i+Δ个词组。

应理解的，最常见的：“思想政治教育”在n-gram初步分词后假设得到“思想/政治/教育”,则候选分词集合就有{思想/政治/教育，思想政治/教育，思想/政治教育，思想政治教育}，而公式(6)和公式(7)在叙述合并的规则，其中公式(6)是指合并前后句子汉字序列长度应该保持一致，公式(7)是指合并后的每个词组要么对应初始分词中的某个分词单元，要么由初始分词中的多个分词单元组合而成。

应理解的，所述计算每个候选分词结果的得分：

l是候选分词结果中词组的数量，rTFD(t_j)就是前文中的排序词频偏差，

t_j是候选分词结果中的第j个词组，t_j＝ω₁+…+ω_i+Δ，

rTFD(t_j)＝rTFD(ω₁)+…+rTFD(ω_i+Δ))。

作为一个或多个实施例，S4中，使用改进的基于词频统计的TF-IDF算法对最终分词结果进行关键词的提取，实现对领域文献要点进行总结；具体步骤包括：

首先，获取某个词在文本中出现的词频即TF，然后计算逆文档概率IDF：

其中，N为所有文档总数，I(w,D_i)表示文档中D_i是否包含所述某个词，若包含则为1，若不包含则为0，分母之所以要加1是为了避免所有文档都不包含该词导致分母为0；

最后，求得TF-IDF值为：

TF-IDF＝TF*IDF

TF-IDF值与一个词在文档中出现的次数成正比，与该词在整个语料库中的出现次数成反比。

最后，将TF-IDF值最大前Q个词输出。

大多数介词虽然出现次数会偏高，但是由于其在整个语料库中也大量出现，所以TF-IDF值反而会比真正的关键词要低得多。

实施例二，本实施例还提供了基于无监督学习的思想政治教育领域文献分词系统；

基于无监督学习的思想政治教育领域文献分词系统，包括：

实施例三，本实施例还提供了一种电子设备，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成实施例一所述方法的步骤。

实施例四，本实施例还提供了一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成实施例一所述方法的步骤。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.基于无监督学习的思想政治教育领域文献分词方法，其特征是，包括：

基于初始分词结果，计算领域文献构词指标的词频偏差TFD；

根据词频偏差TFD，计算排序词频偏差rTFD；

2.如权利要求1所述的方法，其特征是，还包括：

使用改进的基于词频统计的TF-IDF算法对最终分词结果进行关键词的提取，实现对领域文献要点进行总结。

3.如权利要求1所述的方法，其特征是，所述预先构建的训练集是通过对语料库进行预处理，得到训练集；具体步骤包括：

4.如权利要求1所述的方法，其特征是，所述构建n-gram语言模型，利用预先构建的训练集对n-gram语言模型进行训练，生成字级n-gram语言模型；具体步骤包括：

在完成平滑算法的处理后，计算相邻字的回退权重；

5.如权利要求1所述的方法，其特征是，利用维特比Viterbi算法和训练好的字级n-gram语言模型对输入的待分词文本进行分词并输出初始分词结果；具体步骤包括：

6.如权利要求1所述的方法，其特征是，所述利用计算得到的排序词频偏差rTFD，对初始分词结果中的初始分词词组的合并，实现对分词结果的优化并输出最终分词结果；具体步骤包括：

7.如权利要求1所述的方法，其特征是，使用改进的基于词频统计的TF-IDF算法对最终分词结果进行关键词的提取，实现对领域文献要点进行总结；具体步骤包括：

首先，获取某个词在文本中出现的词频即TF，然后计算逆文档概率IDF；

最后，求得TF-IDF值为：TF-IDF＝TF*IDF；

TF-IDF值与一个词在文档中出现的次数成正比，与该词在整个语料库中的出现次数成反比；

最后，将TF-IDF值最大前Q个词输出。

8.基于无监督学习的思想政治教育领域文献分词系统，其特征是，包括：

分词优化模块，其被配置为：基于初始分词结果，计算领域文献构词指标的词频偏差TFD；

根据词频偏差TFD，计算排序词频偏差rTFD；

9.一种电子设备，其特征是，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成权利要求1-7任一项方法所述的步骤。

10.一种计算机可读存储介质，其特征是，用于存储计算机指令，所述计算机指令被处理器执行时，完成权利要求1-7任一项方法所述的步骤。