CN115577707A

CN115577707A - 一种多语言新闻主题词的分词方法

Info

Publication number: CN115577707A
Application number: CN202211568523.7A
Authority: CN
Inventors: 周亭; 吴林; 王永滨; 范伟健; 彭奕豪; 王志杰
Original assignee: Communication University of China
Current assignee: State Grid Jiangsu Electric Power Co Ltd; Communication University of China
Priority date: 2022-12-08
Filing date: 2022-12-08
Publication date: 2023-01-06
Anticipated expiration: 2042-12-08
Also published as: CN115577707B

Abstract

本发明提供一种多语言新闻主题词的分词方法，属于数据挖掘技术领域，具体包括：基于新闻的发布时间、题目中的关键词、分类确定待提取文本的临近领域，构建模型的源域模块，采集待提取文本的所述临近领域的有标签数据，构建源域数据集，构建目标域模块，将待提取主题词的领域文本视为目标数据集；构建领域文本主题词提取预训练模型，在进行预训练模型训练时，对于不同语种的词向量的表征，分别选择不同的预训练模型，采用迁移成分分析的方法，对预训练模型进行优化，获得邻域文本主题词提取模型，获得待提取领域文本的主题词标签，获取领域文本主题词，从而更好的实现了对多语言的新闻主题词的准确高效分词。

Description

一种多语言新闻主题词的分词方法

技术领域

本发明属于数据挖掘技术领域，尤其涉及一种多语言新闻主题词的分词方法。

背景技术

当前很多新闻媒体平台储存着大量“沉睡”的多语种新闻文本数据，这些涉及多种语言的文本数据具有领域专业性强但缺乏文本标签的特点，如何“唤醒”这些数据的潜在新闻价值，特别是中文以外的新闻文本关键信息的抽取，始终是困扰多语言新闻主题词研究的现实难题。在基于文本分析的知识发现、新闻价值挖掘等业务场景中，最关键的核心就是基于分词算法对主题词进行提取，通过主题词来窥探整个文本的主题思想，快速掌握核心要素，以便更好指导和服务决策。此外，多语言新闻文本主题词提取方法也是多语言新闻价值搜索的关键技术，通过该模型可以实现多语言无监督文本的主题词提取，之后通过提取的主题词可以快速索引到相应的文章。

在中国发明专利公开号CN110852068A《一种基于BiLSTM-CRF的体育新闻主题词提取方法》中建立BiLSTM-CRF模型，以训练集内的标题和主题句为对象对其进行训练，对训练集内的训练数据的主题词进行提取，得到最优预测模型；提取需要提取主题词的体育新闻的标题和主题句，并代入最优预测模型中，得到需要提取主题词的体育新闻的主题词，从而为读者提供新闻主题词，使其快速从新闻中准确地获取感兴趣的信息，但是对于多语言新闻的主题词的分词来说，在单语言新闻文本上提取效果好的模型应用在多语言上提取的应用效果很差，很难精准抽取出隐藏在多语言新闻文本数据中的主题词，而且若不能根据所属新闻的时间、题目中的关键词、分类准确找到新闻主题的源域，会导致抽取的准确率低，而且效率很低，导致读者不能快速得到准确的感兴趣的信息。

针对上述技术问题，本发明提供了一种多语言新闻主题词的分词方法。

发明内容

为实现本发明目的，本发明采用如下技术方案：

根据本发明的一个方面，提供了一种多语言新闻主题词的分词方法。

一种多语言新闻主题词的分词方法，具体包括：

基于新闻的发布时间、题目中的关键词、分类确定待提取文本的临近领域，构建模型的源域模块，采集待提取文本的所述临近领域的有标签数据，构建源域数据集，构建目标域模块，将待提取主题词的领域文本视为目标数据集；

确定新闻的待提取文本的临近领域，构建模型的源域模块，采集待提取文本的所述临近领域的有标签数据，构建源域数据集，构建目标域模块，将待提取主题词的领域文本视为目标数据集；

构建迁移学习模块，以源域模块为基础，构建领域文本主题词提取的预训练模型，其中所述预训练模型需要根据语种的不同进行优化，从而获得邻域文本主题词提取模型；

基于所述邻域文本主题词提取模型，获得待提取领域文本的主题词标签，获取领域文本主题词。

通过首先基于所述新闻的发布时间、题目中的关键词、分类确定待提取文本的临近领域，构建模型的源域模块，采集待提取文本的所述临近领域的有标签数据，构建源域数据集，构建目标域模块，将待提取主题词的领域文本视为目标数据集，从而解决了原来的会导致抽取的准确率低，而且效率很低，导致读者不能快速得到准确的感兴趣的信息的技术问题使得相邻领域的选取准确性更高，同时采用构建迁移学习模块，基于迁移学习中的领域自适应及BiLSTM-CRF模型以所述模型的源域模块为基础，构建领域文本主题词提取预训练模型，在进行预训练模型训练时，对于不同语种的词向量的表征，分别选择不同的预训练模型，采用迁移成分分析的方法，对所述预训练模型进行优化，获得邻域文本主题词提取模型，解决了原有的对于多语言新闻的主题词的分词来说，在单语言新闻文本上提取效果好的模型应用在多语言上提取的应用效果很差，很难精准抽取出隐藏在多语言新闻文本数据中的主题词的技术问题，进一步提升了提取的准确性，也特别适宜于在一些数据量较少或者缺少标签的新闻主题词中使用。

进一步的技术方案在于，所述待提取文本的临近领域的确定步骤为：

基于所述新闻的发布时间、题目中的关键词、分类构成输入集；

将所述输入集送入到基于PSO粒子群算法优化过的DenseNet神经网络中，对所述输入集进行重构得到重构输入集，并加入注意力机制对所述重构输入集进行加工得到加工输入集；

将所述加工输入集输入到基于KNN算法的分类模型中，得到预测结果；

基于所述预测结果得到所述待提取文本的临近领域。

通过采用基于KNN算法与PSO-Attention- Dense Net算法的预测模型中，得到预测结果，不仅结合了KNN算法较高的效率以及Attention- Dense Net算法精度较高的特点，并进一步采用PSO算法对Attention- Dense Net算法进行寻优，使得整体的效率和准确度得到进一步提升。

进一步的技术方案在于，所述源域模块构建的具体步骤为：

通过采集待提取文本临近领域的有标签数据，构建源域数据集;

将所述数据集进行主题词序列标注处理后，应用词向量编码模型，以输入文本的字为单位，对源域文本进行词嵌入向量表征；

将所述词嵌入向量送入BiLSTM-CRF模型计算获得源域的序列标签。

进一步的技术方案在于，所述目标域模块的待提取主题词的领域文本视为目标域数据集，应用与源域相同的词向量编码模型，同样以输入文本的字为单位，对目标域文本进行词嵌入向量表征。

进一步的技术方案在于，在进行预训练模型训练时，对于不同语种的词向量的表征，分别选择不同的预训练模型。

通过对不同语种新闻文本数据进行主题词提取实验，证明所提的DA-BiLSTM-CRF模型在多语言主题词提取任务中具有较好的应用效果，它实现了面向多语言新闻主题词提取目标，并保证了提取结果的准确性，有效实现了多语言新闻搜索任务中主题词与文章的对应关系。

进一步的技术方案在于，在采用迁移成分分析的方法时，所述目标域与源域之间的距离公式采用改进型的MMD距离，其公式为：

其中，m为从源域采样得到的样本点数目；n为从目标域采样得到的样本点数目；i为源域中的任意样本点的排序；j为目标域中任意样本点的排序；x _i为从源域中采样得到的i个样本点，x’ _i为从源域中采样得到的第i’个样本点，y _j是从目标域中采样的j个样本点，y’ _i为从源域中采样得到的第j’个样本点，k为核函数。

进一步的技术方案在于，利用基于梯度反向传播的Adam模型优化算法对所述邻域文本主题词提取模型进行优化。

进一步的技术方案在于，采用Flex-SADMM算法对Adam模型优化算法进行求解，结合了SVRG策略，并将ADMM过程分为两个阶段，第一阶段计算整个梯度，第二阶段计算节点负责并行更新其相应的变量。

在与其他方法的比较中，所提出的方法具有较高的性能与较强的灵活性。

进一步的技术方案在于，采用准确率、召回率和F1值构建综合评价值，对所述邻域文本主题词提取模型进行评价。

进一步的技术方案在于，所述综合评价值的公式为：

其中K₁、K₂、K₃为权值，其中，K₁大于K₂，P为准确率、R为召回率、F1为F1值。

由于在主体词的分词中，准确率的要求远远超过召回率，因此通过构建此种类型的综合评价值的公式，使得对于模型的评价准确率得到进一步提升，也使得评价结果能够满足模型评估的需要。

其他特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点在说明书以及附图中所特别指出的结构来实现和获得。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

通过参照附图详细描述其示例实施方式，本发明的上述和其它特征及优点将变得更加明显。

图1是根据实施例1中的一种多语言新闻主题词的分词方法的流程图。

图2是根据实施例1中的待提取文本的临近领域的确定步骤的流程图。

图3是实施例1中的源域模块构建的具体步骤的流程图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的实施方式；相反，提供这些实施方式使得本发明将全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。图中相同的附图标记表示相同或类似的结构，因而将省略它们的详细描述。

用语“一个”、“一”、“该”、“所述”用以表示存在一个或多个要素/组成部分/等；用语“包括”和“具有”用以表示开放式的包括在内的意思并且是指除了列出的要素/组成部分/等之外还可存在另外的要素/组成部分/等。

实施例1

为了解决上述技术问题，如图1所示，本发明提供了一种多语言新闻主题词的分词方法。

一种多语言新闻主题词的分词方法，具体包括：

具体的举个例子，本方法将当下热门的单语言分词算法进行融合改进，多语言新闻文本主题词提取方法也是多语言新闻价值搜索的关键技术，通过该模型可以实现多语言无监督文本的主题词提取，之后通过提取的主题词可以快速索引到相应的文章，这是实现跨语言新闻文本搜索的第一步。

在另外一种可能的实施例中，如图2所示，所述待提取文本的临近领域的确定步骤为：

基于所述预测结果得到所述待提取文本的临近领域。

在另外一种可能的实施例中，如图3所示，所述源域模块构建的具体步骤为：

通过采集待提取文本的临近领域的有标签数据，构建源域数据集;

具体的举个例子，所述待提取文本的临近领域为在待提取文本左右位置的其他文本，即待提取文本的上下文内容。

具体的举个例子，基于领域自适应及BiLSTM-CRF的新闻文本主题词提取模型需要运用有标签数据集构建源域，实验爬取了知网“新闻”和“犯罪”两个主题下的文章摘要和主题词作为有标签的源域数据。将主题词提取作为序列标记任务，在对源域文本进行主题词标签时采用BIO标准标签，其中{{I，B，O}}是对应于每个字的标签。标签B表示主题词的开始，标签I表示主题词的继续，标签O对应于不属于任何主题词。例如句子“区块链技术打防网络金融犯罪”，若其对应的主题词是“区块链”和“网络金融犯罪”，则对应的序列标签为“B/I/I/O/O/O/O/B/I/I/I/I/I”。

在另外一种可能的实施例中，所述目标域模块的待提取主题词的领域文本视为目标域数据集，应用与源域相同的词向量编码模型，同样以输入文本的字为单位，对目标域文本进行词嵌入向量表征。

在另外一种可能的实施例中，在进行预训练模型训练时，对于不同语种的词向量的表征，分别选择不同的预训练模型。

具体的举个例子，将多语言新闻文本主题词提取任务规定为英语、中文、法语、阿拉伯语四种语言，为此在选择预训练BERT模型进行不同语种的词向量表征时，分别选择不同的预训练模型。其中，使用谷歌开源的BERTBASE中文预训练模型进行文本表示，并注入经预训练获得的初始化模型参数，输入序列被表示为字的嵌入形式。针对法语新闻文本采用预训练模型CamemBERT进行单词的词向量映射，阿拉伯语新闻文本采用预训练模型Arabic-BERT进行单词向量映射。

在另外一种可能的实施例中，在采用迁移成分分析的方法时，所述目标域与源域之间的距离公式采用改进型的MMD距离，其公式为：

具体的举个例子，该算法提出的基于领域自适应及BiLSTM-CRF的新闻文本主题词提取模型，模型利用边缘分布自适应的方法重新整合了有标签数据集和无标签新闻文本数据集。此处定义带有标签的数据集为源域，记作Ds，未带有标签化的新闻文本数据集为目标域，记作Dt。由于新闻文本的语义和词法在Ds和Dt两个数据域之间存在相似性，同时源域存在着赋予了人为知识和经验的分布样本，可以作为迁移的对象。因此在本文方法中运用迁移学习新的空间，从而最大限度挖掘两个域数据集之间的相似程度。基于领域自适应及BiLSTM-CRF的多语言新闻文本主题词提取模型设计融合了源域和目标域之间的迁移学习模块，源域和目标域的表示是通过模型中的隐含层对不同域之间的输入数据进行分布之间的差异学习，同时保证了多语言文本的学习。模型的优化内容主要由两部分组成，一部分是在有标签化源域空间上的分类损失，另一部分是源域和目标域之间的距离损失。

在另外一种可能的实施例中，利用基于梯度反向传播的Adam模型优化算法对所述邻域文本主题词提取模型进行优化。

在另外一种可能的实施例中，采用Flex-SADMM算法对Adam模型优化算法进行求解，结合了SVRG策略，并将ADMM过程分为两个阶段，第一阶段计算整个梯度，第二阶段计算节点负责并行更新其相应的变量。

具体的举个例子，在第一阶段，根据新更新的变量计算整个梯度，并将计算结果存储以便于计算下一阶段的随机梯度。在第二阶段，计算节点数据，并更新其相应的变量，且每个计算节点在一个有界的迭代间隔内至少更新一次变量。

具体的举个例子，Flex-SADMM算法是一种改进随机交替乘子方向法的分布式求解算法，以解决多语言空间映射向量表示模型参数求解效率低下的问题。该算法以稳定收敛为目标，将方差减小的一阶信息与二阶近似信息结合起来求解ADMM子问题。结合随机方差减少梯度法（SVRG）策略，将传统的ADMM求解过程分为两个阶段。在第一阶段，根据新更新的变量计算整个梯度，并将计算结果存储以便于计算下一阶段的随机梯度。在第二阶段，计算节点数据，并更新其相应的变量，且每个计算节点在一个有界的迭代间隔内至少更新一次变量。通过对比实验验证所提出的求解方法表现出较高的性能与较强的灵活性。

在另外一种可能的实施例中，采用准确率、召回率和F1值构建综合评价值，对所述邻域文本主题词提取模型进行评价。

具体的举个例子，多语言新闻主题词的分词方法在不同语种、不同数量的主题词提取情形下的性能，多数情况下都优于BiLSTM-CRF和TF-IDF，即F1值高于其它两种方法。不同语种下，所提模型的提取效果相较于基线模型在准确率、召回率和F1值方面均表现出显著优势。多语言新闻主题词的分词方法相较于BiLSTM-CRF和TF-IDF模型，所提取的各主题词间的相关程度更强，即主题词所表达的语义更为相近，证明模型提取到的主题词更能体现出新闻的特点和聚焦趋势。

在另外一种可能的实施例中，所述综合评价值的公式为：

本申请中选用的各个器件（未说明具体结构的部件）均为通用标准件或本领域技术人员知晓的部件，其结构和原理都为本技术人员均可通过技术手册得知或通过常规实验方法获知。并且，本申请所涉及的软件程序均为现有技术，本申请不涉及对软件程序作出任何改进。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

以上仅为本发明实施例的优选实施例而已，并不用于限制本发明实施例，对于本领域的技术人员来说，本发明实施例可以有各种更改和变化。凡在本发明实施例的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明实施例的保护范围之内。

Claims

1.一种多语言新闻主题词的分词方法，其特征在于，具体包括：

基于新闻的发布时间、题目中的关键词、分类确定待提取文本的临近领域，构建模型的源域模块，采集待提取文本的所述临近邻域的有标签数据，构建源域数据集，构建目标域模块，将待提取主题词的领域文本视为目标数据集；

构建迁移学习模块，以源域模块为基础，构建领域文本主题词提取的预训练模型，其中所述预训练模型需要根据语种的不同进行优化，从而获得邻域文本主题词提取模型；基于所述邻域文本主题词提取模型，获得待提取领域文本的主题词标签，获取领域文本主题词。

2.如权利要求1所述的多语言新闻主题词的分词方法，其特征在于，所述待提取文本的临近领域的确定步骤为：

基于所述预测结果得到所述待提取文本的临近领域。

3.如权利要求1所述的多语言新闻主题词的分词方法，其特征在于，所述源域模块构建的具体步骤为：

4.如权利要求3所述的多语言新闻主题词的分词方法，其特征在于，所述目标域模块的待提取主题词的领域文本视为目标域数据集，应用与源域相同的词向量编码模型，同样以输入文本的字为单位，对目标域文本进行词嵌入向量表征。

5.如权利要求1所述的多语言新闻主题词的分词方法，其特征在于，在采用迁移成分分析的方法时，所述目标域与源域之间的距离公式采用改进型的MMD距离，其公式为：

6.如权利要求1所述的多语言新闻主题词的分词方法，其特征在于，利用基于梯度反向传播的Adam模型优化算法对所述邻域文本主题词提取模型进行优化。

7.如权利要求6所述的多语言新闻主题词的分词方法，其特征在于，采用Flex-SADMM算法对Adam模型优化算法进行求解，结合了SVRG策略，并将ADMM过程分为两个阶段，第一阶段计算整个梯度，第二阶段计算节点负责并行更新其相应的变量。

8.如权利要求1所述的多语言新闻主题词的分词方法，其特征在于，采用准确率、召回率和F1值构建综合评价值，对所述邻域文本主题词提取模型进行评价。

9.如权利要求8所述的多语言新闻主题词的分词方法，其特征在于，所述综合评价值的公式为：