CN112988953A

CN112988953A - 自适应广播电视新闻关键词标准化方法

Info

Publication number: CN112988953A
Application number: CN202110451197.0A
Authority: CN
Inventors: 温序铭; 朱婷婷; 杨瀚; 严照宇; 陈智
Original assignee: Chengdu Sobey Digital Technology Co Ltd
Current assignee: Chengdu Sobey Digital Technology Co Ltd
Priority date: 2021-04-26
Filing date: 2021-04-26
Publication date: 2021-06-18
Anticipated expiration: 2041-04-26
Also published as: CN112988953B

Abstract

本发明公开了自适应广播电视新闻关键词标准化方法，包括步骤：步骤A，基于基础关键词库标准化候选关键词，对不能被标准化的词则加入白名单，当白名单词增加到设定量后，对白名单内的词进行分析提取代表词返回给用户，用于扩充基础关键词库等；本发明作为利用智能化技术为广播电视新闻进行自动化内容标签标引的方法，在考虑用户实际业务需求的前提下，自适应地进行关键词的标准化和特色词库的扩展，可以更准确地组织和管理媒体资源，提高管理效率等。

Description

自适应广播电视新闻关键词标准化方法

技术领域

本发明涉及广播电视新闻媒资自动标引领域，更为具体的，涉及自适应广播电视新闻关键词标准化方法。

背景技术

融合媒体时代，爆炸式增长的新闻视频数据给媒体资源的再利用带来了巨大的挑战，如何“快”、“省”、“易”地对相关新闻视频进行编目变得十分重要。另一方面，随着计算机运算能力的提升以及相关视觉、NLP算法手段的逐步成熟，通过大数据和人工智能技术来实现自动化的视频内容数据标引从而提高编目质量和标引的实时性已经成为一种趋势。在这种环境下，媒体数据资料的管理从传统人工编目逐步转换到依托智能化管理平台的自动编目。

通过实体识别、人脸识别、景别识别、关键词识别等AI技术，可以实现对媒体内容多个维度的自动分类、标识、标引，从而实现媒体资源本身的内容标签的自动提取。在媒体内容标签中，“关键词”是传统编目的一个重要著录项，与内容密切相关，然而目前AI技术提取的关键词还达不到用户实际业务需求。一方面，这是由于中文用词较为灵活和多样，不同的新闻可以用不同的词表达同一个语义，还有各种缩略词、指代词；另一方面，用户通过多年的人工编目积累了自己的特色词库（更适配于地方特色或习惯的词库）。比如AI技术提取的关键词是“澳港澳”或者“大湾区”，但对于深圳、中国台方用户来说可能更常提及的是“澳港澳大湾区”；再比如AI技术提取的关键词是“新冠病毒”，但实际上用户希望展现出的关键词是“新型冠状病毒”。因此，能够针对不同的用户自适应地进行关键词的标准化具有重要意义。此外，随着新闻视频数据的不断增多，用户原有的特色词库也需要同步进行扩展，才能更好地支撑关键词的标准化。

为了解决上述问题，本发明提出一种自适应广播电视新闻关键词标准化方法。

发明内容

本发明的目的在于克服现有技术的不足，提供自适应广播电视新闻关键词标准化方法，在考虑用户实际业务需求的前提下，自适应地进行关键词的标准化和特色词库的扩展，可以更准确地组织和管理媒体资源，提高管理效率等。

本发明的目的是通过以下方案实现的：

自适应广播电视新闻关键词标准化方法，包括：

步骤A，基于基础关键词库标准化候选关键词，对不能被标准化的词则加入白名单，当白名单词增加到设定量后，对白名单内的词进行分析提取代表词返回给用户，用于扩充基础关键词库。

在该实施方案中，基础关键词库可以是用户侧的特色词库。

进一步地，所述候选关键词按照如下步骤获取：通过基于训练好的关键词抽取模型对输入的广播电视新闻进行预测，获得关键词抽取结果，对抽取结果进行黑名单过滤形成候选关键词。

在该实施方案中，对广播电视新闻进行关键词预测时采用的关键词抽取模型可以为本发明提供的基于深度学习的关键词抽取模型或其他现有的关键词抽取模型。如果采用本发明提供的基于深度学习的关键词抽取模型，则该模型按串联顺序包括文本向量化层、第一关键词预测层，第二关键词序列标注层。文本向量化层主要基于预训练语言模型。这样可以获得传统的依赖分词的模型无法获得的词汇，如十二五计划、精准扶贫、新型冠状病毒、澳港澳大湾区等。如果采用发明提供的基于深度学习的关键词抽取模型，获取关键词结果进一步包括如下步骤：

（1）、标注待分析的广播电视新闻数据的关键词信息，构建关键词数据集；

（2）、利用预训练模型构建关键词抽取模型，并利用（1）所述广播电视新闻关键词数据集训练所构建的关键词抽取模型；

（3）、利用（2）中训练好的关键词抽取模型对输入的广播电视新闻进行预测，获得关键词抽取结果。

进一步地，在进行黑名单过滤前，对提取到的关键词进行如下处理：去除冗余、标点分割和通顺分析处理。黑名单一般是用户提供的词库，涉及敏感词等，这样处理后可以使得最终获得的候选关键词相对有意义。

进一步地，所述基于基础关键词库标准化候选关键词，包括：

步骤A1，获取多个新闻文本语料，构建用于训练FastText词向量模型的学习样本；在该实施方案中，可以利用爬虫等工具获取多个新闻文本语料；在该实施方案中，考虑到FastText词向量模型使用了字符级别的n-grams来表示词，这种处理技巧使得它对于低频词生成的词向量效果会更好；与此同时也使得它可以对任何词编码（包括未出现在词库中的词）；另一方面，广播电视新闻中的关键词也存在这样的特点（部分关键词词频较低，此外关键词也不完全是词，可能是词、短语或多字），因此采用FastText词向量模型进行词向量化更适用于本发明的场景；

步骤A2，基于步骤A1所构建的学习样本进行FastText词向量模型的训练，获得词向量模型；在该实施方案中，评测时发现，在学习样本量为1200万时FastText词向量模型训练时长约为1.5小时，这样的训练时间成本是在可接受范围内的。这样的时间消耗也可以让本发明不断积累数据，定期进行重新训练，能够提升算法精度。

步骤A3，利用步骤A2中训练好的FastText词向量模型，以及结合近似最近邻方法Hnswlib构建候选关键词标准化模型，利用所述候选关键词模型标准化模型获取输入候选关键词在基础关键词库中的前K个相似词及相互之间的距离；在距离小于设定阈值的相似词中选择距离与候选关键词最近的作为其标准化结果返回给用户；在该实施方案中，能够针对不同的用户自适应地进行关键词的标准化。比如关键词抽取结果都是澳港澳，但依托不同台方的基础关键词库，标注化后的结果可能是澳港澳大湾区（针对深圳台），或者澳港澳（针对其他台），这样的结果更符合各方的用词习惯，同时也利于以后的内容检索；

步骤A4，将利用候选关键词标准化模型召回的相似词距离都大于阈值的候选关键词加入白名单，供后续基础关键词库扩充准备。在该实施方案中，考虑到虽然用户通过多年的编目积累了自己的基础关键词库（特色词库），但是随着新闻视频数据的不断增多，用户原有的基础关键词库覆盖面相对减小。所以需要积累一定的候选词，对用户基础关键词库进行同步扩展，才能更好地支撑关键词的标准化。

进一步地，所述对白名单内的词进行分析提取代表词返回给用户，用于扩充基础关键词库，包括：

步骤B1，利用步骤A1中训练好的FastText词向量模型获取白名单中所有词的词向量，基于词向量对白名单内的词进行聚类分析，获得词簇

，这里

，K为聚类数，

表示词簇

中的词总量；

步骤B2，对每个词簇

进行分析，获得代表词

，用于扩充基础关键词库。

进一步地，在步骤B2中，对每个词簇

进行分析包括如下步骤：先利用每个词簇内的词

构建Hnswlib索引，然后计算每个词簇的候选中心词词向量

，最后在

中检索与

最近的词

作为代表词返回给用户，由用户判定是否将其加入基础关键词库；其中，

表示对词向量的加和平均；这样通过自动化的处理提取代表词作为扩展用户基础关键词库的候选词，然后依托用户的专业经验对候选词进行判定是否最终用于扩展，在保证了扩展结果的正确性的同时在一定程度上减轻了人工工作量。

本发明的有益效果包括：

本发明基于对广播电视新闻内容进行关键词提取，同时结合用户侧的基础关键词库对提取结果进行标准化，获得的展示结果更加适配用户特定需求；此外，不定期对提取的关键词进行分析，还可提取代表词给用户进而进行基础关键词库的扩展。在融合媒体时代，本发明作为利用智能化技术为广播电视新闻进行自动化内容标签标引的方法，在考虑用户实际业务需求的前提下，自适应地进行关键词的标准化和特色词库的扩展，可以更准确地组织和管理媒体资源，提高管理效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例的自适应广播电视新闻关键词标准化方法的流程框架示意图。

具体实施方式

本说明书中所有实施例公开的所有特征，或隐含公开的所有方法或过程中的步骤，除了互相排斥的特征和/或步骤以外，均可以以任何方式组合和/或扩展、替换。

实施例1

如图1所示，自适应广播电视新闻关键词标准化方法，

自适应广播电视新闻关键词标准化方法，包括：

在该实施方案中，基础关键词库可以是用户侧的特色词库。

实施例2

在实施例1的基础上，候选关键词按照如下步骤获取：通过基于训练好的关键词抽取模型对输入的广播电视新闻进行预测，获得关键词抽取结果，对抽取结果进行黑名单过滤形成候选关键词。

在该实施方案中，对广播电视新闻进行关键词预测时采用的关键词抽取模型可以为本发明提供的基于深度学习的关键词抽取模型或其他现有的关键词抽取模型。如果采用本发明提供的基于深度学习的关键词抽取模型，则该模型按串联顺序包括文本向量化层、第一关键词预测层，第二关键词序列标注层。文本向量化层主要基于预训练语言模型，这样可以获得传统的依赖分词的模型无法获得的词汇，如十二五计划、精准扶贫、新型冠状病毒、澳港澳大湾区等。如果采用发明提供的基于深度学习的关键词抽取模型，获取关键词结果进一步包括如下步骤：

（2）、利用预训练模型构建关键词抽取模型，并利用（1）广播电视新闻关键词数据集训练所构建的关键词抽取模型；

在进行黑名单过滤前，对提取到的关键词进行如下处理：去除冗余、标点分割和通顺分析处理。黑名单一般是用户提供的词库，涉及敏感词等，这样处理后可以使得最终获得的候选关键词相对有意义。

实施例3

在实施例1的基础上，基于基础关键词库标准化候选关键词，包括：

步骤A3，利用步骤A2中训练好的FastText词向量模型，以及结合近似最近邻方法Hnswlib构建候选关键词标准化模型，利用候选关键词模型标准化模型获取输入候选关键词在基础关键词库中的前K个相似词及相互之间的距离；在距离小于设定阈值的相似词中选择距离与候选关键词最近的作为其标准化结果返回给用户；在该实施方案中，能够针对不同的用户自适应地进行关键词的标准化。比如关键词抽取结果都是澳港澳，但依托不同台方的基础关键词库，标注化后的结果可能是澳港澳大湾区（针对深圳台），或者澳港澳（针对其他台），这样的结果更符合各方的用词习惯，同时也利于以后的内容检索；

对白名单内的词进行分析提取代表词返回给用户，用于扩充基础关键词库，包括：

，这里

，K为聚类数，

表示词簇

中的词总量；

步骤B2，对每个词簇

进行分析，获得代表词

，用于扩充基础关键词库。

在步骤B2中，对每个词簇

进行分析包括如下步骤：先利用每个词簇内的词

构建Hnswlib索引，然后计算每个词簇的候选中心词词向量

，最后在

中检索与

Claims

1.自适应广播电视新闻关键词标准化方法，其特征在于，包括：

2.根据权利要求1所述的自适应广播电视新闻关键词标准化方法，其特征在于，所述候选关键词按照如下步骤获取：通过基于训练好的关键词抽取模型对输入的广播电视新闻进行预测，获得关键词抽取结果，对抽取结果进行黑名单过滤形成候选关键词。

3.根据权利要求2所述的自适应广播电视新闻关键词标准化方法，其特征在于，在进行黑名单过滤前，对提取到的关键词进行如下处理：去除冗余、标点分割和通顺分析处理。

4.根据权利要求1所述的自适应广播电视新闻关键词标准化方法，其特征在于，所述基于基础关键词库标准化候选关键词，包括：

步骤A1，获取多个新闻文本语料，构建用于训练FastText词向量模型的学习样本；

步骤A2，基于步骤A1所构建的学习样本进行FastText词向量模型的训练，获得词向量模型；

步骤A3，利用步骤A2中训练好的FastText词向量模型，以及结合近似最近邻方法Hnswlib构建候选关键词标准化模型，利用所述候选关键词模型标准化模型获取输入候选关键词在基础关键词库中的前K个相似词及相互之间的距离；在距离小于设定阈值的相似词中选择距离与候选关键词最近的作为其标准化结果返回给用户；

步骤A4，将利用候选关键词标准化模型召回的相似词距离都大于阈值的候选关键词加入白名单，供后续基础关键词库扩充准备。

5.根据权利要求1所述的自适应广播电视新闻关键词标准化方法，其特征在于，所述对白名单内的词进行分析提取代表词返回给用户，用于扩充基础关键词库，包括：