CN112988977A

CN112988977A - 基于近似词的模糊匹配媒资内容库检索方法

Info

Publication number: CN112988977A
Application number: CN202110445489.3A
Authority: CN
Inventors: 杨瀚; 朱婷婷; 温序铭; 李忠玮; 严照宇
Original assignee: Chengdu Sobey Digital Technology Co Ltd
Current assignee: Chengdu Sobey Digital Technology Co Ltd
Priority date: 2021-04-25
Filing date: 2021-04-25
Publication date: 2021-06-18

Abstract

本发明公开了基于近似词的模糊匹配媒资内容库检索方法，包括步骤：S1，获取新闻文本语料，构建用于训练FastText模型的学习样本；S2，基于所构建的学习样本进行FastText模型的训练，获得词向量模型；S3，利用训练好的词向量模型和近似最近邻方法Hnswlib构建近似词检索模型，利用近似词检索模型获取输入的检索词的相似词作为扩展目标检索词组，基于该扩展目标检索词组在内容库中进行相关素材检索，然后将检索结果返回给用户等；本发明基于召回的所有近似词进行扩展检索的方式将完全匹配检索转换成模糊匹配检索，能够在更好地覆盖用户的检索意图的情况下获得更广泛且与用户想要的结果相关的素材检索结果。

Description

基于近似词的模糊匹配媒资内容库检索方法

技术领域

本发明涉及新闻媒资检索领域，更为具体的，涉及基于近似词的模糊匹配媒资内容库检索方法。

背景技术

广播电视行业拥有非常丰富的数据资源。据相关调查数据显示，在美国17个行业所拥有的数据总量排名中，传媒业占据第三位。近年来，随着我国广播电视行业的快速发展，媒体内容数据更是呈爆炸式增长，与此同时也给媒体资源的再利用带来了挑战。在汇聚了台内、外媒、用户生产数据等的内容库中，高效地完成检索对于有效获取相关素材，再推送到节目生产环节、提高节目生产率，丰富节目生产资源等具有非常重要的意义。

另一方面，为了提升编目质量和工作效率，媒体数据资料管理从传统的人工编目逐步转换到依托智能化管理平台的自动编目。通过实体识别、人脸识别、场景分类、关键词识别等相关AI技术，媒体内容素材实现了智能化标引。用户可以在内容库中检索需要的标签，如人名、场景、地点、分类类别、关键词等搜索相关媒体素材然后打点出库。但是同多数搜索工具一样，检索结果依赖于用户输入内容的准确性。完全匹配检索方式下，用户可能无法获得想要的素材，也可能错过其他相关素材。

为了解决上述问题，本发明提出一种基于近似词的模糊匹配媒资内容库检索方法。

发明内容

本发明的目的在于克服现有技术的不足，提供基于近似词的模糊匹配媒资内容库检索方法，将完全匹配检索转换成模糊匹配检索，能够在更好地覆盖用户的检索意图的情况下获得更广泛且与用户想要的结果相关的素材检索结果等。

本发明的目的是通过以下方案实现的：

一种基于近似词的模糊匹配媒资内容库检索方法，包括步骤：

S1，获取新闻文本语料，构建用于训练FastText词向量模型的学习样本；

S2，基于步骤S1所构建的学习样本进行FastText词向量模型的训练，获得词向量模型；

S3，利用步骤S2中训练好的词向量模型和近似最近邻方法Hnswlib构建近似词检索模型，利用所述近似词检索模型获取输入的检索词的相似词作为扩展目标检索词组，基于该扩展目标检索词组在内容库中进行相关素材检索，然后将检索结果返回给用户。

在获取新闻文本语料时，可以利用爬虫等工具。

进一步地，在步骤S1中，包括步骤：

在步骤S1中，包括步骤：

S11，对获取的新闻文本语料进行清洗和分句；

S12，基于LTP工具以及词库对步骤S11中清洗和分句后获得的文本句进行分词和去停用词处理；

S13，按FastText词向量模型输入要求，整理经过步骤S12处理后的文本数据，构成最终的学习样本。

在构建用于训练FastText词向量模型的学习样本时，首先要对获取的新闻文本语料进行清洗和分句。其中，除常规清洗手段外，还应进行一些特殊处理，如去“同期声”、“导语”、“正文”等词。在文本清洗分句后，可以再基于现有LTP工具（Wanxiang Che, ZhenghuaLi, Ting Liu. LTP: A Chinese Language Technology Platform. In Proceedings ofthe Coling 2010:Demonstrations. 2010.08, pp13-16, Beijing, China.）以及各种词库（如分词词库、停用词库）对获得的文本句进行分词和去停用词等处理，最后，按FastText模型输入要求整理处理好的文本数据构成最终的学习样本。

进一步地，在步骤S2中，进行FastText词向量模型的训练时，词向量维度设置为300。

进一步地，在步骤S11中，还对获取的新闻文本语料进行去同期声、去导语、去正文处理。

进一步地，在步骤S3中，包括如下步骤：

S31，加载基础词库，并将加载的基础词库作为近似词检索候选词库

；基础词库来源主要是媒资内容库中素材的智能化标引标签，包括实体内容、关键词内容、场景、景别等，这样可以保证经过近似检索模型扩展以后的检索输入词的准确性；

S32，加载训练好的FastText词向量模型，对步骤S31中近似词检索候选词库

中每个词进行向量化，便于后续相似度计算；在近似词检索阶段词向量非常重要，相对于Glove/word2vec等词向量模型，FastText模型自带了OOV（out-of- vocabulary）的处理，所以采用FastText词向量模型可以实现对任何词的词向量转化，使用 FastText词向量模型更有益于词的向量化以及后续的相似度计算。

S33，根据步骤S31中的近似词检索候选词库

构建Hnswlib索引，设置相似度计算方法，并将步骤S32中获得的近似词检索候选词库

中每个词的向量加入Hnswlib索引当中；

S34，获取用户在内容库中的检索文本，对其进行分词处理，将获得的分词结果

和原始检索文本

合并作为目标检索词组

；这样可以使得下一步近似词召回时获得能表达用户实际搜索意图的词的同时还能获得更多的与之相关检索词。比如用户输入词为“比特币交易”，经过上述处理以后获得“比特币交易”、“比特币”、“交易”；“比特币交易”的近似词可能含“货币交易”，“比特币”的近似词可能含“区块链”，而“交易”的近似词可能含“买卖”。

S35，对步骤S34中目标检索词组

中的每一个词，首先利用 FastText词向量模型获得其向量

，然后利用Hnswlib索引在近似词检索候选词库

中召回与之最相似的

个近似词以及这

个近似词与

的距离，过滤距离大于设定阈值

的词后最终构成扩展目标检索词组

；经过这样对可能不大准确的用户搜索内容词的近似扩展，可以从近似词检索候选词库

中也即媒资内容库中素材的智能化标引标签中获得潜在的更能代表用于搜索意图的检索词；

S36，基于步骤S35中获得的扩展目标检索词组

在内容库中进行扩展检索；获得用户检索意图相关且更广泛的素材并返回给用户。

在该实施例的技术方案中，考虑到检索结果依赖于用户输入内容的准确性，但是由于中文文本的丰富性和灵活性，用户在检索素材时的输入可能并不能完全匹配上媒体内容素材的智能化标引标签，如此在完全匹配检索方式下，用户可能无法获得想要的素材，也可能错过其他相关素材。因此，在该实施例技术方案中主要通过构建并利用近似词检索模型获取输入的检索词的相似词作为扩展目标检索词组，基于该扩展目标检索词组在内容库中进行相关素材检索，来使得检索匹配的结果更加广泛以便更好地覆盖用户搜索意图。

进一步地，在步骤S33中，所述相似度计算方法包括夹角余弦函数。

本发明的有益效果包括：

本发明通过构建近似词检索模型，对用户检索媒资内容库时的检索内容进行近似词召回，基于召回的所有近似词进行扩展检索的方式将完全匹配检索转换成模糊匹配检索，能够在更好地覆盖用户的检索意图的情况下获得更广泛且与用户想要的结果相关的素材检索结果，在融合媒体发展时代，可以进一步为媒体资源的再利用做出一定的贡献。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的方法步骤流程图。

具体实施方式

本说明书中所有实施例公开的所有特征，或隐含公开的所有方法或过程中的步骤，除了互相排斥的特征和/或步骤以外，均可以以任何方式组合和/或扩展、替换。

实施例1

如图1所示，一种基于近似词的模糊匹配媒资内容库检索方法，包括步骤：

S3，利用步骤S2中训练好的词向量模型和近似最近邻方法Hnswlib构建近似词检索模型，利用近似词检索模型获取输入的检索词的相似词作为扩展目标检索词组，基于该扩展目标检索词组在内容库中进行相关素材检索，然后将检索结果返回给用户。

在获取新闻文本语料时，可以利用爬虫等工具。

实施例2

在实施例1的基础上，更进一步地对实施例1中的步骤S1执行如下步骤：

S11，对获取的新闻文本语料进行清洗和分句；

S13，按FastText词向量模型输入要求，整理经过步骤S12处理后的文本数据，从而构成最终的学习样本。

在该实施例的技术方案中，在构建用于训练FastText词向量模型的学习样本时，首先要对获取的新闻文本语料进行清洗和分句。其中，除常规清洗手段外，还应进行一些特殊处理，如去“同期声”、“导语”、“正文”等词。在文本清洗分句后，再基于现有LTP工具（Wanxiang Che, Zhenghua Li, Ting Liu. LTP: A Chinese Language TechnologyPlatform. In Proceedings of the Coling 2010:Demonstrations. 2010.08, pp13-16,Beijing, China.）以及各种词库（如分词词库、停用词库）对获得的文本句进行分词和去停用词等处理，最后，按FastText模型输入要求，将处理后的文本数据用来构成最终的学习样本。

实施例3

在实施例1的基础上，更进一步地对实施例1中步骤S3执行如下步骤：

S31，加载基础词库，将加载的基础词库作为近似词检索候选词库

中每个词进行向量化，便于后续相似度计算；在近似词检索阶段词向量非常重要，相对于Glove/word2vec等词向量模型，FastText词向量模型自带了OOV（out-of- vocabulary）的处理，所以采用FastText词向量模型可以实现对任何词的词向量转化，使用 FastText词向量模型更有益于词的向量化以及后续的相似度计算。