CN113723401A

CN113723401A - 一种基于形态学方法的歌单提取方法

Info

Publication number: CN113723401A
Application number: CN202110967331.2A
Authority: CN
Inventors: 李文熙; 冯瑞; 王鑫; 郭干城
Original assignee: Shanghai Qianying Intelligent Technology Co ltd
Current assignee: Shanghai Qianying Intelligent Technology Co ltd
Priority date: 2021-08-23
Filing date: 2021-08-23
Publication date: 2021-11-30

Abstract

本发明涉及一种基于形态学方法的歌单提取方法，包括如下步骤：(1)、采用文字检测模块检测歌单截图中出现的文本行，并将所有的文本行的位置传递给下一个区域过滤模块；(2)、采用区域过滤模块过滤掉不符合要求的文本区域，保留真实的歌曲内容信息；(3)、采用区域合并模块合并有关联关系的不同文本行，从而整合出更丰富的歌曲信息；(4)、采用信息提取模块进行最终的信息提取，将根据合并后的区域再次过滤，获取到真实的歌曲条目信息。本发明能够删除掉不属于歌单信息中的文字；能够整合属于同一个歌曲的不同类型的信息，提高检索效率。本发明适用于各种音乐软件中，将音乐软件的歌单进行迁移，可以提高软件的初始效率。

Description

一种基于形态学方法的歌单提取方法

技术领域

本发明涉及一种歌单提取方法，具体涉及一种能够通过图像提取到歌单中的歌曲信息，能够提高截图中对有用信息的结构化提取的基于形态学方法的歌单提取方法。

背景技术

伴随着互联网的快速发展，流媒体已经成为日常生活中不可分割的一部分，而音乐又是流媒体中比较重要的一部分，越来越多的互联网公司在关注音乐市场。伴随着人们版权意识的提高，音乐软件的竞争已经逐渐变成了音乐版权的竞争，而伴随着版权的转移，受众的用户也会考虑进行软件的迁移，其中阻碍用户迁移的一个重要的因素就是歌单的迁移，通常在原音乐软件上面会收藏有用户喜欢的很多音乐，一首一首的搜索会带来很大的时间成本，所以批量导入功能能够会用户迁移带来新的活力。

传统的歌曲导入方式需要采用链接的形式，而这种方式需要原音乐软件提供相关的网页分享接口，音乐软件再去访问网页的内容并进行内容解析，从而识别出其中的内容，但是并非所有的音乐软件都开放类似的接口，这就会用户的迁移带来了很大的困难。

发明内容

针对上述问题，本发明的主要目的在于提供一种能够通过图像提取到歌单中的歌曲信息，能够提高截图中对有用信息的结构化提取的基于形态学方法的歌单提取方法。

本发明是通过下述技术方案来解决上述技术问题的：一种基于形态学方法的歌单提取方法，所述基于形态学方法的歌单提取方法用于提取歌单截图中的歌曲信息，所述基于形态学方法的歌单提取方法包括如下步骤：

步骤(1)、采用文字检测模块检测歌单截图中出现的文本行，并将所有的文本行的位置传递给下一个区域过滤模块；

步骤(2)、采用区域过滤模块过滤掉不符合要求的文本区域，保留真实的歌曲内容信息；

步骤(3)、采用区域合并模块合并有关联关系的不同文本行，从而整合出更丰富的歌曲信息；

步骤(4)、采用信息提取模块进行最终的信息提取，将根据合并后的区域再次过滤，获取到真实的歌曲条目信息。

在本发明的具体实施例子中，步骤(1)中的文字检测模块包含检测和识别两部分算法，该算法可以检测到歌单截图中的文本行的位置和文本行的文字内容。

在本发明的具体实施例子中，步骤(2)中的区域过滤模块利用先验的条件，根据矩形框的比例、位置等信息来去除掉不符合歌单信息条件的文本框，其规则包括，在文本行左上角的坐标位于图像中轴线右边的时候，需要将其过滤掉，在长宽比大于1的时候需要过滤掉，当面积过小的时候需要过滤掉。

在本发明的具体实施例子中，步骤(3)中的区域合并模块中包含膨胀操作合并的方法，将同一首歌曲的歌名区域和专辑名区域进行连接，形成一个连通的区域，但是不同的歌曲区域之间依旧保持不连通。

在本发明的具体实施例子中，步骤(4)中的信息提取模块中包含区域分类单元和结构化单元，通过以获得的区域进行分类处理获取到真实的歌单的位置，然后利用文字的排版特征提取其中的歌曲信息。

在本发明的具体实施例子中，分类单元使用神经网络对图像进行分类处理，分类的结果包含正确和错误两种，正确所表示该区域为歌曲信息区域，错误表示该区域为其他手机信息区域。

在本发明的具体实施例子中，结构化单元对区域内的文字进行结构化整合，整合的规则为一个区域中第一行的文字为歌曲名，第二行的文字为专辑名，如果不存在第二行则专辑名空缺，播放时长与专辑名的文字连接在一起，如果专辑名最后几位为时间，那么将该部分截取出来作为播放时长。

本发明的积极进步效果在于：本发明提供的基于形态学方法的歌单提取方法有如下优点：本发明中由于具备文字检测模块，从而能够通过图像提取到歌单中的歌曲信息，不需要依赖原有音乐软件提供迁移的接口。同时由于具备了区域过滤模块和区域合并模块，能够提高截图中对有用信息的结构化提取。

附图说明

图1是本发明的系统架构图。

下面是本发明中标号对应的名称：

文字检测模块1、区域过滤模块2、区域合并模块3、信息提取模块4。

具体实施方式

下面结合附图给出本发明较佳实施例，以详细说明本发明的技术方案。

图1是本发明的系统架构图，如图1所示：本发明提供的一种基于形态学方法的歌单提取方法，该基于形态学方法的歌单提取方法用于提取歌单截图中的歌曲信息，该基于形态学方法的歌单提取方法包括如下步骤：

步骤(1)中的文字检测模块包含检测和识别两部分算法，该算法可以检测到歌单截图中的文本行的位置和文本行的文字内容。

步骤(2)中的区域过滤模块利用先验的条件，根据矩形框的比例、位置等信息来去除掉不符合歌单信息条件的文本框，其规则包括，在文本行左上角的坐标位于图像中轴线右边的时候，需要将其过滤掉，在长宽比大于1的时候需要过滤掉，当面积过小的时候需要过滤掉。

步骤(3)中的区域合并模块中包含膨胀操作合并的方法，将同一首歌曲的歌名区域和专辑名区域进行连接，形成一个连通的区域，但是不同的歌曲区域之间依旧保持不连通。

步骤(4)中的信息提取模块中包含区域分类单元和结构化单元，通过以获得的区域进行分类处理获取到真实的歌单的位置，然后利用文字的排版特征提取其中的歌曲信息。

分类单元使用神经网络对图像进行分类处理，分类的结果包含正确和错误两种，正确所表示该区域为歌曲信息区域，错误表示该区域为其他手机信息区域。

结构化单元对区域内的文字进行结构化整合，整合的规则为一个区域中第一行的文字为歌曲名，第二行的文字为专辑名，如果不存在第二行则专辑名空缺，播放时长与专辑名的文字连接在一起，如果专辑名最后几位为时间，那么将该部分截取出来作为播放时长。

深度学习的成功为很多领域带来了新的可能，而在不同的场景下，深度学习和传统方法都可能具备各自的优势，所以结合他们各自的优势可以更好的算法的性能。

本发明就是利用深度学习的优势和传统的形态学方法的各自优势，设计出的一种基于形态学方法的歌单提取方法，实现对歌单图像中每个音乐条目的“歌曲名”、“专辑名”、“播放时间”的提取。

为了使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解，以下结合实施例及附图对本发明的基于形态学方法的歌单提取方法作具体阐述。

本实施例中的系统运行在Linux平台上实现，该平台至少具有一张图形处理单元GPU卡的支持。

如图1所示，歌单提取方法包括文字检测模块1、区域过滤模块2、区域合并模块3以及信息提取模块4。

文字检测模块1用于检测歌单截图中出现的文本行，并将所有的文本行的位置传递给下一个模块。

本实施例中，文字检测模块用于处理歌单截图，使用文本检测算法先获取图像中每个本文行的位置，并使用文字识别算法来提取每个文本行中的内容。

本实施例中，文字检测模块会使用多个深度学习单元来完成文字的检测工作。具体地，文字检测模块1包括检测算法单元、识别算法。

检测算法单元用于直接处理歌单的截图，采用基于文本行的方式来得到图像中的文本位置，坐标表示方式为矩形框的左上角坐标和矩形框的长和宽。

识别算法单元用于处理每一个文本行区域，将每一个文本区域单独截出，并识别出其中对应的文字。

区域过滤模块用于过滤掉不符合要求的文本区域，保留真实的歌曲内容信息。

本实施例中，区域过滤模块基于位置、面试和形状三种方式进行过滤，在文本行左上角的坐标位于图像中轴线右边的时候，需要将其过滤掉，在长宽比大于1的时候需要过滤掉，当面积过小的时候需要过滤掉。

区域合并模块用于合并有关联关系的不同文本行，从而整合出更丰富的歌曲信息。

本实施例中，区域合并的方式采用膨胀操作来来完成。具体来说，首先将经过过滤的文本行绘制到一张新的图像上，文本行区域用1来表示，其他部位用0来表示，然后通过控制一定大小的膨胀核来进行卷积，得到处理后的图像，最后在处理后的图像上面进行连通域判断，找到所有不连通的区域的位置。

信息提取模块4用于最终的信息提取，将根据合并后的区域再次过滤，获取到真实的歌曲条目信息。

本实施例中，信息提取模块会使用多个单元来完成有效信息的抽取。具体地，信息提取模块4包括区域分类单元、字符过滤单元、信息整合单元。

区域分类单元用于再次过滤非歌曲区域，具体来说，将原图按照提取到的不同区域进行切分，并使用一个分类器进行分类判断，最终得到该区域是否为歌曲区域的判定，如果该区域是歌曲区域则保留进入下一个单元，如果该区域不是歌曲区域则删除掉该区域。

字符过滤单元用于对每一个区域进行无用字符过滤，过滤的内容包括一些标点符号、单一数字等影响检索的文字的数据。

信息整合单元用于对每个歌曲区域的歌曲名、专辑名和播放时间进行整合，整合的规则为一个区域中第一行的文字为歌曲名，第二行的文字为专辑名，如果不存在第二行则专辑名空缺，播放时长与专辑名的文字连接在一起，如果专辑名最后几位为时间，那么将该部分截取出来作为播放时长。

以下，对本发明实施例中歌单提取方法的流程作具体阐述：

本实施例中，基于形态学方法的歌单提取方法的入口是文字检测模块1，该模块接收到歌单的截图信息，并进行文本区域的检测，将检测到的结果以坐标的形式传递给区域过滤模块2，该模块会将以上提取到的信息进行初步过滤，筛选掉不符合要求的区域，并将过滤后的区域传递给区域合并模块3，该模块会基于形态学的方法将同一歌曲信息的文本行连接到同一个区域，并将新的区域传递给信息提取模块4，该模块会进一步过滤以上获得的区域，并将真实的歌曲区域的信息进行结构化处理，得到最终的结果。

在实际应用中，可将本实施例的基于形态学方法的歌单提取方法部署在任何的音乐软件上，该方法不需要原音乐软件提供任何借口，只需要通过手机截图的方法便可以迁移原有音乐软件中的歌单信息。

根据本实施例提供的基于形态学方法的歌单提取方法，由于具备文字检测模块，从而能够通过图像提取到歌单中的歌曲信息，不需要依赖原有音乐软件提供迁移的接口。同时由于具备了区域过滤模块和区域合并模块，能够提高截图中对有用信息的结构化提取。

以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内，本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.一种基于形态学方法的歌单提取方法，其特征在于：所述基于形态学方法的歌单提取方法用于提取歌单截图中的歌曲信息，所述基于形态学方法的歌单提取方法包括如下步骤：

2.根据权利要求1所述的基于形态学方法的歌单提取方法，其特征在于：步骤(1)中的文字检测模块包含检测和识别两部分算法，该算法可以检测到歌单截图中的文本行的位置和文本行的文字内容。

3.根据权利要求1所述的基于形态学方法的歌单提取方法，其特征在于：步骤(2)中的区域过滤模块利用先验的条件，根据矩形框的比例、位置等信息来去除掉不符合歌单信息条件的文本框，其规则包括，在文本行左上角的坐标位于图像中轴线右边的时候，需要将其过滤掉，在长宽比大于1的时候需要过滤掉，当面积过小的时候需要过滤掉。

4.根据权利要求1所述的基于形态学方法的歌单提取方法，其特征在于：步骤(3)中的区域合并模块中包含膨胀操作合并的方法，将同一首歌曲的歌名区域和专辑名区域进行连接，形成一个连通的区域，但是不同的歌曲区域之间依旧保持不连通。

5.根据权利要求1所述的基于形态学方法的歌单提取方法，其特征在于：步骤(4)中的信息提取模块中包含区域分类单元和结构化单元，通过以获得的区域进行分类处理获取到真实的歌单的位置，然后利用文字的排版特征提取其中的歌曲信息。

6.根据权利要求5所述的基于形态学方法的歌单提取方法，其特征在于：分类单元使用神经网络对图像进行分类处理，分类的结果包含正确和错误两种，正确所表示该区域为歌曲信息区域，错误表示该区域为其他手机信息区域。

7.根据权利要求5所述的基于形态学方法的歌单提取方法，其特征在于：结构化单元对区域内的文字进行结构化整合，整合的规则为一个区域中第一行的文字为歌曲名，第二行的文字为专辑名，如果不存在第二行则专辑名空缺，播放时长与专辑名的文字连接在一起，如果专辑名最后几位为时间，那么将该部分截取出来作为播放时长。