CN114168789A

CN114168789A - 歌曲标签扩充方法及其装置、设备、介质、产品

Info

Publication number: CN114168789A
Application number: CN202111547722.5A
Authority: CN
Inventors: 彭骋
Original assignee: Guangzhou Geshen Information Technology Co ltd
Current assignee: Guangzhou Geshen Information Technology Co ltd
Priority date: 2021-12-16
Filing date: 2021-12-16
Publication date: 2022-03-11

Abstract

本申请涉及音乐信息检索技术领域，公开一种歌曲标签扩充方法及其装置、设备、介质、产品，所述方法包括：获取设定地理区域、时间段内被在线用户访问的歌曲及其所属的歌单；从所述歌曲及歌单相对应的描述文本中抽取生成其中各个关键词相对应的关键词向量；将所述关键词向量与场景语料库中预存储的场景词向量进行相似匹配，获得与所述关键词向量构成相似的场景词向量集合；根据所述场景词向量集合获得其相对应的场景词集合，将场景词集合中的一个或多个场景词标记为所述歌曲的标签。本申请能实现根据用户所处场景和时间所提供的信息为歌曲打标，可节省歌曲标注的人力成本。

Description

歌曲标签扩充方法及其装置、设备、介质、产品

技术领域

本申请涉及音乐信息检索技术领域，尤其涉及一种歌曲标签扩充方法及其相应的装置、计算机设备、计算机可读存储介质，以及计算机程序产品。

背景技术

随着科技和经济迅速发展，广大用户开始追求健康有益的精神需求，适于多种场景下的听歌广受用户青睐，使得各在线音乐平台的歌曲库中歌曲总量也越来越庞大，为方便用户快速访问歌曲库中的歌曲，或为方便平台向用户推荐其历史收听歌曲相同或相近类型的歌曲，现有技术通常为歌曲库中的歌曲进行打标，一般基于语种、年代流派、歌手、专辑属性为歌曲设定标签，通过检索标签快速匹配出相同或相近类型的歌曲，推送给用户。但是，这些标签的设定仅基于歌曲属性，依据属性设定的标签已逐渐不满足用户的个性化需求，用户更希望能够处在特定场景下收听迎合当前场景的歌曲。

另一方面，如果由各在线音乐平台官方负责歌曲的打标工作，需要大量具有音乐背景的专业人士进行手动标注歌曲标签，涉及到的问题是需要花费的成本比较高昂以及效率相对比较低，而且，基于歌曲本身的旋律、节奏、歌词等方面结合实际生活场景人工挖掘出适用的场景进行打标，相对而言，较为困难。

综上，鉴于当前用户个性化喜好需求无法有效被满足问题，本申请人对此作出相应的探索。

发明内容

本申请的首要目的在于解决上述问题至少之一而提供一种歌曲标签扩充方法及其相应的装置、计算机设备、计算机可读存储介质、计算机程序产品。

为满足本申请的各个目的，本申请采用如下技术方案：

适应本申请的目的之一而提供的一种歌曲标签扩充方法，包括如下步骤：

获取设定地理区域、时间段内被在线用户访问的歌曲及其所属的歌单；

从所述歌曲及歌单相对应的描述文本中抽取生成其中各个关键词相对应的关键词向量；

将所述关键词向量与场景语料库中预存储的场景词向量进行相似匹配，获得与所述关键词向量构成相似的场景词向量集合；

根据所述场景词向量集合获得其相对应的场景词集合，将场景词集合中的一个或多个场景词标记为所述歌曲的标签。

进一步的实施例中，获取设定地理区域、时间段内被在线用户访问的歌曲及其所属的歌单，包括如下步骤：

获取于该地理区域、该时间段范围内在线的所有用户所访问的所有歌曲；

根据访问量对所述所有歌曲进行统计，获得多个访问榜单，所述访问量为点击播放量、搜索播放量、完整播放量中的任意一种或任意多种；

筛选出所述访问榜单中访问量靠前的有限多个目标歌曲；

获取所述目标歌曲所归属的歌单。

扩展的实施例中，获取设定地理区域、时间段内被在线用户访问的歌曲及其所属的歌单的步骤之前，包括如下步骤：

响应任意在线用户的登录事件，获取该在线用户的地理位置信息，根据该地理位置信息设定其所属的地理区域，根据该登录事件的触发时间设定时间段；

或者：

构造地理区域表格及时间段表格，在该地理区域表格中设定多个地理区域，在该时间段表格中设定多个时间段。

进一步的实施例中，从所述歌曲及歌单相对应的描述文本中抽取生成其中各个关键词相对应的关键词向量，包括如下步骤：

获取所述歌曲的描述文本及所述歌单的描述文本；

对所述歌曲及其歌单的描述文本进行分词，从分词中抽取出多个关键词；

将各个关键词向量化，获得对应的多个关键词向量。

较佳的实施例中，将所述关键词向量与场景语料库中预存储的场景词向量进行相似匹配，获得与所述关键词向量构成相似的场景词向量集合，包括如下步骤：

针对每个关键词向量，将其与场景语料库中预存储的场景词向量进行相似匹配，获得该关键词向量与每个场景词向量之间的相似度；

针对每个关键词向量，将相似度超过预设阈值的场景词向量确定为与该关键词向量构成相似的场景词向量；

将与各个关键词向量构成相似的场景词向量构造为场景词向量集合。

进一步的实施例中，根据所述场景词向量集合获得其相对应的场景词集合，将场景词集合中的一个或多个场景词标记为所述歌曲的标签，包括如下步骤：

查找所述场景语料库，确定场景词向量集合中每个场景词向量相对应的场景词，获得场景词集合；

根据预设规则对所述场景词集合中的多个场景词进行组合，获得组合标签集，所述组合标签集包括一个或任意多个选自所述场景词集合的场景词；

对所述歌曲进行标注，将所述组合标签合中的各个场景词作为所述歌曲的扩充标签。

进一步的实施例中，所述场景词为用于描述自然现象、社会活动、交通现象、地理区域中任意一种或任意多种的自然语言词汇。

适应本申请的目的之一而提供的一种歌曲标签扩充装置，包括：

区域获取模块，用于获取设定地理区域、时间段内被在线用户访问的歌曲及其所属的歌单；

向量抽取模块，用于从所述歌曲及歌单相对应的描述文本中抽取生成其中各个关键词相对应的关键词向量；

相似匹配模块，用于将所述关键词向量与场景语料库中预存储的场景词向量进行相似匹配，获得与所述关键词向量构成相似的场景词向量集合；

扩充标签模块，用于根据所述场景词向量集合获得其相对应的场景词集合，将场景词集合中的一个或多个场景词标记为所述歌曲的标签。

进一步的实施例中，所述区域获取模块，包括：

用户歌曲获取子模块，用于获取于该地理区域、该时间段范围内在线的所有用户所访问的所有歌曲；

访问量统计子模块，用于根据访问量对所述所有歌曲进行统计，获得多个访问榜单，所述访问量为点击播放量、搜索播放量、完整播放量中的任意一种或任意多种；

访问量筛选子模块，用于筛选出所述访问榜单中访问量靠前的有限多个目标歌曲；

歌单获取子模块，用于获取所述目标歌曲所归属的歌单。

扩展的实施例中，所述用户歌曲获取子模块之前，包括：

定位区域模块，用于响应任意在线用户的登录事件，获取该在线用户的地理位置信息，根据该地理位置信息设定其所属的地理区域，根据该登录事件的触发时间设定时间段；

或者：

预设区域模块，用于构造地理区域表格及时间段表格，在该地理区域表格中设定多个地理区域，在该时间段表格中设定多个时间段。

进一步的实施例中，所述向量抽取模块，包括：

文本获取子模块，用于获取所述歌曲的描述文本及所述歌单的描述文本；

文本分词子模块，用于对所述歌曲及其歌单的描述文本进行分词，从分词中抽取出多个关键词；

词向量化子模块，用于将各个关键词向量化，获得对应的多个关键词向量。

较佳的实施例中，所述相似匹配模块，包括：

向量相似匹配子模块，用于针对每个关键词向量，将其与场景语料库中预存储的场景词向量进行相似匹配，获得该关键词向量与每个场景词向量之间的相似度；

向量筛选子模块，用于针对每个关键词向量，将相似度超过预设阈值的场景词向量确定为与该关键词向量构成相似的场景词向量；

向量集合构建子模块，用于将与各个关键词向量构成相似的场景词向量构造为场景词向量集合。

进一步的实施例中，所述扩充标签模块，包括：

场景词获取子模块，用于查找所述场景语料库，确定场景词向量集合中每个场景词向量相对应的场景词，获得场景词集合；

场景词组合子模块，用于根据预设规则对所述场景词集合中的多个场景词进行组合，获得组合标签集，所述组合标签集包括一个或任意多个选自所述场景词集合的场景词；

扩充歌曲标签子模块，用于对所述歌曲进行标注，将所述组合标签合中的各个场景词作为所述歌曲的扩充标签。

适应本申请的目的之一而提供的一种计算机设备，包括中央处理器和存储器，所述中央处理器用于调用运行存储于所述存储器中的计算机程序以执行本申请所述的歌曲标签扩充方法的步骤。

适应本申请的另一目的而提供的一种计算机可读存储介质，其以计算机可读指令的形式存储有依据所述的歌曲标签扩充方法所实现的计算机程序，该计算机程序被计算机调用运行时，执行该方法所包括的步骤。

适应本申请的另一目的而提供的一种计算机程序产品，包括计算机程序/指令，该计算机程序/指令被处理器执行时实现本申请任意一种实施例中所述方法的步骤。

相对于现有技术，本申请的优势如下：

本申请通过实时提取一定范围的地理区域、时间段内的用户访问的歌曲及所述歌单的描述文本中的关键词，匹配出与其在语义上高度相近的场景词，进一步将所述场景词进行组合构建为所述歌曲的扩展标签。本申请为歌曲智能打标的方式节省大量的人力成本，且其基于目标区域、目标时间段内高概率地存在相同场景事件的现实特点，通过利用实时实地采集的用户行为数据所透露的被访问歌曲及其相关联的歌单的描述信息提取构建出所述的扩展标签，该些扩展标签包含其时其地的场景特征，据此推荐的歌曲以及检索播放的歌曲极为适合用户在对应的场景下播放的需求。

附图说明

本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本申请的歌曲标签扩充方法的典型实施例的流程示意图；

图2为本申请实施例中的获取歌曲及其所属的歌单的流程示意图；

图3为本申请实施例中的提取所述歌曲及其所属的歌单中的关键词将其向量化的流程示意图；

图4为本申请实施例中的相似度匹配过程的流程示意图；

图5为本申请实施例中的据匹配的场景词扩充所述歌曲标签的流程示意图；

图6为本申请的歌曲标签扩充装置的原理框图；

图7为本申请所采用的一种计算机设备的结构示意图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本申请，而不能解释为对本申请的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)，具有与本申请所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语，应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样被特定定义，否则不会用理想化或过于正式的含义来解释。

本技术领域技术人员可以理解，这里所使用的“客户端”、“终端”、“终端设备”既包括无线信号接收器的设备，其仅具备无发射能力的无线信号接收器的设备，又包括接收和发射硬件的设备，其具有能够在双向通信链路上，进行双向通信的接收和发射硬件的设备。这种设备可以包括：蜂窝或其他诸如个人计算机、平板电脑之类的通信设备，其具有单线路显示器或多线路显示器或没有多线路显示器的蜂窝或其他通信设备；PCS(PersonalCommunications Service，个人通信系统)，其可以组合语音、数据处理、传真和/或数据通信能力；PDA(Personal Digital Assistant，个人数字助理)，其可以包括射频接收器、寻呼机、互联网/内联网访问、网络浏览器、记事本、日历和/或GPS(Global PositioningSystem，全球定位系统)接收器；常规膝上型和/或掌上型计算机或其他设备，其具有和/或包括射频接收器的常规膝上型和/或掌上型计算机或其他设备。这里所使用的“客户端”、“终端”、“终端设备”可以是便携式、可运输、安装在交通工具(航空、海运和/或陆地)中的，或者适合于和/或配置为在本地运行，和/或以分布形式，运行在地球和/或空间的任何其他位置运行。这里所使用的“客户端”、“终端”、“终端设备”还可以是通信终端、上网终端、音乐/视频播放终端，例如可以是PDA、MID(Mobile Internet Device，移动互联网设备)和/或具有音乐/视频播放功能的移动电话，也可以是智能电视、机顶盒等设备。

本申请所称的“服务器”、“客户端”、“服务节点”等名称所指向的硬件，本质上是具备个人计算机等效能力的电子设备，为具有中央处理器(包括运算器和控制器)、存储器、输入设备以及输出设备等冯诺依曼原理所揭示的必要构件的硬件装置，计算机程序存储于其存储器中，中央处理器将存储在外存中的程序调入内存中运行，执行程序中的指令，与输入输出设备交互，借此完成特定的功能。

需要指出的是，本申请所称的“服务器”这一概念，同理也可扩展到适用于服务器机群的情况。依据本领域技术人员所理解的网络部署原理，所述各服务器应是逻辑上的划分，在物理空间上，这些服务器既可以是互相独立但可通过接口调用的，也可以是集成到一台物理计算机或一套计算机机群的。本领域技术人员应当理解这一变通，而不应以此约束本申请的网络部署方式的实施方式。

本申请的一个或数个技术特征，除非明文指定，既可部署于服务器实施而由客户端远程调用获取服务器提供的在线服务接口来实施访问，也可直接部署并运行于客户端来实施访问。

本申请中所引用或可能引用到的神经网络模型，除非明文指定，既可部署于远程服务器且在客户端实施远程调用，也可部署于设备能力胜任的客户端直接调用，某些实施例中，当其运行于客户端时，其相应的智能可通过迁移学习来获得，以便降低对客户端硬件运行资源的要求，避免过度占用客户端硬件运行资源。

本申请所涉及的各种数据，除非明文指定，既可远程存储于服务器，也可存储于本地终端设备，只要其适于被本申请的技术方案所调用即可。

本领域技术人员对此应当知晓：本申请的各种方法，虽然基于相同的概念而进行描述而使其彼此间呈现共通性，但是，除非特别说明，否则这些方法都是可以独立执行的。同理，对于本申请所揭示的各个实施例而言，均基于同一发明构思而提出，因此，对于相同表述的概念，以及尽管概念表述不同但仅是为了方便而适当变换的概念，应被等同理解。

本申请即将揭示的各个实施例，除非明文指出彼此之间的相互排斥关系，否则，各个实施例所涉的相关技术特征可以交叉结合而灵活构造出新的实施例，只要这种结合不背离本申请的创造精神且可满足现有技术中的需求或解决现有技术中的某方面的不足即可。对此变通，本领域技术人员应当知晓。

本申请的一种歌曲标签扩充方法，可被编程为计算机程序产品，部署于服务器中运行而实现，藉此，客户端可以网页程序或应用程序的形式访问该计算机程序产品运行后开放的接口，通过图形用户界面与该计算机程序产品的进程实现人机交互。

请参阅图1，本申请的歌曲标签扩充方法，在其典型实施例中，包括如下步骤：

步骤S1100、获取设定地理区域、时间段内被在线用户访问的歌曲及其所属的歌单；

所述设定地理区域为用户定位附近对应的实时地理区域或预先划分而设定的预设地理区域，所述实时地理区域为用户登录后授权其终端设备所安装的应用程序调用该终端设备的定位信息的权限，继而获取该定位信息并以其对应的经纬度坐标作为基点及曼哈顿距离为预设公里数例如5km调用曼哈顿算法计算出相应的边界点，进而根据各个边界点以及基点划分出对应的地理区域。所述预设地理区域为预构建地理区域表格内对应的表格元素，该表格根据省、市、区进行划分，相应的区级对应的地理区域为表格元素。

所述设定时间段为基于用户登录而设定的实时时间段或预先划分而设定的预设时间段，所述实时时间段为用户登录时对应的时间点，继而以该时间点为基准往后的一个小时对应的时间段。所述预设时间段为预构建时间段表格，其中存储的表格元素为时间段，该表格根据每个时间段为时一个小时相应的划分一天24小时以获得所述各个时间段。

所述在线用户为用户在其终端设备所安装的应用程序所展示的登录的图形用户界面中执行相应的登录操作，在登录完成后退出登录前即处于保持登录的状态时该用户为在线用户。

进一步，可相应设置实时任务或定时任务，所述实时任务为在所述实时时间段及所述实时地理区域内，服务器访问用户数据库查询所述在线用户的唯一标识码，继而获取歌曲数据库的访问记录中该唯一标识码对应访问的歌曲，以及在该歌曲数据库中包含该歌曲的歌单，所述定时任务为每天处于预设时间段内时，同理获取在所述预设地理区域内在线用户访问的歌曲及其所属的歌单。也即，服务器通过获取特定地理区域、特定时间段内访问歌曲数据库的在线用户的用户行为数据，根据其用户行为数据可确定其访问的歌曲，进一步还可获得其访问的歌曲相应的歌单。

步骤S1200、从所述歌曲及歌单相对应的描述文本中抽取生成其中各个关键词相对应的关键词向量；

所述歌曲的描述文本可包括歌曲名称、作词人名称、作曲人名称、演唱者名称、歌词、发行日期、专辑名称等任意一种或任意多种信息，典型的，其中歌曲名称、演唱者名称、歌词为主要描述文本。

所述歌单包括用户自由自主创建的私有歌单和/或官方创建的官方歌单，其中歌单相对应的描述文本主要包含其简介文本和/或标题文本，所述私有歌单一般由用户据主观喜好自由收录同一类型如场景、语种、歌曲年代、曲风流派、歌手等的多首歌曲，所述官方歌单一般由官方据播放量、评论、收藏、点赞、分享数较多的客观准则收录同一类型的多首歌曲。

当前所述歌单包含所述歌曲，为了获得所述歌曲及其所属的歌单中的关键词，抽取出所述歌曲中的所述主要描述文本及所述歌单中的简介文本和标题文本，采用预先训练至收敛状态的文本特征提取模型，对所述抽取的歌单和歌曲相应的文本信息进行预处理分词获得各自对应的关键词，进而，将该关键词进行编码形成关键词向量进行特征表示，该关键词向量为表征各自的深层语义信息相对应的特征向量。

步骤S1300、将所述关键词向量与场景语料库中预存储的场景词向量进行相似匹配，获得与所述关键词向量构成相似的场景词向量集合；

所述场景语料库为预存储所有场景词及其相对应的场景词向量的数据库，其中的场景词由相关专业人士基于现实场景收录，由此，调用预先训练至收敛状态的文本特征提取模型，对所述所有场景词进行深层语义信息特征提取相应的构造出场景词向量，为了后续调用能够更为简便，将该场景词向量映射关联对应的场景词存储至场景语料库中。所述的文本特征提取模型可采用现有技术中多种预训练的基于CNN、RNN的神经网络模型实现。需要注意的是，此处所述称的文本特征提取模型与前一步骤的文本特征提取模型是适应不同任务而训练的。

在所述场景语料库的基础上，计算所述关键词向量与所述场景语料库中的各个场景词向量之间的相似度，进而筛选出相似度大于预设阈值的场景词向量并据其相似度进行相应的排序构成场景词向量集合。

步骤S1400、根据所述场景词向量集合获得其相对应的场景词集合，将场景词集合中的一个或多个场景词标记为所述歌曲的标签。

以场景词向量与其对应的场景词之间的映射一对一关联关系，相应的获得所述场景词向量集合中各个场景词向量对应的场景词，据此构建场景词集合，进而将场景词集合中的各个场景词进行规则组合或者任意组合即随机抽取一个或多个进行组合，继而将各个组合作为所述歌曲的标签映射关联所述歌曲进行存储，以完成所述歌曲标签集关于场景类标签的扩充操作。

通过本典型实施例的揭示，可以看出，本申请通过实时提取一定范围的地理区域、时间段内的用户访问的歌曲及所述歌单的描述文本中的关键词，匹配出与其在语义上高度相近的场景词，进一步将所述场景词进行组合构建为所述歌曲的扩展标签。本申请为歌曲智能打标的方式节省大量的人力成本，且其基于目标区域、目标时间段内高概率地存在相同场景事件的现实特点，通过利用实时实地采集的用户行为数据所透露的被访问歌曲及其相关联的歌单的描述信息提取构建出所述的扩展标签，该些扩展标签包含其时其地的场景特征，据此推荐的歌曲以及检索播放的歌曲极为适合用户在对应的场景下播放的需求。

请参阅图2，进一步的实施例中，获取设定地理区域、时间段内被在线用户访问的歌曲及其所属的歌单，包括如下步骤：

步骤S1110、获取于该地理区域、该时间段范围内在线的所有用户所访问的所有歌曲；

一种实施例中，执行所述实时任务，据某个在线用户执行登录操作时，在当前时间点往后一小时(可灵活设计)的时间段内，以该用户授权的获取用户的终端设备的实时定位相应的计算出距其5km(可灵活调节)范围内的地理区域，进一步，访问用户数据库获得所述地理区域内的所有在线用户对应的的唯一标识码，继而据此查询歌曲数据库的访问记录从该歌曲数据库中获得所述各个在线用户访问的所有歌曲。

另一种实施例中，到达每个预设时间段时，触发执行所述定时任务，据此同理可获取所述预构建地理区域表格中的各个预设地理区域内的所有在线用户所访问的所有歌曲。

步骤S1120、根据访问量对所述所有歌曲进行统计，获得多个访问榜单，所述访问量为点击播放量、搜索播放量、完整播放量中的任意一种或任意多种；

进一步，查询歌曲数据库中的访问记录获取所有歌曲对应的点击播放量、搜索播放量、完整播放量，据此相应地将该各个歌曲以不同播放量从高到低的顺序进行排序，由此，获得三个访问榜单：点击播放量榜单、搜索播放量榜单、完整播放量榜单，所述点击播放量为对于所述歌曲而言通过在图形用户界面上点击选中其进行播放的在线用户数且所述播放包含部分播放以及完整播放，所述搜索播放量为对于所述歌曲而言通过在图形用户界面上提供的搜索入口搜索选中其进行播放的在线用户数且所述播放包含部分播放以及完整播放，所述完整播放量为对于所述歌曲而言将其完整播放的在线用户数量。

步骤S1130、筛选出所述访问榜单中访问量靠前的有限多个目标歌曲；

根据所述访问榜单：点击播放量榜单、搜索播放量榜单、完整播放量榜单中的播放量排序，筛选出各个访问榜单中例如排序前100的歌曲为目标歌曲，此处据此排序筛选的数量可由本领域的技术人员视乎于实际场景下的活跃在线用户数进行灵活变通设定。

步骤S1140、获取所述目标歌曲所归属的歌单。

查询歌曲数据库中所述各个目标歌曲所映射关联的歌单，即收纳所述目标歌曲的歌单，该映射关联包含一个目标歌曲关联一个或多个歌单，由此，对应的获得多个包含所述目标歌曲的歌单。

本实施例中，通过科学可行地设定地理区域以及时间段以实现实时获取用户访问的歌曲及其所属的歌单，并进一步据实时数据对用户访问的歌曲进行优选，筛选的歌曲不仅具备一定的表征受用户喜爱程度的热度，而且相对而言，在此时此地理区域内具有一定的代表性意义。

步骤S1000、响应任意在线用户的登录事件，获取该在线用户的地理位置信息，根据该地理位置信息设定其所属的地理区域，根据该登录事件的触发时间设定时间段；

所述在线用户为用户在其终端设备所安装的应用程序所展示的登录的图形用户界面中执行相应的登录操作，在登录完成后退出登录前即处于保持登录的状态时该用户为在线用户，继而应用程序对应的服务器响应所述登录事件，出于用户信息相关的隐私保护以及用户终端设备的定位信息相关的安全保护，需经由用户同意即执行相应的授权操作，方可具备该用户信息以及定位信息相应的使用权限，为此，所述登录事件响应后，将检测是否被授予调用用户登录输入相应的用户信息，以及用户的终端设备装载的定位装置在其定位时存储于该终端设备的定位信息相关权限，若是则表示用户已执行所述权限的授权操作且在此之前用户并无取消已授权的相应的权限，进而应用程序响应所述检测事件无需再次执行所述权限的授权操作；若否则表示用户在此之前并无执行所述权限的授权操作，或用户在此之前已执行所述权限的授权操作但继而之后取消已授权的相应的权限，由此，应用程序响应所述检测事件执行所述权限的授权操作，在所述应用程序所展示的图形用户界面上底部弹窗提示以获取用户信息以及用户定位权限的授权的请求信息，用户可根据点击相关的按钮进行相应的授权以及不授权。

根据所述任意在线用户的登录操作触发所述相应的服务器响应所述登录事件时相对应的时间点，以该时间点为基准设定距其往后一小时内对应的时间为所述设定时间段，此处具体时长可由本领域技术人员视乎实际业务场景灵活变通设置。

当所述应用程序通过用户授权因而获得相应的权限后，调用该在线用户的终端设备的定位信息以获取相应的地理位置信息，以该地理位置作为基点设定5km范围内的区域，此处范围可由本领域技术人员视乎实际业务场景灵活变通设置，或该地理位置所属的省、市、区中的区级对应的区域设定为该在线用户的所属的地理区域。

另一扩展的实施例中，与前一实施例不同，获取设定地理区域、时间段内被在线用户访问的歌曲及其所属的歌单的步骤之前，包括如下步骤：

步骤S1001、构造地理区域表格及时间段表格，在该地理区域表格中设定多个地理区域，在该时间段表格中设定多个时间段。

所述地理区域表格为据省、市、区进行划分，其中的区级对应的区域为该表格的地理区域数据，对应的省、市作为该表格的表头数据，例如：广东省/广州市为表格中的某个表头数据，对应的黄埔区、天河区、海珠区、越秀区、白云区等为表格中的相应的地理区域数据。

所述时间段表格为以一小时间隔为限划分早上6点至晚上12点为多个时间段，该所述各个时间段为该表格中的数据，例如：6:00至7:00、7:00至8:00等。

本实施例中，一方面据用户实际情况客观可行地划分地理区域以及指定时间段，另一方面直观有效地预先划分地理区域以及时间段，为后续据这两方面的设定相应的实时任务和定时任务，由此，可据实际情况相应的选取执行。

请参阅图3，进一步的实施例中，从所述歌曲及歌单相对应的描述文本中抽取生成其中各个关键词相对应的关键词向量，包括如下步骤：

步骤S1210、获取所述歌曲的描述文本及所述歌单的描述文本；

示例而言，获取所述歌曲描述文本中的歌曲名称、演唱者名称、歌词文本，以及所述歌单描述文本中的简介文本和标题文本。

步骤S1220、对所述歌曲及其歌单的描述文本进行分词，从分词中抽取出多个关键词；

调用预先训练至收敛状态的文本特征提取模型对所述歌曲及所述歌单的描述文本进行分词，一种实施例中，所述文本特征提取模型为Bert，基于Bert中的两个分词器模块：BasicTokenizer和WordpieceTokenizer输入所述歌曲及所述歌单的描述文本，先进行BasicTokenizer得到一个分得比较粗的token列表，然后再对每个token进行一次WordpieceTokenizer，最终得到相应的分词结果作为关键词，所述BasicTokenizer是一个初步的分词器，对于一个待分词字符串，流程大致就是unicode、去除空字符、替换字符、控制字符和空白字符等奇怪字符、中文分词、空格分词、大写英文字母转变小写英文字母、去掉变音符号、去掉标点分词、再次空格分词；所述WordpieceTokenizer是在BasicTokenizer结果的基础上进行再一次切分得到子词，对于中文文本而言，该分词器模块在所述分词执行过程中可省略不执行。

概括而言，所述文本特征提取模型优选Bert、Electra、TextCNN之类的成熟模型，本领域技术人员可灵活采用，只要预先采用足量的数据样本对其进行训练即可。每个数据样本可为人工标注歌单和歌曲对应的描述文本的关键词，在训练时转换为对应的编码向量，然后经过所述文本特征提取模型进行特征表示之后获得相应的文本特征向量，在其基础上应用分类器进行分类预测，再借助该数据样本相对应的监督标签与分类预测结果之间的差异，而获得模型的交叉熵损失，在损失值未接近预设阈值时，对模型的权重进行梯度更新，采用下一数据训练进行迭代训练，直至模型的损失值达致预设阈值而确认模型收敛，即可将模型投入本申请之用。

步骤S1230、将各个关键词向量化，获得对应的多个关键词向量。

进一步，所述文本特征提取模型将各个关键词进行表示学习获得对应的关键词向量。

本实施例中，调用文本特征提取模型快速简便地提取歌曲及歌单中的关键词，保证一定的准确性情况下又节省大量的人力资源，十分高效。

请参阅图4，较佳的实施例中，将所述关键词向量与场景语料库中预存储的场景词向量进行相似匹配，获得与所述关键词向量构成相似的场景词向量集合，包括如下步骤：

步骤S1310、针对每个关键词向量，将其与场景语料库中预存储的场景词向量进行相似匹配，获得该关键词向量与每个场景词向量之间的相似度；

调用数据距离计算公式，如欧氏距离算法、余弦相似度算法、杰卡德算法、皮尔逊相关系数算法等等本领域技术人员熟知的算法相对应的公式，计算出所述关键词向量与所述场景词向量之间的相似度，从而对应每个关键词向量获取一个相似度序列，该相似度序列中存储该关键词向量与每个场景词向量之间的相似度数值。

步骤S1320、针对每个关键词向量，将相似度超过预设阈值的场景词向量确定为与该关键词向量构成相似的场景词向量；

根据所述关键词向量对应的相似度序列，将其中的各个元素的相似度数值与该预设阈值进行比较，当前者大于或等于后者时，即确定该相似度数值对应的场景词向量，从而，据此筛选出的所述场景词向量具备与所述关键词向量在语义上高度相近的特性，所述预设阈值可经由本领域技术人员据相关经验或实验进行设置。

步骤S1330、将与各个关键词向量构成相似的场景词向量构造为场景词向量集合。

将与各个关键词向量在语义上高度相近的所述场景词向量构造为场景词向量集合，将其封装至相应的数组中，便于后续步骤遍历所述数组即可快速调用所述场景词向量。

本实施例中，通过相似度匹配方式精准匹配与所述歌曲及其所属的歌单中的关键词在语义层面上高度相近的来源于场景语料库中的场景词，相比于简单地将所述关键词与所述场景词进行异或匹配方式即完全相同方可匹配成功，反之则匹配失败，可见的能匹配出更丰富且有相应价值的场景词。

请参阅图5，进一步的实施例中，根据所述场景词向量集合获得其相对应的场景词集合，将场景词集合中的一个或多个场景词标记为所述歌曲的标签，包括如下步骤：

步骤S1410、查找所述场景语料库，确定场景词向量集合中每个场景词向量相对应的场景词，获得场景词集合；

基于所述场景词向量集合中的场景词向量与其对应的场景词之间的映射关联关系，查找所述场景语料库以获取相应的所述场景词，进一步，将所述各个场景词以数据结构为数组的形式构建相应的场景词集合。

步骤S1420、根据预设规则对所述场景词集合中的多个场景词进行组合，获得组合标签集，所述组合标签集包括一个或任意多个选自所述场景词集合的场景词；

所述场景词为用于描述自然现象、社会活动、交通现象、地理区域中任意一种或任意多种的自然语言词汇，其中自然现象为下雨、阴天、晴天、下雪等，社会活动为胎教、睡眠、上班、开车等，交通现象堵车、高速行驶、低速行驶等，地理区域为篮球场、居家、健身房、k房等。

所述场景词集合数组中包含多个数组相应为自然现象数组、社会活动数组、交通现象数组、地理区域数组，其中各个数组分别包含相对应的场景词。

所述预设规则为随机选取所述场景词集合中一个或多个数组，若选取一个数组则直接将该数组中存储的场景词构建组合标签集，若选取多个数组则将其中各个数组中的场景词进行组合相应的构建组合标签集，具体实施方式，可由本领域的技术人员按需选取。

步骤S1430、对所述歌曲进行标注，将所述组合标签合中的各个场景词作为所述歌曲的扩充标签。

查询歌曲标签库中对应所述歌曲的标签集，将所述组合标签集中的各个组合标签对应的场景词作为扩充标签添加至所述标签集中，以完成对所述歌曲的标注。

本实施例中，进一步将所述歌曲及其所属的歌单对应的场景词作为扩展标签为所述歌曲进行打标，且以随机组合场景词的方式丰富扩展标签，使得当用户处于扩展标签包含的复杂场景下的情景时，具所述扩展标签快速精准匹配对应的歌曲用于播放。

本申请提供的一种歌曲标签扩充装置，适应本申请的歌曲标签扩充方法进行功能化部署，包括：区域获取模块1100、向量抽取模块1200、相似匹配模块1300、所述扩充标签模块1400，其中，所述区域获取模块1100，用于获取设定地理区域、时间段内被在线用户访问的歌曲及其所属的歌单；所述向量抽取模块1200，用于从所述歌曲及歌单相对应的描述文本中抽取生成其中各个关键词相对应的关键词向量；所述相似匹配模块1300，用于将所述关键词向量与场景语料库中预存储的场景词向量进行相似匹配，获得与所述关键词向量构成相似的场景词向量集合；所述扩充标签模块1400，用于根据所述场景词向量集合获得其相对应的场景词集合，将场景词集合中的一个或多个场景词标记为所述歌曲的标签。

进一步的实施例中，所述区域获取模块1100，包括：用户歌曲获取子模块，用于获取于该地理区域、该时间段范围内在线的所有用户所访问的所有歌曲；访问量统计子模块，用于根据访问量对所述所有歌曲进行统计，获得多个访问榜单，所述访问量为点击播放量、搜索播放量、完整播放量中的任意一种或任意多种；访问量筛选子模块，用于筛选出所述访问榜单中访问量靠前的有限多个目标歌曲；歌单获取子模块，用于获取所述目标歌曲所归属的歌单。

扩展的实施例中，所述用户歌曲获取子模块之前，包括：定位区域模块，用于响应任意在线用户的登录事件，获取该在线用户的地理位置信息，根据该地理位置信息设定其所属的地理区域，根据该登录事件的触发时间设定时间段；或者：预设区域模块，用于构造地理区域表格及时间段表格，在该地理区域表格中设定多个地理区域，在该时间段表格中设定多个时间段。

进一步的实施例中，所述向量抽取模块1200，包括：文本获取子模块，用于获取所述歌曲的描述文本及所述歌单的描述文本；文本分词子模块，用于对所述歌曲及其歌单的描述文本进行分词，从分词中抽取出多个关键词；词向量化子模块，用于将各个关键词向量化，获得对应的多个关键词向量。

较佳的实施例中，所述相似匹配模块1300，包括：向量相似匹配子模块，用于针对每个关键词向量，将其与场景语料库中预存储的场景词向量进行相似匹配，获得该关键词向量与每个场景词向量之间的相似度；向量筛选子模块，用于针对每个关键词向量，将相似度超过预设阈值的场景词向量确定为与该关键词向量构成相似的场景词向量；向量集合构建子模块，用于将与各个关键词向量构成相似的场景词向量构造为场景词向量集合。

进一步的实施例中，所述扩充标签模块1400，包括：场景词获取子模块，用于查找所述场景语料库，确定场景词向量集合中每个场景词向量相对应的场景词，获得场景词集合；场景词组合子模块，用于根据预设规则对所述场景词集合中的多个场景词进行组合，获得组合标签集，所述组合标签集包括一个或任意多个选自所述场景词集合的场景词；扩充歌曲标签子模块，用于对所述歌曲进行标注，将所述组合标签合中的各个场景词作为所述歌曲的扩充标签。

为解决上述技术问题，本申请实施例还提供计算机设备。如图7所示，计算机设备的内部结构示意图。该计算机设备包括通过系统总线连接的处理器、计算机可读存储介质、存储器和网络接口。其中，该计算机设备的计算机可读存储介质存储有操作系统、数据库和计算机可读指令，数据库中可存储有控件信息序列，该计算机可读指令被处理器执行时，可使得处理器实现一种歌曲标签扩充方法。该计算机设备的处理器用于提供计算和控制能力，支撑整个计算机设备的运行。该计算机设备的存储器中可存储有计算机可读指令，该计算机可读指令被处理器执行时，可使得处理器执行本申请的歌曲标签扩充方法。该计算机设备的网络接口用于与终端连接通信。本领域技术人员可以理解，图7中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

本实施方式中处理器用于执行图6中的各个模块及其子模块的具体功能，存储器存储有执行上述模块或子模块所需的程序代码和各类数据。网络接口用于向用户终端或服务器之间的数据传输。本实施方式中的存储器存储有本申请的歌曲标签扩充装置中执行所有模块/子模块所需的程序代码及数据，服务器能够调用服务器的程序代码及数据执行所有子模块的功能。

本申请还提供一种存储有计算机可读指令的存储介质，计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行本申请任一实施例的歌曲标签扩充方法的步骤。

本申请还提供一种计算机程序产品，包括计算机程序/指令，该计算机程序/指令被一个或多个处理器执行时实现本申请任一实施例所述方法的步骤。

本领域普通技术人员可以理解实现本申请上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，该计算机程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)等计算机可读存储介质，或随机存储记忆体(Random Access Memory，RAM)等。

综上所述，本申请据实时任务或定时任务实时获取一定范围的地理区域内的用户访问歌曲及其所述歌单中的关键词，将其匹配场景语料库中的场景词以获取相似的场景词作为所述歌曲的扩充标签，该扩充标签基于实际场景而定，故能表现场景特点，后续可根据该扩充标签获取某种场景特点相对应的歌曲推送给相应场景下的在线用户，本申请的智能化打标方式不仅能关联具体场景满足用户个性化即时需求，同时节省大量人力标注成本。

本技术领域技术人员可以理解，本申请中已经讨论过的各种操作、方法、流程中的步骤、措施、方案可以被交替、更改、组合或删除。进一步地，具有本申请中已经讨论过的各种操作、方法、流程中的其他步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。进一步地，现有技术中的具有与本申请中公开的各种操作、方法、流程中的步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。

以上所述仅是本申请的部分实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种歌曲标签扩充方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的歌曲标签扩充方法，其特征在于，获取设定地理区域、时间段内被在线用户访问的歌曲及其所属的歌单，包括如下步骤：

筛选出所述访问榜单中访问量靠前的有限多个目标歌曲；

获取所述目标歌曲所归属的歌单。

3.根据权利要求2所述的歌曲标签扩充方法，其特征在于，获取设定地理区域、时间段内被在线用户访问的歌曲及其所属的歌单的步骤之前，包括如下步骤：

或者：

4.根据权利要求1所述的歌曲标签扩充方法，其特征在于，从所述歌曲及歌单相对应的描述文本中抽取生成其中各个关键词相对应的关键词向量，包括如下步骤：

获取所述歌曲的描述文本及所述歌单的描述文本；

将各个关键词向量化，获得对应的多个关键词向量。

5.根据权利要求1所述的歌曲标签扩充方法，其特征在于，将所述关键词向量与场景语料库中预存储的场景词向量进行相似匹配，获得与所述关键词向量构成相似的场景词向量集合，包括如下步骤：

6.根据权利要求1所述的歌曲标签扩充方法，其特征在于，根据所述场景词向量集合获得其相对应的场景词集合，将场景词集合中的一个或多个场景词标记为所述歌曲的标签，包括如下步骤：

7.根据权利要求1至6中任意一项所述的歌曲标签扩充方法，其特征在于，所述场景词为用于描述自然现象、社会活动、交通现象、地理区域中任意一种或任意多种的自然语言词汇。

8.一种计算机设备，包括中央处理器和存储器，其特征在于，所述中央处理器用于调用运行存储于所述存储器中的计算机程序以执行如权利要求1至7中任意一项所述的方法的步骤。

9.一种计算机可读存储介质，其特征在于，其以计算机可读指令的形式存储有依据权利要求1至7中任意一项所述的方法所实现的计算机程序，该计算机程序被计算机调用运行时，执行相应的方法所包括的步骤。

10.一种计算机程序产品，包括计算机程序/指令，其特征在于，该计算机程序/指令被处理器执行时实现权利要求1至7任意一项中所述方法的步骤。