CN109460486A

CN109460486A - 一种基于语音的信息推荐方法及系统

Info

Publication number: CN109460486A
Application number: CN201811062592.4A
Authority: CN
Inventors: 胡铭福
Original assignee: Zhuhai Soybean Rice Technology Co Ltd
Current assignee: Zhuhai Soybean Rice Technology Co Ltd
Priority date: 2018-09-12
Filing date: 2018-09-12
Publication date: 2019-03-12

Abstract

本发明的技术方案包括一种基于语音的信息推荐方法及系统，用于实现：通过用户收听行为数据的收集、挖掘，给每条语音打分，系统包括采集单元、语音评估单元、语音推送单元以及模型构建单元，采集单元用于采集用户收听语音行为数据；语音评估单元用于根据采集单元采集的数据按照评估策略评估语音信息并生成可推荐列表；模型构建单元用于定时解析语音评估单元的数据不断优化推荐模型；语音推送单元用于根据模型构建单元建立的推送模型和可推荐列表，向用户推送优化后的推送内容。本发明的有益效果为：将高质量的内容推荐给用户，实现方式简单，人力成本低，不需要庞大的用户规模作为提取样本，待评估的数据只需语音信息即可，不需要海量的内容数据。

Description

一种基于语音的信息推荐方法及系统

技术领域

本发明涉及一种基于语音的信息推荐方法及系统，属于信息处理领域。

背景技术

随着数字广播技术以及通信技术的发展，语音成为了日常生活中必不可少的信息传递媒介，语音消息、电台以及音乐等等，都是平常生活中常见的语音消息，然而，正是由于日常生活中充斥着各类的语音消息，使得用户面对数量、种类繁多的语音消息难以选择，其次，繁杂的语音消息并不适合所有用户，部分用户非常抗拒接收某类语音消息，以音乐推送为例，音乐推荐包括基于音乐内容的推荐，基于音乐关联性的推荐，基于知识的推荐，协同过滤推荐等多种方式，目前采用的技术主要有：1、当接收到至少一个终端的音乐推荐请求时，获取至少一个终端的音乐偏好，一个终端对应至少一个音乐偏好；根据各个终端的音乐偏好，生成至少一个终端的共同音乐偏好；根据共同音乐偏好，向至少一个终端进行音乐推荐。2、在将歌曲建模为若干隐含主题概率分布的基础上将用户的收听行为建模为多维时间序列，进而通过多维时间序列分析的方法挖掘用户的行为习惯，并最终从候选歌曲数据库中为用户推荐合适的歌曲。3、在将歌曲建模为若干隐含主题概率分布的基础上将用户的收听行为建模为多维时间序列，进而通过多维时间序列分析的方法挖掘用户的行为习惯，并最终从候选歌曲数据库中为用户推荐合适的歌曲。

现有技术主要集中在一些拥有海量数据的公司使用，他们基于用户的行为数据，还有其海量的内容数据库做精准内容推荐。这种推荐方式效果很好，但缺点主要有几点：

1、实现方式极其复杂且时间人力成本高；

2、需要庞大的用户规模；

3、需要海量的内容数据；

4、不适用于公司起步阶段；

如何解决上述问题，成为了本领域技术人员较为关注的焦点。

发明内容

为解决上述问题，本发明的目的在于提供一种基于语音的信息推荐方法及系统，通过用户收听行为数据的收集、挖掘，给每条语音打分，系统包括采集单元、语音评估单元、语音推送单元以及模型构建单元，采集单元用于采集用户收听语音行为数据；语音评估单元用于根据采集单元采集的数据按照评估策略评估语音信息并生成可推荐列表；模型构建单元用于定时解析语音评估单元的数据不断优化推荐模型；语音推送单元用于根据模型构建单元建立的推送模型和可推荐列表，向用户推送优化后的推送内容。

本发明解决其问题所采用的技术方案一方面是：一种基于语音的信息推荐方法，其特征在于，该方法包括以下步骤：向用户推送一批语音信息，其中推送模型包括编辑推荐、精选推荐以及新帖随机；采集用户的收听行为数据；以收听时长为评分标准对每一条语音的收听情况进行评估统计；定时根据评估统计后的结果进行评级，根据评估结果对语音信息进行升降级处理并向用户推送优化后的推送内容。

进一步的，所述新帖随机包括当日发布的语音信息并将语音信息平均分发给用户。

进一步的，所述新帖随机为未进行评估统计的语音信息。

进一步的，所述采集用户的收听行为数据还包括以下步骤：读取用户播放日志；分析用户播放日志，得到用户行为特性，用户行为特性包括用户收听的语音名称、收听语音信息的时间、收听语音信息的时长、收听该语音信息的次数、收听该语音信息的用户ID、该语音信息的类型、该用户所处地理位置信息以及该用户注册时间。

进一步的，所述以收听时长为评分标准对语音信息进行评估统计还包括以下步骤：根据用户收听语音信息的时长，按照评估策略进行评估分级打分，其中评估策略为将语音信息按照收听时长分为五个级别并定义对应的分数；对各个用户的语音收听行为进行排重，取每个用户的每条语音的最高分，并统计每条语音在每个用户的评级信息；根据每条语音的评分和每条语音在每个用户的评级信息，进行综合评分，将综合评分一定排名的语音作为当日可推荐列表，其中一定排名的语音可自定义设置。

进一步的，所述可推荐列表用于向编辑推荐和精选推荐提供待筛选内容。

本发明解决其问题所采用的技术方案另一方面是：一种基于语音的信息推荐系统，包括采集单元、语音评估单元、语音推送单元以及模型构建单元，其特征在于：所述采集单元用于采集用户收听语音行为数据；所述语音评估单元用于根据采集单元采集的数据按照评估策略评估每一条语音信息的综合得分数据并生成可推荐列表；所述语音推送单元用于根据模型构建单元建立的推送模型和可推荐列表，向用户推送优化后的推送内容；所述模型构建单元用于定时解析语音评估单元的数据不断优化推荐模型。

进一步的，所述语音评估单元包括：语音获取单元，用于根据用户的收听行为数据构造“用户-语音-收听时长”三维矩阵；语音分级评估单元，用于展开三维矩阵并根据评估策略对各段语音进行评估分级打分；可推荐列表生成单元，用于根据语音分级评估单元对各段语音分级打分的结果，生成可推荐列表。

本发明的有益效果是：本发明采用的一种基于信息推荐方法及系统，将质量好的内容推荐给用户，实现方式简单，人力成本低，不需要庞大的用户规模作为提取样本，待评估的数据只需语音信息即可，不需要海量的内容数据。

附图说明

图1所示为根据本发明的方法流程图；

图2所示为根据本发明的具体实施例一；

图3所示为根据本发明的系统结构图；

图4所示为根据本发明的具体实施例二。

具体实施方式

以下将结合实施例和附图对本发明的构思、具体结构及产生的技术效果进行清楚、完整的描述，以充分地理解本发明的目的、方案和效果。

需要说明的是，如无特殊说明，当某一特征被称为“固定”、“连接”在另一个特征，它可以直接固定、连接在另一个特征上，也可以间接地固定、连接在另一个特征上。此外，本公开中所使用的上、下、左、右等描述仅仅是相对于附图中本公开各组成部分的相互位置关系来说的。在本公开中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。此外，除非另有定义，本文所使用的所有的技术和科学术语与本技术领域的技术人员通常理解的含义相同。本文说明书中所使用的术语只是为了描述具体的实施例，而不是为了限制本发明。本文所使用的术语“和/或”包括一个或多个相关的所列项目的任意的组合。

应当理解，尽管在本公开可能采用术语第一、第二、第三等来描述各种元件，但这些元件不应限于这些术语。这些术语仅用来将同一类型的元件彼此区分开。例如，在不脱离本公开范围的情况下，第一元件也可以被称为第二元件，类似地，第二元件也可以被称为第一元件。本文所提供的任何以及所有实例或示例性语言(“例如”、“如”等)的使用仅意图更好地说明本发明的实施例，并且除非另外要求，否则不会对本发明的范围施加限制。

参照图1所示为根据本发明的方法流程图，具体包括以下步骤：

向用户推送一批语音信息，其中推送模型包括编辑推荐、精选推荐以及新帖随机。具体的推送方式可以是电台推送、APP推送等，通过服务器向终端推送待评估的语音信息，此处的新帖随机即为当日规定时间内新发布的并且尚未经过信息流推荐系统评估打分的语音信息。

采集用户的收听行为数据。具体地说，当用户使用电台或APP进行语音收听时，服务器自动进行采样用户的收听行为，包括用户收听的语音名称、收听语音信息的时间、收听语音信息的时长、收听该语音信息的次数、收听该语音信息的用户ID、该语音信息的类型、该用户所处地理位置信息、该用户注册时间。其中，用户所处地理位置信息是指用户收听当前语音信息所在位置，关于这个位置我们可以通过网络地址获取，例如识别用户处于我国南方、北方、西部或者东部以收听时长为评分标准对第一语音信息进行评估统计；收听语音信息的时间指的是指用户进行语音收听的时段偏好，如早晨、中午、下午、晚上等。

定时根据评估统计后的结果进行评级，根据评估结果对语音信息进行升降级处理并向用户推送优化后的推送内容，其中推送内容包括编辑推荐、精选推荐以及新帖随机。具体地说，推送内容根据推送模型而来，同样包括编辑推荐、精选推荐以及新帖随机，其中新帖随机即为当日规定时间内新发布的并且尚未经过信息流推荐系统评估打分的语音信息，编辑推荐为根据上一步筛选后的内容进行进一步的人工选择得到的内容，精选推荐即为上一步筛选后的内容根据系统算法得到的推荐内容。

用户每次拉取的内容，都分为3个部分：

1、编辑推荐：用于头部内容的推荐。

2、精选推荐：精选内容的推荐，保证内容质量。

3、新帖随机：用于完成新内容的冷启动，并根据用户对其收听行为挖掘出精选内容。

参照图2所示为根据本发明的具体实施例一，语音评分策略及其步骤，具体地说，

根据收听时长，按照评估策略进行评估分级打分。可选的实施方案为，给用户的收听行为分成五个级别以及定义对应分数

A、收听不足5秒–0分。

B、收听5秒–20％时长–1分。

C、收听20％-50％时长–2分。

D、收听50％-80％时长–3分。

E、收听超过80％时长–4分。

对各个用户的收听行为进行排重，取每个用户每条语音的最高分。具体地说，将各个用户的收听行为进行排重并取最高分，例如A语音消息被用户A收听10次，其中，收听不足5秒1次，收听5秒–20％时长2次，收听20％-50％时长3次，收听50％-80％时长–3分4次，这该A语音在用户A处的得分为3分。

统计每条语音在每个用户的评级信息。具体地说，例如共有用户500名，有20名用户收听A语音不超过5秒，即A语音被定义A级20次，有100名用户收听A语音5秒–20％时长，即A语音被定义B级100次，有280名用户收听A语音20％-50％时长，即A语音被定义C级280次，有60名用户收听A语音50％-80％时长，即A语音被定义D级60次，有40名用户收听A语音超过80％时长，即A语音被定义E级40次。

根据每条语音的评分和，每条语音在每个用户的评级信息，进行综合评分。具体地说，统计每条语音的评分和根据被划分ABCDE各个等级的次数，将这两项指标作为权重进行综合评价，得到综合评分。

将综合评分前300名的语音作为当日可推荐列表。具体地说，此处300名根据不同的用户规模进行适当的调整，其中的可推荐列表即为上述的编辑推荐和精选推荐提供待筛选的内容，进行二次选择，保证推送内容的质量。

参照图3所示为根据本发明的系统结构图，该系统包括采集单元、语音评估单元、语音推送单元以及模型构建单元，所采集单元用于采集用户收听语音行为数据；语音评估单元用于根据采集单元采集的数据按照评估策略评估每一条语音信息的综合得分数据并生成可推荐列表；语音推送单元用于根据模型构建单元建立的推送模型和可推荐列表，向用户推送优化后的推送内容；模型构建单元用于定时解析语音评估单元的数据不断优化推荐模型，具体地说：

采集单元用于运行在服务器或者客户端，采集各类客户行为数据，生成用户播放日志，包括用户收听的语音名称、收听语音信息的时间、收听语音信息的时长、收听该语音信息的次数、收听该语音信息的用户ID、该语音信息的类型、该用户所处地理位置信息、该用户注册时间。

语音评估单元运行在服务器或者客户端，根据预设策略分析播放日志，将对应评估结果发送给模型构建单元。

模型构建单元，根据语音评估的结果，构建内容推送模型。

语音推送单元，根据推送模型，生成推荐内容，将内容推荐给用户。

参照图4所示为根据本发明的具体实施例二，为语音评估单元包括的单元，有可推荐列表生成单元、语音获取单元以及语音分级评估单元。具体地说，语音获取单元，用于根据用户的收听行为数据构造“用户-语音-收听时长”三维矩阵；

语音分级评估单元，用于展开三维矩阵并根据评估策略对各段语音进行评估分级打分，获取综合评分；

可推荐列表生成单元，用于根据语音分级评估单元对各段语音分级打分的结果，生成可推荐列表。

以上所述，只是本发明的较佳实施例而已，本发明并不局限于上述实施方式，只要其以相同的手段达到本发明的技术效果，都应属于本发明的保护范围。在本发明的保护范围内其技术方案和/或实施方式可以有各种不同的修改和变化。

Claims

1.一种基于语音的信息推荐方法，其特征在于，该方法包括以下步骤：

向用户推送一批语音信息，其中推送模型包括编辑推荐、精选推荐以及新帖随机；

采集用户的收听行为数据；

以收听时长为评分标准对每一条语音的收听情况进行评估统计；

定时根据评估统计后的结果进行评级，根据评估结果对语音信息进行升降级处理并向用户推送优化后的推送内容。

2.根据权利要求1所述的基于语音的信息推荐方法，其特征在于，所述新帖随机包括当日发布的语音信息并将语音信息平均分发给用户。

3.根据权利要求1所述的基于语音的信息推荐方法，其特征在于，所述新帖随机为未进行评估统计的语音信息。

4.根据权利要求1所述的基于语音的信息推荐方法，其特征在于，所述采集用户的收听行为数据还包括以下步骤：

读取用户播放日志；

分析用户播放日志，得到用户行为特性，用户行为特性包括用户收听的语音名称、收听语音信息的时间、收听语音信息的时长、收听该语音信息的次数、收听该语音信息的用户ID、该语音信息的类型、该用户所处地理位置信息以及该用户注册时间。

5.根据权利要求4所述的基于语音的信息推荐方法，其特征在于，所述以收听时长为评分标准对语音信息进行评估统计还包括以下步骤：

根据用户收听语音信息的时长，按照评估策略进行评估分级打分，其中评估策略为将语音信息按照收听时长分为五个级别并定义对应的分数；

对各个用户的语音收听行为进行排重，取每个用户的每条语音的最高分，并统计每条语音在每个用户的评级信息；

根据每条语音的评分和每条语音在每个用户的评级信息，进行综合评分，将综合评分一定排名的语音作为当日可推荐列表，其中一定排名的语音可自定义设置。

6.根据权利要求5所述的基于语音的信息推荐方法，其特征在于，所述可推荐列表用于向编辑推荐和精选推荐提供待筛选内容。

7.一种基于语音的信息推荐系统，包括采集单元、语音评估单元、语音推送单元以及模型构建单元，其特征在于：

所述采集单元用于采集用户收听语音行为数据；

所述语音评估单元用于根据采集单元采集的数据按照评估策略评估每一条语音信息的综合得分数据并生成可推荐列表；

所述语音推送单元用于根据模型构建单元建立的推送模型和可推荐列表，向用户推送优化后的推送内容；

所述模型构建单元用于定时解析语音评估单元的数据不断优化推荐模型。

8.根据权利要求7所述的基于语音的信息推荐系统，其特征在于，所述语音评估单元包括：

语音获取单元，用于根据用户的收听行为数据构造“用户-语音-收听时长”三维矩阵；

语音分级评估单元，用于展开三维矩阵并根据评估策略对各段语音进行评估分级打分；