CN106601259A

CN106601259A - 一种基于声纹搜索的信息推荐方法及装置

Info

Publication number: CN106601259A
Application number: CN201611146872.4A
Authority: CN
Inventors: 何坚强
Original assignee: Beijing Qihoo Technology Co Ltd
Current assignee: Beijing Qihoo Technology Co Ltd
Priority date: 2016-12-13
Filing date: 2016-12-13
Publication date: 2017-04-26
Anticipated expiration: 2036-12-13
Also published as: WO2018108080A1; CN106601259B

Abstract

本发明公开了一种基于声纹搜索的信息推荐方法及装置。该方法包括：对输入的语音信息进行预处理，获得待识别的声纹数据；提取所述声纹数据的韵律特征；根据所述韵律特征查找声纹模型库，识别目标关键词，其中所述声纹模型库包含以韵母作为索引的关键词词库；搜索包含所述目标关键词的标题信息，按预设规则推荐给用户。采用本发明，可以根据用户语音快速准确地给用户推荐节目内容。

Description

一种基于声纹搜索的信息推荐方法及装置

技术领域

本发明涉及语音识别技术领域，更具体地，涉及基于声纹搜索的信息推荐方法及装置。

背景技术

自从发明并使用各种机器以来，人类就有一个梦想，那就是让各种机器能够听懂自己的语言，并按照口头命令采取对应的行动，从而实现人机之间的语言交互。语音技术的出现，为人类这一梦想的实现创造了可能。语音技术是计算机利用相应算法从语音中自动提取出人类需要的、具有实际意义的信息。语音技术的研究开始于20世纪50年代，至今已有60年的历史。随着信息技术的高速发展，语音技术变得越来越重要，其应用前景也越来越广阔。

其中，网络和多媒体技术发展至今，人们想对特定人的音频内容进行快速检索，从而能够快速定位到感兴趣的人的节目内容。如何基于说话人识别技术的说话人分割、说话人聚类，在大量的历史语音数据和最新的广播电视新闻信息中查询到有效的目标数据，成为当前业界的共同问题。

发明内容

鉴于上述问题，本发明提出了一种基于声纹搜索的信息推荐方法及装置，能够根据用户语音快速准确地给用户推荐节目内容。

本发明实施例中提供了一种基于声纹搜索的信息推荐方法，包括：

对输入的语音信息进行预处理，获得待识别的声纹数据；

提取所述声纹数据的韵律特征；

根据所述韵律特征查找声纹模型库，识别目标关键词，其中所述声纹模型库包含以韵母作为索引的关键词词库；

搜索包含所述目标关键词的标题信息，按预设规则推荐给用户。

优选地，所述对输入的语音信息进行预处理，获得待识别的声纹数据的步骤，包括：

采用单声道、8bit、16KHz采样所述语音信息的语音流；

以256个采样点为一帧，按128个采样点为音框之间的重迭单位，对所述语音流进行分帧；

计算各帧语音数据的累积能量，如果连续语音帧累积能量大于预设静音阈值，则采纳该段连续语音帧为待识别的声纹数据。

优选地，所述识别目标关键词的步骤之后，所述搜索包含所述目标关键词的标题信息的步骤之前，还包括：

显示至少两个目标关键词，以供用户选择；

根据用户的选择，确定待搜索的目标关键词。

优选地，对输入的语音信息进行预处理，获得待识别的声纹数据的步骤之后，包括：

判断当前的声纹数据是否与用户账户预先存储的声纹数据相符，如果相符，则登录所述用户账号。

优选地，搜索包含所述目标关键词的标题信息，按预设规则推荐给用户的步骤之后，还包括：

将推荐给用户的标题信息的搜索记录存储到所述用户账户的历史搜索记录之中。

将用户点选阅读的标题信息存储到所述用户账户的历史阅读记录之中。

将用户点选收藏的标题信息存储到所述用户账户的书签栏之中。

优选地，搜索包含所述目标关键词的标题信息的步骤具体，包括：

判断所述语音信息的说话人的年龄，将所述说话人标记为成年人或儿童；

在对应的成年人或儿童信息专区中搜索包含所述目标关键词的标题信息。

判断所述语音信息的说话人的性别，将所述说话人标记为男生或女生；

在对应性别的信息专区中搜索包含所述目标关键词的标题信息。

优选地，按预设规则推荐给用户的步骤具体，包括：

按时间先后或浏览量大小将搜索到的标题信息展示给用户。

相应地，本发明实施例提供了一种基于声纹搜索的信息推荐装置，包括：

预处理单元，用于对输入的语音信息进行预处理，获得待识别的声纹数据；

特征提取单元，用于提取所述声纹数据的韵律特征；

关键词识别单元，用于根据所述韵律特征查找声纹模型库，识别目标关键词，其中所述声纹模型库包含以韵母作为索引的关键词词库；

搜索推荐单元，用于搜索包含所述目标关键词的标题信息，按预设规则推荐给用户。

优选地，所述预处理单元，包括：

采样单元，用于采用单声道采样所述语音信息的语音流；

分帧单元，用于以256个采样点为一帧，按128个采样点为音框之间的重迭单位，对所述语音流进行分帧；

计算单元，用于计算各帧语音数据的累积能量，如果连续语音帧累积能量大于预设静音阈值，则采纳该段连续语音帧为待识别的声纹数据。

优选地，还包括：

关键词确定单元，用于显示至少两个目标关键词，以供用户选择；根据用户的选择，确定待搜索的目标关键词。

优选地，包括：

与所述预处理单元相连的账号登陆单元，用于判断当前的声纹数据是否与用户账户预先存储的声纹数据相符，如果相符，则登录所述用户账号。

优选地，还包括：

与所述搜索推荐单元、所述账号登陆单元分别相连的历史记录单元，用于将推荐给用户的标题信息的搜索记录存储到所述用户账户的历史搜索记录之中。

优选地，还包括：

与所述搜索推荐单元、所述账号登陆单元分别相连的阅读记录单元，用于将用户点选阅读的标题信息存储到所述用户账户的历史阅读记录之中。

优选地，还包括：

与所述搜索推荐单元、所述账号登陆单元分别相连的收藏记录单元，用于将用户点选收藏的标题信息存储到所述用户账户的书签栏之中。

优选地，所述搜索推荐单元，包括：

年龄判断单元，用于判断所述语音信息的说话人的年龄，将所述说话人标记为成年人或儿童；在对应的成年人或儿童信息专区中搜索包含所述目标关键词的标题信息。

优选地，所述搜索推荐单元，包括：

性别判断单元，用于判断所述语音信息的说话人的性别，将所述说话人标记为男生或女生；在对应性别的信息专区中搜索包含所述目标关键词的标题信息。

优选地，所述搜索推荐单元，包括：

标题展示单元，用于按时间先后或浏览量大小将搜索到的标题信息展示给用户。

相对于现有技术，本发明提供的方案，首先，对输入的语音信息进行预处理，获得待识别的声纹数据。例如，用户按下语音键，同时输入语音信息，系统经过去噪等预处理后获得待识别的声纹数据。然后，提取所述声纹数据的韵律特征。需要说明的是，声纹特征包括声学特征、韵律特征和词法特征等。其中，“韵律特征”又叫“超音质特征”或“超音段特征”，指的是语音中除音质特征之外的音高、音长和音强方面的变化。韵律是人类自然语言的一个典型特征，具有许多跨语言的共同特点，比如：音高下倾、重读、停顿等都普遍存在于不同的语言之中。另外，由于韵律特征提取方便，容易分析，而本发明仅通过提取韵律特征进行分析，分析速度快。为了达到分析准确的目标，本发明预设的声纹模型库，包含以韵母作为索引的关键词词库。根据所述韵律特征查找声纹模型库，识别目标关键词。从而实现快速、准确地将语音信息转换成文字信息。最后，搜索包含所述目标关键词的标题信息，按预设规则推荐给用户。其中，所述标题信息，包括书籍、新闻、文章等名称及其摘要的内容信息。

本发明附加的方面和优点将在下面的描述中部分给出，这些将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一种基于声纹搜索的信息推荐方法的流程图。

图2为本发明一种基于声纹搜索的信息推荐方法的实施例流程图。

图3为本发明一种基于声纹搜索的信息推荐装置的示意图。

图4为本发明一种基于声纹搜索的信息推荐装置的实施例示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。

在本发明的说明书和权利要求书及上述附图中的描述的一些流程中，包含了按照特定顺序出现的多个操作，但是应该清楚了解，这些操作可以不按照其在本文中出现的顺序来执行或并行执行，操作的序号如101、102等，仅仅是用于区分开各个不同的操作，序号本身不代表任何的执行顺序。另外，这些流程可以包括更多或更少的操作，并且这些操作可以按顺序执行或并行执行。需要说明的是，本文中的“第一”、“第二”等描述，是用于区分不同的消息、设备、模块等，不代表先后顺序，也不限定“第一”和“第二”是不同的类型。

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明一种基于声纹搜索的信息推荐方法的流程图，包括：

S101：对输入的语音信息进行预处理，获得待识别的声纹数据；

S102：提取所述声纹数据的韵律特征；

S103：根据所述韵律特征查找声纹模型库，识别目标关键词，其中所述声纹模型库包含以韵母作为索引的关键词词库；

S104：搜索包含所述目标关键词的标题信息，按预设规则推荐给用户。

图2为本发明一种基于声纹搜索的信息推荐方法的实施例流程图。图2与图1相比，图2的实施例还包括以声纹登录账户，进一步地，通过账号资料给用户推荐符合用户个性需求的标题信息。

S201：对输入的语音信息进行预处理，获得待识别的声纹数据；

S202：判断当前的声纹数据是否与用户账户预先存储的声纹数据相符，如果相符，则登录所述用户账号；

S203：提取所述声纹数据的韵律特征；

S204：根据所述韵律特征查找声纹模型库，识别目标关键词，其中所述声纹模型库包含以韵母作为索引的关键词词库；

S205：显示至少两个目标关键词，以供用户选择；根据用户的选择，确定待搜索的目标关键词；

S206：判断所述语音信息的说话人的年龄，将所述说话人标记为成年人或儿童；在对应的成年人或儿童信息专区中搜索包含所述目标关键词的标题信息；

S207：判断所述语音信息的说话人的性别，将所述说话人标记为男生或女生；在对应性别的信息专区中搜索包含所述目标关键词的标题信息；

S208：按时间先后或浏览量大小将搜索到的标题信息展示给用户。

本发明的实施终端不限于可穿戴设备、手机、IPAD、个人电脑等具有话筒/声音接收器的智能终端。本实施例以小孩使用智能手机终端实施本发明，做进一步的说明。假设，小孩按下语音键，同时对智能手机的话筒输入语音信息“灰太狼”。本发明对输入的语音信息进行预处理，获得待识别的声纹数据。

采用单声道采样所述语音信息的语音流；

预处理包括去噪和端点检测两部分。

去噪，是对话筒输入的语音信息进行量化和采样，获得数字化的语音流；再将含噪的语音流通过去噪处理，得到干净的语音流后并通过预加重技术滤除低频干扰，尤其是50H或60Hz的工频干扰，提升语音流的高频部分，而且它还可以起到消除直流漂移、抑制随机噪声和提升清音部分能量的作用。具体地，输入语音信息采用单声道、8bit、16KHz采样。以256个采样点为一个音框单位(帧)，以128为音框之间的重迭单位，对输入语音流进行分帧。计算各帧语音数据的累积能量E(最大值为256^3＝16777216，用int表示足够)，

如果连续语音帧累积能量大于预设静音阈值(连续数>100)，则采纳该段连续语音帧为待识别的声纹数据。保留所有可供训练的语音帧。

端点检测，本系统采用语音信息的短时能量和短时过零率进行端点检测。语音信息的采样频率为8Hz，每帧数据20ms，共计160采样点。每隔20ms计算一次短时能量和短时过零率。通过对语音信号的短时能量和短时过零率检测可以删除掉静默帧、白噪声帧和清音帧，最后保留对求取基音、LPCC等特征参数非常有用的浊音信号。

经过去噪和端点检测之后，可以判断当前的声纹数据是否与用户账户预先存储的声纹数据相符，如果相符，则登录所述用户账号。相比于现有技术需要用户记住账号和密码，更为方便和安全，尤其适用于记忆力稍弱的小孩。接上例所述，小孩输入“灰太狼”之后，本发明对“灰太狼”语音信息经过预处理，与其中一个用户账号预先存储的声纹数据相符，登录该用户账号。

以小孩身份注册用户账号时，可以输入小孩的年龄、性别、阅读偏好等，以便本发明可以结合用户特点，给用户定制个性化信息。

提取所述声纹数据的韵律特征。对于“灰太狼”的韵律特征，韵母依次为ui，ai，ang。由于语言习惯，一般最后一个韵母的重音和音长都比较大，根据所述韵律特征查找声纹模型库，识别目标关键词，其中所述声纹模型库包含以韵母作为索引的关键词词库。由于韵律特征提取方便，容易分析，而本发明仅通过提取韵律特征进行分析，分析速度快。而本实施例的声纹模型库存储的以韵母作为索引的关键词词库内词库数据相对还是较少的，对比分析速度快，而且准确率也高。例如，声纹模型库内存储了如下表所示的相关信息：

分类	文献/节目	关键词	韵母索引
				儿童(男)	喜羊羊与灰太狼	喜羊羊、灰太狼	Iangang，uiaiang
儿童(女)	小红帽	小红帽、大灰狼	Aoongao，aiuiang
				成人(男)	忍者乱太郎	忍者、乱太郎	Ene，anaiang

通过比对，可以快速地识别目标关键词为“灰太狼”“大灰狼”“乱太郎”。按时间先后或浏览量大小将搜索到的标题信息展示给用户。此时，推荐给用户的是《喜羊羊与灰太狼》、《小红帽》和《忍者乱太郎》。

优选地，显示至少两个目标关键词，以供用户选择，例如，本发明反馈显示“灰太狼”“大灰狼”“乱太郎”等。根据用户的选择，最终，确定待搜索的目标关键词为“灰太狼”。此时，首先推荐给用户的是《喜羊羊与灰太狼》。其次，还可以推荐相关的《小红帽》和《忍者乱太郎》。

优选地，判断所述语音信息的说话人的年龄，将所述说话人标记为成年人或儿童；在对应的成年人或儿童信息专区中搜索包含所述目标关键词的标题信息。判断所述语音信息的说话人的年龄优先通过用户账号登记的年龄作为判断依据，也可以在预处理的过程中根据声纹特征判断用户的年龄。如上表所示，当判断输入语音信息的用户为儿童时，确定目标关键词为“灰太狼”和“大灰狼”。按时间先后或浏览量大小将搜索到的标题信息展示给用户。此时，首先推荐给用户的是《喜羊羊与灰太狼》和《小红帽》。其次，还可以推荐相关的《忍者乱太郎》。

优选地，判断所述语音信息的说话人的性别，将所述说话人标记为男生或女生；在对应性别的信息专区中搜索包含所述目标关键词的标题信息。如上表所示，当判断输入语音信息的用户为男孩时，确定目标关键词为“灰太狼”和“大灰狼”。按时间先后或浏览量大小将搜索到的标题信息展示给用户。此时，首先推荐给用户的是《喜羊羊与灰太狼》。其次，还可以推荐相关的《小红帽》和《忍者乱太郎》。

例如，可以存储本次搜索查找到的《喜羊羊与灰太狼》、《小红帽》和《忍者乱太郎》三个作品。小孩再次搜索时，便可以方便的获得相关题材的其他作品。

例如，小孩这次点选阅读了《喜羊羊与灰太狼》，看完了第30辑，下次打开时，直接跳转至历史阅读记录30辑，方便小孩接着往下看。

例如，小孩这次点选阅读了《喜羊羊与灰太狼》，并将其添加至书签栏之中。下次小孩只需在书签栏中翻查该作品，无需重新搜索。

图3为本发明一种基于声纹搜索的信息推荐装置的示意图，包括：

特征提取单元，用于提取所述声纹数据的韵律特征；

图3与图1相对应，图中各个单元的运行方式与方法中的相同。

如图4所示，还包括：

如图4所示，包括：

如图4所示，所述搜索推荐单元，包括：

图4与图2相对应，图中各个单元的运行方式与方法中的相同。

优选地，所述预处理单元，包括：

采样单元，用于采用单声道采样所述语音信息的语音流；

优选地，还包括：

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种基于声纹搜索的信息推荐方法，其特征在于，包括：

对输入的语音信息进行预处理，获得待识别的声纹数据；

提取所述声纹数据的韵律特征；

2.根据权利要求1所述的基于声纹搜索的信息推荐方法，其特征在于，所述对输入的语音信息进行预处理，获得待识别的声纹数据的步骤，包括：

采用单声道采样所述语音信息的语音流；

3.根据权利要求1所述的基于声纹搜索的信息推荐方法，其特征在于，所述识别目标关键词的步骤之后，所述搜索包含所述目标关键词的标题信息的步骤之前，还包括：

显示至少两个目标关键词，以供用户选择；

根据用户的选择，确定待搜索的目标关键词。

4.根据权利要求1所述的基于声纹搜索的信息推荐方法，其特征在于，对输入的语音信息进行预处理，获得待识别的声纹数据的步骤之后，包括：

5.根据权利要求4所述的基于声纹搜索的信息推荐方法，其特征在于，搜索包含所述目标关键词的标题信息，按预设规则推荐给用户的步骤之后，还包括：

6.根据权利要求4所述的基于声纹搜索的信息推荐方法，其特征在于，搜索包含所述目标关键词的标题信息，按预设规则推荐给用户的步骤之后，还包括：

7.根据权利要求4所述的基于声纹搜索的信息推荐方法，其特征在于，搜索包含所述目标关键词的标题信息，按预设规则推荐给用户的步骤之后，还包括：

8.根据权利要求1或4所述的基于声纹搜索的信息推荐方法，其特征在于，搜索包含所述目标关键词的标题信息的步骤具体，包括：

9.根据权利要求1或4所述的基于声纹搜索的信息推荐方法，其特征在于，搜索包含所述目标关键词的标题信息的步骤具体，包括：

10.一种基于声纹搜索的信息推荐装置，其特征在于，包括：

特征提取单元，用于提取所述声纹数据的韵律特征；