CN106601259A - 一种基于声纹搜索的信息推荐方法及装置 - Google Patents
一种基于声纹搜索的信息推荐方法及装置 Download PDFInfo
- Publication number
- CN106601259A CN106601259A CN201611146872.4A CN201611146872A CN106601259A CN 106601259 A CN106601259 A CN 106601259A CN 201611146872 A CN201611146872 A CN 201611146872A CN 106601259 A CN106601259 A CN 106601259A
- Authority
- CN
- China
- Prior art keywords
- search
- user
- voice
- heading message
- target keyword
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 31
- 230000033764 rhythmic process Effects 0.000 claims abstract description 5
- 230000001755 vocal effect Effects 0.000 claims description 28
- 150000001875 compounds Chemical class 0.000 claims description 13
- 238000005070 sampling Methods 0.000 claims description 5
- 238000000605 extraction Methods 0.000 claims description 3
- 241000282461 Canis lupus Species 0.000 description 18
- 241001494479 Pecora Species 0.000 description 9
- 230000000875 corresponding effect Effects 0.000 description 9
- 238000009432 framing Methods 0.000 description 7
- 101100010343 Drosophila melanogaster lobo gene Proteins 0.000 description 5
- 238000001514 detection method Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 230000008859 change Effects 0.000 description 2
- 230000001568 sexual effect Effects 0.000 description 2
- 235000006481 Colocasia esculenta Nutrition 0.000 description 1
- 240000004270 Colocasia esculenta var. antiquorum Species 0.000 description 1
- 206010068319 Oropharyngeal pain Diseases 0.000 description 1
- 208000031481 Pathologic Constriction Diseases 0.000 description 1
- 201000007100 Pharyngitis Diseases 0.000 description 1
- 206010038743 Restlessness Diseases 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 210000003813 thumb Anatomy 0.000 description 1
- 210000001215 vagina Anatomy 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
- G06F16/68—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/683—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/54—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for retrieval
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Library & Information Science (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于声纹搜索的信息推荐方法及装置。该方法包括:对输入的语音信息进行预处理,获得待识别的声纹数据;提取所述声纹数据的韵律特征;根据所述韵律特征查找声纹模型库,识别目标关键词,其中所述声纹模型库包含以韵母作为索引的关键词词库;搜索包含所述目标关键词的标题信息,按预设规则推荐给用户。采用本发明,可以根据用户语音快速准确地给用户推荐节目内容。
Description
技术领域
本发明涉及语音识别技术领域,更具体地,涉及基于声纹搜索的信息推荐方法及装置。
背景技术
自从发明并使用各种机器以来,人类就有一个梦想,那就是让各种机器能够听懂自己的语言,并按照口头命令采取对应的行动,从而实现人机之间的语言交互。语音技术的出现,为人类这一梦想的实现创造了可能。语音技术是计算机利用相应算法从语音中自动提取出人类需要的、具有实际意义的信息。语音技术的研究开始于20世纪50年代,至今已有60年的历史。随着信息技术的高速发展,语音技术变得越来越重要,其应用前景也越来越广阔。
其中,网络和多媒体技术发展至今,人们想对特定人的音频内容进行快速检索,从而能够快速定位到感兴趣的人的节目内容。如何基于说话人识别技术的说话人分割、说话人聚类,在大量的历史语音数据和最新的广播电视新闻信息中查询到有效的目标数据,成为当前业界的共同问题。
发明内容
鉴于上述问题,本发明提出了一种基于声纹搜索的信息推荐方法及装置,能够根据用户语音快速准确地给用户推荐节目内容。
本发明实施例中提供了一种基于声纹搜索的信息推荐方法,包括:
对输入的语音信息进行预处理,获得待识别的声纹数据;
提取所述声纹数据的韵律特征;
根据所述韵律特征查找声纹模型库,识别目标关键词,其中所述声纹模型库包含以韵母作为索引的关键词词库;
搜索包含所述目标关键词的标题信息,按预设规则推荐给用户。
优选地,所述对输入的语音信息进行预处理,获得待识别的声纹数据的步骤,包括:
采用单声道、8bit、16KHz采样所述语音信息的语音流;
以256个采样点为一帧,按128个采样点为音框之间的重迭单位,对所述语音流进行分帧;
计算各帧语音数据的累积能量,如果连续语音帧累积能量大于预设静音阈值,则采纳该段连续语音帧为待识别的声纹数据。
优选地,所述识别目标关键词的步骤之后,所述搜索包含所述目标关键词的标题信息的步骤之前,还包括:
显示至少两个目标关键词,以供用户选择;
根据用户的选择,确定待搜索的目标关键词。
优选地,对输入的语音信息进行预处理,获得待识别的声纹数据的步骤之后,包括:
判断当前的声纹数据是否与用户账户预先存储的声纹数据相符,如果相符,则登录所述用户账号。
优选地,搜索包含所述目标关键词的标题信息,按预设规则推荐给用户的步骤之后,还包括:
将推荐给用户的标题信息的搜索记录存储到所述用户账户的历史搜索记录之中。
优选地,搜索包含所述目标关键词的标题信息,按预设规则推荐给用户的步骤之后,还包括:
将用户点选阅读的标题信息存储到所述用户账户的历史阅读记录之中。
优选地,搜索包含所述目标关键词的标题信息,按预设规则推荐给用户的步骤之后,还包括:
将用户点选收藏的标题信息存储到所述用户账户的书签栏之中。
优选地,搜索包含所述目标关键词的标题信息的步骤具体,包括:
判断所述语音信息的说话人的年龄,将所述说话人标记为成年人或儿童;
在对应的成年人或儿童信息专区中搜索包含所述目标关键词的标题信息。
优选地,搜索包含所述目标关键词的标题信息的步骤具体,包括:
判断所述语音信息的说话人的性别,将所述说话人标记为男生或女生;
在对应性别的信息专区中搜索包含所述目标关键词的标题信息。
优选地,按预设规则推荐给用户的步骤具体,包括:
按时间先后或浏览量大小将搜索到的标题信息展示给用户。
相应地,本发明实施例提供了一种基于声纹搜索的信息推荐装置,包括:
预处理单元,用于对输入的语音信息进行预处理,获得待识别的声纹数据;
特征提取单元,用于提取所述声纹数据的韵律特征;
关键词识别单元,用于根据所述韵律特征查找声纹模型库,识别目标关键词,其中所述声纹模型库包含以韵母作为索引的关键词词库;
搜索推荐单元,用于搜索包含所述目标关键词的标题信息,按预设规则推荐给用户。
优选地,所述预处理单元,包括:
采样单元,用于采用单声道采样所述语音信息的语音流;
分帧单元,用于以256个采样点为一帧,按128个采样点为音框之间的重迭单位,对所述语音流进行分帧;
计算单元,用于计算各帧语音数据的累积能量,如果连续语音帧累积能量大于预设静音阈值,则采纳该段连续语音帧为待识别的声纹数据。
优选地,还包括:
关键词确定单元,用于显示至少两个目标关键词,以供用户选择;根据用户的选择,确定待搜索的目标关键词。
优选地,包括:
与所述预处理单元相连的账号登陆单元,用于判断当前的声纹数据是否与用户账户预先存储的声纹数据相符,如果相符,则登录所述用户账号。
优选地,还包括:
与所述搜索推荐单元、所述账号登陆单元分别相连的历史记录单元,用于将推荐给用户的标题信息的搜索记录存储到所述用户账户的历史搜索记录之中。
优选地,还包括:
与所述搜索推荐单元、所述账号登陆单元分别相连的阅读记录单元,用于将用户点选阅读的标题信息存储到所述用户账户的历史阅读记录之中。
优选地,还包括:
与所述搜索推荐单元、所述账号登陆单元分别相连的收藏记录单元,用于将用户点选收藏的标题信息存储到所述用户账户的书签栏之中。
优选地,所述搜索推荐单元,包括:
年龄判断单元,用于判断所述语音信息的说话人的年龄,将所述说话人标记为成年人或儿童;在对应的成年人或儿童信息专区中搜索包含所述目标关键词的标题信息。
优选地,所述搜索推荐单元,包括:
性别判断单元,用于判断所述语音信息的说话人的性别,将所述说话人标记为男生或女生;在对应性别的信息专区中搜索包含所述目标关键词的标题信息。
优选地,所述搜索推荐单元,包括:
标题展示单元,用于按时间先后或浏览量大小将搜索到的标题信息展示给用户。
相对于现有技术,本发明提供的方案,首先,对输入的语音信息进行预处理,获得待识别的声纹数据。例如,用户按下语音键,同时输入语音信息,系统经过去噪等预处理后获得待识别的声纹数据。然后,提取所述声纹数据的韵律特征。需要说明的是,声纹特征包括声学特征、韵律特征和词法特征等。其中,“韵律特征”又叫“超音质特征”或“超音段特征”,指的是语音中除音质特征之外的音高、音长和音强方面的变化。韵律是人类自然语言的一个典型特征,具有许多跨语言的共同特点,比如:音高下倾、重读、停顿等都普遍存在于不同的语言之中。另外,由于韵律特征提取方便,容易分析,而本发明仅通过提取韵律特征进行分析,分析速度快。为了达到分析准确的目标,本发明预设的声纹模型库,包含以韵母作为索引的关键词词库。根据所述韵律特征查找声纹模型库,识别目标关键词。从而实现快速、准确地将语音信息转换成文字信息。最后,搜索包含所述目标关键词的标题信息,按预设规则推荐给用户。其中,所述标题信息,包括书籍、新闻、文章等名称及其摘要的内容信息。
本发明附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一种基于声纹搜索的信息推荐方法的流程图。
图2为本发明一种基于声纹搜索的信息推荐方法的实施例流程图。
图3为本发明一种基于声纹搜索的信息推荐装置的示意图。
图4为本发明一种基于声纹搜索的信息推荐装置的实施例示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
在本发明的说明书和权利要求书及上述附图中的描述的一些流程中,包含了按照特定顺序出现的多个操作,但是应该清楚了解,这些操作可以不按照其在本文中出现的顺序来执行或并行执行,操作的序号如101、102等,仅仅是用于区分开各个不同的操作,序号本身不代表任何的执行顺序。另外,这些流程可以包括更多或更少的操作,并且这些操作可以按顺序执行或并行执行。需要说明的是,本文中的“第一”、“第二”等描述,是用于区分不同的消息、设备、模块等,不代表先后顺序,也不限定“第一”和“第二”是不同的类型。
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明一种基于声纹搜索的信息推荐方法的流程图,包括:
S101:对输入的语音信息进行预处理,获得待识别的声纹数据;
S102:提取所述声纹数据的韵律特征;
S103:根据所述韵律特征查找声纹模型库,识别目标关键词,其中所述声纹模型库包含以韵母作为索引的关键词词库;
S104:搜索包含所述目标关键词的标题信息,按预设规则推荐给用户。
相对于现有技术,本发明提供的方案,首先,对输入的语音信息进行预处理,获得待识别的声纹数据。例如,用户按下语音键,同时输入语音信息,系统经过去噪等预处理后获得待识别的声纹数据。然后,提取所述声纹数据的韵律特征。需要说明的是,声纹特征包括声学特征、韵律特征和词法特征等。其中,“韵律特征”又叫“超音质特征”或“超音段特征”,指的是语音中除音质特征之外的音高、音长和音强方面的变化。韵律是人类自然语言的一个典型特征,具有许多跨语言的共同特点,比如:音高下倾、重读、停顿等都普遍存在于不同的语言之中。另外,由于韵律特征提取方便,容易分析,而本发明仅通过提取韵律特征进行分析,分析速度快。为了达到分析准确的目标,本发明预设的声纹模型库,包含以韵母作为索引的关键词词库。根据所述韵律特征查找声纹模型库,识别目标关键词。从而实现快速、准确地将语音信息转换成文字信息。最后,搜索包含所述目标关键词的标题信息,按预设规则推荐给用户。其中,所述标题信息,包括书籍、新闻、文章等名称及其摘要的内容信息。
图2为本发明一种基于声纹搜索的信息推荐方法的实施例流程图。图2与图1相比,图2的实施例还包括以声纹登录账户,进一步地,通过账号资料给用户推荐符合用户个性需求的标题信息。
S201:对输入的语音信息进行预处理,获得待识别的声纹数据;
S202:判断当前的声纹数据是否与用户账户预先存储的声纹数据相符,如果相符,则登录所述用户账号;
S203:提取所述声纹数据的韵律特征;
S204:根据所述韵律特征查找声纹模型库,识别目标关键词,其中所述声纹模型库包含以韵母作为索引的关键词词库;
S205:显示至少两个目标关键词,以供用户选择;根据用户的选择,确定待搜索的目标关键词;
S206:判断所述语音信息的说话人的年龄,将所述说话人标记为成年人或儿童;在对应的成年人或儿童信息专区中搜索包含所述目标关键词的标题信息;
S207:判断所述语音信息的说话人的性别,将所述说话人标记为男生或女生;在对应性别的信息专区中搜索包含所述目标关键词的标题信息;
S208:按时间先后或浏览量大小将搜索到的标题信息展示给用户。
本发明的实施终端不限于可穿戴设备、手机、IPAD、个人电脑等具有话筒/声音接收器的智能终端。本实施例以小孩使用智能手机终端实施本发明,做进一步的说明。假设,小孩按下语音键,同时对智能手机的话筒输入语音信息“灰太狼”。本发明对输入的语音信息进行预处理,获得待识别的声纹数据。
优选地,所述对输入的语音信息进行预处理,获得待识别的声纹数据的步骤,包括:
采用单声道采样所述语音信息的语音流;
以256个采样点为一帧,按128个采样点为音框之间的重迭单位,对所述语音流进行分帧;
计算各帧语音数据的累积能量,如果连续语音帧累积能量大于预设静音阈值,则采纳该段连续语音帧为待识别的声纹数据。
预处理包括去噪和端点检测两部分。
去噪,是对话筒输入的语音信息进行量化和采样,获得数字化的语音流;再将含噪的语音流通过去噪处理,得到干净的语音流后并通过预加重技术滤除低频干扰,尤其是50H或60Hz的工频干扰,提升语音流的高频部分,而且它还可以起到消除直流漂移、抑制随机噪声和提升清音部分能量的作用。具体地,输入语音信息采用单声道、8bit、16KHz采样。以256个采样点为一个音框单位(帧),以128为音框之间的重迭单位,对输入语音流进行分帧。计算各帧语音数据的累积能量E(最大值为256^3=16777216,用int表示足够),
如果连续语音帧累积能量大于预设静音阈值(连续数>100),则采纳该段连续语音帧为待识别的声纹数据。保留所有可供训练的语音帧。
端点检测,本系统采用语音信息的短时能量和短时过零率进行端点检测。语音信息的采样频率为8Hz,每帧数据20ms,共计160采样点。每隔20ms计算一次短时能量和短时过零率。通过对语音信号的短时能量和短时过零率检测可以删除掉静默帧、白噪声帧和清音帧,最后保留对求取基音、LPCC等特征参数非常有用的浊音信号。
经过去噪和端点检测之后,可以判断当前的声纹数据是否与用户账户预先存储的声纹数据相符,如果相符,则登录所述用户账号。相比于现有技术需要用户记住账号和密码,更为方便和安全,尤其适用于记忆力稍弱的小孩。接上例所述,小孩输入“灰太狼”之后,本发明对“灰太狼”语音信息经过预处理,与其中一个用户账号预先存储的声纹数据相符,登录该用户账号。
以小孩身份注册用户账号时,可以输入小孩的年龄、性别、阅读偏好等,以便本发明可以结合用户特点,给用户定制个性化信息。
提取所述声纹数据的韵律特征。对于“灰太狼”的韵律特征,韵母依次为ui,ai,ang。由于语言习惯,一般最后一个韵母的重音和音长都比较大,根据所述韵律特征查找声纹模型库,识别目标关键词,其中所述声纹模型库包含以韵母作为索引的关键词词库。由于韵律特征提取方便,容易分析,而本发明仅通过提取韵律特征进行分析,分析速度快。而本实施例的声纹模型库存储的以韵母作为索引的关键词词库内词库数据相对还是较少的,对比分析速度快,而且准确率也高。例如,声纹模型库内存储了如下表所示的相关信息:
分类 | 文献/节目 | 关键词 | 韵母索引 |
儿童(男) | 喜羊羊与灰太狼 | 喜羊羊、灰太狼 | Iangang,uiaiang |
儿童(女) | 小红帽 | 小红帽、大灰狼 | Aoongao,aiuiang |
成人(男) | 忍者乱太郎 | 忍者、乱太郎 | Ene,anaiang |
通过比对,可以快速地识别目标关键词为“灰太狼”“大灰狼”“乱太郎”。按时间先后或浏览量大小将搜索到的标题信息展示给用户。此时,推荐给用户的是《喜羊羊与灰太狼》、《小红帽》和《忍者乱太郎》。
优选地,显示至少两个目标关键词,以供用户选择,例如,本发明反馈显示“灰太狼”“大灰狼”“乱太郎”等。根据用户的选择,最终,确定待搜索的目标关键词为“灰太狼”。此时,首先推荐给用户的是《喜羊羊与灰太狼》。其次,还可以推荐相关的《小红帽》和《忍者乱太郎》。
优选地,判断所述语音信息的说话人的年龄,将所述说话人标记为成年人或儿童;在对应的成年人或儿童信息专区中搜索包含所述目标关键词的标题信息。判断所述语音信息的说话人的年龄优先通过用户账号登记的年龄作为判断依据,也可以在预处理的过程中根据声纹特征判断用户的年龄。如上表所示,当判断输入语音信息的用户为儿童时,确定目标关键词为“灰太狼”和“大灰狼”。按时间先后或浏览量大小将搜索到的标题信息展示给用户。此时,首先推荐给用户的是《喜羊羊与灰太狼》和《小红帽》。其次,还可以推荐相关的《忍者乱太郎》。
优选地,判断所述语音信息的说话人的性别,将所述说话人标记为男生或女生;在对应性别的信息专区中搜索包含所述目标关键词的标题信息。如上表所示,当判断输入语音信息的用户为男孩时,确定目标关键词为“灰太狼”和“大灰狼”。按时间先后或浏览量大小将搜索到的标题信息展示给用户。此时,首先推荐给用户的是《喜羊羊与灰太狼》。其次,还可以推荐相关的《小红帽》和《忍者乱太郎》。
优选地,搜索包含所述目标关键词的标题信息,按预设规则推荐给用户的步骤之后,还包括:
将推荐给用户的标题信息的搜索记录存储到所述用户账户的历史搜索记录之中。
例如,可以存储本次搜索查找到的《喜羊羊与灰太狼》、《小红帽》和《忍者乱太郎》三个作品。小孩再次搜索时,便可以方便的获得相关题材的其他作品。
优选地,搜索包含所述目标关键词的标题信息,按预设规则推荐给用户的步骤之后,还包括:
将用户点选阅读的标题信息存储到所述用户账户的历史阅读记录之中。
例如,小孩这次点选阅读了《喜羊羊与灰太狼》,看完了第30辑,下次打开时,直接跳转至历史阅读记录30辑,方便小孩接着往下看。
优选地,搜索包含所述目标关键词的标题信息,按预设规则推荐给用户的步骤之后,还包括:
将用户点选收藏的标题信息存储到所述用户账户的书签栏之中。
例如,小孩这次点选阅读了《喜羊羊与灰太狼》,并将其添加至书签栏之中。下次小孩只需在书签栏中翻查该作品,无需重新搜索。
图3为本发明一种基于声纹搜索的信息推荐装置的示意图,包括:
预处理单元,用于对输入的语音信息进行预处理,获得待识别的声纹数据;
特征提取单元,用于提取所述声纹数据的韵律特征;
关键词识别单元,用于根据所述韵律特征查找声纹模型库,识别目标关键词,其中所述声纹模型库包含以韵母作为索引的关键词词库;
搜索推荐单元,用于搜索包含所述目标关键词的标题信息,按预设规则推荐给用户。
图3与图1相对应,图中各个单元的运行方式与方法中的相同。
图4为本发明一种基于声纹搜索的信息推荐装置的实施例示意图。
如图4所示,还包括:
关键词确定单元,用于显示至少两个目标关键词,以供用户选择;根据用户的选择,确定待搜索的目标关键词。
如图4所示,包括:
与所述预处理单元相连的账号登陆单元,用于判断当前的声纹数据是否与用户账户预先存储的声纹数据相符,如果相符,则登录所述用户账号。
如图4所示,所述搜索推荐单元,包括:
年龄判断单元,用于判断所述语音信息的说话人的年龄,将所述说话人标记为成年人或儿童;在对应的成年人或儿童信息专区中搜索包含所述目标关键词的标题信息。
如图4所示,所述搜索推荐单元,包括:
性别判断单元,用于判断所述语音信息的说话人的性别,将所述说话人标记为男生或女生;在对应性别的信息专区中搜索包含所述目标关键词的标题信息。
如图4所示,所述搜索推荐单元,包括:
标题展示单元,用于按时间先后或浏览量大小将搜索到的标题信息展示给用户。
图4与图2相对应,图中各个单元的运行方式与方法中的相同。
优选地,所述预处理单元,包括:
采样单元,用于采用单声道采样所述语音信息的语音流;
分帧单元,用于以256个采样点为一帧,按128个采样点为音框之间的重迭单位,对所述语音流进行分帧;
计算单元,用于计算各帧语音数据的累积能量,如果连续语音帧累积能量大于预设静音阈值,则采纳该段连续语音帧为待识别的声纹数据。
优选地,还包括:
与所述搜索推荐单元、所述账号登陆单元分别相连的历史记录单元,用于将推荐给用户的标题信息的搜索记录存储到所述用户账户的历史搜索记录之中。
优选地,还包括:
与所述搜索推荐单元、所述账号登陆单元分别相连的阅读记录单元,用于将用户点选阅读的标题信息存储到所述用户账户的历史阅读记录之中。
优选地,还包括:
与所述搜索推荐单元、所述账号登陆单元分别相连的收藏记录单元,用于将用户点选收藏的标题信息存储到所述用户账户的书签栏之中。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种基于声纹搜索的信息推荐方法,其特征在于,包括:
对输入的语音信息进行预处理,获得待识别的声纹数据;
提取所述声纹数据的韵律特征;
根据所述韵律特征查找声纹模型库,识别目标关键词,其中所述声纹模型库包含以韵母作为索引的关键词词库;
搜索包含所述目标关键词的标题信息,按预设规则推荐给用户。
2.根据权利要求1所述的基于声纹搜索的信息推荐方法,其特征在于,所述对输入的语音信息进行预处理,获得待识别的声纹数据的步骤,包括:
采用单声道采样所述语音信息的语音流;
以256个采样点为一帧,按128个采样点为音框之间的重迭单位,对所述语音流进行分帧;
计算各帧语音数据的累积能量,如果连续语音帧累积能量大于预设静音阈值,则采纳该段连续语音帧为待识别的声纹数据。
3.根据权利要求1所述的基于声纹搜索的信息推荐方法,其特征在于,所述识别目标关键词的步骤之后,所述搜索包含所述目标关键词的标题信息的步骤之前,还包括:
显示至少两个目标关键词,以供用户选择;
根据用户的选择,确定待搜索的目标关键词。
4.根据权利要求1所述的基于声纹搜索的信息推荐方法,其特征在于,对输入的语音信息进行预处理,获得待识别的声纹数据的步骤之后,包括:
判断当前的声纹数据是否与用户账户预先存储的声纹数据相符,如果相符,则登录所述用户账号。
5.根据权利要求4所述的基于声纹搜索的信息推荐方法,其特征在于,搜索包含所述目标关键词的标题信息,按预设规则推荐给用户的步骤之后,还包括:
将推荐给用户的标题信息的搜索记录存储到所述用户账户的历史搜索记录之中。
6.根据权利要求4所述的基于声纹搜索的信息推荐方法,其特征在于,搜索包含所述目标关键词的标题信息,按预设规则推荐给用户的步骤之后,还包括:
将用户点选阅读的标题信息存储到所述用户账户的历史阅读记录之中。
7.根据权利要求4所述的基于声纹搜索的信息推荐方法,其特征在于,搜索包含所述目标关键词的标题信息,按预设规则推荐给用户的步骤之后,还包括:
将用户点选收藏的标题信息存储到所述用户账户的书签栏之中。
8.根据权利要求1或4所述的基于声纹搜索的信息推荐方法,其特征在于,搜索包含所述目标关键词的标题信息的步骤具体,包括:
判断所述语音信息的说话人的年龄,将所述说话人标记为成年人或儿童;
在对应的成年人或儿童信息专区中搜索包含所述目标关键词的标题信息。
9.根据权利要求1或4所述的基于声纹搜索的信息推荐方法,其特征在于,搜索包含所述目标关键词的标题信息的步骤具体,包括:
判断所述语音信息的说话人的性别,将所述说话人标记为男生或女生;
在对应性别的信息专区中搜索包含所述目标关键词的标题信息。
10.一种基于声纹搜索的信息推荐装置,其特征在于,包括:
预处理单元,用于对输入的语音信息进行预处理,获得待识别的声纹数据;
特征提取单元,用于提取所述声纹数据的韵律特征;
关键词识别单元,用于根据所述韵律特征查找声纹模型库,识别目标关键词,其中所述声纹模型库包含以韵母作为索引的关键词词库;
搜索推荐单元,用于搜索包含所述目标关键词的标题信息,按预设规则推荐给用户。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611146872.4A CN106601259B (zh) | 2016-12-13 | 2016-12-13 | 一种基于声纹搜索的信息推荐方法及装置 |
PCT/CN2017/115707 WO2018108080A1 (zh) | 2016-12-13 | 2017-12-12 | 一种基于声纹搜索的信息推荐方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611146872.4A CN106601259B (zh) | 2016-12-13 | 2016-12-13 | 一种基于声纹搜索的信息推荐方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106601259A true CN106601259A (zh) | 2017-04-26 |
CN106601259B CN106601259B (zh) | 2021-04-06 |
Family
ID=58802007
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201611146872.4A Active CN106601259B (zh) | 2016-12-13 | 2016-12-13 | 一种基于声纹搜索的信息推荐方法及装置 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN106601259B (zh) |
WO (1) | WO2018108080A1 (zh) |
Cited By (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107357875A (zh) * | 2017-07-04 | 2017-11-17 | 北京奇艺世纪科技有限公司 | 一种语音搜索方法、装置及电子设备 |
CN107656983A (zh) * | 2017-09-08 | 2018-02-02 | 广州索答信息科技有限公司 | 一种基于声纹识别的智能推荐方法及装置 |
CN107886390A (zh) * | 2017-09-30 | 2018-04-06 | 北京小蓦机器人技术有限公司 | 提供用户的实际需求资源的方法、设备、系统与存储介质 |
CN107886949A (zh) * | 2017-11-24 | 2018-04-06 | 科大讯飞股份有限公司 | 一种内容推荐方法及装置 |
CN108062354A (zh) * | 2017-11-22 | 2018-05-22 | 上海博泰悦臻电子设备制造有限公司 | 信息推荐方法、系统、存储介质、电子设备及车辆 |
WO2018108080A1 (zh) * | 2016-12-13 | 2018-06-21 | 北京奇虎科技有限公司 | 一种基于声纹搜索的信息推荐方法及装置 |
CN108492836A (zh) * | 2018-03-29 | 2018-09-04 | 努比亚技术有限公司 | 一种基于语音的搜索方法、移动终端及存储介质 |
CN109165336A (zh) * | 2018-08-23 | 2019-01-08 | 广东小天才科技有限公司 | 一种信息输出控制方法及家教设备 |
CN109460501A (zh) * | 2018-11-15 | 2019-03-12 | 成都傅立叶电子科技有限公司 | 一种全局检索作战辅助决策系统及方法 |
CN109671185A (zh) * | 2017-10-17 | 2019-04-23 | 杭州海康威视数字技术股份有限公司 | 一种门禁控制方法及装置 |
CN109829035A (zh) * | 2018-12-19 | 2019-05-31 | 平安国际融资租赁有限公司 | 流程搜索方法、装置、计算机设备和存储介质 |
CN110784768A (zh) * | 2019-10-17 | 2020-02-11 | 珠海格力电器股份有限公司 | 一种多媒体资源播放方法、存储介质及电子设备 |
CN110867188A (zh) * | 2018-08-13 | 2020-03-06 | 珠海格力电器股份有限公司 | 内容服务的提供方法、装置、存储介质及电子装置 |
CN110879839A (zh) * | 2019-11-27 | 2020-03-13 | 北京声智科技有限公司 | 一种热词识别方法、装置及系统 |
CN110896501A (zh) * | 2018-08-24 | 2020-03-20 | 青岛海尔多媒体有限公司 | 电视机及用于电视机的控制方法 |
CN110990685A (zh) * | 2019-10-12 | 2020-04-10 | 中国平安财产保险股份有限公司 | 基于声纹的语音搜索方法、设备、存储介质及装置 |
CN111078937A (zh) * | 2019-12-27 | 2020-04-28 | 北京世纪好未来教育科技有限公司 | 语音信息检索方法、装置、设备和计算机可读存储介质 |
CN112052686A (zh) * | 2020-09-02 | 2020-12-08 | 合肥分贝工场科技有限公司 | 一种用户交互式教育的语音学习资源推送方法 |
CN112447178A (zh) * | 2019-08-28 | 2021-03-05 | 北京声智科技有限公司 | 一种声纹检索方法、装置及电子设备 |
CN113643700A (zh) * | 2021-07-27 | 2021-11-12 | 广州市威士丹利智能科技有限公司 | 一种智能语音开关的控制方法及系统 |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11948582B2 (en) * | 2019-03-25 | 2024-04-02 | Omilia Natural Language Solutions Ltd. | Systems and methods for speaker verification |
CN111798857A (zh) * | 2019-04-08 | 2020-10-20 | 北京嘀嘀无限科技发展有限公司 | 一种信息识别方法、装置、电子设备及存储介质 |
CN110459210A (zh) * | 2019-07-30 | 2019-11-15 | 平安科技(深圳)有限公司 | 基于语音分析的问答方法、装置、设备及存储介质 |
CN112423133B (zh) * | 2019-08-23 | 2022-07-08 | 腾讯科技(深圳)有限公司 | 视频切换方法、装置、计算机可读存储介质和计算机设备 |
CN111104505B (zh) * | 2019-12-30 | 2023-08-25 | 浙江阿尔法人力资源有限公司 | 信息提示方法、装置、设备和存储介质 |
CN111627448A (zh) * | 2020-05-15 | 2020-09-04 | 公安部第三研究所 | 实现基于语音大数据的审讯与谈话控制系统及其方法 |
CN113486233B (zh) * | 2020-08-21 | 2024-10-18 | 海信集团控股股份有限公司 | 一种内容推荐方法、设备及介质 |
CN114143608A (zh) * | 2021-11-05 | 2022-03-04 | 深圳Tcl新技术有限公司 | 内容推荐方法、装置、计算机设备及可读存储介质 |
CN114339342A (zh) * | 2021-12-23 | 2022-04-12 | 歌尔科技有限公司 | 一种遥控器控制方法、遥控器、控制装置及介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1835076A (zh) * | 2006-04-07 | 2006-09-20 | 安徽中科大讯飞信息科技有限公司 | 一种综合运用语音识别、语音学知识及汉语方言分析的语音评测方法 |
CN102063282A (zh) * | 2009-11-18 | 2011-05-18 | 盛大计算机(上海)有限公司 | 汉语语音输入系统及方法 |
US20150006175A1 (en) * | 2013-06-26 | 2015-01-01 | Electronics And Telecommunications Research Institute | Apparatus and method for recognizing continuous speech |
CN105243143A (zh) * | 2015-10-14 | 2016-01-13 | 湖南大学 | 基于即时语音内容检测的推荐方法及系统 |
CN105895096A (zh) * | 2016-03-30 | 2016-08-24 | 乐视控股(北京)有限公司 | 一种身份识别与语音交互操作的方法及装置 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5182892B2 (ja) * | 2009-09-24 | 2013-04-17 | 日本電信電話株式会社 | 音声検索方法,音声検索装置および音声検索プログラム |
CN105979376A (zh) * | 2015-12-02 | 2016-09-28 | 乐视致新电子科技(天津)有限公司 | 一种推荐方法和装置 |
CN105868360A (zh) * | 2016-03-29 | 2016-08-17 | 乐视控股(北京)有限公司 | 基于语音识别的内容推荐方法及装置 |
CN106128467A (zh) * | 2016-06-06 | 2016-11-16 | 北京云知声信息技术有限公司 | 语音处理方法及装置 |
CN106601259B (zh) * | 2016-12-13 | 2021-04-06 | 北京奇虎科技有限公司 | 一种基于声纹搜索的信息推荐方法及装置 |
-
2016
- 2016-12-13 CN CN201611146872.4A patent/CN106601259B/zh active Active
-
2017
- 2017-12-12 WO PCT/CN2017/115707 patent/WO2018108080A1/zh active Application Filing
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1835076A (zh) * | 2006-04-07 | 2006-09-20 | 安徽中科大讯飞信息科技有限公司 | 一种综合运用语音识别、语音学知识及汉语方言分析的语音评测方法 |
CN102063282A (zh) * | 2009-11-18 | 2011-05-18 | 盛大计算机(上海)有限公司 | 汉语语音输入系统及方法 |
US20150006175A1 (en) * | 2013-06-26 | 2015-01-01 | Electronics And Telecommunications Research Institute | Apparatus and method for recognizing continuous speech |
CN105243143A (zh) * | 2015-10-14 | 2016-01-13 | 湖南大学 | 基于即时语音内容检测的推荐方法及系统 |
CN105895096A (zh) * | 2016-03-30 | 2016-08-24 | 乐视控股(北京)有限公司 | 一种身份识别与语音交互操作的方法及装置 |
Non-Patent Citations (1)
Title |
---|
叶亮亮: "基于拼音音元的语音识别系统研究与设计", 《中国优秀硕士学位论文全文数据库(电子期刊)》 * |
Cited By (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018108080A1 (zh) * | 2016-12-13 | 2018-06-21 | 北京奇虎科技有限公司 | 一种基于声纹搜索的信息推荐方法及装置 |
CN107357875A (zh) * | 2017-07-04 | 2017-11-17 | 北京奇艺世纪科技有限公司 | 一种语音搜索方法、装置及电子设备 |
CN107656983A (zh) * | 2017-09-08 | 2018-02-02 | 广州索答信息科技有限公司 | 一种基于声纹识别的智能推荐方法及装置 |
CN107886390A (zh) * | 2017-09-30 | 2018-04-06 | 北京小蓦机器人技术有限公司 | 提供用户的实际需求资源的方法、设备、系统与存储介质 |
CN107886390B (zh) * | 2017-09-30 | 2019-09-06 | 北京小蓦机器人技术有限公司 | 提供用户的实际需求资源的方法、设备、系统与存储介质 |
CN109671185A (zh) * | 2017-10-17 | 2019-04-23 | 杭州海康威视数字技术股份有限公司 | 一种门禁控制方法及装置 |
CN109671185B (zh) * | 2017-10-17 | 2021-12-14 | 杭州海康威视数字技术股份有限公司 | 一种门禁控制方法及装置 |
CN108062354A (zh) * | 2017-11-22 | 2018-05-22 | 上海博泰悦臻电子设备制造有限公司 | 信息推荐方法、系统、存储介质、电子设备及车辆 |
CN107886949A (zh) * | 2017-11-24 | 2018-04-06 | 科大讯飞股份有限公司 | 一种内容推荐方法及装置 |
CN108492836A (zh) * | 2018-03-29 | 2018-09-04 | 努比亚技术有限公司 | 一种基于语音的搜索方法、移动终端及存储介质 |
CN110867188A (zh) * | 2018-08-13 | 2020-03-06 | 珠海格力电器股份有限公司 | 内容服务的提供方法、装置、存储介质及电子装置 |
CN109165336A (zh) * | 2018-08-23 | 2019-01-08 | 广东小天才科技有限公司 | 一种信息输出控制方法及家教设备 |
CN109165336B (zh) * | 2018-08-23 | 2021-10-01 | 广东小天才科技有限公司 | 一种信息输出控制方法及家教设备 |
CN110896501A (zh) * | 2018-08-24 | 2020-03-20 | 青岛海尔多媒体有限公司 | 电视机及用于电视机的控制方法 |
CN109460501A (zh) * | 2018-11-15 | 2019-03-12 | 成都傅立叶电子科技有限公司 | 一种全局检索作战辅助决策系统及方法 |
CN109829035A (zh) * | 2018-12-19 | 2019-05-31 | 平安国际融资租赁有限公司 | 流程搜索方法、装置、计算机设备和存储介质 |
CN112447178A (zh) * | 2019-08-28 | 2021-03-05 | 北京声智科技有限公司 | 一种声纹检索方法、装置及电子设备 |
CN110990685B (zh) * | 2019-10-12 | 2023-05-26 | 中国平安财产保险股份有限公司 | 基于声纹的语音搜索方法、设备、存储介质及装置 |
CN110990685A (zh) * | 2019-10-12 | 2020-04-10 | 中国平安财产保险股份有限公司 | 基于声纹的语音搜索方法、设备、存储介质及装置 |
CN110784768A (zh) * | 2019-10-17 | 2020-02-11 | 珠海格力电器股份有限公司 | 一种多媒体资源播放方法、存储介质及电子设备 |
CN110879839A (zh) * | 2019-11-27 | 2020-03-13 | 北京声智科技有限公司 | 一种热词识别方法、装置及系统 |
CN111078937A (zh) * | 2019-12-27 | 2020-04-28 | 北京世纪好未来教育科技有限公司 | 语音信息检索方法、装置、设备和计算机可读存储介质 |
CN112052686A (zh) * | 2020-09-02 | 2020-12-08 | 合肥分贝工场科技有限公司 | 一种用户交互式教育的语音学习资源推送方法 |
CN112052686B (zh) * | 2020-09-02 | 2023-08-18 | 合肥分贝工场科技有限公司 | 一种用户交互式教育的语音学习资源推送方法 |
CN113643700A (zh) * | 2021-07-27 | 2021-11-12 | 广州市威士丹利智能科技有限公司 | 一种智能语音开关的控制方法及系统 |
CN113643700B (zh) * | 2021-07-27 | 2024-02-27 | 广州市威士丹利智能科技有限公司 | 一种智能语音开关的控制方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
WO2018108080A1 (zh) | 2018-06-21 |
CN106601259B (zh) | 2021-04-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106601259A (zh) | 一种基于声纹搜索的信息推荐方法及装置 | |
CN111179975B (zh) | 用于情绪识别的语音端点检测方法、电子设备及存储介质 | |
US10013977B2 (en) | Smart home control method based on emotion recognition and the system thereof | |
US10431214B2 (en) | System and method of determining a domain and/or an action related to a natural language input | |
CN107945805B (zh) | 一种智能化跨语言语音识别转化方法 | |
CN102982572B (zh) | 一种智能化图像编辑方法和装置 | |
US9230547B2 (en) | Metadata extraction of non-transcribed video and audio streams | |
CN107945790B (zh) | 一种情感识别方法和情感识别系统 | |
CN107369439B (zh) | 一种语音唤醒方法和装置 | |
Maghilnan et al. | Sentiment analysis on speaker specific speech data | |
CN105260416A (zh) | 一种基于语音识别的搜索方法及装置 | |
CN107305541A (zh) | 语音识别文本分段方法及装置 | |
WO2020233386A1 (zh) | 基于aiml的智能问答方法、装置、计算机设备及存储介质 | |
CN108710653B (zh) | 一种绘本朗读点播方法、装置及系统 | |
CN111209367A (zh) | 信息查找方法、信息查找装置、电子设备及存储介质 | |
CN107424612A (zh) | 处理方法、装置和机器可读介质 | |
CN109298796B (zh) | 一种词联想方法及装置 | |
CN112231440A (zh) | 一种基于人工智能的语音搜索方法 | |
KR20170034481A (ko) | 사용자 예측 지능형 개인맞춤 모바일 음원 추천 시스템 및 그 방법 | |
CN115168563B (zh) | 一种基于意图识别的机场服务引导方法、系统及装置 | |
Tripathi et al. | VEP detection for read, extempore and conversation speech | |
CN112527973A (zh) | 一种搜索疾病信息的方法和系统 | |
CN112767923B (zh) | 一种语音识别方法及装置 | |
Sardar | Compensation of variability using median and i-vector+ PLDA for speaker identification of whispering sound | |
CN118412007B (zh) | 基于语音作答量表的心理分析系统、方法、介质及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |