CN108696768A - 一种语音识别方法及系统 - Google Patents
一种语音识别方法及系统 Download PDFInfo
- Publication number
- CN108696768A CN108696768A CN201810433565.7A CN201810433565A CN108696768A CN 108696768 A CN108696768 A CN 108696768A CN 201810433565 A CN201810433565 A CN 201810433565A CN 108696768 A CN108696768 A CN 108696768A
- Authority
- CN
- China
- Prior art keywords
- voice
- vocal print
- recognition method
- identity
- audio recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 38
- 230000001755 vocal effect Effects 0.000 claims abstract description 57
- 238000000605 extraction Methods 0.000 claims abstract description 7
- 241001269238 Data Species 0.000 claims abstract description 6
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 238000003672 processing method Methods 0.000 claims description 2
- 230000000694 effects Effects 0.000 abstract description 4
- 230000004048 modification Effects 0.000 description 5
- 238000012986 modification Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/441—Acquiring end-user identification, e.g. using personal code sent by the remote control or by inserting a card
- H04N21/4415—Acquiring end-user identification, e.g. using personal code sent by the remote control or by inserting a card using biometric characteristics of the user, e.g. by voice recognition or fingerprint scanning
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/20—Pattern transformations or operations aimed at increasing system robustness, e.g. against channel noise or different working conditions
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/22—Interactive procedures; Man-machine interfaces
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Biomedical Technology (AREA)
- General Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Signal Processing (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
本申请公开了一种语音识别方法及系统,语音识别方法的步骤为:采集多个现场语音数据;将每个现场语音数据的声纹与预先建立的语音声纹库中的声纹进行对比,找出相同的声纹;根据语音声纹库找出该声纹对应的身份。从而达到能够保证在现场环境嘈杂或者说话人数较多时,能够清楚的识别出特定人的语音,并有效保证识别精确度高,对确定的优选识别语音进行语音处理,提取、剥离转化为单个语音信息,生成语音指令,有效保证了需要执行指令的准确性的技术效果。
Description
技术领域
本发明涉及语音识别技术领域,尤其涉及一种语音识别方法及系统。
背景技术
现有技术方案中,当语音识别现场比较嘈杂或者同时说话的人数较多时,无法很好的识别想要识别的人的语音,识别精度很低,不能保证识别语音清晰和准确。另一种方案,语音识别时,需要进行深度算法,对于设备要求非常高,成本昂贵,且当现场嘈杂或多人同时说话时,同样不能区分设定人,且易受到嘈杂环境的影响,难以保证识别出的语音的清晰度和准确度。
发明内容
本发明的目的在于提供一种语音识别方法及系统,以达到能够保证在现场环境嘈杂或者说话人数较多时,能够清楚的识别出特定人的语音,并有效保证识别精确度高,对确定的优选识别语音进行语音处理,提取、剥离转化为单个语音信息,生成语音指令,有效保证了需要执行指令的准确性的技术效果。
为达到上述目的,本发明采用如下技术方案:
一种语音识别方法的步骤为:采集多个现场语音数据;将每个现场语音数据的声纹与预先建立的语音声纹库中的声纹进行对比,找出相同的声纹;根据语音声纹库找出该声纹对应的身份。
进一步的,根据身份确定语音识别优先级的排序,并优先识别优先级高的身份对应的现场语音数据。
进一步的,建立语音声纹库的方法具体为:设定特定人的身份;根据输入提示,该身份的特定人进行语音数据录入;将语音数据与对应身份进行绑定;根据身份设定语音识别的优先级顺序。
优选的,对优先识别语音数据的处理方法具体为:根据语音声纹库中身份的声纹将采集到的现场语音数据中的优先识别语音数据全部提取、剥离转化为单个语音信息;根据转化后的单个语音信息内容判断需要执行的语音内容,生成语音指令。
进一步的,语音指令至少包括播放视频、关闭视频。
进一步的,语音声纹库存储于云端数据库。
进一步的,语音数据通过语音采集装置采集。
进一步的,语音数据通过麦克风采集。
一种语音识别系统,包括机顶盒和分别与机顶盒连接的显示装置、语音采集装置和云端数据库,机顶盒用于执行语音识别方法,显示装置执行机顶盒发送的语音指令。
进一步的,语音采集装置为麦克风。
本发明的有益效果是:该语音识别方法通过建立语音声纹库,设定识别语音优先级顺序,能够保证在现场环境嘈杂或者说话人数较多时,能够清楚的识别出特定人的语音,并有效保证识别精确度高,对确定的优选识别语音进行语音处理,提取、剥离转化为单个语音信息,生成语音指令,有效保证了需要执行指令的准确性的技术效果。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1为一种语音识别方法的流程图;
图2为一种语音识别系统的结构示意图。
具体实施方式
下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本申请的目的在于提供一种语音识别方法,采集多个现场语音数据;将每个现场语音数据的声纹与预先建立的语音声纹库中的声纹进行对比,找出相同的声纹;根据语音声纹库找出该声纹对应的身份。该方法能够保证在现场环境嘈杂或者说话人数较多时,能够清楚的识别出特定人的语音,并有效保证识别精确度高。
本申请的目的还在于提供一种语音识别系统,如图2所示,该语音识别系统包括机顶盒2和分别与该机顶盒2连接的显示装置4、语音采集装置1和云端数据库3。具体的,机顶盒2用于建立语音声纹库,并将建立好的语音声纹库上传至云端数据库进行储存,以及对需要识别的语音数据进行语音数据处理;显示装置4接收机顶盒2发送的指令,并执行,例如,播放视频,关闭视频等;语音采集装置1用于对语音数据进行采集。优选的,语音采集装置4为麦克风。系统操作简单方便,且价格便宜。
根据图1所示,语音优选识别方法具体包括以下步骤:
S110:建立语音声纹库,获取多个特定人的语音数据;
S120:将每个特定人的语音数据与特定人的身份进行绑定;
示例性的,建立语音声纹库的方法具体为:通过机顶盒2设定特定人的身份;设定好身份后,机顶盒2提示该身份的特定人进行语音数据录入;并将录入的语音数据与对应身份进行绑定。示例性的,在机顶盒2中设定身份为妈妈,设定好后,机顶盒2通过语音提示妈妈录入语音数据,并将妈妈录入的语音数据与妈妈的身份进行绑定,再在机顶盒2中设定身份为孩子,设定好后,机顶盒2通过语音提示孩子录入语音数据,并将孩子录入的语音数据与孩子的身份进行绑定,等所有特定人完成上述语音和身份的绑定步骤,语音声纹库建立完成,并将语音声纹库储存到云端数据库3。
S130:根据身份设定语音识别的优先级顺序;
S140:当同时采集到多个现场语音数据时,优先识别身份优先级高的语音数据。
示例性的,身份优先级的判别方法具体为:通过语音采集装置1采集多个现场语音数据;将每个现场语音数据的声纹与语音声纹库中的声纹进行对比;找出匹配度达到预定阈值的声纹;并根据语音声纹库找出该声纹对应的身份;依据身份确定该身份的语音识别优先级,根据优先级的排序来确定现场语音数据中的声纹的识别顺序。具体的,当现场周围环境比较嘈杂或者说话人数较多时,通过语音采集装置1采集现场出现的多个语音数据,该语音采集装置1可以为麦克风,但不仅限于麦克风,将采集到的所有语音数据的声纹与存储于语音声纹库中的声纹进行对比,找出现场语音数据中与语音声纹库中声纹匹配度达到预定阈值的声纹,并通过该声纹确定与该声纹对应的身份,进而依据身份确定该身份被设定的语音识别优先级的高低,首先识别优先级最高的语音。具体的,作为一个实施例,在语音声纹库中设定为妈妈的语音识别优先级高于孩子的语音识别优先级,当现场中同时出现孩子和妈妈的语音数据时,机顶盒2优先识别妈妈的语音数据,并对妈妈的语音数据进行语音数据处理。
进一步的,优先识别语音数据的语音处理方法具体为:确定多个现场语音数据中的优先识别语音数据后,根据语音声纹库中该身份的声纹将采集到的现场语音数据中的优先识别语音数据全部提取、剥离转化为单个语音信息;并根据转化后的单个语音信息内容判断需要执行的语音内容,生成语音指令。具体的,作为一个实施例,当语音采集装置1采集到的现场语音数据中同时包括妈妈和孩子的语音数据时,通过与语音声纹库进行对比,判断出妈妈的语音数据为优先识别语音数据后,机顶盒2将采集到的现场语音数据中妈妈的全部语音数据进行提取、剥离转化为单个语音信息,并根据转化后的单个语音信息内容判断需要执行的语音内容,生成语音指令。该语音指令可以为播放视频,关闭视频等指令。
本发明的有益效果是:该语音识别方法通过建立语音声纹库,设定识别语音优先级顺序,能够保证在现场环境嘈杂或者说话人数较多时,能够清楚的识别出特定人的语音,并有效保证识别精确度高,对确定的优选识别语音进行语音处理,提取、剥离转化为单个语音信息,生成语音指令,有效保证了需要执行指令的准确性的技术效果。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。
Claims (10)
1.一种语音识别方法,其特征在于,语音识别方法的步骤为:
采集多个现场语音数据;
将每个所述现场语音数据的声纹与预先建立的语音声纹库中的声纹进行对比,找出相同的声纹;
根据所述语音声纹库找出该声纹对应的身份。
2.根据权利要求1所述的语音识别方法,其特征在于,根据所述身份确定语音识别优先级的排序,并优先识别优先级高的身份对应的现场语音数据。
3.根据权利要求2所述的语音识别方法,其特征在于,建立语音声纹库的方法具体为:
设定特定人的身份;
根据输入提示,所述身份的特定人进行语音数据录入;
将所述语音数据与对应身份进行绑定;
根据所述身份设定语音识别的优先级顺序。
4.根据权利要求2所述的语音识别方法,其特征在于,对优先识别语音数据的处理方法具体为:
根据所述语音声纹库中所述身份的声纹将采集到的现场语音数据中的所述优先识别语音数据全部提取、剥离转化为单个语音信息;
根据转化后的单个语音信息内容判断需要执行的语音内容,生成语音指令。
5.根据权利要求4所述的语音识别方法,其特征在于,所述语音指令至少包括播放视频、关闭视频。
6.根据权利要求1所述的语音识别方法,其特征在于,所述语音声纹库存储于云端数据库。
7.根据权利要求1-6所述的语音识别方法,其特征在于,所述语音数据通过语音采集装置采集。
8.根据权利要求1-6所述的语音识别方法,其特征在于,所述语音数据通过麦克风采集。
9.一种语音识别系统,其特征在于,包括机顶盒和分别与所述机顶盒连接的显示装置、语音采集装置和云端数据库,所述机顶盒用于执行权利要求1-8所述的语音识别方法,所述显示装置执行所述机顶盒发送的所述语音指令。
10.根据权利要求9所述的语音优别系统,其特征在于,所述语音采集装置为麦克风。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810433565.7A CN108696768A (zh) | 2018-05-08 | 2018-05-08 | 一种语音识别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810433565.7A CN108696768A (zh) | 2018-05-08 | 2018-05-08 | 一种语音识别方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108696768A true CN108696768A (zh) | 2018-10-23 |
Family
ID=63847305
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810433565.7A Pending CN108696768A (zh) | 2018-05-08 | 2018-05-08 | 一种语音识别方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108696768A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109326303A (zh) * | 2018-11-28 | 2019-02-12 | 广东小天才科技有限公司 | 一种语音分离方法及系统 |
CN109887509A (zh) * | 2019-01-25 | 2019-06-14 | 广州富港万嘉智能科技有限公司 | 一种基于声纹的点餐控制方法、电子设备及存储介质 |
CN110047493A (zh) * | 2019-03-13 | 2019-07-23 | 深圳市酷开网络科技有限公司 | 基于声纹识别优先级的控制方法、装置及存储介质 |
CN110265038A (zh) * | 2019-06-28 | 2019-09-20 | 联想(北京)有限公司 | 一种处理方法及电子设备 |
CN111581426A (zh) * | 2020-04-30 | 2020-08-25 | 厦门快商通科技股份有限公司 | 一种音频指纹匹配方法和装置以及设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160247520A1 (en) * | 2015-02-25 | 2016-08-25 | Kabushiki Kaisha Toshiba | Electronic apparatus, method, and program |
CN205847475U (zh) * | 2016-06-21 | 2016-12-28 | 甘肃省广播电视网络股份有限公司 | 基于语音交互的网络机顶盒应用系统 |
CN107451242A (zh) * | 2017-07-26 | 2017-12-08 | 广东美的制冷设备有限公司 | 数据播放控制方法、系统和计算机可读存储介质 |
CN107707436A (zh) * | 2017-09-18 | 2018-02-16 | 广东美的制冷设备有限公司 | 终端控制方法、装置及计算机可读存储介质 |
CN107909997A (zh) * | 2017-09-29 | 2018-04-13 | 威创集团股份有限公司 | 一种拼接墙控制方法及系统 |
-
2018
- 2018-05-08 CN CN201810433565.7A patent/CN108696768A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160247520A1 (en) * | 2015-02-25 | 2016-08-25 | Kabushiki Kaisha Toshiba | Electronic apparatus, method, and program |
CN205847475U (zh) * | 2016-06-21 | 2016-12-28 | 甘肃省广播电视网络股份有限公司 | 基于语音交互的网络机顶盒应用系统 |
CN107451242A (zh) * | 2017-07-26 | 2017-12-08 | 广东美的制冷设备有限公司 | 数据播放控制方法、系统和计算机可读存储介质 |
CN107707436A (zh) * | 2017-09-18 | 2018-02-16 | 广东美的制冷设备有限公司 | 终端控制方法、装置及计算机可读存储介质 |
CN107909997A (zh) * | 2017-09-29 | 2018-04-13 | 威创集团股份有限公司 | 一种拼接墙控制方法及系统 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109326303A (zh) * | 2018-11-28 | 2019-02-12 | 广东小天才科技有限公司 | 一种语音分离方法及系统 |
CN109326303B (zh) * | 2018-11-28 | 2021-12-24 | 广东小天才科技有限公司 | 一种语音分离方法及系统 |
CN109887509A (zh) * | 2019-01-25 | 2019-06-14 | 广州富港万嘉智能科技有限公司 | 一种基于声纹的点餐控制方法、电子设备及存储介质 |
CN110047493A (zh) * | 2019-03-13 | 2019-07-23 | 深圳市酷开网络科技有限公司 | 基于声纹识别优先级的控制方法、装置及存储介质 |
CN110265038A (zh) * | 2019-06-28 | 2019-09-20 | 联想(北京)有限公司 | 一种处理方法及电子设备 |
CN111581426A (zh) * | 2020-04-30 | 2020-08-25 | 厦门快商通科技股份有限公司 | 一种音频指纹匹配方法和装置以及设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108696768A (zh) | 一种语音识别方法及系统 | |
EP3611895B1 (en) | Method and device for user registration, and electronic device | |
CN108630193B (zh) | 语音识别方法及装置 | |
CN110970018B (zh) | 语音识别方法和装置 | |
US20150141079A1 (en) | Terminal voice control method and apparatus, and terminal | |
US10297257B2 (en) | Voice information control method and terminal device | |
CN105975569A (zh) | 一种语音处理的方法及终端 | |
CN104538034A (zh) | 一种语音识别方法及系统 | |
CN109065051B (zh) | 一种语音识别处理方法及装置 | |
CN105448303A (zh) | 语音信号的处理方法和装置 | |
CN104036774A (zh) | 藏语方言识别方法及系统 | |
WO2016173132A1 (zh) | 语音识别方法、装置及用户设备 | |
US11062708B2 (en) | Method and apparatus for dialoguing based on a mood of a user | |
CN113205803B (zh) | 一种具有自适应降噪能力的语音识别方法及装置 | |
CN109935226A (zh) | 一种基于深度神经网络的远场语音识别增强系统及方法 | |
WO2018228280A1 (zh) | 一种通知信息的输出方法、服务器及监控系统 | |
CN110767237A (zh) | 一种语音传输方法、装置、第一对讲机和系统 | |
CN106531195B (zh) | 一种对话冲突检测方法及装置 | |
CN110364178A (zh) | 一种语音处理方法、装置、存储介质和电子设备 | |
CN111785302B (zh) | 说话人分离方法、装置及电子设备 | |
CN110262278B (zh) | 智能家电设备的控制方法及装置、智能电器设备 | |
CN107910006A (zh) | 语音识别方法、装置和多信源语音区分识别系统 | |
CN112687274A (zh) | 一种语音信息的处理方法、装置、设备及介质 | |
CN112927688B (zh) | 用于车辆的语音交互方法及系统 | |
CN103903615A (zh) | 一种信息处理方法及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Address after: 100007 204, 2nd floor, building 3, No.2, zanjingguan Hutong, Dongcheng District, Beijing Applicant after: Oriental Dream Virtual Reality Technology Co., Ltd Address before: 100097 Beijing city Haidian District landianchang Road No. 25 11-20 Applicant before: BEIJING HENGXIN RAINBOW INFORMATION TECHNOLOGY Co.,Ltd. |
|
CB02 | Change of applicant information | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20181023 |
|
RJ01 | Rejection of invention patent application after publication |