CN111292753A - 一种离线语音识别方法、装置和设备 - Google Patents

一种离线语音识别方法、装置和设备 Download PDF

Info

Publication number
CN111292753A
CN111292753A CN202010129483.0A CN202010129483A CN111292753A CN 111292753 A CN111292753 A CN 111292753A CN 202010129483 A CN202010129483 A CN 202010129483A CN 111292753 A CN111292753 A CN 111292753A
Authority
CN
China
Prior art keywords
voice
data
frames
preset
voice data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010129483.0A
Other languages
English (en)
Inventor
陈昊亮
许敏强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Speakin Intelligent Technology Co ltd
Original Assignee
Guangzhou Speakin Intelligent Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Speakin Intelligent Technology Co ltd filed Critical Guangzhou Speakin Intelligent Technology Co ltd
Priority to CN202010129483.0A priority Critical patent/CN111292753A/zh
Publication of CN111292753A publication Critical patent/CN111292753A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems

Abstract

本申请公开了一种离线语音识别方法、装置和设备,包括:响应于离线语音识别请求,将接收到的语音数据进行预置帧长的语音分帧处理,得到若干帧待处理语音数据;将若干帧语音数据按帧与预置本地语音数据库进行声纹比对,输出各帧语音数据对应的在预置本地语音数据库中的最接近的匹配语音数据;将匹配语音数据转换为文本数据,将文本数据按语音分帧顺序依次显示。本申请中提供的离线语音识别方法,不需要依靠与本地终端在线连接的服务器来进行语音识别,能够在离线情况下将说话人的语音转换问文本进行显示,弥补了在线语音识别方式的不足,解决现有的在线语音识别方式受限于网络覆盖率和终端的网络稳定性,可靠性较差的技术问题。

Description

一种离线语音识别方法、装置和设备
技术领域
本申请涉及语音处理技术领域,尤其涉及一种离线语音识别方法、装置和设备。
背景技术
随着语音识别技术的推广,将语音转换成文本已经成为一种广受人们欢迎的自动语音识别技术。现有的移动终端或本地终端上往往安装有语音转文本的软件,,在现有的移动终端或本地终端上进行语音识别通常是在线识别,通过连接的服务器来进行在线语音识别,将说话人的语音数据转换为文本进行显示,但是在线进行语音转文本的语音识别方式受限于网络覆盖率和终端的网络稳定性,可靠性较差。因此,提供离线语音识别方式来弥补在线语音识别方式的不足,是本领域技术人员亟待解决的技术问题。
发明内容
本申请提供了一种离线语音识别方法、装置和设备,用于弥补在线语音识别方式的不足,解决现有的在线语音识别方式受限于网络覆盖率和终端的网络稳定性,可靠性较差的技术问题。
有鉴于此,本申请第一方面提供了一种离线语音识别方法,包括:
响应于离线语音识别请求,将接收到的语音数据进行预置帧长的语音分帧处理,得到若干帧待处理语音数据;
将所述若干帧语音数据按帧与预置本地语音数据库进行声纹比对,输出各帧语音数据对应的在所述预置本地语音数据库中的最接近的匹配语音数据;
将所述匹配语音数据转换为文本数据,将所述文本数据按语音分帧顺序依次显示。
可选地,所述预置帧长为标准的两字词组发音时长。
可选地,所述将所述若干帧语音数据按帧与预置本地语音数据库进行声纹比对,输出各帧语音数据对应的在所述预置本地语音数据库中的最接近的匹配语音数据,之前还包括:
构建所述预置本地语音数据库;
将所述预置本地语音数据库的词组按预置规则进行分类;
提取各类词组的典型声纹特征。
可选地,所述将所述若干帧语音数据按帧与预置本地语音数据库进行声纹比对,输出各帧语音数据对应的在所述预置本地语音数据库中的最接近的匹配语音数据,包括:
提取所述若干帧语音数据的各帧的声纹特征;
计算所述各帧的声纹特征与所述预置本地语音数据库中的各典型声纹特征的余弦相似度,将余弦相似度最大的典型声纹特征对应的匹配语音数据进行输出。
本申请第二方面提供了一种离线语音识别装置,包括:
语音分帧单元,用于响应于离线语音识别请求,将接收到的语音数据进行预置帧长的语音分帧处理,得到若干帧待处理语音数据;
声纹比对单元,用于将所述若干帧语音数据按帧与预置本地语音数据库进行声纹比对,输出各帧语音数据对应的在所述预置本地语音数据库中的最接近的匹配语音数据;
显示单元,用于将所述匹配语音数据转换为文本数据,将所述文本数据按语音分帧顺序依次显示。
可选地,所述预置帧长为标准的两字词组发音时长。
可选地,还包括预处理单元,所述预处理单元用于:
构建所述预置本地语音数据库;
将所述预置本地语音数据库的词组按预置规则进行分类;
提取各类词组的典型声纹特征。
可选地,所述声纹比对单元具体用于:
提取所述若干帧语音数据的各帧的声纹特征;
计算所述各帧的声纹特征与所述预置本地语音数据库中的各典型声纹特征的余弦相似度,将余弦相似度最大的典型声纹特征对应的匹配语音数据进行输出。
本申请第三方面提供了一种离线语音识别方法设备,所述设备包括处理器和存储器;
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令执行第一方面任一种所述的离线语音识别方法。
本申请第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质用于存储程序代码,所述程序代码用于执行第一方面任一种所述的离线语音识别方法。
从以上技术方案可以看出,本申请实施例具有以下优点:
本申请中提供了一种离线语音识别方法,包括:响应于离线语音识别请求,将接收到的语音数据进行预置帧长的语音分帧处理,得到若干帧待处理语音数据;将若干帧语音数据按帧与预置本地语音数据库进行声纹比对,输出各帧语音数据对应的在预置本地语音数据库中的最接近的匹配语音数据;将匹配语音数据转换为文本数据,将文本数据按语音分帧顺序依次显示。本申请中提供的离线语音识别方法,不需要依靠与本地终端在线连接的服务器来进行语音识别,能够在离线情况下将说话人的语音转换问文本进行显示,弥补了在线语音识别方式的不足,解决现有的在线语音识别方式受限于网络覆盖率和终端的网络稳定性,可靠性较差的技术问题。
附图说明
图1为本申请实施例中提供的一种离线语音识别方法的一个流程示意图;
图2为本申请实施例中提供的一种离线语音识别装置的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
为了便于理解,请参阅图1,本申请提供了一种离线语音识别方法的一个实施例,包括:
步骤101、响应于离线语音识别请求,将接收到的语音数据进行预置帧长的语音分帧处理,得到若干帧待处理语音数据。
需要说明的是,在本地终端获取到说话人语音数据时,若本地终端处于离线状态或网络较差状态,将生成离线语音识别请求,触发离线语音识别,此时本地终端的离线语音识别软件将响应于离线语音识别请求,将本地终端接收到的语音数据进行预置帧长的语音分帧处理,得到若干帧待处理语音数据。语音分帧可以将长语音分成多段短语音,便于处理,预置帧长可选为标准的两字词组发音时长。
步骤102、将若干帧语音数据按帧与预置本地语音数据库进行声纹比对,输出各帧语音数据对应的在预置本地语音数据库中的最接近的匹配语音数据。
需要说明的是,预置本地语音数据库存储有语音数据和语音对应文本数据,将语音进行分帧之后,将各帧语音数据按帧与预置本地语音数据库进行声纹比对,输出各帧语音数据对应的在预置本地语音数据库中的最接近的匹配语音数据。
在将若干帧语音数据按帧与预置本地语音数据库进行声纹比对,输出各帧语音数据对应的在所述预置本地语音数据库中的最接近的匹配语音数据,之前先构建预置本地语音数据库,将预置本地语音数据库的词组按预置规则进行分类,提取各类词组的典型声纹特征。提取若干帧语音数据的各帧的声纹特征;计算各帧的声纹特征与所述预置本地语音数据库中的各典型声纹特征的余弦相似度,将余弦相似度最大的典型声纹特征对应的匹配语音数据进行输出。
步骤103、将匹配语音数据转换为文本数据,将文本数据按语音分帧顺序依次显示。
需要说明的是,在得到匹配语音数据之后,根据预置本地语音数据库的语音文本对应关系,将匹配语音数据转换为文本数据,按语音分帧顺序依次进行文本显示。
本申请实施例中提供的离线语音识别方法,不需要依靠与本地终端在线连接的服务器来进行语音识别,能够在离线情况下将说话人的语音转换问文本进行显示,弥补了在线语音识别方式的不足,解决现有的在线语音识别方式受限于网络覆盖率和终端的网络稳定性,可靠性较差的技术问题
为了便于理解,请参阅图2,本申请中提供了一种离线语音识别装置的实施例,包括:
语音分帧单元,用于响应于离线语音识别请求,将接收到的语音数据进行预置帧长的语音分帧处理,得到若干帧待处理语音数据。
声纹比对单元,用于将若干帧语音数据按帧与预置本地语音数据库进行声纹比对,输出各帧语音数据对应的在预置本地语音数据库中的最接近的匹配语音数据。
显示单元,用于将匹配语音数据转换为文本数据,将文本数据按语音分帧顺序依次显示。
进一步地,预置帧长为标准的两字词组发音时长。
进一步地,还包括预处理单元,预处理单元用于:
构建预置本地语音数据库;
将预置本地语音数据库的词组按预置规则进行分类;
提取各类词组的典型声纹特征。
进一步地,声纹比对单元具体用于:
提取若干帧语音数据的各帧的声纹特征;
计算各帧的声纹特征与预置本地语音数据库中的各典型声纹特征的余弦相似度,将余弦相似度最大的典型声纹特征对应的匹配语音数据进行输出。
本申请中提供了一种离线语音识别方法设备的实施例,设备包括处理器以及存储器:
存储器用于存储程序代码,并将程序代码传输给处理器;
处理器用于根据程序代码中的指令执行前述的离线语音识别方法实施例中的离线语音识别方法。
本申请中提供了一种计算机可读存储介质的实施例,计算机可读存储介质用于存储程序代码,所述程序代码用于执行前述的离线语音识别方法实施例中的离线语音识别方法。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统和方法,可以通过其它的方式实现。例如,以上所描述的系统实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机系统(可以是个人计算机,服务器,或者网络系统等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(英文全称:Read-OnlyMemory,英文缩写:ROM)、随机存取存储器(英文全称:Random Access Memory,英文缩写:RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims (10)

1.一种离线语音识别方法,其特征在于,包括:
响应于离线语音识别请求,将接收到的语音数据进行预置帧长的语音分帧处理,得到若干帧待处理语音数据;
将所述若干帧语音数据按帧与预置本地语音数据库进行声纹比对,输出各帧语音数据对应的在所述预置本地语音数据库中的最接近的匹配语音数据;
将所述匹配语音数据转换为文本数据,将所述文本数据按语音分帧顺序依次显示。
2.根据权利要求1所述的离线语音识别方法,其特征在于,所述预置帧长为标准的两字词组发音时长。
3.根据权利要求2所述的离线语音识别方法,其特征在于,所述将所述若干帧语音数据按帧与预置本地语音数据库进行声纹比对,输出各帧语音数据对应的在所述预置本地语音数据库中的最接近的匹配语音数据,之前还包括:
构建所述预置本地语音数据库;
将所述预置本地语音数据库的词组按预置规则进行分类;
提取各类词组的典型声纹特征。
4.根据权利要求3所述的离线语音识别方法,其特征在于,所述将所述若干帧语音数据按帧与预置本地语音数据库进行声纹比对,输出各帧语音数据对应的在所述预置本地语音数据库中的最接近的匹配语音数据,包括:
提取所述若干帧语音数据的各帧的声纹特征;
计算所述各帧的声纹特征与所述预置本地语音数据库中的各典型声纹特征的余弦相似度,将余弦相似度最大的典型声纹特征对应的匹配语音数据进行输出。
5.一种离线语音识别装置,其特征在于,包括:
语音分帧单元,用于响应于离线语音识别请求,将接收到的语音数据进行预置帧长的语音分帧处理,得到若干帧待处理语音数据;
声纹比对单元,用于将所述若干帧语音数据按帧与预置本地语音数据库进行声纹比对,输出各帧语音数据对应的在所述预置本地语音数据库中的最接近的匹配语音数据;
显示单元,用于将所述匹配语音数据转换为文本数据,将所述文本数据按语音分帧顺序依次显示。
6.根据权利要求5所述的离线语音识别装置,其特征在于,所述预置帧长为标准的两字词组发音时长。
7.根据权利要求6所述的离线语音识别装置,其特征在于,还包括预处理单元,所述预处理单元用于:
构建所述预置本地语音数据库;
将所述预置本地语音数据库的词组按预置规则进行分类;
提取各类词组的典型声纹特征。
8.根据权利要求7所述的离线语音识别装置,其特征在于,所述声纹比对单元具体用于:
提取所述若干帧语音数据的各帧的声纹特征;
计算所述各帧的声纹特征与所述预置本地语音数据库中的各典型声纹特征的余弦相似度,将余弦相似度最大的典型声纹特征对应的匹配语音数据进行输出。
9.一种离线语音识别方法设备,其特征在于,所述设备包括处理器以及存储器:
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令执行权利要求1-4任一项所述的离线语音识别方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质用于存储程序代码,所述程序代码用于执行权利要求1-4任一项所述的离线语音识别方法。
CN202010129483.0A 2020-02-28 2020-02-28 一种离线语音识别方法、装置和设备 Pending CN111292753A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010129483.0A CN111292753A (zh) 2020-02-28 2020-02-28 一种离线语音识别方法、装置和设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010129483.0A CN111292753A (zh) 2020-02-28 2020-02-28 一种离线语音识别方法、装置和设备

Publications (1)

Publication Number Publication Date
CN111292753A true CN111292753A (zh) 2020-06-16

Family

ID=71028489

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010129483.0A Pending CN111292753A (zh) 2020-02-28 2020-02-28 一种离线语音识别方法、装置和设备

Country Status (1)

Country Link
CN (1) CN111292753A (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1337670A (zh) * 2001-09-28 2002-02-27 北京安可尔通讯技术有限公司 特定人汉语短语语音识别快速方法
CN1741131A (zh) * 2004-08-27 2006-03-01 中国科学院自动化研究所 一种非特定人孤立词语音识别方法及装置
CN105118508A (zh) * 2015-09-14 2015-12-02 百度在线网络技术(北京)有限公司 语音识别方法和装置
CN105740686A (zh) * 2016-01-28 2016-07-06 百度在线网络技术(北京)有限公司 应用的控制方法和装置
CN106558306A (zh) * 2015-09-28 2017-04-05 广东新信通信息系统服务有限公司 用于语音识别的方法、装置和设备
CN107230475A (zh) * 2017-05-27 2017-10-03 腾讯科技(深圳)有限公司 一种语音关键词识别方法、装置、终端及服务器
CN108172214A (zh) * 2017-12-27 2018-06-15 安徽建筑大学 一种基于Mel域的小波语音识别特征参数提取方法
CN109961792A (zh) * 2019-03-04 2019-07-02 百度在线网络技术(北京)有限公司 用于识别语音的方法和装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1337670A (zh) * 2001-09-28 2002-02-27 北京安可尔通讯技术有限公司 特定人汉语短语语音识别快速方法
CN1741131A (zh) * 2004-08-27 2006-03-01 中国科学院自动化研究所 一种非特定人孤立词语音识别方法及装置
CN105118508A (zh) * 2015-09-14 2015-12-02 百度在线网络技术(北京)有限公司 语音识别方法和装置
CN106558306A (zh) * 2015-09-28 2017-04-05 广东新信通信息系统服务有限公司 用于语音识别的方法、装置和设备
CN105740686A (zh) * 2016-01-28 2016-07-06 百度在线网络技术(北京)有限公司 应用的控制方法和装置
CN107230475A (zh) * 2017-05-27 2017-10-03 腾讯科技(深圳)有限公司 一种语音关键词识别方法、装置、终端及服务器
CN108172214A (zh) * 2017-12-27 2018-06-15 安徽建筑大学 一种基于Mel域的小波语音识别特征参数提取方法
CN109961792A (zh) * 2019-03-04 2019-07-02 百度在线网络技术(北京)有限公司 用于识别语音的方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
罗万伯等: "扩展DTW用于连续语音识别的实验", 《第一届全国人机语音通讯学术会议(NCMMSCI1990)论文集》 *

Similar Documents

Publication Publication Date Title
US10777207B2 (en) Method and apparatus for verifying information
CN103077714B (zh) 信息的识别方法和装置
CN103187053B (zh) 输入方法和电子设备
JP2001273283A (ja) 言語を識別しかつ音声再生装置を制御する方法及び通信デバイス
CN111613212A (zh) 语音识别方法、系统、电子设备和存储介质
US20180233134A1 (en) Wfst decoding system, speech recognition system including the same and method for storing wfst data
CN112235470B (zh) 基于语音识别的来电客户跟进方法、装置及设备
CN111445903A (zh) 企业名称识别方法及装置
CN114168710A (zh) 一种会议记录的生成方法、装置、系统、设备及存储介质
CN115309877A (zh) 对话生成方法、对话模型训练方法及装置
CN111079386A (zh) 地址识别方法、装置、设备及存储介质
CN111861596A (zh) 一种文本分类方法和装置
CN115150660A (zh) 一种基于字幕的视频编辑方法和相关设备
CN111128130B (zh) 语音数据处理方法和装置及电子装置
CN111400489B (zh) 对话文本摘要生成方法、装置、电子设备和存储介质
CN111292753A (zh) 一种离线语音识别方法、装置和设备
CN111507114A (zh) 基于反向翻译的口语文本增强方法及系统
CN115831125A (zh) 语音识别方法、装置、设备、存储介质及产品
CN115691503A (zh) 语音识别方法、装置、电子设备和存储介质
CN112652313A (zh) 声纹识别的方法、装置、设备、存储介质以及程序产品
CN111191469A (zh) 大规模语料清洗对齐方法及装置
CN113066506B (zh) 音频数据分离方法、装置、电子设备以及存储介质
CN115482809B (zh) 关键词检索方法、装置、电子设备以及存储介质
CN114510585B (zh) 一种信息表征模型构建方法、信息表征方法
CN113408274B (zh) 训练语言模型的方法和标签设置方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200616

RJ01 Rejection of invention patent application after publication