CN110808032A - 一种语音识别方法、装置、计算机设备及存储介质 - Google Patents

一种语音识别方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN110808032A
CN110808032A CN201910894996.8A CN201910894996A CN110808032A CN 110808032 A CN110808032 A CN 110808032A CN 201910894996 A CN201910894996 A CN 201910894996A CN 110808032 A CN110808032 A CN 110808032A
Authority
CN
China
Prior art keywords
word graph
path
model
word
search result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910894996.8A
Other languages
English (en)
Other versions
CN110808032B (zh
Inventor
李秀丰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN201910894996.8A priority Critical patent/CN110808032B/zh
Priority to PCT/CN2019/116920 priority patent/WO2021051514A1/zh
Publication of CN110808032A publication Critical patent/CN110808032A/zh
Application granted granted Critical
Publication of CN110808032B publication Critical patent/CN110808032B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/081Search algorithms, e.g. Baum-Welch or Viterbi

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本申请属于人工智能技术领域,涉及一种语音识别方法、装置、计算机设备及存储介质,方法包括:获取待识别语音信息;将所述待识别语音信息输入本地的第一词图模型中进行解码搜索,得到第一搜索结果,第一搜索结果包括第一路径以及对应的第一路径分数,第一词图模型包括声学模型、发音词典及第一词图空间;将第一搜索结果输入本地的第二词图模型中进行搜索,得到第二搜索结果,第二搜索结果包括第二路径以及对应第二路径分数,其中,第二词图模型包括第二词图空间,第一词图空间为第二词图空间的子词图空间;根据第二路径分数选择对应的第二路径进行输出。搜索的维度变低,降低词图搜索的量,从而降低搜索的时间,提高语音识别的速度。

Description

一种语音识别方法、装置、计算机设备及存储介质
技术领域
本申请涉及人工智能技术领域,尤其涉及一种语音识别方法、装置、计算机设备及存储介质。
背景技术
N-Gram是大词汇连续语音识别中常用的一种语言模型,对中文而言,我们称之为汉语语言模型(CLM,Chinese Language Model)。汉语语言模型利用上下文中相邻词间的搭配信息,可以实现到汉字的自动转换。
汉语语言模型利用上下文中相邻词间的搭配信息,在需要把连续无空格的拼音、笔划,或代表字母或笔划的数字,转换成汉字串(即句子)时,可以计算出具有最大概率的句子,从而实现到汉字的自动转换,无需用户手动选择,避开了许多汉字对应一个相同的拼音(或笔划串,或数字串)的重码问题。
该模型基于这样一种假设,第N个词的出现只与前面N-1个词相关,而与其它任何词都不相关,整句的概率就是各个词出现概率的乘积,也就是关联N元的上下文。
目前大多主流的语音识别解码器已经采用基于有限状态机(WFST)的解码网络,该解码网络把语言模型、词典和声学共享音字集统一集成为一个大的解码网络,路径搜索时,还需要结合声学解码维度进行搜索,搜索量大。
发明内容
本申请实施例的目的在于提供一种语音识别方法,可以减少解码网络的搜索维度,提高解码网络的搜索速度,进而提高语音识别的速度。
为了解决上述技术问题,本申请实施例提供一种语音识别方法,采用了如下所述的技术方案:
包括下述步骤:
获取待识别语音信息;
将所述待识别语音信息输入本地的第一词图模型中进行解码搜索,得到第一搜索结果,第一搜索结果包括第一路径以及对应的第一路径分数,第一词图模型包括声学模型、发音词典及第一词图空间;
将第一搜索结果输入本地的第二词图模型中进行搜索,得到第二搜索结果,第二搜索结果包括第二路径以及对应第二路径分数,其中,第二词图模型包括第二词图空间,第一词图空间为第二词图空间的子词图空间;
根据所述第二搜索结果中第二路径分数选择对应的第二路径进行输出,得到语音识别结果。
进一步的,所述第一词图模型为配置在本地的至少一个,所述第一词图模型对应设置有语境属性,在所述将所述待识别语音信息输入本地的第一词图模型中进行解码搜索之前,所述方法还包括:
获取用户当前的语境信息;
根据用户当前的语境信息选择对应的第一词图模型对语音信息进行解码搜索。
进一步的,所述第一搜索结果包括至少一个第一路径对应的路径结果,所述方法还包括以下步骤:
通过解码搜索获取第一路径的路径结果以及对应的第一路径分数;
根据所述第一路径分数由高到低依次选取n个路径结果中的m个路径结果进行输出,得到第一搜索结果,其中,m小于等于n。
进一步的,所述第一词图模型的构建包括以下步骤:
从预先构建好的第二词图空间中提取出词图单元,并根据所述词图单元构建第一词图空间;
根据声学模型、发音词典、第一词图空间对所述第一词图模型进行构建。
进一步的,所述第一词图模型的构建还包括以下步骤:
对所述第一词图模型进行训练,训练至损失函数拟合,得到所述第一词图空间中词图单元的权重。
进一步的,所述将第一搜索结果输入本地的第二词图模型中进行搜索的具体包括:
提取第一搜索结果中的词图单元;
将所述第一搜索结果中的词图单元输入到第二词图模型中进行搜索。
进一步的,所述根据第二路径分数选择对应的第二路径进行输出,得到语音识别结果的步骤具体包括:
根据所述第二路径分数的高低对第二路径进行排序;
按排序输出y个第二路径对应的语音识别结果,其中,y大于等于1。
为了解决上述技术问题,本申请实施例还提供一种语音识别装置,包括:
获取模块,用于获取待识别语音信息;
第一搜索模块,用于将所述待识别语音信息输入本地的第一词图模型中进行解码搜索,得到第一搜索结果,第一搜索结果包括第一路径以及对应的第一路径分数,第一词图模型包括声学模型、发音词典及第一词图空间;
第二搜索模块,用于将第一搜索结果输入本地的第二词图模型中进行搜索,得到第二搜索结果,第二搜索结果包括第二路径以及对应第二路径分数,其中,第二词图模型包括第二词图空间,第一词图空间为第二词图空间的子词图空间;
输出模块,用于根据第二路径分数选择对应的第二路径进行输出,得到语音识别结果。
为了解决上述技术问题,本申请实施例还提供一种计算机设备,采用了如下所述的技术方案:
所述计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器执行所述计算机程序时实现本申请实施例中提出的任一项所述的一种语音识别方法的步骤。
为了解决上述技术问题,本申请实施例还提供一种计算机可读存储介质,采用了如下所述的技术方案:
所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现本申请实施例中提出的任一项所述的一种语音识别方法的步骤。
与现有技术相比,本申请实施例主要有以下有益效果:获取待识别语音信息;将所述待识别语音信息输入本地的第一词图模型中进行解码搜索,得到第一搜索结果,第一搜索结果包括第一路径以及对应的第一路径分数,第一词图模型包括声学模型、发音词典及第一词图空间;将第一搜索结果输入本地的第二词图模型中进行搜索,得到第二搜索结果,第二搜索结果包括第二路径以及对应第二路径分数,其中,第二词图模型包括第二词图空间,第一词图空间为第二词图空间的子词图空间;根据第二路径分数选择对应的第二路径进行输出,得到语音识别结果。通过将待识别语音信息输入一个小的词图模型中进行声学解码以及搜索,再将搜索结果直接输入到较大的词图模型中进行搜索,二次搜索过程无需再进行声学解码,可以使搜索的维度变低,有效降低词图搜索的量,从而降低搜索的时间,提高语音识别的速度。
附图说明
为了更清楚地说明本申请中的方案,下面将对本申请实施例描述中所需要使用的附图作一个简单介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请可以应用于其中的示例性系统架构示意图;
图2是本申请的一种语音识别方法的流程示意图;
图3是本申请的另一种语音识别方法的流程示意图;
图4是本申请图2实施例中步骤202的具体流程示意图;
图5是本申请的一种第一词图模型构建的流程示意图;
图6是本申请的另一种第一词图模型构建的流程示意图;
图7是本申请图2实施例中步骤203的具体流程示意图;
图8是本申请图2实施例中步骤204的具体流程示意图;
图9是本申请的一种语音识别装置的结构示意图;
图10是本申请的另一种语音识别装置的结构示意图;
图11是第一搜索模块902的具体结构示意图;
图12是本申请的另一种语音识别装置的结构示意图;
图13是第一词图模型构建模块907的具体结构示意图;
图14是第二搜索模块903的具体结构示意图;
图15是输出模块904的具体结构示意图;
图16是本申请的一种计算机设备基本结构框图。
具体实施方式
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同;本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本申请;本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含。本申请的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
为了使本技术领域的人员更好地理解本申请方案,下面将结合附图,对本申请实施例中的技术方案进行清楚、完整地描述。
如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯用户端应用,例如网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱用户端、社交平台软件等。
终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器(Moving PictureExpertsGroup Audio Layer III,动态影像专家压缩标准音频层面3)、MP4(MovingPictureExperts Group Audio Layer IV,动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。
服务器105可以是提供各种服务的服务器,例如对终端设备101、102、103上显示的页面提供支持的后台服务器。
需要说明的是,本申请实施例所提供的一种语音识别方法一般由终端设备执行,相应地,一种语音识别装置一般设置于终端设备中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的,根据实现需要,可以具有任意数目的终端设备、网络和服务器。
继续参考图2,示出了根据本申请的一种语音识别方法的一个实施例的流程图。上述的一种语音识别方法,包括以下步骤:
步骤201,获取待识别语音信息。
在本实施例中,一种语音识别方法运行于其上的电子设备(例如图1所示的终端设备)可以通过有线连接方式或者无线连接方式获取待识别语音信息。需要指出的是,上述无线连接方式可以包括但不限于3G/4G连接、WiFi(Wireless-Fidelity)连接、蓝牙连接、WiMAX(Worldwide Interoperability for Microwave Access)连接、Zigbee连接、UWB(ultra wideband)连接、以及其他现在已知或将来开发的无线连接方式。
其中,上述的待识别语音信息可以通过麦克风进行采集,麦克风可以是以外设的形式进行设置,也可以是设备中内置的麦克风,比如,设置在录音笔、手机、平板、MP4、笔记本等设备内的麦克风。或者,上述的待识别语音信息也可以是通过用户进行上传得到,比如,将采集到语音存放在存储设备中,通过读取存储设备中的数据得到对应的语音信息。又或者,上述的待识别语音信息还可以是用户通过社交软件交流时所获取到的对方的语音信息。
在一种可能的实现方式中,待识别语音信息还可以是经过域转换的语音信息,比如,已经通过时域转换为频域的语音信息。
上述的语音信息也可以称为语音信号或语音数据。
步骤202,将所述待识别语音信息输入本地的第一词图模型中进行解码搜索,得到第一搜索结果,第一搜索结果包括第一路径以及对应的第一路径分数,第一词图模型包括声学模型、发音词典及第一词图空间。
其中,上述的本地可以是Linux系统下的离线环境,该离线环境中还可以配置其他场景的离线语音工具,上述的待识别语音信息为步骤201中的获取的待识别语音信息,上述的第一词图模型为本地的词图模型,将第一词图模型配置在本地,可以不通过网络就可以对语音信息进行解码,从而提高了语音识别的速度。第一词图模型可以是基于wfst的词图模型,第一词图模型中包括声学模型、发音词典及第一词图空间,上述的声学模型可以对用户语音信息进行声学解码,使语音信息解码形成音素单元,上述的发音词典用于将音素单元进行组合,形成音素词,上述的第一词图空间中,各音素词连接成路径,形成语言单元。通过第一词图模型对待识别语音信息进行解码搜索,第一搜索结果为第一词图空间中得到的搜索结果,第一搜索结果包括多个第一路径,每条路径包括对应的路径分数,路径分数用于表示该条路径的可信程度,分数越高,则表示该条路径越可信。
其中,路径为各音素词的连接及连接权重,比如:
今天(权重0.9)天气(权重0.8)怎么样(0.9),该路径评分为所有权重的积,0.9*0.8*0.9=0.648
近天(权重0.3)天气(权重0.2)怎么样(权重0.8),该路径评分为所有权重的积,0.3*0.2*0.8=0.048。
上述的权重由对第一词图模型进行训练得到,训练语料可以是网上公开的训练语料,比如《人民日报》2000年到2012年的全部训练语料。
步骤203,将第一搜索结果输入本地的第二词图模型中进行搜索,得到第二搜索结果,第二搜索结果包括第二路径以及对应第二路径分数,其中,第二词图模型包括第二词图空间,第一词图空间为第二词图空间的子词图空间。
在本实施例中,第一搜索结果可以是步骤202中的第一搜索结果,也可以是nbest结果。需要说明的是,第二词图模型中不配置声学模型与词典,使用第一词图模型的第一搜索结果做为输入,可以省去声学解码的过程,第二词图模型可以为本地的词图模型,将第二词图模型配置在本地,可以不用通过网络就可以对语音信息进行识别,从而提高了语音识别的速度。第二词图模型可以是基于wfst的词图模型,第二词图模型中的第二词图空间可以是静态词图空间,上述的静态词图空间表示已经训练好的,音素词权重不变的词图空间,通过静态词图网络对第一搜索结果进行搜索,第二搜索结果为第二词图模型中得到的搜索结果,第二搜索结果包括多个第二路径,每条路径包括对应的路径分数,路径分数用于表示该条路径的可信程度,分数越高,则表示该条路径越可信。路径分数为该路径中音素词权重的积,上述音素词权重可以通过对第二词图模型进行训练,直到损失函数拟合,即可得到音素词的权重。
可选的,第二词图模型中的第二词图空间可以用户进行整理得到,即第二词图模型中的第二词图空间可以小于传统的词图网络,降低词图网络的复杂度,从而提高解码搜索的速度,提高解码的实时率。
步骤204,根据第二搜索结果中的第二路径分数选择对应的第二路径进行输出,得到语音识别结果。
在本实施例中,第二路径包括音素词组成的完整语句以及对应的路径分数,路径分数用来表示该语句的可信度,路径分数越高,则语句为语音信息的真实内容的可信度越高。可以选取路径分数最高的第二路径所对应的完整语句进行输出,从而得到一个语音识别结果。另外,也可以选取多个路径分数较高的第二路径所对应的完整语句进行输出,从而得到多个语音识别结果进行输出,用户可以从多个语音识别结果中进行选取。
在本实施例中,获取待识别语音信息;将待识别语音信息输入本地的第一词图模型中进行解码搜索,得到第一搜索结果,第一搜索结果包括第一路径以及对应的第一路径分数,第一词图模型包括声学模型、发音词典及第一词图空间;将第一搜索结果输入本地的第二词图模型中进行搜索,得到第二搜索结果,第二搜索结果包括第二路径以及对应第二路径分数,其中,第二词图模型包括第二词图空间,第一词图空间为第二词图空间的子词图空间;根据第二路径分数选择对应的第二路径进行输出,得到语音识别结果。通过将待识别语音信息输入一个小的词图模型中进行声学解码以及搜索,再将搜索结果直接输入到较大的词图模型中进行搜索,二次搜索过程无需再进行声学解码,可以使搜索的维度变低,有效降低词图搜索的量,从而降低搜索的时间,提高语音识别的速度。
进一步的,如图3所示,在步骤202之前,上述语音识别方法还包括:
步骤301,获取用户当前的语境信息。
上述当前的语境信息可以根据时间进行确定,比如在9点到17点为工作时间,则可以确定语境为工作语境,在周未,则可以确定为休假语境,在22点以后8点之前,则可以确定为休息语境。也可以根据待识别语音的获取来进行确定,比如待识别语音由微信好友处获取,则可以确定为朋友聊天语境,待识别语音由微信或其他社交软件中备注为客户的用户处获取,则可以确定为工作语境。在一种可能的实施方式中,用户的语境也可以由用户自动进行确定,通过用户自行选取语境,得到的语境信息更精确。
步骤302,根据用户当前的语境信息选择对应的第一词图模型对语音信息进行解码搜索。
在本实施例中,上述的第一词图模型可以是具有语境属性的第一词图模型,每个第一词图模型对应一个或多个语境属性,可以通过步骤301中获取到的语境信息匹配对应的第一词图模型。通过语境信息匹配到对应的第一词图模型,可以使第一词图模型所得到的结果更贴合语境,提高精准度。
进一步的,如图4所示,上述第一搜索结果为至少一个路径的路径结果,将所述待识别语音信息输入本地的第一词图模型中进行解码搜索,得到第一搜索结果的步骤具体包括:
步骤401,通过解码搜索获取第一路径的路径结果以及对应的第一路径分数。
步骤402,根据第一路径分数由高到低依次选取n个路径结果中的m个路径结果进行输出,得到第一搜索结果,其中,m小于等于n。
本实施例中,通过对语音信息在第一词图模型中进行解码搜索,可以得到第一词图模型下的搜索结果(第一路径)的评分,即是对至少一个第一路径评分,具体的,n个搜索结果(第一路径)对应有n个评分,得到根据评分排序的nbest结果做为第一搜索结果。
例如:对待识别语音信息为“今天天气怎么样”在第一词图模型中的进行搜索,这样经过第一词图模型解码后会给出200个nbest的解码结果:
今天天气怎么样
近天天气怎么样
今天填起怎么样
假设一共200个nbest结果;
通过第一词图模型得到200个nbest(200best)结果,则可以选取100个或者全部200个nbest结果做为第一搜索结果。此时,n为200,m为100。
在一种可能的实现方式,可以将第一搜索结果按nbest打分进行排序,即将第一路径分数最高对应的搜索结果排在前面。
本实施例中,通过取nbest结果中的m个第一搜索结果,作为第二词图模型的输入,可以减少第二词图模型的输入量。
进一步的,如图5所示,上述第一词图模型的构建包括以下步骤:
步骤501,从预先构建好的第二词图空间中提取出词图单元,并根据所述词图单元构建第一词图空间。
步骤502,根据声学模型、发音词典、第一词图空间对所述第一词图模型进行构建。
其中,第二词图模型中的第二词图空间可以是通过本地词典进行配置,也可以是预先下载到本地的词图空间。词图单元可以包括语言单元及对应的权重,语言单元可以理解为第一搜索结果中的音素词。在一种可能的实现方式中,词图单元还可以理解为词图路径。具体的,可以根据第二词图中的语境属性,在第二词图空间中提取出具有各语境属性词图单元构建不同语境的第一词图空间,可以使语音信息在第一词图模型中进行搜索解码的范围变小,从而提高第一词图模型对语音信息解码的速度。以上步骤可以理解为对第二词图空间进行剪枝得到第一词图空间。需要理解的是,上述第一词图模型的数量可以是一个或多个。
另外,在另一种可能的实现方式中,可以对第一词图空间进行增枝,增加相近语境属性的词图单元,使第一词图空间扩展成为第二词图空间。
另外,需要说明的是,剪枝后得到的第一词图空间中的各语言单元的权重会随着模型训练而发生变化,相同的语言单元的权重,在第一词图空间与第二词图空间的权重是不相同的。同样的,增枝后得到第二词图空间中的各语言单元的权重与第一词图空间中相同的语言单元的权重也是不相同的。即是,相同的路径在第一词图模型与第二词图模型进行搜索,得到的路径评分不同。比如:
第一词图模型中,今天(权重0.9)天气(权重0.8)怎么样(0.9),该路径评分为所有权重的积,0.9*0.8*0.9=0.648
第二词图模型中,今天(权重0.99)天气(权重0.98)怎么样(0.99),该路径评分为所有权重的积,0.9*0.8*0.9=0.960498。
在本实施例中,通过从第二词图空间中提取中具有相同属性的词图单元来对第一词图空间进行构建,可以避免第一搜索结果与第二词图模型不匹配,造成误识别。
进一步的,如图6所示,上述第一词图模型的构建还包括以下步骤:
步骤601,对第一词图模型进行训练,训练至损失函数拟合,得到第一词图空间中词图单元的权重。
其中,当词图单元为语言单元时,可以将构建第一词图模型的语言单元按第二词图模型中的词图组合关系进行组合,可以通过训练第一词图模型来调整语言单元间的权重。得到新的词图空间做为第一词图模型的词图空间。当词图单元为第二路径时,可以通过训练第一词图模型来调整第一词图路径的评分结果。
在本实施例中,在通过提取第二词图空间中的词图单元构建第一词图空间时,可以通过对第一词图模型进行训练,从而使第一词图模型的识别精确度提高,另外,不会受到第二词图空间影响。
进一步的,如图7所示,步骤203具体包括:
步骤701,提取第一搜索结果中的词图单元。
步骤702,将第一搜索结果中的词图单元输入到第二词图模型中进行搜索。
在本实施例中,当词图单元为语言单元时,可以将语言单元输入到第二词图模型中进行搜索,得到第二词图模型中对应词图单元的第二词图路径及对应的路径评分。当词图单元为第一词图路径时,在第二词图模型中对第一词图路径进行分解,得到语言单元,再将语言单元在第二词图空间中进行路径搜索,得到第二词图路径及对应的路径评分。另外,在词图单元为第一词图路径时,将这些第一词图路径输入到第二词图模型中,与第二词图模型的第二词图空间中的第二词图路径进行匹配,由于第一词图空间与第二词图空间中相同路径可能拥有不同的路径评分,相当于在第二词图空间中对第一搜索结果进行广域验证,保证了语音识别结果的精度。
在本实施例中,以词图单元的形式将第一搜索结果在第二词图空间中进行搜索,不用再对待识别语音信息进行声学解码,降低了搜索维度,从而提高了语音识别的速度。
更进一步的,如图8所示,上述步骤204具体包括:
步骤801,根据所述第二路径分数的高低对第二路径进行排序。
步骤802,按排序输出y个第二路径对应的语音识别结果,其中,y大于等于1。
其中,可以将评分高的第二路径排在前面,将评分低的排在后面。这样,在选择输出的第二词图路径对应的完整语句会比较直观,比如只选择一个进行输出的情况下,可以将排在最前面的一个第二词图路径对应的完整语句提取出来进行输出,在选择多个进行输出的情况下,可以将排在前面的几个提取出来进行输出,以供用户对输出结果进行选取。
在本实施例中,对第二路径进行排序后再输出,根据排序输出的完整语句,可以使输出的语音识别结果更方便直观。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)等非易失性存储介质,或随机存储记忆体(Random Access Memory,RAM)等。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
进一步参考图9,作为对上述图2所示方法的实现,本申请提供了一种语音识别装置的一个实施例,该装置实施例与图2所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
如图9所示,本实施例的一种语音识别装置900包括:第一获取模块901、第一搜索模块902、第二搜索模块903、输出模块904。其中:
第一获取模块901,用于获取待识别语音信息;
第一搜索模块902,用于将所述待识别语音信息输入本地的第一词图模型中进行解码搜索,得到第一搜索结果,第一搜索结果包括第一路径以及对应的第一路径分数,第一词图模型包括声学模型、发音词典及第一词图空间;
第二搜索模块903,用于将第一搜索结果输入本地的第二词图模型中进行搜索,得到第二搜索结果,第二搜索结果包括第二路径以及对应第二路径分数,其中,第二词图模型包括第二词图空间,第一词图空间为第二词图空间的子词图空间;
输出模块904,用于根据第二路径分数选择对应的第二路径进行输出,得到语音识别结果。
进一步的,参阅图10,所述第一词图模型为配置在本地的至少一个第一词图模型,所述语音识别装置900还包括:第二获取模块905和选择模块906。
其中,
第二获取模块905,用于获取用户当前的语境信息;
选择模块906,用于根据用户当前的语境信息选择对应的第一词图模型对语音信息进行解码搜索。
进一步的,参阅图11,所述第一搜索结果为至少一个路径的路径结果,所述第一搜索模块902包括:解码搜索单元9021、输出单元9022。其中,
解码搜索单元9021,用于通过解码搜索获取第一路径的路径结果以及对应的第一路径分数;
第一输出单元9022,用于根据所述第一路径分数由高到低依次选取n个路径结果中的m个路径结果进行输出,得到第一搜索结果,其中,m小于等于n。
进一步的,参阅图12,语音识别装置900还包括第一词图模型构建模块907,所述第一词图模型构建模块907包括;第一提取单元9071、构建单元9072。其中:
第一提取单元9071,用于从预先构建好的第二词图空间中提取出词图单元,并根据所述词图单元构建第一词图空间;
构建单元9072,用于根据声学模型、发音词典、第一词图空间对所述第一词图模型进行构建。
进一步的,参阅图13,所述第一词图模型构建模块907还包括训练单元9073。其中:
训练单元9073,对所述第一词图模型进行训练,训练至损失函数拟合,得到所述第一词图空间中词图单元的权重。
进一步的,参阅图14,所述第二搜索模块903包括:第二提取单元9031、输入单元9032。其中:
第二提取单元9031,用于提取第一搜索结果中的词图单元;
输入单元9032,用于将所述第一搜索结果中的词图单元输入到第二词图模型中进行搜索。
进一步的,参阅图15,所述输出模块904包括:排序单元9041、第二输出单元9042。其中:
排序单元9041,用于根据所述第二路径分数的高低对第二路径进行排序;
第二输出单元9042,用于按排序输出y个第二路径对应的语音识别结果,其中,y大于等于1。
本申请实施例提供的一种语音识别装置能够实现图2至图8的方法实施例中的各个实施方式,以及相应有益效果,为避免重复,这里不再赘述。
为解决上述技术问题,本申请实施例还提供计算机设备。具体请参阅图16,图16为本实施例计算机设备基本结构框图。
计算机设备16括通过系统总线相互通信连接存储器161、处理器162、网络接口163。需要指出的是,图中仅示出了具有组件161-163的计算机设备16,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。其中,本技术领域技术人员可以理解,这里的计算机设备是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路(ApplicationSpecific Integrated Circuit,ASIC)、可编程门阵列(Field-Programmable GateArray,FPGA)、数字处理器(Digital Signal Processor,DSP)、嵌入式设备等。
计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。
存储器161至少包括一种类型的可读存储介质,可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,存储器161可以是计算机设备16的内部存储单元,例如该计算机设备16的硬盘或内存。在另一些实施例中,存储器161也可以是计算机设备16的外部存储设备,例如该计算机设备16上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。当然,存储器161还可以既包括计算机设备16的内部存储单元也包括其外部存储设备。本实施例中,存储器161通常用于存储安装于计算机设备16的操作系统和各类应用软件,例如一种语音识别方法的程序代码等。此外,存储器161还可以用于暂时地存储已经输出或者将要输出的各类数据。
处理器162在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器162通常用于控制计算机设备16的总体操作。本实施例中,处理器162用于运行存储器161中存储的程序代码或者处理数据,例如运行一种语音识别方法的程序代码。
网络接口163可包括无线网络接口或有线网络接口,该网络接口163通常用于在计算机设备16与其他电子设备之间建立通信连接。
本申请还提供了另一种实施方式,即提供一种计算机可读存储介质,计算机可读存储介质存储有一种语音识别程序,上述一种语音识别程序可被至少一个处理器执行,以使至少一个处理器执行如上述的一种语音识别方法的步骤。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本申请各个实施例的一种语音识别方法。
显然,以上所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例,附图中给出了本申请的较佳实施例,但并不限制本申请的专利范围。本申请可以以许多不同的形式来实现,相反地,提供这些实施例的目的是使对本申请的公开内容的理解更加透彻全面。尽管参照前述实施例对本申请进行了详细的说明,对于本领域的技术人员来而言,其依然可以对前述各具体实施方式所记载的技术方案进行修改,或者对其中部分技术特征进行等效替换。凡是利用本申请说明书及附图内容所做的等效结构,直接或间接运用在其他相关的技术领域,均同理在本申请专利保护范围之内。

Claims (10)

1.一种语音识别方法,其特征在于,包括下述步骤:
获取待识别语音信息;
将所述待识别语音信息输入本地的第一词图模型中进行解码搜索,得到第一搜索结果,所述第一搜索结果包括第一路径以及对应的第一路径分数,所述第一词图模型包括声学模型、发音词典及第一词图空间;
将所述第一搜索结果输入本地的第二词图模型中进行搜索,得到第二搜索结果,所述第二搜索结果包括第二路径以及对应第二路径分数,其中,所述第二词图模型包括第二词图空间,所述第一词图空间为第二词图空间的子词图空间;
根据所述第二搜索结果中第二路径分数选择对应的第二路径进行输出,得到语音识别结果。
2.根据权利要求1所述的语音识别方法,其特征在于,所述第一词图模型为配置在本地的至少一个第一词图模型,所述第一词图模型对应训练有语境属性,在所述将所述待识别语音信息输入本地的第一词图模型中进行解码搜索的步骤之前,所述方法还包括:
获取用户当前的语境信息;
根据用户当前的语境信息选择对应的第一词图模型对语音信息进行解码搜索。
3.根据权利要求1所述的语音识别方法,其特征在于,所述第一搜索结果包括至少一个第一路径的路径结果,所述将所述待识别语音信息输入本地的第一词图模型中进行解码搜索,得到第一搜索结果的步骤包括:
通过解码搜索获取第一路径的路径结果以及对应的第一路径分数;
根据所述第一路径分数由高到低依次选取n个路径结果中的m个路径结果进行输出,得到第一搜索结果,其中,m小于等于n。
4.根据权利要求1所述的语音识别方法,其特征在于,所述第一词图模型的构建包括以下步骤:
从预先构建好的第二词图空间中提取出词图单元,并根据所述词图单元构建第一词图空间;
根据声学模型、发音词典、第一词图空间对所述第一词图模型进行构建。
5.根据权利要求4所述的语音识别方法,其特征在于,所述第一词图模型的构建还包括以下步骤:
对所述第一词图模型进行训练,训练至损失函数拟合,得到所述第一词图空间中词图单元的权重。
6.根据权利要求1所述的语音识别方法,其特征在于,所述将所述第一搜索结果输入本地的第二词图模型中进行搜索的具体包括:
提取第一搜索结果中的词图单元;
将所述第一搜索结果中的词图单元输入到第二词图模型中进行搜索。
7.根据权利要求1至6中任一所述的语音识别方法,其特征在于,所述根据所述第二路径分数选择对应的第二路径进行输出,得到语音识别结果的步骤具体包括:
根据所述第二路径分数的高低对第二路径进行排序;
按排序输出y个第二路径对应的语音识别结果,其中,y大于等于1。
8.一种语音识别装置,其特征在于,包括:
获取模块,用于获取待识别语音信息;
第一搜索模块,用于将所述待识别语音信息输入本地的第一词图模型中进行解码搜索,得到第一搜索结果,第一搜索结果包括第一路径以及对应的第一路径分数,第一词图模型包括声学模型、发音词典及第一词图空间;
第二搜索模块,用于将第一搜索结果输入本地的第二词图模型中进行搜索,得到第二搜索结果,第二搜索结果包括第二路径以及对应第二路径分数,其中,第二词图模型包括第二词图空间,第一词图空间为第二词图空间的子词图空间;
输出模块,用于根据第二路径分数选择对应的第二路径进行输出,得到语音识别结果。
9.一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述的语音识别方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的语音识别方法的步骤。
CN201910894996.8A 2019-09-20 2019-09-20 一种语音识别方法、装置、计算机设备及存储介质 Active CN110808032B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201910894996.8A CN110808032B (zh) 2019-09-20 2019-09-20 一种语音识别方法、装置、计算机设备及存储介质
PCT/CN2019/116920 WO2021051514A1 (zh) 2019-09-20 2019-11-10 一种语音识别方法、装置、计算机设备及非易失性存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910894996.8A CN110808032B (zh) 2019-09-20 2019-09-20 一种语音识别方法、装置、计算机设备及存储介质

Publications (2)

Publication Number Publication Date
CN110808032A true CN110808032A (zh) 2020-02-18
CN110808032B CN110808032B (zh) 2023-12-22

Family

ID=69487614

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910894996.8A Active CN110808032B (zh) 2019-09-20 2019-09-20 一种语音识别方法、装置、计算机设备及存储介质

Country Status (2)

Country Link
CN (1) CN110808032B (zh)
WO (1) WO2021051514A1 (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111341305A (zh) * 2020-03-05 2020-06-26 苏宁云计算有限公司 一种音频数据标注方法、装置及系统
CN111681661A (zh) * 2020-06-08 2020-09-18 北京有竹居网络技术有限公司 语音识别的方法、装置、电子设备和计算机可读介质
CN111916058A (zh) * 2020-06-24 2020-11-10 西安交通大学 一种基于增量词图重打分的语音识别方法及系统
CN112560496A (zh) * 2020-12-09 2021-03-26 北京百度网讯科技有限公司 语义分析模型的训练方法、装置、电子设备及存储介质
CN113223495A (zh) * 2021-04-25 2021-08-06 北京三快在线科技有限公司 一种基于语音识别的异常检测方法及装置
CN113643706A (zh) * 2021-07-14 2021-11-12 深圳市声扬科技有限公司 语音识别方法、装置、电子设备及存储介质
WO2022227935A1 (zh) * 2021-04-26 2022-11-03 腾讯科技(深圳)有限公司 语音识别方法、装置、设备、存储介质及程序产品

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050182628A1 (en) * 2004-02-18 2005-08-18 Samsung Electronics Co., Ltd. Domain-based dialog speech recognition method and apparatus
US20140019131A1 (en) * 2012-07-13 2014-01-16 Korea University Research And Business Foundation Method of recognizing speech and electronic device thereof
CN106328147A (zh) * 2016-08-31 2017-01-11 中国科学技术大学 语音识别方法和装置
CN106782513A (zh) * 2017-01-25 2017-05-31 上海交通大学 基于置信度的语音识别实现方法及系统
CN106856092A (zh) * 2015-12-09 2017-06-16 中国科学院声学研究所 基于前向神经网络语言模型的汉语语音关键词检索方法
CN108305634A (zh) * 2018-01-09 2018-07-20 深圳市腾讯计算机系统有限公司 解码方法、解码器及存储介质
CN110070859A (zh) * 2018-01-23 2019-07-30 阿里巴巴集团控股有限公司 一种语音识别方法及装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102592595B (zh) * 2012-03-19 2013-05-29 安徽科大讯飞信息科技股份有限公司 语音识别方法及系统
CN107195296B (zh) * 2016-03-15 2021-05-04 阿里巴巴集团控股有限公司 一种语音识别方法、装置、终端及系统
US10032451B1 (en) * 2016-12-20 2018-07-24 Amazon Technologies, Inc. User recognition for speech processing systems
CN109036391B (zh) * 2018-06-26 2021-02-05 华为技术有限公司 语音识别方法、装置及系统
CN108510990A (zh) * 2018-07-04 2018-09-07 百度在线网络技术(北京)有限公司 语音识别方法、装置、用户设备及存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050182628A1 (en) * 2004-02-18 2005-08-18 Samsung Electronics Co., Ltd. Domain-based dialog speech recognition method and apparatus
US20140019131A1 (en) * 2012-07-13 2014-01-16 Korea University Research And Business Foundation Method of recognizing speech and electronic device thereof
CN106856092A (zh) * 2015-12-09 2017-06-16 中国科学院声学研究所 基于前向神经网络语言模型的汉语语音关键词检索方法
CN106328147A (zh) * 2016-08-31 2017-01-11 中国科学技术大学 语音识别方法和装置
CN106782513A (zh) * 2017-01-25 2017-05-31 上海交通大学 基于置信度的语音识别实现方法及系统
CN108305634A (zh) * 2018-01-09 2018-07-20 深圳市腾讯计算机系统有限公司 解码方法、解码器及存储介质
CN110070859A (zh) * 2018-01-23 2019-07-30 阿里巴巴集团控股有限公司 一种语音识别方法及装置

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111341305A (zh) * 2020-03-05 2020-06-26 苏宁云计算有限公司 一种音频数据标注方法、装置及系统
CN111341305B (zh) * 2020-03-05 2023-09-26 苏宁云计算有限公司 一种音频数据标注方法、装置及系统
CN111681661A (zh) * 2020-06-08 2020-09-18 北京有竹居网络技术有限公司 语音识别的方法、装置、电子设备和计算机可读介质
CN111681661B (zh) * 2020-06-08 2023-08-08 北京有竹居网络技术有限公司 语音识别的方法、装置、电子设备和计算机可读介质
CN111916058A (zh) * 2020-06-24 2020-11-10 西安交通大学 一种基于增量词图重打分的语音识别方法及系统
CN112560496A (zh) * 2020-12-09 2021-03-26 北京百度网讯科技有限公司 语义分析模型的训练方法、装置、电子设备及存储介质
CN112560496B (zh) * 2020-12-09 2024-02-02 北京百度网讯科技有限公司 语义分析模型的训练方法、装置、电子设备及存储介质
CN113223495A (zh) * 2021-04-25 2021-08-06 北京三快在线科技有限公司 一种基于语音识别的异常检测方法及装置
CN113223495B (zh) * 2021-04-25 2022-08-26 北京三快在线科技有限公司 一种基于语音识别的异常检测方法及装置
WO2022227935A1 (zh) * 2021-04-26 2022-11-03 腾讯科技(深圳)有限公司 语音识别方法、装置、设备、存储介质及程序产品
CN113643706A (zh) * 2021-07-14 2021-11-12 深圳市声扬科技有限公司 语音识别方法、装置、电子设备及存储介质
CN113643706B (zh) * 2021-07-14 2023-09-26 深圳市声扬科技有限公司 语音识别方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
WO2021051514A1 (zh) 2021-03-25
CN110808032B (zh) 2023-12-22

Similar Documents

Publication Publication Date Title
CN110808032B (zh) 一种语音识别方法、装置、计算机设备及存储介质
CN107134279B (zh) 一种语音唤醒方法、装置、终端和存储介质
CN110674271B (zh) 一种问答处理方法及装置
CN111241237B (zh) 一种基于运维业务的智能问答数据处理方法及装置
CN111223498A (zh) 情绪智能识别方法、装置及计算机可读存储介质
CN112395385B (zh) 基于人工智能的文本生成方法、装置、计算机设备及介质
CN110277088B (zh) 智能语音识别方法、装置及计算机可读存储介质
CN111833845A (zh) 多语种语音识别模型训练方法、装置、设备及存储介质
CN111695338A (zh) 基于人工智能的面试内容精炼方法、装置、设备及介质
US20130173251A1 (en) Electronic device and natural language analysis method thereof
CN115309877A (zh) 对话生成方法、对话模型训练方法及装置
WO2021139076A1 (zh) 智能化文本对话生成方法、装置及计算机可读存储介质
CN111126084B (zh) 数据处理方法、装置、电子设备和存储介质
CN112489634A (zh) 语言的声学模型训练方法、装置、电子设备及计算机介质
CN115438149A (zh) 一种端到端模型训练方法、装置、计算机设备及存储介质
CN117271736A (zh) 一种问答对的生成方法和系统、电子设备及存储介质
CN114706973A (zh) 抽取式文本摘要生成方法、装置、计算机设备及存储介质
CN113326696B (zh) 文本生成方法和装置
CN112417875A (zh) 配置信息的更新方法、装置、计算机设备及介质
CN116881446A (zh) 一种语义分类方法、装置、设备及其存储介质
CN112784599B (zh) 诗句的生成方法、装置、电子设备和存储介质
CN114781358A (zh) 基于强化学习的文本纠错方法、装置、设备及存储介质
JP5293607B2 (ja) 略語生成装置およびプログラム、並びに、略語生成方法
CN114758649A (zh) 一种语音识别方法、装置、设备和介质
CN114218356A (zh) 基于人工智能的语义识别方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40019506

Country of ref document: HK

SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant