CN108288467A - 一种语音识别方法、装置及语音识别引擎 - Google Patents
一种语音识别方法、装置及语音识别引擎 Download PDFInfo
- Publication number
- CN108288467A CN108288467A CN201710425219.XA CN201710425219A CN108288467A CN 108288467 A CN108288467 A CN 108288467A CN 201710425219 A CN201710425219 A CN 201710425219A CN 108288467 A CN108288467 A CN 108288467A
- Authority
- CN
- China
- Prior art keywords
- self
- model
- decoded
- new
- decoding
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 71
- 239000000463 material Substances 0.000 claims abstract description 70
- 238000012545 processing Methods 0.000 claims abstract description 24
- 230000002045 lasting effect Effects 0.000 claims abstract description 16
- 238000003860 storage Methods 0.000 claims description 17
- 238000004891 communication Methods 0.000 claims description 16
- 238000004590 computer program Methods 0.000 claims description 15
- 239000003550 marker Substances 0.000 claims description 14
- 238000007418 data mining Methods 0.000 claims description 10
- 238000010276 construction Methods 0.000 claims description 5
- 230000005236 sound signal Effects 0.000 claims description 3
- 230000008569 process Effects 0.000 description 24
- 238000010586 diagram Methods 0.000 description 20
- 239000000243 solution Substances 0.000 description 9
- 235000012054 meals Nutrition 0.000 description 6
- 230000007704 transition Effects 0.000 description 6
- 230000000694 effects Effects 0.000 description 5
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000003068 static effect Effects 0.000 description 3
- 230000008878 coupling Effects 0.000 description 2
- 235000013399 edible fruits Nutrition 0.000 description 2
- 230000003203 everyday effect Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 238000012905 input function Methods 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 230000009191 jumping Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- KLDZYURQCUYZBL-UHFFFAOYSA-N 2-[3-[(2-hydroxyphenyl)methylideneamino]propyliminomethyl]phenol Chemical compound OC1=CC=CC=C1C=NCCCN=CC1=CC=CC=C1O KLDZYURQCUYZBL-UHFFFAOYSA-N 0.000 description 1
- 241000209140 Triticum Species 0.000 description 1
- 235000021307 Triticum Nutrition 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 201000001098 delayed sleep phase syndrome Diseases 0.000 description 1
- 208000033921 delayed sleep phase type circadian rhythm sleep disease Diseases 0.000 description 1
- 238000000151 deposition Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000006386 memory function Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000005303 weighing Methods 0.000 description 1
- 239000002023 wood Substances 0.000 description 1
- 239000012224 working solution Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/34—Adaptation of a single recogniser for parallel processing, e.g. by use of multiple processors or cloud computing
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Mathematical Physics (AREA)
- Theoretical Computer Science (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Telephonic Communication Services (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明实施例公开了一种语音识别方法,包括:在持续获取语音信号的过程中,获取当前账户对应的自定义语料;对所述自定义语料进行分析处理,构建相应的至少一个自定义解码模型;将所述至少一个自定义解码模型加载到预先存储的通用解码模型中,生成新的解码模型;对所述语音信号采用所述新的解码模型进行解码,获得语音识别结果。本发明实施例同时还提供一种语音识别装置及语音识别引擎。
Description
技术领域
本发明涉及自动语音识别(ASR,Automatic Speech Recognition)技术领域,尤其涉及ー种语音识别方法、装置及语音识别引擎。
背景技术
ASR技术是将人类的语音中的词汇内容转换为计算机可读的输入字符的ー项技木。语音识别具有复杂的处理流程,主要包括声学模型训练、语言模型训练、解码资源网络构建以及解码四个过程。
目前,现有的语音识别方案,主要是通过计算语音信号基于文字的最大后验概率来获得,一般分为动态解码和静态解码两种解码方式。基于静态解码的语音识别解决方案主要是基于有限状态转换器(FST,Finite State Transducer)网络来实现的,例如,采用加权有限状态转换器(WFST,Weighted Finite State Transducer)网络将语音识别过程中的大部分组件,包括发音字典,声学模型,语法信息等进行整合,得到一张有限状态转移图,然后,通过解码令牌(Token)在该有限状态转移图中搜索,来得到最优的语音识别结果。
然而,由于上述整合后的有限状态转移图是固定的,所以,一旦生成有限状态转移图,就无法进行修改;又因为每个用户所说语音的内容是天差地别的,具体到算法上来说,就是每个用户的语言模型是不同的,声学模型由于口音的差异也是有所不同,所以,每个用户对应的有限状态转移图也是不同的。那么,为了匹配所有用户,就需要针对每个用户生成一张有限状态转移图,但是,在存储资源有限的情况下,针对每个用户存储一张有限状态转移图往往是无法实现的,而通常只是存储针对常用说话识别的有限状态转移图,这样,每个用户都是在同一张图上完成语音搜索的,往往会产生数据偏移,导致语音识别准确率低。
发明内容
有鉴于此,本发明实施例提供一种语音识别方法、装置及语音识别引擎,以提高语音识别的准确率。
本发明实施例的技术方案是这样实现的:
第一方面,本发明实施例提供一种语音识别方法,包括:在持续获取语音信号的过程中,获取当前账户对应的自定义语料;对所述自定义语料进行分析处理,构建相应的至少一个自定义解码模型;将所述至少一个自定义解码模型加载到预先存储的通用解码模型中,生成新的解码模型;对所述语音信号采用所述新的解码模型进行解码,获得语音识别结果。
第二方面,本发明实施例提供一种语音识别装置,包括:语音信号获取单元,用于持续获取语音信号;语料获得单元,用于在持续获取语音信号的过程中,获取当前账户对应的自定义语料;模型构建单元,用于对所述自定义语料进行分析处理,构建相应的至少一个自定义解码模型;加载单元,用于将所述至少一个自定义解码模型加载到预先存储的通用解码模型中,生成新的解码模型;解码单元,用于对所述语音信号采用所述新的解码模型进行解码,获得语音识别结果。
第三方面,本发明实施例提供一种语音识别引擎,包括:通信接口、存储器、处理器以及存储在存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现以下步骤:在通过所述通信接口持续获取语音信号的过程中,获取当前账户对应的自定义语料;对所述自定义语料进行分析处理,构建相应的至少一个自定义解码模型;将所述至少一个自定义解码模型加载到预先存储的通用解码模型中,生成新的解码模型;对所述语音信号采用所述新的解码模型进行解码,获得语音识别结果。
第四方面,本发明实施例提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:在持续获取语音信号的过程中,获取当前账户对应的自定义语料;对所述自定义语料进行分析处理,构建相应的至少一个自定义解码模型;将所述至少一个自定义解码模型加载到预先存储的通用解码模型中,生成新的解码模型;对所述语音信号采用所述新的解码模型进行解码,获得语音识别结果。
本发明实施例提供了一种语音识别方法、装置及语音识别引擎,首先,持续获取语音信号,也就是语音识别服务保持在线,在持续获取语音信号的过程中,获取当前账户对应的自定义语料,如当前账户的联系人信息、当前账户上传的特定领域的专有文本,然后,对这些自定义语料进行分析处理,构建相应的至少一个自定义解码模型,接着,将构建好的至少一个自定义解码模型加载到预先存储的通用解码模型中,生成新的解码模型,最后,对语音信号采用新的解码模型进行解码,获得语音识别结果,如此,通过这种新的解码模型,可以明显提高用户的自定义语料在通用解码模型中过低的概率值,因此可以降低自定义语料的语音发生数据偏移的几率,整体提高语音识别的准确率。
附图说明
图1-1为本发明实施例中的语音识别服务器的结构示意图;
图1-2为本发明实施例中的终端的结构示意图;
图2-1为本发明实施例中的语音识别方法的实现流程示意图一;
图2-2为本发明实施例中的语音识别方法的实现流程示意图二;
图3-1为本发明实施例中的语音识别界面的示意图一;
图3-2为本发明实施例中的语音识别界面的示意图二;
图4-1为本发明实施例中的语音识别方法的实现流程示意图三;
图4-2为本发明实施例中的语音识别方法的实现流程示意图四;
图4-3为本发明实施例中的新的WFST网络的局部示意图;
图5为本发明实施例中的语音识别装置的结构示意图;
图6为本发明实施例中的语音识别引擎的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
本发明实施例提供一种语音识别方法,该方法应用于语音识别引擎,该语音识别引擎可以为云端语音识别引擎,也就是说语音识别引擎设置于语音识别服务器;上述语音识别引擎也可以为本地语音识别引擎,也就是说语音识别引擎设置于终端。
图1-1为本发明实施例中语音识别服务器的结构示意图,当语音识别引擎为云端语音识别引擎时,参见图1-1所示,语音识别服务器110可以通过网路120与终端200通信;图1-2为本发明实施例中终端的结构示意图,当语音识别引擎为本地语音识别引擎时,参见图1-2所示,终端120可以包括处理器121以及语音采集装置122,这里,处理器121可以与语音采集装置124进行通信,语音采集装置122能够采集用户输入的语音。进一步地,在本发明实施例中,语音采集装置122可以为麦克风、麦克风阵列、送话器等,本发明实施例不作具体限定。
那么,上述语音识别引擎,可以用于在持续获取语音信号的过程中,获取当前账户对应的自定义语料;对自定义语料进行分析处理,构建相应的至少一个自定义解码模型;将至少一个自定义解码模型加载到预先存储的通用解码模型中,生成新的解码模型;对语音信号采用新的解码模型进行解码,获得语音识别结果。
下面以语音识别引擎为云端语音识别引擎为例,对上述语音识别方法进行说明。
图2-1为本发明实施例中的语音识别方法的实现流程示意图一,参见图2-1所示,上述方法可以包括:
S211:终端采集用户输入的语音信号;
这里,终端可以安装具有语音输入功能的应用,如即时通信应用、语音输入法应用、语音助手等。用户可以使用这些应用输入语音信号,比如,用户使用即时通信应用的过程中,需要输入语音时,用户开启如图3-1所示的语音识别界面30,用户按住该界面中的语音输入控件301,此时,即时通信应用调用语音采集装置,如开启麦克风,这样,用户就能够对着麦克风开始说话,也就是说终端采集用户输入的语音信号。
S212:终端将采集到的语音信号发送给语音识别服务器;
这里,终端将采集到的语音信号发送给语音识别服务器。在实际应用中,终端可以通过无线局域网、蜂窝数据网等发送给语音识别服务器。
S213:语音识别服务器在持续获取语音信号的过程中,获取当前账户对应的自定义语料;
这里,由于终端不断的发送语音信号给语音识别服务器,语音识别服务器就会持续接收到这些语音信号,那么,语音识别服务器在持续接收这些语音信号的过程中,可以获得当前账户对应的自定义语料。
在实际应用中,通常采用文本来代替语言实例,也就是说将文本作为语料,那么,上述自定义语料可以包括以下之一:当前账户对应的联系人信息,如电话通讯录、即时通信应用联系人信息;或者当前账户上传的至少一个领域的专有文本,如法律条文、通信标准、行业标准等文本。当然,自定义语料还可以为其它文本,本发明实施例不作具体限定。
在本发明其它实施例中,上述自定义语料可以是语音识别服务器在接收到终端上传的语音信号后,从用户账户信息服务器或者终端读取到的;也可以是用户通过终端上的应用向语音识别服务器上传的。当然,自定义语料还可以存在其它获取方式,本发明实施例不作具体限定。
举例来说,用户按住如图3-1所示的语音识别界面30中语音输入控件301,然后,嘴对着麦克风说话,实时的语音识别结果会流式返回。在这个过程中,首先,通过语音活动检测(VAD,Voice Activity Detection)模块获取语音信号的有效部分,此时,对于该段语音信号的语音识别开始;然后,语音识别开始之后,语音识别服务器通过从用户账户信息服务器或者终端读取当前账户的联系人信息。或者,在用户开始使用语音识别服务后,终端载入用户所需要的至少一个领域的专有文本,如法律条文,并且上传至语音识别服务器,此时,语音识别服务器获得法律条文。
需要说明的是,上述自定义语料可以区分类别,也可以不区分类别,本发明实施例不作具体限定。
S214:语音识别服务器对自定义语料进行分析处理,构建相应的至少一个自定义解码模型;
在具体实施过程中,为了使得语音识别更加准确,S214可以包括:对自定义语料进行分类,得到各分类的自定义语言模型;基于预先存储的声学模型、词典模型以及各分类的自定义语言模型,构建与各分类对应的至少一个自定义解码模型。
这里,语音识别服务器在获得上述自定义语料之后,对这些自定义语料进行分类,得到各分类的自定义语言模型,比如,语音识别服务器同时获得当前账户对应的联系人信息和法律条文,那么,语音识别服务器就需要先对联系人信息和法律条文进行分类,得到联系人信息对应的语言模型和法律条文对应的语言模型;然后,语音识别服务器根据预先存储的声学模型、词典模型以及上述各分类的自定义语言模型,构建与各分类对应的至少一个自定义解码模型,也就是说,语音识别服务器会构建联系人信息对应的解码模型和法律条文对应的解码模型。
S215:语音识别服务器将至少一个自定义解码模型加载到预先存储的通用解码模型中,生成新的解码模型;
这里,通用解码模型是指针对日常用语搭建的解码模型,具有普适性,能够较好地是识别日常用语。
在具体实施过程中,由于不同用户的语言习惯和口音都不尽相同,那么,为了实现更为准确的语音识别,S215还可以包括:获取带有槽的上下文模板,其中,槽是上下文模板中的信息变量,上下文模板是对当前账户的历史语音数据进行数据挖掘获得的;根据槽的分类标记,在通用解码模型的开始符号和结束符号之间添加槽,并将槽与至少一个自定义解码模型中具有分类标记的自定义解码模型关联,生成新的解码模型。
这里,语音识别服务器在用户使用语音识别服务之前,可以获取当前账户的历史语音数据,对这些数据进行数据挖掘,获得至少一个带有槽的上下文模板,例如,对语音中的人名进行识别,通过数据挖掘,得到人名相关的上下文模板:“@NAME@来找我吃饭”、“我和@NAME@是好朋友”等。需要说明的是,在上述上下文模板中“@NAME@”就是槽,“NAME”就是该槽的分类标记。然后,语音识别服务器根据这些上下文模板,在通用解码模型的开始符号和结束符号之间添加上述槽,并将槽与至少一个自定义解码模型中具有相同分类标记的自定义解码模型关联,生成新的解码模型。例如,语音识别服务器根据上下文模板“@NAME@来找我吃饭”,在通用解码模型中插入“@NAME@”所对应的槽,并根据分类标记“NAME”,将“@NAME@”所对应的槽与联系人信息对应的解码模型关联起来,如此,生成了新的解码模型。
S216:语音识别服务器对语音信号采用新的解码模型进行解码,获得语音识别结果;
在具体实施过程中,S216可以包括:根据新的解码模型对语音信号进行解码识别,当解码令牌遇到槽时,跳转到槽所关联的自定义解码模型;在槽所关联的自定义解码模型中进行解码;在槽所关联的自定义解码模型中解码完成后返回槽,并继续在通用解码模型中继续进行解码,直至获得语音识别结果。
这里,语音识别服务器在构建完成新的解码模型之后,语音服务器就可以将语音信号输入到新的解码模型进行解码。首先,语音识别服务器在通用解码模型中进行音素搜索,直至解码令牌遇到通用解码模型中插入的槽,此时,跳转到该槽所关联的自定义解码模型中继续进行音素搜索,在该自定义解码模型中完成搜索后返回槽,并继续在通用解码模型中该槽之后各个符号继续进行搜索,直至获得概率值最高的字符串作为语音识别结果。
S217:语音识别服务器将语音识别结果发送给终端;
S218:终端输出语音识别结果。
这里,语音识别服务器在获得语音识别结果后,将该语音识别结果,也就是字符串发送给终端,让终端在语音识别界面上进行显示。例如,用户语音输入一句话“张三来找我吃饭”,通过由通用解码模型中插入联系人信息对应的自定义解码模型所生成的新的解码模型,对这样的一句话进行解码,获得字符串“张三来找我吃饭”,语音识别服务器将这个字符串发给终端,如图3-2所示,终端可以在语音识别界面30中显示该字符串302,也可以将字符串转换为语音信号,输出给用户,与用户进行语音交互。当然,还可以为其它输入方式,本发明实施例不作具体限定。
至此,便完成了语音识别流程。
下面以语音识别引擎为本地语音识别引擎为例,对上述语音识别方法进行说明。
图2-2为本发明实施例中的语音识别方法的实现流程示意图二,参见图2-2所示,上述方法可以包括:
S221:语音采集装置采集用户输入的语音信号;
这里,终端可以安装具有语音输入功能的应用,如即时通信应用、语音输入法应用、语音助手等。用户可以使用这些应用输入语音信号,比如,用户使用即时通信应用的过程中,需要输入语音时,用户开启如图3-1所示的语音识别界面30,用户按住该界面中的语音输入控件301,此时,即时通信应用调用语音采集装置,如开启麦克风,用户就能够对着麦克风开始说话,如此,也就是说终端采集用户输入的语音信号。
S222:语音采集装置将采集到的语音信号发送给处理器;
这里,语音采集装置将采集到的语音信号通过通信总线发送给处理器,也就是解码器。
S223:处理器在持续获取语音信号的过程中,获取当前账户对应的自定义语料;
这里,由于语音采集装置不断的发送语音信号给处理器,处理器就会持续接收到这些语音信号,那么,处理器在持续接收这些语音信号的过程中,可以获得当前账户对应的自定义语料。
在实际应用中,上述自定义语料可以包括以下之一:当前账户对应的联系人信息,如电话通讯录、即时通信应用联系人信息;或者当前账户上传的至少一个领域的专有文本,如法律条文、通信标准、行业标准等文本。当然,自定义语料还可以为其它文本,本发明实施例不作具体限定。
在本发明其它实施例中,上述自定义语料可以是处理器在接收到语音采集装置采集的语音信号后,从用户账户信息服务器或者本地读取到的;也可以是用户预先存储在本地的。当然,自定义语料还可以存在其它获取方式,本发明实施例不作具体限定。
需要说明的是,上述自定义语料可以区分类别,也可以不区分类别,本发明实施例不作具体限定。
S224:处理器对自定义语料进行分析处理,构建相应的至少一个自定义解码模型;
在具体实施过程中,为了使得语音识别更加准确,S224可以包括:对自定义语料进行分类,得到各分类的自定义语言模型;基于预先存储的声学模型、词典模型以及各分类的自定义语言模型,构建与各分类对应的至少一个自定义解码模型。
这里,处理器在获得上述自定义语料之后,对这些自定义语料进行分类,得到各分类的自定义语言模型,比如,处理器同时获得当前账户对应的联系人信息和法律条文,那么,处理器就需要先对联系人信息和法律条文进行分类,得到联系人信息对应的语言模型和法律条文对应的语言模型;然后,处理器根据预先存储的声学模型、词典模型以及上述各分类的自定义语言模型,构建与各分类对应的至少一个自定义解码模型,也就是说,处理器会构建联系人信息对应的解码模型和法律条文对应的解码模型。
S225:处理器将至少一个自定义解码模型加载到预先存储的通用解码模型中,生成新的解码模型;
在具体实施过程中,由于不同用户的语言习惯和口音都不尽相同,那么,为了实现更为准确的语音识别,S225还可以包括:获取带有槽的上下文模板,其中,上下文模板是对当前账户的历史语音数据进行数据挖掘获得的;根据槽的分类标记,在通用解码模型的开始符号和结束符号之间添加槽,并将槽与至少一个自定义解码模型中具有分类标记的自定义解码模型关联,生成新的解码模型。
这里,处理器在用户使用语音识别服务之前,可以获取当前账户的历史语音数据,对这些数据进行数据挖掘,获得至少一个带有槽的上下文模板,例如,对语音中的人名进行识别,通过数据挖掘,得到人名相关的上下文模板:“@NAME@来找我吃饭”、“我和@NAME@是好朋友”等。需要说明的是,在上述上下文模板中“@NAME@”就是槽,“NAME”就是该槽的分类标记。然后,处理器根据这些上下文模板,在通用解码模型的开始符号和结束符号之间添加上述槽,并将槽与至少一个自定义解码模型中具有相同分类标记的自定义解码模型关联,生成新的解码模型。例如,处理器根据上下文模板“@NAME@来找我吃饭”,在通用解码模型中插入“@NAME@”所对应的槽,并根据分类标记“NAME”,将“@NAME@”所对应的槽与联系人信息对应的解码模型关联起来,如此,生成了新的解码模型。
S226:处理器对语音信号采用新的解码模型进行解码,获得语音识别结果;
在具体实施过程中,S226可以包括:根据新的解码模型对语音信号进行解码识别,当解码令牌遇到槽时,跳转到槽所关联的自定义解码模型;在槽所关联的自定义解码模型中进行解码;在槽所关联的自定义解码模型中解码完成后返回槽,并继续在通用解码模型中继续进行解码,直至获得语音识别结果。
这里,处理器在构建完成新的解码模型之后,语音服务器就可以将语音信号输入到新的解码模型进行解码。首先,处理器在通用解码模型中进行音素搜索,直至解码令牌遇到通用解码模型中插入的槽,此时,跳转到该槽所关联的自定义解码模型中继续进行音素搜索,在该自定义解码模型中完成搜索后返回槽,并继续在通用解码模型中该槽之后各个符号继续进行搜索,直至获得概率值最高的字符串作为语音识别结果。
S227:处理器输出语音识别结果。
这里,处理器可以将字符串显示在如3-2所示的语音识别界面上,也可以将字符串转换为语音信号,输出给用户,与用户进行语音交互。当然,还可以为其它输入方式,本发明实施例不作具体限定。
由此可见,在本发明实施例中,语音识别引擎在持续获取语音信号的过程中,获取当前账户对应的自定义语料,如当前账户的联系人信息、当前账户上传的特定领域的专有文本,然后,对这些自定义语料进行分析处理,构建相应的至少一个自定义解码模型,接着,将构建好的至少一个自定义解码模型加载到预先存储的通用解码模型中,生成新的解码模型,最后,对语音信号采用新的解码模型进行解码,获得语音识别结果,如此,通过这种新的解码模型,可以明显提高用户的自定义语料在通用解码模型中过低的概率值,因此可以降低自定义语料的语音发生数据偏移的几率,整体提高语音识别的准确率。
基于前述实施例,在实际应用中可以采用WFST网络来实现解码模型。
在本发明实施例中,图4-1为本发明实施例中的语音识别方法的实现流程示意图三,参见图4-1所示,该图表示的是通用的语音识别服务,环境构建为离线环境下,通过将声学模型411、字典412、语言模型413等整合到一起,构建静态WFST网络414。在在线环境下,首先载入WFST网络。当服务收到语音信号之后,首先转换成语音特征,然后,通过计算声学模型分数以及WFST网络里的权重分数来得到具有最大后验概率的输出文字组合。
为了提高语音识别的精确度,在本发明其它实施例中,图4-2为本发明实施例中的语音识别方法的实现流程示意图四,参见图4-2所示,在上述实施例的基础上,保持语音识别在线服务,并通过把当前账户对应的自定义语料421,如联系人信息、至少一个领域的专有文本,进行分析处理。首先,提取词表外421(OOV,Out Of Vocabulary)词典422,考虑到用户可能会偏爱一些生僻的词汇,例如火星文之类的,这些词很大可能不在通用词表中,因此首先构建一个用户定制词表,通过将OOV字典和通用词表组合,获得新的词表。然后,利用新的词表结合用户的个人数据进行构建,生成自定义WFST网络423。
那么,前述实施例中所述的自定义解码模型可以自定义WFST网络;通用解码模型可以为通用WFST网络。
在本发明实施例中,前述实施例中的将至少一个自定义解码模型加载到预先存储的通用解码模型中,生成新的解码模型的步骤,就可以包括:将自定义WFST网络与通用WFST网络合并,得到新的WFST网络;相应地,前述实施例中对语音信号采用新的解码模型进行解码,获得语音识别结果的步骤,可以包括:对语音信号采用新的WFST网络进行搜索解码,获得语音识别结果。
举例来说,图4-3为本发明实施例中的新的WFST网络的局部示意图,参见图4-3所示,在通用WFST网络431中插入槽432,并将槽432与联系人信息对应的自定义WFST网络433关联,构成新的WFST网络。那么,在对语音信号进行解码时,当解码令牌在通用WFST网络中搜索到槽的位置的时候,会直接进入的自定义WFST网络中继续搜索,而在自定义WFST网络中搜索结束,解码令牌会回到通用WFST网络中,继续进行搜索。通过这种方式,可以针对每个用户构建了一个用户自己的解码空间。
基于同一发明构思,本发明实施例提供一种语音识别装置,该装置可以应用于上述一个或者多个实施例所述的语音识别引擎中。
图5为本发明实施例中的语音识别装置的结构示意图,参见图5所示,该语音识别装置500可以包括:语音信号获取单元501,用于持续获取语音信号;语料获得单元502,用于在持续获取语音信号的过程中,获取当前账户对应的自定义语料;模型构建单元503,用于对自定义语料进行分析处理,构建相应的至少一个自定义解码模型;加载单元504,用于将至少一个自定义解码模型加载到预先存储的通用解码模型中,生成新的解码模型;解码单元505,用于对语音信号采用新的解码模型进行解码,获得语音识别结果。
在本发明其它实施例中,上述当前账户对应的自定义语料至少包括以下之一:当前账户的联系人信息和至少一个领域的专有文本。
在本发明其它实施例中,上述自定义解码模型可以为自定义WFST网络;通用解码模型可以为通用WFST网络;相应地,加载单元,还用于将自定义WFST网络与通用WFST网络合并,得到新的WFST网络;解码单元,还用于对语音信号采用新的WFST网络进行搜索解码,获得语音识别结果。
在本发明其它实施例中,上述模型构建单元,还用于对自定义语料进行分类,得到各分类的自定义语言模型;基于预先存储的声学模型、词典模型以及各分类的自定义语言模型,构建与各分类对应的至少一个自定义解码模型。
在本发明其它实施例中,上述加载单元,还用于对当前账户的历史语音数据进行数据挖掘,获得带有槽的上下文模板;根据槽的分类标记,在通用解码模型的开始符号和结束符号之间添加槽,并将槽与至少一个自定义解码模型中具有分类标记的自定义解码模型关联,生成新的解码模型。
在本发明其它实施例中,上述解码单元,具体用于根据新的解码模型对语音信号进行解码识别,当解码令牌遇到槽时,跳转到槽所关联的自定义解码模型;在槽所关联的自定义解码模型中进行解码;在槽所关联的自定义解码模型中解码完成后返回槽,并继续在通用解码模型中继续进行解码,直至获得语音识别结果。
这里需要指出的是:以上装置实施例的描述,与上述方法实施例的描述是类似的,具有同方法实施例相似的有益效果。对于本发明装置实施例中未披露的技术细节,请参照本发明方法实施例的描述而理解。
基于同一发明构思,本发明实施例提供一种语音识别引擎,与上述一个或者多个实施例中所述语音识别引擎一致。
图6为本发明实施例中的语音识别引擎的结构示意图,参见图4所示,该语音识别引擎600包括:通信接口601、存储器602、处理器603以及存储在存储器602上并可在处理器603上运行的计算机程序604;
其中,处理器执行计算机程序时实现以下步骤:在通过通信接口持续获取语音信号的过程中,获取当前账户对应的自定义语料;对自定义语料进行分析处理,构建相应的至少一个自定义解码模型;将至少一个自定义解码模型加载到预先存储的通用解码模型中,生成新的解码模型;对语音信号采用新的解码模型进行解码,获得语音识别结果。
在本发明其它实施例中,当前账户对应的自定义语料至少包括以下之一:当前账户的联系人信息和至少一个领域的专有文本。
在本发明其它实施例中,自定义解码模型可以为自定义WFST网络;通用解码模型可以为通用WFST网络;相应地,处理器执行程序时还实现以下步骤:将自定义WFST网络与通用WFST网络合并,得到新的WFST网络;对语音信号采用新的WFST网络进行搜索解码,获得语音识别结果。
在本发明其它实施例中,处理器执行程序时还实现以下步骤:对自定义语料进行分类,得到各分类的自定义语言模型;基于预先存储的声学模型、词典模型以及各分类的自定义语言模型,构建与各分类对应的至少一个自定义解码模型。
在本发明其它实施例中,处理器执行程序时还实现以下步骤:对当前账户的历史语音数据进行数据挖掘,获得带有槽的上下文模板;根据槽的分类标记,在通用解码模型的开始符号和结束符号之间添加槽,并将槽与至少一个自定义解码模型中具有分类标记的自定义解码模型关联,生成新的解码模型。
在本发明其它实施例中,处理器执行程序时还实现以下步骤:根据新的解码模型对语音信号进行解码识别,当解码令牌遇到槽时,跳转到槽所关联的自定义解码模型;在槽所关联的自定义解码模型中进行解码;在槽所关联的自定义解码模型中解码完成后返回槽,并继续在通用解码模型中继续进行解码,直至获得语音识别结果。
在实际应用中,上述处理器可以为特定用途集成电路(ASIC,ApplicationSpecific Integrated Circuit)、数字信号处理器(DSP,Digital Signal Processor)、数字信号处理装置(DSPD,Digital Signal Processing Device)、可编程逻辑装置(PLD,Programmable Logic Device)、现场可编程门阵列(FPGA,Field Programmable GateArray)、中央处理器(CPU,Central Processing Unit)、控制器、微控制器、微处理器中的至少一种。存储器可以为移动存储设备、只读存储器(ROM,Read Only Memory)、磁碟或者光盘等。可以理解地,实现上述处理器和存储器功能的电子器件还可以为其它,本发明实施例不作具体限定。
进一步地,如果上述语音识别引擎为云端语音识别引擎,即设置于语音识别服务器,则上述通信接口可以为终端与语音服务器之间的接口;如果上述语音识别引擎为本地语音识别引擎,即设置于终端,则上述通信接口可以为处理器与语音采集装置,如麦克风、送话器等之间的接口。当然,上述通信接口还可以有其它实现形式,本发明实施例不作具体限定。
这里需要指出的是:以上语音识别引擎实施例的描述,与上述方法实施例的描述是类似的,具有同方法实施例相似的有益效果。对于本发明语音识别引擎实施例中未披露的技术细节,请参照本发明方法实施例的描述而理解。
基于同一发明构思,本发明实施例提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:在持续获取语音信号的过程中,获取当前账户对应的自定义语料;对自定义语料进行分析处理,构建相应的至少一个自定义解码模型;将至少一个自定义解码模型加载到预先存储的通用解码模型中,生成新的解码模型;对语音信号采用新的解码模型进行解码,获得语音识别结果。
在本发明其它实施例中,当前账户对应的自定义语料至少包括以下之一:当前账户的联系人信息和至少一个领域的专有文本。
在本发明其它实施例中,自定义解码模型可以为自定义WFST网络;通用解码模型可以为通用WFST网络;相应地,计算机程序被处理器执行时还实现以下步骤:将自定义WFST网络与通用WFST网络合并,得到新的WFST网络;对语音信号采用新的WFST网络进行搜索解码,获得语音识别结果。
在本发明其它实施例中,计算机程序被处理器执行时还实现以下步骤:对自定义语料进行分类,得到各分类的自定义语言模型;基于预先存储的声学模型、词典模型以及各分类的自定义语言模型,构建与各分类对应的至少一个自定义解码模型。
在本发明其它实施例中,计算机程序被处理器执行时还实现以下步骤:对当前账户的历史语音数据进行数据挖掘,获得带有槽的上下文模板;根据槽的分类标记,在通用解码模型的开始符号和结束符号之间添加槽,并将槽与至少一个自定义解码模型中具有分类标记的自定义解码模型关联,生成新的解码模型。
在本发明其它实施例中,计算机程序被处理器执行时还实现以下步骤:根据新的解码模型对语音信号进行解码识别,当解码令牌遇到槽时,跳转到槽所关联的自定义解码模型;在槽所关联的自定义解码模型中进行解码;在槽所关联的自定义解码模型中解码完成后返回槽,并继续在通用解码模型中继续进行解码,直至获得语音识别结果。
在本发明实施例中,上述计算机程序存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,ReadOnly Memory)、磁碟或者光盘等各种可以存储程序代码的介质。这样,本发明实施例不限制于任何特定的硬件和软件结合。
这里需要指出的是:以上计算设备或计算机可读存储介质实施例的描述,与上述方法实施例的描述是类似的,具有同方法实施例相似的有益效果。对于本发明计算设备或存储介质实施例中未披露的技术细节,请参照本发明方法实施例的描述而理解。
应理解,说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本发明的至少一个实施例中。因此,在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。此外,这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。应理解,在本发明的各种实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元;既可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
另外,在本发明各实施例中的各功能单元可以全部集成在一个处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(Read Only Memory,ROM)、磁碟或者光盘等各种可以存储程序代码的介质。
或者,本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、ROM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。
Claims (10)
1.一种语音识别方法,其特征在于,包括:
在持续获取语音信号的过程中,获取当前账户对应的自定义语料;
对所述自定义语料进行分析处理,构建相应的至少一个自定义解码模型;
将所述至少一个自定义解码模型加载到预先存储的通用解码模型中,生成新的解码模型;
对所述语音信号采用所述新的解码模型进行解码,获得语音识别结果。
2.根据权利要求1所述的方法,其特征在于,所述当前账户对应的自定义语料至少包括以下之一:所述当前账户的联系人信息和至少一个领域的专有文本。
3.根据权利要求1所述的方法,其特征在于,所述自定义解码模型为自定义加权有限转换机WFST网络;通用解码模型为通用WFST网络;
所述将所述至少一个自定义解码模型加载到预先存储的通用解码模型中,生成新的解码模型,包括:将所述自定义WFST网络与所述通用WFST网络合并,得到新的WFST网络;
所述对所述语音信号采用所述新的解码模型进行解码,获得语音识别结果,包括:对所述语音信号采用所述新的WFST网络进行搜索解码,获得语音识别结果。
4.根据权利要求1所述的方法,其特征在于,所述对所述自定义语料进行分析处理,构建相应的自定义解码模型,包括:
对所述自定义语料进行分类,得到各分类的自定义语言模型;
基于预先存储的声学模型、词典模型以及所述各分类的自定义语言模型,构建与各分类对应的所述至少一个自定义解码模型。
5.根据权利要求4所述的方法,其特征在于,所述将所述至少一个自定义解码模型加载到预先存储的通用解码模型中,生成新的解码模型,包括:
获取带有槽的上下文模板,其中,所述上下文模板是对所述当前账户的历史语音数据进行数据挖掘获得的;
根据所述槽的分类标记,在所述通用解码模型的开始符号和结束符号之间添加所述槽,并将所述槽与所述至少一个自定义解码模型中具有所述分类标记的自定义解码模型关联,生成所述新的解码模型。
6.根据权利要求5所述的方法,其特征在于,所述对所述语音信号采用所述新的解码模型进行解码,获得语音识别结果,包括:
根据所述新的解码模型对所述语音信号进行解码识别,当解码令牌遇到所述时,跳转到所述所关联的自定义解码模型;在所述所关联的自定义解码模型中进行解码;
在所述所关联的自定义解码模型中解码完成后返回所述,并继续在所述通用解码模型中继续进行解码,直至获得所述语音识别结果。
7.一种语音识别装置,其特征在于,包括:
语音信号获取单元,用于持续获取语音信号;
语料获得单元,用于在持续获取语音信号的过程中,获取当前账户对应的自定义语料;
模型构建单元,用于对所述自定义语料进行分析处理,构建相应的至少一个自定义解码模型;
加载单元,用于将所述至少一个自定义解码模型加载到预先存储的通用解码模型中,生成新的解码模型;
解码单元,用于对所述语音信号采用所述新的解码模型进行解码,获得语音识别结果。
8.根据权利要求7所述的装置,其特征在于,所述自定义解码模型为自定义加权有限转换机WFST网络;通用解码模型为通用WFST网络;
所述加载单元,还用于将所述自定义WFST网络与所述通用WFST网络合并,得到新的WFST网络;
所述解码单元,还用于对所述语音信号采用所述新的WFST网络进行搜索解码,获得语音识别结果。
9.一种语音识别引擎,包括:通信接口、存储器、处理器以及存储在存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现以下步骤:
在通过所述通信接口持续获取语音信号的过程中,获取当前账户对应的自定义语料;
对所述自定义语料进行分析处理,构建相应的至少一个自定义解码模型;
将所述至少一个自定义解码模型加载到预先存储的通用解码模型中,生成新的解码模型;
对所述语音信号采用所述新的解码模型进行解码,获得语音识别结果。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现以下步骤:
在持续获取语音信号的过程中,获取当前账户对应的自定义语料;
对所述自定义语料进行分析处理,构建相应的至少一个自定义解码模型;
将所述至少一个自定义解码模型加载到预先存储的通用解码模型中,生成新的解码模型;
对所述语音信号采用所述新的解码模型进行解码,获得语音识别结果。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710425219.XA CN108288467B (zh) | 2017-06-07 | 2017-06-07 | 一种语音识别方法、装置及语音识别引擎 |
PCT/CN2018/085819 WO2018223796A1 (zh) | 2017-06-07 | 2018-05-07 | 语音识别方法、存储介质及语音识别设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710425219.XA CN108288467B (zh) | 2017-06-07 | 2017-06-07 | 一种语音识别方法、装置及语音识别引擎 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108288467A true CN108288467A (zh) | 2018-07-17 |
CN108288467B CN108288467B (zh) | 2020-07-14 |
Family
ID=62831581
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710425219.XA Active CN108288467B (zh) | 2017-06-07 | 2017-06-07 | 一种语音识别方法、装置及语音识别引擎 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN108288467B (zh) |
WO (1) | WO2018223796A1 (zh) |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108922531A (zh) * | 2018-07-26 | 2018-11-30 | 腾讯科技(深圳)有限公司 | 槽位识别方法、装置、电子设备及存储介质 |
WO2018223796A1 (zh) * | 2017-06-07 | 2018-12-13 | 腾讯科技(深圳)有限公司 | 语音识别方法、存储介质及语音识别设备 |
CN109087645A (zh) * | 2018-10-24 | 2018-12-25 | 科大讯飞股份有限公司 | 一种解码网络生成方法、装置、设备及可读存储介质 |
CN109246214A (zh) * | 2018-09-10 | 2019-01-18 | 北京奇艺世纪科技有限公司 | 一种提示音获取方法、装置、终端及服务器 |
CN109272995A (zh) * | 2018-09-26 | 2019-01-25 | 出门问问信息科技有限公司 | 语音识别方法、装置及电子设备 |
CN109524017A (zh) * | 2018-11-27 | 2019-03-26 | 北京分音塔科技有限公司 | 一种用户自定义词的语音识别增强方法和装置 |
CN110046276A (zh) * | 2019-04-19 | 2019-07-23 | 北京搜狗科技发展有限公司 | 一种语音中关键词的检索方法和装置 |
CN110223695A (zh) * | 2019-06-27 | 2019-09-10 | 维沃移动通信有限公司 | 一种任务创建方法及移动终端 |
CN110517692A (zh) * | 2019-08-30 | 2019-11-29 | 苏州思必驰信息科技有限公司 | 热词语音识别方法和装置 |
CN110570857A (zh) * | 2019-09-06 | 2019-12-13 | 北京声智科技有限公司 | 语音唤醒方法、装置、电子设备及存储介质 |
WO2020119351A1 (zh) * | 2018-12-14 | 2020-06-18 | 腾讯科技(深圳)有限公司 | 语音解码方法、装置、计算机设备及存储介质 |
CN111667821A (zh) * | 2020-05-27 | 2020-09-15 | 山西东易园智能家居科技有限公司 | 一种语音识别系统及识别方法 |
CN112530416A (zh) * | 2020-11-30 | 2021-03-19 | 北京沃东天骏信息技术有限公司 | 语音识别方法、装置、设备和计算机可读介质 |
CN114242046A (zh) * | 2021-12-01 | 2022-03-25 | 广州小鹏汽车科技有限公司 | 语音交互方法及装置、服务器及存储介质 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110349569B (zh) * | 2019-07-02 | 2022-04-15 | 思必驰科技股份有限公司 | 定制化产品语言模型的训练和识别方法及装置 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1551103A (zh) * | 2003-05-01 | 2004-12-01 | 用于语音识别和自然语言理解的具有合成统计和基于规则的语法模型的系统 | |
US20090018824A1 (en) * | 2006-01-31 | 2009-01-15 | Matsushita Electric Industrial Co., Ltd. | Audio encoding device, audio decoding device, audio encoding system, audio encoding method, and audio decoding method |
US7716039B1 (en) * | 2006-04-14 | 2010-05-11 | At&T Intellectual Property Ii, L.P. | Learning edit machines for robust multimodal understanding |
CN103325370A (zh) * | 2013-07-01 | 2013-09-25 | 百度在线网络技术(北京)有限公司 | 语音识别方法和语音识别系统 |
CN103971675A (zh) * | 2013-01-29 | 2014-08-06 | 腾讯科技(深圳)有限公司 | 自动语音识别方法和系统 |
CN103971686A (zh) * | 2013-01-30 | 2014-08-06 | 腾讯科技(深圳)有限公司 | 自动语音识别方法和系统 |
CN105118501A (zh) * | 2015-09-07 | 2015-12-02 | 徐洋 | 语音识别的方法及系统 |
CN105976812A (zh) * | 2016-04-28 | 2016-09-28 | 腾讯科技(深圳)有限公司 | 一种语音识别方法及其设备 |
CN106294460A (zh) * | 2015-05-29 | 2017-01-04 | 中国科学院声学研究所 | 一种基于字和词混合语言模型的汉语语音关键词检索方法 |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1981020A1 (fr) * | 2007-04-12 | 2008-10-15 | France Télécom | Procédé et système de reconnaissance automatique de la parole adaptés à la détection d'énoncés hors-domaine |
KR101154011B1 (ko) * | 2010-06-07 | 2012-06-08 | 주식회사 서비전자 | 다중 모델 적응화와 음성인식장치 및 방법 |
US8442827B2 (en) * | 2010-06-18 | 2013-05-14 | At&T Intellectual Property I, L.P. | System and method for customized voice response |
CN102270451B (zh) * | 2011-08-18 | 2013-05-29 | 安徽科大讯飞信息科技股份有限公司 | 说话人识别方法及系统 |
CN103377651B (zh) * | 2012-04-28 | 2015-12-16 | 北京三星通信技术研究有限公司 | 语音自动合成装置及方法 |
US9043205B2 (en) * | 2012-06-21 | 2015-05-26 | Google Inc. | Dynamic language model |
US9190055B1 (en) * | 2013-03-14 | 2015-11-17 | Amazon Technologies, Inc. | Named entity recognition with personalized models |
EP2851896A1 (en) * | 2013-09-19 | 2015-03-25 | Maluuba Inc. | Speech recognition using phoneme matching |
CN104123933A (zh) * | 2014-08-01 | 2014-10-29 | 中国科学院自动化研究所 | 基于自适应非平行训练的语音转换方法 |
CN105448292B (zh) * | 2014-08-19 | 2019-03-12 | 北京羽扇智信息科技有限公司 | 一种基于场景的实时语音识别系统和方法 |
CN105575386B (zh) * | 2015-12-18 | 2019-07-30 | 百度在线网络技术(北京)有限公司 | 语音识别方法和装置 |
CN105719649B (zh) * | 2016-01-19 | 2019-07-05 | 百度在线网络技术(北京)有限公司 | 语音识别方法及装置 |
CN108288467B (zh) * | 2017-06-07 | 2020-07-14 | 腾讯科技(深圳)有限公司 | 一种语音识别方法、装置及语音识别引擎 |
-
2017
- 2017-06-07 CN CN201710425219.XA patent/CN108288467B/zh active Active
-
2018
- 2018-05-07 WO PCT/CN2018/085819 patent/WO2018223796A1/zh active Application Filing
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1551103A (zh) * | 2003-05-01 | 2004-12-01 | 用于语音识别和自然语言理解的具有合成统计和基于规则的语法模型的系统 | |
US20090018824A1 (en) * | 2006-01-31 | 2009-01-15 | Matsushita Electric Industrial Co., Ltd. | Audio encoding device, audio decoding device, audio encoding system, audio encoding method, and audio decoding method |
US7716039B1 (en) * | 2006-04-14 | 2010-05-11 | At&T Intellectual Property Ii, L.P. | Learning edit machines for robust multimodal understanding |
CN103971675A (zh) * | 2013-01-29 | 2014-08-06 | 腾讯科技(深圳)有限公司 | 自动语音识别方法和系统 |
CN103971686A (zh) * | 2013-01-30 | 2014-08-06 | 腾讯科技(深圳)有限公司 | 自动语音识别方法和系统 |
CN103325370A (zh) * | 2013-07-01 | 2013-09-25 | 百度在线网络技术(北京)有限公司 | 语音识别方法和语音识别系统 |
CN106294460A (zh) * | 2015-05-29 | 2017-01-04 | 中国科学院声学研究所 | 一种基于字和词混合语言模型的汉语语音关键词检索方法 |
CN105118501A (zh) * | 2015-09-07 | 2015-12-02 | 徐洋 | 语音识别的方法及系统 |
CN105976812A (zh) * | 2016-04-28 | 2016-09-28 | 腾讯科技(深圳)有限公司 | 一种语音识别方法及其设备 |
Cited By (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018223796A1 (zh) * | 2017-06-07 | 2018-12-13 | 腾讯科技(深圳)有限公司 | 语音识别方法、存储介质及语音识别设备 |
CN108922531A (zh) * | 2018-07-26 | 2018-11-30 | 腾讯科技(深圳)有限公司 | 槽位识别方法、装置、电子设备及存储介质 |
CN108922531B (zh) * | 2018-07-26 | 2020-10-27 | 腾讯科技(北京)有限公司 | 槽位识别方法、装置、电子设备及存储介质 |
CN109246214A (zh) * | 2018-09-10 | 2019-01-18 | 北京奇艺世纪科技有限公司 | 一种提示音获取方法、装置、终端及服务器 |
CN109272995A (zh) * | 2018-09-26 | 2019-01-25 | 出门问问信息科技有限公司 | 语音识别方法、装置及电子设备 |
CN109087645A (zh) * | 2018-10-24 | 2018-12-25 | 科大讯飞股份有限公司 | 一种解码网络生成方法、装置、设备及可读存储介质 |
CN109524017A (zh) * | 2018-11-27 | 2019-03-26 | 北京分音塔科技有限公司 | 一种用户自定义词的语音识别增强方法和装置 |
WO2020119351A1 (zh) * | 2018-12-14 | 2020-06-18 | 腾讯科技(深圳)有限公司 | 语音解码方法、装置、计算机设备及存储介质 |
US11935517B2 (en) | 2018-12-14 | 2024-03-19 | Tencent Technology (Shenzhen) Company Limited | Speech decoding method and apparatus, computer device, and storage medium |
CN110046276A (zh) * | 2019-04-19 | 2019-07-23 | 北京搜狗科技发展有限公司 | 一种语音中关键词的检索方法和装置 |
CN110046276B (zh) * | 2019-04-19 | 2021-04-20 | 北京搜狗科技发展有限公司 | 一种语音中关键词的检索方法和装置 |
CN110223695A (zh) * | 2019-06-27 | 2019-09-10 | 维沃移动通信有限公司 | 一种任务创建方法及移动终端 |
CN110223695B (zh) * | 2019-06-27 | 2021-08-27 | 维沃移动通信有限公司 | 一种任务创建方法及移动终端 |
CN110517692A (zh) * | 2019-08-30 | 2019-11-29 | 苏州思必驰信息科技有限公司 | 热词语音识别方法和装置 |
CN110570857A (zh) * | 2019-09-06 | 2019-12-13 | 北京声智科技有限公司 | 语音唤醒方法、装置、电子设备及存储介质 |
CN110570857B (zh) * | 2019-09-06 | 2020-09-15 | 北京声智科技有限公司 | 语音唤醒方法、装置、电子设备及存储介质 |
CN111667821A (zh) * | 2020-05-27 | 2020-09-15 | 山西东易园智能家居科技有限公司 | 一种语音识别系统及识别方法 |
CN112530416A (zh) * | 2020-11-30 | 2021-03-19 | 北京沃东天骏信息技术有限公司 | 语音识别方法、装置、设备和计算机可读介质 |
CN114242046A (zh) * | 2021-12-01 | 2022-03-25 | 广州小鹏汽车科技有限公司 | 语音交互方法及装置、服务器及存储介质 |
CN114242046B (zh) * | 2021-12-01 | 2022-08-16 | 广州小鹏汽车科技有限公司 | 语音交互方法及装置、服务器及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN108288467B (zh) | 2020-07-14 |
WO2018223796A1 (zh) | 2018-12-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108288467A (zh) | 一种语音识别方法、装置及语音识别引擎 | |
US11740863B2 (en) | Search and knowledge base question answering for a voice user interface | |
CN110674339B (zh) | 一种基于多模态融合的中文歌曲情感分类方法 | |
Cao et al. | Speaker-sensitive emotion recognition via ranking: Studies on acted and spontaneous speech | |
CN108597541B (zh) | 一种增强愤怒与开心识别的语音情感识别方法及系统 | |
CN106503805B (zh) | 一种基于机器学习的双模态人人对话情感分析方法 | |
KR20160026892A (ko) | 논팩토이드형 질의 응답 시스템 및 방법 | |
US20160071510A1 (en) | Voice generation with predetermined emotion type | |
CN104298658B (zh) | 获取搜索结果的方法和装置 | |
CN113241096B (zh) | 一种情绪监测装置及方法 | |
CN110164447A (zh) | 一种口语评分方法及装置 | |
CN110096572A (zh) | 一种样本生成方法、装置及计算机可读介质 | |
CN106782502A (zh) | 一种儿童机器人用的语音识别装置 | |
CN112364622A (zh) | 对话文本分析方法、装置、电子装置及存储介质 | |
US9786274B2 (en) | Analysis of professional-client interactions | |
CN110275953B (zh) | 人格分类方法及装置 | |
CN114927126A (zh) | 基于语义分析的方案输出方法、装置、设备以及存储介质 | |
Cao et al. | Combining ranking and classification to improve emotion recognition in spontaneous speech | |
CN111462774B (zh) | 一种基于深度学习的音乐情感可信分类方法 | |
CN109119073A (zh) | 基于多源识别的语音识别方法、系统、音箱及存储介质 | |
CN115169368B (zh) | 基于多文档的机器阅读理解方法及装置 | |
CN111460114A (zh) | 检索方法、装置、设备及计算机可读存储介质 | |
CN116469375A (zh) | 端到端语音合成方法、装置、设备以及介质 | |
CN114297449A (zh) | 内容查找方法、装置、电子设备及计算机可读介质及产品 | |
CN114822557A (zh) | 课堂中不同声音的区分方法、装置、设备以及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |