CN110610700A - 解码网络构建方法、语音识别方法、装置、设备及存储介质 - Google Patents
解码网络构建方法、语音识别方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN110610700A CN110610700A CN201910983196.3A CN201910983196A CN110610700A CN 110610700 A CN110610700 A CN 110610700A CN 201910983196 A CN201910983196 A CN 201910983196A CN 110610700 A CN110610700 A CN 110610700A
- Authority
- CN
- China
- Prior art keywords
- decoding network
- decoding
- language model
- general
- domain
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000010276 construction Methods 0.000 title claims abstract description 46
- 238000000034 method Methods 0.000 title claims abstract description 39
- 230000004927 fusion Effects 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 5
- 230000009191 jumping Effects 0.000 claims description 4
- 238000004891 communication Methods 0.000 description 18
- 238000010586 diagram Methods 0.000 description 13
- 238000012545 processing Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 4
- 230000001172 regenerating effect Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/065—Adaptation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/083—Recognition networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Telephonic Communication Services (AREA)
- Machine Translation (AREA)
Abstract
本申请提供了一种解码网络构建方法、语音识别方法、装置、设备及存储介质,其中,解码网络构建方法包括:获取通用语言模型、领域语言模型、以及根据通用语言模型生成的通用解码网络,根据领域语言模型和通用语言模型生成领域解码网络,将领域解码网络融入通用解码网络,获得目标解码网络;语音识别方法包括:利用解码网络构建方法构建的目标解码网络对待识别语音数据进行解码,获得待识别语音数据的解码路径,根据待识别语音数据的解码路径确定待识别语音数据的语音识别结果。本申请能够提高特定领域专业词汇的语音识别准确率。
Description
技术领域
本申请涉及语音识别技术领域,尤其涉及一种解码网络构建方法、语音识别方法、装置、设备及存储介质。
背景技术
语音识别基于语言模型实现,目前的语音识别方案大多为基于通用语言模型的识别方案。基于通用语言模型的识别方案为,首先将通用语言模型转换为通用解码网络,然后利用通用解码网络对待识别语音进行解码。
基于通用语言模型的识别方案能够对通用词汇进行准确识别,但对于一些特定领域的专业词汇而言,其很容易将专业词汇识别为发音相近的通用词汇,即现有的基于通用语言模型的识别方案对特定领域专业词汇的识别准确率较低。
发明内容
有鉴于此,本申请提供了一种解码网络构建方法、语音识别方法、装置、设备及存储介质,用以提高特定领域专业词汇的识别准确率,其技术方案如下:
一种解码网络构建方法,包括:
获取通用语言模型、领域语言模型、以及根据所述通用语言模型生成的通用解码网络;
根据所述领域语言模型和所述通用语言模型,生成领域解码网络;
将所述领域解码网络融入所述通用解码网络,获得目标解码网络。
可选的,所述根据所述通用语言模型和所述领域语言模型,生成领域解码网络,包括:
对所述通用语言模型和所述领域语言模型进行插值,其中,插值部分为所述领域语言模型和所述通用语言模型中、只在所述领域语言模型中出现的部分进行插值;
根据插值部分生成所述领域解码网络。
可选的,所述将所述领域解码网络融入所述通用解码网络,获得目标解码网络,包括:
将所述领域解码网络与所述通用解码网络进行串联,获得目标解码网络。
可选的,所述将所述领域解码网络与所述通用解码网络进行串联,包括:
分别针对所述通用解码网络和所述领域解码网络添加虚拟节点,所述虚拟节点包括起始节点和结束节点;
利用所述起始节点和所述结束节点,将所述通用解码网络与所述领域解码网络进行串联。
可选的,所述利用所述起始节点和所述结束节点,将所述通用解码网络与所述领域解码网络进行串联,包括:
将针对所述通用解码网络创建的结束节点与针对所述领域解码网络创建的起始节点按结束节点指向起始节点进行有向连接;
将针对所述领域解码网络创建的结束节点与针对所述通用解码网络创建的起始节点按结束节点指向起始节点进行有向连接。
一种语音识别方法,包括:
利用上述一项所述的解码网络构建方法构建的目标解码网络对待识别语音数据进行解码,获得所述待识别语音数据的解码路径;
根据所述待识别语音数据的解码路径,确定所述待识别语音数据的语音识别结果。
可选的,所述根据所述待识别语音数据的解码路径,确定所述待识别语音数据的语音识别结果,包括:
通过预先获得的高阶语言模型和所述待识别语音数据的解码路径,确定所述待识别语音数据的语音识别结果;
其中,所述高阶语言模型采用领域语言模型对通用语言模型进行插值得到。
可选的,利用所述目标解码网络对所述待识别语音数据进行解码,获得所述待识别语音数据的解码路径,包括:
将所述待识别语音数据的各个语音帧依次输入所述目标解码网络进行解码,获得所述待识别语音数据对应的解码路径;
其中,所述待识别语音数据的各个语音帧经所述目标解码网络中的两个起始节点分别进入所述目标解码网络中的通用解码网络和领域解码网络进行解码,当所述通用解码网络或所述领域解码网络中的候选解码路径包括结束节点时,从该结束节点跳回与该结束节点连接的至少一个起始节点,以进入所述通用解码网络和/或所述领域解码网络中继续解码,直至语音帧结束。
一种解码网络构建装置,包括:语言模型和通用解码网络获取模块、领域解码网络生成模块和解码网络融合模块;
所述语言模型和通用解码网络获取模块,用于获取通用语言模型、领域语言模型、以及根据所述通用语言模型生成的通用解码网络;
所述领域解码网络生成模块,用于根据所述通用语言模型和所述领域语言模型,生成领域解码网络;
所述解码网络融合模块,用于将所述领域解码网络融入所述通用解码网络,获得目标解码网络。
可选的,所述领域解码网络生成模块包括:插值子模块和领域解码网络生成子模块;
所述插值子模块,用于对所述通用语言模型和所述领域语言模型进行插值,其中,插值部分为所述领域语言模型和所述通用语言模型中、在所述领域语言模型中出现的部分;
所述领域解码网络生成子模块,用于根据插值部分生成所述领域解码网络。
可选的,所述解码网络融合模块,具体用于将所述领域解码网络与所述通用解码网络进行串联,获得所述目标解码网络。
一种语音识别装置,包括:解码模块和语音识别结果确定模块;
所述解码模块,用于利用上述任意一项所述的解码网络构建装置构建的目标解码网络对待识别语音数据进行解码,获得所述目标解码网络的解码路径;
所述语音识别结果确定模块,用于根据所述目标解码网络的解码路径,确定所述待识别语音数据的语音识别结果。
一种解码网络构建设备,包括:存储器和处理器;
所述存储器,用于存储程序;
所述处理器,用于执行所述程序,实现上述任一项所述的解码网络构建方法的各个步骤。
一种可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,实现上述任一项所述的解码网络构建方法的各个步骤。
一种语音识别设备,包括:存储器和处理器;
所述存储器,用于存储程序;
所述处理器,用于执行所述程序,实现上述任一项所述的语音识别方法的各个步骤。
一种可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,实现上述任一项所述的语音识别方法的各个步骤。
经由上述方案可知,本申请提供的解码网络构建方法,可根据通用语言模型和领域语言模型生成领域解码网络,进而将领域解码网络融入通用解码网络,从而获得目标解码网络,本申请提供的解码网络构建方法通过在通用解码网络中融入领域解码网络,使得最终获得的目标解码网络除了能够对通用词汇进行准确识别外,还能够对特定领域的专业词汇进行准确识别,相比于现有技术中基于通用语言模型的语音识别方法,显著提高了特定领域专业词汇的语音识别准确率,另外,本申请提供的解码网络构建方法能够较快速地构建出目标解码网络。本申请提供的解码网络构建方法能够高效地构建出对特定领域的专业词汇进行准确识别的目标解码网络,这使得在基于目标解码网络对包含特定领域的专业词汇的语音进行语音识别时,能够获得较为准确的语音识别结果。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请实施例提供的解码网络构建方法的流程示意图;
图2为本申请实施例提供的解码网络构建方法中,根据通用语言模型和领域语言模型,生成领域解码网络的流程示意图;
图3为本申请实施例提供的解码网络构建方法中,将领域解码网络与通用解码网络串联的实现过程的流程示意图;
图4为本申请实施例的将领域解码网络与通用解码网络串联得到的目标解码网络的一示例的示意图;
图5为本申请实施例提供的语音识别方法的流程示意图;
图6为本申请实施例提供的解码网络构建装置的结构示意图;
图7为本申请实施例提供的语音识别装置的结构示意图;
图8为本申请实施例提供的解码网络构建设备的结构示意图;
图9为本申请实施例提供的语音识别设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本申请通常涉及用于进行语音识别的语音识别系统,语音识别系统可接收用户输入的语音,利用解码网络将用户输入的语音识别为文本并输出。在一种可能的实现方式中,语音识别系统可在终端设备上实现,在基本配置中,终端设备具有输入元件(比如麦克风、传感器、触摸屏、按键等)和输出元件(比如显示屏、扬声器等),终端设备可以为用于实现语音识别的任何合适的计算设备,比如,可以为智能手机、平板电脑、笔记本电脑、个人计算机、智能手表、可穿戴设备、电视、游戏设备等等。用户通过终端设备的输入元件(比如麦克风)输入语音,终端设备利用解码网络对用户输入的语音进行识别,获得语音识别结果后,通过输出元件输出。上述的终端设备除了包括输入元件和输出元件外,还包括处理器和存储器,处理器和存储器通过通信总线完成相互间的通信,处理器可以是中央处理器CPU和/或图形处理器GPU,处理器还可以为通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件等,其中,通用处理器可以是微处理器或者任何常规的处理器,存储器可以包括易失性和/或非易失性存储器形式的计算机存储介质,如只读存储器(ROM)、随机存取存储器(RAM)等,存储器存储有程序,处理器可调用存储器存储的程序。
在另一种可能的实现方式中,语音识别系统可以在一个服务器上实现,该服务器可以通过网络接收终端设备提供的数据,还可以通过网络向终端设备提供数据,当然,语音识别系统还可以在多个服务器上实现,同样的,服务器可通过网络接收终端设备提供的数据,还可以通过网络向终端设备提供数据。上述的网络可以但不限定为局域网(LAN)、广域网(WAN)等。在服务器上实现语音识别系统时,终端设备获取用户通过其输入设备输入的语音,通过网络将该语音传输至服务器,服务器利用解码网络对从终端设备接收的语音进行识别,获得语音识别结果后,将语音识别结果通过网络发送至终端设备,终端设备通过输出元件输出语音识别结果。上述的服务器可以包括处理器和存储器,处理器和存储器通过通信总线完成相互间的通信,处理器可以是中央处理器CPU和/或图形处理器GPU,处理器还可以为通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件,其中,通用处理器可以是微处理器或者任何常规的处理器,存储器可以包括易失性和/或非易失性存储器形式的计算机存储介质,如只读存储器(ROM)、随机存取存储器(RAM)等,存储器存储有程序,处理器可调用存储器存储的程序。
考虑到语音识别系统利用通用解码网络对包含领域专业词汇的语音进行识别时,识别效果较差,为了提高特定领域专业词汇的识别准确率,本案发明人进行了研究:
起初的思路是:首先,采用特定领域的语料训练领域语言模型,然后,将训练得到的领域模型插值到通用语言模型中,最后,将插值后的通用语言模型转换为目标解码网络,可选的,可将插值后的语言模型转换为加权有限状态机(Weighted Finite StateTransducer,WFST),将加权有限状态机作为目标解码网络。在获得目标解码网络后,利用目标解码网络进行语音识别。
需要说明的是,通用语言模型为可以广泛使用的、适用于各种普通情况的语言模型,而领域语言模型为根据特定领域常用、但其它领域不常用的词训练得到的语言模型,将领域语言模型对通用语言模型进行插值,既可以保留通用语言模型的原有知识,又可以增加通用语言模型中未出现过的专业词汇的出现概率,因此,将领域语言模型对通用语言模型进行插值,可以得到适用于特定领域的语言模型,利用对该语言模型转换得到的目标解码网络进行语言识别,可获得较高的识别准确率。
发明人发现,上述方案虽然能够提高特定领域专业词汇的识别准确率,但是存在问题,具体体现在:
将领域语言模型插值到通用语言模型后,需要将插值后的通用语言模型重新生成解码网络,比如WFST,由于插值后的通用语言模型的规模很大,因此,生成解码网络需要花费很长的时间(可能在数小时以上),并且需要占用大量的存储资源,因此,难以在实际系统中应用。
为了解决上述问题,发明人继续深入研究,又提出了一种方案,该方案的大致思路是:将通用语言模型生成解码网络作为通用解码网络,采用特定领域的语料训练领域语言模型,将领域语言模型生成解码网络作为领域解码网络,在通用解码网络中搜索领域解码网络存在的路径并修改权重。
然而,上述方案中,由于通用解码网络的路径过于庞大,搜索所需要的时间比较长,也就是说,上述方案虽然避免了重新生成解码网络需要占用大量资源的问题,但依然需要花费很长的时间。
发明人继续深入研究,最终提出了一种解决方案,完美解决了上述研发过程中出现的问题。接下来通过下述实施例对本申请提供的解决方案进行介绍。
本申请实施例首先提供了一种解码网络构建方法,请参阅图1,示出了该解码网络构建方法的流程示意图,可以包括:
步骤S101:获取通用语言模型、领域语言模型、以及根据通用语言模型生成的通用解码网络。
其中,领域语言模型采用特定领域的语料训练得到,通用解码网络通过对通用语言模型进行二进制转换得到。
步骤S102:根据通用语言模型和领域语言模型,生成领域解码网络。
需要说明的是,语音识别系统的解码过程实质是进行解码路径得分的比较,基于此,本申请提出,对通用语言模型与领域语言模型进行插值来生成领域解码网络,虽然需要生成领域解码网络,但生成领域解码网络所耗费的时间和所占的存储资源相比于前述“将插值后的通用语言模型重新生成解码网络”所耗费的时间和所占的存储资源大大减少。
根据通用语言模型和领域语言模型,生成领域解码网络的过程可参见后续实施例的说明。
步骤S103:将领域解码网络融入通用解码网络,获得目标解码网络。
本申请实施例提供的解码网络构建方法,可根据通用语言模型和领域语言模型,生成领域解码网络,进而将领域解码网络融入通用解码网络,从而获得能够对待识别语音数据进行解码的目标解码网络,本申请实施例提供的解码网络构建方法通过在通用解码网络中融入领域解码网络,使得最终获得的目标解码网络除了能够对通用词汇进行准确识别外,还能够对特定领域的专业词汇进行准确识别。本申请实施例构建的目标解码网络相比于通用解码网络,能够提高特定领域专业词汇的语音识别准确率,另外,生成领域解码网络所耗费的时间和所占的存储资源相比于重新生成通用解码网络所耗费的时间和所占的存储资源大大减少。
以下对上述实施例中的“步骤S102:根据通用语言模型和领域语言模型,生成领域解码网络”进行介绍。
请参阅图2,示出了根据通用语言模型和领域语言模型,生成领域解码网络的流程示意图,可以包括:
步骤S201、对通用语言模型和领域语言模型进行插值。
其中,插值部分为领域语言模型和通用语言模型中、在领域语言模型中出现的部分。
可选的,通用语言模型和领域语言模型可以为n-gram模型,基于此,本实施例对领域语言模型和通用语言模型进行插值时,插值部分为领域语言模型和通用语言模型中、只在领域语言模型中出现的n-gram条目,也就是说,插值部分只包含领域语言模型中出现的n-gram条目,不包含领域语言模型中未出现过的n-gram条目。
需要说明的是,对通用语言模型和领域语言模型中,只在领域语言模型中出现的n-gram条目进行插值实质是对通用语言模型和领域语言模型中只在领域语言模型中出现的n-gram条目进行概率插值,假设领域语言模型和通用语言模型为3阶语言模型,则tri-gram的概率插值公式如下所示:
其中,p(ωn|ωn-2ωn-1)表示在ωn-2和ωn-1出现的情况下,ωn出现的概率,pB为通用语言模型中、只在领域语言模型中出现的n-gram条目的概率,pold为领域语言模型中n-gram条目的概率,pnew为对通用语言模型和领域语言模型中,只在领域语言模型中出现的n-gram条目进行插值后的概率,α为插值系数。
步骤S202、根据插值部分生成领域解码网络。
具体的,对插值部分进行二进制转换,得到领域解码网络。
由于插值部分的n-gram条目(即只在领域语言模型中出现的n-gram条目)数量很少,因此,根据插值部分生成领域解码网络耗费的时间和占用的存储资源很少。
接下来对上述实施例中的“步骤S103:将领域解码网络融入通用解码网络,获得目标解码网络”进行介绍。
将领域解码网络融入通用解码网络的实现方式有多种:
在一种可能的实现方式中,可将领域解码网络与通用解码网络并联,从从而获得目标解码网络。
在利用领域解码网络与通用解码网络并联得到的目标网络解码时,将待识别语音数据分别输入领域解码网络与通用解码网络进行解码,可分别获得通用解码网络的解码路径和领域解码网络的解码路径,对通用解码网络的解码路径的得分与领域解码网络的解码路径的得分进行比较,将得分高的解码路径确定为最终的解码路径,也就是说最终的解码路径要么为领域解码网络的解码路径,要么为通用解码网络的解码路径,最后根据最终的解码路径生成解码结果。
本案发明人经研究发现,将领域解码网络与通用解码网络并联得到的目标解码网络对于只包含通用词汇的语音、只包含特定领域专业词汇的语音能够准确识别,但对于同时包含通用词汇和特定领域专业词汇的语音识别效果不佳。可以理解的是,在某些时候,待识别语言可能为包含大量词汇的连续语音,这样的语音通常既包含通用词汇,又包含专业词汇,因此,领域解码网络与通用解码网络并联得到的解码网络并不适用于包括大量词汇的连续语音识别。
鉴于上述问题,本申请提供了将领域解码网络融入通用解码网络的另一种实现方式,该实现方式的基本思想是将领域解码网络与通用解码网络串联,通过将领域解码网络与通用解码网络串联得到的目标解码网络能够对同时包含通用词汇和专业词汇的语音进行准确识别,适用于包括大量词汇的连续语音识别。
请参阅图3,示出了将领域解码网络与通用解码网络串联的实现过程的流程示意图,可以包括:
步骤S301:分别针对通用解码网络和领域解码网络添加虚拟节点。
其中,虚拟节点包括起始节点和结束节点。
步骤S302:利用起始节点和结束节点将通用解码网络与领域解码网络进行串联。
具体的,利用起始节点和结束节点将通用解码网络与领域解码网络进行串联的过程包括:将针对通用解码网络添加的结束节点与针对领域解码网络添加的起始节点按结束节点指向起始节点进行有向连接;将针对领域解码网络添加的结束节点与针对通用解码网络添加的起始节点按结束节点指向起始节点进行有向连接。
请参阅图4,示出了将领域解码网络与通用解码网络串联,得到的目标解码网络的示意图,如图4所示,通用解码网络包括节点1、节点2和节点3,领域解码网络为节点4、节点5和节点6:
为了将领域解码网络与通用解码网络串联,分别针对领域解码网络与通用解码网络创建虚拟的起始节点和虚拟的结束节点,将针对通用解码网络创建的起始节点与通用解码网络中的节点1进行有向连接(起始节点指向节点1),将通用解码网络中的节点3与针对通用解码网络创建的结束节点进行有向连接(节点3指向结束节点),将针对通用解码网络创建的结束节点与针对通用解码网络创建的起始节点进行有向连接(结束节点指向起始节点);针对领域解码网络创建的起始节点与领域解码网络中的节点4进行有向连接(起始节点指向节点4),领域解码网络中的节点6与针对领域解码网络创建的结束节点进行有向连接(节点6指向结束节点),针对领域解码网络创建的结束节点与针对领域解码网络创建的起始节点进行有向连接(结束节点指向起始节点);针对通用解码网络创建的结束节点与针对领域解码网络的起始节点进行有向连接(结束节点指向起始节点),针对领域解码网络创建的结束节点与针对通用解码网络的起始节点进行有向连接(结束节点指向起始节点)。
在利用领域解码网络与通用解码网络串联得到的目标解码网络对待识别语音进行解码时,若待识别语音数据中既包括通用词汇,又包括专业词汇,则最终的解码路径将由通用解码网络的解码路径和领域解码网络的解码路径组成,比如,待识别语音数据为“我们开始进行语音识别”,“我们开始进行”对应的解码路径存在于通用解码网络中,“语音识别”对应的解码路径存在于领域解码网络中,最终的解码路径由“我们开始进行”对应的解码路径与“语音识别”对应的解码路径组成。需要说的是,通用解码网络的解码路径与领域解码网络的解码路径通过结束节点衔接起来。
需要说明的是,在领域解码网络和通用解码网络中添加的起始节点和结束节点可设置为静音(sil),起始节点和结束节点不影响解码结果,在利用目标解码网络对待识别语音数据进行解码时,待识别语音数据的各个语音帧经两个起始节点分别进入领域解码网络和通用解码网络进行解码,如图4所示,待识别语音数据的各个语音帧从开始符“<s>”进入,跳到两个起始节点,然后分别进入通用解码网络和领域解码网络进行解码,当通用解码网络或领域解码网络中的候选路径包括结束节点时,从结束节点跳回至少一个起始节点,继续在通用解码网络和/或领域解码网络中进行解码,直至语音帧结束,输出结尾符“<s>”,完成串联解码过程。
在上述实施例的基础上,本申请实施例还提供了一种语音识别方法,请参阅图5,示出了该语音识别方法的流程示意图,可以包括:
步骤S501:利用目标解码网络对待识别语音数据进行解码,获得待识别语音数据的解码路径。
其中,目标解码网络为采用上述实施例提供的解码网络构建方法构建的解码网络。
在一种可能的实现方式中,目标解码网络的解码路径可以lattice呈现,需要说明的是,lattice为带权无向图,lattice中的每个节点代表一个声学单元,每条弧包含两个权重,即声学权重和语言权重,在lattice上从左向右的任何一条路径,就构成一个语音识别结果,路径上每条边的声学权重相加,再加上路径对应的语言权重,就是整条路径的得分。
具体的,利用目标解码网络对待识别语音数据进行解码,获得待识别语音数据的解码路径的过程可以包括:将待识别语音数据的各个语音帧依次输入目标解码网络进行解码,获得待识别语音数据的解码路径。
其中,待识别语音数据的各个语音帧经目标解码网络中的两个虚拟的起始节点分别进入目标解码网络中的通用解码网络和领域解码网络进行解码,当通用解码网络或领域解码网络中的候选解码路径包括结束节点时,从该结束节点跳回与该结束节点连接的至少一个起始节点,以进入通用解码网络和/或领域解码网络中继续解码,直至语音帧结束。
需要说明的是,当候选解码路径包括结束节点时,若进入通用解码网络的路径得分和进入领域解码网络的路径得分均大于或等于预设的路径得分阈值,则该结束节点跳回与该结束节点连接的两个起始节点,以进入通用解码网络和领域解码网络中解码;若进入通用解码网络的路径得分大于或等于路径得分阈值,而进入领域解码网络的路径得分小于路径得分阈值,则该结束节点跳回针对通用解码网络创建的起始节点,以进入通用解码网络中解码;若进入领域解码网络的路径得分大于或等于路径得分阈值,而进入通用解码网络的路径得分小于路径得分阈值,则该结束节点跳回针对领域解码网络创建的起始节点,以进入领域解码网络中解码。
步骤S502:根据待识别语音数据的解码路径,确定待识别语音数据的语音识别结果。
根据待识别语音数据的解码路径,确定待识别语音数据的语音识别结果的实现方式有多种:
在一种可能的实现方式中,可根据待识别语音数据的解码路径,获取候选语音识别结果和每个候选语音识别结果的得分,将得分最高的候选语音识别结果确定为待识别语音数据的语音识别结果。
在另一种可能的实现方式中,可通过预先获得的高阶语言模型和待识别语音数据的解码路径,确定待识别语音数据的语音识别结果。具体的,可将待识别语音数据的解码路径输入预先获得的高阶语言模型,获得待识别语音数据的语音识别结果。需要说明的是,高阶语言模型采用领域语言模型对通用语言模型进行插值得到。高阶语言模型能够从多个候选识别结果中选出最佳的识别结果作为待识别语音数据的语音识别结果。
本申请实施例提供的语音识别方法中,由于目标解码网络通过在通用解码网络中融入领域解码网络得到,因此,利用目标解码网络能够对包含特定领域专业词汇的待识别语音进行准确识别。
下面对本申请实施例提供的解码网络构建装置进行描述,下文描述的解码网络构建装置与上文描述的解码网络构建方法可相互对应参照。
请参阅图6,示出了本申请实施例提供的一种解码网络构建装置的结构示意图,该解码网络构建装置可以包括:语言模型和通用解码网络获取模块601、领域解码网络生成模块602和解码网络融合模块603。
语言模型和通用解码网络获取模块601、,用于获取通用语言模型、领域语言模型、以及根据通用语言模型生成的通用解码网络。
领域解码网络生成模块602,用于根据通用语言模型和领域语言模型,生成领域解码网络。
解码网络融合模块603,用于将领域解码网络融入通用解码网络,获得目标解码网络。
本申请实施例提供的解码网络构建装置,通过在通用解码网络中融入领域解码网络,使得最终获得的目标解码网络除了能够对通用词汇进行准确识别外,还能够对特定领域的专业词汇进行准确识别。本申请实施例构建的目标解码网络相比于通用解码网络,能够提高特定领域专业词汇的语音识别准确率,另外,生成领域解码网络所耗费的时间和所占的存储资源相比于重新生成通用解码网络所耗费的时间和所占的存储资源大大减少。
在一种可能的实现方式中,上述实施例提供的解码网络构建装置中的领域解码网络生成模块602可以包括:插值子模块和领域解码网络生成子模块。
插值子模块,用于对所述通用语言模型和所述领域语言模型进行插值,其中,插值部分为所述领域语言模型和所述通用语言模型中、在所述领域语言模型中出现的部分。
领域解码网络生成子模块,用于根据插值部分生成领域解码网络。
在一种可能的实现方式中,上述实施例提供的解码网络构建装置中的解码网络融合模块603,具体用于将领域解码网络与通用解码网络进行串联,获得目标解码网络。
在一种可能的实现方式中,上述实施例提供的解码网络构建装置中的解码网络融合模块603包括:节点添加子模块和串联子模块。
节点添加子模块,用于分别针对通用解码网络和领域解码网络添加虚拟节点,其中,虚拟节点包括起始节点和结束节点。
串联子模块,用于利用起始节点和结束节点,将通用解码网络与领域解码网络进行串联。
在一种可能的实现方式中,串联子模块,具体用于将针对通用解码网络创建的结束节点与针对领域解码网络创建的起始节点按结束节点指向起始节点进行有向连接;将针对领域解码网络创建的结束节点与针对通用解码网络创建的起始节点按结束节点指向起始节点进行有向连接。
与上述语音识别方法相对应,本申请实施例还提供了一种语音识别装置,请参阅图7,示出了该语音识别装置的结构示意图,可以包括:解码模块701和语音识别结果确定模块702。
解码模块701,用于利用上述实施例提供的解码网络构建装置构建的目标解码网络对待识别语音数据进行解码,获得待识别语音数据的解码路径。
语音识别结果确定模块702,用于根据待识别语音数据的解码路径,确定待识别语音数据的语音识别结果。
本申请实施例提供的语音识别方法中,由于目标解码网络通过在通用解码网络中融入领域解码网络得到,因此,利用目标解码网络能够对包含特定领域专业词汇的待识别语音进行准确识别。
在一种可能的实现方式中,上述实施例提供的语音识别装置中的解码模块701,具体用于通过预先获得的高阶语言模型和待识别语音数据的解码路径,确定待识别语音数据的语音识别结果;其中,高阶语言模型采用领域语言模型对通用语言模型进行插值得到。
在一种可能的实现方式中,上述实施例提供的语音识别装置中的解码模块701,具体用于将待识别语音数据的各个语音帧依次输入目标解码网络进行解码,获得待识别语音数据的解码路径。
其中,待识别语音数据的各个语音帧经目标解码网络中的两个起始节点分别进入目标解码网络中的通用解码网络和领域解码网络进行解码,当通用解码网络或领域解码网络中的候选解码路径包括结束节点时,从该结束节点跳回与该结束节点连接的至少一个起始节点,以进入通用解码网络和/或领域解码网络中继续解码,直至语音帧结束。
本申请实施例还提供了一种解码网络构建设备,请参阅图8,示出了该解码网络构建设备的结构示意图,该解码网络构建设备可以包括:至少一个处理器801,至少一个通信接口802,至少一个存储器803和至少一个通信总线804;
在本申请实施例中,处理器801、通信接口802、存储器803、通信总线804的数量为至少一个,且处理器801、通信接口802、存储器803通过通信总线804完成相互间的通信;
处理器801可能是一个中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路等;
存储器803可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory)等,例如至少一个磁盘存储器;
其中,存储器存储有程序,处理器可调用存储器存储的程序,所述程序用于:
获取通用语言模型、领域语言模型、以及根据所述通用语言模型生成的通用解码网络;
根据领域语言模型和通用语言模型,生成领域解码网络;
将领域解码网络融入所述通用解码网络,获得目标解码网络。
可选的,所述程序的细化功能和扩展功能可参照上文描述。
本申请实施例还提供一种可读存储介质,该可读存储介质可存储有适于处理器执行的程序,所述程序用于:
获取通用语言模型、领域语言模型、以及根据通用语言模型生成的通用解码网络;
根据领域语言模型和通用语言模型,生成领域解码网络;
将领域解码网络融入通用解码网络,获得目标解码网络。
本申请实施例还提供了一种语音识别设备,请参阅图9,示出了该语音识别设备的结构示意图,该语音识别设备可以包括:至少一个处理器901,至少一个通信接口902,至少一个存储器903和至少一个通信总线904;
在本申请实施例中,处理器901、通信接口902、存储器903、通信总线904的数量为至少一个,且处理器901、通信接口902、存储器903通过通信总线904完成相互间的通信;
处理器901可能是一个中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路等;
存储器903可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory)等,例如至少一个磁盘存储器;
其中,存储器存储有程序,处理器可调用存储器存储的程序,所述程序用于:
利用上述实施例提供的解码网络构建方法构建的目标解码网络对待识别语音数据进行解码,获得待识别语音数据的解码路径;
根据待识别语音数据的解码路径,确定待识别语音数据的语音识别结果。
可选的,所述程序的细化功能和扩展功能可参照上文描述。
本申请实施例还提供一种可读存储介质,该可读存储介质可存储有适于处理器执行的程序,所述程序用于:
利用上述实施例提供的解码网络构建方法构建的目标解码网络对待识别语音数据进行解码,获得待识别语音数据的解码路径;
根据待识别语音数据的解码路径,确定待识别语音数据的语音识别结果。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (16)
1.一种解码网络构建方法,其特征在于,包括:
获取通用语言模型、领域语言模型、以及根据所述通用语言模型生成的通用解码网络;
根据所述领域语言模型和所述通用语言模型,生成领域解码网络;
将所述领域解码网络融入所述通用解码网络,获得目标解码网络。
2.根据权利要求1所述的解码网络构建方法,其特征在于,所述根据所述通用语言模型和所述领域语言模型,生成领域解码网络,包括:
对所述通用语言模型和所述领域语言模型进行插值,其中,插值部分为所述领域语言模型和所述通用语言模型中、在所述领域语言模型中出现的部分;
根据插值部分生成所述领域解码网络。
3.根据权利要求1所述的解码网络构建方法,其特征在于,所述将所述领域解码网络融入所述通用解码网络,获得目标解码网络,包括:
将所述领域解码网络与所述通用解码网络进行串联,获得所述目标解码网络。
4.根据权利要求3所述的解码网络的构建方法,其特征在于,所述将所述领域解码网络与所述通用解码网络进行串联,包括:
分别针对所述通用解码网络和所述领域解码网络添加虚拟节点,所述虚拟节点包括起始节点和结束节点;
利用所述起始节点和所述结束节点,将所述通用解码网络与所述领域解码网络进行串联。
5.根据权利要求4所述的解码网络的构建方法,其特征在于,所述利用所述起始节点和所述结束节点,将所述通用解码网络与所述领域解码网络进行串联,包括:
将针对所述通用解码网络创建的结束节点与针对所述领域解码网络创建的起始节点按结束节点指向起始节点进行有向连接;
将针对所述领域解码网络创建的结束节点与针对所述通用解码网络创建的起始节点按结束节点指向起始节点进行有向连接。
6.一种语音识别方法,其特征在于,包括:
利用如权利要求1~5中任意一项所述的解码网络构建方法构建的目标解码网络对待识别语音数据进行解码,获得所述待识别语音数据的解码路径;
根据所述待识别语音数据的解码路径,确定所述待识别语音数据的语音识别结果。
7.根据权利要求6所述的语音识别方法,其特征在于,所述根据所述待识别语音数据的解码路径,确定所述待识别语音数据的语音识别结果,包括:
通过预先获得的高阶语言模型和所述待识别语音数据的解码路径,确定所述待识别语音数据的语音识别结果;其中,所述高阶语言模型采用领域语言模型对通用语言模型进行插值得到。
8.根据权利要求6所述的语音识别方法,其特征在于,利用所述目标解码网络对所述待识别语音数据进行解码,获得所述待识别语音数据的解码路径包括:
将所述待识别语音数据的各个语音帧依次输入所述目标解码网络进行解码,获得所述待识别语音数据的解码路径;
其中,所述待识别语音数据的各个语音帧经所述目标解码网络中的两个起始节点分别进入所述目标解码网络中的通用解码网络和领域解码网络进行解码,当所述通用解码网络或所述领域解码网络中的候选解码路径包括结束节点时,从该结束节点跳回与该结束节点连接的至少一个起始节点,以进入所述通用解码网络和/或所述领域解码网络中继续解码,直至语音帧结束。
9.一种解码网络构建装置,其特征在于,包括:语言模型和通用解码网络获取模块、领域解码网络生成模块和解码网络融合模块;
所述语言模型和通用解码网络获取模块,用于获取通用语言模型、领域语言模型、以及根据所述通用语言模型生成的通用解码网络;
所述领域解码网络生成模块,用于根据所述通用语言模型和所述领域语言模型,生成领域解码网络;
所述解码网络融合模块,用于将所述领域解码网络融入所述通用解码网络,获得目标解码网络。
10.根据权利要求9所述的解码网络构建装置,其特征在于,所述领域解码网络生成模块包括:插值子模块和领域解码网络生成子模块;
所述插值子模块,用于对所述通用语言模型和所述领域语言模型进行插值,其中,插值部分为所述领域语言模型和所述通用语言模型中、在所述领域语言模型中出现的部分;
所述领域解码网络生成子模块,用于根据所述插值部分生成所述领域解码网络。
11.根据权利要求9所述的解码网络构建装置,其特征在于,所述解码网络融合模块,具体用于将所述领域解码网络与所述通用解码网络进行串联,获得所述目标解码网络。
12.一种语音识别装置,其特征在于,包括:解码模块和语音识别结果确定模块;
所述解码模块,用于利用如权利要求9~11中任意一项所述的解码网络构建装置构建的目标解码网络对待识别语音数据进行解码,获得所述待识别语音数据的解码路径;
所述语音识别结果确定模块,用于根据所述待识别语音数据的解码路径,确定所述待识别语音数据的语音识别结果。
13.一种解码网络构建设备,其特征在于,包括:存储器和处理器;
所述存储器,用于存储程序;
所述处理器,用于执行所述程序,实现如权利要求1~5中任一项所述的解码网络构建方法的各个步骤。
14.一种可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现如权利要求1~5中任一项所述的解码网络构建方法的各个步骤。
15.一种语音识别设备,其特征在于,包括:存储器和处理器;
所述存储器,用于存储程序;
所述处理器,用于执行所述程序,实现如权利要求6~8中任一项所述的语音识别方法的各个步骤。
16.一种可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现如权利要求6~8中任一项所述的语音识别方法的各个步骤。
Priority Applications (6)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910983196.3A CN110610700B (zh) | 2019-10-16 | 2019-10-16 | 解码网络构建方法、语音识别方法、装置、设备及存储介质 |
US17/761,217 US20220375459A1 (en) | 2019-10-16 | 2019-12-12 | Decoding network construction method, voice recognition method, device and apparatus, and storage medium |
PCT/CN2019/124790 WO2021072955A1 (zh) | 2019-10-16 | 2019-12-12 | 解码网络构建方法、语音识别方法、装置、设备及存储介质 |
KR1020227011705A KR102576505B1 (ko) | 2019-10-16 | 2019-12-12 | 디코딩 네트워크 구축 방법, 음성 인식 방법, 디바이스 및 장치, 및 저장 매체 |
EP19949233.1A EP4047597A4 (en) | 2019-10-16 | 2019-12-12 | METHOD FOR CONSTRUCTING A DECODING NETWORK, VOICE RECOGNITION METHOD, APPARATUS AND APPARATUS AND STORAGE MEDIUM |
JP2022517515A JP7278477B2 (ja) | 2019-10-16 | 2019-12-12 | 復号化ネットワーク構築方法、音声認識方法、装置、設備及び記憶媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910983196.3A CN110610700B (zh) | 2019-10-16 | 2019-10-16 | 解码网络构建方法、语音识别方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110610700A true CN110610700A (zh) | 2019-12-24 |
CN110610700B CN110610700B (zh) | 2022-01-14 |
Family
ID=68894690
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910983196.3A Active CN110610700B (zh) | 2019-10-16 | 2019-10-16 | 解码网络构建方法、语音识别方法、装置、设备及存储介质 |
Country Status (6)
Country | Link |
---|---|
US (1) | US20220375459A1 (zh) |
EP (1) | EP4047597A4 (zh) |
JP (1) | JP7278477B2 (zh) |
KR (1) | KR102576505B1 (zh) |
CN (1) | CN110610700B (zh) |
WO (1) | WO2021072955A1 (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111402864A (zh) * | 2020-03-19 | 2020-07-10 | 北京声智科技有限公司 | 语音处理方法及电子设备 |
CN111508478A (zh) * | 2020-04-08 | 2020-08-07 | 北京字节跳动网络技术有限公司 | 语音识别方法和装置 |
CN111933118A (zh) * | 2020-08-17 | 2020-11-13 | 苏州思必驰信息科技有限公司 | 进行语音识别优化的方法、装置及应用其的智能语音对话系统 |
CN111951788A (zh) * | 2020-08-10 | 2020-11-17 | 百度在线网络技术(北京)有限公司 | 一种语言模型的优化方法、装置、电子设备及存储介质 |
CN112820277A (zh) * | 2021-01-06 | 2021-05-18 | 网易(杭州)网络有限公司 | 语音识别服务定制方法、介质、装置和计算设备 |
CN112951237A (zh) * | 2021-03-18 | 2021-06-11 | 深圳奇实科技有限公司 | 一种基于人工智能的自动语音识别方法及系统 |
CN113113024A (zh) * | 2021-04-29 | 2021-07-13 | 科大讯飞股份有限公司 | 语音识别方法、装置、电子设备和存储介质 |
CN113299280A (zh) * | 2021-05-12 | 2021-08-24 | 山东浪潮科学研究院有限公司 | 基于Kaldi的专业词汇语音识别方法 |
CN113782001A (zh) * | 2021-11-12 | 2021-12-10 | 深圳市北科瑞声科技股份有限公司 | 一种特定领域语音识别方法、装置、电子设备及存储介质 |
WO2023035525A1 (zh) * | 2021-09-10 | 2023-03-16 | 平安科技(深圳)有限公司 | 语音识别纠错方法、系统、装置及存储介质 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024096641A1 (ko) * | 2022-11-02 | 2024-05-10 | 삼성전자 주식회사 | 전자 장치 및 전자 장치의 음성 인식 방법 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103065630A (zh) * | 2012-12-28 | 2013-04-24 | 安徽科大讯飞信息科技股份有限公司 | 用户个性化信息语音识别方法及系统 |
CN103077708A (zh) * | 2012-12-27 | 2013-05-01 | 安徽科大讯飞信息科技股份有限公司 | 一种语音识别系统中拒识能力提升方法 |
CN103700369A (zh) * | 2013-11-26 | 2014-04-02 | 安徽科大讯飞信息科技股份有限公司 | 语音导航方法及系统 |
CN104064184A (zh) * | 2014-06-24 | 2014-09-24 | 科大讯飞股份有限公司 | 异构解码网络的构建方法及系统、语音识别方法及系统 |
WO2014183373A1 (en) * | 2013-05-14 | 2014-11-20 | Tencent Technology (Shenzhen) Company Limited | Systems and methods for voice identification |
US9460088B1 (en) * | 2013-05-31 | 2016-10-04 | Google Inc. | Written-domain language modeling with decomposition |
CN106294460A (zh) * | 2015-05-29 | 2017-01-04 | 中国科学院声学研究所 | 一种基于字和词混合语言模型的汉语语音关键词检索方法 |
CN108305634A (zh) * | 2018-01-09 | 2018-07-20 | 深圳市腾讯计算机系统有限公司 | 解码方法、解码器及存储介质 |
CN108538285A (zh) * | 2018-03-05 | 2018-09-14 | 清华大学 | 一种基于多任务神经网络的多样例关键词检测方法 |
CN108932944A (zh) * | 2017-10-23 | 2018-12-04 | 北京猎户星空科技有限公司 | 解码方法及装置 |
WO2019116604A1 (en) * | 2017-12-15 | 2019-06-20 | Mitsubishi Electric Corporation | Speech recognition system |
CN110322884A (zh) * | 2019-07-09 | 2019-10-11 | 科大讯飞股份有限公司 | 一种解码网络的插词方法、装置、设备及存储介质 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5199985B2 (ja) | 2009-11-30 | 2013-05-15 | 日本電信電話株式会社 | 重み付き有限状態トランスデューサ作成装置、作成方法及びプログラム |
CN103971675B (zh) | 2013-01-29 | 2016-03-02 | 腾讯科技(深圳)有限公司 | 自动语音识别方法和系统 |
CN103971686B (zh) * | 2013-01-30 | 2015-06-10 | 腾讯科技(深圳)有限公司 | 自动语音识别方法和系统 |
CN104282301A (zh) * | 2013-07-09 | 2015-01-14 | 安徽科大讯飞信息科技股份有限公司 | 一种语音命令处理方法以及系统 |
JP6358744B2 (ja) * | 2014-08-25 | 2018-07-18 | 日本放送協会 | 音声認識誤り修正装置 |
US10490183B2 (en) | 2017-11-22 | 2019-11-26 | Amazon Technologies, Inc. | Fully managed and continuously trained automatic speech recognition service |
JP6578049B2 (ja) | 2018-09-18 | 2019-09-18 | 日本放送協会 | 学習データ生成装置及びそのプログラム |
CN110120221A (zh) * | 2019-06-06 | 2019-08-13 | 上海蔚来汽车有限公司 | 用于车机系统的用户个性化离线语音识别方法及其系统 |
-
2019
- 2019-10-16 CN CN201910983196.3A patent/CN110610700B/zh active Active
- 2019-12-12 JP JP2022517515A patent/JP7278477B2/ja active Active
- 2019-12-12 EP EP19949233.1A patent/EP4047597A4/en active Pending
- 2019-12-12 KR KR1020227011705A patent/KR102576505B1/ko active IP Right Grant
- 2019-12-12 US US17/761,217 patent/US20220375459A1/en active Pending
- 2019-12-12 WO PCT/CN2019/124790 patent/WO2021072955A1/zh active Application Filing
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103077708A (zh) * | 2012-12-27 | 2013-05-01 | 安徽科大讯飞信息科技股份有限公司 | 一种语音识别系统中拒识能力提升方法 |
CN103065630A (zh) * | 2012-12-28 | 2013-04-24 | 安徽科大讯飞信息科技股份有限公司 | 用户个性化信息语音识别方法及系统 |
WO2014183373A1 (en) * | 2013-05-14 | 2014-11-20 | Tencent Technology (Shenzhen) Company Limited | Systems and methods for voice identification |
US9460088B1 (en) * | 2013-05-31 | 2016-10-04 | Google Inc. | Written-domain language modeling with decomposition |
CN103700369A (zh) * | 2013-11-26 | 2014-04-02 | 安徽科大讯飞信息科技股份有限公司 | 语音导航方法及系统 |
CN104064184A (zh) * | 2014-06-24 | 2014-09-24 | 科大讯飞股份有限公司 | 异构解码网络的构建方法及系统、语音识别方法及系统 |
CN106294460A (zh) * | 2015-05-29 | 2017-01-04 | 中国科学院声学研究所 | 一种基于字和词混合语言模型的汉语语音关键词检索方法 |
CN108932944A (zh) * | 2017-10-23 | 2018-12-04 | 北京猎户星空科技有限公司 | 解码方法及装置 |
WO2019116604A1 (en) * | 2017-12-15 | 2019-06-20 | Mitsubishi Electric Corporation | Speech recognition system |
CN108305634A (zh) * | 2018-01-09 | 2018-07-20 | 深圳市腾讯计算机系统有限公司 | 解码方法、解码器及存储介质 |
CN108538285A (zh) * | 2018-03-05 | 2018-09-14 | 清华大学 | 一种基于多任务神经网络的多样例关键词检测方法 |
CN110322884A (zh) * | 2019-07-09 | 2019-10-11 | 科大讯飞股份有限公司 | 一种解码网络的插词方法、装置、设备及存储介质 |
Non-Patent Citations (2)
Title |
---|
YUHONG GUO 等: "Optimized large vocabulary WFST speech recognition system", 《2012 9TH INTERNATIONAL CONFERENCE ON FUZZY SYSTEMS AND KNOWLEDGE DISCOVERY》 * |
侯云飞: "中文语音关键词检出技术研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111402864A (zh) * | 2020-03-19 | 2020-07-10 | 北京声智科技有限公司 | 语音处理方法及电子设备 |
CN111508478A (zh) * | 2020-04-08 | 2020-08-07 | 北京字节跳动网络技术有限公司 | 语音识别方法和装置 |
CN111951788A (zh) * | 2020-08-10 | 2020-11-17 | 百度在线网络技术(北京)有限公司 | 一种语言模型的优化方法、装置、电子设备及存储介质 |
CN111933118A (zh) * | 2020-08-17 | 2020-11-13 | 苏州思必驰信息科技有限公司 | 进行语音识别优化的方法、装置及应用其的智能语音对话系统 |
CN112820277A (zh) * | 2021-01-06 | 2021-05-18 | 网易(杭州)网络有限公司 | 语音识别服务定制方法、介质、装置和计算设备 |
CN112820277B (zh) * | 2021-01-06 | 2023-08-25 | 网易(杭州)网络有限公司 | 语音识别服务定制方法、介质、装置和计算设备 |
CN112951237A (zh) * | 2021-03-18 | 2021-06-11 | 深圳奇实科技有限公司 | 一种基于人工智能的自动语音识别方法及系统 |
CN113113024A (zh) * | 2021-04-29 | 2021-07-13 | 科大讯飞股份有限公司 | 语音识别方法、装置、电子设备和存储介质 |
CN113299280A (zh) * | 2021-05-12 | 2021-08-24 | 山东浪潮科学研究院有限公司 | 基于Kaldi的专业词汇语音识别方法 |
WO2023035525A1 (zh) * | 2021-09-10 | 2023-03-16 | 平安科技(深圳)有限公司 | 语音识别纠错方法、系统、装置及存储介质 |
CN113782001A (zh) * | 2021-11-12 | 2021-12-10 | 深圳市北科瑞声科技股份有限公司 | 一种特定领域语音识别方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
KR20220062349A (ko) | 2022-05-16 |
EP4047597A1 (en) | 2022-08-24 |
JP2022548718A (ja) | 2022-11-21 |
EP4047597A4 (en) | 2023-11-15 |
KR102576505B1 (ko) | 2023-09-08 |
CN110610700B (zh) | 2022-01-14 |
JP7278477B2 (ja) | 2023-05-19 |
WO2021072955A1 (zh) | 2021-04-22 |
US20220375459A1 (en) | 2022-11-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110610700B (zh) | 解码网络构建方法、语音识别方法、装置、设备及存储介质 | |
WO2017166650A1 (zh) | 语音识别方法及装置 | |
CN111292740B (zh) | 语音辨识系统及其方法 | |
CN109858038B (zh) | 一种文本标点确定方法及装置 | |
CN109215630B (zh) | 实时语音识别方法、装置、设备及存储介质 | |
JP6677419B2 (ja) | 音声対話方法及び装置 | |
KR20220054587A (ko) | 음성 인식 방법 및 관련 제품 | |
JP7418991B2 (ja) | 音声認識方法及び装置 | |
CN108108428B (zh) | 一种构建语言模型的方法、输入法及系统 | |
CN109087645B (zh) | 一种解码网络生成方法、装置、设备及可读存储介质 | |
CN112016275A (zh) | 一种语音识别文本的智能纠错方法、系统和电子设备 | |
CN116884391B (zh) | 基于扩散模型的多模态融合音频生成方法及装置 | |
CN111681661B (zh) | 语音识别的方法、装置、电子设备和计算机可读介质 | |
CN112562640A (zh) | 多语言语音识别方法、装置、系统及计算机可读存储介质 | |
CN113113024A (zh) | 语音识别方法、装置、电子设备和存储介质 | |
CN112579760A (zh) | 人机对话方法、装置、计算机设备及可读存储介质 | |
JP7329393B2 (ja) | 音声信号処理装置、音声信号処理方法、音声信号処理プログラム、学習装置、学習方法及び学習プログラム | |
CN105632500B (zh) | 语音识别装置及其控制方法 | |
JP2021039220A (ja) | 音声認識装置、学習装置、音声認識方法、学習方法、音声認識プログラムおよび学習プログラム | |
CN113724698B (zh) | 语音识别模型的训练方法、装置、设备及存储介质 | |
CN114283786A (zh) | 语音识别方法、装置及计算机可读存储介质 | |
RU2796047C1 (ru) | Способ построения сети декодирования, способ и устройство для распознавания речи, а также носитель данных | |
CN114756693B (zh) | 对话生成方法、相关设备及可读存储介质 | |
CN116450779B (zh) | 文本生成方法及相关装置 | |
CN113838456B (zh) | 音素提取方法、语音识别方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |