CN111583910B - 模型更新方法、装置、电子设备及存储介质 - Google Patents
模型更新方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN111583910B CN111583910B CN201910093092.5A CN201910093092A CN111583910B CN 111583910 B CN111583910 B CN 111583910B CN 201910093092 A CN201910093092 A CN 201910093092A CN 111583910 B CN111583910 B CN 111583910B
- Authority
- CN
- China
- Prior art keywords
- corpus
- decoding network
- node
- language model
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 43
- 238000012549 training Methods 0.000 claims description 9
- 238000004590 computer program Methods 0.000 claims description 5
- 230000008569 process Effects 0.000 description 12
- 230000008859 change Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 238000001514 detection method Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000013138 pruning Methods 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0635—Training updating or merging of old and new templates; Mean values; Weighting
Landscapes
- Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及语音识别技术领域,公开了一种模型更新方法、装置、电子设备及存储介质,所述方法包括:确定语言模型需要更新,语言模型对应的解码网络是基于全量词典构建得到的;根据语料库中的语料,更新语言模型,并确定解码网络中各词节点之间的路径对应的最新概率得分;根据最新概率得分,更新解码网络中对应的词节点之间的路径的概率得分。本发明实施例提供的技术方案,实现了语言模型的在线更新,保证用户能不间断地获取到语音识别服务,提高用户体验。
Description
技术领域
本发明涉及语音识别技术领域,尤其涉及一种模型更新方法、装置、电子设备及存储介质。
背景技术
语音识别的解码过程即基于训练好的声学模型,并结合词典、语言模型,对输入的语音帧序列识别的过程。目前,通常针对不同主题训练该主题专用的语言模型和声学模型,并基于训练好的语言模型、声学模型和该主题的词典来构建解码网络,因此,使用的词典仅包含该主题下的词汇,这类小词典一般包含的词汇量较少。一旦产生了新增的词汇,就需要对语言模型进行重新训练,词典随之也会发生变化,这样一来,原来的解码网络就无法涵盖新增的词汇,此时需要重新构建解码网络。为了能加载重新构建的解码网络,需要重启解码器,重启解码器期间无法正常提供解码服务,而且重启解码器的耗时与词典大小成正比,当词典本身较大,而更新点较少时,这种影响尤为严重。
发明内容
本发明实施例提供一种模型更新方法、装置、电子设备及存储介质,以解决现有技术中更新语言模型时需要重启解码器导致服务中断的问题。
第一方面,本发明一实施例提供了一种模型更新方法,包括:
确定语言模型需要更新,语言模型对应的解码网络是基于全量词典构建得到的;
根据语料库中的语料,更新语言模型,并确定解码网络中各词节点之间的路径对应的最新概率得分;
根据最新概率得分,更新解码网络中对应的词节点之间的路径的概率得分。
第二方面,本发明一实施例提供了一种模型更新装置,包括:
确定模块,用于确定语言模型需要更新,语言模型对应的解码网络是基于全量词典构建得到的;
计算模块,用于根据语料库中的语料,更新语言模型,并确定解码网络中各词节点之间的路径对应的最新概率得分;
更新模块,用于根据最新概率得分,更新解码网络中对应的词节点之间的路径的概率得分。
第三方面,本发明一实施例提供了一种电子设备,包括收发机、存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,收发机用于在处理器的控制下接收和发送数据,处理器执行程序时实现上述任一种方法的步骤。
第四方面,本发明一实施例提供了一种计算机可读存储介质,其上存储有计算机程序指令,该程序指令被处理器执行时实现上述任一种方法的步骤。
本发明实施例提供的技术方案,采用全量词表构建解码网络,因此,当语言模型发生变化时,解码网络中的节点(包括词节点和音素节点)不需要重构,也就是说,不需要重新构建解码网络,也就不需要重启解码器,需要修改的只是因语言模型的变化而导致的各节点之间路径的概率得分的变化,从而实现语言模型的在线更新,保证用户能不间断地获取到语音识别服务,提高用户体验。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例中所需要使用的附图作简单地介绍,显而易见地,下面所介绍的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的模型更新方法的应用场景示意图;
图2为本发明一实施例提供的模型更新方法的流程示意图;
图3为本发明实施例提供的解码网络中局部网络的一个示例;
图4为本发明实施例提供的解码网络中词节点间的路径的一个示例;
图5为本发明实施例提供的解码网络中局部网络的另一个示例;
图6为本发明一实施例提供的模型更新装置的结构示意图;
图7为本发明一实施例提供的电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
为了方便理解,下面对本发明实施例中涉及的名词进行解释:
语言模型(Language Model,LM)的目的是建立一个能够描述给定词序列在语言中的出现的概率的分布。也就是说,语言模型是描述词汇概率分布的模型,一个能可靠反映语言识别时用词的概率分布的模型。语言模型在自然语言处理中占有重要的地位,在语音识别、机器翻译等领域得到了广泛应用。例如,利用语言模型能够得到语音识别多种词序列中可能性最大的一个词序列,或者给定若干词,预测下一个最可能出现的词语等。常用的语言模型包括N-Gram LM(N元语言模型)、Big-Gram LM(二元语言模型)、Tri-Gram LM(三元语言模型)。
声学模型(AM,Acoustic model)是语音识别系统中最为重要的部分之一,是把语音的声学特征分类对应到音素的模型。目前的主流系统多采用隐马尔科夫模型进行建模。
词典是字词对应的音素集合,描述了字词和音素之间的映射关系。
音素(phone),是语音中的最小的单位,依据音节里的发音动作来分析,一个动作构成一个音素。汉语中的音素分为声母、韵母两大类,例如,声母包括:b、p、m、f、d、t、等,韵母包括:a、o、e、i、u、ü、ai、ei、ao、an、ian、ong、iong等。英语中的音素分为元音、辅音两大类,例如,元音有a、e、ai等,辅音有p、t、h等。
前瞻概率(look-ahead probability):为了在解码的中间过程中不会裁剪掉声学得分较低的路径,一般采取将基于语言模型得到的表征各个词出现的频率的出现概率分值分解至树杈的技术即语言模型look-ahead技术,即在解码网络中音素节点到词节点的路径上就引入词节点对应的出现概率分值,并且将出现概率分值中的最大值作为音素节点到所有能够到达的词节点的路径上的前瞻概率,在计算音素节点到词节点的路径的得分时,将前瞻概率增加到该路径的得分中,这样可显著提高一些声学得分较低但概率得分较高的路径的得分,以避免剪枝过程中剪去这类路径。
附图中的任何元素数量均用于示例而非限制,以及任何命名都仅用于区分,而不具有任何限制含义。
在具体实践过程中,通常针对不同主题训练该主题专用的语言模型和声学模型,并基于训练好的语言模型、声学模型和该主题的词典来构建解码网络,因此,使用的词典仅包含该主题下的词汇,这类小词典一般包含的词汇量较少。一旦产生了新增的词汇,就需要对语言模型进行重新训练,词典随之也会发生变化,这样一来,原来的解码网络就无法涵盖新增的词汇,此时需要重新构建解码网络。为了能加载重新构建的解码网络,需要重启解码器,重启解码器期间无法正常提供解码服务,而且重启解码器的耗时与词典大小成正比,当词典本身较大,而更新点较少时,这种影响尤为严重。
为此,本发明的发明人考虑到,采用包含大量常用词汇的全量词典、声学模型以及语言模型构建解码网络,例如,该全量词典包含的词汇量在10万以上,因此能够涵盖多个领域不同的主题,并预先将解码网络加载到解码器中,同时基于语料库中的语料训练得到语言模型,基于解码网络即可进行语音识别。当语料库新增语料时,基于新增的语料对于语言模型进行训练,以更新语言模型,基于更新后的语言模型确定解码网络中各词节点之间的路径的最新概率得分,并根据最新概率得分更新解码网络中各路径的概率得分,以使解码器利用更新概率得分后的解码网络进行解码。在上述更新过程中,由于构建解码网络时使用的是全量词典,因此,解码网络中的节点不需要重构,需要修改的只是因语言模型的变化而导致的各节点之间路径的概率得分的变化,也就是说,更新语言模型的过程中,不需要重新构建解码网络,也就不需要重启解码器,因此,能够提供不间断的语音识别服务。
在介绍了本发明的基本原理之后,下面具体介绍本发明的各种非限制性实施方式。
首先参考图1,其为本发明实施例提供的模型更新方法的应用场景示意图。用户10与智能设备11交互过程中,智能设备11将用户10输入的语音信号发送给服务器12,服务器12通过解码器中的解码网络对语音信号进行解码处理,得到语音信号对应的文本信息,并将解码得到的文本信息反馈给智能设备11,完成语音识别服务。
这种应用场景下,智能设备11和服务器12之间通过网络进行通信连接,该网络可以为局域网、广域网等。智能设备11可以为智能音箱、机器人等,也可以为便携设备(例如:手机、平板、笔记本电脑等),还可以为个人电脑(PC,Personal Computer),服务器12可以为任何能够提供语音识别服务的服务器设备。
下面结合图1所示的应用场景,对本发明实施例提供的技术方案进行说明。
参考图2,本发明实施例提供一种模型更新方法,包括以下步骤:
步骤S201、确定语言模型需要更新,语言模型对应的解码网络是基于全量词典构建得到的。
本实施例中的全量词典为包含大量常用词汇的词典。解码网络为基于全量词典、语言模型和声学模型得到的表示音素与词以及词与词之间关系的网络图。具体实施时,全量词典包含的词汇的数量在10万以上,能够涵盖多个领域不同的主题,全量词典中的词汇包括字和词语。语言模型是基于语料库中的语料训练得到的,全量词典能够覆盖语料库中包含的词汇。
具体实施时,可按照如下步骤,基于全量词典、声学模型以及语言模型构建解码网络:
第一步,把全量词典中的所有词汇转换为音素串,例如,“开”的音素串为“k-ai”,“北京”的音素串为“b-ei-j-ing”,一个词汇的音素串以及该词汇组成一条路径,例如,“开”对应的路径为“k-ai-开,“北京”对应的路径为“b-ei-j-ing-北京”。
第二步,对全量词典中所有词汇对应的路径中的节点进行合并,即将各路径中相同的音素合并为一个节点,以将所有词汇对应的音素串组成一个网络,一个音素作为该网络中的一个音素节点。
图3给出了解码网络中局部网络的一个示例。其中,“卡”、“开”、“科”等词的音素串中的“k”合并为一个网络中的一个节点。网络中每条路径的最后一个节点对应该条路径上的音素组成的音素串对应的词汇,如图3中,“k-a-卡”对应的词为“卡”,“k-a-ch-e-卡车”对应的词为“卡车”。
为描述方便,本实施例中,将解码网络中的音素对应的节点称为音素节点,将词汇对应的节点称为词节点。
由于大量相同的节点被合并在一起,因此可以显著降低搜索空间的规模,减少解码过程的运算量。基于词典构建解码网络的方法为现有技术,不再赘述。
第三步,根据声学模型确定上述第二步中构建的解码网络中相连的音素节点间的声学得分。
第四步,根据语言模型确定全量词典中词和词之间的连接关系和概率得分,根据连接关系在上述第三步中构建的解码网络中建立词与词之间的连接路径,并在路径上标记上该路径对应的概率得分。
本实施例中,根据语言模型能够确定在一个词W1之后出现另一个词W2的条件概率p(W2|W1),将条件概率p(W2|W1)作为词W1和W2之间的概率得分,并在解码网络中W1到W2的路径上标记上概率得分p(W2|W1)。
例如,训练语言模型的语料中包括“我家在北京”,语料中的词汇包括“我”、“家”、“在”、“北京”,则在解码网络中,词节点“我”和“家”之间相连,“家”和“在”之相连,“在”和“北京”之间建立连接,再根据语言模型确定“我”和“家”、“家”和“在”、“在”和“北京”之间的概率得分。如图4为解码网络中词节点间的路径的一个示例,图4中隐去了音素节点和词节点间的网络关系。需要说明的是,解码网络中词节点和词节点之间实际的连接方式如图5所示,词节点“我”与“家”的第一个音素节点连接,SA1、SA2、SA3表示声学得分,SL1表示词节点“我”与“家”之间的概率得分。
通过上述四个步骤就可以得到基于全量词典、声学模型以及语言模型构建的解码网络。
步骤S202、根据语料库中的语料,更新语言模型,并确定解码网络中各词节点之间的路径对应的最新概率得分。
步骤S203、根据最新概率得分,更新解码网络中对应的词节点之间的路径的概率得分。
具体实施时,根据语料库中的语料更新语言模型,并根据更新后的语言模型重新确定语料库中出现的各个词之间的条件概率,作为对应的各词节点之间的路径对应的最新概率得分,将解码网络中各词节点之间的路径上的概率得分更新为对应的最新概率得分。
基于上述任一实施例,基于更新后的语言模型进行语音识别过程大致为:对语音信号进行预处理,提取语音信号的声学特征向量,然后,将声学特征向量输入声学模型,得到音素序列;基于音素序列,在解码网络中搜索一条得分最高的路径作为最优路径,最优路径对应的文字序列确定为语音信号的识别结果。
其中,路径的得分根据路径上的声学得分和概率得分确定,具体可通过以下公式计算一条路径上的解码得分:
其中,L为一条解码路径,SAi为路径L上的第i个声学得分,SLj为路径L上的第j个概率得分。以图5为例,解码结果“我家”的得分为(logSA1+logSA2+logSA3+log SL1)。
由于已经预先将解码网络预先加载到解码器中,一旦检测到需要更新语言模型,只需要根据更新后的语言模型重新计算解码网络中各词节点间路径上的概率得分,就可以将更新后的语言模型带来的变化引入解码网络,解码器利用更新概率得分后的解码网络进行路径搜索,就可以解出正确结果。
本发明实施例的方法,基于包含大量常用词汇的全量词典构建解码网络,例如,该全量词典包含的词汇量在10万以上,因此能够涵盖多个领域不同的主题,并预先将解码网络加载到解码器中,同时基于语料库中的语料训练得到语言模型,基于解码网络即可进行语音识别。当语料库新增语料时,基于新增的语料对于语言模型进行训练,以更新语言模型,基于更新后的语言模型确定解码网络中各词节点之间的路径的最新概率得分,并根据最新概率得分更新解码网络中各路径的概率得分,以使解码器利用更新概率得分后的解码网络进行解码。在上述更新过程中,由于构建解码网络时使用的是全量词典,因此,解码网络中的节点(包括词节点和音素节点)不需要重构,也就是说,不需要重新构建解码网络,也就不需要重启解码器,只需要基于更新后的语言模型更新解码网络中各词节点间路径上的概率得分,从而实现语言模型的在线更新,保证用户能不间断地获取到语音识别服务,提高用户体验。
进一步地,可通过如下步骤确定语言模型需要更新:检测语料库中的语料是否有更新;若语料库中的语料有更新,确定语言模型需要更新。
具体实施时,收集到的语料存储在语料库中,可定时或周期性检测语料库中的语料是否有更新,若检测到语料库中的语料有更新,则利用语料库中的语料对语言模型进行训练,以更新语言模型。其中,检测的时间或检测周期可根据实际情况进行设置,本实施例不作限定。通过设置定时或周期性检测的任务,能够定时检测语料库是否有更新,并及时更新语言模型,使得模型更新的过程更加自动化,节省了人力。
作为一种可能的实现方式,可通过如下步骤检测语料库中的语料是否有更新:计算语料库中所有语料的第一摘要值;将第一摘要值与第二摘要值进行比较,若第一摘要值与第二摘要值不相同,则确认语料库中的语料有更新;若第一摘要值与第二摘要值相同,则表明语料库中的语料未发生更新,则不需要更新语言模型。其中,第二摘要值为最近一次更新后语料库中所有语料的摘要值。
具体实施时,可采用MD5消息摘要算法(MD5Message-Digest Algorithm)生成语料库中所有语料的摘要值。每次更新完语言模型后,可存储语料库对应的第一摘要值,作为下一次检测语料库是否有更新时使用的第二摘要值。
基于上述任一实施例,解码网络中各个音素节点到该音素节点能够到达的所有词节点的路径上还包括前瞻概率。基于前瞻概率,在根据音素序列搜索对应的词序列的过程中,路径的得分需要加上该路径上的前瞻概率,即,在路径搜索时,路径L的中间得分为:
其中,SAi为路径L上的第i个声学得分,SLj为路径L上的第j个概率得分,LAn为路径L上的第n个前瞻概率。加上前瞻概率后,就可以在剪枝过程中提高一些路径的得分,防止其被裁剪掉,然后,在搜索到各条可能路径后,再减去路径上的前瞻概率,得到各条路径对应的得分,即路径的最终得分为:
最后,选取Score值最高的路径作为解码结果。
在构建解码网络时,根据构建时使用的语言模型确定解码网络中各个音素节点到该音素节点能够到达的所有词节点的路径的前瞻概率。具体地,前瞻概率可通过以下公式计算得到:
其中,W(s)是指从解码网络中的一个音素节点s开始可以到达的词节点对应的词的集合,h为训练语言模型使用的语料,p(w|h)为集合W(s)中的词w在对应的出现频率分值,该出现频率分值用于表征词w在语料库中出现的频率。
本实施例中,将W(s)中的词在解码网络中对应的词节点称为音素节点s对应的目标词节点。作为一种可能的实现方式,通过如下方式确定各个词节点对应的出现频率分值:
基于语料库中的语料,确定解码网络中与语料库中的语料对应的词节点在语料库中出现的频率;以及针对语料库中的语料对应的词节点,对该词节点的频率进行归一化,得到该词节点对应的出现频率分值。
本实施例中,每个词节点对应的出现频率分值的取值在[0,1]范围内。
举例说明,以图3中的节点“k”为例,以节点“k”为路径的起点可到达的目标词节点对应的词的集合为{卡,卡车,开,开门,凯旋,科,课},基于语料库,统计集合{卡,卡车,开,开门,凯旋,科,课}中的各个词在语料库中出现的频率,对集合{卡,卡车,开,开门,凯旋,科,课}中的各个词的频率进行归一化,得到各个词对应的出现频率分值p(卡|h)、p(卡车|h)、p(开|h)、p(开门|h)、p(凯旋|h)、p(科|h)、p(课|h),取这些出现频率分值中最大的出现频率分值,作为在解码网络中,节点“k”到集合{卡,卡车,开,开门,凯旋,科,课}中的各个词节点的路径的前瞻概率,利用根据语言模型确定出的节点“k”对应的所有目标词节点的出现频率分值中的最大值,作为节点“k”到所有目标词节点的所有路径的得分,以避免在利用解码网络解码的过程中剪去节点“k”对应的路径中声学得分较低的路径。
相应地,在确定语言模型需要更新之后,本发明实施例的模型更新方法还包括以下步骤:根据解码网络中各词节点在语料库中出现的频率,得到各个词节点对应的出现频率分值;针对解码网络中的每个音素节点,选择音素节点对应的各目标词节点的出现频率分值中的最大值,确定为音素节点到各目标词节点的路径的最新前瞻概率,目标词节点为以音素节点为起点沿解码网络中的路径能够到达的词节点;根据最新前瞻概率,更新解码网络中的音素节点到目标词节点的路径的前瞻概率。
进一步地,根据解码网络中各词节点在语料库中出现的频率,得到各个词节点对应的出现频率分值,包括:确定解码网络中与语料库中的语料对应的词节点在语料库中出现的频率;针对语料库中的语料对应的词节点,对该词节点的频率进行归一化,得到该词节点对应的出现频率分值。
同样,在更新解码网络中的前瞻概率时,不需要修改解码网络中的节点(包括词节点和音素节点)。一旦检测到需要更新语言模型,只需要根据更新后的语言模型重新计算解码网络中各音素节点到目标词节点的路径的前瞻概率,就可以将更新后的语言模型带来的变化引入解码网络,防止在路径修剪时裁剪掉声学得分较低的路径,解码器利用更新了前瞻概率后的解码网络进行路径搜索,就可以解出正确结果。
如图6所示,基于与上述模型更新方法相同的发明构思,本发明实施例还提供了一种模型更新装置60,包括确定模块601、计算模块602和更新模块603。
确定模块601,用于确定语言模型需要更新,语言模型对应的解码网络是基于全量词典构建得到的;
计算模块602,用于根据语料库中的语料,更新语言模型,并确定解码网络中各词节点之间的路径对应的最新概率得分;
更新模块603,用于根据最新概率得分,更新解码网络中对应的词节点之间的路径的概率得分。
进一步地,确定模块601具体用于:检测语料库中的语料是否有更新;若语料库中的语料有更新,确定语言模型需要更新。
进一步地,确定模块601具体用于:计算语料库中所有语料的第一摘要值;将第一摘要值与第二摘要值进行比较,若不相同,则确认语料库中的语料有更新,第二摘要值为最近一次更新后语料库中所有语料的摘要值。
基于上述任一实施例,本发明实施例的模型更新装置60还包括前瞻概率更新模块,用于:
在确定语言模型需要更新之后,根据解码网络中各词节点在语料库中出现的频率,得到各个词节点对应的出现频率分值;
针对解码网络中的每个音素节点,选择音素节点对应的各目标词节点的出现频率分值中的最大值,确定为音素节点到各目标词节点的路径的最新前瞻概率,目标词节点为以音素节点为起点沿解码网络中的路径能够到达的词节点;
根据最新前瞻概率,更新解码网络中的音素节点到目标词节点的路径的前瞻概率。
进一步地,前瞻概率更新模块具体用于:确定解码网络中与语料库中的语料对应的词节点在语料库中出现的频率;针对语料库中的语料对应的词节点,对该词节点的频率进行归一化,得到该词节点对应的出现频率分值。
本发明实施例提的模型更新装置与上述模型更新方法采用了相同的发明构思,能够取得相同的有益效果,在此不再赘述。
基于与上述模型更新方法相同的发明构思,本发明实施例还提供了一种电子设备,该电子设备具体可以为智能设备(如机器人,智能音箱等)的控制器,也可以为桌面计算机、便携式计算机、智能手机、平板电脑、个人数字助理(Personal Digital Assistant,PDA)、服务器等。如图7所示,该电子设备70可以包括处理器701、存储器702和收发机703。收发机703用于在处理器701的控制下接收和发送数据。
存储器702可以包括只读存储器(ROM)和随机存取存储器(RAM),并向处理器提供存储器中存储的程序指令和数据。在本发明实施例中,存储器可以用于存储模型更新方法的程序。
处理器701可以是CPU(中央处埋器)、ASIC(Application Specific IntegratedCircuit,专用集成电路)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)或CPLD(Complex Programmable Logic Device,复杂可编程逻辑器件)处理器通过调用存储器存储的程序指令,按照获得的程序指令实现上述任一实施例中的模型更新方法。
本发明实施例提供了一种计算机可读存储介质,用于储存为上述电子设备所用的计算机程序指令,其包含用于执行上述模型更新方法的程序。
上述计算机存储介质可以是计算机能够存取的任何可用介质或数据存储设备,包括但不限于磁性存储器(例如软盘、硬盘、磁带、磁光盘(MO)等)、光学存储器(例如CD、DVD、BD、HVD等)、以及半导体存储器(例如ROM、EPROM、EEPROM、非易失性存储器(NAND FLASH)、固态硬盘(SSD))等。
以上所述,以上实施例仅用以对本申请的技术方案进行了详细介绍,但以上实施例的说明只是用于帮助理解本发明实施例的方法,不应理解为对本发明实施例的限制。本技术领域的技术人员可轻易想到的变化或替换,都应涵盖在本发明实施例的保护范围之内。
Claims (10)
1.一种模型更新方法,其特征在于,包括:
确定语言模型需要更新,所述语言模型对应的解码网络是基于全量词典构建得到的;其中,所述全量词典包含的词汇涵盖多个领域不同的主题;所述语言模型是基于语料库中的语料训练得到的,所述全量词典能够覆盖所述语料库中包含的词汇;
根据语料库中的语料,更新所述语言模型,并确定所述解码网络中各词节点之间的路径对应的最新概率得分;其中,所述解码网络中各词节点之间的路径为根据所述全量词典中词和词之间的连接关系确定的;
根据所述最新概率得分,更新所述解码网络中对应的词节点之间的路径的概率得分。
2.根据权利要求1所述的方法,其特征在于,所述确定语言模型需要更新,包括:
检测所述语料库中的语料是否有更新;
若所述语料库中的语料有更新,确定语言模型需要更新。
3.根据权利要求2所述的方法,其特征在于,所述检测所述语料库中的语料是否有更新,包括:
计算所述语料库中所有语料的第一摘要值;
将所述第一摘要值与第二摘要值进行比较,若不相同,则确认所述语料库中的语料有更新,所述第二摘要值为最近一次更新后所述语料库中所有语料的摘要值。
4.根据权利要求1至3中任一所述的方法,其特征在于,在确定语言模型需要更新之后,还包括:
根据所述解码网络中各词节点在所述语料库中出现的频率,得到各个词节点对应的出现频率分值;
针对所述解码网络中的每个音素节点,选择所述音素节点对应的各目标词节点的出现频率分值中的最大值,确定为所述音素节点到所述各目标词节点的路径的最新前瞻概率,所述目标词节点为以所述音素节点为起点沿所述解码网络中的路径能够到达的词节点;
根据所述最新前瞻概率,更新所述解码网络中的音素节点到目标词节点的路径的前瞻概率。
5.根据权利要求4所述的方法,其特征在于,根据所述解码网络中各词节点在所述语料库中出现的频率,得到各个词节点对应的出现频率分值,包括:
确定所述解码网络中与所述语料库中的语料对应的词节点在所述语料库中出现的频率;
针对所述语料库中的语料对应的词节点,对该词节点的频率进行归一化,得到该词节点对应的出现频率分值。
6.一种模型更新装置,其特征在于,包括:
确定模块,用于确定语言模型需要更新,所述语言模型对应的解码网络是基于全量词典构建得到的;其中,所述全量词典包含的词汇涵盖多个领域不同的主题;所述语言模型是基于语料库中的语料训练得到的,所述全量词典能够覆盖所述语料库中包含的词汇;
计算模块,用于根据语料库中的语料,更新所述语言模型,并确定所述解码网络中各词节点之间的路径对应的最新概率得分;其中,所述解码网络中各词节点之间的路径为根据所述全量词典中词和词之间的连接关系确定的;
更新模块,用于根据所述最新概率得分,更新所述解码网络中对应的词节点之间的路径的概率得分。
7.根据权利要求6所述的装置,其特征在于,所述确定模块具体用于:
检测所述语料库中的语料是否有更新;
若所述语料库中的语料有更新,确定语言模型需要更新。
8.根据权利要求6或7所述的装置,其特征在于,还包括前瞻概率更新模块,用于:
在确定语言模型需要更新之后,根据所述解码网络中各词节点在所述语料库中出现的频率,得到各个词节点对应的出现频率分值;
针对所述解码网络中的每个音素节点,选择所述音素节点对应的各目标词节点的出现频率分值中的最大值,确定为所述音素节点到所述各目标词节点的路径的最新前瞻概率,所述目标词节点为以所述音素节点为起点沿所述解码网络中的路径能够到达的词节点;
根据所述最新前瞻概率,更新所述解码网络中的音素节点到目标词节点的路径的前瞻概率。
9.一种电子设备,包括收发机、存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述收发机用于在所述处理器的控制下接收和发送数据,所述处理器执行所述程序时实现权利要求1至5任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序指令,其特征在于,该程序指令被处理器执行时实现权利要求1至5任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910093092.5A CN111583910B (zh) | 2019-01-30 | 2019-01-30 | 模型更新方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910093092.5A CN111583910B (zh) | 2019-01-30 | 2019-01-30 | 模型更新方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111583910A CN111583910A (zh) | 2020-08-25 |
CN111583910B true CN111583910B (zh) | 2023-09-26 |
Family
ID=72112901
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910093092.5A Active CN111583910B (zh) | 2019-01-30 | 2019-01-30 | 模型更新方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111583910B (zh) |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1063299A (ja) * | 1996-08-21 | 1998-03-06 | Matsushita Electric Ind Co Ltd | ベクトル量子化装置 |
US6574595B1 (en) * | 2000-07-11 | 2003-06-03 | Lucent Technologies Inc. | Method and apparatus for recognition-based barge-in detection in the context of subword-based automatic speech recognition |
JP2011164336A (ja) * | 2010-02-09 | 2011-08-25 | Nippon Telegr & Teleph Corp <Ntt> | 音声認識装置、重みベクトル学習装置、音声認識方法、重みベクトル学習方法、プログラム |
CN102982811A (zh) * | 2012-11-24 | 2013-03-20 | 安徽科大讯飞信息科技股份有限公司 | 一种基于实时解码的语音端点检测方法 |
CN103871403A (zh) * | 2012-12-13 | 2014-06-18 | 北京百度网讯科技有限公司 | 建立语音识别模型的方法、语音识别方法及对应装置 |
WO2014101717A1 (zh) * | 2012-12-28 | 2014-07-03 | 安徽科大讯飞信息科技股份有限公司 | 用户个性化信息语音识别方法及系统 |
WO2015021844A1 (en) * | 2013-08-15 | 2015-02-19 | Tencent Technology (Shenzhen) Company Limited | Keyword detection for speech recognition |
CN104391963A (zh) * | 2014-12-01 | 2015-03-04 | 北京中科创益科技有限公司 | 一种自然语言文本关键词关联网络构建方法 |
CN105845128A (zh) * | 2016-04-06 | 2016-08-10 | 中国科学技术大学 | 基于动态剪枝束宽预测的语音识别效率优化方法 |
CN106469554A (zh) * | 2015-08-21 | 2017-03-01 | 科大讯飞股份有限公司 | 一种自适应的识别方法及系统 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB2409750B (en) * | 2004-01-05 | 2006-03-15 | Toshiba Res Europ Ltd | Speech recognition system and technique |
US8301449B2 (en) * | 2006-10-16 | 2012-10-30 | Microsoft Corporation | Minimum classification error training with growth transformation optimization |
US20130054224A1 (en) * | 2011-08-30 | 2013-02-28 | Dublin City University | Method and system for enhancing text alignment between a source language and a target language during statistical machine translation |
CN105869624B (zh) * | 2016-03-29 | 2019-05-10 | 腾讯科技(深圳)有限公司 | 数字语音识别中语音解码网络的构建方法及装置 |
-
2019
- 2019-01-30 CN CN201910093092.5A patent/CN111583910B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1063299A (ja) * | 1996-08-21 | 1998-03-06 | Matsushita Electric Ind Co Ltd | ベクトル量子化装置 |
US6574595B1 (en) * | 2000-07-11 | 2003-06-03 | Lucent Technologies Inc. | Method and apparatus for recognition-based barge-in detection in the context of subword-based automatic speech recognition |
JP2011164336A (ja) * | 2010-02-09 | 2011-08-25 | Nippon Telegr & Teleph Corp <Ntt> | 音声認識装置、重みベクトル学習装置、音声認識方法、重みベクトル学習方法、プログラム |
CN102982811A (zh) * | 2012-11-24 | 2013-03-20 | 安徽科大讯飞信息科技股份有限公司 | 一种基于实时解码的语音端点检测方法 |
CN103871403A (zh) * | 2012-12-13 | 2014-06-18 | 北京百度网讯科技有限公司 | 建立语音识别模型的方法、语音识别方法及对应装置 |
WO2014101717A1 (zh) * | 2012-12-28 | 2014-07-03 | 安徽科大讯飞信息科技股份有限公司 | 用户个性化信息语音识别方法及系统 |
WO2015021844A1 (en) * | 2013-08-15 | 2015-02-19 | Tencent Technology (Shenzhen) Company Limited | Keyword detection for speech recognition |
CN104391963A (zh) * | 2014-12-01 | 2015-03-04 | 北京中科创益科技有限公司 | 一种自然语言文本关键词关联网络构建方法 |
CN106469554A (zh) * | 2015-08-21 | 2017-03-01 | 科大讯飞股份有限公司 | 一种自适应的识别方法及系统 |
CN105845128A (zh) * | 2016-04-06 | 2016-08-10 | 中国科学技术大学 | 基于动态剪枝束宽预测的语音识别效率优化方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111583910A (zh) | 2020-08-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11238845B2 (en) | Multi-dialect and multilingual speech recognition | |
US11776531B2 (en) | Encoder-decoder models for sequence to sequence mapping | |
US20210390271A1 (en) | Neural machine translation systems | |
CN110473531B (zh) | 语音识别方法、装置、电子设备、系统及存储介质 | |
CN109754809B (zh) | 语音识别方法、装置、电子设备及存储介质 | |
KR102375115B1 (ko) | 엔드-투-엔드 모델들에서 교차-언어 음성 인식을 위한 음소-기반 컨텍스트화 | |
KR20210150497A (ko) | 음성 인식을 위한 컨텍스트 바이어싱 | |
JP6222821B2 (ja) | 誤り修正モデル学習装置、及びプログラム | |
CN109074517B (zh) | 全局归一化神经网络 | |
CN111508497B (zh) | 语音识别方法、装置、电子设备及存储介质 | |
US10360904B2 (en) | Methods and apparatus for speech recognition using a garbage model | |
CN113743117B (zh) | 用于实体标注的方法和装置 | |
KR20180062003A (ko) | 음성 인식 오류 교정 방법 | |
CN113223506B (zh) | 语音识别模型训练方法及语音识别方法 | |
CN112071310B (zh) | 语音识别方法和装置、电子设备和存储介质 | |
Raval et al. | Improving deep learning based automatic speech recognition for Gujarati | |
CN111862960A (zh) | 发音错误检测方法、装置、电子设备及存储介质 | |
CN111583910B (zh) | 模型更新方法、装置、电子设备及存储介质 | |
Panadan | COMPARATIVE STUDY OF STATISTICAL AND NEURAL NETWORK LANGUAGE MODELLING IN SENTENCE GENERATION | |
CN113421587A (zh) | 语音评测的方法、装置、计算设备及存储介质 | |
Abdelbaqy | Robotic Speech Recognition System |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |