CN114783419B - 结合先验知识的文本识别方法、装置、计算机设备 - Google Patents
结合先验知识的文本识别方法、装置、计算机设备 Download PDFInfo
- Publication number
- CN114783419B CN114783419B CN202210701906.0A CN202210701906A CN114783419B CN 114783419 B CN114783419 B CN 114783419B CN 202210701906 A CN202210701906 A CN 202210701906A CN 114783419 B CN114783419 B CN 114783419B
- Authority
- CN
- China
- Prior art keywords
- phoneme
- text
- target
- original
- probability
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 62
- 238000003780 insertion Methods 0.000 claims description 41
- 230000037431 insertion Effects 0.000 claims description 41
- 238000012217 deletion Methods 0.000 claims description 40
- 230000037430 deletion Effects 0.000 claims description 40
- 238000006243 chemical reaction Methods 0.000 claims description 33
- 230000008569 process Effects 0.000 claims description 19
- 238000004364 calculation method Methods 0.000 claims description 16
- 238000004422 calculation algorithm Methods 0.000 claims description 13
- 238000010845 search algorithm Methods 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 10
- 238000012545 processing Methods 0.000 abstract description 4
- 230000002159 abnormal effect Effects 0.000 description 5
- 239000011159 matrix material Substances 0.000 description 4
- 238000012360 testing method Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/025—Phonemes, fenemes or fenones being the recognition units
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Character Discrimination (AREA)
Abstract
本申请涉及语言处理领域,特别是涉及到一种结合先验知识的文本识别方法、装置、设备及介质,所述方法包括如下步骤:获取待识别文本;对所述待识别文本进行解码,得到候选词列表;读取各音素的先验数值,基于所述先验数值计算所候选词列表中各原始音素与各目标音素间的距离,得到所述各原始音素与所述各目标音素间的编辑距离;基于所述编辑距离计算所述各原始音素与所述各目标音素间的偏差,得到所述各原始音素与所述各目标音素间的偏差概率;根据所述偏差概率计算所述各目标音素的阈值,得到所述各目标音素的音素阈值;基于所述音素阈值确定所述待识别文本的识别结果。本申请结合模型先验知识对文本进行识别,从而提高文本识别的准确性。
Description
技术领域
本申请涉及到语音识别领域,特别是涉及到结合先验知识的文本识别方法、装置、计算机设备及可读存储介质。
背景技术
随着计算机处理能力的迅速提高,语音识别技术得到了飞速发展,并被广泛应用于诸如语音输入系统、语音控制系统和智能对话查询系统等领域。语音识别技术通过识别和解析过程把语音信号转变为相应的文本,再对文本进行识别,以获取相应的语音识别结果。但在进行相应的文本识别的过程中,由于干扰音素的存在,造成获取的语音识别结果存在偏差,目前,提高语音识别的准确性是需要解决的问题。
发明内容
本申请的主要目的为提供结合先验知识的文本识别方法、装置、计算机设备及存储介质,旨在解决目前语音识别不准确的问题
为了实现上述发明目的,本申请提出一种结合先验知识的文本识别方法,包括:
获取待识别文本;
对所述待识别文本进行解码,得到候选词列表;
读取各音素的先验数值,基于所述先验数值计算所候选词列表中各原始音素与各目标音素间的距离,得到所述各原始音素与所述各目标音素间的编辑距离;
基于所述编辑距离计算所述各原始音素与所述各目标音素间的偏差,得到所述各原始音素与所述各目标音素间的偏差概率;
根据所述偏差概率计算所述各目标音素的阈值,得到所述各目标音素的音素阈值;
基于所述音素阈值确定所述待识别文本的识别结果。
进一步地,所述对所述待识别文本进行解码,得到候选词列表,包括:
通过Beam Search算法和动态规划算法对所述待识别文本进行解码,得到多条最优解码路径;
根据所述多条最优解码路径中的候选词生成候选词列表。
进一步地,所述读取各音素的先验数值,基于所述先验数值计算所候选词列表中各原始音素与各目标音素间的距离,得到所述各原始音素与所述各目标音素间的编辑距离,包括:
读取各音素的先验数值;
将所述先验数值分别作为所述候选词列表中各原始音素的初始值和将要转换为各目标音素的初始值;
将所述各原始音素转换为对应的所述各目标音素,转换过程中对应的将所述各原始音素的初始值与所述各目标音素的初始值相减,得到所述各原始音素与所述各目标音素间的编辑距离,所述编辑距离均取转换过程中的最小值。
进一步地,所述基于所述编辑距离计算所述各原始音素与所述各目标音素间的偏差,得到所述各原始音素与所述各目标音素间的偏差概率,包括:
统计所述各原始音素转换为对应的所述各目标音素时的插入、删除、替换、匹配次数,同时统计转换总次数;
将所述插入、删除、替换、匹配次数分别除以所述转换总次数,得到所述各原始音素与所述各目标音素间的偏差概率,所述偏差概率包括插入概率、删除概率、替换概率、匹配概率。
进一步地,所述基于所述编辑距离计算所述各原始音素与所述各目标音素间的偏差,得到所述各原始音素与所述各目标音素间的偏差概率之后,还包括:
在所述各目标音素中,当存在未知所述偏差概率的特殊音素时,对所述特殊音素给予赋值,同时取所述各目标音素中对应的所述插入概率、所述删除概率、所述替换概率、所述匹配概率的最小值与所述赋值相乘,得到所述特殊音素对应的所述插入概率、所述删除概率、所述替换概率、所述匹配概率。
进一步地,所述根据所述偏差概率计算所述各目标音素的阈值,得到所述各目标音素的音素阈值,包括:
将获取的所述偏差概率作为所述各原始音素的初始数值,递推计算出所述各原始音素转换为所述各目标音素的阈值,得到所述各目标音素的音素阈值。
进一步地,所述基于所述音素阈值确定所述待识别文本的识别结果,包括:
计算所述待识别文本的解码分值,得到解码得分;
计算所述待识别文本的阈值,得到解码阈值;
当所述解码得分大于所述解码阈值时,输出所述待识别文本的识别结果。
本申请还提供一种结合先验知识的文本识别装置,包括:
获取文本模块,用于获取待识别文本;
解码文本模块,用于对所述待识别文本进行解码,得到候选词列表;
计算距离模块,用于读取各音素的先验数值,基于所述先验数值计算所候选词列表中各原始音素与各目标音素间的距离,得到所述各原始音素与所述各目标音素间的编辑距离;
计算概率模块,用于基于所述编辑距离计算所述各原始音素与所述各目标音素间的偏差,得到所述各原始音素与所述各目标音素间的偏差概率;
计算阈值模块,用于根据所述偏差概率计算所述各目标音素的阈值,得到所述各目标音素的音素阈值;
获取结果模块,用于基于所述音素阈值确定所述待识别文本的识别结果。
本申请还提供一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述结合先验知识的文本识别方法的步骤。
本申请还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述结合先验知识的文本识别方法的步骤。
本申请实施例提供了一种结合先验知识对待识别文本进行识别实现准确识别文本的文本识别方法,通过获取待识别文本,对所述待识别文本进行解码,获取多条解码路径,抽取所述多条解码路径中每列前两个数值最大的解码路径作为最优解码路径,根据所述最优解码路径中的候选词生成候选词列表,读取各音素的先验数值,基于所述先验数值计算所候选词列表中各原始音素与各目标音素间的距离,得到所述各原始音素与所述各目标音素间的编辑距离,同时,统计所述各原始音素转换为对应的所述各目标音素时的插入、删除、替换、匹配次数,同时统计转换总次数,将所述插入、删除、替换、匹配次数分别除以所述转换总次数,得到所述各原始音素与所述各目标音素间的偏差概率,所述偏差概率包括插入概率、删除概率、替换概率、匹配概率,将获取的所述偏差概率作为所述各原始音素的初始数值,递推计算出所述各原始音素转换为所述各目标音素的阈值,得到所述各目标音素的音素阈值,基于所述音素阈值确定所述待识别文本的识别结果,实现对待识别文本的准确识别。
附图说明
图1为本申请结合先验知识的文本识别方法的一实施例流程示意图;
图2为本申请结合先验知识的文本识别装置的一实施例结构示意图;
图3为本申请计算机设备的一实施例结构示意框图。
本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
参照图1,本申请实施例提供一种结合先验概率的文本识别方法,包括步骤S10-S60,对于所述结合先验概率的文本识别方法的各个步骤的详细阐述如下。
S10、获取待识别文本。
本实施例中,以安装于智能终端上的软件程序作为执行主体,所述软件程序可以是安装于智能终端上的应用软件或植入于智能终端的智能系统中的程序,所述软件程序应用于需要进行语音识别的环境中。智能终端的麦克风保持开启状态,通过所述麦克风实时采集语音数据,得到所述语音数据信息,并将所述语音数据信息转换为待识别文本,当所述智能终端无需采集所述语音数据时自动转换至休眠模式,当接收到关于所述智能终端的唤醒词时,所述智能终端开始运行并切换至语音采集模式,通过智能转换所述休眠模式和所述语音采集模式有效减少长时间持续运行所述智能终端而造成资源浪费,从而提高资源的利用率。
S20、对所述待识别文本进行解码,得到候选词列表。
本实施例中,所述候选词列表为对待识别文本进行识别时获取与所述待识别文本相关联的解码词信息。Beam Search(集束搜索)算法:是一种启发式图搜索算法,在图的解空间比较大的情况下,为了减少搜索所占用的空间和时间,在每一步深度扩展的时候,剪掉一些质量比较差的结点,保留下一些质量较高的结点。动态规划是把多阶段过程转化为一系列单阶段问题,利用各阶段之间的关系逐个求解,找出最优解的方法。在解码矩阵中,基于beam search 算法识别所述待识别文本,得到n条最优解码路径;同时,采用动态规划算法对所述待识别文本进行计算,在计算过程中仅考虑每列的前两个最大值,进而得到m条最优解码路径,此时,共有(n+m)条最优解码路径,根据所述(n+m)条最优解码路径中的候选词生成候选词列表。通过beam search 算法和动态规划算法对所述待识别文本进行解码,得到最优的解码路径,根据所述解码路径得到候选词列表的方式,不仅减少了对所述解码路径的处理,还有效的加快了对所述待识别文本的识别效率。
S30、读取各音素的先验数值,基于所述先验数值计算所候选词列表中各原始音素与各目标音素间的距离,得到所述各原始音素与所述各目标音素间的编辑距离。
在本实施例中,所述编辑距离为所候选词列表中各原始音素转换为各目标音素的代价。在得到所述候选词列表之后,读取各音素的先验数值,将所述先验数值分别作为所述候选词列表中各原始音素的初始值和将要转换为各目标音素的初始值,在将所述各原始音素转换为对应的所述各目标音素时,对应的将所述各原始音素的初始值与所述各目标音素的初始值相减,得到所述各原始音素与所述各目标音素间的编辑距离,为了使得所述编辑距离足够小,在进行转换时,均取所述各原始音素的初始值与所述各目标音素的初始值相减的最小值作为所述编辑距离。通过计算所候选词列表中各原始音素与各目标音素间的距离,得到所述各原始音素与所述各目标音素间的编辑距离,为后续计算偏差概率提供有效依据。
S40、基于所述编辑距离计算所述各原始音素与所述各目标音素间的偏差,得到所述各原始音素与所述各目标音素间的偏差概率。
在本实施例中,所述偏差概率为所候选词列表中各原始音素转换为各目标音素的偏差值。在将所述各原始音素转换为对应的所述各目标音素时,原始音素经过相应的插入、删除、替换、匹配操作,才会转换为对应的目标音素,对所述插入、删除、替换、匹配操作次数进行统计,并统计转换总次数,将所述插入、删除、替换、匹配次数分别除以所述转换总次数,得到所述各原始音素与所述各目标音素间的偏差概率,所述偏差概率即为插入概率、删除概率、替换概率、匹配概率。通过计算所述各原始音素与所述各目标音素间的偏差,得到所述各原始音素与所述各目标音素间的偏差概率,为后续计算音素阈值提供有效依据。
S50、根据所述偏差概率计算所述各目标音素的阈值,得到所述各目标音素的音素阈值。
在本实施例中,所述音素阈值为在进行文本识别时,在存在识别偏差的情况下,准确获取识别结果需要付出的最大代价。在得到所述各原始音素与所述各目标音素间的偏差概率之后,将所述插入概率、所述删除概率、所述替换概率、所述匹配概率作为所述各原始音素将要进行插入、删除、替换、匹配操作的初始数值,递推计算出所述各原始音素转换为所述各目标音素的阈值,具体的,将所述各原始音素转换为对应的所述各目标音素时,对应的将所述初始数值进行计算,为了使得所述音素阈值足够大,在进行转换时均取最大值,即得到所述各目标音素的音素阈值。通过根据所述偏差概率计算所述各目标音素的阈值,得到所述各目标音素的音素阈值,为后续验证文本识别的结果的准确性提供有效依据。
S60、基于所述音素阈值确定所述待识别文本的识别结果。
本实施例中,在所述候选词列表中,所述各原始音素经过转换之后,获得对应的所述各目标音素,对应的生成第二候选词列表,将所述第二候选词列表中对应音素 id 的概率值累乘,得到对应的解码得分,同时,将对应的所述音素阈值累乘,得到对应的解码阈值,当所述解码得分大于所述解码阈值,表示所述待识别文本是被识别的,输出对应的识别结果。根据所述音素阈值确定所述待识别文本的识别结果,提高文本识别的准确率。
本实施例提供了一种结合先验知识对待识别文本进行识别实现准确识别文本的文本识别方法,通过基于对智能手表的监控交互实现对智能手表用户的安全监控方法,通过获取待识别文本,对所述待识别文本进行解码,获取多条解码路径,抽取所述多条解码路径中每列前两个数值最大的解码路径作为最优解码路径,根据所述最优解码路径中的候选词生成候选词列表,读取各音素的先验数值,基于所述先验数值计算所候选词列表中各原始音素与各目标音素间的距离,得到所述各原始音素与所述各目标音素间的编辑距离,同时,统计所述各原始音素转换为对应的所述各目标音素时的插入、删除、替换、匹配次数,同时统计转换总次数,将所述插入、删除、替换、匹配次数分别除以所述转换总次数,得到所述各原始音素与所述各目标音素间的偏差概率,所述偏差概率包括插入概率、删除概率、替换概率、匹配概率,将获取的所述偏差概率作为所述各原始音素的初始数值,递推计算出所述各原始音素转换为所述各目标音素的阈值,得到所述各目标音素的音素阈值,基于所述音素阈值确定所述待识别文本的识别结果,实现对待识别文本的准确识别。
在一个实施例中,所述对所述待识别文本进行解码,得到候选词列表,包括:
通过Beam Search算法和动态规划算法对所述待识别文本进行解码,得到多条最优解码路径;
根据所述多条最优解码路径中的候选词生成候选词列表。
本实施例中,在解码矩阵中,采用Beam Search算法识别所述待识别文本,在识别过程中,每个字、词的识别对应的产生多个输出结果,对所述输出结果进行筛选,仅保留概率最大的所述输出结果,而将其他非最优结果进行删除、或省略,然后根据获取的所述最优输出结果确定对应的解码路径,所述解码路径即为最优解码路径。同时,还通过动态规划算法对所述待识别文本进行识别,所述动态规划算法将所述待识别文本中多个文本识别处理为单个字并一一进行识别,然后利用所述单个字间的关系推算出对应的词性序列,依据所述词性序列确定相应的解码路径,所述解码路径即为最优解码路径,将通过Beam Search算法和动态规划算法对所述待识别文本进行解码得到的最优解码路径汇总,得到总的最优解码路径,根据所述总的最优解码路径中的候选词生成候选词列表。通过Beam Search算法和动态规划算法对所述待识别文本进行解码,得到最优解码路径进而生成候选词列表的方式,使得获取的候选词列表更全面,且减少了对所述解码路径的处理,有利于加快对所述待识别文本的识别效率。
在一个实施例中,所述读取各音素的先验数值,基于所述先验数值计算所候选词列表中各原始音素与各目标音素间的距离,得到所述各原始音素与所述各目标音素间的编辑距离,包括:
读取各音素的先验数值;
将所述先验数值分别作为所述候选词列表中各原始音素的初始值和将要转换为各目标音素的初始值;
将所述各原始音素转换为对应的所述各目标音素,转换过程中对应的将所述各原始音素的初始值与所述各目标音素的初始值相减,得到所述各原始音素与所述各目标音素间的编辑距离,所述编辑距离均取转换过程中的最小值。
本实施例中,所述先验数值为识别模型经过训练之后,得到识别文本的参数。所述原始音素为对所述待识别文本进行识别时获取的初始音素。所述目标音素为识别所述待识别文本的实际解码信息对应的音素。读取模型各音素的先验数值,将所述先验数值分别作为所述候选词列表中各原始音素的初始值和将要转换为各目标音素的初始值,在将所述各原始音素转换为对应的所述各目标音素时,对应的将所述各原始音素的初始值与所述各目标音素的初始值相减,为了使得所述编辑距离足够小,均取所述各原始音素的初始值与所述各目标音素的初始值相减的最小值作为所述编辑距离,即得到所述各原始音素与所述各目标音素间的编辑距离。具体的,在一个dp=(m+1)*(n+1)的矩阵中,其中m为actual(实际命令词)的长度,n为predict(预测)长度,令初值为dp[0][j]=j,dp[i][0]=i,即第一行和第一列的赋值,第一行表示需要做插入j次操作,才能变成predict;第一列表示需要删除i次操作,才能变成predict;递推计算,当actual[i -1] =predict[j - 1]时,dp[i][j]=dp[i-1][j-1],否则dp[i][j] = min(dp[i - 1][j] , dp[i][j - 1] , dp[i - 1][j - 1] ) +1。通过计算所候选词列表中各原始音素与各目标音素间的距离,得到所述各原始音素与所述各目标音素间的编辑距离,为后续计算偏差概率提供有效依据。
在一个实施例中,所述基于所述编辑距离计算所述各原始音素与所述各目标音素间的偏差,得到所述各原始音素与所述各目标音素间的偏差概率,包括:
统计所述各原始音素转换为对应的所述各目标音素时的插入、删除、替换、匹配次数,同时统计转换总次数;
将所述插入、删除、替换、匹配次数分别除以所述转换总次数,得到所述各原始音素与所述各目标音素间的偏差概率,所述偏差概率包括插入概率、删除概率、替换概率、匹配概率。
本实施例中,在将所述各原始音素转换为对应的所述各目标音素时,所述原始音素需经过相应的插入、删除、替换、匹配操作,才会转换为对应的目标音素,为获取所述各原始音素与所述各目标音素间的偏差概率,统计所述插入、删除、替换、匹配操作次数,同时还统计转换的总次数,将统计的所述插入、删除、替换、匹配次数分别除以转换总次数,得到所述各原始音素与所述各目标音素间的插入概率、删除概率、替换概率、匹配概率。在一个实施例中,统计在X小时内,测试集中每个文本中将各原始音素转换为对应的目标音素时,对应每个音素在转换过程中的插入、删除、替换、匹配操作各自对应的数据,例如,i音素在测试集中的文本遍历后,其被删除的总次数为a次,被替换的总次数为b次,整个测试集中的转换总次数为M次,则i音素的删除概率为(a÷M),替换概率为(b÷M)。通过计算所述各原始音素与所述各目标音素间的偏差,得到所述各原始音素与所述各目标音素间的偏差概率,为后续计算音素阈值提供有效依据。
在一个实施例中,所述基于所述编辑距离计算所述各原始音素与所述各目标音素间的偏差,得到所述各原始音素与所述各目标音素间的偏差概率之后,还包括:
在所述各目标音素中,当存在未知所述偏差概率的特殊音素时,对所述特殊音素给予赋值,同时取所述各目标音素中对应的所述插入概率、所述删除概率、所述替换概率、所述匹配概率的最小值与所述赋值相乘,得到所述特殊音素对应的所述插入概率、所述删除概率、所述替换概率、所述匹配概率。
本实施例中,基于模式常针对高频使用的语音进行识别,当接收到非常规语音时,基于所述语音低频率的出现,在模型中其先验知识不如所述高频使用的语音准确性高,但为保证对所述待识别文本准确识别,不能对所述非常规语音对应的音素做删除处理,需给予所述非常规语音对应的音素一个偏差概率值,使得所述偏差概率值不为零,同时不影响整体的计算结果,具体的,在计算所述非常规语音对应的音素的偏差概率时,将所述非常规语音对应的音素标定为特殊音素,对所述特殊音素给予赋值,所述赋值的取值范围为0.1~0.5之间,同时取已知所述各目标音素中对应的所述插入概率、所述删除概率、所述替换概率、所述匹配概率的最小值与所述赋值相乘,得到所述特殊音素对应的所述插入概率、所述删除概率、所述替换概率、所述匹配概率。对特殊音素进行平滑处理,保证了待识别文本的准确性。
在一个实施例中,所述根据所述偏差概率计算所述各目标音素的阈值,得到所述各目标音素的音素阈值,包括:
将获取的所述偏差概率作为所述各原始音素的初始数值,递推计算出所述各原始音素转换为所述各目标音素的阈值,得到所述各目标音素的音素阈值。
本实施例中,为计算在识别错误的情况下,准确获取识别结果需要付出的最大代价,需计算出音素的阈值。将获取的所述插入概率、所述删除概率、所述替换概率、所述匹配概率作为所述各原始音素将要进行插入、删除、替换、匹配操作的初始数值,根据所述初始值递推计算出所述各原始音素转换为所述各目标音素的阈值,即获取所述各目标音素的音素阈值。具体的,将获取的所述插入概率、所述删除概率、所述替换概率、所述匹配概率作为对应的初值,即dp[0][j] = np.sum(概率值表插入[predict[:j]]),dp[i][0] = np.sum(概率值表删除[actual[:i]]),进行递推计算,当actual[i -1]=predict[j -1]时,dp[i][j] = dp[i-1][j-1],否则 dp[i][j] =max(dp[i-1][j-1] + 替换 dp[i-1][j] +删除 dp[i][j-1] + 插入) 此处需要取最大值,区别于上述的编辑距离的计算,将获取的dp乘以预测值概率,即得到对应的音素阈值,其中,所述预测值概率为音素在解码矩阵中对应的概率值。在获取所述音素阈值之后,确定模型中关键词的音素序列,将所述音素序列中的音素阈值累乘,即可得到所述关键词的基础阈值,将获取的所述基础阈值对模型进行修正,得到识别准确性更高的修正模型。通过根据所述偏差概率计算所述各目标音素的阈值,得到所述各目标音素的音素阈值,为后续验证文本识别的结果的准确性提供有效依据。
在一个实施例中,所述基于所述音素阈值确定所述待识别文本的识别结果,包括:
计算所述待识别文本的解码分值,得到解码得分;
计算所述待识别文本的阈值,得到解码阈值;
当所述解码得分大于所述解码阈值时,输出所述待识别文本的识别结果。
本实施例中,在所述候选词列表中,所述各原始音素经过转换之后,获得对应的所述各目标音素,对应的生成第二候选词列表,将所述第二候选词列表中对应音素 id 的概率值累乘,得到对应的解码得分,同时,在所述第二候选词列表中,将对应的所述各目标音素的音素阈值累乘,得到对应的解码阈值,将所述解码得分与所述解码阈值进行比对,当所述解码得分大于所述解码阈值,表示所述待识别文本是被识别的,输出对应的识别结果。根据所述音素阈值确定所述待识别文本的识别结果,提高文本识别的准确率。
参照图2,本申请提供一种结合先验知识的文本识别装置,包括:
获取文本模块10,用于获取待识别文本;
解码文本模块20,用于对所述待识别文本进行解码,得到候选词列表;
计算距离模块30,用于读取各音素的先验数值,基于所述先验数值计算所候选词列表中各原始音素与各目标音素间的距离,得到所述各原始音素与所述各目标音素间的编辑距离;
计算概率模块40,用于基于所述编辑距离计算所述各原始音素与所述各目标音素间的偏差,得到所述各原始音素与所述各目标音素间的偏差概率;
计算阈值模块50,用于根据所述偏差概率计算所述各目标音素的阈值,得到所述各目标音素的音素阈值;
获取结果模块60,用于基于所述音素阈值和所述偏差概率确定所述待识别文本的识别结果。
如上所述,可以理解地,本申请中提出的所述结合先验知识的文本识别装置的各组成部分可以实现如上所述结合先验知识的文本识别方法任一项的功能。
在一个实施例中,所述解码文本模块20还用于执行:
通过Beam Search算法和动态规划算法对所述待识别文本进行解码,得到多条最优解码路径;
根据所述多条最优解码路径中的候选词生成候选词列表。
在一个实施例中,所述计算距离模块30还用于执行:
读取各音素的先验数值;
将所述先验数值分别作为所述候选词列表中各原始音素的初始值和将要转换为各目标音素的初始值;
将所述各原始音素转换为对应的所述各目标音素,转换过程中对应的将所述各原始音素的初始值与所述各目标音素的初始值相减,得到所述各原始音素与所述各目标音素间的编辑距离,所述编辑距离均取转换过程中的最小值。
在一个实施例中,所述计算概率模块40还用于执行:
统计所述各原始音素转换为对应的所述各目标音素时的插入、删除、替换、匹配次数,同时统计转换总次数;
将所述插入、删除、替换、匹配次数分别除以所述转换总次数,得到所述各原始音素与所述各目标音素间的偏差概率,所述偏差概率包括插入概率、删除概率、替换概率、匹配概率。
在一个实施例中,所述计算概率模块40还用于执行:
在所述各目标音素中,当存在未知所述偏差概率的特殊音素时,对所述特殊音素给予赋值,同时取所述各目标音素中对应的所述插入概率、所述删除概率、所述替换概率、所述匹配概率的最小值与所述赋值相乘,得到所述特殊音素对应的所述插入概率、所述删除概率、所述替换概率、所述匹配概率。
在一个实施例中,所述计算阈值模块50还用于执行:
将获取的所述偏差概率作为所述各原始音素的初始数值,递推计算出所述各原始音素转换为所述各目标音素的阈值,得到所述各目标音素的音素阈值。
在一个实施例中,所述获取结果模块60还用于执行:
计算所述待识别文本的解码分值,得到解码得分;
计算所述待识别文本的阈值,得到解码阈值;
当所述解码得分大于所述解码阈值时,输出所述待识别文本的识别结果。
参照图3,本申请实施例中还提供一种计算机设备,该计算机设备的内部结构可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和显示装置及输入装置。其中,该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机设备的显示装置用于显示交互页面。该计算机设备的输入装置用于接收用户的输入。该计算机设备设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质。该非易失性存储介质存储有操作系统、计算机程序和数据库。该计算机设备的数据库用于存放原始数据。该计算机程序被处理器执行时以实现一种结合先验知识的文本识别方法。
上述处理器执行上述的结合先验知识的文本识别方法,包括:获取待识别文本;对所述待识别文本进行解码,得到候选词列表;读取各音素的先验数值,基于所述先验数值计算所候选词列表中各原始音素与各目标音素间的距离,得到所述各原始音素与所述各目标音素间的编辑距离;基于所述编辑距离计算所述各原始音素与所述各目标音素间的偏差,得到所述各原始音素与所述各目标音素间的偏差概率;根据所述偏差概率计算所述各目标音素的阈值,得到所述各目标音素的音素阈值;基于所述音素阈值确定所述待识别文本的识别结果。所述计算机提供了一种结合先验知识对待识别文本进行识别实现准确识别文本的文本识别方法,通过获取待识别文本,通过Beam Search算法和动态规划算法对所述待识别文本进行解码,得到多条最优解码路径,根据所述多条最优解码路径中的候选词生成候选词列表,读取各音素的先验数值,基于所述先验数值计算所候选词列表中各原始音素与各目标音素间的距离,得到所述各原始音素与所述各目标音素间的编辑距离,同时,统计所述各原始音素转换为对应的所述各目标音素时的插入、删除、替换、匹配次数,同时统计转换总次数,将所述插入、删除、替换、匹配次数分别除以所述转换总次数,得到所述各原始音素与所述各目标音素间的偏差概率,所述偏差概率包括插入概率、删除概率、替换概率、匹配概率,将获取的所述偏差概率作为所述各原始音素的初始数值,递推计算出所述各原始音素转换为所述各目标音素的阈值,得到所述各目标音素的音素阈值,基于所述音素阈值确定所述待识别文本的识别结果,实现对待识别文本的准确识别。
本申请还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被所述处理器执行时实现一种结合先验知识的文本识别方法,包括步骤:获取待识别文本;对所述待识别文本进行解码,得到候选词列表;读取各音素的先验数值,基于所述先验数据计算所候选词列表中各原始音素与各目标音素间的距离,得到所述各原始音素与所述各目标音素间的编辑距离;基于所述编辑距离计算所述各原始音素与所述各目标音素间的偏差,得到所述各原始音素与所述各目标音素间的偏差概率;根据所述偏差概率计算所述各目标音素的阈值,得到所述各目标音素的音素阈值;基于所述音素阈值确定所述待识别文本的识别结果。所述计算机可读存储介质提供了一种结合先验知识对待识别文本进行识别实现准确识别文本的文本识别方法,通过获取待识别文本,通过Beam Search算法和动态规划算法对所述待识别文本进行解码,得到多条最优解码路径,根据所述多条最优解码路径中的候选词生成候选词列表,读取各音素的先验数值,基于所述先验数值计算所候选词列表中各原始音素与各目标音素间的距离,得到所述各原始音素与所述各目标音素间的编辑距离,同时,统计所述各原始音素转换为对应的所述各目标音素时的插入、删除、替换、匹配次数,同时统计转换总次数,将所述插入、删除、替换、匹配次数分别除以所述转换总次数,得到所述各原始音素与所述各目标音素间的偏差概率,所述偏差概率包括插入概率、删除概率、替换概率、匹配概率,将获取的所述偏差概率作为所述各原始音素的初始数值,递推计算出所述各原始音素转换为所述各目标音素的阈值,得到所述各目标音素的音素阈值,基于所述音素阈值确定所述待识别文本的识别结果,实现对待识别文本的准确识别。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
以上所述仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。
Claims (9)
1.一种结合先验知识的文本识别方法,其特征在于,所述方法包括:
获取待识别文本;
对所述待识别文本进行解码,得到候选词列表;
读取各音素的先验数值,基于所述先验数值计算所候选词列表中各原始音素与各目标音素间的距离,得到所述各原始音素与所述各目标音素间的编辑距离;
统计所述各原始音素转换为对应的所述各目标音素时的插入、删除、替换、匹配次数,同时统计转换总次数;
将所述插入、删除、替换、匹配次数分别除以所述转换总次数,得到所述各原始音素与所述各目标音素间的偏差概率,所述偏差概率包括插入概率、删除概率、替换概率、匹配概率;
根据所述偏差概率计算所述各目标音素的阈值,得到所述各目标音素的音素阈值;
基于所述音素阈值确定所述待识别文本的识别结果。
2.根据权利要求1所述的结合先验知识的文本识别方法,其特征在于,所述对所述待识别文本进行解码,得到候选词列表,包括:
通过Beam Search算法和动态规划算法对所述待识别文本进行解码,得到多条最优解码路径;
根据所述多条最优解码路径中的候选词生成候选词列表。
3.根据权利要求1所述的结合先验知识的文本识别方法,其特征在于,所述读取各音素的先验数值,基于所述先验数值计算所候选词列表中各原始音素与各目标音素间的距离,得到所述各原始音素与所述各目标音素间的编辑距离,包括:
读取各音素的先验数值;
将所述先验数值分别作为所述候选词列表中各原始音素的初始值和将要转换为各目标音素的初始值;
将所述各原始音素转换为对应的所述各目标音素,转换过程中对应的将所述各原始音素的初始值与所述各目标音素的初始值相减,得到所述各原始音素与所述各目标音素间的编辑距离,所述编辑距离均取转换过程中的最小值。
4.根据权利要求1所述的结合先验知识的文本识别方法,其特征在于,所述得到所述各原始音素与所述各目标音素间的偏差概率,之后,还包括:
在所述各目标音素中,当存在未知所述偏差概率的特殊音素时,对所述特殊音素给予赋值,同时取所述各目标音素中对应的所述插入概率、所述删除概率、所述替换概率、所述匹配概率的最小值与所述赋值相乘,得到所述特殊音素对应的所述插入概率、所述删除概率、所述替换概率、所述匹配概率。
5.根据权利要求1所述的结合先验知识的文本识别方法,其特征在于,所述根据所述偏差概率计算所述各目标音素的阈值,得到所述各目标音素的音素阈值,包括:
将获取的所述偏差概率作为所述各原始音素的初始数值,递推计算出所述各原始音素转换为所述各目标音素的阈值,得到所述各目标音素的音素阈值。
6.根据权利要求1所述的结合先验知识的文本识别方法,其特征在于,所述基于所述音素阈值确定所述待识别文本的识别结果,包括:
计算所述待识别文本的解码分值,得到解码得分;
计算所述待识别文本的阈值,得到解码阈值;
当所述解码得分大于所述解码阈值时,输出所述待识别文本的识别结果。
7.一种结合先验知识的文本识别装置,其特征在于,所述装置包括:
获取文本模块,用于获取待识别文本;
解码文本模块,用于对所述待识别文本进行解码,得到候选词列表;
计算距离模块,用于读取各音素的先验数值,基于所述先验数值计算所候选词列表中各原始音素与各目标音素间的距离,得到所述各原始音素与所述各目标音素间的编辑距离;
计算概率模块,用于统计所述各原始音素转换为对应的所述各目标音素时的插入、删除、替换、匹配次数,同时统计转换总次数;
将所述插入、删除、替换、匹配次数分别除以所述转换总次数,得到所述各原始音素与所述各目标音素间的偏差概率,所述偏差概率包括插入概率、删除概率、替换概率、匹配概率;
计算阈值模块,用于根据所述偏差概率计算所述各目标音素的阈值,得到所述各目标音素的音素阈值;
获取结果模块,用于基于所述音素阈值确定所述待识别文本的识别结果。
8.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述的结合先验知识的文本识别方法的步骤。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的结合先验知识的文本识别方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210701906.0A CN114783419B (zh) | 2022-06-21 | 2022-06-21 | 结合先验知识的文本识别方法、装置、计算机设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210701906.0A CN114783419B (zh) | 2022-06-21 | 2022-06-21 | 结合先验知识的文本识别方法、装置、计算机设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114783419A CN114783419A (zh) | 2022-07-22 |
CN114783419B true CN114783419B (zh) | 2022-09-27 |
Family
ID=82420380
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210701906.0A Active CN114783419B (zh) | 2022-06-21 | 2022-06-21 | 结合先验知识的文本识别方法、装置、计算机设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114783419B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB201706078D0 (en) * | 2017-04-18 | 2017-05-31 | Univ Oxford Innovation Ltd | System and method for automatic speech analysis |
CN111489737A (zh) * | 2020-04-13 | 2020-08-04 | 深圳市友杰智新科技有限公司 | 语音命令识别方法、装置、存储介质及计算机设备 |
CN112669845A (zh) * | 2020-12-25 | 2021-04-16 | 竹间智能科技(上海)有限公司 | 语音识别结果的校正方法及装置、电子设备、存储介质 |
CN113823265A (zh) * | 2021-07-19 | 2021-12-21 | 腾讯科技(深圳)有限公司 | 一种语音识别方法、装置和计算机设备 |
WO2022105235A1 (zh) * | 2020-11-18 | 2022-05-27 | 华为技术有限公司 | 一种信息识别方法、装置及存储介质 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150058006A1 (en) * | 2013-08-23 | 2015-02-26 | Xerox Corporation | Phonetic alignment for user-agent dialogue recognition |
KR102371188B1 (ko) * | 2015-06-30 | 2022-03-04 | 삼성전자주식회사 | 음성 인식 장치 및 방법과 전자 장치 |
CN106683677B (zh) * | 2015-11-06 | 2021-11-12 | 阿里巴巴集团控股有限公司 | 语音识别方法及装置 |
US20200082808A1 (en) * | 2018-09-12 | 2020-03-12 | Kika Tech (Cayman) Holdings Co., Limited | Speech recognition error correction method and apparatus |
CN109710929A (zh) * | 2018-12-18 | 2019-05-03 | 金蝶软件(中国)有限公司 | 一种语音识别文本的校正方法、装置、计算机设备和存储介质 |
US11562743B2 (en) * | 2020-01-29 | 2023-01-24 | Salesforce.Com, Inc. | Analysis of an automatically generated transcription |
US20210312901A1 (en) * | 2020-04-02 | 2021-10-07 | Soundhound, Inc. | Automatic learning of entities, words, pronunciations, and parts of speech |
CN111931477B (zh) * | 2020-09-29 | 2021-01-05 | 腾讯科技(深圳)有限公司 | 文本匹配方法、装置、电子设备以及存储介质 |
CN112992125B (zh) * | 2021-04-20 | 2021-08-03 | 北京沃丰时代数据科技有限公司 | 一种语音识别方法、装置、电子设备、可读存储介质 |
-
2022
- 2022-06-21 CN CN202210701906.0A patent/CN114783419B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB201706078D0 (en) * | 2017-04-18 | 2017-05-31 | Univ Oxford Innovation Ltd | System and method for automatic speech analysis |
CN111489737A (zh) * | 2020-04-13 | 2020-08-04 | 深圳市友杰智新科技有限公司 | 语音命令识别方法、装置、存储介质及计算机设备 |
WO2022105235A1 (zh) * | 2020-11-18 | 2022-05-27 | 华为技术有限公司 | 一种信息识别方法、装置及存储介质 |
CN112669845A (zh) * | 2020-12-25 | 2021-04-16 | 竹间智能科技(上海)有限公司 | 语音识别结果的校正方法及装置、电子设备、存储介质 |
CN113823265A (zh) * | 2021-07-19 | 2021-12-21 | 腾讯科技(深圳)有限公司 | 一种语音识别方法、装置和计算机设备 |
Non-Patent Citations (2)
Title |
---|
Frame-Level Speaker Embeddings for Text-Independent Speaker Recognition and Analysis of End-to-End Model;Suwon Shon;《2018 IEEE Spoken Language Technology Workshop (SLT)》;20190214;全文 * |
边缘计算环境下基于联合学习的文本检测和识别的研究;陈学华;《中国优秀硕士学位论文全文数据库》;20220315(第3期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN114783419A (zh) | 2022-07-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109151218B (zh) | 通话语音质检方法、装置、计算机设备及存储介质 | |
KR102447513B1 (ko) | 점증적 대화지식 자가학습 기반 대화장치 및 그 방법 | |
US9564127B2 (en) | Speech recognition method and system based on user personalized information | |
EP0801378B1 (en) | Method and apparatus for speech recognition | |
CN110060674B (zh) | 表格管理方法、装置、终端和存储介质 | |
CN111191032B (zh) | 语料扩充方法、装置、计算机设备和存储介质 | |
CN111145733B (zh) | 语音识别方法、装置、计算机设备和计算机可读存储介质 | |
CN110689881B (zh) | 语音识别方法、装置、计算机设备和存储介质 | |
CN109614627B (zh) | 一种文本标点预测方法、装置、计算机设备及存储介质 | |
CN110930993A (zh) | 特定领域语言模型生成方法及语音数据标注系统 | |
CN111611349A (zh) | 语音查询方法、装置、计算机设备及存储介质 | |
CN113506574A (zh) | 自定义命令词的识别方法、装置和计算机设备 | |
CN114333799B (zh) | 相近音误识别的检测方法、装置和计算机设备 | |
CN111651978A (zh) | 基于实体的词法检查方法与装置和计算机设备及存储介质 | |
CN106843523B (zh) | 基于人工智能的文字输入方法和装置 | |
CN115481229A (zh) | 一种应答话术推送方法、装置、电子设备及存储介质 | |
CN110309504B (zh) | 基于分词的文本处理方法、装置、设备及存储介质 | |
CN111782892B (zh) | 基于前缀树的相似字符识别方法、设备、装置和存储介质 | |
CN111400340B (zh) | 一种自然语言处理方法、装置、计算机设备和存储介质 | |
CN113255343A (zh) | 标签数据的语义识别方法、装置、计算机设备及存储介质 | |
CN114783419B (zh) | 结合先验知识的文本识别方法、装置、计算机设备 | |
CN115858776B (zh) | 一种变体文本分类识别方法、系统、存储介质和电子设备 | |
CN109344385B (zh) | 自然语言处理方法、装置、计算机设备和存储介质 | |
CN112259092B (zh) | 一种语音播报方法、装置及语音交互设备 | |
CN114254628A (zh) | 一种语音转写中结合用户文本的快速热词提取方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |