CN113903342B - 一种语音识别纠错方法及装置 - Google Patents

一种语音识别纠错方法及装置 Download PDF

Info

Publication number
CN113903342B
CN113903342B CN202111273038.2A CN202111273038A CN113903342B CN 113903342 B CN113903342 B CN 113903342B CN 202111273038 A CN202111273038 A CN 202111273038A CN 113903342 B CN113903342 B CN 113903342B
Authority
CN
China
Prior art keywords
corrected
text
audio
determining
search tree
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111273038.2A
Other languages
English (en)
Other versions
CN113903342A (zh
Inventor
赵浩天
林锋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mgjia Beijing Technology Co ltd
Original Assignee
Mgjia Beijing Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mgjia Beijing Technology Co ltd filed Critical Mgjia Beijing Technology Co ltd
Priority to CN202111273038.2A priority Critical patent/CN113903342B/zh
Publication of CN113903342A publication Critical patent/CN113903342A/zh
Application granted granted Critical
Publication of CN113903342B publication Critical patent/CN113903342B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明提供了一种语音识别纠错方法及装置,其中,该方法包括:对原始音频进行识别得到识别文本,并确定识别文本中的待纠错文本;根据待纠错文本在原始音频中的位置确定待纠错音频;根据待纠错音频中各音频帧的发音在查找树中匹配纠正文本,查找树中的边对应文字的发音,查找树中的节点对应候选文本,将根节点与节点之间的各边对应的发音按序排列后形成的发音与节点对应的候选文本的发音相同。通过执行本发明对识别文本中的待纠错文本进行纠错时,使用的是原始音频中与待纠错文本对应的待纠错音频,不会受到识别文本的影响,纠错结果可靠性更高,并且,纠正文本是根据待纠错音频中各音频帧的发音在查找树中匹配得到的,得到的纠正文本更真实。

Description

一种语音识别纠错方法及装置
技术领域
本发明涉及语音识别技术领域,具体涉及一种语音识别纠错方法及装置。
背景技术
在语音识别系统中通常会涉及到歌名、导航POI、当前场景常用词等的识别,由于同音词、近音词的存在,通用语音识别通常不能正确识别这些词,甚至会出现较大的偏差,例如将“导航到颐堤港”识别为“导航到义地岗”,“导航到马泉营”识别为“导航到马田”,“播放我的家在日喀则”识别为“播放我的家的日子”等。一般的解决方案通常是在通用语音识别结果之后加入一个独立的纠错模块,基于待纠错槽位识别结果的拼音,在知识库中去搜索同音词或者近音词来进行替换。
但是当识别结果的拼音与实际用户说的话相差甚远时,根据识别结果的拼音得到的纠错结果仍然存在较大的误差。
发明内容
因此,本发明要解决的技术问题在于克服现有技术中根据识别结果的拼音得到的纠错结果存在较大的误差缺陷,从而提供一种语音识别纠错方法及装置。
本发明第一方面提供了一种语音识别纠错方法,包括:对原始音频进行识别得到识别文本,并确定识别文本中的待纠错文本;根据待纠错文本在原始音频中的位置确定待纠错音频;根据待纠错音频中各音频帧的发音在查找树中匹配纠正文本,查找树中的边对应文字的发音,查找树中的节点对应候选文本,将根节点与节点之间的各边对应的发音按序排列后形成的发音与节点对应的候选文本的发音相同。
可选地,本发明提供的语音识别纠错方法还包括:根据与待纠错音频对应的声学概率确定待纠错音频的声学分数;结合待纠错音频的声学分数和纠正文本计算纠错分数。
可选地,在本发明提供的语音识别纠错方法中,确定识别文本中的待纠错文本的步骤,包括:将识别文本输入语义理解模型中,得到识别文本的槽位,从识别文本的槽位中确定待纠错槽位,将待纠错槽位的槽位值对应的文本确定为待纠错文本。
可选地,在本发明提供的语音识别纠错方法中,将识别文本输入语义理解模型中,还得到识别文本的意图,结合识别文本的意图确定待纠错槽位。
可选地,在本发明提供的语音识别纠错方法中,根据待纠错文本在原始音频中的位置确定待纠错音频的步骤,包括:确定待纠错文本的第一个文字在原始音频中的第一位置以及待纠错文本的第二个文字在原始音频中的第二位置;若待纠错文本的第一个文字不是识别文本中的第一个文字,将待纠错文本之前的一个文字在原始音频中的位置和第一位置之间的其中一个位置确定为待纠错音频的起始位置;若待纠错文本的最后一个文字不是识别文本中的最后一个文字,将待纠错文本之后的一个文字在原始音频中的位置和第二位置之间的其中一个位置确定为待纠错音频的终止位置;将原始音频中在起始位置和终止位置之间的音频确定为待纠错音频。
可选地,在本发明提供的语音识别纠错方法中,查找树根据知识库建立,查找树中的一条路径至少包含知识库中的一组文本,路径中的边分别对应文本中各文字的发音,当根节点到节点之间的边所对应的发音排列形成一组文本的发音时,路径中的节点对应文本,路径中节点之间的连接关系根据与路径对应的文本中的文字的排列顺序确定。
可选地,在本发明提供的语音识别纠错方法中,当根据语义理解模型得到识别文本的多个槽位时,根据待纠错音频中各音频帧的发音在查找树中匹配纠正文本,包括:结合识别文本的其他槽位,确定与待纠错槽位相对应的查找树;根据待纠错音频中各音频帧的发音在与待纠错槽位相对应的查找树中匹配纠正文本。
本发明第二方面提供了一种语音识别纠错装置,包括:待纠错文本确定模块,用于对原始音频进行识别得到识别文本,并确定识别文本中的待纠错文本;待纠错音频确定模块,用于根据待纠错文本在原始音频中的位置确定待纠错音频;纠错模块,用于根据待纠错音频中各音频帧的发音在查找树中匹配纠正文本,查找树中的边对应文字的发音,查找树中的节点对应候选文本,将根节点与节点之间的各边对应的发音按序排列后形成的发音与节点对应的候选文本的发音相同。
本发明第三方面提供了一种计算机设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,从而执行如本发明第一方面提供的语音识别纠错方法。
本发明第四方面提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机指令,计算机指令用于使计算机执行如本发明第一方面提供的语音识别纠错方法。
本发明技术方案,具有如下优点:
本发明提供的语音识别纠错方法及装置,在确定识别文本中的待纠错文本后,确定原始音频中与待纠错文本对应的待纠错音频,从而根据待纠错音频中各音频帧的发音在查找树中匹配纠正文本,本发明提供的方法及装置在对识别文本中的待纠错文本进行纠错时,使用的是原始音频中与待纠错文本对应的待纠错音频,通过原始音频中的音频对待纠错文本进行纠错,不会受到识别文本的影响,纠错结果可靠性更高,并且,纠正文本是根据待纠错音频中各音频帧的发音在查找树中匹配得到的,查找树的边对应文字的发音,查找树中的节点对应候选文本,将根节点与节点之间的各边对应的发音按序排列后形成的发音与节点对应的候选文本的发音相同,通过将待纠错音频中各音频的发音与预先建立的查找树做匹配,得到的纠正文本更真实。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例中语音识别纠错方法的一个具体示例的流程图;
图2为本发明实施例中语音识别纠错装置的一个具体示例的原理框图;
图3为本发明实施例中提供的计算机设备的原理框图。
具体实施方式
下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明的描述中,需要说明的是,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
此外,下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。
本发明实施例提供了一种语音识别纠错方法,如图1所示,包括:
步骤S11:对原始音频进行识别得到识别文本,并确定识别文本中的待纠错文本。
在一可选实施例中,对原始音频进行识别得到识别文本的步骤包括:首先,将原始音频输入到预先训练的声学模型中,得到原始音频的声学概率,然后,将声学概率输入到解码器中得到识别文本。
在一可选实施例中,原始音频可以对智能系统的控制指令,例如,可以是控制车载系统播放音乐的音频,也可以是控制车载系统开启到达某一位置的导航的音频等。
在一可选实施例中,在对原始音频进行语义理解确定语义意图以及多个槽位后,可以将与语义意图相关性最强的槽位中的文本确定为待纠错文本。
步骤S12:根据待纠错文本在原始音频中的位置确定待纠错音频。
识别文本是对原始音频进行解析得到的,识别文本中的每个文字都对应有原始音频中的一段音频,纠错文本属于识别文本中的一部分,因此,可以在原始音频中确定与待纠错文本相对应的待纠错音频。
步骤S13:根据待纠错音频中各音频帧的发音在查找树中匹配纠正文本,查找树中的边对应文字的发音,查找树中的节点对应候选文本,将根节点与节点之间的各边对应的发音按序排列后形成的发音与节点对应的候选文本的发音相同。
在一可选实施例中,查找树中包括多条路径,每条路径均由至少一条边和一个节点连接而成,根据各音频帧的发音在查找树中匹配纠正文本过程是在查找树上跳转的过程。根据待纠正音频中每一帧的可能发音在查找树中确定响应的边,如果存在一各节点,将从根节点到该节点之间的各边按序排列后得到的发音与待纠正音频中按序排列的各音频帧的发音相匹配,则将该节点对应的候选文本确定为纠正文本。
示例性地,若查找树中存在一条路径,该路径中从根节点出发的三条边的发音依次为“tian”、“mi”、“mi”,且待纠正音频中各音频帧按序排列后得到的发音也为“tian mimi”,则可以将该路径中的第三个节点对应的候选文本“甜秘密”确定为纠正文本。
本发明实施例提供的语音识别纠错方法,在确定识别文本中的待纠错文本后,确定原始音频中与待纠错文本对应的待纠错音频,从而根据待纠错音频中各音频帧的发音在查找树中匹配纠正文本,本发明实施例提供的方法在对识别文本中的待纠错文本进行纠错时,使用的是原始音频中与待纠错文本对应的待纠错音频,通过原始音频中的音频对待纠错文本进行纠错,不会受到识别文本的影响,纠错结果可靠性更高,并且,纠正文本是根据待纠错音频中各音频帧的发音在查找树中匹配得到的,查找树的边对应文字的发音,查找树中的节点对应候选文本,将根节点与节点之间的各边对应的发音按序排列后形成的发音与节点对应的候选文本的发音相同,通过将待纠错音频中各音频的发音与预先建立的查找树做匹配,得到的纠正文本更真实。
在一可选实施例中,在执行上述步骤S13后,本发明实施例提供的语音识别纠错方法还包括如下步骤:
首先,根据与待纠错音频对应的声学概率确定待纠错音频的声学分数。
在一可选实施例中,声学概率是一个二维数组,是声学模型计算出的原始音频中每一帧(10ms的一小段)音频可能的一些发音及发每个音的概率。可见,声学概率这一数组的第一维是时间,第二维是该时间分片下的不同发音的概率。在确定待纠错音频对应的声学概率时,先确定待纠错音频在原始音频中发生的时间,然后根据待纠错音频的发生时间截取对应的音频的概率,所截取的与待纠错音频发生时间相对应的音频的概率即为待纠错音频对应的声学概率。
在一可选实施例中,将待纠错音频对应的声学概率的负对数确定为待纠错音频的声学分数。在本发明实施例中,声学概率包括待纠错音频中每一帧的可能的发音以及每个发音的概率,对于不同的发音,会匹配到不同的纠正文本,为了确定唯一的纠正文本,本发明实施例中根据各发音的概率构成各发音的声学分数,结合声学分数确定纠正文本。
然后,结合待纠错音频的声学分数和纠正文本计算纠错分数。
在一可选实施例中,在计算纠错分数时可以直接将待纠错音频的声学分数确定为纠错分数。由于计算纠错分数的目的为从多个纠正文本中选择一个最终的纠正文本,当直接将待纠错音频的声学分数确定为纠错分数时,表示将待纠错文本中声学分数最高的发音所对应的纠正文本确定为最终的纠正文本。
在一可选实施例中,在计算纠错分数时也可以将声学分数与纠正文本的使用频率合并得到纠错分数。
在一可选实施例中,若将声学分数与纠正文本的使用频率合并计算纠错分数,合并方法可以根据实际需求进行选择,示例性地,可以采用线性加权和的方式将声学分数和纠正文本的使用频率进行合并得到纠错分数。
在一可选实施例中,在本发明实施例提供的语音识别纠错方法中,确定识别文本中的待纠错文本的步骤具体包括:将识别文本输入语义理解模型中,得到识别文本的槽位,从识别文本的槽位中确定待纠错槽位,将待纠错槽位的槽位值对应的文本确定为待纠错文本。
在一可选实施例中,语义理解模型为预先训练的多任务深度学习模型,对于不同的识别文本,得到的槽位不同,槽位数量也不同,每个槽位包含一组信息:槽位名(slot_name)和槽位值(slot_value)。
示例性地,若识别文本为“我要听蔡依林的甜蜜蜜”,则通过语义理解模型对识别文本进行解析得到的槽位有两个,第一个槽位是[slot_name:artist,slot_value:蔡依林],第二个槽位是[slot_name:music_name,slot_value:甜蜜蜜],则可以将“蔡依林”作为待纠错文本,也可以将“甜蜜蜜”作为待纠错文本。
在一可选实施例中,将识别文本输入语义理解模型中,还能够得到识别文本的意图,可以结合识别文本的意图确定待纠错槽位。
示例性地,若识别文本为“我要听蔡依林的甜蜜蜜”,则通过语义理解模型对识别文本进行解析得到的意图(intent)为“music_play”。
在一可选实施例中,在结合识别文本的意图确定纠错槽位时,可以选择与意图最相关的槽位作为纠错槽位,示例性地,若识别文本为“我要听蔡依林的甜蜜蜜”,识别文本的意图为“播放音乐”,则与“播放音乐”最相关的为音乐名,因此,将“[slot_name:music_name,slot_value:甜蜜蜜]”确定为待纠错槽位,将“甜蜜蜜”作为待纠错文本。
在一可选实施例中,当待纠错文本中的最后一个文字不是识别文本中的最后一个文字时,上述步骤S12具体包括:
首先,确定待纠错文本的第一个文字在原始音频中的第一位置以及待纠错文本的第二个文字在原始音频中的第二位置。
然后,若待纠错文本的第一个文字不是识别文本中的第一个文字,将待纠错文本之前的一个文字在原始音频中的位置和第一位置之间的其中一个位置确定为待纠错音频的起始位置;若待纠错文本的第一个文字是识别文本中的第一个文字,将第一位置,即识别文本的起始位置确定为待纠错音频的起始位置。
在一可选实施例中,可以将前一个文字所在位置和第一位置之间1/2处的位置确定为待纠错音频的起始位置,也可以将前一个文字所在位置和第一位置之间1/3处的位置确定为待纠错音频的起始位置。在优选实施例中,为了尽可能得到更完整的待纠错音频,通常会选择待纠错文本之前的一个文字在原始音频中的位置和第一位置中间靠前的位置作为待纠错音频的起始位置。
示例性地,若识别文本为“我要听蔡依林的甜蜜蜜”,待纠错文本为“甜蜜蜜”,则先确定“的”在原始音频中的位置,然后确定“甜”在原始音频中的位置,然后将“的”和“甜”之间的一个位置确定为起始位置,若“的”为原始音频中的第160帧,“甜”为原始音频中的第180帧,则可以将原始音频中的第165帧确定为待纠正音频的起始位置。
其次,若待纠错文本的最后一个文字不是识别文本中的最后一个文字,将待纠错文本之后的一个文字在原始音频中的位置和第二位置之间的其中一个位置确定为待纠错音频的终止位置。
在一可选实施例中,可以将后一个文字所在位置和第二位置之间1/2处的位置确定为待纠错音频的终止位置,也可以将后一个文字所在位置和第二位置之间2/3处的位置确定为待纠错音频的起始位置。在优选实施例中,为了尽可能得到更完整的待纠错音频,通常会选择待纠错文本后前的一个文字在原始音频中的位置和第二位置中间靠后的位置作为待纠错音频的起始位置。
若待纠错文本的最后一个文字是识别文本中的最后一个文字,将第二位置,即识别文本的最后一位确定为待纠错音频的终止位置。
示例性地,若识别文本为“我要听蔡依林的甜蜜蜜”,待纠错文本为“甜蜜蜜”,待纠错文本为识别文本的末端,在确定初始位置为原始音频中的第165帧后,即可将原始视频中从165帧到末尾的音频确定为待纠正音频。
最后,将原始音频中在起始位置和终止位置之间的音频确定为待纠错音频。
在一可选实施例中,本发明实施例中的查找树是根据知识库建立的,查找树中的一条路径至少包含知识库中的一组文本,路径中的边分别对应文本中各文字的发音,当根节点到节点之间的边所对应的发音排列形成一组文本的发音时,路径中的节点对应文本,路径中节点之间的连接关系根据与路径对应的文本中的文字的排列顺序确定。
在一可选实施例中,不同领域的查找树根据对应领域的知识库建立,示例性地,可以根据与音乐相关的知识库建立用于查找歌名的查找树,根据与地理位置相关的知识库建立用于查找地名的查找树等。
在一可选实施例中,以根据与音乐相关的知识库建立用于查找歌名的查找树为例,知识库中保存所有歌手的名字以及每一位歌手的所有歌曲名字,结合发音词典,将所有歌手的所有歌名都根据发音构建成一棵查找树,同时也分别为每一位歌手构建了一棵专属该歌手的歌名查找树。查找树的结点间的边对应一个发音。完整匹配一个歌名的结点(如叶子结点)会记录歌名的文字,从查找树根结点到该结点的路径上的所有边的发音即歌名的发音。
在一可选实施例中,还可以在查找树的叶子结点上记录歌曲的热度,将歌曲的热度作为计算纠正分数的参考因素之一。
在一可选实施例中,当根据语义理解模型得到识别文本的多个槽位时,上述步骤S13具体包括:
首先,结合识别文本的其他槽位,确定与待纠错槽位相对应的查找树。
示例性地,若识别文本为“我要听蔡依林的甜蜜蜜”,识别文本的第一个槽位是[slot_name:artist,slot_value:蔡依林],第二个槽位是[slot_name:music_name,slot_value:甜蜜蜜],且“[slot_name:music_name,slot_value:甜蜜蜜]”为待纠错槽位,则可以结合槽位“[slot_name:artist,slot_value:蔡依林]”选择与“蔡依林”相对应的查找树,在与“蔡依林”相对应的查找树中匹配纠正文本。
然后,根据待纠错音频中各音频帧的发音在与待纠错槽位相对应的查找树中匹配纠正文本。
在一可选实施例中,即使不通过其他槽位确定查找树,也可通过其他槽位确定最终的纠正文本,示例性地,在“蔡依林”的查找树上有“甜秘密”这一结点,在所有歌手的查找树上有“甜蜜蜜”这一结点,的但是由于另一槽位中指出了歌手名为“蔡依林”,所以优先采用“蔡依林”对应的查找树中的“甜秘密”作为纠正文本。
本发明实施例还提供了一种语音识别纠错装置,如图2所示,包括:
待纠错文本确定模块21,用于对原始音频进行识别得到识别文本,并确定识别文本中的待纠错文本,详细内容参见上述实施例中对步骤S11的描述,在此不再赘述。
待纠错音频确定模块22,用于根据待纠错文本在原始音频中的位置确定待纠错音频,详细内容参见上述实施例中对步骤S12的描述,在此不再赘述。
纠错模块23,用于根据待纠错音频中各音频帧的发音在查找树中匹配纠正文本,查找树中的边对应文字的发音,查找树中的节点对应候选文本,将根节点与节点之间的各边对应的发音按序排列后形成的发音与节点对应的候选文本的发音相同,详细内容参见上述实施例中对步骤S13的描述,在此不再赘述。
本发明提供的语音识别纠错装置,在确定识别文本中的待纠错文本后,确定原始音频中与待纠错文本对应的待纠错音频,从而根据待纠错音频中各音频帧的发音在查找树中匹配纠正文本,本发明提供的装置在对识别文本中的待纠错文本进行纠错时,使用的是原始音频中与待纠错文本对应的待纠错音频,通过原始音频中的音频对待纠错文本进行纠错,不会受到识别文本的影响,纠错结果可靠性更高,并且,纠正文本是根据待纠错音频中各音频帧的发音在查找树中匹配得到的,查找树的边对应不同的发音,由边连接的节点表示与发音对应的文字,通过将待纠错音频中各音频的发音与预先建立的查找树做匹配,得到的纠正文本更真实。
在一可选实施例中,本发明实施例提供的语音识别纠错装置还包括:
声学分数计算模块,用于根据与待纠错音频对应的声学概率确定待纠错音频的声学分数,详细内容参见上述方法实施例中的描述,在此不再赘述。
纠错分数计算模块,用于结合待纠错音频的声学分数和纠正文本计算纠错分数,详细内容参见上述方法实施例中的描述,在此不再赘述。
在一可选实施例中,待纠错文本确定模块包括:
语义理解子模块,用于将识别文本输入语义理解模型中,得到识别文本的槽位,详细内容参见上述方法实施例中的描述,在此不再赘述。
待纠错文本确定子模块,用于从识别文本的槽位中确定待纠错槽位,将待纠错槽位的槽位值对应的文本确定为待纠错文本,详细内容参见上述方法实施例中的描述,在此不再赘述。
在一可选实施例中,在本发明实施例提供的语音识别纠错装置中,将识别文本输入语义理解模型中,还得到识别文本的意图,待纠错文本确定子模块结合识别文本的意图确定待纠错槽位。
在一可选实施例中,在本发明实施例提供的语音识别纠错装置中,待纠错音频确定模块具体包括:
待纠错文本位置确定子模块,用于确定待纠错文本的第一个文字在原始音频中的第一位置以及待纠错文本的第二个文字在原始音频中的第二位置,详细内容参见上述方法实施例中的描述,在此不再赘述。
待纠错音频起始位置确定子模块,若待纠错文本的第一个文字不是识别文本中的第一个文字,待纠错音频起始位置确定子模块用于将待纠错文本之前的一个文字在原始音频中的位置和第一位置之间的其中一个位置确定为待纠错音频的起始位置,详细内容参见上述方法实施例中的描述,在此不再赘述。
待纠错音频终止位置确定子模块,若待纠错文本的最后一个文字不是识别文本中的最后一个文字,将待纠错文本之后的一个文字在原始音频中的位置和第二位置之间的其中一个位置确定为待纠错音频的终止位置,详细内容参见上述方法实施例中的描述,在此不再赘述。
待纠错音频确定子模块,用于将原始音频中在起始位置和终止位置之间的音频确定为待纠错音频,详细内容参见上述方法实施例中的描述,在此不再赘述。
在一可选实施例中,在本发明实施例提供的语音识别纠错装置中,查找树根据知识库建立,查找树中的一条路径至少包含知识库中的一组文本,路径中的边分别对应文本中各文字的发音,当根节点到节点之间的边所对应的发音排列形成一组文本的发音时,路径中的节点对应文本,路径中节点之间的连接关系根据与路径对应的文本中的文字的排列顺序确定,详细内容参见上述方法实施例中的描述,在此不再赘述。
在一可选实施例中,在本发明实施例提供的语音识别纠错装置中,当根据语义理解模型得到识别文本的多个槽位时,纠错模块具体包括:
查找树确定子模块,用于结合识别文本的其他槽位,确定与待纠错槽位相对应的查找树;
纠正子模块,用于根据待纠错音频中各音频帧的发音在与待纠错槽位相对应的查找树中匹配纠正文本。
本发明实施例提供了一种计算机设备,如图3所示,该计算机设备主要包括一个或多个处理器31以及存储器32,图3中以一个处理器31为例。
该计算机设备还可以包括:输入装置33和输出装置34。
处理器31、存储器32、输入装置33和输出装置34可以通过总线或者其他方式连接,图3中以通过总线连接为例。
处理器31可以为中央处理器(Central Processing Unit,CPU)。处理器31还可以为其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片,或者上述各类芯片的组合。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。存储器32可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据语音识别纠错装置的使用所创建的数据等。此外,存储器32可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中,存储器32可选包括相对于处理器31远程设置的存储器,这些远程存储器可以通过网络连接至语音识别纠错装置。输入装置33可接收用户输入的计算请求(或其他数字或字符信息),以及产生与语音识别纠错装置有关的键信号输入。输出装置34可包括显示屏等显示设备,用以输出计算结果。
本发明实施例提供了一种计算机可读存储介质,该计算机可读存储介质存储计算机指令,计算机存储介质存储有计算机可执行指令,该计算机可执行指令可执行上述任意方法实施例中的语音识别纠错方法。其中,存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)、随机存储记忆体(Random Access Memory,RAM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive,缩写:HDD)或固态硬盘(Solid-State Drive,SSD)等;存储介质还可以包括上述种类的存储器的组合。
显然,上述实施例仅仅是为清楚地说明所作的举例,而并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims (8)

1.一种语音识别纠错方法,其特征在于,包括:
对原始音频进行识别得到识别文本,并确定识别文本中的待纠错文本;
根据所述待纠错文本在所述原始音频中的位置确定待纠错音频;
根据所述待纠错音频中各音频帧的发音在查找树中匹配纠正文本,所述查找树中的边对应文字的发音,所述查找树中的节点对应候选文本,将根节点与所述节点之间的各边对应的发音按序排列后形成的发音与所述节点对应的候选文本的发音相同;
确定识别文本中的待纠错文本的步骤,包括:
将识别文本输入语义理解模型中,得到所述识别文本的槽位,从所述识别文本的槽位中确定待纠错槽位,将所述待纠错槽位的槽位值对应的文本确定为所述待纠错文本;
当根据所述语义理解模型得到所述识别文本的多个槽位时,根据所述待纠错音频中各音频帧的发音在查找树中匹配纠正文本,包括:
结合所述识别文本的其他槽位,确定与所述待纠错槽位相对应的查找树;
根据所述待纠错音频中各音频帧的发音在与所述待纠错槽位相对应的查找树中匹配纠正文本。
2.根据权利要求1所述的语音识别纠错方法,其特征在于,还包括:
根据与所述待纠错音频对应的声学概率确定所述待纠错音频的声学分数;
结合所述待纠错音频的声学分数和所述纠正文本计算纠错分数。
3.根据权利要求1所述的语音识别纠错方法,其特征在于,将所述识别文本输入语义理解模型中,还得到所述识别文本的意图,结合所述识别文本的意图确定所述待纠错槽位。
4.根据权利要求1或3所述的语音识别纠错方法,其特征在于,根据所述待纠错文本在所述原始音频中的位置确定待纠错音频的步骤,包括:
确定所述待纠错文本的第一个文字在所述原始音频中的第一位置以及所述待纠错文本的第二个文字在所述原始音频中的第二位置;
若所述待纠错文本的第一个文字不是所述识别文本中的第一个文字,将所述待纠错文本之前的一个文字在所述原始音频中的位置和所述第一位置之间的其中一个位置确定为所述待纠错音频的起始位置;
若所述待纠错文本的最后一个文字不是所述识别文本中的最后一个文字,将所述待纠错文本之后的一个文字在所述原始音频中的位置和所述第二位置之间的其中一个位置确定为所述待纠错音频的终止位置;
将所述原始音频中在所述起始位置和终止位置之间的音频确定为所述待纠错音频。
5.根据权利要求1所述的语音识别纠错方法,其特征在于,所述查找树根据知识库建立,所述知识库中包括多组目标文本,所述查找树中的一个节点对应所述知识库中的一组目标文本,所述查找树中的一条路径至少对应所述知识库中的一组目标文本,所述路径中的边分别对应目标文本中各文字的发音,当根节点到目标节点之间的边所对应的发音排列形成一组目标文本的发音时,所述目标节点对应所述目标文本,根节点到目标节点之间形成的路径中,各节点之间的连接关系根据所述目标文本的文字的排列顺序确定。
6.一种语音识别纠错装置,其特征在于,包括:
待纠错文本确定模块,用于对原始音频进行识别得到识别文本,并确定识别文本中的待纠错文本;
待纠错音频确定模块,用于根据所述待纠错文本在所述原始音频中的位置确定待纠错音频;
纠错模块,用于根据所述待纠错音频中各音频帧的发音在查找树中匹配纠正文本,所述查找树中的边对应文字的发音,所述查找树中的节点对应候选文本,将根节点与所述节点之间的各边对应的发音按序排列后形成的发音与所述节点对应的候选文本的发音相同;
确定识别文本中的待纠错文本,包括:
将识别文本输入语义理解模型中,得到所述识别文本的槽位,从所述识别文本的槽位中确定待纠错槽位,将所述待纠错槽位的槽位值对应的文本确定为所述待纠错文本;
当根据所述语义理解模型得到所述识别文本的多个槽位时,根据所述待纠错音频中各音频帧的发音在查找树中匹配纠正文本,包括:
结合所述识别文本的其他槽位,确定与所述待纠错槽位相对应的查找树;
根据所述待纠错音频中各音频帧的发音在与所述待纠错槽位相对应的查找树中匹配纠正文本。
7.一种计算机设备,其特征在于,包括:
至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,从而执行如权利要求1-5中任一项所述的语音识别纠错方法。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使所述计算机执行如权利要求1-5中任一项所述的语音识别纠错方法。
CN202111273038.2A 2021-10-29 2021-10-29 一种语音识别纠错方法及装置 Active CN113903342B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111273038.2A CN113903342B (zh) 2021-10-29 2021-10-29 一种语音识别纠错方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111273038.2A CN113903342B (zh) 2021-10-29 2021-10-29 一种语音识别纠错方法及装置

Publications (2)

Publication Number Publication Date
CN113903342A CN113903342A (zh) 2022-01-07
CN113903342B true CN113903342B (zh) 2022-09-13

Family

ID=79026879

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111273038.2A Active CN113903342B (zh) 2021-10-29 2021-10-29 一种语音识别纠错方法及装置

Country Status (1)

Country Link
CN (1) CN113903342B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111292751A (zh) * 2018-11-21 2020-06-16 北京嘀嘀无限科技发展有限公司 语义解析方法及装置、语音交互方法及装置、电子设备
WO2021004481A1 (zh) * 2019-07-08 2021-01-14 华为技术有限公司 一种媒体文件推荐方法及装置
CN112307073A (zh) * 2019-08-30 2021-02-02 北京字节跳动网络技术有限公司 一种信息查询方法、装置、设备和存储介质
CN113555018A (zh) * 2021-07-20 2021-10-26 海信视像科技股份有限公司 语音交互方法及装置

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6138099A (en) * 1998-10-19 2000-10-24 International Business Machines Corp. Automatically updating language models
JP6514503B2 (ja) * 2014-12-25 2019-05-15 クラリオン株式会社 意図推定装置、および意図推定システム
CN105096944B (zh) * 2015-07-20 2017-11-03 百度在线网络技术(北京)有限公司 语音识别方法及装置
CN113362828B (zh) * 2020-03-04 2022-07-05 阿波罗智联(北京)科技有限公司 用于识别语音的方法和装置
CN112053692B (zh) * 2020-09-24 2024-01-12 上海明略人工智能(集团)有限公司 语音识别处理方法、装置及存储介质
CN112509566B (zh) * 2020-12-22 2024-03-19 阿波罗智联(北京)科技有限公司 一种语音识别方法、装置、设备、存储介质及程序产品
CN113066480B (zh) * 2021-03-26 2023-02-17 北京达佳互联信息技术有限公司 语音识别方法、装置、电子设备及存储介质
CN113326702B (zh) * 2021-06-11 2024-02-20 北京猎户星空科技有限公司 语义识别方法、装置、电子设备及存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111292751A (zh) * 2018-11-21 2020-06-16 北京嘀嘀无限科技发展有限公司 语义解析方法及装置、语音交互方法及装置、电子设备
WO2021004481A1 (zh) * 2019-07-08 2021-01-14 华为技术有限公司 一种媒体文件推荐方法及装置
CN112307073A (zh) * 2019-08-30 2021-02-02 北京字节跳动网络技术有限公司 一种信息查询方法、装置、设备和存储介质
CN113555018A (zh) * 2021-07-20 2021-10-26 海信视像科技股份有限公司 语音交互方法及装置

Also Published As

Publication number Publication date
CN113903342A (zh) 2022-01-07

Similar Documents

Publication Publication Date Title
US11398236B2 (en) Intent-specific automatic speech recognition result generation
KR102222317B1 (ko) 음성 인식 방법, 전자 디바이스, 및 컴퓨터 저장 매체
CN110085261B (zh) 一种发音纠正方法、装置、设备以及计算机可读存储介质
CN107785018B (zh) 多轮交互语义理解方法和装置
CN106683677B (zh) 语音识别方法及装置
CN107799116B (zh) 多轮交互并行语义理解方法和装置
US7143037B1 (en) Spelling words using an arbitrary phonetic alphabet
US9275633B2 (en) Crowd-sourcing pronunciation corrections in text-to-speech engines
CN107239547B (zh) 用于语音点歌的语音纠错方法、终端及存储介质
US10140976B2 (en) Discriminative training of automatic speech recognition models with natural language processing dictionary for spoken language processing
US11494434B2 (en) Systems and methods for managing voice queries using pronunciation information
US9984689B1 (en) Apparatus and method for correcting pronunciation by contextual recognition
TWI610294B (zh) 語音辨識系統及其方法、詞彙建立方法與電腦程式產品
US11315547B2 (en) Method and system for generating speech recognition training data
US9858038B2 (en) Correction menu enrichment with alternate choices and generation of choice lists in multi-pass recognition systems
CN112331229B (zh) 语音检测方法、装置、介质和计算设备
CN109102824B (zh) 基于人机交互的语音纠错方法和装置
CN105244027B (zh) 生成谐音文本的方法和系统
CN109300474B (zh) 一种语音信号处理方法及装置
US20210034662A1 (en) Systems and methods for managing voice queries using pronunciation information
CN109448717B (zh) 一种语音单词拼写识别方法、设备及存储介质
TWI676167B (zh) 用於分割句子的系統和方法及相關的非暫時性電腦可讀取媒體
CN114333759A (zh) 模型训练方法、语音合成方法、设备和计算机程序产品
CN113903342B (zh) 一种语音识别纠错方法及装置
KR102217621B1 (ko) 사용자 발화의 오류를 교정하는 방법 및 장치

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant