CN109215630A - 实时语音识别方法、装置、设备及存储介质 - Google Patents

实时语音识别方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN109215630A
CN109215630A CN201811354353.6A CN201811354353A CN109215630A CN 109215630 A CN109215630 A CN 109215630A CN 201811354353 A CN201811354353 A CN 201811354353A CN 109215630 A CN109215630 A CN 109215630A
Authority
CN
China
Prior art keywords
candidate word
language model
path
score
participle
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811354353.6A
Other languages
English (en)
Other versions
CN109215630B (zh
Inventor
邹明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Volkswagen China Investment Co Ltd
Mobvoi Innovation Technology Co Ltd
Original Assignee
Beijing Yushanzhi Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Yushanzhi Information Technology Co Ltd filed Critical Beijing Yushanzhi Information Technology Co Ltd
Priority to CN201811354353.6A priority Critical patent/CN109215630B/zh
Publication of CN109215630A publication Critical patent/CN109215630A/zh
Application granted granted Critical
Publication of CN109215630B publication Critical patent/CN109215630B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/01Assessment or evaluation of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)

Abstract

本发明实施例公开了一种实时语音识别方法。该方法包括:对接收的音频数据进行实时分词识别,得到当前分词的至少一个基础候选词;采用至少两个语言模型对每个基础候选词在至少一个识别路径下进行打分;根据各语言模型对每个基础候选词的打分结果,得到当前分词在至少一个识别路径下的标准候选词,以及与标准候选词对应的综合得分;根据与音频数据中的各分词对应的标准候选词以及综合得分,确定与音频数据对应的语音识别结果。本发明实施例提供的技术方案,解决了现有技术中采用两遍解码的方式进行语音识别,识别速度慢和识别准确率不高的问题,提高了语音识别的速度和准确率。

Description

实时语音识别方法、装置、设备及存储介质
技术领域
本发明实施例涉及多媒体技术领域,特别是涉及一种实时语音识别方法、装置、设备及存储介质。
背景技术
随着技术的发展,音频数据的使用日益频繁,为了从音频数据中获取到有用的信息,需要利用语音识别技术对音频数据进行识别,将音频数据转换为文字信息。
语言模型是语音识别系统中非常重要的一个模块,对音频数据最终的识别准确率有着很重要的影响。为了提高识别准确率,需要训练大规模的语言模型,但是,目前主流的语音识别技术解码图的方法不能直接利用较大规模的语言模型。为了在语音识别系统中使用大规模的语言模型,通常会用到语言模型重打分技术。现有技术中,语言模型重打分技术需要对音频数据进行两遍解码,第一遍解码生成候选句子列表,第二遍解码利用大规模语言模型对候选句子列表重新打分,选出新的最佳路径,作为最终的识别结果。
现有技术中采用两遍解码的方式进行语音识别,会影响语音识别的实时率,语音识别速度变慢,同时,语音识别的中间结果不能利用大规模语言模型的信息,使得识别准确率较低。
发明内容
有鉴于此,本发明实施例提供了一种实时语音识别方法、装置、设备及存储介质,主要目的在于解决现有语音识别技术中采用两遍解码带来的识别速度慢、识别准确率较低的问题。
为了解决上述问题,本发明实施例主要提供如下技术方案:
第一方面,本发明实施例提供了一种实时语音识别方法,该方法包括:
对接收的音频数据进行实时分词识别,得到当前分词的至少一个基础候选词;
采用至少两个语言模型对每个所述基础候选词在至少一个识别路径下进行打分;
根据各所述语言模型对每个所述基础候选词的打分结果,得到所述当前分词在至少一个识别路径下的标准候选词,以及与所述标准候选词对应的综合得分;
根据与所述音频数据中的各分词对应的标准候选词以及综合得分,确定与所述音频数据对应的语音识别结果。
可选的,采用语言模型对所述基础候选词在至少一个识别路径下进行打分,包括:
判断所述当前分词是否为所述音频数据中的首个分词;
若是,则将所述基础候选词的识别路径设置为空,并采用所述语言模型,对所述基础候选词进行打分;
若否,则获取所述当前分词的相邻历史处理分词,并获取所述相邻历史处理分词的全部历史标准候选词;
将各所述历史标准候选词加入至对应的历史识别路径中,作为所述基础候选词的识别路径,并采用所述语言模型分别计算在各所述识别路径下所述基础候选词的条件概率,作为所述基础候选词在至少一个识别路径下的打分结果。
可选的,根据各所述语言模型对所述基础候选词的打分结果,得到所述当前分词在至少一个识别路径下的标准候选词,以及与所述标准候选词对应的综合得分,包括:
分别获取各所述语言模型对目标基础候选词在目标识别路径下的多个打分结果进行插值计算,得到所述目标基础候选词在目标识别路径下的综合得分;
在每个基础候选词在至少一个识别路径下的综合得分中,根据得分值的大小,获取设定数量的综合得分对应的识别路径下的基础候选词作为当前分词在至少一个识别路径下的标准候选词。
可选的,根据与所述音频数据中的各分词对应的标准候选词以及综合得分,确定与所述音频数据对应的语音识别结果,包括:
根据所述音频数据的末位分词在至少一个识别路径下的标准候选词,构造多个可选识别路径;
根据与所述音频数据中的各分词对应的标准候选词,计算各所述可选识别路径对应的路径得分;
将路径得分最高一个可选识别路径中包括的各个标准候选词的组合,确定与为所述音频数据对应的语音识别结果。
可选的,所述语言模型包括:第一语言模型以及第二语言模型,所述第一语言模型与所述第二语言模型的数据规模不同。
可选的,分别获取各所述语言模型对目标基础候选词在目标识别路径下的打分结果进行插值计算,得到所述目标基础候选词在目标识别路径下的综合得分,包括:
采用第一语言模型计算目标基础候选词在目标识别路径下的条件概率,得到第一语言模型得分,将所述目标基础候选词和第一语言模型得分存入所述目标基础候选词对应的解码令牌中;
采用第二语言模型计算目标基础候选词在目标识别路径下的条件概率,得到第二语言模型得分;
对所述第一语言模型得分和第二语言模型得分进行插值计算,得到所述目标基础候选词在目标识别路径下的综合得分,将所述目标基础候选词对应的解码令牌中的第一语言模型得分替换为所述综合得分;
其中,所述第一语言模型与所述第二语言模型的数据规模不同。
可选的,对所述第一语言模型得分和第二语言模型得分进行插值计算,得到所述目标基础候选词在目标识别路径下的综合得分包括:
根据公式:c=a*第一语言模型得分+b*第二语言模型得分计算所述目标基础候选词在目标识别路径下的综合得分c;
其中,a、b为设定权重系数,且a+b=1。
第二方面,本发明实施例还提供一种实时语音识别装置,该装置包括:
分词识别模块,用于对接收的音频数据进行实时分词识别,得到当前分词的至少一个基础候选词;
语言模型打分模块,用于采用至少两个语言模型对每个所述基础候选词在至少一个识别路径下进行打分;
候选词选择模块,用于根据各所述语言模型对每个所述基础候选词的打分结果,得到所述当前分词在至少一个识别路径下的标准候选词,以及与所述标准候选词对应的综合得分;
识别结果确定模块,用于根据与所述音频数据中的各分词对应的标准候选词以及综合得分,确定与所述音频数据对应的语音识别结果。
第三方面,本发明实施例还提供一种电子设备,包括:
至少一个处理器;
以及与所述处理器连接的至少一个存储器、总线;其中,
所述处理器、存储器通过所述总线完成相互间的通信;
所述处理器用于调用所述存储器中的程序指令,以执行本发明任意实施例提供的实时语音识别方法。
第四方面,本发明实施例还提供一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行本发明任意实施例提供的实时语音识别方法。
借由上述技术方案,本发明实施例提供的技术方案至少具有下列优点:
本发明实施例提供的实时语音识别方法,对接收的音频数据进行实时的分词识别,通过至少两个语言模型对每个分词进行打分,根据每个分词的综合得分,确定与音频数据对应的语音识别结果,本发明实施例通过对音频数据进行实时分词识别和实时打分,解决了现有技术中采用两遍解码的方式进行语音识别,识别速度慢的问题,提高了语音识别的速度,同时,语音识别的中间结果也利用了大规模语言模型的信息,提高了语音识别的准确率。
上述说明仅是本发明实施例技术方案的概述,为了能够更清楚了解本发明实施例的技术手段,而可依照说明书的内容予以实施,并且为了让本发明实施例的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明实施例的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明实施例的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了本发明实施例一提供的一种实时语音识别方法的流程图;
图2示出了本发明实施例二提供的一种实时语音识别方法的流程图;
图3示出了本发明实施例三提供的一种实时语音识别装置的结构示意图;
图4示出了本发明实施例四提供的一种电子设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
实施例一
图1为本发明实施例一提供的一种实时语音识别方法的流程图,本实施例可适用于对音频数据进行实时分词识别和实时打分的情况,该方法可以由实时语音识别装置来执行,该装置可以由硬件和/或软件来实现,并一般可以集成在各种提供实时语音识别服务的终端或者服务器中。如图1所示,该方法包括:
步骤101、对接收的音频数据进行实时分词识别,得到当前分词的至少一个基础候选词。
在本发明实施例中,接收的音频数据可以包括,现实对话场景中采集的对话音频数据、电视节目中截取的一段音频数据、一首歌曲或者从广播信号中获取的音频数据等。对音频数据进行语音识别,就是将音频数据包含的语音信号转换成相对应的文本信息,现有的语音助手中就应用了语音识别技术。日常生活中,语音助手能够帮我们解决一些小问题,如在开车时制定本周的日常、简短地回复他人消息、控制智能家居、放音乐等等。
具体的,在接收到音频数据后,对接收到的音频数据进行实时分词识别,获得当前分词所对应的基础候选词,该基础候选词包括符合当前分词的特征的所有候选词。其中,由于同一分词特征所对应的候选词可能是一个或者多个,因此,实时分词识别过程中,当前分词所对应的基础候选词至少有一个。
可选的,当前分词的特征可以是当前分词的拼音,基础候选词可以是与当前分词的拼音相同的所有同音词的集合。例如,输入的音频数据为“你知道例题一怎么做吗”,当前分词为“知道”,则当前分词的特征是“zhidao”,根据该特征得到的当前分词的基础候选词可以包括“知道”、“指导”、“只到”、“直道”、“指到”和“直到”等等。
本发明实施例中,通过对音频数据进行实时分词识别,可以实现对音频数据进行实时打分,进而实时展示音频数据的中间识别结果,提高识别的实时率。
步骤102、采用至少两个语言模型对每个基础候选词在至少一个识别路径下进行打分。
语言模型是语音识别中非常重要的一个模块,主要是刻画人类语言表达的方式习惯,描述词与词在排列结构上的内在联系,或者说,语言模型是针对某种语言建立的概率模型,能够描述给定词序列在语言中的出现的概率的分布,其对最终的识别准确率有着很重要的影响。
具体的,语言模型可以分为规则模型和统计模型两类,统计语言模型用概率统计的方法来刻画语言单位内在的统计规律,其设计简单实用而且取得了很好的效果,已经被广泛用于语音识别、机器翻译、情感识别等领域,本发明实施例中应用的也是统计语言模型。
具体的,识别路径包括当前分词之前的其他已经被识别的分词所组成的所有可能的词序列,由于当前分词之前的其他分词的候选词至少一个,因此,每个基础候选词至少对应一条识别路径。在本发明实施例中,得到当前分词的至少一个基础候选词后,根据当前分词之前的其他已经被识别的分词找到当前分词的所有识别路径,即为每个基础候选词所对应的识别路径,采用语言模型计算每个基础候选词在每一条识别路径下的贝叶斯概率,即得到每个基础候选词在每一条识别路径下的得分。
进一步的,采用至少两个语言模型分别对每一个基础候选词在其对应的每一条识别路径下进行打分,得到每一个基础候选词在其对应的每一条识别路径下的至少两个打分结果,根据至少两个语言模型的打分结果,可以得出每个基础候选词在其对应的每个识别路径下更为准确的得分,使得当前分词的识别结果的准确度更高。
步骤103、根据各语言模型对每个基础候选词的打分结果,得到当前分词在至少一个识别路径下的标准候选词,以及与标准候选词对应的综合得分。
在本发明实施例中,采用至少两个语言模型分别对每一个基础候选词在其对应的每一条识别路径下进行打分之后,根据当前分词的每一个基础候选词在其对应的每一条识别路径下的至少两个打分结果,得到当前分词的每一个基础候选词在其对应的每一条识别路径下的综合得分。
进一步的,上述综合得分表示在当前分词的识别过程中,该基础候选词在该识别路径下的最终得分,根据该综合得分可以判断该基础候选词在该路径下出现的可能性大小,以及判断该基础候选词是否会被保留下来作为当前分词的标准候选词。
具体的,为了提高语音识别的速度以及识别结果的准确度,本发明实施例根据每一个基础候选词在其对应的每一条路径下的综合得分,从当前分词的所有识别路径下的所有基础候选词中,选择较高的综合得分对应的识别路径下的基础候选词保留下来,作为当前分词的标准候选词,并将该标准候选词以及对应的综合得分进行关联储存,以参与后续对音频数据的识别结果的选择。
进一步的,对于较低的综合得分对应的识别路径下的基础候选词,说明其出现在对应路径下的可能性较小,成为当前分词的最终识别结果的概率也比较小,因此,可以不对该识别路径下的该基础候选词及其对应的综合得分进行保存,该识别路径下的该基础候选词也不用参与对音频数据最终识别结果的选择,从而减小了参与音频数据语音识别结果选择的识别路径的数量,提高了音频数据的识别速度。
步骤104、根据与音频数据中的各分词对应的标准候选词以及综合得分,确定与音频数据对应的语音识别结果。
具体的,当音频数据的最后一个分词的标准候选词被确定以后,找到音频数据的所有识别路径,并根据每条识别路径中的各分词对应的标准候选词以及综合得分,计算该识别路径中所有分词对应的标准候选词的综合得分之和,从所有识别路径中选择综合得分之和最高的识别路径,将该识别路径所对应的各个分词的标准候选词的词序列作为接收的音频数据的语音识别结果。
本发明实施例提供的技术方案,对接收的音频数据进行实时的分词识别,通过至少两个语言模型对当前分词的每个基础候选词在对应识别路径下进行打分,根据每个基础候选词在对应识别路径下的综合得分,确定与音频数据对应的语音识别结果。本发明实施例通过对音频数据进行实时分词识别和实时打分,解决了现有技术中采用两遍解码的方式进行语音识别,识别速度慢的问题,提高了语音识别的速度。
实施例二
图2为本发明实施例二提供的一种实时语音识别方法的流程图,上述各个实施例之间的技术特征的排列组合也落入本发明实施例的保护范围之内。本发明实施例可适用于任一种需要对音频数据进行实时语音识别的情况,具体的,参考图2,该方法可以包括如下步骤:
步骤201、对接收的音频数据进行实时分词识别,从语言模型中获得当前分词的至少一个基础候选词。
本发明实施例中,语言模型至少包括:第一语言模型以及第二语言模型,并且第一语言模型与第二语言模型的数据规模不同。具体的,第一语言模型可以是小规模语言模型,其数据规模可以是1G、10G或者是其他较小的规模,第二语言模型可以是大规模语言模型,其数据规模可以是100G、200G甚至更大的规模。与小规模语言模型相比,大规模语言模型由于数据规模更大,因此对词语的识别准确度更高,相应的,识别速度也比小规模语言模型的识别速度更慢。
具体的,接收需要进行语音识别的音频数据之后,需要对接收的音频数据进行实时分词识别,得到当前分词的特征,并从第一语言模型中获得该特征所对应的所有候选词,即得到当前分词的所有基础候选词。在本发明实施例中,当前分词的特征可以是当前分词的汉语拼音,由于相同的拼音可能会对应多个词语,即汉语中的同音词,所以,根据当前分词的特征会获得至少一个当前分词所对应的基础候选词。
步骤202、获取当前分词的基础候选词所对应的识别路径,并采用语言模型对基础候选词进行打分。
本发明实施例中,从第一语言模型中获得当前分词的至少一个基础候选词之后,分别采用第一语言模型和第二语言模型对每个基础候选词进行打分。
上述基础候选词虽然全都满足当前分词的特征,但是每个基础候选词在该音频数据的不同的语境下的概率并不相同,即每个基础候选词在不同的识别路径下成为当前分词的识别结果的概率并不相同。以输入的音频数据为“你知道例题一怎么做吗”为例,若当前分词为“例题一”,其所对应的基础候选词至少包括“例题一”和“立体一”,第一个分词“你”的标准候选词至少包括“你”和“妮”,第二个分词的标准候选词至少包括“知道”、“指导”和“只到”,则当前分词的基础候选词“例题一”在识别路径“你”“知道”下的概率可能为0.9,而在识别路径“你”“只到”下的概率可能只有0.1,即“你知道例题一”比“你只到例题一”更符合人类语言表达的方式习惯,其成为音频数据的语音识别的结果的可能性更大。
为了更准确的对音频数据进行识别,在采用语言模型对当前分词的每个基础候选词进行打分之前,需要先获得该基础候选词所对应的识别路径,再采用至少两种语言模型分别对该基础候选词在每一条识别路径下进行打分,根据打分结果衡量该基础候选词在对应的识别路径下成为当前分词的识别结果的可能性。
本发明实施例中的语言模型都是N元语言模型,用数学语言表述,N元语言模型就是根据一个词语的前N-1个词语,来计算当前词语的概率,即当前词语的概率只依赖于前N-1个词语。
具体的,采用语言模型对某个基础候选词在至少一个识别路径下进行打分之前,先判断当前分词是否为音频数据中的首个分词。若是,则当前分词之前没有其他分词,将该基础候选词的识别路径设置为空,并采用第一语言模型和第二语言模型分别对该基础候选词进行打分;若否,则获取当前分词的相邻历史处理分词,并获取相邻历史处理分词的全部历史标准候选词,将各历史标准候选词加入至对应的历史识别路径中,作为该基础候选词的识别路径,并采用第一语言模型和第二语言模型分别计算在各识别路径下该基础候选词的条件概率,作为该基础候选词在至少一个识别路径下的打分结果。
步骤203、根据语言模型对基础候选词的打分结果,得到当前分词的标准候选词及其对应的综合得分。
具体的,根据第一语言模型和第二语言模型分别对当前分词的每个基础候选词的打分结果,得到当前分词在至少一个识别路径下的标准候选词,以及与标准候选词对应的综合得分,包括:分别获取第一语言模型和第二语言模型对目标基础候选词在目标识别路径下的打分结果,并利用第一语言模型得分对第二语言模型得分进行插值计算,得到目标基础候选词在目标识别路径下的综合得分。
进一步的,根据第一语言模型和第二语言模型分别对目标基础候选词进行打分,得到目标基础候选词在目标识别路径下的综合得分,包括:采用第一语言模型计算目标基础候选词在目标识别路径下的条件概率,得到第一语言模型得分,将目标基础候选词和第一语言模型得分相关联并存入目标基础候选词所对应的解码令牌中;采用第二语言模型计算目标基础候选词在目标识别路径下的条件概率,得到第二语言模型得分;利用第一语言模型得分对第二语言模型得分进行插值计算,得到目标基础候选词在目标识别路径下的综合得分,将目标基础候选词对应的解码令牌中的第一语言模型得分替换为所述综合得分。
进一步的,利用目标基础候选词在目标识别路径下的第一语言模型得分对第二语言模型得分进行插值计算,得到目标基础候选词在目标识别路径下的综合得分包括:根据公式:c=a*第一语言模型得分+b*第二语言模型得分计算所述目标基础候选词在目标识别路径下的综合得分c;其中,a、b为设定权重系数,且a+b=1。在本发明实施例中,利用第一语言模型得分对第二语言模型得分进行插值计算,可以使目标基础候选词的得分更加准确,从而使最终的语音识别结果更加精准。
具体的,在得到当前分词在至少一个识别路径下的标准候选词,以及与标准候选词对应的综合得分之后,根据得分值的大小,获取设定数量的综合得分,将上述获取的综合得分所对应的识别路径下的基础候选词作为当前分词在至少一个识别路径下的标准候选词。设定数量可以是5、10或者其他数字,用于从当前分词的所有基础候选词所对应的所有综合得分中选择出得分较高的,并保留选出的综合得分所对应的识别路径下的基础候选词所对应的解码令牌,保留的解码令牌中的基础候选词,即为对应识别路径下,当前分词的标准候选词,同时将其他得分较低的基础候选词所对应的解码令牌进行删除。
可选的,解码令牌可以是结构体,其中存储有目标标准候选词以及与目标标准候选词所对应的综合得分,并且保留的结构体的指针指向下一个分词所保留的标准候选词的结构体,使得后续分词可以根据结构体所构成的链表得到其所对应的历史识别路径。
步骤204、根据与音频数据中的各分词对应的标准候选词以及综合得分,确定音频数据的语音识别结果。
具体的,确定与音频数据对应的语音识别结果,包括:获取音频数据的末位分词在至少一个识别路径下的标准候选词,每个标准候选词在其对应的识别路径后面加上其自身,从而构造多个可选识别路径;根据与音频数据中的各分词对应的标准候选词及与标准候选词对应的综合得分,计算各可选识别路径对应的路径得分;将路径得分最高一个可选识别路径中包括的各个标准候选词的组合,确定与为音频数据对应的语音识别结果。
本发明实施例提供的技术方案,对接收的音频数据进行实时的分词识别,通过至少两个语言模型对当前分词的每个基础候选词在对应识别路径下进行打分,根据每个基础候选词在对应识别路径下的综合得分,确定与音频数据对应的语音识别结果。本发明实施例通过对音频数据进行实时分词识别和实时打分,解决了现有技术中采用两遍解码的方式进行语音识别,识别速度慢的问题,提高了语音识别的速度,同时,语音识别的中间结果也利用了大规模语言模型的信息,提高了语音识别的准确率。
实施例三
图3为本发明实施例三提供的一种实时语音识别装置的结构示意图,具体的,如图3所示,该装置可以包括:
分词识别模块301,用于对接收的音频数据进行实时分词识别,得到当前分词的至少一个基础候选词;
语言模型打分模块302,用于采用至少两个语言模型对每个所述基础候选词在至少一个识别路径下进行打分;
候选词选择模块303,用于根据各所述语言模型对每个所述基础候选词的打分结果,得到所述当前分词在至少一个识别路径下的标准候选词,以及与所述标准候选词对应的综合得分;
识别结果确定模块304,用于根据与所述音频数据中的各分词对应的标准候选词以及综合得分,确定与所述音频数据对应的语音识别结果。
本发明实施例提供的技术方案,对接收的音频数据进行实时的分词识别,通过至少两个语言模型对当前分词的每个基础候选词在对应识别路径下进行打分,根据每个基础候选词在对应识别路径下的综合得分,确定与音频数据对应的语音识别结果。本发明实施例通过对音频数据进行实时分词识别和实时打分,解决了现有技术中采用两遍解码的方式进行语音识别,识别速度慢的问题,提高了语音识别的速度,同时,语音识别的中间结果也利用了大规模语言模型的信息,提高了语音识别的准确率。
进一步的,语言模型打分模块302可以包括:路径获取与打分单元,用于判断当前分词是否为音频数据中的首个分词;若是,则将基础候选词的识别路径设置为空,并采用语言模型,对基础候选词进行打分;若否,则获取当前分词的相邻历史处理分词,并获取相邻历史处理分词的全部历史标准候选词;将各历史标准候选词加入至对应的历史识别路径中,作为基础候选词的识别路径,并采用语言模型分别计算在各识别路径下基础候选词的条件概率,作为基础候选词在至少一个识别路径下的打分结果。
进一步的,候选词选择模块303可以包括:插值计算单元,用于分别获取各语言模型对目标基础候选词在目标识别路径下的多个打分结果进行插值计算,得到目标基础候选词在目标识别路径下的综合得分;标准候选词选择单元,用于在每个基础候选词在至少一个识别路径下的综合得分中,根据得分值的大小,获取设定数量的综合得分对应的识别路径下的基础候选词作为当前分词在至少一个识别路径下的标准候选词。
进一步的,识别结果确定模块304可以包括:可选路径构造单元,用于根据音频数据的末位分词在至少一个识别路径下的标准候选词,构造多个可选识别路径;路径得分计算单元,用于根据与音频数据中的各分词对应的标准候选词,计算各可选识别路径对应的路径得分;识别结果获取单元,用于将路径得分最高一个可选识别路径中包括的各个标准候选词的组合,确定与为音频数据对应的语音识别结果。
进一步的,插值计算单元可以包括:第一子单元,用于采用第一语言模型计算目标基础候选词在目标识别路径下的条件概率,得到第一语言模型得分,将目标基础候选词和第一语言模型得分存入目标基础候选词对应的解码令牌中;第二子单元,用于采用第二语言模型计算目标基础候选词在目标识别路径下的条件概率,得到第二语言模型得分;第三子单元,用于对第一语言模型得分和第二语言模型得分进行插值计算,得到目标基础候选词在目标识别路径下的综合得分,将目标基础候选词对应的解码令牌中的第一语言模型得分替换为所述综合得分。
进一步的,第三子单元还可以用于,根据公式:c=a*第一语言模型得分+b*第二语言模型得分计算所述目标基础候选词在目标识别路径下的综合得分c;其中,a、b为设定权重系数,且a+b=1。
由于本实施例所介绍的实时语音识别装置为可以执行本发明实施例中的实时语音识别方法的装置,故而基于本发明实施例中所介绍的实时语音识别方法,本领域所属技术人员能够了解本实施例的实时语音识别装置的具体实施方式以及其各种变化形式,所以在此对于该实时语音识别装置如何实现本发明实施例中的实时语音识别方法不再详细介绍。只要本领域所属技术人员实施本发明实施例中实时语音识别方法所采用的装置,都属于本申请所欲保护的范围。
实施例四
参照图4,图4是本发明实施例四提供的一种电子设备的结构示意图,如图4所示,该设备包括处理器410、存储器420、输入装置430和输出装置440;设备中处理器410的数量可以是一个或多个,图4中以一个处理器410为例;设备中的处理器410、存储器420、输入装置430和输出装置440可以通过总线或其他方式连接,图4中以通过总线连接为例。
存储器420作为一种非暂态计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本发明实施例中的实时语音识别方法对应的程序指令/模块(例如,实时语音识别装置中的分词识别模块301、语言模型打分模块302、候选词选择模块303和识别结果确定模块304)。处理器410通过运行存储在存储器420中的软件程序、指令以及模块,从而执行设备的各种功能应用以及数据处理,即实现上述的实时语音识别方法。
存储器420可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端的使用所创建的数据等。此外,存储器420可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储器420可进一步包括相对于处理器410远程设置的存储器,这些远程存储器可以通过网络连接至设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入装置430可用于接收输入的数字或字符信息,以及产生与设备的用户设置以及功能控制有关的键信号输入。输出装置440可包括显示屏等显示设备。
实施例五
本发明实施例五提供了一种非暂态计算机可读存储介质,其上存储有计算机指令,该计算机指令被处理器执行时实现一种实时语音识别方法,一种实时语音识别方法包括:
对接收的音频数据进行实时分词识别,得到当前分词的至少一个基础候选词;
采用至少两个语言模型对每个所述基础候选词在至少一个识别路径下进行打分;
根据各所述语言模型对每个所述基础候选词的打分结果,得到所述当前分词在至少一个识别路径下的标准候选词,以及与所述标准候选词对应的综合得分;
根据与所述音频数据中的各分词对应的标准候选词以及综合得分,确定与所述音频数据对应的语音识别结果。
当然,本发明实施例所提供的一种非暂态计算机可读存储介质,其计算机指令可执行不限于如上所述的方法操作,还可以执行本发明任意实施例所提供的实时语音识别方法中的相关操作。
通过以上关于实施方式的描述,所属领域的技术人员可以清楚地了解到,本发明可借助软件及必需的通用硬件来实现,当然也可以通过硬件实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在非暂态计算机可读存储介质中,如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、闪存(FLASH)、硬盘或光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
值得注意的是,上述实时语音识别装置的实施例中,所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (10)

1.一种实时语音识别方法,其特征在于,包括:
对接收的音频数据进行实时分词识别,得到当前分词的至少一个基础候选词;
采用至少两个语言模型对每个所述基础候选词在至少一个识别路径下进行打分;
根据各所述语言模型对每个所述基础候选词的打分结果,得到所述当前分词在至少一个识别路径下的标准候选词,以及与所述标准候选词对应的综合得分;
根据与所述音频数据中的各分词对应的标准候选词以及综合得分,确定与所述音频数据对应的语音识别结果。
2.根据权利要求1所述的方法,其特征在于,采用语言模型对所述基础候选词在至少一个识别路径下进行打分,包括:
判断所述当前分词是否为所述音频数据中的首个分词;
若是,则将所述基础候选词的识别路径设置为空,并采用所述语言模型,对所述基础候选词进行打分;
若否,则获取所述当前分词的相邻历史处理分词,并获取所述相邻历史处理分词的全部历史标准候选词;
将各所述历史标准候选词加入至对应的历史识别路径中,作为所述基础候选词的识别路径,并采用所述语言模型分别计算在各所述识别路径下所述基础候选词的条件概率,作为所述基础候选词在至少一个识别路径下的打分结果。
3.根据权利要求2所述的方法,其特征在于,根据各所述语言模型对所述基础候选词的打分结果,得到所述当前分词在至少一个识别路径下的标准候选词,以及与所述标准候选词对应的综合得分,包括:
分别获取各所述语言模型对目标基础候选词在目标识别路径下的多个打分结果进行插值计算,得到所述目标基础候选词在目标识别路径下的综合得分;
在每个基础候选词在至少一个识别路径下的综合得分中,根据得分值的大小,获取设定数量的综合得分对应的识别路径下的基础候选词作为当前分词在至少一个识别路径下的标准候选词。
4.根据权利要求1所述的方法,其特征在于,根据与所述音频数据中的各分词对应的标准候选词以及综合得分,确定与所述音频数据对应的语音识别结果,包括:
根据所述音频数据的末位分词在至少一个识别路径下的标准候选词,构造多个可选识别路径;
根据与所述音频数据中的各分词对应的标准候选词,计算各所述可选识别路径对应的路径得分;
将路径得分最高一个可选识别路径中包括的各个标准候选词的组合,确定与为所述音频数据对应的语音识别结果。
5.根据权利要求1-4任一项所述的方法,其特征在于,所述语言模型包括:第一语言模型以及第二语言模型,所述第一语言模型与所述第二语言模型的数据规模不同。
6.根据权利要求3所述的方法,其特征在于,分别获取各所述语言模型对目标基础候选词在目标识别路径下的打分结果进行插值计算,得到所述目标基础候选词在目标识别路径下的综合得分,包括:
采用第一语言模型计算目标基础候选词在目标识别路径下的条件概率,得到第一语言模型得分,将所述目标基础候选词和第一语言模型得分存入所述目标基础候选词对应的解码令牌中;
采用第二语言模型计算目标基础候选词在目标识别路径下的条件概率,得到第二语言模型得分;
对所述第一语言模型得分和第二语言模型得分进行插值计算,得到所述目标基础候选词在目标识别路径下的综合得分,将所述目标基础候选词对应的解码令牌中的第一语言模型得分替换为所述综合得分;
其中,所述第一语言模型与所述第二语言模型的数据规模不同。
7.根据权利要求6所述的方法,其特征在于,对所述第一语言模型得分和第二语言模型得分进行插值计算,得到所述目标基础候选词在目标识别路径下的综合得分包括:
根据公式:c=a*第一语言模型得分+b*第二语言模型得分计算所述目标基础候选词在目标识别路径下的综合得分c;
其中,a、b为设定权重系数,且a+b=1。
8.一种实时语音识别装置,其特征在于,包括:
分词识别模块,用于对接收的音频数据进行实时分词识别,得到当前分词的至少一个基础候选词;
语言模型打分模块,用于采用至少两个语言模型对每个所述基础候选词在至少一个识别路径下进行打分;
候选词选择模块,用于根据各所述语言模型对每个所述基础候选词的打分结果,得到所述当前分词在至少一个识别路径下的标准候选词,以及与所述标准候选词对应的综合得分;
识别结果确定模块,用于根据与所述音频数据中的各分词对应的标准候选词以及综合得分,确定与所述音频数据对应的语音识别结果。
9.一种电子设备,其特征在于,包括:
至少一个处理器;
以及与所述处理器连接的至少一个存储器、总线;其中,
所述处理器、存储器通过所述总线完成相互间的通信;
所述处理器用于调用所述存储器中的程序指令,以执行权利要求1至权利要求7中任一项所述的实时语音识别方法。
10.一种非暂态计算机可读存储介质,其特征在于,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行权利要求1至权利要求7中任一项所述的实时语音识别方法。
CN201811354353.6A 2018-11-14 2018-11-14 实时语音识别方法、装置、设备及存储介质 Active CN109215630B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811354353.6A CN109215630B (zh) 2018-11-14 2018-11-14 实时语音识别方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811354353.6A CN109215630B (zh) 2018-11-14 2018-11-14 实时语音识别方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN109215630A true CN109215630A (zh) 2019-01-15
CN109215630B CN109215630B (zh) 2021-01-26

Family

ID=64996666

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811354353.6A Active CN109215630B (zh) 2018-11-14 2018-11-14 实时语音识别方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN109215630B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110797026A (zh) * 2019-09-17 2020-02-14 腾讯科技(深圳)有限公司 一种语音识别方法、装置及存储介质
CN110827794A (zh) * 2019-12-06 2020-02-21 科大讯飞股份有限公司 语音识别中间结果的质量评测方法和装置
CN111475129A (zh) * 2019-01-24 2020-07-31 北京京东尚科信息技术有限公司 一种语音识别候选同音词的展示方法及设备
CN112017662A (zh) * 2019-05-31 2020-12-01 阿里巴巴集团控股有限公司 控制指令确定方法、装置、电子设备和存储介质
CN113314124A (zh) * 2021-06-15 2021-08-27 宿迁硅基智能科技有限公司 文本输出方法及系统、存储介质、电子装置
CN113380228A (zh) * 2021-06-08 2021-09-10 北京它思智能科技有限公司 一种基于循环神经网络语言模型的在线语音识别方法和系统
WO2022193892A1 (zh) * 2021-03-16 2022-09-22 深圳地平线机器人科技有限公司 语音交互方法、装置、计算机可读存储介质及电子设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103544955A (zh) * 2012-07-13 2014-01-29 三星电子株式会社 识别语音的方法及其电子装置
US20160019887A1 (en) * 2014-07-21 2016-01-21 Samsung Electronics Co., Ltd. Method and device for context-based voice recognition
CN105513589A (zh) * 2015-12-18 2016-04-20 百度在线网络技术(北京)有限公司 语音识别方法和装置
WO2016144988A1 (en) * 2015-03-11 2016-09-15 Microsoft Technology Licensing, Llc Token-level interpolation for class-based language models
CN108573706A (zh) * 2017-03-10 2018-09-25 北京搜狗科技发展有限公司 一种语音识别方法、装置及设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103544955A (zh) * 2012-07-13 2014-01-29 三星电子株式会社 识别语音的方法及其电子装置
US20160019887A1 (en) * 2014-07-21 2016-01-21 Samsung Electronics Co., Ltd. Method and device for context-based voice recognition
WO2016144988A1 (en) * 2015-03-11 2016-09-15 Microsoft Technology Licensing, Llc Token-level interpolation for class-based language models
CN105513589A (zh) * 2015-12-18 2016-04-20 百度在线网络技术(北京)有限公司 语音识别方法和装置
CN108573706A (zh) * 2017-03-10 2018-09-25 北京搜狗科技发展有限公司 一种语音识别方法、装置及设备

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111475129A (zh) * 2019-01-24 2020-07-31 北京京东尚科信息技术有限公司 一种语音识别候选同音词的展示方法及设备
CN112017662A (zh) * 2019-05-31 2020-12-01 阿里巴巴集团控股有限公司 控制指令确定方法、装置、电子设备和存储介质
CN110797026A (zh) * 2019-09-17 2020-02-14 腾讯科技(深圳)有限公司 一种语音识别方法、装置及存储介质
CN110827794A (zh) * 2019-12-06 2020-02-21 科大讯飞股份有限公司 语音识别中间结果的质量评测方法和装置
WO2022193892A1 (zh) * 2021-03-16 2022-09-22 深圳地平线机器人科技有限公司 语音交互方法、装置、计算机可读存储介质及电子设备
CN113380228A (zh) * 2021-06-08 2021-09-10 北京它思智能科技有限公司 一种基于循环神经网络语言模型的在线语音识别方法和系统
CN113314124A (zh) * 2021-06-15 2021-08-27 宿迁硅基智能科技有限公司 文本输出方法及系统、存储介质、电子装置
CN113314124B (zh) * 2021-06-15 2022-03-25 宿迁硅基智能科技有限公司 文本输出方法及系统、存储介质、电子装置
US11651139B2 (en) 2021-06-15 2023-05-16 Nanjing Silicon Intelligence Technology Co., Ltd. Text output method and system, storage medium, and electronic device

Also Published As

Publication number Publication date
CN109215630B (zh) 2021-01-26

Similar Documents

Publication Publication Date Title
CN109215630A (zh) 实时语音识别方法、装置、设备及存储介质
CN109616108A (zh) 多轮对话交互处理方法、装置、电子设备及存储介质
CN107797984B (zh) 智能交互方法、设备及存储介质
CN110543552B (zh) 对话交互方法、装置及电子设备
WO2019174428A1 (zh) 答复信息的获取方法及装置
JP2021018797A (ja) 対話の交互方法、装置、コンピュータ可読記憶媒体、及びプログラム
CN108711420A (zh) 多语言混杂模型建立、数据获取方法及装置、电子设备
CN108170680A (zh) 基于隐马尔科夫模型的关键词识别方法、终端设备及存储介质
CN107818781A (zh) 智能交互方法、设备及存储介质
CN109284502B (zh) 一种文本相似度计算方法、装置、电子设备及存储介质
CN106407178A (zh) 一种会话摘要生成方法及装置
CN110187780B (zh) 长文本预测方法、装置、设备和存储介质
CN109545183A (zh) 文本处理方法、装置、电子设备及存储介质
CN109243468A (zh) 语音识别方法、装置、电子设备及存储介质
CN108959531A (zh) 信息搜索方法、装置、设备及存储介质
CN108304376B (zh) 文本向量的确定方法、装置、存储介质及电子装置
CN110895656B (zh) 一种文本相似度计算方法、装置、电子设备及存储介质
CN108573306B (zh) 输出回复信息的方法、深度学习模型的训练方法及装置
CN106919551A (zh) 一种情感词极性的分析方法、装置及设备
CN110377745B (zh) 信息处理方法、信息检索方法、装置及服务器
CN105161095A (zh) 语音识别语法树的构图方法及装置
CN111079433B (zh) 一种事件抽取方法、装置及电子设备
CN110598869A (zh) 基于序列模型的分类方法、装置、电子设备
WO2021077834A1 (zh) 一种基于对话系统对用户问句提出反问的方法和装置
CN107734123A (zh) 一种联系人排序方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20211117

Address after: 210034 floor 8, building D11, Hongfeng Science Park, Nanjing Economic and Technological Development Zone, Jiangsu Province

Patentee after: New Technology Co.,Ltd.

Patentee after: Volkswagen (China) Investment Co., Ltd

Address before: 100080 Room 501, 5th floor, NO.67, North Fourth Ring Road West, Haidian District, Beijing

Patentee before: Beijing Yufanzhi Information Technology Co.,Ltd.