CN110473523A - 一种语音识别方法、装置、存储介质及终端 - Google Patents

一种语音识别方法、装置、存储介质及终端 Download PDF

Info

Publication number
CN110473523A
CN110473523A CN201910812329.0A CN201910812329A CN110473523A CN 110473523 A CN110473523 A CN 110473523A CN 201910812329 A CN201910812329 A CN 201910812329A CN 110473523 A CN110473523 A CN 110473523A
Authority
CN
China
Prior art keywords
text
text information
voice data
identified
speech recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910812329.0A
Other languages
English (en)
Inventor
谭星
胡凯
张岱
史彩庆
舒景辰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Dami Technology Co Ltd
Original Assignee
Beijing Dami Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Dami Technology Co Ltd filed Critical Beijing Dami Technology Co Ltd
Priority to CN201910812329.0A priority Critical patent/CN110473523A/zh
Publication of CN110473523A publication Critical patent/CN110473523A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Abstract

本申请实施例公开了一种语音识别方法、装置、存储介质及终端,其中,所述方法包括:获取待识别语音数据;采用预先训练好的语音识别模型对所述待识别语音数据进行语音识别处理,获得所述待识别语音数据对应的第一文本信息;采用预先训练好的文本调整模型对所述第一文本信息进行文本调整处理,生成所述第一文本信息对应的第二文本信息。采用本申请实施例,能够对语音识别模型生成的第一文本进行字词更换、语句结构变换等调整处理,优化文本内容,提升语音识别的准确性。

Description

一种语音识别方法、装置、存储介质及终端
技术领域
本申请涉及计算机技术领域,尤其涉及一种语音识别方法、装置、存储介质及终端。
背景技术
语音识别技术是指让机器通过识别和理解把语音数据转变为相应的文本或命令的技术。语音识别简化了人机交互操作,给人类生活带来了便利,已被广泛应用于各大领域或各类系统中,如录音笔、车载语音导航、键盘输入法等等。
地域与文化带来的差异使得不同的人群在语言发音及所用语种上会有所不同。以普通话为例,用户的普通话水平参差不齐,针对同一词语/语句分别让两用户进行发音,可能会出现发音差异较大的情况,语音识别结果也会因此而不同。例如,发音不标准的用户会将“小老虎”读成“小脑斧”。
现有的语音识别系统依赖于传统的语言模型以实现对语音数据的文本转换,但该语言模型仅能根据前述出现的少量的几个字/词对后续文本的字/词进行预测,形成的文本准确率差,导致语音识别系统的识别结果准确性不高。
发明内容
本申请实施例提供了一种语音识别方法、装置、存储介质及终端,可以解决上述语音识别准确性不高的问题。所述技术方案如下:
第一方面,本申请实施例提供了一种语音识别方法,所述方法包括:
获取待识别语音数据;
采用预先训练好的语音识别模型对所述待识别语音数据进行语音识别处理,获得所述待识别语音数据对应的第一文本信息;
采用预先训练好的文本调整模型对所述第一文本信息进行文本调整处理,生成所述第一文本信息对应的第二文本信息。
第二方面,本申请实施例提供了一种语音识别装置,所述装置包括:
待识别语音数据获取模块,用于获取待识别语音数据;
第一文本信息获取模块,用于采用预先训练好的语音识别模型对所述待识别语音数据进行语音识别处理,获得所述待识别语音数据对应的第一文本信息;
第二文本信息生成模块,用于采用预先训练好的文本调整模型对所述第一文本信息进行文本调整处理,生成所述第一文本信息对应的第二文本信息。
第三方面,本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述任一项方法的步骤。
第四方面,本申请实施例提供了一种终端,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述任一项方法的步骤。
本申请一些实施例提供的技术方案带来的有益效果至少包括:
在本申请的一个或多个实施例中,对获取到的待识别语音数据,先采用预先训练好的语音识别模型对所述待识别语音数据进行语音识别处理,待获得所述待识别语音数据对应的第一文本信息后,再采用预先训练好的文本调整模型对所述第一文本信息进行文本调整处理,生成所述第一文本信息对应的第二文本信息。实施方式中,语音识别模型仅依赖少量词/字符/音素便可进行文本预测,在用户发音不标准等情况下,其所形成的文本信息准确率不高,识别结果差;增设文本调整模型能够对语音识别模型生成的第一文本进行字词更换、语句结构变换等调整处理,优化文本内容,提升语音识别的准确性。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种语音识别方法的流程示意图;
图2是本申请实施例提供的一种语音识别方法的流程示意图;
图3是本申请实施例提供的一种语音识别方法的流程示意图;
图4是本申请实施例提供的一种语音识别装置的结构示意图;
图5是本申请实施例提供的一种语音识别装置的结构示意图;
图6是本申请实施例提供的一种语音识别装置的结构示意图;
图7是本申请实施例提供的一种终端结构框图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施例方式作进一步地详细描述。
下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
在本申请的描述中,需要理解的是,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本申请中的具体含义。此外,在本申请的描述中,除非另有说明,“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
下面将结合附图1-附图3,对本申请实施例提供的语音识别方法进行详细介绍。
请参见图1,为本申请实施例提供的一种语音识别方法的流程示意图。如图1所示,本申请实施例的所述方法可以包括以下步骤:
S101,获取待识别语音数据;
基于语音识别按钮被触发,终端接收用户录入的语音数据。具体地,用户可以通过点击终端界面上带有语音输入标识(如麦克风标识)的虚拟键来启用语音识别功能,以说、唱等形式录入需要识别的语音数据;用户还可以通过按压智能录音笔上的物理按钮来启动录音,接收的语音数据可以是汉语、英语、俄语等不同语种。需要说明的是,本申请提供的语音识别方法适用于任意一款能够进行人机语音交互的应用程序/系统中,如输入法、语音助手、导航系统等,该方法所获取的语音数据不受限于用户的语音发音形式及语言类别,均可进行识别。终端根据接收到的语音数据,将其转换成相对应的文本信息的过程称为语音识别。
S102,采用预先训练好的语音识别模型对所述待识别语音数据进行语音识别处理,获得所述待识别语音数据对应的第一文本信息;
预先训练好的语音识别模型,其模型参数得到了优化,能够保证识别结果的准确性。所述语音识别模型包含声学子模型、语言子模型、字典及解码器四大部分。其中,声学子模型是可以识别单个音素的模型,音素是语音中的最小语音单位;语言子模型能够判断一句话是否合理;字典定义了音素序列对应的字或者词;解码器是对经过声学子模型、字典及语言子模型处理后的语音数据进行文字输出。
利用语音识别模型对所述目标语音数据进行语音识别的具体过程为:首先需要用声学子模型将所述目标语音数据转换成音素信息,通过字典将音素与字或者词对应起来,再用语言子模型计算将这些字词相互关联后构成一句话的概率,解码输出概率最大的文本信息,即第一文本信息。
具体地,语音识别过程中的声学子模型可以是隐马尔可夫模型;语言子模型可以是N-Gram语言模型,该模型可根据前(n-1)个词/字符/音素来预测第n个词/字符/音素,一般取n≤4。
S103,采用预先训练好的文本调整模型对所述第一文本信息进行文本调整处理,生成所述第一文本信息对应的第二文本信息。
预先训练好的文本调整模型,其模型参数得到了优化,能够保证文本输出结果的准确性。凡是能够进行时间序列预测的模型均可作为文本调整模型用以对所述第一文本信息进行调整。例如使用LSTM长短期记忆网络、Transformer模型等。
调整指的是对第一文本中不合语法、不合常规语言表达的语句进行结构变换、语序调整或字词更替等。第一文本经调整处理后即生成第二文本信息。例如,在一些习惯使用倒装句的地区,会接收到诸如“知不道”“怎么样啊这书看起来”之类的语音数据,语音识别模型进行语音识别将其转换成对应的文字信息:知不道、怎么样啊这书看起来,这些不符合常规语言表述的第一文本信息,文本调整模型能够根据上文内容及该句所想表达的意思对第一文本的文字/语序进行调整,并输出“不知道”、“这书看起来怎么样啊”符合常规语言表述的语句文本。再如,特定群体用户区分不开“n与l”、“f与h”,发音存在不标准的情况,在进行语音输入时就会录入诸如“流奶”“电老”“胡建”等语音数据,语音识别模型进行语音识别后会输出文字/词语错误的第一文本信息,文本调整模型可以根据上文内容对第一文本信息中错误的文字/词语进行更替修改,并输出“牛奶”、“电脑”、“福建”文字/词语正确的第二文本信息。
需要说明的是,步骤S102中使用的N-Gram语言模型最多只能根据前述出现的3/4个词/字符/音素来预测第4/5个词/字符/音素,在文本信息的形成上准确率有限。而本步骤中使用的神经网络模型,如LSTM长短期记忆网络,其可向前看几十到几百个词/字符/音素,能够根据前述出现的(n-1)个词/字符/音素来预测第n个词/字符/音素(n最大取200),文本预测更准确,形成的信息精准度更高。本申请在语音识别模型的基础上结合文本调整模型实现了对语音识别模型输出的文本内容的优化,提升了语音识别的准确性。
在本申请实施例中,对获取到的待识别语音数据,先采用预先训练好的语音识别模型对所述待识别语音数据进行语音识别处理,待获得所述待识别语音数据对应的第一文本信息后,再采用预先训练好的文本调整模型对所述第一文本信息进行文本调整处理,生成所述第一文本信息对应的第二文本信息。实施方式中,语音识别模型仅依赖少量词/字符/音素便可进行文本预测,在用户发音不标准等情况下,其所形成的文本信息准确率不高,识别结果差;增设文本调整模型能够对语音识别模型生成的第一文本进行字词更换、语句结构变换等调整处理,优化文本内容,提升语音识别的准确性。
请参见图2,为本申请实施例提供的一种语音识别方法的流程示意图。如图2所示,本申请实施例的所述方法可以包括以下步骤:
S201,获取样本语音数据,并创建语音识别模型,采用所述样本语音数据对所述语音识别模型进行训练;
本申请实施例可以利用现有的开源架构来创建语音识别模型,通过终端上的麦克风等录音装置获取用户输入的多个语音数据,将此作为样本对所述创建的语音识别模型进行训练。样本可以通过当前录制的语音数据、调取历史语音数据、影视剧中的独白/台词语音数据等中的一种或多种组合方式来获取;对语音识别模型的训练,样本应保持多样性,且数量越多越好。例如非标准普通话、多人语音对话、演讲、说唱以及日常交流中的多语种混杂化口语表述等,采用几百乃至上千条语音(如800条、2000条等)对语音识别模型进行训练。
训练样本越多,语音识别模型的识别准确率会越高。在对语音识别模型的训练过程中,随着训练样本语音数据的增多,模型参数不断优化,识别结果的准确率随之提高,在此过程中,还可以通过人工标注等方式对识别结果进行修正,加速参数优化。
S202,获取所述语音识别模型的识别准确率;当所述识别准确率达到第一准确率阈值时,生成训练好的语音识别模型。
为保证后续测试过程中语音识别的准确性,语音识别模型的输出结果需要达到一定的准确率方可视为训练完成,对语音识别模型的识别准确率的获取可以是实时获取,也可以是周期性获取(例如每10s获取一次或每15s获取一次),当获取到的语音识别模型的识别准确率达到第一准确率阈值时,模型训练完成。其中,准确率是表示语音识别模型输出的语句合理、符合常规语言表达的概率,阈值是临界值,以此来确定语音识别模型训练完成,第一准确率阈值例如可以是95%。
当该语音识别模型的识别准确率未达到第一准确率阈值时,则需要对该模型进行调整,并继续采用样本训练,直到识别准确率达到第一准确率阈值。
S203,获取样本文本信息,并创建文本调整模型,采用所述样本文本信息对所述文本调整模型进行训练;
本申请实施例可以利用现有的开源架构来创建文本调整模型,利用提前收集好的文本为训练样本对所述创建的文本调整模型进行训练。样本可以通过散文诗集、歌词、影视剧本、聊天软件等中的一种或多种组合方式来获取;对文本调整模型的训练,样本应保持多样性,且数量越多越好。例如样本文本包含台词、诗歌、多语言聊天对话内容(如中英文混合文字内容)等多种不同类型的文字信息,采用上千条文本(如1000条、3000条等)对文本调整模型进行训练。
训练样本越多,文本调整模型的文本输出结果准确率会越高。在对文本调整模型的训练过程中,随着训练样本文本信息的增多,模型参数不断优化,文本输出结果的准确率随之提高,在此过程中,还可以通过人工标注等方式对文本输出结果进行修正,加速参数优化。
S204,获取所述文本调整模型的调整准确率;当所述调整准确率达到第二准确率阈值时,生成训练好的文本调整模型。
为保证后续测试过程中文本输出结果的准确性,文本调整模型的输出结果需要达到一定的准确率方可视为训练完成,对文本调整模型的文本输出结果准确率的获取可以是实时获取,也可以是周期性获取(例如每5s获取一次或每8s获取一次),当获取到的文本调整模型的文本输出结果准确率达到第二准确率阈值时,模型训练完成。其中,准确率是表示文本调整模型输出的文本其语句合理、符合常规语言表达的概率,阈值是临界值,以此来确定文本调整模型训练完成,第二准确率阈值例如可以是98%。
当该文本调整模型的文本输出结果准确率未达到第二准确率阈值时,则需要对该模型进行调整,并继续采用样本训练,直到文本输出结果准确率达到第二准确率阈值。
S205,获取待识别语音数据;
该步骤具体可参见S101,此处不再赘述。
S206,采用预先训练好的语音识别模型对所述待识别语音数据进行语音识别处理,获得所述待识别语音数据对应的第一文本信息;
该步骤具体可参见S102,此处不再赘述。
S207,采用预先训练好的文本调整模型对所述第一文本信息进行文本调整处理,生成所述第一文本信息对应的第二文本信息。
该步骤具体可参见S103,此处不再赘述。
在本申请实施例中,对获取到的待识别语音数据,先采用预先训练好的语音识别模型对所述待识别语音数据进行语音识别处理,待获得所述待识别语音数据对应的第一文本信息后,再采用预先训练好的文本调整模型对所述第一文本信息进行文本调整处理,生成所述第一文本信息对应的第二文本信息。实施方式中,语音识别模型仅依赖少量词/字符/音素便可进行文本预测,在用户发音不标准等情况下,其所形成的文本信息准确率不高,识别结果差;增设文本调整模型能够对语音识别模型生成的第一文本进行字词更换、语句结构变换等调整处理,优化文本内容,提升语音识别的准确性。
请参见图3,为本申请实施例提供的一种语音识别方法的流程示意图。如图3所示,本申请实施例的所述方法可以包括以下步骤:
S301,获取待识别语音数据,对所述待识别语音数据进行预处理,生成目标语音数据;
基于语音识别按钮被触发,终端接收用户录入的语音数据。具体地,用户可以通过点击终端界面上带有语音输入标识(如麦克风标识)的虚拟键来启用语音识别功能,以说、唱等形式录入需要识别的语音数据;用户还可以通过按压智能录音笔上的物理按钮来启动录音,接收的语音数据可以是汉语、英语、俄语等不同语种。需要说明的是,本申请提供的语音识别方法适用于任意一款能够进行人机语音交互的应用程序/系统中,如输入法、语音助手、导航系统等,该方法所获取的语音数据不受限于用户的语音发音形式及语言类别,均可进行识别。终端根据接收到的语音数据,将其转换成相对应的文本信息的过程称为语音识别。
为消除外界噪音数据对待识别语音数据的干扰,需要对接收到的所述待识别语音数据进行预处理,具体过程为:先将待识别语音数据中的语音数据和噪音数据(非语音数据)时段区分开,确定出待识别语音数据的起始点,再用维纳滤波器/卡尔曼滤波器对待识别语音进行噪音消除。经过预处理后的待识别语音数据即为目标语音数据。
此外,鉴于语音数据具有时变特性,为减少语音数据整体非稳态及时变带来的影响,还可以对所述待识别语音进行分帧处理,即将语音数据进行分段处理,每段(每帧)取10~30ms即可保证语音数据的稳定性。
S302,采用语音识别模型对所述目标语音数据进行语音识别处理,获得所述目标语音数据对应的第一文本信息;
所述语音识别模型包含声学子模型、语言子模型、字典及解码器四大部分。其中,声学子模型是可以识别单个音素的模型,音素是语音中的最小语音单位;语言子模型能够判断一句话是否合理;字典定义了音素序列对应的字或者词;解码器是对经过声学子模型、字典及语言子模型处理后的语音数据进行文字输出。
利用语音识别模型对所述目标语音数据进行语音识别的具体过程为:首先需要用声学子模型将所述目标语音数据转换成音素信息,通过字典将音素与字或者词对应起来,再用语言子模型计算将这些字词相互关联后构成一句话的概率,解码输出概率最大的文本信息,即第一文本信息。
具体地,语音识别过程中的声学子模型可以是隐马尔可夫模型;语言子模型可以是N-Gram语言模型,该模型可根据前(n-1)个词/字符/音素来预测第n个词/字符/音素,一般取n≤4。
S303,提取所述第一文本信息对应的第一特征信息;
从所述第一文本信息中提取的第一特征信息包括:特征字/词、语句结构特征及词语关联度特征等具有代表性的特征,该些特征能够表明第一文本信息的整体内容。
S304,采用文本调整模型对所述第一特征信息进行调整处理,生成第二特征信息;所述调整处理包括关键字顺序调整、关键字替换、关键字增加或关键字删除中的至少一种;对所述第二特征信息进行组合,生成所述第一文本信息对应的第二文本信息;
凡是能够进行时间序列预测的模型均可作为文本调整模型用以对上述第一特征信息进行调整。例如使用LSTM长短期记忆网络、Transformer模型等。
调整指的是对第一文本中不合语法、不合常规语言表达的语句进行结构变换、语序调整或字词更替等。具体而言,文本调整模型可以根据提取的特征字/词、语句结构特征及词语关联度特征等第一特征信息,对语音识别模型输出的第一文本做出关键词顺序调整、替换、增删等调整处理,通过调整处理后,第二特征信息形成,对其进行组合构成第二文本信息,第二文本信息对应于第一文本信息。
例如,在一些习惯使用倒装句的地区,会接收到诸如“知不道”“怎么样啊这书看起来”之类的语音数据,语音识别模型进行语音识别将其转换成对应的文字信息:知不道、怎么样啊这书看起来,这些不符合常规语言表述的第一文本信息,文本调整模型能够根据上文内容及该句所想表达的意思对第一文本的文字/语序进行调整,并输出“不知道”、“这书看起来怎么样啊”符合常规语言表述的语句文本。再如,特定群体用户区分不开“n与l”、“f与h”,发音存在不标准的情况,在进行语音输入时就会录入诸如“流奶”“电老”“胡建”等语音数据,语音识别模型进行语音识别后会输出文字/词语错误的第一文本信息,文本调整模型可以根据上文内容对第一文本信息中错误的文字/词语进行更改修正,并输出“牛奶”、“电脑”、“福建”文字/词语正确的第二文本信息。
需要说明的是,步骤S302中使用的N-Gram语言模型最多只能根据前述出现的3/4个词/字符/音素来预测第4/5个词/字符/音素,在文本信息的形成上准确率有限。而本步骤中使用的神经网络模型,如LSTM长短期记忆网络,其可向前看几十到几百个词/字符/音素,能够根据前述出现的(n-1)个词/字符/音素来预测第n个词/字符/音素(n最大取200),文本预测更准确,形成的信息精准度更高。本申请在语音识别模型的基础上结合文本调整模型实现了对语音识别模型输出的文本内容的优化,提升了语音识别的准确性。
在本申请实施例中,对获取到的待识别语音数据,先采用预先训练好的语音识别模型对所述待识别语音数据进行语音识别处理,待获得所述待识别语音数据对应的第一文本信息后,再采用预先训练好的文本调整模型对所述第一文本信息进行文本调整处理,生成所述第一文本信息对应的第二文本信息。实施方式中,语音识别模型仅依赖少量词/字符/音素便可进行文本预测,在用户发音不标准等情况下,其所形成的文本信息准确率不高,识别结果差;增设文本调整模型能够对语音识别模型生成的第一文本进行字词更换、语句结构变换等调整处理,优化文本内容,提升语音识别的准确性。
下述为本申请装置实施例,可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节,请参照本申请方法实施例。
请参见图4,为本申请一个示例性实施例提供的语音识别装置的结构示意图。该语音识别装置可以通过软件、硬件或者两者的结合实现成为终端的全部或一部分,还可以作为独立的模块集成于服务器上。本申请实施例中的语音识别装置应用于终端,所述该装置1包括待识别语音数据获取模块11、第一文本信息获取模块12和第二文本信息生成模块13,其中:
待识别语音数据获取模块11,用于获取待识别语音数据;
第一文本信息获取模块12,用于采用预先训练好的语音识别模型对所述待识别语音数据进行语音识别处理,获得所述待识别语音数据对应的第一文本信息;
第二文本信息生成模块13,用于采用预先训练好的文本调整模型对所述第一文本信息进行文本调整处理,生成所述第一文本信息对应的第二文本信息。
可选的,如图5所示,所述装置1还包括:
语音识别模型创建模块14,用于获取样本语音数据,并创建语音识别模型;
语音识别模型训练模块15,用于采用所述样本语音数据对所述语音识别模型进行训练,获取所述语音识别模型的识别准确率;当所述识别准确率达到第一准确率阈值时,生成训练好的语音识别模型。
文本调整模型创建模块16,用于获取样本文本信息,并创建文本调整模型;
文本调整模型训练模块17,用于采用所述样本文本信息对所述文本调整模型进行训练,获取所述文本调整模型的调整准确率;当所述调整准确率达到第二准确率阈值时,生成训练好的文本调整模型。
请参见图6,为本申请一个示例性实施例提供的语音识别装置的结构示意图。本实施例提供的语音识别装置1,其待识别语音数据获取模块11包括:
待识别语音数据获取单元111,用于获取待识别语音数据;
目标语音数据生成单元112,用于对所述待识别语音数据进行预处理,生成目标语音数据;
第一文本信息获取模块12具体用于:
采用语音识别模型对所述目标语音数据进行语音识别处理,获得所述目标语音数据对应的第一文本信息。
第二文本信息生成模块13包括:
第一特征信息提取单元131,用于提取所述第一文本信息对应的第一特征信息;
第二特征信息生成单元132,用于采用文本调整模型对所述第一特征信息进行调整处理,生成第二特征信息,所述调整处理包括关键字顺序调整、关键字替换、关键字增加或关键字删除中的至少一种;
第二文本信息生成单元133,用于对所述第二特征信息进行组合,生成所述第一文本信息对应的第二文本信息。
需要说明的是,上述实施例提供的语音识别装置在执行语音识别方法时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的语音识别装置与语音识别方法实施例属于同一构思,其体现实现过程详见方法实施例,这里不再赘述。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
在本申请实施例中,对获取到的待识别语音数据,先采用预先训练好的语音识别模型对所述待识别语音数据进行语音识别处理,待获得所述待识别语音数据对应的第一文本信息后,再采用预先训练好的文本调整模型对所述第一文本信息进行文本调整处理,生成所述第一文本信息对应的第二文本信息。实施方式中,语音识别模型仅依赖少量词/字符/音素便可进行文本预测,在用户发音不标准等情况下,其所形成的文本信息准确率不高,识别结果差;增设文本调整模型能够对语音识别模型生成的第一文本进行字词更换、语句结构变换等调整处理,优化文本内容,提升语音识别的准确性。
本申请实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现前述任一实施例方法的步骤。其中,计算机可读存储介质可以包括但不限于任何类型的盘,包括软盘、光盘、DVD、CD-ROM、微型驱动器以及磁光盘、ROM、RAM、EPROM、EEPROM、DRAM、VRAM、闪速存储器设备、磁卡或光卡、纳米系统(包括分子存储器IC),或适合于存储指令和/或数据的任何类型的媒介或设备。
本申请实施例还提供了一种终端,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行程序时实现上述任一实施例方法的步骤。
请参见图7,为本申请实施例提供的一种终端结构框图。
如图7所示,终端600包括有:处理器601和存储器602。
本申请实施例中,处理器601为计算机系统的控制中心,可以是实体机的处理器,也可以是虚拟机的处理器。处理器601可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器601可以采用DSP(Digital Signal Processing,数字信号处理)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)、PLA(Programmable LogicArray,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器601也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称CPU(CentralProcessing Unit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。
存储器602可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器602还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。在本申请的一些实施例中,存储器602中的非暂态的计算机可读存储介质用于存储至少一个指令,该至少一个指令用于被处理器601所执行以实现本申请实施例中的方法。
一些实施例中,终端600还包括有:外围设备接口603和至少一个外围设备。处理器601、存储器602和外围设备接口603之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口603相连。具体地,外围设备包括:显示屏604、摄像头605和音频电路606中的至少一种。
外围设备接口603可被用于将I/O(Input/Output,输入/输出)相关的至少一个外围设备连接到处理器601和存储器602。在本申请的一些实施例中,处理器601、存储器602和外围设备接口603被集成在同一芯片或电路板上;在本申请的一些其他实施例中,处理器601、存储器602和外围设备接口603中的任意一个或两个可以在单独的芯片或电路板上实现。本申请实施例对此不作具体限定。
显示屏604用于显示UI(User Interface,用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏604是触摸显示屏时,显示屏604还具有采集在显示屏604的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器601进行处理。此时,显示屏604还可以用于提供虚拟按钮和/或虚拟键盘,也称软按钮和/或软键盘。在本申请的一些实施例中,显示屏604可以为一个,设置终端600的前面板;在本申请的另一些实施例中,显示屏604可以为至少两个,分别设置在终端600的不同表面或呈折叠设计;在本申请的再一些实施例中,显示屏604可以是柔性显示屏,设置在终端600的弯曲表面上或折叠面上。甚至,显示屏604还可以设置成非矩形的不规则图形,也即异形屏。显示屏604可以采用LCD(Liquid Crystal Display,液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。
摄像头605用于采集图像或视频。可选地,摄像头605包括前置摄像头和后置摄像头。通常,前置摄像头设置在终端的前面板,后置摄像头设置在终端的背面。在一些实施例中,后置摄像头为至少两个,分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种,以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality,虚拟现实)拍摄功能或者其它融合拍摄功能。在本申请的一些实施例中,摄像头605还可以包括闪光灯。闪光灯可以是单色温闪光灯,也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合,可以用于不同色温下的光线补偿。
音频电路606可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波,并将声波转换为电信号输入至处理器601进行处理。出于立体声采集或降噪的目的,麦克风可以为多个,分别设置在终端600的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。
电源607用于为终端600中的各个组件进行供电。电源607可以是交流电、直流电、一次性电池或可充电电池。当电源607包括可充电电池时,该可充电电池可以是有线充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池,无线充电电池是通过无线线圈充电的电池。该可充电电池还可以用于支持快充技术。
本申请实施例中示出的终端结构框图并不构成对终端600的限定,终端600可以包括比图示更多或更少的组件,或者组合某些组件,或者采用不同的组件布置。
在本申请中,术语“第一”、“第二”等仅用于描述的目的,而不能理解为指示或暗示相对重要性或顺序;术语“多个”则指两个或两个以上,除非另有明确的限定。术语“安装”、“相连”、“连接”、“固定”等术语均应做广义理解,例如,“连接”可以是固定连接,也可以是可拆卸连接,或一体地连接;“相连”可以是直接相连,也可以通过中间媒介间接相连。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本申请中的具体含义。
本申请的描述中,需要理解的是,术语“上”、“下”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本申请和简化描述,而不是指示或暗示所指的装置或单元必须具有特定的方向、以特定的方位构造和操作,因此,不能理解为对本申请的限制。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,依本申请权利要求所作的等同变化,仍属本申请所涵盖的范围。

Claims (10)

1.一种语音识别方法,其特征在于,所述方法包括:
获取待识别语音数据;
采用预先训练好的语音识别模型对所述待识别语音数据进行语音识别处理,获得所述待识别语音数据对应的第一文本信息;
采用预先训练好的文本调整模型对所述第一文本信息进行文本调整处理,生成所述第一文本信息对应的第二文本信息。
2.根据权利要求1所述的方法,其特征在于,所述获取待识别语音数据,包括:
获取待识别语音数据,对所述待识别语音数据进行预处理,生成目标语音数据;
所述采用语音识别模型对所述待识别语音数据进行语音识别处理,获得所述待识别语音数据对应的第一文本信息,包括:
采用语音识别模型对所述目标语音数据进行语音识别处理,获得所述目标语音数据对应的第一文本信息。
3.根据权利要求1所述的方法,其特征在于,所述采用预先训练好的文本调整模型对所述第一文本信息进行文本调整处理,生成所述第一文本信息对应的第二文本信息,包括:
提取所述第一文本信息对应的第一特征信息,采用文本调整模型对所述第一特征信息进行调整处理,生成第二特征信息,所述调整处理包括关键字顺序调整、关键字替换、关键字增加或关键字删除中的至少一种;
对所述第二特征信息进行组合,生成所述第一文本信息对应的第二文本信息。
4.根据权利要求1所述的方法,其特征在于,还包括:
获取样本语音数据,并创建语音识别模型;
采用所述样本语音数据对所述语音识别模型进行训练,获取所述语音识别模型的识别准确率;
当所述识别准确率达到第一准确率阈值时,生成训练好的语音识别模型。
5.根据权利要求1所述的方法,其特征在于,还包括:
获取样本文本信息,并创建文本调整模型;
采用所述样本文本信息对所述文本调整模型进行训练,获取所述文本调整模型的调整准确率;
当所述调整准确率达到第二准确率阈值时,生成训练好的文本调整模型。
6.一种语音识别装置,其特征在于,所述装置包括:
待识别语音数据获取模块,用于获取待识别语音数据;
第一文本信息获取模块,用于采用预先训练好的语音识别模型对所述待识别语音数据进行语音识别处理,获得所述待识别语音数据对应的第一文本信息;
第二文本信息生成模块,用于采用预先训练好的文本调整模型对所述第一文本信息进行文本调整处理,生成所述第一文本信息对应的第二文本信息。
7.根据权利要求6所述的装置,其特征在于,所述待识别语音数据获取模块包括:
待识别语音数据获取单元,用于获取待识别语音数据;
目标语音数据生成单元,用于对所述待识别语音数据进行预处理,生成目标语音数据;
第一文本信息获取模块具体用于:
采用语音识别模型对所述目标语音数据进行语音识别处理,获得所述目标语音数据对应的第一文本信息。
8.根据权利要求6所述的装置,其特征在于,所述第二文本信息生成模块包括:
第一特征信息提取单元,用于提取所述第一文本信息对应的第一特征信息;
第二特征信息生成单元,用于采用文本调整模型对所述第一特征信息进行调整处理,生成第二特征信息,所述调整处理包括关键字顺序调整、关键字替换、关键字增加或关键字删除中的至少一种;
第二文本信息生成单元,用于对所述第二特征信息进行组合,生成所述第一文本信息对应的第二文本信息。
9.一种计算机存储介质,其特征在于,所述计算机存储介质存储有多条指令,所述指令适于由处理器加载并执行如权利要求1~5任意一项的方法步骤。
10.一种终端,其特征在于,包括:处理器和存储器;其中,所述存储器存储有计算机程序,所述计算机程序适于由所述处理器加载并执行如权利要求1~5任意一项的方法步骤。
CN201910812329.0A 2019-08-30 2019-08-30 一种语音识别方法、装置、存储介质及终端 Pending CN110473523A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910812329.0A CN110473523A (zh) 2019-08-30 2019-08-30 一种语音识别方法、装置、存储介质及终端

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910812329.0A CN110473523A (zh) 2019-08-30 2019-08-30 一种语音识别方法、装置、存储介质及终端

Publications (1)

Publication Number Publication Date
CN110473523A true CN110473523A (zh) 2019-11-19

Family

ID=68514385

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910812329.0A Pending CN110473523A (zh) 2019-08-30 2019-08-30 一种语音识别方法、装置、存储介质及终端

Country Status (1)

Country Link
CN (1) CN110473523A (zh)

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111046657A (zh) * 2019-12-04 2020-04-21 东软集团股份有限公司 一种实现文本信息标准化的方法、装置及设备
CN111128183A (zh) * 2019-12-19 2020-05-08 北京搜狗科技发展有限公司 语音识别方法、装置和介质
CN111192586A (zh) * 2020-01-08 2020-05-22 北京松果电子有限公司 语音识别方法及装置、电子设备、存储介质
CN111261144A (zh) * 2019-12-31 2020-06-09 华为技术有限公司 一种语音识别的方法、装置、终端以及存储介质
CN111405122A (zh) * 2020-03-18 2020-07-10 苏州科达科技股份有限公司 音频通话测试方法、装置及存储介质
CN111524517A (zh) * 2020-06-24 2020-08-11 深圳前海微众银行股份有限公司 语音识别方法、装置、设备及存储介质
CN111524515A (zh) * 2020-04-30 2020-08-11 海信电子科技(武汉)有限公司 语音交互方法、装置、电子设备及可读存储介质
CN111666750A (zh) * 2020-06-10 2020-09-15 上海眼控科技股份有限公司 语音识别结果修正方法、系统、终端以及储存介质
CN112634892A (zh) * 2020-12-17 2021-04-09 北京大米科技有限公司 一种语音处理方法、装置、可读存储介质和电子设备
CN112712794A (zh) * 2020-12-25 2021-04-27 苏州思必驰信息科技有限公司 语音识别标注训练联合系统和装置
CN112750434A (zh) * 2020-12-16 2021-05-04 马上消费金融股份有限公司 一种语音识别系统的优化方法、装置及电子设备
CN112786027A (zh) * 2021-01-06 2021-05-11 浙江大学 一种语音输入矫正处理方法、装置、电子设备及存储介质
CN112836522A (zh) * 2021-01-29 2021-05-25 青岛海尔科技有限公司 语音识别结果的确定方法及装置、存储介质及电子装置
CN112988965A (zh) * 2021-03-01 2021-06-18 腾讯科技(深圳)有限公司 文本数据处理方法、装置、存储介质及计算机设备
CN113053359A (zh) * 2019-12-27 2021-06-29 深圳Tcl数字技术有限公司 一种语音识别方法、智能终端及存储介质
CN113223522A (zh) * 2021-04-26 2021-08-06 北京百度网讯科技有限公司 语音识别方法、装置、设备和存储介质
CN113314125A (zh) * 2021-05-28 2021-08-27 深圳市展拓电子技术有限公司 监室对讲机声纹识别方法、系统及存储器
CN113470631A (zh) * 2021-06-28 2021-10-01 北京小米移动软件有限公司 语音信号处理方法及装置、电子设备及存储介质
CN113630613A (zh) * 2021-07-30 2021-11-09 出门问问信息科技有限公司 一种信息处理方法、装置及存储介质
CN113766291A (zh) * 2020-06-02 2021-12-07 云米互联科技(广东)有限公司 消息发送方法、电视机和存储介质
CN113874827A (zh) * 2020-01-06 2021-12-31 互动解决方案公司 演示支援系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103959282A (zh) * 2011-09-28 2014-07-30 谷歌公司 用于文本识别系统的选择性反馈
CN107293296A (zh) * 2017-06-28 2017-10-24 百度在线网络技术(北京)有限公司 语音识别结果纠正方法、装置、设备及存储介质
CN107357775A (zh) * 2017-06-05 2017-11-17 百度在线网络技术(北京)有限公司 基于人工智能的循环神经网络的文本纠错方法及装置
CN109473093A (zh) * 2018-12-13 2019-03-15 平安科技(深圳)有限公司 语音识别方法、装置、计算机设备及存储介质
CN109948144A (zh) * 2019-01-29 2019-06-28 汕头大学 一种基于课堂教学情境的教师话语智能处理的方法
CN109948152A (zh) * 2019-03-06 2019-06-28 北京工商大学 一种基于lstm的中文文本语法纠错模型方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103959282A (zh) * 2011-09-28 2014-07-30 谷歌公司 用于文本识别系统的选择性反馈
CN107357775A (zh) * 2017-06-05 2017-11-17 百度在线网络技术(北京)有限公司 基于人工智能的循环神经网络的文本纠错方法及装置
CN107293296A (zh) * 2017-06-28 2017-10-24 百度在线网络技术(北京)有限公司 语音识别结果纠正方法、装置、设备及存储介质
CN109473093A (zh) * 2018-12-13 2019-03-15 平安科技(深圳)有限公司 语音识别方法、装置、计算机设备及存储介质
CN109948144A (zh) * 2019-01-29 2019-06-28 汕头大学 一种基于课堂教学情境的教师话语智能处理的方法
CN109948152A (zh) * 2019-03-06 2019-06-28 北京工商大学 一种基于lstm的中文文本语法纠错模型方法

Cited By (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111046657A (zh) * 2019-12-04 2020-04-21 东软集团股份有限公司 一种实现文本信息标准化的方法、装置及设备
CN111046657B (zh) * 2019-12-04 2023-10-13 东软集团股份有限公司 一种实现文本信息标准化的方法、装置及设备
CN111128183A (zh) * 2019-12-19 2020-05-08 北京搜狗科技发展有限公司 语音识别方法、装置和介质
WO2021120690A1 (zh) * 2019-12-19 2021-06-24 北京搜狗科技发展有限公司 语音识别方法、装置和介质
CN113053359A (zh) * 2019-12-27 2021-06-29 深圳Tcl数字技术有限公司 一种语音识别方法、智能终端及存储介质
CN111261144B (zh) * 2019-12-31 2023-03-03 华为技术有限公司 一种语音识别的方法、装置、终端以及存储介质
CN111261144A (zh) * 2019-12-31 2020-06-09 华为技术有限公司 一种语音识别的方法、装置、终端以及存储介质
WO2021135611A1 (zh) * 2019-12-31 2021-07-08 华为技术有限公司 一种语音识别的方法、装置、终端以及存储介质
US11443736B2 (en) 2020-01-06 2022-09-13 Interactive Solutions Corp. Presentation support system for displaying keywords for a voice presentation
CN113874827A (zh) * 2020-01-06 2021-12-31 互动解决方案公司 演示支援系统
CN111192586A (zh) * 2020-01-08 2020-05-22 北京松果电子有限公司 语音识别方法及装置、电子设备、存储介质
CN111405122A (zh) * 2020-03-18 2020-07-10 苏州科达科技股份有限公司 音频通话测试方法、装置及存储介质
CN111524515A (zh) * 2020-04-30 2020-08-11 海信电子科技(武汉)有限公司 语音交互方法、装置、电子设备及可读存储介质
CN113766291A (zh) * 2020-06-02 2021-12-07 云米互联科技(广东)有限公司 消息发送方法、电视机和存储介质
CN111666750A (zh) * 2020-06-10 2020-09-15 上海眼控科技股份有限公司 语音识别结果修正方法、系统、终端以及储存介质
CN111524517A (zh) * 2020-06-24 2020-08-11 深圳前海微众银行股份有限公司 语音识别方法、装置、设备及存储介质
CN111524517B (zh) * 2020-06-24 2023-11-03 深圳前海微众银行股份有限公司 语音识别方法、装置、设备及存储介质
CN112750434A (zh) * 2020-12-16 2021-05-04 马上消费金融股份有限公司 一种语音识别系统的优化方法、装置及电子设备
CN112634892A (zh) * 2020-12-17 2021-04-09 北京大米科技有限公司 一种语音处理方法、装置、可读存储介质和电子设备
CN112634892B (zh) * 2020-12-17 2023-11-24 北京大米科技有限公司 一种语音处理方法、装置、可读存储介质和电子设备
CN112712794A (zh) * 2020-12-25 2021-04-27 苏州思必驰信息科技有限公司 语音识别标注训练联合系统和装置
CN112786027A (zh) * 2021-01-06 2021-05-11 浙江大学 一种语音输入矫正处理方法、装置、电子设备及存储介质
CN112786027B (zh) * 2021-01-06 2022-02-22 浙江大学 一种语音输入矫正处理方法、装置、电子设备及存储介质
CN112836522A (zh) * 2021-01-29 2021-05-25 青岛海尔科技有限公司 语音识别结果的确定方法及装置、存储介质及电子装置
CN112988965A (zh) * 2021-03-01 2021-06-18 腾讯科技(深圳)有限公司 文本数据处理方法、装置、存储介质及计算机设备
CN112988965B (zh) * 2021-03-01 2022-03-08 腾讯科技(深圳)有限公司 文本数据处理方法、装置、存储介质及计算机设备
CN113223522A (zh) * 2021-04-26 2021-08-06 北京百度网讯科技有限公司 语音识别方法、装置、设备和存储介质
CN113223522B (zh) * 2021-04-26 2022-05-03 北京百度网讯科技有限公司 语音识别方法、装置、设备和存储介质
CN113314125A (zh) * 2021-05-28 2021-08-27 深圳市展拓电子技术有限公司 监室对讲机声纹识别方法、系统及存储器
CN113470631A (zh) * 2021-06-28 2021-10-01 北京小米移动软件有限公司 语音信号处理方法及装置、电子设备及存储介质
CN113630613B (zh) * 2021-07-30 2023-11-10 出门问问信息科技有限公司 一种信息处理方法、装置及存储介质
CN113630613A (zh) * 2021-07-30 2021-11-09 出门问问信息科技有限公司 一种信息处理方法、装置及存储介质

Similar Documents

Publication Publication Date Title
CN110473523A (zh) 一种语音识别方法、装置、存储介质及终端
CN110491382B (zh) 基于人工智能的语音识别方法、装置及语音交互设备
JP6802005B2 (ja) 音声認識装置、音声認識方法及び音声認識システム
EP3994683B1 (en) Multilingual neural text-to-speech synthesis
CN103578464B (zh) 语言模型的建立方法、语音辨识方法及电子装置
US11823678B2 (en) Proactive command framework
WO2022057712A1 (zh) 电子设备及其语义解析方法、介质和人机对话系统
Kim et al. DNN-based emotion recognition based on bottleneck acoustic features and lexical features
CN109523989A (zh) 语音合成方法、语音合成装置、存储介质及电子设备
US8374881B2 (en) System and method for enriching spoken language translation with dialog acts
EP3824462B1 (en) Electronic apparatus for processing user utterance and controlling method thereof
US20240153489A1 (en) Data driven dialog management
CN109036391A (zh) 语音识别方法、装置及系统
WO2015171646A1 (en) Method and system for speech input
CN113205817A (zh) 语音语义识别方法、系统、设备及介质
CN111833845A (zh) 多语种语音识别模型训练方法、装置、设备及存储介质
US11568863B1 (en) Skill shortlister for natural language processing
CN109859298A (zh) 一种图像处理方法及其装置、设备和存储介质
Delgado et al. Spoken, multilingual and multimodal dialogue systems: development and assessment
CN103050115A (zh) 识别装置、识别方法、生成装置和生成方法
US20230127787A1 (en) Method and apparatus for converting voice timbre, method and apparatus for training model, device and medium
Yun et al. Multilingual speech-to-speech translation system for mobile consumer devices
CN102970618A (zh) 基于音节识别的视频点播方法
CN110852075B (zh) 自动添加标点符号的语音转写方法、装置及可读存储介质
CN106971721A (zh) 一种基于嵌入式移动设备的地方口音语音识别系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20191119

RJ01 Rejection of invention patent application after publication