CN107945792B - 语音处理方法和装置 - Google Patents

语音处理方法和装置 Download PDF

Info

Publication number
CN107945792B
CN107945792B CN201711079215.7A CN201711079215A CN107945792B CN 107945792 B CN107945792 B CN 107945792B CN 201711079215 A CN201711079215 A CN 201711079215A CN 107945792 B CN107945792 B CN 107945792B
Authority
CN
China
Prior art keywords
language model
voice
target language
character
corpus
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711079215.7A
Other languages
English (en)
Other versions
CN107945792A (zh
Inventor
钱胜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201711079215.7A priority Critical patent/CN107945792B/zh
Publication of CN107945792A publication Critical patent/CN107945792A/zh
Application granted granted Critical
Publication of CN107945792B publication Critical patent/CN107945792B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/0018Speech coding using phonetic or linguistical decoding of the source; Reconstruction using text-to-speech synthesis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0635Training updating or merging of old and new templates; Mean values; Weighting

Abstract

本发明公开一种语音处理方法和装置,其中,方法包括:采集用于对解码器中的原始语言模型进行替换的训练语料,对训练语料中的每个字符进行编码处理,得到训练语料每个字符的编码数据,利用编码数据进行语言模型的训练,以得到目标语言模型,使用目标语言模型替换解码器中的原始语言模型,基于目标语言模型对获取的语音进行识别,得到语音的识别结果。该方法可以根据实际需要采集对原始语言模型进行替换的训练语料,将利用该训练语料得到目标语言模型替换原始语言模型进行语音识别,相比利用原始语言模型进行语音识别,提高了语音识别的准确率。

Description

语音处理方法和装置
技术领域
本发明涉及语音识别技术领域,尤其涉及一种语音处理方法和装置。
背景技术
语音识别系统中需要用到声音模型和语言模型。其中,语言模型用于预测用户说话的内容。由于用户的说话内容千变万化,通常会使用海量文本进行训练,得到一个能够覆盖尽可能多的说话内容的通用语言模型,作为语音识别系统中默认的语言模型。
但是,通用语言模型覆盖的说话内容越多,每种说话内容的被识别到的概率越低,从而降低了识别准确率。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的第一个目的在于提出一种语音处理方法,通过目标语言模型对原始语言模型进行替换,用目标语言模型进行语音识别,提高识别准确率。
本发明的第二个目的在于提出一种语音处理装置。
本发明的第三个目的在于提出一种计算机设备。
本发明的第四个目的在于提出一种计算机程序产品。
本发明的第五个目的在于提出一种非临时性计算机可读存储介质。
为达上述目的,本发明第一方面实施例提出了一种语音处理方法,包括:
采集用于对解码器中的原始语言模型进行替换的训练语料;
对所述训练语料中的每个字符进行编码处理,得到所述训练语料每个字符的编码数据;其中,所述编码数据中携带所述字符在所述训练语料中位置信息;
利用所述编码数据进行语言模型的训练,以得到目标语言模型;其中,目标语言模型用于获取每个字符的相关字符的位置信息以及每个相关字符出现在所述字符后面的第一概率;
使用所述目标语言模型替换所述解码器中的所述原始语言模型;
获取待识别的语音;
基于所述目标语言模型对所述语音进行识别,得到所述语音的识别结果。
本发明实施例的语音处理方法,通过采集用于对解码器中的原始语言模型进行替换的训练语料,对训练语料中的每个字符进行编码处理,得到训练语料每个字符的编码数据,利用编码数据进行语言模型的训练,以得到目标语言模型,使用目标语言模型替换解码器中的原始语言模型,基于目标语言模型对获取的语音进行识别,得到语音的识别结果。本实施例中,可以根据实际需要采集对原始语言模型进行替换的训练语料,将利用该训练语料得到目标语言模型替换原始语言模型进行语音识别,相比利用原始语言模型进行语音识别,提高了语音识别的准确率。
为达上述目的,本发明第二方面实施例提出了一种语音处理装置,包括:
采集模块,用于采集用于对解码器中的原始语言模型进行替换的训练语料;
编码模块,用于对所述训练语料中的每个字符进行编码处理,得到所述训练语料每个字符的编码数据;其中,所述编码数据中携带所述字符在所述训练语料中位置信息;
训练模块,用于利用所述编码数据进行语言模型的训练,得到目标语言模型,并使用所述目标语言模型替换所述解码器中的所述原始语言模型;
获取模块,用于获取待识别的语音;
识别模块,用于基于所述目标语言模型对所述语音进行识别,得到所述语音的识别结果。
本发明实施例的语音处理装置,通过采集用于对解码器中的原始语言模型进行替换的训练语料,对训练语料中的每个字符进行编码处理,得到训练语料每个字符的编码数据,利用编码数据进行语言模型的训练,以得到目标语言模型,使用目标语言模型替换解码器中的原始语言模型,基于目标语言模型对获取的语音进行识别,得到语音的识别结果。本实施例中,可以根据实际需要采集对原始语言模型进行替换的训练语料,将利用该训练语料得到目标语言模型替换原始语言模型进行语音识别,相比利用原始语言模型进行语音识别,提高了语音识别的准确率。
为达上述目的,本发明第三方面实施例提出了一种计算机设备,包括处理器和存储器;其中,所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序,以用于实现如第一方面实施例所述的语音处理方法。
为了实现上述目的,本发明第四方面实施例提出了一种计算机程序产品,当所述计算机程序产品中的指令由处理器执行时实现如第一方面实施例所述的语音处理方法。
为了实现上述目的,本发明第五方面实施例提出了一种非临时性计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如第一方面实施例所述的语音处理方法。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本发明实施例提供的一种语音处理方法的流程示意图;
图2为本发明实施例提供的另一种语音处理方法的流程示意图;
图3为本发明实施例提供的语音处理系统的结构示意图;
图4为本发明实施例提供的又一种语音处理方法的流程示意图;
图5为本发明实施例提供的一种语音处理装置的结构示意图;
图6为本发明实施例提供的一种计算机设备的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
下面参考附图描述本发明实施例的语音处理方法和装置。
图1为本发明实施例提供的一种语音处理方法的流程示意图。
步骤101,采集用于对解码器中的原始语言模型进行替换的训练语料。
本实施例中的原始语言模型,可以理解为解码器中默认的语言模型,训练语料为文本,可包含多个字符、标点等。
本实施例中,可根据实际需要采集文本,作为训练语料。例如,对于新闻类语音搜索,可采集用户在搜索新闻时常用的搜索语句,作为训练语料。
步骤102,对训练语料中的每个字符进行编码处理,得到训练语料每个字符的编码数据。
由于采集的训练语料中可能含有非法字符,为了提高训练语料的质量,提高目标语言模型的识别准确率,可先对训练语料进行预处理。具体地,对训练语料进行大小转换写、简繁体转换、去除非法字符等处理,得到只有汉字、字母等预先定义的合法字符的文本。
然后,对预处理后的每个文本中的每个字符进行编码,使每个字符都有唯一的编号,从而得到训练语料每个字符的编码数据。其中,编码数据中携带有字符在训练语料中的位置信息。例如,对于训练语料“北京天安门”,根据字符在训练语料中的位置信息可知,“京”是“北”的下一个字符。
步骤103,利用编码数据进行语言模型的训练,以得到目标语言模型。
其中,目标语言模型用于获取每个字符的相关字符的位置信息,如编号,以及每个相关字符出现在字符后面的第一概率。例如,字符“京”相关字符有“北”、“天”等。
步骤104,使用目标语言模型替换解码器中的原始语言模型。
在获得目标语言模型后,用目标语言模型替换解码器中的原始语言模型,以通过目标语言模型代替原始语言模型进行语音识别。
步骤105,获取待识别的语音。
例如,当用户进行语音搜索时,或者进行语音控制时,或者其他需要进行语音识别的场景,在用户输入语音时,采集用户输入的语音,从而获取到待识别的语音。
步骤106,基于目标语言模型对语音进行识别,得到语音的识别结果。
本实施例中,在进行语音识别时,可将待识别的语音划分为多个语音帧依次进行识别。
具体地,利用目标语言模型对待识别的语音进行识别,获取语音的当前语音帧的第一识别字符,以及第一识别字符的相关字符的位置信息。然后,利用第一识别字符的相关字符的位置信息和相关字符的第一概率,预测得到语音的下一语音帧的预测字符。
进一步地,提取下一语音帧的语音特征,如梅尔频率倒谱系数(Mel-FrequencyCepstral Coefficients,简称MFCC),即MFCC特征。之后,根据提取的语音特征对预测字符进行更新,以提高预测的准确率,得到下一语音帧的第二识别字符以及第二识别字符的相关字符的位置信息,直到对语音的最后一语音帧识别完成,得到语音的识别结果,即将语音识别为文本,得到识别文本。
本实施例中,通过为每个字符进行编码处理,得到每个字符在训练语料中的位置信息,从而在语音识别时,根据相关字符的位置信息和第一概率预测下一帧的字符,并且利用语音特征更新预测字符,不仅运算量小且识别准确率高。
由于不同的应用场景下,进行语音识别时,会识别到的说话内容差别较大。因此,为了提高识别的准确率,本发明实施例还提出为不同的应用场景训练得到不同的语言模型,以根据应用场景选择匹配的语言模型替换原始语言模型,进行语音识别。
下面结合图2,解释说明本发明实施例提出的另一种语音处理方法。
如图2所示,该语音处理方法包括以下步骤:
步骤201,采集不同应用场景下的第一文本信息。
例如,搜索场景、语音控制空调、语音控制电视等多种场景,按照应用场景,采集应用场景下的第一文本信息,具体地,可采集历史记录中的文本信息。
步骤202,从不同应用场景的第一文本信息中提取训练语料。
由于第一文本信息中可能存在重复的语句,因此从应用场景的第一文本信息中提出不重复的多个语句,作为训练语料。
步骤203,对训练语料中的每个字符进行编码处理,得到训练语料每个字符的编码数据。
图3中所示的语音处理系统包括识别引擎、架构和解码器,可将提取的训练语料发送给架构,通过架构对训练语料进行预处理,如去掉非法字符、大小写转换、简繁体转换等等,得到汉字、字母等预先定义的合法字符,并对每个字符进行编码,使每个字符均有一个唯一的编号,以表示每个字符在训练语料中位置。
步骤204,针对不同的应用场景,利用与应用场景匹配的训练语料对应的编码数据进行语言模型的训练,得到与应用场景匹配的目标语言模型。
本实施例中,将编码数据发送给解码器,由解码器针对每个应用场景,利用与应用场景匹配的训练语料对应的编码数据进行语言模型的训练。例如,利用与搜索场景对应的编码数据进行语言模型的训练,得到与搜索场景匹配的目标语言模型,利用与语音控制空调场景对应的编码数据进行语言模型的训练,得到与语音控制空调场景匹配的目标语言模型。
步骤205,建立目标语言模型与应用场景之间的第一映射关系。
本实施例中,为了便于查找与应用场景匹配的目标语言模型,可建立目标语言模型与应用场景之间的第一映射关系。作为一个示例,可为每个应用场景设置唯一的标识,建立目标语言模型与应用场景的标识之间的第一映射关系。
步骤206,使用目标语言模型替换解码器中的原始语言模型。
进一步地,使用与应用场景匹配的所有目标语言模型替换解码器中的原始语言模型。
步骤207,获取待识别的语音。
以图3所示的语音处理系统为例,用户在识别引擎中输入了一段语音,从而识别引擎获得待识别的语音,并将待识别的语音发送给架构,由架构发送给解码器。
步骤208,基于与语音的目标应用场景匹配的第一目标语言模型进行语音识别,获取语音的识别结果。
具体地,可先获取语音的目标应用场景,然后解码器根据目标应用场景,查询第一映射关系,从所有的目标语言模型中获取到与目标应用场景匹配的第一语言模型。之后,利用第一语言模型对语音进行识别,获取语音的识别结果,即识别文本,具体的识别方法可参见上述实施例中记载的方法。如图3所示,在获得识别结果后,解码器将识别语音得到的识别文本发送给架构,由架构发送给识别引擎。
对于可以预测识别内容的场景,将可预测的识别内容作为训练语料对语言模型进行训练,得到目标语言模型,利用该语言模型进行语音识别时,可以大大提高识别准确率。以火车订票系统为例,当系统提示用户输入乘车日期时,根据用户输入的语音,目标语言模型可以准确地从语音中识别出XXXX年XX月XX日格式的日期;在系统提示用户输入席别时,目标语言模型对用户输入的语音进行识别,可以准确地从“硬座”、“硬卧”、“软卧”、“一等座”、“二等座”等席别中,识别出用户语音输入的席别;在订票完成时,系统提示用户是否确实时,目标语言模型可以从“是”、“否”中,准确识别出用户语音输入的答案。
可见,对于可预测识别内容的对话场景,利用可预测的识别内容作为训练语料,得到的目标语言模型,当进入到对话的具体环节时,可以较大概率地确定出识别结果,从而提高目标语言模型的识别准确率。
本实施例中,通过采集不同应用场景下的训练语料,利用与训练语料对应的编码数据进行语言模型的训练,得到与应用场景匹配的目标语言模型,并替换解码器中的原始语言模型,从而在进行语音识别时,根据语音的应用场景选取与应用场景匹配的目标语言模型进行语音识别,相比通过默认的语言模型进行识别,提高了识别的准确率。
上述实施例描述的是采集不同应用场景下的训练语料,由于在进行语音识别时,不同的用户输入的语音不尽相同,下面通过一个实施例介绍对不同的用户采集训练语料。图4为本发明实施例提供的又一个语音处理方法的流程示意图。
如图4所示,该语音处理方法包括以下步骤:
步骤401,采集每个用户历史的第二文本信息。
本实施例中,以使用某应用程序的用户为例,可根据用户的身份信息,如登陆应用程序的账号信息,或者为用户建立的唯一的编号,从用户使用应用程序的历史记录中,采集每个用户历史的第二文本信息。
步骤402,从每个用户历史的第二文本信息中提取每个用户的训练语料。
本实施例中,由于采集的同一个用户的第二文本信息中,可能存在重复的文本信息,第二文本信息不能直接作为训练语料,因而从每个用户历史的第二文本信息中提取每个用户的训练语料。
步骤403,对训练语料中的每个字符进行编码处理,得到训练语料每个字符的编码数据。
本实施例中,对每个字符进行编码处理的方法,可参见与上述实施例中记载的相关内容,故在此不再赘述。
步骤404,针对不同的用户,利用用户的训练语料对应的编码数据进行语言模型的训练,得到与用户匹配的目标语言模型。
本实施例中,针对每个用户,利用与用户的训练语料对应的编码数据进行语言模型的训练,从而得到与用户匹配的目标语言模型。其中,目标语言模型用于获取每个字符的相关字符的位置信息以及每个相关字符出现在字符后面的第一概率。
步骤405,建立目标语言模型与用户身份信息之间的第二映射关系。
本实施例中,为了便于查找与用户匹配的目标语言模型,可建立目标语言模型与用户身份信息之前的第二映射关系,其中,身份信息可以是登陆应用程序的账号信息,或者是为每个用户建立的唯一的编号等。
步骤406,使用目标语言模型替换解码器中的原始语言模型。
本实施例中,使用所有的目标语言模型替换解码器中的原始语言模型。
步骤407,获取待识别的语音。
本实施例中,可采集某用户在应用程序中输入的一段语音,进行识别。
步骤408,基于与目标用户的第一身份信息匹配的第二语言模型进行语音识别,获取语音的识别结果。
具体地,可从采集语音的应用程序的登陆信息中,提取目标用户的第一身份信息,如账号信息。然后,根据目标用户的第一身份信息,查询目标语言模型与用户身份信息之间的第二映射关系,从所有的目标语言模型中获取到与第一身份信息匹配的第二目标语言模型,即获取到与输入待识别语音的用户匹配的语言模型。进一步地,根据获取到的第二语言模型对语音进行识别,得到语言的识别结果,即识别文本,具体地的识别方法可参见前述实施例,故在此不再赘述。
可以理解的是,在对待识别的语音进行识别时,也可在通过查询第二映射关系,获取到第二目标语言模型后,用第二目标语言模型替换原始的语言模型,进而利用第二目标语言模型进行语音识别。
本实施例中,通过采集每个用户的历史文本信息,为每个用户建立匹配的目标语言模型,从而在进行语音识别时,根据与待识别语音的用户的身份信息,获取匹配的语言模型,进而根据与用户匹配的语言模型进行语音识别,相比通过解密器中原始的语言模型进行语音识别,提高了识别的准确率。
通过上述实施例可以看出,本发明实施例提出的语音处理方法,可针对不同应用场景或者不同的用户,建立对应的语言模型,通过与应用场景或者用户匹配的语音进行语音识别,相比通过默认的语言模型进行识别,识别准确率更高。
本发明实施例的语音处理方法,通过采集用于对解码器中的原始语言模型进行替换的训练语料,对训练语料中的每个字符进行编码处理,得到训练语料每个字符的编码数据,利用编码数据进行语言模型的训练,以得到目标语言模型,使用目标语言模型替换解码器中的原始语言模型,基于目标语言模型对获取的语音进行识别,得到语音的识别结果。本实施例中,可以根据实际需要采集对原始语言模型进行替换的训练语料,将利用该训练语料得到目标语言模型替换原始语言模型进行语音识别,相比利用原始语言模型进行语音识别,提高了语音识别的准确率。
为了实现上述实施例,本发明还提出一种语音处理装置。
如图5所示,该语音处理装置包括:采集模块510、编码模块520、训练模块530、获取模块540、识别模块550。
采集模块510用于采集用于对解码器中的原始语言模型进行替换的训练语料。
编码模块520用于对训练语料中的每个字符进行编码处理,得到训练语料每个字符的编码数据;其中,编码数据中携带字符在训练语料中位置信息。
训练模块530用于利用编码数据进行语言模型的训练,得到目标语言模型,并使用目标语言模型替换解码器中的原始语言模型。
获取模块540用于获取待识别的语音。
识别模块550用于基于目标语言模型对语音进行识别,得到语音的识别结果。
需要说明的是,前述对语音处理方法实施例的解释说明,也适用于本实施例的语音处理装置,故在此不再赘述。
本发明实施例的语音处理装置,通过采集用于对解码器中的原始语言模型进行替换的训练语料,对训练语料中的每个字符进行编码处理,得到训练语料每个字符的编码数据,利用编码数据进行语言模型的训练,以得到目标语言模型,使用目标语言模型替换解码器中的原始语言模型,基于目标语言模型对获取的语音进行识别,得到语音的识别结果。本实施例中,可以根据实际需要采集对原始语言模型进行替换的训练语料,将利用该训练语料得到目标语言模型替换原始语言模型进行语音识别,相比利用原始语言模型进行语音识别,提高了语音识别的准确率。
为了实现上述实施例,本发明还提出一种计算机设备,包括处理器和存储器;其中,处理器通过读取存储器中存储的可执行程序代码来运行与可执行程序代码对应的程序,以用于实现如前述任一实施例所述的语音处理方法。
图6示出了适于用来实现本申请实施方式的示例性计算机设备的框图。图6显示的计算机设备12仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图6所示,计算机设备12以通用计算设备的形式表现。计算机设备12的组件可以包括但不限于:一个或者多个处理器或者处理单元16,系统存储器28,连接不同系统组件(包括系统存储器28和处理单元16)的总线18。
总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(Industry StandardArchitecture;以下简称:ISA)总线,微通道体系结构(Micro Channel Architecture;以下简称:MAC)总线,增强型ISA总线、视频电子标准协会(Video Electronics StandardsAssociation;以下简称:VESA)局域总线以及外围组件互连(Peripheral ComponentInterconnection;以下简称:PCI)总线。
计算机设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
存储器28可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(Random Access Memory;以下简称:RAM)30和/或高速缓存存储器32。计算机设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统34可以用于读写不可移动的、非易失性磁介质(图6未显示,通常称为“硬盘驱动器”)。尽管图6中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如:光盘只读存储器(Compact Disc Read OnlyMemory;以下简称:CD-ROM)、数字多功能只读光盘(Digital Video Disc Read OnlyMemory;以下简称:DVD-ROM)或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本申请各实施例的功能。
具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在例如存储器28中,这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本申请所描述的实施例中的功能和/或方法。
计算机设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信,还可与一个或者多个使得用户能与该计算机设备12交互的设备通信,和/或与使得该计算机设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且,计算机设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(Local Area Network;以下简称:LAN),广域网(Wide Area Network;以下简称:WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器20通过总线18与计算机设备12的其它模块通信。应当明白,尽管图中未示出,可以结合计算机设备12使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
处理单元16通过运行存储在系统存储器28中的程序,从而执行各种功能应用以及数据处理,例如实现前述实施例中提及的方法。
为了实现上述实施例,本发明还提出了一种计算机程序产品,当计算机程序产品中的指令由处理器执行时实现如前述实施例所述的语音处理方法。
为了实现上述实施例,本发明还提出了一种非临时性计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如前述实施例所述的语音处理方法。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如,如果用硬件来实现和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (12)

1.一种语音处理方法,其特征在于,包括:
采集用于对解码器中的原始语言模型进行替换的训练语料;
对所述训练语料中的每个字符进行编码处理,得到所述训练语料每个字符的编码数据;其中,所述编码数据中携带所述字符在所述训练语料中位置信息;
利用所述编码数据进行语言模型的训练,以得到目标语言模型;其中,目标语言模型用于获取每个字符的相关字符的位置信息以及每个相关字符出现在所述字符后面的第一概率;
使用所述目标语言模型替换所述解码器中的所述原始语言模型;
获取待识别的语音;
基于所述目标语言模型对所述语音进行识别,得到所述语音的识别结果。
2.根据权利要求1所述的方法,其特征在于,所述采集用于对解码器中的原始语言模型进行替换的训练语料,包括:
采集不同应用场景下的第一文本信息;
从不同应用场景的所述第一文本信息中提取所述训练语料。
3.根据权利要求2所述的方法,其特征在于,所述利用所述编码数据进行语言模型的训练,以得到目标语言模型,包括:
针对不同的应用场景,利用与所述应用场景匹配的所述训练语料对应的所述编码数据进行语言模型的训练,得到与所述应用场景匹配的目标语言模型;
建立所述目标语言模型与应用场景之间的第一映射关系。
4.根据权利要求3所述的方法,其特征在于,所述基于所述目标语言模型对所述语音进行识别,得到所述语音的识别结果,包括:
获取所述语音的目标应用场景;
根据所述目标应用场景,查询所述第一映射关系,从所有的目标语言模型中获取到与所述目标应用场景匹配的第一目标语言模型;
利用所述第一目标语言模型对所述语音进行识别,获取所述语音的识别结果。
5.根据权利要求1所述的方法,其特征在于,所述采集用于对解码器中的原始语言模型进行替换的训练语料,包括:
采集每个用户历史的第二文本信息;
从每个用户历史的所述第二文本信息中提取每个用户的所述训练语料。
6.根据权利要求5所述的方法,其特征在于,所述利用所述编码数据进行语言模型的训练,以得到目标语言模型,包括:
针对不同的用户,利用所述用户的所述训练语料对应的所述编码数据进行语言模型的训练,得到与所述用户匹配的目标语言模型;
建立所述目标语言模型与用户身份信息之间的第二映射关系。
7.根据权利要求6所述的方法,其特征在于,所述基于所述目标语言模型对所述语音进行识别,得到所述语音的识别结果,包括:
从采集所述语音的应用程序的登录信息中提取目标用户的第一身份信息;
根据所述目标用户的第一身份信息,查询所述第二映射关系,从所有的目标语言模型中获取到与所述第一身份信息匹配的第二目标语言模型;
利用所述第二目标语言模型对所述语音进行识别,得到所述语音的识别结果。
8.根据权利要求1-7任一项所述的方法,其特征在于,所述基于所述目标语言模型对所述语音进行识别,得到所述语音的识别结果,包括:
利用所述目标语言模型对所述语音进行识别,获取所述语音的当前语音帧的第一识别字符以及所述第一识别字符的相关字符的位置信息;
根据所述第一识别字符的相关字符的位置信息和所述相关字符的所述第一概率,预测得到所述语音的下一语音帧的预测字符;
提取所述下一语音帧的语音特征对所述预测字符进行更新,得到所述下一语音帧的第二识别字符以及所述第二识别字符的相关字符的位置信息,直到对所述语音的最后一语音帧识别完成后,得到所述语音的识别结果。
9.一种语音处理装置,其特征在于,包括:
采集模块,用于采集用于对解码器中的原始语言模型进行替换的训练语料;
编码模块,用于对所述训练语料中的每个字符进行编码处理,得到所述训练语料每个字符的编码数据;其中,所述编码数据中携带所述字符在所述训练语料中位置信息;
训练模块,用于利用所述编码数据进行语言模型的训练,得到目标语言模型,并使用所述目标语言模型替换所述解码器中的所述原始语言模型;
获取模块,用于获取待识别的语音;
识别模块,用于基于所述目标语言模型对所述语音进行识别,得到所述语音的识别结果。
10.一种计算机设备,其特征在于,包括处理器和存储器;
其中,所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序,以用于实现如权利要求1-8中任一所述的语音处理方法。
11.一种计算机程序产品,其特征在于,当所述计算机程序产品中的指令由处理器执行时实现如权利要求1-8中任一所述的语音处理方法。
12.一种非临时性计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-8中任一所述的语音处理方法。
CN201711079215.7A 2017-11-06 2017-11-06 语音处理方法和装置 Active CN107945792B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711079215.7A CN107945792B (zh) 2017-11-06 2017-11-06 语音处理方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711079215.7A CN107945792B (zh) 2017-11-06 2017-11-06 语音处理方法和装置

Publications (2)

Publication Number Publication Date
CN107945792A CN107945792A (zh) 2018-04-20
CN107945792B true CN107945792B (zh) 2021-05-28

Family

ID=61934376

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711079215.7A Active CN107945792B (zh) 2017-11-06 2017-11-06 语音处理方法和装置

Country Status (1)

Country Link
CN (1) CN107945792B (zh)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110648657B (zh) * 2018-06-27 2024-02-02 北京搜狗科技发展有限公司 一种语言模型训练方法、构建方法和装置
WO2020091123A1 (ko) * 2018-11-02 2020-05-07 주식회사 시스트란인터내셔널 문맥 기반의 음성인식 서비스를 제공하기 위한 방법 및 장치
CN109360563B (zh) * 2018-12-10 2021-03-02 珠海格力电器股份有限公司 一种语音控制方法、装置、存储介质及空调
CN111833857A (zh) * 2019-04-16 2020-10-27 阿里巴巴集团控股有限公司 语音处理方法、装置和分布式系统
CN110263158B (zh) * 2019-05-24 2023-08-01 创新先进技术有限公司 一种数据的处理方法、装置及设备
CN110570838B (zh) * 2019-08-02 2022-06-07 北京葡萄智学科技有限公司 语音流处理方法和装置
CN111145751A (zh) * 2019-12-31 2020-05-12 百度在线网络技术(北京)有限公司 音频信号处理方法、装置以及电子设备
CN111261144B (zh) * 2019-12-31 2023-03-03 华为技术有限公司 一种语音识别的方法、装置、终端以及存储介质
CN111274764B (zh) * 2020-01-23 2021-02-23 北京百度网讯科技有限公司 语言生成方法、装置、计算机设备及存储介质
CN111402864A (zh) * 2020-03-19 2020-07-10 北京声智科技有限公司 语音处理方法及电子设备
CN111739519A (zh) * 2020-06-16 2020-10-02 平安科技(深圳)有限公司 基于语音识别的对话管理处理方法、装置、设备及介质
CN112489662A (zh) * 2020-11-13 2021-03-12 北京沃东天骏信息技术有限公司 用于训练语音处理模型的方法和装置
CN112767942B (zh) * 2020-12-31 2023-04-07 北京云迹科技股份有限公司 语音识别引擎适配方法、装置、电子设备及存储介质
CN113571064B (zh) * 2021-07-07 2024-01-30 肇庆小鹏新能源投资有限公司 自然语言理解方法及装置、交通工具及介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102074231A (zh) * 2010-12-30 2011-05-25 万音达有限公司 语音识别方法和语音识别系统
CN102623010A (zh) * 2012-02-29 2012-08-01 北京百度网讯科技有限公司 一种建立语言模型的方法、语音识别的方法及其装置
CN105244027A (zh) * 2015-08-31 2016-01-13 百度在线网络技术(北京)有限公司 生成谐音文本的方法和系统
CN105654945A (zh) * 2015-10-29 2016-06-08 乐视致新电子科技(天津)有限公司 一种语言模型的训练方法及装置、设备
CN105759983A (zh) * 2009-03-30 2016-07-13 触摸式有限公司 电子设备的文本输入系统及文本输入方法
JP2017009691A (ja) * 2015-06-18 2017-01-12 日本放送協会 言語モデル生成装置およびそのプログラム
CN106469554A (zh) * 2015-08-21 2017-03-01 科大讯飞股份有限公司 一种自适应的识别方法及系统
CN107154260A (zh) * 2017-04-11 2017-09-12 北京智能管家科技有限公司 一种领域自适应语音识别方法和装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8352264B2 (en) * 2008-03-19 2013-01-08 Canyon IP Holdings, LLC Corrective feedback loop for automated speech recognition
CN103456300B (zh) * 2013-08-07 2016-04-20 科大讯飞股份有限公司 一种基于class-base语言模型的POI语音识别方法
CN103578467B (zh) * 2013-10-18 2017-01-18 威盛电子股份有限公司 声学模型的建立方法、语音辨识方法及其电子装置
KR102167719B1 (ko) * 2014-12-08 2020-10-19 삼성전자주식회사 언어 모델 학습 방법 및 장치, 음성 인식 방법 및 장치
CN105741840B (zh) * 2016-04-06 2020-01-03 北京云知声信息技术有限公司 一种语音控制方法及装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105759983A (zh) * 2009-03-30 2016-07-13 触摸式有限公司 电子设备的文本输入系统及文本输入方法
CN102074231A (zh) * 2010-12-30 2011-05-25 万音达有限公司 语音识别方法和语音识别系统
CN102623010A (zh) * 2012-02-29 2012-08-01 北京百度网讯科技有限公司 一种建立语言模型的方法、语音识别的方法及其装置
JP2017009691A (ja) * 2015-06-18 2017-01-12 日本放送協会 言語モデル生成装置およびそのプログラム
CN106469554A (zh) * 2015-08-21 2017-03-01 科大讯飞股份有限公司 一种自适应的识别方法及系统
CN105244027A (zh) * 2015-08-31 2016-01-13 百度在线网络技术(北京)有限公司 生成谐音文本的方法和系统
CN105654945A (zh) * 2015-10-29 2016-06-08 乐视致新电子科技(天津)有限公司 一种语言模型的训练方法及装置、设备
CN107154260A (zh) * 2017-04-11 2017-09-12 北京智能管家科技有限公司 一种领域自适应语音识别方法和装置

Also Published As

Publication number Publication date
CN107945792A (zh) 2018-04-20

Similar Documents

Publication Publication Date Title
CN107945792B (zh) 语音处理方法和装置
CN106683680B (zh) 说话人识别方法及装置、计算机设备及计算机可读介质
CN107305541B (zh) 语音识别文本分段方法及装置
US9564127B2 (en) Speech recognition method and system based on user personalized information
CN109887497B (zh) 语音识别的建模方法、装置及设备
CN108122555B (zh) 通讯方法、语音识别设备和终端设备
CN110797016B (zh) 一种语音识别方法、装置、电子设备及存储介质
CN110970018B (zh) 语音识别方法和装置
US20150325240A1 (en) Method and system for speech input
US10529340B2 (en) Voiceprint registration method, server and storage medium
CN110544477A (zh) 一种语音识别方法、装置、设备及介质
CN110910903B (zh) 语音情绪识别方法、装置、设备及计算机可读存储介质
CN103559880B (zh) 语音输入系统和方法
CN111797632B (zh) 信息处理方法、装置及电子设备
CN108305618B (zh) 语音获取及搜索方法、智能笔、搜索终端及存储介质
CN103177721A (zh) 语音识别方法和系统
CN110120221A (zh) 用于车机系统的用户个性化离线语音识别方法及其系统
EP3625792B1 (en) System and method for language-based service hailing
CN112818680B (zh) 语料的处理方法、装置、电子设备及计算机可读存储介质
CN113838460A (zh) 视频语音识别方法、装置、设备和存储介质
CN113450774A (zh) 一种训练数据的获取方法及装置
CN112201275A (zh) 声纹分割方法、装置、设备及可读存储介质
KR20190107063A (ko) 데이터 시각화를 위한 정보 처리 방법 및 장치
CN109686365B (zh) 一种语音识别方法和语音识别系统
CN111554281A (zh) 自动识别语种的车载人机交互方法、车载终端及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant