CN103632668A - 一种基于中文语音信息训练英文语音模型的方法与设备 - Google Patents

一种基于中文语音信息训练英文语音模型的方法与设备 Download PDF

Info

Publication number
CN103632668A
CN103632668A CN201210299700.6A CN201210299700A CN103632668A CN 103632668 A CN103632668 A CN 103632668A CN 201210299700 A CN201210299700 A CN 201210299700A CN 103632668 A CN103632668 A CN 103632668A
Authority
CN
China
Prior art keywords
english
speech data
speech
data
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201210299700.6A
Other languages
English (en)
Other versions
CN103632668B (zh
Inventor
苏丹
万广鲁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201210299700.6A priority Critical patent/CN103632668B/zh
Publication of CN103632668A publication Critical patent/CN103632668A/zh
Application granted granted Critical
Publication of CN103632668B publication Critical patent/CN103632668B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Electrically Operated Instructional Devices (AREA)

Abstract

本发明的目的是提供一种用于基于中文语音信息训练英文语音模型的方法与设备;获取用户通过语音采集装置输入的语音数据;判断该语音数据是否为英文语音数据;当该语音数据为英文语音数据,根据中文语音信息,对该英文语音数据进行语音识别处理,以获得与该英文语音数据相对应的发音信息;根据该发音信息,确定该英文语音数据所对应的英文数据,以建立或更新英文语音模型。与现有技术相比,本发明在原有中文声学模型基础上,利用相似的中文语音信息,对英文语音数据进行语音识别处理,以获得与该英文语音数据相对应的发音信息,实现对英文语音模型的建立或更新,有效地控制了英文语音模型的规模。

Description

一种基于中文语音信息训练英文语音模型的方法与设备
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种用于基于中文语音信息训练英文语音模型的技术。
背景技术
现有的训练英文语音模型的方式一般利用现有的英语语音数据库,包括语音数据及其标注,在发音单元集合中加入英文发音单元,利用英语数据进行训练。现有技术的问题在于,采用该种方式训练英文语音模型需要一定规模的英语语音数据,且难以对加入模型中的英语词的规模进行控制。
因此,如何克服上述困难,在控制规模的同时,实现对英文语音模型的训练,成为本领域技术人员亟需解决的问题之一。
发明内容
本发明的目的是提供一种用于基于中文语音信息训练英文语音模型的方法与设备。
根据本发明的一个方面,提供了一种用于基于中文语音信息训练英文语音模型的方法,其中,该方法包括以下步骤:
a获取用户通过语音采集装置输入的语音数据;
b判断所述语音数据是否为英文语音数据;
c当所述语音数据为英文语音数据,根据中文语音信息,对所述英文语音数据进行语音识别处理,以获得与所述英文语音数据相对应的发音信息;
d根据所述发音信息,确定所述英文语音数据所对应的英文数据,以建立或更新英文语音模型,其中,所述发音信息与所述英文数据通过所述中文语音信息相映射。
根据本发明的另一方面,还提供了一种用于基于中文语音信息训练英文语音模型的模型训练设备,其中,该设备包括:
语音获取装置,用于获取用户通过语音采集装置输入的语音数据;
英文判断装置,用于判断所述语音数据是否为英文语音数据;
语音识别装置,用于当所述语音数据为英文语音数据,根据中文语音信息,对所述英文语音数据进行语音识别处理,以获得与所述英文语音数据相对应的发音信息;
模型训练装置,用于根据所述发音信息,确定所述英文语音数据所对应的英文数据,以建立或更新英文语音模型,其中,所述发音信息与所述英文数据通过所述中文语音信息相映射。
与现有技术相比,本发明在原有中文声学模型基础上,利用相似的中文语音信息,对英文语音数据进行语音识别处理,以获得与该英文语音数据相对应的发音信息,实现对英文语音模型的建立或更新,有效地控制了英文语音模型的规模;进一步地,本发明还可与语音识别相结合,支持用户以按字母及按单词两种方式输入英文语音序列,提升了用户的使用体验。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1示出根据本发明一个方面的用于基于中文语音信息训练英文语音模型的设备示意图;
图2示出根据本发明一个优选实施例的用于基于中文语音信息训练英文语音模型的设备示意图;
图3示出根据本发明另一个方面的用于基于中文语音信息训练英文语音模型的方法流程图;
图4示出根据本发明一个优选实施例的用于基于中文语音信息训练英文语音模型的方法流程图。
附图中相同或相似的附图标记代表相同或相似的部件。
具体实施方式
下面结合附图对本发明作进一步详细描述。
图1示出根据本发明一个方面的用于基于中文语音信息训练英文语音模型的设备示意图。模型训练设备1包括语音获取装置101、英文判断装置102、语音识别装置103和模型训练装置104。
其中,语音获取装置101获取用户通过语音采集装置输入的语音数据。具体地,用户或大量用户通过与语音采集装置的交互,输入了语音数据,语音获取装置101通过调用该语音采集装置所提供的应用程序接口(API),获取该用户或大量用户输入的语音数据;或者,用户或大量用户通过与语音采集装置的交互,输入了语音数据,并将该语音数据存入语音数据库中,语音获取装置101通过调用该语音数据库所提供的应用程序接口(API),从该语音数据库中获取用户或大量用户输入的语音数据。
本领域技术人员应能理解上述获取语音数据的方式仅为举例,其他现有的或今后可能出现的获取语音数据的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
英文判断装置102判断所述语音数据是否为英文语音数据。具体地,英文判断装置102根据语音获取装置101所获取的用户通过语音采集装置输入的语音数据,例如通过声学模型匹配等方式,判断该语音数据是否为英文语音数据。
本领域技术人员应能理解上述判断英文语音数据的方式仅为举例,其他现有的或今后可能出现的判断英文语音数据的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
语音识别装置103当所述语音数据为英文语音数据,根据中文语音信息,对所述英文语音数据进行语音识别处理,以获得与所述英文语音数据相对应的发音信息。具体地,当英文判断装置102判断该语音数据为英文语音数据,语音识别装置103根据中文语音信息,如中文声韵母信息,对该英文语音数据进行语音识别处理,例如,当英文判断装置判断该语音数据为英文语音数据时,语音识别装置103采用所有可能的中文声韵母信息去识别该英文语音数据,以确定该英文语音数据的发音信息。
例如,用户通过与语音采集装置的交互,输入了语音数据单词“iphone”,语音获取装置101通过调用该语音采集装置所提供的应用程序接口(API),获取了该语音数据“iphone”;随后,英文判断装置102采用声学模型匹配的方式,判断该语音数据为英文语音数据;随后,语音识别装置103采用所有可能的中文声韵母信息,对该英文语音数据“iphone”进行强制对齐,确定该英文语音数据“iphone”的发音信息为“aa ai4 f eng1”。在此,aa、ai4、f、eng1等即为中文声韵母信息,其中的数字表示该韵母信息所对应的声调。本领域技术人员应能理解,在此,中文声韵母信息及声调的表示仅为示例,而不应对本发明产生任何限制。
优选地,语音识别装置103还可以根据单词模型所对应的中文语音信息、或字母模型所对应的中文语音信息,对该英文语音数据进行语音识别处理,以获得与该英文语音数据相对应的单词发音信息、或字母发音信息。例如,对于“iphone”,若用户输入语音采集装置的为按单词读的“iphone”,则语音识别装置103确定其对应的采用中文语音信息表示的发音信息为“aa ai4 f eng1”;若用户输入语音采集装置的为按字母读的“iphone”,即,“i、p、h、o、n、e”,则语音识别装置103确定其对应的采用中文语音信息表示的发音信息为“aa ai4 p i4ei2 ch oo ou1 ee en1 ii i4”。
本领域技术人员应能理解上述识别发音信息的方式仅为举例,其他现有的或今后可能出现的识别发音信息的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
模型训练装置104根据所述发音信息,确定所述英文语音数据所对应的英文数据,以建立或更新英文语音模型,其中,所述发音信息与所述英文数据通过所述中文语音信息相映射。具体地,模型训练装置104根据该语音识别装置103所识别获得的发音信息,确定该英文语音数据所对应的英文数据,如根据发音信息“aa ai4 f eng1”,确定该发音信息对应的英文数据为“iphone”,再将该发音信息与该英文数据的映射关系存入英文语音模型,以实现对该英文语音模型的建立或更新,其中,该发音信息与该英文数据通过该中文语音信息相映射。
在此,英文数据为一具体的英文单词,如“iphone”等,而英文语音数据为该具体的英文单词所对应的语音数据,如“iphone”所对应的语音数据,通过语音获取装置101所获取。
本领域技术人员应能理解上述建立或更新英文语音模型的方式仅为举例,其他现有的或今后可能出现的建立或更新英文语音模型的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
在此,本发明在原有中文声学模型基础上,利用相似的中文语音信息,对英文语音数据进行语音识别处理,以获得与该英文语音数据相对应的发音信息,实现对英文语音模型的建立或更新,有效地控制了英文语音模型的规模。
优选地,模型训练设备1的各个装置之间是持续不断工作的。具体地,语音获取装置101获取用户通过语音采集装置输入的语音数据;英文判断装置102判断所述语音数据是否为英文语音数据;语音识别装置103当所述语音数据为英文语音数据,根据中文语音信息,对所述英文语音数据进行语音识别处理,以获得与所述英文语音数据相对应的发音信息;模型训练装置104根据所述发音信息,确定所述英文语音数据所对应的英文数据,以建立或更新英文语音模型,其中,所述发音信息与所述英文数据通过所述中文语音信息相映射。在此,本领域技术人员应理解“持续”是指模型训练设备1的各装置分别不断地进行语音数据的获取、英文语音数据的判断、英文语音数据的识别处理及英文语音模型的建立或更新,直至该模型训练设备1在较长时间内停止获取语音数据。
优选地,语音识别装置103当所述语音数据为英文语音数据,根据单词模型所对应的中文语音信息,对所述英文语音数据进行语音识别处理,以获得与所述英文语音数据相对应的单词发音信息。具体地,当该英文判断装置102判断语音获取装置101所获取的语音数据为英文语音数据,语音识别装置103采用单词模型所对应的中文语音信息,如“aa ai4 f eng1”等,对所述英文语音数据进行语音识别处理,如强制对齐处理,采用所有可能的中文声韵母信息,对该英文语音数据进行强制对齐,以获得与所述英文语音数据相对应的单词发音信息。
在此,该单词模型中存储有大量单词所对应的中文语音信息,该单词模型可以位于模型训练设备1中,或者位于与该模型训练设备1通过网络相连接的第三方设备中。
优选地,语音识别装置103当所述语音数据为英文语音数据,根据字母模型所对应的中文语音信息,对所述英文语音数据进行语音识别处理,以获得与所述英文语音数据相对应的字母发音信息。具体地,当该英文判断装置102判断语音获取装置101所获取的语音数据为英文语音数据,语音识别装置103根据字母模型所对应的中文语音信息,如二十六个英文字母所对应的中文语音信息,如字母“a”对应的中文语音信息“aa ei1”、字母“b”对应的中文语音信息“b i4”、字母“c”对应的中文语音信息“s ei4”等,对该英文语音数据进行语音识别处理,以获得与该英文语音数据相对应的字母发音信息。
优选地,语音识别装置103对于英文判断装置102判断为英文语音数据为语音数据,优先采用单词模型所对应的中文语音信息,对该英文语音数据进行语音识别处理,当该语音识别装置103采用单词模型无法识别出该英文语音数据的发音信息时,再采用字母模型所对应的中文语音信息,对该英文语音数据进行语音识别处理,以获得与该英文语音数据相对应的字母发音信息。相似地,该语音识别装置103也可以优先采用字母模型所对应的中文语音信息,对该英文语音数据进行语音识别处理,当该语音识别装置103采用字母模型无法识别出该英文语音数据的发音信息时,再采用单词模型所对应的中文语音信息,对该英文语音数据进行语音识别处理,以获得与该英文语音数据相对应的单词发音信息。在此,优先采用单词模型还是优先采用字母模型所对应的中文语音信息,对该英文语音数据进行语音识别处理,可以是该模型训练设备1预先设定的,也可以应事件而进行调整。
例如,对于语音获取装置101所获取的语音数据“iphone”,英文判断装置102判断该语音数据“iphone”为英文语音数据,语音识别装置103优先采用单词模型所对应的中文语音信息,对该英文语音数据进行语音识别处理,但无法识别出该英文语音数据的发音信息;随后,该语音获取装置101再采用字母模型所对应的中文语音信息,对该英文语音数据进行语音识别处理,获得与该英文语音数据相对应的字母发音信息“aa ai4 p i4 ei2 ch oo ou1 ee en1 ii i4”,则可知该语音获取装置101所获取的语音数据为按字母读的“iphone”,即,“i、p、h、o、n、e”。
更优选地,语音识别装置103分别采用单词模型所对应的中文语音信息、字母模型所对应的中文语音信息,对该英文语音数据进行语音识别处理,并分别对语音识别处理所获得的结果进行打分,确定打分较高的发音信息为该英文语音数据的发音信息。
在此,由于用户在输入英文单词时有时按单词读有时按字母读,本发明对每个需要识别的英文单词,利用相似的单词模型对应的中文语音信息、字母模型对应的中文语音信息,确定其对应的发音信息,提升了语音识别的准确性。
在一优选实施例中,该模型训练设备1还包括模型更新装置(未示出)。该模型更新装置统计所述英文数据所对应的英文语音数据在所述语音数据中的出现次数;根据所述出现次数,并结合所述语音数据的数量信息,确定所述英文数据的概率值;根据所述概率值,更新所述英文语音模型。具体地,当大量用户通过语音采集装置输入语音数据,其中,多个用户所输入的英文语音数据为相同的英文语音数据,语音获取装置101获取该大量用户输入的大量语音数据;英文判断装置102判断该大量语音数据为英文语音数据;随后,语音识别装置103根据中文语音信息,对该大量英文语音数据进行语音识别处理,以获得与该大量英文语音数据相对应的发音信息,在此,由于该多个用户输入的为相同的英文语音数据,因此,该语音识别装置103所获得的关于该多个用户输入的英文语音数据所对应的发音信息相同或相似;接着,模型训练装置104根据该多个相同或相似的发音信息,确定该多个英文语音数据所对应的相同的英文数据;模型更新装置统计该相同的英文数据所对应的英文语音数据在该语音数据中的出现次数;接着,该模型更新装置再根据该英文语音数据的出现次数,并结合该语音数据的数量信息,确定该英文数据的概率值,如将该出现次数除以该大量语音数据的数量信息,获得该英文数据的概率值;该模型更新装置再将该英文数据及其对应的概率值存入该英文语音模型中,以实现对该英文语音模型的更新。
优选地,该模型训练设备1还包括数据提取装置(未示出)和单元训练装置(未示出)。该数据提取装置当所述出现次数大于预定数量阈值,自所述英文语音模型中提取所述英文数据与所述英文语音数据;该单元训练装置根据所述英文数据与所述英文语音数据的映射关系,建立或更新与所述英文语音数据相对应的英文语音单元。具体地,该模型训练设备1可以设置一个预定数量阈值,该预定数量阈值用来判断英文数据所对应的英文语音数据在该语音数据中的出现次数是否超过该值,当该出现次数大于该预定数量阈值时,数据提取装置自该英文语音模型中提取该英文数据与该英文语音数据;该单元训练装置根据该英文数据与该英文语音数据的映射关系,为该英文语音数据新建一个英文语音单元,以实现对该英文语音单元的建立或更新。
更优选地,该单元训练装置根据所述英文数据与所述英文语音数据的映射关系,采用插值计算方法,建立或更新所述英文语音单元。具体地,该单元训练装置根据该英文数据与该英文语音数据的映射关系,为该英文数据新建一英文语音单元,再例如通过将该中文发音信息所对应的中文语音单元的模型参数复制给该英文语音单元,然后在英文数据上对齐,得到统计量,再与该复制所获得的参数进行插值计算,以实现对该英文语音单元的建立或更新。在此,所述中文语音单元包括为每个中文发音信息,如中文声母或韵母信息所建立的发音单元,如“s”、“ei4”等中文声韵母信息所对应的中文语音单元。
更优选地,该模型训练设备1还包括单元更新装置(未示出)。该单元更新装置根据所述英文语音数据及与该英文语音数据相对应的发音信息,更新所述英文语音单元。具体地,在单元训练装置为英文数据新建一英文语音单元之后,单元更新装置不断地根据用户输入的英文语音数据,及由语音识别装置103识别所获得的与该英文语音数据相对应的发音信息,训练该英文语音单元。
在此,本发明对出现此处大于预定阈值的英文语音数据,为该英文语音数据及英文数据新建英文语音单元,并对该英文语音单元不断地进行训练,以进一步提升该英文语音数据的发音信息的准确性。
图2示出根据本发明一个优选实施例的用于基于中文语音信息训练英文语音模型的设备示意图。该模型训练设备1还包括序列获取装置205、序列确定装置206和信息提供装置207。以下参照图2对该优选实施例进行详细描述:具体地,语音获取装置201获取用户通过语音采集装置输入的语音数据;英文判断装置202判断所述语音数据是否为英文语音数据;语音识别装置203当所述语音数据为英文语音数据,根据中文语音信息,对所述英文语音数据进行语音识别处理,以获得与所述英文语音数据相对应的发音信息;模型训练装置204根据所述发音信息,确定所述英文语音数据所对应的英文数据,以建立或更新英文语音模型,其中,所述发音信息与所述英文数据通过所述中文语音信息相映射;序列获取装置205获取所述用户为目标应用输入的单词语音序列;序列确定装置206根据所述英文语音模型,确定与所述单词语音序列相对应的英文字符序列;信息提供装置207将与所述英文字符序列相对应的信息提供给所述用户。其中,语音获取装置201、英文判断装置202、语音识别装置203和模型训练装置204与图1所示对应装置相同或相似,故此处不再赘述,并通过引用的方式包含于此。
其中,序列获取装置205获取所述用户为目标应用输入的单词语音序列。具体地,用户例如通过与用户设备的语音采集装置的交互,在目标应用中输入单词语音序列,序列获取装置205例如通过调用该用户设备所提供的应用程序接口(API)等方式,获取该用户为目标应用所输入的单词语音序列。
序列确定装置206根据所述英文语音模型,确定与所述单词语音序列相对应的英文字符序列。具体地,序列确定装置206根据该序列获取装置205所获取的单词语音序列,通过语音识别处理,确定该单词语音序列的发音信息,进而,根据该发音信息,在该英文语音模型中进行匹配查询,确定与该单词语音序列相对应的英文字符序列。例如,用户通过与用户设备的语音采集装置的交互,输入了单词语音序列“iphone”,序列获取装置205例如通过调用该用户设备所提供的应用程序接口(API)等方式,获取了该用户输入的单词语音序列“iphone”;随后,序列确定装置206根据该单词语音序列“iphone”,通过语音识别处理,确定该单词语音序列的发音信息“aa ai4 f eng1”,进而,根据该发音信息,在该英文语音模型中进行匹配查询,确定与该单词语音序列相对应的英文字符序列“iphone”。
信息提供装置207将与所述英文字符序列相对应的信息提供给所述用户。例如,当该目标应用为语音输入应用,该信息提供装置207通过调用诸如JSP、ASP或PHP等动态网页技术,将该英文字符序列作为语音输入候选词条提供给该用户;当该目标应用为语音搜索应用;该信息提供装置207通过调用诸如JSP、ASP或PHP等动态网页技术,将根据该英文字符序列搜索获得的一个或多个搜索结果提供给该用户。
优选地,该目标应用为语音输入应用;其中,该信息提供装置207将所述英文字符序列作为语音输入候选词条提供给所述用户。例如,当该目标应用为语音输入应用,用户通过与用户设备的语音采集装置的交互,在语音输入应用中输入了单词语音序列“iphone”,序列获取装置205例如通过调用该用户设备所提供的应用程序接口(API)等方式,获取了该用户输入的单词语音序列“iphone”;随后,序列确定装置206根据该单词语音序列“iphone”,通过语音识别处理,确定该单词语音序列的发音信息“aa ai4 f eng1”,进而,根据该发音信息,在该英文语音模型中进行匹配查询,确定与该单词语音序列相对应的英文字符序列“iphone”;进而,信息提供装置207通过调用诸如JSP、ASP或PHP等动态网页技术,将该英文字符序列“iphone”作为语音输入候选词条提供给该用户,以供该用户选择输入。
优选地,该目标应用为语音搜索应用;其中,该模型训练设备1还包括搜索获取装置(未示出)。该搜索获取装置将所述英文字符序列作为所述用户的查询序列,获取与所述查询序列相对应的一个或多个搜索结果;其中,该信息提供装置207将所述一个或多个搜索结果提供给所述用户。具体地,当该目标应用为语音搜索应用,序列确定装置206根据该英文语音模型,确定与该单词语音序列相对应的英文字符序列;搜索获取装置根据该序列确定装置206所确定的英文字符序列,将该英文字符序列作为该用户的查询序列,进行匹配查询,获取与该查询序列相对应的一个或多个搜索结果;随后,信息提供装置207通过调用诸如JSP、ASP或PHP等动态网页技术,将该一个或多个搜索结果提供给该用户。
例如,当该目标应用为语音搜索应用,用户通过与用户设备的语音采集装置的交互,在语音输入应用中输入了单词语音序列“iphone”,序列获取装置205例如通过调用该用户设备所提供的应用程序接口(API)等方式,获取了该用户输入的单词语音序列“iphone”;随后,序列确定装置206根据该单词语音序列“iphone”,通过语音识别处理,确定该单词语音序列的发音信息“aa ai4 f eng1”,进而,根据该发音信息,在该英文语音模型中进行匹配查询,确定与该单词语音序列相对应的英文字符序列“iphone”;进而,搜索获取装置根据该序列确定装置206所确定的英文字符序列,将该英文字符序列“iphone”作为该用户的查询序列,进行匹配查询,获取与该查询序列相对应的一个或多个搜索结果;随后,信息提供装置207通过调用诸如JSP、ASP或PHP等动态网页技术,将与该英文字符序列“iphone”相对应的一个或多个搜索结果提供给该用户,供该用户浏览。
更优选地,序列获取装置205获取所述用户为目标应用输入的字母语音序列;其中,所述序列确定装置206根据所述英文语音模型,确定与所述字母语音序列相对应的英文字符序列。具体地,用户例如通过与用户设备的语音采集装置的交互,在目标应用中输入字母语音序列,序列获取装置205例如通过调用该用户设备所提供的应用程序接口(API)等方式,获取该用户为目标应用所输入的字母语音序列;随后,序列确定装置206根据该序列获取装置205所获取的字母语音序列,通过语音识别处理,确定该字母语音序列的发音信息,进而,根据该发音信息,在该英文语音模型中进行匹配查询,确定与该字母语音序列相对应的英文字符序列。例如,用户通过与用户设备的语音采集装置的交互,输入了字母语音序列“i、p、h、o、n、e”,序列获取装置205例如通过调用该用户设备所提供的应用程序接口(API)等方式,获取了该用户输入的字母语音序列“i、p、h、o、n、e”;随后,序列确定装置206根据该字母语音序列“i、p、h、o、n、e”,通过语音识别处理,确定该字母语音序列的发音信息“aa ai4 p i4 ei2 ch oo ou1 ee en1 ii i4”,进而,根据该发音信息,在该英文语音模型中进行匹配查询,确定与该字母语音序列相对应的英文字符序列“iphone”。
相似地,信息提供装置207将与该英文字符序列相对应的信息提供给所述用户。接上例,当该目标应用为语音输入应用,该信息提供装置207通过调用诸如JSP、ASP或PHP等动态网页技术,将该英文字符序列“iphone”作为语音输入候选词条提供给该用户,以供该用户选择输入;当该目标应用为语音搜索应用;搜索获取装置根据该序列确定装置206所确定的英文字符序列,将该英文字符序列“iphone”作为该用户的查询序列,进行匹配查询,获取与该查询序列相对应的一个或多个搜索结果;随后,信息提供装置207通过调用诸如JSP、ASP或PHP等动态网页技术,将与该英文字符序列“iphone”相对应的一个或多个搜索结果提供给该用户,供该用户浏览。
在此,本发明还可与语音识别相结合,支持用户以按字母及按单词两种方式输入英文语音序列,提升了用户的使用体验。
图3示出根据本发明另一个方面的用于基于中文语音信息训练英文语音模型的方法流程图。
在步骤S301中,模型训练设备1获取用户通过语音采集装置输入的语音数据。具体地,用户或大量用户通过与语音采集装置的交互,输入了语音数据,在步骤S301中,模型训练设备1通过调用该语音采集装置所提供的应用程序接口(API),获取该用户或大量用户输入的语音数据;或者,用户或大量用户通过与语音采集装置的交互,输入了语音数据,并将该语音数据存入语音数据库中,在步骤S301中,模型训练设备1通过调用该语音数据库所提供的应用程序接口(API),从该语音数据库中获取用户或大量用户输入的语音数据。
本领域技术人员应能理解上述获取语音数据的方式仅为举例,其他现有的或今后可能出现的获取语音数据的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
在步骤S302中,模型训练设备1判断所述语音数据是否为英文语音数据。具体地,在步骤S302中,模型训练设备1根据在步骤S301中所获取的用户通过语音采集装置输入的语音数据,例如通过声学模型匹配等方式,判断该语音数据是否为英文语音数据。
本领域技术人员应能理解上述判断英文语音数据的方式仅为举例,其他现有的或今后可能出现的判断英文语音数据的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
在步骤S303中,模型训练设备1当所述语音数据为英文语音数据,根据中文语音信息,对所述英文语音数据进行语音识别处理,以获得与所述英文语音数据相对应的发音信息。具体地,当在步骤S302中,模型训练设备1判断该语音数据为英文语音数据,在步骤S303中,模型训练设备1根据中文语音信息,如中文声韵母信息,对该英文语音数据进行语音识别处理,例如,当在步骤S302中,模型训练设备1判断该语音数据为英文语音数据时,在步骤S303中,模型训练设备1采用所有可能的中文声韵母信息去识别该英文语音数据,以确定该英文语音数据的发音信息。
例如,用户通过与语音采集装置的交互,输入了语音数据单词“iphone”,在步骤S301中,模型训练设备1通过调用该语音采集装置所提供的应用程序接口(API),获取了该语音数据“iphone”;随后,在步骤S302中,模型训练设备1采用声学模型匹配的方式,判断该语音数据为英文语音数据;随后,在步骤S303中,模型训练设备1采用所有可能的中文声韵母信息,对该英文语音数据“iphone”进行强制对齐,确定该英文语音数据“iphone”的发音信息为“aa ai4f eng1”。在此,aa、ai4、f、eng1等即为中文声韵母信息,其中的数字表示该韵母信息所对应的声调。本领域技术人员应能理解,在此,中文声韵母信息及声调的表示仅为示例,而不应对本发明产生任何限制。
优选地,在步骤S303中,模型训练设备1还可以根据单词模型所对应的中文语音信息、或字母模型所对应的中文语音信息,对该英文语音数据进行语音识别处理,以获得与该英文语音数据相对应的单词发音信息、或字母发音信息。例如,对于“iphone”,若用户输入语音采集装置的为按单词读的“iphone”,则在步骤S303中,模型训练设备1确定其对应的采用中文语音信息表示的发音信息为“aa ai4 feng1”;若用户输入语音采集装置的为按字母读的“iphone”,即,“i、p、h、o、n、e”,则在步骤S303中,模型训练设备1确定其对应的采用中文语音信息表示的发音信息为“aa ai4 pi4 ei2 ch oo ou1 ee en1 iii4”。
本领域技术人员应能理解上述识别发音信息的方式仅为举例,其他现有的或今后可能出现的识别发音信息的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
在步骤S304中,模型训练设备1根据所述发音信息,确定所述英文语音数据所对应的英文数据,以建立或更新英文语音模型,其中,所述发音信息与所述英文数据通过所述中文语音信息相映射。具体地,在步骤S304中,模型训练设备1根据在步骤S303中所识别获得的发音信息,确定该英文语音数据所对应的英文数据,如根据发音信息“aa ai4 f eng1”,确定该发音信息对应的英文数据为“iphone”,再将该发音信息与该英文数据的映射关系存入英文语音模型,以实现对该英文语音模型的建立或更新,其中,该发音信息与该英文数据通过该中文语音信息相映射。
在此,英文数据为一具体的英文单词,如“iphone”等,而英文语音数据为该具体的英文单词所对应的语音数据,如“iphone”所对应的语音数据,通过语音获取装置101所获取。
本领域技术人员应能理解上述建立或更新英文语音模型的方式仅为举例,其他现有的或今后可能出现的建立或更新英文语音模型的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
在此,本发明在原有中文声学模型基础上,利用相似的中文语音信息,对英文语音数据进行语音识别处理,以获得与该英文语音数据相对应的发音信息,实现对英文语音模型的建立或更新,有效地控制了英文语音模型的规模。
优选地,模型训练设备1的各个步骤之间是持续不断工作的。具体地,在步骤S301中,模型训练设备1获取用户通过语音采集装置输入的语音数据;在步骤S302中,模型训练设备1判断所述语音数据是否为英文语音数据;在步骤S303中,模型训练设备1当所述语音数据为英文语音数据,根据中文语音信息,对所述英文语音数据进行语音识别处理,以获得与所述英文语音数据相对应的发音信息;在步骤S304中,模型训练设备1根据所述发音信息,确定所述英文语音数据所对应的英文数据,以建立或更新英文语音模型,其中,所述发音信息与所述英文数据通过所述中文语音信息相映射。在此,本领域技术人员应理解“持续”是指模型训练设备1的各步骤分别不断地进行语音数据的获取、英文语音数据的判断、英文语音数据的识别处理及英文语音模型的建立或更新,直至该模型训练设备1在较长时间内停止获取语音数据。
优选地,在步骤S303中,模型训练设备1当所述语音数据为英文语音数据,根据单词模型所对应的中文语音信息,对所述英文语音数据进行语音识别处理,以获得与所述英文语音数据相对应的单词发音信息。具体地,当在步骤S302中,模型训练设备1判断在步骤S301中所获取的语音数据为英文语音数据,在步骤S303中,模型训练设备1采用单词模型所对应的中文语音信息,如“aa ai4 f eng1”等,对所述英文语音数据进行语音识别处理,如强制对齐处理,采用所有可能的中文声韵母信息,对该英文语音数据进行强制对齐,以获得与所述英文语音数据相对应的单词发音信息。
在此,该单词模型中存储有大量单词所对应的中文语音信息,该单词模型可以位于模型训练设备1中,或者位于与该模型训练设备1通过网络相连接的第三方设备中。
优选地,在步骤S303中,模型训练设备1当所述语音数据为英文语音数据,根据字母模型所对应的中文语音信息,对所述英文语音数据进行语音识别处理,以获得与所述英文语音数据相对应的字母发音信息。具体地,当在步骤S302中,模型训练设备1判断在步骤S301中所获取的语音数据为英文语音数据,在步骤S303中,模型训练设备1根据字母模型所对应的中文语音信息,如二十六个英文字母所对应的中文语音信息,如字母“a”对应的中文语音信息“aa ei1”、字母“b”对应的中文语音信息“b i4”、字母“c”对应的中文语音信息“s ei4”等,对该英文语音数据进行语音识别处理,以获得与该英文语音数据相对应的字母发音信息。
优选地,在步骤S303中,模型训练设备1对于在步骤S302中判断为英文语音数据为语音数据,优先采用单词模型所对应的中文语音信息,对该英文语音数据进行语音识别处理,当在步骤S303中,模型训练设备1采用单词模型无法识别出该英文语音数据的发音信息时,再采用字母模型所对应的中文语音信息,对该英文语音数据进行语音识别处理,以获得与该英文语音数据相对应的字母发音信息。相似地,在步骤S303中,模型训练设备1也可以优先采用字母模型所对应的中文语音信息,对该英文语音数据进行语音识别处理,当在步骤S303中,模型训练设备1采用字母模型无法识别出该英文语音数据的发音信息时,再采用单词模型所对应的中文语音信息,对该英文语音数据进行语音识别处理,以获得与该英文语音数据相对应的单词发音信息。在此,优先采用单词模型还是优先采用字母模型所对应的中文语音信息,对该英文语音数据进行语音识别处理,可以是该模型训练设备1预先设定的,也可以应事件而进行调整。
例如,对于在步骤S301中,模型训练设备1所获取的语音数据“iphone”,在步骤S302中,模型训练设备1判断该语音数据“iphone”为英文语音数据,在步骤S303中,模型训练设备1优先采用单词模型所对应的中文语音信息,对该英文语音数据进行语音识别处理,但无法识别出该英文语音数据的发音信息;随后,在步骤S301中,模型训练设备1再采用字母模型所对应的中文语音信息,对该英文语音数据进行语音识别处理,获得与该英文语音数据相对应的字母发音信息“aa ai4 p i4 ei2 ch oo ou1 ee en1 ii i4”,则可知在步骤S301中所获取的语音数据为按字母读的“iphone”,即,“i、p、h、o、n、e”。
更优选地,在步骤S303中,模型训练设备1分别采用单词模型所对应的中文语音信息、字母模型所对应的中文语音信息,对该英文语音数据进行语音识别处理,并分别对语音识别处理所获得的结果进行打分,确定打分较高的发音信息为该英文语音数据的发音信息。
在此,由于用户在输入英文单词时有时按单词读有时按字母读,本发明对每个需要识别的英文单词,利用相似的单词模型对应的中文语音信息、字母模型对应的中文语音信息,确定其对应的发音信息,提升了语音识别的准确性。
在一优选实施例中,该方法还包括步骤S308(未示出)。在步骤S308中,模型训练设备1统计所述英文数据所对应的英文语音数据在所述语音数据中的出现次数;根据所述出现次数,并结合所述语音数据的数量信息,确定所述英文数据的概率值;根据所述概率值,更新所述英文语音模型。具体地,当大量用户通过语音采集装置输入语音数据,其中,多个用户所输入的英文语音数据为相同的英文语音数据,在步骤S301中,模型训练设备1获取该大量用户输入的大量语音数据;在步骤S302中,模型训练设备1判断该大量语音数据为英文语音数据;随后,在步骤S303中,模型训练设备1根据中文语音信息,对该大量英文语音数据进行语音识别处理,以获得与该大量英文语音数据相对应的发音信息,在此,由于该多个用户输入的为相同的英文语音数据,因此,在步骤S303中,模型训练设备1所获得的关于该多个用户输入的英文语音数据所对应的发音信息相同或相似;接着,在步骤S304中,模型训练设备1根据该多个相同或相似的发音信息,确定该多个英文语音数据所对应的相同的英文数据;在步骤S308中,模型训练设备1统计该相同的英文数据所对应的英文语音数据在该语音数据中的出现次数;接着,在步骤S308中,模型训练设备1再根据该英文语音数据的出现次数,并结合该语音数据的数量信息,确定该英文数据的概率值,如将该出现次数除以该大量语音数据的数量信息,获得该英文数据的概率值;该在步骤S308中,模型训练设备1再将该英文数据及其对应的概率值存入该英文语音模型中,以实现对该英文语音模型的更新。
优选地,该方法还包括步骤S309(未示出)和步骤S310(未示出)。在步骤S309中,当所述出现次数大于预定数量阈值,模型训练设备1自所述英文语音模型中提取所述英文数据与所述英文语音数据;在步骤S310中,模型训练设备1根据所述英文数据与所述英文语音数据的映射关系,建立或更新与所述英文语音数据相对应的英文语音单元。具体地,该模型训练设备1可以设置一个预定数量阈值,该预定数量阈值用来判断英文数据所对应的英文语音数据在该语音数据中的出现次数是否超过该值,当该出现次数大于该预定数量阈值时,在步骤S309中,模型训练设备1自该英文语音模型中提取该英文数据与该英文语音数据;在步骤S310中,模型训练设备1根据该英文数据与该英文语音数据的映射关系,为该英文语音数据新建一个英文语音单元,以实现对该英文语音单元的建立或更新。
更优选地,在步骤S310中,模型训练设备1根据所述英文数据与所述英文语音数据的映射关系,采用插值计算方法,建立或更新所述英文语音单元。具体地,在步骤S310中,模型训练设备1根据该英文数据与该英文语音数据的映射关系,为该英文数据新建一英文语音单元,再例如通过将该中文发音信息所对应的中文语音单元的模型参数复制给该英文语音单元,然后在英文数据上对齐,得到统计量,再与该复制所获得的参数进行插值计算,以实现对该英文语音单元的建立或更新。在此,所述中文语音单元包括为每个中文发音信息,如中文声母或韵母信息所建立的发音单元,如“s”、“ei4”等中文声韵母信息所对应的中文语音单元。
更优选地,该方法还包括步骤S311(未示出)。在步骤S311中,模型训练设备1根据所述英文语音数据及与该英文语音数据相对应的发音信息,更新所述英文语音单元。具体地,在步骤S310中,模型训练设备1为英文数据新建一英文语音单元之后,在步骤S311中,模型训练设备1不断地根据用户输入的英文语音数据,及由在步骤S303中识别所获得的与该英文语音数据相对应的发音信息,训练该英文语音单元。
在此,本发明对出现此处大于预定阈值的英文语音数据,为该英文语音数据及英文数据新建英文语音单元,并对该英文语音单元不断地进行训练,以进一步提升该英文语音数据的发音信息的准确性。
图4示出根据本发明一个优选实施例的用于基于中文语音信息训练英文语音模型的方法流程图。以下参照图4对该优选实施例进行详细描述:具体地,在步骤S401中,模型训练设备1获取用户通过语音采集装置输入的语音数据;在步骤S402中,模型训练设备1判断所述语音数据是否为英文语音数据;在步骤S403中,模型训练设备1当所述语音数据为英文语音数据,根据中文语音信息,对所述英文语音数据进行语音识别处理,以获得与所述英文语音数据相对应的发音信息;在步骤S404中,模型训练设备1根据所述发音信息,确定所述英文语音数据所对应的英文数据,以建立或更新英文语音模型,其中,所述发音信息与所述英文数据通过所述中文语音信息相映射;在步骤S405中,模型训练设备1获取所述用户为目标应用输入的单词语音序列;在步骤S406中,模型训练设备1根据所述英文语音模型,确定与所述单词语音序列相对应的英文字符序列;在步骤S407中,模型训练设备1将与所述英文字符序列相对应的信息提供给所述用户。其中,步骤S401-S404与图3所示对应步骤相同或相似,故此处不再赘述,并通过引用的方式包含于此。
在步骤S405中,模型训练设备1获取所述用户为目标应用输入的单词语音序列。具体地,用户例如通过与用户设备的语音采集装置的交互,在目标应用中输入单词语音序列,在步骤S405中,模型训练设备1例如通过调用该用户设备所提供的应用程序接口(API)等方式,获取该用户为目标应用所输入的单词语音序列。
在步骤S406中,模型训练设备1根据所述英文语音模型,确定与所述单词语音序列相对应的英文字符序列。具体地,在步骤S406中,模型训练设备1根据在步骤S405中所获取的单词语音序列,通过语音识别处理,确定该单词语音序列的发音信息,进而,根据该发音信息,在该英文语音模型中进行匹配查询,确定与该单词语音序列相对应的英文字符序列。例如,用户通过与用户设备的语音采集装置的交互,输入了单词语音序列“iphone”,在步骤S405中,模型训练设备1例如通过调用该用户设备所提供的应用程序接口(API)等方式,获取了该用户输入的单词语音序列“iphone”;随后,在步骤S406中,模型训练设备1根据该单词语音序列“iphone”,通过语音识别处理,确定该单词语音序列的发音信息“aa ai4 f eng1”,进而,根据该发音信息,在该英文语音模型中进行匹配查询,确定与该单词语音序列相对应的英文字符序列“iphone”。
在步骤S407中,模型训练设备1将与所述英文字符序列相对应的信息提供给所述用户。例如,当该目标应用为语音输入应用,在步骤S407中,模型训练设备1通过调用诸如JSP、ASP或PHP等动态网页技术,将该英文字符序列作为语音输入候选词条提供给该用户;当该目标应用为语音搜索应用;在步骤S407中,模型训练设备1通过调用诸如JSP、ASP或PHP等动态网页技术,将根据该英文字符序列搜索获得的一个或多个搜索结果提供给该用户。
优选地,该目标应用为语音输入应用;其中,在步骤S407中,模型训练设备1将所述英文字符序列作为语音输入候选词条提供给所述用户。例如,当该目标应用为语音输入应用,用户通过与用户设备的语音采集装置的交互,在语音输入应用中输入了单词语音序列“iphone”,在步骤S405中,模型训练设备1例如通过调用该用户设备所提供的应用程序接口(API)等方式,获取了该用户输入的单词语音序列“iphone”;随后,在步骤S406中,模型训练设备1根据该单词语音序列“iphone”,通过语音识别处理,确定该单词语音序列的发音信息“aa ai4 f eng1”,进而,根据该发音信息,在该英文语音模型中进行匹配查询,确定与该单词语音序列相对应的英文字符序列“iphone”;进而,在步骤S407中,模型训练设备1通过调用诸如JSP、ASP或PHP等动态网页技术,将该英文字符序列“iphone”作为语音输入候选词条提供给该用户,以供该用户选择输入。
优选地,该目标应用为语音搜索应用;其中,该方法还包括步骤S412(未示出)。在步骤S412中,模型训练设备1将所述英文字符序列作为所述用户的查询序列,获取与所述查询序列相对应的一个或多个搜索结果;其中,在步骤S407中,模型训练设备1将所述一个或多个搜索结果提供给所述用户。具体地,当该目标应用为语音搜索应用,在步骤S406中,模型训练设备1根据该英文语音模型,确定与该单词语音序列相对应的英文字符序列;在步骤S412中,模型训练设备1根据在步骤S406中所确定的英文字符序列,将该英文字符序列作为该用户的查询序列,进行匹配查询,获取与该查询序列相对应的一个或多个搜索结果;随后,在步骤S407中,模型训练设备1通过调用诸如JSP、ASP或PHP等动态网页技术,将该一个或多个搜索结果提供给该用户。
例如,当该目标应用为语音搜索应用,用户通过与用户设备的语音采集装置的交互,在语音输入应用中输入了单词语音序列“iphone”,在步骤S405中,模型训练设备1例如通过调用该用户设备所提供的应用程序接口(API)等方式,获取了该用户输入的单词语音序列“iphone”;随后,在步骤S406中,模型训练设备1根据该单词语音序列“iphone”,通过语音识别处理,确定该单词语音序列的发音信息“aa ai4 f eng1”,进而,根据该发音信息,在该英文语音模型中进行匹配查询,确定与该单词语音序列相对应的英文字符序列“iphone”;进而,在步骤S412中,模型训练设备1根据在步骤S406中所确定的英文字符序列,将该英文字符序列“iphone”作为该用户的查询序列,进行匹配查询,获取与该查询序列相对应的一个或多个搜索结果;随后,在步骤S407中,模型训练设备1通过调用诸如JSP、ASP或PHP等动态网页技术,将与该英文字符序列“iphone”相对应的一个或多个搜索结果提供给该用户,供该用户浏览。
更优选地,在步骤S405中,模型训练设备1获取所述用户为目标应用输入的字母语音序列;其中,在步骤S406中,模型训练设备1根据所述英文语音模型,确定与所述字母语音序列相对应的英文字符序列。具体地,用户例如通过与用户设备的语音采集装置的交互,在目标应用中输入字母语音序列,在步骤S405中,模型训练设备1例如通过调用该用户设备所提供的应用程序接口(API)等方式,获取该用户为目标应用所输入的字母语音序列;随后,在步骤S406中,模型训练设备1根据在步骤S405中所获取的字母语音序列,通过语音识别处理,确定该字母语音序列的发音信息,进而,根据该发音信息,在该英文语音模型中进行匹配查询,确定与该字母语音序列相对应的英文字符序列。例如,用户通过与用户设备的语音采集装置的交互,输入了字母语音序列“i、p、h、o、n、e”,在步骤S405中,模型训练设备1例如通过调用该用户设备所提供的应用程序接口(API)等方式,获取了该用户输入的字母语音序列“i、p、h、o、n、e”;随后,在步骤S406中,模型训练设备1根据该字母语音序列“i、p、h、o、n、e”,通过语音识别处理,确定该字母语音序列的发音信息“aa ai4 p i4 ei2 ch oo ou1 eeen1 ii i4”,进而,根据该发音信息,在该英文语音模型中进行匹配查询,确定与该字母语音序列相对应的英文字符序列“iphone”。
相似地,在步骤S407中,模型训练设备1将与该英文字符序列相对应的信息提供给所述用户。接上例,当该目标应用为语音输入应用,在步骤S407中,模型训练设备1通过调用诸如JSP、ASP或PHP等动态网页技术,将该英文字符序列“iphone”作为语音输入候选词条提供给该用户,以供该用户选择输入;当该目标应用为语音搜索应用;在步骤S412中,模型训练设备1根据在步骤S406中所确定的英文字符序列,将该英文字符序列“iphone”作为该用户的查询序列,进行匹配查询,获取与该查询序列相对应的一个或多个搜索结果;随后,在步骤S407中,模型训练设备1通过调用诸如JSP、ASP或PHP等动态网页技术,将与该英文字符序列“iphone”相对应的一个或多个搜索结果提供给该用户,供该用户浏览。
在此,本发明还可与语音识别相结合,支持用户以按字母及按单词两种方式输入英文语音序列,提升了用户的使用体验
本发明的软件程序可以通过处理器执行以实现上文所述步骤或功能。同样地,本发明的软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中,例如,RAM存储器,磁或光驱动器或软磁盘及类似设备。另外,本发明的一些步骤或功能可采用硬件来实现,例如,作为与处理器配合从而执行各个功能或步骤的电路。
另外,本发明的一部分可被应用为计算机程序产品,例如计算机程序指令,当其被计算机执行时,通过该计算机的操作,可以调用或提供根据本发明的方法和/或技术方案。而调用本发明的方法的程序指令,可能被存储在固定的或可移动的记录介质中,和/或通过广播或其他信号承载媒体中的数据流而被传输,和/或被存储在根据所述程序指令运行的计算机设备的工作存储器中。在此,根据本发明的一个实施例包括一个装置,该装置包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器,其中,当该计算机程序指令被该处理器执行时,触发该装置运行基于前述根据本发明的多个实施例的方法和/或技术方案。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。

Claims (22)

1.一种用于基于中文语音信息训练英文语音模型的方法,其中,该方法包括以下步骤:
a获取用户通过语音采集装置输入的语音数据;
b判断所述语音数据是否为英文语音数据;
c当所述语音数据为英文语音数据,根据中文语音信息,对所述英文语音数据进行语音识别处理,以获得与所述英文语音数据相对应的发音信息;
d根据所述发音信息,确定所述英文语音数据所对应的英文数据,以建立或更新英文语音模型,其中,所述发音信息与所述英文数据通过所述中文语音信息相映射。
2.根据权利要求1所述的方法,其中,所述步骤c包括:
-当所述语音数据为英文语音数据,根据单词模型所对应的中文语音信息,对所述英文语音数据进行语音识别处理,以获得与所述英文语音数据相对应的单词发音信息。
3.根据权利要求1所述的方法,其中,所述步骤c包括:
-当所述语音数据为英文语音数据,根据字母模型所对应的中文语音信息,对所述英文语音数据进行语音识别处理,以获得与所述英文语音数据相对应的字母发音信息。
4.根据权利要求1至3中任一项所述的方法,其中,该方法还包括:
-统计所述英文数据所对应的英文语音数据在所述语音数据中的出现次数;
-根据所述出现次数,并结合所述语音数据的数量信息,确定所述英文数据的概率值;
-根据所述概率值,更新所述英文语音模型。
5.根据权利要求4所述的方法,其中,该方法还包括:
-当所述出现次数大于预定数量阈值,自所述英文语音模型中提取所述英文数据与所述英文语音数据;
r根据所述英文数据与所述英文语音数据的映射关系,建立或更新与所述英文语音数据相对应的英文语音单元。
6.根据权利要求5所述的方法,其中,所述步骤r包括:
-根据所述英文数据与所述英文语音数据的映射关系,采用插值计算方法,建立或更新所述英文语音单元。
7.根据权利要求5或6所述的方法,其中,该方法还包括:
-根据所述英文语音数据及与该英文语音数据相对应的发音信息,更新所述英文语音单元。
8.根据权利要求1至7中任一项所述的方法,其中,该方法还包括:
x获取所述用户为目标应用输入的单词语音序列;
y根据所述英文语音模型,确定与所述单词语音序列相对应的英文字符序列;
z将与所述英文字符序列相对应的信息提供给所述用户。
9.根据权利要求8所述的方法,其中,所述目标应用为语音输入应用;
其中,所述步骤z包括:
-将所述英文字符序列作为语音输入候选词条提供给所述用户。
10.根据权利要求8所述的方法,其中,所述目标应用为语音搜索应用;
其中,该方法还包括:
-将所述英文字符序列作为所述用户的查询序列,获取与所述查询序列相对应的一个或多个搜索结果;
其中,所述步骤z包括:
-将所述一个或多个搜索结果提供给所述用户。
11.根据权利要求8至10中任一项所述的方法,其中,所述步骤x包括:
-获取所述用户为目标应用输入的字母语音序列;
其中,所述步骤y包括:
-根据所述英文语音模型,确定与所述字母语音序列相对应的英文字符序列。
12.一种用于基于中文语音信息训练英文语音模型的模型训练设备,其中,该设备包括:
语音获取装置,用于获取用户通过语音采集装置输入的语音数据;
英文判断装置,用于判断所述语音数据是否为英文语音数据;
语音识别装置,用于当所述语音数据为英文语音数据,根据中文语音信息,对所述英文语音数据进行语音识别处理,以获得与所述英文语音数据相对应的发音信息;
模型训练装置,用于根据所述发音信息,确定所述英文语音数据所对应的英文数据,以建立或更新英文语音模型,其中,所述发音信息与所述英文数据通过所述中文语音信息相映射。
13.根据权利要求12所述的模型训练设备,其中,所述语音识别装置用于:
-当所述语音数据为英文语音数据,根据单词模型所对应的中文语音信息,对所述英文语音数据进行语音识别处理,以获得与所述英文语音数据相对应的单词发音信息。
14.根据权利要求12所述的模型训练设备,其中,所述语音识别装置用于:
-当所述语音数据为英文语音数据,根据字母模型所对应的中文语音信息,对所述英文语音数据进行语音识别处理,以获得与所述英文语音数据相对应的字母发音信息。
15.根据权利要求12至14中任一项所述的模型训练设备,其中,该设备还包括模型更新装置,用于:
-统计所述英文数据所对应的英文语音数据在所述语音数据中的出现次数;
-根据所述出现次数,并结合所述语音数据的数量信息,确定所述英文数据的概率值;
-根据所述概率值,更新所述英文语音模型。
16.根据权利要求15所述的模型训练设备,其中,该设备还包括:
数据提取装置,用于当所述出现次数大于预定数量阈值,自所述英文语音模型中提取所述英文数据与所述英文语音数据;
单元训练装置,用于根据所述英文数据与所述英文语音数据的映射关系,建立或更新与所述英文语音数据相对应的英文语音单元。
17.根据权利要求16所述的模型训练设备,其中,所述单元训练装置用于:
-根据所述英文数据与所述英文语音数据的映射关系,采用插值计算方法,建立或更新所述英文语音单元。
18.根据权利要求16或17所述的模型训练设备,其中,该设备还包括单元更新装置,用于:
-根据所述英文语音数据及与该英文语音数据相对应的发音信息,更新所述英文语音单元。
19.根据权利要求12至18中任一项所述的模型训练设备,其中,该设备还包括:
序列获取装置,用于获取所述用户为目标应用输入的单词语音序列;
序列确定装置,用于根据所述英文语音模型,确定与所述单词语音序列相对应的英文字符序列;
信息提供装置,用于将与所述英文字符序列相对应的信息提供给所述用户。
20.根据权利要求19所述的模型训练设备,其中,所述目标应用为语音输入应用;
其中,所述信息提供装置用于:
-将所述英文字符序列作为语音输入候选词条提供给所述用户。
21.根据权利要求19所述的模型训练设备,其中,所述目标应用为语音搜索应用;
其中,该设备还包括:
搜索获取装置,用于将所述英文字符序列作为所述用户的查询序列,获取与所述查询序列相对应的一个或多个搜索结果;
其中,所述信息提供装置用于:
-将所述一个或多个搜索结果提供给所述用户。
22.根据权利要求19至21中任一项所述的模型训练设备,其中,所述序列获取装置用于:
-获取所述用户为目标应用输入的字母语音序列;
其中,所述序列确定装置用于:
-根据所述英文语音模型,确定与所述字母语音序列相对应的英文字符序列。
CN201210299700.6A 2012-08-21 2012-08-21 一种基于中文语音信息训练英文语音模型的方法与设备 Active CN103632668B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210299700.6A CN103632668B (zh) 2012-08-21 2012-08-21 一种基于中文语音信息训练英文语音模型的方法与设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210299700.6A CN103632668B (zh) 2012-08-21 2012-08-21 一种基于中文语音信息训练英文语音模型的方法与设备

Publications (2)

Publication Number Publication Date
CN103632668A true CN103632668A (zh) 2014-03-12
CN103632668B CN103632668B (zh) 2018-07-27

Family

ID=50213645

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210299700.6A Active CN103632668B (zh) 2012-08-21 2012-08-21 一种基于中文语音信息训练英文语音模型的方法与设备

Country Status (1)

Country Link
CN (1) CN103632668B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104951100A (zh) * 2015-06-23 2015-09-30 小米科技有限责任公司 字符输入方法及装置
CN105070289A (zh) * 2015-07-06 2015-11-18 百度在线网络技术(北京)有限公司 英文人名识别方法和装置
CN105244027A (zh) * 2015-08-31 2016-01-13 百度在线网络技术(北京)有限公司 生成谐音文本的方法和系统
WO2018086033A1 (en) * 2016-11-10 2018-05-17 Nuance Communications, Inc. Techniques for language independent wake-up word detection
CN110797009A (zh) * 2018-07-17 2020-02-14 上海航空电器有限公司 一种针对巴基斯坦口音英语的飞机座舱指令识别装置
US11087750B2 (en) 2013-03-12 2021-08-10 Cerence Operating Company Methods and apparatus for detecting a voice command
US11437020B2 (en) 2016-02-10 2022-09-06 Cerence Operating Company Techniques for spatially selective wake-up word recognition and related systems and methods
US11600269B2 (en) 2016-06-15 2023-03-07 Cerence Operating Company Techniques for wake-up word recognition and related systems and methods

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006092994A (ja) * 2004-09-27 2006-04-06 Yazaki Corp 端子
CN101593173A (zh) * 2008-05-28 2009-12-02 中国科学院自动化研究所 一种汉英反向音译方法及装置
CN101650943A (zh) * 2008-12-19 2010-02-17 中国科学院声学研究所 一种非母语语音识别系统及方法
CN101826325A (zh) * 2010-03-10 2010-09-08 华为终端有限公司 对中英文语音信号进行识别的方法和装置
CN102193643A (zh) * 2010-03-15 2011-09-21 北京搜狗科技发展有限公司 一种文字输入方法和具有翻译功能的输入法系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006092994A (ja) * 2004-09-27 2006-04-06 Yazaki Corp 端子
CN101593173A (zh) * 2008-05-28 2009-12-02 中国科学院自动化研究所 一种汉英反向音译方法及装置
CN101650943A (zh) * 2008-12-19 2010-02-17 中国科学院声学研究所 一种非母语语音识别系统及方法
CN101826325A (zh) * 2010-03-10 2010-09-08 华为终端有限公司 对中英文语音信号进行识别的方法和装置
CN102193643A (zh) * 2010-03-15 2011-09-21 北京搜狗科技发展有限公司 一种文字输入方法和具有翻译功能的输入法系统

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11087750B2 (en) 2013-03-12 2021-08-10 Cerence Operating Company Methods and apparatus for detecting a voice command
US11393461B2 (en) 2013-03-12 2022-07-19 Cerence Operating Company Methods and apparatus for detecting a voice command
US11676600B2 (en) 2013-03-12 2023-06-13 Cerence Operating Company Methods and apparatus for detecting a voice command
CN104951100A (zh) * 2015-06-23 2015-09-30 小米科技有限责任公司 字符输入方法及装置
CN105070289A (zh) * 2015-07-06 2015-11-18 百度在线网络技术(北京)有限公司 英文人名识别方法和装置
CN105244027A (zh) * 2015-08-31 2016-01-13 百度在线网络技术(北京)有限公司 生成谐音文本的方法和系统
CN105244027B (zh) * 2015-08-31 2019-10-15 百度在线网络技术(北京)有限公司 生成谐音文本的方法和系统
US11437020B2 (en) 2016-02-10 2022-09-06 Cerence Operating Company Techniques for spatially selective wake-up word recognition and related systems and methods
US11600269B2 (en) 2016-06-15 2023-03-07 Cerence Operating Company Techniques for wake-up word recognition and related systems and methods
WO2018086033A1 (en) * 2016-11-10 2018-05-17 Nuance Communications, Inc. Techniques for language independent wake-up word detection
US11545146B2 (en) 2016-11-10 2023-01-03 Cerence Operating Company Techniques for language independent wake-up word detection
CN110797009A (zh) * 2018-07-17 2020-02-14 上海航空电器有限公司 一种针对巴基斯坦口音英语的飞机座舱指令识别装置

Also Published As

Publication number Publication date
CN103632668B (zh) 2018-07-27

Similar Documents

Publication Publication Date Title
CN103632668A (zh) 一种基于中文语音信息训练英文语音模型的方法与设备
CN107086040B (zh) 语音识别能力测试方法和装置
CN107622054B (zh) 文本数据的纠错方法及装置
CN103247291A (zh) 一种语音识别设备的更新方法、装置及系统
CN102831891B (zh) 一种语音数据处理方法及系统
CN106875949B (zh) 一种语音识别的校正方法及装置
CN104078044A (zh) 移动终端及其录音搜索的方法和装置
KR20160006464A (ko) 멀티-레벨 음성 인식 방법 및 장치
CN103369122A (zh) 语音输入方法及系统
CN110600002B (zh) 语音合成方法、装置及电子设备
CN104464720A (zh) 以语音识别来选择控制客体的装置及方法
CN109448704A (zh) 语音解码图的构建方法、装置、服务器和存储介质
CN103955454A (zh) 一种在白话文与文言文之间进行文体转换的方法和设备
CN103106061A (zh) 语音输入方法和装置
CN105845133A (zh) 语音信号处理方法及装置
KR20190024148A (ko) 음성 인식 장치 및 음성 인식 방법
CN114783424A (zh) 文本语料筛选方法、装置、设备及存储介质
CN103559289A (zh) 语种无关的关键词检索方法及系统
CN115455946A (zh) 语音识别纠错方法、装置、电子设备和存储介质
CN111710328B (zh) 语音识别模型的训练样本选取方法、装置及介质
CN111680514B (zh) 信息处理和模型训练方法、装置、设备及存储介质
CN105513612A (zh) 语言词汇的音频处理方法及装置
CN107910005A (zh) 交互文本的目标业务定位方法及装置
CN111046674A (zh) 语义理解方法、装置、电子设备和存储介质
KR102267276B1 (ko) 학습데이터 확장 및 후처리 정제 기능을 가지는 음성 텍스트 변환 시스템 및 방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
EXSB Decision made by sipo to initiate substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant