CN110570843A - 一种用户语音识别方法和装置 - Google Patents
一种用户语音识别方法和装置 Download PDFInfo
- Publication number
- CN110570843A CN110570843A CN201910578720.9A CN201910578720A CN110570843A CN 110570843 A CN110570843 A CN 110570843A CN 201910578720 A CN201910578720 A CN 201910578720A CN 110570843 A CN110570843 A CN 110570843A
- Authority
- CN
- China
- Prior art keywords
- user
- model
- initial
- language model
- acoustic model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 38
- 238000012549 training Methods 0.000 claims abstract description 67
- 238000004590 computer program Methods 0.000 claims description 13
- 230000000694 effects Effects 0.000 abstract description 3
- 238000013475 authorization Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 240000007594 Oryza sativa Species 0.000 description 1
- 235000007164 Oryza sativa Nutrition 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 235000012054 meals Nutrition 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 235000009566 rice Nutrition 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 210000004291 uterus Anatomy 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/065—Adaptation
- G10L15/07—Adaptation to the speaker
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/187—Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
Landscapes
- Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
本发明公开了一种用户语音识别方法和装置,所述方法包括:根据用户的声纹识别用户,得到用户ID;根据用户ID判断该用户是否为首次接入用户;如果该用户是首次接入用户,则根据该用户的声纹特征获得用户特征数据,根据用户特征数据加载对应的初始声学模型和初始语言模型,并将所述用户的初始声学模型和/或初始语言模型分享到特定群体中进行训练,得到与该用户对应的声学模型和语言模型;如果该用户不是首次接入用户,则根据该用户ID,分别加载与该用户对应的声学模型和语言模型。通过本发明的方法和装置,解决了不同用户由于发音习惯,说话习惯,使用场景新词而导致的识别效果差的问题。
Description
技术领域
本发明实施例涉及语音识别技术领域,特别涉及一种用户语音识别方法和 装置。
背景技术
语音识别系统的模型通常由声学模型和语言模型两部分组成,分别对应于语 音到音节概率的计算和音节到字概率的计算。目前的语音识别中使用的声学模 型和语言模型大都是通用模型,例如,隐马尔可夫模型HMM和N-Gram。
但是目前的语音识别引擎识别效果还不够准确,通用模型往往解决不了用 户的发音习惯和说话习惯问题,例如当用户说话语速较快或者使用发言导致前 后鼻音不分,发不了翘舌音等,又或者用户的语言习惯不完全符合语法,如导 航去某地点,我要去,推荐吃饭的地方,附近有哪些好吃的等等,利用现有的 这些通用模型无法准确识别。
发明内容
针对现有技术中的问题,本发明提供一种用户语音识别方法和装置。
本发明提供一种用户语音识别方法,其特征在于:
步骤100,根据用户的声纹识别用户,得到用户ID;
步骤101,根据用户ID判断该用户是否为首次接入用户;
步骤102,如果该用户是首次接入用户,则根据该用户的声纹特征获得用户 特征数据,根据用户特征数据加载对应的初始声学模型和初始语言模型;
步骤103,如果该用户不是首次接入用户,则根据该用户ID,分别加载与 该用户对应的声学模型和语言模型。
进一步的,所述步骤102之后还包括步骤1021,对所述初始声学模型和初 始语言模型进行训练,得到与该用户对应的声学模型和语言模型。
进一步的,所述步骤1021中,所述对初始声学模型和初始语言模型进行训 练,得到与该用户对应的声学模型和语言模型具体为:
根据该用户的语音识别记录该用户的常用高频词和/或不同场景常用的前 缀词,积累用户数据,持续调整所述初始语言模型以得到与该用户对应的声学 模型和语言模型。
优选的,所述步骤1021中,还包括将所述用户的初始声学模型和/或初始 语言模型分享到特定群体中进行训练。
进一步的,所述用户将初始声学模型和/或初始语言模型分享到特定群体中 进行训练具体为:
所述用户将所述初始声学模型分享到与该用户具有相同或相似发音习惯的 群体中进行训练;和/或所述用户将所述初始语言模型分享到与该用户具有相同 或相似的语言习惯的群体中进行训练。
进一步的,所述根据用户特征数据加载对应的初始声学模型和初始语言模 型具体为通过声纹识别所述用户的地域和/或性别和/或年龄,对应的加载初始 声学模型。
进一步的,所述用户向特定群体或其他用户分享与所述用户对应的语言模 型或声学模型;和/或,所述用户调用其他群体或其他用户的语言模型作为该用 户的初始语言模型和/或所述用户调用其他群体或其他用户的声学模型作为该 用户的初始声学模型。
本发明提供一种用户语音识别装置,其特征在于,所述装置包括:
识别模块,根据用户的声纹识别用户,得到用户ID;
判断模块,根据用户ID判断该用户是否为首次接入用户;
模型加载模块,如果该用户是首次接入用户,则根据该用户的声纹特征获 得用户特征数据,根据用户特征数据加载对应的初始声学模型和初始语言模型; 如果该用户不是首次接入用户,则根据该用户ID,分别加载与该用户对应的声 学模型和语言模型。
进一步的,还包括模型训练模块,用于对所述初始声学模型和初始语言模 型进行训练,得到与该用户对应的声学模型和语言模型。
进一步的,所述模型训练模块,用于对所述初始声学模型和初始语言模型 进行训练,得到与该用户对应的声学模型和语言模型具体为:
根据该用户的语音识别记录该用户的常用高频词和/或不同场景常用的前 缀词,积累用户数据,持续调整所述初始语言模型以得到与该用户对应的声学 模型和语言模型。
优选的,所述模型训练模块,还包括模型分享模块,用于将所述用户的初 始声学模型和/或初始语言模型分享到特定群体中进行训练。
进一步的,所述模型分享模块用于将所述用户的初始声学模型和/或初始语 言模型分享到特定群体中进行训练具体为:
所述用户将所述初始声学模型分享到与该用户具有相同或相似发音习惯的 群体中进行训练;和/或所述用户将所述初始语言模型分享到与该用户具有相同 或相似的语言习惯的群体中进行训练。
进一步的,所述根据用户特征数据加载对应的初始声学模型和初始语言模 型具体为通过声纹识别所述用户的地域和/或性别和/或年龄,对应的加载初始 声学模型。
进一步的,所述模型分享模块还用于所述用户向特定群体或其他用户分享 与所述用户对应的语言模型或声学模型;和/或,所述用户调用其他群体或其他 用户的语言模型作为该用户的初始语言模型和/或所述用户调用其他群体或其 他用户的声学模型作为该用户的初始声学模型。
本发明还提供一种用户语音识别装置,其特征在于,所述装置包括处理器 和存储器,所述存储器中存储有可在处理器上运行的计算机程序,所述计算机 程序在被所述处理器执行时实现如前所述的方法。
本发明还提供一种计算机可读存储介质,其特征在于,所述计算机可读存 储介质中存储有可在处理器上运行的计算机程序、所述计算机程序在被执行时 实现如前所述的方法。
本发明还提供一种车辆,其特征在于,所述车辆包括:如权利要求8-14任 一项所述的装置。
本发明还提供一种终端,其特征在于,所述终端包括:如权利要求8-14任 一项所述的装置。
通过本发明的方法和装置,解决了不同用户由于发音习惯,说话习惯,使 用场景新词而导致的识别效果差的问题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施 例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述 中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造 性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一个实施例中的用户语音识别方法。
图2是本发明一个实施例中的用户语音识别装置。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明 实施方式作进一步地详细描述。本发明的实施例以及实施例的具体特征是对本 发明实施例技术方案的详细说明,而非对本发明说明书技术方案的限定,在不 冲突的情况下,本发明的实施例以及实施例的技术特征可以相互结合。
以下对本发明的用户语音识别方法进行说明,参见图1,所述方法包括如下 步骤:
步骤100,根据用户的声纹识别用户,得到用户ID;
步骤101,根据用户ID判断该用户是否为首次接入用户;
步骤102,如果该用户是首次接入用户,则根据该用户的声纹特征获得用户 特征数据,根据用户特征数据加载对应的初始声学模型和初始语言模型;
步骤103,如果该用户不是首次接入用户,则根据该用户ID,分别加载与 该用户对应的声学模型和语言模型。
具体的,步骤100中,通过声纹识别技术识别用户的声纹特征,根据声纹 特征生成用户ID信息。声纹特征生成用户ID信息的方法是不变的,保证用户 的声纹特征和用户ID具有唯一的对应关系。本领域技术人员能够利用现有技术 生成用户ID。例如,对声纹特征进行量化编码得到用户ID,也可以利用其他算 法得到用户ID。
优选的,步骤101中,将所有已接入用户ID存储在已接入用户ID列表中, 利用所述用户的用户ID在所述已接入用户ID列表中查找是否有匹配的用户ID, 根据查找结果判断该用户是否首次接入;如果查找到匹配的用户ID,则判断所 述用户不是首次接入用户,如果没有查找到匹配的用户ID,则判断该用户是首 次接入用户,并将该首次接入用户ID存储到已接入用户ID列表中。
步骤102,如果该用户是首次接入用户,则根据该用户的声纹特征获得用户 特征数据,根据用户特征数据加载对应的初始声学模型和初始语言模型;具体 的,如果该用户是首次接入用户,分析该用户的声纹特征,获得包括用户的性 别、年龄、地域等数据的用户特征数据,根据用户特征数据在通用模型库中或 公共模型库中获得匹配度最高的声学模型和语言模型,作为该用户的初始声学 模型和初始语言模型进行加载。通用模型库或公共模型库存有大量的开放模型, 开放模型指的是允许用户利用特定的语音识别结果或语料进行进一步训练的模 型,该模型可以是采用了现有技术的任意模型算法的通用模型。
例如,根据声纹特征分析出该用户为25岁左右的上海女性,在通用模型库 或公共模型库中匹配到声学模型11和语言模型11与之最匹配。则加载该声学 模型11和语言模型11作为该用户的初始声学模型和初始语言模型。初始声学 模型和初始语言模型是根据用户的特征数据确定的模型,与用户具有一定的匹 配度,但是不能完全满足用户的定制化需求,还需要对其进行进一步的训练, 使其成为与该用户的匹配度高、满足该用户的使用习惯和个性化需求的模型。
进一步的,所述步骤102之后还包括步骤1021,对所述初始声学模型和初 始语言模型进行训练,得到与该用户对应的声学模型和语言模型。通过对初始 声学模型和初始语言模型进行训练,使其匹配该用户的发声习惯和语言习惯。 在对初始声学模型和初始语言模型进行训练时,可以利用该用户的语音识别进 行训练。具体的利用用户的语音识别结果进行训练,用户的语音识别结果,可 以共享用户使用任意涉及语音识别应用的识别结果,例如将使用语音订餐、语 音订票等应用的识别结果用来训练模型,也可以专用于模型训练的该用户语音 输入的识别结果。
进一步的,所述步骤1021中,所述对初始声学模型和初始语言模型进行训 练,得到与该用户对应的声学模型和语言模型具体为:
根据该用户的语音识别记录该用户的高频词和/或不同场景常用的前缀词, 积累用户数据,持续调整所述初始语言模型以得到与该用户对应的声学模型和 语言模型。
高频词是指用户使用频次较高的词,例如“小蓦”、“订饭”、“导去” 等等,高频词的使用习惯能够反映出用户的语言习惯。通过大量高频词来训练 语言模型,能够更加贴近用户的使用习惯,满足个性化需求。
优选的,还记录该用户在不同场景下常用的前缀词,能够更好的识别说话 人的语言。例如,在订票场景下,该用户习惯使用“我要看***”来表达“订*** 电影票”的需求,通过识别“我要看”,预先知道了用户要看电影,在继续识 别的时候可以直接加载电影列表出现的新词,更好的识别电影名。比如“我要 看《你好,之华》”。又例如,在导航场景下,该用户习惯使用“走去***”来 表达导航目的地,通过识别“走去”,预先获知用户要导航到某一个地点,在 继续识别的时候可以直接加载目的地名词,更好的识别目的地。比如“走去故 宫”。
通过上述方法,能够训练出符合该用户发声习惯和语言习惯的模型。但是, 仅使用该用户个人的语音识别结果往往训练效率不高,需要较长的时间才能训 练出成熟的模型,无法满足用于需求。本发明进一步提出一种声学模型和语言 模型的共享训练方法。
所述声学模型和语言模型的共享训练方法包括:步骤200、用户建立初始声 学模型和初始语言模型,其中用户可以通过调用现有模型的方法建立初始声学 模型和初始语言模型;步骤201、将所述用户的初始声学模型和语言模型共享给 与该用户关联的包括一个或多个其他用户的一个或多个特定群体中;步骤202、 获得所述一个或多个其他用户的授权;203、利用所述一个或多个其他用户的语 音识别结果对所述初始声学模型和初始语言模型进行训练,得到共享声学模型 和共享语言模型;步骤204、所述用户和所述一个或多个其他用户再次使用或再 次分享所述共享声学模型和共享语言模型。
优选的,步骤201中,所述用户通过网络共享所述初始模型,所述网络包 括但不限于公共或专用的社交网络、社交平台、即时通信系统、互联网、蜂窝 网等,特定群体包括但不限于一个或多个其他用户或一个或多个用户群体,例 如朋友圈、微信群等。也可以建立专用的可共享的声学模型和语言模型训练平 台,所述用户通过该专用的训练平台共享所述模型。
优选的,步骤202是可选步骤。步骤202中,一个或多个其他用户或用户 群体,可以通过响应所述用户的授权请求,或通过登录训练平台来授权所述共 享模型获得其语音识别结果。
优选的,步骤204中,所述一个或多个其他用户再次使用或再次分享所述 共享声学模型和共享语言模型需要获得所述用户的授权。
例如,用户A来自四川,他希望快速训练一个符合他发声习惯、能够识别 他的方言的声学模型,他首先从声学模型库中调用一个四川话的通用声学模型 作为初始声学模型;然后将该初始声学模型通过即使通信软件共享特定群体, 例如共享给他的家庭群,以请求该特定群体的成员也即家庭成员帮助他对该初 始声学模型进行训练,或者他将该初始声学模型上传到专用训练平台,并将该 模型在专用训练平台的ID号发送给他家庭群的成员,以请求家庭成员帮助他对 该初始声学模型进行训练,同意该请求的家庭成员可以通过特定操作授权该初 始模型获得自身的全部或某些特定的语音识别,例如,他的姐姐同意该模型获 得她的订餐软件的语音识别结果。不同意该请求的家庭成员可以不响应或拒绝 该请求。所述初始声学模型根据所述特定群体成员的响应自动开始训练。优选 的,所述用户A可以中止或终止所述训练。
同时,用户A还需要训练符合他语言习惯的语言模型,他可以一个或多个 在特定主题下与他有相似语言习惯的群体帮助他训练语言模型,例如,选择他 的健身群、自驾游群等帮助训练语言模型。特定场景群的聊天语言通常主要涉 及某个特定主题,例如,健身群的成员的聊天内容主要围绕健身主题,在该主 题下,群成员使用的语言习惯相同或相似,以此训练的语言模型符合该用户A 在健身主题下的语言习惯。用户A通过将初始语言模型分享到多个不同的特定 群体,能够快速训练得到在不同场景或不同主题下均符合其语言习惯的语言模 型。
优选的,允许用户A的所在群的成员选择是否帮助用户A训练其初始发声 模型或初始语言模型,具体的,其他成员通过响应用户A的共享训练请求来决 定是否对训练进行授权。当其他成员同意用户A的共享训练请求时,可以响应 同意,当其他成员不同意用户A的共享训练请求时,可以响应拒绝或不响应。 当有其他成员不同意用户A的共享训练请求时,该初始模型无法获得该其他成 员的语音识别结果。
优选的,该共享训练方法还允许用户A或其授权的其他用户分享训练中的, 或者训练完成后的发声模型和语言模型。被分享的其他用户可以直接使用该发 声模型和语言模型,也可以进一步训练该发声模型和语言模型。
优选的,上述声学模型和语言模型的共享训练方法可以应用到本发明的语 音识别方法中。例如,在所述步骤1021中,还包括将所述用户的初始声学模型 和/或初始语言模型分享到特定群体中进行训练。
进一步的,所述用户将初始声学模型和/或初始语言模型分享到特定群体中 进行训练具体为:
所述用户将所述初始声学模型分享到与该用户具有相同或相似发音习惯的 群体中进行训练;和/或所述用户将所述初始语言模型分享到与该用户具有相同 或相似的语言习惯的群体中进行训练。
进一步的,所述根据用户特征数据加载对应的初始声学模型和初始语言模 型具体为通过声纹识别所述用户的地域和/或性别和/或年龄,对应的加载初始 声学模型和初始语言模型。
进一步的,本发明的语音识别方法还包括:所述用户向特定群体或其他用 户分享与所述用户对应的语言模型或声学模型;和/或,所述用户调用其他群体 或其他用户的语言模型作为该用户的初始语言模型和/或所述用户调用其他群 体或其他用户的声学模型作为该用户的初始声学模型。
通过本发明的方法,能够灵活的训练符合用户发声习惯和语言习惯的声学 模型和语言模型,通过共享训练的方式,允许用户选择特定的群体帮助其完成 声学模型和语言模型的训练,提高训练效率。
本发明还提供一种用户语音识别装置,参见图2,所述装置包括:
识别模块,根据用户的声纹识别用户,得到用户ID;
判断模块,根据用户ID判断该用户是否为首次接入用户;
模型加载模块,如果该用户是首次接入用户,则根据该用户的声纹特征获 得用户特征数据,根据用户特征数据加载对应的初始声学模型和初始语言模型; 如果该用户不是首次接入用户,则根据该用户ID,分别加载与该用户对应的声 学模型和语言模型。
进一步的,还包括模型训练模块,用于对所述初始声学模型和初始语言模 型进行训练,得到与该用户对应的声学模型和语言模型。
进一步的,所述模型训练模块,用于对所述初始声学模型和初始语言模型 进行训练,得到与该用户对应的声学模型和语言模型具体为:
根据该用户的语音识别记录该用户的高频词和/或不同场景常用的前缀词, 积累用户数据,持续调整所述初始语言模型以得到与该用户对应的声学模型和 语言模型。
优选的,所述模型训练模块,还包括模型分享模块,用于将所述用户的初 始声学模型和/或初始语言模型分享到特定群体中进行训练。
进一步的,所述模型分享模块用于将所述用户的初始声学模型和/或初始语 言模型分享到特定群体中进行训练具体为:
所述用户将所述初始声学模型分享到与该用户具有相同或相似发音习惯的 群体中进行训练;和/或所述用户将所述初始语言模型分享到与该用户具有相同 或相似的生活习惯或生活轨迹的群体中进行训练。
进一步的,所述根据用户特征数据加载对应的初始声学模型和初始语言模 型具体为通过声纹识别所述用户的地域和/或性别和/或年龄,对应的加载初始 声学模型和初始语言模型。
进一步的,所述模型分享模块还用于所述用户向特定群体或其他用户分享 与所述用户对应的语言模型或声学模型;和/或,所述用户调用其他群体或其他 用户的语言模型作为该用户的初始语言模型和/或所述用户调用其他群体或其 他用户的声学模型作为该用户的初始声学模型。
本发明还提供一种用户语音识别装置,其特征在于,所述装置包括处理器 和存储器,所述存储器中存储有可在处理器上运行的计算机程序,所述计算机 程序在被所述处理器执行时实现如前所述的方法。
本发明还提供一种计算机可读存储介质,其特征在于,所述计算机可读存 储介质中存储有可在处理器上运行的计算机程序、所述计算机程序在被执行时 实现如前所述的方法。
本发明还提供一种车辆,其特征在于,所述车辆包括如前所述的装置。
本发明还提供一种终端,其特征在于,所述终端包括如前所述的装置。
可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以 是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可 以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或 者任意以上的组合。计算机可读存储介质可以包括:具有一个或多个导线的电 连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、 闪存、可擦式可编程只读存储器(EPROM)、光纤、便携式紧凑磁盘只读存储器 (CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件 中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以 被指令执行系统、装置或者器件使用或者与其结合使用。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计 算机程序代码。
以上说明只是为了方便理解本发明而举出的例子,不用于限定本发明的范 围。在具体实现时,本领域技术人员可以根据实际情况对装置的部件进行变更、 增加、减少,在不影响方法所实现的功能的基础上可以根据实际情况对方法的 步骤进行变更、增加、减少或改变顺序。
尽管已经示出和描述了本发明的实施例,本领域技术人员应当理解:在不 脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替 换和变型,本发明的范围由权利要求及其等同替换所限定,在未经创造性劳动 所作的改进等,均应包含在本发明的保护范围之内。
Claims (18)
1.一种用户语音识别方法,其特征在于,所述方法包括:
步骤100,根据用户的声纹识别用户,得到用户ID;
步骤101,根据用户ID判断该用户是否为首次接入用户;
步骤102,如果该用户是首次接入用户,则根据该用户的声纹特征获得用户特征数据,根据用户特征数据加载对应的初始声学模型和初始语言模型;
步骤103,如果该用户不是首次接入用户,则根据该用户ID,分别加载与该用户对应的声学模型和语言模型。
2.根据权利要求1所述的方法,其特征在于,所述步骤102之后还包括步骤1021,对所述初始声学模型和初始语言模型进行训练,得到与该用户对应的声学模型和语言模型。
3.根据权利要求2所述的方法,其特征在于,所述步骤1021中,所述对初始声学模型和初始语言模型进行训练,得到与该用户对应的声学模型和语言模型具体为:
根据该用户的语音识别记录该用户的高频词和/或不同场景常用的前缀词,积累用户数据,持续调整所述初始语言模型以得到与该用户对应的声学模型和语言模型。
4.根据权利要求3所述的方法,其特征在于,所述步骤1021中,还包括将所述用户的初始声学模型和/或初始语言模型分享到特定群体中进行训练。
5.根据权利要求4所述的方法,其特征在于,所述用户将初始声学模型和/或初始语言模型分享到特定群体中进行训练具体为:
所述用户将所述初始声学模型分享到与该用户具有相同或相似发音习惯的群体中进行训练;和/或所述用户将所述初始语言模型分享到与该用户具有相同或相似的语言习惯的群体中进行训练。
6.根据权利要求1-5任一项所述的方法,其特征在于,所述根据用户特征数据加载对应的初始声学模型和初始语言模型具体为通过声纹识别所述用户的地域和/或性别和/或年龄,对应的加载初始声学模型和初始语言模型。
7.根据权利要求1-6任一项所述的方法,其特征在于,所述用户向特定群体或其他用户分享与所述用户对应的语言模型或声学模型;
和/或,所述用户调用其他群体或其他用户的语言模型作为该用户的初始语言模型和/或所述用户调用其他群体或其他用户的声学模型作为该用户的初始声学模型。
8.一种用户语音识别装置,其特征在于,所述装置包括:
识别模块,根据用户的声纹识别用户,得到用户ID;
判断模块,根据用户ID判断该用户是否为首次接入用户;
模型加载模块,如果该用户是首次接入用户,则根据该用户的声纹特征获得用户特征数据,根据用户特征数据加载对应的初始声学模型和初始语言模型;如果该用户不是首次接入用户,则根据该用户ID,分别加载与该用户对应的声学模型和语言模型。
9.根据权利要求8所述的装置,其特征在于,还包括模型训练模块,用于对所述初始声学模型和初始语言模型进行训练,得到与该用户对应的声学模型和语言模型。
10.根据权利要求9所述的装置,其特征在于,所述模型训练模块,用于对所述初始声学模型和初始语言模型进行训练,得到与该用户对应的声学模型和语言模型具体为:
根据该用户的语音识别记录该用户的高频词和/或不同场景常用的前缀词,积累用户数据,持续调整所述初始语言模型以得到与该用户对应的声学模型和语言模型。
11.根据权利要求10所述的装置,其特征在于,所述模型训练模块,还包括模型分享模块,用于将所述用户的初始声学模型和/或初始语言模型分享到特定群体中进行训练。
12.根据权利要求11所述的装置,其特征在于,所述模型分享模块,用于将所述用户的初始声学模型和/或初始语言模型分享到特定群体中进行训练具体为:
所述用户将所述初始声学模型分享到与该用户具有相同或相似发音习惯的群体中进行训练;和/或所述用户将所述初始语言模型分享到与该用户具有相同或相似的语言习惯的群体中进行训练。
13.根据权利要求8-12任一项所述的装置,其特征在于,所述根据用户特征数据加载对应的初始声学模型和初始语言模型具体为通过声纹识别所述用户的地域和/或性别和/或年龄,对应的加载初始声学模型和初始语言模型。
14.根据权利要求8-13任一项所述的装置,其特征在于,所述模型分享模块还用于所述用户向特定群体或其他用户分享与所述用户对应的语言模型或声学模型;
和/或,所述用户调用其他群体或其他用户的语言模型作为该用户的初始语言模型和/或所述用户调用其他群体或其他用户的声学模型作为该用户的初始声学模型。
15.一种用户语音识别装置,其特征在于,所述装置包括处理器和存储器,所述存储器中存储有可在处理器上运行的计算机程序,所述计算机程序在被所述处理器执行时实现如权利要求1-7任一项所述的方法。
16.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有可在处理器上运行的计算机程序、所述计算机程序在被执行时实现如权利要求1-7任一项所述的方法。
17.一种车辆,其特征在于,所述车辆包括:如权利要求8-14任一项所述的装置。
18.一种终端,其特征在于,所述终端包括:如权利要求8-14任一项所述的装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910578720.9A CN110570843B (zh) | 2019-06-28 | 2019-06-28 | 一种用户语音识别方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910578720.9A CN110570843B (zh) | 2019-06-28 | 2019-06-28 | 一种用户语音识别方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110570843A true CN110570843A (zh) | 2019-12-13 |
CN110570843B CN110570843B (zh) | 2021-03-05 |
Family
ID=68773744
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910578720.9A Active CN110570843B (zh) | 2019-06-28 | 2019-06-28 | 一种用户语音识别方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110570843B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111798838A (zh) * | 2020-07-16 | 2020-10-20 | 上海茂声智能科技有限公司 | 一种提高语音识别准确率的方法、系统、设备及存储介质 |
CN116597827A (zh) * | 2023-05-23 | 2023-08-15 | 苏州科帕特信息科技有限公司 | 一种目标语言模型确定方法及装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010175967A (ja) * | 2009-01-30 | 2010-08-12 | Ntt Docomo Inc | 音声認識サーバ、電話機、音声認識システム、および音声認識方法 |
US20130346077A1 (en) * | 2012-06-21 | 2013-12-26 | Google Inc. | Dynamic language model |
CN104778946A (zh) * | 2014-01-10 | 2015-07-15 | 中国电信股份有限公司 | 语音控制方法和系统 |
CN105096941A (zh) * | 2015-09-02 | 2015-11-25 | 百度在线网络技术(北京)有限公司 | 语音识别方法以及装置 |
CN105206258A (zh) * | 2015-10-19 | 2015-12-30 | 百度在线网络技术(北京)有限公司 | 声学模型的生成方法和装置及语音合成方法和装置 |
CN107507612A (zh) * | 2017-06-30 | 2017-12-22 | 百度在线网络技术(北京)有限公司 | 一种声纹识别方法及装置 |
-
2019
- 2019-06-28 CN CN201910578720.9A patent/CN110570843B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010175967A (ja) * | 2009-01-30 | 2010-08-12 | Ntt Docomo Inc | 音声認識サーバ、電話機、音声認識システム、および音声認識方法 |
US20130346077A1 (en) * | 2012-06-21 | 2013-12-26 | Google Inc. | Dynamic language model |
CN104778946A (zh) * | 2014-01-10 | 2015-07-15 | 中国电信股份有限公司 | 语音控制方法和系统 |
CN105096941A (zh) * | 2015-09-02 | 2015-11-25 | 百度在线网络技术(北京)有限公司 | 语音识别方法以及装置 |
CN105206258A (zh) * | 2015-10-19 | 2015-12-30 | 百度在线网络技术(北京)有限公司 | 声学模型的生成方法和装置及语音合成方法和装置 |
CN107507612A (zh) * | 2017-06-30 | 2017-12-22 | 百度在线网络技术(北京)有限公司 | 一种声纹识别方法及装置 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111798838A (zh) * | 2020-07-16 | 2020-10-20 | 上海茂声智能科技有限公司 | 一种提高语音识别准确率的方法、系统、设备及存储介质 |
CN116597827A (zh) * | 2023-05-23 | 2023-08-15 | 苏州科帕特信息科技有限公司 | 一种目标语言模型确定方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN110570843B (zh) | 2021-03-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10412206B1 (en) | Communications for multi-mode device | |
EP3676831B1 (en) | Natural language user input processing restriction | |
US11120790B2 (en) | Multi-assistant natural language input processing | |
JP6771805B2 (ja) | 音声認識方法、電子機器、及びコンピュータ記憶媒体 | |
US11734326B2 (en) | Profile disambiguation | |
US20240071382A1 (en) | Temporary account association with voice-enabled devices | |
US20220027507A1 (en) | Use of asr confidence to improve reliability of automatic audio redaction | |
US11455987B1 (en) | Multiple skills processing | |
CN113168832A (zh) | 交替响应生成 | |
US11574637B1 (en) | Spoken language understanding models | |
CN114051639A (zh) | 使用说话者基线进行情绪检测 | |
KR20180046780A (ko) | 이중 웨이크업을 이용한 음성 인식 서비스 제공 방법 및 이를 위한 장치 | |
US11205428B1 (en) | Deleting user data using keys | |
WO2018047421A1 (ja) | 音声処理装置、情報処理装置、音声処理方法および情報処理方法 | |
WO2020098523A1 (zh) | 一种语音识别方法、装置及计算设备 | |
US11862170B2 (en) | Sensitive data control | |
JP2004101901A (ja) | 音声対話装置及び音声対話プログラム | |
CN110570843B (zh) | 一种用户语音识别方法和装置 | |
US10866948B2 (en) | Address book management apparatus using speech recognition, vehicle, system and method thereof | |
KR102408455B1 (ko) | 음성 인식 학습을 위한 음성 데이터 합성 방법 및 이를 실행하기 위하여 기록매체에 기록된 컴퓨터 프로그램 | |
KR102389995B1 (ko) | 자연발화 음성 생성 방법 및 이를 실행하기 위하여 기록매체에 기록된 컴퓨터 프로그램 | |
KR102395399B1 (ko) | 음성 인식 학습을 위한 음성 데이터 분해 방법 및 이를 실행하기 위하여 기록매체에 기록된 컴퓨터 프로그램 | |
US11798538B1 (en) | Answer prediction in a speech processing system | |
CN109712606A (zh) | 一种信息获取方法、装置、设备及存储介质 | |
US11430435B1 (en) | Prompts for user feedback |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |