CN111081254A - 一种语音识别方法和装置 - Google Patents

一种语音识别方法和装置 Download PDF

Info

Publication number
CN111081254A
CN111081254A CN201911367380.1A CN201911367380A CN111081254A CN 111081254 A CN111081254 A CN 111081254A CN 201911367380 A CN201911367380 A CN 201911367380A CN 111081254 A CN111081254 A CN 111081254A
Authority
CN
China
Prior art keywords
word
model
voice
wake
awakening
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911367380.1A
Other languages
English (en)
Other versions
CN111081254B (zh
Inventor
周鹏
宋碧霄
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
AI Speech Ltd
Original Assignee
AI Speech Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by AI Speech Ltd filed Critical AI Speech Ltd
Priority to CN201911367380.1A priority Critical patent/CN111081254B/zh
Publication of CN111081254A publication Critical patent/CN111081254A/zh
Application granted granted Critical
Publication of CN111081254B publication Critical patent/CN111081254B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/34Adaptation of a single recogniser for parallel processing, e.g. by use of multiple processors or cloud computing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/32Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0635Training updating or merging of old and new templates; Mean values; Weighting

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Telephonic Communication Services (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种语音识别的方法,应用于云端服务器,该方法包括:接收客户端发送的语音识别请求;获取所述语音识别请求中携带的唤醒词文本数据;根据所述唤醒词文本构建对应的唤醒词模型;将所述唤醒词模型和通用语言模型连接;使用所述连接后的唤醒词模型和通用语言模型对所述语音识别请求中携带的语音进行识别。

Description

一种语音识别方法和装置
技术领域
本发明涉及语音识别技术,尤其涉及一种语音识别方法和装置。
背景技术
在语音识别中有一种类型叫oneshot(一语即达)语音识别,即,用户在说唤醒词后,马上说意图,本地唤醒系统在成功唤醒的同时,对意图进行识别,或将唤醒词和意图上传云端进行识别。如“你好小驰,明天天气怎么样?”,其中“你好小驰”是唤醒词,“明天天气怎么样”是意图。目前,为了提高唤醒词的识别率,通常的做法:一种是在训练语言模型阶段,加入唤醒词语料,和通用语料一起训练出一个语言模型;另一种是使用唤醒词语料训练出单独的唤醒词模型,然后和通用语言模型进行插值,从而获得一个含有唤醒词的通用语言模型来满足这种oneshot语音识别方式。这里,通用语言模型是指训练语言模型的语料来源比较广泛(即通用语料),训练出来的模型泛化能力比较好(能大概率的正确识别常用的说法)。
但是,上述两种方式均存在如下的问题:
目前市场上带语音功能的设备层出不穷,每个设备都有自己的唤醒词,因此唤醒词越来越多,每推出一个新的设备,或者一个设备出现一个新的唤醒词,服务于多种设备的共有云都需要针对该设备的唤醒词重新训练语言模型,而采用上述的方式进行oneshot语音识别的模型训练的开销非常大。
另外,唤醒词越来越多,会影响通用语言模型的识别率,这是因为:唤醒词模型和通用语言模型存在竞争关系,唤醒词模型会对通用语言模型产生干扰,比如唤醒词中有“你好小狸”,那么想识别出“你好小李”就很困难;另一方面会造成唤醒词之间的相互影响,如同音词之间的串词。由此造成oneshot语音识别率较低。
发明内容
本发明提供一种语音识别方法,以解决上述的技术问题。
本发明一方面提供一种语音识别的方法,应用于云端服务器,该方法包括:
接收客户端发送的语音识别请求;
获取所述语音识别请求中携带的唤醒词文本数据;
根据所述唤醒词文本构建对应的唤醒词模型;
将所述唤醒词模型和通用语言模型连接;
使用所述连接后的唤醒词模型和通用语言模型对所述语音识别请求中携带的语音进行识别。
其中,所述获取所述语音识别请求中携带的唤醒词文本,包括:
所述语音识别请求中包含唤醒词参数,若所述唤醒词参数的值不为空,则获取所述唤醒词参数的值作为所述唤醒词文本数据;
所述唤醒词文本数据表征一个或多个唤醒词,所述一个或多个唤醒词为所述客户端使用的一个或多个唤醒词。
其中,所述唤醒词模型和所述通用语言模型通过WFST图表示,所述将所述唤醒词模型和通用语言模型连接,包括:
在所述唤醒词模型的终止状态节点和所述通用语言模型的起始状态节点之间增加一条无条件跳转边。
其中,若所述唤醒词参数的值不为空,则所述语音识别请求中携带的语音包括两部分语音,其中,第一部分语音为唤醒词语音,第二部分语音在所述唤醒词语音之后;
所述使用所述连接后的唤醒词模型和通用语言模型对所述语音识别请求中携带的语音进行识别,包括:
通过唤醒词模型识别出所述语音中的唤醒词语音后,跳转到通用语言模型,通过通用语言模型识别出所述唤醒语音之后的第二部分语音。
其中,若所述唤醒词参数的值为空,所述使用所述连接后的唤醒词模型和通用语言模型对所述语音识别请求中携带的语音进行识别,包括:
跳过所述唤醒词模型,使用所述通用语言模型对所述语音识别请求中携带的语音进行识别。
本发明另一方面提供一种语音识别的装置,应用于云端服务器,该装置包括:
交互模块,用于接收客户端发送的语音识别请求;
处理模型,用于获取所述语音识别请求中携带的唤醒词文本数据;
模型构建模块,用于根据所述唤醒词文本构建对应的唤醒词模型,并将所述唤醒词模型和通用语言模型连接;
识别模块,用于使用所述连接后的唤醒词模型和通用语言模型对所述语音识别请求中携带的语音进行识别。
其中,所述语音识别请求中包含唤醒词参数,
所述处理模块,还用于法确定所述唤醒词参数的值不为空时,获取所述唤醒词参数的值作为所述唤醒词文本数据;
所述唤醒词文本数据表征一个或多个唤醒词,所述一个或多个唤醒词为所述客户端使用的一个或多个唤醒词。
其中,所述唤醒词模型和所述通用语言模型通过WFST图表示,
所述模型构建模块,还用于在所述唤醒词模型的终止状态节点和所述通用语言模型的起始状态节点之间增加一条无条件跳转边,实现所述唤醒词模型和所述通用语言模型的连接。
其中,所述唤醒词参数的值不为空时,所述语音识别请求中携带的语音包括两部分语音,其中,第一部分语音为唤醒词语音,第二部分语音在所述唤醒词语音之后;
所述识别模块,还用于通过唤醒词模型识别出所述语音中的唤醒词语音后,跳转到通用语言模型,通过通用语言模型识别出所述唤醒语音之后的第二部分语音。
其中,若所述唤醒词参数的值为空,
所述识别模块,还用于跳过所述唤醒词模型,使用所述通用语言模型对所述语音识别请求中携带的语音进行识别。
在上述语音识别过程中,基于客户端的唤醒词单独进行模型训练,首先训练的过程较为简单,开销较低;其次,将该唤醒词模型和已经较成熟的通用语言模型连接,基于这样的新的模型在识别oneshot语音时,可以实现使用唤醒词模型对语音中的唤醒词语音进行识别,使用通用语言模型对语音中除唤醒词部分的其他语音进行识别,两部分语音的识别互不干扰,且各部分的识别正确率提高,则oneshot语音的整体识别率有了极大的提高。另外,两部分模型是分开训练,相比现有技术中将唤醒词和通用预料交叉训练的方式而言,降低了模型训练的开销。
附图说明
图1所示为本发明一实施例提供的语音识别方法流程示意图;
图2所示为本发明另一实施例提供的语音识别方法流程示意图;
图3所示为本发明一实施例提供的唤醒词模型示意图;
图4所示为本发明一实施例提供的语音识别模型示意图;
图5所示为本发明一实施例提供的语音识别装置示意图。
具体实施方式
为使本发明的目的、特征、优点能够更加的明显和易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而非全部实施例。基于本发明中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在各语音设备使用公有云资源的情况下,为了提高oneshot方式的语音识别率,本发明一实施例提供了的语音识别的方法,该方法应用在云端服务器侧,包括:
步骤101,接收客户端发送的语音识别请求。
需要识别的语音由客户端采集后发送给云端服务器。
本发明实施例中,客户端可以是具备语音功能的智能硬件设备,也可以是部署在硬件设备上的提供语音功能的软件。
步骤102,获取语音识别请求中携带的唤醒词文本数据。
语音识别请求中包含唤醒词参数,该唤醒词文本中可以包括一个或多个唤醒词。当客户端有多个唤醒词时,该唤醒词参数用于携带该客户端的所有唤醒词的文本数据。
步骤103,根据唤醒词文本数据构建对应的唤醒词模型。
基于唤醒词文本数据可以构建唤醒词模型,例如,可以采用monophone、triphone、音素等多种方式来构建唤醒词模型。
步骤104,将唤醒词模型和通用语言模型连接。
本公开实施例中,唤醒词模型和通用语言模型可采用WFST图(加权有限状态机,每个圈表示一个状态节点,连接两个状态节点的线叫边,每条边上有输入和输出,当需要连接唤醒模型和通用语言模型时,在构建唤醒词模型的过程中,在唤醒词模型的终止状态节点和通用语言模型的起始状态节点之间加一条边(eps/eps输入输出都为空的无条件跳转边),就可以连接两个模型。
步骤105,使用所述连接后的唤醒词模型和通用语言模型对语音识别请求中携带的语音进行识别。
使用连接后的唤醒词模型和通用语言模型对于语音进行识别时,由于模型的结构中,唤醒词模型在前通用语言模型在后,因此可以先基于唤醒词模型识别出唤醒词,再使用通用语言模型对唤醒词之后的的语音进行识别,具体的:识别从唤醒词模型的起始状态节点开始,当走到唤醒词模型的终止状态节点时,识别出唤醒词,由于有一条上述的无条件跳转边的存在,则可以从唤醒词模型的终止状态节点进入到通用语言模型的起始状态节点,从而可以继续识别唤醒词后面的音频。
另外,如图2所示,在上述步骤102中在存在一种情形,就是未获取到唤醒词文本数据,这里指,唤醒词参数值为空的情形,即客户端在封装语音识别请求时未将自身的唤醒词封装进去。那么,可以直接执行:
步骤106,跳过唤醒词模型,使用通用语言模型对语音识别请求中携带的语音进行识别。
对应于上述云端服务器侧的语音识别过程,如图2所示,本发明实施例还提供了在客户端一侧实现的语音识别方法,包括:
步骤201,进入唤醒状态。
步骤202,采集语音。
步骤203,生成语音识别请求发送给云端服务器,所述语音识别请求包括唤醒词文本数据和所述采集的语音。
该实施例中,客户端在采集语音的同时,确定自身是否进入唤醒状态。如果是,将自身的所有唤醒词的文本数据封装在语音识别请求中。
如果未进入唤醒状态,则发送给云端服务器的语音识别请求中仅携带采集到的语音,唤醒词参数的值为空。
下面通过一个具体的场景对上述的方案进行详细的描述。
假设客户端1的唤醒词有:“你好零零七”、“你好零零八”、“你好零零九”和“你好陆风”。
1、用户在客户端输入语音“你好零零七,今天天气如何?”,由于用户使用了唤醒词“你好零零七”,则客户端1被唤醒;
2、客户端1在采集语音“你好零零七,今天天气如何?”时,确定自身处于唤醒状态,则生成一个语音识别请求,该请求中除了携带语音“你好零零七,今天天气如何?”,还携带一个唤醒词参数,该参数的值包含的文本数据表征的唤醒词为:“你好零零七”、“你好零零八”、“你好零零九”和“你好陆风”。该语音识别请求被发送给云端服务器。
3、云端服务器接收到语音识别请求后,从中获取到了唤醒词文本数据,根据“你好零零七”、“你好零零八”、“你好零零九”和“你好陆风”构建唤醒词模型,该唤醒词模型可采用WFST图表示,如图3所示。
图3所示的唤醒词模型中包含了4条路径,以第一条路径为例进行说明:第一条路径对应唤醒词“你好零零七”,该路径上包含多个状态节点和多条边,从左往右依次为:“sil/eps”表示输入为语音开头的静音部分输出为空,因为,实际采集到的语音中,第1个发音之前都会存在一小段静音;“ni/你”表示输入为语音的第一个发音“ni”,输出为“你”;以此类推,最后一个边“qi/七”表示输入为最后一个发音“qi”,输出为“七”,当最后一个发音识别出后,根据无条件跳转边(“eps/eps”)的指示,无条件跳转到终止状态节点(end)。
那么当语音中包含唤醒词“你好陆风”时,按照图3的模型,开始识别时,分别根据4条路径进行识别,直到识别到第三个语音“lu”时,第1、3、4条路径都不匹配,无法识别出,只有第2条路径可以识别出,因此,唤醒词后续的音都通过第2条路径识别,直到识别出整个唤醒词。
4、云端服务器在唤醒词模型的尾部连接上通用语言模型,得到一个新的模型,如图4所示。
唤醒词模型中的“end”即唤醒词模型的终止状态节点,在该节点的后面添加一条“无条件跳转边”,该条边连接通用语言模型的起始状态节点,即图中所示“start”,即可完成两个模型的连接。
5、云端服务器使用图4所示的模型对采集的语音进行识别,由于图4所示的模型中的唤醒词模型是基于该客户端的唤醒词构建的,因此,客户端1请求的语音中唤醒词的识别的正确率极高,基本不会出错,也避免了同音词串词的情形。识别出唤醒词之后,就可以用图4中的通用模型来识别语音的后续部分。
由此可见,在上述语音识别过程中,基于客户端的唤醒词单独进行模型训练,首先训练的过程较为简单,开销较低;其次,将该唤醒词模型和已经较成熟的通用语言模型连接,基于这样的新的模型在识别oneshot语音时,可以实现使用唤醒词模型对语音中的唤醒词语音进行识别,使用通用语言模型对语音中除唤醒词部分的其他语音进行识别,两部分语音的识别互不干扰,且各部分的识别正确率提高,则oneshot语音的整体识别率有了极大的提高。另外,两部分模型是分开训练,相比现有技术中将唤醒词和通用预料交叉训练的方式而言,降低了模型训练的开销。
需要指出的是,本公开中,该连接的模型在每次语音识别完成后,都可以删除,不占用云端资源。这种动态的模型训练和部署方式更为灵活。
为了实现上述的语音识别方法,如图5所示,本公开实施例还提供了一种语音识别的装置,应用于云端服务器,该装置包括:
交互模块10,用于接收客户端发送的语音识别请求;
处理模型20,用于获取所述语音识别请求中携带的唤醒词文本数据;
模型构建模块30,用于根据所述唤醒词文本构建对应的唤醒词模型,并将所述唤醒词模型和通用语言模型连接;
识别模块40,用于使用所述连接后的唤醒词模型和通用语言模型对所述语音识别请求中携带的语音进行识别。
其中,所述语音识别请求中包含唤醒词参数,
所述处理模块20,还用于法确定所述唤醒词参数的值不为空时,获取所述唤醒词参数的值作为所述唤醒词文本数据;
所述唤醒词文本数据表征一个或多个唤醒词,所述一个或多个唤醒词为所述客户端使用的一个或多个唤醒词。
其中,所述唤醒词模型和所述通用语言模型通过WFST图表示,
所述模型构建模块30,还用于在所述唤醒词模型的终止状态节点和所述通用语言模型的起始状态节点之间增加一条无条件跳转边,实现所述唤醒词模型和所述通用语言模型的连接。
其中,所述唤醒词参数的值不为空时,所述语音识别请求中携带的语音包括两部分语音,其中,第一部分语音为唤醒词语音,第二部分语音在所述唤醒词语音之后;
所述识别模块40,还用于通过唤醒词模型识别出所述语音中的唤醒词语音后,跳转到通用语言模型,通过通用语言模型识别出所述唤醒语音之后的第二部分语音。
其中,若所述唤醒词参数的值为空,
所述识别模块40,还用于跳过所述唤醒词模型,使用所述通用语言模型对所述语音识别请求中携带的语音进行识别。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (10)

1.一种语音识别的方法,其特征在于,应用于云端服务器,该方法包括:
接收客户端发送的语音识别请求;
获取所述语音识别请求中携带的唤醒词文本数据;
根据所述唤醒词文本构建对应的唤醒词模型;
将所述唤醒词模型和通用语言模型连接;
使用所述连接后的唤醒词模型和通用语言模型对所述语音识别请求中携带的语音进行识别。
2.根据权利要求1所述的方法,其特征在于,所述获取所述语音识别请求中携带的唤醒词文本,包括:
所述语音识别请求中包含唤醒词参数,若所述唤醒词参数的值不为空,则获取所述唤醒词参数的值作为所述唤醒词文本数据;
所述唤醒词文本数据表征一个或多个唤醒词,所述一个或多个唤醒词为所述客户端使用的一个或多个唤醒词。
3.根据权利要求2所述的方法,其特征在于,
所述唤醒词模型和所述通用语言模型通过WFST图表示,所述将所述唤醒词模型和通用语言模型连接,包括:
在所述唤醒词模型的终止状态节点和所述通用语言模型的起始状态节点之间增加一条无条件跳转边。
4.根据权利要求3所述的方法,其特征在于,若所述唤醒词参数的值不为空,则所述语音识别请求中携带的语音包括两部分语音,其中,第一部分语音为唤醒词语音,第二部分语音在所述唤醒词语音之后;
所述使用所述连接后的唤醒词模型和通用语言模型对所述语音识别请求中携带的语音进行识别,包括:
通过唤醒词模型识别出所述语音中的唤醒词语音后,跳转到通用语言模型,通过通用语言模型识别出所述唤醒语音之后的第二部分语音。
5.根据权利要求4所述的方法,其特征在于,若所述唤醒词参数的值为空,所述使用所述连接后的唤醒词模型和通用语言模型对所述语音识别请求中携带的语音进行识别,包括:
跳过所述唤醒词模型,使用所述通用语言模型对所述语音识别请求中携带的语音进行识别。
6.一种语音识别的装置,其特征在于,应用于云端服务器,该装置包括:
交互模块,用于接收客户端发送的语音识别请求;
处理模型,用于获取所述语音识别请求中携带的唤醒词文本数据;
模型构建模块,用于根据所述唤醒词文本构建对应的唤醒词模型,并将所述唤醒词模型和通用语言模型连接;
识别模块,用于使用所述连接后的唤醒词模型和通用语言模型对所述语音识别请求中携带的语音进行识别。
7.根据权利要求6所述的装置,其特征在于,所述语音识别请求中包含唤醒词参数,
所述处理模块,还用于法确定所述唤醒词参数的值不为空时,获取所述唤醒词参数的值作为所述唤醒词文本数据;
所述唤醒词文本数据表征一个或多个唤醒词,所述一个或多个唤醒词为所述客户端使用的一个或多个唤醒词。
8.根据权利要求7所述的装置,其特征在于,所述唤醒词模型和所述通用语言模型通过WFST图表示,
所述模型构建模块,还用于在所述唤醒词模型的终止状态节点和所述通用语言模型的起始状态节点之间增加一条无条件跳转边,实现所述唤醒词模型和所述通用语言模型的连接。
9.根据权利要求8所述的装置,其特征在于,所述唤醒词参数的值不为空时,所述语音识别请求中携带的语音包括两部分语音,其中,第一部分语音为唤醒词语音,第二部分语音在所述唤醒词语音之后;
所述识别模块,还用于通过唤醒词模型识别出所述语音中的唤醒词语音后,跳转到通用语言模型,通过通用语言模型识别出所述唤醒语音之后的第二部分语音。
10.根据权利要求9所述的装置,其特征在于,若所述唤醒词参数的值为空,
所述识别模块,还用于跳过所述唤醒词模型,使用所述通用语言模型对所述语音识别请求中携带的语音进行识别。
CN201911367380.1A 2019-12-26 2019-12-26 一种语音识别方法和装置 Active CN111081254B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911367380.1A CN111081254B (zh) 2019-12-26 2019-12-26 一种语音识别方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911367380.1A CN111081254B (zh) 2019-12-26 2019-12-26 一种语音识别方法和装置

Publications (2)

Publication Number Publication Date
CN111081254A true CN111081254A (zh) 2020-04-28
CN111081254B CN111081254B (zh) 2022-09-23

Family

ID=70318203

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911367380.1A Active CN111081254B (zh) 2019-12-26 2019-12-26 一种语音识别方法和装置

Country Status (1)

Country Link
CN (1) CN111081254B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111627439A (zh) * 2020-05-21 2020-09-04 腾讯科技(深圳)有限公司 音频数据的处理方法和装置、存储介质和电子设备
CN111620011A (zh) * 2020-04-29 2020-09-04 苏州思必驰信息科技有限公司 一种语音处理方法、智能容器及计算机可读存储介质
CN111933112A (zh) * 2020-09-21 2020-11-13 北京声智科技有限公司 唤醒语音确定方法、装置、设备及介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105654943A (zh) * 2015-10-26 2016-06-08 乐视致新电子科技(天津)有限公司 一种语音唤醒方法、装置及系统
CN109410936A (zh) * 2018-11-14 2019-03-01 广东美的制冷设备有限公司 基于场景的空调设备语音控制方法和装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105654943A (zh) * 2015-10-26 2016-06-08 乐视致新电子科技(天津)有限公司 一种语音唤醒方法、装置及系统
CN109410936A (zh) * 2018-11-14 2019-03-01 广东美的制冷设备有限公司 基于场景的空调设备语音控制方法和装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111620011A (zh) * 2020-04-29 2020-09-04 苏州思必驰信息科技有限公司 一种语音处理方法、智能容器及计算机可读存储介质
CN111627439A (zh) * 2020-05-21 2020-09-04 腾讯科技(深圳)有限公司 音频数据的处理方法和装置、存储介质和电子设备
CN111933112A (zh) * 2020-09-21 2020-11-13 北京声智科技有限公司 唤醒语音确定方法、装置、设备及介质

Also Published As

Publication number Publication date
CN111081254B (zh) 2022-09-23

Similar Documents

Publication Publication Date Title
US11676575B2 (en) On-device learning in a hybrid speech processing system
CN111081254B (zh) 一种语音识别方法和装置
US9378738B2 (en) System and method for advanced turn-taking for interactive spoken dialog systems
CN107644638B (zh) 语音识别方法、装置、终端和计算机可读存储介质
CN104143327B (zh) 一种声学模型训练方法和装置
CN107767861B (zh) 语音唤醒方法、系统及智能终端
CN110047481B (zh) 用于语音识别的方法和装置
CN102254555B (zh) 改进依赖上下文的语音识别器对环境变化的鲁棒性
CN110534099A (zh) 语音唤醒处理方法、装置、存储介质及电子设备
JP7171532B2 (ja) 音声を認識する装置及び方法、音声認識モデルをトレーニングする装置及び方法
US8346549B2 (en) System and method for supplemental speech recognition by identified idle resources
CN111599371A (zh) 语音增加方法、系统、装置及存储介质
CN109767763A (zh) 自定义唤醒词的确定方法和用于确定自定义唤醒词的装置
CN112259089A (zh) 语音识别方法及装置
US20240013784A1 (en) Speaker recognition adaptation
CN111179944B (zh) 语音唤醒及年龄检测方法、装置及计算机可读存储介质
CN111091819A (zh) 语音识别装置和方法、语音交互系统和方法
CN112017642B (zh) 语音识别的方法、装置、设备及计算机可读存储介质
CN111128172B (zh) 一种语音识别方法、电子设备和存储介质
CN113823265A (zh) 一种语音识别方法、装置和计算机设备
CN111386566A (zh) 设备控制方法、云端设备、智能设备、计算机介质及设备
CN111508481B (zh) 语音唤醒模型的训练方法、装置、电子设备及存储介质
US11211056B1 (en) Natural language understanding model generation
US11277304B1 (en) Wireless data protocol
US11699444B1 (en) Speech recognition using multiple voice-enabled devices

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 215024 building 14, Tengfei Innovation Park, 388 Xinping street, Suzhou Industrial Park, Jiangsu Province

Applicant after: Sipic Technology Co.,Ltd.

Address before: 215024 building 14, Tengfei Innovation Park, 388 Xinping street, Suzhou Industrial Park, Jiangsu Province

Applicant before: AI SPEECH Co.,Ltd.

GR01 Patent grant
GR01 Patent grant