CN107464558A - 一种语音识别方法、终端以及服务端 - Google Patents

一种语音识别方法、终端以及服务端 Download PDF

Info

Publication number
CN107464558A
CN107464558A CN201710729819.5A CN201710729819A CN107464558A CN 107464558 A CN107464558 A CN 107464558A CN 201710729819 A CN201710729819 A CN 201710729819A CN 107464558 A CN107464558 A CN 107464558A
Authority
CN
China
Prior art keywords
targeted customer
resolution rules
frequency characteristics
audio frequency
difference
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710729819.5A
Other languages
English (en)
Inventor
荣霞芳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mianyang Meiling Software Technology Co Ltd
Original Assignee
Mianyang Meiling Software Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mianyang Meiling Software Technology Co Ltd filed Critical Mianyang Meiling Software Technology Co Ltd
Priority to CN201710729819.5A priority Critical patent/CN107464558A/zh
Publication of CN107464558A publication Critical patent/CN107464558A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • G10L15/07Adaptation to the speaker
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0635Training updating or merging of old and new templates; Mean values; Weighting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Signal Processing (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明提供了一种语音识别方法、终端以及服务端,该应用于语音识别终端,包括:确定当前解析规则更新周期对应的解析规则;采集当前解析规则更新周期内的各个用户分别对应的音频数据;利用确定的解析规则以及各个用户分别对应的音频数据,在各个用户中确定各个目标用户;将各个目标用户分别对应的音频数据发送给外部的语音识别服务端,以使语音识别服务端反馈各个目标用户分别对应的音频特征;接收语音识别服务端反馈的各个目标用户分别对应的音频特征,利用各个目标用户分别对应的音频特征对解析规则进行更新,将更新后的解析规则确定为下一个解析规则更新周期对应的解析规则。因此,本发明提供的方案可以提高语音识别的准确率。

Description

一种语音识别方法、终端以及服务端
技术领域
本发明涉及信息技术领域,特别涉及一种语音识别方法、终端以及服务端。
背景技术
随着信息技术的高速发展,语音识别技术越来越多的应用到了各种智能设备中。
目前,各种智能设备的语音识别方法通常为:预先设定至少一个语音模型。当用户发出语音时,利用预先设定的各个语音模型对用户发出语音进行语音识别。
但是,在现有方式的语音识别过程中,由于各个用户之间存在个体差异,各个用户的发声音调以及发声频率均会存在差异,因此,采用已有的语音模型对用户发出的语音进行语音识别,会导致某些用户的语音识别准确率较低。
发明内容
本发明提供了一种语音识别方法、终端以及服务端,可以提高语音识别的准确率。
第一方面,本发明提供了一种语音识别方法,应用于语音识别终端,该方法包括:
确定当前解析规则更新周期对应的解析规则;
采集当前解析规则更新周期内的各个用户分别对应的音频数据;
利用确定的所述解析规则以及各个所述用户分别对应的音频数据,在各个所述用户中确定各个目标用户;
将各个所述目标用户分别对应的音频数据发送给外部的语音识别服务端,以使所述语音识别服务端反馈各个所述目标用户分别对应的音频特征;
接收所述语音识别服务端反馈的各个所述目标用户分别对应的音频特征,利用各个所述目标用户分别对应的音频特征对所述解析规则进行更新,将更新后的解析规则确定为下一个解析规则更新周期对应的解析规则。
优选地,
所述解析规则包括:至少一个声学模型以及每一个所述声学模型对应的命令词;
所述利用确定的所述解析规则以及各个所述用户分别对应的音频数据,在各个所述用户中确定各个目标用户,包括:
针对每一个所述用户均执行:
提取当前所述用户对应的音频数据的声学特征,判断提取的声学特征在所述至少一个声学模型中是否存在对应的目标声学模型;
当判断出提取的声学特征在所述至少一个声学模型中存在对应的目标声学模型时,确定所述目标声学模型对应的目标命令词,并将当前所述用户对应的音频数据转换为文本信息,确定所述文本信息中是否存在与所述目标命令词一致的关键词;
当确定所述文本信息中存在与所述目标命令词一致的关键词时,确定当前所述用户为目标用户。
优选地,
所述音频特征包括:声音特征和用词特征;
所述利用各个所述目标用户分别对应的音频特征对所述解析规则进行更新,包括:
利用各个所述目标用户分别对应的声音特征和用词特征,分别对所述解析规则中的每一个所述声学模型进行更新。
优选地,
进一步包括:
为每一个所述命令词分别分配对应的操作动作;
当确定所述文本信息中存在与所述目标命令词一致的关键词时,确定所述目标命令词对应的操作动作,并执行所述目标命令词对应的操作动作。
第二方面,本发明提供了一种语音识别方法,应用于语音识别服务端,该方法包括:
接收外部的语音识别终端发送的当前解析规则更新周期内的各个目标用户分别对应的音频数据;
根据各个所述目标用户分别对应的音频数据,确定各个所述目标用户分别对应的音频特征;
将确定的各个所述目标用户分别对应的音频特征反馈给所述语音识别终端,以使所述语音识别终端利用各个所述目标用户分别对应的音频特征对当前所述解析规则更新周期对应的解析规则进行更新。
优选地,
所述根据各个所述目标用户分别对应的音频数据,确定各个所述目标用户分别对应的音频特征,包括:
针对每一个所述目标用户均执行:
提取当前所述目标用户对应的音频数据中的声音特征和用词特征;
利用提取的声音特征和用词特征,确定当前所述目标用户对应的音频特征。
第三方面,本发明提供了一种语音识别终端,该语音识别终端包括:
解析规则确定单元,用于确定当前解析规则更新周期对应的解析规则;
采集单元,用于采集当前解析规则更新周期内的各个用户分别对应的音频数据;
目标用户确定单元,用于利用所述解析规则确定单元确定的所述解析规则以及所述采集单元采集的各个所述用户分别对应的音频数据,在各个所述用户中确定各个目标用户;
音频数据发送单元,用于将各个所述目标用户分别对应的音频数据发送给外部的语音识别服务端,以使所述语音识别服务端反馈各个所述目标用户分别对应的音频特征;
更新单元,用于接收所述语音识别服务端反馈的各个所述目标用户分别对应的音频特征,利用各个所述目标用户分别对应的音频特征对所述解析规则进行更新,将更新后的解析规则确定为下一个解析规则更新周期对应的解析规则。
优选地,
所述解析规则包括:至少一个声学模型以及每一个所述声学模型对应的命令词;
所述目标用户确定单元,包括:提取子单元、确定子单元;
所述提取子单元,用于针对每一个所述用户均执行:提取当前所述用户对应的音频数据的声学特征,判断提取的声学特征在所述至少一个声学模型中是否存在对应的目标声学模型,当判断出所述提取的声学特征在所述至少一个声学模型中存在对应的目标声学模型时,触发所述确定子单元;
所述确定子单元,在所述提取子单元的触发下,确定所述目标声学模型对应的目标命令词,并将当前所述用户对应的音频数据转换为文本信息,确定所述文本信息中是否存在与所述目标命令词一致的关键词;当确定所述文本信息中存在与所述目标命令词一致的关键词时,确定当前所述用户为目标用户。
优选地,
所述音频特征包括:声音特征和用词特征;
所述更新单元,用于利用各个所述目标用户分别对应的声音特征和用词特征,分别对所述解析规则中的每一个所述声学模型进行更新。
优选地,
进一步包括:执行单元;
所述解析规则确定单元,进一步用于为每一个所述命令词分别分配对应的操作动作;
所述执行单元,用于在所述确定子单元确定所述文本信息中存在与所述目标命令词一致的关键词时,确定所述目标命令词对应的操作动作,并执行所述目标命令词对应的操作动作。
第四方面,本发明提供了一种语音识别服务端,该语音识别服务端包括:
接收单元,用于接收外部的语音识别终端发送的当前解析规则更新周期内的各个目标用户分别对应的音频数据;
音频特征确定单元,用于根据所述接收单元接收的各个所述目标用户分别对应的音频数据,确定各个所述目标用户分别对应的音频特征;
音频特征发送单元,用于将所述音频特征确定单元确定的各个所述目标用户分别对应的音频特征反馈给所述语音识别终端,以使所述语音识别终端利用各个所述目标用户分别对应的音频特征对当前所述解析规则更新周期对应的解析规则进行更新。
优选地,
所述音频特征确定单元,用于针对每一个所述目标用户均执行:提取当前所述目标用户对应的音频数据中的声音特征和用词特征;利用提取的声音特征和用词特征,确定当前所述目标用户对应的音频特征。
本发明提供了一种语音识别方法、终端以及服务端,首先采集当前解析规则更新周期内的各个用户分别对应的音频数据,然后利用预先确定的解析规则以及采集的各个用户分别对应的音频数据,在各个用户中确定各个目标用户。将各个目标用户分别对应的音频数据发送给语音识别服务端,以使语音识别服务端反馈各个目标用户分别对应的音频特征。然后接收语音识别服务端反馈的各个目标用户分别对应的音频特征,利用各个目标用户分别对应的音频特征对解析规则进行更新,将更新后的解析规则确定为下一个解析规则更新周期对应的解析规则。通过上述可知,语音识别终端将各个目标用户分别对应的音频数据发送给了语音识别服务端,以便语音识别服务端能够反馈各个目标用户分别对应的音频特征。然后语音识别终端利用语音识别服务端反馈的各个目标用户分别对应的音频特征对当前解析规则更新周期对应的解析规则进行更新。由于解析规则可以根据各个用户对应的音频特征进行更新,因此,本发明提供的方案可以提高语音识别的准确率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一个实施例提供的一种应用于语音识别终端的语音识别方法的流程图;
图2是本发明一个实施例提供的一种应用于语音识别服务端的语音识别方法的流程图;
图3是本发明一个实施例提供的一种语音识别终端的结构示意图;
图4是本发明另一个实施例提供的一种语音识别终端的结构示意图;
图5是本发明一个实施例提供的一种包括执行单元的语音识别终端的结构示意图;
图6是本发明一个实施例提供的一种语音识别服务端的结构示意图;
图7是本发明一个实施例提供的一种语音识别系统的结构示意图;
图8是本发明一个实施例提供的一种应用于语音识别系统的语音识别方法的流程图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明实施例提供了一种应用于语音识别终端的语音识别方法,该方法可以包括以下步骤:
步骤101:确定当前解析规则更新周期对应的解析规则;
步骤102:采集当前解析规则更新周期内的各个用户分别对应的音频数据;
步骤103:利用确定的所述解析规则以及各个所述用户分别对应的音频数据,在各个所述用户中确定各个目标用户;
步骤104:将各个所述目标用户分别对应的音频数据发送给外部的语音识别服务端,以使所述语音识别服务端反馈各个所述目标用户分别对应的音频特征;
步骤105:接收所述语音识别服务端反馈的各个所述目标用户分别对应的音频特征,利用各个所述目标用户分别对应的音频特征对所述解析规则进行更新,将更新后的解析规则确定为下一个解析规则更新周期对应的解析规则。
根据图1所示实施例,首先采集当前解析规则更新周期内的各个用户分别对应的音频数据,然后利用预先确定的解析规则以及采集的各个用户分别对应的音频数据,在各个用户中确定各个目标用户。将各个目标用户分别对应的音频数据发送给语音识别服务端,以使语音识别服务端反馈各个目标用户分别对应的音频特征。然后接收语音识别服务端反馈的各个目标用户分别对应的音频特征,利用各个目标用户分别对应的音频特征对解析规则进行更新,将更新后的解析规则确定为下一个解析规则更新周期对应的解析规则。通过上述可知,语音识别终端将各个目标用户分别对应的音频数据发送给了语音识别服务端,以便语音识别服务端能够反馈各个目标用户分别对应的音频特征。然后语音识别终端利用语音识别服务端反馈的各个目标用户分别对应的音频特征对当前解析规则更新周期对应的解析规则进行更新。由于解析规则可以根据各个用户对应的音频特征进行更新,因此,本发明提供的实施例可以提高语音识别的准确率。
在本发明一个实施例中,确定当前解析规则更新周期对应的解析规则的方法至少存在以下两种:
方法一:在当前解析规则更新周期为第一次解析规则更新周期时,需要接收外部输入的解析规则,然后将接收到的解析规则确定为当前解析规则更新周期对应的解析规则。
方法二:在当前解析规则更新周期不是第一次解析规则更新周期时,则将上一个解析规则更新周期中更新的解析规则确定为当前解析规则更新周期对应的解析规则。
根据上述实施例,在当前解析规则更新周期为第一次解析规则更新周期时,将外部输入的解析规则确定为当前解析规则更新周期对应的解析规则。在当前解析规则更新周期为非第一次解析规则更新周期时,将上一个解析规则更新周期中更新的解析规则确定为当前解析规则更新周期对应的解析规则。通过上述可知,对第一次解析规则更新周期以及非第一次解析规则更新周期分别进行不同的解析规则确定操作,因此可以保证每一次解析规则更新周期均使用最新的解析规则。
在本发明一个实施例中,上述图1所示流程图中的步骤102至步骤104的实现方式至少存在如下两种:
方式一:在当前解析规则更新周期内采集一个用户对应的音频数据时,利用确定的解析规则以及该用户对应的音频数据,确定该用户是否为目标用户。当确定该用户为目标用户时,将该用户对应的音频数据发送给外部的语音识别服务端。当确定该用户非目标用户时,在当前解析规则更新周期内采集下一个用户对应的音频数据。
方式二:在当前解析规则更新周期内采集各个用户分别对应的音频数据,当各个用户分别对应的音频数据采集完成时,利用确定的解析规则以及各个用户分别对应的音频数据,在各个用户中确定各个目标用户。然后同时将各个目标用户分别对应的音频数据发送给外部的语音识别服务端。
在本发明一个实施例中,解析规则更新周期可以根据业务要求确定。比如可以设定时间5小时,那么5小时为一个解析规则更新周期。比如可以设定目标用户数量为10个,那么确定10个目标用户为一个解析规则更新周期。
在本发明一个实施例中,上述图1所示流程图中步骤101所涉及的解析规则可以包括:至少一个声学模型以及每一个所述声学模型对应的命令词;
则上述图1所示流程图中的步骤103利用确定的所述解析规则以及各个所述用户分别对应的音频数据,在各个所述用户中确定各个目标用户,可以包括:
针对每一个所述用户均执行:
提取当前所述用户对应的音频数据的声学特征,判断提取的声学特征在所述至少一个声学模型中是否存在对应的目标声学模型;
当判断出提取的声学特征在所述至少一个声学模型中存在对应的目标声学模型时,确定所述目标声学模型对应的目标命令词,并将当前所述用户对应的音频数据转换为文本信息,确定所述文本信息中是否存在与所述目标命令词一致的关键词;
当确定所述文本信息中存在与所述目标命令词一致的关键词时,确定当前所述用户为目标用户。
在本实施例中,每一个声学模型对应的一个命令词,每一个声学模型中可以包括:命令词的声音频率、命令词的声音振幅、命令词的音子、命令词的发声时长等参数。
在本实施例中,以用户1对应的音频数据1为例进行说明。提取用户1对应的音频数据1的声学特征。其中声学特征可以为声音频率、声音振幅、音子、发声时长等参数。然后将提取的声学特征分别与解析规则中的各个声学模型进行比对。当各个声学模型中存在与提取的声学特征中的各个参数相匹配的声学模型时,则确定提取的声学特征在各个声学模型中存在对应的目标声学模型。比如,本实施例中,确定音频数据1对应的目标声学模型为声学模型1。确定声学模型1对应的目标命令词为开门。然后将用户1对应的音频数据1转换为文本信息1,在文本信息1查找是否存在目标命令词开门。当确定文本信息1中存在与目标命令词开门一致的关键字时,则确定用户1为目标用户。
根据上述实施例,利用解析规则中包括的各个声学模型、每一个声学模型对应的命令词,以及提取的各个用户音频数据对应的声学特征,确定各个用户是否为目标用户。因此可以提高目标用户是有效用户的概率。
在本发明一个实施例中,上述图1所示流程图中步骤105所涉及的所述音频特征包括:声音特征和用词特征;
则上述图1所示流程图中步骤105所涉及的利用各个所述目标用户分别对应的音频特征对所述解析规则进行更新,可以包括:
利用各个所述目标用户分别对应的声音特征和用词特征,分别对所述解析规则中的每一个所述声学模型进行更新。
在本实施例中,声音特征可以为发声的频率特征以及发声的振幅特征。用词特征可以为语调特征以及语法特征。在接收到各个目标用户分别对应的声音特征和用词特征之后,利用各个声音特征和用词特征分别对各个声学模型进行更新,以提高各个声学模型与各个目标用户的匹配度,从而提高语音识别的准确率。
在本实施例中,比如,在对用户1进行语音识别时,由于用户1发声习惯中卷舌音较多,导致在声学模型中确定与其匹配的声学模型准确率较低。在利用用户1对应的声音特征和用词特征,分别对解析规则中的每一个声学模型进行更新之后,可以提高对用户1语音识别的准确率。
根据上述实施例,利用各个目标用户分别对应的声音特征和用词特征,分别对解析规则中的每一个声学模型进行更新。提高了各个声学模型与各个目标用户的匹配度,从而提高语音识别的准确率。
在本发明一个实施例中,应用于语音识别终端的语音识别方法可以进一步包括如下步骤:
为每一个所述命令词分别分配对应的操作动作;
当确定所述文本信息中存在与所述目标命令词一致的关键词时,确定所述目标命令词对应的操作动作,并执行所述目标命令词对应的操作动作。
在本实施例中,可以根据业务要求为每一个命令词分别分配对应的操作动作。比如为命令词开门分配对应的执行开门的动作。那么当用户对应的音频数据转换的文本信息中存在与命令词开门一致的关键词时,执行开门的动作。
根据上述实施例,为每一个命令词分别分配对应的操作动作。当用户对应的音频数据转换的文本信息中存在与目标命令词一致的关键词时,执行目标命令词对应的操作动作,以满足目标用户动作要求。
如图2所示,本发明实施例提供了一种应用于语音识别服务端的语音识别方法,该方法可以包括以下步骤:
步骤201:接收外部的语音识别终端发送的当前解析规则更新周期内的各个目标用户分别对应的音频数据;
步骤202:根据各个所述目标用户分别对应的音频数据,确定各个所述目标用户分别对应的音频特征;
步骤203:将确定的各个所述目标用户分别对应的音频特征反馈给所述语音识别终端,以使所述语音识别终端利用各个所述目标用户分别对应的音频特征对当前所述解析规则更新周期对应的解析规则进行更新。
根据图2所示实施例,在接收到语音识别终端发送的当前解析规则更新周期内的各个目标用户分别对应的音频数据时,根据各个目标用户分别对应的音频数据,确定各个目标用户分别对应的音频特征。然后将确定的各个目标用户分别对应的音频特征反馈给语音识别终端,以使语音识别终端利用各个目标用户分别对应的音频特征对当前解析规则更新周期对应的解析规则进行更新。通过上述可知,语音识别服务端可以根据各个目标用户分别对应的音频数据确定各个目标用户分别对应的音频特征,并将确定的各个音频特征反馈给语音识别终端,以使语音识别终端利用各个目标用户分别对应的音频特征对当前解析规则更新周期对应的解析规则进行更新。因此,本发明提供的方案可以提高语音识别的准确率。
在本发明一个实施例中,上述图2所示流程图中的步骤203将确定的各个所述目标用户分别对应的音频特征反馈给所述语音识别终端的时间点,可以根据设定的解析规则更新周期确定。
比如,当根据时间设定解析规则更新周期时,需设定发送时间点。在到达设定的发送时间点时,将确定的各个所述目标用户分别对应的音频特征反馈给所述语音识别终端。
又如,当根据目标用户的数量设定解析规则更新周期时,需设定数量。在目标用户的数量达到设定的数量时,将确定的各个所述目标用户分别对应的音频特征反馈给所述语音识别终端。
在本发明一个实施例中,上述图2所示流程图中的步骤202的实现方式至少存在如下两种:
方式一:在接收到语音识别终端发送的一个用户对应的音频数据时,确定该目标用户对应的音频特征。然后再接收语音识别终端发送的下一个目标用户对应的音频数据。
方式二:接收语音识别终端发送的各个用户对应的音频数据,然后同时确定各个目标用户分别对应的音频特征。
在本发明一个实施例中,上述图2所示流程图中的步骤202根据各个所述目标用户分别对应的音频数据,确定各个所述目标用户分别对应的音频特征,可以包括:
针对每一个所述目标用户均执行:
提取当前所述目标用户对应的音频数据中的声音特征和用词特征;
利用提取的声音特征和用词特征,确定当前所述目标用户对应的音频特征。
在本实施例中,比如,以当前目标用户为目标用户1为例进行说明。提取目标用户1对应的音频数据中的声音特征和用词特征。其中,声音特征可以为发声的频率特征以及发声的振幅特征。用词特征可以为语调特征以及语法特征。然后利用提取的声音特征和用词特征,确定目标用户1对应的音频特征。
根据上述实施例,提取各个目标用户对应的音频数据中的声音特征和用词特征。然后利用提取的声音特征和用词特征,确定各个目标用户对应的音频特征。由于目标用户对应的音频特征是在其对应的音频数据中提取的,因此各个音频特征与其对应的目标用户的匹配度较高。
如图3所示,本发明实施例提供了一种语音识别终端,该语音识别终端包括:
解析规则确定单元301,用于确定当前解析规则更新周期对应的解析规则;
采集单元302,用于采集当前解析规则更新周期内的各个用户分别对应的音频数据;
目标用户确定单元303,用于利用所述解析规则确定单元301确定的所述解析规则以及所述采集单元302采集的各个所述用户分别对应的音频数据,在各个所述用户中确定各个目标用户;
音频数据发送单元304,用于将各个所述目标用户分别对应的音频数据发送给外部的语音识别服务端,以使所述语音识别服务端反馈各个所述目标用户分别对应的音频特征;
更新单元305,用于接收所述语音识别服务端反馈的各个所述目标用户分别对应的音频特征,利用各个所述目标用户分别对应的音频特征对所述解析规则进行更新,将更新后的解析规则确定为下一个解析规则更新周期对应的解析规则。
根据图3所示实施例,通过目标用户确定单元利用解析规则确定单元确定的解析规则以及采集单元采集的各个用户分别对应的音频数据,在各个用户中确定各个目标用户。然后利用音频数据发送单元将各个目标用户分别对应的音频数据发送给的语音识别服务端,以使语音识别服务端反馈各个目标用户分别对应的音频特征。再利用更新单元接收语音识别服务端反馈的各个目标用户分别对应的音频特征,并利用各个目标用户分别对应的音频特征对解析规则进行更新,将更新后的解析规则确定为下一个解析规则更新周期对应的解析规则。通过上述可知,语音识别终端将各个目标用户分别对应的音频数据发送给了语音识别服务端,以便语音识别服务端能够反馈各个目标用户分别对应的音频特征。然后语音识别终端利用语音识别服务端反馈的各个目标用户分别对应的音频特征对当前解析规则更新周期对应的解析规则进行更新。由于解析规则可以根据各个用户对应的音频特征进行更新,因此,本发明提供的实施例可以提高语音识别的准确率。
在本发明一个实施例中,如图4所示,当解析规则确定单元301确定的解析规则可以包括:至少一个声学模型以及每一个所述声学模型对应的命令词时,
则所述目标用户确定单元303,包括:提取子单元401、确定子单元402;
所述提取子单元401,用于针对每一个所述用户均执行:提取当前所述用户对应的音频数据的声学特征,判断提取的声学特征在所述至少一个声学模型中是否存在对应的目标声学模型,当判断出所述提取的声学特征在所述至少一个声学模型中存在对应的目标声学模型时,触发所述确定子单元;
所述确定子单元402,在所述提取子单元401的触发下,确定所述目标声学模型对应的目标命令词,并将当前所述用户对应的音频数据转换为文本信息,确定所述文本信息中是否存在与所述目标命令词一致的关键词;当确定所述文本信息中存在与所述目标命令词一致的关键词时,确定当前所述用户为目标用户。
在本发明一个实施例中,当音频特征包括声音特征和用词特征时,
所述更新单元305,用于利用各个所述目标用户分别对应的声音特征和用词特征,分别对所述解析规则中的每一个所述声学模型进行更新。
在本发明一个实施例中,如图5所示,语音识别终端可以进一步包括:执行单元501;
所述解析规则确定单元301,进一步用于为每一个所述命令词分别分配对应的操作动作;
所述执行单元501,用于在所述确定子单元402确定所述文本信息中存在与所述目标命令词一致的关键词时,确定所述目标命令词对应的操作动作,并执行所述目标命令词对应的操作动作。
如图6所示,本发明实施例提供了一种语音识别服务端,该语音识别服务端包括:
接收单元601,用于接收外部的语音识别终端发送的当前解析规则更新周期内的各个目标用户分别对应的音频数据;
音频特征确定单元602,用于根据所述接收单元601接收的各个所述目标用户分别对应的音频数据,确定各个所述目标用户分别对应的音频特征;
音频特征发送单元603,用于将所述音频特征确定单元602确定的各个所述目标用户分别对应的音频特征反馈给所述语音识别终端,以使所述语音识别终端利用各个所述目标用户分别对应的音频特征对当前所述解析规则更新周期对应的解析规则进行更新。
根据图6所示实施例,通过音频特征确定单元根据接收单元接收的各个目标用户分别对应的音频数据,确定各个目标用户分别对应的音频特征。然后利用音频特征发送单元将音频特征确定单元确定的各个目标用户分别对应的音频特征反馈给语音识别终端,以使语音识别终端利用各个目标用户分别对应的音频特征对当前解析规则更新周期对应的解析规则进行更新。通过上述可知,语音识别服务端可以根据各个目标用户分别对应的音频数据确定各个目标用户分别对应的音频特征,并将各个音频特征反馈给语音识别终端,以使语音识别终端利用各个目标用户分别对应的音频特征对当前解析规则更新周期对应的解析规则进行更新。因此,本发明提供的方案可以提高语音识别的准确率。
在本发明一个实施例中,所述音频特征确定单元602,用于针对每一个所述目标用户均执行:提取当前所述目标用户对应的音频数据中的声音特征和用词特征;利用提取的声音特征和用词特征,确定当前所述目标用户对应的音频特征。
如图7所示,本发明实施例提供了一种语音识别系统,该系统包括:上述任一所述的语音识别终端701和上述任一所述的语音识别服务端702。
根据图7所示实施例,语音识别系统中包括语音识别终端和语音识别服务端,语音识别终端将各个目标用户分别对应的音频数据发送给了语音识别服务端,以便语音识别服务端能够反馈各个目标用户分别对应的音频特征。然后语音识别终端利用语音识别服务端反馈的各个目标用户分别对应的音频特征对当前解析规则更新周期对应的解析规则进行更新。由于解析规则可以根据各个用户对应的音频特征进行更新,因此,本发明提供的实施例可以提高语音识别的准确率。
上述语音识别终端、语音识别服务端以及语音识别系统内的各单元之间的信息交互、执行过程等内容,由于与本发明方法实施例基于同一构思,具体内容可参见本发明方法实施例中的叙述,此处不再赘述。
下面以语音识别系统中包括:语音识别终端和语音识别服务端为例。展开语音识别方法,如图8所示,该方法可以包括如下步骤:
步骤801:利用语音识别终端确定当前解析规则更新周期对应的解析规则,其中解析规则中包括:至少一个声学模型以及每一个声学模型对应的命令词,为每一个命令词分别分配对应的操作动作。
在本步骤中,当前解析规则更新周期为第一次解析规则更新周期,需要接收外部输入的解析规则,然后将接收到的解析规则确定为当前解析规则更新周期对应的解析规则。解析规则中包括:3个声学模型以及每一个声学模型对应的命令词。其中,声学模型1对应命令词1,为命令词1分配对应的操作动作1;声学模型2对应命令词2,为命令词2分配对应的操作动作2;声学模型3对应命令词3,为命令词3分配对应的操作动作3。
步骤802:利用语音识别终端采集当前解析规则更新周期内的各个用户分别对应的音频数据。
在本步骤中,利用语音识别终端采集当前解析规则更新周期内的用户1、用户2以及用户3分别对应的音频数据。
步骤803:利用语音识别终端依次在各个用户中选择一个用户作为当前用户。
步骤804:利用语音识别终端提取当前用户对应的音频数据的声学特征,判断提取的声学特征在至少一个声学模型中是否存在对应的声学模型,如果是,执行步骤805;否则,执行步骤807。
在本步骤中,以用户1为当前用户为例进行说明,提取用户1对应的音频数据1的声学特征。其中声学特征可以为声音频率、声音振幅、音子、发声时长等参数。然后将提取的声学特征分别与解析规则中的各个声学模型进行比对,当各个声学特征中存在与提取的声学特征中的各个参数相匹配的声学模型时,则确定提取的声学特征在各个声学模型中存在对应的目标声学模型,则执行步骤805。
同理,确定用户2在各个声学模型中存在对应的目标声学模型,则执行步骤805。
同理,确定用户3在在各个声学模型中不存在对应的目标声学模型,则执行步骤807。
步骤805:当利用语音识别终端判断出提取的声学特征在至少一个声学模型中存在对应的目标声学模型时,确定目标声学模型对应的目标命令词,并将当前用户对应的音频数据转换为文本信息,确定文本信息中是否存在与目标命令词一致的关键词,如果是,执行步骤806以及步骤814;否则,执行步骤807。
在本步骤中,以用户1为当前用户为例进行说明,确定用户1的音频数据对应的目标声学模型为声学模型1,并确定声学模型1对应的目标命令词为命令词1。然后将用户1对应的音频数据转换为文本信息1,在文本信息1查找是否存在命令词1。经过查找确定文本信息1查找存在命令词1,执行步骤806以及步骤814。
同理,将用户2对应的音频数据转换为文本信息2,在文本信息2查找是否存在命令词2。经过查找确定文本信息2查找存在命令词2,执行步骤806以及步骤814。
步骤806:当利用语音识别终端确定所述文本信息中存在与所述目标命令词一致的关键词时,确定当前所述用户为目标用户。
在本步骤中,当用户1为当前用户时,确定用户1为目标用户。当用户2为当前用户时,确定用户2为目标用户。
步骤807:利用语音识别终端判断当前用户是否为当前解析规则更新周期内的最后一个用户,如果是,执行步骤808,否则,执行步骤803。
步骤808:利用语音识别终端将各个目标用户分别对应的音频数据发送给语音识别服务端。
在本步骤中,将用户1和用2分别对应的音频数据发送给语音识别服务端。
步骤809:利用语音识别服务端接收语音识别终端发送的当前解析规则更新周期内的各个目标用户分别对应的音频数据。
在本步骤中,语音识别服务端接收语音识别终端发送的用户1和用2分别对应的音频数据。
步骤810:利用语音识别服务端提取当前所述目标用户对应的音频数据中的声音特征和用词特征。
在本步骤中,以当前目标用户为用户1为例进行说明,提取用户1对应的音频数据中的声音特征和用词特征。其中声音特征可以为发声的频率特征以及发声的振幅特征。用词特征可以为语调特征以及语法特征。比如用户1中的语调特征中包括用户1发声习惯中卷舌音。
步骤811:语音识别服务端利用利用提取的声音特征和用词特征,确定当前所述目标用户对应的音频特征。
步骤812:语音识别服务端将确定的各个目标用户分别对应的音频特征反馈给语音识别终端。
步骤813:语音识别终端接收语音识别服务端反馈的各个目标用户分别对应的音频特征,利用各个目标用户分别对应的音频特征对解析规则进行更新,将更新后的解析规则确定为下一个解析规则更新周期对应的解析规则,并结束当前流程。
在本步骤中,在接收到用户1和用户2分别对应的声音特征和用词特征之后,利用各个声音特征和用词特征分别对步骤801中确定的解析规则中的各个声学模型进行更新,以提高各个声学模型与用户1和用户2的匹配度,从而在下次采集用户1和用户2对应的音频数据时,可以提高语音识别的准确率。
步骤814:当语音识别终端确定文本信息中存在与目标命令词一致的关键词时,确定目标命令词对应的操作动作,并执行目标命令词对应的操作动作。
在本步骤中,以用户1为例进行说明,比如为命令词1分配对应的执行开门的动作。那么当用户1对应的音频数据转换的文本信息中存在与命令词开门一致的关键词时,执行开门的动作。
综上所述,本发明各个实施例至少可以实现如下有益效果:
1、在本发明实施例中,首先采集当前解析规则更新周期内的各个用户分别对应的音频数据,然后利用预先确定的解析规则以及采集的各个用户分别对应的音频数据,在各个用户中确定各个目标用户。将各个目标用户分别对应的音频数据发送给语音识别服务端,以使语音识别服务端反馈各个目标用户分别对应的音频特征。然后接收语音识别服务端反馈的各个目标用户分别对应的音频特征,利用各个目标用户分别对应的音频特征对解析规则进行更新,将更新后的解析规则确定为下一个解析规则更新周期对应的解析规则。通过上述可知,语音识别终端将各个目标用户分别对应的音频数据发送给了语音识别服务端,以便语音识别服务端能够反馈各个目标用户分别对应的音频特征。然后语音识别终端利用语音识别服务端反馈的各个目标用户分别对应的音频特征对当前解析规则更新周期对应的解析规则进行更新。由于解析规则可以根据各个用户对应的音频特征进行更新,因此,本发明提供的实施例可以提高语音识别的准确率。
2、在本发明实施例中,在当前解析规则更新周期为第一次解析规则更新周期时,将外部输入的解析规则确定为当前解析规则更新周期对应的解析规则。在当前解析规则更新周期为非第一次解析规则更新周期时,将上一个解析规则更新周期中更新的解析规则确定为当前解析规则更新周期对应的解析规则。通过上述可知,对第一次解析规则更新周期以及非第一次解析规则更新周期分别进行不同的解析规则确定操作,因此可以保证每一次解析规则更新周期均使用最新的解析规则。
3、在本发明实施例中,利用解析规则中包括的各个声学模型、每一个声学模型对应的命令词,以及提取的各个用户音频数据对应的声学特征,确定各个用户是否为目标用户。因此可以提高目标用户是有效用户的概率。
4、在本发明实施例中,利用各个目标用户分别对应的声音特征和用词特征,分别对解析规则中的每一个声学模型进行更新。提高了各个声学模型与各个目标用户的匹配度,从而提高语音识别的准确率。
5、在本发明实施例中,为每一个命令词分别分配对应的操作动作。当用户对应的音频数据转换的文本信息中存在与目标命令词一致的关键词时,执行目标命令词对应的操作动作,以满足目标用户动作要求。
6、在本发明实施例中,在接收到语音识别终端发送的当前解析规则更新周期内的各个目标用户分别对应的音频数据时,根据各个目标用户分别对应的音频数据,确定各个目标用户分别对应的音频特征。然后将确定的各个目标用户分别对应的音频特征反馈给语音识别终端,以使语音识别终端利用各个目标用户分别对应的音频特征对当前解析规则更新周期对应的解析规则进行更新。通过上述可知,语音识别服务端可以根据各个目标用户分别对应的音频数据确定各个目标用户分别对应的音频特征,并将确定的各个音频特征反馈给语音识别终端,以使语音识别终端利用各个目标用户分别对应的音频特征对当前解析规则更新周期对应的解析规则进行更新。因此,本发明提供的方案可以提高语音识别的准确率。
7、在本发明实施例中,提取各个目标用户对应的音频数据中的声音特征和用词特征。然后利用提取的声音特征和用词特征,确定各个目标用户对应的音频特征。由于目标用户对应的音频特征是在其对应的音频数据中提取的,因此各个音频特征与其对应的目标用户的匹配度较高。
8、在本发明实施例中,通过目标用户确定单元利用解析规则确定单元确定的解析规则以及采集单元采集的各个用户分别对应的音频数据,在各个用户中确定各个目标用户。然后利用音频数据发送单元将各个目标用户分别对应的音频数据发送给的语音识别服务端,以使语音识别服务端反馈各个目标用户分别对应的音频特征。再利用更新单元接收语音识别服务端反馈的各个目标用户分别对应的音频特征,并利用各个目标用户分别对应的音频特征对解析规则进行更新,将更新后的解析规则确定为下一个解析规则更新周期对应的解析规则。通过上述可知,语音识别终端将各个目标用户分别对应的音频数据发送给了语音识别服务端,以便语音识别服务端能够反馈各个目标用户分别对应的音频特征。然后语音识别终端利用语音识别服务端反馈的各个目标用户分别对应的音频特征对当前解析规则更新周期对应的解析规则进行更新。由于解析规则可以根据各个用户对应的音频特征进行更新,因此,本发明提供的实施例可以提高语音识别的准确率。
9、在本发明实施例中,通过音频特征确定单元根据接收单元接收的各个目标用户分别对应的音频数据,确定各个目标用户分别对应的音频特征。然后利用音频特征发送单元将音频特征确定单元确定的各个目标用户分别对应的音频特征反馈给语音识别终端,以使语音识别终端利用各个目标用户分别对应的音频特征对当前解析规则更新周期对应的解析规则进行更新。通过上述可知,语音识别服务端可以根据各个目标用户分别对应的音频数据确定各个目标用户分别对应的音频特征,并将各个音频特征反馈给语音识别终端,以使语音识别终端利用各个目标用户分别对应的音频特征对当前解析规则更新周期对应的解析规则进行更新。因此,本发明提供的方案可以提高语音识别的准确率。
10、在本发明实施例中,语音识别终端将各个目标用户分别对应的音频数据发送给了语音识别服务端,以便语音识别服务端能够反馈各个目标用户分别对应的音频特征。然后语音识别终端利用语音识别服务端反馈的各个目标用户分别对应的音频特征对当前解析规则更新周期对应的解析规则进行更新。由于解析规则可以根据各个用户对应的音频特征进行更新,因此,本发明提供的实施例可以提高语音识别的准确率。
需要说明的是,在本文中,诸如第一和第二之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个······”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同因素。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储在计算机可读取的存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质中。
最后需要说明的是:以上所述仅为本发明的较佳实施例,仅用于说明本发明的技术方案,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所做的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (10)

1.一种语音识别方法,其特征在于,应用于语音识别终端,包括:
确定当前解析规则更新周期对应的解析规则;
采集当前解析规则更新周期内的各个用户分别对应的音频数据;
利用确定的所述解析规则以及各个所述用户分别对应的音频数据,在各个所述用户中确定各个目标用户;
将各个所述目标用户分别对应的音频数据发送给外部的语音识别服务端,以使所述语音识别服务端反馈各个所述目标用户分别对应的音频特征;
接收所述语音识别服务端反馈的各个所述目标用户分别对应的音频特征,利用各个所述目标用户分别对应的音频特征对所述解析规则进行更新,将更新后的解析规则确定为下一个解析规则更新周期对应的解析规则。
2.根据权利要求1所述的方法,其特征在于,
所述解析规则包括:至少一个声学模型以及每一个所述声学模型对应的命令词;
所述利用确定的所述解析规则以及各个所述用户分别对应的音频数据,在各个所述用户中确定各个目标用户,包括:
针对每一个所述用户均执行:
提取当前所述用户对应的音频数据的声学特征,判断提取的声学特征在所述至少一个声学模型中是否存在对应的目标声学模型;
当判断出提取的声学特征在所述至少一个声学模型中存在对应的目标声学模型时,确定所述目标声学模型对应的目标命令词,并将当前所述用户对应的音频数据转换为文本信息,确定所述文本信息中是否存在与所述目标命令词一致的关键词;
当确定所述文本信息中存在与所述目标命令词一致的关键词时,确定当前所述用户为目标用户。
3.根据权利要求2所述的方法,其特征在于,
所述音频特征包括:声音特征和用词特征;
所述利用各个所述目标用户分别对应的音频特征对所述解析规则进行更新,包括:
利用各个所述目标用户分别对应的声音特征和用词特征,分别对所述解析规则中的每一个所述声学模型进行更新;
和/或,
进一步包括:
为每一个所述命令词分别分配对应的操作动作;
当确定所述文本信息中存在与所述目标命令词一致的关键词时,确定所述目标命令词对应的操作动作,并执行所述目标命令词对应的操作动作。
4.一种语音识别方法,其特征在于,应用于语音识别服务端,包括:
接收外部的语音识别终端发送的当前解析规则更新周期内的各个目标用户分别对应的音频数据;
根据各个所述目标用户分别对应的音频数据,确定各个所述目标用户分别对应的音频特征;
将确定的各个所述目标用户分别对应的音频特征反馈给所述语音识别终端,以使所述语音识别终端利用各个所述目标用户分别对应的音频特征对当前所述解析规则更新周期对应的解析规则进行更新。
5.根据权利要求4所述的方法,其特征在于,
所述根据各个所述目标用户分别对应的音频数据,确定各个所述目标用户分别对应的音频特征,包括:
针对每一个所述目标用户均执行:
提取当前所述目标用户对应的音频数据中的声音特征和用词特征;
利用提取的声音特征和用词特征,确定当前所述目标用户对应的音频特征。
6.一种语音识别终端,其特征在于,包括:
解析规则确定单元,用于确定当前解析规则更新周期对应的解析规则;
采集单元,用于采集当前解析规则更新周期内的各个用户分别对应的音频数据;
目标用户确定单元,用于利用所述解析规则确定单元确定的所述解析规则以及所述采集单元采集的各个所述用户分别对应的音频数据,在各个所述用户中确定各个目标用户;
音频数据发送单元,用于将各个所述目标用户分别对应的音频数据发送给外部的语音识别服务端,以使所述语音识别服务端反馈各个所述目标用户分别对应的音频特征;
更新单元,用于接收所述语音识别服务端反馈的各个所述目标用户分别对应的音频特征,利用各个所述目标用户分别对应的音频特征对所述解析规则进行更新,将更新后的解析规则确定为下一个解析规则更新周期对应的解析规则。
7.根据权利要求6所述的语音识别终端,其特征在于,
所述解析规则包括:至少一个声学模型以及每一个所述声学模型对应的命令词;
所述目标用户确定单元,包括:提取子单元、确定子单元;
所述提取子单元,用于针对每一个所述用户均执行:提取当前所述用户对应的音频数据的声学特征,判断提取的声学特征在所述至少一个声学模型中是否存在对应的目标声学模型,当判断出所述提取的声学特征在所述至少一个声学模型中存在对应的目标声学模型时,触发所述确定子单元;
所述确定子单元,在所述提取子单元的触发下,确定所述目标声学模型对应的目标命令词,并将当前所述用户对应的音频数据转换为文本信息,确定所述文本信息中是否存在与所述目标命令词一致的关键词;当确定所述文本信息中存在与所述目标命令词一致的关键词时,确定当前所述用户为目标用户。
8.根据权利要求7所述的语音识别终端,其特征在于,
所述音频特征包括:声音特征和用词特征;
所述更新单元,用于利用各个所述目标用户分别对应的声音特征和用词特征,分别对所述解析规则中的每一个所述声学模型进行更新;
和/或,
进一步包括:执行单元;
所述解析规则确定单元,进一步用于为每一个所述命令词分别分配对应的操作动作;
所述执行单元,用于在所述确定子单元确定所述文本信息中存在与所述目标命令词一致的关键词时,确定所述目标命令词对应的操作动作,并执行所述目标命令词对应的操作动作。
9.一种语音识别服务端,其特征在于,包括:
接收单元,用于接收外部的语音识别终端发送的当前解析规则更新周期内的各个目标用户分别对应的音频数据;
音频特征确定单元,用于根据所述接收单元接收的各个所述目标用户分别对应的音频数据,确定各个所述目标用户分别对应的音频特征;
音频特征发送单元,用于将所述音频特征确定单元确定的各个所述目标用户分别对应的音频特征反馈给所述语音识别终端,以使所述语音识别终端利用各个所述目标用户分别对应的音频特征对当前所述解析规则更新周期对应的解析规则进行更新。
10.根据权利要求9所述的语音识别服务端,其特征在于,
所述音频特征确定单元,用于针对每一个所述目标用户均执行:提取当前所述目标用户对应的音频数据中的声音特征和用词特征;利用提取的声音特征和用词特征,确定当前所述目标用户对应的音频特征。
CN201710729819.5A 2017-08-23 2017-08-23 一种语音识别方法、终端以及服务端 Pending CN107464558A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710729819.5A CN107464558A (zh) 2017-08-23 2017-08-23 一种语音识别方法、终端以及服务端

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710729819.5A CN107464558A (zh) 2017-08-23 2017-08-23 一种语音识别方法、终端以及服务端

Publications (1)

Publication Number Publication Date
CN107464558A true CN107464558A (zh) 2017-12-12

Family

ID=60550242

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710729819.5A Pending CN107464558A (zh) 2017-08-23 2017-08-23 一种语音识别方法、终端以及服务端

Country Status (1)

Country Link
CN (1) CN107464558A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108597500A (zh) * 2018-03-30 2018-09-28 四川斐讯信息技术有限公司 一种智能穿戴设备及基于智能穿戴设备的语音识别方法
WO2021051403A1 (zh) * 2019-09-20 2021-03-25 深圳市汇顶科技股份有限公司 一种语音控制方法、装置、芯片、耳机及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20020044629A (ko) * 2000-12-06 2002-06-19 백종관 명령어 갱신이 가능한 음성인식 방법 및 그 시스템
CN101441869A (zh) * 2007-11-21 2009-05-27 联想(北京)有限公司 语音识别终端用户身份的方法及终端
CN103943110A (zh) * 2013-01-21 2014-07-23 联想(北京)有限公司 控制方法、装置和电子设备
CN106328124A (zh) * 2016-08-24 2017-01-11 安徽咪鼠科技有限公司 一种基于用户行为特征的语音识别方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20020044629A (ko) * 2000-12-06 2002-06-19 백종관 명령어 갱신이 가능한 음성인식 방법 및 그 시스템
CN101441869A (zh) * 2007-11-21 2009-05-27 联想(北京)有限公司 语音识别终端用户身份的方法及终端
CN103943110A (zh) * 2013-01-21 2014-07-23 联想(北京)有限公司 控制方法、装置和电子设备
CN106328124A (zh) * 2016-08-24 2017-01-11 安徽咪鼠科技有限公司 一种基于用户行为特征的语音识别方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108597500A (zh) * 2018-03-30 2018-09-28 四川斐讯信息技术有限公司 一种智能穿戴设备及基于智能穿戴设备的语音识别方法
WO2021051403A1 (zh) * 2019-09-20 2021-03-25 深圳市汇顶科技股份有限公司 一种语音控制方法、装置、芯片、耳机及系统
CN113039601A (zh) * 2019-09-20 2021-06-25 深圳市汇顶科技股份有限公司 一种语音控制方法、装置、芯片、耳机及系统

Similar Documents

Publication Publication Date Title
US10832686B2 (en) Method and apparatus for pushing information
WO2021017612A1 (zh) 基于语音分析的问答方法、装置、设备及存储介质
CN104854654B (zh) 用于使用搜索查询信息的言语识别处理的方法和系统
CN103871403B (zh) 建立语音识别模型的方法、语音识别方法及对应装置
CN106328147A (zh) 语音识别方法和装置
US8498869B2 (en) Deriving geographic distribution of physiological or psychological conditions of human speakers while preserving personal privacy
CN103903627A (zh) 一种语音数据的传输方法及装置
CN109147758A (zh) 一种说话人声音转换方法及装置
JP6459080B2 (ja) 文字データの内容を文字データ送信者の音声で出力する方法
CN106920303A (zh) 一种基于语音识别的开锁方法及其智能门锁系统
CN104185868A (zh) 话音认证和语音识别系统及方法
US20060149555A1 (en) System and method of providing an automated data-collection in spoken dialog systems
CN106407178A (zh) 一种会话摘要生成方法及装置
CN105096941A (zh) 语音识别方法以及装置
CN108255934A (zh) 一种语音控制方法及装置
CN103295575B (zh) 一种语音识别方法和客户端
CN103944983B (zh) 语音控制指令纠错方法和系统
CN107995249A (zh) 一种语音播报的方法和装置
CN111182162A (zh) 基于人工智能的电话质检方法、装置、设备和存储介质
CN103635962A (zh) 声音识别系统、识别字典登记系统以及声学模型标识符序列生成装置
WO2020082573A1 (zh) 基于长短时神经网络的多声部音乐生成方法及装置
CN109933774A (zh) 语义识别方法、装置存储介质和电子装置
CN107943914A (zh) 语音信息处理方法和装置
CN107655154A (zh) 终端控制方法、空调器及计算机可读存储介质
CN109584887A (zh) 一种声纹信息提取模型生成、声纹信息提取的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 621050 No. 303 Jiuzhou Road, Fucheng District, Mianyang, Sichuan.

Applicant after: Sichuan Hongmei Intelligent Technology Co., Ltd.

Address before: 621050 No. 303 Jiuzhou Road, Fucheng District, Mianyang, Sichuan.

Applicant before: Mianyang MeiLing Software Technology Co., Ltd.

CB02 Change of applicant information
RJ01 Rejection of invention patent application after publication

Application publication date: 20171212

RJ01 Rejection of invention patent application after publication