CN107403619B - 一种应用于自行车环境的语音控制方法及系统 - Google Patents
一种应用于自行车环境的语音控制方法及系统 Download PDFInfo
- Publication number
- CN107403619B CN107403619B CN201710522405.5A CN201710522405A CN107403619B CN 107403619 B CN107403619 B CN 107403619B CN 201710522405 A CN201710522405 A CN 201710522405A CN 107403619 B CN107403619 B CN 107403619B
- Authority
- CN
- China
- Prior art keywords
- recognition result
- result text
- voice message
- intention
- theme
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
Abstract
本发明公开了一种应用于自行车环境的语音控制方法及系统,其中方法包括:获取语音消息,对语音消息进行预处理;对语音消息进行语音识别,从而将语音消息转化为识别结果文本;对识别结果文本进行预处理;判断识别结果文本的主题,然后判断识别结果文本的意图和抽取实体信息;根据识别结果文本的主题、意图、实体信息查找数据库,匹配并执行识别结果文本对应的动作。有益效果:利用人工神经网络模型和隐马尔可夫模型的混合模型进行语音识别,语音识别效果更好;通过先判断出主题,再判断出意图是主题对应的意图集合中的哪一个,能够更加精准地挖掘出用户意图;不需要人工编写特征,准确率较高、系统扩展性/维护性强、耗时较少。
Description
技术领域
本发明涉及深度学习技术领域,尤其是涉及一种应用于自行车环境的语音控制方法及系统。
背景技术
目前工业界主要基于特征工程的方法完成语义信息的识别和提取,然而特征工程需要大量人工标注数据集以及大量规则的编写,非常耗时耗力;还有部分技术基于深度学习来完成这一任务,虽然不用人工编写特征,但是其需要大量的人工标注数据,仍然比较耗时,且准确率不够高。
发明内容
本发明的目的在于克服上述技术不足,提出一种应用于自行车环境的语音控制方法及系统,解决现有技术中的上述技术问题。
为达到上述技术目的,本发明的技术方案提供一种应用于自行车环境的语音控制方法,包括:
S1、获取语音消息,对语音消息进行预处理;
S2、对预处理后的语音消息进行语音识别,从而将预处理后的语音消息转化为识别结果文本;
S3、对识别结果文本进行预处理;
S4、识别结果文本进行预处理操作后,判断识别结果文本的主题,然后判断识别结果文本的意图和抽取识别结果文本的实体信息;
S5、根据识别结果文本的主题、意图、实体信息查找数据库,匹配出识别结果文本对应的动作;
S6、执行S5匹配到的动作。
本发明还提供一种应用于自行车环境的语音控制系统,包括:
语音消息预处理模块:获取语音消息,对语音消息进行预处理;
语音识别模块:对预处理后的语音消息进行语音识别,从而将预处理后的语音消息转化为识别结果文本;
文本预处理模块:对识别结果文本进行预处理;
主题意图判断模块:识别结果文本进行预处理操作后,判断识别结果文本的主题,然后判断识别结果文本的意图和抽取识别结果文本的实体信息;
动作匹配模块:根据识别结果文本的主题、意图、实体信息查找数据库,匹配出识别结果文本对应的动作;
动作执行模块:执行动作匹配模块匹配到的动作。
与现有技术相比,本发明的有益效果包括:利用人工神经网络模型和隐马尔可夫模型的混合模型进行语音识别,不仅能充分利用神经网络强的分类能力和输入输出映射能力,同时保留了隐马尔可夫模型较强的对时间序列结构的建模能力,使得语音识别效果更好;通过先判断出识别结果文本的主题,再判断出识别结果文本的意图是主题对应的意图集合中的哪一个,在用户需求多样化的情况下,能够更加精准地挖掘出用户意图,更好地与用户进行交互;本发明的方法不需要人工编写特征,准确率较高、系统扩展性/维护性强、耗时较少。
附图说明
图1是本发明提供的一种应用于自行车环境的语音控制方法流程图;
图2是本发明提供的一种应用于自行车环境的语音控制系统结构框图。
附图中:1、应用于自行车环境的语音控制系统,11、语音消息预处理模块,12、语音识别模块,13、文本预处理模块,14、主题意图判断模块,15、动作匹配模块,16、动作执行模块。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
如今骑自行车出行已经成为主流出行方式之一,用户在骑自行车时,有时候需要操作手机进行接打电话、听歌娱乐或者路线导航等,但是由于骑车时双手需要紧握方向盘,不方便操作手机,这时,如果能够通过语音进行一些操作将极大方便用户。
本发明提供了一种应用于自行车环境的语音控制方法,包括:
S1、获取语音消息,对语音消息进行预处理;
S2、对预处理后的语音消息进行语音识别,从而将预处理后的语音消息转化为识别结果文本;
S3、对识别结果文本进行预处理;
S4、识别结果文本进行预处理操作后,判断识别结果文本的主题,然后判断识别结果文本的意图和抽取识别结果文本的实体信息;
S5、根据识别结果文本的主题、意图、实体信息查找数据库,匹配出识别结果文本对应的动作;
S6、执行S5匹配到的动作。
本发明所述的应用于自行车环境的语音控制方法,步骤S1中预处理操作包括:
S11、利用谐波噪声的自适应梳状滤波对语音消息进行基频跟踪实现降噪,再利用声码器再合成法,对语音消息进行迭代降噪;
S12、针对不同噪音进行相应建模,例如针对风噪、车噪、路噪建立相应的风噪模型、车噪模型、路噪模型,利用建立的噪声模型过滤语音消息中的风噪、车噪、路噪,再利用人声模型对语音消息进行声音过滤,过滤出人声;
S13、使用指向性麦克风,通过麦克风精准指向用户人声声源,结合DSP算法和干扰相减法,将语音消息的非人声噪声减去,同时对语音消息的人声进行信号放大;
S14、对语音消息进行切分和加窗处理:按照固定时间长度(如:20ms)将语音消息切分为多段音频片段,每一段音频片段称为语音消息的一帧;然后对所有的帧进行加窗处理。
本发明所述的应用于自行车环境的语音控制方法,步骤S2中:
利用人工神经网络模型和隐马尔可夫模型的混合模型进行语音识别,语音识别的具体步骤为:
语音消息进行预处理后,提取语音消息每一帧的特征参数;将当前帧的特征参数和前一帧的特征参数送入人工神经网络模型,通过人工神经网络计算得到当前帧对应在各个马尔科夫过程的状态的后验概率;其后,将各个马尔科夫过程的状态的后验概率作为输入传给隐马尔可夫模型,隐马尔可夫模型联合语法知识和语义知识构建解码空间,并将解码空间中最优的状态序列转换成对应的音素,然后再查找字典,组装成单词,从而获取语音识别后的识别结果文本;各个马尔科夫过程的状态为:将全部声母和韵母作为汉语的音素集,每一个音素划分成3个马尔科夫过程的状态。
本发明所述的应用于自行车环境的语音控制方法,步骤S3中预处理操作为:
将识别结果文本进行分词、词性标注以及去除停用词后形成词语序列,其中,利用DNN深度神经网络对识别结果文本进行分词、词性标注。
本发明所述的应用于自行车环境的语音控制方法,步骤S4中:
预先设置包含若干主题的一主题集合,主题集合中每一主题与一意图集合建立映射关系,意图集合包含若干意图。
本发明所述的应用于自行车环境的语音控制方法,步骤S4中判断识别结果文本的主题的步骤为:
采用双向的长短期记忆模型作为主题判断模型,将词语序列对应的词向量序列输入主题判断模型,获取识别结果文本在主题集合中的各个主题上的概率分布,选取概率值最大的主题为识别结果文本的主题;
例如,用户输入语音“武汉天气怎么样”,主题为天气,可以判断出用户的真实需求在哪个领域。
本发明所述的应用于自行车环境的语音控制方法,步骤S4中判断识别结果文本的意图的步骤为:
确定用户的真实需求在哪个领域后,由于用户的需求是多样化的(例如,当主题为天气时,其包含的意图可能有紫外线,雾霾,风力,雨和雪等),为了更加精准的与用户进行交互,挖掘出在一领域下用户的意图是什么是非常重要的,本发明采用双向的长短期记忆模型作为意图判断模型,将词语序列对应的词向量序列输入意图判断模型,获取识别结果文本在主题对应的意图集合中的各个意图上的概率分布,选取概率值最大的意图为识别结果文本的意图;
例如,用户输入语音“今天雾霾大么”,其主题为天气,意图则是咨询雾霾相关信息。
本发明所述的应用于自行车环境的语音控制方法,步骤S4中:
抽取识别结果文本的实体信息,实体信息是预先定义的特定内容的信息,例如定义需要抽取的实体信息为地点信息、时间信息,识别结果文本为“武汉今天天气怎么样”,则抽取的实体信息为“地点=武汉”,“时间=今天”。实体信息抽取通过条件随机场模型实现。
本发明所述的应用于自行车环境的语音控制方法,步骤S5中:
根据识别结果文本的主题、意图、实体信息查找数据库,匹配出识别结果文本对应的动作,匹配到的动作例如:查找相关信息、播放相关音乐、拨打相关电话等。
本发明还提供一种应用于自行车环境的语音控制系统1,包括:
语音消息预处理模块11:获取语音消息,对语音消息进行预处理;
语音识别模块12:对预处理后的语音消息进行语音识别,从而将预处理后的语音消息转化为识别结果文本;
文本预处理模块13:对识别结果文本进行预处理;
主题意图判断模块14:识别结果文本进行预处理操作后,判断识别结果文本的主题,然后判断识别结果文本的意图和抽取识别结果文本的实体信息;
动作匹配模块15:根据识别结果文本的主题、意图、实体信息查找数据库,匹配出识别结果文本对应的动作;
动作执行模块16:执行动作匹配模块15匹配到的动作。
本发明所述的应用于自行车环境的语音控制系统1,语音消息预处理模块11包括:
第一处理单元:利用谐波噪声的自适应梳状滤波对语音消息进行基频跟踪实现降噪,再利用声码器再合成法,对语音消息进行迭代降噪;
第二处理单元:针对不同噪音进行相应建模,利用建立的各种噪声的模型过滤语音消息的噪声,再利用人声模型对语音消息进行声音过滤;
第三处理单元:结合DSP算法和干扰相减法,将语音消息的非人声噪声减去,同时对语音消息的人声进行信号放大;
第四处理单元:对语音消息进行切分和加窗处理。
本发明所述的应用于自行车环境的语音控制系统1,语音识别模块12中:
利用人工神经网络模型和隐马尔可夫模型的混合模型进行语音识别。
本发明所述的应用于自行车环境的语音控制系统1,文本预处理模块13中:
将识别结果文本进行分词、词性标注以及去除停用词后形成词语序列。
本发明所述的应用于自行车环境的语音控制系统1,主题意图判断模块14中:
预先设置包含若干主题的一主题集合,主题集合中每一主题与一意图集合建立映射关系,意图集合包含若干意图;
采用双向的长短期记忆模型作为主题判断模型,将词语序列对应的词向量序列输入主题判断模型,获取识别结果文本在主题集合中的各个主题上的概率分布,选取概率值最大的主题为识别结果文本的主题;
采用双向的长短期记忆模型作为意图判断模型,将词语序列对应的词向量序列输入意图判断模型,获取识别结果文本在主题对应的意图集合中的各个意图上的概率分布,选取概率值最大的意图为识别结果文本的意图。
与现有技术相比,本发明的有益效果包括:利用人工神经网络模型和隐马尔可夫模型的混合模型进行语音识别,不仅能充分利用神经网络强的分类能力和输入输出映射能力,同时保留了隐马尔可夫模型较强的对时间序列结构的建模能力,使得语音识别效果更好;通过先判断出识别结果文本的主题,再判断出识别结果文本的意图是主题对应的意图集合中的哪一个,在用户需求多样化的情况下,能够更加精准地挖掘出用户意图,更好地与用户进行交互;本发明的方法不需要人工编写特征,准确率较高、系统扩展性/维护性强、耗时较少。
以上所述本发明的具体实施方式,并不构成对本发明保护范围的限定。任何根据本发明的技术构思所做出的各种其他相应的改变与变形,均应包含在本发明权利要求的保护范围内。
Claims (2)
1.一种应用于自行车环境的语音控制方法,其特征在于,包括:
S1、获取语音消息,对所述语音消息进行预处理;
S2、对预处理后的所述语音消息进行语音识别,从而将预处理后的所述语音消息转化为识别结果文本;
S3、对所述识别结果文本进行预处理;
S4、所述识别结果文本进行预处理操作后,判断所述识别结果文本的主题,然后判断所述识别结果文本的意图和抽取所述识别结果文本的实体信息;
S5、根据所述识别结果文本的主题、意图、实体信息查找数据库,匹配出所述识别结果文本对应的动作;
S6、执行S5匹配到的动作;
步骤S1中预处理操作包括:
S11、利用谐波噪声的自适应梳状滤波对所述语音消息进行基频跟踪实现降噪,再利用声码器再合成法,对所述语音消息进行迭代降噪;
S12、针对不同噪音进行相应建模,利用建立的各种噪声的模型过滤所述语音消息的噪声,再利用人声模型对所述语音消息进行声音过滤;
S13、使用指向性麦克风,通过麦克风精准指向用户人声声源,结合DSP算法和干扰相减法,将所述语音消息的非人声噪声减去,同时对所述语音消息的人声进行信号放大;
S14、按照固定时间长度将语音消息切分为多段音频片段,每一段音频片段称为语音消息的一帧;然后对所有的帧进行加窗处理;
步骤S2中,利用人工神经网络模型和隐马尔可夫模型的混合模型进行语音识别,具体步骤为:
语音消息进行预处理后,提取语音消息每一帧的特征参数;将当前帧的特征参数和前一帧的特征参数送入人工神经网络模型,通过人工神经网络计算得到当前帧对应在各个马尔科夫过程的状态的后验概率;其后,将各个马尔科夫过程的状态的后验概率作为输入传给隐马尔可夫模型,隐马尔可夫模型联合语法知识和语义知识构建解码空间,并将解码空间中最优的状态序列转换成对应的音素,然后再查找字典,组装成单词,从而获取语音识别后的识别结果文本;各个马尔科夫过程的状态为:将全部声母和韵母作为汉语的音素集,每一个音素划分成3个马尔科夫过程的状态;
步骤S3中预处理操作为:
将所述识别结果文本进行分词、词性标注以及去除停用词后形成词语序列;
步骤S4中:
预先设置包含若干主题的一主题集合,主题集合中每一主题与一意图集合建立映射关系,意图集合包含若干意图;
判断所述识别结果文本的主题的步骤为:采用双向的长短期记忆模型作为主题判断模型,将词语序列对应的词向量序列输入主题判断模型,获取识别结果文本在主题集合中的各个主题上的概率分布,选取概率值最大的主题为识别结果文本的主题;
判断所述识别结果文本的意图的步骤为:采用双向的长短期记忆模型作为意图判断模型,将词语序列对应的词向量序列输入意图判断模型,获取识别结果文本在主题对应的意图集合中的各个意图上的概率分布,选取概率值最大的意图为识别结果文本的意图。
2.一种应用于自行车环境的语音控制系统,其特征在于,包括:
语音消息预处理模块:获取所述语音消息,对所述语音消息进行预处理;
语音识别模块:对预处理后的所述语音消息进行语音识别,从而将预处理后的所述语音消息转化为识别结果文本;
文本预处理模块:对所述识别结果文本进行预处理;
主题意图判断模块:所述识别结果文本进行预处理操作后,判断所述识别结果文本的主题,然后判断所述识别结果文本的意图和抽取识别结果文本的实体信息;
动作匹配模块:根据所述识别结果文本的主题、意图、实体信息查找数据库,匹配出识别结果文本对应的动作;
动作执行模块:执行动作匹配模块匹配到的动作;
语音消息预处理模块包括:
第一处理单元:利用谐波噪声的自适应梳状滤波对所述语音消息进行基频跟踪实现降噪,再利用声码器再合成法,对所述语音消息进行迭代降噪;
第二处理单元:针对不同噪音进行相应建模,利用建立的各种噪声的模型过滤所述语音消息的噪声,再利用人声模型对所述语音消息进行声音过滤;
第三处理单元:使用指向性麦克风,通过麦克风精准指向用户人声声源,结合DSP算法和干扰相减法,将所述语音消息的非人声噪声减去,同时对所述语音消息的人声进行信号放大;
第四处理单元:按照固定时间长度将语音消息切分为多段音频片段,每一段音频片段称为语音消息的一帧;然后对所有的帧进行加窗处理;
语音识别模块中:
利用人工神经网络模型和隐马尔可夫模型的混合模型进行语音识别,其具体包括:
语音消息进行预处理后,提取语音消息每一帧的特征参数;将当前帧的特征参数和前一帧的特征参数送入人工神经网络模型,通过人工神经网络计算得到当前帧对应在各个马尔科夫过程的状态的后验概率;其后,将各个马尔科夫过程的状态的后验概率作为输入传给隐马尔可夫模型,隐马尔可夫模型联合语法知识和语义知识构建解码空间,并将解码空间中最优的状态序列转换成对应的音素,然后再查找字典,组装成单词,从而获取语音识别后的识别结果文本;各个马尔科夫过程的状态为:将全部声母和韵母作为汉语的音素集,每一个音素划分成3个马尔科夫过程的状态;
文本预处理模块中:
将识别结果文本进行分词、词性标注以及去除停用词后形成词语序列;
主题意图判断模块中:
预先设置包含若干主题的一主题集合,主题集合中每一主题与一意图集合建立映射关系,意图集合包含若干意图;
采用双向的长短期记忆模型作为主题判断模型,将词语序列对应的词向量序列输入主题判断模型,获取所述识别结果文本在主题集合中的各个主题上的概率分布,选取概率值最大的主题为所述识别结果文本的主题;
采用双向的长短期记忆模型作为意图判断模型,将词语序列对应的词向量序列输入意图判断模型,获取所述识别结果文本在主题对应的意图集合中的各个意图上的概率分布,选取概率值最大的意图为所述识别结果文本的意图。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710522405.5A CN107403619B (zh) | 2017-06-30 | 2017-06-30 | 一种应用于自行车环境的语音控制方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710522405.5A CN107403619B (zh) | 2017-06-30 | 2017-06-30 | 一种应用于自行车环境的语音控制方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107403619A CN107403619A (zh) | 2017-11-28 |
CN107403619B true CN107403619B (zh) | 2021-05-28 |
Family
ID=60405257
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710522405.5A Active CN107403619B (zh) | 2017-06-30 | 2017-06-30 | 一种应用于自行车环境的语音控制方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107403619B (zh) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108198567A (zh) * | 2018-02-22 | 2018-06-22 | 成都启英泰伦科技有限公司 | 一种新型语音除噪系统 |
CN110197672B (zh) * | 2018-02-27 | 2021-09-21 | 招商信诺人寿保险有限公司 | 一种语音通话质量检测方法、服务器、存储介质 |
CN109036381A (zh) * | 2018-08-08 | 2018-12-18 | 平安科技(深圳)有限公司 | 语音处理方法及装置、计算机装置及可读存储介质 |
CN109242020A (zh) * | 2018-09-07 | 2019-01-18 | 苏州亭云智能科技有限公司 | 一种基于fastText和CRF的音乐领域命令理解方法 |
CN110164450B (zh) * | 2019-05-09 | 2023-11-28 | 腾讯科技(深圳)有限公司 | 登录方法、装置、播放设备及存储介质 |
CN112100364A (zh) * | 2019-05-29 | 2020-12-18 | 北京地平线机器人技术研发有限公司 | 文本语义理解方法和模型训练方法、装置、设备和介质 |
CN110830661A (zh) * | 2019-11-11 | 2020-02-21 | 科大国创软件股份有限公司 | 一种用于智能语音客服的自动拨测方法 |
CN111460122A (zh) * | 2020-04-03 | 2020-07-28 | 成都晓多科技有限公司 | 基于深度学习的尺码识别方法与系统 |
CN111523327B (zh) * | 2020-04-23 | 2023-08-22 | 北京市科学技术情报研究所 | 一种基于语音识别的文本确定方法及系统 |
CN111816180B (zh) * | 2020-07-08 | 2022-02-08 | 北京声智科技有限公司 | 基于语音控制电梯的方法、装置、设备、系统及介质 |
CN112863518B (zh) * | 2021-01-29 | 2024-01-09 | 深圳前海微众银行股份有限公司 | 一种语音数据主题识别的方法及装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1125280B1 (en) * | 1999-08-31 | 2007-01-24 | Accenture LLP | Detecting emotion in voice signals through analysis of a plurality of voice signal parameters |
KR20150026645A (ko) * | 2013-09-03 | 2015-03-11 | 박예림 | 패턴인식 기술을 이용한 음성 화상 인식 어플리케이션 프로그램. |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103177024A (zh) * | 2011-12-23 | 2013-06-26 | 微梦创科网络科技(中国)有限公司 | 一种话题信息展现方法和装置 |
WO2014039106A1 (en) * | 2012-09-10 | 2014-03-13 | Google Inc. | Answering questions using environmental context |
CN103945044A (zh) * | 2013-01-22 | 2014-07-23 | 中兴通讯股份有限公司 | 一种信息处理方法和移动终端 |
KR20160060243A (ko) * | 2014-11-19 | 2016-05-30 | 한국전자통신연구원 | 고객 응대 서비스 장치 및 방법 |
CN104882141A (zh) * | 2015-03-03 | 2015-09-02 | 盐城工学院 | 一种基于时延神经网络和隐马尔可夫模型的串口语音控制投影系统 |
US9465812B1 (en) * | 2015-03-19 | 2016-10-11 | Dana Bennet Robinson | Systems and methods for management of interred remains |
CN105206269A (zh) * | 2015-08-14 | 2015-12-30 | 百度在线网络技术(北京)有限公司 | 一种语音处理方法和装置 |
CN105206266B (zh) * | 2015-09-01 | 2018-09-11 | 重庆长安汽车股份有限公司 | 基于用户意图猜测的车载语音控制系统及方法 |
CN105589848A (zh) * | 2015-12-28 | 2016-05-18 | 百度在线网络技术(北京)有限公司 | 对话管理方法和装置 |
CN106057203A (zh) * | 2016-05-24 | 2016-10-26 | 深圳市敢为软件技术有限公司 | 一种精准语音控制方法及装置 |
CN106202301B (zh) * | 2016-07-01 | 2019-10-08 | 武汉泰迪智慧科技有限公司 | 一种基于深度学习的智能应答系统 |
CN106558310B (zh) * | 2016-10-14 | 2020-09-25 | 北京百度网讯科技有限公司 | 虚拟现实语音控制方法及装置 |
-
2017
- 2017-06-30 CN CN201710522405.5A patent/CN107403619B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1125280B1 (en) * | 1999-08-31 | 2007-01-24 | Accenture LLP | Detecting emotion in voice signals through analysis of a plurality of voice signal parameters |
KR20150026645A (ko) * | 2013-09-03 | 2015-03-11 | 박예림 | 패턴인식 기술을 이용한 음성 화상 인식 어플리케이션 프로그램. |
Non-Patent Citations (1)
Title |
---|
"Combining information from multi-stream features using deep neural network in speech Recognition";Pan zhou;《2012 IEEE 11th ICSP》;20121231;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN107403619A (zh) | 2017-11-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107403619B (zh) | 一种应用于自行车环境的语音控制方法及系统 | |
CN110838289B (zh) | 基于人工智能的唤醒词检测方法、装置、设备及介质 | |
CN110211565B (zh) | 方言识别方法、装置及计算机可读存储介质 | |
CN110364171B (zh) | 一种语音识别方法、语音识别系统及存储介质 | |
CN108735201B (zh) | 连续语音识别方法、装置、设备和存储介质 | |
CN103700370B (zh) | 一种广播电视语音识别系统方法及系统 | |
CN102142253B (zh) | 语音情感识别设备及方法 | |
CN110277088B (zh) | 智能语音识别方法、装置及计算机可读存储介质 | |
CN107093422B (zh) | 一种语音识别方法和语音识别系统 | |
CN110070859B (zh) | 一种语音识别方法及装置 | |
Kurpukdee et al. | Speech emotion recognition using convolutional long short-term memory neural network and support vector machines | |
US20220328065A1 (en) | Speech emotion recognition method and system based on fused population information | |
CN109887511A (zh) | 一种基于级联dnn的语音唤醒优化方法 | |
US11030999B1 (en) | Word embeddings for natural language processing | |
CN112750446A (zh) | 语音转换方法、装置和系统及存储介质 | |
CN111916064A (zh) | 一种端到端的神经网络语音识别模型的训练方法 | |
CN112562640A (zh) | 多语言语音识别方法、装置、系统及计算机可读存储介质 | |
CN111968622A (zh) | 一种基于注意力机制的语音识别方法、系统及装置 | |
CN107403620A (zh) | 一种语音识别方法及装置 | |
CN111508466A (zh) | 一种文本处理方法、装置、设备及计算机可读存储介质 | |
Zhang et al. | Improved context-dependent acoustic modeling for continuous Chinese speech recognition | |
CN111785302A (zh) | 说话人分离方法、装置及电子设备 | |
Sen et al. | A novel bangla spoken numerals recognition system using convolutional neural network | |
CN115171660A (zh) | 一种声纹信息处理方法、装置、电子设备及存储介质 | |
Yadava et al. | An end-to-end continuous Kannada ASR system under uncontrolled environment |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |