CN107403619B

CN107403619B - 一种应用于自行车环境的语音控制方法及系统

Info

Publication number: CN107403619B
Application number: CN201710522405.5A
Authority: CN
Inventors: 李成华; 叶正; 金灿灿; 刘丽君; 李骏; 刘雄风
Original assignee: Wuhan Tipdm Intelligent Technology Co ltd
Current assignee: Wuhan Tipdm Intelligent Technology Co ltd
Priority date: 2017-06-30
Filing date: 2017-06-30
Publication date: 2021-05-28
Anticipated expiration: 2037-06-30
Also published as: CN107403619A

Abstract

本发明公开了一种应用于自行车环境的语音控制方法及系统，其中方法包括：获取语音消息，对语音消息进行预处理；对语音消息进行语音识别，从而将语音消息转化为识别结果文本；对识别结果文本进行预处理；判断识别结果文本的主题，然后判断识别结果文本的意图和抽取实体信息；根据识别结果文本的主题、意图、实体信息查找数据库，匹配并执行识别结果文本对应的动作。有益效果：利用人工神经网络模型和隐马尔可夫模型的混合模型进行语音识别，语音识别效果更好；通过先判断出主题，再判断出意图是主题对应的意图集合中的哪一个，能够更加精准地挖掘出用户意图；不需要人工编写特征，准确率较高、系统扩展性/维护性强、耗时较少。

Description

一种应用于自行车环境的语音控制方法及系统

技术领域

本发明涉及深度学习技术领域，尤其是涉及一种应用于自行车环境的语音控制方法及系统。

背景技术

目前工业界主要基于特征工程的方法完成语义信息的识别和提取，然而特征工程需要大量人工标注数据集以及大量规则的编写，非常耗时耗力；还有部分技术基于深度学习来完成这一任务，虽然不用人工编写特征，但是其需要大量的人工标注数据，仍然比较耗时，且准确率不够高。

发明内容

本发明的目的在于克服上述技术不足，提出一种应用于自行车环境的语音控制方法及系统，解决现有技术中的上述技术问题。

为达到上述技术目的，本发明的技术方案提供一种应用于自行车环境的语音控制方法，包括：

S1、获取语音消息，对语音消息进行预处理；

S2、对预处理后的语音消息进行语音识别，从而将预处理后的语音消息转化为识别结果文本；

S3、对识别结果文本进行预处理；

S4、识别结果文本进行预处理操作后，判断识别结果文本的主题，然后判断识别结果文本的意图和抽取识别结果文本的实体信息；

S5、根据识别结果文本的主题、意图、实体信息查找数据库，匹配出识别结果文本对应的动作；

S6、执行S5匹配到的动作。

本发明还提供一种应用于自行车环境的语音控制系统，包括：

语音消息预处理模块：获取语音消息，对语音消息进行预处理；

语音识别模块：对预处理后的语音消息进行语音识别，从而将预处理后的语音消息转化为识别结果文本；

文本预处理模块：对识别结果文本进行预处理；

主题意图判断模块：识别结果文本进行预处理操作后，判断识别结果文本的主题，然后判断识别结果文本的意图和抽取识别结果文本的实体信息；

动作匹配模块：根据识别结果文本的主题、意图、实体信息查找数据库，匹配出识别结果文本对应的动作；

动作执行模块：执行动作匹配模块匹配到的动作。

与现有技术相比，本发明的有益效果包括：利用人工神经网络模型和隐马尔可夫模型的混合模型进行语音识别，不仅能充分利用神经网络强的分类能力和输入输出映射能力，同时保留了隐马尔可夫模型较强的对时间序列结构的建模能力，使得语音识别效果更好；通过先判断出识别结果文本的主题，再判断出识别结果文本的意图是主题对应的意图集合中的哪一个，在用户需求多样化的情况下，能够更加精准地挖掘出用户意图，更好地与用户进行交互；本发明的方法不需要人工编写特征，准确率较高、系统扩展性/维护性强、耗时较少。

附图说明

图1是本发明提供的一种应用于自行车环境的语音控制方法流程图；

图2是本发明提供的一种应用于自行车环境的语音控制系统结构框图。

附图中：1、应用于自行车环境的语音控制系统，11、语音消息预处理模块，12、语音识别模块，13、文本预处理模块，14、主题意图判断模块，15、动作匹配模块，16、动作执行模块。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

如今骑自行车出行已经成为主流出行方式之一，用户在骑自行车时，有时候需要操作手机进行接打电话、听歌娱乐或者路线导航等，但是由于骑车时双手需要紧握方向盘，不方便操作手机，这时，如果能够通过语音进行一些操作将极大方便用户。

本发明提供了一种应用于自行车环境的语音控制方法，包括：

S1、获取语音消息，对语音消息进行预处理；

S3、对识别结果文本进行预处理；

S6、执行S5匹配到的动作。

本发明所述的应用于自行车环境的语音控制方法，步骤S1中预处理操作包括：

S11、利用谐波噪声的自适应梳状滤波对语音消息进行基频跟踪实现降噪，再利用声码器再合成法，对语音消息进行迭代降噪；

S12、针对不同噪音进行相应建模，例如针对风噪、车噪、路噪建立相应的风噪模型、车噪模型、路噪模型，利用建立的噪声模型过滤语音消息中的风噪、车噪、路噪，再利用人声模型对语音消息进行声音过滤，过滤出人声；

S13、使用指向性麦克风，通过麦克风精准指向用户人声声源，结合DSP算法和干扰相减法，将语音消息的非人声噪声减去，同时对语音消息的人声进行信号放大；

S14、对语音消息进行切分和加窗处理：按照固定时间长度(如：20ms)将语音消息切分为多段音频片段，每一段音频片段称为语音消息的一帧；然后对所有的帧进行加窗处理。

本发明所述的应用于自行车环境的语音控制方法，步骤S2中：

利用人工神经网络模型和隐马尔可夫模型的混合模型进行语音识别，语音识别的具体步骤为：

语音消息进行预处理后，提取语音消息每一帧的特征参数；将当前帧的特征参数和前一帧的特征参数送入人工神经网络模型，通过人工神经网络计算得到当前帧对应在各个马尔科夫过程的状态的后验概率；其后，将各个马尔科夫过程的状态的后验概率作为输入传给隐马尔可夫模型，隐马尔可夫模型联合语法知识和语义知识构建解码空间，并将解码空间中最优的状态序列转换成对应的音素，然后再查找字典，组装成单词，从而获取语音识别后的识别结果文本；各个马尔科夫过程的状态为：将全部声母和韵母作为汉语的音素集，每一个音素划分成3个马尔科夫过程的状态。

本发明所述的应用于自行车环境的语音控制方法，步骤S3中预处理操作为：

将识别结果文本进行分词、词性标注以及去除停用词后形成词语序列，其中，利用DNN深度神经网络对识别结果文本进行分词、词性标注。

本发明所述的应用于自行车环境的语音控制方法，步骤S4中：

预先设置包含若干主题的一主题集合，主题集合中每一主题与一意图集合建立映射关系，意图集合包含若干意图。

本发明所述的应用于自行车环境的语音控制方法，步骤S4中判断识别结果文本的主题的步骤为：

采用双向的长短期记忆模型作为主题判断模型，将词语序列对应的词向量序列输入主题判断模型，获取识别结果文本在主题集合中的各个主题上的概率分布，选取概率值最大的主题为识别结果文本的主题；

例如，用户输入语音“武汉天气怎么样”，主题为天气，可以判断出用户的真实需求在哪个领域。

本发明所述的应用于自行车环境的语音控制方法，步骤S4中判断识别结果文本的意图的步骤为：

确定用户的真实需求在哪个领域后，由于用户的需求是多样化的(例如，当主题为天气时，其包含的意图可能有紫外线，雾霾，风力，雨和雪等)，为了更加精准的与用户进行交互，挖掘出在一领域下用户的意图是什么是非常重要的，本发明采用双向的长短期记忆模型作为意图判断模型，将词语序列对应的词向量序列输入意图判断模型，获取识别结果文本在主题对应的意图集合中的各个意图上的概率分布，选取概率值最大的意图为识别结果文本的意图；

例如，用户输入语音“今天雾霾大么”，其主题为天气，意图则是咨询雾霾相关信息。

抽取识别结果文本的实体信息，实体信息是预先定义的特定内容的信息，例如定义需要抽取的实体信息为地点信息、时间信息，识别结果文本为“武汉今天天气怎么样”，则抽取的实体信息为“地点＝武汉”，“时间＝今天”。实体信息抽取通过条件随机场模型实现。

本发明所述的应用于自行车环境的语音控制方法，步骤S5中：

根据识别结果文本的主题、意图、实体信息查找数据库，匹配出识别结果文本对应的动作，匹配到的动作例如：查找相关信息、播放相关音乐、拨打相关电话等。

本发明还提供一种应用于自行车环境的语音控制系统1，包括：

语音消息预处理模块11：获取语音消息，对语音消息进行预处理；

语音识别模块12：对预处理后的语音消息进行语音识别，从而将预处理后的语音消息转化为识别结果文本；

文本预处理模块13：对识别结果文本进行预处理；

主题意图判断模块14：识别结果文本进行预处理操作后，判断识别结果文本的主题，然后判断识别结果文本的意图和抽取识别结果文本的实体信息；

动作匹配模块15：根据识别结果文本的主题、意图、实体信息查找数据库，匹配出识别结果文本对应的动作；

动作执行模块16：执行动作匹配模块15匹配到的动作。

本发明所述的应用于自行车环境的语音控制系统1，语音消息预处理模块11包括：

第一处理单元：利用谐波噪声的自适应梳状滤波对语音消息进行基频跟踪实现降噪，再利用声码器再合成法，对语音消息进行迭代降噪；

第二处理单元：针对不同噪音进行相应建模，利用建立的各种噪声的模型过滤语音消息的噪声，再利用人声模型对语音消息进行声音过滤；

第三处理单元：结合DSP算法和干扰相减法，将语音消息的非人声噪声减去，同时对语音消息的人声进行信号放大；

第四处理单元：对语音消息进行切分和加窗处理。

本发明所述的应用于自行车环境的语音控制系统1，语音识别模块12中：

利用人工神经网络模型和隐马尔可夫模型的混合模型进行语音识别。

本发明所述的应用于自行车环境的语音控制系统1，文本预处理模块13中：

将识别结果文本进行分词、词性标注以及去除停用词后形成词语序列。

本发明所述的应用于自行车环境的语音控制系统1，主题意图判断模块14中：

预先设置包含若干主题的一主题集合，主题集合中每一主题与一意图集合建立映射关系，意图集合包含若干意图；

采用双向的长短期记忆模型作为意图判断模型，将词语序列对应的词向量序列输入意图判断模型，获取识别结果文本在主题对应的意图集合中的各个意图上的概率分布，选取概率值最大的意图为识别结果文本的意图。

以上所述本发明的具体实施方式，并不构成对本发明保护范围的限定。任何根据本发明的技术构思所做出的各种其他相应的改变与变形，均应包含在本发明权利要求的保护范围内。

Claims

1.一种应用于自行车环境的语音控制方法，其特征在于，包括：

S1、获取语音消息，对所述语音消息进行预处理；

S2、对预处理后的所述语音消息进行语音识别，从而将预处理后的所述语音消息转化为识别结果文本；

S3、对所述识别结果文本进行预处理；

S4、所述识别结果文本进行预处理操作后，判断所述识别结果文本的主题，然后判断所述识别结果文本的意图和抽取所述识别结果文本的实体信息；

S5、根据所述识别结果文本的主题、意图、实体信息查找数据库，匹配出所述识别结果文本对应的动作；

S6、执行S5匹配到的动作；

步骤S1中预处理操作包括：

S11、利用谐波噪声的自适应梳状滤波对所述语音消息进行基频跟踪实现降噪，再利用声码器再合成法，对所述语音消息进行迭代降噪；

S12、针对不同噪音进行相应建模，利用建立的各种噪声的模型过滤所述语音消息的噪声，再利用人声模型对所述语音消息进行声音过滤；

S13、使用指向性麦克风，通过麦克风精准指向用户人声声源，结合DSP算法和干扰相减法，将所述语音消息的非人声噪声减去，同时对所述语音消息的人声进行信号放大；

S14、按照固定时间长度将语音消息切分为多段音频片段，每一段音频片段称为语音消息的一帧；然后对所有的帧进行加窗处理；

步骤S2中,利用人工神经网络模型和隐马尔可夫模型的混合模型进行语音识别,具体步骤为:

语音消息进行预处理后，提取语音消息每一帧的特征参数；将当前帧的特征参数和前一帧的特征参数送入人工神经网络模型，通过人工神经网络计算得到当前帧对应在各个马尔科夫过程的状态的后验概率；其后，将各个马尔科夫过程的状态的后验概率作为输入传给隐马尔可夫模型，隐马尔可夫模型联合语法知识和语义知识构建解码空间，并将解码空间中最优的状态序列转换成对应的音素，然后再查找字典，组装成单词，从而获取语音识别后的识别结果文本；各个马尔科夫过程的状态为：将全部声母和韵母作为汉语的音素集，每一个音素划分成3个马尔科夫过程的状态；

步骤S3中预处理操作为：

将所述识别结果文本进行分词、词性标注以及去除停用词后形成词语序列；

步骤S4中：

判断所述识别结果文本的主题的步骤为：采用双向的长短期记忆模型作为主题判断模型，将词语序列对应的词向量序列输入主题判断模型，获取识别结果文本在主题集合中的各个主题上的概率分布，选取概率值最大的主题为识别结果文本的主题；

判断所述识别结果文本的意图的步骤为：采用双向的长短期记忆模型作为意图判断模型，将词语序列对应的词向量序列输入意图判断模型，获取识别结果文本在主题对应的意图集合中的各个意图上的概率分布，选取概率值最大的意图为识别结果文本的意图。

2.一种应用于自行车环境的语音控制系统，其特征在于，包括：

语音消息预处理模块：获取所述语音消息，对所述语音消息进行预处理；

语音识别模块：对预处理后的所述语音消息进行语音识别，从而将预处理后的所述语音消息转化为识别结果文本；

文本预处理模块：对所述识别结果文本进行预处理；

主题意图判断模块：所述识别结果文本进行预处理操作后，判断所述识别结果文本的主题，然后判断所述识别结果文本的意图和抽取识别结果文本的实体信息；

动作匹配模块：根据所述识别结果文本的主题、意图、实体信息查找数据库，匹配出识别结果文本对应的动作；

动作执行模块：执行动作匹配模块匹配到的动作；

语音消息预处理模块包括：

第一处理单元：利用谐波噪声的自适应梳状滤波对所述语音消息进行基频跟踪实现降噪，再利用声码器再合成法，对所述语音消息进行迭代降噪；

第二处理单元：针对不同噪音进行相应建模，利用建立的各种噪声的模型过滤所述语音消息的噪声，再利用人声模型对所述语音消息进行声音过滤；

第三处理单元：使用指向性麦克风，通过麦克风精准指向用户人声声源，结合DSP算法和干扰相减法，将所述语音消息的非人声噪声减去，同时对所述语音消息的人声进行信号放大；

第四处理单元：按照固定时间长度将语音消息切分为多段音频片段，每一段音频片段称为语音消息的一帧；然后对所有的帧进行加窗处理；

语音识别模块中：

利用人工神经网络模型和隐马尔可夫模型的混合模型进行语音识别,其具体包括:

文本预处理模块中：

将识别结果文本进行分词、词性标注以及去除停用词后形成词语序列；

主题意图判断模块中：

采用双向的长短期记忆模型作为主题判断模型，将词语序列对应的词向量序列输入主题判断模型，获取所述识别结果文本在主题集合中的各个主题上的概率分布，选取概率值最大的主题为所述识别结果文本的主题；

采用双向的长短期记忆模型作为意图判断模型，将词语序列对应的词向量序列输入意图判断模型，获取所述识别结果文本在主题对应的意图集合中的各个意图上的概率分布，选取概率值最大的意图为所述识别结果文本的意图。