CN110493751A

CN110493751A - 基于语音识别技术接打电话的方法及车载电子装置

Info

Publication number: CN110493751A
Application number: CN201910740909.3A
Authority: CN
Inventors: 王东明; 黄庆毅
Original assignee: Shenzhen Nio Technology Co Ltd
Current assignee: Shenzhen Nio Technology Co Ltd
Priority date: 2019-08-12
Filing date: 2019-08-12
Publication date: 2019-11-22

Abstract

本发明公开一种基于语音识别技术接打电话的方法及车载电子装置，接打电话的方法包括：步骤S1，终端设备通过双模蓝牙与电子装置连接配对；步骤S2，进行AI语音识别、判断及解析；步骤S3，执行用户操作。步骤S2具体包括音频检测、检测静音、语音输入、音频预处理、特征提取、声学模型、比较判断及指令输出、动作响应。本发明通过双模蓝牙与终端设备进行连接，能够同时进行音频传输和信息传输，AI的智能运用可以方便驾驶员能通过语音操作接打电话，并实时播报信息的内容。这样可以减少驾驶员在驾驶过程中减少操作手机，集中驾驶注意力，提高驾驶安全，减少驾驶事故，有效降低驾驶风险。

Description

基于语音识别技术接打电话的方法及车载电子装置

技术领域

本发明涉及车载电子设备技术领域，尤其涉及一种基于语音识别技术接打电话的方法及车载电子装置。

背景技术

目前汽车保有量不断上升，其中私家车更是呈现几何数字增加，全球汽车数量的增加也导致交通安全事故呈指数上升，而发生交通事故90％是由司机注意力不集中导致的，比接打电话、查看手机信息等。

传统的车机蓝牙或其他带蓝牙接入车载电子设备仅仅与手机蓝牙BT连接，在蓝牙电话接入还需要在车机或者蓝牙设备上进行操作或者操作手机进行电话接听，该方法仅仅能将手机音频与设备进行连接通过A2DP协议进行传输，将手机声音接入到车机或车载蓝牙设备中进行播放。在进行电话接打过程中需要驾驶员收到操作车机或者电话进行来电接打，分散驾驶员的注意率影响驾驶安全。

因此，现有技术存在不足，需要改进。

发明内容

本发明的目的是克服现有技术的不足，提供一种基于语音识别技术接打电话的方法及车载电子装置。

本发明的技术方案如下：提供一种基于语音识别技术接打电话的方法，包括以下步骤：

步骤S1，终端设备通过双模蓝牙与电子装置连接配对；

步骤S2，电子装置的AI系统进行语音识别、判断及解析；

步骤S3，电子装置的AI系统执行用户操作。

所述步骤S2包括以下步骤：

步骤S21，音频检测；

步骤S22，检测静音；

步骤S23，语音输入；

步骤S24，音频预处理；

步骤S25，特征提取；

步骤S26，声学模型匹配；

步骤S27，比较判断；

步骤S28，指令输出、动作响应。

进一步地，所述步骤S1中终端设备BT与电子装置BT连接配对，终端设备BLE与电子装置BLE连接绑定，电子装置BT打开后通过SDP搜索终端设备，连接绑定后，电子装置通过PBAP、ATCOMMAND命令与终端设备进行蓝牙电话本、在线通话记录的同步，在同步完之后，电子装置通过HSP、HFP协议与终端设备连接，在连接配对后电子装置与终端设备蓝牙通过AT指令进行用户操作，所述终端设备为手机、或PC、或车机。

进一步地，所述用户操作包括：接通或挂断电话、拉起拨打电话、播报或不播报信息。

进一步地，所述步骤S21中电子装置通过语音识别控制单元采集车内的音频数据，得到音频数据序列x(n)。

所述步骤S22具体包括：对所述步骤S21采集到的音频数据序列x(n)做傅里叶变换得到能量场分布图，其变换公式为：其中X(e^jω)为离散傅里叶变换，通过对应的频谱分布能够得到数据能量场，检测能量场分布接近0的部分音频数据即为静音，如检测到静音后电子装置进入休眠状态，如检测到非静音状态，系统进入下一步。

所述步骤S23中对检测到的非静音状态下的音频数据作为语音进行输入。

所述步骤S24中的音频预处理是对音频数据进行数字滤波，去除背景噪声干扰，滤除方法采用LMS自适应滤波方法，具体公式为：Y(m)＝V(m)-L(m)，其中V(m)为语音输入信号，L(m)为对应的另一路MIC采集的背景噪声，将噪声滤除后得到较为纯净的语音信号，再对语音信号进行加窗处理成帧数据，每帧的长度为T，帧移动的长度为t，则每帧之间存在着T-t的交替重叠，其中T>2t，所述背景噪声为音乐声、或发动机噪声、或胎噪、或风雨声。

所述步骤S25中提取的特征为识别语音信号中的口音特征，实现的方法是通过对语音信号进行傅里叶变换，利用梅尔倒频谱系数法后由深度神经网络来分析和综合运算来判断语音信号所属的口音类型，以便选择对应的语音识别模块。

所述步骤S26，所述声学模型中存储了若干种不同地区的模型数据，所述声学模型包括声学词典和解码器，根据特征提取结果进行所述声学模型的匹配，如匹配到所属的声学模型，则由所属的声学词典和解码器经过分析运算，匹配输出文本字符串；如反馈未匹配到所属的声学模型，则返回所述步骤S25重新特征提取，并继续进行声学模型匹配，如再次未匹配成功则提示重新再说一遍或放弃等待下一段语音。

所述步骤S27，根据特征提取和声学模型匹配的结果，选择最匹配的声学模型进行特征帧比对，根据概率比较器比较的结果输出识别结果。

所述步骤S28，在概率比较之后经解析识别到具体的指令。

本发明还提供一种车载电子装置，包括：核心处理模块、外接电源模块、通讯模块、音频采集模块、音频输出模块、双模蓝牙、及FM发射模块，所述核心处理模块与所述电源模块电连接，所述通讯模块、音频采集模块、音频输出模块、双模蓝牙、及FM发射模块均与所述核心处理模块通信连接，终端设备通过双模蓝牙与所述核心处理模块通信连接。

进一步地，所述双模蓝牙包括蓝牙BT模块和BLE模块。

进一步地，所述蓝牙BT模块的芯片型号为RDA5876，所述BLE模块的型号为NRF51822。

进一步地，所述核心处理模块包括处理器、PMIC模块、eMMC模块、DDR模块，所述PMIC模块、eMMC模块、DDR模块均与所述处理器通信连接，所述外接电源模块与所述PMIC模块电连接，所述通讯模块、音频采集模块及音频输出模块均与所述eMMC模块通信连接，所述蓝牙BT模块及BLE模块均与所述DDR模块通信连接，所述处理器的芯片型号为T7，所述PMIC模块的芯片型号为AXP858。

进一步地，所述音频采集模块为多路拾音器，所述多路拾音器包括两路，分别采集用户语音和背景噪音。

进一步地，所述通信模块包括USB模块和WIFI模块，所述外接电源模块接入的是5V电压。

采用上述方案，本发明通过双模蓝牙与终端设备进行连接，能够同时进行音频传输和信息传输，AI的智能运用可以方便驾驶员能通过语音操作接打电话，并实时播报信息的内容。这样可以减少驾驶员在驾驶过程中减少操作手机，集中驾驶注意力，提高驾驶安全，减少驾驶事故，有效降低驾驶风险。

附图说明

图1为本发明基于语音识别技术接打电话的方法的流程图；

图2为本发明基于语音识别技术接打电话的方法中AI语音识别、判断及解析的流程图；

图3为本发明车载电子装置采集到的音频数据；

图4为本发明车载电子装置帧提取示意图；

图5为本发明车载电子装置的硬件框图；

图6为本发明车载电子装置中核心处理模块的电路原理图；

图7与图8为本发明车载电子装置中蓝牙BT模块的电路原理图；

图9为本发明车载电子装置中BLE模块的电路原理图。

具体实施方式

以下结合附图和具体实施例，对本发明进行详细说明。

请参阅图1至图4，本发明提供一种基于语音识别技术接打电话的方法，包括以下步骤：

步骤S1，终端设备与电子装置连接配对；电子装置BT打开后通过SDP(SessionDescription Protocol)会话协议搜索终端设备(所述终端设备为手机、或PC、或车机)；终端设备BT与电子装置BT连接配对，进行音频传输(接打电话、音乐播放等)，终端设备低功耗蓝牙BLE与电子装置低功耗蓝牙BLE连接绑定，通过ANCS协议传输信息提醒；连接绑定后，电子装置通过PBAP(Phonebook Access Profil电话号码簿访问协议)、ATCOMMAND(AttentionCommand)命令与终端设备进行蓝牙电话本、在线通话记录的同步；在同步完之后，电子装置通过HSP(HeadsetPro-file)、HFP(HandProfile)协议与终端设备连接，在连接配对后电子装置与终端设备蓝牙通过AT(Attention)指令进行相关用户操作。

步骤S2，电子装置的AI系统进行语音识别、判断及解析，具体包括以下具体步骤：

步骤S21，音频检测，电子装置通过语音识别控制单元采集车内的音频数据，得到音频数据序列x(n)。

步骤S22，检测静音，对采集到的音频数据序列x(n)做傅里叶变换得到能量场分布图，其变换公式为：其中X(e^jω)为离散傅里叶变换，通过对应的频谱分布能够得到数据能量场，检测能量场分布接近0的部分音频数据即为静音，检测到静音后电子装置进入休眠状态，节省功耗，节能环保，如果检测到是非静音状态，系统进入下一步。

步骤S23，语音输入，音频数据中其中S(j)为前面的静音片段，V(m)为音频中去除静音的语音信号，将V(m)作为语音信号进行输入。

步骤S24，音频预处理，对音频数据进行数字滤波，去除背景噪声干扰，滤除方法采用LMS自适应滤波方法，具体公式为：Y(m)＝V(m)-L(m)，其中V(m)为语音输入信号，L(m)为对应的另一路MIC采集的背景噪声，将噪声滤除后得到较为纯净的语音信号，再对语音信号进行加窗处理成帧数据，每帧的长度为T，帧移动的长度为t，则每帧之间存在着T-t的交替重叠，其中T>2t，所述背景噪声为音乐声、或发动机噪声、或胎噪、或风雨声或其他环境噪音。

步骤S25，特征提取，识别语音信号中的口音特征，实现的方法是通过对语音信号进行傅里叶变换，利用梅尔倒频谱系数法(MFCC)后由深度神经网络(DNN)来分析和综合运算语音信号所属的口音类型，以便选择对应的语音识别模块。

步骤S26，声学模型，所述声学模型中存储了若干种不同地区的模型数据，如福建、湖南、四川、广东、北方等地语音数据(包含普通话及地方方言)。所述声学模型包括声学词典和解码器，根据特征提取结果进行所述声学模型的匹配，如匹配到所属的声学模型，例如根据特征提取结果匹配所属为北京话，则对应找到所属的北京话的声学词典和解码器，则由所属的声学词典和解码器经过分析运算，匹配输出文本字符串；如反馈未匹配到所属的声学模型，则返回特征提取再根据最大概率重新匹配，如再次未匹配成功则提示重新再说一遍或放弃等待下一段语音。

步骤S27，比较判断；根据特征提取和声学模型匹配的结果，选择最匹配的声学模型进行特征帧比对，根据概率比较器比较的结果输出识别结果，比如用户回复“是/接/接通”或者“不/不接/挂断”接通或挂断电话。

步骤S28，指令输出、动作响应，在概率比较之后经解析识别到具体的指令，比如接听、拒接、拨打电话，播报/不播信息提醒的内容。

步骤S3，电子装置的AI系统执行用户操作。具体地用户操作包括接通或挂断电话、拉起拨打电话、播报或不播报信息。根据上述AI语音识别过程，用户实现接通或挂断电话的具体过程为：当电子装置进入配对模式时，开始连接HFP，当有第三方电话进来时会触发进行来电显示，AI会将来电的内容经组织后进行播报，如“主人，您的手机通讯录好友XXX来电，是否接通？”，AI进入语音识别交互模式，等待底层的MIC(麦克风)采集的录音数据进行语音识别，当识别到“是/接/接通”，电子装置发送AT指令“IG”通知终端设备BT运用层进行通话接听；当识别到“否/不/不接/挂断”时，电子装置发送AT指令“IF”给终端设备运用层进行蓝牙挂断。

根据上述AI语音识别过程，用户实现拉起拨打电话的具体过程为：当电子装置进入配对模式时，开始连接HFP，终端设备通讯录及通话记录经过终端设备运用层与设备蓝牙进行通讯，通过PBAP、ATCOMMAND命令与终端设备进行蓝牙电话本、在线通话记录的同步，当终端设备接收到通讯录及通话记录同步成功AT命令“PC”及“PE”后完成同步。此时可以唤醒AI进行语音电话拨打，如“我要打电话给XXX/帮我打电话给XXX”，电子装置识别到相应的拨打指令后会先到同步完成的终端设备通讯录中寻找XXX，系统对电话本进行搜索然后进行匹配，如通讯录中存在同名的多个联系人、备注的相似的联系人、多音字的联系人，则设备会对超过一个联系人的情况进行多轮交互，如“为您找多多个联系人，您是要拨打1、XXX江西；2、XXX经理...”，这时用户回复1则设备会将拨打指令通过AT命令“CW[NUM]”将拨打指令及号码发送给终端设备蓝牙，终端设备蓝牙拉起并拨打电话。

根据上述AI语音识别过程，播报或不播报信息的具体过程为：终端设备BLE与电子装置BLE连接绑定，终端设备APP模拟ANCS协议，将信息通知(包括但不限于短信、QQ、微信等)的内容推送到电子装置，电子装置接收到UTF-8的信息提醒内容后缓存在设备内部的缓存中，AI播报“收到XXX/微信/QQ联系人发来的消息，是否播报？”，然后AI进入等待识别状态，当AI识别到“要/播/播报”时播报信息的内容，当识别到“不/不播/不要”时忽略信息提醒播报并清空信息内容。

请参阅图5至图9，本发明还提供一种车载电子装置，包括：核心处理模块1、外接电源模块2、通讯模块3、音频采集模块4、音频输出模块5、双模蓝牙、及FM发射模块6。所述核心处理模块1与所述电源模块2电连接，所述通讯模块3、音频采集模块4、音频输出模块5、双模蓝牙、及FM发射模块6均与所述核心处理模块1通信连接，终端设备通过双模蓝牙与所述核心处理模块通信连接，具体地，本实施例中所述双模蓝牙包括蓝牙BT模块7和BLE模块8，通过所述蓝牙BT模块7实现音频传输，所述蓝牙BT模块7的芯片型号为RDA5876，通过所述BLE模块8实现信息传输，所述BLE模块的型号为NRF51822。所述音频采集模块4为多路拾音器，所述多路拾音器包括两路，分别采集用户语音和背景噪音。所述通信模块3包括USB模块和WIFI模块。所述核心处理模块1包括处理器、PMIC模块、eMMC模块、DDR模块，所述PMIC模块、eMMC模块、DDR模块均与所述处理器通信连接，所述外接电源模块2与所述PMIC模块电连接为整个电子设备供电，其中所述外接电源模块2接入的是5V的电压，所述PMIC模块的芯片型号为AXP858。所述通讯模块3、音频采集模块4及音频输出模块5均与所述eMMC(EmbeddedMulti Media Card，内嵌式存储器)模块通信连接，所述蓝牙BT模块及BLE模块均与所述DDR(Double Data Rate，双倍数据速率)模块通信连接，所述处理器的芯片型号为T7。

综上所述，本发明通过双模蓝牙与终端设备进行连接，能够同时进行音频传输和信息传输，AI的智能运用可以方便驾驶员能通过语音操作接打电话，并实时播报信息的内容。这样可以减少驾驶员在驾驶过程中减少操作手机，集中驾驶注意力，提高驾驶安全，减少驾驶事故，有效降低驾驶风险。

以上仅为本发明的较佳实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于语音识别技术接打电话的方法，其特征在于，包括以下步骤：

步骤S1，终端设备通过双模蓝牙与电子装置连接配对；

步骤S2，电子装置的AI系统进行语音识别、判断及解析；

步骤S3，电子装置的AI系统执行用户操作；

所述步骤S2包括以下步骤：

步骤S21，音频检测；

步骤S22，检测静音；

步骤S23，语音输入；

步骤S24，音频预处理；

步骤S25，特征提取；

步骤S26，声学模型匹配；

步骤S27，比较判断；

步骤S28，指令输出、动作响应。

2.根据权利要求1所述的基于语音识别技术接打电话的方法，其特征在于，所述步骤S1中终端设备BT与电子装置BT连接配对，终端设备BLE与电子装置BLE连接绑定，电子装置BT打开后通过SDP搜索终端设备，连接绑定后，电子装置通过PBAP、ATCOMMAND命令与终端设备进行蓝牙电话本、在线通话记录的同步，在同步完之后，电子装置通过HSP、HFP协议与终端设备连接，在连接配对后电子装置与终端设备蓝牙通过AT指令进行用户操作，所述终端设备为手机、或PC、或车机。

3.根据权利要求2所述的基于语音识别技术接打电话的方法，其特征在于，所述用户操作包括：接通或挂断电话、拉起拨打电话、播报或不播报信息。

4.根据权利要求1所述的基于语音识别技术接打电话的方法，其特征在于，所述步骤S21中电子装置通过语音识别控制单元采集车内的音频数据，得到音频数据序列x(n)；

所述步骤S22具体包括：对所述步骤S21采集到的音频数据序列x(n)做傅里叶变换得到能量场分布图，其变换公式为：其中X(e^jω)为离散傅里叶变换，通过对应的频谱分布能够得到数据能量场，检测能量场分布接近0的部分音频数据即为静音，如检测到静音后电子装置进入休眠状态，如检测到非静音状态，系统进入下一步；

所述步骤S23中对检测到的非静音状态下的音频数据作为语音进行输入；

所述步骤S24中的音频预处理是对音频数据进行数字滤波，去除背景噪声干扰，滤除方法采用LMS自适应滤波方法，具体公式为：Y(m)＝V(m)-L(m)，其中V(m)为语音输入信号，L(m)为对应的另一路MIC采集的背景噪声，将噪声滤除后得到较为纯净的语音信号，再对语音信号进行加窗处理成帧数据，每帧的长度为T，帧移动的长度为t，则每帧之间存在着T-t的交替重叠，其中T>2t，所述背景噪声为音乐声、或发动机噪声、或胎噪、或风雨声；

所述步骤S25中提取的特征为识别语音信号中的口音特征，实现的方法是通过对语音信号进行傅里叶变换，利用梅尔倒频谱系数法后由深度神经网络来分析和综合运算来判断语音信号所属的口音类型，以便选择对应的语音识别模块；

所述步骤S26，所述声学模型中存储了若干种不同地区的模型数据，所述声学模型包括声学词典和解码器，根据特征提取结果进行所述声学模型的匹配，如匹配到所属的声学模型，则由所属的声学词典和解码器经过分析运算，匹配输出文本字符串；如反馈未匹配到所属的声学模型，则返回所述步骤S25重新特征提取，并继续进行声学模型匹配，如再次未匹配成功则提示重新再说一遍或放弃等待下一段语音；

所述步骤S27，根据特征提取和声学模型匹配的结果，选择最匹配的声学模型进行特征帧比对，根据概率比较器比较的结果输出识别结果；

所述步骤S28，在概率比较之后经解析识别到具体的指令。

5.一种车载电子装置，其特征在于，包括：核心处理模块、外接电源模块、通讯模块、音频采集模块、音频输出模块、双模蓝牙、及FM发射模块，所述核心处理模块与所述电源模块电连接，所述通讯模块、音频采集模块、音频输出模块、双模蓝牙、及FM发射模块均与所述核心处理模块通信连接，终端设备通过双模蓝牙与所述核心处理模块通信连接。

6.根据权利要求5所述的车载电子装置，其特征在于，所述双模蓝牙包括蓝牙BT模块和BLE模块。

7.根据权利要求6所述的车载电子装置，其特征在于，所述蓝牙BT模块的芯片型号为RDA5876，所述BLE模块的型号为NRF51822。

8.根据权利要求7所述的车载电子装置，其特征在于，所述核心处理模块包括处理器、PMIC模块、eMMC模块、DDR模块，所述PMIC模块、eMMC模块、DDR模块均与所述处理器通信连接，所述外接电源模块与所述PMIC模块电连接，所述通讯模块、音频采集模块及音频输出模块均与所述eMMC模块通信连接，所述蓝牙BT模块及BLE模块均与所述DDR模块通信连接，所述处理器的芯片型号为T7，所述PMIC模块的芯片型号为AXP858。

9.根据权利要求5所述的车载电子装置，其特征在于，所述音频采集模块为多路拾音器，所述多路拾音器包括两路，分别采集用户语音和背景噪音。

10.根据权利要求5所述的车载电子装置，其特征在于，所述通信模块包括USB模块和WIFI模块，所述外接电源模块接入的是5V电压。