CN106847280B - 音频信息处理方法、智能终端及语音控制终端 - Google Patents
音频信息处理方法、智能终端及语音控制终端 Download PDFInfo
- Publication number
- CN106847280B CN106847280B CN201710099111.6A CN201710099111A CN106847280B CN 106847280 B CN106847280 B CN 106847280B CN 201710099111 A CN201710099111 A CN 201710099111A CN 106847280 B CN106847280 B CN 106847280B
- Authority
- CN
- China
- Prior art keywords
- voice compression
- voice
- audio information
- lost
- compression packet
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000010365 information processing Effects 0.000 title claims abstract description 18
- 238000003672 processing method Methods 0.000 title claims abstract description 14
- 230000006835 compression Effects 0.000 claims abstract description 459
- 238000007906 compression Methods 0.000 claims abstract description 459
- 238000000034 method Methods 0.000 claims abstract description 19
- 238000012545 processing Methods 0.000 claims description 21
- 230000005540 biological transmission Effects 0.000 claims description 17
- 238000012163 sequencing technique Methods 0.000 claims description 12
- 230000001360 synchronised effect Effects 0.000 claims description 5
- 238000004891 communication Methods 0.000 description 37
- 230000006870 function Effects 0.000 description 23
- 238000010586 diagram Methods 0.000 description 15
- 238000005516 engineering process Methods 0.000 description 9
- 238000001514 detection method Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 5
- 230000001133 acceleration Effects 0.000 description 4
- 230000005484 gravity Effects 0.000 description 4
- 238000007726 management method Methods 0.000 description 4
- 230000005236 sound signal Effects 0.000 description 4
- 239000013598 vector Substances 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 3
- 238000007599 discharging Methods 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 238000010295 mobile communication Methods 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 238000010079 rubber tapping Methods 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 238000010897 surface acoustic wave method Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 241000590419 Polygonia interrogationis Species 0.000 description 1
- 230000005856 abnormality Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/005—Correction of errors induced by the transmission channel, if related to the coding algorithm
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Telephonic Communication Services (AREA)
- Telephone Function (AREA)
Abstract
本发明公开了一种音频信息处理方法、智能终端及语音控制终端,属于终端技术领域。所述方法包括:接收语音控制终端发送的音频信息,所述音频信息包括至少两个语音压缩包和每个语音压缩包对应的语音压缩包标识;基于所述语音压缩包标识确定所述音频信息中是否丢失语音压缩包;当所述音频信息中丢失语音压缩包时,在丢失语音压缩包的位置处添加预设语音压缩包,得到优化音频信息;对所述优化音频信息进行语音识别。本发明可以在确定音频信息中丢失语音压缩包时,在丢失语音压缩包的位置处添加预设语音压缩包,然后进行对音频信息的语音识别,从而提高了智能终端对音频信息进行语音识别的正确率。
Description
技术领域
本发明涉及终端技术领域,特别涉及一种音频信息处理方法、智能终端及语音控制终端。
背景技术
随着终端技术的发展,诸如智能电视机、智能空调等智能终端已渐渐成为人们生活中必不可少的工具,且为了方便用户的生活,用户通常会通过语音控制终端对智能终端进行控制。其中,语音控制终端可以通过蓝牙与智能终端进行连接,而语音控制终端对智能终端进行控制的关键为:智能终端对语音控制终端发送的音频信息进行处理。
当用户通过语音控制终端控制智能终端时,该语音控制终端可以对用户输入的语音进行采集,得到音频数据,并将该音频数据进行压缩得到多个语音压缩包,将压缩后的音频数据称为音频信息。语音控制终端将该音频信息包括的多个语音压缩包基于蓝牙传输协议发送至智能终端,当该智能终端接收到该音频信息的多个语音压缩包时,可以对该多个语音压缩包进行解压并进行语音识别,从而基于该音频信息对该智能终端进行控制。比如,该语音控制终端可以为语音遥控器,该智能终端可以为智能电视机,该语音遥控器可以对用户输入的语音进行采集,得到音频数据为“打开家庭娱乐”,该语音遥控器可以将该音频数据进行压缩得到包括多个语音压缩包的音频信息,将该音频信息基于蓝牙传输协议发送至该智能电视机。当该智能电视机接收到该音频信息时,可以对该音频信息进行解压并进行语音识别,得到“打开家庭娱乐”的信息,该智能电视机可以基于该信息运行家庭娱乐。
但是通常情况下,为了使智能终端可以实现更多的功能,该智能终端除了通过蓝牙与语音控制终端连接,还会通过WIFI(Wireless Fidelity)等方式进行网络连接,因此,智能终端中会使用蓝牙模块和WIFI模块公用的技术。但由于该蓝牙模块产生的蓝牙信号,以及WIFI模块产生的WIFI信号在信息传输过程中使用相同频段,使得用户通过语音控制终端控制智能终端时,该WIFI信号会对蓝牙信号造成干扰,导致智能终端在接收语音控制终端发送的音频信息时,该音频信息中出现语音压缩包丢失现象。此外,当该音频信息中丢失的语音压缩包较多时,智能终端可能无法识别出该音频信息,从而降低智能终端对音频信息进行语音识别的正确率,导致无法进行控制操作。
发明内容
为了提高智能终端对音频信息进行语音识别的正确率,本发明实施例提供了一种音频信息处理方法、智能终端及语音控制终端。所述技术方案如下:
第一方面,提供了一种基于蓝牙传输协议的音频信息处理方法,应用于智能终端中,所述方法包括:
接收语音控制终端发送的音频信息,所述音频信息包括至少两个语音压缩包和每个语音压缩包对应的语音压缩包标识;
基于所述语音压缩包标识确定所述音频信息中是否丢失语音压缩包;
当所述音频信息中丢失语音压缩包时,在丢失语音压缩包的位置处添加预设语音压缩包,得到优化音频信息;对所述优化音频信息进行语音识别。
可选地,所述基于所述语音压缩包标识确定所述音频信息中是否丢失语音压缩包,包括:
将所述语音压缩包标识按照大小顺序进行排序;
判断排序后的语音压缩包标识的排序方式是否符合指定规则,所述指定规则用于描述所述语音压缩包标识的排序结果;
当所述排序后的语音压缩包标识符合所述指定规则时,确定所述音频信息中未丢失语音压缩包;
当所述排序后的语音压缩包标识不符合所述指定规则时,确定所述音频信息中丢失语音压缩包。
可选地,所述在丢失语音压缩包的位置处添加预设语音压缩包,得到优化音频信息,包括:
将所述语音压缩包标识中不符合所述指定规则的相邻两个语音压缩包标识之间的位置,确定为所述音频信息中丢失语音压缩包的位置;
每确定一个丢失语音压缩包的位置,在所述丢失语音压缩包的位置处添加位置标记;
在对所有丢失语音压缩包的位置处添加位置标记之后,基于所述位置标记,在所述丢失语音压缩包的位置处添加所述预设语音压缩包,得到所述优化音频信息。
可选地,所述基于所述位置标记,在所述丢失语音压缩包的位置处添加所述预设语音压缩包,包括:
当基于所述位置标记确定所述音频信息中连续丢失多个语音压缩包时,确定连续丢失多个语音压缩包的连续丢失个数是否大于预设个数;
当所述连续丢失个数大于或等于预设个数时,在所述连续丢失语音压缩包的位置处添加预设个数个所述预设语音压缩包;
当基于所述位置标记确定所述连续丢失个数小于所述预设个数时,在所述连续丢失语音压缩包的位置处添加所述连续丢失个数个所述预设语音压缩包。
可选地,所述在丢失语音压缩包的位置处添加预设语音压缩包,得到优化音频信息,包括:
将所述语音压缩包标识中不符合所述指定规则的相邻两个语音压缩包标识之间的位置,确定为所述音频信息中丢失语音压缩包的位置;
每确定一个丢失语音压缩包的位置,在所述丢失语音压缩包的位置处添加所述预设语音压缩包,直至对所有丢失语音压缩包的位置处添加所述预设语音压缩包,得到所述优化音频信息。
第二方面,提供了一种基于蓝牙传输协议的音频信息处理方法,应用于语音控制终端中,所述方法包括:
当采集到音频数据时,对所述音频数据进行压缩,得到至少两个语音压缩包;
将语音压缩包标识添加到所述音频数据中,得到音频信息,所述音频信息包括所述至少两个语音压缩包和每个语音压缩包对应的语音压缩包标识;
将所述音频信息发送至智能终端,所述智能终端用于在接收到所述音频信息时,基于所述语音压缩包标识确定所述音频信息是否丢失语音压缩包,并在所述音频信息中丢失语音压缩包的位置处添加预设语音压缩包,得到优化音频信息,并对所述优化音频信息进行语音识别。
第三方面,提供了一种智能终端,所述智能终端包括:
接收模块,用于接收语音控制终端发送的音频信息,所述音频信息包括至少两个语音压缩包和每个语音压缩包对应的语音压缩包标识;
确定模块,用于基于所述语音压缩包标识确定所述音频信息中是否丢失语音压缩包;
处理模块,用于当所述音频信息中丢失语音压缩包时,在丢失语音压缩包的位置处添加预设语音压缩包,得到优化音频信息;对所述优化音频信息进行语音识别。
可选地,所述确定模块包括:
排序子模块,用于将所述语音压缩包标识按照大小顺序进行排序;
判断子模块,用于判断排序后的语音压缩包标识是否符合指定规则,所述指定规则用于描述所述语音压缩包标识的排序结果;
第一确定子模块,用于当所述排序后的语音压缩包标识符合所述指定规则时,确定所述音频信息中未丢失语音压缩包;
第二确定子模块,用于当所述排序后的语音压缩包标识不符合所述指定规则时,确定所述音频信息中丢失语音压缩包。
可选地,所述处理模块包括:
第三确定子模块,用于将所述语音压缩包标识中不符合所述指定规则的相邻两个语音压缩包标识之间的位置,确定为所述音频信息中丢失语音压缩包的位置;
第一添加子模块,用于每确定一个丢失语音压缩包的位置,在所述丢失语音压缩包的位置处添加位置标记;
第二添加子模块,用于在对所有丢失语音压缩包的位置处添加位置标记之后,基于所述位置标记,在所述丢失语音压缩包的多个位置处添加所述预设语音压缩包,得到所述优化音频信息。
可选地,所述第二添加子模块用于:
当基于所述位置标记确定所述音频信息中连续丢失多个语音压缩包时,确定连续丢失多个语音压缩包的连续丢失个数是否大于预设个数;
当所述连续丢失个数大于或等于预设个数时,在所述连续丢失语音压缩包的位置处添加预设个数个所述预设语音压缩包;
当基于所述位置标记确定所述连续丢失个数小于所述预设个数时,在所述连续丢失语音压缩包的位置处添加所述连续丢失个数个所述预设语音压缩包。
可选地,所述处理模块包括:
第四确定子模块,用于将所述语音压缩包标识中不符合所述指定规则的相邻两个语音压缩包标识之间的位置,确定为所述音频信息中丢失语音压缩包的位置;
第三添加子模块,用于每确定一个丢失语音压缩包的位置,在所述丢失语音压缩包的位置处添加所述预设语音压缩包,直至对所有丢失语音压缩包的位置处添加所述预设语音压缩包,得到所述优化音频信息。
第四方面,提供了一种语音控制终端,所述语音控制终端包括:
压缩模块,用于当采集到音频数据时,对所述音频数据进行压缩,得到至少两个语音压缩包;
添加模块,用于将语音压缩包标识添加到所述音频数据中,得到音频信息,所述音频信息包括所述至少两个语音压缩包和每个语音压缩包对应的语音压缩包标识;
发送模块,用于将所述音频信息发送至智能终端,所述智能终端用于在接收到所述音频信息时,基于所述语音压缩包标识确定所述音频信息是否丢失语音压缩包,并在所述音频信息中丢失语音压缩包的位置处添加预设语音压缩包,得到优化音频信息,并对所述优化音频信息进行语音识别。
本发明实施例提供的技术方案带来的有益效果是:在本发明实施例中,当接收到语音控制终端发送的音频信息时,可以基于该音频信息携带的语音压缩包标识,确定该音频信息中是否丢失语音压缩包。当确定该音频信息中丢失语音压缩包时,可以在丢失语音压缩包的位置处添加预设语音压缩包,该预设语音压缩包可以填补音频信息中丢失语音压缩包的位置,避免了对音频信息进行语音识别时,因丢失语音压缩包而导致语音识别发生错误,从而提高了对音频信息进行语音识别的正确率。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种音频信息处理系统的示意图。
图2A是本发明实施例提供的一种音频信息处理方法流程图。
图2B是本发明实施例提供的一种音频信息的结构示意图。
图2C是本发明实施例提供的另一种音频信息的结构示意。
图3A是本发明实施例提供的一种智能终端的结构示意图。
图3B是本发明实施例提供的一种确定模块的结构示意图。
图3C是本发明实施例提供的一种处理模块的结构示意图。
图3D是本发明实施例提供的另一种处理模块的结构示意图。
图4是本发明实施例提供的一种语音控制终端的结构示意图。
图5是本发明实施例提供的另一种智能终端结构示意图。
图6是本发明实施例提供的另一种语音控制终端结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
在对本发明实施例进行详细地解释说明之前,先对本发明实施例的系统架构予以介绍。图1是本发明实施例提供的一种音频信息处理系统的示意图,参见图1,该音频信息处理系统包括语音控制终端1和智能终端2,该语音控制终端1可以为移动终端、带语音控制功能的遥控器等终端,该智能终端2可以为智能电视机、智能空调等终端。在本发明实施例的图示中,语音控制终端1以移动终端为例进行说明,智能终端2以智能电视机为例进行说明,并不对本发明实施例构成限定。其中,语音控制终端1可以通过蓝牙与该智能终端2连接。
在通常情况下,为了使智能终端能够实现更多的功能,智能终端除了通过蓝牙与语音控制终端连接,还会通过WIFI进行网络连接。为了节省成本,在智能终端中通常会采用蓝牙模块和WIFI模块公用的技术,该WIFI模块可以支持智能终端通过WIFI进行网络连接,蓝牙模块可以支持智能终端通过蓝牙与语音控制终端进行连接。但是由于蓝牙通常工作在2.4GHz频段,WIFI同样工作在2.4GHz频段,从而导致当蓝牙与WIFI同时开启时,蓝牙模块产生的用于与语音控制终端连接的蓝牙信号与WIFI模块产生的用于进行网络连接的WIFI信号相互进行干扰,蓝牙的数据吞吐量会急剧下降,造成配对设备困难。因此,在WIFI和蓝牙共存的情况下,智能终端通过蓝牙接收语音控制终端发送的音频信息时,可能会造成丢包现象。另外,音频信息中语音压缩包的丢失可能会使解压后音频信息无法衔接,引起音频信息的异常,进行语音识别结果与用户输入的语音差异性较大,从而降低了智能终端对音频信息进行语音识别的正确率,导致智能终端无法进行控制操作。因此,本发明实施例提供了一种音频信息处理方法,该方法可以提高对音频信息进行语音识别的正确率,从而提高智能终端进行控制操作的效率。
图2A是根据一示例性实施例示出的一种基于蓝牙传输协议的音频信息处理方法的流程图,参见图2A,该方法包括如下步骤。
步骤201:当语音控制终端采集到音频数据时,对该音频数据进行压缩,得到至少两个语音压缩包。
具体地,语音控制终端可以通过麦克风采集音频数据,并当语音控制终端采集到音频数据时,可以将该音频数据按预设音频格式进行压缩,得到至少两个语音压缩包。
其中,麦克风可以是语音控制终端自身安装的麦克风,也可以是语音控制终端外接的麦克风。另外,该预设音频格式可以为事先设置的音频格式,比如,该预设音频格式可以为“16Khz(千赫兹)-16bit(比特)-单声道-PCM(Pulse Code Modulation,脉冲编码调制)”等。
需要说明的是,语音控制终端对该音频数据按照预设音频格式进行压缩的操作可以参考相关技术,本发明实施例对此不再进行一一赘述。
步骤202:语音控制终端将语音压缩包标识添加到该音频数据中,得到音频信息,该音频信息包括至少两个语音压缩包和每个语音压缩包对应的语音压缩包标识。
需要说明的是,该语音压缩包标识用于唯一标识语音压缩包,且该语音压缩包标识可以为数字、字母等,比如,该多个语音压缩包标识分别为1、2、3、4、5。
比如,当语音控制终端对采集到的音频数据按照预设音频格式进行压缩,得到5个语音压缩包,且当语音压缩包标识为数字时,参见图2B,该语音控制终端可以对该5个语音压缩包中的每个语音压缩包按照一定的顺序添加不同的语音压缩包标识,也即是,用数字1标识语音压缩包1,用数字2标识语音压缩包2,用数字3标识语音压缩包3,用数字4标识语音压缩包4,用数字5标识语音压缩包5,从而得到该音频信息。
步骤203:语音控制终端将该音频信息发送至智能终端。
其中,由于语音控制终端通常会通过蓝牙与该智能终端建立连接,因此,该语音控制终端可以通过蓝牙连接将该音频信息发送至该智能终端。
需要说明的是,当该语音控制终端通过蓝牙与该智能终端连接时,通常情况下,在通过蓝牙传输信息时,由于蓝牙技术只能对数字信号进行处理,因此,需要把音频信息从模拟信号的形式转换为数字信号的形式。且该语音控制终端将该音频信息从模拟信号的形式转换为数字信号的形式的操作可以参考相关技术,本发明实施例对此不再进行一一赘述。
另外,对于传输信息类型的不同,蓝牙标准提供了不同的传输方式,当传输的信息为非语音信息时,该语音控制终端可以通过ACL(Asynchronous Connectionless Link,异步链路)信道来传输非语音信息,当传输的信息为语音信息时,通过SCO(SynchronousConnection Oriented,同步话音传送)信道来传送语音信息。在本发明实施例中,该音频信息为语音信息,因此,可以通过SCO信道将该音频信息发送至智能终端。
步骤204:当智能终端接收到语音控制终端发送的音频信息时,基于该语音压缩包标识,确定音频信息中是否丢失语音压缩包。
其中,智能终端基于该语音压缩包标识,确定音频信息中是否丢失语音压缩包的操作可以为:将该语音压缩包标识按照从大小顺序进行排序;判断排序后的语音压缩包标识是否符合指定规则,该指定规则用于描述语音压缩包标识的排序结果;当该排序后的语音压缩包标识符合该指定规则时,确定该音频信息中未丢失语音压缩包;当该排序后的语音压缩包标识不符合该指定规则时,确定该音频信息中丢失语音压缩包。
需要说明的是,该大小顺序可以是从大到小的顺序,也可以为从小到大的顺序,本发明实施例对此不做具体限定。另外,该指定规则可以事先设置,比如,该指定规则可以为语音压缩包标识的排序结果为等差数列,当然,该语音压缩包标识的排序结果还可以为等比数列,本发明对此同样不做具体限定。其中,该等差数列可以是阿拉伯数字从小到大的数列,比如,1、2、3、4、5等等,也可以是从小到大每隔相同数值的数列,比如,2、4、6、8、10等等,本发明实施例对此不做具体限定。
由于该语音压缩包标识是语音控制终端按照指定规则添加到音频数据中的,当智能终端获取到音频信息时,在未丢失语音压缩包的前提下,智能终端对该音频信息中语音压缩包标识按照从小到大,或者从大到小的顺序进行排序后,排序结果应该符合指定规则,若排序结果不符合指定规则,则可以确定该音频信息中丢失语音压缩包。因此,可以通过判断排序后的语音压缩包标识是否符合指定规则,来确定该音频信息中是否丢失语音压缩包。
其中,当该指定规则为语音压缩包标识的排序结果为等差数列时,由于等差数列是指一个数列中每一项的数值与之前相邻项的数值相差相同的数值,因此,该智能终端判断该排序后的语音压缩包标识是否符合指定规则的操作可以为:确定该语音压缩包标识中每个语音压缩包标识与之前相邻的语音压缩包标识之间的差值,得到多个差值;确定该多个差值是否为同一个数值;当该多个差值为同一个数值时,确定该排序后的语音压缩包标识为等差数列,也即是,确定该排序后的语音压缩包标识符合指定规则;当该多个差值中存在与其他差值不相同的差值时,确定该排序后语音压缩包标识不为等差数列,也即是,确定该排序后的语音压缩包不符合指定规则。
比如,当该智能终端接收到语音控制终端发送的音频信息时,参见图2C,若该智能终端接收到的音频信息包括语音压缩包1、语音压缩包2、语音压缩包4和语音压缩包5,且该语音压缩包1的语音压缩包标识为1,语音压缩包2的语音压缩包标识为2,语音压缩包4的语音压缩包标识为4,语音压缩包5的语音压缩包标识为5。对该语音压缩包标识按照从小到达的顺序排序后,得到的顺序为1、2、4、5。该语音压缩包标识1与语音压缩包标识2之间的差值为1,语音压缩包标识2与语音压缩包标识4之间的差值为2,语音压缩包标识4与语音压缩包标识5之间的差值为1,该多个差值中出现两个互不相同的差值,因此,确定该排序后的语音压缩包标识不符合等差数列。
另外,当该指定规则为语音压缩包标识的排序结果为等差数列时,由于音频信息中的语音压缩包可能是间隔丢失的,比如,音频信息丢失语音压缩包之前,语音压缩包标识的排列顺序为1、2、3、4、5、6,丢失语音压缩包后语音压缩包标识的排列顺序为2、4、6,如此语音压缩包标识同样可以构成一个等差数列。因此,为了避免智能终端判断错误,该智能终端可以事先设置一个等差数列的等差值,当该多个差值为同一个数值时,可以将该数值与该等差值进行比较,当该数值与该等差值相同时,确定该语音压缩包标识按照等差数列的形式进行排列,当该数值与该等差值不相同时,确定该语音压缩包标识未按照等差数列的形式进行排列。其中,该事先设置的等差值可以为任一数值,比如,该等差值可以为1、2、3等等。
再者,当该指定规则为语音压缩包标识按照等比数列的方式进行排序时,智能终端判断该语音压缩包标识的排序方式是否满足指定规则的操作可以参考指定规则为语音压缩包标识按照等差数列的方式进行排序时,智能终端判断该语音压缩包标识的排序方式是否满足指定规则的操作,本发明实施例对此不再进行一一赘述。
步骤205:当该音频信息中丢失语音压缩包时,智能终端在丢失语音压缩包的位置处添加预设语音压缩包,得到优化音频信息。
需要说明的是,该预设语音压缩包的内容及数量可以事先设置,比如,该预设语音压缩包可以为由静音构成的语音压缩包或空包,且该预设语音压缩包的数量为10个等等。
其中,当该音频信息中丢失语音压缩包时,智能终端在丢失语音压缩包的位置处添加预设语音压缩包,得到优化音频信息的操作可以包括如下两种方式。
第一种方式,将语音压缩包标识中不符合指定规则的相邻两个语音压缩包标识之间的位置,确定为该音频信息中丢失语音压缩包的位置;每确定一个丢失语音压缩包的位置,在该丢失语音压缩包的位置处添加位置标记;在对所有丢失语音压缩包的位置处添加位置标记之后,基于该位置标记,在该音频信息中丢失语音压缩包的多个位置处添加该预设语音压缩包,得到该优化音频信息。
其中,当该指定规则为语音压缩包标识的排序结果为等差数列时,若智能终端确定该排序后的语音压缩包标识不为等差数列,则该智能终端可以确定该语音压缩包标识的多个差值中的最小差值,基于多个差值中与该最小差值不同的差值,确定形成该差值的两个语音压缩包标识,将该两个语音压缩包标识之间的位置确定为丢失语音压缩包的位置,并在该位置处添加位置标记。另外,由于在音频信息未丢失语音压缩包之前,该排序后的语音压缩包标识为等差数列,因此,在该多个差值中,与该最小差值不相同的差值是该最小差值的整数倍,确定该整数倍的值为该两个语音压缩包标识之间丢失语音压缩包的个数;智能终端在确定丢失语音压缩包的位置及语音压缩包的个数后,可以在该丢失语音压缩包的位置处按照丢失语音压缩包的个数添加相同个数个预设语音压缩包,得到该优化音频信息,或者,在该丢失语音压缩包的位置处添加一个预设语音压缩包,得到该优化音频信息。
需要说明的是,该位置标记用于标记音频信息中丢失语音压缩包的位置,该位置标记可以为数字、字母、符号等等,且该位置标记与该语音压缩包标识不相同,比如,该位置标记可以为0。
值得说明的是,由于智能终端可以在音频信息中丢失语音压缩包的位置处添加位置标记,从而方便了智能终端后续对该音频信息中丢失语音压缩包的多个位置进行确定。
另外,由于语音控制终端采集的音频信息是由用户输入的,且用户在输入音频信息时可能会出现停顿,因此,该音频信息包括的语音压缩包中可能原本就存在由静音构成的语音压缩包,该智能终端可以默认静音构成的语音压缩包为标点符号,比如,逗号、句号、问号等等。当该音频信息中连续丢失大量的语音压缩包时,智能终端可能需要在丢失的位置处连续添加大量的预设语音压缩包,从而可能造成后续智能终端对音频信息进行语音识别的时间过长,降低语音识别的效率。因此,当音频信息中连续丢失大量的语音压缩包时,该智能终端可以在该连续丢失语音压缩包的位置处添加一个预设语音压缩包。
当然,在实际应用中,当音频信息中丢失的语音压缩包过多,且在连续丢失语音压缩包的位置处添加了一个预设语音压缩包时,智能终端可能无法对音频信息进行语音识别的操作,因此,为了节省后续智能终端对音频信息进行语音识别的时间,提高进行语音识别的效率,也为了语音识别的顺利进行,当基于该位置标记确定该音频信息中连续丢失多个语音压缩包时,该智能终端可以确定连续丢失多个语音压缩包的连续丢失个数是否大于预设个数;当该连续丢失个数大于或等于预设个数时,在该连续丢失语音压缩包的位置处添加预设个数个预设语音压缩包;当基于该位置标记确定该连续丢失个数小于该预设个数时,在该连续丢失语音压缩包的位置处添加该连续丢失个数个该预设语音压缩包。
需要说明的是,该预设个数可以事先设置,比如,该预设个数可以为3、4、5等等,本发明实施例对此不做限定。
另外,由于当音频信息中丢失语音压缩包时,可能会丢失音频信息中个别字或词的一部分的发音,导致语音识别时影响对其他正确的音节的识别,造成音节识别错误,比如,音频信息为“二十点零八分”,发音为“er,shi,dian,ling,ba,fen”,当该音频信息丢失一部分的语音压缩包后,智能终端对丢失后的音频信息进行语音识别,识别的结果可能为“er,shi,dian,lba,fen”,由于丢失了“ing”的语音压缩包,导致影响了对与“ling”相邻的“ba”的识别,从而导致识别该音频信息时出现错误,因此,在该丢失语音压缩包的位置处添加预设语音压缩包后,该预设语音压缩包可以占用丢失的音节的位置,避免了因丢失语音压缩包而影响对其他正确音节的识别,从而提高语音识别的正确率。
值得说明的是,智能终端通过上述第一种方式在音频信息中丢失语音压缩包的位置处添加预设语音压缩包时,由于智能终端可以确定音频信息中丢失语音压缩包的多个位置后,在丢失语音压缩包的多个位置处添加预设语音压缩包,从而可以对连续丢失语音压缩包的位置进行进一步地优化,提高了对音频信息进行优化的效率,以及提高后续进行语音识别的效率。
第二种方式,将语音压缩包标识中不符合该指定规则的相邻两个语音压缩包标识之间的位置,确定为该音频信息中丢失语音压缩包的位置;每确定一个丢失语音压缩包的位置,在该丢失语音压缩包的位置处添加预设语音压缩包,直至对所有丢失语音压缩包的位置处添加该预设语音压缩包,得到该优化音频信息。
值得说明的是,智能终端通过上述第二种方式对该音频信息中丢失语音压缩包的位置处添加预设语音压缩包时,由于该智能终端每确定丢失一个语音压缩包,就会在丢失语音压缩包的位置处添加预设语音压缩包,无需对丢失语音压缩包的位置进行标记,也无需确定音频信息中丢失语音压缩包的全部位置,从而避免了因遗漏部分语音压缩包的丢失位置而导致漏添加现象的发生,保证了优化音频信息的准确性。
步骤206:智能终端对该优化音频信息进行语音识别。
具体地,该智能终端可以将该优化音频信息进行解码操作;对解码后的优化音频信息进行语音识别,得到识别结果。
需要说明的是,该智能终端对该音频信息进行解码的操作可以参考相关技术,本发明实施例对此不再进行一一赘述。
另外,该智能终端可以通过下述公式依次实现对该优化音频信息的语音识别。
W1=argmaxP(W|X) (1)
其中,在上述公式(1)中,W表示存储的任一文字序列,该文字序列包括词或字,X表示优化音频信息,W1表示从存储文字序列中获得的可与优化语音信息匹配的文字序列,P(W|X)表示该X可以变成文字的概率。在上述公式(2)中,W2表示该优化音频信息与文字序列之间的匹配程度,P(X|W)表示该W可以发音的概率,P(W)表示W为词或字的概率,P(X)表示X为音频信息的概率。
需要说明的是,该智能终端可以通过语言模型确定P(W),通过声学模型确定P(X|W),从而完成对该优化音频信息的语音识别。下述分别对语言模型和声学模型进行介绍。
语言模型
语言模型通常利用链式法则,把文字序列为词或字的概率拆解成其中每个词或字的概率之积。也即是,将W拆解成w1、w2、w3、。。。wn-1、wn,并通过下述公式(3)确定P(W)。
P(W)=P(w1)P(w2|w1)P(w3|w1,w2)...P(wn|w1,w2,...,wn-1) (3)
其中,在上述公式(3)中,P(W)中的每一项都是在表示已知之前所有都为词或字的条件下当前为词或字的概率。
由于在通过上述公式(3)确定P(W)时,如果条件太长,则确定P(W)的效率将会较低,从而影响后续的语音识别。因此,为了提高确定P(W)的效率,通常会通过语言模型中的n-gram模型确定P(W)。在通过n-gram模型确定P(W)时,第n个词的概率只依赖于位于该词前面的第n-1个词,此时可以通过下述公式(4)确定P(W)。
P(W)=P(w1)P(w2|w1)P(w3|w2)...P(wn|wn-1) (4)
声学模型
由于在确定每个词时还需要确定每个词的发音,而确定每个单词的发音则需要通过词典实现。其中,词典是与声学模型和语言模块并列的模型,且该词典可以把单个词转换成音素串。声学模型可以通过词典确定优化音频信息中的文字该依次发哪些音,并通过诸如维特比(Viterbi)算法的动态规则算法找到各个音素的分界点,从而确定每个音素的起止时间,进而确定优化音频信息与音素串的匹配程度,也即是,确定P(X|W)。
通常情况下,可以通过诸如高斯混合模型的分类器估计出每个音素的特征向量的分布,并在语音识别阶段,确定优化音频信息中每一帧的特征向量xt由相应音素si产生的概率P(xt|si),把每一帧的概率相乘,就得到P(X|W)。
其中,分类器可以事先训练得到,具体操作为:通过频率到普系数(Mel FrequencyCepstrum Coefficient,MFCC)从训练数据中提取大量的特征向量,以及每个特征向量对应的音素,从而训练从特征到音素的分类器。
需要说明的是,在实际应用中,不仅可以通过上述方式确定P(X|W),还可以包括其他方式,比如,通过神经网络直接给出P(si|xt),用贝叶斯公式可以转换成P(xt|si),再相乘得到P(X|W)。
值得说明的是,在对该音频信息进行语音识别后,通过上述方式对该优化音频信息进行语音识别时,由于预设语音压缩包可以填补丢失的音节的位置,并与其他语音压缩包组成新的音节,避免了因丢失语音压缩包而影响对其他正确音节的识别,从而提高了语音识别的正确率。比如,当音频信息“er,shi,dian,ling,ba,fen”中丢失“ing”的语音压缩包时,用静音构成的预设语音压缩包填补丢失“ing”的位置,得到优化音频信息,对该优化音频信息进行语音识别后得到“er,shi,dian,l,ba,fen”,并未影响对其他音节的识别,从而提高了语音识别的正确率。
进一步地,当智能终端识别出该优化音频信息后,可以基于识别结果进行相关的控制操作。另外,当该智能终端为带有显示屏的终端时,该智能终端在对该优化音频信息进行语音识别后,还可以将识别到的结果显示在显示屏中。
在本发明实施例中,当语音控制终端采集到音频数据时,可以对该音频数据进行压缩,得到至少两个语音压缩包,且为了方便后续智能终端可以确定出音频信息中是否丢失语音压缩包,可以对每个语音压缩包分别添加对应的语音压缩包标识,得到音频信息。之后,可以通过蓝牙将该音频信息发送至智能终端。当该智能终端接收到该音频信息时,可以获取每个语音压缩包的语音压缩包标识,并对获取的语音压缩包标识按照从小到大或从大到小的顺序进行排序,判断排序后的语音压缩包标识是否符合指定规则,以确定该音频信息中是否丢失语音压缩包。当确定该音频信息中丢失语音压缩包时,可以在丢失语音压缩包的位置处添加预设语音压缩包,得到优化音频信息,之后,该智能终端可以对该优化音频信息进行语音识别。由于智能终端对优化音频信息进行语音识别时,该预设语音压缩包可以填补音频信息中丢失语音压缩包的位置,避免了对音频信息的语音识别时,因丢失语音压缩包而导致语音识别错误的发生,从而提高了智能终端对音频信息进行语音识别的正确率,进而提高了智能终端基于该音频信息进行控制操作的效率。
图3A是根据一示例性实施例示出的一种智能终端的结构示意图,参见图3A,该智能终端包括:接收模块301、确定模块302和处理模块303。
接收模块301,用于接收语音控制终端发送的音频信息,该音频信息包括至少两个语音压缩包和每个语音压缩包对应的语音压缩包标识,该语音压缩包标识中的任一语音压缩包标识用于标识该多个语音压缩包中对应的语音压缩包;
确定模块302,用于基于该语音压缩包标识确定该音频信息中是否丢失语音压缩包;
处理模块303,用于当该音频信息中丢失语音压缩包时,在丢失语音压缩包的位置处添加预设语音压缩包,得到优化音频信息;对该优化音频信息进行语音识别。
可选地,参见图3B,该确定模块302包括:
排序子模块3021,用于将该语音压缩包标识按照大小顺序进行排序;
判断子模块3022,用于判断该排序后语音压缩包标识的排序方式是否符合指定规则,该指定规则用于描述该语音压缩包标识的排序结果;
第一确定子模块3023,用于当该排序后的语音压缩包标识符合该指定规则时,确定该音频信息中未丢失语音压缩包;
第二确定子模块3024,用于当该排序后的语音压缩包标识不符合该指定规则时,确定该音频信息中丢失语音压缩包。
可选地,参见图3C,该处理模块303包括:
第三确定子模块3031,用于将该语音压缩包标识中不符合该指定规则的相邻两个语音压缩包标识之间的位置,确定为该音频信息中丢失语音压缩包的位置;
第一添加子模块3032,用于每确定一个丢失语音压缩包的位置,在该丢失语音压缩包的位置处添加位置标记;
第二添加子模块3033,用于在对所有丢失语音压缩包的位置处添加位置标记之后,基于该位置标记,在该丢失语音压缩包的多个位置处添加该预设语音压缩包,得到该优化音频信息。
可选地,该第二添加子模块3033用于:
当基于该位置标记确定该音频信息中连续丢失多个语音压缩包时,确定连续丢失多个语音压缩包的连续丢失个数是否大于预设个数;
当该连续丢失个数大于或等于预设个数时,在该连续丢失语音压缩包的位置处添加预设个数个该预设语音压缩包;
当基于该位置标记确定该连续丢失个数小于该预设个数时,在该连续丢失语音压缩包的位置处添加该连续丢失个数个该预设语音压缩包。
可选地,参见图3D,该处理模块303包括:
第四确定子模块3034,用于将该语音压缩包标识中不符合该指定规则的相邻两个语音压缩包标识之间的位置,确定为该音频信息中丢失语音压缩包的位置;
第三添加子模块3035,用于每确定一个丢失语音压缩包的位置,在该丢失语音压缩包的位置处添加该预设语音压缩包,直至对所有丢失语音压缩包的位置处添加该预设语音压缩包,得到该优化音频信息。
在本发明实施例中,当语音控制终端采集到音频数据时,可以对该音频数据进行压缩,得到至少两个语音压缩包,且为了方便后续智能终端可以确定出音频信息中是否丢失语音压缩包,可以对每个语音压缩包分别添加对应的语音压缩包标识,得到音频信息。之后,可以通过蓝牙将该音频信息发送至智能终端。当该智能终端接收到该音频信息时,可以获取每个语音压缩包的语音压缩包标识,并对获取的语音压缩包标识按照从小到大或从大到小的顺序进行排序,判断排序后的语音压缩包标识是否符合指定规则,以确定该音频信息中是否丢失语音压缩包。当确定该音频信息中丢失语音压缩包时,可以在丢失语音压缩包的位置处添加预设语音压缩包,得到优化音频信息,之后,该智能终端可以对该优化音频信息进行语音识别。由于智能终端对优化音频信息进行语音识别时,该预设语音压缩包可以填补音频信息中丢失语音压缩包的位置,避免了对音频信息的语音识别时,因丢失语音压缩包而导致语音识别错误的发生,从而提高了智能终端对音频信息进行语音识别的正确率,进而提高了智能终端基于该音频信息进行控制操作的效率。
图4是根据一示例性实施例示出的一种语音控制终端的结构示意图,参见图4,该语音控制终端包括:压缩模块401、添加模块402和发送模块403。
压缩模块401,用于当采集到音频数据时,对该音频数据进行压缩,得到至少两个语音压缩包;
添加模块402,用于将语音压缩包标识添加到该音频数据中,得到音频信息,该音频信息包括该至少两个语音压缩包和每个语音压缩包对应的语音压缩包标识;
发送模块403,用于将该音频信息发送至智能终端,该智能终端用于在接收到该音频信息时,基于该语音压缩包标识确定该音频信息是否丢失语音压缩包,并在该音频信息中丢失语音压缩包的位置处添加预设语音压缩包,得到优化音频信息,并对该优化音频信息进行语音识别。
综上所述,在本发明实施例中,当语音控制终端采集到音频数据时,可以对该音频数据进行压缩,得到至少两个语音压缩包,且为了方便后续智能终端可以确定出音频信息中是否丢失语音压缩包,可以对每个语音压缩包分别添加对应的语音压缩包标识,得到音频信息。之后,可以通过蓝牙将该音频信息发送至智能终端。当该智能终端接收到该音频信息时,可以获取每个语音压缩包的语音压缩包标识,并对获取的语音压缩包标识按照从小到大或从大到小的顺序进行排序,判断排序后的语音压缩包标识是否符合指定规则,以确定该音频信息中是否丢失语音压缩包。当确定该音频信息中丢失语音压缩包时,可以在丢失语音压缩包的位置处添加预设语音压缩包,得到优化音频信息,之后,该智能终端可以对该优化音频信息进行语音识别。由于智能终端对优化音频信息进行语音识别时,该预设语音压缩包可以填补音频信息中丢失语音压缩包的位置,避免了对音频信息的语音识别时,因丢失语音压缩包而导致语音识别错误的发生,从而提高了智能终端对音频信息进行语音识别的正确率,进而提高了智能终端基于该音频信息进行控制操作的效率。
图5是本发明实施例提供的一种智能终端结构示意图。参见图5,智能终端500可以包括通信单元510、包括有一个或一个以上计算机可读存储介质的存储器520、输入单元530、显示单元540、传感器550、音频电路560、WIFI(Wireless Fidelit5,无线保真)模块570、包括有一个或者一个以上处理核心的处理器580、以及电源590等部件。本领域技术人员可以理解,图5中示出的终端结构并不构成对终端的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
通信单元510可用于收发信息或通话过程中,信号的接收和发送,该通信单元510可以为RF(Radio Frequenc5,射频)电路、路由器、调制解调器、等网络通信设备。特别地,当通信单元510为RF电路时,将基站的下行信息接收后,交由一个或者一个以上处理器580处理;另外,将涉及上行的数据发送给基站。通常,作为通信单元的RF电路包括但不限于天线、至少一个放大器、调谐器、一个或多个振荡器、用户身份模块(SIM)卡、收发信机、耦合器、LNA(Low Noise Amplifier,低噪声放大器)、双工器等。此外,通信单元510还可以通过无线通信与网络和其他设备通信。所述无线通信可以使用任一通信标准或协议,包括但不限于GSM(Global S5stem of Mobile communication,全球移动通讯系统)、GPRS(GeneralPacket Radio Service,通用分组无线服务)、CDMA(Code Division Multiple Access,码分多址)、WCDMA(Wideband Code Division Multiple Access,宽带码分多址)、LTE(LongTerm Evolution,长期演进)、电子邮件、SMS(Short Messaging Service,短消息服务)等。存储器520可用于存储软件程序以及模块,处理器580通过运行存储在存储器520的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器520可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据智能终端500的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器520可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器520还可以包括存储器控制器,以提供处理器580和输入单元530对存储器520的访问。
输入单元530可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。优选地,输入单元530可包括触敏表面531以及其他输入设备532。触敏表面531,也称为触摸显示屏或者触控板,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触敏表面531上或在触敏表面531附近的操作),并根据预先设定的程式驱动相应的连接装置。可选的,触敏表面531可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器580,并能接收处理器580发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触敏表面531。除了触敏表面531,输入单元530还可以包括其他输入设备532。优选地,其他输入设备532可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。
显示单元540可用于显示由用户输入的信息或提供给用户的信息以及智能终端500的各种图形用户接口,这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。显示单元540可包括显示面板541,可选的,可以采用LCD(Liquid Cr5stal Displa5,液晶显示器)、OLED(Organic Light-Emitting Diode,有机发光二极管)等形式来配置显示面板541。进一步的,触敏表面531可覆盖显示面板541,当触敏表面531检测到在其上或附近的触摸操作后,传送给处理器580以确定触摸事件的类型,随后处理器580根据触摸事件的类型在显示面板541上提供相应的视觉输出。虽然在图5中,触敏表面531与显示面板541是作为两个独立的部件来实现输入和输入功能,但是在某些实施例中,可以将触敏表面531与显示面板541集成而实现输入和输出功能。
智能终端500还可包括至少一种传感器550,比如光传感器、运动传感器以及其他传感器。光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示面板541的亮度,接近传感器可在智能终端500移动到耳边时,关闭显示面板541和/或背光。作为运动传感器的一种,重力加速度传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;至于智能终端500还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
音频电路560、扬声器561,传声器562可提供用户与智能终端500之间的音频接口。音频电路560可将接收到的音频数据转换后的电信号,传输到扬声器561,由扬声器561转换为声音信号输出;另一方面,传声器562将收集的声音信号转换为电信号,由音频电路560接收后转换为音频数据,再将音频数据输出处理器580处理后,经通信单元510以发送给比如另一终端,或者将音频数据输出至存储器520以便进一步处理。音频电路560还可能包括耳塞插孔,以提供外设耳机与智能终端500的通信。
为了实现无线通信,该终端上可以配置有无线通信单元570,该无线通信单元570可以为WIFI模块。WIFI属于短距离无线传输技术,智能终端500通过无线通信单元570可以帮助用户收发电子邮件、浏览网页和访问流式媒体等,它为用户提供了无线的宽带互联网访问。虽然图中示出了无线通信单元570,但是可以理解的是,其并不属于智能终端500的必须构成,完全可以根据需要在不改变发明的本质的范围内而省略。
处理器580是智能终端500的控制中心,利用各种接口和线路连接整个手机的各个部分,通过运行或执行存储在存储器520内的软件程序和/或模块,以及调用存储在存储器520内的数据,执行智能终端500的各种功能和处理数据,从而对手机进行整体监控。可选的,处理器580可包括一个或多个处理核心;优选的,处理器580可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器580中。
智能终端500还包括给各个部件供电的电源590(比如电池),优选的,电源可以通过电源管理系统与处理器580逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源560还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
尽管未示出,智能终端500还可以包括摄像头、蓝牙模块等,在此不再赘述。
在本实施例中,终端还包括有一个或者一个以上的程序,这一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行,该一个或者一个以上程序包含用于进行本发明实施例提供的如图2A所示的音频信息处理方法的指令。
图6是本发明实施例提供的一种语音控制终端结构示意图。参见图6,语音控制语音控制终端600可以包括通信单元610、包括有一个或一个以上计算机可读存储介质的存储器620、输入单元630、显示单元640、传感器650、音频电路660、WIFI(Wireless Fidelit5,无线保真)模块670、包括有一个或者一个以上处理核心的处理器680、以及电源690等部件。本领域技术人员可以理解,图6中示出的终端结构并不构成对终端的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
通信单元610可用于收发信息或通话过程中,信号的接收和发送,该通信单元610可以为RF(Radio Frequenc5,射频)电路、路由器、调制解调器、等网络通信设备。特别地,当通信单元610为RF电路时,将基站的下行信息接收后,交由一个或者一个以上处理器680处理;另外,将涉及上行的数据发送给基站。通常,作为通信单元的RF电路包括但不限于天线、至少一个放大器、调谐器、一个或多个振荡器、用户身份模块(SIM)卡、收发信机、耦合器、LNA(Low Noise Amplifier,低噪声放大器)、双工器等。此外,通信单元610还可以通过无线通信与网络和其他设备通信。所述无线通信可以使用任一通信标准或协议,包括但不限于GSM(Global S5stem of Mobile communication,全球移动通讯系统)、GPRS(GeneralPacket Radio Service,通用分组无线服务)、CDMA(Code Division Multiple Access,码分多址)、WCDMA(Wideband Code Division Multiple Access,宽带码分多址)、LTE(LongTerm Evolution,长期演进)、电子邮件、SMS(Short Messaging Service,短消息服务)等。存储器620可用于存储软件程序以及模块,处理器680通过运行存储在存储器620的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器620可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据语音控制终端600的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器620可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器620还可以包括存储器控制器,以提供处理器680和输入单元630对存储器620的访问。
输入单元630可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。优选地,输入单元630可包括触敏表面631以及其他输入设备632。触敏表面631,也称为触摸显示屏或者触控板,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触敏表面631上或在触敏表面631附近的操作),并根据预先设定的程式驱动相应的连接装置。可选的,触敏表面631可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器680,并能接收处理器680发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触敏表面631。除了触敏表面631,输入单元630还可以包括其他输入设备632。优选地,其他输入设备632可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。
显示单元640可用于显示由用户输入的信息或提供给用户的信息以及语音控制终端600的各种图形用户接口,这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。显示单元640可包括显示面板641,可选的,可以采用LCD(Liquid Cr5stalDispla5,液晶显示器)、OLED(Organic Light-Emitting Diode,有机发光二极管)等形式来配置显示面板641。进一步的,触敏表面631可覆盖显示面板641,当触敏表面631检测到在其上或附近的触摸操作后,传送给处理器680以确定触摸事件的类型,随后处理器680根据触摸事件的类型在显示面板641上提供相应的视觉输出。虽然在图6中,触敏表面631与显示面板641是作为两个独立的部件来实现输入和输入功能,但是在某些实施例中,可以将触敏表面631与显示面板641集成而实现输入和输出功能。
语音控制终端600还可包括至少一种传感器650,比如光传感器、运动传感器以及其他传感器。光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示面板641的亮度,接近传感器可在语音控制终端600移动到耳边时,关闭显示面板641和/或背光。作为运动传感器的一种,重力加速度传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;至于语音控制终端600还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
音频电路660、扬声器661,传声器662可提供用户与语音控制终端600之间的音频接口。音频电路660可将接收到的音频数据转换后的电信号,传输到扬声器661,由扬声器661转换为声音信号输出;另一方面,传声器662将收集的声音信号转换为电信号,由音频电路660接收后转换为音频数据,再将音频数据输出处理器680处理后,经通信单元610以发送给比如另一终端,或者将音频数据输出至存储器620以便进一步处理。音频电路660还可能包括耳塞插孔,以提供外设耳机与语音控制终端600的通信。
为了实现无线通信,该终端上可以配置有无线通信单元670,该无线通信单元670可以为WIFI模块。WIFI属于短距离无线传输技术,语音控制终端600通过无线通信单元670可以帮助用户收发电子邮件、浏览网页和访问流式媒体等,它为用户提供了无线的宽带互联网访问。虽然图中示出了无线通信单元670,但是可以理解的是,其并不属于语音控制终端600的必须构成,完全可以根据需要在不改变发明的本质的范围内而省略。
处理器680是语音控制终端600的控制中心,利用各种接口和线路连接整个手机的各个部分,通过运行或执行存储在存储器620内的软件程序和/或模块,以及调用存储在存储器620内的数据,执行语音控制终端600的各种功能和处理数据,从而对手机进行整体监控。可选的,处理器680可包括一个或多个处理核心;优选的,处理器680可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器680中。
语音控制终端600还包括给各个部件供电的电源690(比如电池),优选的,电源可以通过电源管理系统与处理器680逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源660还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
尽管未示出,语音控制终端600还可以包括摄像头、蓝牙模块等,在此不再赘述。
在本实施例中,终端还包括有一个或者一个以上的程序,这一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行,该一个或者一个以上程序包含用于进行本发明实施例提供的如图2A所示的音频信息处理方法的指令。
需要说明的是:上述实施例提供的智能终端和语音控制终端在进行音频信息处理时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将智能终端和语音控制终端的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的智能终端、语音控制终端与音频信息处理方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (6)
1.一种基于蓝牙传输协议的音频信息处理方法,其特征在于,应用于智能终端中,所述方法包括:
接收语音控制终端通过同步话音传送SCO信道发送的音频信息,所述音频信息包括至少两个语音压缩包和每个语音压缩包对应的语音压缩包标识;将所述语音压缩包标识按照大小顺序进行排序;判断排序后的语音压缩包标识是否符合指定规则,所述指定规则用于描述所述语音压缩包标识的排序结果,所述指定规则为所述语音压缩包标识的排序结果为等差数列或者为所述语音压缩包标识的排序结果为等比数列;
当所述排序后的语音压缩包标识不符合所述指定规则时,确定所述音频信息丢失语音压缩包;当所述音频信息丢失语音压缩包时,将所述语音压缩包标识中不符合所述指定规则的相邻两个语音压缩包标识之间的位置,确定为所述音频信息中丢失语音压缩包的位置;每确定一个丢失语音压缩包的位置,在所述丢失语音压缩包的位置处添加位置标记;
在对所有丢失语音压缩包的位置处添加位置标记之后,当基于所述位置标记确定所述音频信息中连续丢失多个语音压缩包时,确定连续丢失多个语音压缩包的连续丢失个数是否大于或等于预设个数;当所述连续丢失个数大于或等于预设个数时,在所述连续丢失语音压缩包的位置处添加预设个数个所述预设语音压缩包;当基于所述位置标记确定所述连续丢失个数小于所述预设个数时,在所述连续丢失语音压缩包的位置处添加所述连续丢失个数个所述预设语音压缩包,得到所述优化音频信息;对所述优化音频信息进行语音识别。
2.根据权利要求1所述的方法,其特征在于,所述判断排序后的语音压缩包标识是否符合指定规则之后,还包括:
当所述排序后的语音压缩包标识符合所述指定规则时,确定所述音频信息未丢失语音压缩包。
3.一种基于蓝牙传输协议的音频信息处理方法,其特征在于,应用于语音控制终端中,所述方法包括:
当采集到音频数据时,对所述音频数据进行压缩,得到至少两个语音压缩包;
将语音压缩包标识添加到所述音频数据中,得到音频信息,所述音频信息包括所述至少两个语音压缩包和每个语音压缩包对应的语音压缩包标识;
将所述音频信息发送至智能终端,所述智能终端用于在接收到通过同步话音传送SCO信道发送的所述音频信息时,将所述语音压缩包标识按照大小顺序进行排序,判断排序后的语音压缩包标识是否符合指定规则,当所述排序后的语音压缩包标识不符合所述指定规则时,确定所述音频信息丢失语音压缩包,并在所述音频信息中丢失语音压缩包的位置处添加预设语音压缩包,得到优化音频信息,并对所述优化音频信息进行语音识别,所述指定规则用于描述所述语音压缩包标识的排序结果,所述指定规则为语音压缩包标识的排序结果为等差数列或者为语音压缩包标识的排序结果为等比数列;
所述智能终端还用于当所述排序后的语音压缩包标识不符合所述指定规则时,确定所述音频信息丢失语音压缩包;当所述音频信息丢失语音压缩包时,将所述语音压缩包标识中不符合所述指定规则的相邻两个语音压缩包标识之间的位置,确定为所述音频信息中丢失语音压缩包的位置;每确定一个丢失语音压缩包的位置,在所述丢失语音压缩包的位置处添加位置标记;在对所有丢失语音压缩包的位置处添加位置标记之后,当基于所述位置标记确定所述音频信息中连续丢失多个语音压缩包时,确定连续丢失多个语音压缩包的连续丢失个数是否大于或等于预设个数;当所述连续丢失个数大于或等于预设个数时,在所述连续丢失语音压缩包的位置处添加预设个数个所述预设语音压缩包;当基于所述位置标记确定所述连续丢失个数小于所述预设个数时,在所述连续丢失语音压缩包的位置处添加所述连续丢失个数个所述预设语音压缩包,得到所述优化音频信息。
4.一种智能终端,其特征在于,所述智能终端包括:
接收模块,用于接收语音控制终端通过同步话音传送SCO信道发送的音频信息,所述音频信息包括至少两个语音压缩包和每个语音压缩包对应的语音压缩包标识;
确定模块,用于将所述语音压缩包标识按照大小顺序进行排序;判断排序后的语音压缩包标识是否符合指定规则,所述指定规则用于描述所述语音压缩包标识的排序结果,所述指定规则为语音压缩包标识的排序结果为等差数列或者为语音压缩包标识的排序结果为等比数列;当所述排序后的语音压缩包标识不符合所述指定规则时,确定所述音频信息丢失语音压缩包;
处理模块,用于当所述音频信息中丢失语音压缩包时,在丢失语音压缩包的位置处添加预设语音压缩包,得到优化音频信息;对所述优化音频信息进行语音识别;
所述处理模块包括:
第三确定子模块,用于将所述语音压缩包标识中不符合所述指定规则的相邻两个语音压缩包标识之间的位置,确定为所述音频信息中丢失语音压缩包的位置;
第一添加子模块,用于每确定一个丢失语音压缩包的位置,在所述丢失语音压缩包的位置处添加位置标记;
第二添加子模块,用于在对所有丢失语音压缩包的位置处添加位置标记之后,基于所述位置标记,在所述丢失语音压缩包的多个位置处添加所述预设语音压缩包,得到所述优化音频信息;
所述第二添加子模块用于当基于所述位置标记确定所述音频信息中连续丢失多个语音压缩包时,确定连续丢失多个语音压缩包的连续丢失个数是否大于或等于预设个数;当所述连续丢失个数大于或等于预设个数时,在所述连续丢失语音压缩包的位置处添加预设个数个所述预设语音压缩包;当基于所述位置标记确定所述连续丢失个数小于所述预设个数时,在所述连续丢失语音压缩包的位置处添加所述连续丢失个数个所述预设语音压缩包。
5.根据权利要求4所述的智能终端,其特征在于,所述确定模块包括:
第一确定子模块,用于当所述排序后的语音压缩包标识符合所述指定规则时,确定所述音频信息中未丢失语音压缩包。
6.一种语音控制终端,其特征在于,所述语音控制终端包括:
压缩模块,用于当采集到音频数据时,对所述音频数据进行压缩,得到至少两个语音压缩包;
添加模块,用于将语音压缩包标识添加到所述音频数据中,得到音频信息,所述音频信息包括所述至少两个语音压缩包和每个语音压缩包对应的语音压缩包标识;
发送模块,用于将所述音频信息发送至智能终端,所述智能终端用于在接收到通过同步话音传送SCO信道发送的所述音频信息时,将所述语音压缩包标识按照大小顺序进行排序,判断排序后的语音压缩包标识是否符合指定规则,当所述排序后的语音压缩包标识不符合所述指定规则时,确定所述音频信息丢失语音压缩包,并在所述音频信息中丢失语音压缩包的位置处添加预设语音压缩包,得到优化音频信息,并对所述优化音频信息进行语音识别,所述指定规则用于描述所述语音压缩包标识的排序结果,所述指定规则为语音压缩包标识的排序结果为等差数列或者为语音压缩包标识的排序结果为等比数列;
所述智能终端还用于当所述排序后的语音压缩包标识不符合所述指定规则时,确定所述音频信息丢失语音压缩包;当所述音频信息丢失语音压缩包时,将所述语音压缩包标识中不符合所述指定规则的相邻两个语音压缩包标识之间的位置,确定为所述音频信息中丢失语音压缩包的位置;每确定一个丢失语音压缩包的位置,在所述丢失语音压缩包的位置处添加位置标记;在对所有丢失语音压缩包的位置处添加位置标记之后,当基于所述位置标记确定所述音频信息中连续丢失多个语音压缩包时,确定连续丢失多个语音压缩包的连续丢失个数是否大于或等于预设个数;当所述连续丢失个数大于或等于预设个数时,在所述连续丢失语音压缩包的位置处添加预设个数个所述预设语音压缩包;当基于所述位置标记确定所述连续丢失个数小于所述预设个数时,在所述连续丢失语音压缩包的位置处添加所述连续丢失个数个所述预设语音压缩包,得到所述优化音频信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710099111.6A CN106847280B (zh) | 2017-02-23 | 2017-02-23 | 音频信息处理方法、智能终端及语音控制终端 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710099111.6A CN106847280B (zh) | 2017-02-23 | 2017-02-23 | 音频信息处理方法、智能终端及语音控制终端 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106847280A CN106847280A (zh) | 2017-06-13 |
CN106847280B true CN106847280B (zh) | 2020-09-15 |
Family
ID=59133121
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710099111.6A Active CN106847280B (zh) | 2017-02-23 | 2017-02-23 | 音频信息处理方法、智能终端及语音控制终端 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106847280B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108520760B (zh) * | 2018-03-27 | 2020-07-24 | 维沃移动通信有限公司 | 一种语音信号处理方法及终端 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1437745A (zh) * | 2000-06-05 | 2003-08-20 | 摩托罗拉公司 | 在分布式语音识别处理和系统中减轻传输错误影响的方法和设备 |
CN1739143A (zh) * | 2003-01-14 | 2006-02-22 | 摩托罗拉公司(在特拉华州注册的公司) | 用于分布式语音识别系统内语音重构的方法和设备 |
CN102479513A (zh) * | 2010-11-29 | 2012-05-30 | Nxp股份有限公司 | 子带已编码音频信号的错误隐藏 |
CN105960794A (zh) * | 2014-02-03 | 2016-09-21 | 寇平公司 | 用于语音命令的智能蓝牙耳机 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015134579A1 (en) * | 2014-03-04 | 2015-09-11 | Interactive Intelligence Group, Inc. | System and method to correct for packet loss in asr systems |
-
2017
- 2017-02-23 CN CN201710099111.6A patent/CN106847280B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1437745A (zh) * | 2000-06-05 | 2003-08-20 | 摩托罗拉公司 | 在分布式语音识别处理和系统中减轻传输错误影响的方法和设备 |
CN1739143A (zh) * | 2003-01-14 | 2006-02-22 | 摩托罗拉公司(在特拉华州注册的公司) | 用于分布式语音识别系统内语音重构的方法和设备 |
CN102479513A (zh) * | 2010-11-29 | 2012-05-30 | Nxp股份有限公司 | 子带已编码音频信号的错误隐藏 |
CN105960794A (zh) * | 2014-02-03 | 2016-09-21 | 寇平公司 | 用于语音命令的智能蓝牙耳机 |
Also Published As
Publication number | Publication date |
---|---|
CN106847280A (zh) | 2017-06-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11450337B2 (en) | Multi-person speech separation method and apparatus using a generative adversarial network model | |
CN106710596B (zh) | 回答语句确定方法及装置 | |
EP2821992B1 (en) | Method for updating voiceprint feature model and terminal | |
CN107919138B (zh) | 一种语音中的情绪处理方法及移动终端 | |
CN106528545B (zh) | 一种语音信息的处理方法及装置 | |
CN109672775B (zh) | 调节唤醒灵敏度的方法、装置及终端 | |
CN106940997B (zh) | 一种向语音识别系统发送语音信号的方法和装置 | |
CN106445596B (zh) | 一种设置项的管理方法及装置 | |
CN111371705B (zh) | 一种下载任务执行方法及电子设备 | |
CN112230877A (zh) | 一种语音操作方法、装置、存储介质及电子设备 | |
CN108074574A (zh) | 音频处理方法、装置及移动终端 | |
CN110457716B (zh) | 一种语音输出方法及移动终端 | |
CN110517677B (zh) | 语音处理系统、方法、设备、语音识别系统及存储介质 | |
CN109920309B (zh) | 手语转换方法、装置、存储介质和终端 | |
CN109302528B (zh) | 一种拍照方法、移动终端及计算机可读存储介质 | |
CN106170034A (zh) | 一种音效处理方法及移动终端 | |
CN109982273B (zh) | 一种信息回复方法及移动终端 | |
CN109639738B (zh) | 语音数据传输的方法及终端设备 | |
CN108520760B (zh) | 一种语音信号处理方法及终端 | |
CN106486119A (zh) | 一种识别语音信息的方法和装置 | |
CN111897916B (zh) | 语音指令识别方法、装置、终端设备及存储介质 | |
CN106847280B (zh) | 音频信息处理方法、智能终端及语音控制终端 | |
CN112653789A (zh) | 语音模式切换方法、终端及存储介质 | |
CN109347721B (zh) | 一种信息发送方法及终端设备 | |
CN109274814B (zh) | 一种消息提示方法、装置及终端设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |