CN106782589B - 移动终端及其语音输入方法和装置 - Google Patents

移动终端及其语音输入方法和装置 Download PDF

Info

Publication number
CN106782589B
CN106782589B CN201611139657.1A CN201611139657A CN106782589B CN 106782589 B CN106782589 B CN 106782589B CN 201611139657 A CN201611139657 A CN 201611139657A CN 106782589 B CN106782589 B CN 106782589B
Authority
CN
China
Prior art keywords
microphone
voice
mobile terminal
audio
voice input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201611139657.1A
Other languages
English (en)
Other versions
CN106782589A (zh
Inventor
邱辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qiku Internet Technology Shenzhen Co Ltd
Original Assignee
Qiku Internet Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qiku Internet Technology Shenzhen Co Ltd filed Critical Qiku Internet Technology Shenzhen Co Ltd
Priority to CN201611139657.1A priority Critical patent/CN106782589B/zh
Publication of CN106782589A publication Critical patent/CN106782589A/zh
Application granted granted Critical
Publication of CN106782589B publication Critical patent/CN106782589B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G07CHECKING-DEVICES
    • G07CTIME OR ATTENDANCE REGISTERS; REGISTERING OR INDICATING THE WORKING OF MACHINES; GENERATING RANDOM NUMBERS; VOTING OR LOTTERY APPARATUS; ARRANGEMENTS, SYSTEMS OR APPARATUS FOR CHECKING NOT PROVIDED FOR ELSEWHERE
    • G07C5/00Registering or indicating the working of vehicles
    • G07C5/08Registering or indicating performance data other than driving, working, idle, or waiting time, with or without registering driving, working, idle or waiting time
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/72Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
    • H04M1/724User interfaces specially adapted for cordless or mobile telephones
    • H04M1/72448User interfaces specially adapted for cordless or mobile telephones with means for adapting the functionality of the device according to specific conditions
    • H04M1/72454User interfaces specially adapted for cordless or mobile telephones with means for adapting the functionality of the device according to specific conditions according to context-related or environment-related conditions
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02082Noise filtering the noise being echo, reverberation of the speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02163Only one microphone
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02165Two microphones, one receiving mainly the noise signal and the other one mainly the speech signal

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • General Physics & Mathematics (AREA)
  • Environmental & Geological Engineering (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Mobile Radio Communication Systems (AREA)
  • Telephone Function (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本发明揭示了一种移动终端及其语音输入方法和装置,其中方法应用于移动终端,第一麦克风接入移动终端的第一音频输入接口,包括移动终端判断其语音输入环境所处的状态;如果语音输入环境处于音频输出状态,则将参考信号接入移动终端预设的第二音频输入接口;如果语音输入环境处于拾音状态,则将第二麦克风接入移动终端预设的第二音频输入接口。本发明的移动终端及其语音输入方法和装置,可以实现在移动终端不同状态下采用单麦克风和双麦克风拾音,保证了移动终端必备的打断功能,同时还实现了外部环境噪声复杂时通过双麦克风拾音,提高语音输入的准确性。而且本发明只需要基于两路音频输入接口完成,无需添加语音处理IC,降低移动终端的成本。

Description

移动终端及其语音输入方法和装置
技术领域
本发明涉及到语音处理领域,特别是涉及到移动终端及其语音输入方法和装置。
背景技术
具有语音识别等功能的移动终端,一般都具有音频打断功能,比如后视镜行车记录仪,需要具备打断功能,即支持渐进理解自由打断的功能,可随时根据语音指令对系统播报进行纠正和更改等;该功能需要使用到常用的回声+唤醒技术。其主要处理的流程为:在一个空间内同时存在移动终端播放的音频信号和声源信号,系统通过麦克风录音时能够采集到此两种信号,同时对移动终端播放的音频信号进行采样从而获得单独的参考信号,将此参考信号和麦克风采集到的两种信号混合后的声音信号做回声消除处理,只保留声源信号,最后将保留的声源信号送到唤醒引擎做唤醒处理,唤醒成功之后移动终端的系统会反馈给到主机,完成整个回声消除+唤醒过程。上述移动终端播放的音频信号即为后视镜行车记录仪等移动终端本身发出的音频信号,或者移动终端通过蓝牙、WIFI等通讯模块接收的音频信号,该音频信号可以称之为原生音频信号,也就是非外部声源产生的信号,移动终端播放音频信号的状态可认为移动终端处于音频输出状态;如果移动终端未播放音频信号,则认为移动终端处于拾音状态,此状态下,移动终端无需进行回声消除处理。
现有MT6753等只支持两路麦克风输入的声音处理平台,使用较为广泛,其中,上述声音处理平台的第一音频输入接口连接一枚麦克风拾取声音,另外的第二音频输入接口接收参考信号进行回声消除参考用;因此述声音处理平台在不增加单独的语音处理IC的情况下,麦克风拾取声音只能实现单麦克风降噪,在环境噪声复杂的情况下会大大降低环境降噪的能力;而通过增加单独的语音处理IC(integratedcircuit,缩写:IC;其为半导体元件产品的统称,包括:1.集成电路;2.二、三极管;3.特殊电子元件)来实现多麦克风降噪能力,其成本会太高,性价比很低。
发明内容
本发明的主要目的为提供一种无需增加语音处理IC即可实现多麦克风降噪的移动终端及其语音输入方法和装置。
为了上述发明目的,本发明提出一种语音输入方法,其应用于移动终端,其中,第一麦克风接入所述移动终端的第一音频输入接口,所述语音输入方法包括:
移动终端判断其语音输入环境所处的状态;
如果判定语音输入环境处于音频输出状态,则将参考信号接入所述移动终端预设的第二音频输入接口;
如果判定语音输入环境处于拾音状态,则将第二麦克风接入所述移动终端预设的第二音频输入接口。
进一步地,所述移动终端判断其语音输入环境所处的状态的步骤,包括:
判断移动终端是否输出原生音频信号至音频功放;
如果是,则判定语音输入环境处于所述音频输出状态;否则,判定语音输入环境处于所述拾音状态。
进一步地,所述如果判定语音输入环境处于音频输出状态,则将参考信号接入所述移动终端预设的第二音频输入接口的步骤之后,包括:
通过第一麦克风接收所述音频功放播放的对应所述原生音频信号的原生声音信号;
根据所述参考信号对所述原生声音信号进行回音消除处理。
进一步地,所述如果判定语音输入环境处于音频输出状态,则将参考信号接入所述移动终端预设的第二音频输入接口的步骤之后,包括:
调用预设的单麦克风的降噪算法进行降噪处理。
进一步地,所述根据所述参考信号对所述原生声音信号进行回音消除处理的步骤之后,包括:
通过第一麦克风获取预设的语音命令,根据所述语音命令执行对应的任务。
进一步地,所述通过第一麦克风获取预设的语音命令,根据所述语音命令执行对应的任务的步骤之后,包括:
所述任务完成指定时间长度后,控制所述移动终端输出原生音频信号至音频功放。
进一步地,所述如果判定语音输入环境处于拾音状态,则将第二麦克风接入所述移动终端预设的第二音频输入接口的步骤之后,包括:
通过所述第一麦克风和第二麦克风接收外部声源的声音信号,并调用预设的双麦克风的降噪算法进行降噪处理。
进一步地,所述如果判定语音输入环境处于拾音状态,则将第二麦克风接入所述移动终端预设的第二音频输入接口的步骤之后,包括:
通过第一麦克风和第二麦克风接收语音信息,并判断语音信息中是否含有第一关键字语音;
如果含有所述第一关键字语音,则记录所述第一麦克风和第二麦克风接收到第一关键字语音时的定位信息;
根据各所述麦克风的位置坐标,以及所述定位信息,计算发出所述第一关键字语音的声源位置。
进一步地,所述根据各所述麦克风的位置坐标,以及所述定位信息,计算发出所述第一关键字语音的声源位置的步骤之后,包括:
根据所述声源位置,利用预设的拾音算法拾取所述声源方向的语音信息。
进一步地,所述移动终端判断其语音输入环境所处的状态的步骤之前,包括:
如果接收到来电信号,则直接进入所述拾音状态。
本发明还提供一种语音输入装置,其应用于移动终端,其中,第一麦克风接入所述移动终端的第一音频输入接口,所述语音输入装置包括:
判断单元,用于移动终端判断其语音输入环境所处的状态;
第一接入单元,用于如果判定语音输入环境处于音频输出状态,则将参考信号接入所述移动终端预设的第二音频输入接口;
第二接入单元,用于如果判定语音输入环境处于拾音状态,则将第二麦克风接入所述移动终端预设的第二音频输入接口。
进一步地,所述判断单元,包括:
判断模块,用于判断移动终端是否输出原生音频信号至音频功放;
判定模块,用于如果移动终端输出原生音频信号至音频功放,则判定语音输入环境处于所述音频输出状态;否则,判定语音输入环境处于所述拾音状态。
进一步地,所述语音输入装置,还包括:
接收单元,用于通过第一麦克风接收所述音频功放播放的对应所述原生音频信号的原生声音信号;
消音单元,用于根据所述参考信号对所述原生声音信号进行回音消除处理。
进一步地,所述语音输入装置,还包括:
第一调用单元,用于调用预设的单麦克风的降噪算法进行降噪处理。
进一步地,所述语音输入装置,还包括:
获取执行单元,用于通过第一麦克风获取预设的语音命令,根据所述语音命令执行对应的任务。
进一步地,所述语音输入装置,还包括:
控制输出单元,用于所述任务完成指定时间长度后,控制所述移动终端输出原生音频信号至音频功放。
进一步地,所述语音输入装置,还包括:
第二调用单元,用于通过所述第一麦克风和第二麦克风接收外部声源的声音信号,并调用预设的双麦克风的降噪算法进行降噪处理。
进一步地,所述语音输入装置,还包括:
关键音判断单元,用于通过第一麦克风和第二麦克风接收语音信息,并判断语音信息中是否含有第一关键字语音;
记录单元,用于如果含有所述第一关键字语音,则记录所述第一麦克风和第二麦克风接收到第一关键字语音时的定位信息;
计算定位单元,用于根据各所述麦克风的位置坐标,以及所述定位信息,计算发出所述第一关键字语音的声源位置。
进一步地,所述语音输入装置,还包括:
定向拾音单元,用于根据所述声源位置,利用预设的拾音算法拾取所述声源方向的语音信息。
进一步地,所述语音输入装置,还包括:
接收进入单元,用于如果接收到来电信号,则直接进入所述拾音状态。
本发明还提供一种移动终端,包括处理器、第一麦克风、第二麦克风、模拟开关、音频功放、参考信号线路、以及设置第一音频输入接口和第二音频输入接口的音频数模转换器;
所述处理器分别与所述模拟开关、音频数模转换器通信连接;所述音频数模转换器通信连接所述音频功放;所述第一麦克风接入所述第一音频输入接口;所述第二麦克风和参考信号线路连接所述模拟开关;所述模拟开关接入所述第二音频输入接口;
所述处理器接收音频数模转换器的工作信号,判断所述移动终端的语音输入环境所处的状态;
如果判定语音输入环境处于音频输出状态,则通过所述模拟开关将所述参考信号接入所述第二音频输入接口;
如果判定语音输入环境处于拾音状态,则通过所述模拟开关将第二麦克风接入所述移动终端预设的第二音频输入接口。
进一步地,所述处理器判断所述移动终端的语音输入环境所处的状态的方法,包括:
判断移动终端是否输出原生音频信号至音频功放;如果是,则判定语音输入环境处于所述音频输出状态;否则,判定语音输入环境处于所述拾音状态。
进一步地,所述处理器判定语音输入环境处于音频输出状态后,通过所述第一麦克风接收所述音频功放播放的对应所述原生音频信号的原生声音信号;根据所述参考信号对所述原生声音信号进行回音消除处理。
进一步地,所述处理器判定语音输入环境处于音频输出状态后,调用预设的单麦克风的降噪算法进行降噪处理。
进一步地,所述处理器通过所述第一麦克风获取预设的语音命令,根据所述语音命令执行对应的任务。
进一步地,所述处理器在所述任务完成指定时间长度后,控制所述音频数模转换器输出原生音频信号至音频功放。
进一步地,所述处理器判定语音输入环境处于拾音状态后,通过所述第一麦克风和第二麦克风接收外部声源的声音信号,并调用预设的双麦克风的降噪算法进行降噪处理。
进一步地,所述处理器判定语音输入环境处于拾音状态后,通过第一麦克风和第二麦克风接收语音信息,并判断语音信息中是否含有第一关键字语音;如果含有所述第一关键字语音,则记录所述第一麦克风和第二麦克风接收到第一关键字语音时的定位信息;根据各所述麦克风的位置坐标,以及所述定位信息,计算发出所述第一关键字语音的声源位置。
进一步地,所述处理器根据所述声源位置,利用预设的拾音算法拾取所述声源方向的语音信息。
进一步地,所述处理器在判断所述移动终端的语音输入环境所处的状态之前,如果移动终端接收到来电信号,则控制移动终端直接进入所述拾音状态。
本发明的移动终端及其语音输入方法和装置,可以实现在移动终端不同状态下采用单麦克风和双麦克风拾音,保证了移动终端必备的打断功能,同时还实现了外部环境噪声复杂时通过双麦克风拾音,提高语音输入的准确性。而且本发明只需要基于两路音频输入接口完成,无需添加语音处理IC,降低移动终端的成本。
附图说明
图1为本发明一实施例的语音输入方法的流程示意图;
图2为本发明一具体实施例的语音输入方法的流程示意图;
图3为本发明一实施例的语音输入装置的结构示意框图;
图4为本发明一实施例的判断单元的结构示意框图;
图5为本发明一具体实施例的语音输入装置的结构示意框图;
图6为本发明一实施例的移动终端的结构示意框图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。
本技术领域技术人员可以理解,这里的移动终端是指智能手机、电脑、平板电脑、形成记录仪等可以运行计算机程序的电子设备。
参照图1,本发明实施例提供一种语音输入方法,其应用于移动终端,其中,第一麦克风接入所述移动终端的第一音频输入接口,所述语音输入方法包括步骤:
S1、移动终端判断其语音输入环境所处的状态;
S2、如果判定语音输入环境处于音频输出状态,则将参考信号接入所述移动终端预设的第二音频输入接口;
S3、如果判定语音输入环境处于拾音状态,则将第二麦克风接入所述移动终端预设的第二音频输入接口。
如上述步骤S1、S2、S3所述,上述移动终端的语音输入环境一般包括两种,即音频输出状态和拾音状态。上述音频输出状态,是指移动终端本身输出音频的状态,如移动终端播放其自身播放的音乐音频,或者接收电台的广播音频、或者通过蓝牙/WIFI等通信模块接收的音频等。上述拾音状态,是指移动终端没有输出音频信号,即移动终端本身并没有输出音频。本实施例中,上述移动终端的语音输入环境处于音频输出状态时,同样可以拾音,但是在拾音的过程中还会输出音乐等音频信号。上述参考信号即为移动终端采集其本身输出音频的采样信号。上述第二麦克风即为拾音装置。上述步骤S2和S3是并列的两个步骤,移动终端会根据语音输入环境所处的状态进行择一进行,也就是步骤S2和S3不会同时进行。本实施例中,上述参考信号和第二麦克风共用同一个第二音频输入接口,根据语音输入环境所处的状态进行转换,在移动终端的音频数模转换器只要设置两个音频输入接口的情况下,既可以准确地实现音频打断功能,还可以实现双麦克风拾音,提高拾音效果。更为重要的时,无需在移动终端的音频数模转换器添加单独的语音处理IC,大大地减低生产成本。
本实施例中,上述移动终端判断其语音输入环境所处的状态的步骤S1,包括:
S11、判断移动终端是否输出原生音频信号至音频功放;
S12、如果是,则判定语音输入环境处于所述音频输出状态;否则,判定语音输入环境处于所述拾音状态。
如上述步骤S11和S12所述,移动终端可以清楚地知道其是否发出原生音频信号至音频功放,如果发送,则判定语音输入环境处于所述音频输出状态,如果未发送,判定语音输入环境处于所述拾音状态,方法简单、高效,准确率高。上述原生音频信号即为移动终端本身发出的音频信号,或者移动终端通过蓝牙、WIFI等通讯模块接收的音频信号。即,原生音频信号不是通过麦克风拾取移动终端外部声源发出的音频信号。
参照图2,本实施例中,上述如果判定语音输入环境处于音频输出状态,则将参考信号接入所述移动终端预设的第二音频输入接口的步骤S2之后,包括:
S21、通过第一麦克风接收所述音频功放播放的对应所述原生音频信号的原生声音信号;
S22、根据所述参考信号对所述原生声音信号进行回音消除处理。
如上述步骤S21和S22所述,上述第一麦克风同样是拾音装置,其单独连接在移动终端的音频数模转换器上的第一音频输入接口。上述音频功放全名为音频功率放大器,是用于推动扬声器发声,从而重现声音的功放装置,其连接扬声器。上述原生声音信号即为原生音频信号通过音频功放处理后由扬声器发出的声音信号。因为原生音频信号在经过音频功放之前会被采样得到上述参考信号,然后参考信号与第一麦克风接收到声音信号进行比对,将与参考信号匹配的声音信号进行消除处理,而与参考信号匹配的信号一般即为上述原生声音信号,所以,当第一麦克风采集到原生声音信号和外部声源的声音信号后,可以将原生声音信号过滤掉,只保留外部声源的声音信号,如果外部声源的声音信号为语音命令时,会更容易被移动终端准确识别。
参照图2,本实施例中,上述如果判定语音输入环境处于音频输出状态,则将参考信号接入所述移动终端预设的第二音频输入接口的步骤S2之后,包括:
S23、调用预设的单麦克风的降噪算法进行降噪处理。
如上述步骤S23所述,上述单麦克风的降噪算法包括多种,比如,预设噪音的频谱,在外部声源和环境音被麦克风一起拾取后,将与预设噪音的频谱相同的声音信号进行过滤;或者,麦克风先获取环境音并记录,当外部声源和环境音被麦克风一起拾取后,将与先获取记录的环境音相同或近似的声音信号消除,保留外部声源的声音信号等。
参照图2,本实施例中,所述根据参考信号对所述原生声音信号进行回音消除处理的步骤S22之后,包括:
S24、通过第一麦克风获取预设的语音命令,根据所述语音命令执行对应的任务。
如上述步骤S24所述,上述语音命令即为移动终端预设的命令,其一般会设置一个命令列表,该命令列表上记录有至少一个命令,每个命令对应一个指定的语音命令。比如,移动终端为行车记录仪,命令列表上记录“导航”、“拨打电话”、“朗读短息”等命令,其对应的语音命令为“导航”、“拨打电话”、“朗读短息”的汉语发音,当获取到“导航”汉语发音时,行车记录执行“导航”的命令进入导航页面等。本实施例中,因为将原生声音信号进行回音消除处理,所以语音命令被准确识别的概率提高。
参照图2,本实施例中,上述通过第一麦克风获取预设的语音命令,根据所述语音命令执行对应的任务的步骤S24之后,包括:
S25、所述任务完成指定时间长度后,控制所述移动终端输出原生音频信号至音频功放。
如上述步骤S25所述,即移动终端在执行语音命令之后一定时间后,会再次自动启动原生音频信号输出的动作。比如,移动终端是行车记录仪,该行车记录仪在播放音乐,当获取到“导航”汉语发音时,行车记录执行“导航”的命令进入导航页面,过了指定时间长度后,移动终端自动再次启动播放音乐的动作。因为在导航过程中,并不会实时的发出导航语音,用户可能还是想要听音乐,当过指定时间长度后,移动终端自动再次启动播放音乐的动作,无需用户进行相应的操作,提高驾驶安全,同时提高用户的使用体验。上述指定时间长度即为时间阈值,不同的任务,其对应的时间阈值可以不同,比如,对应“导航”的时间长度为20秒,而对应“拨打电话”的时间长度可以为挂掉电话后的5秒等。
参照图2,本实施例中,上述如果判定语音输入环境处于拾音状态,则将第二麦克风接入所述移动终端预设的第二音频输入接口的步骤S3之后,包括:
S31、通过所述第一麦克风和第二麦克风接收外部声源的声音信号,并调用预设的双麦克风的降噪算法进行降噪处理。
如上述步骤S31所述,上述双麦克风的降噪算法包括多种,常见的如一个麦克风稳定保持清晰通话,另一个麦克风物理主动消除噪音,通过收集外界的声音,进行处理后,发出与噪音相反的声波,利用抵消原理消除噪音。本实施例中会预设两种降噪算法,分别为单麦克风的降噪算法和双麦克风的降噪算法,这两种降噪算法根据移动终端的语音输入环境进行对应的切换。
参照图2,本实施例中,上述如果判定语音输入环境处于拾音状态,则将第二麦克风接入所述移动终端预设的第二音频输入接口的步骤S3之后,包括:
S32、通过第一麦克风和第二麦克风接收语音信息,并判断语音信息中是否含有第一关键字语音;
S33、如果含有所述第一关键字语音,则记录所述第一麦克风和第二麦克风接收到第一关键字语音时的定位信息;
S34、根据各所述麦克风的位置坐标,以及所述定位信息,计算发出所述第一关键字语音的声源位置。
如上述步骤S32、S33、S34所述,上述第一关键字语音可以是某个指定的字、某个指定的词组或某一句指定的话等的语音,比如“你好,小新”、“我要发言”等语句的发音。判断语音信息中是否含有第一关键字语音的方法可以为:将所述语音信息与预设的第一关键字语音列表中的第一关键字语音进行匹配;如果匹配成功,则判定所述语音信息中存在第一关键字语音。上述定位信息即为一些接收到第一关键词语音时生成的信息,如上述的麦克风接收到第一关键字语音的时间、声强等。由于麦克风的位置坐标是已知的,所以根据麦克风的位置坐标以及指定的定位信息即可计算出声源位置。比如,利用高分辨率谱估计技术计算声源位置,其利用麦克风阵列所获取的声音信号计算空间谱的相关矩阵等。又或者,根据各麦克风的坐标和预设的音速值,计算各麦克风距离所述声源的距离,根据各麦克风接收到第一关键词语音的时间之差,以及各麦克风距离所述声源的距离,计算所处声源的坐标,即为基于声达时间差(time difference of arrival,TDOA)的定位技术,利用到达各麦克风的声音信号间的时间差来定位声源,再利用这些时延求得声音到达不同位置麦克风的距离差,最后用搜索或几何知识确定声源位置。基于到达时间差估计定位法计算量较小,硬件成本较低,定位精度较高,同时也易于实时实现,适用于实时处理。本实施例中,由于只有两个麦克风,所以,会根据麦克风设置的位置,和接收第一关键词语音的时间,预估声源的大概方向,比如,移动终端为行车记录仪,第一麦克风和第二麦克风沿汽车的横向水平设置,第一麦克风靠近过司机位置,第二麦克风靠近副驾驶位置,当第一麦克风先接收到第一关键词语音,则可以基本判定声源的大概方向是司机位置。在其它实施例中,还可以根据第一麦克风和第二麦克风接收第一关键词的声强等,判断声源的位置。
参照图2,本实施例中,上述根据各所述麦克风的位置坐标,以及所述定位信息,计算发出所述第一关键字语音的声源位置的步骤S34之后,包括:
S35、根据所述声源位置,利用预设的拾音算法拾取所述声源方向的语音信息。
如上述步骤S35所述,上述预设的拾音算法即为利用两个麦克风组成的阵列与声源相关性、相变和最大相似性处理等技术,从多人交谈的场合中快速定位声源方向的算法。这样可以最大限度的接收声源发出的声音,以提高拾取声音的准确性和使用的效率。
本实施例中,当移动终端接收所述声源发出的第二关键字语音,解除第一麦克风和第二麦克风朝向所述声源方向拾音的状态。
本实施例中,上述移动终端判断其语音输入环境所处的状态的步骤S1之前,包括:
S10、如果接收到来电信号,则直接进入所述拾音状态。
如上述步骤S10所述,上述来电信号即为接收到语音通讯的信号,如接听电话等,此时需要良好的通话环境,所以,直接进入拾音状态,使用第一麦克风和第二麦克风进行拾音,进行双麦克风的降噪算法,提高通话质量。
在一具体实施例中,上述移动终端为行车记录仪,该行车记录仪上设置第一麦克风和第二麦克风,其中第一麦克风接入音频数模转换器的第一音频输入接口,第二麦克风与参考信号共用第二音频输入接口,并根据行车记录仪语音输入环境所处的状态进行切换。当语音输入环境处于音频输出状态时,参考信号接入所述第二音频输入接口,同时调用预设的单麦克风的降噪算法;当语音输入环境处于拾音状态,第二麦克风接入第二音频输入接口,同时调用双麦克风的降噪算法。当语音输入环境处于拾音状态,还可以根据第一关键字语音判断声源的位置,进而进行定向拾音,以提高语音输入的准确性等。
本发明实施例的语音输入方法,其使用的平台一般为MT6753平台,MT6753为一种音频数模转换器,其自身只支持两路麦克风输入。使用本实施例的方法可以实现在移动终端不同状态下采用单麦克风和双麦克风拾音,保证了移动终端必备的打断功能,同时还实现了外部环境噪声复杂时通过双麦克风拾音,提高语音输入的准确性。而且本发明只需要基于两路音频输入接口完成,无需添加语音处理IC,降低移动终端的成本。
参照图3,本发明实施例还提供一种语音输入装置,其应用于移动终端,其中,第一麦克风接入所述移动终端的第一音频输入接口,所述语音输入装置包括:
判断单元10,用于移动终端判断其语音输入环境所处的状态;
第一接入单元20,用于如果判定语音输入环境处于音频输出状态,则将参考信号接入所述移动终端预设的第二音频输入接口;
第二接入单元30,用于如果判定语音输入环境处于拾音状态,则将第二麦克风接入所述移动终端预设的第二音频输入接口。
如上述判断单元10、第一接入单元20和第二接入单元30,上述移动终端的语音输入环境一般包括两种,即音频输出状态和拾音状态。上述音频输出状态,是指移动终端本身输出音频的状态,如移动终端播放其自身播放的音乐音频,或者接收电台的广播音频、或者通过蓝牙/WIFI等通信模块接收的音频等。上述拾音状态,是指移动终端没有输出音频信号,即移动终端本身并没有输出音频。本实施例中,上述移动终端的语音输入环境处于音频输出状态时,同样可以拾音,但是在拾音的过程中还会输出音乐等音频信号。上述参考信号即为移动终端采集其本身输出音频的采样信号。上述第二麦克风即为拾音装置。上述第一接入单元20和第二接入单元30是并列的两个并列的模块,会根据语音输入环境所处的状态进行择一进行,也就是第一接入单元20和第二接入单元30不会同时运行。本实施例中,上述参考信号和第二麦克风共用同一个第二音频输入接口,根据语音输入环境所处的状态进行转换,在移动终端的音频数模转换器只要设置两个音频输入接口的情况下,既可以准确地实现音频打断功能,还可以实现双麦克风拾音,提高拾音效果。更为重要的时,无需在移动终端的音频数模转换器添加单独的语音处理IC,大大地减低生产成本。
参照图4,本实施例中,上述判断单元10,包括:
判断模块11,用于判断移动终端是否输出原生音频信号至音频功放;
判定模块12,用于如果移动终端输出原生音频信号至音频功放,则判定语音输入环境处于所述音频输出状态;否则,判定语音输入环境处于所述拾音状态。
如上述判断模块11和判定模块12,移动终端可以清楚地知道其是否发出原生音频信号至音频功放,如果发送,则通过判定模块12判定语音输入环境处于所述音频输出状态,如果未发送,判定语音输入环境处于所述拾音状态,方法简单、高效,准确率高。上述原生音频信号即为移动终端本身发出的音频信号,或者移动终端通过蓝牙、WIFI等通讯模块接收的音频信号。即,原生音频信号不是通过麦克风拾取移动终端外部声源发出的音频信号。
参照图5,本实施例中,上述语音输入装置,还包括:
接收单元21,用于通过第一麦克风接收所述音频功放播放的对应所述原生音频信号的原生声音信号;
消音单元22,用于根据所述参考信号对所述原生声音信号进行回音消除处理。
如上述接收单元21和消音单元22,上述第一麦克风同样是拾音装置,其单独连接在移动终端的音频数模转换器上的第一音频输入接口。上述音频功放全名为音频功率放大器,是用于推动扬声器发声,从而重现声音的功放装置,其连接扬声器。上述原生声音信号即为原生音频信号通过音频功放处理后由扬声器发出的声音信号。因为原生音频信号在经过音频功放之前会被采样得到上述参考信号,然后参考信号与第一麦克风接收到声音信号进行比对,将与参考信号匹配的声音信号进行消除处理,而与参考信号匹配的信号一般即为上述原生声音信号,所以,当第一麦克风采集到原生声音信号和外部声源的声音信号后,可以将原生声音信号过滤掉,只保留外部声源的声音信号,如果外部声源的声音信号为语音命令时,会更容易被移动终端准确识别。
参照图5,本实施例中,上述语音输入装置,还包括:
第一调用单元23,用于调用预设的单麦克风的降噪算法进行降噪处理。
如上述第一调用单元23,上述单麦克风的降噪算法包括多种,比如,预设噪音的频谱,在外部声源和环境音被麦克风一起拾取后,将与预设噪音的频谱相同的声音信号进行过滤;或者,麦克风先获取环境音并记录,当外部声源和环境音被麦克风一起拾取后,将与先获取记录的环境音相同或近似的声音信号消除,保留外部声源的声音信号等。
参照图5,本实施例中,上述语音输入装置,还包括:
获取执行单元24,用于通过第一麦克风获取预设的语音命令,根据所述语音命令执行对应的任务。
如上述获取执行单元24,上述语音命令即为移动终端预设的命令,其一般会设置一个命令列表,该命令列表上记录有至少一个命令,每个命令对应一个指定的语音命令。比如,移动终端为行车记录仪,命令列表上记录“导航”、“拨打电话”、“朗读短息”等命令,其对应的语音命令为“导航”、“拨打电话”、“朗读短息”的汉语发音,当获取到“导航”汉语发音时,行车记录执行“导航”的命令进入导航页面等。本实施例中,因为将原生声音信号进行回音消除处理,所以语音命令被准确识别的概率提高。
参照图5,本实施例中,上述语音输入装置,还包括:
控制输出单元25,用于所述任务完成指定时间长度后,控制所述移动终端输出原生音频信号至音频功放。
如上述控制输出单元25,即移动终端在执行语音命令之后一定时间后,会再次自动启动原生音频信号输出的动作。比如,移动终端是行车记录仪,该行车记录仪在播放音乐,当获取到“导航”汉语发音时,行车记录执行“导航”的命令进入导航页面,过了指定时间长度后,移动终端自动再次启动播放音乐的动作。因为在导航过程中,并不会实时的发出导航语音,用户可能还是想要听音乐,当过指定时间长度后,移动终端自动再次启动播放音乐的动作,无需用户进行相应的操作,提高驾驶安全,同时提高用户的使用体验。上述指定时间长度即为时间阈值,不同的任务,其对应的时间阈值可以不同,比如,对应“导航”的时间长度为20秒,而对应“拨打电话”的时间长度可以为挂掉电话后的5秒等。
参照图5,本实施例中,上述语音输入装置,还包括:
第二调用单元31,用于通过所述第一麦克风和第二麦克风接收外部声源的声音信号,并调用预设的双麦克风的降噪算法进行降噪处理。
如上述第二调用单元31,上述双麦克风的降噪算法包括多种,常见的如一个麦克风稳定保持清晰通话,另一个麦克风物理主动消除噪音,通过收集外界的声音,进行处理后,发出与噪音相反的声波,利用抵消原理消除噪音。本实施例中会预设两种降噪算法,分别为单麦克风的降噪算法和双麦克风的降噪算法,这两种降噪算法根据移动终端的语音输入环境进行对应的切换。
参照图5,本实施例中,上述语音输入装置,还包括:
关键音判断单元32,用于通过第一麦克风和第二麦克风接收语音信息,并判断语音信息中是否含有第一关键字语音;
记录单元33,用于如果含有所述第一关键字语音,则记录所述第一麦克风和第二麦克风接收到第一关键字语音时的定位信息;
计算定位单元34,用于根据各所述麦克风的位置坐标,以及所述定位信息,计算发出所述第一关键字语音的声源位置。
如上述关键音判断单元32、记录单元33和计算定位单元34,上述第一关键字语音可以是某个指定的字、某个指定的词组或某一句指定的话等的语音,比如“你好,小新”、“我要发言”等语句的发音。判断语音信息中是否含有第一关键字语音的方法可以为:将所述语音信息与预设的第一关键字语音列表中的第一关键字语音进行匹配;如果匹配成功,则判定所述语音信息中存在第一关键字语音。上述定位信息即为一些接收到第一关键词语音时生成的信息,如上述的麦克风接收到第一关键字语音的时间、声强等。由于麦克风的位置坐标是已知的,所以根据麦克风的位置坐标以及指定的定位信息即可计算出声源位置。比如,利用高分辨率谱估计技术计算声源位置,其利用麦克风阵列所获取的声音信号计算空间谱的相关矩阵等。又或者,根据各麦克风的坐标和预设的音速值,计算各麦克风距离所述声源的距离,根据各麦克风接收到第一关键词语音的时间之差,以及各麦克风距离所述声源的距离,计算所处声源的坐标,即为基于声达时间差的定位技术,利用到达各麦克风的声音信号间的时间差来定位声源,再利用这些时延求得声音到达不同位置麦克风的距离差,最后用搜索或几何知识确定声源位置。基于到达时间差估计定位法计算量较小,硬件成本较低,定位精度较高,同时也易于实时实现,适用于实时处理。本实施例中,由于只有两个麦克风,所以,会根据麦克风设置的位置,和接收第一关键词语音的时间,预估声源的大概方向,比如,移动终端为行车记录仪,第一麦克风和第二麦克风沿汽车的横向水平设置,第一麦克风靠近过司机位置,第二麦克风靠近副驾驶位置,当第一麦克风先接收到第一关键词语音,则可以基本判定声源的大概方向是司机位置。在其它实施例中,还可以根据第一麦克风和第二麦克风接收第一关键词的声强等,判断声源的位置。
参照图5,本实施例中,上述语音输入装置,还包括:
定向拾音单元35,用于根据所述声源位置,利用预设的拾音算法拾取所述声源方向的语音信息。
如上述定向拾音单元35,上述预设的拾音算法即为利用两个麦克风组成的阵列与声源相关性、相变和最大相似性处理等技术,从多人交谈的场合中快速定位声源方向的算法。这样可以最大限度的接收声源发出的声音,以提高拾取声音的准确性和使用的效率。
本实施例中,当移动终端接收所述声源发出的第二关键字语音,解除第一麦克风和第二麦克风朝向所述声源方向拾音的状态。
本实施例中,上述语音输入装置,还包括:
接收进入单元,用于如果接收到来电信号,则直接进入所述拾音状态.
如上述接收进入单元,上述来电信号即为接收到语音通讯的信号,如接听电话等,此时需要良好的通话环境,所以,直接进入拾音状态,使用第一麦克风和第二麦克风进行拾音,进行双麦克风的降噪算法,提高通话质量。
在一具体实施例中,上述移动终端为行车记录仪,该行车记录仪上设置第一麦克风和第二麦克风,其中第一麦克风接入音频数模转换器的第一音频输入接口,第二麦克风与参考信号共用第二音频输入接口,并根据行车记录仪语音输入环境所处的状态进行切换。当语音输入环境处于音频输出状态时,参考信号接入所述第二音频输入接口,同时调用预设的单麦克风的降噪算法;当语音输入环境处于拾音状态,第二麦克风接入第二音频输入接口,同时调用双麦克风的降噪算法。当语音输入环境处于拾音状态,还可以根据第一关键字语音判断声源的位置,进而进行定向拾音,以提高语音输入的准确性等。
本发明实施例的语音输入装置,其使用的平台一般为MT6753平台,MT6753为一种音频数模转换器,其自身只支持两路麦克风输入。使用本实施例的方法可以实现在移动终端不同状态下采用单麦克风和双麦克风拾音,保证了移动终端必备的打断功能,同时还实现了外部环境噪声复杂时通过双麦克风拾音,提高语音输入的准确性。而且本发明只需要基于两路音频输入接口完成,无需添加语音处理IC,降低移动终端的成本。
参照图6,本发明实施例还提供一种移动终端,包括处理器100、第一麦克风501、第二麦克风502、模拟开关400、音频功放300、参考信号线路、以及设置第一音频输入接口和第二音频输入接口的音频数模转换器200;所述处理器100分别与所述模拟开关400、音频数模转换器200通信连接;所述音频数模转换器200通信连接所述音频功放300;所述第一麦克风501接入所述第一音频输入接口;所述第二麦克风502和参考信号线路连接所述模拟开关400;所述模拟开关400接入所述第二音频输入接口;所述处理器100接收音频数模转换器200的工作信号,判断所述移动终端的语音输入环境所处的状态;如果判定语音输入环境处于音频输出状态,则通过所述模拟开关400将所述参考信号接入所述第二音频输入接口;如果判定语音输入环境处于拾音状态,则通过所述模拟开关400将第二麦克风502接入所述移动终端预设的第二音频输入接口。
本是实施例中,上述第一麦克风501和第二麦克风502即为拾音装置;上述音频功放300全名为音频功率放大器,是用于推动扬声器600发声,从而重现声音的功放装置,其连接扬声器600。上述参考信号线路即为将采集到的参考信号传送给音频数模转换器200的线路;上述第一音频输入接口和第二音频输入接口即为接收音频信号的借口等。上述模拟开关400即为控制第二麦克风502和参考信号线路切换的开关,其可以根据高低电平的变化而进行切换。上述移动终端的语音输入环境一般包括两种,即音频输出状态和拾音状态。上述音频输出状态,是指移动终端本身通过音频数模转换器200输出音频的状态,如移动终端播放其自身播放的音乐音频,或者接收电台的广播音频、或者通过蓝牙/WIFI等通信模块接收的音频等。上述拾音状态,是指移动终端没有输出音频信号,即移动终端本身并没有输出音频。本实施例中,上述移动终端的语音输入环境处于音频输出状态时,同样可以拾音,但是在拾音的过程中还会输出音乐等音频信号。上述参考信号即为移动终端采集其本身输出音频的采样信号。本实施例中,移动终端会根据语音输入环境所处的状态进行择一选择第二麦克风502和参考信号线路中的一个接入第二音频输入借口。本实施例中,上述参考信号线路和第二麦克风502共用同一个第二音频输入接口,根据语音输入环境所处的状态进行转换,在移动终端的音频数模转换器200只要设置两个音频输入接口的情况下,既可以准确地实现音频打断功能,还可以实现双麦克风拾音,提高拾音效果。更为重要的时,无需在移动终端的音频数模转换器200添加单独的语音处理IC,大大地减低生产成本。
本实施例中,上述处理器100判断所述移动终端的语音输入环境所处的状态的方法,包括:判断移动终端是否输出原生音频信号至音频功放300;如果是,则判定语音输入环境处于所述音频输出状态;否则,判定语音输入环境处于所述拾音状态。移动终端可以清楚地知道其是否发出原生音频信号至音频功放300,如果发送,则判定语音输入环境处于所述音频输出状态,如果未发送,判定语音输入环境处于所述拾音状态,方法简单、高效,准确率高。上述原生音频信号即为移动终端本身发出的音频信号,或者移动终端通过蓝牙、WIFI等通讯模块接收的音频信号。即,原生音频信号不是通过麦克风拾取移动终端外部声源发出的音频信号。
本实施例中,上述处理器100判定语音输入环境处于音频输出状态后,通过所述第一麦克风501接收所述音频功放300播放的对应所述原生音频信号的原生声音信号;根据所述参考信号对所述原生声音信号进行回音消除处理。上述原生声音信号即为原生音频信号通过音频功放300处理后由扬声器600发出的声音信号。因为原生音频信号在经过音频功放300之前会被采样得到上述参考信号,然后参考信号与第一麦克风501接收到声音信号进行比对,将与参考信号匹配的声音信号进行消除处理,而与参考信号匹配的信号一般即为上述原生声音信号,所以,当第一麦克风501采集到原生声音信号和外部声源的声音信号后,可以将原生声音信号过滤掉,只保留外部声源的声音信号,如果外部声源的声音信号为语音命令时,会更容易被移动终端准确识别
本实施例中,上述处理器100判定语音输入环境处于音频输出状态后,调用预设的单麦克风的降噪算法进行降噪处理。上述单麦克风的降噪算法包括多种,比如,预设噪音的频谱,在外部声源和环境音被麦克风一起拾取后,将与预设噪音的频谱相同的声音信号进行过滤;或者,麦克风先获取环境音并记录,当外部声源和环境音被麦克风一起拾取后,将与先获取记录的环境音相同或近似的声音信号消除,保留外部声源的声音信号等。
本实施例中,上述处理器100通过所述第一麦克风501获取预设的语音命令,根据所述语音命令执行对应的任务。上述语音命令即为移动终端预设的命令,其一般会设置一个命令列表,该命令列表上记录有至少一个命令,每个命令对应一个指定的语音命令。比如,移动终端为行车记录仪,命令列表上记录“导航”、“拨打电话”、“朗读短息”等命令,其对应的语音命令为“导航”、“拨打电话”、“朗读短息”的汉语发音,当获取到“导航”汉语发音时,行车记录执行“导航”的命令进入导航页面等。本实施例中,因为将原生声音信号进行回音消除处理,所以语音命令被准确识别的概率提高。
本实施例中,上述处理器100在所述任务完成指定时间长度后,控制所述音频数模转换器200输出原生音频信号至音频功放300。即移动终端在执行语音命令之后一定时间后,会再次自动启动原生音频信号输出的动作。比如,移动终端是行车记录仪,该行车记录仪在播放音乐,当获取到“导航”汉语发音时,行车记录执行“导航”的命令进入导航页面,过了指定时间长度后,移动终端自动再次启动播放音乐的动作。因为在导航过程中,并不会实时的发出导航语音,用户可能还是想要听音乐,当过指定时间长度后,移动终端自动再次启动播放音乐的动作,无需用户进行相应的操作,提高驾驶安全,同时提高用户的使用体验。上述指定时间长度即为时间阈值,不同的任务,其对应的时间阈值可以不同,比如,对应“导航”的时间长度为20秒,而对应“拨打电话”的时间长度可以为挂掉电话后的5秒等。
本实施例中,上述处理器100判定语音输入环境处于拾音状态后,通过所述第一麦克风501和第二麦克风502接收外部声源的声音信号,并调用预设的双麦克风的降噪算法进行降噪处理。上述双麦克风的降噪算法包括多种,常见的如一个麦克风稳定保持清晰通话,另一个麦克风物理主动消除噪音,通过收集外界的声音,进行处理后,发出与噪音相反的声波,利用抵消原理消除噪音。本实施例中会预设两种降噪算法,分别为单麦克风的降噪算法和双麦克风的降噪算法,这两种降噪算法根据移动终端的语音输入环境进行对应的切换。
本实施例中,上述处理器100判定语音输入环境处于拾音状态后,通过第一麦克风501和第二麦克风502接收语音信息,并判断语音信息中是否含有第一关键字语音;如果含有所述第一关键字语音,则记录所述第一麦克风501和第二麦克风502接收到第一关键字语音时的定位信息;根据各所述麦克风的位置坐标,以及所述定位信息,计算发出所述第一关键字语音的声源位置。上述第一关键字语音可以是某个指定的字、某个指定的词组或某一句指定的话等的语音,比如“你好,小新”、“我要发言”等语句的发音。判断语音信息中是否含有第一关键字语音的方法可以为:将所述语音信息与预设的第一关键字语音列表中的第一关键字语音进行匹配;如果匹配成功,则判定所述语音信息中存在第一关键字语音。上述定位信息即为一些接收到第一关键词语音时生成的信息,如上述的麦克风接收到第一关键字语音的时间、声强等。由于麦克风的位置坐标是已知的,所以根据麦克风的位置坐标以及指定的定位信息即可计算出声源位置。比如,利用高分辨率谱估计技术计算声源位置,其利用麦克风阵列所获取的声音信号计算空间谱的相关矩阵等。又或者,根据各麦克风的坐标和预设的音速值,计算各麦克风距离所述声源的距离,根据各麦克风接收到第一关键词语音的时间之差,以及各麦克风距离所述声源的距离,计算所处声源的坐标,即为基于声达时间差的定位技术,利用到达各麦克风的声音信号间的时间差来定位声源,再利用这些时延求得声音到达不同位置麦克风的距离差,最后用搜索或几何知识确定声源位置。基于到达时间差估计定位法计算量较小,硬件成本较低,定位精度较高,同时也易于实时实现,适用于实时处理。本实施例中,由于只有两个麦克风,所以,会根据麦克风设置的位置,和接收第一关键词语音的时间,预估声源的大概方向,比如,移动终端为行车记录仪,第一麦克风501和第二麦克风502沿汽车的横向水平设置,第一麦克风501靠近过司机位置,第二麦克风502靠近副驾驶位置,当第一麦克风501先接收到第一关键词语音,则可以基本判定声源的大概方向是司机位置。在其它实施例中,还可以根据第一麦克风501和第二麦克风502接收第一关键词的声强等,判断声源的位置。
本实施例中,上述处理器100根据所述声源位置,利用预设的拾音算法拾取所述声源方向的语音信息。上述预设的拾音算法即为利用两个麦克风组成的阵列与声源相关性、相变和最大相似性处理等技术,从多人交谈的场合中快速定位声源方向的算法。这样可以最大限度的接收声源发出的声音,以提高拾取声音的准确性和使用的效率。
本实施例中,当移动终端接收所述声源发出的第二关键字语音,解除第一麦克风501和第二麦克风502朝向所述声源方向拾音的状态。
本实施例中,上述处理器100在判断所述移动终端的语音输入环境所处的状态之前,如果移动终端接收到来电信号,则控制移动终端直接进入所述拾音状态。上述来电信号即为接收到语音通讯的信号,如接听电话等,此时需要良好的通话环境,所以,直接进入拾音状态,使用第一麦克风501和第二麦克风502进行拾音,进行双麦克风的降噪算法,提高通话质量。
在一具体实施例中,上述移动终端为行车记录仪,该行车记录仪上设置第一麦克风501和第二麦克风502,其中第一麦克风501接入音频数模转换器200的第一音频输入接口,第二麦克风502与参考信号线路共用第二音频输入接口,并根据行车记录仪语音输入环境所处的状态通过模拟开关400进行切换。当语音输入环境处于音频输出状态时,参考信号接入所述第二音频输入接口,同时调用预设的单麦克风的降噪算法;当语音输入环境处于拾音状态,第二麦克风502接入第二音频输入接口,同时调用双麦克风的降噪算法。当语音输入环境处于拾音状态,还可以根据第一关键字语音判断声源的位置,进而进行定向拾音,以提高语音输入的准确性等。
本发明实施例的移动终端,其使用的平台一般为MT6753平台,MT6753为一种音频数模转换器200,其自身只支持两路麦克风输入。使用本实施例的方法可以实现在移动终端不同状态下采用单麦克风和双麦克风拾音,保证了移动终端必备的打断功能,同时还实现了外部环境噪声复杂时通过双麦克风拾音,提高语音输入的准确性。而且本发明只需要基于两路音频输入接口完成,无需添加语音处理IC,降低移动终端的成本。
以上所述仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
A1、一种语音输入方法,其应用于移动终端,其中,第一麦克风接入所述移动终端的第一音频输入接口,所述语音输入方法包括:
所述移动终端判断其语音输入环境所处的状态;
如果判定语音输入环境处于音频输出状态,则将参考信号接入所述移动终端预设的第二音频输入接口;
如果判定语音输入环境处于拾音状态,则将第二麦克风接入所述移动终端预设的第二音频输入接口。
A2、根据A1所述的语音输入方法,所述移动终端判断其语音输入环境所处的状态的步骤,包括:
判断移动终端是否输出原生音频信号至音频功放;
如果是,则判定语音输入环境处于所述音频输出状态;否则,判定语音输入环境处于所述拾音状态。
A3、根据A2所述的语音输入方法,所述如果判定语音输入环境处于音频输出状态,则将参考信号接入所述移动终端预设的第二音频输入接口的步骤之后,包括:
通过第一麦克风接收所述音频功放播放的对应所述原生音频信号的原生声音信号;
根据所述参考信号对所述原生声音信号进行回音消除处理。
A4、根据A3所述的语音输入方法,所述如果判定语音输入环境处于音频输出状态,则将参考信号接入所述移动终端预设的第二音频输入接口的步骤之后,包括:
调用预设的单麦克风的降噪算法进行降噪处理。
A5、根据A3所述的语音输入方法,所述根据所述参考信号对所述原生声音信号进行回音消除处理的步骤之后,包括:
通过第一麦克风获取预设的语音命令,根据所述语音命令执行对应的任务。
A6、根据A5所述的语音输入方法,所述通过第一麦克风获取预设的语音命令,根据所述语音命令执行对应的任务的步骤之后,包括:
所述任务完成指定时间长度后,控制所述移动终端输出原生音频信号至音频功放。
A7、根据A2所述的语音输入方法,所述如果判定语音输入环境处于拾音状态,则将第二麦克风接入所述移动终端预设的第二音频输入接口的步骤之后,包括:
通过所述第一麦克风和第二麦克风接收外部声源的声音信号,并调用预设的双麦克风的降噪算法进行降噪处理。
A8、根据A7所述的语音输入方法,所述如果判定语音输入环境处于拾音状态,则将第二麦克风接入所述移动终端预设的第二音频输入接口的步骤之后,包括:
通过第一麦克风和第二麦克风接收语音信息,并判断语音信息中是否含有第一关键字语音;
如果含有所述第一关键字语音,则记录所述第一麦克风和第二麦克风接收到第一关键字语音时的定位信息;
根据各所述麦克风的位置坐标,以及所述定位信息,计算发出所述第一关键字语音的声源位置。
A9、根据A8所述的语音输入方法,所述根据各所述麦克风的位置坐标,以及所述定位信息,计算发出所述第一关键字语音的声源位置的步骤之后,包括:
根据所述声源位置,利用预设的拾音算法拾取所述声源方向的语音信息。
A10、根据A1所述的语音输入方法,所述移动终端判断其语音输入环境所处的状态的步骤之前,包括:
如果接收到来电信号,则直接进入所述拾音状态。
B1、一种语音输入装置,其应用于移动终端,其中,第一麦克风接入所述移动终端的第一音频输入接口,所述语音输入装置包括:
判断单元,用于移动终端判断其语音输入环境所处的状态;
第一接入单元,用于如果判定语音输入环境处于音频输出状态,则将参考信号接入所述移动终端预设的第二音频输入接口;
第二接入单元,用于如果判定语音输入环境处于拾音状态,则将第二麦克风接入所述移动终端预设的第二音频输入接口。
B2、根据B1所述的语音输入装置,所述判断单元,包括:
判断模块,用于判断移动终端是否输出原生音频信号至音频功放;
判定模块,用于如果移动终端输出原生音频信号至音频功放,则判定语音输入环境处于所述音频输出状态;否则,判定语音输入环境处于所述拾音状态。
B3、根据B2所述的语音输入装置,还包括:
接收单元,用于通过第一麦克风接收所述音频功放播放的对应所述原生音频信号的原生声音信号;
消音单元,用于根据所述参考信号对所述原生声音信号进行回音消除处理。
B4、根据B3所述的语音输入装置,还包括:
第一调用单元,用于调用预设的单麦克风的降噪算法进行降噪处理。
B5、根据B3所述的语音输入装置,还包括:
获取执行单元,用于通过第一麦克风获取预设的语音命令,根据所述语音命令执行对应的任务。
B6、根据B5所述的语音输入装置,还包括:
控制输出单元,用于所述任务完成指定时间长度后,控制所述移动终端输出原生音频信号至音频功放。
B7、根据B2所述的语音输入装置,还包括:
第二调用单元,用于通过所述第一麦克风和第二麦克风接收外部声源的声音信号,并调用预设的双麦克风的降噪算法进行降噪处理。
B8、根据B7所述的语音输入装置,还包括:
关键音判断单元,用于通过第一麦克风和第二麦克风接收语音信息,并判断语音信息中是否含有第一关键字语音;
记录单元,用于如果含有所述第一关键字语音,则记录所述第一麦克风和第二麦克风接收到第一关键字语音时的定位信息;
计算定位单元,用于根据各所述麦克风的位置坐标,以及所述定位信息,计算发出所述第一关键字语音的声源位置。
B9、根据B8所述的语音输入装置,还包括:
定向拾音单元,用于根据所述声源位置,利用预设的拾音算法拾取所述声源方向的语音信息。
B10、根据B1所述的语音输入装置,还包括:
接收进入单元,用于如果接收到来电信号,则直接进入所述拾音状态。
C1、一种移动终端,包括处理器、第一麦克风、第二麦克风、模拟开关、音频功放、参考信号线路、以及设置第一音频输入接口和第二音频输入接口的音频数模转换器;
所述处理器分别与所述模拟开关、音频数模转换器通信连接;所述音频数模转换器通信连接所述音频功放;所述第一麦克风接入所述第一音频输入接口;所述第二麦克风和参考信号线路连接所述模拟开关;所述模拟开关接入所述第二音频输入接口;
所述处理器接收音频数模转换器的工作信号,判断所述移动终端的语音输入环境所处的状态;
如果判定语音输入环境处于音频输出状态,则通过所述模拟开关将所述参考信号接入所述第二音频输入接口;
如果判定语音输入环境处于拾音状态,则通过所述模拟开关将第二麦克风接入所述移动终端预设的第二音频输入接口。
C2、根据C1所述的移动终端,所述处理器判断所述移动终端的语音输入环境所处的状态的方法,包括:
判断移动终端是否输出原生音频信号至音频功放;如果是,则判定语音输入环境处于所述音频输出状态;否则,判定语音输入环境处于所述拾音状态。
C3、根据C2所述的移动终端,所述处理器判定语音输入环境处于音频输出状态后,通过所述第一麦克风接收所述音频功放播放的对应所述原生音频信号的原生声音信号;根据所述参考信号对所述原生声音信号进行回音消除处理。
C4、根据C3所述的移动终端,所述处理器判定语音输入环境处于音频输出状态后,调用预设的单麦克风的降噪算法进行降噪处理。
C5、根据C3所述的移动终端,所述处理器通过所述第一麦克风获取预设的语音命令,根据所述语音命令执行对应的任务。
C6、根据C5所述的移动终端,所述处理器在所述任务完成指定时间长度后,控制所述音频数模转换器输出原生音频信号至音频功放。
C7、根据C2所述的移动终端,所述处理器判定语音输入环境处于拾音状态后,通过所述第一麦克风和第二麦克风接收外部声源的声音信号,并调用预设的双麦克风的降噪算法进行降噪处理。
C8、根据C7所述的移动终端,所述处理器判定语音输入环境处于拾音状态后,通过第一麦克风和第二麦克风接收语音信息,并判断语音信息中是否含有第一关键字语音;如果含有所述第一关键字语音,则记录所述第一麦克风和第二麦克风接收到第一关键字语音时的定位信息;根据各所述麦克风的位置坐标,以及所述定位信息,计算发出所述第一关键字语音的声源位置。
C9、根据C8所述的移动终端,所述处理器根据所述声源位置,利用预设的拾音算法拾取所述声源方向的语音信息。
C10、根据C1所述的移动终端,所述处理器在判断所述移动终端的语音输入环境所处的状态之前,如果移动终端接收到来电信号,则控制移动终端直接进入所述拾音状态。

Claims (30)

1.一种语音输入方法,其应用于移动终端,其中,第一麦克风接入所述移动终端的第一音频输入接口,其特征在于,所述语音输入方法包括:
所述移动终端判断其语音输入环境所处的状态;
如果判定语音输入环境处于音频输出状态,则将参考信号接入所述移动终端预设的第二音频输入接口;
如果判定语音输入环境处于拾音状态,则将第二麦克风接入所述移动终端预设的第二音频输入接口。
2.根据权利要求1所述的语音输入方法,其特征在于,所述移动终端判断其语音输入环境所处的状态的步骤,包括:
判断移动终端是否输出原生音频信号至音频功放;
如果是,则判定语音输入环境处于所述音频输出状态;否则,判定语音输入环境处于所述拾音状态。
3.根据权利要求2所述的语音输入方法,其特征在于,所述如果判定语音输入环境处于音频输出状态,则将参考信号接入所述移动终端预设的第二音频输入接口的步骤之后,包括:
通过第一麦克风接收所述音频功放播放的对应所述原生音频信号的原生声音信号;
根据所述参考信号对所述原生声音信号进行回音消除处理。
4.根据权利要求3所述的语音输入方法,其特征在于,所述如果判定语音输入环境处于音频输出状态,则将参考信号接入所述移动终端预设的第二音频输入接口的步骤之后,包括:
调用预设的单麦克风的降噪算法进行降噪处理。
5.根据权利要求3所述的语音输入方法,其特征在于,所述根据所述参考信号对所述原生声音信号进行回音消除处理的步骤之后,包括:
通过第一麦克风获取预设的语音命令,根据所述语音命令执行对应的任务。
6.根据权利要求5所述的语音输入方法,其特征在于,所述通过第一麦克风获取预设的语音命令,根据所述语音命令执行对应的任务的步骤之后,包括:
所述任务完成指定时间长度后,控制所述移动终端输出原生音频信号至音频功放。
7.根据权利要求2所述的语音输入方法,其特征在于,所述如果判定语音输入环境处于拾音状态,则将第二麦克风接入所述移动终端预设的第二音频输入接口的步骤之后,包括:
通过所述第一麦克风和第二麦克风接收外部声源的声音信号,并调用预设的双麦克风的降噪算法进行降噪处理。
8.根据权利要求7所述的语音输入方法,其特征在于,所述如果判定语音输入环境处于拾音状态,则将第二麦克风接入所述移动终端预设的第二音频输入接口的步骤之后,包括:
通过第一麦克风和第二麦克风接收语音信息,并判断语音信息中是否含有第一关键字语音;
如果含有所述第一关键字语音,则记录所述第一麦克风和第二麦克风接收到第一关键字语音时的定位信息;其中,所述定位信息为所述第一麦克风和第二麦克风接收到所述第一关键语音的时间或声强;
根据各所述麦克风的位置坐标,以及所述定位信息,计算发出所述第一关键字语音的声源位置。
9.根据权利要求8所述的语音输入方法,其特征在于,所述根据各所述麦克风的位置坐标,以及所述定位信息,计算发出所述第一关键字语音的声源位置的步骤之后,包括:
根据所述声源位置,利用预设的拾音算法拾取所述声源方向的语音信息。
10.根据权利要求1所述的语音输入方法,其特征在于,所述移动终端判断其语音输入环境所处的状态的步骤之前,包括:
如果接收到来电信号,则直接进入所述拾音状态。
11.一种语音输入装置,其应用于移动终端,其中,第一麦克风接入所述移动终端的第一音频输入接口,其特征在于,所述语音输入装置包括:
判断单元,用于移动终端判断其语音输入环境所处的状态;
第一接入单元,用于如果判定语音输入环境处于音频输出状态,则将参考信号接入所述移动终端预设的第二音频输入接口;
第二接入单元,用于如果判定语音输入环境处于拾音状态,则将第二麦克风接入所述移动终端预设的第二音频输入接口。
12.根据权利要求11所述的语音输入装置,其特征在于,所述判断单元,包括:
判断模块,用于判断移动终端是否输出原生音频信号至音频功放;
判定模块,用于如果移动终端输出原生音频信号至音频功放,则判定语音输入环境处于所述音频输出状态;否则,判定语音输入环境处于所述拾音状态。
13.根据权利要求12所述的语音输入装置,其特征在于,还包括:
接收单元,用于通过第一麦克风接收所述音频功放播放的对应所述原生音频信号的原生声音信号;
消音单元,用于根据所述参考信号对所述原生声音信号进行回音消除处理。
14.根据权利要求13所述的语音输入装置,其特征在于,还包括:
第一调用单元,用于调用预设的单麦克风的降噪算法进行降噪处理。
15.根据权利要求13所述的语音输入装置,其特征在于,还包括:
获取执行单元,用于通过第一麦克风获取预设的语音命令,根据所述语音命令执行对应的任务。
16.根据权利要求15所述的语音输入装置,其特征在于,还包括:
控制输出单元,用于所述任务完成指定时间长度后,控制所述移动终端输出原生音频信号至音频功放。
17.根据权利要求12所述的语音输入装置,其特征在于,还包括:
第二调用单元,用于通过所述第一麦克风和第二麦克风接收外部声源的声音信号,并调用预设的双麦克风的降噪算法进行降噪处理。
18.根据权利要求17所述的语音输入装置,其特征在于,还包括:
关键音判断单元,用于通过第一麦克风和第二麦克风接收语音信息,并判断语音信息中是否含有第一关键字语音;
记录单元,用于如果含有所述第一关键字语音,则记录所述第一麦克风和第二麦克风接收到第一关键字语音时的定位信息;其中,所述定位信息为所述第一麦克风和第二麦克风接收到所述第一关键语音的时间或声强;
计算定位单元,用于根据各所述麦克风的位置坐标,以及所述定位信息,计算发出所述第一关键字语音的声源位置。
19.根据权利要求18所述的语音输入装置,其特征在于,还包括:
定向拾音单元,用于根据所述声源位置,利用预设的拾音算法拾取所述声源方向的语音信息。
20.根据权利要求11所述的语音输入装置,其特征在于,还包括:
接收进入单元,用于如果接收到来电信号,则直接进入所述拾音状态。
21.一种移动终端,其特征在于,包括处理器、第一麦克风、第二麦克风、模拟开关、音频功放、参考信号线路、以及设置第一音频输入接口和第二音频输入接口的音频数模转换器;
所述处理器分别与所述模拟开关、音频数模转换器通信连接;所述音频数模转换器通信连接所述音频功放;所述第一麦克风接入所述第一音频输入接口;所述第二麦克风和参考信号线路连接所述模拟开关;所述模拟开关接入所述第二音频输入接口;
所述处理器接收音频数模转换器的工作信号,判断所述移动终端的语音输入环境所处的状态;
如果判定语音输入环境处于音频输出状态,则通过所述模拟开关将所述参考信号接入所述第二音频输入接口;
如果判定语音输入环境处于拾音状态,则通过所述模拟开关将第二麦克风接入所述移动终端预设的第二音频输入接口。
22.根据权利要求21所述的移动终端,其特征在于,所述处理器判断所述移动终端的语音输入环境所处的状态的方法,包括:
判断移动终端是否输出原生音频信号至音频功放;如果是,则判定语音输入环境处于所述音频输出状态;否则,判定语音输入环境处于所述拾音状态。
23.根据权利要求22所述的移动终端,其特征在于,所述处理器判定语音输入环境处于音频输出状态后,通过所述第一麦克风接收所述音频功放播放的对应所述原生音频信号的原生声音信号;根据所述参考信号对所述原生声音信号进行回音消除处理。
24.根据权利要求23所述的移动终端,其特征在于,所述处理器判定语音输入环境处于音频输出状态后,调用预设的单麦克风的降噪算法进行降噪处理。
25.根据权利要求23所述的移动终端,其特征在于,所述处理器通过所述第一麦克风获取预设的语音命令,根据所述语音命令执行对应的任务。
26.根据权利要求25所述的移动终端,其特征在于,所述处理器在所述任务完成指定时间长度后,控制所述音频数模转换器输出原生音频信号至音频功放。
27.根据权利要求22所述的移动终端,其特征在于,所述处理器判定语音输入环境处于拾音状态后,通过所述第一麦克风和第二麦克风接收外部声源的声音信号,并调用预设的双麦克风的降噪算法进行降噪处理。
28.根据权利要求27所述的移动终端,其特征在于,所述处理器判定语音输入环境处于拾音状态后,通过第一麦克风和第二麦克风接收语音信息,并判断语音信息中是否含有第一关键字语音;如果含有所述第一关键字语音,则记录所述第一麦克风和第二麦克风接收到第一关键字语音时的定位信息;其中,所述定位信息为所述第一麦克风和第二麦克风接收到所述第一关键语音的时间或声强;根据各所述麦克风的位置坐标,以及所述定位信息,计算发出所述第一关键字语音的声源位置。
29.根据权利要求28所述的移动终端,其特征在于,所述处理器根据所述声源位置,利用预设的拾音算法拾取所述声源方向的语音信息。
30.根据权利要求21所述的移动终端,其特征在于,所述处理器在判断所述移动终端的语音输入环境所处的状态之前,如果移动终端接收到来电信号,则控制移动终端直接进入所述拾音状态。
CN201611139657.1A 2016-12-12 2016-12-12 移动终端及其语音输入方法和装置 Active CN106782589B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611139657.1A CN106782589B (zh) 2016-12-12 2016-12-12 移动终端及其语音输入方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611139657.1A CN106782589B (zh) 2016-12-12 2016-12-12 移动终端及其语音输入方法和装置

Publications (2)

Publication Number Publication Date
CN106782589A CN106782589A (zh) 2017-05-31
CN106782589B true CN106782589B (zh) 2020-08-18

Family

ID=58880019

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611139657.1A Active CN106782589B (zh) 2016-12-12 2016-12-12 移动终端及其语音输入方法和装置

Country Status (1)

Country Link
CN (1) CN106782589B (zh)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3641235B1 (en) * 2017-06-12 2022-11-09 Audio-Technica Corporation Data transmission device and data transmission system
CN107241642B (zh) * 2017-07-28 2019-11-22 维沃移动通信有限公司 一种播放方法及终端
CN107396223B (zh) * 2017-07-31 2019-07-19 歌尔股份有限公司 耳机上行降噪方法
CN107479854A (zh) * 2017-08-30 2017-12-15 谢锋 一种投影仪及投影方法
CN107369441A (zh) * 2017-09-08 2017-11-21 奇酷互联网络科技(深圳)有限公司 语音信号的消噪方法、装置及终端
CN109903758B (zh) * 2017-12-08 2023-06-23 阿里巴巴集团控股有限公司 音频处理方法、装置及终端设备
CN107845388B (zh) * 2017-12-25 2021-06-01 青岛海信移动通信技术股份有限公司 语音识别方法及装置
CN109559757A (zh) * 2018-11-30 2019-04-02 维沃移动通信有限公司 一种噪音消除方法及移动终端
CN111435598B (zh) 2019-01-15 2023-08-18 北京地平线机器人技术研发有限公司 语音信号处理方法、装置、计算机可读介质及电子设备
CN111698593B (zh) * 2019-03-14 2022-04-15 北京小米移动软件有限公司 主动降噪方法及装置、终端
CN110300318B (zh) * 2019-05-15 2021-09-21 深圳康佳电子科技有限公司 一种usb端子接口电路及usb端子接口电路控制方法
WO2021004067A1 (zh) * 2019-07-10 2021-01-14 海信视像科技股份有限公司 一种显示装置
CN112562709B (zh) * 2020-11-18 2024-04-19 珠海全志科技股份有限公司 一种回声消除信号处理方法及介质
CN112885365B (zh) * 2021-01-08 2024-04-30 上海锐承通讯技术有限公司 回音消除装置及车载智能终端
CN114333858A (zh) * 2021-12-06 2022-04-12 安徽听见科技有限公司 音频编码及解码方法和相关装置、设备、存储介质
CN115881151B (zh) * 2023-01-04 2023-05-12 广州市森锐科技股份有限公司 一种基于高拍仪的双向拾音消噪方法、装置、设备及介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104335600A (zh) * 2013-02-25 2015-02-04 展讯通信(上海)有限公司 多麦克风移动装置中检测及切换降噪模式的方法
WO2015040886A1 (ja) * 2013-09-17 2015-03-26 日本電気株式会社 音声処理システム、車両、音声処理ユニット、ステアリングホイールユニット、音声処理方法、ならびに音声処理プログラム
CN105551498A (zh) * 2015-10-28 2016-05-04 东莞酷派软件技术有限公司 一种语音识别的方法及装置
CN205354646U (zh) * 2015-12-09 2016-06-29 江苏天安智联科技股份有限公司 一种应用于车载设备的智能语音识别系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104335600A (zh) * 2013-02-25 2015-02-04 展讯通信(上海)有限公司 多麦克风移动装置中检测及切换降噪模式的方法
WO2015040886A1 (ja) * 2013-09-17 2015-03-26 日本電気株式会社 音声処理システム、車両、音声処理ユニット、ステアリングホイールユニット、音声処理方法、ならびに音声処理プログラム
CN105551498A (zh) * 2015-10-28 2016-05-04 东莞酷派软件技术有限公司 一种语音识别的方法及装置
CN205354646U (zh) * 2015-12-09 2016-06-29 江苏天安智联科技股份有限公司 一种应用于车载设备的智能语音识别系统

Also Published As

Publication number Publication date
CN106782589A (zh) 2017-05-31

Similar Documents

Publication Publication Date Title
CN106782589B (zh) 移动终端及其语音输入方法和装置
US11315555B2 (en) Terminal holder and far-field voice interaction system
CN106782585B (zh) 一种基于麦克风阵列的拾音方法及系统
CN108538320B (zh) 录音控制方法和装置、可读存储介质、终端
CN111630876B (zh) 音频设备和音频处理方法
JP2019204074A (ja) 音声対話方法、装置及びシステム
CN105532017A (zh) 用于波束形成以获得语音和噪声信号的装置和方法
CN106663445A (zh) 声音处理装置、声音处理方法及程序
JP2016080750A (ja) 音声認識装置、音声認識方法、及び音声認識プログラム
EP1494208A1 (en) Method for controlling a speech dialog system and speech dialog system
WO2021244056A1 (zh) 一种数据处理方法、装置和可读介质
WO2014137341A1 (en) Method for training an automatic speech recognition system
CN110517702B (zh) 信号生成的方法、基于人工智能的语音识别方法及装置
CN111081238B (zh) 一种蓝牙音箱语音交互控制方法、装置及系统
WO2023004223A1 (en) Noise suppression using tandem networks
CN114898736A (zh) 语音信号识别方法、装置、电子设备和存储介质
CN113517000A (zh) 回声消除的测试方法、终端以及存储装置
CN103295571A (zh) 使用时间和/或频谱压缩的音频命令的控制
US11735187B2 (en) Hybrid routing for hands-free voice assistant, and related systems and methods
JP2019110447A (ja) 電子機器、電子機器の制御方法、及び、電子機器の制御プログラム
CN114694667A (zh) 语音输出方法、装置、计算机设备及存储介质
JP2007194833A (ja) ハンズフリー機能を備えた携帯電話
CN113593619B (zh) 用于录制音频的方法、装置、设备和介质
CN113612881B (zh) 基于单移动终端的扬声方法、装置及存储介质
US11646046B2 (en) Psychoacoustic enhancement based on audio source directivity

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant