CN110619873A - 音频处理方法、装置及存储介质 - Google Patents

音频处理方法、装置及存储介质 Download PDF

Info

Publication number
CN110619873A
CN110619873A CN201910760806.3A CN201910760806A CN110619873A CN 110619873 A CN110619873 A CN 110619873A CN 201910760806 A CN201910760806 A CN 201910760806A CN 110619873 A CN110619873 A CN 110619873A
Authority
CN
China
Prior art keywords
audio data
audio
target
data
application program
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910760806.3A
Other languages
English (en)
Inventor
路康虹
杨瑞
冯小川
崔世起
韩伟
秦斌
王刚
李丹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Xiaomi Mobile Software Co Ltd
Original Assignee
Beijing Xiaomi Mobile Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Xiaomi Mobile Software Co Ltd filed Critical Beijing Xiaomi Mobile Software Co Ltd
Priority to CN201910760806.3A priority Critical patent/CN110619873A/zh
Priority to JP2019563781A priority patent/JP7166294B2/ja
Priority to RU2019139979A priority patent/RU2735363C1/ru
Priority to PCT/CN2019/110213 priority patent/WO2021031308A1/zh
Priority to KR1020197033760A priority patent/KR102300257B1/ko
Priority to US16/696,402 priority patent/US11264027B2/en
Priority to EP19212041.8A priority patent/EP3779968A1/en
Priority to EP23150293.1A priority patent/EP4184506A1/en
Publication of CN110619873A publication Critical patent/CN110619873A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/22Interactive procedures; Man-machine interfaces
    • G10L17/24Interactive procedures; Man-machine interfaces the user being prompted to utter a password or a predefined phrase
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/22Interactive procedures; Man-machine interfaces
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02082Noise filtering the noise being echo, reverberation of the speech

Abstract

本公开是关于一种音频处理方法、装置及存储介质,该方法包括:在唤醒目标应用程序之后,获取第一音频信号所对应的第一音频数据;在获取第一音频数据的过程中,如果检测到第二音频信号所对应的第二音频数据,则获取第二音频数据;根据第一音频数据和第二音频数据,得到目标音频数据。本公开的技术方案,相较于对接收到的音频数据进行响应之后再对下一个音频数据进行处理,无需再次唤醒目标应用程序,能简化对话流程;且结合第一音频数据和第二音频数据,得到目标音频数据,对目标音频数据一起进行音频响应,能够更精确的获得用户真实需求,减少孤立的分别响应第一音频数据和第二音频数据所导致的响应错误的概率,提升了音频响应的正确率。

Description

音频处理方法、装置及存储介质
技术领域
本公开涉及信息技术领域,尤其涉及一种音频处理方法、装置及存储介质。
背景技术
目前,通过语音进行人机交互的交互方式受到了广泛关注,整个互联网行业都在积极探索语音交互可能的应用方式和应用场景,且已经有大量基于语音交互的产品面世,如智能音箱、语音助手等。其中,语音助手几乎成为了各个厂家的新品发布会的重点,在一定程度上影响了用户的消费选择。但是,用户与语音助手进行交互的过程中,存在对话过程繁杂,且对话不流畅的问题。
发明内容
本公开提供一种音频处理方法、装置及存储介质。
根据本公开实施例的第一方面,提供一种音频处理方法,所述方法应用于电子设备,包括:
在唤醒目标应用程序之后,获取第一音频信号所对应的第一音频数据;
在获取所述第一音频数据的过程中,如果检测到第二音频信号所对应的第二音频数据,则获取所述第二音频数据;
根据所述第一音频数据和所述第二音频数据,得到目标音频数据。
可选的,所述方法还包括:
确定结束获取所述第一音频数据与开始获取所述第二音频数据之间的时间差;
所述根据所述第一音频数据和所述第二音频数据,得到目标音频数据,包括:
如果所述时间差大于或者等于第一设定时长,则根据所述第一音频数据和所述第二音频数据,得到所述目标音频数据。
可选的,所述如果所述时间差大于或者等于第一设定时长,则根据所述第一音频数据和所述第二音频数据,得到所述目标音频数据,包括:
如果所述时间差大于或者等于第一设定时长,则检测所述第一音频数据的输入是否完整;
如果所述第一音频数据的输入不完整,则根据所述第一音频数据和所述第二音频数据,得到所述目标音频数据。
可选的,所述如果所述第一音频数据的输入不完整,则根据所述第一音频数据和所述第二音频数据,得到所述目标音频数据,包括:
如果第一音频数据的输入不完整,判断所述第一音频数据与所述第二音频数据是否能够拼接;
如果所述第一音频数据与所述第二音频数据能够拼接,则将所述第一音频数据与所述第二音频数据进行拼接,得到目标音频数据。
可选的,所述方法还包括:
如果所述第一音频数据的输入完整,则将所述第一音频数据和所述第二音频数据分别确定为所述目标音频数据。
可选的,所述方法还包括:
对所述目标音频数据进行回声消除处理;
基于进行回声消除处理后的目标音频数据,得到响应信息;
输出所述响应信息。
可选的,所述方法还包括:
获取待检测音频数据;
确定所述待检测音频数据中是否包含用于唤醒目标应用程序的唤醒信息;
如果所述待检测音频数据中包含所述唤醒信息,则对所述目标应用程序进行唤醒处理;
其中,所述音频数据包括语音数据。
根据本公开实施例的第二方面,提供一种音频处理装置,包括:
第一音频获取模块,配置为在唤醒目标应用程序之后,获取第一音频信号所对应的第一音频数据;
第二音频获取模块,配置为在获取所述第一音频数据的过程中,如果检测到第二音频信号所对应的第二音频数据,则获取所述第二音频数据;
第一音频确定模块,配置为根据所述第一音频数据和所述第二音频数据,得到目标音频数据。
可选的,所述装置还包括:
时间确定模块,配置为确定结束获取所述第一音频数据与开始获取所述第二音频数据之间的时间差;
所述第一音频确定模块,包括:
音频确定子模块,配置为如果所述时间差大于或者等于第一设定时长,则根据所述第一音频数据和所述第二音频数据,得到所述目标音频数据。
可选的,所述音频确定子模块,具体配置为:
如果所述时间差大于或者等于第一设定时长,则检测所述第一音频数据的输入是否完整;
如果所述第一音频数据的输入不完整,则根据所述第一音频数据和所述第二音频数据,得到所述目标音频数据。
可选的,所述音频确定子模块,还具体配置为:
如果第一音频数据的输入不完整,判断所述第一音频数据与所述第二音频数据是否能够拼接;
如果所述第一音频数据与所述第二音频数据能够拼接,则将所述第一音频数据与所述第二音频数据进行拼接,得到目标音频数据。
可选的,所述装置还包括:
第二音频确定模块,配置为如果所述第一音频数据的输入完整,则将所述第一音频数据和所述第二音频数据分别确定为所述目标音频数据。
可选的,所述装置还包括:
回声消除模块,配置为对所述目标音频数据进行回声消除处理;
响应模块,配置为基于进行回声消除处理后的目标音频数据,得到响应信息;
输出模块,配置为输出所述响应信息。
可选的,所述装置还包括:
第三音频获取模块,配置为获取待检测音频数据;
信息确定模块,配置为确定所述待检测音频数据中是否包含用于唤醒目标应用程序的唤醒信息;
唤醒模块,配置为如果所述待检测音频数据中包含所述唤醒信息,则对所述目标应用程序进行唤醒处理;
其中,所述音频数据包括语音数据。
根据本公开实施例的第三方面,提供一种音频处理装置,包括:
处理器;
配置为存储处理器可执行指令的存储器;
其中,所述处理器配置为:执行时实现上述第一方面中的音频处理方法中的步骤。
根据本公开实施例的第四方面,提供一种非临时性计算机可读存储介质,当所述存储介质中的指令由音频处理装置的处理器执行时,使得所述装置能够执行上述第一方面中的音频处理方法。
本公开的实施例提供的技术方案可以包括以下有益效果:
在本公开的实施例中,唤醒目标应用程序之后,在获取第一音频数据的过程中,如果检测到第二音频数据,能够对第一音频数据和第二音频数据进行分析和处理,得到目标音频数据,在连续对话的过程中,可以分别对多个音频数据直接进行处理,相较于对接收到的音频数据进行响应之后再对下一个音频数据进行处理,不需要再次唤醒目标应用程序,在简化对话流程的基础上,使语音交互过程更加流畅;且结合第一音频数据和第二音频数据,得到目标音频数据,对目标音频数据一起进行音频响应,能够更加精确的获得用户真实需求,减少孤立的分别响应第一音频数据和第二音频数据导致的响应错误的概率,故还提升了音频响应的正确率。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
图1是根据一示例性实施例示出的音频处理方法的流程图一。
图2是根据一示例性实施例示出的音频处理方法的流程示意图二。
图3是根据一示例性实施例示出的一种音频处理装置框图。
图4是根据一示例性实施例示出的一种音频处理装置的硬件结构框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
图1是根据一示例性实施例示出的音频处理方法的流程图一,如图1所示,该方法应用于电子设备,其中,电子设备包括移动终端和固定终端,例如,手机、平板电脑、掌上电脑、笔记本电脑、台式机、可穿戴式移动设备、智能音箱等。该方法包括以下步骤:
在步骤101中,在唤醒目标应用程序之后,获取第一音频信号所对应的第一音频数据。
其中,目标应用程序为可以安装在电子设备上的应用程序,用于与用户进行语音交互,例如,语音助手等。第一音频信号可以包括基于电子设备所包含的声音采集组件所采集的语音信号,例如,用户发出的语音信号。第一音频数据是对第一音频信号进行数字化处理之后的音频数据。
可以通过电子设备所包含的音频采集组件采集音频信号,并对音频信号进行数字化处理,得到音频数据。其中,音频采集组件可以是电子设备所包含的用于采集音频的组件,以电子设备是手机为例,音频采集组件可以为手机上的麦克风。
本公开实施例中,可以通过语音唤醒的方式唤醒目标应用程序,在唤醒目标应用程序之后,可以基于目标应用程序获取音频数据。
例如,在基于电子设备所包含的音频采集组件接收到用户发出的语音信号时,可以对该语音信号进行数字化处理,得到语音数据。并检测语音数据中是否包含预先设定的唤醒词,如果语音数据中包含有唤醒词,则可以唤醒目标应用程序。其中,唤醒词可以是用户根据需求设定的,例如,可以将唤醒词设置为“小爱同学”。
在步骤102中,在获取第一音频数据的过程中,如果检测到第二音频信号所对应的第二音频数据,则获取第二音频数据。
该第二音频数据可以与第一音频数据相同,也可以与第一音频数据不同。只要是在获取第一音频数据的过程中所获取到的音频数据,均可称为第二音频数据。
在步骤103中,根据第一音频数据和第二音频数据,得到目标音频数据。
目标应用程序在不同的时刻分别获取到第一音频数据和第二音频数据之后,能够根据第一音频数据和第二音频数据,得到目标音频数据,以使目标应用程序根据目标音频数据做出相应的响应。
其中,目标音频数据包括以下至少之一:第一音频数据、第二音频数据、第一音频数据和第二音频数据拼接而成的第三音频数据。以目标音频数据是第一音频数据和第二音频数据拼接而成的第三音频数据为例,如果第一音频数据所包含的内容为“今天的天气是”,第二音频数据所包含的内容为“晴天”,则第三音频数据、即目标音频数据所包含的内容可以为“今天的天气是晴天”。
本公开的实施例中,唤醒目标应用程序之后,在获取第一音频数据的过程中,如果检测到第二音频数据,能够同时对第一音频数据和第二音频数据进行分析和处理,得到目标音频数据。在连续对话的过程中,可以同时分别对多个的音频数据直接进行处理,而不需要再次唤醒目标应用程序,不仅能够简化对话流程,还能使语音交互过程更加流畅。
所述根据第一音频数据和第二音频数据,得到目标音频数据,包括:
根据所述第一音频数据的第一语义内容和所述第二音频数据的第二语义内容,得到所述目标音频数据。
例如,所述第一语义内容和所述第二语义内容互为补充,则可以组合所述第一音频数据和所述第二音频数据得到所述目标音频数据,这种应用场景可为:用户在发出第一语音信号之后,中间停顿了一下或者被打断导致需要通过第二音频信号进行补充。
这里,以第一语义内容为“请帮我”,第二语义内容为“定个闹钟”为例,对第一语义内容和第二语义内容进行语义分析,确定出第一语义内容和第二语义内容互为补充。然后可以组合第一音频数据和第二音频数据得到目标音频数据。这样就可以确定用户最终的需求是“请帮我定个闹钟”。
再例如,第一语义内容和所述第二语义内容相互矛盾,则可以以所述第二音频数据作为所述目标音频数据,这种应用场景为:用户发出的第一音频信号错误,通过第二音频信号纠正的场景。
以第一语义内容为“今天武汉的天气”,第二语义内容为“不,我想查的是今天北京的天气”为例。对第一语义内容和第二语义内容进行语义分析,则可以分析出第一音频数据和第二音频数据均为用于查询天气。虽然第一语义内容和第二语义内容具有相关性,但是第一音频数据用于查询武汉天气,而第二音频数据是用于查询北京天气的,两者是相互矛盾的,且能够分析出第一语义内容是错误的。这时可以判定目标应用程序可以不用对第一音频数据进行处理,并将第二音频数据确定为目标音频数据,并输出第二音频数据所对应的响应信息。
又例如,第一语义内容和所述第二语义内容相互独立,没有语义上的相互补充和矛盾,则将所述第一音频数据和第二音频数据作为两条目标音频数据,分别需要进行音频响应。这种应用场景为:用户比较着急的情况下或者语速比较快的用户,可能很短的时间内发出了完全独立的两条语音信号。
这里,以第一语义内容为“今天武汉的天气”,第二语义内容为“请帮我定一个闹钟”为例,对第一语义内容和第二语义内容进行语义分析,则可以分析出第一语义内容和第二语义内容并不相关,且第一音频数据和第二音频数据可以分别表征用户两种不同的需求。这时,就可以确定第一语义内容和所述第二语义内容相互独立,即没有语义上的相互补充和矛盾,则将所述第一音频数据和第二音频数据作为两条目标音频数据,分别需要进行音频响应,并分别输出第一音频数据和第二音频数据所对应的响应信息。
本公开实施例中的技术方案,相较于对接收到的音频数据进行响应之后再对下一个音频数据进行处理,不需要再次唤醒目标应用程序,在简化对话流程的基础上,使语音交互过程更加流畅;且结合第一音频数据和第二音频数据,得到目标音频数据,对目标音频数据一起进行音频响应,能够更加精确的获得用户真实需求,减少孤立的分别响应第一音频数据和第二音频数据导致的响应错误的概率,故还提升了音频响应的正确率。
在其他可选的实施例中,该方法还包括:
确定结束获取第一音频数据与开始获取第二音频数据之间的时间差;
对应地,步骤103包括:
如果结束获取第一音频数据与开始获取第二音频数据之间的时间差大于或者等于第一设定时长,则根据第一音频数据和第二音频数据,得到目标音频数据。
由于在获取音频数据的过程中,用户可能会稍有停顿。这时,目标应用程序可能会将停顿前后所获取到的音频数据分别确定为第一音频数据和第二音频数据。
由于第一音频数据和第二音频数据的获取时刻不同,且第二音频数据是在结束第一音频数据之后获取的,电子设备可以分别获取结束获取第一音频数据的结束时刻和开始获取第二音频数据的开始时刻,然后基于该结束时刻和开始时刻得到时间差。
然后,将获得的时间差与设置的第一设定时长进行比较,在时间差大于或者等于第一设定时长时,则确定用户可能不是在讲话的过程中稍有停顿。这种情况下需要对第一音频数据和第二音频数据进行进一步的判断和处理,以得到目标音频数据。例如,可以将第一音频数据和第二音频数据分别作为目标音频数据、或者对第一音频数据和第二音频数据进行拼接处理,得到目标音频数据等。
如果结束获取第一音频数据与开始获取第二音频数据之间的时间差小于第一设定时长,则确定用户是在讲话的过程中稍有停顿。此时,可以直接将第一音频数据和第二音频数据拼接为完整的音频数据,并将该完整的音频数据作为目标音频数据。
本公开实施例中,在得到目标音频数据之前,先对结束获取第一音频数据与开始获取第二音频数据之间的时间差进行一个判定,再确定是否要对第一音频数据和第二音频数据进行进一步处理,能够减少对获取到的音频数据进行不必要的处理过程。
在其他可选的实施例中,如果时间差大于或者等于第一设定时长,则根据第一音频数据和第二音频数据,得到目标音频数据,包括:
如果时间差大于或者等于第一设定时长,则检测第一音频数据的输入是否完整;
如果第一音频数据的输入不完整,则根据第一音频数据和第二音频数据,得到目标音频数据。
在结束获取第一音频数据与开始获取第二音频数据之间的时间差大于或者等于第一设定时长时,可以进一步检测第一音频数据的输入是否完整。检测第一音频数据的输入是否完整包括:获取第一语音数据的第一语义内容;对所述第一语义内容进行语义分析,得到语义分析结果;根据语义分析结果确定第一音频数据的输入是否完整。
例如,第一音频数据的第一语义内容为“请帮我定”。经过对第一语义内容进行分析可知,虽然第一语义内容中包括部分词语,但是仅基于第一语义内容中所包含的词语并不足以确定出用户的需求是什么。由此可知,第一语义内容用户可能是在发出语音信号的过程中有所停顿或者被中断,可以判定第一语音数据的输入不完整。
在其他的实施例中,当第一语音数据不完整,且检测到用户不再输入其它音频信号时,目标应用程序也可以根据语境,针对第一音频数据做出相应的响应信息。例如,第一音频数据的第一语义内容为“请帮我定”,目标应用程序所做出的响应信息则可以为“请问您需要我帮您定什么”。
这里,可以基于自然语言处理NLP(Natural Language Processing)技术检测第一音频数据的输入是否完整。
在其他可选的实施例中,如果第一音频数据的输入不完整,则根据第一音频数据和第二音频数据,得到目标音频数据,包括:
如果第一音频数据的输入不完整,判断第一音频数据与第二音频数据是否能够拼接;
如果第一音频数据与第二音频数据能够拼接,则将第一音频数据与第二音频数据进行拼接,得到目标音频数据。
例如,第一音频数据所包含的内容为“今天的天气是”,第二音频数据所包含的内容为“晴天”,则第三音频数据、即目标音频数据所包含的内容则为“今天的天气是晴天”。
在其他可选的实施例中,该方法还包括:如果第一音频数据的输入完整,则将第一音频数据和第二音频数据分别确定为目标音频数据。
这里,如果第一音频数据的输入完整,则确定目标应用程序可以针对于第一音频数据得到对应的响应信息,这时,就可以直接将第一音频数据确定为目标音频数据。同样地,如果第二音频数据的输入完整,则可以将第二音频数据确定为目标音频数据。这样,目标应用程序就可以分别得到第一音频数据和第二音频数据对应的响应信息。
在其他可选的实施例中,该方法还包括:
对目标音频数据进行回声消除处理;基于进行回声消除处理后的目标音频数据,得到响应信息;输出响应信息。
在进行音频处理的过程中,电子设备可能会录入电子设备自身发出的音频信号(音乐、消息提示音)等,这时,就需要对目标音频数据进行回声消除处理,并基于进行回声处理之后的目标音频数据得到响应信息,这样,能够减少电子设备所发出的音频信号的干扰,保证目标应用程序所输出的响应信息的准确性和稳定性。
这里,可以基于自动语音识别(Automatic Speech Recognition,ASR)技术和回声消除(Acoustic Echo Cancellation,AEC)技术对目标音频数据进行回声消除处理。
在其他的实施例中,为了减少录入环境噪音、环境人声(用户或者他人不针对于目标应用程序所发出的声音)等的概率,还可以基于ASR技术和NLP技术对目标音频数据进行处理,以屏蔽掉不是对目标应用程序所发出的声音。
在其他可选的实施例中,该方法还包括:
获取待检测音频数据;确定待检测音频数据中是否包含用于唤醒目标应用程序的唤醒信息;如果待检测音频数据中包含唤醒信息,则对目标应用程序进行唤醒处理;其中,音频数据包括语音数据。
可以通过电子设备所包含的音频采集组件采集音频信号,并对音频信号进行数字化处理,得到音频数据,其中,音频采集组件可以是电子设备所包含的用于采集音频的组件,以电子设备是手机为例,音频采集组件可以为手机上的麦克风。
其中,待检测音频数据可以包括:对采集到的用户的语音信号进行数字化处理得到的语音数据;唤醒信息可以为预先设定的唤醒词;目标应用程序可以是安装在电子设备上的用于与用户进行语音交互的应用程序,例如,语音助手。
具体地,在基于电子设备所包含的音频采集组件接收到用户发出的语音信号时,可以对该语音信号进行数字化处理,得到语音数据,并检测语音数据中是否包含预先设定的唤醒词。其中,唤醒词可以是用户根据需求设定的,例如,可以将唤醒词设置为“小爱同学”。
其中,唤醒处理是指控制目标应用程序从休眠状态进入工作状态,在唤醒目标应用程序之后,可以通过目标应用程序对音频数据进行处理。在其他实施例中,还可以通过图标、快捷键等接收用户输入的唤醒操作,唤醒目标应用程序。
在其他可选的实施例中,以安装在手机上的语音助手为例,用户在与手机上的语音助手进行语音交互时,可以先通过设定指令唤醒语音助手,在唤醒语音助手之后开始讲话,语音助手会根据用户讲话的内容做出相应的反馈。
其中,设定指令包括以下至少之一:设定的语音指令、针对手机上的图标的触发指令、针对手机上的快捷键的触发指令。这里,以用户向语音助手询问今天和明天的天气为例,主要对话内容如下:
用户:小爱同学(这里是通过语音指令唤醒的语音助手,也可以通过点击图标、快捷键等其他方式唤醒语音助手)
小爱:在/提示音(响应提示)
用户:今天天气
小爱:今天北京天气……(播报今天天气)
用户:小爱同学(这里是通过语音指令唤醒的语音助手,也可以通过点击图标、快捷键等其他方式唤醒语音助手)
小爱:在/提示音(响应提示)
用户:明天呢
小爱:明天北京天气……(播报明天天气)
在其他实施例中,用户可以先通过设定指令唤醒语音助手,在唤醒语音助手之后开始讲话,如果语音助手在用户讲完一句话之后,预判出用户可能会继续说话,会在语音助手回复结束后,自动打开麦克风,以接收用户发出的下一条指令。这里,以用户通过语音助手定闹钟为例,主要对话内容如下:
用户:小爱同学(这里是通过语音指令唤醒的语音助手,也可以通过点击图标、快捷键等其他方式唤醒语音助手)
小爱:在/提示音(响应提示)
用户:我要定闹钟
小爱:你想设置几点的闹钟
用户:晚上七点
小爱:为你定好了,晚上七点的闹钟
图2是根据一示例性实施例示出的音频处理方法的流程示意图二,如图2所示,该方法主要包括以下步骤:
在步骤201中,获取待检测音频数据,确定待检测音频数据中是否包含用于唤醒目标应用程序的唤醒信息。
可以通过电子设备所包含的音频采集组件采集音频信号,并对音频信号进行数字化处理,得到音频数据,其中,音频采集组件可以是电子设备所包含的用于采集音频的组件,以电子设备是手机为例,音频采集组件可以为手机上的麦克风。
其中,待检测音频数据可以包括:对采集到的用户的语音信号进行数字化处理得到的语音数据;唤醒信息可以为预先设定的唤醒词;目标应用程序可以是安装在电子设备上的用于与用户进行语音交互的应用程序,例如,语音助手。
例如,在基于电子设备所包含的音频采集组件接收到用户发出的语音信号时,可以对该语音信号进行数字化处理,得到语音数据,并检测语音数据中是否包含预先设定的唤醒词。其中,唤醒词可以是用户根据需求设定的,例如,可以将唤醒词设置为“小爱同学”。
在步骤202中,如果待检测音频数据中包含唤醒信息,则对目标应用程序进行唤醒处理。
唤醒处理是指控制目标应用程序从休眠状态进入工作状态,在唤醒目标应用程序之后,可以通过目标应用程序对音频数据进行处理。在其他实施例中,还可以通过图标、快捷键等接收用户输入的唤醒操作,唤醒目标应用程序。
在步骤203中,在唤醒目标应用程序之后,获取第一音频信号所对应的第一音频数据。
第一音频数据是对第一音频信号进行数字化处理之后的数据,其中,第一音频信号可以为基于声音采集组件采集的用户发出的语音信号。
在步骤204中,在获取第一音频数据的过程中,如果检测到第二音频信号所对应的第二音频数据,获取第二音频数据。
在步骤205中,确定结束获取第一音频数据与开始获取第二音频信号所对应的第二音频数据之间的时间差。
在步骤206中,判断结束获取第一音频数据与开始获取第二音频数据之间的时间差是否大于或者等于第一设定时长。
在其他实施例中,如果结束获取第一音频数据与开始获取第二音频数据之间的时间差小于第一设定时长,则直接将第一音频数据和第二音频数据拼接为目标音频数据。
基于结束获取第一音频数据与开始获取第二音频数据之间具有时间差,而目标应用程序不能确定第一音频数据和第二音频数据是两组完全独立的数据,还是具备关联性的两组数据,可能不能做出准确的响应。
本公开实施例中,在得到目标音频数据之前,先对结束获取第一音频数据与开始获取第二音频数据之间的时间差进行一个判定,再确定是否要对第一音频数据和第二音频数据进行进一步处理,不仅能够减少对获取到的音频数据进行不必要的处理过程,还可以得到更加精确的响应信息。
在步骤207中,如果时间差大于或者等于第一设定时长,则检测第一音频数据的输入是否完整。
这里,可以NLP技术检测第一音频数据的输入是否完整。如果检测到第一音频数据的输入完整,则得到与第一音频数据相对应的相应信息,并输出该响应信息。
在步骤208中,如果第一音频数据的输入不完整,判断第一音频数据与第二音频数据是否能够拼接。
在步骤209中,如果第一音频数据与第二音频数据能够拼接,则将第一音频数据与第二音频数据进行拼接,得到目标音频数据。
在步骤210中,如果第一音频数据的输入完整,则将第一音频数据和第二音频数据分别确定为目标音频数据。
在步骤211中,基于目标音频数据,得到响应信息。
在步骤212中,输出响应信息。
在其他可选的实施例中,基于接收到的交互终止指令,结束目标应用程序与用户之间的交互。这里,是通过语音方式输入交互终止指令,也可以通过点击图标、快捷键等其他方式输入交互终止指令。
本公开实施例中,在唤醒目标应用程序之后,用户可以随时、直接与目标应用程序进行对话,这样,目标应用程序在进行连续对话的过程中,也能够及时响应用户的所输入的各个音频信号。例如,当用户在听音乐的过程中,如果用户对目标应用程序所提供的音乐内容不满意时,可以直接说一声“换一首”;当用户需要连续对目标应用程序发出语音信号时,目标应用程序能够连续接收语音信号并进行相应的响应,不需要再次唤醒目标应用程序,也不需要等待目标应用程序将针对之前接收的语音信号所做出的响应信息输出完毕。
图3是根据一示例性实施例示出的一种音频处理装置框图。如图3所示,该音频处理装置300主要包括:
第一音频获取模块301,配置为在唤醒目标应用程序之后,获取第一音频信号所对应的第一音频数据;
第二音频获取模块302,配置为在获取第一音频数据的过程中,如果检测到第二音频信号所对应的第二音频数据,则获取第二音频数据;
第一音频确定模块303,配置为根据第一音频数据和第二音频数据,得到目标音频数据。
在其他可选的实施例中,装置300还包括:
时间确定模块,配置为确定结束获取第一音频数据与开始获取第二音频数据之间的时间差;
第一音频确定模块,包括:
音频确定子模块,配置为如果时间差大于或者等于第一设定时长,则根据第一音频数据和第二音频数据,得到目标音频数据。
在其他可选的实施例中,音频确定子模块,具体配置为:
如果时间差大于或者等于第一设定时长,则检测第一音频数据的输入是否完整;
如果第一音频数据的输入不完整,则根据第一音频数据和第二音频数据,得到目标音频数据。
在其他可选的实施例中,音频确定子模块,还具体配置为:
如果第一音频数据的输入不完整,判断第一音频数据与第二音频数据是否能够拼接;
如果第一音频数据与第二音频数据能够拼接,则将第一音频数据与第二音频数据进行拼接,得到目标音频数据。
在其他可选的实施例中,装置300还包括:
第二音频确定模块,配置为如果第一音频数据的输入完整,则将第一音频数据和第二音频数据分别确定为目标音频数据。
在其他可选的实施例中,装置300还包括:
回声消除模块,配置为对目标音频数据进行回声消除处理;
响应模块,配置为基于进行回声消除处理后的目标音频数据,得到响应信息;
输出模块,配置为输出响应信息。
在其他可选的实施例中,装置300还包括:
第三音频获取模块,配置为获取待检测音频数据;
信息确定模块,配置为确定待检测音频数据中是否包含用于唤醒目标应用程序的唤醒信息;
唤醒模块,配置为如果待检测音频数据中包含唤醒信息,则对目标应用程序进行唤醒处理;
其中,音频数据包括语音数据。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
图4是根据一示例性实施例示出的一种音频处理装置400的硬件结构框图。例如,装置400可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
参照图4,装置400可以包括以下一个或多个组件:处理组件402,存储器404,电力组件406,多媒体组件408,音频组件410,输入/输出(I/O)的接口412,传感器组件414,以及通信组件416。
处理组件402通常控制装置400的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理组件402可以包括一个或多个处理器420来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件402可以包括一个或多个模块,便于处理组件402和其他组件之间的交互。例如,处理组件402可以包括多媒体模块,以方便多媒体组件408和处理组件402之间的交互。
存储器404被配置为存储各种类型的数据以支持在装置400的操作。这些数据的示例包括用于在装置400上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器404可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电力组件406为装置400的各种组件提供电力。电力组件406可以包括电源管理系统,一个或多个电源,及其他与为装置400生成、管理和分配电力相关联的组件。
多媒体组件408包括在所述装置400和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件408包括一个前置摄像头和/或后置摄像头。当装置400处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
音频组件410被配置为输出和/或输入音频信号。例如,音频组件410包括一个麦克风(MIC),当装置400处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器404或经由通信组件416发送。在一些实施例中,音频组件410还包括一个扬声器,用于输出音频信号。
I/O接口412为处理组件402和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件414包括一个或多个传感器,用于为装置400提供各个方面的状态评估。例如,传感器组件414可以检测到装置400的打开/关闭状态,组件的相对定位,例如所述组件为装置400的显示器和小键盘,传感器组件414还可以检测装置400或装置400一个组件的位置改变,用户与装置400接触的存在或不存在,装置400方位或加速/减速和装置400的温度变化。传感器组件414可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件414还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件414还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件416被配置为便于装置400和其他设备之间有线或无线方式的通信。装置400可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信组件416经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信组件416还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,装置400可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器404,上述指令可由装置400的处理器420执行以完成上述方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
一种非临时性计算机可读存储介质,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行一种音频处理方法,所述方法包括:
在唤醒目标应用程序之后,获取第一音频信号所对应的第一音频数据;
在获取所述第一音频数据的过程中,如果检测到第二音频信号所对应的第二音频数据,则获取所述第二音频数据;
根据所述第一音频数据和所述第二音频数据,得到目标音频数据。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims (16)

1.一种音频处理方法,其特征在于,所述方法应用于电子设备,包括:
在唤醒目标应用程序之后,获取第一音频信号所对应的第一音频数据;
在获取所述第一音频数据的过程中,如果检测到第二音频信号所对应的第二音频数据,则获取所述第二音频数据;
根据所述第一音频数据和所述第二音频数据,得到目标音频数据。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
确定结束获取所述第一音频数据与开始获取所述第二音频数据之间的时间差;
所述根据所述第一音频数据和所述第二音频数据,得到目标音频数据,包括:
如果所述时间差大于或者等于第一设定时长,则根据所述第一音频数据和所述第二音频数据,得到所述目标音频数据。
3.根据权利要求2所述的方法,其特征在于,所述如果所述时间差大于或者等于第一设定时长,则根据所述第一音频数据和所述第二音频数据,得到所述目标音频数据,包括:
如果所述时间差大于或者等于第一设定时长,则检测所述第一音频数据的输入是否完整;
如果所述第一音频数据的输入不完整,则根据所述第一音频数据和所述第二音频数据,得到所述目标音频数据。
4.根据权利要求3所述的方法,其特征在于,所述如果所述第一音频数据的输入不完整,则根据所述第一音频数据和所述第二音频数据,得到所述目标音频数据,包括:
如果第一音频数据的输入不完整,判断所述第一音频数据与所述第二音频数据是否能够拼接;
如果所述第一音频数据与所述第二音频数据能够拼接,则将所述第一音频数据与所述第二音频数据进行拼接,得到目标音频数据。
5.根据权利要求3所述的方法,其特征在于,所述方法还包括:
如果所述第一音频数据的输入完整,则将所述第一音频数据和所述第二音频数据分别确定为所述目标音频数据。
6.根据权利要求1至5任一项所述的方法,其特征在于,所述方法还包括:
对所述目标音频数据进行回声消除处理;
基于进行回声消除处理后的目标音频数据,得到响应信息;
输出所述响应信息。
7.根据权利要求1至5任一项所述的方法,其特征在于,所述方法还包括:
获取待检测音频数据;
确定所述待检测音频数据中是否包含用于唤醒目标应用程序的唤醒信息;
如果所述待检测音频数据中包含所述唤醒信息,则对所述目标应用程序进行唤醒处理;
其中,所述音频数据包括语音数据。
8.一种音频处理装置,其特征在于,包括:
第一音频获取模块,配置为在唤醒目标应用程序之后,获取第一音频信号所对应的第一音频数据;
第二音频获取模块,配置为在获取所述第一音频数据的过程中,如果检测到第二音频信号所对应的第二音频数据,则获取所述第二音频数据;
第一音频确定模块,配置为根据所述第一音频数据和所述第二音频数据,得到目标音频数据。
9.根据权利要求8所述的装置,其特征在于,所述装置还包括:
时间确定模块,配置为确定结束获取所述第一音频数据与开始获取所述第二音频数据之间的时间差;
所述第一音频确定模块,包括:
音频确定子模块,配置为如果所述时间差大于或者等于第一设定时长,则根据所述第一音频数据和所述第二音频数据,得到所述目标音频数据。
10.根据权利要求9所述的装置,其特征在于,所述音频确定子模块,具体配置为:
如果所述时间差大于或者等于第一设定时长,则检测所述第一音频数据的输入是否完整;
如果所述第一音频数据的输入不完整,则根据所述第一音频数据和所述第二音频数据,得到所述目标音频数据。
11.根据权利要求10所述的装置,其特征在于,所述音频确定子模块,还具体配置为:
如果第一音频数据的输入不完整,判断所述第一音频数据与所述第二音频数据是否能够拼接;
如果所述第一音频数据与所述第二音频数据能够拼接,则将所述第一音频数据与所述第二音频数据进行拼接,得到目标音频数据。
12.根据权利要求10所述的装置,其特征在于,所述装置还包括:
第二音频确定模块,配置为如果所述第一音频数据的输入完整,则将所述第一音频数据和所述第二音频数据分别确定为所述目标音频数据。
13.根据权利要求9至12任一项所述的装置,其特征在于,所述装置还包括:
回声消除模块,配置为对所述目标音频数据进行回声消除处理;
响应模块,配置为基于进行回声消除处理后的目标音频数据,得到响应信息;
输出模块,配置为输出所述响应信息。
14.根据权利要求9至12任一项所述的装置,其特征在于,所述装置还包括:
第三音频获取模块,配置为获取待检测音频数据;
信息确定模块,配置为确定所述待检测音频数据中是否包含用于唤醒目标应用程序的唤醒信息;
唤醒模块,配置为如果所述待检测音频数据中包含所述唤醒信息,则对所述目标应用程序进行唤醒处理;
其中,所述音频数据包括语音数据。
15.一种音频处理装置,其特征在于,包括:
处理器;
配置为存储处理器可执行指令的存储器;
其中,所述处理器配置为:执行时实现上述权利要求1至7中任一种音频处理方法中的步骤。
16.一种非临时性计算机可读存储介质,当所述存储介质中的指令由音频处理装置的处理器执行时,使得所述装置能够执行上述权利要求1至7中任一种音频处理方法。
CN201910760806.3A 2019-08-16 2019-08-16 音频处理方法、装置及存储介质 Pending CN110619873A (zh)

Priority Applications (8)

Application Number Priority Date Filing Date Title
CN201910760806.3A CN110619873A (zh) 2019-08-16 2019-08-16 音频处理方法、装置及存储介质
JP2019563781A JP7166294B2 (ja) 2019-08-16 2019-10-09 オーディオ処理方法、装置及び記憶媒体
RU2019139979A RU2735363C1 (ru) 2019-08-16 2019-10-09 Способ и устройство для обработки звука и носитель информации
PCT/CN2019/110213 WO2021031308A1 (zh) 2019-08-16 2019-10-09 音频处理方法、装置及存储介质
KR1020197033760A KR102300257B1 (ko) 2019-08-16 2019-10-09 오디오 처리 방법, 장치 및 저장 매체
US16/696,402 US11264027B2 (en) 2019-08-16 2019-11-26 Method and apparatus for determining target audio data during application waking-up
EP19212041.8A EP3779968A1 (en) 2019-08-16 2019-11-28 Audio processing
EP23150293.1A EP4184506A1 (en) 2019-08-16 2019-11-28 Audio processing

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910760806.3A CN110619873A (zh) 2019-08-16 2019-08-16 音频处理方法、装置及存储介质

Publications (1)

Publication Number Publication Date
CN110619873A true CN110619873A (zh) 2019-12-27

Family

ID=68731780

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910760806.3A Pending CN110619873A (zh) 2019-08-16 2019-08-16 音频处理方法、装置及存储介质

Country Status (7)

Country Link
US (1) US11264027B2 (zh)
EP (2) EP4184506A1 (zh)
JP (1) JP7166294B2 (zh)
KR (1) KR102300257B1 (zh)
CN (1) CN110619873A (zh)
RU (1) RU2735363C1 (zh)
WO (1) WO2021031308A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111583923A (zh) * 2020-04-28 2020-08-25 北京小米松果电子有限公司 信息控制方法及装置、存储介质
CN111598577A (zh) * 2020-07-24 2020-08-28 深圳市声扬科技有限公司 资源转移方法、装置、计算机设备和存储介质

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11431658B2 (en) * 2020-04-02 2022-08-30 Paymentus Corporation Systems and methods for aggregating user sessions for interactive transactions using virtual assistants
CN112837694B (zh) * 2021-01-29 2022-12-06 青岛海尔科技有限公司 设备唤醒方法、装置、存储介质及电子装置
CN113113036B (zh) * 2021-03-12 2023-06-06 北京小米移动软件有限公司 音频信号处理方法及装置、终端及存储介质
CN113329372B (zh) * 2021-06-08 2023-04-28 阿波罗智联(北京)科技有限公司 用于车载通话的方法、装置、设备、介质和产品

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105934791A (zh) * 2014-01-31 2016-09-07 惠普发展公司,有限责任合伙企业 语音输入命令
CN106875945A (zh) * 2017-03-09 2017-06-20 广东美的制冷设备有限公司 语音控制方法、装置和空调器
CN107146618A (zh) * 2017-06-16 2017-09-08 北京云知声信息技术有限公司 语音处理方法及装置
CN107146602A (zh) * 2017-04-10 2017-09-08 北京猎户星空科技有限公司 一种语音识别方法、装置及电子设备
CN107195303A (zh) * 2017-06-16 2017-09-22 北京云知声信息技术有限公司 语音处理方法及装置
CN107665706A (zh) * 2016-07-29 2018-02-06 科大讯飞股份有限公司 快速语音交互方法及系统
CN108257616A (zh) * 2017-12-05 2018-07-06 苏州车萝卜汽车电子科技有限公司 人机对话的检测方法以及装置
CN108932942A (zh) * 2018-06-26 2018-12-04 四川斐讯信息技术有限公司 一种实现智能音箱人机对话的系统及其方法
CN109215642A (zh) * 2017-07-04 2019-01-15 阿里巴巴集团控股有限公司 人机会话的处理方法、装置及电子设备
CN109360551A (zh) * 2018-10-25 2019-02-19 珠海格力电器股份有限公司 一种语音识别方法及装置
CN109410944A (zh) * 2018-12-12 2019-03-01 百度在线网络技术(北京)有限公司 语音交互方法、装置和终端
CN109545206A (zh) * 2018-10-29 2019-03-29 百度在线网络技术(北京)有限公司 智能设备的语音交互处理方法、装置和智能设备
CN109599130A (zh) * 2018-12-10 2019-04-09 百度在线网络技术(北京)有限公司 收音方法、装置及存储介质
CN110111789A (zh) * 2019-05-07 2019-08-09 百度国际科技(深圳)有限公司 语音交互方法、装置、计算设备和计算机可读介质

Family Cites Families (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5855000A (en) * 1995-09-08 1998-12-29 Carnegie Mellon University Method and apparatus for correcting and repairing machine-transcribed input using independent or cross-modal secondary input
US7386454B2 (en) * 2002-07-31 2008-06-10 International Business Machines Corporation Natural error handling in speech recognition
US7200559B2 (en) * 2003-05-29 2007-04-03 Microsoft Corporation Semantic object synchronous understanding implemented with speech application language tags
JP4686160B2 (ja) * 2004-10-04 2011-05-18 沖コンサルティングソリューションズ株式会社 会話記録装置および会話記録方法
US7930168B2 (en) * 2005-10-04 2011-04-19 Robert Bosch Gmbh Natural language processing of disfluent sentences
JP5158174B2 (ja) * 2010-10-25 2013-03-06 株式会社デンソー 音声認識装置
US9123339B1 (en) * 2010-11-23 2015-09-01 Google Inc. Speech recognition using repeated utterances
US9799328B2 (en) * 2012-08-03 2017-10-24 Veveo, Inc. Method for using pauses detected in speech input to assist in interpreting the input during conversational interaction for information retrieval
US9437186B1 (en) * 2013-06-19 2016-09-06 Amazon Technologies, Inc. Enhanced endpoint detection for speech recognition
JP6235280B2 (ja) * 2013-09-19 2017-11-22 株式会社東芝 音声同時処理装置、方法およびプログラム
US10832005B1 (en) * 2013-11-21 2020-11-10 Soundhound, Inc. Parsing to determine interruptible state in an utterance by detecting pause duration and complete sentences
US8843369B1 (en) * 2013-12-27 2014-09-23 Google Inc. Speech endpointing based on voice profile
US9607613B2 (en) 2014-04-23 2017-03-28 Google Inc. Speech endpointing based on word comparisons
DE102014017385B4 (de) * 2014-11-24 2016-06-23 Audi Ag Kraftfahrzeug-Gerätebedienung mit Bedienkorrektur
CN106409295B (zh) * 2015-07-31 2020-06-16 腾讯科技(深圳)有限公司 从自然语音信息中识别时间信息的方法和装置
US10331312B2 (en) * 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
US10269341B2 (en) 2015-10-19 2019-04-23 Google Llc Speech endpointing
KR101942521B1 (ko) 2015-10-19 2019-01-28 구글 엘엘씨 음성 엔드포인팅
KR102495517B1 (ko) * 2016-01-26 2023-02-03 삼성전자 주식회사 전자 장치, 전자 장치의 음성 인식 방법
US9659555B1 (en) * 2016-02-09 2017-05-23 Amazon Technologies, Inc. Multichannel acoustic echo cancellation
US10013980B2 (en) * 2016-10-04 2018-07-03 Microsoft Technology Licensing, Llc Combined menu-based and natural-language-based communication with chatbots
KR20180118470A (ko) * 2017-04-21 2018-10-31 엘지전자 주식회사 음성 인식 장치 및 음성 인식 방법
KR20190008663A (ko) * 2017-07-17 2019-01-25 삼성전자주식회사 음성 데이터 처리 방법 및 이를 지원하는 시스템
EP3667660A4 (en) 2017-08-09 2020-12-23 Sony Corporation INFORMATION PROCESSING DEVICE AND INFORMATION PROCESSING PROCESS
US10586534B1 (en) * 2017-09-27 2020-03-10 Amazon Technologies, Inc. Voice-controlled device control using acoustic echo cancellation statistics
CN107863113A (zh) * 2017-11-08 2018-03-30 天脉聚源(北京)传媒科技有限公司 一种语音上传方法及装置
CN108172219B (zh) * 2017-11-14 2021-02-26 珠海格力电器股份有限公司 识别语音的方法和装置
US20200327890A1 (en) 2017-11-28 2020-10-15 Sony Corporation Information processing device and information processing method
JP2019101385A (ja) 2017-12-08 2019-06-24 富士通株式会社 音声処理装置、音声処理方法及び音声処理用コンピュータプログラム
CN108337362A (zh) 2017-12-26 2018-07-27 百度在线网络技术(北京)有限公司 语音交互方法、装置、设备和存储介质
US20190279623A1 (en) * 2018-03-08 2019-09-12 Kika Tech (Cayman) Holdings Co., Limited Method for speech recognition dictation and correction by spelling input, system and storage medium
JP7096707B2 (ja) 2018-05-29 2022-07-06 シャープ株式会社 電子機器、電子機器を制御する制御装置、制御プログラムおよび制御方法
CN108737933A (zh) * 2018-05-30 2018-11-02 上海与德科技有限公司 一种基于智能音箱的对话方法、装置及电子设备
CN108737934B (zh) * 2018-08-10 2024-04-09 广东庆昇科技有限公司 一种智能音箱及其控制方法
CN109147779A (zh) * 2018-08-14 2019-01-04 苏州思必驰信息科技有限公司 语音数据处理方法和装置
CN108986814A (zh) * 2018-09-04 2018-12-11 出门问问信息科技有限公司 一种唤醒应用服务的方法及装置
CN110503970B (zh) * 2018-11-23 2021-11-23 腾讯科技(深圳)有限公司 一种音频数据处理方法、装置及存储介质

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105934791A (zh) * 2014-01-31 2016-09-07 惠普发展公司,有限责任合伙企业 语音输入命令
CN107665706A (zh) * 2016-07-29 2018-02-06 科大讯飞股份有限公司 快速语音交互方法及系统
CN106875945A (zh) * 2017-03-09 2017-06-20 广东美的制冷设备有限公司 语音控制方法、装置和空调器
CN107146602A (zh) * 2017-04-10 2017-09-08 北京猎户星空科技有限公司 一种语音识别方法、装置及电子设备
CN107146618A (zh) * 2017-06-16 2017-09-08 北京云知声信息技术有限公司 语音处理方法及装置
CN107195303A (zh) * 2017-06-16 2017-09-22 北京云知声信息技术有限公司 语音处理方法及装置
CN109215642A (zh) * 2017-07-04 2019-01-15 阿里巴巴集团控股有限公司 人机会话的处理方法、装置及电子设备
CN108257616A (zh) * 2017-12-05 2018-07-06 苏州车萝卜汽车电子科技有限公司 人机对话的检测方法以及装置
CN108932942A (zh) * 2018-06-26 2018-12-04 四川斐讯信息技术有限公司 一种实现智能音箱人机对话的系统及其方法
CN109360551A (zh) * 2018-10-25 2019-02-19 珠海格力电器股份有限公司 一种语音识别方法及装置
CN109545206A (zh) * 2018-10-29 2019-03-29 百度在线网络技术(北京)有限公司 智能设备的语音交互处理方法、装置和智能设备
CN109599130A (zh) * 2018-12-10 2019-04-09 百度在线网络技术(北京)有限公司 收音方法、装置及存储介质
CN109410944A (zh) * 2018-12-12 2019-03-01 百度在线网络技术(北京)有限公司 语音交互方法、装置和终端
CN110111789A (zh) * 2019-05-07 2019-08-09 百度国际科技(深圳)有限公司 语音交互方法、装置、计算设备和计算机可读介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111583923A (zh) * 2020-04-28 2020-08-25 北京小米松果电子有限公司 信息控制方法及装置、存储介质
CN111583923B (zh) * 2020-04-28 2023-11-14 北京小米松果电子有限公司 信息控制方法及装置、存储介质
CN111598577A (zh) * 2020-07-24 2020-08-28 深圳市声扬科技有限公司 资源转移方法、装置、计算机设备和存储介质

Also Published As

Publication number Publication date
RU2735363C1 (ru) 2020-10-30
WO2021031308A1 (zh) 2021-02-25
KR102300257B1 (ko) 2021-09-10
EP4184506A1 (en) 2023-05-24
JP2022501623A (ja) 2022-01-06
KR20210024408A (ko) 2021-03-05
US20210050010A1 (en) 2021-02-18
EP3779968A1 (en) 2021-02-17
US11264027B2 (en) 2022-03-01
JP7166294B2 (ja) 2022-11-07

Similar Documents

Publication Publication Date Title
CN110634483B (zh) 人机交互方法、装置、电子设备及存储介质
CN110619873A (zh) 音频处理方法、装置及存储介质
CN111063354B (zh) 人机交互方法及装置
EP3933570A1 (en) Method and apparatus for controlling a voice assistant, and computer-readable storage medium
CN111696553B (zh) 一种语音处理方法、装置及可读介质
CN108564943B (zh) 语音交互方法及系统
CN111583923B (zh) 信息控制方法及装置、存储介质
CN110634488B (zh) 信息处理方法、装置和系统以及存储介质
CN112185388B (zh) 语音识别方法、装置、设备及计算机可读存储介质
CN108648754B (zh) 语音控制方法及装置
CN111540350B (zh) 一种智能语音控制设备的控制方法、装置及存储介质
CN111580773A (zh) 信息处理方法、装置及存储介质
CN112509596A (zh) 唤醒控制方法、装置、存储介质及终端
CN112445906A (zh) 一种生成回复消息的方法及装置
CN112866480B (zh) 信息处理方法、装置、电子设备及存储介质
CN111667827B (zh) 应用程序的语音控制方法、装置及存储介质
CN111968680A (zh) 一种语音处理方法、装置及存储介质
CN113035189A (zh) 一种文档演示的控制方法、装置和设备
CN112863511A (zh) 信号处理方法、装置以及存储介质
CN112489650A (zh) 唤醒控制方法、装置、存储介质及终端
CN111816174A (zh) 语音识别方法、装置及计算机可读存储介质
CN111913590A (zh) 一种输入方法、装置和设备
CN112489653B (zh) 语音识别的方法、装置及存储介质
CN116030804A (zh) 一种语音唤醒方法、语音唤醒装置及存储介质
CN112489653A (zh) 语音识别的方法、装置及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20191227

RJ01 Rejection of invention patent application after publication