CN112151032A - 一种语音消息的智能处理方法 - Google Patents
一种语音消息的智能处理方法 Download PDFInfo
- Publication number
- CN112151032A CN112151032A CN202010964983.6A CN202010964983A CN112151032A CN 112151032 A CN112151032 A CN 112151032A CN 202010964983 A CN202010964983 A CN 202010964983A CN 112151032 A CN112151032 A CN 112151032A
- Authority
- CN
- China
- Prior art keywords
- audio data
- voice
- data
- microphone
- processing method
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 22
- 238000001514 detection method Methods 0.000 claims description 8
- 230000005540 biological transmission Effects 0.000 claims description 7
- 238000013475 authorization Methods 0.000 claims description 2
- 238000000034 method Methods 0.000 description 6
- 230000007547 defect Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/44—Arrangements for executing specific programs
- G06F9/4401—Bootstrapping
- G06F9/4418—Suspend and resume; Hibernate and awake
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L51/00—User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
- H04L51/04—Real-time or near real-time messaging, e.g. instant messaging [IM]
- H04L51/046—Interoperability with other network applications or services
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Theoretical Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computer Security & Cryptography (AREA)
- Telephone Function (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明涉及一种语音消息的智能处理方法,包括:(1)、开启语音唤醒功能;(2)、从麦克风获取音频数据;(3)、检测音频数据是否有语音口令,没有则进入步骤(4),有则进入步骤(5);(4)、检测音频数据是否有声音,有则将其累加到数据池中;没有则检测上一段音频数据是否有声音,有则把该段音频数据累加到数据池中,没有则舍弃该段音频数据;之后返回步骤(2);(5)、裁掉数据池中包括语音口令的数据;(6)、判断有效语音数据是否大于一定时间,大于则进入步骤(7),小于则清空数据池中的音频数据并返回步骤(2);(7)、转换数据格式并进行发送.其不仅解放双手,减少了误操作的可能性,还减少了听语音消息的时间。
Description
技术领域
本发明属于通信技术领域,涉及一种消息处理方法,具体涉及一种语音消息的智能处理方法。
背景技术
目前,用户通过社交软件发送语音消息时,录制过程中需要用手指一直接着录制按钮,并且会把停顿时的语音数据录制进去。
用现有的方式录制和发送语音消息时,由于需要一直用手指按着按钮,极易误操作,例如,还没有录制结束,由于不小心松手,把消息发送出去。取消发送的步骤也很繁琐,需要用手指在屏幕上滑动。同时,发送的语音消息中,包括一些停顿的空白数据,这就导致听消息的人多听到一些无效的消息,浪费听消息的人的时间。
鉴于现有技术的上述技术缺陷,迫切需要研发一种新型的语音消息处理方法。
发明内容
本发明的目的在于克服现有技术中存在的缺点,利用人工智能技术,主要是语音识别及唤醒技术,提供一种新型的语音消息处理方法,其不仅解放双手,减少了误操作的可能性,还减少了听语音消息的时间。
为了实现上述目的,本发明提供如下技术方案:
一种语音消息的智能处理方法,其特征在于,包括以下步骤:
(1)、开启语音唤醒功能;
(2)、从麦克风获取音频数据;
(3)、检测从麦克风获取的音频数据是否有语音口令,如果没有语音口令,则进入步骤(4),如果有语音口令,则唤醒成功,结束检测,进入步骤(5);
(4)、检测从麦克风获取的音频数据是否有声音,如果有声音则记录该段音频数据并将该段音频数据累加到数据池中;如果没有声音则检测上一段音频数据是否有声音,如果上一段音频数据有声音则把该段音频数据也累加到数据池中,如果上一段音频数据没有声音则舍弃该段音频数据;将该段音频数据累加到数据池中或舍弃该段音频数据后返回步骤(2)继续从麦克风获取音频数据;
(5)、裁掉数据池中包括语音口令的数据;
(6)、判断裁掉语音口令的数据之后的有效语音数据是否大于一定时间,如果大于等于一定时间,则进入步骤(7),如果小于一定时间,则清空数据池中的音频数据并返回步骤(2)继续从麦克风获取音频数据;
(7)、转换数据池中的音频数据的数据格式,并进行发送。
优选地,其中,所述步骤(1)中,利用百度语音唤醒软件工具开启语音唤醒功能。
优选地,其中,所述步骤(2)中,每次从麦克风中获取的是20毫秒的音频数据。
优选地,其中,所述步骤(4)中,利用WebRTC里的VAD算法检测从麦克风获取的音频数据是否有声音。
优选地,其中,所述步骤(6)中的一定时间为400毫秒。
优选地,其中,所述步骤(7)中,将数据池中的音频数据转成AMR格式。
优选地,其中,所述步骤(7)中,通过环信即时通讯软件开发工具进行自动发送。
优选地,其中,在步骤(1)之前,检查是否有读写本地文件的权限和调用麦克风的权限,如果没有,则引导用户进行授权。
与现有技术相比,本发明的语音消息处理方法具有如下有益技术效果:本发明的语音消息处理方法无需手动控制便可录制语音消息,且通过判断录制的语音数据是否有声音来选择是否记录该段数据,录制完成后可通过口令来发送语音消息。在这个过程中无需用手操作,对用户来说不仅解放双手,而且减少了误操作的可能性。同时,其还剔除了空白数据,使得语音消息里全是有效信息,减少了听语音消息的时间,节省了听者的时间。
附图说明
图1是本发明的语音消息智能处理方法的流程图。
具体实施方式
下面结合附图和实施例对本发明进一步说明,实施例的内容不作为对本发明的保护范围的限制。
本发明涉及一种在社交软件中新的录制、发送语音消息的方式,其中包括无需手动控制便可录制语音消息,且通过判断录制的语音数据是否有声音来选择是否记录该段数据,录制完成后可通过语音口令(如:“OK发送”)来发送语音消息。在这个过程中无需用手操作,对用户来说不仅解放双手,减少了误操作的可能性,还使得语音消息里全是有效信息,减少了听语音消息的时间。
图1示出了本发明的语音消息处理方法的流程图。如图1所示,本发明的语音消息智能处理方法包括以下步骤:
首先,开启语音唤醒功能。
也就是,在进行语音消息发送之前,用户需要先开启语音唤醒功能,以便于进行语音数据的获取和处理。
在本发明中,可以利用百度语音唤醒软件工具开启语音唤醒功能。
其中,百度语音唤醒软件开发工具是一个能够识别出预先设置好的语音口令的开发工具。通过百度语音唤醒软件开发工具可以设置唤醒语音口令,例如,“OK发送”等。
在本发明中,在开启语音唤醒功能之前,需要检查是否有读写本地文件的权限和调用麦克风的权限,如果没有,则引导用户进行授权。在用户进行授权之后,才能开启语音唤醒功能
在开启语音唤醒功能之后,即可从麦克风获取音频数据。也就是,打开麦克风,用麦克风进行录音,从而通过麦克风获取音频数据。
接着,检测从麦克风获取的音频数据是否有语音口令。所述语音口令为是否发送语音数据的口令,例如,“OK发送”等。通过是否有语音口令,来判断是否需要发送从麦克风获取的音频数据。
如果没有语音口令,则说明不需要进行语音数据的发送。此时,需要检测从麦克风获取的音频数据是否有声音。如果从麦克风获取的音频数据有声音则记录该段音频数据并将该段音频数据累加到数据池中。如果从麦克风获取的音频数据没有声音则检测上一段音频数据是否有声音。如果上一段音频数据有声音则把该段音频数据也累加到数据池中。如果上一段音频数据没有声音则舍弃该段音频数据。
将该段音频数据累加到数据池中或舍弃该段音频数据后要继续处理从麦克风获取的音频数据。
在本发明中,可以利用VAD静音检测算法检测从麦克风获取的音频数据是否有声音。VAD静音检测算法是WebRTC里的VAD算法,其可以检测20毫秒的音频数据有没有声音。
这样,在本发明中,当开启唤醒功能后,在有麦克风的权限的前提下,自动打开麦克风,触发录音功能,在录音过程中,每次返回20毫秒的数据,然后利用VAD算法检测这20毫秒的音频数据有没有声音。如果有声音就把该段音频数据累加到要发送的数据池中。如果没有声音,则判断上一次检测有没有声音,如果上一次检测有声音(顺序是:有声音——没声音),说明这是一句话结束后的停顿,为防止每句话之间的间隔过于紧凑,则把这一段音频数据也累加到要发送的数据池中;如果上一次检测没有声音(顺序是:没声音——没声音),说明正处于一段长时间的停顿,此时直接舍弃该段音频数据。
如果有语音口令,则唤醒成功,结束检测。此时,需要将从数据池中的语音数据进行发送。但是,在发送前需要裁掉数据池中包括语音口令的数据。由于裁掉了数据池中包括语音口令的数据,因此,不需要将语音口令发送给对方,一方面比较节省时间,另一方面有助于保证语音数据都是有效语音数据。
在裁掉数据池中包括语音口令的数据之后,需要判断裁掉语音口令的数据之后的有效语音数据是否大于一定时间,例如400毫秒。
如果小于一定时间,或者只包含语音口令,则提示录制时间过短,清空数据池中的数据,重新录制,继续从麦克风获取音频数据。
如果大于等于一定时间,则说明是一段有效的语音消息,需要对其进行发送。因此,此时,要转换数据池中的音频数据的数据格式,并进行发送。
在本发明中,由于数据池中的数据为PCM格式,而发送的时候为AMR格式,因此,需要转成AMR格式进行发送。
同时,在本发明中,通过环信即时通讯软件开发工具进行自动发送。
其中,环信即时通讯软件开发工具是一个能够提供即时发送和接收互联网消息的开发工具,在此基础上开发者可以更方便快捷得实现聊天功能。本发明就是利用该工具使用户能够即时通讯。
本发明的语音消息处理方法无需手动控制便可录制语音消息,且通过判断录制的语音数据是否有声音来选择是否记录该段数据,录制完成后可通过口令来发送语音消息。在这个过程中无需用手操作,对用户来说不仅解放双手,而且减少了误操作的可能性。同时,其还剔除了空白数据,使得语音消息里全是有效信息,减少了听语音消息的时间,节省了听者的时间。
本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无法对所有的实施方式予以穷举。凡是属于本发明的技术方案所引伸出的显而易见的变化或变动仍处于本发明的保护范围之列。
Claims (8)
1.一种语音消息的智能处理方法,其特征在于,包括以下步骤:
(1)、开启语音唤醒功能;
(2)、从麦克风获取音频数据;
(3)、检测从麦克风获取的音频数据是否有语音口令,如果没有语音口令,则进入步骤(4),如果有语音口令,则唤醒成功,结束检测,进入步骤(5);
(4)、检测从麦克风获取的音频数据是否有声音,如果有声音则记录该段音频数据并将该段音频数据累加到数据池中;如果没有声音则检测上一段音频数据是否有声音,如果上一段音频数据有声音则把该段音频数据也累加到数据池中,如果上一段音频数据没有声音则舍弃该段音频数据;将该段音频数据累加到数据池中或舍弃该段音频数据后返回步骤(2)继续从麦克风获取音频数据;
(5)、裁掉数据池中包括语音口令的数据;
(6)、判断裁掉语音口令的数据之后的有效语音数据是否大于一定时间,如果大于等于一定时间,则进入步骤(7),如果小于一定时间,则清空数据池中的音频数据并返回步骤(2)继续从麦克风获取音频数据;
(7)、转换数据池中的音频数据的数据格式,并进行发送。
2.根据权利要求1所述的语音消息处理方法,其特征在于,所述步骤(1)中,利用百度语音唤醒软件工具开启语音唤醒功能。
3.根据权利要求2所述的语音消息处理方法,其特征在于,所述步骤(2)中,每次从麦克风中获取的是20毫秒的音频数据。
4.根据权利要求3所述的语音消息处理方法,其特征在于,所述步骤(4)中,利用WebRTC里的VAD算法检测从麦克风获取的音频数据是否有声音。
5.根据权利要求4所述的语音消息处理方法,其特征在于,所述步骤(6)中的一定时间为400毫秒。
6.根据权利要求5所述的语音消息处理方法,其特征在于,所述步骤(7)中,将数据池中的音频数据转成AMR格式。
7.根据权利要求6所述的语音消息处理方法,其特征在于,所述步骤(7)中,通过环信即时通讯软件开发工具进行自动发送。
8.根据权利要求1-7中任一项所述的语音消息处理方法,其特征在于,在步骤(1)之前,检查是否有读写本地文件的权限和调用麦克风的权限,如果没有,则引导用户进行授权。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010964983.6A CN112151032A (zh) | 2020-09-15 | 2020-09-15 | 一种语音消息的智能处理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010964983.6A CN112151032A (zh) | 2020-09-15 | 2020-09-15 | 一种语音消息的智能处理方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112151032A true CN112151032A (zh) | 2020-12-29 |
Family
ID=73892582
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010964983.6A Pending CN112151032A (zh) | 2020-09-15 | 2020-09-15 | 一种语音消息的智能处理方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112151032A (zh) |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103559907A (zh) * | 2013-10-25 | 2014-02-05 | 广州华多网络科技有限公司 | 录音方法、装置和终端 |
CN104732975A (zh) * | 2013-12-20 | 2015-06-24 | 华为技术有限公司 | 一种语音即时通讯方法及装置 |
WO2016095380A1 (zh) * | 2014-12-18 | 2016-06-23 | 中兴通讯股份有限公司 | 一种即时通讯方法及装置 |
CN107391702A (zh) * | 2017-07-28 | 2017-11-24 | 广东欧珀移动通信有限公司 | 语音消息转存方法、移动终端及计算机可读存储介质 |
CN107592415A (zh) * | 2017-08-31 | 2018-01-16 | 努比亚技术有限公司 | 语音发送方法、终端和计算机可读存储介质 |
CN107886975A (zh) * | 2017-11-07 | 2018-04-06 | 广东欧珀移动通信有限公司 | 音频的处理方法、装置、存储介质及电子设备 |
CN108712319A (zh) * | 2018-04-20 | 2018-10-26 | 广州沐思信息科技有限公司 | 一种基于即时通讯的语音发送方法、装置及终端 |
CN110300048A (zh) * | 2018-03-23 | 2019-10-01 | 阿里巴巴集团控股有限公司 | 一种基于即时通讯的音频消息发送方法、设备以及系统 |
CN110493123A (zh) * | 2019-09-16 | 2019-11-22 | 腾讯科技(深圳)有限公司 | 即时通讯方法、装置、设备及存储介质 |
CN110943908A (zh) * | 2019-11-05 | 2020-03-31 | 上海盛付通电子支付服务有限公司 | 语音消息发送方法、电子设备及介质 |
US20200219502A1 (en) * | 2019-01-08 | 2020-07-09 | Realtek Semiconductor Corporation | Voice wake-up apparatus and method thereof |
-
2020
- 2020-09-15 CN CN202010964983.6A patent/CN112151032A/zh active Pending
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103559907A (zh) * | 2013-10-25 | 2014-02-05 | 广州华多网络科技有限公司 | 录音方法、装置和终端 |
CN104732975A (zh) * | 2013-12-20 | 2015-06-24 | 华为技术有限公司 | 一种语音即时通讯方法及装置 |
WO2016095380A1 (zh) * | 2014-12-18 | 2016-06-23 | 中兴通讯股份有限公司 | 一种即时通讯方法及装置 |
CN107391702A (zh) * | 2017-07-28 | 2017-11-24 | 广东欧珀移动通信有限公司 | 语音消息转存方法、移动终端及计算机可读存储介质 |
CN107592415A (zh) * | 2017-08-31 | 2018-01-16 | 努比亚技术有限公司 | 语音发送方法、终端和计算机可读存储介质 |
CN107886975A (zh) * | 2017-11-07 | 2018-04-06 | 广东欧珀移动通信有限公司 | 音频的处理方法、装置、存储介质及电子设备 |
CN110300048A (zh) * | 2018-03-23 | 2019-10-01 | 阿里巴巴集团控股有限公司 | 一种基于即时通讯的音频消息发送方法、设备以及系统 |
CN108712319A (zh) * | 2018-04-20 | 2018-10-26 | 广州沐思信息科技有限公司 | 一种基于即时通讯的语音发送方法、装置及终端 |
US20200219502A1 (en) * | 2019-01-08 | 2020-07-09 | Realtek Semiconductor Corporation | Voice wake-up apparatus and method thereof |
CN110493123A (zh) * | 2019-09-16 | 2019-11-22 | 腾讯科技(深圳)有限公司 | 即时通讯方法、装置、设备及存储介质 |
CN110943908A (zh) * | 2019-11-05 | 2020-03-31 | 上海盛付通电子支付服务有限公司 | 语音消息发送方法、电子设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6811758B2 (ja) | 音声対話方法、装置、デバイス及び記憶媒体 | |
CN106463112B (zh) | 语音识别方法、语音唤醒装置、语音识别装置及终端 | |
CN109410952B (zh) | 一种语音唤醒方法、装置及系统 | |
WO2019007245A1 (zh) | 一种处理方法、控制方法、识别方法及其装置和电子设备 | |
JP7166294B2 (ja) | オーディオ処理方法、装置及び記憶媒体 | |
US8374316B2 (en) | System for recording spoken phone numbers during a voice call | |
CN105335062B (zh) | 信息编辑操作处理方法及装置 | |
CN108696641B (zh) | 通话提示方法、装置、存储介质及移动终端 | |
CN105869639A (zh) | 一种语音识别的方法及系统 | |
EP0847003A2 (en) | An audio memo system and method of operation thereof | |
CN106790955A (zh) | 终端控制方法及装置 | |
CN104216717A (zh) | 智能终端的控制方法和装置 | |
CN108806714A (zh) | 调节音量的方法和装置 | |
CN111583923A (zh) | 信息控制方法及装置、存储介质 | |
CN109639908A (zh) | 一种蓝牙耳机、防窃听方法、装置、设备及介质 | |
JP6817386B2 (ja) | 音声認識方法、音声ウェイクアップ装置、音声認識装置、および端末 | |
CN111580773A (zh) | 信息处理方法、装置及存储介质 | |
CN108510981B (zh) | 语音数据的获取方法和系统 | |
CN107680592A (zh) | 一种移动终端语音识别方法、及移动终端及存储介质 | |
CN109510891B (zh) | 语音控制录音装置及方法 | |
CN112151032A (zh) | 一种语音消息的智能处理方法 | |
CN103516889A (zh) | 移动终端静音的方法和装置 | |
KR20000069163A (ko) | 대화형 장치 | |
KR20060104096A (ko) | 이동형 모닝콜 서비스 시스템 및 그 방법 | |
CN111580775B (zh) | 信息控制方法及装置、存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20201229 |
|
RJ01 | Rejection of invention patent application after publication |