CN107368577A - 一种音频处理方法及移动终端 - Google Patents
一种音频处理方法及移动终端 Download PDFInfo
- Publication number
- CN107368577A CN107368577A CN201710590053.7A CN201710590053A CN107368577A CN 107368577 A CN107368577 A CN 107368577A CN 201710590053 A CN201710590053 A CN 201710590053A CN 107368577 A CN107368577 A CN 107368577A
- Authority
- CN
- China
- Prior art keywords
- voiceprint
- information
- target
- identity information
- default
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 19
- 230000001755 vocal effect Effects 0.000 claims abstract description 49
- 238000000034 method Methods 0.000 claims abstract description 29
- 238000004590 computer program Methods 0.000 claims description 22
- 238000001514 detection method Methods 0.000 claims description 8
- 230000006870 function Effects 0.000 description 13
- 238000012545 processing Methods 0.000 description 10
- 238000003860 storage Methods 0.000 description 10
- 230000008569 process Effects 0.000 description 8
- 238000004891 communication Methods 0.000 description 5
- 230000001360 synchronised effect Effects 0.000 description 4
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000005611 electricity Effects 0.000 description 3
- 230000008878 coupling Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 210000004209 hair Anatomy 0.000 description 2
- 238000004549 pulsed laser deposition Methods 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- KLDZYURQCUYZBL-UHFFFAOYSA-N 2-[3-[(2-hydroxyphenyl)methylideneamino]propyliminomethyl]phenol Chemical compound OC1=CC=CC=C1C=NCCCN=CC1=CC=CC=C1O KLDZYURQCUYZBL-UHFFFAOYSA-N 0.000 description 1
- 241000219000 Populus Species 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 201000001098 delayed sleep phase syndrome Diseases 0.000 description 1
- 208000033921 delayed sleep phase type circadian rhythm sleep disease Diseases 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000003825 pressing Methods 0.000 description 1
- 238000010897 surface acoustic wave method Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
- G06F16/68—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/683—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Library & Information Science (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Telephone Function (AREA)
Abstract
本发明提供一种音频处理方法及移动终端,该方法包括:播放目标音频时,检测所述目标音频的声纹信息;在预设声纹库中,查找是否存在与所述目标音频的声纹信息匹配的目标声纹信息;若存在所述目标声纹信息,获取对所述目标声纹信息预设的身份信息;将所述目标音频转换为文字信息;显示所述文字信息及所述身份信息。本发明实施例可以提高移动终端的智能化程度。
Description
技术领域
本发明涉及通信技术领域,尤其涉及一种音频处理方法及移动终端。
背景技术
随着移动终端的迅速发展,移动终端已经成为人们生活中必不可少的一种工具,并且为用户生活的各个方面带来了极大的便捷。现有的移动终端基本上都有录音的功能,且可以将录制的音频转换成文字,方便用户查阅一些内容。例如:进行一些会议或者一些公开课时,可以使用移动终端进行录音。并且在后续的时间可以将录制的音频转换成文字,方便用户再次观看或者再次学习。
但是,现有的移动终端只能将音频转换成文字,需要后期查找才能知道该文字对应身份信息,这样导致移动终端的智能程度比较低。
发明内容
本发明实施例提供一种音频处理方法及移动终端,以解决移动终端的音频内容难以快速查找、定位的问题。
第一方面,本发明实施例提供了一种音频处理方法,包括:
播放目标音频时,检测所述目标音频的声纹信息;
在预设声纹库中,查找是否存在与所述目标音频的声纹信息匹配的目标声纹信息;
若存在所述目标声纹信息,获取对所述目标声纹信息预设的身份信息;
将所述目标音频转换为文字信息;
显示所述文字信息及所述身份信息。
第二方面,本发明实施例还提供一种移动终端,包括:
检测模块,用于播放目标音频时,检测所述目标音频的声纹信息;
查找模块,用于在预设声纹库中,查找是否存在与所述目标音频的声纹信息匹配的目标声纹信息;
获取模块,用于若所述查找模块查找存在所述目标声纹信息,获取对所述目标声纹信息预设的身份信息;
转换模块,用于将所述目标音频转换为文字信息;
第一显示模块,用于显示所述文字信息及所述身份信息。
第三方面,本发明实施例还提供一种移动终端,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述音频处理方法中的步骤。
第四方面,本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述音频处理方法中的步骤。
这样,本发明实施例中,播放目标音频时,检测所述目标音频的声纹信息;在预设声纹库中,查找是否存在与所述目标音频的声纹信息匹配的目标声纹信息;若存在所述目标声纹信息,获取对所述目标声纹信息预设的身份信息;将所述目标音频转换为文字信息;显示所述文字信息及所述身份信息。这样,在显示文字信息时还可以显示身份信息,用户就可以快速的查找、定位移动终端的音频内容,提高移动终端的智能化程度。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例提供的音频处理方法的流程图;
图2是本发明又一实施例提供的音频处理方法的流程图;
图3是本发明一实施例提供的移动终端的结构图之一;
图4是本发明一实施例提供的移动终端的结构图之二;
图5是本发明一实施例提供的移动终端的结构图之三;
图6是本发明又一实施例提供的移动终端的结构图;
图7是本发明又一实施例提供的移动终端的结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参见图1,图1是本发明实施例提供的音频处理方法的流程图,如图1所示,包括以下步骤:
步骤101、播放目标音频时,检测所述目标音频的声纹信息。
本发明实施例中,上述目标音频,可以是预先录制的音频,或者也可以是正在播放的音频。该目标音频可以是某个会议上的音频,或者也可以是某次公开课上的音频等等。且目标音频中,可以只有一个用户在讲话,也可以有多个用户在讲话等等。上述声纹信息,是用电声学仪器显示的携带言语信息的声波频谱。声纹信息不仅具有特定性,而且有相对稳定性的特点,所以通过声纹信息很容易辨认出用户信息。
步骤102、在预设声纹库中,查找是否存在与所述目标音频的声纹信息匹配的目标声纹信息。
本发明实施例中,上述预设声纹库中可以存有多个声纹信息。
步骤103、若存在所述目标声纹信息,获取对所述目标声纹信息预设的身份信息。
本发明实施例中,上述身份信息可以是姓名信息,例如:张三、李四或者王五等等。除了姓名信息还可以是一些其他用于表示身份的称谓,例如:李老师、张老师、刘处长或者杨局长等等。当然,除了上述表述方式以外,还可以有更多的方式来表示身份信息,对此本发明实施例不作限定。需要说明的是,若不存在上述目标声纹信息,可以继续查找,也可以结束流程,本发明实施例中的图1以结束流程进行举例说明。
步骤104、将所述目标音频转换为文字信息。
本发明实施例中,将目标音频转换为文字信息,可以是逐字进行转换,或者也可以逐句进行转换等等。这里需要说明的是,步骤104可以在步骤101之后的任何时间执行,且步骤104与步骤102及步骤103之间没有时间先后的执行顺序。只要在步骤101播放目标音频之后,就可以将目标音频转换为文字信息。
步骤105、显示所述文字信息及所述身份信息。
本发明实施例中,上述显示文字信息及身份信息可以这样理解。显示的方式可以例如:“张三:今天的开会内容如下”,或者也可以是“今天的开会内容如下(张三)”等等。当然,除了这种显示方式还可以其他多种显示方式,对此本发明实施例不作限定。
本发明实施例中,上述移动终端可以是手机、平板电脑(Tablet PersonalComputer)、膝上型电脑(Laptop Computer)、个人数字助理(personal digitalassistant,简称PDA)、移动上网装置(Mobile Internet Device,MID)或可穿戴式设备(Wearable Device)等等。
本发明实施例的一种音频处理方法,播放目标音频时,检测所述目标音频的声纹信息;在预设声纹库中,查找是否存在与所述目标音频的声纹信息匹配的目标声纹信息;若存在所述目标声纹信息,获取对所述目标声纹信息预设的身份信息;将所述目标音频转换为文字信息;显示所述文字信息及所述身份信息。这样,在显示文字信息时还可以显示身份信息,用户可以直接获得身份信息,就不需要用户后期去查找才能知道该文字对应身份信息,可以快速的查找、定位移动终端的音频内容,使移动终端的智能程度得以提高。
参见图2,图2是本发明实施例提供的音频处理方法的流程图。本实施例与上个实施例的主要区别在于本方法中若不存在目标声纹信息,将目标音频的声纹信息添加到所述预设声纹库中。如图2所示,包括以下步骤:
步骤201、播放目标音频时,检测所述目标音频的声纹信息。
本发明实施例中,上述目标音频,可以是预先录制的音频,或者也可以是正在播放的音频。该目标音频可以是某个会议上的音频,或者也可以是某次公开课上的音频等等。且目标音频中,可以只有一个用户在讲话,也可以有多个用户在讲话等等。上述声纹信息,是用电声学仪器显示的携带言语信息的声波频谱。声纹信息不仅具有特定性,而且有相对稳定性的特点,所以通过声纹信息很容易辨认出用户信息。
步骤202、在预设声纹库中,查找是否存在与所述目标音频的声纹信息匹配的目标声纹信息。
本发明实施例中,上述预设声纹库中可以存有多个声纹信息。
步骤203、若存在所述目标声纹信息,获取对所述目标声纹信息预设的身份信息。
本发明实施例中,上述身份信息可以是姓名信息,例如:张三、李四或者王五等等。除了姓名信息还可以是一些其他用于表示身份的称谓,例如:李老师、张老师、刘处长或者杨局长等等。当然,除了上述表述方式以外,还可以有更多的方式来表示身份信息,对此本发明实施例不作限定。
步骤204、将所述目标音频转换为文字信息。
本发明实施例中,将目标音频转换为文字信息,可以是逐字进行转换,或者也可以逐句进行转换等等。这里需要说明的是,步骤204可以在步骤201之后的任何时间执行,且步骤204与步骤202及步骤203之间没有时间先后的执行顺序。只要在步骤201播放目标音频之后,就可以将目标音频转换为文字信息。
步骤205、显示所述文字信息及所述身份信息。
本发明实施例中,上述显示文字信息及身份信息可以这样理解。显示的方式可以例如:“张三:今天的开会内容如下”,或者也可以是“今天的开会内容如下(张三)”等等。当然,除了这种显示方式还可以其他多种显示方式,对此本发明实施例不作限定。
步骤206、若不存在所述目标声纹信息,将所述目标音频的声纹信息添加到所述预设声纹库中。
本发明实施例中,当不存在目标声纹信息时,将目标音频的声纹信息添加到预设声纹库中,可以使预设声纹库中的声纹信息更加丰富。在对该声纹信息做备注信息之后,若在下次检测到该目标音频的声纹信息时,就可以知道该声纹信息的备注信息。
步骤207、对所述预设声纹库中的所述目标音频的声纹信息添加预设标识。
本发明实施例中,上述预设标识,可以是数字、字母、或者一些文字等等。例如可以是1、2、A、B或者“新讲话人”等等标识。
步骤208、接收对所述预设标识添加备注信息的操作指令,对所述预设标识添加备注信息。
本发明实施例中,上述对预设标识添加备注信息的操作指令,可以是对显示屏上的某个位置的一次点击、一次双击或者一次长按产生的指令,或者也可以是对移动终端实体按键的一次按压产生的指令等等。上述备注信息可以是张三、李四、张老师或者杨局长等等备注信息,或者也可以是时间或者地点等等备注信息。这些备注信息可以是用户后期手动输入的信息。
步骤209、使用所述备注信息对所述目标音频的声纹信息进行备注。
本发明实施例中,使用上述备注信息对所述目标音频的声纹信息进行备注之后,在后续的时间再次检测到该声纹信息时,就可以知道该声纹信息对应的一些备注信息,使用户可以详细了解该声纹信息,使移动终端更加智能。
可选的,所述目标声纹信息中包括不同用户的至少两个声纹信息,所述获取对所述目标声纹信息预设的身份信息的步骤,包括:
分别获取对至少两个声纹信息中每个声纹信息预设的身份信息;
所述将所述目标音频转换为文字信息,包括:
根据至少两个声纹信息,将所述目标音频转换为至少两组文字信息;
所述显示所述文字信息及所述身份信息的步骤,包括:
显示所述至少两组文字信息,以及每组文字信息的身份信息。
本实施方式中,上述目标声纹信息中包括不同用户的至少两个声纹信息,例如目标声纹信息中可以包括张三的声纹信息和李四的声纹信息。上述分别获取对至少两个声纹信息中每个声纹信息预设的身份信息,可以得到“张三”和“李四”这两个身份信息。上述根据至少两个声纹信息,将所述目标音频转换为至少两组文字信息,例如,将张三的声纹信息转换成的文字信息可以是“下面为我们公司的获奖员工进行颁奖典礼”,将李四的声纹信息转换成的文字信息可以是“请大家热烈欢迎”。上述显示所述至少两组文字信息,以及每组文字信息的身份信息,例如:可以是“张三:下面为我们公司的获奖员工进行颁奖典礼”及“李四:请大家热烈欢迎”这种显示方式,或者也可以是“下面为我们公司的获奖员工进行颁奖典礼——张三”或者“请大家热烈欢迎——李四”这种显示方式。当然,除了这些显示方式还可以有其他的显示方式,对此本实施方式不作限定。这样,可以显示多个组文字信息,以及每组文字信息的身份信息,这样使用户可以对这些文字信息一目了然,移动终端更加智能。
可选的,所述显示所述文字信息及所述身份信息的步骤,包括:
显示所述文字信息及所述身份信息,并使用所述身份信息对所述文字信息进行标记;
在所述显示所述文字信息及所述身份信息,并使用所述身份信息对所述文字信息进行标记的步骤之后,所述方法还包括:
若接收到对所述身份信息的选择操作,则显示所述身份信息所标记的所有文字信息。
本实施方式中,上述接收到对身份信息的选择操作,可以是显示有上述身份信息,然后用户在显示屏上点击一下该身份信息,或者也可以是使用移动终端上的按键对身份信息的选择,或者也可以是使用声音控制进行的选择等等。上述显示所述身份信息所标记的所有文字信息可以这样理解。例如:身份信息为“张三”标记了很多文字信息,那么在选择“张三”时,就可以将张三所标记的所有文字信息进行显示。显示方式可以如下,“张三:下面我们来开会,张三:有请张处长做一下简单的介绍,张三:然后我们再对张处长所展开的问题进行讨论”或者,也可以是“张三:下面我们来开会,有请张处长做一下简单的介绍,然后我们再对张处长所展开的问题进行讨论”这种显示方式。当然,除此之外还可以有更多的显示方式,对此本实施方式不作限定。这样,在选择某个身份信息之后,可以将该身份信息所标记的所有文字信息进行显示,使用户可以方便的查看某个身份信息所标记的文字信息,使用户有更好的体验,同时提高了移动终端的智能程度。
可选的,所述显示所述文字信息及所述身份信息的步骤,包括:
高亮显示所述文字信息和/或所述身份信息。
本实施方式中,上述高亮显示可以理解为以最大的亮度进行显示。当然,在高亮显示的同时,还可以将身份信息进行标黄、标红、或者字体加粗等等操作,这样可以使身份信息在显示的过程中更加明显,用户查阅的过程可以更加便捷,移动终端更加智能。
本发明实施例的一种音频处理方法,播放目标音频时,检测所述目标音频的声纹信息;在预设声纹库中,查找是否存在与所述目标音频的声纹信息匹配的目标声纹信息;若存在所述目标声纹信息,获取对所述目标声纹信息预设的身份信息;将所述目标音频转换为文字信息;显示所述文字信息及所述身份信息;若不存在所述目标声纹信息,将所述目标音频的声纹信息添加到所述预设声纹库中;对所述预设声纹库中的所述目标音频的声纹信息添加预设标识;接收对所述预设标识的备注信息;使用所述备注信息对所述目标音频的声纹信息进行备注。这样,在显示文字信息时还可以显示身份信息,用户可以直接获得身份信息,就不需要用户后期去查找才能知道该文字对应身份信息,可以快速的查找、定位移动终端的音频内容,使移动终端的智能程度得以提高。且可以向预设声纹库中添加的新的声纹信息,使移动终端可以检测更多的声纹信息,更加智能。
参见图3,图3是本发明实施例提供的移动终端的结构图,能实现上述实施例中音频处理方法的细节,并达到相同的效果。如图3所示,移动终端300包括检测模块301、查找模块302、获取模块303、转换模块304和第一显示模块305,检测模块301和查找模块302连接,检测模块301和转换模块304连接,查找模块302和获取模块303连接,获取模块303和第一显示模块305连接,转换模块304和第一显示模块305连接,其中:
检测模块301,用于播放目标音频时,检测所述目标音频的声纹信息;
查找模块302,用于在预设声纹库中,查找是否存在与所述目标音频的声纹信息匹配的目标声纹信息;
获取模块303,用于若所述查找模块302查找存在所述目标声纹信息,获取对所述目标声纹信息预设的身份信息;
转换模块304,用于将所述目标音频转换为文字信息;
第一显示模块305,用于显示所述文字信息及所述身份信息。
可选的,如图4所示,所述移动终端300还包括:
第一添加模块306,用于若所述查找模块302查找不存在所述目标声纹信息,将所述目标音频的声纹信息添加到所述预设声纹库中;
第二添加模块307,用于对所述预设声纹库中的所述目标音频的声纹信息添加预设标识;
接收模块308,用于接收对所述预设标识添加备注信息的操作指令,对所述预设标识添加备注信息;
备注模块309,用于使用所述备注信息对所述目标音频的声纹信息进行备注。
可选的,所述目标声纹信息中包括不同用户的至少两个声纹信息,所述获取模块303,用于分别获取对至少两个声纹信息中每个声纹信息预设的身份信息;
所述转换模块304,用于根据至少两个声纹信息,将所述目标音频转换为至少两组文字信息;
所述第一显示模块305,用于显示所述至少两组文字信息,以及每组文字信息的身份信息。
可选的,所述第一显示模块305,用于显示所述文字信息及所述身份信息,并使用所述身份信息对所述文字信息进行标记;
如图5所示,所述移动终端300还包括:
第二显示模块310,用于若接收到对所述身份信息的选择操作,则显示所述身份信息所标记的所有文字信息。
可选的,所述第一显示模块305,用于高亮显示所述文字信息和/或所述身份信息。
移动终端300能实现图1至图2的方法实施例中移动终端实现的各个过程,为避免重复,这里不再赘述。
本发明实施例的移动终端300,播放目标音频时,检测所述目标音频的声纹信息;在预设声纹库中,查找是否存在与所述目标音频的声纹信息匹配的目标声纹信息;若存在所述目标声纹信息,获取对所述目标声纹信息预设的身份信息;将所述目标音频转换为文字信息;显示所述文字信息及所述身份信息。这样,在显示文字信息时还可以显示身份信息,用户就可以快速的查找、定位移动终端的音频内容,提高移动终端的智能化程度。
参见图6,图6是本发明实施例提供的移动终端的结构图,能实现上述实施例中音频处理方法的细节,并达到相同的效果。如图6所示,移动终端600包括:至少一个处理器601、存储器602、至少一个网络接口604和用户接口603。移动终端600中的各个组件通过总线系统605耦合在一起。可理解,总线系统605用于实现这些组件之间的连接通信。总线系统605除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图6中将各种总线都标为总线系统605。
其中,用户接口603可以包括显示器、键盘或者点击设备(例如,鼠标,轨迹球(track ball)、触感板或者触摸屏等。
可以理解,本发明实施例中的存储器602可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(Read-Only Memory,ROM)、可编程只读存储器(Programmable ROM,PROM)、可擦除可编程只读存储器(Erasable P ROM,EPROM)、电可擦除可编程只读存储器(Electrically EP ROM,EEPROM)或闪存。易失性存储器可以是随机存取存储器(Random Access Memory,RAM),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(Static RAM,SRAM)、动态随机存取存储器(Dynamic RAM,DRAM)、同步动态随机存取存储器(Synchronous D RAM,SDRAM)、双倍数据速率同步动态随机存取存储器(Double Data RateSD RAM,DDRSDRAM)、增强型同步动态随机存取存储器(Enhanced SD RAM,ESDRAM)、同步连接动态随机存取存储器(Synch link D RAM,SLDRAM)和直接内存总线随机存取存储器(Direct Rambus RAM,DRRAM)。本文描述的系统和方法的存储器602旨在包括但不限于这些和任意其它适合类型的存储器。
在一些实施方式中,存储器602存储了如下的元素,可执行模块或者数据结构,或者他们的子集,或者他们的扩展集:操作系统6021和应用程序6022。
其中,操作系统6021,包含各种系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务。应用程序6022,包含各种应用程序,例如媒体播放器(Media Player)、浏览器(Browser)等,用于实现各种应用业务。实现本发明实施例方法的程序可以包含在应用程序6022中。
在本发明实施例中,通过调用存储器602存储的程序或指令,具体的,可以是应用程序6022中存储的程序或指令,计算机程序被处理器601执行时可实现如下步骤:播放目标音频时,检测所述目标音频的声纹信息;在预设声纹库中,查找是否存在与所述目标音频的声纹信息匹配的目标声纹信息;若存在所述目标声纹信息,获取对所述目标声纹信息预设的身份信息;将所述目标音频转换为文字信息;显示所述文字信息及所述身份信息。
上述本发明实施例揭示的方法可以应用于处理器601中,或者由处理器601实现。处理器601可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器601中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器601可以是通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(FieldProgrammable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器602,处理器601读取存储器602中的信息,结合其硬件完成上述方法的步骤。
可以理解的是,本文描述的这些实施例可以用硬件、软件、固件、中间件、微码或其组合来实现。对于硬件实现,处理单元可以实现在一个或多个专用集成电路(ApplicationSpecific Integrated Circuits,ASIC)、数字信号处理器(Digital Signal Processing,DSP)、数字信号处理设备(DSP Device,DSPD)、可编程逻辑设备(Programmable LogicDevice,PLD)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、通用处理器、控制器、微控制器、微处理器、用于执行本申请所述功能的其它电子单元或其组合中。
对于软件实现,可通过执行本文所述功能的模块(例如过程、函数等)来实现本文所述的技术。软件代码可存储在存储器中并通过处理器执行。存储器可以在处理器中或在处理器外部实现。
可选的,计算机程序被处理器601执行时还可实现如下步骤:若不存在所述目标声纹信息,将所述目标音频的声纹信息添加到所述预设声纹库中;对所述预设声纹库中的所述目标音频的声纹信息添加预设标识;接收对所述预设标识添加备注信息的操作指令,对所述预设标识添加备注信息;使用所述备注信息对所述目标音频的声纹信息进行备注。
可选的,计算机程序被处理器601执行时还可实现如下步骤:分别获取对至少两个声纹信息中每个声纹信息预设的身份信息;根据至少两个声纹信息,将所述目标音频转换为至少两组文字信息;显示所述至少两组文字信息,以及每组文字信息的身份信息。
可选的,计算机程序被处理器601执行时还可实现如下步骤:显示所述文字信息及所述身份信息,并使用所述身份信息对所述文字信息进行标记;若接收到对所述身份信息的选择操作,则显示所述身份信息所标记的所有文字信息。
可选的,计算机程序被处理器601执行时还可实现如下步骤:高亮显示所述文字信息和/或所述身份信息。
移动终端600能够实现前述实施例中移动终端实现的各个过程,为避免重复,这里不再赘述。
本发明实施例的移动终端600,播放目标音频时,检测所述目标音频的声纹信息;在预设声纹库中,查找是否存在与所述目标音频的声纹信息匹配的目标声纹信息;若存在所述目标声纹信息,获取对所述目标声纹信息预设的身份信息;将所述目标音频转换为文字信息;显示所述文字信息及所述身份信息。这样,在显示文字信息时还可以显示身份信息,用户就可以快速的查找、定位移动终端的音频内容,提高移动终端的智能化程度。
参见图7,图7是本发明实施提供的移动终端的结构图,该移动终端能够实现上述音频处理方法的细节,并达到相同的效果。如图7所示,移动终端700包括射频(RadioFrequency,RF)电路710、存储器720、输入单元730、显示单元740、处理器750、音频电路760、通信模块770、和电源780。
其中,输入单元730可用于接收用户输入的数字或字符信息,以及产生与移动终端700的用户设置以及功能控制有关的信号输入。具体地,本发明实施例中,该输入单元730可以包括触控面板731。触控面板731,也称为触摸屏,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板731上的操作),并根据预先设定的程式驱动相应的连接装置。可选的,触控面板731可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给该处理器750,并能接收处理器750发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板731。除了触控面板731,输入单元730还可以包括其他输入设备732,其他输入设备732可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。
其中,显示单元740可用于显示由用户输入的信息或提供给用户的信息以及移动终端700的各种菜单界面。显示单元740可包括显示面板741,可选的,可以采用LCD或有机发光二极管(Organic Light-Emitting Diode,OLED)等形式来配置显示面板741。
应注意,触控面板731可以覆盖显示面板741,形成触摸显示屏,当该触摸显示屏检测到在其上或附近的触摸操作后,传送给处理器750以确定触摸事件的类型,随后处理器750根据触摸事件的类型在触摸显示屏上提供相应的视觉输出。
触摸显示屏包括应用程序界面显示区及常用控件显示区。该应用程序界面显示区及该常用控件显示区的排列方式并不限定,可以为上下排列、左右排列等可以区分两个显示区的排列方式。该应用程序界面显示区可以用于显示应用程序的界面。每一个界面可以包含至少一个应用程序的图标和/或widget桌面控件等界面元素。该应用程序界面显示区也可以为不包含任何内容的空界面。该常用控件显示区用于显示使用率较高的控件,例如,设置按钮、界面编号、滚动条、电话本图标等应用程序图标等。
其中处理器750是移动终端700的控制中心,利用各种接口和线路连接整个手机的各个部分,通过运行或执行存储在第一存储器721内的软件程序和/或模块,以及调用存储在第二存储器722内的数据,执行移动终端700的各种功能和处理数据,从而对移动终端700进行整体监控。可选的,处理器750可包括一个或多个处理单元。
在本发明实施例中,通过调用存储该第一存储器721内的软件程序和/或模块和/或该第二存储器722内的数据,计算机程序被处理器750执行时可实现如下步骤:播放目标音频时,检测所述目标音频的声纹信息;在预设声纹库中,查找是否存在与所述目标音频的声纹信息匹配的目标声纹信息;若存在所述目标声纹信息,获取对所述目标声纹信息预设的身份信息;将所述目标音频转换为文字信息;显示所述文字信息及所述身份信息。
可选的,计算机程序被处理器750执行时还可实现如下步骤:若不存在所述目标声纹信息,将所述目标音频的声纹信息添加到所述预设声纹库中;对所述预设声纹库中的所述目标音频的声纹信息添加预设标识;接收对所述预设标识添加备注信息的操作指令,对所述预设标识添加备注信息;使用所述备注信息对所述目标音频的声纹信息进行备注。
可选的,计算机程序被处理器750执行时还可实现如下步骤:分别获取对至少两个声纹信息中每个声纹信息预设的身份信息;根据至少两个声纹信息,将所述目标音频转换为至少两组文字信息;显示所述至少两组文字信息,以及每组文字信息的身份信息。
可选的,计算机程序被处理器750执行时还可实现如下步骤:显示所述文字信息及所述身份信息,并使用所述身份信息对所述文字信息进行标记;若接收到对所述身份信息的选择操作,则显示所述身份信息所标记的所有文字信息。
可选的,计算机程序被处理器750执行时还可实现如下步骤:高亮显示所述文字信息和/或所述身份信息。
移动终端700能够实现前述实施例中移动终端实现的各个过程,为避免重复,这里不再赘述。
本发明实施例的移动终端700,播放目标音频时,检测所述目标音频的声纹信息;在预设声纹库中,查找是否存在与所述目标音频的声纹信息匹配的目标声纹信息;若存在所述目标声纹信息,获取对所述目标声纹信息预设的身份信息;将所述目标音频转换为文字信息;显示所述文字信息及所述身份信息。这样,在显示文字信息时还可以显示身份信息,用户就可以快速的查找、定位移动终端的音频内容,提高移动终端的智能化程度。
本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如下步骤:播放目标音频时,检测所述目标音频的声纹信息;在预设声纹库中,查找是否存在与所述目标音频的声纹信息匹配的目标声纹信息;若存在所述目标声纹信息,获取对所述目标声纹信息预设的身份信息;将所述目标音频转换为文字信息;显示所述文字信息及所述身份信息。
可选的,计算机程序被执行时还可实现如下步骤:若不存在所述目标声纹信息,将所述目标音频的声纹信息添加到所述预设声纹库中;对所述预设声纹库中的所述目标音频的声纹信息添加预设标识;接收对所述预设标识添加备注信息的操作指令,对所述预设标识添加备注信息;使用所述备注信息对所述目标音频的声纹信息进行备注。
可选的,计算机程序被执行时还可实现如下步骤:分别获取对至少两个声纹信息中每个声纹信息预设的身份信息;根据至少两个声纹信息,将所述目标音频转换为至少两组文字信息;显示所述至少两组文字信息,以及每组文字信息的身份信息。
可选的,计算机程序被执行时还可实现如下步骤:显示所述文字信息及所述身份信息,并使用所述身份信息对所述文字信息进行标记;若接收到对所述身份信息的选择操作,则显示所述身份信息所标记的所有文字信息。
可选的,计算机程序被执行时还可实现如下步骤:高亮显示所述文字信息和/或所述身份信息。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
Claims (11)
1.一种音频处理方法,其特征在于,包括:
播放目标音频时,检测所述目标音频的声纹信息;
在预设声纹库中,查找是否存在与所述目标音频的声纹信息匹配的目标声纹信息;
若存在所述目标声纹信息,获取对所述目标声纹信息预设的身份信息;
将所述目标音频转换为文字信息;
显示所述文字信息及所述身份信息。
2.根据权利要求1所述的方法,其特征在于,在预设声纹库中,查找是否存在与所述目标音频的声纹信息匹配的目标声纹信息的步骤之后,所述方法还包括:
若不存在所述目标声纹信息,将所述目标音频的声纹信息添加到所述预设声纹库中;
对所述预设声纹库中的所述目标音频的声纹信息添加预设标识;
接收对所述预设标识添加备注信息的操作指令,对所述预设标识添加备注信息;
使用所述备注信息对所述目标音频的声纹信息进行备注。
3.根据权利要求1或2所述的方法,其特征在于,所述目标声纹信息中包括不同用户的至少两个声纹信息,所述获取对所述目标声纹信息预设的身份信息的步骤,包括:
分别获取对至少两个声纹信息中每个声纹信息预设的身份信息;
所述将所述目标音频转换为文字信息,包括:
根据至少两个声纹信息,将所述目标音频转换为至少两组文字信息;
所述显示所述文字信息及所述身份信息的步骤,包括:
显示所述至少两组文字信息,以及每组文字信息的身份信息。
4.根据权利要求1或2所述的方法,其特征在于,所述显示所述文字信息及所述身份信息的步骤,包括:
显示所述文字信息及所述身份信息,并使用所述身份信息对所述文字信息进行标记;
在所述显示所述文字信息及所述身份信息,并使用所述身份信息对所述文字信息进行标记的步骤之后,所述方法还包括:
若接收到对所述身份信息的选择操作,则显示所述身份信息所标记的所有文字信息。
5.根据权利要求1或2所述的方法,其特征在于,所述显示所述文字信息及所述身份信息的步骤,包括:
高亮显示所述文字信息和/或所述身份信息。
6.一种移动终端,其特征在于,包括:
检测模块,用于播放目标音频时,检测所述目标音频的声纹信息;
查找模块,用于在预设声纹库中,查找是否存在与所述目标音频的声纹信息匹配的目标声纹信息;
获取模块,用于若所述查找模块查找存在所述目标声纹信息,获取对所述目标声纹信息预设的身份信息;
转换模块,用于将所述目标音频转换为文字信息;
第一显示模块,用于显示所述文字信息及所述身份信息。
7.根据权利要求6所述的移动终端,其特征在于,所述移动终端还包括:
第一添加模块,用于若所述查找模块查找不存在所述目标声纹信息,将所述目标音频的声纹信息添加到所述预设声纹库中;
第二添加模块,用于对所述预设声纹库中的所述目标音频的声纹信息添加预设标识;
接收模块,用于接收对所述预设标识添加备注信息的操作指令,对所述预设标识添加备注信息;
备注模块,用于使用所述备注信息对所述目标音频的声纹信息进行备注。
8.根据权利要求6或7所述的移动终端,其特征在于,所述目标声纹信息中包括不同用户的至少两个声纹信息,所述获取模块,用于分别获取对至少两个声纹信息中每个声纹信息预设的身份信息;
所述转换模块,用于根据至少两个声纹信息,将所述目标音频转换为至少两组文字信息;
所述第一显示模块,用于显示所述至少两组文字信息,以及每组文字信息的身份信息。
9.根据权利要求6或7所述的移动终端,其特征在于,所述第一显示模块,用于显示所述文字信息及所述身份信息,并使用所述身份信息对所述文字信息进行标记;
所述移动终端还包括:
第二显示模块,用于若接收到对所述身份信息的选择操作,则显示所述身份信息所标记的所有文字信息。
10.根据权利要求6或7所述的移动终端,其特征在于,所述第一显示模块,用于高亮显示所述文字信息和/或所述身份信息。
11.一种移动终端,其特征在于,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至5中任一项所述的音频处理方法中的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710590053.7A CN107368577A (zh) | 2017-07-19 | 2017-07-19 | 一种音频处理方法及移动终端 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710590053.7A CN107368577A (zh) | 2017-07-19 | 2017-07-19 | 一种音频处理方法及移动终端 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107368577A true CN107368577A (zh) | 2017-11-21 |
Family
ID=60306831
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710590053.7A Pending CN107368577A (zh) | 2017-07-19 | 2017-07-19 | 一种音频处理方法及移动终端 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107368577A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108984788A (zh) * | 2018-07-30 | 2018-12-11 | 珠海格力电器股份有限公司 | 一种录音文件整理、归类系统及其控制方法与录音设备 |
CN110188364A (zh) * | 2019-05-24 | 2019-08-30 | 宜视智能科技(苏州)有限公司 | 基于智能眼镜的翻译方法、设备及计算机可读存储介质 |
CN112837690A (zh) * | 2020-12-30 | 2021-05-25 | 科大讯飞股份有限公司 | 一种音频数据生成方法、音频数据转写方法及其装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104834847A (zh) * | 2014-02-11 | 2015-08-12 | 腾讯科技(深圳)有限公司 | 身份验证方法及装置 |
CN105975569A (zh) * | 2016-05-03 | 2016-09-28 | 深圳市金立通信设备有限公司 | 一种语音处理的方法及终端 |
CN106686226A (zh) * | 2016-12-21 | 2017-05-17 | 惠州Tcl移动通信有限公司 | 一种终端音频播放方法及系统 |
CN106961418A (zh) * | 2017-02-08 | 2017-07-18 | 北京捷通华声科技股份有限公司 | 身份认证方法和身份认证系统 |
-
2017
- 2017-07-19 CN CN201710590053.7A patent/CN107368577A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104834847A (zh) * | 2014-02-11 | 2015-08-12 | 腾讯科技(深圳)有限公司 | 身份验证方法及装置 |
CN105975569A (zh) * | 2016-05-03 | 2016-09-28 | 深圳市金立通信设备有限公司 | 一种语音处理的方法及终端 |
CN106686226A (zh) * | 2016-12-21 | 2017-05-17 | 惠州Tcl移动通信有限公司 | 一种终端音频播放方法及系统 |
CN106961418A (zh) * | 2017-02-08 | 2017-07-18 | 北京捷通华声科技股份有限公司 | 身份认证方法和身份认证系统 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108984788A (zh) * | 2018-07-30 | 2018-12-11 | 珠海格力电器股份有限公司 | 一种录音文件整理、归类系统及其控制方法与录音设备 |
CN110188364A (zh) * | 2019-05-24 | 2019-08-30 | 宜视智能科技(苏州)有限公司 | 基于智能眼镜的翻译方法、设备及计算机可读存储介质 |
CN110188364B (zh) * | 2019-05-24 | 2023-11-24 | 宜视智能科技(苏州)有限公司 | 基于智能眼镜的翻译方法、设备及计算机可读存储介质 |
CN112837690A (zh) * | 2020-12-30 | 2021-05-25 | 科大讯飞股份有限公司 | 一种音频数据生成方法、音频数据转写方法及其装置 |
CN112837690B (zh) * | 2020-12-30 | 2024-04-16 | 科大讯飞股份有限公司 | 一种音频数据生成方法、音频数据转写方法及其装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107566638A (zh) | 一种应用程序的显示控制方法及移动终端 | |
CN107678641A (zh) | 一种进入目标显示界面的方法及移动终端 | |
CN106383645A (zh) | 一种音乐播放的控制方法及移动终端 | |
CN107678644A (zh) | 一种图像处理方法及移动终端 | |
CN107678666A (zh) | 一种虚拟按键显示方法、移动终端及计算机可读存储介质 | |
CN107391246A (zh) | 一种应用启动方法、移动终端及计算机可读存储介质 | |
CN106341538A (zh) | 一种歌词海报的推送方法及移动终端 | |
CN106570372A (zh) | 一种应用程序的启动方法及移动终端 | |
CN107221347A (zh) | 一种音频播放的方法及终端 | |
CN107249080A (zh) | 一种调整音效的方法、装置及移动终端 | |
CN106527906A (zh) | 一种截图方法及移动终端 | |
CN107632854A (zh) | 一种截屏处理方法及移动终端 | |
CN106503179A (zh) | 一种网页页面的加载方法及移动终端 | |
CN107566917A (zh) | 一种视频标记方法及视频播放设备 | |
CN107678813A (zh) | 一种桌面图标的主题的切换方法及移动终端 | |
CN107368577A (zh) | 一种音频处理方法及移动终端 | |
CN106874046A (zh) | 一种应用程序的操作方法及移动终端 | |
CN107071330A (zh) | 一种视频通话互动的方法及移动终端 | |
CN107632748A (zh) | 一种信息处理方法及移动终端 | |
CN106231113A (zh) | 一种拨号方法及移动终端 | |
CN107145238A (zh) | 一种信息发送方法及电子设备 | |
CN107332963A (zh) | 一种号码设置方法及终端 | |
CN107368205A (zh) | 一种手写输入方法及移动终端 | |
CN107678642A (zh) | 一种应用的控制方法及移动终端 | |
CN107124656A (zh) | 一种多媒体文件的播放方法及移动终端 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20171121 |
|
RJ01 | Rejection of invention patent application after publication |