CN106024009B - 音频处理方法及装置 - Google Patents

音频处理方法及装置 Download PDF

Info

Publication number
CN106024009B
CN106024009B CN201610284473.8A CN201610284473A CN106024009B CN 106024009 B CN106024009 B CN 106024009B CN 201610284473 A CN201610284473 A CN 201610284473A CN 106024009 B CN106024009 B CN 106024009B
Authority
CN
China
Prior art keywords
text information
recording
information
module
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610284473.8A
Other languages
English (en)
Other versions
CN106024009A (zh
Inventor
朱印
王倩
杨静松
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Xiaomi Mobile Software Co Ltd
Original Assignee
Beijing Xiaomi Mobile Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Xiaomi Mobile Software Co Ltd filed Critical Beijing Xiaomi Mobile Software Co Ltd
Priority to CN201610284473.8A priority Critical patent/CN106024009B/zh
Publication of CN106024009A publication Critical patent/CN106024009A/zh
Application granted granted Critical
Publication of CN106024009B publication Critical patent/CN106024009B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/10Transforming into visible information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification

Abstract

本发明公开了一种音频处理方法及装置,属于语音识别技术领域。所述方法包括:提取音频文件中每个录音对象对应的语音片段,并为每个录音对象分配对象标识;将每个语音片段转换为文字信息;对每条文字信息和对应的录音对象的对象标识进行对应显示;解决了在回放录音时耗费时间较长,在听录音时容易遗漏重要信息的问题,达到了令录音内容与录音对象对应,在后期查找录音中的信息时更加便捷,提高信息查找效率的效果。

Description

音频处理方法及装置
技术领域
本发明涉及语音识别技术领域,特别涉及一种音频处理方法及装置。
背景技术
随着科技的发展,通过在智能终端中安装不同功能的软件,能够使得智能终端具备多种功能,比如录音功能。
在采访、举办会议或讲座时,为了避免遗漏信息,可以使用具有录音功能的终端进行录音,在后期查找录音中的某个信息时需要回放整个录音的方式来查找。
发明内容
为了解决录音回放浪费时间,而且听录音时容易遗漏重要信息的问题,本发明实施例提供了一种音频处理方法及装置。该技术方案如下:
根据本公开实施例的第一方面,提供了一种音频处理方法,该方法包括:
提取音频文件中每个录音对象对应的语音片段,并为每个录音对象分配对象标识;
将每个语音片段转换为文字信息;
对每条文字信息和对应的录音对象的对象标识进行对应显示。
可选的,提取音频文件中每个录音对象对应的语音片段,包括:
按照时间顺序,将音频文件划分为连续的若干个语音片段,每个语音片段与一个录音对象对应,且相邻的两个语音片段对应的录音对象不同。
可选的,对每条文字信息和对应的录音对象的对象标识进行对应显示,包括:
以对话的形式,对每条文字信息和对应的录音对象的对象标识进行对应显示。
可选的,该方法还包括:
检测录音对象是否是已知身份的联系人;
当录音对象是已知身份的联系人时,将录音对象的对象标识替换为联系人的联系人标识。
可选的,该方法还包括:
接收选择操作,选择操作是选择对象标识时生成的;
根据选择操作,从文字信息中选择与对象标识对应的文字信息;
显示选择的文字信息,或者,显示选择的文字信息和对象标识。
可选的,该方法还包括:
接收输入的关键词;
搜索包括关键词的文字信息;
显示搜索到的文字信息,或者,显示搜索到的文字信息和对应的录音对象的对象标识。
根据本公开实施例的第二方面,提供一种音频处理装置,该装置包括:
提取模块,被配置为提取音频文件中每个录音对象对应的语音片段,并为每个录音对象分配对象标识;
文字转换模块,被配置为将提取模块提取的每个语音片段转换为文字信息;
第一显示模块,被配置为对文字转换模块转换的每条文字信息和对应的录音对象的对象标识进行对应显示。
可选的,提取模块还被配置为:
按照时间顺序,将音频文件划分为连续的若干个语音片段,每个语音片段与一个录音对象对应,且相邻的两个语音片段对应的录音对象不同。
可选的,第一显示模块还被配置为:
以对话的形式,对每条文字信息和对应的录音对象的对象标识进行对应显示。
可选的,该装置还包括:
检测模块,被配置为检测录音对象是否是已知身份的联系人;
标识替换模块,被配置为当检测模块检测到录音对象是已知身份的联系人时,将录音对象的对象标识替换为联系人的联系人标识。
可选的,该装置还包括:
选择接收模块,被配置为接收选择操作,选择操作是选择对象标识时生成的;
文字选择模块,被配置为根据选择接收模块接收的选择操作,从文字信息中选择与对象标识对应的文字信息;
第二显示模块,被配置为显示文字选择模块选择的文字信息,或者,显示文字选择模块选择的文字信息和对象标识。
可选的,该装置还包括:
关键词接收模块,被配置为接收输入的关键词;
文本搜索模块,被配置为搜索包括关键词的文字信息;
第三显示模块,被配置为显示文本搜索模块搜索到的文字信息,或者,显示文本搜索模块搜索到的文字信息和对应的录音对象的对象标识。
根据本公开实施例的第三方面,提供一种音频处理装置,该装置包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,处理器被配置为:
提取音频文件中每个录音对象对应的语音片段,并为每个录音对象分配对象标识;
将每个语音片段转换为文字信息;
对每条文字信息和对应的录音对象的对象标识进行对应显示。
本发明实施例提供的技术方案带来的有益效果是:
通过提取音频文件中的录音对象和每个录音对象对应的语音片段,将不同录音对象对应的语音片段区别开,并为录音对象分配对象标识将不同的录音对象区别开,将提取出的每个语音片段转换为文字信息,对每条文字信息和对应的录音对象的标识进行对应显示;避免了利用音频文件查找信息时,需要回放音频文件直到听到需要的信息导致的录音回放耗费时间较长,在听录音时还容易遗漏重要信息的问题,在语音片段转换为文字时将录音内容的文字信息与录音对象对应,能够令用户后期更加便捷地查找音频文件的信息,将文字信息与对象标识对应起来显示也有助于用户将录音内容与录音对象对应,提高了信息查找效率。
通过以对话的形式显示每条文字信息和对应的录音对象的对象标识,使得转换后的文字信息能够准确显示出录音对象及其所对应的录音内容,方便用户查找相应的信息。
通过检测录音对象是否是已知身份的联系人,当录音对象是已知身份的联系人时,将录音对象的标识的对象标识替换为联系人的联系人标识,使得用户在查看转换后的文字信息时能够快速的分辨出录音对象及其对应的录音内容,方便查找信息,提高录音内容的可读性。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本公开一示例性实施例提供的音频处理方法的流程图;
图2是本公开另一示例性实施例提供的音频处理方法的流程图;
图3是本公开另一示例性实施例提供的音频处理方法的实施示意图;
图4是本公开另一示例性实施例提供的音频处理方法的流程图;
图5是本公开另一示例性实施例提供的音频处理方法的流程图;
图6A是是本公开一示例性实施例提供的音频处理方法的实施示意图;
图6B是是本公开一示例性实施例提供的音频处理方法的实施示意图;
图6C是是本公开一示例性实施例提供的音频处理方法的实施示意图;
图6D是是本公开一示例性实施例提供的音频处理方法的实施示意图;
图7是本公开一示例性实施例提供的图像显示装置的结构示意图;
图8是本公开另一示例性实施例提供的图像显示装置的结构示意图;
图9是一示例性实施例示出的一种图像显示装置的框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
请参照图1,其示出了本公开一个示例性实施例提供的音频处理方法的流程图。该音频处理方法适用于智能手机、平板电脑或者个人电脑等智能终端中。如图1所示,该音频处理方法可以包括以下步骤:
在步骤101中,提取音频文件中每个录音对象对应的语音片段,并为每个录音对象分配对象标识。
在步骤102中,将每个语音片段转换为文字信息。
在步骤103中,对每条文字信息和对应的录音对象的对象标识进行对应显示。
综上所述,本公开实施例所提供的音频处理方法,通过提取音频文件中每个录音对象对应的语音片段,并为每个录音对象分配对象标识,将不同录音对象对应的语音区别开,将每个语音片段转换为文字信息,对每条文字信息和对应的录音对象的标识进行对应显示;避免了利用音频文件查找信息时,需要回放音频文件直到听到需要的信息导致的录音回放耗费时间较长,在听录音时还容易遗漏重要信息的问题,在语音片段转换为文字时将录音内容的文字信息与录音对象对应,能够令用户后期更加便捷地查找音频文件的信息,将文字信息与对象标识对应起来显示也有助于用户将录音内容与录音对象对应,提高了信息查找效率。
请参照图2,其示出了本公开另一个示例性实施例提供的音频处理方法的流程图。该音频处理方法适用于智能手机、平板电脑或者个人电脑等智能终端中。如图2所示,该音频处理方法可以包括以下步骤:
在步骤201中,按照时间顺序,将音频文件划分为连续的若干个语音片段,并为每个录音对象分配对象标识,每个语音片段与一个录音对象对应,且相邻的两个语音片段对应的录音对象不同。
终端确定需要转换成文字信息的音频文件,按照时间顺序,将待转换的音频文件划分为连续的若干个语音片段。
终端可以从音频文件的开始时间解析音频文件,通过声纹识别技术获取录音对象的声纹。由于每个人的声音器官、诸如声带、口腔、鼻腔、舌、齿、唇、肺,在发音时呈现不同,或有着各种各样微小的差异,以及年龄、性格、语言习惯等多种原因,再加上发音容量的大小不一,发音频率的不同,导致这些器官发出的声音必然有着各自的特点,行成每个人独具一格的声纹,因此可以使用声纹识别技术来区分录音对象。
按照时间顺序,对音频文件的每一帧的声纹进行识别,识别出一个声纹即识别出一个录音对象,为识别出的录音对象分配对象标识,将在时间上连续的且属于同一个声纹的一段语音作为一个语音片段;划分出一段语音片段后,再继续识别下一帧的声纹,若识别出的声纹是在识别该音频文件时未出现过的,则为该声纹对应的录音对象分配一个新的对象标识,将在时间上连续的且属于同一个声纹的一段语音作为一个语音片段,相邻的两个语音片段对应的声纹不同,即对于的录音对象不同;直到该音频文件划分结束。
划分后的若干个语音片段在时间上仍然连续,每个语音片段与一个录音对象对应,相邻的两个语音片段对应的录音对象不同。
可选的,对象标识是头像,或者昵称、或者标识号。
举例来说,某音频文件的时长为5分钟,从起始时间00:00到02:05解析出一个声纹,即解析出一个录音对象,将该录音对象标记为“发言人1”,从00:00到02:05的语音片段对应的录音对象为“发言人1”;再继续从解析02:06开始解析,到03:20解析出的声纹为同一个声纹,且该声纹与“发言人1”对应的声纹不同,即解析出另一个录音对象,将该录音对象标记为“发言人2”,从02:06到03:20的语音片段对应的录音对象为“发言人2”;再继续从03:21解析,直到结束时间05:00,解析出的声纹与“发言人1”对应的声纹一致,则从03:21至05:00的语音片段对应于“发言人1”;即该音频文件被划分为三个语音片段,每个语音片段与一个录音对象对应,且相邻的两个语音片段对应的录音对象不同。
可选的,当一个语音片段是几个录音对象以相同的说话速率说的同样的内容时,该语音片段可以对应几个录音对象。比如:一个音频文件的一段语音片段是三个学生朗诵的《静夜思》,则该语音片段与三个录音对象对应。
在步骤202中,检测录音对象是否是已知身份的联系人。
终端通过检测录音对象的声纹是否和已知身份的联系人的声纹一致来检测录音对象是否是已知身份的联系人。
可选的,已知身份的联系人是指联系人的身份信息已经存储在处理该音频文件终端中,或已经存储在后台服务器,或已经存储在处理该音频文件的终端和后台服务器的联系人。
可选的,已知身份的联系人的数量至少为一个。
可选的,已知身份的联系人的身份信息至少包括声纹和联系人标识,还可以包括头像、指纹、联系电话、家庭住址等个人信息。
可选的,已知身份的联系人的身份信息存储在处理该音频文件的终端中,通过比较终端中存储的已知身份的联系人的声纹和从音频文件中解析出的声纹是否一致来检测录音对象是否是已知身份的联系人;
或,已知身份的联系人的身份信息存储在后台服务器中,当处理该音频文件的终端与网络连接时,通过比较服务器中存储的已知身份的联系人的声纹和从音频文件中解析出的声纹是否一致来检测录音对象是否是已知身份的联系人;
或,已知身份的联系人的身份信息存储在处理该音频文件的终端和后台服务器中,通过比较终端中和后台服务器中存储的已知身份的联系人的声纹和从音频文件中解析出的声纹是否一致来检测录音对象是否是已知身份的联系人。
在步骤203中,当录音对象是已知身份的联系人时,将录音对象的对象标识替换为联系人的联系人标识。
当检测到录音对象的声纹与已知身份的联系人的声纹一致时,表示录音对象是已知身份的联系人,将录音对象的对象标识替换为联系人的联系人标识。
比如:录音对象A的对象标识为“发言人A”,检测到录音对象的声纹和已知身份的联系人“小王”的声纹一致,则将“发言人A”替换为联系人标识“小王”。
当录音对象不是已知身份的联系人时,不替换录音对象的对象标识。
在步骤204中,将每个语音片段转换为文字信息。
利用语音识别技术将划分后的语音片段转换为文字信息,每条文字信息与录音对象的标识对应。
在步骤205中,以对话的形式,对每条文字信息和对应的录音对象的对象标识进行对应显示。
举例来说,一个音频文件被划分为若干个语音片段,终端解析出该音频文件中共有三个录音对象,将语音片段转换为文字信息后,在显示界面以对话的形式,对每条文字信息和对应的录音对象的标识进行对应显示,如图3所示,其示出了显示转换后的部分文字信息和对应的录音对象的标识的界面。
可选的,在显示文字信息时,终端同步播放音频文件。
可选的,当用户选中一条文字信息时,终端播放该文字信息对应的语音片段。
可选的,终端可以将转换后的文字信息以文本形式导出。
综上所述,本公开实施例所提供的音频处理方法,通过提取音频文件中每个录音对象对应的语音片段,并为每个录音对象分配对象标识,将不同录音对象对应的语音区别开,将每个语音片段转换为文字信息,对每条文字信息和对应的录音对象的标识进行对应显示;避免了利用音频文件查找信息时,需要回放音频文件直到听到需要的信息导致的录音回放耗费时间较长,在听录音时还容易遗漏重要信息的问题,在语音片段转换为文字时将录音内容的文字信息与录音对象对应,能够令用户后期更加便捷地查找音频文件的信息,将文字信息与对象标识对应起来显示也有助于用户将录音内容与录音对象对应,提高了信息查找效率。
此外,还通过以对话的形式显示每条文字信息和对应的录音对象的对象标识,使得转换后的文字信息能够准确显示出录音对象及其所对应的录音内容,方便用户查找相应的信息。
此外,还通过检测录音对象是否是已知身份的联系人,当录音对象是已知身份的联系人时,将录音对象的标识的对象标识替换为联系人的联系人标识,使得用户在查看转换后的文字信息时能够快速的分辨出录音对象及其对应的录音内容,方便查找信息,提高录音内容的可读性。
在基于图2所示实施例的可选实施例中,该音频处理方法还可以根据用户选择显示文字信息,即在步骤205之后还可以包括步骤206、步骤207、步骤208a和步骤208b,如图4所示:
在步骤206中,接收选择操作,选择操作是选择对象标识时生成的。
用户选择对象标识时生成选择操作,用户可以通过单击对象标识或双击对象标识或长按对象标识或右击对象标识的方式来选择对象标识。
可选的,用户可以选择一个对象标识或多个对象标识。
比如:对象标识是昵称,则用户单击昵称时生成选择操作;对象标识是头像,则用户单击头像时生成选择操作;对象标识是标识号,则用户单击标识号时生成选择操作。
在步骤207中,根据选择操作,从文字信息中选择与对象标识对应的文字信息。
在步骤208a中,显示选择的文字信息。
在显示文字信息的界面隐藏除选择的对象标识以外的对象标识对应的文字信息,或者,在当前显示文字信息的界面以外的其他界面生成一个新的显示界面,在新生成的界面中显示与选择的对象标识对应的文字信息。
在步骤208b中,显示选择的文字信息和对象标识。
在显示文字信息的界面隐藏除选择的对象标识以外的对象标识和对象标识对应的文字信息;或者,在当前显示文字信息的界面以外的其他界面生成一个新的显示界面,在新生成的界面中显示与选择的对象标识和对象标识对应的文字信息。
此外,在显示选择的文字信息后,用户还可以触发恢复控件生成恢复操作,根据恢复操作在显示界面恢复显示全部的文字信息,或者根据恢复操作隐藏生成的新的显示界面。
此外,还通过根据用户选择的对象标识,显示对应的文字信息,对录音内容按录音对象分类整理,方便用户后期查找对应不同录音对象的录音内容,提高查找信息的效率。
在基于图2所示实施例的可选实施例中,该音频处理方法还可以根据用户选择显示文字信息,即在步骤205之后还可以包括步骤301、步骤302、步骤303a和步骤303b,如图5所示:
在步骤301中,接收输入的关键词。
可选的,用户在搜索区域输入关键词。
在步骤302中,搜索包括关键词的文字信息。
可选的,在转换后的所有文字信息中搜索包括关键词的文字信息;或者,在预定的录音时间范围内搜索包括关键词的文字信息。
在步骤303a中,显示搜索到的文字信息。
在显示文字信息的界面隐藏除关键词以外的文字信息;或者,在当前显示文字信息的界面以外的其他界面生成一个新的显示界面,在新生成的界面中显示搜索到的包括关键词的文字信息。
在步骤303b中,显示搜索到的文字信息和对应的录音对象的对象标识。
在显示文字信息的界面隐藏除关键词以外的文字信息和对应的对象标识,或者,在当前显示文字信息的界面以外的其他界面生成一个新的显示界面,在新生成的界面中显示搜索到的包括关键词的文字信息和对应的对象标识。
此外,还通过根据关键词搜索文字信息,显示搜索到的文字信息,方便用户后期查找包括关键词的录音内容,提高查找信息的效率。
在一个示意性的例子中,用户使用手机记录了一段会议上的发言,会议结束后,用户打开该录音的音频文件,该音频文件的播放页面如图6A所示,用户点击转文字选项61后,提取该音频文件中每个录音对象对应的语音片段,并未每个录音对象分配对象标识,共提取出3个语音片段,共有2个录音对象,为每个录音对象分配对象标识,两个对象标识分别为“发言人1”和“发言人2”,根据录音对象的声纹,检测到录音对象“发言人1”是已知身份的联系人“小王”,将对象标识“发言人1”替换为联系人标识“小王”,由于检测到录音对象“发言人2”不是已知身份的联系人,不替换对象标识“发言人2”;将3个语音片段转换为文字信息,以对话的形式在显示界面显示文字信息和对应的对象标识,转换后的文字信息如图6B所示;用户选择对象标识“小王”62,在当前页面隐藏“发言人2”对应的文字信息,只显示“小王”对应的文字信息和对象标识“小王”,显示“小王”对应的文字信息的显示界面如图6C所示;用户点击返回选项63,重新显示全部的文字信息,如图6B所示;用户在搜索框内输入关键词“一快”,搜索得到包括“一快”的文字信息,在当前显示界面只显示包括“一快”的文字信息和文字信息对应的对象标识“发言人B”,如图6D所示。
请参考图7,其示出了本公开一个实施例提供的音频处理装置的结构方框图。该音频处理装置可以通过软件、硬件或两者的结合实现成为上述可提供音频处理方法的终端的全部或者一部分。如图7所示,该装置包括:
提取模块710,被配置为提取音频文件中每个录音对象对应的语音片段,并为每个录音对象分配对象标识;
文字转换模块720,被配置为将每个语音片段转换为文字信息;
第一显示模块730,被配置为对每条文字信息和对应的录音对象的对象标识进行对应显示。
综上所述,本公开实施例所提供的音频处理装置,通过提取音频文件中每个录音对象对应的语音片段,并为每个录音对象分配对象标识,将不同录音对象对应的语音区别开,将每个语音片段转换为文字信息,对每条文字信息和对应的录音对象的标识进行对应显示;避免了利用音频文件查找信息时,需要回放音频文件直到听到需要的信息导致的录音回放耗费时间较长,在听录音时还容易遗漏重要信息的问题,在语音片段转换为文字时将录音内容的文字信息与录音对象对应,能够令用户后期更加便捷地查找音频文件的信息,将文字信息与对象标识对应起来显示也有助于用户将录音内容与录音对象对应,提高了信息查找效率。
请参考图8,其示出了本公开另一个实施例提供的音频处理装置的结构方框图。该音频处理装置可以通过软件、硬件或两者的结合实现成为上述可提供音频处理方法的终端的全部或者一部分。如图8所示,该装置包括:
提取模块810,被配置为提取音频文件中每个录音对象对应的语音片段,并为每个录音对象分配对象标识;
文字转换模块820,被配置为将提取模块810每个语音片段转换为文字信息;
第一显示模块830,被配置为对文字转换模块820转换的每条文字信息和对应的录音对象的对象标识进行对应显示。
可选的,提取模块810还被配置为:
按照时间顺序,将音频文件划分为连续的若干个语音片段,每个语音片段与一个录音对象对应,且相邻的两个语音片段对应的录音对象不同。
可选的,第一显示模块830还被配置为:
以对话的形式,对每条文字信息和对应的录音对象的对象标识进行对应显示。
可选的,该装置还包括:
检测模块840,被配置为检测录音对象是否是已知身份的联系人;
标识替换模块850,被配置为当录音对象是已知身份的联系人时,将录音对象的对象标识替换为联系人的联系人标识。
可选的,该装置还包括:
选择接收模块860,被配置为接收选择操作,选择操作是选择对象标识时生成的;
文字选择模块870,被配置为根据选择接收模块860选择操作,从文字信息中选择与对象标识对应的文字信息;
第二显示模块880,被配置为显示文字选择模块870选择的文字信息,或者,显示文字选择模块870选择的文字信息和对象标识。
可选的,该装置还包括:
关键词接收模块890,被配置为接收输入的关键词;
文本搜索模块891,被配置为搜索包括关键词的文字信息;
第三显示模块892,被配置为显示文本搜索模块891搜索到的文字信息,或者,显示文本搜索模块891搜索到的文字信息和对应的录音对象的对象标识。
综上所述,本公开实施例所提供的音频处理装置,通过提取音频文件中每个录音对象对应的语音片段,并为每个录音对象分配对象标识,将不同录音对象对应的语音区别开,将每个语音片段转换为文字信息,对每条文字信息和对应的录音对象的标识进行对应显示;避免了利用音频文件查找信息时,需要回放音频文件直到听到需要的信息导致的录音回放耗费时间较长,在听录音时还容易遗漏重要信息的问题,在语音片段转换为文字时将录音内容的文字信息与录音对象对应,能够令用户后期更加便捷地查找音频文件的信息,将文字信息与对象标识对应起来显示也有助于用户将录音内容与录音对象对应,提高了信息查找效率。
此外,还通过以对话的形式显示每条文字信息和对应的录音对象的对象标识,使得转换后的文字信息能够准确显示出录音对象及其所对应的录音内容,方便用户查找相应的信息。
此外,还通过检测录音对象是否是已知身份的联系人,当录音对象是已知身份的联系人时,将录音对象的标识的对象标识替换为联系人的联系人标识,使得用户在查看转换后的文字信息时能够快速的分辨出录音对象及其对应的录音内容,方便查找信息,提高录音内容的可读性。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
本公开一示例性实施例提供了一种音频处理装置,能够实现本公开提供的音频处理方法,该音频处理装置包括:处理器、用于存储处理器可执行指令的存储器;其中,处理器被配置为:
提取音频文件中每个录音对象对应的语音片段,并为每个录音对象分配对象标识;
将每个语音片段转换为文字信息;
对每条文字信息和对应的录音对象的对象标识进行对应显示。
图9是根据一示例性实施例示出的一种音频处理装置的框图。例如,装置900可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
参照图9,装置900可以包括以下一个或多个组件:处理组件902,存储器904,电源组件906,多媒体组件908,音频组件910,输入/输出(I/O)接口912,传感器组件914,以及通信组件916,图像识别组件917。
处理组件902通常控制装置900的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理组件902可以包括一个或多个处理器918来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件902可以包括一个或多个模块,便于处理组件902和其他组件之间的交互。例如,处理组件902可以包括多媒体模块,以方便多媒体组件908和处理组件902之间的交互。
存储器904被配置为存储各种类型的数据以支持在装置900的操作。这些数据的示例包括用于在装置900上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器904可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电源组件906为装置900的各种组件提供电力。电源组件906可以包括电源管理系统,一个或多个电源,及其他与为装置900生成、管理和分配电力相关联的组件。
多媒体组件908包括在装置900和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件908包括一个前置摄像头和/或后置摄像头。当装置900处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
音频组件910被配置为输出和/或输入音频信号。例如,音频组件910包括一个麦克风(MIC),当装置900处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器904或经由通信组件916发送。在一些实施例中,音频组件910还包括一个扬声器,用于输出音频信号。
I/O接口912为处理组件902和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件914包括一个或多个传感器,用于为装置900提供各个方面的状态评估。例如,传感器组件914可以检测到装置900的打开/关闭状态,组件的相对定位,例如组件为装置900的显示器和小键盘,传感器组件914还可以检测装置900或装置900一个组件的位置改变,用户与装置900接触的存在或不存在,装置900方位或加速/减速和装置900的温度变化。传感器组件914可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件914还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件914还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器,温度传感器。
通信组件916被配置为便于装置900和其他设备之间有线或无线方式的通信。装置900可以接入基于通信标准的无线网络,如Wi-Fi,2G或3G,或它们的组合。在一个示例性实施例中,通信组件916经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,通信组件916还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,装置900可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述图像显示方法。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器904,上述指令可由装置900的处理器918执行以完成上述图像显示方法。例如,非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims (7)

1.一种音频处理方法,其特征在于,所述方法包括:
按照时间顺序,将音频文件划分为连续的若干个语音片段,每个语音片段与一个录音对象对应,且相邻的两个语音片段对应的录音对象不同,并为每个录音对象分配对象标识;
将每个语音片段转换为文字信息;
以对话的形式,对每条文字信息和对应的录音对象的对象标识进行对应显示;
所述方法还包括:
接收选择操作,所述选择操作是选择所述对象标识时生成的;
根据所述选择操作,从所述文字信息中选择与所述对象标识对应的文字信息;
显示选择的所述文字信息,或者,显示选择的所述文字信息和所述对象标识,所述对象标识为一个或多个。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
检测所述录音对象是否是已知身份的联系人;
当所述录音对象是已知身份的联系人时,将所述录音对象的所述对象标识替换为所述联系人的联系人标识。
3.根据权利要求1或2任一所述的方法,其特征在于,所述方法还包括:
接收输入的关键词;
搜索包括所述关键词的文字信息;
显示搜索到的所述文字信息,或者,显示搜索到的所述文字信息和对应的录音对象的对象标识。
4.一种音频处理装置,其特征在于,所述装置包括:
提取模块,被配置为按照时间顺序,将音频文件划分为连续的若干个语音片段,每个语音片段与一个录音对象对应,且相邻的两个语音片段对应的录音对象不同,并为每个录音对象分配对象标识;
文字转换模块,被配置为将所述提取模块提取的每个语音片段转换为文字信息;
第一显示模块,被配置为以对话的形式,对所述文字转换模块转换的每条文字信息和对应的录音对象的对象标识进行对应显示;
所述装置还包括:
选择接收模块,被配置为接收选择操作,所述选择操作是选择所述对象标识时生成的;
文字选择模块,被配置为根据所述选择接收模块接收的所述选择操作,从所述文字信息中选择与所述对象标识对应的文字信息;
第二显示模块,被配置为显示所述文字选择模块选择的所述文字信息,或者,显示所述文字选择模块选择的所述文字信息和所述对象标识,所述对象标识为一个或多个。
5.根据权利要求4所述的装置,其特征在于,所述装置还包括:
检测模块,被配置为检测所述录音对象是否是已知身份的联系人;
标识替换模块,被配置为当所述检测模块检测到所述录音对象是已知身份的联系人时,将所述录音对象的所述对象标识替换为所述联系人的联系人标识。
6.根据权利要求4或5任一所述的装置,其特征在于,所述装置还包括:
关键词接收模块,被配置为接收输入的关键词;
文本搜索模块,被配置为搜索包括所述关键词的文字信息;
第三显示模块,被配置为显示所述文本搜索模块搜索到的所述文字信息,或者,显示所述文本搜索模块搜索到的所述文字信息和对应的录音对象的对象标识。
7.一种音频处理装置,其特征在于,所述装置包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为:
按照时间顺序,将音频文件划分为连续的若干个语音片段,每个语音片段与一个录音对象对应,且相邻的两个语音片段对应的录音对象不同,并为每个录音对象分配对象标识;
将每个语音片段转换为文字信息;
以对话的形式,对每条文字信息和对应的录音对象的对象标识进行对应显示;
所述处理器还被配置为:
接收选择操作,所述选择操作是选择所述对象标识时生成的;
根据所述选择操作,从所述文字信息中选择与所述对象标识对应的文字信息;
显示选择的所述文字信息,或者,显示选择的所述文字信息和所述对象标识,所述对象标识为一个或多个。
CN201610284473.8A 2016-04-29 2016-04-29 音频处理方法及装置 Active CN106024009B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610284473.8A CN106024009B (zh) 2016-04-29 2016-04-29 音频处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610284473.8A CN106024009B (zh) 2016-04-29 2016-04-29 音频处理方法及装置

Publications (2)

Publication Number Publication Date
CN106024009A CN106024009A (zh) 2016-10-12
CN106024009B true CN106024009B (zh) 2021-03-30

Family

ID=57082137

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610284473.8A Active CN106024009B (zh) 2016-04-29 2016-04-29 音频处理方法及装置

Country Status (1)

Country Link
CN (1) CN106024009B (zh)

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106601252A (zh) * 2016-10-28 2017-04-26 努比亚技术有限公司 一种语音标识装置和方法
CN106571137A (zh) * 2016-10-28 2017-04-19 努比亚技术有限公司 一种终端语音打点控制装置及其方法
WO2018098912A1 (zh) * 2016-11-29 2018-06-07 华为技术有限公司 屏幕录像的录制、播放方法、录屏终端及播放终端
CN107134285A (zh) * 2017-03-17 2017-09-05 宇龙计算机通信科技(深圳)有限公司 音频数据播放方法、音频数据播放装置和终端
CN107403623A (zh) * 2017-07-31 2017-11-28 努比亚技术有限公司 录音内容的保存方法、终端、云服务器及可读存储介质
CN107818786A (zh) * 2017-10-25 2018-03-20 维沃移动通信有限公司 一种通话语音处理方法、移动终端
CN107845386B (zh) * 2017-11-14 2020-04-21 维沃移动通信有限公司 声音信号处理方法、移动终端和服务器
CN108124061A (zh) * 2017-12-22 2018-06-05 维沃移动通信有限公司 音频数据的存储方法及装置
WO2019183904A1 (zh) * 2018-03-29 2019-10-03 华为技术有限公司 自动识别音频中不同人声的方法
CN108538299A (zh) * 2018-04-11 2018-09-14 深圳市声菲特科技技术有限公司 一种自动会议记录方法
CN108763475B (zh) * 2018-05-29 2021-01-15 维沃移动通信有限公司 一种录制方法、录制装置及终端设备
CN109257490B (zh) * 2018-08-30 2021-07-09 Oppo广东移动通信有限公司 音频处理方法、装置、穿戴式设备及存储介质
CN109273008A (zh) * 2018-10-15 2019-01-25 腾讯科技(深圳)有限公司 语音文件的处理方法、装置、计算机存储介质和终端
CN109448728A (zh) * 2018-10-29 2019-03-08 苏州工业职业技术学院 融合情感识别的多方会话可视化方法和系统
CN109600299B (zh) * 2018-11-19 2021-06-25 维沃移动通信有限公司 一种消息发送方法及终端
CN109816508A (zh) * 2018-12-14 2019-05-28 深圳壹账通智能科技有限公司 基于大数据的用户身份认证方法、装置、计算机设备
CN109410953A (zh) * 2018-12-21 2019-03-01 上海蒂茜科技有限公司 一种多媒体竖式播放系统
CN110147726B (zh) * 2019-04-12 2024-02-20 财付通支付科技有限公司 业务质检方法和装置、存储介质及电子装置
CN111862983A (zh) * 2019-04-22 2020-10-30 北京达佳互联信息技术有限公司 协作编辑方法、装置、电子设备及介质
CN112151041B (zh) * 2019-06-26 2024-03-29 北京小米移动软件有限公司 基于录音机程序的录音方法、装置、设备及存储介质
CN110767229B (zh) * 2019-10-15 2022-02-01 广州国音智能科技有限公司 基于声纹的音频输出方法、装置、设备及可读存储介质
CN113055529B (zh) * 2021-03-29 2022-12-13 深圳市艾酷通信软件有限公司 录音控制方法和录音控制装置
CN114024929A (zh) * 2021-11-04 2022-02-08 维沃移动通信有限公司 语音消息处理方法、装置、电子设备及介质
CN114464198B (zh) * 2021-11-30 2023-06-06 中国人民解放军战略支援部队信息工程大学 一种可视化人声分离系统、方法以及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101127959A (zh) * 2007-09-28 2008-02-20 中兴通讯股份有限公司 移动搜索系统及实现方法
CN103065659A (zh) * 2012-12-06 2013-04-24 广东欧珀移动通信有限公司 一种多媒体记录方法
CN104123115A (zh) * 2014-07-28 2014-10-29 联想(北京)有限公司 一种音频信息处理方法及电子设备
CN104240703A (zh) * 2014-08-21 2014-12-24 广州三星通信技术研究有限公司 语音信息处理方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101127959A (zh) * 2007-09-28 2008-02-20 中兴通讯股份有限公司 移动搜索系统及实现方法
CN103065659A (zh) * 2012-12-06 2013-04-24 广东欧珀移动通信有限公司 一种多媒体记录方法
CN104123115A (zh) * 2014-07-28 2014-10-29 联想(北京)有限公司 一种音频信息处理方法及电子设备
CN104240703A (zh) * 2014-08-21 2014-12-24 广州三星通信技术研究有限公司 语音信息处理方法和装置

Also Published As

Publication number Publication date
CN106024009A (zh) 2016-10-12

Similar Documents

Publication Publication Date Title
CN106024009B (zh) 音频处理方法及装置
CN109446876B (zh) 手语信息处理方法、装置、电子设备和可读存储介质
CN105845124B (zh) 音频处理方法及装置
CN107644646B (zh) 语音处理方法、装置以及用于语音处理的装置
US11580290B2 (en) Text description generating method and device, mobile terminal and storage medium
CN112752047A (zh) 视频录制方法、装置、设备及可读存储介质
CN104378441A (zh) 日程创建方法和装置
CN107945806B (zh) 基于声音特征的用户识别方法及装置
CN108073572B (zh) 信息处理方法及其装置、同声翻译系统
CN111063354B (zh) 人机交互方法及装置
CN105447109A (zh) 关键字词搜索方法及装置
CN106777016B (zh) 基于即时通信进行信息推荐的方法及装置
CN112068711A (zh) 一种输入法的信息推荐方法、装置和电子设备
CN110990534A (zh) 一种数据处理方法、装置和用于数据处理的装置
CN105139848A (zh) 数据转换方法和装置
CN112532931A (zh) 一种视频处理方法、装置和电子设备
CN106792604B (zh) 在通信过程中进行服务提示的方法及装置
CN109002184A (zh) 一种输入法候选词的联想方法和装置
CN113936697B (zh) 语音处理方法、装置以及用于语音处理的装置
CN105913841B (zh) 语音识别方法、装置及终端
CN110162710B (zh) 输入场景下信息推荐方法及装置
CN109285545A (zh) 信息处理方法及装置
CN113115104B (zh) 视频处理方法、装置、电子设备及存储介质
CN112837668B (zh) 一种语音处理方法、装置和用于处理语音的装置
CN113035189A (zh) 一种文档演示的控制方法、装置和设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant