CN108052578B - 用于信息处理的方法和装置 - Google Patents

用于信息处理的方法和装置 Download PDF

Info

Publication number
CN108052578B
CN108052578B CN201711297774.5A CN201711297774A CN108052578B CN 108052578 B CN108052578 B CN 108052578B CN 201711297774 A CN201711297774 A CN 201711297774A CN 108052578 B CN108052578 B CN 108052578B
Authority
CN
China
Prior art keywords
audio content
recording
text
audio
recording operation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711297774.5A
Other languages
English (en)
Other versions
CN108052578A (zh
Inventor
周子建
辛向阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Xingyou Network Technology Co ltd
Original Assignee
Shanghai Xingyou Network Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Xingyou Network Technology Co ltd filed Critical Shanghai Xingyou Network Technology Co ltd
Priority to CN201711297774.5A priority Critical patent/CN108052578B/zh
Publication of CN108052578A publication Critical patent/CN108052578A/zh
Application granted granted Critical
Publication of CN108052578B publication Critical patent/CN108052578B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/63Querying
    • G06F16/635Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content

Abstract

本发明实施例提供了用于信息处理的方法和装置。该方法包括:执行录音操作以便获得音频内容;基于音频内容,生成摘要信息,其中,摘要信息用于表示音频内容的意思概括。在本发明实施例中,针对通过录音操作记录的音频内容来生成表示其意思概括的摘要信息,使得用户能够通过摘要信息快速了解音频内容的总体意思或者快速地定位到感兴趣的音频内容,而无需完整地听取该音频内容,从而能够节省时间,极大地提升用户体验。

Description

用于信息处理的方法和装置
技术领域
本发明涉及信息处理技术领域,具体地,涉及用于信息处理的方法和装置。
背景技术
随着移动互联网的发展,音频内容的传播变得普遍。一类常见的音频内容是普通用户通过各种终端得到的录音内容。例如,演讲的现场听众对演讲进行录音;参会者对会议现场进行录音等。这类音频内容与以艺术欣赏或者大规模传播为目的的消费类音频内容不同,通常没有后期制作,音质效果可能也不佳,所以这对于人们了解这类音频内容带来了一定的困难,用户体验差。
发明内容
本发明实施例提供了用于信息处理的方法、装置和非暂时性计算机可读介质,能够改善用户体验。
第一方面,提供了一种用于信息处理的方法,包括:执行录音操作以便获得音频内容;基于所述音频内容,生成摘要信息,其中,所述摘要信息用于表示所述音频内容的意思概括。
在一种可能的实现方式中,所述基于所述音频内容,生成摘要信息,包括:将所述音频内容转换为文字摘要,其中,所述文字摘要中的文字长度比与所述音频内容相对应的完整文字长度短;生成所述摘要信息,其中,所述摘要信息包括所述文字摘要。
在另一种可能的实现方式中,所述将所述音频内容转换为文字摘要,包括:将所述音频内容中与目标时段相对应的音频段转换为文字,作为所述文字摘要。
在另一种可能的实现方式中,所述目标时段是预先设定的。
在另一种可能的实现方式中,所述将所述音频内容中与目标时段相对应的音频段转换为文字,作为所述文字摘要,包括:在获得所述音频段时,实时地将所述音频段转换为文字,作为所述文字摘要。
在另一种可能的实现方式中,所述目标时段是通过机器学习技术对所述音频内容的分析,来动态选择的。
在另一种可能的实现方式中,所述文字摘要是用户可编辑的。
在另一种可能的实现方式中,所述文字摘要中的文字长度在预定的长度范围内。
在另一种可能的实现方式中,所述执行录音操作以便获得音频内容,包括:在检测到中断事件时,中断所述录音操作,以便获得从开始执行所述录音操作至中断所述录音操作为止的所述音频内容。
在另一种可能的实现方式中,所述中断事件包括:检测到完成特定操作并且检测到执行所述录音操作已经达到或者超过第一预定时长,所述特定操作包括以下各项中的至少一项:拍摄操作或者文本输入操作,所述特定操作能够与所述录音操作同步进行;所述摘要信息还包括以下各项中的至少一项:通过所述拍摄操作所得到的拍摄内容或者通过所述文本输入操作所得到的文本。
在另一种可能的实现方式中,所述中断事件包括:没有检测到特定操作并且检测到执行所述录音操作已经达到第二预定时长,所述特定操作包括以下各项中的至少一项:拍摄操作或者文本输入操作,所述特定操作能够与所述录音操作同步进行;或者检测到通过所述录音操作记录的音频的参数改变超过预定阈值。
在另一种可能的实现方式中,所述录音操作是紧接在上一次录音操作被中断后执行的。
在另一种可能的实现方式中,所述方法用于信息记录;
所述方法还包括:在用于信息记录的用户界面上,呈现用于播放所述音频内容的播放界面以及所述摘要信息。
在另一种可能的实现方式中,所述方法还包括:响应于用户对所述播放界面的操作,执行以下各项中的至少一项:播放所述音频内容、或者改变所述音频内容的播放时间点。
在另一种可能的实现方式中,所述基于所述音频内容,生成摘要信息,包括:基于包括所述音频内容的n段音频内容,生成与所述n段音频内容分别对应的n份摘要信息,其中,所述n段音频内容中除了所述音频内容之外的(n-1)段音频内容是通过在所述录音操作之前的(n-1)次录音操作而获得的,n为大于1的正整数。
第二方面,提供了一种用于信息处理的装置,包括:录音模块,用于执行录音操作以便获得音频内容;生成模块,用于基于所述音频内容,生成摘要信息,其中,所述摘要信息用于表示所述音频内容的意思概括。
在一种可能的实现方式中,所述生成模块具体用于:将所述音频内容转换为文字摘要,其中,所述文字摘要中的文字长度比与所述音频内容相对应的完整文字长度短;生成所述摘要信息,其中,所述摘要信息包括所述文字摘要。
在另一种可能的实现方式中,所述生成模块具体用于:将所述音频内容中与目标时段相对应的音频段转换为文字,作为所述文字摘要。
在另一种可能的实现方式中,所述目标时段是预先设定的。
在另一种可能的实现方式中,所述生成模块具体用于:在获得所述音频段时,实时地将所述音频段转换为文字,作为所述文字摘要。
在另一种可能的实现方式中,所述目标时段是通过机器学习技术对所述音频内容的分析,来动态选择的。
在另一种可能的实现方式中,所述文字摘要是用户可编辑的。
在另一种可能的实现方式中,所述文字摘要中的文字长度在预定的长度范围内。
在另一种可能的实现方式中,所述录音模块具体用于:在检测到中断事件时,中断所述录音操作,以便获得从开始执行所述录音操作至中断所述录音操作为止的所述音频内容。
在另一种可能的实现方式中,所述中断事件包括:检测到完成特定操作并且检测到执行所述录音操作已经达到或者超过第一预定时长,所述特定操作包括以下各项中的至少一项:拍摄操作或者文本输入操作,所述特定操作能够与所述录音操作同步进行;所述摘要信息还包括以下各项中的至少一项:通过所述拍摄操作所得到的拍摄内容或者通过所述文本输入操作所得到的文本。
在另一种可能的实现方式中,所述中断事件包括:没有检测到特定操作并且检测到执行所述录音操作已经达到第二预定时长,所述特定操作包括以下各项中的至少一项:拍摄操作或者文本输入操作,所述特定操作能够与所述录音操作同步进行;或者检测到通过所述录音操作记录的音频的参数改变超过预定阈值。
在另一种可能的实现方式中,所述录音操作是紧接在上一次录音操作被中断后执行的。
在另一种可能的实现方式中,所述装置用于信息记录;
所述装置还包括:呈现模块,用于在用于信息记录的用户界面上,呈现用于播放所述音频内容的播放界面以及所述摘要信息。
在另一种可能的实现方式中,所述装置还包括:音频处理模块,用于响应于用户对所述播放界面的操作,执行以下各项中的至少一项:播放所述音频内容、或者改变所述音频内容的播放时间点。
在另一种可能的实现方式中,所述生成模块具体用于:基于包括所述音频内容的n段音频内容,生成与所述n段音频内容分别对应的n份摘要信息,其中,所述n段音频内容中除了所述音频内容之外的(n-1)段音频内容是通过在所述录音操作之前的(n-1)次录音操作而获得的,n为大于1的正整数。
第三方面,提供了一种非暂时性计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现结合第一方面的任一种可能的实现方式所述的方法。
在本发明实施例中,针对通过录音操作记录的音频内容,生成表示其意思概括的摘要信息,使得用户能够通过摘要信息快速了解音频内容的总体意思或者快速地定位到感兴趣的音频内容,而无需完整地听取该音频内容,从而能够节省时间,极大地提升用户体验。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图,其中:
图1是根据本发明实施例的用于信息处理的方法的示意性流程图。
图2是根据本发明实施例的用于信息处理的方法的示意性流程图。
图3A-图3D示出用于信息记录的用户界面的例子。
图4是根据本发明实施例的用于信息处理的装置的示意框图。
图5是根据本发明实施例的用于信息处理的装置的示意框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其它实施例,都属于本发明保护的范围。
随着通信技术和硬件技术的发展,智能移动终端的应用日益广泛。智能移动终端通常能够支持各种应用程序来实现拍照、音视频、通信、各种形式的内容编辑等各种功能。例如,用户能够通过移动终端上的录音功能对任何声音进行录音。比如,演讲的现场听众对演讲进行录音;参会者对会议现场进行录音;销售人员对与客户的接洽现场进行录音等。目前,为了了解这样的音频内容,用户可能需要完整地听取。对于长时间的音频内容(比如,工作报告或者学术报告等),这种方式既不现实,也不经济。而且在大多数情况下,人们可能并无兴趣花费较多的关注力来“听”这些音频内容,只是需要了解大概内容,或者最多对感兴趣的内容进行聆听。然而,现有技术中缺少解决这种需求的相应解决方案。
对此,本发明实施例提供了一种用于信息处理的技术方案。在该技术方案中,可以执行录音操作,以便获得音频内容。可以基于该音频内容,生成摘要信息,该摘要信息用于表示该音频内容的意思概括。
可见,在该技术方案中,通过生成针对音频内容的摘要信息,使得用户能够通过阅读该摘要信息来快速了解音频内容的大概意思或者快速定位到感兴趣的音频内容,而无需花费大量时间聆听完整的音频内容,从而能够极大地提升用户体验。
本发明实施例的技术方案可以应用于具有录音功能的任何适用的移动终端,例如,这样的终端可以包括但不限于:移动电话、平板设备、个人数字助理、智能可穿戴设备等。
下面将结合具体实施例来描述上述技术方案。
图1是根据本发明实施例的用于信息处理的方法的示意性流程图。
如图1所示,在步骤101中,可以执行录音操作,以便获得音频内容。
在步骤102中,可以基于该音频内容,生成摘要信息。其中,该摘要信息用于表示该音频内容的意思概括。
例如,可以在本领域任何适用的移动终端(比如,通过其中的录音模块)上执行录音操作,以便获得音频内容(也就是录音内容)。而摘要信息可以以简洁的方式表达该音频内容的总体意思。
可见,在本发明实施例中,针对通过录音操作记录的音频内容,生成表示其意思概括的摘要信息,使得用户能够通过摘要信息快速了解音频内容的总体意思或者快速地定位到感兴趣的音频内容,而无需完整地听取该音频内容,从而能够节省时间,极大地提升用户体验。
在一个实施例中,在步骤102中,可以将上述音频内容转换为文字摘要,其中,与音频内容相对应的完整文字长度相比,文字摘要中的文字长度较短。也就是说,文字摘要可以以简洁的方式概括音频内容的意思。相应地,摘要信息可以包括上述文字摘要。
可见,在该实施例中,通过提供文字摘要,使得用户能够以浏览的方式快速地了解音频内容的总体意思或者定位到感兴趣的音频内容,从而能够极大地提升用户体验。
在另一实施例中,可以将音频内容中与目标时段相对应的音频段转换为文字,作为文字摘要。具体而言,可以将音频内容中的某一段音频内容转换为文字,来形成文字摘要。该实施例中的这种方式在实现上简单方便。
例如,目标时段可以是预先设定的。例如,可以根据设计需求或者实际情况,预先设定目标时段的起始点以及长度。比如,可以预先设定目标时段的起始点为音频内容的起始时间点,长度为20秒。相应地,可以将音频内容的前20秒的音频段转换为文字,来形成文字摘要。
再比如,可以预先设定目标时段的起始点为音频内容的第20秒,长度为10秒。那么,可以将音频内容的从第20秒开始至第30秒之间的音频段转换为文字,来形成文字摘要。
应注意,此处的描述仅是举例说明,并不限制本发明实施例的范围。可以根据需要来预先设定目标时段的起始点以及长度,也就是说,与文字摘要相对应的音频段可以是音频内容中的具有任何长度的任何一段。
在一个实施例中,可以通过机器学习技术对音频内容的分析,来动态选择目标时段。例如,可以基于目前已有的或者未来发展的机器学习技术,自动归纳语义,选择能够最佳地表示音频内容的总体意思的时间段内的音频,将其转换为文字来形成文字摘要。可见,通过该实施例,能够形成更为准确地表示音频内容的总体意思的文字摘要。
在一个实施例中,如果目标时段是预先设定的,那么可以在获得与目标时段相对应的音频段时,实时地将音频段转换为文字,来形成文字摘要。也就是说,在通过录音操作录入该音频段时,同步地转换成文字。可见,在该实施例中,由于实时地形成文字摘要,所以能够缩短用户等待时间,使得用户能够更为快速了解音频内容的总体意思,进一步改善用户体验。
在一个实施例中,可以基于包括上述音频内容的n段音频内容,生成与n段音频内容分别对应的n份摘要信息,其中,n段音频内容中除了步骤101中描述的音频内容以外的其余(n-1)段音频内容可以是通过在步骤101中描述的录音操作之前的(n-1)次录音操作来获得的,n为大于1的正整数。
具体而言,在一次录音操作获得音频内容之后,可以先不生成针对该音频内容的摘要信息,而是在完成多次录音操作之后,针对多次录音操作分别得到的多段音频内容,一次性生成针对这多段音频内容的多份摘要信息。也就是说,可以以批量操作方式来生成多份摘要信息。这种方式能够避免由于中间处理可能造成的延迟等,提高处理效率。
在一个实施例中,与批量操作相反,可以采用单次操作方式来生成摘要信息。例如,可以在一次录音操作获得音频内容后,就针对该音频内容生成摘要信息。这种方式能够即时地得到摘要信息,使得用户快速得到摘要信息。可见,批量操作方式和单次操作方式能够满足用户的不同需求。
在一个实施例中,批量生成摘要信息可以是响应于用户的输入的。比如,在检测到用户对表示批量生成摘要信息的的“图标”的点击手势时,批量生成针对n份音频内容的n份摘要信息。进一步地,所针对的n份音频内容可以是用户通过一定的操作而选中的。也就是说,用户可以根据自己需求来决定需要针对哪些音频内容来生成摘要信息。可见,这样的方式能够为用户提供极大的选择灵活性,从而能够进一步改善用户体验。
在一个实施例中,单次生成摘要信息可以是响应于用户的输入的。例如,在检测到用户对表示针对当前音频内容生成摘要信息的“图标”的点击手势时,可以针对当前音频内容生成摘要信息。这种方式能够用户提供选择灵活性。例如,如果用户的移动终端电量低时,用户可以先不选择生成摘要信息,节省终端电量。而在需要时,再执行生成摘要信息的操作。
在一个实施例中,文字摘要可以是用户可编辑的。具体而言,用户可以通过一定的输入操作来修改文字摘要。例如,用户可以通过键盘输入,来修正错别字,修改语序等等。在该实施例中,为用户提供可编辑的文字摘要,能够提高用户处理灵活性,进一步改善用户体验。
在一个实施例中,上述文字摘要中的文字长度可以在预定的长度范围内。例如,该预定的长度范围可以根据实际需求来设定。比如,该预定的长度范围可以是50字。应理解的是,此处的数字仅是举例说明,并不限制本发明实施例的范围。
在该实施例中,通过控制文字摘要的长度,不仅便于用户浏览,而且能够节省存储空间。
在一个实施例中,在步骤101中,在检测到中断事件时,中断录音操作,从而获得从开始执行录音操作至中断录音操作这个期间的音频内容。具体而言,可以通过检测中断事件,使得音频内容分段,这不仅便于用户听取,也能够有效提高音频内容的处理效率,例如,提高摘要信息的生成效率。
在一个实施例中,上述中断事件可以包括检测到完成特定操作并且检测到执行录音操作已经达到或者超过第一预定时长。此处的特定操作可以包括以下各项中的至少一项:拍摄操作或者文本输入操作。此处的特定操作能够与录音操作同步进行。相应地,摘要信息可以包括通过拍摄操作所得到的拍摄内容和/或通过文本输入操作所得到的文本。
可以理解的是,特定操作可以与录音操作同步地进行。例如,可以在用户界面上呈现文本输入区域和拍摄界面,这样用户能够在同一用户界面上进行文本输入以及拍摄操作。此时,录音操作可以在后台运行。可选地,可以在该用户界面上显示录音图标,该录音图标可以与录音操作界面相关联。例如,响应于用户对该录音图标的点击手势,可以呈现录音操作界面。可选地,在该录音图标下方,可以显示录音操作已经持续的时长。
例如,第一预定时长可以根据设计需要或者用户需求来设定。比如,第一预定时长可以是30秒。应理解的是,此处的数字仅是举例说明,并非限制本发明实施例的范围。
例如,响应于用户的拍摄命令,调用摄像头拍摄照片。检测到完成照片拍摄并且录音操作已经达到或者超过第一预定时长,可以使得录音操作中断,从而获得从开始录音至中断这个期间的音频内容。此时,在步骤102中得到的摘要信息还可以包括拍摄的照片。
比如,假设第一预定时长是30秒,检测到完成照片拍摄时,录音操作已经持续了40秒(已经超过第一预定时长30秒),可以使得录音操作中断,从而获得40秒长度的音频内容。如果在检测到完成照片拍摄时,录音操作持续了10秒,此处还没有达到第一预定时长,那么在录音操作持续30秒时,使得录音操作中断,从而获得30秒长度的音频内容。
再例如,响应于用户的文本输入手势,接收用户所输入的文本。检测到文本输入结束,并且此时录音操作已经达到或者超过第一预定时长,可以使得录音操作中断,从而获得从开始录音至中断这个期间的音频内容。相应地,在步骤102得到的摘要信息还可以包括输入的文本。
比如,假设第一预定时长是20秒,检测到文本输入结束时,此时录音操作已经持续了30秒,那么可以使得录音操作中断,从而获得30秒长度的音频内容。如果在检测到文本输入结束时,录音操作持续了10秒,可以在录音操作到达第一预定时长20秒时,使得录音操作中断,从而获得20秒长度的音频内容。
再例如,与前述情况类似,如果检测到同步或者基本上同步地完成照片拍摄以及文本输入操作,检查录音操作已经持续的时长是否达到或者超过第一预定时长,来确定是否使得录音操作中断。相应地,在步骤102得到的摘要信息还可以包括拍摄的照片以及输入的文本。
在该实施例中,基于用户的外部输入来中断录音操作,能够引导用户关注录音时的重点,从而节省用户时间,提升用户体验。
此外,由于在录音操作的同时,用户能够拍摄照片和/或输入文本,从而便于用户针对特定的音频内容随时“做笔记”。而且,将用户的“笔记”形成为摘要信息的一部分,也就是使得用户的“笔记”能够与对应的音频内容相关联,非常方便用户快速了解或者定位音频内容,从而能够极大地提升用户体验。
在一个实施例中,中断事件可以包括没有检测到特定操作并且检测到录音操作已经达到第二预定时长。此处的特定操作可以包括以下各项中的至少一项:拍摄操作或者文本输入操作。
可以理解的是,此处的特定操作能够与录音操作同步进行。例如,可以在用户界面上呈现文本输入区域和拍摄界面,这样用户能够在同一用户界面上进行文本输入以及拍摄操作。此时,录音操作可以在后台运行。可选地,可以在该用户界面上显示录音图标,该录音图标可以与录音操作界面相关联。例如,响应于用户对该录音图标的点击手势,可以呈现录音操作界面。可选地,在该录音图标下方,可以显示录音操作已经持续的时长。
例如,第二预定时长可以根据设计需要或者用户需求来预先设定。比如,第二预定时长可以是2分钟。
在该实施例中,如果没有检测到特定操作,那么每隔第二预定时长可以使录音操作中断一次,从而获得从开始录音至中断这个期间的音频内容。可以理解的是,这种方式得到的音频内容的时长可以是第二预定时长。比如,在第二预定时长为2分钟的情况下,可以得到2分钟时长的音频内容。
这种方式能够避免音频内容太冗长而浪费用户听取时间,而且能够简化音频内容的处理复杂度,提高处理效率,比如能够提高生成摘要信息的效率。
在一个实施例中,中断事件可以包括检测到通过录音操作记录的音频的参数改变超过预定阈值。比如,可以针对用于语音识别的音频参数设置相应的预定阈值。这些预定阈值可以基于语音识别技术等来设定。例如,这些音频参数可以包括但不限于声强、响度、音高、频率等。如果检测到音频参数的改变超过预定阈值,也可以理解为音频参数发生显著改变,那么可以使得录音操作中断。
比如,该实施例可以针对于长时间静音、鼓掌或者讲话者改变等的场景,使得录音操作产生中断。这样,能够智能地根据场景对音频内容进行分段,便于用户快速了解或者管理音频内容。
在一个实施例中,如果录音功能没有被关闭,那么可以在每次中断录音操作之后,紧接着执行下一次录音操作。这样,对于长时间录音,能够获得多段音频内容,便于用户了解和管理音频内容。
在一个实施例中,上述方法可以用于信息记录。那么,可以在用于信息记录的用户界面上,以时间关联的方式呈现用于播放音频内容的播放界面以及相应的摘要信息。
记录是人们的一种基本生活与工作行为。生活中有日记、记账、活动记录、旅行记录等等。工作中有工作日志、会议纪要、培训笔记、客户拜访记录等等。好的记录习惯通常意味着更高效的工作以及更高品质的生活。因此,帮助人们做好记录对个人与社会都有着极大的价值。
在本发明实施例中,通过利用移动终端的录音功能进行音频记录,并且相应地形成摘要信息,能够帮助用户实现高效快速的信息记录和管理。
进一步地,如上所述,在录音的同时,用户能够输入文本和/或拍摄照片,这使得用户能够利用文字、图片或者音频等多种格式的信息来进行记录,从而能够充分满足用户对于信息记录的需求,提升用户体验。
在一个实施例中,还可以响应于用户对上述播放界面的操作,播放音频内容,或者改变音频的播放时间点。比如,用户可以快进音频内容,或者后退音频内容等。
应当理解的是,步骤101中,可以响应于用户的启动录音命令,而开始执行录音操作。例如,在用户界面上可以具有录音图标,响应于用户对该录音图标的点击手势,开始执行录音操作。或者,可以响应于用户的语音录音命令,而开始执行录音操作。
以下将结合具体例子来描述本发明实施例。应当理解的是,这些例子仅是为了帮助本领域技术人员更好地理解本发明实施例,而非限制本发明实施例的范围。
图2是根据本发明实施例的用于信息处理的方法的示意性流程图。
如图2所示,在步骤201中,开始执行录音操作。
例如,可以响应于用户的启动录音命令,开始执行录音操作。比如,用户首先打开某一用户界面,通过点击该用户界面上的录音图标,使得开始执行录音操作。例如,该用户界面可以是用于信息记录的用户界面。
在步骤202中,检测是否发生中断事件。
关于中断事件的详细描述,可以参见关于图1的实施例的描述,为了避免重复,此处不再赘述。
如果在步骤202中检测到中断事件,则在步骤203中,中断录音操作,并且获得音频内容。
在步骤203处,如果录音功能没有被关闭,那么可以与步骤203同步地或者基本上同步地启动下一次录音操作,即返回到步骤201。
在步骤202中,如果没有检测到中断事件,则继续进行检测。
在步骤204中,可以基于获得的音频内容,生成摘要信息。
步骤204可以与其它步骤同步地执行,例如,步骤201、步骤202和/或步骤203。
在步骤205中,可以以时间关联的方式向用户呈现用于播放音频内容的播放界面以及相应的摘要信息。
可以理解的是,步骤201至步骤205可以循环地执行,从而获得多段音频内容以及其相应的摘要信息。
以上各个步骤的具体实现过程可以参照关于图1的对应描述,为了避免重复,此处不再赘述。
应当理解的是,本发明实施例的各个步骤的执行是基于其内在逻辑关系,而并不限于图2所示出的步骤的次序。在不脱离本发明实施例的范围的情况下,可以改变以上各个步骤的执行次序。例如,如上所述,步骤204可以与下一次录音操作同步地执行。
为了本领域技术人员更好地理解本发明实施例,下面结合用户界面的例子来进行描述。在以下例子中,以用于信息记录的用户界面为例进行说明。应当理解的是,这些例子并不限制本发明实施例的范围。
图3A示出用于信息记录的用户界面的一个例子。如图3A所示,在该用户界面上包括显示区域301。在该显示区域301的上方,显示有“标题”部分。用户可以对“标题”部分进行个性化编辑。在该显示区域301的下方,显示有文本输入框,以及图标“+”。
通过点击图标“+”,可以出现菜单选项。如图3B所示,在该菜单选项中,可以至少包括“拍照”图标以及“录音”图标。
可以理解的是,此处为了便于示意,在菜单选项中仅示出了“拍照”图标以及“录音”图标。但是,根据设计需求等,菜单中还可以包括任何其它功能的选项,本发明实施例对此不作限定。
通过用户点击“拍照”图标,可以在显示区域301中呈现拍摄界面。通过用户点击“录音”图标,可以启动录音操作。此外,还可以通过点击文本输入框,呈现虚拟键盘。
在图3C中示出了同时启动拍摄界面、录音操作以及文本输入功能的用户界面。在图3C中,“后台录音”图标可以表示正在进行后台录音。通过用户点击“后台录音”图标,可以向用户呈现录音界面。
在图3C所示出的用户界面上,在录音操作被执行的同时,用户可以通过拍摄界面拍摄照片和/或通过键盘输入文本。
图3D示出了在用户拍摄照片和输入文本之后的用户界面。如图3D所示,在显示区域301中,可以呈现用于播放音频内容的音频播放界面以及相应的摘要信息。如图3D所示,摘要信息可以包括拍摄的照片、输入的文本内容以及所转换的文字摘要。
图3A-3D中涉及的音频内容处理过程的具体实现,可以参见前述图1和图2的实施例的相应描述,为了避免重复,此处不再赘述。
此外,应当理解的是,图3A-3D仅是简要的示意图,本发明实施例并不限于此。例如,在用户界面上的各个元素的布局可以根据用户设置或者设计需要来预先设定或者动态改变。例如,在图3D中,可以不在该用户界面上显示键盘,即隐藏键盘。
图4是根据本发明实施例的用于信息处理的装置的示意框图。例如,图4所示的装置400可以位于本领域任何适用的移动终端上。
如图4所示,装置400包括录音模块410和生成模块420。录音模块410执行录音操作以便获得音频内容。生成模块420基于该音频内容,生成摘要信息。其中,该摘要信息用于表示该音频内容的意思概括。
在本发明实施例中,针对通过录音操作记录的音频内容,生成表示其意思概括的摘要信息,使得用户能够通过摘要信息快速了解音频内容的总体意思或者快速地定位到感兴趣的音频内容,而无需完整地听取该音频内容,从而能够节省时间,极大地提升用户体验。
在一个实施例中,生成模块420可以将音频内容转换为文字摘要,其中,文字摘要中的文字长度比与音频内容相对应的完整文字长度短。生成模块420还可以生成摘要信息,其中,摘要信息可以包括上述文字摘要。
在一个实施例中,生成模块可以将音频内容中与目标时段相对应的音频段转换为文字,作为上述文字摘要。
在一个实施例中,上述目标时段可以是预先设定的。
在一个实施例中,对于目标时段是预先设定的情况,生成模块420可以在获得与目标时段对应的音频段时,实时地将该音频段转换为文字,作为上述文字摘要。
在一个实施例中,上述目标时段可以是通过机器学习技术对音频内容的分析,来动态选择的。
在一个实施例中,上述文字摘要可以是用户可编辑的。
在一个实施例中,上述文字摘要中的文字长度可以在预定的长度范围内。
在一个实施例中,录音模块410可以在检测到中断事件时,中断录音操作,以便获得从开始执行录音操作至中断录音操作为止的音频内容。
在一个实施例中,上述中断事件可以包括:检测到完成特定操作并且检测到执行录音操作已经达到或者超过第一预定时长。特定操作可以包括以下各项中的至少一项:拍摄操作或者文本输入操作。特定操作能够与录音操作同步进行。相应地,摘要信息还可以包括以下各项中的至少一项:通过拍摄操作所得到的拍摄内容或者通过文本输入操作所得到的文本。
在一个实施例中,上述中断事件还可以包括没有检测到特定操作并且检测到执行录音操作已经达到第二预定时长。特定操作可以包括以下各项中的至少一项:拍摄操作或者文本输入操作。特定操作能够与录音操作同步进行。上述中断事件还可以包括检测到通过录音操作记录的音频的参数改变超过预定阈值。
在一个实施例中,录音模块420执行的录音操作是紧接在上一次录音操作被中断后执行的。
在一个实施例中,装置400可以用于信息记录。装置400还可以包括呈现模块430。呈现模块430可以在用于信息记录的用户界面上,呈现用于播放音频内容的播放界面以及摘要信息。
在一个实施例中,装置400还可以包括音频处理模块440。音频处理模块440可以响应于用户对播放界面的操作,执行以下各项中的至少一项:播放音频内容、或者改变音频内容的播放时间点。
在一个实施例中,生成模块420可以基于包括上述音频内容的n段音频内容,生成与n段音频内容分别对应的n份摘要信息。n段音频内容中除了音频内容之外的(n-1)段音频内容可以是通过在录音模块410执行的录音操作之前的(n-1)次录音操作而获得的,n为大于1的正整数。
应当理解的是,为了描述的方便和简洁,装置400的各个模块的具体功能和操作可以参照前述方法实施例的对应过程,此处将不再赘述。
图5是根据本发明实施例的用于信息处理的装置的示意框图。例如,装置500可以位于移动终端中。
参照图5,装置500可以包括处理组件510,其进一步包括一个或多个处理器。所述处理器可以包括但不限于,通用处理器、专用处理器、专用集成电路、数字信号处理器、现场可编程逻辑器件等。装置500可以包括由存储器520所代表的存储器资源,用于存储可由处理组件的执行的指令,例如应用程序。存储器520中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理组件510可以被配置为执行指令,以执行上述用于信息处理的方法。
此外,装置500还可以包括显示屏幕530。例如,显示屏幕530可以用于显示用于信息记录的用户界面。在该用户界面上可以进一步显示各种信息,比如本文描述的用于播放音频内容的播放界面以及摘要信息。例如,显示屏幕530可以是电容式触摸屏幕或者电阻式触摸屏幕等。
装置500还可以包括被配置为执行装置500的电源管理的电源组件、被配置为将装置500连接到网络的有线或无线网络接口、以及输入输出(I/O)接口。装置500可以基于存储在存储器520的操作系统进行操作,例如Android(安卓)、iOS、Windows ServerTM,Mac OSXTM,UnixTM,LinuxTM,FreeBSDTM或类似的操作系统。
本发明实施例还提供了一种非临时性计算机可读存储介质,当存储介质中的指令由上述装置的处理器执行时,使得上述装置能够执行前述用于信息处理的方法。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的发送支付消息的步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的方法和平台的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的平台和方法,可以通过其它的方式实现。例如,以上所描述的支付平台实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序校验码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (10)

1.一种用于信息处理的方法,用于信息记录,其特征在于,包括:
执行n次录音操作以实时获得n份音频内容,n为大于1的整数;其中,获取每份所述音频内容的方式包括:在检测到中断事件时,中断所述录音操作,以便获得从开始执行所述录音操作至中断所述录音操作为止的所述音频内容,避免所述音频内容太冗长;所述录音操作是在上一次录音操作被中断时同步启动的;
选取所述n份音频内容中的任意一份或多份,生成摘要信息,其中,所述摘要信息用于表示所述音频内容的意思概括;以及
在用于信息记录的用户界面上,呈现所述摘要信息;
其中,所述中断事件包括:
检测到完成特定操作并且检测到执行所述录音操作已经达到或者超过第一预定时长,或者
没有检测到特定操作并且检测到执行所述录音操作已经达到第二预定时长,或者
检测到通过所述录音操作记录的音频的参数改变超过预定阈值;
所述特定操作包括以下各项中的至少一项:拍摄操作或者文本输入操作,所述特定操作能够与所述录音操作同步进行;所述摘要信息还包括以下各项中的至少一项:通过所述拍摄操作所得到的拍摄内容或者通过所述文本输入操作所得到的文本;其中,所述拍摄内容、文本与所述n份音频内容以时间关联的方式混合排列于所述用于信息记录的用户界面上。
2.根据权利要求1所述的方法,其特征在于,所述选取所述n份音频内容中的任意一份或多份,生成摘要信息,包括:
将所述音频内容转换为文字摘要,其中,所述文字摘要中的文字长度比与所述音频内容相对应的完整文字长度短;
生成所述摘要信息,其中,所述摘要信息包括所述文字摘要。
3.根据权利要求2所述的方法,其特征在于,所述将所述音频内容转换为文字摘要,包括:
将所述音频内容中与目标时段相对应的音频段转换为文字,作为所述文字摘要。
4.根据权利要求3所述的方法,其特征在于,所述目标时段是预先设定的。
5.根据权利要求4所述的方法,其特征在于,所述将所述音频内容中与目标时段相对应的音频段转换为文字,作为所述文字摘要,包括:
在获得所述音频段时,实时地将所述音频段转换为文字,作为所述文字摘要。
6.根据权利要求3所述的方法,其特征在于,所述目标时段是通过机器学习技术对所述音频内容的分析,来动态选择的。
7.根据权利要求2至6中任一项所述的方法,其特征在于,所述文字摘要在生成后是用户可编辑的。
8.根据权利要求2至6中任一项所述的方法,其特征在于,所述文字摘要中的文字长度在预定的长度范围内。
9.根据权利要求1所述的方法,其特征在于,所述方法还包括:
响应用户对所述用户界面的操作,执行以下各项中的至少一项:播放所述音频内容、或者改变所述音频内容的播放时间点。
10.一种用于信息处理的装置,用于信息记录,其特征在于,包括:
录音模块,用于执行n次录音操作以实时获得n,n为大于1的整数份音频内容;其中,获取每份所述音频内容的方式包括:在检测到中断事件时,中断所述录音操作,以便获得从开始执行所述录音操作至中断所述录音操作为止的所述音频内容,避免所述音频内容太冗长;所述录音操作是在上一次录音操作被中断时同步启动的;
其中,所述中断事件包括:
检测到完成特定操作并且检测到执行所述录音操作已经达到或者超过第一预定时长,或者
没有检测到特定操作并且检测到执行所述录音操作已经达到第二预定时长,或者
检测到通过所述录音操作记录的音频的参数改变超过预定阈值;
所述特定操作包括以下各项中的至少一项:拍摄操作或者文本输入操作,所述特定操作能够与所述录音操作同步进行;
生成模块,用于选取所述n份音频内容中的任意一份或多份,生成摘要信息,其中,所述摘要信息用于表示所述音频内容的意思概括;所述摘要信息还包括以下各项中的至少一项:通过所述拍摄操作所得到的拍摄内容或者通过所述文本输入操作所得到的文本;以及
呈现模块,用于在用于信息记录的用户界面上,呈现所述摘要信息;
所述呈现模块进一步配置为:所述拍摄内容、文本与所述n份音频内容以时间关联的方式混合排列于所述用于信息记录的用户界面上。
CN201711297774.5A 2017-12-08 2017-12-08 用于信息处理的方法和装置 Active CN108052578B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711297774.5A CN108052578B (zh) 2017-12-08 2017-12-08 用于信息处理的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711297774.5A CN108052578B (zh) 2017-12-08 2017-12-08 用于信息处理的方法和装置

Publications (2)

Publication Number Publication Date
CN108052578A CN108052578A (zh) 2018-05-18
CN108052578B true CN108052578B (zh) 2020-07-28

Family

ID=62123639

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711297774.5A Active CN108052578B (zh) 2017-12-08 2017-12-08 用于信息处理的方法和装置

Country Status (1)

Country Link
CN (1) CN108052578B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110767234B (zh) * 2019-10-31 2022-12-23 抖音视界有限公司 音频信息处理方法、装置、电子设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106446109A (zh) * 2016-09-14 2017-02-22 科大讯飞股份有限公司 语音文件摘要的获取方法和装置
CN106653077A (zh) * 2016-12-30 2017-05-10 网易(杭州)网络有限公司 用于记录语音笔记的方法和装置及可读存储介质
CN106790945A (zh) * 2016-11-10 2017-05-31 宇龙计算机通信科技(深圳)有限公司 通话的记录方法、装置和终端
CN106802885A (zh) * 2016-12-06 2017-06-06 乐视控股(北京)有限公司 一种会议纪要自动记录方法、装置和电子设备
CN107025913A (zh) * 2016-02-02 2017-08-08 西安中兴新软件有限责任公司 一种录音方法及终端

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007065928A (ja) * 2005-08-30 2007-03-15 Toshiba Corp 情報記憶媒体、情報処理方法、情報転送方法、情報再生方法、情報再生装置、情報記録方法、情報記録装置、及びプログラム
WO2009094611A2 (en) * 2008-01-25 2009-07-30 Sony Online Entertainment Llc System and method for creating, editing, and sharing video content relating to video game events
CN106559540A (zh) * 2015-09-30 2017-04-05 北京奇虎科技有限公司 语音数据处理方法及装置
CN105702278A (zh) * 2016-04-19 2016-06-22 珠海格力电器股份有限公司 一种会议的录音方法、装置及终端

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107025913A (zh) * 2016-02-02 2017-08-08 西安中兴新软件有限责任公司 一种录音方法及终端
CN106446109A (zh) * 2016-09-14 2017-02-22 科大讯飞股份有限公司 语音文件摘要的获取方法和装置
CN106790945A (zh) * 2016-11-10 2017-05-31 宇龙计算机通信科技(深圳)有限公司 通话的记录方法、装置和终端
CN106802885A (zh) * 2016-12-06 2017-06-06 乐视控股(北京)有限公司 一种会议纪要自动记录方法、装置和电子设备
CN106653077A (zh) * 2016-12-30 2017-05-10 网易(杭州)网络有限公司 用于记录语音笔记的方法和装置及可读存储介质

Also Published As

Publication number Publication date
CN108052578A (zh) 2018-05-18

Similar Documents

Publication Publication Date Title
US10200634B2 (en) Video generation method, apparatus and terminal
EP3352438B1 (en) User terminal device for recommending response message and method therefor
WO2020029523A1 (zh) 视频生成方法、装置、电子设备及存储介质
CN107463247B (zh) 一种文本阅读处理的方法、装置以及终端
CN104995596A (zh) 在选项卡层级管理音频以用于用户通知及控制
CN104992709A (zh) 一种语音指令的执行方法及语音识别设备
CN103841268A (zh) 信息处理方法和信息处理装置
CN109819301B (zh) 视频的播放方法及装置、终端设备、计算机可读存储介质
WO2014201832A1 (en) Page turning method, page turning apparatus and terminal as well as computer readable medium
CN109634501B (zh) 电子书批注添加方法、电子设备及计算机存储介质
CN109672902A (zh) 一种视频抽帧方法、装置、电子设备和存储介质
CN111986689A (zh) 音频播放方法、音频播放装置和电子设备
CN110781349A (zh) 用于短视频生成的方法、设备、客户端装置及电子设备
CN111556329B (zh) 一种直播中媒体内容插入的方法及装置
JP2017538328A (ja) プロモーション情報の処理方法、装置、デバイス及びコンピュータ記憶媒体
CN110943908A (zh) 语音消息发送方法、电子设备及介质
CN112291614A (zh) 一种视频生成方法及装置
CN104615432B (zh) 闪屏信息处理方法及客户端
US10965629B1 (en) Method for generating imitated mobile messages on a chat writer server
CN114880062A (zh) 聊天表情展示方法、设备、电子设备及存储介质
CN108108143B (zh) 录音回放的方法、移动终端及具有存储功能的装置
CN108052578B (zh) 用于信息处理的方法和装置
CN110753246A (zh) 视频播放方法、客户端、服务器及系统
CN104967911A (zh) 多媒体文件插入位置的确定方法及装置
CN104123112A (zh) 一种图像处理方法及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant