CN115906781B - 音频识别加锚点方法、装置、设备及可读存储介质 - Google Patents

音频识别加锚点方法、装置、设备及可读存储介质 Download PDF

Info

Publication number
CN115906781B
CN115906781B CN202211619897.7A CN202211619897A CN115906781B CN 115906781 B CN115906781 B CN 115906781B CN 202211619897 A CN202211619897 A CN 202211619897A CN 115906781 B CN115906781 B CN 115906781B
Authority
CN
China
Prior art keywords
audio data
text
target
processed
anchor point
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211619897.7A
Other languages
English (en)
Other versions
CN115906781A (zh
Inventor
张吉岗
朱增
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ONYX INTERNATIONAL Inc
Original Assignee
ONYX INTERNATIONAL Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ONYX INTERNATIONAL Inc filed Critical ONYX INTERNATIONAL Inc
Priority to CN202211619897.7A priority Critical patent/CN115906781B/zh
Publication of CN115906781A publication Critical patent/CN115906781A/zh
Application granted granted Critical
Publication of CN115906781B publication Critical patent/CN115906781B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本申请提供一种音频识别加锚点方法、装置、设备及可读存储介质,本申请通过为待处理的笔记文件进行自动化设置锚点,无需用户反复收听音频内容来对笔记文件进行整理,便于用户快速整理归档音视频资料;还可以利用语音识别技术获得音视频的文本内容,可以快速根据锚点关键词检索笔记文件,用户可以凭借模糊记忆即可快速查找到笔记文件中想要查找的信息;进一步地,本申请可以将锚点与音视频对应的时间戳构建对应关系,当用户需要查找笔记文件中特定内容时,可以准确跳转到笔记文件中特定内容对应的锚点位置,本申请实施例提供的方法减少了语音识别的比对难度,降低了现有的整理音视频文件的难度,解决了难以快速检索和定位的缺点。

Description

音频识别加锚点方法、装置、设备及可读存储介质
技术领域
本申请涉及信息处理技术领域,尤其涉及一种音频识别加锚点方法、装置、设备及可读存储介质。
背景技术
随着科学技术的发展,人们的学习资料和学习手段更加丰富,人们在学习和工作的过程中,有时候需要及时对重要内容进行记录,除了传统的手写和文字笔记,还有的用户采用了现场录像或录制音频的方式来记录想要记录的内容。录音录像虽然简单快捷,但是整理起来比较困难,如果不加以整理而直接存档,则难以有效利用记录内容。
目前对于音视频内容,通常需要用户手动增加识别锚点来快速整理笔记文件。锚点是超级链接的一种,锚点能够像文字标签一样实现定位跳转的功能,但需要用户手动整理录音录像时,再依次添加锚点,因此效率较低。
发明内容
本申请旨在至少能解决上述的技术缺陷之一,有鉴于此,本申请提供了一种音频识别加锚点方法、装置、设备及可读存储介质,用于解决现有技术中难以高效地处理笔记文件的技术缺陷。
一种音频识别加锚点方法,包括:
读取待处理的笔记文件;
判断所述待处理的笔记文件是否存在音频数据;
若所述待处理的笔记文件存在音频数据,则提取与所述待处理的笔记文件对应的目标音频数据;
识别所述目标音频数据,确定与所述目标音频数据对应的目标文本段落;
依据所述目标音频数据对应的目标文本段落,将所述待处理的笔记文件划分为多个目标文本区间;
在所述待处理的笔记文件上给每个所述目标文本区间设置对应的锚点;
将各个所述锚点与每个所述锚点对应的目标文本区间对应的目标文本段落绑定以构建对应关系。
优选地,在在所述待处理的笔记文件上给每个所述目标文本区间设置对应的锚点之后,在将各个所述锚点与每个所述锚点对应的目标文本区间对应的目标文本段落绑定以构建对应关系之前,该方法还包括:
将每个所述目标文本区间对应的目标文本段落设置为与每个所述目标文本区间对应的所述锚点的标签关键字;
将每个所述锚点和每个所述锚点对应的标签关键字保存在预设数据库中。
优选地,该方法还包括:
依据用户的需求,对所述待处理的笔记文件的各个所述锚点或与其对应的标签关键字进行编辑。
优选地,所述提取与所述待处理的笔记文件对应的目标音频数据,包括:
提取所述待处理的笔记文件中的音频数据;
对所述待处理的笔记文件中的音频数据进行解码,得到与所述待处理的笔记文件对应的目标音频数据。
优选地,所述识别所述目标音频数据,确定与所述目标音频数据对应的目标文本段落,包括:
依据所述目标音频数据,调用服务器端或本地的语音识别接口对所述目标音频数据进行特征匹配处理,得到所述目标音频数据的特征匹配结果;
依据所述目标音频数据的特征匹配结果,确定与所述目标音频数据对应的文本内容;
依据所述目标音频数据的特征,将与所述目标音频数据对应的文本内容分割成至少一个目标文本段落。
优选地,所述依据所述目标音频数据的特征,将与所述目标音频数据对应的文本内容分割成至少一个目标文本段落,包括:
确定所述目标音频数据的起始时间戳;
依据所述目标音频数据的特征,识别从所述目标音频数据的起始时间戳开始,所述目标音频数据对应的文本内容的上下文含义、声源的语气以及声源的每次停顿时长,确定所述目标音频数据对应的文本内容中的每次停顿的时间戳;
依据所述目标音频数据的起始时间戳以及所述目标音频数据对应的文本内容中的每次停顿的时间戳,依次将所述目标音频数据对应的文本内容分割成至少一个待处理文本段落;
依据每个所述待处理文本段落对应的音频数据时长,确定每个所述待处理文本段落的文本时长;
依据所述目标音频数据的起始时间戳以及每个所述待处理文本段落的文本时长,确定每个所述待处理文本段落的起始时间戳和结束时间戳;
依据所述目标音频数据对应的文本内容的上下文含义、声源的语气以及声源的每次停顿时长,给所述目标音频数据对应的文本内容添加对应的预设的第一标点符号;
依据所述目标音频数据对应的文本内容对应的标点符号,对各个所述待处理文本段落进行整合,得到至少一个与所述目标音频数据对应的目标文本段落。
优选地,所述依据所述目标音频数据对应的目标文本段落,将所述待处理的笔记文件划分为多个目标文本区间,包括:
读取所述目标音频数据对应的文本内容的标点符号以及每个所述待处理文本段落的起始时间戳和结束时间戳;
依据所述目标音频数据对应的文本内容中预设的第二标点符号,以及每个所述待处理文本段落的起始时间戳和结束时间戳,确定所述目标音频数据对应的文本内容中的每个整句文本内容;
对每个所述整句文本内容对应的所述待处理文本段落进行整合,并确定每个所述整句文本内容对应的起始时间戳和结束时间戳;
依据每个所述整句文本内容对应的起始时间戳和结束时间戳,以一个所述整句文本对应的文本内容作为一个文本区间,将所述待处理的笔记文件划分为至少一个目标文本区间。
优选地,该方法还包括:
分析用户对各个所述锚点的操作,确定用户选中的锚点对应的目标文本区间;
跳转到用户选中的锚点对应的目标文本区间;
若所述待处理的笔记文件为音频文件,则确定与用户选中的锚点对应的目标文本区间对应的目标文本段落,并播放与用户选中的锚点对应的目标文本区间对应的目标文本段落对应的音频数据;
若所述待处理的笔记文件为视频文件,则播放与用户选中的锚点对应的视频数据;
若所述待处理的笔记文件为含有音轨的手写笔记文件,则显示与用户选中的锚点对应的笔迹数据。
一种音频识别加锚点装置,包括:
第一读取单元,用于读取待处理的笔记文件;
第一判断单元,用于判断所述待处理的笔记文件是否存在音频数据;
第一提取单元,用于当所述第一单元的执行结果为确定所述待处理的笔记文件存在音频数据,则提取与所述待处理的笔记文件对应的目标音频数据;
第一识别单元,用于识别所述目标音频数据,确定与所述目标音频数据对应的目标文本段落;
第一划分单元,用于依据所述目标音频数据对应的目标文本段落,将所述待处理的笔记文件划分为多个目标文本区间;
第一锚点设置单元,用于在所述待处理的笔记文件上给每个所述目标文本区间设置对应的锚点;
第一构建单元,用于将各个所述锚点与每个所述锚点对应的目标文本区间对应的目标文本段落绑定以构建对应关系。
一种音频识别加锚点设备,包括:一个或多个处理器,以及存储器;
所述存储器中存储有计算机可读指令,所述计算机可读指令被所述一个或多个处理器执行时,实现如前述介绍中任一项所述音频识别加锚点方法的步骤。
一种可读存储介质,所述可读存储介质中存储有计算机可读指令,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器实现如前述介绍中任一项所述音频识别加锚点方法的步骤。
从以上介绍的技术方案可以看出,当需要对待处理的笔记文件进行整理时,本申请实施例提供的方法可以读取待处理的笔记文件;并判断所述待处理的笔记文件是否存在音频数据;若所述待处理的笔记文件存在音频数据,则可以提取与所述待处理的笔记文件对应的目标音频数据;以便可以通过识别所述目标音频数据,确定与所述目标音频数据对应的目标文本段落;将所述目标音频数据划分为多个目标文本段落,可以有助于更好地依据每一个所述目标文本段落来快速整理所述待处理的笔记文件,因此,在确定所述目标音频数据对应的目标文本段落之后,可以依据所述目标音频数据对应的目标文本段落,将所述待处理的笔记文件划分为多个目标文本区间;并在所述待处理的笔记文件上给每个所述目标文本区间设置对应的锚点;在在所述待处理的笔记文件上给每个所述目标文本区间设置对应的锚点之后,为了可以快速定位到每个锚点对应的笔记文件的内容,可以将各个所述锚点与每个所述锚点对应的目标文本区间对应的目标文本段落绑定以构建对应关系,以便可以利用书搜狐锚点对各个所述目标文本段落进行管理。
本申请实施例提供的方法可以通过为待处理的笔记文件进行自动化设置锚点,无需用户反复收听音频内容来对笔记文件进行整理,便于用户快速整理归档音视频资料;还可以利用语音识别技术获得音视频的文本内容,可以快速根据锚点关键词检索笔记文件,用户可以凭借模糊记忆即可快速查找到笔记文件中想要查找的信息;进一步地,本申请可以将锚点与音视频对应的时间戳构建对应关系,当用户需要查找笔记文件中特定内容时,可以准确跳转到笔记文件中特定内容对应的锚点位置,本申请实施例提供的方法减少了语音识别的比对难度,降低了现有的整理音视频文件的难度,解决了难以快速检索和定位的缺点。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。
图1为本申请实施例提供的一种实现音频识别加锚点方法的流程图;
图2为本申请实施例提供的一种识别音频数据得到与音频数据对应的文本段落的效果示意图;
图3为本申请实施例示例的一种为音频数据对应的文本内容添加标点符号之后的效果示意图;
图4为本申请实施例示例的一种对某一段笔记文件对应的文本段落划分整句的效果示意图;
图5为本申请实施例示例的一种对某一段笔记文件对应的文本段落划分为4个文本区间的效果示意图;
图6为本申请实施例示例的一种划分笔记文件对应的文本区间的效果示意图;
图7为本申请实施例示例的一种为笔记文件的各个文本区间设置各个锚点的效果示意图。
图8为本申请实施例示例的一种用户选中了某个特定文本信息的效果示意图;
图9为本申请实施例示例的一种用依据用户选中的某个特定的文本信息跳转到对应的锚点的效果示意图;
图10为本申请实施例示例的一种音频识别加锚点装置结构示意图;
图11为本申请实施例公开的一种音频识别加锚点设备的硬件结构框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
虽然现有技术也可以对音视频数据进行快速处理,现有的音视频数据处理手段通常是直接采用语音识别技术,将音视频数据转成文本文档,但常用的语音识别技术存在一定的错漏,用户难以对语音识别转换的文本文档进行校对。
此外,纯文本内容含有的信息量较少,与原文件的关联性不足,当用户需要确认对话场景,或者辨认发言人等,难以快速比对音视频内容,同理,在进行查找特定内容时,不如锚点功能可靠,因此现有的技术各有不足,缺乏全面整合的能力。
鉴于目前大部分的音频识别加锚点方案难以适应用户的需求,为此,本申请人研究了一种音频识别加锚点方案,该音频识别加锚点方案可以通过为待处理的笔记文件进行自动化设置锚点,无需用户反复收听音频内容来对笔记文件进行整理,便于用户快速整理归档音视频资料;还可以利用语音识别技术获得音视频的文本内容,可以快速根据锚点关键词检索笔记文件,用户可以凭借模糊记忆即可快速查找到笔记文件中想要查找的信息;进一步地,本申请可以将锚点与音视频对应的时间戳构建对应关系,当用户需要查找笔记文件中特定内容时,可以准确跳转到笔记文件中特定内容对应的锚点位置,本申请实施例提供的方法减少了语音识别的比对难度,降低了现有的整理音视频文件的难度,解决了难以快速检索和定位的缺点。
本申请实施例提供的方法可以用于众多通用或专用的计算装置环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器装置、包括以上任何装置或设备的分布式计算环境等等。
本申请实施例提供一种音频识别加锚点方法,该方法可以应用于各种车辆的语音识别系统或信息处理系统中,亦可以应用在各种计算机终端或是智能终端中,其执行主体可以为计算机终端或是智能终端的处理器或服务器。
下面结合图1,介绍本申请实施例给出的音频识别加锚点方法的流程,如图1所示,该流程可以包括以下几个步骤:
步骤S101,读取待处理的笔记文件。
具体地,随着科学技术的发展,人们的学习资源和学习手段更加多元化,人们在学习过程中,有时候需要及时记录一些重要的笔记,为了快速记录某些重要的内容,有些用户会选择录音录像的方式来记录。当用户需要快速整理已经记录的录音录像笔记文件时,如何快速整理录音录像笔记成了用户关注的问题。
为了实现快速整理待处理的笔记文件,可以先读取待处理的笔记文件,以便可以通过分析所述待处理的笔记文件来快速整理所述待处理的笔记文件。
其中,
待处理的笔记文件可以包括音频笔记文件、视频笔记文件以及包括音频数据和视频数据的笔记文件。
步骤S102,判断所述待处理的笔记文件是否存在音频数据。
具体地,由上述介绍可知,本申请实施例提供的方法可以读取所述待处理的笔记文件。
在实际应用过程中,若待处理的笔记文件的数据类型不同,对待处理的笔记文件的处理方式不同在读取所述待处理的笔记文件之后,可以判断所述待处理的笔记文件是否存在音频数据。
其中,
音频数据可以包括录制的纯音频数据、现有的纯音频、含有音轨的视频或有声文档。
音频数据还可以是实时的录音数据,即可以不使用现有的音频文件,而是通过设备的麦克风(mic)持续获取PCM音频数据,通常也叫做音频流,PCM数据是可以直接用于语音识别的数据,不需要特殊处理。
若所述待处理的笔记文件存在音频数据,则说明可以依据所述待处理的笔记文件对应的音频数据来分析所述待处理的笔记文件的相关内容。
因此,若确定所述待处理的笔记文件存在音频数据,则可以执行步骤S103。
步骤S103,提取与所述待处理的笔记文件对应的目标音频数据。
具体地,由上述介绍可知,本申请实施例提供的方法可以确定所述待处理的笔记文件是否存在音频数据,若所述待处理的笔记文件存在音频数据,则说明可以依据所述待处理的笔记文件对应的音频数据来分析所述待处理的笔记文件的相关内容。
因此,当确定所述待处理的笔记文件存在音频数据,则可以提取与所述待处理的笔记文件对应的目标音频数据,以便可以通过依据所述待处理的笔记文件对应的音频数据来分析所述待处理的笔记文件的相关内容。
步骤S104,识别所述目标音频数据,确定与所述目标音频数据对应的目标文本段落。
具体地,由上述介绍可知,本申请实施例提供的方法可以提取与所述待处理的笔记文件对应的目标音频数据。
所述待处理的笔记文件对应的目标音频数据包括与所述目标音频数据对应的文本内容。
分析所述待处理的笔记文件对应的目标音频数据可以快速了解所述待处理的笔记文件的内容,以便可以依据所述待处理的笔记文件的内容来快速整理所述待处理的笔记文件。
其中,
音频数据一般是利用特定的编码格式编码的数据。
因此,在确定所述待处理的笔记文件之后,然后将编码后的音频数据解码为PCM数据,PCM数据也称为脉冲调制编码数据。
所述待处理的笔记文件的文本内容可以包括至少一个文本段落。
因此,在确定所述待处理的笔记文件对应的目标音频数据之后,可以识别所述目标音频数据,确定与所述目标音频数据对应的目标文本段落。
依据所述目标音频数据对应的文本内容,所述目标音频数据对应的文本内容至少包括一个目标文本段落。
确定与所述目标音频数据对应的目标文本段落,可以有助于将所述目标音频数据对应的文本内容划分为多个目标文本段落来进行分析,可以加快对所述待处理的笔记文件的处理速度。
步骤S105,依据所述目标音频数据对应的目标文本段落,将所述待处理的笔记文件划分为多个目标文本区间。
具体地,由上述介绍可知,在确定所述待处理的笔记文件对应的目标音频数据之后,本申请实施例提供的方法可以识别所述目标音频数据,确定与所述目标音频数据对应的目标文本段落。
在确定所述目标音频数据对应的各个目标文本段落之后,可以依据各个目标文本段落来分析所述待处理的笔记文件,为了更好地为所述待处理的笔记文件设置对应的锚点,加快对所述待处理的笔记文件的处理速度,可以进一步依据所述目标音频数据对应的目标文本段落,将所述待处理的笔记文件划分为多个目标文本区间。
以便可以通过分析所述待处理的笔记文件的各个目标文本区间,来为所述待处理的笔记文件设置锚点。
步骤S106,在所述待处理的笔记文件上给每个所述目标文本区间设置对应的锚点。
具体地,由上述介绍可知,本申请实施例提供的方法可以依据所述目标音频数据对应的目标文本段落,将所述待处理的笔记文件划分为多个目标文本区间。
将所述待处理的笔记文件划分为多个目标文本区间,可以提高对所述待处理的笔记文件的处理速度。
因此,为了实现快速定位或检索所述待处理的笔记文件中的某些特定的信息。在依据所述目标音频数据对应的目标文本段落,将所述待处理的笔记文件划分为多个目标文本区间之后,可以在所述待处理的笔记文件上给每个所述目标文本区间设置对应的锚点。
以便可以依据所述待处理的笔记文件中对应的锚点来实现快速整理所述待处理的笔记文件。
步骤S107,将各个所述锚点与每个所述锚点对应的目标文本区间对应的目标文本段落绑定以构建对应关系。
具体地,由上述介绍可知,在依据所述目标音频数据对应的目标文本段落,将所述待处理的笔记文件划分为多个目标文本区间之后,本申请实施例提供的方法可以在所述待处理的笔记文件上给每个所述目标文本区间设置对应的锚点。
所述待处理的笔记文件对应的锚点可以帮助待处理的笔记文件的编辑者快速定位或检索所述待处理的笔记文件中的内容。
为了可以以锚点来定位到对应的目标文本区间对应的目标文本段落,可以将各个所述锚点与每个所述锚点对应的目标文本区间对应的目标文本段落绑定以构建对应关系。
以便可以通过各个所述锚点来快速确定各个目标文本段落。
从上述介绍的技术方案可以看出,本申请实施例提供的方法可以通过为待处理的笔记文件进行自动化设置锚点,无需用户反复收听音频内容来对笔记文件进行整理,便于用户快速整理归档音视频资料;还可以利用语音识别技术获得音视频的文本内容,可以快速根据锚点关键词检索笔记文件,用户可以凭借模糊记忆即可快速查找到笔记文件中想要查找的信息;进一步地,本申请可以将锚点与音视频对应的时间戳构建对应关系,当用户需要查找笔记文件中特定内容时,可以准确跳转到笔记文件中特定内容对应的锚点位置,本申请实施例提供的方法减少了语音识别的比对难度,降低了现有的整理音视频文件的难度,解决了难以快速检索和定位的缺点。
在实际应用过程中,为了可以实现快速检索待处理的笔记文件中的某些特定信息,本申请实施例提供的方法可以在在所述待处理的笔记文件上给每个所述目标文本区间设置对应的锚点之后,在将各个所述锚点与每个所述锚点对应的目标文本区间对应的目标文本段落绑定以构建对应关系之前,增加为每个锚点设置标签关键字的处理过程,以便可以依据每个标签关键字快速在待处理的笔记文件中快速定位到用户想要查找的内容,接下来介绍该过程,该过程可以包括如下几个步骤:
步骤S201,将每个所述目标文本区间对应的目标文本段落设置为与每个所述目标文本区间对应的所述锚点的标签关键字。
具体地,由上述介绍可知,本申请实施例提供的方法可以确定所述待处理的笔记文件对应的各个所述目标文本区间。
在实际应用过程中,所述待处理的笔记文件可以包括多个所述目标文本区间,每个所述目标文本区间可以包括多个目标文本段落。
为了快速定位到每个所述锚点对应的目标文本段落,可以将每个所述目标文本区间对应的目标文本段落设置为与每个所述目标文本区间对应的所述锚点的标签关键字,以便用户在整理所述待处理的笔记文件时可以直接通过搜索各个所述锚点对应的标签关键字就可以快速定位到各个所述锚点对应的目标文本段落,以实现快快速整理所述待处理的笔记文件。
步骤S202,将每个所述锚点和每个所述锚点对应的标签关键字保存在预设数据库中。
具体地,由上述介绍可知,本申请实施例提供的方法可以在所述待处理的笔记文件上给每个所述目标文本区间设置对应的锚点,同时还可以将每个所述目标文本区间对应的目标文本段落设置为与每个所述目标文本区间对应的所述锚点的标签关键字。
为了更好地可以根据实际的需求来编辑和整理所述待处理的笔记文件,可以在为各个所述目标文本区间设置对应的锚点以及将每个所述目标文本区间对应的目标文本段落设置为与每个所述目标文本区间对应的所述锚点的标签关键字之后,可以将每个所述锚点和每个所述锚点对应的标签关键字保存在预设数据库中。
以便可以在有需要修改和整理各个所述锚点及其对应的标签关键字时,可以及时读取所述预设的数据中存储各个所述锚点及其对应的标签关键字。
从上述介绍的技术方案可知,本申请实施例提供的方法可以通过为待处理的笔记文件进行自动化设置锚点,无需用户反复收听音频内容来对笔记文件进行整理,便于用户快速整理归档音视频资料;还可以利用语音识别技术获得音视频的文本内容,可以快速根据锚点关键词检索笔记文件,用户可以凭借模糊记忆即可快速查找到笔记文件中想要查找的信息;进一步地,本申请可以将锚点与音视频对应的时间戳构建对应关系,当用户需要查找笔记文件中特定内容时,可以准确跳转到笔记文件中特定内容对应的锚点位置,本申请实施例提供的方法减少了语音识别的比对难度,降低了现有的整理音视频文件的难度,解决了难以快速检索和定位的缺点。
在实际应用过程中,当用户想要修改所述待处理的笔记文件时,本申请实施例提供方法还可以用依据用户的需求,对所述待处理的笔记文件的各个所述锚点或与其对应的标签关键字进行编辑,以便可以供用户随时根据实际需求来修改所述待处理的笔记文件,减少了语音识别的比对难度,降低了现有的整理音视频文件的难度,解决了难以快速检索和定位的缺点。
在实际应用过程中,为了可以实现快速检索待处理的笔记文件中的某些特定信息,本申请实施例提供的方法可以提取与所述待处理的笔记文件对应的目标音频数据,接下来介绍该过程,该过程可以包括如下几个步骤:
步骤S301,提取所述待处理的笔记文件中的音频数据。
具体地,由上述介绍可知,本申请实施例提供的方法可以确定所述待处理的笔记文件是否存在音频数据,若确定所述待处理的笔记文件存在音频数据,则说明可以通过分析所述待处理的笔记文件中的音频数据来快速整理所述待处理的笔记文件。
因此,在确定所述待处理的笔记文件存在音频数据之后,可以提取所述待处理的笔记文件中的音频数据。
步骤S302,对所述待处理的笔记文件中的音频数据进行解码,得到与所述待处理的笔记文件对应的目标音频数据。
具体地,由上述介绍可知,本申请实施例提供的方法可以提取所述待处理的笔记文件中的音频数据。
在实际应用过程中,音频数据一般是利用特定的编码格式编码的数据。
因此,在确定所述待处理的笔记文件之后,然后将编码后的音频数据解码为PCM数据,PCM数据也称为脉冲调制编码数据。
所述待处理的笔记文件中的音频数据可以包括所述待处理的笔记文件的相关文本内容,因此,在提取所述待处理的笔记文件的音频数据之后,可以对所述待处理的笔记文件中的音频数据进行解码,得到与所述待处理的笔记文件对应的目标音频数据。
从上述介绍的技术方案可以看出,本申请实施例提供的方法可以在确定所述待处理的笔记文件中存在音频数据之后,可以提取所述待处理的笔记文件中的音频数据,并对所述待处理的笔记文件中的音频数据进行解码,得到与所述待处理的笔记文件对应的目标音频数据。以便可以依据所述目标音频数据来了解所述待处理的笔记文件的相关内容,减少了语音识别的比对难度,降低了现有的整理音视频文件的难度,解决了难以快速检索和定位的缺点。
在实际应用过程中,为了可以实现快速整理所述待处理的笔记文件,本申请实施例提供的方法可以识别所述目标音频数据,确定与所述目标音频数据对应的目标文本段落,接下来介绍该过程,该过程可以包括如下几个步骤:
步骤S401,依据所述目标音频数据,调用服务器端或本地的语音识别接口对所述目标音频数据进行特征匹配处理,得到所述目标音频数据的特征匹配结果。
具体地,由上述介绍可知,本申请实施例提供的方法可以确定所述待处理的笔记文件对应的目标音频数据,所述目标音频数据可以反馈所述待处理的笔记文件的相关信息。
因此,在确定所述目标音频数据之后,可以依据所述目标音频数据,调用服务器端或本地的语音识别接口对所述目标音频数据进行特征匹配处理,得到所述目标音频数据的特征匹配结果。
以便可以识别所述目标音频数据中包括的声学特征。有助于依据所述目标音频数据的特征匹配结果来分析所述目标音频数据对应的文本内容。
步骤S402,依据所述目标音频数据的特征匹配结果,确定与所述目标音频数据对应的文本内容。
具体地,由上述介绍可知,本申请实施例提供的方法可以依据所述目标音频数据,调用服务器端或本地的语音识别接口对所述目标音频数据进行特征匹配处理,得到所述目标音频数据的特征匹配结果。
在实际应用过程中,音频数据的特征一般可以反馈该音频数据对应的文本内容。
因此,在确定所述目标音频数据的特征匹配结果之后,可以进一步依据所述目标音频数据的特征匹配结果,确定与所述目标音频数据对应的文本内容。
确定与所述目标音频数据对应的文本内容可以有助于依据所述目标音频数据对应的文本内容将所述待处理的笔记文件划分为至少一个文本段落。有助于快速对所述待处理的笔记文件进行整理和编辑。
步骤S403,依据所述目标音频数据的特征,将与所述目标音频数据对应的文本内容分割成至少一个目标文本段落。
具体地,由上述介绍可知,本申请实施例提供的方法可以依据所述目标音频数据的特征匹配结果,确定与所述目标音频数据对应的文本内容。
在实际应用过程中,一段音频数据对应的文本内容一般都有一定的文本时长,文本内容过多时,直接某一段音频数据对应的文本内容进行整理可能会导致检索时间过长,整理效率较低。
因此,在确定所述目标音频数据对应的文本内容之后,为了提高对所述目标音频数据对应的文本内容的整理效率,可以进一步依据所述目标音频数据的特征,将与所述目标音频数据对应的文本内容分割成至少一个目标文本段落。
其中,
所述目标音频数据的特征可以包括音频数据的波形、频率、振幅。
将与所述目标音频数据对应的文本内容分割成至少一个目标文本段落可以有利于快速整理所述目标音频数据对应的文本内容。
从上述介绍的技术方案可以看出,本申请实施例提供的方法可以在确定与所述待处理的笔记文件对应的目标音频数据之后,可以识别所述目标音频数据,确定与所述目标音频数据对应的目标文本段落。以便可以快速整理所述目标音频数据对应的文本内容,提高了对所述目标音频数据对应的文本内容的检索和快速定位,有助于提高用户整理待处理的笔记文件的效率,减少了语音识别的比对难度,降低了现有的整理音视频文件的难度,解决了难以快速检索和定位的缺点。
在实际应用过程中,为了可以实现快速整理所述待处理的笔记文件,本申请实施例提供的方法可以依据所述目标音频数据的特征,将与所述目标音频数据对应的文本内容分割成至少一个目标文本段落,接下来介绍该过程,该过程可以包括如下几个步骤:
步骤S501,确定所述目标音频数据的起始时间戳。
具体地,由上述介绍可知,本申请实施例提供的方法可以确定所述待处理的笔记文件对应的目标音频数据。
在实际应用过程中,随着时间的变化,所述待处理的笔记文件对应的目标音频数据也会有每一个时刻的时间戳。
在确定所述目标音频数据之后,可以进一步确定所述目标音频数据的起始时间戳,以便可以依据所述目标音频数据的起始时间戳,分析所述目标音频数据对应的内容。
步骤S502,依据所述目标音频数据的特征,识别从所述目标音频数据的起始时间戳开始,所述目标音频数据对应的文本内容的上下文含义、声源的语气以及声源的每次停顿时长,确定所述目标音频数据对应的文本内容中的每次停顿的时间戳。
具体地,由上述介绍可知,本申请实施例提供的方法可以确定所述待处理的笔记文件对应的目标音频数据。
在实际应用过程中,所述目标音频数据对应的文本内容的上下文含义、声源的语气以及声源的每次停顿时长,可以反馈所述目标音频数据中的文本段落分段情况。
所述目标音频数据对应的文本内容的分段情况与所述目标音频数据对应的文本内容的上下文含义、声源的语气以及声源的每次停顿时长息息相关。
声源的每次停顿意味着当前时刻之前的内容暂告一段落,声源停顿之前的音频数据对应的文本内容可以单独作为一个文本段落。
因此,在确定所述目标音频数据之后,可以进一步识别并依据所述目标音频数据的特征,识别从所述目标音频数据的起始时间戳开始,所述目标音频数据对应的文本内容的上下文含义、声源的语气以及声源的每次停顿时长,确定所述目标音频数据对应的文本内容中的每次停顿的时间戳。
以便可以所述目标音频数据对应的文本内容中的每次停顿的时间戳,确定所述目标音频数据对应的文本内容中的各个文本段落。
步骤S503,依据所述目标音频数据的起始时间戳以及所述目标音频数据对应的文本内容中的每次停顿的时间戳,依次将所述目标音频数据对应的文本内容分割成至少一个待处理文本段落。
具体地,由上述介绍可知,本申请实施例提供的方法可以识别并依据所述目标音频数据的特征,识别从所述目标音频数据的起始时间戳开始,所述目标音频数据对应的文本内容的上下文含义、声源的语气以及声源的每次停顿时长,确定所述目标音频数据对应的文本内容中的每次停顿的时间戳。
进一步地,本申请实施例提供的方法还可以依据所述目标音频数据的起始时间戳以及所述目标音频数据对应的文本内容中的每次停顿的时间戳,依次将所述目标音频数据对应的文本内容分割成至少一个待处理文本段落。
其中,
依据所述目标音频数据的上下文含义、声源的语气以及声源的每次停顿时长,所述目标音频数据对应的文本内容可以包括至少一个文本段落。
步骤S504,依据每个所述待处理文本段落对应的音频数据时长,确定每个所述待处理文本段落的文本时长。
具体地,由上述介绍可知,本申请实施例提供的方法可以依据所述目标音频数据的起始时间戳以及所述目标音频数据对应的文本内容中的每次停顿的时间戳,依次将所述目标音频数据对应的文本内容分割成至少一个待处理文本段落。
在依次将所述目标音频数据对应的文本内容分割成至少一个待处理文本段落之后,可以依据每个所述待处理文本段落对应的音频数据时长,确定每个所述待处理文本段落的文本时长。
以便可以依据各个所述待处理文本段落的文本时长来确定每个所述待处理文本段落的起始时间戳和结束时间戳。
步骤S505,依据所述目标音频数据的起始时间戳以及每个所述待处理文本段落的文本时长,确定每个所述待处理文本段落的起始时间戳和结束时间戳。
具体地,由上述介绍可知,本申请实施例提供的方法可以依据每个所述待处理文本段落对应的音频数据时长,确定每个所述待处理文本段落的文本时长。
由于所述目标音频数据是一段连续的音频数据,因此,在确定各个所述待处理文本段落的文本时长之后,可以进一步依据所述目标音频数据的起始时间戳以及每个所述待处理文本段落的文本时长,确定每个所述待处理文本段落的起始时间戳和结束时间戳。
步骤S506,依据所述目标音频数据对应的文本内容的上下文含义、声源的语气以及声源的每次停顿时长,给所述目标音频数据对应的文本内容添加对应的预设的第一标点符号。
具体地,由上述介绍可知,本申请实施例提供的方法可以依据所述目标音频数据的起始时间戳以及每个所述待处理文本段落的文本时长,确定每个所述待处理文本段落的起始时间戳和结束时间戳。
为了更好地整理所述目标音频数据对应的文本内容,在确定每个所述待处理文本段落的起始时间戳和结束时间戳之后,可以进一步依据所述目标音频数据对应的文本内容的上下文含义、声源的语气以及声源的每次停顿时长,给所述目标音频数据对应的文本内容添加对应的预设的第一标点符号。
其中,
所述预设的第一标点符号可以包括逗号、顿号、分号、破折号、句号、问号、感叹号以及其他中文标点符号。
以便后续整理所述目标音频数据对应的文本内容时,可以依据所述目标音频数据对应的文本内容对应的标点符号,对各个所述待处理文本段落进行整合。
步骤S507,依据所述目标音频数据对应的文本内容对应的标点符号,对各个所述待处理文本段落进行整合,得到至少一个与所述目标音频数据对应的目标文本段落。
具体地,由上述介绍可知,本申请实施例提供的方法可以依据所述目标音频数据对应的文本内容的上下文含义、声源的语气以及声源的每次停顿时长,给所述目标音频数据对应的文本内容添加对应的预设的第一标点符号。
通过所述目标音频数据对应的文本内容对应的标点符号,本申请实施例提供的方法可以依据所述目标音频数据对应的文本内容对应的标点符号,对各个所述待处理文本段落进行整合,得到至少一个与所述目标音频数据对应的目标文本段落。
例如,
图2示例了一种识别音频数据得到与音频数据对应的文本段落的效果示意图。
如图2所述,
在读取某一段笔记文件对应的音频数据之后,可以调用服务器端或本地的语音识别接口,例如API接口,对该段笔记文件对应的音频数据进行特征匹配,其中,对笔记文件对应的音频数据进行的特征匹配过程可以包括对音频数据的波形、频率和振幅特征信息进行匹配,最后由语音识别接口返回该段笔记文件对应的音频数据所对应的文本内容,由于还未依据该段笔记文件对应的音频数据所对应的文本内容添加任何标点符号,由图2可知,该段笔记文件对应的音频数据对应的文本内容为一长串没有标点符号的文字组成的文本内容。
进一步地,为了更好地分析该段笔记文件对应的音频数据对应的文本内容,可以考虑为这一长串没有标点符号的文字组成的文本内容加上标点符号。
在实际应用过程中,语音识别接口在工作过程中,可以根据音频数据的特征,其中,音频数据的特征可以包括上下文、语气和停顿时间,识别出一段话已经结束,则分割出一个文本段落,并返回该文本段落所对应音频数据的时间长度,其中,文本段落所对应音频数据的时间长度也可以称为文本时长。
例如,某一段文本段落对应的音频数据的时间长度为5秒。
然后继续向后识别,连续生成多个文本段落;
通过音频数据的初始时间,对音频数据对应的文本时长进行叠加计算,可以依次换算得出各个文本段落的开始时间戳和结束时间戳;
语音识别接口还可以根据音频数据对应的文本内容的语义信息对文本段落添加标点符号,例如添加逗号、顿号、分号、问号和句号。
如图3所示,图3为本申请实施例示例的一种为音频数据对应的文本内容添加标点符号之后的效果示意图。
图3图中的黑色柱状条以及柱状条上方标注对应的时间戳表示为各个文本段落的起始时间戳和结束时间戳。
在实际应用过程中,各个文本段落的时间戳可以包括具有多种数据编码的形式。
从上述介绍的技术方案可以看出,本申请实施例提供的方法可以依据所述目标音频数据的特征,为所述目标音频数据对应的文本内容添加预设的标点符号并依据所述目标音频数据对应的文本内容对应的标点符号,对各个所述待处理文本段落进行整合,得到至少一个与所述目标音频数据对应的目标文本段落。将与所述目标音频数据对应的文本内容分割成至少一个目标文本段落,以便可以通过各个所述目标文本段落为所述待处理的笔记文件设置各个锚点,以实现快速检索和整理所述待处理的笔记文件的相关内容。提高整理所述待处理的笔记文件的速度,也有助于用户使用所述待处理的笔记文件,减少了语音识别的比对难度,降低了现有的整理音视频文件的难度,解决了难以快速检索和定位的缺点。
在实际应用过程中,为了可以实现快速整理所述待处理的笔记文件,本申请实施例提供的方法可以依据所述目标音频数据对应的目标文本段落,将所述待处理的笔记文件划分为多个目标文本区间,接下来介绍该过程,该过程可以包括如下几个步骤:
步骤S601,读取所述目标音频数据对应的文本内容的标点符号以及每个所述待处理文本段落的起始时间戳和结束时间戳。
具体地,由上述介绍可知,本申请实施例提供的方法可以依据所述目标音频数据的特征,为所述目标音频数据对应的文本内容添加预设的标点符号并依据所述目标音频数据对应的文本内容对应的标点符号。
由于所述目标音频数据对应的文本内容对应的标点符号可以包括句号、分号或感叹号、问号。
一般来说,标注了句号、分号或感叹号、问号的文本内容,一般可以单独认为是一个单句。
因此,为了判断所述目标音频数据对应的文本内容的标点符号中是否存在句号、问号或者感叹号、分号,可以在依据所述目标音频数据的特征,为所述目标音频数据对应的文本内容添加预设的标点符号并依据所述目标音频数据对应的文本内容对应的标点符号之后,可以进一步读取所述目标音频数据对应的文本内容的标点符号以及每个所述待处理文本段落的起始时间戳和结束时间戳。
以便可以依据所述目标音频数据对应的文本内容的标点符号以及每个所述待处理文本段落的起始时间戳和结束时间戳,来确定所述目标音频数据对应的文本内容中的每个整句文本内容。
步骤S602,依据所述目标音频数据对应的文本内容中预设的第二标点符号,以及每个所述待处理文本段落的起始时间戳和结束时间戳,确定所述目标音频数据对应的文本内容中的每个整句文本内容。
具体地,由上述介绍可知,本申请实施例提供的方法可以读取所述目标音频数据对应的文本内容的标点符号以及每个所述待处理文本段落的起始时间戳和结束时间戳。
由于所述目标音频数据对应的文本内容对应的标点符号可以包括句号、分号或感叹号、问号。
一般来说,标注了句号、分号或感叹号、问号的文本内容,一般可以单独认为是一个单句。
所述目标音频数据对应的文本内容的标点符号以及每个所述待处理文本段落的起始时间戳和结束时间戳,可以反馈所述目标音频数据对应的文本内容被添加了句号、分号或感叹号、问号的位置。
因此,在读取所述目标音频数据对应的文本内容的标点符号以及每个所述待处理文本段落的起始时间戳和结束时间戳之后,可以依据所述目标音频数据对应的文本内容中预设的第二标点符号,以及每个所述待处理文本段落的起始时间戳和结束时间戳,确定所述目标音频数据对应的文本内容中的每个整句文本内容。
其中,
所述预设的第二标点符号可以包括句号、分号或感叹号、问号。
若所述目标音频数据对应的文本内容中存在所述预设的第二标点符号,则可以说明所述目标音频数据对应的文本内容至少被分割成一个单句或整句。
根据所述目标音频数据对应的文本内容对应的各个单句的内容,以及每个所述待处理文本段落的起始时间戳和结束时间戳,则可以确定所述目标音频数据对应的文本内容中的每个整句文本内容。
步骤S603,对每个所述整句文本内容对应的所述待处理文本段落进行整合,并确定每个所述整句文本内容对应的起始时间戳和结束时间戳。
具体地,由上述介绍可知,本申请实施例提供的方法可以依据所述目标音频数据对应的文本内容中预设的第二标点符号,以及每个所述待处理文本段落的起始时间戳和结束时间戳,确定所述目标音频数据对应的文本内容中的每个整句文本内容。
在确定所述目标音频数据对应的文本内容的每一个整句文本内容之后,可以对每个所述整句文本内容对应的所述待处理文本段落进行整合,并确定每个所述整句文本内容对应的起始时间戳和结束时间戳。
以便可以依据每个所述整句文本内容对应的起始时间戳和结束时间戳,将所述目标音频数据对应的文本内容划分为至少一个文本区间。
步骤S604,依据每个所述整句文本内容对应的起始时间戳和结束时间戳,以一个所述整句文本对应的文本内容作为一个文本区间,将所述待处理的笔记文件划分为至少一个目标文本区间。
具体地,由上述介绍可知,本申请实施例提供的方法可以在确定所述目标音频数据对应的文本内容的每一个整句文本内容之后,可以对每个所述整句文本内容对应的所述待处理文本段落进行整合,并确定每个所述整句文本内容对应的起始时间戳和结束时间戳。
在实际应用过程中,有些情况下,可能音频数据对应的文本内容的一些整句的内容过短,如果直接将内容很短的整句划分为一个文本区间的话,会导致所述待处理的笔记文件对应的文本区间可能会过多,则需要为所属待处理的笔记文件设置的锚点就会过多,显得没有必要。
因此,在确定每个所述整句文本内容对应的起始时间戳和结束时间戳之后,可以依据每个所述整句文本内容对应的起始时间戳和结束时间戳,以一个所述整句文本对应的文本内容作为一个文本区间,将所述待处理的笔记文件划分为至少一个目标文本区间。
以便可以依据所述待处理的笔记文件的各个所述目标文本区间来设置锚点,以实现对所述待处理的笔记文件的快速整理。
例如,
如图4所示,图4示例了对某一段笔记文件对应的文本段落划分整句的效果示意图;
对某一段笔记文件对应的文本段落进行合并,可以生成各个整句的文本段落;
可选的,当文本时长小于设定值,如某一文本段落的文本时长小于1秒时,本申请实施例提供的方法可以对文本时长小于1秒的文本段落进行合并,由此可以将大量的文本段落进行整合,避免过多的短句增加索引和后续的查找难度。
例如,图4所示的文本内容则可以划分为4个整句。
进一步地,在将该笔记文件对应的文本内容划分为4个整句之后,可以进一步依次读取文本段落和各个整句的时间戳,然后按照时间戳在笔记文件上进行划分。
以上图4所示的文本段落为例,可以将上述图4所示的文本段落划分为4个文本区间,如图5所示,图5为本申请实施例示例的一种对某一段笔记文件对应的文本段落划分为4个文本区间的效果示意图;
整句1出现时间为00:00:00~00:00:09,时长9秒;
整句2出现时间为00:00:09~00:00:16,时长为7秒;
整句3出现时间为00:00:16~00:00:44,时长为28秒;
整句4出现时间为00:00:44~00:00:56,时长为12秒;
根据各个整句的出现时间和结束时间可以产生多个区间。
该划分工作可以直接处理笔记文件的时间轴,笔记文件的本体可以不作处理,也可以随区间切割成一个以上的子文件。
在实际应用过程中,笔记文件对应的文本区间也可以是不连续的,即区间之间可以存有间隔,这是由于部分音频数据未解析出文本内容,例如一段时间无人发言。
从上述介绍的技术方案可以看出,本申请实施例提供的方法可以读取并依据所述目标音频数据对应的文本内容的标点符号以及每个所述待处理文本段落的起始时间戳和结束时间戳,并依据所述目标音频数据对应的文本内容中预设的第二标点符号,以及每个所述待处理文本段落的起始时间戳和结束时间戳,确定所述目标音频数据对应的文本内容中的每个整句文本内容,最后可以依据每个所述整句文本内容对应的起始时间戳和结束时间戳,以一个所述整句文本对应的文本内容作为一个文本区间,将所述待处理的笔记文件划分为至少一个目标文本区间,以便可以依据所述待处理的笔记文件的各个所述目标文本区间来设置锚点,以实现对所述待处理的笔记文件的快速整理,减少了语音识别的比对难度,降低了现有的整理音视频文件的难度,解决了难以快速检索和定位的缺点。
在实际应用过程中,为了可以实现快速整理所述待处理的笔记文件,本申请实施例提供的方法可以依据用户对各个所述锚点的操作,对所述待处理的笔记文件进行整理,接下来介绍该过程,该过程可以包括如下几个步骤:
步骤S701,分析用户对各个所述锚点的操作,确定用户选中的锚点对应的目标文本区间。
具体地,由上述介绍可知,本申请实施例提供的方法可以依据每个所述整句文本内容对应的起始时间戳和结束时间戳,以一个所述整句文本对应的文本内容作为一个文本区间,将所述待处理的笔记文件划分为至少一个目标文本区间,并为每一个所述目标文本区间设置各个锚点。
在实际应用过程中,为所述待处理的笔记文件的各个所述目标文本区间设置了各个所述锚点之后,除了可以利用各个所述锚点对所述待处理的笔记文件进行整理之外,用户还可以根据实际需求编辑各个所述锚点。
例如,
可以在笔记文件上依次在各个区间的位置设置锚点,且将锚点的标签关键字设置为对应的文本段落,然后将所述锚点和标签关键字保存在数据库中,所述数据库中的锚点可以允许增加、删除、修改和查找等操作;
(1)增加锚点:用户可以在笔记文件上手动增加锚点,并且设定自定义的标签关键字;
(2)删除锚点:用户可以删除笔记文件上的锚点;
(3)修改锚点:用户可以修改锚点的位置,或者修改标签关键字的内容;
(4)查找锚点:用户可以通过关键字查找到对应的文本段落,并定位到数据库中的锚点。
本申请实施例提供的方法还可以分析用户对各个所述锚点的操作,确定用户选中的锚点对应的目标文本区间。
以便可以依据用户所选中的锚点跳转到与用户选中的锚点对应的目标文本区间,以实现对所述锚点对应的目标文本区间的编辑和操作。
例如,
图6示例了一种划分笔记文件对应的文本区间的效果示意图;
图7示例了一种为笔记文件的各个文本区间设置各个锚点的效果示意图。
由图6和图7所示,本申请实施例提供的方法可以将上述图5所示的文本内容划分为4个文本区间,由此可以为中4个文本区间分别设置一个锚点,由此可得如图7所示的设置锚点的效果示意图。
步骤S702,跳转到用户选中的锚点对应的目标文本区间。
具体地,由上述介绍可知,本申请实施例提供的方法可以分析用户对各个所述锚点的操作,确定用户选中的锚点对应的目标文本区间。
由上述可知,本申请实施例提供的方法可以为各个所述目标文本区间设置了各个所述锚点。
因此,在确定用户选中的锚点对应的目标文本区间之后,可以跳转到用户选中的锚点对应的目标文本区间。
以便可以对用户选中的锚点对应的目标文本区间进行编辑。
步骤S703,若所述待处理的笔记文件为音频文件,则确定与用户选中的锚点对应的目标文本区间对应的目标文本段落,并播放与用户选中的锚点对应的目标文本区间对应的目标文本段落对应的音频数据。
具体地,由上述介绍可知,本申请实施例提供的方法可以确定用户选中的锚点对应的目标文本区间并跳转到用户选中的锚点对应的目标文本区间。
在实际应用过程中,本申请实施例提供的方法可以依据用户对各个所述锚点的操作,跳转到用户选中的锚点对应的目标文本区间并对所述待处理的笔记文件进行整理。
若所述待处理的笔记文件为音频文件,则说明可以确定与用户选中的锚点对应的目标文本区间对应的目标文本段落,并播放与用户选中的锚点对应的目标文本区间对应的目标文本段落对应的音频数据。
步骤S704,若所述待处理的笔记文件为视频文件,则播放与用户选中的锚点对应的视频数据。
具体地,由上述介绍可知,本申请实施例提供的方法可以依据用户对各个所述锚点的操作,跳转到用户选中的锚点对应的目标文本区间并对所述待处理的笔记文件进行整理。
若所述待处理的笔记文件为视频文件,则可以确定与所述待处理的笔记文件对应的目标视频数据,并播放与用户选中的锚点对应的视频数据。
步骤S705,若所述待处理的笔记文件为含有音轨的手写笔记文件,则显示与用户选中的锚点对应的笔迹数据。
具体地,由上述介绍可知,本申请实施例提供的方法可以依据用户对各个所述锚点的操作,跳转到用户选中的锚点对应的目标文本区间并对所述待处理的笔记文件进行整理。
若所述待处理的笔记文件为含有音轨的手写笔记文件,则显示与用户选中的锚点对应的笔迹数据。
例如,
当用户检索关键词获取到对应的文本段落,或直接选中了特定的文本段落,例如,用户在管理笔记文件时,可以选择展示对应的文本内容,并手动选择文本段落,则可以选中并激活对应的锚点,然后读取锚点所在的笔记文件,并且将进度跳转到锚点所对应的区间位置,然后播放笔记文件。
当笔记文件为音频数据,则可以播放锚点位置的声音,当笔记文件为视频,则可以播放锚点位置的视频。
笔记文件也可以是其他带有时间轴或进度的文件,如含有音轨的手写笔记,可以在手写时给笔迹附上时间轴,则能够通过本申请的锚点,跳转到笔迹位置。
例如,
图8示例了一种用户选中了某个特定文本信息的效果示意图;
图9示例了一种用依据用户选中的某个特定的文本信息跳转到对应的锚点的效果示意图;
由图8可以看出,当用户搜索了“很高”的文本信息之后,通过上述图5可知,“很高”是落在整句2当中,对应的是第二个文本区间,则可以依据第二个文本区间对应的锚点来跳转到“很高”所在的文本区间并播放“很高”所在的文本区间对应的音频数据或视频数据。
从上述介绍的技术方案可以看出,本申请实施例提供的方法可以依据所述待处理的笔记文件的数据类型,跳转到用户选中的锚点对应的目标文本区间,并播放与用户选中的锚点对应的目标文本区间对应的笔记文件,以便用户可以随时对所述待处理的笔记文件的各个锚点进行编辑以及对各个所述锚点对应的目标文本区间进行编辑处理,减少了语音识别的比对难度,降低了现有的整理音视频文件的难度,解决了难以快速检索和定位的缺点。
下面对本申请实施例提供的音频识别加锚点装置进行描述,下文描述的音频识别加锚点装置与上文描述的音频识别加锚点方法可相互对应参照。
参见图10,图10为本申请实施例公开的一种音频识别加锚点装置结构示意图。
如图10所示,该音频识别加锚点装置可以包括:
第一读取单元101,用于读取待处理的笔记文件;
第一判断单元102,用于判断所述待处理的笔记文件是否存在音频数据;
第一提取单元103,用于当所述第一单元的执行结果为确定所述待处理的笔记文件存在音频数据,则提取与所述待处理的笔记文件对应的目标音频数据;
第一识别单元104,用于识别所述目标音频数据,确定与所述目标音频数据对应的目标文本段落;
第一划分单元105,用于依据所述目标音频数据对应的目标文本段落,将所述待处理的笔记文件划分为多个目标文本区间;
第一锚点设置单元106,用于在所述待处理的笔记文件上给每个所述目标文本区间设置对应的锚点;
第一构建单元107,用于将各个所述锚点与每个所述锚点对应的目标文本区间对应的目标文本段落绑定以构建对应关系。
从上述介绍的技术方案可知,当需要对待处理的笔记文件进行整理时,本申请实施例提供的装置可以读取待处理的笔记文件;并判断所述待处理的笔记文件是否存在音频数据;若所述待处理的笔记文件存在音频数据,则可以提取与所述待处理的笔记文件对应的目标音频数据;以便可以通过识别所述目标音频数据,确定与所述目标音频数据对应的目标文本段落;将所述目标音频数据划分为多个目标文本段落,可以有助于更好地依据每一个所述目标文本段落来快速整理所述待处理的笔记文件,因此,在确定所述目标音频数据对应的目标文本段落之后,可以依据所述目标音频数据对应的目标文本段落,将所述待处理的笔记文件划分为多个目标文本区间;并在所述待处理的笔记文件上给每个所述目标文本区间设置对应的锚点;在在所述待处理的笔记文件上给每个所述目标文本区间设置对应的锚点之后,为了可以快速定位到每个锚点对应的笔记文件的内容,可以将各个所述锚点与每个所述锚点对应的目标文本区间对应的目标文本段落绑定以构建对应关系;以便可以依据用户对各个所述锚点的操作,对所述待处理的笔记文件进行整理。
本申请实施例提供的装置可以通过为待处理的笔记文件进行自动化设置锚点,无需用户反复收听音频内容来对笔记文件进行整理,便于用户快速整理归档音视频资料;还可以利用语音识别技术获得音视频的文本内容,可以快速根据锚点关键词检索笔记文件,用户可以凭借模糊记忆即可快速查找到笔记文件中想要查找的信息;进一步地,本申请可以将锚点与音视频对应的时间戳构建对应关系,当用户需要查找笔记文件中特定内容时,可以准确跳转到笔记文件中特定内容对应的锚点位置,本申请实施例提供的方法减少了语音识别的比对难度,降低了现有的整理音视频文件的难度,解决了难以快速检索和定位的缺点。
进一步可选的,该装置还可以包括:
标签关键字设置单元,用于将每个所述目标文本区间对应的目标文本段落设置为与每个所述目标文本区间对应的所述锚点的标签关键字;
保存单元,用于将每个所述锚点和每个所述锚点对应的标签关键字保存在预设数据库中。
进一步可选的,该装置还可以包括:
编辑单元,用于依据用户的需求,对所述待处理的笔记文件的各个所述锚点或与其对应的标签关键字进行编辑。
进一步可选的,所述第一提取单元103,可以包括:
数据提取单元,用于提取所述待处理的笔记文件中的音频数据;
解码单元,用于对所述待处理的笔记文件中的音频数据进行解码,得到与所述待处理的笔记文件对应的目标音频数据。
进一步可选的,第一识别单元104,可以包括:
特征匹配单元,用于依据所述目标音频数据,调用服务器端或本地的语音识别接口对所述目标音频数据进行特征匹配处理,得到所述目标音频数据的特征匹配结果;
文本内容确定单元,用于依据所述目标音频数据的特征匹配结果,确定与所述目标音频数据对应的文本内容;
文本段落划分单元,用于依据所述目标音频数据的特征,将与所述目标音频数据对应的文本内容分割成至少一个目标文本段落。
进一步可选的,所述文本段落划分单元,包括:
第一时间戳确定单元,用于确定所述目标音频数据的起始时间戳;
第二时间戳确定单元,用于依据所述目标音频数据的特征,识别从所述目标音频数据的起始时间戳开始,所述目标音频数据对应的文本内容的上下文含义、声源的语气以及声源的每次停顿时长,确定所述目标音频数据对应的文本内容中的每次停顿的时间戳;
文本段落分割单元,用于依据所述目标音频数据的起始时间戳以及所述目标音频数据对应的文本内容中的每次停顿的时间戳,依次将所述目标音频数据对应的文本内容分割成至少一个待处理文本段落;
文本时长确定单元,用于依据每个所述待处理文本段落对应的音频数据时长,确定每个所述待处理文本段落的文本时长;
第三时间戳确定单元,用于依据所述目标音频数据的起始时间戳以及每个所述待处理文本段落的文本时长,确定每个所述待处理文本段落的起始时间戳和结束时间戳;
标点符号设置单元,用于依据所述目标音频数据对应的文本内容的上下文含义、声源的语气以及声源的每次停顿时长,给所述目标音频数据对应的文本内容添加对应的预设的第一标点符号;
文本段落整合单元,用于依据所述目标音频数据对应的文本内容对应的标点符号,对各个所述待处理文本段落进行整合,得到至少一个与所述目标音频数据对应的目标文本段落。
进一步可选的,所述第一划分单元105,包括:
标点符号读取单元,用于读取所述目标音频数据对应的文本内容的标点符号以及每个所述待处理文本段落的起始时间戳和结束时间戳;
整句确定单元,用于依据所述目标音频数据对应的文本内容中预设的第二标点符号,以及每个所述待处理文本段落的起始时间戳和结束时间戳,确定所述目标音频数据对应的文本内容中的每个整句文本内容;
第四时间戳确定单元,用于对每个所述整句文本内容对应的所述待处理文本段落进行整合,并确定每个所述整句文本内容对应的起始时间戳和结束时间戳;
第二划分单元,用于依据每个所述整句文本内容对应的起始时间戳和结束时间戳,以一个所述整句文本对应的文本内容作为一个文本区间,将所述待处理的笔记文件划分为至少一个目标文本区间。
进一步可选的,所述第一数据处理单元108,可以包括:
分析单元,用于分析用户对各个所述锚点的操作,确定用户选中的锚点对应的目标文本区间;
跳转单元,用于跳转到用户选中的锚点对应的目标文本区间;
第一播放单元,用于若所述待处理的笔记文件为音频文件,则确定与用户选中的锚点对应的目标文本区间对应的目标文本段落,并播放与用户选中的锚点对应的目标文本区间对应的目标文本段落对应的音频数据;
第二播放单元,用于若所述待处理的笔记文件为视频文件,则播放与用户选中的锚点对应的视频数据;
显示单元,用于若所述待处理的笔记文件为含有音轨的手写笔记文件,则显示与用户选中的锚点对应的笔迹数据。
其中,上述音频识别加锚点装置所包含的各个单元的具体处理流程,可以参照前文音频识别加锚点方法部分相关介绍,此处不再赘述。
本申请实施例提供的音频识别加锚点装置可应用于音频识别加锚点设备,如终端:手机、电脑等。可选的,图11示出了音频识别加锚点设备的硬件结构框图,参照图11,音频识别加锚点设备的硬件结构可以包括:至少一个处理器1,至少一个通信接口2,至少一个存储器3和至少一个通信总线4。
在本申请实施例中,处理器1、通信接口2、存储器3、通信总线4的数量为至少一个,且处理器1、通信接口2、存储器3通过通信总线4完成相互间的通信。
处理器1可能是一个中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本申请实施例的一个或多个集成电路等;
存储器3可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatilememory)等,例如至少一个磁盘存储器;
其中,存储器存储有程序,处理器可调用存储器存储的程序,所述程序用于:实现前述终端音频识别加锚点方案中的各个处理流程。
本申请实施例还提供一种可读存储介质,该存储介质可存储有适于处理器执行的程序,所述程序用于:实现前述终端在音频识别加锚点方案中的各个处理流程。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。各个实施例之间可以相互组合。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种音频识别加锚点方法,其特征在于,包括:
读取待处理的笔记文件;
判断所述待处理的笔记文件是否存在音频数据;
若所述待处理的笔记文件存在音频数据,则提取与所述待处理的笔记文件对应的目标音频数据;
识别所述目标音频数据,确定与所述目标音频数据对应的目标文本段落;
依据所述目标音频数据对应的目标文本段落,将所述待处理的笔记文件划分为多个目标文本区间;
在所述待处理的笔记文件上给每个所述目标文本区间设置对应的锚点;
将每个所述目标文本区间对应的目标文本段落设置为与每个所述目标文本区间对应的所述锚点的标签关键字;
将每个所述锚点和每个所述锚点对应的标签关键字保存在预设数据库中;
将各个所述锚点与每个所述锚点对应的目标文本区间对应的目标文本段落绑定以构建对应关系。
2.根据权利要求1所述的方法,其特征在于,该方法还包括:
依据用户的需求,对所述待处理的笔记文件的各个所述锚点或与其对应的标签关键字进行编辑。
3.根据权利要求1所述的方法,其特征在于,所述提取与所述待处理的笔记文件对应的目标音频数据,包括:
提取所述待处理的笔记文件中的音频数据;
对所述待处理的笔记文件中的音频数据进行解码,得到与所述待处理的笔记文件对应的目标音频数据。
4.根据权利要求1所述的方法,其特征在于,所述识别所述目标音频数据,确定与所述目标音频数据对应的目标文本段落,包括:
依据所述目标音频数据,调用服务器端或本地的语音识别接口对所述目标音频数据进行特征匹配处理,得到所述目标音频数据的特征匹配结果;
依据所述目标音频数据的特征匹配结果,确定与所述目标音频数据对应的文本内容;
依据所述目标音频数据的特征,将与所述目标音频数据对应的文本内容分割成至少一个目标文本段落。
5.根据权利要求4所述的方法,其特征在于,所述依据所述目标音频数据的特征,将与所述目标音频数据对应的文本内容分割成至少一个目标文本段落,包括:
确定所述目标音频数据的起始时间戳;
依据所述目标音频数据的特征,识别从所述目标音频数据的起始时间戳开始,所述目标音频数据对应的文本内容的上下文含义、声源的语气以及声源的每次停顿时长,确定所述目标音频数据对应的文本内容中的每次停顿的时间戳;
依据所述目标音频数据的起始时间戳以及所述目标音频数据对应的文本内容中的每次停顿的时间戳,依次将所述目标音频数据对应的文本内容分割成至少一个待处理文本段落;
依据每个所述待处理文本段落对应的音频数据时长,确定每个所述待处理文本段落的文本时长;
依据所述目标音频数据的起始时间戳以及每个所述待处理文本段落的文本时长,确定每个所述待处理文本段落的起始时间戳和结束时间戳;
依据所述目标音频数据对应的文本内容的上下文含义、声源的语气以及声源的每次停顿时长,给所述目标音频数据对应的文本内容添加对应的预设的第一标点符号;
依据所述目标音频数据对应的文本内容对应的标点符号,对各个所述待处理文本段落进行整合,得到至少一个与所述目标音频数据对应的目标文本段落。
6.根据权利要求5所述的方法,其特征在于,所述依据所述目标音频数据对应的目标文本段落,将所述待处理的笔记文件划分为多个目标文本区间,包括:
读取所述目标音频数据对应的文本内容的标点符号以及每个所述待处理文本段落的起始时间戳和结束时间戳;
依据所述目标音频数据对应的文本内容中预设的第二标点符号,以及每个所述待处理文本段落的起始时间戳和结束时间戳,确定所述目标音频数据对应的文本内容中的每个整句文本内容;
对每个所述整句文本内容对应的所述待处理文本段落进行整合,并确定每个所述整句文本内容对应的起始时间戳和结束时间戳;
依据每个所述整句文本内容对应的起始时间戳和结束时间戳,以一个所述整句文本对应的文本内容作为一个文本区间,将所述待处理的笔记文件划分为至少一个目标文本区间。
7.根据权利要求1所述的方法,其特征在于,该方法还包括:
分析用户对各个所述锚点的操作,确定用户选中的锚点对应的目标文本区间;
跳转到用户选中的锚点对应的目标文本区间;
若所述待处理的笔记文件为音频文件,则确定与用户选中的锚点对应的目标文本区间对应的目标文本段落,并播放与用户选中的锚点对应的目标文本区间对应的目标文本段落对应的音频数据;
若所述待处理的笔记文件为视频文件,则播放与用户选中的锚点对应的视频数据;
若所述待处理的笔记文件为含有音轨的手写笔记文件,则显示与用户选中的锚点对应的笔迹数据。
8.一种音频识别加锚点装置,其特征在于,包括:
第一读取单元,用于读取待处理的笔记文件;
第一判断单元,用于判断所述待处理的笔记文件是否存在音频数据;
第一提取单元,用于当所述第一判断单元的执行结果为确定所述待处理的笔记文件存在音频数据,则提取与所述待处理的笔记文件对应的目标音频数据;
第一识别单元,用于识别所述目标音频数据,确定与所述目标音频数据对应的目标文本段落;
第一划分单元,用于依据所述目标音频数据对应的目标文本段落,将所述待处理的笔记文件划分为多个目标文本区间;
第一锚点设置单元,用于在所述待处理的笔记文件上给每个所述目标文本区间设置对应的锚点;
标签关键字设置单元,用于将每个所述目标文本区间对应的目标文本段落设置为与每个所述目标文本区间对应的所述锚点的标签关键字;
保存单元,用于将每个所述锚点和每个所述锚点对应的标签关键字保存在预设数据库中;
第一构建单元,用于将各个所述锚点与每个所述锚点对应的目标文本区间对应的目标文本段落绑定以构建对应关系。
9.一种音频识别加锚点设备,其特征在于,包括:一个或多个处理器,以及存储器;
所述存储器中存储有计算机可读指令,所述计算机可读指令被所述一个或多个处理器执行时,实现如权利要求1至7中任一项所述音频识别加锚点方法的步骤。
10.一种可读存储介质,其特征在于:所述可读存储介质中存储有计算机可读指令,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器实现如权利要求1至7中任一项所述音频识别加锚点方法的步骤。
CN202211619897.7A 2022-12-15 2022-12-15 音频识别加锚点方法、装置、设备及可读存储介质 Active CN115906781B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211619897.7A CN115906781B (zh) 2022-12-15 2022-12-15 音频识别加锚点方法、装置、设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211619897.7A CN115906781B (zh) 2022-12-15 2022-12-15 音频识别加锚点方法、装置、设备及可读存储介质

Publications (2)

Publication Number Publication Date
CN115906781A CN115906781A (zh) 2023-04-04
CN115906781B true CN115906781B (zh) 2023-11-24

Family

ID=86483890

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211619897.7A Active CN115906781B (zh) 2022-12-15 2022-12-15 音频识别加锚点方法、装置、设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN115906781B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102024009A (zh) * 2010-03-09 2011-04-20 李平辉 视频场景库生成方法及系统、搜索视频场景的方法及系统
CN103778204A (zh) * 2014-01-13 2014-05-07 北京奇虎科技有限公司 基于语音分析的视频搜索方法、设备及系统
CN105244022A (zh) * 2015-09-28 2016-01-13 科大讯飞股份有限公司 音视频字幕生成方法及装置
CN109145149A (zh) * 2018-08-16 2019-01-04 科大讯飞股份有限公司 一种信息对齐方法、装置、设备及可读存储介质
CN110335612A (zh) * 2019-07-11 2019-10-15 招商局金融科技有限公司 基于语音识别的会议记录生成方法、装置及存储介质
CN111091834A (zh) * 2019-12-23 2020-05-01 科大讯飞股份有限公司 文本与音频对齐方法及相关产品
CN112580340A (zh) * 2020-12-30 2021-03-30 网易(杭州)网络有限公司 逐字歌词生成方法及装置、存储介质和电子设备
CN113852832A (zh) * 2020-11-26 2021-12-28 阿里巴巴集团控股有限公司 视频处理方法、装置、设备和存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102024009A (zh) * 2010-03-09 2011-04-20 李平辉 视频场景库生成方法及系统、搜索视频场景的方法及系统
CN103778204A (zh) * 2014-01-13 2014-05-07 北京奇虎科技有限公司 基于语音分析的视频搜索方法、设备及系统
CN105244022A (zh) * 2015-09-28 2016-01-13 科大讯飞股份有限公司 音视频字幕生成方法及装置
CN109145149A (zh) * 2018-08-16 2019-01-04 科大讯飞股份有限公司 一种信息对齐方法、装置、设备及可读存储介质
CN110335612A (zh) * 2019-07-11 2019-10-15 招商局金融科技有限公司 基于语音识别的会议记录生成方法、装置及存储介质
CN111091834A (zh) * 2019-12-23 2020-05-01 科大讯飞股份有限公司 文本与音频对齐方法及相关产品
CN113852832A (zh) * 2020-11-26 2021-12-28 阿里巴巴集团控股有限公司 视频处理方法、装置、设备和存储介质
CN112580340A (zh) * 2020-12-30 2021-03-30 网易(杭州)网络有限公司 逐字歌词生成方法及装置、存储介质和电子设备

Also Published As

Publication number Publication date
CN115906781A (zh) 2023-04-04

Similar Documents

Publication Publication Date Title
US9626955B2 (en) Intelligent text-to-speech conversion
Rubin et al. Content-based tools for editing audio stories
US10977299B2 (en) Systems and methods for consolidating recorded content
US7739116B2 (en) Subtitle generation and retrieval combining document with speech recognition
Prechelt et al. An interface for melody input
Pezik Spokes-a search and exploration service for conversational corpus data
US20030177008A1 (en) Voice message processing system and method
CN104252464B (zh) 信息处理方法和装置
KR20080000203A (ko) 음성인식을 이용한 음악 파일 검색 방법
CN109033060B (zh) 一种信息对齐方法、装置、设备及可读存储介质
CN101533401A (zh) 声音数据检索系统以及声音数据的检索方法
Koumpis et al. Content-based access to spoken audio
Whittaker et al. Semantic speech editing
US8706484B2 (en) Voice recognition dictionary generation apparatus and voice recognition dictionary generation method
Wilcox et al. Annotation and segmentation for multimedia indexing and retrieval
Bouamrane et al. Meeting browsing: State-of-the-art review
CN115906781B (zh) 音频识别加锚点方法、装置、设备及可读存储介质
CN111128254B (zh) 音频播放方法、电子设备及存储介质
JP3444831B2 (ja) 編集処理装置、及び編集処理プログラムが記憶された記憶媒体
Chand et al. A framework for lecture video segmentation from extracted speech content
БАРКОВСЬКА Performance study of the text analysis module in the proposed model of automatic speaker’s speech annotation
Tzanetakis et al. Experiments in computer-assisted annotation of audio
JP2021117759A (ja) テキスト情報編集装置及びテキスト情報編集方法
CN108831473A (zh) 一种音频处理方法及装置
KR101030777B1 (ko) 스크립트 데이터 생성 방법 및 장치

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant