CN111639157A - 音频标记方法、装置、设备及可读存储介质 - Google Patents

音频标记方法、装置、设备及可读存储介质 Download PDF

Info

Publication number
CN111639157A
CN111639157A CN202010405181.1A CN202010405181A CN111639157A CN 111639157 A CN111639157 A CN 111639157A CN 202010405181 A CN202010405181 A CN 202010405181A CN 111639157 A CN111639157 A CN 111639157A
Authority
CN
China
Prior art keywords
audio
target
segment
information
mark
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010405181.1A
Other languages
English (en)
Other versions
CN111639157B (zh
Inventor
郑琳琳
龙洪锋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Speakin Intelligent Technology Co ltd
Original Assignee
Guangzhou Speakin Intelligent Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Speakin Intelligent Technology Co ltd filed Critical Guangzhou Speakin Intelligent Technology Co ltd
Priority to CN202010405181.1A priority Critical patent/CN111639157B/zh
Publication of CN111639157A publication Critical patent/CN111639157A/zh
Application granted granted Critical
Publication of CN111639157B publication Critical patent/CN111639157B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/117Tagging; Marking up; Designating a block; Setting of attributes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Library & Information Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种音频标记方法、装置、设备及可读存储介质,所述音频标记方法根据目标信息对待标记音频中的重点片段进行自动标注,避免了人工剪切并标注的繁琐步骤,提高了确定并标注重点片段的效率;根据标记导出指令确定出当前所需的重点片段中的目标片段,使得用户可在重点片段中任意选择;通过生成目标片段对应的标记列表并导出当前所需的目标片段与标记列表,使得能够快速地按需批量导出音频片段以及对应的标识,提升了对于目标音频片段以及标注的获取效率。

Description

音频标记方法、装置、设备及可读存储介质
技术领域
本发明涉及语音处理技术领域,尤其涉及一种音频标记方法、装置、设备及可读存储介质。
背景技术
随着科学技术的发展和硬件计算能力的大幅提升,语音识别技术的发展也日臻完善,并广泛应用到了各个领域。在公安侦查领域,通常需要办案人员对完整的检材或者样本进行鉴定。办案人员在鉴定的过程中,为了得到有效的证据,通常是借助工具截取音频中的某些段落,再通过手动的方式来完成对重点句子、词语、音素等的标注,从而导致了获取音频重点内容的效率低下的技术问题。
上述内容仅用于辅助理解本发明的技术方案,并不代表承认上述内容是现有技术。
发明内容
本发明的主要目的在于提供一种音频标记方法,旨在解决获取音频重点内容的效率低下的技术问题。
为实现上述目的,本发明提供一种音频标记方法,所述音频标记方法应用于音频标记设备,所述音频标记方法包括以下步骤:
获取待标记音频,基于预设目标信息与预设语音识别算法标记所述待标记音频中的重点片段,并为所述重点片段分配标记信息;
在接收到标记导出指令时,基于所述标记导出指令确定所述重点片段中的目标片段;
从所述标记信息中选出所述目标片段的目标标记信息,基于所述目标标记信息生成所述目标片段对应的标记列表,并导出所述目标片段与标记列表。
可选地,所述在接收到标记导出指令时,基于所述标记导出指令确定所述重点片段中的目标片段的步骤包括:
在接收到用户基于预设语音采集装置发送的标记导出指令时,获取用户输入的语音指示信息;
使用预设语义识别算法识别所述语音指示信息得到语义识别结果,将所述语义识别结果转化为第一筛选条件对所述标记信息进行筛选,以确定所述目标片段。
可选地,所述在接收到标记导出指令时,基于所述标记导出指令确定所述重点片段中的目标片段的步骤包括:
在接收到用户基于预设条件输入框发送的标记导出指令时,获取用户在所述预设条件输入框中输入的筛选关键词;
将所述筛选关键词转化为第二筛选条件对所述标记信息进行筛选,以确定所述目标片段。
可选地,所述预设目标信息为目标音素,预设语音识别算法为音素识别算法,
所述基于预设目标信息与预设语音识别算法标记所述待标记音频中的重点片段,并为所述重点片段分配标记信息的步骤包括:
使用所述目标音素与音素识别算法确定所述待标记音频中存在所述预设目标音素的出现片段,作为第一重点片段;
获取所述第一重点片段的第一起止时间与所述第一起止时间内的第一语谱图片段,将所述第一起止时间、第一语谱图片段与所述预设目标音素共同分配为各所述重点片段的标记信息。
可选地,所述从所述标记信息中选出所述目标片段的目标标记信息,基于所述目标标记信息生成所述目标片段对应的标记列表,并导出所述目标片段与标记列表的步骤之后,还包括:
接收用户发送的音素对比指令时,获取所述音素对比指令中的指定音素与待比较音频;
将所述待比较音频中所述指定音素出现部分对应的第一语谱图片段,与所述目标片段中所述指定音素出现部分对应的第二语谱图片段进行比较,以确定所述待比较音频与所述目标片段在所述指定音素上的相似度,并将所述相似度添加至所述标记列表。
可选地,所述预设目标信息为目标语句,预设语音识别算法为语义识别算法,
所述基于预设目标信息与预设语音识别算法标记所述待标记音频中的重点片段,并为所述重点片段分配标记信息的步骤包括:
使用所述语义识别算法获取所述待标记音频中各语句与所述目标语句的关联度,并将超出预设阈值的关联度所对应的语句作为第二重点片段;
获取所述第二重点片段的第二起止时间与所述第二起止时间内的第二语谱图片段,与所述目标语句共同分配为各所述重点片段的标记信息。
可选地,所述标记列表包括片段名称、起止时间和语谱图片段。
此外,为实现上述目的,本发明还提供一种音频标记装置,所述音频标记装置包括:
标记信息生成模块,用于获取待标记音频,基于预设目标信息与预设语音识别算法标记所述待标记音频中的重点片段,并为所述重点片段分配标记信息;
导出片段确定模块,用于在接收到标记导出指令时,基于所述标记导出指令确定所述重点片段中的目标片段;
片段标记导出模块,用于从所述标记信息中选出所述目标片段的目标标记信息,基于所述目标标记信息生成所述目标片段对应的标记列表,并导出所述目标片段与标记列表。
进一步地,所述导出片段确定模块包括:
语音指示获取单元,用于在接收到用户基于预设语音采集装置发送的标记导出指令时,获取用户输入的语音指示信息;
第一条件筛选单元,用于使用预设语义识别算法识别所述语音指示信息得到语义识别结果,将所述语义识别结果转化为第一筛选条件对所述标记信息进行筛选,以确定所述目标片段。
进一步地,所述导出片段确定模块包括:
筛选词语输入单元,用于在接收到用户基于预设条件输入框发送的标记导出指令时,获取用户在所述预设条件输入框中输入的筛选关键词;
第二条件筛选单元,用于将所述筛选关键词转化为第二筛选条件对所述标记信息进行筛选,以确定所述目标片段。
进一步地,所述片段标记导出模块包括:
第一片段确定单元,用于使用所述目标音素与音素识别算法确定所述待标记音频中存在所述预设目标音素的出现片段,作为第一重点片段;
第一片段标记单元,用于获取所述第一重点片段的第一起止时间与所述第一起止时间内的第一语谱图片段,将所述第一起止时间、第一语谱图片段与所述预设目标音素共同分配为各所述重点片段的标记信息。
进一步地,所述音频标记装置还包括:
比较音频获取模块,用于接收用户发送的音素对比指令时,获取所述音素对比指令中的指定音素与待比较音频;
语谱片段比较模块,用于将所述待比较音频中所述指定音素出现部分对应的第一语谱图片段,与所述目标片段中所述指定音素出现部分对应的第二语谱图片段进行比较,以确定所述待比较音频与所述目标片段在所述指定音素上的相似度,并将所述相似度添加至所述标记列表。
进一步地,所述片段标记导出模块包括:
第二片段确定单元,用于使用所述语义识别算法获取所述待标记音频中各语句与所述目标语句的关联度,并将超出预设阈值的关联度所对应的语句作为第二重点片段;
第二片段标记单元,用于获取所述第二重点片段的第二起止时间与所述第二起止时间内的第二语谱图片段,与所述目标语句共同分配为各所述重点片段的标记信息。
进一步地,所述音频标记装置还包括:
所述标记列表包括片段名称、起止时间和语谱图片段。
此外,为实现上述目的,本发明还提供一种音频标记设备,所述音频标记设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的音频标记程序,所述音频标记程序被所述处理器执行时实现如上述的音频标记方法的步骤。
此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有音频标记程序,所述音频标记程序被处理器执行时实现如上述的音频标记方法的步骤。
本发明提供一种音频标记方法、装置、设备及计算机可读存储介质。所述音频标记方法通过获取待标记音频,基于预设目标信息与预设语音识别算法标记所述待标记音频中的重点片段,并为所述重点片段分配标记信息;在接收到标记导出指令时,基于所述标记导出指令确定所述重点片段中的目标片段;从所述标记信息中选出所述目标片段的目标标记信息,基于所述目标标记信息生成所述目标片段对应的标记列表,并导出所述目标片段与标记列表。通过上述方式,本发明根据目标信息对待标记音频中的重点片段进行自动标注,避免了人工剪切并标注的繁琐步骤,提高了确定并标注重点片段的效率;根据标记导出指令确定出当前所需的重点片段中的目标片段,使得用户可在重点片段中任意选择;通过生成目标片段对应的标记列表并导出当前所需的目标片段与标记列表,使得能够快速地按需批量导出音频片段以及对应的标识,提升了对于目标音频片段以及标注的获取效率,从而解决了获取音频重点内容的效率低下的技术问题。
附图说明
图1是本发明实施例方案涉及的硬件运行环境的设备结构示意图;
图2为本发明音频标记方法第一实施例的流程示意图;
图3为本发明一具体实施例的勾选界面示意图;
图4为本发明一具体实施例的进度弹窗示意图;
图5为本发明一具体实施例的导出文件示意图;
图6为本发明一具体实施例的语谱图标记示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
如图1所示,图1是本发明实施例方案涉及的硬件运行环境的终端结构示意图。
本发明实施例终端可以是PC,也可以是智能手机、平板电脑、MP3(Moving PictureExperts Group Audio Layer III,动态影像专家压缩标准音频层面3)播放器、MP4(MovingPicture Experts Group Audio Layer IV,动态影像专家压缩标准音频层面3)播放器等具有显示功能的可移动式终端设备。
如图1所示,该终端可以包括:处理器1001,例如CPU,通信总线1002,用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选的用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储设备。
可选地,终端还可以包括摄像头、RF(Radio Frequency,射频)电路,音频电路、WiFi模块等等。
本领域技术人员可以理解,图1中示出的终端结构并不构成对终端的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及音频标记程序。
在图1所示的终端中,网络接口1004主要用于连接后台服务器,与后台服务器进行数据通信;用户接口1003主要用于连接客户端(用户端),与客户端进行数据通信;而处理器1001可以用于调用存储器1005中存储的音频标记程序,并执行以下操作:
获取待标记音频,基于预设目标信息与预设语音识别算法标记所述待标记音频中的重点片段,并为所述重点片段分配标记信息;
在接收到标记导出指令时,基于所述标记导出指令确定所述重点片段中的目标片段;
从所述标记信息中选出所述目标片段的目标标记信息,基于所述目标标记信息生成所述目标片段对应的标记列表,并导出所述目标片段与标记列表。
进一步地,处理器1001可以调用存储器1005中存储的音频标记程序,还执行以下操作:
在接收到用户基于预设语音采集装置发送的标记导出指令时,获取用户输入的语音指示信息;
使用预设语义识别算法识别所述语音指示信息得到语义识别结果,将所述语义识别结果转化为第一筛选条件对所述标记信息进行筛选,以确定所述目标片段。
进一步地,处理器1001可以调用存储器1005中存储的音频标记程序,还执行以下操作:
在接收到用户基于预设条件输入框发送的标记导出指令时,获取用户在所述预设条件输入框中输入的筛选关键词;
将所述筛选关键词转化为第二筛选条件对所述标记信息进行筛选,以确定所述目标片段。
进一步地,处理器1001可以调用存储器1005中存储的音频标记程序,还执行以下操作:
使用所述目标音素与音素识别算法确定所述待标记音频中存在所述预设目标音素的出现片段,作为第一重点片段;
获取所述第一重点片段的第一起止时间与所述第一起止时间内的第一语谱图片段,将所述第一起止时间、第一语谱图片段与所述预设目标音素共同分配为各所述重点片段的标记信息。
进一步地,处理器1001可以调用存储器1005中存储的音频标记程序,还执行以下操作:
接收用户发送的音素对比指令时,获取所述音素对比指令中的指定音素与待比较音频;
将所述待比较音频中所述指定音素出现部分对应的第一语谱图片段,与所述目标片段中所述指定音素出现部分对应的第二语谱图片段进行比较,以确定所述待比较音频与所述目标片段在所述指定音素上的相似度,并将所述相似度添加至所述标记列表。
进一步地,处理器1001可以调用存储器1005中存储的音频标记程序,还执行以下操作:
使用所述语义识别算法获取所述待标记音频中各语句与所述目标语句的关联度,并将超出预设阈值的关联度所对应的语句作为第二重点片段;
获取所述第二重点片段的第二起止时间与所述第二起止时间内的第二语谱图片段,与所述目标语句共同分配为各所述重点片段的标记信息。
进一步地,处理器1001可以调用存储器1005中存储的音频标记程序,还执行以下操作:
所述标记列表包括片段名称、起止时间和语谱图片段。
基于上述硬件结构,提出本发明音频标记方法的各个实施例。
随着科学技术的发展和硬件计算能力的大幅提升,语音识别技术的发展也日臻完善,并广泛应用到了各个领域。在公安侦查领域,通常需要办案人员对完整的检材或者样本进行鉴定。办案人员在鉴定的过程中,为了得到有效的证据,通常是借助工具截取音频中的某些段落,再通过手动的方式来完成对重点句子、词语、音素等的标注,从而导致了获取音频重点内容的效率低下的技术问题。
为解决上述问题,本发明提供一种音频标记方法,即根据目标信息对待标记音频中的重点片段进行自动标注,避免了人工剪切并标注的繁琐步骤,提高了确定并标注重点片段的效率;根据标记导出指令确定出当前所需的重点片段中的目标片段,使得用户可在重点片段中任意选择;通过生成目标片段对应的标记列表并导出当前所需的目标片段与标记列表,使得能够快速地按需批量导出音频片段以及对应的标识,提升了对于目标音频片段以及标注的获取效率,从而解决了获取音频重点内容的效率低下的技术问题。所述音频标记方法应用于终端。
参照图2,图2为音频标记方法第一实施例的流程示意图。
本发明第一实施例提供一种音频标记方法,所述音频标记方法包括以下步骤:
步骤S10,获取待标记音频,基于预设目标信息与预设语音识别算法标记所述待标记音频中的重点片段,并为所述重点片段分配标记信息;
在本实施例中,不对待标记音频的数目进行限定。待标记音频可由用户实时输入至终端,也可由终端根据预设程序自动获取。目标信息可为目标句子、目标词语、目标关键字或是目标音素。语音识别算法可为音素识别算法、语义识别算法、自动语音识别技术(ASR,Automatic Speech Recognition)等。标记信息可包括重点片段的名称、起止时间点、对应语谱图片段截图、备注信息等,通常以列表的形式整合显示。具体地,对于一个完整的检材或者样本,办案人员在鉴定的过程中,会标注一些重点句子、词语、音素等,以作为证据,播放重点标记音频。计算机在接收到办案人员发送的音频标记指令时,获取该音频标记指令中的一时长为10分钟的待标记音频,并根据预设的语音识别模型与目标关键词“我们”,对这10分钟的待标记音频进行检测。检测出的结果为“我们”一词在这一待标记音频中出现了5次,起止时间分别为00:02:30至00:02:32,00:04:25至00:02:27,00:07:16至00:07:18,00:08:50至00:08:52与00:09:02至00:09:04。计算机记录这些起止时间,并自动从待标记音频的语谱图中截取出与起止时间对应的片段,分配为这一待标记音频中关于“我们”一词的标记信息。
步骤S20,在接收到标记导出指令时,基于所述标记导出指令确定所述重点片段中的目标片段;
在本实施例中,标记导出指令既可由用户实时发起,也可由终端根据预设程序自动发起。用户可通过语音指示、键盘输入、勾选框勾选等方式发起标记导出指令。终端在接收到包含筛选条件的标记导出指令时,根据当前标记导出指令中的筛选条件,对搜索范围内的重点片段进行筛选。筛选条件可为特定音素、关键词、关键句等。具体地,如图3所示,办案人员现需批量导出“k,j,i,h,f,e,d,c,b,a,们,我”这些音素与特定字的目标片段,则可在预设标识信息勾选界面进行选择。该标识信息勾选界面列表显示出每一重点片段的序号、标识名称、备注信息、开始时间、结束时间,并可对每一列标识信息进行编辑与删除操作。
步骤S30,从所述标记信息中选出所述目标片段的目标标记信息,基于所述目标标记信息生成所述目标片段对应的标记列表,并导出所述目标片段与标记列表。
在本实施例中,终端对标记信息中目标片段所对应的部分进行整合,生成上述标记列表,再将标记列表与其对应的目标片段共同导出。具体地,沿用步骤S10中具体实施例的设定。如图3所示,办案人员可在选定包含有“k,j,i,h,f,e,d,c,b,a,们,我”这些音素与特定字的目标片段后,点击界面中的“导出”按键,也即是图4中框出来的按键。该按键的含义为批量导出选中标记所对应的音频片段,与标记列表excel为一个zip压缩包。若无选中标记,则按钮置灰不可点击。办案人员点击“导出”按键时,则出现系统弹窗让用户选择存放标记文件夹zip的地方,确定后则会有进度弹窗。如图4所示,在进度弹窗,选择取消按键或关闭按键,则导出中断,导出一半的音频也删除,并显示提示信息:导出标记已取消。导出完成后,计算机自动生成并显示提示信息“导出标记成功”;若导出失败,则由报错弹窗提示:导出标记失败。另外在每次导出操作完成后,还可自动生成操作日志,用于记录导出标记的文件。例如,操作日志可为:导出标记_文件名。如图5所示,导出的zip文件夹的命名规则可为“导出标记_文件名_时间戳”,例如:导出标记_检材1_20191207112953.zip。zip文件夹中包含有导出标记音频与导出标记列表两个文件,导出标记音频将标记所对应的音频导出为独立的音频片段,其命名规则可为“标记名称_开始时间_结束时间”。需要说明的是,实际情况中须调研是否有文件长度的最短限制,若有,则需补充音频空白片段,使得音频时长范围符合规范。导出标记列表则将选中的标记按照创建时间倒序排列。
在本实施例中,通过获取待标记音频,基于预设目标信息与预设语音识别算法标记所述待标记音频中的重点片段,并为所述重点片段分配标记信息;在接收到标记导出指令时,基于所述标记导出指令确定所述重点片段中的目标片段;从所述标记信息中选出所述目标片段的目标标记信息,基于所述目标标记信息生成所述目标片段对应的标记列表,并导出所述目标片段与标记列表。通过上述方式,本发明根据目标信息对待标记音频中的重点片段进行自动标注,避免了人工剪切并标注的繁琐步骤,提高了确定并标注重点片段的效率;根据标记导出指令确定出当前所需的重点片段中的目标片段,使得用户可在重点片段中任意选择;通过生成目标片段对应的标记列表并导出当前所需的目标片段与标记列表,使得能够快速地按需批量导出音频片段以及对应的标识,提升了对于目标音频片段以及标注的获取效率,从而解决了获取音频重点内容的效率低下的技术问题。
进一步地,图中未示的,基于上述图2所示的第一实施例,提出本发明音频标记方法的第二实施例。在本实施例中,步骤S20包括:
步骤a,在接收到用户基于预设语音采集装置发送的标记导出指令时,获取用户输入的语音指示信息;
在本实施例中,预设语音采集装置可为当前设备自带的装置,也可为用户另设与当前设备的装置。在用户需要导出若干数量的目标片段时,可通过预设的语音采集装置对终端发送语音指示信息,也即是向终端发送一标记导出指令。具体地,办案人员通过移动终端中的语音采集装置说出“导出包含‘我们’的标记片段”这一语音,移动终端则接受到语音指示信息为“导出包含‘我们’的标记片段”的标记导出指令。
步骤b,使用预设语义识别算法识别所述语音指示信息得到语义识别结果,将所述语义识别结果转化为第一筛选条件对所述标记信息进行筛选,以确定所述目标片段。
在本实施例中,预设语义识别算法可由预先训练好的语义识别模型实现。可以理解的是,终端中已预先对大量的训练数据集进行训练,得到语义识别模型。终端将用户当前的语音指示信息输入语义识别模型,得到模型预测的识别结果,再将识别结果作为第一筛选条件,也即是使用语义识别模型将语义识别结果转化为第一筛选条件,并从检索范围内筛选称呼符合条件的音频片段,作为目标片段。
进一步地,在本实施例中,步骤S20还包括:
步骤c,在接收到用户基于预设条件输入框发送的标记导出指令时,获取用户在所述预设条件输入框中输入的筛选关键词;
在本实施例中,用户还可通过输入筛选关键词来对重点片段进行筛选。词方式适用于重点片段数量较多的情况。用户可在标记选择界面的预设条件输入框中输入当前的筛选关键词,筛选关键词可为句子、词语、字或是音素,例如,输入“我们”一词作为筛选关键词。
步骤d,将所述筛选关键词转化为第二筛选条件对所述标记信息进行筛选,以确定所述目标片段。
在本实施例中,终端将用户当前输入的筛选关键词作为第二筛选条件,并从检索范围内的重点片段中筛选出符合条件的目标片段。具体地,办案人员在输入框中输入“我们”一词,计算机从所有重点片段中筛选出了5个包含“我们”一词的目标片段。
在本实施例中,进一步通过提供语音指示与关键词输入这两种目标片段的筛选方式,能够方便快捷地检索到用户当前所需的音频片段,极大程度提高了对于目标片段的定位效率,进而提高了目标片段及其标记的获取效率,同时也提升了用户体验。
进一步地,图中未示的,基于上述图2所示的第一实施例,提出本发明音频标记方法的第三实施例。在本实施例中,步骤S10包括:
步骤e,使用所述目标音素与音素识别算法确定所述待标记音频中存在所述预设目标音素的出现片段,作为第一重点片段;
在本实施例中,音素识别算法为可由多种神经网络模型及隐马尔可夫模型实现。用户在确定当前的目标音素后,对当前的待标记音频进行检测,定位出待标记音频中目标音素出现的位置。将该音素出现的起止时间对应的音频片段自动截取出作为第一重点片段。
步骤f,获取所述第一重点片段的第一起止时间与所述第一起止时间内的第一语谱图片段,将所述第一起止时间、第一语谱图片段与所述预设目标音素共同分配为各所述重点片段的标记信息。
在本实施例中,终端可将目标音素、第一重点片段的第一起止时间与第一语谱图片段等信息共同作为标记信息进行保存。如图6所示,终端会自动将整段音频的语谱图中目标音素所出现部分的语谱片段着重显示,用户可通过点击对应的标签列表查看各目标音素出现时间的语谱图片段。图中点中目标音素“e”的标签列表,则着重显示出在00:00:3.133至00:00:3.193这一时间段内的语谱图片段。
进一步地,在本实施例中,步骤S30之后,还包括:
步骤g,接收用户发送的音素对比指令时,获取所述音素对比指令中的指定音素与待比较音频;
在本实施例中,办案人员有时需要对嫌疑人的音频资料与音频库中的已知音频进行对比,通过比较同一音素的音频特征能够更加快速准确的判断嫌疑人的身份。办案人员现向计算机输入需要鉴定身份的待比较音频,与需要进行对比的指定音素,并点击预设按键,计算机接收到用户此时发送的这一音素对比指令,获取到待比较音频与指定音素,例如“ai”。
步骤h,将所述待比较音频中所述指定音素出现部分对应的第一语谱图片段,与所述目标片段中所述指定音素出现部分对应的第二语谱图片段进行比较,以确定所述待比较音频与所述目标片段在所述指定音素上的相似度,并将所述相似度添加至所述标记列表。
在本实施例中,计算机全面检测待比较音频,截取出待比较音频中指定音素出现的部分所对应的语谱图片段,并将其与目标片段中指定音素所对应的语谱图片段进行对比,比较频率的变化趋势等,得到两者之间的相似度,并可将相似度添加至标记列表。若相似度高于一定阈值时,则可为待比较音频的发声者的身份提供依据。
进一步地,在本实施例中,步骤S10还包括:
步骤i,使用所述语义识别算法获取所述待标记音频中各语句与所述目标语句的关联度,并将超出预设阈值的关联度所对应的语句作为第二重点片段;
在本实施例中,语义识别算法可通过预先训练好的语义识别模型实现。终端将待标记音频输入预设的语义识别模型,得到待标记音频中各语句分别与目标语句的关联度。终端判断各语句所对应的关联度是否超出预设阈值,若超出,则将待标记音频中对应的语句作为第二重点片段;若未超出,则判定待标记音频中不存在目标语句出现。
步骤j,获取所述第二重点片段的第二起止时间与所述第二起止时间内的第二语谱图片段,与所述目标语句共同分配为各所述重点片段的标记信息。
在本实施例中,终端可将目标语句、第二重点片段的第二起止时间与第二语谱图片段等信息共同作为标记信息进行保存。具体步骤与步骤f类似,此处不再赘述。
进一步地,所述音频标记方法还包括:
步骤k,所述标记列表包括片段名称、起止时间和语谱图片段。
在本实施例中,上述标记列表可包括目标片段的名称、开始时间、结束时间、语谱图片段。目标片段名称的命名规则可为“标记名称_文件名_开始时间_结束时间”,以便用户查找。另外,还可包括备注信息,备注信息可为发声者信息,例如姓名、年龄、性别等。
在本实施例中,进一步通过标记待标记音频中目标音素所出现的部分,实现了自动标记小至音素层面的音频片段,极大提高了标记工作的精细程度与工作效率;通过标记的音素音频片段与位置音频进行比较,有助于办案人员确定未知音频的发声者的身份,为案件侦查提供了助力;通过标记待标记音频中与目标语句相关的音频片段,使得办案人员在需要以音频里的一些重点语句作为教学材料的情况下能够快速得到所需的音频材料,提高了音频材料获取效率;通过将片段名称、起止时间、语谱图片段与备注信息,使得保留了目标片段的有效信息,便于用户查找。
本发明还提供一种音频标记装置,所述音频标记装置包括:
标记信息生成模块,用于获取待标记音频,基于预设目标信息与预设语音识别算法标记所述待标记音频中的重点片段,并为所述重点片段分配标记信息;
导出片段确定模块,用于在接收到标记导出指令时,基于所述标记导出指令确定所述重点片段中的目标片段;
片段标记导出模块,用于从所述标记信息中选出所述目标片段的目标标记信息,基于所述目标标记信息生成所述目标片段对应的标记列表,并导出所述目标片段与标记列表。
本发明还提供一种音频标记设备。
所述音频标记设备包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的音频标记程序,其中所述音频标记程序被所述处理器执行时,实现如上所述的音频标记方法的步骤。
其中,所述音频标记程序被执行时所实现的方法可参照本发明音频标记方法的各个实施例,此处不再赘述。
本发明还提供一种计算机可读存储介质。
本发明计算机可读存储介质上存储有音频标记程序,所述音频标记程序被处理器执行时实现如上所述的音频标记方法的步骤。
其中,所述音频标记程序被执行时所实现的方法可参照本发明音频标记方法各个实施例,此处不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种音频标记方法,其特征在于,所述音频标记方法包括:
获取待标记音频,基于预设目标信息与预设语音识别算法标记所述待标记音频中的重点片段,并为所述重点片段分配标记信息;
在接收到标记导出指令时,基于所述标记导出指令确定所述重点片段中的目标片段;
从所述标记信息中选出所述目标片段的目标标记信息,基于所述目标标记信息生成所述目标片段对应的标记列表,并导出所述目标片段与标记列表。
2.如权利要求1所述的音频标记方法,其特征在于,所述在接收到标记导出指令时,基于所述标记导出指令确定所述重点片段中的目标片段的步骤包括:
在接收到用户基于预设语音采集装置发送的标记导出指令时,获取用户输入的语音指示信息;
使用预设语义识别算法识别所述语音指示信息得到语义识别结果,将所述语义识别结果转化为第一筛选条件对所述标记信息进行筛选,以确定所述目标片段。
3.如权利要求1所述的音频标记方法,其特征在于,所述在接收到标记导出指令时,基于所述标记导出指令确定所述重点片段中的目标片段的步骤包括:
在接收到用户基于预设条件输入框发送的标记导出指令时,获取用户在所述预设条件输入框中输入的筛选关键词;
将所述筛选关键词转化为第二筛选条件对所述标记信息进行筛选,以确定所述目标片段。
4.如权利要求1所述的音频标记方法,其特征在于,所述预设目标信息为目标音素,预设语音识别算法为音素识别算法,
所述基于预设目标信息与预设语音识别算法标记所述待标记音频中的重点片段,并为所述重点片段分配标记信息的步骤包括:
使用所述目标音素与音素识别算法确定所述待标记音频中存在所述预设目标音素的出现片段,作为第一重点片段;
获取所述第一重点片段的第一起止时间与所述第一起止时间内的第一语谱图片段,将所述第一起止时间、第一语谱图片段与所述预设目标音素共同分配为各所述重点片段的标记信息。
5.如权利要求4所述的音频标记方法,其特征在于,所述从所述标记信息中选出所述目标片段的目标标记信息,基于所述目标标记信息生成所述目标片段对应的标记列表,并导出所述目标片段与标记列表的步骤之后,还包括:
接收用户发送的音素对比指令时,获取所述音素对比指令中的指定音素与待比较音频;
将所述待比较音频中所述指定音素出现部分对应的第一语谱图片段,与所述目标片段中所述指定音素出现部分对应的第二语谱图片段进行比较,以确定所述待比较音频与所述目标片段在所述指定音素上的相似度,并将所述相似度添加至所述标记列表。
6.如权利要求1所述的音频标记方法,其特征在于,所述预设目标信息为目标语句,预设语音识别算法为语义识别算法,
所述基于预设目标信息与预设语音识别算法标记所述待标记音频中的重点片段,并为所述重点片段分配标记信息的步骤包括:
使用所述语义识别算法获取所述待标记音频中各语句与所述目标语句的关联度,并将超出预设阈值的关联度所对应的语句作为第二重点片段;
获取所述第二重点片段的第二起止时间与所述第二起止时间内的第二语谱图片段,与所述目标语句共同分配为各所述重点片段的标记信息。
7.如权利要求1-6中任意一项所述的音频标记方法,其特征在于,所述标记列表包括片段名称、起止时间和语谱图片段。
8.一种音频标记装置,其特征在于,所述音频标记装置包括:
标记信息生成模块,用于获取待标记音频,基于预设目标信息与预设语音识别算法标记所述待标记音频中的重点片段,并为所述重点片段分配标记信息;
导出片段确定模块,用于在接收到标记导出指令时,基于所述标记导出指令确定所述重点片段中的目标片段;
片段标记导出模块,用于从所述标记信息中选出所述目标片段的目标标记信息,基于所述目标标记信息生成所述目标片段对应的标记列表,并导出所述目标片段与标记列表。
9.一种音频标记设备,其特征在于,所述音频标记设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的音频标记程序,所述音频标记程序被所述处理器执行时实现如权利要求1至7中任一项所述的音频标记方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有音频标记程序,所述音频标记程序被处理器执行时实现如权利要求1至7中任一项所述的音频标记方法的步骤。
CN202010405181.1A 2020-05-13 2020-05-13 音频标记方法、装置、设备及可读存储介质 Active CN111639157B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010405181.1A CN111639157B (zh) 2020-05-13 2020-05-13 音频标记方法、装置、设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010405181.1A CN111639157B (zh) 2020-05-13 2020-05-13 音频标记方法、装置、设备及可读存储介质

Publications (2)

Publication Number Publication Date
CN111639157A true CN111639157A (zh) 2020-09-08
CN111639157B CN111639157B (zh) 2023-10-20

Family

ID=72330177

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010405181.1A Active CN111639157B (zh) 2020-05-13 2020-05-13 音频标记方法、装置、设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN111639157B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112530402A (zh) * 2020-11-30 2021-03-19 深圳市优必选科技股份有限公司 一种语音合成方法、语音合成装置及智能设备
CN114038468A (zh) * 2022-01-07 2022-02-11 深圳市声扬科技有限公司 语音数据比对处理方法、装置、电子设备和存储介质
CN114242120A (zh) * 2021-11-25 2022-03-25 广东电力信息科技有限公司 一种基于dtmf技术的音频剪辑方法及音频标记方法

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080172224A1 (en) * 2007-01-11 2008-07-17 Microsoft Corporation Position-dependent phonetic models for reliable pronunciation identification
CN101542590A (zh) * 2006-11-28 2009-09-23 诺基亚公司 提供基于语言的交互式多媒体系统的方法、装置和计算机程序产品
CN104505090A (zh) * 2014-12-15 2015-04-08 北京国双科技有限公司 敏感词的语音识别方法和装置
CN109065023A (zh) * 2018-08-23 2018-12-21 广州势必可赢网络科技有限公司 一种语音鉴定方法、装置、设备及计算机可读存储介质
CN109637520A (zh) * 2018-10-16 2019-04-16 平安科技(深圳)有限公司 基于语音分析的敏感内容识别方法、装置、终端及介质
CN109905764A (zh) * 2019-03-21 2019-06-18 广州国音智能科技有限公司 一种视频中目标人物语音截取方法及装置
WO2019175574A1 (en) * 2018-03-14 2019-09-19 Papercup Technologies Limited A speech processing system and a method of processing a speech signal
CN110364142A (zh) * 2019-06-28 2019-10-22 腾讯科技(深圳)有限公司 语音音素识别方法和装置、存储介质及电子装置
CN110600018A (zh) * 2019-09-05 2019-12-20 腾讯科技(深圳)有限公司 语音识别方法及装置、神经网络训练方法及装置
CN110992933A (zh) * 2019-12-06 2020-04-10 珠海市魅族科技有限公司 音频处理方法、装置、终端和计算机可读存储介质

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101542590A (zh) * 2006-11-28 2009-09-23 诺基亚公司 提供基于语言的交互式多媒体系统的方法、装置和计算机程序产品
US20080172224A1 (en) * 2007-01-11 2008-07-17 Microsoft Corporation Position-dependent phonetic models for reliable pronunciation identification
CN104505090A (zh) * 2014-12-15 2015-04-08 北京国双科技有限公司 敏感词的语音识别方法和装置
WO2019175574A1 (en) * 2018-03-14 2019-09-19 Papercup Technologies Limited A speech processing system and a method of processing a speech signal
CN109065023A (zh) * 2018-08-23 2018-12-21 广州势必可赢网络科技有限公司 一种语音鉴定方法、装置、设备及计算机可读存储介质
CN109637520A (zh) * 2018-10-16 2019-04-16 平安科技(深圳)有限公司 基于语音分析的敏感内容识别方法、装置、终端及介质
CN109905764A (zh) * 2019-03-21 2019-06-18 广州国音智能科技有限公司 一种视频中目标人物语音截取方法及装置
CN110364142A (zh) * 2019-06-28 2019-10-22 腾讯科技(深圳)有限公司 语音音素识别方法和装置、存储介质及电子装置
CN110600018A (zh) * 2019-09-05 2019-12-20 腾讯科技(深圳)有限公司 语音识别方法及装置、神经网络训练方法及装置
CN110992933A (zh) * 2019-12-06 2020-04-10 珠海市魅族科技有限公司 音频处理方法、装置、终端和计算机可读存储介质

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112530402A (zh) * 2020-11-30 2021-03-19 深圳市优必选科技股份有限公司 一种语音合成方法、语音合成装置及智能设备
CN112530402B (zh) * 2020-11-30 2024-01-12 深圳市优必选科技股份有限公司 一种语音合成方法、语音合成装置及智能设备
CN114242120A (zh) * 2021-11-25 2022-03-25 广东电力信息科技有限公司 一种基于dtmf技术的音频剪辑方法及音频标记方法
CN114242120B (zh) * 2021-11-25 2023-11-10 广东电力信息科技有限公司 一种基于dtmf技术的音频剪辑方法及音频标记方法
CN114038468A (zh) * 2022-01-07 2022-02-11 深圳市声扬科技有限公司 语音数据比对处理方法、装置、电子设备和存储介质
CN114038468B (zh) * 2022-01-07 2022-04-15 深圳市声扬科技有限公司 语音数据比对处理方法、装置、电子设备和存储介质

Also Published As

Publication number Publication date
CN111639157B (zh) 2023-10-20

Similar Documents

Publication Publication Date Title
CN110334241B (zh) 客服录音的质检方法、装置、设备及计算机可读存储介质
CN110147726B (zh) 业务质检方法和装置、存储介质及电子装置
CN107239666B (zh) 一种对医疗影像数据进行脱敏处理的方法及系统
CN106406806B (zh) 一种用于智能设备的控制方法及装置
CN111639157B (zh) 音频标记方法、装置、设备及可读存储介质
CN105931644B (zh) 一种语音识别方法及移动终端
CN110110038B (zh) 话务预测方法、装置、服务器及存储介质
CN111666746B (zh) 会议纪要的生成方法及装置、电子设备及存储介质
JP5142769B2 (ja) 音声データ検索システム及び音声データの検索方法
CN111984779B (zh) 一种对话文本分析方法、装置、设备和可读介质
CN109360550A (zh) 语音交互系统的测试方法、装置、设备和存储介质
CN105979376A (zh) 一种推荐方法和装置
CN109979440B (zh) 关键词样本确定方法、语音识别方法、装置、设备和介质
CN111639484A (zh) 坐席通话内容的分析方法
CN108710653B (zh) 一种绘本朗读点播方法、装置及系统
CN113450147A (zh) 基于决策树的产品匹配方法、装置、设备及存储介质
CN110111778B (zh) 一种语音处理方法、装置、存储介质及电子设备
CN110750626B (zh) 一种基于场景的任务驱动的多轮对话方法及系统
CN111723235A (zh) 音乐内容识别方法、装置及设备
CN112487159B (zh) 检索方法、检索装置及计算机可读存储介质
CN111640450A (zh) 多人声音频处理方法、装置、设备及可读存储介质
CN111326142A (zh) 基于语音转文本的文本信息提取方法、系统和电子设备
EP3944230A1 (en) Training voice query models
CN115019788A (zh) 语音交互方法、系统、终端设备及存储介质
CN114037154A (zh) 基于注意特征的科技成果数量与主题的预测方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant