CN111353065A - 语音档案存储方法、装置、设备以及计算机可读存储介质 - Google Patents

语音档案存储方法、装置、设备以及计算机可读存储介质 Download PDF

Info

Publication number
CN111353065A
CN111353065A CN201811564851.3A CN201811564851A CN111353065A CN 111353065 A CN111353065 A CN 111353065A CN 201811564851 A CN201811564851 A CN 201811564851A CN 111353065 A CN111353065 A CN 111353065A
Authority
CN
China
Prior art keywords
information
file
audio file
text
audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811564851.3A
Other languages
English (en)
Inventor
王海瑞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Didi Infinity Technology and Development Co Ltd
Original Assignee
Beijing Didi Infinity Technology and Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Didi Infinity Technology and Development Co Ltd filed Critical Beijing Didi Infinity Technology and Development Co Ltd
Priority to CN201811564851.3A priority Critical patent/CN111353065A/zh
Publication of CN111353065A publication Critical patent/CN111353065A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供了一种语音档案存储方法、装置、设备以及计算机可读存储介质,其中,该方法包括:将获取到的音频文件转换为文本文件,文本文件包含文本信息与音频文件对应的时间戳;提取文本文件中的关键信息;将音频文件的关联信息存储至语音档案内,音频文件的关联信息包括:音频文件标识、音频文件、文本文件和关键信息。本申请实施例通过将音频文件转化为文本文件,并且文本文件中,每一个文本信息都包含有对应音频信息的时间戳,这样就可以通过关键信息定位关键信息所对应的文本信息,再通过文本信息定位对应的音频信息,提高了查找音频文件中的包含关键信息的目标音频信息的效率。

Description

语音档案存储方法、装置、设备以及计算机可读存储介质
技术领域
本申请涉及存储技术领域,具体而言,涉及一种语音档案存储方法、装置、设备以及计算机可读存储介质。
背景技术
目前,随着社会的发展,证据的存储方式不再局限于纸质证据,还可以通过录影,录像,照片等形式来记录并存储证据。
录音是各种记录方式中最简单也是最常见的一种,很多场景中都需要录音作为语音证据,并将语音证据存储至移动终端或服务器,以便出现纠纷时可以查询相关证据的信息。比如在医院建立患者的音频文件档案,用于存储医生与患者之间的语音对话,当发生医患纠纷时,基于该音频文件可以还原之前的对话场景进行查询;或是在法院庭审建立每个案子的音频文件档案,用于存储法官与原告被告之间的对话,当发生诉讼纠纷时,基于该音频文件可以还原之前的对话场景进行查询。
但现有的语音证据查询时,需要用户自行查找到相关的音频信息,并将音频信息从头至尾听一遍,以便找到自己需要的关键信息,但这样寻找关键信息的方式会耗费大量的人力和物力,并且不能快速地定位到关键信息,查找效率不高。
发明内容
有鉴于此,本申请实施例的目的在于提供一种语音档案存储方法、装置、设备以及计算机可读存储介质,能够通过将获取到的音频文件转换为文本文件,并且文本文件中包含文本信息以及与音频文件对应的时间戳,同时获取文本文件中的关键信息,这样就可以将每一个关键信息定位至对应的文本信息,再通过文本信息精确定位至音频文件对应的某一段音频信息,解决现有技术中存在的音频文件搜证效率不高的问题,达到快速定位至关键信息,提高搜证效率的效果。
第一方面,本申请实施例提供一种语音档案存储方法,包括:
将获取到的音频文件转换为文本文件,所述文本文件包含文本信息与音频文件对应的时间戳;
提取所述文本文件中的关键信息;
将所述音频文件的关联信息存储至语音档案内,所述音频文件的关联信息包括:音频文件标识、所述音频文件、所述文本文件和所述关键信息。
可选地,所述提取所述文本文件中的关键信息,包括:
通过语义理解模型,提取所述文本文件中的所述关键信息。
可选地,所述提取所述文本文件中的关键信息之前,还包括:
采用历史文本文件,训练获取所述语义理解模型,其中,所述历史文本文件包括:标注有关键信息的文本文件。
可选地,所述将获取到的音频文件转换为文本文件,包括:
根据预设算法将所述音频文件转换为初始文本文件;
将所述初始文本文件分为多个文本信息,并获取每个文本信息与音频文件对应的时间戳。
可选地,还包括:
接收查找指令,所述查找指令包括:索引信息,所述索引信息包括下述一项或多项:音频文件标识、关键信息、存储时间信息;
根据所述查找指令,在所述语音档案内查找获取所述索引信息对应的音频文件的关联信息。
可选地,所述根据所述查找指令,在所述语音档案内查找获取所述索引信息对应的音频文件的关联信息之后,还包括:
接收关键信息查找指令,所述关键信息查找指令包括:目标关键信息;
在所述索引信息对应的音频文件的关联信息中,定位所述目标关键信息在文本文件中的目标文本信息;
获取所述目标文本信息与音频文件对应的时间戳。
可选地,所述将所述音频文件的关联信息存储至语音档案内,包括:
将所述音频文件的关联信息存储至同一数据库;或者,
将所述音频文件、所述文本文件和所述关键信息存储在不同数据库,并通过所述音频文件标识建立所述音频文件、所述文本文件和所述关键信息的索引关联。
可选地,所述音频文件标识包括下述一项或多项:音频名称、存储时间、用户身份信息、位置信息。
可选地,所述将所述音频文件的关联信息存储至语音档案内之后,还包括:
在预设时间段之后,删除所述音频文件的关联信息。
第二方面,本申请还提供一种语音档案存储装置,包括:转换模块、提取模块和存储模块;
所述转换模块,用于将获取到的音频文件转换为文本文件,所述文本文件包含文本信息与音频文件对应的时间戳;
所述提取模块,用于提取所述文本文件中的关键信息;
所述存储模块,用于将所述音频文件的关联信息存储至语音档案内,所述音频文件的关联信息包括:音频文件标识、所述音频文件、所述文本文件和所述关键信息。
可选地,所述提取模块,具体用于通过语义理解模型,提取所述文本文件中的所述关键信息。
可选地,所述装置还包括:训练模块;
所述训练模块,用于采用历史文本文件,训练获取所述语义理解模型,其中,所述历史文本文件包括:标注有关键信息的文本文件。
可选地,所述转换模块,具体用于根据预设算法将所述音频文件转换为初始文本文件;
将所述初始文本文件分为多个文本信息,并获取每个文本信息与音频文件对应的时间戳。
可选地,所述装置还包括:第一查找模块;
所述第一查找模块,用于接收查找指令,所述查找指令包括:索引信息,所述索引信息包括下述一项或多项:音频文件标识、关键信息、存储时间信息;
根据所述查找指令,在所述语音档案内查找获取所述索引信息对应的音频文件的关联信息。
可选地,所述装置还包括:接收模块、第二查找模块和获取模块;
所述接收模块,用于接收关键信息查找指令,所述关键信息查找指令包括:目标关键信息;
所述第二查找模块,用于在所述索引信息对应的音频文件的关联信息中,定位所述目标关键信息在文本文件中的目标文本信息;
所述获取模块,用于获取所述目标文本信息与音频文件对应的时间戳。
可选地,所述存储模块,具体用于将所述音频文件的关联信息存储至同一数据库;或者,
将所述音频文件、所述文本文件和所述关键信息存储在不同数据库,并通过所述音频文件标识建立所述音频文件、所述文本文件和所述关键信息的索引关联。
可选地,所述音频文件标识包括下述一项或多项:音频名称、存储时间、用户身份信息、位置信息。
可选地,所述装置还包括:删除模块;
所述删除模块,用于在预设时间段之后,删除所述音频文件的关联信息。
第三方面,们申请还提供一种电子设备,包括:处理器、存储介质和总线,所述存储介质存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储介质之间通过总线通信,所述处理器执行所述机器可读指令,以执行时执行如上述第一方面提供的的语音档案存储方法的步骤。
第四方面,本申请还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如上述第一方面提供的语音档案存储方法的步骤。
基于上述任一方面,本申请的有益效果是:
本申请实施例中,使用该语音档案存储方法,可以将音频文件转换为文本文件,文本文件中包含文本信息与音频文件对应的时间戳,通过提取文本文件中的关键信息,可以将关键信息所在的文本信息通过时间戳,与音频文件对应,用户需要查找目标音频信息时,可以通过关键词搜索,快捷地定位到目标关键信息所在的文本信息,再通过时间戳定位到目标文本信息所在的音频文件,提高了通过音频文件搜证时的效率。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本申请一实施例所提供的语音档案存储方法的流程示意图;
图2示出了本申请另一实施例所提供的语音档案存储方法的流程示意图;
图3示出了本申请另一实施例所提供的语音档案存储方法的流程示意图;
图4示出了本申请另一实施例所提供的语音档案存储方法的流程示意图;
图5示出了本申请一实施例所提供的语音档案存储装置的结构示意图;
图6示出了本申请另一实施例所提供的语音档案存储装置的结构示意图;
图7示出了本申请另一实施例所提供的语音档案存储装置的结构示意图;
图8示出了本申请另一实施例所提供的语音档案存储装置的结构示意图;
图9示出了本申请另一实施例所提供的语音档案存储装置的结构示意图;
图10示出了本申请实施例提供的电子设备结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,应当理解,本申请中附图仅起到说明和描述的目的,并不用于限定本申请的保护范围。另外,应当理解,示意性的附图并未按实物比例绘制。本申请中使用的流程图示出了根据本申请的一些实施例实现的操作。应该理解,流程图的操作可以不按顺序实现,没有逻辑的上下文关系的步骤可以反转顺序或者同时实施。此外,本领域技术人员在本申请内容的指引下,可以向流程图添加一个或多个其他操作,也可以从流程图中移除一个或多个操作。
另外,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
为使本申请下述实施例中的内容更容易理解,在此对部分必要的名词作出解释如下:
索引概念:在关系数据库中,索引是一种单独的、物理的对数据库表中一列或多列的值进行排序的一种存储结构,它是某个表中一列或若干列值的集合和相应的指向表中物理标识这些值的数据页的逻辑指针清单。索引的作用相当于图书的目录,可以根据目录中的页码快速找到所需的内容。
索引应用优势:当表中有大量记录时,若要对表进行查询,第一种搜索信息方式是全表搜索,是将所有记录一一取出,和查询条件进行一一对比,然后返回满足条件的记录,这样做会消耗大量数据库系统时间,并造成大量磁盘I/O操作;第二种就是在表中建立索引,然后在索引中找到符合查询条件的索引值,最后通过保存在索引中的ROWID(相当于页码)快速找到表中对应的记录。
语音识别技术:就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。语音识别技术主要包括特征提取技术、模式匹配准则及模型训练技术三个方面。语音识别技术车联网也得到了充分的引用,例如在翼卡车联网中,只需按一键通客服人员口述即可设置目的地直接导航,安全、便捷。
时间戳定义:时间戳是一个能表示一份数据在某个特定时间之前已经存在的、完整的、可验证的数据,通常是一个字符序列,唯一地标识某一刻的时间。使用数字签名技术产生的数据,签名的对象包括了原始文件信息、签名参数、签名时间等信息。它的提出主要是为用户提供一份电子证据,以证明用户的某些数据的产生时间。例如,时间戳可以指格林威治时间1970年01月01日00时00分00秒(北京时间1970年01月01日08时00分00秒)起至现在的总毫秒数。在实际应用中,它广泛的运用在知识产权保护、合同签字、金融帐务、电子报价投标、股票交易等方面。
为了使得本领域技术人员能够使用本申请内容,结合特定应用场景“医院”,给出以下实施方式。对于本领域技术人员来说,在不脱离本申请的精神和范围的情况下,可以将这里定义的一般原理应用于其他实施例和应用场景。虽然本申请主要围绕医院场景进行描述,但是应该理解,这仅是一个示例性实施例。本申请可以应用于任何其他场景。例如,本申请可以应用于不同的场景,包括法院庭审、打车、银行机构、电话客服、政府单位等。
需要说明的是,本申请实施例中将会用到术语“包括”,用于指出其后所声明的特征的存在,但并不排除增加其它的特征。
本申请实施例以一种应用于医院场景下的语音档案存储方法为例,借以说明本申请所提供的语音档案存储方法的具体应用以及有益效果:当医院发生医患纠纷需要询证时,用户可以通过调用事先通过语音档案存储方法存储的音频文件的关联信息,快速定位至音频文件中音频信息的关键信息,来进行高效询证,提高查找效率。
本申请一种实施方式中,通过将音频文件转换为文本文件,文本文件中包含文本信息与音频文件对应的时间戳,通过提取文本文件中的关键信息,可以将关键信息与文本信息相对应,并通过关键信息所在的文本信息通过时间戳,与音频文件中的音频信息相对应,用户需要查找含有目标关键信息的目标音频信息时,可以通过关键信息搜索,快捷地定位至目标关键信息所在的文本信息,再通过时间戳定位到目标文本信息所在的音频文件中的音频信息。
图1为本申请一实施例提供的语音档案存储方法流程图,该方法的执行主体为服务器或者终端,本实施例中的执行主体均以服务器为例。如图1所示,该流程具体包括以下步骤:
S101:将获取到的音频文件转换为文本文件,文本文件包含文本信息与音频文件对应的时间戳。
可选地,在获取音频文件之前,还包括采集音频信息。采集音频信息的采集装置需要根据不同场景设置,比如:在比较安静的环境中,或是对录音的质量要求不高时,可以选择终端作为录音设备,例如手机、平板电脑、智能家居、穿戴设备等;但在一些比较嘈杂的环境中,或是对录音质量要求较高时,需要选择相对专业的,或是定制的专用录音设备进行录音;录音设备的选择具体根据用户需要设置,在此并不做任何限制。
例如医院中与病人进行重要对话时,就可以在针对病人同意的情况下使用专业的录音设备,以便获取的音频文件质量更好。共享汽车中也可以安装专业的录音设备,以便获取更清楚的音频文件。
可选地,可以将整个音频文件转换成一个文本文件,进而可以将文本文件记录为多个文本信息,例如识别出音频文件的一句话即对应一个文本信息,每个文本信息对应音频文件中的时间戳,根据时间戳,即可将每一个文本信息精准地定位至音频文件中的目标音频信息,这就实现了音频信息与文本信息的匹配。
举例说明:将一个完整的音频文件转换为文本文件后,文本文件中显示医生说过一句完整的话为:“本次手术有风险,是否同意手术”,这句话即对应一个文本信息,并且根据该文本信息的时间戳显示,该文本信息对应音频文件中第3分第15秒至第3分第26秒的音频信息,将音频文件调至第3分第15秒时,即可听见医生说“本次手术有风险,是否同意手术”的音频信息,这就实现了文本文件中每个文本信息与音频文件中的每个音频信息的相互匹配,方便快速定位至音频文件中的音频信息,使得查找效率更高。
S102:提取文本文件中的关键信息。
需要说明的是,提取文本文件中的关键信息后,可以便于使用关键信息查找关键信息所在的音频文件、以及在音频文件中的位置。
查找时,可以通过关键信息定位至关键信息所在的文本信息,再通过文本信息的时间戳对应至音频文件中对应的音频信息,这就实现了通过关键信息定位音频文件中对应的音频信息的功能,提高了查找含有关键信息的目标音频信息的效率。
可选地,关键信息的提取与应用场景有关,不同的场景对应不同的关键信息,举例说明:医院场景中,关键信息通常为“手术后的注意事项为”、“是否同意手术并签字等”;打车时,关键信息通常为:乘客呼救声“救命”等;法院庭审时,关键信息通常为“你对指控你的犯罪事实有意见吗”“你对公示人出示的这份证据有异议吗”等。关键信息的设置具体需要根据用户需要及应用场景的不同来调整,在此并不做任何限制。
可选地,关键信息可以根据训练好的识别模型获取,也可以根据需要预先设置关键信息然后进行识别,在此不做限制。
S103:将音频文件的关联信息存储至语音档案内。其中,音频文件的关联信息包括:音频文件标识、音频文件、文本文件和关键信息。
需要说明的是,音频文件的关联信息之间可以通过索引相互关联,即通过唯一索引可以获取到对应的音频文件的关联信息。
其中,可以由终端执行完上述方法后,将音频文件的关联信息传输到服务器存储,也可以是直接将音频文件上传到服务器,由服务器执行上述方法,本申请不作具体限定。
在上述实施方式中,通过将音频文件转换为文本文件,文本文件中包含文本信息与音频文件对应的时间戳,通过提取文本文件中的关键信息,可以将关键信息与文本信息相对应,并通过关键信息所在的文本信息通过时间戳,与音频文件中的音频信息相对应,用户需要查找含有目标关键信息的目标音频信息时,可以通过关键信息搜索,快捷地定位至目标关键信息所在的文本信息,再通过时间戳定位到目标文本信息所在的音频文件中的音频信息,提高了在音频文件搜索含有关键信息的音频信息的效率。
需要说明的是,也可以根据音频文件标识先查找到某个音频文件,然后再根据关键信息进一步查找音频文件中关键信息所在的位置,本申请实施例不做限制。
例如音频文件标识包括:存储日期,那么根据存储日期先找到某天存储的一段音频文件,进而想找到该音频文件中的某句话,可以再根据这句话中的关键信息查找到这句话在该音频文件中的位置。
进一步地,上述步骤S102可以包括:通过语义理解模型,提取文本文件中的关键信息。
需要说明的是,不同的应用场景下,需要根据不同的语义理解模型来提取不同的关键信息。
相应地,步骤S102之前,还包括:采用历史文本文件,训练获取语义理解模型。其中,历史文本文件包括:标注有关键信息的文本文件。
其中,语义理解模型的训练过程为:获取历史文本语料,对历史文本语料中的关键信息进行人工标注,再通过人工标注过的历史文本语料进行语义理解模型训练,输出历史文本语料中的关键信息,从而获得训练好的语义理解模型。
需要说明的是,根据具体需要的使用场景,采用不同的历史文本文件训练语义理解模型,例如医院使用的场景就可以收集医患对话的历史文本文件、共享汽车场景下收集司乘对话的历史文本文件、酒店场景下收集顾客与服务员对话的历史文本文件、法院场景下收集法官与原告和被告对话的历史文本文件等。
在第一次使用语义理解模型之前,需要通过人工标注有关键信息的相同场景下的历史文本文件,对语义理解模型进行训练,例如在医患对话的历史文本文件中标注“手术、化疗、保守治疗”等关键信息、在司乘对话历史文本文件中标注“上车、绕路、抽烟”等关键信息。语义理解模型训练完成后,即可对该场景下的文本文件进行关键信息提取。应用在相同场景时,再次提取关键信息,可以直接使用语义训练模型,无需再次进行语义理解模型训练。
可选地,对文本文件中的关键信息进行提取处理的方式,可以选择为:在线处理或者离线处理,具体提取方式根据用户需要设计,在此并不做任何限制。
需要说明的是,在线处理为服务器通过网络实时获取终端上传的音频文件、并转换为对应的文本文件、提取文本文件中的关键信息。离线处理可以理解为收到终端上传的音频文件后先存储在本地,进而对将存储的音频文件转换为对应的文本文件、提取文本文件中的关键信息;其中,待提取文本文件可以存储在另一服务器中,可以在进行提取操作的服务器在线时,再从另一服务器中下载待提取文本文件,并对待提取文本文件进行提取处理。
图2为本发明另一实施例提供的语音档案存储方法的流程示意图,如图2所示,步骤S101包括:
S101a:根据预设算法将音频文件转换为初始文本文件。
可选地,采用预设的语音识别算法,将音频文件转换为与音频文件对应的初始文本文件,即将音频文件识别为文字,具体可以根据需要识别为预设语言的文字,例如中文、英文等,在此不具体限制。
S101b:将初始文本文件分为多个文本信息,并获取每个文本信息与音频文件对应的时间戳。
需要说明的是,将初始文本文件分为多个文本信息,例如,根据预设识别规则,将每一句话作为一个文本信息,这样即可以通过关键词所在的语句来理解当前语句中关键词的语义。这里的一句话可以根据通用的说话习惯或者预定的模型来划分,在此不具体限定。并且每个文本信息包括与音频文件对应的时间戳,通过时间戳将每一个文本信息与音频文件中的每一段对应的音频信息相互匹配,方便在很长的音频文件中,找到与目标文本信息对应的包含有目标关键信息的目标音频信息。
图3为本发明另一实施例提供的语音档案存储方法的流程示意图。上述将音频文件的关联信息存储至语音档案内之后,就可以便于后续使用过程中的查找,用户可以根据预定的查找规则,通过终端来完成查找。如图3所示,该方法还包括:
步骤S201:接收查找指令,查找指令包括:索引信息,索引信息包括下述一项或多项:音频文件标识、关键信息、存储时间信息。
需要说明的是,用户在查找目标音频文件的关联信息时,需要先输入查找指令。相应地,终端上可以提供查找界面,用户可以通过查找界面输入查找指令,例如输入具体的索引信息。可选地,终端可以通过网络登录相关的应用程序或者网页,即连接存储语音档案的服务器或数据库,将用户输入的查找指令发送给服务器。
需要说明的是,可以有多种索引方式,例如音频文件标识、关键信息、存储时间信息等。音频文件标识可以是音频文件的名称、编号等,假设用户知道音频文件名称,直接搜索音频文件的名称,然后可以再根据关键信息找到具体的关键信息所在位置。
步骤S202:根据查找指令,在语音档案内查找获取索引信息对应的音频文件的关联信息。
需要说明的是,音频文件的关联信息之间通过索引相互关联,所以通过索引信息即可搜索到音频文件的所有关联信息。
以医院场景为例,用户需要搜索病历号为123454321的患者李四,在2015年12月21号与医生的音频文件及其关联信息,其中音频文件标识可以是病历号、患者姓名等,可以通过至少三种方式进行搜索:
方式1:在搜索框内输入“李四”的搜索指令,即搜索出李四与医生的所有音频文件及其关联信息,再在这些信息中寻找日期为“2015年12月21号”的音频文件,即为我们需要搜索的:病历号为123454321的患者李四在2015年12月21号与医生的音频文件及其关联信息。
方式2:在搜索框内输入“2015年12月21号”的搜索指令,即搜索出日期为2015年12月21号的所有音频文件及其关联信息,再在这些信息中寻找“李四”的音频文件,即为我们需要搜索的:病历号为123454321的患者李四在2015年12月21号与医生的音频文件及其关联信息。
方式3:在搜索框内输入“123454321”的搜索指令,即搜索出日期为病例号为123454321的所有音频文件及其关联信息,再在这些信息中寻找2015年12月21号的音频文件,即为我们需要搜索的:病历号为123454321的患者李四在2015年12月21号与医生的音频文件及其关联信息。
通过上述方式获取了音频文件及其关联信息后,还可以进一步通过关键信息来搜索我们需要的关键信息所在位置,即对应的时间戳,以便于快速找到音频中我们需要的内容。
图4为本申请再一实施例提供的语音档案存储方法的流程示意图,如图4所示,步骤S202之后,还包括:
步骤S301:接收关键信息查找指令,关键信息查找指令包括:目标关键信息。
需要说明的是,此时接收的关键信息查找指令为:针对步骤S202查找出来的目标音频文件及其关联信息,进一步在目标音频文件及其关联信息中,对目标关键信息进行查找定位。
可选地,用户可以在直接在终端上输入关键信息查找指令,也可以在服务器上输入关键信息查找指令,具体关键信息查找指令的输入方式根据用户需要设置,在此并不做任何限制。
步骤S302:在索引信息对应的音频文件的关联信息中,定位目标关键信息在文本文件中的目标文本信息。
需要说明的是,定位目标关键信息对应的目标音频信息,首先需要先在步骤S202搜索出来的音频文件的关联信息中,找到目标文本文件,并在目标文本文件中,定位目标关键信息所对应的目标文本信息。
步骤S303:获取目标文本信息与音频文件对应的时间戳。
需要说明的是,获取到目标关键信息所对应的目标文本信息后,获取目标文本信息与音频文件对应的时间戳,即可在音频文件中定位至目标文本信息所对应的音频信息。
举例说明:用户需要搜索患者李四在2015年12月21号与医生的音频文件中,曾经说过“同意手术”这句话,可以以“同意手术”作为目标关键信息进行搜索。先搜索出李四在2015年12月21号与医生的目标音频文件及其关联信息,并在目标文本文件中进一步搜索目标关键词:“同意手术”以及对应的时间戳,即可在目标文本文件中搜索出所有包括“同意手术”的目标文本信息,每个目标文本信息均包含与目标音频文件对应的时间戳,通过时间戳可听取每一段与目标文本信息对应的,包含“同意手术”这一关键信息的音频信息,即完成对包含“同意手术”的音频信息的查找,在所有查找到的目标音频信息中,选择我们最终需要的目标音频信息。
进一步地,上述音频文件的不同关联信息可以存储在同一数据库也可以存储在不同数据库。
可选地,步骤S103包括:将音频文件的关联信息存储至同一数据库。
即音频文件及其关联信息可以存储在同一数据库中,比如,在医院场景中,所有音频文件的存储方式可以为以下任一种:以患者为单位,同一患者的所有音频文件的关联信息均存储在同一数据库中;以医生为单位,同一医生的所有音频文件的关联信息均存储在同一数据库中;以日期为单位,当天日期对应的所有音频文件的关联信息均存储在同一数据库中;以门诊科室为单位,同一门诊科室的所有音频文件的关联信息均存储在同一数据库中。具体存储方式根据用户需要设计,在此并不做任何限制。
存储后,同一个音频文件的关联信息,使用唯一的索引进行关联,以便于可以根据索引信息找到音频文件的所有关联信息。
或者,将音频文件、文本文件和关键信息存储在不同数据库,并通过音频文件标识建立音频文件、文本文件和关键信息的索引关联。
可选地,可以根据文件类型将不同类型的文件分别存储在对应的数据库,比如:分别建立音频文件数据库、文本文件数据库和关键信息数据库,即一个音频文件的不同关联信息分别存储在对应数据库中,并通过音频文件标识建立音频文件、文本文件和关键信息的索引关联,搜索时,只需在一个数据库中搜索出目标文件,其他相关文件即可通过索引关联被同时搜索出。
需要说明的是,数据库的建立和数据的存储方式,可以根据用户需要设计和调整,在此并不做任何限制。
进一步地,音频文件标识包括下述一项或多项:音频名称、存储时间、用户身份信息、位置信息。
举例说明:在医院场景下,用户身份信息可以为下述一项或多项:患者姓名、患者身份证号码、患者病例号码、患者ID等;或者,医生姓名、医生身份证号码、医生工号等。
在打车场景下,用户身份信息可以为下述一项或多项:用户ID信息,用户手机号码,用户身份证号码,用户昵称,用户车牌号码等。
具体用户身份信息的设定根据用户需要设计,并不以此为限。
进一步地,步骤S103之后,还包括:在预设时间段之后,删除音频文件的关联信息。
为了减少存储空间的占用,可以事先预设一个时间段,在音频文件的关联信息存储时间超过预设时间段后,删除音频文件的关联信息。可选地,预设时间段可以为用户自定义,也可以为系统默认一个时间段,具体设置方式在此并不做任何限制。
例如根据不同场景需要,设置不同的预设时间段。比如患者档案需要的保存时间较长,可以设置为五年或十年的预设时间段。司机和乘客的纠纷,预设时间段可以为一年、两年等。具体时间段的设置根据用户需要调整,在此并不做任何限制。
需要说明的是,为避免音频文件的关联信息积压,占用太多的存储空间,可以将音频文件的关联信息进行无损压缩后,存储至存储器中,再次使用时对目标音频文件的关联信息解压即可。
图5为本申请一实施例提供的语音档案存储装置的结构示意图,如图5所示,该装置包括:转换模块401、提取模块402和存储模块403。
其中,转换模块401,用于将获取到的音频文件转换为文本文件,文本文件包含文本信息与音频文件对应的时间戳。
提取模块402,用于提取文本文件中的关键信息。
存储模块403,用于将音频文件的关联信息存储至语音档案内,音频文件的关联信息包括:音频文件标识、所述音频文件、文本文件和关键信息。
进一步地,提取模块402具体用于通过语义理解模型,提取文本文件中的关键信息。
图6为本申请另一实施例提供的语音档案存储装置,如图6所示,该装置还包括:训练模块404。
训练模块404,用于采用历史文本文件,训练获取所述语义理解模型,其中,历史文本文件包括:标注有关键信息的文本文件。
进一步地,转换模块401具体用于根据预设算法将音频文件转换为初始文本文件。
将初始文本文件分为多个文本信息,获取每个文本信息与音频文件对应的时间戳。
图7为本申请再一实施例提供的语音档案存储装置,如图7所示,该装置还包括:第一查找模块405。
其中,第一查找模块405,用于接收查找指令。
查找指令包括:索引信息。
索引信息包括下述一项或多项:音频文件标识、关键信息、存储时间信息。
根据查找指令,在语音档案内查找获取索引信息对应的音频文件的关联信息。
图8为本申请又一实施例提供的语音档案存储装置,如图8所示,该装置还包括:接收模块406、第二查找模块407和获取模块408。
其中,接收模块406,用于接收关键信息查找指令,关键信息查找指令包括:目标关键信息。
第二查找模块407,用于在索引信息对应的音频文件的关联信息中,定位目标关键信息在文本文件中的目标文本信息。
获取模块408,用于获取目标文本信息与音频文件对应的时间戳。
进一步地,存储模块403具体用于将音频文件的关联信息存储至同一数据库;或者,将音频文件、文本文件和关键信息存储在不同数据库,并通过音频文件标识建立音频文件、文本文件和关键信息的索引关联。
进一步地,音频文件标识包括下述一项或多项:音频名称、存储时间、用户身份信息、位置信息。
图9为本申请另一实施例提供的语音档案存储装置,如图9所示,该装置还包括:删除模块409。
删除模块409,用于在预设时间段之后,删除音频文件的关联信息。
如图10所示,本申请实施例还提供一种电子设备,包括:处理器501、存储介质502和总线;存储介质502存储有处理器501可执行的机器可读指令,当电子设备运行时,处理器501与存储介质502之间通过总线通信,处理器501执行机器可读指令,以执行时执行如前述方法实施例所提供的请求处理方法的步骤。
具体地,存储介质502中所存储的机器可读指令为本申请前述实施例所述的请求处理方法的执行步骤,处理器501可执行该请求处理方法对请求进行处理,因此,该电子设备同样具备前述方法实施例中所述的全部有益效果,本申请亦不再重复描述。
需要说明的是,该电子设备可以是通用计算机或特殊用途的计算机,以及其他用于处理数据的服务器等,三者都可以用于实现本申请的请求处理方法。本申请尽管仅仅通过计算机和服务器分别对请求处理方法进行了说明,但是为了方便起见,也可以在多个类似平台上以分布式方式实现本申请描述的功能,以均衡处理负载。
例如,电子设备可以包括用于执行程序指令的一个或多个处理器、通信总线、和不同形式的存储介质,例如,磁盘、ROM、或RAM,或其任意组合。示例性地,计算机平台还可以包括存储在ROM、RAM、或其他类型的非暂时性存储介质、或其任意组合中的程序指令。根据这些程序指令可以实现本申请的方法。
为了便于说明,在电子设备中仅描述了一个处理器。然而,应当注意,本申请中的电子设备还可以包括多个处理器,因此本申请中描述的一个处理器执行的步骤也可以由多个处理器联合执行或单独执行。
另外,本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如前述方法实施例中所述的请求处理方法的步骤。
具体地,本申请前述实施例中所描述的功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。
以上仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。

Claims (20)

1.一种语音档案存储方法,其特征在于,包括:
将获取到的音频文件转换为文本文件,所述文本文件包含文本信息与音频文件对应的时间戳;
提取所述文本文件中的关键信息;
将所述音频文件的关联信息存储至语音档案内,所述音频文件的关联信息包括:音频文件标识、所述音频文件、所述文本文件和所述关键信息。
2.根据权利要求1所述的方法,其特征在于,所述提取所述文本文件中的关键信息,包括:
通过语义理解模型,提取所述文本文件中的所述关键信息。
3.根据权利要求2所述的方法,其特征在于,所述提取所述文本文件中的关键信息之前,还包括:
采用历史文本文件,训练获取所述语义理解模型,其中,所述历史文本文件包括:标注有关键信息的文本文件。
4.根据权利要求1所述的方法,其特征在于,所述将获取到的音频文件转换为文本文件,包括:
根据预设算法将所述音频文件转换为初始文本文件;
将所述初始文本文件分为多个文本信息,并获取每个文本信息与音频文件对应的时间戳。
5.根据权利要求1所述的方法,其特征在于,还包括:
接收查找指令,所述查找指令包括:索引信息,所述索引信息包括下述一项或多项:音频文件标识、关键信息、存储时间信息;
根据所述查找指令,在所述语音档案内查找获取所述索引信息对应的音频文件的关联信息。
6.根据权利要求5所述的方法,其特征在于,所述根据所述查找指令,在所述语音档案内查找获取所述索引信息对应的音频文件的关联信息之后,还包括:
接收关键信息查找指令,所述关键信息查找指令包括:目标关键信息;
在所述索引信息对应的音频文件的关联信息中,定位所述目标关键信息在文本文件中的目标文本信息;
获取所述目标文本信息与音频文件对应的时间戳。
7.根据权利要求1所述的方法,其特征在于,所述将所述音频文件的关联信息存储至语音档案内,包括:
将所述音频文件的关联信息存储至同一数据库;或者,
将所述音频文件、所述文本文件和所述关键信息存储在不同数据库,并通过所述音频文件标识建立所述音频文件、所述文本文件和所述关键信息的索引关联。
8.根据权利要求1或7所述的方法,其特征在于,所述音频文件标识包括下述一项或多项:音频名称、存储时间、用户身份信息、位置信息。
9.根据权利要求1所述的方法,其特征在于,所述将所述音频文件的关联信息存储至语音档案内之后,还包括:
在预设时间段之后,删除所述音频文件的关联信息。
10.一种语音档案存储装置,其特征在于,包括:转换模块、提取模块和存储模块;
所述转换模块,用于将获取到的音频文件转换为文本文件,所述文本文件包含文本信息与音频文件对应的时间戳;
所述提取模块,用于提取所述文本文件中的关键信息;
所述存储模块,用于将所述音频文件的关联信息存储至语音档案内,所述音频文件的关联信息包括:音频文件标识、所述音频文件、所述文本文件和所述关键信息。
11.根据权利要求10所述的装置,其特征在于,所述提取模块,具体用于通过语义理解模型,提取所述文本文件中的所述关键信息。
12.根据权利要求11所述的装置,其特征在于,所述装置还包括:训练模块;
所述训练模块,用于采用历史文本文件,训练获取所述语义理解模型,其中,所述历史文本文件包括:标注有关键信息的文本文件。
13.根据权利要求10所述的装置,其特征在于,所述转换模块,具体用于根据预设算法将所述音频文件转换为初始文本文件;将所述初始文本文件分为多个文本信息,并获取每个文本信息与音频文件对应的时间戳。
14.根据权利要求10所述的装置,其特征在于,所述装置还包括:第一查找模块;
所述第一查找模块,用于接收查找指令,所述查找指令包括:索引信息,所述索引信息包括下述一项或多项:音频文件标识、关键信息、存储时间信息;根据所述查找指令,在所述语音档案内查找获取所述索引信息对应的音频文件的关联信息。
15.根据权利要求14所述的装置,其特征在于,所述装置还包括:接收模块、第二查找模块和获取模块;
所述接收模块,用于接收关键信息查找指令,所述关键信息查找指令包括:目标关键信息;
所述第二查找模块,用于在所述索引信息对应的音频文件的关联信息中,定位所述目标关键信息在文本文件中的目标文本信息;
所述获取模块,用于获取所述目标文本信息与音频文件对应的时间戳。
16.根据权利要求10所述的装置,其特征在于,所述存储模块,具体用于将所述音频文件的关联信息存储至同一数据库;或者,将所述音频文件、所述文本文件和所述关键信息存储在不同数据库,并通过所述音频文件标识建立所述音频文件、所述文本文件和所述关键信息的索引关联。
17.根据权利要求15所述的装置,其特征在于,所述音频文件标识包括下述一项或多项:音频名称、存储时间、用户身份信息、位置信息。
18.根据权利要求10所述的装置,其特征在于,所述装置还包括:删除模块;
所述删除模块,用于在预设时间段之后,删除所述音频文件的关联信息。
19.一种电子设备,其特征在于,包括:处理器、存储介质和总线,所述存储介质存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储介质之间通过总线通信,所述处理器执行所述机器可读指令,以执行时执行如权利要求1至9任一所述的语音档案存储方法的步骤。
20.一种计算机可读存储介质,其特征在于,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如权利要求1至9任一所述的语音档案存储方法的步骤。
CN201811564851.3A 2018-12-20 2018-12-20 语音档案存储方法、装置、设备以及计算机可读存储介质 Pending CN111353065A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811564851.3A CN111353065A (zh) 2018-12-20 2018-12-20 语音档案存储方法、装置、设备以及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811564851.3A CN111353065A (zh) 2018-12-20 2018-12-20 语音档案存储方法、装置、设备以及计算机可读存储介质

Publications (1)

Publication Number Publication Date
CN111353065A true CN111353065A (zh) 2020-06-30

Family

ID=71195342

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811564851.3A Pending CN111353065A (zh) 2018-12-20 2018-12-20 语音档案存储方法、装置、设备以及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN111353065A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112634892A (zh) * 2020-12-17 2021-04-09 北京大米科技有限公司 一种语音处理方法、装置、可读存储介质和电子设备
CN113299279A (zh) * 2021-05-18 2021-08-24 上海明略人工智能(集团)有限公司 用于关联语音数据和检索语音数据的方法、装置、电子设备和可读存储介质
US20220068258A1 (en) * 2020-08-31 2022-03-03 Adobe Inc. Audio-based selection of edit points for video clips
CN114329132A (zh) * 2022-03-14 2022-04-12 南京云档信息科技有限公司 一种档案要素补充采集系统
WO2024087974A1 (zh) * 2022-10-27 2024-05-02 比亚迪股份有限公司 广播数据信息处理方法、车载广播装置、存储介质及车辆

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101996195A (zh) * 2009-08-28 2011-03-30 中国移动通信集团公司 音频文件中语音信息的搜索方法、装置及设备
CN102222077A (zh) * 2010-04-14 2011-10-19 中兴通讯股份有限公司 一种语音频数据的存储方法和装置
US20130158992A1 (en) * 2011-12-17 2013-06-20 Hon Hai Precision Industry Co., Ltd. Speech processing system and method
CN105913838A (zh) * 2016-05-19 2016-08-31 努比亚技术有限公司 音频管理装置和方法
CN108829765A (zh) * 2018-05-29 2018-11-16 平安科技(深圳)有限公司 一种信息查询方法、装置、计算机设备及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101996195A (zh) * 2009-08-28 2011-03-30 中国移动通信集团公司 音频文件中语音信息的搜索方法、装置及设备
CN102222077A (zh) * 2010-04-14 2011-10-19 中兴通讯股份有限公司 一种语音频数据的存储方法和装置
US20130158992A1 (en) * 2011-12-17 2013-06-20 Hon Hai Precision Industry Co., Ltd. Speech processing system and method
CN105913838A (zh) * 2016-05-19 2016-08-31 努比亚技术有限公司 音频管理装置和方法
CN108829765A (zh) * 2018-05-29 2018-11-16 平安科技(深圳)有限公司 一种信息查询方法、装置、计算机设备及存储介质

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220068258A1 (en) * 2020-08-31 2022-03-03 Adobe Inc. Audio-based selection of edit points for video clips
US11875781B2 (en) * 2020-08-31 2024-01-16 Adobe Inc. Audio-based media edit point selection
CN112634892A (zh) * 2020-12-17 2021-04-09 北京大米科技有限公司 一种语音处理方法、装置、可读存储介质和电子设备
CN112634892B (zh) * 2020-12-17 2023-11-24 北京大米科技有限公司 一种语音处理方法、装置、可读存储介质和电子设备
CN113299279A (zh) * 2021-05-18 2021-08-24 上海明略人工智能(集团)有限公司 用于关联语音数据和检索语音数据的方法、装置、电子设备和可读存储介质
CN114329132A (zh) * 2022-03-14 2022-04-12 南京云档信息科技有限公司 一种档案要素补充采集系统
CN114329132B (zh) * 2022-03-14 2022-05-17 南京云档信息科技有限公司 一种档案要素补充采集系统
WO2024087974A1 (zh) * 2022-10-27 2024-05-02 比亚迪股份有限公司 广播数据信息处理方法、车载广播装置、存储介质及车辆

Similar Documents

Publication Publication Date Title
CN111353065A (zh) 语音档案存储方法、装置、设备以及计算机可读存储介质
CN110472941B (zh) 基于通知消息的日程创建方法和装置、终端、存储介质
US20120330662A1 (en) Input supporting system, method and program
CN106971009B (zh) 语音数据库生成方法及装置、存储介质、电子设备
US20200349920A1 (en) Organizational-based language model generation
CN106713111B (zh) 一种添加好友的处理方法、终端及服务器
CN108447509B (zh) 一种生成多媒体文件的方法和装置
US20220052976A1 (en) Answer text processing methods and apparatuses, and key text determination methods
CN110598008A (zh) 录制数据的数据质检方法及装置、存储介质
CN113343824A (zh) 双录质检方法、装置、设备及介质
KR20150041592A (ko) 피호출자의 전자 디바이스에서 연락처 정보를 업데이트하는 방법 및 전자 디바이스
WO2020024417A1 (zh) 企业财务账单生成方法、装置、电子设备及存储介质
CN112732893A (zh) 文本信息的提取方法和装置、存储介质和电子设备
TW201643863A (zh) 語音辨識裝置及方法
JP5220451B2 (ja) 電話受付システム、電話受付方法、プログラム、及び記録媒体
CN117174231A (zh) 一种智能病历管理系统
CN109524009B (zh) 基于语音识别的保单录入方法和相关装置
CN111427917A (zh) 搜索数据处理方法及相关产品
CN114528851B (zh) 回复语句确定方法、装置、电子设备和存储介质
CN113507541A (zh) 来电意图展示方法及装置
CN109493868B (zh) 基于语音识别的保单录入方法和相关装置
CN113111153A (zh) 一种数据分析方法、装置、设备及存储介质
CN113609271A (zh) 基于知识图谱的业务处理方法、装置、设备及存储介质
CN109299439B (zh) 数字提取方法和装置、存储介质及电子装置
US20150169776A1 (en) System and method for displaying contextual data respective of events

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200630