CN116343796A - 音频转写方法、装置及电子设备、存储介质 - Google Patents

音频转写方法、装置及电子设备、存储介质 Download PDF

Info

Publication number
CN116343796A
CN116343796A CN202310287296.9A CN202310287296A CN116343796A CN 116343796 A CN116343796 A CN 116343796A CN 202310287296 A CN202310287296 A CN 202310287296A CN 116343796 A CN116343796 A CN 116343796A
Authority
CN
China
Prior art keywords
audio
transcription
text
data
abnormal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310287296.9A
Other languages
English (en)
Inventor
苏文畅
骆鹏鹏
张宇
李全
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anhui Tingjian Technology Co ltd
Original Assignee
Anhui Tingjian Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anhui Tingjian Technology Co ltd filed Critical Anhui Tingjian Technology Co ltd
Priority to CN202310287296.9A priority Critical patent/CN116343796A/zh
Publication of CN116343796A publication Critical patent/CN116343796A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供一种音频转写方法、装置及电子设备、存储介质,该音频转写方法包括:将音频数据进行文本转写,得到初始转写文本;在初始转写文本存在异常的情况下,确定初始转写文本中的异常文本,并在音频数据中确定与异常文本对应的音频片段数据;对音频片段数据进行优化处理,并基于优化处理后的音频片段数据确定新的音频数据;对新的音频数据进行文本转写,得到目标转写文本。由此,可以提高音频转写的准确率,提升音频转写的效率。

Description

音频转写方法、装置及电子设备、存储介质
技术领域
本发明涉及音频处理技术领域,尤其涉及一种音频转写方法、装置及电子设备、存储介质。
背景技术
目前,将音频转写成文字,已经是一种提升工作效率的常见手段,其中,音频转写的识别率是影响用户体验感的关键指标。
在相关的音频转写文字技术中,由于音频识别可能存在偏差,导致音频转写成文字的准确率较低。而通常,若转写得到的文本不准确,用户只能对文本进行手动调整,从而降低了音频转写效率。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本发明提供一种音频转写方法、装置及电子设备、存储介质,以提高音频转写的准确率,提升音频转写的效率。
本发明提供一种音频转写方法,包括:
将音频数据进行文本转写,得到初始转写文本;在所述初始转写文本存在异常的情况下,确定所述初始转写文本中的异常文本,并在所述音频数据中确定与所述异常文本对应的音频片段数据;对所述音频片段数据进行优化处理,并基于优化后的音频片段数据确定新的音频数据;对所述新的音频数据进行文本转写,得到目标转写文本。
在一些可实现的方式中,所述对所述音频片段数据进行优化处理,包括:确定所述音频片段数据所属的环境场景;根据所述环境场景和预先构建的环境场景音噪声库,对所述音频片段数据进行降噪处理,得到优化后的音频片段数据,其中,所述环境场景音噪声库中包括多个噪声识别模型以及每个噪声识别模型与环境场景的对应关系。
在一些可实现的方式中,所述根据所述环境场景和预先构建的环境场景音噪声库,对所述音频片段数据进行降噪处理,包括:根据所述环境场景在所述环境场景音噪声库中筛选出相应的噪声识别模型;将所述音频片段数据输入至筛选出的噪声识别模型中,以确定所述音频片段数据中的噪音元素;将所述噪音元素从所述音频片段数据中分离,得到优化后的音频片段数据。
在一些可实现的方式中,所述环境场景音噪声库的构建步骤包括:获取不同环境场景的训练样本集,各所述训练样本集包括多个在同一环境场景下的音频数据;对每个所述训练样本集中的训练样本进行打标签处理;以带标签的所述训练样本集为输入,以预测的噪声元素为输出,训练与所述训练样本集相应环境场景的噪声识别模型,直至将所述环境场景音噪声库中所有所述噪声识别模型训练完成,得到构建好的环境场景音噪声库。
在一些可实现的方式中,在所述音频数据中确定与所述异常文本对应的音频片段数据之后,所述方法还包括:对所述音频数据中的所述音频片段数据进行标记;所述对所述音频片段数据进行优化处理,包括:对标记后的所述音频片段数据进行优化处理。
在一些可实现的方式中,所述基于优化后的音频片段数据确定新的音频数据,包括:利用所述优化后的音频片段数据替换所述音频数据中相应的音频片段数据,以得到新的音频数据。
在一些可实现的方式中,在将音频数据进行文本转写,得到初始转写文本之后,所述方法还包括:在检测接收到重新转写指令的情况下,确定所述初始转写文本存在异常;或者,在所述初始转写文本的语义或者语法存在异常的情况下,确定所述初始转写文本存在异常。
本发明还提供一种音频转写装置,包括:转写模块,用于将音频数据进行文本转写,得到初始转写文本;确定模块,用于在所述初始转写文本存在异常的情况下,确定所述初始转写文本中的异常文本,并在所述音频数据中确定与所述异常文本对应的音频片段数据;优化模块,用于对所述音频片段数据进行优化处理,并基于优化后的音频片段数据确定新的音频数据;所述转写模块还用于对所述新的音频数据进行文本转写,得到目标转写文本。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述的音频转写方法。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述的音频转写方法。
本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述的音频转写方法。
本发明提供的音频转写方法、装置及电子设备、存储介质,在初始转写文本存在异常时,通过确定初始转写文本中的异常文本,并在音频数据中确定与异常文本对应的音频片段数据;再对音频片段数据进行优化处理,并基于优化后的音频片段数据确定新的音频数据,来提高音频的清晰度;如此,再将新的音频数据进行文本转写,能够有效提高音频转写的准确率,且不需要用户进行手动修改,就能实现对转写文本中的异常文本重新转写,从而提升了音频转写的效率。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例的音频转写系统的结构示意图;
图2是本发明实施例提供的音频转写方法的流程图之一;
图3为本发明实施例的初始转写文本与音频数据的关系示意图;
图4是本发明实施例提供的音频转写方法的流程图之二;
图5是本发明实施例提供的音频转写方法的流程图之三;
图6是本发明实施例提供的音频转写方法的流程图之四;
图7是本发明实施例的音频转写装置的方框图;
图8是本发明实施例的电子设备的结构框图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1是本发明实施例的音频转写系统的结构示意图。
如图1所示,该系统包括音频采集器、音频转写装置、音频处理装置以及音频优化装置。其中,音频转写装置的输入端与音频采集器相连,接收音频采集器发送的音频数据;音频转写装置的输出端可以与电子设备的显示装置相连,音频转写装置可以将音频转写得到的文本数据发送至显示装置,由显示装置显示转写文本。音频转写装置还与音频处理装置交互,音频处理装置与音频美化装置交互。
为方便理解,下面结合上述音频转写系统对本发明实施例的音频转写方法进行介绍。
图2是本发明实施例提供的音频转写方法的流程图之一。如图2所示,该音频转写方法可以包括以下步骤:
步骤210:将音频数据进行文本转写,得到初始转写文本。
在本实施例中,音频数据可以为实时采集的音频,也可以为预先录制的音频。
作为一种示例,可以采用音频采集器来采集音频数据。具体地,音频采集器能够采集周围的声音信号,并将声音信号转换为音频数据,音频数据的数据格式可以为标准的wav数据格式。另外,音频采集器可以设置参数调整功能,例如,可以对采样率、采样位数、声道数等参数进行调整。通过调整音频采集器的采样率、采样位数、声道数等参数,能够调整音频采集器采集声音信号的精确度。
在音频采集器得到音频数据后,音频采集器会将音频数据传输至音频转写装置,音频转写装置再对音频数据中的语音音频进行提取,并对语音音频进行识别转写,得到初始转写文本。
在一些实施方式中,可以采用VAD(Voice Activity Detection,语音端点检测)检测方法来检测音频数据中的语音端点VAD,确定音频数据中的语音端点VAD后,将语音端点VAD覆盖范围的音频数据进行提取,即可得到语音音频,实现对音频数据中语音音频的提取。
在一些实施方式中,音频转写装置的输出端可以与电子设备的显示装置相连,可以通过显示装置将转写得到的初始转写文本进行显示,以便用户查看音频转写结果。
步骤220:在初始转写文本存在异常的情况下,确定初始转写文本中的异常文本,并在音频数据中确定与异常文本对应的音频片段数据。
可以理解的是,音频数据中不仅会包含用户发出的语音音频,还会有环境音、背景音以及杂音等,而这些噪声会影响音频数据的转写识别率,因此,转写得到的初始转写文本中可能会存在转写错误的情况。
在本实施例中,若确定初始转写文本存在转写错误的情况,则需要对转写错误的文本进行重新转写。具体地,音频转写装置将初始转写文本发送至音频处理装置,音频处理装置确定初始转写文本中的异常文本。需要说明的是,异常文本可以为初始转写文本中转写错误的句子或词语。
在一些实施方式中,确定初始转写文本中异常文本的方式包括(但不限于)以下两种。一种是:用户可以手动选择初始转写文本中的异常文本。作为一种示例,用于显示初始转写文本的显示屏幕可以为触控屏,用户可以通过触控操作选择初始转写文本中的异常文本。另一种是:检测初始转写文本中是否存在语义或语法错误,可以将存在语义或语法错误的文本作为异常文本。
在确定了初始转写文本中的异常文本后,音频处理装置会在音频数据中确定与异常文本对应的音频片段数据。可以理解的是,初始转写文本中的一段文本可能对应包含音频数据中的多个语音端点VAD,通过对音频数据进行VAD检测,可以得到初始转写文本中每段文本包含的语音端点VAD,根据语音端点VAD能够确定该段文本的音频起始时间和音频终止时间,进而可以得到初始转写文本与音频数据的对应关系。
图3为本发明实施例的初始转写文本与音频数据的关系示意图。作为一个示例,如图3所述,初始转写文本中的text1包含1-n个语音端点VAD,根据音频数据中语音端点VAD的位置信息,可以确定与text1对应的音频片段数据为音频片段1和音频片段2。
由此,可以采用上述方式在音频数据中确定与异常文本对应的音频片段数据。
步骤230:对音频片段数据进行优化处理,并基于优化后的音频片段数据确定新的音频数据。
在音频处理装置确定了与异常文本对应的音频片段数据后,音频处理装置会将音频片段数据发送至音频优化装置,并由音频优化装置对音频片段数据进行优化处理,使这部分的音频片段数据更加清晰,从而提升这部分音频片段数据的识别率。
需要说明的是,对音频片段数据进行的优化处理可以包括对音频片段数据的降噪处理、声音增强处理、声音美化处理等,此处不作具体限制。
在音频优化装置对音频片段数据进行优化处理后,音频优化装置会将优化后的音频片段发送至音频处理装置;音频处理装置将优化后的音频片段重新整合至原音频数据中,得到新的音频数据。
步骤240:对新的音频数据进行文本转写,得到目标转写文本。
音频处理装置得到新的音频数据后,会将新的音频数据发送至音频转写装置;音频转写装置再对新的音频数据进行重新转写,得到目标转写文本。音频转写装置得到目标转写文本后,可以将目标转写文本发送至电子设备的显示装置,使显示装置将目标转写文本进行显示,以便用户查看音频转写结果。
图4是本发明实施例提供的音频转写方法的流程图之二。如图4所示,可以采用以下步骤对音频片段数据进行优化处理:
步骤410:确定音频片段数据所属的环境场景。
步骤420:根据环境场景和预先构建的环境场景音噪声库,对音频片段数据进行降噪处理,得到优化后的音频片段数据。
需要说明的是,环境场景音噪声库中包括多个不同环境场景的噪声识别模型,以及每个噪声识别模型与环境场景的对应关系。
具体地,音频优化装置在接收到音频片段数据后,可以先确定音频片段数据所属的环境场景,音频片段数据的环境场景可以为会议场景、户外场景、教室场景等。
确定音频片段数据所属环境场景的方式可以为:用户手动选择环境场景。作为一种示例,可以通过电子设备的显示装置显示用户界面,用户界面中显示有多个不同环境场景的虚拟图标,用户可以通过点击虚拟图标来选择音频片段数据所属的环境场景。
确定音频片段数据所属环境场景的方式还可以为:音频优化装置可以设置音频场景识别功能,来根据音频片段数据自动识别出环境场景。音频场景识别功能可以通过已有的音频场景识别模型来实现,此处不作具体介绍。音频优化装置通过音频场景识别功能识别得到环境场景后,用户也可以手动对环境场景进行校准,以保证音频片段数据所属环境场景识别的准确性。
在确定音频片段数据所属的环境场景后,可以根据环境场景,在预先构建的环境场景音噪声库中为该音频片段数据匹配相应的噪声识别模型,并将音频片段数据输入至该噪声识别模型中,利用该噪声识别模型来识别音频片段中的噪声。
图5是本发明实施例提供的音频转写方法的流程图之三。如图5所示,对音频片段数据的进一步优化处理步骤包括:
步骤510:根据环境场景在环境场景音噪声库中筛选出相应的噪声识别模型。
步骤520:将音频片段数据输入至筛选出的噪声识别模型中,以确定音频片段数据中的噪音元素。
步骤530:将噪音元素从音频片段数据中分离,得到优化后的音频片段数据。
具体地,音频优化装置根据音频片段数据所属的环境场景,在环境场景音噪声库中筛选出相应的噪声识别模型,该噪声识别模型是利用相同环境场景的音频数据集训练得到的,因此,该噪声识别模型能够识别出该环境场景下音频数据中的环境音、背景音以及杂音等。
音频优化装置筛选出所要使用的噪声识别模型后,将音频片段数据输入至噪声识别模型,噪声识别模型输出音频片段数据中的噪声元素。音频优化装置再将这些噪声元素从音频片段数据中进行分离,从而实现对音频片段数据的降噪处理,得到优化后的音频片段数据。
作为一个示例,环境场景音噪声库中包含有会议场景的噪声识别模型、户外场景的噪声识别模型,教室场景的噪声识别模型等多种噪声识别模型。音频优化装置通过音频场景识别功能自动识别出音频片段数据所属的环境场景为会议场景,则音频优化装置将音频片段数据输入至会议场景的噪声识别模型中。会议场景的噪声识别模型会识别出音频片段数据中的噪声元素,例如,键盘声、掌声、背景音乐等。音频优化装置则对音频片段数据中的噪音元素进行分离,从而突出音频片段数据中的人声,提高音频片段数据中语音音频的清晰度。
在一些实施方式中,环境场景音噪声库的构建方式可以为:获取不同环境场景的训练样本集,各训练样本集包括多个在同一环境场景下的音频数据;对每个训练样本集中的训练样本进行打标签处理;以带标签的训练样本集为输入,以预测的噪声元素为输出,训练与训练样本集相应环境场景的噪声识别模型,直至将环境场景音噪声库中所有噪声识别模型训练完成,得到构建好的环境场景音噪声库。
可以理解的是,本实施例中的环境场景音噪声库中包含多种环境场景的噪声识别模型,每个噪声识别模型只用于识别一种环境场景下音频数据的噪声元素。因此,针对不同环境场景的噪声识别模型,需要获取不同环境场景的训练样本集来进行训练。
训练样本集中包含多个在同一环境场景下的音频数据,示例地,可以采集多组会议音频数据,并这些会议音频数据作为训练会议场景噪声识别模型的训练样本集。
得到训练样本集后,需要对训练样本集中的训练样本进行打标签处理,打标签的方式可以采用已有的打标签方式,此处不再赘述。在进行模型训练时,将带标签的训练样本输入至噪声识别模型中,噪声识别模型输出预测的噪声元素,从而来进行噪声识别模型的训练。以同样地方式对环境场景音噪声库中其他噪声识别模型进行训练,直至将环境场景音噪声库中所有噪声识别模型训练完成,即可得到构建好的环境场景音噪声库。
在一些实施方式中,在音频数据中确定与异常文本对应的音频片段数据之后,该音频转写方法还包括:对音频数据中的音频片段数据进行标记。在步骤230中,对音频片段数据进行优化处理,包括:对标记后的音频片段数据进行优化处理。
具体地,音频处理装置可以设置标记功能,在确定了与异常文本对应的音频片段数据后,音频处理装置可以对与异常文本对应的音频片段数据进行标记。对音频片段数据标记后,音频处理装置在将标记的音频片段数据进行切分,并将标记后的音频片段数据发送至音频优化装置,音频优化装置再对标记后的音频片段数据进行优化。
需要说明的是,对音频片段数据的标记会存储至音频数据中,以便后续根据标记确定音频片段数据的位置。
如图3所示,作为一个示例,音频数据中划分出6个音频片段数据,音频处理装置根据异常文本确定了待优化的音频片段数据为:音频片段数据1、音频片段数据2以及音频片段数据5,则将上述3个音频片段数据进行标记。标记完成后,音频处理装置将标记后的音频片段数据1、音频片段数据2以及音频片段数据5发送至音频优化装置。
在一些实施方式中,基于优化后的音频片段数据确定新的音频数据的方式可以为:利用优化后的音频片段数据替换音频数据中相应的音频片段数据,以得到新的音频数据。
具体地,音频优化装置在得到优化后的音频片段数据后,会将优化后的音频片段数据发送至音频处理装置;音频处理装置用优化后的音频片段数据替换原音频数据中标记位置的音频片段数据。在各个优化后的音频片段数据替换完成后,即得到一个新的音频数据。
在一些实施方式中,在步骤210之后,该音频转写方法还包括:在检测接收到重新转写指令的情况下,确定初始转写文本存在异常;或者,在初始转写文本的语义或者语法存在异常的情况下,确定初始转写文本存在异常。
具体地,在得到初始转写文本后,需要判断初始转写文本是否存在异常,若初始转写文本存在异常,则进入步骤220。在本实施例中,确定初始转写文本是否存在异常的方式可以采用以下两种方式中的任意一种。
一种可以通过用户对初始转写文本进行查看,并确定初始转写文本是否存在异常。具体地,在音频转写装置完成对音频数据的转写后,音频转写装置将初始转写文本发送至电子设备的显示装置,由显示装置为用户显示初始转写文本。显示装置显示的用户界面中还可以设置一个重新转写控件,用户通过查看显示的初始转写文本,确认初始转写文本是否存在异常,若用户认为初始转写文本存在异常,则可以通过触控操作点击重新转写控件。当检测接收到重新转写指令时,则确定初始转写文本存在异常。
另一种可以通过判断初始转写文本中是否存在语义或语法错误,来自动确定初始转写文本是否异常。若初始转写文本中存在语义或语法错误,则确定初始转写文本存在异常。
为了方便理解,下面通过一个具体示例对本发明实施例的音频转写方法进行介绍。图6是本发明实施例提供的音频转写方法的流程图之四。如图6所示,音频转写方法还可以包括以下步骤:
步骤610:获取音频数据。
步骤620:将音频数据进行文本转写,得到初始转写文本。
步骤630:判断初始转写文本是否存在异常,若初始转写文本存在异常,则进入步骤640;若初始转写文本不存在异常,则输出初始转写文本。
步骤640:确定初始转写文本中的异常文本。
步骤650:在音频数据中确定与异常文本对应的音频片段数据,并对音频片段数据进行标记。
步骤660:将标记后的音频片段数据进行降噪处理、声音增强处理以及声音美化处理,得到优化后的音频片段数据。
步骤670:利用优化后的音频片段数据替换音频数据中相应的音频片段数据,得到新的音频数据。
步骤680:对新的音频数据进行文本转写,得到目标转写文本。
由此,在音频转写得到的初始转写文本存在异常时,通过在初始转写文本中找到异常文本,进而确定音频数据中与异常文本对应的音频片段数据;再对音频片段数据进行进行优化处理;再将优化后的音频片段数据替换原音频片段数据,得到新的音频数据。通过优化处理,新的音频数据相比于原音频数据更加清晰,从而更加能够被准确地识别转写,因此,通过对新的音频数据重新转写得到的目标转写文本准确率也更高,从而提提高音频转写的准确率。另外,在转写得到的初始转写文本存在异常时,不需要用户手动进行修改,就能实现对转写文本中的异常文本重新转写,从而提升了音频转写的效率。
对应上述实施例,本说明书的实施例还提出了一种音频转写装置。图7是本发明实施例的音频转写装置的方框图。
如图7所示,该装置700包括用于将音频数据进行文本转写,得到初始转写文本的转写模块710、用于在初始转写文本存在异常的情况下,确定初始转写文本中的异常文本,并在音频数据中确定与异常文本对应的音频片段数据的确定模块720、用于对音频片段数据进行优化处理,并基于优化处理后的音频片段数据确定新的音频数据的优化模块730。其中,转写模块还用于对新的音频数据进行文本转写,得到目标转写文本。
由此,通过转写模块710将音频数据进行文本转写,得到初始转写文本的转写。在初始转写文本存在异常时,通过确定模块720确定初始转写文本中的异常文本,并在音频数据中确定与异常文本对应的音频片段数据。通过优化模块730对音频片段数据进行优化处理,并基于优化后的音频片段数据确定新的音频数据,来提高音频的清晰度;如此,再将新的音频数据进行文本转写,能够有效提高音频转写的准确率,且不需要用户进行手动修改,就能实现对转写文本中的异常文本重新转写,从而提升了音频转写的效率。
需要说明的是,本实施例的音频转写装置中未披露的细节,请参照本说明书实施例中音频转写方法的实施例中所披露的细节,此处不再赘述。
图8示例了一种电子设备的实体结构示意图,如图8所示,该电子设备可以包括:处理器(processor)810、通信接口(Communications Interface)820、存储器(memory)830和通信总线840,其中,处理器810,通信接口820,存储器830通过通信总线840完成相互间的通信。处理器810可以调用存储器830中的逻辑指令,以执行音频转写方法,该方法包括:将音频数据进行文本转写,得到初始转写文本;在初始转写文本存在异常的情况下,确定初始转写文本中的异常文本,并在音频数据中确定与异常文本对应的音频片段数据;对音频片段数据进行优化处理,并基于优化处理后的音频片段数据确定新的音频数据;对新的音频数据进行文本转写,得到目标转写文本。
此外,上述的存储器830中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述各方法所提供的音频转写方法,该方法包括:将音频数据进行文本转写,得到初始转写文本;在初始转写文本存在异常的情况下,确定初始转写文本中的异常文本,并在音频数据中确定与异常文本对应的音频片段数据;对音频片段数据进行优化处理,并基于优化处理后的音频片段数据确定新的音频数据;对新的音频数据进行文本转写,得到目标转写文本。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的音频转写方法,该方法包括:将音频数据进行文本转写,得到初始转写文本;在初始转写文本存在异常的情况下,确定初始转写文本中的异常文本,并在音频数据中确定与异常文本对应的音频片段数据;对音频片段数据进行优化处理,并基于优化处理后的音频片段数据确定新的音频数据;对新的音频数据进行文本转写,得到目标转写文本。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种音频转写方法,其特征在于,包括:
将音频数据进行文本转写,得到初始转写文本;
在所述初始转写文本存在异常的情况下,确定所述初始转写文本中的异常文本,并在所述音频数据中确定与所述异常文本对应的音频片段数据;
对所述音频片段数据进行优化处理,并基于优化后的音频片段数据确定新的音频数据;
对所述新的音频数据进行文本转写,得到目标转写文本。
2.根据权利要求1所述的音频转写方法,其特征在于,所述对所述音频片段数据进行优化处理,包括:
确定所述音频片段数据所属的环境场景;
根据所述环境场景和预先构建的环境场景音噪声库,对所述音频片段数据进行降噪处理,得到优化后的音频片段数据,其中,所述环境场景音噪声库中包括多个噪声识别模型以及每个噪声识别模型与环境场景的对应关系。
3.根据权利要求2所述的音频转写方法,其特征在于,所述根据所述环境场景和预先构建的环境场景音噪声库,对所述音频片段数据进行降噪处理,包括:
根据所述环境场景在所述环境场景音噪声库中筛选出相应的噪声识别模型;
将所述音频片段数据输入至筛选出的噪声识别模型中,以确定所述音频片段数据中的噪音元素;
将所述噪音元素从所述音频片段数据中分离,得到优化后的音频片段数据。
4.根据权利要求3所述的音频转写方法,其特征在于,所述环境场景音噪声库的构建步骤包括:
获取不同环境场景的训练样本集,各所述训练样本集包括多个在同一环境场景下的音频数据;
对每个所述训练样本集中的训练样本进行打标签处理;
以带标签的所述训练样本集为输入,以预测的噪声元素为输出,训练与所述训练样本集相应环境场景的噪声识别模型,直至将所述环境场景音噪声库中所有所述噪声识别模型训练完成,得到所述环境场景音噪声库。
5.根据权利要求1-4任一项所述的音频转写方法,其特征在于,在所述音频数据中确定与所述异常文本对应的音频片段数据之后,所述方法还包括:
对所述音频数据中的所述音频片段数据进行标记;
所述对所述音频片段数据进行优化处理,包括:
对标记后的所述音频片段数据进行优化处理。
6.根据权利要求1-4任一项所述的音频转写方法,其特征在于,所述基于优化后的音频片段数据确定新的音频数据,包括:
利用所述优化后的音频片段数据替换所述音频数据中相应的音频片段数据,以得到新的音频数据。
7.根据权利要求1-4任一项所述的音频转写方法,其特征在于,在将音频数据进行文本转写,得到初始转写文本之后,所述方法还包括:
在检测接收到重新转写指令的情况下,确定所述初始转写文本存在异常;或者,
在所述初始转写文本的语义或者语法存在异常的情况下,确定所述初始转写文本存在异常。
8.一种音频转写装置,其特征在于,包括:
转写模块,用于将音频数据进行文本转写,得到初始转写文本;
确定模块,用于在所述初始转写文本存在异常的情况下,确定所述初始转写文本中的异常文本,并在所述音频数据中确定与所述异常文本对应的音频片段数据;
优化模块,用于对所述音频片段数据进行优化处理,并基于优化后的音频片段数据确定新的音频数据;
所述转写模块还用于对所述新的音频数据进行文本转写,得到目标转写文本。
9.一种电子设备,包括存储器和处理器,所述存储器上存储有计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-7中任一项所述的音频转写方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1-7中任一项所述的音频转写方法。
CN202310287296.9A 2023-03-20 2023-03-20 音频转写方法、装置及电子设备、存储介质 Pending CN116343796A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310287296.9A CN116343796A (zh) 2023-03-20 2023-03-20 音频转写方法、装置及电子设备、存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310287296.9A CN116343796A (zh) 2023-03-20 2023-03-20 音频转写方法、装置及电子设备、存储介质

Publications (1)

Publication Number Publication Date
CN116343796A true CN116343796A (zh) 2023-06-27

Family

ID=86885234

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310287296.9A Pending CN116343796A (zh) 2023-03-20 2023-03-20 音频转写方法、装置及电子设备、存储介质

Country Status (1)

Country Link
CN (1) CN116343796A (zh)

Similar Documents

Publication Publication Date Title
CN109817213B (zh) 用于自适应语种进行语音识别的方法、装置及设备
CN107305541B (zh) 语音识别文本分段方法及装置
CN105931644B (zh) 一种语音识别方法及移动终端
CN110444198B (zh) 检索方法、装置、计算机设备和存储介质
CN110473518B (zh) 语音音素识别方法和装置、存储介质及电子装置
CN109410664B (zh) 一种发音纠正方法及电子设备
CN110263322A (zh) 用于语音识别的音频语料筛选方法、装置及计算机设备
CN110970018B (zh) 语音识别方法和装置
CN104969288A (zh) 基于话音记录日志提供话音识别系统的方法和系统
WO2021103712A1 (zh) 一种基于神经网络的语音关键词检测方法、装置及系统
CN108305618B (zh) 语音获取及搜索方法、智能笔、搜索终端及存储介质
US9251808B2 (en) Apparatus and method for clustering speakers, and a non-transitory computer readable medium thereof
CN111341305A (zh) 一种音频数据标注方法、装置及系统
CN109785829B (zh) 一种基于语音控制的客服辅助方法和系统
CN111326144B (zh) 语音数据处理方法、装置、介质和计算设备
CN110503956B (zh) 语音识别方法、装置、介质及电子设备
JP2012194245A (ja) 音声認識装置、音声認識方法及び音声認識プログラム
CN111370030A (zh) 语音情感检测方法与装置、存储介质、电子设备
CN105575402A (zh) 网络教学实时语音分析方法
CN110853669B (zh) 音频识别方法、装置及设备
CN111144118A (zh) 口语化文本中命名实体的识别方法、系统、设备和介质
TW202211077A (zh) 多國語言語音辨識及翻譯方法與相關的系統
CN116564286A (zh) 语音录入方法、装置、存储介质及电子设备
CN111326142A (zh) 基于语音转文本的文本信息提取方法、系统和电子设备
CN116343796A (zh) 音频转写方法、装置及电子设备、存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination