CN111048073B - 一种音频处理方法、装置、电子设备及可读存储介质 - Google Patents

一种音频处理方法、装置、电子设备及可读存储介质 Download PDF

Info

Publication number
CN111048073B
CN111048073B CN201911296557.3A CN201911296557A CN111048073B CN 111048073 B CN111048073 B CN 111048073B CN 201911296557 A CN201911296557 A CN 201911296557A CN 111048073 B CN111048073 B CN 111048073B
Authority
CN
China
Prior art keywords
sound wave
audio
recognized
sentence
spectrum
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911296557.3A
Other languages
English (en)
Other versions
CN111048073A (zh
Inventor
杨志明
谭北平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Beijing Mininglamp Software System Co ltd
Original Assignee
Tsinghua University
Beijing Mininglamp Software System Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University, Beijing Mininglamp Software System Co ltd filed Critical Tsinghua University
Priority to CN201911296557.3A priority Critical patent/CN111048073B/zh
Publication of CN111048073A publication Critical patent/CN111048073A/zh
Application granted granted Critical
Publication of CN111048073B publication Critical patent/CN111048073B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供了一种音频处理方法、装置、电子设备及可读存储介质,其中,该音频处理方法包括:获取待识别音频段;使用存储在数据库中的标准语句主干的第一声波频谱在待识别音频段的第二声波频谱中查找目标声波频谱;根据查找到的目标声波频谱对应的标准语句主干的词义,确定待识别音频段的参考语句主干;根据参考语句主干生成待执行命令。本申请实施例通过查找待识别音频段中与标准语句主干相同或相似的目标声波频谱,确定待识别音频段的参考语句主干,不仅可以提高语音识别效率,而且可以提高识别的准确率。

Description

一种音频处理方法、装置、电子设备及可读存储介质
技术领域
本申请涉及音频处理技术领域,尤其是涉及一种音频处理方法、装置、电子设备及可读存储介质。
背景技术
随着语音识别技术的发展,语音识别技术已经可以应用于工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域。语音识别技术与其他自然语言处理技术相结合,可以构建出更加复杂的应用,例如语音拨号、语音导航、室内设备控制、语音文档检索、简单的听写数据录入等。
在相关技术中,通常在进行语音识别时,首先对语音中的每个字词进行分析,然后组合生成合理的句子。但是由于句子成分的复杂性和语言的多样性,利用目前的语音处理方法,经常出现识别错误的情况,处理效果不理想。
发明内容
有鉴于此,本申请的目的在于提供一种音频处理方法、装置、电子设备及可读存储介质,以提高对音频的识别率。
第一方面,本申请实施例提供了一种音频处理方法,包括:
获取待识别音频段;
使用存储在数据库中的标准语句主干的第一声波频谱在所述待识别音频段的第二声波频谱中查找目标声波频谱;所述标准语句主干包括以下的任意一种或多种:主语成分的语句主干、谓语成分的语句主干和宾语成分的语句主干;
根据查找到的所述目标声波频谱对应的标准语句主干的词义,确定所述待识别音频段的参考语句主干;
根据所述参考语句主干生成待执行命令。
结合第一方面,本申请实施例提供了第一方面的第一种可能的实施方式,其中,所述使用存储在数据库中的标准语句主干的第一声波频谱在所述待识别音频段的第二声波频谱中查找目标声波频谱,包括:
获取所述第二声波频谱的峰值信息;所述峰值信息包括峰值和所述峰值对应的时间;
查找所述第二声波频谱中峰值信息与第一声波频谱的峰值信息达到预设相似度的目标声波频谱。
结合第一方面,本申请实施例提供了第一方面的第二种可能的实施方式,其中,所述获取待识别音频段之前,还包括:
获取用户输入的音频文件;
将所述音频文件切分成包含一个句子的待识别音频段。
结合第一方面,本申请实施例提供了第一方面的第三种可能的实施方式,其中,所述获取待识别音频段之前,还包括:
获取用户输入的音频文件;
根据所述音频文件的总时长,将所述音频文件切分成多个子时长相等的待识别音频段。
结合第一方面,本申请实施例提供了第一方面的第四种可能的实施方式,其中,所述获取待识别音频段之后,还包括:
对所述待识别音频段进行噪声过滤处理。
第二方面,本申请实施例还提供一种音频处理装置,包括:
第一获取模块,用于获取待识别音频段;
查找模块,用于使用存储在数据库中的标准语句主干的第一声波频谱在所述待识别音频段的第二声波频谱中查找目标声波频谱;所述标准语句主干包括以下的任意一种或多种:主语成分的语句主干、谓语成分的语句主干和宾语成分的语句主干;
确定模块,用于根据查找到的所述目标声波频谱对应的标准语句主干的词义,确定所述待识别音频段的参考语句主干;
生成模块,用于根据所述参考语句主干生成待执行命令。
结合第二方面,本申请实施例提供了第二方面的第一种可能的实施方式,其中,所述查找模块包括:
第二获取模块,用于获取所述第二声波频谱的峰值信息;所述峰值信息包括峰值和所述峰值对应的时间;
子查找模块,用于查找所述第二声波频谱中峰值信息与第一声波频谱的峰值信息达到预设相似度的目标声波频谱。
结合第二方面,本申请实施例提供了第二方面的第二种可能的实施方式,其中,
还包括:
第三获取模块,用于获取用户输入的音频文件;
第一切分模块,用于将所述音频文件切分成包含一个句子的待识别音频段。
第三方面,本申请实施例还提供一种电子设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行上述第一方面中任一种可能的实施方式中的步骤。
第四方面,本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述第一方面中任一种可能的实施方式中的步骤。
本申请实施例提供的一种音频处理方法、装置、电子设备及可读存储介质,该音频处理方法包括:获取待识别音频段;使用存储在数据库中的标准语句主干的第一声波频谱在待识别音频段的第二声波频谱中查找目标声波频谱;根据查找到的目标声波频谱对应的标准语句主干的词义,确定待识别音频段的参考语句主干;根据参考语句主干生成待执行命令。本申请实施例通过对待识别音频段的语句主干进行提取,查找出待识别音频段中与标准语句主干相同或相似的目标声波频谱相同或相似的目标声波频谱,确定待识别音频段的参考语句主干,不仅可以提高语音识别效率,而且可以提高识别的准确率。
为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本申请实施例所提供的一种音频处理方法的流程图;
图2示出了本申请实施例所提供的另一种音频处理方法的流程图;
图3示出了本申请实施例所提供的一种音频处理装置的结构示意图;
图4示出了本申请实施例所提供的另一种音频处理装置的结构示意图;
图5示出了本申请实施例所提供的一种电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
随着语音识别技术的不断成熟,越来越多的领域已经应用到了语音识别技术。
众所周知,自然语言具有一定的规则,句子都是多个字或词按照一定的规则组合成的。目前语音识别技术中,通常是在获得语音信息后,对每个字或词进行分析,然后组合成合理的句子。
考虑到由于句子成分的复杂性和语言的多样性,经常出现识别错误的情况。基于此,本申请实施例提供了一种音频处理方法、装置、电子设备及可读存储介质,下面通过实施例进行描述。
为便于对本实施例进行理解,首先对本申请实施例所公开的一种音频处理方法进行详细介绍。如图1所示,本申请实施例所公开的一种音频处理方法的流程图包括以下几个步骤:
S101:获取待识别音频段。
S102:使用存储在数据库中的标准语句主干的第一声波频谱在待识别音频段的第二声波频谱中查找目标声波频谱。
S103:根据查找到的目标声波频谱对应的标准语句主干的词义,确定待识别音频段的参考语句主干。
S104:根据参考语句主干生成待执行命令。
在步骤S101中,待识别音频段指的是用于被识别其语义的音频文件片段。待识别音频段中包含有至少一个待识别的字或词语。通常,音频文件可以是用户的语音。音频文件可以是用户当前在终端输入的语音,也可以是在终端输入的已获取到的用户的语音。在具体实施中,音频文件可以是输入到具有语音识别功能的应用软件上的语音,例如语音导航软件、翻译软件等。
由于当音频文件较大时,语义不易被识别,因此可以将获取到的较大的音频文件进行切分,形成多个待识别音频段。在具体实施中,可以按照以下两种方式进行切分:
第一种:将获取到的音频文件切分成包含一个句子的待识别音频段。
第二种:根据获取到的音频文件的总时长,将该音频文件切分成多个子时长相等的待识别音频段。
在第一种切分方式中,可以以句子为切分单位对音频文件进行切分,每个待识别音频段中都仅包含一个句子。进一步地可以理解为,在这种切分方式下,每个待识别音频段中都包含至少一个字或词语,并且这些字或词语可以形成一个句子。
在第二种切分方式中,可以以时长为切分单位对音频文件进行切分,每个待识别音频段的子时长都与其他待识别音频段的子时长相同,例如音频文件的总时长为0.1秒,可以将该音频文件切分成10个子时长均为10毫秒的待识别音频段。由于在这种切分方式中,音频文件是根据时长进行切分的,因此每个待识别音频段中可能包含不完整的句子或词语。
通过上述任意一种切分方式,都可以将较大的音频文件切分成多个待识别音频,便于对音频文件的语义进行识别。
在获取到待识别音频段之后,还需要对待识别音频段进行处理。这里主要是指对环境噪声等进行过滤处理,以提取待识别音频段中的人声。从而更准确地识别出待识别音频段中的语义。
在步骤S102中,标准语句主干指的是用于与待识别音频段进行对比,以查找出待识别音频段中与标准语句主干相同的规范性语句主干。
标准语句主干可以包括以下的任意一种或多种:主语成分的语句主干、谓语成分的语句主干和宾语成分的语句主干。
其中主语成分的语句主干指的是构成句子主干中的主语或主语中心语,谓语成分的语句主干指的是构成句子主干中的谓语或谓语中心语,宾语成分的语句主干指的是构成句子主干中的宾语或宾语中心语。例如,在句子“她流利的回答了三个问题”中,主语成分的语句主干是“她”,谓语成分的语句主干是“回答了”,宾语成分的语句主干是“问题”。
第一声波频谱指的是标准语句主干对应的声波频率的分布曲线,并且第一声波频谱是预先存储在数据库中的。
第二声波频谱指的是待识别音频段对应的声波频率的分布曲线。
第二声波频谱中可能包含与第一声波频谱相同的部分,因此目标声波频谱指的是第二声波频谱中与第一声波频谱相同或者相似的声波频谱。
第二声波频谱中可以包含有主语成分的语句主干、谓语成分的语句主干或宾语成分的语句主干,因此,通过使用第一声波频谱可以在第二声波频谱中可以查找出与第一声波频谱相同或者相似的目标声波频谱。
在具体实施中,在使用存储在数据库中的标准语句主干的第一声波频谱在待识别音频段的第二声波频谱中查找目标声波频谱时,可以根据波形的属性特征进行比较,这里波形的属性特征指的是声波频谱的峰值信息,具体地可以按照如图2所示的另一种音频处理方法的流程图中的步骤执行:
S201:获取第二声波频谱的峰值信息。
S202:查找所述第二声波频谱中峰值信息与第一声波频谱的峰值信息达到预设相似度的目标声波频谱。
在步骤S201中,峰值信息可以包括峰值和峰值对应的时间。
我们知道,根据声波频谱可以确定出每个峰值的大小及每个峰值出现的时间,因此,在该步骤中可以获取到第二声波频谱中各段声波频谱的峰值信息。
在步骤S202中,一般情况下,不同的音频对应的声波频谱是不同的,也就是不同的声波频谱对应的峰值信息也是不同的,当两段声波频谱的峰值信息相同或者相似时,可以确定这两段声波频谱对应的音频可能是相同的。
第二声波频谱中某段声波频谱的峰值信息与第一声波频谱的峰值信息越相似,说明该声波频谱对应的语义与第一声波频谱对应的标准语句主干相同的概率越大。在具体实施中,可以设置预设相似度,比较第二声波频谱中各段声波频谱的峰值信息与第一声波频谱的峰值信息。
当第二声波频谱中某段声波频谱的峰值信息与第一声波频谱的峰值信息达到预设相似度,那么可以将该声波频谱确定为目标声波频谱。
在具体实施中,第二声波频谱中可能包含有多个目标声波频谱,且多个目标声波频谱不一定相同。由于第一声波频谱对应的标准语句主干可能为主语成分的语句主干,也可能为谓语成分的语句主干,还可能为宾语成分的语句主干,因此,目标声波频谱对应的音频也可能为主语成分的语句主干,或谓语成分的语句主干,或宾语成分的语句主干。
在步骤S103中,数据库中除存储有标准语句主干的第一声波频谱外,还存储有标准语句主干对应的语义,并且标准语句主干的第一声波频谱与语义是一一对应的。
当查找到峰值信息与第一声波频谱的峰值信息达到预设相似度的目标声波频谱时,那么可以认为目标声波频谱对应的语义与第一声波频谱对应的语义相同。因此,根据第一声波频谱对应的语义可以确定出目标声波频谱对应的语义,进而,根据查找到的目标声波频谱对应的标准语句主干的词义,可以确定出待识别音频段的参考语句主干。
在步骤S104中,待执行命令指的是根据待识别音频段的参考语句主干确定出的命令。
在具体实施中,生成待执行命令后,可以由语音播报模块对该待执行命令进行播报,也可以由执行模块执行该命令。
本申请实施例提供的一种音频处理方法可以应用在任何需要进行语音识别的应用场景中,通过查找待识别音频段中与标准语句主干相同或相似的参考语句主干,确定待识别音频段的参考语句主干,进一步地确定出待执行命令,与相关技术中逐字进行语音识别的方法相比,不仅可以提高语音识别效率,而且可以提高准确率,使得生成的待执行命令更加准确。
下面将结合语音识别系统,具体介绍本申请提供的音频处理方法。
步骤1:获取用户在语音识别系统中输入的语音。
这里的语音识别系统可以是设置在应用软件(例如语音导航软件)上的系统,语音识别系统可以完成对语音的识别并生成语音识别结果,应用软件可以根据生成的语音识别结果执行相应的操作。
步骤2:语音识别系统将语音生成模拟音频信号。
在该步骤中语音识别系统将语音转化成音频文件,也就是模拟音频信号,并使用DPCM(Differential Pulse Code Modulation,简称差值编码)方法对模拟音频信号进行音频调制,以减少或除去模拟音频信号中多余成分,提高语音的识别率。
步骤3:将生成的模拟音频信号转化成数字音频信号。
在该步骤中可以通过A/D转换(Analog-to-Digital Convert)方法,将模拟音频信号转化成数字音频信号,这里,主要是将声音这样非电信号转化成电压信号,以在后续的步骤中生成声波频谱。
模拟音频信号转化成数字音频信号之后,还可以对数字音频信号进行重采样,以从高分辨率的影像中提取出低分辨率的影像。
步骤4:将数字音频信号切分成待识别音频段。
待识别音频段指的是用于被识别其语义的数字音频信号。待识别音频段中包含有至少一个待识别的字或词语。
由于当数字音频信号较大时,语义不易被识别,因此可以将较大的数字音频信号进行切分,形成多个待识别音频段。在具体实施中,可以按照以下两种方式进行切分:
第一种:将数字音频信号切分成包含一个句子的待识别音频段。
第二种:根据数字音频信号的总时长,将该数字音频信号切分成多个子时长相等的待识别音频段。
在第一种切分方式中,可以以句子为切分单位对数字音频信号进行切分,每个待识别音频段中都仅包含一个句子。进一步地可以理解为,在这种切分方式下,每个待识别音频段中都包含至少一个字或词语,并且这些字或词语可以形成一个句子。
在第二种切分方式中,可以以时长为切分单位对数字音频信号进行切分,每个待识别音频段的子时长都与其他待识别音频段的子时长相同,在具体实施中,可以将数字音频信号切分成子时长为10毫秒-30毫秒的待识别音频段。例如数字音频信号的总时长为0.1秒,可以将该数字音频信号切分成10个子时长均为10毫秒的待识别音频段。由于在这种切分方式中,数字音频信号是根据时长进行切分的,因此每个待识别音频段中可能包含不完整的句子或词语。
通过上述任意一种切分方式,都可以将较大的数字音频信号切分成多个待识别音频,便于对数字音频信号的语义进行识别。
步骤5:根据待识别音频段,生成海明窗图像。
其中,海明窗图像是与待识别音频段相对应的波形图。
步骤6:将海明窗图像生成第一声波频谱图。
这里,可以利用傅里叶变换,将海明窗图像对应的函数生成三角函数,生成第一声波频谱图。第一声波频谱指的是待识别音频段对应的声波频率的分布曲线。每个待识别音频段对应一个第一声波频谱图。
在该过程中,还可以对第一声波频谱图进行环境噪声过滤,从而提高识别率。
步骤7:使用存储在数据库中的标准语句主干的第二声波频谱在待识别音频段的第一声波频谱中查找目标声波频谱。
标准语句主干指的是用于与待识别音频段进行对比,以查找出待识别音频段中与标准语句主干相同的规范性语句主干。
标准语句主干可以包括以下的任意一种或多种:主语成分的语句主干、谓语成分的语句主干和宾语成分的语句主干。
其中主语成分的语句主干指的是构成句子主干中的主语或主语中心语,谓语成分的语句主干指的是构成句子主干中的谓语或谓语中心语,宾语成分的语句主干指的是构成句子主干中的宾语或宾语中心语。
例如,“你”、“我”、“他”表示主语成分的语句主干;“是”表示谓语成分的语句主干;其他信息表示宾语成分的语句主干。
第二声波频谱指的是预先存储在数据库中的,标准语句主干对应的声波频率的分布曲线。
第一声波频谱中可能包含与第二声波频谱相同的部分,因此目标声波频谱指的是第一声波频谱中与第二声波频谱相同或者相似的声波频谱。
在具体实施中,可以获取第一声波频谱的峰值信息,具体地可以获取第一声波频谱的峰值以及每个峰值对应的时间。
一般情况下,不同的音频对应的声波频谱是不同的,也就是不同的声波频谱对应的峰值信息也是不同的,当两段声波频谱的峰值信息相同或者相似时,可以确定这两段声波频谱对应的音频可能是相同的。
第一声波频谱中某段声波频谱的峰值信息与第二声波频谱的峰值信息越相似,说明该声波频谱对应的语义与第二声波频谱对应的标准语句主干相同的概率越大。在具体实施中,可以设置预设相似度,比较第一声波频谱中各段声波频谱的峰值信息与第二声波频谱的峰值信息。
当第一声波频谱中某段声波频谱的峰值信息与第二声波频谱的峰值信息达到预设相似度,那么可以将该声波频谱确定为目标声波频谱。
步骤8:根据标准语句主干的词义,确定目标声波频谱的语义。
当目标声波频谱与标准语句主干的第二声波频谱相匹配时,那么标准语句主干的词义就是目标声波频谱的语义。
步骤9:根据目标声波频谱的语义,确定待识别音频段的参考语句主干。
在该步骤中,通过确定出待识别音频段的多个目标声波频谱,分别确定目标声波频谱的语义,再根据语法结构和目标声波频谱的语义,确定出待识别音频段的参考语句主干,可以加快对待识别音频段的识别。
步骤10:根据待识别音频段的参考语句主干,确定用户在语音识别系统中输入的语音的语义。
由于待识别音频段是用户在语音识别系统中输入的语音的片段,因此通过待识别音频段的参考语句主干,可以确定用户在语音识别系统中输入的语音的语义。
步骤11:根据用户在语音识别系统中输入的语音的语义,语音识别系统生成待执行命令。
在具体实施中,生成待执行命令后,可以由语音识别系统对该待执行命令进行播报,也可以将该命令发送至应用软件,以执行该命令。
基于相同的技术构思,本申请实施例还提供一种音频处理装置、电子设备、以及计算机可读存储介质等,具体可参见以下实施例。
图3是示出本申请的一些实施例的音频处理装置的框图,该音频处理装置实现的功能对应上述在终端设备上执行音频处理方法的步骤。该装置可以理解为一个包括处理器的服务器的组件,该组件能够实现上述音频处理方法,如图3所示,该音频处理装置可以包括:
第一获取模块301,用于获取待识别音频段;
查找模块302,用于使用存储在数据库中的标准语句主干的第一声波频谱在所述待识别音频段的第二声波频谱中查找目标声波频谱;所述标准语句主干包括以下的任意一种或多种:主语成分的语句主干、谓语成分的语句主干和宾语成分的语句主干;
确定模块303,用于根据查找到的所述目标声波频谱对应的标准语句主干的词义,确定所述待识别音频段的参考语句主干;
生成模块304,用于根据所述参考语句主干生成待执行命令。
如图4所示,该音频处理装置中,查找模块302还包括:
第二获取模块3021,用于获取所述第二声波频谱的峰值信息;所述峰值信息包括峰值和所述峰值对应的时间;
子查找模块3022,用于查找所述第二声波频谱中峰值信息与第一声波频谱的峰值信息达到预设相似度的目标声波频谱。
在其他的实施方式中,该音频处理装置还可以包括:
第三获取模块,用于获取用户输入的音频文件;
第一切分模块,用于将所述音频文件切分成包含一个句子的待识别音频段。
在其他的实施方式中,该音频处理装置还可以包括:
第四获取模块,用于获取用户输入的音频文件;
第二切分模块,用于根据所述音频文件的总时长,将所述音频文件切分成多个子时长相等的待识别音频段。
在其他的实施方式中,该音频处理装置还可以包括:
过滤模块,用于对所述待识别音频段进行噪声过滤处理。
如图5所示,为本申请实施例所提供的一种电子设备500的结构示意图,该电子设备500包括:至少一个处理器501,至少一个网络接口504和至少一个用户接口503,存储器505,至少一个通信总线502。通信总线502用于实现这些组件之间的连接通信。用户接口503,包括显示器(例如,触摸屏)、键盘或者点击设备(例如,触感板或者触摸屏等)。
存储器505可以包括只读存储器和随机存取存储器,并向处理器501提供指令和数据。存储器505的一部分还可以包括非易失性随机存取存储器(NVRAM)。
在一些实施方式中,存储器505存储了如下的元素,可执行模块或者数据结构,或者他们的子集,或者他们的扩展集:
操作系统5051,包含各种系统程序,用于实现各种基础业务以及处理基于硬件的任务;
应用程序5052,包含各种应用程序,用于实现各种应用业务。
在本申请实施例中,通过调用存储器505存储的程序或指令,处理器501用于:
获取待识别音频段;
使用存储在数据库中的标准语句主干的第一声波频谱在所述待识别音频段的第二声波频谱中查找目标声波频谱;所述标准语句主干包括以下的任意一种或多种:主语成分的语句主干、谓语成分的语句主干和宾语成分的语句主干;
根据查找到的所述目标声波频谱对应的标准语句主干的词义,确定所述待识别音频段的参考语句主干;
根据所述参考语句主干生成待执行命令。
在执行使用存储在数据库中的标准语句主干的第一声波频谱在所述待识别音频段的第二声波频谱中查找目标声波频谱的步骤时,处理器501还用于:
获取所述第二声波频谱的峰值信息;所述峰值信息包括峰值和所述峰值对应的时间;
查找所述第二声波频谱中峰值信息与第一声波频谱的峰值信息达到预设相似度的目标声波频谱。
在执行获取待识别音频段的步骤之前,处理器501还用于:
获取用户输入的音频文件;
将所述音频文件切分成包含一个句子的待识别音频段。
在执行获取待识别音频段的步骤之前,处理器501还用于:
获取用户输入的音频文件;
根据所述音频文件的总时长,将所述音频文件切分成多个子时长相等的待识别音频段。
在执行获取待识别音频段的步骤之后,处理器501还用于:
对所述待识别音频段进行噪声过滤处理。
本申请实施例所提供的进行音频处理方法的计算机程序产品,包括存储了处理器可执行的非易失的程序代码的计算机可读存储介质,所述程序代码包括的指令可用于执行前面方法实施例中所述的方法,具体实现可参见方法实施例,在此不再赘述。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上所述实施例,仅为本申请的具体实施方式,用以说明本申请的技术方案,而非对其限制,本申请的保护范围并不局限于此,尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。

Claims (8)

1.一种音频处理方法,其特征在于,包括:
获取待识别音频段;
使用存储在数据库中的标准语句主干的第一声波频谱在所述待识别音频段的第二声波频谱中查找目标声波频谱;所述标准语句主干包括以下的任意一种或多种:主语成分的语句主干、谓语成分的语句主干和宾语成分的语句主干;
根据查找到的所述目标声波频谱对应的标准语句主干的词义,确定所述待识别音频段的参考语句主干;
根据所述参考语句主干生成待执行命令;
其中,所述使用存储在数据库中的标准语句主干的第一声波频谱在所述待识别音频段的第二声波频谱中查找目标声波频谱,包括:
获取所述第二声波频谱的峰值信息,所述峰值信息包括峰值和所述峰值对应的时间;
查找所述第二声波频谱中峰值信息与第一声波频谱的峰值信息达到预设相似度的目标声波频谱。
2.根据权利要求1所述的音频处理方法,其特征在于,所述获取待识别音频段之前,还包括:
获取用户输入的音频文件;
将所述音频文件切分成包含一个句子的待识别音频段。
3.根据权利要求1所述的音频处理方法,其特征在于,所述获取待识别音频段之前,还包括:
获取用户输入的音频文件;
根据所述音频文件的总时长,将所述音频文件切分成多个子时长相等的待识别音频段。
4.根据权利要求1所述的音频处理方法,其特征在于,所述获取待识别音频段之后,还包括:
对所述待识别音频段进行噪声过滤处理。
5.一种音频处理装置,其特征在于,包括:
第一获取模块,用于获取待识别音频段;
查找模块,用于使用存储在数据库中的标准语句主干的第一声波频谱在所述待识别音频段的第二声波频谱中查找目标声波频谱;所述标准语句主干包括以下的任意一种或多种:主语成分的语句主干、谓语成分的语句主干和宾语成分的语句主干;
确定模块,用于根据查找到的所述目标声波频谱对应的标准语句主干的词义,确定所述待识别音频段的参考语句主干;
生成模块,用于根据所述参考语句主干生成待执行命令;
所述查找模块包括:
第二获取模块,用于获取所述第二声波频谱的峰值信息,所述峰值信息包括峰值和所述峰值对应的时间;
子查找模块,用于查找所述第二声波频谱中峰值信息与第一声波频谱的峰值信息达到预设相似度的目标声波频谱。
6.根据权利要求5所述的音频处理装置,其特征在于,还包括:
第三获取模块,用于获取用户输入的音频文件;
第一切分模块,用于将所述音频文件切分成包含一个句子的待识别音频段。
7.一种电子设备,其特征在于,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如权利要求1至4任一所述的音频处理方法的步骤。
8.一种计算机可读存储介质,其特征在于,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如权利要求1至4任一所述的音频处理方法的步骤。
CN201911296557.3A 2019-12-16 2019-12-16 一种音频处理方法、装置、电子设备及可读存储介质 Active CN111048073B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911296557.3A CN111048073B (zh) 2019-12-16 2019-12-16 一种音频处理方法、装置、电子设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911296557.3A CN111048073B (zh) 2019-12-16 2019-12-16 一种音频处理方法、装置、电子设备及可读存储介质

Publications (2)

Publication Number Publication Date
CN111048073A CN111048073A (zh) 2020-04-21
CN111048073B true CN111048073B (zh) 2022-08-12

Family

ID=70236982

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911296557.3A Active CN111048073B (zh) 2019-12-16 2019-12-16 一种音频处理方法、装置、电子设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN111048073B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112185418B (zh) * 2020-11-12 2022-05-17 度小满科技(北京)有限公司 音频处理方法和装置
CN112614512A (zh) * 2020-12-18 2021-04-06 腾讯音乐娱乐科技(深圳)有限公司 噪声检测的方法和装置
CN113053363B (zh) * 2021-05-12 2024-03-01 京东科技控股股份有限公司 语音识别方法、语音识别装置和计算机可读存储介质

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5548647A (en) * 1987-04-03 1996-08-20 Texas Instruments Incorporated Fixed text speaker verification method and apparatus
KR101377459B1 (ko) * 2009-12-21 2014-03-26 한국전자통신연구원 자동 통역 장치 및 그 방법
CN104110884A (zh) * 2014-03-14 2014-10-22 芜湖美的厨卫电器制造有限公司 热水器及其控制方法
JP2019053165A (ja) * 2017-09-14 2019-04-04 株式会社東芝 音声認識装置
CN107679039B (zh) * 2017-10-17 2020-12-29 北京百度网讯科技有限公司 用于确定语句意图的方法和装置
CN107895578B (zh) * 2017-11-15 2021-07-20 百度在线网络技术(北京)有限公司 语音交互方法和装置
CN109344393B (zh) * 2018-08-29 2023-04-07 北京云知声信息技术有限公司 一种主干语句的提取方法及系统
CN109635278A (zh) * 2018-11-20 2019-04-16 北京小谛机器人科技有限公司 语义表示方法及装置
CN109408628B (zh) * 2019-01-15 2019-06-07 深兰人工智能芯片研究院(江苏)有限公司 一种解析句子语义结构的方法及相关设备
CN109785838B (zh) * 2019-01-28 2021-08-31 百度在线网络技术(北京)有限公司 语音识别方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN111048073A (zh) 2020-04-21

Similar Documents

Publication Publication Date Title
CN111048073B (zh) 一种音频处理方法、装置、电子设备及可读存储介质
CN106570180B (zh) 基于人工智能的语音搜索方法及装置
US20080162125A1 (en) Method and apparatus for language independent voice indexing and searching
WO2017061027A1 (ja) 言語モデル生成装置、言語モデル生成方法とそのプログラム、音声認識装置、および音声認識方法とそのプログラム
US8356065B2 (en) Similar text search method, similar text search system, and similar text search program
CN111178076B (zh) 命名实体识别与链接方法、装置、设备及可读存储介质
CN109979450B (zh) 信息处理方法、装置及电子设备
CN109299471B (zh) 一种文本匹配的方法、装置及终端
CN112988753B (zh) 一种数据搜索方法和装置
CN108363765B (zh) 音频段落识别方法以及装置
CN110473543B (zh) 一种语音识别方法、装置
CN112201275A (zh) 声纹分割方法、装置、设备及可读存储介质
CN111179903A (zh) 一种语音识别方法、装置、存储介质及电器
KR102220964B1 (ko) 오디오 인식을 위한 방법 및 디바이스
CN110570838B (zh) 语音流处理方法和装置
CN111898363A (zh) 文本长难句的压缩方法、装置、计算机设备及存储介质
CN111063337A (zh) 可快速更新语言模型的大规模语音识别方法及系统
CN114049875A (zh) 一种tts播报方法、装置、设备以及存储介质
CN113808572B (zh) 语音合成方法、装置、电子设备和存储介质
CN112509567B (zh) 语音数据处理的方法、装置、设备、存储介质及程序产品
CN113782005B (zh) 语音识别方法及装置、存储介质及电子设备
CN112397053B (zh) 语音识别方法、装置、电子设备及可读存储介质
CN115240696A (zh) 一种语音识别方法及可读存储介质
CN111708914A (zh) 用于视频处理的方法、装置、电子设备和存储介质
CN113345442B (zh) 语音识别方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant