CN104700831B

CN104700831B - 分析音频文件的语音特征的方法和装置

Info

Publication number: CN104700831B
Application number: CN201310652731.XA
Authority: CN
Inventors: 施琴; 张世磊; 刘�文; 秦勇
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2013-12-05
Filing date: 2013-12-05
Publication date: 2018-03-06
Anticipated expiration: 2033-12-05
Also published as: CN104700831A

Abstract

本发明公开了一种分析音频文件的语音特征的方法和装置，该分析方法包括：采用多种声学模型对音频文件中的语音内容进行语音识别，以获得多个识别结果；对比所述多个识别结果以获得对比结果；基于对比结果确定所述音频文件的语音声学特征。分析装置与上述分析方法相对应。本发明还提供了基于以上分析的音频文件的语音特征向用户推荐音频文件的方法和装置。利用本发明实施例的方法和装置，可以对音频文件进行语音分析，从而为用户提供关于音频文件中语音内容特点的丰富信息。基于这样的信息，还可以为用户推荐适合用户水平的音频文件。

Description

分析音频文件的语音特征的方法和装置

技术领域

本发明涉及音频分析和处理，更具体而言，涉及分析音频文件的语音特征的方法和装置。

背景技术

现有技术中已经提出多种方法来分析各类应用对象。例如，搜索引擎可以捕获网站内容，并通过提取关键词等方式分析网站内容，还可以根据关键词或其他分析结果为网站打上标签。一些图片处理工具可以对图片进行分析，例如比对两个图片的相似性，进而进行模糊匹配等。然而，对于音频文件，特别是主要包含语音内容的音频文件，现有技术并没有有效的方法对其进行内容和特征的分析。而另一方面，在许多情况下，希望获得关于音频文件的特征信息，从而可以对音频文件进行分类、匹配、推荐等进一步操作。

在一个典型例子中，外语学习者获得了一些外语内容的音频文件，以期进行听力练习。然而，由于现有技术并没有有效的音频分析方法，学习者只能根据音频文件的标题、来源（来源于新闻播报、电影片段或是专用听力材料）等信息来选择音频文件，并且只能在听过该音频文件之后才能判断所选择的音频文件是否符合自己的听力水平。这显然浪费了大量的时间和精力。

在另一例子中，提供音频文件的资料库期望对音频文件进行分类或分级，以便于进行管理或向用户推荐音频文件。然而，在无法对音频文件进行有效分析的情况下，资料库只能根据该音频文件的文件大小、作者等属性信息进行分类，无法基于更加本质的与音频有关的特征进行分类。

因此，希望提出新的方案，能够有效地对音频文件的语音特征进行分析。

发明内容

考虑到现有技术中的不足，本发明提出一种方案，旨在对音频文件的语音特征进行分析。

根据本发明的一个方面，提供了一种分析音频文件的语音特征的方法，包括：采用多种声学模型对所述音频文件中的语音内容进行语音识别，以获得多个识别结果；对比所述多个识别结果以获得对比结果；基于对比结果确定所述音频文件的语音声学特征。

根据本发明另一方面，提供了一种为用户推荐音频文件的方法，包括：确定用户适合的语音特征；获取多个音频文件各自的语音特征，所述多个音频文件各自的语音特征通过利用前述方面的方法对所述多个音频文件进行分析而确定；将语音特征与所述用户适合的语音特征相匹配的音频文件推荐给所述用户。

根据本发明另一方面，提供了一种用于分析音频文件的语音特征的装置，包括：语音识别单元，配置为采用多种声学模型对所述音频文件中的语音内容进行语音识别，以获得多个识别结果；结果对比单元，配置为对比所述多个识别结果以获得对比结果；声学特征确定单元，配置为基于对比结果确定所述音频文件的语音声学特征。

根据本发明又一方面，提供了一种为用户推荐音频文件的装置，包括：用户特征确定单元，配置为确定用户适合的语音特征；文件特征获取单元，配置为获取多个音频文件各自的语音特征，所述多个音频文件各自的语音特征通过利用前述方面的装置对所述多个音频文件进行分析而确定；匹配单元，配置为将语音特征与所述用户适合的语音特征相匹配的音频文件推荐给所述用户。

利用本发明实施例的方法和装置，可以对音频文件进行语音分析，从而为用户提供关于音频文件中语音内容特点的信息。基于这样的信息，还可以为用户推荐适合用户水平的音频文件。

附图说明

通过结合附图对本公开示例性实施方式进行更详细的描述，本公开的上述以及其它目的、特征和优势将变得更加明显，其中，在本公开示例性实施方式中，相同的参考标号通常代表相同部件。

图1示出了适于用来实现本发明实施方式的示例性计算机系统/服务器12的框图；

图2示出根据一个实施例的分析音频文件的方法的流程图；

图3A和3B示出根据本发明实施例的标记音频文件的例子；

图4示出根据一个实施例的推荐音频文件的方法的流程图；

图5示出根据本发明一个实施例的分析音频文件的语音特征的装置的示意框图；以及

图6示出根据本发明一个实施例的推荐音频文件的装置的示意框图。

具体实施方式

下面将参照附图更详细地描述本公开的优选实施方式。虽然附图中显示了本公开的优选实施方式，然而应该理解，可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反，提供这些实施方式是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。

所属技术领域的技术人员知道，本发明可以实现为系统、方法或计算机程序产品。因此，本公开可以具体实现为以下形式，即：可以是完全的硬件、也可以是完全的软件（包括固件、驻留软件、微代码等），还可以是硬件和软件结合的形式，本文一般称为“电路”、“模块”或“系统”。此外，在一些实施例中，本发明还可以实现为在一个或多个计算机可读介质中的计算机程序产品的形式，该计算机可读介质中包含计算机可读的程序代码。

可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子（非穷举的列表）包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器（RAM）、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于——无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如”C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机（例如利用因特网服务提供商来通过因特网连接）。

下面将参照本发明实施例的方法、装置（系统）和计算机程序产品的流程图和/或框图描述本发明。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机程序指令实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器，从而生产出一种机器，这些计算机程序指令通过计算机或其它可编程数据处理装置执行，产生了实现流程图和/或框图中的方框中规定的功能/操作的装置。

也可以把这些计算机程序指令存储在能使得计算机或其它可编程数据处理装置以特定方式工作的计算机可读介质中，这样，存储在计算机可读介质中的指令就产生出一个包括实现流程图和/或框图中的方框中规定的功能/操作的指令装置(instructionmeans)的制造品（manufacture）。

也可以把计算机程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机或其它可编程装置上执行的指令能够提供实现流程图和/或框图中的方框中规定的功能/操作的过程。

图1示出了适于用来实现本发明实施方式的示例性计算机系统/服务器12的框图。图1显示的计算机系统/服务器12仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图1所示，计算机系统/服务器12以通用计算设备的形式表现。计算机系统/服务器12的组件可以包括但不限于：一个或者多个处理器或者处理单元16，系统存储器28，连接不同系统组件（包括系统存储器28和处理单元16）的总线18。

总线18表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构（ISA）总线，微通道体系结构（MAC）总线，增强型ISA总线、视频电子标准协会（VESA）局域总线以及外围组件互连（PCI）总线。

计算机系统/服务器12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机系统/服务器12访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

系统存储器28可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器（RAM）30和/或高速缓存存储器32。计算机系统/服务器12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统34可以用于读写不可移动的、非易失性磁介质（图1未显示，通常称为“硬盘驱动器”）。尽管图1中未示出，可以提供用于对可移动非易失性磁盘（例如“软盘”）读写的磁盘驱动器，以及对可移动非易失性光盘（例如CD-ROM,DVD-ROM或者其它光介质）读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品，该程序产品具有一组（例如至少一个）程序模块，这些程序模块被配置以执行本发明各实施例的功能。

具有一组（至少一个）程序模块42的程序/实用工具40，可以存储在例如存储器28中，这样的程序模块42包括——但不限于——操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。

计算机系统/服务器12也可以与一个或多个外部设备14（例如键盘、指向设备、显示器24等）通信，还可与一个或者多个使得用户能与该计算机系统/服务器12交互的设备通信，和/或与使得该计算机系统/服务器12能与一个或多个其它计算设备进行通信的任何设备（例如网卡，调制解调器等等）通信。这种通信可以通过输入/输出（I/O）接口22进行。并且，计算机系统/服务器12还可以通过网络适配器20与一个或者多个网络（例如局域网（LAN），广域网（WAN）和/或公共网络，例如因特网）通信。如图所示，网络适配器20通过总线18与计算机系统/服务器12的其它模块通信。应当明白，尽管图中未示出，可以结合计算机系统/服务器12使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

以下结合附图和具体例子描述本发明的实施方式。在本发明的实施例中，采用多种声学模型对音频文件进行语音识别，基于不同声学模型下的识别结果来确定音频文件的语音声学特征。在一些实施例中，还可以分析获得该音频文件的更多语音特征，例如包括语速、背景噪声水平、以及语音内容特征等。下面结合附图描述上述发明构思的实现。

图2示出根据一个实施例的方法的流程图。如图2所示，根据一个实施例，分析音频文件的语音特征的方法包括以下步骤：首先，在步骤201，采用多种声学模型对音频文件进行语音识别，以获得多个识别结果；在步骤202，对比所述多个识别结果以获得对比结果；在步骤203，基于对比结果确定所述音频文件的语音声学特征。下面结合例子描述上述各个步骤的具体执行方式。

如前所述，有待分析的音频文件是包含语音内容的音频文件。对于语音内容来说，现有技术中已经提出多种声学模型用于对语音内容进行语音识别。基于不同声学模型下语音识别的结果，可以确定出音频文件的一些语音声学特征。可以根据要确定的具体特征项目来选择采用的声学模型。

在一个实施例中，在步骤201中采用的多种声学模型包括与讲话者无关（SpeakerIndependent，SI）的声学模型和与讲话者有关（Speaker Dependent，SD）的声学模型。也就是说，在步骤201，分别采用SI声学模型和SD声学模型对音频文件进行语音识别，从而获得SI模型下的SI识别结果和SD模型下的SD识别结果。

本领域技术人员可以理解，声学模型包括对不同声音、单词、单词部分及其组合进行建模的数据，从而对输入的语音音频进行识别。一般地，声学模型基于对语音输入数据进行训练而获得，该训练过程涉及对文本语料库中各个单词的声音表征进行统计和建模，该建模可以例如基于隐形马尔科夫模型(HMM)等。

通过记录多个讲话者的语音数据，并基于该语音数据进行训练，可以获得与讲话者无关的声学模型，或称SI声学模型。由于SI声学模型基于多个不同讲话者提供的语音输入，因此可以代表一般讲话者的语音特征。进而，可以将SI声学模型作为标准语音声学模型。

另一方面，考虑到个体讲话者唯一的讲话特征，还提出了与讲话者有关的声学模型，即SD声学模型。SD声学模型是通过对特定讲话者的语音输入进行训练而获得，可以较好地表征上述特定讲话者的讲话特征，改进语音识别的准确度。在一个例子中，可以直接基于特定讲话者的大量语音输入进行训练，从而获得针对该特定讲话者的SD声学模型。或者，一般地，可以通过在SI声学模型的基础上针对特定讲话者进行适应和调整而获得SD声学模型。具体地，可以利用有限的讲话者特定语音数据来调整SI声学模型，以生成SD声学模型。上述调整可以迭代执行。现有技术中已经提出了训练SI声学模型和SD声学模型的方法，因此在此略过对训练过程的详细描述。

基于以上SI声学模型和SD声学模型的特点，在本发明实施例中，分别采用SI声学模型和SD声学模型对音频文件进行语音识别，通过比对两种声学模型下的识别结果来确定音频文件的语音标准度。具体地，在一个实施例中，预先确定并获取针对待分析音频文件的SD声学模型。于是，在步骤201中，可以并行地分别采用SI声学模型和SD声学模型对音频文件进行语音识别，从而分别获得SI识别结果和SD识别结果。在另一实施例中，在利用SI声学模型进行语音识别的同时，训练形成SD声学模型。具体地，在该实施例中，步骤201包括，首先采用SI声学模型对音频文件进行语音识别，以此获得SI识别结果。在进行上述语音识别的过程中，还基于音频文件中的语音内容对SI声学模型进行适应和调整，从而获得SD声学模型。接着，利用获得的SD声学模型再次对音频文件进行语音识别，从而获得SD识别结果。一般地，由于对SI声学模型进行了针对性的调整，SD声学模型所获得的SD识别结果在识别准确度上要高于SI识别结果。

在步骤202，对比以上两种识别结果，从而获得对比结果。此时，对比结果示出基于SI声学模型的SI识别结果和基于SD声学模型的SD识别结果之间的识别差异。接着，在步骤203，基于上述识别差异，确定所述音频文件的语音标准度。具体地，如上所述，SI声学模型反映了标准语音特征，而SD声学模型反映了特定讲话者的特征。因此，如果这两种声学模型下的识别结果比较接近，则意味着，音频文件中的语音接近标准发音，语音标准度较高；反之，如果这两种声学模型下的识别结果差异较大，则意味着，音频文件中的语音并不标准，语音标准度较低。相应地，在一个例子中，将语音标准度确定为反比于SI识别结果和SD识别结果之间的识别差异。由此，基于SI声学模型和SD声学模型的识别差异，确定出音频文件的语音标准度。在一个例子中，根据识别差异的大小，将语音标准度量化为不同级别，例如5级表示非常标准，1级表示严重偏离标准语音等。

除了采用SI声学模型和SD声学模型来确定语音标准度，还可以采用其他声学模型确定音频文件的其他声学特征。在一个实施例中，可以利用多种方言模型来确定音频文件的方言特征。可以理解，即使对于同一种语言，不同国家和地区的发音也具有不同的特点。以英语为例，美式英语和英式英语在发音上具有较大的区别。在其他国家和地区，例如中国、印度、日本等，人们的英语发音也具有其相应的特点。基于以上考虑，可以基于某个地区的多个讲话者的语音输入进行训练，从而获得该地区的方言模型。在获得多个地区的多种方言模型的基础上，可以利用这些方言模型确定有待分析的音频文件的方言特征。具体地，在步骤201，分别采用多种方言模型对音频文件进行语音识别，获得多个识别结果。接着，在步骤202，对比获得的多个识别结果，更具体而言，对比上述多个识别结果的准确度。在一个实施例中，某种声学模型下识别结果的准确度被估计为利用该声学模型对音频文件进行语音识别的识别率。可以理解，在语音识别过程中，如果所采用的声学模型不适于该音频文件的语音内容，那么会出现一些音素无法识别的情况，例如，无法将某些音素或音素组合匹配到有意义的单词。这时，可以利用识别率来评估该声学模型的识别结果的准确度。在另一实施例中，可以直接获得与音频文件的语音内容对应的文本。此时，可以通过将识别结果与上述文本进行比对来更直接地确定该识别结果的准确度。由此，可以根据需要利用上述方法确定步骤201获得的各个方言模型下的识别结果的准确度。进而，在步骤202，比对各个识别结果的准确度，并且，在步骤203，基于上述准确度对比，确定音频文件中语音内容的方言特征。更具体而言，在步骤203，将准确度最高的方言模型确定为该音频文件所适用的声学模型，并将该方言模型对应的方言特征确定为该音频文件中语音内容的方言特征。

以上通过比对多种声学模型的识别结果，可以确定出音频文件的语音标准度和方言特征。在一个实施例中，还可以直接基于多种声学模型的识别结果的准确度，确定音频文件的整体语音清晰度。具体地，首先在步骤201，分别采用多种声学模型对音频文件进行语音识别，上述多种声学模型包括各种被认为可能适用于音频文件的声学模型，例如包括但不限于前述的SI声学模型、SD声学模型、方言模型等。进而，利用前述的确定识别率或对比文本的方法以及可能的其他方法确定各个识别结果的准确度。接着在步骤202，通过对比各个识别结果，确定识别结果的总体准确度。具体地，在一个例子中，将各个识别结果中最高的准确度确定作为总体准确度；在另一例子中，将各个识别结果的准确度的均值作为总体准确度。还可以通过其他方式确定识别结果的总体准确度。进而，在步骤203，基于上述总体准确度，确定音频文件的语音清晰度。可以理解，总体准确度越高，意味着音频文件的可辨识性越强，语音清晰度越高。

实际上，语音清晰度是表征音频文件的语音发音是否易于识别的一个总体声学特征，它受到多方面因素的影响。除了讲话者独有的发音特点、方言特征之外，讲话语速、噪声水平、录音条件等因素都会不同程度地影响音频文件的可识别性。因此，本发明的实施例还提出针对上述各种声学特征项目进行分析。

在一个实施例中，分析音频文件的语音特征的方法还包括，确定所述音频文件中语音的语速。在一个例子中，可以基于以上步骤201中获得的多个识别结果的至少一部分来确定语速。具体地，可以在语音识别过程中，统计识别的单词数目和这些单词的发音时长，据此确定语速。利用语音识别的识别结果，既可以确定出一段音频的总体平均语速，也可以确定出特定语句的语速。在一个实施例中，可以根据预定标准将确定出的语速划分为若干等级。例如，语速越快，等级越高，语音可识别性越低。

在一个实施例中，分析音频文件的语音特征的方法还包括，确定所述音频文件的背景噪声水平。具体地，可以分析所述音频文件的信噪比，基于信噪比确定背景噪声水平。较小的信噪比对应于较大的背景噪声，进而使得音频文件中的语音内容难以识别。

在一个实施例中，分析音频文件的语音特征的方法还包括，基于所述音频文件的文件属性，确定所述音频文件的录音条件。具体地，上述文件属性可以包括，该音频文件的位速、采样率、声道等。这些属性信息可以用于确定该音频文件的音频质量或录音条件。例如，较高的位速，较高的采样率对应于较高的音频质量或较好的录音条件，较好的录音条件一般来说会使得音频文件中的语音易于识别。

除了以上对音频文件的语音声学特征进行分析之外，本发明的实施例还可以分析音频文件的语音内容特征。实际上，语音声学特征反映了语音内容在声学上是否易于识别，而语音内容特征反映了语音内容本身是否易于理解。两方面的特征综合在一起，决定了用户是否易于获得音频文件的内容信息。为了确定上述内容特征，在一个实施例中，分析音频文件的语音特征的方法还包括，获取与音频文件中的语音内容相对应的文本，并且基于所述文本，确定所述音频文件的语音内容特征。

在一些情况下，与音频文件的语音内容相对应的文本是可以直接获得的。例如，一些音频文件是专用于外语听力训练的听力材料，这些音频文件常常附带有对应的文本。一些音频文件来自新闻播报或电影片段等视频，而这些视频常常配有字幕。通过提取视频字幕也可以获得音频文件对应的文本。对于难以直接获得对应文本的音频文件，可以将前述步骤201中语音识别的结果作为对应文本。

在获得了音频文件的对应文本的基础上，可以基于该文本，确定音频文件的语音内容特征。具体地，在一个实施例中，确定语音内容特征包括，确定文本中单词的类别和各类别单词的分布；基于上述分布，确定所述音频文件的词汇（vocabulary）类别。可以理解，现有技术中已经提供了多种数据库和标准用于对单词进行类别划分。在一个例子中，可以依据数据库提供的信息，对单词进行主题领域的划分。例如，“学校”，“暑假”，“班级”等单词可以被划分到教育这一主题领域，而“动能”，“势能”，“重力”等单词可以被划分到科学，更具体地，物理这一主题领域。在另一例子中，可以依据教育类数据库提供的信息，对单词进行难度的划分，例如，将不同单词分类为初级、中级、高级等难度水平。在获得了文本中各个单词的类别的基础上，可以统计获得各类别单词的分布，例如，某类别单词占单词总数目的百分比等。基于该分布，就可以确定整个文本的词汇类别。例如，可以将相对于单词总数目占有最大百分比的单词类别确定为整个文本的词汇类别。或者，也可以将各类别量化为类别值（例如初级为1，中级为2，高级为3），通过对各个类别的单词数目进行加权求和以及求平均，来确定整个文本的词汇类别。

除了上述词汇特征之外，文本的句法特征也会影响其可理解性。为此，根据一个实施例，分析音频文件的语音特征的方法还包括：采用多种n元语言模型分析文本中的单词组合；基于对单词组合的分析，确定所述音频文件的句法级别。

语言模型(Language Model,LM)已经广泛地应用在需要自然语言处理的各种应用中，例如语音识别、机器翻译、词性标注、句法分析和信息检索。语言模型通过模型训练而形成，可以描述给定单词序列在语言中的出现概率的分布。由于句子往往由任意长度的字串构成，因此常常使用n元语言模型来描述不定长度的单词组合的概率。在现有技术中，可以基于不同语料库训练出不同的语言模型。在一个例子中，基于已有的具有不同句法难度级别的多个语料库，训练出多个不同级别的n元语言模型。为了分析音频文件的语音内容的句法级别，采用上述训练出的多个不同级别的n元语言模型来分析与语音内容对应的文本中的单词组合。所述单词组合可以是一个短语，一个句子甚至是整篇文本。通过这样的分析，可以确定出，文本中的单词组合在各个n元语言模型下的出现概率，并将出现概率较大的n元语言模型的级别确定为该单词组合的句法级别。通过采用上述方法利用多个不同级别的n元语言模型对文本中的各种单词组合进行分析，可以确定整个文本的总体句法级别，也就是对应的音频文件的语音内容的句法级别。在一个例子中，可以将确定的句法级别进行量化。

在以上实施例中，分析了音频文件的多种语音声学特征和语音内容特征。然而，可以理解，以上实施例所描述的对具体特征的分析仅仅出于示例目的；在阅读本说明书的情况下，本领域技术人员还可以对上述实施例进行修改，采用更多的方式对更多的具体特征进行分析。分析获得的各种具体特征的特征值可以作为标签来标记音频文件，使得用户可以直接获得关于该音频文件是否易于识别、易于理解的更多更丰富的信息。

图3示出根据本发明实施例的标记音频文件的例子。如图3A所示，在一个例子中，对于某个包含语音内容的音频文件“演讲片段1”，可以根据上述实施例的描述分析该音频文件的各项特征，并在文件的属性或标签中直接示出分析结果，即特征值。例如，图3A的示例性音频文件的语音特征包括，语音标准度为较为标准，方言特征为美式英语，语速为2个单词/秒，噪声水平为中等，语音总体清晰度为中等清晰，词汇类别为中级难度，句法级别为高级难度等。在图3B的例子中，将图3A的分析结果量化为不同级别，并用图标示出该不同级别，以使得音频文件的特征呈现更加清楚和直观。

除了如图3所示分别示出各项具体特征的分析结果之外，还可以为各项具体特征赋予相应权重，从而基于各项具体特征的级别和权重计算得出音频文件的语音内容的总体可理解度。

在以上对包含语音内容的音频文件进行分析的基础上，本发明实施例还提供一种为用户推荐音频文件的方法。图4示出根据一个实施例的推荐音频文件的方法的流程图。如图4所示，为用户推荐音频文件的方法包括：首先在步骤401，确定用户适合的语音特征；在步骤402，获取分别采用前述实施例的方法所确定的多个音频文件各自的语音特征；进而在步骤403，将语音特征与所述用户适合的语音特征相匹配的音频文件推荐给用户。

具体地，首先在步骤401，确定用户适合的语音特征。在一个实施例中，可以提供接口，用于接收关于用户适合的语音特征的输入信息。通过接收该输入信息，可以获取用户适合的语音特征。在另一实施例中，可以基于已知等级的语音内容或文本内容向用户提供一些问题作为测试，基于用户对这些问题的反馈来确定用户适合的语音特征。所确定的语音特征可以包括多种具体特征，例如语音标准度、方言特征、语音清晰度、语速等语音声学特征，以及例如词汇类别，句法等级等语音内容特征。在一个实施例中，所确定的语音特征也可以是基于多种具体特征而给出的总体可理解度。

接着，在步骤402，获取分别采用前述实施例的分析方法确定的多个音频文件各自的语音特征。在一个实施例中，可以采用前述实施例的分析方法，预先确定多个音频文件各自的语音特征。在另一实施例中，可以根据获取的用户适合的语音特征的具体特征项目，相应地确定多个音频文件的对应项目作为其语音特征。

在分别获取了用户适合的语音特征和多个备选音频文件的语音特征的基础上，在步骤403，将语音特征与所述用户适合的语音特征相匹配的音频文件推荐给用户。在一个实施例中，可以逐个对比各个特征项目来确定与用户匹配的音频文件。具体地，对于某些特征项目（例如可以量化的特征项目），可以预先设定一偏差阈值；当用户适合的语音特征在该特征项目中的特征值与某音频文件的对应特征值相差不大于上述偏差阈值的情况下，可以认为该音频文件在该特征项目上与用户相匹配。对于某些特征项目（例如方言特征），在特征值相等的情况下才认为音频文件在该特征项目上与用户匹配。通过这样的方式，可以确定出某个音频文件与用户相匹配的特征项目的数目。在一个实施例中，将与用户相匹配的特征项目的数目大于一数目阈值的音频文件作为适合用户的音频文件，推荐给用户。在另一实施例中，所确定的用户适合的语音特征是基于多个特征项目给出的总体可理解度。在此情况下，对应地确定各个音频文件的总体可理解度，并逐个与用户适合的可理解度进行比较。将与用户适合的总体可理解度的偏差在预定范围内的音频文件确定为适合用户的音频文件，进而推荐给用户。如此，推荐给用户的音频文件在语音特征上适合用户的水平，满足用户的需要，提高了用户获取适合的音频文件的效率。

基于同一发明构思，本发明的实施例还提供了一种用于分析音频文件的语音特征的装置。图5示出根据本发明一个实施例的分析音频文件的语音特征的装置的示意框图。在图5中，该装置总体表示为500。如图所示，用于分析音频文件的语音特征的装置500包括：语音识别单元501，配置为采用多种声学模型对所述音频文件中的语音内容进行语音识别，以获得多个识别结果；结果对比单元502，配置为对比所述多个识别结果以获得对比结果；声学特征确定单元503，配置为基于对比结果确定所述音频文件的语音声学特征。

根据一个实施例，上述语音识别单元501配置为：采用与讲话者无关的SI声学模型和与讲话者有关的SD声学模型分别对所述音频文件进行语音识别，以分别获得SI识别结果和SD识别结果；上述结果对比单元502配置为，获取所述SI识别结果和SD识别结果之间的识别差异；上述声学特征确定单元503配置为，基于上述识别差异，确定所述音频文件的语音标准度。

在一个实施例中，上述语音识别单元501配置为：采用SI声学模型对所述音频文件进行语音识别，以获得SI识别结果；基于所述音频文件中的语音内容对SI声学模型进行调整，从而获得SD声学模型；采用获得的SD声学模型对所述音频文件进行语音识别，以获得SD识别结果。

根据另一个实施例，上述语音识别单元501配置为采用多种方言模型；上述结果对比单元502配置为获取基于多种方言模型获得的识别结果之间的准确度对比；上述声学特征确定单元503配置为，基于上述准确度对比，确定所述音频文件中语音内容的方言特征。

根据一个实施例，上述装置500还包括语速确定单元（未示出），配置为基于所述多个识别结果的至少一部分，确定所述音频文件中语音的语速。

在一个实施例中，上述装置500还包括噪声确定单元（未示出），配置为基于所述音频文件的信噪比，确定其背景噪声水平。

在一个实施例中，上述装置500还包括录音条件确定单元（未示出），配置为基于所述音频文件的文件属性，确定其录音条件。

根据一个实施例，上述装置500还包括内容特征确定单元（未示出），其包括：文本获取模块，配置为获取与所述音频文件中的语音内容相对应的文本；以及确定模块，配置为基于所述文本，确定所述音频文件的语音内容特征。

根据一个实施例，上述确定模块配置为：确定文本中单词的类别和各类别单词的分布；基于上述分布，确定所述音频文件的词汇类别。

根据另一实施例，上述确定模块配置为：采用多种n元语言模型分析所述文本中的单词组合；基于对单词组合的分析，确定所述音频文件中语音内容的句法级别。

在另一方面，本发明的实施例还提供了一种为用户推荐音频文件的装置。图6示出根据本发明一个实施例的推荐音频文件的装置的示意框图。在图6中，该装置总体表示为600。如图所示，用于为用户推荐音频文件的装置600包括：用户特征确定单元601，配置为确定用户适合的语音特征；文件特征获取单元602，配置为获取多个音频文件各自的语音特征，所述多个音频文件各自的语音特征通过利用前述实施例的用于分析音频文件的语音特征的装置而确定；匹配单元603，配置为将语音特征与所述用户适合的语音特征相匹配的音频文件推荐给所述用户。在一个实施例中，文件特征获取单元602通过图5的分析装置500形成。在另一实施例中，文件特征获取单元602连接到前述的分析装置500，从中获得关于多个音频文件的语音特征的分析结果。

以上用于分析音频文件的语音特征的装置500和用于向用户推荐音频文件的装置600的具体执行方式可以参照之前结合具体例子对图2和图4方法的描述，在此不再赘述。

利用本发明实施例的方法和装置，可以对音频文件进行语音分析，从而为用户提供关于音频文件中语音内容的特点的信息。基于这样的信息，还可以为用户推荐适合用户水平的音频文件。

可以理解，附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

以上已经描述了本发明的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术的技术改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims

1.一种分析音频文件的语音特征的方法，包括：

采用多种声学模型对所述音频文件中的语音内容进行语音识别，以获得多个识别结果；

对比所述多个识别结果以获得对比结果；

基于对比结果确定所述音频文件的语音声学特征，其中：

采用多种声学模型对所述音频文件的语音内容进行语音识别包括，采用与讲话者无关的SI声学模型和与讲话者有关的SD声学模型分别对所述音频文件中的语音内容进行语音识别，以分别获得SI识别结果和SD识别结果；

对比所述多个识别结果以获得对比结果包括，获得所述SI识别结果和SD识别结果之间的识别差异；

所述基于对比结果确定所述音频文件的语音声学特征包括，基于上述识别差异，确定所述音频文件的语音标准度。

2.根据权利要求1所述的方法，其中分别获得SI识别结果和SD识别结果包括：采用SI声学模型对所述音频文件的语音内容进行语音识别，以获得SI识别结果；基于所述音频文件中的语音内容对SI声学模型进行调整，从而获得SD声学模型；采用获得的SD声学模型对所述音频文件的语音内容进行语音识别，以获得SD识别结果。

3.根据权利要求1所述的方法，其中所述多种声学模型包括多种方言模型；所述对比结果示出基于多种方言模型获得的识别结果之间的准确度对比；所述基于对比结果确定所述音频文件的语音声学特征包括，基于上述准确度对比，确定所述音频文件中语音内容的方言特征。

4.根据权利要求1所述的方法，还包括，基于所述多个识别结果的至少一部分，确定所述音频文件中语音的语速。

5.根据权利要求1所述的方法，还包括，基于所述音频文件的信噪比，确定其背景噪声水平。

6.根据权利要求1所述的方法，还包括，基于所述音频文件的文件属性，确定其录音条件。

7.根据权利要求1所述的方法，还包括：

获取与所述音频文件中的语音内容相对应的文本；

基于所述文本，确定所述音频文件的语音内容特征。

8.根据权利要求7所述的方法，其中确定所述音频文件的语音内容特征包括：

确定文本中单词的类别和各类别单词的分布；

基于上述分布，确定所述音频文件的词汇类别。

9.根据权利要求7所述的方法，其中确定所述音频文件的语音内容特征包括：

采用多种n元语言模型分析所述文本中的单词组合；

基于对单词组合的分析，确定所述音频文件中语音内容的句法级别。

10.一种为用户推荐音频文件的方法，包括：

确定用户适合的语音特征；

获取多个音频文件各自的语音特征，所述多个音频文件各自的语音特征通过利用权利要求1-9之一的方法对所述多个音频文件进行分析而确定；

将语音特征与所述用户适合的语音特征相匹配的音频文件推荐给所述用户。

11.一种用于分析音频文件的语音特征的装置，包括：

语音识别单元，配置为采用多种声学模型对所述音频文件中的语音内容进行语音识别，以获得多个识别结果；

结果对比单元，配置为对比所述多个识别结果以获得对比结果；

声学特征确定单元，配置为基于对比结果确定所述音频文件的语音声学特征，其中：

所述语音识别单元配置为，采用与讲话者无关的SI声学模型和与讲话者有关的SD声学模型分别对所述音频文件中的语音内容进行语音识别，以分别获得SI识别结果和SD识别结果；

所述结果对比单元配置为，获取所述SI识别结果和SD识别结果之间的识别差异；

所述声学特征确定单元配置为，基于上述识别差异，确定所述音频文件的语音标准度。

12.根据权利要求11所述的装置，其中所述语音识别单元进一步配置为：采用SI声学模型对所述音频文件中的语音内容进行语音识别，以获得SI识别结果；基于所述音频文件中的语音内容对SI声学模型进行调整，从而获得SD声学模型；采用获得的SD声学模型对所述音频文件中的语音内容进行语音识别，以获得SD识别结果。

13.根据权利要求11所述的装置，其中所述语音识别单元配置为采用多种方言模型；所述结果对比单元配置为获取基于多种方言模型获得的识别结果之间的准确度对比；所述声学特征确定单元配置为，基于上述准确度对比，确定所述音频文件中语音内容的方言特征。

14.根据权利要求11所述的装置，还包括语速确定单元，配置为基于所述多个识别结果的至少一部分，确定所述音频文件中语音的语速。

15.根据权利要求11所述的装置，还包括噪声确定单元，配置为基于所述音频文件的信噪比，确定其背景噪声水平。

16.根据权利要求11所述的装置，还包括录音条件确定单元，配置为基于所述音频文件的文件属性，确定其录音条件。

17.根据权利要求11所述的装置，还包括内容特征确定单元，其包括：

文本获取模块，配置为获取与所述音频文件中的语音内容相对应的文本；

确定模块，配置为基于所述文本，确定所述音频文件的语音内容特征。

18.根据权利要求17所述的装置，其中所述确定模块配置为：

确定文本中单词的类别和各类别单词的分布；

基于上述分布，确定所述音频文件的词汇类别。

19.根据权利要求17所述的装置，其中所述确定模块配置为：

采用多种n元语言模型分析所述文本中的单词组合；

20.一种为用户推荐音频文件的装置，包括：

用户特征确定单元，配置为确定用户适合的语音特征；

文件特征获取单元，配置为获取多个音频文件各自的语音特征，所述多个音频文件各自的语音特征通过利用权利要求11-19之一的装置对所述多个音频文件进行分析而确定；

匹配单元，配置为将语音特征与所述用户适合的语音特征相匹配的音频文件推荐给所述用户。