CN104299612A

CN104299612A - 模仿音相似度的检测方法和装置

Info

Publication number: CN104299612A
Application number: CN201410628489.7A
Authority: CN
Inventors: 潘颂声; 赵乾; 王兵
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2014-11-10
Filing date: 2014-11-10
Publication date: 2015-01-21
Anticipated expiration: 2034-11-10
Also published as: CN104299612B

Abstract

本发明公开了一种模仿音相似度的检测方法，包括：获取用户输入的模仿音，并提取模仿音的语音特征；根据预设的声学模型、标准文本对模仿音的语音特征进行切分以生成模仿音的对比特征；以及根据预先建立的标准被模仿音模板对模仿音的语音特征和模仿音的对比特征进行相似度检测。根据本发明实施例的方法不仅可以体现出模仿音与标准被模仿音的准确度，还可以实现对模仿音和标准被模仿音之间的相似程度的检测，并通过节奏层面、语调层面和内容层面等多维度的相似度检测，使得检测结果更加完善、准确，提升了用户体验。本发明还公开了一种模仿音相似度的检测装置。

Description

模仿音相似度的检测方法和装置

技术领域

本发明涉及语音检测技术领域，尤其涉及一种模仿音相似度的检测方法和装置。

背景技术

目前，外语(如英语等)学习的“听、说、读、写”中，“说”有着非常重要的地位。以往由于外语“说”的好坏需要人工进行评价，导致“说”的环节实际上很少有得到实践。随着技术的发展，市场上出现了很多口语学习评估的软件，这些口语学习评估软件大多是专注于检测发音的“准确度”。例如，相关技术中的发音自动检测方法，如图1所示，该检测方法的实现方式为：首先，获取用户的模仿发音；之后，对用户的模仿语音提取语音特征；然后对用户语音利用标准文本和预先训练的标准声学模型进行强制切分；之后得到切分边界、置信度等映射特征；最后结合第二步中的语音特征和第四步中的映射特征进行映射，得到最终的发音检测结果，从而可得到用户在模仿时的发音的准确度。

但是存在的问题是，相关技术中的发音自动检测一般只专注于发音的“对不对”，而不能实现对模仿音和被模仿音之间的相似程度检测，并且也不能具体的指出模仿音不好的具体原因，从而导致用户体验变差。

发明内容

本发明的目的旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明的第一个目的在于提出一种模仿音相似度的检测方法。该方法不仅可以体现出模仿音与标准被模仿音的准确度，还可以实现对模仿音和标准被模仿音之间的相似程度的检测，并通过节奏层面、语调层面和内容层面等多维度的相似度检测，使得检测结果更加完善、准确，提升了用户体验。

本发明的第二个目的在于提出一种模仿音相似度的检测装置。

为了实现上述目的，本发明第一方面实施例的模仿音相似度的检测方法，包括：获取用户输入的模仿音，并提取所述模仿音的语音特征；根据预设的声学模型、标准文本对所述模仿音的语音特征进行切分以生成所述模仿音的对比特征；以及根据预先建立的标准被模仿音模板对所述模仿音的语音特征和所述模仿音的对比特征进行相似度检测。

根据本发明实施例的模仿音相似度的检测方法，可先获取用户输入的模仿音，之后提取该模仿音的语音特征，并根据预设的声学模型、标准文本对模仿音的语音特征进行切分以生成模仿音的对比特征，以及根据预先建立的标准被模仿音模板对模仿音的对比特征和模仿音的对比特征进行相似度检测，从而得到模仿相似度，通过上述检测方法不仅可以体现出模仿音与标准被模仿音的准确度，还可以实现对模仿音和标准被模仿音之间的相似程度的检测，并通过节奏层面、语调层面和内容层面等多维度的相似度检测，使得检测结果更加完善、准确，提升了用户体验。

为了实现上述目的，本发明第二方面实施例的模仿音相似度的检测装置，包括：提取模块，用于获取用户输入的模仿音，并提取所述模仿音的语音特征；生成模块，用于根据预设的声学模型、标准文本对所述模仿音的语音特征进行切分以生成所述模仿音的对比特征；以及检测模块，用于根据预先建立的标准被模仿音模板对所述模仿音的语音特征和所述模仿音的对比特征进行相似度检测。

根据本发明实施例的模仿音相似度的检测装置，可通过提取模块获取用户输入的模仿音，并提取模仿音的语音特征，生成模块根据预设的声学模型、标准文本对模仿音的语音特征进行切分以生成模仿音的对比特征，检测模块根据预先建立的标准被模仿音模板对模仿音的语音特征和模仿音的对比特征进行相似度检测，从而得到模仿相似度，通过上述检测装置不仅可以体现出模仿音与标准被模仿音的准确度，还可以实现对模仿音和标准被模仿音之间的相似程度的检测，并通过节奏层面、语调层面和内容层面等多维度的相似度检测，使得检测结果更加完善、准确，提升了用户体验。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中，

图1是现有技术中的发音自动检测方法的流程图；

图2是根据本发明一个实施例的模仿音相似度的检测方法的流程图；

图3是根据本发明一个实施例的建立标准被模仿音模板的流程图；

图4是根据本发明一个实施例的模仿音相似度的检测方法的示例图；

图5是根据本发明一个实施例的模仿音相似度的检测装置的结构示意图；

图6是根据本发明另一个实施例的模仿音相似度的检测装置的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

为了解决相关技术中的发音自动检测一般只专注于发音的“对不对”，而不能实现对模仿音和被模仿音之间的相似程度检测等的问题，本发明提出了一种模仿音相似度的检测方法和装置。具体地，下面参考附图描述本发明实施例的模仿音相似度的检测方法和装置。

图2是根据本发明一个实施例的模仿音相似度的检测方法的流程图。如图2所示，该模仿音相似度的检测方法可以包括：

S201，获取用户输入的模仿音，并提取模仿音的语音特征。

其中，在本发明的实施例中，模仿音可理解为用户模仿某个标准音时的发音。举例而言，假设本发明实施例的模仿音相似度的检测方法应用于具有检测功能的应用程序上，用户可通过该应用程序输入(或录制)该用户模仿某个标准音时的发音，当检测到用户输入结束时，可先获取用户输入的模仿音，之后可对用户输入的模仿音进行提取以提取该模仿音中的语音特征，如模仿音中的音频等。其中，在本发明的实施例中，语音特征提取可通过现有技术中的提取方法进行提取，具体的提取方法本发明不做限定。此外，模仿音的语音特征可包括与模仿音的语音特征对应的基频。

S202，根据预设的声学模型、标准文本对模仿音的语音特征进行切分以生成模仿音的对比特征。

其中，在本发明的实施例中，预设的声学模型为现有技术的语音识别系统中的声学模型，例如，预设的声学模型可为隐马尔可夫模型(Hidden Markov Model，HMM)、或高斯混合模型(Gaussian Mixture Model，GMM)等。此外，标准文本可理解为标准被模仿音对应的标准文本，标准被模仿音可理解为按照标准文本读出来的标准发音。

另外，在本发明的实施例中，模仿音的对比特征可包括第一切分边界及对应的置信度等。第一切分边界可理解为模仿音中每两个音素之间的时间间隔。

具体地，可将预设的声学模型、标准文本和模仿音的语音特征送入到解码器以进行强制切分，切分之后可得到模仿音中的语音与标准文本中的文本的对应关系，根据该对应关系可得到模仿音中的第一切分边界及对应的置信度等对比特征。

S203，根据预先建立的标准被模仿音模板对模仿音的语音特征和模仿音的对比特征进行相似度检测。

具体地，将模仿音的语音特征和模仿音的对比特征与预先建立的标准被模仿音模板进行相似度比对，并根据比对结果得到模仿相似度。具体的实现过程可参照后续实施例的详细描述。

其中，在本发明的一个实施例中，如图3所示，标准被模仿音模板可通过以下步骤建立：

S301，录制标准被模仿音，并提取标准被模仿音的标准语音特征。

其中，在本发明的实施例中，标准被模仿音可理解为按照标准文本读出来的标准发音。此外，在本发明的实施例中，标准被模仿音的标准语音特征可通过现有技术中的提取方法进行提取，具体的提取方法本发明不做限定。标准语音特征可包括与标准被模仿音的标准语音特征对应的基频。

S302，根据预设的声学模型、标准文本对标准被模仿音的标准语音特征进行切分以生成标准被模仿音的标准对比特征。

其中，在本发明的实施例中，预设的声学模型为现有技术的语音识别系统中的声学模型，例如，预设的声学模型可为隐马尔可夫模型(HMM)、或高斯混合模型(GMM)等。此外，标准文本可理解为标准被模仿音对应的标准文本。

另外，在本发明的实施例中，标准被模仿音的标准对比特征可包括第二切分边界及对应的置信度等。第二切分边界可理解为标准被模仿音中每两个音素之间的时间间隔。

具体地，可将预设的声学模型、标准文本和标准被模仿音的标准语音特征送入到解码器以进行强制切分，切分之后可得到标准被模仿音中的语音与标准文本中的文本的对应关系，根据该对应关系可得到标准被模仿音中的第二切分边界及对应的置信度等标准对比特征。

S303，根据标准文本、标准被模仿音的标准语音特征、标准被模仿音的标准对比特征建立标准被模仿音模板。

具体地，可将标准文本、标准被模仿音的标准语音特征、上述步骤S302中对标准被模仿音的标准语音特征进行切分的切分结果以及标准对比特征保存在一个文件中，以作为标准被模仿音模板。

由此，通过标准被模仿音建立标准被模仿音模板，以便模仿音与标准被模仿音模板中的标准被模仿音进行相似度检测。

其中，为了提升相似度检测的精确度和扩展相似度的检测范围，可分别通过模仿音和标准被模仿音的语音特征和对比特征进行多维度的相似度检测，多维度可理解为节奏层面、语调层面和内容层面等，因此，在本发明的一个实施例中，相似度检测可包括节奏相似度检测、语调相似度检测和内容相似度检测等中的一种或多种。

具体而言，在本发明的实施例中，根据预先建立的标准被模仿音模板对模仿音的语音特征和模仿音的对比特征进行相似度检测(即上述步骤S203)可包括：根据预先建立的标准被模仿音模板对模仿音的语音特征和模仿音的对比特征进行节奏相似度检测；和/或根据预先建立的标准被模仿音模板对模仿音的语音特征和模仿音的对比特征进行语调相似度检测；和/或根据预先建立的标准被模仿音模板对模仿音的语音特征和模仿音的对比特征进行内容相似度检测。

具体地，下面将分别对节奏相似度检测、语调相似度检测和内容相似度检测的检测过程进行详细描述。

(1)节奏相似度检测

在本发明的实施例中，根据预先建立的标准被模仿音模板对模仿音的语音特征和模仿音的对比特征进行节奏相似度检测可具体包括：根据第一切分边界获取模仿音中每个音素的发音时长，并根据第二切分边界获取标准被模仿音中每个音素的发音时长；将模仿音中每个音素的发音时长与标准被模仿音中每个音素的发音时长进行相似度检测以生成节奏相似度。

具体地，由上述步骤S202和步骤S302的强制切分，可分别得到标准被模仿音和模仿音的切分边界。根据标准被模仿音和模仿音的切分边界(即第一切分边界和第二切分边界)，可分别得到标准被模仿音和模仿音中的每一个音素的发音时长，之后，可将模仿音中每个音素的发音时长与标准被模仿音中每个音素的发音时长进行比对以得到音素时长相似度。之后，可根据音素时长相似度可以得到多层次的节奏相似度(如单词内音素的节奏相似度和句子内单词的节奏相似度等)，最后根据该多层次的节奏相似度及其相应的权重进行计算以得到最终的节奏相似度。

(2)语调相似度检测

在本发明的实施例中，根据预先建立的标准被模仿音模板对模仿音的语音特征和模仿音的对比特征进行语调相似度检测可具体包括：分别根据第一切分边界和第二切分边界获取模仿音中每个音素对应的基频数据段和标准被模仿音中每个音素对应的基频数据段；将模仿音中每个音素对应的基频数据段与标准被模仿音中每个音素对应的基频数据段进行相似度检测以生成语调相似度。

具体地，应当理解，语调是一句话里声调的高低抑扬轻重的配置和变化。为了对比语调，可从提取语音特征中提取基频(pitch)。由于清音不存在基频，所以提取到的基频数据会是断断续续的。如果此时直接用现有技术中的一些度量对比算法(比如DTW(DynamicTime Warping，动态时间归整)算法)进行度量，就会出现因为不整齐而导致实际效果很差。因此，为了提高检测结果的准确率，本发明可将切分边界引入到后续的相似度对比中。具体地，分别利用第一切分边界和第二切分边界，找到模仿音中和标准被模仿音中对应音素的持续范围，进而找到对应的基频数据段。之后，对每一份对应的基频段进行相似度量(例如DTW算法)，就得到了每个音素基频的相似程度。然后，根据单个音素基频相似度，可得到多层次的语调相似度(如单词内音素的语调相似度和句子内单词的语调相似度等)，最后根据一定的权重得到整个语调相似度。特别的，在英语中末尾语调的重要程度远大于其他位置，故而可适当的增加末尾词语语调相似度在总体语调相似度中的权重。

(3)内容相似度检测

在本发明的实施例中，根据预先建立的标准被模仿音模板对模仿音的语音特征和模仿音的对比特征进行内容相似度检测可具体包括：通过预设的编辑距离计算方法将模仿音的语音特征与标准语音特征进行内容对比，并通过预设的编辑距离计算方法将模仿音的对比特征与标准对比特征进行内容对比以生成内容相似度。

具体地，由解码器可得到模仿发音和被模仿发音的识别结果(即上述步骤S202和步骤S302所得到的切分结果)，之后可通过预设的编辑距离计算方法对这两个识别结果进行内容上的对比以得到内容相似程度。其中，在本发明的实施例中，内容相似度的计算方法不限于预设的编辑距离计算方法，还可通过其他现有技术中的计算方法以计算出模仿发音和被模仿发音的识别结果的内容相似度。

由此，根据得到的节奏相似度、语调相似度和内容相似度经过一定的加权映射融合，可得到最终的模仿相似度。应当理解，由于根据节奏相似度、语调相似度和内容相似度的检测可得到每个音素、单词、句子的节奏、语速相似度，所以可将相似度比较低的单词、句子单独突出显示出来以提供至用户，使得用户能够了解自己发音不好的原因，从而使得用户能够更有针对性的去练习、改进。

可选的，在本发明的一个实施例中，还可根据模仿相似度的检测结果生成建议信息，并将该建议信息提供至用户，以便用户更加直观的了解到自己的不足，从而提升了用户体验。

为了使得本领域的技术人员能够更加了解本发明，下面将举例说明本发明。

举例而言，如图4所示，首先，可预先建立标准被模仿音模板，以便对获取到的模仿音进行相似度检测。其中，如图4所示，该标准被模仿音模板可通过以下步骤进行建立：可先获取标准被模仿音，并提取标准被模仿音中的标准语音特征；之后，可将标准文本、预设的声学模型和标准被模仿音中的标准语音特征送入到解码器以进行强制切分，从而得到标准被模仿音的标准对比特征。之后，当获取到用户输入的模仿音时，可先对该模仿音进行提取以得到对应的语音特征。然后，可将标准文本、预设的声学模型和语音特征送入到解码器以进行强制切分，从而得到模仿音的对比特征。之后，可分别将模仿音中的语音特征、对比特征与标准被模仿音中的标准语音特征、标准对比特征进行比对，得到节奏相似度和/或语调相似度和/或内容相似度等。最后，可根据得到的节奏相似度、语调相似度和内容相似度经过一定的加权映射融合，得到最终的模仿相似度，还可将对比检测结果反馈给用户，以供用户参考。

与上述几种实施例提供的模仿音相似度的检测方法相对应，本发明的一种实施例还提供一种模仿音相似度的检测装置，由于本发明实施例提供的模仿音相似度的检测装置与上述几种实施例提供的模仿音相似度的检测方法相对应，因此在前述模仿音相似度的检测方法的实施方式也适用于本实施例提供的模仿音相似度的检测装置，在本实施例中不再详细描述。图5是根据本发明一个实施例的模仿音相似度的检测装置的结构示意图。如图5所示，该模仿音相似度的检测装置可以包括：提取模块10、生成模块20和检测模块30。

具体地，提取模块10可用于获取用户输入的模仿音，并提取模仿音的语音特征。其中，在本发明的实施例中，模仿音可理解为用户模仿某个标准音时的发音。此外，语音特征提取可通过现有技术中的提取方法进行提取，具体的提取方法本发明不做限定。模仿音的语音特征可包括与模仿音的语音特征对应的基频。

生成模块20可用于根据预设的声学模型、标准文本对模仿音的语音特征进行切分以生成模仿音的对比特征。其中，在本发明的实施例中，预设的声学模型为现有技术的语音识别系统中的声学模型，例如，预设的声学模型(HMM)可为隐马尔可夫模型、或高斯混合模型(GMM)等。此外，标准文本可理解为标准被模仿音对应的标准文本，标准被模仿音可理解为按照标准文本读出来的标准发音。另外，在本发明的实施例中，模仿音的对比特征可包括第一切分边界及对应的置信度等。第一切分边界可理解为模仿音中每两个音素之间的时间间隔。

检测模块30可用于根据预先建立的标准被模仿音模板对模仿音的语音特征和模仿音的对比特征进行相似度检测。

进一步的，在本发明的一个实施例中，如图6所示，该模仿音相似度的检测装置还可包括建立模块40。建立模块40可用于预先建立标准被模仿音模板。其中，在本发明的实施例中，如图6所示，该建立模块40可包括提取单元41、生成单元42和建立单元43。

具体地，提取单元41可用于录制标准被模仿音，并提取标准被模仿音的标准语音特征。其中，在本发明的实施例中，标准被模仿音可理解为按照标准文本读出来的标准发音。此外，在本发明的实施例中，标准被模仿音的标准语音特征可通过现有技术中的提取方法进行提取，具体的提取方法本发明不做限定。标准语音特征可包括与标准被模仿音的标准语音特征对应的基频。

生成单元42可用于根据预设的声学模型、标准文本对标准被模仿音的标准语音特征进行切分以生成标准被模仿音的标准对比特征。其中，在本发明的实施例中，预设的声学模型为现有技术的语音识别系统中的声学模型，例如，预设的声学模型可为隐马尔可夫模型(HMM)、或高斯混合模型(GMM)等。此外，标准文本可理解为标准被模仿音对应的标准文本。

建立单元43可用于根据标准文本、标准被模仿音的标准语音特征、标准被模仿音的标准对比特征建立标准被模仿音模板。

具体地，在本发明的实施例中，检测模块30可具体用于：根据预先建立的标准被模仿音模板对模仿音的语音特征和模仿音的对比特征进行节奏相似度检测；和/或根据预先建立的标准被模仿音模板对模仿音的语音特征和模仿音的对比特征进行语调相似度检测；和/或根据预先建立的标准被模仿音模板对模仿音的语音特征和模仿音的对比特征进行内容相似度检测。

具体而言，在本发明的实施例中，检测模块30可具体用于：根据第一切分边界获取模仿音中每个音素的发音时长，并根据第二切分边界获取标准被模仿音中每个音素的发音时长；将模仿音中每个音素的发音时长与标准被模仿音中每个音素的发音时长进行相似度检测以生成节奏相似度。具体的实现过程可参照上述方法的对应描述，在此不再赘述。

在本发明的实施例中，检测模块30可具体用于：分别根据第一切分边界和第二切分边界获取模仿音中每个音素对应的基频数据段和标准被模仿音中每个音素对应的基频数据段；将模仿音中每个音素对应的基频数据段与标准被模仿音中每个音素对应的基频数据段进行相似度检测以生成语调相似度。具体的实现过程可参照上述方法的对应描述，在此不再赘述。

在本发明的实施例中，检测模块30可具体用于：将模仿音的语音特征与标准语音特征进行内容对比，并将模仿音的对比特征与标准对比特征进行内容对比以生成内容相似度。具体的实现过程可参照上述方法的对应描述，在此不再赘述。

在本发明的描述中，需要理解的是，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种模仿音相似度的检测方法，其特征在于，包括以下步骤：

获取用户输入的模仿音，并提取所述模仿音的语音特征；

根据预设的声学模型、标准文本对所述模仿音的语音特征进行切分以生成所述模仿音的对比特征；以及

根据预先建立的标准被模仿音模板对所述模仿音的语音特征和所述模仿音的对比特征进行相似度检测。

2.如权利要求1所述的模仿音相似度的检测方法，其特征在于，所述标准被模仿音模板通过以下步骤建立：

录制标准被模仿音，并提取所述标准被模仿音的标准语音特征；

根据所述预设的声学模型、所述标准文本对所述标准被模仿音的标准语音特征进行切分以生成所述标准被模仿音的标准对比特征；

根据所述标准文本、所述标准被模仿音的标准语音特征、所述标准被模仿音的标准对比特征建立所述标准被模仿音模板。

3.如权利要求1所述的模仿音相似度的检测方法，其特征在于，所述相似度检测包括节奏相似度检测、语调相似度检测和内容相似度检测中的一种或多种；

所述根据预先建立的标准被模仿音模板对所述模仿音的语音特征和所述模仿音的对比特征进行相似度检测包括：

根据所述预先建立的标准被模仿音模板对所述模仿音的语音特征和所述模仿音的对比特征进行节奏相似度检测；和/或

根据所述预先建立的标准被模仿音模板对所述模仿音的语音特征和所述模仿音的对比特征进行语调相似度检测；和/或

根据所述预先建立的标准被模仿音模板对所述模仿音的语音特征和所述模仿音的对比特征进行内容相似度检测。

4.如权利要求2所述的模仿音相似度的检测方法，其特征在于，其中，所述对比特征包括第一切分边界；所述标准对比特征包括第二切分边界；所述语音特征和所述标准语音特征分别包括对应的基频。

5.如权利要求4所述的模仿音相似度的检测方法，其特征在于，所述根据所述预先建立的标准被模仿音模板对所述模仿音的语音特征和所述模仿音的对比特征进行节奏相似度检测具体包括：

根据所述第一切分边界获取所述模仿音中每个音素的发音时长，并根据所述第二切分边界获取所述标准被模仿音中每个音素的发音时长；

将所述模仿音中每个音素的发音时长与所述标准被模仿音中每个音素的发音时长进行相似度检测以生成节奏相似度。

6.如权利要求4所述的模仿音相似度的检测方法，其特征在于，所述根据所述预先建立的标准被模仿音模板对所述模仿音的语音特征和所述模仿音的对比特征进行语调相似度检测具体包括：

分别根据所述第一切分边界和所述第二切分边界获取所述模仿音中每个音素对应的基频数据段和所述标准被模仿音中每个音素对应的基频数据段；

将所述模仿音中每个音素对应的基频数据段与所述标准被模仿音中每个音素对应的基频数据段进行相似度检测以生成语调相似度。

7.如权利要求2所述的模仿音相似度的检测方法，其特征在于，所述根据所述预先建立的标准被模仿音模板对所述模仿音的语音特征和所述模仿音的对比特征进行内容相似度检测具体包括：

通过预设的编辑距离计算方法将所述模仿音的语音特征与所述标准语音特征进行内容对比，并通过所述预设的编辑距离计算方法将所述模仿音的对比特征与所述标准对比特征进行内容对比以生成内容相似度。

8.一种模仿音相似度的检测装置，其特征在于，包括：

提取模块，用于获取用户输入的模仿音，并提取所述模仿音的语音特征；

生成模块，用于根据预设的声学模型、标准文本对所述模仿音的语音特征进行切分以生成所述模仿音的对比特征；以及

检测模块，用于根据预先建立的标准被模仿音模板对所述模仿音的语音特征和所述模仿音的对比特征进行相似度检测。

9.如权利要求8所述的模仿音相似度的检测装置，其特征在于，还包括：

建立模块，用于预先建立所述标准被模仿音模板；

所述建立模块包括：

提取单元，用于录制标准被模仿音，并提取所述标准被模仿音的标准语音特征；

生成单元，用于根据所述预设的声学模型、所述标准文本对所述标准被模仿音的标准语音特征进行切分以生成所述标准被模仿音的标准对比特征；

建立单元，用于根据所述标准文本、所述标准被模仿音的标准语音特征、所述标准被模仿音的标准对比特征建立所述标准被模仿音模板。

10.如权利要求8所述的模仿音相似度的检测装置，其特征在于，所述相似度检测包括节奏相似度检测、语调相似度检测和内容相似度检测中的一种或多种；

所述检测模块具体用于：

11.如权利要求9所述的模仿音相似度的检测装置，其特征在于，其中，所述对比特征包括第一切分边界；所述标准对比特征包括第二切分边界；所述语音特征和所述标准语音特征分别包括对应的基频。

12.如权利要求11所述的模仿音相似度的检测装置，其特征在于，所述检测模块具体用于：

13.如权利要求11所述的模仿音相似度的检测装置，其特征在于，所述检测模块具体用于：

14.如权利要求9所述的模仿音相似度的检测装置，其特征在于，所述检测模块具体用于：