CN109102824A

CN109102824A - 基于人机交互的语音纠错方法和装置

Info

Publication number: CN109102824A
Application number: CN201810735231.5A
Authority: CN
Inventors: 王志伟; 陈孟阳; 邓澍军
Original assignee: Beijing Bit Intelligence Technology Co Ltd
Current assignee: Beijing Bit Intelligence Technology Co Ltd
Priority date: 2018-07-06
Filing date: 2018-07-06
Publication date: 2018-12-28
Anticipated expiration: 2038-07-06
Also published as: CN109102824B

Abstract

本申请是关于一种基于人机交互的语音纠错方法和装置，其中方法包括：获取用户当前输入的第一语音数据；对第一语音数据进行解析，确定第一语音数据对应的目标语音数据；将第一语音数据与目标语音数据进行比对，确定第一语音数据中的目标词语；播放目标词语对应的标准语音。本申请方法实现了通过将用户语音与标准语音数据进行比较，对用户语音中发音不准确的语音数据进行主动纠正，使得用户的发音更准确，不仅提高了用户学习效率和针对性，还能改善用户体验。

Description

基于人机交互的语音纠错方法和装置

技术领域

本申请涉及语音处理技术领域，特别涉及一种基于人机交互的语音纠错方法和装置。

背景技术

语言是人类最重要的交际工具，是人们进行沟通的主要表达方式。比如，英语，为使用频率较高的通用语的主导。然而，由于不同国家具有不同的发音特色，使得不同国籍的用户在利用英语进行交流时存在障碍。因此，为了提高用户的英语发音，改善不同国籍用户间的交流障碍，当用户语音偏离目标语音规范一定范围时，对用户的英语发音进行纠正显得格外重要。

在实际应用过程中，用户通常是利用音频资料进行反复练习或者跟读的方式进行发音纠正，但是由于在跟读过程中，容易出现发音不准、自己也无法对不准确的音调、音长以及音高进行有效纠正，长此以往，容易造成用户英语口语较差，出现更多的地方式英语，从而影响用户的英语交流，降低了用户使用体验。

申请内容

本申请旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本申请一方面实施例提供一种基于人机交互的语音纠错方法，该方法包括：获取用户当前输入的第一语音数据；对所述第一语音数据进行解析，确定所述第一语音数据对应的目标语音数据；将所述第一语音数据与所述目标语音数据进行比对，确定所述第一语音数据中的目标词语；播放所述目标词语对应的标准语音。

本申请另一方面实施例提供一种基于人机交互的语音纠错装置，该装置包括：第一获取模块，用于获取用户当前输入的第一语音数据；第一确定模块，用于对所述第一语音数据进行解析，确定所述第一语音数据对应的目标语音数据；第二确定模块，用于将所述第一语音数据与所述目标语音数据进行比对，确定所述第一语音数据中的目标词语；播放模块，用于播放所述目标词语对应的标准语音。

本申请又一方面实施例提供一种计算机设备，该计算机设备包括：存储器及处理器，所述存储器存储有计算机程序，当所述处理器执行所述程序时，实现所述的基于人机交互的语音纠错方法。

本申请再一方面实施例提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时，实现所述的基于人机交互的语音纠错方法。

本申请实施例提供的基于人机交互的语音纠错方法和装置，通过获取用户当前输入的第一语音数据，以对第一语音数据进行解析，确定第一语音数据对应的目标语音数据，并将第一语音数据与目标语音数据进行比对，确定出与第一语音数据中的目标词语，然后播放目标词语对应的标准语音。由此，实现了通过将用户语音与标准语音数据进行比较，对用户语音中发音不准确的语音数据进行主动纠正，使得用户的发音更准确，不仅提高了用户学习效率和针对性，还能改善用户体验。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。

图1是根据本申请一示例性实施例示出的基于人机交互的语音纠错方法的流程示意图；

图2是根据本申请一示例性实施例示出的基于人机交互的语音纠错方法的流程示意图；

图3是根据本申请一示例性实施例示出的基于人机交互的语音纠错方法的流程示意图；

图4是根据本申请一示例性实施例示出的基于人机交互的语音纠错装置的结构示意图；

图5是根据本申请一示例性实施例示出的基于人机交互的语音纠错装置的结构示意图；

图6是根据本申请一示例性实施例示出的计算机设备的结构示意图；

图7是根据本申请一示例性实施例示出的计算机设备的结构示意图。

通过上述附图，已示出本申请明确的实施例，后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本申请构思的范围，而是通过参考特定实施例为本领域技术人员说明本申请的概念。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

本申请各实施例针对相关技术中，用户利用音频资料进行反复练习或者跟读的方式，对英语发音进行纠正时，由于跟读过程中，容易出现发音不准，自己也无法对不准确的音调、音长以及音高进行有效纠正，长此以往，容易造成用户英语口语较差，出现更多的地方式英语，从而影响用户的英语交流，降低了用户使用体验的问题，提出一种基于人机交互的语音纠错方法。

本申请实施例提供的基于人机交互的语音纠错方法，通过获取用户当前输入的第一语音数据，以对第一语音数据进行解析，确定第一语音数据对应的目标语音数据，并将第一语音数据与目标语音数据进行比对，确定出与第一语音数据中的目标词语，然后播放目标词语对应的标准语音。由此，实现了通过将用户语音与标准语音数据进行比较，对用户语音中发音不准确的语音数据进行主动纠正，使得用户的发音更准确，不仅提高了用户学习效率和针对性，还能改善用户体验。

下面结合附图，对本申请提供的基于人机交互的语音纠错方法和装置进行详细说明。

首先结合图1，对本申请实施例提供的基于人机交互的语音纠错方法进行详细说明。

图1是根据本申请一示例性实施例示出的基于人机交互的语音纠错方法的流程示意图。

如图1所示，该基于人机交互的语音纠错方法可以包括以下步骤：

步骤101，获取用户当前输入的第一语音数据。

可选的，本申请实施例提供的基于人机交互的语音纠错方法，可以由本申请实施例提供的计算机设备执行。其中，计算机设备中设置有基于人机交互的语音纠错装置，以通过基于人机交互的语音纠错装置对用户输入的语音数据进行纠错管理或控制。本实施例计算机设备可以是任一具有数据处理功能的硬件设备，比如智能手机、电脑、个人数字助理等等。

其中，第一语音数据可以是用户根据计算机设备提供的素材，通过麦克风输入的语音数据。

在本申请一种可选的实现形式中，可以通过以下方式，获取用户当前输入的第一语音数据：

作为第一种实现方式

获取用户根据已播放的示例语句，跟读的第一语音数据。

其中，在本实施例中已播放的示例语句，可以是任一类型的句子，比如简单句、并列句、复合句等等，此处对其不作具体限定。

可以理解的是，本申请为了更具有针对性的对用户语音数据进行纠正，可以先向用户播放简单句的示例语句，以使计算机设备可以从基础语句，对用户的语音数据进行纠正。

例如，计算机设备通过话筒播放“This is apple”，此时用户可以跟读“This isapple”。

作为第二种实现方式

获取用户针对已播放的问题语句，回答的第一语音数据。

例如，计算机设备通过话筒播放“what is this”，此时用户可以根据自己的理解对上述问题进行作答，比如“An apple”。

需要说明的是，为了方便用户能够更好的理解问题语句，本申请在播放问题语句时，还可通过计算机设备的显示界面同步向用户显示对应的图片信息，以使用户根据图片信息及问题语句进行作答，从而不仅提高用户与计算机设备的交互性，还能提高用户的学习兴趣。

步骤102，对第一语音数据进行解析，确定第一语音数据对应的目标语音数据。

可选的，在获取到用户当前输入的第一语音数据之后，计算机设备可对第一语音数据进行解析，确定出与第一语音数据对应的目标语音数据。

在实际应用过程中，为了能够对用户的第一语句数据进行准确纠正，在向用户播放示例语句或者问题语句时，本申请计算机设备可以自动生成与示例性语句对应的候选语音数据，或者，与问题语句对应的所有问答语句的候选语音数据，从而使得在获取到用户输入的第一语句数据之后，能够根据第一语音数据确定出对应的目标语音数据。

即步骤102，还可以包括：根据示例语句或者问题语句，确定各候选语音数据；

根据第一语音数据与各候选语音数据的匹配度，确定目标语音数据。

其中，在本实施例中可以通过以下方式中的任意一种或多种，确定与第一语音数据对应的目标语音数据：

方式一：

根据第一语音数据的结构与各候选语音数据的结构的相似度，确定目标语音数据。

其中，语音数据的结构可以包括：主谓结构、主谓宾结构、主系表结构、主谓宾补结构等等，此处对其不作具体限定。

在本实施例中，相似度可以根据实际应用需求进行适应性设置，比如：85％、88％、90％、95％等等。

例如，若第一语音数据：“The boy comes from America”，为主谓宾结构、相似度阈值为95％，那么计算机设备可将第一语音数据的结构与各候选语音数据对应的结构依次进行匹配，当第一语音数据的结构与第2个候选语音数据对应的结构相似度超过95％时，则可以将第2个候选语音数据确定为目标语音数据。

方式二：

根据第一语音数据对应的时间长度与各候选语音数据对应的时间长度的匹配度，确定目标语音数据。

其中，匹配度可以根据实际应用进行适应性设置，比如0.9、0.98等等。

由于在实际应用中，用户讲话内容可长可短。对应的，当用户讲话内容比较长时，需要花费的时间也就比较长，当用户讲话内容比较短时，需要花费的时间就比较短。

因此，本实施例可以根据获取的第一语音数据对应的时间长度，与各候选语音数据对应的时间长度依次进行匹配操作，以确定是否存在任意候选语音数据对应的时间长度与第一语音数据对应的时间长度匹配度超过阈值，当存在则将上述候选语音数据作为目标语音数据。

方式三：

根据第一语音数据包括的词语数量与各候选语音数据包括的词语数量的匹配度，确定目标语音数据。

举例来说，若有4个候选语音数据，那么当第一语音数据为Summer is coming，则可以首先确定出第一语音数据包括3个词语，那么通过将包括3个词语数量的第一语音数据依次与上述4个候选语音数据进行匹配操作，若第3个候选语音数据包括的词语数量与第一语音数据的匹配度达到1时，则将第3个候选语音数据，确定为目标语音数据。

需要说明的是，本实施例通过上述多种方式确定目标语音数据时，可以是通过单独实施各确定方式，确定目标语音数据。例如，根据第一语音数据的结构与各候选语音数据的结构的匹配度，确定目标语音数据；或者，根据第一语音数据对应的时间长度与各候选语音数据对应的时间长度的匹配度，确定目标语音数据；或者，根据第一语音数据包括的词语数量与各候选语音数据包括的词语数量的匹配度，确定目标语音数据。

也可以是通过两两结合的方式，确定目标语音数据。例如，根据第一语音数据的结构与各候选语音数据的结构的匹配度，和第一语音数据对应的时间长度与各候选语音数据对应的时间长度的匹配度，确定目标语音数据；或者，根据第一语音数据的结构与各候选语音数据的结构的匹配度，和所述第一语音数据包括的词语数量与所述各候选语音数据包括的词语数量的匹配度，确定目标语音数据；或者，根据所述第一语音数据对应的时间长度与所述各候选语音数据对应的时间长度的匹配度，和所述第一语音数据包括的词语数量与所述各候选语音数据包括的词语数量的匹配度，确定目标语音数据。

当然还可以是将三者进行结合，确定目标语音数据。例如，根据所述第一语音数据的结构与所述各候选语音数据的结构的匹配度、所述第一语音数据对应的时间长度与所述各候选语音数据对应的时间长度的匹配度、以及所述第一语音数据包括的词语数量与所述各候选语音数据包括的词语数量的匹配度，确定目标语音数据，此处对其不作具体限定。

步骤103，将第一语音数据与目标语音数据进行比对，确定第一语音数据中的目标词语。

可选的，在确定出与第一语音数据对应的目标语音数据之后，计算机设备可将第一语音数据与目标语音数据进行比对，确定出第一语音数据中的发音不准确的目标词语。

在本申请的一种可选实现方式中，可以通过长短期记忆网络(Long Short-TermMemory，简称为：LSTM)和联结主义时间分类器(Connectionist temporalclassification，简称为：CTC)构建语音识别模型，以利用上述语音识别模型对目标语音数据中每个词语均进行识别，然后再根据识别的结果对第一语音数据中发音不准确的词语进行有效识别。

步骤104，播放目标词语对应的标准语音。

在本实施例中，当确定出第一语音数据中发音不准确的目标词语时，计算机设备可将目标词语的标准语音向用户进行自动播放，以使用户能够根据标准语音纠正自己的发音，从而使得用户能够及时发现自身发音问题，有效提升发音的准确性。

本申请实施例提供的基于人机交互的语音纠错方法，通过获取用户当前输入的第一语音数据，以对第一语音数据进行解析，确定第一语音数据对应的目标语音数据，并将第一语音数据与目标语音数据进行比对，确定出与第一语音数据中的目标词语，然后播放目标词语对应的标准语音。由此，实现了通过将用户语音与标准语音数据进行比较，对用户语音中发音不准确的语音数据进行主动纠正，使得用户的发音更准确，不仅提高了学习效率和针对性，还能改善用户体验。

通过上述分析可知，本申请通过将第一语音数据与目标语音数据进行比对，确定发音不准确的目标词语，从而使得计算机设备根据第一语音数据中发音不准确目标词语，播放目标词语对应的标准语音，以对用户的发音进行纠正。

在一种可选的实现形式中，由于用户在跟读示例语句或者回答了问题语句之后，有可能继续输入其它语音数据，比如询问发音是否正确等语音数据，这就可能导致计算机设备无法根据用户输入的语音数据，对第一语音数据进行准确识别。对此，为了避免上述情况的发生，本申请在向用户播放示例语句或者问题语句时，自动生成与示例语句或者问题语句的各候选语音数据，并通过对各候选语音数据进行分析，确定出示例语句或者问题语句对应的结束词语集，从而在获取用户输入的语音数据时，通过结束词语集对第一语音数据进行准确判断。下面结合图2，对本申请基于人机交互的语音纠错方法的上述过程进行具体说明。

如图2所示，该基于人机交互的语音纠错方法可以包括以下步骤：

步骤201，根据已播放的示例语句或问题语句，确定各候选语音数据。

其中，当向用户播放的是示例性语句时，那么用户输入的语音数据则与示例性语句相同，即计算机设备可以确定候选语音数据即为示例性语句。

当向用户播放的是问题语句时，那么计算机设备可以根据问题语句，分析出用户可能回答的所有候选语音数据。

也就是说，本实施例中，当播放的是示例性语句时，确定的候选语音数据是唯一的，当播放的是问题语句时，确定的候选语音数据可以包括多个。

例如，若向用户播放的是问题语句：Where are you from，那么可以根据问题语句确定出用户可能回答的所有候选语音数据为：I'm from AA、I come from BB、CC。

步骤202，根据各候选语音数据，确定第一语音数据对应的结束词语集。

可选的，当确定出与跟读语句或者问题语句对应的各候选语音数据之后，本实施例可以通过分析各候选语音数据，对第一语音数据对应的结束词语集进行确定。

继续以步骤201中的示例进行说明，根据问题语句：Where are you from，可以确定出所有候选语音数据为：I'm from AA、I come from BB、CC，且各候选语音数据中均出现地名，则可以将各候选语音数据中AA、BB、CC确定为第一语音数据对应的结束词语集。

步骤203，在检测到用户输入的词语为结束词语集中的词语时，将已获取的语音数据确定为第一语音数据。

可选的，当用户根据已播放的示例语句或者问题语句，输入对应的语音数据之后，计算机设备可根据步骤202中确定的结束词语集，对用户输入的语音数据进行分析处理，以确定出用户当前输入的第一语音数据。

例如，用户输入“I'm from AA，What do I say？”，那么计算机设备可以根据预先确定的结束词语集，对用户输入的语音数据进行分析，若结束词语集中包括AA、BB、CC、DD，那么当确定出用户输入的语音数据中首次出现AA时，则可以确定第一语音数据结束，从而将AA之前的所有词语，作为用户输入的第一语音数据，即“I'm from AA”。

步骤204，对第一语音数据进行解析，确定第一语音数据对应的目标语音数据。

步骤205，将第一语音数据与目标语音数据进行比对，以确定第一语音数据中的目标词语。

步骤206，播放目标词语对应的标准语音。

其中，上述步骤204-206的具体实现过程及原理，可以参照上述实施例的详细描述，此处不再赘述。

本申请实施例提供的基于人机交互的语音纠错方法，通过根据播放的示例性语句或者问题语句，确定各候选语音数据，进而根据各候选语音数据，对第一语音数据对应的结束词语集进行确定，当检测到用户输入的词语为结束词语集中的词语时，将已获取的语音数据确定为第一语音数据，然后通过对确定的第一语音数据进行解析，确定第一语音数据对应的目标语音数据，以将第一语音数据与目标语音数据进行比对，确定第一语音数据中的目标词语，然后播放目标词语对应的标准语音。由此，通过结束词语集对用户输入的第一语音数据进行准确识别，从而将用户语音与标准语音数据进行比较，对用户语音中发音不准确的语音数据进行主动纠正，使得用户的发音更准确，不仅提高了学习效率和针对性，还能改善用户体验。

通过上述分析可知，本申请实施例通过确定的结束词语集，对用户输入的第一语音数据进行确定，从而将第一语音数据与目标语音数据进行比对，确定第一语音数据中的目标词语，并播放目标词语对应的标准语音。在具体播放目标词语对应的标准语音时，本申请还可以先确定目标词语对应的标准语音的播放模式，以根据确定的播放模式，播放目标词语对应的标准语音。下面结合图3，对本申请基于人机交互的语音纠错方法的上述过程进行具体说明。

图3是根据本申请一示例性实施例示出的基于人机交互的语音纠错方法的流程示意图。

如图3所示，该基于人机交互的语音纠错方法可以包括以下步骤：

步骤301，获取用户当前输入的第一语音数据。

步骤302，对第一语音数据进行解析，确定第一语音数据对应的目标语音数据。

需要说明的是，上述步骤301-302的具体实现过程及原理，可以参照上述实施例的详细描述，此处不再赘述。

步骤303，将第一语音数据与目标语音数据进行比对，确定第一语音数据中的目标词语的错误程度。

其中，目标词语的错误程度，可以是指轻微的发音不准确，或者，严重错误，比如第一语音数据中没有与目标语音数据对应的目标词语等等。

步骤304，根据目标词语的错误程度，确定目标词语对应的标准语音的播放模式。

在本实施例中，根据目标词语的错误程度，确定的标准语音的播放模式可以包括，但不限于：确定标准语音的播放次数、播放速度、和/或标准语音与辅助语音的关联方式。

其中，辅助语音，可以是指结合实际场景，对标准语音进行解释说明的语音数据。

例如，当目标词语为Pear，标准语音为Apple，那么结合标准语音和目标词语的实物图片，对Apple和Pear进行具体的解释说明。

可以理解的是，本实施例中确定目标词语对应的标准语音的播放模式，可以是确定标准语音的播放次数、播放速度、标准语音与辅助语音的关联方式；或者，可以是确定标准语音的播放次数、播放速度；或者，可以是确定标准语音的播放次数、标准语音与辅助语音的关联方式；或者，还可以是确定标准语音的播放速度、标准语音与辅助语音的关联方式等等，此处对其不作具体限定。

可选的，在确定出第一语音数据中的目标词语及目标词语的错误程度之后，计算机设备即可根据目标词语的错误程度，选择出对应的标准语音播放模式。

例如，若目标词语的错误程度比较严重，则选择标准语音播放次数多、播放速度慢、以及标准语音与辅助语音的关联方式，作为目标词语对应的标准语音的播放模式。

又如，若目标词语的错误程度比较轻，则可以选择标准语音的播放次数较少的模式，作为目标词语对应的标准语音的播放模式。

步骤305，根据播放模式，播放目标词语对应的标准语音。

可选的，在确定出标准语音的播放模式之后，即可根据播放模式，播放目标词语对应的标准语音。

在本申请中的一个可选实现形式中，根据播放模式，播放目标词语对应的标准语音时，还可以获取播放模式对应的帧画面，从而结合获取的帧画面，同步播放目标词语对应的标准语音，从而使得用户可以根据帧画面及标准语音，调整自己的发音方式。

其中，在本申请中播放目标语音对应的标准语音时，显示的帧画面中可以是显示的口型和舌位动态图，从而使得用户可以根据帧画面中的口型和舌位，调整自己的口型和舌位，从而提高发音的准确性。

需要说明的是，为了方便用户更清楚的观察帧画面中的口型和舌位，本实施例中显示的帧画面可以根据需要进行放大缩小操作。

本申请实施例提供的基于人机交互的语音纠错方法的方法，通过获取用户当前输入的第一语音数据，以确定第一语音数据中的目标词语的错误程度，并根据目标词语的错误程度，确定目标词语对应的标准语音的播放模式，然后根据标准语音的播放模式，播放目标词语对应的标准语音。由此，实现了根据用户的语音数据，有针对性的进行发音纠错，并且在播放标准语音时，同步播放对应的帧画面，使得用户可以结合帧画面调整自己的口型及舌位，从而帮助用户更有效的纠正发音不准确的问题，极大的提升了用户体验。

在示例性实施例中，还提供了一种基于人机交互的语音纠错装置。

图4是根据本申请一示例性实施例示出的基于人机交互的语音纠错装置的结构示意图。

参照图4所示，本申请的基于人机交互的语音纠错装置包括：第一获取模块110、第一确定模块120、第二确定模块130及播放模块140。

其中，第一获取模块110用于获取用户当前输入的第一语音数据；

第一确定模块120用于对所述第一语音数据进行解析，确定所述第一语音数据对应的目标语音数据；

第二确定模块130用于将所述第一语音数据与所述目标语音数据进行比对，确定所述第一语音数据中的目标词语；

播放模块140用于播放所述目标词语对应的标准语音。

作为一种可选的实现形式，所述第一获取模块110，具体用于：

获取用户根据已播放的示例语句，跟读的第一语音数据；

或者，

获取用户针对已播放的问题语句，回答的第一语音数据。

作为一种可选的实现形式，所述第一确定模块120可以包括：第一确定子单元和第二确定子单元。

其中，第一确定子单元用于根据所述示例语句或所述问题语句，确定各候选语音数据；

第二确定子单元用于根据所述第一语音数据与所述各候选语音数据的匹配度，确定目标语音数据。

作为一种可选的实现形式，所述第二确定子单元具体用于：

根据所述第一语音数据的结构与所述各候选语音数据的结构的匹配度，确定目标语音数据；

和/或，

根据所述第一语音数据对应的时间长度与所述各候选语音数据对应的时间长度的匹配度，确定目标语音数据；

和/或，

根据所述第一语音数据包括的词语数量与所述各候选语音数据包括的词语数量的匹配度，确定目标语音数据。

需要说明的是，前述对基于人机交互的语音纠错方法实施例的解释说明也适用于该实施例的基于人机交互的语音纠错装置，其实现原理类似，此处不再赘述。

本申请实施例提供的基于人机交互的语音纠错装置，通过获取用户当前输入的第一语音数据，以对第一语音数据进行解析，确定第一语音数据对应的目标语音数据，并将第一语音数据与目标语音数据进行比对，确定出与第一语音数据中的目标词语，然后播放目标词语对应的标准语音。由此，实现了通过将用户语音与标准语音数据进行比较，对用户语音中发音不准确的语音数据进行主动纠正，使得用户的发音更准确，不仅提高了学习效率和针对性，还能改善用户体验。

图5是根据本申请一示例性实施例示出的基于人机交互的语音纠错装置的结构示意图。

参照图5所示，本申请的基于人机交互的语音纠错装置包括：第一获取模块110、第一确定模块120、第二确定模块130、播放模块140、第三确定模块150、第四确定模块160。

其中，第三确定模块150用于根据已播放的示例语句或问题语句，确定各候选语音数据；

第四确定模块160用于根据所述各候选语音数据，确定第一语音数据对应的结束词语集；

第一获取模块110具体用于在检测到用户输入的词语为所述结束词语集中的词语时，将已获取的语音数据确定为所述第一语音数据；

第二确定模块130用于将所述第一语音数据与所述目标语音数据进行比对，以确定所述第一语音数据中的目标词语；

播放模块140用于播放所述目标词语对应的标准语音。

本申请实施例提供的基于人机交互的语音纠错装置，通过根据播放的示例性语句或者问题语句，确定各候选语音数据，进而根据各候选语音数据，对第一语音数据对应的结束词语集进行确定，当检测到用户输入的词语为结束词语集中的词语时，将已获取的语音数据确定为第一语音数据，然后通过对确定的第一语音数据进行解析，确定第一语音数据对应的目标语音数据，以将第一语音数据与目标语音数据进行比对，确定第一语音数据中的目标词语，然后播放目标词语对应的标准语音。由此，通过结束词语集对用户输入的第一语音数据进行准确识别，从而将用户语音与标准语音数据进行比较，对用户语音中发音不准确的语音数据进行主动纠正，使得用户的发音更准确，不仅提高了学习效率和针对性，还能改善用户体验。

本申请的基于人机交互的语音纠错装置包括：第一获取模块110、第一确定模块120、第二确定模块130、播放模块140。

作为一种可选的实现形式，所述第二确定模块130，具体用于：

确定所述第一语音数据中的目标词语的错误程度；

播放模块140用于播放所述目标词语对应的标准语音。

作为一种可选的实现形式，所述播放模块140，还包括：第三确定子单元、第一播放子单元。

其中，第三确定子单元，用于根据所述目标词语的错误程度，确定所述目标词语对应的标准语音的播放模式；

第一播放子单元，用于根据所述播放模式，播放所述目标词语对应的标准语音。

在本实施例中，第三确定子单元，具体用于：确定所述标准语音的播放次数、播放速度、和/或所述标准语音与辅助语音的关联方式。

作为一种可选的实现形式，所述第一播放子单元具体用于：

获取与所述播放模式对应的帧画面；

结合所述帧画面，播放所述目标词语对应的标准语音。

本申请实施例提供的基于人机交互的语音纠错装置，通过获取用户当前输入的第一语音数据，以确定第一语音数据中的目标词语的错误程度，并根据目标词语的错误程度，确定目标词语对应的标准语音的播放模式，然后根据标准语音的播放模式，播放目标词语对应的标准语音。由此，实现了根据用户的语音数据，有针对性的进行发音纠错，并且在播放标准语音时，同步播放对应的帧画面，使得用户可以结合帧画面调整自己的口型及舌位，从而帮助用户更有效的纠正发音不准确的问题，极大的提升了用户体验。

在示例性实施例中，还提供了一种计算机设备。

图6是根据一示例性实施例示出的计算机设备的结构示意图。图6显示的计算机设备仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

参照图6，该计算机设备200包括：存储器210及处理器220，所述存储器210存储有计算机程序，所述计算机程序被处理器220执行时，使得所述处理器220执行如下步骤：获取用户当前输入的第一语音数据；对所述第一语音数据进行解析，确定所述第一语音数据对应的目标语音数据；将所述第一语音数据与所述目标语音数据进行比对，确定所述第一语音数据中的目标词语；播放所述目标词语对应的标准语音。

在一些实施例中，所述获取用户当前输入的第一语音数据，包括：获取用户根据已播放的示例语句，跟读的第一语音数据；或者，获取用户针对已播放的问题语句，回答的第一语音数据。

在一些实施例中，所述确定所述第一语音数据对应的目标语音数据，包括：根据所述示例语句或所述问题语句，确定各候选语音数据；根据所述第一语音数据与所述各候选语音数据的匹配度，确定目标语音数据。

在一些实施例中，所述根据所述第一语音数据与所述各候选语音数据的匹配度，确定目标语音数据，包括：根据所述第一语音数据的结构与所述各候选语音数据的结构的匹配度，确定目标语音数据；和/或，根据所述第一语音数据对应的时间长度与所述各候选语音数据对应的时间长度的匹配度，确定目标语音数据；和/或，根据所述第一语音数据包括的词语数量与所述各候选语音数据包括的词语数量的匹配度，确定目标语音数据。

在一些实施例中，所述获取用户当前输入的第一语音数据之前，还包括：根据已播放的示例语句或问题语句，确定各候选语音数据；根据所述各候选语音数据，确定第一语音数据对应的结束词语集；所述获取用户当前输入的第一语音数据，包括：在检测到用户输入的词语为所述结束词语集中的词语时，将已获取的语音数据确定为所述第一语音数据。

在一些实施例中，在所述确定所述第一语音数据中的目标词语之后，还包括：确定所述第一语音数据中的目标词语的错误程度；所述播放所述目标词语对应的标准语音，包括：根据所述目标词语的错误程度，确定所述目标词语对应的标准语音的播放模式；根据所述播放模式，播放所述目标词语对应的标准语音。

在一些实施例中，所述确定所述标准语音的播放模式，包括：确定所述标准语音的播放次数、播放速度、和/或所述标准语音与辅助语音的关联方式。

在一些实施例中，所述根据所述播放模式，播放所述目标词语对应的标准语音，包括：获取与所述播放模式对应的帧画面；结合所述帧画面，播放所述目标词语对应的标准语音。

在一种可选的实现形式中，如图7所示，该计算机设备200还可以包括：存储器210及处理器220，连接不同组件(包括存储器210和处理器220)的总线230，存储器210存储有计算机程序，当处理器220执行所述程序时实现本申请实施例所述的基于人机交互的语音纠错方法

总线230表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(ISA)总线，微通道体系结构(MAC)总线，增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。

计算机设备200典型地包括多种计算机设备可读介质。这些介质可以是任何能够被计算机设备200访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

存储器210还可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(RAM)240和/或高速缓存存储器250。计算机设备200可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统260可以用于读写不可移动的、非易失性磁介质(图7未显示，通常称为“硬盘驱动器”)。尽管图7中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线230相连。存储器210可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本申请各实施例的功能。

具有一组(至少一个)程序模块270的程序/实用工具280，可以存储在例如存储器210中，这样的程序模块270包括——但不限于——操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块270通常执行本申请所描述的实施例中的功能和/或方法。

计算机设备200也可以与一个或多个外部设备290(例如键盘、指向设备、显示器291等)通信，还可与一个或者多个使得用户能与该计算机设备200交互的设备通信，和/或与使得该计算机设备200能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口292进行。并且，计算机设备200还可以通过网络适配器293与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器293通过总线230与计算机设备200的其它模块通信。应当明白，尽管图中未示出，可以结合计算机设备200使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

需要说明的是，前述对基于人机交互的语音纠错方法实施例的解释说明也适用于该实施例的计算机设备，其实现原理类似，此处不再赘述。

本申请实施例提供的计算机设备，通过获取用户当前输入的第一语音数据，以对第一语音数据进行解析，确定第一语音数据对应的目标语音数据，并将第一语音数据与目标语音数据进行比对，确定出与第一语音数据中的目标词语，然后播放目标词语对应的标准语音。由此，实现了通过将用户语音与标准语音数据进行比较，对用户语音中发音不准确的语音数据进行主动纠正，使得用户的发音更准确，不仅提高了用户学习效率和针对性，还能改善用户体验。

在示例性实施例中，本申请还提出了一种计算机可读存储介质。

上述计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时，实现所述的基于人机交互的语音纠错方法。

在本申请的描述中，需要理解的是，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本申请的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征或者特点包含于本申请的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本申请的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本申请的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本申请各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。尽管上面已经示出和描述了本申请的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本申请的限制，本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种基于人机交互的语音纠错方法，其特征在于，包括：

获取用户当前输入的第一语音数据；

对所述第一语音数据进行解析，确定所述第一语音数据对应的目标语音数据；

将所述第一语音数据与所述目标语音数据进行比对，确定所述第一语音数据中的目标词语；

播放所述目标词语对应的标准语音。

2.如权利要求1所述的方法，其特征在于，所述获取用户当前输入的第一语音数据，包括：

获取用户根据已播放的示例语句，跟读的第一语音数据；

或者，

获取用户针对已播放的问题语句，回答的第一语音数据。

3.如权利要求2所述的方法，其特征在于，所述确定所述第一语音数据对应的目标语音数据，包括：

根据所述示例语句或所述问题语句，确定各候选语音数据；

根据所述第一语音数据与所述各候选语音数据的匹配度，确定目标语音数据。

4.如权利要求3所述的方法，其特征在于，所述根据所述第一语音数据与所述各候选语音数据的匹配度，确定目标语音数据，包括：

和/或，

5.如权利要求1-4任一所述的方法，其特征在于，所述获取用户当前输入的第一语音数据之前，还包括：

根据已播放的示例语句或问题语句，确定各候选语音数据；

根据所述各候选语音数据，确定第一语音数据对应的结束词语集；

所述获取用户当前输入的第一语音数据，包括：

在检测到用户输入的词语为所述结束词语集中的词语时，将已获取的语音数据确定为所述第一语音数据。

6.如权利要求1-4任一所述的方法，其特征在于，在所述确定所述第一语音数据中的目标词语之后，还包括：

确定所述第一语音数据中的目标词语的错误程度；

所述播放所述目标词语对应的标准语音，包括：

根据所述目标词语的错误程度，确定所述目标词语对应的标准语音的播放模式；

根据所述播放模式，播放所述目标词语对应的标准语音。

7.如权利要求6所述的方法，其特征在于，所述根据所述播放模式，播放所述目标词语对应的标准语音，包括：

获取与所述播放模式对应的帧画面；

结合所述帧画面，播放所述目标词语对应的标准语音。

8.一种基于人机交互的语音纠错装置，其特征在于，包括：

第一获取模块，用于获取用户当前输入的第一语音数据；

第一确定模块，用于对所述第一语音数据进行解析，确定所述第一语音数据对应的目标语音数据；

第二确定模块，用于将所述第一语音数据与所述目标语音数据进行比对，确定所述第一语音数据中的目标词语；

播放模块，用于播放所述目标词语对应的标准语音。

9.一种计算机设备，其特征在于，包括：存储器及处理器，所述存储器存储有计算机程序，其特征在于，当所述处理器执行所述程序时，实现如权利要求1-7任一所述的基于人机交互的语音纠错方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时，实现如权利要求1-7任一所述的基于人机交互的语音纠错方法。