CN111128135B

CN111128135B - 语音交流方法及装置

Info

Publication number: CN111128135B
Application number: CN201811197460.2A
Authority: CN
Inventors: 吴少波; 易斌; 连园园; 覃广志
Original assignee: Gree Electric Appliances Inc of Zhuhai
Current assignee: Gree Electric Appliances Inc of Zhuhai
Priority date: 2018-10-15
Filing date: 2018-10-15
Publication date: 2022-09-27
Anticipated expiration: 2038-10-15
Also published as: CN111128135A

Abstract

本发明公开了一种语音交流方法及装置。其中，该方法包括：接收语音信息；根据应答模型确定语音信息的应答信息，其中，应答模型为使用多组训练数据，通过机器学习训练得出的，多组训练数据中的每组数据均包括：语音信息和语音信息对应的应答信息；获取多个语料库，其中，语料库用于获取组成应答信息的特征词；从多个语料库中选取不同的特征词替换组成应答信息的特征词。本发明解决了相关技术中由于自然语言生成过中出现的过拟合现象导致语音识别效果差的技术问题。

Description

语音交流方法及装置

技术领域

本发明涉及语音处理领域，具体而言，涉及一种语音交流方法及装置。

背景技术

目前，深度学习是机器学习研究中的一个新的领域，其动机在于建立、模拟人脑进行分析学习的神经网络，它模仿人脑的机制来解释数据，例如图像信息，文本信息和自然语言信息等。

在智能家电中，以扫地机器人为例，扫地机器人的应用逐步广泛，现有对扫地机器人的控制多是基于机身按钮或遥控器进行控制，但遥控器易丢，扫地机器人体积较小，成人操作时需弯腰下蹲，极其不便。故语音控制在智能家电上的应用极为迫切。

在语音识别中，最容易出现的问题是自然语言生成中出现的过拟合现象，由于语言中表达的多样性，同样的语言文字在说话时不同的表达顺序，以及停顿时间不同等，都会使得最终表达的意思不一样。而在现有技术中，对上述语音进行识别中采用统一化处理，并不能得到合理且具有区分性的词语，有时候还可能引起语句不通顺等，进而会导致语音识别效果不佳。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种语音交流方法及装置，以至少解决相关技术中由于自然语言生成过中出现的过拟合现象导致语音识别效果差的技术问题。

根据本发明实施例的一个方面，提供了一种语音交流方法，包括：接收语音信息；根据应答模型确定所述语音信息的应答信息，其中，所述应答模型为使用多组训练数据，通过机器学习训练得出的，所述多组训练数据中的每组数据均包括：语音信息和所述语音信息对应的应答信息；获取多个语料库，其中，所述语料库用于获取组成应答信息的特征词；从多个所述语料库中选取不同的特征词替换组成所述应答信息的特征词。

可选地，所述语料库的数量为两个，两个所述语料库包括：第一语料库和第二语料库。

可选地，从多个所述语料库中选取不同的特征词替换组成所述应答信息的特征词之前包括：判断所述应答信息中的特征词之间的合理性；在合理性低于合理阈值的情况下，从多个所述语料库中选取不同的特征词替换组成所述应答信息的特征词。

可选地，从多个所述语料库中选取不同的特征词替换组成所述应答信息的特征词包括：确定所述应答信息中需要进行替换的第一特征词；从所述语料库中选取对应的第二特征词；将所述应答信息中的第一特征词替换为第二特征词。

可选地，将所述应答信息中的第一特征词替换为第二特征词之后包括：对替换后的应答信息进行合理性判断；在所述应答信息的合理性低于第二阈值的情况下，从其他的语料库中选取特征词进行替换。

可选地，所述语音交流方法用于扫地机器人。

根据本发明实施例的另一方面，还提供了一种语音交流装置，包括：接收模块，用于接收语音信息；应答模块，用于根据应答模型确定所述语音信息的应答信息，其中，所述应答模型为使用多组训练数据，通过机器学习训练得出的，所述多组训练数据中的每组数据均包括：语音信息和所述语音信息对应的应答信息；获取模块，用于获取多个语料库，其中，所述语料库用于获取组成应答信息的特征词；替换模块，用于从多个所述语料库中选取不同的特征词替换组成所述应答信息的特征词。

可选地，该装置还包括：判断模块，用于判断所述应答信息中的特征词之间的合理性；在合理性低于合理阈值的情况下，从多个所述语料库中选取不同的特征词替换组成所述应答信息的特征词。

根据本发明实施例的另一方面，还提供了一种存储介质，所述存储介质存储有程序指令，其中，在所述程序指令运行时控制所述存储介质所在设备执行上述中任意一项所述的方法。

根据本发明实施例的另一方面，还提供了一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行上述中任意一项所述的方法。

在本发明实施例中，采用接收语音信息；根据应答模型确定所述语音信息的应答信息，其中，所述应答模型为使用多组训练数据，通过机器学习训练得出的，所述多组训练数据中的每组数据均包括：语音信息和所述语音信息对应的应答信息；获取多个语料库，其中，所述语料库用于获取组成应答信息的特征词；从多个所述语料库中选取不同的特征词替换组成所述应答信息的特征词的方式，通过将应答模型识别的应答信息进行合理的特征词替换，达到了消除自然语言生成过程中出现的过拟合现象的目的，从而实现了准确的生成应答信息的技术效果，进而解决了相关技术中由于自然语言生成过中出现的过拟合现象导致语音识别效果差的技术问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的语音交流方法的流程图；

图2是根据本发明实施例的语音交流装置的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

根据本发明实施例，提供了一种语音交流方法的实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

图1是根据本发明实施例的语音交流方法的流程图，如图1所示，该方法包括如下步骤：

步骤S102，接收语音信息；

步骤S104，根据应答模型确定语音信息的应答信息，其中，应答模型为使用多组训练数据，通过机器学习训练得出的，多组训练数据中的每组数据均包括：语音信息和语音信息对应的应答信息；

步骤S106，获取多个语料库，其中，语料库用于获取组成应答信息的特征词；

步骤S108，从多个语料库中选取不同的特征词替换组成应答信息的特征词。

通过上述步骤，可以实现采用接收语音信息；根据应答模型确定语音信息的应答信息，其中，应答模型为使用多组训练数据，通过机器学习训练得出的，多组训练数据中的每组数据均包括：语音信息和语音信息对应的应答信息；获取多个语料库，其中，语料库用于获取组成应答信息的特征词；从多个语料库中选取不同的特征词替换组成应答信息的特征词的方式，通过将应答模型识别的应答信息进行合理的特征词替换，达到了消除自然语言生成过程中出现的过拟合现象的目的，从而实现了准确的生成应答信息的技术效果，进而解决了相关技术中由于自然语言生成过中出现的过拟合现象导致语音识别效果差的技术问题。

上述可以采用多种方式接收语音信息，语音采集器包括麦克风、WIFI音频接收器等。在接收语音信息后，需要对语音信息进行预处理，例如，消除杂乱的噪声等。经过预处理后，很大程度上保证了语音信息的高质量、易识别。

而且，应答模型是采用基于深度学习的语言识别模型，能够从采集的语音信息中准确解析用户命令。其中，语音信息中包括用于控制的应答信息。在对上述应答模型进行训练时，通过机器学习对大量的语音信息和该语音信息对应的应答信息进行训练，得到最终可以用于识别语音信息的应答模型。

将上述应答模型识别出的应答信息输入多个语料库，生成不同语料库相对应的应答信息的特征词。进一步，从上述多个语料库中选取不同的特征词替换不合理的应答信息的特征词。需要说明的是，通过上述方式不断更新迭代语料库，使得机器学习的语义结果更加准确，在与家用的智能家电结合的过程中，任意类型的用户都可以随时使用智能家居，对于不完整或者不完善的语义都可以进行改善，而无需特意的准确语料库。

而且，对于不同的家用电器，由于操作内容不同，因此输入的操作语音存在较大的差异，例如：空调通常较多的是制冷、制热、温度值等；扫地机器人输入的指令通常是移动、停止、转向等。由于电器的差异性，导致不同的电器学习到的侧重点也不同。因此，每种家电都会在某一个领域的语义功能不断加强，这些加强后的语义库可以进行共享，使得语义学习的效率提高，成本降低。

进一步的，当一个家用电器无法获知一个语义的含义时候，可以通过物联网从其他电器的语义库中进行查询或学习，或者将一个物联网内的电器的学习结果存储在预定的位置，使得具有权限的用户可以访问，或者其他有权限的设备进行共享。

可选地，语料库的数量为两个，两个语料库包括：第一语料库和第二语料库。

语音处理器在对语音信息进行处理时，会生成多个语料库。进而可以设置第一语料库和第二语料库，在对接收语音信息进行处理时，采用不同的语音处理方法，提取语音信息中的特征词，依据第一语料库生成应答信息，并确定该应答信息对应的第一特征词，依据第二语料库生成满足预置规则的第二特征词。

可选地，从多个语料库中选取不同的特征词替换组成应答信息的特征词之前包括：判断应答信息中的特征词之间的合理性；在合理性低于合理阈值的情况下，从多个语料库中选取不同的特征词替换组成应答信息的特征词。

在判断应答信息中的特征词之间的合理性时，若应答信息中的特征词不能满足要求，也就是特征词的合理性低于合理阈值的情况下，需要从多个语料库中选取特征词用于替换应答信息中合理性较低的特征词，可以通过连接互联网的方式获取更多合理有效的特征词，使应答信息达到词语搭配合理的、语句通顺的效果，更准确合理地消除自然语言生成过程中出现的过拟合现象；同时还可以生成质量较高的应答信息，能够保证生成的应答信息的搭配合理性与语句通顺性，提高自然语言信息的语句创造性。

可选地，从多个语料库中选取不同的特征词替换组成应答信息的特征词包括：确定应答信息中需要进行替换的第一特征词；从语料库中选取对应的第二特征词；将应答信息中的第一特征词替换为第二特征词。

在对应答信息的特征词进行替换时，可以使用多个语料库中选取不同的特征词进行替换，从而使得替换后的应答信息的词语表达更准确。具体地，从应答信息中选取待替换的特征词，将其定义为第一特征词，然后从多个语料库中选取合理有效的特征词，该特征被定义为第二特征词，按照特征词替换预置规则将应答信息中的第一特征词替换成第二特征词。其中，特征词替换预置规则是用于规范特征词替换的所提前制定的规则，可以有效提高特征词替换的精确度和效率。

可选地，将应答信息中的第一特征词替换为第二特征词之后包括：对替换后的应答信息进行合理性判断；在应答信息的合理性低于第二阈值的情况下，从其他的语料库中选取特征词进行替换。

由于语音信息根据不同的语料库生成不同的特征词，在对应答信息中合理性较低的特征词进行替换时，并不是完成一次替换就能得到最终满足要求的结果。为了将特征词的合理性达到最佳，可以通过多次对应答信息的合理性进行判断。例如，对替换后的应答信息进行合理性判断；在应答信息的合理性低于第二阈值的情况下，从其他的语料库中选取特征词进行替换。语音处理器通过多次对应答信息的合理性判断，使得生成的应答信息更加准确。

可选地，语音交流方法用于扫地机器人。

在扫地机器人中设置语音采集器和处理器，扫地机器人的语音采集器用于接收控制该扫地机器人的语音信息，通过处理器联网获取多个语料库；再依据多个语料库中提取的特征词，将收取到的用户语音生成自然语言信息，实现对扫地机器人的控制。基于深度学习的自然语言信息处理不再需要繁琐的规则配置，不断添加与维护规则，以及剖析句法、解析语义，使得扫地机器人在收到用户指令时，能够像人一样理解用户的语音指令，进行自主路径规划和相应的扫地操作。

图2是根据本发明实施例的语音交流装置的结构示意图；如图2所示，该语音交流装置，包括：接收模块22，应答模块24，获取模块26和替换模块28。下面对该语音交流装置进行详细说明。

接收模块22，用于接收语音信息；应答模块24，与上述接收模块22连接，用于根据应答模型确定语音信息的应答信息，其中，应答模型为使用多组训练数据，通过机器学习训练得出的，多组训练数据中的每组数据均包括：语音信息和语音信息对应的应答信息；获取模块26，与上述应答模块24连接，用于获取多个语料库，其中，语料库用于获取组成应答信息的特征词；替换模块28，与上述获取模块26连接，用于从多个语料库中选取不同的特征词替换组成应答信息的特征词。

通过上述模块，该语音交流装置可以实现接收语音信息；根据应答模型确定语音信息的应答信息，其中，应答模型为使用多组训练数据，通过机器学习训练得出的，多组训练数据中的每组数据均包括：语音信息和语音信息对应的应答信息；获取多个语料库，其中，语料库用于获取组成应答信息的特征词；从多个语料库中选取不同的特征词替换组成应答信息的特征词，通过将应答模型识别的应答信息进行合理的特征词替换，达到了消除自然语言生成过程中出现的过拟合现象的目的，从而实现了准确的生成应答信息的技术效果，进而解决了相关技术中由于自然语言生成过中出现的过拟合现象导致语音识别效果差的技术问题。

可选地，该装置还包括：判断模块，用于判断应答信息中的特征词之间的合理性；在合理性低于合理阈值的情况下，从多个语料库中选取不同的特征词替换组成应答信息的特征词。

根据本发明实施例的另一方面，还提供了一种存储介质，存储介质存储有程序指令，其中，在程序指令运行时控制存储介质所在设备执行上述中任意一项的方法。

根据本发明实施例的另一方面，还提供了一种处理器，处理器用于运行程序，其中，程序运行时执行上述中任意一项的方法。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如单元的划分，可以为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种语音交流方法，其特征在于，包括：

接收语音信息；

根据应答模型确定所述语音信息的应答信息，其中，所述应答模型为使用多组训练数据，通过机器学习训练得出的，所述多组训练数据中的每组数据均包括：语音信息和所述语音信息对应的应答信息；

获取多个语料库，其中，所述语料库用于获取组成应答信息的特征词；

从多个所述语料库中选取不同的特征词替换组成所述应答信息的特征词；

其中，所述语料库的数量为两个，两个所述语料库包括：第一语料库和第二语料库；

其中，从多个所述语料库中选取不同的特征词替换组成所述应答信息的特征词之前包括：判断所述应答信息中的特征词之间的合理性；在合理性低于合理阈值的情况下，从多个所述语料库中选取不同的特征词替换组成所述应答信息的特征词；

其中，在所述根据应答模型确定所述语音信息的应答信息之后，还包括：将所述应答信息输入多个所述语料库，生成不同语料库对应的应答信息的特征词；

其中，所述方法应用于家用电器中，所述应答信息的特征词用于与所述家用电器不同的其它家用电器中。

2.根据权利要求1所述的方法，其特征在于，从多个所述语料库中选取不同的特征词替换组成所述应答信息的特征词包括：

确定所述应答信息中需要进行替换的第一特征词；

从所述语料库中选取对应的第二特征词；

将所述应答信息中的第一特征词替换为第二特征词。

3.根据权利要求2所述的方法，其特征在于，将所述应答信息中的第一特征词替换为第二特征词之后包括：

对替换后的应答信息进行合理性判断；

在所述应答信息的合理性低于第二阈值的情况下，从其他的语料库中选取特征词进行替换。

4.根据权利要求1至3中任意一项所述的方法，其特征在于，所述语音交流方法用于扫地机器人。

5.一种语音交流装置，其特征在于，包括：

接收模块，用于接收语音信息；

应答模块，用于根据应答模型确定所述语音信息的应答信息，其中，所述应答模型为使用多组训练数据，通过机器学习训练得出的，所述多组训练数据中的每组数据均包括：语音信息和所述语音信息对应的应答信息；

获取模块，用于获取多个语料库，其中，所述语料库用于获取组成应答信息的特征词；

替换模块，用于从多个所述语料库中选取不同的特征词替换组成所述应答信息的特征词；

其中，所述装置还包括：判断模块，用于判断所述应答信息中的特征词之间的合理性；在合理性低于合理阈值的情况下，从多个所述语料库中选取不同的特征词替换组成所述应答信息的特征词；

其中，所述获取模块还用于：将所述应答信息输入多个所述语料库，生成不同语料库对应的应答信息的特征词；

其中，所述装置应用于家用电器中，所述应答信息的特征词用于与所述家用电器不同的其它家用电器中。

6.一种存储介质，其特征在于，所述存储介质存储有程序指令，其中，在所述程序指令运行时控制所述存储介质所在设备执行权利要求1至4中任意一项所述的方法。

7.一种处理器，其特征在于，所述处理器用于运行程序，其中，所述程序运行时执行权利要求1至4中任意一项所述的方法。