CN112133283A

CN112133283A - 一种多语言环境下语音应答系统设计

Info

Publication number: CN112133283A
Application number: CN201910551557.7A
Authority: CN
Inventors: 戴翰波; 李辉; 李哲
Original assignee: Wuhan Huiren Information Technology Co ltd
Current assignee: Wuhan Huiren Information Technology Co ltd
Priority date: 2019-06-24
Filing date: 2019-06-24
Publication date: 2020-12-25

Abstract

本发明公开了一种多语言环境下语音应答系统设计，主要实现了在多语言环境下无需用户手动设置语言类型便对用户语音输入进行准确识别并帮助应用服务作出正确应答反馈。本发明包括语言识别服务集，预设信息存储区以及识别结果比对模块。首先针对应用到本发明的应用服务，准备不同语言版本的该应用所要用到的文本信息内容存储到预设信息存储区中。然后将该用户语言输入经过一个集成了多个设置为不同语言的语音识别服务集，由此得到了多个不同语言的语音识别结果。然后将这些语音识别的结果与其相应的语言的预设文本信息作比对，查找出相符或最为相近的结果，从而知道用户的语音指令，询问或回答的内容，将其传递给应用服务，从而使应用服务得知自己要进行的操作。

Description

一种多语言环境下语音应答系统设计

技术领域

本发明属于计算机技术领域，更进一步，属于使用计算机技术设计一种针对多语言环境的语音应答系统。本发明可以广泛应用于多语言共存场景下需要使用语音应答的应用，如智能客服，车载GPS，外语教学中的问答交互等服务。

背景技术

随着语音技术的发展，现在越来越多的应用服务为了能够解放用户双手或提供更加简便的操作，选择在服务中应用一个语音应答系统去获取用户的指令或者问询，然后获取到的内容结合应用服务对用户进行反馈。通常，由于文本信息比语音信息更容易进行处理和下一步操作，所以语音应答系统获取到用户的指令或者问询后，会使用语音识别服务将用户语音形式的指令或者问询转换为文字的形式，然后依据文本信息内容进行决策。同时，在语言类在线授课中，也会因为自动交互问答等内容使用到具有语音识别服务的语音应答系统，需要根据语音识别产生的文本结果与预设答案进行比对以此判断学生回答的正误。

现有语音识别技术存在一大问题就是对于不同语言来说要使用不同的模型甚至算法去进行语音识别。所以大多数涉及使用语音识别的应用往往会在用户使用前让用户设定语言。但是这样有一些不足之处，比如某一应用其有多个使用者共同使用，而在多个使用者使用不同的几种语言，这种情况下当使用者更改时都要在应用中去设置切换语言，这无疑会给用户的使用带来麻烦。又比如对于一个语言课教学软件，授课时会出现向学生提问后需要学生使用不同的语言去回答的情况，若要学生手动切换设置语言，会出现因忘记切换或切换错误带来的不便。

发明内容

本发明目的在于利用现有技术设计一种多语言环境下的语音应答系统，使得用户在使用支持语音输入的应用时不用去切换选择自己要使用的语言，并且通过对用户语音输入的识别及比对得到应用服务需要的信息。

实现本发明的技术思路是：首先针对该语音应答系统所要应用的服务场景，预先准备不同语言版本的该服务场景所要用到的文本信息内容。当用户进行语音输入后，因为不知道用户所用语言类型，所有将该语音信息经过一个集成了多个设置为不同语言的语音识别服务集，由此得到了多个不同语言的语音识别结果。然后将这些语音识别的结果与其相应的语言的预设文本信息作比对，查找出相符或最为相近的结果，从而知道用户的语音指令，询问或回答的内容，从而使应用服务得知自己要进行的操作。

该系统由如下部分构成。

预设信息存储区，该区域用来存储本发明被应用于的具体服务所需求的文本信息内容（比如操作指令，可能的问询或在语言教学时向用户的提问所对应的答案等），每个文本信息内容均有多个不同语言的版本。

语音识别服务集，该集集成了多个设置为不同语言的语音识别服务，负责将用户的语音输入转换为不同语言的识别结果。

识别结果比对模块，将不同语言的识别结果与相应语言的预设文本作比对，从而得知用户要进行的操作，问询的内容或者回答的答案。然后将结果传递给应用服务使得应用服务作出正确的反馈。

本发明与现有的技术相比具有以下优点

本发明可以使用户在多语言环境下使用涉及语音识别服务的语音应答系统的应用时不用考虑使用语言的设置与切换，从而使用户的使用更加便利，并且避免了因用户未设置或切换使用语言造成应用服务无法正确使用的现象。

附图说明

图1为该系统架构。

图2为语音识别服务集的内部结构。

图3为识别结果比对模块内部结构和工作流程。

具体实施方式

下面结合附图对本发明做进一步的详细描述。

参照图1，该系统工作流程为。

（1）首先，根据本系统所应用具体服务的，在预设信息存储区存储不同语言版本的文本信息，例如，若本系统应用于一个声控设备，则存储的文本信息则为控制该设备功能的各种指令；若本系统应用于一个问询系统，则存储的文本信息为应用服务能够解答的问题库或本系统用于外语教学中的自动问答交互，则存储的文本信息则为向学生提问的问题答案，预设信息存储完毕后可以开始启动应用。

（2）应用开启后，本发明等待用户的语音输入。

（3）收到用户语音输入后，将用户语音输入传递给语音识别服务集中，服务集内部结构如图2所示，为多个设置了不同语种的语音识别服务，当语音输入传入后，所有语音识别服务启动对传入语音并行进行语音识别，得到多个文本信息类型不同语种的语音识别结果。

（4）将得到的不同语种的语音识别结果传递给识别结果比对模块，该模块工作流程如图3所示，每一个语种有一个自己的工作区，将得到的相应语种的语音识别结果与从预设信息存储区得到的相应语种的预设信息进行比对查找工作，根据应用本发明的服务的不同，比对查找有不同的目标，例如查找声控设备中用户的语音输入内容是否存在相应的操作指令，问询系统中是否存在相应的问题以及问答系统中用户回答的正确性，比对查找使用正则匹配与语义匹配相结合的方法，应用服务根据需求可以选择只使用正则匹配或同时将两者结合使用，结合使用的方法为首先使用正则匹配进行比对查找，未查找到相匹配的信息，则使用语义匹配再进行一次匹配查找，以此保证用户的语音输入内容在与预设内容不完全相同却具有相近的意思时，仍能得到正确结果。

若某语种工作区通过比对查找，语音识别结果有与预设信息相符的内容，则该工作区识别结果为该内容+该工作区所设的语种，若无相符内容，则该工作区识别结果为NULL；然后，将各工作区的识别结果进行汇总，若全部工作区识别结果均为NULL，则最终结果为NULL，意为用户语音输入的指令不存在或问询的问题不存在或回答不正确，将之传递给应用服务程序，否则，最终结果就是识别结果非NULL的那个工作区的内容，将该内容传递给应用服务程序，应用服务程序据此进行下一步给用户的反馈等其他操作。

此外，该系统可以因应用服务的需要作如下设置，即，当应用服务开启后，第一次有正确结果的语音应答完成，识别结果比对模块会将产生正确结果的工作区的所设语种告知语音识别集成模块，这样在下次语音输入时，语音识别服务集会先只运行该语种的语音识别服务，识别结果比对模块也会先只对该语种进行比对，当该语种比对结果为NULL时，再启动其他语种的语音识别服务和进行比对，如此语种设定在应用服务重启，设置时间戳到期或产生其他语种的正确结果时作废或更改，同时，关于用户所用语种的信息也可反馈给应用服务，使其可以将自己的用户交互界面的语言变更为用户所用的语种。

Claims

1.一种多语言环境下语音应答系统设计，其特征在于：包括由语音识别服务集，预设信息存储区以及识别结果比对模块；

预设信息存储区，该区域用来存储本发明被应用于的具体服务所需求的文本信息内容（比如操作指令，可能的问询或在语言教学时向用户的提问所对应的答案等），每个文本信息内容均有多个不同语言的版本；

语音识别服务集，负责将用户的语音输入转换为不同语言的识别结果；

识别结果比对模块，将不同语言的识别结果与相应语言的预设文本作比对，从而得知用户要进行的操作，问询的内容或者回答的答案，然后将结果传递给应用服务使得应用服务做出正确的反馈。

2.根据权利要求1所述一种多语言环境下语音应答系统设计，其特征在于：语音识别服务集，该集由多个设置为不同语言的语音识别服务所构成，当用户进行语音输入后，将语音输入传入该服务集中，所有语音识别服务对语音输入并行进行语音识别，得到多个文本信息类型不同语种的语音识别结果，由此便不需用户设置所用语言便可进行准确的语音识别服务。

3.根据权利要求1所述一种多语言环境下语音应答系统设计，其特征在于：识别结果比对模块使用如下方法进行比对及判断结果：

每一个语种有一个自己的工作区，将得到的相应语种的语音识别结果与从预设信息存储区得到的相应语种的预设信息进行比对查找工作，根据应用本发明的服务的不同，比对查找有不同的目标，例如查找声控设备中用户的语音输入内容是否存在相应的操作指令；问询系统中是否存在相应的问题以及问答系统中用户回答的正确性，比对查找使用正则匹配与语义匹配相结合的方法，应用服务根据需求可以选择只使用正则匹配或同时将两者结合使用，若某语种工作区通过比对查找，语音识别结果有与预设信息相符的内容，则该工作区识别结果为该内容+该工作区所设的语种，若无相符内容，则该工作区识别结果为NULL；

然后，将各工作区的识别结果进行汇总，若全部工作区识别结果均为NULL，则最终结果为NULL，意为用户语音输入的指令不存在或问询的问题不存在或回答不正确，将之传递给应用服务程序，否则，最终结果就是识别结果非NULL的那个工作区的内容，将该内容传递给应用服务程序，应用服务程序据此进行下一步给用户的反馈等其他操作。