CN114141179A

CN114141179A - 基于智能语音交互的公园导览与景区介绍系统

Info

Publication number: CN114141179A
Application number: CN202111484681.XA
Authority: CN
Inventors: 张开翼
Original assignee: Beta Intelligent Technology Beijing Co ltd
Current assignee: Beta Intelligent Technology Beijing Co ltd
Priority date: 2021-12-07
Filing date: 2021-12-07
Publication date: 2022-03-04

Abstract

本发明涉及景区导览系统技术领域，且公开了基于智能语音交互的公园导览与景区介绍系统，包括语音输入模块，屏端设备模块，语音识别模块和内容服务调取模块。该基于智能语音交互的公园导览与景区介绍系统，基于智能语音交互的公园导览与景区介绍系统，能够融合语音交互模式和触控交互模式，为游客提供更有效率的信息交互方式，帮助游客直接确定想要的信息，提升信息获取效率与成效；同时为园区导览扩展更多业务场景，从导览实现向导航、导游、导购的转变。

Description

基于智能语音交互的公园导览与景区介绍系统

技术领域

本发明涉及景区导览系统技术领域，具体为基于智能语音交互的公园导览与景区介绍系统。

背景技术

原有的公园导览系统是基于安卓触控交互模式的，触控交互的特点是必须按照程序设计的交互流程才能看到用户想要了解的信息，由于信息的呈现融合在流程和平面展现效果中，会导致用户无法了解完整全面的信息。

一方面，面对景区各类庞杂的信息，需要依靠流程将其进行归类展示，但是园区信息却往往有很多关联性，如地理位置相近、种类一样、用途一样等，即景区信息天然具有很多关联性，且用户游览时不一定会准确分类，这就导致了想要获知信息的割裂；另一方面因为平面图、文、视频的展现方式对信息的呈现同样具有局限性，主要是内容已经经过编辑组合了，是一个结构性的呈现出来的，这些信息与其关联信息同样存在割裂与不完整的问题。

语音交互是一种纵向的，不同于用户面向“画面内容”的横向交互模式，语音交互可以无视基于触控的交互流程，可以随时向计算机提问，有助于从当前页面信息的不同维度展开获取更多相关信息的媒介形式，简而言之，“就问发问”更容易让用户找到自己最想要的答案，而不是一般系统的仅仅给一个可供了解的“办法”或“方式”。

现有技术存在以下缺陷：

现有公园导览与景区介绍系统，为游客提供信息交互方式单一，信息交流效率低，不能帮助游客直接获取想要的信息，信息获取效率与成效低，同时不能为园区导览扩展更多业务场景。

发明内容

针对现有技术的不足，本发明提供了基于智能语音交互的公园导览与景区介绍系统，可以解决现有公园导览与景区介绍系统，为游客提供信息交互方式单一，信息交流效率低，不能帮助游客直接获取想要的信息，信息获取效率与成效低，同时不能为园区导览扩展更多业务场景问题；本基于智能语音交互的公园导览与景区介绍系统是基于公园导览系统的应用场景，应用自然语言理解相关技术创新研发了基于语音交互模式的园区导览、导航、介绍系统，有效解决现有公园导览与景区介绍系统，为游客提供信息交互方式单一，信息交流效率低，不能帮助游客直接获取想要的信息，信息获取效率与成效低，同时不能为园区导览扩展更多业务场景问题。

为实现上述的基于智能语音交互的公园导览与景区介绍系统目的，本发明提供如下技术方案：基于智能语音交互的公园导览与景区介绍系统，包括语音输入模块，屏端设备模块，语音识别模块和内容服务调取模块；

所述语音输入模块利用麦克风阵列将旅客语音信息输入，基于语音识别提供交互设计，将旅客需要的景区信息展示在屏端设备，对景区的导览信息进行展示，并将景区的导览信息基于屏端设备提供播报给旅客；

所述屏端设备模块基于语音交互和触控交互模式，为游客提供旅客需要的景区信息以及更有效率的信息交互方式；

所述语音识别模块包括声学模型单元以及语言模型单元，所述声学模型单元利用机器学习算法模型训练，所述语音识别模块基于语音识别技术为智能语音交互提供技术方案，能够识别当前用户的音频内容并进行解析和编码判断语言内容，所述语音识别模块提供包括语音智能识别功能与语言指令输出功能；

所述内容服务调取模块包括内容库单元，数据库单元以及网络信息爬虫单元，所述内容服务调取模块内部还设置有语言指令api，用于通过接收语音识别模块的语音指令输出，通过计算机技术将内容库单元，数据库单元以及网络信息爬虫单元信息进行调取。

优选的，所述语音识别模块语音识别技术方案具体包括以下步骤，

步骤一，构建基于语音识别的基本架构；

步骤二，采用机器学习模型进行监督学习的架构模型；

步骤三，语音模型的输出；

步骤四，编码。

优选的，所述基于语音识别的基本架构公式为

其中，W表示文字序列，Y表示语音输入，公式1表示语音识别的目标是在给定语音输入的情况下，找到可能性最大的文字序列，根据Baye’Rule，可以得到公式2，其中分母表示出现这条语音的概率，它相比于求解的文字序列没有参数关系，可以在求解时忽略，进而得到公式3，公式3中第一部分表示给定一个文字序列出现这条音频的概率，它就是语音识别中的声学模型；第二部分表示出现这个文字序列的概率，它就是语音识别中的语言模型。

优选的，所述采用机器学习模型进行监督学习的架构模型采用End-to-end技术模型，可采用机器学习或深度学习的模型让传统语音识别架构具备自学习自适应能力。，在end-to-end的声学模型中，可以没有词典，没有OOV，也没有G2P，这些全都被建模在一个神经网络中，另外在End-to-en的识别中，使用更简单的特征比如FFT点，除此之外，End-to-end的声学模型中带有语言模型的信息，通过RNN在输出序列上学习得到。

优选的，所述语言模型的作用可以理解为消解多音字的问题，在声学模型给出发音序列之后，从候选的文字序列中找出概率最大的字符串序列。

优选的，所述编码是将HMM、词典以及语言模型编译成一个网络，解码就是在这个WFST构造的动态网络空间中，找到最优的输出字符序列，搜索通常使用Viterbi算法，在end-to-end的语音识别系统中，最简单的解码方法是beam search，在解码的时候，需要将这个语言模型减掉才能得到最优结果，公式推导如下：

其中Pr(s|X)是CTC的声学模型，α是权重系数，语言模型部分推导如下：

Pr(W|s)＝/fracPr(s|W)Pr(W)Pr(s)^/beta

其中Pr(s|W)是字符到单词的映射，通常是一对一的，因此上述公式可以表示为如下形式：

Pr(W|s)＝/fracPr(W)Pr(s)/beta

其中Pr(W)是传统的语言模型，Pr(s)是字符语言模型，β权重系数，上面的公式表示在CTC的模型解码时，语言模型需要进行减先验的操作，这个先验就是声学训练数据中的字符语言模型。

与现有技术相比，本发明提供了基于智能语音交互的公园导览与景区介绍系统，具备以下有益效果：

本基于智能语音交互的公园导览与景区介绍系统，基于智能语音交互的公园导览与景区介绍系统，能够融合语音交互模式和触控交互模式，为游客提供更有效率的信息交互方式，帮助游客直接确定想要的信息，提升信息获取效率与成效；同时为园区导览扩展更多业务场景，从导览实现向导航、导游、导购的转变。

附图说明

图1为本发明系统工作原理图；

图2为本发明系统技术原理图；

图3为本发明工作流程示意图；

图4为本发明屏端设备交互界面示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1-4，基于智能语音交互的公园导览与景区介绍系统，包括语音输入模块，屏端设备模块，语音识别模块和内容服务调取模块；

语音输入模块利用麦克风阵列将旅客语音信息输入，基于语音识别提供交互设计，将旅客需要的景区信息展示在屏端设备，对景区的导览信息进行展示，并将景区的导览信息基于屏端设备提供播报给旅客；

屏端设备模块基于语音交互和触控交互模式，为游客提供旅客需要的景区信息以及更有效率的信息交互方式；

语音识别模块包括声学模型单元以及语言模型单元，声学模型单元利用机器学习算法模型训练，语音识别模块基于语音识别技术为智能语音交互提供技术方案，能够识别当前用户的音频内容并进行解析和编码判断语言内容，语音识别模块提供包括语音智能识别功能与语言指令输出功能；

内容服务调取模块包括内容库单元，数据库单元以及网络信息爬虫单元，内容服务调取模块内部还设置有语言指令api，用于通过接收语音识别模块的语音指令输出，通过计算机技术将内容库单元，数据库单元以及网络信息爬虫单元信息进行调取。

综上，语音识别模块语音识别技术方案具体包括以下步骤，

步骤一，构建基于语音识别的基本架构；

步骤二，采用机器学习模型进行监督学习的架构模型；

步骤三，语音模型的输出；

步骤四，编码。

一.构建基于语音识别的基本架构：

基于语音识别的基本架构公式为

W表示文字序列，Y表示语音输入，公式1表示语音识别的目标是在给定语音输入的情况下，找到可能性最大的文字序列。根据Baye’Rule，可以得到公式2，其中分母表示出现这条语音的概率，它相比于求解的文字序列没有参数关系，可以在求解时忽略，进而得到公式3，公式3中第一部分表示给定一个文字序列出现这条音频的概率，它就是语音识别中的声学模型；第二部分表示出现这个文字序列的概率，它就是语音识别中的语言模型。

二.采用机器学习模型进行监督学习的架构模型：

End-to-end是目前NLP技术架构中较为成熟和先进的技术架构，可采用机器学习或深度学习的模型让传统语音识别架构具备自学习自适应能力，更好的处理实际应用场景需求。

技术层面上E2E架构的输出标签也不再需要像传统架构一样的进行细分。例如对于中文，输出不再需要进行细分为状态、音素或者声韵母，直接将汉字作为输出即可；对于英文，考虑到英文单词的数量庞大，可以使用字母作为输出标签。

从这一点出发，我们可以认为神经网络将声学符号到字符串的映射关系也一并建模学习了出来，这部分是在传统的框架中时词典所应承担的任务。针对这个模块，传统框架中有一个专门的建模单元叫做G2P(grapheme-to-phoneme)，来处理集外词(out ofvocabulary，OOV)。在end-to-end的声学模型中，可以没有词典，没有OOV，也没有G2P。这些全都被建模在一个神经网络中。

另外，在传统的框架结构中，语音需要分帧，加窗，提取特征，包括MFCC、PLP等等。在基于神经网络的声学模型中，通常使用更裸的Fbank特征。在End-to-en的识别中，使用更简单的特征比如FFT点，也是常见的做法。或许在不久的将来，语音的采样点也可以作为输入，这就是更加彻底的End-to-end声学模型。

除此之外，End-to-end的声学模型中已经带有了语言模型的信息，它是通过RNN在输出序列上学习得到的。但这个语言模型仍然比较弱，如果外加一个更大数据量的语言模型，解码的效果会更好。因此，End-to-end现在指声学模型部分，等到不需要语言模型的时候，才是完全的end-to-end。

三.语音模型的输出：

语言模型的作用可以理解为消解多音字的问题，在声学模型给出发音序列之后，从候选的文字序列中找出概率最大的字符串序列。

四.编码：

传统的语音识别解码都是建立在WFST的基础之上，它是将HMM、词典以及语言模型编译成一个网络，解码就是在这个WFST构造的动态网络空间中，找到最优的输出字符序列，搜索通常使用Viterbi算法，另外为了防止搜索空间爆炸，通常会采用剪枝算法，因此搜索得到的结果可能不是最优结果。

在end-to-end的语音识别系统中，最简单的解码方法是beam search，尽管end-to-end的声学模型中已经包含了一个弱语言模型，但是利用额外的语言模型仍然能够提高识别性能，因此将传统的基于WFST的解码方式和Viterbi算法引入到end-to-end的语音识别系统中也是非常自然的，然而由于声学模型中弱语言模型的存在，解码可能不是最优的，文章[yuki Kanda,2016]提出在解码的时候，需要将这个若语言模型减掉才能得到最优结果，公式推导如下：

Pr(W|s)＝/fracPr(s|W)Pr(W)Pr(s)^/beta

Pr(W|s)＝/fracPr(W)Pr(s)/beta

因此智能语音交互系统能够识别当前用户的音频内容并进行解析和编码判断语言内容，进而调取相应内容库内容对内容进行呈现。

本发明的工作使用流程以及安装方法为，本基于智能语音交互的公园导览与景区介绍系统在使用时，基于智能语音交互的公园导览与景区介绍系统，能够融合语音交互模式和触控交互模式，为游客提供更有效率的信息交互方式，帮助游客直接确定想要的信息，提升信息获取效率与成效；同时为园区导览扩展更多业务场景，从导览实现向导航、导游、导购的转变。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.基于智能语音交互的公园导览与景区介绍系统，其特征在于：包括语音输入模块，屏端设备模块，语音识别模块和内容服务调取模块；

2.根据权利要求1所述的基于智能语音交互的公园导览与景区介绍系统，其特征在于：所述语音识别模块语音识别技术方案具体包括以下步骤，

步骤一，构建基于语音识别的基本架构；

步骤二，采用机器学习模型进行监督学习的架构模型；

步骤三，语音模型的输出；

步骤四，编码。

3.根据权利要求2步骤一所述的基于智能语音交互的公园导览与景区介绍系统，其特征在于：所述基于语音识别的基本架构公式为

4.根据权利要求2步骤二所述的基于智能语音交互的公园导览与景区介绍系统，其特征在于：所述采用机器学习模型进行监督学习的架构模型采用End-to-end技术模型，可采用机器学习或深度学习的模型让传统语音识别架构具备自学习自适应能力。，在end-to-end的声学模型中，可以没有词典，没有OOV，也没有G2P，这些全都被建模在一个神经网络中，另外在End-to-en的识别中，使用更简单的特征比如FFT点，除此之外，End-to-end的声学模型中带有语言模型的信息，通过RNN在输出序列上学习得到。

5.根据权利要求2步骤三所述的基于智能语音交互的公园导览与景区介绍系统，其特征在于：所述语言模型的作用可以理解为消解多音字的问题，在声学模型给出发音序列之后，从候选的文字序列中找出概率最大的字符串序列。

6.根据权利要求2步骤四所述的基于智能语音交互的公园导览与景区介绍系统，其特征在于：所述编码是将HMM、词典以及语言模型编译成一个网络，解码就是在这个WFST构造的动态网络空间中，找到最优的输出字符序列，搜索通常使用Viterbi算法，在end-to-end的语音识别系统中，最简单的解码方法是beam search，在解码的时候，需要将这个语言模型减掉才能得到最优结果，公式推导如下：

其中Pr(s|X)是CTC的声学模型，d是权重系数，语言模型部分推导如下：

Pr(W|s)＝/fracPr(s|W)Pr(W)Pr(s)^/beta

Pr(W|s)＝/fracPr(W)Pr(s)/beta