CN115168563B

CN115168563B - 一种基于意图识别的机场服务引导方法、系统及装置

Info

Publication number: CN115168563B
Application number: CN202211076182.1A
Authority: CN
Inventors: 黄军文; 刘帆; 李文强; 汤红
Original assignee: Shenzhen Huafu Information Technology Co ltd
Current assignee: Shenzhen Huafu Technology Co ltd
Priority date: 2022-09-05
Filing date: 2022-09-05
Publication date: 2022-12-20
Anticipated expiration: 2042-09-05
Also published as: CN115168563A

Abstract

本发明公开了一种基于意图识别的机场服务引导方法，包括：将获取的使用者的语音信号通过语音分析转换为意图文本信息；将所述意图文本信息进行分词，通过词表查询将所述分词中的关键词与意图类别进行第一匹配，根据第一匹配结果判断所述意图类型：若所述意图类型为问答，则显示终端显示所述问答的应答信息，并进行语音播报；若所述意图类型为指令，则显示终端根据所述指令做出对应业务。本申请通过语音识别出使用者的意图，显示终端通过语音播报和/或功能跳转实现引导服务，并在不同的航站楼配置不同的数据库，增大业务的灵活性，同时提高服务效率。

Description

一种基于意图识别的机场服务引导方法、系统及装置

技术领域

本发明涉及引导机技术领域，特别是关于一种基于意图识别的机场服务引导方法、系统及装置。

背景技术

机场服务引导指为乘客提供航班查询、行李托运、安检指引、服务场所导航等咨询服务。

在现有技术中，机场服务引导一般有人工服务台和自助服务终端两种方式，人工服务台需要有专人客服轮班，咨询人多的情况下需要排队，客服走开后就不能提供咨询服务；自助服务终端一般通过键盘输入或点击的方式进行自助操作，但是因为操作流程复杂且自助服务终端操作不够智能导致用户的使用意愿降低，最终沦为摆设。

针对以上问题，本发明提供一种在服务终端上使用语音识别和意图理解相结合的技术为用户提供智能、亲切的引导服务，能够大大提高乘客的使用意愿，从而减少人力成本，提升服务效率和用户满意度。

发明内容

本发明的目的在于提供一种基于意图识别的机场服务引导方法、系统及装置，其能够简化服务导引装置的操作，通过意图识别提高服务引导的效率，增大业务灵活性。

为实现上述目的，本发明提供了一种基于意图识别的机场服务引导方法，包括：

将获取的使用者的语音信号通过语音分析转换为意图文本信息；

将所述意图文本信息进行分词，通过词表查询将所述分词中的关键词与意图类别进行第一匹配，根据第一匹配结果判断所述意图类型：

若所述意图类型为问答，则显示终端显示所述问答的应答信息，并进行语音播报；

若所述意图类型为指令，则显示终端根据所述指令做出对应业务。

在本发明的一实施方式中，所述显示终端显示所述问答的应答信息之前还包括：

查询日志簇计算问答知识库信息与所述意图文本信息之间的相似度；

将所述问答知识库中的应答信息按照相似度依此进行排列显示；

所述使用者根据真实意图选择应答信息。

在本发明的一实施方式中，所述显示终端执行所述指令前还包括：

对所述指令进行语义分析，判断所述指令的类型：

若所述指令为无意义指令，则所述显示终端不对所述无意义指令进行操作；

若所述指令为有意义指令，则显示终端根据所述有意义指令进行跳转。

在本发明的一实施方式中，所述显示终端执行所述指令后还包括复盘分析，所述显示终端还包括复盘分析，当第一匹配结果无法判断意图类型，所述使用者根据真实意图进行对应操作，并将所述意图和所述对应操作导入所述问答指示库中

在本发明的一实施方式中，所述计算问答知识库信息与所述意图文本信息之间的相似度包括：

将所述问答知识库信息转为字符序列；

所述字符序列使用N元文法统计出所述意图文本信息分词的关键词出现的概率。

在本发明的一实施方式中，所述语音分析包括：

将所述语音信号进行预处理，过滤静音部分和降低噪声；

将预处理后的语音信号进行梅尔频率倒谱系数特征向量提取，得到特征向量序列；

根据预训练声学模型和语言模型，将所述特征向量序列转化为字符序列，所述声学模型为隐马尔科夫模型，所述语言模型为N元文法。

在本发明的一实施方式中，所述语音播报包括将所述应答信息所对应的单字或短语从语音合成库中提取，把语言学描述转换为语言波形。

在本发明的一实施方式中，在将所述应答信息所对应的单字或短语从语音合成库中提取前还包括：

对所述应答信息进行语言学分析，所述语言学分析包括词汇、语法和语义分析；

将分析后的所述应答信息进行文本处理，所述文本处理包括文本断句、字词切分、多音字处理、数字处理以及缩略语处理中的一种或多种。

本发明提供一种基于意图识别的机场服务引导装置，包括：

语音分析模块，用于将获取的使用者语音信号转换为意图文本信息；

意图分析模块，用于将所述意图文本信息进行分词，通过词表查询将所述分词中的关键词与意图类别进行第一匹配，根据第一匹配结果判断所述意图类型；

结果输出模块，用于显示终端根据所述意图分析模块的结果进行语音播报和/或跳转功能。

一种电子设备，包括存储器、处理以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现上述任一项所述基于意图识别的机场服务引导方法。

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现上述任一项所述基于意图识别的机场服务引导方法。

与现有技术相比，本申请通过语音分析模块将获取的使用者语音信号转换为意图文本信息，利用意图分析模块将意图文本信息进行分词，并识别分词的关键词，将关键词与意图类别通过词表查询进行第一匹配，并根据第一匹配的结果进行语音播报和/或跳转功能。本发明通过将语音转换为文字并检索出使用者的真实意图，提高服务引导装置的工作效率，提高乘客的使用意愿，从而减少人力成本。同时，通过以航站楼划分区域，每个航站楼可配置不同数据库和问答知识库，增大业务灵活性，提升使用者的体验感。

附图说明

图1是根据本发明一实施方式的一种基于意图识别的机场服务引导方法的流程图；

图2是根据本发明一实施方式的显示终端显示所述问答的应答信息的流程图；

图3是根据本发明一实施方式的语音分析的流程图；

图4是根据本发明一实施方式的端点检测的示意图；

图5是根据本发明一实施方式的窗函数的时域和频域图；

图6是根据本发明一实施方式的滤波器分布图；

图7是根据本发明一实施方式的语音播报流程图；

图8是根据本发明一实施方式的一种基于意图识别的机场服务引导系统示意图。

具体实施方式

下面结合附图，对本发明的具体实施方式进行详细描述，但应当理解本发明的保护范围并不受具体实施方式的限制。

除非另有其它明确表示，否则在整个说明书和权利要求书中，术语“包括”或其变换如“包含”或“包括有”等等将被理解为包括所陈述的元件或组成部分，而并未排除其它元件或其它组成部分。

在本发明的描述中，需要说明的是，术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制；术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性，此外，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

本申请提供一种基于意图识别的机场服务引导装置，包括，至少一个处理器；至少一个存储器，用于存储至少一个程序；当所述至少一个程序被所述至少一个处理器执行，使得所述至少一个处理器实任一项所述的基于意图识别的机场服务引导方法。

其中，所述服务引导装置可以为设备终端，如机场航站楼内设置的自主服务终端，具体不做限定。服务引导装置用于获取用户的口述指令，将口述指令发送给处理器，装置可以通过语音识别技术，将语音转换为文本信息，并将装置返回的应答信息转换为语音播报和/或功能跳转，为使用者提供服务，简便服务引导装置的操作，提高使用感，增大业务灵活性，并提高服务引导的效率。

如图1所示，本申请一实施例提供的一种基于意图识别的机场服务引导方法，具体包括以下步骤：

S1：将获取的使用者的语音信号通过语音分析转换为意图文本信息。

其中，服务引导装置通过麦克风采集使用者口述指令的语音信号，将语音信号通过语音分析转换为意图文本信息。

S2：将所述意图文本信息进行分词，通过词表查询将所述分词中的关键词与意图类别进行第一匹配，根据第一匹配结果判断所述意图类型：

本申请将意图文本信息进行分词，并识别出分词的关键词，全部意图类别构建成词表，通过词表查询的方式进行分词的关键词与意图类别第一匹配，词表为约定优于配置(convention over configuration)，也称作按约定编程，依照业务划分梳理出意图列表，例：AIRPORT_SERVICE:机场服务、NAVIGATION：导航、FLIGHT_INFO：航班查询、COMMERCIAL_FACILITY：商业设施等，服务端封装后，显示终端返回的则都是词表范围的意图，界定了意图返回的业务范围，也简化了繁琐的配置，获得分词结果后，根据关键词从约定词表中检索匹配项。例：约定AIRPORT_SERVICE的关键词的意图为机场服务，即当后台服务返回意图为AIRPORT_SERVICE时，显示终端则根据约定，进行机场服务意图跳转操作。若后台返回的意图为问答形式，则显示终端根据应答信息并进行语音播报。

如图2所示，在本发明的一实施方式中，所述显示终端显示所述问答的应答信息之前还包括：

S21：查询日志簇计算问答知识库信息与所述意图文本信息之间的相似度；其中相似度的计算步骤如下：

将所述问答知识库信息转为字符序列；

S22：将所述问答知识库中的应答信息按照相似度依次进行排列显示；将应答信息按照出现分词关键词的概率进行打分，并按照打分顺序对应答信息进行排列。

S23：所述使用者根据真实意图选择应答信息。

对所述指令进行语义分析，判断所述指令的类型：

在本申请实施例中，指令被执行前需要先对指令进行分析，判断指令是否有意义，若指令为无意义指令，如BUILD_IN_YES:确定指令、BUILD_IN_DENY:否定指令，显示终端对此类指令不做任何业务，也不做任何答复；若指令为有意义指令，如“查询航班信息”，则显示终端将跳转至航班查询界面，使用者可根据真实意图输入待查询航班信息，也可通过口述指令输入具体信息，显示终端会根据指令进行对应操作，更好的提升服务效率。

优选的，有意义指令分为一级功能指令和二级功能指令。一级功能指令如使用者点击“HOME_PAGE:首页”、或语音输入“商业设施”，此类指令只执行对应菜单功能跳转操作，不做其他业务操作；二级功能指令如“帮我查从重庆去深圳的航班”，此类指令会自动识别出用户输入信息分词的关键词并对信息进行回填，首先识别出分词的关键词“航班查询”，显示终端会自动跳转至“航班查询”功能界面，并回填待查询航班的始发地与目的地信息，最终显示终端会根据使用者的意图进行操作，提高了服务引导装置的效率，

在本发明的一实施方式中，所述显示终端执行所述指令后还包括复盘分析，当所述显示终端还包括复盘分析，当从第一匹配结果无法判断意图类型时，即匹配失败，显示终端进行提示并提供默认应答，如“不好意思，这个我还不明白，不过我会继续努力提升自己的。”使用者可根据真实意图自行对服务引导装置操作，并将此意图和对应的操作导入问答知识库中，使下次命中问答知识库的几率提高，同时形成一个不断学习纠错的机制，从而提高意图识别的准确性。

如图3所示，在本发明的一实施方式中，所述语音分析包括：

S11：将所述语音信号进行预处理，过滤静音部分和降低噪声。

使用者的语音首先以流的形式进行信号处理，将语音信号按帧进行拆分，所述帧为毫秒级，优选的，将语音信号均等切分为25ms长度的信号帧，帧移10ms，并使用双门限端点检测算法提取人声区间，过滤静音部分和噪声。

双门限算法利用语音的短时能量和短时过零率。

短时能量表示语音信号在一帧长度内的能量，公式为：

其中

表示为信号n的能量，

表示信号在m时刻的信号值，

，

为窗函数，在不使用傅里叶变换的情况下，窗函数为方窗，公式为：

所以语音短时能量相当于每一帧中所有语音信号的平方和。

短时过零率表示语音信号单位时间穿过坐标系横轴的次数，公式为：

其中

表示信号n的短时过零率，

表示信号在m时刻的信号值，

为符号函数，公式为：

函数用来计算比，公式为：

通过计算计算每一帧时间内穿过的横轴的次数，然后除以每帧内采样点的数目，就可以得到语音每帧内的短时过零率。

在语音信号中，浊音的能量高于清音，清音的过零率高于无声部分。因此先利用短时能量将浊音部分区分出来，再利用短时过零率将清音提取出来，就完成了端点检测。

如图4所示，端点检测的具体步骤如下:

1)取一个较高的短时能量作为阈值

，利用这个阈值分出语音中的浊音部分，如图，[A1, A2]区间。

2)取一个较低的能量阈值

，利用这个阈值从[A1, A2]区间向两端进行搜索，将较低能量段的语音部分也加入到语音段，进一步扩大语音段范围，如图[B1,B2]区间。

3)去一个阈值

，从[B1,B2]区间继续向两端进行搜索，短时过零率大于3倍

的部分认为是语音的清音部分，加入语音段，如图[C1,C2]区间。

语音信号通过端点检测方法进行过滤静音和降低噪声后，使用汉宁窗所有帧加窗减少频谱泄露，同时产生降噪效果，窗函数公式为：

n表示长度为N的窗长的x轴位置（自变量）。

其中，时域图像和频域特征如图5所示。

S12：将预处理后的语音信号进行梅尔频率倒谱系数特征向量提取，得到特征向量序列。

特征向量提取具体包括：

使用梅尔频率倒谱系数（MFCC）作为语音信号的短时特征，梅尔标度描述了人耳频率的非线性特性，它与频率的关系为：

其中

用Hz表示频度，

为对应的梅尔频度。

具体步骤为，对原始信号

进行短时傅里叶变换，记分帧后第

帧的窗函数中心位置为

，则加窗过程表示为：

表示加窗后的信号值，t表示时刻（自变量）

其中

为窗函数，然后进行短时傅里叶变换，公式为：

由此得到第一个分段序列的频谱分布

，然后对并对频谱

取模平方得到功率谱，将功率谱通过一组梅尔尺度的三角带通滤波器，滤波器组定义为：

其中

表示滤波器组的频率响应，m为滤波器序号，k指经过FFT计算后的点的下标，

为滤波器中心频率，公式为：

其中

为滤波器频率范围的最低频率，

为滤波器频率范围的最高频率，N为DFT（或FFT）时的长度，

为采样频率，

为梅尔函数，

为梅尔函数的逆函数，公式为：

滤波器的分布如图6所示。

低频处滤波器密集，门限值大，高频处滤波器稀疏，门限值低，各滤波器面积相等。

然后计算每个滤波器组输出的对数能量，公式为：

最后经离散余弦变换得到MFCC特征向量序列，变换公式为：

其中N为FFT的点数，L为MFCC系数阶数，通常取12-16，M为三角滤波器个数。

S13：根据预训练声学模型和语言模型，将所述特征向量序列转化为字符序列，所述声学模型为隐马尔科夫模型，所述语言模型为N元文法，统计前后N个字出现的概率，本申请采用巴科斯范式（BNF）描述语音识别的语法，并构建语法网络，自定义语法文档被编译成识别网络后，送往语音识别器供语音识别结果进行语法匹配，将获取的前N个最好结果，在语法网络上进行路径匹配，匹配结果为语音信号转换为意图文本信息的分词。

在本申请中，语法识别的结果值域只在语法文件所列出的规则里，故有很好的匹配率，另外，语法识别结果携带了结果的置信度，可以根据置信分数决定结果是否有效。

如图7所示，在本发明的一实施方式中，所述语音播报包括：

对所述应答信息进行语言学分析；所述语言学分析包括词汇、语法和语义分析；

将分析后的所述应答信息进行文本处理，所述文本处理包括文本断句、字词切分、多音字处理、数字处理以及缩略语处理中的一种或多种；

将处理后的应答信息所对应的单字或短语从语音合成库中提取，把语言学描述转换为语言波形。

本发明还提供一种基于意图识别的机场服务引导系统，所述服务引导系统与上述实施例中服务引导方法一一对应。如图8所示，所述服务引导系统包括：

意图分析模块，用于将所述意图文本信息进行分词，通过词表查询将所述分词中的关键词与意图类别进行第一匹配，根据第一匹配结果判断所述意图类型；其中，所述意图分析模块包括意图判定单元，用于判定所述意图文本信息的意图类型，所述意图类型包括问答和指令。

进一步地，所述意图判定单元包括问答模块和指令判断模块，问答模块用于根据所述问答显示应答信息；指令判断单元用于判断所述指令是否有意义。

所述服务引导系统还包括复盘单元，所述复盘单元用于将无法判断意图类型的意图文本信息及所述使用者根据真实意图进行的对应操作导入所述问答知识库中。

上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在本申请的优选实施例中，服务引导装置能够以航站楼划分区域，并在每个航站楼配置不同数据库及问答知识库，增大业务灵活性，提升服务效率和使用者体验感。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备（系统）、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

前述对本发明的具体示例性实施方案的描述是为了说明和例证的目的。这些描述并非想将本发明限定为所公开的精确形式，并且很显然，根据上述教导，可以进行很多改变和变化。对示例性实施例进行选择和描述的目的在于解释本发明的特定原理及其实际应用，从而使得本领域的技术人员能够实现并利用本发明的各种不同的示例性实施方案以及各种不同的选择和改变。本发明的范围意在由权利要求书及其等同形式所限定。

Claims

1.一种基于意图识别的机场服务引导方法，其特征在于，包括：

将所述意图文本信息进行分词，通过词表查询将所述分词中的关键词与意图类别进行第一匹配，根据第一匹配结果判断意图类型：

若所述意图类型为指令，则显示终端根据所述指令做出对应业务；

所述显示终端显示所述问答的应答信息之前还包括：

所述使用者根据真实意图选择应答信息；

所述显示终端执行所述指令前还包括：

对所述指令进行语义分析，判断所述指令的类型：

若所述指令为有意义指令，则显示终端根据所述有意义指令进行跳转；有意义指令分为一级功能指令和二级功能指令，一级功能只执行对应菜单功能跳转操作，不做其他业务操作，二级功能指令会自动识别出用户输入信息分词的关键词并对信息进行回填；

所述显示终端还包括复盘分析，当第一匹配结果无法判断意图类型，所述使用者根据真实意图进行对应操作，并将所述意图和所述对应操作导入所述问答知识库中；

所述计算问答知识库信息与所述意图文本信息之间的相似度包括：

将所述问答知识库信息转为字符序列；

2.如权利要求1所述的一种基于意图识别的机场服务引导方法，其特征在于，所述语音分析包括：

将所述语音信号进行预处理，过滤静音部分和降低噪声；

3.如权利要求1所述的一种基于意图识别的机场服务引导方法，其特征在于，所述语音播报包括将所述应答信息所对应的单字或短语从语音合成库中提取，把语言学描述转换为语言波形。

4.一种基于意图识别的机场服务引导装置，采用如权利要求1-3中任意一项所述基于意图识别的机场服务引导方法，其特征在于，包括：

意图分析模块，用于将所述意图文本信息进行分词，通过词表查询将所述分词中的关键词与意图类别进行第一匹配，根据第一匹配结果判断意图类型；所述意图分析模块包括意图判定单元，所述意图判定单元包括问答模块和指令判断模块，问答模块用于根据所述问答显示应答信息；指令判断单元用于判断所述指令是否有意义；

结果输出模块，用于显示终端根据所述意图分析模块的结果进行语音播报和/或跳转功能；

服务引导装置能够以航站楼划分区域，并在每个航站楼配置不同数据库及问答知识库，增大业务灵活性。

5.一种电子设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至3任一项所述基于意图识别的机场服务引导方法。

6.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至3任一项所述基于意图识别的机场服务引导方法。