CN111158490A

CN111158490A - 基于手势识别的辅助语义识别系统

Info

Publication number: CN111158490A
Application number: CN201911420933.5A
Authority: CN
Inventors: 吴怡
Original assignee: Chongqing Best Daniel Robot Co Ltd
Current assignee: Chongqing Daniu Cognitive Technology Co.,Ltd.
Priority date: 2019-12-31
Filing date: 2019-12-31
Publication date: 2020-05-15
Anticipated expiration: 2039-12-31
Also published as: CN111158490B

Abstract

本发明涉及人机交互技术领域，具体公开了基于手势识别的辅助语义识别系统，包括输入模块和图像采集模块；输入模块用于采集语音信息并将语音信息转换为第一文字文本；还包括：图像处理模块、姿势识别模块和语义识别模块，语义识别模块用于判断第一文字文本的内容与第二文字文本的内容是否一致，如果一致，语义识别模块还用于从第一文字文本并提取咨询关键词，语义识别模块还用于将咨询关键词与法律词库中的法律关键词进匹配，并获取匹配成功的法律关键词对应的法律条文；语义识别模块还用于将法律条文输出。采用本发明的技术方案能够准确识别输入的语句是否出现错误。

Description

基于手势识别的辅助语义识别系统

技术领域

本发明涉及人机交互技术领域，特别涉及基于手势识别的辅助语义识别系统。

背景技术

由于法律具有较高的专业性，非专业人才很难掌握和灵活运用。因此，人们在遇到法律问题时往往需要求助律师进行相关法律问题的咨询。然而，因为律师的从业人数相对较少，咨询费用相对较贵，律师的咨询服务并不能够满足所有人的咨询要求。为了解决普通大众的法律咨询问题，能提供自助服务的法律咨询机器人应运而生。

人们通过法律咨询机器人进行法律问题咨询时，需要被咨询者输入咨询问题，系统可以根据咨询问题自动匹配对应的解答发送给咨询者。

目前咨询者输入咨询问题的方式主要为键盘输入。但是对于部分人群来说，还是存在着不会使用键盘输入或者使用键盘输入不熟练导致效率低的问题。为了让所有人都能顺利的进行咨询，需要引入额外的输入方式，例如语音输入。

但是与键盘输入相比，语音输入比较直接，想法不需要进行二次转换就能直接表述出来，导致思考的时间比较少，容易出现叙述错误的情况。

为了提高语音输入的准确性，需要一种辅助语义识别的系统。

发明内容

本发明提供了基于手势识别的辅助语义识别系统，能够准确识别输入的语句是否出现错误。

为了解决上述技术问题，本申请提供如下技术方案：

基于手势识别的辅助语义识别系统，包括输入模块和图像采集模块；图像采集模块用于采集图像数据；输入模块用于采集语音信息并将语音信息转换为第一文字文本；还包括：

图像处理模块，用于获取图像数据并划分姿势识别区；

姿势识别模块，用于识别姿势识别区的手势并记录手势的运动轨迹信息；姿势识别模块还用于将手势及手势的运动轨迹信息输入预设的手势识别模型中并获取识别结果；识别结果为第二文字文本；

语义识别模块，用于获取第一文字文本和第二文字文本，将第一文字文本的内容与第二文字文本的内容进行对比，判断第一文字文本的内容与第二文字文本的内容是否一致，如果一致，语义识别模块还用于从第一文字文本并提取咨询关键词，语义识别模块还预存有法律词库，法律词库包括若干法律关键词，以及与法律关键词对应的法律条文；语义识别模块还用于将咨询关键词与法律词库中的法律关键词进匹配，并获取匹配成功的法律关键词对应的法律条文；语义识别模块还用于将法律条文输出。

基础方案原理及有益效果如下：

本方案中，通过实时采集图像数据，并不断识别手势以及记录手势的运动轨迹信息；可以在用户用手势表达信息时，实时的将手势转换为第二文字文本，实现对手势输入的识别。

用于将第一文字文本的内容与第二文字文本的内容进行对比，判断第一文字文本的内容与第二文字文本的内容是否一致，能有效避免咨询者所说的和所想的不一致的情况。语义识别模块能从第一文字文本中提取咨询关键词，通过咨询关键词匹配法律关键词，以及匹配法律关键词对应的法律条文，整个过程实现了从用户输入的长句到法律条文的识别，顺利实现了人机交互，便于后续在线咨询的顺利进行。

进一步，所述语义识别模块在未获取到第一文字文本时，还用于从第二文字文本中提取咨询关键词。

对于文化程度较低且说话有问题的残疾人来说，难以进行键盘输入，也不能进行语音输入。本优选方案能方便他们通过打手势的方式进行长句输入。

进一步，所述图像处理模块划分姿势识别区时，还用于识别人体颈部、头顶部和腰部；图像处理模块还用于将颈部左右分别延伸65-70cm作为横向边界；图像处理模块还用于将头顶部和腰部作为纵向边界。

通过划分姿势识别区，能够有效降低图像数据的处理量。换句话说，姿势识别区以外的部分不会进行识别。

进一步，所述运动轨迹信息包括运动方向、运动速度和运动轨迹坐标。

通过运动方向、运动速度和运动轨迹坐标能准确的表征运动轨迹。

进一步，所述图像处理模块获取图像数据后，还用于对图像数据进行预处理；预处理包括灰度转换、降噪和锐化。

通过灰度转换，降噪和锐化，能有效消除环境干扰，更容易识别到手势。

进一步，还包括演示模块，演示模块用于在图像采集模块实时采集图像数据前播放手势演示视频。

通过让用户观看手势演示视频，能使用户了解如何进行标准的手势输入，降低用户过快或过慢的进行手势输入的几率。

进一步，所述姿势识别模块还基于运动轨迹信息判断运动速度是否超过第一阈值，如果超过第一阈值，姿势识别模块还用于向演示模块发送速度提醒指令；演示模块还用于根据速度提醒指令播放手势速度过快提醒。

通过设定第一阈值，能有效区分用户打手势的速度是否过快，在过快时播放手势速度过快提醒，能提醒用户降低速度。

进一步，姿势识别模块还用于在发送手势提醒指令后，继续判断运动速度是否超过第一阈值，如果超过第一阈值，姿势识别模块还用于向演示模块发送速度引导指令，演示模块还用于根据速度引导指令播放速度引导文件。

用户在收到手势速度过快提醒之后，手势的输入速度仍然过快，可能是不清楚何种速度比较合适，通过播放速度引导文件，能帮助用户找到合适的速度。

进一步，所述速度引导文件为速度引导音乐或速度引导视频。

通过聆听引导音乐或观看引导视频，能帮助用户找到合适的节奏，从而降低打手势的速度。

进一步，还包括文字识别模块，图像采集模块用于采集残疾证图像，文字识别模块用于识别残疾证图像中的文字，并从已识别的文字中提取个人资料；个人资料包括是否为听力残疾的信息；演示模块播放速度引导文件前还用于从信息采集模块获取个人资料，基于个人资料判断用户是否为听力残疾，如果是听力残疾，演示模块播放速度引导视频；如果不是听力残疾，演示模块播放速度引导音乐。

听力残疾的用户不能听见速度引导音乐，为其播放速度引导视频，能让听力残疾的用户也能找到合适的节奏。

附图说明

图1为基于手势识别的辅助语义识别系统实施例一的逻辑框图。

具体实施方式

下面通过具体实施方式进一步详细说明：

实施例一

本实施例的基于手势识别的辅助语义识别系统，如图1所示，包括输入模块、图像采集模块、图像处理模块、文字识别模块、姿势识别模块、语义识别模块和演示模块。

输入模块用于采集语音信息并将语音信息转换为第一文字文本。

图像采集模块用于采集残疾证图像，文字识别模块用于识别残疾证图像中的文字，并从已识别的文字中提取个人资料。本实施例中，个人资料包括姓名、性别、年龄和残疾类型，残疾类型包括听力、言语、肢体、智力、多重等。

演示模块用于在图像采集模块实时采集图像数据前播放手势演示视频。本实施例中，手势演示视频为事先录制的，手势的幅度和手势的速度都符合标准的演示视频。便于用户以此视频为参照。

图像处理模块用于获取图像数据并对图像数据进行预处理。预处理包括灰度转换、降噪和锐化。本实施例中，降噪时采用中值滤波。中值滤波能够将图像数据中的斑点椒盐等噪声滤除，它是典型的非线性数字滤波。中值滤波的原理是先确定一个领域窗w，它以像素点p(i，j)为中心，将窗口中所有的像素灰度值按照由小到大的顺序排列，选择中间值作为像素中心点的灰度新值，当移动窗口时，就可以对图像进行滤波处理。

图像处理模块用于在预处理后从图像数据中划分姿势识别区。图像处理模块划分姿势识别区时，还用于识别人体颈部、头顶部和腰部；图像处理模块还用于将颈部左右分别延伸65-70cm作为横向边界(本实施例中具体为65cm)；图像处理模块还用于将头顶部和腰部作为纵向边界。

姿势识别模块用于识别姿势识别区的手势并记录手势的运动轨迹信息；本实施例中，运动轨迹信息包括运动方向、运动速度和运动轨迹坐标。

姿势识别模块基于运动轨迹信息判断运动速度是否超过第一阈值，如果超过第一阈值，姿势识别模块还用于向演示模块发送速度提醒指令；姿势识别模块还基于运动轨迹信息判断运动幅度是否低于第二阈值，如果低于第二阈值，姿势识别模块还用于向演示模块发送幅度提醒指令；本实施例中，运动幅度是通过计算两次运动轨迹坐标之间的运动距离得到的。

演示模块还用于根据速度提醒指令播放手势速度过快提醒以及根据幅度提醒指令播放手势幅度过小提醒。本实施例中，手势速度过快提醒和手势幅度过小提醒均包括语音版和文字版。例如，手势速度过快提醒的文字版为“您的手势速度过快，请降低速度”。

演示模块播放手势速度过快提醒和手势幅度过小提醒前还用于从文字识别模块获取个人资料，基于个人资料判断用户是否为听力残疾，如果是听力残疾，演示模块播放手势速度过快提醒和手势幅度过小提醒时均播放文字版；如果不是听力残疾，均播放语音版。

当演示模块播放手势速度过快提醒后，姿势识别模块还用于继续判断运动速度是否超过第一阈值，如果超过第一阈值；姿势识别模块还用于向演示模块发送速度引导指令，演示模块还用于根据速度引导指令播放速度引导文件。本实施例中，速度引导文件为速度引导音乐和速度引导视频。具体的，如果用户是听力残疾，演示模块播放速度引导视频；如果不是听力残疾，演示模块播放速度引导音乐。本实施例中，速度引导音乐为带有鼓点的音乐，速度引导视频为敲击乐器的视频，其中鼓点的节奏以及敲击的节奏与符合标准的手势的速度一致。例如速度引导音乐中，在每个词的手势输入间隔会伴随一个重低音；速度引导视频中，在每个词的手势输入间隔会伴随一个敲鼓的画面。在其他实施例中，也可以采用其他的方式，例如速度引导音乐为不断重复“1、2、3、4”的音乐；速度引导视频为音乐波形的视频。

本实施例中，符合标准的手势的速度需要根据姿势识别模块的处理能力确定，如果姿势识别模块硬件配置高，处理能力强，就可以适当提高手势的速度，如果姿势识别模块硬件配置较低，处理能力弱，就可以适当降低手势的速度。

姿势识别模块还用于将手势及手势的运动轨迹信息输入预设的手势识别模型中并获取识别结果；识别结果为第二文字文本。本实施例中预设的姿势识别模块采用训练完成的卷积神经网络模型。

语义识别模块用于获取第一文字文本和第二文字文本，将第一文字文本的内容与第二文字文本的内容进行对比，判断第一文字文本的内容与第二文字文本的内容是否一致，如果一致，语义识别模块还用于从第一文字文本并提取咨询关键词；

如果语义识别模块在未获取到第一文字文本时(也就是咨询者未进行语音输入)，语义识别模块还用于从第二文字文本提取咨询关键词。

语义识别模块还预存有法律词库，法律词库包括若干法律关键词，以及与法律关键词对应的法律条文；语义识别模块还用于将咨询关键词与法律词库中的法律关键词进匹配，并获取匹配成功的法律关键词对应的法律条文；语义识别模块还用于将法律条文输出。后续可以根据输出的法律条文进一步匹配问题的解答并发送给用户，后续的处理不属于本方案的内容，这里不做讨论。

实施例二

本实施例和实施例一的区别在于，本实施例中当演示模块播放手势幅度过快提醒后，姿势识别模块还用于继续判断运动幅度是否低于第二阈值。如果低于第二阈值，

姿势识别模块还用于向演示模块发送幅度引导指令，演示模块还用于根据幅度引导指令播放幅度引导文件。本实施例中，幅度引导文件为幅度引导音乐或幅度引导视频。具体的，如果用户是听力残疾，播放幅度引导视频；如果不是听力残疾，播放幅度引导音乐。幅度引导音乐的音量与运动幅度成反比，幅度引导视频的亮度与运动幅度成反比。具体的，运动幅度越小于第二阈值，幅度引导音乐的音量越大，运动幅度越小于第二阈值，幅度引导视频的亮度越大。当用户的打手势的速度过快时，引导音乐的音量大，此时大音量会比较吵，为了更好的体验，用户会想着降低音量，为了降低音量，就需要降低打手势的速度，也就达到了引导用户降低手势速度的目的，幅度引导视频同理。

由于手势识别的计算过程比较复杂，对实时性要求比较高，如果进行手势输入的用户输入的速度过快时，如果法律咨询机器人的计算能力不足，可能会导致每一帧图像的处理时间太长，因此无法解决对咨询者的手势输入进行实时识别的问题。而且，总体上手势识别的使用频率远低于键盘输入和语音输入等传统输入方式，如果一味的升级法律咨询机器人的硬件来提升计算能力，会增加额外的成本。本实施例中，通过对用户进行有效的引导，能让用户的手势输入与当前的处理能力相匹配，避免因计算能力不足，无法对实时的手势输入进行识别的问题。而且，不需要提升硬件的处理能力，降低了成本。

实施例三

本实施例和实施例二的区别在于，本实施例中幅度引导音乐和速度引导音乐为同一种音乐，区别在于，作为幅度引导音乐时音量会变化。幅度引导视频和速度引导视频为同一种视频，区别在于作为幅度引导视频时亮度会变化。在用户同时出现运动速度超过第一阈值且运动幅度低于第二阈值时，不用播放两种不同的音乐或者视频，不会造成冲突。

以上的仅是本发明的实施例，该发明不限于此实施案例涉及的领域，方案中公知的具体结构及特性等常识在此未作过多描述，所属领域普通技术人员知晓申请日或者优先权日之前发明所属技术领域所有的普通技术知识，能够获知该领域中所有的现有技术，并且具有应用该日期之前常规实验手段的能力，所属领域普通技术人员可以在本申请给出的启示下，结合自身能力完善并实施本方案，一些典型的公知结构或者公知方法不应当成为所属领域普通技术人员实施本申请的障碍。应当指出，对于本领域的技术人员来说，在不脱离本发明结构的前提下，还可以作出若干变形和改进，这些也应该视为本发明的保护范围，这些都不会影响本发明实施的效果和专利的实用性。本申请要求的保护范围应当以其权利要求的内容为准，说明书中的具体实施方式等记载可以用于解释权利要求的内容。

Claims

1.基于手势识别的辅助语义识别系统，包括输入模块和图像采集模块；图像采集模块用于采集图像数据；输入模块用于采集语音信息并将语音信息转换为第一文字文本；其特征在于，还包括：

图像处理模块，用于获取图像数据并划分姿势识别区；

2.根据权利要求1所述的基于手势识别的辅助语义识别系统，其特征在于：所述语义识别模块在未获取到第一文字文本时，还用于从第二文字文本中提取咨询关键词。

3.根据权利要求2所述的基于手势识别的辅助语义识别系统，其特征在于：所述图像处理模块划分姿势识别区时，还用于识别人体颈部、头顶部和腰部；图像处理模块还用于将颈部左右分别延伸65-70cm作为横向边界；图像处理模块还用于将头顶部和腰部作为纵向边界。

4.根据权利要求3所述的基于手势识别的辅助语义识别系统，其特征在于：所述运动轨迹信息包括运动方向、运动速度和运动轨迹坐标。

5.根据权利要求4所述的基于手势识别的辅助语义识别系统，其特征在于：所述图像处理模块获取图像数据后，还用于对图像数据进行预处理；预处理包括灰度转换，降噪和锐化。

6.根据权利要求5所述的基于手势识别的辅助语义识别系统，其特征在于：还包括演示模块，演示模块用于在图像采集模块实时采集图像数据前播放手势演示视频。

7.根据权利要求6所述的基于手势识别的辅助语义识别系统，其特征在于：所述姿势识别模块还基于运动轨迹信息判断运动速度是否超过第一阈值，如果超过第一阈值，姿势识别模块还用于向演示模块发送速度提醒指令；演示模块还用于根据速度提醒指令播放手势速度过快提醒。

8.根据权利要求7所述的基于手势识别的辅助语义识别系统，其特征在于：姿势识别模块还用于在发送手势提醒指令后，继续判断运动速度是否超过第一阈值，如果超过第一阈值，姿势识别模块还用于向演示模块发送速度引导指令，演示模块还用于根据速度引导指令播放速度引导文件。

9.根据权利要求8所述的基于手势识别的辅助语义识别系统，其特征在于：所述速度引导文件为速度引导音乐或速度引导视频。

10.根据权利要求9所述的基于手势识别的辅助语义识别系统，其特征在于：还包括文字识别模块，图像采集模块用于采集残疾证图像，文字识别模块用于识别残疾证图像中的文字，并从已识别的文字中提取个人资料；个人资料包括是否为听力残疾的信息；演示模块播放速度引导文件前还用于从文字识别模块获取个人资料，基于个人资料判断用户是否为听力残疾，如果是听力残疾，演示模块播放速度引导视频；如果不是听力残疾，演示模块播放速度引导音乐。