CN111274460A - 基于体态控制的语义信息采集系统及方法 - Google Patents

基于体态控制的语义信息采集系统及方法 Download PDF

Info

Publication number
CN111274460A
CN111274460A CN202010063277.4A CN202010063277A CN111274460A CN 111274460 A CN111274460 A CN 111274460A CN 202010063277 A CN202010063277 A CN 202010063277A CN 111274460 A CN111274460 A CN 111274460A
Authority
CN
China
Prior art keywords
information
processing
legal
module
submodule
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010063277.4A
Other languages
English (en)
Other versions
CN111274460B (zh
Inventor
吴怡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing Daniu Cognitive Technology Co.,Ltd.
Original Assignee
Chongqing Best Daniel Robot Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing Best Daniel Robot Co Ltd filed Critical Chongqing Best Daniel Robot Co Ltd
Priority to CN202010063277.4A priority Critical patent/CN111274460B/zh
Publication of CN111274460A publication Critical patent/CN111274460A/zh
Application granted granted Critical
Publication of CN111274460B publication Critical patent/CN111274460B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9032Query formulation
    • G06F16/90332Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9035Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/18Legal services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Business, Economics & Management (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Tourism & Hospitality (AREA)
  • Mathematical Physics (AREA)
  • Technology Law (AREA)
  • Acoustics & Sound (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Social Psychology (AREA)
  • Psychiatry (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及法律咨询服务领域,具体涉及一种基于体态控制的语义信息采集系统及方法,其中,系统包括图像采集模块、声音采集模块、服务器和输出模块,服务器包括语音识别模块、肢体语言分析模块、法律数据库和处理模块;图像采集模块和声音采集模块分别用于实时获取用户的视频数据和声音信息;语音识别模块,用于接收并处理声音信息,生成相应的文本信息;肢体语言分析模块,用于接收并处理视频数据,生成图像数据;并提取图像数据中的特征信息,生成肢体语言信息;法律数据库,用于预先存储若干法律信息;处理模块,用于接收并处理肢体语言信息和文本信息。采用本方案能够解决法律服务机器人无法采集到准确的语义信息的问题。

Description

基于体态控制的语义信息采集系统及方法
技术领域
本发明涉及法律咨询服务领域,具体涉及一种基于体态控制的语义信息采集系统及方法。
背景技术
目前,中国社会正处于一个产业转型的阶段,人们对于法律服务的需求也日益增加,法律工作者每天为了应付各种各样的法律咨询伤透了脑筋,于是法律服务机器人应运而生。法律服务机器人依托互联网、大数据和云计算技术,能有效整合法治宣传、法律援助、律师、公证、司法鉴定、人民调解、社区矫正等资源,为社会公众提供全方位、全天候、不间断的法律宣传、法律咨询、服务指引服务。
例如,中国专利公开号为CN109108989A的文件中公开了一种语义识别的法律服务专用机器人,涉及法律咨询领域,包括机器人本体以及设置在机器人本体内的服务器;所述机器人本体,包括用来采集咨询问题的采集端;所述服务器,包括用来对咨询问题进行法律语义提取的语义识别模块,所述语义识别模块包括存储并实时更新有多个法律词汇的词汇存储模块;语义识别模块从咨询问题中提取词语,并将每个词语与词汇存储模块中的法律词汇进行对比,用匹配成功的法律词汇替换咨询问题中的词语。
采用该方案能够及时获知咨询者所表达的法律意思,进而快速提供针对性的法律服务;且现有技术中,人们如果遇到较为常见的法律问题可直接与智能普法机器人语音交流,从而提高用户体验和减轻工作人员的压力。但通常,两者在进行语音交流时会出现言语失误的情况,尤其对于心情焦急的咨询者来说,发生言语失误的概率会更高,这将对语音识别的后续工作造成障碍,导致法律服务机器人无法采集到准确的语义信息。
发明内容
本发明意在于提供一种基于体态控制的语义信息采集系统及方法,以解决法律服务机器人无法采集到准确的语义信息的问题。
本发明提供的基础方案为:基于体态控制的语义信息采集系统,包括图像采集模块、声音采集模块、服务器和输出模块,服务器包括语音识别模块、肢体语言分析模块、法律数据库和处理模块,其中:
图像采集模块和声音采集模块分别用于实时获取用户的视频数据和声音信息;
语音识别模块,用于接收并处理声音信息,生成相应的文本信息;
肢体语言分析模块,用于接收并处理视频数据,生成图像数据;并提取图像数据中的特征信息,生成肢体语言信息;
法律数据库,用于预先存储若干法律信息;
处理模块,用于接收并处理肢体语言信息和文本信息,若采集到的肢体语言信息与文本信息不符,生成告警信号,提示用户重新确认;反之,则提取出文本信息中的关键字信息并根据关键字信息从法律数据库中匹配出相应的法律信息,并根据法律信息生成法律建议书;
输出模块,用于接收并显示法律建议书。
本发明的工作原理及优点在于:
相较于现有技术中,智能法律服务机器人与咨询者语音互动后,就能够根据咨询者提供的信息推送出相应的法律信息。本方案采用语音信息和肢体语言信息相结合的方式,综合判断用户的意图。由于人在向外界传达完整的信息的时候,单纯的语言成分只占7%,声调占38%,另外55%的信息都需要由非语言的体态来传达;而且肢体语言通常是一个人的下意识举动,所以与语言相比,体态更具真实性和代表性。使用时,首先由声音采集模块作为输入端,接收用户的声音模拟信号,经过语音识别模块转换为计算机能够识别的数字信号,处理后生成文本信息;不同之处在于,本方案中还加入图像采集模块,用于获取用户在与智能法律服务机器人进行语音互动过程中的视频数据,并由肢体语言分析模块处理生成肢体语言信息。当处理模块判断出肢体语言信息与文本信息不符,便提示用户重新确认传达的信息是否准确。反之,如果肢体语言信息与语言表达的意图相符,则由处理模块提取文本信息中的关键字,并从法律数据库中匹配出相应的法律信息,最后向用户推送法律信息。
综上,采用本方案能够为群众提供更加便捷、专业、全面的法律咨询服务,减轻法律工作者的任务量;同时在用户说话的同时,结合采集该用户的肢体语言信息,辅助进行语音准确度的识别和判断,从而提高语义信息的准确性。
进一步,语音识别模块包括语音特征提取子模块、语料数据库和结果生成子模块,其中:
语音特征提取子模块,用于采用滤波和分帧对声音信息进行预处理;并根据傅里叶变换处理声音信息,生成特征向量;
语料数据库,用于预先存储若干语音样本信息;
结果生成子模块,用于根据深度神经网络处理语音样本信息,经过多次迭代训练,得到训练成功的语言模型;并根据HMM算法处理特征向量,将特征向量匹配到语言模型中,生成相应的文本信息。
有益效果:众所周知,由于采集到的声音信息为波形图(声波),而波形在时域上几乎没有描述能力,所以采用傅里叶变换能够将声音信息从时域转换为频域,频域变换后提取的特征参数能够用于识别;相较于现有技术中采用的动态时间归整算法,本方案中采用的HMM(隐马尔可夫)算法能够适用于连续大词汇量的语音识别系统,并且识别准确率更高。
进一步,肢体语言分析模块包括图像预处理子模块、目标检测子模块以及肢体语言判断子模块,其中:
图像预处理子模块,用于采用灰度转化、中值滤波和直方图均衡化对视频数据进行处理;
目标检测子模块,目标检测子模块,用于预先设定分隔阈值,并根据帧间差分法处理视频数据,对视频数据中相邻两帧图像的像素点灰度值进行差运算,若差值的绝对值大于分隔阈值,则提取出图像中的人手区域;目标检测子模块还用于对人手区域采用二值化处理,生成第一窗口信息;
肢体语言判断子模块,用于根据目标跟踪算法处理第一窗口信息,生成以胳膊肘作为原点、前臂作为纵轴、后臂作为横轴的二维坐标系;并将前臂与后臂垂直时,前臂的区域划定为第一窗口信息的中间区域;当前臂向左右摆动离开中间区域时,判断为否定语义信息。
有益效果:用户与法律服务机器人进行语音交流的过程中,通常采用挥手的方式表达否定;在此过程中,前臂以胳膊肘为支点有规律地摆动。则可以选择使用帧间差分法来进行运动目标的提取,由于帧间差分法的基本原理是,目标在持续的运动过程中相邻像素间的灰度会发生变化,通过比较同一背景下不同时刻的两帧图像,便能够看出运动目标在背景下的运动情况,通过差分运算,选取合适的分隔阈值,使灰度值未发生变化的部分被抵消掉;采用本方案能够利用这种灰度变化的差异将运动中的手臂图像提取出来。在肢体语言中的。
进一步,目标检测子模块还用于根据轮廓特征提取图像中用户的头部区域,生成第二窗口信息,其中第二窗口信息中还包括用户的面部五官;
肢体语言判断子模块还用于以面部五官作为参照对象,并判断相邻两帧图像中参照对象的相对位置信息,如果相对位置信息为纵向变化,则判定为肯定语义信息,反之,如果相对位置信息为横向变化,判定为否定语义信息。
有益效果:肢体语言中除了一般的手势,还包含点头和摇头;交谈过程中用户对于肯定和否定分别采用点头和摇头表示,且这一般是下意识触发的,相对于语言更具真实性;本方案中同样采用帧间差分法进行提取,不同之处仅在于参照对象选用面部五官,如眼睛、耳朵、鼻子、眉毛、嘴巴;所以用户在点头时,以相邻两帧图像中前一帧图像的面部五官为原点,当前帧图像中的面部五官会相对于原点的位置存在纵向(竖直方向)的偏移;反之,摇头时,则会存在横向(水平方向)的偏移。
进一步,所述图像预处理子模块还用于根据Gray=(R*30+G*59+B*11)/100将视频数据中每个像素点的RGB颜色空间转换为一维灰度值;并根据颜色直方图对每个像素点的灰度值进行统计后,采用归一化处理将灰度值重新分配。
有益效果:采用颜色直方图能够分段统计灰度空间中每个像素点出现的频数,计算某一灰度范围内的颜色值在整个图像中所占的比例,如果图像中像素点值很多,像素数目可能会很大,不利于分析统计,因此需要将每个区间段内的数目进行归一化处理,即将每一区间的像素点数除以整个图像中的像素总数,并乘以归一化系数,使其转化为便于分析与统计的值。
进一步:所述分隔阈值为15。
有益效果:对于采用帧间差分法处理视频数据来说,设定一个合适的分隔阈值至关重要。因为如果分隔阈值过大,检测过程中就会出现空洞甚至漏检,反之,若分隔阈值过小,又会出现大量噪声和干扰。在本方案中以15(灰度值)作为分隔阈值,能够提取出完整且真实性较高的图像。
本发明还提供了一种基于体态控制的语义信息采集方法,包括如下步骤:
S1、通过图像采集模块和声音采集模块实时获取用户的视频数据和声音信息;并向法律数据库中预先输入若干法律信息;
S2、通过声音识别模块接收并处理声音信息,生成相应的文本信息;
S3、通过肢体语言分析模块接收并处理视频数据,生成图像数据;并提取图像数据中的特征信息,生成肢体语言信息;
S4、通过处理模块接收并处理肢体语言信息和文本信息,若采集到的肢体语言信息与文本信息不符,生成告警信号,提示用户重新确认;反之,则提取出文本信息中的关键字信息并根据关键字信息从法律数据库中匹配出相应的法律信息,再根据法律信息生成法律建议书;
S5、通过输出模块推送出法律建议书。
有益效果:针对于现目前的一些法律服务机器人,只是单纯的根据采集到的语音信息推断语义会导致检测结果准确率偏低,通常情况下用户出现口误会影响机器人对于结果的判断,所以采取肢体语言和声音信息采集两者相互结合来提升语义信息采集的准确度。最终,由输出模块推送出与用户期望相符的法律信息,及时解答用户关于法律的困惑,并提升用户体验。
进一步,步骤S2包括如下步骤:
S201、通过语音特征提取子模块采用滤波和分帧对声音信息进行预处理;并根据傅里叶变换处理声音信息,生成特征向量;并预先向语料数据库中输入若干语音样本信息;
S202、通过结果生成子模块根据深度神经网络处理语音样本信息,经过多次迭代训练,得到训练成功的语言模型;并根据HMM算法处理特征向量,将特征向量匹配到语言模型中,生成相应的文本信息。
有益效果:采用预处理的方式能够消除声音信息中混叠、高次谐波失真以及高频噪声;同时由于傅里叶变换要求输入信号是平稳的,所以对于本身就具有时变特性的声音信息,需要采取分帧处理,对整个声音信息进行划分,成为若干短时间范围的声音信息序列,其特性基本保持不变,因而可以将其看作是一个准稳态过程,即语音信号具有短时平稳性。同时,特征向量是指MFCC特征,即声音信息曲线中频谱包络和细节进行编码运算后得到的一组特征向量。相当于提取每一帧MFCC特性,由于若干帧包含有与其对应的一个状态,且三个状态能够组成一个音素(最小语音单位),而若干音素又能合成一个单词。根据这个逻辑,根据深度神经网络训练语言样本信息,得到语言模型后,再根据HMM算法将待识别的特征向量代入到该语言模型中,匹配出发生概率最大的状态和音素,再由若干音素组成对应的单词,即可得到对应的文本信息。
进一步,步骤S3包括如下步骤:
S301、通过图像预处理子模块采用灰度转化、中值滤波和直方图均衡化对视频数据进行处理;
S302、通过目标检测子模块预先设定分隔阈值,并根据帧间差分法处理视频数据,对视频数据中相邻两帧图像的像素点灰度值进行差运算,若差值的绝对值大于分隔阈值,则提取出图像中的人手区域;目标检测子模块还用于对人手区域采用二值化处理,生成第一窗口信息;
S303、通过肢体语言判断子模块根据目标跟踪算法处理第一窗口信息,生成以胳膊肘作为原点、前臂作为纵轴、后臂作为横轴的二维坐标系;并将前臂与后臂垂直时,前臂的区域划定为第一窗口信息的中间区域;当前臂向左右摆动离开中间区域时,判断为否定语义信息。
有益效果:通过图像采集模块,能够获取用户在使用法律服务机器人时的视频数据,视频数据可以作为肢体语言识别的素材;本方案中通过采集用户的手势,且通常挥动手臂表示拒绝和否定的意思,所以基于这个逻辑,采用肢体语言结合声音信息的方式,通过两者共同判断出对应的语义,法律服务机器人能够察觉到用户的言语失误,以达到提高语义准确度的目的。
进一步,步骤S3包括如下步骤:
S304、通过目标检测子模块根据轮廓特征提取图像中用户的头部区域,生成第二窗口信息,其中第二窗口信息中还包括用户的面部五官;
S305、通过肢体语言判断子模块以面部五官作为参照对象,并判断相邻两帧图像中参照对象的相对位置信息,如果相对位置信息为纵向变化,则判定为肯定语义信息,反之,如果相对位置信息为横向变化,判定为否定语义信息。
有益效果:相较于手势识别,此方案中以用户的面部五官作为肢体语言判断的研究对象,识别出点头和摇头动作,不仅能够采集到否定语义,还能通过点头判断肯定语义。
附图说明
图1为本发明基于体态控制的语义信息采集系统及方法实施例一的系统框图。
图2为本发明基于体态控制的语义信息采集系统及方法实施例一的流程图。
具体实施方式
下面通过具体实施方式进一步详细的说明:
实施例一
基于体态控制的语义信息采集系统,如图1所示,包括图像采集模块、声音采集模块、服务器和输出模块,服务器包括语音识别模块、肢体语言分析模块、法律数据库和处理模块,其中:图像采集模块采用OV7670摄像头,声音采集模块采用话筒,服务器采用STM32F103C8T6单片机,输出模块采用LP140QH1SPA2 ThinkPad New触摸液晶显示屏。
图像采集模块和声音采集模块分别用于实时获取用户的视频数据和声音信息;
语音识别模块包括语音特征提取子模块、语料数据库和结果生成子模块,语音特征提取子模块,用于采用滤波和分帧对声音信息进行预处理;并根据傅里叶变换处理声音信息,生成特征向量;语料数据库,用于预先存储若干语音样本信息;结果生成子模块,用于根据深度神经网络处理语音样本信息,经过多次迭代训练,得到训练成功的语言模型;并根据HMM算法处理特征向量,将特征向量匹配到语言模型中,生成相应的文本信息;在其他实施例中,使用科大讯飞的语音识别技术,将采集到的声音信息发给指定的服务器,服务器即可反馈识别后的文本信息,采用这种方式不仅能够得到准确率较高的文本,还可以降低开发成本。
肢体语言分析模块包括图像预处理子模块、目标检测子模块以及肢体语言判断子模块,其中:
图像预处理子模块,用于采用灰度转化、中值滤波和直方图均衡化对视频数据进行处理;在另一实施例中,图像预处理子模块还用于根据Gray=(R*30+G*59+B*11)/100将视频数据中每个像素点的RGB颜色空间转换为一维灰度值;并根据颜色直方图对每个像素点的灰度值进行统计后,采用归一化处理将灰度值重新分配;
目标检测子模块,用于预先设定分隔阈值,并根据帧间差分法处理视频数据,对视频数据中相邻两帧图像的像素点灰度值进行差运算,若差值的绝对值大于分隔阈值,则提取出图像中的人手区域;目标检测子模块还用于对人手区域采用二值化处理,生成第一窗口信息;
具体的,采用帧间差分法进行差分处理的数学公式描述为:设fn(i,j),fn+1(i,j)为视频序列中连续的两帧图像,
Figure BDA0002375172660000071
其中,T为分隔阈值,本实施例中设定的分隔阈值T为15,Bn+1(i,j)表示差分后确定的背景区域,Mn+1(i,j)则表示差分后确定为运动的人手区域;
肢体语言判断子模块,用于根据目标跟踪算法处理第一窗口信息,生成以胳膊肘作为原点、前臂作为纵轴、后臂作为横轴的二维坐标系;本实施例中,将前臂与后臂垂直时,前臂的区域划定为第一窗口信息的中间区域;在其他实施例中,考虑到用户举起手臂后,不一定是完全垂直的,可能还存在一些误差;所以轨迹识别子模块还用于根据预设阈值处理中间区域,使前臂与后臂形成的夹角不必为90°,只要该夹角属于[45°,135°]区间内的任一角度值均可;当前臂向左右摆动离开中间区域时,判断为否定语义信息;采用这种方式能够保证手势识别的灵活度和可操作性。
法律数据库,用于预先存储若干法律信息;本实施例中,法律数据库中存储有《劳动合同法》以及《工伤保险条例》,能够根据用户的咨询需求(特指本实施例中用户咨询关于工伤的法律问题)匹配出对应的法律信息(工伤认定标准及其鉴定程序);在其他实施例中法律数据库还可以存储《婚姻法》、《继承法》、《物权法》等法律条款信息;
处理模块,用于接收并处理肢体语言信息和文本信息,若采集到的肢体语言信息与文本信息不符,生成告警信号,提示用户重新确认;即,如果识别出的文本信息中包含有“是的、对、当然、没错”等表述肯定的语义词,而与此同时用户做出挥手的动作,显示屏则会弹出提示框提示用户重新核对确认,得到新的文本信息,并提取其中的关键字,最后再根据关键字匹配出法律信息;反之,则直接提取出文本信息中的关键字信息(工伤)并根据关键字信息从法律数据库中匹配出相应的法律信息,并根据法律信息生成法律建议书;
输出模块,用于向用户推送工伤认定标准和工伤鉴定程序的法律建议书。
基于体态控制的语义信息采集方法,上述系统基于本方法,基本执行流程如图2所示,本实施例中具体包括以下步骤:
S1、通过图像采集模块和声音采集模块实时获取用户的视频数据和声音信息;并向法律数据库中预先输入《劳动合同法》和《工伤保险条例》;
S201、通过语音特征提取子模块采用滤波和分帧对声音信息进行预处理;并根据傅里叶变换处理声音信息,生成特征向量;并预先向语料数据库中输入若干语音样本信息;
S202、通过结果生成子模块根据深度神经网络处理语音样本信息,经过多次迭代训练,得到训练成功的语言模型;并根据HMM算法处理特征向量,将特征向量匹配到语言模型中,生成相应的文本信息;
S301、通过图像预处理子模块采用灰度转化、中值滤波和直方图均衡化对视频数据进行处理;
S302、通过目标检测子模块预先设定分隔阈值,并根据帧间差分法处理视频数据,对视频数据中相邻两帧图像的像素点灰度值进行差运算,若差值的绝对值大于分隔阈值,则提取出图像中的人手区域;目标检测子模块还用于对人手区域采用二值化处理,生成第一窗口信息;
S303、通过肢体语言判断子模块根据目标跟踪算法处理第一窗口信息,生成以胳膊肘作为原点、前臂作为纵轴、后臂作为横轴的二维坐标系;并将前臂与后臂垂直时,前臂的区域划定为第一窗口信息的中间区域;当前臂向左右摆动离开中间区域时,判断为否定语义信息;
S4、通过处理模块接收并处理肢体语言信息和文本信息,若采集到的肢体语言信息与文本信息不符,生成告警信号,提示用户重新确认;即,如果识别出的文本信息中包含有“是的、对、当然、没错”等表述肯定的语义词,而与此同时用户做出挥手的动作,显示屏则会弹出提示框提示用户重新核对确认,得到新的文本信息,并提取其中的关键字,最后再根据关键字匹配出法律信息;反之,则直接提取出文本信息中的关键字信息(工伤),并根据关键字信息从法律数据库中匹配出相应的法律信息,再根据法律信息生成法律建议书;
S5、通过输出模块向用户推送工伤认定标准和工伤鉴定程序的法律建议书。
具体的,图像采集模块与图像预处理子模块信号连接,图像采集模块还用于将视频数据发送到图像预处理子模块;图像预处理子模块与目标检测子模块之间信号连接,目标检测子模块与肢体语言判断子模块信号连接;声音采集模块与语音特征提取子模块信号连接,语音特征提取子模块和语料数据库分别与结果生成子模块信号连接;肢体语言判断子模块、结果生成子模块和法律数据库分别与处理模块信号连接,最后,处理模块与输出模块之间信号连接。
本实施例中选用一名试验人员进行测试,该试验人员使用的法律服务机器人搭载有本方案中设计的基于体态控制的语义信息采集控制系统,即,该法律服务机器人可以看作是一个安装系统中各个模块的外壳,放置在社区服务中心供老百姓使用。首先,由试验人员说出“我是一名建筑工人,在工作期间被砸伤右脚,我该如何申请工伤认定”,通过话筒采集到这部分声音信息作为输入信号,再由语音识别模块处理后转化为相应的文本信息,并提取出文本信息中的关键词为工伤认定;然后根据该关键词从法律数据库中匹配出相应的认定标准用以辅助判断,即输出“事故发生至今的时效是否超过一年?”和“是否有入院记录、病历资料、出院小结等证明资料?”,试验人员在回答第一个问题时,说出“没有,从事故发生至今还没有超过一年”;但回答第二个问题时,说出“是的,我有住院时的病历资料”,于此同时试验人员举起手臂挥动;系统中的图像采集模块将这部分视频数据作为输入信号,经过分析处理后判断为否定的肢体语言信息,但是经过比对后发现肢体语言信息与文本信息的语义截然相反,即,肢体语言表示否定,而文本信息对问题的回答是肯定的。所以,此时显示屏会弹出一个提示框告知试验人员,并提示重新确认。最终,经过综合分析,其中的关键信息是时效未超过一年,从法律数据库中匹配到相应的法律信息为“工伤认定的程序:到劳动局拿工伤认定申请表→填写表格→到劳动局提交材料→60天内拿结果,材料包括:1、工伤认定申请表(应当包括事故发生的时间、地点、原因以及职工伤害程度等基本情况);2、与用人单位存在劳动关系(包括事实劳动关系)的证明材料;3、医疗诊断证明或者职业病诊断证明书(或者职业病诊断鉴定书)。”,并且,由于经过再次确认发现该试验人员没有医院的证明资料,显示屏中还会输出“劳动者可以出院后再到医院病案室复印入院记录和出院小结,然后找到主管医生补开一张诊断证明,就可以申请工伤认定了”的信息。
实施例二
与实施例一相比,不同之处仅在于,目标检测子模块还用于根据轮廓特征提取图像中用户的头部区域,生成第二窗口信息,其中第二窗口信息中还包括用户的面部五官;
肢体语言判断子模块还用于以面部五官作为参照对象,并判断相邻两帧图像中参照对象的相对位置信息,如果相对位置信息为纵向变化,则判定为肯定语义信息,反之,如果相对位置信息为横向变化,判定为否定语义信息。
基于体态控制的语义信息采集方法,上述系统基于本方法,包括如下步骤:
S1、通过图像采集模块和声音采集模块实时获取用户的视频数据和声音信息;并向法律数据库中预先输入《劳动合同法》和《工伤保险条例》。
S201、通过语音特征提取子模块采用滤波和分帧对声音信息进行预处理;并根据傅里叶变换处理声音信息,生成特征向量;并预先向语料数据库中输入若干语音样本信息;
S202、通过结果生成子模块根据深度神经网络处理语音样本信息,经过多次迭代训练,得到训练成功的语言模型;并根据HMM算法处理特征向量,将特征向量匹配到语言模型中,生成相应的文本信息;
S301、通过图像预处理子模块采用灰度转化、中值滤波和直方图均衡化对视频数据进行处理;
S304、通过目标检测子模块根据轮廓特征提取图像中用户的头部区域,生成第二窗口信息,其中第二窗口信息中还包括用户的面部五官;
S305、通过肢体语言判断子模块以面部五官作为参照对象,并判断相邻两帧图像中参照对象的相对位置信息,如果相对位置信息为纵向变化(摇头动作),则判定为肯定语义信息,反之,如果相对位置信息为横向变化(点头动作),判定为否定语义信息;
S4、通过处理模块接收并处理肢体语言信息和文本信息,若采集到的肢体语言信息与文本信息不符,生成告警信号,提示用户重新确认;本实施例中,如果识别出的文本信息中包含有“是的、对、当然、没错”等表述肯定的语义词,而同时用户做出摇头的动作;在其他实施例中,若文本信息中包含有“不、没、无”等表否定的语义,而与此同时用户做出点头动作;在这两种情况下显示屏均会弹出提示框提示用户重新核对确认,得到新的文本信息,并提取其中的关键字,最后再根据关键字匹配出法律信息;反之,则提取出文本信息中的关键字信息(工伤)并根据关键字信息从法律数据库中匹配出相应的法律信息,并根据法律信息生成法律建议书;
S5、通过输出模块推送工伤认定标准和工伤鉴定程序的法律建议书。
值得一提的是,对于用户的手势识别步骤和点头摇头识别步骤,在本方案中两者的先后顺序可以不做限定。即,根据实际情况利用肢体语言信息辅助判断语义信息,设计点头摇头识别是为了防止采集到的视频数据中没有关于手势信息,从而体现出该方案的实用性。但是,也可以采用手势识别结合点头摇头识别共同判断肢体语言,即对于视频数据中既包含手势信息(挥手表否定),又包含点头摇头时,采集该视频数据后同步识别出肢体语义信息以达到辅助判断的目的,进而提升输出结果的准确性。
同样的,本实施例中选用另一名试验人员使用该语义信息采集系统进行测试,这名试验人员说出“我是一家公司的保安,在值班过程中发现有人盗窃公司财物便上前阻止;但是与小偷争执的过程中不幸被对方打伤,我这种情况属于工伤的范围吗,我该如何申请工伤认定”,提取到这句话中关键词为工伤后,继续匹配出“事故发生至今的时效是否超过一年?”、“是否有入院记录、病历资料、出院小结等证明资料?”这两个问题在显示屏上;然后,试验人员根据第一个问题的回答为“没有超过一年”,同时,这名试验人员一边说出这句话一边摇头表示否定,最终处理模块判断肢体语言(摇头)和文本信息(没有超过一年)的语义相符;而对于第二个问题的回答为“有入院记录”,但是试验人员在说出这句话时的下意识动作为摇头,所以肢体语言(摇头)和文本信息(有入院记录)的语义不符;再发送提示框请求试验人员进行信息的确认;最终,从法律数据库中匹配到相应的法律信息为“工伤认定的程序:到劳动局拿工伤认定申请表→填写表格→到劳动局提交材料→60天内拿结果,材料包括:1、工伤认定申请表(应当包括事故发生的时间、地点、原因以及职工伤害程度等基本情况);2、与用人单位存在劳动关系(包括事实劳动关系)的证明材料;3、医疗诊断证明或者职业病诊断证明书(或者职业病诊断鉴定书)。”,并且,由于经过再次确认发现该试验人员在回答第二个问题时出现口误(言语失误),实际上这名试验人员并没有医院的证明资料,显示屏中还会输出“劳动者可以出院后再到医院病案室复印入院记录和出院小结,然后找到主管医生补开一张诊断证明,就可以申请工伤认定了”的信息。
实施例三
与实施例二相比,不同之处仅在于,还包括自纠正步骤,通过结果生成子模块得到文本信息后,根据预设条件提取出文本信息中连续出现的特征向量,若其中一个特征向量与其余特征向量的长度和方向不同,则提取并处理该特征向量发生节点的视频数据,得到肢体语言信息;如果肢体语言信息和文本信息不符,则提示弹出提示框告知用户。
以二维空间举例说明,由于特征向量为矢量,是一种既有大小又有方向的量,结合到实际情况中,用户在进行语音通话时,整段话中通常包括有重复的话语,这些重复的话语的特征向量的大小和方向是相同的,假设这段话中出现前后矛盾的情况,则会导致矢量的大小和方向存在偏差;所以基于这个特征,处理模块获取到这一触发条件后,再识别出现偏差的时间节点的视频图像,结合手势和头部的肢体语言信息综合判断该时间节点的语义信息;若肢体语言信息和文本信息不符,显示屏会弹出提示框提示用户重新核对确认,得到新的文本信息,并提取其中的关键字并根据关键字信息从法律数据库中匹配出相应的法律信息,再根据法律信息生成法律建议书。
相较于采用肢体语言分析模块需要不断识别出肢体语言信息,采用这种方式能够在语义出现前后矛盾时,再识别该时间节点的肢体语言信息,能够避免肢体语言分析模块一直处于工作状态,从而减少系统的运算量。
以上所述的仅是本发明的实施例,方案中公知的具体结构及特性等常识在此未作过多描述,所属领域普通技术人员知晓申请日或者优先权日之前发明所属技术领域所有的普通技术信息,能够获知该领域中所有的现有技术,并且具有应用该日期之前常规实验手段的能力,所属领域普通技术人员可以在本申请给出的启示下,结合自身能力完善并实施本方案,一些典型的公知结构或者公知方法不应当成为所属领域普通技术人员实施本申请的障碍。应当指出,对于本领域的技术人员来说,在不脱离本发明结构的前提下,还可以作出若干变形和改进,这些也应该视为本发明的保护范围,这些都不会影响本发明实施的效果和专利的实用性。本申请要求的保护范围应当以其权利要求的内容为准,说明书中的具体实施方式等记载可以用于解释权利要求的内容。

Claims (10)

1.基于体态控制的语义信息采集系统,包括图像采集模块、声音采集模块、服务器和输出模块,其特征在于,服务器包括语音识别模块、肢体语言分析模块、法律数据库和处理模块,其中:
图像采集模块和声音采集模块分别用于实时获取用户的视频数据和声音信息;
语音识别模块,用于接收并处理声音信息,生成相应的文本信息;
肢体语言分析模块,用于接收并处理视频数据,生成图像数据;并提取图像数据中的特征信息,生成肢体语言信息;
法律数据库,用于预先存储若干法律信息;
处理模块,用于接收并处理肢体语言信息和文本信息,若采集到的肢体语言信息与文本信息不符,生成告警信号,提示用户重新确认;反之,则提取出文本信息中的关键字信息并根据关键字信息从法律数据库中匹配出相应的法律信息,并根据法律信息生成法律建议书;
输出模块,用于接收并显示法律建议书。
2.根据权利要求1所述的基于体态控制的语义信息采集系统,其特征在于:语音识别模块包括语音特征提取子模块、语料数据库和结果生成子模块,其中:
语音特征提取子模块,用于采用滤波和分帧对声音信息进行预处理;并根据傅里叶变换处理声音信息,生成特征向量;
语料数据库,用于预先存储若干语音样本信息;
结果生成子模块,用于根据深度神经网络处理语音样本信息,经过多次迭代训练,得到训练成功的语言模型;并根据HMM算法处理特征向量,将特征向量匹配到语言模型中,生成相应的文本信息。
3.根据权利要求1所述的基于体态控制的语义信息采集系统,其特征在于:肢体语言分析模块包括图像预处理子模块、目标检测子模块以及肢体语言判断子模块,其中:
图像预处理子模块,用于采用灰度转化、中值滤波和直方图均衡化对视频数据进行处理;
目标检测子模块,目标检测子模块,用于预先设定分隔阈值,并根据帧间差分法处理视频数据,对视频数据中相邻两帧图像的像素点灰度值进行差运算,若差值的绝对值大于分隔阈值,则提取出图像中的人手区域;目标检测子模块还用于对人手区域采用二值化处理,生成第一窗口信息;
肢体语言判断子模块,用于根据目标跟踪算法处理第一窗口信息,生成以胳膊肘作为原点、前臂作为纵轴、后臂作为横轴的二维坐标系;并将前臂与后臂垂直时,前臂的区域划定为第一窗口信息的中间区域;当前臂向左右摆动离开中间区域时,判断为否定语义信息。
4.根据权利要求3所述的基于体态控制的语义信息采集系统,其特征在于:目标检测子模块还用于根据轮廓特征提取图像中用户的头部区域,生成第二窗口信息,其中第二窗口信息中还包括用户的面部五官;
肢体语言判断子模块还用于以面部五官作为参照对象,并判断相邻两帧图像中参照对象的相对位置信息,如果相对位置信息为纵向变化,则判定为肯定语义信息,反之,如果相对位置信息为横向变化,判定为否定语义信息。
5.根据权利要求3所述的基于体态控制的语义信息采集系统,其特征在于:所述图像预处理子模块还用于根据Gray=(R*30+G*59+B*11)/100将视频数据中每个像素点的RGB颜色空间转换为一维灰度值;并根据颜色直方图对每个像素点的灰度值进行统计后,采用归一化处理将灰度值重新分配。
6.根据权利要求3所述的基于体态控制的语义信息采集系统,其特征在于:所述分隔阈值为15。
7.基于体态控制的语义信息采集方法,其特征在于:还包括如下步骤:
S1、通过图像采集模块和声音采集模块实时获取用户的视频数据和声音信息;并向法律数据库中预先输入若干法律信息;
S2、通过声音识别模块接收并处理声音信息,生成相应的文本信息;
S3、通过肢体语言分析模块接收并处理视频数据,生成图像数据;并提取图像数据中的特征信息,生成肢体语言信息;
S4、通过处理模块接收并处理肢体语言信息和文本信息,若采集到的肢体语言信息与文本信息不符,生成告警信号,提示用户重新确认;反之,则提取出文本信息中的关键字信息并根据关键字信息从法律数据库中匹配出相应的法律信息,再根据法律信息生成法律建议书;
S5、通过输出模块推送出法律建议书。
8.根据权利要求7所述的基于体态控制的语义信息采集方法,其特征在于:步骤S2包括如下步骤:
S201、通过语音特征提取子模块采用滤波和分帧对声音信息进行预处理;并根据傅里叶变换处理声音信息,生成特征向量;并预先向语料数据库中输入若干语音样本信息;
S202、通过结果生成子模块根据深度神经网络处理语音样本信息,经过多次迭代训练,得到训练成功的语言模型;并根据HMM算法处理特征向量,将特征向量匹配到语言模型中,生成相应的文本信息。
9.根据权利要求7所述的基于体态控制的语义信息采集方法,其特征在于:步骤S3包括如下步骤:
S301、通过图像预处理子模块采用灰度转化、中值滤波和直方图均衡化对视频数据进行处理;
S302、通过目标检测子模块预先设定分隔阈值,并根据帧间差分法处理视频数据,对视频数据中相邻两帧图像的像素点灰度值进行差运算,若差值的绝对值大于分隔阈值,则提取出图像中的人手区域;目标检测子模块还用于对人手区域采用二值化处理,生成第一窗口信息;
S303、通过肢体语言判断子模块根据目标跟踪算法处理第一窗口信息,生成以胳膊肘作为原点、前臂作为纵轴、后臂作为横轴的二维坐标系;并将前臂与后臂垂直时,前臂的区域划定为第一窗口信息的中间区域;当前臂向左右摆动离开中间区域时,判断为否定语义信息。
10.根据权利要求9所述的基于体态控制的语义信息采集方法,其特征在于:步骤S3包括如下步骤:
S304、通过目标检测子模块根据轮廓特征提取图像中用户的头部区域,生成第二窗口信息,其中第二窗口信息中还包括用户的面部五官;
S305、通过肢体语言判断子模块以面部五官作为参照对象,并判断相邻两帧图像中参照对象的相对位置信息,如果相对位置信息为纵向变化,则判定为肯定语义信息,反之,如果相对位置信息为横向变化,判定为否定语义信息。
CN202010063277.4A 2020-01-20 2020-01-20 基于体态控制的语义信息采集系统及方法 Active CN111274460B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010063277.4A CN111274460B (zh) 2020-01-20 2020-01-20 基于体态控制的语义信息采集系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010063277.4A CN111274460B (zh) 2020-01-20 2020-01-20 基于体态控制的语义信息采集系统及方法

Publications (2)

Publication Number Publication Date
CN111274460A true CN111274460A (zh) 2020-06-12
CN111274460B CN111274460B (zh) 2021-05-18

Family

ID=70996841

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010063277.4A Active CN111274460B (zh) 2020-01-20 2020-01-20 基于体态控制的语义信息采集系统及方法

Country Status (1)

Country Link
CN (1) CN111274460B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112750437A (zh) * 2021-01-04 2021-05-04 欧普照明股份有限公司 控制方法、控制装置及电子设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104346626A (zh) * 2014-10-30 2015-02-11 国家电网公司 基于图像识别的sf6气体泄漏在线模式识别方法
CN104463191A (zh) * 2014-10-30 2015-03-25 华南理工大学 一种基于注意机制的机器人视觉处理方法
CN108174046A (zh) * 2017-11-10 2018-06-15 大连金慧融智科技股份有限公司 一种用于呼叫中心的人员监控系统及方法
CN109410940A (zh) * 2018-12-05 2019-03-01 湖北安心智能科技有限公司 一种基于显控台的人机交互方法及系统
CN110232564A (zh) * 2019-08-02 2019-09-13 南京擎盾信息科技有限公司 一种基于多模态数据的交通事故法律自动决策方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104346626A (zh) * 2014-10-30 2015-02-11 国家电网公司 基于图像识别的sf6气体泄漏在线模式识别方法
CN104463191A (zh) * 2014-10-30 2015-03-25 华南理工大学 一种基于注意机制的机器人视觉处理方法
CN108174046A (zh) * 2017-11-10 2018-06-15 大连金慧融智科技股份有限公司 一种用于呼叫中心的人员监控系统及方法
CN109410940A (zh) * 2018-12-05 2019-03-01 湖北安心智能科技有限公司 一种基于显控台的人机交互方法及系统
CN110232564A (zh) * 2019-08-02 2019-09-13 南京擎盾信息科技有限公司 一种基于多模态数据的交通事故法律自动决策方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
冯莹莹: "《智能监控视频中运动目标跟踪方法研究》", 30 June 2018, 吉林大学出版社 *
曾向阳等: "《声信号处理基础》", 30 September 2015, 西北工业大学出版社 *
毕惜茜: "《心理突破 审讯中的心理学原理与方法》", 30 November 2017, 中国法制出版社 *
腾讯研究院: "《网络法论丛》", 31 January 2018, 中国政法大学出版社 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112750437A (zh) * 2021-01-04 2021-05-04 欧普照明股份有限公司 控制方法、控制装置及电子设备

Also Published As

Publication number Publication date
CN111274460B (zh) 2021-05-18

Similar Documents

Publication Publication Date Title
CN111461176B (zh) 基于归一化互信息的多模态融合方法、装置、介质及设备
US10438586B2 (en) Voice dialog device and voice dialog method
CN115413348B (zh) 用于自动验证和量化面试问题回答的系统和方法
CN110634472B (zh) 一种语音识别方法、服务器及计算机可读存储介质
JP3346799B2 (ja) 手話通訳装置
CN109543020B (zh) 问询处理方法及系统
Vajpai et al. Industrial applications of automatic speech recognition systems
US11929078B2 (en) Method and system for user voice identification using ensembled deep learning algorithms
CN108109445B (zh) 教学课情监控方法
CN112016367A (zh) 一种情绪识别系统、方法及电子设备
CN111326178A (zh) 基于卷积神经网络的多模态语音情感识别系统及方法
Zhang et al. Intelligent speech technologies for transcription, disease diagnosis, and medical equipment interactive control in smart hospitals: A review
CN110265008A (zh) 智能回访方法、装置、计算机设备及存储介质
CN110047518A (zh) 一种语音情感分析系统
CN111274460B (zh) 基于体态控制的语义信息采集系统及方法
CN114138960A (zh) 用户意图识别方法、装置、设备及介质
CN110221693A (zh) 一种基于人机交互的智能零售终端操作系统
JP7040593B2 (ja) 接客支援装置、接客支援方法、及び、接客支援プログラム
Yoon et al. Fear emotion classification in speech by acoustic and behavioral cues
CN114676259A (zh) 一种基于因果感知交互网络的对话情绪识别方法
Markitantov et al. Biometric Russian Audio-Visual Extended MASKS (BRAVE-MASKS) Corpus: Multimodal Mask Type Recognition Task.
CN113869212A (zh) 多模态活体检测方法、装置、计算机设备及存储介质
Amin et al. HMM based automatic Arabic sign language translator using Kinect
CN117877660A (zh) 基于语音识别的医学报告获取方法及系统
CN117021130A (zh) 一种基于人工智能的心理咨询聊天机器人

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP01 Change in the name or title of a patent holder

Address after: Office 1, 18, building 7, Zhongyu xiangnai mansion, No. 101, Xinji Avenue, Longxi street, Yubei District, Chongqing

Patentee after: Chongqing Daniu Cognitive Technology Co.,Ltd.

Address before: Office 1, 18, building 7, Zhongyu xiangnai mansion, No. 101, Xinji Avenue, Longxi street, Yubei District, Chongqing

Patentee before: Chongqing best Daniel robot Co.,Ltd.

CP01 Change in the name or title of a patent holder