CN118968990A - 一种多人唇语交互方法及装置 - Google Patents
一种多人唇语交互方法及装置 Download PDFInfo
- Publication number
- CN118968990A CN118968990A CN202411432957.3A CN202411432957A CN118968990A CN 118968990 A CN118968990 A CN 118968990A CN 202411432957 A CN202411432957 A CN 202411432957A CN 118968990 A CN118968990 A CN 118968990A
- Authority
- CN
- China
- Prior art keywords
- server
- websocket
- client
- instruction
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/24—Speech recognition using non-acoustical features
- G10L15/25—Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/02—Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/14—Session management
- H04L67/141—Setup of application sessions
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L69/00—Network arrangements, protocols or services independent of the application payload and not provided for in the other groups of this subclass
- H04L69/16—Implementation or adaptation of Internet protocol [IP], of transmission control protocol [TCP] or of user datagram protocol [UDP]
- H04L69/161—Implementation details of TCP/IP or UDP/IP stack architecture; Specification of modified or new header fields
- H04L69/162—Implementation details of TCP/IP or UDP/IP stack architecture; Specification of modified or new header fields involving adaptations of sockets based mechanisms
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Computer Security & Cryptography (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本申请提出一种多人唇语交互方法及装置,该方法利用Netty框架部署WebSocket服务,实现多设备间实时连接。用户唇语指令经AI识别后,若成功则转为WebSocket消息体并简化为数字代码发送至服务端。服务端解码并据此向其他设备发送语音或提示。未识别指令则特殊处理。此方案通过WebSocket与数字编码,为复杂环境提供稳定高效的唇语交互解决方案。
Description
技术领域
本申请属于唇语交互领域,尤其涉及一种多人唇语交互方法及装置。
背景技术
在日常的交互方式中,语音是交互与沟通最高效的方式。然而,在某些特定的业务场景,如消防救援、火灾救援以及军事行动等,由于环境中存在噪声以及有害气体的干扰,传统的语音交互方式的效果会大打折扣。为了在这些复杂环境下提升交互效率,唇语交互作为图形图像技术和模式识别的一个新型应用方向,逐渐得到了关注和应用。
唇语交互技术通过捕捉并分析用户的唇部动作,将其转化为可理解的指令或信息,从而实现了在噪声环境下或无法进行语音交流时的有效沟通。该技术不仅能够有效提升复杂环境下的语音交互效果,完善这些特定场景的交互方式,而且对于终端用户而言,唇语交互的操作性简单,易于上手,学习成本低,是一个友好且实用的交互技术。
然而,现有唇语交互技术在实际应用中仍存在一些缺陷和不足。由于需要在客户设备端引入对应的人工智能算法模型进行识别推理操作,这会导致客户设备端的算力负担加重,同时对网络通信的要求也较高。在网络波动的情况下,唇语交互的效果可能会受到较大影响,导致通信不稳定或信息传输失败。
发明内容
本申请的目的在于克服上述现有技术中存在的问题,提供一种多人唇语交互方法及装置。
本申请提供一种多人唇语交互方法,包括:
基于Netty框架搭建部署WebSocket服务;
基于所述WebSocket服务,多个客户设备端发起WebSocket连接请求,与服务端连接;
所述客户设备端接受用户发出的唇语指令信息,所述唇语指令信息通过人工智能模型识别唇语指令含义,包括:若未识别出指令含义,做特殊标记处理;若识别出指令含义,将唇语指令构建WebSocket消息体;
对所述WebSocket消息体简化为数字代码;
所述客户设备端发送WebSocket消息体到服务端,上报当前数字代码;
所述服务端处理接收、解码所述WebSocket消息体,获取所述数字代码;
所述服务端根据所述数字代码确定并像其他所述客户设备端发送语音或提示。
可选地,还包括:
所述服务端或者客户设备端发起断开连接的指令,断开该设备的连接。
可选地,多个客户设备端发起WebSocket连接请求,与服务端连接,包括:
如果连接失败,则发出语音报警提示。
可选地,多个客户设备端发起WebSocket连接请求,与服务端连接,包括:
连接成功后,服务端记录已上线的设备消息并做出上线提醒。
可选地,多个客户设备端发起WebSocket连接请求,与服务端连接,连接成功后包括:
所述客户设备端通过WebSocket服务定时向所述服务端发送心跳信息;
所述服务端收到消息后更新所述客户设备端的心跳时间;
所述服务端定时扫描已连接的设备信息,如果发现超过5秒没有收到心跳信息和指令消息,则认为所述客户设备端已下线,发出报警信息。
本申请还提供一种多人唇语交互装置,包括:
服务模块,用于基于Netty框架搭建部署WebSocket服务;
连接模块,用于基于所述WebSocket服务,多个客户设备端发起WebSocket连接请求,与服务端连接;
处理模块,用于所述客户设备端接受用户发出的唇语指令信息,所述唇语指令信息通过人工智能模型识别唇语指令含义,包括:若未识别出指令含义,做特殊标记处理;若识别出指令含义,将唇语指令构建WebSocket消息体;
简化模块,用于对所述WebSocket消息体简化为数字代码;
上报模块,用于所述客户设备端发送WebSocket消息体到服务端,上报当前数字代码;
解码模块,用于所述服务端处理接收、解码所述WebSocket消息体,获取所述数字代码;
转发模块,用于所述服务端根据所述数字代码确定并像其他所述客户设备端发送语音或提示。
可选地,还包括:
断开模块,用于所述服务端或者客户设备端发起断开连接的指令,断开该设备的连接。
可选地,所述连接模块将多个客户设备端发起WebSocket连接请求,与服务端连接,包括:
如果连接失败,则发出语音报警提示。
可选地,所述连接模块将多个客户设备端发起WebSocket连接请求,与服务端连接,包括:
连接成功后,服务端记录已上线的设备消息并做出上线提醒。
可选地,所述连接模块将多个客户设备端发起WebSocket连接请求,与服务端连接,连接成功后包括:
所述客户设备端通过WebSocket服务定时向所述服务端发送心跳信息;
所述服务端收到消息后更新所述客户设备端的心跳时间;
所述服务端定时扫描已连接的设备信息,如果发现超过5秒没有收到心跳信息和指令消息,则认为所述客户设备端已下线,发出报警信息。
本申请的有益效果是:
本申请提供一种多人唇语交互方法,包括:基于Netty框架搭建部署WebSocket服务;基于所述WebSocket服务,多个客户设备端发起WebSocket连接请求,与服务端连接;所述客户设备端接受用户发出的唇语指令信息,所述唇语指令信息通过人工智能模型识别唇语指令含义,包括:若未识别出指令含义,做特殊标记处理;若识别出指令含义,将唇语指令构建WebSocket消息体;对所述WebSocket消息体简化为数字代码;所述客户设备端发送WebSocket消息体到服务端,上报当前数字代码;所述服务端处理接收、解码所述WebSocket消息体,获取所述数字代码;所述服务端根据所述数字代码确定并像其他所述客户设备端发送语音或提示。本发明通过WebSocket服务和数字代码,为复杂环境下的唇语交互提供了更加可靠、高效的解决方案。
附图说明
图1是本申请中多人唇语交互流程示意图;
图2是本申请中自组网络设备架构示意图;
图3是本申请中通信业务流程示意图;
图4是本申请中多人唇语交互装置示意图。
具体实施方式
下面结合附图和具体实施例对本申请作进一步说明,以使本领域的技术人员更好地理解本申请并能予以实施。
请参照图1所示,本申请提供一种多人唇语交互方法,包括:
S101、基于Netty框架搭建部署WebSocket服务。
搭建自组网网络环境,支持有线网络、无线网络或移动网络等多种连接方式。
使用Netty框架在服务端部署WebSocket服务,实现轻量化网络条件下的服务部署。
如图2所示,WebSocket服务的实施通过包括自组网络1、服务器设备2、端部设备3、服务器设备2内设置的服务端相关业务4、端部设备3内设置的端部设备相关业务5实现。
实施步骤如下:
自组网络1,采用的设备包括无线1-1、路由器1-2、有线1-3,自组网络1搭建成功后作为网络通讯的基础建设模块。
服务端部署,将服务端应用系统部署到服务器设备2中,服务器设备2选型包括移动设备2-1、笔记本2-2、服务器2-3、PC电脑2-4,可针对不同的场景选型实施。
本申请系统框架选型SpringBoot搭建基于Netty的WebSocket服务。
本申请中端部设备3(客户设备端)部署是基于安卓平台部署端部应用系统以及集成人工智能算法模型,所述端部设备3包括无人机3-1、摄像头3-2、移动设备3-3、笔记本3-4,实施时参考实际情况选型决策;端部深度学习模型应用框架采用开源的NCNN(NebulaConvolutional Neural Network)Mediapipe框架。
服务端相关业务4,包括其它业务4-1、指令信息4-2、心跳检测4-3,其中指令信息4-2和心跳检测4-3和本发明的功能点相关,接受端部设备3发来的WebSocket信息进行业务处理。
端部设备相关业务5,包括指令检测5-1、心跳信息5-2、模型部署5-3,其中指令检测5-1和心跳信息5-2和本发明的功能点相关,向服务端发送WebSocket心跳信息以及在指令识别后向服务端发送WebSocket信息。
S102、基于所述WebSocket服务,多个客户设备端发起WebSocket连接请求,与服务端连接。
服务端(服务器设备2和服务端相关业务4)首先启动并部署WebSocket服务。确保服务端能够监听并响应来自客户设备端的连接请求和其他类型的消息。
服务端通过WebSocket服务持续监听各种类型的消息,包括但不限于设备上线请求、心跳信息、唇语指令等。
客户设备端(端部设备3和端部设备相关业务5)上线后,主动向服务端发起WebSocket连接请求。确保客户设备端加入通信网络并与服务端建立实时通信链路的基础。
如果连接成功,客户设备端与服务端之间将建立稳定的WebSocket连接,并启动心跳机制以维持连接状态。
如果连接失败,客户设备端将通过发送报警信息,提示用户或管理员检查网络连接或设备状态。
客户设备端通过WebSocket服务定时向服务端发送心跳信息(例如每隔1秒发送一次),以表明自身仍然在线并正常工作。
所述服务端定期扫描已连接的设备信息,并更新各设备的心跳时间。如果发现某个设备超过预设时间(如5秒)未发送心跳信息或指令消息,则认为该设备已下线,并发出报警信息。
客户设备端通过部署的人工智能模型识别当前用户发出的唇语指令含义,并将识别结果构建为WebSocket消息体进行简化处理为数字代码(如将“出发”指令简化为代码“01”,错误代码设置为“00”)。
客户设备端将处理后的WebSocket消息体发送至服务端。如果消息发送失败,客户设备端将发送报警信息,提示发送失败。
服务端收到客户设备端发送的WebSocket消息体后,进行解码操作并根据解码结果进行相应的处理。例如,如果解码得到的消息体是“01”,且场景值为“小组内广播”,服务端会将该消息广播给小组内的所有已连接设备。
如果服务端解码得到错误代码“00”,则会对该设备做特殊标记,并通过语音提示等方式通知负责人员进行处理。
S103、所述客户设备端接受用户发出的唇语指令信息,所述唇语指令信息通过人工智能模型识别唇语指令含义,包括:若未识别出指令含义,做特殊标记处理;若识别出指令含义,将唇语指令构建WebSocket消息体。
客户设备端(如智能摄像头、无人机等)首先通过其内置的摄像头捕获用户的唇部动作视频流。这些唇部动作视频流将被实时传输到设备端的处理单元进行进一步分析。
客户设备端已经预先部署了基于深度学习的人工智能算法模型,该模型专门用于唇语识别。这些模型可能是基于开源框架如NCNN(Nebula Convolutional NeuralNetwork)或MediaPipe等构建的。
设备端将捕获的唇部动作视频流输入到已部署的人工智能算法模型中。模型通过对视频流中的唇部动作进行分析,尝试识别出用户发出的唇语指令。
如果模型成功识别出唇语指令,它将解析出指令的具体含义。例如,用户可能说出了“出发”或“停止”等指令。
模型将这些指令的含义转换为设备端可以理解的形式,以便进行后续处理。
如果人工智能模型无法识别出用户发出的唇语指令含义(即未识别出任何有效指令),设备端将对这些未识别的指令做特殊标记处理。
特殊标记可能包括在内部日志中记录未识别事件、生成错误代码(如“00”用于表示错误或未识别指令)或触发报警机制以通知用户或管理员注意。
一旦唇语指令被成功识别并解析出其含义,设备端将准备将这些指令信息发送到服务端进行进一步处理。
客户设备端(如智能摄像设备、无人机或移动设备等)会捕捉用户发出的唇语指令,并通过部署在设备端的人工智能模型(如基于深度学习的唇语识别模型)进行指令识别。
客户设备端将简化处理后的唇语指令构建成WebSocket消息体。WebSocket消息体通常包含多个部分,如消息头、消息体和可能的消息尾。在申请中,消息体主要包含简化后的唇语指令代码及相关的元数据(如指令类型、发送者标识、接收者标识等)。
在将唇语指令数据填充到WebSocket消息体后,设备端可能还需要对数据进行格式化和编码,以确保数据在网络传输过程中的准确性和可靠性。这包括选择合适的编码方式(如JSON、XML或自定义的二进制格式)对消息体进行编码,以及添加必要的校验和或签名以增加数据的安全性。
S104、对所述WebSocket消息体简化为数字代码。
在WebSocket通信中,特别是在涉及到实时性要求较高且数据量较大的场景(如多人唇语交互),为了减少网络传输的数据量,提高传输效率和响应速度,通常会对消息体中的指令进行简化处理。指令简化的主要目的是减少每个消息的数据大小,从而降低网络带宽的消耗,加快数据传输速度。
定义代码映射表:事先定义一个代码与文本指令之间的映射表。例如,将“出发”指令映射为“01”,将“错误”或无法识别的指令映射为“00”。
转换指令:在设备端将识别出的唇语指令与映射表中的文本指令进行匹配,找到对应的数字代码。
更新消息体:将消息体中的原始文本指令替换为对应的数字代码。
以“出发”指令简化为“01”为例,具体实现步骤如下:
步骤1:设备端捕捉到用户发出的唇语指令,并通过唇语识别模型进行识别。
步骤2:识别结果(如“出发”)与预定义的代码映射表进行匹配,找到对应的数字代码“01”。
步骤3:在构建WebSocket消息体时,将文本指令“出发”替换为数字代码“01”。
步骤4:将更新后的WebSocket消息体进行编码(如JSON、XML或二进制格式),准备发送。
数字代码比文本指令更简短,显著减少了每个消息的数据大小。数据量的减少意味着更快的传输速度和更低的延迟。在网络带宽有限的环境下尤为重要。
确保代码的唯一性以避免歧义,同时保持一定的可读性以便于调试和维护。发送方和接收方必须保持映射表的一致性,并在需要时同步更新。
对于无法映射到数字代码的文本指令,需要有明确的错误处理机制(如使用特殊错误代码或保留原始文本指令)。
S105、所述客户设备端发送WebSocket消息体到服务端,上报当前数字代码。
客户设备端(如智能摄像设备、无人机或移动端设备等)已经将识别出的唇语指令简化为数字代码,并构建了包含这些数字代码的WebSocket消息体。此消息体不仅包含了指令的简化代码(如“01”代表“出发”,“00”代表错误或未识别指令),还可能包含了其他必要的元数据,如指令发送者的标识、指令的接收类型(一对一或一对多)、时间戳等。
在发送消息之前,客户设备端会确保已经与服务端建立了稳定的WebSocket连接。如果连接未建立或已断开,设备端会尝试重新连接或发出相应的报警提示。
一旦连接建立并稳定,客户设备端会通过已建立的WebSocket连接将准备好的消息体发送给服务端。WebSocket协议支持全双工通信,即数据可以同时在两个方向上进行传输,这保证了消息能够实时地发送到服务端。
在发送的WebSocket消息体中,关键内容包括:简化后的唇语指令代码,如“01”代表出发。
指明该指令的接收方式是一对一还是一对多。这通常通过在消息体中设置特定的字段或参数来实现。例如,可以使用一个名为receiverType的字段,并将其值设置为1表示一对一,2表示小组内一对多,3表示全部人员的一对多等。
为了确保消息的准确性和可靠性,发送前通常会对消息体进行格式化和编码处理。这可能包括选择适当的消息格式(如JSON、XML或自定义的二进制格式)和编码方式,以及添加必要的校验和或签名来增强数据的安全性。
服务端在接收到客户设备端发送的WebSocket消息体后,会进行解析和处理。它会根据消息体中的数字代码和接收类型来执行相应的操作。例如,如果接收到的数字代码是“01”且接收类型为“2”(小组内一对多),服务端则会将该指令广播给小组内的所有成员。
在消息发送过程中,客户设备端还会定期发送心跳消息给服务端,以维护连接的活跃状态。如果服务端在一段时间内未收到心跳消息或指令消息,可能会认为客户设备端已离线,并采取相应的措施(如发出报警信息)。
S106、所述服务端处理接收、解码所述WebSocket消息体,获取所述数字代码。
服务端始终监听WebSocket连接,等待来自客户设备端(如智能摄像设备、无人机等)的消息。一旦接收到WebSocket消息体,服务端首先会确认消息的完整性和正确性,包括检查消息格式是否符合预期、是否包含必要的字段等。
由于WebSocket消息体可能采用了特定的编码方式(如JSON、XML或二进制格式)进行序列化,服务端在获取到原始消息体后,需要对其进行解码操作。解码的目的是将序列化后的字符串或二进制数据转换回原始的数据结构,以便进一步处理。
解码后的消息体包含了多个字段,其中最重要的是包含数字代码和场景信息的字段。服务端会针对这些字段进行解析:
数字代码:这是消息体的核心部分,代表了客户设备端发送的唇语指令的简化表示。服务端会根据预定义的代码映射表(如“01”代表“出发”,“00”代表错误或未识别指令)来识别这些代码的实际含义。
场景信息:除了数字代码外,消息体中还可能包含关于消息接收类型的场景信息(如一对一、一对多等)。这些信息有助于服务端确定如何处理接收到的指令,例如是否需要广播给特定的小组或所有成员。
在解析消息内容的过程中,服务端还会对解析结果进行验证,确保数字代码和场景信息的有效性。如果发现任何错误或不一致之处(如未知的数字代码、格式错误等),服务端将采取相应的错误处理措施,如记录错误日志、发送错误响应给客户设备端或触发报警机制。
经过上述步骤后,服务端成功获取了消息体中的数字代码和场景信息。接下来,服务端会根据这些信息执行相应的操作。例如,如果数字代码表示“出发”且场景信息指示为一对多广播,服务端则会将该指令广播给所有相关的接收者。
在处理完消息体后,服务端还会更新相关设备的连接状态信息。这有助于服务端跟踪哪些设备当前在线,哪些设备已经离线或无法响应。同时,服务端也会定期检查心跳消息,以维护与客户设备端之间的WebSocket连接稳定性。
S107、所述服务端根据所述数字代码确定并像其他所述客户设备端发送语音或提示。
服务端在成功解码WebSocket消息体后,会获取到其中的数字代码和场景信息。数字代码直接关联到具体的唇语指令,而场景信息则指示了指令的发送范围。
请参照图3所示,服务端接收消息后,对消息进行消息解析。首先根据数字代码来判断指令的具体内容。例如,如果数字代码为“01”,根据预定义的映射规则,这通常表示“出发”的指令。
接下来,服务端会根据场景信息来决定如何分发或处理该指令:
一对一消息:如果场景信息表明是指定给某个具体设备的指令(如场景编码为“1”),服务端将直接向该设备发送语音或文本提示,包含具体的指令内容。
小组内广播:当场景信息为小组内广播(如场景编码为“2”)时,服务端需要识别出指令所属的小组,并将指令以广播形式发送给该小组内的所有已连接设备。这通常涉及到维护一个设备到小组的映射关系,并据此构建发送列表。然后,服务端会将指令转换为语音或文本消息,并逐一发送给列表中的每个设备。
全部成员广播:如果场景信息为全员广播(如场景编码为“3”),服务端会将指令发送给所有当前已连接的设备,无论它们属于哪个小组或没有任何小组归属。
如果服务端解码得到的消息体中包含错误信息(如数字代码“00”表示未识别指令或错误),服务端会采取以下措施:
对发送错误信息的设备进行标记,可能包括记录到日志中或更新设备状态。向操作员或监控系统进行告警操作,例如发出语音或视觉提示,通知有关人员检查设备或指令内容是否存在问题。
在指令发送完成后,服务端会更新相关设备的状态信息,确保系统能够准确跟踪每个设备的在线状态和处理情况。
在服务端处理指令和发送提示的整个过程中,还需要确保WebSocket连接的稳定性。如果服务端发现任何连接中断或异常,应及时尝试重连或向操作员报告。
进一步的,使用结束或任务结束后,服务端或客户设备端均可发起断开连接的指令,以断开设备连接。
请参照图4所示,本申请还提供一种多人唇语交互装置,包括:
服务模块201,用于基于Netty框架搭建部署WebSocket服务;
连接模块202,用于基于所述WebSocket服务,多个客户设备端发起WebSocket连接请求,与服务端连接;
处理模块203,用于所述客户设备端接受用户发出的唇语指令信息,所述唇语指令信息通过人工智能模型识别唇语指令含义,包括:若未识别出指令含义,做特殊标记处理;若识别出指令含义,将唇语指令构建WebSocket消息体;
简化模块204,用于对所述WebSocket消息体简化为数字代码;
上报模块205,用于所述客户设备端发送WebSocket消息体到服务端,上报当前数字代码;
解码模块206,用于所述服务端处理接收、解码所述WebSocket消息体,获取所述数字代码;
转发模块207,用于所述服务端根据所述数字代码确定并像其他所述客户设备端发送语音或提示。
可选地,还包括:
断开模块,用于所述服务端或者客户设备端发起断开连接的指令,断开该设备的连接。
可选地,所述连接模块202将多个客户设备端发起WebSocket连接请求,与服务端连接,包括:
如果连接失败,则发出语音报警提示。
可选地,所述连接模块202将多个客户设备端发起WebSocket连接请求,与服务端连接,包括:
连接成功后,服务端记录已上线的设备消息并做出上线提醒。
可选地,所述连接模块202将多个客户设备端发起WebSocket连接请求,与服务端连接,连接成功后包括:
所述客户设备端通过WebSocket服务定时向所述服务端发送心跳信息;
所述服务端收到消息后更新所述客户设备端的心跳时间;
所述服务端定时扫描已连接的设备信息,如果发现超过5秒没有收到心跳信息和指令消息,则认为所述客户设备端已下线,发出报警信息。
以上所述的实施例及/或实施方式,仅是用以说明实现本发明技术的较佳实施例及/或实施方式,并非对本发明技术的实施方式作任何形式上的限制,任何本领域技术人员,在不脱离本发明内容所公开的技术手段的范围,当可作些许的更动或修改为其它等效的实施例,但仍应视为与本发明实质相同的技术或实施例。
本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想。以上所述仅是本申请的优选实施方式,应当指出,由于文字表达的有限性,而客观上存在无限的具体结构,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还作出若干改进、润饰或变化,也将上述技术特征以适当的方式进行组合;所述改进润饰、变化或组合,或未经改进将发明的构思和技术方案直接应用于其他场合的,均应视为本申请的保护范围。
Claims (10)
1.一种多人唇语交互方法,其特征在于,包括:
基于Netty框架搭建部署WebSocket服务;
基于所述WebSocket服务,多个客户设备端发起WebSocket连接请求,与服务端连接;
所述客户设备端接受用户发出的唇语指令信息,所述唇语指令信息通过人工智能模型识别唇语指令含义,包括:若未识别出指令含义,做特殊标记处理;若识别出指令含义,将唇语指令构建WebSocket消息体;
对所述WebSocket消息体简化为数字代码;
所述客户设备端发送WebSocket消息体到服务端,上报当前数字代码;
所述服务端处理接收、解码所述WebSocket消息体,获取所述数字代码;
所述服务端根据所述数字代码确定并像其他所述客户设备端发送语音或提示。
2.根据权利要求1所述的多人唇语交互方法,其特征在于,还包括:
所述服务端或者客户设备端发起断开连接的指令,断开该设备的连接。
3.根据权利要求1所述的多人唇语交互方法,其特征在于,多个客户设备端发起WebSocket连接请求,与服务端连接,包括:
如果连接失败,则发出语音报警提示。
4.根据权利要求1所述的多人唇语交互方法,其特征在于,多个客户设备端发起WebSocket连接请求,与服务端连接,包括:
连接成功后,服务端记录已上线的设备消息并做出上线提醒。
5.根据权利要求1所述的多人唇语交互方法,其特征在于,多个客户设备端发起WebSocket连接请求,与服务端连接,连接成功后包括:
所述客户设备端通过WebSocket服务定时向所述服务端发送心跳信息;
所述服务端收到消息后更新所述客户设备端的心跳时间;
所述服务端定时扫描已连接的设备信息,如果发现超过5秒没有收到心跳信息和指令消息,则认为所述客户设备端已下线,发出报警信息。
6.一种多人唇语交互装置,其特征在于,包括:
服务模块,用于基于Netty框架搭建部署WebSocket服务;
连接模块,用于基于所述WebSocket服务,多个客户设备端发起WebSocket连接请求,与服务端连接;
处理模块,用于所述客户设备端接受用户发出的唇语指令信息,所述唇语指令信息通过人工智能模型识别唇语指令含义,包括:若未识别出指令含义,做特殊标记处理;若识别出指令含义,将唇语指令构建WebSocket消息体;
简化模块,用于对所述WebSocket消息体简化为数字代码;
上报模块,用于所述客户设备端发送WebSocket消息体到服务端,上报当前数字代码;
解码模块,用于所述服务端处理接收、解码所述WebSocket消息体,获取所述数字代码;
转发模块,用于所述服务端根据所述数字代码确定并像其他所述客户设备端发送语音或提示。
7.根据权利要求6所述的多人唇语交互装置,其特征在于,还包括:
断开模块,用于所述服务端或者客户设备端发起断开连接的指令,断开该设备的连接。
8.根据权利要求6所述的多人唇语交互装置,其特征在于,所述连接模块将多个客户设备端发起WebSocket连接请求,与服务端连接,包括:
如果连接失败,则发出语音报警提示。
9.根据权利要求6所述的多人唇语交互装置,其特征在于,所述连接模块将多个客户设备端发起WebSocket连接请求,与服务端连接,包括:
连接成功后,服务端记录已上线的设备消息并做出上线提醒。
10.根据权利要求6所述的多人唇语交互装置,其特征在于,所述连接模块将多个客户设备端发起WebSocket连接请求,与服务端连接,连接成功后包括:
所述客户设备端通过WebSocket服务定时向所述服务端发送心跳信息;
所述服务端收到消息后更新所述客户设备端的心跳时间;
所述服务端定时扫描已连接的设备信息,如果发现超过5秒没有收到心跳信息和指令消息,则认为所述客户设备端已下线,发出报警信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202411432957.3A CN118968990A (zh) | 2024-10-15 | 2024-10-15 | 一种多人唇语交互方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202411432957.3A CN118968990A (zh) | 2024-10-15 | 2024-10-15 | 一种多人唇语交互方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN118968990A true CN118968990A (zh) | 2024-11-15 |
Family
ID=93401495
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202411432957.3A Pending CN118968990A (zh) | 2024-10-15 | 2024-10-15 | 一种多人唇语交互方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN118968990A (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20150066882A (ko) * | 2013-12-09 | 2015-06-17 | 포항공과대학교 산학협력단 | 다중 사용자 기반의 대화 처리 방법 및 이를 수행하는 장치 |
CN110351631A (zh) * | 2019-07-11 | 2019-10-18 | 京东方科技集团股份有限公司 | 聋哑人交流设备及其使用方法 |
CN113128236A (zh) * | 2019-12-31 | 2021-07-16 | 广州慧睿思通科技股份有限公司 | 语音控制方法及装置 |
CN115662425A (zh) * | 2022-10-19 | 2023-01-31 | 深圳市欧瑞博科技股份有限公司 | 全屋智能系统中设备就近唤醒方法、装置及相关设备 |
CN115699719A (zh) * | 2020-06-30 | 2023-02-03 | 株式会社东芝 | 交流系统 |
US20230054530A1 (en) * | 2020-01-27 | 2023-02-23 | Kabushiki Kaisha Toshiba | Communication management apparatus and method |
CN115842967A (zh) * | 2021-09-17 | 2023-03-24 | 上海擎感智能科技有限公司 | 车载对讲的通信方法及通话装置 |
CN219591111U (zh) * | 2022-12-16 | 2023-08-25 | 美宸(广州)干细胞再生医学科技有限公司 | 一种多模态语音识别装置 |
-
2024
- 2024-10-15 CN CN202411432957.3A patent/CN118968990A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20150066882A (ko) * | 2013-12-09 | 2015-06-17 | 포항공과대학교 산학협력단 | 다중 사용자 기반의 대화 처리 방법 및 이를 수행하는 장치 |
CN110351631A (zh) * | 2019-07-11 | 2019-10-18 | 京东方科技集团股份有限公司 | 聋哑人交流设备及其使用方法 |
CN113128236A (zh) * | 2019-12-31 | 2021-07-16 | 广州慧睿思通科技股份有限公司 | 语音控制方法及装置 |
US20230054530A1 (en) * | 2020-01-27 | 2023-02-23 | Kabushiki Kaisha Toshiba | Communication management apparatus and method |
CN115699719A (zh) * | 2020-06-30 | 2023-02-03 | 株式会社东芝 | 交流系统 |
CN115842967A (zh) * | 2021-09-17 | 2023-03-24 | 上海擎感智能科技有限公司 | 车载对讲的通信方法及通话装置 |
CN115662425A (zh) * | 2022-10-19 | 2023-01-31 | 深圳市欧瑞博科技股份有限公司 | 全屋智能系统中设备就近唤醒方法、装置及相关设备 |
CN219591111U (zh) * | 2022-12-16 | 2023-08-25 | 美宸(广州)干细胞再生医学科技有限公司 | 一种多模态语音识别装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108900801A (zh) | 一种基于人工智能的视频监控方法、系统及云服务器 | |
CN105898893B (zh) | 一种移动终端与物联网设备全双工通信的方法 | |
CN101533107B (zh) | 气象信息的获取系统及方法 | |
CN111371895A (zh) | 一种高速公路隧道用机电设备管理系统及其方法 | |
CN112286666B (zh) | 基于回调机制的细粒度数据流可靠卸载方法 | |
CN103929349A (zh) | 一种添加即时消息联系人的方法、装置和系统 | |
CN106100914A (zh) | 一种云ac告警信息的推送方法及系统 | |
CN114157537A (zh) | 一种通用设备网关实现多源异构数据接入的系统及方法 | |
CN105978860A (zh) | 一种电力系统软件接口适配器的实现方法 | |
CN110703617A (zh) | 一种基于mqtt的智能家居控制系统 | |
CN113992646B (zh) | 一种物联网设备协议整合方法和系统 | |
US20190312922A1 (en) | Method for processing transcoding task, system and task management server | |
CN107819852A (zh) | 一种基于微信公众平台的水电机组在线预警方法及系统 | |
CN111615072A (zh) | 一种北斗技术数据传输方法、气象数据传输方法和系统 | |
CN118968990A (zh) | 一种多人唇语交互方法及装置 | |
CN106888431A (zh) | 一种智能手表上添加好友的方法及系统 | |
CN108898814B (zh) | 电力数据采集传输方法及其系统 | |
CN112527618B (zh) | 一种日志收集方法及日志收集系统 | |
CN110995304B (zh) | 一种即时翻译通信方法及系统 | |
CN111666193A (zh) | 基于实时日志解析的终端功能监控与测试的方法与系统 | |
Huang | Architecture of audio broadcasting coverage monitoring system based on internet of things | |
US10623447B1 (en) | Method for triggering IMS communication based on data communication protocols | |
CN103944759A (zh) | 一种电力通信网的通信传输网管的故障告警系统 | |
CN111355650B (zh) | 一种实时聊天方法、平台、系统及相关设备 | |
CN110248185A (zh) | 用于视频会议系统中的故障检测系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |