CN112416120A - 基于可穿戴设备的智能化多媒体交互系统 - Google Patents

基于可穿戴设备的智能化多媒体交互系统 Download PDF

Info

Publication number
CN112416120A
CN112416120A CN202011092395.4A CN202011092395A CN112416120A CN 112416120 A CN112416120 A CN 112416120A CN 202011092395 A CN202011092395 A CN 202011092395A CN 112416120 A CN112416120 A CN 112416120A
Authority
CN
China
Prior art keywords
user
module
voice signal
multimedia
management platform
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011092395.4A
Other languages
English (en)
Other versions
CN112416120B (zh
Inventor
麦金龙
常洪亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Power Supply Bureau Co Ltd
Original Assignee
Shenzhen Power Supply Bureau Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Power Supply Bureau Co Ltd filed Critical Shenzhen Power Supply Bureau Co Ltd
Priority to CN202011092395.4A priority Critical patent/CN112416120B/zh
Publication of CN112416120A publication Critical patent/CN112416120A/zh
Application granted granted Critical
Publication of CN112416120B publication Critical patent/CN112416120B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/14Digital output to display device ; Cooperation and interconnection of the display device with other functional units
    • G06F3/1454Digital output to display device ; Cooperation and interconnection of the display device with other functional units involving copying of the display data of a local workstation or window to a remote workstation or window so that an actual copy of the data is displayed simultaneously on two or more displays, e.g. teledisplay
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/165Management of the audio stream, e.g. setting of volume, audio stream path
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06KGRAPHICAL DATA READING; PRESENTATION OF DATA; RECORD CARRIERS; HANDLING RECORD CARRIERS
    • G06K17/00Methods or arrangements for effecting co-operative working between equipments covered by two or more of main groups G06K1/00 - G06K15/00, e.g. automatic card files incorporating conveying and reading operations
    • G06K17/0022Methods or arrangements for effecting co-operative working between equipments covered by two or more of main groups G06K1/00 - G06K15/00, e.g. automatic card files incorporating conveying and reading operations arrangements or provisious for transferring data to distant stations, e.g. from a sensing device
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/20Administration of product repair or maintenance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/06Electricity, gas or water supply
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B1/00Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission
    • H04B1/38Transceivers, i.e. devices in which transmitter and receiver form a structural unit and in which at least one part is used for functions of transmitting and receiving
    • H04B1/3827Portable transceivers
    • H04B1/385Transceivers carried on the body, e.g. in helmets
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/18Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast
    • H04N7/183Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast for receiving images from a single remote source
    • H04N7/185Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast for receiving images from a single remote source from a mobile camera, e.g. for remote control
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2203/00Indexing scheme relating to G06F3/00 - G06F3/048
    • G06F2203/01Indexing scheme relating to G06F3/01
    • G06F2203/011Emotion or mood input determined on the basis of sensed human body parameters such as pulse, heart rate or beat, temperature of skin, facial expressions, iris, voice pitch, brain activity patterns
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B1/00Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission
    • H04B1/38Transceivers, i.e. devices in which transmitter and receiver form a structural unit and in which at least one part is used for functions of transmitting and receiving
    • H04B1/3827Portable transceivers
    • H04B1/385Transceivers carried on the body, e.g. in helmets
    • H04B2001/3866Transceivers carried on the body, e.g. in helmets carried on the head
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Business, Economics & Management (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Quality & Reliability (AREA)
  • Human Resources & Organizations (AREA)
  • General Health & Medical Sciences (AREA)
  • Economics (AREA)
  • Tourism & Hospitality (AREA)
  • Strategic Management (AREA)
  • Acoustics & Sound (AREA)
  • Marketing (AREA)
  • Computational Linguistics (AREA)
  • General Business, Economics & Management (AREA)
  • Public Health (AREA)
  • Primary Health Care (AREA)
  • Water Supply & Treatment (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Operations Research (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本发明提供一种基于可穿戴设备的智能化多媒体交互系统,包括:中央管理平台和用户可穿戴设备;用户可穿戴设备包括信息采集模块、通信模块和多媒体交互模块;信息采集模块包括标签采集单元,用于获取电力设备的标签信息;通信模块用于将获取的标签信息发送到中央管理平台,并接收由中央管理平台返回的与该电力设备相应的多媒体展示数据;多媒体交互模块用于播放该接收到的多媒体展示数据;中央管理平台用于接收由用户可穿戴设备发送的电力设备的标签信息,并从数据库中匹配与该标签信息对应的多媒体展示数据并发送到用户可穿戴设备。本发明能够有助于运维工程师在现场操作的过程中获取相应的资料,有效降低了运维工程师的工作难度。

Description

基于可穿戴设备的智能化多媒体交互系统
技术领域
本发明涉及多媒体交互系统技术领域,特别是基于可穿戴设备的智能化多媒体交互系统。
背景技术
目前,针对电网运维工程师在运维的过程中,需要面对各种不同型号或者性能的电力设备;通常运维工程师在新人阶段需要对可能面对的各种电力设备进行了解,包括对电力设备型号、特性、参数、操作步骤、运维步骤等进行熟知,然后才正式到达现场投入电力设备的运维工作中。
但是现有技术中,针对运维工程师新人对电力设备的了解,通常是需要在资料库翻阅说明书或者操作手册等资料进行记忆或熟知,该种方式效率较低,需要花上大量的时间在查阅资料上,而且当工程师在实际的运维过程中,很可能会出现忘记或者碰到新的电力设备无法得知其参数,使得运维工程师的工作上手难度大大增加。
发明内容
针对上述问题,本发明旨在提供基于可穿戴设备的智能化多媒体交互系统。
本发明的目的采用以下技术方案来实现:
提出一种基于可穿戴设备的智能化多媒体交互系统,包括:中央管理平台和用户可穿戴设备;
用户可穿戴设备包括信息采集模块、通信模块和多媒体交互模块;
信息采集模块包括标签采集单元,用于获取电力设备的标签信息;
通信模块用于将获取的标签信息发送到中央管理平台,并接收由中央管理平台返回的与该电力设备相应的多媒体展示数据;
多媒体交互模块用于播放该接收到的多媒体展示数据;
中央管理平台用于接收由用户可穿戴设备发送的电力设备的标签信息,并从数据库中匹配与该标签信息对应的多媒体展示数据并发送到用户可穿戴设备。
在一种可选的实施方式中,多媒体交互模块包括视频播放单元和声音播放单元;
视频播放单元包括显示屏单元,用于播放该多媒体展示数据中的视频数据或图片数据;
声音播放单元,用于播放该多媒体展示数据中的声音数据。
在一种可选的实施方式中,中央管理平台包括数据库模块和标签匹配模块;
数据库模块用于存储各电力设备的标签信息以及对应的多媒体展示数据,其中多媒体展示数据包括电力设备的使用说明视频、电力设备部件维修操作指引视频、电力设备基本信息介绍视频、电力设备运维操作流程视频等;
标签匹配模块用于根据接收到的标签信息,匹配从数据库模块中获取与该标签信息对应的多媒体展示数据,并发送到相应的用户可穿戴设备中。
在一种可选的实施方式中,信息采集模块还包括图像采集单元和语音采集单元;
图像采集单元用于采集用户前方区域的电力设备图像信息,并将采集的电力设备图像信息通过通信模块发送到中央管理平台;
语音采集单元用于采集用户语音信号,并将采集的用户语音信号通过通信模块发送到中央管理平台;
中央管理平台包括实时指挥模块;
实时指挥模块用于与指定的用户可穿戴设备建立连接,接收并播放由用户可穿戴设备发送的电力设备图像信息和用户语音信号,以及采集管理员的语音信号发送到该用户可穿戴设备中。
在一种可选的实施方式中,实时指挥模块中,进一步包括语音信号处理单元,语音信号处理单元用于对接收到的由用户可穿戴设备发送的用户语音信号进行增强处理,输出增强后的用户语音信号并进行播放。
本发明的有益效果为:通过在可穿戴设备上设置信息采集模块获取具体电力设备的标签信息,通过与中央管理平台进行通信,从平台中能够获取与该电力设备相关的多媒体信息,能够有助于运维工程师在现场操作的过程中,针对具体的电力设备获取相应的资料,达到资料与实操相结合,有效降低了运维工程师的工作或熟悉、上手的难度。
附图说明
利用附图对本发明作进一步说明,但附图中的实施例不构成对本发明的任何限制,对于本领域的普通技术人员,在不付出创造性劳动的前提下,还可以根据以下附图获得其它的附图。
图1为本发明的框架结构图;
图2为本发明一种实施方式的框架结构图。
附图标记:
中央管理平台1、用户可穿戴设备2、数据库模块11、标签匹配模块12、实时指挥模块13、信息采集模块21、通信模块22、多媒体交互模块23、语音信号处理单元131、标签采集单元211、图像采集单元212、语音采集单元213、视频播放单元231、声音播放单元232
具体实施方式
结合以下应用场景对本发明作进一步描述。
参见图1、图2,其示出一种基于可穿戴设备的智能化多媒体交互系统,包括:中央管理平台1和用户可穿戴设备2;
用户可穿戴设备2包括信息采集模块21、通信模块22和多媒体交互模块23;
信息采集模块21包括标签采集单元211,用于获取电力设备的标签信息;
通信模块22用于将获取的标签信息发送到中央管理平台1,并接收由中央管理平台1返回的与该电力设备相应的多媒体展示数据;
多媒体交互模块23用于播放该接收到的多媒体展示数据;
中央管理平台1用于接收由用户可穿戴设备2发送的电力设备的标签信息,并从数据库中匹配与该标签信息对应的多媒体展示数据并发送到用户可穿戴设备2。
在一种可选的实施方式中,用户可穿戴设备2包括头戴式带显示装置的智能眼镜、或者带显示装置的工具背包(在背包带上设置向前方的信息采集模块21)等。
以智能眼镜为例,该智能眼镜其中一边镜片的前方设置有50%透视的镜片作为显示显示屏幕以显示接收的多媒体展示数据,其眼镜框上设置有通信模块22与中央管理平台1进行通信,以及眼镜框上设置有还设置有投影装置对准该显示屏幕进行播放该多媒体展示数据,多媒体交互模块23(包括显示屏幕和投影装置)与通信模块22连接;同时眼镜臂上设有信息采集模块21(标签采集单元211),当运维工程师头部对准电力设备上的标签信息时,将自动采集该标签信息的数据。
上述实施方式中,通过在可穿戴设备上设置信息采集模块21获取具体电力设备的标签信息,通过与中央管理平台1进行通信,从平台中能够获取与该电力设备相关的多媒体信息,能够有助于运维工程师在现场操作的过程中,针对具体的电力设备获取相应的资料,达到资料与实操相结合,有效降低了运维工程师的工作或熟悉、上手的难度。同时通过多媒体信息来对电力设备运维的相关信息进行展示,有助于运维工程师进行直观的了解,提高了用户的感官享受。
在一种可选的实施方式中,多媒体交互模块23包括视频播放单元231和声音播放单元232;
视频播放单元231包括显示屏单元,用于播放该多媒体展示数据中的视频数据或图片数据;
声音播放单元232,用于播放该多媒体展示数据中的声音数据。
针对播放的电力设备相关的多媒体展示数据包括视频数据,因此多媒体交模块还包括声音播放单元232,以播放多媒体展示数据中的声音数据,以提高多媒体展示数据博方的效果。
在一种可选的实施方式中,中央管理平台1包括数据库模块11和标签匹配模块12;
数据库模块11用于存储各电力设备的标签信息以及对应的多媒体展示数据,其中多媒体展示数据包括电力设备的使用说明视频、电力设备部件维修操作指引视频、电力设备基本信息介绍视频、电力设备运维操作流程视频等;
标签匹配模块12用于根据接收到的标签信息,匹配从数据库模块11中获取与该标签信息对应的多媒体展示数据,并发送到相应的用户可穿戴设备2中。
针对在能够有助于运维工程师在现场操作的过程中,针对具体的电力设备获取相应的资料,达到资料与实操相结合,有效降低了运维工程师的工作或熟悉、上手的难度有助于运维工程师在现场操作的过程中,针对具体的电力设备获取相应的资料,达到资料与实操相结合,有效降低了运维工程师的工作或熟悉、上手的难度中,当运维工程师遇到操作难题或者特殊情况等需要实时指导的情况,本申请提出的基于可穿戴设备的智能化多媒体交互系统还提供了实时的视频通信功能,其中在用户可穿戴设备2上配备有摄像头(图像采集单元212)以采集目标电力设备的图像信息,以及配备有麦克风(语音采集单元213)供运维人员与管控中心进行实时通话和收听由管控中心传输的实时指导语音。有助于运维人员能够得到管控中心的实时指导,协助完成电力设备的运维过程。
在一种可选的实施方式中,信息采集模块21还包括图像采集单元212和语音采集单元213;
图像采集单元212用于采集用户前方区域的电力设备图像信息,并将采集的电力设备图像信息通过通信模块22发送到中央管理平台1;
语音采集单元213用于采集用户语音信号,并将采集的用户语音信号通过通信模块22发送到中央管理平台1;
中央管理平台1包括实时指挥模块13;
实时指挥模块13用于与指定的用户可穿戴设备2建立连接,接收并播放由用户可穿戴设备2发送的电力设备图像信息和用户语音信号,以及采集管理员的语音信号发送到该用户可穿戴设备2中。
在一种场景中,运维人员通过智能眼镜上的摄像头对准工作区域,摄像头获取工作区域的实时场景并传输回中央管理平台1,坐阵管控中心的资深工程师能够根据中央管理平台1观看现场采集的实时视频图像得知现场运维过程中存在的问题并分析和提供解决方案指导。用户可穿戴设备2能够通过语音采集单元213向中央管理平台1发送语音信号,运维人员能够通过语音描述现场基本情况和存在的问题;同时资深工程师通过中央管理平台1的实时指挥模块13向运维人员的用户可穿戴设备2发送语音指导信息,由用户可穿戴设备中的声音播放单元播放该语音指导信息,通过语音指导现场的运维人员进行运维操作或解答疑难问题。能够提高运维工程师(特别是新人运维工程师)在实操过程中遇到疑难问题时的解决难度,通过搭建用户可穿戴设备2以及中央管理平台1的交互系统,使得管理者或资深工程师仅需坐阵管控中心便能够同时对各运维工程师进行管理和指导,有效地提高了新人指导的边界程度和管理程度。
在一种可选的实施方式中,实时指挥模块13中,进一步包括语音信号处理单元131,语音信号处理单元131用于对接收到的由用户可穿戴设备2发送的用户语音信号进行增强处理,输出增强后的用户语音信号并进行播放。
针对运维工程师在运维现场采集的语音信号容易受到运维现场的环境影响出现噪声等干扰从而导致通话质量下降的情况,上述实施方式中实时指挥模块13中还专门设置有针对接收的语音信号进行增强处理的语音信号处理单元131,能够对接收到的语音信号进行增强处理,提高语音信号的质量,使得中央管理平台1接收并播放的语音信号的质量提高,保证交流的质量。
在一种可选的实施方式中,语音信号处理单元131具体包括:
1)接收由用户可穿戴设备2发送的用户语音信号并记为Ya
2)对用户语音信号Ya进行分帧加窗处理,针对每一个语音帧的语音信号:对该语音帧的语音信号进行FFT变换,获取用户语音信号的频域信号Y(k),并根据该频域信号Y(k)获取功率谱|Y(k)|2,其中k=1,2,…,M表示频点,M表示FFT变换中频点的数量,Y(k)表示对应频点k的幅值;
基于用户语音信号Ya进行噪声功率谱估计,获取噪声功率谱估计σ2(k);
根据用户语音信号的功率谱|Y(k)|2和噪声功率谱估计σ2(k)进行谱减处理,获取谱减后的功率谱|S(k)|2,并根据谱减后的功率谱|S(k)|2进行逆FFT变换得到去噪后的用户语音信号Yb
3)对去噪后的用户语音信号Yb进行基于小波阈值增强处理,输出小波阈值增强处理后的用户语音信号Yc作为该输出的增强后的用户语音信号并进行播放;
其中,根据用户语音信号的功率谱|Y(k)|2和噪声功率谱估计σ2(k)进行谱减处理,具体包括:
其中采用的优化谱减函数为:
Figure BDA0002722578660000061
式中,|S(k)|2表示谱减后的功率谱,其中|S(k)|表示谱减后的频域信号,k表示频点,S(k)表示频域信号中频点k对应的幅值;|Y(w)|2表示用户语音信号的功率谱中频点k对应的幅值;|Ymean(w)|2表示用户语音信号的功率谱中各频点对应幅值的平均值,|Ymax(w)|2用户语音信号的功率谱中各频点对应幅值的最大值,σ2(k)表示噪声功率谱估计中频点k对应的幅值;βn表示噪声调节参量,βy表示语音信号调节参量,βp表示处理维数调节参量。
上述实施方式中,提出了一种语音信号处理单元131中进行语音信号处理的技术方案,该方案中首先对接收到的用户语音信号进行分帧加窗处理,针对每一帧的语音信号,对其首先进行基于噪声功率谱估计的谱减处理,其中特别提出了一种优化的谱减函数,该谱减函数与常规谱减函数相比,通过优化的谱减函数计算公式,能够在谱减的过程中,最大程度地根据噪声功率谱估计进行与自身用户语音信号功率谱特性贴合的谱减处理(特别加入了用户语音信号功率谱中的幅值均值和最大值作为参量),避免了传统谱减计算函数中针对功率谱中针对幅值交底的部分容易出现过处理的情况,提高了谱减后语音信号的去噪效果。以及在谱减之后进一步进行基于小波分解的阈值增强处理,进一步提高用户语音信号的质量。通过上述语音信号的处理,能够有效地去除用户语音信号中包含的噪声干扰以及对用户语音信号进行增强,提高基于语音信号的通话交流的清晰度和质量。
在一种实施方式中,语音信号处理单元131中,对去噪后的用户语音信号Yb进行基于小波阈值增强处理,具体包括:
采用设定的小波基和分解层数对去噪后的用户语音信号Yb进行小波分解处理,获取该用户语音信号Yb的高频小波系数和低频小波系数;
对获取的高频小波系数进阈值处理,其中采用的优化阈值函数为:
Figure BDA0002722578660000062
式中,
Figure BDA0002722578660000063
表示阈值处理后的第j层第w个高频小波系数,z(j,w)表示小波分解后获取的第j层第w个高频小波系数,δ表示设定的调节因子,其中δ∈(0,1),
Figure BDA0002722578660000064
表示对应第j层的阈值;
根据阈值处理后的高频小波系数和获取的低频小波系数进行逆小波分解,获取小波阈值增强处理后的用户语音信号Yc
上述实施方式中,针对语音信号处理单元131中对去噪后的用户语音信号进行小波分解以及针对高频小波系数进行阈值处理,其中提出了一种优化的高频小波阈值处理函数,该函数中系数大于阈值的部分设置更加贴近高频小波系数的特性,而系数小于阈值的部分也避免了直接置零的处理方式,能够最大程度地保留高频小波系数中的有效信息,提高处理后语音信号的质量。
在一种实施方式中,对应第j层的阈值
Figure BDA0002722578660000071
由以下函数获取:
Figure BDA0002722578660000072
式中,
Figure BDA0002722578660000073
表示第j层的阈值,j=1,2,…J,J表示小波分解总层数,
Figure BDA0002722578660000074
表示第j-1层的阈值,med(z(j))表示第j层高频小波系数的均值,γ表示阈值调节参量;其中
Figure BDA0002722578660000075
Figure BDA0002722578660000076
L1表示第1层高频小波系数的长度,L表示信号的长度。
上述实施方式中,在优化阈值处理函数中,其中阈值采用自适应的方式设置,能够自适应地针对不同的分解层数调节阈值的大小,提高了有用信息保留的效果。
最后应当说明的是,以上实施例仅用以说明本发明的技术方案,而非对本发明保护范围的限制,尽管参照较佳实施例对本发明作了详细地说明,本领域的普通技术人员应当分析,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的实质和范围。

Claims (6)

1.基于可穿戴设备的智能化多媒体交互系统,其特征在于,包括:中央管理平台和用户可穿戴设备;
所述用户可穿戴设备包括信息采集模块、通信模块和多媒体交互模块;
所述信息采集模块包括标签采集单元,用于获取电力设备的标签信息;
所述通信模块用于将获取的标签信息发送到中央管理平台,并接收由中央管理平台返回的与该电力设备相应的多媒体展示数据;
所述多媒体交互模块用于播放该接收到的多媒体展示数据;
所述中央管理平台用于接收由用户可穿戴设备发送的电力设备的标签信息,并从数据库中匹配与该标签信息对应的多媒体展示数据并发送到用户可穿戴设备。
2.根据权利要求1所述的基于可穿戴设备的智能化多媒体交互系统,其特征在于,所述多媒体交互模块包括视频播放单元和声音播放单元;
所述视频播放单元包括显示屏单元,用于播放该多媒体展示数据中的视频数据或图片数据;
所述声音播放单元,用于播放该多媒体展示数据中的声音数据。
3.根据权利要求1所述的基于可穿戴设备的智能化多媒体交互系统,其特征在于,所述中央管理平台包括数据库模块和标签匹配模块;
所述数据库模块用于存储各电力设备的标签信息以及对应的多媒体展示数据,其中所述多媒体展示数据包括电力设备的使用说明视频、电力设备部件维修操作指引视频、电力设备基本信息介绍视频、电力设备运维操作流程视频等;
所述标签匹配模块用于根据接收到的标签信息,匹配从数据库模块中获取与该标签信息对应的多媒体展示数据,并发送到相应的用户可穿戴设备中。
4.根据权利要求1所述的基于可穿戴设备的智能化多媒体交互系统,其特征在于,所述信息采集模块还包括图像采集单元和语音采集单元;
所述图像采集单元用于采集用户前方区域的电力设备图像信息,并将采集的电力设备图像信息通过所述通信模块发送到中央管理平台;
所述语音采集单元用于采集用户语音信号,并将采集的用户语音信号通过所述通信模块发送到中央管理平台;
所述中央管理平台包括实时指挥模块;
所述实时指挥模块用于与指定的用户可穿戴设备建立连接,接收并播放由用户可穿戴设备发送的电力设备图像信息和用户语音信号,以及采集管理员的语音信号发送到该用户可穿戴设备中。
5.根据权利要求4所述的基于可穿戴设备的智能化多媒体交互系统,其特征在于,所述实时指挥模块中,进一步包括语音信号处理单元,所述语音信号处理单元用于对接收到的由用户可穿戴设备发送的用户语音信号进行增强处理,输出增强后的用户语音信号并进行播放。
6.根据权利要求5所述的基于可穿戴设备的智能化多媒体交互系统,其特征在于,所述语音信号处理单元具体包括:
1)接收由用户可穿戴设备发送的用户语音信号并记为Ya
2)对用户语音信号Ya进行分帧加窗处理,针对每一个语音帧的语音信号:对该语音帧的语音信号进行FFT变换,获取用户语音信号的频域信号Y(k),并根据该频域信号Y(k)获取功率谱|Y(k)|2,其中k=1,2,...,M表示频点,M表示FFT变换中频点的数量,Y(k)表示对应频点k的幅值;
基于用户语音信号Ya进行噪声功率谱估计,获取噪声功率谱估计σ2(k);
根据用户语音信号的功率谱|Y(k)|2和噪声功率谱估计σ2(k)进行谱减处理,获取谱减后的功率谱|S(k)|2,并根据谱减后的功率谱|S(k)|2进行逆FFT变换得到去噪后的用户语音信号Yb
3)对去噪后的用户语音信号Yb进行基于小波阈值增强处理,输出小波阈值增强处理后的用户语音信号Yc作为该输出的增强后的用户语音信号并进行播放;
其中,所述根据用户语音信号的功率谱|Y(k)|2和噪声功率谱估计σ2(k)进行谱减处理,具体包括:
其中采用的优化谱减函数为:
Figure FDA0002722578650000021
式中,|S(k)|2表示谱减后的功率谱,其中|S(k)|表示谱减后的频域信号,k表示频点,S(k)表示频域信号中频点k对应的幅值;|Y(w)|2表示用户语音信号的功率谱中频点k对应的幅值;|Ymean(w)|2表示用户语音信号的功率谱中各频点对应幅值的平均值,|Ymax(w)|2用户语音信号的功率谱中各频点对应幅值的最大值,σ2(k)表示噪声功率谱估计中频点k对应的幅值;βn表示噪声调节参量,βy表示语音信号调节参量,βp表示处理维数调节参量。
CN202011092395.4A 2020-10-13 2020-10-13 基于可穿戴设备的智能化多媒体交互系统 Active CN112416120B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011092395.4A CN112416120B (zh) 2020-10-13 2020-10-13 基于可穿戴设备的智能化多媒体交互系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011092395.4A CN112416120B (zh) 2020-10-13 2020-10-13 基于可穿戴设备的智能化多媒体交互系统

Publications (2)

Publication Number Publication Date
CN112416120A true CN112416120A (zh) 2021-02-26
CN112416120B CN112416120B (zh) 2023-08-25

Family

ID=74855159

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011092395.4A Active CN112416120B (zh) 2020-10-13 2020-10-13 基于可穿戴设备的智能化多媒体交互系统

Country Status (1)

Country Link
CN (1) CN112416120B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113258675A (zh) * 2021-05-27 2021-08-13 国网山东省电力公司莱芜供电公司 一种电力设备操控及引导系统

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07248793A (ja) * 1994-03-08 1995-09-26 Mitsubishi Electric Corp 雑音抑圧音声分析装置及び雑音抑圧音声合成装置及び音声伝送システム
WO2000036592A1 (en) * 1998-12-16 2000-06-22 Sarnoff Corporation Improved noise spectrum tracking for speech enhancement
CN103021420A (zh) * 2012-12-04 2013-04-03 中国科学院自动化研究所 一种基于相位调整和幅值补偿的多子带谱减法的语音增强方法
CN105678638A (zh) * 2016-01-12 2016-06-15 国网上海市电力公司 一种用于电站生产运行管理的虚拟现实设备
CN106127409A (zh) * 2016-07-04 2016-11-16 中国科学院深圳先进技术研究院 一种基于智能眼镜的远程电力协同交互方法及系统
CN107331220A (zh) * 2017-09-01 2017-11-07 国网辽宁省电力有限公司锦州供电公司 基于增强现实的变电设备运维仿真培训系统和方法
CN107328437A (zh) * 2017-06-28 2017-11-07 国网上海市电力公司 面向电力安全巡检作业的可穿戴式设备
CN109768997A (zh) * 2019-03-07 2019-05-17 贵州电网有限责任公司 一种电力现场巡检远程监控设备及其监控方法
CN111110469A (zh) * 2019-12-13 2020-05-08 南方医科大学南方医院 一种多功能护理床

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07248793A (ja) * 1994-03-08 1995-09-26 Mitsubishi Electric Corp 雑音抑圧音声分析装置及び雑音抑圧音声合成装置及び音声伝送システム
WO2000036592A1 (en) * 1998-12-16 2000-06-22 Sarnoff Corporation Improved noise spectrum tracking for speech enhancement
CN103021420A (zh) * 2012-12-04 2013-04-03 中国科学院自动化研究所 一种基于相位调整和幅值补偿的多子带谱减法的语音增强方法
CN105678638A (zh) * 2016-01-12 2016-06-15 国网上海市电力公司 一种用于电站生产运行管理的虚拟现实设备
CN106127409A (zh) * 2016-07-04 2016-11-16 中国科学院深圳先进技术研究院 一种基于智能眼镜的远程电力协同交互方法及系统
CN107328437A (zh) * 2017-06-28 2017-11-07 国网上海市电力公司 面向电力安全巡检作业的可穿戴式设备
CN107331220A (zh) * 2017-09-01 2017-11-07 国网辽宁省电力有限公司锦州供电公司 基于增强现实的变电设备运维仿真培训系统和方法
CN109768997A (zh) * 2019-03-07 2019-05-17 贵州电网有限责任公司 一种电力现场巡检远程监控设备及其监控方法
CN111110469A (zh) * 2019-12-13 2020-05-08 南方医科大学南方医院 一种多功能护理床

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113258675A (zh) * 2021-05-27 2021-08-13 国网山东省电力公司莱芜供电公司 一种电力设备操控及引导系统

Also Published As

Publication number Publication date
CN112416120B (zh) 2023-08-25

Similar Documents

Publication Publication Date Title
US7697700B2 (en) Noise removal for electronic device with far field microphone on console
CN112188375B (zh) 听觉假体装置及其中的音频信号处理方法
US10721521B1 (en) Determination of spatialized virtual acoustic scenes from legacy audiovisual media
CN111885275B (zh) 语音信号的回声消除方法、装置、存储介质以及电子装置
US10645520B1 (en) Audio system for artificial reality environment
Donley et al. Easycom: An augmented reality dataset to support algorithms for easy communication in noisy environments
Geronazzo et al. Applying a single-notch metric to image-guided head-related transfer function selection for improved vertical localization
CN112369048A (zh) 音频装置和其操作的方法
CN108986832A (zh) 基于语音出现概率和一致性的双耳语音去混响方法和装置
CN108200173A (zh) 一种电力施工现场信息化监控系统
CN112416120A (zh) 基于可穿戴设备的智能化多媒体交互系统
CN109119080A (zh) 声音识别方法、装置、穿戴式设备及存储介质
US20230197096A1 (en) Audio signal processing method, training method, apparatus and storage medium
WO2007130766A2 (en) Narrow band noise reduction for speech enhancement
CN113241085B (zh) 回声消除方法、装置、设备及可读存储介质
WO2023049051A1 (en) Audio system for spatializing virtual sound sources
US20190394583A1 (en) Method of audio reproduction in a hearing device and hearing device
CN114648996A (zh) 音频数据处理方法和装置、语音交互方法、设备和芯片、音箱、电子设备及存储介质
WO2018088210A1 (ja) 情報処理装置および方法、並びにプログラム
US11683634B1 (en) Joint suppression of interferences in audio signal
CN215121115U (zh) 一种远程交互式行为诊断识别仪器
CN108305631A (zh) 一种基于多核模块化构架的声学处理设备
CN113726969B (zh) 混响检测方法、装置及设备
CN117133278A (zh) 一种ai交互智能音箱
CN117768352A (zh) 基于语音技术的跨网数据摆渡方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant