CN109525800A - 一种远程会议语音识别数据传输方法 - Google Patents

一种远程会议语音识别数据传输方法 Download PDF

Info

Publication number
CN109525800A
CN109525800A CN201811323511.1A CN201811323511A CN109525800A CN 109525800 A CN109525800 A CN 109525800A CN 201811323511 A CN201811323511 A CN 201811323511A CN 109525800 A CN109525800 A CN 109525800A
Authority
CN
China
Prior art keywords
voice
role
meeting
vocal print
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811323511.1A
Other languages
English (en)
Inventor
何镝
诸健文
胡红林
周骋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangxi Guotai Limin Information Technology Co Ltd
Original Assignee
Jiangxi Guotai Limin Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangxi Guotai Limin Information Technology Co Ltd filed Critical Jiangxi Guotai Limin Information Technology Co Ltd
Priority to CN201811323511.1A priority Critical patent/CN109525800A/zh
Publication of CN109525800A publication Critical patent/CN109525800A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4398Processing of audio elementary streams involving reformatting operations of audio signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/4402Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display
    • H04N21/440218Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display by transcoding between formats or standards, e.g. from MPEG-2 to MPEG-4
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02082Noise filtering the noise being echo, reverberation of the speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Business, Economics & Management (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Game Theory and Decision Science (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

本发明是一种远程会议语音识别数据传输方法,包括若干个参会终端设备,每个参会终端设备包括麦克风阵列、摄像头、wifi模块、语音处理模块、声纹训练模块、存储模块、语音识别服务器、中央处理器、扬声器和显示屏,所述语音处理模块分别连接声纹训练模块和麦克风阵列,所述中央处理器分别连接存储模块、摄像头、wifi模块、扬声器和显示屏,所述Wifi模块通过互联网连接语音识别服务器。本发明不仅构建了远程视频会议,还通过语音识别将会议上发言人的语音进行处理,并转换成文档进行存储,通过声纹识别确认发音人的身份,并对会议中不同的发言人进行身份记录。

Description

一种远程会议语音识别数据传输方法
技术领域
本发明涉及智能办公技术领域,具体涉及一种远程会议语音识别数据传输方法。
背景技术
远程视频会议系统是一种在位于两个或多个地点的多个用户之间提供语音和运动彩色画面的双向实时传送的视听会话型会议业务。大型远程视频会议系统在政府、企业、医疗等方面有广泛的应用。
传统的视频会议系统可以满足基本的远程视频会议要求,解决空间以及时间对会议的限制,但是部分重要的远程视频会议需要对会议内容进行记录,因为对于重要会议的内容需要进行记录与总结,在工作过程中需要对会议内容进行回顾调阅,视频可以录制,但是把一个会议视频全部看完耗时耗力,无法准确的定位关键会议内容,且保存视频耗费大量内存。如果通过人工方式进行记录,可能在记录内容上有所缺失或者不够完善。
语音识别技术是通过将语音指令或语音转换成计算机可识别的信息进行一系列交互处理的技术。
本发明提供一种远程会议语音识别数据传输方法,采用基于语音识别的多人远程会议记录系统,在远程会议的过程中分角色的进行会议内容记录,并生成完整的全过程的会议文档,方便之后的查阅,并且较小体积的文档基本不占用内存,节省硬件资源和人力资源。
发明内容
本发明的目的在于克服现有技术存在的问题,提供一种远程会议语音识别数据传输方法,通过语音识别将会议上发言人的语音进行处理,并转换成文档进行存储,通过声纹识别确认发音人的身份,并对会议中不同的发言人进行身份记录。
为实现上述技术目的,达到上述技术效果,本发明通过以下技术方案实现:
一种远程会议语音识别数据传输方法,包括若干个参会终端设备,每个参会终端设备包括麦克风阵列、摄像头、wifi模块、语音处理模块、声纹训练模块、存储模块、语音识别服务器、中央处理器、扬声器和显示屏,所述语音处理模块分别连接声纹训练模块和麦克风阵列,所述中央处理器分别连接存储模块、摄像头、麦克风阵列、wifi模块、扬声器和显示屏,所述Wifi模块通过互联网连接语音识别服务器,该方法包括构建远程视频会议和生成会议记录文档,其中,
构建远程视频会议包括以下步骤:
步骤1.1)多个参会终端设备同步运行,打开显示屏,并开启摄像头和麦克风阵列分别对现场会议视频和音频进行拾取;
步骤1.2)摄像头捕捉视频画面传送到对应参会终端设备的中央处理器进行编解码,麦克风阵列搜集语音,一份传送至对应参会终端设备的中央处理器进行编解码,另一份传送至语音处理模块进行声纹特征对比以及降噪去回音;
步骤1.3)参会终端设备的中央处理器将编解码后的视频画面和语音通过wifi模块连接互联网传送至其它参会终端设备进行解码,解码后的视频画面通过显示器显示,解码后的语音通过扬声器播放,实现远程视频会议;
生成会议记录文档包括以下步骤:
步骤2.1)语音处理模块对步骤1.2)中传输来的语音流进行声纹特征对比、降噪、去回声处理,声纹训练模块从语音处理模块调用处理过的语音流进行处理并返回给语音处理模块建立声纹角色数据库;
步骤2.2)语音处理模块将处理后的语音流通过wifi模块上传至语音识别服务器进行识别转码,并生成会议记录文档;
步骤2.3)语音识别服务器将生成的会议记录文档回传至语音处理模块;
步骤2.4)语音处理模块通过中央处理器将生成的会议记录文档根据保存地址进行存储。
进一步的,所述步骤2.1)中,进行声纹特征对比之前,需对参会人员角色通过声纹训练模块定义需做声纹训练处理,对于训练结果需要对每段人声进行一次性定义,当语音处理模块接收到语音流时对声纹信息进行对比,如果比对成功,则判定发声人,如果比对失败,则进行默认定义。
进一步的,所述步骤2.2)中,语音识别服务器对语音处理模块上传来的语音流进行角色特征识别对比以及语音内容识别对比,最后生成会议记录文档。
进一步的,在声纹训练处理时,每个角色的定义需要一定量的训练语音流,在视频会议之前进行语音流训练,训练语音流传通过语音处理模块建立语音流类别,从而确定发声角色,类库中的语音流传输至声纹训练模块进行训练,声纹训练模块对训练语音流进行特征提取以及通过模型进行训练,当训练得出的对比特征阈值R稳定在一定范围内后对角色进行定义,从而建立声纹角色数据库,方便在今后的远程视频会议文档记录的时候进行调用。
进一步的,在远程视频会议过程中,参会人员的角色语音通过语音处理模块处理后与声纹角色数据库中的角色语音进行特征对比,当对比特征阈值R≤1时,表示角色语音能够与声纹角色数据库中的角色匹配,匹配成功后则定义记录角色,同时开始识别发声角色的语音内容,从而生成特定角色的文档,当对比特征阈值R>1时,则标识无法在声纹角色数据库中匹配到准确定义的角色,则系统定义发声角色为默认角色,然后以默认角色的定义识别语音内容后生成文档。
本发明的有益效果是:
相对于现有技术,本发明结合语音识别与视频会议系统,弥补了传统远程视频会议系统无法进行会议文档记录的缺陷,满足了部门、企业等对于远程会议记录需求,方便了对于会议内容的调取与回顾,本发明通过麦克风阵列在本地实现降噪与回声处理,能够得到清晰的语音音频,进而能够通过语音识别服务器处理获取准确的文档内容,形成有效的文档进行存储。
附图说明
图1是本发明的运行结构图;
图2是本发明的系统结构图;
图3是本发明的语音流流程图;
图4是本发明的角色特征训练模型图;
图5是本发明的视频会议角色定义方法图。
具体实施方式
下面将参考附图并结合实施例,来详细说明本发明。
如图1所示,一种远程会议语音识别数据传输方法,包括若干个参会终端设备,每个参会终端设备包括麦克风阵列、摄像头、wifi模块、语音处理模块、声纹训练模块、存储模块、语音识别服务器、中央处理器、扬声器和显示屏,所述语音处理模块分别连接声纹训练模块和麦克风阵列,所述中央处理器分别连接存储模块、摄像头、麦克风阵列、wifi模块、扬声器和显示屏,所述Wifi模块通过互联网连接语音识别服务器,在本实施例中,显示屏采用7寸液晶显示屏,通过屏线与主板连接,同时搭载8欧10W的功放音腔,通过排线与主板连接,顶部装配一块6麦克风阵列,通过排线连接主板。麦克风阵列上有轻触开关控制电源,同时搭载9颗5050RGB灯珠显示参会终端设备状态,参会终端设备电源输入使用12V2A的适配器供电,该方法包括构建远程视频会议和生成会议记录文档,其中,
如图2和图3所示,构建远程视频会议包括以下步骤:
步骤1.1)多个参会终端设备同步运行,在本实施例中,采用两个参会终端设备同步运行,打开显示屏,并开启摄像头和麦克风阵列分别对现场会议视频和音频进行拾取;
步骤1.2)摄像头捕捉视频画面传送到对应参会终端设备的中央处理器进行编解码,麦克风阵列搜集语音,一份传送至对应参会终端设备的中央处理器进行编解码,另一份传送至语音处理模块进行声纹特征对比以及降噪去回音;
步骤1.3)参会终端设备的中央处理器将编解码后的视频画面和语音通过wifi模块连接互联网传送至其它参会终端设备进行解码,解码后的视频画面通过显示器显示,解码后的语音通过扬声器播放,实现远程视频会议;
继续参照图2和图3所示,生成会议记录文档包括以下步骤:
步骤2.1)语音处理模块对步骤1.2)中传输来的语音流进行声纹特征对比、降噪、去回声处理,声纹训练模块从语音处理模块调用处理过的语音流进行处理并返回给语音处理模块建立声纹角色数据库;
步骤2.2)语音处理模块将处理后的语音流通过wifi模块上传至语音识别服务器进行识别转码,并生成会议记录文档;
步骤2.3)语音识别服务器将生成的会议记录文档回传至语音处理模块;
步骤2.4)语音处理模块通过中央处理器将生成的会议记录文档根据保存地址进行存储。
所述步骤2.1)中,进行声纹特征对比之前,需对参会人员角色通过声纹训练模块定义需做声纹训练处理,对于训练结果需要对每段人声进行一次性定义,当语音处理模块接收到语音流时对声纹信息进行对比,如果比对成功,则判定发声人,如果比对失败,则进行默认定义。
所述步骤2.2)中,语音识别服务器对语音处理模块上传来的语音流进行角色特征识别对比以及语音内容识别对比,最后生成会议记录文档。
如图4所示,在声纹训练处理时,每个角色的定义需要一定量的训练语音流,在视频会议之前进行语音流训练,训练语音流传通过语音处理模块建立语音流类别,从而确定发声角色,类库中的语音流传输至声纹训练模块进行训练,声纹训练模块对训练语音流进行特征提取以及通过模型进行训练,当训练得出的对比特征阈值R稳定在一定范围内后对角色进行定义,从而建立声纹角色数据库,方便在今后的远程视频会议文档记录的时候进行调用。
在本实施例中,训练语音首先需要利用麦克风矩阵收集音频,通过语音处理模块进行去除静音、去除能量偏移以及消除信道影响等操作寻找特征;特征参数为13维的梅尔倒谱系数MFCC特征值及其一阶和二阶差分;然后通过最大似然估计的方法训练获得一个与角色有关的通用背景模型UBM;UBM其实是一个大型的GMM模型,它的训练数据是各个信道下角色的语音,用来训练表示与角色有关语音的特征空间分布;最后与传统的直接基于最大期望EM算法训练GMM的方法不同,每个角色的GMM是通过采用最大后验概率MAP的方法从UBM上自适应得到;每个角色的GMM由均值向量,协方差矩阵和混合权重组成。
如图5所示,在远程视频会议过程中,参会人员的角色语音通过语音处理模块处理后与声纹角色数据库中的角色语音进行特征对比,当对比特征阈值R≤1时,表示角色语音能够与声纹角色数据库中的角色匹配,匹配成功后则定义记录角色,同时开始识别发声角色的语音内容,从而生成特定角色的文档,当对比特征阈值R>1时,则标识无法在声纹角色数据库中匹配到准确定义的角色,则系统定义发声角色为默认角色,然后以默认角色的定义识别语音内容后生成文档。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (5)

1.一种远程会议语音识别数据传输方法,包括若干个参会终端设备,每个参会终端设备包括麦克风阵列、摄像头、wifi模块、语音处理模块、声纹训练模块、存储模块、语音识别服务器、中央处理器、扬声器和显示屏,所述语音处理模块分别连接声纹训练模块和麦克风阵列,所述中央处理器分别连接存储模块、摄像头、麦克风阵列、wifi模块、扬声器和显示屏,所述Wifi模块通过互联网连接语音识别服务器,其特征在于,该方法包括构建远程视频会议和生成会议记录文档,其中,
构建远程视频会议包括以下步骤:
步骤1.1)多个参会终端设备同步运行,打开显示屏,并开启摄像头和麦克风阵列分别对现场会议视频和音频进行拾取;
步骤1.2)摄像头捕捉视频画面传送到对应参会终端设备的中央处理器进行编解码,麦克风阵列搜集语音,一份传送至对应参会终端设备的中央处理器进行编解码,另一份传送至语音处理模块进行声纹特征对比以及降噪去回音;
步骤1.3)参会终端设备的中央处理器将编解码后的视频画面和语音通过wifi模块连接互联网传送至其它参会终端设备进行解码,解码后的视频画面通过显示器显示,解码后的语音通过扬声器播放,实现远程视频会议;
生成会议记录文档包括以下步骤:
步骤2.1)语音处理模块对步骤1.2)中传输来的语音流进行声纹特征对比、降噪、去回声处理,声纹训练模块从语音处理模块调用处理过的语音流进行处理并返回给语音处理模块建立声纹角色数据库;
步骤2.2)语音处理模块将处理后的语音流通过wifi模块上传至语音识别服务器进行识别转码,并生成会议记录文档;
步骤2.3)语音识别服务器将生成的会议记录文档回传至语音处理模块;
步骤2.4)语音处理模块通过中央处理器将生成的会议记录文档根据保存地址进行存储。
2.根据权利要求1所述的远程会议语音识别数据传输方法,其特征在于,所述步骤2.1)中,进行声纹特征对比之前,需对参会人员角色通过声纹训练模块定义需做声纹训练处理,对于训练结果需要对每段人声进行一次性定义,当语音处理模块接收到语音流时对声纹信息进行对比,如果比对成功,则判定发声人,如果比对失败,则进行默认定义。
3.根据权利要求1或2所述的远程会议语音识别数据传输方法,其特征在于,所述步骤2.2)中,语音识别服务器对语音处理模块上传来的语音流进行角色特征识别对比以及语音内容识别对比,最后生成会议记录文档。
4.根据权利要求2所述的远程会议语音识别数据传输方法,其特征在于,在声纹训练处理时,每个角色的定义需要一定量的训练语音流,在视频会议之前进行语音流训练,训练语音流传通过语音处理模块建立语音流类别,从而确定发声角色,类库中的语音流传输至声纹训练模块进行训练,声纹训练模块对训练语音流进行特征提取以及通过模型进行训练,当训练得出的对比特征阈值R稳定在一定范围内后对角色进行定义,从而建立声纹角色数据库,方便在今后的远程视频会议文档记录的时候进行调用。
5.根据权利要求4所述的远程会议语音识别数据传输方法,其特征在于,在远程视频会议过程中,参会人员的角色语音通过语音处理模块处理后与声纹角色数据库中的角色语音进行特征对比,当对比特征阈值R≤1时,表示角色语音能够与声纹角色数据库中的角色匹配,匹配成功后则定义记录角色,同时开始识别发声角色的语音内容,从而生成特定角色的文档,当对比特征阈值R>1时,则标识无法在声纹角色数据库中匹配到准确定义的角色,则系统定义发声角色为默认角色,然后以默认角色的定义识别语音内容后生成文档。
CN201811323511.1A 2018-11-08 2018-11-08 一种远程会议语音识别数据传输方法 Pending CN109525800A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811323511.1A CN109525800A (zh) 2018-11-08 2018-11-08 一种远程会议语音识别数据传输方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811323511.1A CN109525800A (zh) 2018-11-08 2018-11-08 一种远程会议语音识别数据传输方法

Publications (1)

Publication Number Publication Date
CN109525800A true CN109525800A (zh) 2019-03-26

Family

ID=65776042

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811323511.1A Pending CN109525800A (zh) 2018-11-08 2018-11-08 一种远程会议语音识别数据传输方法

Country Status (1)

Country Link
CN (1) CN109525800A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110289013A (zh) * 2019-07-24 2019-09-27 腾讯科技(深圳)有限公司 多音频采集源检测方法、装置、存储介质和计算机设备
CN110517674A (zh) * 2019-07-26 2019-11-29 视联动力信息技术股份有限公司 一种语音处理方法、装置及存储介质
CN112187886A (zh) * 2020-09-14 2021-01-05 中标慧安信息技术股份有限公司 分布式智能分析设备系统的业务处理方法
CN113132542A (zh) * 2021-05-06 2021-07-16 上海纽偲钽文化传媒有限公司 一种基于互联网的线上会议系统及方法
CN114531563A (zh) * 2022-02-16 2022-05-24 广州市哲闻信息科技有限公司 一种视频会议控制方法和系统
TWI783344B (zh) * 2021-01-11 2022-11-11 圓展科技股份有限公司 聲源追蹤系統及其方法

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101321387A (zh) * 2008-07-10 2008-12-10 中国移动通信集团广东有限公司 基于通信系统的声纹识别方法及系统
CN102968991A (zh) * 2012-11-29 2013-03-13 华为技术有限公司 一种语音会议纪要的分类方法、设备和系统
US20140244252A1 (en) * 2011-06-20 2014-08-28 Koemei Sa Method for preparing a transcript of a conversion
CN104038354A (zh) * 2014-04-25 2014-09-10 西北工业大学 一种基于智能手机的会议交互方法
KR20150117796A (ko) * 2014-04-11 2015-10-21 콜투게더 주식회사 원격회의에서의 회의록 파일 자동 생성 방법 및 그 시스템
CN105245355A (zh) * 2015-10-14 2016-01-13 安徽声讯信息技术有限公司 智能语音速记会议系统
CN106057193A (zh) * 2016-07-13 2016-10-26 深圳市沃特沃德股份有限公司 基于电话会议的会议记录生成方法和装置
CN106657865A (zh) * 2016-12-16 2017-05-10 联想(北京)有限公司 会议纪要的生成方法、装置及视频会议系统
CN107749313A (zh) * 2017-11-23 2018-03-02 郑州大学第附属医院 一种自动转写与生成远程医疗会诊记录的方法
CN108022583A (zh) * 2017-11-17 2018-05-11 平安科技(深圳)有限公司 会议纪要生成方法、应用服务器及计算机可读存储介质
WO2018107605A1 (zh) * 2016-12-16 2018-06-21 广州视源电子科技股份有限公司 一种将音视频数据转化成文字记录的系统和方法
CN108597518A (zh) * 2018-03-21 2018-09-28 安徽咪鼠科技有限公司 一种基于语音识别的会议记录智能麦克风系统

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101321387A (zh) * 2008-07-10 2008-12-10 中国移动通信集团广东有限公司 基于通信系统的声纹识别方法及系统
US20140244252A1 (en) * 2011-06-20 2014-08-28 Koemei Sa Method for preparing a transcript of a conversion
CN102968991A (zh) * 2012-11-29 2013-03-13 华为技术有限公司 一种语音会议纪要的分类方法、设备和系统
KR20150117796A (ko) * 2014-04-11 2015-10-21 콜투게더 주식회사 원격회의에서의 회의록 파일 자동 생성 방법 및 그 시스템
CN104038354A (zh) * 2014-04-25 2014-09-10 西北工业大学 一种基于智能手机的会议交互方法
CN105245355A (zh) * 2015-10-14 2016-01-13 安徽声讯信息技术有限公司 智能语音速记会议系统
CN106057193A (zh) * 2016-07-13 2016-10-26 深圳市沃特沃德股份有限公司 基于电话会议的会议记录生成方法和装置
CN106657865A (zh) * 2016-12-16 2017-05-10 联想(北京)有限公司 会议纪要的生成方法、装置及视频会议系统
WO2018107605A1 (zh) * 2016-12-16 2018-06-21 广州视源电子科技股份有限公司 一种将音视频数据转化成文字记录的系统和方法
CN108022583A (zh) * 2017-11-17 2018-05-11 平安科技(深圳)有限公司 会议纪要生成方法、应用服务器及计算机可读存储介质
CN107749313A (zh) * 2017-11-23 2018-03-02 郑州大学第附属医院 一种自动转写与生成远程医疗会诊记录的方法
CN108597518A (zh) * 2018-03-21 2018-09-28 安徽咪鼠科技有限公司 一种基于语音识别的会议记录智能麦克风系统

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110289013A (zh) * 2019-07-24 2019-09-27 腾讯科技(深圳)有限公司 多音频采集源检测方法、装置、存储介质和计算机设备
CN110289013B (zh) * 2019-07-24 2023-12-19 腾讯科技(深圳)有限公司 多音频采集源检测方法、装置、存储介质和计算机设备
CN110517674A (zh) * 2019-07-26 2019-11-29 视联动力信息技术股份有限公司 一种语音处理方法、装置及存储介质
CN112187886A (zh) * 2020-09-14 2021-01-05 中标慧安信息技术股份有限公司 分布式智能分析设备系统的业务处理方法
TWI783344B (zh) * 2021-01-11 2022-11-11 圓展科技股份有限公司 聲源追蹤系統及其方法
CN113132542A (zh) * 2021-05-06 2021-07-16 上海纽偲钽文化传媒有限公司 一种基于互联网的线上会议系统及方法
CN114531563A (zh) * 2022-02-16 2022-05-24 广州市哲闻信息科技有限公司 一种视频会议控制方法和系统

Similar Documents

Publication Publication Date Title
CN109525800A (zh) 一种远程会议语音识别数据传输方法
US9414013B2 (en) Displaying participant information in a videoconference
US8791977B2 (en) Method and system for presenting metadata during a videoconference
US8487976B2 (en) Participant authentication for a videoconference
US8125509B2 (en) Facial recognition for a videoconference
US8120638B2 (en) Speech to text conversion in a videoconference
US9282284B2 (en) Method and system for facial recognition for a videoconference
US8630854B2 (en) System and method for generating videoconference transcriptions
US9064160B2 (en) Meeting room participant recogniser
US20140244252A1 (en) Method for preparing a transcript of a conversion
US9247205B2 (en) System and method for editing recorded videoconference data
CN107527623B (zh) 传屏方法、装置、电子设备及计算机可读存储介质
US20120259924A1 (en) Method and apparatus for providing summary information in a live media session
DE112011103893T5 (de) Verbessern der Skalierbarkeit einer Mehrpunktkonferenz für sich am gleichen Ort befindliche Teilnehmer
TW200951835A (en) Techniques to manage a whiteboard for multimedia conference events
CN109150556A (zh) 基于语音识别的多人远程会议记录系统
KR102412823B1 (ko) 번역 기능을 제공하는 실시간 양방향 온라인 회의 시스템
CN117135305B (zh) 一种电话会议实现方法、装置和系统
CN116312564A (zh) 一种基于声纹技术的视频会议用啸叫抑制设备
JP2001268078A (ja) 通信制御装置、その方法およびその提供媒体と通信装置
CN110996036B (zh) 一种基于ai智能技术的远程网上会议管理系统
CN116472705A (zh) 一种会议内容显示的方法、会议系统及会议设备
JP2005308950A (ja) 音声処理装置および音声処理システム
CN112995568B (zh) 一种基于视频客服系统及构建方法
CN114363557B (zh) 一种面向语义保真的虚拟会议方法及三维虚拟会议系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination