CN101309390B - 视讯通信系统、装置及其字幕显示方法 - Google Patents

视讯通信系统、装置及其字幕显示方法 Download PDF

Info

Publication number
CN101309390B
CN101309390B CN2007100745423A CN200710074542A CN101309390B CN 101309390 B CN101309390 B CN 101309390B CN 2007100745423 A CN2007100745423 A CN 2007100745423A CN 200710074542 A CN200710074542 A CN 200710074542A CN 101309390 B CN101309390 B CN 101309390B
Authority
CN
China
Prior art keywords
signal
video
module
voice
meeting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN2007100745423A
Other languages
English (en)
Other versions
CN101309390A (zh
Inventor
刘智辉
岳中辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority to CN2007100745423A priority Critical patent/CN101309390B/zh
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to AT08706572T priority patent/ATE536031T1/de
Priority to PT08706572T priority patent/PT2154885E/pt
Priority to PCT/CN2008/070195 priority patent/WO2008141539A1/zh
Priority to EP08706572A priority patent/EP2154885B1/en
Priority to ES08706572T priority patent/ES2375537T3/es
Publication of CN101309390A publication Critical patent/CN101309390A/zh
Priority to US12/605,888 priority patent/US20100039498A1/en
Application granted granted Critical
Publication of CN101309390B publication Critical patent/CN101309390B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B21/00Teaching, or communicating with, the blind, deaf or mute
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B21/00Teaching, or communicating with, the blind, deaf or mute
    • G09B21/001Teaching or communicating with blind persons
    • G09B21/006Teaching or communicating with blind persons using audible presentation of the information
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B21/00Teaching, or communicating with, the blind, deaf or mute
    • G09B21/009Teaching or communicating with deaf persons
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/42391Systems providing special services or facilities to subscribers where the subscribers are hearing-impaired persons, e.g. telephone devices for the deaf
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/141Systems for two-way working between two video terminals, e.g. videophone
    • H04N7/147Communication arrangements, e.g. identifying the communication as a video-communication, intermediate storage of the signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/34Adaptation of a single recogniser for parallel processing, e.g. by use of multiple processors or cloud computing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L2021/065Aids for the handicapped in understanding

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Physics & Mathematics (AREA)
  • Educational Technology (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Business, Economics & Management (AREA)
  • Educational Administration (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Telephonic Communication Services (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Television Systems (AREA)

Abstract

本发明公开了一种视讯通信系统、装置及其字幕显示方法,所述系统或装置包括语音拾取模块、影像拾取模块、以及相互连接的语音识别模块和视频编码模块,当建立视讯通信后,语音识别模块与语音拾取模块连接并将其收集的语音信号转换成文本信号传输给视频编码模块,视频编码模块与影像拾取模块连接,视频编码模块将所述文本信号和影像拾取模块收集的视频信号叠加编码发送。本发明视讯通信系统、装置及其字幕显示方法通过将语音信号识别成文本信号直接叠加到视频信号上编码传输,用户可直接解码显示图像和对应语音的文字信息,其方法简单且实时性高。

Description

视讯通信系统、装置及其字幕显示方法
技术领域
本发明涉及一种视讯通信系统、装置及其字幕显示方法,特别是适用于视讯会议的视讯通信系统、装置及其显示方法。 
背景技术
随着VoIP、DSP处理、网络带宽等技术的发展,当代人们已经能够方便的通过视讯会议系统在异地进行通话,并且通过图像来看到对方的音容笑貌。传统的视讯会议系统通常包括视讯终端,传输网络及多点控制单元MCU。视讯终端用于接收本地的音视频输入,并把音视频码流进行编码,再通过传输网络发送到远端,其也用于接收远端来的音视频码流,并进行解码,然后再通过本地的扬声器和显示器还原远端的声音和图像;MCU主要用于会议控制和媒体交换,如可以通过MCU来召开一个或者多个多点会议,MCU还接收各个终端来的音视频码流,并进行混音和组合多画面,然后把处理过的音视频码流发送给对应的终端。然而,上述传统视讯通信系统大都不支持实时的字幕显示功能,如果能在会议中实时显示字幕,把说话者的声音转化为文字,并在屏幕上同步显示出来,不但可提高用户的视觉体验,同时也可使得有听力障碍或者有语言障碍的人能够使用视讯系统来进行通讯,减少沟通障碍。 
一种现有的带字幕显示的视讯会议解决方案是在开会的时候由终端通过界面输入需要发送的字幕,并把输入的文本叠加到图像上,对图像进行编码,然后发送到接收端,接收端接收到图像之后,对图像解码并显示。然而,此种现有技术的缺陷在于需要大量的人工输入,通常需要事先编辑好显示的字幕内容,且无法实现实时传输字幕内容,因此,此种字幕显示方法通常仅仅只适用于会议的信息通知上。 
美国第5,774,857号专利揭示了一种带字幕显示的通讯设备,其通过在接收端外接电话机和一些用户接口如键盘,并集成语音识别模块,当用户通过电话 建立通话后,设备接收远端来的语音信号,然后通过语音识别模块把接收的语音信号转换成文本信号,再通过一个射频调制器把文本信号调制到视频基带信号中,然后送到电视进行显示。然而,在发明过程中,发明人发现了如下的技术问题:上述现有设备通过射频调制器把文本信号调制成射频信号调制到视频基带信号后再显示,大大增加了字幕显示的技术复杂度,实时性不高;其次,上述现有设备的语音识别模块设置于接收端,不利于用户进行语音识别训练;再次,在多点会议中,如果上述现有设备接收的语音信号是多个人的语音合成信号时,单一的语音识别模块无法同时识别不同的语音信号,导致识别信号紊乱,不能正确显示字幕。 
发明内容
为了克服现有视讯通信系统的字幕显示技术复杂、实时性不高的不足,本发明提供一种视讯通信系统、装置及其字幕显示方法,其字幕显示方法简单,实时性高。 
在本发明的一个实施例中,可以提供一种视讯通信控制装置,其包括多点控制单元,接入视讯通信系统的多个视讯终端装置通过连接多点控制单元实现会议控制和媒体交换,所述视讯终端装置分别包括语音拾取模块和影像拾取模块,所述多点控制单元内部集成了多个语音识别模块和视频编码模块,每一语音识别模块分别与一接入视讯通信系统的视讯终端装置的语音拾取模块连接并将其收集的语音信号转换成文本信号传输给一视频编码模块,所述视频编码模块将所述文本信号和其他会议参加人需接收显示的会场视讯终端的影像拾取模块收集的图像视频信号叠加编码发送,所述多点控制单元根据接入视讯通信系统的视讯终端装置数量或系统设置的最大启动数量相应配置并启动至少一个语音识别模块和至少一个视频编码模块,所述多点控制单元还包括一混音模块,其根据多点控制单元启动的语音识别模块数量相应选取对应数量的语音信号,并对所选取的对应数量的语音信号解码之后的语音数据进行混音,将每一选取的语音信号被分别传输至一语音识别模块进行文字信息转换,再分别多点分发 到对应其他与会者的视频编码模块与视频信号叠加编码,将混音数据以及叠加编码之后的视频信号发送给对应的视讯终端装置。 
相较于现有技术而言,本发明实施例中的技术方案至少具有如下的优点:本发明实施例通过将语音信号识别成文本信号直接叠加到视频信号上编码传输,用户可直接解码显示图像和对应语音的文字信息,其方法简单且实时性高。 
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。 
图1是本发明实施例视讯通信系统、装置点对点通信第一实施例的原理示意图; 
图2是本发明实施例视讯通信系统、装置点对点通信第二实施例的原理示意图; 
图3是本发明实施例视讯通信系统、装置多点通信实施例的原理示意图; 
图4是本发明实施例视讯通信的字幕显示方法的流程示意图。 
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。 
本发明视讯通信系统包括视讯终端、语音识别模块、视频编码模块、多点控制单元(如MCU)及传输网络,其中用户通过视讯终端输入语音信号和视频信号,语音识别模块将输入的语音信号转换成文本信号,视频编码模块将上述文本信号和视频信号进行字幕叠加后编码,再通过传输网络发送至远端。 
请参阅图1,本发明第一实施例的语音识别模块10和视频编码模块20集成于视讯终端内部,其中语音识别模块10与语音拾取模块(麦克风)连接,其将麦 克风收集的语音信号识别成文本信号并传输给视频编码模块20,视频编码模块20与摄像机连接,其将上述文本信号叠加到影像拾取模块(摄像机)收集的图像视频信号上,然后编码发送给远端,这样远端用户就可以实时看到与语音信号同步显示的识别字幕信息,因此可提高用户的会话体验,尤其是对于一些有听力障碍的人来说,让其也可以正常进行通话。 
可以理解,由于本实施例的语音识别模块10集成于视讯终端内部,可方便用户进行语音识别训练以提高识别率;其次,语音识别模块10也可设置成根据用户的需要选择开启,当多人进行多点会议时,也支持多点分发功能;此外,本实施例的视讯终端还可集成语音合成模块,用户通过文字输入模块(键盘或者其他方式)输入文字信息,语音合成模块把文字信息转换为语音信号,并把文字信息送到视频编码模块20,视频编码模块20把用户输入的信息叠加到图像视频信号上,并编码发送给远端,同时转换后的语音信号送到语音编码模块进行编码,并发送给远端。这样,哑巴或者有发音障碍者也可以通过本发明视讯通信设备与对方进行交流。 
请参阅图2,本发明第二实施例的语音识别模块和视频编码模块集成于MCU内部,MCU内部集成了多个语音识别模块和视频编码模块,此时通讯终端之间通过MCU实现会议的控制和媒体交换,MCU根据参与视讯通信的用户数量相应配置并启动多个语音识别模块和视频编码模块。以点对点会议为例,当MCU接收到终端1和终端2的语音,并进行解码,然后把终端1解码后的语音信号送到第一语音识别模块11,第一语音识别模块11将终端1的声音识别转换成文本信号后传输到与终端2对应的第一视频编码模块21,第一视频编码模块21把终端1的文本信号叠加到视频图像上,并编码发送给终端2;终端2解码后的语音信号送到第二语音识别模块12,第二语音识别模块12将终端2的声音识别转换成文本信号后传输到与终端1对应的第二视频编码模块22,第二视频编码模块22把终端2的文本信号叠加到视频图像上,并编码发送给终端1。由此,终端1和终端2分别对接收到视频码流进行解码后,就可以看到对应的字幕了。 
请一并参阅图3,当运用本发明第二实施例进行多点会议时,MCU可根据参 与视讯通信的用户数量相应配置并启动多个语音识别模块和视频编码模块,也可系统设置语音识别模块的启动数量。以启动三个语音识别模块为例,首先MCU接收各个终端的音频和视频数据,并解码音频数据,然后通过混音模块进行混音,混音时得到音量最大的三个会场,如会场1、2、3为音量最大的三个会场,把最大三方的语音数据分别送到三个语音识别模块,语音识别模块识别最大三方1、2、3的语音,得到与语音对应的文本信号T1、T2、T3,然后把文本信号送到各个会场对应的视频编码模块,视频编码模块将文本信号和视频信号叠加,然后发送给终端。如送到会场1的字幕为会场2和会场3的语音识别后的语音文本信号,送到会场2的字幕为会场1和会场3语音识别后的文本信号,送到会场3的字幕为会场1和会场2语音识别后的文本信号。送到其他会场的字幕为会场1、会场2和会场3的语音识别后的文本信号。 
可以理解,在上述混音过程中,MCU先得到声音最大的三个会场1、2、3,然后把会场2会场3的声音相加并编码后送给会场1,这样会场1听到的是会场2和会场3的声音,把会场1和会场3的声音相加并编码后送给会场2,这样会场2听到的是会场1和会场3的声音,相应地,会场3听到的是会场1和会场2的声音,这样各个会场显示的字幕刚好和该会场听到的声音相对应。各个会场的终端接收到音视频码流后进行解码,通过扬声器和显示器可以重现声音,并可看到与声音相对应的字幕了。此外,上面是以三方混音的字幕显示为例说明,本发明视讯通信设备也可配置成只显示音量最大的一方的字幕或者只显示音量最大的两方的字幕,或根据用户的需求来配置其他多方混音的方式进行字幕显示。 
请参阅图4,由上所述,可以理解本发明视讯通信字幕显示方法包括以下步骤: 
步骤一、建立视讯通信; 
步骤二、判断设置识别语音信号的数量; 
步骤三、判断各会场音量大小,并根据上述数量优选出音量最大的相应数量的说话人的语音信号; 
步骤四、将说话人的语音信号识别转换成文本信号; 
步骤五、将文本信号分别与其他会议参加人需接收显示的图像视频信号(本实施例为与语音信号对应的说话人会场图像视频信号)实时叠加编码,再分别发送给其他会议参加人; 
步骤六、其他会议参加人接收解码上述叠加文本信号的视频信号观看图像及字幕。 
可以理解,在上述方法中,识别语音信号的数量可根据系统或人工设置的数值来判断选取,也可不设置识别数量而对每一参会人会场的语音进行识别;其次,其他每一会议参加人可分别控制选择需接收显示的会场图像,其可选择显示说话人的会场图像,也可选择其他非说话人的会场图像,不论其选择显示哪个会场,只需将说话人的文本信号与每一会议参加人选择显示的会场图像视频信号叠加编码即可。 
可以理解,本发明视讯通信系统的语音识别模块和视频编码模块也可共同设置在系统及传输网络中其他装置或专用装置中或分离设置在系统及传输网络中不同的装置中,其相互配合将语音信号识别成文本信号直接叠加到视频信号上编码传输,用户可直接解码显示图像和对应语音的文字信息,其方法简单且实时性高。 
虽然上面描述的仅仅是实施例,但并不意味着本发明的保护范围仅限于所述的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下通过修改、等同、替代所获得的所有其他实施例,都属于本发明保护的范围。 

Claims (1)

1.一种视讯通信控制装置,其包括多点控制单元,接入视讯通信系统的多个视讯终端装置通过连接多点控制单元实现会议控制和媒体交换,所述视讯终端装置分别包括语音拾取模块和影像拾取模块,其特征在于:
所述多点控制单元内部集成了多个语音识别模块和视频编码模块,每一语音识别模块分别与一接入视讯通信系统的视讯终端装置的语音拾取模块连接并将其收集的语音信号转换成文本信号传输给一视频编码模块,所述视频编码模块将所述文本信号和其他会议参加人需接收显示的会场视讯终端的影像拾取模块收集的图像视频信号叠加编码发送;
所述多点控制单元根据接入视讯通信系统的视讯终端装置数量或系统设置的最大启动数量相应配置并启动至少一个语音识别模块和至少一个视频编码模块;
所述多点控制单元还包括一混音模块,其根据多点控制单元启动的语音识别模块数量相应选取对应数量的语音信号,并对所选取的对应数量的语音信号解码之后的语音数据进行混音,将每一选取的语音信号被分别传输至一语音识别模块进行文字信息转换,再分别多点分发到对应其他与会者的视频编码模块与视频信号叠加编码,将混音数据以及叠加编码之后的视频信号发送给对应的视讯终端装置。
CN2007100745423A 2007-05-17 2007-05-17 视讯通信系统、装置及其字幕显示方法 Active CN101309390B (zh)

Priority Applications (7)

Application Number Priority Date Filing Date Title
CN2007100745423A CN101309390B (zh) 2007-05-17 2007-05-17 视讯通信系统、装置及其字幕显示方法
PT08706572T PT2154885E (pt) 2007-05-17 2008-01-28 Um método de apresentação da legenda e um aparelho e sistema de comunicação de vídeo
PCT/CN2008/070195 WO2008141539A1 (fr) 2007-05-17 2008-01-28 Procédé d'affichage de légendes, système et appareil de communication vidéo
EP08706572A EP2154885B1 (en) 2007-05-17 2008-01-28 A caption display method and a video communication control device
AT08706572T ATE536031T1 (de) 2007-05-17 2008-01-28 Bildunterschrift-anzeigeverfahren und videokontrolkommunikationssystem
ES08706572T ES2375537T3 (es) 2007-05-17 2008-01-28 Un método de visualización de subt�?tulos y un dispositivo de control de videocomunicación.
US12/605,888 US20100039498A1 (en) 2007-05-17 2009-10-26 Caption display method, video communication system and device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2007100745423A CN101309390B (zh) 2007-05-17 2007-05-17 视讯通信系统、装置及其字幕显示方法

Publications (2)

Publication Number Publication Date
CN101309390A CN101309390A (zh) 2008-11-19
CN101309390B true CN101309390B (zh) 2012-05-23

Family

ID=40031408

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2007100745423A Active CN101309390B (zh) 2007-05-17 2007-05-17 视讯通信系统、装置及其字幕显示方法

Country Status (7)

Country Link
US (1) US20100039498A1 (zh)
EP (1) EP2154885B1 (zh)
CN (1) CN101309390B (zh)
AT (1) ATE536031T1 (zh)
ES (1) ES2375537T3 (zh)
PT (1) PT2154885E (zh)
WO (1) WO2008141539A1 (zh)

Families Citing this family (70)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100079573A1 (en) * 2008-09-26 2010-04-01 Maycel Isaac System and method for video telephony by converting facial motion to text
CN101789871B (zh) * 2009-01-23 2012-10-03 国际商业机器公司 支持多个同时在线会议的方法、服务器端及客户端设备
CN101931779A (zh) * 2009-06-23 2010-12-29 中兴通讯股份有限公司 一种可视电话及其通讯方法
EP2325838A1 (en) * 2009-10-27 2011-05-25 verbavoice GmbH A method and system for transcription of spoken language
CN101764957B (zh) * 2009-12-28 2012-07-04 深圳华为通信技术有限公司 一种在会议字幕中插入图片的方法和装置
CN102339603A (zh) * 2010-07-23 2012-02-01 张文 通用数字语音直接交流机
CN102036051A (zh) * 2010-12-20 2011-04-27 华为终端有限公司 实现视频会议中提词的方法以及装置
US9077848B2 (en) 2011-07-15 2015-07-07 Google Technology Holdings LLC Side channel for employing descriptive audio commentary about a video conference
JP5892021B2 (ja) * 2011-12-26 2016-03-23 キヤノンマーケティングジャパン株式会社 会議サーバ、会議システム、会議サーバの制御方法、プログラムおよび記録媒体
CN102625079B (zh) * 2012-03-21 2015-01-14 厦门亿联网络技术股份有限公司 一种三方视频会议的视频实现方法
CN103685985A (zh) * 2012-09-17 2014-03-26 联想(北京)有限公司 通话方法、发送装置、接收装置、语音处理和终端设备
CN102984496B (zh) * 2012-12-21 2015-08-19 华为技术有限公司 视频会议中的视音频信息的处理方法、装置及系统
CN103945140B (zh) * 2013-01-17 2017-11-28 联想(北京)有限公司 视频字幕的生成方法及系统
JP6064209B2 (ja) * 2013-02-01 2017-01-25 東日本電信電話株式会社 通話システム及び通話中継方法
US9135916B2 (en) * 2013-02-26 2015-09-15 Honeywell International Inc. System and method for correcting accent induced speech transmission problems
KR102090948B1 (ko) * 2013-05-20 2020-03-19 삼성전자주식회사 대화 기록 장치 및 그 방법
CN103369292B (zh) * 2013-07-03 2016-09-14 华为技术有限公司 一种呼叫处理方法及网关
KR20150125464A (ko) * 2014-04-30 2015-11-09 삼성전자주식회사 메시지 표시 방법 및 전자 장치
CN104301560A (zh) * 2014-09-30 2015-01-21 成都英博联宇科技有限公司 一种带打印功能的智能会议电话机
CN104301558A (zh) * 2014-09-30 2015-01-21 成都英博联宇科技有限公司 一种带显示功能的智能会议电话机
CN104301564A (zh) * 2014-09-30 2015-01-21 成都英博联宇科技有限公司 一种带嘴型识别的智能会议电话机
CN104581221A (zh) * 2014-12-25 2015-04-29 广州酷狗计算机科技有限公司 视频直播的方法和装置
CN105992065B (zh) * 2015-02-12 2019-09-03 南宁富桂精密工业有限公司 随选视讯社交互动方法和系统
CN106301811A (zh) * 2015-05-19 2017-01-04 华为技术有限公司 实现多媒体会议的方法及装置
CN105024834A (zh) * 2015-07-03 2015-11-04 马岩 会议的互动方法及系统
CN105430524B (zh) * 2015-12-01 2019-04-23 赣州市牧士电子有限公司 基于智能电视的通话方式调节方法
CN106973253B (zh) * 2016-01-13 2020-04-14 华为技术有限公司 一种调整媒体流传输的方法及装置
CN105745921A (zh) * 2016-01-19 2016-07-06 王晓光 一种视频网络会议的会议记录方法及系统
CN106060005A (zh) * 2016-05-10 2016-10-26 国家电网公司 一种反事故演习自动话单生成系统
CN106027505A (zh) * 2016-05-10 2016-10-12 国家电网公司 一种反事故演习观摩系统
CN105978874A (zh) * 2016-05-10 2016-09-28 国家电网公司 一种反事故演习自动话单生成方法
EP3455747B1 (en) * 2016-05-13 2021-07-28 Google LLC Voice-controlled closed caption display
CN107547824A (zh) * 2016-06-29 2018-01-05 中兴通讯股份有限公司 音视频处理方法、装置及麦克
CN107578777B (zh) * 2016-07-05 2021-08-03 阿里巴巴集团控股有限公司 文字信息显示方法、装置及系统、语音识别方法及装置
US9497315B1 (en) * 2016-07-27 2016-11-15 Captioncall, Llc Transcribing audio communication sessions
CN107707726A (zh) * 2016-08-09 2018-02-16 深圳市鹏华联宇科技通讯有限公司 一种用于正常人与聋哑人通讯的终端和通话方法
CN108173802B (zh) * 2016-12-07 2022-06-07 北京搜狗科技发展有限公司 一种通讯处理方法、装置和终端
US10469800B2 (en) * 2017-01-26 2019-11-05 Antimatter Research, Inc. Always-on telepresence device
CN106803918A (zh) * 2017-03-02 2017-06-06 无锡纽微特科技有限公司 一种视频通话系统及实现方法
CN107248947B (zh) * 2017-05-22 2019-01-08 腾讯科技(深圳)有限公司 表情处理方法及装置、计算机设备及存储介质
CN107612881B (zh) * 2017-08-01 2020-07-28 广州视源电子科技股份有限公司 在传输文件时传输画面的方法、装置、终端及存储介质
US10372298B2 (en) 2017-09-29 2019-08-06 Apple Inc. User interface for multi-user communication session
CN109587429A (zh) * 2017-09-29 2019-04-05 北京国双科技有限公司 音频处理方法和装置
CN110324723B (zh) * 2018-03-29 2022-03-08 华为技术有限公司 字幕生成方法及终端
DK201870364A1 (en) 2018-05-07 2019-12-03 Apple Inc. MULTI-PARTICIPANT LIVE COMMUNICATION USER INTERFACE
CN110557596B (zh) * 2018-06-04 2021-09-21 杭州海康威视数字技术股份有限公司 会议系统
US10834455B2 (en) 2018-06-27 2020-11-10 At&T Intellectual Property I, L.P. Integrating real-time text with video services
CN108962011A (zh) * 2018-07-17 2018-12-07 深圳市福瑞达显示技术有限公司 一种具有风扇屏和摄像头的一体广告机
CN109146789A (zh) * 2018-08-23 2019-01-04 北京优酷科技有限公司 画面拼接方法及装置
US11128792B2 (en) 2018-09-28 2021-09-21 Apple Inc. Capturing and displaying images with multiple focal planes
CN111104080B (zh) * 2018-10-29 2023-04-07 杭州海康威视数字技术股份有限公司 一种文本远程预览方法及装置
CN109348164A (zh) * 2018-11-19 2019-02-15 国网山东省电力公司信息通信公司 一种电视电话会议自助保障控制系统
CN109889699B (zh) * 2019-02-15 2023-11-28 深圳市昊一源科技有限公司 无线通话主机、无线通话tally系统及转发方法
CN111698441A (zh) * 2019-03-11 2020-09-22 优本技术(深圳)有限公司 一种带字幕合成的智能识别设备
CN110225288A (zh) * 2019-05-09 2019-09-10 黄河 一种信息处理转化装置
CN113539279A (zh) * 2020-04-16 2021-10-22 腾讯科技(深圳)有限公司 一种音频数据处理方法、装置以及计算机可读存储介质
CN111556372A (zh) * 2020-04-20 2020-08-18 北京甲骨今声科技有限公司 为视音频节目实时添加字幕的方法和装置
CN113473238B (zh) * 2020-04-29 2022-10-18 海信集团有限公司 一种智能设备及视频通话时的同声翻译方法
US11513667B2 (en) 2020-05-11 2022-11-29 Apple Inc. User interface for audio message
CN111901552B (zh) * 2020-06-29 2022-10-25 维沃移动通信有限公司 多媒体数据传输方法、装置及电子设备
CN111899721B (zh) * 2020-07-25 2023-08-08 烽火通信科技股份有限公司 一种语音交互终端和智能家居的通信方法
CN112309419B (zh) * 2020-10-30 2023-05-02 浙江蓝鸽科技有限公司 多路音频的降噪、输出方法及其系统
US11671697B2 (en) 2021-01-31 2023-06-06 Apple Inc. User interfaces for wide angle video conference
CN113225614A (zh) * 2021-04-20 2021-08-06 深圳市九洲电器有限公司 视频播放方法、装置、服务器以及存储介质
US11893214B2 (en) 2021-05-15 2024-02-06 Apple Inc. Real-time communication user interface
US11449188B1 (en) 2021-05-15 2022-09-20 Apple Inc. Shared-content session user interfaces
US11907605B2 (en) 2021-05-15 2024-02-20 Apple Inc. Shared-content session user interfaces
US11812135B2 (en) 2021-09-24 2023-11-07 Apple Inc. Wide angle video conference
CN114494951B (zh) * 2022-01-12 2023-04-25 北京百度网讯科技有限公司 视频处理方法、装置、电子设备和存储介质
CN116233540B (zh) * 2023-03-10 2024-04-02 北京富通亚讯网络信息技术有限公司 基于视频图像识别的并行信号处理方法及系统

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5774857A (en) * 1996-11-15 1998-06-30 Motorola, Inc. Conversion of communicated speech to text for tranmission as RF modulated base band video
JP2000023132A (ja) 1998-07-06 2000-01-21 Canon Inc データ通信制御装置及びその制御方法、及びデータ通信システム
CN1133324C (zh) 1999-08-05 2003-12-31 华为技术有限公司 一种字幕的叠加方法
JP2004508776A (ja) * 2000-09-11 2004-03-18 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 音声/画像内容を指標化/要約するシステム
US6894715B2 (en) * 2001-06-16 2005-05-17 Eric Harold Henrikson Mixing video signals for an audio and video multimedia conference call
US6771302B1 (en) * 2001-08-14 2004-08-03 Polycom, Inc. Videoconference closed caption system and method
CN1218574C (zh) * 2001-10-15 2005-09-07 华为技术有限公司 交互式视频设备及其字幕叠加方法
JP2003345379A (ja) * 2002-03-20 2003-12-03 Japan Science & Technology Corp 音声映像変換装置及び方法、音声映像変換プログラム
US6693663B1 (en) * 2002-06-14 2004-02-17 Scott C. Harris Videoconferencing systems with recognition ability
US20040119814A1 (en) 2002-12-20 2004-06-24 Clisham Allister B. Video conferencing system and method
JP2004304601A (ja) * 2003-03-31 2004-10-28 Toshiba Corp Tv電話装置、tv電話装置のデータ送受信方法
US7830408B2 (en) * 2005-12-21 2010-11-09 Cisco Technology, Inc. Conference captioning
US8149261B2 (en) * 2007-01-10 2012-04-03 Cisco Technology, Inc. Integration of audio conference bridge with video multipoint control unit

Also Published As

Publication number Publication date
CN101309390A (zh) 2008-11-19
PT2154885E (pt) 2012-01-19
EP2154885A1 (en) 2010-02-17
ES2375537T3 (es) 2012-03-01
EP2154885B1 (en) 2011-11-30
WO2008141539A1 (fr) 2008-11-27
US20100039498A1 (en) 2010-02-18
EP2154885A4 (en) 2010-04-28
ATE536031T1 (de) 2011-12-15

Similar Documents

Publication Publication Date Title
CN101309390B (zh) 视讯通信系统、装置及其字幕显示方法
CN101370114B (zh) 视频及音频处理方法、多点控制单元和视频会议系统
JP6179834B1 (ja) テレビ会議装置
KR960036650A (ko) 종합정보통신망을 이용한 화상회의 제어시스템
CN101645952A (zh) 会议电话终端、系统及共享数据的方法
CN102025970A (zh) 自动调整视频会议显示模式的方法及系统
CN101478642A (zh) 视频会议系统的多画面混图方法及装置
CN105959613A (zh) 数字会议设备和系统
CN101500127A (zh) 一种视频电话中同步显示字幕的方法
CN102892032B (zh) 实时互动高清网络视频通讯系统
CN102025972A (zh) 应用于视频会议的静音指示的方法及装置
JP2003023612A (ja) 画像通信端末装置
CN203015009U (zh) 实时互动高清网络视频通讯系统
CN101141615B (zh) 会议电视终端支持双流的外置实现方法
CN101895717A (zh) 一种视频会议中显示纯语音终端图像的方法
CN101635820B (zh) 一种具有多媒体通信功能的机顶盒系统
CN105208319B (zh) 会议终端装置和系统
CN100531360C (zh) 一种具有多媒体通信功能的机顶盒系统
CN115022573A (zh) 一种桌面视频会议系统
JP3031320B2 (ja) ビデオ会議装置
JP2003339034A (ja) ネットワーク会議システム、ネットワーク会議方法およびネットワーク会議プログラム
JP2007020028A (ja) グループ形成装置、端末機、連絡システムおよびグループ形成プログラム
JPH07162823A (ja) 多地点間テレビ会議映像表示方式
JPH07264570A (ja) マルチポイントコミュニケーションシステム
JPH09149395A (ja) 通信装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant