CN111654658A - 音视频通话的处理方法、系统、编解码器及存储装置 - Google Patents

音视频通话的处理方法、系统、编解码器及存储装置 Download PDF

Info

Publication number
CN111654658A
CN111654658A CN202010553456.6A CN202010553456A CN111654658A CN 111654658 A CN111654658 A CN 111654658A CN 202010553456 A CN202010553456 A CN 202010553456A CN 111654658 A CN111654658 A CN 111654658A
Authority
CN
China
Prior art keywords
message
audio
word
voice
parameter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010553456.6A
Other languages
English (en)
Other versions
CN111654658B (zh
Inventor
叶权锋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN202010553456.6A priority Critical patent/CN111654658B/zh
Publication of CN111654658A publication Critical patent/CN111654658A/zh
Priority to PCT/CN2020/121868 priority patent/WO2021135515A1/zh
Application granted granted Critical
Publication of CN111654658B publication Critical patent/CN111654658B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/141Systems for two-way working between two video terminals, e.g. videophone
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Information Transfer Between Computers (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明公开了一种音视频通话的处理方法,包括实时采集通话过程中的音视频数据;将所述音视频数据输入到语音转换模块,所述语音转换模块根据预设音转字参数实时识别所述音视频数据,以得到音转字消息;将所述音转字消息发送到消息处理模块,所述消息处理模块通过预设缓存排序策略将所述音转字消息按通话正常顺序进行排序;将已排序的音转字消息进行展示。本发明所述处理方法满足了用户在不同音视频通话、线上会议场景下对发言人的内容进行自定义展示处理,不仅方便用户理解,还提高了各方在沟通上的效率。本发明还公开了一种音视频通话的处理系统、编解码器及存储装置。

Description

音视频通话的处理方法、系统、编解码器及存储装置
技术领域
本发明涉及数据处理技术领域,尤其涉及一种音视频通话的处理方法、系统、编解码器及存储装置。
背景技术
音视频通话作为主流通讯软件中的一项基础功能,解决了人与人之间跨地区的沟通阻碍。音视频通话技术在企业办公软件中更是一项标配功能,钉钉、LARK等企业级应用正逐渐广泛推广语音、视频会议,这能帮助企业提高协同效率,让决策尽快落地。
传统的音视频通话经常面临网络不稳定、丢包、延时等问题导致通话质量不佳、声音不连续,十分影响用户通话体验。办公场景下的会议模式就更为复杂,会议中不可避免会出现讨论,多路声源并进而无法分辨声音的问题。同时,音视频通话中碰到有外国人员参会,语言沟通就会成为最大障碍。在大多数场景下,需要有固定的翻译人员在场,这大大加大了人力成本,也造成了一定的沟通延时。从而,音视频的实时字幕展示与自动翻译显得尤为重要。
发明内容
本发明提供一种音视频通话的处理方法、系统、编解码器及存储装置,其主要目的在于实现音视频的实时字幕展示与自动翻译,可以方便用户理解,还能降低人工翻译成本,并提高各方在沟通上的效率。
为实现上述目的,本发明提供一种音视频通话的处理方法,包括:
实时采集通话过程中的音视频数据;
将所述音视频数据输入到语音转换模块,所述语音转换模块根据预设音转字参数实时识别所述音视频数据,以得到音转字消息;
将所述音转字消息发送到消息处理模块,所述消息处理模块通过预设缓存排序策略将所述音转字消息按通话正常顺序进行排序;
将已排序的音转字消息进行展示。
优选的,在所述音转字消息发送到消息处理模块之前,将所述音转字消息发送到语言翻译模块以获取目标语言的音转字消息,所述目标语言的音转字消息再传输至消息处理模块。
优选的,所述预设音转字参数包括消息序号参数、语句序号参数、语音识别断句参数、时间戳参数、用户参数以及文本参数,其中,所述消息序号参数用于音转字消息排序,所述语句序号参数用于判断音转字消息是否是同一句话,所述语音断句参数用于判断音转字消息的语句是否结束,所述时间戳参数用于标记音转字消息的时间,所述用户参数为用户信息,所述文本参数为音转字消息。
优选的,所述消息处理模块包括缓存消息队列和计时器,所述缓存消息队列用于缓存先到达但非接下来要展示的消息,所述计时器用于等待消息序号的消息到达,超时将跳过该消息序号的消息。
优选的,所述缓存消息队列所接收消息与已展示消息相比,若时间戳较小,则不处理。
优选的,判断计时器是否开启,若没有开启,当缓存消息队列中没有数据,则直接展示当前消息,否则,当前消息进入缓存消息队列,等待处理;若开启,判断当前消息是否为计时器等待的消息序号,若是,关闭计时器并发送当前消息至屏幕模块展示,否则,当前消息进入缓存消息队列,等待处理。
优选的,所述计时器预设有时间阈值,在该时间阈值内未收到目标消息序号消息,则跳过所述目标消息序号消息,并关闭计时器,从缓存消息队列中查找最早的一条消息,并发送屏幕模块展示。
此外,为实现上述目的,本发明还提供一种音视频通话的处理系统,包括:
音视频采集模块,用于实时采集通话过程中的音视频数据;
语音转换模块,用于接收音视频采集模块所传输的音视频数据,所述语音转换模块根据预设音转字参数实时识别所述音视频数据,以得到音转字消息;
消息处理模块,用于接收音转字消息,所述消息处理器通过预设缓存排序策略将所述音转字消息按通话正常顺序进行排序;
屏幕模块,将已排序的待展示消息进行展示。
此外,为实现上述目的,本发明还提供一种编解码器,所述编解码器包括处理器、与所述处理器耦接的存储器,其中,
所述存储器存储有用于实现如上所述的音视频通话的处理方法的程序指令;
所述处理器用于执行所述存储器存储的程序指令。
此外,为实现上述目的,本发明还提供一种存储装置,存储有能够实现如上所述的音视频通话的处理方法的程序文件。
本发明提出的音视频通话的处理方法、系统、编解码器及存储装置,通过实时将音视频数据根据预设音转字参数转成文字,并通过预设缓存排序策略将待展示文字按通话正常顺序进行展示,以满足用户在不同音视频通话、线上会议场景下对发言人的内容进行自定义展示处理,不仅方便用户理解,还提高了各方在沟通上的效率。
附图说明
图1为本发明实施例的音视频通话的处理方法的实施环境图;
图2为本发明实施例的音视频通话的处理方法的流程图;
图3为本发明实施例的实现同声传译方法的流程图;
图4为本发明实施例的消息处理模块执行方法的流程图;
图5为本发明实施例的屏幕模块执行方法的流程图;
图6是本发明实施例的音视频通话的处理系统的结构示意图;
图7是本发明实施例的音视频通话的处理系统另一实施例的结构示意图;
图8是本发明实施例的消息处理模块的结构示意图;
图9是本发明实施例的编解码器的结构示意图;
图10是本发明实施例的存储装置的结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
图1为一个实施例中提供的音视频通话的处理方法的实施环境图,如图1所示,在该实施环境中,包括服务端110以及用户端120,所述用户端120为两个以上。
如图2所示,在一个实施例中,提出了一种音视频通话的处理方法,所述音视频通话的处理方法可以应用于上述设备中,具体可以包括以下步骤:
步骤S302,实时采集通话过程中的音视频数据。
具体的,两方以上的客户端120接通实现音视频通话。本实施例中,收到开启通知的服务端110可实时采集通话过程中的音视频数据,并发送至下一步骤的关联模块。
步骤S304,将所述音视频数据输入到语音转换模块,所述语音转换模块根据预设音转字参数实时识别所述音视频数据,以得到音转字消息。
具体的,所述服务端110以实时的音视频数据作为输入,并输入至调用的语音转换模块,所述语音转换模块随着通话的进行将实时识别通话语音,不断输出连续的音转字消息,所述音转字消息为文字序列,包括单人语音或多人语音的文字转换。
进一步的,所述语音转换模块在语音转文字的过程中预设音转字参数,所述参数及含义如下示例:
{
"text":"今天天气真不错哦";
"index":1,//序号;
"pgsIndex":1,//是否同一句话;
"pgs":1,//是否一句话最后一条消息。0:未结束、1:结束;
"timestamp":1578129033487,//时间戳;
"user":"张三",//说话人名字;
"userId":"xxx"//说话人在用户系统中的id;
}
具体的,所述"index"为消息序号参数,用于音转字消息排序,每发出一条语句而序号自增;所述"pgsIndex"为语句序号参数,用于判断音转字消息是否是同一句话,以实现语音转换模块的自动断句功能,为每个语句标记一个序号,下一个语句则数值自增;"pgs"为语音识别断句参数,用于判断音转字消息是否结束,即是否为语音转换模块断句后的最后一条语句;所述"timestamp"为时间戳参数,用于标记音转字语句的时间,所述时间戳能表示一份数据在某个特定时间之前已经存在的、完整的、可验证的数据,通常是一个字符序列,唯一地标识某一刻的时间;所述"user"和所述"userId"为用户参数,用于说明用户信息,即为语音转换模块根据音视频数据的用户方判断说话的用户信息;所述"text"为文本参数,用于表示音转字消息。
在以上基础上,所述语音转换模块还可以实现自动断句,以上音转字消息可能发出多条消息,如下:
消息1:"text":"今" //pgs=0;
消息2:"text":"今天" //pgs=0;
消息3:"text":"今天天气" //pgs=0;
消息4:"text":"今天天气很" //pgs=0;
消息5:"text":"今天天气很不错" //pgs=0;
消息6:"text":"今天天气很不错哦" //pgs=1。
所述语音转换模块不断读流将实时输出音转字消息,所以每输出一条结果可能并不是一句话,如示例中一句话分成了6次结果输出。客户端根据这一特性,可以展示出实时语音转文字的效果。
步骤S306,将所述音转字消息发送到消息处理模块,所述消息处理模块通过预设缓存排序策略将所述音转字消息按通话正常顺序进行排序。
具体的,因为服务端110推送消息需要经过网络传输,由于网速等客观原因,所述音转字消息到达客户端120的顺序并不能保证正确,所以需要消息处理模块预设缓存排序策略来保证消息有序性。所述消息处理模块包括缓存消息队列和计时器,所述缓存消息队列用于缓存先到达但非接下来要展示的语句,所述计时器用于等待某个序号的语句到达,超时将跳过该序号的语句。
步骤S308,将已排序的音转字消息进行展示。
具体的,已排序的音转字消息将在用户端120设置的屏幕上进行显示,以实现音视频的实时字幕。
本实施例提供的一种音视频通话的处理方法,通过实时将音视频数据根据预设音转字参数转成文字,并通过预设缓存排序策略将待展示文字按通话正常顺序进行展示,以满足用户在不同音视频通话、线上会议场景下对发言人的内容进行自定义展示处理,不仅方便用户理解,还提高了各方在沟通上的效率。
图3示出了在一个实施例中,客户端120的通话界面提供了同声传译开关按钮,当用户将同声传译开关打开,则实为调用服务端110提供的开关接口,以通知服务端110该用户要开启同声传译能力。根据用户的同声传译需求,在步骤S306中,还可以包括以下步骤:
步骤S402,判断通话中所使用语言与开启同声传译功能的用户所选择的展示语言是否一致,若相同,则进入步骤S404,若不同,则进入步骤S406;
具体的,服务端110设有语言判断模块,所述语言判断模块可以实时识别音视频通话、线上会议的用户语言,并与用户所选择的待展示消息的语言进行对比,给出相同或不同的结论,根据不同结论转入到不同的下一步流程。
步骤S404,若是,将所述音转字消息发送到消息处理模块,所述消息处理模块通过预设缓存排序策略将所述音转字消息按通话正常顺序进行排序;
具体的,若通话使用语言与用户要求待展示语言一致,那么经语音转换模块转换的音转字消息不需要加工处理。即如通话使用中文,待展示消息为中文,那么经语音转换模块转换的音转字消息就可以直接传输到消息处理模块中处理。
步骤S406,若否,将所述音转字消息发送到语言翻译模块以获取目标语言的音转字消息,并继续传输至消息处理模块,所述消息处理模块通过预设缓存排序策略将所述音转字消息按通话正常顺序进行排序。
具体的,若通话使用语言与用户要求展示语言不一致,那么服务端110需要将经语音转换模块转换的音转字消息作为输入,经语言翻译模块翻译后得到用户目标展示语言结果。即如通话使用英文,待展示消息选择为中文,语音转换模块的音转字消息即为英文,但用户要求展示中文,那么就需要语言翻译模块帮助用户自动翻译。用户可随时切换展示语言,但只影响切换语言时间点之后的通话内容的展示结果。
用户开启同声传译后,客户端120的通话界面上会出现展示同声传译字幕的屏幕,同时提供了切换展示语言的按钮,例如可切换如中文、英文等。同样,本实施例也是通过接口调用通知服务端110。当用户调用服务端110接口的时候,服务端120会知道用户身份,据此,服务端110即可调用消息推送能力将同声传译文字内容装进消息报文中发送给开启同声传译的用户的客户端120上。
图4示出了一个实施例中,消息处理模块收到音转字消息后执行缓存展示的方法流程图,具体可以包括以下步骤:
步骤S502,消息处理模块的缓存消息队列将所接收消息与已展示消息对比,若时间戳较小,则不处理,否则,则进入步骤S504;
具体的,因为服务端110推送消息经过网络传输,到达客户端120的顺序并不能保证正确,所以需要消息处理模块维护缓存保证消息有序性。消息处理模块中有一个缓存消息队列和一个计时器,缓存消息队列用于缓存先到达但非接下来要展示的消息,计时器用于等待某个序号的消息到达,超时将跳过该序号。将刚接收的消息与已展示的最新消息(若有)对比时间戳,若时间戳较小,说明刚接收的消息是很早的消息,但是因为网络原因来晚了,直接不处理,其他情况下则进入步骤S504。
在本实施例中,可以知道,音转字参数是与消息处理模块具有关联性,只有在消息设置时间戳后,才能在消息处理模块中进行消息对比,以实现消息处理模块中缓存排序的功能。所述时间戳的对比方案只是本发明的一个实施例,也可以采用其他合适的音转字参数进行标记。
步骤S504,判断计时器是否开启,若没有开启,则进入步骤S506,若开启,则进入步骤S508;
步骤S506,当缓存消息队列中没有数据,则直接展示当前消息,否则,当前消息进入缓存消息队列,等待处理;
具体的,如果刚接收消息是第一条消息或者缓存消息队列没有数据,则将当前消息直接发送到用户端120的屏幕展示,否则,则说明缓存消息队列正在处理缓存当前消息,并且没有阻塞(由于没有启动计时器),所以将当前消息放进缓存消息队列中等待处理。
步骤S508,判断所接收消息的消息序号是否是计时器等待的消息序号,若是,则关闭计时器,将该消息进行展示,若否,将该消息放进缓存消息队列,等待处理。
步骤S510,所述计时器预设有等待阈值,当未收到目标序号语句,则跳过该序号,关闭计时器,从缓存消息队列中查找最早的一条消息,将该消息进行展示。
进一步的,步骤S510还有一种情况,有可能多条和等待序号连续的消息都未收到,查找最早的消息可能会导致这些语句被丢失。但是,这种情况的概率非常小,实际上,为了实时性,且同一句话中后一消息也会包含前一消息的内容,可接受部分消息因等待超时被丢弃的情况。
根据图3和图4的实施例可以看到,开启同声传译用户的客户端120接收到服务端110的消息推送报文,解析识别报文类型为同声传译,则将报文内容转交经同声传译的消息处理模块处理。经同声传译的消息处理模块主要负责接收并缓存排序同声传译报文消息,通过缓存排序策略保证消息不会因为网络问题而出现错乱,能按正常顺序将消息内容展示到屏幕上,供用户查看。
图5示出了一个实施例中,将已排序的音转字消息如何选择展示的方法流程图。所述消息处理模块接收到新消息的处理逻辑,还需要同声传译屏幕模块配合反向请求下一条消息,才能使得整个消息处理模块能够循环不断的处理缓存消息。屏幕模块其实也设有一个缓存消息队列,它的作用是当接收消息的速度比展示的速度还快时,需要把没来得及展示的消息先缓存,再按序处理。本实施例具体可以包括以下步骤:
步骤S602,当屏幕模块接收到消息处理模块发送的一条消息后,在展示到屏幕上的同时,需向消息处理模块请求下一条消息;
步骤S604,消息处理模块收到屏幕模块的请求,根据请求的消息序号查找缓存消息队列,若有,则将该消息发送给屏幕模块处理;若无,则启动计时器,等待该序号的消息到来。
进一步的,若计时器超时,则与步骤S510的逻辑一致。
在一个可选的实施方式中,还可以:将所述的音视频通话的处理方法的结果上传至区块链中。
具体地,基于所述的音视频通话的处理方法的结果得到对应的摘要信息,具体来说,摘要信息由所述的音视频通话的处理方法的结果进行散列处理得到,比如利用sha256s算法处理得到。将摘要信息上传至区块链可保证其安全性和对用户的公正透明性。用户可以从区块链中下载得该摘要信息,以便查证所述的音视频通话的处理方法的结果是否被篡改。本示例所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
请参考图6,本发明还提供了一种音视频通话的处理系统,所述系统可以用于服务端110和客户端120中,具体可以包括音视频采集模块20、语音转换模块30、消息处理模块40和屏幕模块50。
音视频采集模块20,用于实时采集通话过程中的音视频数据。
语音转换模块30,用于接收音视频采集模块所传输的音视频数据,所述语音转换模块根据预设音转字参数实时识别所述音视频数据,以得到音转字消息。其中,所述语音转换模块有预设音转字参数,所述预设音转字参数包括消息序号参数、语句序号参数、语音识别断句参数、时间戳参数、用户参数以及文本参数,其中,所述消息序号参数用于音转字消息排序,所述语句序号参数用于判断音转字消息是否是同一句话,所述语音断句参数用于判断音转字消息的语句是否结束,所述时间戳参数用于标记音转字消息的时间,所述用户参数为用户信息,所述文本参数为音转字消息。
消息处理模块40,用于接收将待展示消息,所述消息处理模块通过预设缓存排序策略将所述待展示消息按通话正常顺序进行排序。
屏幕模块50,用于将已排序的待展示消息进行展示。
图7示出了在一个实施例中,客户端120的通话界面提供了同声传译开关按钮,当用户将同声传译开关打开,则实为调用服务端110提供的开关接口,以通知服务端110该用户要开启同声传译能力。据此,所述处理系统还进一步包括语言判断模块60和语言翻译模块70。
语言判断模块60,与音视频采集模块20连接,用于判断通话所使用语言与目标语言是否相同,若相同,则指示语音转换模块30将音转字消息直接发送给消息处理模块40,若不同,则指示将音转字消息发送给语言翻译模块70;
语言翻译模块70,用于接收语音转换模块30发送的音转字消息,并将所述音转字消息翻译至目标语言的待展示消息,并发送至消息处理模块40。
请参考图8,所述消息处理模块40包括缓存消息队列单元41和计时器单元42。
缓存消息队列单元41,用于缓存先到达但非接下来要展示的消息。进一步的,所述缓存消息队列会将所接收消息与已展示消息相比,若时间戳较小,则不处理。
计时器单元42,用于等待消息序号的消息到达,超时将跳过该消息序号的语句。进一步的,在一个实施例中,如果计时器没有开启,当缓存消息队列中没有数据,则直接展示当前消息,否则,当前消息进入缓存消息队列,等待处理;如果计时器开启,判断当前消息是否为计时器等待的消息序号,若是,关闭计时器并发送当前消息至屏幕模块50展示,否则,当前消息进入缓存消息队列,等待处理。
所述计时器设有时间阈值,在该时间阈值内未收到目标消息序号消息,则跳过所述目标消息序号消息,并关闭计时器,从缓存消息队列中查找最早的一条消息,并发送屏幕模块50展示。
请参阅图9,图9为本发明实施例的编解码器的结构示意图。如图9所示,该编解码器200包括处理器201及和处理器201耦接的存储器202。
存储器202存储有用于实现上述任一实施例所述的音视频通话的处理方法的程序指令。
处理器201用于执行存储器202存储的程序指令。
其中,处理器201还可以称为CPU(Central Processing Unit,中央处理单元)。处理器201可能是一种集成电路芯片,具有信号的处理能力。处理器201还可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
参阅图10,图10为本发明实施例的存储装置的结构示意图。本发明实施例的存储装置存储有能够实现上述所有方法的程序文件301,其中,该程序文件301可以以软件产品的形式存储在上述存储装置中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本申请各个实施方式所述方法的全部或部分步骤。而前述的存储装置包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质,或者是计算机、服务器、手机、平板等终端设备。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。

Claims (10)

1.一种音视频通话的处理方法,其特征在于,包括:
实时采集通话过程中的音视频数据;
将所述音视频数据输入到语音转换模块,所述语音转换模块根据预设音转字参数实时识别所述音视频数据,以得到音转字消息;
将所述音转字消息发送到消息处理模块,所述消息处理模块通过预设缓存排序策略将所述音转字消息按通话正常顺序进行排序;
将已排序的音转字消息进行展示。
2.根据权利要求1所述的处理方法,其特征在于,在所述音转字消息发送到消息处理模块之前,将所述音转字消息发送到语言翻译模块以获取目标语言的音转字消息,所述目标语言的音转字消息再传输至消息处理模块。
3.根据权利要求1所述的处理方法,其特征在于,所述预设音转字参数包括消息序号参数、语句序号参数、语音识别断句参数、时间戳参数、用户参数以及文本参数,其中,所述消息序号参数用于音转字消息排序,所述语句序号参数用于判断音转字消息是否是同一句话,所述语音断句参数用于判断音转字消息的语句是否结束,所述时间戳参数用于标记音转字消息的时间,所述用户参数为用户信息,所述文本参数为音转字消息。
4.根据权利要求3所述的处理方法,其特征在于,所述消息处理模块包括缓存消息队列和计时器,所述缓存消息队列用于缓存先到达但非接下来要展示的消息,所述计时器用于等待消息序号的消息到达,超时将跳过该消息序号的消息。
5.根据权利要求4所述的处理方法,其特征在于,所述缓存消息队列所接收消息与已展示消息相比,若时间戳较小,则不处理。
6.根据权利要求5所述的处理方法,其特征在于,判断计时器是否开启,若没有开启,当缓存消息队列中没有数据,则直接展示当前消息,否则,当前消息进入缓存消息队列,等待处理;若开启,判断当前消息是否为计时器等待的消息序号,若是,关闭计时器并发送当前消息至屏幕模块展示,否则,当前消息进入缓存消息队列,等待处理。
7.根据权利要求6所述的处理方法,其特征在于,所述计时器预设有时间阈值,在该时间阈值内未收到目标消息序号消息,则跳过所述目标消息序号消息,并关闭计时器,从缓存消息队列中查找最早的一条消息,并发送屏幕模块展示。
8.一种音视频通话的处理系统,其特征在于,包括:
音视频采集模块,用于实时采集通话过程中的音视频数据;
语音转换模块,用于接收音视频采集模块所传输的音视频数据,所述语音转换模块根据预设音转字参数实时识别所述音视频数据,以得到音转字消息;
消息处理模块,用于接收音转字消息,所述消息处理器通过预设缓存排序策略将所述音转字消息按通话正常顺序进行排序;
屏幕模块,将已排序的待展示消息进行展示。
9.一种编解码器,其特征在于,所述编解码器包括处理器、与所述处理器耦接的存储器,其中,
所述存储器存储有用于实现如权利要求1-7中任一项所述的音视频通话的处理方法的程序指令;
所述处理器用于执行所述存储器存储的程序指令。
10.一种存储装置,其特征在于,存储有能够实现如权利要求1-7中任一项所述的音视频通话的处理方法的程序文件。
CN202010553456.6A 2020-06-17 2020-06-17 音视频通话的处理方法、系统、编解码器及存储装置 Active CN111654658B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202010553456.6A CN111654658B (zh) 2020-06-17 2020-06-17 音视频通话的处理方法、系统、编解码器及存储装置
PCT/CN2020/121868 WO2021135515A1 (zh) 2020-06-17 2020-10-19 音视频通话的处理方法、系统、编解码器及存储装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010553456.6A CN111654658B (zh) 2020-06-17 2020-06-17 音视频通话的处理方法、系统、编解码器及存储装置

Publications (2)

Publication Number Publication Date
CN111654658A true CN111654658A (zh) 2020-09-11
CN111654658B CN111654658B (zh) 2022-04-15

Family

ID=72348045

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010553456.6A Active CN111654658B (zh) 2020-06-17 2020-06-17 音视频通话的处理方法、系统、编解码器及存储装置

Country Status (2)

Country Link
CN (1) CN111654658B (zh)
WO (1) WO2021135515A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112653865A (zh) * 2020-12-24 2021-04-13 维沃移动通信有限公司 视频通话处理方法、装置和电子设备
WO2021135515A1 (zh) * 2020-06-17 2021-07-08 平安科技(深圳)有限公司 音视频通话的处理方法、系统、编解码器及存储装置

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113472944B (zh) * 2021-08-05 2022-12-13 苏州欧清电子有限公司 智能终端的语音自适应处理方法、装置、设备及存储介质

Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060224386A1 (en) * 2005-03-30 2006-10-05 Kyocera Corporation Text information display apparatus equipped with speech synthesis function, speech synthesis method of same, and speech synthesis program
US20090048845A1 (en) * 2007-08-17 2009-02-19 Burckart Erik J Apparatus, system, and method for voice chat transcription
CN101505397A (zh) * 2009-02-20 2009-08-12 深圳华为通信技术有限公司 一种语音和视频字幕同步呈现的方法及系统
US20120062688A1 (en) * 2010-06-08 2012-03-15 Aastra Technologies Limited Method and system for video communication
EP2566144A1 (en) * 2011-09-01 2013-03-06 Research In Motion Limited Conferenced voice to text transcription
CN103226947A (zh) * 2013-03-27 2013-07-31 广东欧珀移动通信有限公司 一种基于移动终端的音频处理方法及装置
CN103856602A (zh) * 2012-12-04 2014-06-11 Itp创新科技有限公司 一种通话转录系统和方法
CN104346253A (zh) * 2013-08-09 2015-02-11 瑞萨电子株式会社 数据处理系统
JP2016062357A (ja) * 2014-09-18 2016-04-25 株式会社東芝 音声翻訳装置、方法およびプログラム
CN105959772A (zh) * 2015-12-22 2016-09-21 合网络技术(北京)有限公司 流媒体与字幕即时同步显示、匹配处理方法、装置及系统
CN107066455A (zh) * 2017-03-30 2017-08-18 唐亮 一种多语言智能预处理实时统计机器翻译系统
CN107301867A (zh) * 2017-08-10 2017-10-27 安徽声讯信息技术有限公司 一种语音重启控制系统
CN108600773A (zh) * 2018-04-25 2018-09-28 腾讯科技(深圳)有限公司 字幕数据推送方法、字幕展示方法、装置、设备及介质
CN109408833A (zh) * 2018-10-30 2019-03-01 科大讯飞股份有限公司 一种翻译方法、装置、设备及可读存储介质
CN110740283A (zh) * 2019-10-29 2020-01-31 杭州当虹科技股份有限公司 一种基于视频通讯的语音转文字方法
CN111010614A (zh) * 2019-12-26 2020-04-14 北京奇艺世纪科技有限公司 一种显示直播字幕的方法、装置、服务器及介质

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20150105075A (ko) * 2014-03-07 2015-09-16 한국전자통신연구원 자동 통역 장치 및 방법
CN104780335B (zh) * 2015-03-26 2021-06-22 中兴通讯股份有限公司 一种WebRTC P2P音视频通话的方法及装置
JP7026004B2 (ja) * 2018-06-13 2022-02-25 日本電信電話株式会社 会話補助装置、会話補助方法及びプログラム
CN110415706A (zh) * 2019-08-08 2019-11-05 常州市小先信息技术有限公司 一种在视频通话中实时叠加字幕的技术及其应用
CN111654658B (zh) * 2020-06-17 2022-04-15 平安科技(深圳)有限公司 音视频通话的处理方法、系统、编解码器及存储装置

Patent Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060224386A1 (en) * 2005-03-30 2006-10-05 Kyocera Corporation Text information display apparatus equipped with speech synthesis function, speech synthesis method of same, and speech synthesis program
US20090048845A1 (en) * 2007-08-17 2009-02-19 Burckart Erik J Apparatus, system, and method for voice chat transcription
CN101505397A (zh) * 2009-02-20 2009-08-12 深圳华为通信技术有限公司 一种语音和视频字幕同步呈现的方法及系统
US20120062688A1 (en) * 2010-06-08 2012-03-15 Aastra Technologies Limited Method and system for video communication
EP2566144A1 (en) * 2011-09-01 2013-03-06 Research In Motion Limited Conferenced voice to text transcription
CN103856602A (zh) * 2012-12-04 2014-06-11 Itp创新科技有限公司 一种通话转录系统和方法
CN103226947A (zh) * 2013-03-27 2013-07-31 广东欧珀移动通信有限公司 一种基于移动终端的音频处理方法及装置
CN104346253A (zh) * 2013-08-09 2015-02-11 瑞萨电子株式会社 数据处理系统
JP2016062357A (ja) * 2014-09-18 2016-04-25 株式会社東芝 音声翻訳装置、方法およびプログラム
CN105959772A (zh) * 2015-12-22 2016-09-21 合网络技术(北京)有限公司 流媒体与字幕即时同步显示、匹配处理方法、装置及系统
CN107066455A (zh) * 2017-03-30 2017-08-18 唐亮 一种多语言智能预处理实时统计机器翻译系统
CN107301867A (zh) * 2017-08-10 2017-10-27 安徽声讯信息技术有限公司 一种语音重启控制系统
CN108600773A (zh) * 2018-04-25 2018-09-28 腾讯科技(深圳)有限公司 字幕数据推送方法、字幕展示方法、装置、设备及介质
CN109408833A (zh) * 2018-10-30 2019-03-01 科大讯飞股份有限公司 一种翻译方法、装置、设备及可读存储介质
CN110740283A (zh) * 2019-10-29 2020-01-31 杭州当虹科技股份有限公司 一种基于视频通讯的语音转文字方法
CN111010614A (zh) * 2019-12-26 2020-04-14 北京奇艺世纪科技有限公司 一种显示直播字幕的方法、装置、服务器及介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张歆: "智能语音技术在春晚后期字幕制作中的探索与应用", 《现代电视技术》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021135515A1 (zh) * 2020-06-17 2021-07-08 平安科技(深圳)有限公司 音视频通话的处理方法、系统、编解码器及存储装置
CN112653865A (zh) * 2020-12-24 2021-04-13 维沃移动通信有限公司 视频通话处理方法、装置和电子设备
WO2022135291A1 (zh) * 2020-12-24 2022-06-30 维沃移动通信有限公司 视频通话处理方法、装置和电子设备

Also Published As

Publication number Publication date
CN111654658B (zh) 2022-04-15
WO2021135515A1 (zh) 2021-07-08

Similar Documents

Publication Publication Date Title
CN111654658B (zh) 音视频通话的处理方法、系统、编解码器及存储装置
US10372831B2 (en) Auto-translation for multi user audio and video
CN108028042B (zh) 口头通信的转录
US8270606B2 (en) Open architecture based domain dependent real time multi-lingual communication service
KR100706967B1 (ko) 이동통신망에서 3d 캐릭터를 이용한 뉴스 정보를 제공하는방법 및 시스템
CN107613400B (zh) 一种语音弹幕的实现方法和装置
US20080126491A1 (en) Method for Transmitting Messages from a Sender to a Recipient, a Messaging System and Message Converting Means
CN101576901B (zh) 搜索请求的产生方法
US9972303B1 (en) Media files in voice-based social media
WO2021077659A1 (zh) 一种信息交互的实时翻译方法、介质及终端
CN106713111B (zh) 一种添加好友的处理方法、终端及服务器
US11978443B2 (en) Conversation assistance device, conversation assistance method, and program
CN111554280A (zh) 对利用人工智能的翻译内容和口译专家的口译内容进行混合的实时口译服务系统
KR101351264B1 (ko) 음성인식 기반의 메시징 통역서비스 제공 시스템 및 그 방법
WO2014180197A1 (zh) 自动发送多媒体文件的方法及装置、移动终端、存储介质
KR20170093703A (ko) 메시지 증강 시스템 및 방법
JP2009122989A (ja) 翻訳装置
CN107786686B (zh) 一种用于输出多媒体数据的系统及方法
KR102248701B1 (ko) 다국어 음성 자동 통역 채팅시 통역의 시점과 종점과 소정 정보 제공을 소정의 음성으로 제어하는 방법
US11533283B1 (en) Voice user interface sharing of content
CN114124864B (zh) 消息处理方法、装置
WO2024058005A1 (ja) 処理システム、処理方法およびプログラム
CN114185511A (zh) 一种音频数据处理方法、装置及电子设备
CN116074137A (zh) 会议纪要的记录方法、记录装置、电子设备和存储介质
CN113906502A (zh) 语音处理装置、语音对的语料库的生成方法、以及记录程序的记录介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant