CN111698446A

CN111698446A - 在实时视频中同时进行文本信息传输的方法及系统

Info

Publication number: CN111698446A
Application number: CN202010455690.5A
Authority: CN
Inventors: 魏志斌; 杨谦
Original assignee: Shanghai Zhikan Technology Co ltd
Current assignee: Shanghai Zhikan Technology Co ltd
Priority date: 2020-05-26
Filing date: 2020-05-26
Publication date: 2020-09-22
Anticipated expiration: 2040-05-26
Also published as: CN111698446B

Abstract

本发明公开了一种在实时视频中同时进行文本信息传输的方法，以解决视频远程查勘中不能准确、高效地传输文本数据的问题。具体地，该方法包括：S1，在视频过程中，采集第一终端发出的语音数据和第二终端发出的第二文字信息；S2，对采集的语音数据进行语音识别，将所述语音识别得到的第一文字信息和所述第二文字信息添加于待传输的视频流数据中；S3，将添加有所述第一文字信息和所述第二文字信息的视频流数据发送到第一终端和第二终端。

Description

在实时视频中同时进行文本信息传输的方法及系统

技术领域

本发明涉及视频远程查勘的技术领域，尤其涉及一种在实时视频中同时进行文本信息传输的方法及系统。

背景技术

随着私家车保有量的不断增长，对应私家车保险市场规模的不断扩大，根据相关数据预测，2020年车险市场规模将达到1.2万亿。在私家车事故发生率变化不大的前提下，随着私家车车险市场规模的扩大，车险事故的发生总量也在不断增加，而与之对应的是事故理赔的需求数量不断增多，所需要的车险查勘工作量和相关费用也随比例增长。

目前在车险查勘业务上，一般由保险公司派遣查勘员进行现场查勘和检验工作，定损过程中同时检验用户的个人信息和相关保单证明，在现场进行定损核价后，带回保险公司进行审批备案。这种定损方式存在人工和运营成本高，处理时效性低的问题。

针对现有人工定损方案所存在的问题，保险公司还推出基于图像或者视频流进行远程查勘定损方法，对于小刮小蹭等较为轻微的车险事故，车主用户可以自己对受损车辆进行拍照或者拍摄视频上传服务器，由服务器对每帧图像进行受损部分识别和判定。以远程方式来代替现场人工定损，大幅提高查勘定损等工作流程的效率，减少了所需的查勘定损人员数量，降低了员工成本，可有效提升保险公司的整体利润水平。

在远程查勘的操作流程下，通过视频来作为数据传输和客户沟通的方式，既能满足所需查勘信息的数据量，也能大幅提升客户与工作人员之间的沟通效率。然而，如果仅仅视频方式进行数据传输和沟通，也存在一个新的问题：

1、单一的视频信息传输方式会造成信息量的不足或不准确。例如，在发生车损事故并报案后的定损核价过程中，往往需要车主用户提供较多的证件信息(例如身份证号之类)来证明其身份。现有通过视频来传输此类证件信息的方式是由车主用户在视频中展示出相应证件，由系统对视频中的证件进行文字识别和转换。而通过这种方式来获取证件信息并不便利和准确。

2、单一的视频沟通方式不能有效适用车主用户和坐席人员的现场环境。视频过程中一般是默认通过语音进行沟通，而车主用户一般在车险事故现场当现场噪音过大的情况下，即影响车主用户接收坐席人员发来的语音，也干扰车主用户传递信息的准确性。而坐席人员一般是是处于集体办公状态，与车主用户进行语音交流会对其共同办公的同事造成互相干扰。

现有视频远程查勘的方式存在如上问题，降低了事故处理效率，也影响了车主用户和坐席人员的交流体验。

发明内容

为解决现有技术中的问题，本发明提出了一种在实时视频中同时进行文本信息传输的方法及系统，旨在视频远程查勘过程中，同时实现用户和坐席人员的文字交互，保证文本信息传输的准确性，扩大视频远程查勘的适用范围，提升用户和坐席人员的交流体验。

为实现上述目的，第一方面，本发明实施例提供了一种在实时视频中同时进行文本信息传输的方法，包括如下步骤：

S1，在视频过程中，采集第一终端发出的语音数据和第二终端发出的第二文字信息；其中，第一终端为用户端，第二终端为坐席端；

S2，对采集的语音数据进行语音识别，将所述语音识别得到的第一文字信息和所述第二文字信息添加于待传输的视频流数据中；

S3，将添加有所述第一文字信息和所述第二文字信息的视频流数据发送到第一终端和第二终端。

可选地，在所述步骤S1中，在视频过程中，当检测到语音采集信号时，采集所述语音数据。

可选地，在步骤S2中，对采集的语音数据的语音识别是逐段进行的。

可选地，在步骤S2中，对采集的语音数据进行逐段语音识别时，每得到一第一文字信息片段，将所述第一文字信息片段以可编辑的格式实时返回第一终端，以供用户修改确认，接收到所述第一终端发出的确认信息后，将修改后的第一文字信息片段添加于所述视频流数据中。

可选地，在步骤S2中，将识别得到的第一文字信息片段以可编辑的格式实时返回第一终端时，检测是否有语音采集信号，

若没有，则将所有返回的第一文字信息片段拼接为一完整的第一文字信息，以供用户修改确认。

若有，则继续采集语音数据段并进行实时语音识别，并将对应的第一文字信息片段返回第一终端，直至没有检测到语音采集信号，停止采集，并将所有返回的第一文字信息片段拼接为一完整的第一文字信息，供用户修改确认。

当车主用户修改确认后，将确认信息和修改后的第一文字信息添加到视频流数据中。

可选地，在步骤S2中，将所述第一文字信息和所述第二文字信息添加于待传输的视频流数据中时，将第一文字信息的字体和第二文字信息的字体颜色设置为不同的颜色。

可选地，所述步骤S2中，将所述第一文字信息和所述第二文字信息添加于待传输的视频流数据中包括：

S21，创建一背景透明的文字图层；

S22，将所述第一文字信息和第二文字信息以隔行地方式添加于所述文字图层；

S23，将所述文字图层叠加于待传输视频流的帧画面中。

可选地，在所述步骤S22中，将所述第一文字信息和第二文字信息以隔行地方式添加于所述文字图层时，当检测有新的第一文字信息或者第二文字信息时，将原第一文字信息和/或第二文字信息上移，将新的第一文字信息和/或第二文字信息添加于原第一文字信息和/或第二文字信息的下方。

可选地，在所述步骤S23中，将所述文字图层叠加于待传输视频流的多个帧画面中。

第二方面，本发明实施例提供了一种在实时视频中同时进行文本信息传输的系统，包括：

语音采集模块，用于在视频过程中采集第一终端发出的语音数据，并对采集的语音数据进行语音识别以得到的第一文字信息；

文本采集模块，用于在视频过程中采集第二终端发出的第二文字信息；

信息叠加模块，用于将所述第一文字信息和所述第二文字信息添加于待传输视频流数据中；

视频发送模块，用于将添加有所述第一文字信息和所述第二文字信息的视频流数据发送到第一终端和第二终端。

根据本申请所描述的技术系统和实现方法，通过在进行远程视频查勘中，实时采集用户端发送的语音数据，并对语音数据进行语音识别，将识别得到的第一文字信息添加到视频流帧画面中，可以保证用户采集用户的文本数据的准确性。同时，采集坐席端发出的第二文字信息，并将第二文字信息添加到视频流帧画面中，从而可以实现用户端和坐席端之间的文字交互，提升用户和坐席人员的交流效率和体验。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。

图1为本发明在实时视频中同时进行文本信息传输的方法一实施例的流程示意图；

图2为语音输入与语音识别的流程示意图；

图3为文字信息叠加的流程示意图；

图4为本发明在实时视频中同时进行文本信息传输的系统一实施例的结构框图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

实施例1

参照图1，本发明提供了一种在实时视频中同时进行文本信息传输的方法，该方法包括如下步骤：

步骤S1，在视频过程中，采集第一终端发出的语音数据和第二终端发出的第二文字信息。

当发生车险事故后，车主用户可在其第一终端上通过账号密码登录保险公司提供的客户端、公众号或者小程序等，向保险公司的坐席人员发起报案，坐席人员在听取报案简要后，根据车主用户的账号与报案时间建立工单，接入系统平台，通过系统平台内置预设程序对车主用户发起行为指引，引导车主用户进行视频，传输查勘现场的视频画面。传输查勘现场画面的同时，通过第一终端内置的麦克风采集用户在现场输入的语音数据。

为避免将现场的环境噪音误认为车主用户输入的语音数据，在步骤S1中，还包括：在视频过程中，当检测到语音采集信号时，采集语音数据。

该语音采集信号可以为一传感器信号，例如，在本实施例中，通过第一终端内置的距离传感器来检测车主用户是否靠近第一终端，当检测到距离传感器发出的接近信号，可以判断车主将进行主动语音输入，随后以该接近信号作为语音采集信号，采集第一终端内置的麦克风采集到的声音数据作为车主用户输入的语音数据。同时，在采集语音数据时，不间断的检测距离传感器的是否发出接近信号，若持续检测到接近信号，则持续采集语音数据；若在设定时间阈值内，没有检测到接近信号，即车主用户未靠近第一终端，则可判断车主用户完成语音输入并远离第一终端，停止采集麦克风的声音采集动作。

此外，该语音采集信号也可以为一输入信号，例如，在第一终端上提供一实体按键或者一虚拟触摸感应按键，当车主用户需要进行语音输入时，可通过按压实体按键或者虚拟触摸感应按键，当检测到实体按键或者虚拟触摸感应按键对应的输入信号后，开始采集语音数据，当车主用户停止按压后，则停止采集语音数据。

步骤S2，对采集的语音数据进行语音识别，将语音识别得到的第一文字信息和第二文字信息添加于待传输的视频流数据中。

在步骤S2中，由于语音数据为查勘现场采集的声音，可能包含的环境噪音，若直接传输给第二终端对应的坐席人员，则环境噪音干扰会影响坐席人员准确接收信息。并且，若语音数据过长，则坐席人员记忆或记录难度大，很可能会导致漏记、错记等情况，影响坐席人员与车主用户的沟通效率。因此，对采集的语音数据进行语音识别，将语音数据直接转换为第一文字信息，可大大提高在视频过程中信息传输的准确性。

作为优选地，在步骤S2中，将第一文字信息和第二文字信息添加于待传输的视频流数据中时，将第一文字信息的字体和第二文字信息的字体颜色设置为不同的颜色。由此，以便于对第一文字信息和第二文字信息进行区分，便于后续的交互沟通。

作为优选地，在步骤S2中，对采集的语音数据的语音识别是逐段进行的。

由于语音数据的采集是个连续的过程，若在采集到一段持续的语音数据后再进行语音识别，则识别存在延迟。因此，在步骤S2中，每当采集到一小段语音数据后，将该小段语音数据上传云端的ASR服务器进行语音数据识别并转换为第一文字信息片段。识别完毕后，将所有识别所得的第一文字信息片段拼接成一个完整的第一文字信息添加到待传输的视频流数据中。

因语音数据的采集是个连续的过程，对应的语音识别也是个连续的过程，ASR服务器在对上段语音数据进行识别转换时，可以同时接收当前上传的语音数据，当上段语音数据识别转换完毕后，对当前上传的语音数据进行识别转换处理，可以实现上传和识别转换的基本同步，实时性好。

进一步地，在对采集的语音数据进行逐段语音识别时，每得到一第一文字信息片段，将该第一文字信息片段以可编辑的格式实时返回第一终端，以供用户修改确认。而后，在接收第一终端发出的确认信息后，将修改后的第一文字信息添加到待传输视频流数据中。

分段识别可能将原本的一个词分割在两个语音数据段中，造成识别率不准的问题，因此，将对每个语音数据段识别得到第一文字信息片段返回给第一终端，使得车主用户可以对识别结果进行修正，从而提高第一文字信息的准确性。

再进一步地，将识别得到的第一文字信息片段以可编辑的格式实时返回第一终端时，检测是否有语音采集信号。

若没有，则说明当前的语音数据采集完毕，可将所有返回的第一文字信息片段拼接为一完整的第一文字信息，供用户修改确认。

若有，则继续采集语音数据段并进行实时语音识别，并将对应的第一文字信息片段返回第一终端，直至没有检测到语音采集信号，则停止采集，再将所有返回的第一文字信息片段拼接为一完整的第一文字信息，供用户修改确认。

在本实施例中，该语音采集信号为第一终端内置的距离传感器发出的接近信号，当距离传感器检测到车主用户靠近第一终端时，采集语音数据，当距离传感器没有发出接近信号后，表明车主用户主动输入结束，停止采集。通过检测是否有接近信号，可以判断车主用户是否结束输入。由此，在结束输入后，将识别得到的第一文字信息片段拼接在一起即为车主用户当前输入完整交互信息，方便用户进行统一修改，提高交互效率。

在步骤S2中，将第一文字信息和第二文字信息添加于待传输的视频流数据中的具体包括：

S21，创建一背景透明的文字图层；

S22，将第一文字信息和第二文字信息以隔行地方式添加于文字图层；

S23，将文字图层叠加于待传输视频流的帧画面中。

视频流数据实际上是按照一定频率进行传输和播放的连续图片，每秒传输的图片数量即为帧数。每一帧数据显示的都是静止图像，当这些帧连续快速显示时，就会形成视觉上的错觉。因此，可以对采集的视频流数据和第一文字信息和第二文字信息进行先行处理，将视频帧画面和文字信息输出到不同的图层，再将不同的图层叠加在一起，将叠加后的多帧画面以视频帧率进行传输，即可形成添加有第一文字信息和第二文字信息的待传输的视频流数据。

对于视频数据，提取帧画面，将帧画面添加于一视频图层，并禁止其他带背景颜色的图层遮挡，以避免视频的图像画面失真或失帧，导致视频不流畅或者缺损。对于文字信息，在视频图层上创建一背景透明的文字图层，将第一文字信息和第二文字信息以隔行地方式添加于该文字图层。

在步骤S22中，将第一文字信息和第二文字信息以隔行地方式添加于文字图层时，若检测有新的第一文字信息或者第二文字信息时，对文字图层进行重新绘制，将原第一文字信息和/或第二文字信息上移，将新的第一文字信息和/或第二文字信息添加于原第一文字信息和/或第二文字信息的下方，然后在步骤S23中，将新的文字图层叠加到待传输视频帧画面对应的视频图层上。

为避免文字信息遮挡视频画面，当文字信息的行数超过2行或者3行时，则将最上一行的文字信息删除。例如，当前的文字图层中包含一行第一文字信息和第二文字信息，第一文字信息位于第二文字信息之上。此时，刚好检测到了新的第一文字信息，若规定文字信息的总行数不能超过2行，则将原第一文字信息删除，将原第二文字信息上移，将新的第一文字信息添加在原第二文字下方，生成一新的文字图层。

若没有检测到新的第一文字信息或者第二文字信息，则在步骤S23中，将原文字图层重复叠加在待传输视频帧画面对应的视频图层上。

作为优选地，在步骤S23中，将文字图层叠加于待输出视频的多个帧画面中。

由于视频流数据的传输频率一般是每秒至少二十四帧，即在第一终端和第二终端可在一秒内可传输二十四张视频图片数据，而第一文字信息是根据采集的车主用户的语音数据识别得到的，第二文字信息为坐席人员以文字输入装置输入的，两者的生成频率远远低于视频流数据的传输频率。为了良好的视觉体验，将文字图层叠加于待输出视频的多个帧画面中，可使得第一文字信息和第二文字信息可以在视频中保持一段时间，便于车主用户和坐席员查看交互的文字内容。

S3，将添加有第一文字信息和第二文字信息的视频流数据发送到第一终端和第二终端。由此，即可在远程视频查勘中实现用户端与坐席端之间的文字信息传输，使得用户和坐席人员可以在视频的同时进行文字交互。

为了便于理解，下面对实际中实现流程进行补充说明：

1、车主报案，车主用户在发生车险后，通过手机上的APP客户端接入系统平台，然后坐席人员建立工单，并引导车主用户进行视频。

2、车主用户与坐席人员建立视频链路，并在坐席人员的指引下采集所需要的视频数据。当车主用户需要上报或确认其他信息时，可凑近手机并进行语音输入，输入的语音信息会转换为文本信息并添加在在视频的帧画面中。

3、坐席人员接收到添加有文本信息的视频后，在坐席端手动输入回复文本，该回复文本会同样被添加到视频的帧画面中，并被传递给车主用户的手机的显示界面，从而完成文字信息的交互。

实施例2

参照图2，基于同样的思路，本发明实施例还提供了一种在实时视频中同时进行文本信息传输的系统。该系统可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、元件、数据结构等等。也可以在分布式计算环境中实践本发明，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

在本发明中，“模块”、“装置”、“系统”等指应用于计算机的相关实体，如硬件、硬件和软件的组合、软件或执行中的软件等。详细地说，例如，元件可以、但不限于是运行于处理器的过程、处理器、对象、可执行元件、执行线程、程序和/或计算机。还有，运行于服务器上的应用程序或脚本程序、服务器都可以是元件。一个或多个元件可在执行的过程和/或线程中，并且元件可以在一台计算机上本地化和/或分布在两台或多台计算机之间，并可以由各种计算机可读介质运行。元件还可以根据具有一个或多个数据包的信号，例如，来自一个与本地系统、分布式系统中另一元件交互的，和/或在因特网的网络通过信号与其它系统交互的数据的信号通过本地和/或远程过程来进行通信。

如图2所示，该系统包括语音采集模块100、文本采集模块200、信息叠加模块300以及视频发送模块400。其中，语音采集模块100用于在视频过程中采集第一终端110发出的语音数据，并对采集的语音数据进行语音识别以得到的第一文字信息。文本采集模块200用于在视频过程中采集第二终端210发出的第二文字信息。信息叠加模块300与语音采集模块100和文本采集模块200连接，用于将第一文字信息和第二文字信息添加于待传输视频流数据中。视频发送模块400与信息叠加模块300连接，用于将添加有第一文字信息和第二文字信息的视频流数据发送到第一终端110和第二终端210。

在本实施例中，该语音采集模块100与一ASR服务器通讯连接，其通过将采集的语音数据发送到ASR服务器进行语音识别，ASR服务器完成语音识别后，将语音识别得到的第一文字信息返回至语音采集模块100。

视频时，语音采集模块100可采集用户通过第一终端110的麦克风输入语音数据，采集到该语音数据后，语音采集模块100将该语音数据上传导ASR服务器进行语音识别，ASR服务器识别完成后将得到第一文字信息返回给语音采集模块100，语音采集模块100再将第一文字信息发送给信息叠加模块300。信息叠加模块300将该第一文字信息叠加在待传输视频流数据中，并将待传输视频流数据发送给视频发送模块400。视频发送模块400在视频时，将接收的叠加有第一文字信息的待传输视频流数据发送给第二终端210并回显于第一终端110。坐席人员在第二终端查看到视频中的第一文字信息后，在第二终端210手动输入一第二文字信息，文本采集模块200采集到该第二文字信息后，将该第二文字信息发送给信息叠加模块300，信息叠加模块300将第二文字信息叠加到当前待传输视频流数据中，并由视频发送模块400在视频过程中发送给第一终端110并回显于第二终端210。

在视频过程中，每当检测到有新的语音数据或者第二文字信息，视频发送模块400就会将叠加有新的语音数据对应的第一文字信息和/或第二终端发出的第二文字信息的视频流数据发送到第一终端(用户端)和第二终端(坐席端)，从而实现用户和坐席人员在视频中进行文字交互。

可选地，在本实施例中，语音采集模块100还用于将第一文字信息以可编辑的格式返回第一终端供用户修改确认；并在接收到第一终端发出的确认信息后，将修改后的第一文字信息发送给信息叠加模块。通过将第一文字信息发送给用户进行核对确认，以确保第一文字信息内容的准确性。

可选地，语音采集模块还用于在视频过程中检测到语音采集信号，并在检测到语音采集信号时采集语音数据。

该语音采集信号可以为一传感器信号，例如，在本实施例中，通过第一终端110内置的距离传感器来检测车主用户是否靠近第一终端，当检测到距离传感器发出的接近信号，可以判断车主将进行主动语音输入，随后以该接近信号作为语音采集信号，采集第一终端110内置的麦克风采集到的声音数据作为车主用户输入的语音数据。同时，在采集语音数据时，不间断的检测距离传感器的是否发出接近信号，若持续检测到接近信号，则持续采集语音数据；若在设定时间阈值内，没有检测到接近信号，即车主用户未靠近第一终端110，则可判断车主用户完成语音输入并远离第一终端，停止采集麦克风的声音采集动作。

此外，该语音采集信号也可以为一输入信号，例如，在第一终端110上提供一实体按键或者一虚拟触摸感应按键，当车主用户需要进行语音输入时，可通过按压实体按键或者虚拟触摸感应按键，当检测到实体按键或者虚拟触摸感应按键对应的输入信号后，开始采集语音数据，当车主用户停止按压后，则停止采集语音数据。

通过检测语音采集信号来进行语音数据的采集，可以减少环境噪音对语音数据的干扰，使得采集的信号均为车主用户主动输入的语音，较少无用语音数据，提高语音识别的效率。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种在实时视频中同时进行文本信息传输的方法，其特征在于，包括如下步骤：

2.如权利要求1所述的在实时视频中同时进行文本信息传输的方法，其特征在于，在所述步骤S1中，在视频过程中，当检测到语音采集信号时，采集所述语音数据。

3.如权利要求1所述的在实时视频中同时进行文本信息传输的方法，其特征在于，在步骤S2中，对采集的语音数据的语音识别是逐段进行的。

4.如权利要求3所述的在实时视频中同时进行文本信息传输的方法，其特征在于，在步骤S2中，对采集的语音数据进行逐段语音识别时，每得到一第一文字信息片段，将所述第一文字信息片段以可编辑的格式实时返回第一终端，以供用户修改确认；接收到所述第一终端发出的确认信息后，将修改后的第一文字信息片段添加于所述视频流数据中。

5.如权利要求4所述的在实时视频中同时进行文本信息传输的方法，其特征在于，在步骤S2中，将识别得到的第一文字信息片段以可编辑的格式实时返回第一终端时，检测是否有语音采集信号，

若没有，则将所有返回的第一文字信息片段拼接为一完整的第一文字信息，以供用户修改确认；

若有，则继续采集语音数据段并进行实时语音识别，并将对应的第一文字信息片段返回第一终端，直至检测到车主用户远离第一终端，则停止采集，并将所有返回的第一文字信息片段拼接为一完整的第一文字信息，供用户修改确认；

接收到所述第一终端发出的确认信息后，将修改后的第一文字信息添加于所述视频流数据中。

6.如权利要求1所述的在实时视频中同时进行文本信息传输的方法，其特征在于，在步骤S2中，将所述第一文字信息和所述第二文字信息添加于待传输的视频流数据中时，将第一文字信息的字体和第二文字信息的字体颜色设置为不同的颜色。

7.如权利要求1所述的在实时视频中同时进行文本信息传输的方法，其特征在于，所述步骤S2中，将所述第一文字信息和所述第二文字信息添加于待传输的视频流数据中包括：

S21，创建一背景透明的文字图层；

S23，将所述文字图层叠加于待传输视频流的帧画面中。

8.如权利要求7所述的在实时视频中同时进行文本信息传输的方法，其特征在于，在所述步骤S22中，将所述第一文字信息和第二文字信息以隔行地方式添加于所述文字图层时，当检测有新的第一文字信息或者第二文字信息时，将原第一文字信息和/或第二文字信息上移，将新的第一文字信息和/或第二文字信息添加于原第一文字信息和/或第二文字信息的下方。

9.如权利要求7所述的在实时视频中同时进行文本信息传输的方法，其特征在于，在所述步骤S23中，将所述文字图层叠加于待传输视频流的多个帧画面中。

10.一种在实时视频中同时进行文本信息传输的系统，其特征在于，包括：