CN117493593A - 多端融合的演讲稿展示方法和系统 - Google Patents
多端融合的演讲稿展示方法和系统 Download PDFInfo
- Publication number
- CN117493593A CN117493593A CN202311516244.0A CN202311516244A CN117493593A CN 117493593 A CN117493593 A CN 117493593A CN 202311516244 A CN202311516244 A CN 202311516244A CN 117493593 A CN117493593 A CN 117493593A
- Authority
- CN
- China
- Prior art keywords
- lecture
- mobile terminal
- control instruction
- terminal
- presentation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 42
- 230000004927 fusion Effects 0.000 title claims abstract description 31
- 238000004891 communication Methods 0.000 claims description 21
- 238000012545 processing Methods 0.000 claims description 14
- 230000004048 modification Effects 0.000 claims description 13
- 238000012986 modification Methods 0.000 claims description 13
- 238000007781 pre-processing Methods 0.000 claims description 13
- 238000009877 rendering Methods 0.000 claims description 13
- 230000008569 process Effects 0.000 claims description 10
- 239000000284 extract Substances 0.000 claims description 4
- 230000001360 synchronised effect Effects 0.000 claims description 4
- 230000000875 corresponding effect Effects 0.000 description 28
- 230000000694 effects Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 6
- 238000004590 computer program Methods 0.000 description 5
- 230000000007 visual effect Effects 0.000 description 4
- 238000012790 confirmation Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 230000001276 controlling effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000008021 deposition Effects 0.000 description 1
- 230000008921 facial expression Effects 0.000 description 1
- 239000010978 jasper Substances 0.000 description 1
- 230000009191 jumping Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000036544 posture Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/40—Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
- G06F16/43—Querying
- G06F16/438—Presentation of query results
- G06F16/4387—Presentation of query results by the use of playlists
- G06F16/4393—Multimedia presentations, e.g. slide shows, multimedia albums
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/40—Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
- G06F16/44—Browsing; Visualisation therefor
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
本发明涉及提供一种多端融合的演讲方法和系统。所述方法包括:所述移动端展示所述演讲稿;所述移动端接收和识别用户的实时演讲音频,依据识别的所述演讲音频与所述演讲稿进行匹配,生成并发送对应的展示控制指令;所述移动端依据所述展示控制指令调整所述演讲稿的展示页面;所述云端接收并转发对应的展示控制指令;所述本地端接收所述展示控制指令,并依据所述展示控制指令调整所述演讲稿的展示页面。通过多端融合的方式,基于个性化的用户需求,为演讲提供了全方位支持。
Description
技术领域
本发明涉及多媒体处理技术领域,特别涉及一种多端融合的演讲稿展示方法和系统。
背景技术
在传统的演讲中,演讲者通常需要借助翻页笔等外在设备实现演讲稿的翻页,一旦演讲者忘记翻页,或过早翻页,会导致演讲稿的播放进度和演讲者的演讲内容不一致,影响演讲效果。此外,当演讲稿的播放进度与演讲内容不一致时,听众仅依靠语音,无法确知演讲的具体内容,也会严重影响听取效果。因此,需要提供一种多端融合的演讲稿展示方法和系统。
发明内容
本发明提供一种多端融合的演讲稿展示方法和系统。以解决现有技术中非人为操控的情况下,演讲稿的播放进度与实际演讲进度容易出现不一致的问题。
本发明提供的一种多端融合的演讲稿展示方法,所述演讲稿保存在云端、移动端和本地端,所述方法包括:所述移动端展示所述演讲稿;所述移动端接收和识别用户的实时演讲音频,依据识别的所述演讲音频与所述演讲稿进行匹配,生成并发送对应的展示控制指令;所述移动端依据所述展示控制指令调整所述演讲稿的展示页面;所述云端接收并转发对应的展示控制指令;所述本地端接收所述展示控制指令,并依据所述展示控制指令调整所述演讲稿的展示页面。
于本发明一实施例中,所述移动端接收和识别用户的实时演讲音频,依据识别的所述演讲音频与所述演讲稿进行匹配,生成并发送对应的展示控制指令,包括:所述移动端接收用户的实时演讲音频,并基于语音识别模型,将演讲音频转译成演讲文本;所述移动端基于文本相似度算法,分别计算演讲文本与所述演讲稿中各语句的匹配度,并选择匹配度最高的语句作为目标语句;所述移动端基于目标语句在所述演讲稿的展示页面中的位置,生成并发送对应的展示控制指令。
于本发明一实施例中,所述移动端接收用户的实时演讲音频,并基于语音识别模型,将演讲音频转译成演讲文本,包括:所述移动端接收用户的实时演讲音频,并将演讲音频输入至声学模型中,提取所述演讲音频的声学特征;所述移动端将所述声学特征输入至语言模型中,基于音频解码和搜索算法,对所述声学特征进行处理,获得演讲文本;其中,所述语音识别模型包括依次连接的声学模型和语言模型。
于本发明一实施例中,所述移动端依据所述展示控制指令调整所述演讲稿的展示页面,包括:所述移动端基于所述展示控制指令,调整所述演讲稿滚动至目标语句所属的展示页面。
于本发明一实施例中,所述移动端依据所述展示控制指令调整所述演讲稿的展示页面,还包括:所述移动端基于所述演讲稿的表达策略,获取所述演讲稿在当前时刻应展示的展示页面;其中,所述表达策略是对所述演讲稿预处理得到;所述移动端判断目标语句所属的展示页面是否为当前时刻应展示的展示页面,并在非当前时刻应展示的展示页面时生成提示信息。
于本发明一实施例中,所述移动端依据所述展示控制指令调整所述演讲稿的展示页面,还包括:所述移动端获取目标语句所属的展示页面对应的表达策略,并将表达策略展示在移动端的界面上;其中,所述表达策略是对所述演讲稿预处理得到。
于本发明一实施例中,所述移动端接收用户的实时演讲音频之后,还包括:所述移动端对所述演讲音频进行去噪处理。
于本发明一实施例中,所述演讲稿通过预处理获得,所述预处理过程包括:所述本地端获取初始演讲稿和演讲稿需求,并将所述初始演讲稿和演讲稿需求发送至云端;所述云端调用训练好的数据处理模型,根据演讲稿需求对初始演讲稿进行润色,得到润色后演讲稿和表达提示,并将润色后演讲稿和表达提示发送至本地端;其中,所述数据处理模型为ChatGPT4模型,所述表达提示是对润色后演讲稿的修改策略和表达策略;所述本地端根据表达提示对润色后演讲稿进行修改,修改完毕后向云端发送表达策略和修改后的演讲稿;云端接收并转发修改后的演讲稿及表达策略至所述移动端。
于本发明一实施例中,所述多端融合的演讲方法还包括:所述移动端将所述演讲稿的播放进度呈现在所述演讲稿的展示页面上。
于本发明的另一方面,还提供了一种多端融合的演讲稿展示系统,所述系统包括移动端、云端和本地端,所述云端和所述移动端通信连接,所述云端和所述本地端通信连接,所述演讲稿保存在云端、移动端和本地端:所述移动端包括:演讲稿展示模块,用于展示所述演讲稿;指令生成模块,用于接收和识别用户的实时演讲音频,依据识别的所述演讲音频与所述演讲稿进行匹配,生成并发送对应的展示控制指令;页面调整模块,用于依据所述展示控制指令调整所述演讲稿的展示页面;第一通信模块,用于向云端发送展示控制指令;所述云端包括:第二通信模块,用于接收移动端发送的展示控制指令,并转发至本地端;所述本地端包括:同步控制模块,用于依据所述展示控制指令调整所述演讲稿的展示页面;第三通信模块,用于接受云端发送的展示控制指令。
本发明提出的一种多端融合的演讲稿展示方法和系统。在移动端对用户的实时演讲音频进行语音识别,根据识别的音频内容和演讲稿进行匹配,从而能获知该演讲音频在演讲稿中的位置。移动端控制演讲稿调整到对应的展示页面,并向云端发送展示控制指令。云端将展示控制指令发送给本地端,以使本地端和移动端同步调整演讲稿的展示页面,从而能够便于本地端呈现的演讲稿内容与用户实际演讲的内容相匹配。解决了现有技术中,非人为操控下,演讲稿的播放进度与实际演讲进度容易出现不一致的问题。用户通过在移动端查看相应的展示页面,可以了解当前的演讲内容,并可根据当前的演讲内容进行演讲,极大提升了演讲效果。
附图说明
图1为本发明实施例提供的多端融合的演讲稿展示方法的一个流程示意图;
图2显示为本发明一实施例中演讲阶段多端融合的流程示意图;
图3显示为本发明一实施例中预处理阶段多端融合的流程示意图;
图4显示为本发明一实施例中多端融合的演讲稿展示方法的整体架构图;
图5显示为本发明一实施例中配置演讲需求的示意图;
图6显示为本发明一实施例中多级语速控制的示意图;
图7显示为本发明一实施例中切换演讲稿页面的示意图;
图8显示为本发明一实施例提供的多端融合的演讲稿展示系统的结构框图;
图9显示为本发明一实施例电子设备的一结构示意图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
在下文描述中,探讨了大量细节,以提供对本发明实施例的更透彻的解释,然而,对本领域技术人员来说,可以在没有这些具体细节的情况下实施本发明的实施例是显而易见的,在其他实施例中,以方框图的形式而不是以细节的形式来示出公知的结构和设备,以避免使本发明的实施例难以理解。
发明人发现,在传统的学术演讲中,演讲者常常面临准备大量资料、合理安排时间、保持观众兴趣等问题。此外,演讲者存在着从多个渠道有效表达信息的困难,导致演讲者常常在演讲过程中进行单调的讲稿朗读或幻灯片朗读。虽然有一些现有的工具和软件可以帮助演讲者创建幻灯片和计时,并对演讲者的表达提供一定的提示,但他们往往不能很好地适应不同环境和满足个性化需求。本发明提供一种多端融合的演讲稿展示方法,解决了现有技术中,非人为操控下,演讲稿的播放进度与实际演讲进度容易出现不一致的问题。用户通过在移动端查看相应的展示页面,可以了解当前的演讲内容,并可根据当前的演讲内容进行演讲,极大提升了演讲效果。此外,移动端的展示界面上还会呈现对应的表达提示,以使用户按照对应提示进行某些操作,从而避免用户只是单调的讲稿朗读,提升了听众的兴趣。进一步地,听众根据本地端展示的内容,可以更快的确认当前的演讲内容在演讲稿中的位置,避免由于演讲者带有口音等情况下,仅根据语音听众无法很好的确知演讲的具体内容,提升了听讲效果。此外,还可通过对演讲稿进行预处理,能够基于用户的个性化需求,实现对演讲稿的润色。
请参见图1和图2,多端融合的演讲稿展示方法包括如下步骤:
S1、所述移动端展示所述演讲稿。
移动端包括但不限于手机或平板电脑,演讲稿预先保存在移动端,演讲稿可以是以文档形式呈现的稿件(如Word文档等),也可以是幻灯片,为便于叙述,本发明后续以幻灯片为例进行描述,其他类型的文档形式与幻灯片的呈现类似,在此不做赘述。具体地,用户演讲时,在移动端的展示界面上会展示演讲稿。用户手持移动端进行演讲,可通过移动端呈现的内容,提示用户当前的演讲内容,以及相关的表达提示,从而便于用户根据表达提示,做出对应的动作、或引导听众做出相应反应等,有效提升演讲的氛围,增强了演讲效果。移动端可使用kotlin与Compose框架实现Android App,从而完成移动端框架的搭建,以便于移动端呈现出对应的展示界面。
S2、所述移动端接收和识别用户的实时演讲音频,依据识别的所述演讲音频与所述演讲稿进行匹配,生成并发送对应的展示控制指令。
演讲时,移动端会接收用户的实时演讲音频,并对演讲音频进行语音转文本处理,识别出演讲音频对应的演讲文本。并将演讲文本与演讲稿进行匹配,从而得到用户此时的演讲音频对应的演讲稿中的位置。生成展示控制指令,并将展示控制指令发送给云端。其中,展示控制指令用于控制移动端和本地端根据用户的实时演讲音频,同步展示演讲稿。
在本发明一实施例中,所述移动端接收和识别用户的实时演讲音频,依据识别的所述演讲音频与所述演讲稿进行匹配,生成并发送对应的展示控制指令,包括:
所述移动端接收用户的实时演讲音频,并基于语音识别模型,将演讲音频转译成演讲文本;
所述移动端基于文本相似度算法,分别计算演讲文本与所述演讲稿中各语句的匹配度,并选择匹配度最高的语句作为目标语句;
所述移动端基于目标语句在所述演讲稿的展示页面中的位置,生成并发送对应的展示控制指令。
移动端接收到用户的实时演讲音频后,将演讲音频输入至语音识别模型,对演讲音频进行语音识别,从而将演讲音频转译成演讲文本。然后根据文本相似度算法,分别计算演讲文本和演讲稿中各语句的匹配度,并选择与演讲文本匹配度最高的一个语句作为目标语句。由于用户实际演讲时,并不一定完全按照演讲稿的内容宣读,因此可能会出现用户实际演讲内容与演讲稿内容不匹配的情况。此时,根据文本匹配度算法,即可得到演讲稿中最匹配的一个语句,从而可以实现演讲稿的准确定位。移动端将演讲稿滚动至目标语句所在的展示页面。为了便于本地端和移动端同步展示演讲稿,移动端会根据目标语句所在的演讲稿中的位置,生成展示控制指令,并将展示控制指令发送至云端。其中,语音识别模型包括但不限于DeepSpeech模型、Jasper模型、PaddleSpeech模型、SpeechRecognizer框架等,文本相似度算法包括但不限余弦相似度算法、BM25算法、WMD(Word Mover's Distance)算法等。在其中一个实施例中,语音识别模型为安卓系统自带的标准语音识别框架SpeechRecognizer,文本相似度算法为BM25算法。
在本发明一实施例中,所述移动端接收用户的实时演讲音频,并基于语音识别模型,将演讲音频转译成演讲文本,包括:
所述移动端接收用户的实时演讲音频,并将演讲音频输入至声学模型中,提取所述演讲音频的声学特征;
所述移动端将所述声学特征输入至语言模型中,基于音频解码和搜索算法,对所述声学特征进行处理,获得演讲文本;其中,所述语音识别模型包括依次连接的声学模型和语言模型。
移动端接收到用户的实时演讲音频后,将演讲音频输入至声学模型,根据声学特性提取演讲音频的声学特征。将声学特征输入至语言模型中,根据声学特征得到对应可能词组序列的概率,然后根据已有的字典,对词组序列进行解码,得到最终的文本表示,并将文本表示作为当前演讲音频转译得到的演讲文本。考虑到演讲音频中可能存在听众发出的声音、以及收音时录入的杂音等噪声,为了提高语音识别的精度,在本发明一实施例中,所述移动端接收用户的实时演讲音频之后,还包括:所述移动端对所述演讲音频进行去噪处理。
S3、所述移动端依据所述展示控制指令调整所述演讲稿的展示页面。
移动端基于展示控制指令,控制演讲稿移动至与演讲音频匹配的位置,并在移动端的界面上展示对应的展示页面。从而实现演讲稿根据用户的演讲语音,进行精确定位,以便于用户根据移动端呈现的演讲稿内容进行演讲。其中,演讲稿可通过滚动的方式实现页面的切换,也可通过跳动的方式直接跳转至对应的页面,具体方式在此不做限定。
在本发明一实施例中,所述移动端依据所述展示控制指令调整所述演讲稿的展示页面,包括:所述移动端基于所述展示控制指令,调整所述演讲稿滚动至目标语句所属的展示页面。移动端根据展示控制指令,调整演讲的幻灯片滚动至目标语句所在的展示页面,从而实现演讲者的演讲速度与幻灯片的播放进度相同。
在本发明一实施例中,所述移动端依据所述展示控制指令调整所述演讲稿的展示页面,还包括:
所述移动端基于所述演讲稿的表达策略,获取所述演讲稿在当前时刻应展示的展示页面;其中,所述表达策略是对所述演讲稿预处理得到;
所述移动端判断目标语句所属的展示页面是否为当前时刻应展示的展示页面,并在非当前时刻应展示的展示页面时生成提示信息。
请参阅图6,演讲过程中,移动端根据用户预先设置的演讲时长,可以获得当前时刻应展示的演讲稿的内容,但考虑到用户实际演讲过程中,可能存在实际的演讲进度与预估进度不同的情况。因此移动端需要评判目标语句是否属于当前时刻应展示的展示页面。若属于,则移动端将当前时刻应展示的页面呈现在移动端界面上,供演讲者查看。若不属于,则会根据目标语句的位置发出语速提示信息。具体地,移动端根据用户设置的演讲时长,获取当前时刻应展示的段落。若目标语句所在的段落位于当前时刻应展示的段落之前,则会发出语速过快提醒,提示用户需要减缓演讲速度。若目标语句所在的段落位于当前时刻应展示的段落之后,且目标语句位于当前应展示的页面中,则会发出语速相对较慢提醒,提示用户需要稍微加快演讲速度。若目标语句所在的段落位于当前时刻应展示的段落之后,且目标语句不位于当前应展示的页面中,则会发出语速过慢提醒,提示用户需要加快演讲速度。通过这种多级语速控制,可以确保用户最终演讲完成时,用时符合预先设定的演讲时长。此外,为了更加直观的提醒用户,在语速过慢时,会在当前展示页面呈现向下的箭头,在语速过快时,会在当前展示页面呈现向上的箭头。以便于用户根据箭头指向,即可获知自己的演讲速度是否过快或过慢。
进一步地,请参阅图4和图7,移动端的界面上会动态展示演讲稿、表达策略以及演讲稿的内容等。当演讲稿为幻灯片时,移动端的界面上还会展示幻灯片缩略图以及当前展示的幻灯片的内容等。为提升演讲者的使用体验,演讲者在移动端可以通过上下滑动实现幻灯片的切换,也可以通过单击某一个取景框(即幻灯片缩略图),实现幻灯片的切换。通过演讲者在移动端对演讲稿的切换,可以快速定位至想要展示的演讲稿的位置,并在移动端生成展示控制指令,通过云端发送至本地端,控制本地端与移动端的演讲稿播放进度相同。
在本发明一实施例中,所述多端融合的演讲方法还包括:所述移动端将所述演讲稿的播放进度呈现在所述演讲稿的展示页面上。其中,播放进度可以用进度条的形式呈现在展示页面上,以便于演讲者了解演讲进度。
S4、所述云端接收并转发对应的展示控制指令。
云端接收到移动端发送的展示控制指令后,表示此时移动端的演讲稿展示页面发生了变动,因此云端将展示控制指令发送至本地端,以便本地端与移动端同步调整演讲稿的展示页面。其中,云端可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
S5、所述本地端接收所述展示控制指令,并依据所述展示控制指令调整所述演讲稿的展示页面。
本地端接收云端转发的展示控制指令后,作为演讲稿的播放载体,根据展示控制指令的内容,调整演讲稿的展示页面,并将调整后的演讲稿通过大屏幕或投影仪等放映设备进行播放,从而使得演讲稿在移动端和本地端的播放进度相同。其中,本地端可以但不限于是各种台式计算机、笔记本电脑、智能手机、平板电脑等。本地端可使用Yeoman生成器生成office项目并使用Office.js,TypeScript和React框架将本地端实现为PowerPoint加载项。本地端与云端的通讯可用axios实现。
在本发明一实施例中,所述演讲稿通过预处理获得,所述预处理过程包括:
所述本地端获取初始演讲稿和演讲稿需求,并将所述初始演讲稿和演讲稿需求发送至云端;
所述云端调用训练好的数据处理模型,根据演讲稿需求对初始演讲稿进行润色,得到润色后演讲稿和表达提示,并将润色后演讲稿和表达提示发送至本地端;其中,所述数据处理模型为ChatGPT4模型,所述表达提示是对润色后演讲稿的修改策略和表达策略;
所述本地端根据表达提示对润色后演讲稿进行修改,修改完毕后向云端发送表达策略和修改后的演讲稿;
云端接收并转发修改后的演讲稿及表达策略至所述移动端。
请参阅图3至图5,初始演讲稿是指演讲稿的雏形阶段,虽然具有一定的内容,但内容不足以支撑演讲完成。用户将初始演讲稿上传到本地端,从预设的多个因素中,选择当前初始演讲稿需要的润色因素,并将初始演讲稿的文本内容输入至桌面端的界面中。其中,润色因素包括口头支持因素、非口头支持因素以及视觉表达支持因素,口头因素包括但不限于演讲音调、演讲速度、演讲时的发音方式、演讲稿的大小,非口头因素包括但不限于目光接触、脸部表情、沉着程度、手势、姿态,视觉表达支持因素包括但不限于演讲稿页面的切换方式为滑动页面或跳转页面等。进一步地,桌面端还具有时间调控功能,用户可选择适当的演讲时长。演讲需求包括润色因素和演讲时长,用户设置完演讲时长后,可以选择增强手稿,从而将初始演讲稿和演讲需求发送至云端。云端调用GPT-4接口,使用训练好的ChatGPT4模型根据演讲需求,对初始演讲稿进行润色,并生成对应的表达提示。其中,表达提示是ChatGPT4模型生成的对润色后演讲稿的修改策略和表达策略。修改策略可以是对演讲稿中某些字段或词语的增删等修改建议,表达策略可以是根据用户的演讲需求,自动生成的口头表达建议、非口头表达建议以及视觉表达建议。示例性地,讲到演讲稿的A语句时,提高音量,讲到B语句时,进行某些肢体语言等。润色完毕后,云端将润色完毕后演讲稿以及对应的表达提示发送至桌面端。用户在桌面端根据ChatGPT4生成的表达提示,对润色后的演讲稿进行相应修改。并可根据表达提示,优化演讲稿的视觉效果。此外,还可在演讲稿中标记出生词,并在修改过程中,本地端通过切换按钮,实现初始演讲稿和修改后演讲稿的切换,以便用户了解具体修改了哪些内容。修改完毕后,向云端发送确认信息,并将修改后的演讲稿和ChatGPT4生成的表达策略一起发送至云端。云端接收到确认信息后,将修改后的演讲稿和表达策略发送至移动端,此时,修改后的演讲稿作为最终的讲稿,供用户最终演讲之用。进一步地,云端可使用Python编程语言,通过Flask框架,调用OpenAI API接口实现对ChatGPT4模型的调用。
请参见图8,该多端融合的演讲稿展示系统包括移动端、云端和本地端,云端和所述移动端通信连接,所述云端和所述本地端通信连接,所述演讲稿保存在云端、移动端和本地端。移动端包括:演讲稿展示模块110、指令生成模块120、页面调整模块130和第一通信模块140。其中,上述演讲稿展示模块110用于展示所述演讲稿。指令生成模块120用于接收和识别用户的实时演讲音频,依据识别的所述演讲音频与所述演讲稿进行匹配,生成并发送对应的展示控制指令。页面调整模块130用于依据所述展示控制指令调整所述演讲稿的展示页面。第一通信模块140用于向云端发送展示控制指令。云端包括:第二通信模块150,用于接收移动端发送的展示控制指令,并转发至本地端。本地端包括:同步控制模块160和第三通信模块170。同步控制模块160用于依据所述展示控制指令调整所述演讲稿的展示页面。第三通信模块170用于接受云端发送的展示控制指令。
关于多端融合的演讲稿展示系统的具体限定可以参见上文中对于多端融合的演讲稿展示方法的限定,在此不再赘述。上述多端融合的演讲稿展示系统中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件格式内嵌于或独立于计算机设备中的处理器中,也可以以软件格式存储于计算机设备中的存储器中,以便于处理器调用以上各个模块对应的操作。
需要说明的是,为了突出本发明的创新部分,本实施例中并没有将与解决本发明所提出的技术问题关系不太密切的模块引入,但这并不表明本实施例中不存在其它的模块。
请参见图9,所述电子设备1可以包括存储器12、处理器13和总线,还可以包括存储在所述存储器12中并可在所述处理器13上运行的计算机程序,例如多端融合的演讲稿展示程序。
其中,存储器12至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、移动硬盘、多媒体卡、卡型存储器(例如:SD或DX存储器等)、磁性存储器、磁盘、光盘等。存储器12在一些实施例中可以是电子设备1的内部存储单元,例如该电子设备1的移动硬盘。存储器12在另一些实施例中也可以是电子设备1的外部存储设备,例如电子设备1上配备的插接式移动硬盘、智能存储卡(Smart Media Card,SMC)、安全数字(Secure Digital,SD)卡、闪存卡(Flash Card)等。进一步地,存储器12还可以既包括电子设备1的内部存储单元也包括外部存储设备。存储器12不仅可以用于存储安装于电子设备1的应用软件及各类数据,例如多端融合的演讲稿展示的代码等,还可以用于暂时地存储已经输出或者将要输出的数据。
处理器13在一些实施例中可以由集成电路组成,例如可以由单个封装的集成电路所组成,也可以是由多个相同功能或不同功能封装的集成电路所组成,包括一个或者多个中央处理器(Central Processing unit,CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。处理器13是所述电子设备1的控制核心(Control Unit),利用各种接口和线路连接整个电子设备1的各个部件,通过运行或执行存储在所述存储器12内的程序或者模块(例如多端融合的演讲稿展示程序等),以及调用存储在所述存储器12内的数据,以执行电子设备1的各种功能和处理数据。
所述处理器13执行所述电子设备1的操作系统以及安装的各类应用程序。所述处理器13执行所述应用程序以实现上述多端融合的演讲稿展示方法中的步骤。
示例性的,所述计算机程序可以被分割成一个或多个模块,所述一个或者多个模块被存储在所述存储器12中,并由所述处理器13执行,以完成本申请。所述一个或多个模块可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序在所述电子设备1中的执行过程。例如,所述计算机程序可以被分割成演讲稿展示模块110、指令生成模块120、页面调整模块130、第一通信模块140、第二通信模块150、同步控制模块160和第三通信模块170。
上述以软件功能模块的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中,所述计算机可读存储介质可以是非易失性,也可以是易失性。上述软件功能模块存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、计算机设备,或者网络设备等)或处理器(processor)执行本申请各个实施例所述多端融合的演讲稿展示方法的部分功能。
综上所述,本发明公开的一种多端融合的演讲稿展示方法和系统,在移动端对用户的实时演讲音频进行语音识别,根据识别的音频内容和演讲稿进行匹配,从而能获知该演讲音频在演讲稿中的位置。移动端控制演讲稿调整到对应的展示页面,并向云端发送展示控制指令。云端将展示控制指令发送给本地端,以使本地端和移动端同步调整演讲稿的展示页面,从而能够便于本地端呈现的演讲稿内容与用户实际演讲的内容相匹配。解决了现有技术中,非人为操控下,演讲稿的播放进度与实际演讲进度不一致的问题。本发明通过使用ChatGPT4这种大模型,并结合多端融合的方式,在预处理阶段,为演讲稿提供了讲稿润色,时长预测,与支持因素配置等全方位的支持,使得最终生成的演讲稿更加贴合演讲需求,满足用户的个性化需求。进一步地,实际演讲时,在移动端,提供了远程幻灯片控制,多级语速调节,动态讲稿显示,与内嵌表达提示等功能,便于演讲者根据提示内容适应性调整自己的演讲方式。本发明将移动端、云端和本地端多端相互融合,并以人机协同的方式显著提升了演讲效果与观众接受度。所以,本发明有效克服了现有技术中的种种缺点而具高度产业利用价值。
上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本发明的权利要求所涵盖。
Claims (10)
1.一种多端融合的演讲稿展示方法,其特征在于,所述演讲稿保存在云端、移动端和本地端,所述方法包括:
所述移动端展示所述演讲稿;
所述移动端接收和识别用户的实时演讲音频,依据识别的所述演讲音频与所述演讲稿进行匹配,生成并发送对应的展示控制指令;
所述移动端依据所述展示控制指令调整所述演讲稿的展示页面;
所述云端接收并转发对应的展示控制指令;
所述本地端接收所述展示控制指令,并依据所述展示控制指令调整所述演讲稿的展示页面。
2.根据权利要求1所述的多端融合的演讲稿展示方法,其特征在于,所述移动端接收和识别用户的实时演讲音频,依据识别的所述演讲音频与所述演讲稿进行匹配,生成并发送对应的展示控制指令,包括:
所述移动端接收用户的实时演讲音频,并基于语音识别模型,将演讲音频转译成演讲文本;
所述移动端基于文本相似度算法,分别计算演讲文本与所述演讲稿中各语句的匹配度,并选择匹配度最高的语句作为目标语句;
所述移动端基于目标语句在所述演讲稿的展示页面中的位置,生成并发送对应的展示控制指令。
3.根据权利要求2所述的多端融合的演讲稿展示方法,其特征在于,所述移动端接收用户的实时演讲音频,并基于语音识别模型,将演讲音频转译成演讲文本,包括:
所述移动端接收用户的实时演讲音频,并将演讲音频输入至声学模型中,提取所述演讲音频的声学特征;
所述移动端将所述声学特征输入至语言模型中,基于音频解码和搜索算法,对所述声学特征进行处理,获得演讲文本;其中,所述语音识别模型包括依次连接的声学模型和语言模型。
4.根据权利要求2所述的多端融合的演讲稿展示方法,其特征在于,所述移动端依据所述展示控制指令调整所述演讲稿的展示页面,包括:所述移动端基于所述展示控制指令,调整所述演讲稿滚动至目标语句所属的展示页面。
5.根据权利要求4所述的多端融合的演讲稿展示方法,其特征在于,所述移动端依据所述展示控制指令调整所述演讲稿的展示页面,还包括:
所述移动端基于所述演讲稿的表达策略,获取所述演讲稿在当前时刻应展示的展示页面;其中,所述表达策略是对所述演讲稿预处理得到;
所述移动端判断目标语句所属的展示页面是否为当前时刻应展示的展示页面,并在非当前时刻应展示的展示页面时生成提示信息。
6.根据权利要求4所述的多端融合的演讲稿展示方法,其特征在于,所述移动端依据所述展示控制指令调整所述演讲稿的展示页面,还包括:所述移动端获取目标语句所属的展示页面对应的表达策略,并将表达策略展示在移动端的界面上;其中,所述表达策略是对所述演讲稿预处理得到。
7.根据权利要求1所述的多端融合的演讲稿展示方法,其特征在于,所述移动端接收用户的实时演讲音频之后,还包括:所述移动端对所述演讲音频进行去噪处理。
8.根据权利要求1所述的多端融合的演讲稿展示方法,其特征在于,所述演讲稿通过预处理获得,所述预处理过程包括:
所述本地端获取初始演讲稿和演讲稿需求,并将所述初始演讲稿和演讲稿需求发送至云端;
所述云端调用训练好的数据处理模型,根据演讲稿需求对初始演讲稿进行润色,得到润色后演讲稿和表达提示,并将润色后演讲稿和表达提示发送至本地端;其中,所述数据处理模型为ChatGPT4模型,所述表达提示是对润色后演讲稿的修改策略和表达策略;
所述本地端根据表达提示对润色后演讲稿进行修改,修改完毕后向云端发送表达策略和修改后的演讲稿;
云端接收并转发修改后的演讲稿及表达策略至所述移动端。
9.根据权利要求1所述的多端融合的演讲稿展示方法,其特征在于,所述多端融合的演讲方法还包括:所述移动端将所述演讲稿的播放进度呈现在所述演讲稿的展示页面上。
10.一种多端融合的演讲稿展示系统,其特征在于,所述系统包括移动端、云端和本地端,所述云端和所述移动端通信连接,所述云端和所述本地端通信连接,所述演讲稿保存在云端、移动端和本地端:
所述移动端包括:
演讲稿展示模块,用于展示所述演讲稿;
指令生成模块,用于接收和识别用户的实时演讲音频,依据识别的所述演讲音频与所述演讲稿进行匹配,生成并发送对应的展示控制指令;
页面调整模块,用于依据所述展示控制指令调整所述演讲稿的展示页面;
第一通信模块,用于向云端发送展示控制指令;
所述云端包括:
第二通信模块,用于接收移动端发送的展示控制指令,并转发至本地端;
所述本地端包括:
同步控制模块,用于依据所述展示控制指令调整所述演讲稿的展示页面;
第三通信模块,用于接受云端发送的展示控制指令。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311516244.0A CN117493593A (zh) | 2023-11-14 | 2023-11-14 | 多端融合的演讲稿展示方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311516244.0A CN117493593A (zh) | 2023-11-14 | 2023-11-14 | 多端融合的演讲稿展示方法和系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117493593A true CN117493593A (zh) | 2024-02-02 |
Family
ID=89684599
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311516244.0A Pending CN117493593A (zh) | 2023-11-14 | 2023-11-14 | 多端融合的演讲稿展示方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117493593A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117709311A (zh) * | 2024-02-05 | 2024-03-15 | 新励成教育科技股份有限公司 | 一种基于云端的演讲稿管理方法、装置、设备及存储介质 |
-
2023
- 2023-11-14 CN CN202311516244.0A patent/CN117493593A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117709311A (zh) * | 2024-02-05 | 2024-03-15 | 新励成教育科技股份有限公司 | 一种基于云端的演讲稿管理方法、装置、设备及存储介质 |
CN117709311B (zh) * | 2024-02-05 | 2024-05-03 | 新励成教育科技股份有限公司 | 一种基于云端的演讲稿管理方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11158102B2 (en) | Method and apparatus for processing information | |
US20220230374A1 (en) | User interface for generating expressive content | |
US20220122580A1 (en) | Intent recognition and emotional text-to-speech learning | |
US11302302B2 (en) | Method, apparatus, device and storage medium for switching voice role | |
JP7065740B2 (ja) | アプリケーション機能情報表示方法、装置、及び端末装置 | |
US20200175890A1 (en) | Device, method, and graphical user interface for a group reading environment | |
US20180276203A1 (en) | User interface for realtime language translation | |
JP5563650B2 (ja) | 音声ファイルに関連するテキストの表示方法及びこれを実現した電子機器 | |
JP2019102063A (ja) | ページ制御方法および装置 | |
CN107517323B (zh) | 一种信息分享方法、装置及存储介质 | |
CN107369462B (zh) | 电子书语音播放方法、装置及终端设备 | |
US20140315163A1 (en) | Device, method, and graphical user interface for a group reading environment | |
US11538476B2 (en) | Terminal device, server and controlling method thereof | |
US20140013192A1 (en) | Techniques for touch-based digital document audio and user interface enhancement | |
CN110931042A (zh) | 同声传译方法、装置、电子设备以及存储介质 | |
CN117493593A (zh) | 多端融合的演讲稿展示方法和系统 | |
US11676607B2 (en) | Contextual denormalization for automatic speech recognition | |
CN108882101A (zh) | 一种智能音箱的播放控制方法、装置、设备及存储介质 | |
CN115668358A (zh) | 用于文本到语音合成的用户接口适应的方法和系统 | |
CN110992960A (zh) | 控制方法、装置、电子设备和存储介质 | |
US20140004486A1 (en) | Devices, systems, and methods for enriching communications | |
US20180075839A1 (en) | Correction system, method of correction, and computer program product | |
US20190026266A1 (en) | Translation device and translation system | |
CN112348932A (zh) | 口型动画录制方法及装置、电子设备、存储介质 | |
EP4099711A1 (en) | Method and apparatus and storage medium for processing video and timing of subtitles |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |