CN110164442B - 基于语音识别的声控提词器系统 - Google Patents
基于语音识别的声控提词器系统 Download PDFInfo
- Publication number
- CN110164442B CN110164442B CN201910542152.7A CN201910542152A CN110164442B CN 110164442 B CN110164442 B CN 110164442B CN 201910542152 A CN201910542152 A CN 201910542152A CN 110164442 B CN110164442 B CN 110164442B
- Authority
- CN
- China
- Prior art keywords
- data
- module
- voice data
- manuscript
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000008859 change Effects 0.000 claims description 2
- 238000013473 artificial intelligence Methods 0.000 description 5
- PEDCQBHIVMGVHV-UHFFFAOYSA-N Glycerine Chemical compound OCC(O)CO PEDCQBHIVMGVHV-UHFFFAOYSA-N 0.000 description 3
- 230000007812 deficiency Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 239000002699 waste material Substances 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000012550 audit Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000000034 method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N5/00—Details of television systems
- H04N5/222—Studio circuitry; Studio devices; Studio equipment
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Document Processing Apparatus (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
本发明公开了基于语音识别的声控提词器系统,包括显示模块,用于显示文稿内容数据;语音接收模块,用于采集用户语音数据;文稿存储模块,用于存储文稿内容数据;比对模块,用于比对当前采集到的用户语音数据与当前显示的文稿内容数据的相似度S1,若S1≥Q1,则文稿存储模块向显示模块发送下一条文稿内容数据进行显示,Q1为阈值。本发明其避免了手动控制提词器翻页,能够使用户在录制视频时提词器自行翻页。
Description
技术领域
本发明属于提词器技术领域,尤其涉及一种基于语音识别的声控提词器系统。
背景技术
近几年,随着人工智能的快速发展,依托人工智能的教育也迅速发展开来。随着人工智能与教育的融合发展,教育行业特别是特殊教育领域,对人工智能教育的关注都颇高。因为人工智能教育对学生个性化的学习、各方面素养和能力的获得、全球课堂的普及以及教师重复性劳动的减少等都有益处。要想实现人工智能教学,前期势必要依赖大量的知识点教学视频,这样才能为每一个孩子智能匹配个性化学习计划。而现阶段知识点教学视频的制作,主要分为四步:一是教研人员根据知识图谱撰写设计教学文稿,即知识点讲解文案,包括导入视频文稿、知识点讲解视频文稿、练习题目解析文稿等;二是出镜教师根据教学文稿进行视频录制,拍摄大量视频素材;三是视频编辑制作人员根据教学文稿剪辑制作视频;四是教研质检人员审核教学视频是否合格,审核通过安排网站上线。知识点教学视频的录制一般都在摄影棚内进行,录制时需要配备一个专门的工作人员操作提词器,主要包括:一配合用户的讲解速度操作提词器进行手工翻页,二核对用户的讲解内容是否与教学文稿相符,若出现讲解内容与教学文稿不一致的情况,需进行标记并提醒用户进行重新录制。
在摄影棚录制知识点教学视频时,由于用户需要在短时间内完成大量教学视频的录制而无法背下教学文稿,故而需要把教学文稿通过提词器显示出来。提词器与摄像机三脚架支撑在同一轴线上,从而产生了用户始终面向镜头的亲切感。但由于当下的提词器是手动式,所以录视频时需要配备一个专门的工作人员,配合用户操作计算机手工翻页,且需要时刻注意讲解内容与教学文稿不一致的情况,并进行人工干预。如若沟通不及时,就会导致录制暂停或重录,这样就会浪费人力、时间,还会干扰用户的心态,造成录制效率和质量低下,甚至会影响教学视频的教学效果。
因此,如何解决用户在录制视频时能够智能控制提词器,是亟需要解决的难题。
发明内容
本发明所要解决的技术问题在于针对上述现有技术中的不足,提供一种基于语音识别的声控提词器系统,其避免了手动控制提词器翻页,能够使用户在录制视频时自行翻页。
为解决上述技术问题,本发明第一方面公开了一种基于语音识别的声控提词器系统,包括
显示模块,用于显示文稿内容数据;
语音接收模块,用于采集用户语音数据;
文稿存储模块,用于存储文稿内容数据;
比对模块,用于比对当前采集到的用户语音数据与当前显示的文稿内容数据的相似度S1,若S1≥Q1,则文稿存储模块向显示模块发送下一条文稿内容数据进行显示,Q1为阈值。
进一步地,所述相似度S1,0≤S1≤1,所述阈值Q1,0.9≤Q1≤1。
进一步地,还包括指令存储模块,用于存储内部语音数据及与内部语音数据对应的指令数据;比对模块,还用于比对当前采集到的用户语音数据与内部语音数据的相似度S2,若S2≥Q2,则执行与该内部语音数据对应的指令数据;指令存储模块内至少存储有将一文稿内容数据发送至显示模块进行显示的指令数据。
进一步地,所述相似度S2,0≤S2≤1,所述阈值Q2,0.9≤Q2≤1。
进一步地,还包括提示模块,当S1<Q1和\或S2<Q2,提示模块发出提示数据。
本发明第二方面公开了一种基于语音识别的声控提词器系统,包括
显示模块,用于显示文稿内容数据;
语音接收模块,用于采集用户语音数据;
文稿存储模块,用于存储文稿内容数据;
指令存储模块,用于存储内部语音数据及与内部语音数据对应的指令数据;
比对模块,用于比对当前采集到的用户语音数据与内部语音数据的相似度S2,若S2≥Q2,则执行与该内部语音数据对应的指令数据;指令存储模块内至少存储有将一文稿内容数据发送至显示模块进行显示的指令数据。
进一步地,所述相似度S2,0≤S2≤1,所述阈值Q2,0.9≤Q2≤1。
进一步地,还包括提示模块,当S2<Q2,提示模块发出提示数据。
本发明与现有技术相比具有以下优点:本发明采用语音识别技术将用户的语音信息,自动与文稿进行匹配,可自动实现提词器的自动翻页,无需依赖人工手动翻页,提高录制效率,减小人力的浪费。此外,该系统还能够在录制过程中自动判断是否出现了讲解内容与文稿不一致的情况,并且能够自动地实时提醒用户。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
图1为本发明的电路原理框图。
图2为本发明实施例1的使用流程图。
图3为本发明实施例2的使用流程图。
附图标记说明:
1—指令存储模块; 2—语音接收模块; 3—提示模块;
4—文稿存储模块; 5—比对模块; 6—显示模块。
具体实施方式
实施例1
如图1所示,一种基于语音识别的声控提词器系统,包括显示模块6、和主机;所述显示模块6,用于显示文稿内容数据;所述主机包括语音接收模块2,用于采集用户语音数据;文稿存储模块4,用于存储文稿内容数据;比对模块5,用于比对当前采集到的用户语音数据与当前显示的文稿内容数据的相似度S1,若S1≥Q1,则文稿存储模块4向显示模块6发送下一条文稿内容数据进行显示,Q1为阈值。
所述相似度S1,0≤S1≤1,所述阈值Q1,0.9≤Q1≤1。
本实施例中,所述语音接收模块2为麦克风。
需要说明的是,当比对模块5对用户语音数据和文稿内容数据进行比对时,比对模块5先将用户语音数据转换为文字数据,然后将该文字数据与文稿内容数据进行比对。例如,当语音接收模块2采集到“春江花月夜张若虚”的用户语音数据时,比对模块5将该用户语音数据转换为“春江花月夜张若虚”的文字数据,并以此文字数据与当前显示模块6上显示的文稿内容数据进行比对,若相似度S1为1,则文稿存储模块4向显示模块6发送下一条文稿内容数据“春江潮水连海平海上明月共潮生”进行显示。
本实施例中,主机还包括指令存储模块1,用于存储内部语音数据及与内部语音数据对应的指令数据;比对模块5,还用于比对当前采集到的用户语音数据与内部语音数据的相似度S2,若S2≥Q2,则执行与该内部语音数据对应的指令数据;指令存储模块内至少存储有将一文稿内容数据发送至显示模块进行显示的指令数据。
所述相似度S2,0≤S2≤1,所述阈值Q2,0.9≤Q2≤1。
需要说明的是,当比对模块5对用户语音数据和内部语音数据进行比对时,可以直接利用语音识别算法计算用户语音数据和内部语音数据的相似度;还可以预先将内部语音数据存储为文字格式的数据,在采集到用户语音数据时,比对模块5先将用户语音数据转换为文字数据,然后将该文字数据与文字格式的内部语音数据进行比对。例如,当语音接收模块2采集到“返回第一页”的用户语音数据时,比对模块5将该用户语音数据转换为“返回第一页”的文字数据,并以此文字数据在指令存储模块1查找对应的文字格式的“返回第一页”的内部语音数据,若查找到一内部语音数据与该用户语音数据的相似度S2为1,则执行该文字格式的“返回第一页”的内部语音数据对应的指令数据,将文稿存储模块4的第一条文稿内容数据送至显示模块6进行显示。
此处文稿存储模块4的一条文稿内容数据可在显示模块6上显示一页。文稿存储模块4内顺序存储有多条文稿内容数据。
本实施例中,主机还包括提示模块3,当S1<Q1和\或S2<Q2,提示模块3发出提示数据。
需要说明的是,提示模块3为喇叭或蜂鸣器,提示数据为提示音。且当S1<Q1和S2<Q2,显示模块6改变当前显示的文稿内容颜色。
如图2所示,本发明使用时,语音接收模块2采集用户语音数据,比对模块5调取该用户语音数据与指令存储模块1中的内部语音数据进行比对,若S2≥Q2,则执行该内部语音数据对应的指令数据,例如指令数据的指令为“返回第一页”,比对模块5将该指令数据发送至文稿存储模块4,文稿存储模块4调取第一条文稿内容数据发送至显示模块6进行显示。若S2<Q2,则比对模块5调取当前显示的文稿内容数据与该用户语音数据进行比对,若S1≥Q1,则比对模块5向文稿存储模块4发送调取下一条文稿内容数据的指令,文稿存储模块4调取下一条文稿内容数据发送至显示模块6进行显示。当S2<Q2,比对模块5控制提示模块3发出短促的提示音。当S1<Q1,比对模块5控制提示模块3发出连续的提示音,并控制显示模块6改变当前显示的文稿内容颜色。
利用本发明相比现有提词器在使用时具有以下优点:
1、用户在录制视频时,如果显示模块的文稿已经讲解完毕,系统会自动地将后面要录制的文稿翻到显示模块,无需依赖人工手动翻页。
2、用户在录制视频时,如果出现口误、发音不准、表达错误等情况,系统会自动地实时提醒用户,由用户自行判断是否需要重新录制,无需配备一个专门的工作人员在旁时刻注意讲解内容与教学文稿是否一致。
3、视频录制完毕后,若用户对此不满意,想重新录制,可发出指令“返回第一页”,系统会自动翻到第一页,无需配备一个工作人员手动翻页,减少了人力的浪费,又提高了工作效率。
实施例2
如图1所示,一种基于语音识别的声控提词器系统,包括
显示模块6,用于显示文稿内容数据;
语音接收模块2,用于采集用户语音数据;
文稿存储模块4,用于存储文稿内容数据;
指令存储模块1,用于存储内部语音数据及与内部语音数据对应的指令数据;
比对模块5,用于比对当前采集到的用户语音数据与内部语音数据的相似度S2,若S2≥Q2,则执行与该内部语音数据对应的指令数据;指令存储模块内至少存储有将一文稿内容数据发送至显示模块进行显示的指令数据。
所述相似度S2,0≤S2≤1,所述阈值Q2,0.9≤Q2≤1。
还包括提示模块3,当S2<Q2,提示模块3发出提示数据。
需要说明的是,提示模块3为喇叭或蜂鸣器,提示数据为提示音。
本实施例中,所述语音接收模块2为麦克风。
需要说明的是,当比对模块5对用户语音数据和内部语音数据进行比对时,可以直接利用语音识别算法计算用户语音数据和内部语音数据的相似度;还可以预先将内部语音数据存储为文字格式的数据,在采集到用户语音数据时,比对模块5先将用户语音数据转换为文字数据,然后将该文字数据与文字格式的内部语音数据进行比对。例如,当语音接收模块2采集到“返回第一页”的用户语音数据时,比对模块5将该用户语音数据转换为“返回第一页”的文字数据,并以此文字数据在指令存储模块1查找对应的文字格式的“返回第一页”的内部语音数据,若查找到一内部语音数据与该用户语音数据的相似度S2为1,则执行该文字格式的“返回第一页”的内部语音数据对应的指令数据,将文稿存储模块4的第一条文稿内容数据送至显示模块6进行显示。此处文稿存储模块4的一条文稿内容数据可在显示模块6上显示一页。文稿存储模块4内顺序存储有多条文稿内容数据。
如图3所示,本发明使用时,语音接收模块2采集用户语音数据,比对模块5调取该用户语音数据与指令存储模块1中的内部语音数据进行比对,若S2≥Q2,则执行该内部语音数据对应的指令数据,例如指令数据的指令为“返回第一页”,当比对模块5将该指令数据发送至文稿存储模块4时,文稿存储模块4调取第一条文稿内容数据发送至显示模块6进行显示。当S2<Q2,比对模块5控制提示模块3发出短促的提示音。
以上所述,仅是本发明的较佳实施例,并非对本发明作任何限制,凡是根据本发明技术实质对以上实施例所作的任何简单修改、变更以及等效结构变化,均仍属于本发明技术方案的保护范围内。
Claims (3)
1.基于语音识别的声控提词器系统,其特征在于:包括
显示模块,用于显示文稿内容数据;
语音接收模块,用于采集用户语音数据;
文稿存储模块,用于存储文稿内容数据;
指令存储模块,用于存储内部语音数据及与内部语音数据对应的指令数据;
比对模块,用于比对当前采集到的用户语音数据与当前显示的文稿内容数据的相似度S1,若S1≥Q1,则文稿存储模块向显示模块发送下一条文稿内容数据进行显示,Q1为阈值;还用于比对当前采集到的用户语音数据与内部语音数据的相似度S2,若S2≥Q2,则执行与该内部语音数据对应的指令数据;指令存储模块内至少存储有将一文稿内容数据发送至显示模块进行显示的指令数据;
所述比对模块比对当前采集到的用户语音数据与内部语音数据的相似度S2时,先将所述用户语音数据转换为文字数据,然后将所述文字数据与文字格式的所述内部语音数据进行比对;
所述比对模块在收到当前采集到的用户语音数据时,先比对用户语音数据与内部语音数据的相似度S2,若S2≥Q2,则执行与所述内部语音数据对应的所述指令数据;若S2<Q2,则比对模块,比对当前采集到的用户语音数据与当前显示的文稿内容数据的相似度S1;
提示模块,所述提示模块与所述比对模块连接,用于根据所述比对模块产生的控制信号发出提示数据;其中,若S2<Q2,则所述比对模块控制所述提示模块发出短促的提示音;若S1<Q1,则所述比对模块控制所述提示模块发出连续的提示音,并控制所述显示模块改变当前显示的文稿内容颜色。
2.按照权利要求1所述的基于语音识别的声控提词器系统,其特征在于:所述相似度S1,0≤S1≤1,所述阈值Q1,0.9≤Q1≤1。
3.按照权利要求1所述的基于语音识别的声控提词器系统,其特征在于:所述相似度S2,0≤S2≤1,所述阈值Q2,0.9≤Q2≤1。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910542152.7A CN110164442B (zh) | 2019-06-21 | 2019-06-21 | 基于语音识别的声控提词器系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910542152.7A CN110164442B (zh) | 2019-06-21 | 2019-06-21 | 基于语音识别的声控提词器系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110164442A CN110164442A (zh) | 2019-08-23 |
CN110164442B true CN110164442B (zh) | 2020-08-18 |
Family
ID=67626490
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910542152.7A Active CN110164442B (zh) | 2019-06-21 | 2019-06-21 | 基于语音识别的声控提词器系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110164442B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111259135A (zh) * | 2019-09-02 | 2020-06-09 | 北京佳珥医学科技有限公司 | 文本的显示方法、提词器及提词系统 |
CN110737381B (zh) * | 2019-09-17 | 2020-11-10 | 广州优谷信息技术有限公司 | 一种字幕滚动控制方法、系统及装置 |
CN111917937A (zh) * | 2020-06-23 | 2020-11-10 | 广州优谷信息技术有限公司 | 提词器显示方法、装置、提词系统、操作终端和存储介质 |
CN113485595B (zh) * | 2021-07-02 | 2024-04-26 | 南京点明软件科技有限公司 | 一种适用于盲人进行录音的提词器系统 |
CN113703579B (zh) * | 2021-08-31 | 2023-05-30 | 北京字跳网络技术有限公司 | 数据处理方法、装置、电子设备及存储介质 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102036051A (zh) * | 2010-12-20 | 2011-04-27 | 华为终端有限公司 | 实现视频会议中提词的方法以及装置 |
WO2013049772A1 (en) * | 2011-09-30 | 2013-04-04 | Phillip Butts | Systems and methods for contact management and referral engine |
CN103605468A (zh) * | 2013-11-14 | 2014-02-26 | 武汉虹翼信息有限公司 | 一种电子书籍控制装置及其控制交互方法 |
CN104796584A (zh) * | 2015-04-23 | 2015-07-22 | 南京信息工程大学 | 具有语音识别功能的提词装置 |
CN109089018A (zh) * | 2018-10-29 | 2018-12-25 | 上海理工大学 | 一种智能提词装置及其方法 |
CN109639935B (zh) * | 2019-01-25 | 2020-10-13 | 合肥学院 | 视频录制自动提词方法及计算机可读存储介质 |
-
2019
- 2019-06-21 CN CN201910542152.7A patent/CN110164442B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN110164442A (zh) | 2019-08-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110164442B (zh) | 基于语音识别的声控提词器系统 | |
CN110991381B (zh) | 一种基于行为和语音智能识别的实时课堂学生状态分析与指示提醒系统和方法 | |
US11151892B2 (en) | Internet teaching platform-based following teaching system | |
CN109801193B (zh) | 一种具有语音评价功能的跟随教学系统 | |
CN111883110B (zh) | 语音识别的声学模型训练方法、系统、设备及介质 | |
Thieberger | The Oxford handbook of linguistic fieldwork | |
CN110488975B (zh) | 一种基于人工智能的数据处理方法及相关装置 | |
US20120251992A1 (en) | Method and system for improving the quality of teaching through analysis using a virtual teaching device | |
CN205264127U (zh) | 一种多功能英语学习机 | |
CN109889881B (zh) | 一种教师课堂教学数据采集系统 | |
CN111027584A (zh) | 一种课堂行为识别方法及设备 | |
CN105224073A (zh) | 一种基于语音控制的点读手表及其点读方法 | |
CN106128188A (zh) | 桌面教育专注度分析系统及其分析方法 | |
WO2005027092A1 (ja) | 文書作成閲覧方法、文書作成閲覧装置、文書作成閲覧ロボットおよび文書作成閲覧プログラム | |
CN109271585A (zh) | 一种信息推送方法及家教设备 | |
CN110085068A (zh) | 一种基于图像识别的学习辅导方法及装置 | |
CN110929875A (zh) | 基于机器学习的智能语言学习方法、系统、装置及介质 | |
CN111415537A (zh) | 一种基于符号标注的中小学生听词系统 | |
CN109064787A (zh) | 一种点读设备 | |
CN109657096A (zh) | 一种基于低学龄教学音视频的辅助统计报告生成方法 | |
CN116959433A (zh) | 文本处理方法、装置、电子设备和存储介质 | |
Ahn et al. | Annotating prosody with PoLaR: Conventions for a decompositional annotation system | |
CN104112374A (zh) | 远端教学评分装置及方法 | |
CN113254752B (zh) | 基于大数据的备课方法、装置及存储介质 | |
CN110751867B (zh) | 英文教学系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CP01 | Change in the name or title of a patent holder |
Address after: Room B381, 588 Tianlin East Road, Xuhui District, Shanghai 200000 Patentee after: Shanghai squirrel classroom Artificial Intelligence Technology Co., Ltd Address before: Room B381, 588 Tianlin East Road, Xuhui District, Shanghai 200000 Patentee before: SHANGHAI YIXUE EDUCATION TECHNOLOGY Co.,Ltd. |
|
CP01 | Change in the name or title of a patent holder |