CN105895085A - 一种多媒体转写方法和系统 - Google Patents

一种多媒体转写方法和系统 Download PDF

Info

Publication number
CN105895085A
CN105895085A CN201610200600.1A CN201610200600A CN105895085A CN 105895085 A CN105895085 A CN 105895085A CN 201610200600 A CN201610200600 A CN 201610200600A CN 105895085 A CN105895085 A CN 105895085A
Authority
CN
China
Prior art keywords
powerpoint
node
transcription
key message
page
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610200600.1A
Other languages
English (en)
Other versions
CN105895085B (zh
Inventor
王金钖
胡尹
潘青华
胡国平
胡郁
刘庆峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xun Feizhi Metamessage Science And Technology Ltd
Original Assignee
iFlytek Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by iFlytek Co Ltd filed Critical iFlytek Co Ltd
Priority to CN201610200600.1A priority Critical patent/CN105895085B/zh
Publication of CN105895085A publication Critical patent/CN105895085A/zh
Application granted granted Critical
Publication of CN105895085B publication Critical patent/CN105895085B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Telephonic Communication Services (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明提供一种多媒体转写方法,应用于多媒体转写系统中,包括以下步骤:S1、接收演示文稿,并构建所述演示文稿的关键信息树;S2、接收语音数据,并对所述语音数据进行语音识别,得到所述语音数据的转写文本;S3、通过所述关键信息树将所述语音数据和所述转写文本与所述演示文稿进行同步;S4、将同步后带有所述语音数据和所述转写文本的演示文稿显示给用户。用户在看演示文稿时可以同时听到演讲人的声音,看到演讲人声音转写的文本;进一步地,根据每页演示文稿包含的子主题对转写文本分段,同一个子主题的转写文本作为一段,不同子主题的转写文本作为不同的段,可以方便用户理解转写文本,进一步提高了用户体验。

Description

一种多媒体转写方法和系统
技术领域
本发明涉及语音信号处理领域,特别是涉及一种多媒体转写方法和系统。
背景技术
近年来,随着语音识别技术的快速发展,自动语音识别相关产品已广泛应用于各行各业,将语音转成文本,大大方便了人们的生活需求,如将会议录音转成相应文本,方便会议秘书后续查询会议信息或辅助其撰写会议纪要;或者将采访录音转成相应文本,在此基础上编辑成稿等。然而,上述应用都仅仅是将录音转成文本,并不能同步看到语音数据对应的演示文稿,尤其是演示文稿中存在重要信息,而所述重要信息不存在转写结果中时,用户必须根据语音数据或转写文本查找相应的演示文稿,如果演示文稿量较多时,很难快速查找到与转写文本对应的演示文稿,从而降低了用户体验;如录制的语音数据是老师的课堂教学录音,老师在课堂上经常会给出各种参考资料或其相应链接,或知识点讲解时的演示操作,这些内容在语音数据或转写文本数据中经常无法找到,学生必须要到转写文本对应的演示文稿中才可查看。
现有的转写系统一般将录制的语音数据直接转写成文本数据显示给用户,当用户在查看转写文本时,看不到相应的演示文稿,当有些重要的信息只存在演示文稿时,如图片中包含的重要链接;用户必须要根据录制的语音数据或转写文本自己查找相应的演示文稿,用户体验较差,同时也不能做到,随时查看转写文本的同时查看相应演示文稿,尤其是当演示文稿较多时,很难快速找到与转写文本对应的演示文稿。
发明内容
鉴于以上所述现有技术的缺点,本发明的目的在于提供一种多媒体转写方法,应用于多媒体转写系统中,包括以下步骤:S1、接收演示文稿,并构建所述演示文稿的关键信息树;S2、接收语音数据,并对所述语音数据进行语音识别,得到所述语音数据的转写文本;S3、通过所述关键信息树将所述语音数据和所述转写文本与所述演示文稿进行同步;S4、将同步后带有所述语音数据和所述转写文本的演示文稿显示给用户。
于本发明的一实施例中,所述步骤S2还包括步骤:S21、对所述语音数据进行端点检测,得到所述语音数据有效语音段的起始点和结束点;S22、对所述语音段的特征进行提取;S23、根据所述特征和预先训练的声学模型及语言模型进行解码操作;S24、根据解码结果获取所述语音数据对应的所述转写文本和所述转写文本置信度。
于本发明的一实施例中,所述步骤S1包括步骤:S11、提取每一页所述演示文稿中包含的关键信息;S12、根据所述关键信息构建所述演示文稿关键信息树。
于本发明的一实施例中,所述步骤S12中还包括步骤:S121、获取所述演示文稿的提纲信息,得到整个所述演示文稿之间的链接关系;S122、将每页所述演示文稿作为所述关键信息树的一个节点,所述演示文稿之间的链接关系作为所述节点之间的边,形成所述演示文稿的树结构;S123、将所述关键信息分别添加到相应的所述节点上,得到所述演示文稿的关键信息树。
于本发明的一实施例中,所述步骤S3还包括步骤:S31、获取所述演示文稿的翻页时间点;S32、将所述关键信息树转换成关键信息图;S33、根据所述翻页时间点和所述关键信息图对所述转写文本进行分页调整和分段显示。
于本发明的一实施例中,所述步骤S32还包括步骤:S321、构建所述节点中的父节点与子节点之间的翻页出弧;S322、构建相同所述父节点的所有所述子节点之间的翻页出弧;S323、构建相邻所述父节点之间的翻页出弧;S324、构建终止节点以及所述终止节点与开始节点之间的翻页出弧。
于本发明的一实施例中,所述步骤S33还包括步骤:S331、将所述关键信息图中的根节点激活,并将所述激活节点保存为当前活动节点;S332、接收当前页的所述演示文稿的翻页时间点和对应的每个所述有效语音段的所述转写文本;S333、遍历当前活动节点对应的出弧,并将接收的所述转写文本与所述出弧上的关键信息进行匹配,并判断匹配是否成功;若成功,则将对应的节点激活并记录为当前活动节点,并进入步骤S334;若失败,则进入步骤S335;S334、根据匹配结果,对所述转写文本进行分段显示,与同一关键信息相匹配的转写文本放入同一段中,与不同关键信息相匹配的转写文本放入不同段中中,并进入步骤S335;S335、判断当前所述转写文本的对应时间点是否到达当前页的所述演示文稿的翻页时间点;若是,则进入步骤S336;若否,则返回步骤S332;S336、判断当前活动节点是否包含翻页出弧;若不包含,则进入步骤S337;若包含,则进入步骤S338;S337、判断当前活动节点的出弧是否指向终止节点;若是,则所有所述演示文稿与所述转写文本的同步完成;若否,则进入步骤S338;S338、判断当前接收的所述转写文本的语义是否完整;若是,则将当前的所述转写文本作为当前页最后一个所述有效语音段的转写文本,当前页演示文稿与转写文本的同步完成,进入S339;若否,则对所述转写文本进行调整,调整后当前页演示文稿与转写文本的同步完成,进入S339;S339、将下一页演示文稿作为当前页,返回步骤S332。
本发明还提供了一种多媒体转写系统,包括:构建模块,用于接收演示文稿,并构建所述演示文稿的关键信息树;转写模块,用于接收语音数据,并对所述语音数据进行语音识别,得到所述语音数据的转写文本;同步模块,用于通过所述关键信息树将所述语音数据和所述转写文本与所述演示文稿进行同步;显示模块,用于将所述同步模块同步后带有所述语音数据和所述转写文本的演示文稿显示给用户。
于本发明的一实施例中,所述转写模块还包括:检测单元,用于对所述语音数据进行端点检测,得到所述语音数据有效语音段的起始点和结束点;特征提取单元,用于对所述语音段的特征进行提取;解码单元,用于根据所述特征和预先训练的声学模型及语言模型进行解码操作;转写结果获取单元,用于根据解码结果获取所述语音数据对应的所述转写文本和所述转写文本置信度。
于本发明的一实施例中,所述构建模块还包括:提取单元,用于提取每一页所述演示文稿中包含的关键信息;构建单元,用于根据所述关键信息构建所述演示文稿关键信息树。
于本发明的一实施例中,所述构建单元还包括:获取子单元,用于获取所述演示文稿的提纲信息,得到整个所述演示文稿之间的链接关系;构建子单元,用于将每页所述演示文稿作为所述关键信息树的一个节点,所述演示文稿之间的链接关系作为所述节点之间的边,形成所述演示文稿的树结构;还用于将所述关键信息分别添加到相应的所述节点上,得到所述演示文稿的关键信息树。
于本发明的一实施例中,所述同步模块还包括:时间点获取单元,用于获取所述演示文稿的翻页时间点;转换单元,用于将所述关键信息树转换成关键信息图;同步单元,用于根据所述翻页时间点和所述关键信息图对所述转写文本进行分页调整和分段显示。
于本发明的一实施例中,所述转换单元还用于构建所述节点中的父节点与子节点之间的翻页出弧、相同所述父节点的所有所述子节点之间的翻页出弧、相邻所述父节点之间的翻页出弧,还用于构建终止节点以及所述终止节点与开始节点之间的翻页出弧。
于本发明的一实施例中,所述同步单元包括:节点激活子单元,用于将所述关键信息图中的根节点激活,并将所述激活节点保存为当前活动节点;接收子单元,用于接收当前页的所述演示文稿的翻页时间点和对应的每个所述有效语音段的所述转写文本;匹配子单元,用于遍历当前活动节点对应的出弧,并将接收的所述转写文本与所述出弧上的关键信息进行匹配,并判断匹配是否成功;若成功,则将对应的节点激活并记录为当前活动节点;分段显示子单元,用于根据匹配结果,对所述转写文本进行分段显示,与同一关键信息相匹配的转写文本放入同一段中,与不同关键信息相匹配的转写文本放入不同段中;时间点判断子单元,用于判断当前所述转写文本的对应时间点是否到达当前页的所述演示文稿的翻页时间点;翻页出弧判断子单元,用于判断当前活动节点是否包含翻页出弧;终止节点判断子单元,用于判断当前活动节点的出弧是否指向终止节点;若是,则所有所述演示文稿与所述转写文本的同步完成;语义判断子单元,用于判断当前接收的所述转写文本的语义是否完整;若是,则将当前的所述转写文本作为当前页最后一个所述有效语音段的转写文本,当前页演示文稿与转写文本的同步完成;若否,则对所述转写文本的语义进行调整,调整后当前页演示文稿与转写文本的同步完成;同步子单元,用于将下一页演示文稿作为当前页,并开始下一页演示文稿的同步。
如上所述,本发明的一种多媒体转写方法和系统,具有以下有益效果:
用户在看演示文稿时可以同时听到演讲人的声音,看到演讲人声音转写的文本;进一步地,根据每页演示文稿包含的子主题对转写文本分段,同一个子主题的转写文本作为一段,不同子主题的转写文本作为不同的段,可以方便用户理解转写文本,进一步提高了用户体验。
附图说明
图1显示为本发明多媒体转写方法一实施例的系统流程示意图。
图2显示为本发明多媒体转写系统一实施例的系统框架示意图。
图3显示为本发明中关键信息树的一实施例的示意图。
图4显示为本发明中关键信息图的一实施例的示意图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
参见图1,图1显示为本发明多媒体转写方法一实施例的系统流程示意图。本发明提供了一种多媒体转写方法,应用于多媒体转写系统中,多媒体转写系统指包含演示文稿、演讲人的语音数据及语音数据转写文本的系统,多媒体转写系统可以将演讲人的语音数据、演讲人语音数据的转写文本及演示文稿进行同步,方便用户在查看转写文本的同时,查看相应演示文稿。演示文稿指用于各种演示的文稿,可以为纸质文稿,也可以为电子文稿,纸质文稿一般可以通过拍照显示到屏幕上,如老师上课时的演示课本,电子文稿如PPT、各种演示图片等;当然,系统不仅可以用于演讲结束后,用户对演讲内容的查询,也可以用于允许短时延时的演讲直播中,用户可以现场或远程以接近直播的形式看到演讲内容、听到演讲语音数据,看到演讲语音数据的转写结果。
本发明提供的多媒体转写方法包括以下步骤:
S1、接收演示文稿,并构建演示文稿的关键信息树;具体地在开始时接收演示文稿,构建演示文稿的关键信息树,关键信息树包含了演示文稿的关键信息,关键信息可以是每页演示文稿的子主题和相应子主题的关键词。在本发明的一实施例中,步骤S1包括步骤:S11、提取每一页演示文稿中包含的关键信息。具体提取时,可以根据演示文稿包含的文本信息进行语义理解,提取关键信息,关键信息包含每页演示文稿的子主题及子主题对应的关键词,每个子主题可以提取一到多个关键词。例如一页演示文稿的文本内容包括的主题为“‘十二五’先进制造领域整体布局”;子主题为“3+2个专项”和“5个主题”;子主题“3+2个专项”包括项目“智能制造”、“绿色制造”、“服务机器人”和“+数控一代”、“制造业信息化”;子主题“5个主题”包括项目“重大装备与工艺”、“系统控制”、“制造服务”、“微机电系统”和“智能机器人”。例如对每个子主题提取的关键词信息如下:子主题“3+2个专项”的关键词:3+2,服务机器人,制造业信息化;子主题“5个主题”的关键词:重大装备与工艺,智能机器人。S12、根据关键信息构建演示文稿关键信息树。优选地,步骤S12中还包括步骤:S121、获取演示文稿的提纲信息,得到整个演示文稿之间的链接关系;提纲信息一般根据演示文稿的结构得到,如演示文稿为PPT时,则可以直接根据PPT的结构得到,演示文稿为书本时,可以根据目录得到。S122、将每页演示文稿作为关键信息树的一个节点,演示文稿之间的链接关系作为节点之间的边,形成演示文稿的树结构;S123、将关键信息分别添加到相应的节点上,得到演示文稿的关键信息树。例如,图3显示为本发明中关键信息树的一实施例的示意图。图中显示了主题为“机器人”的演示文稿形成的关键信息树。如图3所示,根据上例机器人演示文稿得到的关键信息树,每个节点均设置有对应的关键信息节点。
S2、接收语音数据,并对语音数据进行语音识别,得到语音数据的转写文本;在本发明的一实施例中,步骤S2还包括步骤:S21、对语音数据进行端点检测,得到语音数据有效语音段的起始点和结束点;S22、对语音段的特征进行提取;如MFCC(Mel Frequency CepstrumCoefficient,MFCC)特征。S23、根据特征和预先训练的声学模型及语言模型进行解码操作;S24、根据解码结果获取语音数据对应的转写文本和转写文本置信度。
S3、通过关键信息树将语音数据和转写文本与演示文稿进行同步;演讲语音数据、转写文本与演示文稿的同步过程即将演讲人演讲的语音数据、转写文本与每页演示文稿进行对齐,当演讲人对演示文稿翻页时,演讲语音数据和转写文本进行相应的分页。具体同步时,先采用介入式或非介入式的方法获取演讲人的翻页时间点信息,根据时间点信息及构建的演示文稿关键信息树,对语音数据、转写文本及演示文稿进行同步,同时将转写文本根据每页演示文稿的子主题进行分段。在本发明的一实施例中,步骤S3还包括步骤:
S31、获取演示文稿的翻页时间点;翻页时间点即当前演示文稿讲解结束后,翻到下一页的时间点,利用时间点信息对演示文稿和演讲语音数据及相应转写文本进行同步后,需要根据关键信息树及翻页时间点对演示文稿与转写文本的同步结果进行调整,利用调整后的时间点对演示文稿与演讲语音数据进行再次同步。翻页时间点的获取可以采用介入式或非介入式两种方法,由于翻页时间点直接影响同步的结果,所以也可以采用两种方法的结合来获取翻页时间点,具体如下:介入式获取方法需要在演讲人演讲时使用的计算机上安装系统事件捕捉程序,用于捕捉演示文稿的翻页事件,每次触发翻页事件时,保存当前的翻页时间点;非介入式获取方法指无法在演讲人演讲时使用的计算机上安装系统事件捕捉程序时使用的方法,具体可以通过在演示文稿前面设置相应的摄像机来捕捉翻页事件,当演示文稿翻页时,保存当前的翻页时间点。获取到演示文稿的翻页时间点后,将时间点对应到演讲语音数据上,从而得到每页演示文稿对应的演讲语音数据及相应语音数据的转写文本。
S32、将关键信息树转换成关键信息图;关键信息图主要用于演示文稿与转写文本的同步调整,及每页演示文稿对应转写文本的分段显示,关键信息图包含了演示文稿的关键信息,即演示文稿的子主题及子主题相应的关键词;在同步时,根据演示文稿的子主题分段显示转写文本。如图4所示,图4显示为本发明中关键信息图的一实施例的示意图。图中显示了主题为“机器人”的演示文稿中的关键信息树转换后形成的关键信息图,其中“[翻页]”表示翻页出弧。具体地,步骤S32还包括步骤:S321、构建节点中的父节点与子节点之间的翻页出弧;将关键信息树中每个节点的关键信息节点包含的关键词信息放到每个节点的入弧上;同时,将每个父节点到其第一个子节点的边标识为翻页出弧,如图4中“机器人介绍”节点到其第一个子节点“机器人的发展史”的边被标识为翻页出弧。S322、构建相同父节点的所有子节点之间的翻页出弧;即将关键信息树中相同的父节点的子节点之间增加一翻页出弧,并将子节点的关键词信息放到翻页出弧上。S323、构建相邻父节点之间的翻页出弧;在对应同一个父节点的所有子节点中最后一个子节点与下一个父节点之间设置一个翻页出弧,并将对应两个父节点的关键词信息放在此翻页出弧上。具体地,找到关键信息树中所有的叶子节点,在属于同一个父节点的叶子节点中的最后一个叶子节点上分别增加该叶子节点到其父节点的下一个兄弟节点的出弧,如图4中,增加“第三代机器人”节点到“现代机器人的发展”节点的出弧,并将父节点兄弟节点的关键词信息放到新增加的弧上,同时标识该弧为翻页出弧。如果父节点后面没有兄弟节点,则不需要增加出弧,如图4中“机器人的发展方向”节点后面没有兄弟节点了,则该节点下的最后一个叶子节点不需要增加出弧。S324、构建终止节点以及终止节点与开始节点之间的翻页出弧。首先增加终止节点,终止节点可以使用end节点标示,在所有子节点增加一条出弧指向终止节点,并在终止节点增加一条翻页出弧指向开始节点。即,所有叶子节点增加一条出弧,指向end节点,end节点增加一条弧指向start节点,start节点为关键信息树的根节点,标识end节点增加一条弧指向start节点的弧为翻页出弧。
S33、根据翻页时间点和关键信息图对转写文本进行分页调整和分段显示。为了保持每页转写文本语义的完整性,需要对根据演示文稿翻页时间点得到的转写文本进行分页调整,同时为了方便用户理解,需要对对调整后的转写文本进行分段显示。具体地,步骤S33还包括步骤:S331、将关键信息图中的根节点激活,即将图4中的start节点激活,并将激活节点保存为当前活动节点。S332、接收当前页的演示文稿的翻页时间点和对应的每个有效语音段的转写文本;通常以有效语音段为单位,依次接收当前页演示文稿对应的每个有效语音的转写文本,及当前页演示文稿翻页时间点。S333、遍历当前活动节点对应的出弧,并将接收的转写文本与出弧上的关键信息进行匹配,并判断匹配是否成功;若成功,则将对应的节点激活并记录为当前活动节点,并进入步骤S334;若失败,则进入步骤S335;S334、根据匹配结果,对转写文本进行分段显示,与同一关键信息相匹配的转写文本放入同一段中,与不同关键信息相匹配的转写文本放入不同段中,并进入步骤S335;S335、判断当前转写文本的对应时间点是否到达当前页的演示文稿的翻页时间点;若是,则进入步骤S336;若否,则返回步骤S332;S336、判断当前活动节点是否包含翻页出弧;若不包含,则进入步骤S337;若包含,则进入步骤S338;S337、判断当前活动节点的出弧是否指向终止节点;若是,则所有演示文稿与转写文本的同步完成;同时,将关键信息图保存的记录清空,将所有转写文本分页分段与演示文稿同步显示出来;若否,则进入步骤S338;S338、判断当前接收的转写文本的语义是否完整;若是,则将当前的转写文本作为当前页最后一个有效语音段的转写文本,当前页演示文稿与转写文本的同步完成,进入步骤S339;若否,则对转写文本的语义进行调整,调整后即当前页的演示文稿与转写文本的同步完成,进入步骤S339;S339、将下一页演示文稿作为当前页,返回步骤S332,开始下一页演示文稿的同步。判断转写文本语义是否完整主要判断当前演示文稿翻页时间点位置是否是转写文本整句结束位置,即当前转写文本是否是在句子中间被切断。在本发明的一优选实施例中,具体判断时,可以根据当前转写文本的置信度得分判断,分别计算当前转写文本的置信度得分,及将翻页时间点后一个有效语音段的转写文本与当前转写文本一起的置信度得分,如果后者置信度得分较低,则认为当前转写文本语义完整;如果后者得分较高,并且得分超过阈值,则认为当前转写文本语义不完整,需要调整,具体调整时,可以根据翻页时间点后一有效语音段转写文本与当前转写文本的置信度,将当前页的翻页时间点调整为当前转写文本后一有效语音段的转写文本结束位置,同时调整转写文本对应语音数据的翻页时间点。当然,也可以采用其它方法进行判断,如根据当前转写文本对应的语音数据上判断,判断语音数据翻页时间点前后的声学变化,或连续性,再结合转写文本的置信度来判断语义的完整性。
S4、将同步后带有语音数据和转写文本的演示文稿显示给用户。同步显示后,使用户在看演示文稿时可以同时听到演讲人的声音,看到演讲人声音转写的文本,大大提高了用户体验;进一步地,为了方便用户理解转写文本,本发明的多媒体转写方法根据每页演示文稿包含的子主题对转写文本分段,同一个子主题的转写文本作为一段,不同子主题的转写文本作为不同的段,进一步提高了用户体验。
如图2所示,图2显示为本发明多媒体转写系统一实施例的系统框架示意图。本发明还提供了一种多媒体转写系统,包括:
构建模块,用于接收演示文稿,并构建演示文稿的关键信息树;具体地在开始时构建模块接收演示文稿,构建演示文稿的关键信息树,关键信息树包含了演示文稿的关键信息,关键信息可以是每页演示文稿的子主题和相应子主题的关键词。在本发明的一实施例中,构建模块还包括:提取单元,用于提取每一页演示文稿中包含的关键信息;构建单元,用于根据关键信息构建演示文稿关键信息树。具体提取时,提取单元可以根据演示文稿包含的文本信息进行语义理解,提取关键信息,关键信息包含每页演示文稿的子主题及子主题对应的关键词,每个子主题可以提取一到多个关键词。例如一页演示文稿的文本内容包括的主题为“‘十二五’先进制造领域整体布局”;子主题为“3+2个专项”和“5个主题”;子主题“3+2个专项”包括项目“智能制造”、“绿色制造”、“服务机器人”和“+数控一代”、“制造业信息化”;子主题“5个主题”包括项目“重大装备与工艺”、“系统控制”、“制造服务”、“微机电系统”和“智能机器人”。例如对每个子主题提取的关键词信息如下:子主题“3+2个专项”的关键词:3+2,服务机器人,制造业信息化;子主题“5个主题”的关键词:重大装备与工艺,智能机器人。优选地,构建单元还包括:获取子单元,用于获取演示文稿的提纲信息,得到整个演示文稿之间的链接关系;构建子单元,用于将每页演示文稿作为关键信息树的一个节点,演示文稿之间的链接关系作为节点之间的边,形成演示文稿的树结构;还用于将关键信息分别添加到相应的节点上,得到演示文稿的关键信息树。例如,图3显示为本发明中关键信息树的一实施例的示意图。图中显示了主题为“机器人”的演示文稿形成的关键信息树。如图3所示,根据上例机器人演示文稿得到的关键信息树,每个节点均设置有对应的关键信息节点。
转写模块,用于接收语音数据,并对语音数据进行语音识别,得到语音数据的转写文本;在本发明的一实施例中,转写模块还包括:检测单元,用于对语音数据进行端点检测,得到语音数据有效语音段的起始点和结束点;特征提取单元,用于对语音段的特征进行提取;如MFCC(Mel Frequency Cepstrum Coefficient,MFCC)特征。解码单元,用于根据特征和预先训练的声学模型及语言模型进行解码操作;转写结果获取单元,用于根据解码结果获取语音数据对应的转写文本和转写文本置信度。
同步模块,用于通过关键信息树将语音数据和转写文本与演示文稿进行同步;演讲语音数据、转写文本与演示文稿的同步过程即将演讲人演讲的语音数据、转写文本与每页演示文稿进行对齐,当演讲人对演示文稿翻页时,演讲语音数据和转写文本进行相应的分页。具体同步时,先采用介入式或非介入式的方法获取演讲人的翻页时间点信息,根据时间点信息及构建的演示文稿关键信息树,对语音数据、转写文本及演示文稿进行同步,同时将转写文本根据每页演示文稿的子主题进行分段。在本发明的一实施例中,同步模块还包括:时间点获取单元,用于获取演示文稿的翻页时间点;转换单元,用于将关键信息树转换成关键信息图;同步单元,用于根据翻页时间点和关键信息图对转写文本进行分页调整和分段显示。翻页时间点即当前演示文稿讲解结束后,翻到下一页的时间点,利用时间点信息对演示文稿和演讲语音数据及相应转写文本进行同步后,需要根据关键信息树及翻页时间点对演示文稿与转写文本的同步结果进行调整,利用调整后的时间点对演示文稿与演讲语音数据进行再次同步。翻页时间点的获取可以采用介入式或非介入式两种方法,由于翻页时间点直接影响同步的结果,所以也可以采用两种方法的结合来获取翻页时间点,具体如下:介入式获取方法需要在演讲人演讲时使用的计算机上安装系统事件捕捉程序,用于捕捉演示文稿的翻页事件,每次触发翻页事件时,保存当前的翻页时间点;非介入式获取方法指无法在演讲人演讲时使用的计算机上安装系统事件捕捉程序时使用的方法,具体可以通过在演示文稿前面设置相应的摄像机来捕捉翻页事件,当演示文稿翻页时,保存当前的翻页时间点。获取到演示文稿的翻页时间点后,将时间点对应到演讲语音数据上,从而得到每页演示文稿对应的演讲语音数据及相应语音数据的转写文本。关键信息图主要用于演示文稿与转写文本的同步调整,及每页演示文稿对应转写文本的分段显示,关键信息图包含了演示文稿的关键信息,即演示文稿的子主题及子主题相应的关键词;在同步时,根据演示文稿的子主题分段显示转写文本。如图4所示,图4显示为本发明中关键信息图的一实施例的示意图。图中显示了主题为“机器人”的演示文稿中的关键信息树转换后形成的关键信息图,其中“[翻页]”表示翻页出弧。具体地,转换单元还用于构建节点中的父节点与子节点之间的翻页出弧,如图4中“机器人介绍”节点到其第一个子节点“机器人的发展史”的边被标识为翻页出弧。转换单元还用于构建相同父节点的所有子节点之间的翻页出弧,即将关键信息树中相同的父节点的子节点之间增加一翻页出弧,并将子节点的关键词信息放到翻页出弧上。转换单元还用于构建相邻父节点之间的翻页出弧,在对应同一个父节点的所有子节点中最后一个子节点与下一个父节点之间设置一个翻页出弧,并将对应两个父节点的关键词信息放在此翻页出弧上。具体地,找到关键信息树中所有的叶子节点,在属于同一个父节点的叶子节点中的最后一个叶子节点上分别增加该叶子节点到其父节点的下一个兄弟节点的出弧,如图4中,增加“第三代机器人”节点到“现代机器人的发展”节点的出弧,并将父节点兄弟节点的关键词信息放到新增加的弧上,同时标识该弧为翻页出弧。如果父节点后面没有兄弟节点,则不需要增加出弧,如图4中“机器人的发展方向”节点后面没有兄弟节点了,则该节点下的最后一个叶子节点不需要增加出弧。转换单元还用于构建终止节点以及终止节点与开始节点之间的翻页出弧。首先增加终止节点,终止节点可以使用end节点标示,在所有子节点增加一条出弧指向终止节点,并在终止节点增加一条翻页出弧指向开始节点。即,所有叶子节点增加一条出弧,指向end节点,end节点增加一条弧指向start节点,start节点为关键信息树的根节点,标识end节点增加一条弧指向start节点的弧为翻页出弧。同步单元在进行同步时,为了保持每页转写文本语义的完整性,需要对根据演示文稿翻页时间点得到的转写文本进行分页调整,同时为了方便用户理解,需要对调整后的转写文本进行分段显示。具体地,同步单元包括:节点激活子单元,用于将关键信息图中的根节点激活,并将激活节点保存为当前活动节点;即将图4中的节点激活,并将激活节点保存为当前活动节点。接收子单元,用于接收当前页的演示文稿的翻页时间点和对应的每个有效语音段的转写文本;通常以有效语音段为单位,依次接收当前页演示文稿对应的每个有效语音的转写文本,及当前页演示文稿翻页时间点。匹配子单元,用于遍历当前活动节点对应的出弧,并将接收的转写文本与出弧上的关键信息进行匹配,并判断匹配是否成功;若成功,则将对应的节点激活并记录为当前活动节点;分段显示子单元,用于根据匹配结果,对转写文本进行分段显示,与同一关键信息相匹配的转写文本放入同一段中,与不同关键信息相匹配的转写文本放入不同段中;时间点判断子单元,用于判断当前转写文本的对应时间点是否到达当前页的演示文稿的翻页时间点;翻页出弧判断子单元,用于判断当前活动节点是否包含翻页出弧;终止节点判断子单元,用于判断当前活动节点的出弧是否指向终止节点;若是,则所有演示文稿与转写文本的同步完成;同时,将关键信息图保存的记录清空,将所有转写文本分页分段与演示文稿同步显示出来。语义判断子单元,用于判断当前接收的所述转写文本的语义是否完整;若是,则将当前的所述转写文本作为当前页最后一个所述有效语音段的转写文本,当前页演示文稿与转写文本的同步完成;若否,则对所述转写文本的语义进行调整,调整后当前页演示文稿与转写文本的同步完成;同步子单元,用于将下一页演示文稿作为当前页,并开始下一页演示文稿的同步。判断转写文本语义是否完整主要判断当前演示文稿翻页时间点位置是否是转写文本整句结束位置,即当前转写文本是否是在句子中间被切断。在本发明的一优选实施例中,具体判断时,可以根据当前转写文本的置信度得分判断,分别计算当前转写文本的置信度得分,及将翻页时间点后一个有效语音段的转写文本与当前转写文本一起的置信度得分,如果后者置信度得分较低,则认为当前转写文本语义完整;如果后者得分较高,并且得分超过阈值,则认为当前转写文本语义不完整,需要调整,具体调整时,可以根据翻页时间点后一有效语音段转写文本与当前转写文本的置信度,将当前页的翻页时间点调整为当前转写文本后一有效语音段的转写文本结束位置,同时调整转写文本对应语音数据的翻页时间点。当然,也可以采用其它方法进行判断,如根据当前转写文本对应的语音数据上判断,判断语音数据翻页时间点前后的声学变化,或连续性,再结合转写文本的置信度来判断语义的完整性。
显示模块,用于将同步模块同步后带有语音数据和转写文本的演示文稿显示给用户。同步显示后,使用户在看演示文稿时可以同时听到演讲人的声音,看到演讲人声音转写的文本,大大提高了用户体验;进一步地,为了方便用户理解转写文本,本发明的多媒体转写方法根据每页演示文稿包含的子主题对转写文本分段,同一个子主题的转写文本作为一段,不同子主题的转写文本作为不同的段,进一步提高了用户体验。
综上所述,本发明的一种多媒体转写方法和系统,使用户在看演示文稿时可以同时听到演讲人的声音,看到演讲人声音转写的文本,大大提高了用户体验;进一步地,为了方便用户理解转写文本,本发明的多媒体转写方法根据每页演示文稿包含的子主题对转写文本分段,同一个子主题的转写文本作为一段,不同子主题的转写文本作为不同的段,进一步提高了用户体验。所以,本发明有效克服了现有技术中的种种缺点而具高度产业利用价值。
上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本发明的权利要求所涵盖。

Claims (14)

1.一种多媒体转写方法,应用于多媒体转写系统中,其特征在于,包括以下步骤:
S1、接收演示文稿,并构建所述演示文稿的关键信息树;
S2、接收语音数据,并对所述语音数据进行语音识别,得到所述语音数据的转写文本;
S3、通过所述关键信息树将所述语音数据和所述转写文本与所述演示文稿进行同步;
S4、将同步后带有所述语音数据和所述转写文本的演示文稿显示给用户。
2.根据权利要求1所述的多媒体转写方法,其特征在于,所述步骤S2还包括步骤:
S21、对所述语音数据进行端点检测,得到所述语音数据有效语音段的起始点和结束点;
S22、对所述语音段的特征进行提取;
S23、根据所述特征和预先训练的声学模型及语言模型进行解码操作;
S24、根据解码结果获取所述语音数据对应的所述转写文本和所述转写文本置信度。
3.根据权利要求2所述的多媒体转写方法,其特征在于,所述步骤S1包括步骤:
S11、提取每一页所述演示文稿中包含的关键信息;
S12、根据所述关键信息构建所述演示文稿关键信息树。
4.根据权利要求3所述的多媒体转写方法,其特征在于,所述步骤S12中还包括步骤:
S121、获取所述演示文稿的提纲信息,得到整个所述演示文稿之间的链接关系;
S122、将每页所述演示文稿作为所述关键信息树的一个节点,所述演示文稿之间的链接关系作为所述节点之间的边,形成所述演示文稿的树结构;
S123、将所述关键信息分别添加到相应的所述节点上,得到所述演示文稿的关键信息树。
5.根据权利要求4所述的多媒体转写方法,其特征在于,所述步骤S3还包括步骤:
S31、获取所述演示文稿的翻页时间点;
S32、将所述关键信息树转换成关键信息图;
S33、根据所述翻页时间点和所述关键信息图对所述转写文本进行分页调整和分段显示。
6.根据权利要求5所述的多媒体转写方法,其特征在于,所述步骤S32还包括步骤:
S321、构建所述节点中的父节点与子节点之间的翻页出弧;
S322、构建相同所述父节点的所有所述子节点之间的翻页出弧;
S323、构建相邻所述父节点之间的翻页出弧;
S324、构建终止节点以及所述终止节点与开始节点之间的翻页出弧。
7.根据权利要求6所述的多媒体转写方法,其特征在于,所述步骤S33还包括步骤:
S331、将所述关键信息图中的根节点激活,并将所述激活节点保存为当前活动节点;
S332、接收当前页的所述演示文稿的翻页时间点和对应的每个所述有效语音段的所述转写文本;
S333、遍历当前活动节点对应的出弧,并将接收的所述转写文本与所述出弧上的关键信息进行匹配,并判断匹配是否成功;若成功,则将对应的节点激活并记录为当前活动节点,并进入步骤S334;若失败,则进入步骤S335;
S334、根据匹配结果,对所述转写文本进行分段显示,与同一关键信息相匹配的转写文本放入同一段中,与不同关键信息相匹配的转写文本放入不同段中,并进入步骤S335;
S335、判断当前所述转写文本的对应时间点是否到达当前页的所述演示文稿的翻页时间点;若是,则进入步骤S336;若否,则返回步骤S332;
S336、判断当前活动节点是否包含翻页出弧;若不包含,则进入步骤S337;若包含,则进入步骤S338;
S337、判断当前活动节点的出弧是否指向终止节点;若是,则所有所述演示文稿与所述转写文本的同步完成;若否,则进入步骤S338;
S338、判断当前接收的所述转写文本的语义是否完整;若是,则将当前的所述转写文本作为当前页最后一个所述有效语音段的转写文本,当前页演示文稿与转写文本的同步完成,进入S339;若否,则对所述转写文本进行调整,调整后当前页演示文稿与转写文本的同步完成,进入S339;
S339、将下一页演示文稿作为当前页,返回步骤S332。
8.一种多媒体转写系统,其特征在于,包括:
构建模块,用于接收演示文稿,并构建所述演示文稿的关键信息树;
转写模块,用于接收语音数据,并对所述语音数据进行语音识别,得到所述语音数据的转写文本;
同步模块,用于通过所述关键信息树将所述语音数据和所述转写文本与所述演示文稿进行同步;
显示模块,用于将所述同步模块同步后带有所述语音数据和所述转写文本的演示文稿显示给用户。
9.根据权利要求8所述的多媒体转写系统,其特征在于,所述转写模块还包括:
检测单元,用于对所述语音数据进行端点检测,得到所述语音数据有效语音段的起始点和结束点;
特征提取单元,用于对所述语音段的特征进行提取;
解码单元,用于根据所述特征和预先训练的声学模型及语言模型进行解码操作;
转写结果获取单元,用于根据解码结果获取所述语音数据对应的所述转写文本和所述转写文本置信度。
10.根据权利要求9所述的多媒体转写系统,其特征在于,所述构建模块还包括:
提取单元,用于提取每一页所述演示文稿中包含的关键信息;
构建单元,用于根据所述关键信息构建所述演示文稿关键信息树。
11.根据权利要求10所述的多媒体转写系统,其特征在于,所述构建单元还包括:
获取子单元,用于获取所述演示文稿的提纲信息,得到整个所述演示文稿之间的链接关系;
构建子单元,用于将每页所述演示文稿作为所述关键信息树的一个节点,所述演示文稿之间的链接关系作为所述节点之间的边,形成所述演示文稿的树结构;还用于将所述关键信息分别添加到相应的所述节点上,得到所述演示文稿的关键信息树。
12.根据权利要求11所述的多媒体转写系统,其特征在于,所述同步模块还包括:
时间点获取单元,用于获取所述演示文稿的翻页时间点;
转换单元,用于将所述关键信息树转换成关键信息图;
同步单元,用于根据所述翻页时间点和所述关键信息图对所述转写文本进行分页调整和分段显示。
13.根据权利要求12所述的多媒体转写系统,其特征在于,所述转换单元还用于构建所述节点中的父节点与子节点之间的翻页出弧、相同所述父节点的所有所述子节点之间的翻页出弧、相邻所述父节点之间的翻页出弧,还用于构建终止节点以及所述终止节点与开始节点之间的翻页出弧。
14.根据权利要求13所述的多媒体转写系统,其特征在于,所述同步单元包括:
节点激活子单元,用于将所述关键信息图中的根节点激活,并将所述激活节点保存为当前活动节点;
接收子单元,用于接收当前页的所述演示文稿的翻页时间点和对应的每个所述有效语音段的所述转写文本;
匹配子单元,用于遍历当前活动节点对应的出弧,并将接收的所述转写文本与所述出弧上的关键信息进行匹配,并判断匹配是否成功;若成功,则将对应的节点激活并记录为当前活动节点;
分段显示子单元,用于根据匹配结果,对所述转写文本进行分段显示,与同一关键信息相匹配的转写文本放入同一段中,与不同关键信息相匹配的转写文本放入不同段中;
时间点判断子单元,用于判断当前所述转写文本的对应时间点是否到达当前页的所述演示文稿的翻页时间点;
翻页出弧判断子单元,用于判断当前活动节点是否包含翻页出弧;
终止节点判断子单元,用于判断当前活动节点的出弧是否指向终止节点;若是,则所有所述演示文稿与所述转写文本的同步完成;
语义判断子单元,用于判断当前接收的所述转写文本的语义是否完整;若是,则将当前的所述转写文本作为当前页最后一个所述有效语音段的转写文本,当前页演示文稿与转写文本的同步完成;若否,则对所述转写文本的语义进行调整,调整后当前页演示文稿与转写文本的同步完成;
同步子单元,用于将下一页演示文稿作为当前页,并开始下一页演示文稿的同步。
CN201610200600.1A 2016-03-30 2016-03-30 一种多媒体转写方法和系统 Active CN105895085B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610200600.1A CN105895085B (zh) 2016-03-30 2016-03-30 一种多媒体转写方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610200600.1A CN105895085B (zh) 2016-03-30 2016-03-30 一种多媒体转写方法和系统

Publications (2)

Publication Number Publication Date
CN105895085A true CN105895085A (zh) 2016-08-24
CN105895085B CN105895085B (zh) 2019-10-18

Family

ID=57011867

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610200600.1A Active CN105895085B (zh) 2016-03-30 2016-03-30 一种多媒体转写方法和系统

Country Status (1)

Country Link
CN (1) CN105895085B (zh)

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106303081A (zh) * 2016-09-21 2017-01-04 深圳市金立通信设备有限公司 一种分享联系人信息的方法及终端
CN106331893A (zh) * 2016-08-31 2017-01-11 科大讯飞股份有限公司 实时字幕显示方法及系统
CN107040728A (zh) * 2017-04-11 2017-08-11 广东小天才科技有限公司 一种视频时间轴生成方法及装置、用户设备
CN107749313A (zh) * 2017-11-23 2018-03-02 郑州大学第附属医院 一种自动转写与生成远程医疗会诊记录的方法
CN108153732A (zh) * 2017-12-25 2018-06-12 科大讯飞股份有限公司 一种审讯笔录的审查方法及装置
CN108281139A (zh) * 2016-12-30 2018-07-13 深圳光启合众科技有限公司 语音转写方法和装置、机器人
CN108920128A (zh) * 2018-07-12 2018-11-30 苏州思必驰信息科技有限公司 演示文稿的操作方法及系统
CN109361825A (zh) * 2018-11-12 2019-02-19 平安科技(深圳)有限公司 会议纪要记录方法、终端及计算机存储介质
CN110232111A (zh) * 2019-05-30 2019-09-13 杨钦清 一种文本显示方法、装置及终端设备
WO2019174072A1 (zh) * 2018-03-12 2019-09-19 平安科技(深圳)有限公司 智能机器人培训方法、装置、计算机设备及存储介质
CN110297965A (zh) * 2019-04-18 2019-10-01 广州视源电子科技股份有限公司 课件页面的显示及页面集的构造方法、装置、设备和介质
CN110517688A (zh) * 2019-08-20 2019-11-29 合肥凌极西雅电子科技有限公司 一种语音关联提示系统
CN110610727A (zh) * 2018-07-20 2019-12-24 上海联课智能科技有限公司 具有语音识别功能的课件录播系统
CN110853639A (zh) * 2019-10-23 2020-02-28 天津讯飞极智科技有限公司 语音转写方法及相关装置
CN111179939A (zh) * 2020-04-13 2020-05-19 北京海天瑞声科技股份有限公司 语音转写方法、语音转写装置及计算机存储介质
CN111724787A (zh) * 2019-03-04 2020-09-29 阿里巴巴集团控股有限公司 同声传译的辅助方法、装置及存储介质
CN112347740A (zh) * 2019-07-22 2021-02-09 珠海金山办公软件有限公司 一种信息处理的方法、装置、计算机存储介质及终端
WO2021070135A1 (en) * 2019-10-12 2021-04-15 International Business Machines Corporation Updating and implementing document from audio proceeding

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1794219A (zh) * 2006-01-09 2006-06-28 无锡永中科技有限公司 演示文稿的集成播放方法
US20070124142A1 (en) * 2005-11-25 2007-05-31 Mukherjee Santosh K Voice enabled knowledge system
CN101094330A (zh) * 2006-03-24 2007-12-26 国际商业机器公司 用于校正字幕的字幕校正设备和方法
CN101382937A (zh) * 2008-07-01 2009-03-11 深圳先进技术研究院 基于语音识别的多媒体资源处理方法及其在线教学系统
CN103544140A (zh) * 2012-07-12 2014-01-29 国际商业机器公司 一种数据处理方法、展示方法和相应的装置
CN104537902A (zh) * 2014-12-04 2015-04-22 华中师范大学 一种多种资源展示的交互式教学导图系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070124142A1 (en) * 2005-11-25 2007-05-31 Mukherjee Santosh K Voice enabled knowledge system
CN1794219A (zh) * 2006-01-09 2006-06-28 无锡永中科技有限公司 演示文稿的集成播放方法
CN101094330A (zh) * 2006-03-24 2007-12-26 国际商业机器公司 用于校正字幕的字幕校正设备和方法
CN101382937A (zh) * 2008-07-01 2009-03-11 深圳先进技术研究院 基于语音识别的多媒体资源处理方法及其在线教学系统
CN103544140A (zh) * 2012-07-12 2014-01-29 国际商业机器公司 一种数据处理方法、展示方法和相应的装置
CN104537902A (zh) * 2014-12-04 2015-04-22 华中师范大学 一种多种资源展示的交互式教学导图系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
马良贵: "CAI多媒体课件平台设计与实现", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106331893A (zh) * 2016-08-31 2017-01-11 科大讯飞股份有限公司 实时字幕显示方法及系统
CN106331893B (zh) * 2016-08-31 2019-09-03 科大讯飞股份有限公司 实时字幕显示方法及系统
CN106303081A (zh) * 2016-09-21 2017-01-04 深圳市金立通信设备有限公司 一种分享联系人信息的方法及终端
CN108281139A (zh) * 2016-12-30 2018-07-13 深圳光启合众科技有限公司 语音转写方法和装置、机器人
CN107040728A (zh) * 2017-04-11 2017-08-11 广东小天才科技有限公司 一种视频时间轴生成方法及装置、用户设备
CN107040728B (zh) * 2017-04-11 2019-09-13 广东小天才科技有限公司 一种视频时间轴生成方法及装置、用户设备
CN107749313B (zh) * 2017-11-23 2019-03-01 郑州大学第一附属医院 一种自动转写与生成远程医疗会诊记录的方法
CN107749313A (zh) * 2017-11-23 2018-03-02 郑州大学第附属医院 一种自动转写与生成远程医疗会诊记录的方法
CN108153732A (zh) * 2017-12-25 2018-06-12 科大讯飞股份有限公司 一种审讯笔录的审查方法及装置
CN108153732B (zh) * 2017-12-25 2021-08-03 浙江讯飞智能科技有限公司 一种审讯笔录的审查方法及装置
WO2019174072A1 (zh) * 2018-03-12 2019-09-19 平安科技(深圳)有限公司 智能机器人培训方法、装置、计算机设备及存储介质
CN108920128A (zh) * 2018-07-12 2018-11-30 苏州思必驰信息科技有限公司 演示文稿的操作方法及系统
CN110610727A (zh) * 2018-07-20 2019-12-24 上海联课智能科技有限公司 具有语音识别功能的课件录播系统
CN109361825A (zh) * 2018-11-12 2019-02-19 平安科技(深圳)有限公司 会议纪要记录方法、终端及计算机存储介质
CN111724787A (zh) * 2019-03-04 2020-09-29 阿里巴巴集团控股有限公司 同声传译的辅助方法、装置及存储介质
CN110297965A (zh) * 2019-04-18 2019-10-01 广州视源电子科技股份有限公司 课件页面的显示及页面集的构造方法、装置、设备和介质
CN110297965B (zh) * 2019-04-18 2021-07-13 广州视源电子科技股份有限公司 课件页面的显示及页面集的构造方法、装置、设备和介质
WO2020211397A1 (zh) * 2019-04-18 2020-10-22 广州视源电子科技股份有限公司 课件页面的显示及页面集的构造方法、装置、设备和介质
CN110232111A (zh) * 2019-05-30 2019-09-13 杨钦清 一种文本显示方法、装置及终端设备
CN112347740A (zh) * 2019-07-22 2021-02-09 珠海金山办公软件有限公司 一种信息处理的方法、装置、计算机存储介质及终端
CN110517688A (zh) * 2019-08-20 2019-11-29 合肥凌极西雅电子科技有限公司 一种语音关联提示系统
WO2021070135A1 (en) * 2019-10-12 2021-04-15 International Business Machines Corporation Updating and implementing document from audio proceeding
US11354920B2 (en) 2019-10-12 2022-06-07 International Business Machines Corporation Updating and implementing a document from an audio proceeding
GB2604507A (en) * 2019-10-12 2022-09-07 Ibm Updating and implementing document from audio proceeding
CN110853639A (zh) * 2019-10-23 2020-02-28 天津讯飞极智科技有限公司 语音转写方法及相关装置
CN110853639B (zh) * 2019-10-23 2023-09-01 天津讯飞极智科技有限公司 语音转写方法及相关装置
CN111179939B (zh) * 2020-04-13 2020-07-28 北京海天瑞声科技股份有限公司 语音转写方法、语音转写装置及计算机存储介质
CN111179939A (zh) * 2020-04-13 2020-05-19 北京海天瑞声科技股份有限公司 语音转写方法、语音转写装置及计算机存储介质

Also Published As

Publication number Publication date
CN105895085B (zh) 2019-10-18

Similar Documents

Publication Publication Date Title
CN105895085A (zh) 一种多媒体转写方法和系统
CN106384593B (zh) 一种语音信息转换、信息生成方法及装置
CN103838866B (zh) 一种文本转换方法及装置
CN110782900A (zh) 协作ai讲故事
US20150317304A1 (en) Method and system for sign language translation and descriptive video service
US20120276504A1 (en) Talking Teacher Visualization for Language Learning
CN102084417A (zh) 现场维护语音到语音翻译的系统和方法
KR102043419B1 (ko) 아동언어학습을 위한 음성인식 기반 학습 시스템 및 학습방법
CN114556328A (zh) 数据处理方法、装置、电子设备和存储介质
CN109817210A (zh) 语音写作方法、装置、终端和存储介质
WO2007069512A1 (ja) 情報処理装置及びプログラム
US9905221B2 (en) Automatic generation of a database for speech recognition from video captions
CN107590121B (zh) 文本规整方法及系统
Cabarrão et al. Prosodic classification of discourse markers
US11537781B1 (en) System and method to support synchronization, closed captioning and highlight within a text document or a media file
Chen et al. An Alignment Method Leveraging Articulatory Features for Mispronunciation Detection and Diagnosis in L2 English.
CN111128181B (zh) 背诵题评测方法、装置以及设备
CN103680499A (zh) 基于语音和字幕同步的高精度识别方法及系统
Wald Concurrent collaborative captioning
KR102098377B1 (ko) 퍼즐 게임으로 어순을 학습하는 외국어 학습 서비스 제공 방법
CN110569510A (zh) 一种对用户请求数据的命名实体识别的方法
CN103905743A (zh) 汉语自动实时标注汉语字幕音像录播方法
Dwivedi et al. On documenting low resourced Indian languages insights from Kanauji speech corpus
Herring American Sign Language Translation Glove
KR102057871B1 (ko) 교수 매체를 활용한 언어 교수 방법 및 그 시스템

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C41 Transfer of patent application or patent right or utility model
TA01 Transfer of patent application right

Effective date of registration: 20170116

Address after: High tech Zone Hefei city Anhui province 230088 Wangjiang Road No. 666 Building 8 layer -10 layer Xunfei

Applicant after: Xun Feizhi metamessage Science and Technology Ltd.

Address before: Wangjiang Road high tech Development Zone Hefei city Anhui province 230088 No. 666

Applicant before: Iflytek Co., Ltd.

GR01 Patent grant
GR01 Patent grant