CN112165627A - 信息处理方法、装置、存储介质、终端及系统 - Google Patents

信息处理方法、装置、存储介质、终端及系统 Download PDF

Info

Publication number
CN112165627A
CN112165627A CN202011040766.4A CN202011040766A CN112165627A CN 112165627 A CN112165627 A CN 112165627A CN 202011040766 A CN202011040766 A CN 202011040766A CN 112165627 A CN112165627 A CN 112165627A
Authority
CN
China
Prior art keywords
information
target
text information
terminal
voice information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011040766.4A
Other languages
English (en)
Inventor
郑振波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202011040766.4A priority Critical patent/CN112165627A/zh
Publication of CN112165627A publication Critical patent/CN112165627A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/21Server components or server architectures
    • H04N21/218Source of audio or video content, e.g. local disk arrays
    • H04N21/2187Live feed
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B19/00Teaching not covered by other main groups of this subclass
    • G09B19/06Foreign languages
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B5/00Electrically-operated educational appliances
    • G09B5/06Electrically-operated educational appliances with both visual and audible presentation of the material to be studied
    • G09B5/065Combinations of audio and video presentations, e.g. videotapes, videodiscs, television systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/4302Content synchronisation processes, e.g. decoder synchronisation
    • H04N21/4307Synchronising the rendering of multiple content streams or additional data on devices, e.g. synchronisation of audio on a mobile phone with the video output on the TV screen
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/431Generation of visual interfaces for content selection or interaction; Content or additional data rendering
    • H04N21/4312Generation of visual interfaces for content selection or interaction; Content or additional data rendering involving specific graphical features, e.g. screen layout, special fonts or colors, blinking icons, highlights or animations

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Business, Economics & Management (AREA)
  • Educational Technology (AREA)
  • Human Computer Interaction (AREA)
  • Educational Administration (AREA)
  • Acoustics & Sound (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Quality & Reliability (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Databases & Information Systems (AREA)
  • User Interface Of Digital Computer (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本申请实施例公开了一种信息处理方法、装置、存储介质、终端及系统,本申请实施例通过在直播界面播放直播内容,识别直播内容中预设语种的目标语音信息,在直播界面显示目标语音信息对应的目标文本信息,响应于针对目标文本信息的触控指令,显示目标文本信息对应的扩展信息。避免了学生在线上学习时遇到不熟悉的词语时需要切换至其他应用进行查询,提高了信息处理的效率,进而提高了学生线上学习的学习效率。

Description

信息处理方法、装置、存储介质、终端及系统
技术领域
本申请涉及通信技术领域,具体涉及一种信息处理方法、装置、存储介质、终端及系统。
背景技术
随着互联网的日益发展与普及,基于互联网的产业也日渐繁荣,其中较为典型的诸如电子通信、电子商务以及在线教育等。
经过十多年的发展,在线教育行业目前也初具规模,涌现了较多的在线教育平台。在线教育不仅打破了传统课堂教育对时间和空间的依赖,为学生提供了多样化的知识获取渠道,还可以实现教育资源的共享,使得教育资源的分配更为公平,同时也降低了学生接受教育的成本。
目前,在使用线上教学应用进行英语直播教学时,当教师讲到一些对学生而言比较生疏的英语词汇时,学生不能及时理解,导致学生无法跟上教学进度,进而导致学习效率下降。
发明内容
本申请实施例提供一种信息处理方法、装置、存储介质、终端及系统,可以提升信息处理效率,在学生学习界面实时显示教学内容的文本信息及扩展信息,进而提升了学生线上学习的效率。
为解决上述技术问题,本申请实施例提供以下技术方案:
本申请第一方面提供一种信息处理方法,包括:
在直播界面播放直播内容;
识别所述直播内容中预设语种的目标语音信息;
在所述直播界面显示所述目标语音信息对应的目标文本信息;
响应于针对所述目标文本信息的触控指令,显示所述目标文本信息对应的扩展信息。
本申请实施例第二方面还提供一种信息处理方法,包括:
获取语音信息;
识别所述语音信息中预设语种的目标语音信息;
将所述目标语音信息转化为文本信息,得到目标文本信息;
将所述目标文本信息同步至学生终端,以使得所述学生终端显示所述目标文本信息以及所述目标文本信息对应的扩展信息。
相应地,本申请实施例第三方面还提供一种信息处理装置,包括:
播放单元,用于在直播界面播放直播内容;
识别单元,用于识别所述直播内容中预设语种的目标语音信息;
第一显示单元,用于在所述直播界面显示所述目标语音信息对应的目标文本信息;
第二显示单元,用于响应于针对所述目标文本信息的触控指令,显示所述目标文本信息对应的扩展信息。
在一些实施例中,所述第一显示单元,包括:
获取子单元,用于获取所述目标语音信息对应的目标文本信息;
显示子单元,用于将所述目标文本信息悬浮显示于所述直播界面中。
在一些实施例中,所述显示子单元,还用于:
分解所述目标文本信息,得到多个分词信息;
基于所述多个分词信息,生成与每个分词信息对应的透明悬浮气泡;
在所述直播界面上显示所述透明悬浮气泡;
则所述第二显示单元,用于:
响应于针对目标透明悬浮气泡的触控指令,显示所述目标悬浮气泡对应的目标分词信息的扩展信息。
在一些实施例中,所述信息处理装置,还包括:
确定单元,用于接收对选定透明悬浮气泡的拖动操作,确定所述拖动操作的拖动终点坐标是否位于预设区域;
存储单元,用于当所述拖动终点坐标位于所述预设区域时,将所述选定透明悬浮气泡对应的分词信息存储于生词本中。
在一些实施例中,所述第二显示单元,包括:
划分子单元,用于将所述直播界面划分为第一界面与第二界面;
第一显示子单元,用于在所述第一界面显示所述直播内容的对应的直播视频;
第二显示子单元,用于在所述第二显示界面显示所述目标语音信息对应的目标文本信息。
在一些实施例中,所述识别单元,包括:
获取子单元,用于获取所述直播内容中符合预设声纹信息的第一语音信息;
识别子单元,用于识别所述第一语音信息中预设语种的目标语音信息。
本申请实施例第四方面还提供了一种信息处理装置,包括:
获取单元,用于获取语音信息;
识别单元,用于识别所述语音信息中预设语种的目标语音信息;
转化单元,用于将所述目标语音信息转化为文本信息,得到目标文本信息;
同步单元,用于将所述目标文本信息同步至学生终端,以使得所述学生终端显示所述目标文本信息及所述目标文本信息对应的扩展信息。
在一些实施例中,所述转化单元,包括:
转化子单元,用于将所述目标语音信息转化为文本信息;
显示子单元,用于将所述文本信息在终端的显示界面上进行展示,以便用户对所述文本信息进行检核;
接收子单元,用于接收用户输入的检核结果;
确定子单元,用于当检核结果为检核合格时,将所述文本信息确定为目标文本信息;
修正子单元,用于当检核结果为检核不合格时,展示文本信息修改界面,接收用户的修改操作,并确定修改后的文本信息为目标文本信息。
在一些实施例中,所述识别单元,包括:
获取子单元,用于获取所述语音信息中符合预设声纹信息的第一语音信息;
识别子单元,用于识别所述第一语音信息中预设语种的目标语音信息。
本申请实施例第五方面还提供一种终端,包括处理器和存储器,所述存储器存储有多条指令,所述处理器从所述存储器中加载指令,以执行上述第一方面或第二方面提供的信息处理方法中的步骤。
本申请实施例第六方面还提供一种存储介质,所述存储介质存储有多条指令,所述指令适于处理器进行加载,以执行上述第一方面或第二方面提供的信息处理方法中的步骤。
本申请实施例第七方面还提供一种信息处理系统,所述系统包括:
第一终端、第二终端和服务器;
所述第一终端包括上述第三方面提供的信息处理装置;
所述第二终端包括上述第四方面提供的信息处理装置;
所述服务器将所述第二终端发送的目标文本信息同步至所述第一终端。
本申请实施例通过在直播界面播放直播内容,识别直播内容中预设语种的目标语音信息,在直播界面显示目标语音信息对应的目标文本信息,响应于针对目标文本信息的触控指令,显示目标文本信息对应的扩展信息。如此,学生在观看线上教学直播时,可以在直播界面上直接了解到不熟悉的词语的扩展信息,提高了学生线上学习的学习效率。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的信息处理系统的场景示意图;
图2是本申请实施例提供的信息处理方法的流程示意图;
图3是本申请实施例提供的信息处理方法的另一流程示意图;
图4是本申请实施例提供的线上教学应用程序学生客户端显示界面示意图;
图5是本申请实施例提供的线上教学应用程序学生客户端显示界面另一示意图;
图6是本申请实施例提供的线上教学应用程序学生客户端显示界面另一示意图;
图7是本申请实施例提供的线上教学应用程序学生客户端显示界面另一示意图;
图8是本申请实施例提供的信息处理方法的另一流程示意图;
图9是本申请实施例提供的信息处理方法的另一流程示意图;
图10是本申请实施例提供的线上教学应用程序教师客户端显示界面的示意图;
图11是本申请实施例提供的线上教学应用程序教师客户端显示界面的另一示意图;
图12是本申请实施例提供的线上教学应用程序教师客户端显示界面的另一示意图;
图13是本申请实施例提供的线上教学应用程序教师客户端显示界面的另一示意图;
图14是本申请实施例提供的信息处理方法的另一流程示意图;
图15是本申请实施例提供的信息处理装置的结构示意图;
图16是本申请实施例提供的信息处理装置的另一结构示意图;
图17是本申请实施例提供的信息处理系统的结构示意图;
图18是本申请实施例提供的终端的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例提供一种信息处理方法、装置、终端及系统。
请参阅图1,图1为本申请实施例提供的信息处理系统的场景示意图,该系统包括:服务器A、第一终端B和第二终端C以及为服务器A提供数据存储的存储器,第一终端B和第二终端C均可以有多个。服务器A和第一终端B以及第二终端C之间可以通过通信网络连接,该通信网络,包括无线网络以及有线网络,其中无线网络包括无线广域网、无线局域网、无线城域网、以及无线个人网中的一种或多种的组合。网络中包括路由器、网关等等网络实体,图中并未示意出。第一终端B或第二终端C可以通过通信网络与服务器A进行信息交互,比如可以从服务器A下载应用(如在线教学应用)。
该服务器A可以服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。主要用于接收第二终端C发送的直播内容或接收第一终端B发送的问题反馈信息,以及将第二终端C发送的直播内容发送给第一终端B,或者将第一终端B发送的问题反馈信息发送至第二终端C。第二终端C发送给服务器A的信息还可以包括:目标文本信息。该目标文本信息为第二终端C通过获取语音信息,识别语音信息中预设语种的目标语音信息再将目标语音信息转化为文本信息得到的。服务器A也可以对直播内容进行转化,通过识别直播内容中的预设语种的目标语音信息,将目标语音信息转化为文本信息得到目标文本信息,再将转化得到的目标文本信息发送给第一终端B。
该第一终端B和第二终端C可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。该第一终端B和第二终端C中可以安装有各种用户所需的应用,比如在线教学应用、在线学习应用等。在本申请中,第一终端B与第二终端C的区分可以以直播内容发出端和直播内容接收端进行区分。具体地,直播内容接收端为第一终端,在在线教育应用场景中通俗可以理解为装载学生客户端的终端,此处称作学生终端;直播内容发出端为第二终端,在在线教育应用场景中通俗可以理解为装载教师客户端的终端,此处称作教师终端。在在线教学应用中,当用户打开在线教学应用时,第一终端B为登录学生账号客户端的终端,可以在在直播界面播放直播内容;识别直播内容中预设语种的目标语音信息,在直播界面显示目标语音信息对应的目标文本信息,响应于针对目标文本信息的触控指令,显示目标文本信息对应的扩展信息。第二终端C可以是登录教师账号客户端的终端,可以获取语音信息,识别语音信息中预设语种的目标语音信息,将目标语音信息转化为文本信息,得到目标文本信息,将目标文本信息同步至学生终端,以使得学生终端显示目标文本信息以及目标文本信息对应的扩展信息。另一方面,学生终端在学习时若有疑问也可以将问题反馈信息发送至服务器A以使得服务器A将问题反馈信息转发至教师终端。可以理解的是,此处第一终端与第二终端并非是对实体终端进行区分,而是对登录应用程序的账户对应的客户端进行区分。一个实体终端,当登录账户为教师账户时,即为教师终端或第二终端;当登录账户为学生账户时,即为学生终端或第一终端。
需要说明的是,图1所示的信息处理系统的场景示意图仅仅是一个示例,本申请实施例描述的信息处理系统以及场景是为了更加清楚的说明本申请实施例的技术方案,并不构成对于本申请实施例提供的技术方案的限定,本领域普通技术人员可知,随着信息处理系统的演变和新业务场景的出现,本申请实施例提供的技术方案对于类似的技术问题,同样适用。
以下分别进行详细说明。需说明的是,以下实施例的序号不作为对实施例优选顺序的限定。
实施例一、
在本实施例中,将从第一终端的角度进行描述,该第一终端具体可以是平板电脑、手机、笔记本电脑、智能电视、穿戴式智能设备以及台式计算机等等具备储存单元并安装有微处理器而具有运算能力以及具有视频及声音采集能力的终端。
请参阅图2,图2是本申请实施例提供的信息处理方法的流程示意图。该信息处理方法包括:
步骤101,在直播界面播放直播内容。
其中,第一终端上可以安装多种应用,例如在线教学应用、即时通讯应用、视频会议应用等等,这些应用都具有直播功能。此处以在线教学应用为例进行描述。如上所述信息处理系统的场景示意图所示,直播内容接收端为第一终端,直播内容发出端为第二终端。则在在线教学应用中,该第一终端为学生终端,第二终端为教师终端,即本实施例提供的信息处理方法从学生终端进行描述。
在线教学的课程十分丰富,有文学类、理科类、艺术类以及语言类等,本申请主要针对语言类教学内容,此处以英语教学为例进行描述。
在实际的教学场景下,学生在打开学生终端进行线上学习时,学生终端显示窗口可以显示教师教学的直播内容。显示窗口可以包含直播界面,直播内容可以显示在直播界面中。直播内容可以包含教师进行英语线上教学的视频画面以及教师教学的语音信息。当学生终端的听筒或扬声器开启时,可以播放教师教学时的语音信息。
步骤102,识别直播内容中预设语种的目标语音信息。
其中,学生在进行英语线上学习时,直播界面播放的直播内容中的语音信息可以包括多个语种的语音信息。例如,当学生的母语为汉语时,为了帮助学生理解英语的含义,提高学生英语的学习效率,直播内容中包含的语音信息中一般都会包含汉语语音信息。同样地,当学生的母语为韩语或者日语时,直播内容中包含的语音信息中也可以包含韩语或者日语的语音信息。在本申请实施例中,当学生在进行英语线上学习时,识别直播内容中英语的语音信息,作为目标语音信息。另一方面,当学生在进行韩语学习时,则可以识别直播内容中韩语的语音信息作为目标语音信息。抑或者学生进行日语线上学习时,则可以识别直播内容中日语的语音信息作为目标语音信息。与此类似,不再枚举。
在一些实施例中,识别直播内容中预设语种的目标语音信息,包括:
(1)获取直播内容中符合预设声纹信息的第一语音信息;
(2)识别第一语音信息中预设语种的目标语音信息。
其中,由于进行线上教学的教师端的教学环境千差万别,导致线上直播教学的学习资源质量参差不齐。可能存在教学视频资源质量较差,直播内容包含的语音信息中杂音较多的情况。此时直播内容中包含的语音信息可能会包含教师教学语音信息和其他噪音信息。噪音信息可能包括其他语音信息或机器操作声音信息。在本申请实施例中在对直播内容中的语音信息按照语种进行识别之前,先对该语音信息进行声纹识别。提取出直播内容的语音信息中符合预设声纹信息的第一语音信息,以排除其他噪音的干扰。
其中,在一些实施例中,预设声纹信息可以是预先获取的直播内容中授课教师的声纹信息。例如在听一些名师直播授课时,由于该教师在网络上具有一定的知名度,具有众多的渠道可以获取他的授课资源,因而可以在他的其他授课资源中提取出他的声纹信息作为预设声纹信息。
在一些实施例中,预设声纹信息也可以是根据直播内容进行确定的声纹信息。例如,可以提取直播内容中包含的语音信息中预设时间段(例如前5分钟)的语音信息,对该预设时间段的语音信息进行声纹识别,确定其中出现频率最高的声纹信息为预设声纹信息。
在本申请实施例中,在对直播内容中的的语音信息按照语种进行识别之前,先对该语音信息进行降噪,采用预设声纹信息将噪音信息进行过滤。如此避免了噪音信息对识别过程造成干扰,使得识别结果更加准确。
在一些实施例中,对直播内容中的语音信息进行降噪,还可以通过对语音信息中语音的音量大小进行区分以实现。一般情况下,教师在教学时,距离教师终端的距离较近,则教师教学语音信息的音量相对较大,而噪音信息的音量相对较小。因此,可以通过将音量最大的语音信息确定为第一语音信息,将其他语音信息确定为噪音信息,再从直播内容的语音信息中提取出第一语音信息。
在一些实施例中,对直播内容的语音信息进行降噪,还可以通过对语音信息中语音的声源距离进行区分以实现。同样地,教师在教学时,距离教师终端的距离较近。对直播内容的语音信息中不同语音的声源位置距离声音采集点位置的距离进行识别,从而确定了不同语音距离声音采集点的声源距离。确定声源距离最小的语音信息为第一语音信息,确定其他语音信息为噪音信息。
确定了符合预设声纹信息的第一语音信息后,再对该第一语音根据语种进行识别,提取出预设语种的目标语音信息。
步骤103,在直播界面显示目标语音信息对应的目标文本信息。
其中,在直播界面显示目标语音信息对应的目标文本信息包括:
将目标语音信息转化为目标文本信息,再将目标文本信息显示再直播界面中。将目标语音信息转化为文本信息,具体转化过程涉及语音识别技术。语音识别技术是人工智能技术的核心技术之一,是一项让机器通过识别和理解过程把语音信号转化成相应的文本或命令的技术。语音识别技术主要包括特征提取技术、模式匹配准则以及模型训练技术三个方面。语音识别根据识别的对象不同,识别任务大体可以分为3类:孤立词识别、关键词识别以及连续语音识别。语音识别技术的应用领域非常广泛,常见应用系统有:语音输入系统、语音控制系统以及智能对话查询系统等。语音识别技术采用的主要方法是模式匹配法,其分为训练阶段和识别阶段:在训练阶段,用户将词汇表中的每一词依次说一遍,并且将其特征矢量作为模板存入模板库中;在识别阶段,将输入语音的特征矢量依次与模板库中的每个模板进行相似度比较,将相似度最高的作为识别结果输出。在本申请实施例中,采用连续语音识别,将目标语音信息与语音数据库中的数据进行匹配,从而确定目标语音信息对应的目标文本信息。具体地,可以将目标语音信息的音频流分片发送至AI语音识别后台,AI语音识别后台对接收到的音频流分片进行缓存,AI语音识别后台将缓存的音频流分片进行合并并发送到语音识别(Automatic Speech Recognition,ASR)服务器,ASR服务器对接收到的合并音频流进行语音识别,并将识别结果返回至AI语音识别后台,AI语音识别后台再将ASR服务器返回的识别结果返回至学生终端。
在一些实施例中,将目标文本信息显示在直播界面,可以包括:
(1)将直播界面划分为第一界面和第二界面;
(2)在第一界面显示直播内容对应的直播视频;
(3)在第二界面显示目标文本信息。
其中,直播界面可以包括用于显示直播视频内容的第一界面和显示文字内容的第二界面。学生可以在第一界面看到教师授课时的视频直播。在第二界面学生可以看到根据目标语音信息识别得到的目标文本信息。当目标语音为英语时,显示在第二界面上的目标文本信息即为英文文本信息。
步骤104,响应于针对目标文本信息的触控指令,显示目标文本信息对应的扩展信息。
其中,响应于,用于表示所执行的操作所依赖的条件或者状态,当满足所依赖的条件或状态时,所执行的一个或多个操作可以是实时的,也可以具有设定的延迟;在没有特别说明的情况下,所执行的多个操作不存在执行先后顺序的限制。针对目标文本信息的触控指令,可以是对目标文本信息中单个单词的点击操作,也可以是对目标文本信息中的一句或者一段文本的框选操作。当对目标文本信息中的单个单词进行点击时,可以显示被选中单词的翻译信息。翻译信息可以包含第二预设语种的文本信息,以及第一预设语种的例句信息。例如,当目标文本信息为英文文本信息时,学生用户点击该文本信息中的一个单词,则可以在该单词附近显示该单词信息的第二预设语种的翻译信息。该第二预设语种可以是汉语、韩语或者日语等任意一种。用户可以根据需求自行设置。除了显示第二预设语种的翻译信息之外,还可以显示该单词的英文例句信息。当对目标文本信息中的一句或者一段文本进行框选时,可以在这一句或一段文本附近显示该一句或一段文本的翻译信息。如此,学生在进行线上学习时,对教师授课过程中感到陌生的词或句子,可以实时看到该词或句子的文本信息。进而通过对文本信息的点击操作可以进一步查看到文本信息的拓展信息,提高了学生线上学习的学习效率。
本申请实施例提供的信息处理方法,是学生终端对教师教学语音信息进行识别,识别出其中的目标语音信息,再将目标语音信息转化为目标文本信息,再进一步将目标文本信息进行显示。可以理解的是,对语音信息进行识别得到目标语音信息,以及将目标语音信息转化为目标文本信息的步骤,也可以由教师终端或者服务器完成。具体例如:教师终端获取教师教学语音信息,对语音信息进行识别得到目标语音信息,再将目标语音信息转化成目标文本信息后转发至服务器,由服务器转发至学生终端并在学生终端显示目标文本信息。抑或者教师终端将教学语音信息发送至服务器,服务器识别教学语音信息中的目标语音信息,再将目标语音信息转化为目标文本信息后发送给学生终端,由学生终端进行显示。上述两个步骤由教师终端或服务器完成的具体描述将在后续实施例中展开予以论述。
根据上述描述可知,本申请提供的信息处理方法通过在直播界面播放直播内容,识别直播内容中预设语种的目标语音信息,在直播界面显示目标语音信息对应的目标文本信息,响应于针对目标文本信息的触控指令,显示目标文本信息对应的扩展信息。避免了学生在线上学习时遇到不熟悉的词语时需要切换至其他应用进行查询,提高了信息处理的效率,进而提高了学生线上学习的学习效率。
实施例二、
根据实施例一所描述的方法,以下将作进一步详细说明。
请参阅图3,为本申请实施例提供的信息处理方法的另一流程示意图,该方法包括如下步骤:
步骤201,终端在直播界面播放直播内容。
其中,本申请提供的信息处理方法以应用于线上教学应用程序为例,如图4所示,为本申请中线上教学应用程序学生客户端显示界面示意图,如图所示,学生客户端显示界面100可以包括直播界面110和对话界面120。学生终端将从服务器中接收到的直播内容在直播界面110上进行显示,学生可以在直播界面110上看到教师教学的视频画面。伴随着直播内容的播放,学生终端播放直播内容中的语音信息。具体地,学生可以通过有线耳机、蓝牙耳机、听筒或者扬声器等方式听取直播内容中的语音信息。学生还可以通过学生客户端显示界面中的对话界面120向教师客户端发送问题反馈信息,如此教师就可以在教师终端上看到学生反馈的问题并针对性进行回答,如此可以通过教学互动提高教学效率。
步骤202,终端识别直播内容中预设语种的目标语音信息。
其中,此处以中国学生进行线上学习英语为例,则直播内容中包含的语音信息中不仅会包含英语语音信息,还会包含较多的汉语语音信息,以辅助学生对学习的英语内容进行理解。终端对直播内容中包含的语音信息进行语种识别,识别出其中包含的英语语音信息,将其他语音信息(如汉语音信息)进行滤除,得到目标语音信息。例如,当直播内容中包含的语音信息为“接下来我们学习Listen,someone is crying这句”时,识别出的目标语音信息就是“Listen,someone is crying”这句的英语语音信息,将其中的“接下来我们学习”以及“这句”予以滤除。
在一些实施例中,在对直播内容中包含的语音信息进行语种识别之前,可以先对待识别的语音信息进行降噪,以去除该语音信息中的噪音信息,避免噪音信息对识别结果造成影响,从而使得识别结果更为准确。
步骤203,终端获取目标语音信息对应的目标文本信息。
其中,终端从直播内容中识别出目标语音信息后,将目标语音信息进行语音识别,得到目标语音信息对应的目标文本信息。当目标语音信息为英语语音信息时,则识别出的目标文本信息也为英文文本信息。例如对上述英语语音信息“Listen,someone is crying”这句目标语音信息转化成英文文本信息,该英文文本信息为目标文本信息。
步骤204,终端分解目标文本信息,得到多个分词信息。
其中,当终端获取到目标文本信息“Listen,someone is crying”之后,将该目标文本信息按单词为单位进行分解,得到多个分词信息:“listen”、“someone”、“is”、“crying”。
步骤205,终端基于多个分词信息,生成与每个分词信息对应的透明悬浮气泡。
其中,透明悬浮气泡的形状可以由学生自行进行设置,可以为圆形、椭圆形、心形或者方形等。透明悬浮气泡的外围线条的颜色也可以根据学生的喜好进行设置,可以为黑色、红色以及蓝色等。透明悬浮气泡中会包含每个分词的文本信息,单词文本的颜色也可以进行设置。
步骤206,终端在直播界面上显示透明悬浮气泡。
其中,如图5所示,为本申请中线上教学应用程序学生客户端显示界面另一示意图,如图所示,终端可以将根据目标文本信息生成的透明悬浮气泡111(listen)、透明悬浮气泡112(someone)、透明悬浮气泡113(is)以及透明悬浮气泡114(crying)显示在直播界面110中。透明悬浮气泡在直播界面110中进行显示时,与直播内容中的直播视频显示在不同的图层中。由于透明悬浮气泡的底色为透明的,不会影响学生对直播视频的观看。而且由于透明悬浮气泡与直播视频显示在不同的图层中,因此学生对透明悬浮气泡的操作不会影响直播视频的播放。
在一些实施例中,由于直播内容中可以识别出较多的目标文本信息,若将目标文本信息中的每个分词都生成透明悬浮气泡显示在直播界面110中,则会导致直播界面110中透明悬浮气泡的密度太高,而且充斥着较多对学生而言比较熟悉的分词对应的透明悬浮气泡,进而影响到学生对直播视频的观看,也会使得学生在众多透明悬浮气泡中找到目标透明悬浮气泡的难度增大。因此,在本申请实施例中,在生成每个分词信息对应的透明悬浮气泡之前,先对分词信息进行筛选,筛选出其中的生词信息,生词信息是学生不熟悉的分词信息。
在一些实施例中,提取分词信息中的生词信息,包括:
(1)获取预设的生词库,生词库记录每一课时信息关联的预设生词信息。
(2)获取当前的课时信息,确定生词库中与当前课时信息关联的目标生词信息。
(3)将分词信息与目标生词信息进行匹配,以确定生词信息。
其中,学生学习的每一课时都有其相应的学习任务,英语学习的每一课时都有相应的单词学习任务,在这一课时的学习过程中,学生需要学会认识、理解以及应用本课时学习任务中涉及的单词。在本申请实施例中,提前在学生终端的存储器中录入了英语学习每一课时信息所关联的预设生词信息。当学生在学习时,可以预先设置学习的课时信息,终端也可以根据直播内容自动识别当前课时信息。终端在获取到当前的课时信息后,确定与当前的课时信息所关联的目标生词信息,从而获取到了本课时的所有生词信息。进一步地,终端再将分解得到的多个分词信息与当前课时的所有生词信息进行匹配。即确定每个分词信息是否为当前课时关联的生词信息中的单词,当确定分词信息中的单词为当前课时关联的生词信息中的单词时,确定该单词为生词。进一步可以确定分词信息中所有的生词信息。
步骤207,终端响应于针对目标透明悬浮气泡的触控指令,显示目标悬浮气泡对应的目标分词信息的扩展信息。
其中,当学生在进行线上学习时,对显示在直播界面上的某一分词信息感到陌生时,可以点击该生词信息对应的目标悬浮气泡。例如,学生对crying这个词语比较陌生时,可以点击透明悬浮气泡114。此时透明悬浮气泡114显示的内容发生变化,显示该分词信息的扩展信息。如图6所示,为本申请中线上教学应用程序学生客户端显示界面另一示意图,如图所示,当学生点击分词信息crying对应的悬浮气泡之后,该透明悬浮气泡发生变化,变成透明悬浮气泡115。透明悬浮气泡中显示分词信息crying的扩展信息。其中,点击分词信息对应的目标透明悬浮气泡后,目标透明悬浮气泡可以按一定比例扩大,以使得学生可以清晰看到其中的扩展内容。显示分词信息的扩展信息后,若学生再次点击该扩展信息对应的透明悬浮气泡时,可以将透明悬浮气泡中的显示内容再切换为显示分词信息。在一些实施例中,点击分词信息对应的目标透明悬浮气泡后,目标透明悬浮气泡的底色也可以由透明变成具有一定颜色,从而将扩展信息进行突出显示。扩展信息可以包括分词信息的翻译信息,也可以包括分词信息的例句信息等。
在一些实施例中,透明悬浮气泡可以在显示后即开始检测是否接收到触控操作,若透明悬浮气泡在预设时间段内未接收到触控操作,则将该透明悬浮气泡在直播界面110中删除。对于接收到触控操作的透明悬浮气泡,在每次触控操作结束后开始检测是否接收到下一次触控操作,若在预设时间段内未接收到下一次触控操作,则将该透明悬浮气泡在直播界面110中删除。
步骤208,终端接收对选定透明悬浮气泡的拖动操作,确定拖动操作的拖动终点坐标是否位于预设区域。
步骤209,当拖动终点坐标位于预设区域时,终端将选定透明悬浮气泡对应的分词信息存储于生词本中。
其中,如图7所示,为本申请中线上教学应用程序学生客户端显示界面另一示意图,如图所示,直播界面110上可以设置有生词本区域116。学生可以将显示在直播界面110中的选定透明悬浮气泡进行拖动。终端实时检测拖动操作的坐标位置,当拖动操作停止时,终端确定该拖动操作的的终点坐标。当拖动操作的终点坐标位于生词本区域116时,确定学生期望将该选定透明悬浮气泡对应的分词信息加入生词本。终端将该选定透明悬浮气泡对应的分词信息存储至生词本对应的存储区域。如此,当学生需要对学习过程中的陌生词汇进行复习时,可以再打开生词本,在生词本中即可看到该选定透明悬浮气泡对应的分词信息。
在一些实施例中,将选定透明悬浮气泡拖动至生词本区域中,可以通过检测选定透明悬浮气泡是否被完全拖动至生词本区域116中进行确定。具体地,确定选定透明悬浮气泡的中心点坐标为(x、y),生词本区域116的宽为w,高为h。拖动操作的起始点位置坐标为(x1、y1),拖动操作的终止点位置的坐标为(x2、y2),则拖动终止后选定透明悬浮气泡的中心点坐标为(x3、y3)。生词本区域116的中心左下顶点坐标为(x4、y4),生词本区域116的宽为w2,高为h2。则上述坐标参数必然满足下述关系:
x3=x+x2-x1;
y3=y+y2-y1。
如此,当坐标参数满足下述条件时,则可判定选地透明悬浮气泡被拖至生词本区域116中:
x3>x且x3+w<x4+w2;
同时y3>y4且y3+h<y4+h2。
根据上述描述可知,本申请提供的信息处理方法通过在直播界面播放直播内容,识别直播内容中预设语种的目标语音信息,在直播界面显示目标语音信息对应的目标文本信息,响应于针对目标文本信息的触控指令,显示目标文本信息对应的扩展信息。避免了学生在线上学习时遇到不熟悉的词语时需要切换至其他应用进行查询,提高了信息处理的效率,进而提高了学生线上学习的学习效率。
实施例三、
在本实施例中,将从第二终端的角度进行描述,该第二终端具体可以是平板电脑、手机、笔记本电脑、智能电视、穿戴式智能设备以及台式计算机等等具备储存单元并安装有微处理器而具有运算能力以及具有视频和声音采集能力的终端。同样以在线教学应用为例进行说明,则第二终端为教师终端。
请参阅图8,为本申请实施例提供的信息处理方法的流程示意图,该信息处理方法包括:
步骤301,获取语音信息。
其中,以本申请实施例提供的信息处理方法应用于线上教育应用程序为例,获取的语音信息可以为教师授课时的语音信息。语音信息为教师终端的麦克风采集到的语音信息。
步骤302,识别语音信息中预设语种的目标语音信息。
其中,在获取到教师教学的语音信息后,对该语音信息进行语种识别。当教师在教中国学生学习英语课程时,语音信息中可以包含汉语语音信息以及英语语音信息。然后,识别出其中的英语语音信息,并对其中英语语音信息以外的其他语种的语音信息进行滤除,得到英语语音信息,即目标语音信息。
在一些实施例中,识别语音信息中预设语种的目标语音信息,包括:
(1)获取语音信息中符合预设声纹信息的第一语音信息;
(2)识别语音信息中预设语种的目标语音信息。
其中,为了避免噪音对识别结果的干扰,可以在识别预设语种的语音信息之前,对语音信息进行降噪处理,以去除其中的噪音。具体地,教师终端可以先识别语音信息中符合预设声纹信息的第一语音信息,对语音信息中不符合预设声纹信息的语音信息进行滤除。例如,语音信息为教师授课的语音信息时,可以先对该教师的声纹信息进行获取,并确定该声纹信息为预设声纹信息。再根据该预设声纹信息对语音信息中不符合该声纹信息的语音信息进行滤除,得到第一语音信息。再对第一语音信息进行语种识别,提取出其中预设语种的目标语音信息。
步骤303,将目标语音信息转化为文本信息,得到目标文本信息。
其中,在识别得到预设语种的语音信息后,对该语音信息进行语音识别文本转换,将该目标语音信息转换成该语种的目标文本信息。例如,当目标语音信息为英语语音信息时,则转化得到的目标文本信息则为英文文本信息。
步骤304,将目标文本信息同步至学生终端。
其中,教师终端根据语音数据识别得到目标语音数据,再将目标语音数据转化成目标文本数据后,将目标文本数据发送至服务器,由服务器将该目标文本数据转发至学生终端。如此,学生终端可以在显示界面上显示目标文本数据,并响应于学生的相应操作显示目标文本数据的扩展信息。
根据上述描述可知,本申请提供的信息处理方法,通过获取语音信息,识别语音信息中预设语种的目标语音信息,将目标语音信息转化为文本信息,得到目标文本信息;将目标文本信息同步至学生终端,以使得学生终端显示目标文本信息及目标文本信息对应的扩展信息。如此在讲解到预设语种内容时,教师无需再手动输入文本信息以发送至学生终端,提升了信息处理的效率,进而提升了教师授课的效率。
实施例四、
根据实施例三所描述的方法,以下作进一步详细说明。
请参阅图9,为本申请提供的信息处理方法的另一流程示意图,该方法包括:
步骤401,终端在应用界面中显示AI控件,接收用户对AI控件的触控指令。
其中,当教师打开线上教学应用程序进行线上教学时,终端显示应用程序的显示界面。如图10所示,为线上教学应用程序教师客户端显示界面的示意图,当教师打开线上教学应用程序时,在终端的显示界面显示教师交互界面200,教师交互界面200为教师终端的教师客户端显示的显示界面。教师交互界面200包括功能区域210、展示区域220以及对话区域230。功能区域210具有AI(artificial intelligence,人工智能)控件211以及分享屏幕控件、摄像头控件、麦克风控件、音量控件、音乐控件、视频播放控件以及PPT(PowerPoint,演示文稿)控件等功能控件;展示区域220具有分享区域,用于展示教学内容或直播内容;对话区域230可以包括参与学习的成员信息以及群组讨论信息。当教师需要使用智能语音识别功能时,可以通过触控AI控件211实现从普通模式到智能教学模式的切换。当然,当教师需要切换回普通教学模式时,可以再次触控AI控件211以关闭智能教学模式,从而实现从智能教学模式向普通教学模式的切换。
步骤402,终端根据触控指令,触发获取语音信息。
其中,当终端接收到教师对AI控件211的触控指令后,进入智能教学模式,触发终端对教师教学的语音信息进行获取,以便对教师教学语音信息进行进一步的处理。具体地,终端获取语音信息,是从麦克风采集到的语音信息中进行获取。在开启智能教学模式后,教师需要对麦克风是否打开进行检查。若麦克风处于关闭状态,教师可以触控交互界面中功能区域210中的麦克风控件以开启麦克风,以便麦克风可以对教师教学语音信息进行采集。例如,采集到教师教学的语音信息“接下来我们学习The boys are reading a book now”。
步骤403,终端识别语音信息中预设语种的语音信息,得到目标语音信息。
其中,终端获取到教师教学的语音信息后,对语音信息中的英语语音信息进行识别,滤除汉语语音信息,得到英语语音信息“The boys are reading a book now”。在识别语音信息中预设语种的语音信息之前,还可以先对语音信息进行降噪,滤除其中的噪音信息,以使得识别结果更为准确。
步骤404,终端将目标语音信息转化为文本信息。
其中,目标语音信息为英语语音时,转化得到的文本信息也为英文文本,例如,将上述目标语音信息转化得到的文本信息为“The boys are reading a book now”。
步骤405,终端将文本信息在显示界面上进行展示。
其中,终端将文本信息展示在展示区域220中,如图11所示,为线上教学应用程序教师客户端显示界面的另一示意图。终端可以按照文本信息的识别顺序将其在展示界面上按照自上而下的顺序进行依次展示。当展示区域220中显示的文本信息达到预设的量时,展示区域220可以进行滚动,以将展示区域220中的展示内容向上进行滚动,使得最早显示的文本信息消失,以便显示出最新识别出的文本信息。
步骤406,终端接收用户对选定文本信息的检核结果。
步骤407,当检核结果为检核不合格时,终端展示修改界面,接收用户的修改操作并确定修改后的文本信息为目标文本信息。
其中,文本信息在展示界面上进行展示之后,终端便开始检测是否接收到触控操作,若在预设时间段内未接收到触控操作,则将该文本信息确定为目标文本信息。然而,语音识别会因为各种因素的影响导致识别结果错误。例如同音词混淆,或者由于教师发音不够标准导致识别出的文本信息错误。教师可以对显示在展示区域220中的文本信息进行修改,当教师发现展示在展示区域220中的文本信息存在错误时,可以选定存在错误的文本信息以进行修改。如图12所示,为线上教学应用程序教师客户端显示界面的另一示意图。如图所示,终端将“The boys are reading a book now”识别成“The boys are reading abook no”。那么教师可以点击该文本信息,此时展示区域220中显示框线,以提示该句文本信息被选中。并且,此时在展示区域220中还会进一步显示修改控件221。教师可以点击该修改控件221,以进入修改界面。如图13所示,为线上教学应用程序教师客户端显示界面的另一示意图。此时,展示区域220切换为修改界面240,用户可以在该界面上进行删除或者输入文本操作,以对文本信息进行修改。修改完成后,教师可以点击完成控件241完成修改。此时终端确定修改后的文本信息为目标文本信息。
步骤408,终端将目标文本信息同步至学生终端。
其中,终端可以自动将目标文本信息发送至服务器,也可以在响应教师对目标文本信息的预设操作的情况下将目标文本信息发送至服务器。服务器在将该目标文本信息同步至学生终端,以便学生终端显示目标文本信息及其扩展信息。
根据上述描述可知,本申请提供的信息处理方法,通过获取语音信息,识别语音信息中预设语种的目标语音信息,将目标语音信息转化为文本信息,得到目标文本信息;将目标文本信息同步至学生终端,以使得学生终端显示目标文本信息及目标文本信息对应的扩展信息。如此在讲解到预设语种内容时,教师无需再手动输入文本信息以发送至学生终端,提升了信息处理的效率,进而提升了教师授课的效率。
实施例五、
在本实施例中,将从服务器的角度进行描述,该服务器具体可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。
请参阅图14,图14为本申请实施例提供的信息处理方法的另一流程示意图,该信息处理方法包括:
步骤501,服务器获取语音信息。
其中,服务器接收语音信息发送终端发送的语音信息,语音信息可以是教师教学的语音信息。服务器也可以接收直播内容发送终端发送的直播内容,服务器从直播内容中获取到其中的语音信息。
步骤502,服务器识别语音信息中预设语种的目标语音信息,并转化为目标文本信息。
服务器对语音信息进行语种识别,识别出该语音信息中包含的多个语种的语音信息,然后服务器对其中预设语种的目标语音信息进行提取,将其他语种的语音信息滤除,得到目标语音信息。服务器再将目标语音信息翻译成目标文本信息。
步骤503,服务器将目标文本信息发送至学生终端。
通过上述描述可知,本申请提供的信息处理方法通过获取语音信息,识别语音信息中预设语种的目标语音信息并转化为目标文本信息,将目标文本信息发送至学生终端。避免了教师或者学生手动输入或者查找目标文本,提高了信息的处理效率。
实施例六、
为便于更好的实施本申请实施例提供的信息处理方法,本申请实施例还提供一种基于上述信息方法的装置,该装置具体可以集成在第一终端中。其中名词的含义与上述信息处理方法中相同,具体实现细节可以参考方法实施例中的说明。
请参阅图15,图15为本申请实施例提供的信息处理装置的结构示意图,其中该处理装置可以包括播放单元601、识别单元602、第一显示单元603以及第二显示单元604。
播放单元601,用于在直播界面播放直播内容;
识别单元602,用于识别直播内容中预设语种的目标语音信息;
第一显示单元603,用于在直播界面显示目标语音信息对应的目标文本信息;
第二显示单元604,用于响应于针对目标文本信息的触控指令,显示目标文本信息对应的扩展信息。
在一些实施例中,第一显示单元603,包括:
获取子单元,用于获取目标语音信息对应的目标文本信息;
显示子单元,用于将目标文本信息悬浮显示于直播界面中。
在一些实施例中,显示子单元,还用于:
分解目标文本信息,得到多个分词信息;
基于多个分词信息,生成与每个分词信息对应的透明悬浮气泡;
在直播界面上显示透明悬浮气泡;
则第二显示单元604,用于:
响应于针对目标透明悬浮气泡的触控指令,显示目标悬浮气泡对应的目标分词信息的扩展信息。
在一些实施例中,信息处理装置还包括:
确定单元,用于接收对选定透明悬浮气泡的拖动操作,确定拖动操作的拖动终点坐标是否位于预设区域;
存储单元,用于当拖动终点坐标位于所述预设区域时,将选定透明悬浮气泡对应的分词信息存储于生词本中。
在一些实施例中,第二显示单元604,包括:
划分子单元,用于将所述直播界面划分为第一界面与第二界面;
第一显示子单元,用于在所述第一界面显示所述直播内容的对应的直播视频;
第二显示子单元,用于在所述第二显示界面显示所述目标语音信息对应的目标文本信息。
在一些实施例中,识别单元602,包括:
获取子单元,用于获取所述直播内容中符合预设声纹信息的第一语音信息;
识别子单元,用于识别所述第一语音信息中预设语种的目标语音信息。
以上各个单元的具体实施可参见前面的方法实施例,在此不再赘述。
由上可知,本申请实施例通过播放单元601在直播界面播放直播内容,识别单元602识别直播内容中预设语种的目标语音信息,第一显示单元603在直播界面显示目标语音信息对应的目标文本信息,第二显示单元604响应于针对目标文本信息的触控指令,显示目标文本信息对应的扩展信息。如此避免了学生在线上学习时遇到不熟悉的词语时需要切换至其他应用进行查询,提高了信息处理的效率,进而提高了学生线上学习的学习效率。
实施例七、
为便于更好的实施本申请实施例提供的信息处理方法,本申请实施例还提供一种基于上述信息方法的装置,该装置具体可以集成在第二终端中。其中名词的含义与上述信息处理方法中相同,具体实现细节可以参考方法实施例中的说明。
请参阅图16,图16为本申请实施例提供的语音处理装置的另一结构示意图,其中该处理装置可以包括获取单元701、识别单元702、转化单元703以及同步单元704。
获取单元701,用于获取语音信息;
识别单元702,用于识别语音信息中预设语种的目标语音信息;
转化单元703,用于将目标语音信息转化为文本信息,得到目标文本信息;
同步单元704,用于将目标文本信息同步至学生终端,以使得学生终端显示目标文本信息及目标文本信息对应的扩展信息。
在一些实施例中,转化单元703,包括:
转化子单元,用于将目标语音信息转化为文本信息;
显示子单元,用于将文本信息在终端的显示界面上进行展示,以便用户对所述文本信息进行检核;
接收子单元,用于接收用户输入的检核结果;
确定子单元,用于当检核结果为检核合格时,将文本信息确定为目标文本信息;
修正子单元,用于当检核结果为检核不合格时,展示文本信息修改界面,接收用户的修改操作,并确定修改后的文本信息为目标文本信息。
在一些实施例中,识别单元702,包括:
获取子单元,用于获取所述语音信息中符合预设声纹信息的第一语音信息;
识别子单元,用于识别所述第一语音信息中预设语种的目标语音信息。
以上各个单元的具体实施可参见前面的方法实施例,在此不再赘述。
由上可知,本申请实施例通过获取单元701获取语音信息,识别单元702识别语音信息中预设语种的目标语音信息,转化单元703将目标语音信息转化为文本信息,得到目标文本信息;同步单元704将目标文本信息同步至学生终端,以使得学生终端显示目标文本信息及目标文本信息对应的扩展信息。如此在讲解到预设语种内容时,教师无需再手动输入文本信息以发送至学生终端,提升了信息处理的效率,进而提升了教师授课的效率。实施例八、相应的,请参阅图17,本申请实施例还提供一种信息处理系统,包括第一终端801、服务器802和第二终端803,实施例六提供的信息处理装置可以集成在第一终端801中,实施例七提供的信息处理装置可以集成在第二终端803。例如,实施例六提供的信息处理装置集成于第一终端中,则:
第一终端,用于在直播界面播放直播内容,识别直播内容中预设语种的目标语音信息,在直播界面显示目标语音信息对应的目标文本信息,响应于针对目标文本信息的触控指令,显示目标文本信息对应的扩展信息。
当实施例七提供的信息处理装置集成于第二终端中时,则:
第二终端,用于获取语音信息,识别语音信息中预设语种的目标语音信息,将目标语音信息转化为文本信息,得到目标文本信息;将目标文本信息同步至学生终端,以使得学生终端显示目标文本信息及目标文本信息对应的扩展信息。
服务器802可以用于将第二终端发送的信息同步至第一终端。
以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
由于该信息处理系统可以包括本申请前述实施例所提供的任一种信息处理装置,因此,可以实现本申请实施例所提供的任一种信息处理装置所能实现的有益效果,可详见前述实施例,在此不再赘述。
实施例九、
本申请实施例还提供一种终端,如图18所示,该终端可以包括射频(RF,RadioFrequency)电路901、包括有一个或一个以上存储介质的存储器902、输入单元903、显示单元904、传感器905、音频电路906、无线保真(WiFi,Wireless Fidelity)模块907、包括有一个或者一个以上处理核心的处理器908、以及电源909等部件。本领域技术人员可以理解,图18中示出的终端结构并不构成对终端的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
RF电路901可用于收发信息或通话过程中,信号的接收和发送,特别地,将基站的下行信息接收后,交由一个或者一个以上处理器908处理;另外,将涉及上行的数据发送给基站。通常,RF电路901包括但不限于天线、至少一个放大器、调谐器、一个或多个振荡器、用户身份模块(SIM,Subscriber Identity Module)卡、收发信机、耦合器、低噪声放大器(LNA,Low Noise Amplifier)、双工器等。此外,RF电路901还可以通过无线通信与网络和其他设备通信。无线通信可以使用任一通信标准或协议,包括但不限于全球移动通讯系统(GSM,Global System of Mobile communication)、通用分组无线服务(GPRS,GeneralPacket Radio Service)、码分多址(CDMA,Code Division Multiple Access)、宽带码分多址(WCDMA,Wideband Code Division Multiple Access)、长期演进(LTE,Long TermEvolution)、电子邮件、短消息服务(SMS,Short Messaging Service)等。
存储器902可用于存储软件程序以及模块,处理器908通过运行存储在存储器902的软件程序以及模块,从而执行各种功能应用以及信息处理。存储器902可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据终端的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器902可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器902还可以包括存储器控制器,以提供处理器908和输入单元903对存储器902的访问。
输入单元903可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。具体地,在一个具体的实施例中,输入单元903可包括触敏表面以及其他输入设备。触敏表面,也称为触摸显示屏或者触控板,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触敏表面上或在触敏表面附近的操作),并根据预先设定的程式驱动相应的连接装置。可选的,触敏表面可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器908,并能接收处理器908发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触敏表面。除了触敏表面,输入单元903还可以包括其他输入设备。具体地,其他输入设备可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。
显示单元904可用于显示由用户输入的信息或提供给用户的信息以及终端的各种图形用户接口,这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。显示单元904可包括显示面板,可选的,可以采用液晶显示器(LCD,Liquid Crystal Display)、有机发光二极管(OLED,Organic Light-Emitting Diode)等形式来配置显示面板。进一步的,触敏表面可覆盖显示面板,当触敏表面检测到在其上或附近的触摸操作后,传送给处理器908以确定触摸事件的类型,随后处理器908根据触摸事件的类型在显示面板上提供相应的视觉输出。虽然在图18中,触敏表面与显示面板是作为两个独立的部件来实现输入和输入功能,但是在某些实施例中,可以将触敏表面与显示面板集成而实现输入和输出功能。
终端还可包括至少一种传感器905,比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示面板的亮度,接近传感器可在终端移动到耳边时,关闭显示面板和/或背光。作为运动传感器的一种,重力加速度传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;至于终端还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
音频电路906、扬声器,传声器可提供用户与终端之间的音频接口。音频电路906可将接收到的音频数据转换后的电信号,传输到扬声器,由扬声器转换为声音信号输出;另一方面,传声器将收集的声音信号转换为电信号,由音频电路906接收后转换为音频数据,再将音频数据输出处理器908处理后,经RF电路901以发送给比如另一终端,或者将音频数据输出至存储器902以便进一步处理。音频电路906还可能包括耳塞插孔,以提供外设耳机与终端的通信。
WiFi属于短距离无线传输技术,终端通过WiFi模块907可以帮助用户收发电子邮件、浏览网页和访问流式媒体等,它为用户提供了无线的宽带互联网访问。虽然图18示出了WiFi模块907,但是可以理解的是,其并不属于终端的必须构成,完全可以根据需要在不改变发明的本质的范围内而省略。
处理器908是终端的控制中心,利用各种接口和线路连接整个手机的各个部分,通过运行或执行存储在存储器902内的软件程序和/或模块,以及调用存储在存储器902内的数据,执行终端的各种功能和处理数据,从而对手机进行整体监控。可选的,处理器908可包括一个或多个处理核心;优选的,处理器908可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器908中。
终端还包括给各个部件供电的电源909(比如电池),优选的,电源可以通过电源管理系统与处理器908逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源909还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
尽管未示出,终端还可以包括摄像头、蓝牙模块等,在此不再赘述。具体在本实施例中,终端中的处理器908会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器902中,并由处理器908来运行存储在存储器902中的应用程序,从而实现各种功能:
在直播界面播放直播内容,识别直播内容中预设语种的目标语音信息,在直播界面显示目标语音信息对应的目标文本信息,响应于针对目标文本信息的触控指令,显示目标文本信息对应的扩展信息。
以及获取语音信息,识别语音信息中预设语种的目标语音信息,将目标语音信息转化为文本信息,得到目标文本信息;将目标文本信息同步至学生终端,以使得学生终端显示目标文本信息及目标文本信息对应的扩展信息。
应当说明的是,本申请实施例提供的终端与上文实施例中的适用于终端的信息处理方法属于同一构思,其具体实现过程详见以上方法实施例,此处不再赘述。
实施例十、
本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过指令来完成,或通过指令控制相关的硬件来完成,该指令可以存储于一存储介质中,并由处理器进行加载和执行。
为此,本申请实施例提供一种存储介质,其中存储有多条指令,该指令能够被处理器进行加载,以执行本申请实施例所提供的任一种信息处理方法中的步骤。例如,该指令可以执行如下步骤:
在直播界面播放直播内容,识别直播内容中预设语种的目标语音信息,在直播界面显示目标语音信息对应的目标文本信息,响应于针对目标文本信息的触控指令,显示目标文本信息对应的扩展信息。
以及获取语音信息,识别语音信息中预设语种的目标语音信息,将目标语音信息转化为文本信息,得到目标文本信息;将目标文本信息同步至学生终端,以使得学生终端显示目标文本信息及目标文本信息对应的扩展信息。
根据本申请的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在存储介质中。计算机设备的处理器从存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述实施例提供的各种可选实现方式中提供的方法。以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
其中,该存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、磁盘或光盘等。
由于该存储介质中所存储的指令,可以执行本申请实施例所提供的任一种信息处理方法中的步骤,因此,可以实现本申请实施例所提供的任一种信息处理方法所能实现的有益效果,详见前面的实施例,在此不再赘述。
以上对本申请实施例所提供的一种信息处理方法、装置、存储介质及系统进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (14)

1.一种信息处理方法,其特征在于,包括:
在直播界面播放直播内容;
识别所述直播内容中预设语种的目标语音信息;
在所述直播界面显示所述目标语音信息对应的目标文本信息;
响应于针对所述目标文本信息的触控指令,显示所述目标文本信息对应的扩展信息。
2.根据权利要求1所述的方法,其特征在于,所述在所述直播界面显示所述目标语音信息对应的目标文本信息,包括:
获取所述目标语音信息对应的目标文本信息;
将所述目标文本信息悬浮显示于所述直播界面中。
3.根据权利要求2所述的方法,其特征在于,所述将所述目标文本信息悬浮显示于所述直播界面中,包括:
分解所述目标文本信息,得到多个分词信息;
基于所述多个分词信息,生成与每个分词信息对应的透明悬浮气泡;
在所述直播界面上显示所述透明悬浮气泡;
所述响应于针对所述目标文本信息的触控指令,显示所述目标文本信息对应的扩展信息,包括:
响应于针对目标透明悬浮气泡的触控指令,显示所述目标悬浮气泡对应的目标分词信息的扩展信息。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
接收对选定透明悬浮气泡的拖动操作,确定所述拖动操作的拖动终点坐标是否位于预设区域;
当所述拖动终点坐标位于所述预设区域时,将所述选定透明悬浮气泡对应的分词信息存储于生词本中。
5.根据权利要求1所述的方法,其特征在于,所述在所述直播界面显示所述目标语音信息对应的目标文本信息,包括:
将所述直播界面划分为第一界面与第二界面;
在所述第一界面显示所述直播内容的对应的直播视频;
在所述第二显示界面显示所述目标语音信息对应的目标文本信息。
6.根据权利要求1至5中任意一项所述的方法,其特征在于,所述识别所述直播内容中预设语种的目标语音信息,包括:
获取所述直播内容中符合预设声纹信息的第一语音信息;
识别所述第一语音信息中预设语种的目标语音信息。
7.一种信息处理方法,其特征在于,包括:
获取语音信息;
识别所述语音信息中预设语种的目标语音信息;
将所述目标语音信息转化为文本信息,得到目标文本信息;
将所述目标文本信息同步至学生终端,以使得所述学生终端显示所述目标文本信息以及所述目标文本信息对应的扩展信息。
8.根据权利要求7所述的方法,其特征在于,所述将所述目标语音信息转化为文本信息,得到目标文本信息,包括:
将所述目标语音信息转化为文本信息;
将所述文本信息在终端的显示界面上进行展示,以便用户对所述文本信息进行检核;
接收用户输入的检核结果;
当检核结果为检核合格时,将所述文本信息确定为目标文本信息;
当检核结果为检核不合格时,展示文本信息修改界面,接收用户的修改操作,并确定修改后的文本信息为目标文本信息。
9.根据权利要求7或8所述的方法,其特征在于,所述识别所述语音信息中预设语种的目标语音信息,包括:
获取所述语音信息中符合预设声纹信息的第一语音信息;
识别所述第一语音信息中预设语种的目标语音信息。
10.一种信息处理装置,其特征在于,包括:
播放单元,用于在直播界面播放直播内容;
识别单元,用于识别所述直播内容中预设语种的目标语音信息;
第一显示单元,用于在所述直播界面显示所述目标语音信息对应的目标文本信息;
第二显示单元,用于响应于针对所述目标文本信息的触控指令,显示所述目标文本信息对应的扩展信息。
11.一种信息处理装置,其特征在于,包括:
获取单元,用于获取语音信息;
识别单元,用于识别所述语音信息中预设语种的目标语音信息;
转化单元,用于将所述目标语音信息转化为文本信息,得到目标文本信息;
同步单元,用于将所述目标文本信息同步至学生终端,以使得所述学生终端显示所述目标文本信息及所述目标文本信息对应的扩展信息。
12.一种存储介质,其特征在于,所述存储介质存储有多条指令,所述指令适于处理器进行加载,以执行权利要求1至6任一项或权利要求7至9任一项所述的信息处理方法中的步骤。
13.一种终端,其特征在于,包括处理器和存储器,所述存储器存储有多条指令,所述处理器从所述存储器中加载指令,以执行如权利要求1至6任一项或权利要求7至9任一项所述的信息处理方法中的步骤。
14.一种信息处理系统,其特征在于,所述系统包括:
第一终端、第二终端和服务器;
所述第一终端包括如权利要求10所述的信息处理装置;
所述第二终端包括如权利要求11所述的信息处理装置;
所述服务器用于将所述第二终端发送的目标文本信息同步至第一终端。
CN202011040766.4A 2020-09-28 2020-09-28 信息处理方法、装置、存储介质、终端及系统 Pending CN112165627A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011040766.4A CN112165627A (zh) 2020-09-28 2020-09-28 信息处理方法、装置、存储介质、终端及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011040766.4A CN112165627A (zh) 2020-09-28 2020-09-28 信息处理方法、装置、存储介质、终端及系统

Publications (1)

Publication Number Publication Date
CN112165627A true CN112165627A (zh) 2021-01-01

Family

ID=73861971

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011040766.4A Pending CN112165627A (zh) 2020-09-28 2020-09-28 信息处理方法、装置、存储介质、终端及系统

Country Status (1)

Country Link
CN (1) CN112165627A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112818674A (zh) * 2021-01-29 2021-05-18 广州繁星互娱信息科技有限公司 带货直播的信息处理方法、装置、设备及介质
CN113140138A (zh) * 2021-04-25 2021-07-20 新东方教育科技集团有限公司 互动教学方法、装置、存储介质及电子设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008017188A1 (fr) * 2006-07-17 2008-02-14 Luntang Liu Système et procédé pour réaliser un support d'enseignement de cours de langue
CN102314412A (zh) * 2010-06-30 2012-01-11 汉王科技股份有限公司 记录语境信息以及追溯生词语境的方法和系统
CN111522971A (zh) * 2020-04-08 2020-08-11 广东小天才科技有限公司 一种直播教学中辅助用户听课的方法及装置
CN111541904A (zh) * 2020-04-15 2020-08-14 腾讯科技(深圳)有限公司 直播过程中的信息提示方法、装置、设备及存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008017188A1 (fr) * 2006-07-17 2008-02-14 Luntang Liu Système et procédé pour réaliser un support d'enseignement de cours de langue
CN102314412A (zh) * 2010-06-30 2012-01-11 汉王科技股份有限公司 记录语境信息以及追溯生词语境的方法和系统
CN111522971A (zh) * 2020-04-08 2020-08-11 广东小天才科技有限公司 一种直播教学中辅助用户听课的方法及装置
CN111541904A (zh) * 2020-04-15 2020-08-14 腾讯科技(深圳)有限公司 直播过程中的信息提示方法、装置、设备及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112818674A (zh) * 2021-01-29 2021-05-18 广州繁星互娱信息科技有限公司 带货直播的信息处理方法、装置、设备及介质
CN113140138A (zh) * 2021-04-25 2021-07-20 新东方教育科技集团有限公司 互动教学方法、装置、存储介质及电子设备

Similar Documents

Publication Publication Date Title
US20210104232A1 (en) Electronic device for processing user utterance and method of operating same
US20210065716A1 (en) Voice processing method and electronic device supporting the same
CN111339246B (zh) 查询语句模板的生成方法、装置、设备及介质
EP3611724A1 (en) Voice response method and device, and smart device
CN110381388A (zh) 一种基于人工智能的字幕生成方法和装置
CN106663427A (zh) 用于服务语音发音的高速缓存设备
WO2022089192A1 (zh) 一种互动处理方法、装置、电子设备和存储介质
CN108763552B (zh) 一种基于家教机的学习方法及家教机
CN110830362B (zh) 一种生成内容的方法、移动终端
CN109240785B (zh) 一种设置语言的方法、终端及存储介质
CN110830368B (zh) 即时通讯消息发送方法及电子设备
WO2016119165A1 (zh) 历史聊天记录展示的方法和装置
CN109495638B (zh) 一种信息显示方法及终端
US20190302970A1 (en) Method for executing application and electronic device supporting the same
CN110908627A (zh) 投屏方法及第一电子设备
CN112165627A (zh) 信息处理方法、装置、存储介质、终端及系统
CN113033245A (zh) 一种功能调节方法、装置、存储介质及电子设备
CN111899576A (zh) 发音测试应用的控制方法、装置、存储介质和电子设备
CN112232066A (zh) 一种教学纲要生成方法、装置、存储介质及电子设备
CN110750198A (zh) 一种表情发送方法及移动终端
CN108595107B (zh) 一种界面内容处理方法及移动终端
CN110399474A (zh) 一种智能对话方法、装置、设备及存储介质
CN109272983A (zh) 用于亲子教育的双语切换装置
CN111639158B (zh) 一种学习内容的显示方法及电子设备
CN113205569A (zh) 图像绘制方法及装置、计算机可读介质和电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40037352

Country of ref document: HK

SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination