CN105913845A - 一种移动终端识别语音生成字幕的方法、系统及移动终端 - Google Patents
一种移动终端识别语音生成字幕的方法、系统及移动终端 Download PDFInfo
- Publication number
- CN105913845A CN105913845A CN201610263142.6A CN201610263142A CN105913845A CN 105913845 A CN105913845 A CN 105913845A CN 201610263142 A CN201610263142 A CN 201610263142A CN 105913845 A CN105913845 A CN 105913845A
- Authority
- CN
- China
- Prior art keywords
- voice
- mobile terminal
- captions
- storehouse
- song
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 32
- 238000005516 engineering process Methods 0.000 claims abstract description 18
- 238000004519 manufacturing process Methods 0.000 claims description 32
- 230000006855 networking Effects 0.000 claims description 22
- 238000009434 installation Methods 0.000 claims description 4
- 230000005540 biological transmission Effects 0.000 claims description 3
- 238000003012 network analysis Methods 0.000 claims description 3
- 238000004891 communication Methods 0.000 abstract description 6
- 230000000694 effects Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 241000238558 Eucarida Species 0.000 description 1
- 206010068319 Oropharyngeal pain Diseases 0.000 description 1
- 201000007100 Pharyngitis Diseases 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000001427 coherent effect Effects 0.000 description 1
- 230000008094 contradictory effect Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000035772 mutation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明公开了一种移动终端识别语音生成字幕的方法、系统及移动终端,其中,方法包括:预先在移动终端中安装本地语音库;移动终端麦克风获取当前视频或歌曲的语音输入;在移动终端本地解析当前视频或歌曲中输入的语音、获取对应的语音特征;利用本地语音库将所获取的语音特征生成对应的文字,并将生成的文字同步显示在视频或歌曲界面上。本发明使用语音识别技术,结合语音库的大数据将采样输入视频或者歌曲的声音,翻译成用户需要的语种字幕,能达到快速地捕捉声音输入,快速地解析和生成字幕,方便用户学习、沟通交流和娱乐目的。
Description
技术领域
本发明涉及语音识别技术领域,尤其涉及一种移动终端识别语音生成字幕的方法、系统及移动终端。
背景技术
近二十年来,语音识别技术取得显著进步,开始从实验室走向市场。预计在未来十年内,语音识别技术将全面进入工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个应用领域。在目前,语音识别应用,对于在网页应用或者在输入法中、或者在导航软件、各类APP中,都呈现出迅速发展的趋势,尤其是苹果手机系统里面的Siri智能语音助手更是将语音识别和语意合成技术推向一个新的高度。
目前语音识别技术更多的应用在APP或者浏览器等的语音输入转成文字方面。然而,在视频或者歌曲的语音输入应用上,语音识别应用技术较为落后。譬如,为方便学习和沟通交流,用户常常需观看视频或者收听歌曲,一般用户不熟练其它外语,常常受语言限制,不能体会到视频或者歌曲中语义的真实意境和涵义,为用户带来不便。
有鉴于此,现有技术有待改进和提高。
发明内容
鉴于现有技术的不足,本发明目的在于提供一种移动终端识别语音生成字幕的方法、系统及移动终端。本发明将移动终端的语音识别技术利用在视频或者歌曲应用上,并采用本地语音库或网络语音库解析、自动生成相应的字幕,方便用户学习和沟通交流。
本发明的技术方案如下:
一种移动终端识别语音生成字幕的方法,其中,包括以下步骤:
S1、预先在移动终端中安装本地语音库;
S2、移动终端麦克风获取当前视频或歌曲的语音输入;
S3、在移动终端本地解析当前视频或歌曲中输入的语音、获取对应的语音特征;
S4、利用本地语音库将所获取的语音特征生成对应的文字,并将生成的文字同步显示在视频或歌曲界面上。
所述的移动终端识别语音生成字幕的方法,其中,所述步骤S1还包括:
S11、将移动终端联网到网络语音库。
所述的移动终端识别语音生成字幕的方法,其中,所述步骤S3还包括:
S31、移动终端将当前视频或歌曲中输入的语音联网上传至网络语音库,解析获得对应的语音特征。
所述的移动终端识别语音生成字幕的方法,其中,所述步骤S4还包括:
S41、利用网络语音库将解析获取的语音特征生成对应的文字,将生成的文字发送至移动终端、并同步显示在视频或歌曲界面上。
所述的移动终端识别语音生成字幕的方法,其中,所述本地语音库或网络语音库为语音、文字和语意均相适应的数据库;所述网络语音库为Neospeech语音库、科大讯飞语音库或Nuance语音库。
本发明还提供一种移动终端识别语音生成字幕的系统,其中,包括:
本地语音库安装模块、用于预先在移动终端中安装本地语音库;
语音获取模块、用于移动终端麦克风获取当前视频或歌曲的语音输入;
语音特征本地解析模块、用于在移动终端本地解析当前视频或歌曲中输入的语音、获取对应的语音特征;
第一字幕生成与显示模块、用于利用本地语音库将所获取的语音特征生成对应的文字,并将生成的文字同步显示在视频或歌曲界面上。
所述的移动终端识别语音生成字幕的系统,其中,所述系统还包括:
联网模块、用于将移动终端联网到网络语音库。
所述的移动终端识别语音生成字幕的系统,其中,所述系统还包括:
语音特征网络解析模块、用于移动终端将当前视频或歌曲中输入的语音联网上传至网络语音库,解析获得对应的语音特征。
所述的移动终端识别语音生成字幕的系统,其中,所述系统还包括:
第二字幕生成与显示模块、用于利用网络语音库将解析获取的语音特征生成对应的文字,将生成的文字发送至移动终端、并同步显示在视频或歌曲界面上。
所述的移动终端识别语音生成字幕的系统,其中,所述本地语音库或网络语音库为语音、文字和语意均相适应的数据库;所述网络语音库为Neospeech语音库、科大讯飞语音库或Nuance语音库。
本发明还提供一种移动终端,其中,包括上述任一项的识别语音生成字幕的系统。
有益效果:本申请的一种移动终端识别语音生成字幕的方法、系统及移动终端,采用移动终端的MIC采集视频或歌曲的语音输入,然后通过本地或联网的语音库解析语音,从而将语音对应的文字显示在视频或歌曲的显示界面上形成字幕,本发明使用语音识别技术,结合语音库的大数据将采样输入视频或者歌曲的声音,翻译成用户需要的语种字幕,能达到快速地捕捉声音输入,快速地解析和生成字幕,方便用户学习,沟通交流和娱乐目的。
附图说明
图1为本发明一种移动终端识别语音生成字幕的方法较佳实施例的流程图。
图2为本发明一种移动终端识别语音生成字幕的系统较佳实施例的模块框图。
具体实施方式
本发明提供一种移动终端识别语音生成字幕的方法、系统及移动终端,为使本发明的目的、技术方案及效果更加清楚、明确,以下对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
日常生活中,或多或少都会出现以下情况:如在观看外文视频中,很多视频都是没有字幕的,譬如一些国外网站上的公开课程;或者观看精彩的日本动漫;又或者在网上收听的外文歌曲只有音乐没有相应的字幕。只接听得到声音而不知道声音所代表的真实意思,很是让观看者苦恼。本发明提供一种移动终端识别语音生成字幕的方法,请参阅图1,所述识别语音生成字幕的方法包括以下步骤:
S1、预先在移动终端中安装本地语音库。
本发明具体实施时,移动终端以手机为例进行说明,当然,移动终端可以为手机、平板、笔记本电脑或者其它移动设备。移动终端中设置有采集语音信息的麦克风或者其它语音采集装置。本发明还预先在移动终端中安装本地语音库,各类语音库可以从网上下载,譬如Neospeech、科大讯飞或Nuance提供用户下载的语音库。具体地,所述本地安装的语音库为包含语音、文字和语意均相适应的数据库;在语音库中通过输入的语音,能根据具体语境、语竟,查找到相应的文字组成通顺的语句,与输入的语音相适应。所述语音库还可以按类别区分下载安装到本地,如美音语音库、日语语音库、法语语音库、电影语音库等,可根据采集的视频及歌曲的语音输入类型,由移动终端自动选择或由用户手动选择相适应的语音库,解析输入的语音信息,譬如,若当前手机播放的视频为法语语音视频,则用户可手动选择手机安装的法语语音库作为解析语音的数据库,从而提高语音转化成文字的速度。
本发明在具体实施时,还可以将移动终端联网到网络语音库。因而,移动终端能实时地将用麦克风采集到的当前视频或者歌曲的语音,实时通过网络传输到网络语音库中解析,并在语音库中查找相对的词名、以生成语义相适应的文字。通过网络语音库,能搜索到更多类型的语音库,方便针对不同类型的语音输入进行及时解析;在网络语音库中其数据量不似本地语音库,受移动终端内存限制,因而使用网络语音库可提高将视频或歌曲中的语音转化成字幕的准确率,也同时加快了同步生成字幕的速度。具体地,本发明所述的网络语音库可以为Neospeech语音库、科大讯飞语音库或Nuance语音库等,譬如,无论是国外的Nuance还是国内的科大讯飞,它们提供的联网语音库都非常强大,能满足本发明解析生成字幕需要。
进一步地,可以同时在移动终端本地安装语音库,也将移动终端联网网络语音库,在播放视频或歌曲时,先搜索本地语音库,在未找到区配类型的语音库时,如正在播放的为法语电影,然而本地没有安装法语语音库,则能及时联网网络上的法语语音库,及时获取与语音相适应的字幕。
S2、移动终端麦克风获取当前视频或歌曲的语音输入。譬如,移动终端通过自带的麦克风获取当前播放视频或歌曲的语音输入,当然,也可以采用其它设置于移动终端中的语音采集装置。
S3、在移动终端本地解析当前视频或歌曲中输入的语音、获取对应的语音特征。
当将语音库下载安装到移动终端本地时,则通过在移动终端本地解析当前视频或歌曲中输入的语音、获取对应的语音特征。当然,当移动终端联网网络语音库时,移动终端将当前视频或歌曲中输入的语音联网上传至网络语音库,解析获得对应的语音特征。
本发明所述的语音特征可以为区别性语音特征,譬如,语音里的音位互相对立,从而使语素和词的语音形式和意义能够彼此区别开来。音位的这种相互对立和区别,如果进一步加以分析,是通过几个语音特征来实现的。比如汉语普通话中的/p/音位通过“双唇”这个特征和非双唇音区别开来,通过“清音”这个特征和浊音区别开来,通过“塞音”这个特征和擦音、鼻音、边音、闪音、颤音等区别开来,通过“不送气”这个特征和送气音区别开来,这些特征加合起来就能把/p/音位和汉语普通话中的所有其它音位相区别。这种具有区别音位作用的语音特征就是区别性语音特征。语音中的每一个音位都可以分解成几个区别特征,音位之间的对立可以进一步分解成区别特征之间的对立,这样就可以判断音位的变异功能归根到底是由区别性语音特征承担的。
S4、利用本地语音库将所获取的语音特征生成对应的文字,并将生成的文字同步显示在视频或歌曲界面上。
当将语音库下载安装到移动终端本地时,利用本地语音库将所获取的语音特征生成对应的文字,并结合语音库中的语意,并将生成的文字同步显示在视频或歌曲界面上,形成供用户观看的字幕,这样用户就能直接查看同步的字幕了解视频或歌曲所表达的意思。进一步地,当移动终端联网网络语音库时,则利用网络语音库将解析获取的语音特征生成对应的文字,将生成的文字发送至移动终端、并同步显示在视频或歌曲界面上。譬如用户观看无任何字幕的日本动漫,用户不需要懂得日语,只要在播放动漫过程中将播放的语音解析生成文字,就能在视频界面生成字幕,因而用户观看动漫,即使听不明所播放的日语,也能根据字幕了解剧情等信息,为观看者提供方便。
本发明采用移动终端的MIC采集视频或歌曲的语音输入,然后通过本地或联网的语音库解析语音,从而将语音对应的文字显示在视频或歌曲的显示界面上形成字幕,为用户提供便利,使用户观看视频或收听歌曲,了解语义毫无障碍。
进一步地,本发明还提供一种移动终端识别语音生成字幕的系统,如图2所示,包括:
本地语音库安装模块110、用于预先在移动终端中安装本地语音库;具体如上述方法实施例所述。
语音获取模块120、用于移动终端麦克风获取当前视频或歌曲的语音输入;具体如上述方法实施例所述。
语音特征本地解析模块130、用于在移动终端本地解析当前视频或歌曲中输入的语音、获取对应的语音特征;具体如上述方法实施例所述。
第一字幕生成与显示模块140、用于利用本地语音库将所获取的语音特征生成对应的文字,并将生成的文字同步显示在视频或歌曲界面上。具体如上述方法实施例所述。
进一步地,所述系统还包括:
联网模块1101、用于将移动终端联网到网络语音库。具体如上述方法实施例所述。具体如上述方法实施例所述。
进一步地,所述系统还包括:
语音特征网络解析模块1301、用于移动终端将当前视频或歌曲中输入的语音联网上传至网络语音库,解析获得对应的语音特征。具体如上述方法实施例所述。
进一步地,所述系统还可以包括:
第二字幕生成与显示模块1401、用于利用网络语音库将解析获取的语音特征生成对应的文字,将生成的文字发送至移动终端、并同步显示在视频或歌曲界面上;具体如上述方法实施例所述。
本系统具体实施时,所述本地语音库或网络语音库为语音、文字和语意均相适应的数据库;所述网络语音库为Neospeech语音库、科大讯飞语音库或Nuance语音库。具体如上述方法实施例所述。
本发明还提供一种移动终端,包括上述任一项所述系统。
综上所述,本发明提供的一种移动终端识别语音生成字幕的方法、系统及移动终端,采用移动终端的MIC采集视频或歌曲的语音输入,然后通过本地或联网的语音库解析语音,从而将语音对应的文字显示在视频或歌曲的显示界面上形成字幕,本发明使用语音识别技术,结合语音库的大数据将采样输入视频或者歌曲的声音,翻译成用户需要的语种字幕,能达到快速地捕捉声音输入,快速地解析和生成字幕,方便用户学习,沟通交流和娱乐目的。
应当理解的是,本发明的应用不限于上述的举例,对本领域普通技术人员来说,可以根据上述说明加以改进或变换,所有这些改进和变换都应属于本发明所附权利要求的保护范围。
Claims (10)
1.一种移动终端识别语音生成字幕的方法,其特征在于,包括以下步骤:
S1、预先在移动终端中安装本地语音库;
S2、移动终端麦克风获取当前视频或歌曲的语音输入;
S3、在移动终端本地解析当前视频或歌曲中输入的语音、获取对应的语音特征;
S4、利用本地语音库将所获取的语音特征生成对应的文字,并将生成的文字同步显示在视频或歌曲界面上。
2.根据权利要求1所述的移动终端识别语音生成字幕的方法,其特征在于,所述步骤S1还包括:
S11、将移动终端联网到网络语音库。
3.根据权利要求2所述的移动终端识别语音生成字幕的方法,其特征在于,所述步骤S3还包括:
S31、移动终端将当前视频或歌曲中输入的语音联网上传至网络语音库,解析获得对应的语音特征。
4.根据权利要求2所述的移动终端识别语音生成字幕的方法,其特征在于,所述步骤S4还包括:
S41、利用网络语音库将解析获取的语音特征生成对应的文字,将生成的文字发送至移动终端、并同步显示在视频或歌曲界面上。
5.根据权利要求1所述的移动终端识别语音生成字幕的方法,其特征在于,所述本地语音库或网络语音库为语音、文字和语意均相适应的数据库;所述网络语音库为Neospeech语音库、科大讯飞语音库或Nuance语音库。
6.一种移动终端识别语音生成字幕的系统,其特征在于,包括:
本地语音库安装模块、用于预先在移动终端中安装本地语音库;
语音获取模块、用于移动终端麦克风获取当前视频或歌曲的语音输入;
语音特征本地解析模块、用于在移动终端本地解析当前视频或歌曲中输入的语音、获取对应的语音特征;
第一字幕生成与显示模块、用于利用本地语音库将所获取的语音特征生成对应的文字,并将生成的文字同步显示在视频或歌曲界面上。
7.根据权利要求6所述的移动终端识别语音生成字幕的系统,其特征在于,所述系统还包括:
联网模块、用于将移动终端联网到网络语音库。
8.根据权利要求7所述的移动终端识别语音生成字幕的系统,其特征在于,所述系统还包括:
语音特征网络解析模块、用于移动终端将当前视频或歌曲中输入的语音联网上传至网络语音库,解析获得对应的语音特征。
9.根据权利要求7所述的移动终端识别语音生成字幕的系统,其特征在于,所述系统还包括:
第二字幕生成与显示模块、用于利用网络语音库将解析获取的语音特征生成对应的文字,将生成的文字发送至移动终端、并同步显示在视频或歌曲界面上;
所述本地语音库或网络语音库为语音、文字和语意均相适应的数据库;所述网络语音库为Neospeech语音库、科大讯飞语音库或Nuance语音库。
10.一种移动终端,其特征在于,包括如权利要求6~9所述任一项的识别语音生成字幕的系统。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610263142.6A CN105913845A (zh) | 2016-04-26 | 2016-04-26 | 一种移动终端识别语音生成字幕的方法、系统及移动终端 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610263142.6A CN105913845A (zh) | 2016-04-26 | 2016-04-26 | 一种移动终端识别语音生成字幕的方法、系统及移动终端 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN105913845A true CN105913845A (zh) | 2016-08-31 |
Family
ID=56752139
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610263142.6A Pending CN105913845A (zh) | 2016-04-26 | 2016-04-26 | 一种移动终端识别语音生成字幕的方法、系统及移动终端 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105913845A (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106341722A (zh) * | 2016-09-21 | 2017-01-18 | 努比亚技术有限公司 | 一种视频编辑方法及装置 |
CN106504754A (zh) * | 2016-09-29 | 2017-03-15 | 浙江大学 | 一种根据音频输出的实时字幕生成方法 |
CN107527623A (zh) * | 2017-08-07 | 2017-12-29 | 广州视源电子科技股份有限公司 | 传屏方法、装置、电子设备及计算机可读存储介质 |
CN108281145A (zh) * | 2018-01-29 | 2018-07-13 | 南京地平线机器人技术有限公司 | 语音处理方法、语音处理装置和电子设备 |
CN110060687A (zh) * | 2016-09-05 | 2019-07-26 | 北京金山软件有限公司 | 一种语音信息转换、信息生成方法及装置 |
CN113115103A (zh) * | 2021-03-09 | 2021-07-13 | 杭州麦趣网络科技有限公司 | 一种网络直播实现实时音频转文字的系统及方法 |
CN113611284A (zh) * | 2021-08-06 | 2021-11-05 | 工银科技有限公司 | 语音库构建方法、识别方法、构建系统和识别系统 |
US11200881B2 (en) | 2019-07-26 | 2021-12-14 | International Business Machines Corporation | Automatic translation using deep learning |
CN114666653A (zh) * | 2022-03-23 | 2022-06-24 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种音乐片段的字幕显示方法、设备及可读存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN201403118Y (zh) * | 2008-12-12 | 2010-02-10 | 康佳集团股份有限公司 | 具有翻译方言功能的装置和移动终端 |
CN103561217A (zh) * | 2013-10-14 | 2014-02-05 | 深圳创维数字技术股份有限公司 | 一种生成字幕的方法及终端 |
CN104038864A (zh) * | 2013-03-08 | 2014-09-10 | 亚德诺半导体股份有限公司 | 带有语音识别的麦克风电路总成和系统 |
-
2016
- 2016-04-26 CN CN201610263142.6A patent/CN105913845A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN201403118Y (zh) * | 2008-12-12 | 2010-02-10 | 康佳集团股份有限公司 | 具有翻译方言功能的装置和移动终端 |
CN104038864A (zh) * | 2013-03-08 | 2014-09-10 | 亚德诺半导体股份有限公司 | 带有语音识别的麦克风电路总成和系统 |
CN103561217A (zh) * | 2013-10-14 | 2014-02-05 | 深圳创维数字技术股份有限公司 | 一种生成字幕的方法及终端 |
Non-Patent Citations (1)
Title |
---|
梁磊 等: "《什么是语音学》", 30 November 2015 * |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110060687A (zh) * | 2016-09-05 | 2019-07-26 | 北京金山软件有限公司 | 一种语音信息转换、信息生成方法及装置 |
CN106341722A (zh) * | 2016-09-21 | 2017-01-18 | 努比亚技术有限公司 | 一种视频编辑方法及装置 |
CN106504754A (zh) * | 2016-09-29 | 2017-03-15 | 浙江大学 | 一种根据音频输出的实时字幕生成方法 |
CN107527623A (zh) * | 2017-08-07 | 2017-12-29 | 广州视源电子科技股份有限公司 | 传屏方法、装置、电子设备及计算机可读存储介质 |
CN108281145A (zh) * | 2018-01-29 | 2018-07-13 | 南京地平线机器人技术有限公司 | 语音处理方法、语音处理装置和电子设备 |
CN108281145B (zh) * | 2018-01-29 | 2021-07-02 | 南京地平线机器人技术有限公司 | 语音处理方法、语音处理装置和电子设备 |
US11200881B2 (en) | 2019-07-26 | 2021-12-14 | International Business Machines Corporation | Automatic translation using deep learning |
CN113115103A (zh) * | 2021-03-09 | 2021-07-13 | 杭州麦趣网络科技有限公司 | 一种网络直播实现实时音频转文字的系统及方法 |
CN113611284A (zh) * | 2021-08-06 | 2021-11-05 | 工银科技有限公司 | 语音库构建方法、识别方法、构建系统和识别系统 |
CN113611284B (zh) * | 2021-08-06 | 2024-05-07 | 工银科技有限公司 | 语音库构建方法、识别方法、构建系统和识别系统 |
CN114666653A (zh) * | 2022-03-23 | 2022-06-24 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种音乐片段的字幕显示方法、设备及可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105913845A (zh) | 一种移动终端识别语音生成字幕的方法、系统及移动终端 | |
US11475897B2 (en) | Method and apparatus for response using voice matching user category | |
CN104731959B (zh) | 基于文本的网页内容生成视频摘要的方法、装置及系统 | |
US9190052B2 (en) | Systems and methods for providing information discovery and retrieval | |
US10332506B2 (en) | Computerized system and method for formatted transcription of multimedia content | |
US8924853B2 (en) | Apparatus, and associated method, for cognitively translating media to facilitate understanding | |
CN104681023A (zh) | 一种信息处理方法及电子设备 | |
CN105335455A (zh) | 一种阅读文字的方法及装置 | |
US9652452B2 (en) | Method and system for constructing a language model | |
CN107577385A (zh) | 媒体环境中的智能自动化助理 | |
US10394886B2 (en) | Electronic device, computer-implemented method and computer program | |
CN104078038B (zh) | 一种页面内容朗读方法和装置 | |
CN103956167A (zh) | 一种基于Web的可视化手语翻译方法及设备 | |
CN109710949A (zh) | 一种翻译方法及翻译机 | |
CN110008314B (zh) | 一种意图解析方法及装置 | |
JP2016099381A (ja) | 音声対話システムおよび音声対話方法 | |
Choi et al. | Pansori: ASR corpus generation from open online video contents | |
Madjarov et al. | Learning content adaptation for m-Learning systems: a multimodality approach | |
KR102295826B1 (ko) | 음향효과를 제공하는 전자책 서비스 방법 및 장치 | |
KR102446966B1 (ko) | 웹브라우저 번역 시스템 및 이를 제공하는 방법 | |
McGill et al. | BSL-Hansard: A parallel, multimodal corpus of English and interpreted British Sign Language data from parliamentary proceedings | |
Xu et al. | Yochina: Mobile multimedia and multimodal crosslingual dialogue system | |
Lin et al. | Using chinese spoken-language access to the WWW | |
Bhavani et al. | Newsreader application for blind people using text to speech synthesis | |
CN116631403A (zh) | 一种数据处理方法、装置及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20160831 |