CN109036383A - 一种结合爬虫技术的轻量级实时语音识别及翻译装置 - Google Patents

一种结合爬虫技术的轻量级实时语音识别及翻译装置 Download PDF

Info

Publication number
CN109036383A
CN109036383A CN201810970729.XA CN201810970729A CN109036383A CN 109036383 A CN109036383 A CN 109036383A CN 201810970729 A CN201810970729 A CN 201810970729A CN 109036383 A CN109036383 A CN 109036383A
Authority
CN
China
Prior art keywords
translation
unit
audio block
identification
sound stream
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810970729.XA
Other languages
English (en)
Other versions
CN109036383B (zh
Inventor
牛亚运
仲梁维
王培成
王俊
杨钰博
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Shanghai for Science and Technology
Original Assignee
University of Shanghai for Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Shanghai for Science and Technology filed Critical University of Shanghai for Science and Technology
Priority to CN201810970729.XA priority Critical patent/CN109036383B/zh
Publication of CN109036383A publication Critical patent/CN109036383A/zh
Application granted granted Critical
Publication of CN109036383B publication Critical patent/CN109036383B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供一种结合爬虫技术的轻量级实时语音识别及翻译装置,设置在连入互联网的终端中,通过与服务器交互进行语音识别及翻译,从而实现该装置的轻量化,其特征在于,包括:画面存储部、输入显示部、获取控制部、声音流获取部、声音流分块部、音频块缓存部、音频块缓存控制部、噪音筛选部、声音流判断部、留白判断部、音频块存储部、识别请求文件处理部、识别请求交互部、识别结果获取部、翻译请求文件处理部、翻译请求交互部、翻译结果获取部以及通信部;画面存储部存储有用户输入操作画面、语音识别画面以及语音翻译画面。

Description

一种结合爬虫技术的轻量级实时语音识别及翻译装置
技术领域
本发明涉及一种语言识别及翻译装置。
背景技术
互联网快速发展带来的是以视频媒介传递的信息越来越多,很多人苦于无法在观看视频或者在现场听演讲时无法获取语音的文本内容。主流的方法是一边听,一边通过打字从而获取听到的内容,这种做法的效率非常低下。
现有的语音识别技术,能够实现语音听写、语音转写等语音技术,提供在线的语音识别服务,并具有高识别准确度。
但是上述语音识别技术,需要较好的硬件设备支持,也无法实时的实现文本的翻译,即使通过一些翻译网站,由于语言识别的断句导致文本出现的一些问题,在翻译之后会使文本更加混乱。
发明内容
为解决上述问题,提供一种实时语音识别及翻译装置,本发明采用了如下技术方案:
本发明提供了一种结合爬虫技术的轻量级实时语音识别及翻译装置,设置在连入互联网的终端中,通过与服务器交互进行语音识别及翻译,其特征在于,包括:画面存储部、输入显示部、获取控制部、声音流获取部、声音流分块部、音频块缓存部、噪音筛选部、声音流判断部、音频块存储部、识别请求文件处理部、识别请求交互部、识别结果获取部、翻译请求文件处理部、翻译请求交互部、翻译结果获取部以及通信部;画面存储部存储有用户输入操作画面、语音识别画面以及语音翻译画面,输入显示部显示用户输入操作画面让用户选择需要进行识别的待识别文件,获取控制部控制声音流获取部从待识别文件中获取待识别声音流,声音流分块部将待识别声音流切分成音频块,音频块缓存部对音频块进行暂存,噪音筛选部依次筛选音频块并丢弃属于噪音的音频块,声音流判断部依次判断噪音筛选部处理后的音频块是否具有声音流,音频块存储部将声音流判断部判断为具有声音流的音频块作为有效音频块进行存储,识别请求文件处理部将需要识别的有效音频块处理为可以发送给识别服务器的识别请求文件,识别请求交互部通过通信部与识别服务器交互并发送识别请求文件,识别结果获取部根据识别服务器返回的结果获取最终的识别结果文本,输入显示部在语音识别画面的文本区中显示识别结果文本,翻译请求文件处理部将需要翻译的识别结果文本处理为可以发送给翻译服务器的翻译请求文件,翻译请求交互部通过通信部与翻译服务器交互并发送翻译请求文件,翻译结果获取部根据翻译服务器返回的结果获取与识别结果文本对应的翻译结果,输入显示部在语音翻译画面的文本区显示翻译结果。
本发明提供的实时语音识别及翻译装置,还可以具有这样的技术特征,还包括:留白判断部,其中,留白判断部依次判断声音流判断部处理后的有效音频块,判断为留白过多时,获取控制部控制声音流获取部停止对待识别声音流的获取。
本发明提供的实时语音识别及翻译装置,还可以具有这样的技术特征,还包括:留白判断部;终端还具有麦克风;其中,输入操作画面还具有麦克风录音选择画面,用户选择通过麦克风录入待识别文件,获取控制部控制麦克风开始录音,进一步控制声音流获取部从麦克风的录音中获取待识别声音流,留白判断部依次判断声音流判断部处理后的音频块,判断为留白过多时,获取控制部控制声音流获取部停止获取识别声音流,并控制麦克风停止录音。
本发明提供的实时语音识别及翻译装置,还可以具有这样的技术特征,还包括:音频块缓存控制部,其中,音频块以14秒为一段,在音频块缓存部中的缓存数量在20个以下,当音频块的数量超出20个时,音频块缓存控制部控制音频块缓存部将新的音频块覆盖当前最早生成的音频块。
本发明提供的实时语音识别及翻译装置,还可以具有这样的技术特征,其中,识别请求文件处理部、识别请求交互部以及识别结果获取部的语音识别过程运行基于如下步骤:步骤A1,通过预先设定的api参数拼接识别服务器的url地址;步骤A2,向识别服务器发送request请求;步骤A3,对识别服务器返回的参数筛选获得token参数;步骤A4,依次读取需要识别的音频块,并由token参数监听读取的过程;步骤A5,将音频块转化为字节类型的多个参数;步骤A6,将多个参数打包为字典参数;步骤A7,将字典参数与token参数作为识别请求文件发送给识别服务器;步骤A8,获取识别服务器返回的结果并筛选出识别内容;步骤A9,将识别结构内容转化为文本并输出。
本发明提供的实时语音识别及翻译装置,还可以具有这样的技术特征,其中,翻译请求文件处理部、翻译请求交互部以及翻译结果获取部的语音翻译过程运行基于如下步骤:步骤B1,获取预先设定的翻译网站地址;步骤B2,向翻译网站地址的翻译服务器发送预设单词,请求响应,查看其产生的动态参数;步骤B3,将动态参数打包为参数字典;步骤B4,将需要翻译的识别结果文本根据参数字典打包为翻译请求文件;步骤B5,将参数字典发送给翻译服务器;步骤B6,以post的方式模拟浏览器请求发起过程,将翻译请求发送给翻译服务器;步骤B7,获取翻译服务器返回的响应字典;步骤B8,将响应字典转化为响应字符串;步骤B9,解析响应字符串,获取对应翻译内容的译文字符串;步骤B10,将译文字符串转化为译文字典;步骤B11,将译文字典转化为与识别结果文本对应的翻译结果。
发明作用与效果
根据本发明的实时语音识别及翻译装置,提供了对视频或是现场演讲的实时翻译,可以自动、实时地提取视频或是现场演讲的语音文本内容,通过根据语音中的断句将声音流分块,同时滤去其中噪音的音频块,能够使语音识别更好地处理断句;该装置还可以实现多语言的识别或翻译,并支持在识别过程中将语言直接翻译输出;由于大部分的识别以及运算都交由服务器执行,因此该装置具有轻量化的特征,不需要很好的硬件、软件支持,可以被安装在普通的电脑或者小设备中,节约经济成本。
附图说明
图1是本发明实施例的装置的结构框图;
图2是本发明实施例的装置的语音识别过程的流程图;以及
图3是本发明实施例的装置的语音翻译过程的流程图。
具体实施方式
以下结合附图来说明本发明的具体实施方式。
<实施例>
图1是本发明实施例的装置的结构框图。
如图1所示,本实施例提供的结合爬虫技术的轻量级实时语音识别及翻译装置100包括:
画面存储部11、输入显示部12、获取控制部13、声音流获取部14、声音流分块部15、音频块缓存部16、音频块缓存控制部17、噪音筛选部18、声音流判断部19、留白判断部20、音频块存储部21、识别请求文件处理部22、识别请求交互部23、识别结果获取部24、翻译请求文件处理部25、翻译请求交互部26、翻译结果获取部27、通信部28以及控制上述各部运行的系统控制部29。
画面存储部11存储有用户输入操作画面、语音识别画面以及语音翻译画面。用户输入操作画面包括有待识别文件选择画面以及麦克风录音选择画面。
输入显示部12显示所述用户输入操作画面让用户选择需要进行识别的待识别文件或是选择使用麦克风录入待识别文件。
用户直接选择待识别文件时,获取控制部13控制声音流获取部14从所述待识别文件中获取待识别声音流;
用户选择使用麦克风录入待识别文件时,获取控制部13控制麦克风开始录音,进一步控制声音流获取部14从麦克风的录音中获取待识别声音流。
声音流分块部15将所述待识别声音流切分成音频块。音频块每块的时长为14秒。
音频块缓存部16对音频块进行暂存。
音频块缓存控制部17控制音频块缓存部16中的音频块数量在20个以下。当音频块数量超出时,音频块缓存控制部17控制音频块缓存部16将新生成的音频块覆盖当前最早生成的音频块。
噪音筛选部17依次筛选音频块并丢弃属于噪音的音频块。
声音流判断部19依次判断噪音筛选部17处理后的音频块是否具有声音流。
音频块存储部21将声音流判断部19判断为具有声音流的音频块作为有效音频块进行存储。
留白判断部20依次判断声音流判断部19处理后的音频块。
判断为留白过多且用户直接选择待识别文件时,获取控制部13控制声音流获取部14停止对待识别声音流的获取;
判断为留白过多且用户选择使用麦克风录入待识别文件时,获取控制部13控制声音流获取部14停止获取识别声音流,并控制麦克风停止录音。
识别请求文件处理部22将需要识别的有效音频块处理为可以发送给识别服务器的识别请求文件。
识别请求交互部23通过通信部28与识别服务器交互并发送识别请求文件。
识别结果获取部24根据所述识别服务器返回的结果获取最终的识别结果文本。
输入显示部12在语音识别画面的文本区中显示识别结果文本。
翻译请求文件处理部25将需要翻译的识别结果文本处理为可以发送给与翻译网站地址对应的翻译服务器的翻译请求文件。
翻译请求交互部26通过通信部28与翻译服务器交互并发送翻译请求文件。
翻译结果获取部27根据翻译服务器返回的结果获取与识别结果文本对应的翻译结果。
输入显示部12在语音翻译画面的文本区显示翻译结果。
通信部28用于完成本实施例的装置与服务器之间的通信。
图2是本发明实施例的装置的语音识别过程的流程图。
本实施例的装置的识别请求文件处理部22、识别请求交互部23以及识别结果获取部24的语音识别过程运行基于如下步骤,如图2所示:
其中,获取token的步骤由步骤A1、步骤A1以及步骤A3组成;
步骤A0,在用户输入待识别文件后,就开始语音识别过程;
步骤A1,通过预先设定的api参数拼接识别服务器的url地址;
步骤A2,向识别服务器发送request请求;
步骤A3,对识别服务器返回的参数筛选获得token参数;
步骤A4,依次读取从音频块存储部中获得的需要识别的音频块并由token参数监听读取的过程,;
步骤A5,将音频块转化为字节类型的多个参数;
步骤A6,将多个参数打包为字典参数;
步骤A7,将字典参数与token参数作为识别请求文件发送给识别服务器;
步骤A8,获取识别服务器返回的结果并筛选出识别内容;
步骤A9,将识别结构内容转化为文本并输出;
步骤A10,结束此次过程。
图3是本发明的装置的语音翻译过程的流程图。
本实施例的装置的翻译请求文件处理部、翻译请求交互部以及翻译结果获取部的语音翻译过程运行基于如下步骤,如图3所示:
其中,打包数据的步骤包括步骤B1、步骤B2、步骤B3以及步骤B4,发起请求的步骤包括步骤B5以及步骤B6,获取响应内容的步骤包括步骤B7以及步骤B8,解析内容的步骤包括步骤B9以及步骤B10;
步骤B0,从语音识别结果部获取到需要翻译的识别结果文本,开始语音翻译过程;
步骤B1,获取预先设定的翻译网站地址;
步骤B2,向所述翻译网站地址的翻译服务器发送预设单词,请求响应,查看其产生的动态参数;
步骤B3,将所述动态参数打包为参数字典;
步骤B4,将需要翻译的所述识别结果文本根据所述参数字典打包为翻译请求文件;
步骤B5,将所述参数字典发送给所述翻译服务器;
步骤B6,以post的方式模拟浏览器请求发起过程,将所述翻译请求发送给所述翻译服务器;
步骤B7,获取所述翻译服务器返回的响应字典;
步骤B8,将所述响应字典转化为响应字符串;
步骤B9,解析所述响应字符串,获取对应翻译内容的译文字符串;
步骤B10,将所述译文字符串转化为译文字典;
步骤B11,将所述译文字典转化为与所述识别结果文本对应的翻译结果;
步骤B12,将翻译结果输出并结束此次过程。
实施例作用与效果
根据本实施例提供的实时语音识别及翻译装置,提供了对视频或是现场演讲的实时翻译,可以自动、实时地提取视频或是现场演讲的语音文本内容,该装置还可以实现多语言的识别及翻译,在识别过程中将语言翻译并直接输出,提高工作效率;由于大部分的识别以及运算都交由服务器执行,因此该装置具有轻量化的特征,不需要很好的硬件、软件支持,可以被安装在普通的电脑或者小设备中,节约经济成本。
实施例中,设置有留白判断部,通过判断读取的音频块中是否存在大量留白,进一步判断音频中是否已经结束说话,从而结束对待识别文件的读取,避免了本实施例的装置长时间的占用终端设备。
实施例中,终端设备还具有麦克风,本实施例的装置能通过获取控制部控制麦克风进行录音,以此实现在现场演讲中实时的对语音进行翻译,同时,设置的留白判断部,可以通过判断读取的音频块中是否存在大量留白,进一步判断现场演讲是否已经结束发言,从而结束对待识别文件的读取并停止麦克风。
实施例中,设置有音频块缓存控制部,可以控制音频块缓存部中的音频块数量,避免本实施例的装置对终端设备的内存的占用。
实施例中,识别请求文件处理部、识别请求交互部以及识别结果获取部的语音识别各部基于语音识别过程方法运行,通过与服务器的交互,将占用大量终端设备运行资源的语音识别交由服务器运行,从而保证了本实施例的装置的轻量化。
实施例中,翻译请求文件处理部、翻译请求交互部以及翻译结果获取部的语音翻译各部基于语音翻译过程方法运行,通过与服务器的交互,将占用大量终端设备运行资源的语音翻译交由服务器运行,从而保证了本实施例的装置的轻量化。
上述实施例仅用于举例说明本发明的具体实施方式,而本发明不限于上述实施例的描述范围。

Claims (6)

1.一种结合爬虫技术的轻量级实时语音识别及翻译装置,设置在连入互联网的终端中,通过与服务器交互进行语音识别及翻译,其特征在于,包括:
画面存储部、输入显示部、获取控制部、声音流获取部、声音流分块部、音频块缓存部、噪音筛选部、声音流判断部、音频块存储部、识别请求文件处理部、识别请求交互部、识别结果获取部、翻译请求文件处理部、翻译请求交互部、翻译结果获取部以及通信部;
所述画面存储部存储有用户输入操作画面、语音识别画面以及语音翻译画面,
所述输入显示部显示所述用户输入操作画面让用户选择需要进行识别的待识别文件,
所述获取控制部控制所述声音流获取部从所述待识别文件中获取待识别声音流,
所述声音流分块部将所述待识别声音流切分成音频块,
所述音频块缓存部对所述音频块进行暂存,
所述噪音筛选部依次筛选所述音频块并丢弃属于噪音的所述音频块,
所述声音流判断部依次判断所述噪音筛选部处理后的所述音频块是否具有声音流,
所述音频块存储部将所述声音流判断部判断为具有声音流的所述音频块作为有效音频块进行存储,
所述识别请求文件处理部将需要识别的所述有效音频块处理为可以发送给识别服务器的识别请求文件,
所述识别请求交互部通过所述通信部与所述识别服务器交互并发送所述识别请求文件,
所述识别结果获取部根据所述识别服务器返回的结果获取最终的识别结果文本,
所述输入显示部在所述语音识别画面的文本区中显示所述识别结果文本,
所述翻译请求文件处理部将需要翻译的所述识别结果文本处理为可以发送给翻译服务器的翻译请求文件,
所述翻译请求交互部通过所述通信部与所述翻译服务器交互并发送所述翻译请求文件,
所述翻译结果获取部根据所述翻译服务器返回的结果获取与所述识别结果文本对应的翻译结果,
所述输入显示部在所述语音翻译画面的文本区显示所述翻译结果。
2.根据权利要求1所述的,其特征在于,还包括:
留白判断部,
其中,所述留白判断部依次判断所述声音流判断部处理后的所述有效音频块,判断为留白过多时,所述获取控制部控制所述声音流获取部停止对所述待识别声音流的获取。
3.根据权利要求1所述的,其特征在于,还包括:
留白判断部;所述终端还具有麦克风;
其中,所述输入操作画面还具有麦克风录音选择画面,用户选择通过所述麦克风录入所述待识别文件,
所述获取控制部控制所述麦克风开始录音,进一步控制所述声音流获取部从所述麦克风的录音中获取所述待识别声音流,
所述留白判断部依次判断所述声音流判断部处理后的所述音频块,判断为留白过多时,所述获取控制部控制所述声音流获取部停止获取所述识别声音流,并控制所述麦克风停止录音。
4.根据权利要求1所述的,其特征在于,还包括:
音频块缓存控制部,
其中,所述音频块以14秒为一段,在所述音频块缓存部中的缓存数量在20个以下,
当所述音频块的数量超出20个时,所述音频块缓存控制部控制所述音频块缓存部将新的所述音频块覆盖当前最早生成的所述音频块。
5.根据权利要求1所述的,其特征在于:
其中,所述识别请求文件处理部、所述识别请求交互部以及所述识别结果获取部的语音识别过程运行基于如下步骤:
步骤A1,通过预先设定的api参数拼接所述识别服务器的url地址;
步骤A2,向所述识别服务器发送request请求;
步骤A3,对所述识别服务器返回的参数筛选获得token参数;
步骤A4,依次读取需要识别的所述音频块,并由所述token参数监听读取的过程;
步骤A5,将所述音频块转化为字节类型的多个参数;
步骤A6,将所述多个参数打包为字典参数;
步骤A7,将所述字典参数与所述token参数作为识别请求文件发送给所述识别服务器;
步骤A8,获取所述识别服务器返回的结果并筛选出识别内容;
步骤A9,将所述识别结构内容转化为文本并输出。
6.根据权利要求1所述的,其特征在于:
其中,翻译请求文件处理部、翻译请求交互部以及翻译结果获取部的语音翻译过程运行基于如下步骤:
步骤B1,获取预先设定的翻译网站地址;
步骤B2,向所述翻译网站地址的翻译服务器发送预设单词,请求响应,查看其产生的动态参数;
步骤B3,将所述动态参数打包为参数字典;
步骤B4,将需要翻译的所述识别结果文本根据所述参数字典打包为翻译请求文件;
步骤B5,将所述参数字典发送给所述翻译服务器;
步骤B6,以post的方式模拟浏览器请求发起过程,将所述翻译请求发送给所述翻译服务器;
步骤B7,获取所述翻译服务器返回的响应字典;
步骤B8,将所述响应字典转化为响应字符串;
步骤B9,解析所述响应字符串,获取对应翻译内容的译文字符串;
步骤B10,将所述译文字符串转化为译文字典;
步骤B11,将所述译文字典转化为与所述识别结果文本对应的翻译结果。
CN201810970729.XA 2018-08-24 2018-08-24 一种结合爬虫技术的轻量级实时语音识别及翻译装置 Active CN109036383B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810970729.XA CN109036383B (zh) 2018-08-24 2018-08-24 一种结合爬虫技术的轻量级实时语音识别及翻译装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810970729.XA CN109036383B (zh) 2018-08-24 2018-08-24 一种结合爬虫技术的轻量级实时语音识别及翻译装置

Publications (2)

Publication Number Publication Date
CN109036383A true CN109036383A (zh) 2018-12-18
CN109036383B CN109036383B (zh) 2022-11-29

Family

ID=64627334

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810970729.XA Active CN109036383B (zh) 2018-08-24 2018-08-24 一种结合爬虫技术的轻量级实时语音识别及翻译装置

Country Status (1)

Country Link
CN (1) CN109036383B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000010977A (ja) * 1998-06-18 2000-01-14 Hitachi Ltd 翻訳装置
JP2003141116A (ja) * 2001-10-29 2003-05-16 Nec System Technologies Ltd 翻訳システム、翻訳方法、および、翻訳プログラム
CN105512182A (zh) * 2015-11-25 2016-04-20 深圳Tcl数字技术有限公司 语音控制方法及智能电视
CN107430598A (zh) * 2015-03-18 2017-12-01 三菱电机株式会社 多语言翻译装置和多语言翻译方法
CN108241614A (zh) * 2016-12-27 2018-07-03 北京搜狗科技发展有限公司 信息处理方法和装置、用于信息处理的装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000010977A (ja) * 1998-06-18 2000-01-14 Hitachi Ltd 翻訳装置
JP2003141116A (ja) * 2001-10-29 2003-05-16 Nec System Technologies Ltd 翻訳システム、翻訳方法、および、翻訳プログラム
CN107430598A (zh) * 2015-03-18 2017-12-01 三菱电机株式会社 多语言翻译装置和多语言翻译方法
CN105512182A (zh) * 2015-11-25 2016-04-20 深圳Tcl数字技术有限公司 语音控制方法及智能电视
CN108241614A (zh) * 2016-12-27 2018-07-03 北京搜狗科技发展有限公司 信息处理方法和装置、用于信息处理的装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
张化云等: "语音服务器中的语音识别技术", 《第七届全国青年通信学术会议》 *
陈超等: "煤矿虚拟现实远程会议中实时翻译技术的应用研究", 《华北科技学院学报》 *

Also Published As

Publication number Publication date
CN109036383B (zh) 2022-11-29

Similar Documents

Publication Publication Date Title
US9786277B2 (en) System and method for eliciting open-ended natural language responses to questions to train natural language processors
US8457964B2 (en) Detecting and communicating biometrics of recorded voice during transcription process
US8374859B2 (en) Automatic answering device, automatic answering system, conversation scenario editing device, conversation server, and automatic answering method
US9203877B2 (en) Method for mobile terminal to process text, related device, and system
CN110853615B (zh) 一种数据处理方法、装置及存储介质
CN107040452B (zh) 一种信息处理方法、装置和计算机可读存储介质
WO2018120821A1 (zh) 一种演示文稿的制作方法和装置
JP3789614B2 (ja) ブラウザシステム、音声プロキシサーバ、リンク項目の読み上げ方法及びリンク項目の読み上げプログラムを格納した記憶媒体
JP2012181358A (ja) テキスト表示時間決定装置、テキスト表示システム、方法およびプログラム
JPH08195763A (ja) ネットワークの音声通信チャネル
WO2020078207A1 (zh) 一种视频播放方法及装置
CN110138654A (zh) 用于处理语音的方法和装置
CN109036383A (zh) 一种结合爬虫技术的轻量级实时语音识别及翻译装置
CN112423019A (zh) 调整音频播放速度的方法、装置、电子设备及存储介质
US20200234181A1 (en) Implementing training of a machine learning model for embodied conversational agent
TWM578858U (zh) 跨通路人工智慧對話式平台
CN113948062B (zh) 数据转换方法及计算机存储介质
US11461379B1 (en) Speech to text (STT) and natural language processing (NLP) based video bookmarking and classification system
CN113703935A (zh) 异步任务调度方法、装置、电子设备及存储介质
CN113593568B (zh) 将语音转换成文本的方法、系统、装置、设备及存储介质
TWI747417B (zh) 經由影音平台的網址而產生音訊字幕檔的方法
WO2023132140A1 (ja) プログラム、ファイル生成方法、情報処理装置、及び情報処理システム
CN110289010B (zh) 一种声音采集的方法、装置、设备和计算机存储介质
TWI739067B (zh) 跨通路人工智慧對話式平台及其運作方法
US20220148573A1 (en) Systems and methods to resolve conflicts in conversations

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant