CN110728976B - 语音识别的方法、装置及系统 - Google Patents
语音识别的方法、装置及系统 Download PDFInfo
- Publication number
- CN110728976B CN110728976B CN201810702829.4A CN201810702829A CN110728976B CN 110728976 B CN110728976 B CN 110728976B CN 201810702829 A CN201810702829 A CN 201810702829A CN 110728976 B CN110728976 B CN 110728976B
- Authority
- CN
- China
- Prior art keywords
- server
- voice recognition
- user identifier
- translation
- audio packet
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 56
- 238000013519 translation Methods 0.000 claims description 159
- 238000005065 mining Methods 0.000 claims description 43
- 238000007418 data mining Methods 0.000 claims description 37
- 238000012549 training Methods 0.000 claims description 26
- 238000003306 harvesting Methods 0.000 claims description 9
- 238000012986 modification Methods 0.000 claims description 3
- 230000004048 modification Effects 0.000 claims description 3
- 238000012790 confirmation Methods 0.000 claims 1
- 238000010586 diagram Methods 0.000 description 16
- 230000008569 process Effects 0.000 description 11
- 230000006870 function Effects 0.000 description 7
- 238000004891 communication Methods 0.000 description 5
- 238000004590 computer program Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 238000013500 data storage Methods 0.000 description 3
- 230000008520 organization Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000003491 array Methods 0.000 description 2
- 230000001680 brushing effect Effects 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000013499 data model Methods 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Telephonic Communication Services (AREA)
Abstract
本申请实施例公开了一种语音识别的方法、装置和系统,其方法包括:语音识别服务器接收终端发送的音频包和用户标识;所述语音识别服务器获取所述用户标识对应的第一语音识别模型;所述语音识别服务器根据所述第一语音识别模型,对所述音频包进行语音识别,获得所述音频包对应的母语文本。通过本发明实施例的方法,可以实现对用户进行个性化的语音识别,使得语音识别的结果更加准确。
Description
技术领域
本申请涉及通信技术领域,尤其涉及一种语音识别的方法、装置以及系统。
背景技术
目前,为了提高工作效率,通过会议协调多方人士的工作是比较重要的手段。为了能够回溯会议内容,在会议过程中对每个发言人发言内容的记录以及会议记录的整理成为了基本要求。当前记录发言人的发言和整理会议记录可以采用多种方式,比如:秘书的人工速记。或者录音笔等录音设备先全程录音,会后人工整理录音内容形成会议记录等。但是这些方式均因为需要人工介入而导致效率较低。
当前语音识别技术引用到会议系统给会议记录的整理带来的便捷,比如:在会议系统中,通过录音软件录制与会者的发言内容,以及挺高语音识别软件识别与会者的发言内容,进一步可以形成会议记录,这大大提高了会议记录的整理的效率。但是由于每个发言人的口音、方言、惯用词、惯用语式、口头禅或者惯用外文缩写等可能都不尽相同,这可能导致现有的语音识别软件识别的录音内容不准确,甚至出现无法识别录音内容的情况。
发明内容
本申请实施例提供一种语音识别的方法、装置及系统,实现了对每个发言人,使用该发言人具有其个人特色的语音识别模型进行语音识别,从而使得语音识别更加准确。
第一方面,本申请实施例提供了一种语音识别的方法,包括:
语音识别服务器接收终端发送的音频包和用户标识;语音识别服务器获取所述用户标识对应的第一语音识别模型;语音识别服务器根据所述第一语音识别模型,对所述音频包进行语音识别,获得所述音频包对应的母语文本。该方法可以应用在多种需要语音识别的场景下,该方法也可以适合封闭系统内的语音识别场景,比如:企业或机构内部会议系统中的语音识别。在语音识别前,语音识别服务器可以存储每个与会者的个人的语音识别模型,即第一语音识别模型。这样,由于语音识别服务器可以利用每个会议系统的发言人的个人的语音识别模型对该发言人进行语音识别,这样识别出的母语文本更加准确,提高了语音识别的精确度。
第一方面的第一种可能的方式中,当语音识别服务器还接收到语种类别时,即该用户说了外语,需要对该外语进行识别,此时再使用原有的第一语音识别模型,可能导致语音识别的不准确,因此语音识别服务器进一步根据所述用户标识和所述语种类别获得所述用户标识和所述语种类别对应的第二语音识别模型,这样语音识别服务器就可以利用与语种类别相关的第二语音识别模型来识别音频包,这样识别出来的母语文本更加准确。
第一方面的第二种可能的方式中,语音识别服务器还可以从数据挖掘服务器接收到语音挖掘结果和所述用户标识,利用语音挖掘结果训练所述第一语音识别模型,获得第三语音识别模型,将所述第一语音识别模型更新为所述第三语音识别模型,其中所述第三识别模型与所述用户标识对应。其中,这里的语音挖掘结果是由数据挖掘服务器利用音频包对所述修订后的母语文本和所述修订前的母语文本进行挖掘,然后获得语音挖掘结果。语音识别服务器利用通过对每个用户的第一语音识别模型进行训练,训练出更加准确的第三语音识别模型,从而用第三语音识别模型来代替第一语音识别模型,这样在后续对该用户的进行语音识别时,就可以用更加准确的第三语音识别模型,使得语音识别结果也更加准确。
第二方面,本申请实施例提供了一种语音识别的方法,包括:
终端向语音识别服务器发送音频包和用户标识;终端接收所述语音识别服务器发送的所述音频包对应的母语文本,其中,所述母语文本由所述语音识别服务器根据所述用户标识对应的第一语音识别模型对所述音频包进行语音识别所获得。这里的终端可以是用于会议的会议终端。终端获得了语音识别服务器根据用户标识对应的第一语音识别模型对所述音频包进行语音识别出的母语文本,这样获得的母语文本更加准确。
第二方面的第一种可能的方式中,终端还可以根据所述音频包,对所述母语文本进行修正,获得修订后的母语文本,并将所述修订前的母语文本、修订后的母语文本、所述音频包和用户标识发送给所述数据挖掘服务器。这样通过终端的母语文本的修订,使得母语文本更加准确,另外,数据挖掘服务器可以根据修订前的母语文本和修订后的母语文本进行数据挖掘,使得挖掘出可以用于训练新的语音数据模型的语音挖掘结果。
第二方面的第二种可能的方式中,终端向翻译服务器发送母语文本、目标语种和用户标识;终端接收所述翻译服务器发送的目标文本,其中目标文本由所述翻译服务器根据所述用户标识和所述目标语种对应的第一翻译模型对所述母语文本进行翻译所得。终端获得了翻译服务器根据用户标识和目标语种对应的第一翻译模型对母语文本进行翻译的目标文本,这样获得的目标文本更加准确。
第二方面的第三种可能的方式中,终端对所述目标文本进行修订,获得修订后的目标文本,将所述修订后的目标文本、修订前的目标文本、所述目标语种和所述用户标识发送给数据挖掘服务器。这样通过终端的目标文本的修订,使得目标文本更加准确,另外,数据挖掘服务器可以根据修订前的目标文本和修订后的目标文本进行数据挖掘,使得挖掘出可以用于训练新的翻译模型的翻译挖掘结果。
第二方面的第四种可能的方式中,终端确定声源的位置和人脸图片的对应关系,其中所述声源的位置与所述音频包一一对应;终端将所述人脸图片发送给人脸识别服务器,终端接收所述人脸服务器发送的用户标识和人脸图片的对应关系;根据所述声源的位置和人脸图片的对应关系以及所述用户标识和人脸图片的对应关系,终端确定音频包以及用户标识的对应关系。
第二方面的第五种可能的方式中,终端向语音识别服务器发送音频包和用户标识,具体为:根据所述音频包以及所述用户标识的对应关系,向语音识别服务器发送所述音频包和所述用户标识。
第三方面,本申请实施例提供了一种翻译的方法,包括:翻译服务器接收终端发送的所述母语文本、目标语种和所述用户标识;根据所述用户标识和所述目标语种,所述翻译服务器获得所述用户标识和所述目标语种对应的第一翻译模型;根据所述第一翻译模型,所述翻译服务器对所述母语文本翻译成目标文本。该方法可以应用在多种需要翻译的场景下,该方法也可以适合封闭系统内的翻译场景,比如:企业或机构内部会议系统中的翻译。在翻译前,翻译服务器可以存储每个与会者的个人的翻译模型,即第一翻译模型。这样,由于翻译服务器可以利用每个会议系统的发言人的个人的翻译模型对母语文本进行翻译,这样翻译出来的目标文本更加准确,提高了翻译的精确度。
第三方面的第一种可能的方式中,翻译服务器还可以接收到所述数据挖掘服务器发送的翻译挖掘结果、所述目标语种和所述用户标识,利用所述翻译挖掘结果对所述第一翻译模型进行训练,获得第二翻译模型,将所述第一翻译模型更新为所述第二翻译模型,其中,所述第二翻译模型与所述目标语种和所述用户标识对应。其中,这里的翻译挖掘结果是由数据挖掘服务器利用母语文本对所述修订后的目标文本和修订前的目标文本进行挖掘,然后获得翻译挖掘结果。翻译服务器利用通过对每个用户的第一翻译模型进行训练,训练出更加准确的第二翻译模型,从而用第二翻译模型来代替第一翻译模型,这样在后续对该用户的进行翻译时,就可以用更加准确的第二翻译模型,使得翻译结果也更加准确。
第三方面的第二种可能的方式中,数据挖掘服务器接收终端发送的修订后的目标文本、所述修订前的目标文本、所述目标语种和所述用户标识,对所述修订后的目标文本和所述修订前的目标文本进行挖掘,获得翻译挖掘结果;将翻译挖掘结果、所述目标语种和所述用户标识发送给所述翻译服务器。
第四方面,本申请实施例还提供了一种语音识别服务器,包括:接收单元,用于接收终端发送的音频包和用户标识;获取单元,用于获取所述用户标识对应的第一语音识别模型;识别单元,用于根据所述第一语音识别模型,对所述音频包进行语音识别,获得所述音频包对应的母语文本。
第四方面的第一种可能的方式中,接收单元,具体用于接收终端发送的音频包、用户标识和语种类别;获取单元,具体用于根据所述用户标识和所述语种类别,所述语音识别服务器获得所述用户标识和所述语种类别对应的第二语音识别模型。
第四方面的第二种可能的方式中,语音服务器还包括语音识别模型训练单元和语音识别模型更新单元,其中,接收单元,用于从数据挖掘服务器接收到语音挖掘结果和所述用户标识;语音识别模型训练单元,用于利用所述语音挖掘结果训练所述第一语音识别模型,获得第三语音识别模型;语音识别模型更新单元,用于将所述第一语音识别模型更新为所述第三语音识别模型,其中所述第三识别模型与所述用户标识对应。
第五方面,本申请实施例还提供了一种终端,包括:发送单元,用于向语音识别服务器发送音频包和用户标识;收获单元,用于接收所述语音识别服务器发送的所述音频包对应的母语文本,其中,所述母语文本由所述语音识别服务器根据所述用户标识对应的第一语音识别模型对所述音频包进行语音识别所获得。
第五方面的第一种可能的方式中,终端还包括:第一修正单元,用于根据所述音频包,对所述母语文本进行修正,获得修订后的母语文本;此时发送单元,还用于将所述修订前的母语文本、修订后的母语文本、所述音频包和所述用户标识发送给所述数据挖掘服务器。
第五方面的第二种可能的方式中,终端的发送单元,还用于向翻译服务器发送所述母语文本、目标语种和所述用户标识;终端的收获单元,还用于接收所述翻译服务器发送的目标文本,其中目标文本由所述翻译服务器根据所述用户标识和所述目标语种对应的第一翻译模型对所述母语文本进行翻译所得。
第五方面的第三种可能的方式中,终端还包括第二修正单元,用于对所述目标文本进行修订,获得修订后的目标文本;此时的发送单元,还用于将所述修订后的目标文本、修订前的目标文本、所述目标语种和所述用户标识发送给数据挖掘服务器。
第五方面的第四种可能的方式中,终端还包括确认单元,用于确定声源的位置和人脸图片的对应关系,其中所述声源的位置与所述音频包一一对应;发送单元,还用于将所述人脸图片发送给人脸识别服务器;收获单元,还用于接收所述人脸服务器发送的用户标识和人脸图片的对应关系;确认单元,还用于根据所述声源的位置和人脸图片的对应关系以及所述用户标识和人脸图片的对应关系,确定所述音频包以及所述用户标识的对应关系。
第五方面的第五种可能的方式中,终端的所述发送单元,具体用于根据所述音频包以及所述用户标识的对应关系,向语音识别服务器发送所述音频包和所述用户标识。
第六方面,本申请实施例还提供了一种翻译服务器,包括:收发单元,用于接收终端发送的所述母语文本、目标语种和所述用户标识;获得单元,用于根据所述用户标识和所述目标语种,获得所述用户标识和所述目标语种对应的第一翻译模型;翻译单元,用于根据所述第一翻译模型,对所述母语文本翻译成目标文本。
第六方面的第一种可能的方式中,翻译服务器还包括翻译模型训练单元和翻译模型更新单元,其中,翻译服务器的收发单元,还用于接收到数据挖掘服务器发送的翻译挖掘结果、所述目标语种和所述用户标识;翻译模型训练单元,用于利用所述翻译挖掘结果对所述第一翻译模型进行训练,获得第二翻译模型;翻译模型更新单元,用于将所述第一翻译模型更新为所述第二翻译模型,其中,所述第二翻译模型与所述目标语种和所述用户标识对应。
第七方面,本申请实施例还提供了一种系统,包括如任意第四方面的语音识别服务器,以及如任意第六方面的翻译服务器。
第七方面的第一种可能的方式中,系统还包括如第五方面及其任一可能方式的终端。
第八方面,本申请实施例提供一种语音识别服务器,包括:相互耦合的非易失性存储器和处理器,所述处理器调用存储在所述存储器中的程序代码以执行第一方面的任意一种方法的部分或全部步骤。
第九方面,本申请实施例提供一种终端,包括:相互耦合的非易失性存储器和处理器,所述处理器调用存储在所述存储器中的程序代码以执行第二方面的任意一种方法的部分或全部步骤。
第十方面,本申请实施例提供一种翻译服务器,包括:相互耦合的非易失性存储器和处理器,所述处理器调用存储在所述存储器中的程序代码以执行第三方面的任意一种方法的部分或全部步骤。
第十一方面,本申请实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储了程序代码,其中,所述程序代码包括用于执行第一方面的任意一种方法的部分或全部步骤的指令。
第十二方面,本申请实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储了程序代码,其中,所述程序代码包括用于执行第二方面的任意一种方法的部分或全部步骤的指令。
第十三方面,本申请实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储了程序代码,其中,所述程序代码包括用于执行第三方面的任意一种方法的部分或全部步骤的指令。
第十四方面,本申请实施例提供一种计算机程序产品,当所述计算机程序产品在计算机上运行时,使得所述计算机执行第一方面的任意一种方法的部分或全部步骤。
第十五方面,本申请实施例提供一种计算机程序产品,当所述计算机程序产品在计算机上运行时,使得所述计算机执行第一方面的任意一种方法的部分或全部步骤。
第十五方面,本申请实施例提供一种计算机程序产品,当所述计算机程序产品在计算机上运行时,使得所述计算机执行第三方面的任意一种方法的部分或全部步骤。
应当理解的是,本申请的第二至十五方面与本申请的第一方面的技术方案一致,各方面及对应的可行实施方式所取得的有益效果相似,不再赘述。
附图说明
为了更清楚地说明本申请实施例或背景技术中的技术方案,下面将对本申请实施例或背景技术中所需要使用的附图进行说明。
图1为现有技术中一种智能会议系统的示意性框图;
图2为本申请实施例中一种智能会议方法的流程图;
图3为本申请实施例中一种音节划分的示意性图;
图4为本申请实施例中一种母语字幕的示意性图;
图5为本申请实施例中一种会议记录的示意性图;
图6为本申请实施例中一种翻译字幕的示意性图;
图7为本申请实施例中一种翻译的会议记录的示意性图;
图8为本申请实施例中一种语音识别服务器的示意性框图;
图9为本申请实施例中一种翻译服务器的示意性框图;
图10为本申请实施例中一种终端的示意性框图;
图11为本申请实施例中一种计算设备的示意性框图;
图12为本申请实施例中一种系统的示意性框图。
具体实施方式
下面结合本申请实施例中的附图对本申请实施例进行描述。
如图1所示,为本申请实施例适用的一种可能的智能会议系统架构示意图。该架构10可以包括多个智能会议终端100和智能会议服务器120。其中,智能会议终端100可以是包含集成多种功能的一体化终端,比如:智能会议终端100可以包括会议终端101、摄像机102和麦克风103。会议终端101可以包含触摸屏、CPU、GPU、内存和存储器等硬件资源。会议终端101中还可以运行修订工具104。会议终端101可以用于建立会议呼叫,使得会议终端101加入到会议系统中。会议终端101将视频数据、音频数据或者控制数据进行编码打包为数据包,并将数据包发送到会议系统中的会议服务器中。会议终端101还可以接收来自于其它会议终端或者智能会议服务器120发送的数据包,并将数据包解码还原为视频、音频或者控制信息。在本发明实施例中,为了简化描述,会议终端101和会议服务器121之间传输的数据包的编码打包或者解码还原的过程就不赘述了,本发明实施例就简化地描述会议终端101和会议服务器121之间的传输的音频数据、视频数据或者控制数据了。会议终端还具有会议控制和画面显示的功能,可以执行各种智能会议的应用,比如刷脸入会、刷脸签到、欢迎词、电子铭牌、声控导播和会议统计。
摄像机102通常具有水平摇摄/垂直摇摄/图像缩放(Pan/Tilt/Zoom,PTZ)功能,通过遥控器操作Pan/Tilt/Zoom动作,呈现讲话人的特写画面。另外,摄像机还可以为AI摄像机,或者新颖的会议摄像机,摄像机还具有声源定位功能,可以自动定位讲话人,并给予特写画面;以及能够根据声源位置和人脸位置进行声脸匹配。摄像机102可以将拍摄到的视频数据发送给会议终端101,麦克风103可以将把收取到的音频数据发送给会议终端101。
麦克风103可以是阵列式麦克风。通过不同的麦克风收集到的相同音频的时间差可以确认该声源的位置。
修订工具104可以利用音频包对母语文本进行修订,并在修订成功后,将修订后的母语文本发送给智能会议服务器120,智能会议服务器120保存修订后的母语文本、修订前的母语文本(也就是语音识别服务器语音识别的母语文本)和音频包。修订工具104还可以用于利用修订后的母语文本对目标文本进行修订,并在修订成功后,将修订后的母语文本发送给智能会议服务器120,智能会议服务器120保存修订后的目标文本、修订前的目标文本(也就是翻译服务器翻译的目标文本)和修订后的母语文本。
智能会议服务器120可以包含会议服务器121以及一个或多个专项服务器。专项服务器可以为人脸识别服务器122、声纹识别服务器123、语音识别服务器124、翻译服务器125和语音合成服务器126,会议服务器121和专项服务器可以是独自的设备或者云服务,此时智能会议服务器120可以作为虚拟设备。会议服务器121和专项服务器也可以作为一个模块或者功能集成在智能会议服务器120中,此时智能会议服务器可以作为实体设备。如图1所示,本发明实施例的第一种场景的网元之间的连接关系:各个专项服务器可以通过会议服务器121与会议终端101之间进行通信和业务处理。此外,本发明实施例的第二种场景的网元之间的连接关系:各个专项服务器还可以直接与会议终端101之间进行通信和业务处理,在此种情况下,会议服务器121实际上也可以认为是一种专项服务器。为了方便描述,本发明实施例以第一种场景来描述具体过程,本发明实施例的第二场景的具体业务过程与本发明实施例的第一种场景的具体业务流程的区别在于:会议服务器121和会议终端101之间传输消息有没有通过会议服务器。例如,在第一种场景下:会议终端将摄像机捕捉到发言的与会者的图像通过会议服务器发送给人脸识别服务器。而在第二种场景下:会议终端将摄像机捕捉到发言的与会者的图像直接发送给人脸识别服务器。
会议终端101可以通过会议服务器121向人脸识别服务器122发送人脸照片,人脸识别服务器122对人脸照片进行人脸识别,并通过会议服务器121将识别出的用户标识发送给会议终端101,该用户标识可以具体为该用户的个人身份识别号(personal uniqueidentifier,PUID)。会议终端101还可以通过会议服务器121向声纹识别服务器123发送音频包,声纹识别服务器123对音频包进行识别,并通过会议服务器121将识别出的PUID发送给会议终端101。会议终端101可以通过会议服务器121向语音识别服务器124发送音频包和PUID,语音识别服务器124根据PUID获得对应的语音识别模型,利用语音识别模型对音频包进行识别,并通过会议服务器121将音频包对应的母语文本发送给会议终端101。会议终端101还可以通过会议服务器121向翻译服务器125发送PUID、母语文本和申请翻译的目标语种,翻译服务器125根据PUID获得对应的翻译模型,利用翻译模型对母语文本进行翻译,并将翻译后的目标文本发送给会议终端101。修订工具从会议服务器121获取母语文本和音频包,可以对母语文本进行修订,这个修订可以是由人工审核的,当修订完成后,修订工具可以生成修订后的母语文本、修订前的母语文本、PUID和音频包发送给会议服务器121。修订工具还可以从会议服务器121获得PUID、目标文本以及母语文本,并根据母语文本,对目标文本进行修订,并获得修订后的目标文本,并将修订后的目标文本、母语文本和PUID发送给会议服务器121。人脸识别服务器可以预先存储多张人脸图片和PUID的对应关系。语音识别服务器可以预先存储所有与会者的语音识别模型、以及PUID和语音识别模型的对应关系或者PUID、语种类型和语音识别模型的对应关系,翻译服务器可以预先存储PUID和翻译模型的对应关系。在通常情况下,会议系统应用于某个企业或者机构的内部。人脸识别服务器可以预先采集和存储企业或者机构内部的所有或者部分成员的人脸图像,并设定该人脸图片和PUID的对应关系。另外,本申请的会议系统也可以用于非企业内或者非特定结构的场景下,只要人脸识别服务器预先存储了与会者的人脸图片和用户标识即可。语音识别服务器可以预先存储某个机构、企业或者群组等团体内所有成员的语音识别模型,这样语音识别服务器可以非常准确地识别每个与会者的语音。声纹识别服务器可以预先存储PUID和声纹之间的对应关系。另外,上述语音识别模型、人脸图片和PUID的对应关系、PUID和语音识别模型的对应关系、PUID、语种类型和语音识别模型的对应关系、PUID和翻译模型的对应关系或者PUID和声纹之间的对应关系还可以存储在单独的存储设备、多个不同的存储设备或者云存储空间。
本发明实施例中的字幕可以在会议终端的显示屏中呈现。会议终端101还可以把PUID和母语文本保存转换成会议记录存储在会议服务器121上,会议记录的格式可以为html格式或者xml格式。会议服务器121还可以将翻译后的目标文本也添加到会议记录中。会议服务器121还可以将修订后的母语文本和音频包也添加到会议记录中。会议服务器121还可以将修订后的目标文本也添加到会议记录中。语音识别服务器和翻译服务器可以从会议服务器上获得上述会议记录,并利用上述会议记录进行数据挖掘,获得语音挖掘结果或者翻译挖掘结果,该语音挖掘结果可以用于训练个人的语音识别模型,该翻译挖掘结果可以用来训练个人的翻译模型。
图2是根据本申请的一种语音识别的方法的示意性流程图。该方法可以应用在图1的智能会议系统架构中,当然也可以应用在其他系统中,本申请实施例在此不作限制,为了描述方便,下面以智能会议系统来描述整个语音识别的方法流程,其中,在智能会议系统中,终端可以具体为会议终端。如图2所示,方法包括以下内容。
步骤201:当会议开始时,某个与会者开始发言时,会议终端可以确定与会者声源的位置和与会者的位置,进一步建立与会者声源的位置和与会者的人脸图片的对应关系,会议终端还将摄像机捕捉到发言的与会者的图像通过会议服务器发送给人脸识别服务器。
会议终端接收到麦克风采集到音频数据。会议终端扫描音频数据,对音频数据进行音节分割,然后将归属于同一个与会者的多个音节的音频数据归集在一起,将归集在一起同一与会者的音频数据称为音频包。例如:会议终端可以对每一音节进行声音特征分析,获得每个音节声音特征值,相同或者相近(例如:声音特征值之差在阈值范围内)的声音特征值的不同音节可以被认为归属于同一个与会者,即同一个声源。如附图3所示有19个音节,其中第1-5、8-9、16-19个音节属于声源A;第6-7个音节属于声源B;第10-15个音节属于声源C。
会议终端进一步通过声源定位的方式来确定音频包的声源的位置,即声源坐标(α,β),这里的α和β可以表示为与声源所在的平面空间的位置。比如,声源定位的确定方式可以为:麦克风是包含多个麦克风的阵列麦克风,会议终端通过不同麦克风接收到与会者发言的相同音频数据之间的时间差来确认该与会者的声源方位坐标。当在会议过程中的一段时间内多个与会者分别发言时,可以通过上述方式分析不出不同与会者的声源。
会议终端还可以接收摄像机采集到的图像,该图像包括了该与会者的人脸,会议终端从图像中获得人脸图片,并分析出该人脸图片的人脸方位坐标(x,y,z)。在三维空间中,会议终端根据声源坐标(α,β)确定了一条直线,而通过人脸方位坐标(x,y,z)确定了一个点。只要点离直线的距离小于一个设定的阈值,则就可以确认了声源的位置和人脸的对应关系。在坐标容差范围内每个音频包可能匹配到多张人脸,则此时声源的位置和人脸的的对应关系就存在了多个。
S202:人脸识别服务器接收与会者的图像,识别该图像中人脸图片,获得该人脸图片对应的PUID,并将该人脸图片和PUID的对应关系发送给会议终端。
人脸识别服务器对人脸图像进行人脸识别,获得该人脸图片对应的PUID,并将该PUID发送给会议终端。如果存在多张人脸图片的话,那就需要识别多张人脸图片,获得的PUID就有多个。人脸识别服务器具体识别的方式可以有多种,比如:人脸识别服务器可以通过计算人脸图像的特征值,该特征值对应某个PUID,这样人脸识别服务器就可以识别出该人脸了。
人脸识别服务器可以预先存储了多个人脸图片和PUID对应的关系,如果人脸识别服务器没有预先存储某个用户的人脸图片,那么该人脸识别服务器将无法识别出该人脸图片对应的PUID,此时人脸识别服务器可以向会议终端返回识别失败或者该与会人不存在等响应。
在某些场景下,一个会议终端可以被多个用户使用,比如:在会议室中,多个用户同时参加某个会议,多个用户共同使用同一个会议终端。在某些场景下,一个会议终端也可以仅仅被一个用户专用,此时该终端ID也可以作为该用户的PUID,那么在该种情况下S201和S202可以被省略。
S203:会议终端接收人脸图片和PUID的对应关系,根据声源的位置和人脸图片的对应关系以及PUID和人脸图片的对应关系,确定所述音频包以及PUID的对应关系,并将音频包和PUID以及两者的对应关系通过会议服务器送给语音识别服务器。
如果声源的位置和人脸图片的对应关系是一一对应的,则人脸识别服务器将获得唯一PUID,PUID和人脸图片的对应关系也是唯一的。由于PUID是唯一的,因此会议终端可以快速确定声源的位置和与会者的PUID的对应关系,会议终端也可以确定音频包和PUID的对应关系。
如果声源的位置和人脸图片的对应关系是1对多的关系,则人脸识别服务器将获得多个PUID,人脸图片和PUID的对应关系也是1对多的关系。在此种情况下,会议终端接收到的PUID是多个,会议终端还可以将人脸图片对应的音频包和多个PUID发送给声纹识别服务器,声纹识别服务器就可以利用已被人脸服务器识别出PUID对应的声纹对该音频包进行声纹识别,获得该声纹对应的唯一PUID,声纹识别服务器就可以快速确定音频包和PUID之间1对1的对应关系,声纹识别服务器将确定的音频包和PUID之间的1对1的对应关系发送给会议终端。本发明实施例中,由于会议终端将人脸识别服务器识别出的PUID发送给声纹识别服务器,声纹识别服务器可以在有限地几个PUID识别出该声纹究竟对应哪个PUID,这样可以快速地减少声纹识别服务器的声纹识别的时间。
S204:语音识别服务器接收到音频包和PUID以及两者的对应关系,获得该PUID对应的语音识别模型,并利用该语音识别模型对音频包进行语音识别,获得母语文本,该母语文本即为语音识别的结果,语音识别服务器还可以将母语文本发送给会议终端。
在另外的本发明实施例中,语音识别服务器还可以生成母语字幕,并将该母语字幕发送给会议终端。其中,如图4所示,母语字幕可以包括PUID和母语文本。母语字幕还可以包括发言人的头像和姓名中的至少一个。需要说明的是:母语字幕还可以由会议终端生成。
语音识别服务器预先存储不同与会者的语音识别模型,这样语音识别服务器可以根据不同与会者的PUID,使用该PUID应的语音识别模型来有针对性地识别与会者的音频包,使得语音识别的准确率更高。
与会者可能会说多门外国语,语音识别服务器还可以接收到会议终端发送该与会者所使用语言的语种类型,这样语音识别服务器进一步根据语种类型和该与会者的PUID确定出对应的语音识别模型。会议终端识别语种的方法很多,例如:把多个音节或一句话用多个语种的语音模型进行识别,然后对识别结果进行语义理解,以语义理解可懂度最高的语种为准。通过会议终端的语种识别,可以实现对某些与会者在说母语发言时,偶尔也会夹杂几句外语时的语音识别准确性。
S205:会议终端接收到语音识别服务器的母语文本和PUID后,可以利用运行的修订工具对将该母语文本进行修订,获得修订后的母语文本,并生成会议记录,并将该会议记录发送给会议服务器,会议服务器可以保存会议记录。其中,会议记录可以包括修订前的母语文本、修订后母语文本和PUID,如图5所示,会议记录还可以包括发言人的头像和发言人姓名中的至少一个,或者会议记录还可以包括音频包。
修订过程是可以选的,如果没有修订过程的话,会议记录则不会包含修订后的母语文本。
S206:会议终端通过会议服务器将修订后的母语文本、修订前的母语文本、音频包和PUID发送给数据挖掘服务器。
S207:数据挖掘服务器通过对修改后的母语文本、修订前的母语文本和音频包进行数据挖掘,获得语音挖掘结果,并将语音挖掘结果和PUID发送给语音识别服务器。
数据挖掘服务器可以通过比较修订前的母语文本和修订后的母语文本,确认需要改进的语音识别的内容,然后对这些需要改进的语音识别的内容和音频包对应部分进行挖掘处理,获得语音挖掘结果。
S208:语音识别服务器接收语音挖掘结果、音频包和PUID,利用该语音挖掘结果和音频包训练该PUID对应的语音识别模型,获得更新后的语音识别模型,该更新后的语音识别模型相比于原先的语音识别模型更加准确,该更新后的语音识别模型将替代原先的语音识别模型,语音识别服务器可以利用更新后的语音识别模型对后续接收到的音频包进行语音识别。这样语音识别服务器就可以对每个与会者的语音识别模型进行更新,使得语音识别模型越来越准确。
S209:会议终端还可以将母语文本(或者修订后的母语文本)、指定的目标语种和PUID通过会议服务器发送给翻译服务器。
S210:翻译服务器接收到母语文本、指定的目标语种和PUID,根据PUID和指定的目标语种,确定对应的翻译模型。并利用翻译模型对母语文本进行翻译,获得目标文本,并通过会议服务器将母语文本、目标文本和PUID发送给会议终端。翻译服务器还可以根本目标文本形成翻译字幕,翻译字幕可以包括:PUID和目标文本,如图6所示,翻译字幕进一步还可以包括该发言人的头像和发言人的姓名的两者中的至少一个。
S211:会议终端通过会议服务器接收到翻译服务器的母语文本、目标文本和PUID后,可以利用运行的修订工具对将该目标文本进行修订,获得修订后的目标文本,并形成翻译的会议记录,翻译的会议记录可以包括:PUID、音频包、修订后母语文本、修订后的目标文本和修订前的目标文本。会议终端进一步将翻译记录发送给会议服务器,会议服务器可以存储翻译的会议记录。如图7所示,翻译的会议记录进一步还可以包括该发言人的头像和发言人的姓名的两者中的至少一个。翻译的会议记录进一步还可以包括原始录像、修订前的母语文本和合成录音中的至少一个。
S212:会议终端通过会议服务器将修订前的目标文本、修订后的目标文本、母语文本和PUID发送给数据挖掘服务器。
S213:数据挖掘服务器接收修订前的目标文本、修订后的目标文本、母语文本和PUID,并对修订后的目标文本、修订前的目标文本和母语文本进行数据挖掘,获得翻译挖掘结果,并将翻译挖掘结果和PUID发送给翻译服务器。
数据挖掘服务器可以通过比较修订前的目标文本和修订后的目标文本,确认需要改进的母语文本内容,然后根据需要改进的母语文本内容和对应的修订后的目标文本内容进行数据挖掘,获得翻译挖掘结果。
S214:翻译服务器接收翻译挖掘结果和PUID,利用该翻译挖掘结果训练该PUID对应的翻译模型,获得更新后的翻译模型,该更新后的翻译模型相比与原先的翻译模型更加准确,该更新后的翻译模型用于替换原先的翻译模型,翻译服务器可以利用更新后的翻译模型对后续接收到的PUID对应的母语文本进行翻译。这样翻译服务器就可以对每个与会者的翻译模型进行更新,使得每个与会者的翻译模型越来越准确。
本发明实施例针对会议中的每个发言人,使用具有其个人特色的语音识别模型,适应独具个人特色的口音、方言、惯用词、惯用语式、口头禅、惯用外文缩写、惯用外文商标、惯用外文产品型号,提高语音识别的准确率,使母语字幕和会议记录更加真实准确。通过终端的修订和循环反馈训练,不断提升语音识别模型的个人适应性,使用越久准确率越高。
图8为本申请实施例中的语音识别服务器800的一种示意性框图。需要说明的是,应当理解的是,该语音识别服务器800可以包括:
接收单元81,用于接收终端发送的音频包和用户标识;
获取单元82,用于获取所述用户标识对应的第一语音识别模型;
识别单元83,用于根据所述第一语音识别模型,对所述音频包进行语音识别,获得所述音频包对应的母语文本。
在一种可行的实施方式中,接收单元81,具体用于接收终端发送的音频包、用户标识和语种类别;获取单元82,具体用于根据所述用户标识和所述语种类别,所述语音识别服务器获得所述用户标识和所述语种类别对应的第二语音识别模型。
在一种可行的实施方式中,语音识别服务器还包括语音识别模型训练单元84和语音识别模型更新单元85(通过虚线的方式表示了该单元是可选的),其中,接收单元81,用于从数据挖掘服务器接收到语音挖掘结果和用户标识;语音识别模型训练单元84,用于利用所述语音挖掘结果训练所述第一语音识别模型,获得第三语音识别模型;语音识别模型更新单元85,用于将所述第一语音识别模型更新为所述第三语音识别模型,其中所述第三识别模型与所述用户标识对应。
在本发明实施例中,针对会议中的每个发言人,使用具有其个人特色的语音识别模型进行语音识别,并通过终端的修订和智能化闭环反馈训练不断更新该发言人的语音识别模型,从而使得语音识别过程中,能够更加准确地识别出带有个人特色的口音、方言、惯用词、惯用语式、口头禅、惯用外文缩写、惯用外文商标、惯用外文产品型号,从而提高语音识别准确率,使会议记录更加真实准确;通过终端的修订和智能化闭环反馈训练,不断提升语音识别模型的个人适应性,使用越久准确率越高。
图9为本申请实施例中的翻译服务器900的一种示意性框图。该翻译服务器900可以包括:
收发单元91,用于接收终端发送的所述母语文本、目标语种和所述用户标识;
获得单元92,用于根据所述用户标识和所述目标语种,获得所述用户标识和所述目标语种对应的第一翻译模型;
翻译单元93,用于根据所述第一翻译模型,对所述母语文本翻译成目标文本。
在一种可行的实施方式中,翻译服务器900还可以包括翻译模型训练单元94和翻译模型更新单元95,其中,收发单元91,还用于接收到数据挖掘服务器发送的翻译挖掘结果、所述目标语种和所述用户标识;翻译模型训练单元94,用于利用所述翻译挖掘结果对所述第一翻译模型进行训练,获得第二翻译模型;翻译模型更新单元95,用于将所述第一翻译模型更新为所述第二翻译模型,其中,所述第二翻译模型与所述目标语种和所述用户标识对应。
在本发明实施例中,针对会议中的每个发言人,使用具有其个人特色的翻译模型进行文本翻译,并通过终端的修订和智能化闭环反馈训练不断更新该发言人的翻译模型,从而使得文本翻译过程中,能够更加准确地翻译出带有个人特色的口音、方言、惯用词、惯用语式、口头禅、惯用外文缩写、惯用外文商标、惯用外文产品型号,从而提高文本翻译准确率,使会议记录更加真实准确;通过终端的修订和智能化闭环反馈训练,不断提升翻译模型的个人适应性,使用越久准确率越高。
图10为本申请实施例中的终端1000的一种示意性框图。该终端1000可以包括:
发送单元1001,用于向语音识别服务器发送音频包和用户标识;
收获单元1002,用于接收所述语音识别服务器发送的所述音频包对应的母语文本,其中,所述母语文本由所述语音识别服务器根据所述用户标识对应的第一语音识别模型对所述音频包进行语音识别所获得。
在一种可行的实施方式中,终端还包括,第一修正单元1003,用于根据所述音频包,对所述母语文本进行修正,获得修订后的母语文本;发送单元1001,还用于将所述修订前的母语文本、修订后的母语文本、所述音频包和所述用户标识发送给所述数据挖掘服务器。
在一种可行的实施方式中,终端还包括,发送单元1001,还用于向翻译服务器发送所述母语文本、目标语种和所述用户标识;收获单元1002,还用于接收所述翻译服务器发送的目标文本,其中目标文本由所述翻译服务器根据所述用户标识和所述目标语种对应的第一翻译模型对所述母语文本进行翻译所得。
在一种可行的实施方式中,终端还包括,第二修正单元1004,用于对所述目标文本进行修订,获得修订后的目标文本;发送单元1002,还用于将所述修订后的目标文本、修订前的目标文本、所述目标语种和所述用户标识发送给数据挖掘服务器。
在一种可行的实施方式中,终端还包括,确认单元1005,用于确定声源的位置和人脸图片的对应关系,其中所述声源的位置与所述音频包一一对应;发送单元1001,还用于将所述人脸图片发送给人脸识别服务器;收获单元1002,还用于接收所述人脸服务器发送的用户标识和人脸图片的对应关系;确认单元1005,还用于根据所述声源的位置和人脸图片的对应关系以及所述用户标识和人脸图片的对应关系,确定所述音频包以及所述用户标识的对应关系。
在一种可行的实施方式中,发送单元1001,具体用于根据所述音频包以及所述用户标识的对应关系,向语音识别服务器所述音频包和所述用户标识。
语音识别服务器、翻译服务器或终端均可以以计算设备的方式呈现,图11为本申请实施例的的一种计算设备1100实现方式的示意性框图。其中,计算设备1100可以包括处理器1110、存储器1130和总线系统1150。其中,处理器和存储器通过总线系统相连,该存储器用于存储指令,该处理器用于执行该存储器存储的指令。编码设备的存储器存储程序代码,且处理器可以调用存储器中存储的程序代码执行本申请描述的会议处理的方法,如图2实施例中所介绍的处理步骤。为避免重复,这里不再详细描述。
在本申请实施例中,该处理器1110可以是中央处理单元(Central ProcessingUnit,简称为“CPU”),该处理器1110还可以是其他通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
该存储器1130可以包括只读存储器(ROM)设备或者随机存取存储器(RAM)设备。任何其他适宜类型的存储设备也可以用作存储器1130。存储器1130可以包括由处理器1110使用总线1150访问的代码和数据1131。存储器1130可以进一步包括操作系统1133和应用程序1135,该应用程序1135包括允许处理器1110执行本申请描述的会议处理的至少一个程序。例如,应用程序1135可以包括应用1至N,其进一步包括执行在本申请描述的会议处理方法的语音识别应用(简称语音识别应用)。
该总线系统1150除包括数据总线之外,还可以包括电源总线、控制总线和状态信号总线等。但是为了清楚说明起见,在图中将各种总线都标为总线系统1150。
可选的,计算设备1100还可以包括一个或多个输出设备,诸如显示器1170。在一个示例中,显示器1170可以是触感显示器,其将显示器与可操作地感测触摸输入的触感单元合并。显示器1170可以经由总线1150连接到处理器1110。
图12为本申请实施例中的系统的一种示意性框图。该系统1200可以包括:如图8所示的语音识别服务器800和如图9所示的翻译服务器900。进一步,该系统12还可以包括:如图10所示的终端1000。
本领域技术人员能够领会,结合本文公开描述的各种说明性逻辑框、模块和算法步骤所描述的功能可以硬件、软件、固件或其任何组合来实施。如果以软件来实施,那么各种说明性逻辑框、模块、和步骤描述的功能可作为一或多个指令或代码在计算机可读媒体上存储或传输,且由基于硬件的处理单元执行。计算机可读媒体可包含计算机可读存储媒体,其对应于有形媒体,例如数据存储媒体,或包括任何促进将计算机程序从一处传送到另一处的媒体(例如,根据通信协议)的通信媒体。以此方式,计算机可读媒体大体上可对应于(1)非暂时性的有形计算机可读存储媒体,或(2)通信媒体,例如信号或载波。数据存储媒体可为可由一或多个计算机或一或多个处理器存取以检索用于实施本申请中描述的技术的指令、代码和/或数据结构的任何可用媒体。计算机程序产品可包含计算机可读媒体。
作为实例而非限制,此类计算机可读存储媒体可包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储装置、磁盘存储装置或其它磁性存储装置、快闪存储器或可用来存储指令或数据结构的形式的所要程序代码并且可由计算机存取的任何其它媒体。并且,任何连接被恰当地称作计算机可读媒体。举例来说,如果使用同轴缆线、光纤缆线、双绞线、数字订户线(DSL)或例如红外线、无线电和微波等无线技术从网站、服务器或其它远程源传输指令,那么同轴缆线、光纤缆线、双绞线、DSL或例如红外线、无线电和微波等无线技术包含在媒体的定义中。但是,应理解,所述计算机可读存储媒体和数据存储媒体并不包括连接、载波、信号或其它暂时媒体,而是实际上针对于非暂时性有形存储媒体。如本文中所使用,磁盘和光盘包含压缩光盘(CD)、激光光盘、光学光盘、数字多功能光盘(DVD)和蓝光光盘,其中磁盘通常以磁性方式再现数据,而光盘利用激光以光学方式再现数据。以上各项的组合也应包含在计算机可读媒体的范围内。
可通过例如一或多个数字信号处理器(DSP)、通用微处理器、专用集成电路(ASIC)、现场可编程逻辑阵列(FPGA)或其它等效集成或离散逻辑电路等一或多个处理器来执行指令。因此,如本文中所使用的术语“处理器”可指前述结构或适合于实施本文中所描述的技术的任一其它结构中的任一者。另外,在一些方面中,本文中所描述的各种说明性逻辑框、模块、和步骤所描述的功能可以提供于经配置以用于编码和解码的专用硬件和/或软件模块内,或者并入在组合编解码器中。而且,所述技术可完全实施于一或多个电路或逻辑元件中。
本申请的技术可在各种各样的装置或设备中实施,包含无线手持机、集成电路(IC)或一组IC(例如,芯片组)。本申请中描述各种组件、模块或单元是为了强调用于执行所揭示的技术的装置的功能方面,但未必需要由不同硬件单元实现。实际上,如上文所描述,各种单元可结合合适的软件和/或固件组合在编码解码器硬件单元中,或者通过互操作硬件单元(包含如上文所描述的一或多个处理器)来提供。
以上所述,仅为本申请示例性的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应该以权利要求的保护范围为准。
Claims (21)
1.一种语音识别的方法,其特征在于,包括:
语音识别服务器接收终端发送的音频包和用户标识;
所述语音识别服务器获取所述用户标识对应的第一语音识别模型;
所述语音识别服务器根据所述第一语音识别模型,对所述音频包进行语音识别,获得所述音频包对应的母语文本;
其中,所述音频包以及所述用户标识之间具有对应关系;
所述音频包以及所述用户标识的对应关系是由所述终端在确定声源的位置和人脸图片的对应关系后,根据声源的位置和人脸图片的对应关系以及用户标识和人脸图片的对应关系所确定的。
2.根据权利要求1所述的方法,其特征在于,所述语音识别服务器接收终端发送的音频包和用户标识,具体包括:
所述语音识别服务器接收终端发送的音频包、用户标识和语种类别;
所述语音识别服务器获取所述用户标识对应的第一语音识别模型,具体包括:
根据所述用户标识和所述语种类别,所述语音识别服务器获得所述用户标识和所述语种类别对应的第二语音识别模型。
3.根据权利要求1所述的方法,其特征在于,还包括:所述语音识别服务器从数据挖掘服务器接收到语音挖掘结果和所述用户标识,利用所述语音挖掘结果训练所述第一语音识别模型,获得第三语音识别模型,将所述第一语音识别模型更新为所述第三语音识别模型,其中所述第三语音识别模型与所述用户标识对应。
4.根据权利要求3所述的方法,其特征在于,还包括:所述数据挖掘服务器接收所述终端发送的修订后的母语文本、修订前的母语文本、所述用户标识和所述音频包,利用所述音频包对所述修订后的母语文本和所述修订前的母语文本进行挖掘,获得语音挖掘数据,并将所述语音挖掘数据发送给所述语音识别服务器。
5.一种语音识别的方法,其特征在于,包括:
终端向语音识别服务器发送音频包和用户标识;
所述终端接收所述语音识别服务器发送的所述音频包对应的母语文本,其中,所述母语文本由所述语音识别服务器根据所述用户标识对应的第一语音识别模型对所述音频包进行语音识别所获得;
所述终端向语音识别服务器发送音频包和用户标识之前,所述方法还包括:
所述终端确定声源的位置和人脸图片的对应关系,其中所述声源的位置与所述音频包相对应;
所述终端将所述人脸图片发送给人脸识别服务器;
所述终端接收所述人脸识别服务器发送的用户标识和人脸图片的对应关系;
所述终端根据所述声源的位置和人脸图片的对应关系以及所述用户标识和人脸图片的对应关系,确定所述音频包以及所述用户标识的对应关系。
6.根据权利要求5所述的方法,其特征在于,还包括:所述终端根据所述音频包,对所述母语文本进行修正,获得修订后的母语文本,并将修订前的所述母语文本、修订后的母语文本、所述音频包和用户标识发送给数据挖掘服务器。
7.根据权利要求5或6所述的方法,其特征在于,还包括:所述终端向翻译服务器发送所述母语文本、目标语种和所述用户标识;
所述终端接收所述翻译服务器发送的目标文本,其中目标文本由所述翻译服务器根据所述用户标识和所述目标语种对应的第一翻译模型对所述母语文本进行翻译所得。
8.根据权利要求7所述的方法,其特征在于,还包括:所述终端对所述目标文本进行修订,获得修订后的目标文本;将所述修订后的目标文本、修订前的目标文本、所述目标语种和所述用户标识发送给数据挖掘服务器。
9.根据权利要求5所述的方法,其特征在于,所述终端向语音识别服务器发送音频包和用户标识,具体为:
根据所述音频包以及所述用户标识的对应关系,向语音识别服务器发送所述音频包和所述用户标识。
10.一种语音识别服务器,其特征在于,包括:
接收单元,用于接收终端发送的音频包和用户标识;
获取单元,用于获取所述用户标识对应的第一语音识别模型;
识别单元,用于根据所述第一语音识别模型,对所述音频包进行语音识别,获得所述音频包对应的母语文本;
其中,所述音频包以及所述用户标识之间具有对应关系;
所述音频包以及所述用户标识的对应关系是由所述终端在确定声源的位置和人脸图片的对应关系后,根据声源的位置和人脸图片的对应关系以及用户标识和人脸图片的对应关系所确定的。
11.根据权利要求10所述的语音识别服务器,其特征在于,所述接收单元,具体用于接收终端发送的音频包、用户标识和语种类别;
所述获取单元,具体用于根据所述用户标识和所述语种类别,所述语音识别服务器获得所述用户标识和所述语种类别对应的第二语音识别模型。
12.根据权利要求10或11所述的语音识别服务器,其特征在于,还包括语音识别模型训练单元和语音识别模型更新单元,其中,
所述接收单元,用于从数据挖掘服务器接收到语音挖掘结果和所述用户标识;
所述语音识别模型训练单元,用于利用所述语音挖掘结果训练所述第一语音识别模型,获得第三语音识别模型;
所述语音识别模型更新单元,用于将所述第一语音识别模型更新为所述第三语音识别模型,其中所述第三语音识别模型与所述用户标识对应。
13.一种终端,其特征在于,包括:
发送单元,用于向语音识别服务器发送音频包和用户标识;
收获单元,用于接收所述语音识别服务器发送的所述音频包对应的母语文本,其中,所述母语文本由所述语音识别服务器根据所述用户标识对应的第一语音识别模型对所述音频包进行语音识别所获得;
确认单元,用于确定声源的位置和人脸图片的对应关系,其中所述声源的位置与所述音频包相对应;
所述发送单元,还用于将所述人脸图片发送给人脸识别服务器;
所述收获单元,还用于接收所述人脸识别服务器发送的用户标识和人脸图片的对应关系;
所述确认单元,还用于根据所述声源的位置和人脸图片的对应关系以及所述用户标识和人脸图片的对应关系,确定所述音频包以及所述用户标识的对应关系。
14.根据权利要求13所述的终端,其特征在于,还包括:第一修正单元,用于根据所述音频包,对所述母语文本进行修正,获得修订后的母语文本;
所述发送单元,还用于将修订前的所述母语文本、修订后的母语文本、所述音频包和所述用户标识发送给数据挖掘服务器。
15.根据权利要求13或14所述的终端,其特征在于,所述发送单元,还用于向翻译服务器发送所述母语文本、目标语种和所述用户标识;
所述收获单元,还用于接收所述翻译服务器发送的目标文本,其中目标文本由所述翻译服务器根据所述用户标识和所述目标语种对应的第一翻译模型对所述母语文本进行翻译所得。
16.根据权利要求15所述的终端,其特征在于,还包括第二修正单元,用于对所述目标文本进行修订,获得修订后的目标文本;
所述发送单元,还用于将所述修订后的目标文本、修订前的目标文本、所述目标语种和所述用户标识发送给数据挖掘服务器。
17.根据权利要求13所述的终端,其特征在于,所述发送单元,具体用于根据所述音频包以及所述用户标识的对应关系,向语音识别服务器发送所述音频包和所述用户标识。
18.一种翻译服务器,其特征在于,包括:
收发单元,用于接收终端发送的母语文本、目标语种和用户标识;
获得单元,用于根据所述用户标识和所述目标语种,获得所述用户标识和所述目标语种对应的第一翻译模型;
翻译单元,用于根据所述第一翻译模型,对所述母语文本翻译成目标文本;
其中,所述母语文本与音频包对应,所述音频包以及所述用户标识之间具有对应关系;
所述音频包以及所述用户标识的对应关系是由所述终端在确定声源的位置和人脸图片的对应关系后,根据声源的位置和人脸图片的对应关系以及用户标识和人脸图片的对应关系所确定的。
19.根据权利要求18所述的翻译服务器,其特征在于,还包括翻译模型训练单元和翻译模型更新单元,其中,
所述收发单元,还用于接收到数据挖掘服务器发送的翻译挖掘结果、所述目标语种和所述用户标识;
所述翻译模型训练单元,用于利用所述翻译挖掘结果对所述第一翻译模型进行训练,获得第二翻译模型;
所述翻译模型更新单元,用于将所述第一翻译模型更新为所述第二翻译模型,其中,所述第二翻译模型与所述目标语种和所述用户标识对应。
20.一种智能会议系统,其特征在于,包括如权利要求10-12任一的语音识别服务器,以及如权利要求18-19任一的翻译服务器。
21.根据权利要求20所述的系统,其特征在于,还包括如权利要求13-17任一的终端。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810702829.4A CN110728976B (zh) | 2018-06-30 | 2018-06-30 | 语音识别的方法、装置及系统 |
PCT/CN2019/093297 WO2020001546A1 (zh) | 2018-06-30 | 2019-06-27 | 语音识别的方法、装置及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810702829.4A CN110728976B (zh) | 2018-06-30 | 2018-06-30 | 语音识别的方法、装置及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110728976A CN110728976A (zh) | 2020-01-24 |
CN110728976B true CN110728976B (zh) | 2022-05-06 |
Family
ID=68985874
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810702829.4A Active CN110728976B (zh) | 2018-06-30 | 2018-06-30 | 语音识别的方法、装置及系统 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN110728976B (zh) |
WO (1) | WO2020001546A1 (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111986655B (zh) | 2020-08-18 | 2022-04-01 | 北京字节跳动网络技术有限公司 | 音频内容识别方法、装置、设备和计算机可读介质 |
CN112233665A (zh) * | 2020-10-16 | 2021-01-15 | 珠海格力电器股份有限公司 | 模型训练的方法和装置、电子设备和存储介质 |
CN112185363B (zh) * | 2020-10-21 | 2024-02-13 | 北京猿力未来科技有限公司 | 音频处理方法及装置 |
CN112532912A (zh) * | 2020-11-20 | 2021-03-19 | 北京搜狗科技发展有限公司 | 一种视频处理方法、装置和电子设备 |
CN112818707B (zh) * | 2021-01-19 | 2024-02-27 | 传神语联网网络科技股份有限公司 | 基于逆向文本共识的多翻引擎协作语音翻译系统与方法 |
CN112818705B (zh) * | 2021-01-19 | 2024-02-27 | 传神语联网网络科技股份有限公司 | 基于组间共识的多语种语音翻译系统与方法 |
CN112818706B (zh) * | 2021-01-19 | 2024-02-27 | 传神语联网网络科技股份有限公司 | 基于逆向结果稳定性的语音翻译实时争端记录系统与方法 |
CN113362818A (zh) * | 2021-05-08 | 2021-09-07 | 山西三友和智慧信息技术股份有限公司 | 一种基于人工智能的语音交互指导系统及方法 |
CN114038449B (zh) * | 2021-11-26 | 2024-09-17 | 深圳市北科瑞声科技股份有限公司 | 语音控制方法、装置、设备及介质 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106935240A (zh) * | 2017-03-24 | 2017-07-07 | 百度在线网络技术(北京)有限公司 | 基于人工智能的语音翻译方法、装置、终端设备和云端服务器 |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6499013B1 (en) * | 1998-09-09 | 2002-12-24 | One Voice Technologies, Inc. | Interactive user interface using speech recognition and natural language processing |
JP5014449B2 (ja) * | 2010-02-26 | 2012-08-29 | シャープ株式会社 | 会議システム、情報処理装置、会議支援方法、情報処理方法、及びコンピュータプログラム |
KR20140093459A (ko) * | 2013-01-18 | 2014-07-28 | 한국전자통신연구원 | 자동 통역 방법 |
CN103151044A (zh) * | 2013-01-22 | 2013-06-12 | 广东欧珀移动通信有限公司 | 基于语音识别的语言转换方法及系统 |
CN104125548B (zh) * | 2013-04-27 | 2017-12-22 | 中国移动通信集团公司 | 一种对通话语言进行翻译的方法、设备和系统 |
JP2016057986A (ja) * | 2014-09-11 | 2016-04-21 | 株式会社東芝 | 音声翻訳装置、方法およびプログラム |
KR102188268B1 (ko) * | 2014-10-08 | 2020-12-08 | 엘지전자 주식회사 | 이동단말기 및 그 제어방법 |
US10325590B2 (en) * | 2015-06-26 | 2019-06-18 | Intel Corporation | Language model modification for local speech recognition systems using remote sources |
CN105096941B (zh) * | 2015-09-02 | 2017-10-31 | 百度在线网络技术(北京)有限公司 | 语音识别方法以及装置 |
US10026403B2 (en) * | 2016-08-12 | 2018-07-17 | Paypal, Inc. | Location based voice association system |
CN107748879A (zh) * | 2017-11-16 | 2018-03-02 | 百度在线网络技术(北京)有限公司 | 用于获取人脸信息的方法及装置 |
CN108010526B (zh) * | 2017-12-08 | 2021-11-23 | 北京奇虎科技有限公司 | 语音处理方法及装置 |
-
2018
- 2018-06-30 CN CN201810702829.4A patent/CN110728976B/zh active Active
-
2019
- 2019-06-27 WO PCT/CN2019/093297 patent/WO2020001546A1/zh active Application Filing
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106935240A (zh) * | 2017-03-24 | 2017-07-07 | 百度在线网络技术(北京)有限公司 | 基于人工智能的语音翻译方法、装置、终端设备和云端服务器 |
Also Published As
Publication number | Publication date |
---|---|
WO2020001546A1 (zh) | 2020-01-02 |
CN110728976A (zh) | 2020-01-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110728976B (zh) | 语音识别的方法、装置及系统 | |
US10885318B2 (en) | Performing artificial intelligence sign language translation services in a video relay service environment | |
US10614173B2 (en) | Auto-translation for multi user audio and video | |
CN205647778U (zh) | 一种智能会议系统 | |
TW201926079A (zh) | 雙向語音翻譯系統、雙向語音翻譯方法和電腦程式產品 | |
CN109325091B (zh) | 兴趣点属性信息的更新方法、装置、设备及介质 | |
JP2021009701A (ja) | インターフェイススマートインタラクティブ制御方法、装置、システム及びプログラム | |
US9324325B2 (en) | Converting data between users during a data exchange session | |
WO2012175556A2 (en) | Method for preparing a transcript of a conversation | |
CN110047488B (zh) | 语音翻译方法、装置、设备及控制设备 | |
KR20180127136A (ko) | 양면으로 표시되는 동기 번역 설비, 방법 장치 및 전자설비 | |
US11488603B2 (en) | Method and apparatus for processing speech | |
US20140180668A1 (en) | Service server apparatus, service providing method, and service providing program | |
WO2021169825A1 (zh) | 语音合成方法、装置、设备和存储介质 | |
KR102639526B1 (ko) | 발화 영상 제공 방법 | |
US20190121860A1 (en) | Conference And Call Center Speech To Text Machine Translation Engine | |
CN112581965A (zh) | 转写方法、装置、录音笔和存储介质 | |
US20240233745A1 (en) | Performing artificial intelligence sign language translation services in a video relay service environment | |
US11783836B2 (en) | Personal electronic captioning based on a participant user's difficulty in understanding a speaker | |
EP2590392B1 (en) | Service server device, service provision method, and service provision program | |
WO2023142590A1 (zh) | 手语视频的生成方法、装置、计算机设备及存储介质 | |
US11848026B2 (en) | Performing artificial intelligence sign language translation services in a video relay service environment | |
US11086592B1 (en) | Distribution of audio recording for social networks | |
CN113221514A (zh) | 文本处理方法、装置、电子设备和存储介质 | |
KR102546532B1 (ko) | 발화 영상 제공 방법 및 이를 수행하기 위한 컴퓨팅 장치 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |