CN111798836B - 一种自动切换语种方法、装置、系统、设备和存储介质 - Google Patents

一种自动切换语种方法、装置、系统、设备和存储介质 Download PDF

Info

Publication number
CN111798836B
CN111798836B CN202010766838.7A CN202010766838A CN111798836B CN 111798836 B CN111798836 B CN 111798836B CN 202010766838 A CN202010766838 A CN 202010766838A CN 111798836 B CN111798836 B CN 111798836B
Authority
CN
China
Prior art keywords
wake
recognition
language type
voice
language
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010766838.7A
Other languages
English (en)
Other versions
CN111798836A (zh
Inventor
范红亮
李旭滨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Maosheng Intelligent Technology Co ltd
Original Assignee
Shanghai Maosheng Intelligent Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Maosheng Intelligent Technology Co ltd filed Critical Shanghai Maosheng Intelligent Technology Co ltd
Priority to CN202010766838.7A priority Critical patent/CN111798836B/zh
Publication of CN111798836A publication Critical patent/CN111798836A/zh
Application granted granted Critical
Publication of CN111798836B publication Critical patent/CN111798836B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/005Language recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Abstract

本申请涉及一种自动切换语种方法、装置、系统、设备及存储介质,该方法包括获取唤醒语音数据;对唤醒语音数据进行处理,以获得唤醒词、唤醒语音片段;识别唤醒词和/或唤醒语音片段,以获得识别语种类型;在识别语种类型与当前语种类型不同的情况下,切换当前语种类型识别语种类型,解决了无法进行多语种切换识别的问题,实现了自动切换语种识别模型的技术效果。

Description

一种自动切换语种方法、装置、系统、设备和存储介质
技术领域
本申请涉及语音识别技术领域,特别是涉及一种自动切换语种方法、装置、系统、设备和存储介质。
背景技术
针对一些多语种的语音识别场景,需要根据说话者的语种情况,选择合适语音识别引擎,从而达到最佳的语音识别效果。
在相关技术中,通常有两种方式来满足多语种的识别需求。第一种方式是训练多语种混合识别模型;第二种方式是每个语种都针对性地训练该语种的语音识别模型,每个语种均具有其独立的语音识别引擎进行识别。
然而上述方式均具有缺陷。对于第一种方式而言,虽然直接训练多语种混合识别模型简单方便,但是其识别准确率低、识别效果差,无法对每个语种都有较高的识别准确率、较好的识别效果,而且,不同语种之间的识别会相互干扰。对于第二种方式而言,虽然每个语种的语音识别模型对该语种的识别准确率高、识别效果好,但是无法针对说话人选择合适的语音识别模型进行识别。
为了解决第二种方式的缺陷,在相关技术中,通常会配置一个语种选择选项(语种选择菜单),在识别之前先选择对应的语音识别模型,然后再进行识别。但是这种方法仍然存在缺陷,如只能适用于单一语种环境,无法在多语种环境下进行识别;需要人工选择,操作繁琐。
目前针对相关技术中无法进行多语种切换识别的问题,尚未提出有效的解决方案。
发明内容
本申请实施例提供了一种自动切换语种方法、装置、系统、设备和存储介质,以至少解决相关技术中无法进行多语种切换识别的问题。
第一方面,本申请实施例提供了一种自动切换语种方法,包括:
获取唤醒语音数据;
对所述唤醒语音数据进行处理,以获得唤醒词、唤醒语音片段;
识别所述唤醒词和/或所述唤醒语音片段,以获得识别语种类型;
在所述识别语种类型与当前语种类型不同的情况下,切换所述当前语种类型为所述识别语种类型。
在其中的一些实施例中,在切换所述当前语种类型为所述识别语种类型之后,所述方法还包括:
选择与所述识别语种类型相对应的语音识别引擎;
使用所述语音识别引擎对所述唤醒语音数据进行识别,以生成唤醒语音识别结果。
在其中的一些实施例中,识别所述唤醒词和/或所述唤醒语音片段,以获得识别语种类型包括:
识别若干所述唤醒词,以获得若干第一识别语种类型;
统计若干所述第一识别语种类型的次数;
在一所述第一识别语种类型的次数最多的情况下,将该所述第一识别语种类型作为识别语种类型。
在其中的一些实施例中,识别所述唤醒词和/或所述唤醒语音片段,以获得识别语种类型包括:
识别若干所述唤醒语音片段,以获得若干第二识别语种类型;
统计若干所述第二识别语种类型的次数;
在一所述第二识别语种类型的次数最多的情况下,将该所述第二识别语种类型作为识别语种类型。
在其中的一些实施例中,识别所述唤醒词和/或所述唤醒语音片段,以获得识别语种类型包括:
识别所述唤醒词,以获得第一识别语种类型;
识别所述唤醒语音片段,以获得第二识别语种类型;
在所述第二识别语种类型与所述第一识别语种类型不同的情况下,将所述第二识别语种类型作为识别语种类型。
第二方面,本申请实施例提供了一种自动切换语种装置,包括:
语音获取单元,用于获取唤醒语音数据;
语音处理单元,用于对所述唤醒语音数据进行处理,以获得唤醒词、唤醒语音片段;
唤醒词识别单元,用于对所述唤醒词进行识别,以获得第一识别语种类型;
唤醒语音片段识别单元,用于对所述唤醒语音片段进行识别,以获得第二识别语种类型;
语种切换单元,用于根据所述第一识别语种类型和/或所述第二识别语种类型确定识别语种类型,以及在所述识别语种类型与当前语种类型不同的情况下,将所述当前语种类型切换为所述识别语种类型。
在其中的一些实施例中,还包括:
语音识别单元,用于选择与所述识别语种类型相对应的语音识别引擎,并对所述唤醒语音数据进行识别,以生成唤醒语音识别结果。
在其中的一些实施例中,还包括:
统计单元,用于统计所述第一识别语种类型的次数和/或所述第二识别语种类型的次数;
所述语种切换单元还用于在一所述第一识别语种类型的次数最多的情况下将该所述第一识别语种类型作为所述识别语种类型,或在一所述第二识别语种类型的次数最多的情况下将该第二识别语种类型作为所述识别语种类型。
在其中的一些实施例中,还包括:
判断单元,用于判断所述第一识别语种类型与所述第二识别语种类型是否相同;
所述语种切换单元还用于在所述第一识别语种类型与所述第二识别语种类型不同的情况下,将所述第二识别语种类型作为识别语种类型。
第三方面,本申请实施例提供了一种自动切换语种系统,包括:
语音获取模块,用于获取唤醒语音数据;
唤醒模块,用于识别所述唤醒语音数据的唤醒词和/或唤醒语音片段以获得识别语种类型;
语音识别模块,用于根据所述识别语种类型选择与所述识别语种类型相对应的语音识别引擎,并使用所述语音识别引擎对所述唤醒语音数据进行识别,以生成唤醒语音识别结果。
第四方面,本申请实施例提供了一种计算机设备,包括:
至少一个处理器;
以及与所述至少一个处理器通信连接的存储器;
其中,所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器执行第一方面所述所述的自动切换语种方法。
第五方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,该计算机程序被处理器执行时实现如第一方面所述的自动切换语种方法。
相比于相关技术,本申请实施例提供的一种自动切换语种方法、装置、系统、设备及存储介质,通过获取唤醒语音数据;对唤醒语音数据进行处理,以获得唤醒词、唤醒语音片段;识别唤醒词和/或唤醒语音片段,以获得识别语种类型;在识别语种类型与当前语种类型不同的情况下,切换当前语种类型识别语种类型,解决了无法进行多语种切换识别的问题,实现了自动切换语种识别模型的技术效果。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请实施例的自动切换语种系统的结构框图;
图2是根据本申请实施例的自动切换语种方法的流程图(一);
图3是根据本申请实施例的自动切换语种方法的流程图(二);
图4是根据本申请实施例的自动切换语种方法的流程图(三);
图5是根据本申请实施例的自动切换语种方法的流程图(四);
图6是根据本申请实施例的自动切换语种方法的流程图(五);
图7是根据本申请实施例的自动切换语种装置的结构框图(一);
图8是根据本申请实施例的自动切换语种装置的结构框图(二);
图9是根据本申请实施例的自动切换语种装置的结构框图(三);
图10是根据本申请实施例的自动切换语种装置的结构框图(四);
图11是根据本申请实施例的自动切换语种方法的具体工作流程图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行描述和说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。基于本申请提供的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
显而易见地,下面描述中的附图仅仅是本申请的一些示例或实施例,对于本领域的普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图将本申请应用于其他类似情景。此外,还可以理解的是,虽然这种开发过程中所作出的努力可能是复杂并且冗长的,然而对于与本申请公开的内容相关的本领域的普通技术人员而言,在本申请揭露的技术内容的基础上进行的一些设计,制造或者生产等变更只是常规的技术手段,不应当理解为本申请公开的内容不充分。
在本申请中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域普通技术人员显式地和隐式地理解的是,本申请所描述的实施例在不冲突的情况下,可以与其它实施例相结合。
除非另作定义,本申请所涉及的技术术语或者科学术语应当为本申请所属技术领域内具有一般技能的人士所理解的通常意义。本申请所涉及的“一”、“一个”、“一种”、“该”等类似词语并不表示数量限制,可表示单数或复数。本申请所涉及的术语“包括”、“包含”、“具有”以及它们任何变形,意图在于覆盖不排他的包含;例如包含了一系列步骤或模块(单元)的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可以还包括没有列出的步骤或单元,或可以还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。本申请所涉及的“连接”、“相连”、“耦接”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电气的连接,不管是直接的还是间接的。本申请所涉及的“多个”是指两个或两个以上。“和/或”描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。本申请所涉及的术语“第一”、“第二”、“第三”等仅仅是区别类似的对象,不代表针对对象的特定排序。
图1是根据本申请实施例的自动切换语种系统的结构框图(一)。如图1所示,自动切换语种系统100包括语音获取模块110、唤醒模块120和语音识别模块130。
语音获取模块110,用于获取唤醒语音数据以及其他语音数据。
唤醒模块120,与语音获取模块110通信连接,用于对唤醒语音数据进行处理,得到若干唤醒词以及若干唤醒语音片段,以及识别唤醒词、唤醒语音片段以获得识别语种类型。
语音识别模块130,与唤醒模块120通信连接,用于选择与识别语种类型相对应的语音识别引擎,并使用该语音识别引擎对唤醒语音数据进行识别,以生成唤醒语音识别结果。
在一些实施例中,语音获取模块110、唤醒模块120和语音识别模块130可以是集成式设计,如智能终端,包括但不限于手机、电脑、音箱、智能大屏等。
在一些实施例中,语音获取模块110、唤醒模块120和语音识别模块130也可以是分体式设计,如语音获取模块110、唤醒模块120、语音识别模块130中的任意一个是均是单独的终端,或其中的一个是单独的终端、另外两个是集成的终端,如语音获取模块110是智能终端,唤醒模块120、语音识别模块130为集成式服务器。
通信连接通过网络140进行连接,可以是有线网络连接,也可以是无线网络连接。在其中的一些实施例中,网络140可以可以包括公共网络(例如,因特网)、专用网络(例如,局域网(LAN)、广域网(WAN)等)、无线网络(例如,802.11网络、Wi-Fi网络等)、蜂窝网络(例如,4G网络、5G网络等)、帧中继网络、虚拟专用网络(VPN)、卫星网络、路由器、集线器、交换机、服务器等或者其任意组合。仅作为示例,网络140可包括电缆网络、有线网络、光纤网络、电信网络、内联网、无线局域网(WLAN)、城域网(MAN)、公共电话交换网(PSTN)等或者其任意组合。在一些实施例中,网络140可包括一个或多个网络接入点。例如,网络140可包括有线和/或无线网络接入点,诸如基站和/或因特网交换点,自动切换语种系统100的各个装置可通过这些接入点连接到网络以交换信息和/或数据。
图2是根据本申请实施例的自动切换语种方法的流程图(一)。如图2所示,自动切换语种方法包括:
步骤S202,获取唤醒语音数据;
步骤S204,对唤醒语音数据进行处理,以获得唤醒词、唤醒语音片段;
步骤S206,识别唤醒词和/或唤醒语音片段,以获得识别语种类型;
步骤S208,在识别语种类型与当前语种类型不同的情况下,切换当前语种类型为识别语种类型。
通过上述步骤,对唤醒语音数据中的唤醒词或唤醒语音片段进行识别,从而判断唤醒语音数据的识别语种类型,然后将当前的语种类型切换为识别语种类型,从而满足多语种自动切换识别的需要,进而解决了相关技术中需要使用者手动选择语种识别模型所导致的步骤繁琐、无法适用多语种环境的问题,实现了根据使用者的唤醒词进行语种自动切换的技术效果,达到无缝切换语种识别模型、提高语音识别准确率的目的。
在上述步骤S202之前,需要根据不同的语种设置不同的唤醒词,如“你好小猫”、“Hello Tom”、“Bonjour Chat”等,其中,“你好小猫”对应中文语种,“Hello Tom”对应英文语种,“Bonjour Chat”对应法文语种。
在一些实施例中,也可以设置复合唤醒词,如“你好Tom”、“Hello,小猫”等。在复合唤醒词的情况下,“你好Tom”可以对应中文语种,“Hello,小猫”可以对应中文语种或一个问题语种。在唤醒词为复合唤醒词的情况下,可以根据说话人的后续词语或唤醒语音片段进行判断。
对于上述步骤S204,对唤醒语音数据进行处理,可以获得至少一个唤醒词、以及至少一个唤醒语音片段。每个唤醒语音片段可以包括唤醒词,如一个或若干个,如一个唤醒语音片段包括“你好小猫……你好小猫”;每个唤醒语音片段也可以不包括唤醒词,如一个唤醒语音片段包括“今天天气什么样?”;或者每个唤醒语音片段可以包括唤醒词的一部分,如第一个唤醒语音片段包括“你好”,第二个唤醒语音片段包括“小猫”。
对于上述步骤S206,可以只识别唤醒词获得识别语种类型,也可以只识别唤醒语音片段获得识别语种类型,可以同时识别唤醒词、唤醒语音片段获得识别语种类型。
对于上述步骤S208,自动切换语种系统一般会设置当前语种类型,如中文语种或英文语种,因此,当识别语种类型与当前语种类型不一致时,自动切换语种系统会自动将当前语种类型切换为识别语种类型,如将中文语种切换为英文语种,从而解决了使用者手动切换语种的问题。
此外,通过上述步骤,可以在使用者切换唤醒词的情况下,自动切换识别语种类型。具体地,在某场景有多个使用者时,第一个使用者说出的唤醒词为“你好小猫”,自动切换语种系统,将当前语种类型切换为中文语种类型,并使用中文语种识别引擎进行后续的语音识别;第二个使用者说出的唤醒词为“Hello Tom”,自动切换语种系统,将当前语种类型(中文语种类型)切换为英文语种类型,并使用英文语种识别引擎进行后续的语音识别。
图3是根据本申请实施例的自动切换语种方法的流程图(二)。如图3所示,在图像数据包括用户的人脸图像数据以及用户的唇动图像数据的情况下,方法还包括:
步骤S302,选择与识别语种类型相对应的语音识别引擎;
步骤S304,使用语音识别引擎对唤醒语音数据进行识别,以生成唤醒语音识别结果。
通过上述步骤,在切换识别语种类型后,自动切换语种系统会自动选择该识别语种类型对应的语音识别引擎,并进行后续的语音识别,从而解决了多语种识别模型识别准确率低的问题。
图4是根据本申请实施例的自动切换语种方法的流程图(三)。如图4所示,识别第二语音数据流,以生成语音识别结果包括:
步骤S402,识别若干唤醒词,以获得若干第一识别语种类型;
步骤S404,统计若干第一识别语种类型的次数;
步骤S406,在一第一识别语种类型的次数最多的情况下,将该第一识别语种类型作为识别语种类型。
通过上述步骤,统计第一识别语种类型的次数来判断当前的识别语种类型,解决了因存在不同第一识别语种类型导致无法确定合适的识别语种类型的问题。
在一些实施例中,说话者说出的唤醒词包括“你好小猫”、“你好小猫”、“HelloTom”、“你好小猫”、“Bonjour Chat”、“Hello Tom”,即第一识别语种类型包括中文语种类型、英文语种类型和法文语种类型,且中文语种类型的次数为3次、英文语种类型的次数为2次、法文语种类型的次数为1次,则将中文语种类型作识别语种类型。
在一些实施例中,可以按照第一识别语种类型的次数排序,将次数排名第一的第一识别语种类型作为识别语种类型,将次数排名第二的第一识别语种类型作为备用的识别语种类型,从而在一些特定场合下,将备用的识别语种类型与正在使用的识别语种类型进行切换。
图5是根据本申请实施例的自动切换语种方法的流程图(四)。如图5所示,在获取图像之后,方法还包括:
步骤S502,识别若干唤醒语音片段,以获得若干第二识别语种类型;
步骤S504,统计若干第二识别语种类型的次数;
步骤S506,在一第二识别语种类型的次数最多的情况下,将该第二识别语种类型作为识别语种类型。
通过上述步骤,统计第二识别语种类型的次数来判断当前的识别语种类型,解决了因存在不同第二识别语种类型导致无法确定合适的识别语种类型的问题。
在一些实施例中,说话者说出的唤醒语音片段包括“你好小猫,打开电视”、“你好小猫,打开空调”、“Hello Tom,open the TV”、“你好小猫,打开电视”、“Bonjour,ChatAllumez le téléviseur”、“Hello Tom,open the TV”,即第二识别语种类型包括中文语种类型、英文语种类型和法文语种类型,且中文语种类型的次数为3次、英文语种类型的次数为2次、法文语种类型的次数为1次,则将中文语种类型作识别语种类型。
在一些实施例中,可以按照第二识别语种类型的次数排序,将次数排名第一的第二识别语种类型作为识别语种类型,将次数排名第二的第二识别语种类型作为备用的识别语种类型,从而在一些特定场合下,将备用的识别语种类型与正在使用的识别语种类型进行切换。
图6是根据本申请实施例的自动切换语种方法的流程图(五)。如图6所示,在获取图像之后,方法还包括:
步骤S602,识别唤醒词,以获得第一识别语种类型;
步骤S604,识别唤醒语音片段,以获得第二识别语种类型;
步骤S606,在第二识别语种类型与第一识别语种类型不同的情况下,将第二识别语种类型作为识别语种类型。
对于上述步骤S606,选择第二识别语种类型作为识别语种类型的原因主要在于,在一般情况下,除唤醒词外,唤醒语音片段还会包括其他词语,如“Hello Tom,今天天气如何”,此时,“今天天气如何”的词语数量或语句长度均大于“Hello Tom”的词语数量或语句长度,识别唤醒词得到的第一识别语种类型为英文语种类型,识别唤醒语音片段得到的第二识别语种类型为中文语种类型,若将英文语种类型作为识别语种类型,则自动切换语种系统无法识别后续的“今天天气如何”,因此,将中文语种类型作为识别语种类型,可以识别后续的“今天天气如何”。
通过上述步骤,利用唤醒语音片段包含唤醒词这一特性,将识别唤醒语音片段所得到的第二识别语种类型作为识别语种类型,解决了无法选择合适的语种类型的问题。
图7是根据本申请实施例的自动切换语种装置的结构框图(一)。如图7所示,自动切换语种装置700包括语音获取单元710、语音处理单元720、唤醒词识别单元730、唤醒语音片段识别单元740和语种切换单元750。
语音获取单元710,用于获取唤醒语音数据以及其他语音数据。
语音处理单元720,与语音获取单元710通信连接,用于对唤醒语音数据进行处理,以获得唤醒词、唤醒语音片段。
唤醒词识别单元730,与语音处理单元720通信连接,用于对唤醒词进行识别,以获得第一识别语种类型。
唤醒语音片段识别单元740,与语音处理单元720通信连接,用于对唤醒语音片段进行识别,以获得第二识别语种类型。
语种切换单元750,与唤醒词识别单元730、唤醒语音片段识别单元740通信连接,用于根据第一识别语种类型和/或第二识别语种类型确定识别语种类型,并在识别语种类型与当前语种类型不同的情况下,将当前语种类型切换为识别语种类型。
通过唤醒词识别单元、唤醒语音片段识别单元以及语种切换单元的相互协作,不仅提高了语种识别的准确率,还减少了人工手动切换的操作步骤,实现了根据不同说话者的语种自动切换语种类型的技术效果。
图8是根据本申请实施例的自动切换语种装置的结构框图(二)。如图8所示,自动切换语种装置700还包括语音识别单元760。
语音识别单元760,与语种切换单元750通信连接,用于选择与识别语种类型相对应的语音识别引擎,并对唤醒语音数据进行识别以生成唤醒语音识别结果,以及对其他语音数据进行识别以生成语音识别结果。
利用语音识别单元与语种切换单元的相互协作,在确定识别语种类型后,可以自动选择该识别语种类型的语音识别引擎,从而解决多语种混合识别模型识别准确率低、但语种识别模型需要手动切换的问题,实现了自动切换语音识别引擎的技术效果。
图9是根据本申请实施例的自动切换语种装置的结构框图(三)。如图9所示,自动切换语种装置700还包括统计单元770。
统计单元770,与唤醒词识别单元730、唤醒语音片段识别单元740、语种切换单元750通信连接。
在语音处理单元720处理唤醒语音数据得到若干唤醒词的情况下,唤醒词识别单元730识别若干唤醒词得到若干第一识别语种类型;统计单元770统计若干第一识别语种类型的次数;语种切换单元750用于在一第一识别语种类型的次数最多的情况下,将该第一识别语种类型作为识别语种类型。
此外,在语音处理单元720处理唤醒语音数据得到若干唤醒语音片段的情况下,唤醒语音片段识别单元740识别若干唤醒语音片段得到若干第二识别语种类型;统计单元770统计若干第二识别语种类型的次数;语种切换单元750用于在一第二识别语种类型的次数最多的情况下,将该第二识别语种类型作为识别语种类型。
通过统计单元和语种切换单元的相互协作,可以解决存在若干第一识别语种类型或若干第二识别语种类型无法确定识别语种类型的问题,实现了高效、精准判断识别语种类型的技术效果。
图10是根据本申请实施例的自动切换语种装置的结构框图(四)。如图10所示,自动切换语种装置700还包括判断单元780。
判断单元780,与唤醒词识别单元730、唤醒语音片段识别单元740、语种切换单元750通信连接,用于判断第一识别语种类型与第二识别语种类型是否相同。
语种切换单元750用于在第一识别语种类型与第二语种识别类型不同的情况下,将第二识别语种类型作为识别语种类型。
通过判断单元与语种切换单元的相互协作,在第二识别语种类型与第一识别语种类型不同的情况下,利用唤醒语音片段包含唤醒词这一特性,将识别唤醒语音片段所得到的第二识别语种类型作为识别语种类型,解决了无法选择合适的语种类型的问题。
图11是根据本申请实施例的自动切换语种方法的具体工作流程图。如图11所示,对于自动切换语种方法及使用该方法的装置、系统,其具体的工作步骤如下:
音频采集:获取一段语音数据;
唤醒系统:使用关键词识别引擎(Keyword Spotting,kws)对语音数据包括的唤醒词进行识别,确定识别语种;和/或使用语种识别引擎(Language Identification,LID)对唤醒语音片段进行识别,确定识别语种;
ASR(自动语音识别,Automatic Speech Recognition)系统:根据识别语种,切换ASR引擎为与识别语种相对应的ASR引擎。
其中,音频采集对应于自动切换语种系统100的语音获取模块110或自动切换语种装置700的语音获取单元710;唤醒系统对应于自动切换语种系统100的唤醒模块120或自动切换语种装置700的语音处理单元720、唤醒词识别单元730、唤醒语音识别单元740;ASR系统对应于自动切换语种系统100的语音识别模块130或自动切换语种装置700的语种切换单元750和语音识别单元760。
另外,本申请实施例的自动切换语种方法可以由计算机设备来实现。计算机设备的组件可以包括但不限于处理器以及存储有计算机程序指令的存储器。
在一些实施例中,处理器可以包括中央处理器(CPU),或者特定集成电路(Application Specific Integrated Circuit,简称为ASIC),或者可以被配置成实施本申请实施例的一个或多个集成电路。
在一些实施例中,存储器可以包括用于数据或指令的大容量存储器。举例来说而非限制,存储器可包括硬盘驱动器(Hard Disk Drive,简称为HDD)、软盘驱动器、固态驱动器(Solid State Drive,简称为SSD)、闪存、光盘、磁光盘、磁带或通用串行总线(UniversalSerial Bus,简称为USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下,存储器可包括可移除或不可移除(或固定)的介质。在合适的情况下,存储器可在数据处理装置的内部或外部。在特定实施例中,存储器是非易失性(Non-Volatile)存储器。在特定实施例中,存储器包括只读存储器(Read-Only Memory,简称为ROM)和随机存取存储器(RandomAccess Memory,简称为RAM)。在合适的情况下,该ROM可以是掩模编程的ROM、可编程ROM(Programmable Read-Only Memory,简称为PROM)、可擦除PROM(ErasableProgrammable Read-Only Memory,简称为EPROM)、电可擦除PROM(Electrically ErasableProgrammable Read-Only Memory,简称为EEPROM)、电可改写ROM(ElectricallyAlterableRead-Only Memory,简称为EAROM)或闪存(FLASH)或者两个或更多个以上这些的组合。在合适的情况下,该RAM可以是静态随机存取存储器(Static Random-Access Memory,简称为SRAM)或动态随机存取存储器(Dynamic Random Access Memory,简称为DRAM),其中,DRAM可以是快速页模式动态随机存取存储器(Fast Page Mode Dynamic Random AccessMemory,简称为FPMDRAM)、扩展数据输出动态随机存取存储器(Extended Date OutDynamic Random Access Memory,简称为EDODRAM)、同步动态随机存取内存(SynchronousDynamic Random-Access Memory,简称SDRAM)等。
存储器可以用来存储或者缓存需要处理和/或通信使用的各种数据文件,以及处理器所执行的可能的计算机程序指令。
处理器通过读取并执行存储器中存储的计算机程序指令,以实现上述实施例中的任意一种自动切换语种方法。
在其中一些实施例中,计算机设备还可包括通信接口和总线。其中,处理器、存储器、通信接口通过总线连接并完成相互间的通信。
通信接口用于实现本申请实施例中各模块、装置、单元和/或设备之间的通信。通信接口还可以实现与其他部件例如:外接设备、图像/数据采集设备、数据库、外部存储以及图像/数据处理工作站等之间进行数据通信。
总线包括硬件、软件或两者,将计算机设备的部件彼此耦接在一起。总线包括但不限于以下至少之一:数据总线(Data Bus)、地址总线(Address Bus)、控制总线(ControlBus)、扩展总线(Expansion Bus)、局部总线(Local Bus)。举例来说而非限制,总线可包括图形加速接口(Accelerated Graphics Port,简称为AGP)或其他图形总线、增强工业标准架构(Extended Industry StandardArchitecture,简称为EISA)总线、前端总线(FrontSide Bus,简称为FSB)、超传输(Hyper Transport,简称为HT)互连、工业标准架构(Industry StandardArchitecture,简称为ISA)总线、无线带宽(InfiniBand)互连、低引脚数(Low Pin Count,简称为LPC)总线、存储器总线、微信道架构(Micro ChannelArchitecture,简称为MCA)总线、外围组件互连(Peripheral Component Interconnect,简称为PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(Serial AdvancedTechnologyAttachment,简称为SATA)总线、视频电子标准协会局部(Video ElectronicsStandards Association Local Bus,简称为VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下,总线可包括一个或多个总线。尽管本申请实施例描述和示出了特定的总线,但本申请考虑任何合适的总线或互连。
该计算机设备可以执行本申请实施例中的自动切换语种方法。
另外,结合上述实施例中的自动切换语种方法,本申请实施例可提供一种计算机可读存储介质来实现。该计算机可读存储介质上存储有计算机程序指令;该计算机程序指令被处理器执行时实现上述实施例中的任意一种自动切换语种方法。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (11)

1.一种自动切换语种方法,其特征在于,包括:
获取唤醒语音数据;
对所述唤醒语音数据进行处理,以获得唤醒词、唤醒语音片段,其中,所述唤醒语音片段包括至少一个所述唤醒词或者所述唤醒语音片段不包括所述唤醒词或者所述唤醒语音片段包括所述唤醒词的一部分;
识别所述唤醒词,以获得第一识别语种类型;
识别所述唤醒语音片段,以获得第二识别语种类型;
在所述第二识别语种类型与所述第一识别语种类型不同的情况下,将所述第二识别语种类型作为识别语种类型;
在所述识别语种类型与当前语种类型不同的情况下,切换所述当前语种类型为所述识别语种类型。
2.根据权利要求1所述的自动切换语种方法,其特征在于,在切换所述当前语种类型为所述识别语种类型之后,所述方法还包括:
选择与所述识别语种类型相对应的语音识别引擎;
使用所述语音识别引擎对所述唤醒语音数据进行识别,以生成唤醒语音识别结果。
3.根据权利要求1所述的自动切换语种方法,其特征在于,识别所述唤醒词和/或所述唤醒语音片段,以获得识别语种类型包括:
识别若干所述唤醒词,以获得若干第一识别语种类型;
统计若干所述第一识别语种类型的次数;
在一所述第一识别语种类型的次数最多的情况下,将该所述第一识别语种类型作为识别语种类型。
4.根据权利要求1所述的自动切换语种方法,其特征在于,识别所述唤醒词和/或所述唤醒语音片段,以获得识别语种类型包括:
识别若干所述唤醒语音片段,以获得若干第二识别语种类型;
统计若干所述第二识别语种类型的次数;
在一所述第二识别语种类型的次数最多的情况下,将该所述第二识别语种类型作为识别语种类型。
5.一种自动切换语种装置,其特征在于,包括:
语音获取单元,用于获取唤醒语音数据;
语音处理单元,用于对所述唤醒语音数据进行处理,以获得唤醒词、唤醒语音片段,其中,所述唤醒语音片段包括至少一个所述唤醒词或者所述唤醒语音片段不包括所述唤醒词或者所述唤醒语音片段包括所述唤醒词的一部分;
唤醒词识别单元,用于对所述唤醒词进行识别,以获得第一识别语种类型;
唤醒语音片段识别单元,用于对所述唤醒语音片段进行识别,以获得第二识别语种类型;
语种切换单元,用于根据所述第一识别语种类型和/或所述第二识别语种类型确定识别语种类型,以及在所述识别语种类型与当前语种类型不同的情况下,将所述当前语种类型切换为所述识别语种类型。
6.根据权利要求5所述的自动切换语种装置,其特征在于,还包括:
语音识别单元,用于选择与所述识别语种类型相对应的语音识别引擎,并对所述唤醒语音数据进行识别,以生成唤醒语音识别结果。
7.根据权利要求5所述的自动切换语种装置,其特征在于,还包括:
统计单元,用于统计所述第一识别语种类型的次数和/或所述第二识别语种类型的次数;
所述语种切换单元还用于在一所述第一识别语种类型的次数最多的情况下将该所述第一识别语种类型作为所述识别语种类型,或在一所述第二识别语种类型的次数最多的情况下将该第二识别语种类型作为所述识别语种类型。
8.根据权利要求5所述的自动切换语种装置,其特征在于,还包括:
判断单元,用于判断所述第一识别语种类型与所述第二识别语种类型是否相同;
所述语种切换单元还用于在所述第一识别语种类型与所述第二识别语种类型不同的情况下,将所述第二识别语种类型作为识别语种类型。
9.一种自动切换语种系统,其特征在于,包括:
语音获取模块,用于获取唤醒语音数据;
唤醒模块,用于识别所述唤醒语音数据的唤醒词以获得第一识别语种类型、识别所述唤醒语音数据的唤醒语音片段以获得第二识别语种类型,以及在所述第二识别语种类型与所述第一识别语种类型不同的情况下,将所述第二识别语种类型作为识别语种类型,其中,所述唤醒语音片段包括至少一个所述唤醒词或者所述唤醒语音片段不包括所述唤醒词或者所述唤醒语音片段包括所述唤醒词的一部分;
语音识别模块,用于根据所述识别语种类型选择与所述识别语种类型相对应的语音识别引擎,并使用所述语音识别引擎对所述唤醒语音数据进行识别,以生成唤醒语音识别结果。
10.一种计算机设备,其特征在于,包括:
至少一个处理器;
以及与所述至少一个处理器通信连接的存储器;
其中,所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器执行权利要求1~4中任一项所述的自动切换语种方法。
11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,该计算机程序被处理器执行时实现如权利要求1~4中任一项所述的自动切换语种方法。
CN202010766838.7A 2020-08-03 2020-08-03 一种自动切换语种方法、装置、系统、设备和存储介质 Active CN111798836B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010766838.7A CN111798836B (zh) 2020-08-03 2020-08-03 一种自动切换语种方法、装置、系统、设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010766838.7A CN111798836B (zh) 2020-08-03 2020-08-03 一种自动切换语种方法、装置、系统、设备和存储介质

Publications (2)

Publication Number Publication Date
CN111798836A CN111798836A (zh) 2020-10-20
CN111798836B true CN111798836B (zh) 2023-12-05

Family

ID=72827588

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010766838.7A Active CN111798836B (zh) 2020-08-03 2020-08-03 一种自动切换语种方法、装置、系统、设备和存储介质

Country Status (1)

Country Link
CN (1) CN111798836B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112307253A (zh) * 2020-10-30 2021-02-02 上海明略人工智能(集团)有限公司 一种基于预设录音标题自动生成语音文件的方法及系统
CN113053389A (zh) * 2021-03-12 2021-06-29 云知声智能科技股份有限公司 一键切换语种的语音交互系统、方法和电子设备
CN113506565A (zh) * 2021-07-12 2021-10-15 北京捷通华声科技股份有限公司 语音识别的方法、装置、计算机可读存储介质与处理器

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1693828A1 (en) * 2005-02-21 2006-08-23 Harman Becker Automotive Systems GmbH Multilingual speech recognition
CN110148399A (zh) * 2019-05-06 2019-08-20 北京猎户星空科技有限公司 一种智能设备的控制方法、装置、设备及介质
CN110223672A (zh) * 2019-05-16 2019-09-10 九牧厨卫股份有限公司 一种离线式多语种语音识别方法
CN110517664A (zh) * 2019-09-10 2019-11-29 科大讯飞股份有限公司 多方言识别方法、装置、设备及可读存储介质
CN110970018A (zh) * 2018-09-28 2020-04-07 珠海格力电器股份有限公司 语音识别方法和装置
CN111326139A (zh) * 2020-03-10 2020-06-23 科大讯飞股份有限公司 一种语种识别方法、装置、设备及存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190279613A1 (en) * 2018-03-06 2019-09-12 Ford Global Technologies, Llc Dialect and language recognition for speech detection in vehicles

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1693828A1 (en) * 2005-02-21 2006-08-23 Harman Becker Automotive Systems GmbH Multilingual speech recognition
CN110970018A (zh) * 2018-09-28 2020-04-07 珠海格力电器股份有限公司 语音识别方法和装置
CN110148399A (zh) * 2019-05-06 2019-08-20 北京猎户星空科技有限公司 一种智能设备的控制方法、装置、设备及介质
CN110223672A (zh) * 2019-05-16 2019-09-10 九牧厨卫股份有限公司 一种离线式多语种语音识别方法
CN110517664A (zh) * 2019-09-10 2019-11-29 科大讯飞股份有限公司 多方言识别方法、装置、设备及可读存储介质
CN111326139A (zh) * 2020-03-10 2020-06-23 科大讯飞股份有限公司 一种语种识别方法、装置、设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
多关键词离线语音唤醒模块的实现;边蓓蓓 等;现代信息科技(第08期);全文 *

Also Published As

Publication number Publication date
CN111798836A (zh) 2020-10-20

Similar Documents

Publication Publication Date Title
CN111798836B (zh) 一种自动切换语种方法、装置、系统、设备和存储介质
CN107945792B (zh) 语音处理方法和装置
CN110544477A (zh) 一种语音识别方法、装置、设备及介质
CN112115706B (zh) 文本处理方法、装置、电子设备及介质
CN100559463C (zh) 声音识别用辞典编制装置和声音识别装置
US20220148313A1 (en) Method for processing audio and video information, electronic device and storage medium
CN113766314B (zh) 视频切分方法、装置、设备、系统及存储介质
CN113889113A (zh) 分句方法、装置、存储介质及电子设备
EP4322029A1 (en) Method and apparatus for generating video corpus, and related device
CN114930867A (zh) 一种录屏方法、装置及计算机可读存储介质
CN111027291A (zh) 文本中标点符号添加、模型训练方法、装置及电子设备
CN114245205A (zh) 基于数字资产管理的视频数据加工方法和系统
CN113569705B (zh) 场景分割点判断方法、系统、存储介质及电子设备
CN110809224A (zh) 一种导游用翻译扩音器、导游语音翻译方法和翻译系统
CN111062221A (zh) 数据处理方法、装置、电子设备以及存储介质
CN114554238A (zh) 直播语音同传方法、装置、介质及电子设备
CN112530417A (zh) 语音信号处理方法、装置、电子设备及存储介质
CN113705300A (zh) 音转文训练语料的获取方法、装置、设备以及存储介质
WO2021163878A1 (zh) 一种录屏方法、装置及计算机可读存储介质
CN111833865A (zh) 一种人机交互方法与终端、计算机可读存储介质
CN105427864A (zh) 通过语音添加联系人的方法及终端
CN114005436A (zh) 语音端点的确定方法、装置及存储介质
CN113077793A (zh) 一种语音识别方法、装置、设备及存储介质
CN113569703A (zh) 真实分割点判断方法、系统、存储介质及电子设备
CN111583916A (zh) 一种语音识别方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant