CN113035171A - 语音识别处理方法及系统 - Google Patents

语音识别处理方法及系统 Download PDF

Info

Publication number
CN113035171A
CN113035171A CN202110246832.1A CN202110246832A CN113035171A CN 113035171 A CN113035171 A CN 113035171A CN 202110246832 A CN202110246832 A CN 202110246832A CN 113035171 A CN113035171 A CN 113035171A
Authority
CN
China
Prior art keywords
voice
speaker
country
library
voice data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110246832.1A
Other languages
English (en)
Other versions
CN113035171B (zh
Inventor
李璐
冯文澜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suirui Technology Group Co Ltd
Original Assignee
Suirui Technology Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suirui Technology Group Co Ltd filed Critical Suirui Technology Group Co Ltd
Priority to CN202110246832.1A priority Critical patent/CN113035171B/zh
Publication of CN113035171A publication Critical patent/CN113035171A/zh
Application granted granted Critical
Publication of CN113035171B publication Critical patent/CN113035171B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/005Language recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/685Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using automatically derived transcript of audio data, e.g. lyrics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Telephonic Communication Services (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种语音识别处理方法及系统,其包括:基于本国的标准语音库对发言人的语音数据进行匹配,若发言人的语音数据与所述本国的标准语音库之间的匹配度值小于第一预设阈值,则判断所述发言人是否具有特定标签;若判断出所述发言人具有特定标签,则根据所述特定标签所对应的语音库对所述发言人的语音数据进行再次匹配,其中,所述特定标签所对应的语音库为本国某地方言的语音库或某个外国标准语音库。在本发明中,当发言人的某个语音不能够被标准语音库成功匹配时,会根据发言人的特定标签找到对应的方言语音库或外国语音库,根据特定标签对应的语音库对发言人的语音再次识别,提高了语音识别准确率。

Description

语音识别处理方法及系统
技术领域
本发明是关于语音识别技术领域,特别是关于一种语音识别处理方法及系统。
背景技术
随着互联网技术的发展,视频会议应用日益广泛。
发明人在实现本发明的过程中发现,目前在视频会议中存在以下问题:在开会过程中,会遇到来自不同地区的人参会,大家在发言过程中由于习惯问题普通话可能会夹杂着少量方言或外语,使得其他与会人员不能完全领会其意思,但不能因少数人听不懂就打断发言人一是不礼貌,二是由于个人不能占据大家共同时间,三是中间打断会影响会议的连贯性,这样所造成的结果是影响部分人的参会效果。另外由于在线上会议大家不能完全很好地察觉到其他人的反应,所以发言人可能并没有意识到自己发音、普通话不标准带给其他人的影响。
公开于该背景技术部分的信息仅仅旨在增加对本发明的总体背景的理解,而不应当被视为承认或以任何形式暗示该信息构成已为本领域一般技术人员所公知的现有技术。
发明内容
本发明的目的在于提供一种语音识别处理方法及系统,当发言人的某个语音不能够被标准语音库成功匹配时,会根据发言人的特定标签找到对应的方言语音库或外国语音库,根据特定标签对应的语音库对发言人的语音再次识别,提高了语音识别准确率。
为实现上述目的,本发明提供了一种语音识别处理方法,其包括:基于本国的标准语音库对发言人的语音数据进行匹配,若发言人的语音数据与所述本国的标准语音库之间的匹配度值小于第一预设阈值,则判断所述发言人是否具有特定标签;若判断出所述发言人具有特定标签,则根据所述特定标签所对应的语音库对所述发言人的语音数据进行再次匹配,其中,所述特定标签所对应的语音库为本国某地方言的语音库或某个外国标准语音库。
在本发明的一实施方式中,所述语音识别处理方法还包括:若所述发言人的语音数据与所述特定标签所对应的语音库之间的匹配度值大于所述发言人的语音数据与所述本国的标准语音库之间的匹配度值,则根据所述特定标签所对应的语音库与本国的文字库之间的映射关系将所述发言人的语音数据转换为本国文字进行输出。
在本发明的一实施方式中,所述语音识别处理方法还包括:若判断出所述发言人不具有特定标签,则依次根据预存的各个特定标签所对应的语音库对所述发言人的语音数据进行匹配从而得到多个匹配度值,若其中最大的匹配度值大于所述发言人的语音数据与所述本国的标准语音库之间的匹配度值,则获取与所述最大的匹配度值相关的特定标签所对应的语音库,其中,所述各个特定标签所对应的语音库包括本国各地方言的语音库以及预存的各个外国标准语音库;根据与所述最大的匹配度值相关的特定标签所对应的语音库与所述本国的文字库之间的映射关系将所述发言人的语音数据转换为本国文字进行输出。
在本发明的一实施方式中,所述语音识别处理方法还包括:在获取与所述最大的匹配度值相关的特定标签所对应的语音库之后,记录所述发言人与所述最大的匹配值相关的特定标签之间发生一次关联事件;当所述发言人与某个特定标签之间发生关联事件的次数大于第二预设阈值,则为所述发言人赋予所述某个特定标签。
在本发明的一实施方式中,所述语音识别处理方法还包括:基于本国的标准语音库对发言人的语音数据进行匹配,若发言人的语音数据与所述本国的标准语音库之间的匹配度值不小于第一预设阈值,则判断所述发言人是否具有特定标签;若判断出所述发言人不具有特定标签,则根据所述本国的标准语音库与本国的文字库之间的映射关系将所述发言人的语音数据转换为本国文字进行输出。
在本发明的一实施方式中,所述语音识别处理方法还包括:基于本国的标准语音库对发言人的语音数据进行匹配,若发言人的语音数据与所述本国的标准语音库之间的匹配度值不小于第一预设阈值,则判断所述发言人是否具有特定标签;若判断出所述发言人具有特定标签,则判断所述本国的标准语音库中与所述发言人的语音数据相匹配的语音数据是否具有标识,若不具有标识,则根据所述本国的标准语音库与所述本国的文字库之间的映射关系将所述发言人的语音数据转换为本国文字进行输出,若具有标识,则判断所述特定标签所对应的语音库中是否具有相同的所述标识,若具有相同的所述标识,则根据所述特定标签所对应的语音库与本国的文字库之间的映射关系将所述发言人的语音数据转换为本国文字进行输出,若不具有相同的所述标识,则根据所述本国的标准语音库与所述本国的文字库之间的映射关系将所述发言人的语音数据转换为本国文字进行输出。
在本发明的一实施方式中,所述语音识别处理方法还包括:在语音识别之前,将本国各地方言的语音库与所述本国的标准语音库分别进行比对;若本国某地方言的语音库中存在与所述本国的标准语音库中相同的语音数据,则根据所述本国某地方言的语音库与所述本国的文字库之间的映射关系获取所述相同的语音数据的第一含义,并且根据所述本国的标准语音库与所述本国的文字库之间的映射关系获取所述相同的语音数据的第二含义;若所述第一含义与所述第二含义相同,则将所述本国某地方言的语音库中的所述相同的语音数据赋予标识,且将所述本国的标准语音库中的所述相同的语音数据赋予相同的所述标识。
基于同样的发明构思,本发明还提供了一种语音识别处理系统,其包括:标准语音库识别模块、判断模块、特定标签语音库识别模块。标准语音库识别模块用于基于本国的标准语音库对发言人的语音数据进行匹配。判断模块与所述标准语音库识别模块相耦合,用于判断所述发言人的语音数据与所述本国的标准语音库之间的匹配度值是否小于第一预设阈值,并且判断所述发言人是否具有特定标签。特定标签语音库识别模块与所述判断模块相耦合,用于若所述判断模块判断出所述发言人的语音数据与所述本国的标准语音库之间的匹配度值小于第一预设阈值,且判断出所述发言人具有特定标签,则根据所述特定标签所对应的语音库对所述发言人的语音数据进行再次匹配,其中,所述特定标签所对应的语音库为本国某地方言的语音库或某个外国标准语音库。
基于同样的发明构思,本发明还提供了一种电子装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如上述任一项所述语音识别处理方法的步骤。
基于同样的发明构思,本发明还提供了一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如上述任一项所述语音识别处理方法的步骤。
与现有技术相比,根据本发明的语音识别处理方法及系统,当发言人的语音不能够被标准语音库成功匹配时,会根据发言人的特定标签找到对应的方言语音库或外国语音库,根据特定标签对应的语音库对发言人的语音再次识别,提高了语音识别准确率。优选地,一实施方式中在对发言人语音识别过程中,根据发言人的语音匹配情况,自动赋予发言人特定标签。优选地,一实施方式中为方言语音库与标准语音库中的发音相同含义不同的语音数据进行特殊标识,在进行语音识别时,还会结合标识来判断语音数据的准确含义,进一步提高了语音数据的识别准确率,从而提高了视频会议沟通效率。
附图说明
图1是根据本发明一实施方式的语音识别处理方法;
图2是根据本发明一实施方式的语音识别处理方法;
图3是根据本发明一实施方式的语音识别处理方法;
图4是根据本发明一实施方式的语音识别处理系统;
图5是根据本发明一实施方式的语音识别处理系统。
具体实施方式
下面结合附图,对本发明的具体实施方式进行详细描述,但应当理解本发明的保护范围并不受具体实施方式的限制。
除非另有其它明确表示,否则在整个说明书和权利要求书中,术语“包括”或其变换如“包含”或“包括有”等等将被理解为包括所陈述的元件或组成部分,而并未排除其它元件或其它组成部分。
首先需说明的一点是,为了清楚地说明本方案,本发明的各个实施方式中,均以中国作为本国来说明方案,但是本国并不局限于中国,其他国家也可以。那么以中国作为本国而言,本国的标准语音库指的是普通话,本国某地方言的语音库可以为陕西话、河南话、闽南语、粤语等等。
为了能够对掺杂了方言或外语的普通话进行准确识别,如图1所示,一实施方式中提供了一种语音识别处理方法,其包括:步骤S101~步骤S103。
在步骤S101中,基于本国的标准语音库对发言人的语音数据进行匹配。
在步骤S102中,若发言人的语音数据与所述本国的标准语音库之间的匹配度值小于第一预设阈值,则判断所述发言人是否具有特定标签。可选地,第一预设阈值可以设置为70%。语音数据可以为字或词的语音数据。
在步骤S103中,若判断出所述发言人具有特定标签,则根据所述特定标签所对应的语音库对所述发言人的语音数据进行再次匹配,其中,所述特定标签所对应的语音库为本国某地方言的语音库或某个外国标准语音库。若所述发言人的语音数据与所述特定标签所对应的语音库之间的匹配度值大于所述发言人的语音数据与所述本国的标准语音库之间的匹配度值,则根据所述特定标签所对应的语音库与本国的文字库之间的映射关系将所述发言人的语音数据转换为本国文字进行输出。
例如,当发言人说“灭儿个把会议纪要整理出来”,“灭儿个”与普通话的匹配度低于70%,则判断发言人是否具有特定标签,若具有特定标签,则查找出该特定标签对应的语音库为山西方言库,将“灭儿个”这个发音进行山西方言库匹配,匹配成功后,根据山西方言库与中国汉字之间的映射关系将“灭儿个”语音数据转换为汉字“明天”。再比如,当某个发言人说“请大家注意这个项目的dead line”,“dead line”与普通话的匹配度低于70%,则判断发言人是否具有特定标签,若具有特定标签,则查找出该特定标签对应的语音库为英文库,将“dead line”这个发音通过英文库进行匹配,匹配成功后,根据英文库与中国汉字之间的映射关系将“dead line”语音数据转换为汉字“截止日期”。
上述实施方式的核心思路是给发言人分配特定标签,特定标签对应了某地方言语音库或某外语库,即特定标签能够表明发言人说的普通话中很可能包含有某地方言或某外语。如果当发言人的某个语音数据不能够被标准语音库准确匹配时,则会根据发言人的特定标签找到对应的方言语音库或外语库,再次匹配,从而使得发言人的某个语音数据最终能够准确被匹配出来,从而提高了语音识别成功率。
为了能够根据发言人语音来自动赋予特定标签,如图2所示,一实施方式的语音识别处理方法包括:步骤S201~步骤S205。
在步骤S201中,基于本国的标准语音库对发言人的语音数据进行匹配。
在步骤S202中,若发言人的语音数据与所述本国的标准语音库之间的匹配度值小于第一预设阈值,则判断所述发言人是否具有特定标签。可选地,第一预设阈值可以设置为70%。语音数据可以为字或词的语音数据。
在步骤S203中,若判断出所述发言人不具有特定标签,则依次根据预存的各个特定标签所对应的语音库对所述发言人的语音数据进行匹配从而得到多个匹配度值,若其中最大的匹配度值大于所述发言人的语音数据与所述本国的标准语音库之间的匹配度值,则获取与所述最大的匹配度值相关的特定标签所对应的语音库,并且记录所述发言人与所述最大的匹配值相关的特定标签之间发生一次关联事件。其中,所述各个特定标签所对应的语音库包括本国各地方言的语音库以及预存的各个外国标准语音库。
在步骤S204中,根据与所述最大的匹配度值相关的特定标签所对应的语音库与所述本国的文字库之间的映射关系将所述发言人的语音数据转换为本国文字进行输出。
在步骤S205中,当所述发言人与某个特定标签之间发生关联事件的次数大于第二预设阈值,则为所述发言人赋予所述某个特定标签。可选地,第二预设阈值为3次。
例如,当发言人说“灭儿个把会议纪要整理出来”,“灭儿个”与普通话的匹配度低于70%,则判断发言人是否具有特定标签,若不具有特定标签,则从各个特定标签对应的语音库找出与“灭儿个”最为匹配的语音库,即山西方言库,一方面将“灭儿个”这个发音进行山西方言库匹配,匹配成功后,根据山西方言库与中国汉字之间的映射关系将“灭儿个”语音数据转换为汉字“明天”。另一方面,记录一次关联事件,即发言人与山西方言库或与山西方言库对应的特定标签之间发生了一次关联,当该关联次数达到3次,则可以给该发言人赋予该山西方言库对应的特定标签,表明该发言人说的普通话里头很可能掺杂山西方言。
优选地,为了对方言和普通话之间发音相同但意义不同的语音数据进行准确识别,如图3所示,一实施方式的语音识别处理方法包括:步骤S301~步骤S303。
在步骤S301中,基于本国的标准语音库对发言人的语音数据进行匹配。
在步骤S302中,若发言人的语音数据与所述本国的标准语音库之间的匹配度值不小于第一预设阈值,则判断所述发言人是否具有特定标签。
在步骤S303中,一方面若判断出所述发言人具有特定标签,则判断所述本国的标准语音库中与所述发言人的语音数据相匹配的语音数据是否具有标识,若不具有标识,则根据所述本国的标准语音库与所述本国的文字库之间的映射关系将所述发言人的语音数据转换为本国文字进行输出,若具有标识,则判断所述特定标签所对应的语音库中是否具有相同的所述标识,若具有相同的所述标识,则根据所述特定标签所对应的语音库与本国的文字库之间的映射关系将所述发言人的语音数据转化为本国文字进行输出,若不具有相同的所述标识,则根据所述本国的标准语音库与所述本国的文字库之间的映射关系将所述发言人的语音数据转换为本国文字进行输出。另一方面,若判断出所述发言人不具有特定标签,则根据所述本国的标准语音库与本国的文字库之间的映射关系将所述发言人的语音数据转换为本国文字进行输出。
例如,当发言人说“下面介绍果子的家庭版制作方法”,其中的“果子”与普通话的匹配度高于70%,则判断发言人是否具有特定标签,若判断出发言人具有特定标签,则判断普通话语音库的“果子”是否具有标识,若果子具有标识A,且发言人的特定标签对应的语音库-天津话语音库中同样具有这个标识A,则将“果子”按照天津话与汉字之间的映射关系将“果子”转换为“油条”进行输出。
为了给方言与普通话之间发言相同含义不同的语音数据赋予标识,优选地,一实施方式中的语音识别处理方法还包括:在语音识别之前,将本国各地方言的语音库与所述本国的标准语音库分别进行比对;若本国某地方言的语音库中存在与所述本国的标准语音库中相同的语音数据,则根据所述本国某地方言的语音库与所述本国的文字库之间的映射关系获取所述相同的语音数据的第一含义,并且根据所述本国的标准语音库与所述本国的文字库之间的映射关系获取所述相同的语音数据的第二含义;若所述第一含义与所述第二含义相同,则将所述本国某地方言的语音库中的所述相同的语音数据赋予标识,且将所述本国的标准语音库中的所述相同的语音数据赋予所述标识。
基于同样的发明构思,一优选的实施方式中还提供了一种语音识别处理系统,如图4所示,其包括:标准语音库识别模块10、判断模块11、特定标签语音库识别模块12。
标准语音库识别模块10用于基于本国的标准语音库对发言人的语音数据进行匹配。
判断模块11与所述标准语音库识别模块10相耦合,用于判断所述发言人的语音数据与所述本国的标准语音库之间的匹配度值是否小于第一预设阈值;还用于判断所述发言人是否具有特定标签。
特定标签语音库识别模块12与所述判断模块11相耦合,用于若所述第一判断模块11判断出所述发言人的语音数据与所述本国的标准语音库之间的匹配度值小于所述第一预设阈值,且判断出所述发言人具有特定标签,则根据所述特定标签所对应的语音库对所述发言人的语音数据进行匹配,其中,所述特定标签所对应的语音库为本国某地方言的语音库或某个外国标准语音库。
所述特定标签语音库识别模块12还用于若所述发言人的语音数据与所述特定标签所对应的语音库之间的匹配度值大于所述发言人的语音数据与所述本国的标准语音库之间的匹配度值,则根据所述特定标签所对应的语音库与本国的文字库之间的映射关系将所述发言人的语音数据转换为本国文字进行输出。
所述特定标签语音库识别模块12还用于若所述判断模块11判断出所述发言人的语音数据与所述本国的标准语音库之间的匹配度值小于所述第一预设阈值,且判断出所述发言人不具有特定标签,则依次根据预存的各个特定标签所对应的语音库对所述发言人的语音数据进行匹配从而得到多个匹配度值,若其中最大的匹配度值大于所述发言人的语音数据与所述本国的标准语音库之间的匹配度值,则获取与所述最大的匹配度值相关的特定标签所对应的语音库,其中,所述各个特定标签所对应的语音库包括本国各地方言的语音库以及预存的各个外国标准语音库;并且根据与所述最大的匹配度值相关的特定标签所对应的语音库与所述本国的文字库之间的映射关系将所述发言人的语音数据转换为本国文字进行输出。
为了能够根据发言人语音来自动赋予特定标签,本实施方式的语音识别处理系统还包括关联事件记录模块。关联事件记录模块与所述特定标签语音库识别模块12相耦合,用于在所述特定标签语音库识别模块12获取与所述最大的匹配度值相关的特定标签所对应的语音库之后,记录所述发言人与所述最大的匹配值相关的特定标签之间发生一次关联事件;所述关联事件记录模块还用于当所述发言人与某个特定标签之间发生关联事件的次数大于第二预设阈值,则为所述发言人赋予所述某个特定标签。
为了对方言和普通话之间发音相同但意义不同的语音数据进行准确识别,所述判断模块11还用于在判断出所述发言人的语音数据与所述本国的标准语音库之间的匹配度值不小于第一预设阈值,且判断出所述发言人具有特定标签,则判断所述本国的标准语音库中与所述发言人的语音数据相匹配的语音数据是否具有标识,若具有标识,则再判断所述特定标签所对应的语音库中是否具有同样的标识。所述特定标签语音库识别模块12还用于若所述判断模块11判断出所述特定标签所对应的语音库中具有所述同样的标识,则根据所述特定标签所对应的语音库与本国的文字库之间的映射关系将所述发言人的语音数据转化为本国文字进行输出。
所述标准语音库识别模块10还用于若所述判断模块11判断出所述本国的标准语音库中与所述发言人的语音数据相匹配的语音数据中不具有标识,则根据所述本国的标准语音库与所述本国的文字库之间的映射关系将所述发言人的语音数据转换为本国文字进行输出。
所述标准语音库识别模块10还用于若所述判断模块11判断出所述特定标签所对应的语音库中不具有所述同样的标识,则根据所述本国的标准语音库与所述本国的文字库之间的映射关系将所述发言人的语音数据转换为本国文字进行输出。
所述标准语音库识别模块10还用于若所述判断模块11判断出所述发言人的语音数据与所述本国的标准语音库之间的匹配度值不小于第一预设阈值,且判断出所述发言人不具有特定标签,则根据所述本国的标准语音库与本国的文字库之间的映射关系将所述发言人的语音数据转换为本国文字进行输出。
为了给方言与普通话之间发言相同含义不同的语音数据赋予标识,如图5所示,一优选的实施方式中,语音识别处理系统还包括:同音异义数据标识模块13。所述同音异义数据标识模块13与所述标准语音库识别模块10、所述判断模块11以及所述特定标签语音库识别模块12均相耦合,用于在语音识别之前,将本国各地方言的语音库与所述本国的标准语音库分别进行比对;若本国某地方言的语音库中存在与所述本国的标准语音库中相同的语音数据,则根据所述本国某地方言的语音库与所述本国的文字库之间的映射关系获取所述相同的语音数据的第一含义,并且根据所述本国的标准语音库与所述本国的文字库之间的映射关系获取所述相同的语音数据的第二含义;若所述第一含义与所述第二含义相同,则将所述本国某地方言的语音库中的所述相同的语音数据赋予标识,且将所述本国的标准语音库中的所述相同的语音数据赋予所述标识。
基于同样的发明构思,一实施方式中还提供了一种电子装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述任一项所述语音识别处理方法的步骤。
基于同样的发明构思,一实施方式中还提供了一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述任一项所述语音识别处理方法的步骤。
综上,根据上述实施方式的语音识别处理方法及系统,当发言人的语音不能够被标准语音库成功匹配时,会根据发言人的特定标签找到对应的方言语音库或外国语音库,根据特定标签对应的语音库对发言人的语音再次识别,提高了语音识别准确率。优选地,一实施方式中在对发言人语音识别过程中,根据发言人的语音匹配情况,自动赋予发言人特定标签。优选地,一实施方式中为方言语音库与标准语音库中的发音相同含义不同的语音数据进行特殊标识,在进行语音识别时,还会结合标识来判断语音数据的准确含义,进一步提高了语音数据的识别准确率,从而提高了视频会议沟通效率。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
前述对本发明的具体示例性实施方案的描述是为了说明和例证的目的。这些描述并非想将本发明限定为所公开的精确形式,并且很显然,根据上述教导,可以进行很多改变和变化。对示例性实施例进行选择和描述的目的在于解释本发明的特定原理及其实际应用,从而使得本领域的技术人员能够实现并利用本发明的各种不同的示例性实施方案以及各种不同的选择和改变。本发明的范围意在由权利要求书及其等同形式所限定。

Claims (10)

1.一种语音识别处理方法,其特征在于,包括:
基于本国的标准语音库对发言人的语音数据进行匹配,若发言人的语音数据与所述本国的标准语音库之间的匹配度值小于第一预设阈值,则判断所述发言人是否具有特定标签;
若判断出所述发言人具有特定标签,则根据所述特定标签所对应的语音库对所述发言人的语音数据进行再次匹配,其中,所述特定标签所对应的语音库为本国某地方言的语音库或某个外国标准语音库。
2.如权利要求1所述的语音识别处理方法,其特征在于,所述语音识别处理方法还包括:
若所述发言人的语音数据与所述特定标签所对应的语音库之间的匹配度值大于所述发言人的语音数据与所述本国的标准语音库之间的匹配度值,则根据所述特定标签所对应的语音库与本国的文字库之间的映射关系将所述发言人的语音数据转换为本国文字进行输出。
3.如权利要求1所述的语音识别处理方法,其特征在于,所述语音识别处理方法还包括:
若判断出所述发言人不具有特定标签,则依次根据预存的各个特定标签所对应的语音库对所述发言人的语音数据进行匹配从而得到多个匹配度值,若其中最大的匹配度值大于所述发言人的语音数据与所述本国的标准语音库之间的匹配度值,则获取与所述最大的匹配度值相关的特定标签所对应的语音库,其中,所述各个特定标签所对应的语音库包括本国各地方言的语音库以及预存的各个外国标准语音库;
根据与所述最大的匹配度值相关的特定标签所对应的语音库与所述本国的文字库之间的映射关系将所述发言人的语音数据转换为本国文字进行输出。
4.如权利要求3所述的语音识别处理方法,其特征在于,所述语音识别处理方法还包括:
在获取与所述最大的匹配度值相关的特定标签所对应的语音库之后,记录所述发言人与所述最大的匹配值相关的特定标签之间发生一次关联事件;
当所述发言人与某个特定标签之间发生关联事件的次数大于第二预设阈值,则为所述发言人赋予所述某个特定标签。
5.如权利要求1所述的语音识别处理方法,其特征在于,所述语音识别处理方法还包括:
基于本国的标准语音库对发言人的语音数据进行匹配,若发言人的语音数据与所述本国的标准语音库之间的匹配度值不小于第一预设阈值,则判断所述发言人是否具有特定标签;
若判断出所述发言人不具有特定标签,则根据所述本国的标准语音库与本国的文字库之间的映射关系将所述发言人的语音数据转换为本国文字进行输出。
6.如权利要求1所述的语音识别处理方法,其特征在于,所述语音识别处理方法还包括:
基于本国的标准语音库对发言人的语音数据进行匹配,若发言人的语音数据与所述本国的标准语音库之间的匹配度值不小于第一预设阈值,则判断所述发言人是否具有特定标签;
若判断出所述发言人具有特定标签,则判断所述本国的标准语音库中与所述发言人的语音数据相匹配的语音数据是否具有标识,若不具有标识,则根据所述本国的标准语音库与所述本国的文字库之间的映射关系将所述发言人的语音数据转换为本国文字进行输出,若具有标识,则判断所述特定标签所对应的语音库中是否具有相同的所述标识,若具有相同的所述标识,则根据所述特定标签所对应的语音库与本国的文字库之间的映射关系将所述发言人的语音数据转换为本国文字进行输出,若不具有相同的所述标识,则根据所述本国的标准语音库与所述本国的文字库之间的映射关系将所述发言人的语音数据转换为本国文字进行输出。
7.如权利要求6所述的语音识别处理方法,其特征在于,所述语音识别处理方法还包括:
在语音识别之前,将本国各地方言的语音库与所述本国的标准语音库分别进行比对;
若本国某地方言的语音库中存在与所述本国的标准语音库中相同的语音数据,则根据所述本国某地方言的语音库与所述本国的文字库之间的映射关系获取所述相同的语音数据的第一含义,并且根据所述本国的标准语音库与所述本国的文字库之间的映射关系获取所述相同的语音数据的第二含义;
若所述第一含义与所述第二含义相同,则将所述本国某地方言的语音库中的所述相同的语音数据赋予标识,且将所述本国的标准语音库中的所述相同的语音数据赋予相同的所述标识。
8.一种语音识别处理系统,其特征在于,包括:
标准语音库识别模块,用于基于本国的标准语音库对发言人的语音数据进行匹配;
判断模块,与所述标准语音库识别模块相耦合,用于判断所述发言人的语音数据与所述本国的标准语音库之间的匹配度值是否小于第一预设阈值,并且判断所述发言人是否具有特定标签;
特定标签语音库识别模块,与所述判断模块相耦合,用于若所述判断模块判断出所述发言人的语音数据与所述本国的标准语音库之间的匹配度值小于第一预设阈值,且判断出所述发言人具有特定标签,则根据所述特定标签所对应的语音库对所述发言人的语音数据进行再次匹配,其中,所述特定标签所对应的语音库为本国某地方言的语音库或某个外国标准语音库。
9.一种电子装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述语音识别处理方法的步骤。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1至7任一项所述语音识别处理方法的步骤。
CN202110246832.1A 2021-03-05 2021-03-05 语音识别处理方法及系统 Active CN113035171B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110246832.1A CN113035171B (zh) 2021-03-05 2021-03-05 语音识别处理方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110246832.1A CN113035171B (zh) 2021-03-05 2021-03-05 语音识别处理方法及系统

Publications (2)

Publication Number Publication Date
CN113035171A true CN113035171A (zh) 2021-06-25
CN113035171B CN113035171B (zh) 2022-09-02

Family

ID=76468197

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110246832.1A Active CN113035171B (zh) 2021-03-05 2021-03-05 语音识别处理方法及系统

Country Status (1)

Country Link
CN (1) CN113035171B (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1693828A1 (en) * 2005-02-21 2006-08-23 Harman Becker Automotive Systems GmbH Multilingual speech recognition
CN109346059A (zh) * 2018-12-20 2019-02-15 广东小天才科技有限公司 一种方言语音的识别方法及电子设备
CN109448699A (zh) * 2018-12-15 2019-03-08 深圳壹账通智能科技有限公司 语音转换文本方法、装置、计算机设备及存储介质
CN109828739A (zh) * 2019-01-16 2019-05-31 广东金祺盛工业设备有限公司 基于语音标签的语音交互的方法及装置
CN110047467A (zh) * 2019-05-08 2019-07-23 广州小鹏汽车科技有限公司 语音识别方法、装置、存储介质及控制终端
CN110827826A (zh) * 2019-11-22 2020-02-21 维沃移动通信有限公司 语音转换文字方法、电子设备
CN110909134A (zh) * 2018-09-18 2020-03-24 奇酷互联网络科技(深圳)有限公司 语音转换的方法、移动终端和可读存储介质
CN111090727A (zh) * 2019-12-06 2020-05-01 苏州思必驰信息科技有限公司 语言转换处理方法、装置及方言语音交互系统
CN111986675A (zh) * 2020-08-20 2020-11-24 深圳Tcl新技术有限公司 语音对话方法、设备及计算机可读存储介质

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1693828A1 (en) * 2005-02-21 2006-08-23 Harman Becker Automotive Systems GmbH Multilingual speech recognition
CN110909134A (zh) * 2018-09-18 2020-03-24 奇酷互联网络科技(深圳)有限公司 语音转换的方法、移动终端和可读存储介质
CN109448699A (zh) * 2018-12-15 2019-03-08 深圳壹账通智能科技有限公司 语音转换文本方法、装置、计算机设备及存储介质
CN109346059A (zh) * 2018-12-20 2019-02-15 广东小天才科技有限公司 一种方言语音的识别方法及电子设备
CN109828739A (zh) * 2019-01-16 2019-05-31 广东金祺盛工业设备有限公司 基于语音标签的语音交互的方法及装置
CN110047467A (zh) * 2019-05-08 2019-07-23 广州小鹏汽车科技有限公司 语音识别方法、装置、存储介质及控制终端
CN110827826A (zh) * 2019-11-22 2020-02-21 维沃移动通信有限公司 语音转换文字方法、电子设备
CN111090727A (zh) * 2019-12-06 2020-05-01 苏州思必驰信息科技有限公司 语言转换处理方法、装置及方言语音交互系统
CN111986675A (zh) * 2020-08-20 2020-11-24 深圳Tcl新技术有限公司 语音对话方法、设备及计算机可读存储介质

Also Published As

Publication number Publication date
CN113035171B (zh) 2022-09-02

Similar Documents

Publication Publication Date Title
US11322154B2 (en) Diarization using linguistic labeling
CN1841498B (zh) 使用口头话语验证语音输入的方法
CN108536654B (zh) 识别文本展示方法及装置
CN110148400B (zh) 发音类型的识别方法、模型的训练方法、装置及设备
CN111797632B (zh) 信息处理方法、装置及电子设备
US9589563B2 (en) Speech recognition of partial proper names by natural language processing
KR20190082900A (ko) 음성 인식 방법, 전자 디바이스, 및 컴퓨터 저장 매체
CN108735200B (zh) 一种说话人自动标注方法
US7406408B1 (en) Method of recognizing phones in speech of any language
JP2010256498A (ja) 変換モデル生成装置、音声認識結果変換システム、方法およびプログラム
CN114385800A (zh) 语音对话方法和装置
CN113782026A (zh) 一种信息处理方法、装置、介质和设备
US20200320976A1 (en) Information processing apparatus, information processing method, and program
US20110224985A1 (en) Model adaptation device, method thereof, and program thereof
CN110956958A (zh) 搜索方法、装置、终端设备及存储介质
CN107886940B (zh) 语音翻译处理方法及装置
CN113035171B (zh) 语音识别处理方法及系统
US7430503B1 (en) Method of combining corpora to achieve consistency in phonetic labeling
CN111970311B (zh) 会话切分方法、电子设备及计算机可读介质
CN112820281B (zh) 一种语音识别方法、装置及设备
CN110895938B (zh) 语音校正系统及语音校正方法
CN114203180A (zh) 会议纪要的生成方法、装置、电子设备及存储介质
CN108877781B (zh) 一种智能语音搜索影片的方法及系统
CN109035896B (zh) 一种口语训练方法及学习设备
CN112667787A (zh) 基于话术标签的智能应答方法、系统及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant