CN115240661A - 佩戴防护设备的语音识别方法、装置、设备和存储介质 - Google Patents

佩戴防护设备的语音识别方法、装置、设备和存储介质 Download PDF

Info

Publication number
CN115240661A
CN115240661A CN202210734623.6A CN202210734623A CN115240661A CN 115240661 A CN115240661 A CN 115240661A CN 202210734623 A CN202210734623 A CN 202210734623A CN 115240661 A CN115240661 A CN 115240661A
Authority
CN
China
Prior art keywords
audio data
voice
correct rate
speech
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210734623.6A
Other languages
English (en)
Inventor
黄石磊
刘轶
程刚
蒋志燕
汪雪
陈诚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Raisound Technology Co ltd
Original Assignee
Shenzhen Raisound Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Raisound Technology Co ltd filed Critical Shenzhen Raisound Technology Co ltd
Priority to CN202210734623.6A priority Critical patent/CN115240661A/zh
Publication of CN115240661A publication Critical patent/CN115240661A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种佩戴防护设备的语音识别方法、装置、设备和存储介质。其中,方法包括获取待识别的音频数据;获取预设多种语音转化方式;其中,语音转化方式通过对佩戴防护设备后所发出的语音信息与未佩戴防护设备所发出的语音信息之间的差异进行分析获得;按照多种语音转化方式对待识别的音频数据进行语音处理,获得对应的多个第一音频数据;对多个第一音频数据进行语义连贯正确率识别,获取每个第一音频数据的正确率系数;对正确率系数进行排序,获取正确率系数最大的第一音频数据;对正确率系数最大的第一音频数据进行语音识别,获取待识别的音频数据的识别结果。采用本发明提供的方案能提高用户佩戴防护设备后的语音识别准确率。

Description

佩戴防护设备的语音识别方法、装置、设备和存储介质
技术领域
本发明涉及语音识别技术领域,尤其涉及一种佩戴防护设备的语音识别方法、装置、设备和存储介质。
背景技术
在日常生活中,有一些场景需求下,医护人员需佩戴口罩或穿防护服。而佩戴口罩或穿防护服会导致医护人员声学特性的非线性畸变,从而造成语音识别误识率的升高和模型推广能力的下降。因此,现有技术中,在医护人员佩戴口罩或穿防护服的场景下,语音识别的准确率较低。
发明内容
为解决在医护人员佩戴口罩或穿防护服的场景下,语音识别准确率较低的技术问题,本发明实施例提供一种佩戴防护设备的语音识别方法、装置、电子设备和存储介质。
本发明实施例的技术方案是这样实现的:
本发明实施例提供了一种佩戴防护设备的语音识别方法,方法包括:
获取待识别的音频数据;
获取预设多种语音转化方式;其中,所述语音转化方式通过对佩戴防护设备后所发出的语音信息与未佩戴防护设备所发出的语音信息之间的差异进行分析获得;
按照所述多种语音转化方式对所述待识别的音频数据进行语音处理,获得对应的多个第一音频数据;
对所述多个第一音频数据进行语义连贯正确率识别,获取每个第一音频数据的正确率系数;
对所述正确率系数进行排序,获取正确率系数最大的第一音频数据;
对所述正确率系数最大的第一音频数据进行语音识别,获取所述待识别的音频数据的识别结果。
上述方案中,所述获取预设多种语音转化方式,包括:
获取样本数据;
获取佩戴防护设备后对所述样本数据进行发声所获得的第一语音信息和未佩戴防护设备对所述样本数据进行发声所获得的的第二语音信息;
比较所述第一语音信息和所述第二语音信息的差异,获得多种语音转化方式。
上述方案中,所述比较所述第一语音信息和所述第二语音信息的差异,获得多种语音转化方式,包括:
对所述第一语音信息和所述第二语音信息进行分词处理,分别获得第一语音词语和第二语音词语;
将所述第一语音词语与所述第二语音词语进行一一匹配,获得待识别词语对;
分析每对待识别词语对中的两个词语的拼音差异,获得差异结果;
对所述差异结果进行统计,获得数量大于预设数值的第一差异结果;
基于每种第一差异结果获得一种语音转化方式。
上述方案中,所述按照所述多种语音转化方式对所述待识别的音频数据进行语音处理,获得对应的多个第一音频数据,包括:
对所述待识别的音频数据进行分词处理,获得待识别词语;
按照每种语音转化方式,对所述待识别词语中的拼音进行转换,获得转化词语;
将按照每种语音转化方式所获得的转化词语进行拼接,获得每种语音转化方式所对应的第一音频数据。
上述方案中,所述对所述多个第一音频数据进行语义连贯正确率识别,获取每个第一音频数据的正确率系数,包括:
按照语法规则对每个所述第一音频数据进行划分,划分为多个词性的词语;
获取每个词语的词性及前后相邻的词语的词性;
根据每个词语的词性及前后相邻的词语的词性,判断是否匹配,获得匹配结果;
统计匹配结果为合格的词语占所有词语的比例;
基于所述比例,获取每个所述第一音频数据的正确率系数。
上述方案中,所述对所述多个第一音频数据进行语义连贯正确率识别,获取每个第一音频数据的正确率系数,包括:
将每个所述第一音频数据输入语音识别模型,获取所述语音识别模型输出的语音识别结果和准确率;
将所述语音识别模型基于每个第一音频数据输出的准确率作为每个第一音频数据的正确率系数。
上述方案中,按照所述多种语音转化方式对所述待识别的音频数据进行语音处理,获得对应的多个第一音频数据之前,所述方法还包括:
增强所述待识别的音频数据的共振峰值。
本发明实施例还提供了一种佩戴防护设备的语音识别装置,该装置包括:
第一获取模块,用于获取待识别的音频数据;
第二获取模块,用于获取预设多种语音转化方式;其中,所述语音转化方式通过对佩戴防护设备后所发出的语音信息与未佩戴防护设备所发出的语音信息之间的差异进行分析获得;
处理模块,用于按照所述多种语音转化方式对所述待识别的音频数据进行语音处理,获得对应的多个第一音频数据;
第一识别模块,用于对所述多个第一音频数据进行语义连贯正确率识别,获取每个第一音频数据的正确率系数;
排序模块,用于对所述正确率系数进行排序,获取正确率系数最大的第一音频数据;
第二识别模块,用于对所述正确率系数最大的第一音频数据进行语音识别,获取所述待识别的音频数据的识别结果。
本发明实施例还提供了一种电子设备,包括:处理器和用于存储能够在处理器上运行的计算机程序的存储器;其中,
处理器用于运行计算机程序时,执行上述任一方法的步骤。
本发明实施例还提供了一种存储介质,存储介质中存储有计算机程序,计算机程序被处理器执行时,实现上述任一方法的步骤。
本发明实施例提供的佩戴防护设备的语音识别方法、装置、电子设备和存储介质,获取待识别的音频数据;获取预设多种语音转化方式;其中,所述语音转化方式通过对佩戴防护设备后所发出的语音信息与未佩戴防护设备所发出的语音信息之间的差异进行分析获得;按照所述多种语音转化方式对所述待识别的音频数据进行语音处理,获得对应的多个第一音频数据;对所述多个第一音频数据进行语义连贯正确率识别,获取每个第一音频数据的正确率系数;对所述正确率系数进行排序,获取正确率系数最大的第一音频数据;对所述正确率系数最大的第一音频数据进行语音识别,获取所述待识别的音频数据的识别结果。采用本发明提供的方案能提高用户佩戴防护设备后的语音识别准确率。
附图说明
图1为本发明实施例佩戴防护设备的语音识别方法的流程示意图;
图2为本发明实施例佩戴防护设备的语音识别方法的另一流程示意图;
图3为本发明实施例佩戴防护设备的语音识别方法的另一流程示意图;
图4为本发明实施例佩戴防护设备的语音识别方法的另一流程示意图;
图5为本发明实施例佩戴防护设备的语音识别方法的另一流程示意图;
图6为本发明实施例佩戴防护设备的语音识别方法的另一流程示意图;
图7为本发明实施例佩戴防护设备的语音识别装置的结构示意图;
图8为本发明实施例计算机设备的内部结构图。
具体实施方式
下面将结合附图及实施例对本发明作进一步详细的描述。
本发明实施例提供了一种佩戴防护设备的语音识别方法,如图1所示,该方法包括:
步骤101:获取待识别的音频数据;
步骤102:获取预设多种语音转化方式;其中,所述语音转化方式通过对佩戴防护设备后所发出的语音信息与未佩戴防护设备所发出的语音信息之间的差异进行分析获得;
步骤103:按照所述多种语音转化方式对所述待识别的音频数据进行语音处理,获得对应的多个第一音频数据;
步骤104:对所述多个第一音频数据进行语义连贯正确率识别,获取每个第一音频数据的正确率系数;
步骤105:对所述正确率系数进行排序,获取正确率系数最大的第一音频数据;
步骤106:对所述正确率系数最大的第一音频数据进行语音识别,获取所述待识别的音频数据的识别结果。
具体地,本实施例中待识别的音频数据可为在用户佩戴防护设备后所采集的音频数据。本实施例能有效降低由于用户佩戴防护设备后发音变化所导致的语音识别误差。当用户佩戴防护设备后,由于口鼻紧绷、发音动作受限制,因此发生发音变化。当用户发音变化时,会导致音调及共振峰的变化,从而使得语音识别的准确度显著降低。而本申请通过利用基于佩戴防护设备后所发出的语音信息与未佩戴防护设备所发出的语音信息之间的差异,对待识别的音频数据进行转换,能够减少用户佩戴防护设备后发音变化所导致的识别误差。
进一步地,参见图2,在一实施例中,所述获取预设多种语音转化方式,包括:
步骤201:获取样本数据;
步骤202:获取佩戴防护设备后对所述样本数据进行发声所获得的第一语音信息和未佩戴防护设备对所述样本数据进行发声所获得的的第二语音信息;
步骤203:比较所述第一语音信息和所述第二语音信息的差异,获得多种语音转化方式。
本实施例中,通过获取佩戴防护设备前后,对同一样本数据的发音变化,来获取语音转化方式。例如,用户佩戴防护设备后,会将“他”中[A]的韵母发成了
Figure RE-GDA0003859222470000051
基于此变化,可获得一种语音转化方式,将音频数据每个字拼音中的
Figure RE-GDA0003859222470000052
变为[A]。再例如,用户佩戴防护设备后,会将“好[xau]”的复元音韵母[au]发成了单元音韵母
Figure RE-GDA0003859222470000054
基于此,可获得一种语音转化方式,将音频数据每个字拼音中的
Figure RE-GDA0003859222470000055
变为[au]。
进一步地,参见图3,在一实施例中,所述比较所述第一语音信息和所述第二语音信息的差异,获得多种语音转化方式,包括:
步骤301:对所述第一语音信息和所述第二语音信息进行分词处理,分别获得第一语音词语和第二语音词语;
步骤302:将所述第一语音词语与所述第二语音词语进行一一匹配,获得待识别词语对;
步骤303:分析每对待识别词语对中的两个词语的拼音差异,获得差异结果;
步骤304:对所述差异结果进行统计,获得数量大于预设数值的第一差异结果;
步骤305:基于每种第一差异结果获得一种语音转化方式。
实际生活中,由于用户佩戴防护设备导致的发音变化,除了对音频数据每个字会造成发音改变外,常常还存在有对词语发音的改变。例如,用户佩戴防护设备后,会将“有[iou]”的韵头[i]前端丢失了一部分,且比正常情况下更短促。再例如,用户佩戴防护设备后,会将“回[xuei]”发成了
Figure RE-GDA0003859222470000053
韵尾[i]消失。因此,本实施例先将第一语音信息和所述第二语音信息进行分词处理,在基于划分后的词语获取相匹配的两个词语的拼音差异,从而获得语音转化方式。
另外,由于每个用户发音的不同,常常会带有各自的口音,因此,为排除掉由于每个用户个人口音问题所导致的发音差异,仅根据划分后的词语中数量大于预设数值的第一差异结果获得语音转化方式。也就是说,仅当大部分词语都出现相同的差异时,再基于该相同的差异,来确定语音转化方式。
进一步地,参见图4,在一实施例中,所述按照所述多种语音转化方式对所述待识别的音频数据进行语音处理,获得对应的多个第一音频数据,包括:
步骤401:对所述待识别的音频数据进行分词处理,获得待识别词语;
步骤402:按照每种语音转化方式,对所述待识别词语中的拼音进行转换,获得转化词语;
步骤403:将按照每种语音转化方式所获得的转化词语进行拼接,获得每种语音转化方式所对应的第一音频数据。
本实施例中先根据用户获取佩戴防护设备前后,对同一文本的发音变化,来确定变化规律,从而基于变化规律确定多种语音转化方式。再利用确定的多种语音转化方式对待识别的音频数据进行语音转化。这里,本实施例中,依然先将待识别的音频数据进行分词处理,获得待识别词语,再以词语为单位,对划分后的词语进行转化,以提高识别准确率。
在对待识别的音频数据进行语音转化后,常常会存在一些错误的转化方式。因此,本实施例中,通过转化后的音频数据的语义连贯程度来判断音频数据的转化是否正确。
进一步地,参见图5,在一实施例中,所述对所述多个第一音频数据进行语义连贯正确率识别,获取每个第一音频数据的正确率系数,包括:
步骤501:按照语法规则对每个所述第一音频数据进行划分,划分为多个词性的词语;
步骤502:获取每个词语的词性及前后相邻的词语的词性;
步骤503:根据每个词语的词性及前后相邻的词语的词性,判断是否匹配,获得匹配结果;
步骤504:统计匹配结果为合格的词语占所有词语的比例;
步骤505:基于所述比例,获取每个所述第一音频数据的正确率系数。
具体地,某些情况下,在对词语的发音进行错误的转化后,常常会导致词语的词性发生改变。例如,“苹果”在进行了一些语音转化后,会变成“评估”。这样,就将原来词性为名词的“苹果”,转化为了词性为动词的“评估”。因此,在某些情况下,可以基于词语的词性与前后词语的词性是否匹配,来判断转化正确率。例如,喝水打伞这两个动词,在日常生活中,常常不会在一句话的前后出现使用,因此,当转化后的语句中出现相邻的两个动词为喝水打伞时,可判定为匹配不合格。再例如,你我这两个名词,在日常生活中,常常也不会在一句话的前后出现使用,因此,当转化后的语句中出现相邻的两个名词为你我时,可判定为匹配不合格。
另外,为避免一些少数情况所带来的误差,可基于大部分词语的匹配结果来确定转化后的音频数据的正确率,进而进一步提高识别准确率。
当然,本申请中,还可以采用其他的方式获取第一音频数据的正确率系数。例如,采用如下方式:
进一步地,参见图6,在一实施例中,所述对所述多个第一音频数据进行语义连贯正确率识别,获取每个第一音频数据的正确率系数,包括:
步骤601:将每个所述第一音频数据输入语音识别模型,获取所述语音识别模型输出的语音识别结果和准确率;
步骤602:将所述语音识别模型基于每个第一音频数据输出的准确率作为每个第一音频数据的正确率系数。
这里,本实施例通过语音识别模型来获取第一音频数据的正确率系数。这里的语音识别模型可以为深度学习模型。可采用常规的深度学习模型来对第一音频数据的语义连贯性进行检测,获得检测结果和准确率。
在一实施例中,按照所述多种语音转化方式对所述待识别的音频数据进行语音处理,获得对应的多个第一音频数据之前,所述方法还包括:
增强所述待识别的音频数据的共振峰值。
具体地,为排除由于用户佩戴防护设备后,防护设备对音频数据有吸收,导致音频数据的高次共振峰显示不明显所带来的误差,本申请在对音频数据进行语音处理前,先增强所述待识别的音频数据的共振峰值,以减少误差。
本发明实施例提供的佩戴防护设备的语音识别方法,获取待识别的音频数据;获取预设多种语音转化方式;其中,所述语音转化方式通过对佩戴防护设备后所发出的语音信息与未佩戴防护设备所发出的语音信息之间的差异进行分析获得;按照所述多种语音转化方式对所述待识别的音频数据进行语音处理,获得对应的多个第一音频数据;对所述多个第一音频数据进行语义连贯正确率识别,获取每个第一音频数据的正确率系数;对所述正确率系数进行排序,获取正确率系数最大的第一音频数据;对所述正确率系数最大的第一音频数据进行语音识别,获取所述待识别的音频数据的识别结果。采用本发明提供的方案能提高用户佩戴防护设备后的语音识别准确率。
为了实现本发明实施例的方法,本发明实施例还提供了一种佩戴防护设备的语音识别装置,如图7所示,佩戴防护设备的语音识别装置700包括:第一获取模块701、第二获取模块702、处理模块703、第一识别模块704、排序模块705和第二识别模块706;其中,
第一获取模块701,用于获取待识别的音频数据;
第二获取模块702,用于获取预设多种语音转化方式;其中,所述语音转化方式通过对佩戴防护设备后所发出的语音信息与未佩戴防护设备所发出的语音信息之间的差异进行分析获得;
处理模块703,用于按照所述多种语音转化方式对所述待识别的音频数据进行语音处理,获得对应的多个第一音频数据;
第一识别模块704,用于对所述多个第一音频数据进行语义连贯正确率识别,获取每个第一音频数据的正确率系数;
排序模块705,用于对所述正确率系数进行排序,获取正确率系数最大的第一音频数据;
第二识别模块706,用于对所述正确率系数最大的第一音频数据进行语音识别,获取所述待识别的音频数据的识别结果。
实际应用时,第一获取模块701、第二获取模块702、处理模块703、第一识别模块704、排序模块705和第二识别模块706可由佩戴防护设备的语音识别装置中的处理器实现。
需要说明的是:上述实施例提供的上述装置在执行时,仅以上述各程序模块的划分进行举例说明,实际应用时,可以根据需要而将上述处理分配由不同的程序模块完成,即将终端的内部结构划分成不同的程序模块,以完成以上描述的全部或者部分处理。另外,上述实施例提供的上述装置与上述方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
为了实现本发明实施例的方法,本发明实施例还提供了一种计算机程序产品,计算机程序产品包括计算机指令,计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取计算机指令,处理器执行计算机指令,使得计算机设备执行上述方法的步骤。
基于上述程序模块的硬件实现,且为了实现本发明实施例的方法,本发明实施例还提供了一种电子设备(计算机设备)。具体地,在一个实施例中,该计算机设备可以是终端,其内部结构图可以如图8所示。该计算机设备包括通过系统总线连接的处理器A01、网络接口 A02、显示屏A04、输入装置A05和存储器(图中未示出)。其中,该计算机设备的处理器A01用于提供计算和控制能力。该计算机设备的存储器包括内存储器A03和非易失性存储介质A06。该非易失性存储介质A06存储有操作系统B01和计算机程序B02。该内存储器A03 为非易失性存储介质A06中的操作系统B01和计算机程序B02的运行提供环境。该计算机设备的网络接口A02用于与外部的终端通过网络连接通信。该计算机程序被处理器A01执行时以实现上述任意一项实施例的方法。该计算机设备的显示屏A04可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置A05可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图8中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
本发明实施例提供的设备,设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序,处理器执行程序时实现上述任意一项实施例的方法。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和 /或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flashRAM)。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器 (CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitorymedia),如调制的数据信号和载波。
可以理解,本发明实施例的存储器可以是易失性存储器或者非易失性存储器,也可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(ROM,ReadOnly Memory)、可编程只读存储器(PROM,Programmable Read-Only Memory)、可擦除可编程只读存储器(EPROM,Erasable Programmable Read-Only Memory)、电可擦除可编程只读存储器(EEPROM,Electrically Erasable Programmable Read-Only Memory)、磁性随机存取存储器(FRAM,ferromagnetic random access memory)、快闪存储器(Flash Memory)、磁表面存储器、光盘、或只读光盘(CD-ROM,Compact Disc Read-Only Memory);磁表面存储器可以是磁盘存储器或磁带存储器。易失性存储器可以是随机存取存储器(RAM, RandomAccess Memory),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(SRAM,Static Random Access Memory)、同步静态随机存取存储器(SSRAM,Synchronous Static Random Access Memory)、动态随机存取存储器(DRAM,Dynamic Random Access Memory)、同步动态随机存取存储器(SDRAM, SynchronousDynamic Random Access Memory)、双倍数据速率同步动态随机存取存储器 (DDRSDRAM,Double Data Rate Synchronous Dynamic Random Access Memory)、增强型同步动态随机存取存储器(ESDRAM,Enhanced Synchronous Dynamic Random Access Memory)、同步连接动态随机存取存储器(SLDRAM,SyncLink Dynamic Random Access Memory)、直接内存总线随机存取存储器(DRRAM,Direct Rambus Random Access Memory)。本发明实施例描述的存储器旨在包括但不限于这些和任意其它适合类型的存储器。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (10)

1.一种佩戴防护设备的语音识别方法,其特征在于,所述方法包括:
获取待识别的音频数据;
获取预设多种语音转化方式;其中,所述语音转化方式通过对佩戴防护设备后所发出的语音信息与未佩戴防护设备所发出的语音信息之间的差异进行分析获得;
按照所述多种语音转化方式对所述待识别的音频数据进行语音处理,获得对应的多个第一音频数据;
对所述多个第一音频数据进行语义连贯正确率识别,获取每个第一音频数据的正确率系数;
对所述正确率系数进行排序,获取正确率系数最大的第一音频数据;
对所述正确率系数最大的第一音频数据进行语音识别,获取所述待识别的音频数据的识别结果。
2.根据权利要求1所述的方法,其特征在于,所述获取预设多种语音转化方式,包括:
获取样本数据;
获取佩戴防护设备后对所述样本数据进行发声所获得的第一语音信息和未佩戴防护设备对所述样本数据进行发声所获得的的第二语音信息;
比较所述第一语音信息和所述第二语音信息的差异,获得多种语音转化方式。
3.根据权利要求2所述的方法,其特征在于,所述比较所述第一语音信息和所述第二语音信息的差异,获得多种语音转化方式,包括:
对所述第一语音信息和所述第二语音信息进行分词处理,分别获得第一语音词语和第二语音词语;
将所述第一语音词语与所述第二语音词语进行一一匹配,获得待识别词语对;
分析每对待识别词语对中的两个词语的拼音差异,获得差异结果;
对所述差异结果进行统计,获得数量大于预设数值的第一差异结果;
基于每种第一差异结果获得一种语音转化方式。
4.根据权利要求3所述的方法,其特征在于,所述按照所述多种语音转化方式对所述待识别的音频数据进行语音处理,获得对应的多个第一音频数据,包括:
对所述待识别的音频数据进行分词处理,获得待识别词语;
按照每种语音转化方式,对所述待识别词语中的拼音进行转换,获得转化词语;
将按照每种语音转化方式所获得的转化词语进行拼接,获得每种语音转化方式所对应的第一音频数据。
5.根据权利要求1所述的方法,其特征在于,所述对所述多个第一音频数据进行语义连贯正确率识别,获取每个第一音频数据的正确率系数,包括:
按照语法规则对每个所述第一音频数据进行划分,划分为多个词性的词语;
获取每个词语的词性及前后相邻的词语的词性;
根据每个词语的词性及前后相邻的词语的词性,判断是否匹配,获得匹配结果;
统计匹配结果为合格的词语占所有词语的比例;
基于所述比例,获取每个所述第一音频数据的正确率系数。
6.根据权利要求1所述的方法,其特征在于,所述对所述多个第一音频数据进行语义连贯正确率识别,获取每个第一音频数据的正确率系数,包括:
将每个所述第一音频数据输入语音识别模型,获取所述语音识别模型输出的语音识别结果和准确率;
将所述语音识别模型基于每个第一音频数据输出的准确率作为每个第一音频数据的正确率系数。
7.根据权利要求1所述的方法,其特征在于,按照所述多种语音转化方式对所述待识别的音频数据进行语音处理,获得对应的多个第一音频数据之前,所述方法还包括:
增强所述待识别的音频数据的共振峰值。
8.一种佩戴防护设备的语音识别装置,其特征在于,所述装置包括:
第一获取模块,用于获取待识别的音频数据;
第二获取模块,用于获取预设多种语音转化方式;其中,所述语音转化方式通过对佩戴防护设备后所发出的语音信息与未佩戴防护设备所发出的语音信息之间的差异进行分析获得;
处理模块,用于按照所述多种语音转化方式对所述待识别的音频数据进行语音处理,获得对应的多个第一音频数据;
第一识别模块,用于对所述多个第一音频数据进行语义连贯正确率识别,获取每个第一音频数据的正确率系数;
排序模块,用于对所述正确率系数进行排序,获取正确率系数最大的第一音频数据;
第二识别模块,用于对所述正确率系数最大的第一音频数据进行语音识别,获取所述待识别的音频数据的识别结果。
9.一种电子设备,其特征在于,包括:处理器和用于存储能够在处理器上运行的计算机程序的存储器;其中,
所述处理器用于运行所述计算机程序时,执行权利要求1至7任一项所述方法的步骤。
10.一种存储介质,所述存储介质中存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现权利要求1至7任一项所述方法的步骤。
CN202210734623.6A 2022-06-24 2022-06-24 佩戴防护设备的语音识别方法、装置、设备和存储介质 Pending CN115240661A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210734623.6A CN115240661A (zh) 2022-06-24 2022-06-24 佩戴防护设备的语音识别方法、装置、设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210734623.6A CN115240661A (zh) 2022-06-24 2022-06-24 佩戴防护设备的语音识别方法、装置、设备和存储介质

Publications (1)

Publication Number Publication Date
CN115240661A true CN115240661A (zh) 2022-10-25

Family

ID=83670302

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210734623.6A Pending CN115240661A (zh) 2022-06-24 2022-06-24 佩戴防护设备的语音识别方法、装置、设备和存储介质

Country Status (1)

Country Link
CN (1) CN115240661A (zh)

Similar Documents

Publication Publication Date Title
Sproat et al. RNN approaches to text normalization: A challenge
EP3174047B1 (en) Speech recognition
CN109523989B (zh) 语音合成方法、语音合成装置、存储介质及电子设备
Deb et al. Emotion classification using segmentation of vowel-like and non-vowel-like regions
CN109087670B (zh) 情绪分析方法、系统、服务器及存储介质
WO2021000497A1 (zh) 检索方法、装置、计算机设备和存储介质
CN110570876B (zh) 歌声合成方法、装置、计算机设备和存储介质
JP5524138B2 (ja) 同義語辞書生成装置、その方法、及びプログラム
CN109584906B (zh) 口语发音评测方法、装置、设备及存储设备
CN112397051A (zh) 语音识别方法、装置及终端设备
CN118043885A (zh) 用于半监督语音识别的对比孪生网络
Hanani et al. Spoken Arabic dialect recognition using X-vectors
CN112669845A (zh) 语音识别结果的校正方法及装置、电子设备、存储介质
WO2023045186A1 (zh) 意图识别方法、装置、电子设备和存储介质
EP4295358A1 (en) Lookup-table recurrent language model
CN112885335A (zh) 语音识别方法及相关装置
Bhowmik et al. Manner of articulation based Bengali phoneme classification
CN115240661A (zh) 佩戴防护设备的语音识别方法、装置、设备和存储介质
Park et al. Jejueo datasets for machine translation and speech synthesis
Bates et al. Symbolic phonetic features for modeling of pronunciation variation
Devi et al. Development of ManiTo: a Manipuri tonal contrast dataset
Yamada et al. Predicting future accident risks of older drivers by speech data from a voice-based dialogue system: a preliminary result
Tzudir et al. Under-resourced dialect identification in Ao using source information
Whetten et al. Evaluating and improving automatic speech recognition using severity
Zhang et al. Towards the use of pretrained language model gpt-2 for testing the hypothesis of communicative efficiency in the lexicon

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination