CN110021293A - 语音识别方法及装置、可读存储介质 - Google Patents
语音识别方法及装置、可读存储介质 Download PDFInfo
- Publication number
- CN110021293A CN110021293A CN201910276949.7A CN201910276949A CN110021293A CN 110021293 A CN110021293 A CN 110021293A CN 201910276949 A CN201910276949 A CN 201910276949A CN 110021293 A CN110021293 A CN 110021293A
- Authority
- CN
- China
- Prior art keywords
- pronunciation
- sequence
- map
- preset
- recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 36
- 238000012937 correction Methods 0.000 claims abstract description 32
- 238000012545 processing Methods 0.000 claims abstract description 29
- 235000013399 edible fruits Nutrition 0.000 claims description 7
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 230000001960 triggered effect Effects 0.000 claims description 3
- 230000001052 transient effect Effects 0.000 claims 1
- 238000010276 construction Methods 0.000 description 14
- 238000010586 diagram Methods 0.000 description 9
- 238000012805 post-processing Methods 0.000 description 9
- 230000008569 process Effects 0.000 description 8
- 238000001228 spectrum Methods 0.000 description 7
- 230000003044 adaptive effect Effects 0.000 description 5
- 230000007704 transition Effects 0.000 description 4
- 241001269238 Data Species 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000012512 characterization method Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000035800 maturation Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
一种语音识别方法及装置、可读存储介质,所述语音识别包括:采用预设的语音识别模型对语音数据进行识别,得到第一识别结果;将所述第一识别结果转化为待处理的发音序列;采用预设的发音图谱对所述待处理的发音序列进行纠正处理,得到第二识别结果;输出所述第二识别结果。采用上述方案,可以快速提高特定领域内的语音识别的准确度。
Description
技术领域
本发明属于自然语言处理技术领域,特别涉及一种语音识别方法及装置、可读存储介质。
背景技术
现有的语音识别模型通常需要大量的学习数据,因此在能够准确识别语音前,往往耗费很长的模型训练时间。同时,在特定的行业应用场景下,语音识别模型难以事先获得足够的学习数据,语音数据中也经常包含通用语音识别模型所不能覆盖的专业词汇,导致语音识别时将特殊领域的词汇识别为发音相近的常规用词。因此,现有的语音识别模型在特定应用场景下,识别准确性也不能满足用户要求。
发明内容
本发明实施例的目的是快速提高特定领域内的语音识别的准确度。
为实现上述目的,本发明实施例提供一种语音识别方法,语音识别方法包括:采用预设的语音识别模型对语音数据进行识别,得到第一识别结果;将所述第一识别结果转化为待处理的发音序列;采用预设的发音图谱对所述待处理的发音序列进行纠正处理,得到第二识别结果;所述发音图谱包括目标领域的词汇表和对应词汇的发音序列;所述发音图谱采用以下至少一种方式更新:更新所述目标领域的词汇表和对应词汇的发音序列以及根据所述第二识别结果更新对应的发音序列的相似概率;输出所述第二识别结果。
可选的,所述预设的发音图谱采用如下方式构建:根据所述目标领域的词汇表和对应词汇的发音序列,将每个发音序列作为一个节点;根据不同发音序列的相似性,将不同节点连接构成所述预设的发音图谱。
可选的,所述发音序列的相似性采用以下至少一种方式获得:统计至少一个特定语种的发音特征、统计至少一个特定地域的发音信息、预设的发音序列内音素的相似比例以及预设的发音序列相似权重。
可选的,所述采用预设的发音图谱对所述待处理的发音序列进行纠正处理,包括:根据发音序列中音素的相似比例以及发音序列的相似权重中的至少一种,确定相应的发音序列。
可选的,在输出所述第二识别结果后,还包括:根据输出的第二识别结果触发相应的决策。
可选的,在根据输出的第二识别结果触发相应的决策后,还包括:获取执行决策后的结果信息;根据所述结果信息和预设的预期结果,判断所述决策是否正确;根据判断结果更新所述预设的发音图谱。
可选的,所述采用预设的发音图谱对所述待处理的发音序列进行纠正处理,包括:获取所述第一识别结果和所述语音数据对应的用户身份信息;根据所述用户身份信息,采用所述用户特定的预设发音图谱对所述待处理的发音序列进行纠正处理。
为解决上述技术问题,本发明实施例还公开了一种语音识别装置,语音识别装置包括:语音识别单元,用于采用预设的语音识别模型对语音数据进行识别,得到第一识别结果;转化单元,用于将所述第一识别结果转化为待处理的发音序列;纠正单元,用于采用预设的发音图谱对所述待处理的发音序列进行纠正处理,得到第二识别结果;所述发音图谱包括目标领域的词汇表和对应词汇的发音序列;所述发音图谱采用以下至少一种方式更新:更新所述目标领域的词汇表和对应词汇的发音序列以及根据所述第二识别结果更新对应的发音序列的相似概率;输出单元,用于输出所述第二识别结果。
可选的,所述预设的发音图谱采用如下方式构建:根据所述目标领域的词汇表和对应词汇的发音序列,将每个发音序列作为一个节点;根据不同发音序列的相似性,将不同节点连接构成所述预设的发音图谱。
可选的,所述音序列的相似性采用以下至少一种方式获得:统计至少一个特定语种的发音特征、统计至少一个特定地域的发音信息、预设的发音序列内音素的相似比例以及预设的发音序列相似权重。
可选的,所述纠正单元,用于:根据发音序列中音素的相似比例以及发音序列的相似权重中的至少一种,确定相应的发音序列。
可选的,所述输出单元,还用于:根据输出的第二识别结果触发相应的决策。
可选的,所述输出单元,还用于:获取执行决策后的结果信息;根据所述结果信息和预设的预期结果,判断所述决策是否正确;根据判断结果更新所述预设的发音图谱。
可选的,所述纠正单元,用于:获取所述第一识别结果和所述语音数据对应的用户身份信息;根据所述用户身份信息,采用所述用户特定的预设发音图谱对所述待处理的发音序列进行纠正处理。
本发明实施例还公开了一种计算机可读存储介质,计算机可读存储介质为非易失性存储介质或非瞬态存储介质,其上存储有计算机指令,所述计算机指令运行时执行上述任一种所述的语音识别方法的步骤。
本发明实施例还提供了一种语音识别装置,包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的计算机指令,所述处理器运行所述计算机指令时执行上述任一种所述的语音识别方法的步骤。
与现有技术相比,本发明实施例的技术方案具有以下有益效果:
采用预设的发音图谱对所述待处理的发音序列进行纠正处理,得到第二识别结果;所述发音图谱包括目标领域的词汇表和对应词汇的发音序列;所述发音图谱采用以下至少一种方式更新:更新所述目标领域的词汇表和对应词汇的发音序列以及根据所述第二识别结果更新对应的发音序列的相似概率,可以在现有的语音识别模型基础上快速提高特定领域内的语音识别的准确度。
进一步,通过获取执行决策后的结果信息,再根据所述结果信息和预设的预期结果,判断所述决策是否正确,最后根据判断结果更新所述预设的发音图谱,使得发音图谱不断更新、语音识别自适应学习,进而提高语音识别的准确度。
进一步,根据所述用户身份信息,采用所述用户特定的预设发音图谱对所述待处理的发音序列进行纠正处理,可以根据不同用户对应的特定发音特征构建个性化的发音图谱,进一步地提高语音识别的准确度。
附图说明
图1是本发明实施例中的一种语音识别方法的流程图;
图2是本发明实施例中的一种发音序列的连接方式;
图3是本发明实施例中的另一种发音序列的连接方式;
图4是本发明实施例中的一种发音图谱的结构示意图;
图5是本发明实施例中的一种发音图谱的实施状态示意图;
图6是本发明实施例中的一种语音识别装置的结构示意图;
图7是本发明实施例中的另一种语音识别装置的结构示意图。
具体实施方式
现有技术中,语音识别模型通常需要大量的学习数据,因此在能够准确识别语音前,往往耗费很长的模型训练时间。同时,在特定的行业应用场景下,语音识别模型难以事先获得足够的学习数据,语音数据中也经常包含通用语音识别模型所不能覆盖的专业词汇,导致语音识别时将特殊领域的词汇识别为发音相近的常规用词。因此,现有的语音识别模型在特定应用场景下,识别准确性也不能满足用户要求。
本发明实施例中,采用预设的发音图谱对所述待处理的发音序列进行纠正处理,得到第二识别结果;所述发音图谱包括目标领域的词汇表和对应词汇的发音序列;所述发音图谱采用以下至少一种方式更新:更新所述目标领域的词汇表和对应词汇的发音序列以及根据所述第二识别结果更新对应的发音序列的相似概率,可以在现有的语音识别模型基础上快速提高特定领域内的语音识别的准确度。
为使本发明的上述目的、特征和有益效果能够更为明显易懂,下面结合附图对本发明的具体实施例做详细的说明。
本发明实施例提供了一种语音识别方法,参照图1,以下通过具体步骤进行详细说明。
步骤S101,采用预设的语音识别模型对语音数据进行识别,得到第一识别结果。
自动语音识别(Automatic Speech Recognition,ASR)是指让计算机等设备通过对语音的识别和理解,把人的口语转化为相应的输出文本或者命令的过程。自动语音识别的核心框架是:在利用统计模型建模的基础上,根据从待识别语音信号中提取的特征序列O,采用公式(1)来求解与待识别语音信号对应的最佳词序列W*:
W*=argmaxP<O|W>P(W); (1)
其中,P<O|W>为声学模型(Acoustic Model,AM),P(W)为语言模型(LanguageModel,LM)。上述求解最佳词序列的过程称为解码过程,根据语音特征选择最有可能的词序列作为输出,即:在由发音词典、语言模型等多种知识源组成的搜索空间中搜索出上式所示的最佳词序列。
在具体实施中,可以通过自动语音识别技术,采用预设的语音识别模型对语音数据进行识别,得到第一识别结果。第一识别结果可以为文本形式的识别结果,从第一识别结果中可以取得一定准确度的常规用词识别结果。
可以理解的是,第一识别结果也可以为非文本形式,本发明不限定第一识别结果的形式。
步骤S102,将所述第一识别结果转化为待处理的发音序列。
在具体实施中,待处理的发音序列可以包括中文、英文等各种语言的发音序列,即不限于中文语音。由于各类语言语音数据都可以转化为发音序列,再通过发音序列进行语音识别的纠正处理,因此对于混合语言的语音(例如中英文和数字混合的语音)也同样能达到准确语音识别的效果。
在实际应用中,以汽车行业中的语音识别系统为例,车系和车型的名称往往是中文、英文和数字混杂在一起的。目前业界成熟的语音识别方案也很难解决多种类型语音的识别问题,但是利用本发明提出的语音识别方法可以将其转化为发音序列后进行纠正处理,有效改善语音识别准确率。
步骤S103,采用预设的发音图谱对所述待处理的发音序列进行纠正处理,得到第二识别结果。
在具体实施中,发音图谱包括目标领域的词汇表和对应词汇的发音序列。通过构建限定领域词汇的发音图谱,对所述待处理的发音序列进行纠正处理,将已有通用模型的识别结果映射到图谱中的节点,然后根据转移概率选择具有最大可信度的实体识别结果。
在实际应用中,发音图谱作为一种以图形式表示的语音识别方法,不仅是节点的集合,还包括节点之间的连接关系。因此,发音图谱中还可以包括表征发音相似性的发音序列(即发音图谱中的节点)的连接方式。
在实际应用中,目标领域的词汇表指的是具体应用领域需要维护更新的有别于常规用词的特殊词汇,一般包括具体应用领域中需要正确识别的实体名称。目标领域的词汇表也可以构成词汇库,用户根据自身的需求,可以自行制定词汇库,也可以与该领域的行业专家或者业务人员共同制定。本发明不对目标领域的词汇表的生成过程赘述。
在具体实施中,预设的发音图谱可以采用如下方式构建:根据目标领域的词汇表以及对应词汇的发音序列,将每个发音序列作为一个节点;再根据不同发音序列的相似性,将不同节点连接构成所述预设的发音图谱。
对某些特殊的应用场景,不需要大量相关的文本或者实体关系用于发音图谱学习。因此,根据限定领域下需要识别的实体词表,就可以在没有先验学习样本的情况下,通过构建的发音图谱有效提升专业词汇和特殊实体的语音识别准确率。
在具体实施中,发音序列的相似性可以采用以下至少一种方式获得:统计至少一个特定语种的发音特征、统计至少一个特定地域的发音信息、预设的发音序列内音素的相似比例以及预设的发音序列相似权重。
在具体实施中,可以通过更新所述目标领域的词汇表和对应词汇的发音序列更新所述预设的发音图谱;还可以根据所述第二识别结果来更新对应的发音序列的相似概率,进而更新了预设的发音图谱。采用发音图谱来进行最大概率匹配,在后续使用过程中根据不断积累的数据自适应调整概率提升识别准确率,有效提升语音识别的准确率。
参照图2,给出了本发明实施例中的一种发音序列的连接方式。参照图3,给出了本发明实施例中的另一种发音序列的连接方式。
目标领域的实体词库中的每个词都可以转化为发音序列,每个发音序列作为一个实体节点。由图2和图3可知,实体发音序列节点以实线圆代表。然后,以每个实体节点为出发点,扩展出一系列相近的模糊发音序列节点(以虚线圆代表)。可以理解的是,扩展出来的模糊发音序列节点与实体节点的连接方式可以有多种,不限于图2和图3所提供的发音序列连接方式,本发明在此不作赘述。
图2和图3中,假设与实体A发音序列相似的发音序列有三个,分别为模糊发音序列m、模糊发音序列n和模糊发音序列k。
图2中,以多跳的方式来表征发音序列之间的相似性,即离得越近的发音序列节点之间越容易混淆发音,例如只差一个音素不同。
图3中,以发音序列节点之间的连接边权重的方式来表征发音的相似性,所有模糊发音序列节点都直接跟实体A发音序列相连,通过每个模糊发音序列节点与实体A发音序列的边权重来区分容易混淆的程度。
在实际应用中,可以不限于图2和图3中提供的发音序列连接方式,不管以何种方式连接,最终会构成一张紧密连接的发音图谱,以反映不同发音序列之间的相似性关系。
在实际应用中,当某个模糊发音序列被正确纠正后,就会提升该模糊发音序列与对应的实体发音序列之间相似性的度量,反之则降低。
在具体实施中,在对待处理的发音序列进行纠正处理时,可以根据发音序列中音素的相似比例以及发音序列的相似权重中的至少一种,确定相应的发音序列,进而得到第二识别结果。
参照图4,给出了本发明实施例中的一种发音图谱的结构示意图。图5是本发明实施例中的一种发音图谱的实施状态示意图。
图4以图的结构方法表现了目标领域的实体发音序列和模糊发音序列相似性的连接方式,其中,每个节点代表一个发音序列。实体A发音序列、实体B发音序列以及实体C发音序列由实线节点表示,模糊发音序列m、模糊发音序列n以及模糊发音序列k由虚线节点表示,模糊发音序列代表与目标领域实体发音序列相近的发音序列。各个节点之间的有向边代表原本为起始节点的发音序列可能被错误识别为结束节点的发音序列,各个边分别对应各自的权重,权重代表节点之间被错误识别的概率。一个节点可能与多个节点相连,这个节点与相连的节点之间可以是发音只差一个音节,也可以是差多个音节。另外,还可以为每个用户单独维护一张体现个体发音差异的发音图谱。
图5为图4中提供的发音图谱的实施状态图。由图5可知,当采用已经构建的发音图谱对待处理发音序列进行处理时,先在发音图谱中找到待处理发音序列的节点或者最相近的节点(图5中为待处理发音序列m),然后根据一定的规则(例如贝叶斯准则)找到认为最可能的正确发音序列节点,作为第二识别结果。
在具体实施中,待处理的发音序列节点m,根据最大概率准则找到最可能的正确实体发音序列节点是实体A发音序列节点还是实体B发音序列节点,并将正确实体发音序列作为第二识别结果。
在具体实施中,可以获取所述第一识别结果和所述语音数据对应的用户身份信息。根据所述用户身份信息,采用所述用户特定的预设发音图谱对所述待处理的发音序列进行纠正处理。即在发音图谱的构建过程中,可以构建和更新一系列的发音图谱,也可以利用所有用户的数据更新一张代表全局用户的发音图谱,还可以同时再为每一个用户更新一张代表个人发音特点的图谱。从而,在采用构建的发音图谱对待处理的发音序列进行纠正处理时,就可以根据不同用户对应的特定发音特征构建个性化的发音图谱,根据用户身份信息对待处理的发音序列进行纠正处理,提高对不同用户的语音识别的准确度。
步骤S104,输出所述第二识别结果。
在具体实施中,在输出所述第二识别结果后,还可以根据输出的第二识别结果触发相应的决策。
在实际应用中,语音识别的结果通常会用于触发执行某一个动作,比如回答用户一句话、查询数据库、控制某个设备等。因此,语音识别功能可以包括人机交互接口,以帮助整体系统根据语音识别结果完成后续的动作。因此,可以根据输出的第二识别结果触发相应的决策,并由语音识别功能对应的系统或其他系统执行相应的决策。
在具体实施中,可以获取执行决策后的结果信息,再根据所述结果信息和预设的预期结果,判断所述决策是否正确。最后,根据判断结果更新所述预设的发音图谱。使得发音图谱不断更新、语音识别自适应学习,进而提高语音识别的准确度。
可以理解的是,根据判断结果所更新的发音图谱可以是通用的发音图谱,也可以是针对某个用户或某类用户构建的个性化图谱,本发明在此不作限定。
在实际应用中,为了实现机器在线自学习功能,大部分的实际系统中可以通过一定的领域知识和策略技巧(包括所述结果信息和预设的预期结果),对语音识别后执行决策的结果信息进行准确性的判断,而判断的过程可以作为机器进行学习的重要依据,进而在机器学习的过程中提高语音识别的准确度。
以数据库查询的问答机器人为例,可根据数据库查询的返回结果来获得一定置信度的判断,比如查询报错、或是没有查询到相关内容、又或是没有足够信息用于查询,则可以将判断结果作为语音识别后处理错误的表征。
综上所述,本发明提出的语音识别方法基于发音图谱对第一识别记过进行再次处理,通过构建限定领域词汇的发音图谱,将已有通用模型的识别结果映射到图谱中的节点,然后根据转移概率选择具有最大可信度的实体识别结果。在没有先验学习样本的情况下即可按初始转移概率正常运行,并在后续使用过程中根据不断积累的数据自适应调整概率提升识别准确率。同时,支持为每个个体维护个性化发音图谱的转移概率,解决难以识别个体发音差异的问题。
参照图6,本发明实施例还提供了一种语音识别装置60,包括:语音识别单元601、转化单元602、纠正单元603和输出单元604;
其中,所述语音识别单元601,用于采用预设的语音识别模型对语音数据进行识别,得到第一识别结果;
所述转化单元602,用于将所述第一识别结果转化为待处理的发音序列;
所述纠正单元603,用于采用预设的发音图谱对所述待处理的发音序列进行纠正处理,得到第二识别结果;
所述输出单元604,用于输出所述第二识别结果。
在具体实施中,所述发音图谱包括目标领域的词汇表和对应词汇的发音序列。
在具体实施中,采用以下至少一种方式更新所述预设的发音图谱:更新所述目标领域的词汇表和对应词汇的发音序列以及根据所述第二识别结果更新对应的发音序列的相似概率。
在具体实施中,所述预设的发音图谱可以采用如下方式构建:根据目标领域的词汇表以及对应词汇的发音序列,将每个发音序列作为一个节点;根据不同发音序列的相似性,将不同节点连接构成所述预设的发音图谱。
在具体实施中,所述音序列的相似性可以采用以下至少一种方式获得:统计至少一个特定语种的发音特征、统计至少一个特定地域的发音信息、预设的发音序列内音素的相似比例以及预设的发音序列相似权重。
在具体实施中,所述纠正单元603,可以用于:根据发音序列中音素的相似比例以及发音序列的相似权重中的至少一种,确定相应的发音序列。
在具体实施中,所述输出单元604,还可以用于:根据输出的第二识别结果触发相应的决策。
在具体实施中,所述输出单元604,还可以用于:获取执行决策后的结果信息;根据所述结果信息和预设的预期结果,判断所述决策是否正确;根据判断结果更新所述预设的发音图谱。
在具体实施中,所述纠正单元603,可以用于:获取所述第一识别结果和所述语音数据对应的用户身份信息;根据所述用户身份信息,采用所述用户特定的预设发音图谱对所述待处理的发音序列进行纠正处理。
参照图7给出了本发明实施例中的另一种语音识别装置的结构示意图。
由图7可知,语音识别装置70包括:通用语音识别模型100、利用图谱的后处理模块108、任务决策与执行模块110、结果自检模块112、图谱构建与更新模块104、领域图谱106以及领域实体词库102。
通用语音识别模型100与利用图谱的后处理模块108连接,用于对接收到的语音数据进行语音识别,得到第一识别结果,并将第一识别结果转化为对应的发音序列输出到利用图谱的后处理模块108。
利用图谱的后处理模块108与通用语音识别模型100、任务决策与执行模块110以及领域图谱106连接,用于采用发音图谱对待处理的发音序列进行纠正处理,得到第二识别结果,并将第二识别结果输出到任务决策与执行模块110。
任务决策与执行模块110与利用图谱的后处理模块108以及结果自检模块112,用于根据第二识别结果触发相应的决策并执行决策,发送执行结果给用户界面,再将执行结果输出到结果自检模块112。
结果自检模块112与图谱构建与更新模块104连接,用于判断执行结果的准确性,再将判断结果输出到图谱构建与更新模块104。
图谱构建与更新模块104与结果自检模块112、领域图谱106以及领域实体词库102连接,用于根据判断结果更新发音图谱并输出到领域图谱106、根据领域图谱106构建领域实体词库102。
领域图谱106与图谱构建与更新模块104以及利用图谱的后处理模块108连接,用于存储发音图谱以及输出发音图谱至利用图谱的后处理模块108。
领域实体词库102与图谱构建与更新模块104连接,用于存储和获取目标领域的词汇表并将词汇表输出到图谱构建与更新模块104。
在具体实施中,语音识别装置70预设了领域实体词库102,通过领域实体词库102将词汇表i输入到图谱构建与更新模块104,图谱构建与更新模块104将完整的图谱数据或更新的节点信息和节点连接边的权重信息传输给领域图谱106。在此期间,若领域图谱106处于发音图谱构建阶段,图谱构建与更新模块104将完整的图谱数据传输给领域图谱106;若领域图谱106处于更新阶段,图谱构建与更新模块104将更新的节点信息和节点连接边的权重信息传输给领域图谱106。因此,h包括完整的图谱数据、更新的节点信息以及节点连接边的权重信息。
在具体实施中,a为用户的原始语音数据,可以是用户输入的一个实体词,也可以是多个实体词以及句子等语音数据。当用户输入语音数据a到语音识别装置70时,通用语音识别模型100对语音数据进行语音识别,得到识别结果b(文本形式)。利用图谱的后处理模块108获取领域图谱106传输的针对当前任务需要用到的发音图谱数据,对识别结果b进行纠正处理,得到处理之后的识别文本d。其中,识别结果b包含了用户的身份信息,可以选择对应该用户的图谱来进行后处理。
任务决策与执行模块根据识别文本d触发相应的决策并执行,将执行结果对应的用户界面输出结果f发送到用户界面,同时再将决策的动作指示和执行的结果信息e输出到结果自检模块112。
结果自检模块112判断执行结果的准确性,将准确性指示信息g输出到图谱构建与更新模块104。
图谱构建与更新模块104根据结果自检模块112的输出,对领域图谱106发送发音图谱的更新信息,使得领域图谱106可以不断调整发音图谱,从而实现语音识别装置70在线的自适应学习。
本发明实施例还提供了一种计算机可读存储介质,计算机可读存储介质为非易失性存储介质或非瞬态存储介质,其上存储有计算机指令,所述计算机指令运行时执行本发明上述实施例中提供的任一种所述的语音识别方法的步骤。
本发明实施例还提供了一种语音识别装置,包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的计算机指令,所述处理器运行所示计算机指令时,执行本发明上述实施例中提供的任一种所述的语音识别方法的步骤。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于任一计算机可读存储介质中,存储介质可以包括:ROM、RAM、磁盘或光盘等。
虽然本发明披露如上,但本发明并非限定于此。任何本领域技术人员,在不脱离本发明的精神和范围内,均可作各种更动与修改,因此本发明的保护范围应当以权利要求所限定的范围为准。
Claims (16)
1.一种语音识别方法,其特征在于,包括:
采用预设的语音识别模型对语音数据进行识别,得到第一识别结果;
将所述第一识别结果转化为待处理的发音序列;
采用预设的发音图谱对所述待处理的发音序列进行纠正处理,得到第二识别结果;所述发音图谱包括目标领域的词汇表和对应词汇的发音序列;所述发音图谱采用以下至少一种方式更新:更新所述目标领域的词汇表和对应词汇的发音序列以及根据所述第二识别结果更新对应的发音序列的相似概率;
输出所述第二识别结果。
2.如权利要求1所述的语音识别方法,其特征在于,所述预设的发音图谱采用如下方式构建:
根据所述目标领域的词汇表和对应词汇的发音序列,将每个发音序列作为一个节点;
根据不同发音序列的相似性,将不同节点连接构成所述预设的发音图谱。
3.如权利要求2所述的语音识别方法,其特征在于,所述发音序列的相似性采用以下至少一种方式获得:统计至少一个特定语种的发音特征、统计至少一个特定地域的发音信息、预设的发音序列内音素的相似比例以及预设的发音序列相似权重。
4.如权利要求1所述的语音识别方法,其特征在于,所述采用预设的发音图谱对所述待处理的发音序列进行纠正处理,包括:
根据发音序列中音素的相似比例以及发音序列的相似权重中的至少一种,确定相应的发音序列。
5.如权利要求1所述的语音识别方法,其特征在于,在输出所述第二识别结果后,还包括:根据输出的第二识别结果触发相应的决策。
6.如权利要求5所述的语音识别方法,其特征在于,在根据输出的第二识别结果触发相应的决策后,还包括:
获取执行决策后的结果信息;
根据所述结果信息和预设的预期结果,判断所述决策是否正确;
根据判断结果更新所述预设的发音图谱。
7.如权利要求1所述的语音识别方法,其特征在于,所述采用预设的发音图谱对所述待处理的发音序列进行纠正处理,包括:
获取所述第一识别结果和所述语音数据对应的用户身份信息;
根据所述用户身份信息,采用所述用户特定的预设发音图谱对所述待处理的发音序列进行纠正处理。
8.一种语音识别装置,其特征在于,包括:
语音识别单元,用于采用预设的语音识别模型对语音数据进行识别,得到第一识别结果;
转化单元,用于将所述第一识别结果转化为待处理的发音序列;
纠正单元,用于采用预设的发音图谱对所述待处理的发音序列进行纠正处理,得到第二识别结果;所述发音图谱包括目标领域的词汇表和对应词汇的发音序列;所述发音图谱采用以下至少一种方式更新:更新所述目标领域的词汇表和对应词汇的发音序列以及根据所述第二识别结果更新对应的发音序列的相似概率;
输出单元,用于输出所述第二识别结果。
9.如权利要求8所述的语音识别装置,其特征在于,所述预设的发音图谱采用如下方式构建:根据所述目标领域的词汇表和对应词汇的发音序列,将每个发音序列作为一个节点;根据不同发音序列的相似性,将不同节点连接构成所述预设的发音图谱。
10.如权利要求9所述的语音识别装置,其特征在于,所述音序列的相似性采用以下至少一种方式获得:统计至少一个特定语种的发音特征、统计至少一个特定地域的发音信息、预设的发音序列内音素的相似比例以及预设的发音序列相似权重。
11.如权利要求8所述的语音识别装置,其特征在于,所述纠正单元,用于:根据发音序列中音素的相似比例以及发音序列的相似权重中的至少一种,确定相应的发音序列。
12.如权利要求8所述的语音识别装置,其特征在于,所述输出单元,还用于:根据输出的第二识别结果触发相应的决策。
13.如权利要求13所述的语音识别装置,其特征在于,所述输出单元,还用于:获取执行决策后的结果信息;根据所述结果信息和预设的预期结果,判断所述决策是否正确;根据判断结果更新所述预设的发音图谱。
14.如权利要求8所述的语音识别装置,其特征在于,所述纠正单元,用于:获取所述第一识别结果和所述语音数据对应的用户身份信息;根据所述用户身份信息,采用所述用户特定的预设发音图谱对所述待处理的发音序列进行纠正处理。
15.一种计算机可读存储介质,计算机可读存储介质为非易失性存储介质或非瞬态存储介质,其上存储有计算机指令,其特征在于,所述计算机指令运行时执行权利要求1至7中任一项所述的语音识别方法的步骤。
16.一种语音识别装置,包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的计算机指令,其特征在于,所述处理器运行所述计算机指令时执行权利要求1至7任一项所述的语音识别方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910276949.7A CN110021293B (zh) | 2019-04-08 | 2019-04-08 | 语音识别方法及装置、可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910276949.7A CN110021293B (zh) | 2019-04-08 | 2019-04-08 | 语音识别方法及装置、可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110021293A true CN110021293A (zh) | 2019-07-16 |
CN110021293B CN110021293B (zh) | 2022-01-28 |
Family
ID=67190746
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910276949.7A Active CN110021293B (zh) | 2019-04-08 | 2019-04-08 | 语音识别方法及装置、可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110021293B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110415679A (zh) * | 2019-07-25 | 2019-11-05 | 北京百度网讯科技有限公司 | 语音纠错方法、装置、设备和存储介质 |
CN110570838A (zh) * | 2019-08-02 | 2019-12-13 | 北京葡萄智学科技有限公司 | 语音流处理方法和装置 |
CN111312226A (zh) * | 2020-02-17 | 2020-06-19 | 出门问问信息科技有限公司 | 一种语音识别方法、设备及计算机可读存储介质 |
CN112599118A (zh) * | 2020-12-30 | 2021-04-02 | 科大讯飞股份有限公司 | 语音识别方法、装置、电子设备和存储介质 |
CN112669825A (zh) * | 2020-12-24 | 2021-04-16 | 杭州中科先进技术研究院有限公司 | 一种通过语音合成方法自动训练的语音识别系统及方法 |
WO2021104102A1 (zh) * | 2019-11-25 | 2021-06-03 | 科大讯飞股份有限公司 | 语音识别纠错方法、相关设备及可读存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050049860A1 (en) * | 2003-08-29 | 2005-03-03 | Junqua Jean-Claude | Method and apparatus for improved speech recognition with supplementary information |
CN107451119A (zh) * | 2017-07-26 | 2017-12-08 | 上海智臻智能网络科技股份有限公司 | 基于语音交互的语义识别方法及装置、存储介质、计算机设备 |
CN107909995A (zh) * | 2017-11-16 | 2018-04-13 | 北京小米移动软件有限公司 | 语音交互方法和装置 |
CN107977356A (zh) * | 2017-11-21 | 2018-05-01 | 新疆科大讯飞信息科技有限责任公司 | 识别文本纠错方法及装置 |
CN107993653A (zh) * | 2017-11-30 | 2018-05-04 | 南京云游智能科技有限公司 | 语音识别设备的错误发音自动纠正更新方法和更新系统 |
CN108682419A (zh) * | 2018-03-30 | 2018-10-19 | 京东方科技集团股份有限公司 | 语音控制方法及设备、计算机可读存储介质及设备 |
CN109065054A (zh) * | 2018-08-31 | 2018-12-21 | 出门问问信息科技有限公司 | 语音识别纠错方法、装置、电子设备及可读存储介质 |
-
2019
- 2019-04-08 CN CN201910276949.7A patent/CN110021293B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050049860A1 (en) * | 2003-08-29 | 2005-03-03 | Junqua Jean-Claude | Method and apparatus for improved speech recognition with supplementary information |
CN107451119A (zh) * | 2017-07-26 | 2017-12-08 | 上海智臻智能网络科技股份有限公司 | 基于语音交互的语义识别方法及装置、存储介质、计算机设备 |
CN107909995A (zh) * | 2017-11-16 | 2018-04-13 | 北京小米移动软件有限公司 | 语音交互方法和装置 |
CN107977356A (zh) * | 2017-11-21 | 2018-05-01 | 新疆科大讯飞信息科技有限责任公司 | 识别文本纠错方法及装置 |
CN107993653A (zh) * | 2017-11-30 | 2018-05-04 | 南京云游智能科技有限公司 | 语音识别设备的错误发音自动纠正更新方法和更新系统 |
CN108682419A (zh) * | 2018-03-30 | 2018-10-19 | 京东方科技集团股份有限公司 | 语音控制方法及设备、计算机可读存储介质及设备 |
CN109065054A (zh) * | 2018-08-31 | 2018-12-21 | 出门问问信息科技有限公司 | 语音识别纠错方法、装置、电子设备及可读存储介质 |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110415679A (zh) * | 2019-07-25 | 2019-11-05 | 北京百度网讯科技有限公司 | 语音纠错方法、装置、设备和存储介质 |
CN110415679B (zh) * | 2019-07-25 | 2021-12-17 | 北京百度网讯科技有限公司 | 语音纠错方法、装置、设备和存储介质 |
US11328708B2 (en) | 2019-07-25 | 2022-05-10 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Speech error-correction method, device and storage medium |
CN110570838A (zh) * | 2019-08-02 | 2019-12-13 | 北京葡萄智学科技有限公司 | 语音流处理方法和装置 |
CN110570838B (zh) * | 2019-08-02 | 2022-06-07 | 北京葡萄智学科技有限公司 | 语音流处理方法和装置 |
WO2021104102A1 (zh) * | 2019-11-25 | 2021-06-03 | 科大讯飞股份有限公司 | 语音识别纠错方法、相关设备及可读存储介质 |
CN111312226A (zh) * | 2020-02-17 | 2020-06-19 | 出门问问信息科技有限公司 | 一种语音识别方法、设备及计算机可读存储介质 |
CN112669825A (zh) * | 2020-12-24 | 2021-04-16 | 杭州中科先进技术研究院有限公司 | 一种通过语音合成方法自动训练的语音识别系统及方法 |
CN112599118A (zh) * | 2020-12-30 | 2021-04-02 | 科大讯飞股份有限公司 | 语音识别方法、装置、电子设备和存储介质 |
CN112599118B (zh) * | 2020-12-30 | 2024-02-13 | 中国科学技术大学 | 语音识别方法、装置、电子设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN110021293B (zh) | 2022-01-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7464621B2 (ja) | 音声合成方法、デバイス、およびコンピュータ可読ストレージ媒体 | |
CN110021293A (zh) | 语音识别方法及装置、可读存储介质 | |
CN106297800B (zh) | 一种自适应的语音识别的方法和设备 | |
KR102447513B1 (ko) | 점증적 대화지식 자가학습 기반 대화장치 및 그 방법 | |
US10037758B2 (en) | Device and method for understanding user intent | |
US8818813B2 (en) | Methods and system for grammar fitness evaluation as speech recognition error predictor | |
US6839667B2 (en) | Method of speech recognition by presenting N-best word candidates | |
US6910012B2 (en) | Method and system for speech recognition using phonetically similar word alternatives | |
CN110675855B (zh) | 一种语音识别方法、电子设备及计算机可读存储介质 | |
US8019602B2 (en) | Automatic speech recognition learning using user corrections | |
US7562014B1 (en) | Active learning process for spoken dialog systems | |
CN111177324B (zh) | 基于语音识别结果进行意图分类的方法和装置 | |
US20070219798A1 (en) | Training system for a speech recognition application | |
CN110797010A (zh) | 基于人工智能的问答评分方法、装置、设备及存储介质 | |
CN106935239A (zh) | 一种发音词典的构建方法及装置 | |
KR102199246B1 (ko) | 신뢰도 측점 점수를 고려한 음향 모델 학습 방법 및 장치 | |
CN112397056B (zh) | 语音评测方法及计算机存储介质 | |
US6963834B2 (en) | Method of speech recognition using empirically determined word candidates | |
CN111554276A (zh) | 语音识别方法、装置、设备及计算机可读存储介质 | |
CN115455946A (zh) | 语音识别纠错方法、装置、电子设备和存储介质 | |
US11615787B2 (en) | Dialogue system and method of controlling the same | |
López-Cózar et al. | Combining language models in the input interface of a spoken dialogue system | |
CN110809796B (zh) | 具有解耦唤醒短语的语音识别系统和方法 | |
CN114299930A (zh) | 端到端语音识别模型处理方法、语音识别方法及相关装置 | |
CN115394288B (zh) | 民航多语种无线电陆空通话的语种识别方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |