CN110176237A - 一种语音识别方法及装置 - Google Patents
一种语音识别方法及装置 Download PDFInfo
- Publication number
- CN110176237A CN110176237A CN201910616781.XA CN201910616781A CN110176237A CN 110176237 A CN110176237 A CN 110176237A CN 201910616781 A CN201910616781 A CN 201910616781A CN 110176237 A CN110176237 A CN 110176237A
- Authority
- CN
- China
- Prior art keywords
- word
- identified
- speech recognition
- determining
- pronunciation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 47
- 238000013507 mapping Methods 0.000 claims abstract description 57
- 238000011109 contamination Methods 0.000 claims abstract description 9
- 230000004044 response Effects 0.000 claims description 9
- 235000013399 edible fruits Nutrition 0.000 claims description 3
- 238000001228 spectrum Methods 0.000 claims description 2
- 241000208340 Araliaceae Species 0.000 claims 1
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 claims 1
- 235000003140 Panax quinquefolius Nutrition 0.000 claims 1
- 235000008434 ginseng Nutrition 0.000 claims 1
- 230000008569 process Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 238000006243 chemical reaction Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 230000009471 action Effects 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 4
- 238000004590 computer program Methods 0.000 description 3
- 238000012937 correction Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 241001672694 Citrus reticulata Species 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/24—Speech recognition using non-acoustical features
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
Abstract
本申请提供一种语音识别方法及装置,其中所述语音识别方法包括:接收待识别语音信息;根据所述待识别语音信息获取第一语音识别结果;根据所述第一语音识别结果中每个待识别词的读音在预设的知识图谱中确定每个待识别词对应的确定词或者候选词,其中,待识别词对应的确定词为根据读音确定的单一的实体或关系,待识别词对应的候选词为根据读音确定的非单一的实体或关系;计算每个待识别词对应的候选词与所述确定词在所述知识图谱中的链接路径上的实体和关系的数量,选择数量最小的待识别词对应的候选词为所述待识别词的优选词;将所述确定词和所述优选词的组合确定为第二语音识别结果,并输出所述第二语音识别结果。
Description
技术领域
本申请涉及互联网技术领域,特别涉及一种语音识别方法及装置、计算设备、计算机可读存储介质和芯片。
背景技术
近年来语音识别技术发展迅速,其应用领域不断扩大,各种各样的语音识别产品出现在市场上,通过使用语音识别转换工具将语音识别转化为文字输出。
但是,实际的用户类型却是多种多样的,许多人的发音与标准发音相差甚远,所以目前在使用语音识别转换工具将语音识别转换成文字时,由于一些多音字问题的原因和识别库数据稀疏的问题,语音识别转换工具不能准确地识别这部分有问题的语音数据,并且在识别语音信息后没有具备一定的纠错能力,导致通过语音识别转换工具转换生成的文字与正确的文本内容存在不一致的情况,实际应用效果差。
那么如何能将用户输入的语音准确的转换成文字就成为了目前亟待解决的问题。
发明内容
有鉴于此,本申请实施例提供了一种语音识别方法及装置、计算设备、计算机可读存储介质和芯片,以解决现有技术中存在的技术缺陷。
根据本申请实施例的第一方面,提供了一种语音识别方法,包括:
接收待识别语音信息;
根据所述待识别语音信息获取第一语音识别结果;
根据所述第一语音识别结果中每个待识别词的读音在预设的知识图谱中确定每个待识别词对应的确定词或者候选词,其中,待识别词对应的确定词为根据读音确定的单一的实体或关系,待识别词对应的候选词为根据读音确定的非单一的实体或关系;
计算每个待识别词对应的候选词与所述确定词在所述知识图谱中的链接路径上的实体和关系的数量,选择数量最小的待识别词对应的候选词为所述待识别词的优选词;
将所述确定词和所述优选词的组合确定为第二语音识别结果,并输出所述第二语音识别结果。
根据本申请实施例的第二方面,提供了一种语音识别装置,包括:
接收模块,被配置为接收待识别语音信息;
获取模块,被配置为根据所述待识别语音信息获取第一语音识别结果;
确定模块,被配置为根据所述第一语音识别结果中每个待识别词的读音在预设的知识图谱中确定每个待识别词对应的确定词或者候选词,其中,待识别词对应的确定词为根据读音确定的单一的实体或关系,待识别词对应的候选词为根据读音确定的非单一的实体或关系;
计算选择模块,被配置为计算每个待识别词对应的候选词与所述确定词在所述知识图谱中的链接路径上的实体和关系的数量,选择数量最小的待识别词对应的候选词为所述待识别词的优选词;
确定输出模块,被配置为将所述确定词和所述优选词的组合确定为第二语音识别结果,并输出所述第二语音识别结果。
根据本申请实施例的第三方面,提供了一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,所述处理器执行所述指令时实现所述语音识别方法的步骤。
根据本申请实施例的第四方面,提供了一种计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时实现所述语音识别方法的步骤。
根据本申请实施例的第五方面,提供了一种芯片,其存储有计算机指令,该指令被芯片执行时实现所述语音识别方法的步骤。
本申请实施例中,通过接收待识别语音信息;根据所述待识别语音信息获取第一语音识别结果;根据所述第一语音识别结果中每个待识别词的读音在预设的知识图谱中确定每个待识别词对应的确定词或者候选词;计算每个待识别词对应的候选词与所述确定词在所述知识图谱中的链接路径上的实体和关系的数量,选择数量最小的待识别词对应的候选词为所述待识别词的优选词;将所述确定词和所述优选词的组合确定为第二语音识别结果,并输出所述第二语音识别结果,结合知识图谱的应用,利用知识图谱中实体和关系相互关联的原理,优化语音识别过程,解决了语音识别过程中由于数据稀疏性和有相同读音词导致的预测结果不准确的问题,并对初始识别结果提供了纠错的功能,提高了语音信息识别的准确率,极大的提升了用户体验。
附图说明
图1是本申请实施例提供的计算设备的结构框图;
图2是本申请实施例提供的语音识别方法的流程图;
图3是本申请实施例提供的获取第一语音识别结果方法的流程图;
图4是本申请实施例提供的语音信息在知识图谱中对应实体或关系的示意图;
图5是本申请实施例提供的根据待识别词的读音确定待识别词对应确定词或者候选词方法的流程图;
图6是本申请实施例提供的语音识别装置的结构示意图。
具体实施方式
在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本申请内涵的情况下做类似推广,因此本申请不受下面公开的具体实施的限制。
在本申请一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请一个或多个实施例。在本申请一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本申请一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本申请一个或多个实施例中可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本申请一个或多个实施例范围的情况下,第一也可以被称为第二,类似地,第二也可以被称为第一。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
首先,对本发明一个或多个实施例涉及的名词术语进行解释。
知识图谱又称为科学知识图谱,被称为知识域可视化或知识领域映射地图,是显示知识发展进程与结构关系的一系列各种不同的图形,知识图谱旨在利用可视化的图谱形象地描述客观世界中存在的概念、实体、事件及其相互之间的关系,知识图谱也可以被看做是一张巨大的图,图中的节点表示实体或概念,而图中的边则由属性或关系构成。现在的知识图谱已被用来泛指各种大规模的知识库。
在本申请中,提供了一种语音识别方法及装置、计算设备、计算机可读存储介质和芯片,在下面的实施例中逐一进行详细说明。
图1示出了根据本申请一实施例的计算设备100的结构框图。该计算设备100的部件包括但不限于存储器110和处理器120。处理器120与存储器110通过总线130相连接,数据库150用于保存数据。
计算设备100还包括接入设备140,接入设备140使得计算设备100能够经由一个或多个网络160通信。这些网络的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。接入设备140可以包括有线或无线的任何类型的网络接口(例如,网络接口卡(NIC))中的一个或多个,诸如IEEE802.11无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口,等等。
在本申请的一个实施例中,计算设备100的上述部件以及图1中未示出的其他部件也可以彼此相连接,例如通过总线。应当理解,图1所示的计算设备结构框图仅仅是出于示例的目的,而不是对本申请范围的限制。本领域技术人员可以根据需要,增添或替换其他部件。
计算设备100可以是任何类型的静止或移动计算设备,包括移动计算机或移动计算设备(例如,平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如,智能手机)、可佩戴的计算设备(例如,智能手表、智能眼镜等)或其他类型的移动设备,或者诸如台式计算机或PC的静止计算设备。计算设备100还可以是移动式或静止式的服务器。
其中,处理器120可以执行图2所示语音识别方法中的步骤。图2示出了根据本申请一实施例的语音识别方法的流程图,包括步骤202至步骤210。
步骤202:接收待识别语音信息。
随着互联网技术的日益发展和语音识别技术的日益强大,语音识别技术已经走入了人们的生活,被应用于越来越多的场景中,其中,语音识别的一个重要应用就是获取并解析用户说话的内容,将说话的内容转换成文字信息,语音信息就是用户通过语言表达出来,通过相关设备能够识别并进行处理的信息,可以是中文,也可以是英文、德文、韩文等。
在本申请提供的实施例中,以对中文进行语音识别为例,待识别语音信息可以通过智能手机、智能穿戴设备、平板电脑、笔记本电脑等具有录音功能的设备实时采集,也可以是提前采集好的录音信息,设备接收等待被识别的语音信息,例如通过智能手机实时采集用户的语音信息为:“baijiaxinggongsideqiyefarenshiwangwu”,为了便于对语音信息的表述,用拼音标识采集的语音信息。
步骤204:根据所述待识别语音信息获取第一语音识别结果。
第一语音识别结果是根据语音信息进行语音识别后获取的初步语音识别结果,第一语音识别结果可能会存在与用户表达内容有出入的问题,还需要对第一语音识别结果进行进一步的分析处理。
对接收的待识别语音信息的语音波形进行特征分析,根据声学模型和语言模型对所述待识别语音信息进行分析打分,将经过语言模型打分最高的文字序列确认为初始的第一语音识别结果。
在本申请提供的实施例中,根据步骤202获取的语音信息获取第一语音识别结果为“百家姓公司的企业法人是王武”。
可选的,参见图3,步骤204包括下述步骤302至步骤308:
步骤302:将所述待识别语音信息输入到预先训练好的声学模型中,所述声学模型被训练于根据输入的语音信息获取发音序列。
声学模型是语音识别系统中最为重要的部分之一,多采用隐马尔科夫模型进行建模,预先将语音信息和语音信息对应的发音序列输入到声学模型中,声学模型将语音信息和语音信息对应的发音序列相关联,从而被训练为根据输入的语音信息获取发音序列,在语音识别输出文字时可以按照发音序列的顺序输出文字,将待识别语音信息输入到预先训练好的声学模型中。
步骤304:所述声学模型响应于输入的所述待识别语音信息生成与所述待识别语音信息对应的发音序列。
在本申请的实施例中,声学模型接收输入的待识别语音信息为“baijiaxinggongsideqiyefarenshiwangwu”,根据输入的待识别语音信息获取对应的发音序列。
步骤306:将所述发音序列输入到预先训练好的语言模型中,所述语言模型被训练于根据输入的发音序列获取识别结果。
语言模型是语音识别系统中最为重要的部分之一,被训练于根据输入的发音序列获取发音序列对应的文字信息,预先将发音序列和发音序列对应的文字信息输入到语言模型中,语言模型将发音序列和发音序列对应的文字信息相关联,从而被训练成根据输入的发音序列获取对应的文字信息。
步骤308:所述语言模型响应于输入的所述发音序列生成与所述发音序列对应的第一语音识别结果。
在本申请的实施例中,语言模型接收输入的发音序列,根据输入的发音序列生成多组候选的文字序列,在多组候选的文字序列中选出与所述发音序列匹配概率最大的文字序列作为第一语音识别结果,获取的第一语音识别结果为“百家姓公司的企业法人是王武”。
步骤206:根据所述第一语音识别结果中每个待识别词的读音在预设的知识图谱中确定每个待识别词对应的确定词或者候选词。
对第一语音识别结果进行分词操作,分词的方法可以有字符匹配法、理解法或者统计法等,分词操作目前有成熟的技术可以实现,在分词完成后,第一语音识别结果中每个词都需要被识别判定是否是用户想要获取的词,因此第一语音识别结果中的每个词都为待识别词,在获取待识别词的同时获取每个待识别词的读音。
预设的知识图谱可以是开放领域知识图谱,也可以是专业领域知识图谱。开放领域知识图谱面向的是通用领域,构建常识性的知识为主,包括结构化的百科知识,它强调的更多的是一种知识的广度,对知识的深度方面不做更多的要求,它的使用者一般是普通的用户。专业领域知识图谱面向一个特定的行业领域,如金融领域、军事领域、科技领域等,它的数据来源是来源于特定行业的知识,是基于行业的数据来构建,要有一定的行业的深度,能够解决行业人员较为专业的问题,它的使用者一般是这个行业内的从业人员。
实际应用中,可以预先提供或者配置多种类型的知识图谱,在多种类型的知识图谱中选取优选知识图谱作为本次处理的预设知识图谱,在预设知识图谱中确定第一语音识别结果中每个待识别词对应的确定词或者候选词。
其中,在多种类型的知识图谱中选取优选知识图谱的方法有很多种,例如:可以将第一语音识别结果中的待识别词分别与每种类型的知识图谱对应,选择待识别词对应的确定词多的知识图谱为优选知识图谱;还可以根据第一语音识别结果中的待识别词的语义,选择与待识别词的语义最接近的专业领域的知识图谱作为优选知识图谱。在本申请中不对选取优选知识图谱的方法做具体限定。
根据第一语音识别结果中每个待识别词的读音在预设的知识图谱中确定每个待识别词对应的确定词或者候选词,其中,待识别词对应的确定词为根据读音确定的单一的实体或关系,待识别词对应的候选词为根据读音确定的非单一的实体或关系。
在本申请的实施例中,参见图4,图4是本申请实施例提供的根据语音信息在知识图谱中对应实体或关系的示意图,开放领域知识图谱中,根据第一语音识别结果中每个待识别词的参考信息确定每个待识别词的参考信息对应的实体或者关系,第一语音识别结果中的待识别词分别为“百家姓公司”、“的”、“企业法人”、“是”、“王武”,每个识别词对应的读音为“baijiaxinggongsi”、“de”、“qiyefaren”、“shi”、“wangwu”,将每个待识别词根据读音在开放领域的知识图谱中查找对应的实体或关系,确定“百家姓公司”是“baijiaxinggongsi”对应的确定词、“的”是“de”对应的确定词、“企业法人”是“qiyefaren”对应的确定词、“是”是“shi”对应的确定词,“王武”和“王五”是“wangwu”对应的候选词。
可选的,参见图5,步骤206包括下述步骤502至步骤508:
步骤502:根据所述第一语音识别结果中每个待识别词的读音确定所述第一语音识别结果中每个待识别词的参考信息。
可选的,获取声调参数,所述声调参数用以标识在确定待识别词的参考信息时是否参考声调信息;若是,将待识别词的拼音和声调作为待识别词的参考信息;若否,将待识别词的拼音作为待识别词的参考信息。
声调也叫字调,指的是音节的高低升降,普通话有四个声调,分别为阴平,阳平,上声,去声。声调参数预先配置在设备中,用以标识在确定待识别词的参考信息时是否参考声调信息,在根据第一语音识别结果中每个待识别词的读音确定所述第一语音识别结果中每个待识别词的参考信息时,获取声调参数,由于用户每个人的口音和说话方式的不同,同一个词在不同人的口中说出来的读音可能会有很大的差别。
声调参数的合理利用,可以在语音识别时有更灵活便捷的利用,在将声调信息作为参考放入到待识别词的参考信息中时,可以更加准确的获取每个待识别词在知识图谱中对应的实体或关系,当声调信息不作为参考放入到待识别词的参考信息中时,可以帮助普通话不是很好的用户更加方便的使用语音识别功能。
在本申请的实施例中,将声调信息加入到待识别词的参考信息中。
步骤504:根据所述第一语音识别结果中每个待识别词的参考信息在预设的知识图谱中确定与每个待识别词的参考信息对应的实体或关系。
参见图4,开放领域知识图谱中,根据第一语音识别结果中每个待识别词的参考信息确定每个待识别词的参考信息对应的实体或者关系,“baijiaxinggongsi”对应的是实体“百家姓公司”,“qiyefaren”对应的关系“企业法人”,“wangwu”对应的实体有两个,分别是“王武”和“王五”。“de”和“shi”没有对应的实体或者关系可以直接确定。
步骤506:将根据参考信息确定的单一的实体或关系确定为待识别词对应的确定词。
根据参考信息确定的单一的实体或关系指的是根据参考信息即待识别词的读音,在知识图谱中可以对应找到唯一的实体或者关系,将对应找到的实体或关系作为待识别词的确定词。
在本申请的实施例中,根据“baijiaxinggongsi”可以确定单一的实体为“百家姓公司”,根据“qiyefaren”可以确定单一的关系为“企业法人”,因此“baijiaxinggongsi”对应的确定词为“百家姓公司”,“qiyefaren”的确定词为“企业法人”。
步骤508:将根据参考信息确定的非单一的实体或关系确定为待识别词对应的候选词。
根据参考信息确定的非单一的实体或关系指的是根据参考信息即待识别词的读音,在知识图谱中可以对应找到至少两个实体或者关系,将对应找到的实体或关系作为待识别词的候选词。
在本申请的实施例中,根据“wangwu”可以确定两个实体,分别为“王武”和“王五”,因此,“wangwu”的候选词为“王武”和“王五”。
步骤208:计算每个待识别词对应的候选词与所述确定词在所述知识图谱中的链接路径上的实体和关系的数量,选择数量最小的待识别词对应的候选词为所述待识别词的优选词。
需要在每个待识别词对应的候选词中选择一个与用户表达意思最符合的词作为优选词,根据每个待识别词对应的候选词与语音信息中已经确定的词的关系来选择优选词,候选词与确定词在链接路径上的实体和关系的数量越少,说明两者的关系越近,那么该候选词为优选词的概率就越大,因此需要选择候选词与确定词在链接路径上实体和关系数量最小的候选词作为待识别词的优选词。
可选的,计算每个待识别词对应的候选词与所述确定词在所述知识图谱中的最短链接路径上的实体和关系的数量,其中,待识别词对应的候选词与确定词直接相连时,数量记为0,待识别词对应的候选词与确定词无连接路径时,数量记为无穷大。
在知识图谱中,实体与实体之间的关系错综复杂,在任意两个实体之间可能会存在很多条链接路径,为了便于计算两个实体之间的最近联系,应计算每个识别词对应的候选词与所述确定词在知识图谱中的最短链接路径上的实体和关系的数量。
当待识别词对应的候选词与确定词直接相连时,链接路径上没有其他的实体或关系,则将数量记为0,当待识别词对应的候选词与确定词没有任何路径相连时,说明两者之间没有任何关系,则将数量记为无穷大。
在本申请的实施例中,参见图4可知,候选词“王五”与确定词“百家姓公司”和“企业法人”直接相连,所以候选词“王五”的数量记为0,在候选词“王武”与确定词“百家姓公司”和“企业法人”的链接路径上,“王武”与“张三”是朋友关系,“张三”“王五”是亲戚关系,由此可以得知“王武”与确定词“百家姓公司”和“企业法人”之间还有2个实体“张三”和“王五”,2个关系“朋友”和“亲戚”,所以将候选词“王武”的数量记为4,在候选词选“王五”和“王武”中择数量最小的候选词“王五”作为待识别词“wangwu”的优选词。
步骤210:将所述确定词和所述优选词的组合确定为第二语音识别结果,并输出所述第二语音识别结果。
第二语音识别结果即为经过优化后的输出结果,将确定词和从候选词中选出的优选词组合确定为第二语音识别结果,并输出第二语音识别结果作为语音识别的最终输出结果。
可选的,将所述确定词和所述优选词按照所述发音序列组合确定为第二语音识别结果。
在本申请的实施例中,确定词为“百家姓公司”、“的”、“企业法人”和“是”,优选词为“王五”,按照步骤306中获取的“baijiaxinggongsideqiyefarenshiwangwu”发音序列,确定词和优选词组合为“百家姓公司的企业法人是王五”,将其作为第二语音识别结果并输出。
以上所述语音识别步骤,结合知识图谱的应用,利用知识图谱中实体和关系相互关联的原理,优化语音识别过程,解决了语音识别过程中由于数据稀疏性和有相同读音词导致的预测结果不准确的问题,加入声调参数,可以更好的适用于各类人群使用,对初始识别结果提供了纠错的功能,使通过语音识别得到的文字更贴合用户实际想要表达的意思,提高了语音信息识别的准确率,节省了用户的时间,提升了用户体验。
与上述方法实施例相对应,本申请还提供了语音识别装置实施例,图6示出了本申请一个实施例的语音识别装置的结构示意图。如图6所示,该装置600包括:
接收模块602,被配置为接收待识别语音信息。
获取模块604,被配置为根据所述待识别语音信息获取第一语音识别结果;
所述获取模块604进一步被配置为将所述待识别语音信息输入到预先训练好的声学模型中,所述声学模型被训练于根据输入的语音信息获取发音序列;所述声学模型响应于输入的所述待识别语音信息生成与所述待识别语音信息对应的发音序列;将所述发音序列输入到预先训练好的语言模型中,所述语言模型被训练于根据输入的发音序列获取识别结果;所述语言模型响应于输入的所述发音序列生成与所述发音序列对应的第一语音识别结果。
确定模块606,被配置为根据所述第一语音识别结果中每个待识别词的读音在预设的知识图谱中确定每个待识别词对应的确定词或者候选词,其中,待识别词对应的确定词为根据读音确定的单一的实体或关系,待识别词对应的候选词为根据读音确定的非单一的实体或关系;
所述确定模块606进一步被配置为根据所述第一语音识别结果中每个待识别词的读音确定所述第一语音识别结果中每个待识别词的参考信息;根据所述第一语音识别结果中每个待识别词的参考信息在预设的知识图谱中确定与每个待识别词的参考信息对应的实体或关系;将根据参考信息确定的单一的实体或关系确定为待识别词对应的确定词;将根据参考信息确定的非单一的实体或关系确定为待识别词对应的候选词;
所述确定模块606进一步被配置为获取声调参数,所述声调参数用以标识在确定待识别词的参考信息时是否参考声调信息;若是,将待识别词的拼音和声调作为待识别词的参考信息;若否,将待识别词的拼音作为待识别词的参考信息。
计算选择模块608,被配置为计算每个待识别词对应的候选词与所述确定词在所述知识图谱中的链接路径上的实体和关系的数量,选择数量最小的待识别词对应的候选词为所述待识别词的优选词;
所述计算选择模块608进一步被配置为计算每个待识别词对应的候选词与所述确定词在所述知识图谱中的最短链接路径上的实体和关系的数量,其中,待识别词对应的候选词与确定词直接相连时,数量记为0,待识别词对应的候选词与确定词无连接路径时,数量记为无穷大。
确定输出模块610,被配置为将所述确定词和所述优选词的组合确定为第二语音识别结果,并输出所述第二语音识别结果;
所述确定输出模块610进一步被配置为将所述确定词和所述优选词按照所述发音序列组合确定为第二语音识别结果。
本申请提供的语音识别装置,运行上述语音识别方法,利用知识图谱中实体和关系相互关联的原理,优化语音识别过程,解决了语音识别过程中由于数据稀疏性和有相同读音词导致的预测结果不准确的问题,并对初始识别结果提供了纠错的功能,提高了语音信息识别的准确率,极大的提升了用户体验。
本申请一实施例还提供一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,所述处理器执行所述指令时实现如前所述的语音识别方法的步骤。
本申请一实施例还提供一种计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时实现如前所述语音识别方法的步骤。
上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是,该存储介质的技术方案与上述的语音识别方法的技术方案属于同一构思,存储介质的技术方案未详细描述的细节内容,均可以参见上述语音识别方法的技术方案的描述。
本申请实施例还提供一种芯片,其存储有计算机指令,该指令被芯片执行时实现如前所述语音识别方法的步骤。
上述对本申请特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
所述计算机指令包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本申请所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。
以上公开的本申请优选实施例只是用于帮助阐述本申请。可选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本申请的内容,可作很多的修改和变化。本申请选取并具体描述这些实施例,是为了更好地解释本申请的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本申请。本申请仅受权利要求书及其全部范围和等效物的限制。
Claims (15)
1.一种语音识别方法,其特征在于,包括:
接收待识别语音信息;
根据所述待识别语音信息获取第一语音识别结果;
根据所述第一语音识别结果中每个待识别词的读音在预设的知识图谱中确定每个待识别词对应的确定词或者候选词,其中,待识别词对应的确定词为根据读音确定的单一的实体或关系,待识别词对应的候选词为根据读音确定的非单一的实体或关系;
计算每个待识别词对应的候选词与所述确定词在所述知识图谱中的链接路径上的实体和关系的数量,选择数量最小的待识别词对应的候选词为所述待识别词的优选词;
将所述确定词和所述优选词的组合确定为第二语音识别结果,并输出所述第二语音识别结果。
2.如权利要求1所述的语音识别方法,其特征在于,
根据所述待识别语音信息获取第一语音识别结果包括:
将所述待识别语音信息输入到预先训练好的声学模型中,所述声学模型被训练于根据输入的语音信息获取发音序列;
所述声学模型响应于输入的所述待识别语音信息生成与所述待识别语音信息对应的发音序列;
将所述发音序列输入到预先训练好的语言模型中,所述语言模型被训练于根据输入的发音序列获取识别结果;
所述语言模型响应于输入的所述发音序列生成与所述发音序列对应的第一语音识别结果。
3.如权利要求1所述的语音识别方法,其特征在于,
根据所述第一语音识别结果中每个待识别词的读音在预设的知识图谱中确定每个待识别词对应的确定词或者候选词包括:
根据所述第一语音识别结果中每个待识别词的读音确定所述第一语音识别结果中每个待识别词的参考信息;
根据所述第一语音识别结果中每个待识别词的参考信息在预设的知识图谱中确定与每个待识别词的参考信息对应的实体或关系;
将根据参考信息确定的单一的实体或关系确定为待识别词对应的确定词;
将根据参考信息确定的非单一的实体或关系确定为待识别词对应的候选词。
4.如权利要求3所述的语音识别方法,其特征在于,
根据所述第一语音识别结果中每个待识别词的读音确定所述第一语音识别结果中每个待识别词的参考信息包括:
获取声调参数,所述声调参数用以标识在确定待识别词的参考信息时是否参考声调信息;
若是,将待识别词的拼音和声调作为待识别词的参考信息;
若否,将待识别词的拼音作为待识别词的参考信息。
5.如权利要求1所述的语音识别方法,其特征在于,
计算每个待识别词对应的候选词与所述确定词在所述知识图谱中的链接路径上的实体和关系的数量包括:
计算每个待识别词对应的候选词与所述确定词在所述知识图谱中的最短链接路径上的实体和关系的数量,其中,待识别词对应的候选词与确定词直接相连时,数量记为0,待识别词对应的候选词与确定词无连接路径时,数量记为无穷大。
6.如权利要求2所述的语音识别方法,其特征在于,
将所述确定词和所述优选词的组合确定为第二语音识别结果包括:
将所述确定词和所述优选词按照所述发音序列组合确定为第二语音识别结果。
7.一种语音识别装置,其特征在于,包括:
接收模块,被配置为接收待识别语音信息;
获取模块,被配置为根据所述待识别语音信息获取第一语音识别结果;
确定模块,被配置为根据所述第一语音识别结果中每个待识别词的读音在预设的知识图谱中确定每个待识别词对应的确定词或者候选词,其中,待识别词对应的确定词为根据读音确定的单一的实体或关系,待识别词对应的候选词为根据读音确定的非单一的实体或关系;
计算选择模块,被配置为计算每个待识别词对应的候选词与所述确定词在所述知识图谱中的链接路径上的实体和关系的数量,选择数量最小的待识别词对应的候选词为所述待识别词的优选词;
确定输出模块,被配置为将所述确定词和所述优选词的组合确定为第二语音识别结果,并输出所述第二语音识别结果。
8.如权利要求7所述的语音识别装置,其特征在于,
所述获取模块,进一步被配置为将所述待识别语音信息输入到预先训练好的声学模型中,所述声学模型被训练于根据输入的语音信息获取发音序列;所述声学模型响应于输入的所述待识别语音信息生成与所述待识别语音信息对应的发音序列;将所述发音序列输入到预先训练好的语言模型中,所述语言模型被训练于根据输入的发音序列获取识别结果;所述语言模型响应于输入的所述发音序列生成与所述发音序列对应的第一语音识别结果。
9.如权利要求7所述的语音识别装置,其特征在于,
所述确定模块,进一步被配置为根据所述第一语音识别结果中每个待识别词的读音确定所述第一语音识别结果中每个待识别词的参考信息;根据所述第一语音识别结果中每个待识别词的参考信息在预设的知识图谱中确定与每个待识别词的参考信息对应的实体或关系;将根据参考信息确定的单一的实体或关系确定为待识别词对应的确定词;将根据参考信息确定的非单一的实体或关系确定为待识别词对应的候选词。
10.如权利要求9所述的语音识别装置,其特征在于,
所述确定模块,进一步被配置为获取声调参数,所述声调参数用以标识在确定待识别词的参考信息时是否参考声调信息;若是,将待识别词的拼音和声调作为待识别词的参考信息;若否,将待识别词的拼音作为待识别词的参考信息。
11.如权利要求7所述的语音识别装置,其特征在于,
所述计算选择模块,进一步被配置为计算每个待识别词对应的候选词与所述确定词在所述知识图谱中的最短链接路径上的实体和关系的数量,其中,待识别词对应的候选词与确定词直接相连时,数量记为0,待识别词对应的候选词与确定词无连接路径时,数量记为无穷大。
12.如权利要求8所述的语音识别装置,其特征在于,
所述确定输出模块,进一步被配置为将所述确定词和所述优选词按照所述发音序列组合确定为第二语音识别结果。
13.一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,其特征在于,所述处理器执行所述指令时实现权利要求1-6任意一项所述方法的步骤。
14.一种计算机可读存储介质,其存储有计算机指令,其特征在于,该指令被处理器执行时实现权利要求1-6任意一项所述方法的步骤。
15.一种芯片,其存储有计算机指令,其特征在于,该指令被芯片执行时实现权利要求1-6任意一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910616781.XA CN110176237A (zh) | 2019-07-09 | 2019-07-09 | 一种语音识别方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910616781.XA CN110176237A (zh) | 2019-07-09 | 2019-07-09 | 一种语音识别方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110176237A true CN110176237A (zh) | 2019-08-27 |
Family
ID=67700005
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910616781.XA Pending CN110176237A (zh) | 2019-07-09 | 2019-07-09 | 一种语音识别方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110176237A (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111128183A (zh) * | 2019-12-19 | 2020-05-08 | 北京搜狗科技发展有限公司 | 语音识别方法、装置和介质 |
CN111312226A (zh) * | 2020-02-17 | 2020-06-19 | 出门问问信息科技有限公司 | 一种语音识别方法、设备及计算机可读存储介质 |
CN111462753A (zh) * | 2020-04-03 | 2020-07-28 | 深圳市友杰智新科技有限公司 | 语音识别的方法、装置和计算机设备 |
CN111831832A (zh) * | 2020-07-27 | 2020-10-27 | 北京世纪好未来教育科技有限公司 | 词表构建方法、电子设备及计算机可读介质 |
CN112466289A (zh) * | 2020-12-21 | 2021-03-09 | 北京百度网讯科技有限公司 | 语音指令的识别方法、装置、语音设备和存储介质 |
CN112487798A (zh) * | 2020-12-08 | 2021-03-12 | 上海适享文化传播有限公司 | 基于知识图谱的文本高效精准噪词处理方法 |
CN112528663A (zh) * | 2020-12-18 | 2021-03-19 | 中国南方电网有限责任公司 | 一种电网领域调度场景下的文本纠错方法及系统 |
CN113053367A (zh) * | 2021-04-16 | 2021-06-29 | 北京百度网讯科技有限公司 | 语音识别方法、语音识别的模型训练方法以及装置 |
WO2022143454A1 (zh) * | 2020-12-30 | 2022-07-07 | 维沃移动通信有限公司 | 信息修正方法、装置及电子设备 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103544955A (zh) * | 2012-07-13 | 2014-01-29 | 三星电子株式会社 | 识别语音的方法及其电子装置 |
CN105869629A (zh) * | 2016-03-30 | 2016-08-17 | 乐视控股(北京)有限公司 | 语音识别方法及装置 |
CN106471571A (zh) * | 2014-07-31 | 2017-03-01 | 乐威指南公司 | 用于在有异形词存在的情况下执行asr的系统和方法 |
CN107016994A (zh) * | 2016-01-27 | 2017-08-04 | 阿里巴巴集团控股有限公司 | 语音识别的方法及装置 |
CN107169067A (zh) * | 2017-05-05 | 2017-09-15 | 上海明数数字出版科技有限公司 | 一种利用语音查询汉字的字典检索方法及系统 |
CN107729321A (zh) * | 2017-10-23 | 2018-02-23 | 上海百芝龙网络科技有限公司 | 一种语音识别结果纠错方法 |
CN107741928A (zh) * | 2017-10-13 | 2018-02-27 | 四川长虹电器股份有限公司 | 一种基于领域识别的对语音识别后文本纠错的方法 |
US20190130289A1 (en) * | 2017-10-30 | 2019-05-02 | International Business Machines Corporation | Original idea extraction from written text data |
CN109918485A (zh) * | 2019-01-07 | 2019-06-21 | 口碑(上海)信息技术有限公司 | 语音识别菜品的方法及装置、存储介质、电子装置 |
-
2019
- 2019-07-09 CN CN201910616781.XA patent/CN110176237A/zh active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103544955A (zh) * | 2012-07-13 | 2014-01-29 | 三星电子株式会社 | 识别语音的方法及其电子装置 |
CN106471571A (zh) * | 2014-07-31 | 2017-03-01 | 乐威指南公司 | 用于在有异形词存在的情况下执行asr的系统和方法 |
CN107016994A (zh) * | 2016-01-27 | 2017-08-04 | 阿里巴巴集团控股有限公司 | 语音识别的方法及装置 |
CN105869629A (zh) * | 2016-03-30 | 2016-08-17 | 乐视控股(北京)有限公司 | 语音识别方法及装置 |
CN107169067A (zh) * | 2017-05-05 | 2017-09-15 | 上海明数数字出版科技有限公司 | 一种利用语音查询汉字的字典检索方法及系统 |
CN107741928A (zh) * | 2017-10-13 | 2018-02-27 | 四川长虹电器股份有限公司 | 一种基于领域识别的对语音识别后文本纠错的方法 |
CN107729321A (zh) * | 2017-10-23 | 2018-02-23 | 上海百芝龙网络科技有限公司 | 一种语音识别结果纠错方法 |
US20190130289A1 (en) * | 2017-10-30 | 2019-05-02 | International Business Machines Corporation | Original idea extraction from written text data |
CN109918485A (zh) * | 2019-01-07 | 2019-06-21 | 口碑(上海)信息技术有限公司 | 语音识别菜品的方法及装置、存储介质、电子装置 |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021120690A1 (zh) * | 2019-12-19 | 2021-06-24 | 北京搜狗科技发展有限公司 | 语音识别方法、装置和介质 |
CN111128183A (zh) * | 2019-12-19 | 2020-05-08 | 北京搜狗科技发展有限公司 | 语音识别方法、装置和介质 |
CN111312226A (zh) * | 2020-02-17 | 2020-06-19 | 出门问问信息科技有限公司 | 一种语音识别方法、设备及计算机可读存储介质 |
CN111462753A (zh) * | 2020-04-03 | 2020-07-28 | 深圳市友杰智新科技有限公司 | 语音识别的方法、装置和计算机设备 |
CN111462753B (zh) * | 2020-04-03 | 2023-02-28 | 深圳市友杰智新科技有限公司 | 语音识别的方法、装置和计算机设备 |
CN111831832B (zh) * | 2020-07-27 | 2022-07-01 | 北京世纪好未来教育科技有限公司 | 词表构建方法、电子设备及计算机可读介质 |
CN111831832A (zh) * | 2020-07-27 | 2020-10-27 | 北京世纪好未来教育科技有限公司 | 词表构建方法、电子设备及计算机可读介质 |
CN112487798A (zh) * | 2020-12-08 | 2021-03-12 | 上海适享文化传播有限公司 | 基于知识图谱的文本高效精准噪词处理方法 |
CN112528663A (zh) * | 2020-12-18 | 2021-03-19 | 中国南方电网有限责任公司 | 一种电网领域调度场景下的文本纠错方法及系统 |
CN112528663B (zh) * | 2020-12-18 | 2024-02-20 | 中国南方电网有限责任公司 | 一种电网领域调度场景下的文本纠错方法及系统 |
CN112466289A (zh) * | 2020-12-21 | 2021-03-09 | 北京百度网讯科技有限公司 | 语音指令的识别方法、装置、语音设备和存储介质 |
WO2022143454A1 (zh) * | 2020-12-30 | 2022-07-07 | 维沃移动通信有限公司 | 信息修正方法、装置及电子设备 |
CN113053367A (zh) * | 2021-04-16 | 2021-06-29 | 北京百度网讯科技有限公司 | 语音识别方法、语音识别的模型训练方法以及装置 |
CN113053367B (zh) * | 2021-04-16 | 2023-10-10 | 北京百度网讯科技有限公司 | 语音识别方法、语音识别的模型训练方法以及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110176237A (zh) | 一种语音识别方法及装置 | |
CN109767765A (zh) | 话术匹配方法及装置、存储介质、计算机设备 | |
US20210312930A1 (en) | Computer system, speech recognition method, and program | |
CN110473525B (zh) | 获取语音训练样本的方法和装置 | |
CN107818798A (zh) | 客服服务质量评价方法、装置、设备及存储介质 | |
CN105895103A (zh) | 一种语音识别方法及装置 | |
CN111433847B (zh) | 语音转换的方法及训练方法、智能装置和存储介质 | |
CN107767869A (zh) | 用于提供语音服务的方法和装置 | |
CN107945791B (zh) | 一种基于深度学习目标检测的语音识别方法 | |
US11758047B2 (en) | Systems and methods for smart dialogue communication | |
CN112614478B (zh) | 音频训练数据处理方法、装置、设备以及存储介质 | |
CN108804526A (zh) | 兴趣确定系统、兴趣确定方法及存储介质 | |
CN107733722A (zh) | 用于配置语音服务的方法和装置 | |
CN110297909A (zh) | 一种无标签语料的分类方法及装置 | |
CN111508466A (zh) | 一种文本处理方法、装置、设备及计算机可读存储介质 | |
CN112185363A (zh) | 音频处理方法及装置 | |
CN109686362A (zh) | 语音播报方法、装置和计算机可读存储介质 | |
CN109902313A (zh) | 一种翻译方法及装置、翻译模型的训练方法及装置 | |
CN109119073A (zh) | 基于多源识别的语音识别方法、系统、音箱及存储介质 | |
CN115859128B (zh) | 一种基于档案数据交互相似度的分析方法和系统 | |
CN111401069A (zh) | 会话文本的意图识别方法、意图识别装置及终端 | |
CN109346104A (zh) | 一种基于谱聚类的音频特征降维方法 | |
CN107393538A (zh) | 机器人交互方法及系统 | |
CN112686041A (zh) | 一种拼音标注方法及装置 | |
CN115440198B (zh) | 混合音频信号的转换方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |