CN111462748A - 语音识别处理方法、装置、电子设备及存储介质 - Google Patents
语音识别处理方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN111462748A CN111462748A CN201910060178.8A CN201910060178A CN111462748A CN 111462748 A CN111462748 A CN 111462748A CN 201910060178 A CN201910060178 A CN 201910060178A CN 111462748 A CN111462748 A CN 111462748A
- Authority
- CN
- China
- Prior art keywords
- entry
- corrected
- text information
- words
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 27
- 238000000034 method Methods 0.000 claims abstract description 34
- 238000012986 modification Methods 0.000 claims description 14
- 230000004048 modification Effects 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims description 4
- 241000579895 Chlorostilbon Species 0.000 description 9
- 229910052876 emerald Inorganic materials 0.000 description 9
- 239000010976 emerald Substances 0.000 description 9
- 230000008569 process Effects 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 5
- 230000003993 interaction Effects 0.000 description 4
- 230000009471 action Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000013256 coordination polymer Substances 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 239000005547 deoxyribonucleotide Substances 0.000 description 1
- 125000002637 deoxyribonucleotide group Chemical group 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000011435 rock Substances 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及语音识别技术领域,公开了一种语音识别处理方法、装置、电子设备及存储介质,所述方法包括:对语音信号进行语音识别,得到语音信号对应的文本信息;若文本信息中包含待纠错词条,通过待纠错词条对应的用于表征待纠错词条发音特征的发音单元,在预设的索引库中,查询与待纠错词条匹配的目标词条,索引库中包括发音单元和发音单元对应的实体词;根据目标词条,替换文本信息中的待纠错词条。本发明实施例提供的技术方案,够很好地纠正相似或相同发音的实体词,尤其是针对不常用词和强专业性词等专属词,能够有效地提高语音识别的准确率,提升用户体验。
Description
技术领域
本发明涉及语音识别技术领域,尤其涉及一种语音识别处理方法、装置、电子设备及存储介质。
背景技术
随着人机交互的广泛应用,人们对人机交互的准确度要求越来越高。然而,现有的语音识别系统经常会由于语音数据的不理想、声学模型或语言模型的不完美而出现识别错误的结果,增加了语义理解的难度,并降低了用户体验度。即使通过网络搜集大量的语料,为语音识别模型提供丰富的上下文知识,对于不常用词、强专业性词等专属词,现有的语音识别模型依旧很容易将这些专属词识别成与其发音相近的其他词,例如,用户输入的语音是“李驷是谁”,通过语音识别模型识别得到的大概率结果可能是“李四是谁”。
因此,现有的语音识别方法很难准确识别不常用词、强专业性词等专属词。
发明内容
本发明实施例提供一种语音识别处理方法、装置、电子设备及存储介质,以解决现有技术中很难准确识别不常用词、强专业性词等专属词的问题。
第一方面,本发明一实施例提供了一种语音识别处理方法,包括:
对语音信号进行语音识别,得到语音信号对应的文本信息;
若文本信息中包含待纠错词条,通过待纠错词条对应的用于表征待纠错词条发音特征的发音单元,在预设的索引库中,查询与待纠错词条匹配的目标词条,索引库中包括发音单元和发音单元对应的实体词;
根据目标词条,替换文本信息中的待纠错词条。
第二方面,本发明一实施例提供了一种语音识别处理装置,包括:
识别模块,用于对语音信号进行语音识别,得到语音信号对应的文本信息;
查询模块,用于若文本信息中包含待纠错词条,通过待纠错词条对应的用于表征待纠错词条发音特征的发音单元,在预设的索引库中,查询与待纠错词条匹配的目标词条,索引库中包括发音单元和发音单元对应的实体词;
处理模块,用于根据目标词条,替换文本信息中的待纠错词条。
第三方面,本发明一实施例提供了一种电子设备,包括收发机、存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,收发机用于在处理器的控制下接收和发送数据,处理器执行程序时实现上述任一种方法的步骤。
第四方面,本发明一实施例提供了一种计算机可读存储介质,其上存储有计算机程序指令,该程序指令被处理器执行时实现上述任一种方法的步骤。
本发明实施例提供的技术方案,预先建立了用于表征实体词的发音特征的发音单元与实体词之间的索引关系,使得在纠错处理时,可利用索引关系查找到待纠错词条的各个发音单元对应的所有目标词条,即查找到与待纠错词条具有相同发音特征的实体词,然后,根据查找到的目标词条,替换文本信息中的待纠错词条,实现对语音识别结果(即文本信息)的修正。本发明实施例的方法能够很好地纠正相似或相同发音的实体词,尤其是针对不常用词和强专业性词等专属词,能够有效地提高语音识别的准确率,提升用户体验。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例中所需要使用的附图作简单地介绍,显而易见地,下面所介绍的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的语音识别处理方法的应用场景示意图;
图2为本发明一实施例提供的语音识别处理方法的流程示意图;
图3为本发明一实施例提供的语音识别处理装置的结构示意图;
图4为本发明一实施例提供的电子设备的结构示意图;
图5为一个字典树的示例。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
为了方便理解,下面对本发明实施例中涉及的名词进行解释:
音素(phone),是语音中的最小的单位,依据音节里的发音动作来分析,一个动作构成一个音素。音素分为元音、辅音两大类,例如,元音有a、o、ai等,辅音有p、t、h等。
字典树(Trie树),又称单词查找树,是一种树形结构。常用于统计、排序和保存大量的字符串(但不仅限于字符串),所以经常被搜索引擎系统用于文本词频统计。字典树的优点是:利用字符串的公共前缀来减少查询时间,最大限度地减少无谓的字符串比较,查询效率比哈希树高。
编辑距离是针对二个字符串(例如英文字)的差异程度的量化量测,量测方式是看至少需要多少次的处理才能将一个字符串变成另一个字符串。编辑距离可以用在自然语言处理中,例如拼写检查可以根据一个拼错的字和其他正确的字的编辑距离,判断哪一个(或哪几个)是比较可能的字。
倒排索引(inverted index)源于实际应用中需要根据属性的值来查找记录。倒排索引表中的每一项都包括一个属性值和具有该属性值的各记录的地址,由于不是由记录来确定属性值,而是由属性值来确定记录的位置,因而称为倒排索引。
附图中的任何元素数量均用于示例而非限制,以及任何命名都仅用于区分,而不具有任何限制含义。
在具体实践过程中,现有的语音识别系统经常会由于语音数据的不理想、声学模型或语言模型的不完美而出现识别错误的结果,增加了语义理解的难度,并降低了用户体验度。即使通过网络搜集大量的语料,为语音识别模型提供丰富的上下文知识,对于不常用词、强专业性词等专属词,现有的语音识别模型依旧很容易将这些专属词识别成与其发音相近的其他词,例如,用户输入的语音是“李驷是谁”,通过语音识别模型识别得到的大概率结果可能是“李四是谁”。
为此,本发明的发明人预先建立了用于表征实体词的发音特征的发音单元与实体词之间的索引关系,使得在纠错处理时,可利用索引关系查找到待纠错词条的各个发音单元对应的所有目标词条,即查找到与待纠错词条具有相同发音特征的实体词,然后,根据查找到的目标词条,替换文本信息中的待纠错词条,实现对语音识别结果的修正。本发明实施例的方法能够很好地纠正相似或相同发音的实体词,尤其是针对不常用词和强专业性词等专属词,能够有效地提高语音识别的准确率,提升用户体验。
在介绍了本发明的基本原理之后,下面具体介绍本发明的各种非限制性实施方式。
首先参考图1,其为本发明实施例提供的语音识别处理方法的应用场景示意图。用户10与智能设备11交互过程中,智能设备11将用户10输入的语音发送给服务器12,服务器12通过语音识别方法进行语音识别,并利用语音识别处理方法对语音识别结果进行修正,并将修正后的语音识别结果反馈给智能设备11。
这种应用场景下,智能设备11和服务器12之间通过网络进行通信连接,该网络可以为局域网、广域网等。智能设备11可以为智能音箱、语音导航仪、机器人等,也可以为便携设备(例如:手机、平板、笔记本电脑等),也可以为个人电脑(PC,Personal Computer)。服务器12可以为任何能够提供语音识别服务的服务器设备。
下面结合图1所示的应用场景,对本发明实施例提供的技术方案进行说明。
首先,收集实体词添加到实体词数据库中。
具体实施时,实体词可以是企业专属词,例如企业中员工的姓名(如高管的人名,普通员工的人名),企业产品名称,企业内部使用的代号,也可以是某个领域或行业专属词,例如银行的基金名称等,医疗行业的专属名词等。还可针对具体的应用场景筛选出实体词,例如,应用在智能音箱中时,可筛选出用户常点播的歌曲名称作为实体词,当应用在语音导航中时,可筛选出地名作为实体词。本发明实施例中可以基于企业或领域或行业或具体应用场景,来定义实体词,本发明实施例中不对实体词的具体实现方式进行限定。
然后,基于实体词数据库中的实体词构建字典树。
具体的,字典树的根节点不包含字,节点和节点之间的路径上对应一个字,若某一节点被标记,将从根节点到该节点的路径上的字串起来就是一个实体词,若节点没有被标记,则表示从根节点到该节点的路径上的字串起来得到的词不是实体词数据库中的实体词。字典树中,每个节点的所有子节点对应的实体词都不相同。
举例说明,如图5所示,给出了一个字典树的示例,图5中,节点0即为根节点,代表搜索词条的起点,假设实体词数据库中有“西直门”、“西单”、“北海”这三个词条,则给节点3、节点4、节点6打上标记,表明字典树中存在实体词“西直门”、“西单”、“北海”。利用字典树搜索是否存在待纠错词条时,从根节点开始沿着字典树的路径,逐个匹配该待纠错词条中的字,若匹配不到字,则说明字典树中不存在该待纠错词条,以图5为例,待纠错词条为“西安”,显然匹配到“西”字后,节点1的子节点不存在“安”字,则表明字典树中不存在“西安”这个实体词;若沿着路径找到了待纠错词条中所有的字,但是匹配到的路径的最后一个节点没有被标记,则说明字典树中不存在该待纠错词条,以图5为例,待纠错词条为“西直”,在字典树中能够匹配到“西直”这条路径,但是“西直”这条路径的最后一个节点2没有标记,则表明字典树中不存在“西直”这个实体词;若沿着路径找到了与待纠错词条中所有的字,且匹配到的路径的最后一个节点上有标记,则说明字典树中存在该待纠错词条,以图5为例,待纠错词条为“西直门”,在字典树中能够匹配到“西直门”这条路径,且路径上的最后一个节点3有标记,则表明字典树中存在“西直门”这个实体词。
接着,基于实体词数据库构建索引库,具体过程为:将实体词按照预设的颗粒度转换成多个发音单元,发音单元用于表征实体词的发音特征,具体实施时,发音单元可以为单音节或音素,具体地,发音单元可以是单音节或三音素;采用倒排索引的方式,针对每个发音单元与其对应的实体词在实体词数据库中的位置,在索引库中建立一条索引记录,即以发音单元为索引的属性值,通过发音单元找到该发音单元所属的实体词。需要说明的是,在索引库中,通过一个发音单元可以查询到一个或多个实体词。举例说明,假设发音单元为三音素,索引记录的格式为(triphone:sent_idx,triphone_sequence),其中,triphone是指该索引记录对应的三音素,sent_idx是指triphone所对应的实体词在实体词数据库的编号,triphone_sequence是指实体词对应的三音素序列,以便根据发音单元查找到对应的实体词。
以发音单元为三音素为例进行说明,其他形式的发音单元与此类似,此处不再一一举例说明。例如,实体词“西侧电梯”可转换为8个三音素:sil-x+i,x-i+c,i-c+e,c-e+d,e-d+ian,d-ian+t,ian-t+i,t-i+sil,“西侧电梯”对应的三音素序列为sil-x+i_x-i+c_i-c+e_c-e+d_e-d+ian_d-ian+t_ian-t+i_t-i+sil。为这8个三音素中的每一个三音素,在索引库中增加一条索引记录,假设实体词“西侧电梯”在实体词数据库中的编号为106,对于实体词“西侧电梯”,在索引库中增加如下几条索引记录:
(sil-x+i:106,sil-x+i_x-i+c_i-c+e_c-e+d_e-d+ian_d-ian+t_ian-t+i_t-i+sil)、
(x-i+c:106,sil-x+i_x-i+c_i-c+e_c-e+d_e-d+ian_d-ian+t_ian-t+i_t-i+sil)、
(i-c+e:106,sil-x+i_x-i+c_i-c+e_c-e+d_e-d+ian_d-ian+t_ian-t+i_t-i+sil)、
(c-e+d:106,sil-x+i_x-i+c_i-c+e_c-e+d_e-d+ian_d-ian+t_ian-t+i_t-i+sil)、
(e-d+ian:106,sil-x+i_x-i+c_i-c+e_c-e+d_e-d+ian_d-ian+t_ian-t+i_t-i+sil)、
(d-ian+t:106,sil-x+i_x-i+c_i-c+e_c-e+d_e-d+ian_d-ian+t_ian-t+i_t-i+sil)、
(ian-t+i:106,sil-x+i_x-i+c_i-c+e_c-e+d_e-d+ian_d-ian+t_ian-t+i_t-i+sil)、
(t-i+sil:106,sil-x+i_x-i+c_i-c+e_c-e+d_e-d+ian_d-ian+t_ian-t+i_t-i+sil)。
以发音单元为单音节为例进行说明,例如,实体词“西侧电梯”可转换为4个单音节:xi,ce,dian,ti,“西侧电梯”对应的单音节序列为,x_T0_i_T1c_T0_e_T4d_T0_ian_T4t_T0_i_T1,其中,用T0、T1、T2、T3、T4分别表示声调中的轻声、第一声、第二声、第三声、第四声,“x_T0”表示x没有声调,“i_T1”表示i为第一声。此时,对于实体词“西侧电梯”,在索引库中增加如下几条索引记录:
(x_T0_i_T1:106,x_T0_i_T1c_T0_e_T4d_T0_ian_T4t_T0_i_T1)、
(c_T0_e_T4:106,x_T0_i_T1c_T0_e_T4d_T0_ian_T4t_T0_i_T1)、
(d_T0_ian_T4:106,x_T0_i_T1c_T0_e_T4d_T0_ian_T4t_T0_i_T1)、
(t_T0_i_T1:106,x_T0_i_T1c_T0_e_T4d_T0_ian_T4t_T0_i_T1)。
参考图2,本发明实施例提供一种语音识别处理方法,包括以下步骤:
S201、对语音信号进行语音识别,得到语音信号对应的文本信息。
本实施例中,可采用现有的语音识别方法得到语音信号对应的文本信息,不再赘述。
S202、若文本信息中包含待纠错词条,通过待纠错词条对应的用于表征待纠错词条发音特征的发音单元,在预设的索引库中,查询与待纠错词条匹配的目标词条,索引库中包括发音单元和发音单元对应的实体词。
举例说明,假设待纠错词条为“西则电梯”,当索引库是以三音素构建的,则“西则电梯”可转换为8个三音素,分别为:sil-x+i,x-i+z,i-z+e,z-e+d,e-d+ian,d-ian+t,ian-t+i,t-i+sil,这8个三音素即为“西则电梯”对应的发音单元;当索引库是以单音节构建的,则“西则电梯”可转换为4个单音节,分别为:x_T0_i_T1,z_T0_e_T2,d_T0_ian_T4,t_T0_i_T1,这4个单音节即为“西则电梯”对应的发音单元。
以发音单元为三音素为例进行说明,假设待纠错词条为“西则电梯”,其对应的8个三音素分别为:sil-x+i,x-i+z,i-z+e,z-e+d,e-d+ian,d-ian+t,ian-t+i,t-i+sil。在索引库中分别查找到这8个三音素的索引记录,将查询到的索引记录对应的实体词作为目标词条添加到待纠错词条的临时列表中,例如,针对“sil-x+i”,利用索引库可以查找到所有第一个字的发音为“xi”的实体词,如“西侧电梯”、“西直门”、“西单”;针对“x-i+c”,利用索引库可以查找到包含发音为“xi”的字、且“xi”字后一个字的声母为“c”的实体词;针对“t-i+sil”,利用索引库可以查找到所有最后一个字的发音为“ti”的实体词。假设针对“sil-x+i”查找到的实体词为“西侧电梯”、“西直门”、“西单”,将“西侧电梯”、“西直门”和“西单”作为目标词条添加到“西则电梯”的临时列表中。同理,将查找到其余7个三音素对应的索引记录,将索引记录对应的实体词作为目标词条添加到“西则电梯”的临时列表中。此时,临时列表中会存在多个相同的目标词条,例如,在查询三音素“d-ian+t”时,也会查询到目标词条“西侧电梯”,因此,需要对临时列表中的目标词条进行去重处理。
针对发音单元为单音节或其他形式的情况,也可以采用上述处理方式查询与待纠错词条匹配的目标词条,具体过程不再赘述。
S203、根据目标词条,替换文本信息中的待纠错词条。
具体实施时,若仅查询到一个目标词条,则用该目标词条替换文本信息中的待纠错词条;若查询到多个目标词条,计算每个目标词条与待纠错词条的相似度,选择相似度最高的目标词条,替换文本信息中的待纠错词条。
举例说明,假设语音信息对应的文本信息为“请问商场西则电梯怎么走”,与待纠错词条“西则电梯”相似度最高的目标词条为“西侧电梯”,则将文本信息中的“西则电梯”替换为“西侧电梯”,得到纠错处理后的文本信息为“请问商场西侧电梯怎么走”。
本发明实施例的语音识别处理方法,预先建立了用于表征实体词的发音特征的发音单元与实体词之间的索引关系,使得在纠错处理时,可利用索引关系查找到待纠错词条的各个发音单元对应的所有目标词条,即查找到与待纠错词条具有相同发音特征的实体词,然后,根据查找到的目标词条,替换文本信息中的待纠错词条,实现对语音识别结果(即文本信息)的修正。本发明实施例的语音识别处理方法能够很好地纠正相似或相同发音的实体词,尤其是针对不常用词和强专业性词等专属词,能够有效地提高语音识别的准确率,提升用户体验。例如,待纠错词条为“淬微百货”,根据发音单元可以查到与“淬微百货”相似度最高的目标词条为“翠微百货”,将文本信息中的“淬微百货”修正为“翠微百货”。
由于本发明实施例的语音识别处理方法,采用音素级别或音节级别的发音单元描述实体词的发音特征,因此,通过索引库查找与待纠错词条匹配的目标词条时,能够查找到与待纠错词条发音相近的实体词,因此,即时用户说话有口音,如无法区分前后鼻音、平翘舌音等,依然都能够对语音识别结果作出修正,提高语音识别准确率。同理,本发明实施例的语音识别处理方法也可以对因环境噪声干扰导致的语音识别错误进行较好地修正。
此外,本发明实施例的语音识别处理方法能够对语音识别结果中多字或少字的情况进行纠正。语音识别过程中,由于用户语速太快或发音不清,会导致识别结果中漏掉个别字或将一个字识别成两个字。例如,用户说的是“翠微百货”,但是语音识别结果为“翠百货”,此时,由于实体词数据库中不存在“翠百货”这个实体词,而与“翠百货”相似度最高的是“翠微百货”,因此,“翠百货”被纠正为“翠微百货”。又如,用户说一些不常用的专属名词(如脱氧核糖核苷酸)时,可能会漏掉个别字或说错个别字,针对这种情况,只要实体词数据库中有该专属名词,即可通过本发明实施例的语音识别处理方法对用户错误的输入进行纠正。针对识别结果中多字的情况也是同样的处理方法。
本发明实施例中,实体词数据库中的实体词可根据需求进行增加、删除和修改等,以实现定制化的纠错机制。
本发明实施例中,计算目标词条与待纠错词条的相似度的方法有很多种,例如,编辑相似度、语义相似度、字符相似度和拼音相似度等。本发明实施例中不对目标词条与待纠错词条的相似度的计算方式进行限定。为了提高准确度,也可以计算目标词条与待纠错词条的多种类型的相似度,再根据各相似度的值,确定目标词条与待纠错词条的多种类型的最终相似度。例如,先分别计算目标词条与待纠错词条的编辑相似度、语义相似度和拼音相似度,根据预先设定的加权规则,对得到的编辑相似度、语义相似度和拼音相似度的值进行加权求平均处理,将加权求平均后的值确定为目标词条与待纠错词条的最终相似度。
本发明实施例还提供了一种基于编辑距离计算目标词条与待纠错词条的相似度的实现方法,具体包括以下步骤:计算每个目标词条与待纠错词条的编辑距离;根据每个目标词条对应的编辑距离以及待纠错词条包含的发音单元的数量,计算每个目标词条与待纠错词条的相似度。
具体实施时,针对每个目标词条,将该目标词条对应的编辑距离除以待纠错词条包含的发音单元的数量得到的结果,确定为该目标词条与待纠错词条的修改率,基于修改率与相似度满足的函数关系,根据该目标词条与待纠错词条的修改率,确定该目标词条与待纠错词条的相似度。
作为一种可能的实现方式,上述计算相似度的方法可通过以下公式表示:similarity=1-modify_rate,其中,修改率modify_rate=dist(ans,ref)/ref_num,其中,dist(x,y)表示计算x和y的编辑距离,anse为目标词条的三音素序列,ref_triphone为待纠错词条的三音素序列,或者anse为目标词条的单音节序列,ref_triphone为待纠错词条的单音节序列,ref_num为待纠错词条包含的发音单元的数量。其中,计算修改率时加入了参数ref_num,以起到对修改率进行归一化处理的作用。
例如,待纠错词条为“西则电梯”,其对应的一个目标词条为“西侧电梯”。如果发音单元为三音素,可计算待纠错词条“西则电梯”对应的三音素序列sil-x+i_x-i+z_i-z+e_z-e+d_e-d+ian_d-ian+t_ian-t+i_t-i+si与目标词条“西侧电梯”对应的三音素序列sil-x+i_x-i+c_i-c+e_c-e+d_e-d+ian_d-ian+t_ian-t+i_t-i+sil的编辑距离,然后,根据编辑距离以及“西则电梯”包含的发音单元的数量,计算“西则电梯”与“西侧电梯”的相似度。若发音单元为单音节,可计算“西则电梯”对应的单音节序列x_T0_i_T1_c_T0_e_T4d_T0_ian_T4t_T0_i_T1与“西侧电梯”对应的单音节序列x_T0_i_T1_z_T0_e_T2d_T0_ian_T4t_T0_i_T1的编辑距离,然后,根据编辑距离以及“西则电梯”包含的发音单元的数量,计算西则电梯”与“西侧电梯”的相似度。
基于上述任一实施例,进一步地,在步骤S201之前,本发明实施例的语音识别处理方法还包括以下步骤:在预先构建的实体词数据库中搜索与待纠错词条相同的实体词;若未搜索到与待纠错词条相同的实体词,则执行步骤S201,否则不执行步骤S201。
具体的,如果在实体词数据库中搜索到与待纠错词条相同的实体词,则表明该待纠错词条是正确的,不需要进行纠错处理,无需执行步骤S201-S203。如果在实体词数据库中未搜索到与待纠错词条相同的实体词,表明需要对待纠错词条进行纠错处理。具体实施时,实体词数据库可通过字典树的结构存储实体词,字典树具有节省存储空间和查询速度快的特点,可提高语音识别处理的处理效率。
基于上述任一实施例,可预先配置多个前缀词和后缀词,其中,前缀词和后缀词可根据实际应用场景中常用的语句、句式等确定。例如,在与智能音箱的语音交互中,常用句式包括“播放风中有朵雨做的云”、“给我放首陈奕迅的歌”、“我想听xxx歌曲”、“推荐摇滚风的歌曲”等,一般容易识别错的是歌曲名称,可根据常用语句筛选出歌曲名称前的词作为前缀词,如“播放”、“放首”、“想听”、“推荐”等可以作为前缀词,“歌曲”、“的歌”、“的歌曲”等词可以作为后缀词。例如,当应用在语音导航中时,一般需要纠错的是地名,常用语句包括“帮我导航北京西站”、“北京西站怎么去”、“搜索北京西站”、“北京西站在哪里”等,将“导航”、“搜索”等词作为前缀词,将“怎么去”、“在哪里”等词作为后缀词。上述列举的前缀词和后缀词仅为示例性说明,实际应用时,不限于上述列举的内容。
在判断文本信息中是否包含待纠错词条时,可以通过判断该文本信息中是否包含预设的前缀词和/或后缀词,来确定该文本信息中是否包含待纠错词条以及在存在待纠错词条时确定该待纠错词条在文本信息中的位置。具体包括如下三种可能的实现方式:
第一种方式、若该文本信息中包含预设的前缀词和后缀词,确定前缀词和后缀词在文本信息中的位置,将文本信息中在前缀词和后缀词之间的字符串确定为待纠错词条。
例如,文本信息为“我想听那英的歌曲”,可从该文本信息中确定出前缀词“我想听”和后缀词“的歌曲”,此时,将“我想听”和“的歌曲”之间的字符串“那英”确定为待纠错词条。
第二种方式、若该文本信息中仅包含预设的前缀词,确定前缀词在文本信息中的位置,将文本信息中在前缀词之后的字符串确定为待纠错词条。
例如,文本信息为“播放风中有朵雨做的云”,从该文本信息中可确定出前缀词“播放”,将前缀词之后的字符串“风中有朵雨做的云”确定为待纠错词条。
第三种方式、若该文本信息中仅包含预设的后缀词,确定预设的后缀词在文本信息中的位置,将文本信息中在后缀词之前的字符串确定为待纠错词条。
例如,文本信息为“北京西站在哪里”,从该文本信息中可确定出后缀词“在哪里”,将后缀词“在哪里”之前的字符串“北京西站”确定为待纠错词条。
本发明实施例的方法,通过前缀词和后缀词能够精准地定位语音识别结果中的待纠错词条,提高后续纠错处理时的准确率。
如图3所示,基于与上述语音识别处理方法相同的发明构思,本发明实施例还提供了一种语音识别处理装置30,包括:识别模块301、查询模块302和处理模块303。
识别模块301,用于对语音信号进行语音识别,得到语音信号对应的文本信息。
查询模块302,用于若文本信息中包含待纠错词条,通过待纠错词条对应的用于表征待纠错词条发音特征的发音单元,在预设的索引库中,查询与待纠错词条匹配的目标词条,索引库中包括发音单元和发音单元对应的实体词。
处理模块303,用于根据目标词条,替换文本信息中的待纠错词条。
进一步地,处理模块包括:相似度计算单元和修正单元。
相似度计算单元,用于若查询到多个目标词条,计算每个目标词条与待纠错词条的相似度。
修正单元,用于选择相似度最高的目标词条,替换文本信息中的待纠错词条。
进一步地,相似度计算单元具体用于:计算每个目标词条与待纠错词条的编辑距离;根据每个目标词条对应的编辑距离以及待纠错词条包含的发音单元的数量,计算每个目标词条与待纠错词条的相似度。
进一步地,相似度计算单元具体用于:针对每个目标词条,将该目标词条对应的编辑距离除以待纠错词条包含的发音单元的数量得到的结果,确定为该目标词条与待纠错词条的修改率;基于修改率与相似度满足的函数关系,根据目标词条与待纠错词条的修改率,确定目标词条与待纠错词条的相似度。
基于上述任一实施例,本发明实施例的语音识别处理装置30还包括判断模块,用于:在查询与待纠错词条匹配的目标词条之前,在预先构建的实体词数据库中搜索与待纠错词条相同的实体词;确定未搜索到与待纠错词条相同的实体词。
进一步地,实体词数据库通过字典树的结构存储实体词。
基于上述任一实施例,本发明实施例的语音识别处理装置30还包括待纠错词条识别模块,用于:若文本信息中包含预设的前缀词和后缀词,确定前缀词和后缀词在文本信息中的位置,将文本信息中在前缀词和后缀词之间的字符串确定为待纠错词条;或,若文本信息中包含预设的前缀词,确定前缀词在文本信息中的位置,将文本信息中在前缀词之后的字符串确定为待纠错词条;或,若文本信息中包含预设的后缀词,确定后缀词在文本信息中的位置,将文本信息中在后缀词之前的字符串确定为待纠错词条。
基于上述任一实施例,进一步地,发音单元为音节或音素。
本发明实施例提供的语音识别处理装置与上述语音识别处理方法采用了相同的发明构思,能够取得相同的有益效果,在此不再赘述。
基于与上述语音识别处理方法相同的发明构思,本发明实施例还提供了一种电子设备,该电子设备具体可以为桌面计算机、便携式计算机、智能手机、平板电脑、个人数字助理(Personal Digital Assistant,PDA)、服务器等。如图4所示,该电子设备40可以包括处理器401、存储器402和收发机403。收发机403用于在处理器601的控制下接收和发送数据。
存储器402可以包括只读存储器(ROM)和随机存取存储器(RAM),并向处理器提供存储器中存储的程序指令和数据。在本发明实施例中,存储器可以用于存储语音识别处理方法的程序。
处理器401可以是CPU(中央处埋器)、ASIC(Application Specific IntegratedCircuit,专用集成电路)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)或CPLD(Complex Programmable Logic Device,复杂可编程逻辑器件)处理器通过调用存储器存储的程序指令,按照获得的程序指令实现上述任一实施例中的语音识别处理方法。
本发明实施例提供了一种计算机可读存储介质,用于储存为上述电子设备所用的计算机程序指令,其包含用于执行上述语音识别处理方法的程序。
上述计算机存储介质可以是计算机能够存取的任何可用介质或数据存储设备,包括但不限于磁性存储器(例如软盘、硬盘、磁带、磁光盘(MO)等)、光学存储器(例如CD、DVD、BD、HVD等)、以及半导体存储器(例如ROM、EPROM、EEPROM、非易失性存储器(NAND FLASH)、固态硬盘(SSD))等。
以上所述,以上实施例仅用以对本申请的技术方案进行了详细介绍,但以上实施例的说明只是用于帮助理解本发明实施例的方法,不应理解为对本发明实施例的限制。本技术领域的技术人员可轻易想到的变化或替换,都应涵盖在本发明实施例的保护范围之内。
Claims (10)
1.一种语音识别处理方法,其特征在于,包括:
对语音信号进行语音识别,得到所述语音信号对应的文本信息;
若所述文本信息中包含待纠错词条,通过所述待纠错词条对应的用于表征所述待纠错词条发音特征的发音单元,在预设的索引库中,查询与所述待纠错词条匹配的目标词条,所述索引库中包括发音单元和所述发音单元对应的实体词;
根据所述目标词条,替换所述文本信息中的待纠错词条。
2.根据权利要求1所述的方法,其特征在于,所述根据所述目标词条,替换所述文本信息中的待纠错词条,包括:
若查询到多个目标词条,计算每个目标词条与所述待纠错词条的相似度;
选择相似度最高的目标词条,替换所述文本信息中的待纠错词条。
3.根据权利要求2所述的方法,其特征在于,所述计算每个目标词条与所述待纠错词条的相似度,包括:
计算每个目标词条与所述待纠错词条的编辑距离;
根据每个目标词条对应的编辑距离以及所述待纠错词条包含的发音单元的数量,计算所述每个目标词条与所述待纠错词条的相似度。
4.根据权利要求3所述的方法,其特征在于,所述根据每个目标词条对应的编辑距离以及所述待纠错词条包含的发音单元的数量,计算所述每个目标词条与所述待纠错词条的相似度,包括:
针对每个目标词条,将所述目标词条对应的编辑距离除以所述待纠错词条包含的发音单元的数量得到的结果,确定为所述目标词条与所述待纠错词条的修改率;
基于修改率与相似度满足的函数关系,根据所述目标词条与所述待纠错词条的修改率,确定所述目标词条与所述待纠错词条的相似度。
5.根据权利要求1至4中任一所述的方法,其特征在于,在查询与所述待纠错词条匹配的目标词条之前,还包括:
在预先构建的实体词数据库中搜索与所述待纠错词条相同的实体词;
确定未搜索到与所述待纠错词条相同的实体词。
6.根据权利要求5所述的方法,其特征在于,所述实体词数据库通过字典树的结构存储实体词。
7.根据权利要求1至4中任一所述的方法,其特征在于,确定所述文本信息中包含待纠错词条,包括:
若所述文本信息中包含预设的前缀词和后缀词,确定所述前缀词和所述后缀词在所述文本信息中的位置,将所述文本信息中在所述前缀词和所述后缀词之间的字符串确定为待纠错词条;或,
若所述文本信息中包含预设的前缀词,确定所述前缀词在所述文本信息中的位置,将所述文本信息中在所述前缀词之后的字符串确定为待纠错词条;或,
若所述文本信息中包含预设的后缀词,确定所述后缀词在所述文本信息中的位置,将所述文本信息中在所述后缀词之前的字符串确定为待纠错词条。
8.根据权利要求1所述的方法,其特征在于,所述发音单元为音节或音素。
9.一种语音识别处理装置,其特征在于,包括:
识别模块,用于对语音信号进行语音识别,得到所述语音信号对应的文本信息;
查询模块,用于若所述文本信息中包含待纠错词条,通过所述待纠错词条对应的用于表征所述待纠错词条发音特征的发音单元,在预设的索引库中,查询与所述待纠错词条匹配的目标词条,所述索引库中包括发音单元和所述发音单元对应的实体词;
处理模块,用于根据所述目标词条,替换所述文本信息中的待纠错词条。
10.一种电子设备,包括收发机、存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述收发机用于在所述处理器的控制下接收和发送数据,所述处理器执行所述程序时实现权利要求1至8任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910060178.8A CN111462748B (zh) | 2019-01-22 | 2019-01-22 | 语音识别处理方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910060178.8A CN111462748B (zh) | 2019-01-22 | 2019-01-22 | 语音识别处理方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111462748A true CN111462748A (zh) | 2020-07-28 |
CN111462748B CN111462748B (zh) | 2023-09-26 |
Family
ID=71678954
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910060178.8A Active CN111462748B (zh) | 2019-01-22 | 2019-01-22 | 语音识别处理方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111462748B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112820294A (zh) * | 2021-01-06 | 2021-05-18 | 镁佳(北京)科技有限公司 | 语音识别方法、装置、存储介质及电子设备 |
CN112861521A (zh) * | 2021-01-29 | 2021-05-28 | 思必驰科技股份有限公司 | 语音识别结果纠错方法、电子设备及存储介质 |
CN113157852A (zh) * | 2021-04-26 | 2021-07-23 | 深圳市优必选科技股份有限公司 | 语音处理的方法、系统、电子设备及存储介质 |
CN113345442A (zh) * | 2021-06-30 | 2021-09-03 | 西安乾阳电子科技有限公司 | 语音识别方法、装置、电子设备及存储介质 |
CN114333828A (zh) * | 2022-03-08 | 2022-04-12 | 深圳市华方信息产业有限公司 | 用于数码产品的快速语音识别系统 |
CN114327355A (zh) * | 2021-12-30 | 2022-04-12 | 科大讯飞股份有限公司 | 语音输入方法、电子设备以及计算机存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105869634A (zh) * | 2016-03-31 | 2016-08-17 | 重庆大学 | 一种基于领域的带反馈语音识别后文本纠错方法及系统 |
CN106202153A (zh) * | 2016-06-21 | 2016-12-07 | 广州智索信息科技有限公司 | 一种es搜索引擎的拼写纠错方法及系统 |
CN106598939A (zh) * | 2016-10-21 | 2017-04-26 | 北京三快在线科技有限公司 | 一种文本纠错方法及装置、服务器、存储介质 |
CN107305768A (zh) * | 2016-04-20 | 2017-10-31 | 上海交通大学 | 语音交互中的易错字校准方法 |
US20180342233A1 (en) * | 2017-05-23 | 2018-11-29 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Method and apparatus for correcting speech recognition error based on artificial intelligence, and storage medium |
CN109065054A (zh) * | 2018-08-31 | 2018-12-21 | 出门问问信息科技有限公司 | 语音识别纠错方法、装置、电子设备及可读存储介质 |
-
2019
- 2019-01-22 CN CN201910060178.8A patent/CN111462748B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105869634A (zh) * | 2016-03-31 | 2016-08-17 | 重庆大学 | 一种基于领域的带反馈语音识别后文本纠错方法及系统 |
CN107305768A (zh) * | 2016-04-20 | 2017-10-31 | 上海交通大学 | 语音交互中的易错字校准方法 |
CN106202153A (zh) * | 2016-06-21 | 2016-12-07 | 广州智索信息科技有限公司 | 一种es搜索引擎的拼写纠错方法及系统 |
CN106598939A (zh) * | 2016-10-21 | 2017-04-26 | 北京三快在线科技有限公司 | 一种文本纠错方法及装置、服务器、存储介质 |
US20180342233A1 (en) * | 2017-05-23 | 2018-11-29 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Method and apparatus for correcting speech recognition error based on artificial intelligence, and storage medium |
CN109065054A (zh) * | 2018-08-31 | 2018-12-21 | 出门问问信息科技有限公司 | 语音识别纠错方法、装置、电子设备及可读存储介质 |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112820294A (zh) * | 2021-01-06 | 2021-05-18 | 镁佳(北京)科技有限公司 | 语音识别方法、装置、存储介质及电子设备 |
CN112820294B (zh) * | 2021-01-06 | 2024-07-12 | 镁佳(北京)科技有限公司 | 语音识别方法、装置、存储介质及电子设备 |
CN112861521A (zh) * | 2021-01-29 | 2021-05-28 | 思必驰科技股份有限公司 | 语音识别结果纠错方法、电子设备及存储介质 |
CN112861521B (zh) * | 2021-01-29 | 2023-11-24 | 思必驰科技股份有限公司 | 语音识别结果纠错方法、电子设备及存储介质 |
CN113157852A (zh) * | 2021-04-26 | 2021-07-23 | 深圳市优必选科技股份有限公司 | 语音处理的方法、系统、电子设备及存储介质 |
CN113345442A (zh) * | 2021-06-30 | 2021-09-03 | 西安乾阳电子科技有限公司 | 语音识别方法、装置、电子设备及存储介质 |
CN113345442B (zh) * | 2021-06-30 | 2024-06-04 | 西安乾阳电子科技有限公司 | 语音识别方法、装置、电子设备及存储介质 |
CN114327355A (zh) * | 2021-12-30 | 2022-04-12 | 科大讯飞股份有限公司 | 语音输入方法、电子设备以及计算机存储介质 |
CN114333828A (zh) * | 2022-03-08 | 2022-04-12 | 深圳市华方信息产业有限公司 | 用于数码产品的快速语音识别系统 |
Also Published As
Publication number | Publication date |
---|---|
CN111462748B (zh) | 2023-09-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9934777B1 (en) | Customized speech processing language models | |
CN111462748B (zh) | 语音识别处理方法、装置、电子设备及存储介质 | |
US10957312B2 (en) | Scalable dynamic class language modeling | |
US10216725B2 (en) | Integration of domain information into state transitions of a finite state transducer for natural language processing | |
JP7200405B2 (ja) | 音声認識のためのコンテキストバイアス | |
US10121467B1 (en) | Automatic speech recognition incorporating word usage information | |
KR102201937B1 (ko) | 후속 음성 쿼리 예측 | |
US5949961A (en) | Word syllabification in speech synthesis system | |
US9640175B2 (en) | Pronunciation learning from user correction | |
US8712779B2 (en) | Information retrieval system, information retrieval method, and information retrieval program | |
US11016968B1 (en) | Mutation architecture for contextual data aggregator | |
US20090112600A1 (en) | System and method for increasing accuracy of searches based on communities of interest | |
US11437025B2 (en) | Cross-lingual speech recognition | |
CN111508497B (zh) | 语音识别方法、装置、电子设备及存储介质 | |
JP4966324B2 (ja) | 音声翻訳装置、および方法 | |
US11430434B1 (en) | Intelligent privacy protection mediation | |
KR102217621B1 (ko) | 사용자 발화의 오류를 교정하는 방법 및 장치 | |
JP2006107353A (ja) | 情報処理装置および方法、記録媒体、並びにプログラム | |
JP4674609B2 (ja) | 情報処理装置および方法、プログラム、並びに記録媒体 | |
GB2568902A (en) | System for speech evaluation | |
KR20240112028A (ko) | 발음열 유사도를 이용한 음성 자동 학습 시스템 및 방법과 이를 위한 컴퓨터 프로그램 | |
CN111583910A (zh) | 模型更新方法、装置、电子设备及存储介质 | |
JP2005326497A (ja) | 音声認識方法、音声認識装置、音声認識プログラム、記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |