CN110544477A - 一种语音识别方法、装置、设备及介质 - Google Patents
一种语音识别方法、装置、设备及介质 Download PDFInfo
- Publication number
- CN110544477A CN110544477A CN201910936988.5A CN201910936988A CN110544477A CN 110544477 A CN110544477 A CN 110544477A CN 201910936988 A CN201910936988 A CN 201910936988A CN 110544477 A CN110544477 A CN 110544477A
- Authority
- CN
- China
- Prior art keywords
- target
- word
- recognition
- recognized
- voice data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 46
- 238000012545 processing Methods 0.000 claims description 13
- 238000010586 diagram Methods 0.000 description 19
- 238000004590 computer program Methods 0.000 description 12
- 230000006870 function Effects 0.000 description 8
- 238000004891 communication Methods 0.000 description 5
- 238000012986 modification Methods 0.000 description 5
- 230000004048 modification Effects 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 241001672694 Citrus reticulata Species 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000012550 audit Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/225—Feedback of the input speech
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例公开了一种语音识别方法、装置、设备及介质,用以在对语音数据中专业词语识别的同时,避免对热词相关的语言模型的依赖。所述语音识别方法,包括:确定获取到的待识别语音数据所属的目标场景;基于预先建立的识别场景与热词识别规则之间的对应关系,确定目标场景对应的目标热词识别规则;在对待识别语音数据进行语音识别,得到初步识别结果后,利用目标热词识别规则在初步识别结果中识别满足预设条件的目标词语,并将识别出的目标词语替换为热词。
Description
技术领域
本发明涉及语音识别领域,尤其涉及一种语音识别方法、装置、设备及介质。
背景技术
语音识别(Automatic Speech Recognition,ASR)服务,采用先进的深度学习算法,具备语音转文字相关的各种功能,为电话录音质检、实时语音输入、直播字幕及审核等多种场景提供支持。在某些特殊场景下,如法庭书记、智能客服、智能直播、智能医疗等领域,需要对某些专业词着重识别(例如,在某些电视剧中“今天北京天气”就需要识别成“今天北境天气”),这就需要ASR服务具有高度可配的专业词语识别能力。
现有的语音识别服务,在进行语音识别时,为保证识别结果的准确性,通常对解析初步识别结果中包含的每个词语与热词的拼音进行模糊匹配,在拼音模糊匹配成功时,将匹配成功的词语用热词替换,之后重新连接词语生成句子,并将重新生成的句子作为解析初步识别结果,然后将与此热词相关的语言模型作为后续语音识别的识别模型继续进行语音识别,以此方式,最终得到的识别结果即为受热词影响的识别结果。
上述方案虽然能够提高识别结果的准确性,但是其依赖于热词或热词同类型词的语言模型,才能较准确地计算出受热词影响的识别结果,而语言模型的训练往往需要大量的语料和数据运算支持,耗时较长。
发明内容
本发明提供一种语音识别方法、装置、设备及介质,用以在对语音数据中专业词语识别的同时,避免对热词相关的语言模型的依赖。
本发明的技术方案如下:
根据本发明实施例的第一方面,提供一种语音识别方法,包括:
确定获取到的待识别语音数据所属的目标场景;
基于预先建立的识别场景与热词识别规则之间的对应关系,确定目标场景对应的目标热词识别规则;
在对待识别语音数据进行语音识别,得到初步识别结果后,利用目标热词识别规则在初步识别结果中识别满足预设条件的目标词语,并将识别出的目标词语替换为热词。
一种可能的实施方式中,本发明提供的语音识别方法中,目标热词识别规则包括热词与匹配规则之间的对应关系;
利用目标热词识别规则在初步识别结果中识别满足预设条件的目标词语,并将识别出的目标词语替换为热词,包括:
在初步识别结果中的任一词语与任一匹配规则相匹配时,将词语确定为满足预设条件的目标词语,并将目标词语替换为匹配规则对应的热词,生成新的初步识别结果。
一种可能的实施方式中,本发明提供的语音识别方法中,确定获取到的待识别语音数据所属的目标场景,包括:
获取待识别语音数据的属性信息,基于属性信息确定待识别语音数据所属的目标场景。
一种可能的实施方式中,本发明提供的语音识别方法中,属性信息包括以下一种或多种:采集方式、采集时间、采集位置、语义环境。
根据本发明实施例的第二方面,提供一种语音识别装置,包括:
场景确定单元,用于确定获取到的待识别语音数据所属的目标场景;
规则确定单元,用于基于预先建立的识别场景与热词识别规则之间的对应关系,确定目标场景对应的目标热词识别规则;
处理单元,用于在对待识别语音数据进行语音识别,得到初步识别结果后,利用目标热词识别规则在初步识别结果中识别满足预设条件的目标词语,并将识别出的目标词语替换为热词。
一种可能的实施方式中,本发明提供的语音识别装置中,处理单元具体用于:
在初步识别结果中的任一词语与任一匹配规则相匹配时,将词语确定为满足预设条件的目标词语,并将目标词语替换为匹配规则对应的热词,生成新的初步识别结果。
一种可能的实施方式中,本发明提供的语音识别装置中,场景确定单元具体用于:
获取待识别语音数据的属性信息,基于属性信息确定待识别语音数据所属的目标场景。
一种可能的实施方式中,本发明提供的语音识别装置中,属性信息包括以下一种或多种:采集方式、采集时间、采集位置、语义环境。
根据本发明实施例的第三方面,提供一种语音识别设备,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,处理器被配置为执行指令以实现第一方面公开的语音识别方法。
根据本发明实施例的第四方面,提供一种存储介质,当存储介质中的指令由语音识别设备的处理器执行时,能够执行本发明实施例第一方面公开的对象的输入方法。
根据本发明实施例的第五方面,提供一种计算机程序产品,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,处理器被配置为执行指令以实现第一方面公开语音识别方法。
本发明的实施例提供的技术方案至少带来以下有益效果:
在对待识别语音数据进行语音识别时,首先确定待识别语音数据所属的目标场景,根据预先建立的识别场景与热词识别规则之间的对应关系,确定目标场景对应的目标热词识别规则,然后利用目标热词识别规则,对待识别语音数据进行语音识别,具体地,在识别过程中,针对初步识别结果,利用目标热词识别规则在初步识别结果中识别满足预设条件的目标词语,并将识别出的目标词语替换为热词,直至对待识别语音数据识别完成,实现对语音数据中专业词语的识别,同时识别过程中,无需使用热词相关的语言模型,避免了对热词相关的语言模型的依赖。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理,并不构成对本发明的不当限定。
图1是根据一示例性实施例示出的一种语音识别方法的示意流程图。
图2是根据一示例性实施例示出识别场景与热词识别规则之间的对应关系示意图。
图3是根据一示例性实施例示出的另一种语音识别方法的示意流程图。
图4是根据一示例性实施例示出的又一种语音识别方法的示意流程图。
图5是根据一示例性实施例示出的一种语音识别装置的结构示意图。
图6是根据一示例性实施例示出的一种语音识别设备的结构示意图。
图7是根据一示例性实施例示出的另一语音识别设备的结构示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发明一部份实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
下面对文中出现的一些词语进行解释:
1、本发明实施例中术语“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
本发明实施例描述的应用场景是为了更加清楚的说明本发明实施例的技术方案,并不构成对于本发明实施例提供的技术方案的限定,本领域普通技术人员可知,随着新应用场景的出现,本发明实施例提供的技术方案对于类似的技术问题,同样适用。其中,在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上。
图1根据一示例性实施例示出的一种语音识别方法的示意流程图。如图1所示,本实施例提供的语音识别方法,可以包括以下步骤:
步骤S101,确定获取到的待识别语音数据所属的目标场景。
具体实施时,可以获取待识别语音数据的属性信息,基于属性信息确定待识别语音数据所属的目标场景。其中,属性信息包括以下一种或多种:采集方式、采集时间、采集位置、语义环境。
需要说明的是,待识别语音数据的属性信息,用于确定待识别语音数据的所属场景,待识别语音数据对应的属性信息,还可以是其他直接或间接确定待识别语音数据所属场景的其他类型数据,本发明对此不作限定。
在预设场景中,可以通过待识别语音数据的属性信息确定待识别语音数据所属的目标场景。例如,待识别语音数据的属性信息为采集位置,采集位置可以是二维或三维坐标信息,可以通过坐标信息确定在二维地图和三维地图中的位置,确定坐标对应的建筑的社会功能。例如坐标信息指向的建筑为“XX法院”,则可以确定待识别语音数据所属的目标场景为“法院”或者“法庭”。
根据实际应用场景,目标场景可以包括但不限于:法庭、客服、直播、医疗等需要对专业词着重识别的场景,还可以为特定语义背景的影视剧中的场景。
步骤S102,基于预先建立的识别场景与热词识别规则之间的对应关系,确定目标场景对应的目标热词识别规则。
具体实施时,预先建立的识别场景与热词识别规则之间的对应关系中,热词识别规则又可以包括热词与匹配规则之间的对应关系。
如图2所示,本发明实施例预先建立的识别场景与热词识别规则之间的对应关系中,可以为每一场景配置至少一个热词,且一个热词可以被配置在多个场景中。例如,场景1配置有热词1、热词2、热词3等;场景2配置有热词1、热词15、热词16等;场景3配置有热词1、热词16、热词33等。
本发明实施例预先建立的识别场景与热词识别规则之间的对应关系中,可以为每一热词配置至少一个匹配规则,且一个匹配规则可以被配置在不同场景的多个热词中。例如,场景1中的热词1配置有匹配规则1,场景1中的热词2配置有匹配规则2,场景1中的热词3配置有匹配规则3、匹配规则4等;场景2中的热词1配置有匹配规则1和匹配规则7,场景2中的热词15配置有匹配规则8,场景2中的热词16配置有匹配规则9、匹配规则10等;场景3中的热词1配置有匹配规则1和匹配规则18,场景3中的热词16配置有匹配规则19和匹配规则20,场景3中的热词33配置有匹配规则8。
在一个示例中,场景为“法庭”时,热词可以法庭中出现频次最多的词语,如“开庭”、“审判”、“被告人”、“罚金”等,热词为“开庭”的匹配规则,可以是在目标词语前出现描述时间的词语,还可以是在目标词语前出现描述地点的词语,还可以是在目标词语之前出现“于”等匹配规则。
需要说明的是,目标场景为确定待识别语音数据所属的场景,目标场景的预设热词识别规则为目标热词识别规则。目标热词识别规则,还明确了每一热词与被配置匹配规则之间对应的关系。
步骤S103,在对待识别语音数据进行语音识别,得到初步识别结果后利用目标热词识别规则在初步识别结果中识别满足预设条件的目标词语,并将识别出的目标词语替换为热词。
具体实施时,在初步识别结果中的任一词语与任一匹配规则相匹配时,将词语确定为满足预设条件的目标词语,并将目标词语替换为匹配规则对应的热词,生成新的初步识别结果。
需要说明的是,在利用分段识别方式对待识别语音数据识别时,在最后一段语音数据识别完成,且待识别语音数据最后一个目标词语被替换为热词或确定识别结果中不包含满足预设条件的词语时,可以确认对待识别语音数据的识别完成。
其中,初步识别结果中的目标词语,可以是出现在目标热词识别规则中的词语,也可以是与目标场景配置的热词具有相同含义,也可以是与目标场景配置的热词的拼音或者对应的英文单词相同,还可以是在目标场景中的无效语义词语或不可确定语义词语。
图3根据一示例性实施例示出的一种语音识别方法的流程示意图,如图3所示,本实施例提供的语音识别方法,包括以下步骤:
步骤S301,采集待识别语音数据及对应的属性信息。
具体实施时,采集待识别语音数据,以及对应属性信息,待识别语音数据对应的属性信息,包括采集方式、采集时间、采集地点、待识别语音数据上下文的语义环境中的一种或多种,但不局限于前述信息。
具体实施时,采集方式可以包括但不限定于,通过无线电技术将电波信号转换为语音信号的方式(例如,采集广播信号中的语音)、通过麦克风等声音输入设备采集、从存储有语音数据的介质中提取(例如,通CD、磁带、硬盘等)、采集从计算机声卡输出的数字语音等语音采集方式。
采集时间可以包括但不限定于,时间区间、开始时刻、结束时刻、与参考时间的相对时刻或时间区间。
采集位置可以包括但不限定于,地理位置(例如,二维地理坐标、三维地理坐标),地形位置(例如,山、海洋、空中等)。
语义环境为待识别语音数据所属语音中的已识别语音数据或待识别语音数据中已进行识别的语音数据的语义环境,语义环境包括多种词语或句子的语义,例如,“你好厉害啊”在不同语言环境中的语义不同,可以是一种赞美语义,也可以是一种嘲讽语义。
待识别语音数据对应的属性信息,用于确定待识别语音数据的所属场景,待识别语音数据对应的属性信息,还可以是其他直接或间接确定,待识别语音数据所属场景的其他类型数据。
采集语音数据,可以是语音采集设备,或者带有语音采集功能的设备,通过数据传输,获取的语音数据,也可以是从存储有语音数据的设备中获取的语音数据,本发明对此不作限制。
对待识别语音数据进行语音识别时,可以将待识别语音数据以预设方式分成多个小节,每次对一个小节的语音数据进行识别。
步骤S302,根据待识别语音数据对应的属性信息,确定待识别语音数据的所属场景。
具体实施时,可以通过待识别语音数据的属性信息确定待识别语音数据所属的目标场景。例如,待识别语音数据的属性信息为采集位置,采集位置可以是二维或三维坐标信息,可以通过坐标信息确定在二维地图和三维地图中的位置,确定坐标对应的建筑的社会功能。例如,坐标信息指向的建筑为“XX法院”,待识别语音数据的场景为“法院”或者“法庭”。
步骤S303,根据待识别语音数据的目标场景,确定目标场景对应的目标热词识别规则。
具体实施时,预先建立的识别场景与热词识别规则之间的对应关系中,热词识别规则又可以包括热词与匹配规则之间的对应关系。如图2所示,本发明实施例预先建立的识别场景与热词识别规则之间的对应关系中,可以为每一场景配置至少一个热词,且一个热词可以被配置在多个场景中,可以为每一热词配置至少一个匹配规则,且一个匹配规则可以被配置在不同场景的多个热词中。
需要说明的是,预先建立的识别场景与热词识别规则之间的对应关系中,场景与热词识别规则之间的对应关系以及热词识别规则中热词与匹配规则之间的对应关系,均可以不断的增加或删除,以更新识别场景与热词识别规则之间的对应关系。
在一个示例中,场景为“法庭”时,热词可以法庭中出现频次最多的词语,如“开庭”、“审判”、“被告人”、“罚金”等,热词为“开庭”的匹配规则,可以是在目标词语前出现描述时间的词语,还可以是在目标词语前出现描述地点的词语,还可以是在目标词语前出现“于”等匹配规则。
需要说明的是,目标场景为确定待识别语音数据所属的场景,目标场景对应的热词识别规则为目标热词识别规则。
步骤S304,将待识别语音数据输入语音识别模型中,获得初步识别结果。
具体实施时,语音识别模型,可以是针对语种类型的识别模型,例如汉语语音识别模型、英语语音识别模型等,也可以是针对地域性语言的识别模型,例如普通话语音识别模型、粤语语音识别模型等。语音识别模型中具体使用的识别算法,本发明实施例对此不作限定。
初步识别结果,可以是语音识别模型输出的文本,输出的文本可以是句子,也可以是多个词语的组合,还可以是多个字与词语的组合。
需要说明的是,将待识别语音数据输入语音识别模型中时,依次将待识别语音数据的每个小节输入语音识别模型中,需要再次将待识别语音数据输入语音识别模型中时,将已输入待识别语音数据的下一小节输入语音识别模型中,直至全部待识别语音数据输入至语音识别模型中,相应的每输入一个小节的待识别语音数据后,语音识别模型都输出初步识别结果。
步骤S305,判断初步识别结果中的目标词语是否满足预设条件,若是,下一步执行步骤S306,否则,下一步执行步骤S304。
具体实施时,初步识别结果中的目标词语,可以是出现在目标热词识别规则中的词语,也可以是与目标场景配置的热词具有相同含义,也可以是与目标场景配置的热词的拼音或者对应的英文单词相同,判断目标词语是否满足预设条件,也即判断目标词语是否满足热词对应的匹配规则。
例如,目标场景为“法庭”,初步识别结果中含有词语“开厅”,并且上文语义环境中没有目标词语“开厅”的语义,可以确认目标词语“开厅”在目标场景中为无效语义词或不可确定语义词,词语“开厅”的拼音为“kai ting”,目标场景“法庭”对应的目标热词识别规则中包含一个规则为“目标词语的拼音与热词拼音相同时,直接替换为热词”,由于目标词语“开厅”满足与热词“开庭”拼音相同的预设条件,可以将初步识别结果中的词语“开庭”替换为“开庭”,执行步骤S306;
再例如,目标场景为“法庭”,初步识别结果中含有词语“苹果”,并且上文语义环境中没有目标词语“苹果”的语义,可以确认目标词语“苹果”在目标场景中为无效语义词或不可确定语义词,并且目标词语不满足目标场景对应的目标热词识别规则中的任一规则,继续确认初步识别结果中其他词语不满足目标热词识别规则后,执行步骤S304。
步骤S306,将目标词语替换为满足匹配规则对应的热词,并将替换后的文本,生成新的初步识别结果。
具体实施时,由于匹配规则被配置为与热词对应,因此,可以通过匹配规则确定对应的热词,将目标词语替换为匹配规则对应的热词。
例如,目标场景为“法庭”,初步识别结果中含有词语“开厅”,并且上文语义环境中没有目标词语“开厅”的语义,可以确认目标词语“开厅”在目标场景中为无效语义词或不可确定语义词,词语“开厅”的拼音为“kai ting”,目标场景“法庭”对应的目标热词识别规则中包含一个规则为“目标词语的拼音与热词拼音相同时,直接替换为热词”,并在目标场景中,只有热词“开庭”被配置的匹配规则为“目标词语的拼音与热词拼音相同时,直接替换为热词”,也即,与匹配规则对应的热词为“开庭”,将目标词语“开厅”替换为热词“开庭”。
图4根据一示例性实施例示出的一种语音识别方法的流程示意图,如图4所示,本实施例提供的语音识别方法,包括以下步骤:
步骤S401,获取待识别语音数据及对应的属性信息,并设置结果集。
具体实施时,结果集用于存放识别模型输出的初步识别结果和将目标词语替换为热词时生成的新的初步识别结果。
步骤S402,根据待识别语音数据对应的属性信息,确定待识别语音数据的所属的目标场景。
步骤S403,根据待识别语音数据的目标场景,确定目标场景对应的目标热词识别规则。
具体实施时,预先建立的识别场景与热词识别规则之间的对应关系中,热词识别规则又可以包括热词与匹配规则之间的对应关系。如图2所示,本发明实施例预先建立的识别场景与热词识别规则之间的对应关系中,可以为每一场景配置至少一个热词,且一个热词可以被配置在多个场景中,可以为每一热词配置至少一个匹配规则,且一个匹配规则可以被配置在不同场景的多个热词中。
步骤S404,将待识别语音数据输入语音识别模型中,获得初步识别结果。
具体实施时,将待识别语音数据输入语音识别模型中时,可以将待识别语音数据分为多个小节,并依次将待识别语音数据的每个小节输入语音识别模型中,需要再次将待识别语音数据输入语音识别模型中时,将已输入待识别语音数据的下一小节输入语音识别模型中,直至全部待识别语音数据输入至语音识别模型中,相应的每输入一个小节的待识别语音数据后,获得由语音识别模型都输出的初步识别结果。
一种可能的实施方式中,将待识别语音数据和结果集输入语音识别模型中,获得初步识别结果。具体实施时,结果集中的初步识别结果,可以作为待识别语音数据的前文和后文语义,将待识别语音数据与前后文一同进行识别,可以提高识别语义的识别效率和准确率。
步骤S405,判断初步识别结果是否在结果集中,若是,下一步执行步骤S404,否则,下一步执行步骤S406。
具体实施时,当结果集中为空时,确认初步识别结果不在结果集中,下一步执行步骤S406,当结果集非空时,可以将获得的初步识别结果与结果集中的初步识别结果逐一对比,在对比时,可以对比文本长度是否相同,也可以逐字对比,获得的初步识别结果与结果集中的某一初步识别结果完全一致,确认初步识别结果在结果集中,下一步执行步骤S404,否则下一步执行步骤S406。
步骤S406,判断初步识别结果中的目标词语是否满足预设条件,若是,下一步执行步骤S407,否则,下一步执行步骤S404。
具体实施时,在初步识别结果中的任一词语与任一匹配规则相匹配时,将词语确定为满足预设条件的目标词语,并将目标词语替换为匹配规则对应的热词,生成新的初步识别结果。
步骤S407,将目标词语替换为满足匹配规则对应的热词,生成新的初步识别结果。
步骤S408,将生成新的初步识别结果,添加至结果集。
具体实施时,生成新的初步识别结果,为将目标词语替换为对应热词后的初步识别结果,并将新的初步识别结果添加入结果集中。
步骤S409,判断待识别语音数据是否完成识别,若是,下一步执行步骤S410,否则,下一步执行步骤S404。
具体实施时,将待识别语音数据分为多个小节,确认最后一个小节的待识别语音数据已输入语音识别模型为完成识别,下一步执行步骤S410,否则,继续将下一小节的待识别语音数据输入语音识别模型进行识别,执行步骤S404。
步骤S410,根据结果集,输出待识别语音数据的最终识别结果。
具体实施时,可以将结果集中的初步识别结果组成句子,作为最终识别结果,在组成句子时,可以根据预设组句规则,如初步识别结果的第一个词语,与前一次序初步识别结果中的最后一个词语相同时,删除前一次序初步识别结果中的最后一个词语,并添加标点符号。
例如,结果集为{“下面进行宣布”、“宣布根据中华人民共和国刑法第X条第X款”“判处被告人”、“张三无期”、“无期徒刑”、“剥夺政治权利终身”},组成句子“下面进行宣布,根据中华人民共和国刑法第X条第X款,判处被告人,张三,无期徒刑,剥夺政治权利终身。”。
图5是根据一示例性实施例示出的一种语音识别装置框图,如图5所示,该装置包括场景确定单元501,规则确定单元502,处理单元503。
场景确定单元501,用于确定获取到的待识别语音数据所属的目标场景;
规则确定单元502,用于基于预先建立的识别场景与热词识别规则之间的对应关系,确定目标场景对应的目标热词识别规则;
处理单元503,用于在对待识别语音数据进行语音识别,得到初步识别结果后,利用目标热词识别规则在初步识别结果中识别满足预设条件的目标词语,并将识别出的目标词语替换为热词。
一种可能的实施方式中,本发明提供的语音识别装置中,处理单元503具体用于:
在初步识别结果中的任一词语与任一匹配规则相匹配时,将词语确定为满足预设条件的目标词语,并将目标词语替换为匹配规则对应的热词,生成新的初步识别结果。
一种可能的实施方式中,本发明提供的语音识别装置中,场景确定单元501具体用于:
获取待识别语音数据的属性信息,基于属性信息确定待识别语音数据所属的目标场景。
一种可能的实施方式中,本发明提供的语音识别装置中,属性信息包括以下一种或多种:采集方式、采集时间、采集位置、语义环境。
基于上述本发明实施例相同构思,图6是根据一示例性实施例示出的语音识别设备600的框图,如图6所示,本发明实施例示出的语音识别设备600包括:
处理器610;
用于存储处理器610可执行指令的存储器620;
其中,处理器610被配置为执行指令,以实现本发明实施例中语音识别方法。
在示例性实施例中,还提供了一种包括指令的存储介质,例如包括指令的存储器620,上述指令可由语音识别装置的处理器610执行以完成上述方法。可选地,存储介质可以是非临时性计算机可读存储介质,例如,非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
另外,结合图1-5所描述的本发明实施例的语音识别方法及装置可以由语音识别设备来实现。图7示出了本发明实施例提供的语音识别设备的硬件结构示意图。
该语音识别设备可以包括处理器701以及存储有计算机程序指令的存储器702。
具体地,上述处理器701可以包括中央处理器(CPU),或者特定集成电路(Application Specific Integrated Circuit,ASIC),或者可以被配置成实施本发明实施例的一个或多个集成电路。
存储器702可以包括用于数据或指令的大容量存储器。举例来说而非限制,存储器702可包括硬盘驱动器(Hard Disk Drive,HDD)、软盘驱动器、闪存、光盘、磁光盘、磁带或通用串行总线(Universal Serial Bus,USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下,存储器702可包括可移除或不可移除(或固定)的介质。在合适的情况下,存储器702可在数据处理装置的内部或外部。在特定实施例中,存储器702是非易失性固态存储器。在特定实施例中,存储器702包括只读存储器(ROM)。在合适的情况下,该ROM可以是掩模编程的ROM、可编程ROM(PROM)、可擦除PROM(EPROM)、电可擦除PROM(EEPROM)、电可改写ROM(EAROM)或闪存或者两个或更多个以上这些的组合。
处理器701通过读取并执行存储器702中存储的计算机程序指令,以实现上述实施例中的语音识别方法。
在一个示例中,该语音识别设备还可包括通信接口703和总线710。其中,如图7所示,处理器701、存储器702、通信接口703通过总线710连接并完成相互间的通信。
通信接口703,主要用于实现本发明实施例中各模块、装置、单元和/或设备之间的通信。
总线710包括硬件、软件或两者,将该语音识别设备的部件彼此耦接在一起。举例来说而非限制,总线可包括加速图形端口(AGP)或其它图形总线、增强工业标准架构(EISA)总线、前端总线(FSB)、超传输(HT)互连、工业标准架构(ISA)总线、无限带宽互连、低引脚数(LPC)总线、存储器总线、微信道架构(MCA)总线、外围组件互连(PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(SATA)总线、视频电子标准协会局部(VLB)总线或其它合适的总线或者两个或更多个以上这些的组合。在合适的情况下,总线710可包括一个或多个总线。尽管本发明实施例描述和示出了特定的总线,但本发明考虑任何合适的总线或互连。
另外,结合上述实施例中的语音识别方法,本发明实施例可提供一种计算机可读存储介质来实现。该计算机可读存储介质上存储有计算机程序指令;该计算机程序指令被处理器执行时实现上述实施例中的任意一项语音识别方法。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其它可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其它可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其它可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其它可编程数据处理设备上,使得在计算机或其它可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其它可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。
Claims (10)
1.一种语音识别方法,其特征在于,包括:
确定获取到的待识别语音数据所属的目标场景;
基于预先建立的识别场景与热词识别规则之间的对应关系,确定所述目标场景对应的目标热词识别规则;
在对所述待识别语音数据进行语音识别,得到初步识别结果后,利用所述目标热词识别规则在所述初步识别结果中识别满足预设条件的目标词语,并将识别出的目标词语替换为热词。
2.根据权利要求1所述的方法,其特征在于,所述目标热词识别规则包括热词与匹配规则之间的对应关系;
所述利用所述目标热词识别规则在所述初步识别结果中识别满足预设条件的目标词语,并将识别出的目标词语替换为热词,包括:
在所述初步识别结果中的任一词语与任一匹配规则相匹配时,将所述词语确定为满足所述预设条件的目标词语,并将所述目标词语替换为所述匹配规则对应的热词,生成新的初步识别结果。
3.根据权利要求1所述的方法,其特征在于,所述确定获取到的待识别语音数据所属的目标场景,包括:
获取所述待识别语音数据的属性信息,基于所述属性信息确定所述待识别语音数据所属的目标场景。
4.根据权利要求3所述的方法,其特征在于,所述属性信息包括以下一种或多种:采集方式、采集时间、采集位置、语义环境。
5.一种语音识别装置,其特征在于,包括:
场景确定单元,用于确定获取到的待识别语音数据所属的目标场景;
规则确定单元,用于基于预先建立的识别场景与热词识别规则之间的对应关系,确定所述目标场景对应的目标热词识别规则;
处理单元,用于在对所述待识别语音数据进行语音识别,得到初步识别结果后,利用所述目标热词识别规则在所述初步识别结果中识别满足预设条件的目标词语,并将识别出的目标词语替换为热词。
6.根据权利要求5所述的装置,其特征在于,所述处理单元具体用于:
在所述初步识别结果中的任一词语与任一匹配规则相匹配时,将所述词语确定为满足所述预设条件的目标词语,并将所述目标词语替换为所述匹配规则对应的热词,生成新的初步识别结果。
7.根据权利要求5所述的装置,其特征在于,所述场景确定单元具体用于:
获取所述待识别语音数据的属性信息,基于所述属性信息确定所述待识别语音数据所属的目标场景。
8.根据权利要求7所述的装置,其特征在于,所述属性信息包括以下一种或多种:采集方式、采集时间、采集位置、语义环境。
9.一种语音识别设备,其特征在于,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令以实现如权利要求1至4中任一项所述的语音识别方法。
10.一种存储介质,其特征在于,当所述存储介质中的指令由语音识别设备的处理器执行时,使得语音识别设备能够执行如权利要求1至4中任意一项所述的语音识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910936988.5A CN110544477A (zh) | 2019-09-29 | 2019-09-29 | 一种语音识别方法、装置、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910936988.5A CN110544477A (zh) | 2019-09-29 | 2019-09-29 | 一种语音识别方法、装置、设备及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110544477A true CN110544477A (zh) | 2019-12-06 |
Family
ID=68715199
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910936988.5A Pending CN110544477A (zh) | 2019-09-29 | 2019-09-29 | 一种语音识别方法、装置、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110544477A (zh) |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111276149A (zh) * | 2020-01-19 | 2020-06-12 | 科大讯飞股份有限公司 | 语音识别方法、装置、设备及可读存储介质 |
CN111276144A (zh) * | 2020-02-21 | 2020-06-12 | 北京声智科技有限公司 | 一种平台匹配方法、装置、设备和介质 |
CN111508478A (zh) * | 2020-04-08 | 2020-08-07 | 北京字节跳动网络技术有限公司 | 语音识别方法和装置 |
CN111613212A (zh) * | 2020-05-13 | 2020-09-01 | 携程旅游信息技术(上海)有限公司 | 语音识别方法、系统、电子设备和存储介质 |
CN112037792A (zh) * | 2020-08-20 | 2020-12-04 | 北京字节跳动网络技术有限公司 | 一种语音识别方法、装置、电子设备及存储介质 |
CN112102833A (zh) * | 2020-09-22 | 2020-12-18 | 北京百度网讯科技有限公司 | 语音识别方法、装置、设备及存储介质 |
CN112489651A (zh) * | 2020-11-30 | 2021-03-12 | 科大讯飞股份有限公司 | 语音识别方法和电子设备、存储装置 |
CN112562684A (zh) * | 2020-12-08 | 2021-03-26 | 维沃移动通信有限公司 | 一种语音识别方法、装置和电子设备 |
CN112562659A (zh) * | 2020-12-11 | 2021-03-26 | 上海科大讯飞信息科技有限公司 | 语音识别方法、装置、电子设备和存储介质 |
CN112749543A (zh) * | 2020-12-22 | 2021-05-04 | 浙江吉利控股集团有限公司 | 一种信息解析过程的匹配方法、装置、设备及存储介质 |
CN112951237A (zh) * | 2021-03-18 | 2021-06-11 | 深圳奇实科技有限公司 | 一种基于人工智能的自动语音识别方法及系统 |
WO2021129439A1 (zh) * | 2019-12-28 | 2021-07-01 | 科大讯飞股份有限公司 | 语音识别方法及相关产品 |
CN113241061A (zh) * | 2021-05-17 | 2021-08-10 | 北京字跳网络技术有限公司 | 语音识别结果的处理方法、装置、电子设备和存储介质 |
CN113421551A (zh) * | 2020-11-16 | 2021-09-21 | 腾讯科技(深圳)有限公司 | 语音识别方法、装置、计算机可读介质及电子设备 |
CN113436614A (zh) * | 2021-07-02 | 2021-09-24 | 科大讯飞股份有限公司 | 语音识别方法、装置、设备、系统及存储介质 |
CN113470619A (zh) * | 2021-06-30 | 2021-10-01 | 北京有竹居网络技术有限公司 | 语音识别方法、装置、介质及设备 |
CN115376512A (zh) * | 2022-08-22 | 2022-11-22 | 深圳市长量智能有限公司 | 一种基于人物画像的语音识别系统及方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105206263A (zh) * | 2015-08-11 | 2015-12-30 | 东莞市凡豆信息科技有限公司 | 基于动态字典的语音语义识别方法 |
CN105632499A (zh) * | 2014-10-31 | 2016-06-01 | 株式会社东芝 | 用于优化语音识别结果的方法和装置 |
CN108899030A (zh) * | 2018-07-10 | 2018-11-27 | 深圳市茁壮网络股份有限公司 | 一种语音识别方法及装置 |
CN109145281A (zh) * | 2017-06-15 | 2019-01-04 | 北京嘀嘀无限科技发展有限公司 | 语音识别方法、装置及存储介质 |
CN109346060A (zh) * | 2018-11-28 | 2019-02-15 | 珂伯特机器人(天津)有限公司 | 语音识别方法、装置、设备及存储介质 |
-
2019
- 2019-09-29 CN CN201910936988.5A patent/CN110544477A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105632499A (zh) * | 2014-10-31 | 2016-06-01 | 株式会社东芝 | 用于优化语音识别结果的方法和装置 |
CN105206263A (zh) * | 2015-08-11 | 2015-12-30 | 东莞市凡豆信息科技有限公司 | 基于动态字典的语音语义识别方法 |
CN109145281A (zh) * | 2017-06-15 | 2019-01-04 | 北京嘀嘀无限科技发展有限公司 | 语音识别方法、装置及存储介质 |
CN108899030A (zh) * | 2018-07-10 | 2018-11-27 | 深圳市茁壮网络股份有限公司 | 一种语音识别方法及装置 |
CN109346060A (zh) * | 2018-11-28 | 2019-02-15 | 珂伯特机器人(天津)有限公司 | 语音识别方法、装置、设备及存储介质 |
Cited By (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021129439A1 (zh) * | 2019-12-28 | 2021-07-01 | 科大讯飞股份有限公司 | 语音识别方法及相关产品 |
CN111276149B (zh) * | 2020-01-19 | 2023-04-18 | 科大讯飞股份有限公司 | 语音识别方法、装置、设备及可读存储介质 |
CN111276149A (zh) * | 2020-01-19 | 2020-06-12 | 科大讯飞股份有限公司 | 语音识别方法、装置、设备及可读存储介质 |
CN111276144A (zh) * | 2020-02-21 | 2020-06-12 | 北京声智科技有限公司 | 一种平台匹配方法、装置、设备和介质 |
CN111508478A (zh) * | 2020-04-08 | 2020-08-07 | 北京字节跳动网络技术有限公司 | 语音识别方法和装置 |
CN111613212A (zh) * | 2020-05-13 | 2020-09-01 | 携程旅游信息技术(上海)有限公司 | 语音识别方法、系统、电子设备和存储介质 |
CN111613212B (zh) * | 2020-05-13 | 2023-10-31 | 携程旅游信息技术(上海)有限公司 | 语音识别方法、系统、电子设备和存储介质 |
CN112037792A (zh) * | 2020-08-20 | 2020-12-04 | 北京字节跳动网络技术有限公司 | 一种语音识别方法、装置、电子设备及存储介质 |
CN112102833B (zh) * | 2020-09-22 | 2023-12-12 | 阿波罗智联(北京)科技有限公司 | 语音识别方法、装置、设备及存储介质 |
CN112102833A (zh) * | 2020-09-22 | 2020-12-18 | 北京百度网讯科技有限公司 | 语音识别方法、装置、设备及存储介质 |
CN113421551A (zh) * | 2020-11-16 | 2021-09-21 | 腾讯科技(深圳)有限公司 | 语音识别方法、装置、计算机可读介质及电子设备 |
CN113421551B (zh) * | 2020-11-16 | 2023-12-19 | 腾讯科技(深圳)有限公司 | 语音识别方法、装置、计算机可读介质及电子设备 |
CN112489651A (zh) * | 2020-11-30 | 2021-03-12 | 科大讯飞股份有限公司 | 语音识别方法和电子设备、存储装置 |
CN112489651B (zh) * | 2020-11-30 | 2023-02-17 | 科大讯飞股份有限公司 | 语音识别方法和电子设备、存储装置 |
CN112562684A (zh) * | 2020-12-08 | 2021-03-26 | 维沃移动通信有限公司 | 一种语音识别方法、装置和电子设备 |
CN112562659A (zh) * | 2020-12-11 | 2021-03-26 | 上海科大讯飞信息科技有限公司 | 语音识别方法、装置、电子设备和存储介质 |
CN112562659B (zh) * | 2020-12-11 | 2024-04-09 | 科大讯飞(上海)科技有限公司 | 语音识别方法、装置、电子设备和存储介质 |
CN112749543A (zh) * | 2020-12-22 | 2021-05-04 | 浙江吉利控股集团有限公司 | 一种信息解析过程的匹配方法、装置、设备及存储介质 |
CN112951237A (zh) * | 2021-03-18 | 2021-06-11 | 深圳奇实科技有限公司 | 一种基于人工智能的自动语音识别方法及系统 |
CN113241061A (zh) * | 2021-05-17 | 2021-08-10 | 北京字跳网络技术有限公司 | 语音识别结果的处理方法、装置、电子设备和存储介质 |
CN113241061B (zh) * | 2021-05-17 | 2023-03-10 | 北京字跳网络技术有限公司 | 语音识别结果的处理方法、装置、电子设备和存储介质 |
CN113470619B (zh) * | 2021-06-30 | 2023-08-18 | 北京有竹居网络技术有限公司 | 语音识别方法、装置、介质及设备 |
CN113470619A (zh) * | 2021-06-30 | 2021-10-01 | 北京有竹居网络技术有限公司 | 语音识别方法、装置、介质及设备 |
CN113436614B (zh) * | 2021-07-02 | 2024-02-13 | 中国科学技术大学 | 语音识别方法、装置、设备、系统及存储介质 |
CN113436614A (zh) * | 2021-07-02 | 2021-09-24 | 科大讯飞股份有限公司 | 语音识别方法、装置、设备、系统及存储介质 |
CN115376512A (zh) * | 2022-08-22 | 2022-11-22 | 深圳市长量智能有限公司 | 一种基于人物画像的语音识别系统及方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110544477A (zh) | 一种语音识别方法、装置、设备及介质 | |
CN107945792B (zh) | 语音处理方法和装置 | |
CN106534548B (zh) | 语音纠错方法和装置 | |
CN110148400B (zh) | 发音类型的识别方法、模型的训练方法、装置及设备 | |
CN109710949B (zh) | 一种翻译方法及翻译机 | |
CN111160003B (zh) | 一种断句方法及装置 | |
CN110543637A (zh) | 一种中文分词方法及装置 | |
CN111091813A (zh) | 语音唤醒模型更新方法、装置、设备及介质 | |
CN112399269A (zh) | 视频分割方法、装置、设备及存储介质 | |
CN113705300A (zh) | 音转文训练语料的获取方法、装置、设备以及存储介质 | |
CN112507167A (zh) | 一种识别视频合集的方法、装置、电子设备及存储介质 | |
CN113535925B (zh) | 语音播报方法、装置、设备及存储介质 | |
CN111354354B (zh) | 一种基于语义识别的训练方法、训练装置及终端设备 | |
CN110728154A (zh) | 一种半监督式通用神经机器翻译模型的构建方法 | |
CN110705321B (zh) | 计算机辅助翻译系统 | |
CN115883878A (zh) | 视频剪辑方法、装置、电子设备及存储介质 | |
CN111680514A (zh) | 信息处理和模型训练方法、装置、设备及存储介质 | |
CN115691503A (zh) | 语音识别方法、装置、电子设备和存储介质 | |
CN114297409A (zh) | 模型训练方法、信息抽取方法及装置、电子设备、介质 | |
CN110442714B (zh) | Poi名称规范性评估方法、装置、设备和存储介质 | |
CN111785259A (zh) | 信息处理方法、装置及电子设备 | |
CN108021918B (zh) | 文字识别方法及装置 | |
CN112002325A (zh) | 多语种语音交互方法和装置 | |
CN114155420B (zh) | 一种场景识别模型训练方法、装置、设备及介质 | |
CN112906650B (zh) | 教学视频的智能处理方法、装置、设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20191206 |