CN111696545A - 语音识别纠错方法、装置以及存储介质 - Google Patents
语音识别纠错方法、装置以及存储介质 Download PDFInfo
- Publication number
- CN111696545A CN111696545A CN201910196253.3A CN201910196253A CN111696545A CN 111696545 A CN111696545 A CN 111696545A CN 201910196253 A CN201910196253 A CN 201910196253A CN 111696545 A CN111696545 A CN 111696545A
- Authority
- CN
- China
- Prior art keywords
- pinyin
- information
- scene
- hot
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 52
- 238000012937 correction Methods 0.000 title claims abstract description 32
- 238000012545 processing Methods 0.000 claims abstract description 34
- 230000008569 process Effects 0.000 claims description 8
- 230000002457 bidirectional effect Effects 0.000 abstract description 7
- 230000004048 modification Effects 0.000 abstract description 4
- 238000012986 modification Methods 0.000 abstract description 4
- 230000035945 sensitivity Effects 0.000 abstract description 2
- 230000000694 effects Effects 0.000 abstract 1
- 244000062793 Sorghum vulgare Species 0.000 description 22
- 235000019713 millet Nutrition 0.000 description 22
- 238000010586 diagram Methods 0.000 description 10
- 238000005516 engineering process Methods 0.000 description 5
- 238000012549 training Methods 0.000 description 5
- 230000008859 change Effects 0.000 description 2
- 238000010845 search algorithm Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/221—Announcement of recognition results
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/225—Feedback of the input speech
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Machine Translation (AREA)
Abstract
本公开提供了一种语音识别纠错方法、装置以及存储介质,涉及计算机技术领域,其中方法包括:基于热词、场景关键词以及热词与场景关键词之间的对应关系,建立热词场景关联关系信息,热词场景关联关系信息可以为无向图等,将热词场景关联关系信息与语音识别文本进行匹配处理,获得与错误信息相对应的替换信息进行替换处理。本公开的方法、装置以及存储介质,能够动态设置热词,可以在短时间内提高热词的识别准确率,适应不断变化的场景需求,并可以快速生效、部署,无需重新训练模型,可通过动态调整配置实现动态热词的修改;采用无向图和双向匹配的算法,能够提高识别准确率和算法的效率、性能,可以提高用户的使用感受度。
Description
技术领域
本公开涉及计算机技术领域,尤其涉及一种语音识别纠错方法、装置以及存储介质。
背景技术
在语音自动应答系统中使用语音识别技术,用以将用户输入的语音转换为文本。例如,在电商的售后场景下,在用户拨入进行售后咨询时候,通过语音识别技术,实现自动应答,自动转接特定品类人工电话客服等功能。目前,可以使用语音识别模型对语音进行转换。
发明内容
发明人发现目前的语音识别方案具有下述问题:模型训练完成之后,识别能力相对固定,出现新的高频热词时,模型的识别准确率低,并且重新训练模型周期长,当需要恢复原有识别模型时则要重新部署上线。
有鉴于此,本公开要解决的一个技术问题是提供一种语音识别纠错方法、装置以及存储介质。
根据本公开的一个方面,提供一种语音识别纠错方法,包括:基于热词、场景关键词以及所述热词与所述场景关键词之间的对应关系,建立热词场景关联关系信息;对语音信息进行识别,获得语音识别文本;将所述热词场景关联关系信息与所述语音识别文本进行匹配处理;基于匹配结果确定所述语音识别文本中是否有错误信息,如果有,则基于所述热词场景关联关系信息获得与所述错误信息相对应的替换信息,用以对所述错误信息进行替换处理。
可选地,所述建立热词场景关联关系信息包括:获得与所述热词相对应的第一拼音信息、与所述场景关键词相对应的第二拼音信息;根据所述对应关系确定所述热词与所述场景关键词拼连后的热点拼连语句;基于所述第一拼音信息、所述第二拼音信息以及所述热点拼连语句建立所述热词场景关联关系信息。
可选地,所述将所述热词场景关联关系信息与所述语音识别文本进行匹配处理包括:获得与所述语音识别文本相对应的第三拼音信息;将所述热词场景关联关系信息与所述第三拼音信息进行匹配处理。
可选地,所述热词场景关联关系信息包括:热词场景无向图;所述建立所述热词场景关联关系信息包括:将所述第一拼音信息和所述第二拼音信息的每个对应于不同字符的拼音作为节点;其中,所述字符包括:汉字或其他符号;根据所述热词和所述场景关键词的字符组成以及所述热点拼连语句的拼连关系,获得所述节点之间的连线;基于所述节点和所述连线生成所述热词场景无向图。
可选地,所述将所述热词场景关联关系信息与所述第三拼音信息进行匹配处理包括:获得与所述第三拼音信息相对应的识别文本拼音序列;在所述热词场景无向图中确定与所述热点拼连语句相对应的热点拼连语句路径;将所述识别文本拼音序列中的各个第一拼音顺序地与所述热点拼连语句路径中的各个节点对应的第二拼音进行一一对应匹配,用以基于匹配结果确定所述语音识别文本中是否有错误信息。
可选地,所述识别文本拼音序列包括:正向识别文本拼音序列和反向识别文本拼音序列;所述进行一一对应匹配处理包括:将所述正向识别文本拼音序列中的各个第一拼音分别顺序地与所述语句路径中的各个节点对应的第二拼音进行一一对应正向匹配处理;将所述反向识别文本拼音序列中的各个第一拼音分别顺序地与所述语句路径中的各个节点对应的第二拼音进行一一对应反向匹配处理;如果所述正向识别文本拼音序列和所述反向识别文本拼音序列中的第一拼音与所述第二拼音的匹配不成功都对应于所述热点拼连语句路径中的同一节点,则获得此节点对应的字符替换此第一拼音所对应的字符。
可选地,所述进行一一对应匹配处理包括:如果所述正向识别文本拼音序列和所述反向识别文本拼音序列中的全部第一拼音都与所述第二拼音一一匹配成功,则判断所述第一拼音与所述第二拼音对应的字符是否相同;如果否,则使用所述第二拼音对应的字符替换所述第一拼音对应的字符。
可选地,建立热词拼音词典,使用所述热词拼音词典保存的热词场景拼音信息包括:所述热词、场景关键词、所述第一拼音信息和所述第二拼音信息;对每一个热词场景拼音信息建立对应的热词场景无向图。
可选地,对所述语音信息进行的语音识别包括:ASR识别。
根据本发明的另一方面,提供一种语音识别纠错装置,包括:关联信息建立模块,用于基于热词、场景关键词以及所述热词与所述场景关键词之间的对应关系,建立热词场景关联关系信息;语音文本获得模块,用于对语音信息进行识别,获得语音识别文本;文本匹配处理模块,用于将所述热词场景关联关系信息与所述语音识别文本进行匹配处理;匹配结果处理模块,用于基于匹配结果确定所述语音识别文本中是否有错误信息,如果有,则基于所述热词场景关联关系信息获得与所述错误信息相对应的替换信息,用以对所述错误信息进行替换处理。
根据本发明的又一方面,提供一种语音识别纠错装置,包括:存储器;以及耦接至所述存储器的处理器,所述处理器被配置为基于存储在所述存储器中的指令,执行如上所述的方法。
根据本公开的再一方面,提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述指令被处理器执行如上所述的方法。
本公开的语音识别纠错方法、装置以及存储介质,基于热词、场景关键词以及热词与场景关键词之间的对应关系,建立热词场景关联关系信息,热词场景关联关系信息可以为无向图等,将热词场景关联关系信息与语音识别文本进行匹配处理,获得与错误信息相对应的替换信息进行替换处理;能够动态设置热词,可以在短时间内提高热词的识别准确率,适应不断变化的场景需求,并可以快速生效、部署,无需重新训练模型,可通过动态调整配置实现动态热词的修改,能够提高识别准确率,提高用户的使用感受度。
附图说明
为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为根据本公开的语音识别纠错方法的一个实施例的流程示意图;
图2为根据本公开的语音识别纠错方法的一个实施例中的生成热词场景无向图的流程示意图;
图3为生成的热词场景无向图的示意示意图;
图4为根据本公开的语音识别纠错方法的一个实施例中的进行双向匹配处理的流程示意图;
图5为基于热词场景无向图进行的双向匹配处理的流程示意图;
图6为根据本公开的语音识别纠错装置的一个实施例的模块示意图;
图7为根据本公开的语音识别纠错装置的一个实施例中的关联信息建立模块的模块示意图;
图8为根据本公开的语音识别纠错装置的一个实施例中的文本匹配处理模块的模块示意图;
图9为根据本公开的语音识别纠错装置的另一个实施例的模块示意图。
具体实施方式
下面参照附图对本公开进行更全面的描述,其中说明本公开的示例性实施例。下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本公开一部分实施例,而不是全部的实施例。基于本公开中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本公开保护的范围。下面结合各个图和实施例对本公开的技术方案进行多方面的描述。
下文中的“第一”、“第二”等仅用于描述上相区别,并没有其他特殊的含义。
语音模型训练在训练初期,使用通用语音语料训练,所以识别结果相对固定。但是,在特定商品促销期间,特定商品词会在短时间内会频繁出现,识别错误率也会提高。例如,“小米8”在大促期间,成为高频热词,由于模型的相对固定,导致热词被大量错误识别。
新的商品不断涌现,模型对于新的热销商品名称识别率很低。例如“全面屏”,“柔性屏”等最新的技术产品词,热度高且更新频率快,但是,模型识别准确率和召回率很低。此时,模型的识别需要针对性的调整,此时无法动态调整,只有重新训练模型。
重新训练模型需要大量的标注语料,周期长,而促销周期短,促销热词会频繁变化,重新训练模型不容易实现。促销周期过后,这些具有偏向性的识别,需要调整并恢复原有识别模型,而恢复模型,需要重新部署上线。例如,“小米8”促销期间,用户咨询的接近或类似“小米8”的音频特征90%以上都应该识别为“小米8”,但是由于模型相对固定,无法动态调整;而新的“小米Note”促销期间,热词又发生变更,此时识别应该偏向“小米Note”而不是“小米8”。
图1为根据本公开的语音识别纠错方法的一个实施例的流程示意图,如图1所示:
步骤101,基于热词、场景关键词以及热词与场景关键词之间的对应关系,建立热词场景关联关系信息。
热词即热门词汇,当一个词汇的词频数达到一定阈值后即称之为热词,例如商品名称、新闻热点等。场景关键词为各个场景中的关键词,场景可以为售后、咨询等场景,关键词可以为没有货、没有上市等。热词场景关联关系信息为反映热词与场景关键词之间的关联关系的信息,可以为文本,也可以为图、树等数据结构形式。热词、场景关键词以及热词与场景关键词之间的对应关系可以动态配置,热词场景关联关系信息可以动态生成,建立热词场景关联关系信息可以有多种方式。
步骤102,对语音信息进行识别,获得语音识别文本。
可以采用多种技术对语音信息进行识别。例如,对语音信息进行的语音识别包括ASR识别等。ASR(Automatic Speech Recognition)自动语音识别技术,是为了在自动语音交互中,将用户音频识别为文字的技术。自动语音识别的流程为:语音采集,语音特征标注,训练基于深度学习的算法(RNN、CNN)训练模型,部署模型并通过模型实时识别,将语音转为文字。
步骤103,将热词场景关联关系信息与语音识别文本进行匹配处理。
例如,热词场景关联关系信息为图数据结构,图中的节点可以为热词、场景关键词等,可以将语音识别文本与图进行匹配处理,匹配处理可以使用现有的多种方法,获得匹配结果。
步骤104,基于匹配结果确定语音识别文本中是否有错误信息,如果有,则基于热词场景关联关系信息获得与错误信息相对应的替换信息,用以对错误信息进行替换处理。
在一个实施例中,可以建立热词拼音词典,使用热词拼音词典保存的热词场景拼音信息包括:热词、场景关键词、热词的拼音信息、场景关键词信息的拼音信息。场景关键词信息的拼音信息也可以不保存,在使用时实时获得。
例如,热词场景拼音信息如下表1所示,热词场景拼音信息可以配置,热词场景拼音信息可以动态修改或删除。
热词拼音 | 热词 | 场景关键词 |
xiao mi ba | 小米8 | 没到,送货,到哪了 |
ai feng cha | Iphone X | 没到,送货,到哪了 |
表1-热词拼音词典保存的热词场景拼音信息表
获得与热词相对应的第一拼音信息、与场景关键词相对应的第二拼音信息。根据对应关系确定热词与场景关键词拼连后的热点拼连语句。例如,热词为“华为手机”,对应的场景关键词为“收货”,则热点拼连语句为“华为手机收货”。基于第一拼音信息、第二拼音信息以及热点拼连语句建立热词场景关联关系信息,热词场景关联关系信息可以为热词场景无向图等。
例如,获得与热词“小米8”相对应的第一拼音信息、与场景关键词“没到,送货,到哪了”相对应的第二拼音信息。根据对应关系确定热词与场景关键词拼连后的热点拼连语句:“小米8没到”、“小米8送货”、“小米8到哪了”。基于第一拼音信息、第二拼音信息以及热点拼连语句建立热词场景无向图等。
图2为根据本公开的语音识别纠错方法的一个实施例中的生成热词场景无向图的流程示意图,如图2所示:
步骤201,将第一拼音信息和第二拼音信息的每个对应于不同字符的拼音作为节点。字符包括:汉字或其他符号,其他符号包括日文、德文等字符,或者希腊文、罗马数字等。
步骤202,根据热词和场景关键词的字符组成以及热点拼连语句的拼连关系,获得节点之间的连线。
步骤203,基于节点和连线生成热词场景无向图。边没有方向的图称为无向图,对热词拼音词典保存的每一个热词场景拼音信息都建立对应的热词场景无向图。
例如,如图3所示,在已配置的热词拼音词典中,利用热词的拼音和场景关键词的拼音进行组合,将热词和场景关键词中不同的单个字符的拼音作为节点,将热词的拼音和场景关键词的拼音拼接的拼音短句(热点拼连语句的拼音),按正向顺序构建热词场景无向图。热词拼音词典中的每一行都会新建热词场景无向图并存储在内存中,构建热词场景无向图可以使用现有的多种方法。
例如,热词对应的第一拼音信息为“xiao mi ba”,该热词对应的场景关键词有“没到”(mei dao)、“到没”(dao mei)、“送货”(song huo)、“到哪了”(dao na le),“没了”(meile),“没货”(mei huo),“没送”(mei song),“送没”(song mei)等。不同的单个字符的拼音作为节点,根据热词和场景关键词的字符组成以及热点拼连语句的拼连关系,获得节点之间的连线,基于节点和连线生成所图3所示的热词场景无向图。
在一个实施例中,获得与语音识别文本相对应的第三拼音信息,将热词场景关联关系信息与第三拼音信息进行匹配处理,获得与第三拼音信息相对应的识别文本拼音序列。在热词场景无向图中确定与热点拼连语句相对应的热点拼连语句路径,可以采用现有的多种搜索算法,在在热词场景无向图中确定热点拼连语句路径。将识别文本拼音序列中的各个第一拼音顺序地与热点拼连语句路径中的各个节点对应的第二拼音进行一一对应匹配,用以基于匹配结果确定语音识别文本中是否有错误信息。
图4为根据本公开的语音识别纠错方法的一个实施例中的进行双向匹配处理的流程示意图,如图4所示:
步骤401,获得与语音识别文本相对应的第三拼音信息。
步骤402,获得与第三拼音信息相对应的识别文本拼音序列,识别文本拼音序列包括:正向识别文本拼音序列和反向识别文本拼音序列。
步骤403,在热词场景无向图中确定与热点拼连语句相对应的热点拼连语句路径。
步骤404,将正向识别文本拼音序列中的各个第一拼音分别顺序地与语句路径中的各个节点对应的第二拼音进行一一对应正向匹配处理。
步骤405,将反向识别文本拼音序列中的各个第一拼音分别顺序地与语句路径中的各个节点对应的第二拼音进行一一对应反向匹配处理。
步骤406,如果正向识别文本拼音序列和反向识别文本拼音序列中的第一拼音与第二拼音的匹配不成功都对应于热点拼连语句路径中的同一节点,则获得此节点对应的字符替换此第一拼音所对应的字符。
如果正向识别文本拼音序列和反向识别文本拼音序列中的全部第一拼音都与第二拼音一一匹配成功,则判断第一拼音与第二拼音对应的字符是否相同,如果否,则使用第二拼音对应的字符替换第一拼音对应的字符。
例如,使用文字转拼音库,获得与语音识别文本相对应的第三拼音信息。语音识别文本“笑眯吧没到”转为第三拼音“xiao mi ba mei dao”,语音识别文本“小米博到哪了”转为第三拼音“xiao mi bo dao na le”。上述的两个语音识别文本存在两种错误情况,一种时识别到同音字,一种是部分音频识别错误。
获得与第三拼音信息相对应的识别文本拼音序列,可以将识别文本拼音序列按照双向匹配算法依次遍历所有的热词场景无向图,可以采用现有的多种搜索算法进行遍历。通过纠错和反复匹配的方式,将完全匹配的结果返回,并将匹配到的拼音序列对应的文字替换为热词场景无向图中的文字序列。
如图5所示,获得与第三拼音信息“xiao mi ba mei dao”相对应的正向识别文本拼音序列{xiao,mi,ba,mei,dao}和反向识别文本拼音序列{dao,mei,ba,mi,xiao}。在热词场景无向图中确定与全部热点拼连语句相对应的热点拼连语句路径,热点拼连语句包括“小米8没到”。
采用双向匹配,同时从正向识别文本拼音序列{xiao,mi,ba,mei,dao}的开头拼音“xiao”开始在图中对全部热点拼连语句路径进行一一对应正向匹配,从反向识别文本拼音序列{dao,mei,ba,mi,xiao}的开头拼音“dao”开始在图中对全部热点拼连语句路径进行一一对应反向匹配。
正向匹配和反向匹配都匹配到图中的热点拼连语句“小米8没到”,返回匹配结果。由于语音识别文本“笑眯吧没到”的三个字符“笑眯吧”与“小米8没到”中的“小米8”不相同,则使用“小米8”替换“笑眯吧”,将语音识别文本替换为无向图匹配到图中的热点拼连语句“小米8没到”。
获得与第三拼音信息“xiao mi bo dao na le”相对应的正向识别文本拼音序列{xiao,mi,bo,dao,na,le}和反向识别文本拼音序列{le,na,dao,bo,mi,xiao}。在热词场景无向图中确定与全部热点拼连语句相对应的热点拼连语句路径,热点拼连语句包括“小米8到哪了”。
采用双向匹配,分别从正向识别文本拼音序列{xiao,mi,bo,dao,na,le}的开头拼音“xiao”开始在图中对全部热点拼连语句路径进行一一对应正向匹配,从反向识别文本拼音序列{le,na,dao,bo,mi,xiao}的开头拼音“le”开始在图中对全部热点拼连语句路径进行一一对应反向匹配。
正向匹配在匹配了xiao-mi-bo后结束,反向匹配在匹配了le-na-dao-bo后结束,此时正、反向匹配不正确的节点都是“ba”对应的节点,将“bo”替换为与此节点对应的拼音“ba”并重新匹配。如果正向匹配和反向匹配都匹配到图中的热点拼连语句“小米8到哪了”,则将语音识别文本替换为无向图匹配到图中的热点拼连语句“小米8到哪了”。
基于热词拼音词典构建的无向图,可以使用了双向匹配算法进行匹配,如果能完全匹配到或纠错后能完全匹配,就替换原文字为匹配结果映射的文字,否则不替换。正、反向匹配在同一个节点处不正确并结束,可直接将匹配不正确的拼音与此节点对应的拼音进行替换。只有一个纠错层级,例如,“bo”被替换后正、反向匹配仍出现不匹配,则结束对此热点拼连语句的匹配。
在一个实施例中,如图6所示,本公开提供一种语音识别纠错装置60,包括:关联信息建立模块61、语音文本获得模块62、文本匹配处理模块63和匹配结果处理模块64。关联信息建立模块61基于热词、场景关键词以及热词与场景关键词之间的对应关系,建立热词场景关联关系信息。
关联信息建立模块61可以建立热词拼音词典,使用热词拼音词典保存的热词场景拼音信息包括:热词、场景关键词、第一拼音信息和第二拼音信息等。语音文本获得模块62对语音信息进行识别,获得语音识别文本。
文本匹配处理模块63将热词场景关联关系信息与语音识别文本进行匹配处理。匹配结果处理模块64基于匹配结果确定语音识别文本中是否有错误信息,如果有,则匹配结果处理模块64基于热词场景关联关系信息获得与错误信息相对应的替换信息,用以对错误信息进行替换处理。
在一个实施例中,如图7所示,关联信息建立模块61包括:拼音获得单元611、拼接确定单元612和关联生成单元613。拼音获得单元611获得与热词相对应的第一拼音信息、与场景关键词相对应的第二拼音信息。拼接确定单元612根据对应关系确定热词与场景关键词拼连后的热点拼连语句。
关联生成单元613基于第一拼音信息、第二拼音信息以及热点拼连语句建立热词场景关联关系信息。文本匹配处理模块63获得与语音识别文本相对应的第三拼音信息,将热词场景关联关系信息与第三拼音信息进行匹配处理。
热词场景关联关系信息包括:热词场景无向图。关联生成单613将第一拼音信息和第二拼音信息的每个对应于不同字符的拼音作为节点,字符包括:汉字或其他符号等。关联生成单613根据热词和场景关键词的字符组成以及热点拼连语句的拼连关系,获得节点之间的连线。关联生成单613基于节点和连线生成热词场景无向图。关联生成单元613对每一个热词场景拼音信息建立对应的热词场景无向图。
在一个实施例中,如图8所示,文本匹配处理模块63包括:拼音序列获得单元631、匹配路径确定单元632和拼音匹配单元633。拼音序列获得单元631获得与第三拼音信息相对应的识别文本拼音序列。匹配路径确定单元632在热词场景无向图中确定与热点拼连语句相对应的热点拼连语句路径。拼音匹配单元633将识别文本拼音序列中的各个第一拼音顺序地与热点拼连语句路径中的各个节点对应的第二拼音进行一一对应匹配,用以基于匹配结果确定语音识别文本中是否有错误信息。
识别文本拼音序列包括:正向识别文本拼音序列和反向识别文本拼音序列。拼音匹配单元633将正向识别文本拼音序列中的各个第一拼音分别顺序地与语句路径中的各个节点对应的第二拼音进行一一对应正向匹配处理。拼音匹配单元633将反向识别文本拼音序列中的各个第一拼音分别顺序地与语句路径中的各个节点对应的第二拼音进行一一对应反向匹配处理,
如果正向识别文本拼音序列和反向识别文本拼音序列中的第一拼音与第二拼音的匹配不成功都对应于热点拼连语句路径中的同一节点,则匹配结果处理模块64获得此节点对应的字符替换此第一拼音所对应的字符。如果正向识别文本拼音序列和反向识别文本拼音序列中的全部第一拼音都与第二拼音一一匹配成功,则匹配结果处理模块64判断第一拼音与第二拼音对应的字符是否相同,如果否,则匹配结果处理模块64使用第二拼音对应的字符替换第一拼音对应的字符。
图9为根据本公开的语音识别纠错系统的另一个实施例的模块示意图。如图9所示,该装置可包括存储器91、处理器92、通信接口93以及总线94。存储器91用于存储指令,处理器92耦合到存储器91,处理器92被配置为基于存储器91存储的指令执行实现上述的语音识别纠错方法。
存储器91可以为高速RAM存储器、非易失性存储器(non-volatile memory)等,存储器91也可以是存储器阵列。存储器91还可能被分块,并且块可按一定的规则组合成虚拟卷。处理器92可以为中央处理器CPU,或专用集成电路ASIC(Application SpecificIntegrated Circuit),或者是被配置成实施本公开的语音识别纠错方法的一个或多个集成电路。
根据本公开的再一方面,提供一种计算机可读存储介质,计算机可读存储介质存储有计算机指令,指令被处理器执行如上的方法。
上述实施例中的语音识别纠错方法、装置以及存储介质,基于热词、场景关键词以及热词与场景关键词之间的对应关系,建立热词场景关联关系信息,热词场景关联关系信息可以为热词场景无向图等,将热词场景关联关系信息与语音识别文本进行匹配处理,获得与错误信息相对应的替换信息进行替换处理;能够动态设置热词,可以在短时间内提高热词的识别准确率,适应不断变化的场景需求,并可以快速生效、部署,无需重新训练模型;针对热词的变化,可通过动态调整配置实现动态热词的修改;对于同音错字和单个错音错字等错误,采用无向图和双向匹配的算法,能够提高识别准确率和算法的效率、性能,可以提高用户的使用感受度。
可能以许多方式来实现本公开的方法和系统。例如,可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法和系统。用于方法的步骤的上述顺序仅是为了进行说明,本公开的方法的步骤不限于以上具体描述的顺序,除非以其它方式特别说明。此外,在一些实施例中,还可将本公开实施为记录在记录介质中的程序,这些程序包括用于实现根据本公开的方法的机器可读指令。因而,本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。
本公开的描述是为了示例和描述起见而给出的,而并不是无遗漏的或者将本公开限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本公开的原理和实际应用,并且使本领域的普通技术人员能够理解本公开从而设计适于特定用途的带有各种修改的各种实施例。
Claims (12)
1.一种语音识别纠错方法,包括:
基于热词、场景关键词以及所述热词与所述场景关键词之间的对应关系,建立热词场景关联关系信息;
对语音信息进行识别,获得语音识别文本;
将所述热词场景关联关系信息与所述语音识别文本进行匹配处理;
基于匹配结果确定所述语音识别文本中是否有错误信息,如果有,则基于所述热词场景关联关系信息获得与所述错误信息相对应的替换信息,用以对所述错误信息进行替换处理。
2.如权利要求1所述的方法,所述建立热词场景关联关系信息包括:
获得与所述热词相对应的第一拼音信息、与所述场景关键词相对应的第二拼音信息;
根据所述对应关系确定所述热词与所述场景关键词拼连后的热点拼连语句;
基于所述第一拼音信息、所述第二拼音信息以及所述热点拼连语句建立所述热词场景关联关系信息。
3.如权利要求2所述的方法,所述将所述热词场景关联关系信息与所述语音识别文本进行匹配处理包括:
获得与所述语音识别文本相对应的第三拼音信息;
将所述热词场景关联关系信息与所述第三拼音信息进行匹配处理。
4.如权利要求3所述的方法,所述热词场景关联关系信息包括:热词场景无向图;所述建立所述热词场景关联关系信息包括:
将所述第一拼音信息和所述第二拼音信息的每个对应于不同字符的拼音作为节点;其中,所述字符包括:汉字或其他符号;
根据所述热词和所述场景关键词的字符组成以及所述热点拼连语句的拼连关系,获得所述节点之间的连线;
基于所述节点和所述连线生成所述热词场景无向图。
5.如权利要求4所述的方法,所述将所述热词场景关联关系信息与所述第三拼音信息进行匹配处理包括:
获得与所述第三拼音信息相对应的识别文本拼音序列;
在所述热词场景无向图中确定与所述热点拼连语句相对应的热点拼连语句路径;
将所述识别文本拼音序列中的各个第一拼音顺序地与所述热点拼连语句路径中的各个节点对应的第二拼音进行一一对应匹配,用以基于匹配结果确定所述语音识别文本中是否有错误信息。
6.如权利要求5所述的方法,所述识别文本拼音序列包括:正向识别文本拼音序列和反向识别文本拼音序列;所述进行一一对应匹配处理包括:
将所述正向识别文本拼音序列中的各个第一拼音分别顺序地与所述语句路径中的各个节点对应的第二拼音进行一一对应正向匹配处理;
将所述反向识别文本拼音序列中的各个第一拼音分别顺序地与所述语句路径中的各个节点对应的第二拼音进行一一对应反向匹配处理;
如果所述正向识别文本拼音序列和所述反向识别文本拼音序列中的第一拼音与所述第二拼音的匹配不成功都对应于所述热点拼连语句路径中的同一节点,则获得此节点对应的字符替换此第一拼音所对应的字符。
7.如权利要求6所述的方法,所述进行一一对应匹配处理包括:
如果所述正向识别文本拼音序列和所述反向识别文本拼音序列中的全部第一拼音都与所述第二拼音一一匹配成功,则判断所述第一拼音与所述第二拼音对应的字符是否相同;
如果否,则使用所述第二拼音对应的字符替换所述第一拼音对应的字符。
8.如权利要求4所述的方法,还包括:
建立热词拼音词典,使用所述热词拼音词典保存的热词场景拼音信息包括:所述热词、场景关键词、所述第一拼音信息和所述第二拼音信息;
对每一个热词场景拼音信息建立对应的热词场景无向图。
9.如权利要求1至8任一项所述的方法,其中,
对所述语音信息进行的语音识别包括:ASR识别。
10.一种语音识别纠错装置,包括:
关联信息建立模块,用于基于热词、场景关键词以及所述热词与所述场景关键词之间的对应关系,建立热词场景关联关系信息;
语音文本获得模块,用于对语音信息进行识别,获得语音识别文本;
文本匹配处理模块,用于将所述热词场景关联关系信息与所述语音识别文本进行匹配处理;
匹配结果处理模块,用于基于匹配结果确定所述语音识别文本中是否有错误信息,如果有,则基于所述热词场景关联关系信息获得与所述错误信息相对应的替换信息,用以对所述错误信息进行替换处理。
11.一种语音识别纠错装置,包括:
存储器;以及耦接至所述存储器的处理器,所述处理器被配置为基于存储在所述存储器中的指令,执行如权利要求1至9中任一项所述的方法。
12.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述指令被处理器执行如权利要求1至9中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910196253.3A CN111696545B (zh) | 2019-03-15 | 2019-03-15 | 语音识别纠错方法、装置以及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910196253.3A CN111696545B (zh) | 2019-03-15 | 2019-03-15 | 语音识别纠错方法、装置以及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111696545A true CN111696545A (zh) | 2020-09-22 |
CN111696545B CN111696545B (zh) | 2023-11-03 |
Family
ID=72475837
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910196253.3A Active CN111696545B (zh) | 2019-03-15 | 2019-03-15 | 语音识别纠错方法、装置以及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111696545B (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112036162A (zh) * | 2020-11-06 | 2020-12-04 | 北京世纪好未来教育科技有限公司 | 文本纠错的适配方法、装置、电子设备及存储介质 |
CN112349278A (zh) * | 2020-11-12 | 2021-02-09 | 苏州思必驰信息科技有限公司 | 本地热词训练和识别方法及装置 |
CN112581964A (zh) * | 2020-12-04 | 2021-03-30 | 浙江大有实业有限公司杭州科技发展分公司 | 一种面向多领域的智能语音交互方法 |
CN113051895A (zh) * | 2021-03-18 | 2021-06-29 | 中国工商银行股份有限公司 | 语音识别的方法、装置、电子设备、介质和程序产品 |
CN113160822A (zh) * | 2021-04-30 | 2021-07-23 | 北京百度网讯科技有限公司 | 语音识别处理方法、装置、电子设备以及存储介质 |
CN113436614A (zh) * | 2021-07-02 | 2021-09-24 | 科大讯飞股份有限公司 | 语音识别方法、装置、设备、系统及存储介质 |
WO2022135414A1 (zh) * | 2020-12-24 | 2022-06-30 | 深圳Tcl新技术有限公司 | 语音识别结果的纠错方法、装置、终端设备及存储介质 |
CN117034031A (zh) * | 2023-08-08 | 2023-11-10 | 武汉交通职业学院 | 基于沟通场景的语句生成方法及装置 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050137939A1 (en) * | 2003-12-19 | 2005-06-23 | Palo Alto Research Center Incorporated | Server-based keyword advertisement management |
CN103198149A (zh) * | 2013-04-23 | 2013-07-10 | 中国科学院计算技术研究所 | 一种查询纠错方法和系统 |
CN104035966A (zh) * | 2014-05-16 | 2014-09-10 | 百度在线网络技术(北京)有限公司 | 一种提供扩展搜索项的方法与装置 |
CN104156454A (zh) * | 2014-08-18 | 2014-11-19 | 腾讯科技(深圳)有限公司 | 搜索词的纠错方法和装置 |
CN104424342A (zh) * | 2013-09-11 | 2015-03-18 | 携程计算机技术(上海)有限公司 | 关键字匹配方法及其装置、服务器和系统 |
CN105786880A (zh) * | 2014-12-24 | 2016-07-20 | 中兴通讯股份有限公司 | 语音识别的方法、客户端及终端设备 |
CN107229627A (zh) * | 2016-03-24 | 2017-10-03 | 华为技术有限公司 | 一种文本处理方法、装置及计算设备 |
CN107608963A (zh) * | 2017-09-12 | 2018-01-19 | 马上消费金融股份有限公司 | 一种基于互信息的中文纠错方法、装置、设备及存储介质 |
-
2019
- 2019-03-15 CN CN201910196253.3A patent/CN111696545B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050137939A1 (en) * | 2003-12-19 | 2005-06-23 | Palo Alto Research Center Incorporated | Server-based keyword advertisement management |
CN103198149A (zh) * | 2013-04-23 | 2013-07-10 | 中国科学院计算技术研究所 | 一种查询纠错方法和系统 |
CN104424342A (zh) * | 2013-09-11 | 2015-03-18 | 携程计算机技术(上海)有限公司 | 关键字匹配方法及其装置、服务器和系统 |
CN104035966A (zh) * | 2014-05-16 | 2014-09-10 | 百度在线网络技术(北京)有限公司 | 一种提供扩展搜索项的方法与装置 |
CN104156454A (zh) * | 2014-08-18 | 2014-11-19 | 腾讯科技(深圳)有限公司 | 搜索词的纠错方法和装置 |
CN105786880A (zh) * | 2014-12-24 | 2016-07-20 | 中兴通讯股份有限公司 | 语音识别的方法、客户端及终端设备 |
CN107229627A (zh) * | 2016-03-24 | 2017-10-03 | 华为技术有限公司 | 一种文本处理方法、装置及计算设备 |
CN107608963A (zh) * | 2017-09-12 | 2018-01-19 | 马上消费金融股份有限公司 | 一种基于互信息的中文纠错方法、装置、设备及存储介质 |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112036162A (zh) * | 2020-11-06 | 2020-12-04 | 北京世纪好未来教育科技有限公司 | 文本纠错的适配方法、装置、电子设备及存储介质 |
CN112036162B (zh) * | 2020-11-06 | 2021-02-12 | 北京世纪好未来教育科技有限公司 | 文本纠错的适配方法、装置、电子设备及存储介质 |
WO2022095563A1 (zh) * | 2020-11-06 | 2022-05-12 | 北京世纪好未来教育科技有限公司 | 文本纠错的适配方法、装置、电子设备及存储介质 |
CN112349278A (zh) * | 2020-11-12 | 2021-02-09 | 苏州思必驰信息科技有限公司 | 本地热词训练和识别方法及装置 |
CN112581964A (zh) * | 2020-12-04 | 2021-03-30 | 浙江大有实业有限公司杭州科技发展分公司 | 一种面向多领域的智能语音交互方法 |
WO2022135414A1 (zh) * | 2020-12-24 | 2022-06-30 | 深圳Tcl新技术有限公司 | 语音识别结果的纠错方法、装置、终端设备及存储介质 |
CN113051895A (zh) * | 2021-03-18 | 2021-06-29 | 中国工商银行股份有限公司 | 语音识别的方法、装置、电子设备、介质和程序产品 |
CN113160822A (zh) * | 2021-04-30 | 2021-07-23 | 北京百度网讯科技有限公司 | 语音识别处理方法、装置、电子设备以及存储介质 |
CN113436614A (zh) * | 2021-07-02 | 2021-09-24 | 科大讯飞股份有限公司 | 语音识别方法、装置、设备、系统及存储介质 |
CN113436614B (zh) * | 2021-07-02 | 2024-02-13 | 中国科学技术大学 | 语音识别方法、装置、设备、系统及存储介质 |
CN117034031A (zh) * | 2023-08-08 | 2023-11-10 | 武汉交通职业学院 | 基于沟通场景的语句生成方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN111696545B (zh) | 2023-11-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111696545B (zh) | 语音识别纠错方法、装置以及存储介质 | |
US11322153B2 (en) | Conversation interaction method, apparatus and computer readable storage medium | |
TWI677796B (zh) | 自然語言的語義提取方法及裝置和電腦儲存介質 | |
US10446146B2 (en) | Learning apparatus and method | |
CN103430232B (zh) | 利用设备停靠情境的语音识别 | |
AU2014212844B2 (en) | Character and word level language models for out-of-vocabulary text input | |
CN111523306A (zh) | 文本的纠错方法、装置和系统 | |
US20140012567A1 (en) | Text Auto-Correction via N-Grams | |
US20080147380A1 (en) | Method, Apparatus and Computer Program Product for Providing Flexible Text Based Language Identification | |
CN111428474A (zh) | 基于语言模型的纠错方法、装置、设备及存储介质 | |
CN107239547B (zh) | 用于语音点歌的语音纠错方法、终端及存储介质 | |
CN106534548A (zh) | 语音纠错方法和装置 | |
WO2017161899A1 (zh) | 一种文本处理方法、装置及计算设备 | |
JP2020004382A (ja) | 音声対話方法及び装置 | |
CN103577989A (zh) | 一种基于产品识别的信息分类方法及信息分类系统 | |
KR101446468B1 (ko) | 자동완성 질의어 제공 시스템 및 방법 | |
JPWO2009087996A1 (ja) | 情報抽出装置及び情報抽出システム | |
CN112562659B (zh) | 语音识别方法、装置、电子设备和存储介质 | |
CN108875743B (zh) | 一种文本识别方法及装置 | |
EP4425484A1 (en) | Speech recognition method and apparatus, device, and storage medium | |
CN113436614A (zh) | 语音识别方法、装置、设备、系统及存储介质 | |
CN107329964B (zh) | 一种文本处理方法及装置 | |
KR20190090636A (ko) | 문서 자동 편집 방법 | |
CN112527967A (zh) | 文本匹配方法、装置、终端和存储介质 | |
CN111797614B (zh) | 文本处理方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20210526 Address after: 100176 room 1004, 10th floor, building 1, 18 Kechuang 11th Street, Beijing Economic and Technological Development Zone, Daxing District, Beijing Applicant after: Beijing Huijun Technology Co.,Ltd. Address before: 100086 8th Floor, 76 Zhichun Road, Haidian District, Beijing Applicant before: BEIJING JINGDONG SHANGKE INFORMATION TECHNOLOGY Co.,Ltd. Applicant before: BEIJING JINGDONG CENTURY TRADING Co.,Ltd. |
|
TA01 | Transfer of patent application right | ||
GR01 | Patent grant | ||
GR01 | Patent grant |