CN107544726A - 基于人工智能的语音识别结果纠错方法、装置及存储介质 - Google Patents
基于人工智能的语音识别结果纠错方法、装置及存储介质 Download PDFInfo
- Publication number
- CN107544726A CN107544726A CN201710536744.9A CN201710536744A CN107544726A CN 107544726 A CN107544726 A CN 107544726A CN 201710536744 A CN201710536744 A CN 201710536744A CN 107544726 A CN107544726 A CN 107544726A
- Authority
- CN
- China
- Prior art keywords
- user
- tagged object
- identification result
- voice identification
- scoring
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了基于人工智能的语音识别结果纠错方法、装置及存储介质,其中方法包括:根据各用户对于语音识别结果的历史修改轨迹,确定出被修改过的字或词,作为标注对象,并分别确定出每个标注对象的评分;获取用户输入的语音的语音识别结果,确定出其中评分大于预定阈值的标记对象;将语音识别结果展示给用户,并对确定出的标记对象进行标记;当接收到用户针对任一标记对象的展示指令时,将该标记对象对应的替换候选项展示给用户,供用户从中进行选择,并用选中的替换候选项替换该标记对象。应用本发明所述方案,能够提高用户的输入效率等。
Description
【技术领域】
本发明涉及计算机应用技术,特别涉及基于人工智能的语音识别结果纠错方法、装置及存储介质。
【背景技术】
人工智能(Artificial Intelligence),英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。
随着技术的不断发展,语音识别技术的应用越来越广泛,比如,用户在编辑信息时,可通过语音的方式进行输入,针对用户输入的语音,可通过语音识别技术,得到文本形式的语音识别结果,进而可将文本形式的语音识别结果发送给其它用户等。
但是,由于各种原因,语音识别结果中很可能会出现错误,一旦出现错误,用户则需要手动进行修改。
表一~表四分别为不同原因所导致的识别错误及对应的修改:
表一近音字修改
修改前 | 修改后 |
是不是被哪个情人哪去了? | 是不是被哪个情人拿去了? |
你这个躺着了么久了好老火啊! | 你这个烫着了么久了好老火啊! |
142张啊! | 142章啊! |
你有一没见你该是谁? | 你有一枚剑你该是谁? |
表二同音字/词修改
表三人称修改
表四语气词修改
当然,以上仅为举例说明,实际修改不仅限于以上所示。
现有技术中,对于识别错误,用户需要手动进行修改,比如,需要将表四中的“啊”修改为“哦”,具体修改方式为:将语音识别结果展示给用户,用户将光标移动到“啊”字后面,删除“啊”,并通过键盘输入正确的字“哦”。
如果语音识别结果中存在多处识别错误,需要分别按照上述方式进行修改。
可以看出,上述过程实现起来非常繁琐,从而降低了用户的输入效率。
【发明内容】
有鉴于此,本发明提供了基于人工智能的语音识别结果纠错方法、装置及存储介质,能够提高用户的输入效率。
具体技术方案如下:
一种基于人工智能的语音识别结果纠错方法,包括:
根据各用户对于语音识别结果的历史修改轨迹,确定出被修改过的字或词,作为标注对象,并分别确定出每个标注对象的评分;
获取用户输入的语音的语音识别结果,确定出其中评分大于预定阈值的标记对象;
将所述语音识别结果展示给所述用户,并对确定出的标记对象进行标记;
当接收到所述用户针对任一标记对象的展示指令时,将所述标记对象对应的替换候选项展示给所述用户,供所述用户从中进行选择,并用选中的替换候选项替换所述标记对象。
根据本发明一优选实施例,所述分别确定出每个标注对象的评分包括:
针对每个标记对象,至少根据所述标记对象的修改频率对所述标记对象进行评分,修改频率越高,评分越高。
根据本发明一优选实施例,所述获取用户输入的语音的语音识别结果,确定出其中评分大于预定阈值的标记对象之前,进一步包括:
根据各用户对于语音识别结果的历史修改轨迹,针对每个标记对象,分别确定出用于替换所述标记对象的内容,并选取出替换次数最多的N个内容作为所述标记对象对应的替换候选项,N为正整数。
根据本发明一优选实施例,所述将所述标记对象对应的替换候选项展示给所述用户包括:
根据所述用户的用户标签,确定所述用户所属的类型;
将所述标记对象对应于所述用户所属的类型的替换候选项展示给所述用户。
根据本发明一优选实施例,所述获取用户输入的语音的语音识别结果,确定出其中评分大于预定阈值的标记对象之前,进一步包括:
针对每个类型,分别进行以下处理:
根据属于所述类型的各用户的历史修改轨迹,针对被修改过的每个标记对象,分别确定出用于替换所述标记对象的内容,并选取出替换次数最多的N个内容作为所述标记对象对应于所述类型的替换候选项,N为正整数。
根据本发明一优选实施例,所述根据各用户对于语音识别结果的历史修改轨迹,确定出被修改过的字或词,作为标注对象,并分别确定出每个标注对象的评分包括:
针对每个类型,分别进行以下处理:
根据属于所述类型的各用户的历史修改轨迹,确定出被修改过的字或词,作为标注对象,组成对应于所述类型的标记对象集,并分别确定出其中的每个标记对象的评分;
所述获取用户输入的语音的语音识别结果,确定出其中评分大于预定阈值的标记对象包括:
获取用户输入的语音的语音识别结果;
根据所述用户的用户标签,确定出所述用户所属的类型;
确定出所述语音识别结果中评分大于预定阈值且位于所述用户所属的类型对应的标记对象集中的标记对象。
一种基于人工智能的语音识别结果纠错装置,包括:预处理单元以及纠错单元;
所述预处理单元,用于根据各用户对于语音识别结果的历史修改轨迹,确定出被修改过的字或词,作为标注对象,并分别确定出每个标注对象的评分;
所述纠错单元,用于获取用户输入的语音的语音识别结果,确定出其中评分大于预定阈值的标记对象;将所述语音识别结果展示给所述用户,并对确定出的标记对象进行标记;当接收到所述用户针对任一标记对象的展示指令时,将所述标记对象对应的替换候选项展示给所述用户,供所述用户从中进行选择,并用选中的替换候选项替换所述标记对象。
根据本发明一优选实施例,所述预处理单元针对每个标记对象,至少根据所述标记对象的修改频率对所述标记对象进行评分,修改频率越高,评分越高。
根据本发明一优选实施例,所述预处理单元进一步用于,根据各用户对于语音识别结果的历史修改轨迹,针对每个标记对象,分别确定出用于替换所述标记对象的内容,并选取出替换次数最多的N个内容作为所述标记对象对应的替换候选项,N为正整数。
根据本发明一优选实施例,所述纠错单元进一步用于,根据所述用户的用户标签,确定所述用户所属的类型,将所述标记对象对应于所述用户所属的类型的替换候选项展示给所述用户。
根据本发明一优选实施例,所述预处理单元进一步用于,针对每个类型,分别进行以下处理:
根据属于所述类型的各用户的历史修改轨迹,针对被修改过的每个标记对象,分别确定出用于替换所述标记对象的内容,并选取出替换次数最多的N个内容作为所述标记对象对应于所述类型的替换候选项,N为正整数。
根据本发明一优选实施例,所述预处理单元进一步用于,针对每个类型,分别进行以下处理:
根据属于所述类型的各用户的历史修改轨迹,确定出被修改过的字或词,作为标注对象,组成对应于所述类型的标记对象集,并分别确定出其中的每个标记对象的评分;
所述纠错单元进一步用于,获取用户输入的语音的语音识别结果,根据所述用户的用户标签,确定出所述用户所属的类型,确定出所述语音识别结果中评分大于预定阈值且位于所述用户所属的类型对应的标记对象集中的标记对象。
一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现如以上所述的方法。
一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现如以上所述的方法。
基于上述介绍可以看出,采用本发明所述方案,可预先根据各用户对于语音识别结果的历史修改轨迹,确定出被修改过的字或词,作为标注对象,并分别确定出每个标注对象的评分,这样,在用户进行语音输入时,可针对获取到的语音识别结果,首先确定出其中评分大于预定阈值的标记对象,之后可将语音识别结果展示给用户,并对确定出的标记对象进行标记,如果用户希望对所标记的任一标记对象进行修改,那么只需从所展示的该标记对象对应的替换候选项中进行选择,后续即可利用所选择的内容对该标记对象进行自动替换,从而相比于现有技术简化了用户操作,进而提高了用户的输入效率。
【附图说明】
图1为本发明所述基于人工智能的语音识别结果纠错方法第一实施例的流程图。
图2为本发明所述对确定出的标记对象进行标记的方式示意图。
图3为本发明所述展示标记对象对应的替换候选项的方式示意图。
图4为本发明所述基于人工智能的语音识别结果纠错方法第二实施例的流程图。
图5为本发明所述基于人工智能的语音识别结果纠错方法第三实施例的流程图。
图6为本发明所述基于人工智能的语音识别结果纠错装置实施例的组成结构示意图。
图7示出了适于用来实现本发明实施方式的示例性计算机系统/服务器12的框图。
【具体实施方式】
为了使本发明的技术方案更加清楚、明白,以下参照附图并举实施例,对本发明所述方案进行进一步说明。
显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
图1为本发明所述基于人工智能的语音识别结果纠错方法第一实施例的流程图,如图1所示,包括以下具体实现方式。
在101中,根据各用户对于语音识别结果的历史修改轨迹,确定出被修改过的字或词,作为标注对象,并分别确定出每个标注对象的评分。
为实现本实施例所述方案,需要首先获取各用户对于语音识别结果的历史修改轨迹,比如,可获取过往所有时间内的各用户对于语音识别结果的历史修改轨迹,或者,也可以获取最近预定时长内如最近一个月内各用户对于语音识别结果的历史修改轨迹,具体实现方式不限。
修改轨迹即指用户对语音识别结果中的哪些字或词进行了修改以及如何进行修改等,比如,将“啊”修改成了“哦”。
在获取到各用户对于语音识别结果的历史修改轨迹之后,可将被修改过的字或词作为标记对象,并分别确定出每个标注对象的评分。
具体地,针对每个标记对象,可至少根据该标记对象的修改频率对该标记对象进行评分,修改频率越高,评分越高。
如何进行评分不作限制,可根据实际需要而定。
另外,还可针对每个标记对象,分别确定出其对应的替换候选项。
比如,可根据各用户对于语音识别结果的历史修改轨迹,针对每个标记对象,分别确定出用于替换该标记对象的内容,并选取出替换次数最多的N个内容作为该标记对象对应的替换候选项,N为正整数,具体取值可根据实际需要而定,通常大于一。
举例说明:
对于标记对象“哈”,根据各用户对于语音识别结果的历史修改轨迹,发现该标记对象经常被替换/修改为“啊”和“啦”,那么则可将“啊”和“啦”作为标记对象“哈”对应的替换候选项;
另外,如果用“啊”来替换标记对象“哈”的次数多于用“哦”来替换标记对象“哈”的次数,那么后续在展示替换候选项时,“啊”可排在“哦”的前面。
在102中,获取用户输入的语音的语音识别结果,确定出其中评分大于预定阈值的标记对象。
在完成上述处理之后,即可进行实际的语音识别结果纠错。
具体地,在获取到用户输入的语音后,可首先按照现有语音识别技术得到文本形式的语音识别结果,之后,可确定出语音识别结果中包括的评分大于预定阈值的标记对象。
所述阈值的具体取值同样可根据实际需要而定。
在103中,将语音识别结果展示给用户,并对确定出的标记对象进行标记。
即在将语音识别结果展示给用户的同时,为102中确定出的标记对象加上特定标记,将所述标记一并展示给用户。
图2为本发明所述对确定出的标记对象进行标记的方式示意图,如图2所示,用户完成语音输入之后,可在输入框中展示语音识别结果“李娟,他今天来了吗?”,假设“他”为需要进行标记的标记对象,那么可在“他”下面展示一个下划线。
在104中,当接收到用户针对任一标记对象的展示指令时,将该标记对象对应的替换候选项展示给用户,供用户从中进行选择,并用选中的替换候选项替换该标记对象。
如果用户发现语音识别结果中的某一标记对象出现了识别错误的情况,需要进行修改,那么则可发出展示指令,如点击该标记对象,作为响应,可将该标记对象对应的替换候选项展示给用户。
图3为本发明所述展示标记对象对应的替换候选项的方式示意图,如图3所示,用户点击“他”之后,将“他”对应的替换候选项“她”和“它”展示给用户,如果用户希望将“他”替换为“她”,那么直接点击“她”即可,从而用“她”替换语音识别结果“李娟,他今天来了吗?”中的“他”,如果所展示的替换候选项中不包含用户所需的字,那么可点击“取消”,后续可按照现有方式进行修改。
通过上述介绍可以看出,采用上述实施例所述方案,可预先根据各用户对于语音识别结果的历史修改轨迹,确定出被修改过的字或词,作为标注对象,并分别确定出每个标注对象的评分,这样,在用户进行语音输入时,可针对获取到的语音识别结果,首先确定出其中评分大于预定阈值的标记对象,之后可将语音识别结果展示给用户,并对确定出的标记对象进行标记,如果用户希望对所标记的任一标记对象进行修改,那么只需从所展示的该标记对象对应的替换候选项中进行选择,后续即可利用所选择的内容对该标记对象进行自动替换,从而相比于现有技术简化了用户操作,进而提高了用户的输入效率。
另外,可对用户按照上述方式进行修改的修改轨迹进行记录,并作为历史修改轨迹,对各标注对象的打分以及替换候选项等进行更新,如可定期进行更新,从而实现了对于整个方案的不断优化。
再有,为了使展示结果更具针对性,还可按照用户标签,对用户进行分类,进而按照不同的类型,分别采用对应的处理方式,以下进行详细介绍。
图4为本发明所述基于人工智能的语音识别结果纠错方法第二实施例的流程图,如图4所示,包括以下具体实现方式。
在401中,根据各用户对于语音识别结果的历史修改轨迹,确定出被修改过的字或词,作为标注对象,并分别确定出每个标注对象的评分。
在402中,根据各用户的用户标签,对各用户进行分类,针对每个类型,分别按照403所示方式进行处理。
用户标签可以是指年龄、性别、兴趣、地理位置、说话习惯等,当然,也可以是其它信息。
如何获取用户标签为现有技术。
如何对用户进行分类可根据实际需要而定,比如,可根据用户的地理位置等将用户分为南方人和北方人。
在403中,根据属于该类型的各用户的历史修改轨迹,针对被修改过的每个标记对象,分别确定出用于替换该标记对象的内容,并选取出替换次数最多的N个内容作为该标记对象对应于该类型的替换候选项。
对于每个类型,可根据属于该类型的各用户的历史修改轨迹,分别确定出各标记对象对应于该类型的替换候选项。
在404中,获取用户输入的语音的语音识别结果,确定出其中评分大于预定阈值的标记对象。
在405中,将语音识别结果展示给用户,并对确定出的标记对象进行标记。
在406中,当接收到用户针对任一标记对象的展示指令时,根据用户的用户标签,确定出用户所属的类型,将该标记对象对应于用户所属的类型的替换候选项展示给用户,供用户从中进行选择,并用选中的替换候选项替换该标记对象。
采用图4所示方法实施例,针对同一标记对象,当不同的用户所属的类型不同时,可能会展示不同的替换候选项,不同的替换候选项可以是指包括的内容不同,也可以是指其中的各替换候选项的排序方式不同等。
通过上述方式,使得所展示的替换候选项更具针对性,符合用户的个性化需求。
图5为本发明所述基于人工智能的语音识别结果纠错方法第三实施例的流程图,如图5所示,包括以下具体实现方式。
在501中,获取各用户对于语音识别结果的历史修改轨迹,根据各用户的用户标签,对各用户进行分类,并针对每个类型,分别按照502~503所示方式进行处理。
在502中,根据属于该类型的各用户的历史修改轨迹,确定出被修改过的字或词,作为标注对象,组成对应于该类型的标记对象集,并分别确定出其中的每个标记对象的评分。
在503中,根据属于该类型的各用户的历史修改轨迹,针对标记对象集中的每个标记对象,分别确定出用于替换该标记对象的内容,并选取出替换次数最多的N个内容作为该标记对象对应于该类型的替换候选项。
在504中,获取用户输入的语音的语音识别结果,根据用户的用户标签,确定出用户所属的类型。
在505中,确定出语音识别结果中评分大于预定阈值且位于用户所属的类型对应的标记对象集中的标记对象。
在506中,将语音识别结果展示给用户,并对确定出的标记对象进行标记。
在507中,当接收到用户针对任一标记对象的展示指令时,将该标记对象对应于用户所属的类型的替换候选项展示给用户,供用户从中进行选择,并用选中的替换候选项替换该标记对象。
采用图5所示方法实施例,当不同的用户输入同一语音时,根据用户所属的类型的不同,可能会对语音识别结果中的不同标记对象进行标记,而且,针对同一标记对象,还可能会展示不同的替换候选项。
相比于图4所示方法实施例,图5所示方法实施例中对于用户的个性化特征体现地更为明显,从而使得所展示的替换候选项更具针对性。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。
以上是关于方法实施例的介绍,以下通过装置实施例,对本发明所述方案进行进一步说明。
图6为本发明所述基于人工智能的语音识别结果纠错装置实施例的组成结构示意图,如图6所示,包括:预处理单元601以及纠错单元602。
预处理单元601,用于根据各用户对于语音识别结果的历史修改轨迹,确定出被修改过的字或词,作为标注对象,并分别确定出每个标注对象的评分。
纠错单元602,用于获取用户输入的语音的语音识别结果,确定出其中评分大于预定阈值的标记对象;将语音识别结果展示给用户,并对确定出的标记对象进行标记;当接收到用户针对任一标记对象的展示指令时,将该标记对象对应的替换候选项展示给用户,供用户从中进行选择,并用选中的替换候选项替换该标记对象。
具体地,预处理单元601需要首先获取各用户对于语音识别结果的历史修改轨迹,比如,可获取过往所有时间内的各用户对于语音识别结果的历史修改轨迹,或者,也可以获取最近预定时长内如最近一个月内各用户对于语音识别结果的历史修改轨迹。
预处理单元601在获取到各用户对于语音识别结果的历史修改轨迹之后,可将被修改过的字或词作为标记对象,并分别确定出每个标注对象的评分。
其中,针对每个标记对象,可至少根据该标记对象的修改频率对该标记对象进行评分,修改频率越高,评分越高。
另外,预处理单元601还可针对每个标记对象,分别确定出其对应的替换候选项。
比如,预处理单元601可根据各用户对于语音识别结果的历史修改轨迹,针对每个标记对象,分别确定出用于替换该标记对象的内容,并选取出替换次数最多的N个内容作为该标记对象对应的替换候选项,N为正整数,具体取值可根据实际需要而定,通常大于一。
在完成上述处理之后,即可进行实际的语音识别结果纠错。
相应地,纠错单元602在获取到用户输入的语音后,可首先按照现有语音识别技术得到文本形式的语音识别结果,之后,可确定出语音识别结果中包括的评分大于预定阈值的标记对象。
之后,纠错单元602可将语音识别结果展示给用户,并对确定出的标记对象进行标记。
如果用户发现语音识别结果中的某一标记对象出现了识别错误的情况,需要进行修改,那么则可发出展示指令,如点击该标记对象,作为响应,纠错单元602可将该标记对象对应的替换候选项展示给用户,供用户从中进行选择,并用选中的替换候选项替换该标记对象。
通过上述介绍可以看出,采用上述实施例所述方案,可预先根据各用户对于语音识别结果的历史修改轨迹,确定出被修改过的字或词,作为标注对象,并分别确定出每个标注对象的评分,这样,在用户进行语音输入时,可针对获取到的语音识别结果,首先确定出其中评分大于预定阈值的标记对象,之后可将语音识别结果展示给用户,并对确定出的标记对象进行标记,如果用户希望对所标记的任一标记对象进行修改,那么只需从所展示的该标记对象对应的替换候选项中进行选择,后续即可利用所选择的内容对该标记对象进行自动替换,从而相比于现有技术简化了用户操作,进而提高了用户的输入效率。
另外,可对用户按照上述方式进行修改的修改轨迹进行记录,并作为历史修改轨迹,对各标注对象的打分以及替换候选项等进行更新,如可定期进行更新,从而实现了对于整个方案的不断优化。
再有,为了使展示结果更具针对性,还可按照用户标签,对用户进行分类,进而按照不同的类型,分别采用对应的处理方式。
为此,纠错单元602在将任一标记对象对应的替换候选项展示给用户时,可先根据用户的用户标签,确定出用户所属的类型,进而将该标记对象对应于用户所属的类型的替换候选项展示给用户。
相应地,预处理单元601可针对每个类型,分别进行以下处理:
根据属于该类型的各用户的历史修改轨迹,针对被修改过的每个标记对象,分别确定出用于替换该标记对象的内容,并选取出替换次数最多的N个内容作为该标记对象对应于该类型的替换候选项。
预处理单元601还可针对每个类型,分别进行以下处理:
根据属于该类型的各用户的历史修改轨迹,确定出被修改过的字或词,作为标注对象,组成对应于该类型的标记对象集,并分别确定出其中的每个标记对象的评分。
这样,纠错单元602在获取到用户输入的语音的语音识别结果之后,可根据用户的用户标签,确定出用户所属的类型,进而确定出语音识别结果中评分大于预定阈值且位于用户所属的类型对应的标记对象集中的标记对象。
采用上述处理方式,当不同的用户输入同一语音时,根据用户所属的类型的不同,可能会对语音识别结果中的不同标记对象进行标记,而且,针对同一标记对象,还可能会展示不同的替换候选项。
这样处理后,可使得所展示的替换候选项更具针对性,符合用户的个性化需求。
图6所示装置实施例的具体工作流程请参照前述方法实施例中的相应说明,不再赘述。
图7示出了适于用来实现本发明实施方式的示例性计算机系统/服务器12的框图。图7显示的计算机系统/服务器12仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图7所示,计算机系统/服务器12以通用计算设备的形式表现。计算机系统/服务器12的组件可以包括但不限于:一个或者多个处理器(处理单元)16,存储器28,连接不同系统组件(包括存储器28和处理器16)的总线18。
总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。
计算机系统/服务器12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机系统/服务器12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
存储器28可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)30和/或高速缓存存储器32。计算机系统/服务器12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统34可以用于读写不可移动的、非易失性磁介质(图7未显示,通常称为“硬盘驱动器”)。尽管图7中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在例如存储器28中,这样的程序模块42包括——但不限于——操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。
计算机系统/服务器12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信,还可与一个或者多个使得用户能与该计算机系统/服务器12交互的设备通信,和/或与使得该计算机系统/服务器12能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且,计算机系统/服务器12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图7所示,网络适配器20通过总线18与计算机系统/服务器12的其它模块通信。应当明白,尽管图中未示出,可以结合计算机系统/服务器12使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
处理器16通过运行存储在存储器28中的程序,从而执行各种功能应用以及数据处理,例如实现图1所示实施例中的方法,即:根据各用户对于语音识别结果的历史修改轨迹,确定出被修改过的字或词,作为标注对象,并分别确定出每个标注对象的评分,获取用户输入的语音的语音识别结果,确定出其中评分大于预定阈值的标记对象,将语音识别结果展示给用户,并对确定出的标记对象进行标记,当接收到用户针对任一标记对象的展示指令时,将该标记对象对应的替换候选项展示给用户,供用户从中进行选择,并用选中的替换候选项替换该标记对象。
具体实现请参照前述各实施例中的相关说明,不再赘述。
本发明同时公开了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时将实现如图1所示实施例中的方法。
可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于——无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如”C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法等,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。
Claims (14)
1.一种基于人工智能的语音识别结果纠错方法,其特征在于,包括:
根据各用户对于语音识别结果的历史修改轨迹,确定出被修改过的字或词,作为标注对象,并分别确定出每个标注对象的评分;
获取用户输入的语音的语音识别结果,确定出其中评分大于预定阈值的标记对象;
将所述语音识别结果展示给所述用户,并对确定出的标记对象进行标记;
当接收到所述用户针对任一标记对象的展示指令时,将所述标记对象对应的替换候选项展示给所述用户,供所述用户从中进行选择,并用选中的替换候选项替换所述标记对象。
2.根据权利要求1所述的方法,其特征在于,
所述分别确定出每个标注对象的评分包括:
针对每个标记对象,至少根据所述标记对象的修改频率对所述标记对象进行评分,修改频率越高,评分越高。
3.根据权利要求1所述的方法,其特征在于,
所述获取用户输入的语音的语音识别结果,确定出其中评分大于预定阈值的标记对象之前,进一步包括:
根据各用户对于语音识别结果的历史修改轨迹,针对每个标记对象,分别确定出用于替换所述标记对象的内容,并选取出替换次数最多的N个内容作为所述标记对象对应的替换候选项,N为正整数。
4.根据权利要求1所述的方法,其特征在于,
所述将所述标记对象对应的替换候选项展示给所述用户包括:
根据所述用户的用户标签,确定所述用户所属的类型;
将所述标记对象对应于所述用户所属的类型的替换候选项展示给所述用户。
5.根据权利要求4所述的方法,其特征在于,
所述获取用户输入的语音的语音识别结果,确定出其中评分大于预定阈值的标记对象之前,进一步包括:
针对每个类型,分别进行以下处理:
根据属于所述类型的各用户的历史修改轨迹,针对被修改过的每个标记对象,分别确定出用于替换所述标记对象的内容,并选取出替换次数最多的N个内容作为所述标记对象对应于所述类型的替换候选项,N为正整数。
6.根据权利要求5所述的方法,其特征在于,
所述根据各用户对于语音识别结果的历史修改轨迹,确定出被修改过的字或词,作为标注对象,并分别确定出每个标注对象的评分包括:
针对每个类型,分别进行以下处理:
根据属于所述类型的各用户的历史修改轨迹,确定出被修改过的字或词,作为标注对象,组成对应于所述类型的标记对象集,并分别确定出其中的每个标记对象的评分;
所述获取用户输入的语音的语音识别结果,确定出其中评分大于预定阈值的标记对象包括:
获取用户输入的语音的语音识别结果;
根据所述用户的用户标签,确定出所述用户所属的类型;
确定出所述语音识别结果中评分大于预定阈值且位于所述用户所属的类型对应的标记对象集中的标记对象。
7.一种基于人工智能的语音识别结果纠错装置,其特征在于,包括:预处理单元以及纠错单元;
所述预处理单元,用于根据各用户对于语音识别结果的历史修改轨迹,确定出被修改过的字或词,作为标注对象,并分别确定出每个标注对象的评分;
所述纠错单元,用于获取用户输入的语音的语音识别结果,确定出其中评分大于预定阈值的标记对象;将所述语音识别结果展示给所述用户,并对确定出的标记对象进行标记;当接收到所述用户针对任一标记对象的展示指令时,将所述标记对象对应的替换候选项展示给所述用户,供所述用户从中进行选择,并用选中的替换候选项替换所述标记对象。
8.根据权利要求7所述的装置,其特征在于,
所述预处理单元针对每个标记对象,至少根据所述标记对象的修改频率对所述标记对象进行评分,修改频率越高,评分越高。
9.根据权利要求7所述的装置,其特征在于,
所述预处理单元进一步用于,根据各用户对于语音识别结果的历史修改轨迹,针对每个标记对象,分别确定出用于替换所述标记对象的内容,并选取出替换次数最多的N个内容作为所述标记对象对应的替换候选项,N为正整数。
10.根据权利要求7所述的装置,其特征在于,
所述纠错单元进一步用于,根据所述用户的用户标签,确定所述用户所属的类型,将所述标记对象对应于所述用户所属的类型的替换候选项展示给所述用户。
11.根据权利要求10所述的装置,其特征在于,
所述预处理单元进一步用于,针对每个类型,分别进行以下处理:
根据属于所述类型的各用户的历史修改轨迹,针对被修改过的每个标记对象,分别确定出用于替换所述标记对象的内容,并选取出替换次数最多的N个内容作为所述标记对象对应于所述类型的替换候选项,N为正整数。
12.根据权利要求11所述的装置,其特征在于,
所述预处理单元进一步用于,针对每个类型,分别进行以下处理:
根据属于所述类型的各用户的历史修改轨迹,确定出被修改过的字或词,作为标注对象,组成对应于所述类型的标记对象集,并分别确定出其中的每个标记对象的评分;
所述纠错单元进一步用于,获取用户输入的语音的语音识别结果,根据所述用户的用户标签,确定出所述用户所属的类型,确定出所述语音识别结果中评分大于预定阈值且位于所述用户所属的类型对应的标记对象集中的标记对象。
13.一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1~6中任一项所述的方法。
14.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1~6中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710536744.9A CN107544726B (zh) | 2017-07-04 | 2017-07-04 | 基于人工智能的语音识别结果纠错方法、装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710536744.9A CN107544726B (zh) | 2017-07-04 | 2017-07-04 | 基于人工智能的语音识别结果纠错方法、装置及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107544726A true CN107544726A (zh) | 2018-01-05 |
CN107544726B CN107544726B (zh) | 2021-04-16 |
Family
ID=60970932
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710536744.9A Active CN107544726B (zh) | 2017-07-04 | 2017-07-04 | 基于人工智能的语音识别结果纠错方法、装置及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107544726B (zh) |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108984529A (zh) * | 2018-07-16 | 2018-12-11 | 北京华宇信息技术有限公司 | 实时庭审语音识别自动纠错方法、存储介质及计算装置 |
CN109065054A (zh) * | 2018-08-31 | 2018-12-21 | 出门问问信息科技有限公司 | 语音识别纠错方法、装置、电子设备及可读存储介质 |
CN109192194A (zh) * | 2018-08-22 | 2019-01-11 | 北京百度网讯科技有限公司 | 语音数据标注方法、装置、计算机设备及存储介质 |
CN109740142A (zh) * | 2018-04-20 | 2019-05-10 | 北京字节跳动网络技术有限公司 | 一种字符串纠错方法及装置 |
CN110288990A (zh) * | 2019-06-12 | 2019-09-27 | 深圳康佳电子科技有限公司 | 一种语音控制优化方法、存储介质及智能终端 |
CN110415698A (zh) * | 2018-11-15 | 2019-11-05 | 腾讯科技(深圳)有限公司 | 一种人工智能的数据检测方法及装置、存储介质 |
CN111090305A (zh) * | 2019-11-27 | 2020-05-01 | 新华蓝海(北京)人工智能技术有限公司 | 一种3d智能税务服务设备 |
CN111881675A (zh) * | 2020-06-30 | 2020-11-03 | 北京百度网讯科技有限公司 | 文本纠错方法、装置、电子设备及存储介质 |
CN112242142A (zh) * | 2019-07-17 | 2021-01-19 | 北京搜狗科技发展有限公司 | 一种语音识别输入的方法及相关装置 |
WO2021138898A1 (zh) * | 2020-01-10 | 2021-07-15 | 深圳市欢太科技有限公司 | 语音识别结果检测方法及装置、存储介质 |
CN114298058A (zh) * | 2022-01-07 | 2022-04-08 | 北京思源智通科技有限责任公司 | 文章替换词推荐方法、系统、计算机可读介质 |
CN117221450A (zh) * | 2023-09-25 | 2023-12-12 | 深圳我买家网络科技有限公司 | Ai智慧客服系统 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101558442A (zh) * | 2006-12-05 | 2009-10-14 | 摩托罗拉公司 | 使用语音识别的内容选择 |
CN101669116A (zh) * | 2007-04-26 | 2010-03-10 | 微软公司 | 用于生成亚洲语字符的识别体系结构 |
US20130311182A1 (en) * | 2012-05-16 | 2013-11-21 | Gwangju Institute Of Science And Technology | Apparatus for correcting error in speech recognition |
CN103645876A (zh) * | 2013-12-06 | 2014-03-19 | 百度在线网络技术(北京)有限公司 | 语音输入方法和装置 |
CN104407834A (zh) * | 2014-11-13 | 2015-03-11 | 腾讯科技(成都)有限公司 | 信息输入方法和装置 |
CN104464736A (zh) * | 2014-12-15 | 2015-03-25 | 北京百度网讯科技有限公司 | 语音识别文本的纠错方法和装置 |
CN105469789A (zh) * | 2014-08-15 | 2016-04-06 | 中兴通讯股份有限公司 | 一种语音信息的处理方法及终端 |
CN106098060A (zh) * | 2016-05-19 | 2016-11-09 | 北京搜狗科技发展有限公司 | 语音的纠错处理方法和装置、用于语音的纠错处理的装置 |
CN106534548A (zh) * | 2016-11-17 | 2017-03-22 | 科大讯飞股份有限公司 | 语音纠错方法和装置 |
CN106708893A (zh) * | 2015-11-17 | 2017-05-24 | 华为技术有限公司 | 搜索查询词纠错方法和装置 |
CN107291828A (zh) * | 2017-05-27 | 2017-10-24 | 北京百度网讯科技有限公司 | 基于人工智能的口语查询解析方法、装置及存储介质 |
-
2017
- 2017-07-04 CN CN201710536744.9A patent/CN107544726B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101558442A (zh) * | 2006-12-05 | 2009-10-14 | 摩托罗拉公司 | 使用语音识别的内容选择 |
CN101669116A (zh) * | 2007-04-26 | 2010-03-10 | 微软公司 | 用于生成亚洲语字符的识别体系结构 |
US20130311182A1 (en) * | 2012-05-16 | 2013-11-21 | Gwangju Institute Of Science And Technology | Apparatus for correcting error in speech recognition |
CN103645876A (zh) * | 2013-12-06 | 2014-03-19 | 百度在线网络技术(北京)有限公司 | 语音输入方法和装置 |
CN105469789A (zh) * | 2014-08-15 | 2016-04-06 | 中兴通讯股份有限公司 | 一种语音信息的处理方法及终端 |
CN104407834A (zh) * | 2014-11-13 | 2015-03-11 | 腾讯科技(成都)有限公司 | 信息输入方法和装置 |
CN104464736A (zh) * | 2014-12-15 | 2015-03-25 | 北京百度网讯科技有限公司 | 语音识别文本的纠错方法和装置 |
CN106708893A (zh) * | 2015-11-17 | 2017-05-24 | 华为技术有限公司 | 搜索查询词纠错方法和装置 |
CN106098060A (zh) * | 2016-05-19 | 2016-11-09 | 北京搜狗科技发展有限公司 | 语音的纠错处理方法和装置、用于语音的纠错处理的装置 |
CN106534548A (zh) * | 2016-11-17 | 2017-03-22 | 科大讯飞股份有限公司 | 语音纠错方法和装置 |
CN107291828A (zh) * | 2017-05-27 | 2017-10-24 | 北京百度网讯科技有限公司 | 基于人工智能的口语查询解析方法、装置及存储介质 |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109740142A (zh) * | 2018-04-20 | 2019-05-10 | 北京字节跳动网络技术有限公司 | 一种字符串纠错方法及装置 |
CN108984529B (zh) * | 2018-07-16 | 2022-06-03 | 北京华宇信息技术有限公司 | 实时庭审语音识别自动纠错方法、存储介质及计算装置 |
CN108984529A (zh) * | 2018-07-16 | 2018-12-11 | 北京华宇信息技术有限公司 | 实时庭审语音识别自动纠错方法、存储介质及计算装置 |
CN109192194A (zh) * | 2018-08-22 | 2019-01-11 | 北京百度网讯科技有限公司 | 语音数据标注方法、装置、计算机设备及存储介质 |
CN109065054A (zh) * | 2018-08-31 | 2018-12-21 | 出门问问信息科技有限公司 | 语音识别纠错方法、装置、电子设备及可读存储介质 |
CN110415698A (zh) * | 2018-11-15 | 2019-11-05 | 腾讯科技(深圳)有限公司 | 一种人工智能的数据检测方法及装置、存储介质 |
CN110288990A (zh) * | 2019-06-12 | 2019-09-27 | 深圳康佳电子科技有限公司 | 一种语音控制优化方法、存储介质及智能终端 |
CN112242142B (zh) * | 2019-07-17 | 2024-01-30 | 北京搜狗科技发展有限公司 | 一种语音识别输入的方法及相关装置 |
CN112242142A (zh) * | 2019-07-17 | 2021-01-19 | 北京搜狗科技发展有限公司 | 一种语音识别输入的方法及相关装置 |
CN111090305A (zh) * | 2019-11-27 | 2020-05-01 | 新华蓝海(北京)人工智能技术有限公司 | 一种3d智能税务服务设备 |
WO2021138898A1 (zh) * | 2020-01-10 | 2021-07-15 | 深圳市欢太科技有限公司 | 语音识别结果检测方法及装置、存储介质 |
CN111881675A (zh) * | 2020-06-30 | 2020-11-03 | 北京百度网讯科技有限公司 | 文本纠错方法、装置、电子设备及存储介质 |
CN114298058A (zh) * | 2022-01-07 | 2022-04-08 | 北京思源智通科技有限责任公司 | 文章替换词推荐方法、系统、计算机可读介质 |
CN114298058B (zh) * | 2022-01-07 | 2022-09-13 | 北京思源智通科技有限责任公司 | 文章替换词推荐方法、系统、计算机可读介质 |
CN117221450A (zh) * | 2023-09-25 | 2023-12-12 | 深圳我买家网络科技有限公司 | Ai智慧客服系统 |
Also Published As
Publication number | Publication date |
---|---|
CN107544726B (zh) | 2021-04-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107544726A (zh) | 基于人工智能的语音识别结果纠错方法、装置及存储介质 | |
CN107977356B (zh) | 识别文本纠错方法及装置 | |
CN107220235A (zh) | 基于人工智能的语音识别纠错方法、装置及存储介质 | |
CN109003624B (zh) | 情绪识别方法、装置、计算机设备及存储介质 | |
CN107423363A (zh) | 基于人工智能的话术生成方法、装置、设备及存储介质 | |
CN108091328A (zh) | 基于人工智能的语音识别纠错方法、装置及可读介质 | |
CN107193805A (zh) | 基于人工智能的文章价值评估方法、装置及存储介质 | |
CN107680019A (zh) | 一种考试方案的实现方法、装置、设备及存储介质 | |
CN108711420A (zh) | 多语言混杂模型建立、数据获取方法及装置、电子设备 | |
CN110245348A (zh) | 一种意图识别方法及系统 | |
CN107038157A (zh) | 基于人工智能的识别错误发现方法、装置及存储介质 | |
CN103678269A (zh) | 一种信息处理方法和装置 | |
CN107832662A (zh) | 一种获取图片标注数据的方法和系统 | |
CN109885825A (zh) | 基于注意力机制的命名实体识别方法、装置和计算机设备 | |
CN110222330B (zh) | 语义识别方法及装置、存储介质、计算机设备 | |
AU2019239454A1 (en) | Method and system for retrieving video temporal segments | |
CN106471496A (zh) | 在搜索中从查询重新表达中识别意图 | |
CN103713958B (zh) | 在不同语言的机器间同步图形用户界面操作的方法和设备 | |
CN110457683A (zh) | 模型优化方法、装置、计算机设备及存储介质 | |
CN107908641A (zh) | 一种获取图片标注数据的方法和系统 | |
CN110232340A (zh) | 建立视频分类模型以及视频分类的方法、装置 | |
CN112926306A (zh) | 文本纠错方法、装置、设备以及存储介质 | |
CN107844531B (zh) | 答案输出方法、装置和计算机设备 | |
CN109785846A (zh) | 单声道的语音数据的角色识别方法及装置 | |
CN111144118B (zh) | 口语化文本中命名实体的识别方法、系统、设备和介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |