CN117174077A - 语音交互方法及其装置、电子设备和存储介质 - Google Patents
语音交互方法及其装置、电子设备和存储介质 Download PDFInfo
- Publication number
- CN117174077A CN117174077A CN202210592298.4A CN202210592298A CN117174077A CN 117174077 A CN117174077 A CN 117174077A CN 202210592298 A CN202210592298 A CN 202210592298A CN 117174077 A CN117174077 A CN 117174077A
- Authority
- CN
- China
- Prior art keywords
- voice
- hotword
- command
- user
- voice interaction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000003993 interaction Effects 0.000 title claims abstract description 150
- 238000000034 method Methods 0.000 title claims abstract description 63
- 238000004590 computer program Methods 0.000 claims description 14
- 230000002452 interceptive effect Effects 0.000 claims description 12
- 238000012545 processing Methods 0.000 claims description 9
- 239000002131 composite material Substances 0.000 claims description 8
- 230000004044 response Effects 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 2
- 238000012217 deletion Methods 0.000 description 2
- 230000037430 deletion Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 238000003780 insertion Methods 0.000 description 2
- 230000037431 insertion Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000010926 purge Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/065—Adaptation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
本申请公开了一种语音交互方法及其装置、电子设备和存储介质。该语音交互方法包括:响应于用户更新语音热词的预设语音请求,获取用户根据预设命令模板输入的语音数据;根据预设命令模板对语音数据进行语音识别得到目标语音热词;根据目标语音热词更新语音识别模型的热词库。本申请的语音交互方法及其装置、电子设备和存储介质可以将用户的语音交互请求中的陌生词汇添加至热词库中,使得用户的语音交互请求能够被语音识别模型识别得到对应的命令,改善在语音交互中应用语音识别模型无法准确理解用户语音指令的问题。
Description
技术领域
本申请涉及语音交互技术领域,特别涉及一种语音交互方法及其装置、电子设备和存储介质。
背景技术
在语音识别的实际应用中,对于常用的词汇识别效果比较好。但是,对于一些特有的人名、歌名、地名或者某个领域的专有词汇,例如人名宋星辰、歌名国际歌、地名丽泽商务区以及语音识别专业词汇解码器,存在语音识别准确率不高的情况。
发明内容
有鉴于此,本发明旨在至少在一定程度上解决相关技术中的问题之一。为此,本申请的目的在于提供一种语音交互方法及其装置、电子设备和存储介质。
本申请实施方式提供一种语音交互方法。所述语音交互方法包括:响应于用户更新语音热词的预设语音请求,获取用户根据预设命令模板输入的语音数据;根据所述预设命令模板对所述语音数据进行语音识别得到目标语音热词;根据所述目标语音热词更新语音识别模型的热词库。
在某些实施方式中,所述响应于用户更新语音热词的预设语音请求,获取用户根据预设命令模板输入的语音数据的步骤之前,所述语音交互方法包括:在用户输入的语音交互请求匹配命令失败的情况下,记录匹配命令失败的连续交互识别次数,将所述语音交互请求对应的命令词添加到连续失败命令词列表;在所述连续交互识别次数大于次数阈值,且所述连续失败命令词列表中的命令词之间的词义相似度满足预设条件的情况下,提示用户更新语音热词。
在某些实施方式中,所述语音交互方法包括:在用户输入的语音交互请求匹配命令成功的情况下,清空匹配命令失败的所述连续交互识别次数和所述连续失败命令词列表。
在某些实施方式中,所述在用户输入的语音交互请求匹配命令失败的情况下,记录匹配命令失败的连续交互识别次数,将所述语音交互请求对应的命令词添加到连续失败命令词列表的步骤之后,语音交互方法包括:根据所述连续失败命令词列表中的命令词之间的编辑距离和/或最长子串确定所述词义相似度。
在某些实施方式中,所述语音交互方法包括:获取用户输入的语音交互请求;根据所述热词库和所述语音识别模型对所述语音交互请求进行处理得到命令词;执行所述命令词对应的控制指令。
在某些实施方式中,所述根据所述热词库和所述语音识别模型对所述语音交互请求进行处理得到命令词,包括:获取所述热词库中的语音热词的声学得分和热词得分;确定与所述语音热词的编辑距离为设定值的词汇数量;根据所述声学得分、所述热词得分和所述词汇数量计算对应所述语音热词的综合得分;根据所述综合得分在所述热词库中的语音热词中确定所述命令词。
在某些实施方式中,所述根据所述声学得分、所述热词得分和所述词汇数量计算对应所述语音热词的综合得分的步骤通过下列条件式实现:
其中,argmaxlogP(y|x)为所述声学得分,λlogPC(y)为所述热词得分,为所述词汇数量,λ和μ为相应的系数。
在某些实施方式中,所述根据所述声学得分、所述热词得分和所述词汇数量计算对应所述语音热词的综合得分的步骤通过下列条件式实现:
其中,argmaxlogP(y|x)为所述声学得分,λlogPC(y)为所述热词得分,为所述词汇数量,λ为相应的系数。
本申请还提供一种语音交互装置。所述语音交互装置包括:获取模块、识别模块和热词库更新模块。所述获取模块用于响应于用户更新语音热词的预设语音请求,获取用户根据预设命令模板输入的语音数据;所述识别模块用于根据所述预设命令模板对所述语音数据进行语音识别得到目标语音热词;所述热词库更新模块用于根据所述目标语音热词更新语音识别模型的热词库。
本申请还提供一种电子设备。所述电子设备包括处理器和存储器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时实现上述实施方式中任一项所述的语音交互方法。
本申请还提供一种包含计算机程序的非易失性计算机可读存储介质。当所述计算机程序被一个或多个处理器执行时,使得所述处理器执行上述实施方式中任一项所述的语音交互方法。
本申请的语音交互方法及其装置、电子设备和存储介质可以将用户的语音交互请求中的陌生词汇添加至热词库中,使得用户的语音交互请求能够被语音识别模型识别得到对应的命令,改善在语音交互中应用语音识别模型无法准确理解用户语音指令的问题。
本申请的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。
附图说明
本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1是本申请某些实施方式的语音交互方法的流程示意图;
图2是本申请某些实施方式的语音交互装置的结构示意图;
图3是本申请某些实施方式的语音交互方法的流程示意图;
图4是本申请某些实施方式的语音交互装置的结构示意图;
图5是本申请某些实施方式的语音交互方法的流程示意图;
图6是本申请某些实施方式的语音交互装置的结构示意图;
图7是本申请某些实施方式的语音交互方法的流程示意图;
图8是本申请某些实施方式的语音交互装置的结构示意图;
图9是本申请某些实施方式的语音交互方法的流程示意图;
图10是本申请某些实施方式的语音交互装置的结构示意图;
图11是本申请某些实施方式的语音交互方法的流程示意图;
图12是本申请某些实施方式的电子设备的结构示意图;
图13是本申请某些实施方式的计算机可读存储介质的结构示意图。
具体实施方式
下面详细描述本申请的实施方式,所述实施方式的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的,仅用于解释本申请,而不能理解为对本申请的限制。
在本申请的描述中,需要理解的是,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个所述特征。在本申请的描述中,“多个”的含义是两个或两个以上,除非另有明确具体地限定。
在本申请的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接或可以相互通信;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本申请中的具体含义。
下文的公开提供了许多不同的实施方式或例子用来实现本申请的不同结构。为了简化本申请的公开,下文中对特定例子的部件和设置进行描述。当然,它们仅仅为示例,并且目的不在于限制本申请。此外,本申请可以在不同例子中重复参考数字和/或参考字母,这种重复是为了简化和清楚的目的,其本身不指示所讨论各种实施方式和/或设置之间的关系。
下面详细描述本申请的实施方式,所述实施方式的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的,仅用于解释本申请,而不能理解为对本申请的限制。
请参阅图1,本申请提供一种语音交互方法。该语音交互方法包括:
01:响应于用户更新语音热词的预设语音请求,获取用户根据预设命令模板输入的语音数据;
02:根据预设命令模板对语音数据进行语音识别得到目标语音热词;
03:根据目标语音热词更新语音识别模型的热词库。
请结合图2,本申请还提供一种语音交互装置10。该语音交互装置10包括:获取模块11、识别模块13和热词库更新模块13。获取模块11用于响应于用户更新语音热词的预设语音请求,获取用户根据预设命令模板输入的语音数据;识别模块12用于根据预设命令模板对语音数据进行语音识别得到目标语音热词;热词库更新模块13用于根据目标语音热词更新语音识别模型的热词库。
可以理解地,用户在发出具有陌生词汇的语音请求时,语音识别模型不能得到识别出与该语音请求对应的正确的命令。此时,用户可以发出更新语音热词的预设语音请求,对语音识别模型中的热词库进行更新,将该语音请求中的陌生词汇能够添加至热词库中,使得该语音请求能够被语音识别模型识别得到对应的命令。
首先,响应于用户更新语音热词的预设语音请求,获取用户根据预设命令模板输入的语音数据,指的是,在用户发出更新语音热词的预设语音请求后,可以获取用户根据预设命令模板输入的语音数据。其中,预设语音请求例如为“更新语音热词”。用户根据预设命令模板输入的语音数据,指的是,例如,预设命令模板为“行李的李,潇洒的潇”,该预设命令模板对应识别出的热词为“李潇”,用户根据该预设命令模板输入的语音数据为“关闭的闭,灭灯的灯”。
然后,根据预设命令模板对语音数据进行语音识别得到目标语音热词,指的是,语音识别模型可以根据预设命名模板的固定句式识别用户输入的目标语音热词,由上述预设命令模板“行李的李,潇洒的潇”的固定句式,可以识别用户输入的语音数据“关闭的闭,灭灯的灯”的目标语音热词为“闭灯”。
最后,根据目标语音热词更新语音识别模型的热词库。例如,可以将上述识别出的目标语音热词为“闭灯”添加至语音识别模型的热词库中。
如此,本发明的语音交互方法可以将用户的语音交互请求中的陌生词汇添加至热词库中,使得用户的语音交互请求能够被语音识别模型识别得到对应的命令,改善在语音交互中应用语音识别模型无法准确理解用户语音指令的问题。
请参阅图3,在步骤01之前,语音交互方法包括:
011:在用户输入的语音交互请求匹配命令失败的情况下,记录匹配命令失败的连续交互识别次数,将语音交互请求对应的命令词添加到连续失败命令词列表;
013:在连续交互识别次数大于次数阈值,且连续失败命令词列表中的命令词之间的词义相似度满足预设条件的情况下,提示用户更新语音热词。
请参阅图4,语音交互装置10还包括记录模块111和提示模块113。记录模块111用于在用户输入的语音交互请求匹配命令失败的情况下,记录匹配命令失败的连续交互识别次数,将语音交互请求对应的命令词添加到连续失败命令词列表;提示模块113用于在连续交互识别次数大于次数阈值,且连续失败命令词列表中的命令词之间的词义相似度满足预设条件的情况下,提示用户更新语音热词。
在用户输入的语音交互请求匹配命令失败的情况下,记录匹配命令失败的连续交互识别次数,将语音交互请求对应的命令词添加到连续失败命令词列表。例如,用户输入的语音交互请求为“播放国际歌”,在语音模型中识别的结果中匹配不到相应的命令,即语音交互请求匹配命令失败。此时,可以记录匹配命令失败的连续交互识别次数,匹配命令失败的连续交互识别次数可以为2次或2次以上。
在匹配命令失败的连续交互识别次数大于次数阈值,且连续失败命令词列表中的命令词之间的词义相似度满足预设条件的情况下,提示用户更新语音热词。其中,次数阈值可以为2次,连续失败命令词列表为连续识别失败的命令词构成的表格,例如4次用户连续交互识别失败产生的命令词列表包括“熄灯,灭灯,黑灯,闭灯”,4次用户输入的命令词所指向的命令均为“关灯”,且连续失败命令词列表中的4个命令词之间的词义相似度满足预设条件,则此时可以提示用户需要更新语音热词。
例如,预设条件可以为词义相似度为60%,若4个命令词之间的词义相似度为80%,则表示4个命令词之间的词义相似度满足预设条件,此时可以提示用户需要更新语音热词。
如此,本申请的语音交互方法可以通过记录匹配命令失败的连续交互识别次数,并将语音交互请求对应的命令词添加到连续失败命令词列表,在连续交互识别次数大于次数阈值,且连续失败命令词列表中的命令词之间的词义相似度满足预设条件的情况下,提示用户进行更新语音热词。
请参阅图5,语音交互方法包括:
015:在用户输入的语音交互请求匹配命令成功的情况下,清空匹配命令失败的连续交互识别次数和连续失败命令词列表。
请参阅图6,语音交互装置10还包括清空模块115。清空模块115用于在用户输入的语音交互请求匹配命令成功的情况下,清空匹配命令失败的连续交互识别次数和连续失败命令词列表。
具体地,在用户输入的语音交互请求匹配命令成功的情况下,清空匹配命令失败的连续交互识别次数和连续失败命令词列表。例如,匹配命令失败的连续交互识别次数为2,连续失败命令词列表中连续失败的命令词包括“熄灯,灭灯”,若下一次用户输入的语音交互请求为“关灯”,且匹配到了相应的关灯命令,此时,可返回相应的关灯命令完成语音交互,相应地,将匹配命令失败的连续交互识别次数清空或置0,并清空连续识别命令词列表。也就是说,语音交互请求匹配命令成功的情况下,用户根据当前输入的用户语音请求可以完成语音交互,不需要添加热词,从而匹配命令失败的连续交互识别次数可以重新计算,以及连续失败命令词列表重新记录匹配失败的命令词。
请参阅图7,在步骤011之后,语音交互方法包括:
012:根据连续失败命令词列表中的命令词之间的编辑距离和/或最长子串确定词义相似度。
请结合图8,语音交互装置10还包括相似度确定模块112。相似度确定模块112用于根据连续失败命令词列表中的命令词之间的编辑距离和/或最长子串确定词义相似度。
根据连续失败命令词列表中的命令词之间的编辑距离和/或最长子串确定词义相似度。也即是,本发明的语音交互方法可以通过比较连续失败命令词列表中的命令词之间的编辑距离或最长子串的规则约定的方法衡量命令词之间的词义相似度。
编辑距离是指一个字符串改编成另一个字符串的最少编辑操作次数,它描述了两个字符串的相近程度。允许的编辑操作包括:替换字符(Substitutions)、插入字符(Insertions)和删除字符(Deletions)。例如,调高音量->调大音量,只需要将“高”替换“大”即可,编辑距离为1;请关闭灯光->请熄灭灯光,需要将“关”替换“熄”,将“闭”替换“灭”,编辑距离为2;调高音量->请调高电视音量,需要在前面插入“请”,再在“调高”和“音量”之间插入“电视”,编辑距离为3。
例如,连续失败命令词列表中的命令词包括“熄灯,灭灯,黑灯,闭灯”。“熄灯”、“灭灯”、“黑灯”和“闭灯”之间的编辑距离均为1,则表示这4个连续失败命令词的词义相似度较高,即表示“熄灯”、“灭灯”、“黑灯”和“闭灯”之间的词义比较相似。
最长子串指的是无重复字符的最长子串。例如,连续失败命令词列表中的命令词包括“熄灯,灭灯,黑灯,闭灯”。“熄灯”、“灭灯”、“黑灯”和“闭灯”之间的最长子串为1,也可以表示这4个连续失败命令词的词义相似度较高,即表示“熄灯”、“灭灯”、“黑灯”和“闭灯”之间的词义比较相似。
如此,本发明的语音交互方法可以通过比较连续失败命令词列表中的命令词之间的编辑距离和/或最长子串的规则约定的方法衡量命令词之间的词义相似度,得到各个连续失败命令词之间的词义相似度,为判断连续失败命令词列表中的命令词之间的词义相似度是否满足预设条件奠定基础。
此外,用户发现语音交互请求中某些词汇在语音交互过程中识别不准确的原因为:由于热词库中的热词的影响导致语音交互请求中的原有正常词汇识别失误的。例如,在将“调大音量”设为热词时,用户的语音交互请求中的命令词“调小音量”也常常会被识别成为“调大音量”。
有鉴于此,请参阅图9,语音交互方法包括:
04:获取用户输入的语音交互请求;
05:根据热词库和语音识别模型对语音交互请求进行处理得到命令词;
06:执行命令词对应的控制指令。
请参阅图10,语音交互装置还包括语音处理模块15和指令执行模块16。
请结合图2,获取模块11用于获取用户输入的语音交互请求;语音处理模块15用于根据热词库和语音识别模型对语音交互请求进行处理得到命令词;指令执行模块16用于执行命令词对应的控制指令。
具体地,对于用户发起的语音交互请求,本发明的交互方法可以先根据热词库和语音识别模型对语音交互请求进行处理得到命令词,从而执行命令词对应的控制指令。
用户输入的语音交互请求可以为“将电视调小音量”,热词库中具有热词“调小音量”,则可以根据热词库和语音识别模型对语音交互请求进行处理得到命令词为“调小音量”,从而执行命令词“调小音量”对应的控制指令。
如此,本发明的交互方法可以先根据热词库和语音识别模型对语音交互请求进行处理得到命令词,从而执行命令词对应的控制指令。
请参阅图11,步骤05包括:
051:获取热词库中的语音热词的声学得分和热词得分;
052:确定与语音热词的编辑距离为设定值的词汇数量;
053:根据声学得分、热词得分和词汇数量计算对应语音热词的综合得分;
054:根据综合得分在热词库中的语音热词中确定命令词。
请结合图10,语音处理模块15用于获取热词库中的语音热词的声学得分和热词得分;确定与语音热词的编辑距离为设定值的词汇数量;根据声学得分、热词得分和词汇数量计算对应语音热词的综合得分;根据综合得分在热词库中的语音热词中确定命令词。
首先,获取热词库中的语音热词的声学得分和热词得分。具体地,可以将用户的语音交互请求输入解码器,输出得到热词库中每个语音热词的声学得分。另外,由于热词更新的原理为将一些先验的知识加入到了语音识别系统中,利用端到端语音识别工具WeNet在解码过程中维护一个上下文图(Context Graph)中的状态。因此,可以通过子图中的状态计算得到热词库中每个语音热词的热词得分,即在原有声学得分的基础上增加了正比于热词权重的分数。
然后,确定与语音热词的编辑距离为设定值的词汇数量,即,可以确定热词库中每个语音热词与其他语音热词的编辑距离为设定值的词汇数量。例如,若热词库中的一个语音热词1为“调大音量”,热词库中的其他两个语音热词分别为语音热词2“调小音量”和语音热词3“调高音量”,则语音热词1“调大音量”与语音热词2“调小音量”的编辑距离为1,语音热词1“调大音量”与语音热词3“调高音量”的编辑距离也为1,若编辑距离的设定值为1,则此时语音热词1“调大音量”与热词库中的语音热词2“调小音量”和语音热词3“调高音量”的编辑距离为设定值的词汇数量为2。
接着,根据声学得分、热词得分和词汇数量计算得到对应语音热词的综合得分,即可以得到热词库中每个语音热词的综合得分。具体可以先通过浅融合(Shallow Fusion)的形式在束搜索的过程中先对某个语音热词的声学得分和热词得分进行相加,然后结合该语音热词与其他语音热词的编辑距离为设定值的计算得到对应语音热词的综合得分。
最后,根据综合得分在热词库中的语音热词中确定命令词。也即是,可以根据热词库中每个语音热词的综合得分的高低确定与用户语音请求中相对应的命令词,将综合得分高的语音热词确定为命令词。
如此,本发明的语音交互方法不仅增加了热词权重,由于添加了热词库中每个语音热词与其他语音热词的编辑距离为设定值的词汇数量对综合得分的影响,可以在一定程度上削弱了热词库中的相近的语音热词对应的热词权重对识别用户语音请求中的命令词的影响。
根据声学得分、热词得分和词汇数量计算对应语音热词的综合得分的步骤通过下列条件式实现:
其中,argmaxlogP(y|x)为声学得分,logPC(y)为热词得分,为词汇数量,λ和μ为相应的系数。
具体地,若编辑距离的设定值为1,则为与y编辑距离为1的词汇数量。
就热词库中的单个语音热词而言,本发明的语音交互方法先对热词库中的单个语音热词的声学得分和热词得分进行加分,然后减去该语音热词与其他语音热词的编辑距离为设定值的词汇数量计算得到该语音热词的综合得分,从而计算出热词库中每个语音热词的综合得分。
如此,本发明的语音交互方法不仅增加了热词权重,由于添加了热词库中每个语音热词与其他语音热词的编辑距离为设定值的词汇数量对综合得分的影响,可以在一定程度上削弱了热词库中的相近的语音热词对应的热词权重对识别用户语音请求中的命令词的影响。
此外,根据声学得分、热词得分和词汇数量计算对应语音热词的综合得分的步骤还可以通过下列条件式实现:
其中,argmaxlogP(y|x)为声学得分,logPC(y)为热词得分,为词汇数量,λ为相应的系数。
具体地,若编辑距离的设定值为1,则为与y编辑距离为1的词汇数量。
就热词库中的单个语音热词而言,本发明的语音交互方法对热词库中的单个语音热词的声学得分和热词得分进行加分,其中,将热词得分的系数λ除以该语音热词与其他语音热词的编辑距离为设定值的词汇数量进而计算得到该语音热词的综合得分,从而计算出热词库中每个语音热词的综合得分。
如此,本发明的语音交互方法不仅增加了热词权重,由于添加了热词库中每个语音热词与其他语音热词的编辑距离为设定值的词汇数量对综合得分的影响,可以在一定程度上削弱了热词库中的相近的语音热词对应的热词权重对识别用户语音交互请求中语音交互请求中的命令词的影响。
请参阅图12,本申请还提供一种电子设备100。电子设备100包括处理器110和存储器120,存储器120存储有计算机程序121,计算机程序121被处理器10执行时实现上述任意一项实施例所述的语音交互方法。电子设备100包括手机、电脑、ipad等具有显示面板的智能设备。
本申请的电子设备100应用上述的语音交互方法可以将用户的语音交互请求中的陌生词汇添加至热词库中,使得用户的语音交互请求能够被语音识别模型识别得到对应的命令,改善在语音交互中应用语音识别模型无法准确理解用户语音指令的问题。
请参阅图13,本发明还提供一种包含有计算机程序的非易失性计算机可读存储介质200。当计算机程序210被一个或多个处理器220执行时,实现上述任意实施例所述的语音交互方法。
例如,计算机程序210被处理器220执行时实现以下语音交互方法的步骤:
01:响应于用户更新语音热词的预设语音请求,获取用户根据预设命令模板输入的语音数据;
02:根据预设命令模板对语音数据进行语音识别得到目标语音热词;
03:根据目标语音热词更新语音识别模型的热词库。
可以理解,计算机程序210包括计算机程序代码。计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读存储介质可以包括:能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、以及软件分发介质等。
本申请的计算机可读存储介质200应用上述的语音交互方法可以将用户的语音交互请求中的陌生词汇添加至热词库中,使得用户的语音交互请求能够被语音识别模型识别得到对应的命令,改善在语音交互中应用语音识别模型无法准确理解用户语音指令的问题。
以上实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (11)
1.一种语音交互方法,其特征在于,包括:
响应于用户更新语音热词的预设语音请求,获取用户根据预设命令模板输入的语音数据;
根据所述预设命令模板对所述语音数据进行语音识别得到目标语音热词;
根据所述目标语音热词更新语音识别模型的热词库。
2.根据权利要求1所述的语音交互方法,其特征在于,在所述响应于用户更新语音热词的预设语音请求,获取用户根据预设命令模板输入的语音数据的步骤之前,所述语音交互方法包括:
在用户输入的语音交互请求匹配命令失败的情况下,记录匹配命令失败的连续交互识别次数,将所述语音交互请求对应的命令词添加到连续失败命令词列表;
在所述连续交互识别次数大于次数阈值,且所述连续失败命令词列表中的命令词之间的词义相似度满足预设条件的情况下,提示用户更新语音热词。
3.根据权利要求2所述的语音交互方法,其特征在于,所述语音交互方法包括:
在用户输入的语音交互请求匹配命令成功的情况下,清空匹配命令失败的所述连续交互识别次数和所述连续失败命令词列表。
4.根据权利要求2所述的语音交互方法,其特征在于,所述在用户输入的语音交互请求匹配命令失败的情况下,记录匹配命令失败的连续交互识别次数,将所述语音交互请求对应的命令词添加到连续失败命令词列表的步骤之后,语音交互方法包括:
根据所述连续失败命令词列表中的命令词之间的编辑距离和/或最长子串确定所述词义相似度。
5.根据权利要求1所述的语音交互方法,其特征在于,所述语音交互方法包括:
获取用户输入的语音交互请求;
根据所述热词库和所述语音识别模型对所述语音交互请求进行处理得到命令词;
执行所述命令词对应的控制指令。
6.根据权利要求5所述的语音交互方法,其特征在于,所述根据所述热词库和所述语音识别模型对所述语音交互请求进行处理得到命令词,包括:
获取所述热词库中的语音热词的声学得分和热词得分;
确定与所述语音热词的编辑距离为设定值的词汇数量;
根据所述声学得分、所述热词得分和所述词汇数量计算对应所述语音热词的综合得分;
根据所述综合得分在所述热词库中的语音热词中确定所述命令词。
7.根据权利要求6所述的语音交互方法,其特征在于,所述根据所述声学得分、所述热词得分和所述词汇数量计算对应所述语音热词的综合得分的步骤通过下列条件式实现:
其中,argmax log P(y|x)为所述声学得分,log PC(y)为所述热词得分,为所述词汇数量,λ和μ为相应的系数。
8.根据权利要求6所述的语音交互方法,其特征在于,所述根据所述声学得分、所述热词得分和所述词汇数量计算对应所述语音热词的综合得分的步骤通过下列条件式实现:
其中,argmax log P(y|x)为所述声学得分,log PC(y)为所述热词得分,为所述词汇数量,λ为相应的系数。
9.一种语音交互装置,其特征在于,所述语音交互装置包括:
获取模块,用于响应于用户更新语音热词的预设语音请求,获取用户根据预设命令模板输入的语音数据;
识别模块,用于根据所述预设命令模板对所述语音数据进行语音识别得到目标语音热词;
热词库更新模块,用于根据所述目标语音热词更新语音识别模型的热词库。
10.一种电子设备,其特征在于,包括处理器和存储器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时实现权利要求1-8中任一项所述的语音交互方法。
11.一种包含计算机程序的非易失性计算机可读存储介质,其特征在于,当所述计算机程序被一个或多个处理器执行时,使得所述处理器执行权利要求1-8中任一项所述的语音交互方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210592298.4A CN117174077A (zh) | 2022-05-27 | 2022-05-27 | 语音交互方法及其装置、电子设备和存储介质 |
PCT/CN2023/091826 WO2023226700A1 (zh) | 2022-05-27 | 2023-04-28 | 语音交互方法及其装置、电子设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210592298.4A CN117174077A (zh) | 2022-05-27 | 2022-05-27 | 语音交互方法及其装置、电子设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117174077A true CN117174077A (zh) | 2023-12-05 |
Family
ID=88918359
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210592298.4A Pending CN117174077A (zh) | 2022-05-27 | 2022-05-27 | 语音交互方法及其装置、电子设备和存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN117174077A (zh) |
WO (1) | WO2023226700A1 (zh) |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030120493A1 (en) * | 2001-12-21 | 2003-06-26 | Gupta Sunil K. | Method and system for updating and customizing recognition vocabulary |
CN111028830B (zh) * | 2019-12-26 | 2022-07-15 | 大众问问(北京)信息科技有限公司 | 一种本地热词库更新方法、装置及设备 |
CN112420034B (zh) * | 2020-09-14 | 2023-06-02 | 当趣网络科技(杭州)有限公司 | 语音识别的方法、系统、电子装置和存储介质 |
CN113241070B (zh) * | 2021-04-28 | 2024-02-27 | 北京字跳网络技术有限公司 | 热词召回及更新方法、装置、存储介质和热词系统 |
CN113436614B (zh) * | 2021-07-02 | 2024-02-13 | 中国科学技术大学 | 语音识别方法、装置、设备、系统及存储介质 |
CN114333791A (zh) * | 2021-12-10 | 2022-04-12 | 广州小鹏汽车科技有限公司 | 语音识别方法、服务器、语音识别系统、可读存储介质 |
-
2022
- 2022-05-27 CN CN202210592298.4A patent/CN117174077A/zh active Pending
-
2023
- 2023-04-28 WO PCT/CN2023/091826 patent/WO2023226700A1/zh unknown
Also Published As
Publication number | Publication date |
---|---|
WO2023226700A1 (zh) | 2023-11-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108091328B (zh) | 基于人工智能的语音识别纠错方法、装置及可读介质 | |
KR102204971B1 (ko) | 검색어를 위한 오류 정정 방법 및 기기 | |
CN106649783B (zh) | 一种同义词挖掘方法和装置 | |
CN109922371B (zh) | 自然语言处理方法、设备及存储介质 | |
CN106570180B (zh) | 基于人工智能的语音搜索方法及装置 | |
CN107239547B (zh) | 用于语音点歌的语音纠错方法、终端及存储介质 | |
KR100682897B1 (ko) | 사전 업데이트 방법 및 그 장치 | |
CN102667773B (zh) | 搜索设备、搜索方法及程序 | |
CN108052499B (zh) | 基于人工智能的文本纠错方法、装置及计算机可读介质 | |
CN111382260A (zh) | 一种检索文本纠错方法、装置和存储介质 | |
CN112861521B (zh) | 语音识别结果纠错方法、电子设备及存储介质 | |
US20150222848A1 (en) | Caption searching method, electronic device, and storage medium | |
US20120209590A1 (en) | Translated sentence quality estimation | |
KR20210060897A (ko) | 음성 처리 방법 및 장치 | |
CN114154487A (zh) | 文本自动纠错方法、装置、电子设备及存储介质 | |
CN113948066B (zh) | 一种实时转译文本的纠错方法、系统、存储介质和装置 | |
CN115132209B (zh) | 语音识别方法、装置、设备和介质 | |
CN111326144A (zh) | 语音数据处理方法、装置、介质和计算设备 | |
CN114757203A (zh) | 基于对比学习的中文句子精简方法和系统 | |
CN111554295B (zh) | 文本纠错方法、相关设备及可读存储介质 | |
CN117174077A (zh) | 语音交互方法及其装置、电子设备和存储介质 | |
CN112883718B (zh) | 基于汉字音形相似性的拼写纠错方法、装置以及电子设备 | |
US11922944B2 (en) | Phrase alternatives representation for automatic speech recognition and methods of use | |
CN114678013A (zh) | 一种句子发音测评的方法、装置及可读存储介质 | |
CN114625889A (zh) | 一种语义消歧方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |