CN112509573A - 一种语音识别的方法、装置 - Google Patents

一种语音识别的方法、装置 Download PDF

Info

Publication number
CN112509573A
CN112509573A CN202011302365.1A CN202011302365A CN112509573A CN 112509573 A CN112509573 A CN 112509573A CN 202011302365 A CN202011302365 A CN 202011302365A CN 112509573 A CN112509573 A CN 112509573A
Authority
CN
China
Prior art keywords
voice
words
word
scene
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011302365.1A
Other languages
English (en)
Inventor
赵晓朝
袁志伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou suddenly Cognitive Technology Co.,Ltd.
Original Assignee
Beijing Moran Cognitive Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Moran Cognitive Technology Co Ltd filed Critical Beijing Moran Cognitive Technology Co Ltd
Priority to CN202011302365.1A priority Critical patent/CN112509573A/zh
Publication of CN112509573A publication Critical patent/CN112509573A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Abstract

本发明提供一种语音识别的方法,包括以下步骤:步骤100,获取用户的第一语音命令;步骤200,确定是否向用户提供场景词表;若是,则向用户提供场景词表,否则不提供场景词表,直接与用户进行语音交互。通过该方法,可以提高语音识别的准确率与速度。

Description

一种语音识别的方法、装置
技术领域
本发明实施例涉及语音交互技术领域,特别涉及一种识别用户的语音的方法、装置。
背景技术
随着技术的发展,人工智能逐渐在人们生活的方方面面中体现,语音交互也成为了人们与智能设备交互的主要方式之一,在利用语音交互技术时,由于用户口语表述的方式各种各样,语音的清晰度、口音和吐字不清楚、各种方言的存在等情况,使得如何准确识别语音成为一个一直需要不断研究的关键技术。
本发明的目的是提供一种语音识别方法及系统,以提高语音识别的准确率。
发明内容
针对现有技术中的上述问题,本发明提供了一种语音识别的方法、装置。
本发明实施例提供了一种语音识别的方法,包括以下步骤:
步骤100,获取用户的第一语音命令;
步骤200,确定是否向用户提供场景词表;若是,则向用户提供场景词表,否则不提供场景词表,直接与用户进行语音交互。
优选的,步骤300,获取用户的第二语音命令;判断用户的第二语音命令是否与场景词表关联,若是,基于场景词表识别用户的第二语音命令;若否,直接识别用户的语音命令。
优选的,步骤300具体包括以下步骤
步骤310,获取第二语音命令中与场景词表关联的关键语音;
步骤320,执行关键语音识别步骤;
步骤330,基于识别的关键语音确定用户的第二语音命令。
优选的,步骤320具体包括以下步骤:
将关键语音与场景词库中的词进行匹配,判断是否可以基于关键语音中的一个或多个字精确定位至场景词表中的词,若是,则将该定位的词作为关键语音识别结果;若否,则语音控制逻辑进一步与用户进行语音交互,以明确用户的语音命令。
优选的,所述方法还包括
确定关键语音为选项词还是场景词表的词,若包括场景词表的词,则确定关键语音的字数,从场景词表中筛选出与关键语音字数相同的词,然后基于可以准确识别的关键语音的字的发音以及该字在关键语音的各个字中的位置,判断是否可以精确定位筛选出的场景词中的词,若是则确定关键语音;
若关键语音还包括选项词,则在可以准确识别选项词时,基于选项词定位场景词表中的词,不对其他关键语音进行识别;若无法准确识别选项词时,结合其他关键语音进行识别;
或者,对关键语音中的选项词和场景词表的词均进行识别,在二者识别结果一致时,将识别结果作为对关键语音的识别结果,若二者识别结果不一致时,则进一步执行以下步骤:
将根据选项词和场景词表的词识别的结果作为候选结果,判断该候选结果的两个选项词是否为发音相似的词,若是,则判断候选结果的两个场景词是否为发音相似的词,若不是,则将关键语音中包括的场景词表的词分别与两个候选词进行匹配,将匹配度最高的词作为识别结果。
本发明实施例还提供了一种语音识别的装置,包括:
获取模块,获取用户的第一语音命令;
交互模块,确定是否向用户提供场景词表;若是,则向用户提供场景词表,否则不提供场景词表,直接与用户进行语音交互。
优选的,获取模块,还用于获取用户的第二语音命令;
交互模块判断用户的第二语音命令是否与场景词表关联,若是,基于场景词表识别用户的第二语音命令;若否,直接识别用户的语音命令。
优选的,交互模块基于场景词表识别用户的第二语音命令,具体包括以下步骤:
步骤310,获取第二语音命令中与场景词表关联的关键语音;
步骤320,执行关键语音识别步骤;
步骤330,基于识别的关键语音确定用户的第二语音命令。
优选的,步骤320具体包括以下步骤:
将关键语音与场景词库中的词进行匹配,判断是否可以基于关键语音中的一个或多个字精确定位至场景词表中的词,若是,则将该定位的词作为关键语音识别结果;若否,则与用户进行语音交互,以明确用户的语音命令。
优选的,交互模块还用于
确定关键语音为选项词还是场景词表的词,若包括场景词表的词,则确定关键语音的字数,从场景词表中筛选出与关键语音字数相同的词,然后基于可以准确识别的关键语音的字的发音以及该字在关键语音的各个字中的位置,判断是否可以精确定位筛选出的场景词中的词,若是则确定关键语音;
若关键语音还包括选项词,则在可以准确识别选项词时,基于选项词定位场景词表中的词,不对其他关键语音进行识别;若无法准确识别选项词时,结合其他关键语音进行识别;
或者,对关键语音中的选项词和场景词表的词均进行识别,在二者识别结果一致时,将识别结果作为对关键语音的识别结果,若二者识别结果不一致时,则进一步执行以下步骤:
将根据选项词和场景词表的词识别的结果作为候选结果,判断该候选结果的两个选项词是否为发音相似的词,若是,则判断候选结果的两个场景词是否为发音相似的词,若不是,则将关键语音中包括的场景词表的词分别与两个候选词进行匹配,将匹配度最高的词作为识别结果。
本发明实施例还提供了一种语音控制逻辑,该语音控制逻辑包括上述任一项装置。
本发明实施例还提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器存储可被处理器执行的计算机指令,当处理器执行上述计算机指令时,实现如上所述的方法。
本发明实施例还提供了一种计算机可读存储介质,用于存储计算机指令,所述计算机指令用于实现如上所述的方法。
在本发明的方法中,在与用户进行语音交互时,当可以提供场景词表时,优先向用户提供场景词表,从而使得语音控制逻辑进行语音识别时可以基于场景词库的词进行识别,进一步的,在有限范围词库内进行语音识别时,无需对所有的语音进行识别,也无需识别语音命令中关键信息的所有语音,可以通过部分命中的方式确定关键信息,这样提高了语音识别的速度,也提高了语音识别的准确率。更进一步的,对于无法确定用户语音命令时,并不是盲目的在网络中搜索或者基于通用的语音识别模型进行识别,而是实时生成与该关键信息相关的动态词库进行识别,从另一个角度提升了语音识别的速度与准确率。
附图说明
图1是本发明一个实施例中的语音识别的方法。
图2是本发明一个实施例中的动态词库生成方法。
图3是本发明一个实施例中的语音识别的装置。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
该方法可以应用于语音控制逻辑,该语音控制逻辑包括单向或双向能够实现语音交互功能的软件、硬件、固件等,如具有语音交互功能的语音助手、APP等,语音控制逻辑可以由一个或多个设备执行。
如图1,本发明的实施例公开了一种语音识别的方法,包括
步骤100,获取用户的第一语音命令;
用户与语音控制逻辑通过语音方式交互时,获取用户的第一语音命令。
步骤200,确定是否向用户提供场景词表;若是,则向用户提供场景词表,并执行步骤300;否则不提供场景词表,直接与用户进行语音交互;
在该步骤中,场景词表为根据用户语音命令动态生成的词库,其中包括与用户语音交互相关的候选选项词,用户可以从该场景词表中选择需要语音控制逻辑执行的操作。优选的,该词表亦包括对应的选项词表。
根据用户的第一语音命令确定是否存在向用户提供场景词表的需求,若是,则根据用户的语音命令动态生成对应的场景词表。例如若用户的第一语音命令对应多种可能的执行动作,且该多种可能的执行动作可以明确的提供给用户,则生成对应于该可能的执行动作的场景词表。通过该方式,可以为用户提供一个语音控制逻辑已知的语音识别库,从而提高语音识别的速度和准确率。
例如,用户的语音命令为“导航去家附近的超市”,家附近存在多个超市,上述超市也是可以明确的,则语音控制逻辑形成家附近的超市的词表,例如包含{家乐福,乐购,李大妈超市,全家便利店……沃尔玛},亦包括选项词表{第一个,第二个,第三个,第四个……第七个}。语音控制逻辑向用户给出家附近超市列表,用户可以通过显示屏看到每个超市的名字,例如显示屏显示七个选项,第一个为家乐福、第七个为沃尔玛。进一步的,语音控制逻辑同时播报这些信息。
步骤300,获取用户的第二语音命令;判断用户的第二语音命令是否与场景词表关联,若是,基于场景词表识别用户的第二语音命令;若否,直接识别用户的语音命令;
在该步骤中,当向用户提供了场景词表时,且用户的第二语音命令与场景词表关联,或者选择了场景词表中的词,则基于场景词表识别用户的第二语音命令。具体包括以下步骤:
步骤310,获取第二语音命令中与场景词表关联的关键语音;
具体的,在该步骤中,对第二语音命令的解析重点侧重于关键语音的识别,当识别出关键语音时,则基于该关键语音以及用户与语音控制逻辑交互的上下文执行对应的动作,通过本发明的方法,无需对用户的第二语音的全部语音进行精确识别即可确定第二语音命令对应的动作。
例如用户的语音命令为“第一个”、或“家乐福”、或“我想去家乐福”、或“去第一个”、或“第一个,家乐福”等多种不同的表达方式中的一个,则提取第二语音命令中与上述示例生成的场景词表的关键语音“第一个”、“家乐福”。
步骤320,执行关键语音识别步骤;
在该步骤中,将关键语音与场景词库中的词进行匹配,判断是否可以基于关键语音中的一个或多个字精确定位至场景词表中的词,若是,则将该定位的词作为关键语音识别结果。若否,则语音控制逻辑进一步与用户进行语音交互,以明确用户的语音命令。
例如获取的关键语音为“jialefu”,语音控制逻辑将“jialefu”与场景词表的词进行匹配,在本发明中,无需将“jialefu”与词表中的词完全匹配,例如其中的一个或多个发音“jia”或者“jiale”等与词表中的词匹配,基于该匹配结果可以定位至词表中的词,则将该定位的词作为识别结果。
具体的,包括以下步骤:确定关键语音为选项词还是场景词表的词,若包括场景词表的词,则确定关键语音的字数,从场景词表中筛选出与关键语音字数相同的词,然后基于可以准确识别的关键语音的字的发音以及该字在关键语音的各个字中的位置,判断是否可以精确定位筛选出的场景词中的词,若是则确定关键语音。例如“jialefu”包括三个字,从场景词表中筛选出为三个字的词,语音控制逻辑精确识别出“jia”的发音,且该字在关键语音中位于第一个字,基于上述信息从筛选的场景词中识别出用户的语音为“家乐福”。
进一步的,若关键语音还包括选项词,则在可以准确识别选项词时,基于选项词定位场景词表中的词,不对其他关键语音进行识别。若无法准确识别选项词时,结合其他关键语音进行识别。
或者为了增强语音识别的准确性,对关键语音中的选项词和场景词表的词均进行识别,在二者识别结果一致时,将识别结果作为对关键语音的识别结果,若二者识别结果不一致时,则进一步执行以下步骤:
将根据选项词和场景词表的词识别的结果作为候选结果,判断该候选结果的两个选项词是否为发音相似的词,例如“第一个”、“第七个”,若是,则判断候选结果的两个场景词是否为发音相似的词,若不是,则将关键语音中包括的场景词表的词分别与两个候选词进行匹配,匹配方式如上所述,将匹配度最高的词作为识别结果。
优选的,在生成场景词表时,当其中包括发音相似的词,在构建场景词表时,使发音相似的词的选项词的发音具有加大差别,二者不属于发音相似的选项词。通过该方法可以降低语音识别的错误率。
优选的,若与关键语音对应的场景词表的词中存在多个发音相近的词,例如关键语音为“diyige”,场景词表中对应该发音的词包括“第一个”、“第七个”,且必须通过对该词的识别才能确定用户的语音命令时,对于该情形,在语音识别时,本发明还提出了一种识别方法,强化相近词的不同部分的识别,例如“一”、“七”,弱化相近词中相同发音的字的识别,从而加重不同部分的效果影响。具体的,对该发音相似的字识别时,基于本次与用户语音交互的过程,确定用户是否有该发音或相近发音的历史语音,若是,判断是否可以确定该历史语音为发音相近的字的哪个字的发音,若可以确定,则提取该字的语音,将关键语音中的该强化的字的发音与提取的字的语音进行比较,从而确定用户的语音命令。若历史语音中不存在该发音或者与该发音相近的字的语音,则进一步判断是否有用户相关的易混字语音库,若存在,在基于该语音库进行比较,若不存在,则基于用户的语音确定用户属于哪个地区,根据其所述区域的发音特点识别关键语音。进一步的,若无法识别用户的语音命令,则与用户进行语音交互,从而确定该第二语音命令。
步骤330,基于识别的关键语音确定用户的第二语音命令;
在该步骤中,识别出关键语音时,语音控制逻辑也识别出了用户的第二语音命令,从而可以根据第二语音命令执行对应的动作。
步骤400,根据用户的语音命令执行相应的动作。
在本步骤中,语音控制逻辑准确识别出用户的语音命令后,判断自身是否可以直接执行语音命令,若是,则执行相应动作,若无法直接执行语音命令,则调用可以执行该语音命令的语音控制逻辑执行该语音命令。
对于上述实施例,假设语音控制逻辑为语音助手,其识别出用户的语音命令为导航到家附近的家乐福,由于其自身无法执行该语音命令,则调用可以执行该语音命令的百度地图,使其导航到家附近的家乐福。相应的,若该语音控制逻辑为百度地图,其可以执行该语音命令,则其根据用户的语音命令执行导航到家附近的家乐福的动作。
优选的,在本发明中,获取用户的语音命令后,对语音命令进行识别,判断是否可以直接识别出用户的语音命令;若是,根据直接识别出的语音命令执行相应的动作,若否,当当前语音交互中语音控制逻辑未向用户提供场景词表时,本发明还包括以下步骤:步骤500,根据实时生成的语音识别模型识别用户的语音命令。
在本步骤中,当无法直接识别出用户的语音命令时,则采用本发明的语音识别模型进行语音命令的识别过程。具体的,包括以下步骤:
首先,生成动态词库,如图2所示,具体包括以下步骤:
步骤510,对用户意图进行识别;
当无法准确识别用户的语音命令时,根据当前语音命令进行模糊识别,判断是否可以识别用户的意图,若语音控制逻辑根据用户当前的语音命令可以识别用户的意图,则确定用户的意图,若根据当前的语音命令无法确定用户的意图,则根据用户与语音控制逻辑的当前语音交互上文信息和/或语音控制逻辑的功能确定用户的意图。
例如,对于上述示例,若用户的语音命令为“导航到家附近的家乐福超市”,语音控制逻辑无法识别家乐福,但是根据“导航”“超市”可以确定用户的意图为导航去超市;或者根据当前语音命令无法确定用户的意图,则根据用户与语音控制逻辑的当前交互的上文信息确定用户的意图是导航,或者根据语音控制逻辑的功能确定用户的意图,如当前与用户交互的语音控制逻辑为百度地图,则根据其功能确定用户的意图为导航,进一步的,当单独根据所述上文信息或者语音控制逻辑的功能无法确定用户的意图时,则将二者结合起来确定用户的意图。
步骤520,确定当前语音命令的应用场景;
在确定用户的意图后,基于该意图确定当前对话的应用场景。例如对于上述示例识别用户的意图是导航去超市,根据该导航的意图确定当前语音命令的应用场景为导航。例如用户的语音命令为听邓紫棋的泡沫,语音控制逻辑无法识别泡沫,但是根据该语音命令可以识别用户的意图为听音乐,进一步根据该意图确定当前语音命令的应用场景为音乐。例如用户的语音命令为“打开交通广播”,语音控制逻辑未识别出“交通”,但是识别出了“广播”,基于“广播”确定用户的意图是听收音机,进一步确定当前语音命令的应用场景为收音机广播。
优选的,在另一个实施方式中,还包括步骤530,确定需要识别的关键信息的属性。
在该步骤中,根据用户的意图和/或语音命令的应用场景以及未识别的语音确定需要识别的关键信息的属性;优选的,该属性可以为地点、人名、歌曲等代表关键信息性质的属性。
例如,上述示例的导航到家附近的家乐福超市,对于未识别的关键信息“家乐福”,根据用户的意图“导航到超市”以及该语音命令的应用场景确定需要识别的关键信息的属性为超市,进一步的该超市为家附近。相应的,若无法精确确定该属性,则确定较为上位的属性,如该示例中无法确定是超市,则确定该关键信息的属性为地点。
再例如上述用户的语音命令为听邓紫棋的泡沫,根据本发明的方法确定需要识别的关键信息的属性为邓紫棋的两个字的歌名。
优选的,如上述示例,该方法还包括步骤540,确定需要识别的关键信息的字数。
在该步骤中,对于未识别的语音命令中的关键信息,获取关键信息包括的字数,例如“家乐福”为3个字,“泡沫”为2个字。
步骤550,形成解析用户语音命令的约束条件;
利用上述步骤510至步骤540确定的信息,形成解析用户语音命令的约束条件。
基于该约束条件,可以将语音识别的范围限定为一个较小的明确的范围内。
步骤560,基于该约束条件,生成动态词库。
在该步骤中,根据上述约束条件,借助互联网或者用户的历史行为数据,生成该约束条件下的动态词库。例如用户的语音命令为“到家附近的家乐福超市”,其中未识别“家乐福”,则基于确定的意图:导航到超市,应用场景:导航,关键信息属性:超市,家附近,关键信息的字数:3个字。基于上述信息语音控制逻辑搜索生成家附近的超市名为3个字的超市的动态词库{家乐福,李大妈,沃尔玛}。
在生成动态词库后,基于动态词库执行后续的步骤,包括:
步骤570,基于生成的动态词库对语音命令的关键信息进行识别;
在该步骤中,将关键信息与动态词库进行匹配,识别出关键信息,具体识别方式同上述基于场景词表识别语音命令中仅根据场景词表中的词识别语音命令的方式,自此不再累述。
步骤580,确定是否可以识别关键信息,若是,基于识别的关键信息确定用户的语音命令,并执行相应的动作,若否,则基于通用的语音识别模型进行语音识别。
在该步骤中,识别出语音命令的关键信息后,则可以确定用户的语音命令,从而执行相应的动作。
若无法识别出关键信息,则再基于通用的语音识别模型进行语音识别。
通过本发明的方法,一方面可以提供语音识别的准确率,另一方面也可以提供语音识别的速度。在本发明的方法中,在与用户进行语音交互时,当可以提供场景词表时,优先向用户提供场景词表,从而使得语音控制逻辑进行语音识别时可以基于场景词库的词进行识别,进一步的,在有限范围词库内进行语音识别时,无需对所有的语音进行识别,也无需识别语音命令中关键信息的所有语音,可以通过部分命中的方式确定关键信息,这样提高了语音识别的速度,也提高了语音识别的准确率。更进一步的,对于无法确定用户语音命令时,并不是盲目的在网络中搜索或者基于通用的语音识别模型进行识别,而是实时生成与该关键信息相关的动态词库进行识别,从另一个角度提升了语音识别的速度与准确率。
本发明实施例还提供了一种语音识别的装置,用于执行上述方法,参见图3,具体包括:
获取模块,用户获取用户的第一语音命令;
用户与语音控制逻辑通过语音方式交互时,获取用户的第一语音命令。
交互模块,用于确定是否向用户提供场景词表;若是,则向用户提供场景词表;否则不提供场景词表,直接与用户进行语音交互;
交互模块根据用户的第一语音命令确定是否存在向用户提供场景词表的需求,若是,则根据用户的语音命令动态生成对应的场景词表。
进一步的,该装置还包括显示模块,用于向用户显示场景词表;还包括语音模块,用于向用户播报场景词表。
获取模块,还用于获取用户的第二语音命令;交互模块,判断用户的第二语音命令是否与场景词表关联,若是,基于场景词表识别用户的第二语音命令;若否,直接识别用户的语音命令。
交互模块判断向用户提供了场景词表时,且用户的第二语音命令与场景词表关联,或者选择了场景词表中的词,则基于场景词表识别用户的第二语音命令。具体包括以下步骤:
步骤310,获取第二语音命令中与场景词表关联的关键语音;
具体的,在该步骤中,对第二语音命令的解析重点侧重于关键语音的识别,当识别出关键语音时,则基于该关键语音以及用户与语音控制逻辑交互的上下文执行对应的动作。
步骤320,执行关键语音识别步骤;
在该步骤中,将关键语音与场景词库中的词进行匹配,判断是否可以基于关键语音中的一个或多个字精确定位至场景词表中的词,若是,则将该定位的词作为关键语音识别结果。若否,则进一步与用户进行语音交互,以明确用户的语音命令。
具体的,包括以下步骤:确定关键语音为选项词还是场景词表的词,若包括场景词表的词,则确定关键语音的字数,从场景词表中筛选出与关键语音字数相同的词,然后基于可以准确识别的关键语音的字的发音以及该字在关键语音的各个字中的位置,判断是否可以精确定位筛选出的场景词中的词,若是则将该定位的词作为关键语音识别结果,从而确定关键语音。
进一步的,若关键语音还包括选项词,则在可以准确识别选项词时,基于选项词定位场景词表中的词,不对其他关键语音进行识别。若无法准确识别选项词时,结合其他关键语音进行识别。
或者为了增强语音识别的准确性,对关键语音中的选项词和场景词表的词均进行识别,在二者识别结果一致时,将识别结果作为对关键语音的识别结果,若二者识别结果不一致时,则进一步执行以下步骤:
将根据选项词和场景词表的词识别的结果作为候选结果,判断该候选结果的两个选项词是否为发音相似的词,若是,则判断候选结果的两个场景词是否为发音相似的词,若不是,则将关键语音中包括的场景词表的词分别与两个候选词进行匹配,匹配方式如上所述,将匹配度最高的词作为识别结果。
优选的,交互模块在生成场景词表时,当其中包括发音相似的词,在构建场景词表时,使发音相似的词的选项词的发音具有加大差别,二者不属于发音相似的选项词。通过该方法可以降低语音识别的错误率。
优选的,若与关键语音对应的场景词表的词中存在多个发音相近的词,且必须通过对该词的识别才能确定用户的语音命令时,对于该情形,交互模块在语音识别时,本发明还提出了一种识别方法,强化相近词的不同部分的识别,弱化相近词中相同发音的字的识别,从而加重不同部分的效果影响。具体的,对该发音相似的字识别时,基于本次与用户语音交互的过程,确定用户是否有该发音或相近发音的历史语音,若是,判断是否可以确定该历史语音为发音相近的字的哪个字的发音,若可以确定,则提取该字的语音,将关键语音中的该强化的字的发音与提取的字的语音进行比较,从而确定用户的语音命令。若历史语音中不存在该发音或者与该发音相近的字的语音,则进一步判断是否有用户相关的易混字语音库,若存在,在基于该语音库进行比较,若不存在,则基于用户的语音确定用户属于哪个地区,根据其所述区域的发音特点识别关键语音。进一步的,若无法识别用户的语音命令,则与用户进行语音交互,从而确定该第二语音命令。
步骤330,基于识别的关键语音确定用户的第二语音命令;
在该步骤中,识别出关键语音时,语音控制逻辑也识别出了用户的第二语音命令,从而可以根据第二语音命令执行对应的动作。
交互模块,还用于根据用户的语音命令执行相应的动作;
交互模块准确识别出用户的语音命令后,判断自身是否可以直接执行语音命令,若是,则执行相应动作,若无法直接执行语音命令,则调用可以执行该语音命令的语音控制逻辑执行该语音命令。
优选的,在本发明中,获取模块获取用户的语音命令后,交互模块对语音命令进行识别,判断是否可以直接识别出用户的语音命令;若是,根据直接识别出的语音命令执行相应的动作,若否,当当前语音交互中语音控制逻辑未向用户提供场景词表时,交互模块还用于根据实时生成的语音识别模型识别用户的语音命令。
具体的,包括以下步骤:
步骤510,对用户意图进行识别;
当无法准确识别用户的语音命令时,根据当前语音命令进行模糊识别,判断是否可以识别用户的意图,若语音控制逻辑根据用户当前的语音命令可以识别用户的意图,则确定用户的意图,若根据当前的语音命令无法确定用户的意图,则根据用户与语音控制逻辑的当前语音交互上文信息和/或语音控制逻辑的功能确定用户的意图。
步骤520,确定当前语音命令的应用场景;
在确定用户的意图后,基于该意图确定当前对话的应用场景。
优选的,还包括步骤530,确定需要识别的关键信息的属性。
在该步骤中,根据用户的意图和/或语音命令的应用场景以及未识别的语音确定需要识别的关键信息的属性;优选的,该属性可以为地点、人名、歌曲等代表关键信息性质的属性。
优选的,还包括步骤540,确定需要识别的关键信息的字数。
步骤550,形成解析用户语音命令的约束条件;
利用上述步骤510至步骤540确定的信息,形成解析用户语音命令的约束条件。
基于该约束条件,可以将语音识别的范围限定为一个较小的明确的范围内。
步骤560,基于该约束条件,生成动态词库。
在该步骤中,根据上述约束条件,借助互联网或者用户的历史行为数据,生成该约束条件下的动态词库。
步骤570,基于生成的动态词库对语音命令的关键信息进行识别;
在该步骤中,将关键信息与动态词库进行匹配,识别出关键信息,具体识别方式同上述基于场景词表识别语音命令中仅根据场景词表中的词识别语音命令的方式,自此不再累述。
步骤580,确定是否可以识别关键信息,若是,基于识别的关键信息确定用户的语音命令,并执行相应的动作,若否,则基于通用的语音识别模型进行语音识别。
本发明实施例还提供了一种语音控制逻辑,该语音控制逻辑包括上述任一项装置。
本发明实施例提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器存储可被处理器执行的计算机指令,当处理器执行上述计算机指令时,实现如上所述的方法。
本发明实施例提供了一种计算机可读存储介质,用于存储计算机指令,所述计算机指令用于实现如上所述的方法。
可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质可以包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、闪存、可擦式可编程只读存储器(EPROM)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码
以上说明只是为了方便理解本发明而举出的例子,不用于限定本发明的范围。在具体实现时,本领域技术人员可以根据实际情况对装置的部件进行变更、增加、减少,在不影响方法所实现的功能的基础上可以根据实际情况对方法的步骤进行变更、增加、减少或改变顺序。
尽管已经示出和描述了本发明的实施例,本领域技术人员应当理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同替换所限定,在未经创造性劳动所作的改进等,均应包含在本发明的保护范围之内。

Claims (13)

1.一种语音识别的方法,其特征在于,包括以下步骤:
步骤100,获取用户的第一语音命令;
步骤200,确定是否向用户提供场景词表;若是,则向用户提供场景词表,否则不提供场景词表,直接与用户进行语音交互。
2.根据权利要求1所述的方法,其特征在于,
步骤300,获取用户的第二语音命令;判断用户的第二语音命令是否与场景词表关联,若是,基于场景词表识别用户的第二语音命令;若否,直接识别用户的语音命令。
3.根据权利要求2所述的方法,其特征在于,步骤300具体包括以下步骤
步骤310,获取第二语音命令中与场景词表关联的关键语音;
步骤320,执行关键语音识别步骤;
步骤330,基于识别的关键语音确定用户的第二语音命令。
4.根据权利要求3所述的方法,其特征在于,步骤320具体包括以下步骤:
将关键语音与场景词库中的词进行匹配,判断是否可以基于关键语音中的一个或多个字精确定位至场景词表中的词,若是,则将该定位的词作为关键语音识别结果;若否,则语音控制逻辑进一步与用户进行语音交互,以明确用户的语音命令。
5.根据权利要求4所述的方法,其特征在于,所述方法还包括
确定关键语音为选项词还是场景词表的词,若包括场景词表的词,则确定关键语音的字数,从场景词表中筛选出与关键语音字数相同的词,然后基于可以准确识别的关键语音的字的发音以及该字在关键语音的各个字中的位置,判断是否可以精确定位筛选出的场景词中的词,若是则确定关键语音;
若关键语音还包括选项词,则在可以准确识别选项词时,基于选项词定位场景词表中的词,不对其他关键语音进行识别;若无法准确识别选项词时,结合其他关键语音进行识别;
或者,对关键语音中的选项词和场景词表的词均进行识别,在二者识别结果一致时,将识别结果作为对关键语音的识别结果,若二者识别结果不一致时,则进一步执行以下步骤:
将根据选项词和场景词表的词识别的结果作为候选结果,判断该候选结果的两个选项词是否为发音相似的词,若是,则判断候选结果的两个场景词是否为发音相似的词,若不是,则将关键语音中包括的场景词表的词分别与两个候选词进行匹配,将匹配度最高的词作为识别结果。
6.一种语音识别的装置,其特征在于,包括:
获取模块,获取用户的第一语音命令;
交互模块,确定是否向用户提供场景词表;若是,则向用户提供场景词表,否则不提供场景词表,直接与用户进行语音交互。
7.根据权利要求6所述的装置,其特征在于,
获取模块,还用于获取用户的第二语音命令;
交互模块判断用户的第二语音命令是否与场景词表关联,若是,基于场景词表识别用户的第二语音命令;若否,直接识别用户的语音命令。
8.根据权利要求7所述的装置,其特征在于,交互模块基于场景词表识别用户的第二语音命令,具体包括以下步骤:
步骤310,获取第二语音命令中与场景词表关联的关键语音;
步骤320,执行关键语音识别步骤;
步骤330,基于识别的关键语音确定用户的第二语音命令。
9.根据权利要求8所述的装置,其特征在于,步骤320具体包括以下步骤:
将关键语音与场景词库中的词进行匹配,判断是否可以基于关键语音中的一个或多个字精确定位至场景词表中的词,若是,则将该定位的词作为关键语音识别结果;若否,则与用户进行语音交互,以明确用户的语音命令。
10.根据权利要求9所述的装置,其特征在于,交互模块还用于
确定关键语音为选项词还是场景词表的词,若包括场景词表的词,则确定关键语音的字数,从场景词表中筛选出与关键语音字数相同的词,然后基于可以准确识别的关键语音的字的发音以及该字在关键语音的各个字中的位置,判断是否可以精确定位筛选出的场景词中的词,若是则确定关键语音;
若关键语音还包括选项词,则在可以准确识别选项词时,基于选项词定位场景词表中的词,不对其他关键语音进行识别;若无法准确识别选项词时,结合其他关键语音进行识别;
或者,对关键语音中的选项词和场景词表的词均进行识别,在二者识别结果一致时,将识别结果作为对关键语音的识别结果,若二者识别结果不一致时,则进一步执行以下步骤:
将根据选项词和场景词表的词识别的结果作为候选结果,判断该候选结果的两个选项词是否为发音相似的词,若是,则判断候选结果的两个场景词是否为发音相似的词,若不是,则将关键语音中包括的场景词表的词分别与两个候选词进行匹配,将匹配度最高的词作为识别结果。
11.一种语音控制逻辑,其特征在于,该语音控制逻辑包括权利要求6-10中任一项所述的装置。
12.一种计算机设备,其特征在于,所述计算机设备包括处理器和存储器,所述存储器存储可被处理器执行的计算机指令,当处理器执行上述计算机指令时,实现如权利要求1-5任一项所述的方法。
13.一种计算机可读存储介质,其特征在于,存储计算机指令,所述计算机指令用于实现如权利要求1-5任一项所述的方法。
CN202011302365.1A 2020-11-19 2020-11-19 一种语音识别的方法、装置 Pending CN112509573A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011302365.1A CN112509573A (zh) 2020-11-19 2020-11-19 一种语音识别的方法、装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011302365.1A CN112509573A (zh) 2020-11-19 2020-11-19 一种语音识别的方法、装置

Publications (1)

Publication Number Publication Date
CN112509573A true CN112509573A (zh) 2021-03-16

Family

ID=74958741

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011302365.1A Pending CN112509573A (zh) 2020-11-19 2020-11-19 一种语音识别的方法、装置

Country Status (1)

Country Link
CN (1) CN112509573A (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090164113A1 (en) * 2007-12-24 2009-06-25 Mitac International Corp. Voice-controlled navigation device and method
CN105845133A (zh) * 2016-03-30 2016-08-10 乐视控股(北京)有限公司 语音信号处理方法及装置
CN105869640A (zh) * 2015-01-21 2016-08-17 上海墨百意信息科技有限公司 识别针对当前页面中的实体的语音控制指令的方法和装置
CN107220292A (zh) * 2017-04-25 2017-09-29 上海庆科信息技术有限公司 智能对话装置、反馈式智能语音控制系统及方法
CN109192212A (zh) * 2018-11-13 2019-01-11 苏州思必驰信息科技有限公司 语音控制方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090164113A1 (en) * 2007-12-24 2009-06-25 Mitac International Corp. Voice-controlled navigation device and method
CN105869640A (zh) * 2015-01-21 2016-08-17 上海墨百意信息科技有限公司 识别针对当前页面中的实体的语音控制指令的方法和装置
CN105845133A (zh) * 2016-03-30 2016-08-10 乐视控股(北京)有限公司 语音信号处理方法及装置
CN107220292A (zh) * 2017-04-25 2017-09-29 上海庆科信息技术有限公司 智能对话装置、反馈式智能语音控制系统及方法
CN109192212A (zh) * 2018-11-13 2019-01-11 苏州思必驰信息科技有限公司 语音控制方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
孙艳庆;赵庆卫;颜永红;: "语音导航系统中的一种模糊检索算法", 微计算机应用, no. 12, pages 38 - 45 *

Similar Documents

Publication Publication Date Title
US20220156039A1 (en) Voice Control of Computing Devices
US10884701B2 (en) Voice enabling applications
US10733983B2 (en) Parameter collection and automatic dialog generation in dialog systems
CN111933129B (zh) 音频处理方法、语言模型的训练方法、装置及计算机设备
JP3454897B2 (ja) 音声対話システム
WO2015075975A1 (ja) 対話制御装置及び対話制御方法
JP2001209393A (ja) 自然言語入力方法及び装置
KR20030078388A (ko) 음성대화 인터페이스를 이용한 정보제공장치 및 그 방법
EP2863385B1 (en) Function execution instruction system, function execution instruction method, and function execution instruction program
CN115862600B (zh) 语音识别方法、装置及车辆
CN112669842A (zh) 人机对话控制方法、装置、计算机设备及存储介质
CN110767240B (zh) 儿童口音识别的设备控制方法、设备、存储介质及装置
WO2022271435A1 (en) Interactive content output
US11615787B2 (en) Dialogue system and method of controlling the same
US20230360633A1 (en) Speech processing techniques
JP2015052743A (ja) 情報処理装置、情報処理装置の制御方法、及びプログラム
CN112509573A (zh) 一种语音识别的方法、装置
CN105955698B (zh) 一种语音操控方法及装置
Gupta et al. Desktop Voice Assistant
CN113066473A (zh) 一种语音合成方法、装置、存储介质及电子设备
WO2019113516A1 (en) Voice control of computing devices
US11966663B1 (en) Speech processing and multi-modal widgets
US11804225B1 (en) Dialog management system
CN112017647B (zh) 一种结合语义的语音识别方法、装置和系统
US11908463B1 (en) Multi-session context

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20220117

Address after: 310024 floor 5, zone 2, building 3, Hangzhou cloud computing Industrial Park, Zhuantang street, Xihu District, Hangzhou City, Zhejiang Province

Applicant after: Hangzhou suddenly Cognitive Technology Co.,Ltd.

Address before: 100083 gate 3, block a, 768 Creative Industry Park, Zhongguancun, No.5 Xueyuan Road, Haidian District, Beijing

Applicant before: BEIJING MORAN COGNITIVE TECHNOLOGY Co.,Ltd.

TA01 Transfer of patent application right