CN112562684A

CN112562684A - 一种语音识别方法、装置和电子设备

Info

Publication number: CN112562684A
Application number: CN202011425798.6A
Authority: CN
Inventors: 李倩倩
Original assignee: Vivo Mobile Communication Co Ltd
Current assignee: Vivo Mobile Communication Co Ltd
Priority date: 2020-12-08
Filing date: 2020-12-08
Publication date: 2021-03-26
Anticipated expiration: 2040-12-08
Also published as: CN112562684B

Abstract

本申请公开了一种语音识别方法、装置及电子设备，属于语音识别技术领域。其中，所述方法包括：将接收的音频数据转化为第一文字段；在所述第一文字段满足第一预设条件的情况下，检测所述第一文字段中预设类型的各第一分词；对所述第一文字段中的目标分词进行处理生成目标文字段；其中，对所述目标分词的处理包括以下至少之一：删除所述目标分词、将所述目标分词所属单句替换为目标字符串。本申请实施例通过对第一文字段中预设类型的各第一分词进行删除或替换处理，能更好地明确用户的意图，快速完成改写，有效提升语音识别的执行效果。

Description

一种语音识别方法、装置和电子设备

技术领域

本申请属于语音识别技术领域，具体涉及一种语音识别方法、装置和电子设备。

背景技术

当前，人机交互设备通过自动语音识别技术(Automatic Speech Recognition，ASR)分析理解用户指令，继而完成后续相应操作，极大地提升了人机交互的便利性。

但是，现有的自动语音识别技术在因周围噪音等出现收音异常时，容易因上屏话术包含大量冗余信息而扭曲用户的意图，进而导致相应地执行结果达不到用户的预期，影响了用户的使用体验。

发明内容

本申请实施例的目的是提供一种语音识别方法，能够解决现有的语音识别技术容易因收音异常导致用户的意图被扭曲，使得相应地执行结果达不到用户预期的问题。

为了解决上述技术问题，本申请是这样实现的：

第一方面，本申请实施例提供了一种语音识别方法，其中，所述方法包括：

将接收的音频数据转化为第一文字段；

在所述第一文字段满足第一预设条件的情况下，检测所述第一文字段中预设类型的各第一分词；其中，所述第一预设条件包括以下至少之一：文字总数大于预设字数阈值且包含预设核心词；文字总数大于预设字数阈值且预设话术库中存在与所述第一文字段相似度大于预设相似度阈值的第二文字段；

对所述第一文字段中的目标分词进行处理生成目标文字段；其中，对所述目标分词的处理包括以下至少之一：删除所述目标分词、将所述目标分词所属单句替换为目标字符串。

第二方面，本申请实施例提供了一种语音识别装置，其中，该装置包括：

转换模块，用于将接收的音频数据转化为第一文字段；

检测模块，用于在所述第一文字段满足第一预设条件的情况下，检测所述第一文字段中预设类型的各第一分词；其中，所述第一预设条件包括以下至少之一：文字总数大于预设字数阈值且包含预设核心词；文字总数大于预设字数阈值且预设话术库中存在与所述第一文字段相似度大于预设相似度阈值的第二文字段；

处理模块，用于对所述第一文字段中的目标分词进行处理生成目标文字段；其中，对所述目标分词的处理包括以下至少之一：删除所述目标分词、将所述目标分词所属单句替换为目标字符串。

第三方面，本申请实施例提供了一种电子设备，该电子设备包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如第一方面所述的方法的步骤。

第四方面，本申请实施例提供了一种可读存储介质，所述可读存储介质上存储程序或指令，所述程序或指令被处理器执行时实现如第一方面所述的方法的步骤。

第五方面，本申请实施例提供了一种芯片，所述芯片包括处理器和通信接口，所述通信接口和所述处理器耦合，所述处理器用于运行程序或指令，实现如第一方面所述的方法。

在本申请实施例中，在进行语音识别时，先将接收的音频数据转化为第一文字段；然后在第一文字段满足判定为异常话术的第一预设条件的情况下，检测第一文字段中预设类型的各第一分词；再对第一文字段中的目标分词进行处理生成目标文字段。通过在接收的音频数据转化的第一文字段满足第一预设条件的情况下，即第一文字段判定为异常话术的情况下，对第一文字段中预设类型的各第一分词进行删除或替换处理，能更好地明确用户的意图，快速完成改写，有效提升语音识别的执行效果。

附图说明

图1是本申请实施例提供的语音识别方法的步骤流程图；

图2是本申请实施例中第一文字段的显示效果示意图；

图3是本申请实施例中对冗余词的裁剪操作示意图；

图4是本申请实施例中对冗余词进行裁剪操作后的效果示意图；

图5是本申请实施例中第一字符串推荐列表的显示效果示意；

图6是本申请实施例中对第一目标字符串进行点击后的显示效果示意；

图7是本申请实施例中第一字符串推荐列表的显示效果示意；

图8是本申请实施例中对第二目标字符串进行点击后的显示效果示意；

图9是本申请实施例所提供的语音识别方法的一种执行流程图；

图10是本申请实施例所提供的冗余词判断过程示意图；

图11是本申请实施例所提供的语音识别方法的另一种执行流程图；

图12是本申请实施例所提供的第二字符串推荐列表的生成过程示意图；

图13是本申请实施例提供的语音识别装置的结构示意图；

图14是本申请实施例提供的电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象，而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，说明书以及权利要求中“和/或”表示所连接对象的至少其中之一，字符“/”，一般表示前后关联对象是一种“或”的关系。

下面结合附图，通过具体的实施例及其应用场景对本申请实施例提供的文档显示方法进行详细地说明。

请参阅图1，示出了本申请实施例提供的一种语音识别方法的步骤流程图，其中，该方法可以包括步骤S100～S300。

本申请实施例中，上述语音识别方法应用于具有语音接收功能及文字显示功能的终端设备，具体可以是手机、平板电脑、电视机、车载电子设备、可穿戴设备、语音助手、有屏音响等人机交互设备。

步骤S100、将接收的音频数据转化为第一文字段。

上述步骤S100中，利用语音识别技术，对接收的音频数据进行识别，转化为对应的文字段，即上述第一文字段，以便于后续显示及进行语义分析、分词处理等。

其中，因为接收的音频数据不仅包含了用户语义，还可能包含的外界周围噪音，因而ABS服务在识别音频数据时会同时识别用户语音及外界噪音，使得第一文字段包含了用户语音及外界噪音对应的文字。例如，用户原始语音为“天气咋样”，但因为外界噪音的干扰，使得得到第一文字段可能为“走哈哈啊别忘了啊呀闹钟，你你你天气咋样”。

步骤S200、在所述第一文字段满足第一预设条件的情况下，检测所述第一文字段中预设类型的各第一分词；其中，所述第一预设条件包括以下至少之一：文字总数大于预设字数阈值且包含预设核心词；文字总数大于预设字数阈值且预设话术库中存在与所述第一文字段相似度大于预设相似度阈值的第二文字段。

上述步骤S200中，第一预设条件为确定第一文字段是否为不符合常规表达习惯的异常话术的判定条件，包括文字总数大于预设字数阈值且包含预设核心词，以及文字总数大于预设字数阈值且预设话术库中存在与该第一文字段相似度大于预设相似度阈值的第二文字段，这两个条件中的至少一种。

上述步骤S200中，预设核心词为通过分析当前日志，基于文本频率与逆文档频率指数(term frequency–inverse document frequency，TFIDF)和词语词性构建的核心词集合中的词语。例如，假设当词语的TFIDF的分数阈值为0.03，且词语的常见词性为名词或者动词时，则认为该词语是核心词；若在语音助手业务下，当天的全量日志中共10000条话术，针对每条话术进行分词和词性标注，共60000个词语；其中“天气”这个词语曾在1000条话术中出现过3000次，因此“天气”词语的TFIDF的分值为(3000/60000)*log(10000/(1000+1))＝0.05，该值大于0.03，且“天气”的常见词性为名词，则将“天气”确定为核心词；

其中，上述预设字数阈值为界定当前文字段是否容易出现执行效果与用户期望偏差的字数条件。由于文字段字数较少时，语音识别结果收噪音干扰较小，其执行效果与用户期望出现的偏差较小；而在文字段字数达到一定字数阈值时，则语音识别结果受噪音干扰的可能性较大，容易在语音识别的执行过程中出现与用户期望偏差的情况，因而需要设置上述预设字数阈值。可选地，预设字数阈值为10。

本申请实施例中，因为在文字段的文字总数大于预设字数阈值时，语音识别结果受噪音干扰的可能性较大，容易在语音识别的执行过程中出现与用户期望偏差的情况，但若此时文字段中未包含预设核心词，也即未包含动作指令或执行对象，该文字段无法被执行相应的动作，也即没必要进行进一步地改写或更正，因而只有在文字总数大于预设字数阈值且包含预设核心词的情况下，才确定第一文字段为需要进行后续修正、改写操作的异常话术，因而将文字总数大于预设字数阈值且包含预设核心词为上述第一预设条件的一个子条件。

例如，在语音助手业务下，当设置预设字数阈值为10；若当识别得到的第一文字段为“走哈哈啊别忘了啊呀闹钟，你你你天气咋样”，其字数为19，其由于含有“天气”这类语音助手业务下的核心词语，满足文字总数大于预设字数阈值且包含预设核心词的判定条件，因而确定该文字段满足第一预设条件，是潜在有意义话术，值得进一步做话术改写后，再发送给后台服务器执行对应的动作。

再如：若当识别得到的第一文字段为“走哈哈啊别忘了啊呀，你你你咋样”，虽然该文字段的字数为15，但是由于该文字段不含有任何业务相关的核心词语，不满足文字总数大于预设字数阈值且包含预设核心词的判定条件，因而确定该文字段不满足第一预设条件，不值得进一步做改写，因而作为正常话术直接发给后台服务器去确定对应的执行动作。

上述步骤S200中，预设话术库为电子设备所包含的业务场景对应的领域标准话术库，为该业务场景对应的领域中经常出现的话术的集合。例如，若当前电子设备为语音助手，其业务下仅包含闹钟、天气业务场景，因而其对应的领域标准话术库可为：[“今天天气怎么样”、“天气好不好”、“今天天气适合户外么”、“定个闹钟”、“修改闹钟”]。

预设相似度阈值为用于界定第一文字段是否与预设话术库中的文字段相似的阈值，在第一文字段与预设话术库中的第二文字段相似度大于该阈值时，确定第一文字段与该第二文字段相似；该预设相似度阈值可以设置为0.1。

本申请实施例中，因为在文字段的文字总数大于预设字数阈值时，若该文字段不含有预设核心词，但其涉及到了领域标准话术库的内容，说明该文字段属于潜在有意义话术，因此判定该话术为异常话术，因而将文字总数大于预设字数阈值且预设话术库中存在与第一文字段相似度大于预设相似度阈值的第二文字段为上述第一预设条件的另一个子条件。其中，相似度算法可采用现有的相似度算法。

例如，假设预设字数阈值为10，相似度阈值设置为0.1，若识别出的第一文字段为“走哈哈啊别忘了啊呀户外，你你你咋样”，该文字段的文字总数为17，且不含有任何业务相关的核心词语，但是当用该文字段检索领域标准话术库后，利用开源的ElascticSearch等搜索引擎的默认相似度算法打分后，获取相似度最高的1条话术为：“今天天气适合户外么”，此时搜索引擎给出的相似度为0.2，大于0.1的相似度阈值，因而认为该第一文字段为潜在有意义话术，确定满足第一预设条件，值得进一步做改写后，再发给后台服务器执行对应的动作。

上述步骤S200中，在确定第一文字段满足第一预设条件的情况下，说明第一文字段为值得进行改写、修正的异常话术，因而先对第一文字段进行分词处理，以便于从该第一文字段中检测出符合预设类型的各第一分词，以供后续对应进行改写、修正处理。

其中，在对第一文字段进行分词处理时，可以采用正向最大匹配分词算法执行分词处理。

步骤S300、对所述第一文字段中的目标分词进行处理生成目标文字段；其中，对所述目标分词的处理包括以下至少之一：删除所述目标分词、将所述目标分词所属单句替换为目标字符串。

上述步骤S300中，目标分词为需要进行改写的分词，一般为所接收的音频数据中外界噪音对应的分词而需要删除，或者为因用户表述不当造成语音识别偏差而需要更正，因而可以根据目标分词的具体类型，对应执行删除目标分词，或将目标分词所属单句替换为目标字符串，进而基于处理后的第一文字段生成目标文字段。

本申请实施例提供的语音识别方法，在进行语音识别时，先将接收的音频数据转化为第一文字段；然后在第一文字段满足判定为异常话术的第一预设条件的情况下，检测第一文字段中预设类型的各第一分词；再对第一文字段中的目标分词进行处理生成目标文字段。通过在接收的音频数据转化的第一文字段满足第一预设条件的情况下，即第一文字段判定为异常话术的情况下，对第一文字段中预设类型的各第一分词进行删除或替换处理，能更好地明确用户的意图，快速完成改写，有效提升语音识别的执行效果。

可选地，在一种实施方式中，上述步骤S200具体包括步骤S201。

步骤S201、在所述第一文字段满足第一预设条件的情况下，检测所述第一文字段中的冗余词、主语、谓语、宾语及预设核心词；

其中，所述冗余词为第一文字段中与前后预设位数的分词的组合不符合预设语言表达方式，且不存在于预设热词库中的分词。

上述步骤S201中，上述预设热词库为由当前热词组成的词库，具体可以通过分析最近若干天的日志，然后统计词语出现频数大于预设频数阈值的词语组成。例如，在语音助手业务下，一天所有话术分词去重，将频数大于1000的词语定义为热词，则得到的预设热词库为：[“天气”、“今天”、“紫外线”、“闹钟”、“定个”]。

上述冗余词为第一文字段中与前后预设位数的分词的组合不符合预设语言表达方式，且不存在于预设热词库中的分词，也即是在将第一文字段进行分词处理后，将得到的每个第一分词与第一文字段中位于该第一分词前后预设位数的第二分词形成第一组合，再判定该第一组合是否符合预设语言表达习惯，以及判定第一分词是否存在于预设热词库中；若第一组合不符合预设语言表达方式，且第一分词不存在于预设热词库中，则可以确定该第一分词为冗余词。

其中，因为存在因第一分词为最新出现的热门词，导致第一分词与第二分词形成的组合不符合预设语言表达习惯的情况，因而为了防止误伤，只有在第一分词与第二分词形成的组合不符合预设语言表达习惯，且第一分词不存在于预设热词库中的情况下，才可以将该第一分词确定为冗余词，也即不需要的、重复的或多余的词。

其中，因为第一文字段为基于音频数据转化的文字，因而在判定第一分词是否存在于预设热词库中时，也是基于拼音进行判定，即若第一分词的拼音与预设热词库中的第三分词相同或相似，则判定第一分词存在于预设热词库中，即该第一分词为热词。

在实际应用中，在确定第一文字段中与前后预设位数的分词的组合是否符合预设语言表达方式时，可以输入到预训练好的语言模型中，由模型对该组合进行打分，当分值大于第一模型阈值时，则认为不符合预设语言表达方式，其中，第一模型阈值为判定分词是否不符合预设语言表达习惯的阈值，当模型分值大于该第一模型阈值时，说明对应分词不符合预设语言表达习惯。

可选地，第一分词与第一文字段中位于该第一分词前后预设位数的第二分词形成第一组合输入到预训练好的语言模型中进行打分时，若分值大于第二模型阈值，则直接将该第一分词删除；其中，第二模型阈值大于第一模型阈值，第二模型阈值为判定分词是否严重不符合预设语言表达习惯的阈值，当模型分值大于该第二模型阈值时，说明对应的分词严重不符合预设语言表达习惯，因而可以直接将对应的分词删除。

例如：若第一文字段为“走哈哈啊别忘了啊呀闹钟，你你你天气咋样”，核心词集合为：[“闹钟”、“天气”]，热词库为[“天气”、“今天”、“紫外线”、“闹钟”、“定个”]，第一模型阈值为0.01；

若由第一文字段中各分词形成的候选词集合为[走,哈哈,啊,别忘了,啊,呀,闹钟，你,你,你,天气,咋样]，先从左向右依次判断每个词语是否是预设核心词，如“闹钟”，由于“闹钟”、“天气”在核心词集合中，因此“闹钟”是预设核心词；

在已识别出预设核心词的各分词后，从左向右依次判断剩余分词是否是冗余词，如：判断“别忘了”词语，先获取别忘了的上下文，即第一文字段中距离“别忘了”最近的前后K个词；如在[走,哈哈,啊,别忘了,啊,呀,闹钟，你,你,你,天气,咋样]中，当K＝2时，“别忘了”的上下文为[“哈哈”，“啊”，“啊”，“呀”]，再将词语“别忘了”和其上下文[“哈哈”，“啊”，“啊”，“呀”]输入预训练的语言模型中，语言模型输出打分为0.002，假设第一模型阈值为0.01，则说明“哈哈啊别忘了啊呀”这个片段不符合常规表达，因此“别忘了”很可能是冗余词；为了防止误伤，将再进一步结合热词库进行拼音检测，由于此时热词库为：[“天气”、“今天”、“紫外线”、“闹钟”、“定个”]，“别忘了”的拼音和热词库中的所有的词语的拼音都不一样，因此可以最终确认“别忘了”冗余词。

本实施方式中，通过在第一文字段满足第一预设条件的情况下，对第一文字段中的各个分词进行语义及词性分析，确定其中包括的冗余词、主语、谓语、宾语及预设核心词，以便于后续确定目标分词，以及根据目标分词类型的不同进行区别化的改写。

可选地，在检测出所述第一文字段中的冗余词、主语、谓语、宾语及预设核心词之后，显示所述第一文字段，并将所述冗余词及预设核心词进行区别化显示，以便于用户更好地确定目标分词，以更有针对性地对文字段进行改写。例如，将冗余词以黄色显示，将核心词以红色显示。

可选地，在一种实施方式中，本申请实施例所提供的语音识别方法，在步骤S300之前，还包括步骤S202：

S202、在接收对所述各第一分词中目标分词的第一输入的情况下，执行所述步骤S300。

上述步骤S202中，第一输入为包括各第一分词中目标分词的选择输入，以及确认对目标分词进行处理的输入；目标分词为各第一分词中需要处理的分词，该目标分词为目标分词中的至少一个，该分词可以由第一输入确定，也可以预先根据预设类型进行确定。

可选地，上述步骤S202具体包括：在预设时长内接收对所述各第一分词中目标分词的第一输入的情况下，执行收对所述各第一分词中目标分词的第四输入的情况下，执行所述步骤S300。上述预设时长为供用户确认是否对第一文字段进行改写的时长。如果在预设时长内未接收到用户对目标分词的第一输入，说明用户确定不需要对当前显示的第一文字段进行改写、修正，因而不再执行后续动作，并直接将上述第一文字段发送给后台服务器进行识别及执行对应的动作。

可选地，在一种具体实施方式中，在所述目标分词为冗余词的情况下，上述步骤S300包括步骤S301。

步骤S301、将所述目标分词从所述第一文字段中删除，生成目标文字段。

上述步骤S301中，在目标分词为冗余词的情况下，因为用户需要对该冗余词进行改写，而因为冗余词为多余、无意义的词，将该冗余词删除，可以明确、突出用户的真实意图，进而基于删除目标分词后的第一文字段，生成目标文字段，便于后台服务器更好地识别并执行对应的动作。

例如，若第一文字段为“走哈哈啊别忘了啊呀闹钟，你你你天气咋样”，其显示效果如图2所示；通过分词判断确定出“走哈哈啊”、“啊呀”及“你你你”均为冗余词，然后用户通过对“走哈哈啊”、“啊呀”及“你你你”点击进行裁剪，其操作效果如图3所示，然后得到“别忘闹钟，天气咋样”的目标文字段，其显示效果如图4所示。

可选地，在一种具体实施方式中，在所述目标分词为预设核心词的情况下，上述步骤S300包括步骤S302～S305。

步骤S302、接收对所述各第一分词中目标分词的第一输入。

上述步骤S302中，第一输入为包括各第一分词中目标分词的选择输入，以及确认对目标分词进行处理的输入；目标分词为各第一分词中需要处理的分词，该目标分词为目标分词中的至少一个，该分词可以由第一输入确定，也可以预先根据预设类型进行确定。

步骤S303、响应于所述第一输入，生成与所述目标分词匹配的第一字符串推荐列表。

上述步骤S303中，在目标分词为预设核心词的情况下，也即在接收到对第一文字段中预设核心词的第一输入的情况下，说明用户需要对该预设核心词进行改写，而因为第一文字段中的预设核心词为表达句子语义的关键，用户希望对其进行改写或修正的话，说明该词并正确识别出音频数据对应的文字，或者虽然正确识别出了音频数据对应的文字，但并未精准地表达出用户的意图，因而生成与目标分词匹配的第一字符串推荐列并显示，以便于用于选择出能够准确表达其真实意图的字符串。

步骤S304、接收对所述第一字符串推荐列表中第一目标字符串的第二输入。

上述步骤S304中，第二输入为对第一字符串推荐列表中第一目标字符串的选择输入，具体可以是对上述第一目标字符串所在屏幕区域的点击、触碰等操作。

步骤S305、响应于所述第二输入，将所述第一文字段中所述目标分词所在单句替换为所述第一目标字符串，生成目标文字段。

上述步骤S305中，将目标分词所在的单句替换为第二输入所确定的第一目标字符串，并基于替换处理后的第一文字段，生成能够准确表达用户真实意图的目标文字段。其中，单句为将第一文字段按预设标点符号进行分割后得到的句子，该预设标点符号可以包括逗号、顿号及句号等。

例如，在用户通过对第一文字段“走哈哈啊别忘了啊呀闹钟，你你你天气咋样”中的冗余词“走哈哈啊”、“啊呀”及“你你你”点击进行裁剪，得到“别忘闹钟，天气咋样”后，继续对其中的预设核心词“闹钟”进行点击，则会显示基于“闹钟”的字符串推荐列表，而对预设核心词“天气”进行点击，则会显示基于“天气”的字符串推荐列表，其显示效果如图5所示；

若在图5中点击“闹钟”后选中基于“闹钟”的字符串推荐列表中的“定个闹钟”，则会将“闹钟”替换为“定个闹钟”，若点击“天气”后选中基于“天气”的字符串推荐列表中的“今天天气怎么样”，则会将“天气咋样”替换为“今天天气怎么样”，其具体显示效果如图6所示。

上述具体实施方式中，在需要改写的目标分词为预设核心词时，通过显示与目标分词匹配的第一字符串推荐列表供用户选择对应的目标字符串，并基于用户选择的目标字符串替换目标分词所在的单句，从而生成能够准确表达用户真实意图的目标文字段。

可选地，在一种实施方式中，在所述第一文字段中包括主语、谓语、宾语及预设核心词的情况下，上述步骤S300包括步骤S306～S308。

本实施方式中，目标分词设置为第一文字段所包含的主语、谓语、宾语及预设核心词。

本实施方式适用于场景业务单一的电子设备，例如有屏音箱，用户在使用音箱时，需要音箱执行只是播放音乐或播放电台。

步骤S306、根据所述第一文字段中的主语、谓语、宾语、预设核心词及用户的使用日志，生成第二字符串推荐列表。

上述步骤S306中，在第一文字段中包括主语、谓语、宾语及预设核心词的情况下，也即在接收到对第一文字段中目标分词的第一输入的情况下，说明用户需要对该目标分词所属单句进行替换处理，因而基于第一文字段中的主语、谓语、宾语、预设核心词及用户的使用日志，生成与当前第一文字段相关，且包含匹配用户使用习惯的字符串的第二字符串推荐列表，并显示该第二字符串推荐列表，以便于用于选择出能够准确表达其真实意图的字符串。

其中，在生成第二字符串推荐列表的过程中，先基于用户的使用日志，构建用户常用话术库，然后根据第一文字段中的上述主语、谓语、宾语及预设核心词，在用户常用话术库中进行检索，并将检索结果按匹配度由高到低进行排序，再输出排序值在预设排序值之前的话术生成上述第二字符串推荐列表

在实际应用中，生成第二目标推荐列表的具体步骤如下：

(1)、先基于用户的使用日志进行分析，为每一个用户打上多个维度的标签，如：张三经常听“周杰伦”的歌，则可以为他打上一个标签“周杰伦”，李四经常听古风类型的歌曲，则可以为他打上一个标签“古风”；

(2)、然后通过频数进行判断目标话术是否为用户常用话术，为每条话术也打上多个维度的标签，记为Set1，具体可以记录为(用户，常用话术，各种标签)，如：(用户ID1，“播放稻香”，流行音乐，周杰伦)；

(3)、基于用户行为数据，采用矩阵分解或者Embedding技术找出相互关联的用户，并获取相似用户的常用话术集合，记为Set2，具体可以记录为(用户，相似用户，相似用户常用话术)；例如：(用户ID1，[用户ID2，用户ID6]，[“播放晴天”，“来一首Mojito”])；

(4)、针对第一文字段进行文本分析，结合依存句法分析和预设核心词抽取技术，获取主谓宾以及预设核心词，作为检索项；

(5)、采用上述项，检索Set1和Set2，采用BM25打分，分别召回若干话术，然后合在一起排序后，输出排序值为1～N的话术作为上述第二字符串推荐列表。

步骤S307、接收对所述第二字符串推荐列表中第二目标字符串的第三输入。

上述步骤S307中，第三输入为对第二字符串推荐列表中第二目标字符串的选择输入，第三输入同时也是上述第一输入，是确认以第二目标字符串对目标分词进行处理的输入，具体可以是对上述第二目标字符串所在屏幕区域的点击、触碰等操作。

步骤S308、将所述第二目标字符串确定为目标文字段。

上述步骤S308中，因为第二目标字符串为用户选择确定，且跟第一文字段相关，且匹配了用户的使用习惯，直接将第二目标字符串确定为目标字符串，也即将第一文字段替换为所述第二目标字符串，可以贴合用户的真实意图。

例如，若第一文字段为“哈哈啊稻香播放闹钟，你你周杰伦啊”，则会在该文字段上方显示基于该第一文字段中的主语、谓语、宾语、预设核心词及用户的使用日志生成的第二字符串推荐列表，其显示效果如图7所示；当用户点击第二字符串推荐列表中的“播放稻香”时，则会将显示的第一文字段替换为“播放稻香”，其显示效果如图8所示。

上述实施方式，在第一文字段满足第一预设条件的情况下，先自动根据检测出的第一文字段中所包含的主语、谓语、宾语、预设核心词及用户的使用日志，生成与当前第一文字段相关，且包含匹配用户使用习惯的字符串的第二字符串推荐列表，并显示该第二字符串推荐列表，然后在接收到用户对第二目标字符串的选择操作时，将第二目标字符串作为目标文字段，也即执行了对目标分词进行处理生成目标文字段的步骤。

上述实施方式，在第一文字段满足第一预设条件的情况下，通过第一文字段所包含的主语、谓语、宾语、预设核心词及用户的使用日志，生成与当前第一文字段相关，且包含匹配用户使用习惯的字符串的第二字符串推荐列表，进而便于用户快速从第二字符串推荐列表中选择能够准确表达其真实意图的目标字符串。

请参阅图9，示出了本申请实施例所提供的语音识别方法的一种执行流程图。如图9所示，在接收到包括用户输入语音及外界噪音的音频数据后，利用ASR识别音频获取原始上屏话术，即第一文字段，然后通过判断该第一文字段是否满足第一预设条件来确定其是否为异常话术，若该第一文字段不满足第一预设条件，则说明书该第一文字段为正常话术，可以直接作为待执行话术；若第一文字段满足第一预设条件，则说明书该第一文字段为异常话术，因而需要进行话术裁剪或整句替换，再基于处理后的第一文字段得到待执行话术，即目标文字段。

请参阅图10，示出了本申请实施例所提供的冗余词判断过程示意图，如图10所示，在利用ASR识别音频获取了原始上屏话术，即获取第一文字段后，先对第一文字段进行分词处理，并基于分词处理后得到的各词语形成候选词集合，依次选择其中一个作为候选词进行核心词检测，以判断当前候选词是否为预设核心词；如果当前候选词不属于预设核心词，则结合当前候选词上下文输入预先训练好的语言模型中判断是否符合预设语言表达方式，同时通过热词拼音检测当前候选词是否与预设热词库中的热词相似；如果当前候选词与其上下文的结合不符合预设语言表达方式且预设热词库中不存在与当前候选词相似的热词，则判断当前候选词为冗余词，否则判断当前候选词不是冗余词；而如果当前候选词属于预设核心词，则选择选择下一个分词作为候选词，直至遍历检测候选词集合中所有词语。

请参阅图11，示出了本申请实施例所提供的语音识别方法的另一种执行流程图。如图11所示，在接收到包括用户输入语音及外界噪音的音频数据后，利用ASR识别音频获取原始上屏话术，即第一文字段，然后通过判断该第一文字段是否满足第一预设条件来确定其是否为异常话术，若该第一文字段不满足第一预设条件，则说明书该第一文字段为正常话术，可以直接作为待执行话术；若第一文字段满足第一预设条件，则说明书该第一文字段为异常话术，因而基于第一文字段及用户的使用日志生成个性化推荐列表，即第二字符串推荐列表，然后基于用户的选择确定是否进行整句替换；如果用户点击了推荐列表中的目标字符串，则基于选择的目标字符串生成待执行话术，即目标文字段；如果用户未点击推荐列表中的目标字符串，则直接将第一文字段作为待执行话术，即目标文字段。

请参阅图12，示出了本申请实施例所提供的第二字符串推荐列表的生成过程示意图。如图12所示，在确定接收到的音频数据的原始上屏话术满足第一预设条件的情况下，即确定第一文字段为异常话术的情况下，利用依存句法分析及核心词提取技术，获取其中的主语、谓语、宾语及预设核心词，然后基于主语、谓语、宾语、预设核心词及当前用户ID，检索由用户常用话术库及相似用户常用话术库构建的常用话术库，并设置生成排序值为1～N的TopN候选话术选项，然后基于BM25打分算法，对检索到话术进行BM25打分及排序，将排序值为1～N的候选话术输出并显示，即得到第二字符串推荐列表。

需要说明的是，本申请实施例提供的语音识别方法，执行主体可以为终端设备，或者该终端设备中的用于执行加载语音识别方法的控制模块。本申请实施例中以文终端设备执行加载语音识别方法为例，说明本申请实施例提供的语音识别方法。

请参阅图13，示出了本申请实施例提供的一种语音识别装置的结构示意图，所述语音识别装置，如图13所示，所述装置包括：

转换模块131，用于将接收的音频数据转化为第一文字段；

检测模块132，用于在所述第一文字段满足第一预设条件的情况下，检测所述第一文字段中预设类型的各第一分词；其中，所述第一预设条件包括以下至少之一：文字总数大于预设字数阈值且包含预设核心词；文字总数大于预设字数阈值且预设话术库中存在与所述第一文字段相似度大于预设相似度阈值的第二文字段；

处理模块133，用于对所述第一文字段中的目标分词进行处理生成目标文字段；其中，对所述目标分词的处理包括以下至少之一：删除所述目标分词、将所述目标分词所属单句替换为目标字符串。

可选地，所述的装置中，所述检测模块132，具体用于在所述第一文字段满足第一预设条件的情况下，检测所述第一文字段中的冗余词、主语、谓语、宾语及预设核心词；

可选地，所述的装置中，所述处理模块133包括：

第一处理单元，用于在所述目标分词为冗余词的情况下，将所述目标分词从所述第一文字段中删除，生成目标文字段。。

可选地，所述的装置中，所述处理模块133还包括：

第一接收单元，用于在所述目标分词为预设核心词的情况下，接收对所述各第一分词中目标分词的第一输入；

第一生成单元，用于在所述目标分词为预设核心词的情况下，响应于所述第一输入，生成与所述目标分词匹配的第一字符串推荐列表；

第二接收单元，用于接收对所述第一字符串推荐列表中第一目标字符串的第二输入；

第二处理单元，用于响应于所述第二输入，将所述第一文字段中所述目标分词所在单句替换为所述第一目标字符串，生成目标文字段。

可选地，所述的装置中，所述处理模块还包括：

第二生成单元，用于在所述第一文字段中包括主语、谓语、宾语及预设核心词的情况下，根据所述第一文字段中的主语、谓语、宾语、预设核心词及用户的使用日志，生成第二字符串推荐列表；

第三接收单元，用于接收对所述第二字符串推荐列表中第二目标字符串的第三输入；

第三处理单元，用于将所述第二目标字符串确定为目标文字段。

本申请实施例中的语音识别装置可以是装置，也可以是终端中的部件、集成电路、或芯片。该装置可以是移动电子设备，也可以为非移动电子设备。示例性的，移动电子设备可以为手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、可穿戴设备、超级移动个人计算机(ultra-mobile personal computer，UMPC)、上网本或者个人数字助理(personaldigital assistant，PDA)等，非移动电子设备可以为服务器、网络附属存储器(NetworkAttached Storage，NAS)、个人计算机(personal computer，PC)、电视机(television，TV)、柜员机或者自助机等，本申请实施例不作具体限定。

本申请实施例中的语音识别装置可以为具有操作系统的装置。该操作系统可以为安卓(Android)操作系统，可以为ios操作系统，还可以为其他可能的操作系统，本申请实施例不作具体限定。

本申请实施例提供的语音识别装置能够实现图1至图12的方法实施例中文档显示方法实现的各个过程，为避免重复，这里不再赘述。

本申请实施例中，在进行语音识别时，先由转换模块131将接收的音频数据转化为第一文字段；然后由检测模块132在第一文字段满足判定为异常话术的第一预设条件的情况下，检测第一文字段中预设类型的各第一分词；再由处理模块133对第一文字段中的目标分词进行处理生成目标文字段。通过在接收的音频数据转化的第一文字段满足第一预设条件的情况下，即第一文字段判定为异常话术的情况下，对第一文字段中预设类型的各第一分词进行删除或替换处理，能更好地明确用户的意图，快速完成改写，有效提升语音识别的执行效果。

可选的，本申请实施例还提供一种电子设备，包括处理器，存储器，存储在存储器上并可在所述处理器上运行的程序或指令，该程序或指令被处理器执行时实现上述语音识别方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

需要注意的是，本申请实施例中的电子设备包括上述所述的移动电子设备和非移动电子设备。

图14为实现本申请实施例的一种电子设备的硬件结构示意图。

该电子设备140包括但不限于：射频单元1401、网络模块1402、音频输出单元1403、输入单元1404、传感器1405、显示单元1406、用户输入单元1407、接口单元1408、存储器1409、以及处理器1410等部件。

本领域技术人员可以理解，电子设备140还可以包括给各个部件供电的电源(比如电池)，电源可以通过电源管理系统与处理器1410逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。图14中示出的电子设备结构并不构成对电子设备的限定，电子设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置，在此不再赘述。

其中，用户输入单元1407，在本申请实施例中包括显示界面；

处理器1410，用于将接收的音频数据转化为第一文字段；在所述第一文字段满足第一预设条件的情况下，检测所述第一文字段中预设类型的各第一分词；对所述第一文字段中的目标分词进行处理生成目标文字段；其中，所述第一预设条件包括以下至少之一：文字总数大于预设字数阈值且包含预设核心词；文字总数大于预设字数阈值且预设话术库中存在与所述第一文字段相似度大于预设相似度阈值的第二文字段；对所述目标分词的处理包括以下至少之一：删除所述目标分词、将所述目标分词所属单句替换为目标字符串。

本申请实施例提供的电子设备，通过在接收的音频数据转化的第一文字段满足第一预设条件的情况下，即第一文字段判定为异常话术的情况下，对第一文字段中预设类型的各第一分词进行删除或替换处理，能更好地明确用户的意图，快速完成改写，有效提升语音识别的执行效果。

可选的，处理器1410，具体用于在所述第一文字段满足第一预设条件的情况下，检测所述第一文字段中的冗余词、主语、谓语、宾语及预设核心词；

可选的，处理器1410，具体用于在所述目标分词为冗余词的情况下，响应于所述第一输入，将所述目标分词从所述第一文字段中删除，生成目标文字段。

可选的，处理器1410，还用于在所述目标分词为预设核心词的情况下，接收对所述各第一分词中目标分词的第一输入；响应于所述第一输入，生成与所述目标分词匹配的第一字符串推荐列表；接收对所述第一字符串推荐列表中第一目标字符串的第二输入；响应于所述第二输入，将所述第一文字段中所述目标分词所在单句替换为所述第一目标字符串，生成目标文字段。

可选的，处理器1410，还用于在所述第一文字段中包括主语、谓语、宾语及预设核心词的情况下，根据所述第一文字段中的主语、谓语、宾语、预设核心词及用户的使用日志，生成第二字符串推荐列表；接收对所述第二字符串推荐列表中第二目标字符串的第三输入；将所述第二目标字符串确定为目标文字段。

本申请实施例还提供一种可读存储介质，所述可读存储介质上存储有程序或指令，该程序或指令被处理器执行时实现上述语音识别方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

其中，所述处理器为上述实施例中所述的电子设备中的处理器。所述可读存储介质，包括计算机可读存储介质，如计算机只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等。

本申请实施例另提供了一种芯片，所述芯片包括处理器和通信接口，所述通信接口和所述处理器耦合，所述处理器用于运行程序或指令，实现上述语音识别方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

应理解，本申请实施例提到的芯片还可以称为系统级芯片、系统芯片、芯片系统或片上系统芯片等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。此外，需要指出的是，本申请实施方式中的方法和装置的范围不限按示出或讨论的顺序来执行功能，还可包括根据所涉及的功能按基本同时的方式或按相反的顺序来执行功能，例如，可以按不同于所描述的次序来执行所描述的方法，并且还可以添加、省去、或组合各种步骤。另外，参照某些示例所描述的特征可在其他示例中被组合。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本申请各个实施例所述的方法。

上面结合附图对本申请的实施例进行了描述，但是本申请并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本申请的启示下，在不脱离本申请宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本申请的保护之内。

Claims

1.一种语音识别方法，其特征在于，所述方法包括：

将接收的音频数据转化为第一文字段；

2.根据权利要求1所述的语音识别方法，其特征在于，在所述第一文字段满足第一预设条件的情况下，检测所述第一文字段中预设类型的各第一分词的步骤，包括：

在所述第一文字段满足第一预设条件的情况下，检测所述第一文字段中的冗余词、主语、谓语、宾语及预设核心词；

3.根据权利要求2所述的语音识别方法，其特征在于，在所述目标分词为冗余词的情况下，所述对所述第一文字段中的目标分词进行处理生成目标文字段的步骤，包括：

将所述目标分词从所述第一文字段中删除，生成目标文字段。

4.根据权利要求2所述的语音识别方法，其特征在于，在所述目标分词为预设核心词的情况下，所述对所述第一文字段中的目标分词进行处理生成目标文字段的步骤，包括：

接收对所述各第一分词中目标分词的第一输入；

响应于所述第一输入，生成与所述目标分词匹配的第一字符串推荐列表；

接收对所述第一字符串推荐列表中第一目标字符串的第二输入；

响应于所述第二输入，将所述第一文字段中所述目标分词所在单句替换为所述第一目标字符串，生成目标文字段。

5.根据权利要求1所述的语音识别方法，其特征在于，在所述第一文字段中包括主语、谓语、宾语及预设核心词的情况下，所述对所述第一文字段中的目标分词进行处理生成目标文字段的步骤，包括：

根据所述第一文字段中的主语、谓语、宾语、预设核心词及用户的使用日志，生成第二字符串推荐列表；

接收对所述第二字符串推荐列表中第二目标字符串的第三输入；

将所述第二目标字符串确定为目标文字段。

6.一种语音识别装置，其特征在于，所述装置包括：

转换模块，用于将接收的音频数据转化为第一文字段；

7.根据权利要求6所述的语音识别装置，其特征在于，所述检测模块，具体用于在所述第一文字段满足第一预设条件的情况下，检测所述第一文字段中的冗余词、主语、谓语、宾语及预设核心词；

8.根据权利要求7所述的语音识别装置，其特征在于，所述处理模块包括：

第一处理单元，用于在所述目标分词为冗余词的情况下，将所述目标分词从所述第一文字段中删除，生成目标文字段。

9.根据权利要求7所述的语音识别装置，其特征在于，所述处理模块还包括：

第一生成单元，用于响应于所述第一输入，生成与所述目标分词匹配的第一字符串推荐列表；

10.根据权利要求6所述的语音识别装置，其特征在于，所述处理模块还包括：

11.一种电子设备，其特征在于，包括处理器，存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如权利要求1-5所述的语音识别方法的步骤。