CN108364650A

CN108364650A - 语音识别结果的调整装置及方法

Info

Publication number: CN108364650A
Application number: CN201810352115.5A
Authority: CN
Inventors: 赵鑫; 陈孝良; 苏少炜; 冯大航; 常乐
Original assignee: BEIJING WISDOM TECHNOLOGY Co Ltd
Current assignee: BEIJING WISDOM TECHNOLOGY Co Ltd
Priority date: 2018-04-18
Filing date: 2018-04-18
Publication date: 2018-08-03
Anticipated expiration: 2038-04-18
Also published as: CN108364650B

Abstract

一种语音识别结果的调整装置及方法，其中，该装置包括：VAD模块，将语音输入信息划分为句语音信息；ASR模块，将句语音信息转换为文本数据；场景判断模块，判断句语音信息的当前应用场景；句首处理模块，若该句首词的应用场景与当前应用场景匹配，则进入过滤模块；否则去除该句首词，依次判断其他词的应用场景是否与当前应用场景匹配，直至下一个词的应用场景与当前应用场景匹配，此时进入过滤模块；过滤模块，判断敏感词的发生场景是否与当前应用场景一致，若一致，则保留该文本数据中的敏感词；若不一致，则删除该文本数据中的敏感词。本发明能够优化语音识别结果，提高语义理解的正确率，增强智能语音设备的用户体验。

Description

语音识别结果的调整装置及方法

技术领域

本发明涉及语音处理领域，尤其涉及一种语音识别结果的调整装置及方法。

背景技术

近两年，智能语音设备例如智能音箱作为家庭场景中有效的人工智能交互入口，在国内外市场受到广泛专注。智能音箱的应用使用户解放了双手，能够更加便捷的获取歌曲、新闻等媒体资源，了解天气、交通等实时情况，和控制家用电器等。智能音箱的产生得益于深度学习等人工智能技术的发展，其背后涉及到噪声消除、语音活动检测(VAD)和自动语音识别(ASR)等多项复杂技术。但根据目前的技术，VAD和ASR都无法保证100％的正确率，有效提高语音识别率是保障智能音箱服务质量的关键。

区别于其他语音识别的场景，智能音箱具备口语化和多轮对话的特征，用户可以通过多次口语化的表达控制智能音箱的行为，而现实情况是很多简略的口语化表达的识别率不高。此外，在多轮对话场景下，VAD的误判可能导致第一句的末尾词语出现在第二句的开头位置，这种结果也会对智能音箱的行为造成不良影响。另一方面，智能音箱作为获取信息的入口，应该屏蔽色情、政治敏感等内容。在实际应用场景下，有些词语在新闻播报中是允许的，但在问答场景中是禁止的，这就存在一定的问题。

发明内容

(一)要解决的技术问题

本发明的目的在于提供一种语音识别结果的调整装置及方法，以解决上述的至少一项技术问题。

(二)技术方案

本发明的一方面，提供了一种语音识别结果的调整装置，包括：

VAD模块，用于判断语音输入信息中每句话的终止，将所述语音输入信息划分为至少一个句语音信息；

ASR模块，用于将所述句语音信息转换为文本数据；

场景判断模块，用于根据所述文本数据以及场景关联词库，判断所述句语音信息的当前应用场景；

句首处理模块，用于判断所述文本数据的句首词的应用场景，并与所述当前应用场景进行匹配，若该句首词的应用场景与当前应用场景匹配，则进行过滤模块的处理；若所述场景关联词库中不存在句首词的应用场景或者该句首词的应用场景与当前应用场景不匹配，则去除该句首词，并依次判断该文本数据中的其他词的应用场景是否与当前应用场景匹配，直至下一个词的应用场景与当前应用场景匹配，进行过滤模块的处理；

过滤模块，用于根据敏感词库，确定该文本数据中的敏感词的发生场景，判断该发生场景是否与当前应用场景一致，若一致，则保留该文本数据中的敏感词；若不一致，则删除该文本数据中的敏感词。

在本发明的一些实施例中，所述场景判断模块根据所述文本数据以及场景关联词库，判断所述语音输入信息的应用场景指，所述场景判断模块对所述文本数据进行分词和词性分析，确定其中的名词信息；将所述名词信息与场景关联词库进行概率计算，将概率最大的应用场景确定为所述语音输入信息的应用场景。

在本发明的一些实施例中，所述场景关联词库用于定义每个词的场景分布概率和各应用场景的默认动词；所述敏感词库用于定义每个敏感词的发生场景。

在本发明的一些实施例中，所述场景判断模块根据所述场景关联词库还用于判断所述文本数据中是否存在有效动词，若有，则保留有效动词；若没有，则将当前应用场景的默认动词添加至句首。

在本发明的一些实施例中，还包括更新模块，用于更新所述场景关联词库和敏感词库。

本发明的另一方面，还提供了一种语音识别结果的调整方法，包括：

判断语音输入信息中每句话的终止，将所述语音输入信息划分为至少一个句语音信息；

将所述句语音信息转换为文本数据；

根据所述文本数据以及场景关联词库，判断所述句语音信息的当前应用场景；

判断所述文本数据的句首词的应用场景，并与所述当前应用场景进行匹配，若该句首词的应用场景与当前应用场景匹配，则进行后续步骤；若所述场景关联词库中不存在句首词的应用场景或者该句首词的应用场景与当前应用场景不匹配，则去除该句首词，并依次判断该文本数据中的其他词的应用场景是否与当前应用场景匹配，直至下一个词的应用场景与当前应用场景匹配，进行后续步骤：

根据敏感词库，确定该文本数据中的敏感词的发生场景，判断该发生场景是否与当前应用场景一致，若一致，则保留该文本数据中的敏感词；若不一致，则删除该文本数据中的敏感词。

在本发明的一些实施例中，根据所述文本数据以及场景关联词库，判断所述语音输入信息的应用场景，包括子步骤：

对所述文本数据进行分词和词性分析，确定其中的名词信息；

将所述名词信息与场景关联词库进行概率计算，将概率最大的应用场景确定为所述语音输入信息的应用场景。

在本发明的一些实施例中，在判断所述句语音信息的当前应用场景之前，还包括步骤：构建场景关联词库，定义每个词的场景分布概率和各应用场景的默认动词；

构建敏感词库，定义每个敏感词的发生场景。

在本发明的一些实施例中，在进行后续步骤之前，还包括步骤：判断所述文本数据中是否存在有效动词，若有，则保留有效动词；若没有，则将当前应用场景的默认动词添加至句首。

在本发明的一些实施例中，根据敏感词库，确定该文本数据中的敏感词的发生场景之后，还包括步骤：

更新所述场景关联词库和敏感词库。

(三)有益效果

本发明的语音识别结果的调整装置及方法，相较于现有技术，至少存在以下优点：

1、构造场景关联词库，对ASR输出的文本数据进行当前应用场景的分析，以此作为句首处理和敏感词过滤的基础，能够有效的关联用户意图，去除句子中与场景无关的词语不会影响对最终语义的理解，从而优化了语音识别结果，提高了语义理解的正确率，识别口语化表达的意义，加强了用户体验。

2、基于对名词和当前应用场景分析，过滤与当前应用场景无关的句首词，消除VAD和ASR误判的影响，提高语义处理的正确率。

3、基于对当前应用场景和敏感词库，来判断是否过滤敏感词，提高了智能语音设备的服务质量，避免了敏感词误判影响用户体验。

附图说明

图1为本发明实施例的语音识别结果的调整装置的结构示意图。

图2为本发明实施例的语音识别结果的调整方法的步骤示意图。

图3为本发明实施例的步骤S3之前的步骤示意图。

图4为本发明实施例的步骤S3的子步骤示意图。

具体实施方式

现有技术中，语音识别技术大多未考虑多轮对话的影响，不能对VAD或者ASR出现误判情况做补救处理，也没有涉及对敏感词的处理，也未根据每句话的应用场景处理语音识别结果，有鉴于此，本发明提供了一种语音识别结果的调整装置及方法，构造场景关联词库，对ASR输出的文本数据进行当前应用场景的分析，以此作为句首处理和敏感词过滤的基础，能够有效的关联用户意图，去除句子中与场景无关的词语不会影响对最终语义的理解，从而优化了语音识别结果，提高了语义理解的正确率。此外，该语音识别结果的调整装置可以放置于智能语音设备(如智能音箱)中，能够提高语音识别结果，从而加强用户体验。

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明进一步详细说明。

本发明实施例的一方面，提供了一种语音识别结果的调整装置，图1为本发明实施例的语音识别结果的调整装置的结构示意图，如图1所示，该装置包括VAD(Voice ActivityDetection，语音活动检测)模块1、ASR(Automatic Speech Recognition，自动语音识别技术)模块2、场景判断模块3、句首处理模块4和过滤模块5。

接下来就对该装置的各模块进行详细描述。

VAD模块1，用于判断语音输入信息中每句话的终止，将所述语音输入信息划分为至少一个句语音信息。该语音输入信息可以为智能音箱或者其他智能语音设备通过麦克风等设备获取用户的音频数据，VAD模块1判断该语音信息中的每句话的终止，将音频数据划分为至少一个句语音信息。

ASR模块1，用于将所述句语音信息转换为文本数据。

场景判断模块3，用于根据所述文本数据以及场景关联词库，判断所述句语音信息的当前应用场景。所述场景关联词库用于定义每个词的场景分布概率。

也就是说，将所述名词与场景关联词库进行概率计算，将概率最大的应用场景确定为所述语音输入信息的应用场景。举例来说，当前文本数据中有名词A和B，A有可能在场景CJ1、CJ2、CJ5中出现，概率分别为p11、p12和p15；B有可能出现在场景CJ1、CJ3、CJ5中出现，概率分别为p21、p23、p25。然后分别计算各种场景的可能性，场景CJ1的可能性为p11*p21；CJ2的可能性为p12*p00；CJ3的可能性为p00*p23；CJ5的可能性为p15*p25，其中p00为词与场景无关时的默认概率，选取上述可能性最大的为当前场景。

句首处理模块4，用于判断所述文本数据的句首词的应用场景，并与所述当前应用场景进行匹配，若该句首词的应用场景与当前应用场景匹配，则进行过滤模块5的处理；若所述场景关联词库中不存在句首词的应用场景或者该句首词的应用场景与当前应用场景不匹配，则去除该句首词，并依次判断该文本数据中的其他词的应用场景是否与当前应用场景匹配，直至下一个词的应用场景与当前应用场景匹配，进行过滤模块5的处理。

也就是说，若句首词的应用场景未定义，或者句首词的应用场景与当前应用场景不匹配，则很大概率是由VAD模块1误判或者ASR模块1出错导致的，此时需将句首词从句子中摘除，然后分析下一个词，直至与被分析的词的应用场景与当前应用场景一致为止。句首处理模块4是为了应对VAD模块1误判和ASR模块1解析错误，VAD模块1误判会导致上一句的结尾词出现在本句开始，在口语化表达中ASR解析错误也往往发生在句首，比如将“来首...的歌”翻译成“难受...的歌”。

场景关联词库中还定义了每个场景对应的默认动词，句首处理模块4还根据场景关联词库判断所述文本数据中是否存在有效动词，若有，则保留有效动词；若没有，则将当前应用场景的默认动词添加至句首。

VAD模块1误判将导致第一句末尾词语出现在第二句首，ASR处理错误也往往与口语化表达的起始动词相关，因此如果出现句首词与当前应用场景无关，很大概率是由于误判导致。而智能语音设备在应用时基本上是口语命令的方式，只需查询和填充与当前应用场景相关的默认动词即可保证语义理解的完整性。

举例来说，该文本数据中有名词“儿歌”，但却没有有效动词，场景判断模块3分析这个名词，能够判断当前应用场景应为“音乐资源”，也就能判断出当前应用场景的默认动词为“播放”，并将“播放”增加到该文本信息的句首。类似的，在口语化表达中，可能出现“我想听儿歌”，“我想”是一个比较宽泛的词语，不对应具体的应用场景，可以忽略掉，最终表述为“听儿歌”和“播放儿歌”是一个意思。

过滤模块5，用于根据敏感词库，识别文本数据中的敏感词，确定该文本数据中的敏感词的发生场景，判断该发生场景是否与当前应用场景一致，若一致，则保留该文本数据中的敏感词；若不一致，则将该敏感词从当前文本数据中删除。所述敏感词库用于定义每个敏感词的发生场景。敏感词基本分为恐怖暴力、色情、政治相关等几个方面，往往相关词语在新闻场景下是可以使用的，但是在问答、娱乐等场景下不宜出现。将敏感词与发生场景绑定，避免“一刀切”的处理方式过滤敏感词在所有发生场景下的使用。

在本发明的一些实施例中，还可以包括：更新模块，用于更新所述场景关联词库和敏感词库。由于场景关联词库和敏感词库是预先构建的，随着数据的增多，这两次词库应该实时更新，从而保证各名词和敏感词能够找到对应的应用场景和发生场景，避免数据库不足带来的问题，保证语义理解的完整性。

本发明实施例的另一方面，还提供了一种语音识别结果的调整方法，图2为本发明实施例的语音识别结果的调整方法的步骤示意图，如图2所示，该方法包括下列步骤：

S1、判断语音输入信息中每句话的终止，将所述语音输入信息划分为至少一个句语音信息。该语音输入信息可以为智能音箱等智能语音设备通过麦克风等设备获取用户的音频数据，VAD模块判断该语音信息中的每句话的终止，将音频数据划分为至少一个句语音信息。

S2、将所述句语音信息转换为文本数据。

其中，图3为本发明实施例的步骤S3之前的步骤示意图，如图3所示，本发明在步骤S3之前还可以包括步骤：

S21、构建场景关联词库，用于定义每个词的场景分布概率和每个应用场景下的默认动词；

S22、构建敏感词库，用于定义每个敏感词的发生场景。

需要说明的是，步骤S21和步骤S22只需在步骤S3之前实现场景关联词库和敏感词库的构建即可，例如可在步骤S1之前就根据之前的历史数据预先定义好场景关联词库和敏感词库。

S3、根据所述文本数据以及场景关联词库，判断所述句语音信息的当前应用场景；

图4为本发明实施例的步骤S3的子步骤示意图，如图4所示，其包括以下子步骤：

S31、对所述文本数据进行分词和词性分析，确定其中的名词；

S32、将所述名词与场景关联词库进行概率计算，将概率最大的应用场景确定为所述语音输入信息的应用场景。

S4、判断所述文本数据的句首词的应用场景，并与所述当前应用场景进行匹配，若该句首词的应用场景与当前应用场景匹配，则进行后续步骤；若所述场景关联词库中不存在句首词的应用场景或者该句首词的应用场景与当前应用场景不匹配，则去除该句首词，并依次判断该文本数据中的其他词的应用场景是否与当前应用场景匹配，直至下一个词的应用场景与当前应用场景匹配，进入步骤S5。

在步骤S4之后还可以包括步骤S41、判断所述文本数据中是否存在有效动词，若有，则保留有效动词；若没有，则将当前应用场景的默认动词添加至句首。

S5、根据敏感词库，确定该文本数据中的敏感词的发生场景，判断该发生场景是否与当前应用场景一致，若一致，则保留该文本数据中的敏感词；若不一致，则将该敏感词从当前文本数据中删除。

在步骤S5之后还可以包括步骤S51、更新所述场景关联词库和敏感词库。由于场景关联词库和敏感词库是预先构建的，随着数据的增多，这两次词库应该实时更新，从而保证各名词和敏感词能够找到对应的应用场景和发生场景，避免数据库不足带来的问题，保证语义理解的完整性。

综上，本发明的语音识别结果的调整装置及方法，构造场景关联词库，对ASR输出的文本数据进行当前应用场景的分析，以此作为句首处理和敏感词过滤的基础，能够有效的关联用户意图，去除句子中与场景无关的词语不会影响对最终语义的理解，从而优化了语音识别结果，提高了语义理解的正确率。此外，该语音识别结果的调整装置可以放置于智能语音设备中，能够提高语音识别结果，从而加强用户体验。

除非有所知名为相反之意，本说明书及所附权利要求中的数值参数是近似值，能够根据通过本发明的内容所得的所需特性改变。

再者，“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的“一”或“一个”不排除存在多个这样的元件。

说明书与权利要求中所使用的序数例如“第一”、“第二”、“第三”等的用词，以修饰相应的元件，其本身并不意味着该元件有任何的序数，也不代表某一元件与另一元件的顺序、或是制造方法上的顺序，该些序数的使用仅用来使具有某命名的一元件得以和另一具有相同命名的元件能做出清楚区分。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种语音识别结果的调整装置，其中，包括：

ASR模块，用于将所述句语音信息转换为文本数据；

2.根据权利要求1所述的装置，其中，所述场景判断模块根据所述文本数据以及场景关联词库，判断所述语音输入信息的应用场景指，所述场景判断模块对所述文本数据进行分词和词性分析，确定其中的名词信息；将所述名词信息与场景关联词库进行概率计算，将概率最大的应用场景确定为所述语音输入信息的应用场景。

3.根据权利要求2所述的装置，其中：所述场景关联词库用于定义每个词的场景分布概率和各应用场景的默认动词；所述敏感词库用于定义每个敏感词的发生场景。

4.根据权利要求1所述的装置，其中，所述场景判断模块根据所述场景关联词库还用于判断所述文本数据中是否存在有效动词，若有，则保留有效动词；若没有，则将当前应用场景的默认动词添加至句首。

5.根据权利要求1所述的装置，其中，还包括更新模块，用于更新所述场景关联词库和敏感词库。

6.一种语音识别结果的调整方法，包括：

将所述句语音信息转换为文本数据；

7.根据权利要求6所述的方法，其中，根据所述文本数据以及场景关联词库，判断所述语音输入信息的应用场景，包括子步骤：

8.根据权利要求7所述的方法，其中，在判断所述句语音信息的当前应用场景之前，还包括步骤：

构建场景关联词库，定义每个词的场景分布概率和各应用场景的默认动词；

构建敏感词库，定义每个敏感词的发生场景。

9.根据权利要求6所述的方法，其中，在进行后续步骤之前，还包括步骤：判断所述文本数据中是否存在有效动词，若有，则保留有效动词；若没有，则将当前应用场景的默认动词添加至句首。

10.根据权利要求6所述的方法，其中，根据敏感词库，确定该文本数据中的敏感词的发生场景之后，还包括步骤：

更新所述场景关联词库和敏感词库。