CN103400576B

CN103400576B - 基于用户行为日志的语音模型更新方法及装置

Info

Publication number: CN103400576B
Application number: CN201310303654.7A
Authority: CN
Inventors: 曹立新
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2013-07-18
Filing date: 2013-07-18
Publication date: 2015-11-25
Anticipated expiration: 2033-07-18
Also published as: CN103400576A

Abstract

本发明提供一种基于用户行为日志的语音模型更新方法及装置。本发明实施例通过根据所获取的用户行为日志，提取高频词组和/或新词组，进而根据所述高频词组和/或所述新词组，更新词汇表，使得能够利用更新之后的所述词汇表，训练语音模型，这样，则可以利用训练出的新的语音模型进行语音识别，由于根据用户行为日志更新了词汇表，因此，会训练出新的语音模型，这样，能够避免现有技术中由于新的词组的出现而导致的采用已有的语音模型进行语音识别的识别准确率降低的问题，从而提高了语音识别的可靠性。

Description

基于用户行为日志的语音模型更新方法及装置

【技术领域】

本发明涉及语音识别技术，尤其涉及一种基于用户行为日志的语音模型更新方法及装置。

【背景技术】

随着通信技术的发展，终端集成了越来越多的功能，从而使得终端的系统功能列表中包含了越来越多相应的应用程序，例如，电脑中安装的应用程序，第三方智能手机中安装的应用程序（Application，APP）等。有些应用程序中会涉及一些语音识别服务，例如，QQ、微信等即时通信软件中的语音输入、百度地图中的语音输入等。现有技术中，语音处理引擎可以利用所接收到的语音数据作为输入，运行语音模型，以获得识别结果。

然而，由于周围环境和时事背景不断更新出现，会使得出现很多新的词组，例如，山寨、雷人、屌丝等网络热词，因此，仍然采用已有的语音模型进行语音识别，会导致这些新的词组的识别准确率降低，从而导致了语音识别的可靠性的降低。

【发明内容】

本发明的多个方面提供一种基于用户行为日志的语音模型更新方法及装置，用以提高语音识别的可靠性。

本发明的一方面，提供一种基于用户行为日志的语音模型更新方法，包括：

获取用户行为日志；

根据所述用户行为日志，提取高频词组和/或新词组，所述高频词组为出现频率大于或等于预先设置的频率阈值的词汇；

根据所述高频词组和/或所述新词组，更新词汇表；

利用更新之后的所述词汇表，训练语音模型，所述语音模型用于进行语音识别。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述根据所述用户行为日志，提取高频词组和/或新词组，包括：

利用切词算法，对所述用户行为日志进行切词处理，以获得至少一个候选词汇，所述至少一个候选词汇包括候选词组和/或候选单词；

对所述至少一个候选词汇进行统计，以提取所述高频词组和/或所述新词组。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述对所述至少一个候选词汇进行统计，以提取所述高频词组，包括：

对所述至少一个候选词汇中所包括的候选词组的出现频次进行统计；

根据所述候选词组的出现频次，选择至少一个候选词组，以作为所述高频词组。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述对所述至少一个候选词汇进行统计，以提取所述新词组，包括：

确定N元文法模型；

利用所述至少一个候选词汇作为输入，运行所述N元文法模型，以获得至少一个N元文法，以作为所述新词组，所述N元文法包括至少两个候选词汇。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述根据所述高频词组和/或所述新词组，更新词汇表，包括：

利用上下文相关算法，对所述高频词组和/或所述新词组，进行筛选；

根据所述筛选之后的所述高频词组和/或所述新词组，更新所述词汇表。

本发明的另一方面，提供一种基于用户行为日志的语音模型更新装置，包括：

获取单元，用于获取用户行为日志；

提取单元，用于根据所述用户行为日志，提取高频词组和/或新词组，所述高频词组为出现频率大于或等于预先设置的频率阈值的词汇；

更新单元，用于根据所述高频词组和/或所述新词组，更新词汇表；

建模单元，用于利用所述建模单元更新之后的所述词汇表，训练语音模型，所述语音模型用于进行语音识别。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述提取单元，具体用于

利用切词算法，对所述用户行为日志进行切词处理，以获得至少一个候选词汇，所述至少一个候选词汇包括候选词组和/或候选单词；以及

对所述至少一个候选词汇进行统计，以获得所述高频词组和/或所述新词组。

对所述至少一个候选词汇中所包括的候选词组的出现频次进行统计；以及

确定N元文法模型；以及

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述更新单元，具体用于

利用上下文相关算法，对所述高频词组和/或所述新词组，进行筛选；以及

由上述技术方案可知，本发明实施例通过根据所获取的用户行为日志，提取高频词组和/或新词组，进而根据所述高频词组和/或所述新词组，更新词汇表，使得能够利用更新之后的所述词汇表，训练语音模型，这样，则可以利用训练出的新的语音模型进行语音识别，由于根据用户行为日志更新了词汇表，因此，会训练出新的语音模型，这样，能够避免现有技术中由于新的词组的出现而导致的采用已有的语音模型进行语音识别的识别准确率降低的问题，从而提高了语音识别的可靠性。

【附图说明】

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一实施例提供的基于用户行为日志的语音模型更新方法的流程示意图；

图2为本发明另一实施例提供的基于用户行为日志的语音模型更新装置的结构示意图。

【具体实施方式】

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的全部其他实施例，都属于本发明保护的范围。

需要说明的是，本发明实施例中所涉及的终端可以包括但不限于手机、个人数字助理（PersonalDigitalAssistant，PDA）、无线手持装置、无线上网本、个人电脑、便携电脑、MP3播放器、MP4播放器等。

另外，本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

图1为本发明一实施例提供的基于用户行为日志的语音模型更新方法的流程示意图，如图1所示。

101、获取用户行为日志。

102、根据所述用户行为日志，提取高频词组和/或新词组，所述高频词组为出现频率大于或等于预先设置的频率阈值的词汇。

103、根据所述高频词组和/或所述新词组，更新词汇表。

104、利用更新之后的所述词汇表，训练语音模型，所述语音模型用于进行语音识别。

需要说明的是，101～104的执行主体可以是建模装置，可以位于本地的客户端中，以进行离线处理，或者还可以位于网络侧的服务器中，以进行在线处理，本实施例对此不进行限定。

可以理解的是，所述客户端可以是安装在终端上的应用程序，或者还可以是浏览器的一个网页，只要能够实现语音模型建立功能，以提供语音识别服务的客观存在形式都可以，本实施例对此不进行限定。

这样，通过根据所获取的用户行为日志，提取高频词组和/或新词组，进而根据所述高频词组和/或所述新词组，更新词汇表，使得能够利用更新之后的所述词汇表，训练语音模型，这样，则可以利用训练出的新的语音模型进行语音识别，由于根据用户行为日志更新了词汇表，因此，会训练出新的语音模型，这样，能够避免现有技术中由于新的词组的出现而导致的采用已有的语音模型进行语音识别的识别准确率降低的问题，从而提高了语音识别的可靠性。

可选地，在本实施例的一个可能的实现方式中，在102中，建模装置具体可以利用切词算法，对所述用户行为日志进行切词处理，以获得至少一个候选词汇，所述至少一个候选词汇包括候选词组和/或候选单词。然后，所述建模装置则可以对所述至少一个候选词汇进行统计，以提取所述高频词组和/或所述新词组。

可以理解的是，一个词汇可以为一个单词，例如，“我”、“是”、“好”等一个字的词，或者还可以为一个词组，例如，“我是”、“天气”、“电脑”等若干个单词组成的词。

具体地，针对高频词组，所述建模装置具体可以对所述至少一个候选词汇中所包括的候选词组的出现频次进行统计。然后，所述建模装置则可以根据所述候选词组的出现频次，选择至少一个候选词组，以作为所述高频词组。

具体地，针对新词组，所述建模装置具体可以确定N元文法（N-Gram）模型。然后，所述建模装置则可以利用所述至少一个候选词汇作为输入，运行所述N元文法模型，以获得至少一个N元文法，以作为所述新词组，所述N元文法包括至少两个候选词汇。具体地，所述N元文法模型的训练，可以采用互信息量等多种度量参数，本实施例对此不进行特别限定。所述N元文法模型的具体描述可以参见现有技术中的相关内容，此处不再赘述。

需要说明的是，所述高频词组和/或所述新词组的个数可以根据预先配置的词汇表中所包括的词组数量阈值确定，本实施例对此不进行特别限定。

可选地，在本实施例的一个可能的实现方式中，在103中，建模装置具体可以利用上下文相关（ContextDependency）算法，对所述高频词组和/或所述新词组，进行筛选。然后，所述建模装置则可以根据所述筛选之后的所述高频词组和/或所述新词组，更新所述词汇表。所述上下文相关算法的具体描述可以参见现有技术中的相关内容，此处不再赘述。

为使得本发明实施例提供的方法更加清楚，下面将以表1所示的用户行为日志作为举例。

表1用户行为日志

标识	内容
		ID1	我是中国人
ID2	你是美国人
		ID3	他是洛杉矶人
ID4	谁是中国人

如表1所示，建模装置具体可以利用切词算法，例如，前向最大匹配的切词算法等，对所述用户行为日志进行切词处理，以获得至少一个候选词汇，即

“我”、“是”、“中国”、“人”、“你”、“是”、“美国”、“人”、“他”、“是”、“洛”、“杉”、“矶”、“人”、“谁”、“是”、“中国”和“人”。

在这些候选词汇中，包括了“中国”、“美国”和“中国”这三个候选词组。

其次，建模装置可以对所述至少一个候选词汇中所包括的候选词组的出现频次进行统计，即

“中国”（2次）和“美国”（1次）。

这样，所述建模装置则可以根据所述候选词组的出现频次，选择出现频次最高的一个候选词组，即“中国”，以作为所述高频词组。

再次，建模装置可以确定N元文法模型，例如，采用互信息量等多种度量参数，训练出的N元文法模型等。

这样，所述建模装置进而则可以利用所述至少一个候选词汇作为输入，运行所述N元文法模型，以获得至少一个N元文法，以作为所述新词组，即

二元文法“中国人”和“洛杉”。

最后，建模装置可以利用上下文相关算法，对“中国”这个高频词组和“中国人”和“洛杉”这两个新词组，进行筛选，以过滤掉强烈依赖上下文的那些词组。这样，则可以将“洛杉”过滤掉。最后则剩下“中国”这个高频词组和“中国人”这个新词组。

至此，建模装置则可以利用“中国”这个高频词组和“中国人”这个新词组，更新词汇表，并利用更新之后的所述词汇表，训练语音模型。

这样，则可以利用训练出的新的语音模型进行语音识别。通过词汇表的动态更新操作，能够准确识别不断出现的新的词组，例如，互联网中不断出现的网络热词等，从而提高了语音识别的可靠性。

本实施例中，通过根据所获取的用户行为日志，提取高频词组和/或新词组，进而根据所述高频词组和/或所述新词组，更新词汇表，使得能够利用更新之后的所述词汇表，训练语音模型，这样，则可以利用训练出的新的语音模型进行语音识别，由于根据用户行为日志更新了词汇表，因此，会训练出新的语音模型，这样，能够避免现有技术中由于新的词组的出现而导致的采用已有的语音模型进行语音识别的识别准确率降低的问题，从而提高了语音识别的可靠性。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

图2为本发明另一实施例提供的基于用户行为日志的语音模型更新装置的结构示意图，如图2所示。本实施例的基于用户行为日志的语音模型更新装置可以包括获取单元21、提取单元22、更新单元23和建模单元24。其中，获取单元21，用于获取用户行为日志；提取单元22，用于根据所述用户行为日志，提取高频词组和/或新词组，所述高频词组为出现频率大于或等于预先设置的频率阈值的词汇；更新单元23，用于根据所述高频词组和/或所述新词组，更新词汇表；建模单元24，用于利用所述建模单元24更新之后的所述词汇表，训练语音模型，所述语音模型用于进行语音识别。

需要说明的是，本实施例提供的装置可以是建模装置，可以位于本地的客户端中，以进行离线处理，或者还可以位于网络侧的服务器中，以进行在线处理，本实施例对此不进行限定。

这样，通过提取单元根据获取单元所获取的用户行为日志，提取高频词组和/或新词组，进而由更新单元根据所述高频词组和/或所述新词组，更新词汇表，使得建模单元能够利用更新之后的所述词汇表，训练语音模型，这样，则可以利用训练出的新的语音模型进行语音识别，由于根据用户行为日志更新了词汇表，因此，会训练出新的语音模型，这样，能够避免现有技术中由于新的词组的出现而导致的采用已有的语音模型进行语音识别的识别准确率降低的问题，从而提高了语音识别的可靠性。

可选地，在本实施例的一个可能的实现方式中，所述提取单元22，具体可以用于利用切词算法，对所述用户行为日志进行切词处理，以获得至少一个候选词汇，所述至少一个候选词汇包括候选词组和/或候选单词；以及对所述至少一个候选词汇进行统计，以获得所述高频词组和/或所述新词组。

具体地，针对高频词组，所述提取单元22，具体可以用于对所述至少一个候选词汇中所包括的候选词组的出现频次进行统计；以及根据所述候选词组的出现频次，选择至少一个候选词组，以作为所述高频词组。

具体地，针对新词组，所述提取单元22，具体可以用于确定N元文法模型；以及利用所述至少一个候选词汇作为输入，运行所述N元文法模型，以获得至少一个N元文法，以作为所述新词组，所述N元文法包括至少两个候选词汇。具体地，所述N元文法模型的训练，可以采用互信息量等多种度量参数，本实施例对此不进行特别限定。所述N元文法模型的具体描述可以参见现有技术中的相关内容，此处不再赘述。

可选地，在本实施例的一个可能的实现方式中，所述更新单元23，具体可以用于利用上下文相关算法，对所述高频词组和/或所述新词组，进行筛选；以及根据所述筛选之后的所述高频词组和/或所述新词组，更新所述词汇表。所述上下文相关算法的具体描述可以参见现有技术中的相关内容，此处不再赘述。

如表1所示，提取单元具体可以利用切词算法，例如，前向最大匹配的切词算法等，对所述用户行为日志进行切词处理，以获得至少一个候选词汇，即

其次，提取单元可以对所述至少一个候选词汇中所包括的候选词组的出现频次进行统计，即

“中国”（2次）和“美国”（1次）。

这样，所述提取单元则可以根据所述候选词组的出现频次，选择出现频次最高的一个候选词组，即“中国”，以作为所述高频词组。

再次，提取单元可以确定N元文法模型，例如，采用互信息量等多种度量参数，训练出的N元文法模型等。

这样，所述提取单元进而则可以利用所述至少一个候选词汇作为输入，运行所述N元文法模型，以获得至少一个N元文法，以作为所述新词组，即

二元文法“中国人”和“洛杉”。

最后，更新单元可以利用上下文相关算法，对“中国”这个高频词组和“中国人”和“洛杉”这两个新词组，进行筛选，以过滤掉强烈依赖上下文的那些词组。这样，更新单元则可以将“洛杉”过滤掉。最后则剩下“中国”这个高频词组和“中国人”这个新词组。

至此，更新单元则可以利用“中国”这个高频词组和“中国人”这个新词组，更新词汇表，并由建模单元利用更新单元更新之后的所述词汇表，训练语音模型。

本实施例中，通过提取单元根据获取单元所获取的用户行为日志，提取高频词组和/或新词组，进而由更新单元根据所述高频词组和/或所述新词组，更新词汇表，使得建模单元能够利用更新之后的所述词汇表，训练语音模型，这样，则可以利用训练出的新的语音模型进行语音识别，由于根据用户行为日志更新了词汇表，因此，会训练出新的语音模型，这样，能够避免现有技术中由于新的词组的出现而导致的采用已有的语音模型进行语音识别的识别准确率降低的问题，从而提高了语音识别的可靠性。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本发明所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机装置（可以是个人计算机，服务器，或者网络装置等）或处理器（processor）执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（Read-OnlyMemory，ROM）、随机存取存储器（RandomAccessMemory，RAM）、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于用户行为日志的语音模型更新方法，其特征在于，包括：

获取用户行为日志；

根据所述高频词组和/或所述新词组，更新词汇表；

利用更新之后的所述词汇表，训练语音模型，所述语音模型用于进行语音识别；其中，

所述根据所述高频词组和/或所述新词组，更新词汇表，包括：

2.根据权利要求1所述的方法，其特征在于，所述根据所述用户行为日志，提取高频词组和/或新词组，包括：

3.根据权利要求2所述的方法，其特征在于，所述对所述至少一个候选词汇进行统计，以提取所述高频词组，包括：

4.根据权利要求2所述的方法，其特征在于，所述对所述至少一个候选词汇进行统计，以提取所述新词组，包括：

确定N元文法模型；

5.一种基于用户行为日志的语音模型更新装置，其特征在于，包括：

获取单元，用于获取用户行为日志；

建模单元，用于利用所述建模单元更新之后的所述词汇表，训练语音模型，所述语音模型用于进行语音识别；其中，

所述更新单元，具体用于

6.根据权利要求5所述的装置，其特征在于，所述提取单元，具体用于

7.根据权利要求6所述的装置，其特征在于，所述提取单元，具体用于

8.根据权利要求6所述的装置，其特征在于，所述提取单元，具体用于

确定N元文法模型；以及