CN113515618A

CN113515618A - 语音处理方法、装置和介质

Info

Publication number: CN113515618A
Application number: CN202010276393.4A
Authority: CN
Inventors: 魏爽; 郑宏; 陈金坤; 韩秦; 杨家旭; 李明浩; 张群; 杨浩; 龙全友; 李瑞星; 陈章钦
Original assignee: Beijing Sogou Technology Development Co Ltd
Current assignee: Beijing Sogou Technology Development Co Ltd
Priority date: 2020-04-09
Filing date: 2020-04-09
Publication date: 2021-10-19

Abstract

本发明实施例提供了一种语音处理方法和装置、一种用于语音处理的装置，其中的方法具体包括：确定用户词库中用户词条对应的词条特征；所述词条特征包括：个人词频、公共词频、以及使用用户数量；依据所述词条特征，从所述用户词库中确定出个性化词条；所述个性化词条用于语音输入。本发明实施例能够提高个性化词条的区分性和准确度，以及能够提高语音识别的准确度。

Description

语音处理方法、装置和介质

技术领域

本发明涉及语音处理技术领域，特别是涉及一种语音处理方法和装置、一种机器可读介质。

背景技术

语音识别技术能够将语音转换成为对应的字符或编码，广泛应用于语音输入、智能聊天、语音翻译等领域。

目前的语音识别模型通常采用声学模型及语言模型，优先识别出常用词及语料中出现概率较大的词。

发明人在实施本发明实施例的过程中发现，常用词及语料中出现概率较大的词反映的是大多数用户的语言使用习惯，而单个用户通常具有自身的个性化语言使用习惯，若大多数用户的语言使用习惯与个性化语言使用习惯相悖，则将提供错误的语音识别结果。

发明内容

鉴于上述问题，提出了本发明实施例以便提供一种克服上述问题或者至少部分地解决上述问题的语音处理方法、语音处理装置及用于语音处理的装置，本发明实施例能够提高个性化词条的区分性和准确度，以及能够提高语音识别的准确度。

为了解决上述问题，本发明公开了一种语音处理方法，包括：

确定用户词库中用户词条对应的词条特征；所述词条特征包括：个人词频、公共词频、以及使用用户数量；

依据所述词条特征，从所述用户词库中确定出个性化词条；所述个性化词条用于语音输入。

接收待识别语音数据；

对所述待识别语音数据进行解码；

根据用户对应的个性化词条，对所述待识别语音数据对应的解码路径的得分进行调整；所述用户对应的个性化词条为依据前述的方法得到；

根据所述解码路径的调整后得分，确定所述待识别语音数据对应的语音识别结果

另一方面，本发明实施例公开了一种语音处理装置，包括：

词条特征确定模块，用于确定用户词库中用户词条对应的词条特征；所述词条特征包括：个人词频、公共词频、以及使用用户数量；

个性化词条确定模块，用于依据所述词条特征，从所述用户词库中确定出个性化词条；所述个性化词条用于语音输入。

另一方面，本发明实施例公开了一种语音处理装置，包括：

接收模块，用于接收待识别语音数据；

解码模块，用于对所述待识别语音数据进行解码；

调整模块，用于根据用户对应的个性化词条，对所述待识别语音数据对应的解码路径的得分进行调整；所述用户对应的个性化词条为依据前述的方法得到；以及

语音识别结果确定模块，用于根据所述解码路径的调整后得分，确定所述待识别语音数据对应的语音识别结果。

再一方面，本发明实施例公开了一种用于语音处理的装置，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

本发明实施例还公开了一个或多个机器可读介质，其特征在于，其上存储有指令，当由一个或多个处理器执行时，使得装置执行前述的方法。

本发明实施例包括以下优点：

本发明实施例综合利用个人词频、公共词频、以及使用用户数量等词条特征，从用户词库中挖掘个性化词条。个人词频、公共词频、以及使用用户数量等词条特征的综合利用，可以提高个性化词条在不同用户之间的区分性、以及用户词条对于当前用户的代表性，因此能够提高个性化词条的区分性和准确度。

本发明实施例将个性化词条应用于语音识别过程中，可以使语音识别结果符合用户的个性化习惯，进而提升语音识别的准确度。

附图说明

图1是本发明实施例的一种语音处理方法的流程的示意；

图2是本发明的一种语音处理方法实施例一的步骤流程图；

图3是本发明的一种语音处理方法实施例二的步骤流程图；

图4是本发明的一种语音处理方法实施例三的步骤流程图；

图5是本发明的一种语音处理方法实施例四的步骤流程图；

图6是本发明的一种语音处理方法实施例五的步骤流程图；

图7是本发明的一种语音处理方法实施例六的步骤流程图；

图8是本发明的一种语音处理装置的结构框图；

图9是本发明的一种语音处理装置的结构框图；

图10是本发明的一种用于语音处理的装置1300的框图；及

图11是本发明的一种服务端的结构示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

本发明实施例可以适用于语音识别场景。语音处理场景用于将语音转换为文本，语音处理场景可以包括：语音输入场景、智能聊天场景、语音翻译场景等。

声学模型采用深度神经网络模型对声学发音和基本声学单元(通常是音素)之间的映射关系进行建模；音素是根据语音的自然属性划分出来的最小语音单位。声学模型可以接收输入的语音特征，并输出语音特征对应的音素序列。

参照图1，示出了本发明实施例的一种语音识别方法的流程的示意，语音识别方法用到的模型可以包括：声学模型、语言模型和解码器。

其中，声学模型的确定过程可以包括：针对语音数据库中的语音语料进行特征提取，依据提取得到的特征进行声学模型的训练。

语言模型的确定过程可以包括：依据文本数据库中的文本语料进行，进行语言模型的训练。

解码器用于在给定音素序列的情况下，找到最佳的解码路径，进而可以得到语音识别结果。

图1所示的语音识别过程可以包括：针对输入的语音进行特征提取，以得到语音特征，语音特征输入解码器。解码器首先利用声学模型，确定语音特征对应的音素序列；然后，依据语言模型对音素序列进行语音解码，以得到语音识别结果，并将语音识别结果对应的文本进行输出。

声学模型可以包括：神经网络模型和隐马尔可夫模型，其中，神经网络模型可以向隐马尔可夫模型提供声学建模单元，声学建模单元的粒度可以包括：字、音节、音素、或者状态等；而隐马尔可夫模型可以依据神经网络模型提供的声学建模单元，确定音素序列。一个状态在数学上表征一个马尔科夫过程的状态。

语音识别过程中的解码器根据待识别语音数据，在由声学模型、字典和语言模型等知识源组成的搜索空间中搜出最佳的解码路径，并依据最佳的解码路径对应的词序列得到语音识别结果。

在语音识别过程中，经常会出现同音异形、或相似音词语的问题。如音节“shuangzai”可以对应“双在”、“霜在”、“爽在”、“爽崽”等词。

目前的解码器通常采用通用的声学模型及语言模型，优先识别出常用词及语料中出现概率较大的词，常用词及语料中出现概率较大的词可以称为大众词。

用户在讲话时通常会带有自己的个性化词条，如人名、地名、机构名或者所属专业领域的词汇等。由于这些个性化词条并非大众词，故被识别准确的可能性较低。

本发明实施例依据用户词库中用户词条的词条特征，从用户词库中挖掘个性化词条，并将个性化词条应用于语音识别过程中，以使语音识别结果符合用户的个性化习惯，进而提升语音识别的准确度。

传统技术中，通常采用如下两种方式确定个性化词条。一种方式提供领域供用户选择，在用户选择某个领域后，将该领域的词条作为个性化词条。另一种方式提供添加接口，以通过该添加接口接收用户添加的个性化词条。上述两种方式通常耗费用户的设置成本，且得到的个性化词条通常具有局限性。

为了提高语音识别结果的准确率，本发明实施例提供了一种语音处理方案，该方案具体包括：确定用户词库中用户词条对应的词条特征；上述词条特征包括：个人词频、公共词频、以及使用用户数量；依据上述词条特征，从上述用户词库中确定出个性化词条。

本领域技术人员依据个人词频、公共词频、以及使用用户数量等词条特征，从用户词库中挖掘个性化词条。其中，个人词频可用于表征用户词条在当前用户(或登录用户)的历史输入数据中的出现次数；公共词频可用于表征用户词条在全网用户的历史输入数据中的出现次数；使用用户数量可用于表征使用用户词条的用户的数量。

历史输入数据可以表征用户的历史输入内容。在实际应用中，输入法程序可以对用户的上屏内容进行记录，以得到用户的历史输入内容。可选地，为了提高个性化词条的时效性，可以对历史输入数据进行更新，或者可以选取预设时间段内的历史输入数据，预设时间段的长度可由本领域技术人员确定，例如，预设时间段可以为半年、三个月等。

本发明实施例提供的语音处理方法可应用于客户端与服务端的应用环境中，客户端与服务端位于有线或无线网络中，通过该有线或无线网络，客户端与服务端进行数据交互。

可选地，客户端可以运行在终端上，例如，客户端可以为终端上运行的程序(APP，Application)，如语音转写APP、或者语音翻译APP、或者智能交互APP等。

以语音转写APP为例，客户端可以采集待识别语音数据，并向服务端发送待识别语音数据，服务端可以利用本发明实施例的方案，对待识别语音数据进行处理，并向客户端返回语音识别结果。

以语音翻译APP为例，客户端可以采集待识别语音数据，并向服务端发送待识别语音数据，服务端可以利用本发明实施例的方案，对待识别语音数据进行处理，并对得到的语音识别结果进行机器翻译，以得到机器翻译结果，并向客户端返回机器翻译结果。

可选地，上述终端可以包括：智能手机、平板电脑、电子书阅读器、MP3(动态影像专家压缩标准音频层面3，Moving Picture Experts Group Audio Layer III)播放器、MP4(动态影像专家压缩标准音频层面4，Moving Picture Experts Group Audio Layer IV)播放器、膝上型便携计算机、车载电脑、台式计算机、机顶盒、智能电视机、可穿戴设备、智能音响等等。可以理解，本发明实施例对于具体的终端不加以限制。

本发明实施例可应用于键盘符号、手写、语音等各种输入方式的输入法程序。以键盘符号输入方式为例，用户可以通过编码字符串进行文字输入，输入串可以指用户输入的编码字符串。在输入法领域，对于例如中文、日文、韩文、或者其它语言的输入法程序，通常可以把用户输入的输入串转换成相应语言的候选。以下主要以中文为例进行说明，日文、韩文等其它语言相互参照即可。可以理解，上述中文输入法可以包括但不限于全拼、简拼、笔画、五笔等，本发明实施例对于某种语言对应的具体输入法程序不加以限制。

以中文的输入为例，编码字符串的类型可以包括：拼音串、字形串(如五笔串等)。以英文的输入为例，编码字符串的类型可以包括：字母字符串等。

在实际应用中，对于键盘符号的输入方式，用户可以通过实体键盘、或者虚拟键盘等输入上述输入串。例如，对于具有触摸屏的终端，其可以在输入界面中设置虚拟键盘，以使用过通过触发上述虚拟键盘包括的虚拟按键进行输入串的输入。可选地，上述虚拟键盘的例子可以包括：9键键盘和26键键盘等。并且，可以理解，上述输入界面中除了设置有字母对应的虚拟按键之外，还可以设置有符号按键、数字按键、例如中英切换按键的功能按键，或者，还可以设置有工具栏按键等，可以理解，本发明实施例对于输入界面所包含的具体按键不加以限制。

根据一些实施例，上述输入串可以包括但不限于：用户通过按键所输入的一个按键符号或多个按键符号的组合。上述按键符号具体可以包括：拼音、笔画、假名等。

本发明实施例中，候选可用于表示输入法程序提供的待被用户选择的一个或多个字符。候选可以为中文字符、英文字符、日文字符等语言的字符，候选也可以为颜文字、图片等形式的符号组合。其中，上述颜文字包括但不限于线条、符号、文字所组成的图画，例如，上述颜文字的例子可以包括：“：P”、“:-o”、“:-)”等。

上屏指将预览窗口中的内容输出显示到应用程序窗口的操作。具体到输入法程序，上屏可以指将候选窗口中的候选输出显示到应用程序窗口的操作。已上屏内容可以表征上屏的候选。

方法实施例一

参照图2，示出了本发明的一种语音处理方法实施例一的步骤流程图，具体可以包括如下步骤：

步骤201、确定用户词库中用户词条对应的词条特征；上述词条特征包括：个人词频、公共词频、以及使用用户数量；

步骤202、依据上述词条特征，从上述用户词库中确定出个性化词条；上述个性化词条用于语音输入。

图2所示方法包括的至少一个步骤可由客户端和/或服务端执行，可以理解，本发明实施例对于方法包括步骤的具体执行主体不加以限制。

输入法程序的词库通常包括：系统词库和用户词库。

系统词库可以通过对语料采用统计学习的方法，然后提取使用频度高的字词来得到的。

为了提高用户体验，客户端可以将用户的上屏内容记录至用户词库。用户词库可以包括系统词库中的第一词条，也可以包括：用户新输入的不在系统词库中的第二词条。用户词库中的词条可以通常为用户词条。

用户词库可以与单个用户相应，用户词库对应的用户可以称为当前用户为登录用户。

个人词频可用于表征用户词条在当前用户(或登录用户)的历史输入数据中的出现次数；公共词频可用于表征用户词条在全网用户的历史输入数据中的出现次数；使用用户数量可用于表征使用用户词条的用户的数量。

个人词频、公共词频、以及使用用户数量等词条特征，可以表征一个用户词条在不同用户之间的区别性、以及用户词条对于当前用户的代表性。

本发明实施例可以提供从上述用户词库中确定出个性化词条的如下技术方案：

技术方案1、

技术方案1中，上述从上述用户词库中确定出个性化词条，具体包括：从上述用户词库中滤除使用用户数量超过第一阈值的用户词条。

通常使用用户数量越大，则可以说明用户词条被越多的用户使用，因此说明该用户词条在不同用户之间的区别性越小、以及用户词条对于当前用户的代表性越弱。反之，通常使用用户数量越小，则可以说明用户词条被越少的用户使用，因此说明该用户词条在不同用户之间的区别性越大、以及用户词条对于当前用户的代表性越强。

在本发明的一种可选实施例中，本发明实施例的用户词条可以为用户在预设时间段内产生的词条。预设时间段可由本领域技术人员根据实际应用需求确定，例如，预设时间段的长度、起始时间和终止时间可由本领域技术人员根据实际应用需求确定，例如，终止时间与当前时间之间的时长可以不超过预设时长，如预设时长为一天等。例如，预设时间段的长度可以为1个月、2个月、3个月等。

在本发明的另一种可选实施例中，个性化词条可以位于预设时间段内。

在本发明的再一种可选实施例中，可以依据用户词条的产生时间，确定对应的权重，并将权重用于从上述用户词库中确定出个性化词条的过程。通常，权重越高，则用户词条为个性化词条的概率越大。

本领域技术人员可以根据实际应用需求确定第一阈值，例如，第一阈值为1、或者2等数值。例如，在第一阈值为1的情况下，说明用户词条被一个以上用户使用过，因此可以滤除该用户词条，以提高个性化词条的区分性。

技术方案2、

技术方案2中，上述从上述用户词库中确定出个性化词条，具体包括：从上述用户词库中获取个人词频超过第二阈值的用户词条。

个人词频可以表征用户词条对于当前用户的代表性，通常个人词频越高，则说明用户词条对当前用户而言越常用，说明用户词条对于当前用户的代表性越强。

本领域技术人员可以根据实际应用需求确定第二阈值，例如，第二阈值为30、100等数值。

技术方案3、

技术方案3中，上述从上述用户词库中确定出个性化词条，具体包括：依据个人词频与公共词频之间的相对关系，从所述用户词库中获取个性化词条。

个人词频与公共词频之间的相对关系，也可以说明一个用户词条在不同用户之间的区别性、以及用户词条对于当前用户的代表性。

以相对关系为比值为例，该比值较小，则说明个人词频远远小于公共词频，故说明除了当前用户之外还有其他用户大量输入过该用户词条，因此，该用户词条在不同用户之间的区别性越小、以及用户词条对于当前用户的代表性越弱。反之，若该比值越大，则说明个人词频与公共词频相当，当前用户针对该用户词条的输入次数在全网用户针对该用户词条的输入次数中占用了较大的比重，因此说明该用户词条在不同用户之间的区别性越大、以及用户词条对于当前用户的代表性越强。

技术方案4、

技术方案4中，上述从上述用户词库中确定出个性化词条，具体包括：对上述个人词频、上述公共词频的倒数和上述使用用户数量的倒数进行融合；依据融合特征，从上述用户词库中获取个性化词条。

通常个人词频越大、公共词频的倒数越小、以及使用用户数量的倒数越小，则可以说明当前用户经常使用该用户词条、当前用户针对该用户词条的输入次数在全网用户针对该用户词条的输入次数中占用了较大的比重、以及用户词条被越少的用户使用；因此说明该用户词条在不同用户之间的区别性越大、以及用户词条对于当前用户的代表性越强。

可选地，可以构造上述个人词频、上述公共词频的倒数和上述使用用户数量的倒数为自变量的函数，并依据该函数确定融合特征。该函数可以对上述个人词频、上述公共词频的倒数和上述使用用户数量的倒数进行加权平均，或者，对上述个人词频、上述公共词频的倒数和上述使用用户数量的倒数进行相乘等，可以理解，上述函数可以对应有参数。可以理解，本发明实施例对于具体的参数不加以限制。

例如，对上述个人词频、上述公共词频的倒数和上述使用用户数量的倒数进行相乘，并依据相乘结果得到融合特征，则可以按照融合特征从大到小的顺序，从用户词库中获取个性化词条。

技术方案5、

技术方案5中，上述词条特征还可以包括：对于系统词库的命中特征；该命中特征可以表征用户词条是否存在于系统词库中，若是，则说明用户词条为大众词条，否则说明用户词条为自造词条。

上述从上述用户词库中确定出个性化词条，具体包括：从上述用户词库中获取命中特征为未命中的用户词条，这样可以将个性化词条限制在自造词条的范围。

技术方案6、

技术方案6中，上述词条特征还可以包括：实体特征，实体特征可以表征用户词条是否对应命名实体。

实体是存在于现实世界中并且可以与其他物体区分开来的物体。命名实体指的是文本中具有特定意义的实体，例如人名、地名、机构名、专有名词等。

而用户在讲话时带有个性化词条通常对应人名、地名、机构名等命名实体，因此本发明实施例可以将实体特征用于个性化词条的挖掘。

在实际应用中，可以将用户词条与实体库中命名实体进行匹配，或者对用户词条进行命名实体识别，以判断用户词条是否对应命名实体。命名实体识别方法可以包括：基于规则和词典的方法、基于统计的方法、或者基于神经网络的方法等。

可选地，上述从上述用户词库中确定出个性化词条，具体包括：从上述用户词库中获取实体特征为命名实体的用户词条。

以上通过技术方案1至技术方案5对从上述用户词库中确定出个性化词条的过程进行了详细介绍，可以理解，本领域技术人员可以根据实际应用需求，采用上述技术方案1至技术方案5中的任一或组合，或者还可以采用其他技术方案，本发明实施例对于从上述用户词库中确定出个性化词条的具体过程不加以限制。

例如，在本发明的其他方案中，还可以从用户词库中滤除停用词、单字词等用户词条。

在信息检索中，为节省存储空间和提高搜索效率，在处理自然语言数据(或文本)之前或之后会自动过滤掉某些词，这些词即被称为Stop Words(停用词)。停用词的例子可以包括：“我”、“我们”、“他”、“要、“好些”、“夜间”、“这么”、“不对”等。

本发明实施例可以将步骤202挖掘的个性化词条保存至用户的个性化词库。可以理解，还可以根据用户词库的更新事件，从更新后的用户词条中挖掘个性化词条，进而实现个性化词库的更新。

本发明实施例中，可选的是，可以对用户词库中不同于个性化词条的用户词条进行删除处理。

综上，本发明实施例的语音处理方法，综合利用个人词频、公共词频、以及使用用户数量等词条特征，从用户词库中挖掘个性化词条。个人词频、公共词频、以及使用用户数量等词条特征的综合利用，可以提高个性化词条在不同用户之间的区分性、以及用户词条对于当前用户的代表性，因此能够提高个性化词条的区分性和准确度。

方法实施例二

参照图3，示出了本发明的一种语音处理方法实施例二的步骤流程图，具体可以包括如下步骤：

步骤301、确定用户词库中用户词条对应的词条特征；上述词条特征具体包括：对于系统词库的命中特征、实体特征、个人词频、公共词频、以及使用用户数量；

步骤302、从上述用户词库中获取命中特征为未命中的第一用户词条；

步骤303、从上述第一用户词条中删除停用词和单字词，以得到第二用户词条；

步骤304、从上述第二用户词条中获取实体特征为命名实体的第三用户词条；

步骤305、从上述第三用户词条中滤除使用用户数量超过第一阈值的第四用户词条；

步骤306、从上述第四用户词条中获取个人词频超过第二阈值的第五用户词条；

步骤307、对上述个人词频、上述公共词频的倒数和上述使用用户数量的倒数进行融合；依据融合特征，从上述第五用户词条中获取个性化词条；上述个性化词条用于语音输入。

本发明实施例依次利用命中特征、停用词特征、实体特征、使用用户数量、个人词频和融合特征等词条特征，对用户词条进行过滤和筛选。多种词条特征的综合利用，可以提高个性化词条在不同用户之间的区分性、以及用户词条对于当前用户的代表性，因此能够提高个性化词条的区分性和准确度。

可以理解，在实际应用中，本发明实施例对于词条特征的具体使用顺序不加以限制，例如，可以首先利用实体特征然后利用命中特征等。

本发明实施例可以依据词条特征，确定个性化词条的得分，并依据得分从大到小的顺序，对个性化词条进行排序。例如，可以依据前述的融合特征，确定个性化词条的得分，可以理解，本发明实施例对于个性化词条的得分的具体确定过程不加以限制。

方法实施例三

参照图4，示出了本发明的一种语音处理方法实施例三的步骤流程图，具体可以包括如下步骤：

步骤401、确定用户词库中用户词条对应的词条特征；上述词条特征包括：个人词频、公共词频、以及使用用户数量；

步骤402、依据上述词条特征，从上述用户词库中确定出个性化词条；上述个性化词条用于语音输入；

相对于图2所示方法实施例一，本实施例的方法还可以包括：

步骤403、在用户状态为未登录状态的情况下，输出登录提示信息，上述登录提示信息用于引导用户开启个性化语音识别服务。

本发明实施例在用户状态为未登录状态的情况下，输出登录提示信息，以引导用户开启个性化语音识别服务，个性化语音识别服务可以表征利用个性化词条进行语音识别的服务。由于在用户状态为未登录状态的情况下，无法定位到具体的用户，因此输出登录提示信息，以引导用户通过登录开启个性化语音识别服务。

本发明实施例可以播放登录提示信息，或者，可以在界面上展示登录提示信息。可选地，登录提示信息可以包括：登录入口，以使用户通过登录入口登录，进而开启个性化语音识别服务。

可选地，登录提示信息可以对应有关闭入口，例如，可以在登录提示信息的周围设置有关闭控件，以实现对于登录提示信息的关闭。

在本发明的一种可选实施例中，在用户状态为未登录状态的情况下，可以判断是否接收过针对登录提示信息的关闭操作，若否，则输出登录提示信息。

若接收过针对登录提示信息的关闭操作，则判断关闭操作的次数，若关闭操作的次数大于第四阈值，此种情况说明用户开启个性化语音服务的意愿较弱，因此不做处理，也即不输出登录提示信息。

若关闭操作的次数小于(第四阈值+1)，则可以判断距离关闭操作的时间是否小于第一时长，若否，则输出登录提示信息，可以降低登录提示信息打扰用户的频繁度。

若距离关闭操作的时间小于第一时长，则判断距离关闭操作的时间是否大于第二时长，若否，则不做处理，也即不输出登录提示信息，可以降低登录提示信息打扰用户的频繁度。若距离关闭操作的时间大于第二时长，则可以判断是否接收过用户针对语音识别结果的修改行为，若是，则认为用户存在语音识别结果的准确度提升需求，故输出登录提示信息。

本领域技术人员可以根据实际应用需求，确定第四阈值、第一时长和第二时长，例如，第四阈值为1，第一时长为4天，第二时长等1天等。

方法实施例四

参照图5，示出了本发明的一种语音处理方法实施例四的步骤流程图，具体可以包括如下步骤：

步骤501、确定用户词库中用户词条对应的词条特征；上述词条特征包括：个人词频、公共词频、以及使用用户数量；

步骤502、依据上述词条特征，从上述用户词库中确定出个性化词条；上述个性化词条用于语音输入；

相对于图2所示方法实施例一，本实施例的方法还可以包括：

步骤503、在用户状态从未登录状态更新为登录状态的情况下，输出服务开启提示信息，上述服务开启提示信息用于提示用户个性化语音识别服务的开启。

本发明实施例在用户状态从未登录状态更新为登录状态的情况下，输出服务开启提示信息，可以针对用户的登录行为提供个性化语音识别服务的开启反馈，提升用户体验。

根据一种实施例中，上述服务开启提示信息可以为第一服务开启提示信息，上述第一服务开启提示信息可以具有告知作用，例如，相应的文本可以为“即将开启个性化语音识别，输入过的词识别更准确”等。

根据另一种实施例，上述服务开启提示信息可以为第二服务开启提示信息，上述第二服务开启提示信息可以包括：个性化词条的数量、或者个人词频超过第三阈值的个性化词条。例如，上述服务开启提示信息对应的文本可以为“个性化语音识别已开启，强化学习“鲁爷”“李茜”等词汇”。或者，上述服务开启提示信息对应的文本可以为“个性化语音识别已开启，强化学习X个词汇”等。

可选地，可以首先展示第一服务开启提示信息，然后依据用户针对第一服务开启提示信息的确认信息，展示第二服务开启提示信息。

方法实施例五

参照图6，示出了本发明的一种语音处理方法实施例五的步骤流程图，具体可以包括如下步骤：

步骤601、确定用户词库中用户词条对应的词条特征；上述词条特征包括：个人词频、公共词频、以及使用用户数量；

步骤602、依据上述词条特征，从上述用户词库中确定出个性化词条

相对于图2所示方法实施例一，本实施例的方法还可以包括：

步骤603、在用户状态为登录状态的情况下，输出更新提示信息，上述更新提示信息用于提示个性化词条的更新。

本发明实施例在用户状态为登录状态的情况下，可以输出更新提示信息，以提示个性化词条的更新。

本发明实施例可以按照预设周期，输出更新提示信息。预设周期的长度可由本领域技术人员根据实际应用需求确定，例如，预设周期的长度为7天等。

可选地，更新提示信息可以包括：新增的个性化词条的数量，如更新提示信息的文本为“又学习到Y个您的专属词汇”等。

方法实施例六

参照图7，示出了本发明的一种语音处理方法实施例六的步骤流程图，具体可以包括如下步骤：

步骤701、接收待识别语音数据；

步骤702、对上述待识别语音数据进行解码；

步骤703、根据用户对应的个性化词条，对上述待识别语音数据对应的解码路径的得分进行调整；

上述用户对应的个性化词条可以为依据前述的方法得到；

步骤704、根据上述解码路径的调整后得分，确定上述待识别语音数据对应的语音识别结果。

本发明实施例可以利用登录用户对应的个性化词条，向登录用户提供个性化语音识别服务。

在语音识别过程中，经常会出现同音异形、或相似音词语的问题。如音节“shuangzai”可以对应“双在”、“霜在”、“爽在”、“爽崽”等词。假设某用户对应的个性化词条包括“爽崽”，则可以增加“爽崽”所在解码路径的得分，因此增加个性化词条所在的解码路径的选择概率，使解码得到的语音识别结果中的一些关键词与个性化词条更相匹配。

本发明实施例可以利用解码器对上述待识别语音数据进行解码。可选地，解码器可以利用声学模型，确定待识别语音数据的语音特征对应的音素序列；然后，依据语言模型对音素序列进行语音解码，语音解码用于在给定音素序列的情况下，找到最佳的解码路径，进而可以得到语音识别结果。

在本发明实施例中，所述解码过程中的语言模型和声学模型可以采用通用的语言模型和声学模型，以得到上述待识别语音数据对应的解码路径。

进一步，可以根据用户对应的个性化词条，对待识别语音数据对应的解码路径的得分进行调整。具体地，可以调高经过所述个性化词条的解码路径的得分。

根据一种实施例，可以根据个性化词条的得分，确定个性化词条所在解码路径对应的增加得分。例如，个性化词条的得分越高，则增加得分越多。

通过对解码路径得分的调整，提高了个性化词条所在的解码路径的得分，能够增加个性化词条所在的解码路径的选择概率，使解码得到的语音识别结果中的一些关键词与个性化词条更相匹配，提高了语音识别的准确性。

综上，本发明实施例的语音识别方法，依据个性化词条对解码路径的得分进行调整，可以提高个性化词条所在解码路径的得分，进而能够提升个性化词条对应的语音识别准确率。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的运动动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的运动动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的运动动作并不一定是本发明实施例所必须的。

装置实施例

参照图8，示出了本发明的一种语音处理装置实施例的结构框图，具体可以包括：

词条特征确定模块801，用于确定用户词库中用户词条对应的词条特征；所述词条特征具体包括：个人词频、公共词频、以及使用用户数量；

个性化词条确定模块802，用于依据所述词条特征，从所述用户词库中确定出个性化词条；上述个性化词条用于语音输入。

可选地，上述个性化词条确定模块可以包括：

滤除模块，用于从上述用户词库中滤除使用用户数量超过第一阈值的用户词条；和/或

第一获取模块，用于从上述用户词库中获取个人词频超过第二阈值的用户词条；和/或

第二获取模块，用于依据个人词频与公共词频之间的相对关系，从上述用户词库中获取个性化词条。

可选地，上述个性化词条确定模块可以包括：

融合模块，用于对上述个人词频、上述公共词频的倒数和上述使用用户数量的倒数进行融合；

第三获取模块，用于依据融合特征，从上述用户词库中获取个性化词条。

可选地，上述词条特征还可以包括：对于系统词库的命中特征；

上述个性化词条确定模块可以包括：

第四获取模块，用于从上述用户词库中获取命中特征为未命中的用户词条。

可选地，上述词条特征还可以包括：实体特征；

上述个性化词条确定模块可以包括：

第五获取模块，用于从上述用户词库中获取实体特征为命名实体的用户词条。

可选地，上述装置还可以包括：

第一提示模块，用于在用户状态为未登录状态的情况下，输出登录提示信息，上述登录提示信息用于引导用户开启个性化语音识别服务。

可选地，上述装置还可以包括：

第二提示模块，用于在用户状态从未登录状态更新为登录状态的情况下，输出服务开启提示信息，上述服务开启提示信息用于提示用户个性化语音识别服务的开启。

可选地，上述服务开启提示信息可以包括：个性化词条的数量、或者个人词频超过第三阈值的个性化词条。

可选地，上述装置还可以包括：

第三提示模块，用于在用户状态为登录状态的情况下，输出更新提示信息，上述更新提示信息用于提示个性化词条的更新。

参照图9，示出了本发明的一种语音处理装置实施例的结构框图，具体可以包括：

接收模块901，用于接收待识别语音数据；

解码模块902，用于对所述待识别语音数据进行解码；

调整模块903，用于根据用户对应的个性化词条，对所述待识别语音数据对应的解码路径的得分进行调整；所述用户对应的个性化词条为前述的方法得到；以及

语音识别结果确定模块904，用于根据所述解码路径的调整后得分，确定所述待识别语音数据对应的语音识别结果。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图10是根据一示例性实施例示出的一种用于语音处理的装置1300的框图。例如，装置1300可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图10，装置1300可以包括以下一个或多个组件：处理组件1302，存储器1304，电源组件1306，多媒体组件1308，音频组件1310，输入/输出(I/O)的接口1312，传感器组件1314，以及通信组件1316。

处理组件1302通常控制装置1300的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理元件1302可以包括一个或多个处理器1320来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件1302可以包括一个或多个模块，便于处理组件1302和其他组件之间的交互。例如，处理组件1302可以包括多媒体模块，以方便多媒体组件1308和处理组件1302之间的交互。

存储器1304被配置为存储各种类型的数据以支持在设备1300的操作。这些数据的示例包括用于在装置1300上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器1304可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件1306为装置1300的各种组件提供电力。电源组件1306可以包括电源管理系统，一个或多个电源，及其他与为装置1300生成、管理和分配电力相关联的组件。

多媒体组件1308包括在所述装置1300和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件1308包括一个前置摄像头和/或后置摄像头。当设备1300处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件1310被配置为输出和/或输入音频信号。例如，音频组件1310包括一个麦克风(MIC)，当装置1300处于操作模式，如呼叫模式、记录模式和语音数据处理模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器1304或经由通信组件1316发送。在一些实施例中，音频组件1310还包括一个扬声器，用于输出音频信号。

I/O接口1312为处理组件1302和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件1314包括一个或多个传感器，用于为装置1300提供各个方面的状态评估。例如，传感器组件1314可以检测到设备1300的打开/关闭状态，组件的相对定位，例如所述组件为装置1300的显示器和小键盘，传感器组件1314还可以检测装置1300或装置1300一个组件的位置改变，用户与装置1300接触的存在或不存在，装置1300方位或加速/减速和装置1300的温度变化。传感器组件1314可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件1314还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件1314还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件1316被配置为便于装置1300和其他设备之间有线或无线方式的通信。装置1300可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信组件1316经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件1316还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频数据处理(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，装置1300可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器1304，上述指令可由装置1300的处理器1320执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

图11是本发明实施例中服务端的结构示意图。该服务端1900可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(central processing units，CPU)1922(例如，一个或一个以上处理器)和存储器1932，一个或一个以上存储应用程序1942或数据1944的存储介质1930(例如一个或一个以上海量存储设备)。其中，存储器1932和存储介质1930可以是短暂存储或持久存储。存储在存储介质1930的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务端中的一系列指令操作。更进一步地，中央处理器1922可以设置为与存储介质1930通信，在服务端1900上执行存储介质1930中的一系列指令操作。

服务端1900还可以包括一个或一个以上电源1926，一个或一个以上有线或无线网络接口1950，一个或一个以上输入输出接口1958，一个或一个以上键盘1956，和/或，一个或一个以上操作系统1941，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本发明旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求指出。

一种非临时性计算机可读存储介质，当所述存储介质中的指令由智能终端的处理器执行时，使得智能终端能够执行一种语音处理方法，所述方法包括：确定用户词库中用户词条对应的词条特征；所述词条特征包括：个人词频、公共词频、以及使用用户数量；依据所述词条特征，从所述用户词库中确定出个性化词条；所述个性化词条用于语音输入。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

本发明实施例公开了A1、一种语音处理方法，包括：

A2、根据A1所述的方法，所述从所述用户词库中确定出个性化词条，包括：

从所述用户词库中滤除使用用户数量超过第一阈值的用户词条；和/或

从所述用户词库中获取个人词频超过第二阈值的用户词条；和/或

依据个人词频与公共词频之间的相对关系，从所述用户词库中获取个性化词条。

A3、根据A1所述的方法，所述从所述用户词库中确定出个性化词条，包括：

对所述个人词频、所述公共词频的倒数和所述使用用户数量的倒数进行融合；

依据融合特征，从所述用户词库中获取个性化词条。

A4、根据A1所述的方法，所述词条特征还包括：对于系统词库的命中特征；

所述从所述用户词库中确定出个性化词条，包括：

从所述用户词库中获取命中特征为未命中的用户词条。

A5、根据A1所述的方法，所述词条特征还包括：实体特征；

所述从所述用户词库中确定出个性化词条，包括：

从所述用户词库中获取实体特征为命名实体的用户词条。

A6、根据A1至A5中任一所述的方法，所述方法还包括：

在用户状态为未登录状态的情况下，输出登录提示信息，所述登录提示信息用于引导用户开启个性化语音识别服务。

A7、根据A1至A5中任一所述的方法，所述方法还包括：

在用户状态从未登录状态更新为登录状态的情况下，输出服务开启提示信息，所述服务开启提示信息用于提示用户个性化语音识别服务的开启。

A8、根据A7所述的方法，所述服务开启提示信息包括：个性化词条的数量、或者个人词频超过第三阈值的个性化词条。

A9、根据A1至A5中任一所述的方法，所述方法还包括：

在用户状态为登录状态的情况下，输出更新提示信息，所述更新提示信息用于提示个性化词条的更新。

本发明实施例公开了B10、一种语音处理方法，包括：

接收待识别语音数据；

对所述待识别语音数据进行解码；

根据用户对应的个性化词条，对所述待识别语音数据对应的解码路径的得分进行调整；所述用户对应的个性化词条为依据A1至A9中任一所述的方法得到；

根据所述解码路径的调整后得分，确定所述待识别语音数据对应的语音识别结果。

本发明实施例公开了C11、一种语音处理装置，包括：

C12、根据C11所述的装置，所述个性化词条确定模块包括：

滤除模块，用于从所述用户词库中滤除使用用户数量超过第一阈值的用户词条；和/或

第一获取模块，用于从所述用户词库中获取个人词频超过第二阈值的用户词条；和/或

第二获取模块，用于依据个人词频与公共词频之间的相对关系，从所述用户词库中获取个性化词条。

C13、根据C11所述的装置，所述个性化词条确定模块包括：

融合模块，用于对所述个人词频、所述公共词频的倒数和所述使用用户数量的倒数进行融合；

第三获取模块，用于依据融合特征，从所述用户词库中获取个性化词条。

C14、根据C11所述的装置，所述词条特征还包括：对于系统词库的命中特征；

所述个性化词条确定模块包括：

第四获取模块，用于从所述用户词库中获取命中特征为未命中的用户词条。

C15、根据C11所述的装置，所述词条特征还包括：实体特征；

所述个性化词条确定模块包括：

第五获取模块，用于从所述用户词库中获取实体特征为命名实体的用户词条。

C16、根据C11至C15中任一所述的装置，所述装置还包括：

第一提示模块，用于在用户状态为未登录状态的情况下，输出登录提示信息，所述登录提示信息用于引导用户开启个性化语音识别服务。

C17、根据C11至C15中任一所述的装置，所述装置还包括：

第二提示模块，用于在用户状态从未登录状态更新为登录状态的情况下，输出服务开启提示信息，所述服务开启提示信息用于提示用户个性化语音识别服务的开启。

C18、根据C17所述的装置，所述服务开启提示信息包括：个性化词条的数量、或者个人词频超过第三阈值的个性化词条。

C19、根据C11至C15中任一所述的装置，所述装置还包括：

第三提示模块，用于在用户状态为登录状态的情况下，输出更新提示信息，所述更新提示信息用于提示个性化词条的更新。

本发明实施例公开了D20、一种语音处理装置，包括：

接收模块，用于接收待识别语音数据；

解码模块，用于对所述待识别语音数据进行解码；

调整模块，用于根据用户对应的个性化词条，对所述待识别语音数据对应的解码路径的得分进行调整；所述用户对应的个性化词条为依据A1至A9中任一所述的方法得到；以及

本发明实施例公开了E21、一种用于语音处理的装置，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

E22、根据E21所述的装置，所述从所述用户词库中确定出个性化词条，包括：

E23、根据E21所述的装置，所述从所述用户词库中确定出个性化词条，包括：

依据融合特征，从所述用户词库中获取个性化词条。

E24、根据E21所述的装置，所述词条特征还包括：对于系统词库的命中特征；

所述从所述用户词库中确定出个性化词条，包括：

从所述用户词库中获取命中特征为未命中的用户词条。

E25、根据E21所述的装置，所述词条特征还包括：实体特征；

所述从所述用户词库中确定出个性化词条，包括：

从所述用户词库中获取实体特征为命名实体的用户词条。

26、根据E21至E25中任一所述的装置，所述装置还包括：

E27、根据E21至E25中任一所述的装置，所述装置还包括：

E28、根据E27所述的装置，所述服务开启提示信息包括：个性化词条的数量、或者个人词频超过第三阈值的个性化词条。

E29、根据E21至E25中任一所述的装置，所述装置还包括：

本发明实施例公开了F30、一种用于语音处理的装置，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

接收待识别语音数据；

对所述待识别语音数据进行解码；

根据用户对应的个性化词条，对所述待识别语音数据对应的解码路径的得分进行调整；所述用户对应的个性化词条为依据权利要求1至9中任一所述的方法得到；

本发明实施例公开了G31、一个或多个机器可读介质，其上存储有指令，当由一个或多个处理器执行时，使得装置执行如A1至A9中一个或多个所述的方法。

本发明实施例公开了H32、一个或多个机器可读介质，其上存储有指令，当由一个或多个处理器执行时，使得装置执行如B10所述的方法。

以上对本发明所提供的一种语音处理方法、一种语音处理装置和一种用于语音处理的装置，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种语音处理方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述从所述用户词库中确定出个性化词条，包括：

3.根据权利要求1所述的方法，其特征在于，所述从所述用户词库中确定出个性化词条，包括：

依据融合特征，从所述用户词库中获取个性化词条。

4.一种语音处理方法，其特征在于，包括：

接收待识别语音数据；

对所述待识别语音数据进行解码；

根据用户对应的个性化词条，对所述待识别语音数据对应的解码路径的得分进行调整；所述用户对应的个性化词条为依据权利要求1至3中任一所述的方法得到；

5.一种语音处理装置，其特征在于，包括：

6.一种语音处理装置，其特征在于，包括：

接收模块，用于接收待识别语音数据；

解码模块，用于对所述待识别语音数据进行解码；

调整模块，用于根据用户对应的个性化词条，对所述待识别语音数据对应的解码路径的得分进行调整；所述用户对应的个性化词条为依据权利要求1至3中任一所述的方法得到；以及

7.一种用于语音处理的装置，其特征在于，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

8.一种用于语音处理的装置，其特征在于，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

接收待识别语音数据；

对所述待识别语音数据进行解码；

9.一个或多个机器可读介质，其特征在于，其上存储有指令，当由一个或多个处理器执行时，使得装置执行如权利要求1至3中一个或多个所述的方法。

10.一个或多个机器可读介质，其特征在于，其上存储有指令，当由一个或多个处理器执行时，使得装置执行如权利要求4所述的方法。