CN107424612A

CN107424612A - 处理方法、装置和机器可读介质

Info

Publication number: CN107424612A
Application number: CN201710632018.7A
Authority: CN
Inventors: 郑宏
Original assignee: Beijing Sogou Technology Development Co Ltd
Current assignee: Beijing Sogou Technology Development Co Ltd
Priority date: 2017-07-28
Filing date: 2017-07-28
Publication date: 2017-12-01
Anticipated expiration: 2037-07-28
Also published as: CN107424612B

Abstract

本发明实施例提供了一种处理方法、装置和机器可读介质，其中的方法具体包括：依据语音识别结果，在第一词汇集合中进行查找，以得到所述语音识别结果中包括的、与所述第一词汇集合中第一词汇相匹配的目标词汇；其中，所述第一词汇用于表征适于添加预置标记的词汇；针对所述语音识别结果中的目标词汇添加预置标记；输出添加预置标记后的语音识别结果。本发明实施例可以节省用户通过手动操作在语音识别结果中添加标记所花费的工作量，因此可以提高用户的处理效率、以及语音识别服务的智能性。

Description

处理方法、装置和机器可读介质

技术领域

本发明涉及语音识别技术领域，特别是涉及一种处理方法和装置、一种用于处理的装置、以及一种机器可读介质。

背景技术

语音识别技术是机器通过识别和理解过程将人发出的声音转换为相应的文字或符号，或者给出响应，如执行控制、做出回答等。语音识别技术的应用领域非常广泛，几乎涉及生活的每个领域，比如语音输入、语音转写、语音控制、智能对话查询等领域。以语音输入领域为例，可以对用户输入的语音信号进行语音到文本的转换，并向用户提供转换得到的语音识别结果。

在实际应用中，用户可能存在通过语音信号输入文字作品(如书、诗词、电影、电视剧、歌曲、动漫等)的需求。例如，用户欲要输入包括“三国演义”的内容，则现有方案可以向用户提供例如“三国演义”、或者“三国演义是中国的四大名著之一”的语音识别结果。

在实际应用中，用户通常需要通过例如书名号的标记来提高文字作品的辨识度。然而，由于现有方案提供的语音识别结果并不包括这样的标记，故现有方案中用户往往需要通过手动操作在现有方案提供的语音识别结果中添加对应的标记，这些手动操作可以包括：移动光标、输入标记、再次移动光标等繁琐操作，导致用户的处理效率较低。

发明内容

鉴于上述问题，提出了本发明实施例以便提供一种克服上述问题或者至少部分地解决上述问题的处理方法、处理装置、用于处理的装置、以及一种机器可读介质，本发明实施例可以节省用户通过手动操作在语音识别结果中添加标记所花费的工作量，因此可以提高用户的处理效率、以及语音识别服务的智能性。

为了解决上述问题，本发明公开了一种处理方法，包括：

依据语音识别结果，在第一词汇集合中进行查找，以得到所述语音识别结果中包括的、与所述第一词汇集合中第一词汇相匹配的目标词汇；其中，所述第一词汇用于表征适于添加预置标记的词汇；

针对所述语音识别结果中的目标词汇添加预置标记；

输出添加预置标记后的语音识别结果。

可选地，所述方法还包括：

从语料中获取带有预置标记的词汇；

从带有预置标记的词汇中获取置信概率符合第一预置条件的词汇，作为第一词汇。

可选地，所述置信概率为依据词汇和预置标记在语料中的共现次数与所述词汇在语料中的出现次数得到。

可选地，在所述针对所述语音识别结果中的目标词汇添加预置标记之前，所述方法还包括：

对语音识别结果进行分词，以得到对应的分词词汇；

若所述目标词汇与其中一个分词词汇相匹配，则针对所述语音识别结果中的目标词汇添加预置标记。

对语音识别结果进行分词，以得到对应的分词词汇；

若所述目标词汇与其中一个分词词汇相匹配、且所述目标词汇的首预设个数字符或者尾预设个数字符与其相邻字符对应的组词结果不存在于第二词汇集合中，则针对所述语音识别结果中的目标词汇添加预置标记；其中，第二词汇集合中的第二词汇为使用频率符合第二预置条件的词汇。

可选地，所述针对所述语音识别结果中的目标词汇添加预置标记，包括：

若添加预置标记后的语音识别结果对应的语言质量优于语音识别结果对应的语言质量，则针对所述语音识别结果中的目标词汇添加预置标记。

对添加预置标记后的语音识别结果进行句法分析和/或词性分析，若得到的句法分析结果和/或词性分析结果符合预设规则，则针对所述语音识别结果中的目标词汇添加预置标记。

另一方面，本发明公开了一种处理装置，包括：

查找模块，用于依据语音识别结果，在第一词汇集合中进行查找，以得到所述语音识别结果中包括的、与所述第一词汇集合中第一词汇相匹配的目标词汇；其中，所述第一词汇用于表征适于添加预置标记的词汇；

标记添加模块，用于针对所述语音识别结果中的目标词汇添加预置标记；以及

输出模块，用于输出添加预置标记后的语音识别结果。

可选地，所述装置还包括：

第一获取模块，用于从语料中获取带有预置标记的词汇；

第二获取模块，用于从带有预置标记的词汇中获取置信概率符合第一预置条件的词汇，作为第一词汇。

可选地，所述装置还包括：

分词模块，用于在所述标记添加模块针对所述语音识别结果中的目标词汇添加预置标记之前，对语音识别结果进行分词，以得到对应的分词词汇；

所述标记添加模块，具体用于若所述目标词汇与其中一个分词词汇相匹配，则针对所述语音识别结果中的目标词汇添加预置标记。

可选地，所述装置还包括：

所述标记添加模块，具体用于若所述目标词汇与其中一个分词词汇相匹配、且所述目标词汇的首预设个数字符或者尾预设个数字符与其相邻字符对应的组词结果不存在于第二词汇集合中，则针对所述语音识别结果中的目标词汇添加预置标记；其中，第二词汇集合中的第二词汇为使用频率符合第二预置条件的词汇。

可选地，所述标记添加模块，具体用于若添加预置标记后的语音识别结果对应的语言质量优于语音识别结果对应的语言质量，则针对所述语音识别结果中的目标词汇添加预置标记。

可选地，所述装置还包括：

分析模块，用于在所述标记添加模块针对所述语音识别结果中的目标词汇添加预置标记之前，对添加预置标记后的语音识别结果进行句法分析和/或词性分析；

所述标记添加模块，具体用于若得到的句法分析结果和/或词性分析结果符合预设规则，则针对所述语音识别结果中的目标词汇添加预置标记。

再一方面，本发明公开了一种用于处理的装置，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：依据语音识别结果，在第一词汇集合中进行查找，以得到所述语音识别结果中包括的、与所述第一词汇集合中第一词汇相匹配的目标词汇；其中，所述第一词汇用于表征适于添加预置标记的词汇；针对所述语音识别结果中的目标词汇添加预置标记；输出添加预置标记后的语音识别结果。

又一方面，本发明公开了一种机器可读介质，其上存储有指令，当由一个或多个处理器执行时，使得装置执行前述的处理方法。

本发明实施例包括以下优点：

本发明实施例可以通过第一词汇集合识别出语音识别中包括的适于添加预置标记的目标词汇，并针对所述语音识别结果中的目标词汇添加预置标记，进而向用户提供添加预置标记后的语音识别结果；由于通过本发明实施例可以向用户提供添加预置标记后的语音识别结果，故可以节省用户通过手动操作在语音识别结果中添加标记所花费的工作量，因此可以提高用户的处理效率、以及语音识别服务的智能性，进而可以提升用户体验。

附图说明

图1是本发明的一种处理方法的应用环境的示意；

图2是本发明的一种处理方法实施例的步骤流程图；

图3是本发明的一种语音识别方法实施例的步骤流程图；

图4是本发明的一种处理装置实施例的结构框图；

图5是根据一示例性实施例示出的一种用于处理的装置作为终端时的框图；及

图6是根据一示例性实施例示出的一种用于处理的装置作为服务器时的框图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

本发明实施例提供了一种处理方案，该方案可以依据语音识别结果，在第一词汇集合中进行查找，以得到所述语音识别结果中包括的、与所述第一词汇集合中第一词汇相匹配的目标词汇；针对所述语音识别结果中的目标词汇添加预置标记；输出添加预置标记后的语音识别结果。

本发明实施例中，由于第一词汇集合中第一词汇可用于表征适于添加预置标记的词汇，故所述语音识别结果中包括的、与第一词汇相匹配的目标词汇也可以为适于添加预置标记的词汇，因此，本发明实施例可以通过第一词汇集合识别出语音识别中包括的适于添加预置标记的目标词汇，并针对所述语音识别结果中的目标词汇添加预置标记，进而向用户提供添加预置标记后的语音识别结果；由于通过本发明实施例可以向用户提供添加预置标记后的语音识别结果，故可以节省用户通过手动操作在语音识别结果中添加标记所花费的工作量，因此可以提高用户的处理效率、以及语音识别服务的智能性，进而可以提升用户体验。

本发明实施例可以应用于语音输入、语音转写等任意的与语音识别技术相关的场景中，尤其地，可以应用于需要对语音识别结果进行展现的场景中。并且，本发明实施例可以应用于网站和/或应用程序的应用环境中，以通过这些应用环境向用户提供语音识别服务，且可以通过向用户提供添加预置标记后的语音识别结果、提高语音识别服务的智能性，可以理解，本发明实施例对于具体的应用环境不加以限制。

本发明实施例提供的处理方法可应用于图1所示的应用环境中，如图1所示，客户端100与服务器200位于有线或无线网络中，通过该有线或无线网络，客户端100与服务器200进行数据交互。

本发明实施例的处理方法可由客户端100和服务器200的任一执行：

例如，客户端100可以接收用户输入的语音信号，具体地，客户端100可以通过麦克风等其他语音采集器件接收用户输入的语音信号，或者，可以从用户指定的语音文件中获取用户输入的语音信号；接着，客户端100可以采用语音识别技术获取该语音信号对应的语音识别结果；依据语音识别结果，在第一词汇集合中进行查找，以得到所述语音识别结果中包括的、与所述第一词汇集合中第一词汇相匹配的目标词汇；针对所述语音识别结果中的目标词汇添加预置标记；进而向用户展现添加预置标记后的语音识别结果。

又如，客户端100在采集用户输入的语音信号之后，还可以向服务器200发送该语音信号，以使服务器200采用语音识别技术获取该语音信号对应的语音识别结果；依据语音识别结果，在第一词汇集合中进行查找，以得到所述语音识别结果中包括的、与所述第一词汇集合中第一词汇相匹配的目标词汇；针对所述语音识别结果中的目标词汇添加预置标记，并向客户端100发送添加预置标记后的语音识别结果；而客户端100可以将添加预置标记后的语音识别结果进行展现。

如果将用户的语音信号记作S，对S进行一系列处理后得到与之相对应的语音特征序列O，记作O＝{O₁，O₂，…，O_i，…，O_T}，其中O_i是第i个语音特征，T为语音特征总个数。语音信号S对应的句子可看作是由许多词组成的一个词串，记作W＝{w₁，w₂，…，w_n}。语音识别的过程就是根据已知的语音特征序列O，求出最可能的词串W。

具体来说，语音识别是一个模型匹配的过程，在这个过程中，可以首先根据人的语音特点建立语音模型，通过对输入的语音信号的分析，抽取所需的特征，来建立语音识别所需的模板；对用户所输入语音进行识别的过程即是将用户所输入语音的特征与所述模板比较的过程，最后确定与所述用户所输入语音匹配的最佳模板，从而获得语音识别的结果。具体的语音识别算法，可采用基于统计的隐含马尔可夫模型的训练和识别算法，也可采用基于神经网络的训练和识别算法、基于动态时间归整匹配的识别算法等等其他算法，本发明实施例对于具体的语音识别过程不加以限制。

可选地，客户端100可以运行在智能终端上，上述智能终端具体包括但不限：智能手机、平板电脑、电子书阅读器、MP3(动态影像专家压缩标准音频层面3，Moving PictureExperts Group Audio Layer III)播放器、MP4(动态影像专家压缩标准音频层面4，MovingPicture Experts Group Audio Layer IV)播放器、膝上型便携计算机、车载电脑、台式计算机、机顶盒、智能电视机、可穿戴设备等等。

方法实施例

参照图2，示出了本发明的一种处理方法实施例的步骤流程图，具体可以包括如下步骤：

步骤201、依据语音识别结果，在第一词汇集合中进行查找，以得到所述语音识别结果中包括的、与所述第一词汇集合中第一词汇相匹配的目标词汇；其中，所述第一词汇可用于表征适于添加预置标记的词汇；

步骤202、针对所述语音识别结果中的目标词汇添加预置标记；

步骤203、输出添加预置标记后的语音识别结果。

本发明实施例提供的处理方法所包括的步骤201至步骤203可由客户端和服务器的任一执行。

本发明实施例的语音识别结果可以为对语音信号进行识别得到的结果。在实际应用中，可以从对语音信号进行识别以得到该语音识别结果，也可以从其他设备接收已识别得到的语音识别结果，可以理解，本发明实施例对于语音识别结果的具体获取方式不加以限制。

第一词汇集合中的第一词汇可用于表征适于添加预置标记的词汇。在实际应用中，第一词汇可以为文艺作品对应的词汇，预置标记可以为文艺作品对应的标记，如书名号“《》”、双引号““””、单引号“‘’”、破折号“—”甚至括号“()”等。

可选地，考虑到不同语言的特点，本发明实施例可以针对不同的语言确定不同的预置标记。例如，对于中文中文艺作品对应的词汇而言，其对应的预置标记可以为前述的书名号、双引号、单引号、破折号、括号等；又如，对于英文中文艺作品对应的词汇而言，其对应的预置标记可以为词汇对应斜体表示，也即采用斜体字体表示词汇；再如，对于日文中文艺作品对应的词汇而言，其对应的预置标记可以为“『』”等。

可以理解，本领域技术人员可以根据实际应用需求(例如语言的特点)，确定第一词汇及其对应的预置标记，本发明实施例对于具体的第一词汇及其对应的预置标记不加以限制。

在本发明的一种可选实施例中，第一词汇的获取过程可以包括：从语料中获取带有预置标记的词汇；从带有预置标记的词汇中获取置信概率符合第一预置条件的词汇，作为第一词汇。可选地，可以将获取的第一词汇保存至第一词汇集合。

在实际应用中，语料可以来源于已有的语料库，例如特定语言(如中文、英文)的语料库等，或者，语料还可以来源于著名书籍、互联网语料、输入法程序记载的历史输入记录等。可以理解，任意的语料均在本发明实施例的语料的保护范围之内。

置信概率可用于表征第一词汇的可靠程度的概率。可选地，置信概率可以为依据词汇和预置标记在语料中的共现次数A与所述词汇在语料中的出现次数B得到，其中词汇在语料中的出现次数B可以包括：词汇在语料中单独出现的次数、以及词汇和预置标记在语料中的共现次数。可选地，置信概率可以为A与B的比值。以“三国演义”为例，其在语料中出现了100次，其中85次都加上了书名号，因此，“三国演义”的置信度可以为85％。

预置条件可用于约束第一词汇对应的置信概率，本发明实施例可以通过预置条件过滤一些置信概率较低的词汇。可选地，该预置条件可以包括：置信概率在预置范围内，或者，置信概率超过阈值等。

通过上述预置条件，可以避免将一些容易有歧义的词收录至第一词汇集合中，例如电影《红娘》对应的词汇就是置信概率低于阈值的词汇，而《三国演义》对应的词汇就是置信概率超过阈值的词汇。通过保留置信概率比较高的词、去除置信概率低的词汇，可以在一定程度上避免目标词汇的误识别，进而可以提高预置标记添加的准确率。

在实际应用中，步骤201依据语音识别结果，在第一词汇集合中进行查找的过程可以包括：将语音识别结果中包括的字符与所述第一词汇集合中第一词汇进行匹配，若匹配成功，则可以得到语音识别结果中包括的、与所述第一词汇集合中第一词汇相匹配的目标词汇。其中，目标词汇与第一词汇相匹配可以包括：目标词汇与第一词汇相同、目标词汇与第一词汇的语义相同、或者目标词汇与第一词汇的语义相关等。可以理解，本发明实施例对于依据语音识别结果，在第一词汇集合中进行查找的具体过程不加以限制。

在本发明的一种应用示例中，假设语音识别结果为“三国演义是中国的四大名著之一”，则步骤201可以获取该语音识别结果中包括的目标字符“三国演义”，步骤202可以针对所述语音识别结果中的目标词汇添加预置标记，以得到添加预置标记后的语音识别结果，如“《三国演义》是中国的四大名著之一”，步骤203可以将添加预置标记后的语音识别结果输出。其中，在步骤203由客户端执行时，客户端可以向用户展现添加预置标记后的语音识别结果；在步骤203由服务器执行时，服务器可以向客户端发送添加预置标记后的语音识别结果。

发明人在实施本发明实施例的过程中发现：在实际应用中，可能出现目标词汇的误识别情形。目标词汇的误识别情形可以包括：将语音识别结果中的字符错误识别为长度为2的第一词汇。例如，将语音识别结果“长篇大论语音的效果”中的“论语”错误识别为书名《论语》，并得到错误的添加预置标记后的语音识别结果：“长篇大《论语》音的效果”。

本发明实施例可以提供用于降低目标词汇的误识别率的如下技术方案：

技术方案1

为了降低目标词汇的误识别率和预置标记的错误添加，技术方案1中，在所述步骤202针对所述语音识别结果中的目标词汇添加预置标记之前，本发明实施例的方法还可以包括：对语音识别结果进行分词，以得到对应的分词词汇；若所述目标词汇与其中一个分词词汇相匹配，则执行所述针对所述语音识别结果中的目标词汇添加预置标记。

技术方案1可以通过语音识别结果对应的分词结果，判断是否针对所述语音识别结果中的目标词汇添加预置标记，具体地，若所述目标词汇与分词得到的其中一个分词词汇相匹配，则可以说明目标词汇属于语音识别结果中一个完整的分词词汇，也即，目标词汇在语音识别结果中具备完整性，因此可以针对所述语音识别结果中的目标词汇添加预置标记。

通过技术方案1可以在目标词汇不符合“与分词得到的其中一个分词词汇相匹配”的条件的情况下，不针对所述语音识别结果中的目标词汇添加预置标记，因此可以在一定程度上降低目标词汇的误识别率。例如，在目标词汇与分词得到的至少两个分词词汇相匹配的情况下，目标词汇的不同部分属于不同的分词词汇，此种情况下可以说明目标词汇在语音识别结果中不具备完整性，因此可以不针对所述语音识别结果中的目标词汇添加预置标记。

例如，可以对语音识别结果“长篇大论语音的效果”进行分词，得到的分词结果可以包括：“长篇大论”、“语音”、“的”、“效果”等分词词汇，由于目标词汇“论语”与分词得到的两个分词词汇“长篇大论”和“语音”相匹配，因此说明目标词汇“论语”在语音识别结果中不具备完整性，因此可以不针对所述语音识别结果中的目标词汇添加预置标记，因此可以在一定程度上降低目标词汇的误识别率，且可以在一定程度上避免预置标记的错误添加。

本发明实施例中，对语音识别结果进行分词，所采用的分词方法具体可以包括：基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法等。可以理解，本发明实施例对于对语音识别结果进行分词的具体分词方法不加以限制。

在本发明的一种可选实施例中，为了提高分词结果的准确率，本发明实施例对语音识别结果进行分词的过程可以包括：获取语音识别结果对应的分词词汇序列；从所述分词词汇序列中获取未存在于第三词汇集合中的第三词汇；所述第三词汇集合用于存储词汇；依据所述第三词汇集合对所述第三词汇进行切分处理，以得到对应的切分结果。由于语音识别结果对应的分词词汇序列为对语音识别结果进行分词处理得到的初步分词结果，上述分词词汇序列中可能存在未切分开的第三词汇，而上述切分处理能够起到分词词汇序列中第三词汇的二次切分作用，也即，上述切分处理能够将传统分词方法无法切分的第三词汇切开，因此能够提高分词结果的准确率。

本发明实施例中，第三词汇集合可用于存储对应语言的词汇。该第三词汇集合中存储的词汇可以源自已有的词典，也可以源自语料。以中文为例，可以从例如《新华词典》《现代汉语词典》《现代汉语规范词典》等已有的词典中获取第三词汇，并将该第三词汇保存至该第三词汇集合中。

其中，上述切分处理的过程可以包括：利用所述第三词汇集合中存储的词汇，拼接得到所述第三词汇，以将所述第三词汇的拼接所需的词汇作为对应的切分结果。假设第三词汇S_i可由第三词汇集合中Q个词汇组成，则第三词汇S_i的切分结果可以包括该Q个词汇，其中，Q为正整数。

在本发明的一种可选实施例中，上述依据所述第三词汇集合对所述第三词汇进行切分处理，具体可以包括：从所述第三词汇集合中获取所述第三词汇的拼接所需的最小数量的词汇，将所述最小数量的词汇作为所述第三词汇对应的切分结果。由于第三词汇的切分结果为该第三词汇的拼接所需的最小数量的词汇，也即，该第三词汇的拼接所需的词汇数量最少，因此能够有效避免第三词汇被切分为单字或者不完整词汇的情况，进而提高第三词汇的切分结果的准确率和翻译结果的准确率。

在实际应用中，本领域技术人员可以采用任意方法，从所述第三词汇集合中获取所述第三词汇的拼接所需的最小数量的词汇。例如，可以枚举所述第三词汇的所有拼接方案，并依据各拼接方案所需词汇的数量，从所有拼接方案中选择数量最小的一种拼接方案，可以理解，本发明实施例对于从所述第三词汇集合中获取所述第三词汇的拼接所需的最小数量的词汇的具体过程不加以限制。

技术方案2

为了降低目标词汇的误识别率、以及避免预置标记的错误添加，技术方案2中，在所述步骤202针对所述语音识别结果中的目标词汇添加预置标记之前，本发明实施例的方法还可以包括：对语音识别结果进行分词，以得到对应的分词词汇；若所述目标词汇与其中一个分词词汇相匹配、且所述目标词汇的首预设个数字符或者尾预设个数字符与其相邻字符对应的组词结果不存在于第二词汇集合中，则执行所述针对所述语音识别结果中的目标词汇添加预置标记；其中，第二词汇集合中的第二词汇可以为使用频率符合第二预置条件的词汇。

技术方案2可以通过语音识别结果对应的分词结果、以及目标词汇的首预设个数字符或者尾预设个数字符与其相邻字符对应的组词结果，判断是否针对所述语音识别结果中的目标词汇添加预置标记。具体地，若所述目标词汇与分词得到的其中一个分词词汇相匹配，若组词结果不存在于第二词汇集合中，则可以说明目标词汇属于语音识别结果中一个完整的分词词汇、且语音识别结果对应的分词结果较为合理，故说明目标词汇在语音识别结果中具备完整性，因此可以针对所述语音识别结果中的目标词汇添加预置标记。

在实际应用中，首预设个数字符、或者尾预设个数字符对应的第一字符数量可由本领域技术人员依据实际应用需求确定，例如，上述第一字符数量可以为一个或者多个。例如，首预设个数字符可以为位于首部的一个或者两个字符等。

上述相邻字符可以指与目标词汇相邻的字符，也即，目标词汇的相邻词汇所包括的邻近目标词汇的字符。相邻字符对应的字符数量也可由本领域技术人员依据实际应用需求确定，例如，上述第二字符数量可以为一个或者多个。

技术方案2可以在语音识别结果对应的分词结果不合理的情况下，降低目标词汇的误识别率，且可以在一定程度上避免预置标记的错误添加。

以语音识别结果“亲我身高一米六三体重130斤穿多大码的”为例，其对应的分词结果可以为：“亲我身高一米六三体重130斤穿多大码的”，其中，分词结果可以包括分词词汇“三体”，此种情况下，由于目标词汇“三体”与其中一个分词词汇“三体”相匹配，故在不考虑组词结果的情况下，容易造成预置标记的错误添加。

而第二词汇集合中的第二词汇可以为使用频率符合第二预置条件的词汇，如使用频率超过频率阈值的常见词汇等。若组词结果命中第二词汇集合，则说明组词结果为常见词汇，因此可以说明分词结果的不合理性，因此可以不针对所述语音识别结果中的目标词汇添加预置标记。如上述示例中，目标词汇“三体”的尾字符“体”与目标词汇“三体”的相邻字符“重”对应的组词结果为常见词汇，故可以认为分词结果不合理，因此可以不针对所述语音识别结果中的目标词汇添加预置标记。

技术方案3

为了降低目标词汇的误识别率、以及避免预置标记的错误添加，技术方案3中，所述步骤202针对所述语音识别结果中的目标词汇添加预置标记的过程，可以包括：若添加预置标记后的语音识别结果对应的语言质量优于语音识别结果对应的语言质量，则针对所述语音识别结果中的目标词汇添加预置标记。

技术方案3在添加预置标记后的语音识别结果对应的语言质量优于语音识别结果对应的语言质量的情况下，针对所述语音识别结果中的目标词汇添加预置标记，由于添加预置标记后的语音识别结果对应的语言质量优于语音识别结果对应的语言质量，故可以在一定程度上避免预置标记的错误添加。

在实际应用中，可以通过语言模型得分来表征语言质量。本发明实施例中，语言模型可以包括：N-gram(N元文法)语言模型，和/或，神经网络语言模型，其中，神经网络语言模型可以进一步包括：RNNLM(循环神经网络语言模型，Recurrent neural Network LanguageModel)、CNNLM(卷积神经网络语言模型，Convolutional Neural Networks LanguageModel)、DNNLM(深度神经网络语言模型，Deep Neural Networks Language Model)等。

其中，N-gram语言模型基于这样一种假设，即第N个词的出现只与前面N-1个词相关，而与其它任何词都不相关，整句的概率就是各个词出现概率的乘积。

由于N-gram语言模型利用有限的N-1个词(上文)来预测第N个词，故N-gram语言模型可以具备长度为N的语义片段的语言模型得分的描述能力，例如，N可以为3、5等较为固定的且数值小于第一长度阈值的正整数。而相对于N-gram语言模型，例如RNNLM的神经网络语言模型的一个优势在于：可以真正充分地利用所有上文来预测下一个词，故RNNLM可以具备长度可变的语义片段的语言模型得分的描述能力，也即，RNNLM适用于较宽长度范围的语义片段，例如，RNNLM对应的语义片段的长度范围可以为：1～第二长度阈值，其中，第二长度阈值大于第一长度阈值。

本发明实施例中，语义片段可用于表示添加有或者未添加有标点符号(包括预置标记等标点符号)的分词词汇序列。其中，分词词汇序列可以为语音识别结果的全部或者部分。例如，对于语音识别结果“你好％我是％小明％很高兴％认识你”而言，其对应的语义片段可以包括：“你好％，％我是”、“我是％小明％很高兴”等，其中，“％”是为了方便申请文件的说明而设置的符号，“％”用于表示分词词汇之间的界限、和/或、分词词汇与标点符号之间的界限，在实际应用中，“％”可以不具备任何意义。

根据一种实施例，由于RNNLM适用于较宽长度范围的语义片段，故可以将语音识别结果、或者添加预置标记后的语音识别结果对应的所有语义片段作为一个整体，由RNNLM确定语音识别结果/添加预置标记后的语音识别结果对应的语言模型得分，例如，将语音识别结果或者添加预置标记后的语音识别结果包括的所有字符单元输入RNNLM，则RNNLM可输出对应的语言模型得分。所述字符单元可以包括：分词词汇和/或标点符号。

根据另一种实施例，语音识别结果或者添加预置标记后的语音识别结果对应的语言模型得分的确定过程可以包括：针对语音识别结果或者添加预置标记后的语音识别结果包含的各语义片段，确定对应的语言模型得分；对语音识别结果或者添加预置标记后的语音识别结果包含的所有语义片段对应的语言模型得分进行融合，以得到对应的语言模型得分。

可选地，可以按照从前到后的顺序，通过移动方式从语音识别结果或者添加预置标记后的语音识别结果中获取对应的语义片段，不同语义片段所包含字符单元的数量可以相同，相邻的语义片段可以存在重复的字符单元。此种情况下，可由N-gram语言模型和/或神经网络语言模型确定语义片段对应的语言模型得分。假设N＝5，首字符单元的编号为1，则可以按照编号的如下顺序：1-5、2-6、3-7、4-8等从所述标点添加结果中获取对应的长度为5的语义片段，并利用N-gram语言模型确定各语义片段对应的语言模型得分，例如，将各语义片段输入N-gram，则N-gram可输出对应的语言模型得分。

技术方案4

为了降低目标词汇的误识别率、以及避免预置标记的错误添加，技术方案4中，在所述步骤202针对所述语音识别结果中的目标词汇添加预置标记之前，本发明实施例的方法还可以包括：对添加预置标记后的语音识别结果进行句法分析和/或词性分析，若得到的句法分析结果和/或词性分析结果符合预设规则，则执行所述针对所述语音识别结果中的目标词汇添加预置标记。

句法分析是的基本任务是确定句子的句法结构，比如“我来晚了”，这里“我”是主语，“来”是谓语，“晚了”是补语。可选地，句法结构可以用树状数据结构表示，完成这种分析过程的程序模块可以称为句法分析器。

本发明实施例中，添加预置标记后的语音识别结果中，添加预置标记后的目标字符对应的词性可以为特定的词性，例如，目标字符用于表征文艺作品的情况下，添加预置标记后的目标字符对应的词性可以为名词。

本发明实施例可以利用添加预置标记后的目标字符对应的词性，对添加预置标记后的语音识别结果进行句法分析，以判断句法分析结果是否符合对应语言的预设规则。以添加预置标记后的语音识别结果“长篇大《论语》音的效果”为例，由于其对应的句法分析结果不符合对应语言的预设规则，故可以不针对所述语音识别结果中的目标词汇添加预置标记。

同理，可以针对词性分析结果确定对应语言的预设规则，若其对应的词性分析结果不符合对应语言的预设规则，故可以不针对所述语音识别结果中的目标词汇添加预置标记。

在实际应用中，上述预设规则可以包括预设的语法规则。语法是语言学的一个分支，研究按确定用法来运用的"词类"、"词"的屈折变化或表示相互关系的其他手段以及词在句中的功能和关系。语法规则可以包含词的构词、构形的规则和组词成句的规则，可以理解，本发明实施例对于具体的预设规则不加以限制。

以上对用于降低目标词汇的误识别率的如下技术方案1至技术方案4进行了详细介绍，可以理解，本领域技术人员可以根据实际应用需求，采用技术方案1至技术方案4中的任一或者组合，可以理解，本发明实施例对于用于降低目标词汇的误识别率的具体技术方案不加以限制。

综上，本发明实施例的处理方法，通过第一词汇集合识别出语音识别中包括的适于添加预置标记的目标词汇，并针对所述语音识别结果中的目标词汇添加预置标记，进而向用户提供添加预置标记后的语音识别结果；由于通过本发明实施例可以向用户提供添加预置标记后的语音识别结果，故可以节省用户通过手动操作在语音识别结果中添加标记所花费的工作量，因此可以提高用户的处理效率、以及语音识别服务的智能性，进而可以提升用户体验。

参照图3，示出了本发明的一种语音识别方法实施例的步骤流程图，具体可以包括如下步骤：

步骤301、接收用户输入的语音信号；

其中，该语音信号可以为用户实时输入的语音，也可以为用户指定的语音文件中包括的语音，例如，该语音文件可以为用户的通话录音文件，也可以为从录音笔设备接收的语音文件等。

步骤302、对上述语音信号进行识别，以得到对应的语音识别结果；

步骤303、依据上述语音识别结果，在第一词汇集合中进行查找，以得到所述语音识别结果中包括的、与所述第一词汇集合中第一词汇相匹配的目标词汇；其中，所述第一词汇可用于表征适于添加预置标记的词汇；

步骤304、针对所述语音识别结果中的目标词汇添加预置标记；

步骤305、向用户展现添加预置标记后的语音识别结果。

需要说明的是，步骤303输入的语音识别结果可以经过了标点添加处理，此种情况下，步骤305可以直接向用户展现步骤304得到的添加预置标记后的语音识别结果。或者，步骤303输入的语音识别结果可以未经过标点添加处理，此种情况下，步骤305可以首先对步骤304得到的添加预置标记后的语音识别结果进行标点添加处理，然后输出。

本发明实施例中，标点添加处理可用于为语音识别结果添加标点。在本发明的一种可选实施例中，对语音识别结果进行标点添加处理，具体可以包括：对语音识别结果进行分词，以得到所述语音识别结果对应的分词词汇序列；通过语言模型对所述语音识别结果对应的分词词汇序列进行标点添加处理，以得到作为标点添加结果的文本。

本发明实施例中，所述语音识别结果对应的分词词汇序列中相邻分词词汇之间可被添加对应的多种候选标点符号，也即，可以依据所述语音识别结果对应的分词词汇序列中相邻分词词汇之间被添加多种候选标点符号的情形，对所述分词词汇序列进行标点添加处理，这样，所述语音识别结果对应的分词词汇序列将对应有多种标点添加方案及其对应的标点添加结果。可选地，可以通过语言模型对分词词汇序列进行标点添加处理，这样，最终可以得到语言模型得分最优的最优标点添加结果。

需要说明的是，本领域技术人员可以根据实际应用需求，确定需要添加的候选标点符号，可选地，上述候选标点符号可以包括：逗号、问号、句号、感叹号、空格等，其中，空格可以起到词分割的作用或者不起任何作用，例如，对于英文而言，空格可用于分割不同的词，对于中文而言，空格可以为不起任何作用的标点符号，可以理解，本发明实施例对于具体的候选标点符号不加以限制。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的运动动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的运动动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的运动动作并不一定是本发明实施例所必须的。

装置实施例

参照图4，示出了本发明的一种处理装置实施例的结构框图，具体可以包括：

查找模块401，用于依据语音识别结果，在第一词汇集合中进行查找，以得到所述语音识别结果中包括的、与所述第一词汇集合中第一词汇相匹配的目标词汇；其中，所述第一词汇可用于表征适于添加预置标记的词汇；

标记添加模块402，用于针对所述语音识别结果中的目标词汇添加预置标记；以及

输出模块403，用于输出添加预置标记后的语音识别结果。

可选地，所述装置还可以包括：

第一获取模块，用于从语料中获取带有预置标记的词汇；

可选地，所述置信概率可以为依据词汇和预置标记在语料中的共现次数与所述词汇在语料中的出现次数得到。

可选地，所述装置还可以包括：

标记添加模块402，具体用于若所述目标词汇与其中一个分词词汇相匹配，则针对所述语音识别结果中的目标词汇添加预置标记。

可选地，所述装置还可以包括：

标记添加模块402具体用于，若所述目标词汇与其中一个分词词汇相匹配、且所述目标词汇的首预设个数字符或者尾预设个数字符与其相邻字符对应的组词结果不存在于第二词汇集合中，则针对所述语音识别结果中的目标词汇添加预置标记；其中，第二词汇集合中的第二词汇为使用频率符合第二预置条件的词汇。

可选地，标记添加模块402，具体用于若添加预置标记后的语音识别结果对应的语言质量优于语音识别结果对应的语言质量，则针对所述语音识别结果中的目标词汇添加预置标记。

可选地，所述装置还可以包括：

标记添加模块402，具体用于若得到的句法分析结果和/或词性分析结果符合预设规则，则针对所述语音识别结果中的目标词汇添加预置标记。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

本发明实施例还提供了一种处理装置，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：依据语音识别结果，在第一词汇集合中进行查找，以得到所述语音识别结果中包括的、与所述第一词汇集合中第一词汇相匹配的目标词汇；其中，所述第一词汇用于表征适于添加预置标记的词汇；针对所述语音识别结果中的目标词汇添加预置标记；输出添加预置标记后的语音识别结果。

可选地，所述装置还经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

从语料中获取带有预置标记的词汇；

在所述针对所述语音识别结果中的目标词汇添加预置标记之前，对语音识别结果进行分词，以得到对应的分词词汇；

在所述针对所述语音识别结果中的目标词汇添加预置标记之前，对添加预置标记后的语音识别结果进行句法分析和/或词性分析，若得到的句法分析结果和/或词性分析结果符合预设规则，则针对所述语音识别结果中的目标词汇添加预置标记。

图5是根据一示例性实施例示出的一种用于处理的装置作为终端时的框图。例如，终端900可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图5，终端900可以包括以下一个或多个组件：处理组件902，存储器904，电源组件906，多媒体组件908，音频组件910，输入/输出(I/O)的接口912，传感器组件914，以及通信组件916。

处理组件902通常控制终端900的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理元件902可以包括一个或多个处理器920来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件902可以包括一个或多个模块，便于处理组件902和其他组件之间的交互。例如，处理组件902可以包括多媒体模块，以方便多媒体组件908和处理组件902之间的交互。

存储器904被配置为存储各种类型的数据以支持在终端900的操作。这些数据的示例包括用于在终端900上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器904可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件906为终端900的各种组件提供电力。电源组件906可以包括电源管理系统，一个或多个电源，及其他与为终端900生成、管理和分配电力相关联的组件。

多媒体组件908包括在所述终端900和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动运动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件908包括一个前置摄像头和/或后置摄像头。当终端900处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件910被配置为输出和/或输入音频信号。例如，音频组件910包括一个麦克风(MIC)，当终端900处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器904或经由通信组件916发送。在一些实施例中，音频组件910还包括一个扬声器，用于输出音频信号。

I/O接口912为处理组件902和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件914包括一个或多个传感器，用于为终端900提供各个方面的状态评估。例如，传感器组件914可以检测到终端900的打开/关闭状态，组件的相对定位，例如所述组件为终端900的显示器和小键盘，传感器组件914还可以检测终端900或终端900一个组件的位置改变，用户与终端900接触的存在或不存在，终端900方位或加速/减速和终端900的温度变化。传感器组件914可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件914还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件914还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件916被配置为便于终端900和其他设备之间有线或无线方式的通信。终端900可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信部件916经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信部件916还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，终端900可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器904，上述指令可由终端900的处理器920执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

图6是根据一示例性实施例示出的一种用于处理的装置作为服务器时的框图。该服务器1900可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(central processing units，CPU)1922(例如，一个或一个以上处理器)和存储器1932，一个或一个以上存储应用程序1942或数据1944的存储介质1930(例如一个或一个以上海量存储设备)。其中，存储器1932和存储介质1930可以是短暂存储或持久存储。存储在存储介质1930的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器1922可以设置为与存储介质1930通信，在服务器1900上执行存储介质1930中的一系列指令操作。

服务器1900还可以包括一个或一个以上电源1926，一个或一个以上有线或无线网络接口1950，一个或一个以上输入输出接口1958，一个或一个以上键盘1956，和/或，一个或一个以上操作系统1941，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器1932，上述指令可由服务器1900的处理器执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

一种非临时性计算机可读存储介质，当所述存储介质中的指令由装置(终端或者服务器)的处理器执行时，使得装置能够执行一种处理方法，所述方法包括：依据语音识别结果，在第一词汇集合中进行查找，以得到所述语音识别结果中包括的、与所述第一词汇集合中第一词汇相匹配的目标词汇；其中，所述第一词汇用于表征适于添加预置标记的词汇；针对所述语音识别结果中的目标词汇添加预置标记；输出添加预置标记后的语音识别结果。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本发明旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

以上对本发明所提供的一种处理方法、一种处理装置、一种用于处理的装置、以及一种机器可读介质，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种处理方法，其特征在于，包括：

针对所述语音识别结果中的目标词汇添加预置标记；

输出添加预置标记后的语音识别结果。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

从语料中获取带有预置标记的词汇；

3.根据权利要求2所述的方法，其特征在于，所述置信概率为依据词汇和预置标记在语料中的共现次数与所述词汇在语料中的出现次数得到。

4.根据权利要求1至3中任一所述的方法，其特征在于，在所述针对所述语音识别结果中的目标词汇添加预置标记之前，所述方法还包括：

对语音识别结果进行分词，以得到对应的分词词汇；

5.根据权利要求1至3中任一所述的方法，其特征在于，在所述针对所述语音识别结果中的目标词汇添加预置标记之前，所述方法还包括：

对语音识别结果进行分词，以得到对应的分词词汇；

6.根据权利要求1至3中任一所述的方法，其特征在于，所述针对所述语音识别结果中的目标词汇添加预置标记，包括：

7.根据权利要求1至3中任一所述的方法，其特征在于，在所述针对所述语音识别结果中的目标词汇添加预置标记之前，所述方法还包括：

8.一种处理装置，其特征在于，包括：

输出模块，用于输出添加预置标记后的语音识别结果。

9.一种用于处理的装置，其特征在于，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

针对所述语音识别结果中的目标词汇添加预置标记；

输出添加预置标记后的语音识别结果。

10.一种机器可读介质，其上存储有指令，当由一个或多个处理器执行时，使得装置执行如权利要求1至7中一个或多个所述的处理方法。