CN114327355A

CN114327355A - 语音输入方法、电子设备以及计算机存储介质

Info

Publication number: CN114327355A
Application number: CN202111658540.5A
Authority: CN
Inventors: 金泽群
Original assignee: iFlytek Co Ltd
Current assignee: University of Science and Technology of China USTC; iFlytek Co Ltd
Priority date: 2021-12-30
Filing date: 2021-12-30
Publication date: 2022-04-12

Abstract

本申请公开了一种语音输入方法、电子设备以及计算机存储介质。该方法包括：接收语音识别引擎对用户输入语音进行语音识别而产生的识别文本；将用户个性化词库中的个性化词条与识别文本进行发音匹配，以获得与识别文本的发音相匹配的个性化候选词条；以及将个性化候选词条呈现给用户。通过获得与识别文本的发音相匹配的个性化候选词条，且将个性化候选词条呈现给用户，本申请可以提供适合用户交互行为和交互习惯的个性化词条，从而减少或方便用户对文本的修改，提升输入效率。

Description

语音输入方法、电子设备以及计算机存储介质

技术领域

本申请涉及语音识别应用技术领域，特别是涉及一种语音输入方法、电子设备以及计算机存储介质。

背景技术

随着语音识别技术日趋成熟，用户在日常生活、工作和学习中使用语音识别输入法进行输入的需求也日益增加。对于人名、专有名词、网络热词、个人交互偏好等具有用户个性化的语音识别需求而言，当前的语音识别输入法的准确度仍然较低。

当前的语音识别输入法往往由在云端的语音识别引擎根据用户的使用场景和环境将一个或多个文本下发至用户终端。在该过程中，语音识别引擎需要根据语音用户使用的环境信息，例如第三方应用程序的标识、访问网站的名称、访问的网站网址、输入场景、通讯对象等，判断当前语音用户的使用场景类别。语音识别引擎随后根据使用场景类别，生成文本中的候选词。对同一个使用场景，现有方案为所有用户产生相同内容的候选词，并不能做到针对每个用户产生有效的个性化候选词。这增加了用户的修改负担，降低了语音识别输入法的输入效率。

如何为每个用户产生符合个人习惯的候选词，成为目前语音识别输入法的一个挑战。

发明内容

本申请提供一种语音输入方法、电子设备以及计算机存储介质。

本申请采用的一个技术方案是提供一种语音输入方法。该方法包括：接收语音识别引擎对用户输入语音进行语音识别而产生的识别文本；将用户个性化词库中的个性化词条与识别文本进行发音匹配，以获得与识别文本的发音相匹配的个性化候选词条；以及将个性化候选词条呈现给用户。

本申请采用的另一个技术方案是提供一种电子设备，该电子设备包括识别文本接收模块、个性化候选词条获得模块以及个性化候选词条呈现模块。其中，识别文本接收模块用于接收语音识别引擎对用户输入语音进行语音识别而产生的识别文本。个性化候选词条获得模块用于将用户个性化词库中的个性化词条与识别文本进行发音匹配，以获得与识别文本的发音相匹配的个性化候选词条。个性化候选词条呈现模块用于将个性化候选词条呈现给用户。

本申请采用的又一个技术方案是提供一种电子设备。该电子设备包括存储器以及与该存储器耦接的处理器。存储器用于存储程序数据。处理器用于执行程序数据以实现上述语音输入方法。

本申请采用的又一个技术方案是提供一种计算机存储介质。该计算机存储介质用于存储程序数据。该程序数据在被计算机执行时，用于实现上述语音输入方法。

本申请的有益效果是：通过获得与识别文本的发音相匹配的个性化候选词条，且将个性化候选词条呈现给用户，本申请可以提供适合用户交互行为和交互习惯的个性化词条，从而降低或方便用户对文本的修改需求，提高输入效率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请提供的语音输入方法一实施例的流程示意图；

图2是图1中所示语音输入方法的步骤S102的流程示意图；

图3是本申请提供的用户个性化词库的一实施例的示意图；

图4是本申请生成发音序列的一实施例的示意图；

图5是本申请发音相似度匹配的一实施例的示意图；

图6是图1中所示语音输入方法的步骤S103的流程示意图；

图7是图1中所示语音输入方法的步骤S105的流程示意图；

图8是本申请提供的电子设备一实施例的结构示意图；

图9是本申请提供的电子设备另一实施例的结构示意图；以及

图10是本申请计算机可读存储介质的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请的一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

由上文的讨论可知，在语音输入技术领域，现有的候选词产生方案需要根据语音用户使用的环境信息，判断当前语音用户的使用场景类别。在实际使用过程中，用户使用场景切换往往较为频繁，不具有使用场景上的稳定性。并且使用场景类别划分是否合理，以及对用户当前输入场景类别判断的准确性，都会对候选词的准确性产生较大影响。且该方案无法做到对每个用户产生有效的个性化候选词。

基于上述技术现状，本申请实施例提出一套用于语音输入方法的技术方案。该方案可以提供适合用户交互行为和交互习惯的个性化词条，从而减少用户对文本的修改或方便用户对文本的修改，提升输入效率。

具体请参见图1，图1是本申请提供的语音输入方法一实施例的流程示意图。本申请实施例的语音输入方法可应用于一种电子设备，其中，电子设备可以为服务器，也可以为终端设备，还可以为由服务器和终端设备相互配合的系统，或者是具有处理能力的器件(如处理器等)。相应地，电子设备所包括的各个部分，例如各个单元、子单元、模块、子模块可以全部设置于服务器中，也可以全部设置于终端设备中，还可以分别设置于服务器和终端设备中。

进一步地，上述服务器可以是硬件，也可以是软件。当服务器为硬件时，可以实现成多个服务器组成的分布式服务器集群，也可以实现成单个服务器。当服务器为软件时，可以实现成多个软件或软件模块，例如用来提供分布式服务器的软件或软件模块，也可以实现成单个软件或软件模块，在此不做具体限定。

在一些实施例中，所述电子设备为终端设备。例如，终端设备为用户使用的移动终端，例如手机、平板电脑、个人PDA设备、手提电脑等。在一些实施例中，终端设备也可以为家用电脑等个人终端。本申请对此不作限定。

具体的，如图1所示，本申请实施例的语音输入方法可以包括以下步骤：

步骤S101：接收语音识别引擎对用户输入语音进行语音识别而产生的识别文本。

语音识别引擎用于对输入的语音信号进行识别并产生识别文本。语音识别引擎可以为商用或开源的语音识别引擎。这些语音识别引擎一般为基于机器学习的语音识别引擎。

在一些实施例中，语音识别引擎为基于云端或服务器的语音识别引擎。本地终端将采集的用户输入语音上传到该语音识别引擎，语音识别引擎随后将识别该输入语音所产生的识别文本返回到本地终端。

在一些实施例中，语音识别引擎也可以为本地语音识别引擎、基于局域网的语音识别引擎或者分布式语音识别引擎，本申请对此不作限制。

在一些实施例中，所产生的识别文本可以具有UTF-8、ANSI或者其他定制加密文本格式。本申请不限制识别文本的具体格式。

步骤S102：将用户个性化词库中的个性化词条与识别文本进行发音匹配，以获得与识别文本的发音相匹配的个性化候选词条。

用户个性化词库为与终端设备ID或者与用户账号ID对应的个性化词库。优选地，用户个性化词库可以为存储在本地终端的词库。在一些实施例中，用户个性化词库也可以存储在云端，尤其是存储在云端语音识别引擎处。在一些实施例中，用户个性化词库也可以为存储在本地终端的词库，但是在云端处有备份。

具体地，参考图3。图3示出用户个性化词库的一实施例。该用户个性化词库包括词条，词条的词频以及时间戳。词条的词频例如为用户在一定时间段内使用对应词条的次数。如图5所示，词条“中远”的词频为1，表示在最近一定时间内(例如，一个月，半年等，具体可以由系统或用户设定)，用户使用词条“中远”的次数为1次。时间戳表示最近一次使用该词条的时间。例如，词条“中远”的时间戳为“1627839112055”，表示最近一次使用词条“中远”的时间为2021年8月2日01:31:52。在图5中，时间戳的格式为JDK格式。本领域技术人员应当理解，时间戳也可以具有其他格式，本申请对此不作限制。

具体地，在用户个性化词库的个性化词条与识别文本之间进行发音匹配，以获得与识别文本的发音相匹配的个性化候选词条。如图2所示，该步骤S102可具体地包括如下步骤：

步骤S21：将识别文本从文本序列转换成发音序列。

具体地，将识别文本的文字或单词转换或映射成对应发音符号。例如，将汉语的汉字或者词语转换成拼音，将英语单词转换为国际音标，将日语转换为罗马音等，本申请不限制具体的发音符号类型。

在一些实施例中，该转换或映射过程可通过发音词典进行。例如，参考图4，对于汉语普通话的识别文本“我跟他吃饭”，在根据发音词典进行映射后，会产生“uo3g en1 tachiii1 fan4”的发音序列。本文并不限制生成发音序列的建模单元以及发音序列的映射方法。

步骤S22：将个性化词条与发音序列进行发音相似度匹配。

具体地，在用户个性化词库中，选取个性化词条进行与发音序列的匹配。如果某个性化词条与识别文本的某个词语发音相似，则认为匹配成功。以上述识别文本“我跟他吃饭”为例，参考图5，若用户个性化词库中存在“跟她”和“跟塔”等发音类似“跟他”的个性化词条，则在识别文本中，“跟他”的位置会出现“跟她”和“跟塔”的候选词。

步骤S23：在个性化词条与发音序列的全部或某一部分的发音相似度大于或等于预设的第一阈值时，将个性化词条作为个性化候选词条。

具体地，计算上述候选词与识别文本的对应部分之间的发音相似度。发音相似度表征候选词与识别文本的对应部分之间的发音距离。发音相似度越大，发音距离越小。该发音相似度可例如经由预设的发音相似度计算模块计算得到，本申请对此不作限制。例如，发音相似度可以由预先训练好的发音混淆矩阵计算。当发音相似度大于第一阈值时，该候选词可作为个性化候选词条。该第一阈值可以由系统预先设置或者由用户定义，本申请对此不作限制。

例如，参考图5，计算候选词“跟她”与识别文本的对应部分“跟他”之间的发音相似度。若所得到的发音相似度大于第一阈值，则将候选词“跟她”作为个性化候选词条。类似地，计算候选词“跟塔”与识别文本的对应部分“跟他”之间的发音相似度。若所得到的发音相似度小于第一阈值，则不将候选词“跟塔”作为个性化候选词条。

步骤S103：对个性化候选词条进行排序。

具体地，当识别文本的某一部分对应多个个性化候选词条时，可以对多个个性化候选词条进行排序。否则，本申请可无需对个性化候选词条进行排序。

举例而言，识别文本的一部分“中原”包括“中远”、“忠源”、“中院”三个个性化候选词条，本申请可以对这三个个性化候选词条进行排序，以确定个性化候选词条之间的显示优先级。通过该排序过程，可以使优先级最高的个性化候选词条尽可能为用户最可能选择的词条，从而方便用户选择词条，提高输入效率。

具体地，如图6所示，在一实施例中，步骤S103包括：

步骤S61：获取个性化候选词条的词条得分。

具体地，词条得分通过个性化候选词条的词频、时间戳和/或个性化候选词条与识别文本的匹配部分之间的发音相似度计算获得。

在一些实施例中，词条得分为个性化候选词条的词频得分、时间戳得分和发音距离得分(也称发音相似度得分)的加权和。

具体地，个性化候选词条的词频得分WS为用户个性化词库中记录的候选词的词频数值。例如，图3中词条“中远”的词频数值为1，则词条“中远”作为个性化候选词条时的词频得分为1。

具体地，个性化候选词条的时间戳得分TS表征该个性化候选词条的最近一次使用时间与当前时间的间隔。该间隔越小，个性化候选词条的时间戳得分越高。例如，个性化候选词条的时间戳得分TS计算公式为

其中，时间戳为个性化候选词条的时间戳。最大时间戳为表征当前时间(例如，计算时间戳得分时的系统时间)。最小时间戳例如为在用户个性化词库中存在的所有词条的最小时间戳。

可选的，最小时间戳表征一个截止时间，在该截止时间之前的词条使用次数不再计入词条的词频。例如，最大时间戳表示2021年12月29日0时0分0秒，用户个性化词库只统计三个月内的词频，则最小时间戳表示2021年9月29日0时0分0秒。在该情形中，最小时间戳可以随着最大时间戳的变化而变化。

具体地，个性化候选词条的发音相似度得分PS可以由预训练的发音混淆矩阵来计算在个性化候选词与识别文本中的对应部分之间的发音相似度得到。在一些实施例中，个性化候选词条的发音相似度得分PS可以经由个性化候选词与识别文本的对应部分之间的发音距离得到。发音距离越大，对应的发音相似度越小。

具体地，对上述词频得分、时间戳得分以及发音相似度得分分别给予不同的权重后进行加权求和，可以得到个性化候选词条的词条得分。即，词条得分FS＝w1*WS+w2*TS+w3*PS。其中，w1、w2和w3分别为与词频得分WS、时间戳得分TS以及发音相似度得分PS对应的权重。

步骤S62：基于词条得分对个性化候选词条进行排序。

具体地，根据步骤S61中所得的词条得分对个性化候选词条进行排序。词条得分越高，对应个性化候选词条的排序越靠前，显示优先级越高。

在一些实施例中，基于上文所述的词条得分对个性化候选词条进行排序。

在一些实施例中，对应识别文本的匹配部分，存在一个候选槽，上述个性化候选词条在候选槽中依次列出。个性化候选词条在候选槽中的显示顺序根据上述词条得分确定。

在一些实施例中，基于词条得分和语言逻辑得分获得综合得分，代替基于词条得分，基于综合得分对个性化候选词条进行排序。

具体地，对于利用个性化候选词条替换识别文本的对应部分后的文本，利用语言模型计算其得分。例如，对于图5的实施例，当利用“跟塔”替换识别文本“我跟他吃饭”中的对应部分“跟他”后，得到新的文本(也称候选词路径)“我跟塔吃饭”。计算该新文本的语言模型得分作为个性化候选词条“跟塔”的语言逻辑得分。

在一些实施例中，语言模型可以是Ngram、LSTM等神经网络语言模型，本申请对此不作限制。

在一些实施例中，基于词条得分和语言逻辑得分获得综合得分。综合得分低于某一阈值的候选词不再显示。例如，将词条得分和语言逻辑得分的加权和作为综合得分。

步骤S105：将个性化候选词条呈现给用户。

在一些实施例中，利用个性化候选词条直接替换识别文本的匹配部分得到第一显示文本。将第一显示文本作为初步优化的结果显示给用户。

例如，识别文本的至少一个部分各自对应于一个或多个个性化候选词条。相应地，可以有多种利用个性化候选词条替换识别文本的路径。本申请可以计算每一种路径的得分，并且将得分最高的路径作为第一显示文本呈现给用户。

例如，对于识别文本“我跟他吃饭”，“跟他”对应于个性化候选词条“跟她”和“跟塔”，则该识别文本总共有两条替换文本的路径“我跟她吃饭”和“我跟塔吃饭”。每条路径的得分可以为该路径中所有个性化候选词条的平均词条得分与该路径的语言逻辑得分之和。

在一些实施例中，在识别文本之外独立呈现个性化候选词条。即，显示原始的识别文本，同时为识别文本的匹配部分显示相应的个性化候选词条。例如，对于识别文本“我跟他吃饭”，可以在“跟他”这一部分显示一个候选槽，在候选槽中显示“跟她”和“跟塔”两个个性化候选词条。

在一些实施例中，用户可以与终端设备交互，从候选槽中选择自己需要的个性化候选词条以修改识别文字。在一些实施例中，当候选槽中没有合适的词条时，用户也可以自己键入词条以修改识别文本。修改结果可以作为第二显示文本上屏显示。

步骤S105：根据用户对识别文本的修改结果，更新用户个性化词库。具体地，参考图7，该步骤S105可包括如下步骤：

S71：获取用户对识别文本的修改结果。

具体地，捕获当前交互过程中，用户对识别文本的修改结果。在一些实施例中，捕获当前交互过程中，语音识别所产生的识别文本以及用户对识别文本的修改结果。例如，在当前交互过程中，识别文本为“中原海空基本上走的是独立行情”，用户对识别文本的修改结果为“中远海控基本上走的是独立行情”。

步骤S72：判断用户对识别文本的修改是否为改变输入语音的交互意图。

所谓改变交互意图，即用户修改后的文本所表达的意思与用户输入语音所表达的意思不同。例如，用户输入语音内容为“预定了今天晚上的餐厅”，用户上屏后的修改结果为“预定了明天晚上的餐厅”。用户的修改结果改变了原来语音输入内容的意思，即可判定为改变交互意图。

若用户的修改为改变输入语音的交互意图，则结束当前方法。即，不执行下文中从修改结果中提取个性化词条的步骤S73。

若用户的修改并没有改变输入语音的交互意图，则继续步骤S73。

具体地，在识别文本和修改结果之间存在以下三种情况中的至少一种时，判定为改变输入语音的交互意图：

1)识别文本和修改结果的长度差异大于或等于预设的第二阈值。

例如，识别文本对应的音节个数为10个，修改结果对应的音节个数为15个，识别文本和修改结果的长度差异过大，即可认为改变输入语音的交互意图。具体地，该第二阈值可以为由系统设置或者用户设置的值，本申请对此不做限制。在一些实施例中，除了音节个数外，长度差异也可以用文本字数等其他方式定义，本申请对此不作限制。

2)识别文本和修改结果的发音相似度差异大于或等于预设的第三阈值。

类似于上文所述，发音相似度可以由预先训练的发音混淆矩阵计算，本申请对此不作限制。在一些实施例中，当识别文本和修改结果的单字发音相似度差异大于或等于预设的第三阈值时，可以判断为改变输入语音的交互意图。例如，用户输入语音内容为“预定了今天晚上的餐厅”，用户上屏后的修改结果为“预定了明天晚上的餐厅”。其中，单字“今”和“明”的发音差异过大，可判定为改变输入语音的交互意图。具体地，该第三阈值可以为由系统设置或者用户设置的其他值，本申请对此不做限制。

3)识别文本和/或修改结果中存在无法从发音字典中查询正确发音的部分。由于无法查询正确的发音，本申请的方法可无法判断用户是否改变输入语音的交互意图，为了避免错误，本申请将该情形作为改变输入语音的交互意图的情形来处理。

步骤S73：从修改结果中提取个性化词条。

具体地，将识别文本和修改结果进行分词，以分别形成多个第一词条和多个第二词条。分词即为将句子分成一个个基本单元(基本词条)。对多个第一词条和多个第二词条进行编辑距离对齐，以形成多个词条对。判断每个词条对中的第一词条和第二词条是否相同，若不同，则将对应的第二词条作为个性化词条。通过该过程，本申请可以抓取用户修改后的词条，这些词条即为用户的个性化词条。

在一些实施例中，利用NGram、LTP、NN等文本分词模型对识别文本和用户修改结果进行分词。本领域技术人员应当理解，本申请并不限制具体地分词方案。

举例而言，当识别文本为“中原海空基本上走的是独立行情”，用户对识别文本的修改结果为“中远海控基本上走的是独立行情”时，识别文本和修改结果的分词结果如表1所示。其中，识别文本被分成多个第一词条(表格中的第一行)，修改结果被分成多个第二词条(表格中的第二行)。第一词条和第二词条被一一对齐。从表1中的对齐结果可以看出，用户将识别文本中的第一词条“中原”修改为修改结果中的第二词条“中远”，将识别文本中的第一词条“海空”修改为修改结果中的第二词条“海控”。因此，可以将抓取的修改词条“中远”和“海控”作为用户的个性化词条。

识别文本

中原

海空

基本

上

走的

是

独立

行情

修改结果

中远

海控

基本

上

走的

是

独立

行情

表1

步骤S74：将个性化词条更新到用户个性化词库。

在一些实施例中，本申请将个性化词条、以及该个性化词条对应的词频和时间戳等信息更新到用户个性化词库中。

例如，对于表1中抓取的个性化词条“中远”，如果用户个性化词库没有该词条，则在用户个性化词库中增加新的词条“中远”。本申请同时还将当前系统的时间戳作为词条“中远”的时间戳，将词条“中远”的出现次数(该情形中为1次)作为词条“中远”的词频。

在一些实施例中，如果在用户个性化词库中已经存在该词条“中远”，则将词条“中远”的词频增加本次出现次数，同时将词条“中远”的时间戳更新为当前系统的时间戳。

在之后的语音用户识别过程中，根据用户的修改行为，本申请可以持续对用户个性化词库进行维护，包括增加词条，更新词频和修改时间戳等。

在一些实施例中，当用户个性化词库中的词条数超过预设的最大值时，可以对用户个性化词库进行清理，删除词库中一定比例的个性化词条。例如，优先清理词频较低、时间戳较小的词条。

在一些实施例中，为了防止错误积累，如果用户将识别文本中存在的某个性化词条修改为其他相同发音的词语时，该个性化词条的词频可减去一定值。例如，在用户个性化词库中存在个性化词条“中远”，当用户将识别文本中的个性化词条“中远”修改为相同发音的其他词时，词条“中远”的词频可以减去一定值，例如减去2。所减去的具体数值可以由用户或系统设置，本申请对此不作限制。

通过该方法，用户个性化词库的内容可随着用户使用的过程不断进行更新和维护，从而对用户使用习惯的变化自适应，提高语音输入效率。

在一些实施例中，可以人工修改用户个性化词库。例如，可以允许用户对用户个性化词库进行添加和/或删除等操作。例如，用户可以将一些自定义词语、网络热词等添加到用户个性化词库中，进一步提高用户输入效率。

由上文可知，本申请通过获得与识别文本的发音相匹配的个性化候选词条，且将个性化候选词条呈现给用户，可提供适合用户交互行为和交互习惯的个性化词条，从而降低或方便用户对文本的修改需求，提高输入效率。

继续参见图8，图8是本申请提供的电子设备一实施例的结构示意图。其中，电子设备800包括识别文本接收模块801、个性化候选词条获得模块802、个性化候选词条呈现模块803。

其中，识别文本接收模块801用于接收语音识别引擎对用户输入语音进行语音识别而产生的识别文本。

其中，个性化候选词条获得模块802用于将用户个性化词库中的个性化词条与识别文本进行发音匹配，以获得与识别文本的发音相匹配的个性化候选词条。

其中，个性化候选词条呈现模块804用于将个性化候选词条呈现给用户。

可选的，电子设备800还包括个性化候选词条排序模块803和/或个性化词库更新模块805。

其中，个性化候选词条排序模块803用于在将个性化候选词条呈现给用户之前对个性化候选词条进行排序。

其中，个性化词库更新模块805用于对个性化词库进行更新。优选地，个性化词库更新模块805用于获取用户对识别文本的修改结果，判断用户对识别文本的修改是否为改变输入语音的交互意图。响应于用户未改变输入语音的交互意图的情形，个性化词库更新模块805从修改结果中提取个性化词条，且将个性化词条更新到用户个性化词库。

请继续参见图9，图9是本申请提供的电子设备另一实施例的结构示意图。本申请实施例的电子设备900包括处理器91、存储器92、输入输出设备93以及总线94。

该处理器91、存储器92、输入输出设备93分别与总线94相连，该存储器92中存储有程序数据，处理器91用于执行程序数据以实现上述实施例所述的语音输入方法。

在本申请实施例中，处理器91还可以称为CPU(Central Processing Unit，中央处理单元)。处理器91可能是一种集成电路芯片，具有信号的处理能力。处理器91还可以是通用处理器、数字信号处理器(DSP，Digital Signal Process)、专用集成电路(ASIC，Application SpecificIntegrated Circuit)、现场可编程门阵列(FPGA，FieldProgrammableGate Array)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器91也可以是任何常规的处理器等。

本申请还提供一种计算机存储介质，请继续参阅图10，图10是本申请提供的计算机存储介质一实施例的结构示意图，该计算机存储介质1000中存储有程序数据11，该程序数据11在被处理器执行时，用以实现上述实施例的语音输入方法。

本申请的实施例以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本申请各个实施方式所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本申请的实施方式，并非因此限制本申请的专利范围，方式利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种语音输入方法，其特征在于，包括：

接收语音识别引擎对用户输入语音进行语音识别而产生的识别文本；

将用户个性化词库中的个性化词条与所述识别文本进行发音匹配，以获得与所述识别文本的发音相匹配的个性化候选词条；以及

将所述个性化候选词条呈现给用户。

2.根据权利要求1所述的语音输入方法，其特征在于，所述将用户个性化词库中的个性化词条与所述识别文本进行发音匹配，包括：

将所述识别文本从文本序列转换成发音序列；

将所述个性化词条与所述发音序列进行发音相似度匹配；以及

在所述个性化词条与所述发音序列的全部或某一部分的发音相似度大于或等于预设的第一阈值时，将所述个性化词条作为所述个性化候选词条。

3.根据权利要求1所述的语音输入方法，其特征在于，所述将所述个性化候选词条呈现给用户之前，进一步包括：

获取所述个性化候选词条的词条得分，其中，所述词条得分通过所述个性化候选词条的词频、时间戳和/或所述个性化候选词条与所述识别文本的匹配部分之间的发音相似度计算获得；

基于所述词条得分对所述个性化候选词条进行排序。

4.根据权利要求3所述的语音输入方法，其特征在于，所述基于所述词条得分对所述个性化候选词条进行排序之前，包括：

获取所述个性化候选词条的语言逻辑得分，其中，所述语言逻辑得分是将所述个性化候选词条替换至所述识别文本后，利用预定的语言模型对替换后的所述识别文本的语言逻辑合理性进行分析获得的；

所述基于所述词条得分对所述个性化候选词条进行排序，包括：

基于所述词条得分和所述语言逻辑得分获得综合得分；

基于所述综合得分对所述个性化候选词条进行排序。

5.根据权利要求1所述的语音输入方法，其特征在于，所述将所述个性化候选词条呈现给用户，包括：

利用所述个性化候选词条直接替换所述识别文本的匹配部分；或者

在所述识别文本之外独立呈现所述个性化候选词条。

6.根据权利要求1所述的语音输入方法，其特征在于，所述方法进一步包括：

获取所述用户对所述识别文本的修改结果；

从所述修改结果中提取所述个性化词条；

将所述个性化词条更新到所述用户个性化词库。

7.根据权利要求6所述的语音输入方法，其特征在于，所述从所述修改结果中提取所述个性化词条之前，包括：

判断所述用户对所述识别文本的修改是否为改变所述输入语音的交互意图；

若为改变所述输入语音的交互意图，则不执行所述从所述修改结果中提取所述个性化词条。

8.根据权利要求7所述的语音输入方法，其特征在于，所述判断所述用户对所述识别文本的修改是否为改变所述输入语音的交互意图，包括：

在所述识别文本和所述修改结果存在以下情况中的至少一种时，判定为改变所述输入语音的交互意图：

所述识别文本和所述修改结果的长度差异大于或等于预设的第二阈值；

所述识别文本和所述修改结果的发音相似度差异大于或等于预设的第三阈值；

所述识别文本和/或所述修改结果中存在无法从发音字典中查询正确发音的部分。

9.根据权利要求6所述的语音输入方法，其特征在于，所述从所述修改结果中提取所述个性化词条，包括：

将所述识别文本和所述修改结果进行分词，以分别形成多个第一词条和多个第二词条；

对所述多个第一词条和多个第二词条进行编辑距离对齐，以形成多个词条对；

判断每个所述词条对中的第一词条和第二词条是否相同；

若不同，则将对应的第二词条作为所述个性化词条。

10.一种电子设备，其特征在于，所述电子设备包括：

识别文本接收模块，用于接收语音识别引擎对用户输入语音进行语音识别而产生的识别文本；

个性化候选词条获得模块，用于将用户个性化词库中的个性化词条与所述识别文本进行发音匹配，以获得与所述识别文本的发音相匹配的个性化候选词条；以及

个性化候选词条呈现模块，用于将所述个性化候选词条呈现给用户。

11.一种电子设备，其特征在于，所述电子设备包括存储器以及与所述存储器耦接的处理器；

其中，所述存储器用于存储程序数据，所述处理器用于执行所述程序数据以实现如权利要求1至9中任一项所述的语音输入方法。

12.一种计算机存储介质，其特征在于，所述计算机存储介质用于存储程序数据，所述程序数据在被计算机执行时，用以实现如权利要求1至9中任一项所述的语音输入方法。