CN105447019A

CN105447019A - 一种基于用户使用场景的输入识别结果校正方法和系统

Info

Publication number: CN105447019A
Application number: CN201410412263.3A
Authority: CN
Inventors: 沈李斌; 雷欣
Original assignee: Beijing Yushanzhi Information Technology Co Ltd
Current assignee: Beijing Yushanzhi Information Technology Co Ltd
Priority date: 2014-08-20
Filing date: 2014-08-20
Publication date: 2016-03-30

Abstract

本发明公开了一种基于用户使用场景的输入识别结果校正方法和系统，其中校正方法包括：针对输入识别结果的词，产生对应的候选校正词集合；基于获取的场景信息，计算该词和对应的候选校正词集合中的各词的特征向量；基于该词和对应的候选校正词集合中的各词的特征向量，计算该词和对应的候选校正词集合中的各词的分数，根据计算出的分数校正输入识别结果。本发明可以有效地提升对输入识别结果校正的准确性。

Description

一种基于用户使用场景的输入识别结果校正方法和系统

技术领域

本发明涉及输入结果校正领域，尤其涉及一种基于用户使用场景的输入识别结果校正方法和系统。

背景技术

现有的输入校正领域，通常采用统计或机器学习的方法，来获取输入校正过程中各个步骤所需的模型，基于模型逐步过滤和得到校正集合。但是这种处理方案由于缺乏针对性，对每个用户的输入进行校正的过程基本是相同的，因而导致校正的准确性不高，例如，接收到不同用户的语音“wuyi”，通过初始识别得到对应的文本为“武义”，可能通通校正成“五一”或“武夷”，即不能根据不同用户提供更具针对性的校正结果。

发明内容

本发明解决的技术问题之一是提升输入识别结果校正的准确率。

根据本发明的一个方面的一个实施例，提供了一种基于用户使用场景的输入识别结果校正方法，其中所述输入识别结果是通过识别用户输入所产生的，所述校正方法包括：

针对输入识别结果的词，产生对应的候选校正词集合；

基于获取的场景信息，计算该词和对应的候选校正词集合中的各词的特征向量；

基于该词和对应的候选校正词集合中的各词的特征向量，计算该词和对应的候选校正词集合中的各词的分数，根据计算出的分数校正输入识别结果。

根据本发明的一个实施例，针对输入识别结果的词产生对应的候选校正词集合的步骤包括：

针对输入识别结果的每个字，在字表中查找邻近字；

根据在字表中查找到的邻近字的组合可能性，产生候选校正词。

根据本发明的一个实施例，针对输入识别结果的每个字在字表中查找邻近字的步骤包括：

如果用户输入是基于语音或拼音的输入，在字表中查找语音上的距离近的字作为邻近字；

如果用户输入是基于字形的输入，在字表中查找字形上的距离近的字作为邻近字。

根据本发明的一个实施例，根据在字表中查找到的邻近字的组合可能性产生候选校正词的步骤包括：使用n-gram语言模型产生候选校正词。

根据本发明的一个实施例，获取的场景信息包括用户查询历史、查询时间、查询地点、周边事件、周边人物、应用使用情况中的一项或多项。

根据本发明的一个实施例，该词和对应的候选校正词集合中的各词的特征向量中的至少一部分特征基于用户查询历史、查询时间、查询地点、周边事件、周边人物、应用使用情况中的一项或多项计算。

根据本发明的一个实施例，计算该词和对应的候选校正词集合中的各词的分数的步骤包括：使用评分函数计算该词和对应的候选校正词集合中的各词的分数。

根据本发明的一个实施例，评分函数的系数是通过语料库的训练获得的。

根据本发明另一个方面的一个实施例，提供了一种基于用户使用场景的输入识别结果校正系统，其中所述输入识别结果是通过识别用户输入所产生的，所述校正系统包括：

候选校正词产生装置，被配置为针对输入识别结果的词，产生对应的候选校正词集合；

计算装置，被配置为基于获取的场景信息，计算该词和对应的候选校正词集合中的各词的特征向量；

识别装置，被配置为基于该词和对应的候选校正词集合中的各词的特征向量，计算该词和对应的候选校正词集合中的各词的分数，根据计算出的分数校正输入识别结果。

根据本发明的一个实施例，候选校正词产生装置被配置为：

针对输入识别结果的每个字，在字表中查找邻近字；

根据本发明的一个实施例，候选校正词产生装置被配置为：

使用n-gram语言模型产生候选校正词。

根据本发明的一个实施例，识别装置被配置为：

使用评分函数计算该词和对应的候选校正词集合中的各词的分数。

与现有技术中针对不同用户基于相同的模型来校正相比，本实施例通过结合获取的场景信息，可以有效地针对不同的用户的输入识别结果进行个性化校正，以提升校正的准确性。

本领域普通技术人员将了解，虽然下面的详细说明将参考图示实施例、附图进行，但本发明并不仅限于这些实施例。而是，本发明的范围是广泛的，且意在仅通过后附的权利要求限定本发明的范围。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1示出根据本发明一个实施例的基于用户使用场景的输入识别结果校正方法的流程图；

图2示出了根据本发明一个实施例的基于用户使用场景的输入识别结果校正系统的示意性框图；

附图中相同或相似的附图标记代表相同或相似的部件。

具体实施方式

下面结合附图对本发明作进一步详细描述。

图1示出根据本发明一个实施例的基于用户使用场景的输入识别结果校正方法的流程图，其中所述输入识别结果是通过识别用户输入所产生的。用户输入的方式可以包括各种输入方式，诸如手写输入和语音输入，在此不作限制。对于其中的手写输入，可以分为字形输入和拼音输入。

对于手写输入的文字，所述输入识别结果即为该输入的文字，例如，用户手写输入的文字为“武艺山上人多吗”，则输入识别结果为“武艺山上人多吗”；对于语音输入的内容，所述输入识别结果即为基于任一前端识别系统识别出的与语音对应的初始文本，例如，用户语音输入的内容为“wuyishanshangrenduoma”，则基于某一前端识别系统识别出的对应初始文本为“武艺山上人多吗”。

根据图1，所述校正方法包括：

步骤S101，针对输入识别结果的词，产生对应的候选校正词集合。在本实施例中，为便于描述，将输入识别结果中的字或词都作为输入识别结果的一个子串来看待，这些子串通过任一已知切词技术得到，在此不作限定。例如，将“武艺山上人多吗”切分为“武艺/山/上/人/多/吗”。针对输入识别结果中的子串，产生对应的候选校正字/词集合，例如对于子串“武艺”，产生对应的候选校正词“五一”。

可选地，针对输入识别结果的词产生对应的候选校正词集合的步骤包括：

针对输入识别结果的每个字/词，在字表中查找邻近字/词；

根据在字/词表中查找到的邻近字/词的组合可能性，产生候选校正字/词。

在本实施例中，对于不同的输入方式，邻近字/词的定义方式是不同的。例如，如果用户输入是基于语音或拼音的输入，在字/词表中查找语音上的距离近的字作为邻近字/词。以拼音的输入内容“yi”为例，在子/词表中查找到语音上距离近的字“以”或/和“已”作为该拼音输入内容的邻近字；

如果用户输入是基于字形的输入，在字表中查找字形上的距离近的字/词作为邻近字/词。以字形输入的内容“已”为例，在子/词表中查找到字形上距离近的字“己”作为该字形输入内容的邻近字。

当然，除通过查找字/词表的方式来生成候选校正字/词集合以外，也可以直接根据用户的查询记录生成可能的候选校正集，举例而言，用户的历史查询记录中出现过“武夷山上人多吗”、“五一山上人多吗”，则当用户输入“武艺”后，生成可能的候选校正集包括“武夷”和“五一”。

可选地，根据在字表中查找到的邻近字的组合可能性产生候选校正词的步骤包括：使用n-gram语言模型产生候选校正词。由于用户输入识别结果中的任一子串对应的候选校正的数量可能是非常多的，为了进一步过滤具有较低对应可能性的候选校正字/词，使用n-gram语言模型进一步过滤得到的候选校正字/词集合。以“wuyishanshangrenduoma”语音输入后得到的初始识别结果“武艺山上人多吗”为例，基于n-gram语言模型分析其中的任一字/词同它前面的字/词出现的概率，例如分析词“山”同它前面的字“武艺”出现的概率，通过将这些子串的概率进行乘积，计算得到该初始识别结果在预定的语料库中出现的概率，同理计算该初始识别结果对应的候选校正字/词在预定的语料库中出现的概率，通过设定一概率阈值，将计算得到的概率低于该阈值的候选校正字/词过滤。当然此处的n-gram语言模型仅用于举例，并不在此限定，还可以基于其他可以实现过滤功能的语言模型来完成上述过程。例如，对于“武”，在字表中查找出邻近字为“五”、“伍”等，对于“艺”，在字表中查找中邻近字为“一”、“夷”、“异”等，通过n-gram语言模型过滤掉“五异”、“伍一”等不常连用的组合，产生候选校正词“五一”、“武夷”。

可选地，所述邻近字/词通过从用户的查询历史中自学习得到，此处的用户包括当前正在操作的用户和其他用户。

步骤S102，基于获取的场景信息，计算该词和对应的候选校正词集合中的各词的特征向量。此处的场景是指用户进行检索时所处的条件和环境，例如说话的地理位置、时间、周围人物是谁、周围活动是什么(在什么活动中说的)、用户终端存储和检测到的其他信息(如终端上各app使用的频率、日历信息)等。可选地，获取的场景信息包括用户查询历史、查询时间、查询地点、周边事件、周边人物、应用使用情况中的一项或多项。

其中的场景信息可以通过以下方式来获取：

对于当前用户的地理位置，通过当前用户终端的定位系统定时上报的地理信息或用户终端自动检测提供的地理信息中获取，典型地，通过实时查询用户终端的定位系统、获得用户终端的短信信息、获得用户终端存储的备忘信息、日历信息中的一项或多项获得。例如，当前用户通过手机发了一条短信“我现在在A公司楼下等你”给其他用户，则根据该短信内容获取其中的地理信息“其公司”，通过查询第三方提供的地图数据，查询与该地理信息“通公司”对应的地理位置。

对于时间，可以通过诸如当前用户终端的定位系统所提供的时间或用户终端的时钟所提供的时间或采集当前用户的当前语音的服务器所提供的时间等多种方式来获取。

对于周边人物，可通过获取其他用户终端自动检测所提供的地理位置或GPS定位信息来确定。例如，当前用户位于“鼎好大厦”，而根据GPS定位信息，获知A、B、C等多个用户位于“鼎好大厦”附近，则将所获知的A、B、C等多个用户作为当前用户的当前周边人物。

另外，周边人物通过识别用户通话中的声音、获得用户终端的短信信息、获得用户终端存储的备忘信息中的一项或多项获得。例如，检测到通话中出现了“老板，我……”，则识别出是与老板说话。周边人物不一定是具体的人，可能是一类身份的人的总称，因为用户可能对于某一类身份的人表现为类似的说话模式。

对于周边活动，同理可通过获取其他用户终端或商户终端自动检测提供的地理位置或GPS定位信息、用户终端存储的活动信息、商户终端提供的活动信息来确定。例如，商户通过终端上的微信发布和分享活动信息，通过获取商户分享的活动信息(包括时间、地点和事件)，并比较该活动信息中的地点与当前用户所处的地理位置的距离，来判断该商户分享的活动是否为当前用户的周边活动。

当然，周边活动也可以通过识别用户通话中的声音、获得用户终端的短信信息、获得用户终端存储的备忘信息中的一项或多项获得。例如，用户的短信中有一条短信“我今天下午2点在B大厦观看剪彩活动”，现在正好是下午2点，可以识别出周边活动为大厦剪彩。

当然，上述场景信息仅为示例，并不限于此，任何可为语言模型的构建提供服务的场景信息都包含于此。

特征向量是词的特征的组合。词的特征是词在某方面表现出的特性，如词流行的程度、该词与输入识别结果中的词文字上的差异等。各词的特征向量通过预设或初始化处理获取各词的特征并计算各词在各特征上的数值来进行，包括诸如该候选校正词流行的程度的数值、该词与输入识别结果中的词文字上的差异等等，在此不作限定。其中流行的程度可以通过计算该词在预定语料库中出现的频次与在预定语料库中出现最多的一个词出现的频次的比值来表示，也可以通过计算该词在预定语料库中出现的频次的对数与在预定语料库中出现最多的一个词出现的频次的对数的比值来表示，在此不作限定。该词与输入识别结果中的词文字上的差异等等，如“武夷”和“武艺”只差一个字，“五一”和“武艺”差两个字。可以基于一个规则将该差异换算成得分，如规定差一个字是0.8分，差两个字是0.5分。

为了针对不同用户进行个性化的校正，该词和对应的候选校正词集合中的各词的特征向量中的至少一部分特征基于用户查询历史、查询时间、查询地点、周边事件、周边人物、应用使用情况中的一项或多项计算。

例如，基于查询历史时，可以通过动态计算该词和候选校正词与查询历史之间的关联程度作为该特征值。

所述关联程度的计算可以通过如下方法来进行：

-将该词、候选校正词或查询历史中的每个词表示成一个200维的词向量。简单举例，将该词“五一”和候选校正词“巫医”分别表示成的词向量为[0.792,0.177,0.109,…]和[0.594,0.333,0.110,…]。以查询历史“谁是哈利波特”为例，将其中的每个词“谁”、“是”、“哈利波特”分别表示成一个200维的词向量。将词表示成多维词向量，可以采用现有技术。

-将查询历史中的每个词的词向量进行均值计算，将平均值作为该查询历史的历史向量。以查询历史“谁是哈利波特”为例，该查询历史的历史向量就是“谁”、“是”、“哈利波特”分别表示成的200维向量每一维取平均后得到的200维向量。

-将该词或某一候选校正词的200维词向量和200维历史向量的点乘作为该词或某一候选校正词与查询历史之间的关联程度。

上述200维仅是示例，也可以是任意其它维数。

例如，特征分量包括3个特征，分别是该词或候选校正词流行的程度的分数、该词或候选校正词与输入识别结果中的词文字上的差异的分数、该词和候选校正词与查询历史之间的关联程度。假设该词是“五一”，候选校正词是“巫医”，对应的特征向量分别为(0.8，1，0.1)和(0.2，0.5，0.9)。即，对于“五一”来说，流行的程度的分数是0.8，由于其就是输入识别结果中的词，与输入识别结果中的词文字上的差异的分数是1，由于“五一”和查询历史之间关系很小，和与查询历史之间的关联程度为0.1。对于“巫医”来说，流行的程度的分数是0.2，与输入识别结果“五一”差2个字，与输入识别结果中的词文字上的差异的分数是0.5，由于与查询历史中的“哈利波特”有一定联系，和与查询历史之间的关联程度为0.9。

同理，可以结合其他场景信息诸如查询时间、查询地点、周边事件、周边人物、应用使用情况中的一项或多项来计算各词的特征。计算相关特征的规则由本领域技术人员根据需求选取。

步骤S103，基于该词和对应的候选校正词集合中的各词的特征向量，计算该词和对应的候选校正词集合中的各词的分数，根据计算出的分数校正输入识别结果。

在得到输入识别结果的词和对应的候选校正词集合中的各词的特征向量后，采用相应的评分函数来计算该输入识别结果的词和对应的候选校正词集合中各词的分数，根据分数的排序或分数是否超过预设的阈值来确定是否对输入识别结果的词进行校正，以及从候选校正词集合中选取哪一个词或哪一些词作为对应的校正结果。当出现两个或两个以上的词在排序上或分数上并不存在先后顺序时，也即这些词不存在校正效果上的优劣排序，则可以将这两个或两个以上的词提供给用户进行手动选择，以更灵活地校正识别后的结果。

可选地，计算该词和对应的候选校正词集合中的各词的分数的步骤包括：使用评分函数计算该词和对应的候选校正词集合中的各词的分数。例如，该评分函数以各词的特征向量作为输入，通过设定或训练获取的系数对各词的特征向量进行线性代数的计算。

例如，假设该词是“五一”，候选校正词是“巫医”，对应的特征向量分别为(0.8，1，0.1)和(0.2，0.5，0.9)。该词或候选校正词流行的程度的分数、该词或候选校正词与输入识别结果中的词文字上的差异的分数、该词和候选校正词与查询历史之间的关联程度对应的系数设置为0.3、0.5、0.1,“五一”的分数为0.8×0.3+1×0.5+0.1×0.1＝0.75,“巫医”的分数为0.2×0.3+0.5×0.5+0.9×0.1＝0.4，则候选校正词“巫医”的分数低于输入识别结果中的词“五一”。该词“五一”保持不变。

以通过训练语料来获取评分函数的分数为例，在本地信息库和/或互联网上实时搜索到一些语料输入到评分函数进行训练，使评分函数的系数针对不同的用户都可以充分反映该用户的个性化语言特点。当然，这仅是举例说明，并不在此做限定，评分函数的参数通过不断训练特定或不定领域的语料而得到改善，当然，评分函数既可以针对单个用户进行个性化调整，也可以针对多个用户进行统一调整。

本实施例中，通过将用户个性化的场景信息融入到识别结果校正的过程中，极大地提高了校正的准确度，更能反映用户的真实检索需求。

本发明的实施例还公开了一种基于用户使用场景的输入识别结果校正系统。请参考图2，图2示出了根据本发明一个实施例的基于用户使用场景的输入识别结果校正系统的示意性框图。如图2所示，所述校正系统包括：

候选校正词产生装置201，被配置为针对输入识别结果的词，产生对应的候选校正词集合。

可选地，候选校正词产生装置201被配置为：

针对输入识别结果的每个字，在字表中查找邻近字；

可选地，候选校正词产生装置201被配置为：

使用n-gram语言模型产生候选校正词。

计算装置202，被配置为基于获取的场景信息，计算该词和对应的候选校正词集合中的各词的特征向量。

其中，所述获取的场景信息包括用户查询历史、查询时间、查询地点、周边事件、周边人物、应用使用情况中的一项或多项。

可选地，该词和对应的候选校正词集合中的各词的特征向量中的至少一部分特征基于用户查询历史、查询时间、查询地点、周边事件、周边人物、应用使用情况中的一项或多项计算。

识别装置203，被配置为基于该词和对应的候选校正词集合中的各词的特征向量，计算该词和对应的候选校正词集合中的各词的分数，根据计算出的分数校正输入识别结果。

可选地，识别装置被配置为：

可选地，评分函数的系数是通过语料库的训练获得的。

所属技术领域的技术人员知道，本发明可以实现为设备、装置、方法或计算机程序产品。因此，本公开可以具体实现为以下形式，即：可以是完全的硬件，也可以是完全的软件，还可以是硬件和软件结合的形式。

附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

Claims

1.一种基于用户使用场景的输入识别结果校正方法，其中所述输入识别结果是通过识别用户输入所产生的，所述校正方法包括：

针对输入识别结果的词，产生对应的候选校正词集合；

2.根据权利要求1所述的输入识别结果校正方法，其中针对输入识别结果的词产生对应的候选校正词集合的步骤包括：

针对输入识别结果的每个字，在字表中查找邻近字；

3.根据权利要求2所述的输入识别结果校正方法，其中针对输入识别结果的每个字在字表中查找邻近字的步骤包括：

4.根据权利要求2所述的输入识别结果校正方法，其中根据在字表中查找到的邻近字的组合可能性产生候选校正词的步骤包括：使用n-gram语言模型产生候选校正词。

5.根据权利要求1所述的输入识别结果校正方法，其中获取的场景信息包括用户查询历史、查询时间、查询地点、周边事件、周边人物、应用使用情况中的一项或多项。

6.根据权利要求5所述的输入识别结果校正方法，其中该词和对应的候选校正词集合中的各词的特征向量中的至少一部分特征基于用户查询历史、查询时间、查询地点、周边事件、周边人物、应用使用情况中的一项或多项计算。

7.根据权利要求1所述的输入识别结果校正方法，其中计算该词和对应的候选校正词集合中的各词的分数的步骤包括：使用评分函数计算该词和对应的候选校正词集合中的各词的分数。

8.根据权利要求7所述的输入识别结果校正方法，其中评分函数的系数是通过语料库的训练获得的。

9.一种基于用户使用场景的输入识别结果校正系统，其中所述输入识别结果是通过识别用户输入所产生的，所述校正系统包括：

10.根据权利要求9所述的输入识别结果校正系统，其中候选校正词产生装置被配置为：

针对输入识别结果的每个字，在字表中查找邻近字；