CN109032375A

CN109032375A - 候选文本排序方法、装置、设备及存储介质

Info

Publication number: CN109032375A
Application number: CN201810694975.7A
Authority: CN
Inventors: 王硕寰; 孙宇; 曾刚
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2018-06-29
Filing date: 2018-06-29
Publication date: 2018-12-18
Anticipated expiration: 2038-06-29
Also published as: CN109032375B

Abstract

本发明实施例公开了一种候选文本排序方法、装置、设备及存储介质。所述方法包括：获取用户输入的拼音片段；对所述拼音片段进行处理，得到与所述拼音片段对应的至少两个候选文本以及与各所述候选文本对应的第一评分；根据各所述候选文本与所述用户的历史输入文本之间的关联性，得到与各所述候选文本对应的第二评分；根据所述第一评分以及所述第二评分，确定各所述候选文本的排列顺序，并按照所述排列顺序，对各所述候选文本进行显示。通过本发明实施例的技术方案，能够提高输入法的个性化效果，提升用户体验。

Description

候选文本排序方法、装置、设备及存储介质

技术领域

本发明实施例涉及输入法技术，尤其涉及一种候选文本排序方法、装置、设备及存储介质。

背景技术

输入法指为了将各种符号输入计算机或其他设备(如手机)而采用的编码方法。汉字输入的编码方法，基本上都是采用将音、形、义与特定的键相联系，再根据不同汉字进行组合来完成汉字的输入的。拼音输入法是最常见和最常用的输入法，它按照拼音规定来输入汉字。

由于汉语的一个拼音，可能会对应多个字或者多个词，例如拼音“dianya”对应了词语“电压”和“典雅”，而不同用户因为身份、职业、时间、语言习惯等原因，在使用过程中，会有不同的词语使用偏好。比如一个工程师可能更希望“电压”排在“典雅”前面，而一个艺术家更希望“典雅”排在前面。因此我们需要对输入法进行个性化。

目前的输入法个性化的做法是，为每一个用户保留个性化词库。当用户在输入法键入某一个拼音，选择一个靠后的词时，会将这次记录存入用户的个性化词库中，当用户再次输入这一拼音时，会适当提高上回用户选择的词的权重，将其排在更合适的位置。该技术本身并没有学出用户的兴趣点，只是记录了用户使用过的词语。

例如，用户在写一篇动物相关的文档时，当已经键入过“长颈鹿”，“老虎”，“狮子”等词语时，用户在第一次键入“xingxing”的拼音时，“星星”、“行星”、“猩猩”等词语的顺序和之前相比并没有变化，而此时用户可能更需要键入“猩猩”而不是“星星”，这样就降低了输入法的个性化效果，降低了用户体验。

发明内容

本发明实施例提供了一种候选文本排序方法、装置、设备及存储介质，以提高输入法的个性化效果，提升用户体验。

第一方面，本发明实施例提供了一种候选文本排序方法，包括：

获取用户输入的拼音片段；

对所述拼音片段进行处理，得到与所述拼音片段对应的至少两个候选文本以及与各所述候选文本对应的第一评分；

根据各所述候选文本与所述用户的历史输入文本之间的关联性，得到与各所述候选文本对应的第二评分；

根据所述第一评分以及所述第二评分，确定各所述候选文本的排列顺序，并按照所述排列顺序，对各所述候选文本进行显示。

第二方面，本发明实施例还提供了一种候选文本排序装置，该装置包括：

拼音获取模块，用于获取用户输入的拼音片段；

第一评分模块，用于对所述拼音片段进行处理，得到与所述拼音片段对应的至少两个候选文本以及与各所述候选文本对应的第一评分；

第二评分模块，用于根据各所述候选文本与所述用户的历史输入文本之间的关联性，得到与各所述候选文本对应的第二评分；

排序显示模块，用于根据所述第一评分以及所述第二评分，确定各所述候选文本的排列顺序，并按照所述排列顺序，对各所述候选文本进行显示。

第三方面，本发明实施例还提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序所述处理器执行所述程序时实现如本发明实施例所述的候选文本排序方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本发明实施例所述的候选文本排序方法。

本发明实施例提供了一种候选文本排序方法、装置、设备及存储介质，通过对用户输入的拼音片段进行处理，得到与该拼音片段对应的至少两个候选文本以及与各候选文本对应的第一评分，再根据各候选文本与用户历史输入文本之间的关联性，得到与各候选文本对应的第二评分，通过第一评分和第二评分确定各候选文本的排列顺序，进而按照该排列顺序对各候选文本进行显示的技术手段，提高了与用户曾经输入的词相关的其他词权重，让输入法更加符合用户的身份，职业，语言习惯和目前的兴趣，从而提高了输入法的个性化效果，提升了用户体验。

附图说明

图1a是本发明实施例一提供的一种候选文本排序方法的流程示意图；

图1b是本发明实施例一适用的一种拼音转汉字的示意图；

图2a是本发明实施例二提供的一种候选文本排序方法的流程示意图；

图2b是本发明实施例二适用的一种机器学习模型的结构示意图；

图2c是本发明实施例二适用的一种评分系统模型的结构示意图；

图3是本发明实施例三提供的一种候选文本排序装置的结构示意图；

图4是本发明实施例四提供的一种计算机设备的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部内容。在更加详细地讨论示例性实施例之前应当提到的是，一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作(或步骤)描述成顺序的处理，但是其中的许多操作可以被并行地、并发地或者同时实施。此外，各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止，但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。

实施例一

图1a为本发明实施例一提供的一种候选文本排序方法的流程图，本实施例可适用于在用户输入拼音片段时为用户提供候选文本的情况，该方法可以由本发明实施例提供的候选文本排序装置来执行，该装置可采用软件和/或硬件的方式实现，并一般可集成在输入法服务器中。如图1a所示，本实施例的方法具体包括：

S110、获取用户输入的拼音片段。

其中，拼音片段可以是用户在使用拼音输入法的过程中输入的一个或多个汉字的拼音或其对应的辅音字母，例如，用户输入的拼音片段可以为“chaxun”或者“chax”或者“chx”或者“cx”等拼音和/或辅音字母的任意组合形式。

S120、对拼音片段进行处理，得到与拼音片段对应的至少两个候选文本以及与各候选文本对应的第一评分。

在本实施例中，由于拼音与汉字之间并不是一一对应的关系，同一拼音可能对应于多个汉字，而汉字可能为多音字，进而同一汉字也可能对应于多个拼音，因此，可根据同一拼音片段获取不同的候选文本，例如，获取的拼音片段为“chaxun”时，得到的多个候选文本可以是“查询”、“查寻”以及“查巡”等。

具体的，对获取的拼音片段进行的处理包括但不限于切分处理和汉字映射处理，以根据同一拼音片段获取多个候选文本以及各候选文本对应的第一评分。其中，第一评分可以是能够表征该拼音片段与候选文本之间关联性大小的评分，由于候选文本都是由单个汉字组成的文本，因此，不同的汉字可组合成不同的候选文本，而越符合汉语用语习惯的组合，可认为是与该拼音片段关联性越大的组合，其候选文本对应的第一评分也就越高。例如，当获取的拼音片段为“diandezuoyongshi”，可得到多个候选文本，如“电的作用是”、“点的作用是”、“店的作用是”等，而根据汉语用语习惯，多数用户选择“电的作用是”和“点的作用是”这两个候选文本的概率要比选择“店的作用是”这个候选文本的概率大，因此，这两个候选文本对应的第一评分对应就会高于其他候选文本。

在本实施例的一个可选的实施方式中，对拼音片段进行处理，得到与拼音片段对应的至少两个候选文本以及与各候选文本对应的第一评分，具体可以包括：按照拼音表对拼音片段进行切分处理，得到与拼音片段对应的至少一个切分结果；将至少一个切分结果输入至预先训练的音字转换模型中，得到至少两个候选文本以及与各候选文本对应的第一评分。

其中，切分处理可以是以拼音表中包含的各个拼音为最小切分单元，对拼音片段进行切分，得到一个或多个拼音集合，作为切分结果。举一个实际例子，拼音表中包含有“dian”、“di”、“an”、“de”、“zuo”、“yong”以及“shi”，则对拼音片段“diandezuoyongshi”进行切分处理后，可得到两个切分结果：“dian’de’zuo’yong’shi”以及“di’an’de’zuo’yong’shi”。

本实施例中经训练的音字转换模型可用于对输入的拼音和/或辅音(也即切分结果)进行汉字识别，以获取对应的文本及其概率。例如，如图1b所示的拼音转汉字示意图，经过音字转换模型，可将输入的“cha/ch/c’yi/y’xia/x’tian/t’qi/q”，识别为“查一下天气”。可选的，对于输入的每一个切分结果，可通过在音字转换模型中使用Beam Search算法，筛选出与该切分结果对应的概率最高的至少两个候选文本，以及与各候选文本对应的概率(也即第一评分)，其中，BeamSearch是序列生成和序列标注过程中求出最优k个结果的算法，这里不再赘述。例如，通过Beam Search算法，可使得输入至音字转换模型中的“dian’de’zuo’yong’shi”，输出为“电的作用是”及其概率0.321、“点的作用是”及其概率0.300、“店的作用是”及其概率0.134。

可选的，在将至少一个切分结果输入至预先训练的音字转换模型中，得到至少两个候选文本以及与各候选文本对应的第一评分之前，可采用预设机器学习算法对训练模型进行训练，以获取音字转换模型，具体进行训练的过程可以包括：首先收集含有汉字及其对应注音的语料样本。其中，汉字包括但不限于从网页文本、小说文本、搜索词语等采集到的文字信息。汉字的拼音通过汉字拼音对照表查询得到。对于有一字对应多音的情况，可基于前后字为特征，构建最大熵模型，进而得到其注音。然后，利用获取的语料样本对循环神经网络(Recurrent Neural Network，RNN)模型进行训练，训练中使用反向传播(Error BackPropagation，BP)算法优化模型中的参数，音字转换模型即为参数最优时的RNN模型。其中，RNN模型可使用长短期记忆网络(Long Short-Term Memory，LSTM)或广义回归神经网络(Gated Recurrent Neural Network，GRNN)等结构。

进一步的，音字转换模型可以包括：顺序相连的语义表示层、循环神经网络层、Softmax层以及条件随机场层。

其中，语义表示层为Embedding层，用于将拼音转换为单个拼音向量(也即前后无联系的拼音向量)；RNN层，用于将单个拼音向量转换为语义向量(也即前后有联系的拼音向量)；Softmax层，用于将语义向量解码为对应的汉字；另外，还可加入条件随机场(Conditional Random Field，CRF)层，用于将汉字之间的转移概率加入模型中，使得识别过程中考虑到字与字之间的联系，从而提高短句的识别准确率。可选的，可在Softmax层与CRF层使用Beam Search算法，使输出的文本不仅仅是概率最高的一个文本，而是概率最高的前k(k≥2)个文本，作为候选文本。在将拼音输入至语义表示层之前，可首先对拼音的每个字母进行ID化，也即按照预设的字母ID对照表将拼音字母对应转换为计算机能够识别的字符代码。

S130、根据各候选文本与用户的历史输入文本之间的关联性，得到与各候选文本对应的第二评分。

在本实施例中，由于每个用户的身份，职业，语言习惯和目前的兴趣不同，其所需要被推荐的候选文本可能会不一样，为了节省用户使用拼音输入法时相关汉字的查找时间，需要结合用户的历史输入文本，进行综合考量后，对候选文本进行个性化排序，并推荐给用户，以提高用户体验。

示例性的，当候选文本确定后，可依次根据各候选文本与用户的历史输入文本的关联性，获取与各候选文本对应的第二评分。其中，历史输入文本可以是预设时间段内或预设次数内，用户使用输入法时选择过的文字信息。

具体的，若候选文本与用户的历史输入文本之间的关联性越高，则该候选文本对应的第二评分也就越高；反之则越低。例如，当获取的用户最近一段时间内的历史输入文本中包括“长颈鹿”，“老虎”，“狮子”等词语时，用户在第一次键入“xingxing”的拼音时，对各候选文本“星星”、“行星”、“猩猩”进行第二评分，由于候选文本“猩猩”与“长颈鹿”，“老虎”，“狮子”的关联性更高，因此，候选文本“猩猩”的第二评分要高于其他候选文本。

S140、根据第一评分以及第二评分，确定各候选文本的排列顺序，并按照排列顺序，对各候选文本进行显示。

具体的，可将第一评分与第二评分进行加权求和，例如采用如下公式计算各候选文本的最终评分：

其中，Pinyin_score_i为第i个候选文本对应的第一评分；Similarity_score_i为第i个候选文本对应的第二评分；Final_score_i为第i个候选文本对应的最终评分；为可调节参数，可根据实际需要进行设置，用于调节第一评分与第二评分之间的权重。

在一个具体的例子中：如果希望拼音片段的与汉字文本的相似度的重要性高于拼音片段与历史输入文本的相似度，则可以将的取值范围设置为如果希望拼音片段的与汉字文本的相似度的重要性低于拼音片段与历史输入文本的相似度，则可以将取值范围设置为如果希望拼音片段的与汉字文本的相似度的重要性等同于拼音片段与历史输入文本的相似度，则可以将取值范围设置为

最终，按照Final_score_i的高低将各候选文本从前到后依次进行排序，并在输入法的候选文本显示框中按照该排序对各候选文本进行显示，从而推荐给用户。

本发明实施例提供了一种候选文本排序方法，通过对用户输入的拼音片段进行处理，得到与该拼音片段对应的至少两个候选文本以及与各候选文本对应的第一评分，再根据各候选文本与用户历史输入文本之间的关联性，得到与各候选文本对应的第二评分，通过第一评分和第二评分确定各候选文本的排列顺序，进而按照该排列顺序对各候选文本进行显示的技术手段，提高了与用户曾经输入的词相关的其他词权重，让输入法更加符合用户的身份，职业，语言习惯和目前的兴趣，从而提高了输入法的个性化效果，提升了用户体验。

实施例二

图2a为本发明实施例二提供的一种候选文本排序方法的流程图，本实施例以上述实施例为基础进行具体化。在本实施例中，将根据各候选文本与用户的历史输入文本之间的关联性，得到与各候选文本对应的第二评分进一步优化为，包括：按照输入时间对用户的历史输入文本进行抽样，得到参考历史文本集；分别计算各候选文本与参考历史文本集之间的相似度得分作为第二评分。

相应的，本实施例的方法包括：

S210、获取用户输入的拼音片段。

S220、对拼音片段进行处理，得到与拼音片段对应的至少两个候选文本以及与各候选文本对应的第一评分。

S230、按照输入时间对用户的历史输入文本进行抽样，得到参考历史文本集。

示例性的，输入法系统会自动记录用户每次输入的文本，及其对应的输入时间，在获取历史输入文本时，可从该记录中按照预设抽取方式进行抽取，例如抽取设定时间段内记录的所有历史输入文本，组成参考历史文本集。

获取参考历史文本集的目的在于，抽取多个历史输入文本，增加可参考历史记录，以根据候选文本与多个历史输入文本之间的综合关联性，来获取候选文本的第二评分，提高评分的准确性。

可选的，按照输入时间对用户的历史输入文本进行抽样，得到参考历史文本集，包括：按照预设的时长值，获取以当前系统时间为时间终点的，设定时长的历史时间区间；获取用户在历史时间区间内输入的全部的历史输入文本，并将获取的历史输入文本按照输入时间的先后顺序进行排序；根据所述排序结果，对全部所述历史输入文本进行不等概率抽样，得到所述参考历史文本集；其中，一个历史输入文本的输入时间距离所述当前系统时间越近，对应的抽样概率越大。

由于最近一段时间内记录的历史输入文本最能够体现出用户最近的兴趣点，因此，可在获取参考历史文本集时适当增大抽取离当前系统时间最近的一段时间内的历史输入文本的比例。

示例性的，可从记录的用户历史输入文本中随机抽样n个历史输入文本，具体可按照距离当前系统时间加权抽样，也即输入时间越接近当前系统时间的历史输入样本被抽取的几率越大，这样能够让用户最近的兴趣点的权重更大，进而更关注于用户最近的兴趣点。

S240、分别计算各候选文本与参考历史文本集之间的相似度得分作为第二评分。

示例性的，每个候选文本与参考历史文本集之间均可按照预设算法计算对应的相似度得分，其中，候选文本与参考历史文本集之间的相似度越高，说明该候选文本更符合用户当前的兴趣点，因此其相似度得分也就越高；反之则说明该候选文本不符合用户当前的兴趣点，因此其相似度得分也就越低。具体的，预设算法包括但不限于机器学习算法。通过学习用户当前的兴趣点，预测用户可能会更趋向于选择哪个候选文本，从而为该候选文本匹配更高的第二评分。

可选的，计算各候选文本与参考历史文本集之间的相似度得分，包括：在参考历史文本集中获取一个参考历史文本作为目标历史文本；将候选文本与目标历史文本共同输入至预先训练的语义相似度模型中，得到候选文本与目标历史文本的局部相似度；返回执行在参考历史文本集中获取一个参考历史文本作为目标历史文本，直至完成对参考历史文本集中全部参考历史文本的处理；将处理结束后，得到的各局部相似度进行加权求和，得到与候选文本对应的相似度得分。

其中，预先训练的语义相似度模型可用于对输入的候选文本以及目标历史文本进行相似度识别，进而输出得到二者的相似度概率，也即局部相似度，例如，语义相似度模型可将输入的候选文本“星星”与目标历史文本“长颈鹿”，输出为一个具体的分数值(或概率值)，以此类推，直至将所有参考历史文本集中全部参考历史文本(例如“老虎”、“狮子”等)均依次与候选文本“星星”输入至语义相似度模型，以输出为对应的具体的分数值。最后，可利用下述公式对各局部相似度进行加权求和，得到与该候选文本对应的相似度得分：

其中，Candidate_i为第i个候选文本；History_j为第j个参考历史文本；n为参考历史文本集中的参考历史文本个数。

可选的，在将候选文本与目标历史文本共同输入至预先训练的语义相似度模型中，得到候选文本与目标历史文本的局部相似度之前，还包括：获取至少两条用户的点击行为日志，点击行为日志包括：用户输入的搜索式，基于搜索式召回的URL集合，以及用户基于URL集合选择的目标URL；根据用户点击行为日志中，用户输入的搜索式以及与目标URL对应的文本信息，构造正例样本；根据用户点击行为日志中，用户输入的搜索式以及基于搜索式召回的URL集合中除去目标URL之外的无效URL对应的文本信息，构造负例样本；根据构造的正例样本以及负例样本对设定机器学习模型进行训练，得到语义相似度模型。

举一个具体的例子，用户在搜索引擎中输入搜索式Query时，搜索引擎会返回多条统一资源定位符(Uniform Resource Locator，URL)，用户会点击部分URL。这些被点击的URL所对应的文本信息(例如标题Title)和用户输入的Query在语义上比没有被点击的URL所对应的Title更相关。同时点击相同URL的Query之间意思也更加相近。因此，可利用这些数据对设定机器学习模型进行训练，以得到语义相似度模型。

其中，设定机器学习模型可以是词袋(Bag of word，BOW)模型，也可以是RNN模型，还可以是卷积神经网络(Convolutional Neural Network，CNN)模型等。具体的，可采用BP算法对正负例样本进行成对训练，尽可能拉开正例Title和负例Title对应输出结果之间的相似程度，也即优化损失函数HingeLoss，其中，损失函数可采用如下公式计算：

其中，a为常数，例如a可为0.1；Title_-为负例样本对应的文本信息；Title₊为正例样本对应的文本信息。

可选的，如图2b所示，设定机器学习模型包括：第一语义表示层61，与第一语义表示层相连的第一全连接层62，第二语义表示层63，与第二语义表示层相连的第二全连接层64，以及分别与第一全连接层62以及第二全连接层64相连的相似度计算层65；第一语义表示层61与第二语义表示层63的结构不同；第一语义表示层61用于接收正例样本或者负例样本中的搜索式，第二语义表示层63用于接收正例样本或者负例样本中的文本信息。

具体的，对设定机器学习模型的训练过程中，可使用单个词Unigram、双词Bigram等特征，经一层语义表示层(例如Embedding层)，将文字转变为特征向量，其中，Query端和Title端使用不同的表示层，也即Query端使用第一语义表示层，Title端使用第二语义表示层。再经全连接层(Fully Connected Layer，FC层)后，得到整个句子的特征向量，最后经过相似度计算层，计算Query与Title之间的相似度，例如在相似度计算层中利用cosine分别计算Query与正例Title，以及Query与负例Title的相似度，采用BP算法进行Pairwise训练，从而尽可能拉大正例Title和负例Title之间的相似度。

本实施例中由于Query和Title之间的特征提取方式并不相同，一个是用户输入的，一个是URL对应的标题，因此，第一语义表示层与第二语义表示层的结构是不相同的。

相应的，根据构造的正例样本以及负例样本对设定机器学习模型进行训练，得到语义相似度模型，包括：根据构造的正例样本以及负例样本对设定机器学习模型进行训练；在满足结束训练条件时，使用机器学习模型中的第一语义表示层替换第二语义表示层，或者，使用机器学习模型中的第二语义表示层替换第一语义表示层，得到语义相似度模型。

其中，结束训练条件可以为机器学习模型中的参数达到最优，也即模型的相似度识别准确率达到预设阈值。将机器学习模型中的第一语义表示层和第二语义表示层统一为同一结构类型的表示层的好处在于，使得到的语义相似度模型在使用时，采用统一的特征向量转换方式对候选文本以及参考历史文本进行特征向量的转换，从而提高后续处理的准确性，以及整个语义相似度模型的相似度识别准确率。

举一个具体的实际例子，使用如图2c所示的评分系统模型示意图，用户输入的拼音片段为“diandezuoyongshi”，经音字转换模型5输出为“电的作用是”及其第一评分0.321、“点的作用是”及其第一评分0.300、“店的作用是”及其第一评分0.134、“堤岸的作用是”及其第一评分0.203、“迪安的作用是”及其第一评分0.055、“迪安的坐拥是”及其第一评分0.042等。另外，从用户的历史输入文本中抽样得到参考历史文本集，其中包括“防水建筑”、“城市的设计原理”、“明天早上八点半”、“城市景观学”等参考历史文本。将各候选文本以及各参考历史文本一起输入至语义相似度模型6中，得到各候选文本对应的第二评分，也即“电的作用是”对应的第二评分为0.200、“点的作用是”及其第一评分0.153、“店的作用是”及其第一评分-0.050、“堤岸的作用是”及其第一评分0.420、“迪安的作用是”及其第一评分-0.153、“迪安的坐拥是”及其第一评分-0.123等，将两个评分相加后可看出，本来推荐给用户的候选文本中排名第一位的是“电的作用是”，但是考虑到与用户兴趣点的相关性后，用户目前输入的文本和建筑设计的关系更高，所以候选文本中排名第一位的改为“堤岸的作用”。

S250、根据第一评分以及第二评分，确定各候选文本的排列顺序，并按照排列顺序，对各候选文本进行显示。

本发明实施例的技术方案根据用户的历史输入文本抽样得到的参考历史文本集，计算各候选文本与参考历史文本集之间的相似度得分，作为第二评分，结合获取的第一评分和第二评分，来确定各候选文本的排列顺序，提高了与用户曾经输入的词相关的其他词权重，使得候选文本的推荐更加个性化，推荐的文字也更符合用户的兴趣点，节省用户查找目标文字的时间，提升了用户体验。

实施例三

图3为本发明实施例三提供的一种候选文本排序装置的结构示意图，如图3所示，所述装置包括：拼音获取模块310、第一评分模块320、第二评分模块330以及排序显示模块340。

拼音获取模块310，用于获取用户输入的拼音片段；

第一评分模块320，用于对所述拼音片段进行处理，得到与所述拼音片段对应的至少两个候选文本以及与各所述候选文本对应的第一评分；

第二评分模块330，用于根据各所述候选文本与所述用户的历史输入文本之间的关联性，得到与各所述候选文本对应的第二评分；

排序显示模块340，用于根据所述第一评分以及所述第二评分，确定各所述候选文本的排列顺序，并按照所述排列顺序，对各所述候选文本进行显示。

本发明实施例提供了一种候选文本排序装置，通过对用户输入的拼音片段进行处理，得到与该拼音片段对应的至少两个候选文本以及与各候选文本对应的第一评分，再根据各候选文本与用户历史输入文本之间的关联性，得到与各候选文本对应的第二评分，通过第一评分和第二评分确定各候选文本的排列顺序，进而按照该排列顺序对各候选文本进行显示的技术手段，提高了与用户曾经输入的词相关的其他词权重，让输入法更加符合用户的身份，职业，语言习惯和目前的兴趣，从而提高了输入法的个性化效果，提升了用户体验。

进一步的，第一评分模块320具体可以用于：

按照拼音表对所述拼音片段进行切分处理，得到与所述拼音片段对应的至少一个切分结果；

将所述至少一个切分结果输入至预先训练的音字转换模型中，得到至少两个候选文本以及与各所述候选文本对应的第一评分。

进一步的，所述音字转换模型包括：顺序相连的语义表示层、循环神经网络层、Softmax层以及条件随机场层。

进一步的，第二评分模块330可以包括：

文本抽样子模块，用于按照输入时间对所述用户的历史输入文本进行抽样，得到参考历史文本集；

相似度计算子模块，用于分别计算各所述候选文本与所述参考历史文本集之间的相似度得分作为所述第二评分。

进一步的，相似度计算子模块可以包括：

文本获取单元，用于在所述参考历史文本集中获取一个参考历史文本作为目标历史文本；

模型输入单元，用于将所述候选文本与所述目标历史文本共同输入至预先训练的语义相似度模型中，得到所述候选文本与所述目标历史文本的局部相似度；

返回执行单元，用于返回执行在所述参考历史文本集中获取一个参考历史文本作为目标历史文本，直至完成对所述参考历史文本集中全部参考历史文本的处理；

加权求和单元，用于将处理结束后，得到的各所述局部相似度进行加权求和，得到与所述候选文本对应的相似度得分。

进一步的，相似度计算子模块还可以包括：

日志获取单元，用于在将所述候选文本与所述目标历史文本共同输入至预先训练的语义相似度模型中，得到所述候选文本与所述目标历史文本的局部相似度之前，获取至少两条用户的点击行为日志，所述点击行为日志包括：用户输入的搜索式，基于所述搜索式召回的URL集合，以及用户基于所述URL集合选择的目标URL；

正例构造单元，用于根据所述用户点击行为日志中，用户输入的搜索式以及与目标URL对应的文本信息，构造正例样本；

负例构造单元，用于根据所述用户点击行为日志中，用户输入的搜索式以及基于所述搜索式召回的URL集合中除去所述目标URL之外的无效URL对应的文本信息，构造负例样本；

模型训练单元，用于根据构造的所述正例样本以及所述负例样本对设定机器学习模型进行训练，得到所述语义相似度模型。

进一步的，所述设定机器学习模型包括：第一语义表示层，与所述第一语义表示层相连的第一全连接层，第二语义表示层，与所述第二语义表示层相连的第二全连接层，以及分别与所述第一全连接层以及所述第二全连接层相连的相似度计算层；所述第一语义表示层与所述第二语义表示层的结构不同；

所述第一语义表示层用于接收所述正例样本或者所述负例样本中的搜索式，所述第二语义表示层用于接收所述正例样本或者所述负例样本中的文本信息；

相应的，模型训练单元具体可以用于：

根据构造的所述正例样本以及所述负例样本对设定机器学习模型进行训练；

在满足结束训练条件时，使用所述机器学习模型中的第一语义表示层替换第二语义表示层，或者，使用所述机器学习模型中的第二语义表示层替换第一语义表示层，得到所述语义相似度模型。

进一步的，文本抽样子模块具体可以包括：

按照预设的时长值，获取以当前系统时间为时间终点的，设定时长的历史时间区间；

获取所述用户在所述历史时间区间内输入的全部的历史输入文本，并将获取的所述历史输入文本按照输入时间的先后顺序进行排序；

根据所述排序结果，对全部所述历史输入文本进行不等概率抽样，得到所述参考历史文本集；

其中，一个历史输入文本的输入时间距离所述当前系统时间越近，对应的抽样概率越大。

上述候选文本排序装置可执行本发明任意实施例所提供的候选文本排序方法，具备执行候选文本排序方法相应的功能模块和有益效果。

实施例四

图4为本发明实施例四提供的一种计算机设备的结构示意图。图4示出了适于用来实现本发明实施方式的示例性计算机设备12的框图。图4显示的计算机设备12仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图4所示，计算机设备12以通用计算设备的形式表现。计算机设备12的组件可以包括但不限于：一个或者多个处理器或者处理单元16，系统存储器28，连接不同系统组件(包括系统存储器28和处理单元16)的总线18。

总线18表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(ISA)总线，微通道体系结构(MAC)总线，增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。

计算机设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备12访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

系统存储器28可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(RAM)30和/或高速缓存存储器32。计算机设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统34可以用于读写不可移动的、非易失性磁介质(图4未显示，通常称为“硬盘驱动器”)。尽管图4中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如CD-ROM，DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本发明各实施例的功能。

具有一组(至少一个)程序模块42的程序/实用工具40，可以存储在例如存储器28中，这样的程序模块42包括——但不限于——操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。

计算机设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信，还可与一个或者多个使得用户能与该计算机设备12交互的设备通信，和/或与使得该计算机设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且，计算机设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器20通过总线18与计算机设备12的其它模块通信。应当明白，尽管图4中未示出，可以结合计算机设备12使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

处理单元16通过运行存储在系统存储器28中的程序，从而执行各种功能应用以及数据处理，例如实现本发明各实施例所提供的候选文本排序方法。也即，所述处理单元执行所述程序时实现：获取用户输入的拼音片段；对所述拼音片段进行处理，得到与所述拼音片段对应的至少两个候选文本以及与各所述候选文本对应的第一评分；根据各所述候选文本与所述用户的历史输入文本之间的关联性，得到与各所述候选文本对应的第二评分；根据所述第一评分以及所述第二评分，确定各所述候选文本的排列顺序，并按照所述排列顺序，对各所述候选文本进行显示。

实施例五

本发明实施例五提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本申请所有发明实施例提供的候选文本排序方法。也即，该程序被处理器执行时实现：获取用户输入的拼音片段；对所述拼音片段进行处理，得到与所述拼音片段对应的至少两个候选文本以及与各所述候选文本对应的第一评分；根据各所述候选文本与所述用户的历史输入文本之间的关联性，得到与各所述候选文本对应的第二评分；根据所述第一评分以及所述第二评分，确定各所述候选文本的排列顺序，并按照所述排列顺序，对各所述候选文本进行显示。

可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于——无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言-诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言-诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)-连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种候选文本排序方法，其特征在于，包括：

获取用户输入的拼音片段；

2.根据权利要求1所述的方法，其特征在于，对所述拼音片段进行处理，得到与所述拼音片段对应的至少两个候选文本以及与各所述候选文本对应的第一评分，包括：

3.根据权利要求2所述的方法，其特征在于，所述音字转换模型包括：顺序相连的语义表示层、循环神经网络层、Softmax层以及条件随机场层。

4.根据权利要求1所述的方法，其特征在于，根据各所述候选文本与所述用户的历史输入文本之间的关联性，得到与各所述候选文本对应的第二评分，包括：

按照输入时间对所述用户的历史输入文本进行抽样，得到参考历史文本集；

分别计算各所述候选文本与所述参考历史文本集之间的相似度得分作为所述第二评分。

5.根据权利要求4所述的方法，其特征在于，计算各所述候选文本与所述参考历史文本集之间的相似度得分，包括：

在所述参考历史文本集中获取一个参考历史文本作为目标历史文本；

将所述候选文本与所述目标历史文本共同输入至预先训练的语义相似度模型中，得到所述候选文本与所述目标历史文本的局部相似度；

返回执行在所述参考历史文本集中获取一个参考历史文本作为目标历史文本，直至完成对所述参考历史文本集中全部参考历史文本的处理；

将处理结束后，得到的各所述局部相似度进行加权求和，得到与所述候选文本对应的相似度得分。

6.根据权利要求5所述的方法，其特征在于，在将所述候选文本与所述目标历史文本共同输入至预先训练的语义相似度模型中，得到所述候选文本与所述目标历史文本的局部相似度之前，还包括：

获取至少两条用户的点击行为日志，所述点击行为日志包括：用户输入的搜索式，基于所述搜索式召回的URL集合，以及用户基于所述URL集合选择的目标URL；

根据所述用户点击行为日志中，用户输入的搜索式以及与目标URL对应的文本信息，构造正例样本；

根据所述用户点击行为日志中，用户输入的搜索式以及基于所述搜索式召回的URL集合中除去所述目标URL之外的无效URL对应的文本信息，构造负例样本；

根据构造的所述正例样本以及所述负例样本对设定机器学习模型进行训练，得到所述语义相似度模型。

7.根据权利要求6所述的方法，其特征在于，所述设定机器学习模型包括：第一语义表示层，与所述第一语义表示层相连的第一全连接层，第二语义表示层，与所述第二语义表示层相连的第二全连接层，以及分别与所述第一全连接层以及所述第二全连接层相连的相似度计算层；所述第一语义表示层与所述第二语义表示层的结构不同；

相应的，根据构造的所述正例样本以及所述负例样本对设定机器学习模型进行训练，得到所述语义相似度模型，包括：

8.根据权利要求4所述的方法，其特征在于，按照输入时间对所述用户的历史输入文本进行抽样，得到参考历史文本集，包括：

9.一种候选文本排序装置，其特征在于，包括：

拼音获取模块，用于获取用户输入的拼音片段；

10.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-8中任一所述的候选文本排序方法。

11.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-8中任一所述的候选文本排序方法。