CN115221873B

CN115221873B - 输入词汇的补全方法、装置、设备及存储介质

Info

Publication number: CN115221873B
Application number: CN202211140396.0A
Authority: CN
Inventors: 谢国斌; 徐约可; 马明; 徐领
Original assignee: Shenzhen Dadaoyun Technology Co ltd
Current assignee: Shenzhen Dadaoyun Technology Co ltd
Priority date: 2022-09-20
Filing date: 2022-09-20
Publication date: 2023-01-17
Anticipated expiration: 2042-09-20
Also published as: CN115221873A

Abstract

本发明涉及文本预测领域，公开了一种输入词汇的补全方法、装置、设备及存储介质。该方法包括：接收用户输入的词汇，分析词汇在输入文本中的位置，得到位置向量；根据预置词汇映射矩阵，对词汇进行检索处理，得到词汇向量；根据预置权重混合算法，将位置向量和词汇向量进行权重叠加处理，得到权重特征向量；将权重特征向量与词汇映射矩阵进行逐行卷积处理，得到词汇预测概率分布；根据概率数值，从词汇预测概率分布中筛选出预置排序数量对应的词汇，得到补全词汇集。

Description

输入词汇的补全方法、装置、设备及存储介质

技术领域

本发明涉及文本预测领域，尤其涉及一种输入词汇的补全方法、装置、设备及存储介质。

背景技术

项目管理软件在使用过程中，存在大量的文字录入工作，这些工作消耗大量的工作时间，降低了工作效率。

市面上的常用项目管理软件，主要是在统计用户的使用拼音输入频率和学习用户输入拼音输出词汇时的频次，以及对输入拼音的进行联想处理，在一定程度上降低了用户出错的概率，减少了用户输入文字的强度。

但是，现有技术根据用户的使用习惯将输入文字进行推测词汇并不能很好的适应高速输入的场景，人工依旧需要根据推荐进行修正选择。当前软件只能基于用户输入的拼音字符本身推导拼音字符对应的词汇，而对于词汇后的相关文本并不涉及预测补全的功能。因此，针对当前输入软件未能预测词汇辅助输入文字信息，以便提高输入的效率和速度，需要一种新的技术来解决当前输入文字软件不能适应文字录入工作的效率要求的问题。

发明内容

本发明的主要目的在于解决当前输入文字软件不能适应文字录入工作的效率要求的技术问题。

本发明第一方面提供了一种输入词汇的补全方法，所述输入词汇的补全方法包括：

接收用户输入的词汇，分析所述词汇在输入文本中的位置，得到位置向量；

根据预置词汇映射矩阵，对所述词汇进行检索处理，得到词汇向量；

根据预置权重混合算法，将所述位置向量和所述词汇向量进行权重叠加处理，得到权重特征向量；

将所述权重特征向量与所述词汇映射矩阵进行逐行卷积处理，得到词汇预测概率分布；

根据概率数值，从所述词汇预测概率分布中筛选出预置排序数量对应的词汇，得到补全词汇集。

可选的，在本发明第一方面的第一种实现方式中，所述根据预置权重混合算法，将所述位置向量和所述词汇向量进行权重叠加处理，得到权重特征向量包括：

将所述位置向量和所述词汇向量进行相加处理，得到初级向量；

读取所述输入文本中词汇对应的权重特征向量，按照所述输入文本的词汇顺序，叠加所有权重特征向量和所述初级向量，得到编码矩阵；

将所述编码矩阵与预置顺序激活矩阵卷积，得到文本词汇相关度分布；

根据所述文本词汇相关度分布，对所述编码矩阵中的向量进行相加处理，得到所述词汇对应的权重特征向量。

可选的，在本发明第一方面的第二种实现方式中，所述根据所述文本词汇相关度分布，对所述编码矩阵中的向量进行相加处理，得到所述词汇对应的权重特征向量包括：

筛选所述文本词汇相关度分布中超过预置相关度阈值对应词汇，得到筛选词汇集；

根据所述筛选词汇集中的词汇，将所述编码矩阵中对应的向量进行相加处理，得到权重特征向量。

可选的，在本发明第一方面的第三种实现方式中，所述根据概率大小排序，从所述词汇预测概率分布中筛选出预置排序数量对应的词汇，得到补全词汇集包括：

根据概率数值，对所述词汇预测概率分布按照降序排序，得到词汇预测概率排序分布；

根据预置排序数量，从所述词汇预测概率排序分布筛选出对应的词汇，得到补全词汇集。

可选的，在本发明第一方面的第四种实现方式中，所述根据预置排序数量，从所述词汇预测概率排序分布筛选出对应的词汇，得到补全词汇集包括：

从所述词汇预测概率排序分布筛选出最大概率数值对应的词汇，得到补全词汇。

可选的，在本发明第一方面的第五种实现方式中，所述接收用户输入的词汇，分析所述词汇在输入文本中的位置，得到位置向量包括：

读取所述输入文本的词汇数量，从预置位置编码矩阵中匹配出所述词汇数量对应的向量，得到位置向量。

可选的，在本发明第一方面的第六种实现方式中，在所述根据概率数值，从所述词汇预测概率分布中筛选出预置排序数量对应的词汇，得到补全词汇集之后，还包括：

接收词汇选择指令；

根据所述词汇选择指令，对所述补全词汇集进行选择优先级排序，得到补全词汇排序集。

本发明第二方面提供了一种输入词汇的补全装置，包括：

定位模块，用于接收用户输入的词汇，分析所述词汇在输入文本中的位置，得到位置向量；

词汇映射模块，用于根据预置词汇映射矩阵，对所述词汇进行检索处理，得到词汇向量；

权重计算模块，用于根据预置权重混合算法，将所述位置向量和所述词汇向量进行权重叠加处理，得到权重特征向量；

逐行卷积模块，用于将所述权重特征向量与所述词汇映射矩阵进行逐行卷积处理，得到词汇预测概率分布；

筛选模块，用于根据概率数值，从所述词汇预测概率分布中筛选出预置排序数量对应的词汇，得到补全词汇集。

本发明第三方面提供了一种输入词汇的补全设备，包括：存储器和至少一个处理器，所述存储器中存储有指令，所述存储器和所述至少一个处理器通过线路互连；所述至少一个处理器调用所述存储器中的所述指令，以使得所述输入词汇的补全设备执行上述的输入词汇的补全方法。

本发明的第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述的输入词汇的补全方法。

在本发明实施例中，通过将词汇的在全文的含义与词汇补充的位置来推导补全下一个需要输入的词汇，使得文字录入能够基于现有文本和输入的词汇进行预测下文信息，提高文字输入的效率与速度，解决当前文字输入速度与效率不能适应文字录入工作的问题。

附图说明

图1为本发明实施例中输入词汇的补全方法的一个实施例示意图；

图2为本发明实施例中输入词汇的补全装置的一个实施例示意图；

图3为本发明实施例中输入词汇的补全装置的另一个实施例示意图；

图4为本发明实施例中输入词汇的补全设备的一个实施例示意图。

具体实施方式

本发明实施例提供了一种输入词汇的补全方法、装置、设备及存储介质。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等（如果存在）是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”或“具有”及其任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为便于理解，下面对本发明实施例的具体流程进行描述，请参阅图1，本发明实施例中输入词汇的补全方法的一个实施例包括：

101、接收用户输入的词汇，分析词汇在输入文本中的位置，得到位置向量；

102、根据预置词汇映射矩阵，对词汇进行检索处理，得到词汇向量；

103、根据预置权重混合算法，将位置向量和词汇向量进行权重叠加处理，得到权重特征向量；

104、将权重特征向量与词汇映射矩阵进行逐行卷积处理，得到词汇预测概率分布；

105、根据概率数值，从词汇预测概率分布中筛选出预置排序数量对应的词汇，得到补全词汇集。

在101-105步骤中，假设用户已经输入文本“在/机器人/领域，越来越多/的/公司/参与/研发，开展了/多种/形态/的/机器人。/例如/：机器狗/、仿生/昆虫/、无人/”，此时输入的词汇为“无人”，“无人”的位置在于第18个位置，18个的词汇位置可以在训练过程中设置带有位置向量的矩阵，而矩阵每行都是由位置向量构成的。1-800个位置都可以设置不同的向量，每个位置向量都是特定的设置以表达位置特征。

“无人”作为一个词汇向量在利用神经网络已经训练好，可以直接在词汇映射矩阵中直接查询到相关的向量。而词汇映射矩阵的每行为一个词汇向量，并且带有词汇向量相对应的词汇标签，由此可以查询出“无人”对应的词汇向量。

18位置的位置向量和词汇向量可以基于已经输入的文本进行权重叠加处理，综合前文的词汇位置和词汇内容，得到一个权重特征向量。

权重特征向量与词汇映射矩阵的每行的词汇向量相互乘积，得到每个词汇出现的概率分布，这种处理是为了综合带有位置和词汇，而出现的概率为下文中可能出现的概率。

可以理解的，训练上述矩阵参数也是由神经网络TransformerXL模型、XLNet模型、RNN模型、GAN模型进行训练得到。基于神经网络训练好的词汇映射矩阵和位置特征矩阵，将输入文本信息作为预测基础推导出跟“无人”相关度较大的词汇，并将词汇作为预测和补全的词汇。

当然，概率数值是预测下文出现的概率，而词汇预测概率分布是词汇出现的概率和词汇的相关信息，表达出词汇与概率出现的分布关系。可以从词汇预测概率分布筛选出40个概率最大的词汇作为补全词汇集中数据，而且可以根据用户使用习惯，将最近一次的选择词汇作为第一个词汇，而将次近一次的选择词汇作为第二个词汇，依次排序出40个概率最大的词汇。例如，可能出现“机器”、“机”、“驾驶车”、“控制”、“飞机”等一系列与前文相关的词汇，而最近使用的是“飞机”，则预测词汇的第一个顺序为“飞机”。

进一步的，在103步骤中，可以执行以下步骤：

1031、将位置向量和词汇向量进行相加处理，得到初级向量；

1032、读取输入文本中词汇对应的权重特征向量，按照输入文本的词汇顺序，叠加所有权重特征向量和初级向量，得到编码矩阵；

1033、将编码矩阵与预置顺序激活矩阵卷积，得到文本词汇相关度分布；

1034、根据文本词汇相关度分布，对编码矩阵中的向量进行相加处理，得到词汇对应的权重特征向量。

在1031-1034步骤中，假设位置向量为[0，2，1，0]，而词汇向量为[3，0，0，0]，两者相加处理为初级向量[3，2，1，0]。

输入文本：“在/机器人/领域，越来越多/的/公司/参与/研发，开展了/多种/形态/的/机器人。/例如/：机器狗/、仿生/昆虫/、无人/”合计有17个权重特征向量，此时“无人”的权重特征向量还未计算出，而前文的权重特征向量都是根据1031-1034的步骤循环算出，因此只需介绍“无人”的权重特征向量计算过程。将17个权重特征向量和初级向量[3，2，1，0]按照输入文本顺序，依次从上至下叠加得到编码矩阵。

顺序激活矩阵是神经网络训练得到的，本次处理过程中编码矩阵的激活是按照编码矩阵的大小4*18进行激活，而顺序激活矩阵实际上训练了4*800的大小，只卷积前18个的数值，得到文本的相关度大小。这里举例的元素是整数，但是实际上训练过程中元素会出现小数如0.00003这样的微小数据。在“在/机器人/领域，越来越多/的/公司/参与/研发，开展了/多种/形态/的/机器人。/例如/：机器狗/、仿生/昆虫/、无人/”的文本中每个词汇都会给出相对于“无人”的相关度，如“在”对应相关度为0.00001，“机器人”对应相关度为0.3，“机器狗”对应相关度为0.25，“仿生”对应相关度为0.15，“无人”对应相关度为0.25等，这里需要说明的，词汇输入本身也会与本身进行相关度运算，在众多相关度词汇中“机器人”、“机器狗”、“无人”的相关度最高，则将“机器人”对应的权重特征向量[0，0，0，1]、“机器狗”对应的权重特征向量[1，0，0，1]、初级向量[3，2，1，0]进行相加，得到“无人”对应的权重特征矩阵[4，2，1，3]，此时就将整个文本特征数据写入以及相关信息词汇也写入。

进一步的，在1034步骤，可以执行以下步骤：

10341、筛选文本词汇相关度分布中超过预置相关度阈值对应词汇，得到筛选词汇集；

10342、根据筛选词汇集中的词汇，将编码矩阵中对应的向量进行相加处理，得到权重特征向量。

在10341-10342步骤中，假设需要0.10为相关度阈值，则“机器人”、“机器狗”、“无人”、“仿生”均为筛选词汇集中词汇，“机器人”对应的权重特征向量[0，0，0，1]、“机器狗”对应的权重特征向量[1，0，0，1]、“仿生”对应的权重特征向量[0，0，1，0]、初级向量[3，2，1，0]相加，得到[4，2，2，3]，并将[4，2，2，3]作为权重特征向量。

进一步的，在105步骤中，可以执行以下步骤：

1051、根据概率数值，对词汇预测概率分布按照降序排序，得到词汇预测概率排序分布；

1052、根据预置排序数量，从词汇预测概率排序分布筛选出对应的词汇，得到补全词汇集。

在1051-1052步骤中，基于概率数值的大小，词汇预测概率分布从大到小进行重排，得到词汇预测概率排序分布。排序数量为10，则从词汇预测概率排序分布选出排序概率前10的词汇，作为补全词汇集。

进一步的，在1052步骤中，可以执行以下步骤：

10521、从词汇预测概率排序分布筛选出最大概率数值对应的词汇，得到补全词汇。

在10521步骤中，只选出概率最大的词汇“飞机”为需要补全词汇，此时并不选出过多词汇，而只显示一个最大概率词汇。

进一步的，在101步骤中，可以执行以下步骤：

1011、读取输入文本的词汇数量，从预置位置编码矩阵中匹配出词汇数量对应的向量，得到位置向量。

在1011步骤中，位置编码矩阵是神经网络已经训练完成的矩阵，对1-800个位置都有对应的行作为向量，从位置编码矩阵查询出18行的元素作为位置向量。

进一步的，在105步骤之后，可以执行以下步骤：

106、接收词汇选择指令；

107、根据词汇选择指令，对补全词汇集进行选择优先级排序，得到补全词汇排序集。

在105-106步骤中，可以从词汇预测概率分布筛选出40个概率最大的词汇作为补全词汇集中数据，而且可以根据用户使用习惯，将最近一次的选择词汇作为第一个词汇，而将次近一次的选择词汇作为第二个词汇，依次排序出40个概率最大的词汇。例如，可能出现“机器”、“机”、“驾驶车”、“控制”、“飞机”等一系列与前文相关的词汇，而最近使用的是“飞机”，则预测词汇的第一个顺序为“飞机”。

上面对本发明实施例中输入词汇的补全方法进行了描述，下面对本发明实施例中输入词汇的补全装置进行描述，请参阅图2，本发明实施例中输入词汇的补全装置一个实施例，所述输入词汇的补全装置包括：

定位模块201，用于接收用户输入的词汇，分析所述词汇在输入文本中的位置，得到位置向量；

词汇映射模块202，用于根据预置词汇映射矩阵，对所述词汇进行检索处理，得到词汇向量；

权重计算模块203，用于根据预置权重混合算法，将所述位置向量和所述词汇向量进行权重叠加处理，得到权重特征向量；

逐行卷积模块204，用于将所述权重特征向量与所述词汇映射矩阵进行逐行卷积处理，得到词汇预测概率分布；

筛选模块205，用于根据概率数值，从所述词汇预测概率分布中筛选出预置排序数量对应的词汇，得到补全词汇集。

请参阅图3，本发明实施例中输入词汇的补全装置的另一个实施例，所述输入词汇的补全装置包括：

其中，所述定位模块201具体用于：

其中，所述权重计算模块203具体用于：

其中，所述权重计算模块203还具体用于：

其中，所述筛选模块205具体用于：

其中，所述筛选模块205还具体用于：

其中，所述输入词汇的补全装置还包括排序模块206，所述排序模块206具体用于：

接收词汇选择指令；

上面图2和图3从模块化功能实体的角度对本发明实施例中的输入词汇的补全装置进行详细描述，下面从硬件处理的角度对本发明实施例中输入词汇的补全设备进行详细描述。

图4是本发明实施例提供的一种输入词汇的补全设备的结构示意图，该输入词汇的补全设备400可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器（central processing units，CPU）410（例如，一个或一个以上处理器）和存储器420，一个或一个以上存储应用程序433或数据432的存储介质430（例如一个或一个以上海量存储设备）。其中，存储器420和存储介质430可以是短暂存储或持久存储。存储在存储介质430的程序可以包括一个或一个以上模块（图示没标出），每个模块可以包括对输入词汇的补全设备400中的一系列指令操作。更进一步地，处理器410可以设置为与存储介质430通信，在输入词汇的补全设备400上执行存储介质430中的一系列指令操作。

基于输入词汇的补全设备400还可以包括一个或一个以上电源440，一个或一个以上有线或无线网络接口450，一个或一个以上输入输出接口460，和/或，一个或一个以上操作系统431，例如Windows Serve，Mac OS X，Unix，Linux，FreeBSD等等。本领域技术人员可以理解，图4示出的输入词汇的补全设备结构并不构成对基于输入词汇的补全设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

本发明还提供一种计算机可读存储介质，该计算机可读存储介质可以为非易失性计算机可读存储介质，该计算机可读存储介质也可以为易失性计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在计算机上运行时，使得计算机执行所述输入词汇的补全方法的步骤。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统或装置、单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（read-only memory，ROM）、随机存取存储器（random access memory，RAM）、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种输入词汇的补全方法，其特征在于，包括步骤：

根据概率数值，从所述词汇预测概率分布中筛选出预置排序数量对应的词汇，得到补全词汇集；

其中，所述根据预置权重混合算法，将所述位置向量和所述词汇向量进行权重叠加处理，得到权重特征向量包括：

根据所述文本词汇相关度分布，对所述编码矩阵中的向量进行相加处理，得到所述词汇对应的权重特征向量；

其中，所述根据所述文本词汇相关度分布，对所述编码矩阵中的向量进行相加处理，得到所述词汇对应的权重特征向量包括：

根据所述筛选词汇集中的词汇，将所述编码矩阵中对应的向量进行相加处理，得到权重特征向量；

其中，所述根据概率数值，从所述词汇预测概率分布中筛选出预置排序数量对应的词汇，得到补全词汇集包括：

2.根据权利要求1所述的输入词汇的补全方法，其特征在于，所述根据预置排序数量，从所述词汇预测概率排序分布筛选出对应的词汇，得到补全词汇集包括：

3.根据权利要求1所述的输入词汇的补全方法，其特征在于，所述接收用户输入的词汇，分析所述词汇在输入文本中的位置，得到位置向量包括：

4.根据权利要求1所述的输入词汇的补全方法，其特征在于，在所述根据概率数值，从所述词汇预测概率分布中筛选出预置排序数量对应的词汇，得到补全词汇集之后，还包括：

接收词汇选择指令；

5.一种输入词汇的补全装置，其特征在于，所述输入词汇的补全装置包括：

筛选模块，用于根据概率数值，从所述词汇预测概率分布中筛选出预置排序数量对应的词汇，得到补全词汇集；

其中，所述权重计算模块具体用于：

其中，所述权重计算模块还具体用于：

其中，所述筛选模块具体用于：

6.一种输入词汇的补全设备，其特征在于，所述输入词汇的补全设备包括：存储器和至少一个处理器，所述存储器中存储有指令，所述存储器和所述至少一个处理器通过线路互连；

所述至少一个处理器调用所述存储器中的所述指令，以使得所述输入词汇的补全设备执行如权利要求1-4中任一项所述的输入词汇的补全方法。

7.一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-4中任一项所述的输入词汇的补全方法。