CN107621891A - 一种文本输入方法、装置及电子设备 - Google Patents

一种文本输入方法、装置及电子设备 Download PDF

Info

Publication number
CN107621891A
CN107621891A CN201710897610.XA CN201710897610A CN107621891A CN 107621891 A CN107621891 A CN 107621891A CN 201710897610 A CN201710897610 A CN 201710897610A CN 107621891 A CN107621891 A CN 107621891A
Authority
CN
China
Prior art keywords
word
candidate
context
current
character key
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710897610.XA
Other languages
English (en)
Inventor
高欣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Xinmeihutong Technology Co
Original Assignee
Beijing Xinmeihutong Technology Co
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Xinmeihutong Technology Co filed Critical Beijing Xinmeihutong Technology Co
Priority to CN201710897610.XA priority Critical patent/CN107621891A/zh
Publication of CN107621891A publication Critical patent/CN107621891A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)

Abstract

本发明实施例提供一种文本输入方法、装置及电子设备,涉及输入法技术领域。其中文本输入方法,将深度学习理论引入输入法引擎,从多个训练样本中学习得到基于循环神经网络的候选词推荐模型,并使用该基于循环神经网络的候选词推荐模型进行候选词推荐。采用本申请提供的方案,避免了传统n‑gram语言模型只能根据前一个或两个词预测后一个词的问题,实现了对较长上下文的记忆能力,使得候选词推荐结果更加准确,从而提高了输入效率。

Description

一种文本输入方法、装置及电子设备
技术领域
本发明实施例涉及输入法技术领域,尤其涉及一种文本输入方法和装置,一种电子设备,以及一种计算机可读存储介质。
背景技术
输入法作为人机交互的最基本的工具,其重要性不言而喻。输入法的工作原理,是首先将用户的按键键码信息传入输入法引擎,输入法引擎通过计算给出最佳的候选词序列,并通过输入法的界面展示给用户,供用户进行选择确定。输入法引擎是一个输入法最核心的部分,其主要功能,是根据用户输入的字母键码,以及当前输入框内的上下文单词,为用户推荐最符合语言环境和键码的候选词。是否能够快速的为用户提供正确的候选词,成为输入法引擎最重要的一个指标。
现有的输入法引擎,一般使用字典树和n-gram语言模型的方式来实现。其中字典树是一种树状结构的词表,可以比较高效的查询用户输入的键码组合是否属于一个单词或一个单词的前缀,并可进行一些简单的纠错。n-gram是一种统计语言模型,可以根据前n-1个词来预测第n个词。将两种模型进行结合,就可以根据用户输入的键码,以及上下文信息,给出用户输入最可能的若干个候选词。
然而,现有技术中n-gram语言模型受制于模型大小,往往只能根据前一个或两个词预测后一个词,而无法考虑更长的上下文信息。同时由于数据稀疏问题,用户的输入可能并未在n-gram语言模型的历史数据中出现,从而导致语言模型失效。因此,现有技术存在输入效率较低且准确度较低的问题。
发明内容
本发明实施例提供了一种文本输入方法、装置和电子设备,以解决现有技术存在的文本输入效率较低且准确度较低的问题。
第一方面,本发明实施例提供了一种文本输入方法,包括:
获取用户当前输入的字符键码和上下文,作为当前字符键码和当前上下文;
通过预先生成的候选词推荐模型,获取与所述当前字符键码和所述当前上下文匹配的候选词序列;
展示所述候选词序列;
其中,所述候选词推荐模型采用如下方式生成:通过基于循环神经网络的深度学习算法,从多个训练样本中学习得到候选词推荐模型;所述训练样本包括用户历史输入的字符键码和上下文与用户历史选择的候选词之间的对应记录。
可选的,所述通过基于循环神经网络的深度学习算法,并从多个训练样本中学习得到候选词推荐模型,包括:
将所述用户历史输入的字符键码和上下文分别作为历史字符键码和历史上下文;
根据词表,将所述历史字符键码中的字符、所述历史上下文中的词和所述用户历史选择的候选词转换为对应的数字标识,形成数值化的训练样本;
使用循环神经网络对多个所述数值化的训练样本进行训练,获得所述候选词推荐模型。
可选的,所述通过预先生成的候选词推荐模型,并获取与所述当前字符键码和所述当前上下文匹配的候选词序列,包括:
根据词表,将所述当前字符键码中的字符和所述当前上下文中的词转换为对应的数字标识;
将数值化的当前字符键码和数值化的当前上下文作为所述候选词推荐模型的输入,通过所述候选词推荐模型,获取与所述当前字符键码和所述当前上下文匹配的候选词序列。
可选的,所述词表采用如下方式生成:
获取所述多个训练样本中所述历史上下文中出现的词的词频;
选取词频排在高位的预设数量的词;
将选取的词、所有英文字符和预设的标点符号作为所述词表的词条。
可选的,还包括:
将所述历史上下文中未出现的词作为所述词表的词条,所有所述未出现的词对应同一数字标识。
可选的,所述循环神经网络中的网络单元包括长短期记忆单元或者门限循环单元。
第二方面,本发明实施例提供了一种文本输入装置,包括:
输入信息获取单元,用于获取用户当前输入的字符键码和上下文,作为当前字符键码和当前上下文;
候选词获取单元,用于通过预先生成的候选词推荐模型,获取与所述当前字符键码和所述当前上下文匹配的候选词序列;
候选词展示单元,用于展示所述候选词序列;
模型生成单元,用于通过基于循环神经网络的深度学习算法,从多个训练样本中学习得到所述候选词推荐模型;其中,所述训练样本包括用户历史输入的字符键码和上下文与用户历史选择的候选词之间的对应记录。
可选的,所述模型生成单元包括:
训练样本数值化子单元,用于将所述用户历史输入的字符键码和上下文分别作为历史字符键码和历史上下文根据词表,并将所述历史字符键码中的字符、所述历史上下文中的词和所述用户历史选择的候选词转换为对应的数字标识,形成数值化的训练样本;
模型训练子单元,用于使用循环神经网络对多个所述数值化的训练样本进行训练,获得所述候选词推荐模型。
可选的,所述候选词获取单元包括:
用户输入数值化子单元,用于根据词表,将所述当前字符键码中的字符和所述当前上下文中的词转换为对应的数字标识;
候选词获取子单元,用于将数值化的当前字符键码和数值化的当前上下文作为所述候选词推荐模型的输入,通过所述候选词推荐模型,获取与所述当前字符键码和所述当前上下文匹配的候选词序列。
可选的,还包括:
词表生成单元,用于生成所述词表;
所述词表生成单元包括:
词频统计子单元,用于获取所述多个训练样本中所述历史上下文中出现的词的词频;
词选取子单元,用于选取词频排在高位的预设数量的词;
构建词表子单元,用于将选取的词、所有英文字符和预设的标点符号作为所述词表的词条。
可选的,还包括:
未出现词的词条构建子单元,用于将所述历史上下文中未出现的词作为所述词表的词条,所有所述未出现的词对应同一数字标识。
可选的,所述循环神经网络中的网络单元包括长短期记忆单元或者门限循环单元。
第三方面,本发明实施例还提供了一种电子设备,其包括处理器和存储器,所述处理器其被配置为支持电子设备执行上述文本输入方法中相应的功能。所述存储器用于与处理器耦合,其保存执行上述文本输入方法必要的程序指令和数据。
第四方面,本发明实施例提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述各方面所述的方法。
第五方面,本发明实施例提供了一种包括指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述各方面所述的方法。
本发明实施例提供的文本输入方法及装置,通过将深度学习理论引入输入法引擎,使用基于循环神经网络的候选词推荐模型进行候选词推荐;这种处理方式,避免了传统n-gram语言模型只能根据前一个或两个词预测后一个词的问题,实现了对较长上下文的记忆能力,使得候选词推荐结果更加准确;因此,可以有效提高推荐准确度,从而提高了输入效率。
此外,通过为词表外的词统一设置数字标识,对于未在训练样本中出现的用户输入字符键码和上下文,候选词推荐模型也能进行处理,给出合理的候选词;因此,输入法引擎的适用性更加广泛。
本发明的这些方面或其他方面在以下实施例的描述中会更加简明易懂。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1本发明实施例提供的文本输入方法的流程示意图;
图2本发明实施例提供的循环神经网络结构示意图;
图3本发明实施例提供的生成候选词推荐模型的流程示意图;
图4本发明实施例提供的步骤102的具体流程示意图;
图5本发明实施例提供的文本输入装置的结构示意图;
图6本发明实施例提供的文本输入装置中模型生成单元500的具体结构示意图;
图7本发明实施例提供的文本输入装置中候选词获取单元502的具体结构示意图;
图8本发明实施例提供的文本输入装置的具体结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
在本发明的说明书和权利要求书及上述附图中的描述的一些流程中,包含了按照特定顺序出现的多个操作,但是应该清楚了解,这些操作可以不按照其在本文中出现的顺序来执行或并行执行,操作的序号如101、102等,仅仅是用于区分开各个不同的操作,序号本身不代表任何的执行顺序。另外,这些流程可以包括更多或更少的操作,并且这些操作可以按顺序执行或并行执行。需要说明的是,本文中的“第一”、“第二”等描述,是用于区分不同的消息、设备、模块等,不代表先后顺序,也不限定“第一”和“第二”是不同的类型。
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供的方法,其基本思想是:使用深度学习中的循环神经网络对大量的用户语料进行训练,并通过训练出的候选词推荐模型对用户输入进行候选词计算和推荐。由于采用基于循环神经网络的候选词推荐模型,使得实现了对较长上下文的记忆能力,因此可以有效提高候选词推荐结果的准确度。
请参考图1,其为本发明的第一实施例提供的一种文本输入方法的流程示意图。本发明实施例提供的方法,其执行主体是输入法引擎。输入法引擎执行所述文本输入方法,包括如下步骤:
步骤101,输入法引擎获取用户当前输入的字符键码和上下文,作为当前字符键码和当前上下文。
所述上下文(concatenate-text)又称为联系文本,是指用户输入字符键码时已有的文本信息。所述上下文构成了用户当前输入的语言环境,例如,用户在已经通过输入法工具输入了“我们”文本后,又通过输入法工具敲打了字符“benshi”,这种情况下,“benshi”为当前字符键码,“我们”为上下文。
在获取到当前字符键码和当前上下文之后,就可以进入到下一步,通过预先生成的候选词推荐模型,获取与当前字符键码和当前上下文符合的候选词序列。
步骤102,通过预先生成的候选词推荐模型,获取与所述当前字符键码和所述当前上下文匹配的候选词序列。
本发明实施例提供的方法,基于候选词推荐模型进行候选词的计算与推荐,因此首先需要生成候选词推荐模型。所述候选词推荐模型采用如下方式生成:通过基于循环神经网络的深度学习算法,从多个训练样本中学习得到候选词推荐模型。
本发明实施例提供的方法,使用深度学习中的循环神经网络对大量的训练样本进行训练。训练样本又称为用户语料或训练语料,包括用户历史输入的字符键码和上下文与用户历史选择的候选词之间的对应记录。为了与当前字符键码和当前上下文进行区分,本发明实施例将所述用户历史输入的字符键码和上下文分别称为历史字符键码和历史上下文。
循环神经网络,是神经网络中的一种,主要用于处理序列数据,其网络结构如图2所示。对于一个输入序列x1,x2,…,xt,…,xn,选取其中任一位置t,将前面保存的状态信息st-1和当前的输入xt一起输入给神经元A,通过计算得到当前位置的输出ht以及当前位置的状态st,并将状态st传给下一位置用于计算其输出。这种网络结构会对前面的信息(上下文)进行记忆并应用于当前输出的计算中,能够很好的处理具有前后顺序关系的序列数据。理论上,其能够对任何长度的序列数据进行处理。
请参考图3,其为本发明的第一实施例提供的生成候选词推荐模型的流程示意图。在本实施例中,所述通过基于循环神经网络的深度学习算法,并从多个训练样本中学习得到候选词推荐模型的步骤,可包括如下具体步骤:
步骤301,根据词表,将所述历史字符键码中的字符、所述历史上下文中的词和所述用户历史选择的候选词转换为对应的数字标识,形成数值化的训练样本。
训练语料由若干用户历史数据构成,每个句子分为输入和输出部分,输入部分包含若干个上下文单词(如“我们”或“happy new”),以及用户当前输入的字符(如“benshi”或“ye”),输出部分则为用户最终选择的单词(如“本是”或“year”)。由于训练算法无法处理单词和字符的输入和输出,因此需要把训练语料中的单词和字符转换为词表中对应的数字标识。通过将训练样本数值化,可方便模型训练。
具体的转化方法为:首先选取一定数量的词和字符生成一个词表,可以根据不同的规则选取。对于语料中包含在这个词表中的词和字符,将其转化为与其对应的唯一数字标识,并记录词及字符与数字标识的对应关系;而对于这个词表外的词和字符,则统一转换成一个固定的数字标识;这种处理方式,使得模型可以更好地处理用户输入(如上下文中的词)未在训练语料中出现的情况。
例如,选取10000000句用户历史语料作为训练语料,其中每个句子分为输入和输出部分,输入部分包含若干个上下文词,以及用户当前输入的字符,输出部分则为用户最终选择的词。对这些训练语料进行词频统计,统计出每个词出现的次数,选取词频最高的20000个词、26个英文字母以及标点符号“'”(单引号),构成一个大小为20027的词表。对于训练语料中包含在词表中的词或字符,将其转换为1至20027之间的某个整数作为对应的数字标识,并记录词或字符与数字标识之间的对应关系。对于训练语料中不包含在词表中的词和字符,将其转换为数字0作为对应的数字标识。
步骤302,使用循环神经网络对多个所述数值化的训练样本进行训练,获得所述候选词推荐模型。
使用循环神经网络对上述转换成数字标识的训练语料进行训练。循环神经网络中的神经元可以选择任何形式,通常可用长短期记忆单元(Long-Short Term Memory,LSTM)或者门限循环单元(Gated Recurrent Unit,GRU)来获得更好的效果。循环神经网络的隐含层层数、隐含层单元个数等参数,可以根据训练和测试结果进行选取。
在本实施例中,网络单元选取为长短期记忆单元(Long-Short Term Memory),隐含层层数设定为2,隐含层单元个数设定为400,使用深度学习开源框架tensorflow进行训练,生成所述候选词推荐模型。
下面以词表记录数为20027、2层隐含层,400个隐含层单元为例,对本实施例中循环神经网络的训练过程作出说明。在这种情况下,对于每一个时刻输入的词或字符,可执行如下步骤:
1)将当前时刻的词或字符转换成一个0-20026的数字标识,并将数字标识转换为一个20027维的独热(one-hot)向量,作为循环神经网络的输入。
2)循环神经网络对该20027维的one-hot向量进行降维处理,本实施例中降维到400维,400这个数值即是状态的维度又是隐含层单元的数量。
3)将该400维的向量及前一时刻输出的状态(0时刻状态是初始化状态)输入至第1层LSTM网络(隐含层1)进行运算,将隐含层1的运算结果输入第2层LSTM网络(隐含层2),得到当前时刻的状态。
4)将输出状态与softmax矩阵相乘并作用于softmax函数,得到20027维的概率向量,取概率最大的数字标识对应的词作为当前时刻的输出。
5)对于预测部分,此时已经得到预测结果,而对于训练部分,需要通过上述20027维的概率向量,以及训练样本中正确的候选词,计算出当前损失(可采用交叉熵损失函数计算),并通过梯度下降和反向传播更新循环神经网络中的各个权值参数。
在生成所述候选词推荐模型之后,就可以执行步骤102,通过候选词推荐模型,获取与所述当前字符键码和所述当前上下文匹配的候选词序列。
请参考图4,其为本发明的第一实施例提供的步骤102的具体流程示意图。由于候选词推荐模型的输入需为数值化的用户字符键码和上下文,因此步骤102可包括:
步骤1021,根据词表,将所述当前字符键码中的字符和所述当前上下文中的词转换为对应的数字标识。
要利用该模型进行计算和推荐,首先需要对当前字符键码中的字符和当前上下文中的词进行数值化处理。对于用户输入,首先根据上述保存的词及字符与数字标识的对应关系,将用户输入的上下文词和字符全部转换为对应的数字标识,对于不在词表中的词则直接转换为上文中的固定数字标识(如0)。
步骤1022,将数值化的当前字符键码和数值化的当前上下文作为所述候选词推荐模型的输入,通过所述候选词推荐模型获取与所述当前字符键码和所述当前上下文匹配的候选词序列。
将转换后的数字序列带入训练好的循环神经网络中,得到若干候选词对应的数字标识。将其按概率从大到小排序,并根据词与数字标识的对应关系转换为对应的词,生成候选词序列推荐给用户。
例如,对于用户输入的字符键码及其上下文,将包含在上述大小为20027的词表中的词或字符,转换为对应的数字标识,将不包含在词表中的词或字符,转换为0作为数字标识。将转换好的数字序列,输入给训练好的循环神经网络模型,得到若干输出的数字标识和对应的概率。将其中非0的数字标识,利用上述保存的对应关系,转换为对应的词。而对于数字标识0,可使用输入中的字符部分,直接拼写成一个单词。将得到的词按其对应的概率从大到小进行排序,将排序后概率前3位的词作为候选词展示给用户,供用户选择。
为直观的说明预测过程,下面以上下文为“happy new”,字符键码为“yeer”为例,通过表1给出各个时刻的网络输入和网络输出的候选词序列,以对预测过程作进一步说明。
当前时刻 网络输入 网络输出的候选词序列
T0 happy new,birthday,easter
T1 new year,years,year’s
T2 y year,years,year’s
T3 e year,years,year’s
T4 e year,years,yee
T5 r year,yeer,year’s
表1
步骤103,展示所述候选词序列。
最后,将上述步骤获取到的候选词序列展示给用户,供用户选择。
从上述实施例可以看出,本发明实施例提供的文本输入方法,通过将深度学习理论引入输入法引擎,使用基于循环神经网络的候选词推荐模型进行候选词推荐;这种处理方式,避免了传统n-gram语言模型只能根据前一个或两个词预测后一个词的问题,实现了对较长上下文的记忆能力,使得候选词推荐结果更加准确;因此,可以有效提高推荐准确度,从而提高了输入效率。
与本发明的一种文本输入方法相对应,本发明还提供了一种文本输入装置。
如图5所示,所述文本输入装置包括:
输入信息获取单元501,用于获取用户当前输入的字符键码和上下文,作为当前字符键码和当前上下文;
候选词获取单元502,用于通过预先生成的候选词推荐模型,获取与所述当前字符键码和所述当前上下文匹配的候选词序列;
候选词展示单元503,用于展示所述候选词序列;
模型生成单元500,用于通过基于循环神经网络的深度学习算法,从多个训练样本中学习得到所述候选词推荐模型;其中,所述训练样本包括用户历史输入的字符键码和上下文与用户历史选择的候选词之间的对应记录。
请参考图6,其为本发明的第二实施例提供的模型生成单元500的具体结构示意图。可选的,所述模型生成单元500包括:
训练样本数值化子单元5001,用于将所述用户历史输入的字符键码和上下文分别作为历史字符键码和历史上下文根据词表,并将所述历史字符键码中的字符、所述历史上下文中的词和所述用户历史选择的候选词转换为对应的数字标识,形成数值化的训练样本;
模型训练子单元5002,用于使用循环神经网络对多个所述数值化的训练样本进行训练,获得所述候选词推荐模型。
请参考图7,其为本发明的第二实施例提供的候选词获取单元502的具体结构示意图。可选的,所述候选词获取单元502包括:
用户输入数值化子单元5021,用于根据词表,将所述当前字符键码中的字符和所述当前上下文中的词转换为对应的数字标识;
候选词获取子单元5022,用于将数值化的当前字符键码和数值化的当前上下文作为所述候选词推荐模型的输入,通过所述候选词推荐模型,获取与所述当前字符键码和所述当前上下文匹配的候选词序列。
请参考图8,其为本发明的第二实施例提供的具体结构示意图。可选的,所述装置还包括:
词表生成单元801,用于生成所述词表;
所述词表生成单元801包括:
词频统计子单元,用于获取所述多个训练样本中所述历史上下文中出现的词的词频;
词选取子单元,用于选取词频排在高位的预设数量的词;
构建词表子单元,用于将选取的词、所有英文字符和预设的标点符号作为所述词表的词条。
可选的,还包括:
未出现词的词条构建子单元,用于将所述历史上下文中未出现的词作为所述词表的词条,所有所述未出现的词对应同一数字标识。
可选的,所述循环神经网络中的神经元包括长短期记忆单元或者门限循环单元。
从上述实施例可以看出,本发明实施例提供的文本输入装置,通过将深度学习理论引入输入法引擎,使用基于循环神经网络的候选词推荐模型进行候选词推荐;这种处理方式,避免了传统n-gram语言模型只能根据前一个或两个词预测后一个词的问题,实现了对较长上下文的记忆能力,使得候选词推荐结果更加准确;因此,可以有效提高推荐准确度,从而提高了输入效率。
在一个可能的设计中,所述文本输入装置的结构中包括处理器和存储器,所述存储器用于存储支持所述文本输入装置执行上述第一方面中所述文本输入方法的程序,所述处理器被配置为用于执行所述存储器中存储的程序。
所述程序包括一条或多条计算机指令,其中,所述一条或多条计算机指令供所述处理器调用执行。
所述处理器用于:获取用户当前输入的字符键码和上下文,作为当前字符键码和当前上下文;通过预先生成的候选词推荐模型,获取与所述当前字符键码和所述当前上下文匹配的候选词序列;展示所述候选词序列;其中,所述候选词推荐模型采用如下方式生成:通过基于循环神经网络的深度学习算法,从多个训练样本中学习得到候选词推荐模型;所述训练样本包括用户历史输入的字符键码和上下文与用户历史选择的候选词之间的对应记录。
本发明实施例提供了一种计算机存储介质,用于储存所述文本输入装置所用的计算机软件指令,其包含用于执行上述第一方面中所述文本输入方法为所述文本输入装置所涉及的程序。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置,也可以是移动智能设备(如智能手机,PAD,或iPad等)。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (14)

1.一种文本输入方法,其特征在于,包括:
获取用户当前输入的字符键码和上下文,作为当前字符键码和当前上下文;
通过预先生成的候选词推荐模型,获取与所述当前字符键码和所述当前上下文匹配的候选词序列;
展示所述候选词序列;
其中,所述候选词推荐模型采用如下方式生成:通过基于循环神经网络的深度学习算法,从多个训练样本中学习得到候选词推荐模型;所述训练样本包括用户历史输入的字符键码和上下文与用户历史选择的候选词之间的对应记录。
2.根据权利要求1所述的方法,其特征在于,所述通过基于循环神经网络的深度学习算法,并从多个训练样本中学习得到候选词推荐模型,包括:
将所述用户历史输入的字符键码和上下文分别作为历史字符键码和历史上下文;
根据词表,将所述历史字符键码中的字符、所述历史上下文中的词和所述用户历史选择的候选词转换为对应的数字标识,形成数值化的训练样本;
使用循环神经网络对多个所述数值化的训练样本进行训练,获得所述候选词推荐模型。
3.根据权利要求1所述的方法,其特征在于,所述通过预先生成的候选词推荐模型,并获取与所述当前字符键码和所述当前上下文匹配的候选词序列,包括:
根据词表,将所述当前字符键码中的字符和所述当前上下文中的词转换为对应的数字标识;
将数值化的当前字符键码和数值化的当前上下文作为所述候选词推荐模型的输入,通过所述候选词推荐模型,获取与所述当前字符键码和所述当前上下文匹配的候选词序列。
4.根据权利要求2或3所述的方法,其特征在于,所述词表采用如下方式生成:
获取所述多个训练样本中所述历史上下文中出现的词的词频;
选取词频排在高位的预设数量的词;
将选取的词、所有英文字符和预设的标点符号作为所述词表的词条。
5.根据权利要求4所述的方法,其特征在于,还包括:
将所述历史上下文中未出现的词作为所述词表的词条,所有所述未出现的词对应同一数字标识。
6.根据权利要求1所述的方法,其特征在于,所述循环神经网络中的神经元包括长短期记忆单元或者门限循环单元。
7.一种文本输入装置,其特征在于,包括:
输入信息获取单元,用于获取用户当前输入的字符键码和上下文,作为当前字符键码和当前上下文;
候选词获取单元,用于通过预先生成的候选词推荐模型,获取与所述当前字符键码和所述当前上下文匹配的候选词序列;
候选词展示单元,用于展示所述候选词序列;
模型生成单元,用于通过基于循环神经网络的深度学习算法,从多个训练样本中学习得到所述候选词推荐模型;其中,所述训练样本包括用户历史输入的字符键码和上下文与用户历史选择的候选词之间的对应记录。
8.根据权利要求7所述的装置,其特征在于,所述模型生成单元包括:
训练样本数值化子单元,用于将所述用户历史输入的字符键码和上下文分别作为历史字符键码和历史上下文根据词表,并将所述历史字符键码中的字符、所述历史上下文中的词和所述用户历史选择的候选词转换为对应的数字标识,形成数值化的训练样本;
模型训练子单元,用于使用循环神经网络对多个所述数值化的训练样本进行训练,获得所述候选词推荐模型。
9.根据权利要求7所述的装置,其特征在于,所述候选词获取单元包括:
用户输入数值化子单元,用于根据词表,将所述当前字符键码中的字符和所述当前上下文中的词转换为对应的数字标识;
候选词获取子单元,用于将数值化的当前字符键码和数值化的当前上下文作为所述候选词推荐模型的输入,通过所述候选词推荐模型,获取与所述当前字符键码和所述当前上下文匹配的候选词序列。
10.根据权利要求8或9所述的装置,其特征在于,还包括:
词表生成单元,用于生成所述词表;
所述词表生成单元包括:
词频统计子单元,用于获取所述多个训练样本中所述历史上下文中出现的词的词频;
词选取子单元,用于选取词频排在高位的预设数量的词;
构建词表子单元,用于将选取的词、所有英文字符和预设的标点符号作为所述词表的词条。
11.根据权利要求10所述的装置,其特征在于,还包括:
未出现词的词条构建子单元,用于将所述历史上下文中未出现的词作为所述词表的词条,所有所述未出现的词对应同一数字标识。
12.根据权利要求7所述的装置,其特征在于,所述循环神经网络中的神经元包括长短期记忆单元或者门限循环单元。
13.一种电子设备,其特征在于,包括:
至少一个存储器;
耦合到所述至少一个存储器的至少一个处理器,所述至少一个处理器配置为:获取用户当前输入的字符键码和上下文,作为当前字符键码和当前上下文;通过预先生成的候选词推荐模型,获取与所述当前字符键码和所述当前上下文匹配的候选词序列;展示所述候选词序列;其中,所述候选词推荐模型采用如下方式生成:通过基于循环神经网络的深度学习算法,从多个训练样本中学习得到候选词推荐模型;所述训练样本包括用户历史输入的字符键码和上下文与用户历史选择的候选词之间的对应记录。
14.一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行如权利要求1至6中任一项所述的方法。
CN201710897610.XA 2017-09-28 2017-09-28 一种文本输入方法、装置及电子设备 Pending CN107621891A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710897610.XA CN107621891A (zh) 2017-09-28 2017-09-28 一种文本输入方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710897610.XA CN107621891A (zh) 2017-09-28 2017-09-28 一种文本输入方法、装置及电子设备

Publications (1)

Publication Number Publication Date
CN107621891A true CN107621891A (zh) 2018-01-23

Family

ID=61090992

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710897610.XA Pending CN107621891A (zh) 2017-09-28 2017-09-28 一种文本输入方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN107621891A (zh)

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108628827A (zh) * 2018-04-11 2018-10-09 广州视源电子科技股份有限公司 候选词评估方法、装置、计算机设备和存储介质
CN109002186A (zh) * 2018-06-28 2018-12-14 北京金山安全软件有限公司 一种输入预测方法及装置
CN109117480A (zh) * 2018-08-17 2019-01-01 腾讯科技(深圳)有限公司 词预测方法、装置、计算机设备及存储介质
CN110187780A (zh) * 2019-06-10 2019-08-30 北京百度网讯科技有限公司 长文本预测方法、装置、设备和存储介质
CN110221704A (zh) * 2018-03-01 2019-09-10 北京搜狗科技发展有限公司 一种输入方法、装置和用于输入的装置
CN110286778A (zh) * 2019-06-27 2019-09-27 北京金山安全软件有限公司 一种中文深度学习输入法、装置及电子设备
CN110389668A (zh) * 2018-04-20 2019-10-29 北京搜狗科技发展有限公司 一种输入方法、装置和用于输入的装置
CN110413867A (zh) * 2018-04-28 2019-11-05 第四范式(北京)技术有限公司 用于内容推荐的方法及系统
CN110780750A (zh) * 2018-07-31 2020-02-11 北京搜狗科技发展有限公司 一种输入方法及装置
CN110874146A (zh) * 2018-08-30 2020-03-10 北京搜狗科技发展有限公司 一种输入方法、装置及电子设备
CN110874145A (zh) * 2018-08-30 2020-03-10 北京搜狗科技发展有限公司 一种输入方法、装置及电子设备
CN110908523A (zh) * 2018-09-14 2020-03-24 北京搜狗科技发展有限公司 一种输入方法及装置
CN110929837A (zh) * 2018-09-19 2020-03-27 北京搜狗科技发展有限公司 神经网络模型压缩方法及装置
CN111124141A (zh) * 2018-10-12 2020-05-08 北京搜狗科技发展有限公司 一种用于确定候选项的神经网络模型训练方法和装置
CN111159416A (zh) * 2020-04-02 2020-05-15 腾讯科技(深圳)有限公司 语言任务模型训练方法、装置、电子设备及存储介质
CN111372108A (zh) * 2020-02-03 2020-07-03 未来电视有限公司 搜索方法、装置、电子设备及存储介质
CN111507366B (zh) * 2019-11-07 2021-06-08 马上消费金融股份有限公司 推荐概率模型的训练方法、智能补全方法及相关装置
CN113126779A (zh) * 2019-12-30 2021-07-16 阿里巴巴集团控股有限公司 人机交互方法、装置、设备及系统
CN113449515A (zh) * 2021-01-27 2021-09-28 心医国际数字医疗系统(大连)有限公司 一种医学文本的预测方法、预测装置及电子设备
CN113589954A (zh) * 2020-04-30 2021-11-02 北京搜狗科技发展有限公司 一种数据处理方法、装置和电子设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102439542A (zh) * 2009-03-30 2012-05-02 触摸式有限公司 电子设备的文本输入系统及文本输入方法
CN106293114A (zh) * 2015-06-02 2017-01-04 阿里巴巴集团控股有限公司 预测用户待输入词的方法及装置
CN106569618A (zh) * 2016-10-19 2017-04-19 武汉悦然心动网络科技股份有限公司 基于循环神经网络模型的滑动输入方法及系统
CN106774970A (zh) * 2015-11-24 2017-05-31 北京搜狗科技发展有限公司 对输入法的候选项进行排序的方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102439542A (zh) * 2009-03-30 2012-05-02 触摸式有限公司 电子设备的文本输入系统及文本输入方法
CN106293114A (zh) * 2015-06-02 2017-01-04 阿里巴巴集团控股有限公司 预测用户待输入词的方法及装置
CN106774970A (zh) * 2015-11-24 2017-05-31 北京搜狗科技发展有限公司 对输入法的候选项进行排序的方法和装置
CN106569618A (zh) * 2016-10-19 2017-04-19 武汉悦然心动网络科技股份有限公司 基于循环神经网络模型的滑动输入方法及系统

Cited By (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110221704A (zh) * 2018-03-01 2019-09-10 北京搜狗科技发展有限公司 一种输入方法、装置和用于输入的装置
CN108628827A (zh) * 2018-04-11 2018-10-09 广州视源电子科技股份有限公司 候选词评估方法、装置、计算机设备和存储介质
CN110389668A (zh) * 2018-04-20 2019-10-29 北京搜狗科技发展有限公司 一种输入方法、装置和用于输入的装置
CN110413867A (zh) * 2018-04-28 2019-11-05 第四范式(北京)技术有限公司 用于内容推荐的方法及系统
CN109002186A (zh) * 2018-06-28 2018-12-14 北京金山安全软件有限公司 一种输入预测方法及装置
US11409374B2 (en) 2018-06-28 2022-08-09 Beijing Kingsoft Internet Security Software Co., Ltd. Method and device for input prediction
WO2020001329A1 (zh) * 2018-06-28 2020-01-02 北京金山安全软件有限公司 一种输入预测方法及装置
CN110780750B (zh) * 2018-07-31 2024-07-09 北京搜狗科技发展有限公司 一种输入方法及装置
CN110780750A (zh) * 2018-07-31 2020-02-11 北京搜狗科技发展有限公司 一种输入方法及装置
CN110377916A (zh) * 2018-08-17 2019-10-25 腾讯科技(深圳)有限公司 词预测方法、装置、计算机设备及存储介质
CN110377916B (zh) * 2018-08-17 2022-12-16 腾讯科技(深圳)有限公司 词预测方法、装置、计算机设备及存储介质
CN109117480A (zh) * 2018-08-17 2019-01-01 腾讯科技(深圳)有限公司 词预测方法、装置、计算机设备及存储介质
CN110874146A (zh) * 2018-08-30 2020-03-10 北京搜狗科技发展有限公司 一种输入方法、装置及电子设备
CN110874145A (zh) * 2018-08-30 2020-03-10 北京搜狗科技发展有限公司 一种输入方法、装置及电子设备
CN110908523A (zh) * 2018-09-14 2020-03-24 北京搜狗科技发展有限公司 一种输入方法及装置
CN110929837A (zh) * 2018-09-19 2020-03-27 北京搜狗科技发展有限公司 神经网络模型压缩方法及装置
CN110929837B (zh) * 2018-09-19 2024-05-10 北京搜狗科技发展有限公司 一种联想词预测方法及装置
CN111124141A (zh) * 2018-10-12 2020-05-08 北京搜狗科技发展有限公司 一种用于确定候选项的神经网络模型训练方法和装置
CN111124141B (zh) * 2018-10-12 2024-07-23 北京搜狗科技发展有限公司 一种用于确定候选项的神经网络模型训练方法和装置
CN110187780A (zh) * 2019-06-10 2019-08-30 北京百度网讯科技有限公司 长文本预测方法、装置、设备和存储介质
CN110187780B (zh) * 2019-06-10 2023-07-21 北京百度网讯科技有限公司 长文本预测方法、装置、设备和存储介质
CN110286778B (zh) * 2019-06-27 2023-08-15 北京金山安全软件有限公司 一种中文深度学习输入法、装置及电子设备
CN110286778A (zh) * 2019-06-27 2019-09-27 北京金山安全软件有限公司 一种中文深度学习输入法、装置及电子设备
CN111507366B (zh) * 2019-11-07 2021-06-08 马上消费金融股份有限公司 推荐概率模型的训练方法、智能补全方法及相关装置
CN113126779A (zh) * 2019-12-30 2021-07-16 阿里巴巴集团控股有限公司 人机交互方法、装置、设备及系统
CN111372108A (zh) * 2020-02-03 2020-07-03 未来电视有限公司 搜索方法、装置、电子设备及存储介质
CN111159416A (zh) * 2020-04-02 2020-05-15 腾讯科技(深圳)有限公司 语言任务模型训练方法、装置、电子设备及存储介质
CN111159416B (zh) * 2020-04-02 2020-07-17 腾讯科技(深圳)有限公司 语言任务模型训练方法、装置、电子设备及存储介质
CN113589954A (zh) * 2020-04-30 2021-11-02 北京搜狗科技发展有限公司 一种数据处理方法、装置和电子设备
CN113449515A (zh) * 2021-01-27 2021-09-28 心医国际数字医疗系统(大连)有限公司 一种医学文本的预测方法、预测装置及电子设备

Similar Documents

Publication Publication Date Title
CN107621891A (zh) 一种文本输入方法、装置及电子设备
CN108363790B (zh) 用于对评论进行评估的方法、装置、设备和存储介质
CN107704102B (zh) 一种文本输入方法及装置
CN107480143B (zh) 基于上下文相关性的对话话题分割方法和系统
CN104331449B (zh) 查询语句与网页相似度的确定方法、装置、终端及服务器
CN110895559B (zh) 模型训练、文本处理方法、装置以及设备
CN110019843A (zh) 知识图谱的处理方法及装置
US20220019725A1 (en) System and method of highlighting influential samples in sequential analysis
Chowdhury et al. Analyzing sentiment of movie reviews in bangla by applying machine learning techniques
CN108804677A (zh) 结合多层级注意力机制的深度学习问题分类方法及系统
CN107506389B (zh) 一种提取职位技能需求的方法和装置
CN106547737A (zh) 基于深度学习的自然语言处理中的序列标注方法
CN110276456A (zh) 一种机器学习模型辅助构建方法、系统、设备及介质
CN110929498B (zh) 一种短文本相似度的计算方法及装置、可读存储介质
CN110727593A (zh) 基于历史需求数据挖掘的测试用例智能生成方法及介质
CN108733644A (zh) 一种文本情感分析方法、计算机可读存储介质及终端设备
CN110826298B (zh) 一种智能辅助定密系统中使用的语句编码方法
CN110532354A (zh) 内容的检索方法及装置
CN110516070A (zh) 一种基于文本纠错与神经网络的中文问句分类方法
CN110347833B (zh) 一种多轮对话的分类方法
CN108846033A (zh) 特定领域词汇的发现及分类器训练方法和装置
CN114722198A (zh) 产品分类编码确定方法、系统及相关装置
CN112035629A (zh) 基于符号化知识与神经网络的问答模型的实现方法
CN108009150B (zh) 一种基于循环神经网络的输入方法及装置
CN115905539A (zh) 一种基于CNNFeed网络模型的文本分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20180123