CN102902362B - 文字输入方法及系统 - Google Patents

文字输入方法及系统 Download PDF

Info

Publication number
CN102902362B
CN102902362B CN201110209014.0A CN201110209014A CN102902362B CN 102902362 B CN102902362 B CN 102902362B CN 201110209014 A CN201110209014 A CN 201110209014A CN 102902362 B CN102902362 B CN 102902362B
Authority
CN
China
Prior art keywords
user
language model
candidate
sentence
entry
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201110209014.0A
Other languages
English (en)
Other versions
CN102902362A (zh
Inventor
肖镜辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Shiji Guangsu Information Technology Co Ltd
Original Assignee
Shenzhen Shiji Guangsu Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Shiji Guangsu Information Technology Co Ltd filed Critical Shenzhen Shiji Guangsu Information Technology Co Ltd
Priority to CN201110209014.0A priority Critical patent/CN102902362B/zh
Priority to EP12811503.7A priority patent/EP2733582A4/en
Priority to US14/232,737 priority patent/US9176941B2/en
Priority to JP2014519401A priority patent/JP5926378B2/ja
Priority to PCT/CN2012/078591 priority patent/WO2013007210A1/zh
Publication of CN102902362A publication Critical patent/CN102902362A/zh
Application granted granted Critical
Publication of CN102902362B publication Critical patent/CN102902362B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

一种文字输入方法,包括以下步骤:获取用户标识,根据用户标识查找对应的用户语言模型;获取用户输入,根据所述用户输入生成候选语句列表;获取通用语言模型,根据所述用户语言模型和通用语言模型计算所述候选语句列表中的候选语句的上屏概率;按照所述上屏概率的大小顺序对所述候选语句列表中的候选语句进行排序;输出排序后的候选语句列表。采用上述文字输入方法,能够提高文字输入的准确率和文字输入的速度。此外,还提供了一种文字输入系统。

Description

文字输入方法及系统
【技术领域】
本发明涉及文字输入领域,特别涉及一种文字输入方法及系统。
【背景技术】
输入法软件是一种常见的文字输入系统,通常的操作流程为:输入法软件接收用户通过键盘输入的代码序列(如拼音或五笔等),然后将代码序列作为参数利用通用语言模型找出与代码序列对应的候选语句序列,并计算出每个候选语句在候选语句序列中的上屏概率,然后根据上屏概率的大小将候选语句序列排序,最后将候选语句序列展现给用户。用户只需要在候选语句序列中选出想要的词语即可完成输入。
传统的文字输入方法,一般采用通用语言模型构建输入法的核心,这种通用语言模型是通过对大规模训练语料统计分析后得到的,大规模训练语料通常从互联网上自动获取,代表了大多数用户的一般性输入需求,即这种通用语言模型根据大多数人输入文字时的具有普遍性的选词习惯建立。而用户在使用输入法软件输入文字时,往往希望能够快速获取自己常用以及习惯性使用的文字,每个用户在进行选词时,由于身份不一样,兴趣爱好和文字输入的领域不一样,所希望排序靠前的候选语句序列也不一样。例如,科研工作者和银行职员在输入文字时,往往希望自己领域的专业术语排在最前面。再例如,东北人和四川人在输入文字时,也往往希望自己的方言词汇能排在候选语句序列的前列。而传统的这种仅采用通用语言模型的文字输入方法并不能满足不同用户的输入需求,使得输入的准确率不高,从而影响用户输入文字的速度。
【发明内容】
基于此,有必要提供一种能提高文字输入速度的文字输入方法。
一种文字输入方法,包括以下步骤:
获取用户标识,根据用户标识查找对应的用户语言模型;
获取用户输入,根据所述用户输入生成候选语句列表;
获取通用语言模型,根据所述用户语言模型和通用语言模型计算所述候选语句列表中的候选语句的上屏概率;
按照所述上屏概率的大小顺序对所述候选语句列表中的候选语句进行排序;
输出排序后的候选语句列表。
优选的,所述方法还包括建立与用户标识对应的用户语言模型并在每次用户输入词条后根据用户输入的词条信息更新用户语言模型的步骤。
优选的,所述更新用户语言模型的步骤具体为:
记录用户输入的词条信息和词频信息;
获取所述词条信息和词频信息,对词条进行分词,根据所述词频信息对分词后的词条进行词频整理;
根据分词后的词条和整理后的词频更新所述用户语言模型。
优选的,所述根据所述用户语言模型和通用语言模型计算所述候选语句列表中的候选语句的上屏概率的步骤为:
对所述用户语言模型和通用语言模型进行线性插值,生成混合模型,根据所述混合模型计算所述候选语句列表中的候选语句的上屏概率。
文字输入方法,包括以下步骤:
客户端获取用户标识,根据用户标识从服务器查找对应的用户语言模型;
所述客户端获取用户输入,将所述用户输入上传到服务器,所述服务器根据所述用户输入生成候选语句列表;
所述服务器获取通用语言模型,根据所述用户语言模型和通用语言模型计算所述候选语句列表中的候选语句的上屏概率;
所述服务器按照所述上屏概率的大小顺序对所述候选语句列表中的候选语句进行排序,将排序后的候选语句列表下发到所述客户端;
所述客户端接收所述排序后的候选语句列表并输出。
优选的,所述方法还包括在服务器上建立与用户标识对应的用户语言模型并在每次用户输入词条后根据用户输入的词条信息更新用户语言模型的步骤。
优选的,所述更新用户语言模型的步骤具体为:
记录用户输入的词条信息和词频信息;
获取所述词条信息和词频信息,对词条进行分词,根据所述词频信息对分词后的词条进行词频整理;
根据分词后的词条和整理后的词频更新所述用户语言模型。
优选的,所述服务器根据所述用户语言模型和通用语言模型计算所述候选语句列表中的候选语句的上屏概率的步骤为:
对所述用户语言模型和通用语言模型进行线性插值,生成混合模型,根据所述混合模型计算所述候选语句列表中的候选语句的上屏概率。
此外,还有必要提供一种能提高文字输入速度的文字输入系统。
一种文字输入系统,包括:
查找模块,用于获取用户标识,根据用户标识查找对应的用户语言模型;
候选语句列表生成模块,用于获取用户输入,根据所述用户输入生成候选语句列表;
概率计算模块,用于根据所述用户语言模型和通用语言模型生成所述候选语句列表中的候选语句的上屏概率;
排序模块,用于按照所述上屏概率的大小顺序对所述候选语句列表中的候选语句进行排序;
输出模块,用于输出排序后的候选语句列表。
优选的,所述系统还包括:
用户语言模型建立模块,用于建立与用户标识对应的用户语言模型;
用户语言模型更新模块,用于在每次用户输入词条后根据用户输入的词条信息更新用户语言模型。
优选的,所述用户语言模型更新模块用于记录用户输入的词条信息和词频信息,获取所述词条信息和词频信息,对词条进行分词,根据所述词频信息对分词后的词条进行词频整理,根据分词后的词条和整理后的词频更新所述用户语言模型。
优选的,所述上屏概率生成模块用于对所述用户语言模型和通用语言模型进行线性插值,生成混合模型,根据所述混合模型计算所述候选语句列表中的候选语句的上屏概率。
上述文字输入方法及系统,结合了用户语言模型和通用语言模型,由于用户语言模型可根据用户输入进行训练得到,使得排序后的候选语句列表中排序靠前的候选语句更符合用户的语言习惯,使得用户能够更快的获取到所需要的候选语句,提高了文字输入的准确率,也提高了文字输入速度。
【附图说明】
图1为一个实施例中文字输入方法的流程示意图;
图2为另一个实施例中文字输入方法的流程示意图;
图3为一个实施例中文字输入系统的结构示意图;
图4为另一个实施例中文字输入系统的结构示意图。
【具体实施方式】
在一个实施例中,如图1所示,一种文字输入方法,包括以下步骤:
步骤S102,获取用户标识,根据所述用户标识查找对应的用户语言模型。
用户标识用于唯一标识用户,可以是用户在输入法软件上注册的帐号、为用户分配的标识号码、以及与用户所使用的设备关联的IP地址、MAC地址等。
在一个实施例中,在步骤S102之前需建立与用户标识对应的用户语言模型,在每次用户输入词条后则根据用户输入的词条信息更新用户语言模型。由于用户语言模型根据用户输入的词条信息进行训练得到的,符合用户个人的语言习惯。用户语言模型训练得到后可存储在本地,也可以上传到服务器中存储。
步骤S104,获取用户输入,根据用户输入生成候选语句列表。
用户输入可以是语音、手写体、光学字符或字符串等,可采用传统的文字输入方法从词库中找到与用户输入匹配的候选语句,生成候选语句列表。
步骤S106,获取通用语言模型,根据用户语言模型和通用语言模型计算候选语句列表中的候选语句的上屏概率。
通用语言模型可以是传统的统计语言模型,通过对大规模训练语料进行统计分析得到,大规模训练语料可通过互联网从大量用户输入的语句中获取。用户语言模型是与用户个人对应的,不同的用户所对应的用户语言模型不同。通用语言模型可以存储在服务器,也可以存储在客户端。
用户语言模型根据用户输入进行训练得到,应当说明的是,对于使用输入法软件进行首次输入时,由于用户语言模型未更新,则仅采用通用语言模型计算候选语句列表的候选语句的上屏概率,其方法原理与传统的采用通用语言模型的输入方法相同,在此则不再赘述。
在用户每次使用输入法软件输入文字后,记录用户输入的词条,根据用户输入的词条信息更新语言模型,用户语言模型与用户标识进行对应存储,在下一次输入文字时,则可采用所建立的用户语言模型和通用语言模型一起用于计算候选语句列表中的候选语句的上屏概率。
在一个实施例中,通用语言模型和用户语言模型一起存储在本地客户端中,则可直接从本地客户端中获取到用户语言模型和通用语言模型,用于计算候选语句列表中的候选语句的上屏概率。该实施例中,客户端不需要向服务器发送任何请求,该方法也称为“本地输入法”。
在另一个实施例中,通用语言模型和用户语言模型存储在服务器,服务器获取通用语言模型和用户语言模型,用于计算候选语句列表中的候选语句的上屏概率,该实施例中,输入法的处理过程都交由服务器来执行,也称为“云输入法”。
步骤S108,按照上屏概率的大小顺序对候选语句列表中的候选语句进行排序。
本实施例中,按照上屏概率从大到小的顺序对候选语句列表中的候选语句进行排序,排序越靠前的候选语句就越符合用户的语言习惯,更可能为用户所需求,因此用户可以更加快速的选择到所需要的候选语句,提高了文字输入的准确率,也提高了文字输入的速度。
步骤S110,输出排序后的候选语句列表。
用户可以从优选词列表中选择所需候选语句,所选择的候选语句从输入法软件上屏到不同应用程序中,如文本文件、记事本、演示文档中等。
在一个实施例中,步骤S110的具体过程为:输出上屏概率最大的候选语句,该上屏概率最大的候选语句位于输出列表的最前位置,用户可以快速选择到该上屏概率最大的候选语句。
在另一个实施例中,步骤S110的具体过程为:输出采用本地输入法处理得到的上屏概率最大的第一候选语句,以及输出采用云输入法处理得到的上屏概率最大的第二候选语句,在输出列表中输出第一候选语句和第二优选语句,并且第一候选语句的排序最靠前,第二候选语句排序在第一候选语句后面。这样,用户可以快速选择两种输入法得到的上屏概率最大的候选语句。
在一个实施例中,上述文字输入方法还包括建立与用户标识对应的用户语言模型并在每次用户输入词条后根据用户输入的词条信息更新用户语言模型的步骤。具体的,建立与用户标识对应的用户词库,在每次用户输入词条后,将用户输入的词条信息和词频信息加入到用户词库中。更新用户语言模型时,从用户词库中获取词条信息和词频信息,对词条进行分词,根据原有词条的词频,对分词后的词条进行词频整理,根据分词后的词条和整理后的词频更新用户语言模型。其中,词频为词条在用户词库中出现的次数。
在一个实施例中,用户语言模型与通用语言模型采用相同的语言模型,即采用Ngram语言模型建模,但训练集合是不相同的,用户语言模型的训练集合是用户词库中的所有词语序列集合,与某一个用户对应,通用语言模型的的训练集合是大量用户输入的词语序列集合,可通过互联网获取。
其中,用户语言模型的概率计算公式为:
其中,Puser(S)为包含m个词语的语句S=wiw2...wm的概率;语句S由词语序列w1w2...wm组成,其中,wi为语句S中的词语,语句S由m个词语组成,例如“你今天吃饭了么”可分解为“/你/今天/吃饭/了/么”;Puser(wi|wi-n+1...wi-1)可采用最大似然方法进行概率统计,计算公式为:
其中,c(wi-n+1...wi-1wi)表示词语序列wi-n+1...wi-1wi在训练集合中出现的次数,c(wi-n+1...wi-1)表示词语序列wi-n+1...wi-1在训练集合中出现的次数。训练集合是用户词库中是所有词语序列集合。
在一个优选的实施例中,用户语言模型采用更低阶的语言模型,例如Unigram语言模型,其相对于Ngram语言模型所占用的存储空间更小,特别适用于在移动终端上使用。本实施例中,用户语言模型的概率计算公式为:
其中,Puser(S)为包含m个词语的语句S=wiw2...wm的概率。
在另一个优选的实施例中,用户语言模型还可采用Bigram语言模型,该语言模型相对于上述两种语言模型,其建模的速度更快,特别适用于云输入法中。本实施例中,用于语言模型的概率计算公式为:
其中,Puser(S)为包含m个词语的语句S=wiw2...wn的概率;Puser(wi|wi-1)表示语句S被分词为两个词语wi和wi-1,Puser(wi|wi-1)的计算公式为:
其中,c(wi-1wi)表示语句S在训练集合中出现的次数,c(wi-1)表示词语wi-1在训练集合中出现的次数。
在一个实施例中,根据用户语言模型和通用语言模型计算候选语句列表中的候选语句的上屏概率的步骤具体为:对用户语言模型和通用语言模型进行线性插值,生成混合模型,根据混合模型计算候选语句列表中的候选语句的上屏概率。
本实施例中,通用语言模型采用传统的Ngram语言模型,则将用户语言模型中的条件概率与通用语言模型中的条件概率进行融合,计算融合后的条件概率,其计算公式为:
Pmixture(wi|wi-n+1...wi-1)=a×P(wi|wi-n+1...wi-1)+(1-a)×Puser(wi|wi-n+1...wi-1)
其中,Pmixture(wi|wi-n+1...wi-1)表示融合后的条件概率,P(wi|wi-n+1...wi-1)表示通用语言模型的条件概率,Puser(wi|wi-n+1...wi-1)表示用户语言模型的条件概率,a为插值系数,取值在0到1之间。
根据融合后的条件概率,生成的混合模型为:
其中,P(S)为包含m个词语的语句S=wiw2...wm的概率。
候选语句列表中的候选语句的上屏概率为混合模型计算得到的候选语句可能被用户选择的概率。上屏概率越大,则候选语句在候选语句列表中排序越靠前,用户则能够快速选择到所需要的语句,提高了文字输入速度。
在一个实施例中,如图2所示,一种文字输入方法,包括以下步骤:
步骤S202,客户端获取用户标识,根据用户标识从服务器上查找对应的用户语言模型。
用户标识用于唯一标识用户,可以是用户在输入法软件上注册的帐号、为用户分配的标识号码、以及与用户所使用的设备关联的IP地址、MAC地址等。用户进行身份验证后登录到输入法软件,客户端获取到用户标识,将用户标识上传到服务器,由服务器查找对应的用户语言模型。
在一个实施例中,事先在服务器上建立与用户标识对应的用户语言模型,每次用户输入词条后,服务器获取用户输入的词条信息并根据用户输入的词条信息来更新用户语言模型。由于用户语言模型对应用户标识在服务器上存储,服务器上的用户语言模型可以根据用户输入进行不断更新,因此服务器上的用户语言模型越来越精确,用户在不同的客户端上使用输入法软件时,服务器将最新的用户语言模型下发到客户端,因此能够实现用户语言模型的同步,适用于不同的终端设备。
步骤S204,客户端获取用户输入,将用户输入上传到服务器,服务器根据用户输入生成候选语句列表。
用户输入可以是语音、手写体、光学字符或字符串等,客户端将用户输入上传到服务器,由服务器采用传统的文字输入方法从词库中找到与用户输入匹配的候选语句,生成候选语句列表。将文字输入方法的处理交由服务器来执行,这种文字输入法也称为“云输入法”。
步骤S206,服务器获取通用语言模型,根据用户语言模型和通用语言模型计算候选语句列表中的候选语句的上屏概率。
通用语言模型可以是传统的统计语言模型,通过对大规模训练语料进行统计分析得到,大规模训练语料可通过互联网从大量用户输入的语句中获取。用户语言模型是与用户个人对应的,不同的用户所对应的用户语言模型不同。
用户语言模型根据用户输入进行训练得到,应当说明的是,对于使用输入法软件进行首次输入时,由于用户语言模型未更新,则仅采用通用语言模型计算候选语句列表的候选语句的上屏概率,其方法原理与传统的采用通用语言模型的输入方法相同,在此则不再赘述。
在用户每次使用输入法软件输入文字后,记录用户输入的词条,根据用户输入的词条信息更新用户语言模型,用户语言模型与用户标识进行对应存储,在下一次输入文字时,则可采用所建立的用户语言模型和通用语言模型一起用于计算候选语句列表中的候选语句的上屏概率。
在一个实施例中,上述文字输入方法还包括在服务器上建立与用户标识对应的用户语言模型并在每次用户输入词条后根据用户输入的词条信息更新用户语言模型的步骤。具体的,在服务器上建立与用户标识对应的用户词库,在每次用户输入词条后,将用户输入的词条信息和词频信息加入到用户词库中。更新用户语言模型时,从用户词库中获取词条信息和词频信息,对词条进行分词,根据原有词条的词频,对分词后的词条进行词频整理,根据分词后的词条和整理后的词频更新用户语言模型。其中,词频为词条在用户词库中出现的次数。
在一个实施例中,用户语言模型可采用Bigram语言模型,其建模方法如上所述,在此则不再赘述。
在一个实施例中,服务器根据用户语言模型和通用语言模型计算候选语句列表中的候选语句的上屏概率的步骤具体为:服务器对用户语言模型和通用语言模型进行线性插值,生成混合模型,根据混合模型计算候选语句列表中的候选语句的上屏概率。
候选语句列表中的候选语句的上屏概率为混合模型计算得到的候选语句可能被用户选择的概率。上屏概率越大,则候选语句在候选语句列表中排序越靠前,用户则能够快速选择到所需要的语句,提高了文字输入速度。
步骤S208,服务器按照上屏概率的大小顺序对候选语句列表中的候选语句进行排序,将排序后的候选语句列表下发到客户端。
步骤S210,客户端接收排序后的候选语句列表并输出。用户可以从优选词列表中选择所需候选语句,所选择的候选语句从输入法软件上屏到不同应用程序中,如文本文件、记事本、演示文档中等。
在一个实施例中,如图3所示,一种文字输入系统,包括查找模块102、候选语句列表生成模块104、概率计算模块106、排序模块108和输出模块110,其中:
查找模块102用于获取用户标识,根据所述用户标识查找对应的用户语言模型。
用户标识用于唯一标识用户,可以是用户在输入法软件上注册的帐号、为用户分配的标识号码、以及与用户所使用的设备关联的IP地址、MAC地址等。
在一个实施例中,如图4所示,上述文字输入系统还包括用户语言模型建立模块112和用户语言模型更新模块114,其中:
用户语言模型建立模块112用于建立与用户标识对应的用户语言模型。
用户语言模型建立模块112可位于客户端也可位于服务器,所建立的用户语言模型可存储在客户端,也可存储在服务器。
用户语言模型更新模块114用于在每次用户输入词条后根据用户输入的词条信息更新用户语言模型。
用户语言模型更新模块114可位于客户端也可位于服务器,更新后的用户语言模型可存储在客户端,也可由客户端上传到服务器进行存储。这样,服务器上的用户语言模型可以根据用户输入进行不断更新,因此服务器上的用户语言模型越来越精确,用户在不同的客户端上使用输入法软件时,服务器将最新的用户语言模型下发到客户端,因此能够实现用户语言模型的同步,适用于不同的终端设备。
候选语句列表生成模块104用于获取用户输入,根据用户输入生成候选语句列表。
用户输入可以是语音、手写体、光学字符或字符串等,可采用传统的文字输入方法从词库中找到与用户输入匹配的候选语句,生成候选语句列表。
在一个实施例中,候选语句列表生成模块104可位于服务器端,由服务器采用传统的文字输入方法从词库中找到与用户输入匹配的候选语句,生成候选语句列表。将文字输入方法的处理交由服务器来执行,这种文字输入法也称为“云输入法”。
概率计算模块106用于获取通用语言模型,根据用户语言模型和通用语言模型计算候选语句列表中的候选语句的上屏概率。
通用语言模型可以是传统的统计语言模型,通过对大规模训练语料进行统计分析得到,大规模训练语料可通过互联网从大量用户输入的语句中获取。用户语言模型是与用户个人对应的,不同的用户所对应的用户语言模型不同。
用户语言模型根据用户输入进行训练得到,应当说明的是,对于使用输入法软件进行首次输入时,由于用户语言模型未更新,则仅采用通用语言模型计算候选语句列表的候选语句的上屏概率,其方法原理与传统的采用通用语言模型的输入方法相同,在此则不再赘述。
在用户每次使用输入法软件输入文字后,记录用户输入的词条,根据用户输入的词条信息更新语言模型,用户语言模型与用户标识进行对应存储,在下一次输入文字时,则可采用所建立的用户语言模型和通用语言模型一起用于计算候选语句列表中的候选语句的上屏概率。
排序模块108用于按照上屏概率的大小顺序对候选语句列表中的候选语句进行排序。
本实施例中,按照上屏概率从大到小的顺序对候选语句列表中的候选语句进行排序,排序越靠前的候选语句就越符合用户的语言习惯,更可能为用户所需求,因此用户可以更加快速的选择到所需要的候选语句,提高了文字输入的准确率,也提高了文字输入的速度。
输出模块110用于输出排序后的候选语句列表。
用户可以从优选词列表中选择所需候选语句,所选择的候选语句从输入法软件上屏到不同应用程序中,如文本文件、记事本、演示文档中等。
在一个实施例中,用户语言模型更新模块114用于记录用户输入的词条信息和词频信息,获取所述词条信息和词频信息,对词条进行分词,根据所述词频信息对分词后的词条进行词频整理,根据分词后的词条和整理后的词频更新用户语言模型。其中,词频为词条在用户词库中出现的次数。
在一个实施例中,用户语言模型与通用语言模型采用相同的语言模型,即采用Ngram语言模型建模,但训练集合是不相同的,用户语言模型的训练集合是用户词库中的所有词语序列集合,与某一个用户对应,通用语言模型的的训练集合是大量用户输入的词语序列集合,可通过互联网获取。
其中,用户语言模型的概率计算公式为:
其中,Puser(S)为包含m个词语的语句S=wiw2...wm的概率;语句S由词语序列w1w2...wm组成,其中,wi为语句S中的词语,语句S由m个词语组成,例如“你今天吃饭了么”可分解为“/你/今天/吃饭/了/么”;Puser(wi|wi-n+1...wi-1)可采用最大似然方法进行概率统计,计算公式为:
其中,c(wi-n+1...wi-1wi)表示词语序列wi-n+1...wi-1wi在训练集合中出现的次数,c(wi-n+1...wi-1)表示词语序列wi-n+1...wi-1在训练集合中出现的次数。训练集合是用户词库中是所有词语序列集合。
在一个优选的实施例中,用户语言模型采用更低阶的语言模型,例如Unigram语言模型,其相对于Ngram语言模型所占用的存储空间更小,特别适用于在移动终端上使用。本实施例中,用户语言模型的概率计算公式为:
其中,Puser(S)为包含m个词语的语句S=wiw2...wm的概率。
在另一个优选的实施例中,用户语言模型还可采用Bigram语言模型,该语言模型相对于上述两种语言模型,其建模的速度更快,特别适用于云输入法中。本实施例中,用于语言模型的概率计算公式为:
其中,Puser(S)为包含m个词语的语句S=wiw2...wn的概率;Puser(wi|wi-1)表示语句S被分词为两个词语wi和wi-1,Puser(wi|wi-1)的计算公式为:
其中,c(wi-1wi)表示语句S在训练集合中出现的次数,c(wi-1)表示词语wi-1在训练集合中出现的次数。
在一个实施例中,上屏概率生成模块106用于对用户语言模型和通用语言模型进行线性插值,生成混合模型,根据混合模型计算候选语句列表中的候选语句的上屏概率。
本实施例中,通用语言模型采用传统的Ngram语言模型,则将用户语言模型中的条件概率与通用语言模型中的条件概率进行融合,计算融合后的条件概率,其计算公式为:
Pmixture(wi|wi-n+1...wi-1)=a×P(wi|wi-n+1...wi-1)+(1-a)×Puser(wi|wi-n+1...wi-1)
其中,Pmixture(wi|wi-n+1...wi-1)表示融合后的条件概率,P(wi|wi-n+1...wi-1)表示通用语言模型的条件概率,Puser(wi|wi-n+1...wi-1)表示用户语言模型的条件概率,a为插值系数,取值在0到1之间。
根据融合后的条件概率,生成的混合模型为:
其中,P(S)为包含m个词语的语句S=wiw2...wm的概率。
候选语句列表中的候选语句的上屏概率为混合模型计算得到的候选语句可能被用户选择的概率。上屏概率越大,则候选语句在候选语句列表中排序越靠前,用户则能够快速选择到所需要的语句,提高了文字输入速度
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (9)

1.一种文字输入方法,包括以下步骤:
获取用户标识,根据用户标识查找对应的用户语言模型;
获取用户输入,根据所述用户输入查找与所述用户输入匹配的候选语句,生成候选语句列表;
获取通用语言模型,对所述用户语言模型和通用语言模型进行线性插值,生成混合模型,根据所述混合模型计算所述候选语句列表中的候选语句的上屏概率;
按照所述上屏概率的大小顺序对所述候选语句列表中的候选语句进行排序;
输出排序后的候选语句列表。
2.根据权利要求1所述的文字输入方法,其特征在于,所述方法还包括建立与用户标识对应的用户语言模型并在每次用户输入词条后根据用户输入的词条信息更新用户语言模型的步骤。
3.根据权利要求2所述的文字输入方法,其特征在于,所述更新用户语言模型的步骤具体为:
记录用户输入的词条信息和词频信息;
获取所述词条信息和词频信息,对词条进行分词,根据所述词频信息对分词后的词条进行词频整理;
根据分词后的词条和整理后的词频更新所述用户语言模型。
4.一种文字输入方法,包括以下步骤:
客户端获取用户标识,根据用户标识从服务器查找对应的用户语言模型;
所述客户端获取用户输入,将所述用户输入上传到服务器,所述服务器根据所述用户输入查找与所述用户输入匹配的候选语句,生成候选语句列表;
所述服务器获取通用语言模型,对所述用户语言模型和通用语言模型进行线性插值,生成混合模型,根据所述混合模型计算所述候选语句列表中的候选语句的上屏概率;
所述服务器按照所述上屏概率的大小顺序对所述候选语句列表中的候选语句进行排序,将排序后的候选语句列表下发到所述客户端;
所述客户端接收所述排序后的候选语句列表并输出。
5.根据权利要求4所述的文字输入方法,其特征在于,所述方法还包括在服务器上建立与用户标识对应的用户语言模型并在每次用户输入词条后根据用户输入的词条信息更新用户语言模型的步骤。
6.根据权利要求5所述的文字输入方法,其特征在于,所述更新用户语言模型的步骤具体为:
记录用户输入的词条信息和词频信息;
获取所述词条信息和词频信息,对词条进行分词,根据所述词频信息对分词后的词条进行词频整理;
根据分词后的词条和整理后的词频更新所述用户语言模型。
7.一种文字输入系统,其特征在于,包括:
查找模块,用于获取用户标识,根据用户标识查找对应的用户语言模型;
候选语句列表生成模块,用于获取用户输入,根据所述用户输入查找与所述用户输入匹配的候选语句,生成候选语句列表;
概率计算模块,用于对所述用户语言模型和通用语言模型进行线性插值,生成混合模型,根据所述混合模型计算所述候选语句列表中的候选语句的上屏概率;
排序模块,用于按照所述上屏概率的大小顺序对所述候选语句列表中的候选语句进行排序;
输出模块,用于输出排序后的候选语句列表。
8.根据权利要求7所述的文字输入系统,其特征在于,所述系统还包括:
用户语言模型建立模块,用于建立与用户标识对应的用户语言模型;
用户语言模型更新模块,用于在每次用户输入词条后根据用户输入的词条信息更新用户语言模型。
9.根据权利要求8所述的文字输入系统,其特征在于,所述用户语言模型更新模块用于记录用户输入的词条信息和词频信息,获取所述词条信息和词频信息,对词条进行分词,根据所述词频信息对分词后的词条进行词频整理,根据分词后的词条和整理后的词频更新所述用户语言模型。
CN201110209014.0A 2011-07-14 2011-07-25 文字输入方法及系统 Active CN102902362B (zh)

Priority Applications (5)

Application Number Priority Date Filing Date Title
CN201110209014.0A CN102902362B (zh) 2011-07-25 2011-07-25 文字输入方法及系统
EP12811503.7A EP2733582A4 (en) 2011-07-14 2012-07-13 METHOD, DEVICE AND SYSTEM FOR CHARACTER ENTRY
US14/232,737 US9176941B2 (en) 2011-07-14 2012-07-13 Text inputting method, apparatus and system based on a cache-based language model and a universal language model
JP2014519401A JP5926378B2 (ja) 2011-07-14 2012-07-13 テキスト入力方法、装置、およびシステム
PCT/CN2012/078591 WO2013007210A1 (zh) 2011-07-14 2012-07-13 文字输入方法、装置及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110209014.0A CN102902362B (zh) 2011-07-25 2011-07-25 文字输入方法及系统

Publications (2)

Publication Number Publication Date
CN102902362A CN102902362A (zh) 2013-01-30
CN102902362B true CN102902362B (zh) 2017-10-31

Family

ID=47574650

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110209014.0A Active CN102902362B (zh) 2011-07-14 2011-07-25 文字输入方法及系统

Country Status (1)

Country Link
CN (1) CN102902362B (zh)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104345899B (zh) * 2013-08-08 2018-01-19 阿里巴巴集团控股有限公司 用于输入法的字段转换方法及客户端
CN104281649B (zh) * 2014-09-09 2017-04-19 北京搜狗科技发展有限公司 一种输入方法、装置及电子设备
CN105389021B (zh) * 2015-11-09 2017-06-20 百度在线网络技术(北京)有限公司 输入框信息的显示方法和显示装置
CN105955495A (zh) * 2016-04-29 2016-09-21 百度在线网络技术(北京)有限公司 信息输入方法和装置
CN106293128B (zh) * 2016-08-12 2019-06-28 清华大学 盲式文字输入方法、盲式文字输入装置和计算装置
CN108958503A (zh) * 2017-05-26 2018-12-07 北京搜狗科技发展有限公司 输入方法和装置
CN109032374B (zh) * 2017-06-09 2023-06-20 北京搜狗科技发展有限公司 一种用于输入法的候选展示方法、装置、介质及设备
CN109388252B (zh) * 2017-08-14 2022-10-04 北京搜狗科技发展有限公司 一种输入方法及装置
CN108122555B (zh) * 2017-12-18 2021-07-23 北京百度网讯科技有限公司 通讯方法、语音识别设备和终端设备
CN108519870A (zh) * 2018-03-29 2018-09-11 联想(北京)有限公司 一种信息处理方法及电子设备
CN108874789B (zh) * 2018-06-22 2022-07-01 腾讯科技(深圳)有限公司 语句的生成方法、装置、存储介质和电子装置
CN110874146A (zh) * 2018-08-30 2020-03-10 北京搜狗科技发展有限公司 一种输入方法、装置及电子设备
CN109683727B (zh) * 2018-12-26 2021-07-16 联想(北京)有限公司 一种数据处理方法及装置
CN109710087B (zh) * 2018-12-28 2023-01-13 北京金山安全软件有限公司 输入法模型生成方法及装置
CN111143518B (zh) * 2019-12-30 2021-09-07 北京明朝万达科技股份有限公司 跨领域语言模型训练方法、装置、电子设备及存储介质
CN112506359B (zh) * 2020-12-21 2023-07-21 北京百度网讯科技有限公司 输入法中候选长句的提供方法、装置及电子设备
CN112987943B (zh) * 2021-03-10 2023-03-14 江西航智信息技术有限公司 一种远程控制学生移动终端输入法的云架构系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101030157A (zh) * 2007-04-20 2007-09-05 北京搜狗科技发展有限公司 一种用户词库同步更新的方法和系统
CN101833547A (zh) * 2009-03-09 2010-09-15 三星电子(中国)研发中心 基于个人语料库进行短语级预测输入的方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101266599B (zh) * 2005-01-31 2010-07-21 日电(中国)有限公司 输入方法和用户终端装置
CN101034390A (zh) * 2006-03-10 2007-09-12 日电(中国)有限公司 用于语言模型切换和自适应的装置和方法
CN101071342A (zh) * 2007-06-01 2007-11-14 腾讯科技(深圳)有限公司 在输入法中提供候选整句的方法及文字输入系统
CN101441524B (zh) * 2008-11-26 2011-02-16 腾讯科技(深圳)有限公司 输入法中候选内容的生成方法及装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101030157A (zh) * 2007-04-20 2007-09-05 北京搜狗科技发展有限公司 一种用户词库同步更新的方法和系统
CN101833547A (zh) * 2009-03-09 2010-09-15 三星电子(中国)研发中心 基于个人语料库进行短语级预测输入的方法

Also Published As

Publication number Publication date
CN102902362A (zh) 2013-01-30

Similar Documents

Publication Publication Date Title
CN102902362B (zh) 文字输入方法及系统
US10997370B2 (en) Hybrid classifier for assigning natural language processing (NLP) inputs to domains in real-time
CN102298582B (zh) 数据搜索和匹配方法和系统
CN106407236B (zh) 一种面向点评数据的情感倾向性检测方法
CN103970798B (zh) 数据的搜索和匹配
CN107220343A (zh) 基于局部敏感哈希的中文多关键词模糊排序密文搜索方法
CN102722483A (zh) 用于确定输入法的候选项排序的方法、装置和设备
CN106407235B (zh) 一种基于点评数据的语义词典构建方法
CN104281649A (zh) 一种输入方法、装置及电子设备
CN104809142A (zh) 商标查询系统和方法
CN101567189A (zh) 声音识别结果修正装置、方法以及系统
CN104778283B (zh) 一种基于微博的用户职业分类方法及系统
CN108304424B (zh) 文本关键词提取方法及文本关键词提取装置
CN110297880B (zh) 语料产品的推荐方法、装置、设备及存储介质
CN106934005A (zh) 一种基于密度的文本聚类方法
CN106126502A (zh) 一种基于支持向量机的情感分类系统及方法
CN104485107A (zh) 名称的语音识别方法、语音识别系统和语音识别设备
CN103546623A (zh) 用于发送语音信息及其文本描述信息的方法、装置与设备
WO2009003328A1 (fr) Système et procédé de requête de données
CN109815396A (zh) 搜索词权重确定方法及装置
CN102214238A (zh) 一种汉语词语相近性匹配装置及方法
CN102866781B (zh) 一种音字转换方法和系统
CN102970618A (zh) 基于音节识别的视频点播方法
CN111259645A (zh) 一种裁判文书结构化方法及装置
US20140022180A1 (en) Method for Inputting and Searching Chinese Characters with Easy-Strokes

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
ASS Succession or assignment of patent right

Owner name: SHENZHEN SHIJI LIGHT SPEED INFORMATION TECHNOLOGY

Free format text: FORMER OWNER: TENGXUN SCI-TECH (SHENZHEN) CO., LTD.

Effective date: 20131016

C41 Transfer of patent application or patent right or utility model
COR Change of bibliographic data

Free format text: CORRECT: ADDRESS; FROM: 518044 SHENZHEN, GUANGDONG PROVINCE TO: 518057 SHENZHEN, GUANGDONG PROVINCE

TA01 Transfer of patent application right

Effective date of registration: 20131016

Address after: A Tencent Building in Shenzhen Nanshan District City, Guangdong streets in Guangdong province science and technology 518057 16

Applicant after: Shenzhen Shiji Guangsu Information Technology Co., Ltd.

Address before: Shenzhen Futian District City, Guangdong province 518044 Zhenxing Road, SEG Science Park 2 East Room 403

Applicant before: Tencent Technology (Shenzhen) Co., Ltd.

REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1181155

Country of ref document: HK

C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
REG Reference to a national code

Ref country code: HK

Ref legal event code: GR

Ref document number: 1181155

Country of ref document: HK