CN101833547A - 基于个人语料库进行短语级预测输入的方法 - Google Patents

基于个人语料库进行短语级预测输入的方法 Download PDF

Info

Publication number
CN101833547A
CN101833547A CN200910118458A CN200910118458A CN101833547A CN 101833547 A CN101833547 A CN 101833547A CN 200910118458 A CN200910118458 A CN 200910118458A CN 200910118458 A CN200910118458 A CN 200910118458A CN 101833547 A CN101833547 A CN 101833547A
Authority
CN
China
Prior art keywords
speech
user
input
phrase
probability
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN200910118458A
Other languages
English (en)
Other versions
CN101833547B (zh
Inventor
万磊
何亮
叶松
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Samsung Electronics China R&D Center
Samsung Electronics Co Ltd
Original Assignee
Samsung Electronics China R&D Center
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Samsung Electronics China R&D Center, Samsung Electronics Co Ltd filed Critical Samsung Electronics China R&D Center
Priority to CN200910118458.6A priority Critical patent/CN101833547B/zh
Publication of CN101833547A publication Critical patent/CN101833547A/zh
Application granted granted Critical
Publication of CN101833547B publication Critical patent/CN101833547B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Document Processing Apparatus (AREA)

Abstract

本发明提供一种基于个人语料库进行短语级预测输入的方法,该方法包括以下步骤:收集用户过往的输入作为个人语料库;将用户过往的输入以句子为单位进行分词,拆分为具有独立意义的汉字以及词;统计词或由词组成的短语前后出现的频率,计算词或短语紧接着出现在前一词之后的条件概率,形成反映该用户独特语言习惯的概率文件;当用户后续进行输入时,在输入了开头的词或短语之后,根据所述概率文件预测出用户所可能期望输入的后续词、短语或句子,以便用户进行选择和快速输入。因此,用户在输入时,只需要输入开头的汉字或词,即可根据概率文件得到后续的可能候选词、短语或句子,便于提高输入效率。

Description

基于个人语料库进行短语级预测输入的方法
技术领域
本发明涉及一种预测输入的方法,更具体地讲,涉及一种基于个人语料库进行短语级预测输入的方法。
背景技术
由于中文书面句子中词语之间没有分割(区分于英文输入中,单词之间以空格间隔)以及中文词语划分没有清晰的定义,所以最早的中文输入法是以单个汉字为单位进行输入。
现有的大多数输入法可以进行词语的输入,但需要键入相应的拼音或笔画,然后由输入法提示出相应的备选字或词语,以供用户选择。由此带来的问题是,在进行汉字词语输入时,需要键入太多的信息,而且不具备词或短语之间的联想功能。
即使存在一些改进的输入法,具备词或短语之间的联想功能,但还存在以下问题:
1、词或短语之间联想的关联关系由来与本发明不同。例如,如何得到最初的未标记的语料库以及是否可以得到反映用户个人特有语言习惯的未标记语料库。
2、部分输入法支持惯用语或成语的联想,即当用户输入惯用语或成语的开头若干个字之后,输入法能将完整的惯用语或成语作为一个候选项提供给用户,但这类输入法所提供的惯用语或成语库只能是一个所有用户共同的语言习惯,且存在惯用语或成语库词汇量小,灵活性差,难以扩展的问题。
3、部分输入法支持对用户以往输入的完整句子进行缓存、匹配的功能,即记录一定数量的用户以往输入的完整句子,当用户再一次输入这个句子的开头若干个字之后,输入法能将该完整的历史句子作为一个候选项提供给用户,但这类输入法仅仅是对用户个人的输入历史的一种缓存,且同样存在灵活性差的问题。
4、从以上描述中可以看出,现有技术最大限度只能提供一个所有用户共同的语言习惯(或输入习惯)或对个人输入历史的一种缓存,而非用户个人独有的输入习惯。从效率以及适用性上来说,对于每一个用户都能提供反映他特有语言习惯的输入法,要优于对所有用户提供一个反映大众语言习惯的输入法。
发明内容
本发明的目的在于提供一种可以根据用户以往输入内容而进行提示的预测输入方法,使得用户在常用词语和常用句式方面,只需要输入开头的汉字或词语,即可在候选窗口中出现该用户习惯所用的词、短语或句子。
根据本发明的一方面,提供一种基于个人语料库进行短语级预测输入的方法,该方法包括以下步骤:收集用户过往的输入作为个人语料库;将用户过往的输入以句子为单位进行分词,拆分为具有独立意义的汉字以及词;统计词或由词组成的短语前后出现的频率,计算词或短语紧接着出现在前一词之后的条件概率,形成反映该用户独特语言习惯的概率文件;当用户后续进行输入时,在输入了开头的词或短语之后,根据所述概率文件预测出用户所可能期望输入的后续词、短语或句子,以便用户进行选择和快速输入。
当用户经常使用某些词的组合或固定句子时,相应增大这些词及短语之间的条件概率。在条件概率增大到大于指定阈值时,当用户在输入开头汉字或是词语后,根据概率文件,可预测出该用户后续可能希望输入的词、短语或句子,从而在候选窗口中显示出来,进而提高用户的输入效率。
本发明采集用户过往编辑的句子作为原句信息,经过处理后,形成反映用户独有的遣词造句习惯的概率文件,由此提高用户的输入效率。
根据本发明的基于个人语料库进行短语级预测输入的方法可实现如下效果:1、形成反映用户独有遣词造句习惯,使得用户的惯用短语或句型可以被识别;2、用户在输入时,只需要输入开头的汉字或词,即可根据概率文件得到后续的可能候选词、短语或句子,便于提高输入效率。
附图说明
通过结合附图,从下面的实施例的描述中,本发明这些和/或其它方面及优点将会变得清楚,并且更易于理解,其中:
图1是显示根据本发明的基于个人语料库进行短语级预测输入的方法的框图;
图2示出了中文句子是中文词与具有独立意义的汉字的组合的示意图;
图3显示了概率文件的形成过程;
图4显示了处理概率文件的条件流程;
图5显示了将用户输入的新词加入到词库中的处理流程;
图6显示了词库与概率文件之间的映射关系;
图7显示在输入法启动时一次性载入词库和概率文件的处理;
图8显示根据本发明的存储在内存中的概率文件与存储在磁盘上的概率文件的对应关系;
图9显示了根据本发明的在拼音输入法状态下拼音输入与词语预测如何共同使用的示例;以及
图10显示根据本发明实施例的基于个人语料库进行短语级预测输入的方法实现输入的总体操作的流程图。
具体实施方式
以下,参照附图来详细说明本发明的实施例。
本发明所涉及的是,收集用户过去曾经编辑的输入(如短信、邮件或其它文本信息)作为个人语料库,将其进行词语切分、短语抽取、概率计算等预处理,形成特定的概率文件。在该用户后续使用输入法进行编辑的时候,在用户输入了开头汉字或是词语之后,即可预测出用户后续可能需要输入的词、短语或句子。
图1是显示根据本发明的基于个人语料库进行短语级预测输入的方法的框图。该预测输入方法至少包括以下部分:个人语料库处理模块108、短语处理模块109、概率文件形成与调整模块110、输入预测模块111、词库调整与精简模块112、概率文件113。
以上模块是根据本发明的基于个人语料库进行短语级预测输入的方法区别于其它输入法所特有的模块。该预测输入方法还包括现有输入法所共有的一些模块,诸如设置模块101、前端模块102、面板模块103、帮助模块104、进程间通信模块105、引擎模块106、词库107,这里不再对其进行详细描述。
个人语料库处理模块108通过收集用户过去输入的文本信息(如短信、邮件),形成个人语料库,并将其存储到磁盘等存储介质上。用户过去输入的文本信息以句子为基本单位被存储在存储介质上,作为原句信息。
短语处理模块109执行短语抽取、条件概率计算等步骤,以便由概率文件形成与调整模块110形成输入法可识别并使用的概率文件113,用以提高用户的输入效率。
短语处理模块109的处理流程为:
1、将原句拆分为词。通过拆分,句子可以被分解为若干个具有独立意义的词以及若干独立的字。
2、将连续若干个词组成的词串定义为短语,该短语的定义包含了词、词串及整个句子的概念。
3、统计不同词、短语以及独立汉字之间出现的条件概率。
原句处理完毕后,从存储介质上删除此原句,以保护用户隐私并节省存储空间。
下面详细描述对原句进行拆分以及统计条件概率的过程。
对原句进行词语拆分是基于输入法已有的词库而进行的。输入法原有的词库会随着用户的输入增加新词。同样,为了保证输入法词库不会无限制的膨胀下去,词库调整与精简模块112去除一些使用频率不高且已经降低到某一阈值以下的词语。输入法的词库中词的使用频率通过使用次数以及最近使用时间进行统计。
分词方法可以是基于统计的分词方法,也可以基于现有输入法的词库来进行分词,但不局限于此。基于统计的分词虽然具有局限性,但是例如某些并不是词的常用字组(如“这一”、“之一”)对于本发明的应用性方面来说,恰恰也是用户的习惯输入,因此并不会对本发明的分词产生影响。
分词的方法是将整句拆解为词语及具有独立意义的汉字。具有独立意义的汉字是指连接词(如“的”、“和”)、语气助词(如“啊”)以及称谓(如“我”),以下简称为“独立汉字”。如图2所示,中文句子是中文词与具有独立意义的汉字的组合。这些汉字并不会被传统的分词归结为某一个词语,如“我们的”,但是在短语级输入的条件下,一个句式的组成是由若干词语以及独立汉字组成。在本预测输入方法的实现中,通过枚举的方法定义了这一类独立汉字。
短语处理模块109在抽取出词、短语之后,还需要统计相关词、短语以及独立汉字之间前后出现的条件概率。例如,对于两个连续出现的词wi和wi+1,wiwi+1这个词组出现的概率被标记为p(wi+1|wi),其含义是在词wi出现之后,词wi+1出现的可能性,计算方法是:
Figure B2009101184586D0000051
类似的,对于两个连续出现的短语wi...wi+m和wi+m+1...wi+n(m<n),
Figure B2009101184586D0000052
例如“我们”、“今天”分别是两个词语。那么“我们今天”这个短语出现的概率被标记为:p(今天|我们),其含义是在词语“我们”出现之后,词语“今天”出现的概率。所以,从长远的趋势来看,每一个用户都有自己独特的语言(说话)习惯,具体到输入法本身来说,就是用户总是会以更高概率的去输入某些词组、短语和句子。这种现象是因每一个用户都有不同的生活环境以及交际圈所决定的。因此某些词、短语之间共同出现的概率将会越来越高。
本发明使用条件概率而非词语同现概率的原因是:同现概率描述的是两个词语共同出现的可能性。例如,对于拼音输入“women jintian”,可能出现的候选有“我们今天”、“我闷近天”、“我们近天”等,其同现概率分别描述的是“我们”和“今天”、“我闷”和“近天”、“我们”和“近天”作为相邻词语同时出现的可能性。条件概率描述的是在现有输入词语的前提下,后续可能出现的词语的可能性。例如:对于拼音输入“women”,用户选择“我们”之后,可能出现的候选有“今天”、“明天”、“今天的任务是”等,条件概率描述的是在“我们”之后可能会出现“今天”、“明天”、“今天的任务是”的可能性。因此,根据本发明预测的目的,选用条件概率更合适。
当某些词、短语之间共同出现的概率高于某一阈值之后,即可认定其已经成为用户自己所独有的词组。同样,在多个词组以及独立汉字之间的概率高于某一阈值之后,即可认定一个整句的出现。由此带来的效果是:如果用户期望输入“我们今天的任务是把工作做完”,则当用户输入了“我们”之后,可能出现的选项按照概率的高低排列有1.“我们今天”、2.“我们今天的任务是”、3.“我们今天的任务是把工作做完”以及其他选项。
图3显示了概率文件113的形成过程。如图3所示,在步骤301,收集用户过去输入的文本信息。在步骤302,用户过去输入的文本信息被存储到磁盘中,作为原句信息。在步骤303,应用统计方法将原句拆分为词以及若干独立的字。在步骤304,统计不同词、短语以及独立汉字之间前后出现的条件概率。在步骤305,将这些条件概率以及汉字、词、短语存入到存储介质中。在步骤306,从磁盘上删除原句信息。经过以上处理,可形成反映用户特有语言习惯的概率文件113。
短语处理模块109进行处理的时机选择有以下必要条件:
1、原句信息达到一定数量。数量是以原句条目或是原句所占存储空间字节数计算,目的是对一定数目的原句进行批处理,以节约处理时间并提高性能。
2、在系统空闲并且处于非输入状态时。
3、在手持设备上使用的情况下,在电量充足时进行,以防止断电影响用户。
图4显示了处理概率文件113的条件流程。如图4所示,在步骤401,原句信息存储到磁盘上。在步骤402,判断原句信息是否足够以及系统是否处于空闲并且为非输入。如果满足该条件,则进行到步骤403,进行概率文件113的处理。否则,进行到步骤404,从而退出。
根据本发明,加入到输入法词库中的新词是指常用字组(如“之一”、“这一”),而非汉字词语的组合。
图5显示了将用户输入的新词加入到词库107中的处理流程。在步骤501,用户使用输入法进行文字输入。在步骤502,判断是否出现了新词。如果出现了新词,则在步骤503,将该新词加入到词库107中,并且还可以删除词库107中使用频率低的一些词。
概率文件形成与调整模块110将词、短语之间前后出现的概率信息以文件的形式存储在磁盘上永久保存,形成概率文件113。
概率文件113的存储与词库107的存储是分开的,由此形成模块化特征,便于功能裁剪。当不需要进行概率统计时,将相应模块简单删除即可。
概率文件113是反映词、短语之间前后出现的概率,并且与词库107分开存储。但是在概率文件113中并不需要重复出现词库107中的词语,可以采用简单的映射关系将概率文件113与词库107联系起来,概率文件113中的词语由简单的映射关系表示,概率文件113中的短语由词语映射关系的组合表示。图6显示了词库107与概率文件113之间的映射关系。
当预测输入方法发现两个或两个以上的词或短语的共同出现概率高于一指定阈值时,即可认定发现新的“词组”(或称为输入模式)。但是,该“词组”并不会加入到词库107中。例如,对于新的输入短语“黑道教父”,“黑道”和“教父”原先都是存在于词库107中的词语,因此“黑道教父”将不会被加入到词库107中,仅仅在概率文件113中反映了“黑道”与“教父”先后出现的概率很高而已。
在预测输入方法启动的时候,将会把概率文件113以及词库107一次全部载入到系统的内存中。词库107在内存中是以Hash表或Tie树的形式存在,而概率文件113在内存中是以Patricia树或Map表的形式存在。
图7显示在预测输入方法启动时一次性载入词库107和概率文件113的处理。参照图7,在步骤701,预测输入方法启动。在步骤702,进行系统内部初始化。在步骤703,将词库107载入到系统的内存中。在步骤704,将概率文件113载入到系统的内存中。
在概率文件113中,词、短语之间前后出现的概率随着用户的不断输入而变化。某些短语之间的共同出现次数越多,则其相互之间的条件概率也就越大,并且概率文件形成与调整模块110将这样的变化趋势反映在概率文件113中。如果短语之间的条件概率发生了改变,在预测输入方法被关闭或是在系统空闲时,概率文件形成与调整模块110将这样的变化存入到磁盘上的概率文件113中。
优选的是,概率文件113的变化的保存是以增量形式进行的。即,仅产生变化的部分才会被保存。因此内存结构中的概率文件113与磁盘上的概率文件113在每一个表示概率值的节点上可以一一对应,并可直接计算得到变化节点在磁盘文件中的偏移量。图8显示根据本发明的存储在内存中的概率文件与存储在磁盘上的概率文件的对应关系。在图8中,R1-R4分别表示的是条件概率值。
节点在磁盘文件与内存结构中的对应关系的保证,是建立在磁盘文件中,每一个节点所占据的空间是等长的。但是,这并不意味着每一个节点都是等长编码的。即使存在不等长编码的结构,可以通过加入空格对齐的方式保证每一个节点的等长。
输入预测模块111在用户已输入的基础上去判定后续可能出现词语的概率。即,假设用户当前输入词语wi,输入预测模块111寻找使得概率值p(wj|wi)最大的wj,j为从1到n的整数,其中n为句子的总词数,那么wj即为最可能出现的词语。在多元文法,如三元文法中,不仅仅考虑p(wj|wi),还需要考虑p(wj|wi-1wi)以及p(wj|wi-2wi-1wi),考虑前词的个数与多元文法的元数相同。
为了能进行整句输入,输入预测模块111还考虑p(wi+1|wi)、p(wi+1wi+2|wi)以及p(wi+1...wn|wi),其中,其中,i和n是自然数,n>i,并且n为句子的总词数。
图9显示了根据本发明的在拼音输入法状态下拼音输入与词语预测如何共同使用的示例。如果用户输入拼音“women”,则出现候选词“1.我们”、“2.我闷”等。如果用户选择1,则根据本发明的预测输入方法给出预测结果“1.我们今天”、“2.我们今天的任务是”、“2.我们今天的任务是把工作做完”。如果用户不选择上述的1、2、3而继续拼音输入(例如“mingtian”),则消除预测候选词,并进行拼音输入。
为了体现常用句式甚至整句的预测效果,输入预测模块111对于长短语的选择进行优先处理,即,概率值的增加数值与短语长度正相关。选中的短语长度越长,则其概率值增加也越快,从而使得长短语的概率值可以高于其部分的概率值。例如,在开始时选项按照概率的高低排列有1.“我们今天”、2.“我们今天的任务是”、3.“我们今天的任务是把工作做完”以及其他选项。在用户选择3一定次数之后,选项按照概率的高低排列有可能变为1.“我们今天的任务是把工作做完”、2.“我们今天”、3.“我们今天的任务是”。通过这样的机制保证了长短语甚至整句的优先输出。
输入预测模块111中存在自调整功能。自调整子模块的功能是,计算从用户输入到预测得出候选词、短语或句子的时间,并且将该时间与UI(userinterface)体验中用户可以等待的时间阈值进行比较。如果超出了UI中用户可以接受的等待时间,那么预测过程将会终止,返回到最原始的输入法状态。
根据本发明,基于个人语料库进行短语级预测输入的方法的输出是,用户进行了输入,假设是拼音输入(但不局限于此,也可以是笔画输入或五笔输入等),经过输入法处理,得到若干候选词。假设用户选择了词w1,此时候选词消失,输入法接着进行预测,得到候选词或短语w2、w3...序列,显示在输入法候选窗口中。如果用户进行了选择,那么w2、w3...序列中的选中词、短语或是句子显示在编辑框中。如果用户不需要这些预测,希望进行输入,则继续输入,经过输入法处理,继续得到候选词。
根据本发明的基于个人语料库进行短语级预测输入的方法需要根据用户的输入而不断调整词、短语之间前后出现的概率以及词库107。词库107以及概率文件113的调整是同步的。词库107以及概率文件113的改变超出了一定的阈值,输入法系统就会调整。调整时间是系统开机时,或者是在整个系统空闲时进行调整。
为了保证词库107以及概率文件113的调整时间最短,根据在用户进行输入时所产生的词或短语本身概率变化以及词或短语之间共同出现的概率变化,适时进行排序。由此产生的结果是,概率高的词或短语将会越来越排在搜索序列的前端,概率低的词或短语将会越来越排在搜索序列的后端。
由于输入概率的变化将会导致概率高的词或短语与概率低的词或短语分列在搜索序列的前端与后端。因此在搜索候选词或短语时,将从搜索序列前端开始。而在淘汰不常用的词或短语时,则从搜索序列后端开始搜索,由此保证了搜索以及调整算法的高效。在词或短语出现的频率降低到一定阈值时,就可以移除该词或短语及其概率关系。
图10显示根据本发明实施例的基于个人语料库进行短语级预测输入的方法实现输入的总体操作的流程图。
参照图10,在步骤1001,用户进行字符输入,可采用拼音、五笔、笔画等多种输入方式。在步骤1002,判断用户输入的字符是否是汉字词语。如果用户输入了汉字词语,则在步骤1003,进入预测输入流程。接着,在步骤1004,根据概率文件对用户输入的汉字词语进行预测匹配,然后在步骤1005得出候选词、短语或句子。另一方面,如果在步骤1002判断用户没有输入汉字词语,则在步骤1005,进入一般的输入法流程。接着在步骤1005,在输入法的词库中进行匹配,然后在步骤1005得出候选字符。在步骤1008,判断词库和概率文件是否发生变化。如果发生变化,则步骤1009,对存储的词库和概率文件进行调整。如果未发生变化,则进行到步骤1010从而退出。
如上所述。本发明采集用户过往编辑的句子作为原句信息,经过处理后,形成反映用户独有的遣词造句习惯的概率文件,由此提高用户的输入效率。
根据本发明的基于个人语料库进行短语级预测输入的方法可实现如下效果:1、形成反映用户独有遣词造句习惯,使得用户的惯用短语或句型可以被识别;2、用户在输入时,只需要输入开头的汉字或词,即可根据概率文件得到后续的可能候选词、短语或句子,便于提高输入效率。
根据本发明的基于个人语料库进行短语级预测输入的方法不仅可应用于各式计算机,也可应用于用户手持终端,例如移动通信终端、个人数字助理(PDA)等。
虽然本发明是参照其示例性的实施例被具体描述和显示的,但是本领域的普通技术人员应该理解,在不脱离由权利要求限定的本发明的精神和范围的情况下,可以对其进行形式和细节的各种改变。

Claims (17)

1.一种基于个人语料库进行短语级预测输入的方法,包括以下步骤:
收集用户过往的输入作为个人语料库;
将用户过往的输入以句子为单位进行分词,拆分为具有独立意义的汉字以及词;
统计词或由词组成的短语前后出现的频率,计算词或短语紧接着出现在前一词之后的条件概率,形成反映该用户独特语言习惯的概率文件;
当用户后续进行输入时,在输入了开头的词或短语之后,根据所述概率文件预测出用户所可能期望输入的后续词、短语或句子,以便用户进行选择和快速输入。
2.根据权利要求1所述的方法,其中,在收集用户过往的输入的步骤中,将用户过往输入的文本信息以句子为单位存储在存储介质上,作为原句信息。
3.根据权利要求2所述的方法,其中,基于现有的输入法的词库来执行所述分词步骤。
4.根据权利要求2所述的方法,其中,采用基于统计的方法来执行所述分词步骤。
5.根据权利要求3所述的方法,其中,输入法的词库中的词随着用户使用而不断增加和删除。
6.根据权利要求5所述的方法,其中,常用字组作为新词加入到输入法的词库中。
7.根据权利要求5所述的方法,其中,使用频率低的词语从输入法的词库被删除。
8.根据权利要求7所述的方法,其中,输入法的词库中词的使用频率通过使用次数以及最近使用时间进行统计。
9.根据权利要求2所述的方法,其中,在统计词或由词组成的短语前后出现的频率的步骤中,对于词wi+1紧接着出现在词wi之后的条件概率,记为
Figure F2009101184586C0000011
其中,i为自然数。
10.根据权利要求9所述的方法,其中,当两个词wi、wi+1之间的条件概率超过指定阈值时,根据词wi的输入,预测出词wi+1作为候选。
11.根据权利要求1所述的方法,其中,采用升降法不断调整词、短语之间概率的排列顺序,使得使用频率低的概率关系沉降到搜索序列的后端。
12.根据权利要求1所述的方法,其中,当词或短语出现的频率降低到一定阈值时,该词或短语及其概率关系被移除。
13.根据权利要求6或7所述的方法,其中,所形成的概率文件以及词库被存储在存储介质上进行保存。
14.根据权利要求1所述的方法,其中,在所述预测步骤中,当用户输入词wi时,根据概率文件中的概率关系寻找到该词wi之后的出现概率超出一定阈值的词wi+1或者短语wi+1...wn,其中,i和n为自然数,n>i。
15.根据权利要求1所述的方法,其中,在所述预测步骤中,寻找出现概率超出一定阈值并具有独立意义的汉字、词或短语,作为候选。
16.根据权利要求1所述的方法,其中,对于用户选中的短语,该短语的概率值的增加程度与该短语的长度正相关,短语长度越长,概率值增加越多。
17.根据权利要求2所述的方法,其中,在形成所述概率文件之后,删除存储在存储介质上的原句信息。
CN200910118458.6A 2009-03-09 2009-03-09 基于个人语料库进行短语级预测输入的方法 Active CN101833547B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN200910118458.6A CN101833547B (zh) 2009-03-09 2009-03-09 基于个人语料库进行短语级预测输入的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN200910118458.6A CN101833547B (zh) 2009-03-09 2009-03-09 基于个人语料库进行短语级预测输入的方法

Publications (2)

Publication Number Publication Date
CN101833547A true CN101833547A (zh) 2010-09-15
CN101833547B CN101833547B (zh) 2015-08-05

Family

ID=42717619

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200910118458.6A Active CN101833547B (zh) 2009-03-09 2009-03-09 基于个人语料库进行短语级预测输入的方法

Country Status (1)

Country Link
CN (1) CN101833547B (zh)

Cited By (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102867049A (zh) * 2012-09-10 2013-01-09 山东康威通信技术股份有限公司 一种基于单词查找树实现的汉语拼音快速分词方法
CN102902362A (zh) * 2011-07-25 2013-01-30 腾讯科技(深圳)有限公司 文字输入方法及系统
CN102915730A (zh) * 2012-10-19 2013-02-06 东莞宇龙通信科技有限公司 语音处理方法及系统
CN102915122A (zh) * 2012-07-19 2013-02-06 上海交通大学 基于语言模型的智能移动平台拼音输入法
CN103034407A (zh) * 2012-12-07 2013-04-10 东莞宇龙通信科技有限公司 终端和快速输入常用短语的方法
CN103076894A (zh) * 2012-12-31 2013-05-01 百度在线网络技术(北京)有限公司 一种用于根据对象标识信息构建输入词条的方法与设备
CN103077213A (zh) * 2012-12-28 2013-05-01 中山大学 一种应用于机顶盒的输入方法及其装置
WO2014032266A1 (en) * 2012-08-31 2014-03-06 Microsoft Corporation Personal language model for input method editor
CN104112447A (zh) * 2014-07-28 2014-10-22 科大讯飞股份有限公司 提高统计语言模型准确度的方法及系统
CN104375756A (zh) * 2013-08-16 2015-02-25 北京三星通信技术研究有限公司 触控操作的方法及装置
CN104778159A (zh) * 2015-03-31 2015-07-15 北京奇虎科技有限公司 一种基于词权重进行分词的方法和装置
CN105094367A (zh) * 2015-07-22 2015-11-25 北京锤子数码科技有限公司 一种短语输入方法及终端设备
CN105095191A (zh) * 2014-04-22 2015-11-25 富士通株式会社 基于多词单元进行辅助翻译的方法和装置
WO2016008452A1 (zh) * 2014-07-18 2016-01-21 上海触乐信息科技有限公司 高效输入的预测方法和装置
CN105912138A (zh) * 2016-04-06 2016-08-31 百度在线网络技术(北京)有限公司 一种短语的输入方法及装置
CN106125955A (zh) * 2016-06-23 2016-11-16 百度在线网络技术(北京)有限公司 一种用于在输入法应用中提供热词的方法和装置
CN106249914A (zh) * 2016-08-03 2016-12-21 太仓美宅姬娱乐传媒有限公司 一种文字输入方法及其系统
CN106484135A (zh) * 2016-09-23 2017-03-08 百度在线网络技术(北京)有限公司 一种用于提供输入候选项的方法与装置
CN106527752A (zh) * 2016-09-23 2017-03-22 百度在线网络技术(北京)有限公司 一种用于提供输入候选项的方法与装置
CN106649280A (zh) * 2017-02-13 2017-05-10 长沙军鸽软件有限公司 一种创建共享语料库的方法
WO2018024166A1 (zh) * 2016-08-03 2018-02-08 腾讯科技(深圳)有限公司 确定候选输入的方法、输入提示方法和电子设备
CN109062888A (zh) * 2018-06-04 2018-12-21 昆明理工大学 一种出现错误文本输入时的自纠正方法
CN109815459A (zh) * 2017-11-17 2019-05-28 奥多比公司 生成被调整到目标受众词汇的文本内容的目标概要
CN111523302A (zh) * 2020-07-06 2020-08-11 成都晓多科技有限公司 一种句法分析方法、装置、存储介质及电子设备
CN112036120A (zh) * 2020-08-31 2020-12-04 上海硕恩网络科技股份有限公司 一种技能短语抽取方法
CN112989798A (zh) * 2021-03-23 2021-06-18 中南大学 中文词库的构建方法、中文词库及应用
CN113703588A (zh) * 2020-05-20 2021-11-26 北京搜狗科技发展有限公司 一种输入方法、装置和用于输入的装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1232226A (zh) * 1998-03-30 1999-10-20 株式会社日立制作所 句子处理装置及其方法
CN1331449A (zh) * 1999-12-28 2002-01-16 松下电器产业株式会社 用于将粘着法构成的文本或文档分段成词的字符串划分或区分的方法及相关系统
CN101290632A (zh) * 2008-05-30 2008-10-22 北京搜狗科技发展有限公司 一种用户词参与智能组词输入的方法及一种输入法系统

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6052443A (en) * 1998-05-14 2000-04-18 Motorola Alphanumeric message composing method using telephone keypad
CN1293480C (zh) * 2003-08-11 2007-01-03 摩托罗拉公司 用于文本输入预测的存储器和用户词典
CN100530171C (zh) * 2005-01-31 2009-08-19 日电(中国)有限公司 字典学习方法和字典学习装置
CN101158969B (zh) * 2007-11-23 2010-06-02 腾讯科技(深圳)有限公司 一种整句生成方法及装置
CN101183351B (zh) * 2007-12-07 2011-05-11 腾讯科技(深圳)有限公司 一种文字输入方法及其系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1232226A (zh) * 1998-03-30 1999-10-20 株式会社日立制作所 句子处理装置及其方法
CN1331449A (zh) * 1999-12-28 2002-01-16 松下电器产业株式会社 用于将粘着法构成的文本或文档分段成词的字符串划分或区分的方法及相关系统
CN101290632A (zh) * 2008-05-30 2008-10-22 北京搜狗科技发展有限公司 一种用户词参与智能组词输入的方法及一种输入法系统

Cited By (43)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102902362A (zh) * 2011-07-25 2013-01-30 腾讯科技(深圳)有限公司 文字输入方法及系统
CN102902362B (zh) * 2011-07-25 2017-10-31 深圳市世纪光速信息技术有限公司 文字输入方法及系统
CN102915122A (zh) * 2012-07-19 2013-02-06 上海交通大学 基于语言模型的智能移动平台拼音输入法
CN102915122B (zh) * 2012-07-19 2015-11-11 上海交通大学 基于语言模型的智能移动平台拼音输入法
CN104823135A (zh) * 2012-08-31 2015-08-05 微软技术许可有限责任公司 用于输入法编辑器的个人语言模型
US9824085B2 (en) 2012-08-31 2017-11-21 Microsoft Technology Licensing, Llc Personal language model for input method editor
WO2014032266A1 (en) * 2012-08-31 2014-03-06 Microsoft Corporation Personal language model for input method editor
CN108052489A (zh) * 2012-08-31 2018-05-18 微软技术许可有限责任公司 用于输入法编辑器的个人语言模型
CN102867049A (zh) * 2012-09-10 2013-01-09 山东康威通信技术股份有限公司 一种基于单词查找树实现的汉语拼音快速分词方法
CN102915730A (zh) * 2012-10-19 2013-02-06 东莞宇龙通信科技有限公司 语音处理方法及系统
CN102915730B (zh) * 2012-10-19 2015-04-08 东莞宇龙通信科技有限公司 语音处理方法及系统
CN103034407A (zh) * 2012-12-07 2013-04-10 东莞宇龙通信科技有限公司 终端和快速输入常用短语的方法
CN103077213A (zh) * 2012-12-28 2013-05-01 中山大学 一种应用于机顶盒的输入方法及其装置
CN103076894B (zh) * 2012-12-31 2016-05-18 百度在线网络技术(北京)有限公司 一种用于根据对象标识信息构建输入词条的方法与设备
CN103076894A (zh) * 2012-12-31 2013-05-01 百度在线网络技术(北京)有限公司 一种用于根据对象标识信息构建输入词条的方法与设备
CN104375756A (zh) * 2013-08-16 2015-02-25 北京三星通信技术研究有限公司 触控操作的方法及装置
CN105095191A (zh) * 2014-04-22 2015-11-25 富士通株式会社 基于多词单元进行辅助翻译的方法和装置
WO2016008452A1 (zh) * 2014-07-18 2016-01-21 上海触乐信息科技有限公司 高效输入的预测方法和装置
CN104112447B (zh) * 2014-07-28 2017-08-25 安徽普济信息科技有限公司 提高统计语言模型准确度的方法及系统
CN104112447A (zh) * 2014-07-28 2014-10-22 科大讯飞股份有限公司 提高统计语言模型准确度的方法及系统
CN104778159A (zh) * 2015-03-31 2015-07-15 北京奇虎科技有限公司 一种基于词权重进行分词的方法和装置
CN105094367A (zh) * 2015-07-22 2015-11-25 北京锤子数码科技有限公司 一种短语输入方法及终端设备
WO2017012585A1 (zh) * 2015-07-22 2017-01-26 北京锤子数码科技有限公司 一种短语输入方法及终端设备
CN105912138A (zh) * 2016-04-06 2016-08-31 百度在线网络技术(北京)有限公司 一种短语的输入方法及装置
CN105912138B (zh) * 2016-04-06 2019-03-12 百度在线网络技术(北京)有限公司 一种短语的输入方法及装置
CN106125955A (zh) * 2016-06-23 2016-11-16 百度在线网络技术(北京)有限公司 一种用于在输入法应用中提供热词的方法和装置
CN106125955B (zh) * 2016-06-23 2019-05-07 百度在线网络技术(北京)有限公司 一种用于在输入法应用中提供热词的方法和装置
CN106249914A (zh) * 2016-08-03 2016-12-21 太仓美宅姬娱乐传媒有限公司 一种文字输入方法及其系统
WO2018024166A1 (zh) * 2016-08-03 2018-02-08 腾讯科技(深圳)有限公司 确定候选输入的方法、输入提示方法和电子设备
US11050685B2 (en) 2016-08-03 2021-06-29 Tencent Technology (Shenzhen) Company Limited Method for determining candidate input, input prompting method and electronic device
CN106484135A (zh) * 2016-09-23 2017-03-08 百度在线网络技术(北京)有限公司 一种用于提供输入候选项的方法与装置
CN106527752A (zh) * 2016-09-23 2017-03-22 百度在线网络技术(北京)有限公司 一种用于提供输入候选项的方法与装置
CN106484135B (zh) * 2016-09-23 2019-03-19 百度在线网络技术(北京)有限公司 一种用于提供输入候选项的方法与装置
CN106527752B (zh) * 2016-09-23 2019-03-19 百度在线网络技术(北京)有限公司 一种用于提供输入候选项的方法与装置
CN106649280B (zh) * 2017-02-13 2019-07-09 长沙军鸽软件有限公司 一种创建共享语料库的方法
CN106649280A (zh) * 2017-02-13 2017-05-10 长沙军鸽软件有限公司 一种创建共享语料库的方法
CN109815459A (zh) * 2017-11-17 2019-05-28 奥多比公司 生成被调整到目标受众词汇的文本内容的目标概要
CN109062888A (zh) * 2018-06-04 2018-12-21 昆明理工大学 一种出现错误文本输入时的自纠正方法
CN113703588A (zh) * 2020-05-20 2021-11-26 北京搜狗科技发展有限公司 一种输入方法、装置和用于输入的装置
CN111523302A (zh) * 2020-07-06 2020-08-11 成都晓多科技有限公司 一种句法分析方法、装置、存储介质及电子设备
CN112036120A (zh) * 2020-08-31 2020-12-04 上海硕恩网络科技股份有限公司 一种技能短语抽取方法
CN112989798A (zh) * 2021-03-23 2021-06-18 中南大学 中文词库的构建方法、中文词库及应用
CN112989798B (zh) * 2021-03-23 2024-02-13 中南大学 中文词库的构建方法、中文词库及应用

Also Published As

Publication number Publication date
CN101833547B (zh) 2015-08-05

Similar Documents

Publication Publication Date Title
CN101833547B (zh) 基于个人语料库进行短语级预测输入的方法
US9396178B2 (en) Systems and methods for an automated personalized dictionary generator for portable devices
KR101389148B1 (ko) 오리지널 유저 입력에 기초한 유저 입력의 제안 및 정제
JP5171813B2 (ja) ローカルなワードホイーリング/Webサーチのための人口統計に基づく分類
CN103294776B (zh) 一种智能手机通讯录模糊搜索的方法
KR100766169B1 (ko) 컴퓨터-구현 사전 학습 방법 및 상기 방법을 사용하는 장치, 입력 방법 및 상기 입력 방법을 사용하는 사용자 단말기 장치
CN100458795C (zh) 一种智能组词输入的方法和一种输入法系统及其更新方法
US20150220509A1 (en) Automatic context sensitive language correction using an internet corpus particularly for small keyboard devices
Stocky et al. A commonsense approach to predictive text entry
CN104021198B (zh) 基于本体语义索引的关系数据库信息检索方法及装置
CN102866782A (zh) 一种提高整句生成效率的输入法和输入法系统
KR101195341B1 (ko) 미등록 단어의 카테고리 결정 방법 및 장치
EP2875418B1 (en) String predictions from buffer
CN102737105A (zh) 一种字典树生成方法及搜索方法
CN102103416B (zh) 一种汉字输入方法和装置
Trost et al. The language component of the FASTY text prediction system
van den Bosch Effects of context and recency in scaled word completion
CN102999639A (zh) 一种基于语音识别字符索引的查找方法及系统
CN102014199A (zh) 一种信息显示方法及终端
Tantug A probabilistic mobile text entry system for agglutinative languages
CN113590797A (zh) 一种智能运维客服系统及实现方法
JP5601116B2 (ja) Nグラム検索のための転置インデックスの生成方法および生成装置、当該転置インデックスを用いた検索方法および検索装置、ならびに、コンピュータプログラム
JP2012194775A (ja) 情報処理装置の制御方法、制御プログラム及び情報処理装置
Maskey et al. Resampling auxiliary data for language model adaptation in machine translation for speech
CN114818663A (zh) 一种分级的智能拼音与文字匹配方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CP02 Change in the address of a patent holder
CP02 Change in the address of a patent holder

Address after: 5-12 / F, building 6, 57 Andemen street, Yuhuatai District, Nanjing City, Jiangsu Province

Patentee after: Samsung Electronics (China) R&D Center

Patentee after: SAMSUNG ELECTRONICS Co.,Ltd.

Address before: No. 268 Nanjing Huijie square Zhongshan Road city in Jiangsu province 210009 8 floor

Patentee before: Samsung Electronics (China) R&D Center

Patentee before: SAMSUNG ELECTRONICS Co.,Ltd.